CN115601473A

CN115601473A - 一种基于智能识别的印刷物排版系统和方法

Info

Publication number: CN115601473A
Application number: CN202211229551.6A
Authority: CN
Inventors: 刘仁庆; 康艳; 郑壮丽
Original assignee: Henan Science Magazine; Henan Academy of Sciences
Current assignee: Henan Science Magazine; Henan Academy of Sciences
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-01-13

Abstract

本发明公开了一种基于智能识别的印刷物排版系统和方法，排版系统包括文字编辑终端、图片编辑终端、数据服务器、中控装置、审核终端、印刷终端；数据服务器用于根据文字特征和图像特征，将对应的文字内容和图像内容进行关联合并，生成多个待排版的出版内容；中控装置用于根据出版内容的出版特征将所述多个出版内容进行聚类划分；在每个聚类划分后的版面中，将出版内容自动匹配每个容器，并进行容器和出版内容的自适应调整。本发明能够实现智能化自动化排版，不依赖人工，不浪费资源，提高了排版的合理性和正确性。

Description

一种基于智能识别的印刷物排版系统和方法

技术领域

本发明涉及印刷排版技术领域，尤其涉及一种基于智能识别的印刷物排版系统和方法。

背景技术

现如今在大多数印刷排版任务仍由人工完成，需要工作人员预先了解出版内容，并根据人工经验将出版内容设置在相应的排版位置上进行布局，在人工排版的流程中，需要多次的讨论、审核、修改、调整，步骤繁杂效率低下，难以满足当今社会对出版时效性的需求。

现有技术中也逐渐涌现出一些通过自动化设备来协助排版的技术，但是仍然高度依赖人工的操作。例如已授权发明专利CN111382552B，其提供一种排版处理方法、装置、设备和存储介质，该方法包括：响应于用户的第一触发操作，生成初始的版面布局图；获取待出版内容，并根据所述待出版内容，在所述初始的版面布局图中进行内容填充处理，得到并显示填充后的版面布局图；响应于用户的第二触发操作，对所述填充后的版面布局图进行布局调整，得到调整后的版面布局图；将所述调整后的版面布局图所对应的版式信息，发送给用于排版的终端设备，以使所述终端设备根据所述版式信息，对所获取到的所述待出版内容进行排版处理，得到排版后的版面。该专利中，虽然使用了平板电脑等移动设备来进行排版，带来了一定的便捷性和时效性，也避免了纸张浪费，但是该方案仍然需要人工大量的触发操作，而对于页数较多的期刊等出版物，这种大量的触控操作难以被人工快速掌握，并且容易出错，因此成为了推广自动化排版的一种门槛和障碍。

现有技术中也出现一种能够自动排版的技术，但是并未解决如何根据出版内容自动配置版面布局位置的问题，也未解决如何自动调整文字、图像从而使提高出版内容与排版布局的匹配度的问题。例如已授权发明专利 CN114510591B，提出一种数字图像生成排版系统和方法，该专利自动排版的核心在于基于排版阈值评价评分网络模型的输出评分结果是否预设标准，其中设定排版阈值的步骤为：根据用户使用频率，确定为当前用户的图片喜好程度，根据所述排版图层的初始位置拼接得到初始的图像状态，输入至强化学习模型，得到目标图像的目标图层以及目标图层的移动步长，将所述目标图层按照目标图层的移动步长进行移动，根据用户类别(如年龄、性别、职业分类)建立多个云端模板，并将当前云端模板录入云端数据库。该发明专利实现了自动排版，但是其自动排版是基于用户历史数据进行配置的，但是待排版的出版内容千变万化，无法根据历史排版配置来准确地对新生内容进行合理排版，因此，该发明的自动排版方式难以保证较高的排版正确率。

本发明专利的研究人员在印刷物的自动化排版的研发过程中，发现如何自动识别带排版的出版内容，根据出版内容的特征自动匹配合理的出版版式，是一直未解决的技术问题。并且，出版内容日新月异千变万化，而出版版式通常都是预设的、历史的，而老的版式难以匹配新的内容；而出版内容通常来自文字撰写者如编辑、记者，图片编辑者如摄影师、图像处理人员，出版内容经常会出现文字、图像标准不一致的情况，也难以完美与已有的固定版式模板相匹配。因此，如何识别出版内容、调整排版模板，并使出版内容与排版模板相匹配，也是急需解决的技术问题。

发明内容

发明目的：针对以上问题，本发明提出一种基于智能识别的印刷物排版系统及方法。

技术方案：

第一方面，本发明提出一种基于智能识别的印刷物排版系统，包括文字编辑终端、图片编辑终端、数据服务器、中控装置、审核终端、印刷终端；

文字编辑终端、图片编辑终端、中控装置分别与数据服务器通信连接；

数据服务器、审核终端、印刷终端分别与中控装置通信连接；

优选地，服务器用于接收文字编辑终端、图片编辑终端发送的文字信息和图像信息，根据文字特征和图像特征，将对应的文字内容和图像内容进行关联合并，生成多个待排版的出版内容；

数据服务器基于文字特征生成出版内容的出版特征，将出版内容和出版特征发送至中控装置；中控装置用于根据出版内容的出版特征将所述多个出版内容进行聚类划分；

在每个聚类划分后的版面中，将出版内容自动匹配每个容器，并进行容器和出版内容的自适应调整；

审核终端用于对排版完成的文件进行人工审核；

印刷终端用于将审核通过的文件进行印刷。

优选地，中控装置包括聚类模块，用于根据出版特征中的重要程度特征，将若干个出版内容按照重要程度排序，将重要程度最高的N₁项出版内容作为首页内容；其中N₁为首页版面的容器数量；

将剩余的若干出版内容划分至相对应的章节分类中，包括：识别出版特征中的标题特征和关键词特征，将标题特征和关键词特征作为机器学习模型的输入，获得机器学习模型输出的章节分类。

优选地，中控装置包括容器自适应调整模块和出版内容自适应调整模块。

第二方面，本发明还提供了一种基于智能识别的印刷物排版方法，包括：

步骤1、中控装置从数据服务器获取待排版的多个出版内容；

优选地，步骤1包括，若干文字编辑人员向服务器发送文字信息，若干图像编辑人员向服务器发送图像信息；其中文字信息包括文字内容和文字特征，图像信息包括图像内容和图像特征；

数据服务器根据文字特征和图像特征，将对应的文字内容和图像内容进行关联合并，生成多个待排版的出版内容；数据服务器基于文字特征生成出版内容的出版特征；中控装置从服务器获取待排版的多个出版内容及出版特征。

步骤2、中控装置根据出版内容的出版特征将所述多个出版内容进行聚类划分；

优选地，所述步骤2包括：

根据出版特征中的重要程度特征，将若干个出版内容按照重要程度排序，将重要程度最高的N₁项出版内容作为首页内容；其中N₁为首页版面的容器数量；

步骤3、在每个聚类划分后的版面中，将出版内容自动匹配每个容器，并进行容器和出版内容的自适应调整，包括：

步骤31、获取版面中每个容器的第一初始面积，并按照第一初始面积从小到大的顺序排序，获取第j个容器的第一初始面积S_j；

步骤32、获取每个出版内容的第二初始面积，并按照第二初始面积从小到大的顺序排序，判断第j个出版内容的第二初始面积是否小于S_j，若是则将其填入第j个容器中；其中j＝1，2，3…；循环判断直至出现某一个出版内容的第一初始面积大于相应的容器面积，则循环结束，进入步骤33；

其中，每个出版内容的第二初始面积的获取方式为：根据标题字数、图片大小和数量、文字数量计算第二初始面积；

S_i＝S_t+S_p+S_w

其中，S_i为第i个排版内容的面积，S_t为标题面积，S_p为图片面积，S_w为文字面积，且有S_t＝初始标题字号ta*标题字数tn*常系数μ；S_p＝图片数量pn* 原始图片分辨率pd*缩放系数m；S_w＝内容字数wn*常系数C；

步骤33、调整容器边界，包括：

步骤331、对于步骤32中已被填充了出版内容的容器，减小容器的第一初始面积至第一调整面积，减小面积的值为容器的第一初始面积与容器内的出版内容的第二初始面积的差值；

步骤332、对于步骤331中被减小面积的容器相邻的未填充出版内容的容器，增大其第一初始面积至第一调整面积，增大面积的值为步骤331中的减小面积的值；

步骤34、对剩余的出版内容和调整后的剩余容器进行分析，筛选出能够通过动态调节而匹配剩余容器的出版内容，包括：

步骤341、计算剩余的出版内容的第二初始面积的可调节动态阈值；其中，所述可调节动态阈值基于标题调节面积和图片调节面积进行计算：

其中，ΔS为可调节动态阈值，t为标题初始面积，Sp为图片初始面积，

为标题缩放系数，

为图片缩放系数，

和σ₂为预设的缩放调节参数阈值；

步骤342、获取剩余的容器中第一调整面积在区间[-ΔS_m，ΔS_m]的容器，填充入相应的出版内容，进入步骤35，其中ΔS_m为ΔS的最大值；

步骤35、对步骤34中已经填充至容器的出版内容进行动态调整，计算调整参数

令ΔS与相应容器的第一调整面积相等，获得关于

的二元一次方程；

令目标函数

最小；

加入约束条件

从而计算得到调整参数

对容器内的出版内容的面积进行调整；

步骤36、对于出版内容的第二初始面积超出第二阈值的出版内容，将其分配至多个容器进行填充；完成排版；

步骤4、将排版完成的文件发送至审核终端进行人工审核；

步骤5、将审核通过的文件发送至印刷终端执行印刷操作。

本发明相对于现有技术具有以下有益效果：

1、本发明优先寻找出版内容所占面积较少的项目，优先填充至容器中，基于已经填入容器的出版内容对已填充容器进行边界调整，使已填充的容器与出版内容匹配度高；并且，基于已填充容器的调整参数，对相邻的未填充的容器的边界进行调整，这样能够避免排版页面的浪费，避免出现大量的空白区域。这种调整方式是根据待排版的出版内容自适应低调整版面中的容器大小，自动化程度高，不依赖人工，且提高了排版的合理性和正确性。

2、本发明基于出版内容的面积和容器的面积进行关联匹配，并且对每个出版内容均设置有不同的动态调节阈值，表征了能够调节的面积的范围。本发明的动态调整阈值是基于标题和图片进行调节的，因为通常的出版物中，正文部分的文字大小和间距都是固定的，但是标题大小、图片大小具有一定的灵活调整范围，因此给与出版内容一定的动态调节的区间。因此，本发明的这种机制相当于放宽了匹配容器的要求，更容易使出版内容与容器匹配上，能够大大提高将出版内容填充到容器的效率。

3、本发明在对已经填充至容器内的出版内容进行调整时，由于标题和图片均能够进行调整，本发明基于标题调整参数和图片调整参数构成的目标函数最小的原则，从而使两者的权重分配较为平均，避免出现仅有标题调整而图片未调整，或仅有图片调整而标题未调整的情况，提高了排版美观性和合理性。

4、本发明基于文字编辑方、图像拍摄方、排版方、审核方、印刷方进行联动，提高了印刷排版的整体效率，并且不依赖于纸件传输，降低了错误率。

附图说明

图1为基于智能识别的印刷物排版系统结构示意图；

图2为基于智能识别的印刷物排版方法流程图。

具体实施方式

显然，本领域技术人员基于本发明的宗旨所做的许多修改和变化属于本发明的保护范围。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当称元件、组件被“连接”到另一元件、组件时，它可以直接连接到其他元件或者组件，或者也可以存在中间元件或者组件。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与所属领域中的普通技术人员的一般理解相同的意义。

为便于对实施例的理解，下面将结合做进一步的解释说明，且各个实施例并不构成对本发明的限定。下面结合附图和实施例对本发明的技术方案作进一步的说明。

实施例一：

如图1所示，本发明提出一种基于智能识别的印刷物排版系统，包括文字编辑终端、图片编辑终端、数据服务器、中控装置、审核终端、印刷终端；

数据服务器基于文字特征生成出版内容的出版特征，将出版内容和出版特征发送至中控装置；

中控装置用于根据出版内容的出版特征将所述多个出版内容进行聚类划分；

审核终端用于对排版完成的文件进行人工审核；印刷终端用于将审核通过的文件进行印刷。

其中，一件待排版的出版物具有多篇需要排版的文章，每一篇文章即为出版内容，通常来说出版内容包括标题、图片、正文等；通过本发明的系统将出版内容自动排版，将每一篇文章自动填充至每个版面中的容器中；其中，每个版面包含若干个容器，容器即为出版内容的填充区域；

实施例二：

如图2所示，本发明还提供了一种基于智能识别的印刷物排版方法，优选地，该方法包括：

步骤1、中控装置从数据服务器获取待排版的多个出版内容；

优选地，步骤1包括，若干文字编辑人员向服务器发送文字信息，若干图像编辑人员向服务器发送图像信息；

其中文字信息包括文字内容和文字特征，图像信息包括图像内容和图像特征；

数据服务器根据文字特征和图像特征，将对应的文字内容和图像内容进行关联合并，生成多个待排版的出版内容；

数据服务器基于文字特征生成出版内容的出版特征；中控装置从服务器获取待排版的多个出版内容及出版特征。

这里的文字特征包括重要程度、分类、标题、关键词等特征信息；图像特征包括重要程度、分类、标题等特征；

中控装置根据文字特征的标题与图像特征的标题，将文字内容与图像内容关联合并，从而生成每一篇待出版的文章，即每一篇待排版的出版内容；

中控装置为每一篇待排版的出版内容生成出版特征，其中出版特征是根据文字特征生成的；

优选地，出版特征可以和文字特征相同。

优选地，所述步骤2包括：

优选地，这里的机器学习模型可以为语义识别模型，通过对历史数据训练学习而形成该模型，能够根据标题特征和关键词特征，获取语义向量，通过神经网络模型，输出章节分类。

步骤32、获取每个出版内容的第二初始面积，并按照第二初始面积从小到大的顺序排序，判断第j个出版内容的第二初始面积是否小于S_j，若是则将其填入第j个容器中；其中j＝1，2，3…；

循环判断直至出现某一个出版内容的第一初始面积大于相应的容器面积，则循环结束，进入步骤33；

S_i＝S_t+S_p+S_w

其中，S_i为第i个排版内容的面积，S_t为标题面积，S_p为图片面积，S_w为文字面积；

且有S_t＝初始标题字号ta*标题字数tn*常系数μ；

S_p＝图片数量pn*原始图片分辨率pd*缩放系数m；

S_w＝内容字数wn*常系数C；

本发明首先获取版面中每个容器的第一初始面积，并按照第一初始面积从小到大的顺序排序，获取第1个容器的面积S₁；获取每个出版内容的第二初始面积，并按照第二初始面积从小到大的顺序排序，判断第1个出版内容的第二初始面积是否小于S₁，若是则将其填入第1个容器中；

进一步，循环上述步骤，获取第2个容器的面积S₂；判断第2个出版内容的第二初始面积是否小于S₂，若是则将其填入第2个容器中；获取第3个容器的面积S₃；判断第3个出版内容的第二初始面积是否小于S₃，若是则将其填入第3个容器中……循环判断，直至出现某一个出版内容的第一初始面积大于相应的容器面积，则循环结束，进入步骤33。

步骤33、调整容器边界，包括：

优选地，识别步骤32中已被填充了出版内容的容器的空白区域，空白区域的面积即为容器的第一初始面积与容器内的出版内容的第二初始面积的差值，获取空白区域的边界坐标，计算空白区域的长度和宽度，获取被填充了出版内容的容器与相邻未填充的容器的留白宽度，根据空白区域的长度或宽度以及留白宽度，获取平移距离，将空白区域的边界坐标经过平移距离转换得到相邻容器的调整后的边界坐标；

本发明优先寻找出版内容所占面积较少的项目，优先填充至容器中，基于已经填入容器的出版内容对已填充容器进行边界调整，使已填充的容器与出版内容完美匹配；并且，基于已填充容器的调整参数，对相邻的未填充的容器的边界进行调整，这样能够避免排版页面的浪费，避免出现大量的空白区域。这种调整方式是根据待排版的出版内容自适应低调整版面中的容器大小，自动化程度高，不依赖人工，且提高了排版的合理性和正确性。

为标题缩放系数，

为图片缩放系数，

和σ₂为预设的缩放调节参数阈值；

令ΔS与相应容器的第一调整面积相等，获得关于

的二元一次方程；

令目标函数

最小；

加入约束条件

从而计算得到调整参数

对容器内的出版内容的面积进行调整；

本发明基于出版内容的面积和容器的面积进行关联匹配，并且对每个出版内容均设置有不同的动态调节阈值，表征了能够调节的面积的范围。本发明的动态调整阈值是基于标题和图片进行调节的，因为通常的出版物中，正文部分的文字大小和间距都是固定的，但是标题大小、图片大小具有一定的灵活调整范围，因此给与出版内容一定的动态调节的区间。因此，本发明的这种机制相当于放宽了匹配容器的要求，更容易使出版内容与容器匹配上，能够大大提高将出版内容填充到容器的效率。

本发明在对已经填充至容器内的出版内容进行调整时，由于标题和图片均能够进行调整，本发明基于标题调整参数和图片调整参数构成的目标函数最小的原则，从而使两者的权重分配较为平均，避免出现仅有标题调整而图片未调整，或仅有图片调整而标题未调整的情况，提高了排版美观性和合理性。

优选地，还包括步骤37、自动在空白处生成预设图样，包括：自动识别空白区域，自动选择合适尺寸的预设图样进行缩放并填充至空白区域。

步骤4、将排版完成的文件发送至审核终端进行人工审核；

步骤5、将审核通过的文件发送至印刷终端执行印刷操作。

特别地，本发明不限于本文中所包含的实施方式和说明，并且权利要求应当被理解为包括那些实施方式的修改形式，该修改形式包括实施方式的部分和在所附权利要求的范围中的不同实施方式的元素的组合。本文中所描述的所有公开内容(包括专利和非专利公开内容)在此通过引用其全部内容并入到本文中。

Claims

1.一种基于智能识别的印刷物排版系统，包括文字编辑终端、图片编辑终端、数据服务器、中控装置、审核终端、印刷终端；文字编辑终端、图片编辑终端、中控装置分别与数据服务器通信连接；数据服务器、审核终端、印刷终端分别与中控装置通信连接；其特征在于，数据服务器用于接收文字编辑终端、图片编辑终端发送的文字信息和图像信息，根据文字特征和图像特征将对应的文字内容和图像内容进行关联合并，生成多个待排版的出版内容；数据服务器基于文字特征生成出版内容的出版特征，将出版内容和出版特征发送至中控装置；中控装置用于根据出版内容的出版特征将所述多个出版内容进行聚类划分；在每个聚类划分后的版面中，为出版内容自动匹配每个容器，并进行容器和出版内容的自适应调整；审核终端用于对排版完成的文件进行人工审核；印刷终端用于将审核通过的文件进行印刷。

2.根据权利要求1所述的基于智能识别的印刷物排版系统，其特征在于，中控装置包括聚类模块，用于根据出版特征中的重要程度特征，将若干个出版内容按照重要程度排序，将重要程度最高的N₁项出版内容作为首页内容；其中N₁为首页版面的容器数量；将剩余的若干出版内容划分至相对应的章节分类中，包括：识别出版特征中的标题特征和关键词特征，将标题特征和关键词特征作为机器学习模型的输入，获得机器学习模型输出的章节分类。

3.根据权利要求2所述的基于智能识别的印刷物排版系统，其特征在于，中控装置包括容器自适应调整模块和出版内容自适应调整模块。

4.一种应用于权利要求1-3中的基于智能识别的印刷物排版系统的基于智能识别的印刷物排版方法，其特征在于，该方法包括：

步骤1、中控装置从服务器获取待排版的若干个出版内容；

步骤3、在每个聚类划分后的版面中，将出版内容自动匹配每个容器，并进行容器的自适应调整和出版内容的自适应调整，包括：

步骤32、获取每个出版内容的第二初始面积，并按照第二初始面积从小到大的顺序排序，判断第j个出版内容的第二初始面积是否小于S_j，若是则将其填入第j个容器中；其中j＝1，2，3…；循环判断直至出现一个出版内容的第一初始面积大于相应的容器面积，则循环结束，进入步骤33；

S_i＝S_t+S_p+S_w

其中，S_i为第i个所述出版内容的第二初始面积，S_t为标题面积，S_p为图片面积，S_w为文字面积，且有S_t＝初始标题字号ta*标题字数tn*常系数μ；S_p＝图片数量pn*原始图片分辨率pd*缩放系数m；S_w＝内容字数wn*常系数C；

步骤33、自适应调整容器边界；

步骤34、对剩余的出版内容和调整后的剩余容器进行分析，筛选出能够通过动态调节而匹配剩余容器的出版内容；

步骤35、对步骤34中已经填充至容器的出版内容进行自适应动态调整，计算调整参数；

步骤4、将排版完成的文件发送至审核终端进行人工审核；

步骤5、将审核通过的文件发送至印刷终端执行印刷操作。

5.根据权利要求3所述的基于智能识别的印刷物排版方法，其特征在于，所述步骤1包括，若干文字编辑人员向服务器发送文字信息，若干图像编辑人员向服务器发送图像信息；其中文字信息包括文字内容和文字特征，图像信息包括图像内容和图像特征；数据服务器根据文字特征和图像特征，将对应的文字内容和图像内容进行关联合并，生成多个待排版的出版内容；数据服务器基于文字特征生成出版内容的出版特征；中控装置从服务器获取待排版的多个出版内容及出版特征。

6.根据权利要求5所述的基于智能识别的印刷物排版方法，其特征在于，所述步骤2包括：根据出版特征中的重要程度特征，将若干个出版内容按照重要程度排序，将重要程度最高的N₁项出版内容作为首页内容；其中N₁为首页版面的容器数量；将剩余的若干出版内容划分至相对应的章节分类中，包括：识别出版特征中的标题特征和关键词特征，将标题特征和关键词特征作为机器学习模型的输入，获得机器学习模型输出的章节分类。

7.根据权利要求6所述的基于智能识别的印刷物排版方法，其特征在于，所述步骤33、调整容器边界，包括：

步骤332、对于步骤331中被减小面积的容器相邻的未填充出版内容的容器，增大其第一初始面积至第一调整面积，增大面积的值为步骤331中的减小面积的值。

8.根据权利要求7所述的基于智能识别的印刷物排版方法，其特征在于，所述步骤34、对剩余的出版内容和调整后的剩余容器进行分析，筛选出能够通过动态调节而匹配剩余容器的出版内容，包括：