CN111144445B

CN111144445B - 印刷书刊书写格式的检错方法及系统、电子设备

Info

Publication number: CN111144445B
Application number: CN201911244026.XA
Authority: CN
Inventors: 黄湘燕
Original assignee: Water Transport Planning And Design Co ltd
Current assignee: Water Transport Planning And Design Co ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2024-02-20
Anticipated expiration: 2039-12-06
Also published as: CN111144445A

Abstract

本发明公开了一种印刷书刊书写格式的检错方法及系统、电子设备。其中，该方法包括：建立印刷书刊中与编号格式对应的数据字典，其中，数据字典中包含有多个编号格式样本库；获取目标印刷书刊的书刊图像，并识别书刊图像中的多个文本元素；将每个文本元素与数据字典匹配，以确定与目标印刷书刊对应的目标编号格式样本库；利用目标编号格式样本库，采集目标印刷书刊中编号格式的全部种类及数量，并建立各编号格式之间的逻辑对应关系；基于目标印刷书刊中编号格式的全部种类、数量以及各编号格式之间的逻辑对应关系，确定目标印刷书刊中出现编号格式错误的错误信息，实现对繁杂式样的印刷书刊书写格式的高效检错，提高印务工作的质量及印刷效率。

Description

印刷书刊书写格式的检错方法及系统、电子设备

技术领域

本发明涉及文本处理技术领域，具体而言，涉及一种印刷书刊书写格式的检错方法及系统、电子设备。

背景技术

相关技术中，印务工作者在接到出版任务时，会先检查待印刷的文件质量，不论每一本文件需要复印多少份，都要先查看首份样本质量。尤其在机器故障频发、天气阴冷的时候，复印机容易出现漏印、卡纸或其他问题，直接影响了文件的质量。但是，当前的文本质量检查往往是通过人工来一页页检查，这种检查方式很难发现印刷质量问题，造成浪费。

另外，在一些出版社或期刊出版的图纸、报告或书刊中，时常出现标题、图、表、公式、页码、日期及参考文献编号错误的问题，这些问题在一定程度上会严重影响书刊、报告的印刷质量，在一定程度上给读者带来阅读障碍，甚至导致其他读者在其它书刊上引用有编号或印刷错误的书刊。为减少此类问题的发生，很多出版社或期刊要求对文稿进行大面积繁杂而又单调地检错，工作量极为庞大。而当前的编号检错方式中，一般是直接通过文字识别装置来接受图像输入，并提取图像中的文字，进行简单的文字识别，但是这种识别方式仅注重文字本身的内容识别，未进一步对这些识别内容进行统计分析研究，仍然会导致编号格式在印刷过程中出现严重的错误，降低了印刷质量。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种印刷书刊书写格式的检错方法及系统、电子设备，以至少解决相关技术中在印刷书刊时，容易出现编号格式印刷错误，降低印刷质量的技术问题。

根据本发明实施例的一个方面，提供了一种印刷书刊书写格式的检错方法，包括：建立印刷书刊中与编号格式对应的数据字典，其中，所述数据字典中包含有多个编号格式样本库；获取目标印刷书刊的书刊图像，并识别所述书刊图像中的多个文本元素；将每个所述文本元素与所述数据字典匹配，以确定与所述目标印刷书刊对应的目标编号格式样本库；利用所述目标编号格式样本库，采集所述目标印刷书刊中编号格式的全部种类及数量，并建立各编号格式之间的逻辑对应关系；基于所述目标印刷书刊中编号格式的全部种类、数量以及各编号格式之间的逻辑对应关系，确定所述目标印刷书刊中出现编号格式错误的错误信息，其中，所述错误信息包括下述至少之一：错误位置、错误数量和错误格式分类结果。

可选地，建立印刷书刊中与编号格式对应的数据字典包括：确定多种书刊元素的编号格式，其中，所述书刊元素包括下述至少之一：标题、图、表、公式、页码、参考文献；获取每种书刊元素的编号格式的类型和数量；基于每种书刊元素的编号格式的类型和数量，建立所述数据字典。

可选地，获取目标印刷书刊的书刊图像，并识别所述书刊图像中的多个文本元素包括：在获取目标印刷书刊的书刊图像后，对所述书刊图像进行图像预处理，其中，所述图像预处理包括下述至少之一：二值化处理、图像倾斜校正；采用预设字符识别技术识别所述书刊图像中的书刊字符，其中，所述预设字符识别技术包括下述至少之一：建立书刊匹配模板的字符识别技术、人工智能神经网络的字符识别技术；采用预设文字识别技术识别所述书刊字符中的多个文本元素以及元素类型。

可选地，所述多个文本元素包括以下至少两种元素：标题名、图名、表名、公式名、页码名、参考文献，则将每个所述文本元素与所述数据字典匹配，以确定与所述目标印刷书刊对应的目标编号格式样本库包括：在所述文本元素为标题名时，根据所述标题名的编号格式建立文字、符号、数字组合的编号组；根据标题行数及标题字数判断所述编号组是否能组合为标题名；在确定所述编号组能组合为标题名时，确定标题名格式；在所述文本元素为图名时，根据数据字典中的图名编号格式识别所述目标印刷书刊中的图名编号；在所述文本元素为表名时，根据数据字典中的表名编号格式识别所述目标印刷书刊中的表名编号；在所述文本元素为公式名时，根据数据字典中的公式名编号格式识别所述目标印刷书刊中的所有公式编号；识别公式编号占据一行的第一公式编号形式以及识别公式编号占据公式两侧时的第二公式编号形式；在所述文本元素为页码名时，根据数据字典中的页码编号格式识别所述目标印刷书刊中的页眉或页脚；建立页码编号组；根据页码编号格式识别所有的页码号；在所述文本元素为参考文献时，根据数据字典中的参考文献编号格式识别所述目标印刷书刊中的文献序号和文献类型标识；基于所述文献序号和所述文献类型标识识别出参考文献名；基于识别出的标题名、图名编号、表名编号、公式编号、页码号、文献序号和参考文献名中的至少两种文本元素，确定与所述目标印刷书刊对应的目标编号格式样本库。

可选地，确定所述目标印刷书刊中出现编号格式错误的错误信息包括：采用连续编号检错技术确定所述目标印刷书刊中出现编号格式错误的错误位置，其中，所述错误信息包括下述至少之一：错误位置、错误数量和错误格式分类结果；或者，采用奇偶校验技术确定目标印刷书刊中出现编号格式错误的错误位置。

可选地，确定所述目标印刷书刊中出现编号格式错误的错误信息还包括：统计所述目标印刷书刊中出现编号格式错误的所有编号格式错误类型；对所有编号格式错误类型进行分类，得到错误格式分类结果。

根据本发明实施例的另一方面，还提供了一种印刷书刊书写格式的检错系统，包括：数据字典单元，用于建立印刷书刊中与编号格式对应的数据字典，其中，所述数据字典中包含有多个编号格式样本库；图像识别单元，用于获取目标印刷书刊的书刊图像，并识别所述书刊图像中的多个文本元素；样本库建立单元，用于将每个所述文本元素与所述数据字典匹配，以确定与所述目标印刷书刊对应的目标编号格式样本库；逻辑对应关系建立单元，用于利用所述目标编号格式样本库，采集所述目标印刷书刊中编号格式的全部种类及数量，并建立各编号格式之间的逻辑对应关系；编号格式检错单元，用于基于所述目标印刷书刊中编号格式的全部种类、数量以及各编号格式之间的逻辑对应关系，确定所述目标印刷书刊中出现编号格式错误的错误信息，其中，所述错误信息包括下述至少之一：错误位置、错误数量和错误格式分类结果。

可选地，所述数据字典单元包括：第一确定模块，用于确定多种书刊元素的编号格式，其中，所述书刊元素包括下述至少之一：标题、图、表、公式、页码、参考文献；第一获取模块，用于获取每种书刊元素的编号格式的类型和数量；第一建立模块，用于基于每种书刊元素的编号格式的类型和数量，建立所述数据字典。

可选地，所述图像识别单元包括：图像预处理模块，用于在获取目标印刷书刊的书刊图像后，对所述书刊图像进行图像预处理，其中，所述图像预处理包括下述至少之一：二值化处理、图像倾斜校正；第一图像识别模块，用于采用预设字符识别技术识别所述书刊图像中的书刊字符，其中，所述预设字符识别技术包括下述至少之一：建立书刊匹配模板的字符识别技术、人工智能神经网络的字符识别技术；字符识别模块，用于采用预设文字识别技术识别所述书刊字符中的多个文本元素以及元素类型。

可选地，所述多个文本元素包括以下至少两种元素：标题名、图名、表名、公式名、页码名、参考文献，则所述样本库建立单元包括：标题名格式建立模块，用于在所述文本元素为标题名时，根据所述标题名的编号格式建立文字、符号、数字组合的编号组；根据标题行数及标题字数判断所述编号组是否能组合为标题名；在确定所述编号组能组合为标题名时，确定标题名格式；图名格式建立模块，用于在所述文本元素为图名时，根据数据字典中的图名编号格式识别所述目标印刷书刊中的图名编号；表名格式建立模块，用于在所述文本元素为表名时，根据数据字典中的表名编号格式识别所述目标印刷书刊中的表名编号；公式名格式建立模块，用于在所述文本元素为公式名时，根据数据字典中的公式名编号格式识别所述目标印刷书刊中的所有公式编号；识别公式编号占据一行的第一公式编号形式以及识别公式编号占据公式两侧时的第二公式编号形式；页码格式建立模块，用于在所述文本元素为页码名时，根据数据字典中的页码编号格式识别所述目标印刷书刊中的页眉或页脚；建立页码编号组；根据页码编号格式识别所有的页码号；参考文献格式建立模块，用于在所述文本元素为参考文献时，根据数据字典中的参考文献编号格式识别所述目标印刷书刊中的文献序号和文献类型标识；基于所述文献序号和所述文献类型标识识别出参考文献名；样本库建立模块，用于基于识别出的标题名、图名编号、表名编号、公式编号、页码号、文献序号和参考文献名中的至少两种文本元素，确定与所述目标印刷书刊对应的目标编号格式样本库。

可选地，所述编号格式检错单元包括：第一定位模块，用于采用连续编号检错技术确定所述目标印刷书刊中出现编号格式错误的错误位置；或者，第二定位模块，用于采用奇偶校验技术确定目标印刷书刊中出现编号格式错误的错误位置。

可选地，所述检错系统还包括：统计单元，用于在建立各编号格式之间的逻辑对应关系之后，统计所述目标印刷书刊中出现编号格式错误的所有编号格式错误类型；分类单元，用于对所有编号格式错误类型进行分类，得到错误格式分类结果。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：采集设备，用于采集目标印刷书刊的书刊图像；存储器，用于存储所述处理器的可执行指令；以及处理器，其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的印刷书刊书写格式的检错方法。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的印刷书刊书写格式的检错方法。

在本发明实施例中，先建立印刷书刊中与编号格式对应的数据字典，其中，数据字典中包含有多个编号格式样本库，然后获取目标印刷书刊的书刊图像，并识别书刊图像中的多个文本元素，将每个文本元素与数据字典匹配，以确定与目标印刷书刊对应的目标编号格式样本库，之后，可以利用目标编号格式样本库，采集目标印刷书刊中编号格式的全部种类及数量，并建立各编号格式之间的逻辑对应关系，最后基于目标印刷书刊中编号格式的全部种类、数量以及各编号格式之间的逻辑对应关系，确定目标印刷书刊中出现编号格式错误的错误信息。在该实施例中，可以建立包含如标题名、图名、表名、公式名、页码名、参考文献名的序号和文献类型标识格式的数据字典、样本库及自动识别匹配字符，能够自动进行检错，对目标印刷书刊中的字符错误、编号格式错误等情况进行分类、统计和定位，实现对繁杂式样的印刷书刊书写格式的高效检错，提高印务工作的质量及印刷效率，从而解决相关技术中在印刷书刊时，容易出现编号格式印刷错误，降低印刷质量的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的印刷书刊书写格式的检错方法的流程图；

图2是根据本发明实施例的一种可选的数据字典的示意图；

图3是根据本发明实施例的一种可选的编号格式样本库的示意图；

图4根据本发明实施例的一种可选的印刷书刊书写格式的检错系统的示意图；

图5是根据本发明实施例的一种可选的电子设备的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例可以应用于书刊印刷、文本数字排版等领域中，对于书刊印刷这一特定场景，可实现对诸如标题、图、表、公式、页码及参考文献等编号格式的自动检错，对目标印刷书刊中的编号格式和字符等进行样本库种类统计，将书写格式错误情况进行分类定位，并利用预设的编号检错技术定位格式异常位置，提高印务工作的质量及印刷效率。结合各个实施例对本发明进行详细说明。

实施例一

根据本发明实施例，提供了一种印刷书刊书写格式的检错方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的印刷书刊书写格式的检错方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，建立印刷书刊中与编号格式对应的数据字典，其中，数据字典中包含有多个编号格式样本库；

步骤S104，获取目标印刷书刊的书刊图像，并识别书刊图像中的多个文本元素；

步骤S106，将每个文本元素与数据字典匹配，以确定与目标印刷书刊对应的目标编号格式样本库；

步骤S108，利用目标编号格式样本库，采集目标印刷书刊中编号格式的全部种类及数量，并建立各编号格式之间的逻辑对应关系；

步骤S110，基于目标印刷书刊中编号格式的全部种类、数量以及各编号格式之间的逻辑对应关系，确定目标印刷书刊中出现编号格式错误的错误信息，其中，所述错误信息包括下述至少之一：错误位置、错误数量和错误格式分类结果。

通过上述步骤，可以先建立印刷书刊中与编号格式对应的数据字典，其中，数据字典中包含有多个编号格式样本库，然后获取目标印刷书刊的书刊图像，并识别书刊图像中的多个文本元素，将每个文本元素与数据字典匹配，以确定与目标印刷书刊对应的目标编号格式样本库，之后，可以利用目标编号格式样本库，采集目标印刷书刊中编号格式的全部种类及数量，并建立各编号格式之间的逻辑对应关系，最后基于目标印刷书刊中编号格式的全部种类、数量以及各编号格式之间的逻辑对应关系，确定目标印刷书刊中出现编号格式错误的错误信息。在该实施例中，可以建立包含如标题名、图名、表名、公式名、页码名、参考文献名的序号和文献类型标识格式的数据字典、样本库及自动识别匹配字符，能够自动进行检错，对目标印刷书刊中的字符错误、编号格式错误等情况进行分类、统计和定位，实现对繁杂式样的印刷书刊书写格式的高效检错，提高印务工作的质量及印刷效率，从而解决相关技术中在印刷书刊时，容易出现编号格式印刷错误，降低印刷质量的技术问题。

下面结合上述各步骤对本发明实施例进行详细说明。

步骤S102，建立印刷书刊中与编号格式对应的数据字典，其中，数据字典中包含有多个编号格式样本库。

作为本发明可选的实施例，建立印刷书刊中与编号格式对应的数据字典包括：确定多种书刊元素的编号格式，其中，书刊元素包括下述至少之一：标题、图、表、公式、页码、参考文献；获取每种书刊元素的编号格式的类型和数量；基于每种书刊元素的编号格式的类型和数量，建立数据字典。

将印刷书刊中各种书刊元素的种类、数量、编号格式存储成电子数据文件，以字典的形式进行归类和存储，得到数据字典。该数据字典可以具备查询、调用、存储等功能。

可选的，数据字典的类别，用户可自行添加，也可以自动检测录入。如整篇文稿中含有特殊字符，如*、&、@，而数据字典当中没有特殊字符，可自行添加并再次识别。

图2是根据本发明实施例的一种可选的数据字典的示意图。如图2所示，示意了页码、图、表、公式、参考文献这五个书刊元素。

数据字典中，各种元素的主要、常见编号格式如下。

1)标题的编号格式

中文常见的标题编号分为文科类、理科类及其它类型。

文科类标题编号为五种层次，包括：一、(一)、1、1)、(1)。

例如，符号“(”+汉字“一”+符号“)”，组合构成二级标题格式，如：(一)。

理科类标题编号为五种层次，分别是1；1.1；1.1.1…以此类推。

例如，数字“1”+符号“.”+数字“1”+符号“.”+数字“1”，组合构成三级标题格式，如1.1.1。

其它类标题编号包括：第*章、第*卷、第*回。

例如，汉字“第”+“一”+“章”，组合构成标题格式，如第一章。

英文的正文章节序号编制如下：

章的编号：1.,2.,3.,…；

节的编号：1.1,1.2…,2.1,2.2…；

小节的编号：1.1.1,1.1.2…；

小节以下层次,采用希腊数字加括号为序,如(i),(ii)…；

之后再采用字母加括号,如(a),(b),…。

编号格式举例，由数字“1”+符号“.”+数字“1”构成，如1.1；希腊数字加括号为序,如(i)；字母加括号,如(a)。

2)图的编号格式

图名中文常见格式为：汉字“图”+数字“1”+符号“.”或“-”+数字“1”，此组合构成图名编号，如图1.1或图1-1。

英文常见格式为：英文“Figure”或“Fig.”+数字“1”，组合构成图名编号；如Figure1或Fig.1。英文“Figure”汉译为建立图形。

3)表的编号格式

表名中文常见格式为：汉字“表”+数字“2”+符号“.”或“-”+数字“1”，此组合构成表名编号，如表2.1或表2-1。

英文常见格式为：英文“Table”+数字“2”，组合构成表名编号，如Table2classification of printed books and periodicals，其中“Table2”表示表2。

4)公式的编号格式

例如，公式名中文常见编号格式，在自占一行时，汉字“式”+数字“3”，组合构成公式名编号。在公式两侧时，符号“(”+数字“3”+符号“)”，组合构成公式名编号，如(3)。

公式名英文常见编号格式，英文有方程式、等式、反应式等词意。例如，“equation”在自占一行时，英文“Eq.”、“Eqn.”或“Eqs.”+数字“3”+符号“.”或“-”+数字“3”，组合构成公式名编号，如Eq.3.3或Eqn.3-3。Eqs.3.1-3.3表示多个公式。在公式两侧时，符号“(”+数字“3”+符号“)”，组合构成公式名编号。如，The expression is shown in Eq.(3)，其中“Eq.(3)”表示该公式对应的编号名为3。

5)页码的编号格式

页码的中、英文常见的通用编号格式有多种，如12、第12页、1、2…、-1-等。例如，第一种，汉字“第”+数字“12”+汉字“页”，组合构成页码编号。第二种，符号“-”+数字“1”+符号“-”，组合构成页码编号。

6)参考文献的序号和标准格式

第一种，中文参考文献序号格式

符号“[”+数字“3”+符号“]”，组合构成参考文献序号格式，如[3]。

符号“[”+数字“1”+逗号“，”或破折号“-”+数字“3”+“]”，组合构成参考文献序号格式，如[1，3]或[1-3]。[1，3]表示参考了文献1和3，[1-3]表示参考了文献1至3。

文献索引序号在文章以两种形式出现，一种是出现在参考文献序列表中，如[1-3]序号格式，一种是在文章中做为角标出现，如，“印刷书刊的质量问题[1-3]包括”。

第二种，文献类型标识格式

符号“[”+英文“M”+符号“]”，组合构成格式代号，如[M]。

类似的编号格式还有专著[M]、会议论文集[C]、报纸文章[N]、期刊文章[J]、学位论文[D]、报告[R]、标准[S]、专利[P]、论文集中的析出文献[A]、杂志[G]等。

英文参考文件序号和文献类型标识格式与中文格式一致，英文序号格式字体为Times New Roman，序号格式如[3]，文献类型标识格式如[M]，英文文献使用英文标点符号，而中文文献则应使用中文标点符号。

步骤S104，获取目标印刷书刊的书刊图像，并识别书刊图像中的多个文本元素。

获取目标印刷书刊的书刊图像时，可以是通过快速扫描待印刷书刊或样稿中若干页，建立对书刊中的各种元素等编码进行识别的训练样本，得到书刊图像。当然也可以通过摄像模块(例如摄像头)直接拍摄目标印刷书刊每页的图像，得到书刊图像。

在本发明实施例中，获取目标印刷书刊的书刊图像，并识别书刊图像中的多个文本元素包括：在获取目标印刷书刊的书刊图像后，对书刊图像进行图像预处理，其中，图像预处理包括下述至少之一：二值化处理、图像倾斜校正；采用预设字符识别技术识别书刊图像中的书刊字符，其中，预设字符识别技术包括下述至少之一：建立书刊匹配模板的字符识别技术、人工智能神经网络的字符识别技术；采用预设文字识别技术识别书刊字符中的多个文本元素以及元素类型。

即可以在得到书刊图像后，对印刷机器输稿器输出纸张的图像信息，基于印刷书刊书写格式的检错系统内设定的坐标系，进行图像预处理(包括二值化处理、自动倾斜校正或旋转图像)，并输出储存于数据库中。

在完成图像预处理后，可以进行文字、符合、编号等各类信息的快速识别。

步骤S106，将每个文本元素与数据字典匹配，以确定与目标印刷书刊对应的目标编号格式样本库。

在本发明实施例，样本库可存储各种元素以及其中一种或多种元素组成的种类、数量的编号格式。

作为本发明可选的实施例，多个文本元素包括以下至少两种元素：标题名、图名、表名、公式名、页码名、参考文献，则将每个文本元素与数据字典匹配，以确定与目标印刷书刊对应的目标编号格式样本库包括：在文本元素为标题名时，根据标题名的编号格式建立文字、符号、数字组合的编号组；根据标题行数及标题字数判断编号组是否能组合为标题名；在确定编号组能组合为标题名时，确定标题名格式；在文本元素为图名时，根据数据字典中的图名编号格式识别目标印刷书刊中的图名编号；在文本元素为表名时，根据数据字典中的表名编号格式识别目标印刷书刊中的表名编号；在文本元素为公式名时，根据数据字典中的公式名编号格式识别目标印刷书刊中的所有公式编号；识别公式编号占据一行的第一公式编号形式以及识别公式编号占据公式两侧时的第二公式编号形式；在文本元素为页码名时，根据数据字典中的页码编号格式识别目标印刷书刊中的页眉或页脚；建立页码编号组；根据页码编号格式识别所有的页码号；在文本元素为参考文献时，根据数据字典中的参考文献编号格式识别目标印刷书刊中的文献序号和文献类型标识；基于文献序号和文献类型标识识别出参考文献名；基于识别出的标题名、图名编号、表名编号、公式编号、页码号、文献序号和参考文献名中的至少两种文本元素，确定与目标印刷书刊对应的目标编号格式样本库。

举例说明。印刷书刊中各种元素的编号格式识别方式如下。

1)标题名的编号识别方式

根据标题名的编号格式建立汉字、符号、数字组合成的编号组，再根据标题行数(一般为一行)及其标题字数判断是否属于标题名。

2)图名的编号识别方式

根据中、英文图名编号格式识别图名编号。图3是根据本发明实施例的一种可选的编号格式样本库的示意图，如图3所示，该样本库为图号的编号格式。

3)表名的编号识别方式

根据中、英文表名编号格式识别表名编号。

4)公式名的编号识别方式

根据中、英文公式名的编号格式识别文中所有公式编号，并自动识别编号自占一行和在公式两侧时的两种形式。

5)页码名的编号识别方式

识别页眉(一般位于本页的第一行)或页脚(一般为本页的最后一行)，同时建立编号组，根据页码编号格式识别页码号。

6)参考文献名的序号和文献类型标识格式

参考文献的查询分为两种，第一种，序号查询方式为：根据符号“[”及“]”建立并查询参考文献编号组，再根据符号“[”、“]”及符号“，”或“-”判别相应的参考文献名。第二种，文献类型标识格式查询方式为：根据符号“[]”+英文，建立并查询标识格式，识别方式与序号相同。

建立的目标印刷书刊中书写格式样本库应至少含有目标印刷书刊中全部标题、图、表、公式、页码及参考文献中的一种形式。

步骤S108，利用目标编号格式样本库，采集目标印刷书刊中编号格式的全部种类及数量，并建立各编号格式之间的逻辑对应关系。

本发明实施例中，确定所述目标印刷书刊中出现编号格式错误的错误信息还包括：统计目标印刷书刊中出现编号格式错误的所有编号格式错误类型；对所有编号格式错误类型进行分类，得到错误格式分类结果。

即本发明实施例中，采集目标印刷书刊中编号格式的全部种类及数量，与建立的书写格式样本库自动匹配，并建立各编号格式与文本结构体系之间的逻辑对应关系。例如，在第3页中表格数量：2个，表的编号分别为1、2，而表全部的数量：4个。

作为本发明可选的实施例，采集目标印刷书刊中各种元素的编号格式及字段，对相对应的样本库编号种类进行统计，采用相应的检错技术对书写格式错误情况进行分类定位。可选的，确定目标印刷书刊中出现编号格式错误的错误信息包括：采用连续编号检错技术确定目标印刷书刊中出现编号格式错误的错误位置；或者，采用奇偶校验技术确定目标印刷书刊中出现编号格式错误的错误信息。

在采用连续编号检错技术时，对格式的编号组进行从小到大或从大到小进行整理，当编号组中缺失一部分编号时，即认为所对应的编号格式编写错误，显示并输出该编号格式所对应的位置及其它信息。

除了上述示意的检错技术外，还包括：求和校验技术、纵向冗余(LRC)校验技术、循环冗余(CRC)校验技术等检错技术。

通过上述实施例，可以自动扫描印刷书刊，得到书刊图像，然后对书刊图像进行图像预处理(包括二值化处理、自动倾斜校正、旋转图像)，识别图像中的文本、符号、编号，得到包含标题、图、表、公式、页码、参考文献等元素的编号格式，对目标印刷书刊中编号格式的种类进行统计，根据编号与文本结构体系之间的逻辑关系进行由整体到局部的对应识别，并对书写格式进行检错分析、分类定位，得到印刷书刊书写格式的错误信息，为印刷人员修改提供方便，改变了传统印刷依靠人工检错的方式，可有效地提高书刊印刷质量。

实施例二

本发明提供印刷书刊的印刷书刊书写格式的检错系统。该检错系统可适用于对文字方向为水平的单栏排版书刊的检错，该系统作为打印设备的一部分可安装在出稿器附近，也可以单独作为计算机软件运转。通过上述的检错方法以及该检错系统可改变传统印刷依靠人工检错的方式，有效地提高书刊印刷质量。

图4根据本发明实施例的一种可选的印刷书刊书写格式的检错系统的示意图，如图4所示，该检错系统可以包括：

数据字典单元41，用于建立印刷书刊中与编号格式对应的数据字典，其中，数据字典中包含有多个编号格式样本库；

图像识别单元43，用于获取目标印刷书刊的书刊图像，并识别书刊图像中的多个文本元素；

样本库建立单元45，用于将每个文本元素与数据字典匹配，以确定与目标印刷书刊对应的目标编号格式样本库；

逻辑对应关系建立单元47，用于利用目标编号格式样本库，采集目标印刷书刊中编号格式的全部种类及数量，并建立各编号格式之间的逻辑对应关系；

编号格式检错单元49，用于基于目标印刷书刊中编号格式的全部种类、数量以及各编号格式之间的逻辑对应关系，确定目标印刷书刊中出现编号格式错误的错误信息，其中，所述错误信息包括下述至少之一：错误位置、错误数量和错误格式分类结果。

上述印刷书刊书写格式的检错系统，可以通过数据字典单元41建立印刷书刊中与编号格式对应的数据字典，其中，数据字典中包含有多个编号格式样本库，然后通过图像识别单元43获取目标印刷书刊的书刊图像，并识别书刊图像中的多个文本元素，通过样本库建立单元45将每个文本元素与数据字典匹配，以确定与目标印刷书刊对应的目标编号格式样本库，之后，可以通过逻辑对应关系建立单元47利用目标编号格式样本库，采集目标印刷书刊中编号格式的全部种类及数量，并建立各编号格式之间的逻辑对应关系，最后通过编号格式检错单元49基于目标印刷书刊中编号格式的全部种类、数量以及各编号格式之间的逻辑对应关系，确定目标印刷书刊中出现编号格式错误的错误信息。在该实施例中，可以建立包含如标题名、图名、表名、公式名、页码名、参考文献名的序号和文献类型标识格式的数据字典、样本库及自动识别匹配字符，能够自动进行检错，对目标印刷书刊中的字符错误、编号格式错误等情况进行分类、统计和定位，实现对繁杂式样的印刷书刊书写格式的高效检错，提高印务工作的质量及印刷效率，从而解决相关技术中在印刷书刊时，容易出现编号格式印刷错误，降低印刷质量的技术问题。

可选的，数据字典单元包括：第一确定模块，用于确定多种书刊元素的编号格式，其中，书刊元素包括下述至少之一：标题、图、表、公式、页码、参考文献；第一获取模块，用于获取每种书刊元素的编号格式的类型和数量；第一建立模块，用于基于每种书刊元素的编号格式的类型和数量，建立数据字典。

即数据字典单元建立的数据字典，是各种元素的总称，包含标题、图、表、公式、页码及参考文献所有类别。

作为本发明可选的实施例，图像识别单元包括：图像预处理模块，用于在获取目标印刷书刊的书刊图像后，对书刊图像进行图像预处理，其中，图像预处理包括下述至少之一：二值化处理、图像倾斜校正；第一图像识别模块，用于采用预设字符识别技术识别书刊图像中的书刊字符，其中，预设字符识别技术包括下述至少之一：建立书刊匹配模板的字符识别技术、人工智能神经网络的字符识别技术；字符识别模块，用于采用预设文字识别技术识别书刊字符中的多个文本元素以及元素类型。

对于图像识别单元，可以实现图像预处理、字符分割和识别以及文字分类统计、建立逻辑对应关系。

可选的，在实现图像预处理时，可通过扫描样稿，建立需要识别的训练样本。通过反复训练样本识别，提高其灵敏度，在该过程中，对印刷机输稿器输出纸张的图像信息，基于系统内设定的坐标系，进行图像自动倾斜校正或旋转图像，并输出储存于样本库中。

可选的，在字符分割和识别及文字分类统计识别时，采用文字识别方法自动识别书刊中的编号格式及字段信息，并与建立的数据字典匹配。

可选的，在建立逻辑对应关系时，通过建立的格式样本库采集印刷书刊中编号格式及字段的全部种类及数量，并建立各编号格式与文本结构体系之间的逻辑对应关系。

在本发明实施例中，多个文本元素包括以下至少两种元素：标题名、图名、表名、公式名、页码名、参考文献，则样本库建立单元包括：标题名格式建立模块，用于在文本元素为标题名时，根据标题名的编号格式建立文字、符号、数字组合的编号组；根据标题行数及标题字数判断编号组是否能组合为标题名；在确定编号组能组合为标题名时，确定标题名格式；图名格式建立模块，用于在文本元素为图名时，根据数据字典中的图名编号格式识别目标印刷书刊中的图名编号；表名格式建立模块，用于在文本元素为表名时，根据数据字典中的表名编号格式识别目标印刷书刊中的表名编号；公式名格式建立模块，用于在文本元素为公式名时，根据数据字典中的公式名编号格式识别目标印刷书刊中的所有公式编号；识别公式编号占据一行的第一公式编号形式以及识别公式编号占据公式两侧时的第二公式编号形式；页码格式建立模块，用于在文本元素为页码名时，根据数据字典中的页码编号格式识别目标印刷书刊中的页眉或页脚；建立页码编号组；根据页码编号格式识别所有的页码号；参考文献格式建立模块，用于在文本元素为参考文献时，根据数据字典中的参考文献编号格式识别目标印刷书刊中的文献序号和文献类型标识；基于文献序号和文献类型标识识别出参考文献名；样本库建立模块，用于基于识别出的标题名、图名编号、表名编号、公式编号、页码号、文献序号和参考文献名中的至少两种文本元素，确定与目标印刷书刊对应的目标编号格式样本库。

通过建立包含如标题名、图名、表名、公式名、页码名、参考文献名的序号和文献类型标识格式的数据字典、样本库及自动识别匹配字符，能够提高检错或异常情况分类定位准确度。

可选的，编号格式检错单元包括：第一定位模块，用于采用连续编号检错技术确定目标印刷书刊中出现编号格式错误的错误位置；或者，第二定位模块，用于采用奇偶校验技术确定目标印刷书刊中出现编号格式错误的错误信息。

作为本发明可选的实施例，检错系统还包括：统计单元，用于在建立各编号格式之间的逻辑对应关系之后，统计目标印刷书刊中出现编号格式错误的所有编号格式错误类型；分类单元，用于对所有编号格式错误类型进行分类，得到错误格式分类结果。

通过上述实施例，可以利用各个单元，实现建立印刷书刊中的编号格式数据字典；自动识别匹配目标印刷书刊编号格式样本库，采集并识别目标印刷书刊中编号格式的全部种类及数量、并建立各编号格式之间的逻辑对应关系，对目标印刷书刊中字符错误情况进行分类、统计和定位等功能，按照检错流程，能够解决现有技术中人工检测印刷书刊编号格式效率较低的问题，提高书刊印刷质量。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：采集设备，用于采集目标印刷书刊的书刊图像；存储器，用于存储处理器的可执行指令；以及处理器，其中，处理器配置为经由执行可执行指令来执行上述任意一项的印刷书刊书写格式的检错方法。

图5是根据本发明实施例的一种可选的电子设备的示意图，如图5所示，该电子设备包括：采集设备502(负责对印刷书刊501进行图像扫描)、通信接口503、处理器504、存储器505、非易失性存储介质506。

处理器504、存储器505、非易失性存储介质506通过通信总线完成相互间的通信。处理器504可以调用存储在存储器505上并可在处理器504上运行的计算机程序，借助非易失性存储介质506，以执行上述印刷书刊书写格式的检错方法所示意的步骤。

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述任意一项的印刷书刊书写格式的检错方法。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：建立印刷书刊中与编号格式对应的数据字典，其中，数据字典中包含有多个编号格式样本库；获取目标印刷书刊的书刊图像，并识别书刊图像中的多个文本元素；将每个文本元素与数据字典匹配，以确定与目标印刷书刊对应的目标编号格式样本库；利用目标编号格式样本库，采集目标印刷书刊中编号格式的全部种类及数量，并建立各编号格式之间的逻辑对应关系；基于目标印刷书刊中编号格式的全部种类、数量以及各编号格式之间的逻辑对应关系，确定目标印刷书刊中出现编号格式错误的错误信息。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种印刷书刊书写格式的检错方法，其特征在于，应用于书刊印刷领域或文本数字排版领域，包括：

建立印刷书刊中与编号格式对应的数据字典，包括，将印刷书刊中各种书刊元素的种类、数量、编号格式存储成电子数据文件，以字典的形式进行归类和存储，得到所述数据字典，其中，所述数据字典中包含有多个编号格式样本库；

获取目标印刷书刊的书刊图像，并识别所述书刊图像中的多个文本元素，所述多个文本元素包括以下至少两种元素：标题名、图名、表名、公式名、页码名、参考文献；

将每个所述文本元素与所述数据字典匹配，以确定与所述目标印刷书刊对应的目标编号格式样本库，包括：在所述文本元素为标题名时，根据所述标题名的编号格式建立文字、符号、数字组合的编号组；根据标题行数及标题字数判断所述编号组是否能组合为标题名；在确定所述编号组能组合为标题名时，确定标题名格式；在所述文本元素为图名时，根据数据字典中的图名编号格式识别所述目标印刷书刊中的图名编号；在所述文本元素为表名时，根据数据字典中的表名编号格式识别所述目标印刷书刊中的表名编号；在所述文本元素为公式名时，根据数据字典中的公式名编号格式识别所述目标印刷书刊中的所有公式编号；识别公式编号占据一行的第一公式编号形式以及识别公式编号占据公式两侧时的第二公式编号形式；在所述文本元素为页码名时，根据数据字典中的页码编号格式识别所述目标印刷书刊中的页眉或页脚；建立页码编号组；根据页码编号格式识别所有的页码号；在所述文本元素为参考文献时，根据数据字典中的参考文献编号格式识别所述目标印刷书刊中的文献序号和文献类型标识；基于所述文献序号和所述文献类型标识识别出参考文献名；基于识别出的标题名、图名编号、表名编号、公式编号、页码号、文献序号和参考文献名中的至少两种文本元素，确定与所述目标印刷书刊对应的目标编号格式样本库；

利用所述目标编号格式样本库，采集所述目标印刷书刊中编号格式的全部种类及数量，并建立各编号格式之间的逻辑对应关系；

基于所述目标印刷书刊中编号格式的全部种类、数量以及各编号格式之间的逻辑对应关系，确定所述目标印刷书刊中出现编号格式错误的错误信息，其中，所述错误信息包括下述至少之一：错误位置、错误数量和错误格式分类结果。

2.根据权利要求1所述的检错方法，其特征在于，建立印刷书刊中与编号格式对应的数据字典包括：

确定多种书刊元素的编号格式，其中，所述书刊元素包括下述至少之一：标题、图、表、公式、页码、参考文献；

获取每种书刊元素的编号格式的类型和数量；

基于每种书刊元素的编号格式的类型和数量，建立所述数据字典。

3.根据权利要求1所述的检错方法，其特征在于，获取目标印刷书刊的书刊图像，并识别所述书刊图像中的多个文本元素包括：

在获取目标印刷书刊的书刊图像后，对所述书刊图像进行图像预处理，其中，所述图像预处理包括下述至少之一：二值化处理、图像倾斜校正；

采用预设字符识别技术识别所述书刊图像中的书刊字符，其中，所述预设字符识别技术包括下述至少之一：建立书刊匹配模板的字符识别技术、人工智能神经网络的字符识别技术；

采用预设文字识别技术识别所述书刊字符中的多个文本元素以及元素类型。

4.根据权利要求1所述的检错方法，其特征在于，确定所述目标印刷书刊中出现编号格式错误的错误信息包括：

采用连续编号检错技术确定所述目标印刷书刊中出现编号格式错误的错误位置；或者，

采用奇偶校验技术确定所述目标印刷书刊中出现编号格式错误的错误位置。

5.根据权利要求1所述的检错方法，其特征在于，确定所述目标印刷书刊中出现编号格式错误的错误信息还包括：

统计所述目标印刷书刊中出现编号格式错误的所有编号格式错误类型；

对所有编号格式错误类型进行分类，得到错误格式分类结果。

6.一种印刷书刊书写格式的检错系统，其特征在于，应用于书刊印刷领域或文本数字排版领域，包括：

数据字典单元，用于建立印刷书刊中与编号格式对应的数据字典，包括，将印刷书刊中各种书刊元素的种类、数量、编号格式存储成电子数据文件，以字典的形式进行归类和存储，得到所述数据字典，其中，所述数据字典中包含有多个编号格式样本库；

图像识别单元，用于获取目标印刷书刊的书刊图像，并识别所述书刊图像中的多个文本元素，所述多个文本元素包括以下至少两种元素：标题名、图名、表名、公式名、页码名、参考文献；

样本库建立单元，用于将每个所述文本元素与所述数据字典匹配，以确定与所述目标印刷书刊对应的目标编号格式样本库，所述多个文本元素包括以下至少两种元素：标题名、图名、表名、公式名、页码名、参考文献，所述样本库建立单元包括：标题名格式建立模块，用于在所述文本元素为标题名时，根据所述标题名的编号格式建立文字、符号、数字组合的编号组；根据标题行数及标题字数判断所述编号组是否能组合为标题名；在确定所述编号组能组合为标题名时，确定标题名格式；图名格式建立模块，用于在所述文本元素为图名时，根据数据字典中的图名编号格式识别所述目标印刷书刊中的图名编号；表名格式建立模块，用于在所述文本元素为表名时，根据数据字典中的表名编号格式识别所述目标印刷书刊中的表名编号；公式名格式建立模块，用于在所述文本元素为公式名时，根据数据字典中的公式名编号格式识别所述目标印刷书刊中的所有公式编号；识别公式编号占据一行的第一公式编号形式以及识别公式编号占据公式两侧时的第二公式编号形式；页码格式建立模块，用于在所述文本元素为页码名时，根据数据字典中的页码编号格式识别所述目标印刷书刊中的页眉或页脚；建立页码编号组；根据页码编号格式识别所有的页码号；参考文献格式建立模块，用于在所述文本元素为参考文献时，根据数据字典中的参考文献编号格式识别所述目标印刷书刊中的文献序号和文献类型标识；基于所述文献序号和所述文献类型标识识别出参考文献名；样本库建立模块，用于基于识别出的标题名、图名编号、表名编号、公式编号、页码号、文献序号和参考文献名中的至少两种文本元素，确定与所述目标印刷书刊对应的目标编号格式样本库；

逻辑对应关系建立单元，用于利用所述目标编号格式样本库，采集所述目标印刷书刊中编号格式的全部种类及数量，并建立各编号格式之间的逻辑对应关系；

编号格式检错单元，用于基于所述目标印刷书刊中编号格式的全部种类、数量以及各编号格式之间的逻辑对应关系，确定所述目标印刷书刊中出现编号格式错误的错误信息，其中，所述错误信息包括下述至少之一：错误位置、错误数量和错误格式分类结果。

7.根据权利要求6所述的检错系统，其特征在于，所述数据字典单元包括：

第一确定模块，用于确定多种书刊元素的编号格式，其中，所述书刊元素包括下述至少之一：标题、图、表、公式、页码、参考文献；

第一获取模块，用于获取每种书刊元素的编号格式的类型和数量；

第一建立模块，用于基于每种书刊元素的编号格式的类型和数量，建立所述数据字典。

8.一种电子设备，其特征在于，包括：

采集设备，用于采集目标印刷书刊的书刊图像；

存储器，用于存储处理器的可执行指令；以及

处理器，其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至5中任意一项所述的印刷书刊书写格式的检错方法。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任意一项所述的印刷书刊书写格式的检错方法。