CN116704523A

CN116704523A - 一种用于出版印刷设备的文字排版图像识别系统

Info

Publication number: CN116704523A
Application number: CN202310979631.1A
Authority: CN
Inventors: 邵志成; 李海丽; 邱永凯; 路然
Original assignee: Shandong Chengxin Color Printing Co ltd
Current assignee: Shandong Chengxin Color Printing Co ltd
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2023-09-05
Anticipated expiration: 2043-08-07
Also published as: CN116704523B

Abstract

本发明公开了一种用于出版印刷设备的文字排版图像识别系统，具体涉及图像识别技术领域，包括包括：输入模块、图像预处理模块、特征提取模块、模板匹配模块、内容识别模块、错误检测模块以及识别修正模块，本发明利用模板匹配模块可以将提取的特征与预设的文字模板进行匹配，确定文字的位置和排版信息，可以快速准确地定位文字，可以检测识别过程中可能出现的错误，通过比对识别结果与原始图像或预设模板进行校验，减少错误率，并根据错误类型和模式，提供相应的修正策略和方法，自动修正或建议修正错误，实现了高精度的文字排版图像识别，能够准确提取文字的排版信息和内容，检测和修正识别过程中的错误，满足出版印刷设备的需求。

Description

一种用于出版印刷设备的文字排版图像识别系统

技术领域

本发明涉及图像识别技术领域，更具体地说，本发明涉及一种用于出版印刷设备的文字排版图像识别系统。

背景技术

现有的文字排版图像识别系统，根据文字特征和图像特征，将对应的文字内容和和排版样式进行提取，可以自动化地处理大量的文字图像，减少人工操作的工作量，提高处理速度和效率，相比于手动排版，文字识别系统可以快速准确地识别和处理文字，节省大量时间和人力资源，具有提高效率、提高准确性、实现自动化排版、灵活性和可定制性、跨平台和易于集成等优点，目前被广泛运用。

然而上述技术仍存在不足，上述技术在使用过程中，对识别出的排版样式以及内容准确程度有限，缺少检测与错误修正的功能，无法对识别出的结果进行准确性的验证，也无法对识别错误的结果进行修正，导致目前文字排版图像识别系统准确率不高，在实际使用时存在一定的限制，在进行识别时，没有利用成熟的训练模型进行匹配，导致排版识别结果存在误差，识别准确度低。

发明内容

为了克服现有技术的上述缺陷，本发明的提供一种用于出版印刷设备的文字排版图像识别系统，通过训练排版模型，计算模型与识别结果的匹配程度，找出最相似的排版模型，并进行内容识别错误结果检测，对错误检测进行修正，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：包括：数据库、输入模块、图像预处理模块、特征提取模块、模板匹配模块、内容识别模块、错误检测模块以及识别修正模块。

输入模块：用于接收数据库发送的待识别的出版印刷设备文字排版图像，并将图像传输至图像预处理模块；

图像预处理模块：用于对输入图像进行去噪、分割和增强以及角点检测的预处理操作，并将处理后的图像传输至特征提取模块；

特征提取模块：用于通过深度学习技术，提取输入图像的特征数据，并将提取到的特征数据传输至模板匹配模块；

模板匹配模块：用于系统将提取的特征与预设的文字模板进行匹配，计算出提取的图像特征数据与文字模板的余弦相似度，并使用最大相似度匹配的方法来确定最佳匹配结果，并将匹配结果传输至内容识别模块；

内容识别模块：用于系统根据模板匹配结果，对文字内容进行识别和提取，并将提取到的数据传输至数据库；

错误检测模块：提供系统的维护功能，用于对识别出的文字进行错误检测，并计算出系统的错误识别概率指数，判断错误识别概率指数是否超出预设值，超出预设值时，系统下发指令至识别修正模块；

识别修正模块：提供系统的维护功能，进行错误识别修正，并生成修正结果，反馈给用户。

优选的，输入模块用于接收数据库发送的待识别的出版印刷设备文字排版图像，所述输入模块具体包括：

设备扫描单元：通过扫描仪、相机以及其他图像采集设备获取待识别的出版印刷设备文字排版图像；

图像获取单元：系统连接扫描设备，接收待识别的文字排版图像，并对图像进行存储以及传输至图像预处理模块。

优选的，图像预处理模块用于对输入图像进行去噪、分割和增强以及角点检测的预处理操作，所述图像预处理模块具体包括：

去噪单元：使用去噪算法对输入图像进行降噪处理，去除图像中的噪声干扰；

分割单元：根据图像的特点和排版结构，利用连通区域分析将图像分割成文字区域和非文字区域；

形态学处理单元：使用形态学操作对文字区域进行进一步处理，去除不必要的细节或填充缺失的部分；

统一尺寸单元：利用缩放、裁剪以及填充技术对文字区域进行尺寸统一处理，使其具有相同的大小和比例。

优选的，特征提取模块用于通过深度学习技术，提取输入图像的特征数据，所述特征提取模块具体包括：

训练集收集单元：收集包含不同字体、字号、行间距和段落结构的图像数据，并进行标注；

模型选择与训练单元：根据任务的要求，选择适合的深度学习模型，使用准备好的训练数据集对深度学习模型进行训练，通过反向传播算法不断调整模型的参数，更好地提取图像的特征；

特征提取单元：将待提取特征的图像输入到已经训练好的深度学习模型中，通过前向传播算法，将图像数据从输入层传递到输出层，同时在每一层中提取图像的特征，提取到的特征数据具体包括：字体型号、字号大小、行间距、段落结构、文字与页面相比的偏斜角度、字符间距、字符形状、字符笔画数、字符颜色编号、图像面积、文字面积、文字方向：包括水平方向、垂直方向以及斜向以及文字边界框坐标。

优选的，模板匹配模块用于系统将提取的特征与预设的文字模板进行匹配，计算出提取的图像特征数据与文字模板的余弦相似度，并使用最大相似度匹配的方法来确定最佳匹配结果，所述模板匹配模块具体包括：

特征表示单元：将文本排版属性表示为向量形式，使用独热编码、词袋模型的方法将每个属性转换为数值表示，建立图像特征值：，A₁，A₂，……A_m分别代表图像文字排版的特征值，/>，B₁，B₂，……B_m分别代表预设文字模板的排版特征值；

余弦相似度计算单元：将图像文字排版特征值和模板文字排版特征值进行向量化，，/>，计算它们之间的余弦相似度，余弦相似度的计算公式为：/>；

相似度匹配单元：选取具有最大相似度的文字模板作为最佳匹配结果。

优选的，内容识别模块用于系统根据模板匹配结果，对文字内容进行识别和提取，所述内容识别模块具体包括：

文字分割单元：根据模板匹配模块的结果，将图像中的文字区域进行分割，得到单个文字的图像；

文字识别单元：使用文字识别算法对每个文字图像进行识别；

文字提取单元：根据识别结果，提取出每个文字的内容，将识别结果转换为文字字符。

优选的，错误检测模块提供系统的维护功能，用于对识别出的文字进行错误检测，并计算出系统的错误识别指数，判断错误识别指数是否超出预设值，所述错误检测模块具体包括：

准备标注数据单元：通过人工标注以及其他数据来源准备包含正确的文字内容的标注数据；

对比和标记单元：使用编程语言提供的字符串操作函数和循环结构对文字识别结果和标注数据从头到尾逐个字符或单词地进行对比，根据比对结果，检测出文字识别中的错误，并进行标记；

分析单元：根据文字识别算法生成的置信度分数k_n，对识别结果进行分析，根据文字识别的上下文信息，对识别结果进行进一步分析；

错误识别指数计算单元：根据总识别m_n、漏识别q_n、错识别w_n、多识别个数e_n、文档的结构r_n、语法规则t_n、语义关系y_n，计算识别的错误识别指数：；

识别行为质量指数计算单元：根据识别结果与识别样品的比较结果，统计识别过程中识别页数差值a_n、字数差值s_n、图像数差值d_n、表格数差值f_n、并根据这些数据计算此次识别的识别行为质量指数：；

识别可信度计算单元：根据上述错误识别指数以及识别行为质量指数计算此次识别结果的识别可信度：；

数值判断单元：判断识别可信度K_n是否超过预设值K_i，当时，系统判定此次识别可信度较低，系统下发维护指令至识别修正模块。

优选的，识别修正模块提供系统的维护功能，进行识别修正，并生成修正结果，反馈给用户，所述识别修正模块具体包括：

纠正单元：利用基于规则的方法并使用预定义的规则和模式来纠正常见的拼写错误，通过替换、插入、删除或其他方式对识别结果进行修正；

转换单元：根据需求确定输出的目标格式，根据目标格式的要求，将文字内容进行相应的转换和处理并根据需求对输出的格式进行优化和调整；

结果输出单元：将转换和优化后的文字内容生成为目标格式的输出文件，并在用户智能终端进行显示。

本发明的技术效果和优点：

本发明利用模板匹配模块可以将提取的特征与预设的文字模板进行匹配，确定文字的位置和排版信息，可以快速准确地定位文字，提高识别的效率和准确性，基于模板匹配结果，可以对文字内容进行识别和提取，包括文字内容、样式以及格式等，并识别出文字的具体内容和排版样式，提供更多的信息，可以检测识别过程中可能出现的错误，例如字符识别错误、排版错误等，通过比对识别结果与原始图像或预设模板进行校验，减少错误率，可以检测和识别文本识别过程中可能出现的错误，例如字符识别错误、排版错误、格式错误等，并根据错误类型和模式，提供相应的修正策略和方法，自动修正或建议修正错误，通过以上模块的组合和协作，本发明实现了高精度的文字排版图像识别，能够准确提取文字的排版信息和内容，检测和修正识别过程中的错误，提供可编辑格式或其他指定格式的输出，满足出版印刷设备的需求。

附图说明

图1为本发明的系统结构框图。

图2为本发明的系统流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供了如图1所示一种用于出版印刷设备的文字排版图像识别系统，包括：数据库、输入模块、图像预处理模块、特征提取模块、模板匹配模块、内容识别模块、错误检测模块以及识别修正模块。

所述输入模块用于接收数据库发送的待识别的出版印刷设备文字排版图像，并将图像传输至图像预处理模块，所述图像预处理模块用于对输入图像进行去噪、分割和增强以及角点检测的预处理操作，并将处理后的图像传输至特征提取模块，所述特征提取模块用于通过深度学习技术，提取输入图像的特征数据，并将提取到的特征数据传输至模板匹配模块，所述模板匹配模块用于系统将提取的特征与预设的文字模板进行匹配，计算出提取的图像特征数据与文字模板的余弦相似度，并使用最大相似度匹配的方法来确定最佳匹配结果，并将匹配结果传输至内容识别模块；

本实施与现有技术的区别在于模板匹配模块、错误检测模块以及识别修正模块，模板匹配模块利用深度学习技术建立以及训练模型，找到与识别内容排版匹配程度最高的模板，错误检测模块对识别的内容进行分析和检测，找出识别错误的内容，并进行标记，并计算出此次识别的错误指数，根据指数的高低判断此次识别是否正常，识别修正模块对检测到的错误进行修正和更改，保证识别结果的正确率和可靠性，整个过程是现有技术不具备的。

本实施例提供一种用于出版印刷设备的文字排版图像识别系统的方法流程图，具体包括下列步骤：

101、通过输入模块接收待识别的出版印刷设备文字排版图像，所述输入模块进行图像扫描输入的具体步骤为：

A1、设备扫描：通过扫描仪、相机以及其他图像采集设备获取待识别的出版印刷设备文字排版图像；

A2、图像获取：系统连接扫描设备，接收待识别的文字排版图像，并对图像进行存储以及传输至图像预处理模块；

在这里需要说明的是：

输入模块可以接收各种出版印刷设备文字排版图像，具有较高的兼容性，可以通过扫描仪、相机等设备获取图像，方便实用。

102、通过图像预处理模块对输入图像进行去噪、分割和增强以及角点检测的预处理操作，所述图像预处理模块进行输入图像预处理的具体步骤为：

B1、图像去噪：使用去噪算法对输入图像进行降噪处理，去除图像中的噪声干扰；

B2、图像分割：根据图像的特点和排版结构，利用连通区域分析将图像分割成文字区域和非文字区域；

B3、形态学处理：使用形态学操作对文字区域进行处理，去除不必要的细节或填充缺失的部分；

B4、统一尺寸：利用缩放、裁剪以及填充技术对文字区域进行尺寸统一处理，使其具有相同的大小和比例；

在这里需要说明的是：

图像预处理模块通过去噪、分割和增强等预处理操作可以有效提高后续模块的识别准确性，可以处理图像中的噪声、模糊等问题，提高图像质量，从而使得在后续识别过程中可以更加准确。

103、通过特征提取模块用于通过深度学习技术，提取输入图像的特征数据，所述特征提取模块进行图像特征数据提取的具体步骤为：

C1、训练集收集：收集包含不同字体、字号、行间距和段落结构的图像数据，并进行标注；

C2、模型选择与训练：根据任务的要求，选择适合的深度学习模型，使用准备好的训练数据集对深度学习模型进行训练，通过反向传播算法不断调整模型的参数，更好地提取图像的特征；

进行模型参数的反复调整是为了提高模型的灵敏度和准确程度，对一些特殊字体、模糊、扭曲的图像识别的准确率更高；

C3、特征提取：将待提取特征的图像输入到已经训练好的深度学习模型中，通过前向传播算法，将图像数据从输入层传递到输出层，同时在每一层中提取图像的特征，提取到的特征数据具体包括：字体型号、字号大小、行间距、段落结构、文字与页面相比的偏斜角度、字符间距、字符形状、字符笔画数、字符颜色编号、图像面积、文字面积、文字方向：包括水平方向、垂直方向以及斜向以及文字边界框坐标；

在这里需要说明的是：

特征提取模块基于深度学习技术，可以准确提取输入图像的字体、字号、行间距、段落结构等特征，可以通过学习大量的样本数据，建立训练模型，高特征提取的准确性和鲁棒性。

104、通过模板匹配模块系统将提取的特征与预设的文字模板进行匹配，计算出提取的图像特征数据与文字模板的余弦相似度，并使用最大相似度匹配的方法来确定最佳匹配结果，所述模板匹配模块进行文字模板匹配的具体步骤为：

D1、特征表示：将文本排版属性表示为向量形式，使用独热编码、词袋模型的方法将每个属性转换为数值表示，建立图像特征值：，A₁，A₂，……A_m分别代表上述图像文字排版的特征数据，/>，B₁，B₂，……B_m分别代表预设文字模板的排版特征数据；

D2、余弦相似度计算：将图像文字排版特征值和模板文字排版特征值进行向量化，，/>，计算它们之间的余弦相似度，余弦相似度的计算公式为：/>；

D3、相似度匹配：选取具有最大相似度的文字模板作为最佳匹配结果；

在这里需要说明的是：

模板匹配模块可以将提取的特征与预设的文字模板进行匹配，确定文字的位置和排版信息，可以快速准确地定位文字，提高识别的效率和准确性，通过根据识别结果和模型的余弦相似度的最高值来选取最相似的模型模板，有助于分析结果更加准确。

105、通过内容识别模块用于系统根据模板匹配结果，对文字内容进行识别和提取，所述内容识别模块进行图像文字内容识别的具体步骤为：

E1、文字分割：根据模板匹配模块的结果，将图像中的文字区域进行分割，得到单个文字的图像；

E2、文字识别：使用文字识别算法对每个文字图像进行识别；

E3、文字提取：根据识别结果，提取出每个文字的内容，将识别结果转换为文字字符；

在这里需要说明的是：

内容识别模块基于模板匹配结果，可以对文字内容进行识别和提取，包括文字内容、样式以及格式等，可以识别出文字的具体内容和排版样式，提供更多的信息。

106、通过错误检测模块提供系统的维护功能，用于对识别出的文字进行错误检测，并计算出系统的错误识别指数，判断错误识别指数是否超出预设值，所述错误检测模块进行识别结果的错误检测具体包括：

F1、准备标注数据：通过人工标注以及其他数据来源准备包含正确的文字内容的标注数据；

F2、对比和标记：使用编程语言提供的字符串操作函数和循环结构对文字识别结果和标注数据从头到尾逐个字符或单词地进行对比，根据比对结果，检测出文字识别中的错误，并进行标记；

F3、分析：根据文字识别算法生成的置信度分数k_n，对识别结果进行分析，根据文字识别的上下文信息，对识别结果进行进一步分析；

F4、错误识别指数计算：根据总识别m_n、漏识别q_n、错识别w_n、多识别个数e_n、文档的结构r_n、语法规则t_n、语义关系y_n，计算识别的错误识别指数：；

进一步地，当进行文字识别时，系统会根据相似度的值来计算置信度分数，相似度越高，置信度分数越高，k_n值的大小由算法自动计算完成，在这里不做具体叙述；

F5、识别行为质量指数计算：根据识别结果与识别样品的比较结果，统计识别过程中识别页数差值a_n、字数差值s_n、图像数差值d_n、表格数差值f_n、并根据这些数据计算此次识别的识别行为质量指数：；

F6、识别可性度计算：根据上述错误识别指数以及识别行为质量指数计算此次识别结果的识别可性度：；

F7、数值判断：判断识别可性度K_n是否超过预设值K_i，当时，系统判定此次识别可性度较低，系统下发维护指令至识别修正模块；

在这里需要说明的是：

错误检测模块可以检测识别过程中可能出现的错误，例如字符识别错误、排版错误等，可以通过比对识别结果与原始图像或预设模板进行校验，减少错误率，可以提高整个系统的可靠性和准确性，确保输出的文字内容和格式的正确性。

107、通过识别修正模块提供系统的维护功能，进行识别修正，并生成修正结果，反馈给用户，所述识别修正模块进行识别修正的具体步骤包括：

G1、纠正：利用基于规则的方法并使用预定义的规则和模式来纠正常见的拼写错误，通过替换、插入、删除或其他方式对识别结果和识别行为进行修正；

进一步地，造成识别行为质量低下的因素主要出现在图像识别过程中，采集到的图像数据有偏斜以及图像显示不完全，进行纠正时，使用文字框检测算法，确保正确识别出文字的边界框，对有缺失或错误的框，进行校正，对于自动修正方法无法解决问题，引入人工干预，手动检查和修正识别结果中的错误或缺失，以提高系统的识别行为质量；

进一步地，对错误识别内容进行修正主要利用语言模型、机器学习算法，训练模型以及数据后处理的方法进行结合，对错误识别内容进行修正；

G2、转换：根据需求确定输出的目标格式，根据目标格式的要求，将文字内容进行相应的转换和处理并根据需求对输出的格式进行优化和调整；

G3、结果输出：将转换和优化后的文字内容生成为目标格式的输出文件，并在用户智能终端进行显示；

在这里需要说明的是：

识别修正模块的存在可以增强文字排版图像识别系统的可靠性和稳定性，减少错误率，并提供更好的用户体验，可以通过机器学习或规则引擎等技术，根据大量的训练数据或规则，提高错误识别和修正的准确性和鲁棒性。

如图2所示本实施例提供了一种用于出版印刷设备的文字排版图像识别方法，包括以下步骤：

S1、接受待识别的出版印刷设备文字排版图像；

S2、对输入图像进行去噪、分割和增强以及角点检测的预处理操作；

S3、通过深度学习技术，提取输入图像的特征数据，并将提取到的特征数据传输至模板匹配模块；

S4、系统将提取的特征与预设的文字模板进行匹配，计算出提取的图像特征数据与文字模板的余弦相似度，并使用最大相似度匹配的方法来确定最佳的匹配结果；

S5、系统根据模板匹配结果，对文字内容进行识别和提取，并将提取到的数据传输至数据库；

S6、对识别出的文字进行错误检测，并计算出系统的错误识别概率指数、识别行为质量指数以及识别可信度，判断识别可信度是否小于预设值，系统下发指令至识别修正模块；

S7、提供系统的维护功能，及进行错误识别修正以及识别行为修正，并生成修正结果，反馈给用户。

最后：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于出版印刷设备的文字排版图像识别系统，其特征在于：包括：

数据库：用于向输入模块发送各种出版印刷设备文字排版图和接收内容识别模块提取到的数据；

输入模块：用于接收待识别的出版印刷设备文字排版图像，并将图像传输至图像预处理模块；

内容识别模块：用于系统根据模板匹配结果，对文字内容进行识别和提取，并将提取到的数据传输至错误检测模块；

错误检测模块：用于对识别出的文字进行错误检测，并计算出系统的错误识别概率指数、识别行为质量指数以及识别可信度，判断识别可信度是否小于预设值，小于预设值时，系统下发指令至识别修正模块；

识别修正模块：用于提供系统的维护功能，进行错误识别修正以及识别行为修正，并生成修正结果，反馈给用户。

2.根据权利要求1所述的一种用于出版印刷设备的文字排版图像识别系统，其特征在于：所述输入模块用于接收待识别的出版印刷设备文字排版图像，所述输入模块具体包括：

3.根据权利要求1所述的一种用于出版印刷设备的文字排版图像识别系统，其特征在于：所述图像预处理模块用于对输入图像进行去噪、分割和增强以及角点检测的预处理操作，所述图像预处理模块具体包括：

形态学处理单元：使用形态学操作对文字区域进行处理，填充缺失的部分；

4.根据权利要求1所述的一种用于出版印刷设备的文字排版图像识别系统，其特征在于：所述特征提取模块用于通过深度学习技术，提取输入图像的特征数据，所述特征提取模块具体包括：

5.根据权利要求1所述的一种用于出版印刷设备的文字排版图像识别系统，其特征在于：所述模板匹配模块用于系统将提取的特征与预设的文字模板进行匹配，计算出提取的图像特征数据与文字模板的余弦相似度，并使用最大相似度匹配的方法来确定最佳匹配结果，所述模板匹配模块具体包括：

6.根据权利要求1所述的一种用于出版印刷设备的文字排版图像识别系统，其特征在于：所述内容识别模块用于系统根据模板匹配结果，对文字内容进行识别和提取，所述内容识别模块具体包括：

7.根据权利要求1所述的一种用于出版印刷设备的文字排版图像识别系统，其特征在于：所述错误检测模块提供系统的维护功能，用于对识别出的文字进行错误检测，并计算出系统的错误识别指数，判断错误识别指数是否超出预设值，所述错误检测模块具体包括：

分析单元：根据文字识别算法生成的置信度分数k_n，对识别结果进行分析，根据文字识别的上下文信息，对识别结果进行分析；

数值判断单元：判断识别可信度K_n是否超过预设值K_i，当时，系统判定此次识别可信度低，系统下发维护指令至识别修正模块。

8.根据权利要求1所述的一种用于出版印刷设备的文字排版图像识别系统，其特征在于：所述识别修正模块提供系统的维护功能，进行识别修正，并生成修正结果，反馈给用户，所述识别修正模块具体包括：