CN116704523A - 一种用于出版印刷设备的文字排版图像识别系统 - Google Patents
一种用于出版印刷设备的文字排版图像识别系统 Download PDFInfo
- Publication number
- CN116704523A CN116704523A CN202310979631.1A CN202310979631A CN116704523A CN 116704523 A CN116704523 A CN 116704523A CN 202310979631 A CN202310979631 A CN 202310979631A CN 116704523 A CN116704523 A CN 116704523A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- recognition
- module
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000008569 process Effects 0.000 claims abstract description 15
- 239000000284 extract Substances 0.000 claims abstract description 10
- 238000001514 detection method Methods 0.000 claims description 31
- 238000007781 pre-processing Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 17
- 238000012423 maintenance Methods 0.000 claims description 16
- 230000006399 behavior Effects 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 15
- 238000005516 engineering process Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000013135 deep learning Methods 0.000 claims description 9
- 238000013136 deep learning model Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 230000000877 morphologic effect Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19013—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/164—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种用于出版印刷设备的文字排版图像识别系统,具体涉及图像识别技术领域,包括包括:输入模块、图像预处理模块、特征提取模块、模板匹配模块、内容识别模块、错误检测模块以及识别修正模块,本发明利用模板匹配模块可以将提取的特征与预设的文字模板进行匹配,确定文字的位置和排版信息,可以快速准确地定位文字,可以检测识别过程中可能出现的错误,通过比对识别结果与原始图像或预设模板进行校验,减少错误率,并根据错误类型和模式,提供相应的修正策略和方法,自动修正或建议修正错误,实现了高精度的文字排版图像识别,能够准确提取文字的排版信息和内容,检测和修正识别过程中的错误,满足出版印刷设备的需求。
Description
技术领域
本发明涉及图像识别技术领域,更具体地说,本发明涉及一种用于出版印刷设备的文字排版图像识别系统。
背景技术
现有的文字排版图像识别系统,根据文字特征和图像特征,将对应的文字内容和和排版样式进行提取,可以自动化地处理大量的文字图像,减少人工操作的工作量,提高处理速度和效率,相比于手动排版,文字识别系统可以快速准确地识别和处理文字,节省大量时间和人力资源,具有提高效率、提高准确性、实现自动化排版、灵活性和可定制性、跨平台和易于集成等优点,目前被广泛运用。
然而上述技术仍存在不足,上述技术在使用过程中,对识别出的排版样式以及内容准确程度有限,缺少检测与错误修正的功能,无法对识别出的结果进行准确性的验证,也无法对识别错误的结果进行修正,导致目前文字排版图像识别系统准确率不高,在实际使用时存在一定的限制,在进行识别时,没有利用成熟的训练模型进行匹配,导致排版识别结果存在误差,识别准确度低。
发明内容
为了克服现有技术的上述缺陷,本发明的提供一种用于出版印刷设备的文字排版图像识别系统,通过训练排版模型,计算模型与识别结果的匹配程度,找出最相似的排版模型,并进行内容识别错误结果检测,对错误检测进行修正,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:包括:数据库、输入模块、图像预处理模块、特征提取模块、模板匹配模块、内容识别模块、错误检测模块以及识别修正模块。
输入模块:用于接收数据库发送的待识别的出版印刷设备文字排版图像,并将图像传输至图像预处理模块;
图像预处理模块:用于对输入图像进行去噪、分割和增强以及角点检测的预处理操作,并将处理后的图像传输至特征提取模块;
特征提取模块:用于通过深度学习技术,提取输入图像的特征数据,并将提取到的特征数据传输至模板匹配模块;
模板匹配模块:用于系统将提取的特征与预设的文字模板进行匹配,计算出提取的图像特征数据与文字模板的余弦相似度,并使用最大相似度匹配的方法来确定最佳匹配结果,并将匹配结果传输至内容识别模块;
内容识别模块:用于系统根据模板匹配结果,对文字内容进行识别和提取,并将提取到的数据传输至数据库;
错误检测模块:提供系统的维护功能,用于对识别出的文字进行错误检测,并计算出系统的错误识别概率指数,判断错误识别概率指数是否超出预设值,超出预设值时,系统下发指令至识别修正模块;
识别修正模块:提供系统的维护功能,进行错误识别修正,并生成修正结果,反馈给用户。
优选的,输入模块用于接收数据库发送的待识别的出版印刷设备文字排版图像,所述输入模块具体包括:
设备扫描单元:通过扫描仪、相机以及其他图像采集设备获取待识别的出版印刷设备文字排版图像;
图像获取单元:系统连接扫描设备,接收待识别的文字排版图像,并对图像进行存储以及传输至图像预处理模块。
优选的,图像预处理模块用于对输入图像进行去噪、分割和增强以及角点检测的预处理操作,所述图像预处理模块具体包括:
去噪单元:使用去噪算法对输入图像进行降噪处理,去除图像中的噪声干扰;
分割单元:根据图像的特点和排版结构,利用连通区域分析将图像分割成文字区域和非文字区域;
形态学处理单元:使用形态学操作对文字区域进行进一步处理,去除不必要的细节或填充缺失的部分;
统一尺寸单元:利用缩放、裁剪以及填充技术对文字区域进行尺寸统一处理,使其具有相同的大小和比例。
优选的,特征提取模块用于通过深度学习技术,提取输入图像的特征数据,所述特征提取模块具体包括:
训练集收集单元:收集包含不同字体、字号、行间距和段落结构的图像数据,并进行标注;
模型选择与训练单元:根据任务的要求,选择适合的深度学习模型,使用准备好的训练数据集对深度学习模型进行训练,通过反向传播算法不断调整模型的参数,更好地提取图像的特征;
特征提取单元:将待提取特征的图像输入到已经训练好的深度学习模型中,通过前向传播算法,将图像数据从输入层传递到输出层,同时在每一层中提取图像的特征,提取到的特征数据具体包括:字体型号、字号大小、行间距、段落结构、文字与页面相比的偏斜角度、字符间距、字符形状、字符笔画数、字符颜色编号、图像面积、文字面积、文字方向:包括水平方向、垂直方向以及斜向以及文字边界框坐标。
优选的,模板匹配模块用于系统将提取的特征与预设的文字模板进行匹配,计算出提取的图像特征数据与文字模板的余弦相似度,并使用最大相似度匹配的方法来确定最佳匹配结果,所述模板匹配模块具体包括:
特征表示单元:将文本排版属性表示为向量形式,使用独热编码、词袋模型的方法将每个属性转换为数值表示,建立图像特征值:,A1,A2,……Am分别代表图像文字排版的特征值,/>,B1,B2,……Bm分别代表预设文字模板的排版特征值;
余弦相似度计算单元:将图像文字排版特征值和模板文字排版特征值进行向量化,,/>,计算它们之间的余弦相似度,余弦相似度的计算公式为:/>;
相似度匹配单元:选取具有最大相似度的文字模板作为最佳匹配结果。
优选的,内容识别模块用于系统根据模板匹配结果,对文字内容进行识别和提取,所述内容识别模块具体包括:
文字分割单元:根据模板匹配模块的结果,将图像中的文字区域进行分割,得到单个文字的图像;
文字识别单元:使用文字识别算法对每个文字图像进行识别;
文字提取单元:根据识别结果,提取出每个文字的内容,将识别结果转换为文字字符。
优选的,错误检测模块提供系统的维护功能,用于对识别出的文字进行错误检测,并计算出系统的错误识别指数,判断错误识别指数是否超出预设值,所述错误检测模块具体包括:
准备标注数据单元:通过人工标注以及其他数据来源准备包含正确的文字内容的标注数据;
对比和标记单元:使用编程语言提供的字符串操作函数和循环结构对文字识别结果和标注数据从头到尾逐个字符或单词地进行对比,根据比对结果,检测出文字识别中的错误,并进行标记;
分析单元:根据文字识别算法生成的置信度分数kn,对识别结果进行分析,根据文字识别的上下文信息,对识别结果进行进一步分析;
错误识别指数计算单元:根据总识别mn、漏识别qn、错识别wn、多识别个数en、文档的结构rn、语法规则tn、语义关系yn,计算识别的错误识别指数:;
识别行为质量指数计算单元:根据识别结果与识别样品的比较结果,统计识别过程中识别页数差值an、字数差值sn、图像数差值dn、表格数差值fn、并根据这些数据计算此次识别的识别行为质量指数:;
识别可信度计算单元:根据上述错误识别指数以及识别行为质量指数计算此次识别结果的识别可信度:;
数值判断单元:判断识别可信度Kn是否超过预设值Ki,当时,系统判定此次识别可信度较低,系统下发维护指令至识别修正模块。
优选的,识别修正模块提供系统的维护功能,进行识别修正,并生成修正结果,反馈给用户,所述识别修正模块具体包括:
纠正单元:利用基于规则的方法并使用预定义的规则和模式来纠正常见的拼写错误,通过替换、插入、删除或其他方式对识别结果进行修正;
转换单元:根据需求确定输出的目标格式,根据目标格式的要求,将文字内容进行相应的转换和处理并根据需求对输出的格式进行优化和调整;
结果输出单元:将转换和优化后的文字内容生成为目标格式的输出文件,并在用户智能终端进行显示。
本发明的技术效果和优点:
本发明利用模板匹配模块可以将提取的特征与预设的文字模板进行匹配,确定文字的位置和排版信息,可以快速准确地定位文字,提高识别的效率和准确性,基于模板匹配结果,可以对文字内容进行识别和提取,包括文字内容、样式以及格式等,并识别出文字的具体内容和排版样式,提供更多的信息,可以检测识别过程中可能出现的错误,例如字符识别错误、排版错误等,通过比对识别结果与原始图像或预设模板进行校验,减少错误率,可以检测和识别文本识别过程中可能出现的错误,例如字符识别错误、排版错误、格式错误等,并根据错误类型和模式,提供相应的修正策略和方法,自动修正或建议修正错误,通过以上模块的组合和协作,本发明实现了高精度的文字排版图像识别,能够准确提取文字的排版信息和内容,检测和修正识别过程中的错误,提供可编辑格式或其他指定格式的输出,满足出版印刷设备的需求。
附图说明
图1为本发明的系统结构框图。
图2为本发明的系统流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供了如图1所示一种用于出版印刷设备的文字排版图像识别系统,包括:数据库、输入模块、图像预处理模块、特征提取模块、模板匹配模块、内容识别模块、错误检测模块以及识别修正模块。
所述输入模块用于接收数据库发送的待识别的出版印刷设备文字排版图像,并将图像传输至图像预处理模块,所述图像预处理模块用于对输入图像进行去噪、分割和增强以及角点检测的预处理操作,并将处理后的图像传输至特征提取模块,所述特征提取模块用于通过深度学习技术,提取输入图像的特征数据,并将提取到的特征数据传输至模板匹配模块,所述模板匹配模块用于系统将提取的特征与预设的文字模板进行匹配,计算出提取的图像特征数据与文字模板的余弦相似度,并使用最大相似度匹配的方法来确定最佳匹配结果,并将匹配结果传输至内容识别模块;
内容识别模块:用于系统根据模板匹配结果,对文字内容进行识别和提取,并将提取到的数据传输至数据库;
错误检测模块:提供系统的维护功能,用于对识别出的文字进行错误检测,并计算出系统的错误识别概率指数,判断错误识别概率指数是否超出预设值,超出预设值时,系统下发指令至识别修正模块;
识别修正模块:提供系统的维护功能,进行错误识别修正,并生成修正结果,反馈给用户。
本实施与现有技术的区别在于模板匹配模块、错误检测模块以及识别修正模块,模板匹配模块利用深度学习技术建立以及训练模型,找到与识别内容排版匹配程度最高的模板,错误检测模块对识别的内容进行分析和检测,找出识别错误的内容,并进行标记,并计算出此次识别的错误指数,根据指数的高低判断此次识别是否正常,识别修正模块对检测到的错误进行修正和更改,保证识别结果的正确率和可靠性,整个过程是现有技术不具备的。
本实施例提供一种用于出版印刷设备的文字排版图像识别系统的方法流程图,具体包括下列步骤:
101、通过输入模块接收待识别的出版印刷设备文字排版图像,所述输入模块进行图像扫描输入的具体步骤为:
A1、设备扫描:通过扫描仪、相机以及其他图像采集设备获取待识别的出版印刷设备文字排版图像;
A2、图像获取:系统连接扫描设备,接收待识别的文字排版图像,并对图像进行存储以及传输至图像预处理模块;
在这里需要说明的是:
输入模块可以接收各种出版印刷设备文字排版图像,具有较高的兼容性,可以通过扫描仪、相机等设备获取图像,方便实用。
102、通过图像预处理模块对输入图像进行去噪、分割和增强以及角点检测的预处理操作,所述图像预处理模块进行输入图像预处理的具体步骤为:
B1、图像去噪:使用去噪算法对输入图像进行降噪处理,去除图像中的噪声干扰;
B2、图像分割:根据图像的特点和排版结构,利用连通区域分析将图像分割成文字区域和非文字区域;
B3、形态学处理:使用形态学操作对文字区域进行处理,去除不必要的细节或填充缺失的部分;
B4、统一尺寸:利用缩放、裁剪以及填充技术对文字区域进行尺寸统一处理,使其具有相同的大小和比例;
在这里需要说明的是:
图像预处理模块通过去噪、分割和增强等预处理操作可以有效提高后续模块的识别准确性,可以处理图像中的噪声、模糊等问题,提高图像质量,从而使得在后续识别过程中可以更加准确。
103、通过特征提取模块用于通过深度学习技术,提取输入图像的特征数据,所述特征提取模块进行图像特征数据提取的具体步骤为:
C1、训练集收集:收集包含不同字体、字号、行间距和段落结构的图像数据,并进行标注;
C2、模型选择与训练:根据任务的要求,选择适合的深度学习模型,使用准备好的训练数据集对深度学习模型进行训练,通过反向传播算法不断调整模型的参数,更好地提取图像的特征;
进行模型参数的反复调整是为了提高模型的灵敏度和准确程度,对一些特殊字体、模糊、扭曲的图像识别的准确率更高;
C3、特征提取:将待提取特征的图像输入到已经训练好的深度学习模型中,通过前向传播算法,将图像数据从输入层传递到输出层,同时在每一层中提取图像的特征,提取到的特征数据具体包括:字体型号、字号大小、行间距、段落结构、文字与页面相比的偏斜角度、字符间距、字符形状、字符笔画数、字符颜色编号、图像面积、文字面积、文字方向:包括水平方向、垂直方向以及斜向以及文字边界框坐标;
在这里需要说明的是:
特征提取模块基于深度学习技术,可以准确提取输入图像的字体、字号、行间距、段落结构等特征,可以通过学习大量的样本数据,建立训练模型,高特征提取的准确性和鲁棒性。
104、通过模板匹配模块系统将提取的特征与预设的文字模板进行匹配,计算出提取的图像特征数据与文字模板的余弦相似度,并使用最大相似度匹配的方法来确定最佳匹配结果,所述模板匹配模块进行文字模板匹配的具体步骤为:
D1、特征表示:将文本排版属性表示为向量形式,使用独热编码、词袋模型的方法将每个属性转换为数值表示,建立图像特征值:,A1,A2,……Am分别代表上述图像文字排版的特征数据,/>,B1,B2,……Bm分别代表预设文字模板的排版特征数据;
D2、余弦相似度计算:将图像文字排版特征值和模板文字排版特征值进行向量化,,/>,计算它们之间的余弦相似度,余弦相似度的计算公式为:/>;
D3、相似度匹配:选取具有最大相似度的文字模板作为最佳匹配结果;
在这里需要说明的是:
模板匹配模块可以将提取的特征与预设的文字模板进行匹配,确定文字的位置和排版信息,可以快速准确地定位文字,提高识别的效率和准确性,通过根据识别结果和模型的余弦相似度的最高值来选取最相似的模型模板,有助于分析结果更加准确。
105、通过内容识别模块用于系统根据模板匹配结果,对文字内容进行识别和提取,所述内容识别模块进行图像文字内容识别的具体步骤为:
E1、文字分割:根据模板匹配模块的结果,将图像中的文字区域进行分割,得到单个文字的图像;
E2、文字识别:使用文字识别算法对每个文字图像进行识别;
E3、文字提取:根据识别结果,提取出每个文字的内容,将识别结果转换为文字字符;
在这里需要说明的是:
内容识别模块基于模板匹配结果,可以对文字内容进行识别和提取,包括文字内容、样式以及格式等,可以识别出文字的具体内容和排版样式,提供更多的信息。
106、通过错误检测模块提供系统的维护功能,用于对识别出的文字进行错误检测,并计算出系统的错误识别指数,判断错误识别指数是否超出预设值,所述错误检测模块进行识别结果的错误检测具体包括:
F1、准备标注数据:通过人工标注以及其他数据来源准备包含正确的文字内容的标注数据;
F2、对比和标记:使用编程语言提供的字符串操作函数和循环结构对文字识别结果和标注数据从头到尾逐个字符或单词地进行对比,根据比对结果,检测出文字识别中的错误,并进行标记;
F3、分析:根据文字识别算法生成的置信度分数kn,对识别结果进行分析,根据文字识别的上下文信息,对识别结果进行进一步分析;
F4、错误识别指数计算:根据总识别mn、漏识别qn、错识别wn、多识别个数en、文档的结构rn、语法规则tn、语义关系yn,计算识别的错误识别指数:;
进一步地,当进行文字识别时,系统会根据相似度的值来计算置信度分数,相似度越高,置信度分数越高,kn值的大小由算法自动计算完成,在这里不做具体叙述;
F5、识别行为质量指数计算:根据识别结果与识别样品的比较结果,统计识别过程中识别页数差值an、字数差值sn、图像数差值dn、表格数差值fn、并根据这些数据计算此次识别的识别行为质量指数:;
F6、识别可性度计算:根据上述错误识别指数以及识别行为质量指数计算此次识别结果的识别可性度:;
F7、数值判断:判断识别可性度Kn是否超过预设值Ki,当时,系统判定此次识别可性度较低,系统下发维护指令至识别修正模块;
在这里需要说明的是:
错误检测模块可以检测识别过程中可能出现的错误,例如字符识别错误、排版错误等,可以通过比对识别结果与原始图像或预设模板进行校验,减少错误率,可以提高整个系统的可靠性和准确性,确保输出的文字内容和格式的正确性。
107、通过识别修正模块提供系统的维护功能,进行识别修正,并生成修正结果,反馈给用户,所述识别修正模块进行识别修正的具体步骤包括:
G1、纠正:利用基于规则的方法并使用预定义的规则和模式来纠正常见的拼写错误,通过替换、插入、删除或其他方式对识别结果和识别行为进行修正;
进一步地,造成识别行为质量低下的因素主要出现在图像识别过程中,采集到的图像数据有偏斜以及图像显示不完全,进行纠正时,使用文字框检测算法,确保正确识别出文字的边界框,对有缺失或错误的框,进行校正,对于自动修正方法无法解决问题,引入人工干预,手动检查和修正识别结果中的错误或缺失,以提高系统的识别行为质量;
进一步地,对错误识别内容进行修正主要利用语言模型、机器学习算法,训练模型以及数据后处理的方法进行结合,对错误识别内容进行修正;
G2、转换:根据需求确定输出的目标格式,根据目标格式的要求,将文字内容进行相应的转换和处理并根据需求对输出的格式进行优化和调整;
G3、结果输出:将转换和优化后的文字内容生成为目标格式的输出文件,并在用户智能终端进行显示;
在这里需要说明的是:
识别修正模块的存在可以增强文字排版图像识别系统的可靠性和稳定性,减少错误率,并提供更好的用户体验,可以通过机器学习或规则引擎等技术,根据大量的训练数据或规则,提高错误识别和修正的准确性和鲁棒性。
如图2所示本实施例提供了一种用于出版印刷设备的文字排版图像识别方法,包括以下步骤:
S1、接受待识别的出版印刷设备文字排版图像;
S2、对输入图像进行去噪、分割和增强以及角点检测的预处理操作;
S3、通过深度学习技术,提取输入图像的特征数据,并将提取到的特征数据传输至模板匹配模块;
S4、系统将提取的特征与预设的文字模板进行匹配,计算出提取的图像特征数据与文字模板的余弦相似度,并使用最大相似度匹配的方法来确定最佳的匹配结果;
S5、系统根据模板匹配结果,对文字内容进行识别和提取,并将提取到的数据传输至数据库;
S6、对识别出的文字进行错误检测,并计算出系统的错误识别概率指数、识别行为质量指数以及识别可信度,判断识别可信度是否小于预设值,系统下发指令至识别修正模块;
S7、提供系统的维护功能,及进行错误识别修正以及识别行为修正,并生成修正结果,反馈给用户。
最后:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种用于出版印刷设备的文字排版图像识别系统,其特征在于:包括:
数据库:用于向输入模块发送各种出版印刷设备文字排版图和接收内容识别模块提取到的数据;
输入模块:用于接收待识别的出版印刷设备文字排版图像,并将图像传输至图像预处理模块;
图像预处理模块:用于对输入图像进行去噪、分割和增强以及角点检测的预处理操作,并将处理后的图像传输至特征提取模块;
特征提取模块:用于通过深度学习技术,提取输入图像的特征数据,并将提取到的特征数据传输至模板匹配模块;
模板匹配模块:用于系统将提取的特征与预设的文字模板进行匹配,计算出提取的图像特征数据与文字模板的余弦相似度,并使用最大相似度匹配的方法来确定最佳匹配结果,并将匹配结果传输至内容识别模块;
内容识别模块:用于系统根据模板匹配结果,对文字内容进行识别和提取,并将提取到的数据传输至错误检测模块;
错误检测模块:用于对识别出的文字进行错误检测,并计算出系统的错误识别概率指数、识别行为质量指数以及识别可信度,判断识别可信度是否小于预设值,小于预设值时,系统下发指令至识别修正模块;
识别修正模块:用于提供系统的维护功能,进行错误识别修正以及识别行为修正,并生成修正结果,反馈给用户。
2.根据权利要求1所述的一种用于出版印刷设备的文字排版图像识别系统,其特征在于:所述输入模块用于接收待识别的出版印刷设备文字排版图像,所述输入模块具体包括:
设备扫描单元:通过扫描仪、相机以及其他图像采集设备获取待识别的出版印刷设备文字排版图像;
图像获取单元:系统连接扫描设备,接收待识别的文字排版图像,并对图像进行存储以及传输至图像预处理模块。
3.根据权利要求1所述的一种用于出版印刷设备的文字排版图像识别系统,其特征在于:所述图像预处理模块用于对输入图像进行去噪、分割和增强以及角点检测的预处理操作,所述图像预处理模块具体包括:
去噪单元:使用去噪算法对输入图像进行降噪处理,去除图像中的噪声干扰;
分割单元:根据图像的特点和排版结构,利用连通区域分析将图像分割成文字区域和非文字区域;
形态学处理单元:使用形态学操作对文字区域进行处理,填充缺失的部分;
统一尺寸单元:利用缩放、裁剪以及填充技术对文字区域进行尺寸统一处理,使其具有相同的大小和比例。
4.根据权利要求1所述的一种用于出版印刷设备的文字排版图像识别系统,其特征在于:所述特征提取模块用于通过深度学习技术,提取输入图像的特征数据,所述特征提取模块具体包括:
训练集收集单元:收集包含不同字体、字号、行间距和段落结构的图像数据,并进行标注;
模型选择与训练单元:根据任务的要求,选择适合的深度学习模型,使用准备好的训练数据集对深度学习模型进行训练,通过反向传播算法不断调整模型的参数,更好地提取图像的特征;
特征提取单元:将待提取特征的图像输入到已经训练好的深度学习模型中,通过前向传播算法,将图像数据从输入层传递到输出层,同时在每一层中提取图像的特征,提取到的特征数据具体包括:字体型号、字号大小、行间距、段落结构、文字与页面相比的偏斜角度、字符间距、字符形状、字符笔画数、字符颜色编号、图像面积、文字面积、文字方向:包括水平方向、垂直方向以及斜向以及文字边界框坐标。
5.根据权利要求1所述的一种用于出版印刷设备的文字排版图像识别系统,其特征在于:所述模板匹配模块用于系统将提取的特征与预设的文字模板进行匹配,计算出提取的图像特征数据与文字模板的余弦相似度,并使用最大相似度匹配的方法来确定最佳匹配结果,所述模板匹配模块具体包括:
特征表示单元:将文本排版属性表示为向量形式,使用独热编码、词袋模型的方法将每个属性转换为数值表示,建立图像特征值:,A1,A2,……Am分别代表图像文字排版的特征值,/>,B1,B2,……Bm分别代表预设文字模板的排版特征值;
余弦相似度计算单元:将图像文字排版特征值和模板文字排版特征值进行向量化,,/>,计算它们之间的余弦相似度,余弦相似度的计算公式为:/>;
相似度匹配单元:选取具有最大相似度的文字模板作为最佳匹配结果。
6.根据权利要求1所述的一种用于出版印刷设备的文字排版图像识别系统,其特征在于:所述内容识别模块用于系统根据模板匹配结果,对文字内容进行识别和提取,所述内容识别模块具体包括:
文字分割单元:根据模板匹配模块的结果,将图像中的文字区域进行分割,得到单个文字的图像;
文字识别单元:使用文字识别算法对每个文字图像进行识别;
文字提取单元:根据识别结果,提取出每个文字的内容,将识别结果转换为文字字符。
7.根据权利要求1所述的一种用于出版印刷设备的文字排版图像识别系统,其特征在于:所述错误检测模块提供系统的维护功能,用于对识别出的文字进行错误检测,并计算出系统的错误识别指数,判断错误识别指数是否超出预设值,所述错误检测模块具体包括:
准备标注数据单元:通过人工标注以及其他数据来源准备包含正确的文字内容的标注数据;
对比和标记单元:使用编程语言提供的字符串操作函数和循环结构对文字识别结果和标注数据从头到尾逐个字符或单词地进行对比,根据比对结果,检测出文字识别中的错误,并进行标记;
分析单元:根据文字识别算法生成的置信度分数kn,对识别结果进行分析,根据文字识别的上下文信息,对识别结果进行分析;
错误识别指数计算单元:根据总识别mn、漏识别qn、错识别wn、多识别个数en、文档的结构rn、语法规则tn、语义关系yn,计算识别的错误识别指数:;
识别行为质量指数计算单元:根据识别结果与识别样品的比较结果,统计识别过程中识别页数差值an、字数差值sn、图像数差值dn、表格数差值fn、并根据这些数据计算此次识别的识别行为质量指数:;
识别可信度计算单元:根据上述错误识别指数以及识别行为质量指数计算此次识别结果的识别可信度:;
数值判断单元:判断识别可信度Kn是否超过预设值Ki,当时,系统判定此次识别可信度低,系统下发维护指令至识别修正模块。
8.根据权利要求1所述的一种用于出版印刷设备的文字排版图像识别系统,其特征在于:所述识别修正模块提供系统的维护功能,进行识别修正,并生成修正结果,反馈给用户,所述识别修正模块具体包括:
纠正单元:利用基于规则的方法并使用预定义的规则和模式来纠正常见的拼写错误,通过替换、插入、删除或其他方式对识别结果进行修正;
转换单元:根据需求确定输出的目标格式,根据目标格式的要求,将文字内容进行相应的转换和处理并根据需求对输出的格式进行优化和调整;
结果输出单元:将转换和优化后的文字内容生成为目标格式的输出文件,并在用户智能终端进行显示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310979631.1A CN116704523B (zh) | 2023-08-07 | 2023-08-07 | 一种用于出版印刷设备的文字排版图像识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310979631.1A CN116704523B (zh) | 2023-08-07 | 2023-08-07 | 一种用于出版印刷设备的文字排版图像识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116704523A true CN116704523A (zh) | 2023-09-05 |
CN116704523B CN116704523B (zh) | 2023-10-20 |
Family
ID=87831497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310979631.1A Active CN116704523B (zh) | 2023-08-07 | 2023-08-07 | 一种用于出版印刷设备的文字排版图像识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116704523B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475443A (zh) * | 2023-12-27 | 2024-01-30 | 环球数科集团有限公司 | 一种基于aigc的图像分割及重组系统 |
CN117953519A (zh) * | 2024-03-27 | 2024-04-30 | 湖北楚天龙实业有限公司 | 一种用于档案数字化服务的质量监控方法及系统 |
CN118351543A (zh) * | 2024-06-18 | 2024-07-16 | 南昌大学第一附属医院 | 一种医疗检验单的数据信息提取分析方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544475A (zh) * | 2013-09-23 | 2014-01-29 | 方正国际软件有限公司 | 一种版面类型的识别方法及系统 |
CN103593642A (zh) * | 2012-08-16 | 2014-02-19 | 阿里巴巴集团控股有限公司 | 一种卡信息获取方法和系统 |
CN106446898A (zh) * | 2016-09-14 | 2017-02-22 | 宇龙计算机通信科技(深圳)有限公司 | 一种图像中文字信息的提取方法及装置 |
CN111046784A (zh) * | 2019-12-09 | 2020-04-21 | 科大讯飞股份有限公司 | 文档版面分析识别方法、装置、电子设备和存储介质 |
US20200184287A1 (en) * | 2019-02-26 | 2020-06-11 | Logistimo India Private Limited | System and method for improving recognition of characters |
CN111861731A (zh) * | 2020-07-31 | 2020-10-30 | 重庆富民银行股份有限公司 | 基于ocr的贷后检查系统及方法 |
CN112580707A (zh) * | 2020-12-11 | 2021-03-30 | 北京巅峰科技有限公司 | 图像识别方法、装置、设备及存储介质 |
CN113221711A (zh) * | 2021-04-30 | 2021-08-06 | 北京金山数字娱乐科技有限公司 | 一种信息提取方法及装置 |
CN113743415A (zh) * | 2021-08-05 | 2021-12-03 | 杭州远传新业科技有限公司 | 一种图像文本识别纠错的方法、系统、电子装置和介质 |
CN114611495A (zh) * | 2022-03-22 | 2022-06-10 | 平安证券股份有限公司 | 文本比对方法、装置、设备及介质 |
CN115131804A (zh) * | 2022-04-21 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 文档识别方法、装置、电子设备和计算机可读存储介质 |
CN115880702A (zh) * | 2022-08-23 | 2023-03-31 | 微民保险代理有限公司 | 数据处理方法、装置、设备、程序产品及存储介质 |
-
2023
- 2023-08-07 CN CN202310979631.1A patent/CN116704523B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593642A (zh) * | 2012-08-16 | 2014-02-19 | 阿里巴巴集团控股有限公司 | 一种卡信息获取方法和系统 |
CN103544475A (zh) * | 2013-09-23 | 2014-01-29 | 方正国际软件有限公司 | 一种版面类型的识别方法及系统 |
CN106446898A (zh) * | 2016-09-14 | 2017-02-22 | 宇龙计算机通信科技(深圳)有限公司 | 一种图像中文字信息的提取方法及装置 |
US20200184287A1 (en) * | 2019-02-26 | 2020-06-11 | Logistimo India Private Limited | System and method for improving recognition of characters |
CN111046784A (zh) * | 2019-12-09 | 2020-04-21 | 科大讯飞股份有限公司 | 文档版面分析识别方法、装置、电子设备和存储介质 |
CN111861731A (zh) * | 2020-07-31 | 2020-10-30 | 重庆富民银行股份有限公司 | 基于ocr的贷后检查系统及方法 |
CN112580707A (zh) * | 2020-12-11 | 2021-03-30 | 北京巅峰科技有限公司 | 图像识别方法、装置、设备及存储介质 |
CN113221711A (zh) * | 2021-04-30 | 2021-08-06 | 北京金山数字娱乐科技有限公司 | 一种信息提取方法及装置 |
CN113743415A (zh) * | 2021-08-05 | 2021-12-03 | 杭州远传新业科技有限公司 | 一种图像文本识别纠错的方法、系统、电子装置和介质 |
CN114611495A (zh) * | 2022-03-22 | 2022-06-10 | 平安证券股份有限公司 | 文本比对方法、装置、设备及介质 |
CN115131804A (zh) * | 2022-04-21 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 文档识别方法、装置、电子设备和计算机可读存储介质 |
CN115880702A (zh) * | 2022-08-23 | 2023-03-31 | 微民保险代理有限公司 | 数据处理方法、装置、设备、程序产品及存储介质 |
Non-Patent Citations (2)
Title |
---|
XU, Q. ET AL.: "LayoutLM-Critic: Multimodal Language Model for Text Error Correction of Optical Character Recognition", ARTIFICIAL INTELLIGENCE AND ROBOTICS: 7TH INTERNATIONAL SYMPOSIUM, ISAIR 2022, PROCEEDINGS. COMMUNICATIONS IN COMPUTER AND INFORMATION SCIENCE (1701) * |
徐军, 卢碧红: "文件修正系统的设计与实现", 计算机工程与设计, no. 06 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475443A (zh) * | 2023-12-27 | 2024-01-30 | 环球数科集团有限公司 | 一种基于aigc的图像分割及重组系统 |
CN117475443B (zh) * | 2023-12-27 | 2024-03-05 | 环球数科集团有限公司 | 一种基于aigc的图像分割及重组系统 |
CN117953519A (zh) * | 2024-03-27 | 2024-04-30 | 湖北楚天龙实业有限公司 | 一种用于档案数字化服务的质量监控方法及系统 |
CN117953519B (zh) * | 2024-03-27 | 2024-07-02 | 湖北楚天龙实业有限公司 | 一种用于档案数字化服务的质量监控方法及系统 |
CN118351543A (zh) * | 2024-06-18 | 2024-07-16 | 南昌大学第一附属医院 | 一种医疗检验单的数据信息提取分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116704523B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116704523B (zh) | 一种用于出版印刷设备的文字排版图像识别系统 | |
CN109241894B (zh) | 一种基于表格定位和深度学习的票据内容识别系统和方法 | |
TWI536277B (zh) | Form identification method and device | |
CN111814722A (zh) | 一种图像中的表格识别方法、装置、电子设备及存储介质 | |
CN112966537B (zh) | 基于二维码定位的表单识别方法及系统 | |
CN111127339A (zh) | 一种文档图像的梯形畸变矫正方法及装置 | |
CN102063611A (zh) | 一种文字输入方法和系统 | |
CN112686219B (zh) | 手写文本识别方法及计算机存储介质 | |
CN113537227B (zh) | 一种结构化文本识别方法及系统 | |
CN113780276B (zh) | 一种结合文本分类的文本识别方法及系统 | |
CN113139457A (zh) | 一种基于crnn的图片表格提取方法 | |
CN111914805A (zh) | 表格结构化方法、装置、电子设备及存储介质 | |
CN112560850A (zh) | 基于自定义模板的身份证信息自动提取和真伪校验方法 | |
CN112949455A (zh) | 一种增值税发票识别系统及方法 | |
CN113139535A (zh) | 一种ocr文档识别方法 | |
CN115909375A (zh) | 一种基于智能识别的报表分析方法 | |
CN114639106A (zh) | 图文识别方法、装置、计算机设备及存储介质 | |
CN117333893A (zh) | 基于ocr的自定义模板图像识别方法、系统及存储介质 | |
CN113989485B (zh) | 基于ocr识别的文本字符分割方法及系统 | |
CN112560866B (zh) | 一种基于背景抑制的ocr识别方法 | |
CN115050025A (zh) | 基于公式识别的知识点抽取方法及装置 | |
CN115457585A (zh) | 作业批改的处理方法、装置、计算机设备及可读存储介质 | |
CN114255464A (zh) | 基于craft和scrn-seed框架的自然场景文字检测识别方法 | |
TWM618756U (zh) | 影像識別系統 | |
CN111046874A (zh) | 一种基于模板匹配的单号识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |