CN116363668B - 一种图书智能校对方法及系统 - Google Patents
一种图书智能校对方法及系统 Download PDFInfo
- Publication number
- CN116363668B CN116363668B CN202310628815.3A CN202310628815A CN116363668B CN 116363668 B CN116363668 B CN 116363668B CN 202310628815 A CN202310628815 A CN 202310628815A CN 116363668 B CN116363668 B CN 116363668B
- Authority
- CN
- China
- Prior art keywords
- target
- character
- area
- versions
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000005259 measurement Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 59
- 238000006116 polymerization reaction Methods 0.000 claims description 30
- 238000012937 correction Methods 0.000 claims description 21
- 230000008859 change Effects 0.000 claims description 15
- 230000002776 aggregation Effects 0.000 claims description 10
- 238000004220 aggregation Methods 0.000 claims description 10
- 230000001915 proofreading effect Effects 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 6
- 101100272279 Beauveria bassiana Beas gene Proteins 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000005452 bending Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
- G06V30/1448—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/224—Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种图书智能校对方法及系统。该方法包括:获取需要校对的两版本图书图像;对两版本图书图像初步处理,以划分两版本图书图像中的字符或字号区域;提取两版本图书图像中的字符或字号区域的字符宏观分布特征和细节分布特征,得到字符的匹配度衡量值;根据字符的匹配度衡量值对两版本图书图像进行校对,输出校对结果。本发明从字符和符号本身的构成结构出发设置衡量匹配程度的标准,对异形字等不常用汉字也可使用,避免了因校准精度过高导致对软硬件设备支持的较高要求,对于文字校对具备适中的精确度。
Description
技术领域
本发明涉及图像数据处理技术领域,尤其是涉及一种图书智能校对方法及系统。
背景技术
图书校对方法是指在出版印刷过程中,通过检查和修正图书内容、格式、排版等环节中出现的错误和问题,确保图书的质量,提高图书的可读性和可信度的一种方法。在图书校对的过程中,电脑文本的排版校对是其中的重要环节,由于汉字录入时一键多字根、重码现象的存在,校样上可能出现字体字号、非文中符号、错别字、推行倒版等差错,同时,即使电脑排版清样无错,当出现指令失误时,软片也会出现版式变动和文字、行款错乱的问题,所以,需要特别注重电脑文本的排版校对。
现有技术中,图书智能校对技术主要包括OCR光学字符识别技术、基于布朗校对法、基于检索法和基于深度学习的校对技术等。这些技术虽然提高了图书智能校对的效率和精度,但仍存在一些问题,如:文献存在大量的异体字、错别字和漏字等的问题,会降低智能校对算法校对结果的准确性和有效性,图书智能校对技术对专业软硬件设备支持的要求较高等。而现有的传统校对技术精度不足,精度较高的匹配算法在校对匹配的过程中受到噪声、光源等的影响较大,但模糊匹配过于注重颜色、纹理等特征,对于文字的匹配精度不足。
发明内容
本发明的目的在于提供一种图书智能校对方法及系统,以解决现有技术中存在的技术问题。
第一方面,本发明实施例提供一种图书智能校对方法,所述方法包括:
获取需要校对的两版本图书图像;
对所述两版本图书图像初步处理,以划分所述两版本图书图像中的字符或字号区域;
提取所述两版本图书图像中的字符或字号区域的字符宏观分布特征和细节分布特征,得到字符的匹配度衡量值;
根据所述字符的匹配度衡量值对所述两版本图书图像进行校对,输出校对结果。
在可选的实施方式中,所述获取需要校对的两版本图书图像的步骤包括:
获取通过CCD相机分别拍摄的需要校对的两版本的图书同一页的图像;
将所述两版本的图书同一页的图像分别记为校对页图像和目标页图像。
在可选的实施方式中,所述对所述两版本图书图像初步处理的步骤包括:
将所述校对页图像和所述目标页图像由RGB图像转换为灰度图像;
对两版本的灰度图像分别使用OTSU最大类间方差法得到二值图像,分别记为校对页二值图像和目标页二值图像;
对所述校对页二值图像和所述目标页二值图像中像素值为1的像素点进行聚类,获得聚类簇,其中,每个所述聚类簇对应一个汉字或字符;
分别获取所述校对页二值图像和所述目标页二值图像的每个聚类簇的最小外接矩形,所述外接矩形为字符或字号区域;
将所述校对页二值图像中的各个矩形记为校对待测区,将所述目标页二值图像中的各个矩形记为目标待测区。
在可选的实施方式中,所述方法包括:
以所述校对待测区和所述目标待测区内的字符像素点的分布密度值、方向分布特征和分布结构变化程度综合表征所述字符宏观分布特征。
在可选的实施方式中,提取所述字符宏观分布特征的步骤包括:
统计每个所述校对待测区和所述目标待测区内像素值为1的像素点和像素值为0的像素点;
分别统计所述校对待测区和所述目标待测区内像素值为1的像素点个数所占的比
值,分别记为、;
获取所述校对待测区和所述目标待测区内各像素值为1的像素点的主成分方向向
量的方向,记为、;
获取所述校对待测区和所述目标待测区内各像素点对应的海森矩阵同一位置的
值的标准差的均值,记为、;
得到每个所述校对待测区的字符宏观分布特征矩阵:
得到每个所述目标待测区的字符宏观分布特征矩阵:
以、分别表征所述校对待测区和所述目标待测区的所述分布密度值,以、分别表征所述校对待测区和所述目标待测区的所述方向分布特征,以、分别表征所
述校对待测区和所述目标待测区的所述分布结构变化程度。
在可选的实施方式中,所述方法包括:
根据第一预设公式,对所述字符宏观分布特征一致性进行评价,所述第一预设公式为:
其中,为校对待测区与目标待测区之间的字符宏观分布特征一致性,为计算括号内两矩阵之间的余弦相似度。
在可选的实施方式中,所述方法包括:
当字符宏观分布特征一致性大于预设阈值时,进行细节分布特征匹配;
所述进行细节分布特征的步骤包括:
分别统计所述校对待测区和所述目标待测区的各像素点的灰度值以获取各像素点对应的梯度,以及各像素点对应的梯度方向;
统计校对所述校对待测区和所述目标待测区内预设八个梯度方向对应的像素点个数以及每个梯度方向对应的所有聚合度值;
获得所述校对待测区和所述目标待测区内预设八个梯度方向对应的像素点个数以及每个梯度方向对应的所有聚合度值的近似度;
以所述近似度表征所述匹配度衡量值。
在可选的实施方式中,所述方法包括:获得所述校对待测区的字符细节特征矩阵:
其中,为校对待测区的字符细节特征矩阵,矩阵每行对应一个梯度方向对应
的各指标值,由第一行到第八行分别对应的梯度方向为,矩阵第一列的各值为在校
对待测区内各像素点对应的梯度方向为数值所在行的梯度方向的像素点数量,矩阵的第
二列至第列的各数值为数值所在行对应的梯度方向的聚合度值,按照从大到小的顺
序依次从左至右排入各列;以聚合度值的数量最大的梯度方向确定该矩阵的列数,聚合度
值的数量最大的梯度方向对应的聚合度值的数量为,判断各梯度方向的聚合度值的数量
是否小于,若小于,矩阵内会出现空的位置,对空的位置处以数值0补全矩阵;其中,为矩阵中梯度方向为的聚合度值由大到小的各值,同理,分别为矩阵中梯度方向为的聚合度值由大到小的各值;
获取需要与所述校对待测区进行匹配的目标待测区对应的字符细节特征矩阵;
获取细节特征矩阵的匹配度衡量值:
其中,为校对待测区与目标待测区之间的匹配度衡量值;为计算
括号内两矩阵之间的余弦相似度。
在可选的实施方式中,所述根据所述字符的匹配度衡量值对所述两版本图书图像进行校对,输出校对结果的步骤包括:
将作为两个区域间像素点信息距离衡量,替换BBS图像匹配算法的距离函数中
像素点的值之差,获得改进BBS图像匹配算法;
使用所述改进BBS图像匹配算法对各校对待测区和目标待测区进行匹配;
当在目标待测区匹配不到的各所述校对待测区时,则输出所述校对待测区中存在出现问题的字符;
当在目标待测区均可匹配到各所述校对待测区时,则输出所述校对待测区不存在文字校对问题。
第二方面,本发明实施例还提供了一种图书智能校对系统。所述系统包括:
获取模块,用于获取需要校对的两版本图书图像;
划分模块,用于对所述两版本图书图像初步处理,以划分所述两版本图书图像中的字符或字号区域;
匹配模块,用于提取所述两版本图书图像中的字符或字号区域的字符宏观分布特征和细节分布特征,得到字符的匹配度衡量值;
输出模块,用于根据所述字符的匹配度衡量值对所述两版本图书图像进行校对,输出校对结果。
本发明将获取的两版权图书图像进行划分为字符和字号区域,然后,从两版本图书图像中的字符或字号区域中提取字符宏观分布特征和细节分布特征,将字符宏观分布特征和细节分布特征的综合特征的相似程度得到适合字符信息的匹配度衡量值,进而以该匹配度衡量值完成图书校对,对异形字等不常用汉字也可使用,避免了因校准精度过高导致对软硬件设备支持的较高要求,对于文字校对具备适中的精确度。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图;
图1为本发明实施例提供的一种图书智能校对方法流程示意图;
图2为本发明实施例提供的细节特征的提取过程中字体对应的区域内各像素点的所处位置的梯度变化情况示意图;
图3为本发明实施例提供的一种图书智能校对系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
如图1所示,本申请实施例提供了一种图书智能校对方法,包括以下步骤:
步骤102,获取需要校对的两版本图书图像;
步骤104,对两版本图书图像初步处理,以划分两版本图书图像中的字符或字号区域;
步骤106,提取两版本图书图像中的字符或字号区域的字符宏观分布特征和细节分布特征,得到字符的匹配度衡量值;
步骤108,根据字符的匹配度衡量值对两版本图书图像进行校对,输出校对结果。
本发明的实施例中,将获取的两版权图书图像进行划分为字符和字号区域,然后,基于字符和符号自身的构成结构设置衡量匹配程度的标准,从字符宏观分布特征和细节分布特征的综合特征的相似程度得到适合字符信息的匹配度衡量,进而以该匹配度衡量完成图书校对,对异形字等不常用汉字也可使用,避免了因校准精度过高导致对软硬件设备支持的较高要求,对于文字校对具备适中的精确度。
在本申请一个可选的实施例中,获取需要校对的两版本图书图像的步骤包括:获取通过CCD相机分别拍摄的需要校对的两版本的图书同一页的图像;将两版本的图书同一页的图像分别记为校对页图像和目标页图像。
在本实施例中,使用CCD相机分别获取需要进行校对的两个版本的图书同一页的图像,获取时保证相机和图书的两个版本的同一页的相对位置、光源等条件相同,获取的对应的两个图像分别记为校对页图像和目标页图像,通过上述方法,排除了相对位置、光源等条件对图书校对的影响。
在本申请一个可选的实施例中,对两版本图书图像初步处理的步骤包括:将校对页图像和目标页图像由RGB图像转换为灰度图像;对两版本的灰度图像分别使用OTSU最大类间方差法得到二值图像,分别记为校对页二值图像和目标页二值图像;对校对页二值图像和目标页二值图像中像素值为1的像素点进行聚类,获得聚类簇,其中,每个聚类簇对应一个汉字或字符;分别获取校对页二值图像和目标页二值图像的每个聚类簇的最小外接矩形,外接矩形为字符或字号区域;将校对页二值图像中的各个矩形记为校对待测区,将目标页二值图像中的各个矩形记为目标待测区。
在本实施例中,校对页图像和目标页图像均为RGB图像,分别对应需要进行校对的图书页和校对时的模板图书页,使用高斯滤波对校对页图像和目标页图像进行去噪,将校对页图像和目标页图像转换为灰度图像,对两灰度图像分别使用OTSU最大类间方差法得到二值图像,分别记为校对页二值图像和目标页二值图像。对校对页二值图像和目标页二值图像中的各像素值为1的像素点分别使用DBSCAN聚类算法进行聚类,得到多个簇,每个簇对应图像中的一个汉字或字符。聚类时的相关参数可根据需要或经验自行设定,一种优选的方案中,可以以5为最少点数目,以8为半径进行聚类。对提取出的区域进行二值化,减少环境等相关因素的干扰。另一方面,校对待测区和目标待测区均为根据文字信息的特征划分出的图像块,校对待测区即为需要进行校对的图书页内字符信息对应的区域,目标待测区即为校对时的模板图书页内字符信息对应的区域,划分出这两个区域后再对两图像的各区域内的各像素点进行匹配,即为对图像中的文字信息直接进行匹配,可提升匹配速度,降低冗余无关信息的干扰。
在本申请一个可选的实施例中,方法包括:以校对待测区和目标待测区内的字符像素点的分布密度值、方向分布特征和分布结构变化程度综合表征字符宏观分布特征。
在本实施例中,由于每个校对待测区和目标待测区均对应一个字符或符号,以分布密度值、方向分布特征和分布结构变化程度综合表征字符宏观分布特征,能够快速匹配宏观分布特征,提高匹配速度,避免直接细节特征匹配对软硬件要求较高。
在本申请一个可选的实施例中,提取字符宏观分布特征的步骤包括:统计每个校
对待测区和目标待测区内像素值为1的像素点和像素值为0的像素点;分别统计校对待测区
和目标待测区内像素值为1的像素点个数所占的比值,分别记为、;获取校对待测区和
目标待测区内各像素值为1的像素点的主成分方向向量的方向,记为、;获取校对待测
区和目标待测区内各像素点对应的海森矩阵同一位置的值的标准差的均值,记为、;得
到每个校对待测区的字符宏观分布特征矩阵:
得到每个目标待测区的字符宏观分布特征矩阵:
以、分别表征所述校对待测区和所述目标待测区的所述分布密度值,以、分别表征所述校对待测区和所述目标待测区的所述方向分布特征,以、分别表征所
述校对待测区和所述目标待测区的所述分布结构变化程度。
在本实施例中,对每个校对待测区内像素值为1的像素点和像素值为0的像素点进行计数,获取该校对待测区内像素值为1的像素点个数所占的比值,该比值为区域内字符像素点的分布密度衡量。提取该校对待测区内的各像素值为1的像素点,对这些像素点使用PCA主成分分析获取对应的主成分方向,主成分方向为该区域内各像素点的方向分布特征,主成分方向为一向量,获取该向量的方向,该方向记为该区域内字体的大致走向。获取校对待测区内各像素点对应的海森矩阵,每个像素点对应的海森矩阵均为二维正定矩阵,描述了各方向上的灰度梯度变化。取该校对待测区内各像素点对应的海森矩阵同一位置的值的标准差,由于海森矩阵为2*2矩阵,所以该校对待测区对应的标准差共有四个。当校对待测区内对应的字符的结构不同时,区域内各像素点各方向上的灰度梯度变化程度也不相同,例如:“正”字的笔画均为平直的,梯度变化程度较小,而“乃”的笔画含有弯折较多,梯度变化程度较大。当变化程度越大时,则这四个标准差越大,取这四个值的均值作为校对待测区内对应的字符的结构的变化程度衡量。
根据上述指标获取每个校对待测区的字符宏观分布特征矩阵。
字符宏观分布特征矩阵为对应区域内像素点的分布密度和分布方向以及分布结
构变化程度的综合衡量。同理,获取目标待测区对应的字符宏观分布特征矩阵。
在本申请一个可选的实施例中,方法包括:根据第一预设公式,对字符宏观分布特征一致性进行评价,第一预设公式为:
其中,为校对待测区与目标待测区之间的字符宏观分布特征一致性,为计算括号内两矩阵之间的余弦相似度。
在本实施例中,通过上述公式,获得两个区域特征之间的一致性的评价,当校对待测区与目标待测区内像素点的宏观分布特征越为一致时,则两个区域对应同一字符或符号的可能性越大。
在本申请一个可选的实施例中,方法包括:当字符宏观分布特征一致性大于预设阈值时,进行细节分布特征匹配;进行细节分布特征的步骤包括:分别统计校对待测区和目标待测区的各像素点的灰度值以获取各像素点对应的梯度,以及各像素点对应的梯度方向;统计校对校对待测区和目标待测区内预设八个梯度方向对应的像素点个数以及每个梯度方向对应的所有聚合度值;获得校对待测区和目标待测区内预设八个梯度方向对应的像素点个数以及每个梯度方向对应的所有聚合度值的近似度;以近似度表征细节分布特征。
在本实施例中,当校对待测区与目标待测区之间的字符宏观分布特征一致性大于
等于预设阈值时,则认为这两个区域宏观相似程度较大,可继续进行更为精细的匹配,否
则认为两个区域相似度过低,不会对应相同的字符或者符号,不再进行下一步的匹配。其
中,的值可根据需要或经验进行设定,一种优选的方案中,经验值为0.7。在字符宏观分
布特征相似度较高的情况下进行下一步更精细特征的提取和匹配,提升匹配的速度。接着,
提取区域宏观相似程度较大的各个校对待测区与目标待测区进行细节特征匹配,结合笔画
的分类,根据笔画的分布方向以梯度值作为提取精细特征的基础,根据像素点对应的梯度
的聚合程度获取字符的细节特征。细节特征评价为从字符和符号本身的构成结构出发设置
衡量匹配程度的标准,使得图书校对的准确度适中,且对异形字等不常用汉字也可使用。
在本申请一个可选的实施例中,方法包括:获得校对待测区的字符细节特征矩阵:
其中,为校对待测区的字符细节特征矩阵,矩阵每行对应一个梯度方向对应
的各指标值,由第一行到第八行分别对应的梯度方向为,矩阵第一列的各值为在校
对待测区内各像素点对应的梯度方向为数值所在行的梯度方向的像素点数量,矩阵的第
二列至第列的各数值为数值所在行对应的梯度方向的聚合度值,按照从大到小的顺
序依次从左至右排入各列;以聚合度值的数量最大的梯度方向确定该矩阵的列数,聚合度
值的数量最大的梯度方向对应的聚合度值的数量为,判断各梯度方向的聚合度值的数量
是否小于,若小于,矩阵内会出现空的位置,对空的位置处以数值0补全矩阵;其中,为矩阵中梯度方向为的聚合度值由大到小的各值,同理,分别为矩阵中梯度方向为的聚合度值由大到小的各值;获取需要与校对待
测区进行匹配的目标待测区对应的字符细节特征矩阵;获取细节特征矩阵的匹配度衡量值:
其中,为校对待测区与目标待测区之间的匹配度衡量值;为计算
括号内两矩阵之间的余弦相似度。
在本实施例中,在提取区域宏观相似程度较大的各个校对待测区与目标待测区进
行细节特征匹配。由于同一字符颜色一般保持统一,字体内部无明显的纹理,且字体的基本
笔画主要分为5类:横类、竖类、撇类、点类、折类,这些笔画的方向集中在,如图2所示,将细节特征的提取重点放在字
体对应的区域内各像素点的所处位置的梯度变化情况。根据校对待测区内各像素点的灰度
值获取各像素点对应的梯度,进而获取各像素点对应的梯度方向,即为图3中八个方向之
一。对于字符来说,同一个笔画中会含有多个相邻的位置的梯度变化是相同的,所以将该特
征纳入细节特征的提取范围。取每个像素点相邻的所有与其梯度方向相同的各点,记这些
点的个数为该像素点对应的聚合度。统计校对待测区内这八个梯度方向对应的像素点个数
以及每个梯度方向对应的所有聚合度值。为了避免下述矩阵中数值冗余,将每个梯度方向
对应的所有聚合度值中重复数值剔除,按照聚合度值从大到小的顺序对每个梯度方向对应
的所有不重复聚合度值进行排序,排序后更新梯度方向对应的聚合度值。例如,该区域内有
11个梯度方向为的像素点,其中5个为相邻的像素点,3个为相邻的像素点,剩余3个也为
相邻的像素点,则梯度方向对应的聚合度为5个5,6个3,剔除和排序后梯度方向对应的
聚合度值为5和3。
当这两个区域对应的矩阵的列数不同时,则在列数较少的矩阵右侧以0补足,补足后对原矩阵进行更新。
在本申请一个可选的实施例中,根据字符的匹配度衡量值对两版本图书图像进行
校对,输出校对结果的步骤包括:将作为两个区域间像素点信息距离衡量,替换BBS图像
匹配算法的距离函数中像素点的值之差,获得改进BBS图像匹配算法;使用改进BBS图像匹
配算法对各校对待测区和目标待测区进行匹配;当在目标待测区匹配不到的各校对待测区
时,则输出校对待测区中存在出现问题的字符;当在目标待测区均可匹配到各校对待测区
时,则输出校对待测区不存在文字校对问题。
在本实施例中,将上述获取的两个区域之间的匹配度衡量值作为两个区域间像素点信息距离衡量,替换BBS图像匹配算法的距离函数中像素点的值之差。使用上述改进步骤后的BBS图像匹配算法对各校对待测区和目标待测区进行匹配,无法在目标待测区匹配到的各校对待测区即为需要进行校对的图书页中出现问题的字符。当进行校对的图书页对应的图像中各校对待测区均可匹配到合适的目标待测区时,则本图书页不存在文字校对问题。
图3为本申请实施例提供的一种图书智能校对系统30的结构示意图。如图3所示,图书智能校对系统30包括:获取模块302,用于获取需要校对的两版本图书图像;划分模块304,用于对两版本图书图像初步处理,以划分两版本图书图像中的字符或字号区域;匹配模块306,用于提取两版本图书图像中的字符或字号区域的字符宏观分布特征和细节分布特征,得到字符的匹配度衡量值;输出模块308,用于根据字符的匹配度衡量值对两版本图书图像进行校对,输出校对结果。
本发明的实施例提供的图书智能校对系统30,划分模块304将获取的两版权图书图像进行划分为字符和字号区域,然后,匹配模块306从字符宏观分布特征和细节分布特征的综合特征的相似程度得到适合字符信息的匹配度衡量,进而输出模块308以该匹配度衡量完成图书校对,对异形字等不常用汉字也可使用,避免了因校准精度过高导致对软硬件设备支持的较高要求,对于文字校对具备适中的精确度。
对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (6)
1.一种图书智能校对方法,其特征在于,所述方法包括:
获取需要校对的两版本图书图像;
对所述两版本图书图像初步处理,以划分所述两版本图书图像中的字符或汉字区域;
提取所述两版本图书图像中的字符或汉字区域的字符宏观分布特征和细节分布特征,得到字符的匹配度衡量值;
根据所述字符的匹配度衡量值对所述两版本图书图像进行校对,输出校对结果;
所述获取需要校对的两版本图书图像的步骤包括:
获取通过CCD相机分别拍摄的需要校对的两版本的图书同一页的图像;
将所述两版本的图书同一页的图像分别记为校对页图像和目标页图像;所述对所述两版本图书图像初步处理的步骤包括:
将所述校对页图像和所述目标页图像由RGB图像转换为灰度图像;
对两版本的灰度图像分别使用OTSU最大类间方差法得到二值图像,分别记为校对页二值图像和目标页二值图像;
对所述校对页二值图像和所述目标页二值图像中像素值为1的像素点进行聚类,获得聚类簇,其中,每个所述聚类簇对应一个汉字或字符;
分别获取所述校对页二值图像和所述目标页二值图像的每个聚类簇的最小外接矩形,所述外接矩形为字符或汉字区域;
将所述校对页二值图像中的各个矩形记为校对待测区,将所述目标页二值图像中的各个矩形记为目标待测区;
所述方法包括:
以所述校对待测区和所述目标待测区内的字符像素点的分布密度值、方向分布特征和分布结构变化程度综合表征所述字符宏观分布特征;
提取所述字符宏观分布特征的步骤包括:
统计每个所述校对待测区和所述目标待测区内像素值为1的像素点和像素值为0的像素点;
分别统计所述校对待测区和所述目标待测区内像素值为1的像素点个数所占的比值,分别记为、/>;
获取所述校对待测区和所述目标待测区内各像素值为1的像素点的主成分方向向量的方向,记为、/>;
获取所述校对待测区和所述目标待测区内各像素点对应的海森矩阵同一位置的值的标准差的均值,记为、/>;
得到每个所述校对待测区的字符宏观分布特征矩阵:
得到每个所述目标待测区的字符宏观分布特征矩阵:
以、/>分别表征所述校对待测区和所述目标待测区的所述分布密度值,以/>、/>分别表征所述校对待测区和所述目标待测区的所述方向分布特征,以/>、/>分别表征所述校对待测区和所述目标待测区的所述分布结构变化程度;
确定细节分布特征的步骤包括:
分别统计校对待测区和目标待测区的各像素点的灰度值以获取各像素点对应的梯度,以及各像素点对应的梯度方向;
统计校对校对待测区和目标待测区内预设八个梯度方向对应的像素点个数以及每个梯度方向对应的所有聚合度值;
获得校对待测区和目标待测区内预设八个梯度方向对应的像素点个数以及每个梯度方向对应的所有聚合度值的近似度;
以近似度表征细节分布特征;
取每个像素点相邻的所有与其梯度方向相同的各点,记这些点的个数为该像素点对应的聚合度值。
2.根据权利要求1所述的方法,其特征在于,所述方法包括:
根据第一预设公式,对所述字符宏观分布特征一致性进行评价,所述第一预设公式为:
其中,为校对待测区/>与目标待测区/>之间的字符宏观分布特征一致性,为计算括号内两矩阵之间的余弦相似度。
3.根据权利要求2所述的方法,其特征在于,所述方法包括:
当字符宏观分布特征一致性大于预设阈值时,进行细节分布特征匹配。
4.根据权利要求3所述的方法,其特征在于,所述方法包括:
获得所述校对待测区的字符细节特征矩阵:
其中,为校对待测区/>的字符细节特征矩阵,矩阵每行对应一个梯度方向对应的各指标值,由第一行到第八行分别对应的梯度方向为,矩阵第一列的各值/>为在校对待测区/>内各像素点对应的梯度方向为数值所在行的梯度方向的像素点数量,矩阵的第二列至第/>列的各数值为数值所在行对应的梯度方向的聚合度值,按照从大到小的顺序依次从左至右排入各列;以聚合度值的数量最大的梯度方向确定该矩阵的列数,聚合度值的数量最大的梯度方向对应的聚合度值的数量为/>,判断各梯度方向的聚合度值的数量是否小于/>,若小于,矩阵内会出现空的位置,对空的位置处以数值0补全矩阵;其中,/>为矩阵中梯度方向为/>的聚合度值由大到小的各值,同理,分别为矩阵中梯度方向为的聚合度值由大到小的各值;
获取需要与所述校对待测区进行匹配的目标待测区对应的字符细节特征矩阵/>;
获取细节特征矩阵的匹配度衡量值:
其中,为校对待测区/>与目标待测区/>之间的匹配度衡量值;/>为计算括号内两矩阵之间的余弦相似度。
5.根据权利要求4所述的方法,其特征在于,所述根据所述字符的匹配度衡量值对所述两版本图书图像进行校对,输出校对结果的步骤包括:
将作为两个区域间像素点信息距离衡量,替换BBS图像匹配算法的距离函数中像素点的值之差,获得改进BBS图像匹配算法;
使用所述改进BBS图像匹配算法对各校对待测区和目标待测区进行匹配;
当在目标待测区匹配不到各所述校对待测区时,则输出所述校对待测区中存在出现问题的字符;
当在目标待测区均可匹配到各所述校对待测区时,则输出所述校对待测区不存在文字校对问题。
6.一种图书智能校对系统,其特征在于,所述系统包括:
获取模块,用于获取需要校对的两版本图书图像;
划分模块,用于对所述两版本图书图像初步处理,以划分所述两版本图书图像中的字符或汉字区域;
匹配模块,用于提取所述两版本图书图像中的字符或汉字区域的字符宏观分布特征和细节分布特征,得到字符的匹配度衡量值;
输出模块,用于根据所述字符的匹配度衡量值对所述两版本图书图像进行校对,输出校对结果;
所述获取需要校对的两版本图书图像的步骤包括:
获取通过CCD相机分别拍摄的需要校对的两版本的图书同一页的图像;
将所述两版本的图书同一页的图像分别记为校对页图像和目标页图像;所述对所述两版本图书图像初步处理的步骤包括:
将所述校对页图像和所述目标页图像由RGB图像转换为灰度图像;
对两版本的灰度图像分别使用OTSU最大类间方差法得到二值图像,分别记为校对页二值图像和目标页二值图像;
对所述校对页二值图像和所述目标页二值图像中像素值为1的像素点进行聚类,获得聚类簇,其中,每个所述聚类簇对应一个汉字或字符;
分别获取所述校对页二值图像和所述目标页二值图像的每个聚类簇的最小外接矩形,所述外接矩形为字符或汉字区域;
将所述校对页二值图像中的各个矩形记为校对待测区,将所述目标页二值图像中的各个矩形记为目标待测区;
以所述校对待测区和所述目标待测区内的字符像素点的分布密度值、方向分布特征和分布结构变化程度综合表征所述字符宏观分布特征;
提取所述字符宏观分布特征的步骤包括:
统计每个所述校对待测区和所述目标待测区内像素值为1的像素点和像素值为0的像素点;
分别统计所述校对待测区和所述目标待测区内像素值为1的像素点个数所占的比值,分别记为、/>;
获取所述校对待测区和所述目标待测区内各像素值为1的像素点的主成分方向向量的方向,记为、/>;
获取所述校对待测区和所述目标待测区内各像素点对应的海森矩阵同一位置的值的标准差的均值,记为、/>;
得到每个所述校对待测区的字符宏观分布特征矩阵:
得到每个所述目标待测区的字符宏观分布特征矩阵:
以、/>分别表征所述校对待测区和所述目标待测区的所述分布密度值,以/>、/>分别表征所述校对待测区和所述目标待测区的所述方向分布特征,以/>、/>分别表征所述校对待测区和所述目标待测区的所述分布结构变化程度;
确定细节分布特征的步骤包括:
分别统计校对待测区和目标待测区的各像素点的灰度值以获取各像素点对应的梯度,以及各像素点对应的梯度方向;
统计校对校对待测区和目标待测区内预设八个梯度方向对应的像素点个数以及每个梯度方向对应的所有聚合度值;
获得校对待测区和目标待测区内预设八个梯度方向对应的像素点个数以及每个梯度方向对应的所有聚合度值的近似度;
以近似度表征细节分布特征;
取每个像素点相邻的所有与其梯度方向相同的各点,记这些点的个数为该像素点对应的聚合度值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310628815.3A CN116363668B (zh) | 2023-05-31 | 2023-05-31 | 一种图书智能校对方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310628815.3A CN116363668B (zh) | 2023-05-31 | 2023-05-31 | 一种图书智能校对方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116363668A CN116363668A (zh) | 2023-06-30 |
CN116363668B true CN116363668B (zh) | 2023-08-29 |
Family
ID=86923336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310628815.3A Active CN116363668B (zh) | 2023-05-31 | 2023-05-31 | 一种图书智能校对方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116363668B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016157155A (ja) * | 2015-02-23 | 2016-09-01 | 日本放送協会 | 文字領域抽出装置及びプログラム |
CN109003331A (zh) * | 2018-06-13 | 2018-12-14 | 东莞时谛智能科技有限公司 | 一种图像重构方法 |
CN110569850A (zh) * | 2019-08-20 | 2019-12-13 | 北京旷视科技有限公司 | 字符识别模板匹配方法、装置和文本识别设备 |
CN111027343A (zh) * | 2019-12-12 | 2020-04-17 | 中科微至智能制造科技江苏有限公司 | 条形码区域定位方法和装置 |
CN114972357A (zh) * | 2022-08-03 | 2022-08-30 | 南通恒立机械设备有限公司 | 一种基于图像处理的轧辊表面缺陷检测方法及系统 |
CN114972817A (zh) * | 2022-04-25 | 2022-08-30 | 深圳创维-Rgb电子有限公司 | 图像相似度匹配方法、设备及存储介质 |
CN115273088A (zh) * | 2022-09-30 | 2022-11-01 | 南通慕派商贸有限公司 | 基于机器视觉的汉字印刷质量检测方法 |
CN116071763A (zh) * | 2023-03-06 | 2023-05-05 | 山东薪火书业有限公司 | 基于文字识别的教辅图书智能校编系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7552263B2 (ja) * | 2020-11-04 | 2024-09-18 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置および画像形成装置 |
-
2023
- 2023-05-31 CN CN202310628815.3A patent/CN116363668B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016157155A (ja) * | 2015-02-23 | 2016-09-01 | 日本放送協会 | 文字領域抽出装置及びプログラム |
CN109003331A (zh) * | 2018-06-13 | 2018-12-14 | 东莞时谛智能科技有限公司 | 一种图像重构方法 |
CN110569850A (zh) * | 2019-08-20 | 2019-12-13 | 北京旷视科技有限公司 | 字符识别模板匹配方法、装置和文本识别设备 |
CN111027343A (zh) * | 2019-12-12 | 2020-04-17 | 中科微至智能制造科技江苏有限公司 | 条形码区域定位方法和装置 |
CN114972817A (zh) * | 2022-04-25 | 2022-08-30 | 深圳创维-Rgb电子有限公司 | 图像相似度匹配方法、设备及存储介质 |
CN114972357A (zh) * | 2022-08-03 | 2022-08-30 | 南通恒立机械设备有限公司 | 一种基于图像处理的轧辊表面缺陷检测方法及系统 |
CN115273088A (zh) * | 2022-09-30 | 2022-11-01 | 南通慕派商贸有限公司 | 基于机器视觉的汉字印刷质量检测方法 |
CN116071763A (zh) * | 2023-03-06 | 2023-05-05 | 山东薪火书业有限公司 | 基于文字识别的教辅图书智能校编系统 |
Non-Patent Citations (1)
Title |
---|
基于特征的大规模图像检索算法研究;杨娜娜;《中国优秀硕士学位论文全文数据库 信息科技辑》;第2019年卷(第2期);I138-1875 * |
Also Published As
Publication number | Publication date |
---|---|
CN116363668A (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325203B (zh) | 一种基于图像校正的美式车牌识别方法及系统 | |
US10817741B2 (en) | Word segmentation system, method and device | |
CN109740606B (zh) | 一种图像识别方法及装置 | |
US20200134382A1 (en) | Neural network training utilizing specialized loss functions | |
CN116071763B (zh) | 基于文字识别的教辅图书智能校编系统 | |
US8842916B2 (en) | Method and system for model-based signature profile extraction | |
CN112329756A (zh) | 一种印章提取及文字识别的方法及装置 | |
CN109447055B (zh) | 一种基于ocr字形相近文字识别方法 | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
Lutf et al. | Arabic font recognition based on diacritics features | |
CN111914805A (zh) | 表格结构化方法、装置、电子设备及存储介质 | |
CN115346227B (zh) | 一种基于版式文件对电子文件矢量化的方法 | |
CN112560850A (zh) | 基于自定义模板的身份证信息自动提取和真伪校验方法 | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN113569863A (zh) | 一种单据稽查的方法、系统、电子设备及存储介质 | |
JP3228938B2 (ja) | 分布マップを用いる画像の分類方法及び装置 | |
CN115311666A (zh) | 图文识别方法、装置、计算机设备及存储介质 | |
CN111612045B (zh) | 一种获取目标检测数据集的通用方法 | |
RU2597163C2 (ru) | Сравнение документов с использованием достоверного источника | |
CN116703899B (zh) | 基于图像数据的袋式包装机产品质量检测方法 | |
CN107292255B (zh) | 基于特征矩阵相似度分析的手写数字识别方法 | |
CN116363668B (zh) | 一种图书智能校对方法及系统 | |
CN109241869A (zh) | 答题卡分数识别方法、装置及终端设备 | |
CN112200789A (zh) | 一种图像识别的方法及装置、电子设备和存储介质 | |
CN113421257B (zh) | 一种点阵字体文本行旋转校正方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A Method and System for Intelligent Proofreading of Books Effective date of registration: 20231108 Granted publication date: 20230829 Pledgee: Shandong Liangshan Rural Commercial Bank Co.,Ltd. Pledgor: Shandong Yipin Culture Media Co.,Ltd. Registration number: Y2023980064841 |