CN114694152B - 基于三源ocr结果的印刷文本可信度融合方法及装置 - Google Patents
基于三源ocr结果的印刷文本可信度融合方法及装置 Download PDFInfo
- Publication number
- CN114694152B CN114694152B CN202210339155.2A CN202210339155A CN114694152B CN 114694152 B CN114694152 B CN 114694152B CN 202210339155 A CN202210339155 A CN 202210339155A CN 114694152 B CN114694152 B CN 114694152B
- Authority
- CN
- China
- Prior art keywords
- ocr
- fcf
- credibility
- fusion
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种基于三源OCR结果的印刷文本可信度融合方法,包括获取不同OCR引擎的识别结果,将不同的识别结果转换为相同格式的数据;将相同格式的数据进行融合;数据融合包括以行为单位对数据进行行匹配;遍历S21中获得的相同行的数据,对相同行的数据进行字匹配;基于字匹配的结果,利用OCR的识别结果进行字符匹配标记,得到字符的可信度,根据字符的可信度计算字符的融合可信度,按照融合可信度的高低进行排序,并根据排序结果进行数据组装。本发明显著提高了校对结果的准确率和可信度,从而能够满足对准确率要求极高的场合。
Description
技术领域
本发明涉及文档信息处理技术领域,尤其是指一种基于三源OCR结果的印刷文本可信度融合方法及装置。
背景技术
OCR(Optical Character Recognition,光学字符识别)技术目前日趋成熟,但是不同的实现方法依旧存在一定的性能差异,这种差异主要指文字识别的准确性。在普通应用场景下,这种差异能够被接受。但是在准确率要求极高的场合下,这种差异不能够被接受。从OCR目前的实现程度上,暂时无法满足这种特定场合的需求。因此为了满足特定场合的需求,需要对OCR识别的结果进行进一步校对,尽可能提高文字的准确率,使得结果达到可用的标准。校对的方式可以通过人工,也可以通过计算机程序。校对内容包括以下几方面:1)判断OCR识别的字符是否是正确的字符;2)判断识别结果中是否存在漏字或者多识别字;3)尽可能将可能存在问题的字符进行标注或修正。
上述校对过程具有一定前提,需要有标注数据或原始数据进行校对,例如人工校对是通过人工识别原始图片中的文字,然后与OCR识别的字符一一校对。但是OCR识别的应用场景大部分在缺少标注数据或原始数据的情况下进行,如果仅依靠单个OCR识别根本无法实现校对。所以目前仅能通过人工校对,才能实现高精度的校对,但是人工校对存在效率低的问题。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术存在的问题,提出一种基于三源OCR结果的印刷文本可信度融合方法及装置,其基于非标注的数据但接近于标注数据性能的数据用于校对,对校对的结果进行标记,计算出识别字符的可信度,并基于可信度对校对后的数据进行融合组装,显著提高了校对结果的准确率和可信度,从而能够满足对准确率要求极高的场合。
为解决上述技术问题,本发明提供一种基于三源OCR结果的印刷文本可信度融合方法,包括以下步骤:
S10:获取不同OCR引擎的识别结果,将不同的识别结果转换为相同格式的数据;
S20:将相同格式的数据进行融合;
其中,所述数据融合包括:
S21:以行为单位对数据进行行匹配;
S22:遍历S21中获得的相同行的数据,对相同行的所述数据进行字匹配;
S23:基于所述字匹配的结果,利用OCR的识别结果进行字符匹配标记,得到字符的可信度,根据所述字符的可信度计算字符的融合可信度,按照所述融合可信度的高低进行排序,并根据排序结果进行数据组装。
在本发明的一个实施例中,在S10中,将不同的识别结果转换为相同格式的数据,包括:
S11:按照OCR协议规范,向OCR服务器发送待识别的图片,并获取OCR服务器返回的识别结果;
S12:对返回结果进行解析并分离出与OCR识别有关的有效数据;
S13:根据OCR识别结果遍历有效的行坐标信息,获取行结构;
S14:在行结构内遍历有效的字信息;
S15:针对遍历获取的所有行坐标信息和字信息统一为格式相同的数据。
在本发明的一个实施例中,在S21中,以行为单位对数据进行行匹配包括:
将数据中的行构成矩阵,每一个行包含该行的纵坐标,对每个OCR识别结果中的所有行按照行的纵坐标进行排序;
先将相同的OCR识别结果中的行进行合并,再对不同的OCR识别结果中的行进行合并,得到多个不同源的OCR合并结果,其中,合并的方法为将排序后的纵坐标进行两两比较,若两个数据的纵坐标存在相交,且相交部分大于设定的阈值,则判定两个数据是同一行,如此重复操作,获得所有同一行的矩阵,对判定为同一行的行数据,按照行的横坐标进行排序,并将能框住左右同一行的矩形作为合并后的行矩形,并且识别的文字也进行合并;
对多个不同源的OCR合并结果进行行位置匹配,若行位置存在相交,且相交部分的面积大于设定的阈值,则判定不同源的OCR合并结果中的两行是同一行。
在本发明的一个实施例中,在S22中,对相同行的所述数据进行字匹配包括:
遍历获得的相同行数据,比对行内每一个字符的相交面积,若字符的相交面积大于设定的阈值,则判定为同一个字符;
框坐标采用匹配到的最左侧字符的坐标作为最终的OCR识别结果;
统计同一位置对应的OCR识别结果的匹配数量以及OCR识别结果对应的字符的异同情况,基于匹配数量和字符异同情况分别进行标识。
在本发明的一个实施例中,在S23中,单个字符的融合可信度计算方法如下:
同一个位置,三个OCR源识别的字符ch1、ch2、ch3完全相同,融合可信度计算公式如下:
同一个位置,三个OCR源识别的字符ch1、ch2和ch3互不相同,三者对应的可信度分别为CF1、CF2和CF3,融合可信度的计算公式如下:
FCF1=w1CF1
FCF2=w2CF2
FCF3=w3CF3
FCF=max{FCF1,FCF2,FCF3};
其中,FCF代表融合可信度,chn表示同一个位置上不同OCR源识别的字符,CFn表示同一个位置上不同OCR源识别的字符对应的可信度,wn表示不同OCR源的权重系数。
在本发明的一个实施例中,在S23中,单个字符的融合可信度计算方法如下:
同一个位置,两个OCR源识别的字符ch1和ch2相同,两者对应的可信度分别为CF1和CF2,第三个OCR源未返回结果,融合可信度计算公式如下:
GF3=w3
FCF=max{FCF1,FCF3};
同一个位置,两个OCR源识别的字符ch1和ch2不同,两者对应的可信度分别为CF1和CF2,第三个OCR源没有识别字符,融合可信度计算公式为:
FCF1=w1CF1
FCF2=w2CF2
FCF3=w3w3
FCF=max{FCF1,FCF2,FCF3};
同一个位置,两个OCR源识别的字符ch1和ch2相同,两者对应的可信度分别为CF1和CF2,另外一个OCR源识别的字符ch3与ch1和ch2均不相同,其可信度为CF3,融合可信度计算公式为:
GF3=w3CF3
FCF=max{FCF1,FCF3};
其中,FCF代表融合可信度,chn表示同一个位置上不同OCR源识别的字符,CFn表示同一个位置上不同OCR源识别的字符对应的可信度,wn表示不同OCR源的权重系数。
在本发明的一个实施例中,在S23中,单个字符的融合可信度计算方法如下:
对同一个位置,只有一个OCR源识别的字符为ch1,其可信度为CF1,融合可信度公式为:
FCF1=w1CF1
FCF=max{FCF1,FCF2}
其中,FCF代表融合可信度,chn表示同一个位置上不同OCR源识别的字符,CFn表示同一个位置上不同OCR源识别的字符对应的可信度,wn表示不同OCR源的权重系数。
在本发明的一个实施例中,在S23中,数据组装包括:
按合并后的行为单位重新组装为融合数据的一行;
合并后的行内的字符自动归并在该行内,其中字符包括字符的框坐标、可能的字符以及融合可信度。
此外,本发明还提供一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述方法的步骤。
并且,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述方法的步骤。
本发明的上述技术方案相比现有技术具有以下优点:
本发明基于非标注的数据但接近于标注数据性能的数据用于校对,对校对的结果进行标记,计算出识别字符的可信度,并基于可信度对校对后的数据进行融合组装,显著提高了校对结果的准确率和可信度,从而能够满足对准确率要求极高的场合。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明。
图1是本发明基于三源OCR结果的印刷文本可信度融合方法中数据融合的流程示意图。
图2是本发明计算机装置的硬件结构示意图。
其中,附图标记说明如下:10、处理器;11、存储器;12、通信接口;13、通信总线。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
请参阅图1所示,本实施例提供一种基于三源OCR结果的印刷文本可信度融合方法,包括以下步骤:
S10:获取不同OCR引擎的识别结果,将不同的识别结果转换为相同格式的数据;
S20:将相同格式的数据进行融合;
其中,所述数据融合包括:
S21:以行为单位对数据进行行匹配;
S22:遍历S21中获得的相同行的数据,对相同行的所述数据进行字匹配;
S23:基于所述字匹配的结果,利用OCR的识别结果进行字符匹配标记,得到字符的可信度,根据所述字符的可信度计算字符的融合可信度,按照所述融合可信度的高低进行排序,并根据排序结果进行数据组装。
在本发明实施例公开的一种基于三源OCR结果的印刷文本可信度融合方法中,对于实施方式S10而言,在S10中,将不同的识别结果转换为相同格式的数据,包括:
S11:按照OCR协议规范,向OCR服务器发送待识别的图片,并获取OCR服务器返回的识别结果;
S12:对返回结果进行解析并分离出与OCR识别有关的有效数据;
S13:根据OCR识别结果遍历有效的行坐标信息,获取行结构;
S14:在行结构内遍历有效的字信息;
S15:针对遍历获取的所有行坐标信息和字信息统一为格式相同的数据。
具体地,在S10中,按照OCR协议规范,通过HTTP向OCR服务器发送待识别的图片,并获取OCR服务器返回的识别结果;对返回的识别结果进行解析,分离出与OCR识别有关的有效数据;根据OCR识别结果,遍历有效的行坐标信息,获取行结构,将行坐标信息进行保存;在行结构内遍历有效的字信息,将字信息进行保存;针对遍历获取的所有行信息和字信息,去掉多余信息,并将数据字段名称、数据类型以及数据尺寸全部统一为相同的格式。
在本发明实施例公开的一种基于三源OCR结果的印刷文本可信度融合方法中,对于实施方式S21而言,以行为单位对数据进行行匹配包括:
S21.1:将数据中的行构成矩阵,每一个行包含该行的纵坐标,对每个OCR识别结果中的所有行按照行的纵坐标进行排序;
S21.2:先将相同的OCR识别结果中的行进行合并,再对不同的OCR识别结果中的行进行合并,得到多个不同源的OCR合并结果,其中,合并的方法为将排序后的纵坐标进行两两比较,若两个数据的纵坐标存在相交,且相交部分大于设定的阈值,则判定两个数据是同一行,如此重复操作,获得所有同一行的矩阵,对判定为同一行的行数据,按照行的横坐标进行排序,并将能框住左右同一行的矩形作为合并后的行矩形,并且识别的文字也进行合并;
S21.3:对多个不同源的OCR合并结果进行行位置匹配,若行位置存在相交,且相交部分的面积大于设定的阈值,则判定不同源的OCR合并结果中的两行是同一行。
具体地,在S21中,行排序:数据中的行构成一个矩阵,每一个行都包含了该行的纵坐标,将每个OCR识别结果中的行按照纵坐标进行升序排序;行合并:先对每个OCR识别结果内的行合并,然后再对不同结果的行进行合并。合并的方法如下:将排序后的纵坐标进行两两比较,如果两者存在相交,且相交部分大于50%,则判定对应的两个数据是同一行。如此反复操作,获得所有同一行的矩阵。对判定为同一行的行数据,按照行的横坐标从左往右的顺序进行排序。最后,将能框住左右同一行的矩形作为合并后的行矩形,并且识别的文字也进行合并;行位置匹配:根据多个不同源的OCR合并结果,按照行进行匹配。如果存在相交,且相交部分面积大于阈值(相交部分占任意行的70%以上,或者相交部分占所有行的50%以上),则判定对应的两行是同一行。
在本发明实施例公开的一种基于三源OCR结果的印刷文本可信度融合方法中,对于实施方式S22而言,在S22中,对相同行的所述数据进行字匹配包括:
遍历获得的相同行数据,比对行内每一个字符的相交面积,若字符的相交面积大于设定的阈值,则判定为同一个字符;
框坐标采用匹配到的最左侧字符的坐标作为最终的OCR识别结果;
统计同一位置对应的OCR识别结果的匹配数量以及OCR识别结果对应的字符的异同情况,基于匹配数量和字符异同情况分别进行标识。
具体地,在S22中,字位置匹配:遍历上一步获得的相同行数据,比对行内每一个字符的相交面积,如果字符相交面积大于阈值(相交部分占任意字符的60%以上,或者相交部分占所有字符的50%),判定为同一个字符;框坐标融合:框坐标采用匹配到的最左侧字符的坐标作为最终结果;字符比较:统计同一位置对应有几个OCR识别结果,以及这些结果对应的字符的异同情况。根据匹配数和字符异同情况,分别进行标识。例如表1所示。
表1
在本发明实施例公开的一种基于三源OCR结果的印刷文本可信度融合方法中,对于实施方式S23而言,在S23中,在字匹配的基础上利用OCR结果对应字符的可信度标记字符的可信程度;基于字符的可信度计算字符的融合可信度。
在基于字符的可信度计算字符的融合可信度之前,首先对计算过程中涉及到的符号进行说明如下:
(1)chn表示同一个位置上不同OCR源识别的字符;
(2)CFn表示同一个位置上不同OCR源识别的字符对应的可信度,取值在0-1之间;
(3)wn表示不同OCR源的权重系数,取值在0-1之间,各个OCR源的权重系数互不相等,该权重系数用来表征不同OCR源的相对可靠性;
(4)FCF表示融合可信度,FCFn表示在计算融合可信度过程中产生的中间可信度数据;
(5)Sn表示融合状态标识,根据不同的融合情况,给每种情况一个标识,代表不同的融合状态,这个状态是对融合情况的客观描述;
(6)OCR源的可信度与融合可信度的表达方式相同,但含义不同;可信度描述了某个OCR源字符识别准确的概率,融合可信度描述了融合后的字符是否可信。
基于字符的可信度计算字符的融合可信度的具体内容如下:
(1)同一个位置,三个OCR源识别的字符ch1、ch2和ch3完全相同,此时融合可信度计算公式如下:
融合识别字符为ch1,融合状态标识为S1。
(2)同一个位置,两个OCR源识别的字符ch1和ch2相同,两者对应的可信度分别为CF1和CF2,第三个OCR源未返回结果,此时融合可信度计算公式如下:
GF3=w3
FCF=max{FCF1,FCF3}
上述融合可信度为FCF1、FCF3中的最大值,当FCF1>=FCF3时,融合识别字符为ch1;当FCF1<FCF3时,融合识别字符为空,融合状态标识为S2。
(3)同一个位置,两个OCR源识别的字符ch1和ch2不同,两者对应的可信度分别为CF1和CF2,第三个OCR源没有识别字符,此时融合可信度计算公式为:
FCF1=w1CF1
FCF2=w2CF2
FCF3=w3w3
FCF=max{FCF1,FCF2,FCF3}
上述融合可信度为FCF1、FCF2、FCF3中的最大值,如果FCF1最大,融合识别字符取ch1;如果FCF2最大,融合识别字符取ch2;如果FCF3最大,融合识别字符为空,如果FCF1、FCF2和FCF3相等,则取权重系数最高的OCR源识别的字符,融合状态标识为S3。
(4)同一个位置,两个OCR源识别的字符ch1和ch2相同,两者的可信度分别为CF1和CF2,另外一个OCR源识别的字符ch3与ch1、ch2均不相同,其可信度为CF3,此时融合可信度计算公式为:
GF3=w3CF3
FCF=max{FCF1,FCF3}
上述融合可信度为FCF1、FCF3中的最大值,当FCF1>=FCF3,融合识别字符为ch1,融合状态标识为S4;当FCF1<FCF3,融合识别字符为ch3,融合状态标识为S5。
(5)同一个位置,只有一个OCR源识别的字符ch1,其可信度为CF1,此时融合可信度公式为:
FCF1=w1CF1
FCF=max{FCF1,FCF2}
上述融合可信度为FCF1、FCF2中的最大值,如果FCF1>=FCF2,融合识别字符为ch1;否则,融合识别字符为空,融合状态标识为S6。
(6)对同一个位置,三个OCR源识别的字符分别为ch1、ch2、ch3,三者互不相同,其对应的可信度分别为CF1、CF2、CF3,此时融合可信度的计算公式如下:
FCF1=w1CF1
FCF2=w2CF2
FCF3=w3CF3
FCF=max{FCF1,FCF2,FCF3}
上述融合可信度为FCF1、FCF2、FCF3中的最大值,融合识别字符为FCF1、FCF2、FCF3中最大值所对应的字符,如果FCF1、FCF2和FCF3相等,则取权重系数最高的OCR源识别的字符,融合状态标识为S7。
作为示例地,例如根据表1的不同情况,按照下列方式计算融合可信度:
a)匹配到三个结果,且结果对应的字符均相同
根据CF模型,直接将三个结果对应的可信度进行融合,得出融合可信度。
b)匹配到三个结果,但存在2种不同的字符
首先对于相同的两个字符结果进行合成计算得到,然后对于不同的结果,分别考虑其可能性,设两种结果A,B。可信度分别是PA,PB,则A的融合可信度为:
P=merge(PA,PB)
同理计算出B的融合可信度。该字符的融合识别结果按照可信度高低降序排列,结果包括2个可能的字符以及对应的融合可信度。
c)匹配到三个结果,但存在3种不同的字符
对于不同的结果,分别考虑其可能性,设两种结果A,B。可信度分别是PA,PB,PC。则A的融合可信度公式为:P=merge(PA,PB*PC),同理计算出B和C的融合可信度。将A,B,C中最大的作为返回结果。该字符的融合识别结果按照可信度高低降序排列,结果包括3个可能的字符以及对应的融合可信度。
d)匹配到2个结果,2个结果相同
根据CF模型,直接将结果对应的可信度进行融合,得出融合可信度。
e)匹配到2个结果,2个结果不相同
返回的第一个字符是可信度较大的那个结果。
f)匹配到1个结果
直接返回该结果及其可信度。
在本发明实施例公开的一种基于三源OCR结果的印刷文本可信度融合方法中,对于实施方式S23而言,在S23中,数据组装包括:
S23.1:按合并后的行为单位重新组装为融合数据的一行;
S23.2:合并后的行内的字符自动归并在该行内,其中字符包括字符的框坐标、可能的字符以及融合可信度。
在本发明实施例公开的一种基于三源OCR结果的印刷文本可信度融合方法中,本发明基于非标注的数据但接近于标注数据性能的数据用于校对,对校对的结果进行标记,计算出识别字符的可信度,并基于可信度对校对后的数据进行融合组装,显著提高了校对结果的准确率和可信度,从而能够满足对准确率要求极高的场合。
相应于上面的方法实施例,本发明实施例还提供了一种计算机装置,包括:
存储器,其用于存储计算机程序;
处理器,其用于执行计算机程序时实现上述基于三源OCR结果的印刷文本可信度融合方法的步骤。
请参阅图2所示,为计算机装置的组成结构示意图,计算机装置可以包括:处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。
在本发明实施例中,处理器10可以为中央处理器(Central Processing Unit,CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。
处理器10可以调用存储器11中存储的程序,具体的,处理器10可以执行快速计算三维偏振维度的方法的实施例中的操作。
存储器11中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令。
此外,存储器11可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
通信接口12可以为通信模块的接口,用于与其他设备或者系统连接。
当然,需要说明的是,图2所示的结构并不构成对本申请实施例中计算机装置的限定,在实际应用中计算机装置可以包括比图2所示的更多或更少的部件,或者组合某些部件。
相应于上面的方法实施例,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述基于三源OCR结果的印刷文本可信度融合方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (9)
1.一种基于三源OCR结果的印刷文本可信度融合方法,其特征在于,包括以下步骤:
S10:获取不同OCR引擎的识别结果,将不同的识别结果转换为相同格式的数据;
S20:将相同格式的数据进行融合;
其中,所述数据融合包括:
S21:以行为单位对数据进行行匹配;
S22:遍历S21中获得的相同行的数据,对相同行的所述数据进行字匹配;
S23:基于所述字匹配的结果,利用OCR的识别结果进行字符匹配标记,得到字符的可信度,根据所述字符的可信度计算字符的融合可信度,按照所述融合可信度的高低进行排序,并根据排序结果进行数据组装;
在S22中,对相同行的所述数据进行字匹配包括:
遍历获得的相同行数据,比对行内每一个字符的相交面积,若字符的相交面积大于设定的阈值,则判定为同一个字符;
框坐标采用匹配到的最左侧字符的坐标作为最终的OCR识别结果;
统计同一位置对应的OCR识别结果的匹配数量以及OCR识别结果对应的字符的异同情况,基于匹配数量和字符异同情况分别进行标识。
2.根据权利要求1所述的基于三源OCR结果的印刷文本可信度融合方法,其特征在于,在S10中,将不同的识别结果转换为相同格式的数据,包括:
S11:按照OCR协议规范,向OCR服务器发送待识别的图片,并获取OCR服务器返回的识别结果;
S12:对返回结果进行解析并分离出与OCR识别有关的有效数据;
S13:根据OCR识别结果遍历有效的行坐标信息,获取行结构;
S14:在行结构内遍历有效的字信息;
S15:针对遍历获取的所有行坐标信息和字信息统一为格式相同的数据。
3.根据权利要求1或2所述的基于三源OCR结果的印刷文本可信度融合方法,其特征在于,在S21中,以行为单位对数据进行行匹配包括:
将数据中的行构成矩阵,每一个行包含该行的纵坐标,对每个OCR识别结果中的所有行按照行的纵坐标进行排序;
先将相同的OCR识别结果中的行进行合并,再对不同的OCR识别结果中的行进行合并,得到多个不同源的OCR合并结果,其中,合并的方法为将排序后的纵坐标进行两两比较,若两个数据的纵坐标存在相交,且相交部分大于设定的阈值,则判定两个数据是同一行,如此重复操作,获得所有同一行的矩阵,对判定为同一行的行数据,按照行的横坐标进行排序,并将能框住左右同一行的矩形作为合并后的行矩形,并且识别的文字也进行合并;
对多个不同源的OCR合并结果进行行位置匹配,若行位置存在相交,且相交部分的面积大于设定的阈值,则判定不同源的OCR合并结果中的两行是同一行。
4.根据权利要求1所述的基于三源OCR结果的印刷文本可信度融合方法,其特征在于,在S23中,单个字符的融合可信度计算方法如下:
同一个位置,三个OCR源识别的字符ch1、ch2、ch3完全相同,融合可信度计算公式如下:
同一个位置,三个OCR源识别的字符ch1、ch2和ch3互不相同,三者对应的可信度分别为CF1、CF2和CF3,融合可信度的计算公式如下:
FCF1=w1CF1
FCF2=w2CF2
FCF3=w3CF3
FCF=max{FCF1,FCF2,FCF3};
其中,FCFn,n=1,2,3表示不同OCR源的融合可信度,chn,n=1,2,3表示同一个位置上不同OCR源识别的字符,CFn,n=1,2,3表示同一个位置上不同OCR源识别的字符对应的可信度,wn,n=1,2,3表示不同OCR源的权重系数。
5.根据权利要求1所述的基于三源OCR结果的印刷文本可信度融合方法,
其特征在于,在S23中,单个字符的融合可信度计算方法如下:
同一个位置,两个OCR源识别的字符ch1和ch2相同,两者对应的可信度分别为CF1和CF2,第三个OCR源未返回结果,融合可信度计算公式如下:
FCF3=w3CF3
FCF=max{FCF1,FCF3};
同一个位置,两个OCR源识别的字符ch1和ch2不同,两者对应的可信度分别为CF1和CF2,第三个OCR源没有识别字符,融合可信度计算公式为:
FCF1=w1CF1
FCF2=w2CF2
FCF3=w3CF3
FCF=max{FCF1,FCF2,FCF3};
同一个位置,两个OCR源识别的字符ch1和ch2相同,两者对应的可信度分别为CF1和CF2,另外一个OCR源识别的字符ch3与ch1和ch2均不相同,其可信度为CF3,融合可信度计算公式为:
FCF3=w3CF3
FCF=max{FCF1,FCF3};
其中,FCFn,n=1,2,3表示不同OCR源的融合可信度,chn,n=1,2,3表示同一个位置上不同OCR源识别的字符,CFn,n=1,2,3表示同一个位置上不同OCR源识别的字符对应的可信度,wn,n=1,2,3表示不同OCR源的权重系数。
7.根据权利要求1所述的基于三源OCR结果的印刷文本可信度融合方法,其特征在于,在S23中,数据组装包括:
按合并后的行为单位重新组装为融合数据的一行;
合并后的行内的字符自动归并在该行内,其中字符包括字符的框坐标、可能的字符以及融合可信度。
8.一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210339155.2A CN114694152B (zh) | 2022-04-01 | 2022-04-01 | 基于三源ocr结果的印刷文本可信度融合方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210339155.2A CN114694152B (zh) | 2022-04-01 | 2022-04-01 | 基于三源ocr结果的印刷文本可信度融合方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114694152A CN114694152A (zh) | 2022-07-01 |
CN114694152B true CN114694152B (zh) | 2023-03-24 |
Family
ID=82141457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210339155.2A Active CN114694152B (zh) | 2022-04-01 | 2022-04-01 | 基于三源ocr结果的印刷文本可信度融合方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114694152B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10600060B1 (en) * | 2014-12-19 | 2020-03-24 | A9.Com, Inc. | Predictive analytics from visual data |
CN111860257A (zh) * | 2020-07-10 | 2020-10-30 | 上海交通大学 | 融合多种文本特征及几何信息的表格识别方法及系统 |
CN113673586A (zh) * | 2021-08-10 | 2021-11-19 | 北京航天创智科技有限公司 | 融合多源高分辨率卫星遥感影像的海上养殖区域分类方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751567B (zh) * | 2008-12-12 | 2012-10-17 | 汉王科技股份有限公司 | 快速文本识别方法 |
CN102779276B (zh) * | 2011-05-09 | 2015-05-20 | 汉王科技股份有限公司 | 文本图像识别方法和装置 |
US9465774B2 (en) * | 2014-04-02 | 2016-10-11 | Benoit Maison | Optical character recognition system using multiple images and method of use |
CN107533645A (zh) * | 2015-04-20 | 2018-01-02 | 3M创新有限公司 | 双嵌入式光学字符识别(ocr)引擎 |
CN109635801A (zh) * | 2017-10-09 | 2019-04-16 | 株式会社理光 | 光学字符识别后处理的方法、装置及计算机可读存储介质 |
CN109858453B (zh) * | 2019-02-15 | 2023-06-23 | 浪潮通用软件有限公司 | 一种通用的多引擎票据识别系统及方法 |
CN110751234B (zh) * | 2019-10-09 | 2024-04-16 | 科大讯飞股份有限公司 | Ocr识别纠错方法、装置及设备 |
CN111738251B (zh) * | 2020-08-26 | 2020-12-04 | 北京智源人工智能研究院 | 一种融合语言模型的光学字符识别方法、装置和电子设备 |
CN113269192B (zh) * | 2021-05-24 | 2024-04-30 | 东南大学 | 一种基于词匹配和语法匹配的ocr后处理方法 |
-
2022
- 2022-04-01 CN CN202210339155.2A patent/CN114694152B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10600060B1 (en) * | 2014-12-19 | 2020-03-24 | A9.Com, Inc. | Predictive analytics from visual data |
CN111860257A (zh) * | 2020-07-10 | 2020-10-30 | 上海交通大学 | 融合多种文本特征及几何信息的表格识别方法及系统 |
CN113673586A (zh) * | 2021-08-10 | 2021-11-19 | 北京航天创智科技有限公司 | 融合多源高分辨率卫星遥感影像的海上养殖区域分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114694152A (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9384389B1 (en) | Detecting errors in recognized text | |
WO2021151270A1 (zh) | 图像结构化数据提取方法、装置、设备及存储介质 | |
CN112257613B (zh) | 体检报告信息结构化提取方法、装置及计算机设备 | |
CN113032580B (zh) | 关联档案推荐方法、系统及电子设备 | |
CN111191652A (zh) | 一种证件图像识别方法、装置、电子设备及存储介质 | |
CN111401099A (zh) | 文本识别方法、装置以及存储介质 | |
JP2010055142A (ja) | 文書処理装置およびプログラム | |
CN111507230A (zh) | 一种文档和表格数据的识别和提取方法及系统 | |
CN102467664B (zh) | 辅助光学字符识别的方法和装置 | |
CN117216279A (zh) | Pdf文件的文本提取方法、装置、设备及存储介质 | |
CN114694152B (zh) | 基于三源ocr结果的印刷文本可信度融合方法及装置 | |
CN113283233A (zh) | 文本纠错方法、装置、电子设备和存储介质 | |
CN113408536A (zh) | 票据的金额识别方法、装置、计算机设备及存储介质 | |
CN113159133A (zh) | 数据标注方法及装置、电子设备、存储介质 | |
CN115995087B (zh) | 基于融合视觉信息的文档目录智能生成方法及系统 | |
CN112287763A (zh) | 图像处理方法、装置、设备及介质 | |
WO2020211380A1 (zh) | 页面设计中前端代码的智能识别方法及相关设备 | |
CN116489251A (zh) | 通用码流解析方法、装置、计算机可读介质及终端设备 | |
CN115169330A (zh) | 中文文本纠错及验证方法、装置、设备及存储介质 | |
CN115294593A (zh) | 一种图像信息抽取方法、装置、计算机设备及存储介质 | |
Kumar et al. | Line based robust script identification for indianlanguages | |
JP7322468B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN118353984B (zh) | 基于osrbls与嵌入标注的未知协议解析方法和系统 | |
CN111612157A (zh) | 训练方法、文字识别方法、装置、存储介质及电子设备 | |
CN116502625B (zh) | 一种简历解析方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |