CN113743415A - 一种图像文本识别纠错的方法、系统、电子装置和介质 - Google Patents
一种图像文本识别纠错的方法、系统、电子装置和介质 Download PDFInfo
- Publication number
- CN113743415A CN113743415A CN202110897374.8A CN202110897374A CN113743415A CN 113743415 A CN113743415 A CN 113743415A CN 202110897374 A CN202110897374 A CN 202110897374A CN 113743415 A CN113743415 A CN 113743415A
- Authority
- CN
- China
- Prior art keywords
- character
- error correction
- recognition
- corrected
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012937 correction Methods 0.000 claims abstract description 129
- 238000012015 optical character recognition Methods 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000004590 computer program Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000007476 Maximum Likelihood Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 description 1
- 101150041570 TOP1 gene Proteins 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本申请涉及一种图像文本识别纠错的方法、系统、电子装置和介质,其中,该方法包括:获取图像文本数据进行数据预处理,并通过OCR模型进行识别,输出识别字符以及该识别字符对应的置信度分值、坐标;预设识别阈值,通过比较置信度分值和识别阈值进行纠错标记,得到待纠错字符,并对待纠错字符进行mask替换,通过MLM模型基于语义环境对mask位置预测字符,生成得到候选字符集和该候选字符的置信度;通过字形相似度算法,计算得到候选字符与待纠错字符之间的字形相似度,并对字形相似度与候选字符置信度进行综合计算,得到候选字符的纠错分值;根据纠错分值,进行字符纠错处理,输出得到目标识别结果。通过本申请,提高了纠错效率并降低了成本。
Description
技术领域
本申请涉及图像文本处理技术领域,特别是涉及一种图像文本识别纠错的方法、系统、电子装置和介质。
背景技术
在通过计算机进行交互的过程中,不仅可以通过字符文本表达某种意图,往往还存在通过图像文本来表达意图的情况。此外,在纸质材料电子化过程中,需要对纸质图像文本进行识别,得到电子文档。而实际情况中,对于图像文本的识别,往往会出现字符识别错误的情况。因此,如何有效提升图像文本的识别质量,对识别错误的字符进行纠错处理成为了亟需解决的问题。
在相关技术中,通过字典对错误字符进行纠错处理,是基于事先维护的词典,而词典的维护需要投入过多人工成本,且纠错效果取决于词典维护的质量;在一些相关技术中,由于备选字符是基于图像的字符特征从特征数据库中生成的,故针对不同的文本语境,同样的字符特征所输出的备选字符基本一致,差异性不大,而且,通过对每个字符遍历特征数据库来生成多个备选字符,以提高OCR识别结果的准确性的方法,耗时较大,时间成本高,此外,只通过语义通顺程度对字符进行纠错,指标单一,纠错效率低。目前针对相关技术中,在对图像文本中识别的错误字符进行纠正处理时,存在的人工成本和时间成本高,以及备选字符和判断指标单一造成的文本识别纠错质量低的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种图像文本识别纠错的方法、系统、电子装置和介质,以至少解决相关技术中在对图像文本中识别的错误字符进行纠正处理时,存在的人工成本和时间成本高,以及备选字符和判断指标单一造成的文本识别纠错质量低的问题。
第一方面,本申请实施例提供了一种图像文本识别纠错的方法,所述方法包括:
获取图像文本数据,对所述图像文本进行数据预处理,并通过OCR模型对所述图像文本进行识别,输出识别字符以及所述识别字符对应的置信度分值、坐标;
预设识别阈值,通过比较所述置信度分值和所述识别阈值来对所述识别字符进行纠错标记,得到待纠错字符,并对所述待纠错字符进行mask替换,通过MLM模型基于语义环境对所述mask位置预测字符,生成得到候选字符集和所述候选字符的置信度;
通过字形相似度算法,计算得到所述候选字符与所述待纠错字符之间的字形相似度,并对所述字形相似度与所述候选字符置信度进行综合计算,得到所述候选字符的纠错分值;
根据所述候选字符的纠错分值,对所述待纠错字符进行字符纠错处理,输出得到目标识别结果。
在其中一些实施例中,通过比较所述置信度分值和所述识别阈值来对所述识别字符进行纠错标记包括:
判断所述识别字符的置信度分值和所述识别阈值的大小;
在判断所述识别字符的置信度分值低于所述识别阈值的情况下,对所述识别字符进行纠错标记;
在判断所述识别字符的置信度分值不低于所述识别阈值的情况下,所述识别字符无需纠正。
在其中一些实施例中,在对所述待纠错字符进行mask替换之前,所述方法还包括:
通过版面分析法识别所述识别字符的区域属性,并合并所述识别字符,生成得到长文本字符串。
在其中一些实施例中,所述根据所述候选字符的纠错分值,对所述待纠错字符进行字符纠错处理包括:
预设纠错阈值,并判断所述候选字符的纠错分值与所述纠错阈值的大小;
在判断所述候选字符的纠错分值高于所述纠错阈值的情况下,用所述候选字符替换所述待纠错字符。
在其中一些实施例中,在根据所述候选字符的纠错分值,对所述待纠错字符进行字符纠错处理之前,所述方法还包括:
分别判断所述候选字符的置信度分值和所述字形相似度是否满足各自预设的阈值范围;
在判断其中有一方不满足的情况下,对所述候选字符进行过滤。
在其中一些实施例中,所述对所述图像文本进行数据预处理包括:
对所述图像文本中的倾斜文本进行校正,得到版面工整的图像文本数据。
第二方面,本申请实施例提供了一种图像文本识别纠错的系统,所述系统包括:
识别模块,用于获取图像文本数据,对所述图像文本进行数据预处理,并通过OCR模型对所述图像文本进行识别,输出识别字符以及所述识别字符对应的置信度分值、坐标,
预设识别阈值,通过比较所述置信度分值和所述识别阈值来对所述识别字符进行纠错标记,得到待纠错字符,并对所述待纠错字符进行mask替换,通过MLM模型基于语义环境对所述mask位置预测字符,生成得到候选字符集和所述候选字符的置信度;
计算模块,用于通过字形相似度算法,计算得到所述候选字符与所述待纠错字符之间的字形相似度,并对所述字形相似度与所述候选字符置信度进行综合计算,得到所述候选字符的纠错分值;
纠错模块,用于根据所述候选字符的纠错分值,对所述待纠错字符进行字符纠错处理,输出得到目标识别结果。
在其中一些实施例中,
所述识别模块,还用于判断所述识别字符的置信度分值和所述识别阈值的大小,
在判断所述识别字符的置信度分值低于所述识别阈值的情况下,对所述识别字符进行纠错标记,
在判断所述识别字符的置信度分值不低于所述识别阈值的情况下,所述识别字符无需纠正。
第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的图像文本识别纠错的方法。
第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的图像文本识别纠错的方法。
相比于相关技术,本申请实施例提供的图像文本识别纠错的方法,获取图像文本数据,对该图像文本进行数据预处理,并通过OCR模型对图像文本进行识别,输出识别字符以及该识别字符对应的置信度分值、坐标;接着,预设识别阈值,通过比较置信度分值和识别阈值来对识别字符进行纠错标记,得到待纠错字符后,并对待纠错字符进行mask替换,通过MLM模型基于语义环境对mask位置预测字符,生成得到候选字符集和该候选字符的置信度;然后,通过字形相似度算法,计算得到候选字符与待纠错字符之间的字形相似度,并对字形相似度与候选字符置信度进行综合计算,得到候选字符的纠错分值;最后,根据候选字符的纠错分值,对待纠错字符进行字符纠错处理,输出得到目标识别结果。
本申请通过OCR模型识别输出置信度,并结合识别阈值来判断识别字符是否需要纠错后,再生成候选字符集的方法,有效规避了对每个字符都生成候选字符集的情况,从而减少纠错耗时;
进一步地,由于MLM模型在短文本中预测mask位置字符的效果会比较差,因此,本申请通过版面分析法合并多个词组和短语的识别字符,得到有相关性的长文本字符串,使得MLM模型在预测过程中获取更丰富的上下文语境,不仅有利于提高字符的预测效果,还能提升MLM模型生成的候选字符集的质量。同时,通过MLM模型生成候选字符集能有效解决在不同语境下获取的候选字符基本不变的问题,提高了纠正效率。此外,本申请还利用置信度、字形相似度和纠错分值等多个指标,来综合判断是否可用候选字符集中的字符来替换文本中的待纠错字符,有效避免了只采用单一指标来判断是否替换待纠错字符而导致的纠错指标局限和纠正效率低的问题。解决了在对图像文本中识别的错误字符进行纠正处理时,存在的人工成本和时间成本高,以及备选字符和判断指标单一造成的文本识别纠错质量低的问题,提高了纠错效率并降低了成本。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的图像文本识别纠错的方法的应用环境示意图;
图2是根据本申请实施例的图像文本识别纠错的方法的流程图;
图3是根据本申请实施例的图像文本识别纠错的系统的结构框图;
图4是根据本申请实施例的电子设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请提供的图像文本识别纠错的方法,可以应用于如图1所示的应用环境中,图1是根据本申请实施例的图像文本识别纠错的方法的应用环境示意图,如图1所示。其中,终端设备11与服务器10通过网络进行通信。服务器10获取图像文本数据,对该图像文本进行数据预处理,并通过OCR模型对图像文本进行识别,输出识别字符以及该识别字符对应的置信度分值、坐标;接着,对识别字符进行纠错标记,得到待纠错字符,并对待纠错字符进行mask替换,通过MLM模型基于语义环境对mask位置预测字符,生成得到候选字符集和该候选字符的置信度;然后,通过字形相似度算法,计算得到候选字符与待纠错字符之间的字形相似度,并对字形相似度与候选字符置信度进行综合计算,得到候选字符的纠错分值;最后,根据候选字符的纠错分值,对待纠错字符进行字符纠错处理,输出得到目标识别结果,在终端设备11上显示。其中,终端设备11可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑等,服务器10可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本实施例提供了一种图像文本识别纠错的方法,图2是根据本申请实施例的图像文本识别纠错的方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取图像文本数据,对图像文本进行数据预处理,并通过OCR模型对图像文本进行识别,输出识别字符以及识别字符对应的置信度分值、坐标;
本实施例中,通过服务器10获取图像文本数据,并对该图像文本进行数据预处理;
优选的,由于获取的图像文本会存在文本倾斜的问题,因此需要通过数据预处理来对倾斜文本进行校正,得到版面工整的图像文本数据,提升版面质量,并有助于在后续的版面分析中,拼接得到更好的长文本字符串;
进一步地,通过OCR模型(Optical Character Recognition,也称光学字符识别)对预处理后的图像文本进行识别,输出得到识别字符以及该识别字符对应的置信度分值、坐标。
例如,本实施例获取的图像文本内容为:今天申报项目成功。通过数据预处理,以及OCR模型的识别之后,输出得到识别结果1为:“今天甲报”,每个识别字符对应的置信度分值为:[0.95,0.96,0.8,0.96],以及识别结果1的坐标为:[[143.0,353.0],[304.0,353.0],[304.0,380.0],[143.0,380.0]];输出得到的识别结果2为:“项目成功”,每个识别字符对应的置信度分值为:[0.94,0.99,0.93,0.97],以及识别结果2的坐标为:[[338.0,352.0],[698.0,351.0],[698.0,378.0],[338.0,379.0]]。其中,识别结果的坐标为识别文本中左下、右下、右上和左上四个点位的x轴、y轴对应的坐标;
步骤S202,预设识别阈值,通过比较置信度分值和识别阈值来对识别字符进行纠错标记,得到待纠错字符,并对待纠错字符进行mask替换,通过MLM模型基于语义环境对mask位置预测字符,生成得到候选字符集和候选字符的置信度;
优选的,本实施例预设识别阈值,并判断识别字符的置信度分值和识别阈值的大小;在判断识别字符的置信度分值低于识别阈值的情况下,对该识别字符进行纠错标记,得到待纠错字符;在判断识别字符的置信度分值不低于识别阈值的情况下,该识别字符无需纠正;
优选的,在对待纠错字符进行mask替换之前,通过版面分析法识别文本中识别字符的区域属性,并合并识别字符,生成得到长文本字符串。其中,识别字符的区域属性包括有:横排正文、竖排正文、表格和图等,本实施例通过版面分析方法对横排或竖排的字符进行同一排字符的合并,以生成获得长文本字符串。可选的,本实施例中的版面分析法不做具体限制,可以为投影法、俄罗斯方块法,以及基于机器学习合并的方法等。本实施例中通过版面分析法合并多个词组和短语的识别字符,获取长文本字符串,有利于后续MLM模型在预测过程中获取更丰富的上下文语境,提升字符预测效果和候选字符集的生成质量;
进一步地,在得到待纠错字符后,对合成的长文本字符串中的待纠错字符进行mask替换,并通过MLM模型(Masked Language Model,也称掩码语言模型)基于上下文的语义环境对该mask位置预测字符,生成得到候选字符集和该候选字符的置信度。
具体地,本实施例预设识别阈值为0.9,根据上述步骤S201中得到的识别结果1中识别字符“甲”对应的置信度分值为0.8,因此,通过比较识别阈值和置信度分值的大小可知,“甲”为待纠错字符,对其进行纠错标记,而其余字符的置信度均大于0.9,故无需进一步纠错。接着对步骤S201的识别结果进行版面分析,例如采用投影法,得到识别结果1在x轴上的范围为[143,304],在y轴上的范围为[353,380];识别结果2在x轴上的范围为[338,698],在y轴上的范围为[351,379]。由于两者在y轴上的范围存在大量重叠,故在x轴上对字符串进行前后顺序排列合并,得到“今天甲报项目成功”的长文本字符串。然后,对长文本字符串中的待纠错字符“甲”进行mask替换,得到“今天[mask]报项目成功”,最后,通过MLM模型基于上下文语义环境对[mask]位置预测字符,生成得到候选字符集中前3个字符分别为:申、汇、上,以及这些候选字符的置信度分值分别为:[0.96,0.8,0.7]。此外,需要说明的是,识别阈值可根据实际测试效果做相应的调整,并非固定的参数。
本实施例通过OCR模型识别输出置信度,并结合识别阈值来判断识别字符是否需要纠错后,再生成候选字符集的方法,有效规避了对每个字符都生成候选字符集的情况,从而减少纠错耗时。此外,本实施例还通过版面分析法合并多个词组和短语的识别字符,得到有相关性的长文本字符串,有利于后续MLM模型获取更丰富的上下文语境,提升MLM模型的候选字符集生成质量,进一步地,本实施例通过MLM模型对待纠错字符生成符合上下文语境的候选字符集,有效解决了在不同语境下获取的候选字符基本不变的问题,提高了纠正效率。
步骤S203,通过字形相似度算法,计算得到候选字符与待纠错字符之间的字形相似度,并对字形相似度与候选字符置信度进行综合计算,得到候选字符的纠错分值;需要说明的是,本实施例中的字形相似度算法是通过结合字与字之间的笔画顺序、结构等特征计算字形相似度。
具体地,本实施例计算候选字符集中各字符与“甲”的字形相似度,得到[申:0.94,汇:0.5,上:0.6]。再对字形相似度与上述步骤S202中得到的候选字符的置信度进行综合计算,例如采用加权平均的方式计算,则此时得到候选字符的纠错分值分别为[申:0.95,汇:0.65,上:0.65]。需要说明的是,权重可根据实际测试效果做相应的调整,并非固定的参数。
需要说明的是,本实施例中不仅可以采用加权平均的方式计算纠错分值,还能通过二次加权、幂函数等方式进行计算,该计算方式不做具体限定;
步骤S204,根据候选字符的纠错分值,对待纠错字符进行字符纠错处理,输出得到目标识别结果。
优选的,本实施例通过预设纠错阈值,并判断候选字符的纠错分值与该纠错阈值的大小;在判断候选字符的纠错分值高于纠错阈值的情况下,用该候选字符替换待纠错字符,否则不替换。
具体地,本实施例预设纠错阈值为0.8,通过比较步骤S203中得到的3个候选字符的纠错分值的大小可知,候选字符集中top1的候选字符“申”对应的纠错分值0.95大于纠错阈值0.8,因此,用候选字符“申”替换原识别结果中的“甲”,最终得到的目标识别结果为“今天申报项目成功”。需要说明的是,纠错阈值可根据实际测试效果做相应的调整,并非固定的参数。
在其中一些实施例中,在根据候选字符的纠错分值,对待纠错字符进行字符纠错处理之前,分别判断候选字符的置信度分值和字形相似度是否满足各自预设的阈值范围;在判断其中有一方不满足的情况下,可以对该候选字符进行过滤,不仅能缩小候选字符的范围,提高纠错准确率,还能较少纠错耗时,降低时间成本。
本实施例通过语义置信度、字形相似度和纠错分值等多个指标,综合判断是否可用候选字符集中的字符来替换文本中的待纠错字符,有效避免了只采用单一指标来判断是否替换待纠错字符而导致的纠错指标局限和纠正效率低的问题,提高了纠错效率。
通过上述步骤S201至步骤S204,本申请通过数据预处理环节对倾斜文本进行校正,有助于提升版面分析的质量;通过OCR模型识别输出置信度,并结合识别阈值来判断识别字符是否需要纠错后,再生成候选字符集的方法,有效规避了对每个字符都生成候选字符集的情况,从而减少纠错耗时;本申请还通过版面分析合并多个词组和短语的识别字符,得到有相关性的长文本字符串,使得MLM模型在预测过程中获取更丰富的上下文语境,不仅有利于提高字符的预测效果,还能提升MLM模型生成的候选字符集的质量。同时,通过MLM模型生成候选字符集能有效解决在不同语境下获取的候选字符基本不变的问题,提高了纠正效率。此外,本申请还利用置信度、字形相似度和纠错分值等多个指标,来综合判断是否可用候选字符集中的字符来替换文本中的待纠错字符,有效避免了只采用单一指标来判断是否替换待纠错字符而导致的纠错指标局限和纠正效率低的问题。解决了在对图像文本中识别的错误字符进行纠正处理时,存在的人工成本和时间成本高,以及备选字符和判断指标单一造成的文本识别纠错质量低的问题,提高了纠错效率并降低了成本。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种图像文本识别纠错的系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本申请实施例的图像文本识别纠错的系统的结构框图,如图3所示,该系统包括识别模块31、计算模块32和纠错模块33:
识别模块31,用于获取图像文本数据,对图像文本进行数据预处理,并通过OCR模型对图像文本进行识别,输出识别字符以及识别字符对应的置信度分值、坐标,预设识别阈值,通过比较置信度分值和识别阈值来对识别字符进行纠错标记,得到待纠错字符,并对待纠错字符进行mask替换,通过MLM模型基于语义环境对mask位置预测字符,生成得到候选字符集和候选字符的置信度;计算模块32,用于通过字形相似度算法,计算得到候选字符与待纠错字符之间的字形相似度,并对字形相似度与候选字符置信度进行综合计算,得到候选字符的纠错分值;纠错模块33,用于根据候选字符的纠错分值,对待纠错字符进行字符纠错处理,输出得到目标识别结果。
通过上述系统,本申请通过识别模块31数据预处理环节对倾斜文本进行校正,通过OCR模型识别输出置信度,并结合识别阈值来判断识别字符是否需要纠错后,再生成候选字符集的方法,有效规避了对每个字符都生成候选字符集的情况,从而减少纠错耗时;本申请还通过版面分析合并多个词组和短语的识别字符,得到有相关性的长文本字符串,使得MLM模型在预测过程中获取更丰富的上下文语境,不仅有利于提高字符的预测效果,还能提升MLM模型生成的候选字符集的质量。同时,通过MLM模型生成候选字符集能有效解决在不同语境下获取的候选字符基本不变的问题,提高了纠正效率。通过计算模块32计算得到候选字符的纠错分值后,通过纠错模块33的置信度、字形相似度和纠错分值等多个指标,来综合判断是否可用候选字符集中的字符来替换文本中的待纠错字符,有效避免了只采用单一指标来判断是否替换待纠错字符而导致的纠错指标局限和纠正效率低的问题。解决了在对图像文本中识别的错误字符进行纠正处理时,存在的人工成本和时间成本高,以及备选字符和判断指标单一造成的文本识别纠错质量低的问题,提高了纠错效率并降低了成本。
需要说明的是,本申请中其他一些实施例中的具体示例可以参考上述一种图像文本识别纠错的方法中的实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
此外,需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
另外,结合上述实施例中的图像文本识别纠错的方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种图像文本识别纠错的方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像文本识别纠错的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,图4是根据本申请实施例的电子设备的内部结构示意图,如图4所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图4所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种图像文本识别纠错的方法,数据库用于存储数据。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种图像文本识别纠错的方法,其特征在于,所述方法包括:
获取图像文本数据,对所述图像文本进行数据预处理,并通过OCR模型对所述图像文本进行识别,输出识别字符以及所述识别字符对应的置信度分值、坐标;
预设识别阈值,通过比较所述置信度分值和所述识别阈值来对所述识别字符进行纠错标记,得到待纠错字符,并对所述待纠错字符进行mask替换,通过MLM模型基于语义环境对所述mask位置预测字符,生成得到候选字符集和所述候选字符的置信度;
通过字形相似度算法,计算得到所述候选字符与所述待纠错字符之间的字形相似度,并对所述字形相似度与所述候选字符置信度进行综合计算,得到所述候选字符的纠错分值;
根据所述候选字符的纠错分值,对所述待纠错字符进行字符纠错处理,输出得到目标识别结果。
2.根据权利要求1所述的方法,其特征在于,通过比较所述置信度分值和所述识别阈值来对所述识别字符进行纠错标记包括:
判断所述识别字符的置信度分值和所述识别阈值的大小;
在判断所述识别字符的置信度分值低于所述识别阈值的情况下,对所述识别字符进行纠错标记;
在判断所述识别字符的置信度分值不低于所述识别阈值的情况下,所述识别字符无需纠正。
3.根据权利要求1所述的方法,其特征在于,在对所述待纠错字符进行mask替换之前,所述方法还包括:
通过版面分析法识别所述识别字符的区域属性,并合并所述识别字符,生成得到长文本字符串。
4.根据权利要求1所述的方法,其特征在于,所述根据所述候选字符的纠错分值,对所述待纠错字符进行字符纠错处理包括:
预设纠错阈值,并判断所述候选字符的纠错分值与所述纠错阈值的大小;
在判断所述候选字符的纠错分值高于所述纠错阈值的情况下,用所述候选字符替换所述待纠错字符。
5.根据权利要求4所述的方法,其特征在于,在根据所述候选字符的纠错分值,对所述待纠错字符进行字符纠错处理之前,所述方法还包括:
分别判断所述候选字符的置信度分值和所述字形相似度是否满足各自预设的阈值范围;
在判断其中有一方不满足的情况下,对所述候选字符进行过滤。
6.根据权利要求1所述的方法,其特征在于,所述对所述图像文本进行数据预处理包括:
对所述图像文本中的倾斜文本进行校正,得到版面工整的图像文本数据。
7.一种图像文本识别纠错的系统,其特征在于,所述系统包括:
识别模块,用于获取图像文本数据,对所述图像文本进行数据预处理,并通过OCR模型对所述图像文本进行识别,输出识别字符以及所述识别字符对应的置信度分值、坐标,
预设识别阈值,通过比较所述置信度分值和所述识别阈值来对所述识别字符进行纠错标记,得到待纠错字符,并对所述待纠错字符进行mask替换,通过MLM模型基于语义环境对所述mask位置预测字符,生成得到候选字符集和所述候选字符的置信度;
计算模块,用于通过字形相似度算法,计算得到所述候选字符与所述待纠错字符之间的字形相似度,并对所述字形相似度与所述候选字符置信度进行综合计算,得到所述候选字符的纠错分值;
纠错模块,用于根据所述候选字符的纠错分值,对所述待纠错字符进行字符纠错处理,输出得到目标识别结果。
8.根据权利要求7所述的系统,其特征在于,
所述识别模块,还用于判断所述识别字符的置信度分值和所述识别阈值的大小,
在判断所述识别字符的置信度分值低于所述识别阈值的情况下,对所述识别字符进行纠错标记,
在判断所述识别字符的置信度分值不低于所述识别阈值的情况下,所述识别字符无需纠正。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至6中任一项所述的图像文本识别纠错的方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至6中任一项所述的图像文本识别纠错的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110897374.8A CN113743415A (zh) | 2021-08-05 | 2021-08-05 | 一种图像文本识别纠错的方法、系统、电子装置和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110897374.8A CN113743415A (zh) | 2021-08-05 | 2021-08-05 | 一种图像文本识别纠错的方法、系统、电子装置和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113743415A true CN113743415A (zh) | 2021-12-03 |
Family
ID=78730269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110897374.8A Pending CN113743415A (zh) | 2021-08-05 | 2021-08-05 | 一种图像文本识别纠错的方法、系统、电子装置和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743415A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114241471A (zh) * | 2022-02-23 | 2022-03-25 | 阿里巴巴达摩院(杭州)科技有限公司 | 视频文本识别方法、装置、电子设备及可读存储介质 |
CN114399766A (zh) * | 2022-01-18 | 2022-04-26 | 平安科技(深圳)有限公司 | 光学字符识别模型训练方法、装置、设备及介质 |
CN115171129A (zh) * | 2022-09-06 | 2022-10-11 | 京华信息科技股份有限公司 | 文字识别纠错方法、装置、终端设备及存储介质 |
CN115310409A (zh) * | 2022-06-29 | 2022-11-08 | 杭州似然数据有限公司 | 一种数据编码的方法、系统、电子装置和存储介质 |
CN116704523A (zh) * | 2023-08-07 | 2023-09-05 | 山东成信彩印有限公司 | 一种用于出版印刷设备的文字排版图像识别系统 |
WO2023173560A1 (zh) * | 2022-03-16 | 2023-09-21 | 来也科技(北京)有限公司 | 基于rpa和ai的文本纠错方法、训练方法及其相关设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1916941A (zh) * | 2005-08-18 | 2007-02-21 | 北大方正集团有限公司 | 一种字符识别的后处理方法 |
CN111079768A (zh) * | 2019-12-23 | 2020-04-28 | 北京爱医生智慧医疗科技有限公司 | 一种基于ocr的文字图像识别方法及装置 |
CN111310443A (zh) * | 2020-02-12 | 2020-06-19 | 新华智云科技有限公司 | 一种文本纠错方法和系统 |
CN112085011A (zh) * | 2020-09-27 | 2020-12-15 | 中国建设银行股份有限公司 | 一种ocr识别结果纠错方法、装置及存储介质 |
CN112396049A (zh) * | 2020-11-19 | 2021-02-23 | 平安普惠企业管理有限公司 | 文本纠错方法、装置、计算机设备及存储介质 |
-
2021
- 2021-08-05 CN CN202110897374.8A patent/CN113743415A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1916941A (zh) * | 2005-08-18 | 2007-02-21 | 北大方正集团有限公司 | 一种字符识别的后处理方法 |
CN111079768A (zh) * | 2019-12-23 | 2020-04-28 | 北京爱医生智慧医疗科技有限公司 | 一种基于ocr的文字图像识别方法及装置 |
CN111310443A (zh) * | 2020-02-12 | 2020-06-19 | 新华智云科技有限公司 | 一种文本纠错方法和系统 |
CN112085011A (zh) * | 2020-09-27 | 2020-12-15 | 中国建设银行股份有限公司 | 一种ocr识别结果纠错方法、装置及存储介质 |
CN112396049A (zh) * | 2020-11-19 | 2021-02-23 | 平安普惠企业管理有限公司 | 文本纠错方法、装置、计算机设备及存储介质 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114399766A (zh) * | 2022-01-18 | 2022-04-26 | 平安科技(深圳)有限公司 | 光学字符识别模型训练方法、装置、设备及介质 |
CN114399766B (zh) * | 2022-01-18 | 2024-05-10 | 平安科技(深圳)有限公司 | 光学字符识别模型训练方法、装置、设备及介质 |
CN114241471A (zh) * | 2022-02-23 | 2022-03-25 | 阿里巴巴达摩院(杭州)科技有限公司 | 视频文本识别方法、装置、电子设备及可读存储介质 |
WO2023173560A1 (zh) * | 2022-03-16 | 2023-09-21 | 来也科技(北京)有限公司 | 基于rpa和ai的文本纠错方法、训练方法及其相关设备 |
CN115310409A (zh) * | 2022-06-29 | 2022-11-08 | 杭州似然数据有限公司 | 一种数据编码的方法、系统、电子装置和存储介质 |
CN115171129A (zh) * | 2022-09-06 | 2022-10-11 | 京华信息科技股份有限公司 | 文字识别纠错方法、装置、终端设备及存储介质 |
CN116704523A (zh) * | 2023-08-07 | 2023-09-05 | 山东成信彩印有限公司 | 一种用于出版印刷设备的文字排版图像识别系统 |
CN116704523B (zh) * | 2023-08-07 | 2023-10-20 | 山东成信彩印有限公司 | 一种用于出版印刷设备的文字排版图像识别系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113743415A (zh) | 一种图像文本识别纠错的方法、系统、电子装置和介质 | |
US10846553B2 (en) | Recognizing typewritten and handwritten characters using end-to-end deep learning | |
CN110765996B (zh) | 文本信息处理方法及装置 | |
CN112185520B (zh) | 一种医疗病理报告图片的文本结构化处理系统和方法 | |
CN108959271B (zh) | 描述文本生成方法、装置、计算机设备和可读存储介质 | |
US11321559B2 (en) | Document structure identification using post-processing error correction | |
US20220019832A1 (en) | Neural Network-based Optical Character Recognition | |
JP7038988B2 (ja) | 画像処理方法及び画像処理システム | |
CN111507330A (zh) | 习题识别方法、装置、电子设备及存储介质 | |
US9519404B2 (en) | Image segmentation for data verification | |
CN112541079A (zh) | 多意图识别方法、装置、设备及介质 | |
EP4191433A1 (en) | Method, device, and system for analyzing unstructured document | |
CN112417899A (zh) | 文字翻译方法、装置、计算机设备和存储介质 | |
CN111444906B (zh) | 基于人工智能的图像识别方法和相关装置 | |
CN113536735A (zh) | 一种基于关键词的文本标记方法、系统和存储介质 | |
CN111914825A (zh) | 文字识别方法、装置及电子设备 | |
CN109710924B (zh) | 文本模型训练方法、文本识别方法、装置、设备及介质 | |
CN112749639B (zh) | 模型训练方法、装置、计算机设备和存储介质 | |
CN112163110B (zh) | 图像分类方法、装置、电子设备和计算机可读存储介质 | |
CN113780365A (zh) | 样本生成方法和装置 | |
CN113673528A (zh) | 文本处理方法、装置、电子设备和可读存储介质 | |
CN117155892A (zh) | 交互处理方法、装置、电子设备及存储介质 | |
CN116860747A (zh) | 训练样本的生成方法、装置、电子设备及存储介质 | |
CN115510809A (zh) | 书写字体分析方法、装置、计算机设备及存储介质 | |
CN117859122A (zh) | 包括用于自动化文档处理的技术的ai增强的审计平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |