CN110751234B - Ocr识别纠错方法、装置及设备 - Google Patents
Ocr识别纠错方法、装置及设备 Download PDFInfo
- Publication number
- CN110751234B CN110751234B CN201910955162.3A CN201910955162A CN110751234B CN 110751234 B CN110751234 B CN 110751234B CN 201910955162 A CN201910955162 A CN 201910955162A CN 110751234 B CN110751234 B CN 110751234B
- Authority
- CN
- China
- Prior art keywords
- word segmentation
- path
- word
- ocr
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012015 optical character recognition Methods 0.000 title abstract description 96
- 230000011218 segmentation Effects 0.000 claims abstract description 385
- 238000012163 sequencing technique Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/268—Lexical context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种OCR识别纠错方法、装置及设备,其中方法包括:基于OCR识别结果,得到包含OCR分词标签的第一字符序列以及去除OCR分词标签的未分词字符序列;利用预先构建的分词模型对所述未分词字符序列进行分词,得到包含预测分词标签的第二字符序列,所述第一字符序列与所述第二字符序列具有相同的字符排序;根据所述第一字符序列以及所述第二字符序列,确定最优分词序列;利用所述最优分词序列替换所述识别结果。本发明相比现有的分词方案,有效利用了OCR本身提供的关键的先验信息,因而具备更佳的分词纠错性能以及更为合理的资源利用率。
Description
技术领域
本发明涉及电子信息化教育、自然语言处理领域,尤其涉及一种OCR识别纠错方法、装置及设备。
背景技术
近年来,在传统的教育领域,也逐渐开展新一代的教育信息化升级探索,国内现有基础教育阶段,学生学习状况的主要考察形式仍然是各种类型的考试。在此状况下,教师背负着很大的批改工作的压力。另一方面,在处理大规模评分工作时,教师容易受到疲劳、个人偏好等主观因素的干扰。因此利用计算机辅助完成评价,以减少人工评阅工作量,提升评分的准确性和客观性,对教学过程意义重大。
OCR(Optical Character Recognition,光学字符识别)技术可将学生书写的文字转变为数字化格式,作为教育信息化的首要阶段,OCR识别结果对于后续任务的处理有重要的影响和意义。然而,在实际环境中,因为书写者字迹潦草等原因,OCR识别的结果不尽如人意,尤其会导致出现较多的分词错误,极大地影响后续文字处理结果。
特别地,本发明聚焦于外文的分词处理(所述外文是相对具有表义、象形特点的文字而言——例如中文等,因而此处所述外文可以是指以字母、符号形式表达的文字),然而,本领域针对外文OCR的分词纠错方案并未与OCR技术有效结合,即便在对OCR的错误分词进行修正时,也往往会忽视OCR处理后所包含的关键信息,也即是并未考虑OCR识别结果本身所保留的先验信息,从而导致资源利用不合理、分词纠错效果不佳的问题。
发明内容
本发明针对上述现有技术的弊端,提供了一种OCR识别纠错方法、装置及设备,以解决对于OCR识别结果的修复问题。
本发明采用的技术方案如下:
一种OCR识别纠错方法,包括:
基于OCR识别结果,得到包含OCR分词标签的第一字符序列以及去除OCR分词标签的未分词字符序列;
利用预先构建的分词模型对所述未分词字符序列进行分词,得到包含预测分词标签的第二字符序列,所述第一字符序列与所述第二字符序列具有相同的字符排序;
根据所述第一字符序列以及所述第二字符序列,确定最优分词序列;
利用所述最优分词序列替换所述识别结果。
可选地,所述根据所述第一字符序列以及所述第二字符序列,确定最优分词序列包括:
基于所述OCR分词标签确定所述第一字符序列的第一分词路径;
基于所述预测分词标签确定所述第二字符序列的第二分词路径;
根据所述第一分词路径以及所述第二分词路径,获取最优分词路径。
可选地,
所述第一分词路径包括:利用所述OCR分词标签中的起始标签和截止标签,依字符排序确定的所述第一字符序列中每个分词的第一分词单元路径;
所述第二分词路径包括:利用所述预测分词标签中的起始标签和截止标签,依字符排序确定的所述第二字符序列中每个分词的第二分词单元路径。
可选地,所述根据所述第一分词路径以及所述第二分词路径,获取最优分词路径包括:
在按照字符排序确定每个分词的路径过程中,利用预先构建的打分器分别且依次为所述第一分词单元路径以及所述第二分词单元路径打分,得到相应的第一得分和第二得分;
并且,只有当同一个字符对应的所述OCR分词标签以及所述预测分词标签均为截止标签时,根据当前已确定的所述第一得分以及所述第二得分,融合相应的所述第一分词单元路径以及所述第二分词单元路径,得到最优当前路径;
汇总全部所述最优当前路径,得到所述最优分词路径。
可选地,所述根据当前已确定的所述第一得分以及所述第二得分,融合相应的所述第一分词单元路径以及所述第二分词单元路径,得到最优当前路径具体包括:
利用预设的相关领域的词典,分别判断当前已确定的所述第一分词路径以及所述第二分词路径中的分词是否与所述词典中的单词匹配;
如果当前已确定的所述第一分词路径以及所述第二分词路径中的分词均匹配到所述单词或者均与所述单词不匹配时,才以当前已确定的所述第一得分以及所述第二得分,融合相应的所述第一分词单元路径以及所述第二分词单元路径,得到所述最优当前路径;否则,以其中与所述单词匹配的分词所在的分词路径作为所述最优当前路径。
可选地,预先构建所述分词模型包括:
基于序列标注任务,以预设的深度学习网络结构建模;
通过大规模通用语料对所述分词模型进行训练;
通过相关领域语料对所述分词模型进行参数调节。
一种OCR识别纠错装置,包括:
分词序列获取模块,用于基于OCR识别结果,得到包含OCR分词标签的第一字符序列以及去除OCR分词标签的未分词字符序列;
分词序列预测模块,用于利用预先构建的分词模型对所述未分词字符序列进行分词,得到包含预测分词标签的第二字符序列,所述第一字符序列与所述第二字符序列具有相同的字符排序;
最优分词计算模块,用于根据所述第一字符序列以及所述第二字符序列,确定最优分词序列;
OCR纠错模块,用于利用所述最优分词序列替换所述识别结果。
可选地,所述最优分词计算模块包括:
第一分词路径确定单元,用于基于所述OCR分词标签确定所述第一字符序列的第一分词路径;
第二分词路径确定单元,用于基于所述预测分词标签确定所述第二字符序列的第二分词路径;
最优分词路径获取单元,用于根据所述第一分词路径以及所述第二分词路径,获取最优分词路径。
可选地,
所述第一分词路径包括:利用所述OCR分词标签中的起始标签和截止标签,依字符排序确定的所述第一字符序列中每个分词的第一分词单元路径;
所述第二分词路径包括:利用所述预测分词标签中的起始标签和截止标签,依字符排序确定的所述第二字符序列中每个分词的第二分词单元路径。
可选地,所述最优分词路径获取单元具体包括:
打分组件,用于在按照字符排序确定每个分词的路径过程中,利用预先构建的打分器分别且依次为所述第一分词单元路径以及所述第二分词单元路径打分,得到相应的第一得分和第二得分;
最优当前路径确定组件,用于只有当同一个字符对应的所述OCR分词标签以及所述预测分词标签均为截止标签时,根据当前已确定的所述第一得分以及所述第二得分,融合相应的所述第一分词单元路径以及所述第二分词单元路径,得到最优当前路径;
最优分词路径获取组件,用于汇总全部所述最优当前路径,得到所述最优分词路径。
可选地,所述最优当前路径确定组件具体包括:
词典匹配子组件,用于利用预设的相关领域的词典,分别判断当前已确定的所述第一分词路径以及所述第二分词路径中的分词是否与所述词典中的单词匹配;
最优当前路径确定子组件,用于如果当前已确定的所述第一分词路径以及所述第二分词路径中的分词均匹配到所述单词或者均与所述单词不匹配时,才以当前已确定的所述第一得分以及所述第二得分,融合相应的所述第一分词单元路径以及所述第二分词单元路径,得到所述最优当前路径;否则,以其中与所述单词匹配的分词所在的分词路径作为所述最优当前路径。
可选地,所述OCR识别纠错装置还包括分词模型构建模块;
所述分词模型构建模块具体包括:
建模单元,用于基于序列标注任务,以预设的深度学习网络结构建模;
训练单元,用于通过大规模通用语料对所述分词模型进行训练;
调参单元,用于通过相关领域语料对所述分词模型进行参数调节。
一种OCR识别纠错设备,包括:
存储器,用于存储计算机程序;
处理器,用于当执行所述计算机程序时,实现如上所述的OCR识别纠错方法。
本发明提出的OCR识别纠错方案,具体是基于OCR识别结果,得到OCR分词序列以及未分词序列,再利用特定的分词模型对未分词序列进行分词预测;之后既参考OCR的识别信息,又结合分词模型的预测结果,以此获得最优的分词切分方案,从而可以对OCR识别结果进行准确且合理的修正更新。本发明相比现有的分词方案,有效利用了OCR本身提供的关键的先验信息,因而具备更佳的分词纠错性能以及更为合理的资源利用率。
附图说明
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步描述,其中:
图1为本发明提供的OCR识别纠错方法的实施例的流程图;
图2为本发明提供的字符序列的实施例的示意图(一);
图3为本发明提供的字符序列的实施例的示意图(二);
图4为本发明提供的分词路径的实施例的局部示意图;
图5为本发明提供的获取最优分词路径的较佳实施例的流程图;
图6为本发明提供的OCR识别纠错装置的实施例的方框图。
附图标记说明:
1分词序列获取模块 2分词序列预测模块 3最优分词计算模块
4 OCR纠错模块
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
基于前文背景所述,为了便于具体实施方式的说明,本发明以英文为例,通常国内本领域在实施对英文分词进行纠错处理时,很大程度上借鉴了中文分词方法,而中文分词主要有如下两方面:
(1)基于字符串匹配的分词方法:该技术构思的核心思想是基于词典匹配,将待分词的中文文本根据一定规则切分和调整,然后与词典中的词语进行匹配,匹配成功则按照词典提供的标准词进行分词,匹配失败则通过调整或者重新选择,如此反复循环。实际操作中,例如基于正向最大匹配和基于逆向最大匹配及双向匹配法等。
(2)基于统计的机器学习算法:这类目前常用的算法是HMM、CRF、SVM、深度学习等算法,比如stanford、Hanlp分词工具是基于CRF算法。以具备较好的学习能力的CRF为例,处理思路是对汉字进行标注训练,过程中不仅考虑了词语出现的频率,还可以结合上下文进行识别处理,因此对于歧义词和未登录词的分辨具有较佳的处理效果。
但是从本领域的统计结果上看,无论基于上述何种分词构思,均未与OCR识别结果进行有效的结合,也就是说,现有技术的处理方式势必会造成OCR识别结果中关键信息的丢失。
据此,本发明提供了一种OCR识别纠错方法的实施例,如图1所示,本发明主要包括:
步骤S1、基于OCR识别结果,得到包含OCR分词标签的第一字符序列以及去除OCR分词标签的未分词字符序列;
在实际操作中,可以通过现有的方法或技术获得英文文字的OCR识别结果,再对上述识别结果进行格式转换;此过程可以视为预处理操作,预处理的目的是将OCR识别出的字符串转换成计算机可解读的数据结构,即将字符串格式转换成序列格式,例如将原来字符串中的空格等特殊符号去掉,以“there is a cat”为例,可以转换成序列“thereisacat”,并且本实施例提出转换后得到的是两个序列,如图2示意,包含OCR分词标签的第一字符序列以及去除OCR分词标签的未分词字符序列。其中第一字符序列是指OCR分词序列,也即是OCR识别后附带分词标注信息的结果,图示中OCR分词标签B、I、E、S分别代表词首、词中、词尾和单独成词,因而也可以理解为B属于起始标签,E或S属于截止标签;未分词字符序列即为转换后剔除OCR分词标注信息的字符序列。该步骤经由格式转换得到两组序列的目的是为了将本发明关注的问题转化为序列标注问题,也即是在一个统一的序列标注问题解决框架下继续执行后续处理。
步骤S2、利用预先构建的分词模型对未分词字符序列进行分词,得到包含预测分词标签的第二字符序列;
此步骤是将前述获得的未分词字符序列作为分词模型的输入,通过分词模型预测出该未分词字符序列中每个字符相应的预测分词标签,从而输出预测结果,如图3所示——第二字符序列。这里需说明两点,其一、显然,前述第一字符序列与此处的第二字符序列具有相同的字符排序,但分词标注信息可能存在差异;其二、这里所称分词模型仅为一种涵盖性质的指代,并不限定所采用的分词模型的结构和数量,换言之,可以在具体实施时将前述获得的未分词字符序列输入至多个不同的分词模型进行预测,从而可以得到多个不同的分词标签的预测结果,也即是得到多个所述“第二字符序列”,并不限于图3示出的一种分词方式,并且图3仅是示意性说明,并不表征分词模型的准确度。关于所述分词模型的构建,本发明提供了一种优选参考,将在后文中介绍。
步骤S3、根据第一字符序列以及第二字符序列,确定最优分词序列;
在实际操作中,本步骤的技术实质为选取最优的分词切分方式,即本实施例是将上述得到的第一字符序列和第二字符序列的选择问题转化为一个最优路径选择问题。具体地,可将第一字符序列和第二字符序列输入最优路径选择算法,同时处理上述字符序列:例如图4的局部示意图(仅基于前述图2和图3所示的两个字符序列,但此并非限定),可以基于所述OCR分词标签确定所述第一字符序列的第一分词路径(实线箭头),并基于所述预测分词标签确定所述第二字符序列的第二分词路径(虚线箭头),再根据所述第一分词路径以及所述第二分词路径,评价不同路径的分词效果的优劣,从而获取最优分词路径。具体可选的实施方式将在后文介绍。
步骤S4、利用最优分词序列替换OCR识别结果。
通过后处理格式转换,将上述得到的最优分词序列转化为字符串形式,替换OCR识别结果,即是经纠错修正处理后的最终的OCR分词结果。这里的格式转换可采用前文提及的由OCR识别结果转化为序列格式的反操作,此处不再赘述。
本发明提出的OCR识别纠错方案,具体是基于OCR识别结果,得到OCR分词序列以及未分词序列,再利用特定的分词模型对未分词序列进行分词预测;之后既参考OCR的识别信息,又结合分词模型的预测结果,以此获得最优的分词切分方案,从而可以对OCR识别结果进行准确且合理的修正更新。本发明相比现有的分词方案,有效利用了OCR本身提供的关键的先验信息,因而具备更佳的分词纠错性能以及更为合理的资源利用率。
前文所述的第一分词路径以及第二分词路径,可以是多个以“单词”(所切分的片段)为单位组合路径,也就是说,所述第一分词路径包括了利用所述OCR分词标签中的起始标签(如前文示意的B)和截止标签(如前文示意的E或S),依字符排序确定的所述第一字符序列中每个分词的第一分词单元路径;同理地,所述第二分词路径包括了利用所述预测分词标签中的起始标签(B)和截止标签(E或S),依字符排序确定的所述第二字符序列中每个分词的第二分词单元路径。这里所称“分词单元路径”用来表征所切分的单元片段,例如结合图4的局部示意,第一分词路径的构成包括“the re is a”四个第一分词单元路径,第二分词路径的构成包括“there isa”两个第二分词单元路径。
基于此,前述根据第一分词路径以及第二分词路径,获取最优分词路径的方法可以至少包括如下两种:
1、在按照字符排序确定每个分词的路径过程中,利用预先构建的打分器,分别且依次为所述第一分词单元路径以及所述第二分词单元路径打分,得到相应的第一得分和第二得分。这里所称第一得分是指每一个第一分词单元路径的得分,所称第二得分是指每一个第二分词单元路径的得分,该过程在实际操作中可以是以所划分的分词(或称“所切分的片段”)为单位,利用预先训练的打分器,例如语言模型等,为字符序列的首个字符(分词标签为B)至第一个分词标签为E的字符(当然,不一定是B到E,也可以是单独成词的S),即第一个分词的首字符到结尾字符之间的路径进行打分。
并且,只有当同一个字符对应的所述OCR分词标签以及所述预测分词标签均为截止标签时,例如图4所示的字符“e”对应的分词标签E,以及字符“a”对应的分词标签E和S,此时开始对当前路径的得分高低进行判定,换言之,即是当不同的多路序列在同一字符截止时,开始进行路径融合和遴选,最终目的是丢弃低分路径,保留一条当前高分路径。实现方式可以是根据当前已确定的所述第一得分以及所述第二得分,融合相应的所述第一分词单元路径以及所述第二分词单元路径,得到最优当前路径。以图4所示的字符“e”对应的分词标签E为例,可以将“the”的第一得分和“re”的第一得分累加求取均值,得到此两个第一分词单元路径的总分;并且,将第二分词单元路径“there”的第二得分与上述两个第一分词单元路径的总分进行比较,丢弃低分路径,即可得到最优当前路径。以此类推,最后汇总全部所述的最优当前路径,便得到所述最优分词路径,由此实施方式本领域技术人员可以理解的是,最终得到的最优分词路径可能是上述第一字符序列以及第二字符序列中的全部或部分分词单元路径,当然,在某些实施方式中也不排除可能是和两者均不相同的一条路径。
2、基于上述实施例及其优选方案,本发明考虑到仅依靠打分器为分词单元进行打分的方式较为单一,且对打分效率存在一定影响,为了进一步提升路径遴选的便捷性和可靠性,本发明还提供了一种优选的获取最优分词路径的方法,参考图5所示,在当且仅当同一个字符对应的所述OCR分词标签以及所述预测分词标签均为截止标签时:
步骤S100、利用预设的相关领域的词典,分别判断当前已确定的第一分词路径以及第二分词路径中的分词是否与词典中的单词匹配。
例如可以在与OCR所识别的目标文本相关的领域数据中选取出现频次较高的N-Gram词组建立N-Gram索引词典,其中N的取值可设为经验值,用于从已确定当前路径中选取一定数量的待匹配分词。
步骤S101、如果当前已确定的第一分词路径以及第二分词路径中的分词均匹配到所述单词或者均与所述单词不匹配时,执行步骤S102;否则,执行步骤S103。
步骤S102、以当前已确定的第一得分以及第二得分,融合相应的第一分词单元路径以及第二分词单元路径,得到所述最优当前路径;
上述步骤的含义是,所有字符序列的当前已得到分数的分词(可以是选取的N个分词)均匹配上词典中的单词或均不匹配词典中的单词,意味着此情况下词典的作用不高,因而可以回到前文提及的根据当前已确定的所述第一得分以及所述第二得分,融合相应的所述第一分词单元路径以及所述第二分词单元路径,得到最优当前路径,具体的实现方式不再赘述。
步骤S103、以其中与所述单词匹配的分词所在的分词路径作为最优当前路径。
上述步骤的含义是,至少一个字符序列的当前已得到分数的分词(可以是选取的N个分词)匹配上词典中的单词,并且除此之外的其他字符序列中至少一个字符序列的当前已得到分数的分词(可以是选取的N个分词)不匹配词典中的单词,意味着此情况下通过领域词典便可以迅速筛除未匹配的当前分词路径,而直接将匹配的分词路径作为最优当前路径。这里还需指出,如果是仅有一条路径与词典匹配,则无需考虑已得道的得分;但如果有多个字符序列的当前路径与词典匹配,则还可借助前述得分比对的方式,从多个匹配路径中确定最优当前路径。这里需补充的是,每一个判定过程的最终得分,都可参与到后续路径得分的判定,也即是可以为与词典匹配的当前路径额外设置加分,以突出其最优的分词效果,并便于与接近的得分拉开距离,对此本发明不作限定。
关于前文提及的分词模型的构建,本发明提供一种优选的训练方式,即基于前文所述的序列标注任务,以预设的深度学习网络结构建模,并通过大规模通用语料对所述分词模型先进行训练,之后再通过相关领域语料对所述分词模型进行参数调节。
具体而言,在本发明的优选方式中,可将深度学习技术运用在分词模型构建过程,通过预先建立的深度学习网络,以数据为驱动再结合诸如反向传播算法自动学习出最佳的特征。因为字符的前后关系对于分词的效果至关重要,所以此处,本发明还提出可定制化的通过BiLSTM+Multi-Task+CRF+Fine-tuning结构来完分词任务的建模,即实现对前述未分词字符序列的分词标签的预测。关于该特定的模型结构,可参考如下:
(1)Bi-LSTM:Bi-LSTM(双向长短期记忆网络)的基本思想是将两个LSTM(前向LSTM和后向LSTM)的输出向量串接起来作为该节点的特征表示。这样得到的特征表示既包含上文信息也包含下文信息。
(2)CRF:CRF(条件随机场)的优点就是能对隐含状态建模,学习状态序列的特点。CRF可以学习分词标签之间的关系,即是对整个隐含状态建模。
(3)Multi-Task:Multi-Task(多任务训练)只专注于单个模型可能会忽略的一些相关任务中能够提升目标任务的潜在信息,通过共享不同任务之间的参数,可以有效提高模型的抗噪能力,具有更好的泛化能力。本实施例中采用的Multi-Task方案是在对分词标签进行预测的同时,预测未分词字符序列的前一个字符和后一个字符。
(4)Fine-tuning:Fine-tuning(调参)的原因是,在实际场景中很难获得大规模的相关领域中具有针对性的语料数据,往往通用性的语料数据很容易获得。因此本实施例采用领域fine-tuning的方式去补充训练模型,即首先在大规模通用语料上训练通用的分词模型,然后在小规模的相关领域语料上进行fine-tuning,由此便可以得到针对于相关领域的高性能的分词模型。
综上四点,字符向量经过BiLSTM层后,将前后向LSTM的输出结果合并输出。BiLSTM的输出作为CRF的输入,这样就形成了BiLSTM-CRF结构。这种结构结合了BiLSTM和CRF的特点和优势:作为BiLSTM,它可以有效地保存整句的前后信息,提取句子中的特征信息,作为CRF,它能够利用上下文的信息,进行具有很高准确率的序列标注;并且,还采用Multi-Task的方式去增强模型的泛化能力,在预测字符分词标签的同时,也会把当前字符的上一个字符与下一个字符作为预测目标;训练阶段,在大规模语料上先训练出一个通用的分词模型,再在相关领域语料上进行fine-tuning,使模型进行领域自适应。这样,将前述未分词字符序列输入至由上述结构和训练方式得到的分词模型,就可以输出带有预测分词标签的第二字符序列。
相应于上述各实施例及优选方案,本发明还提供了一种OCR识别纠错装置的实施例,如图6所示,具体可以包括如下部件:
分词序列获取模块1,用于基于OCR识别结果,得到包含OCR分词标签的第一字符序列以及去除OCR分词标签的未分词字符序列;
分词序列预测模块2,用于利用预先构建的分词模型对所述未分词字符序列进行分词,得到包含预测分词标签的第二字符序列,所述第一字符序列与所述第二字符序列具有相同的字符排序;
最优分词计算模块3,用于根据所述第一字符序列以及所述第二字符序列,确定最优分词序列;
OCR纠错模块4,用于利用所述最优分词序列替换所述识别结果。
进一步地,所述最优分词计算模块包括:
第一分词路径确定单元,用于基于所述OCR分词标签确定所述第一字符序列的第一分词路径;
第二分词路径确定单元,用于基于所述预测分词标签确定所述第二字符序列的第二分词路径;
最优分词路径获取单元,用于根据所述第一分词路径以及所述第二分词路径,获取最优分词路径。
进一步地,
所述第一分词路径包括:利用所述OCR分词标签中的起始标签和截止标签,依字符排序确定的所述第一字符序列中每个分词的第一分词单元路径;
所述第二分词路径包括:利用所述预测分词标签中的起始标签和截止标签,依字符排序确定的所述第二字符序列中每个分词的第二分词单元路径。
进一步地,所述最优分词路径获取单元具体包括:
打分组件,用于在按照字符排序确定每个分词的路径过程中,利用预先构建的打分器分别且依次为所述第一分词单元路径以及所述第二分词单元路径打分,得到相应的第一得分和第二得分;
最优当前路径确定组件,用于只有当同一个字符对应的所述OCR分词标签以及所述预测分词标签均为截止标签时,根据当前已确定的所述第一得分以及所述第二得分,融合相应的所述第一分词单元路径以及所述第二分词单元路径,得到最优当前路径;
最优分词路径获取组件,用于汇总全部所述最优当前路径,得到所述最优分词路径。
进一步地,所述最优当前路径确定组件具体包括:
词典匹配子组件,用于利用预设的相关领域的词典,分别判断当前已确定的所述第一分词路径以及所述第二分词路径中的分词是否与所述词典中的单词匹配;
最优当前路径确定子组件,用于如果当前已确定的所述第一分词路径以及所述第二分词路径中的分词均匹配到所述单词或者均与所述单词不匹配时,才以当前已确定的所述第一得分以及所述第二得分,融合相应的所述第一分词单元路径以及所述第二分词单元路径,得到所述最优当前路径;否则,以其中与所述单词匹配的分词所在的分词路径作为所述最优当前路径。
进一步地,所述OCR识别纠错装置还包括分词模型构建模块;
所述分词模型构建模块具体包括:
建模单元,用于基于序列标注任务,以预设的深度学习网络结构建模;
训练单元,用于通过大规模通用语料对所述分词模型进行训练;
调参单元,用于通过相关领域语料对所述分词模型进行参数调节。
综合上述各实施例及其优选方案,本领域技术人员可以理解的是,在实际操作中,本发明适用于基于硬件载体的各种实施方案,本发明以下述硬件载体作为示意性说明:
(1)一种OCR识别纠错设备,其可以包括:
存储器,用于存储计算机程序或上述装置;
处理器,用于当执行计算机程序或上述装置时,实现上述OCR识别纠错方法。
(2)一种可读存储介质,在可读存储介质上存储有计算机程序或上述装置,当计算机程序或上述装置被执行时,实现上述OCR识别纠错方法。
(3)一种计算机程序产品(该产品可以包括上述装置),计算机程序产品在终端设备上运行时,使终端设备执行上述OCR识别纠错方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述计算机程序产品可以包括但不限于是指APP;上述可读存储介质可以是ROM/RAM、磁碟或光盘等;上述设备可以是一台计算机设备(例如手机、PC终端、云平台、服务器、服务器集群或者诸如媒体网关等网络通信设备等等)。并且,该设备的硬件结构还可以具体包括:至少一个处理器,至少一个通信接口,至少一个存储器和至少一个通信总线;处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中,处理器可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;存储器也可以是高速RAM存储器或非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器。
最后需说明,虽然上述装置实施例及优选方案的工作方式以及技术原理皆记载于前文,但仍需强调的是,该装置中各个部件实施例仍可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。可以把装置实施例中的模块或单元或组件等组合成一个模块或单元或组件,也可以把它们分成多个子模块或子单元或子组件予以实施。
以及,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,但以上仅为本发明的较佳实施例,需要言明的是,上述实施例及其优选方式所涉及的技术特征,本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下,合理地组合搭配成多种等效方案;因此,本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。
Claims (9)
1.一种OCR识别纠错方法,其特征在于,包括:
基于OCR识别结果,得到包含OCR分词标签的第一字符序列以及去除OCR分词标签的未分词字符序列;
利用预先构建的分词模型对所述未分词字符序列进行分词,得到包含预测分词标签的第二字符序列,所述第一字符序列与所述第二字符序列具有相同的字符排序;
根据所述第一字符序列以及所述第二字符序列,确定最优分词序列,包括:利用所述OCR分词标签中的起始标签和截止标签,依字符排序确定的所述第一字符序列中每个分词的第一分词单元路径;
利用所述预测分词标签中的起始标签和截止标签,依字符排序确定的所述第二字符序列中每个分词的第二分词单元路径;其中,分词单元路径用来表征所切分的单元片段,以第一分词单元路径中所切分的单元片段为单位组合为第一分词路径,以第二分词单元路径中所切分的单元片段为单位组合为第二分词路径;
在按照字符排序确定每个分词的路径过程中,利用预先构建的打分器分别且依次为所述第一分词单元路径以及所述第二分词单元路径打分,得到相应的第一得分和第二得分;
并且,只有当同一个字符对应的所述OCR分词标签以及所述预测分词标签均为截止标签时,根据当前已确定的所述第一得分以及所述第二得分,融合相应的所述第一分词单元路径以及所述第二分词单元路径,得到最优当前路径;
汇总全部所述最优当前路径,得到最优分词路径;
利用所述最优分词序列替换所述识别结果。
2.根据权利要求1所述的OCR识别纠错方法,其特征在于,所述根据当前已确定的所述第一得分以及所述第二得分,融合相应的所述第一分词单元路径以及所述第二分词单元路径,得到最优当前路径具体包括:
利用预设的相关领域的词典,分别判断当前已确定的所述第一分词路径以及所述第二分词路径中的分词是否与所述词典中的单词匹配;
如果当前已确定的所述第一分词路径以及所述第二分词路径中的分词均匹配到所述单词或者均与所述单词不匹配时,才以当前已确定的所述第一得分以及所述第二得分,融合相应的所述第一分词单元路径以及所述第二分词单元路径,得到所述最优当前路径;否则,以其中与所述单词匹配的分词所在的分词路径作为所述最优当前路径。
3.根据权利要求1~2任一项所述的OCR识别纠错方法,其特征在于,预先构建所述分词模型包括:
基于序列标注任务,以预设的深度学习网络结构建模;
通过大规模通用语料对所述分词模型进行训练;
通过相关领域语料对所述分词模型进行参数调节。
4.一种OCR识别纠错装置,其特征在于,包括:
分词序列获取模块,用于基于OCR识别结果,得到包含OCR分词标签的第一字符序列以及去除OCR分词标签的未分词字符序列;
分词序列预测模块,用于利用预先构建的分词模型对所述未分词字符序列进行分词,得到包含预测分词标签的第二字符序列,所述第一字符序列与所述第二字符序列具有相同的字符排序;
最优分词计算模块,用于根据所述第一字符序列以及所述第二字符序列,确定最优分词序列,包括:利用所述OCR分词标签中的起始标签和截止标签,依字符排序确定的所述第一字符序列中每个分词的第一分词单元路径;
利用所述预测分词标签中的起始标签和截止标签,依字符排序确定的所述第二字符序列中每个分词的第二分词单元路径;其中,分词单元路径用来表征所切分的单元片段,以第一分词单元路径中所切分的单元片段为单位组合为第一分词路径,以第二分词单元路径中所切分的单元片段为单位组合为第二分词路径;
在按照字符排序确定每个分词的路径过程中,利用预先构建的打分器分别且依次为所述第一分词单元路径以及所述第二分词单元路径打分,得到相应的第一得分和第二得分;
并且,只有当同一个字符对应的所述OCR分词标签以及所述预测分词标签均为截止标签时,根据当前已确定的所述第一得分以及所述第二得分,融合相应的所述第一分词单元路径以及所述第二分词单元路径,得到最优当前路径;
汇总全部所述最优当前路径,得到最优分词路径;
OCR纠错模块,用于利用所述最优分词序列替换所述识别结果。
5.根据权利要求4所述的OCR识别纠错装置,其特征在于,所述最优分词计算模块包括:
第一分词路径确定单元,用于基于所述OCR分词标签确定所述第一字符序列的第一分词路径;
第二分词路径确定单元,用于基于所述预测分词标签确定所述第二字符序列的第二分词路径;
最优分词路径获取单元,用于根据所述第一分词路径以及所述第二分词路径,获取最优分词路径。
6.根据权利要求5所述的OCR识别纠错装置,其特征在于,所述最优分词路径获取单元具体包括:
打分组件,用于在按照字符排序确定每个分词的路径过程中,利用预先构建的打分器分别且依次为所述第一分词单元路径以及所述第二分词单元路径打分,得到相应的第一得分和第二得分;
最优当前路径确定组件,用于只有当同一个字符对应的所述OCR分词标签以及所述预测分词标签均为截止标签时,根据当前已确定的所述第一得分以及所述第二得分,融合相应的所述第一分词单元路径以及所述第二分词单元路径,得到最优当前路径;
最优分词路径获取组件,用于汇总全部所述最优当前路径,得到所述最优分词路径。
7.根据权利要求6所述的OCR识别纠错装置,其特征在于,所述最优当前路径确定组件具体包括:
词典匹配子组件,用于利用预设的相关领域的词典,分别判断当前已确定的所述第一分词路径以及所述第二分词路径中的分词是否与所述词典中的单词匹配;
最优当前路径确定子组件,用于如果当前已确定的所述第一分词路径以及所述第二分词路径中的分词均匹配到所述单词或者均与所述单词不匹配时,才以当前已确定的所述第一得分以及所述第二得分,融合相应的所述第一分词单元路径以及所述第二分词单元路径,得到所述最优当前路径;否则,以其中与所述单词匹配的分词所在的分词路径作为所述最优当前路径。
8.根据权利要求4~7任一项所述的OCR识别纠错装置,其特征在于,所述OCR识别纠错装置还包括分词模型构建模块;
所述分词模型构建模块具体包括:
建模单元,用于基于序列标注任务,以预设的深度学习网络结构建模;
训练单元,用于通过大规模通用语料对所述分词模型进行训练;
调参单元,用于通过相关领域语料对所述分词模型进行参数调节。
9.一种OCR识别纠错设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于当执行所述计算机程序时,实现如权利要求1~3任一项所述的OCR识别纠错方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910955162.3A CN110751234B (zh) | 2019-10-09 | 2019-10-09 | Ocr识别纠错方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910955162.3A CN110751234B (zh) | 2019-10-09 | 2019-10-09 | Ocr识别纠错方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110751234A CN110751234A (zh) | 2020-02-04 |
CN110751234B true CN110751234B (zh) | 2024-04-16 |
Family
ID=69277831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910955162.3A Active CN110751234B (zh) | 2019-10-09 | 2019-10-09 | Ocr识别纠错方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110751234B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076739A (zh) * | 2021-04-09 | 2021-07-06 | 厦门快商通科技股份有限公司 | 一种实现跨领域的中文文本纠错方法和系统 |
CN113269192B (zh) * | 2021-05-24 | 2024-04-30 | 东南大学 | 一种基于词匹配和语法匹配的ocr后处理方法 |
CN113836912A (zh) * | 2021-09-08 | 2021-12-24 | 上海蜜度信息技术有限公司 | 语言模型和词库校正的序列标注分词方法、系统及装置 |
CN114694152B (zh) * | 2022-04-01 | 2023-03-24 | 江苏行声远科技有限公司 | 基于三源ocr结果的印刷文本可信度融合方法及装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08315078A (ja) * | 1995-05-15 | 1996-11-29 | Nippon Telegr & Teleph Corp <Ntt> | 日本語文字認識方法及び装置 |
CN101082908A (zh) * | 2007-06-26 | 2007-12-05 | 腾讯科技(深圳)有限公司 | 一种中文分词方法及系统 |
CN101430680A (zh) * | 2008-12-31 | 2009-05-13 | 阿里巴巴集团控股有限公司 | 一种无词边界标记语言文本的分词序列选择方法及系统 |
WO2014206151A1 (en) * | 2013-06-24 | 2014-12-31 | Tencent Technology (Shenzhen) Company Limited | System and method for tagging and searching documents |
CN106407236A (zh) * | 2015-08-03 | 2017-02-15 | 北京众荟信息技术有限公司 | 一种面向点评数据的情感倾向性检测方法 |
CN107807910A (zh) * | 2017-10-10 | 2018-03-16 | 昆明理工大学 | 一种基于hmm的词性标注方法 |
CN107832447A (zh) * | 2017-11-22 | 2018-03-23 | 北京百度网讯科技有限公司 | 用于移动终端的用户反馈纠错方法、装置及其设备 |
CN108986910A (zh) * | 2018-07-04 | 2018-12-11 | 平安科技(深圳)有限公司 | 线上问答方法、装置、计算机设备和存储介质 |
CN109190124A (zh) * | 2018-09-14 | 2019-01-11 | 北京字节跳动网络技术有限公司 | 用于分词的方法和装置 |
CN109388806A (zh) * | 2018-10-26 | 2019-02-26 | 北京布本智能科技有限公司 | 一种基于深度学习及遗忘算法的中文分词方法 |
CN109918665A (zh) * | 2019-03-05 | 2019-06-21 | 湖北亿咖通科技有限公司 | 文本的分词方法、装置和电子设备 |
CN109992766A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 提取目标词的方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133622B (zh) * | 2016-02-29 | 2022-08-26 | 阿里巴巴集团控股有限公司 | 一种单词的分割方法和装置 |
-
2019
- 2019-10-09 CN CN201910955162.3A patent/CN110751234B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08315078A (ja) * | 1995-05-15 | 1996-11-29 | Nippon Telegr & Teleph Corp <Ntt> | 日本語文字認識方法及び装置 |
CN101082908A (zh) * | 2007-06-26 | 2007-12-05 | 腾讯科技(深圳)有限公司 | 一种中文分词方法及系统 |
CN101430680A (zh) * | 2008-12-31 | 2009-05-13 | 阿里巴巴集团控股有限公司 | 一种无词边界标记语言文本的分词序列选择方法及系统 |
WO2014206151A1 (en) * | 2013-06-24 | 2014-12-31 | Tencent Technology (Shenzhen) Company Limited | System and method for tagging and searching documents |
CN106407236A (zh) * | 2015-08-03 | 2017-02-15 | 北京众荟信息技术有限公司 | 一种面向点评数据的情感倾向性检测方法 |
CN107807910A (zh) * | 2017-10-10 | 2018-03-16 | 昆明理工大学 | 一种基于hmm的词性标注方法 |
CN107832447A (zh) * | 2017-11-22 | 2018-03-23 | 北京百度网讯科技有限公司 | 用于移动终端的用户反馈纠错方法、装置及其设备 |
CN109992766A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 提取目标词的方法和装置 |
CN108986910A (zh) * | 2018-07-04 | 2018-12-11 | 平安科技(深圳)有限公司 | 线上问答方法、装置、计算机设备和存储介质 |
CN109190124A (zh) * | 2018-09-14 | 2019-01-11 | 北京字节跳动网络技术有限公司 | 用于分词的方法和装置 |
CN109388806A (zh) * | 2018-10-26 | 2019-02-26 | 北京布本智能科技有限公司 | 一种基于深度学习及遗忘算法的中文分词方法 |
CN109918665A (zh) * | 2019-03-05 | 2019-06-21 | 湖北亿咖通科技有限公司 | 文本的分词方法、装置和电子设备 |
Non-Patent Citations (2)
Title |
---|
martin volk et al..Strategies for reducing and correcting OCR errors.《language technology for cultural heritage》.2011,第3-22页. * |
甘蓉 ; .中文分词交叉型歧义消解算法.西华大学学报(自然科学版).2018,(第06期),第38-42页. * |
Also Published As
Publication number | Publication date |
---|---|
CN110751234A (zh) | 2020-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751234B (zh) | Ocr识别纠错方法、装置及设备 | |
CN108763510B (zh) | 意图识别方法、装置、设备及存储介质 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN110781663B (zh) | 文本分析模型的训练方法及装置、文本分析方法及装置 | |
CN108710704B (zh) | 对话状态的确定方法、装置、电子设备及存储介质 | |
CN111090727B (zh) | 语言转换处理方法、装置及方言语音交互系统 | |
CN110750993A (zh) | 分词方法及分词器、命名实体识别方法及系统 | |
CN110717331A (zh) | 一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质 | |
CN103678271B (zh) | 一种文本校正方法及用户设备 | |
CN114818891B (zh) | 小样本多标签文本分类模型训练方法及文本分类方法 | |
CN114065738B (zh) | 基于多任务学习的中文拼写纠错方法 | |
CN111476031A (zh) | 一种基于Lattice-LSTM的改进中文命名实体识别方法 | |
CN114022737A (zh) | 对训练数据集进行更新的方法和设备 | |
CN113282701A (zh) | 作文素材生成方法、装置、电子设备及可读存储介质 | |
CN112069818A (zh) | 三元组预测模型生成方法、关系三元组提取方法和装置 | |
CN114611625A (zh) | 语言模型训练、数据处理方法、装置、设备、介质及产品 | |
CN115017987A (zh) | 语言模型微调方法、文本分类方法、装置及设备 | |
CN113420766B (zh) | 一种融合语言信息的低资源语种ocr方法 | |
CN111782773B (zh) | 基于级连模式的文本匹配方法及装置 | |
CN114254077A (zh) | 一种基于自然语言对稿件完整性的评估方法 | |
CN115688703A (zh) | 一种特定领域文本纠错方法、存储介质和装置 | |
CN111104806A (zh) | 神经机器翻译模型的构建方法及装置、翻译方法及装置 | |
CN114580391A (zh) | 中文错误检测模型训练方法、装置、设备及存储介质 | |
CN115221284A (zh) | 文本相似度的计算方法、装置、电子设备及存储介质 | |
CN115130475A (zh) | 一种可扩展的通用端到端命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |