CN109582972A - 一种基于自然语言识别的光学字符识别纠错方法 - Google Patents
一种基于自然语言识别的光学字符识别纠错方法 Download PDFInfo
- Publication number
- CN109582972A CN109582972A CN201811614216.1A CN201811614216A CN109582972A CN 109582972 A CN109582972 A CN 109582972A CN 201811614216 A CN201811614216 A CN 201811614216A CN 109582972 A CN109582972 A CN 109582972A
- Authority
- CN
- China
- Prior art keywords
- word
- result
- matching
- character string
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开一种基于自然语言识别的光学字符识别纠错方法,该纠错方法将词法分析模型和语义分析模型进行融合,得到融合模型,并用该融合模型获得高精度的光学字符识别结果。该模型考虑了中文字符在词法模型的特点,同时考虑了中文句法语义的上下文关系等显著特征来修正光学字符识别结果,提高了模型精度。
Description
技术领域
本发明涉及图像文字识别领域,具体涉及一种基于自然语言识别的光学字符识别纠错方法。
背景技术
基于OCR的针对金融领域文字区域检测定位识别技术是指通过计算机等设备,利用OCR技术(光学字符识别)将纸质材料中的有效信息自动提取和识别出来,并进行相应处理。它是实现银行无纸化的计算机自动处理的关键技术之一。而传统的图像文字识别为光学文字识别(OCR),光学文字识别在将待识别纸质文件扫描成电子图像的基础上进行识别。但是考虑到扫描效果的好坏、纸质文件本身的品质(别如印刷质量、字体清晰度,字体规范度等)、内容布局(文字的排列情况,比普通文本与表格文本和票据)的差异,OCR的实际效果不总是让人满意。而针对不同的纸质文档的识别准确率的要求有差异,比如票据的识别,对准确率的要求是非常高的,因为如果一个数字识别错误就可能导致致命的后果,传统的OCR识别不能满足这样高精度的识别要求。面对巨大的识别需要急需能够快速高效的图像文字识别方法。现有的技术方案都没有利用自身规律对错误数据实施检查和纠正。
发明内容
本发明根据所要识别OCR字符集的已知完整集合,针对OCR软件从图像中提取出的字符串提出一种检错与纠错的方法,目的在于辅助OCR软件检查出识别结果中的错误数据并对这些错误数据实施纠正,基于字典搜索的纠错策略,以提高文字识别精度,从而提高识别结果的准确率。OCR软件从图像中提取出的这些字符串的纠错修改结果记为OCR最终识别结果。
本发明的目的是通过下述技术方案来实现的:
一种基于自然语言识别的光学字符识别纠错方法,其特征在于,该方法包括如下步骤:
S1:获取文字图像;
S2:所述文字图像经过ocr识别获得初始的识别结果;
S3:构建语料库;
S4:将初始的识别结果通过基于自然语言识别的方法进行后处理,该方法分为词法匹配和语法匹配两个步骤,具体如下:
S4.1:将初始的识别结果以固定长度按双向最大匹配的方式进行切分,当进行正向最大匹配时,从左向右取待切分中文字串的4-2个字符作为匹配字段,查找语料库并进行匹配,若匹配成功,则将这个匹配字段作为一个词切割出来;若匹配不成功,记录相似度分数较大的前k个词和相似度分数,然后将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切割出全部词为止;当进行逆向最大匹配时,从右向左取待切分中文字串的4-2个字符作为匹配字段,查找语料库并进行匹配,若匹配成功,则将这个匹配字段作为一个词切割出来;若匹配不成功,记录最大相似度分数和对应的词,然后将这个匹配字段的最前一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切割出全部词为止;当正反向切割结果相同时,则输出任意一种切割结果;当正反向切割结果不同时,则输出孤立字较少的那个切割结果,从而将初始的识别结果转化成一个等长的中文字串集合;
S4.2:计算S4.1得到的每个等长的中文字串集合的相似度分数,选取相似度分数最高的作为切割的结果,但当相似度分数最高的中文字串集合不止一个时,优选窗口长度大的字符串作为切割的位置;
S4.3:设置相似度分数阈值,当等长的中文字串集合的相似度分数小于或等于阈值时,不作处理;当等长的中文字串集合的相似度分数大于阈值时,比较匹配后的结果与初始的识别结果的长度,当匹配后的结果大于初始的识别结果时,则用长度最长的匹配后的结果覆盖初始的识别结果;当匹配后的结果部分重叠但未全部覆盖初始的识别结果时,则输出相似度最高的匹配后的结果;从而将初始的识别结果分割成一些确定的词、不确定的词和孤立的字三个部分,三者互不重叠,共同组成词法匹配后的识别结果;
S4.4:将所述的词法匹配后的识别结果进行语法匹配,使得满足must-link关系的中文字串大于该关系中设定的阈值,满足cannot-link关系的中文字串小于该关系中设定的阈值,则进行替换;相反,则不进行替换;
S5:对S4中已经被替换的词的位置进行标记,输出OCR识别结果。
进一步地,所述的S4.1和S4.4中的中文字串与语料库匹配时所检查的项目有数名、个体量词、度量词、容器量词、集体量词、种类量词、不定量词、动时量、前名、后名、前接、前代、后接、后代。
进一步地,所述的语料库来源于搜索引擎bing的常见词列表。
进一步地,所述的S4具体为:
文本行首先被划分为单独的单词ωi,对于每一个ωi,原始识别结果ξ(ωi),将ξ(ωi)与语料库中的所有单词进行匹配,搜索与ξ(ωi)相似度前k高的单词集合η(ωi),相似度分别记为sη(ωi);
对单词不在字典中的情况,设置阈值τ;如果相似度sη(ωi)和小于τ,则η(ωi)进行n元语法纠错之后的字符串取代,此时sη(ωi)设为常数;
对于一个由N个单词组成的文本行L,L={ωi|i=1,2,...,N},词法的总相似度S(L)定义为:
句法的总相似度ψ(L)定义为:
那么优化函数为F=ψ(L)+S(L),最大化F时对应的η(ωi)即为目标所求,则最终的识别结果为:
S*=argmaxηF。
进一步地,所述的S4.1中相似度的定义具体为:
其中,ω为待查询词,为字典中的单词,为ω与之间的距离,为ω和在字典中的相对排名,λ为控制参数λ∈[0,1],同样地,语义相关性的定义具体为:
其中,w,w′为句子中顺序前后两个单词,为w与w′在语料词典中的位置距离。
本发明的有益效果:
(1)本发明的纠错方法不仅与字典中的词进行对比,还利用单词在句子中的上下文关系来计算;
(2)该方法定义适应的字符替换代价,不是一次就确定最终结果,而是留下k个高概率候选词作为参考;
(3)该方法利用了输入语句的上下文语义关系,克服了孤立字符和单词难确定结果的问题。
附图说明
图1为本发明的基于自然语言识别的光学字符识别纠错方法的流程图。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,一种基于字典的光学字符识别纠错方法,其特征在于,该方法包括如下步骤:
S1:获取文字图像;
S2:所述文字图像经过ocr识别获得初始的识别结果;
S3:构建字典;
这里的字典来源于搜索引擎bing的常见词列表,该列表包含搜索引擎的用户经常使用的1000000个关键词,由微软网络N语法服务项目提供。不同于传统的字典,该列表中的单词是按照用户搜索的频度从高到低排列的,这种排列顺序也包含额外的有用信息,可以用来提升纠错算法的性能。
S4:将初始的识别结果通过基于自然语言识别的方法进行后处理,该方法分为词法匹配和语法匹配两个步骤,具体如下:
S4.1:将初始的识别结果以固定长度按双向最大匹配的方式进行切分,当进行正向最大匹配时,从左向右取待切分中文字串的4-2个字符作为匹配字段,查找语料库并进行匹配,若匹配成功,则将这个匹配字段作为一个词切割出来;若匹配不成功,记录相似度分数较大的前k个词和相似度分数,然后将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切割出全部词为止;当进行逆向最大匹配时,从右向左取待切分中文字串的4-2个字符作为匹配字段,查找语料库并进行匹配,若匹配成功,则将这个匹配字段作为一个词切割出来;若匹配不成功,记录最大相似度分数和对应的词,然后将这个匹配字段的最前一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切割出全部词为止;当正反向切割结果相同时,则输出任意一种切割结果;当正反向切割结果不同时,则输出孤立字较少的那个切割结果,从而将初始的识别结果转化成一个等长的中文字串集合;
所述的S4.1中相似度的定义具体为:
其中,ω为待查询词,为字典中的单词,为ω与之间的距离,为ω和在字典中的相对排名,λ为控制参数λ∈[0,1];
S4.2:计算S4.1得到的每个等长的中文字串集合的相似度分数,选取相似度分数最高的作为切割的结果,但当相似度分数最高的中文字串集合不止一个时,优选窗口长度大的字符串作为切割的位置;
S4.3:设置相似度分数阈值,当等长的中文字串集合的相似度分数小于或等于阈值时,不作处理;当等长的中文字串集合的相似度分数大于阈值时,比较匹配后的结果与初始的识别结果的长度,当匹配后的结果大于初始的识别结果时,则用长度最长的匹配后的结果覆盖初始的识别结果;当匹配后的结果部分重叠但未全部覆盖初始的识别结果时,则输出相似度最高的匹配后的结果;从而将初始的识别结果分割成一些确定的词、不确定的词和孤立的字三个部分,三者互不重叠,共同组成词法匹配后的识别结果。
在完成词法分析后,语法匹配技术可以将孤立的字词进行处理。语法匹配技术需要相应的语料库作为基础,以待分析的词为中心,通过上下文进行语法匹配检查来识别待识别字词。句子越通顺,上下文关系越紧密,代价接近于0;相反,如果上下文语义出现跳变,则产生相应的代价。在这种情况下,需要权衡词法的结果与语义的结果。
S4.4:将所述的词法匹配后的识别结果进行语法匹配,使得满足must-link关系的中文字串大于该关系中设定的阈值,满足cannot-link关系的中文字串小于该关系中设定的阈值,则进行替换;相反,则不进行替换;
语义相关性的定义具体为:
其中,w,w′为句子中顺序前后两个单词,为w与w′在语料词典中的位置距离。
所述的S4具体为:
文本行首先被划分为单独的单词ωi,对于每一个ωi,原始识别结果ξ(ωi),将ξ(ωi)与语料库中的所有单词进行匹配,搜索与ξ(ωi)相似度前k高的单词集合η(ωi),相似度分别记为sη(ωi);
对单词不在字典中的情况,设置阈值τ;如果相似度sη(ωi)和小于τ,则η(ωi)进行n元语法纠错之后的字符串取代,此时sη(ωi)设为常数;
对于一个由N个单词组成的文本行L,L={ωi|i=1,2,...,N},词法的总相似度S(L)定义为:
句法的总相似度ψ(L)定义为:
那么优化函数为F=ψ(L)+S(L),最大化F时对应的η(ωi)即为目标所求,则最终的识别结果为:
S*=argmaxηF。
S5:对S4中已经被替换的词的位置进行标记,输出OCR识别结果。
优选地,所述的S4.1和S4.4中的中文字串与语料库匹配时所检查的项目有数名、个体量词、度量词、容器量词、集体量词、种类量词、不定量词、动时量、前名、后名、前接、前代、后接、后代。
本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。
Claims (5)
1.一种基于自然语言识别的光学字符识别纠错方法,其特征在于,该方法包括如下步骤:
S1:获取文字图像;
S2:所述文字图像经过ocr识别获得初始的识别结果;
S3:构建语料库;
S4:将初始的识别结果通过基于自然语言识别的方法进行后处理,该方法分为词法匹配和语法匹配两个步骤,具体如下:
S4.1:将初始的识别结果以固定长度按双向最大匹配的方式进行切分,当进行正向最大匹配时,从左向右取待切分中文字串的4-2个字符作为匹配字段,查找语料库并进行匹配,若匹配成功,则将这个匹配字段作为一个词切割出来;若匹配不成功,记录相似度分数较大的前k个词和相似度分数,然后将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切割出全部词为止;当进行逆向最大匹配时,从右向左取待切分中文字串的4-2个字符作为匹配字段,查找语料库并进行匹配,若匹配成功,则将这个匹配字段作为一个词切割出来;若匹配不成功,记录最大相似度分数和对应的词,然后将这个匹配字段的最前一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切割出全部词为止;当正反向切割结果相同时,则输出任意一种切割结果;当正反向切割结果不同时,则输出孤立字较少的那个切割结果,从而将初始的识别结果转化成一个等长的中文字串集合;
S4.2:计算S4.1得到的每个等长的中文字串集合的相似度分数,选取相似度分数最高的作为切割的结果,但当相似度分数最高的中文字串集合不止一个时,优选窗口长度大的字符串作为切割的位置;
S4.3:设置相似度分数阈值,当等长的中文字串集合的相似度分数小于或等于阈值时,不作处理;当等长的中文字串集合的相似度分数大于阈值时,比较匹配后的结果与初始的识别结果的长度,当匹配后的结果大于初始的识别结果时,则用长度最长的匹配后的结果覆盖初始的识别结果;当匹配后的结果部分重叠但未全部覆盖初始的识别结果时,则输出相似度最高的匹配后的结果;从而将初始的识别结果分割成一些确定的词、不确定的词和孤立的字三个部分,三者互不重叠,共同组成词法匹配后的识别结果;
S4.4:将所述的词法匹配后的识别结果进行语法匹配,使得满足must-link关系的中文字串大于该关系中设定的阈值,满足cannot-link关系的中文字串小于该关系中设定的阈值,则赋予权重后进行替换;相反,则不进行替换;
S5:对S4中已经被替换的词的位置进行标记,输出OCR识别结果。
2.根据权利要求1所述的方法,其特征在于,所述的S4.1和S4.4中的中文字串与语料库匹配时所检查的项目有数名、个体量词、度量词、容器量词、集体量词、种类量词、不定量词、动时量、前名、后名、前接、前代、后接、后代。
3.根据权利要求1所述的方法,其特征在于,所述的语料库来源于搜索引擎bing的常见词列表。
4.根据权利要求1所述的方法,其特征在于,所述的S4具体为:
文本行首先被划分为单独的单词ωi,对于每一个ωi,原始识别结果ξ(ωi),将ξ(ωi)与语料库中的所有单词进行匹配,搜索与ξ(ωi)相似度前k高的单词集合η(ωi),相似度分别记为sη(ωi);
对单词不在字典中的情况,设置阈值τ;如果相似度sη(ωi)和小于τ,则η(ωi)进行n元语法纠错之后的字符串取代,此时sη(ωi)设为常数;
对于一个由N个单词组成的文本行L,L={ωi|i=1,2,...,N},词法的总相似度S(L)定义为:
句法的总相似度ψ(L)定义为:
那么优化函数为F=ψ(L)+S(L),最大化F时对应的η(ωi)即为目标所求,则最终的识别结果为:
S*=argmaxηF。
5.根据权利要求1所述的方法,所述的S4.1中相似度的定义具体为:
其中,ω为待查询词,为字典中的单词,为ω与之间的距离,为ω和在字典中的相对排名,λ为控制参数λ∈[0,1],同样地,语义相关性的定义具体为:
其中,w,w′为句子中顺序前后两个单词,为w与w′在语料词典中的位置距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811614216.1A CN109582972B (zh) | 2018-12-27 | 2018-12-27 | 一种基于自然语言识别的光学字符识别纠错方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811614216.1A CN109582972B (zh) | 2018-12-27 | 2018-12-27 | 一种基于自然语言识别的光学字符识别纠错方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109582972A true CN109582972A (zh) | 2019-04-05 |
CN109582972B CN109582972B (zh) | 2023-05-16 |
Family
ID=65933122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811614216.1A Active CN109582972B (zh) | 2018-12-27 | 2018-12-27 | 一种基于自然语言识别的光学字符识别纠错方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109582972B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110096257A (zh) * | 2019-04-10 | 2019-08-06 | 沈阳哲航信息科技有限公司 | 一种基于智能识别的设计图形自动化评判系统及方法 |
CN110472701A (zh) * | 2019-08-14 | 2019-11-19 | 广东小天才科技有限公司 | 文字纠错方法、装置、电子设备和存储介质 |
CN110765996A (zh) * | 2019-10-21 | 2020-02-07 | 北京百度网讯科技有限公司 | 文本信息处理方法及装置 |
CN111062376A (zh) * | 2019-12-18 | 2020-04-24 | 厦门商集网络科技有限责任公司 | 基于光学字符识别与纠错紧耦合处理的文本识别方法 |
CN111144391A (zh) * | 2019-12-23 | 2020-05-12 | 北京爱医生智慧医疗科技有限公司 | 一种ocr识别结果纠错方法及装置 |
CN111368918A (zh) * | 2020-03-04 | 2020-07-03 | 拉扎斯网络科技(上海)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN111581952A (zh) * | 2020-05-20 | 2020-08-25 | 长沙理工大学 | 一种用于自然语言信息隐藏的大规模可替换词词库构建方法 |
CN111738251A (zh) * | 2020-08-26 | 2020-10-02 | 北京智源人工智能研究院 | 一种融合语言模型的光学字符识别方法、装置和电子设备 |
CN111967246A (zh) * | 2020-07-30 | 2020-11-20 | 湖南大学 | 一种购物票据识别结果纠错方法 |
CN112084979A (zh) * | 2020-09-14 | 2020-12-15 | 武汉轻工大学 | 食品成分识别方法、装置、设备及存储介质 |
WO2021042527A1 (zh) * | 2019-09-06 | 2021-03-11 | 平安科技(深圳)有限公司 | 字符识别方法、装置及计算机可读存储介质 |
CN112541501A (zh) * | 2020-12-18 | 2021-03-23 | 北京中科研究院 | 一种基于视觉语言建模网络的场景文字识别方法 |
CN113269192A (zh) * | 2021-05-24 | 2021-08-17 | 东南大学 | 一种基于词匹配和语法匹配的ocr后处理方法 |
CN114078254A (zh) * | 2022-01-07 | 2022-02-22 | 华中科技大学同济医学院附属协和医院 | 一种基于机器人的智能数据采集系统 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1204811A (zh) * | 1998-08-13 | 1999-01-13 | 英业达股份有限公司 | 汉语语句切分的方法及其系统 |
US20060200336A1 (en) * | 2005-03-04 | 2006-09-07 | Microsoft Corporation | Creating a lexicon using automatic template matching |
CN101009747A (zh) * | 2007-01-10 | 2007-08-01 | 刘强 | 基于多种ocr方案组合校验以准确提取数字的方法 |
CN101071420A (zh) * | 2007-06-22 | 2007-11-14 | 腾讯科技(深圳)有限公司 | 一种切分索引分词的方法及系统 |
CN101295293A (zh) * | 2007-04-29 | 2008-10-29 | 摩托罗拉公司 | 用于对表意字符的输入字符串进行自动纠错的方法 |
CN101329731A (zh) * | 2008-06-06 | 2008-12-24 | 南开大学 | 图像中数学公式的自动识别方法 |
JP2010140204A (ja) * | 2008-12-10 | 2010-06-24 | Sharp Corp | 文字認識装置、文字認識方法、文字認識プログラムおよび記録媒体 |
CN102467664A (zh) * | 2010-11-01 | 2012-05-23 | 航天信息股份有限公司 | 辅助光学字符识别的方法和装置 |
CN102880302A (zh) * | 2012-07-17 | 2013-01-16 | 重庆优腾信息技术有限公司 | 一种基于多词连续输入的字词识别方法、装置和系统 |
CN103902993A (zh) * | 2012-12-28 | 2014-07-02 | 佳能株式会社 | 文档图像识别方法和设备 |
CN104199826A (zh) * | 2014-07-24 | 2014-12-10 | 北京大学 | 一种基于关联分析的异构媒体相似性计算方法和检索方法 |
CN105654129A (zh) * | 2015-12-30 | 2016-06-08 | 成都数联铭品科技有限公司 | 一种光学文字序列识别方法 |
CN105912607A (zh) * | 2016-04-06 | 2016-08-31 | 普强信息技术(北京)有限公司 | 一种基于文法规则的分类方法 |
CN106650715A (zh) * | 2016-10-26 | 2017-05-10 | 西安电子科技大学 | 一种根据允许集对字符串ocr识别结果检错与纠错的方法 |
CN107220639A (zh) * | 2017-04-14 | 2017-09-29 | 北京捷通华声科技股份有限公司 | Ocr识别结果的纠正方法和装置 |
-
2018
- 2018-12-27 CN CN201811614216.1A patent/CN109582972B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1204811A (zh) * | 1998-08-13 | 1999-01-13 | 英业达股份有限公司 | 汉语语句切分的方法及其系统 |
US20060200336A1 (en) * | 2005-03-04 | 2006-09-07 | Microsoft Corporation | Creating a lexicon using automatic template matching |
CN101009747A (zh) * | 2007-01-10 | 2007-08-01 | 刘强 | 基于多种ocr方案组合校验以准确提取数字的方法 |
CN101295293A (zh) * | 2007-04-29 | 2008-10-29 | 摩托罗拉公司 | 用于对表意字符的输入字符串进行自动纠错的方法 |
CN101071420A (zh) * | 2007-06-22 | 2007-11-14 | 腾讯科技(深圳)有限公司 | 一种切分索引分词的方法及系统 |
CN101329731A (zh) * | 2008-06-06 | 2008-12-24 | 南开大学 | 图像中数学公式的自动识别方法 |
JP2010140204A (ja) * | 2008-12-10 | 2010-06-24 | Sharp Corp | 文字認識装置、文字認識方法、文字認識プログラムおよび記録媒体 |
CN102467664A (zh) * | 2010-11-01 | 2012-05-23 | 航天信息股份有限公司 | 辅助光学字符识别的方法和装置 |
CN102880302A (zh) * | 2012-07-17 | 2013-01-16 | 重庆优腾信息技术有限公司 | 一种基于多词连续输入的字词识别方法、装置和系统 |
CN103902993A (zh) * | 2012-12-28 | 2014-07-02 | 佳能株式会社 | 文档图像识别方法和设备 |
CN104199826A (zh) * | 2014-07-24 | 2014-12-10 | 北京大学 | 一种基于关联分析的异构媒体相似性计算方法和检索方法 |
CN105654129A (zh) * | 2015-12-30 | 2016-06-08 | 成都数联铭品科技有限公司 | 一种光学文字序列识别方法 |
CN105912607A (zh) * | 2016-04-06 | 2016-08-31 | 普强信息技术(北京)有限公司 | 一种基于文法规则的分类方法 |
CN106650715A (zh) * | 2016-10-26 | 2017-05-10 | 西安电子科技大学 | 一种根据允许集对字符串ocr识别结果检错与纠错的方法 |
CN107220639A (zh) * | 2017-04-14 | 2017-09-29 | 北京捷通华声科技股份有限公司 | Ocr识别结果的纠正方法和装置 |
Non-Patent Citations (4)
Title |
---|
ALFIRNA 等: ""Cosine similarity to determine similarity measure: Study case in online essay assessment"", 《2016 4TH INTERNATIONAL CONFERENCE ON CYBER AND IT SERVICE MANAGEMENT》 * |
JIE MEI 等: ""Statistical Learning for OCR Text Correction"", 《ARXIV》 * |
张野: ""数据流查询语言中语法分析器的设计"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
李蓉: ""一个用于OCR输出的中文文本的拼写校对系统"", 《中文信息学报》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110096257A (zh) * | 2019-04-10 | 2019-08-06 | 沈阳哲航信息科技有限公司 | 一种基于智能识别的设计图形自动化评判系统及方法 |
CN110472701A (zh) * | 2019-08-14 | 2019-11-19 | 广东小天才科技有限公司 | 文字纠错方法、装置、电子设备和存储介质 |
WO2021042527A1 (zh) * | 2019-09-06 | 2021-03-11 | 平安科技(深圳)有限公司 | 字符识别方法、装置及计算机可读存储介质 |
CN110765996A (zh) * | 2019-10-21 | 2020-02-07 | 北京百度网讯科技有限公司 | 文本信息处理方法及装置 |
CN110765996B (zh) * | 2019-10-21 | 2022-07-29 | 北京百度网讯科技有限公司 | 文本信息处理方法及装置 |
CN111062376A (zh) * | 2019-12-18 | 2020-04-24 | 厦门商集网络科技有限责任公司 | 基于光学字符识别与纠错紧耦合处理的文本识别方法 |
CN111144391A (zh) * | 2019-12-23 | 2020-05-12 | 北京爱医生智慧医疗科技有限公司 | 一种ocr识别结果纠错方法及装置 |
CN111144391B (zh) * | 2019-12-23 | 2023-05-09 | 北京爱医生智慧医疗科技有限公司 | 一种ocr识别结果纠错方法及装置 |
CN111368918A (zh) * | 2020-03-04 | 2020-07-03 | 拉扎斯网络科技(上海)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN111368918B (zh) * | 2020-03-04 | 2024-01-05 | 拉扎斯网络科技(上海)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN111581952A (zh) * | 2020-05-20 | 2020-08-25 | 长沙理工大学 | 一种用于自然语言信息隐藏的大规模可替换词词库构建方法 |
CN111581952B (zh) * | 2020-05-20 | 2023-10-03 | 长沙理工大学 | 一种用于自然语言信息隐藏的大规模可替换词词库构建方法 |
CN111967246A (zh) * | 2020-07-30 | 2020-11-20 | 湖南大学 | 一种购物票据识别结果纠错方法 |
CN111738251B (zh) * | 2020-08-26 | 2020-12-04 | 北京智源人工智能研究院 | 一种融合语言模型的光学字符识别方法、装置和电子设备 |
CN111738251A (zh) * | 2020-08-26 | 2020-10-02 | 北京智源人工智能研究院 | 一种融合语言模型的光学字符识别方法、装置和电子设备 |
CN112084979A (zh) * | 2020-09-14 | 2020-12-15 | 武汉轻工大学 | 食品成分识别方法、装置、设备及存储介质 |
CN112541501B (zh) * | 2020-12-18 | 2021-09-07 | 北京中科研究院 | 一种基于视觉语言建模网络的场景文字识别方法 |
CN112541501A (zh) * | 2020-12-18 | 2021-03-23 | 北京中科研究院 | 一种基于视觉语言建模网络的场景文字识别方法 |
CN113269192A (zh) * | 2021-05-24 | 2021-08-17 | 东南大学 | 一种基于词匹配和语法匹配的ocr后处理方法 |
CN113269192B (zh) * | 2021-05-24 | 2024-04-30 | 东南大学 | 一种基于词匹配和语法匹配的ocr后处理方法 |
CN114078254A (zh) * | 2022-01-07 | 2022-02-22 | 华中科技大学同济医学院附属协和医院 | 一种基于机器人的智能数据采集系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109582972B (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109582972A (zh) | 一种基于自然语言识别的光学字符识别纠错方法 | |
WO2022134575A1 (zh) | 业务关键词的提取方法、装置、设备及存储介质 | |
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
Palm et al. | Cloudscan-a configuration-free invoice analysis system using recurrent neural networks | |
JP5444308B2 (ja) | 非ローマ文字および単語のスペル修正のためのシステムおよび方法 | |
Drobac et al. | Optical character recognition with neural networks and post-correction with finite state methods | |
CN106537370B (zh) | 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统 | |
CN109711412A (zh) | 一种基于字典的光学字符识别纠错方法 | |
CN109190092A (zh) | 不同来源文件的一致性审核方法 | |
US20100205198A1 (en) | Search query disambiguation | |
CN107870901A (zh) | 从翻译源原文生成相似文的方法、程序、装置以及系统 | |
JP6817556B2 (ja) | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム | |
CN111613214A (zh) | 一种用于提升语音识别能力的语言模型纠错方法 | |
US20220414463A1 (en) | Automated troubleshooter | |
Kettunen et al. | Analyzing and improving the quality of a historical news collection using language technology and statistical machine learning methods | |
Schaback et al. | Multi-level feature extraction for spelling correction | |
US11983506B2 (en) | Hybrid translation system using a general-purpose neural network machine translator | |
US10558926B2 (en) | Statistical pattern generation for information extraction | |
Aliwy et al. | Corpus-based technique for improving Arabic OCR system | |
JP5298834B2 (ja) | 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 | |
Torunoglu-Selamet et al. | Exploring spelling correction approaches for turkish | |
CN114239555A (zh) | 一种关键词提取模型的训练方法及相关装置 | |
JP2020166770A (ja) | 文字認識装置、文字認識方法およびプログラム | |
Tüselmann et al. | Named entity linking on handwritten document images | |
Athanasopoulou et al. | Using lexical, syntactic and semantic features for non-terminal grammar rule induction in spoken dialogue systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Xinyada technology building, 3888 Jiangnan Avenue, Binjiang District, Hangzhou City, Zhejiang Province 310051 Applicant after: Sinyada Technology Co.,Ltd. Address before: Xinyada technology building, 3888 Jiangnan Avenue, Binjiang District, Hangzhou City, Zhejiang Province 310051 Applicant before: SUNYARD SYSTEM ENGINEERING Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |