CN107633250A - 一种文字识别纠错方法、纠错系统及计算机装置 - Google Patents

一种文字识别纠错方法、纠错系统及计算机装置 Download PDF

Info

Publication number
CN107633250A
CN107633250A CN201710813109.0A CN201710813109A CN107633250A CN 107633250 A CN107633250 A CN 107633250A CN 201710813109 A CN201710813109 A CN 201710813109A CN 107633250 A CN107633250 A CN 107633250A
Authority
CN
China
Prior art keywords
word
error correction
wrong
similarity score
text region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710813109.0A
Other languages
English (en)
Other versions
CN107633250B (zh
Inventor
刘晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHANJET INFORMATION TECHNOLOGY Co Ltd
Original Assignee
CHANJET INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHANJET INFORMATION TECHNOLOGY Co Ltd filed Critical CHANJET INFORMATION TECHNOLOGY Co Ltd
Priority to CN201710813109.0A priority Critical patent/CN107633250B/zh
Publication of CN107633250A publication Critical patent/CN107633250A/zh
Application granted granted Critical
Publication of CN107633250B publication Critical patent/CN107633250B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明提出了一种文字识别纠错方法、纠错系统、计算机装置及计算机可读存储介质,文字识别纠错方法包括:提出了一种文字识别纠错方法,包括:获取文字图片,对文字图片进行识别得到文字识别结果;检测文字识别结果,确定识别错误区域;获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;筛选错误文字的相似候选集;对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果;将纠错结果与错误文字进行替换。通过本发明通过对识别文字的自动纠错能够降低了识别过程中人工标注的成本,在加快了识别速度的同时提升了OCR的准确率。

Description

一种文字识别纠错方法、纠错系统及计算机装置
技术领域
本发明涉及文字识别技术领域,具体而言,涉及一种文字识别纠错方法、纠错系统、计算机装置及计算机可读存储介质。
背景技术
云智能服务在进行单据识别系统的研发过程中会使用文字识别技术,文字识别也是系统的主要模块,但是由于图片像素、清晰度、噪音等问题导致文字识别准确率不高,因而对识别错误结果分析和分类时发现大部分被识别成字形相似的字,如“成”识别成了“咸”,因此如何进行纠错进而提升文字识别的准确率成为亟待解决的问题。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的一个方面在于提出了一种文字识别纠错方法。
本发明的另一个方面在于提出了一种文字识别纠错系统。
本发明的再一个方面在于提出了一种计算机装置。
本发明的又一个方面在于提出了一种计算机可读存储介质。
有鉴于此,根据本发明的一个方面,提出了一种文字识别纠错方法,包括:获取文字图片,对文字图片进行识别得到文字识别结果;检测文字识别结果,确定识别错误区域;获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;筛选错误文字的相似候选集;对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果;将纠错结果与错误文字进行替换。
本发明提供的文字识别纠错方法,首先获取文字图片,对该文字图片进行OCR(Optical Character Recognition,光学字符识别)获取文字识别结果,但在该文字识别结果中可能出现识别误差,即识别出与正确文字相似的字,因此进一步地在文字识别结果中检测出识别错误区域,获取识别错误区域内字与字一起出现的存在概率,将存在概率较低的文字作为错误文字,例如,识别错误区域内出现了“咸功”,而“咸功”的概率非常低,因此“咸功”则作为错误文字,通过先识别出识别错误区域再检测出错误文字可以提高纠错效率。进一步地,筛选错误文字中每个文字对应的相似候选集,将任一相似候选集内的文字与其它候选集内的文字进行排列组合,并将每个组合与领域词典存储中的领域词计算匹配得分,将匹配得分最高的组合作为纠错结果,即为正确的识别结果,将该纠错结果与错误文字进行替换,完成纠错。通过本发明通过对识别文字的自动纠错能够降低了识别过程中人工标注的成本,在加快了识别速度的同时提升了OCR的准确率。
其中,文字的存在概率是通过对于要识别的领域收集一些文章,对文章进行二元和三元分词,即“计算机”分词为:“计算机”,“计算”,“算机”;这样就会训练出自然场景中字和字之间出现的概率。
根据本发明的上述文字识别纠错方法,还可以具有以下技术特征:
在上述技术方案中,优选地,筛选错误文字的相似候选集的步骤,具体包括:根据错误文字的属性与汉字库中文字的属性,计算错误文字与汉字库中文字的相似度得分;将相似度得分大于预设阈值的汉字库中文字进行集合,作为相似候选集。
在该技术方案中,错误文字的相似候选集即为与该错误文字的字形相似的文字的集合,为了给每个错误文字提供字形相似候选集,需要根据文字的属性分别计算每个错误文字与汉字库中文字的相似度得分,将相似度得分大于预设阈值的文字的集合作为错误文字的相似候选集,实现精准地筛选出相似候选集,保证相似度候选集内的文字均为错误文字的相似字。
在上述任一技术方案中,优选地,错误文字的属性以及汉字库中文字的属性包括文字结构、四角码、笔顺编码、字向量。
在该技术方案中,文字结构是文字组成的方式,四角码的编码原则是把汉字的基本笔画分为10种,分别用1、2、3、4、5、6、7、8、9、0十个数字代表,按顺序取汉字的四角的笔划代码作为汉字的编码。笔顺编码是为了记录汉字笔画的书写顺序而设定的具体的笔画的编号,具体如下:横:1、竖:2、撇:3、捺:4、折:5等。字向量是通过数字0、1将汉字表示出来的方式。通过这四种属性可以计算出错误文字与汉字库中文字的相似度得分,从而根据上述属性更加准确地找到错误文字的字形相似候选集。
在上述任一技术方案中,优选地,根据错误文字的属性与汉字库中文字的属性,计算错误文字与汉字库中文字的相似度得分的步骤,具体包括:比较错误文字的文字结构与汉字库中文字的文字结构,当错误文字的文字结构与汉字库中文字的文字结构相同时,得到结构相似度得分;对错误文字的四角码与汉字库中文字的四角码进行编辑距离计算,得到四角码相似度得分;对错误文字的笔顺编码与汉字库中文字的笔顺编码进行编辑距离计算,得到笔顺相似度得分;计算错误文字的字向量与汉字库中文字的字向量的夹角的余弦值,作为字向量相似度得分;计算结构相似度得分、四角码相似度得分、笔顺相似度得分、字向量相似度得分的和,作为相似度得分。
在该技术方案中,两个字的相似度得分=结构相似度得分+四角码相似度得分+笔顺相似度得分+字向量相似度得分,例如,结构相似得分为如果两个字结构相同那么相似度得分为0.5分,否则不加分;四角码相似度得分为两个四角码的编辑距离得分;笔顺编码得分为两个笔顺编码的编辑距离得分;字向量相似得分为两个字的字向量夹角的余弦值。其中,编辑距离指两个字符串之间,由一个转成另一个所需要的最少编辑操作次数。由此得到错误文字与汉字库中文字的相似度得分,进而得到相似候选集,为提高识别精准率打下基础。
在上述任一技术方案中,优选地,对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果的步骤,具体包括:对相似候选集内文字排列组合,得到多个词;分别对每个词与领域词典内的领域词进行编辑距离计算,得到匹配得分;将匹配得分最高的词作为纠错结果。
在该技术方案中,对每个相似候选集内的文字分别进行排列组合得到多个词,例如错误文字为“咸交”,而“咸”的相似候选集为[“咸”,“威”,“戚”,“成”,“戒”,“或”],“交”的相似候选集为[“交”,“卒”,“文”,“立”,“妄”,“变”],则排列组合后可以得到“咸交”,“咸卒”,“成交”等词。进一步地,计算每个词与领域词典内的领域词的编辑距离,得到匹配得分,将匹配得分最高的词作为纠错结果,即在该领域词典中只有“成交”的得分最高,因此将利用“成交”替换“咸交”,实现精准地纠错。此外通过领域词典内的文字进行纠错能够减少纠错训练的成本,并且可以进一步地通过更换领域词典提高识别纠错方法的通用性。
在上述任一技术方案中,优选地,还包括:存储错误文字的相似候选集。
在该技术方案中,将错误文字的相似候选集进行存储,在下次需要查找该错误文字的字形相似字时,可以直接利用无需重复获取,方便使用,提高纠错效率。
根据本发明的另一个方面,提出了一种文字识别纠错系统,包括:识别单元,用于获取文字图片,对文字图片进行识别得到文字识别结果;检测单元,用于检测文字识别结果,确定识别错误区域;获取单元,用于获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;筛选单元,用于筛选错误文字的相似候选集;第一计算单元,用于对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果;替换单元,用于将纠错结果与错误文字进行替换。
本发明提供的文字识别纠错系统,首先通过识别单元获取文字图片,对该文字图片进行OCR获取文字识别结果,但在该文字识别结果中可能出现识别误差,即识别出与正确文字相似的字,因此进一步地通过检测单元在文字识别结果中检测出识别错误区域,获取单元获取识别错误区域内字与字一起出现的存在概率,将存在概率较低的文字作为错误文字,例如,识别错误区域内出现了“咸功”,而“咸功”的概率非常低,因此“咸功”则作为错误文字,通过先识别出识别错误区域再检测出错误文字可以提高纠错效率。进一步地,通过筛选单元筛选错误文字中每个文字对应的相似候选集,第一计算单元将任一相似候选集内的文字与其它候选集内的文字进行排列组合,并将每个组合与领域词典存储中的领域词计算匹配得分,将匹配得分最高的组合作为纠错结果,即为正确的识别结果,通过替换单元将该纠错结果与错误文字进行替换,完成纠错。通过本发明通过对识别文字的自动纠错能够降低了识别过程中人工标注的成本,在加快了识别速度的同时提升了OCR的准确率。
其中,文字的存在概率是通过对于要识别的领域收集一些文章,对文章进行二元和三元分词,即“计算机”分词为:“计算机”,“计算”,“算机”;这样就会训练出自然场景中字和字之间出现的概率。
根据本发明的上述文字识别纠错系统,还可以具有以下技术特征:
在上述技术方案中,优选地,筛选单元,包括:第二计算单元,用于根据错误文字的属性与汉字库中文字的属性,计算错误文字与汉字库中文字的相似度得分;筛选单元,具体用于将相似度得分大于预设阈值的汉字库中文字进行集合,作为相似候选集。
在该技术方案中,错误文字的相似候选集即为与该错误文字的字形相似的文字的集合,为了给每个错误文字提供字形相似候选集,需要通过第二计算单元根据文字的属性分别计算每个错误文字与汉字库中文字的相似度得分,通过筛选单元将相似度得分大于预设阈值的文字的集合作为错误文字的相似候选集,实现精准地筛选出相似候选集,保证相似度候选集内的文字均为错误文字的相似字。
在上述任一技术方案中,优选地,错误文字的属性以及汉字库中文字的属性包括文字结构、四角码、笔顺编码、字向量。
在该技术方案中,文字结构是文字组成的方式,四角码的编码原则是把汉字的基本笔画分为10种,分别用1、2、3、4、5、6、7、8、9、0十个数字代表,按顺序取汉字的四角的笔划代码作为汉字的编码。笔顺编码是为了记录汉字笔画的书写顺序而设定的具体的笔画的编号,具体如下:横:1、竖:2、撇:3、捺:4、折:5等。字向量是通过数字0、1将汉字表示出来的方式。通过这四种属性可以计算出错误文字与汉字库中文字的相似度得分,从而根据上述属性更加准确地找到错误文字的字形相似候选集。
在上述任一技术方案中,优选地,第二计算单元,具体用于:比较错误文字的文字结构与汉字库中文字的文字结构,当错误文字的文字结构与汉字库中文字的文字结构相同时,得到结构相似度得分;对错误文字的四角码与汉字库中文字的四角码进行编辑距离计算,得到四角码相似度得分;对错误文字的笔顺编码与汉字库中文字的笔顺编码进行编辑距离计算,得到笔顺相似度得分;计算错误文字的字向量与汉字库中文字的字向量的夹角的余弦值,作为字向量相似度得分;计算结构相似度得分、四角码相似度得分、笔顺相似度得分、字向量相似度得分的和,作为相似度得分。
在该技术方案中,两个字的相似度得分=结构相似度得分+四角码相似度得分+笔顺相似度得分+字向量相似度得分,例如,结构相似得分为如果两个字结构相同那么相似度得分为0.5分,否则不加分;四角码相似度得分为两个四角码的编辑距离得分;笔顺编码得分为两个笔顺编码的编辑距离得分;字向量相似得分为两个字的字向量夹角的余弦值。其中,编辑距离指两个字符串之间,由一个转成另一个所需要的最少编辑操作次数。由此得到错误文字与汉字库中文字的相似度得分,进而得到相似候选集,为提高识别精准率打下基础。
在上述任一技术方案中,优选地,第一计算单元,包括:排列单元,用于对相似候选集内文字排列组合,得到多个词;第一计算单元,具体用于分别对每个词与领域词进行编辑距离计算,得到匹配得分;以及将匹配得分最高的词作为纠错结果。
在该技术方案中,排列单元对每个相似候选集内的文字分别进行排列组合得到多个词,例如错误文字为“咸交”,而“咸”的相似候选集为[“咸”,“威”,“戚”,“成”,“戒”,“或”],“交”的相似候选集为[“交”,“卒”,“文”,“立”,“妄”,“变”],则排列组合后可以得到“咸交”,“咸卒”,“成交”等词。进一步地,通过第一计算单元计算每个词与领域词典内的领域词的编辑距离,得到匹配得分,将匹配得分最高的词作为纠错结果,即在该领域词典中只有“成交”的得分最高,因此将利用“成交”替换“咸交”,实现精准地纠错。此外通过领域词典内的文字进行纠错能够减少纠错训练的成本,并且可以进一步地通过更换领域词典提高识别纠错方法的通用性。
在上述任一技术方案中,优选地,还包括:存储单元,用于存储错误文字的所述相似候选集。
在该技术方案中,存储单元将错误文字的相似候选集进行存储,在下次需要查找该错误文字的字形相似字时,可以直接利用无需重复获取,方便使用,提高纠错效率。
根据本发明的再一个方面,提出了一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述任一项的文字识别纠错方法的步骤。
本发明提供的计算机装置,处理器执行计算机程序时实现获取文字图片,对该文字图片进行OCR获取文字识别结果,但在该文字识别结果中可能出现识别误差,即识别出与正确文字相似的字,因此进一步地在文字识别结果中检测出识别错误区域,获取识别错误区域内字与字一起出现的存在概率,将存在概率较低的文字作为错误文字,例如,识别错误区域内出现了“咸功”,而“咸功”的概率非常低,因此“咸功”则作为错误文字,通过先识别出识别错误区域再检测出错误文字可以提高纠错效率。进一步地,筛选错误文字中每个文字对应的相似候选集,将任一相似候选集内的文字与其它候选集内的文字进行排列组合,并将每个组合与领域词典存储中的领域词计算匹配得分,将匹配得分最高的组合作为纠错结果,即为正确的识别结果,将该纠错结果与错误文字进行替换,完成纠错。通过本发明通过对识别文字的自动纠错能够降低了识别过程中人工标注的成本,在加快了识别速度的同时提升了OCR的准确率。
根据本发明的又一个方面,提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项的文字识别纠错方法的步骤。
本发明提供的计算机可读存储介质,计算机程序被处理器执行时实现获取文字图片,对该文字图片进行OCR获取文字识别结果,但在该文字识别结果中可能出现识别误差,即识别出与正确文字相似的字,因此进一步地在文字识别结果中检测出识别错误区域,获取识别错误区域内字与字一起出现的存在概率,将存在概率较低的文字作为错误文字,例如,识别错误区域内出现了“咸功”,而“咸功”的概率非常低,因此“咸功”则作为错误文字,通过先识别出识别错误区域再检测出错误文字可以提高纠错效率。进一步地,筛选错误文字中每个文字对应的相似候选集,将任一相似候选集内的文字与其它候选集内的文字进行排列组合,并将每个组合与领域词典存储中的领域词计算匹配得分,将匹配得分最高的组合作为纠错结果,即为正确的识别结果,将该纠错结果与错误文字进行替换,完成纠错。通过本发明通过对识别文字的自动纠错能够降低了识别过程中人工标注的成本,在加快了识别速度的同时提升了OCR的准确率。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本发明的一个实施例的文字识别纠错方法的流程示意图;
图2示出了本发明的另一个实施例的文字识别纠错方法的流程示意图;
图3示出了本发明的再一个实施例的文字识别纠错方法的流程示意图;
图4示出了本发明的又一个实施例的文字识别纠错方法的流程示意图;
图5a示出了本发明的一个实施例的文字识别纠错系统的示意框图;
图5b示出了本发明的另一个实施例的文字识别纠错系统的示意框图;
图5c示出了本发明的再一个实施例的文字识别纠错系统的示意框图;
图5d示出了本发明的又一个实施例的文字识别纠错系统的示意框图
图6示出了本发明的一个具体实施例的文字识别纠错方法系统的工作过程示意图;
图7示出了本发明的一个具体实施例的相似候选集的测试结果示意图;
图8示出了本发明的一个具体实施例的汉字库文字属性部分截图;
图9示出了本发明的一个实施例的计算机装置的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不限于下面公开的具体实施例的限制。
本发明第一方面的实施例,提出一种文字识别纠错方法,图1示出了本发明的一个实施例的文字识别纠错方法的流程示意图。其中,该方法包括:
步骤102,获取文字图片,对文字图片进行识别得到文字识别结果;
步骤104,检测文字识别结果,确定识别错误区域;
步骤106,获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;
步骤108,筛选错误文字的相似候选集;
步骤110,对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果;
步骤112,将纠错结果与错误文字进行替换。
本发明提供的文字识别纠错方法,首先获取文字图片,对该文字图片进行OCR获取文字识别结果,但在该文字识别结果中可能出现识别误差,即识别出与正确文字相似的字,因此进一步地在文字识别结果中检测出识别错误区域,获取识别错误区域内字与字一起出现的存在概率,将存在概率较低的文字作为错误文字,例如,识别错误区域内出现了“咸功”,而“咸功”的概率非常低,因此“咸功”则作为错误文字,通过先识别出识别错误区域再检测出错误文字可以提高纠错效率。进一步地,筛选错误文字中每个文字对应的相似候选集,将任一相似候选集内的文字与其它候选集内的文字进行排列组合,并将每个组合与领域词典存储中的领域词计算匹配得分,将匹配得分最高的组合作为纠错结果,即为正确的识别结果,将该纠错结果与错误文字进行替换,完成纠错。通过本发明通过对识别文字的自动纠错能够降低了识别过程中人工标注的成本,在加快了识别速度的同时提升了OCR的准确率。
其中,文字的存在概率是通过对于要识别的领域收集一些文章,对文章进行二元和三元分词,即“计算机”分词为:“计算机”,“计算”,“算机”;这样就会训练出自然场景中字和字之间出现的概率。
图2示出了本发明的另一个实施例的文字识别纠错方法的流程示意图。其中,该方法包括:
步骤202,获取文字图片,对文字图片进行识别得到文字识别结果;
步骤204,检测文字识别结果,确定识别错误区域;
步骤206,获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;
步骤208,根据错误文字的属性与汉字库中文字的属性,计算错误文字与汉字库中文字的相似度得分;将相似度得分大于预设阈值的汉字库中文字进行集合,作为相似候选集;
步骤210,对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果;
步骤212,将纠错结果与错误文字进行替换。
在该实施例中,错误文字的相似候选集即为与该错误文字的字形相似的文字的集合,为了给每个错误文字提供字形相似候选集,需要根据文字的属性分别计算每个错误文字与汉字库中文字的相似度得分,将相似度得分大于预设阈值的文字的集合作为错误文字的相似候选集,实现精准地筛选出相似候选集,保证相似度候选集内的文字均为错误文字的相似字。
在本发明的一个实施例中,优选地,错误文字的属性以及汉字库中文字的属性包括文字结构、四角码、笔顺编码、字向量。
在该实施例中,文字结构是文字组成的方式,四角码的编码原则是把汉字的基本笔画分为10种,分别用1、2、3、4、5、6、7、8、9、0十个数字代表,按顺序取汉字的四角的笔划代码作为汉字的编码。笔顺编码是为了记录汉字笔画的书写顺序而设定的具体的笔画的编号,具体如下:横:1、竖:2、撇:3、捺:4、折:5等。字向量是通过数字0、1将汉字表示出来的方式。通过这四种属性可以计算出错误文字与汉字库中文字的相似度得分,从而根据上述属性更加准确地找到错误文字的字形相似候选集。
图3示出了本发明的再一个实施例的文字识别纠错方法的流程示意图。其中,该方法包括:
步骤302,获取文字图片,对文字图片进行识别得到文字识别结果;
步骤304,检测文字识别结果,确定识别错误区域;
步骤306,获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;
步骤308,比较错误文字的文字结构与汉字库中文字的文字结构,当错误文字的文字结构与汉字库中文字的文字结构相同时,得到结构相似度得分;对错误文字的四角码与汉字库中文字的四角码进行编辑距离计算,得到四角码相似度得分;对错误文字的笔顺编码与汉字库中文字的笔顺编码进行编辑距离计算,得到笔顺相似度得分;计算错误文字的字向量与汉字库中文字的字向量的夹角的余弦值,作为字向量相似度得分;
步骤310,计算结构相似度得分、四角码相似度得分、笔顺相似度得分、字向量相似度得分的和,作为相似度得分;
步骤312,将相似度得分大于预设阈值的汉字库中文字进行集合,作为相似候选集;
步骤314,对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果;
步骤316,将纠错结果与错误文字进行替换。
在该实施例中,两个字的相似度得分=结构相似度得分+四角码相似度得分+笔顺相似度得分+字向量相似度得分,例如,结构相似得分为如果两个字结构相同那么相似度得分为0.5分,否则不加分;四角码相似度得分为两个四角码的编辑距离得分;笔顺编码得分为两个笔顺编码的编辑距离得分;字向量相似得分为两个字的字向量夹角的余弦值。其中,编辑距离指两个字符串之间,由一个转成另一个所需要的最少编辑操作次数。由此得到错误文字与汉字库中文字的相似度得分,进而得到相似候选集,为提高识别精准率打下基础。
图4示出了本发明的又一个实施例的文字识别纠错方法的流程示意图。其中,该方法包括:
步骤402,获取文字图片,对文字图片进行识别得到文字识别结果;
步骤404,检测文字识别结果,确定识别错误区域;
步骤406,获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;
步骤408,比较错误文字的文字结构与汉字库中文字的文字结构,当错误文字的文字结构与汉字库中文字的文字结构相同时,得到结构相似度得分;对错误文字的四角码与汉字库中文字的四角码进行编辑距离计算,得到四角码相似度得分;对错误文字的笔顺编码与汉字库中文字的笔顺编码进行编辑距离计算,得到笔顺相似度得分;计算错误文字的字向量与汉字库中文字的字向量的夹角的余弦值,作为字向量相似度得分;
步骤410,计算结构相似度得分、四角码相似度得分、笔顺相似度得分、字向量相似度得分的和,作为相似度得分;
步骤412,将相似度得分大于预设阈值的汉字库中文字进行集合,作为相似候选集;
步骤414,对相似候选集内文字排列组合,得到多个词;分别对每个词与领域词典内的领域词进行编辑距离计算,得到匹配得分;将匹配得分最高的词作为纠错结果;
步骤416,将纠错结果与错误文字进行替换。
在该实施例中,对每个相似候选集内的文字分别进行排列组合得到多个词,例如错误文字为“咸交”,而“咸”的相似候选集为[“咸”,“威”,“戚”,“成”,“戒”,“或”],“交”的相似候选集为[“交”,“卒”,“文”,“立”,“妄”,“变”],则排列组合后可以得到“咸交”,“咸卒”,“成交”等词。进一步地,计算每个词与领域词典内的领域词的编辑距离,得到匹配得分,将匹配得分最高的词作为纠错结果,即在该领域词典中只有“成交”的得分最高,因此将利用“成交”替换“咸交”,实现精准地纠错。此外通过领域词典内的文字进行纠错能够减少纠错训练的成本,并且可以进一步地通过更换领域词典提高识别纠错方法的通用性。
在本发明的一个实施例中,优选地,还包括:存储错误文字的相似候选集。
在该实施例中,将错误文字的相似候选集进行存储,在下次需要查找该错误文字的字形相似字时,可以直接利用无需重复获取,方便使用,提高纠错效率。
本发明第二方面的实施例,提出一种文字识别纠错系统,图5a示出了本发明的一个实施例的文字识别纠错系统500的示意框图。其中,该系统包括:
识别单元502,用于获取文字图片,对文字图片进行识别得到文字识别结果;
检测单元504,用于检测文字识别结果,确定识别错误区域;
获取单元506,用于获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;
筛选单元508,用于筛选错误文字的相似候选集;
第一计算单元510,用于对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果;
替换单元512,用于将纠错结果与错误文字进行替换。
本发明提供的文字识别纠错系统500,首先通过识别单元502获取文字图片,对该文字图片进行OCR获取文字识别结果,但在该文字识别结果中可能出现识别误差,即识别出与正确文字相似的字,因此进一步地通过检测单元504在文字识别结果中检测出识别错误区域,获取单元506获取识别错误区域内字与字一起出现的存在概率,将存在概率较低的文字作为错误文字,例如,识别错误区域内出现了“咸功”,而“咸功”的概率非常低,因此“咸功”则作为错误文字,通过先识别出识别错误区域再检测出错误文字可以提高纠错效率。进一步地,通过筛选单元508筛选错误文字中每个文字对应的相似候选集,第一计算单元510将任一相似候选集内的文字与其它候选集内的文字进行排列组合,并将每个组合与领域词典存储中的领域词计算匹配得分,将匹配得分最高的组合作为纠错结果,即为正确的识别结果,通过替换单元512将该纠错结果与错误文字进行替换,完成纠错。通过本发明通过对识别文字的自动纠错能够降低了识别过程中人工标注的成本,在加快了识别速度的同时提升了OCR的准确率。
其中,文字的存在概率是通过对于要识别的领域收集一些文章,对文章进行二元和三元分词,即“计算机”分词为:“计算机”,“计算”,“算机”;这样就会训练出自然场景中字和字之间出现的概率。
图5b示出了本发明的另一个实施例的文字识别纠错系统500的示意框图。其中,该系统包括:
识别单元502,用于获取文字图片,对文字图片进行识别得到文字识别结果;
检测单元504,用于检测文字识别结果,确定识别错误区域;
获取单元506,用于获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;
筛选单元508,用于筛选错误文字的相似候选集;
第一计算单元510,用于对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果;
替换单元512,用于将纠错结果与错误文字进行替换;
筛选单元508,包括:第二计算单元5082,用于根据错误文字的属性与汉字库中文字的属性,计算错误文字与汉字库中文字的相似度得分;
筛选单元508,具体用于将相似度得分大于预设阈值的汉字库中文字进行集合,作为相似候选集。
在该实施例中,错误文字的相似候选集即为与该错误文字的字形相似的文字的集合,为了给每个错误文字提供字形相似候选集,需要通过第二计算单元5082根据文字的属性分别计算每个错误文字与汉字库中文字的相似度得分,通过筛选单元508将相似度得分大于预设阈值的文字的集合作为错误文字的相似候选集,实现精准地筛选出相似候选集,保证相似度候选集内的文字均为错误文字的相似字。
在本发明的一个实施例中,优选地,错误文字的属性以及汉字库中文字的属性包括文字结构、四角码、笔顺编码、字向量。
在该实施例中,文字结构是文字组成的方式,四角码的编码原则是把汉字的基本笔画分为10种,分别用1、2、3、4、5、6、7、8、9、0十个数字代表,按顺序取汉字的四角的笔划代码作为汉字的编码。笔顺编码是为了记录汉字笔画的书写顺序而设定的具体的笔画的编号,具体如下:横:1、竖:2、撇:3、捺:4、折:5等。字向量是通过数字0、1将汉字表示出来的方式。通过这四种属性可以计算出错误文字与汉字库中文字的相似度得分,从而根据上述属性更加准确地找到错误文字的字形相似候选集。
在本发明的一个实施例中,优选地,第二计算单元5082,具体用于:比较错误文字的文字结构与汉字库中文字的文字结构,当错误文字的文字结构与汉字库中文字的文字结构相同时,得到结构相似度得分;对错误文字的四角码与汉字库中文字的四角码进行编辑距离计算,得到四角码相似度得分;对错误文字的笔顺编码与汉字库中文字的笔顺编码进行编辑距离计算,得到笔顺相似度得分;计算错误文字的字向量与汉字库中文字的字向量的夹角的余弦值,作为字向量相似度得分;计算结构相似度得分、四角码相似度得分、笔顺相似度得分、字向量相似度得分的和,作为相似度得分。
在该实施例中,两个字的相似度得分=结构相似度得分+四角码相似度得分+笔顺相似度得分+字向量相似度得分,例如,结构相似得分为如果两个字结构相同那么相似度得分为0.5分,否则不加分;四角码相似度得分为两个四角码的编辑距离得分;笔顺编码得分为两个笔顺编码的编辑距离得分;字向量相似得分为两个字的字向量夹角的余弦值。其中,编辑距离指两个字符串之间,由一个转成另一个所需要的最少编辑操作次数。由此得到错误文字与汉字库中文字的相似度得分,进而得到相似候选集,为提高识别精准率打下基础。
图5c示出了本发明的再一个实施例的文字识别纠错系统500的示意框图。其中,该系统包括:
识别单元502,用于获取文字图片,对文字图片进行识别得到文字识别结果;
检测单元504,用于检测文字识别结果,确定识别错误区域;
获取单元506,用于获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;
筛选单元508,用于筛选错误文字的相似候选集;
第一计算单元510,用于对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果;
替换单元512,用于将纠错结果与错误文字进行替换;
筛选单元508,包括:第二计算单元5082,用于根据错误文字的属性与汉字库中文字的属性,计算错误文字与汉字库中文字的相似度得分;
筛选单元508,具体用于将相似度得分大于预设阈值的汉字库中文字进行集合,作为相似候选集;
第一计算单元510,包括:排列单元5102,用于对相似候选集内文字排列组合,得到多个词;
第一计算单元510,具体用于分别对每个词与领域词进行编辑距离计算,得到匹配得分;以及将匹配得分最高的词作为纠错结果。
在该实施例中,排列单元5102对每个相似候选集内的文字分别进行排列组合得到多个词,例如错误文字为“咸交”,而“咸”的相似候选集为[“咸”,“威”,“戚”,“成”,“戒”,“或”],“交”的相似候选集为[“交”,“卒”,“文”,“立”,“妄”,“变”],则排列组合后可以得到“咸交”,“咸卒”,“成交”等词。进一步地,通过第一计算单元510计算每个词与领域词典内的领域词的编辑距离,得到匹配得分,将匹配得分最高的词作为纠错结果,即在该领域词典中只有“成交”的得分最高,因此将利用“成交”替换“咸交”,实现精准地纠错。此外通过领域词典内的文字进行纠错能够减少纠错训练的成本,并且可以进一步地通过更换领域词典提高识别纠错方法的通用性。
图5d示出了本发明的又一个实施例的文字识别纠错系统500的示意框图。其中,该系统包括:
识别单元502,用于获取文字图片,对文字图片进行识别得到文字识别结果;
检测单元504,用于检测文字识别结果,确定识别错误区域;
获取单元506,用于获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;
筛选单元508,用于筛选错误文字的相似候选集;
第一计算单元510,用于对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果;
替换单元512,用于将纠错结果与错误文字进行替换;
筛选单元508,包括:第二计算单元5082,用于根据错误文字的属性与汉字库中文字的属性,计算错误文字与汉字库中文字的相似度得分;
筛选单元508,具体用于将相似度得分大于预设阈值的汉字库中文字进行集合,作为相似候选集;
第一计算单元510,包括:排列单元5102,用于对相似候选集内文字排列组合,得到多个词;
第一计算单元510,具体用于分别对每个词与领域词进行编辑距离计算,得到匹配得分;以及将匹配得分最高的词作为纠错结果;
文字识别纠错系统500还包括:存储单元514,用于存储错误文字的所述相似候选集。
在该实施例中,存储单元514将错误文字的相似候选集进行存储,在下次需要查找该错误文字的字形相似字时,可以直接利用无需重复获取,方便使用,提高纠错效率。
图6示出了本发明的一个具体实施例的文字识别纠错方法系统的工作过程示意图。其中,该工作过程包括:
将请求输入输入至文字识别纠错装置接口后,对请求输入进行错误区域判定,对错误区域进行纠错计算,得出结果,再将结果通过文字识别纠错装置接口输出。纠错计算具体包括:通过将汉字字典中的文字进行字形相似度计算得出错误区域内错误文字的相似候选集,再对相似候选集内的文字进行排列组合进行该错误区域的纠错结果的计算。
图7示出了本发明的一个具体实施例的相似候选集的测试结果示意图。其中,需要测试文字为“大”,当按照综合属性(四角码+笔顺+五角+图片)进行测试时,得到的测试结果包括“大”、“犬”、“丈”等;当按照图片属性进行测试时,得到的测试结果包括“大”、“犬”、“人”等;当按照四角码属性进行测试时,得到的测试结果包括“大”、“走”、“灰”等;当按照五笔属性进行测试时,得到的测试结果包括“大”、“非”、“兢”等;当按照笔顺属性进行测试时,得到的测试结果包括“大”、“丈”、“天”等;当按照四角码+笔顺+图片的属性进行测试时,得到的测试结果包括“大”、“犬”、“丈”等;当按照四角码+笔顺属性进行测试时,得到的测试结果包括“大”、“犬”、“丈”等。图8示出了本发明的一个具体实施例的汉字库文字属性部分截图。其中包括属性有字、结构、部首、笔顺编号、四角码、五笔,通过汉字库文字属性计算出相似候选集。
本发明第三方面的实施例,提出一种计算机装置,图9示出了本发明的一个实施例的计算机装置900的示意框图。其中,该计算机装置900包括:
存储器902、处理器904及存储在存储器902上并可在处理器904上运行的计算机程序,处理器904执行计算机程序时实现如上述任一项的文字识别纠错方法的步骤。
本发明提供的计算机装置900,处理器904执行计算机程序时实现获取文字图片,对该文字图片进行OCR获取文字识别结果,但在该文字识别结果中可能出现识别误差,即识别出与正确文字相似的字,因此进一步地在文字识别结果中检测出识别错误区域,获取识别错误区域内字与字一起出现的存在概率,将存在概率较低的文字作为错误文字,例如,识别错误区域内出现了“咸功”,而“咸功”的概率非常低,因此“咸功”则作为错误文字,通过先识别出识别错误区域再检测出错误文字可以提高纠错效率。进一步地,筛选错误文字中每个文字对应的相似候选集,将任一相似候选集内的文字与其它候选集内的文字进行排列组合,并将每个组合与领域词典存储中的领域词计算匹配得分,将匹配得分最高的组合作为纠错结果,即为正确的识别结果,将该纠错结果与错误文字进行替换,完成纠错。通过本发明通过对识别文字的自动纠错能够降低了识别过程中人工标注的成本,在加快了识别速度的同时提升了OCR的准确率。
本发明第四方面的实施例,提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项的文字识别纠错方法的步骤。
本发明提供的计算机可读存储介质,计算机程序被处理器执行时实现获取文字图片,对该文字图片进行OCR获取文字识别结果,但在该文字识别结果中可能出现识别误差,即识别出与正确文字相似的字,因此进一步地在文字识别结果中检测出识别错误区域,获取识别错误区域内字与字一起出现的存在概率,将存在概率较低的文字作为错误文字,例如,识别错误区域内出现了“咸功”,而“咸功”的概率非常低,因此“咸功”则作为错误文字,通过先识别出识别错误区域再检测出错误文字可以提高纠错效率。进一步地,筛选错误文字中每个文字对应的相似候选集,将任一相似候选集内的文字与其它候选集内的文字进行排列组合,并将每个组合与领域词典存储中的领域词计算匹配得分,将匹配得分最高的组合作为纠错结果,即为正确的识别结果,将该纠错结果与错误文字进行替换,完成纠错。通过本发明通过对识别文字的自动纠错能够降低了识别过程中人工标注的成本,在加快了识别速度的同时提升了OCR的准确率。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种文字识别纠错方法,其特征在于,包括:
获取文字图片,对所述文字图片进行识别得到文字识别结果;
检测所述文字识别结果,确定识别错误区域;
获取所述识别错误区域内文字的存在概率,将所述存在概率小于预设阈值的文字作为错误文字;
筛选所述错误文字的相似候选集;
对所述相似候选集内文字排列组合,并计算匹配得分,将所述匹配得分最高的组合作为纠错结果;
将所述纠错结果与所述错误文字进行替换。
2.根据权利要求1所述的文字识别纠错方法,其特征在于,所述筛选所述错误文字的所述相似候选集的步骤,具体包括:
根据所述错误文字的属性与汉字库中文字的属性,计算所述错误文字与所述汉字库中文字的相似度得分;
将所述相似度得分大于预设阈值的所述汉字库中文字进行集合,作为所述相似候选集。
3.根据权利要求2所述的文字识别纠错方法,其特征在于,所述错误文字的属性以及所述汉字库中文字的属性包括文字结构、四角码、笔顺编码、字向量。
4.根据权利要求3所述的文字识别纠错方法,其特征在于,所述根据所述错误文字的属性与所述汉字库中文字的属性,计算所述错误文字与所述汉字库中文字的相似度得分的步骤,具体包括:
比较所述错误文字的文字结构与所述汉字库中文字的文字结构,当所述错误文字的文字结构与所述汉字库中文字的文字结构相同时,得到结构相似度得分;
对所述错误文字的四角码与所述汉字库中文字的四角码进行编辑距离计算,得到四角码相似度得分;
对所述错误文字的笔顺编码与所述汉字库中文字的笔顺编码进行编辑距离计算,得到笔顺相似度得分;
计算所述错误文字的字向量与所述汉字库中文字的字向量的夹角的余弦值,作为字向量相似度得分;
计算所述结构相似度得分、所述四角码相似度得分、所述笔顺相似度得分、所述字向量相似度得分的和,作为所述相似度得分。
5.根据权利要求1至4中任一项所述的文字识别纠错方法,其特征在于,对所述相似候选集内文字排列组合,并计算匹配得分,将所述匹配得分最高的组合作为所述纠错结果的步骤,具体包括:
对所述相似候选集内文字排列组合,得到多个词;
分别对每个所述词与领域词典内的领域词进行编辑距离计算,得到匹配得分;
将所述匹配得分最高的词作为所述纠错结果。
6.根据权利要求1至4中任一项所述的文字识别纠错方法,其特征在于,还包括:
存储所述错误文字的所述相似候选集。
7.一种文字识别纠错系统,其特征在于,包括:
识别单元,用于获取文字图片,对所述文字图片进行识别得到文字识别结果;
检测单元,用于检测所述文字识别结果,确定识别错误区域;
获取单元,用于获取所述识别错误区域内文字的存在概率,将所述存在概率小于预设阈值的文字作为错误文字;
筛选单元,用于筛选所述错误文字的相似候选集;
第一计算单元,用于对所述相似候选集内文字排列组合,并计算匹配得分,将所述匹配得分最高的组合作为纠错结果;
替换单元,用于将所述纠错结果与所述错误文字进行替换。
8.根据权利要求7所述的文字识别纠错系统,其特征在于,所述筛选单元,包括:
第二计算单元,用于根据所述错误文字的属性与汉字库中文字的属性,计算所述错误文字与所述汉字库中文字的相似度得分;
所述筛选单元,具体用于将所述相似度得分大于预设阈值的所述汉字库中文字进行集合,作为所述相似候选集。
9.根据权利要求8所述的文字识别纠错系统,其特征在于,所述错误文字的属性以及所述汉字库中文字的属性包括文字结构、四角码、笔顺编码、字向量。
10.根据权利要求9所述的文字识别纠错系统,其特征在于,所述第二计算单元,具体用于:
比较所述错误文字的文字结构与所述汉字库中文字的文字结构,当所述错误文字的文字结构与所述汉字库中文字的文字结构相同时,得到结构相似度得分;
对所述错误文字的四角码与所述汉字库中文字的四角码进行编辑距离计算,得到四角码相似度得分;
对所述错误文字的笔顺编码与所述汉字库中文字的笔顺编码进行编辑距离计算,得到笔顺相似度得分;
计算所述错误文字的字向量与所述汉字库中文字的字向量的夹角的余弦值,作为字向量相似度得分;
计算所述结构相似度得分、所述四角码相似度得分、所述笔顺相似度得分、所述字向量相似度得分的和,作为所述相似度得分。
11.根据权利要求7至10中任一项所述的文字识别纠错系统,其特征在于,所述第一计算单元,包括:
排列单元,用于对所述相似候选集内文字排列组合,得到多个词;
所述第一计算单元,具体用于分别对每个所述词与领域词典内的领域词进行编辑距离计算,得到匹配得分;以及将所述匹配得分最高的词作为所述纠错结果。
12.根据权利要求7至10中任一项所述的文字识别纠错系统,其特征在于,还包括:
存储单元,用于存储所述错误文字的所述相似候选集。
13.一种计算机装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的文字识别纠错方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的文字识别纠错方法的步骤。
CN201710813109.0A 2017-09-11 2017-09-11 一种文字识别纠错方法、纠错系统及计算机装置 Active CN107633250B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710813109.0A CN107633250B (zh) 2017-09-11 2017-09-11 一种文字识别纠错方法、纠错系统及计算机装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710813109.0A CN107633250B (zh) 2017-09-11 2017-09-11 一种文字识别纠错方法、纠错系统及计算机装置

Publications (2)

Publication Number Publication Date
CN107633250A true CN107633250A (zh) 2018-01-26
CN107633250B CN107633250B (zh) 2023-04-18

Family

ID=61101144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710813109.0A Active CN107633250B (zh) 2017-09-11 2017-09-11 一种文字识别纠错方法、纠错系统及计算机装置

Country Status (1)

Country Link
CN (1) CN107633250B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197317A (zh) * 2018-02-01 2018-06-22 科大讯飞股份有限公司 文档关键信息抽取系统测试方法及装置
CN108664471A (zh) * 2018-05-07 2018-10-16 平安普惠企业管理有限公司 文字识别纠错方法、装置、设备及计算机可读存储介质
CN108829665A (zh) * 2018-05-22 2018-11-16 广州视源电子科技股份有限公司 错别字检测方法、装置及计算机可读存储介质、终端设备
CN109102844A (zh) * 2018-08-24 2018-12-28 北京锐客科技有限公司 一种临床试验源数据自动校验方法
CN109857912A (zh) * 2018-12-20 2019-06-07 广州企图腾科技有限公司 一种字形识别方法、电子设备及存储介质
CN110287910A (zh) * 2019-06-28 2019-09-27 北京百度网讯科技有限公司 用于获取信息的方法及装置
CN110472701A (zh) * 2019-08-14 2019-11-19 广东小天才科技有限公司 文字纠错方法、装置、电子设备和存储介质
CN110705536A (zh) * 2019-09-24 2020-01-17 北京字节跳动网络技术有限公司 汉字识别纠错方法、装置、计算机可读介质及电子设备
CN110928915A (zh) * 2018-08-31 2020-03-27 北京京东金融科技控股有限公司 中文姓名模糊匹配的方法、装置、设备及可读存储介质
CN111126045A (zh) * 2019-11-25 2020-05-08 泰康保险集团股份有限公司 一种文本纠错方法和装置
CN111310442A (zh) * 2020-02-06 2020-06-19 北京字节跳动网络技术有限公司 形近字纠错语料挖掘方法、纠错方法、设备及存储介质
CN111310443A (zh) * 2020-02-12 2020-06-19 新华智云科技有限公司 一种文本纠错方法和系统
CN111368918A (zh) * 2020-03-04 2020-07-03 拉扎斯网络科技(上海)有限公司 文本纠错方法、装置、电子设备及存储介质
CN111523532A (zh) * 2020-04-14 2020-08-11 广东小天才科技有限公司 一种矫正ocr文字识别错误的方法及终端设备
CN111639566A (zh) * 2020-05-19 2020-09-08 浙江大华技术股份有限公司 一种提取表单信息的方法及装置
CN111723791A (zh) * 2020-06-11 2020-09-29 腾讯科技(深圳)有限公司 文字纠错方法、装置、设备及存储介质
CN111783767A (zh) * 2020-07-27 2020-10-16 平安银行股份有限公司 文字识别方法、装置、电子设备及存储介质
CN112149680A (zh) * 2020-09-28 2020-12-29 武汉悦学帮网络技术有限公司 错字检测识别方法、装置、电子设备及存储介质
CN112528980A (zh) * 2020-12-16 2021-03-19 北京华宇信息技术有限公司 Ocr识别结果纠正方法及其终端、系统
CN113012705A (zh) * 2021-02-24 2021-06-22 海信视像科技股份有限公司 一种语音文本的纠错方法及装置
CN113408536A (zh) * 2021-06-23 2021-09-17 平安健康保险股份有限公司 票据的金额识别方法、装置、计算机设备及存储介质
WO2021212614A1 (zh) * 2020-04-23 2021-10-28 平安科技(深圳)有限公司 文本纠错方法、装置、计算机可读存储介质及系统
CN114677689A (zh) * 2022-03-29 2022-06-28 上海弘玑信息技术有限公司 一种文字图像识别纠错方法和电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1066335A (zh) * 1992-05-12 1992-11-18 浙江大学 字符识别方法与系统
CN105279149A (zh) * 2015-10-21 2016-01-27 上海应用技术学院 一种中文文本自动校正方法
CN106250364A (zh) * 2016-07-20 2016-12-21 科大讯飞股份有限公司 一种文本修正方法及装置
CN106407179A (zh) * 2016-08-26 2017-02-15 福建网龙计算机网络信息技术有限公司 汉字字形相似度计算方法及其系统
CN106847288A (zh) * 2017-02-17 2017-06-13 上海创米科技有限公司 语音识别文本的纠错方法与装置
CN106874947A (zh) * 2017-02-07 2017-06-20 第四范式(北京)技术有限公司 用于确定文字形近度的方法和设备
CN106940798A (zh) * 2017-03-08 2017-07-11 深圳市金立通信设备有限公司 一种文字识别的修正方法以及终端
CN107045496A (zh) * 2017-04-19 2017-08-15 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1066335A (zh) * 1992-05-12 1992-11-18 浙江大学 字符识别方法与系统
CN105279149A (zh) * 2015-10-21 2016-01-27 上海应用技术学院 一种中文文本自动校正方法
CN106250364A (zh) * 2016-07-20 2016-12-21 科大讯飞股份有限公司 一种文本修正方法及装置
CN106407179A (zh) * 2016-08-26 2017-02-15 福建网龙计算机网络信息技术有限公司 汉字字形相似度计算方法及其系统
CN106874947A (zh) * 2017-02-07 2017-06-20 第四范式(北京)技术有限公司 用于确定文字形近度的方法和设备
CN106847288A (zh) * 2017-02-17 2017-06-13 上海创米科技有限公司 语音识别文本的纠错方法与装置
CN106940798A (zh) * 2017-03-08 2017-07-11 深圳市金立通信设备有限公司 一种文字识别的修正方法以及终端
CN107045496A (zh) * 2017-04-19 2017-08-15 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197317A (zh) * 2018-02-01 2018-06-22 科大讯飞股份有限公司 文档关键信息抽取系统测试方法及装置
CN108664471A (zh) * 2018-05-07 2018-10-16 平安普惠企业管理有限公司 文字识别纠错方法、装置、设备及计算机可读存储介质
CN108664471B (zh) * 2018-05-07 2024-01-23 北京第一因科技有限公司 文字识别纠错方法、装置、设备及计算机可读存储介质
CN108829665A (zh) * 2018-05-22 2018-11-16 广州视源电子科技股份有限公司 错别字检测方法、装置及计算机可读存储介质、终端设备
CN108829665B (zh) * 2018-05-22 2022-05-31 广州视源电子科技股份有限公司 错别字检测方法、装置及计算机可读存储介质、终端设备
CN109102844A (zh) * 2018-08-24 2018-12-28 北京锐客科技有限公司 一种临床试验源数据自动校验方法
CN109102844B (zh) * 2018-08-24 2022-02-15 北京锐客科技有限公司 一种临床试验源数据自动校验方法
CN110928915A (zh) * 2018-08-31 2020-03-27 北京京东金融科技控股有限公司 中文姓名模糊匹配的方法、装置、设备及可读存储介质
CN109857912A (zh) * 2018-12-20 2019-06-07 广州企图腾科技有限公司 一种字形识别方法、电子设备及存储介质
CN110287910A (zh) * 2019-06-28 2019-09-27 北京百度网讯科技有限公司 用于获取信息的方法及装置
CN110472701A (zh) * 2019-08-14 2019-11-19 广东小天才科技有限公司 文字纠错方法、装置、电子设备和存储介质
CN110705536A (zh) * 2019-09-24 2020-01-17 北京字节跳动网络技术有限公司 汉字识别纠错方法、装置、计算机可读介质及电子设备
CN111126045A (zh) * 2019-11-25 2020-05-08 泰康保险集团股份有限公司 一种文本纠错方法和装置
CN111310442A (zh) * 2020-02-06 2020-06-19 北京字节跳动网络技术有限公司 形近字纠错语料挖掘方法、纠错方法、设备及存储介质
CN111310442B (zh) * 2020-02-06 2021-12-28 北京字节跳动网络技术有限公司 形近字纠错语料挖掘方法、纠错方法、设备及存储介质
CN111310443A (zh) * 2020-02-12 2020-06-19 新华智云科技有限公司 一种文本纠错方法和系统
CN111310443B (zh) * 2020-02-12 2023-08-18 新华智云科技有限公司 一种文本纠错方法和系统
CN111368918A (zh) * 2020-03-04 2020-07-03 拉扎斯网络科技(上海)有限公司 文本纠错方法、装置、电子设备及存储介质
CN111368918B (zh) * 2020-03-04 2024-01-05 拉扎斯网络科技(上海)有限公司 文本纠错方法、装置、电子设备及存储介质
CN111523532A (zh) * 2020-04-14 2020-08-11 广东小天才科技有限公司 一种矫正ocr文字识别错误的方法及终端设备
WO2021212614A1 (zh) * 2020-04-23 2021-10-28 平安科技(深圳)有限公司 文本纠错方法、装置、计算机可读存储介质及系统
CN111639566A (zh) * 2020-05-19 2020-09-08 浙江大华技术股份有限公司 一种提取表单信息的方法及装置
CN111723791A (zh) * 2020-06-11 2020-09-29 腾讯科技(深圳)有限公司 文字纠错方法、装置、设备及存储介质
CN111783767B (zh) * 2020-07-27 2024-03-19 平安银行股份有限公司 文字识别方法、装置、电子设备及存储介质
CN111783767A (zh) * 2020-07-27 2020-10-16 平安银行股份有限公司 文字识别方法、装置、电子设备及存储介质
CN112149680A (zh) * 2020-09-28 2020-12-29 武汉悦学帮网络技术有限公司 错字检测识别方法、装置、电子设备及存储介质
CN112149680B (zh) * 2020-09-28 2024-01-16 武汉悦学帮网络技术有限公司 错字检测识别方法、装置、电子设备及存储介质
CN112528980A (zh) * 2020-12-16 2021-03-19 北京华宇信息技术有限公司 Ocr识别结果纠正方法及其终端、系统
CN113012705B (zh) * 2021-02-24 2022-12-09 海信视像科技股份有限公司 一种语音文本的纠错方法及装置
CN113012705A (zh) * 2021-02-24 2021-06-22 海信视像科技股份有限公司 一种语音文本的纠错方法及装置
CN113408536A (zh) * 2021-06-23 2021-09-17 平安健康保险股份有限公司 票据的金额识别方法、装置、计算机设备及存储介质
CN114677689A (zh) * 2022-03-29 2022-06-28 上海弘玑信息技术有限公司 一种文字图像识别纠错方法和电子设备

Also Published As

Publication number Publication date
CN107633250B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN107633250A (zh) 一种文字识别纠错方法、纠错系统及计算机装置
CN104268603B (zh) 用于文字性客观题的智能阅卷方法及系统
CN104463250B (zh) 一种基于达芬奇技术的手语识别翻译方法
CN107609489B (zh) 书法书写路径评价装置、方法及电子设备
CN108108732A (zh) 字符辨识系统及其字符辨识方法
CN108921166A (zh) 基于深度神经网络的医疗票据类文本检测识别方法及系统
CN111753767A (zh) 一种作业自动批改的方法、装置、电子设备和存储介质
CN104008363B (zh) 手写轨迹的检测、规范化和在线识别以及异常字根的收集
CN107680678A (zh) 基于多尺度卷积神经网络甲状腺超声图像结节自动诊断系统
CN101299236B (zh) 一种中文手写词组识别方法
CN106529499A (zh) 基于傅里叶描述子和步态能量图融合特征的步态识别方法
CN105930159A (zh) 一种基于图像的界面代码生成的方法及系统
CN105574063A (zh) 基于视觉显著性的图像检索方法
CN104952073B (zh) 基于深度学习的镜头边缘检测方法
CN103970733B (zh) 一种基于图结构的中文新词识别方法
CN106202285A (zh) 搜索结果展示方法和装置
CN110781805B (zh) 一种目标物体检测方法、装置、计算设备和介质
CN101520851A (zh) 字符信息识别装置和方法
CN106778717A (zh) 一种基于图像识别和k近邻的测评表识别方法
CN105787522A (zh) 基于手写笔迹的书写态度评价方法及系统
CN105608454A (zh) 基于文字结构部件检测神经网络的文字检测方法及系统
CN109343920A (zh) 一种图像处理方法及其装置、设备和存储介质
CN109919060A (zh) 一种基于特征匹配的身份证内容识别系统及方法
CN110188730A (zh) 基于mtcnn的人脸检测与对齐方法
CN104794485B (zh) 一种识别书写字的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant