CN106934918A - 利用基本语料库辅助进行票据字符识别的方法和装置 - Google Patents

利用基本语料库辅助进行票据字符识别的方法和装置 Download PDF

Info

Publication number
CN106934918A
CN106934918A CN201511019950.XA CN201511019950A CN106934918A CN 106934918 A CN106934918 A CN 106934918A CN 201511019950 A CN201511019950 A CN 201511019950A CN 106934918 A CN106934918 A CN 106934918A
Authority
CN
China
Prior art keywords
identification
character
corpus
data
mistake
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201511019950.XA
Other languages
English (en)
Inventor
刘畅
马雁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN201511019950.XA priority Critical patent/CN106934918A/zh
Publication of CN106934918A publication Critical patent/CN106934918A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07DHANDLING OF COINS OR VALUABLE PAPERS, e.g. TESTING, SORTING BY DENOMINATIONS, COUNTING, DISPENSING, CHANGING OR DEPOSITING
    • G07D7/00Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency
    • G07D7/20Testing patterns thereon

Abstract

本发明实施例提供了一种利用基本语料库辅助进行票据字符识别的方法和装置。该方法包括:根据已知的票据字符识别的错误信息构建基本语料库,采用扫描仪扫描采集票据上的密文数据和明文图像,通过OCR识别将明文图像转换成识别数据,对密文数据进行解密,得到解密数据;将识别数据和所述解密数据进行比对,如果识别数据与解密数据之间的比对结果为不一致,则确认识别数据错误,利用基本语料库对识别数据进行修正。本发明实施例提供的方法可有效的避免常用字符识别错误的情况,提高识别率。定期更新语料库既可以保持语料库与时俱进,又不需要占用太多内存空间,降低查找难度,提高辅助识别的有效性和时效性。

Description

利用基本语料库辅助进行票据字符识别的方法和装置
技术领域
本发明涉及票据识别技术领域,尤其涉及一种利用基本语料库辅助进行票据字符识别的方法和装置。
背景技术
现在的光学字符识别系统,是通过行切分及列切分,逐一将待识别字符串图像切分成单个字符、单元图像块后进行识别,对于识别包括若干粘连字符、中英文混排字符等情况,需要在切分时找到图像块的特征数据再进行处理切分,或依赖于字符识别反馈机制,来提高识别率。上述字符识别方法的缺点为:不能保证常用字符特别是形似字和生僻字的正确识别,影响识别率。
改进的字符识别方法就是使用语料库辅助OCR(Optical CharacterRecognition,光学字符识别)识别,从而提高识别率。语料库是指经科学取样和加工的大规模电子文本库,目前主要是基于N-gram语言模型构建的各种改进的固定语料库。上述改进的字符识别方法的问题为:模型空间复杂度太高,且语料库的构建工作庞大,语料库固定很难改进和吸收新鲜词汇;另外还有运用基于互联网接口的语料库,不需要存储固定的语料库,直接通过互联网搜索的方式进行辅助识别,但缺点是联网搜索的耗时太长。
发明内容
本发明的实施例提供了一种利用基本语料库辅助进行票据字符识别的方法和装置,以实现有效地进行票据字符识别。
为了实现上述目的,本发明采取了如下技术方案。
一种利用基本语料库辅助进行票据字符识别的方法,其特征在于,根据已知的票据字符识别的错误信息构建基本语料库,所述方法具体包括:
采用扫描仪扫描采集票据上的密文数据和明文图像,通过OCR识别将所述明文图像转换成识别数据,对所述密文数据进行解密,得到解密数据;
将所述识别数据和所述解密数据进行比对,如果所述识别数据与所述解密数据之间的比对结果为不一致,则确认所述识别数据错误,利用所述基本语料库对所述识别数据进行修正。
进一步的,所述的根据已知的票据字符识别的错误信息构建基本语料库,包括:
根据先验知识收集票据字符识别的错误信息,根据收集的信息构建基本语料库,所述基本语料库中包括多条记录,每条记录中包括正确字符、识别错误字符和识别错误数,每个正确字符按识别率只记录识别错误数最高的前若干位的识别错误字符。
进一步的,所述的方法还包括:
定期对各处汇总的票据识别错误信息进行统计,将该段时间内新增的票据字符的识别错误信息添加到所述基本语料库中,再按照错误识别率和容错机制精简出实际使用的基本语料库,并进行定期下载更新到本地。
进一步的,所述的利用所述基本语料库对所述识别数据进行修正包括:
在确定所述识别数据错误后,根据实际修正精度要求设置对所述识别数据进行修正的识别错误数阈值;
提取出所述识别数据中识别错误的字符,提取所述解密数据中所述识别错误的字符对应的解密字符,依据所述识别错误的字符和对应的解密字符查询所述基本语料库,当在所述基本语料库中查询到包含所述识别错误的字符和对应的解密字符的记录,并且所述记录中的识别错误数大于所述识别错误数阈值,则将所述识别错误的字符修正为所述对应的解密字符,将所述记录中记载的识别错误数加一。
进一步的,所述的方法还包括:
当在所述基本语料库中没有查询到包含识别错误的字符和对应的解密字符的记录,或者查询到的记录中的识别错误数小于识别错误数阈值,则对照票面明文信息对识别错误的字符进行手工修改。
进一步的,包括:
基本语料库构建模块,用于根据已知的票据字符识别的错误信息构建基本语料库;
数据转换模块,用于采用扫描仪扫描采集票据上的密文数据和明文图像,通过OCR识别将所述明文图像转换成识别数据,对所述密文数据进行解密,得到解密数据;
数据比对模块,用于将所述识别数据和解密数据进行比对,如果识别数据与解密数据之间的比对结果为不一致,则确认所述识别数据错误;
数据修正模块,用于利用所述基本语料库对所述识别数据进行修正。
进一步的,所述的基本语料库构建模块,用于根据先验知识收集票据字符识别的错误信息,根据收集的信息构建基本语料库,所述基本语料库中包括多条记录,每条记录中包括正确字符、识别错误字符和识别错误数,每个正确字符按识别率只记录识别错误数最高的前若干位的识别错误字符。
进一步的,所述的基本语料库构建模块,用于定期对各处汇总的票据识别错误信息进行统计,将该段时间内新增的识别错误信息添加到所述基本语料库中,再按照错误识别率和容错机制精简出实际使用的基本语料库,并进行定期下载更新到本地。
进一步的,所述的数据转换模块,用于在确定所述识别数据错误后,根据实际修正精度要求设置对所述识别数据进行修正的识别错误数阈值;
提取出所述识别数据中识别错误的字符,提取所述解密数据中所述识别错误的字符对应的解密字符,依据所述识别错误的字符和对应的解密字符查询所述基本语料库,当在所述基本语料库中查询到包含所述识别错误的字符和对应的解密字符的记录,并且所述记录中的识别错误数大于所述识别错误数阈值,则将所述识别错误的字符修正为所述对应的解密字符,将所述记录中记载的识别错误数加一。
进一步的,所述的数据修正模块,用于当在所述基本语料库中没有查询到包含识别错误的字符和对应的解密字符的记录,或者查询到的记录中的识别错误数小于识别错误数阈值,则对照票面明文信息对识别错误的字符进行手工修改。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例提供的利用基本语料库辅助进行票据字符识别的方法对于OCR识别错误的字符,将其与语料库中的正确字符和相应的识别错误版本进行匹配,完全匹配时进行替换处理,可有效的避免常用字符识别错误的情况,提高识别率。定期更新语料库既可以保持语料库与时俱进,又不需要占用太多内存空间,降低查找难道,提高辅助识别的有效性和时效性。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种利用基本语料库辅助进行票据字符识别的方法的处理流程图;
图2为本发明实施例二提供的一种利用基本语料库辅助进行票据字符识别的装置,图中,基本语料库构建模块21,数据转换模块22,数据比对模块23和数据修正模块24。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
实施例一
本发明实施例的目的在于找到一种辅助OCR识别的语料库构建方式,使得在不占用用户过多空间、不影响字符识别速度的前提下,提高票据字符识别率,减少用户手工修改识别错误字符的工作。
该实施例提供了一种利用基本语料库辅助进行票据字符识别的方法的处理流程如图1所示,包括如下的处理步骤:
步骤1、首先收集前期票据字符识别的错误信息,构建基本语料库。
语料库中分别记录正确字符、识别错误字符和识别错误数,每个正确字符按识别率只记录错误率高的前若干位的错误字符。
语料库存储格式:
索引项 正确字符 识别错误字符 识别错误数
1 275
2 199
3 84
4 55
……
步骤2、票据认证:利用高速扫描仪自动采集票据上的密文和明文图像,OCR识别用于获取票据的明文信息,通过OCR程序对明文图像进行识别,将明文图像转换成识别数据,并保存识别数据。然后,对票据密文进行解密,得到解密数据。再将所述识别数据和解密数据进行比对,根据比对结果来判别票据的真伪。
如果识别数据与解密数据之间的比对结果为不一致,则认为票据识别错误,需要提示用户按照票面的明文信息进行修正;如果识别数据与解密数据之间的比对结果为一致,则认为票据识别正确,是真票据。
步骤3、针对识别错误的字符,采用语料库辅助识别的方式,对识别结果进行进一步的纠错和修改。
在确定识别数据错误后,根据实际的修正精度要求,设置对所述识别数据进行修正的识别错误数阈值。
提取出识别数据中识别错误的字符,提取所述解密数据中所述识别错误的字符对应的解密字符,依据所述识别错误的字符和对应的解密字符查询所述基本语料库,当在所述基本语料库中查询到包含所述识别错误的字符和对应的解密字符的记录,并且所述记录中的识别错误数大于所述识别错误数阈值,即记录中记载的识别错误字符和上述对应的识别错误的字符相同,记录中记载的正确字符和上述对应的解密字符相同,则将所述识别错误的字符修正为所述对应的解密字符。然后,将所述记录中记载的识别错误数加一。
从而减少了识别错误字符的数量,提高了识别率。
步骤4、人工校正。当在基本语料库中没有查询到包含识别错误的字符和对应的解密字符的记录,或者查询到的记录中的识别错误数小于识别错误数阈值,则需要提示用户对照票面明文信息对识别错误的字符进行手工修改,直到用户将识别错误信息完全修改正确为止,票据才能认证通过。
步骤5、保存票据信息。当票据认证结束后,将票据信息和记录的识别错误信息一并传给后台。
步骤6、后台数据库存储。后台将票据的各项信息保存到数据库中,以备后续处理。作为语料库数据来源,留存后台备用。
步骤7、后台定期整理语料库并更新。让后台定期对各处汇总的票据识别错误信息进行统计,将该段时间内新增的识别错误信息添加到后台的基础语料库中,再按照错误识别率和容错机制精简出实际使用的语料库,并进行定期下载更新到本地。
其中:基础数据库提炼实际使用语料库
实施例二
该实施例提供了一种利用基本语料库辅助进行票据字符识别的装置,其具体实现结构如图2所示,具体可以包括如下的模块:
基本语料库构建模块21,用于根据已知的票据字符识别的错误信息构建基本语料库;
数据转换模块22,用于采用扫描仪扫描采集票据上的密文数据和明文图像,通过OCR识别将所述明文图像转换成识别数据,对所述密文数据进行解密,得到解密数据;
数据比对模块23,用于将所述识别数据和解密数据进行比对,如果识别数据与解密数据之间的比对结果为不一致,则确认所述识别数据错误;
数据修正模块24,用于利用所述基本语料库对所述识别数据进行修正。
进一步地,所述的基本语料库构建模块21,用于根据先验知识收集票据字符识别的错误信息,根据收集的信息构建基本语料库,所述基本语料库中包括多条记录,每条记录中包括正确字符、识别错误字符和识别错误数,每个正确字符按识别率只记录识别错误数最高的前若干位的识别错误字符。
定期对各处汇总的票据识别错误信息进行统计,将该段时间内新增的识别错误信息添加到所述基本语料库中,再按照错误识别率和容错机制精简出实际使用的基本语料库,并进行定期下载更新到本地。
进一步地,所述的数据转换模块22,用于在确定所述识别数据错误后,根据实际修正精度要求设置对所述识别数据进行修正的识别错误数阈值;
提取出所述识别数据中识别错误的字符,提取所述解密数据中所述识别错误的字符对应的解密字符,依据所述识别错误的字符和对应的解密字符查询所述基本语料库,当在所述基本语料库中查询到包含所述识别错误的字符和对应的解密字符的记录,并且所述记录中的识别错误数大于所述识别错误数阈值,则将所述识别错误的字符修正为所述对应的解密字符,将所述记录中记载的识别错误数加一。
进一步地,所述的数据修正模块23,用于当在所述基本语料库中没有查询到包含识别错误的字符和对应的解密字符的记录,或者查询到的记录中的识别错误数小于识别错误数阈值,则对照票面明文信息对识别错误的字符进行手工修改。
用本发明实施例的装置进行利用基本语料库辅助进行票据字符识别的具体过程与前述方法实施例类似,此处不再赘述。
综上所述,本发明实施例提供的利用基本语料库辅助进行票据字符识别的方法对于OCR识别错误的字符,将其与语料库中的正确字符和相应的识别错误版本进行匹配,完全匹配时进行替换处理,可有效的避免常用字符识别错误的情况,提高识别率。定期更新语料库既可以保持语料库与时俱进,又不需要占用太多内存空间,降低查找难道,提高辅助识别的有效性和时效性。
本发明实施例在不占用太大空间且不影响识别效率的前提下,保证常用字符特别是常用形似字和生僻字识别结果的正确性,从而提高字符识别率,提高用户的使用效果,减少用户手工修改票面信息的几率。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,后台服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种利用基本语料库辅助进行票据字符识别的方法,其特征在于,根据已知的票据字符识别的错误信息构建基本语料库,所述方法具体包括:
采用扫描仪扫描采集票据上的密文数据和明文图像,通过OCR识别将所述明文图像转换成识别数据,对所述密文数据进行解密,得到解密数据;
将所述识别数据和所述解密数据进行比对,如果所述识别数据与所述解密数据之间的比对结果为不一致,则确认所述识别数据错误,利用所述基本语料库对所述识别数据进行修正。
2.根据权利要求1所述的利用基本语料库辅助进行票据字符识别的方法,其特征在于,所述的根据已知的票据字符识别的错误信息构建基本语料库,包括:
根据先验知识收集票据字符识别的错误信息,根据收集的信息构建基本语料库,所述基本语料库中包括多条记录,每条记录中包括正确字符、识别错误字符和识别错误数,每个正确字符按识别率只记录识别错误数最高的前若干位的识别错误字符。
3.根据权利要求2所述的利用基本语料库辅助进行票据字符识别的方法,其特征在于,所述的方法还包括:
定期对各处汇总的票据识别错误信息进行统计,将该段时间内新增的票据字符的识别错误信息添加到所述基本语料库中,再按照错误识别率和容错机制精简出实际使用的基本语料库,并进行定期下载更新到本地。
4.根据权利要求2所述的利用基本语料库辅助进行票据字符识别的方法,其特征在于,所述的利用所述基本语料库对所述识别数据进行修正包括:
在确定所述识别数据错误后,根据实际修正精度要求设置对所述识别数据进行修正的识别错误数阈值;
提取出所述识别数据中识别错误的字符,提取所述解密数据中所述识别错误的字符对应的解密字符,依据所述识别错误的字符和对应的解密字符查询所述基本语料库,当在所述基本语料库中查询到包含所述识别错误的字符和对应的解密字符的记录,并且所述记录中的识别错误数大于所述识别错误数阈值,则将所述识别错误的字符修正为所述对应的解密字符,将所述记录中记载的识别错误数加一。
5.根据权利要求4所述的利用基本语料库辅助进行票据字符识别的方法,其特征在于,所述的方法还包括:
当在所述基本语料库中没有查询到包含识别错误的字符和对应的解密字符的记录,或者查询到的记录中的识别错误数小于识别错误数阈值,则对照票面明文信息对识别错误的字符进行手工修改。
6.一种利用基本语料库辅助进行票据字符识别的装置,其特征在于,包括:
基本语料库构建模块,用于根据已知的票据字符识别的错误信息构建基本语料库;
数据转换模块,用于采用扫描仪扫描采集票据上的密文数据和明文图像,通过OCR识别将所述明文图像转换成识别数据,对所述密文数据进行解密,得到解密数据;
数据比对模块,用于将所述识别数据和解密数据进行比对,如果识别数据与解密数据之间的比对结果为不一致,则确认所述识别数据错误;
数据修正模块,用于利用所述基本语料库对所述识别数据进行修正。
7.根据权利要求6所述的利用基本语料库辅助进行票据字符识别的装置,其特征在于:
所述的基本语料库构建模块,用于根据先验知识收集票据字符识别的错误信息,根据收集的信息构建基本语料库,所述基本语料库中包括多条记录,每条记录中包括正确字符、识别错误字符和识别错误数,每个正确字符按识别率只记录识别错误数最高的前若干位的识别错误字符。
8.根据权利要求7所述的利用基本语料库辅助进行票据字符识别的装置,其特征在于:
所述的基本语料库构建模块,用于定期对各处汇总的票据识别错误信息进行统计,将该段时间内新增的识别错误信息添加到所述基本语料库中,再按照错误识别率和容错机制精简出实际使用的基本语料库,并进行定期下载更新到本地。
9.根据权利要求7所述的利用基本语料库辅助进行票据字符识别的装置,其特征在于:
所述的数据转换模块,用于在确定所述识别数据错误后,根据实际修正精度要求设置对所述识别数据进行修正的识别错误数阈值;
提取出所述识别数据中识别错误的字符,提取所述解密数据中所述识别错误的字符对应的解密字符,依据所述识别错误的字符和对应的解密字符查询所述基本语料库,当在所述基本语料库中查询到包含所述识别错误的字符和对应的解密字符的记录,并且所述记录中的识别错误数大于所述识别错误数阈值,则将所述识别错误的字符修正为所述对应的解密字符,将所述记录中记载的识别错误数加一。
10.根据权利要求9所述的利用基本语料库辅助进行票据字符识别的装置,其特征在于:
所述的数据修正模块,用于当在所述基本语料库中没有查询到包含识别错误的字符和对应的解密字符的记录,或者查询到的记录中的识别错误数小于识别错误数阈值,则对照票面明文信息对识别错误的字符进行手工修改。
CN201511019950.XA 2015-12-30 2015-12-30 利用基本语料库辅助进行票据字符识别的方法和装置 Pending CN106934918A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511019950.XA CN106934918A (zh) 2015-12-30 2015-12-30 利用基本语料库辅助进行票据字符识别的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511019950.XA CN106934918A (zh) 2015-12-30 2015-12-30 利用基本语料库辅助进行票据字符识别的方法和装置

Publications (1)

Publication Number Publication Date
CN106934918A true CN106934918A (zh) 2017-07-07

Family

ID=59442275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511019950.XA Pending CN106934918A (zh) 2015-12-30 2015-12-30 利用基本语料库辅助进行票据字符识别的方法和装置

Country Status (1)

Country Link
CN (1) CN106934918A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107622263A (zh) * 2017-02-20 2018-01-23 平安科技(深圳)有限公司 单据图像的字符识别方法和装置
CN109074355A (zh) * 2015-09-30 2018-12-21 开文公司 用于表意字符分析的方法和系统
CN110334707A (zh) * 2019-06-28 2019-10-15 苏宁云计算有限公司 一种模型修正方法及修正系统
CN112749639A (zh) * 2020-12-29 2021-05-04 中电金信软件有限公司 模型训练方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101685499A (zh) * 2008-09-22 2010-03-31 因特伟特公司 用于纠正字符识别错误的技术
CN103617415A (zh) * 2013-11-19 2014-03-05 北京京东尚科信息技术有限公司 一种自动识别发票的装置和方法
CN103942223A (zh) * 2013-01-23 2014-07-23 北京百度网讯科技有限公司 一种对语言模型进行在线纠错的方法及系统
US20150023599A1 (en) * 2013-07-17 2015-01-22 International Business Machines Corporation Optical Match Character Classification
CN105023166A (zh) * 2014-04-24 2015-11-04 钱文辉 一种基于纸质凭证数据自动识别的返利方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101685499A (zh) * 2008-09-22 2010-03-31 因特伟特公司 用于纠正字符识别错误的技术
CN103942223A (zh) * 2013-01-23 2014-07-23 北京百度网讯科技有限公司 一种对语言模型进行在线纠错的方法及系统
US20150023599A1 (en) * 2013-07-17 2015-01-22 International Business Machines Corporation Optical Match Character Classification
CN103617415A (zh) * 2013-11-19 2014-03-05 北京京东尚科信息技术有限公司 一种自动识别发票的装置和方法
CN105023166A (zh) * 2014-04-24 2015-11-04 钱文辉 一种基于纸质凭证数据自动识别的返利方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109074355A (zh) * 2015-09-30 2018-12-21 开文公司 用于表意字符分析的方法和系统
CN107622263A (zh) * 2017-02-20 2018-01-23 平安科技(深圳)有限公司 单据图像的字符识别方法和装置
CN107622263B (zh) * 2017-02-20 2018-08-21 平安科技(深圳)有限公司 单据图像的字符识别方法和装置
CN110334707A (zh) * 2019-06-28 2019-10-15 苏宁云计算有限公司 一种模型修正方法及修正系统
CN112749639A (zh) * 2020-12-29 2021-05-04 中电金信软件有限公司 模型训练方法、装置、计算机设备和存储介质
CN112749639B (zh) * 2020-12-29 2022-01-14 中电金信软件有限公司 模型训练方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN109918489B (zh) 一种多策略融合的知识问答方法和系统
US9495347B2 (en) Systems and methods for extracting table information from documents
CN105868679B (zh) 指纹信息的动态更新方法和指纹识别装置
CN106934918A (zh) 利用基本语料库辅助进行票据字符识别的方法和装置
US20100257440A1 (en) High precision web extraction using site knowledge
US9141853B1 (en) System and method for extracting information from documents
CN105976818A (zh) 指令识别的处理方法及装置
CN102654874A (zh) 单据数据管理方法及系统
CN108959203A (zh) 一种文挡录入并比对的方法
CN110889310B (zh) 金融文档信息智能提取系统及方法
IES20020647A2 (en) A data quality system
CN110705515A (zh) 一种基于ocr文字识别的医院纸质档案归档方法及系统
CN102521218B (zh) 文件合成方法及装置
CN104915668A (zh) 医学影像中的文字信息识别方法及装置
CN103020119A (zh) 将纸版简历转化为电子版的转化方法、装置与系统
CN103942220A (zh) 一种适用于it运维系统的工单智能关联知识库知识的方法
CN103778185A (zh) 一种用于数据库审计系统的sql语句解析方法和系统
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
CN106326193A (zh) 一种版式文档中脚注识别方法及脚注与脚注引用关联方法
US20150248382A1 (en) Apparatus and method for converting an electronic form
CN104063701B (zh) 基于surf词汇树和模板匹配的快速电视台台标识别系统及其实现方法
CN107403140A (zh) 一种名片信息识别和名片图像匹配管理方法
US9524354B2 (en) Device, method, and program for processing data with tree structure
CN102467664B (zh) 辅助光学字符识别的方法和装置
CN109783483A (zh) 一种数据整理的方法、装置、计算机存储介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170707

RJ01 Rejection of invention patent application after publication