CN106485243B - 一种票据识别纠错方法及装置 - Google Patents
一种票据识别纠错方法及装置 Download PDFInfo
- Publication number
- CN106485243B CN106485243B CN201610928581.4A CN201610928581A CN106485243B CN 106485243 B CN106485243 B CN 106485243B CN 201610928581 A CN201610928581 A CN 201610928581A CN 106485243 B CN106485243 B CN 106485243B
- Authority
- CN
- China
- Prior art keywords
- error correction
- bill
- numerical value
- text
- archives
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Abstract
本发明公开了一种票据识别纠错方法及装置,由于主要包括:进行文本预处理,票据文本与纠错历史中的生效数据匹配,匹配成功则比较识别到的票据的指定位置的一组文本与数据库存储的档案的编码、名称、属性,修正文本,记录纠错历史,在循环纠错的情况下,标记纠错历史的生效状态,使循环纠错记录失效但不删除;预先对特定种类的票据定义数值的等式关系,自动修正票据的错误数值;即利用票据各字段的语义和上下文的联系,结合ERP系统存储的档案,对票据识别结构进行交叉校验,纠正识别错误,提高准确率。
Description
技术领域
本发明涉及票据识别纠错技术领域,具体地,涉及一种票据识别纠错方法及装置。
背景技术
2016年全国范围内全面推开营业税改增值税改革试点,消除重复征税,降低企业税负成本。实行“营改增”后,企业可用取得的增值税专用发票的进项税额抵扣销项税额。为了在企业财务系统或ERP系统里计算税额,企业需要把进项发票录入系统,人工工作量很大。使用光学字符识别(OCR)技术配合扫描仪可以自动识别纸质增值税发票等票据,并自动将数据传入企业信息系统,降低了人工工作量。
但是OCR识别率无法达到100%,识别率受限于票据印刷质量与清洁程度,以及扫描仪硬件性能和识别软件算法。现有OCR算法依据票据的表格样式把票据切割成一段段孤立的字符串,对每个单元格的文本使用深度学习算法识别。OCR装置不与ERP系统交互,除非将识别结果以格式化数据如XML文档的形式发送给ERP系统,则OCR装置不能使用ERP系统的持久化数据来纠正识别错误。同时,ERP系统接收到的结构化识别结果的每个字段只有一个确定值,而非一组候选值,ERP系统亦不能依据持久化数据和纠错历史来选择恰当的候选值。
CN103927352 A提供一种利用知识库海量关联信息的中文名片OCR 数据修正系统,包括图像采集模块、图像标准化处理模块、字块提取模块、OCR 模块、知识库模块、数据修正模块、增量维护模块、结果展示模块。发明重点在于对OCR 模块的识别结果,首先进行信息结构化处理来为待修正数据打上标签,然后利用知识库模块的海量关联信息,结合中文分词、基于知识库的重要度加权、基于文本和图像的相似度比较、信息融合等一系列技术来对地址、单位名称关联信息进行修正以提升正确率;最后,将修正后的OCR 结果进行输出展示。同时,系统的增量维护模块以半自动方式来对知识库进行信息维护,从而适应信息量不断增长的需求,虽然和本发明都使用数据的关联性来修正OCR识别错误,但本发明适用于票据等多属性的结构化数据,使用多个属性交叉匹配的算法,复杂度低且速度快。
发明内容
本发明的目的在于,针对上述问题,提出一种票据识别纠错方法及装置,以实现利用票据各字段的语义和上下文的联系,结合ERP系统存储的档案,对票据识别结构进行交叉校验,纠正识别错误,提高准确率的优点。
为实现上述目的,本发明采用的技术方案是:一种票据识别纠错方法,主要包括:
步骤1:OCR系统识别到的票据进入ERP系统;
步骤2:进行文本预处理,票据文本与纠错历史中的生效数据匹配,匹配成功则执行步骤3,
步骤3:比较识别到的票据的指定位置的一组文本与数据库存储的档案的编码、名称、属性,修正文本,记录纠错历史,在循环纠错的情况下,标记纠错历史的生效状态,使循环纠错记录失效但不删除;
步骤4:预先对特定种类的票据定义数值的等式关系,自动修正票据的错误数值;
步骤5:票据最终存储为ERP系统的电子票据。
进一步地,步骤3具体为,对于票据识别出的档案编码code、名称name、属性1attr1、属性2 attr2,从数据库查出所有可能匹配的档案,如果查到档案,则按4项匹配、3项匹配、2项匹配的顺序遍历查询结果,如果匹配成功,则修正票据数据,同时生成一条纠错历史数据,如果纠错历史已有重复的有效记录或无效记录,则不处理;如果纠错历史有相反的记录,则标记为无效。
进一步地,步骤4中,自动修正票据的错误数值,包括:
步骤41:标记所有数值为状态未知;
步骤42:校验所有等式,如果成立,则等式用到的数值标记为正确,否则标记状态未知的数值为错误,记录错误数值个数;
步骤43:如果错误数值个数不为零,则查找只有一个错误数值的等式,计算出正确值,并标记数值为正确,修改错误数值个数;
步骤44:重复步骤3,直到错误数值个数不变;
步骤45:如果错误数值个数为零,则数值修正完成,否则后续人工处理。
进一步地,步骤4中对特定种类的票据定义数值的等式关系,包括对增值税专用发票定义数值的等式关系,具体为:
pi×ni=mi;
mi×ri=ti;
∑mi=M ;
∑ti=T;
M+T=L;
p1~pn为单价,n1~nn为数量,m1~mn为金额,r1~rn为税率,t1~tn为税额,
M为合计金额,T为合计税额,L为价税合
若等式成立,则等式所用的数值全部是正确的,不考虑恰好两个或多个错误数据导致等式仍然成立的情况。
票据识别纠错装置,包括文本预处理模块、文本纠错模块、数值纠错模块和纠错历史记录模块,所述文本预处理模块对文本进行预处理,包括票据文本与纠错历史记录模块中的生效数据匹配,匹配成功则执行修正;
所述文本纠错模块对于票据识别出的档案编码code、名称name、属性1 attr1和属性2 attr2,从数据库查出所有可能匹配的档案,如果查到档案,则遍历查询结果,如果匹配成功,则修正票据数据,同时生成一条纠错历史数据,如果纠错历史已有重复的有效记录或无效记录,则不处理;如果纠错历史有相反的记录,则标记为无效; 所述数值纠错模块,预先对特定种类的票据定义数值的等式关系,并自动修正票据的错误数值。
本发明各实施例的一种票据识别纠错方法及装置,由于主要包括:进行文本预处理,票据文本与纠错历史中的生效数据匹配,匹配成功则比较识别到的票据的指定位置的一组文本与数据库存储的档案的编码、名称、属性,修正文本,记录纠错历史,在循环纠错的情况下,标记纠错历史的生效状态,使循环纠错记录失效但不删除;预先对特定种类的票据定义数值的等式关系,自动修正票据的错误数值;即利用利用票据各字段的语义和上下文的联系,结合ERP系统存储的档案,对票据识别结构进行交叉校验,纠正识别错误,提高准确率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例所述的一种票据识别纠错方法及装置的工作原理图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
具体地,一种票据识别纠错方法,主要包括:
步骤1:OCR系统识别到的票据进入ERP系统;
步骤2:进行文本预处理,票据文本与纠错历史中的生效数据匹配,匹配成功则执行步骤3,
步骤3:比较识别到的票据的指定位置的一组文本与数据库存储的档案的编码、名称、属性,修正文本,记录纠错历史,在循环纠错的情况下,标记纠错历史的生效状态,使循环纠错记录失效但不删除;
步骤4:预先对特定种类的票据定义数值的等式关系,自动修正票据的错误数值;
步骤5:票据最终存储为ERP系统的电子票据。
步骤3具体为,对于票据识别出的档案编码code、名称name、属性1 attr1、属性2attr2,从数据库查出所有可能匹配的档案,如果查到档案,则按4项匹配、3项匹配、2项匹配的顺序遍历查询结果,如果匹配成功,则修正票据数据,同时生成一条纠错历史数据,如果纠错历史已有重复的有效记录或无效记录,则不处理;如果纠错历史有相反的记录,则标记为无效。
步骤4中,自动修正票据的错误数值,包括:
步骤41:标记所有数值为状态未知;
步骤42:校验所有等式,如果成立,则等式用到的数值标记为正确,否则标记状态未知的数值为错误,记录错误数值个数;
步骤43:如果错误数值个数不为零,则查找只有一个错误数值的等式,计算出正确值,并标记数值为正确,修改错误数值个数;
步骤44:重复步骤3,直到错误数值个数不变;
步骤45:如果错误数值个数为零,则数值修正完成,否则后续人工处理。
步骤4中对特定种类的票据定义数值的等式关系,包括对增值税专用发票定义数值的等式关系,具体为:
pi×ni=mi ;
mi×ri=ti;
∑mi=M ;
∑ti=T;
M+T=L;
p1~pn为单价,n1~nn为数量,m1~mn为金额,r1~rn为税率,t1~tn为税额,
M为合计金额,T为合计税额,L为价税合
若等式成立,则等式所用的数值全部是正确的,不考虑恰好两个或多个错误数据导致等式仍然成立的情况。
票据识别纠错装置,包括文本预处理模块、文本纠错模块、数值纠错模块和纠错历史记录模块,所述文本预处理模块对文本进行预处理,包括票据文本与纠错历史记录模块中的生效数据匹配,匹配成功则执行修正;
所述文本纠错模块对于票据识别出的档案编码code、名称name、属性1 attr1和属性2 attr2,从数据库查出所有可能匹配的档案,如果查到档案,则遍历查询结果,如果匹配成功,则修正票据数据,同时生成一条纠错历史数据,如果纠错历史已有重复的有效记录或无效记录,则不处理;如果纠错历史有相反的记录,则标记为无效; 所述数值纠错模块,预先对特定种类的票据定义数值的等式关系,并自动修正票据的错误数值。
本发明适用于对光学字符识别的票据,根据票据内容的语义,自动纠正错误内容,提高票据识别正确率。
利用票据各字段的语义和上下文的联系,结合ERP系统存储的档案,对票据识别结构进行交叉校验,纠正识别错误,提高准确率。
文本类数据
票据识别出四行文本,对应ERP系统中的档案D的编码(code)、名称(name)、属性1(attr1)、属性2(attr2)。档案编码是唯一的;考虑实用场景(如企事业单位名称),认为名称也具有唯一性;属性包括企事业单位的地址、电话、法人代表等,存在重复的可能性。
档案的编码、名称、属性具有特点:对变化敏感。名称相似但不同的两个档案,编码和属性往往有很大差异,例如,“用友网络科技股份有限公司北京分公司”和“用友网络科技股份有限公司南京分公司”,名称只差一字,办公地址、电话、银行账号却完全不同。本装置假定现实中不存在编码、名称、各属性有两个以上重复的档案。
在不存在编码、名称、各属性同时重复的档案的前提下,若识别到的档案的编码、名称、属性1、属性2中的2个或3个元素与ERP系统事先录入的档案相同,则认为是同一个档案,并自动修改剩余的1~2个元素。
数值类数据
票据上的数值之间存在运算关系。以增值税专用发票为例,票面数值类数据有:
单价p1~pn,数量n1~nn,金额m1~mn,税率r1~rn,税额t1~tn,
合计金额M,合计税额T,价税合计(小写)L
存在等式:
1)pi×ni=mi
2)mi×ri=ti
3)∑mi=M
4)∑ti=T
5)M+T=L
若等式成立,则等式所用的数值全部是正确的,不考虑恰好两个或多个错误数据导致等式仍然成立的情况。
自动化纠错步骤:
1)标记所有数值为状态未知;
2)校验所有等式,如果成立,则等式用到的数值标记为正确,否则标记状态未知的数值为错误,记录错误数值个数;
3)如果错误数值个数不为零,则查找只有一个错误数值的等式,计算出正确值,并标记数值为正确,修改错误数值个数;
4)重复步骤3,直到错误数值个数不变;
5)如果错误数值个数为零,则数值修正完成,否则后续需要人工处理。
结合图1,文本纠错模块比较识别到的票据的指定位置的一组文本与数据库存储的档案的编码、名称、属性,除了修正文本,还记录纠错历史,考虑到存在循环纠错(文本1识别成文本2,文本2识别成文本1)的情况,需要标记纠错历史的生效状态,使循环纠错记录失效但不删除。
运行流程
OCR识别到的票据进入ERP系统,按如下步骤处理:
文本预处理
票据文本与纠错历史中的生效数据匹配,匹配成功则执行修正。
文本纠错
对于票据识别出的档案编码(code)、名称(name)、属性1(attr1)、属性2(attr2),从数据库查出所有可能匹配的档案:
select * from table where code=’code’ or name=’name’ or attr1=’attr1’or attr2=’attr2’
如果查到档案,则按4项匹配、3项匹配、2项匹配的顺序遍历查询结果,如果匹配成功,则修正票据数据,同时生成一条纠错历史数据,如果纠错历史已有重复的有效记录或无效记录,则不处理;如果纠错历史有相反的记录,则标记为无效;否则插入一条纠错记录。
数值纠错
预先对特定种类的票据定义数值的等式关系。使用1.2描述的方法,自动修正票据的错误数值。
票据最终存储为ERP系统的电子票据。
至少可以达到以下有益效果:现有的提高OCR准确率的技术把票据的字段视为独立的文本,支持接入ERP系统但独立运行。而本装置利用了文本和数值的语义和关系,并结合ERP系统的数据,进一步提高识别准确率。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种票据识别纠错方法,其特征在于,包括:
步骤1:OCR系统识别到的票据进入ERP系统;
步骤2:进行文本预处理,票据文本与纠错历史中的生效数据匹配,匹配成功则执行步骤3,
步骤3:比较识别到的票据的指定位置的一组文本与数据库存储的档案的编码、名称、属性,修正文本,记录纠错历史,在循环纠错的情况下,标记纠错历史的生效状态,使循环纠错记录失效但不删除;
步骤3具体为,对于票据识别出的档案编码code、名称name、属性1 attr1、属性2attr2,从数据库查出所有可能匹配的档案,如果查到档案,则按4项匹配、3项匹配、2项匹配的顺序遍历查询结果,如果匹配成功,则修正票据数据,同时生成一条纠错历史数据,如果纠错历史已有重复的有效记录或无效记录,则不处理;如果纠错历史有相反的记录,则标记为无效;否则插入一条纠错记录;
步骤4:预先对特定种类的票据定义数值的等式关系,自动修正票据的错误数值;包括:
步骤41:标记所有数值为状态未知;
步骤42:校验所有等式,如果成立,则标记等式用到的数值为正确,否则标记状态未知的数值为错误,记录错误数值个数;
步骤43:如果错误数值个数不为零,则查找只有一个错误数值的等式,计算出正确值,并标记数值为正确,修改错误数值个数;
步骤44:重复步骤43,直到错误数值个数不变;
步骤45:如果错误数值个数为零,则数值修正完成,否则进行人工处理;
其中,上述等式关系,具体为:
pi×ni=mi;
mi×ri=ti;
∑mi=M;
∑ti=T;
M+T=L;
pi为单价,ni为数量,mi为金额,ri为税率,ti为税额,
M为合计金额,T为合计税额,L为价税合,
若等式成立,则等式所用的数值全部是正确的,不考虑恰好两个或多个错误数据导致等式仍然成立的情况;
步骤5:票据最终存储为ERP系统的电子票据。
2.一种票据识别纠错装置,其特征在于,包括文本预处理模块、文本纠错模块、数值纠错模块和纠错历史记录模块,所述文本预处理模块对文本进行预处理,包括将票据文本与纠错历史记录模块中的生效数据匹配,匹配成功则执行修正;
所述文本纠错模块对于票据识别出的档案编码code、名称name、属性1 attr1和属性2attr2,从数据库查出所有可能匹配的档案,如果查到档案,则按4项匹配、3项匹配、2项匹配的顺序遍历查询结果,如果匹配成功,则修正票据数据,同时生成一条纠错历史数据,如果纠错历史已有重复的有效记录或无效记录,则不处理;如果纠错历史有相反的记录,则标记为无效;否则插入一条纠错记录;所述数值纠错模块,预先对特定种类的票据定义数值的等式关系,并自动修正票据的错误数值;包括:
步骤41:标记所有数值为状态未知;
步骤42:校验所有等式,如果成立,则标记等式用到的数值为正确,否则标记状态未知的数值为错误,记录错误数值个数;
步骤43:如果错误数值个数不为零,则查找只有一个错误数值的等式,计算出正确值,并标记数值为正确,修改错误数值个数;
步骤44:重复步骤43,直到错误数值个数不变;
步骤45:如果错误数值个数为零,则数值修正完成,否则进行人工处理;
其中,上述等式关系,具体为:
pi×ni=mi;
mi×ri=ti;
∑mi=M ;
∑ti=T;
M+T=L;
pi为单价,ni为数量,mi为金额,ri为税率,ti为税额,
M为合计金额,T为合计税额,L为价税合,
若等式成立,则等式所用的数值全部是正确的,不考虑恰好两个或多个错误数据导致等式仍然成立的情况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610928581.4A CN106485243B (zh) | 2016-10-31 | 2016-10-31 | 一种票据识别纠错方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610928581.4A CN106485243B (zh) | 2016-10-31 | 2016-10-31 | 一种票据识别纠错方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106485243A CN106485243A (zh) | 2017-03-08 |
CN106485243B true CN106485243B (zh) | 2019-10-22 |
Family
ID=58271195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610928581.4A Active CN106485243B (zh) | 2016-10-31 | 2016-10-31 | 一种票据识别纠错方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106485243B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392260B (zh) * | 2017-06-08 | 2020-03-17 | 中国民生银行股份有限公司 | 一种字符识别结果的错误标定方法和装置 |
CN107256515A (zh) * | 2017-07-04 | 2017-10-17 | 深圳易嘉恩科技有限公司 | 财务云平台集成ocr识别软件的方法 |
CN107545391A (zh) * | 2017-09-07 | 2018-01-05 | 安徽共生物流科技有限公司 | 一种基于图像识别的物流单据智能分析与自动存储方法 |
CN110457973A (zh) * | 2018-05-07 | 2019-11-15 | 北京中海汇银财税服务有限公司 | 一种票据识别的方法及系统 |
CN109637000B (zh) * | 2018-10-23 | 2021-12-28 | 深圳壹账通智能科技有限公司 | 发票检验方法及装置、存储介质、电子终端 |
CN110334707A (zh) * | 2019-06-28 | 2019-10-15 | 苏宁云计算有限公司 | 一种模型修正方法及修正系统 |
CN110489723A (zh) * | 2019-08-19 | 2019-11-22 | 绍兴数纺科技有限公司 | 一种印染行业信息系统的数据查错与纠错系统 |
CN111209827B (zh) * | 2019-12-31 | 2023-07-14 | 中国南方电网有限责任公司 | 一种基于特征检测的ocr识别票据问题的方法及系统 |
CN111241082B (zh) * | 2020-01-13 | 2020-10-23 | 贝壳找房(北京)科技有限公司 | 数据修正方法及装置 |
CN111582169B (zh) * | 2020-05-08 | 2023-10-10 | 腾讯科技(深圳)有限公司 | 图像识别数据纠错方法、装置、计算机设备和存储介质 |
CN111768565B (zh) * | 2020-05-21 | 2022-03-18 | 程功勋 | 一种增值税发票中发票代码识别后处理方法 |
CN111914805A (zh) * | 2020-08-18 | 2020-11-10 | 科大讯飞股份有限公司 | 表格结构化方法、装置、电子设备及存储介质 |
CN112363981A (zh) * | 2020-11-13 | 2021-02-12 | 长城计算机软件与系统有限公司 | 用于ldif文件的自动纠错方法及系统 |
CN113420564B (zh) * | 2021-06-21 | 2022-11-22 | 国网山东省电力公司物资公司 | 一种基于混合匹配的电力铭牌语义结构化方法及系统 |
CN116341543B (zh) * | 2023-05-31 | 2023-09-19 | 安徽商信政通信息技术股份有限公司 | 一种人名识别与纠错的方法、系统、设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1664842A (zh) * | 2001-05-17 | 2005-09-07 | 商建中 | 财务报表真实性的逻辑分析识别技术 |
CN101030272A (zh) * | 2006-03-03 | 2007-09-05 | 健康保险审查评价院 | 医疗费用的电子审查方法 |
CN101515249A (zh) * | 2009-03-26 | 2009-08-26 | 华亚微电子(上海)有限公司 | 错误检查方法 |
CN102542461A (zh) * | 2010-12-21 | 2012-07-04 | 株式会社富士通商务系统 | 收据数据核对支援装置和收据数据核对支援程序 |
CN102903171A (zh) * | 2012-09-21 | 2013-01-30 | 山东电力集团公司物资供应公司 | 自助式智能录入验审发票处理系统与方法 |
CN103927352A (zh) * | 2014-04-10 | 2014-07-16 | 江苏唯实科技有限公司 | 利用知识库海量关联信息的中文名片ocr数据修正系统 |
CN104573977A (zh) * | 2015-01-24 | 2015-04-29 | 武钢集团昆明钢铁股份有限公司 | 一种质量数据管理系统与方法 |
CN105023166A (zh) * | 2014-04-24 | 2015-11-04 | 钱文辉 | 一种基于纸质凭证数据自动识别的返利方法 |
CN105488185A (zh) * | 2015-12-01 | 2016-04-13 | 上海智臻智能网络科技股份有限公司 | 一种知识库的优化方法和装置 |
CN105528604A (zh) * | 2016-01-31 | 2016-04-27 | 华南理工大学 | 一种基于ocr的票据自动识别与处理系统 |
CN105678434A (zh) * | 2014-11-18 | 2016-06-15 | 金蝶软件(中国)有限公司 | Erp系统中校验信息发布的方法和系统 |
CN105677874A (zh) * | 2016-01-11 | 2016-06-15 | 江苏省现代企业信息化应用支撑软件工程技术研发中心 | 一种对提取的Web表格数据进行集成的方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6028970A (en) * | 1997-10-14 | 2000-02-22 | At&T Corp | Method and apparatus for enhancing optical character recognition |
EP1345163B2 (en) * | 2002-03-15 | 2010-12-29 | Computer Sciences Corporation | Methods for analysis of writing in documents |
US20070217692A1 (en) * | 2006-03-17 | 2007-09-20 | Data Trace Information Services, Llc | Property record document data verification systems and methods |
-
2016
- 2016-10-31 CN CN201610928581.4A patent/CN106485243B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1664842A (zh) * | 2001-05-17 | 2005-09-07 | 商建中 | 财务报表真实性的逻辑分析识别技术 |
CN101030272A (zh) * | 2006-03-03 | 2007-09-05 | 健康保险审查评价院 | 医疗费用的电子审查方法 |
CN101515249A (zh) * | 2009-03-26 | 2009-08-26 | 华亚微电子(上海)有限公司 | 错误检查方法 |
CN102542461A (zh) * | 2010-12-21 | 2012-07-04 | 株式会社富士通商务系统 | 收据数据核对支援装置和收据数据核对支援程序 |
CN102903171A (zh) * | 2012-09-21 | 2013-01-30 | 山东电力集团公司物资供应公司 | 自助式智能录入验审发票处理系统与方法 |
CN103927352A (zh) * | 2014-04-10 | 2014-07-16 | 江苏唯实科技有限公司 | 利用知识库海量关联信息的中文名片ocr数据修正系统 |
CN105023166A (zh) * | 2014-04-24 | 2015-11-04 | 钱文辉 | 一种基于纸质凭证数据自动识别的返利方法 |
CN105678434A (zh) * | 2014-11-18 | 2016-06-15 | 金蝶软件(中国)有限公司 | Erp系统中校验信息发布的方法和系统 |
CN104573977A (zh) * | 2015-01-24 | 2015-04-29 | 武钢集团昆明钢铁股份有限公司 | 一种质量数据管理系统与方法 |
CN105488185A (zh) * | 2015-12-01 | 2016-04-13 | 上海智臻智能网络科技股份有限公司 | 一种知识库的优化方法和装置 |
CN105677874A (zh) * | 2016-01-11 | 2016-06-15 | 江苏省现代企业信息化应用支撑软件工程技术研发中心 | 一种对提取的Web表格数据进行集成的方法及装置 |
CN105528604A (zh) * | 2016-01-31 | 2016-04-27 | 华南理工大学 | 一种基于ocr的票据自动识别与处理系统 |
Non-Patent Citations (1)
Title |
---|
一种新的票据自动识别系统;张红云 等;《同济大学学报(自然科学版)》;20060731;第34卷(第7期);965-969 * |
Also Published As
Publication number | Publication date |
---|---|
CN106485243A (zh) | 2017-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106485243B (zh) | 一种票据识别纠错方法及装置 | |
CN108960223B (zh) | 基于票据智能识别自动生成凭证的方法 | |
CN109840519B (zh) | 一种自适应的智能单据识别录入装置及其使用方法 | |
CN106886509B (zh) | 一种学位论文格式自动检测方法 | |
CN110442744A (zh) | 提取图像中目标信息的方法、装置、电子设备及可读介质 | |
US11631265B2 (en) | Automated learning of document data fields | |
US9384389B1 (en) | Detecting errors in recognized text | |
RU2679209C2 (ru) | Обработка электронных документов для распознавания инвойсов | |
US20120102002A1 (en) | Automatic data validation and correction | |
CN110334640A (zh) | 一种票据审核方法及系统 | |
US20210203713A1 (en) | Form Engine | |
US20060288268A1 (en) | Method for extracting, interpreting and standardizing tabular data from unstructured documents | |
CN109002768A (zh) | 基于神经网络文本检测识别的医疗票据类文字提取方法 | |
US20240046684A1 (en) | System for Information Extraction from Form-Like Documents | |
US20210357633A1 (en) | Document processing using hybrid rule-based artificial intelligence (ai) mechanisms | |
US20200184267A1 (en) | System to extract information from documents | |
RU2768233C1 (ru) | Нечеткий поиск с использованием форм слов для работы с большими данными | |
CN109684957A (zh) | 一种自动按照纸质表单展现系统数据的方法及系统 | |
CN109271951A (zh) | 一种提升记账审核效率的方法及系统 | |
US11880435B2 (en) | Determination of intermediate representations of discovered document structures | |
CN110516663A (zh) | Ocr识别准确率的测试方法、装置、计算机设备及存储介质 | |
CN111914729A (zh) | 凭证关联方法、装置、计算机设备及存储介质 | |
CN110956166A (zh) | 票据标注方法及装置 | |
TW202018616A (zh) | 智能會計帳務系統與會計憑證的辨識入帳方法 | |
CN113469005A (zh) | 一种银行回单的识别方法、相关装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |