CN113408536A - 票据的金额识别方法、装置、计算机设备及存储介质 - Google Patents

票据的金额识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113408536A
CN113408536A CN202110694971.0A CN202110694971A CN113408536A CN 113408536 A CN113408536 A CN 113408536A CN 202110694971 A CN202110694971 A CN 202110694971A CN 113408536 A CN113408536 A CN 113408536A
Authority
CN
China
Prior art keywords
characters
amount
case
value
bill
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110694971.0A
Other languages
English (en)
Inventor
郭喜亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Health Insurance Company of China Ltd
Original Assignee
Ping An Health Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Health Insurance Company of China Ltd filed Critical Ping An Health Insurance Company of China Ltd
Priority to CN202110694971.0A priority Critical patent/CN113408536A/zh
Publication of CN113408536A publication Critical patent/CN113408536A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明提供一种票据的金额识别方法、装置、计算机设备及存储介质,所述方法包括以下步骤:通过文字识别算法对票据进行识别,以获得与一个或多个切片相对应的识别文本;从所述识别文本中提取大写数字字符和单位字符;计算所述大写数字字符和所述单位字符对应的大写金额数值;从所述识别文本中提取小写金额字符并确定小写金额数值;对所述大写金额数值和所述小写金额数值进行核验;根据核验结果提取所述票据的金额。

Description

票据的金额识别方法、装置、计算机设备及存储介质
技术领域
本发明涉及文字识别技术领域,特别涉及一种票据的金额识别方法、装置、计算机设备及存储介质。
背景技术
票据识别是人工智能的重要应用领域,自动识别票据的各个关键字段尤其是金额可有效减少人工核算成本,实现费用自动化报销。现有技术对于票据场景中的结构化识别通常有以下几种解决方案:(1)通过对整张图像进行OCR(Optical CharacterRecognition,光学字符识别),基于领域词典对OCR结果进行纠错,并基于固定字段切片或固定区域,抽取所需关键字段信息;(2)制作自定义识别模板,基于位置和内容固定不变的参考文字识别目标区域的文字,实现对相同版式图片的结构化识别;(3)定制定位或分割模型,寻找所需字段区域,根据字段类型(如目标数字、英文、符号、汉字)定制识别模型。
然而,自定义模板匹配仅适用于身份证等不易发生折叠或褶皱的硬质票据,对于纸质票据则由于纸张空间容易变形而造成识别成功率低;专用定位、分割或识别模型开发成本高、移植性差;当票据存在打印偏移时会对金额提取造成障碍;存在将其他文字误识别为大写数字字符的风险,并且当大写金额内任一字识别错误会导致该金额无法翻译为数值;当识别出的大小金额数值不一致时,缺少相应的取舍。
因此,现有技术对票据金额的抽取及纠错能力有限,合计金额的解析成功率高度依赖于OCR识别结果。使得报销等票据识别应用场景效率降低,需要人工介入,拉长周期,同时也提高了企业管理成本。
发明内容
本发明的目的是提供一种能够快速、准确识别票据金额的技术方案,以解决现有技术中存在的上述问题。
为实现上述目的,本发明提供一种票据的金额识别方法,包括以下步骤:
通过文字识别算法对票据进行识别,以获得与一个或多个切片相对应的识别文本;
从所述识别文本中提取大写数字字符和单位字符;
计算所述大写数字字符和所述单位字符对应的大写金额数值;
从所述识别文本中提取小写金额字符并确定小写金额数值;
对所述大写金额数值和所述小写金额数值进行核验;
根据核验结果提取所述票据的金额。
根据本发明提供的票据的金额识别方法,所述从所述识别文本中提取大写数字字符和单位字符的步骤包括:
根据首尾字符特性对所述识别文本进行截断;
构造正则匹配项对截断后的所述识别文本进行字符提取,所述正则匹配项包括预设的多个候选大写数字字符以及多个候选单位字符;
对提取到的大写数字字符或单位字符进行纠错。
根据本发明提供的票据的金额识别方法,所述对提取到的大写数字字符或单位字符进行纠错的步骤包括以下任一种:
基于形近字字典对所述大写数字字符或单位字符中的形近字进行纠错;
基于规则库对所述大写数字字符或单位字符进行纠错,所述规则库包括大写金额与单位之间的结构顺序关系;
根据单位由大到小排列的顺序对所述单位字符进行纠错;
根据四角编码和FASPell编码对所述大写数字字符或单位字符进行评分并纠错;其中评分公式为:
S=Scode+0.5*Sstructure+0.25*Swrite
上式中,S为候选集字符的总得分;Scode为错误识别字符与候选字符四码匹配位数;Sstructure为结构比较系数,Swrite为笔画相似性系数;
根据数字和单位之间的结构关系对重复或缺失的单位字符进行纠错;
根据首尾字符对不完整的所述识别文本进行扩展。
根据本发明提供的票据的金额识别方法,所述计算所述和所述单位字符对应的大写金额数值的步骤包括:
为每个所述和所述单位字符赋予对应的属性和数值,所述属性包括数字属性和单位属性;
将所述和所述单位字符根据对应的属性和数值生成包含多个元素的数列;
根据所述数列计算大写金额数值;计算公式如下:
Figure BDA0003127866280000031
其中,C表示所述数列中的元素,len(C)表示所述数列的长度。
根据本发明提供的票据的金额识别方法,所述从所述识别文本中提取小写金额字符并确定小写金额数值的步骤包括:
基于前缀字符或位置信息提取所述小写金额字符;
将所述小写金额字符转化为小写金额数值;
根据所述单位字符对所述小写金额数值进行校验。
根据本发明提供的票据的金额识别方法,所述根据所述单位字符对所述小写金额字符进行校验的步骤包括:
在所述票据为免税增值税发票的情况下,若包含两个同样的小写金额数值,确定所述两个同样的小写金额数值正确;
在所述票据为非免税增值税发票的情况下,若包含三个小写金额数值且其中两个小写数值金额的和等于第三个小写金额数值,确定所述三个小写金额数值正确。
根据本发明提供的票据金额的提取方法,所述对所述大写金额数值和所述小写金额数值进行核验的步骤包括:
在所述大写金额数值和所述小写金额数值一致的情况下,将所述大写金额数值或所述小写金额数值作为核验结果;
在只解析出所述大写金额数值或所述小写金额数值的情况下,将解析出的所述大写金额数值或所述小写金额数值作为核验结果;
在所述大写金额数值为所述小写金额数值的组成部分的情况下,将所述小写金额数值作为所述核验结果;
在所述小写金额数值小于所述大写金额数值的情况下,将所述大写金额数值作为所述核验结果;
其余情况下将所述大写金额数值作为所述核验结果。
为实现上述目的,本发明还提供一种票据的金额识别装置,包括:
票据获取模块,适用于通过文字识别算法对票据进行识别,以获得与一个或多个切片相对应的识别文本;
大写提取模块,适用于从所述识别文本中提取大写数字字符和单位字符;
大写数值计算模块,适用于计算所述大写数字字符和所述单位字符对应的大写金额数值;
小写提取模块,适用于从所述识别文本中提取小写金额字符并确定小写金额数值;
数值核验模块,计算所述小写金额字符对应的小写金额数值,并对所述大写金额数值和所述小写金额数值进行核验;
金额确定模块,适用于根据核验结果提取所述票据的金额。
为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
为实现上述目的,本发明还提供计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明提供的票据的金额识别方法、装置、计算机设备及存储介质,从票据中分别提取大写数字字符和小写金额字符,并分别计算得到大写金额数值和小写金额数值,通过对大写金额数值和小写金额数值的核验最终确定票据的金额数值。本发明充分考虑大写金额和小写金额,并对两者核验后最终确定票据金额数值,这样可以避免其中一种金额识别不准确而造成输出金额错误的情况,有效提高了金额识别的正确率。本发明利用图像特征搜索的方式即可轻便地进行票据金额识别,无需定制专用识别模型,可以有效减少开发成本,提高票据金额的识别效率。
附图说明
图1为本发明的票据的金额识别方法实施例一的流程图;
图2为本发明实施例一计算大写金额数值的示意性流程图;
图3为本发明实施例一提取大写数字字符和单位字符的示意性流程图;
图4为本发明的票据的金额提取装置实施例一的程序模块示意图;
图5为本发明的票据的金额提取装置实施例一的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参阅图1,本实施例提出一种票据的金额识别方法,包括以下步骤:
S100:通过文字识别算法对票据进行识别,以获得与一个或多个切片相对应的识别文本。
本实施例中的文字识别算法可以是现有技术中任一种可以从纸张或者图片中识别出文字的算法,例如OCR算法。OCR(Optical Character Recognition,光学字符识别)是一种利用电子设备将纸质文档电子化,获取对应图像文件,并通过字符识别的方法将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。对于待识别票据,OCR算法根据图像特征获取文字区域的切片,并分别识别每个切片中包含的文本。
S200:从所述识别文本中提取大写数字字符和单位字符。
可以理解,大写形式的票据金额至少包含一个大写数字字符和一个单位字符,例如壹佰圆中“壹佰”将“壹”定义为大写数字字符,“佰”和“圆”定义为单位字符。进一步,由于“圆”本身不具有数学意义,可以在后续过程中作为冗余字符删除。为了提高识别效率,本实施例可以首先基于正则匹配算法对所有切片的识别文本进行过滤,从中筛选出包含至少一个预设大写数字字符和至少一个预设单位字符的识别文本。本实施例中的正则匹配算法通过构造包括多个预设大写数字字符和多个预设单位字符的正则匹配项实现,其中预设大写数字字符可以包括零壹贰叁肆伍陆柒捌玖等,预设单位字符可以包括圆元角分正整拾百佰仟千万萬亿等。通过对识别文本进行过滤,可以有效降低数据量,提高金额提取效率。
S300:计算大写金额字符串对应的大写金额数值。
本申请中的大写金额字符串可以由上述部分大写数字字符和部分单位字符组成,例如“壹佰”就是一个大写金额字符串。可以理解,大写金额字符串仅仅是字符形式的文本,本步骤用于将文本转化为数学形式的具体数值。图2示出了本实施例计算大写金额数值的示意性流程图,如图2所示,步骤S300包括:
S310:为每个字符赋予对应的属性和数值,所述属性包括数字属性和单位属性。
数字属性或单位属性是根据目标字符属于预设大写数字字符或预设单位字符而确定。例如目标字符“叁”属于预设大写数字字符,则确定其属性为数字属性;又例如目标字符“万”属于预设单位字符,则确定其属性为单位属性。本实施例为不同的数字属性或单位属性赋予不同的数值,其中数字属性的数值与其具体数字大小有关,例如字符“叁”为数字属性,对应的数值为3。单位属性的数值与其对应的数量级有关,例如字符“万”为单位属性,对应的数值为10000。
S320:将所述字符根据对应的属性和数值生成包含多个元素的数列。
例如大写金额字符串为“肆仟伍佰”,其中“肆”为数字属性,对应数值为4;“仟”为单位属性,对应数值为1000;“伍”为数字属性,对应数值为5;“佰”为单位属性,对应数值为100。根据原有的排列顺序将每个字符的对应数值排列,可以得到数列[4,1000,5,100],其中该数列的长度为4,表示包含4个元素。
S330:根据所述数列计算大写金额数值;计算公式如下:
Figure BDA0003127866280000071
上式中,C表示所述数列中的元素,len(C)表示所述数列的长度。仍以数列[4,1000,5,100]为例,其中数列的长度len(C)=4,C0=4,C1=1000,C2=5,C3=100。[4,1000,5,100]对应的大写金额数值为:4×1000+5×100=4500。
S400:从所述识别文本中提取小写金额字符并确定小写金额数值。
本实施例提取小写金额字符的步骤可以通过两种方式进行,一种是基于前缀字符提取小写金额字符,另一种是基于位置信息提取小写金额字符。前缀字符可以包括人民币字符“¥”、汉字“小写:”、汉字“小写合计:”等,可以理解票据中在上述前缀字符之后通常会打印阿拉伯数字形式的金额,因此通过前缀字符可以快速提取到小写金额字符。另外对于不打印前缀的票据,可以基于固定位置提取小写金额字符,这里的固定位置可以是固定字段位置,例如识别文本中的第几个字段,或者是固定坐标位置,例如在预设的坐标范围内进行提取。
在提取到小写金额字符的基础上,本步骤可以将小写金额字符直接转化为对应的小写金额数值。由于小写金额字符本身是阿拉伯数字形式的字符,因此可以根据预设的映射关系直接将阿拉伯数字形式的字符转化为对应的阿拉伯数值,即小写金额数值。例如对于小写金额字符1234,可以直接将字符1转化为数字1,将字符2转化为数字2,将字符3转化为数字3,将字符4转化为数字4,将转化后得到的数字按顺序排列,可以得到小写金额数值1234。
本实施例可以进一步根据单位字符对所述小写金额数值进行校验。可以理解,票据中一般同时包含大写数字字符和小写金额字符,基于此可以根据大写金额对小写金额数值进行校验。为了提高校验效率,本实施例无需对大写数字字符和小写金额数值进行逐一对比,只需利用提取到的单位字符来判断小写金额数值的数量级是否正确。具体的,本实施例中用于校验的单位字符指的是按照从左到右顺序的第一个单位字符,例如“肆仟伍佰”,其中第一个单位字符为“仟”。根据步骤S300可以确定,“仟”对应的数值为1000。此时将提取到的小写金额数值与1000进行校验可以过滤掉一部分数量级不相符的小写金额,例如500、450等。需要说明的是,在票据质量不佳的情况下,“叁万肆仟伍佰”由于打印重叠或模糊,存在识别为“XXX仟伍佰”的可能性,只能抽取到“X仟伍佰”,因此,本步骤中的校验只校验最小数量级且不校验具体数值。例如在单位字符为“仟”的情况下,若小写金额数值为4500、5500、34500等均可以通过校验,但若小写金额数值为999则不通过校验。
进一步,在票据中包含多个小写金额数值的情况下,本实施例还可以根据多个小写金额数值进行相互校验。具体的,若对应的票据为免税增值税发票且提取到两个同样的小写金额数值,可以确定所述两个同样的小写金额数值正确;若对应的票据为非免税增值税发票且提取到三个小写金额数值,其中两个小写数值金额的和等于第三个小写金额数值,确定所述三个小写金额数值正确。上述校验规则是根据增值税发票的特性而设置的,可以对增值税发票进行快速校验。
S500:对所述大写金额数值和所述小写金额数值进行核验。
本步骤的核验相对于步骤S400中的校验更加严格,即对于具体数值的详细验证。可以理解,从票据中提取到的大写金额数值和小写金额数值之间可能相同也可能不同,本实施例根据大写金额数值和小写金额数值之间的关系设置以下核验规则:
(1)在所述大写金额数值和所述小写金额数值一致的情况下,将所述大写金额数值或所述小写金额数值作为核验结果。
(2)在只解析出所述大写金额数值或所述小写金额数值的情况下,将解析出的所述大写金额数值或所述小写金额数值作为核验结果。
(3)在所述大写金额数值为所述小写金额数值的组成部分的情况下,将所述小写金额数值作为所述核验结果。例如若大写金额数值为23.45,小写金额数值为1223.45,其中大写金额数值包含在小写金额数值中,此时将小写金额1223.45作为核验结果。
(4)在所述小写金额数值小于所述大写金额数值的情况下,将所述大写金额数值作为所述核验结果。
(5)其余情况下将所述大写金额数值作为所述核验结果。
通过设置上述核验规则,本实施例可以保证在大写金额和小写金额不一致的情况下获取正确的金额数值。
S600:根据核验结果返回所述票据的提取金额。
具体的,将核验结果中确定的大写金额数值或小写金额数值作为目标票据的最终提取金额返回给用户。
综上所述,本实施例充分考虑了合计金额字段的特性,对错误的OCR识别结果具有较强的适应性及纠错能力,可以综合票据的大小写金额给出置信度更高的合计金额。本实施例提供的票据金额识别方法能够广泛应用于财务报销、理赔自动录入、记账等使用票据的场景,实现合计金额的自动抽取及录入,提高管理效率,有效降低企业人力成本。
图3为本发明实施例一提取大写数字字符和单位字符的示意性流程图。如图3所示,步骤S200包括:
S210:构造正则匹配项对所有识别文本进行字符提取,所述正则匹配项包括预设的多个候选大写数字字符以及多个候选单位字符。
其中候选大写数字字符可以包括零壹贰叁肆伍陆柒捌玖等,候选单位字符可以包括圆元角分正整拾百佰仟千万萬亿等。本步骤通过构造包括多个候选大写数字字符以及多个候选单位字符的正则表达式,从而直接将识别文本中的大写数字字符和单位字符提取出来。
S220:根据首尾字符特性对提取到的所有字符进行截断或扩充。
可以理解,大写金额的构成通常由大写数字字符和单位字符组成,且大写数字字符在前单位字符在后。因此本步骤根据大写金额首位为数字、末尾为单位的特点,对识别文本进行截断或扩充。其中截断指的是在当前识别文本的基础上去掉冗余字符,其中冗余字符可以包括数字字符前面的零以及单位字符中的“元”、“圆”“整”等。例如某识别文本为“捌佰元整”,其中“捌”为大写数字字符,“佰元整”为单位字符,因此需要对当前识别文本进行截断后只保留“捌佰”作为大写金额字符。另一方面,如果当前识别文本中的第一个字符为单位字符,或者最后一个字符为大写数字字符,则说明有部分大写金额的相关字符被截取在了上一个识别文本或者下一个识别文本中,对此需要将当前识别文本进行扩充,以便将上一个识别文本或下一个识别文本中表征大写金额的字符纳入当前识别文本中。
S230:对提取到的大写金额字符串进行纠错。
本步骤从多个方面对大写金额进行纠错,目的是提高金额提取的准确度。具体纠错方式包括以下任意一种或几种:
(1)基于形近字字典对所述大写数字字符或单位字符中的形近字进行纠错。形近字字典中可以包括多个易错字与正确字符之间的映射关系,当检索到易错字时,可以直接替换为对应的正确字符进行纠错,例如将‘别’纠正为‘捌’。
(2)基于规则库对所述大写数字字符或单位字符进行纠错,所述规则库包括大写金额与单位之间的结构顺序关系。可以基于大写金额‘数字-单位-数字-单位’特点,建立规则库,例如:伍容易误识别为佰,佰容易误识别为伍,根据‘数字-佰-数字’或‘单位-伍-单位’的结构信息,进行纠错;以零开头的大写金额,第一个单位为元;为方面后续流程,去掉数字前面的零,去掉单位后面的元,去掉最后的正整。
(3)根据单位字符由大到小排列的顺序对所述单位字符进行纠错。单位字符由大到小排列的顺序包括亿、仟万、佰万、拾万、万、仟、佰、拾、元、角、分等计量单位顺序。本实施例对单位字符进行纠错,例如佰后面的错误单位纠正为拾,拾前面的错误字符为佰。另外当大写金额字符中有零时存在单位字符非连续的情况,此时在对应位置应跳过至少一个单位字符,例如‘伍佰零叁元整’中跳过了单位‘拾’。
(4)根据四角编码和FASPell编码对所述大写数字字符或单位字符进行评分并纠错。
可以理解,OCR引入的文本错误主要为形近字错误。基于此,本实施例通过字符的四角编码(用4至5位数字表示汉字左上角、右上角、左下角、右下角四个角的单笔或复笔的笔形)及FASPell编码(用一串不定长字符串表示字符的结构及笔画信息)计算候选集中每个字符的得分,并将高于阈值的字符作为纠错结果。该步骤在两个候选集字符四角编码得分一致时,还参考了结构相似性(左右结构、上下结构、全包围结构等)及笔画相似性(如:仟笔画数为5)信息。具体评分公式如下:
S=Scode+0.5*Sstructure+0.25*Swrite
上式中,S为候选集字符的总得分;Scode为错误识别字符与候选字符四码匹配位数;Sstructure为结构一致性系数,当结构一致时为1,否则为0,Swrite为笔画相似性系数,当笔画差的绝对值小于3时为1,否则为0。上述权重的设置(1、0.5、0.25)保证了3种相似性之间重要性的递减。假设对于一个错误识别字符,需要从候选字符集中计算每个候选字符的评分,以评分最高者作为纠错结果。具体的,通过对错误识别字符和候选字符分别进行四角编码,可以得到两者之间的四码匹配位数Scode;通过对错误识别字符和候选字符分别进行FASPell编码,可以得到两个之间的结构一致性系数Sstructure和笔画相似性系数Swrite。通过对上述三种系数Scode、Sstructure和Swrite进行加权求和,即可得到错误识别字符和候选字符之间的评分。最终以评分最高的候选字符作为纠错结果。
(5)根据数字和单位之间的结构关系对重复或缺失的单位字符进行纠错。OCR结果会有多字少字的情况,除零+数字外,其他两个数字之间必有一个单位,根据前后单位信息补足。针对单个字识别为两个的问题,去除重复的单位,如将伍元元叁角纠正为伍元叁角。
(6)在无法计算得到所述大写金额数值的情况下,基于四角编码或FASPell编码确定与所述大写数字字符或所述单位字符部分结构相同的第一候选大写数字字符或第一候选单位字符;用所述第一候选大写数字字符或第一候选单位字符替代原有识别字符。具体的,对结构一致的字符,只需匹配四码中的2位,如左右结构字符匹配左半边或右半边。例如OCR错误识别结果为‘傩’,根据前后信息推断该位属性为数字,候选集为‘零壹贰叁肆伍陆柒捌玖’,由于‘伍’与‘傩’均为左右结构,且四码匹配左半边的2位进行纠错。FASPell编码描述了结构及笔画信息,如FASPell编码匹配指定的部分结构,也可进行纠错。例如OCR错误识别结果‘勋’,包含‘员’,由于‘圆’中也包含‘员’结构,将‘勋’纠正为‘圆’。
本实施例通过上述多种方式对OCR识别结果进行纠错,可以最大程度减少识别错误,提高票据金额提取的准确率。
请继续参阅图4,示出了一种票据的金额提取装置,在本实施例中,票据的金额提取装置40可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述票据的金额识别方法。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述票据的金额提取装置40在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
票据获取模块41,适用于获取票据图像,通过文字识别算法对所述票据图像进行识别以得到一个或多个识别文本;
大写提取模块42,适用于从所述识别文本中提取大写数字字符和单位字符;
大写数值计算模块43,适用于计算所述大写数字字符和所述单位字符对应的大写金额数值;
小写提取模块44,适用于从所述识别文本中提取小写金额字符;
数值核验模块45,计算所述小写金额字符对应的小写金额数值,并对所述大写金额数值和所述小写金额数值进行核验;
金额确定模块46,适用于根据核验结果提取所述票据的金额。
本实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备50至少包括但不限于:可通过系统总线相互通信连接的存储器51、处理器52,如图5所示。需要指出的是,图5仅示出了具有组件51-52的计算机设备50,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器51(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器51可以是计算机设备50的内部存储单元,例如该计算机设备50的硬盘或内存。在另一些实施例中,存储器51也可以是计算机设备50的外部存储设备,例如该计算机设备50上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器51还可以既包括计算机设备50的内部存储单元也包括其外部存储设备。本实施例中,存储器51通常用于存储安装于计算机设备50的操作系统和各类应用软件,例如实施例一的票据的金额识别装置40的程序代码等。此外,存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器52在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制计算机设备50的总体操作。本实施例中,处理器52用于运行存储器51中存储的程序代码或者处理数据,例如运行票据的金额识别装置10,以实现实施例一的票据的金额识别方法。
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储票据的金额识别装置40,被处理器执行时实现实施例一的票据的金额识别方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
流程图中或在此以其它方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
本技术领域的普通技术人员可以理解,实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种票据的金额识别方法,其特征在于,包括以下步骤:
通过文字识别算法对票据进行识别,以获得与一个或多个切片相对应的识别文本;
从所述识别文本中提取大写数字字符和单位字符;
计算所述大写数字字符和所述单位字符对应的大写金额数值;
从所述识别文本中提取小写金额字符并确定小写金额数值;
对所述大写金额数值和所述小写金额数值进行核验;
根据核验结果提取所述票据的金额。
2.根据权利要求1所述的票据的金额识别方法,其特征在于,所述从所述识别文本中提取大写数字字符和单位字符的步骤包括:
根据首尾字符特性对所述识别文本进行截断;
构造正则匹配项对截断后的所述识别文本进行字符提取,所述正则匹配项包括预设的多个候选大写数字字符以及多个候选单位字符;
对提取到的大写数字字符或单位字符进行纠错。
3.根据权利要求2所述的票据的金额识别方法,其特征在于,所述对提取到的大写数字字符或单位字符进行纠错的步骤包括以下任一种:
基于形近字字典对所述大写数字字符或单位字符中的形近字进行纠错;
基于规则库对所述大写数字字符或单位字符进行纠错,所述规则库包括大写金额与单位之间的结构顺序关系;
根据单位由大到小排列的顺序对所述单位字符进行纠错;
根据四角编码和FASPell编码对所述大写数字字符或单位字符进行评分并纠错;其中评分公式为:
S=Scode+0.5*Sstructure+0.25*Swrite
上式中,S为候选集字符的总得分;Scode为错误识别字符与候选字符四码匹配位数;Sstructure为结构比较系数;Swrite为笔画相似性系数;
根据数字和单位之间的结构关系对重复或缺失的单位字符进行纠错;
根据首尾字符对不完整的所述识别文本进行扩展。
4.根据权利要求1-3中任一项所述的票据的金额识别方法,其特征在于,所述计算所述和所述单位字符对应的大写金额数值的步骤包括:
为每个所述和所述单位字符赋予对应的属性和数值,所述属性包括数字属性和单位属性;
将所述和所述单位字符根据对应的属性和数值生成包含多个元素的数列;
根据所述数列计算大写金额数值;计算公式如下:
Figure FDA0003127866270000021
其中,C表示所述数列中的元素,len(C)表示所述数列的长度。
5.根据权利要求1所述的票据的金额识别方法,其特征在于,所述从所述识别文本中提取小写金额字符并确定小写金额数值的步骤包括:
基于前缀字符或位置信息提取所述小写金额字符;
将所述小写金额字符转化为小写金额数值;
根据所述单位字符对所述小写金额数值进行校验。
6.根据权利要求5所述的票据的金额识别方法,其特征在于,所述根据所述单位字符对所述小写金额字符进行校验的步骤包括:
在所述票据为免税增值税发票的情况下,若包含两个同样的小写金额数值,确定所述两个同样的小写金额数值正确;
在所述票据为非免税增值税发票的情况下,若包含三个小写金额数值且其中两个小写数值金额的和等于第三个小写金额数值,确定所述三个小写金额数值正确。
7.根据权利要求1所述的票据的金额识别方法,其特征在于,所述对所述大写金额数值和所述小写金额数值进行核验的步骤包括:
在所述大写金额数值和所述小写金额数值一致的情况下,将所述大写金额数值或所述小写金额数值作为核验结果;
在只解析出所述大写金额数值或所述小写金额数值的情况下,将解析出的所述大写金额数值或所述小写金额数值作为核验结果;
在所述大写金额数值为所述小写金额数值的组成部分的情况下,将所述小写金额数值作为所述核验结果;
在所述小写金额数值小于所述大写金额数值的情况下,将所述大写金额数值作为所述核验结果;
其余情况下将所述大写金额数值作为所述核验结果。
8.一种票据的金额识别装置,其特征在于,包括:
票据获取模块,适用于通过文字识别算法对票据进行识别,以获得与一个或多个切片相对应的识别文本;
大写提取模块,适用于从所述识别文本中提取大写数字字符和单位字符;
大写数值计算模块,适用于计算所述大写数字字符和所述单位字符对应的大写金额数值;
小写提取模块,适用于从所述识别文本中提取小写金额字符并确定小写金额数值;
数值核验模块,对所述大写金额数值和所述小写金额数值进行核验;
金额确定模块,适用于根据核验结果提取所述票据的金额。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN202110694971.0A 2021-06-23 2021-06-23 票据的金额识别方法、装置、计算机设备及存储介质 Pending CN113408536A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110694971.0A CN113408536A (zh) 2021-06-23 2021-06-23 票据的金额识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110694971.0A CN113408536A (zh) 2021-06-23 2021-06-23 票据的金额识别方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN113408536A true CN113408536A (zh) 2021-09-17

Family

ID=77682481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110694971.0A Pending CN113408536A (zh) 2021-06-23 2021-06-23 票据的金额识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113408536A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457567A (zh) * 2022-11-11 2022-12-09 北京中科万国互联网技术有限公司 一种票据金额数位缺失恢复方法、系统、设备及存储介质
CN116306511A (zh) * 2023-03-14 2023-06-23 北京中关村科金技术有限公司 金额数据纠正方法、装置、设备、存储介质及产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633250A (zh) * 2017-09-11 2018-01-26 畅捷通信息技术股份有限公司 一种文字识别纠错方法、纠错系统及计算机装置
CN108549843A (zh) * 2018-03-22 2018-09-18 南京邮电大学 一种基于图像处理的增值税发票识别方法
CN108596179A (zh) * 2018-03-28 2018-09-28 南京邮电大学 一种增值税发票金额检验方法
CN110442744A (zh) * 2019-08-09 2019-11-12 泰康保险集团股份有限公司 提取图像中目标信息的方法、装置、电子设备及可读介质
CN111259889A (zh) * 2020-01-17 2020-06-09 平安医疗健康管理股份有限公司 图像文本识别方法、装置、计算机设备及计算机存储介质
CN111582169A (zh) * 2020-05-08 2020-08-25 腾讯科技(深圳)有限公司 图像识别数据纠错方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633250A (zh) * 2017-09-11 2018-01-26 畅捷通信息技术股份有限公司 一种文字识别纠错方法、纠错系统及计算机装置
CN108549843A (zh) * 2018-03-22 2018-09-18 南京邮电大学 一种基于图像处理的增值税发票识别方法
CN108596179A (zh) * 2018-03-28 2018-09-28 南京邮电大学 一种增值税发票金额检验方法
CN110442744A (zh) * 2019-08-09 2019-11-12 泰康保险集团股份有限公司 提取图像中目标信息的方法、装置、电子设备及可读介质
CN111259889A (zh) * 2020-01-17 2020-06-09 平安医疗健康管理股份有限公司 图像文本识别方法、装置、计算机设备及计算机存储介质
CN111582169A (zh) * 2020-05-08 2020-08-25 腾讯科技(深圳)有限公司 图像识别数据纠错方法、装置、计算机设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457567A (zh) * 2022-11-11 2022-12-09 北京中科万国互联网技术有限公司 一种票据金额数位缺失恢复方法、系统、设备及存储介质
CN115457567B (zh) * 2022-11-11 2023-01-17 北京中科万国互联网技术有限公司 一种票据金额数位缺失恢复方法、系统、设备及存储介质
CN116306511A (zh) * 2023-03-14 2023-06-23 北京中关村科金技术有限公司 金额数据纠正方法、装置、设备、存储介质及产品

Similar Documents

Publication Publication Date Title
US5787197A (en) Post-processing error correction scheme using a dictionary for on-line handwriting recognition
US10963717B1 (en) Auto-correction of pattern defined strings
US8340425B2 (en) Optical character recognition with two-pass zoning
Bai et al. Keyword spotting in document images through word shape coding
CN113408536A (zh) 票据的金额识别方法、装置、计算机设备及存储介质
CN112036145A (zh) 财务报表的识别方法、装置、计算机设备与可读存储介质
CN111931489B (zh) 文本纠错方法、装置和设备
CN111401099A (zh) 文本识别方法、装置以及存储介质
CN113935710A (zh) 一种合同审核的方法、装置、电子设备及存储介质
CN111814779A (zh) 一种票据文本识别方法、装置、设备及存储介质
JP2000315247A (ja) 文字認識装置
CN113469005A (zh) 一种银行回单的识别方法、相关装置及存储介质
JP2009276937A (ja) 辞書作成装置、認識装置、認識方法及び認識プログラム
CN115147847A (zh) 文本识别结果的确定方法、装置、存储介质及计算机设备
CN115688166A (zh) 信息脱敏处理方法、装置、计算机设备及可读存储介质
CN112699634B (zh) 电子书的排版处理方法、电子设备及存储介质
CN112287763A (zh) 图像处理方法、装置、设备及介质
JP5712415B2 (ja) 帳票処理システム及び帳票処理方法
JP2004046723A (ja) 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
CN113435331B (zh) 图像文字识别方法、系统、电子设备及存储介质
CN113837129B (zh) 手写签名错别字识别方法、装置、设备及存储介质
JP3985926B2 (ja) 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体
Slavin et al. Matching Digital Copies of Documents Based on OCR
JPH08287188A (ja) 文字列認識装置
CN116721431A (zh) 还原图像中字符排版的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination