CN115223188A - 票据信息处理方法、装置、电子设备及计算机存储介质 - Google Patents

票据信息处理方法、装置、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN115223188A
CN115223188A CN202210905612.XA CN202210905612A CN115223188A CN 115223188 A CN115223188 A CN 115223188A CN 202210905612 A CN202210905612 A CN 202210905612A CN 115223188 A CN115223188 A CN 115223188A
Authority
CN
China
Prior art keywords
keyword
corrected
content
bill
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210905612.XA
Other languages
English (en)
Inventor
李国库
佟德超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yancheng Tianyanchawei Technology Co ltd
Original Assignee
Yancheng Jindi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yancheng Jindi Technology Co Ltd filed Critical Yancheng Jindi Technology Co Ltd
Priority to CN202210905612.XA priority Critical patent/CN115223188A/zh
Publication of CN115223188A publication Critical patent/CN115223188A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种票据信息处理方法、装置、电子设备及计算机存储介质,该方法包括:根据票据的OCR识别结果,对票据进行结构化处理,以获得票据对应的结构化信息,结构化信息包括票据中的关键词和关键词对应的关键词内容;获取预设的标准词库,标准词库包括不同关键词对应的标准词;根据待纠正的关键词内容对应的关键词,从标准词库中确定候选标准词;使用候选标准词对待纠正的关键词内容进行纠正。本发明实施例中,根据待纠正的关键词内容对应的关键词在预设的标准词库中确定与之对应的候选标准词,使用候选标准词对待纠正的关键词内容进行纠正,以使得获取到的票据信息更贴近标准词库,提高票据信息识别的准确率。

Description

票据信息处理方法、装置、电子设备及计算机存储介质
技术领域
本发明涉及一种图像识别技术领域,尤其涉及一种票据信息处理方法、装置、电子设备及计算机存储介质。
背景技术
现有的票据信息识别一般依赖于OCR(Optical-Character-Recognition,光学字符识别)技术,一般指通过电子设备(例如扫描仪或者数码相机等)检查纸上打印的字符,通过检测亮、暗的模式确定字符形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,将非结构化的票据数据转化为结构化数据,以实现票据信息的提取,供文字处理软件进一步编辑加工的技术。
但是,目前OCR技术对于票据的识别存在精度不足的问题,容易出现字符识别错误的情况,因此,市场上亟需一种可以提高票据识别效率的处理方法、装置、电子设备及计算机存储介质。
发明内容
本发明实施例提供一种票据信息处理方法、装置、电子设备及计算机存储介质,用以克服相关技术中存在的上述技术问题。
根据本发明实施例的第一方面,提供一种票据信息处理方法,具体包括以下步骤:根据票据的OCR识别结果,对票据进行结构化处理,以获得票据对应的结构化信息,结构化信息包括票据中的关键词和关键词对应的关键词内容;获取预设的标准词库,标准词库包括不同关键词对应的标准词;根据待纠正的关键词内容对应的关键词,从标准词库中确定候选标准词;使用候选标准词对待纠正的关键词内容进行纠正。
可选地,根据待纠正的关键词内容对应的关键词,从标准词库中确定候选标准词,包括:从标准词库中选取标准词对应的关键词与待纠正的关键词内容所属的关键词一致的标准词作为候选标准词。
可选地,使用候选标准词对待纠正的关键词内容进行纠正,包括:若待纠正的关键词内容的关键词包括地址,则按照地址划分规则对用于指示地址的关键词内容进行切分,以获得切分出的多个地址片段;针对各地址片段,确定地址片段与候选标准词之间的相似度;若存在相似度大于设定的地址阈值的标准词,则使用相似度大于阈值的候选标准词替换地址片段。
可选地,按照地址划分规则对用于指示地址的关键词内容进行切分,以获得切分出的多个地址片段,包括:使用正则表达式从关键词内容中切分出省级、市级、区级、具体地址级中至少一级地址片段。
可选地,使用候选标准词对待纠正的关键词内容进行纠正,包括:若待纠正的关键词内容对应的关键词包括金额,则基于金额类的候选标准词,确定金额的汉字金额和数字金额的对应关系;从指示金额的关键词内容中获取汉字金额的字符串;使用金额类的候选标准词对汉字金额的字符串进行纠正。
可选地,使用金额类的候选标准词对汉字金额的字符串进行纠正,包括:针对汉字金额的字符串中的各字符,获取各字符对应的OCR识别结果中置信度最高的前K个预测字符;若前K个预测字符中包含金额类的候选标准词,则将字符确定为包含的金额类的候选标准词。
可选地,使用候选标准词对待纠正的关键词内容进行纠正,还包括:根据纠正后的汉字金额的字符串和汉字金额和数字金额的对应关系,确定待纠正的关键词内容中数字金额的字符串。
可选地,使用候选标准词对待纠正的关键词内容进行纠正,包括:若待纠正的关键词内容对应的关键词属于预设的关键词,则计算待纠正的关键词内容和候选标准词之间的相似度;选取相似度满足筛选条件的候选标准词作为纠正的关键词内容。
可选地,票据信息处理方法,还包括:获取第一语言类别的字符和第二语言类别的字符之间的映射关系,第一语言类别和第二语言类别不同,且第一语言类别和第二语言类别包括中文、英文和数字中之一;针对待纠正的关键词内容中各字符,若当前字符的OCR识别结果中预测字符的置信度低于置信度阈值,且确定当前字符的语言类别未满足预设规则,则根据映射关系对当前字符进行纠正。
根据本发明实施例的第二方面,提供一种票据信息处理装置,具体包括:第一获取单元,用于根据票据的OCR识别结果,对票据进行结构化处理,以获得票据对应的结构化信息,结构化信息包括票据中的关键词和关键词对应的关键词内容;第二获取单元,用于获取预设的标准词库,标准词库包括不同关键词对应的标准词;确定单元,用于根据待纠正的关键词内容对应的关键词,从标准词库中确定候选标准词;纠错单元,用于使用候选标准词对待纠正的关键词内容进行纠正。
一种计算机存储介质,计算机存储介质上存储有计算机可执行程序,计算机可执行程序被运行以实施本发明实施例中任一项的方法。
一种电子设备,电子设备包括存储器以及处理器,存储器上用于存储计算机可执行程序,处理器用于运行计算机可执行程序以实施本发明实施例中任一项的方法。
本发明实施例中,通过对票据进行结构化处理以得到票据对应的结构化信息,结构化信息具体指票据中的关键词及关键词对应的关键词内容,并根据待纠正的关键词内容对应的关键词在预设的标准词库中确定与之对应的候选标准词,使用候选标准词对待纠正的关键词内容进行纠正,以使得获取到的票据信息更贴近标准词库,提高票据信息识别的准确率。
附图说明
图1为本发明实施例提供的一种票据信息处理方法的步骤流程图;
图2为本发明实施例提供的另一种票据信息处理方法的步骤流程图;
图3为本发明实施例提供的另一种票据信息处理方法的步骤流程图;
图4为本发明实施例提供的另一种票据信息处理方法的步骤流程图;
图5为本发明实施例提供的一种票据信息处理装置的结构框图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为了对本发明实施例的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明实施例的具体实施方式。
在本文中,“示意性”表示“充当实例、例子或说明”,不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,为使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个或多个,或仅标示出了其中的一个或多个。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
现有的票据信息识别一般依赖于OCR(Optical-Character-Recognition,光学字符识别)技术,一般指通过电子设备(例如扫描仪或者数码相机等)检查纸上打印的字符,通过检测亮、暗的模式确定字符形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,将非结构化的票据数据转化为结构化数据,以实现票据信息的提取,供文字处理软件进一步编辑加工的技术。但是,目前OCR技术对于票据的识别存在精度不足的问题,容易出现字符识别错误的情况,因此,本发明实施例提出一种票据信息处理方法、装置、电子设备及计算机存储介质,以提高票据信息识别的准确度。
图1为本发明实施例提供的一种票据信息处理方法的步骤流程图。如图1所示,本实施例主要包括以下步骤:
S101,根据票据的OCR识别结果,对票据进行结构化处理,以获得票据对应的结构化信息,结构化信息包括票据中的关键词和关键词对应的关键词内容;
在本实施例中,票据的OCR识别结果为识别到的字符,具体包括汉字、数字、英文字符及其他字符,通过对识别结果进行结构化处理以获得票据对应的结构化信息,结构化信息具体包括票据中的关键词及关键词对应的关键词内容,以护照为例,关键词包括但不限于出生日期,关键词对应的关键词内容对应可以为“XXXX年XX月XX日”,通过对票据的OCR识别结果进行结构化处理,可以对票据的内容进行有效整合,以方便提高票据识别的效率及准确率。
S102,获取预设的标准词库,标准词库包括不同关键词对应的标准词;
S103,根据待纠正的关键词内容对应的关键词,从标准词库中确定候选标准词;
在本实施例中,标准词库中可以包括一些类别的关键词对应的关键词内容的规范的表达方式,如金额类的关键词、地址类的关键词等对应的关键词内容较为固定、且通常为标准化的内容,因此可以建立预设的标准词库,标准词库中包含多个标准词,每个标准词对应至少一类关键词,如关键词为“大写金额”,则其对应的标准词包括“壹”、“贰”等等。除了前述的示例外,标准词可以包括阿拉伯数字、大写金额、省级行政区、市级行政区等,但不限于此。根据票据结构化信息中的关键词,在标准词库中找到与该关键词对应的标准词作为候选标准词。
S104,使用候选标准词对待纠正的关键词内容进行纠正。
一种可行的对关键词内容进行纠正的方式例如为:将候选标准词与关键词内容中的一个或多个词进行比对,若存在不匹配的词,则可以使用候选标准词替换关键词内容中不匹配的词。
本发明实施例中,通过对票据进行结构化处理以得到票据对应的结构化信息,结构化信息中包含了指票据中的关键词及关键词对应的关键词内容,并根据待纠正的关键词内容对应的关键词在预设的标准词库中确定与之对应的候选标准词,使用候选标准词对待纠正的关键词内容进行纠正,以使得获取到的票据信息更贴近标准词库,提高票据信息识别的准确率。
本实施例主要示出了上述步骤S103的具体实施方案,本实施例主要包括:从标准词库中选取标准词对应的关键词与待纠正的关键词内容所属的关键词一致的标准词作为候选标准词。
在本实施例中,通过确认待纠正的关键词内容对应的关键词,确保候选标准词所属的类别与关键词类别一致,以保证票据信息识别的准确率。
图2为本发明实施例提供的另一种票据信息处理方法的步骤流程图。本实施例主要示出了上述步骤S104的一种具体实施方案。如图2所示,本实施例主要包括以下步骤:
S121,若待纠正的关键词内容的关键词包括地址,则按照地址划分规则对用于指示地址的关键词内容进行切分,以获得切分出的多个地址片段;
S122,针对各地址片段,确定地址片段与候选标准词之间的相似度;
S123,若存在相似度大于设定的地址阈值的标准词,则使用相似度大于阈值的候选标准词替换地址片段。
在上述实现方式中,如果关键词内容对应的关键词为地址,则按照地址划分规则对关键词内容进行划分得到多个地址片段,具体可以根据关键词的提取或其他方式对关键词内容进行划分得到多个地址片段,将得到的地址片段与标准词库中确认的候选标准词进行比对,得到地址片段与标准词库中确认的候选标准词之间的相似度,如果相似度大于预设的地址阈值,则使用候选标准词替换地址片段,具体地,地址阈值可以设定为0.6,也可以设置为0.5、0.7或其他数值,本发明对此不进行具体限定。
具体地,在一种实现方式中,通过使用正则表达式对用于指示地址的关键词内容进行划分,以得到省级、市级、区级、具体地址级中至少一级地址片段。
需要说明的是,正则表达式,又称规则表达式,(Regular-Expression,在代码中常简写为regex、regexp或RE),是一种文本模式,包括普通字符(例如,北京市及北京市对应的各个辖区,如朝阳区,昌平区等)和特殊字符(称为“元字符”),是计算机科学的一个概念。通过正则表达式可以对待纠正的关键词内容进行划分,以获得省级、市级、区级、具体地址级中至少一级地址片段,便于将获得的地址片段与预设的标准词库中的标准词进行比对,节省票据信息处理的时间,提高票据信息处理的效率,及票据信息中地址信息识别的准确率。
图3为本发明实施例提供的另一种票据信息处理方法的步骤流程图。本实施例主要示出了上述步骤S104的另一种具体实施方案。如图3所示,本实施例主要包括以下步骤:
S131,若待纠正的关键词内容对应的关键词包括金额,则基于金额类的候选标准词,确定金额的汉字金额和数字金额的对应关系;
S132,从指示金额的关键词内容中获取汉字金额的字符串;
S133,使用金额类的候选标准词对汉字金额的字符串进行纠正。
在上述实现方式中,由于汉字金额的汉字结构较为复杂,与汉字金额对应的汉字较少,因此,可先从指示金额的关键词内容中获取汉字金额对应的字符串,利用金额类的候选标准词对汉字金额的字符串进行纠正,以提高票据信息中金额信息识别的准确率。
在一具体实现方式中,使用金额类的候选标准词对汉字金额的字符串进行纠正,包括:针对汉字金额的字符串中的各字符,获取各字符对应的OCR识别结果中置信度最高的前K个预测字符;若前K个预测字符中包含金额类的候选标准词,则将字符确定为包含的金额类的候选标准词。
具体地,在对票据信息进行OCR识别的过程中,针对同一个汉字金额的字符串可能会识别出K个预测字符,例如针对汉字金额字符“陆”,其预测字符可能包括:陈、陆、陸、阹、阵等,在前K个预测字符中,存在汉字金额“陆”,则直接使用预测字符中的“陆”代替识别出的汉字金额,以确保汉字金额识别的准确率。
在一具体实现方式中,使用候选标准词对待纠正的关键词内容进行纠正,还包括:根据纠正后的汉字金额的字符串和汉字金额和数字金额的对应关系,确定待纠正的关键词内容中数字金额的字符串。
在上述实现方式中,根据纠正后的汉字金额的字符串,及汉字金额与数字金额的对应关系,确定待纠正的关键词内容中金额数字的字符串,以确保纠正后的汉字金额与数字金额一一对应,以进一步提高票据识别信息的准确率。
图4为本发明实施例提供的另一种票据信息处理方法的步骤流程图。本实施例主要示出了上述步骤S104的再一种具体实施方案。如图4所示,本实施例主要包括以下步骤:
S141,若待纠正的关键词内容对应的关键词属于预设的关键词,则计算待纠正的关键词内容和候选标准词之间的相似度;
S142,选取相似度满足筛选条件的候选标准词作为纠正的关键词内容。
在上述实现方式中,如果待纠正的关键词内容对应的关键词属于预设的关键词,例如针对月份的英文缩写(如Jan、Feb、Mar等),交易类型(购买性支出或消耗性支出、转移性支出等)、发票类型(如增值税专用发票、普通发票和专业发票等)等及其对应的具体内容建立标准词库,则计算识别出的待纠正的关键词内容与候选标准词之间的相似度,使用相似度大于预设相似度的候选标准词替换待纠正关键词内容,以提高票据信息文本识别的准确率,预设相似度可以设置为0.6、0.7或其他数值,对于预设相似度具体数值的设置,本发明不作具体限定。
在一具体实现方式中,票据信息处理方法还包括:获取第一语言类别的字符和第二语言类别的字符之间的映射关系,第一语言类别和第二语言类别不同,且第一语言类别和第二语言类别包括中文、英文和数字中之一;针对待纠正的关键词内容中各字符,若当前字符的OCR识别结果中预测字符的置信度低于置信度阈值,且确定当前字符的语言类别未满足预设规则,则根据映射关系对当前字符进行纠正。
其中,预设规则本领域技术人员可以根据实际需要进行设定,此处不作限定。例如,待纠正的关键词内容中的任一字符的前一字符为数字1,后一字符为数字2,该任一字符识别成为字母O,则认为其符合预设规则,相反亦然,此处不再赘述。
在上述实现方式中,第一语言类别的字符和第二语言类别的字符之间的映射关系可以是:O与〇,o与0,l与1,z与2等映射关系,根据关键词及关键词内容的上下文关系确认关键词内容对应的语言类别,基于映射关系,使用标准词库中的候选标准词替换关键词内容中的字符串,以提高票据信息事儿别的准确率;置信度阈值可以设置为0.5,0.6或其他数值,关于置信度阈值的设定基于实际情况确定,本发明对此不作限制。
在一种具体实现方式中,该方法还可包括:
将OCR识别结果中的关键词内容输入预设训练模型进行训练,得到第一训练结果;
将使用所述候选标准词对所述待纠正的关键词内容进行纠正后的关键词内容输入预设训练模型进行训练,得到第二训练结果;
响应于第一训练结果和第二训练结果的比较结果,确定最终的关键词内容。
可选地,预设训练模型可以为n-gram语言模型,其中,n优选为2,此时可称为二元模型(bigram-model),本领域技术人员可以根据实际需要进行选择,此处不做限定。在使用n-gram语言模型之前,需要使用历史正确的票据数据对n-gram语言模型进行训练,其公式为:
Figure BDA0003772295390000091
Figure BDA0003772295390000092
其中,P(W1,W2,...,Wm)表示W1W2…Wm出现的概率,P(W1)表示“W1”在训练数据中出现的概率,P(W2|W1)表示在训练数据中“W1”字后面是“W2”字的概率,P(Wm|Wm-1)表示在训练数据中“Wm-1”字后面是“Wm”字的概率。
具体地,若OCR识别结果中的地址为大厦1O2室、使用所述候选标准词对所述待纠正的关键词内容进行纠正后的关键词内容的地址为大厦102室,则将大厦1O2室和大厦102室分别输入n-gram语言模型中得到如下结果:
p(大,厦,1,O,2,室)=P(大)×P(厦|大)×P(1|厦)×P(O|1))×P(2|O)×P(室|2),P(大,厦,1,0,2,室)=P(大)×P(厦|大)×P(1|厦)×P(0|1))×P(2|0)×P(室|2),比较两个概率p(大,厦,1,O,2,室)和P(大,厦,1,0,2,室),选取概率大的训练结果作为最终的关键词内容。其中,P(大)表示“大”字在训练数据中出现的概率,P(厦|大)表示在训练数据中“大”字后面是“厦”字的概率,以此类推,此处不再赘述。
图5为本发明实施例提供的一种票据信息处理装置500的结构框图,如图5所示,该装置具体包括:第一获取单元501,第二获取单元502,确定单元503,及纠错单元504。
第一获取单元501,用于根据票据的OCR识别结果,对票据进行结构化处理,以获得票据对应的结构化信息,结构化信息包括票据中的关键词和关键词对应的关键词内容;第二获取单元502,用于获取预设的标准词库,标准词库包括不同关键词对应的标准词;确定单元503,用于根据待纠正的关键词内容对应的关键词,从标准词库中确定候选标准词;纠错单元504,用于使用候选标准词对待纠正的关键词内容进行纠正。
在一具体实现方式中,确定单元503还用于从标准词库中选取标准词对应的关键词与待纠正的关键词内容所属的关键词一致的标准词作为候选标准词。
在一具体实现方式中,如果待纠错的关键词内容的关键词包括地址,则票据信息处理装置500还包括划分单元及比对单元,划分单元用于按照地址划分规则对用于指示地址的关键词内容进行切分,以获得切分出的多个地址片段;比对单元用于针对各地址片段,确定地址片段与候选标准词之间的相似度;纠错单元504还用于若存在相似度大于设定的地址阈值的标准词,则使用相似度大于阈值的候选标准词替换地址片段。
在一具体实现方式中,划分单元具体用于根据正则表达式从关键词内容中切分出省级、市级、区级、具体地址级中至少一级地址片段。
在一具体实现方式中,若待纠错的关键词内容对应的关键词包括金额,第一获取单元501用于基于金额类的候选标准词,确定金额的汉字金额和数字金额的对应关系;从指示金额的关键词内容中获取中文金额的字符串;纠错单元504用于使用金额类的候选标准词对中文金额的字符串进行纠正。
在一具体实现方式中,确定单元503用于针对中文金额的字符串中的各字符,获取各字符对应的OCR识别结果中置信度最高的前K个预测字符;纠错单元504用于若前K个预测字符中包含金额类的候选标准词,则将字符确定为包含的金额类的候选标准词。
在一具体实现方式中,确定单元503还用于根据纠正后的中文金额的字符串和汉字金额和数字金额的对应关系,确定待纠错的关键词内容中数字金额的字符串。
在一具体实现方式中,票据信息处理装置500还包括比对单元,比对单元用于若待纠正的关键词内容对应的关键词属于预设的关键词,则计算待纠正的关键词内容和候选标准词之间的相似度;确定单元503用于选取相似度满足筛选条件的候选标准词作为纠正的关键词内容。
在一具体实现方式中,第二获取单元502还用于获取第一语言类别的字符和第二语言类别的字符之间的映射关系,第一语言类别和第二语言类别不同,且第一语言类别和第二语言类别包括中文、英文和数字中之一;比对单元用于针对待纠正的关键词内容中各字符,若当前字符的OCR识别结果中预测字符的置信度低于置信度阈值,且确定当前字符的语言类别未满足预设规则,则根据映射关系对当前字符进行纠正。
本发明实施例的票据信息处理装置500用于实现前述各票据信息处理方法实施例中的其他步骤,并具有相应的方法步骤实施例的有益效果,在此不再赘述。
本实施例的票据信息处理装置,通过对票据进行结构化处理以得到票据对应的结构化信息,结构化信息具体指票据中的关键词及关键词对应的关键词内容,并根据待纠正的关键词内容对应的关键词在预设的标准词库中确定与之对应的候选标准词,使用候选标准词对待纠正的关键词内容进行纠正,以使得获取到的票据信息更贴近标准词库,提高票据信息文本识别的准确率。
一种计算机存储介质,计算机存储介质上存储有计算机可执行程序,计算机可执行程序被运行以实施本发明实施例中任一项的方法。
一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实施本发明实施例中任一项的方法
本发明示例性实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机程序在被计算机的处理器执行时用于使计算机执行根据本发明各实施例的方法。
本发明示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,计算机程序在被计算机的处理器执行时用于使计算机执行根据本发明各实施例的方法。
参照图6,图6为本发明实施例提供的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图6所示,该电子设备可以包括:处理器(processor)602、通信接口(Communications Interface)604、存储有程序610的存储器(memory)606、以及通信总线608。
处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。
通信接口608,用于与其它电子设备或服务器进行通信。
处理器602,用于执行程序,具体可以执行上述方法实施例中的相关步骤。
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
处理器602可能是处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器606,用于存放程序。存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序具体可以用于使得处理器执行上述的票据信息处理方法。
用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本发明使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质上存储有计算机可执行程序,所述计算机可执行程序被运行以实施上述实施例的任一项所述票据信息处理方法。
以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (12)

1.一种票据信息处理方法,其特征在于,包括:
根据票据的OCR识别结果,对所述票据进行结构化处理,以获得所述票据对应的结构化信息,所述结构化信息包括票据中的关键词和所述关键词对应的关键词内容;
获取预设的标准词库,所述标准词库包括不同关键词对应的标准词;
根据待纠正的关键词内容对应的关键词,从所述标准词库中确定候选标准词;
使用所述候选标准词对所述待纠正的关键词内容进行纠正。
2.根据权利要求1所述的方法,其特征在于,所述根据待纠正的关键词内容对应的关键词,从所述标准词库中确定候选标准词,包括:
从所述标准词库中选取标准词对应的关键词与待纠正的关键词内容所属的关键词一致的标准词作为候选标准词。
3.根据权利要求1或2所述的方法,其特征在于,所述使用所述候选标准词对所述待纠正的关键词内容进行纠正,包括:
若所述待纠正的关键词内容的关键词包括地址,则按照地址划分规则对用于指示地址的关键词内容进行切分,以获得切分出的多个地址片段;
针对各所述地址片段,确定所述地址片段与所述候选标准词之间的相似度;
若存在相似度大于设定的地址阈值的标准词,则使用所述相似度大于阈值的候选标准词替换所述地址片段。
4.根据权利要求3所述的方法,其特征在于,所述按照地址划分规则对用于指示地址的关键词内容进行切分,以获得切分出的多个地址片段,包括:
使用正则表达式从所述关键词内容中切分出省级、市级、区级、具体地址级中至少一级地址片段。
5.根据权利要求1或2所述的方法,其特征在于,所述使用所述候选标准词对所述待纠正的关键词内容进行纠正,包括:
若所述待纠正的关键词内容对应的关键词包括金额,则基于金额类的候选标准词,确定金额的汉字金额和数字金额的对应关系;
从指示金额的关键词内容中获取汉字金额的字符串;
使用金额类的候选标准词对所述汉字金额的字符串进行纠正。
6.根据权利要求5所述的方法,其特征在于,所述使用金额类的候选标准词对所述汉字金额的字符串进行纠正,包括:
针对汉字金额的字符串中的各字符,获取各字符对应的OCR识别结果中置信度最高的前K个预测字符;
若所述前K个预测字符中包含金额类的候选标准词,则将所述字符确定为包含的所述金额类的候选标准词。
7.根据权利要求5所述的方法,其特征在于,所述使用所述候选标准词对所述待纠正的关键词内容进行纠正,还包括:
根据纠正后的汉字金额的字符串和所述汉字金额和数字金额的对应关系,确定所述待纠正的关键词内容中数字金额的字符串。
8.根据权利要求1或2所述的方法,其特征在于,所述使用所述候选标准词对所述待纠正的关键词内容进行纠正,包括:
若所述待纠正的关键词内容对应的关键词属于预设的关键词,则计算所述待纠正的关键词内容和所述候选标准词之间的相似度;
选取相似度满足筛选条件的候选标准词作为纠正的关键词内容。
9.根据权利要求1或2所述的方法,其特征在于,所述方法,还包括:
获取第一语言类别的字符和第二语言类别的字符之间的映射关系,所述第一语言类别和所述第二语言类别不同,且所述第一语言类别和所述第二语言类别包括中文、英文和数字中之一;
针对待纠正的关键词内容中各字符,若当前字符的OCR识别结果中预测字符的置信度低于置信度阈值,且确定所述当前字符的语言类别未满足预设规则,则根据所述映射关系对所述当前字符进行纠正。
10.一种票据信息处理装置,其特征在于,包括:
第一获取单元,用于根据票据的OCR识别结果,对所述票据进行结构化处理,以获得所述票据对应的结构化信息,所述结构化信息包括票据中的关键词和所述关键词对应的关键词内容;
第二获取单元,用于获取预设的标准词库,所述标准词库包括不同关键词对应的标准词;
确定单元,用于根据待纠正的关键词内容对应的关键词,从所述标准词库中确定候选标准词;
纠错单元,用于使用所述候选标准词对所述待纠正的关键词内容进行纠正。
11.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机可执行程序,所述计算机可执行程序被运行以实施权利要求1-9中任一项所述的方法。
12.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器上用于存储计算机可执行程序,所述处理器用于运行所述计算机可执行程序以实施权利要求1-9中任一项所述的方法。
CN202210905612.XA 2022-07-29 2022-07-29 票据信息处理方法、装置、电子设备及计算机存储介质 Pending CN115223188A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210905612.XA CN115223188A (zh) 2022-07-29 2022-07-29 票据信息处理方法、装置、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210905612.XA CN115223188A (zh) 2022-07-29 2022-07-29 票据信息处理方法、装置、电子设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN115223188A true CN115223188A (zh) 2022-10-21

Family

ID=83613619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210905612.XA Pending CN115223188A (zh) 2022-07-29 2022-07-29 票据信息处理方法、装置、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN115223188A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457567A (zh) * 2022-11-11 2022-12-09 北京中科万国互联网技术有限公司 一种票据金额数位缺失恢复方法、系统、设备及存储介质
CN117523570A (zh) * 2023-11-10 2024-02-06 广州方舟信息科技有限公司 一种药品标题的修正方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457567A (zh) * 2022-11-11 2022-12-09 北京中科万国互联网技术有限公司 一种票据金额数位缺失恢复方法、系统、设备及存储介质
CN115457567B (zh) * 2022-11-11 2023-01-17 北京中科万国互联网技术有限公司 一种票据金额数位缺失恢复方法、系统、设备及存储介质
CN117523570A (zh) * 2023-11-10 2024-02-06 广州方舟信息科技有限公司 一种药品标题的修正方法、装置、设备及存储介质
CN117523570B (zh) * 2023-11-10 2024-05-14 广州方舟信息科技有限公司 一种药品标题的修正方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US9754176B2 (en) Method and system for data extraction from images of semi-structured documents
AU2019203697A1 (en) Intelligent data extraction
US11055327B2 (en) Unstructured data parsing for structured information
CN115223188A (zh) 票据信息处理方法、装置、电子设备及计算机存储介质
JP6711523B2 (ja) 帳票認識システム
US10963717B1 (en) Auto-correction of pattern defined strings
CN110741376B (zh) 用于不同自然语言的自动文档分析
US9286526B1 (en) Cohort-based learning from user edits
CN111274785A (zh) 一种文本纠错方法、装置、设备及介质
US11663408B1 (en) OCR error correction
JP2021502628A (ja) 画像処理方法及び画像処理システム
US8411958B2 (en) Apparatus and method for handwriting recognition
US20110229036A1 (en) Method and apparatus for text and error profiling of historical documents
CN117422064A (zh) 搜索文本纠错方法、装置、计算机设备及存储介质
CN113723082B (zh) 从文本中检测中文拼音的方法和装置
CN114663886A (zh) 文本识别方法、模型的训练方法及装置
CN115481599A (zh) 文档的处理方法、装置、电子设备和存储介质
US11335108B2 (en) System and method to recognise characters from an image
CA3156204A1 (en) Domain based text extraction
CN110647785B (zh) 一种输入文本的准确性的识别方法、装置及电子设备
CN113743409A (zh) 一种文本识别方法和装置
CN117456532B (zh) 一种药品金额的校正方法、装置、设备及存储介质
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
US20240020473A1 (en) Domain Based Text Extraction
US20220107711A1 (en) Information processing apparatus and non-transitory computer readable medium storing program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230728

Address after: Room 404-405, 504, Building B-17-1, Big data Industrial Park, Kecheng Street, Yannan High tech Zone, Yancheng, Jiangsu Province, 224000

Applicant after: Yancheng Tianyanchawei Technology Co.,Ltd.

Address before: 224000 room 501-503, building b-17-1, Xuehai road big data Industrial Park, Kecheng street, Yannan high tech Zone, Yancheng City, Jiangsu Province (CNK)

Applicant before: Yancheng Jindi Technology Co.,Ltd.