CN110956739A - 一种票据识别方法及装置 - Google Patents

一种票据识别方法及装置 Download PDF

Info

Publication number
CN110956739A
CN110956739A CN201910386149.0A CN201910386149A CN110956739A CN 110956739 A CN110956739 A CN 110956739A CN 201910386149 A CN201910386149 A CN 201910386149A CN 110956739 A CN110956739 A CN 110956739A
Authority
CN
China
Prior art keywords
area
bill
amount
determining
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910386149.0A
Other languages
English (en)
Inventor
徐青松
李青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Glority Software Ltd
Original Assignee
Hangzhou Glority Software Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Glority Software Ltd filed Critical Hangzhou Glority Software Ltd
Priority to CN201910386149.0A priority Critical patent/CN110956739A/zh
Priority to PCT/CN2019/103848 priority patent/WO2020224131A1/zh
Publication of CN110956739A publication Critical patent/CN110956739A/zh
Priority to CN202010511702.1A priority patent/CN111489487B/zh
Priority to CN202010274197.3A priority patent/CN111275880B/zh
Priority to US17/216,669 priority patent/US11361570B2/en
Priority to US17/485,511 priority patent/US20220012488A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07DHANDLING OF COINS OR VALUABLE PAPERS, e.g. TESTING, SORTING BY DENOMINATIONS, COUNTING, DISPENSING, CHANGING OR DEPOSITING
    • G07D7/00Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency
    • G07D7/20Testing patterns thereon
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本发明提供了一种票据识别方法及装置,所述方法包括:获得待识别的票据的图像;采用区域识别模型,识别所述图像中所述票据的各个行区域;其中,所述行区域为每一行字符所在的区域;采用字符识别模型,识别每一行区域中的字符内容;根据每一行区域的字符内容,确定所述票据的时间信息、店铺名称以及付款金额。应用本发明提供的方案可以自动识别票据上的相关信息。

Description

一种票据识别方法及装置
技术领域
本发明涉及图像处理技术领域,尤其涉及一种票据识别方法、装置、电子设备和计算机可读存储介质。
背景技术
随着经济的不断发展,人们的消费水平不断的提高,为了维护人们的消费权益,票据成为了消费者的有力保障以及有效的报销凭证,因此财务人员每天需要处理大量的票据,获取票据上的相关信息,如开票时间、开票店铺、付款金额等。同时也有越来越多的人通过记账分类统计以掌握自身的消费情况,目前人们通常是通过手动记录票据中相关信息的方式进行记账的。因此如何自动识别票据上的相关信息对财务人员以及有记账分类统计的个人来说是十分重要的。
发明内容
本发明的目的在于提供一种票据识别方法、装置、电子设备和计算机可读存储介质,以自动识别票据上的相关信息。具体技术方案如下:
第一方面,本发明提供了一种票据识别方法,所述方法包括:
获得待识别的票据的图像;
采用区域识别模型,识别所述图像中所述票据的各个行区域;其中,所述行区域为每一行字符所在的区域,所述区域识别模型为基于神经网络的模型;
采用字符识别模型,识别每一行区域中的字符内容;其中,所述字符识别模型为基于神经网络的模型;
根据每一行区域的字符内容,确定所述票据的时间信息、店铺名称以及付款金额;
其中,根据每一行区域的字符内容,确定所述票据的付款金额,包括:
将字符内容中包含至少一个预设关键词的至少一个行区域确定为金额汇总区域;
根据所述金额汇总区域的字符内容,确定所述票据的付款金额。
可选的,所述方法还包括:
在识别所述图像中所述票据的各个行区域的过程中,采用所述区域识别模型识别时间区域,并将所述时间区域进行标注,其中,所述时间区域为符合预设时间特征的行区域;
根据每一行区域的字符内容,确定所述票据的时间信息,包括:
根据所述时间区域的字符内容,确定所述票据的时间信息。
可选的,根据每一行区域的字符内容,确定所述票据的店铺名称,包括:
根据每一行区域的字符内容在店名数据库中进行搜索,确定所述票据的店铺名称。
可选的,当所述票据中包含图案时,所述方法还包括:
采用区域识别模型,识别所述图像中所述图案所在的区域;
根据所述图案判断所述店名数据库中是否存在相匹配的店名图案;如果存在,将相匹配的店名图案对应的店铺名称确定为所述票据的店铺名称,如果不存在,则识别所述图案中的字符作为所述票据的店铺名称;如果所述图案中没有字符,再执行所述根据每一行区域的字符内容在店名数据库中进行搜索,确定所述票据的店铺名称的步骤;
其中,所述店名数据库中每一店名图案均标注有对应的店铺名称。
可选的,如果根据每一行区域的字符内容在店名数据库中进行搜索,无法确定所述票据的店铺名称,则从每一行区域的字符内容中确定店铺地址,将所述店铺地址作为所述票据的店铺名称。
可选的,从每一行区域的字符内容中确定店铺地址,包括:
若某一行区域中出现用于标识地址的预设字符,则将所述预设字符后面的字符作为店铺地址;
若某一行区域中出现行政区域名称或者街道名称对应的字符,则将这些字符作为店铺地址;
将所述店铺地址作为所述票据的店铺名称,包括:
选取所述店铺地址中用于表示较小区域的地址信息作为店铺名称。
可选的,根据所述金额汇总区域的字符内容,确定所述票据的付款金额,包括:
将所述金额汇总区域中的所有所述预设关键词组成待查询词组,从规则数据库中选择所述待查询词组对应的目标金额确定规则;其中,所述规则数据库中存储有由不同预设关键词组成的词组以及各个词组对应的金额确定规则;
根据所述目标金额确定规则,从所述金额汇总区域的字符内容中确定所述票据的付款金额。
可选的,所述规则数据库中存储的金额确定规则为:指定词组中的一预设关键词,以便于将金额汇总区域中该预设关键词对应的金额数值作为票据的付款金额;
根据所述目标金额确定规则,从所述金额汇总区域的字符内容中确定所述票据的付款金额,包括:
将所述目标金额确定规则所指定的预设关键词在所述金额汇总区域中对应的金额数值作为所述票据的付款金额。
可选的,将所述金额汇总区域中的所有所述预设关键词组成待查询词组,包括:
将所述金额汇总区域中的所有所述预设关键词按照首字母排序的方式组成待查询词组。
第二方面,本发明还提供了一种票据识别装置,所述装置包括:
获得模块,用于获得待识别的票据的图像;
第一识别模块,用于采用区域识别模型,识别所述图像中所述票据的各个行区域;其中,所述行区域为每一行字符所在的区域,所述区域识别模型为基于神经网络的模型;
第二识别模块,用于采用字符识别模型,识别每一行区域中的字符内容;其中,所述字符识别模型为基于神经网络的模型;
确定模块,用于根据每一行区域的字符内容,确定所述票据的时间信息、店铺名称以及付款金额;
其中,所述确定模块根据每一行区域的字符内容,确定所述票据的付款金额,具体为:
将字符内容中包含至少一个预设关键词的至少一个行区域确定为金额汇总区域;
根据所述金额汇总区域的字符内容,确定所述票据的付款金额。
可选的,所述第一识别模块,还用于在识别所述图像中所述票据的各个行区域的过程中,采用所述区域识别模型识别时间区域,并将所述时间区域进行标注,其中,所述时间区域为符合预设时间特征的行区域;
所述确定模块根据每一行区域的字符内容,确定所述票据的时间信息,具体为:
根据所述时间区域的字符内容,确定所述票据的时间信息。
可选的,所述确定模块根据每一行区域的字符内容,确定所述票据的店铺名称,具体为:
根据每一行区域的字符内容在店名数据库中进行搜索,确定所述票据的店铺名称。
可选的,当所述票据中包含图案时,
所述第一识别模块,还用于采用区域识别模型,识别所述图像中所述图案所在的区域;
所述确定模块,还用于根据所述图案判断所述店名数据库中是否存在相匹配的店名图案;如果存在,将相匹配的店名图案对应的店铺名称确定为所述票据的店铺名称,如果不存在,则识别所述图案中的字符作为所述票据的店铺名称;如果所述图案中没有字符,再执行所述根据每一行区域的字符内容在店名数据库中进行搜索,确定所述票据的店铺名称的步骤;
其中,所述店名数据库中每一店名图案均标注有对应的店铺名称。
可选的,所述确定模块,还用于如果根据每一行区域的字符内容在店名数据库中进行搜索,无法确定所述票据的店铺名称,则从每一行区域的字符内容中确定店铺地址,将所述店铺地址作为所述票据的店铺名称。
可选的,所述确定模块从每一行区域的字符内容中确定店铺地址,具体为:
若某一行区域中出现用于标识地址的预设字符,则将所述预设字符后面的字符作为店铺地址;
若某一行区域中出现行政区域名称或者街道名称对应的字符,则将这些字符作为店铺地址;
所述确定模块将所述店铺地址作为所述票据的店铺名称,包括:
选取所述店铺地址中用于表示较小区域的地址信息作为店铺名称。
可选的,所述确定模块根据所述金额汇总区域的字符内容,确定所述票据的付款金额,具体为:
将所述金额汇总区域中的所有所述预设关键词组成待查询词组,从规则数据库中选择所述待查询词组对应的目标金额确定规则;其中,所述规则数据库中存储有由不同预设关键词组成的词组以及各个词组对应的金额确定规则;
根据所述目标金额确定规则,从所述金额汇总区域的字符内容中确定所述票据的付款金额。
可选的,所述规则数据库中存储的金额确定规则为:指定词组中的一预设关键词,以便于将金额汇总区域中该预设关键词对应的金额数值作为票据的付款金额;
所述确定模块根据所述目标金额确定规则,从所述金额汇总区域的字符内容中确定所述票据的付款金额,具体为:
将所述目标金额确定规则所指定的预设关键词在所述金额汇总区域中对应的金额数值作为所述票据的付款金额。
可选的,所述确定模块将所述金额汇总区域中的所有所述预设关键词组成待查询词组,具体为:
将所述金额汇总区域中的所有所述预设关键词按照首字母排序的方式组成待查询词组。
第三方面,本发明还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现上述第一方面所述的票据识别方法的步骤。
第四方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面述所述的票据识别方法的步骤。
与现有技术相比,本发明在获得待识别的票据的图像后,首先采用区域识别模型识别各个行区域,然后采用字符识别模型识别各个行区域中的字符内容,最后通过字符内容确定票据中的时间信息、店铺名称以及付款金额,实现了对票据上相关信息的自动识别和显示,提高了票据处理的效率,进一步的,通过寻找字符内容中的预设关键词确定金额汇总区域进而确定票据的付款金额,可以提高付款金额的识别准确率和效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种票据识别方法的流程示意图;
图2A-图2D均为本发明一实施例提供的票据的具体示例;
图3是本发明一实施例提供的一种票据识别装置的结构示意图;
图4是本发明一实施例提供的一种电子设备的结构示意图。
具体实施方式
以下结合附图和具体实施例对本发明提出的一种票据识别方法、装置、电子设备及计算机可读存储介质作进一步详细说明。根据权利要求书和下面说明,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
为解决现有技术的问题,本发明实施例提供了一种票据识别方法、装置、电子设备及计算机可读存储介质。
需要说明的是,本发明实施例的一种票据识别方法可应用于本发明实施例的一种票据识别装置,该票据识别装置可被配置于电子设备上。其中,该电子设备可以是个人计算机、移动终端等,该移动终端可以是手机、平板电脑等具有各种操作系统的硬件设备。
图1是本发明一实施例提供的一种票据识别方法的流程示意图。请参考图1,一种票据识别方法可以包括如下步骤:
步骤S101,获得待识别的票据的图像。
本实施例所述的票据可以是发票、账单、税单、收据、购物清单、餐饮小票、保险单、报销单、快递单、行程单、车票等含有付款金额的单据,票据上字符的语言可以为中文、英文、日文、韩文、德文等,本实施例对此不做限定。
步骤S102,采用区域识别模型,识别所述图像中所述票据的各个行区域;其中,所述行区域为每一行字符所在的区域。
区域识别模块可以为预先训练得到的神经网络模型。将票据图像输入所述区域识别模型,所述区域识别模型可以识别出票据中每一行字符所在的区域,并将识别出的各个行区域标注出来。
步骤S103,采用字符识别模型,识别每一行区域中的字符内容。
字符识别模块可以为预先训练得到的神经网络模型。在识别出各个行区域后,可以将标注出各个行区域的票据图像输入所述字符识别模型,或者直接将各个行区域进行切片并将切片图片输入所述字符识别模型,通过所述字符识别模型识别出行各个行区域中的字符内容。
票据中的字符可以是打印字体的字符,也可以是手写字体的字符,由于打印字体和手写字体对应的字符集存在差异,若使用同一字符模型来识别打印字体和手写字体,则会降低字符识别的准确率。因此,为了提高字符识别的准确率,针对不同字体采用不同的字符识别模型。所述字符识别模型可以包括针对打印字体的识别模型和针对手写字体的识别模型,针对打印字体的识别模型和针对手写字体的识别模型分别经过各自独立的训练而成,针对手写字体和打印字体可以采用不同的字符训练集来训练相应的字符识别模型。
步骤S104,根据每一行区域的字符内容,确定所述票据的时间信息、店铺名称以及付款金额。
其中,对于付款金额,可以按照以下方式来确定:将字符内容中包含至少一个预设关键词的至少一个行区域确定为金额汇总区域;根据所述金额汇总区域的字符内容,确定所述票据的付款金额。
预设关键词用于表示付款区域中各个付款项目的项目名称,例如关键词可以包括:小计、总计、现金、找零、折扣等,又如在国际票据中关键词可以包括:subtotal、total、ttl、tax、gratuity、cash、change、discount、service、payment、visa等等。根据每一行区域的字符内容,可以找到包含预设关键词的行区域,将所有包含预设关键词的行区域确定为金额汇总区域,从而从金额汇总区域中的字符内容中找到预设关键词对应的金额数值,进而确定所述票据的付款金额。
具体而言,根据所述金额汇总区域的字符内容,确定所述票据的付款金额,可以包括:将所述金额汇总区域中的所有所述预设关键词组成待查询词组,从规则数据库中选择所述待查询词组对应的目标金额确定规则;其中,所述规则数据库中存储有由不同预设关键词组成的词组以及各个词组对应的金额确定规则;根据所述目标金额确定规则,从所述金额汇总区域的字符内容中确定所述票据的付款金额。
将金额汇总区域中所有预设关键词排列组合得到待查询词组,例如可以按照预设关键词的首字母顺序进行排列组合。例如,一票据包含的预设关键词为subtotal、tax、total,按首字母顺序排列组合得到待查询词组为subtotal-tax-total,另一票据包含的预设关键词为subtotal、tax、total、visa,按首字母顺序排列组合得到待查询词组为subtotal-tax-total-visa。对于中文票据,可以按照预设关键词的中文拼音简称的首字母排序的方式组成待查询词组,例如预设关键词为小计、税、总计,按中文拼音简称的首字母顺序排列组合得到待查询词组为税-小计-总计。
在本实施例中,所述规则数据库中存储的金额确定规则可以为:指定词组中的一预设关键词,以便于将金额汇总区域中该预设关键词对应的金额数值作为票据的付款金额。因此上述的根据所述目标金额确定规则,从所述金额汇总区域的字符内容中确定所述票据的付款金额的步骤,具体为:将所述目标金额确定规则所指定的预设关键词在所述金额汇总区域中对应的金额数值作为所述票据的付款金额。
举例而言,规则数据库中一词组为subtotal-tax-total,其对应的金额确定规则设定为选取预设关键词total对应的金额数值作为付款金额,那么若待查询词组也为subtotal-tax-total,则目标金额确定规则即为选取预设关键词total对应的金额数值作为付款金额,因此将金额汇总区域中预设关键词total对应的金额数值作为付款金额。又如,规则数据库中一词组为subtotal-tax-total-visa,其对应的金额确定规则设定为选取预设关键词visa对应的金额数值作为付款金额,那么若待查询词组也为subtotal-tax-total-visa,则目标金额确定规则即为选取预设关键词visa对应的金额数值作为付款金额,因此将金额汇总区域中预设关键词visa对应的金额数值作为付款金额。
下表示例性的示出了一些词组及其对应的金额确定规则。
Figure BDA0002054914840000091
Figure BDA0002054914840000101
下面再对时间信息、店铺名称的确定方法进行介绍。
对于时间信息,票据上显示的时间信息通常具有一定的时间格式,即时间信息符合一定的时间特征,例如日期斜杠特征、日期英文字符特征等等。举例而言,票据上显示的时间信息可以为:“30 Jan’18”,“02/10/17”,“22/11/2017”,“Apr 06’18”,“Apr 4,2018”,“2018-02-02”,“26 OCT 2017”,“Nov.18.2017”,“Mar 24,2018”,“01012017”,等。
因此,可以从行区域中找到符合预设的时间特征的区域,即为时间信息所在的区域(时间区域),进而确定所述票据的时间信息,具体是通过神经网络模型识别行区域中符合预设的时间特征的区域,神经网络模型是预先通过训练建立的,训练样本为各种格式的时间图片。具体方法如下:首先,在步骤S102识别所述图像中所述票据的各个行区域的过程中,还包括:采用所述区域识别模型识别时间区域,并将所述时间区域进行标注,其中,所述时间区域为符合预设时间特征的行区域;进而,在步骤S104中根据每一行区域的字符内容,确定所述票据的时间信息,包括:根据所述时间区域的字符内容,确定所述票据的时间信息。例如,时间区域的字符为“2018-02-02”,则可以确定票据的时间信息为“2018年02月02日”。
对于店铺名称,可以按照以下方式来确定:根据每一行区域的字符内容在店名数据库中进行搜索,确定所述票据的店铺名称。其中,店名数据库中预先存储有各个店铺名称,则逐一对各个行区域内的字符内容在店名数据库中进行搜索,若某一行区域内的字符内容能够在店名数据库中搜索到,则将在店名数据库中搜索到的店铺名称作为所述票据的店铺名称。若搜索不到,则可以从每一行区域的字符内容中确定店铺地址,将所述店铺地址作为所述票据的店铺名称。
本实施例中,店铺地址的确定有如下方式:1、若某一行区域中出现用于标识地址的预设字符例如“地址”“address”“add.”等字符,可以判断这些预设字符后面的字符为地址信息;2、若出现行政区域名称或者街道名称号码对应的字符,则这些字符为地址信息。
将店铺地址确定为店铺名称,可以选取店铺地址中用于表示较小区域的地址信息作为店铺名称,例如可以选取店铺地址中的街道+号码或者建筑物+楼层房号的信息作为店铺名称,用于表示较小区域的地址信息可以是行政区域名称中最小一级或者最小两级区域的地址信息,其一般是中文地址的最后部分或英文地址的最前部分的字符,例如如果店铺地址信息中包含有南京东路10号,则选取“南京东路10号”作为店铺名称,如果店铺地址信息中包含有来福士广场302,则选取“来福士广场302”作为店铺名称,如果店铺地址信息中包含有“XX商场601店铺”,则选取“XX商场601店铺”。店铺地址信息中用于表示较大区域的地址信息不计入店铺名称中,以便使得店铺名称简短,例如店铺地址信息中包含有上海市黄浦区南京东路10号,则忽略“上海市黄浦区”、只选取“南京东路10号”作为店铺名称,可以简化店铺名称。
另外,当所述票据中包含图案(通常为logo的图案)时,则店铺名称可以通过图案确定,具体方法如下:
采用区域识别模型,识别所述图像中所述图案所在的区域;
根据所述图案判断所述店名数据库中是否存在相匹配的店名图案;如果存在,将相匹配的店名图案对应的店铺名称确定为所述票据的店铺名称,如果不存在,则识别所述图案中的字符作为所述票据的店铺名称;如果所述图案中没有字符,再执行所述根据每一行区域的字符内容在店名数据库中进行搜索,确定所述票据的店铺名称的步骤;其中,所述店名数据库中每一店名图案均标注有对应的店铺名称。
进一步的,若根据图案在店名数据库中搜不到店铺名称,图案中也没有字符,并且根据每一行区域的字符内容在店名数据库中也搜不到店铺名称的情况下,也可以从每一行区域的字符内容中确定店铺地址,将所述店铺地址作为所述票据的店铺名称。
下面以一些票据的具体示例对本实施例所述的方法进行说明。
如图2A所示的票据,区域识别模型在识别各个行区域的过程中,可以识别出时间区域A1,进而通过字符识别模型的识别结果可以确定时间信息为8/8/2017,同时该票据中包含图案,区域识别模型还可以识别出图案所在的区域A2,并根据图案在店名数据库中搜索相匹配的店名图案,以确定该票据的店铺名称。如果在店名数据库中搜不到则利用字符识别模型识别图案中的字符“Hudson News”作为店铺名称。根据每一行区域的字符识别结果,可以确定该票据中包含预设关键词subtotal、total、cash、change,将这些关键词所在的行区域A3确定为金额汇总区域,并将这些关键词组成待查询词组cash-change-subtotal-total,并从规则数据库中查找对应的金额确定规则,若查找到的金额确定规则是将关键词total对应的金额数值作为付款金额,则从金额汇总区域A3中关键词total对应的金额数值2.54作为付款金额。
如图2B所示的票据,区域识别模型在识别各个行区域的过程中,可以识别出时间区域B1,进而通过字符识别模型的识别结果可以确定时间信息为08/03/17,同时该票据中包含图案,区域识别模型还可以识别出图案所在的区域B2,并根据图案在店名数据库中搜索相匹配的店名图案,以确定该票据的店铺名称。如果在店名数据库中搜不到则利用字符识别模型识别图案中的字符“ingles”作为店铺名称。根据每一行区域的字符识别结果,可以确定该票据中包含预设关键词TAX、BALANCE、TOTAL AMOUNT、CHANGE,将这些关键词所在的行区域B3确定为金额汇总区域,并将这些关键词组成待查询词组BALANCE-CHANGE-TAX-TOTAL AMOUNT,并从规则数据库中查找对应的金额确定规则,若查找到的金额确定规则是将关键词TOTAL AMOUNT对应的金额数值作为付款金额,则从金额汇总区域B3中关键词TOTAL AMOUNT对应的金额数值4.44作为付款金额。
如图2C所示的票据,区域识别模型在识别各个行区域的过程中,可以识别出时间区域C1,进而通过字符识别模型的识别结果可以确定时间信息为08/02/17、10/31/17,同时该票据中包含图案,区域识别模型还可以识别出图案所在的区域C2,并根据图案在店名数据库中搜索相匹配的店名图案,以确定该票据的店铺名称。如果在店名数据库中搜不到则利用字符识别模型识别图案中的字符“ingles”作为店铺名称。根据每一行区域的字符识别结果,可以确定该票据中包含预设关键词SUBTOTAL、TAX、TOTAL,将这些关键词所在的行区域C3确定为金额汇总区域,并将这些关键词组成待查询词组SUBTOTAL-TAX-TOTAL,并从规则数据库中查找对应的金额确定规则,若查找到的金额确定规则是将关键词TOTAL对应的金额数值作为付款金额,则从金额汇总区域C3中关键词TOTAL对应的金额数值4.86作为付款金额。
如图2D所示的票据,区域识别模型在识别各个行区域的过程中,可以识别出时间区域D1,进而通过字符识别模型的识别结果可以确定时间信息为26/12/2017,同时该票据中包含图案,区域识别模型还可以识别出图案所在的区域D2,并根据图案在店名数据库中搜索相匹配的店名图案,以确定该票据的店铺名称。如果在店名数据库中搜不到则利用字符识别模型识别图案中的字符“RTA”作为店铺名称。根据每一行区域的字符识别结果,可以确定该票据中包含一个预设关键词Total Amount,将这个关键词所在的行区域D3确定为金额汇总区域,并将这个关键词组成待查询词组Total Amount,并从规则数据库中查找对应的金额确定规则,若查找到的金额确定规则是将这个关键词Total Amount对应的金额数值作为付款金额,则从金额汇总区域D3中将对应的金额数值61.00作为付款金额。
下面再对所述区域识别模型、所述字符识别模型的训练过程进行简单介绍。
区域识别模型可以通过如下过程得到:对票据图像样本集中的每个票据图像样本进行标注处理,以标注出每个票据图像样本中的各个行区域;以及通过经过标注处理的票据图像样本集,对神经网络进行训练,以得到区域识别模型。在标注出各个行区域时,还可以标注出其中符合预设时间特征的区域作为时间区域,这样,通过大量多种类型的时间区域样本训练得到的区域识别模型在识别各个行区域的同时,也可以识别出时间区域并进行标注。
字符识别模型可以通过如下过程得到:对区域识别模型训练过程中所标注的各个行区域进行标注处理,以标注出每个行区域内的字符;以及通过经过标注处理的各个行区域,对神经网络进行训练,以得到字符识别模型。
当然,字符识别模型的训练集也可以与区域识别模型的训练集不同,本实施例对此不做限定。
综上所述,本实施例在获得待识别的票据的图像后,首先采用区域识别模型识别各个行区域,然后采用字符识别模型识别各个行区域中的字符内容,最后通过字符内容确定票据中的时间信息、店铺名称以及付款金额,实现了对票据上相关信息的自动识别和显示,提高了票据处理的效率。
相应于上述方法实施例,本发明一实施例还提供了一种票据识别装置,图3是本发明一实施例提供的一种票据识别装置的结构示意图。请参考图3,一种票据识别装置可以包括:
获得模块201,用于获得待识别的票据的图像;
第一识别模块202,用于采用区域识别模型,识别所述图像中所述票据的各个行区域;其中,所述行区域为每一行字符所在的区域;
第二识别模块203,用于采用字符识别模型,识别每一行区域中的字符内容;
确定模块204,用于根据每一行区域的字符内容,确定所述票据的时间信息、店铺名称以及付款金额;
其中,所述确定模块204根据每一行区域的字符内容,确定所述票据的付款金额,包括:
将字符内容中包含至少一个预设关键词的至少一个行区域确定为金额汇总区域;
根据所述金额汇总区域的字符内容,确定所述票据的付款金额。
可选的,所述第一识别模块202,还用于在识别所述图像中所述票据的各个行区域的过程中,采用所述区域识别模型识别时间区域,并将所述时间区域进行标注,其中,所述时间区域为符合预设时间特征的行区域;
所述确定模块204根据每一行区域的字符内容,确定所述票据的时间信息,具体为:
根据所述时间区域的字符内容,确定所述票据的时间信息。
可选的,所述确定模块204根据每一行区域的字符内容,确定所述票据的店铺名称,具体为:
根据每一行区域的字符内容在店名数据库中进行搜索,确定所述票据的店铺名称。
可选的,当所述票据中包含图案时,
所述第一识别模块202,还用于采用区域识别模型,识别所述图像中所述图案所在的区域;
所述确定模块204,还用于根据所述图案判断所述店名数据库中是否存在相匹配的店名图案;如果存在,将相匹配的店名图案对应的店铺名称确定为所述票据的店铺名称,如果不存在,则识别所述图案中的字符作为所述票据的店铺名称;如果所述图案中没有字符,再执行所述根据每一行区域的字符内容在店名数据库中进行搜索,确定所述票据的店铺名称的步骤;
其中,所述店名数据库中每一店名图案均标注有对应的店铺名称。
可选的,所述确定模块204,还用于如果根据每一行区域的字符内容在店名数据库中进行搜索,无法确定所述票据的店铺名称,则从每一行区域的字符内容中确定店铺地址,将所述店铺地址作为所述票据的店铺名称。
可选的,所述确定模块204从每一行区域的字符内容中确定店铺地址,具体为:
若某一行区域中出现用于标识地址的预设字符,则将所述预设字符后面的字符作为店铺地址;
若某一行区域中出现行政区域名称或者街道名称对应的字符,则将这些字符作为店铺地址;
所述确定模块204将所述店铺地址作为所述票据的店铺名称,包括:
选取所述店铺地址中用于表示较小区域的地址信息作为店铺名称。
可选的,所述确定模块204根据所述金额汇总区域的字符内容,确定所述票据的付款金额,具体为:
将所述金额汇总区域中的所有所述预设关键词组成待查询词组,从规则数据库中选择所述待查询词组对应的目标金额确定规则;其中,所述规则数据库中存储有由不同预设关键词组成的词组以及各个词组对应的金额确定规则;
根据所述目标金额确定规则,从所述金额汇总区域的字符内容中确定所述票据的付款金额。
可选的,所述规则数据库中存储的金额确定规则为:指定词组中的一预设关键词,以便于将金额汇总区域中该预设关键词对应的金额数值作为票据的付款金额;
所述确定模块204根据所述目标金额确定规则,从所述金额汇总区域的字符内容中确定所述票据的付款金额,具体为:
将所述目标金额确定规则所指定的预设关键词在所述金额汇总区域中对应的金额数值作为所述票据的付款金额。
可选的,所述确定模块204将所述金额汇总区域中的所有所述预设关键词组成待查询词组,具体为:
将所述金额汇总区域中的所有所述预设关键词按照首字母排序的方式组成待查询词组。
本发明一实施例还提供了一种电子设备,图4是本发明一实施例提供的一种电子设备的结构示意图。请参考图4,一种电子设备包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信,
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,实现如下步骤:
获得待识别的票据的图像;
采用区域识别模型,识别所述图像中所述票据的各个行区域;其中,所述行区域为每一行字符所在的区域;
采用字符识别模型,识别每一行区域中的字符内容;
根据每一行区域的字符内容,确定所述票据的时间信息、店铺名称以及付款金额;
其中,根据每一行区域的字符内容,确定所述票据的付款金额,包括:
将字符内容中包含至少一个预设关键词的至少一个行区域确定为金额汇总区域;
根据所述金额汇总区域的字符内容,确定所述票据的付款金额。
关于该方法各个步骤的具体实现以及相关解释内容可以参见上述图1所示的方法实施例,在此不做赘述。
另外,处理器301执行存储器303上所存放的程序而实现的票据识别方法的其他实现方式,与前述方法实施例部分所提及的实现方式相同,这里也不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明一实施例还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,该计算机程序被处理器执行时实现上述的票据识别方法的方法步骤。
需要说明的是,本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
上述描述仅是对本发明较佳实施例的描述,并非对本发明范围的任何限定,本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。

Claims (20)

1.一种票据识别方法,其特征在于,所述方法包括:
获得待识别的票据的图像;
采用区域识别模型,识别所述图像中所述票据的各个行区域;其中,所述行区域为每一行字符所在的区域,所述区域识别模型为基于神经网络的模型;
采用字符识别模型,识别每一行区域中的字符内容;其中,所述字符识别模型为基于神经网络的模型;
根据每一行区域的字符内容,确定所述票据的时间信息、店铺名称以及付款金额;
其中,根据每一行区域的字符内容,确定所述票据的付款金额,包括:
将字符内容中包含至少一个预设关键词的至少一个行区域确定为金额汇总区域;
根据所述金额汇总区域的字符内容,确定所述票据的付款金额。
2.如权利要求1所述的一种票据识别方法,其特征在于,所述方法还包括:
在识别所述图像中所述票据的各个行区域的过程中,采用所述区域识别模型识别时间区域,并将所述时间区域进行标注,其中,所述时间区域为符合预设时间特征的行区域;
根据每一行区域的字符内容,确定所述票据的时间信息,包括:
根据所述时间区域的字符内容,确定所述票据的时间信息。
3.如权利要求1所述的一种票据识别方法,其特征在于,根据每一行区域的字符内容,确定所述票据的店铺名称,包括:
根据每一行区域的字符内容在店名数据库中进行搜索,确定所述票据的店铺名称。
4.如权利要求3所述的一种票据识别方法,其特征在于,当所述票据中包含图案时,所述方法还包括:
采用区域识别模型,识别所述图像中所述图案所在的区域;
根据所述图案判断所述店名数据库中是否存在相匹配的店名图案;如果存在,将相匹配的店名图案对应的店铺名称确定为所述票据的店铺名称,如果不存在,则识别所述图案中的字符作为所述票据的店铺名称;如果所述图案中没有字符,再执行所述根据每一行区域的字符内容在店名数据库中进行搜索,确定所述票据的店铺名称的步骤;
其中,所述店名数据库中每一店名图案均标注有对应的店铺名称。
5.如权利要求3或4所述的一种票据识别方法,其特征在于,如果根据每一行区域的字符内容在店名数据库中进行搜索,无法确定所述票据的店铺名称,则从每一行区域的字符内容中确定店铺地址,将所述店铺地址作为所述票据的店铺名称。
6.如权利要求1所述的一种票据识别方法,其特征在于,从每一行区域的字符内容中确定店铺地址,包括:
若某一行区域中出现用于标识地址的预设字符,则将所述预设字符后面的字符作为店铺地址;
若某一行区域中出现行政区域名称或者街道名称对应的字符,则将这些字符作为店铺地址;
将所述店铺地址作为所述票据的店铺名称,包括:
选取所述店铺地址中用于表示较小区域的地址信息作为店铺名称。
7.如权利要求1所述的一种票据识别方法,其特征在于,根据所述金额汇总区域的字符内容,确定所述票据的付款金额,包括:
将所述金额汇总区域中的所有所述预设关键词组成待查询词组,从规则数据库中选择所述待查询词组对应的目标金额确定规则;其中,所述规则数据库中存储有由不同预设关键词组成的词组以及各个词组对应的金额确定规则;
根据所述目标金额确定规则,从所述金额汇总区域的字符内容中确定所述票据的付款金额。
8.如权利要求7所述的一种票据识别方法,其特征在于,所述规则数据库中存储的金额确定规则为:指定词组中的一预设关键词,以便于将金额汇总区域中该预设关键词对应的金额数值作为票据的付款金额;
根据所述目标金额确定规则,从所述金额汇总区域的字符内容中确定所述票据的付款金额,包括:
将所述目标金额确定规则所指定的预设关键词在所述金额汇总区域中对应的金额数值作为所述票据的付款金额。
9.如权利要求7所述的一种票据识别方法,其特征在于,将所述金额汇总区域中的所有所述预设关键词组成待查询词组,包括:
将所述金额汇总区域中的所有所述预设关键词按照首字母排序的方式组成待查询词组。
10.一种票据识别装置,其特征在于,所述装置包括:
获得模块,用于获得待识别的票据的图像;
第一识别模块,用于采用区域识别模型,识别所述图像中所述票据的各个行区域;其中,所述行区域为每一行字符所在的区域,所述区域识别模型为基于神经网络的模型;
第二识别模块,用于采用字符识别模型,识别每一行区域中的字符内容;其中,所述字符识别模型为基于神经网络的模型;
确定模块,用于根据每一行区域的字符内容,确定所述票据的时间信息、店铺名称以及付款金额;
其中,所述确定模块根据每一行区域的字符内容,确定所述票据的付款金额,具体为:
将字符内容中包含至少一个预设关键词的至少一个行区域确定为金额汇总区域;
根据所述金额汇总区域的字符内容,确定所述票据的付款金额。
11.如权利要求10所述的一种票据识别装置,其特征在于,所述第一识别模块,还用于在识别所述图像中所述票据的各个行区域的过程中,采用所述区域识别模型识别时间区域,并将所述时间区域进行标注,其中,所述时间区域为符合预设时间特征的行区域;
所述确定模块根据每一行区域的字符内容,确定所述票据的时间信息,具体为:
根据所述时间区域的字符内容,确定所述票据的时间信息。
12.如权利要求10所述的一种票据识别装置,其特征在于,所述确定模块根据每一行区域的字符内容,确定所述票据的店铺名称,具体为:
根据每一行区域的字符内容在店名数据库中进行搜索,确定所述票据的店铺名称。
13.如权利要求12所述的一种票据识别装置,其特征在于,当所述票据中包含图案时,
所述第一识别模块,还用于采用区域识别模型,识别所述图像中所述图案所在的区域;
所述确定模块,还用于根据所述图案判断所述店名数据库中是否存在相匹配的店名图案;如果存在,将相匹配的店名图案对应的店铺名称确定为所述票据的店铺名称,如果不存在,则识别所述图案中的字符作为所述票据的店铺名称;如果所述图案中没有字符,再执行所述根据每一行区域的字符内容在店名数据库中进行搜索,确定所述票据的店铺名称的步骤;
其中,所述店名数据库中每一店名图案均标注有对应的店铺名称。
14.如权利要求12或13所述的一种票据识别装置,其特征在于,所述确定模块,还用于如果根据每一行区域的字符内容在店名数据库中进行搜索,无法确定所述票据的店铺名称,则从每一行区域的字符内容中确定店铺地址,将所述店铺地址作为所述票据的店铺名称。
15.如权利要求10所述的一种票据识别装置,其特征在于,所述确定模块从每一行区域的字符内容中确定店铺地址,具体为:
若某一行区域中出现用于标识地址的预设字符,则将所述预设字符后面的字符作为店铺地址;
若某一行区域中出现行政区域名称或者街道名称对应的字符,则将这些字符作为店铺地址;
所述确定模块将所述店铺地址作为所述票据的店铺名称,包括:
选取所述店铺地址中用于表示较小区域的地址信息作为店铺名称。
16.如权利要求10所述的一种票据识别装置,其特征在于,所述确定模块根据所述金额汇总区域的字符内容,确定所述票据的付款金额,具体为:
将所述金额汇总区域中的所有所述预设关键词组成待查询词组,从规则数据库中选择所述待查询词组对应的目标金额确定规则;其中,所述规则数据库中存储有由不同预设关键词组成的词组以及各个词组对应的金额确定规则;
根据所述目标金额确定规则,从所述金额汇总区域的字符内容中确定所述票据的付款金额。
17.如权利要求16所述的一种票据识别装置,其特征在于,所述规则数据库中存储的金额确定规则为:指定词组中的一预设关键词,以便于将金额汇总区域中该预设关键词对应的金额数值作为票据的付款金额;
所述确定模块根据所述目标金额确定规则,从所述金额汇总区域的字符内容中确定所述票据的付款金额,具体为:
将所述目标金额确定规则所指定的预设关键词在所述金额汇总区域中对应的金额数值作为所述票据的付款金额。
18.如权利要求16所述的一种票据识别装置,其特征在于,所述确定模块将所述金额汇总区域中的所有所述预设关键词组成待查询词组,具体为:
将所述金额汇总区域中的所有所述预设关键词按照首字母排序的方式组成待查询词组。
19.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1-9任一所述的方法步骤。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-9任一项所述的方法步骤。
CN201910386149.0A 2019-05-09 2019-05-09 一种票据识别方法及装置 Pending CN110956739A (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201910386149.0A CN110956739A (zh) 2019-05-09 2019-05-09 一种票据识别方法及装置
PCT/CN2019/103848 WO2020224131A1 (zh) 2019-05-09 2019-08-30 票据识别方法、装置、电子设备和计算机可读存储介质
CN202010511702.1A CN111489487B (zh) 2019-05-09 2020-04-09 票据识别方法、装置、设备和存储介质
CN202010274197.3A CN111275880B (zh) 2019-05-09 2020-04-09 票据识别方法、装置、设备和存储介质
US17/216,669 US11361570B2 (en) 2019-05-09 2021-03-29 Receipt identification method, apparatus, device and storage medium
US17/485,511 US20220012488A1 (en) 2019-05-09 2021-09-27 Receipt identification method, apparatus, electronic device and computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910386149.0A CN110956739A (zh) 2019-05-09 2019-05-09 一种票据识别方法及装置

Publications (1)

Publication Number Publication Date
CN110956739A true CN110956739A (zh) 2020-04-03

Family

ID=69976161

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201910386149.0A Pending CN110956739A (zh) 2019-05-09 2019-05-09 一种票据识别方法及装置
CN202010274197.3A Active CN111275880B (zh) 2019-05-09 2020-04-09 票据识别方法、装置、设备和存储介质
CN202010511702.1A Active CN111489487B (zh) 2019-05-09 2020-04-09 票据识别方法、装置、设备和存储介质

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN202010274197.3A Active CN111275880B (zh) 2019-05-09 2020-04-09 票据识别方法、装置、设备和存储介质
CN202010511702.1A Active CN111489487B (zh) 2019-05-09 2020-04-09 票据识别方法、装置、设备和存储介质

Country Status (3)

Country Link
US (2) US11361570B2 (zh)
CN (3) CN110956739A (zh)
WO (1) WO2020224131A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112685414A (zh) * 2020-12-29 2021-04-20 勤智数码科技股份有限公司 一种信息资源目录同数据资源进行关联的方法及装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109872444B (zh) * 2019-02-27 2021-03-09 杭州睿琪软件有限公司 一种票据识别方法及装置
US11275934B2 (en) * 2019-11-20 2022-03-15 Sap Se Positional embeddings for document processing
CN111814779A (zh) * 2020-07-08 2020-10-23 重庆农村商业银行股份有限公司 一种票据文本识别方法、装置、设备及存储介质
CN111860450A (zh) * 2020-08-03 2020-10-30 理光图像技术(上海)有限公司 票证识别装置以及票证信息管理系统
CN112101995A (zh) * 2020-09-11 2020-12-18 北京市商汤科技开发有限公司 数据处理方法、装置、设备及存储介质
CN113469005A (zh) * 2021-06-24 2021-10-01 金蝶软件(中国)有限公司 一种银行回单的识别方法、相关装置及存储介质
CN113626466B (zh) * 2021-08-10 2022-04-15 深圳市玄羽科技有限公司 基于工业互联网的物料管理方法、系统及计算机存储介质
US11921676B2 (en) * 2021-11-29 2024-03-05 International Business Machines Corporation Analyzing deduplicated data blocks associated with unstructured documents
CN117152778B (zh) * 2023-10-31 2024-01-16 安徽省立医院(中国科学技术大学附属第一医院) 一种基于ocr的医疗器械注册证识别方法、装置及介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030050891A1 (en) * 2001-09-07 2003-03-13 James Cohen Method and system for registration and tracking of items
US8233751B2 (en) * 2006-04-10 2012-07-31 Patel Nilesh V Method and system for simplified recordkeeping including transcription and voting based verification
JP2011227543A (ja) * 2010-04-15 2011-11-10 Panasonic Corp 帳票処理装置及び帳票処理方法及び記録媒体
JP5202677B2 (ja) * 2011-04-08 2013-06-05 株式会社富士通マーケティング レシートデータ認識装置およびそのプログラム
JP5216890B2 (ja) * 2011-04-15 2013-06-19 株式会社富士通マーケティング レシートデータ認識装置およびそのプログラム
US9552516B2 (en) * 2012-08-29 2017-01-24 Palo Alto Research Center Incorporated Document information extraction using geometric models
US20140268250A1 (en) * 2013-03-15 2014-09-18 Mitek Systems, Inc. Systems and methods for receipt-based mobile image capture
US9230547B2 (en) * 2013-07-10 2016-01-05 Datascription Llc Metadata extraction of non-transcribed video and audio streams
CN104573735A (zh) * 2015-01-05 2015-04-29 广东小天才科技有限公司 基于图像拍摄以优化定位的方法、智能终端及服务器
CN104915114B (zh) * 2015-05-29 2018-10-19 小米科技有限责任公司 信息记录方法和装置、智能终端
JP2017004154A (ja) * 2015-06-08 2017-01-05 ローレル精機株式会社 紙幣処理装置
JP2019061293A (ja) * 2016-02-02 2019-04-18 日立オムロンターミナルソリューションズ株式会社 紙幣処理装置、紙幣取扱い方法
CN107424000A (zh) * 2017-04-11 2017-12-01 阿里巴巴集团控股有限公司 一种数据获取方法和装置
CN107798299B (zh) * 2017-10-09 2020-02-07 平安科技(深圳)有限公司 票据信息识别方法、电子装置及可读存储介质
CN107808154B (zh) * 2017-12-08 2021-03-30 上海慧银信息科技有限公司 提取收银票据信息的方法和装置
CN108229463A (zh) * 2018-02-07 2018-06-29 众安信息技术服务有限公司 基于图像的文字识别方法
CN108564035B (zh) * 2018-04-13 2020-09-25 杭州睿琪软件有限公司 识别单据上记载的信息的方法及系统
CN108717543B (zh) * 2018-05-14 2022-01-14 北京市商汤科技开发有限公司 一种发票识别方法及装置、计算机存储介质
CN109241857A (zh) * 2018-08-13 2019-01-18 杭州睿琪软件有限公司 一种单据信息的识别方法及系统
CN109284750A (zh) * 2018-08-14 2019-01-29 北京市商汤科技开发有限公司 票据识别方法及装置、电子设备及存储介质
CN109491623A (zh) * 2018-11-14 2019-03-19 北京三快在线科技有限公司 打印数据处理方法和装置、电子发票生成方法和服务器
CN109670500A (zh) * 2018-11-30 2019-04-23 平安科技(深圳)有限公司 一种文字区域获取方法、装置、存储介质及终端设备
CN109711402B (zh) * 2018-12-14 2021-06-04 杭州睿琪软件有限公司 一种医疗单据识别方法及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112685414A (zh) * 2020-12-29 2021-04-20 勤智数码科技股份有限公司 一种信息资源目录同数据资源进行关联的方法及装置
CN112685414B (zh) * 2020-12-29 2023-04-25 勤智数码科技股份有限公司 一种信息资源目录同数据资源进行关联的方法及装置

Also Published As

Publication number Publication date
US20210216765A1 (en) 2021-07-15
CN111275880B (zh) 2021-08-31
US20220012488A1 (en) 2022-01-13
WO2020224131A1 (zh) 2020-11-12
US11361570B2 (en) 2022-06-14
CN111489487B (zh) 2021-12-24
CN111489487A (zh) 2020-08-04
CN111275880A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN110956739A (zh) 一种票据识别方法及装置
CN109887153B (zh) 一种财税处理方法和处理系统
US20140064618A1 (en) Document information extraction using geometric models
JP6268352B2 (ja) 会計データ入力システム、方法、およびプログラム
CN112800848A (zh) 票据识别后信息结构化提取方法、装置和设备
US11379690B2 (en) System to extract information from documents
JPWO2019008766A1 (ja) 証憑処理システムおよび証憑処理プログラム
CN112801041A (zh) 财务数据的报销方法、装置、设备及存储介质
CN111914729A (zh) 凭证关联方法、装置、计算机设备及存储介质
CN109872444B (zh) 一种票据识别方法及装置
CN113360768A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
Ha et al. Information extraction from scanned invoice images using text analysis and layout features
TWI716761B (zh) 智能會計帳務系統與會計憑證的辨識入帳方法
CN111598099A (zh) 图像文本识别性能的测试方法、装置、测试设备及介质
US20140177951A1 (en) Method, apparatus, and storage medium having computer executable instructions for processing of an electronic document
US20220121881A1 (en) Systems and methods for enabling relevant data to be extracted from a plurality of documents
CN113111829B (zh) 识别文档的方法和装置
US11475686B2 (en) Extracting data from tables detected in electronic documents
Vishwanath et al. Deep reader: Information extraction from document images via relation extraction and natural language
KR20210101560A (ko) 해외 신용카드 결제가능 매장 검색 서비스 제공 시스템
CN113254598B (zh) 文档比对方法、装置、服务器、介质及产品
JP2001318941A (ja) 情報処理装置および情報処理方法
CN115210708B (zh) 处理文本数据的方法和系统、非暂时性计算机可读介质
WO2023007612A1 (ja) データ処理装置、データ処理方法及びプログラム
Ha et al. Who is Selling to Whom–Feature Evaluation for Multi-block Classification in Invoice Information Extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200403