CN107798299B - 票据信息识别方法、电子装置及可读存储介质 - Google Patents

票据信息识别方法、电子装置及可读存储介质 Download PDF

Info

Publication number
CN107798299B
CN107798299B CN201710930679.8A CN201710930679A CN107798299B CN 107798299 B CN107798299 B CN 107798299B CN 201710930679 A CN201710930679 A CN 201710930679A CN 107798299 B CN107798299 B CN 107798299B
Authority
CN
China
Prior art keywords
bill
field
bill picture
model
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710930679.8A
Other languages
English (en)
Other versions
CN107798299A (zh
Inventor
王健宗
韩茂琨
刘鹏
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201710930679.8A priority Critical patent/CN107798299B/zh
Priority to PCT/CN2017/108735 priority patent/WO2019071660A1/zh
Publication of CN107798299A publication Critical patent/CN107798299A/zh
Application granted granted Critical
Publication of CN107798299B publication Critical patent/CN107798299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本发明涉及一种票据信息识别方法、电子装置及可读存储介质,该方法包括:根据预先确定的待识别字段与区域识别模型的映射关系,确定票据图片中各个待识别字段对应的区域识别模型,调用对应的区域识别模型对票据图片的行字符区域进行区域识别,从票据图片上识别出包含字符信息且固定宽度为预设值的目标框,并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域;根据预先确定的待识别字段与字符识别模型的映射关系,确定各个所述待识别字段对应的字符识别模型,针对各个待识别字段的目标行字符区域,调用对应的字符识别模型进行字符识别。本发明能降低票据信息识别的错误率。

Description

票据信息识别方法、电子装置及可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种票据信息识别方法、电子装置及可读存储介质。
背景技术
如今随着经济的发展和人们生活水平的提高,越来越多的人选择购买医疗、商业、金融等保险。为了改善用户的保险理赔体验,提升保险理赔效率,目前,有些保险公司推出了自助理赔业务,比如用户在进行医疗保险理赔过程中,只需要将门诊或住院票据拍照上传到保险公司系统,保险公司业务员会将用户上传的票据图片上的信息录入到理赔系统中,以进行下一步操作,这种自助理赔方式大大方便了用户进行理赔的过程,然而,这种自助理赔方式在带来了便捷的理赔过程的同时,却增加了保险公司业务人员的工作压力,问题主要表现在需要花费大量的人力来处理用户上传的票据图像,效率低下,且数据录入的错误率居高不下。
发明内容
本发明的目的在于提供一种票据信息识别方法、电子装置及可读存储介质,旨在提高票据信息识别效率和降低票据信息识别的错误率。
为实现上述目的,本发明提供一种电子装置,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的票据信息识别系统,所述票据信息识别系统被所述处理器执行时实现如下步骤:
A、在收到待处理的票据图片后,根据预先确定的待识别字段与区域识别模型的映射关系,确定所述票据图片中各个待识别字段对应的区域识别模型,针对各个待识别字段,调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别,从所述票据图片上识别出包含字符信息且固定宽度为预设值的目标框,并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域;
B、根据预先确定的待识别字段与字符识别模型的映射关系,确定各个所述待识别字段对应的字符识别模型,针对各个所述待识别字段的目标行字符区域,调用对应的字符识别模型进行字符识别,以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息。
优选地,所述根据预先确定的待识别字段与区域识别模型的映射关系,确定所述票据图片中各个待识别字段对应的区域识别模型包括:
A1、利用预先训练的票据图片识别模型对收到的票据图片的票据类别进行识别,并输出票据类别的识别结果;
A2、利用预先确定的矫正规则对收到的票据图片进行倾斜矫正;
A3、根据预先确定的票据类别与待识别字段的映射关系,确定识别的票据类别对应的待识别字段;
A4、根据预先确定的待识别字段与区域识别模型的映射关系,确定各个所述待识别字段对应的区域识别模型。
优选地,所述区域识别模型为卷积神经网络模型,针对一个待识别字段对应的区域识别模型的训练过程如下:
C1、针对该待识别字段,获取预设数量的票据图片样本;
C2、在各个票据图片样本上每隔第一预设数量的像素,设置第二预设数量的不同高宽比且固定宽度为预设值的小框;
C3、在各个票据图片样本上对包含该待识别字段的字符信息的小框进行标记;
C4、将包含该待识别字段的字符信息的票据图片样本归入第一训练集,并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集;
C5、分别从第一训练集和第二训练集中提取出第一预设比例的票据图片样本作为待训练的样本图片,并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片;
C6、利用提取的各个待训练的样本图片进行模型训练,以生成所述区域识别模型,并利用各个待验证的样本图片对生成的所述区域识别模型进行验证;
C7、若验证通过率大于或等于预设阈值,则训练完成,或者,若验证通过率小于预设阈值,则增加票据图片样本的数量,并重复执行步骤C2、C3、C4、C5、C6。
优选地,所述字符识别模型为时间递归神经网络模型LSTM,针对一个待识别字段对应的字符识别模型的训练过程如下:
D1、针对该待识别字段,获取预设数量的票据图片样本,票据图片样本中仅包含一行该待识别字段的字符信息,并将各个票据图片样本的名称命名为其包含的该待识别字段的字符信息;
D2、将所述票据图片样本按照X:Y的比例分成第一数据集和第二数据集,第一数据集中的票据图片样本数量大于第二数据集中的票据图片样本数量,将第一数据集作为训练集,第二数据集作为测试集,其中,X大于0,Y大于0;
D3、将第一数据集中的票据图片样本送入预设的时间递归神经网络模型进行模型训练,每隔预设时间或预设次数的迭代,使用训练得到的模型对第二数据集中的票据图片样本进行字符信息识别,并将字符信息识别结果与测试的票据图片样本的名称进行比对,以计算字符信息识别结果的误差;若训练得到的模型对票据图片样本的字符信息识别的误差出现发散,则调整预设训练参数并重新训练模型,直至误差出现收敛,则结束模型训练,生成的模型作为最终的该待识别字段对应的字符识别模型。
此外,为实现上述目的,本发明还提供一种票据信息识别方法,所述票据信息识别方法包括:
步骤一、在收到待处理的票据图片后,根据预先确定的待识别字段与区域识别模型的映射关系,确定所述票据图片中各个待识别字段对应的区域识别模型,针对各个待识别字段,调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别,从所述票据图片上识别出包含字符信息且固定宽度为预设值的目标框,并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域;
步骤二、根据预先确定的待识别字段与字符识别模型的映射关系,确定各个所述待识别字段对应的字符识别模型,针对各个所述待识别字段的目标行字符区域,调用对应的字符识别模型进行字符识别,以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息。
优选地,所述根据预先确定的待识别字段与区域识别模型的映射关系,确定所述票据图片中各个待识别字段对应的区域识别模型包括:
A1、利用预先训练的票据图片识别模型对收到的票据图片的票据类别进行识别,并输出票据类别的识别结果;
A2、利用预先确定的矫正规则对收到的票据图片进行倾斜矫正;
A3、根据预先确定的票据类别与待识别字段的映射关系,确定识别的票据类别对应的待识别字段;
A4、根据预先确定的待识别字段与区域识别模型的映射关系,确定各个所述待识别字段对应的区域识别模型。
优选地,所述区域识别模型为卷积神经网络模型,针对一个待识别字段对应的区域识别模型的训练过程如下:
C1、针对该待识别字段,获取预设数量的票据图片样本;
C2、在各个票据图片样本上每隔第一预设数量的像素,设置第二预设数量的不同高宽比且固定宽度为预设值的小框;
C3、在各个票据图片样本上对包含该待识别字段的字符信息的小框进行标记;
C4、将包含该待识别字段的字符信息的票据图片样本归入第一训练集,并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集;
C5、分别从第一训练集和第二训练集中提取出第一预设比例的票据图片样本作为待训练的样本图片,并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片;
C6、利用提取的各个待训练的样本图片进行模型训练,以生成所述区域识别模型,并利用各个待验证的样本图片对生成的所述区域识别模型进行验证;
C7、若验证通过率大于或等于预设阈值,则训练完成,或者,若验证通过率小于预设阈值,则增加票据图片样本的数量,并重复执行步骤C2、C3、C4、C5、C6。
优选地,所述字符识别模型为时间递归神经网络模型LSTM,针对一个待识别字段对应的字符识别模型的训练过程如下:
D1、针对该待识别字段,获取预设数量的票据图片样本,票据图片样本中仅包含一行该待识别字段的字符信息,并将各个票据图片样本的名称命名为其包含的该待识别字段的字符信息;
D2、将所述票据图片样本按照X:Y的比例分成第一数据集和第二数据集,第一数据集中的票据图片样本数量大于第二数据集中的票据图片样本数量,将第一数据集作为训练集,第二数据集作为测试集,其中,X大于0,Y大于0;
D3、将第一数据集中的票据图片样本送入预设的时间递归神经网络模型进行模型训练,每隔预设时间或预设次数的迭代,使用训练得到的模型对第二数据集中的票据图片样本进行字符信息识别,并将字符信息识别结果与测试的票据图片样本的名称进行比对,以计算字符信息识别结果的误差;若训练得到的模型对票据图片样本的字符信息识别的误差出现发散,则调整预设训练参数并重新训练模型,直至误差出现收敛,则结束模型训练,生成的模型作为最终的该待识别字段对应的字符识别模型。
优选地,所述票据图片识别模型为深度卷积神经网络模型,该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成;所述票据图片识别模型的训练过程如下:
S1、为每一个预设票据类别准备预设数量的标注有对应的票据类别的票据图片样本;
S2、将每一个预设票据类别对应的票据图片样本分为第一比例的训练子集和第二比例的验证子集,将各个训练子集中的票据图片样本进行混合以得到训练集,并将各个验证子集中的票据图片样本进行混合以得到验证集;
S3、利用所述训练集训练所述票据图片识别模型;
S4、利用所述验证集验证训练的所述票据图片识别模型的准确率,若准确率大于或者等于预设准确率,则训练结束,或者,若准确率小于预设准确率,则增加每一个预设票据类别对应的票据图片样本的数量,并重新执行步骤S2、S3、S4。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有票据信息识别系统,所述票据信息识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的票据信息识别方法的步骤。
本发明提出的票据信息识别方法、系统及可读存储介质,通过票据图片中各个待识别字段对应的区域识别模型对各个待识别字段在所述票据图片中的行字符区域进行区域识别,识别出包含字符信息且固定宽度为预设值的小框,并将所包含的字符信息处于同一行的小框按顺序拼接形成包含字符信息的目标行字符区域,调用与待识别字段对应的字符识别模型对该目标行字符区域进行字符识别。由于识别出的包含字符信息的行字符区域为统一固定预设值的宽度,这样,可以将字符信息具体到更小的子区域,并对包含字符信息的各个子区域有一个很好的逼近,在利用字符识别模型进行字符识别时的目标行字符区域中除字符信息之外的其它干扰因素会少很多,从而降低票据信息识别的错误率。
附图说明
图1为本发明票据信息识别系统10较佳实施例的运行环境示意图;
图2为本发明票据信息识别方法一实施例的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提供一种票据信息识别系统。请参阅图1,是本发明票据信息识别系统10较佳实施例的运行环境示意图。
在本实施例中,所述的票据信息识别系统10安装并运行于电子装置1中。该电子装置1可包括,但不仅限于,存储器11、处理器12及显示器13。图1仅示出了具有组件11-13的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器11至少包括一种类型的可读存储介质,所述存储器11在一些实施例中可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。所述存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括所述电子装置1的内部存储单元也包括外部存储设备。所述存储器11用于存储安装于所述电子装置1的应用软件及各类数据,例如所述票据信息识别系统10的程序代码等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器11中存储的程序代码或处理数据,例如执行所述票据信息识别系统10等。
所述显示器13在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器13用于显示在所述电子装置1中处理的信息以及用于显示可视化的用户界面,例如待处理的票据图片、识别出的字符信息等。所述电子装置1的部件11-13通过系统总线相互通信。
所述票据信息识别系统10包括至少一个存储在所述存储器11中的计算机可读指令,该至少一个计算机可读指令可被所述处理器12执行,以实现本申请各实施例。
其中,上述票据信息识别系统10被所述处理器12执行时实现如下步骤:
步骤S1,在收到待处理的票据图片后,根据预先确定的待识别字段与区域识别模型的映射关系,确定所述票据图片中各个待识别字段对应的区域识别模型,针对各个待识别字段,调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别,从所述票据图片上识别出包含字符信息且固定宽度为预设值的目标框,并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域。
本实施例中,票据信息识别系统10接收用户通过终端设备2发送的待识别处理的票据图片,该票据图片包括与医疗、商业、金融等保险相关的票据图片,如门诊或住院票据图片。例如,接收用户在手机、平板电脑、自助终端设备等终端设备中预先安装的客户端上发送来的票据图片,或接收用户在手机、平板电脑、自助终端设备等终端中的浏览器系统上发送来的票据图片。
预先根据待识别字段的不同类型预设有与之对应的区域识别模型,例如,针对文本类字段对应预设有第一识别模型,针对数字类字段对应预设有第二识别模型,针对日期/时间类字段对应预设有第三识别模型,针对货币类字段对应预设有第四识别模型,等等。这样,在收到待处理的票据图片后,根据预先确定的待识别字段(如文本类字段、数字类字段、日期/时间类字段、货币类字段等等)与区域识别模型的映射关系,确定各个所述待识别字段对应的区域识别模型,针对各个所述待识别字段,调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别,从所述票据图片上识别出包含字符信息且固定宽度为预设值(例如,16个像素宽度)的小框即目标框,并将所包含的字符信息处于同一行的小框按照先后顺序拼接在一起形成包含字符信息的目标行字符区域。其中,在确定各个待识别字段对应的区域识别模型时可包括:
A1、在收到待处理的票据图片后,利用预先训练的票据图片识别模型对收到的图片中的票据类别进行识别,并输出票据类别的识别结果(例如,医疗票据的类别包括门诊票据,住院票据,以及其他类票据)。
A2、利用预先确定的矫正规则对收到的票据图片进行倾斜矫正;在一种可选的实施方式中,所述预先确定的矫正规则为:用霍夫变换(Hough)的概率算法找出票据图像中尽可能多的小段直线;从找出的小段直线中确定出所有偏水平的直线,并将确定出的直线中x坐标值相差不大的直线按对应的y坐标值的大小顺序依次相连,按照x坐标值大小分为若干类,或者,将确定出的直线中y坐标值相差不大的直线按对应的x坐标值的大小顺序依次相连,按照y坐标值大小分为若干类;将属于一类的所有水平直线作为一个目标类直线,并通过最小二乘法找出最接近各个目标类直线的长直线;计算出各个长直线的斜率,计算出各个长直线的斜率的中位数和均值,比较计算出的斜率的中位数和均值的大小以确定出较小者,并根据确定出的较小者调整图像倾角,以将收到的票据图片矫正为正常无倾角的图片。
A3、根据预先确定的票据类别与待识别字段的映射关系,确定识别的票据类别对应的待识别字段;
A4、根据预先确定的待识别字段与区域识别模型的映射关系,确定各个所述待识别字段对应的区域识别模型。
在一种可选的实施方式中,所述区域识别模型为卷积神经网络模型,针对一个待识别字段对应的区域识别模型的训练过程如下:
C1、针对该待识别字段,获取预设数量(例如,10万)的票据图片样本;
C2、在各个票据图片样本上每隔第一预设数量(例如,16个)的像素,设置第二预设数量(例如,10个)的不同高宽比的且固定宽度为预设值(例如,16个像素宽度)的小框;
C3、在各个票据图片样本上对包含该待识别字段的部分或者全部字符信息的小框进行标记;
C4、将包含该待识别字段的字符信息的票据图片样本归入第一训练集,并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集;
C5、分别从第一训练集和第二训练集中提取出第一预设比例(例如,80%)的票据图片样本作为待训练的样本图片,并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片;
C6、利用提取的各个待训练的样本图片进行模型训练,以生成所述区域识别模型,并利用各个待验证的样本图片对生成的所述区域识别模型进行验证;
C7、若验证通过率大于等于预设阈值(例如,98%),则训练完成,或者,若验证通过率小于预设阈值,则增加票据图片样本的数量,并重复执行步骤C2、C3、C4、C5、C6。
步骤S2,根据预先确定的待识别字段与字符识别模型的映射关系,确定各个所述待识别字段对应的字符识别模型,针对各个所述待识别字段的目标行字符区域,调用对应的字符识别模型进行字符识别,以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息。
本实施例中,在利用区域识别模型识别出各个待识别字段的目标行字符区域后,可根据预先确定的待识别字段与字符识别模型的映射关系,确定各个所述待识别字段对应的字符识别模型,针对识别出的各个所述待识别字段的目标行字符区域,调用对应的字符识别模型进行字符识别,以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息,完成整个票据图片的字符信息识别。
在一种可选的实施方式中,所述字符识别模型为时间递归神经网络模型(Long-Short Term Memory,LSTM),针对一个待识别字段对应的字符识别模型的训练过程如下:
D1、针对该待识别字段,获取预设数量(例如,10万)的票据图片样本,票据图片样本中仅包含一行该待识别字段的字符信息,字体为黑色,背景为白色,并将各个票据图片样本的名称命名为其所包含的该待识别字段的字符信息;
D2、将所述票据图片样本按照X:Y(例如,8:2)的比例分成第一数据集和第二数据集,第一数据集中的票据图片样本数量大于第二数据集中的票据图片样本数量,第一数据集作为训练集,第二数据集作为测试集,其中,X大于0,Y大于0;
D3、将第一数据集中的票据图片样本送入时间递归神经网络模型进行模型训练,每隔一段时间或预设次数的迭代(例如每进行1000次迭代),对训练得到的模型使用第二数据集进行测试,以评估当前训练的模型效果。测试时,使用训练得到的模型对第二数据集中的票据图片样本进行字符信息识别,并和测试的票据图片样本的名称做对比,以计算识别的结果和标注结果的误差,误差计算采用编辑距离作为计算标准。若训练得到的模型在测试时对票据图片样本的字符信息识别误差出现发散,则调整训练参数并重新训练,使训练时模型对票据图片样本的字符信息识别的误差能够收敛。当误差收敛后,结束模型训练,生成的模型作为最终的该待识别字段对应的字符识别模型。
与现有技术相比,本实施例通过票据图片中各个待识别字段对应的区域识别模型对各个待识别字段在所述票据图片中的行字符区域进行区域识别,识别出包含字符信息且固定宽度为预设值的小框,并将所包含的字符信息处于同一行的小框按顺序拼接形成包含字符信息的目标行字符区域,调用与待识别字段对应的字符识别模型对该目标行字符区域进行字符识别。由于识别出的包含字符信息的行字符区域为统一固定预设值的宽度,这样,可以将字符信息具体到更小的子区域,并对包含字符信息的各个子区域有一个很好的逼近,在利用字符识别模型进行字符识别时的目标行字符区域中除字符信息之外的其它干扰因素会少很多,从而降低票据信息识别的错误率。
在一可选的实施例中,在上述图1的实施例的基础上,所述票据图片识别模型为深度卷积神经网络模型(例如,该深度卷积神经网络模型可以为在CaffeNet的环境下选取的基于深度卷积神经网络SSD(Single Shot MultiBox Detector)算法模型),该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成。所述深度卷积神经网络模型的详细结构如下表1所示:
Figure BDA0001428677650000131
表1
其中:Layer Name表示每一层的名称,Input表示输入层,Conv表示模型的卷积层,Conv1表示模型的第1个卷积层,MaxPool表示模型的最大值池化层,MaxPool1表示模型的第1个最大值池化层,Fc表示模型中的全连接层,Fc1表示模型中第1个全连接层,Softmax表示Softmax分类器;Batch Size表示当前层的输入图像数目;Kernel Size表示当前层卷积核的尺度(例如,Kernel Size可以等于3,表示卷积核的尺度为3x 3);Stride Size表示卷积核的移动步长,即做完一次卷积之后移动到下一个卷积位置的距离;Pad Size表示对当前网络层之中的图像填充的大小。需要说明的是,本实施例中池化层的池化方式包括但不限于Mean pooling(均值采样)、Max pooling(最大值采样)、Overlapping(重叠采样)、L2pooling(均方采样)、Local Contrast Normalization(归一化采样)、Stochasticpooling(随即采样)、Def-pooling(形变约束采样)等等。
所述票据图片识别模型的训练过程如下:
B1、为每一个预设票据类别(例如,预设票据类别可包括门诊票据和住院票据2种)准备预设数量(例如,1000张)的标注有对应的票据类别的票据图片样本;本实施例中,在训练之前,针对票据图片样本还做如下处理:
根据其高宽比信息以及印章的位置判断票据图片的转置情况,并做翻转调整:当高宽比大于1时,说明票据图片高宽颠倒,若印章位置在票据图片左侧,则对票据图像做顺时针旋转九十度处理,若印章位置在票据图片右侧,则对票据图像做逆时针旋转九十度处理;当高宽比小于1时,说明票据图片高宽未颠倒,若印章位置在票据图片下侧,则对票据图像做顺时针旋转一百八十度处理。
找出标注存在严重问题的数据,比如关键位置信息缺失或超出整张图片范围,以及印章标注位置位于票据中央等明显标注错误的数据,对这些数据进行清理,确保数据标注准确无误。
对经过翻转后的标注数据做修正,每个对象的标注数据指的是框出这个对象的矩形框的位置信息,用这个矩形框的左上角坐标(xmin,ymin)和右下角坐标(xmax,ymax)四个数来表示,如果xmax<xmin,则颠倒二者位置,对y坐标做同样的处理,以确保max>min。
这样,能保证进行模型训练的票据图片样本均为高宽未颠倒且标注准确无误的票据图片,以利于后续的模型训练更加准确有效。
B2、将每一个预设票据类别对应的票据图片样本分为第一比例(例如,80%)的训练子集和第二比例(例如,20%)的验证子集,将各个训练子集中的票据图片样本进行混合以得到训练集,并将各个验证子集中的票据图片样本进行混合以得到验证集;
B3、利用所述训练集训练所述票据图片识别模型;
B4、利用所述验证集验证训练的所述票据图片识别模型的准确率,若准确率大于或者等于预设准确率,则训练结束,或者,若准确率小于预设准确率,则增加每一个预设票据类别对应的票据图片样本的数量,并重新执行步骤B2、B3、B4。
如图2所示,图2为本发明票据信息识别方法一实施例的流程示意图,该票据信息识别方法包括以下步骤:
步骤S10,在收到待处理的票据图片后,根据预先确定的待识别字段与区域识别模型的映射关系,确定所述票据图片中各个待识别字段对应的区域识别模型,针对各个待识别字段,调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别,从所述票据图片上识别出包含字符信息且固定宽度为预设值的目标框,并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域。
本实施例中,票据信息识别系统10接收用户通过终端设备2发送的待识别处理的票据图片,该票据图片包括与医疗、商业、金融等保险相关的票据图片,如门诊或住院票据图片。例如,接收用户在手机、平板电脑、自助终端设备等终端设备中预先安装的客户端上发送来的票据图片,或接收用户在手机、平板电脑、自助终端设备等终端中的浏览器系统上发送来的票据图片。
预先根据待识别字段的不同类型预设有与之对应的区域识别模型,例如,针对文本类字段对应预设有第一识别模型,针对数字类字段对应预设有第二识别模型,针对日期/时间类字段对应预设有第三识别模型,针对货币类字段对应预设有第四识别模型,等等。这样,在收到待处理的票据图片后,根据预先确定的待识别字段(如文本类字段、数字类字段、日期/时间类字段、货币类字段等等)与区域识别模型的映射关系,确定各个所述待识别字段对应的区域识别模型,针对各个所述待识别字段,调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别,从所述票据图片上识别出包含字符信息且固定宽度为预设值(例如,16个像素宽度)的小框即目标框,并将所包含的字符信息处于同一行的小框按照先后顺序拼接在一起形成包含字符信息的目标行字符区域。其中,在确定各个待识别字段对应的区域识别模型时可包括:
A1、在收到待处理的票据图片后,利用预先训练的票据图片识别模型对收到的图片中的票据类别进行识别,并输出票据类别的识别结果(例如,医疗票据的类别包括门诊票据,住院票据,以及其他类票据)。
A2、利用预先确定的矫正规则对收到的票据图片进行倾斜矫正;在一种可选的实施方式中,所述预先确定的矫正规则为:用霍夫变换(Hough)的概率算法找出票据图像中尽可能多的小段直线;从找出的小段直线中确定出所有偏水平的直线,并将确定出的直线中x坐标值相差不大的直线按对应的y坐标值的大小顺序依次相连,按照x坐标值大小分为若干类,或者,将确定出的直线中y坐标值相差不大的直线按对应的x坐标值的大小顺序依次相连,按照y坐标值大小分为若干类;将属于一类的所有水平直线作为一个目标类直线,并通过最小二乘法找出最接近各个目标类直线的长直线;计算出各个长直线的斜率,计算出各个长直线的斜率的中位数和均值,比较计算出的斜率的中位数和均值的大小以确定出较小者,并根据确定出的较小者调整图像倾角,以将收到的票据图片矫正为正常无倾角的图片。
A3、根据预先确定的票据类别与待识别字段的映射关系,确定识别的票据类别对应的待识别字段;
A4、根据预先确定的待识别字段与区域识别模型的映射关系,确定各个所述待识别字段对应的区域识别模型。
在一种可选的实施方式中,所述区域识别模型为卷积神经网络模型,针对一个待识别字段对应的区域识别模型的训练过程如下:
C1、针对该待识别字段,获取预设数量(例如,10万)的票据图片样本;
C2、在各个票据图片样本上每隔第一预设数量(例如,16个)的像素,设置第二预设数量(例如,10个)的不同高宽比的且固定宽度为预设值(例如,16个像素宽度)的小框;
C3、在各个票据图片样本上对包含该待识别字段的部分或者全部字符信息的小框进行标记;
C4、将包含该待识别字段的字符信息的票据图片样本归入第一训练集,并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集;
C5、分别从第一训练集和第二训练集中提取出第一预设比例(例如,80%)的票据图片样本作为待训练的样本图片,并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片;
C6、利用提取的各个待训练的样本图片进行模型训练,以生成所述区域识别模型,并利用各个待验证的样本图片对生成的所述区域识别模型进行验证;
C7、若验证通过率大于等于预设阈值(例如,98%),则训练完成,或者,若验证通过率小于预设阈值,则增加票据图片样本的数量,并重复执行步骤C2、C3、C4、C5、C6。
步骤S20,根据预先确定的待识别字段与字符识别模型的映射关系,确定各个所述待识别字段对应的字符识别模型,针对各个所述待识别字段的目标行字符区域,调用对应的字符识别模型进行字符识别,以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息。
本实施例中,在利用区域识别模型识别出各个待识别字段的目标行字符区域后,可根据预先确定的待识别字段与字符识别模型的映射关系,确定各个所述待识别字段对应的字符识别模型,针对识别出的各个所述待识别字段的目标行字符区域,调用对应的字符识别模型进行字符识别,以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息,完成整个票据图片的字符信息识别。
在一种可选的实施方式中,所述字符识别模型为时间递归神经网络模型(Long-Short Term Memory,LSTM),针对一个待识别字段对应的字符识别模型的训练过程如下:
D1、针对该待识别字段,获取预设数量(例如,10万)的票据图片样本,票据图片样本中仅包含一行该待识别字段的字符信息,字体为黑色,背景为白色,并将各个票据图片样本的名称命名为其所包含的该待识别字段的字符信息;
D2、将所述票据图片样本按照X:Y(例如,8:2)的比例分成第一数据集和第二数据集,第一数据集中的票据图片样本数量大于第二数据集中的票据图片样本数量,第一数据集作为训练集,第二数据集作为测试集,其中,X大于0,Y大于0;
D3、将第一数据集中的票据图片样本送入时间递归神经网络模型进行模型训练,每隔一段时间或预设次数的迭代(例如每进行1000次迭代),对训练得到的模型使用第二数据集进行测试,以评估当前训练的模型效果。测试时,使用训练得到的模型对第二数据集中的票据图片样本进行字符信息识别,并和测试的票据图片样本的名称做对比,以计算识别的结果和标注结果的误差,误差计算采用编辑距离作为计算标准。若训练得到的模型在测试时对票据图片样本的字符信息识别误差出现发散,则调整训练参数并重新训练,使训练时模型对票据图片样本的字符信息识别的误差能够收敛。当误差收敛后,结束模型训练,生成的模型作为最终的该待识别字段对应的字符识别模型。
与现有技术相比,本实施例通过票据图片中各个待识别字段对应的区域识别模型对各个待识别字段在所述票据图片中的行字符区域进行区域识别,识别出包含字符信息且固定宽度为预设值的小框,并将所包含的字符信息处于同一行的小框按顺序拼接形成包含字符信息的目标行字符区域,调用与待识别字段对应的字符识别模型对该目标行字符区域进行字符识别。由于识别出的包含字符信息的行字符区域为统一固定预设值的宽度,这样,可以将字符信息具体到更小的子区域,并对包含字符信息的各个子区域有一个很好的逼近,在利用字符识别模型进行字符识别时的目标行字符区域中除字符信息之外的其它干扰因素会少很多,从而降低票据信息识别的错误率。
在一可选的实施例中,在上述实施例的基础上,所述票据图片识别模型为深度卷积神经网络模型(例如,该深度卷积神经网络模型可以为在CaffeNet的环境下选取的基于深度卷积神经网络SSD(Single Shot MultiBox Detector)算法模型),该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成。所述深度卷积神经网络模型的详细结构如下表1所示:
Figure BDA0001428677650000201
Figure BDA0001428677650000211
表1
其中:Layer Name表示每一层的名称,Input表示输入层,Conv表示模型的卷积层,Conv1表示模型的第1个卷积层,MaxPool表示模型的最大值池化层,MaxPool1表示模型的第1个最大值池化层,Fc表示模型中的全连接层,Fc1表示模型中第1个全连接层,Softmax表示Softmax分类器;Batch Size表示当前层的输入图像数目;Kernel Size表示当前层卷积核的尺度(例如,Kernel Size可以等于3,表示卷积核的尺度为3x 3);Stride Size表示卷积核的移动步长,即做完一次卷积之后移动到下一个卷积位置的距离;Pad Size表示对当前网络层之中的图像填充的大小。需要说明的是,本实施例中池化层的池化方式包括但不限于Mean pooling(均值采样)、Max pooling(最大值采样)、Overlapping(重叠采样)、L2pooling(均方采样)、Local Contrast Normalization(归一化采样)、Stochasticpooling(随即采样)、Def-pooling(形变约束采样)等等。
所述票据图片识别模型的训练过程如下:
B1、为每一个预设票据类别(例如,预设票据类别可包括门诊票据和住院票据2种)准备预设数量(例如,1000张)的标注有对应的票据类别的票据图片样本;本实施例中,在训练之前,针对票据图片样本还做如下处理:
根据其高宽比信息以及印章的位置判断票据图片的转置情况,并做翻转调整:当高宽比大于1时,说明票据图片高宽颠倒,若印章位置在票据图片左侧,则对票据图像做顺时针旋转九十度处理,若印章位置在票据图片右侧,则对票据图像做逆时针旋转九十度处理;当高宽比小于1时,说明票据图片高宽未颠倒,若印章位置在票据图片下侧,则对票据图像做顺时针旋转一百八十度处理。
找出标注存在严重问题的数据,比如关键位置信息缺失或超出整张图片范围,以及印章标注位置位于票据中央等明显标注错误的数据,对这些数据进行清理,确保数据标注准确无误。
对经过翻转后的标注数据做修正,每个对象的标注数据指的是框出这个对象的矩形框的位置信息,用这个矩形框的左上角坐标(xmin,ymin)和右下角坐标(xmax,ymax)四个数来表示,如果xmax<xmin,则颠倒二者位置,对y坐标做同样的处理,以确保max>min。
这样,能保证进行模型训练的票据图片样本均为高宽未颠倒且标注准确无误的票据图片,以利于后续的模型训练更加准确有效。
B2、将每一个预设票据类别对应的票据图片样本分为第一比例(例如,80%)的训练子集和第二比例(例如,20%)的验证子集,将各个训练子集中的票据图片样本进行混合以得到训练集,并将各个验证子集中的票据图片样本进行混合以得到验证集;
B3、利用所述训练集训练所述票据图片识别模型;
B4、利用所述验证集验证训练的所述票据图片识别模型的准确率,若准确率大于或者等于预设准确率,则训练结束,或者,若准确率小于预设准确率,则增加每一个预设票据类别对应的票据图片样本的数量,并重新执行步骤B2、B3、B4。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有票据信息识别系统,所述票据信息识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述实施例中的票据信息识别方法的步骤,该票据信息识别方法的步骤S10、S20、S30等具体实施过程如上文所述,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。

Claims (8)

1.一种电子装置,其特征在于,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的票据信息识别系统,所述票据信息识别系统被所述处理器执行时实现如下步骤:
A、在收到待处理的票据图片后,根据预先确定的待识别字段与区域识别模型的映射关系,确定所述票据图片中各个待识别字段对应的区域识别模型,针对各个待识别字段,调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别,从所述票据图片上识别出包含字符信息且固定宽度为预设值的目标框,并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域;
B、根据预先确定的待识别字段与字符识别模型的映射关系,确定各个所述待识别字段对应的字符识别模型,针对各个所述待识别字段的目标行字符区域,调用对应的字符识别模型进行字符识别,以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息;
其中,所述根据预先确定的待识别字段与区域识别模型的映射关系,确定所述票据图片中各个待识别字段对应的区域识别模型包括:
A1、利用预先训练的票据图片识别模型对收到的票据图片的票据类别进行识别,并输出票据类别的识别结果;
A2、利用预先确定的矫正规则对收到的票据图片进行倾斜矫正;
A3、根据预先确定的票据类别与待识别字段的映射关系,确定识别的票据类别对应的待识别字段;
A4、根据预先确定的待识别字段与区域识别模型的映射关系,确定各个所述待识别字段对应的区域识别模型。
2.如权利要求1所述的电子装置,其特征在于,所述区域识别模型为卷积神经网络模型,针对一个待识别字段对应的区域识别模型的训练过程如下:
C1、针对该待识别字段,获取预设数量的票据图片样本;
C2、在各个票据图片样本上每隔第一预设数量的像素,设置第二预设数量的不同高宽比且固定宽度为预设值的小框;
C3、在各个票据图片样本上对包含该待识别字段的字符信息的小框进行标记;
C4、将包含该待识别字段的字符信息的票据图片样本归入第一训练集,并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集;
C5、分别从第一训练集和第二训练集中提取出第一预设比例的票据图片样本作为待训练的样本图片,并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片;
C6、利用提取的各个待训练的样本图片进行模型训练,以生成所述区域识别模型,并利用各个待验证的样本图片对生成的所述区域识别模型进行验证;
C7、若验证通过率大于或等于预设阈值,则训练完成,或者,若验证通过率小于预设阈值,则增加票据图片样本的数量,并重复执行步骤C2、C3、C4、C5、C6。
3.如权利要求1所述的电子装置,其特征在于,所述字符识别模型为时间递归神经网络模型LSTM,针对一个待识别字段对应的字符识别模型的训练过程如下:
D1、针对该待识别字段,获取预设数量的票据图片样本,票据图片样本中仅包含一行该待识别字段的字符信息,并将各个票据图片样本的名称命名为其包含的该待识别字段的字符信息;
D2、将所述票据图片样本按照X:Y的比例分成第一数据集和第二数据集,第一数据集中的票据图片样本数量大于第二数据集中的票据图片样本数量,将第一数据集作为训练集,第二数据集作为测试集,其中,X大于0,Y大于0;
D3、将第一数据集中的票据图片样本送入预设的时间递归神经网络模型进行模型训练,每隔预设时间或预设次数的迭代,使用训练得到的模型对第二数据集中的票据图片样本进行字符信息识别,并将字符信息识别结果与测试的票据图片样本的名称进行比对,以计算字符信息识别结果的误差;若训练得到的模型对票据图片样本的字符信息识别的误差出现发散,则调整预设训练参数并重新训练模型,直至误差出现收敛,则结束模型训练,生成的模型作为最终的该待识别字段对应的字符识别模型。
4.一种票据信息识别方法,其特征在于,所述票据信息识别方法包括:
步骤一、在收到待处理的票据图片后,根据预先确定的待识别字段与区域识别模型的映射关系,确定所述票据图片中各个待识别字段对应的区域识别模型,针对各个待识别字段,调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别,从所述票据图片上识别出包含字符信息且固定宽度为预设值的目标框,并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域;
步骤二、根据预先确定的待识别字段与字符识别模型的映射关系,确定各个所述待识别字段对应的字符识别模型,针对各个所述待识别字段的目标行字符区域,调用对应的字符识别模型进行字符识别,以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息;
其中,所述根据预先确定的待识别字段与区域识别模型的映射关系,确定所述票据图片中各个待识别字段对应的区域识别模型包括:
A1、利用预先训练的票据图片识别模型对收到的票据图片的票据类别进行识别,并输出票据类别的识别结果;
A2、利用预先确定的矫正规则对收到的票据图片进行倾斜矫正;
A3、根据预先确定的票据类别与待识别字段的映射关系,确定识别的票据类别对应的待识别字段;
A4、根据预先确定的待识别字段与区域识别模型的映射关系,确定各个所述待识别字段对应的区域识别模型。
5.如权利要求4所述的票据信息识别方法,其特征在于,所述区域识别模型为卷积神经网络模型,针对一个待识别字段对应的区域识别模型的训练过程如下:
C1、针对该待识别字段,获取预设数量的票据图片样本;
C2、在各个票据图片样本上每隔第一预设数量的像素,设置第二预设数量的不同高宽比且固定宽度为预设值的小框;
C3、在各个票据图片样本上对包含该待识别字段的字符信息的小框进行标记;
C4、将包含该待识别字段的字符信息的票据图片样本归入第一训练集,并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集;
C5、分别从第一训练集和第二训练集中提取出第一预设比例的票据图片样本作为待训练的样本图片,并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片;
C6、利用提取的各个待训练的样本图片进行模型训练,以生成所述区域识别模型,并利用各个待验证的样本图片对生成的所述区域识别模型进行验证;
C7、若验证通过率大于或等于预设阈值,则训练完成,或者,若验证通过率小于预设阈值,则增加票据图片样本的数量,并重复执行步骤C2、C3、C4、C5、C6。
6.如权利要求4所述的票据信息识别方法,其特征在于,所述字符识别模型为时间递归神经网络模型LSTM,针对一个待识别字段对应的字符识别模型的训练过程如下:
D1、针对该待识别字段,获取预设数量的票据图片样本,票据图片样本中仅包含一行该待识别字段的字符信息,并将各个票据图片样本的名称命名为其包含的该待识别字段的字符信息;
D2、将所述票据图片样本按照X:Y的比例分成第一数据集和第二数据集,第一数据集中的票据图片样本数量大于第二数据集中的票据图片样本数量,将第一数据集作为训练集,第二数据集作为测试集,其中,X大于0,Y大于0;
D3、将第一数据集中的票据图片样本送入预设的时间递归神经网络模型进行模型训练,每隔预设时间或预设次数的迭代,使用训练得到的模型对第二数据集中的票据图片样本进行字符信息识别,并将字符信息识别结果与测试的票据图片样本的名称进行比对,以计算字符信息识别结果的误差;若训练得到的模型对票据图片样本的字符信息识别的误差出现发散,则调整预设训练参数并重新训练模型,直至误差出现收敛,则结束模型训练,生成的模型作为最终的该待识别字段对应的字符识别模型。
7.如权利要求4所述的票据信息识别方法,其特征在于,所述票据图片识别模型为深度卷积神经网络模型,该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成;所述票据图片识别模型的训练过程如下:
S1、为每一个预设票据类别准备预设数量的标注有对应的票据类别的票据图片样本;
S2、将每一个预设票据类别对应的票据图片样本分为第一比例的训练子集和第二比例的验证子集,将各个训练子集中的票据图片样本进行混合以得到训练集,并将各个验证子集中的票据图片样本进行混合以得到验证集;
S3、利用所述训练集训练所述票据图片识别模型;
S4、利用所述验证集验证训练的所述票据图片识别模型的准确率,若准确率大于或者等于预设准确率,则训练结束,或者,若准确率小于预设准确率,则增加每一个预设票据类别对应的票据图片样本的数量,并重新执行步骤S2、S3、S4。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有票据信息识别系统,所述票据信息识别系统被处理器执行时实现如权利要求4至7中任一项所述的票据信息识别方法的步骤。
CN201710930679.8A 2017-10-09 2017-10-09 票据信息识别方法、电子装置及可读存储介质 Active CN107798299B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710930679.8A CN107798299B (zh) 2017-10-09 2017-10-09 票据信息识别方法、电子装置及可读存储介质
PCT/CN2017/108735 WO2019071660A1 (zh) 2017-10-09 2017-10-31 票据信息识别方法、电子装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710930679.8A CN107798299B (zh) 2017-10-09 2017-10-09 票据信息识别方法、电子装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN107798299A CN107798299A (zh) 2018-03-13
CN107798299B true CN107798299B (zh) 2020-02-07

Family

ID=61533966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710930679.8A Active CN107798299B (zh) 2017-10-09 2017-10-09 票据信息识别方法、电子装置及可读存储介质

Country Status (2)

Country Link
CN (1) CN107798299B (zh)
WO (1) WO2019071660A1 (zh)

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN108595544A (zh) * 2018-04-09 2018-09-28 深源恒际科技有限公司 一种文档图片分类方法
CN108564035B (zh) * 2018-04-13 2020-09-25 杭州睿琪软件有限公司 识别单据上记载的信息的方法及系统
CN108664897A (zh) * 2018-04-18 2018-10-16 平安科技(深圳)有限公司 票据识别方法、装置及存储介质
CN108629560A (zh) * 2018-04-18 2018-10-09 平安科技(深圳)有限公司 任务派发方法、电子设备及存储介质
CN108717543B (zh) * 2018-05-14 2022-01-14 北京市商汤科技开发有限公司 一种发票识别方法及装置、计算机存储介质
CN110674831B (zh) * 2018-06-14 2023-01-06 佛山市顺德区美的电热电器制造有限公司 一种数据处理方法、装置及计算机可读存储介质
CN110619252B (zh) * 2018-06-19 2022-11-04 百度在线网络技术(北京)有限公司 识别图片中表单数据的方法、装置、设备及存储介质
CN108846379A (zh) * 2018-07-03 2018-11-20 南京览笛信息科技有限公司 面单识别方法、系统、终端设备及存储介质
CN108960245B (zh) * 2018-07-13 2022-04-19 广东工业大学 轮胎模具字符的检测与识别方法、装置、设备及存储介质
CN109214382A (zh) * 2018-07-16 2019-01-15 顺丰科技有限公司 一种基于crnn的票据信息识别算法、设备及存储介质
CN109255300B (zh) * 2018-08-14 2023-12-01 中国平安财产保险股份有限公司 票据信息提取方法、装置、计算机设备及存储介质
CN109214385B (zh) * 2018-08-15 2021-06-08 腾讯科技(深圳)有限公司 数据采集方法、数据采集装置及存储介质
CN109271980A (zh) * 2018-08-28 2019-01-25 上海萃舟智能科技有限公司 一种车辆铭牌全信息识别方法、系统、终端及介质
CN109492143A (zh) * 2018-09-21 2019-03-19 平安科技(深圳)有限公司 图像数据处理方法、装置、计算机设备及存储介质
CN109784339A (zh) * 2018-12-13 2019-05-21 平安普惠企业管理有限公司 图片识别测试方法、装置、计算机设备及存储介质
CN109858275A (zh) * 2018-12-20 2019-06-07 航天信息股份有限公司 基于神经网络的发票公示方法和系统
CN109815949A (zh) * 2018-12-20 2019-05-28 航天信息股份有限公司 基于神经网络的发票公示方法和系统
CN109598272B (zh) * 2019-01-11 2021-08-06 北京字节跳动网络技术有限公司 字符行图像的识别方法、装置、设备及介质
CN109858420A (zh) * 2019-01-24 2019-06-07 国信电子票据平台信息服务有限公司 一种票据处理系统和处理方法
CN109902737A (zh) * 2019-02-25 2019-06-18 厦门商集网络科技有限责任公司 一种票据分类方法及终端
CN110119741B (zh) * 2019-04-08 2022-09-27 浙江大学宁波理工学院 一种有背景的卡证图像信息识别方法
CN110956739A (zh) 2019-05-09 2020-04-03 杭州睿琪软件有限公司 一种票据识别方法及装置
CN110147791A (zh) * 2019-05-20 2019-08-20 上海联影医疗科技有限公司 文字识别方法、装置、设备及存储介质
CN110288755B (zh) * 2019-05-21 2023-05-23 平安银行股份有限公司 基于文本识别的发票检验方法、服务器及存储介质
CN110298347B (zh) * 2019-05-30 2022-11-01 长安大学 一种基于GrayWorld与PCA-CNN的汽车尾气分析仪屏幕的识别方法
CN110334596B (zh) * 2019-05-30 2024-02-02 平安科技(深圳)有限公司 发票图片汇总方法、电子装置及可读存储介质
CN110490193B (zh) * 2019-07-24 2022-11-08 西安网算数据科技有限公司 单个字符区域检测方法及票据内容识别方法
CN110503054B (zh) * 2019-08-27 2022-09-23 广东工业大学 文本图像的处理方法及装置
CN110503105A (zh) * 2019-09-02 2019-11-26 苏州美能华智能科技有限公司 字符识别方法、训练数据获取方法、装置和介质
CN110598686B (zh) * 2019-09-17 2023-08-04 携程计算机技术(上海)有限公司 发票的识别方法、系统、电子设备和介质
CN110766050B (zh) * 2019-09-19 2023-05-23 北京捷通华声科技股份有限公司 模型生成方法、文本识别方法、装置、设备及存储介质
CN111626279B (zh) * 2019-10-15 2023-06-02 西安网算数据科技有限公司 一种负样本标注训练方法及高度自动化的票据识别方法
CN110866495B (zh) * 2019-11-14 2022-06-28 杭州睿琪软件有限公司 票据图像识别方法及装置和设备、训练方法和存储介质
CN110941717B (zh) * 2019-11-22 2023-08-11 深圳马可孛罗科技有限公司 客票规则解析方法、装置、电子设备及计算机可读介质
CN110991456B (zh) * 2019-12-05 2023-07-07 北京百度网讯科技有限公司 票据识别方法及装置
CN111104481B (zh) * 2019-12-17 2023-10-10 东软集团股份有限公司 一种识别匹配字段的方法、装置及设备
CN111192031B (zh) * 2019-12-26 2023-06-23 腾讯科技(深圳)有限公司 电子票据的生成方法、装置、电子设备及可读存储介质
CN111242790B (zh) * 2020-01-02 2020-11-17 平安科技(深圳)有限公司 风险识别方法、电子装置及存储介质
CN111223481B (zh) * 2020-01-09 2023-10-13 腾讯科技(深圳)有限公司 信息提取方法、装置、计算机可读存储介质及电子设备
CN111259889A (zh) * 2020-01-17 2020-06-09 平安医疗健康管理股份有限公司 图像文本识别方法、装置、计算机设备及计算机存储介质
CN111325207A (zh) * 2020-03-05 2020-06-23 中国银行股份有限公司 基于预处理的票据识别方法及装置
CN111414908B (zh) * 2020-03-16 2023-08-29 湖南快乐阳光互动娱乐传媒有限公司 一种视频中字幕字符的识别方法及装置
CN111461099A (zh) * 2020-03-27 2020-07-28 重庆农村商业银行股份有限公司 一种票据识别的方法、系统、设备及可读存储介质
CN113553883B (zh) * 2020-04-24 2023-04-07 上海高德威智能交通系统有限公司 一种票据图像识别方法、装置及电子设备
CN111695558B (zh) * 2020-04-28 2023-08-04 深圳市跨越新科技有限公司 基于YoloV3模型的物流运单图片摆正方法及系统
CN111695559B (zh) * 2020-04-28 2023-07-18 深圳市跨越新科技有限公司 基于YoloV3模型的运单图片信息打码方法及系统
CN111563502B (zh) * 2020-05-09 2023-12-15 腾讯科技(深圳)有限公司 图像的文本识别方法、装置、电子设备及计算机存储介质
CN111695439B (zh) * 2020-05-20 2024-05-10 平安科技(深圳)有限公司 图像结构化数据提取方法、电子装置及存储介质
CN111666932B (zh) * 2020-05-27 2023-07-14 平安科技(深圳)有限公司 单据审核方法、装置、计算机设备及存储介质
CN113762292B (zh) * 2020-06-03 2024-02-02 杭州海康威视数字技术股份有限公司 一种训练数据获取方法、装置及模型训练方法、装置
CN111814833B (zh) * 2020-06-11 2024-06-07 浙江大华技术股份有限公司 票据处理模型的训练方法及图像处理方法、图像处理设备
CN111738326B (zh) * 2020-06-16 2023-07-11 中国工商银行股份有限公司 句粒度标注训练样本生成方法及装置
CN111931664B (zh) * 2020-08-12 2024-01-12 腾讯科技(深圳)有限公司 混贴票据图像的处理方法、装置、计算机设备及存储介质
CN112115932B (zh) * 2020-08-19 2023-11-14 泰康保险集团股份有限公司 文本提取方法、装置、电子设备及存储介质
CN112270224A (zh) * 2020-10-14 2021-01-26 招商银行股份有限公司 保险责任解析方法、装置及计算机可读存储介质
CN112308036A (zh) * 2020-11-25 2021-02-02 杭州睿胜软件有限公司 票据识别方法、装置及可读存储介质
CN112434689A (zh) * 2020-12-01 2021-03-02 天冕信息技术(深圳)有限公司 识别图片中信息的方法、装置、设备及存储介质
CN114627456A (zh) * 2020-12-10 2022-06-14 航天信息股份有限公司 一种票据文本信息检测方法、装置及系统
CN112633275B (zh) * 2020-12-22 2023-07-18 航天信息股份有限公司 一种基于深度学习的多票据混拍图像校正方法及系统
CN112699871B (zh) * 2020-12-23 2023-11-14 平安银行股份有限公司 字段内容识别方法、系统、设备及计算机可读存储介质
CN112686262B (zh) * 2020-12-28 2024-07-02 广州博士信息技术研究院有限公司 一种基于图像识别技术的提取数据并快速归档的方法
CN113205041B (zh) * 2021-04-29 2023-07-28 百度在线网络技术(北京)有限公司 结构化信息提取方法、装置、设备和存储介质
CN113205049A (zh) * 2021-05-07 2021-08-03 开放智能机器(上海)有限公司 一种单据识别方法以及识别系统
CN113283421B (zh) * 2021-06-24 2024-03-01 中国平安人寿保险股份有限公司 信息识别方法、装置、设备及存储介质
CN113408516A (zh) * 2021-06-25 2021-09-17 京东数科海益信息科技有限公司 票据识别设备及方法
CN113762152A (zh) * 2021-09-07 2021-12-07 上海盈策信息技术有限公司 一种票据校验方法、系统、设备以及介质
CN114328831A (zh) * 2021-12-24 2022-04-12 江苏银承网络科技股份有限公司 票据信息识别与纠错方法及装置
CN116702024B (zh) * 2023-05-16 2024-05-28 见知数据科技(上海)有限公司 流水数据类型识别方法、装置、计算机设备和存储介质
CN118134576B (zh) * 2024-05-08 2024-08-02 山东工程职业技术大学 基于人工智能的数字电子发票管理方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260733A (zh) * 2015-09-11 2016-01-20 北京百度网讯科技有限公司 用于处理图像信息的方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120201472A1 (en) * 2011-02-08 2012-08-09 Autonomy Corporation Ltd System for the tagging and augmentation of geographically-specific locations using a visual data stream
US9398210B2 (en) * 2011-02-24 2016-07-19 Digimarc Corporation Methods and systems for dealing with perspective distortion in connection with smartphone cameras
US8582873B2 (en) * 2011-06-16 2013-11-12 Tandent Vision Science, Inc. Use of an object database in an image process
CN104112128B (zh) * 2014-06-19 2018-01-26 中国工商银行股份有限公司 应用于票据影像字符识别的数字图像处理系统及方法
CN105654127A (zh) * 2015-12-30 2016-06-08 成都数联铭品科技有限公司 基于端到端的图片文字序列连续识别方法
CN107220648B (zh) * 2017-04-11 2018-06-22 平安科技(深圳)有限公司 理赔单据的字符识别方法及服务器

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260733A (zh) * 2015-09-11 2016-01-20 北京百度网讯科技有限公司 用于处理图像信息的方法和装置

Also Published As

Publication number Publication date
CN107798299A (zh) 2018-03-13
WO2019071660A1 (zh) 2019-04-18

Similar Documents

Publication Publication Date Title
CN107798299B (zh) 票据信息识别方法、电子装置及可读存储介质
CN107766809B (zh) 电子装置、票据信息识别方法和计算机可读存储介质
WO2019174130A1 (zh) 票据识别方法、服务器及计算机可读存储介质
CN109829453B (zh) 一种卡证中文字的识别方法、装置以及计算设备
US11074445B2 (en) Remote sensing image recognition method and apparatus, storage medium and electronic device
WO2019104879A1 (zh) 表格类图像的信息识别方法、电子装置及可读存储介质
CN110569878A (zh) 一种基于卷积神经网络的照片背景相似度聚类方法及计算机
CN111814785B (zh) 发票识别方法及相关模型的训练方法以及相关设备、装置
CN110675940A (zh) 病理图像标注方法、装置、计算机设备及存储介质
CN110288755A (zh) 基于文本识别的发票检验方法、服务器及存储介质
CN113239910B (zh) 证件识别方法、装置、设备及存储介质
CN111104941B (zh) 图像方向纠正方法、装置及电子设备
CN111950355A (zh) 印章识别方法、装置及电子设备
CN112396047B (zh) 训练样本生成方法、装置、计算机设备和存储介质
CN111553251A (zh) 证件四角残缺检测方法、装置、设备及存储介质
CN114049646B (zh) 一种银行卡识别方法、装置、计算机设备及存储介质
CN114332883A (zh) 发票信息识别方法、装置、计算机设备及存储介质
CN111241974B (zh) 票据信息获取方法、装置、计算机设备和存储介质
CN113011249A (zh) 票据审核方法、装置、设备及存储介质
CN116485344A (zh) 在线理赔材料智能收集方法、装置、电子设备及介质
CN113538291A (zh) 卡证图像倾斜校正方法、装置、计算机设备和存储介质
CN114863456A (zh) 题目识别方法、装置、设备及存储介质
CN110751140A (zh) 字符批量识别方法、装置和计算机设备
CN111950354A (zh) 印章归属国识别方法、装置及电子设备
CN111027371A (zh) 一种智能验车的方法及系统、计算机设备与存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant