CN113255568A - 票据图像分类方法、装置、计算机设备和存储介质 - Google Patents

票据图像分类方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113255568A
CN113255568A CN202110658578.6A CN202110658578A CN113255568A CN 113255568 A CN113255568 A CN 113255568A CN 202110658578 A CN202110658578 A CN 202110658578A CN 113255568 A CN113255568 A CN 113255568A
Authority
CN
China
Prior art keywords
bill
image
semantic information
images
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110658578.6A
Other languages
English (en)
Other versions
CN113255568B (zh
Inventor
郭建京
周忠诚
张圣栋
黄九鸣
杜海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Xinghan Shuzhi Technology Co ltd
Original Assignee
Hunan Xinghan Shuzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Xinghan Shuzhi Technology Co ltd filed Critical Hunan Xinghan Shuzhi Technology Co ltd
Priority to CN202110658578.6A priority Critical patent/CN113255568B/zh
Publication of CN113255568A publication Critical patent/CN113255568A/zh
Application granted granted Critical
Publication of CN113255568B publication Critical patent/CN113255568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明适用于计算机视觉技术领域,提供了一种票据图像分类方法、装置、计算机设备和存储介质,所述方法包括:对待分类票据图像进行采样,得到多个不同尺度的票据图像;利用滑动窗口分别对各票据图像进行扫描,并分别提取扫描后各图像的图像语义信息,得到单一尺度图像语义信息;将各单一尺度图像语义信息进行信息融合,得到多尺度图像语义信息;根据多尺度图像语义信息进行票据分类,得到待分类票据图像的票据类型。采用本方法能够提高票据分类的准确性。

Description

票据图像分类方法、装置、计算机设备和存储介质
技术领域
本发明属于计算机视觉技术领域,尤其涉及一种票据图像分类方法、装置、计算机设备和存储介质。
背景技术
银行金融保险等机构行业涉及大量票据数据处理,例如:火车票、机动车发票、行程单、增值税发票等等。传统票据数据处理方式是通过人工查看用户提交的票据图像数据,采用手动的方式录入到票据管理系统。由于该处理方式全程都是人工完成,因此不仅需要消耗大量人力物力,而且处理效率低下。
随着科技的飞速发展,为了能够减少消耗且提高处理效率,现有出现了票据数据自动化处理技术。实现票据自动化处理主要通过物体图像分类技术对用户提交的票据图像数据进行自动分类,识别票据类型,进而再采用OCR(optical character recognition,光符识别)技术识别票据图像上的文本信息。
然而,由于票据图像与物体图像差别较大,且用户所上传的票据图像样式、票据图像的拍摄场景以及拍摄角度千差万别,导致使用传统的物体图像分类技术并不能较好的处理票据图像的分类,从而降低了票据图像分类的准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高票据图像分类的准确性的票据图像分类方法、装置、计算机设备和存储介质。
本发明提供一种票据图像分类方法,包括:
对待分类票据图像进行采样,得到多个不同尺度的票据图像;
利用滑动窗口分别对各所述票据图像进行扫描,并分别提取扫描后各图像的图像语义信息,得到单一尺度图像语义信息;
将各所述单一尺度图像语义信息进行信息融合,得到多尺度图像语义信息;
根据所述多尺度图像语义信息进行票据分类,得到所述待分类票据图像的票据类型。
在其中一个实施例中,所述对待分类票据图像进行采样,得到多个不同尺度的票据图像,包括:
根据预设的采样步长和采样图像尺寸范围,以所述待分类票据图像的最大边对所述待分类票据图像进行等比向上采样和等比向下采样,得到多个不同尺度的票据图像。
在其中一个实施例中,所述利用滑动窗口分别对各所述票据图像进行扫描,并分别提取扫描后各图像的图像语义信息,得到单一尺度图像语义信息,包括:
根据预设的滑动窗口尺寸和扫描步长,分别对各所述票据图像进行扫描,得到各所述票据图像的票据子图像集;
利用训练好的浅层卷积神经网络,分别提取各所述票据子图像集的图像语义信息,得到各所述票据子图像集的单一尺度图像语义信息;所述浅层卷积神经网络利用票据图像数据集训练。
在其中一个实施例中,所述将各所述单一尺度图像语义信息进行信息融合,得到多尺度图像语义信息,包括:
将各所述单一尺度图像语义信息进行特征合并,得到多尺度图像语义信息。
在其中一个实施例中,所述根据所述多尺度图像语义信息进行票据分类,得到所述待分类票据图像的票据类型,包括:
将所述多尺度图像语义信息输入至训练好的票据分类网络进行票据分类,得到所述票据分类网络输出的票据类型以及所述票据类型对应的置信度;所述票据分类网络利用票据图像数据集训练;
确定最高的所述置信度对应的票据类型为所述待分类票据图像的票据类型。
在其中一个实施例中,所述票据图像数据集的构建方法,包括:
收集原票据图像;
对所述原票据图像进行抗噪增强和角度增强,得到增强票据图像;
根据所述原票据图像和所述增强票据图像构建票据图像数据集。
在其中一个实施例中,利用所述票据图像数据集训练浅层卷积神经网络和票据分类网络的方法,包括:
按照预设比例将所述票据图像数据集划分为训练集和测试集;
利用数据生成器从所述训练集中随机生成训练图像,通过所述训练图像对所述浅层卷积神经网络和所述票据分类网络进行训练;
根据所述测试集对训练后的所述浅层卷积神经网络和所述票据分类网络进行测试,根据测试结果对网络调整后返回利用数据生成器从所述训练集中随机生成训练图像的步骤进行迭代训练,直至测试结果收敛为止。
一种票据图像分类装置,包括:
采样模块,用于对待分类票据图像进行采样,得到多个不同尺度的票据图像;
滑动窗口扫描模块,用于利用滑动窗口分别对各所述票据图像进行扫描,并分别提取扫描后各图像的单一尺度图像语义信息;
信息融合模块,用于将各所述单一尺度图像语义信息进行信息融合,得到多尺度图像语义信息;
分类模块,用于根据所述多尺度图像语义信息进行票据分类,得到所述待分类票据图像的票据类型。
本发明还提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储由计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的票据图像分类方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的票据图像分类方法的步骤。
上述票据图像分类方法、装置、计算机设备和存储介质,通过对待分类票据图像进行采样,得到多个不同尺度的票据图像后,利用滑动窗口分别对各票据图像进行扫描,并分别提取扫描后各图像的图像语义信息,得到单一尺度图像语义信息,进而将各单一尺度图像语义信息进行信息融合,得到多尺度图像语义信息,根据多尺度图像语义信息进行票据分类,得到待分类票据图像的票据类型。该方法利用多尺度滑动窗口策略与神经网络相结合的方式实现票据图像的分类,增强分类抗干扰能力的同时显著的提高了票据图像分类的准确率。
附图说明
图1为一个实施例中票据图像分类方法的应用环境图。
图2为一个实施例中票据图像分类方法的流程示意图。
图3为一个实施例中MSSW-Inception的网络结构示意图。
图4为一个实施例中损失函数变化曲线示意图。
图5为一个实施例中测试准确率曲线示意图。
图6为一个实施例中票据图像分类装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请提供的票据图像分类方法,可以应用于如图1所示的应用环境中,该应用环境涉及终端102和服务器104。其中,终端102通过网络与服务器104进行通信。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和携带式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来是实现。
当终端102接收到待分类票据图像时,可以由终端102单独实现上述票据图像分类方法。也可以由终端102将待分类票据图像发送给通信的服务器104,由服务器104实现上述票据图像分类方法。以服务器104为例,具体的,服务器104对待分类票据图像进行采样,得到多个不同尺度的票据图像;服务器104利用滑动窗口分别对各票据图像进行扫描,并分别提取扫描后各图像的图像语义信息,得到单一尺度图像语义信息;服务器104将各单一尺度图像语义信息进行信息融合,得到多尺度图像语义信息;服务器104根据多尺度图像语义信息进行票据分类,得到待分类票据图像的票据类型。
在一个实施例中,如图2所示,提供一种票据图像分类方法,以该方法应用于服务器为例进行说明,包括以下步骤:
步骤S201,对待分类票据图像进行采样,得到多个不同尺度的票据图像。
其中,待分类票据图像是指当前需要进行票据类型识别分类的票据图像。票据图像则是对待分类票据图像进行采样后所得到的采样图像。
具体的,当需要对某一张票据进行分类确定其票据类型时,用户可通过终端拍摄该票据,然后将所拍摄的票据图像作为待分类票据图像上传且同时下达相应的票据分类指令。当终端接收到用户的票据分类指令之后,将该票据分类指令以及对应的待分类票据图像一并发送至服务器。服务器响应票据分类指令,对待分类票据图像进行采样,得到采样后多个不同尺度的票据图像。
步骤S202,利用滑动窗口分别对各票据图像进行扫描,并分别提取扫描后各图像的图像语义信息,得到单一尺度图像语义信息。
其中,单一尺度图像语义信息是指单一尺度的票据图像的图像语义信息。
具体的,服务器对待分类图像进行采样得到不同尺度的票据图像之后,利用滑动窗口对每一张票据图像分别进行扫描。即,将设定的滑动窗口在票据图像上进行移动,每移动一次便扫描采集一次该滑动窗口当前所对应的图像区域的图像数据,得到当前的票据子图像。而该票据图像对应的所有票据子图像可以构建得到该票据图像的票据子图像集。其中,各个尺度的票据图像均如此操作得到对应的票据子图像集,在此不再赘述。然后,服务器再对获得的所有的票据子图像集分别进行图像语义信息的提取,相应得到的各个票据子图像集的图像语义信息,即待分类票据图像的单一尺度图像语义信息。单一尺度图像语义信息的数量与扫描图像的数量对等。
步骤S203,将各单一尺度图像语义信息进行信息融合,得到多尺度图像语义信息。
具体的,当服务器提取得到单一尺度图像语义信息之后,服务器进一步将所有的单一尺度图像语义信息进行信息融合。由于融合了多个不同单一尺度的图像语义信息,所以融合所得到的图像语义信息即为多尺度图像语义信息。
步骤S204,根据多尺度图像语义信息进行票据分类,得到待分类票据图像的票据类型。
具体的,服务器通过信息融合得到多尺度图像语义信息后,根据该多尺度图像语义信息进行票据分类,所得到的票据类型即为待分类票据图像的票据类型。票据类型包括但不限于行程单、火车票、机动车车牌、机动车行驶证、机动车驾驶证、销售发票(例如机动车统一销售发票)、增值税发票、身份证以及银行卡等。
上述票据图像分类方法,通过对待分类票据图像进行采样,得到多个不同尺度的票据图像后,利用滑动窗口分别对各票据图像进行扫描,并分别提取扫描后各图像的图像语义信息,得到单一尺度图像语义信息,进而将各单一尺度图像语义信息进行信息融合,得到多尺度图像语义信息,根据多尺度图像语义信息进行票据分类,得到待分类票据图像的票据类型。该方法利用多尺度滑动窗口策略与神经网络相结合实现票据图像分类,增强图像分类的抗干扰能力,显著的提高了票据图像分类的准确率。
在一个实施例中,步骤S201,包括:根据预设的采样步长和采样图像尺寸范围,以待分类票据图像的最大边对待分类票据图像进行等比向上采样和等比向下采样,得到多个不同尺度的票据图像。
其中,采样步长和采样图像尺寸范围是预先设定的采样参数,本实施例优选采样步长为2,采样图像尺寸范围为[256,2048]。应当理解的是,本实施采样步长和采样图像尺寸范围等采样参数优选于此但并不局限于此,可以根据实际情况进行相应的调整配置。最大边是指图像中宽w和高h中的最大值,即最大边=maxwh)。
具体的,对待分类票据图像进行采样时,服务器首先确定所配置的采样步长和采样图像尺寸范围。然后,以该采样步长和采样图像尺寸范围,基于待分类票据图像的最大边对待分类票据图像进行等比向上采样和等比向下采样。由于本实施例限定了采样步长和采样图像尺寸范围,以优选的步长2以及尺寸范围[256,2048]为例,即当对待分类票据图像完成等比采样后能够得到4个不同尺度的票据图像,4个不同尺度的票据图像所对应的最大边分别为256,512,1024以及2048。
本实施例中,考虑实际场景下票据图像的尺寸多样性,通过对待分类票据图像进行等比采样到多个尺度不同的票据图像进行后续的分类,能够提高票据图像分类的准确率。
在一个实施例中,步骤S202,包括:根据预设的滑动窗口尺寸和扫描步长,分别对各票据图像进行扫描,得到各票据图像的票据子图像集;利用训练好的浅层卷积神经网络,分别提取各票据子图像集的图像语义信息,得到各票据子图像集的单一尺度图像语义信息;浅层卷积神经网络利用票据图像数据集训练。
其中,滑动窗口尺寸和扫描步长是预先设定的扫描参数,本实施例优选滑动窗口尺寸为256*256,扫描步长为128。应当理解的是,本实施滑动窗口尺寸和扫描步长等扫描参数优选于此但并不局限于此,可以根据实际情况进行相应的调整配置。
具体的,利用滑动窗口对票据图像进扫描时,服务器首先确定配置的滑动窗口尺寸以及扫描步长。根据该滑动窗口尺寸和扫描步长对分别对各个票据图像进行扫描,得到各个票据图像对应的票据子图像。服务器得到不同尺度票据图像的票据子图像之后,将所属同一票据图像的票据子图像组合构建得到该票据图像的票据子图像集,即不同尺度的票据图像均得到一个对应的票据子图像集。然后,服务器调用训练好的浅层卷积神经网络(浅层CNN),通过该浅层卷积神经网络分别对各个票据子图像集中的图像进行图像语义信息的提取,得到单一尺度图像语义信息。比如,假设第一个尺寸的票据图像中能够得到5个票据子图像,则输入到浅层卷积神经网络中的图像数据尺寸为(256,256,3*5),256为图像的宽和高,3是常规图像的图像通道,由于本实施例划分得到的票据子图像集中有5个票据子图像,所以3*5是该票据子图像集的图像通道。当浅层卷积神经网络的卷积核数为32时,则最终输出的图像数据尺寸为(256,256,32)。而若第二个尺寸的票据图像通过扫描得到10个票据子图像,则输入的图像数据尺寸为(256,256,3*10),相应输出的图像维度同样是(256,256,32)。其中,该浅层卷积神经网络利用所构建的票据图像数据集训练得到。
在一个实施例中,步骤S203,包括:将各单一尺度图像语义信息进行特征合并,得到多尺度图像语义信息。
具体的,服务器对各个尺度票据图像的单一尺度图像语义信息进行图像融合时,将各个票据图像的单一尺度图像语义信息进行图像通道的合并,得到多尺度图像语义信息。比如,当包括4个尺度的票据图像以及浅层卷积神经网络的卷积核数为32时,由于4个尺度的票据图像经过卷积核数为32的浅层卷积神经网络的处理之后,图像通道均为32,因此通过信息融合后的多尺度图像语义信息为(256,256,32*4)。
在一个实施例中,步骤S204,包括:将多尺度图像语义信息输入至训练好的票据分类网络进行票据分类,得到票据分类网络输出的票据类型以及票据类型对应的置信度;票据分类网络利用票据图像数据集训练;确定最高的置信度对应的票据类型为待分类票据图像的票据类型。
其中,票据分类网络是本发明中作为后端深层图像语义特征提取的网络模型,通过提取高维语义特征来实现待分类票据图像的分类。本实施例优选Inceptionv3网络结构作为票据分类网络,本实施例票据分类网络同样利用所构建的票据图像数据集训练得到。
具体的,当通过信息融合得到多尺度图像语义信息后,服务器调用训练好的票据分类网络。将多尺度图像语义信息输入至该票据分类网络中,通过该票据分类网络提取高维语义特征,进而根据高维语义特征实现票据类型的识别分类,从而输出对应的票据类型以及该票据类型对应的置信度。然后,服务器根据票据分类网络所输出的置信度来确定最终的票据类型。比如,当票据分类网络只输出一个结果“火车票:0.99”,则表示识别分类该票据图像有99%的可能性为火车票,由于票据分类网络只输出一个结果,所以服务器可以直接确定该票据图像的票据类型为火车票。而当票据分类网络输出多个结果时,比如“火车票:0.80、行程单:0.20”,则表示该票据图像有80%的可能性为火车票、20%的可能性为行程单。此时,服务器根据置信度的高低,确定置信度最高也就是可能性最高的火车票作为票据图像的票据类型。
在一个实施例中,票据图像数据集的构建方法,包括:收集原票据图像;对原票据图像进行抗噪增强和角度增强,得到增强票据图像;根据原票据图像和增强票据图像构建票据图像数据集。
具体的,通过用户拍摄上传、爬虫等方式收集若干张原票据图像。而由于不同票据采集难易程度各不相同,本实施例中实际的采集数量具体为:180张行程单、220张火车票、300张机动车车牌、150张机动车行驶证、150张机动车驾驶证、150张机动车统一销售发票、100张身份证、200张银行卡以及250张增值税发票,原票据图像共计1700张图像。
服务器收集到原票据图像之后,通过采用高光、运动模糊、高斯噪声、阴影、噪点、马赛克等操作对图像进行抗噪增强。此外再通过采用镜像、旋转、裁剪等操作对图像进行任意角度增强,得到增强票据图像。其中,本实施例优选抗噪增强平均每张原票据图像扩充4张,角度增强平均每张原票据图像扩充2张,但并不局限于此,可以根据实际对训练数据的需求量设定增强扩充的数量。然后,服务器将原票据图像和增强所得到的增强票据图像组合构建得到票据图像数据集。后续对浅层卷积网络以及票据分类网络进行训练时,可以根据8:2的比例将票据图像数据集划分为训练集S和测试集V,以1700张图像为例,抗噪增强平均4张以及角度增强平均2张为例,训练集S中共计20000张图像,测试集V中共计5500张图像。
本实施例中,通过对原票据图像进行抗噪增强和角度增强,能够得到各式各样以及不同场景和角度的票据图像,从而丰富了数据集,后续训练网络能够提高网络识别分类的精准性。
在一个实施例中,如图3所示,提供一种基于MSSW(multiple-scale slidingwindow- Inception,多尺度滑动窗口)-Inception的网络结构图。基于该网络结构图,以火车票为例对上述票据分类方法进行解释说明。
参考图3,本实施例中的MSSW-Inception包括多尺度网络、滑窗网络以及票据分类网络(Inception网络)。具体的,首先将待分类火车票图像输入到多尺度网络,由多尺度网络根据预设的采样步长和采样图像尺寸范围,并以最大边对该待分类火车票图像进行等比的向上和向下采样,得到不同尺度的火车票图像。然后,将各个尺度的火车票图像输入到滑窗网络中,滑窗网络根据预设的滑动窗口尺寸和扫描步长对各个尺度的火车图像进行扫描,得到各个尺度火车票图像的火车票子图像集。将各个火车票子图像集分别输入到浅层卷积网络(浅层CNN)中进行图像语义信息的提取,得到多个单一尺度图像语义信息。最后,将各个单一尺度图像语义信息进行信息融合后输入到Inception网络进行识别分类,根据Inception网络输出的票据类型以及该票据类型对应的置信度“火车票:0.99”确定该待分类火车票图像的票据类型为火车票。
应当理解的是,本实施例中的MSSW-Inception网络投入使用之前需要通过构建的票据图像数据集对其进行训练,训练过程包括:将票据图像数据集按照8:2的比例划分为训练集S和测试集V,同时训练集S中的各个票据图像完成票据类型的标注。然后,从训练集S中使用数据生成器随机生成一批训练图像B={I 1 ,I 2 ……I n },即数据生成器从已经标注好的训练集S中,有放回的随机选择n个样本作为训练图像,其中I表示训练集中的训练图像,图像I的宽和高分别用w和h表示。进而对图像I以最大边进行等比向上采样和等比向下采样,得到一系列不同尺度的图像集I m 。利用滑动窗口对图像集I m 中的图像进行扫描,产生一系列候选子图像集合I mw 。最后将子图像集合I mw 中的候选子图输入到浅层CNN卷积进行训练,浅层CNN卷积训练过程中的输出通过信息融合后输入到Inception网络对其进行训练。在训练完一个Epoch之后,使用划分的测试集其进行测试,根据测试的结果对网络进行相应的调整之后再进行迭代训练,直至测试的结果收敛为止。然后选择测试结果最佳的模型参数进行固化,即可得到训练好的MSSW-Inception票据分类模型。训练过程中损失函数变化如图4所示,而使用测试集对其进行测试的准确率如图5所示,其中,loss为训练集的损失值,val_loss为测试集的损失值。其中,accuracy为训练集的损失值,val_accuracy为测试集的损失值。训练过程中所采用的损失函数为带权重交叉熵损失函数,损失函数公式如下所示:
Figure DEST_PATH_IMAGE001
其中,cost表示损失值,n为票据类型总量,
Figure DEST_PATH_IMAGE002
为第i种票据类型的权重,y为票据图像真实类别标签,a为MSSW-Inception网络输出的预测结果。本实施例中各票据类型对应的权重参考下表1所示:
表1
票据类型 行程单 火车票 机动车车牌 行驶证 驾驶证 机动车发票 身份证 银行卡 增值税发票
损失权重 1.01 0.86 0.63 1.26 1.26 1.26 1.89 0.94 0.76
以及,训练网络定义的网络优化策略为自适应网络优化器,公式如下所示:
Figure DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE004
其中,
Figure DEST_PATH_IMAGE005
表示t时刻的网络参数值,
Figure DEST_PATH_IMAGE006
表示t-1时刻下网络参数的损失值,
Figure DEST_PATH_IMAGE007
为学习率,
Figure DEST_PATH_IMAGE008
表示对网络参数求梯度,表示t时刻下网络参数
Figure 571682DEST_PATH_IMAGE005
的梯度,i的取值范围为(0,t),用于表示第i个时刻。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供一种票据图像分类装置,包括:采样模块601,滑动窗口扫描模块602,信息融合模块603以及分类模块604。
采样模块601,用于对待分类票据图像进行采样,得到多个不同尺度的票据图像。
滑动窗口扫描模块602,用于利用滑动窗口分对各票据图像进行扫描,并分别提取扫描后各图像的单一尺度图像语义信息。
信息融合模块603,用于将各单一尺度图像语义信息进行信息融合,得到多尺度图像语义信息。
分类模块604,用于根据多尺度图像语义信息进行票据分类,得到待分类票据图像的票据类型。
在一个实施例中,采样模块601还用于根据预设的采样步长和采样图像尺寸范围,以待分类票据图像的最大边对待分类票据图像进行等比向上采样和等比向下采样,得到多个不同尺度的票据图像。
在一个实施例中,滑动窗口扫描模块602还用于根据预设的滑动窗口尺寸和扫描步长,分别对各票据图像进行扫描,得到各票据图像的票据子图像集;利用训练好的浅层卷积神经网络,分别提取各票据子图像集的图像语义信息,得到各票据子图像集的单一尺度图像语义信息;浅层卷积神经网络利用票据图像数据集训练。
在一个实施例中,信息融合模块603还用于将各单一尺度图像语义信息进行特征合并,得到多尺度图像语义信息。
在一个实施例中,分类模块604还用于将多尺度图像语义信息输入至训练好的票据分类网络进行票据分类,得到票据分类网络输出的票据类型以及票据类型对应的置信度;票据分类网络利用票据图像数据集训练;确定最高的置信度对应的票据类型为待分类票据图像的票据类型。
在一个实施例中,票据图像分类装置还包括训练模块,用于收集原票据图像;对原票据图像进行抗噪增强和角度增强,得到增强票据图像;根据原票据图像和增强票据图像构建票据图像数据集。
在一个实施例中,训练模块还用于按照预设比例将票据图像数据集划分为训练集和测试集;利用数据生成器从训练集中随机生成训练图像,通过训练图像对浅层卷积神经网络和票据分类网络进行训练;根据测试集对训练后的浅层卷积神经网络和票据分类网络进行测试,根据测试结果对网络调整后返回利用数据生成器从训练集中随机生成训练图像的步骤进行迭代训练,直至测试结果收敛为止。
关于票据图像分类装置的具体限定可以参见上文中对于票据图像分类方法的限定,在此不再赘述。上述票据图像分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个票据图像分类方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
在一个实施例中,提供一种计算机设备,该计算机设备可以是服务器,包括处理器,存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种票据图像分类方法。示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本领域技术人员可以理解,本实施例中所示出的计算机设备结构,仅仅是与本发明方案相关的部分结构,并不构成对本发明所应用于其上的计算机设备的限定,具体的计算机设备可以包括更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
对待分类票据图像进行采样,得到多个不同尺度的票据图像;
利用滑动窗口分对各票据图像进行扫描,并分别提取扫描后各图像的单一尺度图像语义信息;
将各单一尺度图像语义信息进行信息融合,得到多尺度图像语义信息;
根据多尺度图像语义信息进行票据分类,得到待分类票据图像的票据类型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据预设的采样步长和采样图像尺寸范围,以待分类票据图像的最大边对待分类票据图像进行等比向上采样和等比向下采样,得到多个不同尺度的票据图像。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据预设的滑动窗口尺寸和扫描步长,分别对各票据图像进行扫描,得到各票据图像的票据子图像集;利用训练好的浅层卷积神经网络,分别提取各票据子图像集的图像语义信息,得到各票据子图像集的单一尺度图像语义信息;浅层卷积神经网络利用票据图像数据集训练。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将各单一尺度图像语义信息进行特征合并,得到多尺度图像语义信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将多尺度图像语义信息输入至训练好的票据分类网络进行票据分类,得到票据分类网络输出的票据类型以及票据类型对应的置信度;票据分类网络利用票据图像数据集训练;确定最高的置信度对应的票据类型为待分类票据图像的票据类型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:收集原票据图像;对原票据图像进行抗噪增强和角度增强,得到增强票据图像;根据原票据图像和增强票据图像构建票据图像数据集。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:按照预设比例将票据图像数据集划分为训练集和测试集;利用数据生成器从训练集中随机生成训练图像,通过训练图像对浅层卷积神经网络和票据分类网络进行训练;根据测试集对训练后的浅层卷积神经网络和票据分类网络进行测试,根据测试结果对网络调整后返回利用数据生成器从训练集中随机生成训练图像的步骤进行迭代训练,直至测试结果收敛为止。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
对待分类票据图像进行采样,得到多个不同尺度的票据图像;
利用滑动窗口分对各票据图像进行扫描,并分别提取扫描后各图像的单一尺度图像语义信息;
将各单一尺度图像语义信息进行信息融合,得到多尺度图像语义信息;
根据多尺度图像语义信息进行票据分类,得到待分类票据图像的票据类型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据预设的采样步长和采样图像尺寸范围,以待分类票据图像的最大边对待分类票据图像进行等比向上采样和等比向下采样,得到多个不同尺度的票据图像。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据预设的滑动窗口尺寸和扫描步长,分别对各票据图像进行扫描,得到各票据图像的票据子图像集;利用训练好的浅层卷积神经网络,分别提取各票据子图像集的图像语义信息,得到各票据子图像集的单一尺度图像语义信息;浅层卷积神经网络利用票据图像数据集训练。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将各单一尺度图像语义信息进行特征合并,得到多尺度图像语义信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将多尺度图像语义信息输入至训练好的票据分类网络进行票据分类,得到票据分类网络输出的票据类型以及票据类型对应的置信度;票据分类网络利用票据图像数据集训练;确定最高的置信度对应的票据类型为待分类票据图像的票据类型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:收集原票据图像;对原票据图像进行抗噪增强和角度增强,得到增强票据图像;根据原票据图像和增强票据图像构建票据图像数据集。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:按照预设比例将票据图像数据集划分为训练集和测试集;利用数据生成器从训练集中随机生成训练图像,通过训练图像对浅层卷积神经网络和票据分类网络进行训练;根据测试集对训练后的浅层卷积神经网络和票据分类网络进行测试,根据测试结果对网络调整后返回利用数据生成器从训练集中随机生成训练图像的步骤进行迭代训练,直至测试结果收敛为止。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种票据图像分类方法,其特征在于,包括:
对待分类票据图像进行采样,得到多个不同尺度的票据图像;
利用滑动窗口分别对各所述票据图像进行扫描,并分别提取扫描后各图像的图像语义信息,得到单一尺度图像语义信息;
将各所述单一尺度图像语义信息进行信息融合,得到多尺度图像语义信息;
根据所述多尺度图像语义信息进行票据分类,得到所述待分类票据图像的票据类型。
2.根据权利要求1所述的方法,其特征在于,所述对待分类票据图像进行采样,得到多个不同尺度的票据图像,包括:
根据预设的采样步长和采样图像尺寸范围,以所述待分类票据图像的最大边对所述待分类票据图像进行等比向上采样和等比向下采样,得到多个不同尺度的票据图像。
3.根据权利要求1所述的方法,其特征在于,所述利用滑动窗口分别对各所述票据图像进行扫描,并分别提取扫描后各图像的图像语义信息,得到单一尺度图像语义信息,包括:
根据预设的滑动窗口尺寸和扫描步长,分别对各所述票据图像进行扫描,得到各所述票据图像的票据子图像集;
利用训练好的浅层卷积神经网络,分别提取各所述票据子图像集的图像语义信息,得到各所述票据子图像集的单一尺度图像语义信息;所述浅层卷积神经网络利用票据图像数据集训练。
4.根据权利要求1所述的方法,其特征在于,所述将各所述单一尺度图像语义信息进行信息融合,得到多尺度图像语义信息,包括:
将各所述单一尺度图像语义信息进行特征合并,得到多尺度图像语义信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所述多尺度图像语义信息进行票据分类,得到所述待分类票据图像的票据类型,包括:
将所述多尺度图像语义信息输入至训练好的票据分类网络进行票据分类,得到所述票据分类网络输出的票据类型以及所述票据类型对应的置信度;所述票据分类网络利用票据图像数据集训练;
确定最高的所述置信度对应的票据类型为所述待分类票据图像的票据类型。
6.根据权利要求3或5所述的方法,其特征在于,所述票据图像数据集的构建方法,包括:
收集原票据图像;
对所述原票据图像进行抗噪增强和角度增强,得到增强票据图像;
根据所述原票据图像和所述增强票据图像构建票据图像数据集。
7.根据权利要求1所述的方法,其特征在于,利用所述票据图像数据集训练浅层卷积神经网络和票据分类网络的方法,包括:
按照预设比例将所述票据图像数据集划分为训练集和测试集;
利用数据生成器从所述训练集中随机生成训练图像,通过所述训练图像对所述浅层卷积神经网络和所述票据分类网络进行训练;
根据所述测试集对训练后的所述浅层卷积神经网络和所述票据分类网络进行测试,根据测试结果对网络调整后返回利用数据生成器从所述训练集中随机生成训练图像的步骤进行迭代训练,直至测试结果收敛为止。
8.一种票据图像分类装置,其特征在于,包括:
采样模块,用于对待分类票据图像进行采样,得到多个不同尺度的票据图像;
滑动窗口扫描模块,用于利用滑动窗口分别对各所述票据图像进行扫描,并分别提取扫描后各图像的单一尺度图像语义信息;
信息融合模块,用于将各所述单一尺度图像语义信息进行信息融合,得到多尺度图像语义信息;
分类模块,用于根据所述多尺度图像语义信息进行票据分类,得到所述待分类票据图像的票据类型。
9.一种计算机设备,包括处理器和存储器,所述存储器存储有计算机程序,其特征在于,所述处理器用于执行所述计算机程序时实现权利要求1-7中任意一项所述的票据图像分类方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任意一项所述的票据图像分类方法。
CN202110658578.6A 2021-06-15 2021-06-15 票据图像分类方法、装置、计算机设备和存储介质 Active CN113255568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110658578.6A CN113255568B (zh) 2021-06-15 2021-06-15 票据图像分类方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110658578.6A CN113255568B (zh) 2021-06-15 2021-06-15 票据图像分类方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113255568A true CN113255568A (zh) 2021-08-13
CN113255568B CN113255568B (zh) 2021-09-24

Family

ID=77187989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110658578.6A Active CN113255568B (zh) 2021-06-15 2021-06-15 票据图像分类方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113255568B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886578A (zh) * 2021-09-16 2022-01-04 华清科盛(北京)信息技术有限公司 一种表单分类方法及装置
CN113901879A (zh) * 2021-09-13 2022-01-07 昆明理工大学 融合多尺度语义特征图的缅甸语图像文本识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573744A (zh) * 2015-01-19 2015-04-29 上海交通大学 精细粒度类别识别及物体的部分定位和特征提取方法
CN109902737A (zh) * 2019-02-25 2019-06-18 厦门商集网络科技有限责任公司 一种票据分类方法及终端
US20190236414A1 (en) * 2017-04-25 2019-08-01 Uber Technologies, Inc. FPGA Device for Image Classification
CN110503100A (zh) * 2019-08-16 2019-11-26 湖南星汉数智科技有限公司 一种医疗单据识别方法、装置、计算机装置及计算机可读存储介质
CN111325092A (zh) * 2019-12-26 2020-06-23 湖南星汉数智科技有限公司 一种动车票识别方法、装置、计算机装置及计算机可读存储介质
CN111738055A (zh) * 2020-04-24 2020-10-02 浙江大学城市学院 多类别文本检测系统和基于该系统的票据表单检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573744A (zh) * 2015-01-19 2015-04-29 上海交通大学 精细粒度类别识别及物体的部分定位和特征提取方法
US20190236414A1 (en) * 2017-04-25 2019-08-01 Uber Technologies, Inc. FPGA Device for Image Classification
CN109902737A (zh) * 2019-02-25 2019-06-18 厦门商集网络科技有限责任公司 一种票据分类方法及终端
CN110503100A (zh) * 2019-08-16 2019-11-26 湖南星汉数智科技有限公司 一种医疗单据识别方法、装置、计算机装置及计算机可读存储介质
CN111325092A (zh) * 2019-12-26 2020-06-23 湖南星汉数智科技有限公司 一种动车票识别方法、装置、计算机装置及计算机可读存储介质
CN111738055A (zh) * 2020-04-24 2020-10-02 浙江大学城市学院 多类别文本检测系统和基于该系统的票据表单检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113901879A (zh) * 2021-09-13 2022-01-07 昆明理工大学 融合多尺度语义特征图的缅甸语图像文本识别方法及装置
CN113886578A (zh) * 2021-09-16 2022-01-04 华清科盛(北京)信息技术有限公司 一种表单分类方法及装置
CN113886578B (zh) * 2021-09-16 2023-08-04 华清科盛(北京)信息技术有限公司 一种表单分类方法及装置

Also Published As

Publication number Publication date
CN113255568B (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN109034159B (zh) 图像信息提取方法和装置
CN108509978B (zh) 基于cnn的多级特征融合的多类目标检测方法及模型
CN110837836B (zh) 基于最大化置信度的半监督语义分割方法
Bhattacharya et al. Handwritten numeral databases of Indian scripts and multistage recognition of mixed numerals
CN113255568B (zh) 票据图像分类方法、装置、计算机设备和存储介质
US11430202B2 (en) Enhanced optical character recognition (OCR) image segmentation system and method
CN111325205B (zh) 文档图像方向识别方法、装置及模型的训练方法、装置
CN111353491B (zh) 一种文字方向确定方法、装置、设备及存储介质
CN107784288A (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
JP2011018316A (ja) 文書区分識別用の区分モデルを生成するための方法及びプログラム、文書の区分を識別するための方法及びプログラム、及び画像処理システム
US20240203147A1 (en) Systems and methods for digitized document image text contouring
CN114998756A (zh) 一种基于yolov5的遥感图像检测方法、装置及存储介质
CN113963147A (zh) 一种基于语义分割的关键信息提取方法及系统
CN114444566A (zh) 一种图像伪造检测方法、装置以及计算机存储介质
CN115908833A (zh) 一种基于改进YOLOv3的轻量级垃圾检测方法
CN114581710A (zh) 图像识别方法、装置、设备、可读存储介质及程序产品
CN114842478A (zh) 文本区域的识别方法、装置、设备及存储介质
CN115424053A (zh) 小样本图像识别方法、装置、设备及存储介质
CN112749576B (zh) 图像识别方法和装置、计算设备以及计算机存储介质
CN114220178A (zh) 基于通道注意力机制的签名鉴别系统及方法
CN113378609B (zh) 代理商代签名的识别方法及装置
CN113988223B (zh) 证件图像识别方法、装置、计算机设备及存储介质
US11288534B2 (en) Apparatus and method for image processing for machine learning
CN115471856A (zh) 一种发票图像信息识别方法、装置及存储介质
CN114998001A (zh) 业务类别识别方法、装置、设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant