CN111814833B - 票据处理模型的训练方法及图像处理方法、图像处理设备 - Google Patents
票据处理模型的训练方法及图像处理方法、图像处理设备 Download PDFInfo
- Publication number
- CN111814833B CN111814833B CN202010532037.4A CN202010532037A CN111814833B CN 111814833 B CN111814833 B CN 111814833B CN 202010532037 A CN202010532037 A CN 202010532037A CN 111814833 B CN111814833 B CN 111814833B
- Authority
- CN
- China
- Prior art keywords
- image
- bill
- training
- classification information
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 92
- 238000012545 processing Methods 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 238000003709 image segmentation Methods 0.000 claims abstract description 9
- 238000011176 pooling Methods 0.000 claims description 21
- 238000012935 Averaging Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 description 18
- 238000010606 normalization Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 5
- 230000003213 activating effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了票据处理模型的训练方法及图像处理方法、图像处理设备,该票据处理模型的训练方法包括:获取训练图像;确定训练图像中的票据定位信息和第一分类信息,并利用票据定位信息和第一分类信息对训练图像进行标注;将已标注的训练图像输入至预先建立的票据处理模型,并输出图像分割后的票据图像和票据图像的第二分类信息;其中,票据处理模型包括票据定位分支和票据分类分支;根据票据定位信息和票据图像之间的差异,和第一分类信息和第二分类信息之间的差异,对票据处理模型进行改进。通过上述方式,能够同时实现对待处理图像的票据定位和类别判定,提高工作效率。
Description
技术领域
本申请涉及图像处理领域,特别是涉及一种票据处理模型的训练方法及图像处理方法、图像处理设备。
背景技术
随着社会的发展,不同行业会产生很多种类的票据,如在金融交易中,每笔金融交易均有对应的交易信息,交易信息会以金融单据的形式保存并作为凭证;购买火车票时有实质的火车票;购物时商家开具的增值税发票。而这些票据通常是通过拍照或扫描后录入到相应系统,以作后续处理。
以银行的对账系统为例,审核人员采取人工审核票据的方式对票据进行处理,他们每天都要面临着票据分拣、审核、录入、存档的过程,存在大量的重复性工作,且效率低下。
发明内容
为了解决上述问题,本申请提供一种票据处理模型的训练方法及图像处理方法、图像处理设备,能够同时实现对待处理图像的票据定位和类别判定,提高工作效率。
本申请采用的一种技术方案是提供一种票据处理模型的训练方法,该方法包括:获取训练图像;确定训练图像中的票据定位信息和第一分类信息,并利用票据定位信息和第一分类信息对训练图像进行标注;将已标注的训练图像输入至预先建立的票据处理模型,并输出图像分割后的票据图像和票据图像的第二分类信息;其中,票据处理模型包括票据定位分支和票据分类分支;根据票据定位信息和票据图像之间的差异,和第一分类信息和第二分类信息之间的差异,对票据处理模型进行改进。
其中,将已标注的训练图像输入至预先建立的票据处理模型,并输出图像分割后的票据图像和票据图像的第二分类信息;其中,票据处理模型包括票据定位分支和票据分类分支,包括:对训练图像进行下采样,以得到目标图像;将目标图像通过票据分类分支进行处理,以得到目标图像的第二分类信息;以及将目标图像通过票据定位分支进行处理,以得到票据图像。
其中,将目标图像通过票据分类分支进行处理,以得到目标图像的第二分类信息,包括:对目标图像进行特征提取,以得到待处理特征;对待处理特征进行全局平均池化,以得到目标图像的第二分类信息。
其中,对待处理特征进行全局平均池化,以得到目标图像的第二分类信息,包括:对待处理特征进行全局平均池化,以得到待处理特征对应于多种设定类别的概率;将概率中的最大概率对应的设定类型确定为第二分类信息。
其中,将目标图像通过票据定位分支进行处理,以得到票据图像,包括:对目标图像进行上采样,以得到掩膜图像;利用掩膜图像对训练图像进行处理,以得到票据图像。
其中,利用掩膜图像对训练图像进行处理,以得到票据图像,包括:利用掩膜图像检测出训练图像中对应的像素点;获取像素点形成的最小外接四边形,以得到票据图像。
其中,根据票据定位信息和票据图像之间的差异,和第一分类信息和第二分类信息之间的差异,对票据处理模型进行改进,包括:根据票据定位信息和票据图像计算出第一损失值;根据第一分类信息和第二分类信息计算出第二损失值;根据第一损失值和第二损失值得出第三损失值;判断第三损失值是否满足设定阈值;若否,则对票据处理模型进行改进。
本申请采用的另一种技术方案是提供一种图像处理方法,该方法包括:获取待处理图像;将待处理图像输入至如上述训练方法训练出的票据处理模型,以从待处理图像中分割出票据图像,并识别出票据图像的类型。
本申请采用的另一种技术方案是提供一种图像处理设备,该图像处理设备包括处理器以及与处理器耦接的存储器;其中,存储器用于存储程序数据,处理器用于执行程序数据,以实现如上述的图像处理方法。
本申请采用的另一种技术方案是提供一种可读存储介质,该计算机可读存储介质用于存储程序数据,程序数据在被处理器执行时,用于实现如上述的图像处理方法,或如上述票据处理模型的训练方法。
本申请的有益效果是:区别于现有技术的情况,本申请的一种票据处理模型的训练方法,该方法包括:获取训练图像;确定训练图像中的票据定位信息和第一分类信息,并利用票据定位信息和第一分类信息对训练图像进行标注;将已标注的训练图像输入至预先建立的票据处理模型,并输出图像分割后的票据图像和票据图像的第二分类信息;其中,票据处理模型包括票据定位分支和票据分类分支;根据票据定位信息和票据图像之间的差异,和第一分类信息和第二分类信息之间的差异,对票据处理模型进行改进。通过上述方式,使训练出的票据处理模型同时实现对待处理图像的票据定位和类别判定,提高工作效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请提供的票据处理模型的训练方法第一实施例的流程示意图;
图2是本申请提供的训练图像的示意图;
图3是本申请提供的票据处理模型的示意图;
图4是是本申请提供的图1中步骤131的具体流程示意图;
图5是本申请提供的票据处理模型的训练方法第二实施例的流程示意图;
图6是本申请提供的图像处理方法第一实施例的流程示意图;
图7是本申请提供的图像处理设备一实施例的结构示意图;
图8是本申请提供的计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参阅图1,图1是本申请提供的票据处理模型的训练方法第一实施例的流程示意图,该方法包括:
步骤11:获取训练图像。
在一些实施例中,训练图像可以是通过用户上传的拍照或者扫描图像获得的,训练图像可以是很多类型,例如增值税发票、火车票、打车票、金融单据等等。金融单据是指企业与金融机构(如银行)完成金融交易后,由金融机构开具的交易凭证。训练图像如图2所示示意图。
步骤12:确定训练图像中的票据定位信息和第一分类信息,并利用票据定位信息和第一分类信息对训练图像进行标注。
在一些实施例中,结合图2进行说明,如图2所示,训练图像20包括票据图像21和其他区域。可以理解,其他区域可以是空白或者非票据图像。确定训练图像20中的票据定位信息和第一分类信息,并利用票据定位信息和第一分类信息对训练图像21进行标注。标注的方式可以采用图像语义分割的形式,图像语义分割标注是指人工分割并识别出图像的内容后以颜色进行分割标注,例如将训练图像20进行数据标注,得到黑色区域和白色区域,黑色区域标注为票据图像21且类型为金融单据,白色区域标注为其他。
步骤13:将已标注的训练图像输入至预先建立的票据处理模型,并输出图像分割后的票据图像和票据图像的第二分类信息。
在一些实施例中,票据处理模型包括票据定位分支和票据分类分支;票据定位分支用于将训练图像中的票据图像进行分割输出,票据分类分支用于将训练图像中的票据图像进行分类。可以采用FCN(Fully Convolutional Networks,全卷积网络)、SegNet等网络来建立模型。
在一些实施例中,采用SegNet的encoder-decoder(编码-解码)结构对于输入图片进行训练学习,以得到数据的分布特征。此外SegNet的编码器部分使用的是VGG16的前13层卷积网络,每个编码器层都对应一个解码器层,最终解码器的输出被送入soft-max分类器以独立的为每个像素产生类概率。
参阅图3进行说明。本网络采用两个分支结构,一个分支为上文描述的encoder-decoder结构,票据定位分支,用于做票据的定位,另一个分支,票据分类分支选取vgg-16的conv5-3的feature-map进行类别分类。分类网络后加上全局平均池化,以支持任意尺度的图像输入。其中,图3中的Image表示输入的图像,Conv表示卷积,sigmoid表示激活函数,Mask表示掩膜图像,Classify表示分类分支,output表示输出,Global Avg Pooling表示全局平均池化层,图3中的数字64、128、256、512、512、1024表示其对应的编码器中卷积核的个数。
图3所示的输入图像(Image),通过包含64个卷积核的编码器进行第一次下采样,第一次下采样得到的图像再通过包含128个卷积核的编码器进行第二次下采样,第二次下采样得到的图像再通过包含256个卷积核的编码器进行第三次下采样,第三次下采样得到的图像再通过包含512个卷积核的编码器进行第四次下采样,第四次下采样得到的图像再通过包含512个卷积核的编码器进行第五次下采样。将第五次下采样得到的图像通过票据分类分支(Classify)中的包含1024个卷积核的编码器进行第六次下采样,第六次下采样得到的图像通过全局平均池化层处理后输出,同时将第五次下采样得到的图像通过包含1024个卷积核的编码器进行第七次下采样,将第七次下采样得到的图像通过包含512个卷积核的解码器进行第一次上采样,将第一次上采样得到的图像再通过包含512个卷积核的解码器进行第二次上采样,将第二次上采样得到的图像再通过包含256个卷积核的解码器进行第三次上采样,将第三次上采样得到的图像再通过包含128个卷积核的解码器进行第四次上采样,将第四次上采样得到的图像再通过包含64个卷积核的解码器进行第五次上采样,将第五次上采样得到的图像再通过包含32个卷积核的解码器进行第六次上采样,将第六次上采样得到的图像再通过包含32个卷积核的解码器进行第七次上采样,在第七次上采样过程中使用激活函数,以使得到掩膜图像(Mask)。其中,解码器与编码器之间存在对应关系,第二次下采样的编码器和第四次上采样的解码器对应,第三次下采样的编码器和第三次上采样的解码器对应,第四次下采样的编码器和第二次上采样的解码器对应,第五次下采样的编码器和第一次上采样的解码器对应。解码器使用对应的编码器生成的池化索引来进行上采样。
具体地,参阅图4,进行说明:
步骤131:对训练图像进行下采样,以得到目标图像。
结合图3进行过说明:当训练图像输入后,通过多个编码器进行下采样,每个编码器由数个卷积层,批归一化层,RELU层以及一个池化层(2x2窗口,步进2,最大池化)组成,卷积层,批归一化层,RELU层组成一个独立层然后连接池化层,输出相当于系数为2的下采样。
在训练图像输入后,根据图像的类型,如灰度图像,彩色图像,将图像转换为对应的色值通道,如彩色图像有RGB三个色值通道,分别表示红、绿、蓝,每个通道内的像素可以用一个二维数组表示,数值代表0-255之间的像素值。假设一张900*600的彩色的图片,计算机里面可以用(900*600*3)的数组矩阵表示。转换完成后输入第一个编码器进行下采样。在编码器中的过程如下:将转化后的矩阵输入由卷积层、批归一化层、RELU层组成的独立层,在卷积层中进行特征提取生成多个feature-map,特征提取的过程通过卷积核对数组矩阵进行处理,生成全新的矩阵,这个全新的矩阵就是特征信息,批归一化层作用于卷积层,用于加快学习速度,用于激活函数前,在SegNet中每个卷积层都会加上一个批归一化层,批归一化层后面为ReLU层,ReLU层为一个激活函数,对全新的矩阵做非线性映射,能快速计算出激活率。将特征信息通过池化层进行计算,通过去掉特征信息中不重要的样本,进一步减少参数数量,得到一个新的训练矩阵。然后将该训练矩阵输入下一个编码器,按照下一个编码器的逻辑进行训练,直到通过最后一个编码器得到一个最佳特征矩阵,即目标图像。
可以理解,在每个编码器下采样后,均会生成一个特征矩阵,都可以当成目标图像。
步骤132:将目标图像通过票据分类分支进行处理,以得到目标图像的第二分类信息。
在一些实施例中,选取合适的编码器产生的目标图像进行分类。
具体地,票据分类分支包括一全连接层。
选择目标编码器中生成的多个feature-map,对多个feature-map进行全局平均池化,得到特征信息,将特征信息在全连接层进行处理,将特征信息变成1*1*n的向量来做分类,以得到目标图像的第二分类信息。例如,选择vgg-16的conv5-3的feature-map进行类别分类。
步骤133:将目标图像通过票据定位分支进行处理,以得到票据图像。
票据定位分支中包括与上述下采样过程中对应编码器数量的解码器,在解码器中包括上采样层和反卷积层,通过上采样层将特征矩阵放大,放大后的特征矩阵只存在被池化后数据,所以其他位置的权值为0,然后通过反卷积层填补缺失的内容。如此循环,在最后一个解码器中存在一个softmax层,用来进行最后的分类和归一化,即将训练图像的中的所有像素进行分类。在本实施例中,属于票据信息的像素会归为一类,形成票据图像。
解码器与编码器之间存在对应关系,编码器中池化层产生的池化索引会输入到对应的解码器中的上采样层。在实际操作过程中,编码器中池化层产生的矩阵,同时会生成池化索引,即该索引对应的是现有矩阵元素在原矩阵中的位置信息,则在解码器的上采样层放大池化层传输的矩阵后,按照池化索引将特征矩阵中的元素放入对应位置。
步骤14:根据票据定位信息和票据图像之间的差异,和第一分类信息和第二分类信息之间的差异,对票据处理模型进行改进。
当票据定位信息和票据图像之间的差异,和第一分类信息和第二分类信息之间的差异超过设定阈值时,需要对模型进行参数调整,以满足票据处理。
例如,差异表现为票据图像与票据定位信息的图像并不相似,而且第一分类信息和第二分类信息并不相同。
具体地,根据票据定位信息和票据图像计算出第一损失值;根据第一分类信息和第二分类信息计算出第二损失值;根据所述第一损失值和所述第二损失值得出第三损失值;判断第三损失值是否满足设定阈值;若否,则对票据处理模型进行改进。
采用以下公式计算第一损失值:
其中,cyi为第yi个类别的特征中心,λ为调整因子,m表示所述训练图像的数量,n表示类别数,xi表示全连接层之前的特征。
在本实施例中,使用上述公式来对票据定位分支进行损失值的计算,能够使特征信息具有较强的内聚性(由LC来负责),而类间的可分性则由LS来负责。
采用以下公式计算第二损失值:
其中,α为调整因子,y'为预测为第二分类信息结果,(1-y')γ为调制系数。
在本实施例中,使用上述公式来对票据分类分支进行的损失值的计算,能够解决简单与困难样本的问题,减少了简单训练样本的影响,大量预测概率很小的样本叠加起来后的效应才可能比较有效。
采用以下公式计算第三损失值:
L=w1L2+w2L1;
其中,w1、w2为常用系数。
通过对参数的调整,以使第三损失值是否满足设定阈值,以训练好该票据处理模型。
区别于现有技术的情况,本申请的一种票据处理模型的训练方法,该方法包括:获取训练图像;确定训练图像中的票据定位信息和第一分类信息,并利用票据定位信息和第一分类信息对训练图像进行标注;将已标注的训练图像输入至预先建立的票据处理模型,并输出图像分割后的票据图像和票据图像的第二分类信息;其中,票据处理模型包括票据定位分支和票据分类分支;根据票据定位信息和票据图像之间的差异,和第一分类信息和第二分类信息之间的差异,对票据处理模型进行改进。通过上述方式,使训练出的票据处理模型同时实现对待处理图像的票据定位和类别判定,提高工作效率。
参阅图5,图5是本申请提供的票据处理模型的训练方法第二实施例的流程示意图,该方法包括:
步骤501:获取训练图像。
在一些实施例中,训练图像中包含多个票据图像。
步骤502:确定训练图像中的票据定位信息和第一分类信息,并利用票据定位信息和第一分类信息对训练图像进行标注。
在一些实施例中,针对包含多个票据图像的训练图像,分别对票据定位信息和第一分类信息进行标注。
步骤503:对训练图像进行下采样,以得到目标图像。
票据处理模型采用与上述实施例相同的构建模型。将已标注的训练图像输入至预先建立的票据处理模型,对训练图像进行下采样,以得到目标图像。
下采样按照上述实施例中的方式进行,这里不做赘述。
步骤504:对目标图像进行特征提取,以得到待处理特征。
步骤504在票据处理模型的分类分支中进行。
步骤505:对待处理特征进行全局平均池化,以得到待处理特征对应于多种设定类别的概率。
具体地,票据分类分支包括一全连接层。
选择目标编码器中生成的多个feature-map,对多个feature-map进行全局平均池化,得到特征信息,将特征信息在全连接层进行处理,将特征信息变成1*1*n的向量来做分类。
将将特征信息变成1*1*n的向量来做分类过程中,将1*1*n的向量输入至分类器,在分类器中计算出1*1*n的向量对应不同类别的概率。
步骤506:将概率中的最大概率对应的设定类型确定为第二分类信息。
步骤507:对目标图像进行上采样,以得到掩膜图像。
通过上述实施例的描述,在票据定位分支进行上采样,以预测出属于票据信息的像素点,这些像素点所形成的图像即为掩膜图像。
步骤508:利用掩膜图像检测出训练图像中对应的像素点。
通过掩膜图像从训练图像中检测对应的像素点。
步骤509:获取像素点形成的最小外接四边形,以得到票据图像。
像素点形成的图形可能不太规则,则获取像素点形成的最小外接四边形,此最小外接四边形则确定为票据图像。
步骤510:根据票据定位信息和票据图像之间的差异,和第一分类信息和第二分类信息之间的差异,对票据处理模型进行改进。
步骤510采用上述的公式计算票据处理模型的损失值,直到损失值满足设定阈值,则票据处理模型训练完成。
具体地,上述实施例中的公式L=w1L2+w2L1,参数w1、w2的值为0.5。
在本实施例中,票据处理模型可以将包含多个票据信息的图像进行分割,生成相应的票据图像,并将相应的票据图像分类。
参阅图6,图6是本申请提供的图像处理方法第一实施例的流程示意图,该方法包括:
步骤61:获取待处理图像。
在一些实施例中,待处理图像可以是通过用户上传的拍照或者扫描图像获得的票据图像,待处理图像可以是很多类型,例如增值税发票、火车票、打车票、金融单据等等。金融单据是指企业与金融机构(如银行)完成金融交易后,由金融机构开具的交易凭证。训练图像如图2所示示意图。
步骤62:将待处理图像输入至票据处理模型,以从待处理图像中分割出票据图像,并识别出票据图像的类型。
票据处理模型如通过上述实施例训练完成的票据处理模型,使用该票据处理模型,能从待处理图像中分割出票据图像,并识别出票据图像的类型。
然后将分割出票据图像按照识别出票据图像的类型分类,以便进行下一步工作。
在本实施例中,使用按照上述实施例训练出的票据处理模型进行票据处理,能够同时实现对待处理图像进行票据定位和类别判定,提高工作效率。
参阅图7,图7是本申请提供的图像处理设备一实施例的结构示意图,该图像处理设备70包括处理器71以及与处理器71连接的存储器72;存储器72用于存储程序数据,处理器71用于执行程序数据,以实现以下的方法步骤:
获取待处理图像;将待处理图像输入至票据处理模型,以从待处理图像中分割出票据图像,并识别出票据图像的类型。
其中,票据处理模型是按照上述实施例中的训练方法训练出。
可以理解,处理器71用于执行程序数据,还用于实现上述任一实施例方法。
参阅图8,图8是本申请提供的计算机可读存储介质一实施例的结构示意图,计算机可读存储介质80用于存储程序数据81,程序数据81在被处理器执行时,用于实现以下的方法步骤:
获取待处理图像;将待处理图像输入至票据处理模型,以从待处理图像中分割出票据图像,并识别出票据图像的类型;
或,获取训练图像;确定训练图像中的票据定位信息和第一分类信息,并利用票据定位信息和第一分类信息对训练图像进行标注;将已标注的训练图像输入至预先建立的票据处理模型,并输出图像分割后的票据图像和票据图像的第二分类信息;其中,票据处理模型包括票据定位分支和票据分类分支;根据票据定位信息和票据图像之间的差异,和第一分类信息和第二分类信息之间的差异,对票据处理模型进行改进。
其中,票据处理模型是按照上述实施例中的训练方法训练出。
可以理解,程序数据81在被处理器执行时,还用于实现上述任一实施例方法。
在本申请所提供的几个实施方式中,应该理解到,所揭露的方法以及设备,可以通过其它的方式实现。例如,以上所描述的设备实施方式仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述其他实施方式中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (9)
1.一种票据处理模型的训练方法,其特征在于,所述方法包括:
获取训练图像;
确定所述训练图像中的票据定位信息和第一分类信息,并利用所述票据定位信息和所述第一分类信息对所述训练图像进行标注;
将已标注的所述训练图像输入至预先建立的票据处理模型,并输出图像分割后的票据图像和所述票据图像的第二分类信息;其中,所述票据处理模型包括票据定位分支和票据分类分支;
根据所述票据定位信息和所述票据图像之间的差异,和所述第一分类信息和第二分类信息之间的差异,对所述票据处理模型进行改进,包括:
根据所述票据定位信息和所述票据图像计算出第一损失值;
根据所述第一分类信息和第二分类信息计算出第二损失值;
根据所述第一损失值和所述第二损失值得出第三损失值;
判断所述第三损失值是否满足设定阈值;
若否,则对所述票据处理模型进行改进。
2.根据权利要求1所述的训练方法,其特征在于,
所述将已标注的所述训练图像输入至预先建立的票据处理模型,并输出图像分割后的票据图像和所述票据图像的第二分类信息;其中,所述票据处理模型包括票据定位分支和票据分类分支,包括:
对所述训练图像进行下采样,以得到目标图像;
将所述目标图像通过所述票据分类分支进行处理,以得到所述目标图像的所述第二分类信息;以及
将所述目标图像通过所述票据定位分支进行处理,以得到所述票据图像。
3.根据权利要求2所述的训练方法,其特征在于,
所述将所述目标图像通过所述票据分类分支进行处理,以得到所述目标图像的所述第二分类信息,包括:
对所述目标图像进行特征提取,以得到待处理特征;
对所述待处理特征进行全局平均池化,以得到所述目标图像的所述第二分类信息。
4.根据权利要求3所述的训练方法,其特征在于,
所述对所述待处理特征进行全局平均池化,以得到所述目标图像的所述第二分类信息,包括:
对所述待处理特征进行全局平均池化,以得到所述待处理特征对应于多种设定类别的概率;
将所述概率中的最大概率对应的设定类型确定为所述第二分类信息。
5.根据权利要求2所述的训练方法,其特征在于,
所述将所述目标图像通过所述票据定位分支进行处理,以得到所述票据图像,包括:
对所述目标图像进行上采样,以得到掩膜图像;
利用所述掩膜图像对所述训练图像进行处理,以得到所述票据图像。
6.根据权利要求5所述的训练方法,其特征在于,
所述利用所述掩膜图像对所述训练图像进行处理,以得到所述票据图像,包括:
利用所述掩膜图像检测出所述训练图像中对应的像素点;
获取所述像素点形成的最小外接四边形,以得到所述票据图像。
7.一种图像处理方法,其特征在于,所述方法包括:
获取待处理图像;
将所述待处理图像输入至如权利要求1-6任一项所述的票据处理模型的训练方法训练出的票据处理模型,以从所述待处理图像中分割出票据图像,并识别出所述票据图像的类型。
8.一种图像处理设备,其特征在于,所述图像处理设备包括处理器以及与所述处理器耦接的存储器;
其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据,以实现如权利要求7所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序数据,所述程序数据在被处理器执行时,用于实现如权利要求8所述的方法;或如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010532037.4A CN111814833B (zh) | 2020-06-11 | 2020-06-11 | 票据处理模型的训练方法及图像处理方法、图像处理设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010532037.4A CN111814833B (zh) | 2020-06-11 | 2020-06-11 | 票据处理模型的训练方法及图像处理方法、图像处理设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111814833A CN111814833A (zh) | 2020-10-23 |
CN111814833B true CN111814833B (zh) | 2024-06-07 |
Family
ID=72844928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010532037.4A Active CN111814833B (zh) | 2020-06-11 | 2020-06-11 | 票据处理模型的训练方法及图像处理方法、图像处理设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814833B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106408562A (zh) * | 2016-09-22 | 2017-02-15 | 华南理工大学 | 基于深度学习的眼底图像视网膜血管分割方法及系统 |
CN108009629A (zh) * | 2017-11-20 | 2018-05-08 | 天津大学 | 一种基于全卷积台标分割网络的台标分割方法 |
CN108764372A (zh) * | 2018-06-08 | 2018-11-06 | Oppo广东移动通信有限公司 | 数据集的构建方法和装置、移动终端、可读存储介质 |
CN109285157A (zh) * | 2018-07-24 | 2019-01-29 | 深圳先进技术研究院 | 左心室心肌分割方法、装置及计算机可读存储介质 |
CN109583412A (zh) * | 2018-12-07 | 2019-04-05 | 中国科学院遥感与数字地球研究所 | 一种利用卷积神经网络进行船舶检测的训练方法及其船舶检测方法 |
WO2019071660A1 (zh) * | 2017-10-09 | 2019-04-18 | 平安科技(深圳)有限公司 | 票据信息识别方法、电子装置及可读存储介质 |
CN109784424A (zh) * | 2019-03-26 | 2019-05-21 | 腾讯科技(深圳)有限公司 | 一种图像分类模型训练的方法、图像处理的方法及装置 |
CN109886273A (zh) * | 2019-02-26 | 2019-06-14 | 四川大学华西医院 | 一种cmr图像分割分类系统 |
CN110348441A (zh) * | 2019-07-10 | 2019-10-18 | 深圳市华云中盛科技有限公司 | 增值税发票识别方法、装置、计算机设备及存储介质 |
CN110472737A (zh) * | 2019-08-15 | 2019-11-19 | 腾讯医疗健康(深圳)有限公司 | 神经网络模型的训练方法、装置和医学图像处理系统 |
CN110473226A (zh) * | 2019-07-18 | 2019-11-19 | 上海联影智能医疗科技有限公司 | 图像处理网络的训练方法、计算机设备及可读存储介质 |
CN110647829A (zh) * | 2019-09-12 | 2020-01-03 | 全球能源互联网研究院有限公司 | 一种票据的文本识别方法及系统 |
CN110766014A (zh) * | 2018-09-06 | 2020-02-07 | 邬国锐 | 票据信息定位方法、系统及计算机可读存储介质 |
CN110929807A (zh) * | 2019-12-06 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 图像分类模型的训练方法、图像分类方法及装置 |
-
2020
- 2020-06-11 CN CN202010532037.4A patent/CN111814833B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106408562A (zh) * | 2016-09-22 | 2017-02-15 | 华南理工大学 | 基于深度学习的眼底图像视网膜血管分割方法及系统 |
WO2019071660A1 (zh) * | 2017-10-09 | 2019-04-18 | 平安科技(深圳)有限公司 | 票据信息识别方法、电子装置及可读存储介质 |
CN108009629A (zh) * | 2017-11-20 | 2018-05-08 | 天津大学 | 一种基于全卷积台标分割网络的台标分割方法 |
CN108764372A (zh) * | 2018-06-08 | 2018-11-06 | Oppo广东移动通信有限公司 | 数据集的构建方法和装置、移动终端、可读存储介质 |
CN109285157A (zh) * | 2018-07-24 | 2019-01-29 | 深圳先进技术研究院 | 左心室心肌分割方法、装置及计算机可读存储介质 |
CN110766014A (zh) * | 2018-09-06 | 2020-02-07 | 邬国锐 | 票据信息定位方法、系统及计算机可读存储介质 |
CN109583412A (zh) * | 2018-12-07 | 2019-04-05 | 中国科学院遥感与数字地球研究所 | 一种利用卷积神经网络进行船舶检测的训练方法及其船舶检测方法 |
CN109886273A (zh) * | 2019-02-26 | 2019-06-14 | 四川大学华西医院 | 一种cmr图像分割分类系统 |
CN109784424A (zh) * | 2019-03-26 | 2019-05-21 | 腾讯科技(深圳)有限公司 | 一种图像分类模型训练的方法、图像处理的方法及装置 |
CN110348441A (zh) * | 2019-07-10 | 2019-10-18 | 深圳市华云中盛科技有限公司 | 增值税发票识别方法、装置、计算机设备及存储介质 |
CN110473226A (zh) * | 2019-07-18 | 2019-11-19 | 上海联影智能医疗科技有限公司 | 图像处理网络的训练方法、计算机设备及可读存储介质 |
CN110472737A (zh) * | 2019-08-15 | 2019-11-19 | 腾讯医疗健康(深圳)有限公司 | 神经网络模型的训练方法、装置和医学图像处理系统 |
CN110647829A (zh) * | 2019-09-12 | 2020-01-03 | 全球能源互联网研究院有限公司 | 一种票据的文本识别方法及系统 |
CN110929807A (zh) * | 2019-12-06 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 图像分类模型的训练方法、图像分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111814833A (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108427920B (zh) | 一种基于深度学习的边海防目标检测方法 | |
CN111325152B (zh) | 一种基于深度学习的交通标志识别方法 | |
CN103824373B (zh) | 一种票据图像金额分类方法及系统 | |
CN112365451B (zh) | 图像质量等级的确定方法、装置、设备及计算机可读介质 | |
CN106846011A (zh) | 营业执照识别方法和装置 | |
CN111680690A (zh) | 一种文字识别方法及装置 | |
CN113688821B (zh) | 一种基于深度学习的ocr文字识别方法 | |
CN113591866A (zh) | 基于db与crnn的特种作业证件检测方法及系统 | |
CN110796145B (zh) | 基于智能决策的多证件分割关联方法及相关设备 | |
US20230154217A1 (en) | Method for Recognizing Text, Apparatus and Terminal Device | |
CN113392702A (zh) | 一种基于自适应图像增强的弱光照环境下目标识别方法 | |
CN114444566A (zh) | 一种图像伪造检测方法、装置以及计算机存储介质 | |
CN112883926A (zh) | 表格类医疗影像的识别方法及装置 | |
CN112232336A (zh) | 一种证件识别方法、装置、设备及存储介质 | |
WO2022111247A1 (zh) | 一种报表分析方法及装置 | |
CN114842478A (zh) | 文本区域的识别方法、装置、设备及存储介质 | |
WO2022006829A1 (zh) | 一种票据图像识别方法、系统、电子设备和存储介质 | |
CN111583502B (zh) | 基于深度卷积神经网络的人民币冠字号多标签识别方法 | |
CN111814833B (zh) | 票据处理模型的训练方法及图像处理方法、图像处理设备 | |
CN117576009A (zh) | 一种基于改进YOLOv5s的高精度太阳能电池板缺陷检测方法 | |
CN115346206B (zh) | 基于改进超分辨的深度卷积特征识别的车牌检测方法 | |
CN111428725A (zh) | 数据结构化处理方法、装置和电子设备 | |
CN115937882A (zh) | 一种金融表单识别方法及装置 | |
CN107403405A (zh) | 图像处理装置、图像处理方法以及信息处理装置 | |
CN112613402B (zh) | 文本区域检测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |