CN112529989A - 一种基于票据模板的图片重构方法 - Google Patents

一种基于票据模板的图片重构方法 Download PDF

Info

Publication number
CN112529989A
CN112529989A CN202011512526.XA CN202011512526A CN112529989A CN 112529989 A CN112529989 A CN 112529989A CN 202011512526 A CN202011512526 A CN 202011512526A CN 112529989 A CN112529989 A CN 112529989A
Authority
CN
China
Prior art keywords
picture
text
bill
img
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011512526.XA
Other languages
English (en)
Inventor
黄文潞
赵海秀
王彦青
张少杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EB INFORMATION TECHNOLOGY Ltd
Original Assignee
EB INFORMATION TECHNOLOGY Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EB INFORMATION TECHNOLOGY Ltd filed Critical EB INFORMATION TECHNOLOGY Ltd
Priority to CN202011512526.XA priority Critical patent/CN112529989A/zh
Publication of CN112529989A publication Critical patent/CN112529989A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)

Abstract

一种基于票据模板的图片重构方法,包括:构建并训练一个票据文本嵌入网络,输入是票据重构参数,输出是重构票据图片,流程如下:从字典中获取票据模板上每个文本区域的填充文本,为每个文本区域生成一个以二进制表示、且尺寸一致的文本掩码图片,图片上有填充文本,且文本像素值为1、背景像素值为0,同时从票据模板中裁剪出每个文本区域的文本背景图片,将文本掩码图片和文本背景图片合成文本重构图片,最后将所有文本重构图片贴回票据模板,即重构票据图片;用户设定票据重构参数和重构数量,将票据重构参数输入训练后的票据文本嵌入网络,获得输出的重构票据图片。本发明属于信息技术领域,能基于票据模板重构大量贴合真实票据的票据图片。

Description

一种基于票据模板的图片重构方法
技术领域
本发明涉及一种基于票据模板的图片重构方法,属于信息技术领域。
背景技术
票据是现代生活中的重要内容,常见的票据包括增值税发票、火车票、出租车发票、过路费发票和投票等,票据作为商品或服务的有效凭证在人们的生活中具有重要作用。
在数字化经济发展的社会大形势下,对于各种领域自动化的票据检测和识别应用需求迫在眉睫。据调查,目前,绝大多数企业在交易等经济活动中所面临的大量的发票等单据中,增值税发票、电子发票等占了绝大多数。而在现阶段票据信息的采集,依然采用传统的手工采集录入方式,而手工采集录入需要投入大量的成本和时间,不仅抬高了运营成本,而且效率低下,导致票据信息不能及时有效传递,造成不必要的资金流出,影响企业效益。因此,利用信息化技术实现票据的自动检测和识别,从而节省大量时间和成本,是未来人工智能时代,企业必备的刚需选择。
当前对票据的识别技术在新一代人工智能技术的加持下,取得了突破性进展,但其应用通常需要使用大量样本数据用以训练,如何获得海量的票据图片作为样本数据从而构建大规模票据样本数据集呢?专利申请CN201911103673.9(申请名称:一种点阵字符打印效果的图像仿真生成方法,申请人:四川大学,申请日:2019.11.13)公开了一种点阵字符打印效果的图像仿真生成方法,首先生成针式字符,包括从程序接口读取用户指定的打印字符生成参数,从字体库中读取指定字号的字体文件,解析其字库点阵信息,以生成指定文本内容的图像,利用采样技术从中获取点阵分布情况,用随机笔触生成算法绘制点阵字符的各个印刷点;然后仿真打印缺陷,包括随机参数和随机选择控制的镜头模糊仿真、噪声模拟、墨汁过多的效果模拟、随机破损模拟、纹理干扰模拟等;最后生成的仿真图像被缩放到设定尺寸,作为样本输出到文件。该技术方案模拟针式打印机票据打印效果,基于指定的字体生成所给文本的字符点阵,从字符点阵中采样获取针式打印的效果,并加入打印机污损、缺墨等实际打印缺陷效果,所有关于文字内容信息的参数由用户提供,且只能生成空白图像,当用户设置背景图案才会进行平铺,生成的图像大小根据字符的外接矩形框决定,而真实的票据包含许多文字组分布在各个区域,所以该技术方案无法真正地模拟真实票据图片的仿真生成,另外,针式打印出的文字效果,以及通过对像素点操作来添加的实际打印环境效果也并不自然。
因此,如何基于票据模板重构大量贴合真实票据的票据图片,从而为票据检测和识别技术提供准确的样本数据,已成为技术人员重点关注的技术问题。
发明内容
有鉴于此,本发明的目的是提供一种基于票据模板的图片重构方法,能基于票据模板重构大量贴合真实票据的票据图片,从而为票据检测和识别技术提供准确的样本数据。
为了达到上述目的,本发明提供了一种基于票据模板的图片重构方法,包括有:
步骤一、构建、并训练一个票据文本嵌入网络,所述票据文本嵌入网络的输入是票据重构参数,输出是重构票据图片,票据文字嵌入网络的工作流程如下:从文字字典中随机获取票据模板图片上每个文本区域的填充文本,然后为每个文本区域生成一个以二进制表示、且与文本区域尺寸一致的文本掩码图片,所述文本掩码图片上填充有从文字字典中获取到的填充文本,且文本部分像素值设为1、背景部分像素值设为0,同时,按照每个文本区域的位置坐标,从票据模板图片中裁剪出每个文本区域所对应的文本背景图片,分别将每个文本区域的文本掩码图片和文本背景图片合成一个文本重构图片,最后将所有合成得到的文本重构图片按照文本区域的位置坐标再贴回票据模板图片中,处理后所得到的票据模板图片即是票据文字嵌入网络输出的重构票据图片;
步骤二、用户设定票据重构参数和重构数量,将用户设定的票据重构参数输入训练后的票据文本嵌入网络中,并按用户选择的重构数量获得票据文本嵌入网络输出的重构票据图片。
与现有技术相比,本发明的有益效果是:本发明采用固定的票据模板或者用户定义的新票据模板的两种方式来重构票据图片,其中,采用固定的票据模板可以针对现有的几大通用票据模板的文字填写规则,设定固定的文字字体、字号和颜色,并收集各种文字填充内容的数据集进行随机选择和生成,无需用户提供填充字符,即可实现票据图片的自动重构,采用用户定义的新票据模板可以根据用户提供的模板和各种文本区域的填充规则进行裁剪、重构和粘贴,并且使重构后的效果能更加自然和逼真;在将文本掩码图片和文本背景图片进行合成时,本发明还进一步基于对抗生成网络来分别构建合成网络和判别网络,从而能生成更逼真的重构图片;对于用户定义的新票据模板,本发明还可以进一步对其中若干个文本区域采用手写符号来填充,考虑到现实票据上会有手写笔迹,本发明使用像素点位运算的方法,将手写符号图片中的笔迹保留,待填充的图片区域中抠出笔迹部分的位置,再将手写符号笔迹填充,从而实现了任意手写笔迹的填写;本发明还可以对重构后的票据图片增加背景处理(包括纯色底改变、加折痕、加噪声)和文字瑕疵处理(包括文字加粗、文字打印缺失、加水迹),从而实现对票据图片的环境重构,使得重构票据图片能更加贴合自然票据图片。
附图说明
图1是本发明一种基于票据模板的图片重构方法的流程图。
图2是对于用户定义的新票据模板,对其中一个文本区域采用手写符号来填充时的具体流程图。
图3是对重构票据图片进行纯色底改变的具体流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
如图1所示,本发明一种基于票据模板的图片重构方法,包括有:
步骤一、构建、并训练一个票据文本嵌入网络,所述票据文本嵌入网络的输入是票据重构参数,输出是重构票据图片,票据文字嵌入网络的工作流程如下:根据输入的票据重构参数中的票据模板图片、以及票据模板图片上每个用于填充文本的文本区域的文字要求(例如字体、字号、文字内容),从文字字典中随机获取票据模板图片上每个文本区域的填充文本,然后为每个文本区域生成一个以二进制表示、且与文本区域尺寸一致的文本掩码图片,所述文本掩码图片上填充有从文字字典中获取到的填充文本,且文本部分像素值设为1、背景(即非填充文字)部分像素值设为0,同时,按照每个文本区域的位置坐标,从票据模板图片中裁剪出每个文本区域所对应的文本背景图片,分别将每个文本区域的文本掩码图片和文本背景图片合成一个文本重构图片,最后将所有合成得到的文本重构图片按照文本区域的位置坐标再贴回票据模板图片中,处理后所得到的票据模板图片即是票据文字嵌入网络输出的重构票据图片;本发明可以使用openCV中的paste方法,将文本重构图片贴回票据模板图片;
步骤二、用户设定票据重构参数和重构数量,将用户设定的票据重构参数输入训练后的票据文本嵌入网络中,并按用户选择的重构数量获得票据文本嵌入网络输出的重构票据图片。
步骤一中的票据重构参数可以包括有:票据模板图片,票据模板图片上用于填充文本的文本区域的坐标位置,每个文本区域中的文字字体、字号、颜色、文字内容。
每个文本区域的填充文本可以从文字字典中随机获取,例如对于增值税发票中的公司名称、地址、电话,火车票中的车站名称、姓名、金额等,可以使用爬虫技术来获取上千条数据组成文字字典,从而作为票据图片重构的文字来源。同时,收集充分数量的真实票据图片,均为已填充好文字的票据图片,作为票据文本嵌入网络训练时的数据。
本发明可以采用固定的票据模板或者用户定义的新票据模板来重构票据图片。其中:
(1)采用固定的票据模板来重构票据图片时
固定的票据模板可以包括有:增值税发票、火车票、出租车发票、过路费发票和投票。当采用固定的票据模板时,所有票据模板图片上的每个文本区域的坐标位置及文字要求都是固定的,因此,可以预先对每种固定的票据模板图片分别编号,步骤二中,用户在设定票据重构参数时,只需输入所选择的固定票据模板编号,并由系统按照固定票据模板的规定标准,分别设定票据模板图片中每个文本区域的位置坐标(包括左上角的坐标和右下角的坐标)、文字字体、字号、颜色、文字内容。
(2)采用用户定义的新票据模板来重构票据图片时
用户除了选择固定的票据模板之外,还可以自行设定票据重构参数。步骤二中,用户设定的票据重构参数可以包括有:新增的票据模板图片、票据模板图片每个文本区域的位置坐标、每个文本区域中的文字字体、字号、颜色、文字内容,其中,每个文本区域的文字内容还可以由多个内容组组成,比如“xxx”+“有限公司”是两个内容组,因此,用户还可以进一步设定每个文本区域的所有内容组的顺序、字体、字号、颜色、内容类型和最大字符长度。
对于用户定义的新票据模板,由于文本区域的填充文本可能会超过该文本区域一行中能容纳的文字数量,所以当票据文字嵌入网络从文字字典中随机获取票据模板图片上每个文本区域的填充文本后,还包括有:
将每个文本区域中的所有内容组按照设定的顺序和字体信息拼接成一个填充字符串,根据每个文本区域的字号宽度w和文本区域宽度width,计算每个文本区域一行能容纳的文字数量count:count=width/w,然后从填充字符串的第一个字符开始算起,在填充字符串的每count个字符后的位置上插入一个换行符。
为了将文本掩码图片和文本背景图片进行合成时,能生成更逼真的文本重构图片,本发明还可以进一步基于对抗生成网络来分别构建一个合成网络和一个判别网络,然后通过判别网络与合成网络的交替训练,使得合成网络能尽可能地生成更逼真的重构图片,混淆判别网络,因此,本发明还可以包括有:
基于对抗生成网络,分别构建、并训练一个合成网络和一个判别网络,其中,合成网络用于将每个文本区域的文本掩码图片和文本背景图片合成一个文本重构图片,判别网络用于计算文本重构图片属于真实图片的概率以判别真伪,其处理流程如下:先将每个文本区域的文本掩码图片和文本背景图片输入合成网络,由合成网络的卷积层对文本掩码图片和文本背景图片进行特征提取和融合,经过多步卷积和池化操作,并通过下采样和上采样提取图片深度特征,从而输出文本掩码图片和文本背景图片合成后的文本重构图片,然后再将合成网络输出的文本重构图片和文本的真实图片输入判别网络,判别网络通过卷积和池化操作,最后通过softmax层输出文本重构图片属于真实图片的概率,该概率值的范围为0-1,越接近1,则说明合成后的文本重构图片越逼近真实的票据图片,
这样,步骤二中,票据文本嵌入网络采用合成网络,将每个文本区域的文本掩码图片和文本背景图片合成一个文本重构图片。
在合成网络和判别网络的每次训练过程中,训练损失还可以进一步定义成交叉熵损失和深度特征差异之和,交叉熵损失的计算为现有技术,不在此赘述,本发明进一步提出了深度特征差异,深度特征差异LF的计算公式如下:
Figure BDA0002846853890000051
S(x)是文本区域x的文本重构图片,S*(x)是文本区域x的文本真实图片,F(·)是判别网络中特征提取部分提取到的图片深度特征,D(·)是判别网络的输出,这样,在每次训练的过程中不断最小化特征损失,直到达到最优值,即完成对合成网络和判别网络的训练。
值得一提的是,对于用户定义的新票据模板,还可以对其中若干个文本区域进一步采用手写符号来填充,手写符号可以为“√”和“○”,主要用于投票等票据模板的重构。如图2所示,当对其中一个文本区域采用手写符号来填充时,本发明还可以包括有:
步骤A1、按照填充手写符号的文本区域的位置坐标,从票据模板图片中裁剪出文本区域对应的文本背景图片bg;
步骤A2、从手写符号数据集中随机选择一张手写符号图片hw,调整其尺寸与裁剪出的文本背景图片尺寸一致,然后将该手写符号图片先转化为灰度值图片,再转化成二进制图片mask,所述二进制图片mask中的每个像素点的像素值为:
Figure BDA0002846853890000052
其中,mask(x,y)是二进制图片mask中像素点(x,y)的像素值,src(x,y)是手写符号图片转化成的灰度值图片中像素点(x,y)的像素值,thresh是阈值,可以根据实际业务需要而设置;
这样,二进制图片mask中的笔迹部分像素值全为0,背景部分像素值全为1,从而将手写符号的笔迹与背景区分;
步骤A3、对mask按位取反,从而获得mask的反码图mask_inv:
Figure BDA0002846853890000053
其中,mask_inv(x,y)是反码图mask_inv中像素点(x,y)的像素值,这样,mask_inv中的笔迹部分像素值全为1,背景部分像素值全为0;
步骤A4、将bg和mask按位相与,从而获得手写合成图片img1:img1=bg*mask,mask中像素值为0的部分,在手写合成图片1中对应部分的像素值也会全部变为0,从而相当于在mask中“抠”出了待填充的手写笔迹部分,这部分的像素值全为黑色;
步骤A5、将hw和mask_inv按位相与,从而获得手写合成图片img 2:img2=hw*mask_inv,这样,手写合成图片2中的背景部分像素值为0,只有笔迹部分被保留;
步骤A6、将img1和img2按位相加,从而获得将手写符号填充于文本区域中的文本重构图片img_g:img_g=img1+img2,最后将获得的文本重构图片按照对应文本区域的位置坐标贴回票据模板图片中。
本发明还可以基于深度学习技术和图像处理技术,并使用随机算法按一定比例对重构票据图片增添环境处理效果,包括有:背景处理(包括纯色底改变、加折痕、加噪声);文字瑕疵处理(包括文字加粗、文字打印缺失、加水迹),从而实现对重构票据图片的环境重构,使得重构票据图片能更加贴合自然票据图片,具体包括有:
1、纯色底改变,如图3所示,本发明还包括有:
步骤B1、预先设定若干纯色底背景色的RGB值构成背景色集,并从背景色集中选择一个背景色;
步骤B2、构建重构票据图片的每个像素点在颜色空间中的三维向量,计算每个像素点的高斯混合分布值:
Figure BDA0002846853890000061
其中,
Figure BDA0002846853890000062
是每个像素点在颜色空间中的三维向量,
Figure BDA0002846853890000063
Figure BDA0002846853890000064
对应的高斯混合分布值,i=1、2、3,代表三个RGB通道,pi是属于第i维的先验概率,其值是第i维的坐标值和三维向量中所有坐标值总和的比值,比如
Figure BDA0002846853890000065
的三维向量为(1,1,1),其
Figure BDA0002846853890000066
同理,p2=1/3,p3=1/3;
步骤B3、分别构建A1、A2、A3三个像素点集合,并设定每个像素点集合对应的像素点的高斯混合分布值的区间范围,其中,A1和A3分别是前景(即文字部分)像素点集合和背景像素点集合,A2是前景像素点和背景像素点的混合集合,然后按照重构票据图片中每个像素点的高斯混合分布值,将重构票据图片中的每个像素点划分到不同的集合中;
步骤B4、逐一判断A2中每个像素点的8个相邻像素点是否均属于A3,如果是,则将该像素点移动到A3中,然后继续判断A2中的下一个像素点,直至判断完A2中的所有像素点;如果否,则继续判断A2中的下一个像素点,直至判断完A2中的所有像素点;
步骤B5、逐一判断A1中每个像素点是否存在任意一个相邻像素点在A2中,如果是,则将该相邻像素点移动到A1中,然后继续判断A1中的下一个像素点,直至判断完A1中的所有像素点;如果否,则继续判断A1中的下一个像素点,直至判断完A1中的所有像素点;
此时A1只包含前景像素点,A2和A3包含背景像素点;
步骤B6、将A2和A3中的所有像素点的RGB三通道值修改为所选择的背景色,从而完成对重构票据图片的纯色底改变。
2、加折痕,本发明还包括有:
步骤C1、预先收集若干带有各种不同样式折痕的白纸图片,随机选取一种折痕图片,调整其尺寸与重构票据图片的尺寸大小一致;
步骤C2、根据重构票据图片和折痕图片的每个像素点的三个RGB通道值,计算加折痕后的票据图片的每个像素点的三个RGB通道值:dst_z(x,y,i)=img_d(x,y,i)-[255-img_z(x,y,i)],其中,img_d(x,y,i)、img_z(x,y,i)、dst_z(x,y,i)分别是重构票据图片、折痕图片、加折痕后的票据图片的像素点(x,y)的第i个RGB通道值,i=1、2、3,分别代表三个RGB通道,所述加折痕后的票据图片即是融入了折痕效果后的重构票据图片。
3、加噪声,本发明可以为票据图片添加椒盐噪声或高斯噪声两种不同噪声。其中,添加椒盐噪声,本发明还包括有:
随机选取重构票据图片的若干个像素点,使其RGB三通道的值为白色(255,255,255),然后再随机选取重构票据图片的若干个像素点,使其RGB三通道的值为黑色(0,0,0),所述处理后的票据图片即是即添加了椒盐噪声的重构票据图片,
添加高斯噪声,本发明还包括有:
使用随机算法,产生服从(0,1)均匀分布的两个随机变量U1、U2,并据此计算服从标准高斯分布的随机变量Z0
Figure BDA0002846853890000071
然后计算随机的服从高斯分布的数值a:a=μ+σ*Z0,其中μ为均值,σ为方差,可根据实际业务需要而设置,例如本发明选择μ=0,σ=1,最后计算添加高斯噪声后的票据图片的每个像素点的三个RGB通道值:dst_gs(x,y,i)=img_d(x,y,i)+a*k,img_d(x,y,i)、dst_gs(x,y,i)分别是重构票据图片、添加高斯噪声后的票据图片的像素点(x,y)的第i个RGB通道值,i=1、2、3,分别代表三个RGB通道,系数k可以是16、32、64、128、256中的一个随机值,当k的数值越高,则噪声越强,所述添加高斯噪声后的票据图片即是添加了高斯噪声的重构票据图片。
4、文字加粗,本发明可以使用像素点位运算的方法实现对重构票据图片中的文字加粗,本发明还包括有:
步骤D1、设定重构票据图片的宽度为wide,高度为height,从重构票据图片中分别截取0到wide、1到height的区域图片img_d_1,以及0到wide、0到height-1的区域图片img_d_2;
步骤D2、将区域图片img_d_2先转化为灰度值图片,再转化成二进制图片img_d_2_mask,img_d_2_mask中每个像素点的像素值为:
Figure BDA0002846853890000081
其中,img_d_2_mask(x,y)是img_d_2_mask中像素点(x,y)的像素值,img_d_2_src(x,y)是区域图片img_d_2转化成的灰度值图片中像素点(x,y)的像素值,thresh是阈值;
步骤D3、对img_d_2_mask(x,y)按位取反,从而获得img_d_2_mask(x,y)的反码图img_d_2_mask_inv:
Figure BDA0002846853890000082
其中,img_d_2_mask_inv(x,y)是反码图img_d_2_mask_inv中像素点(x,y)的像素值;
步骤D4、将img_d_1和img_d_2_mask(x,y)按位相与,以抠出img_d_1中待填充的文字部分,获得区域图片img_d_c1:img_d_c1=img_d_1*img_d_2_mask(x,y);
步骤D5、将img_d_2和img_d_2_mask_inv按位相与,以提取img_d_2中的文字部分,获得区域图片img_d_c2:img_d_c2=img_d_2*img_d_2_mask_inv;
步骤D6、将img_d_c1和img_d_c2按位相加,从而获得文字加粗后的票据图片img_d_c:img_d_c=img_d_c1+img_d_c2,最后将img_d_c重新填回重构票据图片中区域图片img_d_1的对应区域中,即完成了对重构票据图片的文字加粗。
5、文字缺失,本发明可以实现两种文字缺失的效果:打印错误、或打印缺失,其中实现打印错误的效果,本发明包括有:
使用图像处理库方法从重构票据图片中检测出文字区域,然后随机将文字区域内的若干个像素点的像素值改变为文字区域中文字的RGB值,即完成了对重构票据图片添加文字打印错误效果,
实现打印缺失的效果,本发明包括有:
使用图像处理库方法从重构票据图片img_d中检测出文字区域,然后从检测出的文字区域中随机选择一部分区域,将重构票据图片img_d中对应于所选择区域的像素值修改为重构票据图片的背景色,从而得到像素值被修改后的票据图片img_d_q1,然后将img_d与img_d_q1根据权重weight按位相加进行融合,最终获得具有文字打印缺失效果的票据图片img_d_q:img_d_q=weight*img_d+(1-weight)*img_d_q1,weight可以根据实际业务需要而设置,所述具有文字打印缺失效果的票据图片即是添加了文字打印缺失效果的重构票据图片。
6、加水迹,本发明包括有:
步骤E1、预先收集若干不同形状的水迹图片,使用随机算法随机选取一种水迹图片,并在重构票据图片中随机选取一处能容纳该水迹图片的区域Ω;
可以按比例随机调整水迹图片为重构票据图片尺寸的1/1、1/2或1/4;
步骤E2、计算加水迹后的重构票据图片的区域Ω上每个像素点的三个RGB通道值:img_d_w_Ω(x,y,i)=img_d_Ω(x,y,i)-[260-img_w(x,y,i)],其中,img_d_Ω(x,y,i)、img_w(x,y,i)、img_d_w_Ω(x,y,i)分别是重构票据图片的区域Ω、所选择的水迹图片、加水迹后的重构票据图片的区域Ω上的像素点(x,y)的第i个RGB通道值,i=1、2、3,分别代表三个RGB通道,加水迹后的重构票据图片在Ω之外的其他区域的所有像素点的三个RGB通道值保持不变,
重构票据图片因为真实的票据图像在水迹处是非常模糊的,本身的颜色也会有所改变,难以识别水迹中的文字内容,为了更逼真地生成带水迹的票据图像,本发明还可以基于深度学习技术引入OCR图像文本识别模型,在生成模糊的水迹图像的迭代过程中计算对OCR图像文本识别模型的干扰,如果能够成功干扰到OCR图像文本识别模型的识别效果,则说明生成的水迹图像逼真有效。步骤E2还包括有:
构建OCR图像文本识别模型,将加水迹后的重构票据图片输入到OCR图像文本识别模型,然后进行反向传播,对第m次迭代输出的图像ig′m和所识别的文字内容t,获取OCR模型损失上的梯度
Figure BDA0002846853890000103
并基于梯度下降的方向迭代更新,通过应用具有小步长a的Ω约束的sign梯度来更新ig′m+1
Figure BDA0002846853890000102
当OCR图像文本识别模型的识别结果中的t与真实文本GT(t)的差异大于阈值时则停止迭代,即OCR图像文本识别模型无法识别正确的真实文本,从而得到最终的加水迹后的重构票据图片。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种基于票据模板的图片重构方法,其特征在于,包括有:
步骤一、构建、并训练一个票据文本嵌入网络,所述票据文本嵌入网络的输入是票据重构参数,输出是重构票据图片,票据文字嵌入网络的工作流程如下:从文字字典中随机获取票据模板图片上每个文本区域的填充文本,然后为每个文本区域生成一个以二进制表示、且与文本区域尺寸一致的文本掩码图片,所述文本掩码图片上填充有从文字字典中获取到的填充文本,且文本部分像素值设为1、背景部分像素值设为0,同时,按照每个文本区域的位置坐标,从票据模板图片中裁剪出每个文本区域所对应的文本背景图片,分别将每个文本区域的文本掩码图片和文本背景图片合成一个文本重构图片,最后将所有合成得到的文本重构图片按照文本区域的位置坐标再贴回票据模板图片中,处理后所得到的票据模板图片即是票据文字嵌入网络输出的重构票据图片;
步骤二、用户设定票据重构参数和重构数量,将用户设定的票据重构参数输入训练后的票据文本嵌入网络中,并按用户选择的重构数量获得票据文本嵌入网络输出的重构票据图片。
2.根据权利要求1所述的方法,其特征在于,还包括有:
基于对抗生成网络,分别构建、并训练一个合成网络和一个判别网络,其中,合成网络用于将每个文本区域的文本掩码图片和文本背景图片合成一个文本重构图片,判别网络用于计算文本重构图片属于真实图片的概率以判别真伪,其处理流程如下:先将每个文本区域的文本掩码图片和文本背景图片输入合成网络,由合成网络的卷积层对文本掩码图片和文本背景图片进行特征提取和融合,经过多步卷积和池化操作,并通过下采样和上采样提取图片深度特征,从而输出文本掩码图片和文本背景图片合成后的文本重构图片,然后再将合成网络输出的文本重构图片和文本的真实图片输入判别网络,判别网络通过卷积和池化操作,最后通过softmax层输出文本重构图片属于真实图片的概率,
步骤二中,票据文本嵌入网络采用合成网络,将每个文本区域的文本掩码图片和文本背景图片合成一个文本重构图片。
3.根据权利要求2所述的方法,其特征在于,在合成网络和判别网络的每次训练过程中,训练损失定义成交叉熵损失和深度特征差异之和,深度特征差异LF的计算公式如下:
Figure FDA0002846853880000011
S(x)是文本区域x的文本重构图片,S*(x)是文本区域x的文本真实图片,F(·)是判别网络中特征提取部分提取到的图片深度特征,D(·)是判别网络的输出。
4.根据权利要求1所述的方法,其特征在于,步骤一中的票据重构参数包括有:票据模板图片,票据模板图片上用于填充文本的文本区域的坐标位置,每个文本区域中的文字字体、字号、颜色、文字内容,
采用固定的票据模板来重构票据图片时,固定的票据模板包括:增值税发票、火车票、出租车发票、过路费发票和投票,预先对每种固定的票据模板图片分别编号,步骤二中,用户在设定票据重构参数时,输入所选择的固定票据模板图片编号,并由系统按照固定票据模板的规定标准,分别设定票据模板图片中每个文本区域的位置坐标、文字字体、字号、颜色、文字内容,
采用用户定义的新票据模板来重构票据图片时,步骤二中,用户设定的票据重构参数包括有:新增的票据模板图片、票据模板图片每个文本区域的位置坐标、每个文本区域中的文字字体、字号、颜色、文字内容。
5.根据权利要求4所述的方法,其特征在于,对于用户定义的新票据模板,当票据文字嵌入网络从文字字典中随机获取票据模板图片上每个文本区域的填充文本后,还包括有:
将每个文本区域中的所有内容组按照设定的顺序和字体信息拼接成一个填充字符串,根据每个文本区域的字号宽度w和文本区域宽度width,计算每个文本区域一行能容纳的文字数量count:count=width/w,然后从填充字符串的第一个字符开始算起,在填充字符串的每count个字符后的位置上插入一个换行符。
6.根据权利要求4所述的方法,其特征在于,对于用户定义的新票据模板,当对其中一个文本区域采用手写符号来填充时,还包括有:
步骤A1、按照填充手写符号的文本区域的位置坐标,从票据模板图片中裁剪出文本区域对应的文本背景图片bg;
步骤A2、从手写符号数据集中随机选择一张手写符号图片hw,调整其尺寸与裁剪出的文本背景图片尺寸一致,然后将该手写符号图片先转化为灰度值图片,再转化成二进制图片mask,所述二进制图片mask中的每个像素点的像素值为:
Figure DEST_PATH_BDA0002846853890000052
其中,mask(x,y)是二进制图片mask中像素点(x,y)的像素值,src(x,y)是手写符号图片转化成的灰度值图片中像素点(x,y)的像素值,thresh是阈值;
步骤A3、对mask按位取反,从而获得mask的反码图mask_inv:
Figure DEST_PATH_BDA0002846853890000053
其中,mask_inv(x,y)是反码图mask_inv中像素点(x,y)的像素值;
步骤A4、将bg和mask按位相与,从而获得手写合成图片img1:img1=bg*mask;
步骤A5、将hw和mask_inv按位相与,从而获得手写合成图片mg2:img2=hw*mask_inv;
步骤A6、将img1和img2按位相加,从而获得将手写符号填充于文本区域中的文本重构图片img_g:img_g=img1+img2,最后将获得的文本重构图片按照对应文本区域的位置坐标贴回票据模板图片中。
7.根据权利要求1所述的方法,其特征在于,还包括有:
步骤B1、预先设定若干纯色底背景色的RGB值构成背景色集,并从背景色集中选择一个背景色;
步骤B2、构建重构票据图片的每个像素点在颜色空间中的三维向量,计算每个像素点的高斯混合分布值:
Figure FDA0002846853880000032
其中,
Figure FDA0002846853880000033
是每个像素点在颜色空间中的三维向量,
Figure FDA0002846853880000034
Figure FDA0002846853880000035
对应的高斯混合分布值,i=1、2、3,代表三个RGB通道,pi是属于第i维的先验概率,其值是第i维的坐标值和三维向量中所有坐标值总和的比值;
步骤B3、分别构建A1、A2、A3三个像素点集合,并设定每个像素点集合对应的像素点的高斯混合分布值的区间范围,其中,A1和A3分别是前景像素点集合和背景像素点集合,A2是前景像素点和背景像素点的混合集合,然后按照重构票据图片中每个像素点的高斯混合分布值,将重构票据图片中的每个像素点划分到不同的集合中;
步骤B4、逐一判断A2中每个像素点的8个相邻像素点是否均属于A3,如果是,则将该像素点移动到A3中,然后继续判断A2中的下一个像素点,直至判断完A2中的所有像素点;如果否,则继续判断A2中的下一个像素点,直至判断完A2中的所有像素点;
步骤B5、逐一判断A1中每个像素点是否存在任意一个相邻像素点在A2中,如果是,则将该相邻像素点移动到A1中,然后继续判断A1中的下一个像素点,直至判断完A1中的所有像素点;如果否,则继续判断A1中的下一个像素点,直至判断完A1中的所有像素点;
步骤B6、将A2和A3中的所有像素点的RGB三通道值修改为所选择的背景色,从而完成对重构票据图片的纯色底改变。
8.根据权利要求1所述的方法,其特征在于,还包括有:
步骤C1、预先收集若干带有各种不同样式折痕的白纸图片,随机选取一种折痕图片,调整其尺寸与重构票据图片的尺寸大小一致;
步骤C2、根据重构票据图片和折痕图片的每个像素点的三个RGB通道值,计算加折痕后的票据图片的每个像素点的三个RGB通道值:dst_z(x,y,i)=img_d(x,y,i)-[255-img_z(x,y,i)],其中,img_d(x,y,i)、img_z(x,y,i)、dst_z(x,y,i)分别是重构票据图片、折痕图片、加折痕后的票据图片的像素点(x,y)的第i个RGB通道值,i=1、2、3,分别代表三个RGB通道,所述加折痕后的票据图片即是融入了折痕效果后的重构票据图片。
9.根据权利要求1所述的方法,其特征在于,还包括有:
随机选取重构票据图片的若干个像素点,使其RGB三通道的值为白色(255,255,255),然后再随机选取重构票据图片的若干个像素点,使其RGB三通道的值为黑色(0,0,0),所述处理后的票据图片即是即添加了椒盐噪声的重构票据图片,
或者,
使用随机算法,产生服从(0,1)均匀分布的两个随机变量U1、U2,并据此计算服从标准高斯分布的随机变量Z0
Figure FDA0002846853880000041
然后计算随机的服从高斯分布的数值a:a=μ+σ*Z0,其中μ为均值,σ为方差,最后计算添加高斯噪声后的票据图片的每个像素点的三个RGB通道值:dst_gs(x,y,i)=img_d(x,y,i)+a*k,img_d(x,y,i)、dst_gs(x,y,i)分别是重构票据图片、添加高斯噪声后的票据图片的像素点(x,y)的第i个RGB通道值,i=1、2、3,分别代表三个RGB通道,系数k是16、32、64、128、256中的一个随机值,所述添加高斯噪声后的票据图片即是添加了高斯噪声的重构票据图片。
10.根据权利要求1所述的方法,其特征在于,还包括有:
步骤D1、设定重构票据图片的宽度为wide,高度为height,从重构票据图片中分别截取0到wide、1到height的区域图片img_d_1,以及0到wide、0到height-1的区域图片img_d_2;
步骤D2、将区域图片img_d_2先转化为灰度值图片,再转化成二进制图片img_d_2_mask,img_d_2_mask中每个像素点的像素值为:
Figure FDA0002846853880000051
其中,img_d_2_mask(x,y)是img_d_2_mask中像素点(x,y)的像素值,img_d_2_src(x,y)是区域图片img_d_2转化成的灰度值图片中像素点(x,y)的像素值,thresh是阈值;
步骤D3、对img_d_2_mask(x,y)按位取反,从而获得img_d_2_mask(x,y)的反码图img_d_2_mask_inv:
Figure DEST_PATH_BDA0002846853890000082
其中,img_d_2_mask_inv(x,y)是反码图img_d_2_mask_inv中像素点(x,y)的像素值;
步骤D4、将img_d_1和img_d_2_mask(x,y)按位相与,获得区域图片img_d_c1:img_d_c1=img_d_1*img_d_2_mask(x,y);
步骤D5、将img_d_2和img_d_2_mask_inv按位相与,获得区域图片img_d_c2:img_d_c2=img_d_2*img_d_2_mask_inv;
步骤D6、将img_d_c1和img_d_c2按位相加,从而获得文字加粗后的票据图片img_d_:img_d_c=img_d_c1+img_d_c2,最后将img_d_c重新填回重构票据图片中区域图片img_d_1的对应区域中,即完成了对重构票据图片的文字加粗。
11.根据权利要求1所述的方法,其特征在于,还包括有:
使用图像处理库方法从重构票据图片中检测出文字区域,然后随机将文字区域内的若干个像素点的像素值改变为文字区域中文字的RGB值,即完成了对重构票据图片添加文字打印错误效果,
或者,
使用图像处理库方法从重构票据图片img_d中检测出文字区域,然后从检测出的文字区域中随机选择一部分区域,将重构票据图片img_d中对应于所选择区域的像素值修改为重构票据图片的背景色,从而得到像素值被修改后的票据图片img_d_q1,然后将img_d与img_d_q1根据权重weight按位相加,最终获得具有文字打印缺失效果的票据图片img_d_q:img_d_q=weight*img_d+(1-weight)*img_d_q1,所述具有文字打印缺失效果的票据图片即是添加了文字打印缺失效果的重构票据图片。
12.根据权利要求1所述的方法,其特征在于,还包括有:
步骤E1、预先收集若干不同形状的水迹图片,使用随机算法随机选取一种水迹图片,并在重构票据图片中随机选取一处能容纳该水迹图片的区域Ω;
步骤E2、计算加水迹后的重构票据图片的区域Ω上每个像素点的三个RGB通道值:img_d_w_Ω(x,y,i)=img_d_Ω(x,y,i)-[260-img_w(x,y,i)],其中,img_d_Ω(x,y,i)、img_w(x,y,i)、img_d_w_Ω(x,y,i)分别是重构票据图片的区域Ω、所选择的水迹图片、加水迹后的重构票据图片的区域Ω上的像素点(x,y)的第i个RGB通道值,i=1、2、3,分别代表三个RGB通道,加水迹后的重构票据图片在Ω之外的其他区域的所有像素点的三个RGB通道值保持不变,
步骤E2还包括有:
构建OCR图像文本识别模型,将加水迹后的重构票据图片输入至OCR图像文本识别模型,然后进行反向传播,对第m次迭代输出的图像ig′m和所识别的文字内容t,获取OCR模型损失上的梯度
Figure FDA0002846853880000071
并基于梯度下降的方向迭代更新,通过应用具有小步长α的Ω约束的sign梯度来更新ig′m+1
Figure FDA0002846853880000072
当OCR图像文本识别模型的识别结果中的t与真实文本GT(t)的差异大于阈值时则停止迭代,从而得到最终的加水迹后的重构票据图片。
CN202011512526.XA 2020-12-19 2020-12-19 一种基于票据模板的图片重构方法 Pending CN112529989A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011512526.XA CN112529989A (zh) 2020-12-19 2020-12-19 一种基于票据模板的图片重构方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011512526.XA CN112529989A (zh) 2020-12-19 2020-12-19 一种基于票据模板的图片重构方法

Publications (1)

Publication Number Publication Date
CN112529989A true CN112529989A (zh) 2021-03-19

Family

ID=75001745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011512526.XA Pending CN112529989A (zh) 2020-12-19 2020-12-19 一种基于票据模板的图片重构方法

Country Status (1)

Country Link
CN (1) CN112529989A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113012265A (zh) * 2021-04-22 2021-06-22 中国平安人寿保险股份有限公司 针式打印字符图像生成方法、装置、计算机设备和介质
CN113159008A (zh) * 2021-06-25 2021-07-23 湖南星汉数智科技有限公司 客票行程单构建方法、装置、计算机设备和存储介质
WO2024027827A1 (zh) * 2022-08-05 2024-02-08 福建福昕软件开发股份有限公司 一种将手写表单数据录入到pdf电子表单的方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113012265A (zh) * 2021-04-22 2021-06-22 中国平安人寿保险股份有限公司 针式打印字符图像生成方法、装置、计算机设备和介质
CN113012265B (zh) * 2021-04-22 2024-04-30 中国平安人寿保险股份有限公司 针式打印字符图像生成方法、装置、计算机设备和介质
CN113159008A (zh) * 2021-06-25 2021-07-23 湖南星汉数智科技有限公司 客票行程单构建方法、装置、计算机设备和存储介质
WO2024027827A1 (zh) * 2022-08-05 2024-02-08 福建福昕软件开发股份有限公司 一种将手写表单数据录入到pdf电子表单的方法

Similar Documents

Publication Publication Date Title
CN109190722B (zh) 基于满文字符图片的字体风格迁移变换方法
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
CN112529989A (zh) 一种基于票据模板的图片重构方法
JP3822277B2 (ja) 文字テンプレートセット学習マシン動作方法
CN103049763B (zh) 一种基于上下文约束的目标识别方法
CN107274345A (zh) 一种中文打印字符图像合成方法及装置
CN109635883A (zh) 基于深度堆叠网络的结构信息指导的中文字库生成方法
CN111242024A (zh) 基于机器学习识别图纸内图例及文字的方法及系统
CN106384094A (zh) 一种基于书写风格建模的中文字库自动生成方法
Krishnan et al. Textstylebrush: transfer of text aesthetics from a single example
CN111860525B (zh) 一种适用于端子排的自底向上光学字符识别方法
CN113673338B (zh) 自然场景文本图像字符像素弱监督自动标注方法、系统及介质
CN111523622B (zh) 基于特征图像自学习的机械臂模拟手写笔迹方法
CN113076900B (zh) 基于深度学习的试卷卷头学生信息自动检测方法
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及系统
CN113421318B (zh) 一种基于多任务生成对抗网络的字体风格迁移方法和系统
CN105117741A (zh) 一种书法字风格的识别方法
CN114119949A (zh) 一种增强文本合成图像的生成方法和系统
CN113592735A (zh) 文本页面图像还原方法及系统、电子设备和计算机可读介质
CN114419632A (zh) 一种ocr训练样本生成方法、装置及系统
CN114550189A (zh) 票据识别方法、装置、设备、计算机存储介质和程序产品
CN110766001B (zh) 基于cnn和rnn的银行卡卡号定位与端到端识别方法
CN112200158B (zh) 训练数据生成方法及系统
CN115331236A (zh) 一种手写整行样本的生成方法和装置
CN115457555A (zh) 通用场景文字识别数据的自动生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 310013 4th floor, No.398 Wensan Road, Xihu District, Hangzhou City, Zhejiang Province

Applicant after: Xinxun Digital Technology (Hangzhou) Co.,Ltd.

Address before: 310013 4th floor, No.398 Wensan Road, Xihu District, Hangzhou City, Zhejiang Province

Applicant before: EB Information Technology Ltd.