CN113657377B - 一种机打票据图像结构化识别方法 - Google Patents
一种机打票据图像结构化识别方法 Download PDFInfo
- Publication number
- CN113657377B CN113657377B CN202110832336.4A CN202110832336A CN113657377B CN 113657377 B CN113657377 B CN 113657377B CN 202110832336 A CN202110832336 A CN 202110832336A CN 113657377 B CN113657377 B CN 113657377B
- Authority
- CN
- China
- Prior art keywords
- model
- image
- text
- training
- bill
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 110
- 238000001514 detection method Methods 0.000 claims abstract description 28
- 238000013526 transfer learning Methods 0.000 claims abstract description 11
- 238000002372 labelling Methods 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 12
- 102100032202 Cornulin Human genes 0.000 claims description 10
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000003702 image correction Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims 2
- 238000003379 elimination reaction Methods 0.000 claims 2
- 238000000605 extraction Methods 0.000 abstract description 2
- 238000004519 manufacturing process Methods 0.000 abstract 1
- 238000009826 distribution Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000003203 everyday effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
本发明公开了一种机打票据图像结构化识别方法,采集某一类机打票据的多张图像,通过手工标注票据中的文本框坐标及其内容,保存为标注文件;制作成文本检测训练集A,文本识别训练集B,同时采集公开文本识别训练集C;通过训练集A、B,分别训练机打票据的文本检测F1模型、文本识别F2模型;建立单字符切割F5模型,该方法无需专门的拍摄和图像扫描设备、不要求拍摄绝对水平,基于普通相机拍摄的机打票据照片即可进行结构化提取。对发票中的印章可以通过自编码器的方式进行消除。使用迁移学习的字符识别网络在达到同样准确率的情况下,可以减少票据数据的标注工作。
Description
技术领域
本发明属于图像识别技术领域,涉及一种机打票据图像结构化识别方法。
背景技术
机打票据图像在日常生活中普遍存在。对于公司和政府部门来说,每天都有大量的票据信息采集和处理工作,传统的人手工录入信息效率低下且人力成本高昂,当前已有的文本OCR 方案无法去除票据中的印章,常常造成识别率降低。此外票据识别神经网络的训练需要大量的标记数据,成本高昂。
现有技术方案包括:第一种为逐行识别:对文本图像进行扫描变成黑白的灰度图像,对图像进行二值化操作将背景杂色去掉,只保留文本成纯黑色。在水平方向进行投影,处于同一行的文本投影后在y轴方向会处于同一个高度范围,通过投影可以将多个文本行分开,逐行检测到文本行。然后对每一个文本行的字符进行切分,最后进行识别。要求图像平整和水平,同时这种方法无法区分关键字、信息。第二种为通过深度卷积神经网络进行文本检测:对发票中的图像进行文本检测,现有的很多深度卷积神经网络都可以检测到发票中的文本并框选出来,最后再对框中的文本内容进行识别。
但是存在较大缺陷,具体为:对于逐行识别方案:仅仅按照逐行识别,一方面难以获取到发票的结构,另一方面由于票据中有很多的表格框线,票据内容也并非呈现规则的多行文本规则排列,难以进行准确的文本行检测。对于深度卷积神经网络检测文本的方案:仅仅检测文本和识别文本,并不能确定此文本属于什么内容。例如检测出两个金额,并不能知道哪一个是定金,哪一个是税费。若印章中有文字出现,常常无法正确检测和识别。
发明内容
本发明的目的在于:提供了一种机打票据图像结构化识别方法,解决了现有技术的不足。
本发明采用的技术方案如下:
一种机打票据图像结构化识别方法,包括以下步骤:
步骤1、采集某一类机打票据的多张图像,通过手工标注票据中的文本框坐标及其内容,保存为标注文件;
步骤2、从步骤1的标注文件,结合文本检测及识别的公开数据集,制作成文本检测训练集A,文本识别训练集B,同时采集公开文本识别训练集C;
步骤3、通过训练集A、B,分别训练机打票据的文本检测F1模型、文本识别F2模型,其中F2模型包括两个模型:一个为F2-1模型、识别单个字符的图像,一个为F2-2模型、识别连续字符的图像;
步骤4、建立单字符切割F5模型,
首先当获取到某行文本所在的框,将这个框所在的坐标截取为图像,对图像进行去噪音和二值化操作;二值化后图像变为黑白图像,黑色为1值白色为0值,从上往下对图像进行投影,通过投影边界切割单字符;通过制作标准票据模板M1结合透视投影算法,建立票据图像矫正F4模型;
步骤5、模型建立完成后,读取单张机打票据图像P1,输入到文本检测F1模型,模型F1自动将图像P1中的多个文本行检测出来;
步骤6、对步骤5中检测到的多个文本行,在左上、左下、右上、右下四个角落,对其中字符串使用模型F5进行单字符切割,同时保存每个单字符的坐标;使用模型F2-1识别每个单字符,识别结果组成字符串;4个角落的字符串识别结果LF、LD、RF、RD;
步骤7、对4个角落的识别结果分别使用票据标准模板M1进行匹配,票据标准模板M1 中保存了四个角落的关键字及其坐标,使用LU-M、LB-M、RU-M、RB-M与LU、LB、RU、RB分别进行匹配,在每一个角落中确定一个文本行LU-1,LB-1,RU-1,RB-1用于矫正;
步骤8、在步骤7得到了4个角落一共四行文本LU-1,LB-1,RU-1,RB-1,且保存了其中每个单字符的坐标,在步骤7中已知LF-M、LD-M、RF-M、RD-M关键字的单字坐标;因此推算出四组坐标一一对应的组合(LU-1、LU-M)(LB-1、LB-M)、(RU-1、RU-M)、(RB-1、 RB-M);
将这四组坐标输入到模型F4矫正,得到和票据标准模板M1相同标准票据尺寸的标准图像P2;
步骤9、票据标准模板M1中有每个一一对应的KV结构的所处的矩形框坐标Loc,对于标准图像P2,使用模块F1检测出其中的文本行框,然后取所有Loc和所有文本行框的交集,得初始KV结构的文本框;
步骤10、将步骤9中得到的文本框输入到模型F3中,通过自编码器对带有印章的图像先编码再解码,消除图像中的印章部分,重构图像,以达到消除印章的目的,得到最终KV结构的文本框;
步骤11、将步骤10中得到的最终KV结构的文本框依次使用模型F2-2进行字符串识别,得到票据结构化识别结果。
进一步地,所述步骤8中模型F4的票据矫正过程如下:
通过匹配4组点,原图中4个点,对应模板中4个点,计算原图到模板标准图的透视矩阵A,原图通过乘以这个透视矩阵A便可以矫正为平整水平且和模板同一尺寸的标准图像;
其中透视投影算法公式如下:
其中(u,v)是之前的原始图像坐标,透视变换矩阵为A;通过透视投影得到的转换后的坐标是(x,y),由下列公式计算:
通过4组坐标二元组[(u,v),(x,y)]就可以计算出8个未知数axx,得到透视矩阵A,其中 (u,v)是原图中的坐标,(x,y)是模板中的对应坐标。
进一步地,所述步骤2中的文本检测训练集A为多张图像标注出其中含有文本的矩形框区域,文本识别训练集B分为两个训练集,B1为单个字符的二值化图像标注出其对应的单个字符内容,B2为单行连续字符的图像标注出其对应的连续字符串内容。
进一步地,所述模型F1的训练过程为:
使用步骤2建立的训练集A训练CTPN网络模型;
训练CTPN深度学习网络模型,反复迭代直至该模型参数权重最优;
根据最佳参数权重保存、建立文本检测模型F1;
所述模型F2-1的训练过程为:
使用大量单字符训练集B1训练Lenet卷积神经网络模型;
反复迭代直到该模型参数权重最优,最终建立单字符文本检测模型F2-1;
所述模型F2-2的训练过程为:
使用公开文本识别训练集C作为源数据集,将训练集B2作为目标数据;
反复迭代训练迁移学习CRNN模型,模型数据基于迁移学习方法;
迁移学习训练结束后,保留网络已训练好的权重,删除全连接层和特征匹配损失模块,网络重新转变为原CRNN网络;再使用训练集B2的标签,进行全监督训练,直至模型收敛、训练结束,最终建立多字符文本检测模型F2-2。
进一步地,所述模型F3的训练过程为:使用训练集B2,在其图像上通过脚本程序添加随机印章,制作印章数据集B3,迭代训练自编码器模型F3,直到该模型收敛。
进一步地,所述自编码器的编码过程具体如下:
假定一个特征图经过卷积或神经网络层的操作为函数f,输入为x,输出为f′,则通常 f′-f(x)-w·x+b,其中w是神经元的权重参数,b为偏置值;假定经过3层神经网络层处理,分别为函数f、g、k,则:
f′=f(x)
g′=g(f′)
y′-k(g′)
loss=criterion(y,y′)
损失函数cost对f的导数为:假定经过f、g、k三层神经网络层统称为函数F,则原函数为y′=F(x),加入跳跃连接后为y′-F(x)+x;通过跳跃连接,将在每一个偏导后加入恒等项1;
如:即使反向传播导数dF/dx很小,仍能够有效的进行反向传播更新网络;加入x也能尽可能的保留低纬度的信息,避免编码解码过程损失信息过多;
训练中,在训练集B2中加入印章图像得到训练集B3作为输入x,不含有印章的训练集 B2作为y,x经过自编码器处理后的输出为y′;通过计算y′与y之间的损失值进行神经网络的反向传播,使自编码器学习去除印章。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
该方法无需专门的拍摄和图像扫描设备、不要求拍摄绝对水平,基于普通相机拍摄的机打票据照片即可进行结构化提取。对发票中的印章可以通过自编码器的方式进行消除。使用迁移学习的字符识别网络在达到同样准确率的情况下,可以减少票据数据的标注工作。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图,其中:
图1是机打票据结构化识别流程图;
图2是模型F2-2基于迁移学习的CRNN训练网络;
图3是模型F3的自编码器去印章网络结构示意图;
图4是发票矫正结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
下面结合实施例对本发明的特征和性能作进一步的详细描述。
实施例一
如图1所示:一种机打票据图像结构化识别方法,包括以下步骤:
步骤1、采集某一类机打票据的多张图像,通过手工标注票据中的文本框坐标及其内容,保存为标注文件;
步骤2、从步骤1的标注文件,结合文本检测及识别的公开数据集,制作成文本检测训练集A,文本识别训练集B,同时采集公开文本识别训练集C;
步骤3、通过训练集A、B,分别训练机打票据的文本检测F1模型、文本识别F2模型,其中F2模型包括两个模型:一个为F2-1模型、识别单个字符的图像,一个为F2-2模型、识别连续字符的图像;
步骤4、组合二值化、投影法、先验经验,建立单字符切割F5模型,
首先当获取到某行文本所在的框,将这个框所在的坐标截取为图像,对图像进行去噪音和二值化操作;二值化后图像变为黑白图像,黑色为1值白色为0值,从上往下对图像进行投影(竖直方向上统计1值的个数),通过投影边界切割单字符;通过制作标准票据模板M1 结合透视投影算法,建立票据图像矫正F4模型;
步骤5、模型建立完成后,读取单张机打票据图像P1,输入到文本检测F1模型,模型F1自动将图像P1中的多个文本行检测出来;
步骤6、对步骤5中检测到的多个文本行,在左上、左下、右上、右下四个角落,对其中字符串使用模型F5进行单字符切割,同时保存每个单字符的坐标;使用模型F2-1识别每个单字符,识别结果组成字符串;4个角落的字符串识别结果LF、LD、RF、RD;
步骤7、对4个角落的识别结果分别使用票据标准模板M1进行匹配,票据标准模板M1 中保存了四个角落的关键字及其坐标,由于同一种票据中的关键字都是恒定不变的,因此使用LU-M、LB-M、RU-M、RB-M与LU、LB、RU、RB分别进行匹配,在每一个角落中确定一个文本行LU-1,LB-1,RU-1,RB-1用于矫正;
步骤8、在步骤7得到了4个角落一共四行文本LU-1,LB-1,RU-1,RB-1,且保存了其中每个单字符的坐标,在步骤7中已知LF-M、LD-M、RF-M、RD-M关键字的单字坐标;因此推算出四组坐标一一对应的组合(LU-1、LU-M)(LB-1、LB-M)、(RU-1、RU-M)、(RB-1、 RB-M);
将这四组坐标输入到模型F4矫正,得到和票据标准模板M1相同标准票据尺寸的标准图像P2;
步骤9、票据标准模板M1中有每个一一对应的KV结构的所处的矩形框坐标Loc,对于标准图像P2,使用模块F1检测出其中的文本行框,然后取所有Loc和所有文本行框的交集,得初始KV结构的文本框;
步骤10、将步骤9中得到的文本框输入到模型F3中,通过自编码器对带有印章的图像先编码再解码,消除图像中的印章部分,重构图像,以达到消除印章的目的,得到最终KV结构的文本框;
步骤11、将步骤10中得到的最终KV结构的文本框依次使用模型F2-2进行字符串识别,得到票据结构化识别结果。
其中,机打票据中含有大量的表格框线,关键字(简称K)和对应信息(简称V)(例如‘姓名’:‘王二’)的一一对应结构简称KV结构。
实施例二
本实施例在实施例一的基础上,
进一步地,步骤8中模型F4的票据矫正过程如下:
通过匹配4组点,原图中4个点,对应模板中4个点,计算原图到模板标准图的透视矩阵A,原图通过乘以这个透视矩阵A便可以矫正为平整水平且和模板同一尺寸的标准图像;
其中透视投影算法公式如下:
其中(u,v)是之前的原始图像坐标,透视变换矩阵为A;通过透视投影得到的转换后的坐标是(x,y),由下列公式计算:
通过4组坐标二元组[(u,v),(x,y)]就可以计算出8个未知数axx,得到透视矩阵A,其中 (u,v)是原图中的坐标,(x,y)是模板中的对应坐标。
进一步地,所述步骤2中的文本检测训练集A为多张图像标注出其中含有文本的矩形框区域,文本识别训练集B分为两个训练集,B1为单个字符的二值化图像标注出其对应的单个字符内容,B2为单行连续字符的图像标注出其对应的连续字符串内容。
进一步地,所述模型F1的训练过程为:
使用步骤2建立的训练集A训练CTPN网络模型;
训练CTPN深度学习网络模型,反复迭代直至该模型参数权重最优;
根据最佳参数权重保存、建立文本检测模型F1;
所述模型F2-1的训练过程为:
使用大量单字符训练集B1训练Lenet卷积神经网络模型;
反复迭代直到该模型参数权重最优,最终建立单字符文本检测模型F2-1;
所述模型F2-2的训练过程为:
使用公开文本识别训练集C作为源数据集,将训练集B2作为目标数据;
反复迭代训练迁移学习CRNN模型,模型数据基于迁移学习方法;
迁移学习训练结束后,保留网络已训练好的权重,删除全连接层和特征匹配损失模块,网络重新转变为原CRNN网络;再使用训练集B2的标签,进行全监督训练,直至模型收敛、训练结束,最终建立多字符文本检测模型F2-2。
其中:迁移学习方法原理为:
将训练集C作为源数据集,训练集B2作为目标数据。先进行迁移学习训练,训练集C含有标签,可以计算出CRNN的损失输出,训练集B2暂时不使用标签,和训练集C计算特征匹配损失。
特征匹配损失描述了两个训练集之间的相似程度,用于对齐两个不同训练集中相似的特征部分。源数据集和目标数据的在对应的特征下的表示为两个不同分布,计算特征使得两个分布的距离尽量小,就可以对齐特征。
特征匹配损失计算公式描述如下:
其中t代表源数据集C,s代表目标数据B2,Pt代表源数据集经过卷积网络得到的特征的分布,对应的,Ps代表目标数据得到的特征分布。d(t,s)代表l范数距离如||t-s||1、 ||t-s||2。r(t,s)代表t和s的联合分布,其边缘分布即为原来的Pt、Ps。
C、B2数据集实际计算经过卷积层4后得到的特征图展平后,送入全连接层,得到相同尺寸的神经元向量Vs、Vt,假定向量长度为lv,单位神经元的值为si、ti,使用第一范数距离。则对应的离散特征匹配损失等同于:
通过计算两个分布之间的距离和原CRNN损失输出,使得卷积层的权重更新时同时学习到C和B2数据集的特征。
通过迁移学习过程,可以将训练C的信息和知识迁移到针对训练集B2的训练中,使用相比于直接训练CRNN网络,能减少训练集B2的数据量的要求,降低数据标注成本。
实施例三
进一步地,所述模型F3的训练过程为:使用训练集B2,在其图像上通过脚本程序添加随机印章,制作印章数据集B3,迭代训练自编码器模型F3,直到该模型收敛。所述自编码器的编码过程具体如下:自编码器部分分为Encoder和Decoder两部分,Encoder为编码器,主要负责将图像进行卷积和池化操作,提取图像中的主要特征,将图像映射到高维空间,如图四中的蓝色部分。Decoder部分为解码器,负责将高维空间中的图像特征经过反卷积操作映射回普通图像,如图四中的橙色部分。同时,为了保留图像的浅层特征,避免编码和解码中损失过多信息,在不同深度的特征图之间使用跳跃连接相连,其公式描述如下:
假定一个特征图经过卷积或神经网络层的操作为函数f,输入为x,输出为f′,则通常 f′=f(x)=w·x+b,其中w是神经元的权重参数,b为偏置值;假定经过3层神经网络层处理,分别为函数f、g、k,则:
f′=f(x)
g′=g(f′)
y′-k(g′)
loss=criterion(y,y′)
损失函数cost对f的导数为:假定经过f、g、k三层神经网络层统称为函数F,则原函数为y′=F(x),加入跳跃连接后为y′-F(x)+x;通过跳跃连接,将在每一个偏导后加入恒等项1;
如:即使反向传播导数dF/dx很小,仍能够有效的进行反向传播更新网络;加入x也能尽可能的保留低纬度的信息,避免编码解码过程损失信息过多;
训练中,在训练集B2中加入印章图像得到训练集B3作为输入x,不含有印章的训练集 B2作为y,x经过自编码器处理后的输出为y′;通过计算y′与y之间的损失值进行神经网络的反向传播,使自编码器学习去除印章。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明的保护范围,任何熟悉本领域的技术人员在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种机打票据图像结构化识别方法,其特征在于:包括以下步骤:
步骤1、采集某一类机打票据的多张图像,通过手工标注票据中的文本框坐标及其内容,保存为标注文件;
步骤2、从步骤1的标注文件,结合文本检测及识别的公开数据集,制作成文本检测训练集A,文本识别训练集B,同时采集公开文本识别训练集C;
步骤3、通过训练集A、B,分别训练机打票据的文本检测F1模型、文本识别F2模型,其中F2模型包括两个模型:一个为F2-1模型、识别单个字符的图像,一个为F2-2模型、识别连续字符的图像;
步骤4、组合二值化、投影法、先验经验,建立单字符切割F5模型,
首先当获取到某行文本所在的框,将这个框所在的坐标截取为图像,对图像进行去噪音和二值化操作;二值化后图像变为黑白图像,黑色为1值白色为0值,从上往下对图像进行投影,通过投影边界切割单字符;通过制作标准票据模板M1结合透视投影算法,建立票据图像矫正F4模型;
步骤5、模型建立完成后,读取单张机打票据图像P1,输入到文本检测F1模型,模型F1自动将图像P1中的多个文本行检测出来;
步骤6、对步骤5中检测到的多个文本行,在左上、左下、右上、右下四个角落,对其中字符串使用模型F5进行单字符切割,同时保存每个单字符的坐标;使用模型F2-1识别每个单字符,识别结果组成字符串;4个角落的字符串识别结果LU、LB、RU、RB;
步骤7、对4个角落的识别结果分别使用票据标准模板M1进行匹配,票据标准模板M1中保存了四个角落的关键字及其坐标,使用LU-M、LB-M、RU-M、RB-M与LU、LB、RU、RB分别进行匹配,在每一个角落中确定一个文本行LU-1,LB-1,RU-1,RB-1用于矫正;
步骤8、在步骤7得到了4个角落一共四行文本LU-1,LB-1,RU-1,RB-1,且保存了其中每个单字符的坐标,在步骤7中已知LU-M、LB-M、RU-M、RB-M关键字的单字坐标;因此推算出四组坐标一一对应的组合(LU-1、LU-M)(LB-1、LB-M)、(RU-1、RU-M)、(RB-1、RB-M);
将这四组坐标输入到模型F4矫正,得到和票据标准模板M1相同标准票据尺寸的标准图像P2;
步骤9、票据标准模板M1中有每个一一对应的KV结构的所处的矩形框坐标Loc,对于标准图像P2,使用模块F1检测出其中的文本行框,然后取所有Loc和所有文本行框的交集,得初始KV结构的文本框;
步骤10、将步骤9中得到的文本框输入到印章消除模型F3中,通过自编码器对带有印章的图像先编码再解码,消除图像中的印章部分,重构图像,以达到消除印章的目的,得到最终KV结构的文本框;
步骤11、将步骤10中得到的最终KV结构的文本框依次使用模型F2-2进行字符串识别,得到票据结构化识别结果。
2.根据权利要求1所述的一种机打票据图像结构化识别方法,其特征在于:所述步骤8中模型F4的票据矫正过程如下:
通过匹配4组点,原图中4个点,对应模板中4个点,计算原图到模板标准图的透视矩阵A,原图通过乘以这个透视矩阵A便可以矫正为平整水平且和模板同一尺寸的标准图像;
其中透视投影算法公式如下:
其中(u,v)是之前的原始图像坐标,透视变换矩阵为A;通过透视投影得到的转换后的坐标是(x,y),由下列公式计算:
通过4组坐标二元组[(u,v),(x,y)]就可以计算出8个未知数,得到透视矩阵A,其中(u,v)是原图中的坐标,(x,y)是模板中的对应坐标。
3.根据权利要求1所述的一种机打票据图像结构化识别方法,其特征在于:所述步骤2中的文本检测训练集A为多张图像标注出其中含有文本的矩形框区域,文本识别训练集B分为两个训练集,B1为单个字符的二值化图像标注出其对应的单个字符内容,B2为单行连续字符的图像标注出其对应的连续字符串内容。
4.根据权利要求3所述的一种机打票据图像结构化识别方法,其特征在于:
所述模型F1的训练过程为:
使用步骤2建立的训练集A训练CTPN网络模型;
训练CTPN深度学习网络模型,反复迭代直至该模型参数权重最优;
根据最佳参数权重保存、建立文本检测模型F1;
所述模型F2-1的训练过程为:
使用大量单字符训练集B1训练Lenet卷积神经网络模型;
反复迭代直到该模型参数权重最优,最终建立单字符文本检测模型F2-1;
所述模型F2-2的训练过程为:
使用公开文本识别训练集C作为源数据集,将训练集B2作为目标数据;
反复迭代训练迁移学习CRNN模型,模型数据基于迁移学习方法;
迁移学习训练结束后,保留网络已训练好的权重,删除全连接层和特征匹配损失模块,网络重新转变为原CRNN网络;再使用训练集B2的标签,进行全监督训练,直至模型收敛、训练结束,最终建立多字符文本检测模型F2-2。
5.根据权利要求3所述的一种机打票据图像结构化识别方法,其特征在于:所述印章消除模型F3的训练过程为:使用训练集B2,在其图像上通过脚本程序添加随机印章,制作印章数据集B3,迭代训练自编码器模型F3,直到该模型收敛。
6.根据权利要求5所述的一种机打票据图像结构化识别方法,其特征在于:所述自编码器的编码过程具体如下:
假定一个特征图经过卷积或神经网络层的操作为函数f,输入为x,输出为,则,其中w是神经元的权重参数,b为偏置值;假定经过3层神经网络层处理,分别为函数f、g、k,则:
损失函数loss对f的导数为:、假定经过f、g、k三层神经网络层统称为函数F,则原函数为/>,加入跳跃连接后为/>;通过跳跃连接,将在每一个偏导后加入恒等项1;
如:即使反向传播导数dF/dx很小,仍能够有效的进行反向传播更新网络;加入x也保留低纬度的信息,避免编码解码过程损失信息过多;
训练中,在训练集B2中加入印章图像得到训练集B3作为输入x,不含有印章的训练集B2作为y,x经过自编码器处理后的输出为;通过计算/>与y之间的损失值进行神经网络的反向传播,使自编码器学习去除印章。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110832336.4A CN113657377B (zh) | 2021-07-22 | 2021-07-22 | 一种机打票据图像结构化识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110832336.4A CN113657377B (zh) | 2021-07-22 | 2021-07-22 | 一种机打票据图像结构化识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657377A CN113657377A (zh) | 2021-11-16 |
CN113657377B true CN113657377B (zh) | 2023-11-14 |
Family
ID=78477698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110832336.4A Active CN113657377B (zh) | 2021-07-22 | 2021-07-22 | 一种机打票据图像结构化识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657377B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114792422B (zh) * | 2022-05-16 | 2023-12-12 | 合肥优尔电子科技有限公司 | 一种基于增强透视的光学文字识别方法 |
CN115497114B (zh) * | 2022-11-18 | 2024-03-12 | 中国烟草总公司四川省公司 | 一种卷烟物流收货票据的结构化信息提取方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102780762A (zh) * | 2012-06-28 | 2012-11-14 | 浪潮(山东)电子信息有限公司 | 一种建立银行网点云服务系统的方法 |
CN109284758A (zh) * | 2018-09-29 | 2019-01-29 | 武汉工程大学 | 一种发票印章消除方法、装置和计算机存储介质 |
WO2019174130A1 (zh) * | 2018-03-14 | 2019-09-19 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN110569832A (zh) * | 2018-11-14 | 2019-12-13 | 安徽艾睿思智能科技有限公司 | 基于深度学习注意力机制的文本实时定位识别方法 |
CN110647829A (zh) * | 2019-09-12 | 2020-01-03 | 全球能源互联网研究院有限公司 | 一种票据的文本识别方法及系统 |
CN110728307A (zh) * | 2019-09-20 | 2020-01-24 | 天津大学 | 自生成数据集与标签实现x光影像图小样本字符识别方法 |
CN111476109A (zh) * | 2020-03-18 | 2020-07-31 | 深圳中兴网信科技有限公司 | 票据处理方法、票据处理装置和计算机可读存储介质 |
CN111709339A (zh) * | 2020-06-09 | 2020-09-25 | 北京百度网讯科技有限公司 | 一种票据图像识别方法、装置、设备及存储介质 |
CN112329779A (zh) * | 2020-11-02 | 2021-02-05 | 平安科技(深圳)有限公司 | 一种基于mask提高证件识别准确率的方法和相关装置 |
CN112818951A (zh) * | 2021-03-11 | 2021-05-18 | 南京大学 | 一种票证识别的方法 |
CN113033534A (zh) * | 2021-03-10 | 2021-06-25 | 北京百度网讯科技有限公司 | 建立票据类型识别模型与识别票据类型的方法、装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8261180B2 (en) * | 2009-04-28 | 2012-09-04 | Lexmark International, Inc. | Automatic forms processing systems and methods |
CN105631393A (zh) * | 2014-11-06 | 2016-06-01 | 阿里巴巴集团控股有限公司 | 信息识别方法及装置 |
-
2021
- 2021-07-22 CN CN202110832336.4A patent/CN113657377B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102780762A (zh) * | 2012-06-28 | 2012-11-14 | 浪潮(山东)电子信息有限公司 | 一种建立银行网点云服务系统的方法 |
WO2019174130A1 (zh) * | 2018-03-14 | 2019-09-19 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN109284758A (zh) * | 2018-09-29 | 2019-01-29 | 武汉工程大学 | 一种发票印章消除方法、装置和计算机存储介质 |
CN110569832A (zh) * | 2018-11-14 | 2019-12-13 | 安徽艾睿思智能科技有限公司 | 基于深度学习注意力机制的文本实时定位识别方法 |
CN110647829A (zh) * | 2019-09-12 | 2020-01-03 | 全球能源互联网研究院有限公司 | 一种票据的文本识别方法及系统 |
CN110728307A (zh) * | 2019-09-20 | 2020-01-24 | 天津大学 | 自生成数据集与标签实现x光影像图小样本字符识别方法 |
CN111476109A (zh) * | 2020-03-18 | 2020-07-31 | 深圳中兴网信科技有限公司 | 票据处理方法、票据处理装置和计算机可读存储介质 |
CN111709339A (zh) * | 2020-06-09 | 2020-09-25 | 北京百度网讯科技有限公司 | 一种票据图像识别方法、装置、设备及存储介质 |
CN112329779A (zh) * | 2020-11-02 | 2021-02-05 | 平安科技(深圳)有限公司 | 一种基于mask提高证件识别准确率的方法和相关装置 |
CN113033534A (zh) * | 2021-03-10 | 2021-06-25 | 北京百度网讯科技有限公司 | 建立票据类型识别模型与识别票据类型的方法、装置 |
CN112818951A (zh) * | 2021-03-11 | 2021-05-18 | 南京大学 | 一种票证识别的方法 |
Non-Patent Citations (3)
Title |
---|
Template Matching-Based Method for Intelligent Invoice Information Identification;Yingyi Sun等;《IEEE Access》(第99期);第1-9页 * |
基于机器视觉的车票票面信息识别系统研究;许亚杰;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》(第7期);第C033-119页 * |
基于深度神经网络的印刷体文字识别;刘荟悦;《中国优秀硕士学位论文全文数据库 信息科技辑》(第10期);第I138-35页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113657377A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325203B (zh) | 一种基于图像校正的美式车牌识别方法及系统 | |
CN111814722B (zh) | 一种图像中的表格识别方法、装置、电子设备及存储介质 | |
CN109657665B (zh) | 一种基于深度学习的发票批量自动识别系统 | |
TW389865B (en) | System and method for automated interpretation of input expressions using novel a posteriori probability measures and optimally trained information processing network | |
CN112651289B (zh) | 一种增值税普通发票智能识别与校验系统及其方法 | |
CN111626146B (zh) | 一种基于模板匹配的合并单元格表格分割识别方法 | |
CN113657377B (zh) | 一种机打票据图像结构化识别方法 | |
CN112052852B (zh) | 一种基于深度学习的手写气象档案资料的字符识别方法 | |
JP2004139484A (ja) | 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム | |
CN110647795A (zh) | 一种表格识别方法 | |
CN112949338A (zh) | 深度学习与Hough变换结合的二维条码精确定位方法 | |
CN111652273B (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
CN111626292B (zh) | 一种基于深度学习技术的楼宇指示标识的文字识别方法 | |
CN111523622B (zh) | 基于特征图像自学习的机械臂模拟手写笔迹方法 | |
Tardón et al. | Optical music recognition for scores written in white mensural notation | |
CN110942057A (zh) | 一种集装箱箱号识别方法、装置和计算机设备 | |
CN112307919A (zh) | 一种基于改进YOLOv3的单证图像中数字信息区域识别方法 | |
CN113762269A (zh) | 基于神经网络的中文字符ocr识别方法、系统、介质及应用 | |
CN116311310A (zh) | 一种结合语义分割和序列预测的通用表格识别方法和装置 | |
CN111626145A (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
CN116310826B (zh) | 一种基于图神经网络的高分遥感影像林地二级分类方法 | |
CN110298347B (zh) | 一种基于GrayWorld与PCA-CNN的汽车尾气分析仪屏幕的识别方法 | |
CN111612045B (zh) | 一种获取目标检测数据集的通用方法 | |
CN115731550A (zh) | 一种基于深度学习的药品说明书自动识别方法、系统及存储介质 | |
JP2004094427A (ja) | 帳票画像処理装置及び該装置を実現するためのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |