CN111626279A - 一种负样本标注训练方法及高度自动化的票据识别方法 - Google Patents

一种负样本标注训练方法及高度自动化的票据识别方法 Download PDF

Info

Publication number
CN111626279A
CN111626279A CN201910976154.7A CN201910976154A CN111626279A CN 111626279 A CN111626279 A CN 111626279A CN 201910976154 A CN201910976154 A CN 201910976154A CN 111626279 A CN111626279 A CN 111626279A
Authority
CN
China
Prior art keywords
bill
labeling
negative sample
training
warehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910976154.7A
Other languages
English (en)
Other versions
CN111626279B (zh
Inventor
张汉宁
苏斌
弋渤海
杨芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Network Computing Data Technology Co ltd
Original Assignee
Xi'an Network Computing Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Network Computing Data Technology Co ltd filed Critical Xi'an Network Computing Data Technology Co ltd
Priority to CN201910976154.7A priority Critical patent/CN111626279B/zh
Publication of CN111626279A publication Critical patent/CN111626279A/zh
Application granted granted Critical
Publication of CN111626279B publication Critical patent/CN111626279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于智能做账技术领域,提出了一种负样本标注训练方法及高度自动化的票据识别方法,包括训练负样本标注模型;构建票据仓库D;根据票据仓库D中的票据图片,通过深度学习方法训练票据内容识别模型F;加载票据内容识别模型F;票据识别;对识别错误次数大于两次的票据,输入负样本标注模型、重新进行标注,然后放入票据仓库D中,重新训练票据内容识别模型F、重新进行票据识别。通过上述技术方案,解决了现有技术中票据识别人工劳动强度大、工作效率低的问题。

Description

一种负样本标注训练方法及高度自动化的票据识别方法
技术领域
本发明属于智能做账技术领域,涉及一种负样本标注训练方法及高度自动化的票据识别方法。
背景技术
近几年随着经济高速发展,票据是必不可少的沟通“桥梁”。由于票据繁多,票据字段丰富等问题,传统的手动录入模式无法适应现代企业进步的节奏,因此解决票据录入问题迫在眉睫。在某些方面,机器视觉自动化识别录入比人手动录入更具优势,票据识别系统可以基于数据和图像分析进行高精度,高效率和高度自动化的识别分类各类票据任务。票据识别系统不但可以减轻工作任务和压力提高办公效率,还可以解决人工成本上涨与劳动力不足带来的矛盾,同时推进数字化、信息化、智能化进程。人们逐渐将OCR技术应用于票据识别领域。
目前市场上的光学字符识别系统IOCR(Invoice Optical CharacterRecognition)识别准确率低、识别种类局限、无法对新型票据支持,同时在实际运行的过程中会涉及到大量的人工操作,如人工审票、选出未识别或识别错误的票据(即负样本),对负样本重标注、票据的管理等,大大增加了票据识别系统的复杂度和人力成本。
发明内容
本发明提出一种负样本标注训练方法及高度自动化的票据识别方法,解决了现有技术中票据识别人工劳动强度大、工作效率低的问题。
本发明的技术方案是这样实现的:一种负样本标注模型训练方法,包括
S0:选取负样本的训练样本集A,将负样本的训练样本集A中的票据进行人工标注,得到真实标注框的偏移量集合B,根据人工标注结果给定一个真实框置信度Y*
S1:使用VGG16作为网络模型,并结合金字塔特征网络抽取出不同尺寸卷积核的特征图;
S2:特征融合,将步骤S1中提取的最后一层特征图使用双线性差值法进行上采样,然后将该特征图与前一层的特征图进行合并,依次进行融合,输出预测标注框的偏移量集合C和预测框置信度
Figure RE-GDA0002596408150000011
S3:优化损失函数L,得到负样本标注模型E,包括
S31:计算真实框损失函数Ls,具体为:
Figure RE-GDA0002596408150000021
其中,β属于超参数,表示正样本与负样本的平衡因子;
S32:根据真实标注框的偏移量集合B和预测标注框的偏移量集合C,计算几何损失函数Lg
S33:计算损失函数L,具体为
L=LsgLg
其中,λg属于超参数,表示权重;
S34:根据损失函数L的值,不断修正预测标注框的偏移量集合C、Y*
Figure RE-GDA0002596408150000022
,β和λg,重复步骤S31~S33,直到损失函数L的值达到设定范围,负样本标注模型E训练完成。
进一步,真实标注框和预测标注框均为矩形,步骤S32中几何损失函数Lg的计算过程具体为:
Lg=LAABBθLθ
Figure RE-GDA0002596408150000023
Figure RE-GDA0002596408150000024
其中,其中
Figure RE-GDA0002596408150000025
是预测标注框的偏移量集合C,R*是真实标注框的偏移量集合B,
Figure RE-GDA0002596408150000026
是预测旋转角度,θ*是真实的旋转角度,λθ属于超参数。
进一步,根据权利要求1所述的一种负样本标注模型E训练方法,其特征在于,真实标注框和预测标注框均为任意四边形,步骤S32中几何损失函数Lg的计算过程具体为:
Figure RE-GDA0002596408150000027
其中,CQ={x1,y1,x2,y2,x3,y3,x4,y4}’,是任意四边形真实标注框的偏移量集合B,
Figure RE-GDA0002596408150000031
是任意四边形预测标注框的偏移量集合C,
Figure RE-GDA0002596408150000032
是的所有等价四边形的集合,NQ是四边形的短边长度。
进一步,步骤S1中所用卷积核个数依次为64,128,256,384。
本发明还提出了一种高度自动化的票据识别方法,包括
S4:构建票据仓库D;
S5:根据票据仓库D中的票据图片,通过深度学习方法训练票据内容识别模型F;
S6:加载票据内容识别模型F;
S7:票据识别,包括
S71:获得待识别票据,通过票据内容识别模型F进行识别,对于识别置信度>90%的票据,进行自动分类;
S72:对于识别置信度90%以下的票据,记为负样本,对负样本进行重新识别,如果同一个负样本的识别错误次数大于2,则输入步骤S34得到的负样本标注模型E 进行重新标注,得到重新标注的负样本;
S8:将步骤S72得到的重新标注的负样本,放入步骤S4的票据仓库D中,重新执行步骤S5~S7。
进一步,步骤S8还包括向票据仓库D中增加新的票据图片。
进一步,步骤S5包括:
S51:通过深度学习领域中的图片标注工具对票据仓库D中的所有票据图片的票据区域、每个票据待识别字段区域、单个字符区域和该字符区域所记载的字符内容进行标注,在标注好的票据仓库D中,随机选取80%的票据图片作为训练样本集,将剩余20%的票据图片作为测试样本集;
S52:使用将深度学习的神经网络作为基础网络层,并结合金字塔网络形成票据内容识别模型F的网络结构,对训练样本集进行迭代训练,直到票据内容识别模型F在测试样本集的精准率达到预先设定阈值,则票据内容识别模型F训练完成。
进一步,步骤S51之前还包括:统计票据仓库D不同类型的票据图片数量,对于数量小于设定个数的票据类型进行构造扩充,扩充方法具体为:
将票据图片和另一张票据的背景按照一定比例进行叠加形成新的票据图片,叠加比例为 5~7:3~5。
进一步,步骤S51之前还包括:统计票据仓库D不同类型的票据图片数量,对于数量小于设定个数的票据类型进行构造扩充,扩充方法具体为:
使用图像处理软件脚本语言自动化批量地将票据图片中的文字替换到另一张票据图片的背景之上。
进一步,步骤S71中自动分类具体为:
S711:词向量提取:提取票据内容中的关键字或关键词;
S712:注意力筛选:从票据内容中筛选出有价值的信息,只对有价值的信息进行处理;
S713:语义分析:对票据内容中的关键字或关键词进行语义分析,从票据内容进行联想校正。
本发明的工作原理及有益效果为:
1、本发明首先通过提取负样本的训练样本集A中每一个图片的特征图、进行特征融合输出一组预测标注框的偏移量集合C,然后通过优化损失函数,不断修正真实标注框的偏移量集合B、真实框置信度Y*、预测标注框的偏移量集合C和预测框置信度
Figure RE-GDA0002596408150000041
,重新计算损失函数L,直到损失函数L的值达到设定范围,则表明预测标注框的偏移量集合C合适,负样本标注模型E训练完成。
其中,Ls为真实标注框的损失函数,Lg为预测标注框的损失函数,二者都考虑进损失函数L的计算中,β和λg在训练之前,根据经验确定一个初始值,并根据训练和测试结果进行相应的修正。
本发明提出的负样本标注模型E训练方法,实现了负样本的自动标注,最大限度的减少票据识别过程中人工的参与度,不仅大大提高了工作的效率,同时也降低了出错的概率。
2、本发明中预测标注框可以选用矩形框,其参数为(x,y,w,h,θ),其中(x,y)是矩形中心坐标,w是矩形宽,h是矩形高,θ是矩形旋转角度,LAABB用于计算矩形框的IOU损失,Lθ用于计算矩形框的旋转角度损失,二者相结合,用于反映预测标注框的损失函数。
3、本发明中预测标注框可以选用任意的四边形,用(x1,y1),(x2,y2),(x3,y3),(x4,y4) 分别表示该四边形的四个顶点坐标,四个顶点坐标按照顺时针或逆时针的方向排序,形成等价四边形,其中,采用smoothedL1函数,可以防止真实标注框的偏移量集合B与预测标注框的偏移量集合C差值过大造成梯度爆炸。
4、根据发明人的大量实验表明,当步骤S1中卷积核个数依次为64,128,256,384时,既能保证好的特征提取效果又不会造成计算量太大。
5、本发明还提出一种高度自动化的票据识别方法,通过构建票据仓库D,对票据图片进行收集并处理,票据仓库D尽可能的覆盖所有的票据类型,而且每一类票据都要有各种场景的票据图片,这样才能保证对尽可能多的票据进行准确识别;通过构建票据内容识别模型F,实现待识别票据内容的自动识别;如果待识别票据经两次识别后,识别置信度仍在90%以下 (识别置信度由票据内容识别模型F输出),则认定为负样本;将负样本输入负样本标注模型 E中进行重新标注,重新标注后的负样本放入票据仓库D中,也可以向票据仓库D中增加新的票据图片,对票据仓库D中数量较少的票据进行扩充、重新构建票据内容识别模型F,然后对负样本进行重新识别,如此循环,直到所有的票据都能得到正确识别;票据识别完成之后,可以根据票据内容中的记载信息对票据进行分类。
本发明实现了审票(即负样本筛选)、负样本标注的自动化,使得整个票据识别过程无需人工参与,真正实现了票据识别的自动化,省去了人工录入票据信息的麻烦。
6、本发明中对数量较少的票据类型进行构造扩充,保证样本数量足够多,这样学习出来的准确率就会非常高,不会出现某种类型的票据特点学不到的现象,有利于实现对各种票据的准确识别。
构造扩充的方法包括图像混合方法和图层混合方法,图像混合方法可以通过图形编辑软件,例如Photoshop轻易的实现,完成稀少样本的扩充;图层混合方法也可以使用Photoshop 软件的脚本语言批量的实现票据图片中的文字替换,达到扩充稀少样本的目的。
7、本发明中通过提取票据内容中的关键字或关键词,按照关键字或关键词对票据进行分类;通过注意力机制筛选出票据内容中有价值的信息,仅对有价值的信息进行处理,可以减少任务的复杂程度;通过语义分析,能够自动校正票据识别得到的票据记载信息,提高票据识别的准确率。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明中负样本标注模型训练过程示意图;
图2为本发明中票据识别方法流程图;
图3为本发明中票据仓库D的形成过程;
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种负样本标注模型训练方法,包括
S0:选取负样本的训练样本集A,将负样本的训练样本集A中的票据进行人工标注,得到真实标注框的偏移量集合B,根据人工标注结果给定一个真实框置信度Y*
S1:使用VGG16作为网络模型,并结合金字塔特征网络抽取出不同尺寸卷积核的特征图;
S2:特征融合,将步骤S1中提取的最后一层特征图使用双线性差值法进行上采样,然后将该特征图与前一层的特征图进行合并,依次进行融合,输出预测标注框的偏移量集合C和预测框置信度
Figure RE-GDA0002596408150000061
S3:优化损失函数L,得到负样本标注模型E,包括
S31:计算真实框损失函数Ls,具体为:
Figure RE-GDA0002596408150000062
其中,β属于超参数,表示正样本与负样本的平衡因子;
S32:根据真实标注框的偏移量集合B和预测标注框的偏移量集合C,计算几何损失函数Lg
S33:计算损失函数L,具体为
L=LsgLg
其中,λg属于超参数,表示权重;
S34:根据损失函数L的值,不断修正预测标注框的偏移量集合C、Y*
Figure RE-GDA0002596408150000063
β和λg,重复步骤S31~S33,直到损失函数L的值达到设定范围,负样本标注模型E训练完成。
本实施例首先通过提取负样本的训练样本集A中每一个图片的特征图、进行特征融合输出一组预测标注框的偏移量集合C,然后通过优化损失函数,不断修正真实标注框的偏移量集合B、真实框置信度Y*、预测标注框的偏移量集合C和预测框置信度
Figure RE-GDA0002596408150000064
重新计算损失函数L,直到损失函数L的值达到设定范围,则表明预测标注框的偏移量集合C合适,负样本标注模型E训练完成。
其中,Ls为真实标注框的损失函数,Lg为预测标注框的损失函数,二者都考虑进损失函数L的计算中,β和λg在训练之前,根据经验确定一个初始值,并根据训练和测试结果进行相应的修正。
本实施例提出的负样本标注模型E训练方法,实现了负样本的自动标注,最大限度的减少票据识别过程中人工的参与度,不仅大大提高了工作的效率,同时也降低了出错的概率。
进一步,真实标注框和预测标注框均为矩形,步骤S32中几何损失函数Lg的计算过程具体为:
Lg=LAABBθLθ
Figure RE-GDA0002596408150000071
Figure RE-GDA0002596408150000072
其中,其中
Figure RE-GDA0002596408150000073
是预测标注框的偏移量集合C,R*是真实标注框的偏移量集合B,
Figure RE-GDA0002596408150000074
是预测旋转角度,θ*是真实的旋转角度,λθ属于超参数。
本实施例中预测标注框可以选用矩形框,其参数为(x,y,w,h,θ),其中(x,y)是矩形中心坐标,w是矩形宽,h是矩形高,θ是矩形旋转角度,LAABB用于计算矩形框的IOU损失,Lθ用于计算矩形框的旋转角度损失,二者相结合,用于反映预测标注框的损失函数。
进一步,根据权利要求1所述的一种负样本标注模型E训练方法,其特征在于,真实标注框和预测标注框均为任意四边形,步骤S32中几何损失函数Lg的计算过程具体为:
Figure RE-GDA0002596408150000075
其中,CQ={x1,y1,x2,y2,x3,y3,x4,y4}’,是任意四边形真实标注框的偏移量集合B,
Figure RE-GDA0002596408150000076
是任意四边形预测标注框的偏移量集合C,
Figure RE-GDA0002596408150000077
是的所有等价四边形的集合,NQ是四边形的短边长度。
本实施例中预测标注框可以选用任意的四边形,用(x1,y1),(x2,y2),(x3,y3),(x4,y4) 分别表示该四边形的四个顶点坐标,四个顶点坐标按照顺时针或逆时针的方向排序,形成等价四边形,其中,采用smoothedL1函数,可以防止真实标注框的偏移量集合B与预测标注框的偏移量集合C差值过大造成梯度爆炸。
进一步,步骤S1中所用卷积核个数依次为64,128,256,384。
根据发明人的大量实验表明,当步骤S1中卷积核个数依次为64,128,256,384时,既能保证好的特征提取效果又不会造成计算量太大。
如图2所示,本实施例还提出了一种高度自动化的票据识别方法,包括
S4:构建票据仓库D;
S5:根据票据仓库D中的票据图片,通过深度学习方法训练票据内容识别模型F;
S6:加载票据内容识别模型F;
S7:票据识别,包括
S71:获得待识别票据,通过票据内容识别模型F进行识别,对于识别置信度>90%的票据,进行自动分类;
S72:对于识别置信度90%以下的票据,记为负样本,对负样本进行重新识别,如果同一个负样本的识别错误次数大于2,则输入步骤S34得到的负样本标注模型E 进行重新标注,得到重新标注的负样本;
S8:将步骤S72得到的重新标注的负样本,放入步骤S4的票据仓库D中,重新执行步骤S5~S7。
本实施例还提出一种高度自动化的票据识别方法,通过构建票据仓库D,对票据图片进行收集并处理,票据仓库D尽可能的覆盖所有的票据类型,而且每一类票据都要有各种场景的票据图片,这样才能保证对尽可能多的票据进行准确识别;通过构建票据内容识别模型F,实现待识别票据内容的自动识别;如果待识别票据经两次识别后,识别置信度仍在90%以下 (识别置信度由票据内容识别模型F输出),则认定为负样本;将负样本输入负样本标注模型 E中进行重新标注,重新标注后的负样本放入票据仓库D中,也可以向票据仓库D中增加新的票据图片,对票据仓库D中数量较少的票据进行扩充(例如,某一票据类型的个数小于20)、重新构建票据内容识别模型F,然后对负样本进行重新识别,如此循环,直到所有的票据都能得到正确识别;票据识别完成之后,可以根据票据内容中的记载信息对票据进行分类。
如图3所示,构建票据仓库D是将票据进行收集、票据处理以及加载到票据仓库D的过程。海量的票据图片通过爬虫、构造、影像设备拍摄,负样本(未识别票据、识别错误样本)、历史数据等方式获取,这些票据图片要尽可能的覆盖所有票据类型,而且每一类票据都要有各种环境场景的票据图片,其中影像设备包含但不仅限于手机、数码相机和扫描仪。然后通过数据标注、数据清洗、数据转换、数据存储和图像处理整合形成票据仓库D,其中数据清洗就是将不符合规范的数据进行处理,处理方式包含:异常票据修改或剔除、票据数据格式统一化和票据去重。不符合规范的票据图片主要由残缺票据样本(票据样本中必须有的信息缺失)和重复票据样本。数据存储采用MySql数据库、HDFS文件系统、MongoDB进行存储。图片处理采用:二值化、归一化、样本均衡化、数据扩充、降维等一系列操作。
本实施例实现了审票(即负样本筛选)、负样本标注的自动化,使得整个票据识别过程无需人工参与,真正实现了票据识别的自动化,省去了人工录入票据信息的麻烦。
进一步,步骤S8还包括向票据仓库D中增加新的票据图片。
进一步,步骤S5包括:
S51:通过深度学习领域中的图片标注工具对票据仓库D中的所有票据图片的票据区域、每个票据待识别字段区域、单个字符区域和该字符区域所记载的字符内容进行标注,在标注好的票据仓库D中,随机选取80%的票据图片作为训练样本集,将剩余20%的票据图片作为测试样本集;
S52:使用将深度学习的神经网络作为基础网络层,并结合金字塔网络形成票据内容识别模型F的网络结构,对训练样本集进行迭代训练,直到票据内容识别模型F在测试样本集的精准率达到预先设定阈值,则票据内容识别模型F训练完成。
进一步,步骤S51之前还包括:统计票据仓库D不同类型的票据图片数量,对于数量小于设定个数的票据类型进行构造扩充,扩充方法具体为:
将票据图片和另一张票据的背景按照一定比例进行叠加形成新的票据图片,叠加比例为 5~7:3~5。
进一步,步骤S51之前还包括:统计票据仓库D不同类型的票据图片数量,对于数量小于设定个数的票据类型进行构造扩充,扩充方法具体为:
使用图像处理软件脚本语言自动化批量地将票据图片中的文字替换到另一张票据图片的背景之上。
本实施例中对数量较少的票据类型进行构造扩充(例如,某一票据类型的个数小于20),保证样本数量足够多,这样学习出来的准确率就会非常高,不会出现某种类型的票据特点学不到的现象,有利于实现对各种票据的准确识别。
构造扩充的方法包括图像混合方法和图层混合方法,图像混合方法可以通过图形编辑软件,例如Photoshop轻易的实现,完成稀少样本的扩充;图层混合方法也可以使用Photoshop 软件的脚本语言批量的实现票据图片中的文字替换,达到扩充稀少样本的目的。
进一步,步骤S71中自动分类具体为:
S711:词向量提取:提取票据内容中的关键字或关键词;
S712:注意力筛选:从票据内容中筛选出有价值的信息,只对有价值的信息进行处理;
S713:语义分析:对票据内容中的关键字或关键词进行语义分析,从票据内容进行联想校正。
本实施例中通过提取票据内容中的关键字或关键词,按照关键字或关键词对票据进行分类;通过注意力机制筛选出票据内容中有价值的信息,仅对有价值的信息进行处理,可以减少任务的复杂程度;通过语义分析,能够自动校正票据识别得到的票据记载信息,提高票据识别的准确率。
以上仅为本实施例的较佳实施例而已,并不用以限制本实施例,凡在本实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本实施例的保护范围之内。

Claims (10)

1.一种负样本标注模型E训练方法,其特征在于,包括
S0:选取负样本的训练样本集A,将负样本的训练样本集A中的票据进行人工标注,得到真实标注框的偏移量集合B,根据人工标注结果给定一个真实框置信度Y*
S1:使用VGG16作为网络模型,并结合金字塔特征网络抽取出不同尺寸卷积核的特征图;
S2:特征融合,将步骤S1中提取的最后一层特征图使用双线性差值法进行上采样,然后将该特征图与前一层的特征图进行合并,依次进行融合,输出预测标注框的偏移量集合C和预测框置信度
Figure FDA0002233700890000011
S3:优化损失函数L,得到负样本标注模型E,包括
S31:计算真实框损失函数Ls,具体为:
Figure FDA0002233700890000012
其中,β属于超参数,表示正样本与负样本的平衡因子;
S32:根据真实标注框的偏移量集合B和预测标注框的偏移量集合C,计算几何损失函数Lg
S33:计算损失函数L,具体为
L=LsgLg
其中,λg属于超参数,表示权重;
S34:根据损失函数L的值,不断修正预测标注框的偏移量集合C、Y*
Figure FDA0002233700890000013
β和λg,重复步骤S31~S33,直到损失函数L的值达到设定范围,负样本标注模型E训练完成。
2.根据权利要求1所述的一种负样本标注模型E训练方法,其特征在于,真实标注框和预测标注框均为矩形,步骤S32中几何损失函数Lg的计算过程具体为:
Lg=LAABBθLθ
Figure FDA0002233700890000014
Figure FDA0002233700890000021
其中,其中
Figure FDA0002233700890000022
是预测标注框的偏移量集合C,R*是真实标注框的偏移量集合B,
Figure FDA0002233700890000023
是预测旋转角度,θ*是真实的旋转角度,λθ属于超参数。
3.根据权利要求1所述的一种负样本标注模型E训练方法,其特征在于,真实标注框和预测标注框均为任意四边形,步骤S32中几何损失函数Lg的计算过程具体为:
Figure FDA0002233700890000024
其中,CQ={x1,y1,x2,y2,x3,y3,x4,y4}’,是任意四边形真实标注框的偏移量集合B,
Figure FDA0002233700890000025
是任意四边形预测标注框的偏移量集合C,
Figure FDA0002233700890000026
是的所有等价四边形的集合,NQ是四边形的短边长度。
4.根据权利要求1所述的一种负样本标注模型E训练方法,其特征在于,步骤S1中所用卷积核个数依次为64,128,256,384。
5.一种包含权利要求1~4所述负样本标注模型E训练方法的高度自动化的票据识别方法,其特征在于,包括
S4:构建票据仓库D;
S5:根据票据仓库D中的票据图片,通过深度学习方法训练票据内容识别模型F;
S6:加载票据内容识别模型F;
S7:票据识别,包括
S71:获得待识别票据,通过票据内容识别模型F进行识别,对于识别置信度>90%的票据,进行自动分类;
S72:对于识别置信度90%以下的票据,记为负样本,对负样本进行重新识别,如果同一个负样本的识别错误次数大于2,则输入步骤S34得到的负样本标注模型E进行重新标注,得到重新标注的负样本;
S8:将步骤S72得到的重新标注的负样本,放入步骤S4的票据仓库D中,重新执行步骤S5~S7。
6.根据权利要求5所述的一种高度自动化的票据识别方法,其特征在于,步骤S8还包括向票据仓库D中增加新的票据图片。
7.根据权利要求5所述的一种高度自动化的票据识别方法,其特征在于,步骤S5包括:
S51:通过深度学习领域中的图片标注工具对票据仓库D中的所有票据图片的票据区域、每个票据待识别字段区域、单个字符区域和该字符区域所记载的字符内容进行标注,在标注好的票据仓库D中,随机选取80%的票据图片作为训练样本集,将剩余20%的票据图片作为测试样本集;
S52:使用将深度学习的神经网络作为基础网络层,并结合金字塔网络形成票据内容识别模型F的网络结构,对训练样本集进行迭代训练,直到票据内容识别模型F在测试样本集的精准率达到预先设定阈值,则票据内容识别模型F训练完成。
8.根据权利要求7所述的一种高度自动化的票据识别方法,其特征在于,步骤S51之前还包括:统计票据仓库D不同类型的票据图片数量,对于数量小于设定个数的票据类型进行构造扩充,扩充方法具体为:
将票据图片和另一张票据的背景按照一定比例进行叠加形成新的票据图片,叠加比例为5~7:3~5。
9.根据权利要求8所述的一种高度自动化的票据识别方法,其特征在于,步骤S51之前还包括:统计票据仓库D不同类型的票据图片数量,对于数量小于设定个数的票据类型进行构造扩充,扩充方法具体为:
使用图像处理软件脚本语言自动化批量地将票据图片中的文字替换到另一张票据图片的背景之上。
10.根据权利要求1所述的一种高度自动化的票据识别方法,其特征在于,步骤S71中自动分类具体为:
S711:词向量提取:提取票据内容中的关键字或关键词;
S712:注意力筛选:从票据内容中筛选出有价值的信息,只对有价值的信息进行处理;
S713:语义分析:对票据内容中的关键字或关键词进行语义分析,从票据内容进行联想校正。
CN201910976154.7A 2019-10-15 2019-10-15 一种负样本标注训练方法及高度自动化的票据识别方法 Active CN111626279B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910976154.7A CN111626279B (zh) 2019-10-15 2019-10-15 一种负样本标注训练方法及高度自动化的票据识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910976154.7A CN111626279B (zh) 2019-10-15 2019-10-15 一种负样本标注训练方法及高度自动化的票据识别方法

Publications (2)

Publication Number Publication Date
CN111626279A true CN111626279A (zh) 2020-09-04
CN111626279B CN111626279B (zh) 2023-06-02

Family

ID=72259654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910976154.7A Active CN111626279B (zh) 2019-10-15 2019-10-15 一种负样本标注训练方法及高度自动化的票据识别方法

Country Status (1)

Country Link
CN (1) CN111626279B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329708A (zh) * 2020-11-24 2021-02-05 北京百度网讯科技有限公司 票据识别方法和装置
CN112347994A (zh) * 2020-11-30 2021-02-09 四川长虹电器股份有限公司 一种基于深度学习的发票图像目标检测与角度检测方法
CN112446368A (zh) * 2020-10-20 2021-03-05 中电金信软件有限公司 票据图像处理、模型训练方法、装置和计算机设备
CN112541461A (zh) * 2020-12-21 2021-03-23 四川新网银行股份有限公司 一种针对无固定格式模板消费凭据的自动审核方法及装置
CN114049686A (zh) * 2021-11-15 2022-02-15 北京百度网讯科技有限公司 签名识别模型训练方法、装置及电子设备
CN114708608A (zh) * 2022-06-06 2022-07-05 浙商银行股份有限公司 一种银行票据全自动化特征工程方法及装置
CN115063739A (zh) * 2022-06-10 2022-09-16 嘉洋智慧安全生产科技发展(北京)有限公司 异常行为的检测方法、装置、设备及计算机存储介质
CN118552331A (zh) * 2024-07-30 2024-08-27 深度(山东)数字科技集团有限公司 一种基于多模态大模型的票据数据分析方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766809B (zh) * 2017-10-09 2020-05-19 平安科技(深圳)有限公司 电子装置、票据信息识别方法和计算机可读存储介质
CN107798299B (zh) * 2017-10-09 2020-02-07 平安科技(深圳)有限公司 票据信息识别方法、电子装置及可读存储介质
CN109840531B (zh) * 2017-11-24 2023-08-25 华为技术有限公司 训练多标签分类模型的方法和装置
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN108549893B (zh) * 2018-04-04 2020-03-31 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109409365A (zh) * 2018-10-25 2019-03-01 江苏德劭信息科技有限公司 一种基于深度目标检测的待采摘水果识别和定位方法
CN109685066B (zh) * 2018-12-24 2021-03-09 中国矿业大学(北京) 一种基于深度卷积神经网络的矿井目标检测与识别方法
CN109800751B (zh) * 2019-01-25 2023-04-28 上海深杳智能科技有限公司 一种基于构建深度学习网络的票据识别方法及终端

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446368A (zh) * 2020-10-20 2021-03-05 中电金信软件有限公司 票据图像处理、模型训练方法、装置和计算机设备
CN112329708A (zh) * 2020-11-24 2021-02-05 北京百度网讯科技有限公司 票据识别方法和装置
CN112347994A (zh) * 2020-11-30 2021-02-09 四川长虹电器股份有限公司 一种基于深度学习的发票图像目标检测与角度检测方法
CN112347994B (zh) * 2020-11-30 2022-04-22 四川长虹电器股份有限公司 一种基于深度学习的发票图像目标检测与角度检测方法
CN112541461A (zh) * 2020-12-21 2021-03-23 四川新网银行股份有限公司 一种针对无固定格式模板消费凭据的自动审核方法及装置
CN114049686A (zh) * 2021-11-15 2022-02-15 北京百度网讯科技有限公司 签名识别模型训练方法、装置及电子设备
CN114708608A (zh) * 2022-06-06 2022-07-05 浙商银行股份有限公司 一种银行票据全自动化特征工程方法及装置
CN114708608B (zh) * 2022-06-06 2022-09-16 浙商银行股份有限公司 一种银行票据全自动化特征工程方法及装置
CN115063739A (zh) * 2022-06-10 2022-09-16 嘉洋智慧安全生产科技发展(北京)有限公司 异常行为的检测方法、装置、设备及计算机存储介质
CN118552331A (zh) * 2024-07-30 2024-08-27 深度(山东)数字科技集团有限公司 一种基于多模态大模型的票据数据分析方法及系统

Also Published As

Publication number Publication date
CN111626279B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
CN111626279A (zh) 一种负样本标注训练方法及高度自动化的票据识别方法
CN111612751B (zh) 基于嵌入分组注意力模块的Tiny-yolov3网络的锂电池缺陷检测方法
CN111598860B (zh) 基于嵌入自注意力门模块的yolov3网络的锂电池缺陷检测方法
CN109993040A (zh) 文本识别方法及装置
CN110490193B (zh) 单个字符区域检测方法及票据内容识别方法
CN109740515B (zh) 一种评阅方法及装置
CN113780087B (zh) 一种基于深度学习的邮政包裹文本检测方法及设备
CN113284122B (zh) 基于深度学习的卷纸包装缺陷检测方法、装置及存储介质
CN111178196B (zh) 一种细胞分类的方法、装置及设备
CN111598854A (zh) 基于丰富鲁棒卷积特征模型的复杂纹理小缺陷的分割方法
CN115240259A (zh) 一种基于yolo深度网络的课堂环境下人脸检测方法及其检测系统
CN115147418B (zh) 缺陷检测模型的压缩训练方法和装置
CN117152746B (zh) 一种基于yolov5网络的宫颈细胞分类参数获取方法
CN114639102A (zh) 基于关键点与尺寸回归的细胞分割方法和装置
CN113223011B (zh) 基于引导网络和全连接条件随机场的小样本图像分割方法
CN114155540A (zh) 基于深度学习的文字识别方法、装置、设备及存储介质
CN109543571B (zh) 一种面向复杂产品异形加工特征的智能识别与检索方法
CN111709936A (zh) 一种基于多级特征比对的令纸缺陷检测方法
CN110889418A (zh) 一种气体轮廓识别方法
CN115620083A (zh) 模型训练方法、人脸图像质量评价方法、设备及介质
CN115984838A (zh) Poi名称的生成方法、装置、电子设备和存储介质
CN114898088A (zh) 基于嵌入余弦自注意力模块的光伏电池外观缺陷检测方法
CN114359931A (zh) 一种快递面单识别方法、装置、计算机设备及存储介质
CN114897901B (zh) 基于样本扩充的电池质量检测方法、装置和电子设备
CN113610184B (zh) 一种基于迁移学习的木材纹理分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant