CN111160142B - 一种基于数值预测回归模型的证件票据定位检测方法 - Google Patents

一种基于数值预测回归模型的证件票据定位检测方法 Download PDF

Info

Publication number
CN111160142B
CN111160142B CN201911287230.XA CN201911287230A CN111160142B CN 111160142 B CN111160142 B CN 111160142B CN 201911287230 A CN201911287230 A CN 201911287230A CN 111160142 B CN111160142 B CN 111160142B
Authority
CN
China
Prior art keywords
image
regression model
bill
key points
certificate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911287230.XA
Other languages
English (en)
Other versions
CN111160142A (zh
Inventor
王刚
严骏驰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201911287230.XA priority Critical patent/CN111160142B/zh
Publication of CN111160142A publication Critical patent/CN111160142A/zh
Application granted granted Critical
Publication of CN111160142B publication Critical patent/CN111160142B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Abstract

本发明涉及一种基于数值预测回归模型的证件票据定位检测方法,该方法包括如下步骤:(1)获取训练样本;(2)构建数值预测回归模型,所述的数值预测回归模型包括串联的轻量神经网络和空间变换网络,所述的轻量神经网络输入为待定位图像,输出为特征卷积图,所述的空间变换网络输入为所述的特征卷积图,输出为待检测图像中证件票据四个关键点的坐标;(3)设计损失函数;(4)利用步骤(1)的训练样本训练数值预测回归模型;(5)将待定位图像输入至训练好的数值预测回归模型,获取待检测图像中证件票据四个关键点的坐标;(6)根据证件票据四个关键点的坐标圈选出证件票据图像。与现有技术相比,本发明结果准确可靠。

Description

一种基于数值预测回归模型的证件票据定位检测方法
技术领域
本发明涉及一种证件票据定位检测方法,尤其是涉及一种基于数值预测回归模型的证件票据定位检测方法。
背景技术
对于复杂场景下证件票据位置的检测经过了如下发展:
传统图像处理技术,通常指2010年之前对于证件或汽车车牌识别的方法:霍夫检测。霍夫检测是图像处理中从图像中识别几何形状的基本方法之一,应用很广泛,也有很多改进算法。主要用来从图像中分离出具有某种相同特征的几何形状(如,直线,圆等)。最基本的霍夫检测是从黑白图像中检测直线(线段)通常以图像物体本身的特征入手,由于我们的证件票据原本是基本的矩形图案,因此我们可以这个先验信息为基础,识别出其边缘信息,然后再通过投射变换还原图像。其具体做法为:首先对图像采取预处理,对图像进行二值化处理(Image Binarization),就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。在图像二值化后,采用边缘检测算法,这里以Canny算法为例,Canny方法不容易受噪声干扰,能够检测到真正的弱边缘。优点在于,使用两种不同的阈值分别检测强边缘和弱边缘,并且当弱边缘和强边缘相连时,才将弱边缘包含在输出图像中。经过一系列处理后,通过霍夫检测(Hough)得到卡片的边缘直线,它是图像处理中的一种特征提取技术,它通过一种投票算法检测具有特定形状的物体。该过程在一个参数空间中通过计算累计结果的局部最大值得到一个符合该特定形状的集合作为霍夫变换结果。霍夫变换于1962年由Paul Hough首次提出,后于1972年由Richard Duda和Peter Hart推广使用,经典霍夫变换用来检测图像中的直线。最后,得到证件票据边缘直线后,由于证件票据在平面黑白图像中是由四条线段组成,我们可以通过检测出的直线以及其交点,来检测出我们的证件票据所在的位置。
当深度学习技术蓬勃发展后,出现了一系列优秀的目标检测算法,如RCNN系列算法、Yolo系列算法,在此,以Yolo算法为例:Yolo算法基于深度学习,并以Google的Inception为启发,设计自己的检测网络架构。Yolo的就按测网络架构有24个卷积层,其次是2个全连接层。交替1x1卷积层减少了前面层的特征空间。它在ImageNet分类任务上以一半的分辨率(224x224的输入图像)预训练卷积层,然后将分辨率加倍来进行检测,网络的最终输出是7x7x30的预测张量。
采用传统图像算法霍夫检测来识别证件票据的定位问题,计算量少,但同时也带来了鲁棒性差,需要人工干预过多的问题。基于深度学习的Yolo等目标检测算法通过数据集标注学习解决了需人工干预和鲁棒差的问题,但所检测出来的区域,包含无效背景过多,且不包含角度等信息。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于数值预测回归模型的证件票据定位方法。
本发明的目的可以通过以下技术方案来实现:
一种基于数值预测回归模型的证件票据定位检测方法,该方法包括如下步骤:
(1)获取训练样本;
(2)构建数值预测回归模型,所述的数值预测回归模型包括串联的轻量神经网络和空间变换网络,所述的轻量神经网络输入为待定位图像,输出为特征卷积图,所述的空间变换网络输入为所述的特征卷积图,输出为待检测图像中证件票据四个关键点的坐标;
(3)设计损失函数;
(4)利用步骤(1)的训练样本训练数值预测回归模型;
(5)将待定位图像输入至训练好的数值预测回归模型,获取待检测图像中证件票据四个关键点的坐标;
(6)根据证件票据四个关键点的坐标圈选出证件票据图像。
步骤(1)具体包括:
(11)采集一些仅含单张证件票据的图像作为原始数据;
(12)标注能定位证件票据的四个关键点并获取其坐标并存储作为训练样本;
(13)训练样本扩增:对原始数据进行处理获取新的样本图像并重复步骤(12)。
所述的四个关键点包括左上角、右上角、左下角和右下角四个点。
轻量神经网络输出的特征卷积图包括待检测图像中证件票据四个关键点的特征卷积图。
空间变换网络通过如下方式获得待检测图像中证件票据四个关键点的坐标:
(21)对特征卷积图进行归一化处理获取高斯热图矩阵Z,Zij为高斯热图第i行第j个像素点对应的数值,且满足:
Figure BDA0002318368350000031
其中,m为高斯热图纵向像素点个数,n为高斯热图横向像素点个数;
(22)获取与Z矩阵相同维数的转换矩阵X、Y,矩阵X、Y中第i行第j个像素点的数值为Xij、Yij
Xij=2j-(n+1)/n,
Yij=2j-(m+1)/m;
(23)基于Z、X和Y矩阵求取关键点的坐标。
步骤(23)求取关键点的坐标(x,y)的计算公式为:
Figure BDA0002318368350000032
Figure BDA0002318368350000033
所述的损失函数为:
Figure BDA0002318368350000034
Figure BDA0002318368350000035
L(d)=JS(Pr||Pf),
其中,L(d)为损失函数,d为高斯热图中像素点对应的数值,Pr为真实高斯热图下d的概率分布,Pf为步骤(21)获取的高斯热图下d的概率分布,KL是指KL散度,JS是指JS散度,||表示数据差异运算符,
Figure BDA0002318368350000036
表示服从Pr的数学期望。
步骤(6)还包括对圈选出的图像采用仿射变换方式获得与证件票据原尺寸大小相同的证件票据图像。
与现有技术相比,本发明具有如下优点:
(1)本发明能够基于标注的数据集自动学习预测证件票据的位置信息,几乎不包含无效背景,同时能够根据预测出的关键点得出证件票据图像,定位准确可靠;
(2)本发明数值预测回归模型为全微分的结构,实现了模型的端到端训练,结构简单清晰,搭建模型速度高效;
(3)本发明内存占用减少、推理和训练速度快。
附图说明
图1为本发明数值预测回归模型的结构框图;
图2为证件票据定位检测方法的流程框图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
实施例
一种基于数值预测回归模型的证件票据定位检测方法,该方法包括如下步骤:
步骤1:获取训练样本,具体包括:
(11)采集一些仅含单张证件票据的图像作为原始数据;
(12)标注能定位证件票据的四个关键点并获取其坐标并存储作为训练样本;
(13)训练样本扩增:对原始数据进行处理获取新的样本图像并重复步骤(12)。
其中,四个关键点包括左上角、右上角、左下角和右下角四个点,在获取训练样本过程中始终标注证件票据的左上角为第一个关键点,右上角为第二个关键点,左下角为第三个关键点,右下角为第四个关键点。
步骤2:构建数值预测回归模型,如图1所示,数值预测回归模型包括串联的轻量神经网络和空间变换网络,所述的轻量神经网络输入为待定位图像,输出为特征卷积图,所述的空间变换网络输入为所述的特征卷积图,输出为待检测图像中证件票据四个关键点的坐标。其中,轻量神经网络输出的特征卷积图包括待检测图像中证件票据四个关键点的特征卷积图。
空间变换网络通过如下方式获得待检测图像中证件票据四个关键点的坐标:
(21)对特征卷积图进行归一化处理获取高斯热图矩阵Z,Zij为高斯热图第i行第j个像素点对应的数值,且满足:
Figure BDA0002318368350000051
其中,m为高斯热图纵向像素点个数,n为高斯热图横向像素点个数;
(22)获取与Z矩阵相同维数的转换矩阵X、Y,矩阵X、Y中第i行第j个像素点的数值为Xij、Yij
Xij=2j-(n+1)/n,
Yij=2j-(m+1)/m;
(23)基于Z、X和Y矩阵求取关键点的坐标。
步骤(23)求取关键点的坐标(x,y)的计算公式为:
Figure BDA0002318368350000052
Figure BDA0002318368350000053
步骤3:设计损失函数:
Figure BDA0002318368350000054
Figure BDA0002318368350000055
L(d)=JS(Pr||Pf),
其中,L(d)为损失函数,d为高斯热图中像素点对应的数值,Pr为真实高斯热图下d的概率分布,Pf为步骤(21)获取的高斯热图下d的概率分布,KL是指KL散度(Kullbakc-Leibler divergence),JS是指JS散度,||表示数据差异运算符,
Figure BDA0002318368350000056
表示服从Pr的数学期望。训练过程中尽可能最小化损失函数L(d),也就是尽可能减少步骤(21)获取的高斯热图和真实高斯热图之间差异,达到预测结果。
步骤4:利用步骤1的训练样本训练数值预测回归模型,具体地:
(41)将数据集和标签放入指定文件夹中;
(42)依据我们构建好的模型,分批选择图像进行训练
(43)可以选择多个参数样本进行训练,然后选择其中训练结果较好的一个模型作为我们的结果模型
步骤5:将待定位图像输入至训练好的数值预测回归模型,获取待检测图像中证件票据四个关键点的坐标;
步骤6:根据证件票据四个关键点的坐标圈选出证件票据图像,最后对圈选出的图像采用仿射变换方式获得与证件票据原尺寸大小相同的证件票据图像,仿射变换是一种图像二维坐标到二维坐标之间的线性变换,变换后直线还是直线不会打弯,圆弧还是圆弧。我们根据该变换可以将检测得到的证件票据图像还原到合适的尺寸。
综上,如图2所示,给出一张待定位图像,经过如下步骤S1~S5获得定位的证件票据图像:
S1:获取待定位图像;
S2:待定位图像经轻量神经网络处理后获得四个关键点的特征卷积图;
S3:分别对四个关键点的特征卷积图进行归一化处理获取四个关键点对应的高斯热图;
S4:分别对高斯热图变换获取四个关键点的坐标;
S5:根据四个关键点的坐标圈选出证件票据图像,并进行仿射变换处理得到与证件票据原尺寸大小相同的证件票据图像。
上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims (5)

1.一种基于数值预测回归模型的证件票据定位检测方法,其特征在于,该方法包括如下步骤:
(1)获取训练样本;
(2)构建数值预测回归模型,所述的数值预测回归模型包括串联的轻量神经网络和空间变换网络,所述的轻量神经网络输入为待定位图像,输出为特征卷积图,所述的空间变换网络输入为所述的特征卷积图,输出为待检测图像中证件票据四个关键点的坐标;
(3)设计损失函数;
(4)利用步骤(1)的训练样本训练数值预测回归模型;
(5)将待定位图像输入至训练好的数值预测回归模型,获取待检测图像中证件票据四个关键点的坐标;
(6)根据证件票据四个关键点的坐标圈选出证件票据图像;
轻量神经网络输出的特征卷积图包括待检测图像中证件票据四个关键点的特征卷积图;
空间变换网络通过如下方式获得待检测图像中证件票据四个关键点的坐标:
(21)对特征卷积图进行归一化处理获取高斯热图矩阵Z,Zij为高斯热图第i行第j个像素点对应的数值,且满足:
Figure FDA0004139665730000011
其中,m为高斯热图纵向像素点个数,n为高斯热图横向像素点个数;
(22)获取与Z矩阵相同维数的转换矩阵X、Y,矩阵X、Y中第i行第j个像素点的数值为Xij、Yij
Xij=2j-(n+1)/n,
Yij=2j-(m+1)/m;
(23)基于Z、X和Y矩阵求取关键点的坐标;
所述的损失函数为:
Figure FDA0004139665730000012
Figure FDA0004139665730000021
L(d)=JS(Pr||Pf),
其中,L(d)为损失函数,d为高斯热图中像素点对应的数值,Pr为真实高斯热图下d的概率分布,Pf为步骤(21)获取的高斯热图下d的概率分布,KL是指KL散度,JS是指JS散度,||表示数据差异运算符,Ed~Pr表示服从Pr的数学期望。
2.根据权利要求1所述的一种基于数值预测回归模型的证件票据定位检测方法,其特征在于,步骤(1)具体包括:
(11)采集一些仅含单张证件票据的图像作为原始数据;
(12)标注能定位证件票据的四个关键点并获取其坐标并存储作为训练样本;
(13)训练样本扩增:对原始数据进行处理获取新的样本图像并重复步骤(12)。
3.根据权利要求1或2所述的一种基于数值预测回归模型的证件票据定位检测方法,其特征在于,所述的四个关键点包括左上角、右上角、左下角和右下角四个点。
4.根据权利要求1所述的一种基于数值预测回归模型的证件票据定位检测方法,其特征在于,步骤(23)求取关键点的坐标(x,y)的计算公式为:
Figure FDA0004139665730000022
Figure FDA0004139665730000023
5.根据权利要求1所述的一种基于数值预测回归模型的证件票据定位检测方法,其特征在于,步骤(6)还包括对圈选出的图像采用仿射变换方式获得与证件票据原尺寸大小相同的证件票据图像。
CN201911287230.XA 2019-12-14 2019-12-14 一种基于数值预测回归模型的证件票据定位检测方法 Active CN111160142B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911287230.XA CN111160142B (zh) 2019-12-14 2019-12-14 一种基于数值预测回归模型的证件票据定位检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911287230.XA CN111160142B (zh) 2019-12-14 2019-12-14 一种基于数值预测回归模型的证件票据定位检测方法

Publications (2)

Publication Number Publication Date
CN111160142A CN111160142A (zh) 2020-05-15
CN111160142B true CN111160142B (zh) 2023-07-11

Family

ID=70557109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911287230.XA Active CN111160142B (zh) 2019-12-14 2019-12-14 一种基于数值预测回归模型的证件票据定位检测方法

Country Status (1)

Country Link
CN (1) CN111160142B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132054A (zh) * 2020-09-24 2020-12-25 重庆邮电大学 一种基于深度学习的文档定位和分割方法
CN112257712B (zh) * 2020-10-29 2024-02-27 湖南星汉数智科技有限公司 一种火车票图像摆正方法、装置、计算机装置及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469304A (zh) * 2016-09-22 2017-03-01 西安理工大学 基于深度卷积神经网络的票据中手写签名位置定位方法
CN106682697A (zh) * 2016-12-29 2017-05-17 华中科技大学 一种基于卷积神经网络的端到端物体检测方法
CN108664897A (zh) * 2018-04-18 2018-10-16 平安科技(深圳)有限公司 票据识别方法、装置及存储介质
CN109410275A (zh) * 2018-10-15 2019-03-01 深圳步智造科技有限公司 位置预测方法、装置、设备以及可读存储介质
CN110084221A (zh) * 2019-05-08 2019-08-02 南京云智控产业技术研究院有限公司 一种基于深度学习的带中继监督的序列化人脸关键点检测方法
CN110110663A (zh) * 2019-05-07 2019-08-09 江苏新亿迪智能科技有限公司 一种基于人脸属性的年龄识别方法及系统
CN110458918A (zh) * 2019-08-16 2019-11-15 北京百度网讯科技有限公司 用于输出信息的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704857B (zh) * 2017-09-25 2020-07-24 北京邮电大学 一种端到端的轻量级车牌识别方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469304A (zh) * 2016-09-22 2017-03-01 西安理工大学 基于深度卷积神经网络的票据中手写签名位置定位方法
CN106682697A (zh) * 2016-12-29 2017-05-17 华中科技大学 一种基于卷积神经网络的端到端物体检测方法
CN108664897A (zh) * 2018-04-18 2018-10-16 平安科技(深圳)有限公司 票据识别方法、装置及存储介质
CN109410275A (zh) * 2018-10-15 2019-03-01 深圳步智造科技有限公司 位置预测方法、装置、设备以及可读存储介质
CN110110663A (zh) * 2019-05-07 2019-08-09 江苏新亿迪智能科技有限公司 一种基于人脸属性的年龄识别方法及系统
CN110084221A (zh) * 2019-05-08 2019-08-02 南京云智控产业技术研究院有限公司 一种基于深度学习的带中继监督的序列化人脸关键点检测方法
CN110458918A (zh) * 2019-08-16 2019-11-15 北京百度网讯科技有限公司 用于输出信息的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘亚雄 ; 梁庆华 ; 罗磊.基于蒙特卡洛模拟的夹具定位误差分析与预测.《机械设计与研究》.2019,第35卷(第35期),104-109、113. *
顾嘉运, 刘晋飞, 陈明 .基于SVM的大样本数据回归预测改进算法.《计算机工程》.2014,(第undefined期),161-166. *

Also Published As

Publication number Publication date
CN111160142A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN108388896B (zh) 一种基于动态时序卷积神经网络的车牌识别方法
CN110414507B (zh) 车牌识别方法、装置、计算机设备和存储介质
CN109299720B (zh) 一种基于轮廓片段空间关系的目标识别方法
CN109118473B (zh) 基于神经网络的角点检测方法、存储介质与图像处理系统
CN108345827B (zh) 识别文档方向的方法、系统和神经网络
CN110647795B (zh) 一种表格识别方法
CN110826458A (zh) 一种基于深度学习的多光谱遥感图像变化检测方法及系统
US9224207B2 (en) Segmentation co-clustering
CN111160142B (zh) 一种基于数值预测回归模型的证件票据定位检测方法
US20200134382A1 (en) Neural network training utilizing specialized loss functions
CN116664559A (zh) 基于机器视觉的内存条损伤快速检测方法
CN111369526B (zh) 基于半监督深度学习的多类型旧桥裂痕识别方法
CN113436162B (zh) 一种水下机器人液压油管道表面焊缝缺陷识别方法及装置
CN115147418B (zh) 缺陷检测模型的压缩训练方法和装置
CN109242832B (zh) 一种多时相多光谱遥感影像变化检测方法及系统
CN111523342A (zh) 一种复杂场景下的二维码检测和校正方法
CN113688821A (zh) 一种基于深度学习的ocr文字识别方法
CN110837787B (zh) 一种三方生成对抗网络的多光谱遥感图像检测方法及系统
CN111950556A (zh) 一种基于深度学习的号牌印刷质量检测方法
CN112101395A (zh) 一种图像的识别方法及装置
CN111753723B (zh) 一种基于密度校准的指纹识别方法及装置
CN114998630A (zh) 一种从粗到精的地对空图像配准方法
CN109784121B (zh) Dot-peen DPM码的识别方法及装置
US11164035B2 (en) Neural-network-based optical character recognition using specialized confidence functions
CN104156696A (zh) 基于双方向图的快速局部不变特征描述子的构造方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant