CN114299371A - 证件识别模型训练及证件识别的方法、系统、设备及介质 - Google Patents

证件识别模型训练及证件识别的方法、系统、设备及介质 Download PDF

Info

Publication number
CN114299371A
CN114299371A CN202111437612.3A CN202111437612A CN114299371A CN 114299371 A CN114299371 A CN 114299371A CN 202111437612 A CN202111437612 A CN 202111437612A CN 114299371 A CN114299371 A CN 114299371A
Authority
CN
China
Prior art keywords
certificate
image
image data
recognition model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111437612.3A
Other languages
English (en)
Inventor
蔡壮壮
林大权
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202111437612.3A priority Critical patent/CN114299371A/zh
Publication of CN114299371A publication Critical patent/CN114299371A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及人工智能技术领域,提供一种证件识别模型训练及证件识别的方法、系统、设备及介质。证件识别模型训练方法包括:获取多个证件图像;根据证件图像是否含有摩尔纹特征,对每个证件图像添加数据标签;将含数据标签的证件图像进行分组,获得包含多组图像数据的图像数据集,每一组图像数据包括多个含数据标签的证件图像;将图像数据集中的每一组图像数据分别输入至待训练的证件识别模型进行迭代训练,基于迭代训练的结果更新模型的权重,得到训练好的证件识别模型。本发明通过构建的证件识别模型来识别证件中是否含有摩尔纹信息,从而判断证件的真伪。提高了证件真伪鉴别的准确度。

Description

证件识别模型训练及证件识别的方法、系统、设备及介质
技术领域
本发明涉及人工智能技术领域,特别涉及一种证件识别模型训练及证件识别的方法、系统、设备及介质。
背景技术
随着科技的不断发展,证件类的仿造技术越来越高超,因此,证件防伪技术是每个国家和企业都比较关注的事情。摩尔纹可以用来鉴别真实拍摄的照片和通过屏幕偷拍的照片。通常手机或者数码相机拍摄屏幕时,照片都会产生摩尔纹,摩尔效应指两个重叠的线条形态所产生的干扰中生成的一种扫描波纹团。它是来自光罩形状和视频信号之间的干扰,扫描波纹则来自于水平线条与荫罩形态之间的干扰。波纹在屏幕上是以波形的状态显示出来的,当显示器的分辨率增加时,这一现象会更为明显。由于证件类的数据很难获得,只能得到少量的数据,导致证件防伪技术中使用摩尔纹的特点进行鉴别的方法很少,大部分都是通过传统的方法来做,例如通过机器学习。但机器学习运用到证件防伪中时,其识别准确率较低。为了保证较高的识别准确度,很多地方甚至直接通过人工鉴别证件真伪。这导致人力资源大量浪费,同时识别效率低下。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明的目的在于提供一种证件识别模型训练及证件识别的方法、系统、设备及介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
为实现上述目的及其他相关目的,本发明提供一种证件识别模型训练方法,包括:
获取多个证件图像;
根据证件图像是否含有摩尔纹特征,对每个证件图像添加数据标签;
将含数据标签的证件图像进行分组,获得包含多组图像数据的图像数据集,每一组图像数据包括多个含数据标签的证件图像;
将所述图像数据集中的每一组图像数据分别输入至待训练的证件识别模型进行迭代训练,并基于迭代训练的结果更新模型的权重,得到训练好的证件识别模型,所述证件识别模型是将ResNet18网络与Softmax分类器串联组成。
在本发明的一个实施例中,所述获取多个证件图像包括:
获取多个证件图像,其中,证件图像是对多个证件进行多角度拍摄获得;
对每一个证件图像的图像尺寸进行归一化处理:
沿证件图像的长边方向,将证件图像的长边缩放至预设尺寸;
按照所述长边的缩放比例,沿证件图像的短边方向进行缩放。
在本发明的一个实施例中,所述将含数据标签的证件图像进行分组,获得包含多组图像数据的图像数据集包括:
根据预设的性能参数,确定输入至所述待训练的证件识别模型时所需训练样本的数量,其中,所述性能参数至少包括中央处理器CPU型号、CPU个数、图形处理器GPU型号、梯度初始值、处理预设数目的训练样本所耗时长;
根据所述训练样本的数量,对所述含数据标签的证件图像进行划分,获取多组图像数据。
在本发明的一个实施例中,所述将所述图像数据集中的每一组图像数据分别输入至待训练的证件识别模型进行迭代训练,并基于迭代训练的结果更新模型的权重,得到训练好的证件识别模型,所述证件识别模型是将ResNet18网络与Softmax分类器串联组成包括:
S41、将一组图像数据输入至所述待训练的证件识别模型,通过卷积运算和残差连接,提取图像数据的特征向量,并将所述特征向量送入至所述Softmax 分类器进行映射,得到图像数据中是否含有摩尔纹信息的预测值;
S42、采用损失函数计算所述预测值的损失值,根据所述损失值更新所述待训练的证件识别模型的权重值;
S43、选择图像数据集中的另一组图像数据,重复步骤S41和S42进行迭代训练,直至完成预设的迭代次数,其中,所述迭代次数大于或等于所述图像数据集中图像数据的分组数量;
S44、选择损失值最小时的权重值作为证件识别模型的权重值,得到所述训练好的证件识别模型。
在本发明的一个实施例中,步骤S42中,所述根据所述损失值更新所述待训练的证件识别模型的权重值包括:
S421、获取证件识别模型的当前权重值;
S422、根据预设的权重更新规则,利用损失值和当前权重值进行计算,得到新的权重值;
S523、使用新的权重值作为待训练的证件识别模型的权重值。
在本发明的一个实施例中,所述将含数据标签的证件图像进行分组,获得包含多组图像数据的图像数据集,每一组图像数据包括多个含数据标签的证件图像之后,还包括:将所述图像数据集中各图像数据进行图像增强,所述图像增强方法至少包括高斯模糊、运动模糊、亮度、雨天模拟、雾天模拟、晴天模拟。
为实现上述目的及其他相关目的,本发明还提供一种证件真伪识别方法,包括:
获取待识别证件图像;
对所述待识别证件图像进行预处理,获得预处理图像;
将所述预处理图像输入至证件识别模型,得到所述预处理图像中含有摩尔纹特征的概率值,并根据所述概率值判断所述预处理图像是否含有摩尔纹特征;
根据所述预处理图像是否含有摩尔纹特征,判断所述待识别证件的真伪。
为实现上述目的及其他相关目的,本发明还提供一种证件识别模型训练系统,包括:
样本数据获取模块,用于获取多个证件图像;
数据标签添加模块,用于根据证件图像是否含有摩尔纹特征,对每个证件图像添加数据标签;
数据处理模块,用于将含数据标签的证件图像进行分组,获得包含多组图像数据的图像数据集,每一组图像数据包括多个含数据标签的证件图像;
训练模块,用于将所述图像数据集中的每一组图像数据分别输入至待训练的证件识别模型进行迭代训练,并基于迭代训练的结果更新模型的权重,得到训练好的证件识别模型,所述证件识别模型是将ResNet18网络与Softmax分类器串联组成;
为实现上述目的及其他相关目的,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
为实现上述目的及其他相关目的,本发明还提供一种计算机可读存储介质,其上存储于计算机程序,所述计算机程序被处理器执行时实现现上述方法的步骤。
本发明的证件识别模型训练及证件识别的方法、系统、设备及介质,可以将多个证件图像分别添加标签,然后进行分组处理,得到多组图像数据。将每一组图像数据分别输入待训练的证件识别模型进行训练,最终得到训练好的证件识别模型。实现了通过构建的证件识别模型来识别证件中是否含有摩尔纹信息,从而判断证件是否为翻拍获得,进一步可推知,若证件为翻拍,则证件为假,若证件不是翻拍,则证件为真。无需人工识别,节省了证件鉴别的处理时间,通过判断证件是否为翻拍所得,可以进一步提高证件真伪鉴别的准确度。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1显示为本发明一实施例中证件识别模型训练方法的流程示意图;
图2显示为本发明一实施例中证件识别模型训练方法步骤S10的流程示意图;
图3显示为本发明一实施例中证件识别模型训练方法步骤S30的流程示意图;
图4显示为本发明一实施例中证件识别模型训练方法步骤S40的流程示意图;
图5显示为本发明一实施例中证件识别模型训练方法步骤S42的流程示意图;
图6显示为本发明一实施例中证件真伪识别方法的流程示意图;
图7显示为本发明一实施例中证件识别模型训练系统的结构框图;
图8显示为本发明一实施例中证件真伪识别系统的结构框图;
图9显示为本发明一实施例中电子设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
请参阅图1-5。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
图1示出了本发明的证件识别模型训练方法的流程示意图。
所述证件识别模型训练方法应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital SignalProcessor,DSP)、嵌入式设备等。
所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant, PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备等。
所述电子设备还可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算 (CloudComputing)的由大量主机或网络服务器构成的云。
所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
下面将结合图1来详细阐述本发明的证件识别模型训练方法。
一种证件识别模型训练方法,包括:
S10、获取多个证件图像。
具体地,如图2所示,所述获取多个证件图像包括:
S11、获取多个证件图像,其中,证件图像是对多个证件进行多角度拍摄获得;
S12、对每一个证件图像的图像尺寸进行归一化处理:
沿证件图像的长边方向,将证件图像的长边缩放至预设尺寸;
按照所述长边的缩放比例,沿证件图像的短边方向进行缩放。
本实施例中,含有摩尔纹的证件图像和不含摩尔纹的证件图像是由安装在终端设备上的摄像头采集获得。其中终端设备包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等装备。证件的类型包括但不限于身份证和护照等。由于摩尔纹存在于屏幕翻拍图像中,可通过终端设备的摄像头拍摄显示屏上显示的证件图像。具体地,拍摄时,操作人员在0 至360度角度范围内转动摄像头进行拍摄,具体角度不做限定,只要可以拍摄到带有摩尔纹的图像即可。由于拍摄设备的像素不同,拍摄到的摩尔纹清晰度存在差异,因此还可以使用不同的拍摄设备以不同距离进行拍摄。对每张证件图像都采用上述拍摄方法,从而获取多个不同摩尔纹角度面的证件图像,构建样本数据集。另一方面,为了增加样本数据集中负样本的数量,可通过拍摄装置的摄像头直接拍摄证件,形成若干个负样本数据。由于证件处于不同拍摄角度时,摩尔纹在证件上的显示也不尽相同。通过这种不同角度的拍摄,可以拍摄到多种角度下摩尔纹的特征,有效提高了样本的多样性,增强了模型的识别性能。此外,为了尽可能提升模型的识别性能,样本数据量越大越好,但考虑到证件类数据获取较为困难,实际操作时,本领域技术人员可根据得到的证件图像适应性选择数据量的取值。进一步地,为了节约数据的收集时间,可选用开源数据集,例如在干净的图片上加干涉条纹,形成模拟摩尔纹的数据集。但由于这种模拟摩尔纹的数据没有真实场景的数据好,因此将这种开源数据集用于扩充样本数据,增加模型的准确度。由于不同规格的摄像头具有不同的分辨率,因此拍摄到的证件图像的分辨率也会不同,为了统一图像尺寸,便于后期分块分隔,在本实施例中,证件识别模型训练方法还包括:将所述多个证件图像缩放至统一尺寸。作为示例,本实施例中,所述证件图像的缩放方法为:长短边等比例缩放。将图像的长边缩放至预设尺寸,再将短边等比例缩放。当然,在其他实施例中,图像缩放还可采用双线性插值或各向异性缩放等方式,在此不做限定。可以理解的是,图像缩放后的最终尺寸并没有固定要求,本领域技术人员可根据模型的实际需要适应性改变图像缩放的最终尺寸,在此不做限制。
在一实施例中,按照一定比例将样本数据集分为训练集和测试集,训练集用于确定模型参数,测试集用于检验训练好的模型的泛化能力。考虑到训练集太小时,神经网络容易出现欠拟合的现象,导致模型不能很好的拟合数据特征,使得最终预测精度偏小。训练集太大时,神经网络容易出现过拟合的现象,导致模型泛化能力不高。在一实施例中,所述样本数据集中训练集和测试集的比例为8:2。这样既可对模型进行有效训练,同时又可以改善训练样本过多导致过拟合的现象。当然,训练集和测试集的样本比例不做固定限制,本领域技术人员可根据实际需要适应性改变。
接着,执行步骤S20、根据证件图像是否含有摩尔纹特征,对每个证件图像添加数据标签。通过标注的方式,将样本数据集中含摩尔纹信息的样本数据标注的数据标签为1,作为正样本,不含摩尔纹信息的样本数据标注的数据标签为0,作为负样本,相当于把带有摩尔纹特征的区域筛选出来。
接着,执行步骤S30、将含数据标签的证件图像进行分组,获得包含多组图像数据的图像数据集,每一组图像数据包括多个含数据标签的证件图像。
具体地,如图3所示,所述将含数据标签的证件图像进行分组,获得包含多组图像数据的图像数据集包括:
S31、根据预设的性能参数,确定输入至待训练的证件识别模型时所需训练样本的数量,其中,所述性能参数至少包括中央处理器CPU型号、CPU个数、图形处理器GPU型号、梯度初始值、处理预设数目的训练样本所耗时长;
S32、根据所述训练样本的数量,对所述含数据标签的证件图像进行划分,获取多组图像数据。
通过将含数据标签的证件图像划分为多组图像数据,以利用分批训练更新模型的参数,从而减少计算的开销,降低随机性,有效提高了模型的准确度。其中,图像数据是指对多个含数据标签的证件图像进行分批处理得到的若干个数量较小的证件图像的集合。例如,证件图像中的图像为8千个,将证件图像划分为4组,每组图像数据中含有证件图像的数量为2千个。
接着,执行步骤S40、将所述图像数据集中的每一组图像数据分别输入至待训练的证件识别模型进行迭代训练,并基于迭代训练的结果更新模型的权重,得到训练好的证件识别模型,所述证件识别模型是将ResNet18网络与Softmax 分类器串联组成。
具体地,如图4所示,所述将所述图像数据集中的每一组图像数据分别输入至待训练的证件识别模型进行迭代训练,并基于迭代训练的结果更新模型的权重,得到训练好的证件识别模型,所述证件识别模型是将ResNet18网络与 Softmax分类器串联组成包括:
S41、将一组图像数据输入至所述待训练的证件识别模型,通过卷积运算和残差连接,提取图像数据的特征向量,并将所述特征向量送入至所述Softmax 分类器进行映射,得到图像数据中是否含有摩尔纹信息的预测值;
S42、采用损失函数计算所述预测值的损失值,根据所述损失值更新所述待训练的证件识别模型的权重值;
S43、选择图像数据集中的另一组图像数据,重复步骤S41和S42进行迭代训练,直至完成预设的迭代次数,其中,所述迭代次数大于或等于所述图像数据集中图像数据的分组数量;
S44、选择损失值最小时的权重值作为证件识别模型的权重值,得到所述训练好的证件识别模型。
具体地,如图5所示,本实施例中,步骤S42中,所述根据所述损失值更新所述待训练的证件识别模型的权重值包括:
S421、获取证件识别模型的当前权重值;
S422、根据预设的权重更新规则,利用损失值和当前权重值进行计算,得到新的权重值;
S423、使用新的权重值作为待训练的证件识别模型的权重值。
深度学习的基本架构是卷积神经网络(Convolutional Neural Network,CNN),其可以通过局部感受来自动提取图像特征,避免了前期图像预处理时所掺杂的人为因素。作为卷积神经网络高级变形的深度残差网络ResNet,由于增加了直连通道,通过将输入信息绕道传至输出,保护了信息的完整性,整个网络只需要学习输入和输出差别的部分,简化了学习目标和难度。同时,相较于AlexNet、 VGGNet到GoogLeNet网络等,深度残差网络ResNet可以具有更深层次的网络结构,避免了梯度消失的现象,使得模型判断证件真伪的精度大为提升。本实施例中摩尔纹识别网络模型是基于ResNet18网络与Softmax层进行构建,具体地,将图像送入ResNet18网络后,首先通过卷积运算和残差连接得到图像中摩尔纹的特征向量,将摩尔纹的特征向量送入至Softmax层进行映射,得到图像中是否含有摩尔纹信息的概率值。并将此概率值通过损失函数进行损失计算,根据计算的结果,更新证件识别模型中的各参数和权重,得到更新后的证件识别模型。再次进行训练,直至损失函数收敛。训练结束,得到训练好的证件识别模型,封装使用。在本实施例中,权重更新规则为:按照链式求导法则进行求导。具体地,误差反向传播梯度计算公式为:Gradp=((wp-1)TGradp-1)δ,其中,δ为当前梯度的损失函数值,Gradp为第p层的误差反向传播梯度,Wp-1为第p-1次迭代训练时神经元的权重,根据反向传播梯度,使用下式计算权重更新值:wp=wp-1-ε·Gradp,其中,ε为学习率,wp表示当前神经元的权重。
在一实施例中,所述将含数据标签的证件图像进行分组,获得包含多组图像数据的图像数据集,每一组图像数据包括多个含数据标签的证件图像之后,还包括:将所述图像数据集中各图像数据进行图像增强,所述图像增强方法至少包括高斯模糊、运动模糊、亮度、雨天模拟、雾天模拟、晴天模拟。由于训练集中的数据比较干净,证件照片都非常清楚。但在真实场景中,证件的表面都会有各种各样的模糊问题,为了构造出和真实情况类似的视图,需要在图像快上面增加各种图像增强算法。一方面可以提高模型的鲁棒性,提升模型的泛化性能,另一方面对于本申请的小样本学习而言,增加了样本数量,有利于模型快速收敛。图像增强算法包括但不限于亮度、色度、对比度、锐度、高斯模糊、运动模糊、高斯噪声、分辨率随机调整、雨天场景模拟、雾天场景模拟、晴天场景模拟等。将同一组图像数据中的多个证件图像按照预设比例随机分为不同的子组,将同一子组内的证件图像随机选取上述增强算法中的一种或多种进行增强。需要说明的是,同一组图像数据中相同的证件图像可重复抽取多次,进一步扩大样本数量。此外,上述增强算法是在opencv里面封装好的,直接调用即可。
在一实施例中,在将图像数据集中各组图像数据进行图像增强之后,证件识别模型训练方法还包括:对所述图像数据集中各图像分别进行归一化处理,得到多个目标图像,每个所述目标图像与一个所述证件图像相对应。
在本实施例中,考虑到输入数据的规范性。将图像输入至证件识别模型之前,需要先对各组图像数据中每个证件图像进行归一化处理。在本实施例中,对于每个证件图像,按照公式(1)进行归一化,将像素取值范围由0-255归一化至0-1区间。
Figure RE-GDA0003525846990000111
其中,μik、σik分别为每一组图像数据在(i,k)坐标处的均值和方差。M 表示图像中一行像素的总量,N表示图像中一列像素的总量,A为每一组图像数据中证件图像的总量。以像素坐标系表示,
Figure RE-GDA0003525846990000112
为归一化后得到的第a张目标图像在(i,k)坐标处的像素值,xik为第a张证件图像在(i,k)坐标处的像素值。
需要说明的是,归一化也可采用其他合适的方式进行,本领域技术人员可根据需要适应性选取合适的方式。
在一实施例中,所述证件识别模型的损失函数L公式是:
Figure RE-GDA0003525846990000113
其中,label为标签,p为标签为1时预测正确的概率,ξ为权重因子,γ为权衡难易样本的可调参数。通过使用Focal Loss 损失函数,有效平衡正、负样本和难、易样本,针对于本申请中正样本较少、负样本较多这一情况,可以更好的处理正负样本比例失衡的问题。
由于证件类的数据很难获得,只能得到少量的数据,在一实施例中,所述证件识别模型是基于小样本学习得到。通过将样本数据做各种数据增强,以及变换不同角度拍摄,得到充分的样本数据进行训练,本实施例中证件识别模型的准确率是98%,召回率是98%,F1分数是98%。实现了用少量数据训练得到较好模型的这一目的。其中,准确率表示样本被预测正确的概率,召回率表示实际为真的样本中预测正确的概率,F1分数是统计学中用来衡量二分类模型精确度的一种指标。
在一实施例中,所述证件识别模型的学习率使用监控指标方式调整。通过监控某一个或多个参数,当参数不再变好时就调整学习率。例如,通过监控Loss 不再下降,或分类准确率acc不再上升时就进行学习率调整,每次调整完成后,给一定的冷却时间,待冷却时间过了之后再继续监控。这种方式可以根据参数需要,更加精准的调整学习率至所需数值,降低了模型的训练时间。
如图6所示,是本发明证件真伪识别方法的流程示意图。在一实施例中,提供一种证件真伪识别方法,其技术方案主要包括以下步骤S100-S400:
S100、获取待识别证件图像;
S200、对所述待识别证件图像进行预处理,获得预处理图像;
S300、将所述预处理图像输入证件识别模型,得到所述预处理图像中含有摩尔纹特征的概率值,并根据所述概率值判断所述预处理图像是否含有摩尔纹特征;
S400、根据所述预处理图像是否含有摩尔纹特征,判断所述待识别证件的真伪。
将待识别证件图像缩放至预设尺寸后,进行预处理,得到预处理图像。其中,预处理的方式为将待识别图像进行归一化,当然,本领域技术人员还可根据需要改变对应的预处理方式。将得到的预处理图像输入至训练好的证件识别模型后,提取预处理图像中的摩尔纹特征向量,得到其含有摩尔纹特征的概率值。如果得到的概率值大于或等于预设概率阈值,则预处理图像含有摩尔纹特征;若概率值小于预设概率阈值,则认为预处理图像不含有摩尔纹特征。若预处理图像不含摩尔纹特征,则认为待识别证件图像没有翻拍,进一步可认为该证件为真。否则,待识别证件图像为翻拍获得,进一步可认为该待识别证件为假。举例而言,一张带摩尔纹信息的预处理图像,经过训练好的证件识别模型得到两个分数【0.1,0.9】,说明这张目标图像带摩尔纹信息的概率为90%,不带摩尔纹信息的概率为10%,Softmax函数选取数值最大的概率作为模型的最终输出。此时预设概率阈值为0.5,认为此预处理图像中含有摩尔纹信息,则预处理图像对应的证件图像中必然含有摩尔纹信息,因此证件不是翻拍所得。可以理解的是,预设概率阈值可根据实际需要适应性调整。
需要说明的是,在本发明中,为了进一步保证数据的安全性,还可以将涉及到的数据及模型部署于区块链,以防止数据被恶意篡改。
需要说明的是,上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包含相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
如图7所示,是本发明的证件识别模型训练系统的结构框图。所述证件识别模型训练系统包括:证件图像获取模块111、数据标签添加模块112、数据处理模块113和训练模块114。本发明所称的模块是指一种能够被处理器14所执行,并且能够完成固定功能的一系列计算机程序段,其存储在存储器13中。
所述证件图像获取模块111用于获取多个证件图像。
本实施例中,含有摩尔纹的证件图像和不含摩尔纹的证件图像是由安装在终端设备上的摄像头采集获得。其中终端设备包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等装备。证件的类型包括但不限于身份证和护照等。由于摩尔纹存在于屏幕翻拍图像中,可通过终端设备的摄像头拍摄显示屏上显示的证件图像。具体地,拍摄时,操作人员在0 至360度角度范围内转动摄像头进行拍摄,具体角度不做限定,只要可以拍摄到带有摩尔纹的图像即可。由于拍摄设备的像素不同,拍摄到的摩尔纹清晰度存在差异,因此还可以使用不同的拍摄设备以不同距离进行拍摄。对每张证件图像都采用上述拍摄方法,从而获取多个不同摩尔纹角度面的证件图像,构建样本数据集。另一方面,为了增加样本数据集中负样本的数量,可通过拍摄装置的摄像头直接拍摄证件,形成若干个负样本数据。由于证件处于不同拍摄角度时,摩尔纹在证件上的显示也不尽相同。通过这种不同角度的拍摄,可以拍摄到多种角度下摩尔纹的特征,有效提高了样本的多样性,增强了模型的识别性能。此外,为了尽可能提升模型的识别性能,样本数据量越大越好,但考虑到证件类数据获取较为困难,实际操作时,本领域技术人员可根据得到的证件图像适应性选择数据量的取值。进一步地,为了节约数据的收集时间,可选用开源数据集,例如在干净的图片上加干涉条纹,形成模拟摩尔纹的数据集。但由于这种模拟摩尔纹的数据没有真实场景的数据好,因此将这种开源数据集用于扩充样本数据,增加模型的准确度。由于不同规格的摄像头具有不同的分辨率,因此拍摄到的证件图像的分辨率也会不同,为了统一图像尺寸,便于后期分块分隔,在本实施例中,证件识别模型训练方法还包括:将所述多个证件图像缩放至统一尺寸。作为示例,本实施例中,所述证件图像的缩放方法为:长短边等比例缩放。将图像的长边缩放至预设尺寸,再将短边等比例缩放。当然,在其他实施例中,图像缩放还可采用双线性插值或各向异性缩放等方式,在此不做限定。可以理解的是,图像缩放后的最终尺寸并没有固定要求,本领域技术人员可根据模型的实际需要适应性改变图像缩放的最终尺寸,在此不做限制。
所述数据标签添加模块112用于根据证件图像是否含有摩尔纹特征,对每个证件图像添加数据标签。
通过标注的方式,将样本数据集中含摩尔纹信息的样本数据标注的数据标签为1,作为正样本,不含摩尔纹信息的样本数据标注的数据标签为0,作为负样本,相当于把带有摩尔纹特征的区域筛选出来。
所述数据处理模块113用于将含数据标签的证件图像进行分组,获得包含多组图像数据的图像数据集,每一组图像数据包括多个含数据标签的证件图像。
通过将含数据标签的证件图像划分为多组图像数据,以利用分批训练更新模型的参数,从而减少计算的开销,降低随机性,有效提高了模型的准确度。其中,图像数据是指对含数据标签的证件图像进行分批处理得到的若干个数量较小的证件图像的集合。例如,证件图像中的图像为8千个,将证件图像划分为4组,每组图像数据中含有证件图像的数量为2千个。
所述训练模块114用于将所述图像数据集中的每一组图像数据分别输入至待训练的证件识别模型进行迭代训练,并基于迭代训练的结果更新模型的权重,得到训练好的证件识别模型,所述证件识别模型是将ResNet18网络与Softmax 分类器串联组成。
深度学习的基本架构是卷积神经网络(Convolutional Neural Network,CNN),其可以通过局部感受来自动提取图像特征,避免了前期图像预处理时所掺杂的人为因素。作为卷积神经网络高级变形的深度残差网络ResNet,由于增加了直连通道,通过将输入信息绕道传至输出,保护了信息的完整性,整个网络只需要学习输入和输出差别的部分,简化了学习目标和难度。同时,相较于AlexNet、 VGGNet到GoogLeNet网络等,深度残差网络ResNet可以具有更深层次的网络结构,避免了梯度消失的现象,使得模型判断证件真伪的精度大为提升。本实施例中摩尔纹识别网络模型是基于ResNet18网络与Softmax层进行构建,具体地,将图像送入ResNet18网络后,首先通过卷积运算和残差连接得到图像中摩尔纹的特征向量,将摩尔纹的特征向量送入至Softmax层进行映射,得到图像中是否含有摩尔纹信息的概率值。并将此概率值通过损失函数进行损失计算,根据计算的结果,更新证件识别模型中的各参数和权重,得到更新后的证件识别模型。再次进行训练,直至损失函数收敛。训练结束,得到训练好的证件识别模型,封装使用在本实施例中,权重更新规则为:按照链式求导法则进行求导。具体地,误差反向传播梯度计算公式为:Gradp=((wp-1)TGradp-1)δ,其中,δ为当前梯度的损失函数值,Gradp为第p层的误差反向传播梯度,wp-1为第p-1 次迭代训练时神经元的权重,根据反向传播梯度,使用下式计算权重更新值: wp=wp-1-ε·Gradp,其中,ε为学习率,wp表示当前神经元的权重。
需要说明的是,本实施例的证件识别模型训练系统是与上述证件识别模型训练方法相对应的系统。证件识别模型训练系统中的功能模块或者分别对应证件识别模型训练方法中的相应步骤。本实施例的证件识别模型训练系统可与证件识别模型训练方法相互相配合实施。相应地,本实施例的证件识别模型训练系统中提到的相关技术细节也可应用在上述证件识别模型训练方法中。
如图8所示,是本发明的证件真伪识别系统的结构框图。所述证件识别模型训练系统包括:图像获取模块121,预处理模块122、输入模块123,识别模块124。本发明所称的模块是指一种能够被处理器14所执行,并且能够完成固定功能的一系列计算机程序段,其存储在存储器13中。
所述图像获取模块121用于获取待识别证件图像。
所述预处理模块122用于对所述待识别证件图像进行预处理,获得预处理图像。
所述输入模块123用于将所述预处理图像输入至证件识别模型,得到所述预处理图像中含有摩尔纹特征的概率值,并根据所述概率值判断所述预处理图像是否含有摩尔纹特征。
所述识别模块124用于根据所述预处理图像是否含有摩尔纹特征,判断所述待识别证件的真伪。
将待识别证件图像缩放至预设尺寸后,进行预处理,得到预处理图像。其中,预处理的方式为将待识别图像进行归一化,当然,本领域技术人员还可根据需要改变对应的预处理方式。将得到的预处理图像输入至训练好的证件识别模型后,提取预处理图像中的摩尔纹特征向量,得到其含有摩尔纹特征的概率值。如果得到的概率值大于或等于预设概率阈值,则预处理图像含有摩尔纹特征;若概率值小于预设概率阈值,则认为预处理图像不含有摩尔纹特征。若预处理图像不含摩尔纹特征,则认为待识别证件图像没有翻拍,进一步可认为该证件为真。否则,待识别证件图像为翻拍获得,进一步可认为该待识别证件为假。举例而言,一张带摩尔纹信息的预处理图像,经过训练好的证件识别模型得到两个分数【0.1,0.9】,说明这张目标图像带摩尔纹信息的概率为90%,不带摩尔纹信息的概率为10%,Softmax函数选取数值最大的概率作为模型的最终输出。此时预设概率阈值为0.5,认为此预处理图像中含有摩尔纹信息,则预处理图像对应的证件图像中必然含有摩尔纹信息,因此证件不是翻拍所得。可以理解的是,预设概率阈值可根据实际需要适应性调整。
需要说明的是,本实施例的证件真伪识别系统是与上述证件真伪识别方法相对应的系统证件真伪识别系统中的功能模块或者分别对应证件真伪识别方法中的相应步骤。本实施例的证件真伪识别系统可与证件真伪识别方法相互相配合实施。相应地,本实施例的证件真伪识别系统中提到的相关技术细节也可应用在上述证件真伪识别方法中。
需要说明的是,上述的各功能模块实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的部分或全部步骤,或以上的各功能模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
如图9所示,是本发明电子设备的结构示意图。
所述电子设备1可以包括存储器13、处理器14和总线,还可以包括存储在所述存储器13中并可在所述处理器14上运行的计算机程序,例如基于方向检测的文字识别程序。
其中,存储器13至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器13在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。存储器13在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器13还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器13不仅可以用于存储安装于电子设备1 的应用软件及各类数据,例如基于方向检测的文字识别程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器14在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器14是所述电子设备 1的控制核心(Control Unit),利用各种接口和线路连接整个电子设备1的各个部件,通过运行或执行存储在所述存储器13内的程序或者模块(例如执行体检报告校验程序等),以及调用存储在所述存储器13内的数据,以执行电子设备 1的各种功能和处理数据。
所述处理器14执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器14执行所述应用程序以实现上述各个证件识别模型训练方法实施例中的步骤,例如图1所示的步骤。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器13中,并由所述处理器14执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述电子设备1中的执行过程。例如,所述计算机程序可以被分割成样本数据集获取模块111、数据标签添加模块112,数据处理模块13和训练模块114。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、计算机设备,或者网络设备等) 或处理器(processor)执行本发明各个实施例所述体检项目推荐方法的部分功能。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA) 总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,在图5中仅用一根箭头表示,但并不表示仅有一根总线或一种类型的总线。所述总线被设置为实现所述存储器13以及至少一个处理器14等之间的连接通信。
本发明的证件识别模型训练及证件识别的方法、系统、设备及介质,可以将样本数据集中证件图像添加标签,然后进行分组处理,得到多组图像数据,将每一组图像数据分别输入待训练的证件识别模型进行训练,最终得到训练好的证件识别模型。实现了通过构建的证件识别模型来识别证件中是否含有摩尔纹信息,从而判断证件是否为翻拍获得,进一步可推知,若证件为翻拍,则证件为假,若证件不是翻拍,则证件为真。无需人工识别,节省了证件鉴别的处理时间,通过判断证件是否为翻拍所得,可以进一步提高证件真伪鉴别的准确度。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种证件识别模型训练方法,其特征在于,包括:
获取多个证件图像;
根据证件图像是否含有摩尔纹特征,对每个证件图像添加数据标签;
将含数据标签的证件图像进行分组,获得包含多组图像数据的图像数据集,每一组图像数据包括多个含数据标签的证件图像;
将所述图像数据集中的每一组图像数据分别输入至待训练的证件识别模型进行迭代训练,并基于迭代训练的结果更新模型的权重,得到训练好的证件识别模型,所述证件识别模型是将ResNet18网络与Softmax分类器串联组成。
2.根据权利要求1所述的证件识别模型训练方法,其特征在于,所述获取多个证件图像包括:
获取多个证件图像,其中,证件图像是对多个证件进行多角度拍摄获得;对每一个证件图像的图像尺寸进行归一化处理:
沿证件图像的长边方向,将证件图像的长边缩放至预设尺寸;
按照所述长边的缩放比例,沿证件图像的短边方向进行缩放。
3.根据权利要求1所述的证件识别模型训练方法,其特征在于,所述将含数据标签的证件图像进行分组,获得包含多组图像数据的图像数据集包括:
根据预设的性能参数,确定输入至所述待训练的证件识别模型时所需训练样本的数量,其中,所述性能参数至少包括中央处理器CPU型号、CPU个数、图形处理器GPU型号、梯度初始值、处理预设数目的训练样本所耗时长;
根据所述训练样本的数量,对所述含数据标签的证件图像进行划分,获取多组图像数据。
4.根据权利要求1所述的证件识别模型训练方法,其特征在于,所述将所述图像数据集中的每一组图像数据分别输入至待训练的证件识别模型进行迭代训练,并基于迭代训练的结果更新模型的权重,得到训练好的证件识别模型,所述证件识别模型是将ResNet18网络与Softmax分类器串联组成包括:
S41、将一组图像数据输入至所述待训练的证件识别模型,通过卷积运算和残差连接,提取图像数据的特征向量,并将所述特征向量送入至所述Softmax分类器进行映射,得到图像数据中是否含有摩尔纹信息的预测值;
S42、采用损失函数计算所述预测值的损失值,根据所述损失值更新所述待训练的证件识别模型的权重值;
S43、选择图像数据集中的另一组图像数据,重复步骤S41和S42进行迭代训练,直至完成预设的迭代次数,其中,所述迭代次数大于或等于所述图像数据集中图像数据的分组数量;
S44、选择损失值最小时的权重值作为证件识别模型的权重值,得到所述训练好的证件识别模型。
5.根据权利要求4所述的证件识别模型训练方法,其特征在于,步骤S42中,所述根据所述损失值更新所述待训练的证件识别模型的权重值包括:
S421、获取证件识别模型的当前权重值;
S422、根据预设的权重更新规则,利用损失值和当前权重值进行计算,得到新的权重值;
S423、使用新的权重值作为待训练的证件识别模型的权重值。
6.根据权利要求1所述的证件识别模型训练方法,其特征在于,所述将含数据标签的证件图像进行分组,获得包含多组图像数据的图像数据集,每一组图像数据包括多个含数据标签的证件图像之后,还包括:将所述图像数据集中各图像数据进行图像增强,所述图像增强方法至少包括高斯模糊、运动模糊、亮度、雨天模拟、雾天模拟、晴天模拟。
7.一种证件真伪识别方法,其特征在于,包括:
获取待识别证件图像;
对所述待识别证件图像进行预处理,获得预处理图像;
将所述预处理图像输入至证件识别模型,得到所述预处理图像中含有摩尔纹特征的概率值,并根据所述概率值判断所述预处理图像是否含有摩尔纹特征;
根据所述预处理图像是否含有摩尔纹特征,判断所述待识别证件的真伪。
8.一种证件识别模型训练系统,其特征在于,包括:
样本数据获取模块,用于获取多个证件图像,所述证件图像包括含有摩尔纹的证件图像和不含摩尔纹的证件图像;
数据标签模块,用于根据证件图像是否含有摩尔纹特征,对每个证件图像添加数据标签;
数据处理模块,用于将含数据标签的证件图像进行分组,获得包含多组图像数据的图像数据集,每一组图像数据包括多个含数据标签的证件图像;
训练模块,用于将所述图像数据集中的每一组图像数据分别输入至待训练的证件识别模型进行迭代训练,并基于迭代训练的结果更新模型的权重,得到训练好的证件识别模型,所述证件识别模型是将ResNet18网络与Softmax分类器串联组成。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202111437612.3A 2021-11-30 2021-11-30 证件识别模型训练及证件识别的方法、系统、设备及介质 Pending CN114299371A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111437612.3A CN114299371A (zh) 2021-11-30 2021-11-30 证件识别模型训练及证件识别的方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111437612.3A CN114299371A (zh) 2021-11-30 2021-11-30 证件识别模型训练及证件识别的方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN114299371A true CN114299371A (zh) 2022-04-08

Family

ID=80966514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111437612.3A Pending CN114299371A (zh) 2021-11-30 2021-11-30 证件识别模型训练及证件识别的方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN114299371A (zh)

Similar Documents

Publication Publication Date Title
WO2021164228A1 (zh) 一种图像数据的增广策略选取方法及系统
JP6629513B2 (ja) ライブネス検査方法と装置、及び映像処理方法と装置
CN108898086B (zh) 视频图像处理方法及装置、计算机可读介质和电子设备
WO2022161286A1 (zh) 图像检测方法、模型训练方法、设备、介质及程序产品
US10133921B2 (en) Methods and apparatus for capturing, processing, training, and detecting patterns using pattern recognition classifiers
CN108427927B (zh) 目标再识别方法和装置、电子设备、程序和存储介质
CN109492627B (zh) 一种基于全卷积网络的深度模型的场景文本擦除方法
EP4099217A1 (en) Image processing model training method and apparatus, device, and storage medium
EP4085369A1 (en) Forgery detection of face image
CN110852311A (zh) 一种三维人手关键点定位方法及装置
Wang et al. Image splicing detection based on convolutional neural network with weight combination strategy
CN111680675B (zh) 人脸活体检测方法、系统、装置、计算机设备和存储介质
CN110222572A (zh) 跟踪方法、装置、电子设备及存储介质
US20210012201A1 (en) Center-biased machine learning techniques to determine saliency in digital images
CN111104941B (zh) 图像方向纠正方法、装置及电子设备
CN113111880A (zh) 证件图像校正方法、装置、电子设备及存储介质
Chen et al. Image splicing localization using residual image and residual-based fully convolutional network
CN110163095B (zh) 回环检测方法、回环检测装置及终端设备
WO2022199395A1 (zh) 人脸活体检测方法、终端设备及计算机可读存储介质
US20240112318A1 (en) Artificial intelligence architectures for determining image authenticity
CN113033305B (zh) 活体检测方法、装置、终端设备和存储介质
CN111353325A (zh) 关键点检测模型训练方法及装置
Zheng et al. Template-aware transformer for person reidentification
CN114118412A (zh) 证件识别模型训练及证件识别的方法、系统、设备及介质
Singh et al. LBP and CNN feature fusion for face anti-spoofing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination