CN116895091A - 一种残缺图像的人脸识别方法、装置、芯片及终端 - Google Patents
一种残缺图像的人脸识别方法、装置、芯片及终端 Download PDFInfo
- Publication number
- CN116895091A CN116895091A CN202310911351.7A CN202310911351A CN116895091A CN 116895091 A CN116895091 A CN 116895091A CN 202310911351 A CN202310911351 A CN 202310911351A CN 116895091 A CN116895091 A CN 116895091A
- Authority
- CN
- China
- Prior art keywords
- face
- network
- image
- incomplete
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000001815 facial effect Effects 0.000 title claims description 12
- 238000000605 extraction Methods 0.000 claims abstract description 42
- 230000004927 fusion Effects 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000009977 dual effect Effects 0.000 claims description 11
- 230000006872 improvement Effects 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 11
- 230000007547 defect Effects 0.000 claims description 7
- 230000002950 deficient Effects 0.000 claims description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 210000000697 sensory organ Anatomy 0.000 claims description 6
- 230000001133 acceleration Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008033 biological extinction Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种残缺图像的人脸识别方法、装置、芯片及终端,通过特征提取网络对残缺图像进行处理获得待复原人脸图像,再将其输入WGAN网络中进行处理。WGAN网络计算基于N个待复原人脸图像的待识别人脸图像和基于人脸数据库的未残缺人脸图像之间的欧式距离,以分析待识别人脸图像与未残缺人脸图像为同一人,输出人脸识别结果,该方法对待复原人脸图像进行图像复原时,将复原重点集中在面部细节上,提高在残缺区域较大的情况下的人脸识别准确率。此外,在图像复原过程中,结合了深度卷积神经网络、融合空间以及通道维度上的信息,提升了WGAN网络的特征提取能力,进一步提高了基于残缺图像的人脸识别准确率。
Description
技术领域
本发明涉及人工智能技术领域,特别是涉及一种残缺图像的人脸识别方法、装置、芯片及存储介质。
背景技术
残缺是人脸识别算法研究中的重点和难点,在现实场景中口罩、墨镜、帽子、围巾等饰物的残缺会导致面部特征缺失,进而使得人脸识别准确率下降。因此,在对残缺图像进行人脸识别时,首先需要将残缺人脸图像进行复原,然后再将复原的人脸图像送入人脸识别网络进行判别。随着深度学习理论在计算机视觉等领域取得突破性进展,GAN(Generative Adversarial Networks,生成式对抗网络)网络在图像复原等领域取得了良好效果。GAN良好的特征表示能力可捕获高层语义特征,有效保持图像内容以及语义上的一致性。这种方法通过将待复原图像输入到神经网络中,让网络自动学习图片特征,然后从己学习到的特征中恢复缺失信息。
但是生成式对抗网络并不将复原重点放在面部细节上,不能很好的使用先验信息进行人脸图像复原,因此,其在残缺区域较大的情况下准确率低。
发明内容
基于此,本发明提供一种残缺图像的人脸识别方法、装置、芯片及存储介质,可以提高对残缺区域较大的残缺图像进行人脸识别时的准确率。
第一方面,提供一种残缺图像的人脸识别方法,包括:
将用户的N个残缺图像输入到特征提取网络进行处理获得待复原人脸图像,其中,N为正整数;
将待复原人脸图像与人脸数据库分别输入到WGAN网络进行特征提取,获得基于N个待复原人脸图像的待识别人脸图像和基于所述人脸数据库的未残缺人脸图像;
其中,所述WGAN网络包括融合特征模块;所述融合特征模块从通道维度提取所述N个待复原人脸图像的特征,并根据每个通道维度的所属权重进行加权计算完成信息融合生成待识别人脸图像;
计算所述待识别人脸图像与所述未残缺人脸图像的欧氏距离;
根据所述欧式距离输出基于所述用户的人脸识别结果;
其中,所述N个待复原人脸图像输入到所述WGAN网络后,所述WGAN网络给所述N个待复原人脸图像添加类别标签,生成待识别人脸图像时生成所述类别标签所指定的类别;所述类别标签包括纹理结构分布、边缘轮廓、五官之间的距离中的至少一种。
可选地,所述WGAN网络包括生成器和双判别器;
训练所述WGAN网络时,将具有类别标签的训练样本输入生成器,所述生成器输出生成样本;
所述双判别器根据推土机距离对比真实样本与所述生成样本,所述生成器根据对比结果,通过Adam优化器最小化损失函数进行优化训练。
可选地,所述双判别器基于GAN网络改进,改进部分包括:
所述双判别器的判别器网络使用卷积层代替池化层,并去除全连接层。
可选地,所述判别器网络的输出层使用BN层加速模型训练。
可选地,所述生成器基于GAN网络改进,改进部分包括:
所述生成器的生成器网络使用反卷积层代替池化层。
可选地,所述生成器网络的输入层使用BN层加速模型训练。
可选的,欧氏距离的计算公式为:
其中,xi为处理之后的待识别人脸图像的每一像素点的值,yi为人脸数据库中未残缺人脸图像中每一像素点的值,n为图像的像素点数。
可选的,所述通过Adam优化器最小化损失函数进行优化训练包括:最小化第一损失函数、第二损失函数和第三损失函数;
所述第一损失函数表示与残缺部分相关的上下文损失,所述第一损失函数中只考虑未残缺的区域:
Lcontextual(z)=||M⊙G(z)-M⊙Y||;
其中,M为图像的二值掩膜,由0/1矩阵构成,0表示该位置残缺需要复原;G为生成器生成样本的残缺区域;Y为真实样本的未残缺区域,⊙为Hadamard乘积,表示对应元素相乘;
第二个损失函数表示WGAN网络在训练损失函数:
Lperceptual(z)=log(1-D(G(z)));
其中,D表示判别器。
第三个损失函数表示对称损失:
L(z)=λ1Lcontextual(z)+λ2Lperceptual(z)+λ3Lm;
其中,w表示推土机距离,λ为衡量损失影响的权重。
可选地,将用户的N个残缺图像输入到特征提取网络进行处理获得待复原人脸图像,包括:
将用户的N个残缺图像输入到特征提取网络进行特征提取获得N个特征提取图像,每个所述特征提取图像包括5个关键点;
通过所述特征提取网络,根据所述关键点将所述N个特征提取图像对齐,并归一化图像大小,获得待复原人脸图像。
第二方面,提供一种残缺图像的人脸识别装置,包括:
图像预处理模块,用于将用户的N个残缺图像输入到特征提取网络进行处理获得待复原人脸图像,其中,N为正整数;
人脸图像复原模块,用于将待复原人脸图像与人脸数据库分别输入到WGAN网络进行特征提取,获得基于N个待复原人脸图像的待识别人脸图像和基于所述人脸数据库的未残缺人脸图像;
其中,所述WGAN网络包括融合特征模块;所述融合特征模块从通道维度提取所述N个待复原人脸图像的特征,并根据每个通道维度的所属权重进行加权计算完成信息融合生成待识别人脸图像;
欧式距离计算模块,用于计算所述待识别人脸图像与所述未残缺人脸图像的欧氏距离;
人脸识别模块,用于根据所述欧式距离输出基于所述用户的人脸识别结果;
其中,所述N个待复原人脸图像输入到所述WGAN网络后,所述WGAN网络给所述N个待复原人脸图像添加类别标签,生成待识别人脸图像时生成所述类别标签所指定的类别;所述类别标签包括纹理结构分布、边缘轮廓、五官之间的距离中的至少一种。
第三方面,提供一种芯片,包括处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如权利要求1至7任一项所述的残缺图像的人脸识别方法的各个步骤。
第四方面,提供一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,处理器执行所述计算机程序时实现如上介绍的残缺图像的人脸识别方法的各个步骤。
上述残缺图像的人脸识别方法、装置、芯片及存储介质,先通过特征提取网络对残缺图像进行处理获得待复原人脸图像,再将其输入WGAN网络中进行处理。WGAN网络计算基于N个待复原人脸图像的待识别人脸图像和基于人脸数据库的未残缺人脸图像之间的欧式距离,以分析待识别人脸图像与未残缺人脸图像为同一人,输出人脸识别结果,即待识别人脸图像与未残缺人脸图像为同一人时,将未残缺人脸图像作为用户的人脸识别结果;待识别人脸图像与未残缺人脸图像是不同的人时,人脸识别失败。其中,在WGAN网络的训练阶段,已通过类别标签将WGAN网络的复原重点集中在面部细节上,因此,WGAN网络在对待复原人脸图像进行图像复原时,将复原重点集中在面部细节上,提高在残缺区域较大的情况下的人脸识别准确率。此外,本发明实施例提出的WGAN网络,在图像复原过程中,结合了深度卷积神经网络、融合空间以及通道维度上的信息,提升了WGAN网络的特征提取能力,进一步提高了基于残缺图像的人脸识别准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例残缺图像的人脸识别方法的基本流程示意图;
图2为本发明实施例WGAN网络模型的结构示意图;
图3为本发明实施例残缺图像的人脸识别装置的基本结构框图;
图4为本发明实施例提供的一种终端的基本结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(AI:Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
具体地请参阅图1,图1为本实施例残缺图像的人脸识别方法的基本流程示意图。
如图1所示,一种残缺图像的人脸识别方法,包括但不限于如下步骤:
S11、将用户的N个残缺图像输入到特征提取网络进行处理获得待复原人脸图像。
其中,N为正整数。
在上述步骤S11中,特征提取网络示例性的为MTCNN(Multi-task convolutionalneural network,多任务卷积神经网络)网络,其详细实现步骤可以为:
S111、将用户的N个残缺图像输入到特征提取网络进行特征提取获得N个特征提取图像,每个所述特征提取图像包括5个关键点;
S112、通过所述特征提取网络,根据所述关键点将所述N个特征提取图像对齐,并归一化图像大小,获得待复原人脸图像。
在具体应用中,由于原始的残缺图像存在角度偏转,因此,上述步骤S11采用MTCNN网络对特征提取图像进行基于人脸的检测对齐,以及尺寸调整。
S12、将待复原人脸图像与人脸数据库分别输入到WGAN(Wasserstein GenerativeAdversarial Networks,基于推土机距离的生成对抗网络)网络进行特征提取,获得基于N个待复原人脸图像的待识别人脸图像和基于所述人脸数据库的未残缺人脸图像。
其中,人脸数据库为当前设备所包括的数据库,如移动终端中存储的人脸图像数据,在实际应用中,可基于人脸数据库以及本发明实施例所示的步骤S1至步骤S4,识别用户是否具有此移动终端的权限。
在上述步骤S12中,所述WGAN网络包括融合特征模块;
所述融合特征模块从通道维度提取所述N个待复原人脸图像的特征,并根据每个通道维度的所属权重进行加权计算完成信息融合生成待识别人脸图像。
在实际应用中,经过特征提取后的图像,如待复原人脸图像,为深度图像,具有空间维度,而图像本身具有通道维度。本发明实施例通过融合特征模块,计算待复原人脸图像每个通道维度的所属权重,详细的计算方式为根据全局信息对各通道维度的通道信息的重要性,计算所属权重。基于此,本发明实施例可以通过每个通道维度的所属权重的设置,增加注意力机制,结合空间维度,可对待识别人脸图像中重点与非重点位置进行标注。最终,待复原人脸图像存在于二维平面,但以卷曲的形式存在于三维空间中。
在一个实施例中,可以通过squeeze函数修改每个通道维度的所属权重,权重值的具体计算方式来自于对图像每个二维通道的压缩。
请参阅图2,本发明实施例示例性的示出了WGAN网络的基本结构,如图2所示,所述WGAN网络包括生成器和双判别器,在本发明实施例中,训练所述WGAN网络时,将具有类别标签的训练样本输入生成器,所述生成器输出生成样本;所述双判别器根据推土机距离对比真实样本与所述生成样本,所述生成器根据对比结果,通过Adam优化器最小化损失函数进行优化训练。
在具体应用中,双判别器的判别网络主要用于拟合生成样本和真实样本之间的推土机距离,因此,生成网络的目标函数就是最小化生成样本和真实样本之间的推土机距离,判别网络的目标函数就是最大化生成样本和真实样本之间的推土机距离。基于此,在WGAN网络中,生成器的损失函数LG为:
双判别器的损失函数LD为:
在具体应用中,Adam优化器最小化损失函数,会面临梯度消失的问题,为避免梯度消失的问题,示例性地,在一个实施例中,可将生成器的梯度函数更换为SGD(StochasticGradient Descent,随机梯度下降)、RMSProp(root mean square propagation,均方根传递)等梯度下降算法。
S13、计算所述待识别人脸图像与所述未残缺人脸图像的欧氏距离。
S14、根据所述欧式距离输出基于所述用户的人脸识别结果。
上述步骤S14中,待识别人脸图像与未残缺人脸图像的欧氏距离的计算公式为:
其中,xi为处理之后的待识别人脸图像的每一像素点的值,yi为人脸数据库中未残缺人脸图像中每一像素点的值,n为图像的像素点数。
在上述步骤S14中,根据计算获得的欧式距离与预设阈值判断待识别人脸图像与未残缺人脸图像是否是同一人:若小于预设阈值,则判定为同一人,将未残缺人脸图像作为用户的人脸识别结果;反之,若大于预设阈值,则判定是不同的人,此次人脸识别失败。
在本发明实施例中,所述N个待复原人脸图像输入到所述WGAN网络后,所述WGAN网络给所述N个待复原人脸图像添加类别标签,生成待识别人脸图像时生成所述类别标签所指定的类别;示例性的,所述类别标签包括纹理结构分布、边缘轮廓、五官之间的距离中的至少一种。
需要说明的是,上述步骤表示本发明实施例在WGAN网络的训练阶段,已通过类别标签将WGAN网络的复原重点集中在面部细节上,因此,WGAN网络在对待复原人脸图像进行图像复原时,将复原重点集中在面部细节上,提高在残缺区域较大的情况下的人脸识别准确率。
基于上述步骤S11至步骤S14,本发明实施例通过WGAN网络复原用户的残缺图像获得了待识别人脸图像,在此过程中,结合了深度卷积神经网络、融合空间维度以及通道维度上的信息,提升了WGAN网络的特征提取能力,进一步提高了基于残缺图像的人脸识别准确率。
本发明实施例还对上述步骤S11至步骤S14中所使用的WGAN网络进行详细说明,其中,本发明实施例提供的WGAN网络以GAN网络为基础,从网络参数的稳定性、识别效率、网络结构方面进行优化改进。
WGAN网络包括生成器和双判别器,双判别器的改进部分包括:
所述双判别器的判别器网络使用卷积层代替池化层,并去除全连接层。
需要说明的是,双判别器为具有对称结构U-net编码器-解码器结构,由全局判别器和局部判别器组成,其中,全局判别器用于保证生成的无残缺人脸图像在整体语义上准确连贯,局部判别器用于确保人脸残缺区域复原的内容语义准确。
在实际应用中,卷积神经网络大多都会在卷积层的后面通过添加全连接层来输出最终向量,但全连接层的参数太多,当神经网络加深以后,就会导致网络运算速度变得非常慢,且全连接层会导致网络过拟合,因此,本发明实施例用卷积层对其进行替换,最后使用全局池化来完成图像的分类,使WGAN网络具有更为简单的网络结构,同时,对于残缺人脸图像具有更高的识别率。
在一个实施例中,代替池化层的卷积层为1x1卷积核。
在一个实施例中,判别器网络使用LeakyReLU作为激活函数。其中,LeakyReLU作为激活函数,适用于高分辨率的图像判别模型,可以加速网络得到最优的结果。
生成器的改进部分包括:所述生成器的生成器网络使用反卷积层代替池化层。
需要说明的是,本发明实施例中,生成器由一个编码器和一个解码器构成,使用步长为2的卷积层代替最大池化层来保留图像的主要特征,因为池化操作会丢失图像的细节特征,因此,代替池化层的反卷积层为2x2卷积核。而在解码器中,通过反卷积并加入跳跃层,将编码器中对应步骤的特征图与反卷积结果拼接起来提升图像的细节特征。
在一个实施例中,生成器网络使用ReLU作为激活函数,更优选地是,其最后一层使用Tanh作为激活函数,以让模型更快地学习,饱和和覆盖训练分布的颜色空间。
在本发明实施例中,判别器网络的输出层和生成器网络的输入层均使用BN(BatchNormalization,批量归一化)层加速模型训练,可以使得数据服从特定的分布,大幅提高网络的训练速度,同时也令训练出来的网络参数更加稳定。在实际应用中,不在生成器的输出层和不在双判别器的输入层使用BN层,避免直接应用batchnorm到所有层会导致样本振荡和模型不稳定的问题。
而对于完整的WGAN网络的优化,优化目标为最小化第一损失函数、第二损失函数和第三损失函数。
其中,第一损失函数表示与残缺部分相关的上下文损失;第一损失函数中只考虑未残缺的区域:
Lcontextual(z)=||M⊙G(z)-M⊙Y||;
其中,M为图像的二值掩膜,由0/1矩阵构成,0表示该位置残缺需要复原;G为生成器生成样本的残缺区域;Y为真实样本的未残缺区域,⊙为Hadamard乘积,表示对应元素相乘。
第二个损失函数表示WGAN网络在训练损失函数:
Lperceptual(z)=log(1-D(G(z)));
其中,D表示判别器。
第三个损失函数表示对称损失:
L(z)=λ1Lcontextual(z)+λ2Lperceptual(z)+λ3Lm;
其中,w表示推土机距离,λ为衡量损失影响的权重。
综上,本发明实施例提供的WGAN网络,通过图像本身和通道维度两方面来增加网络的特征提取能力,进而在对待复原人脸图像的图像复原方面具有较高的识别率、较高的识别准确率,网络结构也较为简单,还解决了训练过程中梯度消失、训练参数不稳定等问题。
为解决上述技术问题,本发明实施例还提供一种残缺图像的人脸识别装置。具体请参阅图3,图3为本实施残缺图像的人脸识别装置的基本结构框图,包括:
图像预处理模块31,用于将用户的N个残缺图像输入到特征提取网络进行处理获得待复原人脸图像,其中,N为正整数;
人脸图像复原模块32,用于将待复原人脸图像与人脸数据库分别输入到WGAN网络进行特征提取,获得基于N个待复原人脸图像的待识别人脸图像和基于所述人脸数据库的未残缺人脸图像;
其中,所述WGAN网络包括融合特征模块;所述融合特征模块从通道维度提取所述N个待复原人脸图像的特征,并根据每个通道维度的所属权重进行加权计算完成信息融合生成待识别人脸图像;
欧式距离计算模块33,用于计算所述待识别人脸图像与所述未残缺人脸图像的欧氏距离;
人脸识别模块34,用于根据所述欧式距离输出基于所述用户的人脸识别结果;
其中,所述N个待复原人脸图像输入到所述WGAN网络后,所述WGAN网络给所述N个待复原人脸图像添加类别标签,生成待识别人脸图像时生成所述类别标签所指定的类别;所述类别标签包括纹理结构分布、边缘轮廓、五官之间的距离中的至少一种。
通过WGAN网络,本发明实施例在对待复原人脸图像进行图像复原时,将复原重点集中在面部细节上,提高在残缺区域较大的情况下的人脸识别准确率。此外,在图像复原过程中,结合了深度卷积神经网络、融合空间以及通道维度上的信息,提升了WGAN网络的特征提取能力,进一步提高了基于残缺图像的人脸识别准确率。
为解决上述技术问题,本发明实施例还提供一种芯片,该芯片可以为通用处理器,也可以为专用处理器。该芯片包括处理器,处理器用于支持终端执行上述相关步骤,例如从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行,以实现上述各个实施例中的残缺图像的人脸识别方法。
可选的在一些示例下,该芯片还包括收发器,收发器用于接受处理器的控制,用于支持终端执行上述相关步骤,以实现上述各个实施例中的残缺图像的人脸识别方法。
可选的,该芯片还可以包括存储介质。
需要说明的是,该芯片可以使用下述电路或者器件来实现:一个或多个现场可编程门阵列(field programmable gate array,FPGA)、可编程逻辑器件(programmablelogicdevice,PLD)、控制器、状态机、门逻辑、分立硬件部件、任何其他适合的电路、或者能够执行本申请通篇所描述的各种功能的电路的任意组合。
本发明还提供一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的残缺图像的人脸识别方法的步骤。
具体请参阅图4,图4为示出的一种终端的基本结构框图,该终端包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该终端的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种人脸表情识别方法。该终端的处理器用于提供计算和控制能力,支撑整个终端的运行。该终端的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种人脸表情识别方法。该终端的网络接口用于与终端连接通信。本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的电子设备。这种电子设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal DigitalAssistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile InternetDevice,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本发明还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例所述残缺图像的人脸识别方法的步骤。
本实施例还提供了一种计算机程序,该计算机程序可以分布在计算机可读介质上,由可计算装置来执行,以实现上述介绍的残缺图像的人脸识别方法的至少一个步骤;并且在某些情况下,可以采用不同于上述实施例所描述的顺序执行所示出或描述的至少一个步骤。
本实施例还提供了一种计算机程序产品,包括计算机可读装置,该计算机可读装置上存储有如上所示的计算机程序。本实施例中该计算机可读装置可包括如上所示的计算机可读存储介质。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种残缺图像的人脸识别方法,其特征在于,包括:
将用户的N个残缺图像输入到特征提取网络进行处理获得待复原人脸图像,其中,N为正整数;
将待复原人脸图像与人脸数据库分别输入到WGAN网络进行特征提取,获得基于N个待复原人脸图像的待识别人脸图像和基于所述人脸数据库的未残缺人脸图像;
其中,所述WGAN网络包括融合特征模块;所述融合特征模块从通道维度提取所述N个待复原人脸图像的特征,并根据每个通道维度的所属权重进行加权计算完成信息融合生成待识别人脸图像;
计算所述待识别人脸图像与所述未残缺人脸图像的欧氏距离;
根据所述欧式距离输出基于所述用户的人脸识别结果;
其中,所述N个待复原人脸图像输入到所述WGAN网络后,所述WGAN网络给所述N个待复原人脸图像添加类别标签,生成待识别人脸图像时生成所述类别标签所指定的类别;所述类别标签包括纹理结构分布、边缘轮廓、五官之间的距离中的至少一种。
2.如权利要求1所述的残缺图像的人脸识别方法,其特征在于,所述WGAN网络包括生成器和双判别器;
训练所述WGAN网络时,将具有类别标签的训练样本输入生成器,所述生成器输出生成样本;
所述双判别器根据推土机距离对比真实样本与所述生成样本,所述生成器根据对比结果,通过Adam优化器最小化损失函数进行优化训练。
3.如权利要求2所述的残缺图像的人脸识别方法,其特征在于,
所述通过Adam优化器最小化损失函数进行优化训练包括:最小化第一损失函数、第二损失函数和第三损失函数;
所述第一损失函数表示与残缺部分相关的上下文损失,所述第一损失函数中只考虑未残缺的区域:
Lcontextual(z)=||M⊙G(z)-M⊙Y||;
其中,M为图像的二值掩膜,由0/1矩阵构成,0表示该位置残缺需要复原;G为生成器生成样本的残缺区域;Y为真实样本的未残缺区域,⊙为Hadamard乘积,表示对应元素相乘;
第二个损失函数表示WGAN网络在训练损失函数:
Lperceptual(z)=log(1-D(G(z)));
其中,D表示判别器。
第三个损失函数表示对称损失:
L(z)=λ1Lcontextual(z)+λ2Lperceptual(z)+λ3Lm;
其中,w表示推土机距离,λ为衡量损失影响的权重。
4.如权利要求2所述的残缺图像的人脸识别方法,其特征在于,所述双判别器基于GAN网络改进,改进部分包括:所述双判别器的判别器网络使用卷积层代替池化层,并去除全连接层;
所述判别器网络的输出层使用BN层加速模型训练。
5.如权利要求2所述的残缺图像的人脸识别方法,其特征在于,所述生成器基于GAN网络改进,改进部分包括:所述生成器的生成器网络使用反卷积层代替池化层;
所述生成器网络的输入层使用BN层加速模型训练。
6.如权利要求1至5任意一项所述的残缺图像的人脸识别方法,其特征在于,
所述欧氏距离的计算公式为:
其中,xi为处理之后的待识别人脸图像的每一像素点的值,yi为人脸数据库中未残缺人脸图像中每一像素点的值,n为图像的像素点数。
7.如权利要求1至5任意一项所述的残缺图像的人脸识别方法,其特征在于,将用户的N个残缺图像输入到特征提取网络进行处理获得待复原人脸图像,包括:
将用户的N个残缺图像输入到特征提取网络进行特征提取获得N个特征提取图像,每个所述特征提取图像包括5个关键点;
通过所述特征提取网络,根据所述关键点将所述N个特征提取图像对齐,并归一化图像大小,获得待复原人脸图像。
8.一种残缺图像的人脸识别装置,其特征在于,包括:
图像预处理模块,用于将用户的N个残缺图像输入到特征提取网络进行处理获得待复原人脸图像,其中,N为正整数;
人脸图像复原模块,用于将待复原人脸图像与人脸数据库分别输入到WGAN网络进行特征提取,获得基于N个待复原人脸图像的待识别人脸图像和基于所述人脸数据库的未残缺人脸图像;
其中,所述WGAN网络包括融合特征模块;所述融合特征模块从通道维度提取所述N个待复原人脸图像的特征,并根据每个通道维度的所属权重进行加权计算完成信息融合生成待识别人脸图像;
欧式距离计算模块,用于计算所述待识别人脸图像与所述未残缺人脸图像的欧氏距离;
人脸识别模块,用于根据所述欧式距离输出基于所述用户的人脸识别结果;
其中,所述N个待复原人脸图像输入到所述WGAN网络后,所述WGAN网络给所述N个待复原人脸图像添加类别标签,生成待识别人脸图像时生成所述类别标签所指定的类别;所述类别标签包括纹理结构分布、边缘轮廓、五官之间的距离中的至少一种。
9.一种芯片,其特征在于,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如权利要求1至7任一项所述的残缺图像的人脸识别方法的各个步骤。
10.一种终端,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的残缺图像的人脸识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310911351.7A CN116895091A (zh) | 2023-07-24 | 2023-07-24 | 一种残缺图像的人脸识别方法、装置、芯片及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310911351.7A CN116895091A (zh) | 2023-07-24 | 2023-07-24 | 一种残缺图像的人脸识别方法、装置、芯片及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116895091A true CN116895091A (zh) | 2023-10-17 |
Family
ID=88310566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310911351.7A Pending CN116895091A (zh) | 2023-07-24 | 2023-07-24 | 一种残缺图像的人脸识别方法、装置、芯片及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116895091A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573479A (zh) * | 2018-04-16 | 2018-09-25 | 西安电子科技大学 | 基于对偶生成对抗式网络的人脸图像去模糊和恢复方法 |
CN113052976A (zh) * | 2021-03-18 | 2021-06-29 | 浙江工业大学 | 基于uv位置图与cgan的单图像大姿态三维彩色人脸重建方法 |
CN113963390A (zh) * | 2020-07-03 | 2022-01-21 | 天津科技大学 | 一种结合可变形卷积的基于生成对抗网络的残缺人脸图像修复方法 |
US20220138455A1 (en) * | 2020-11-02 | 2022-05-05 | Pinscreen, Inc. | Normalization of facial images using deep neural networks |
CN114913588A (zh) * | 2022-06-20 | 2022-08-16 | 电子科技大学 | 一种应用于复杂场景下的人脸图像修复及识别方法 |
CN115457624A (zh) * | 2022-08-18 | 2022-12-09 | 中科天网(广东)科技有限公司 | 一种局部与整体人脸特征交叉融合的戴口罩人脸识别方法、装置、设备和介质 |
KR102490060B1 (ko) * | 2022-09-08 | 2023-01-18 | 주식회사 비브스튜디오스 | 신경망 모델을 활용한 부분적인 이미지 변환 방법 |
CN116109510A (zh) * | 2023-02-21 | 2023-05-12 | 西南交通大学 | 一种基于结构和纹理对偶生成的人脸图像修复方法 |
CN116311462A (zh) * | 2023-03-27 | 2023-06-23 | 电子科技大学 | 一种结合上下文信息和vgg19的人脸图像修复识别方法 |
-
2023
- 2023-07-24 CN CN202310911351.7A patent/CN116895091A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573479A (zh) * | 2018-04-16 | 2018-09-25 | 西安电子科技大学 | 基于对偶生成对抗式网络的人脸图像去模糊和恢复方法 |
CN113963390A (zh) * | 2020-07-03 | 2022-01-21 | 天津科技大学 | 一种结合可变形卷积的基于生成对抗网络的残缺人脸图像修复方法 |
US20220138455A1 (en) * | 2020-11-02 | 2022-05-05 | Pinscreen, Inc. | Normalization of facial images using deep neural networks |
CN113052976A (zh) * | 2021-03-18 | 2021-06-29 | 浙江工业大学 | 基于uv位置图与cgan的单图像大姿态三维彩色人脸重建方法 |
CN114913588A (zh) * | 2022-06-20 | 2022-08-16 | 电子科技大学 | 一种应用于复杂场景下的人脸图像修复及识别方法 |
CN115457624A (zh) * | 2022-08-18 | 2022-12-09 | 中科天网(广东)科技有限公司 | 一种局部与整体人脸特征交叉融合的戴口罩人脸识别方法、装置、设备和介质 |
KR102490060B1 (ko) * | 2022-09-08 | 2023-01-18 | 주식회사 비브스튜디오스 | 신경망 모델을 활용한 부분적인 이미지 변환 방법 |
CN116109510A (zh) * | 2023-02-21 | 2023-05-12 | 西南交通大学 | 一种基于结构和纹理对偶生成的人脸图像修复方法 |
CN116311462A (zh) * | 2023-03-27 | 2023-06-23 | 电子科技大学 | 一种结合上下文信息和vgg19的人脸图像修复识别方法 |
Non-Patent Citations (1)
Title |
---|
邵杭 等: "基于并行对抗与多条件融合的生成式高分辨率图像修复", 模式识别与人工智能, vol. 33, no. 4, pages 363 - 374 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639692B (zh) | 一种基于注意力机制的阴影检测方法 | |
CN112801018B (zh) | 一种跨场景目标自动识别与追踪方法及应用 | |
WO2021036059A1 (zh) | 图像转换模型训练方法、异质人脸识别方法、装置及设备 | |
JP7286013B2 (ja) | ビデオコンテンツ認識方法、装置、プログラム及びコンピュータデバイス | |
JP7425147B2 (ja) | 画像処理方法、テキスト認識方法及び装置 | |
CN112699786B (zh) | 一种基于空间增强模块的视频行为识别方法及系统 | |
CN114549913B (zh) | 一种语义分割方法、装置、计算机设备和存储介质 | |
CN116580257A (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
CN112085088A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN113505797B (zh) | 模型训练方法、装置、计算机设备和存储介质 | |
US20230067934A1 (en) | Action Recognition Method, Apparatus and Device, Storage Medium and Computer Program Product | |
CN112989085A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN111652181B (zh) | 目标跟踪方法、装置及电子设备 | |
CN115082667A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN112115860A (zh) | 人脸关键点定位方法、装置、计算机设备和存储介质 | |
CN113781164B (zh) | 虚拟试衣模型训练方法、虚拟试衣方法和相关装置 | |
CN117237547B (zh) | 图像重建方法、重建模型的处理方法和装置 | |
CN111444957B (zh) | 图像数据处理方法、装置、计算机设备和存储介质 | |
CN110782503B (zh) | 一种基于两分支深度相关网络的人脸图像合成方法和装置 | |
CN112560668A (zh) | 一种基于场景先验知识的人体行为识别方法 | |
CN116895091A (zh) | 一种残缺图像的人脸识别方法、装置、芯片及终端 | |
US11810351B2 (en) | Video analytic processing with neuro-symbolic artificial intelligence | |
CN115115910A (zh) | 图像处理模型的训练方法、使用方法、装置、设备及介质 | |
CN113011320A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
Sun et al. | Real-time memory efficient large-pose face alignment via deep evolutionary network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |