CN116152885B - 一种基于特征解耦的跨模态异质人脸识别和原型修复方法 - Google Patents

一种基于特征解耦的跨模态异质人脸识别和原型修复方法 Download PDF

Info

Publication number
CN116152885B
CN116152885B CN202211540523.6A CN202211540523A CN116152885B CN 116152885 B CN116152885 B CN 116152885B CN 202211540523 A CN202211540523 A CN 202211540523A CN 116152885 B CN116152885 B CN 116152885B
Authority
CN
China
Prior art keywords
domain
prototype
training
cross
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211540523.6A
Other languages
English (en)
Other versions
CN116152885A (zh
Inventor
庞孟
周崟涛
丁峰
陈盛博
黄伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang University
Original Assignee
Nanchang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang University filed Critical Nanchang University
Priority to CN202211540523.6A priority Critical patent/CN116152885B/zh
Publication of CN116152885A publication Critical patent/CN116152885A/zh
Application granted granted Critical
Publication of CN116152885B publication Critical patent/CN116152885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于特征解耦的跨模态异质人脸识别和原型修复方法,技术路线为:先从输入人脸图片学习到潜在特征空间,并在特征空间中解耦原型特征和源域特征,再用目标域特征替换源域特征,进而解码到像素空间中生成目标域的人脸原型图片。不同于现有跨模态人脸识别技术只关注系统自动识别准确率,本发明引入了跨模态人脸原型修复过程,提供了人工鉴别和比对途径,进而提高了复杂环境下人脸识别系统的鲁棒性。此项发明技术尤其适用于刑事侦查和犯罪识别。发明融合了解耦表征学习与生成对抗学习技术,通过在潜在特征空间中仅解耦原型和域特征,进而在像素空间中自适应地移除了人脸变化信息。

Description

一种基于特征解耦的跨模态异质人脸识别和原型修复方法
技术领域
本发明涉及图像处理技术领域,特别涉及一种基于特征解耦的跨模态异质人脸识别和原型修复方法。
背景技术
在现实生活中,人脸识别系统所接收到的待检索目标人脸照片与系统预存的注册人脸照片可能不属于同一个模态(域)。比如说,注册人脸照片是可见光域的标准证件照,而待检索目标人脸照片是采集自红外摄像头的近红外图片。在这种情况下,由于这两种异质图片所处模态存在巨大差异,因而加大了系统的匹配和识别难度。这个问题被称为跨模态异质人脸识别。此外,在一些非受控场景,待检索目标人脸照片可能带有夸张的面部表情、或存在大角度的头部姿态、或部分面部被遮挡等,无法从视觉上提供良好的个人样貌特征供人工鉴别和比对。
自编码器(Auto Encoder)是一种人工神经网络,它有两个主要组成部分:编码器与解码器。编码器用于将输入图片编码,解码器使用编码来重构输入图片。自编码的目的是对输入数据学习出一种语义层次的表征,通常用于特征提取和降维。特征解耦(FeatureDisentanglement)旨在从真实数据中对具有不同的语义的生成因子进行解耦,分离出其对应的独立特征表示。特征解耦的前提是提取特征,而解耦一般利用信息熵或者变换空间后的数学特性来完成。特征解耦可用于多模态特征表示,它将多模态数据解耦为两种特征,一种表示模态之间的共同语义信息,另一种表示每个模态的独特属性。其中共同语义信息可用于跨模态人脸检索以及风格迁移中的身份信息保持等。
生成对抗网络(GAN)于2014年被蒙特利尔大学Ian Goodfellow等学者提出,GAN技术鉴于其强大的生成能力被广泛应用于图片生成任务,并被图灵奖得主Yann LeCun赞誉为“机器学习这二十年来最酷的想法”。GAN是非监督式学习的一种方法,通过让两个神经网络相互博弈的方式进行学习。具体来说,GAN由一个生成器与一个(或多个)判别器组成。生成器从潜在空间中随机取样作为输入,其输出结果需要尽量模仿训练集中的真实样本。判别器的输入则为真实样本或生成器输出的虚拟样本,其目的是将生成器的输出从真实样本中尽可能分辨出来。生成器和判别器相互对抗、不断调整网络参数,最终使判别器无法判断生成器的输出结果是真实样本或是生成样本,从而达到一种“纳什均衡”状态。
基于此,本发明旨在提出一种跨模态异质人脸识别和原型修复方法,一方面在特征空间中解耦出待检索人脸模态不相关的身份特征,以达成系统的准确识别目标人脸;另一方面在像素空间中对该检索人脸进行跨模态的脸部原型修复,复原正脸的、带有中性表情的、去遮挡的注册人脸所在域原型图片。
发明内容
针对现有技术中的上述不足,本发明提供了一种基于特征解耦的跨模态异质人脸识别和原型修复方法,主要目的在于处理待检索目标人脸(域A)与注册人脸(域B)模态不一致情况下的异质人脸识别,并同时对域A的待检索目标人脸修复其在域B的脸部原型供人工鉴别和比对。
一种基于特征解耦的跨模态异质人脸识别和原型修复方法,包括以下步骤:
S1、模型训练集准备:一个训练集包含来自域A和域B的Nd个身份类别;域A中的每张图片x服从PdataA分布,即x~PdataA,并标记为而域B中的每张图像y服从PdataB分布,即y~PdataB,并标记为/> 或/>表示x或y的身份标签;/>或/>表示x或y是否包含面部变化;根据/>和/>的值,在训练集中选取未带有面部变化的域A和域B的图片并分别构建真实的域A和域B的原型库;真实的域A原型库中的每张图片表示为xrP~PrealA,真实的域B原型库中的每张图片表示为yrp~PrealB
S2、模型结构:
S21、生成器G:G由两个编码器即GencA和GencB,以及一个解码器即Gdec组成;GencA对x的原型特征Px和y的原型特征Py进行编码;随后,而GencB对x的域特征Vx和y的域特征Vy进行编码;Gdec接收Px和Vx的拼接特征、Px和Vy的拼接特征、Py和Vx的拼接特征、以及Py和Vy的拼接特征作为四个输入,然后分别生成四个不同的原型图片,即x在域A的同模态原型xp、x在域B的跨模态原型、y在域A的跨模态原型/>、和y在域B的同模态原型yp
S21、判别器D和D包含两个子判别器Did和Dgan;Did是一个身份相关的子判别器,用于预测域B中的身份类别;它输出一个Nd维度的向量,其中Nd表示训练集中的身份类别数量;Dgan是一个GAN相关的子判别器,用于区分域B中的真假原型;类似地,/>也是一个多任务判别器,它包含两个子判别器/>和/> 输出一个Nd维向量,用于域A中的身份预测,而/>用于对域A中的真假原型进行区分;
S3、模型训练:本模型的训练包含G和D之间以及G和之间两个交替对抗训练阶段,具体过程如下:
S31、阶段1:训练D和G;在这个训练阶段中,G和D被训练相互对抗竞争,以使得G为域A的输入图片x生成跨模态的域B原型以及为域B的输入图片y生成同模态的域B原型yp
对于D=[Dgan,Did],它有两个训练目标:1)给定G生成的虚假域B原型和yp以及真实的域B原型yrp,Dgan期望将/>和yp归类为虚假原型,同时将yrp归类为真实原型;2)给定域B的输入图片y,Did期望正确预测其身份标签/>因此,训练判别器D的最终目标函数VD为:
其中α1是平衡超参数;和/>定义为 其中/>是Did中的第i个元素;
对于G,它也有两个训练目标:1)欺骗Dgan使其将和yp分类为真实的域B原型;2)使Did将/>的身份标签预测为与x的身份标签相同即/>将yp的身份标签预测为与y的身份标签相同即/>因此,训练生成器G的最终目标函数VG为:
其中λ1是平衡超参数,和/>各自定义为/>和/>
S32、阶段2:训练和G;在这个训练阶段,G和/>被训练为相互对抗竞争,以使G为域B的输入图片y生成跨模态的域A原型/>以及为域A的输入图片x生成同模态的域A原型xp
对于它有两个类似于D的训练目标:1)给定由G生成的虚假域A原型和xp以及真实的域A原型xrp,/>期望将/>和xp分类为虚假原型,同时将xrp分类为真实原型;2)给定域A的输入图像x,/>期望准确地预测其身份标签/>因此,训练判别器/>的最终目标函数/>如下:
其中α2是平衡超参数,和/>定义为 和/>其中/>是/>中的第i个元素;
对于G,它有如下两个训练目标:1)欺骗使其将/>和xp都分类为真实的域A原型;2)使/>将/>的身份标签预测为与y的身份标签相同即/>将xp的身份标签预测为与x的身份标签相同即/>综合上述两个目标,训练生成器G的最终目标函数/>可表述为:
其中λ2是平衡超参数,和/>各自定义为/>
作为优选的,步骤S1中,如果x包含任意面部变化,包括姿势、表情或遮挡,则否则/>
作为优选的,在实验中,使用包含近红外与可见光图片的BUAANIR-VIS数据集,该数据集被随机划分为50个志愿者的训练集和100个志愿者的测试集,训练集和测试集无任何交集;在模型训练和测试过程中,BUAANIR-VIS数据集的所有图片均先被转换为128×128像素的灰度图。
作为优选的,对于G的编码器GencA,模型采用在MS-Celeb-1M数据集预训练好的Lightened-CNN作为骨干网络为域A或域B输入图片提取一个256维的原型特征;对于G的另一个编码器GencB,模型采用CASIA-Net作为骨干网络为域A或域B输入图片提取一个50维的域特征;而对于G中的解码器Gdec,模型选择用反向CASIA-Net作为解码网络并同时在每个反卷积层后引入批归一和指数线性单元;Gdec接收一个306维的特征向量并输出一张128×128维图片;对于判别器D和模型选择以CASIA-Net为骨干网络并额外填加了一层全连接层;D和/>网络中每个卷积层后都进行了批归一化处理和指数线性单元激活;D(或/>)接收一张128×128维图片并输出一个Nd+1维的向量,其中前Nd维被Did或/>用来预测域B或域A中人脸图片的身份标签,而最后1维被预留给Dgan或/>用以打分进而区分域B(或域A)中的真假原型图片。
本发明的有益效果为:
1、不同于现有跨模态人脸识别技术只关注系统自动识别准确率,本发明引入了跨模态人脸原型修复过程,提供了人工鉴别和比对途径,进而提高了复杂环境下人脸识别系统的鲁棒性。此项发明技术尤其适用于刑事侦查和犯罪识别。
2、发明融合了解耦表征学习与生成对抗学习技术,通过在潜在特征空间中仅解耦原型和域特征,进而在像素空间中自适应地移除了人脸变化信息(包括表情、姿态等)。本发明提供了一种针对通用面部变化移除的跨模态原型修复网络。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应该被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为模型生成器G。其中x和y分别代表来自域A和域B的输入图片,Px和Vx为x在特征空间中解耦的原型特征和域A特征,Py和Vy为y在特征空间中解耦的原型特征和域B特征,xp分别表示x在域A和域B生成的原型图片,yp和/>分别表示y在域B和域A生成的原型图片;
图2为近红外域(NIR)到可见光域(VIS)原型修复效果图;
图3为可见光域(VIS)到近红外域(NIR)原型修复效果图;
图4为近红外域(NIR)到近红外域(NIR)原型修复效果图;
图5为可见光域(VIS)到可见光域(VIS)原型修复效果图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
如附图所示,一种基于特征解耦的跨模态异质人脸识别和原型修复方法,包括以下步骤:
S1、模型训练集准备:一个训练集包含来自域A和域B的Nd个身份类别;域A中的每张图片x服从PdataA分布,即x~PdataA,并标记为而域B中的每张图像y服从PdataB分布,即y~PdataB,并标记为/> 或/>表示x或y的身份标签;/>或/>表示x或y是否包含面部变化;以x为例,如果x包含任意面部变化(例如姿势、表情或遮挡),则否则/>根据/>和/>的值,在训练集中选取未带有面部变化的域A和域B的图片并分别构建真实的域A和域B的原型库;真实的域A原型库中的每张图片表示为xrp~PrealA,真实的域B原型库中的每张图片表示为yrp~PrealB
S2、模型结构:
S21、生成器G:G由两个编码器即GencA和GencB,以及一个解码器即Gdec组成;GencA对x的原型特征Px和y的原型特征Py进行编码;而GencB对x的域特征Vx和y的域特征Vy进行编码;随后,Gdec接收Px和Vx的拼接特征、Px和Vy的拼接特征、Py和Vx的拼接特征、以及Py和Vy的拼接特征作为四个输入,然后分别生成四个不同的原型图片,即x在域A的同模态原型xp、x在域B的跨模态原型y在域A的跨模态原型/>和y在域B的同模态原型yp
S21、判别器D和D包含两个子判别器Did和Dgan;Did是一个身份相关的子判别器,用于预测域B中的身份类别;它输出一个Nd维度的向量,其中Nd表示训练集中的身份类别数量;Dgan是一个GAN相关的子判别器,用于区分域B中的真假原型;类似地,/>也是一个多任务判别器,它包含两个子判别器/>和/> 输出一个Nd维向量,用于域A中的身份预测,而/>用于对域A中的真假原型进行区分;
S3、模型训练:本模型的训练包含G和D之间以及G和之间两个交替对抗训练阶段,具体过程如下:
S31、阶段1:训练D和G;在这个训练阶段中,G和D被训练相互对抗竞争,以使得G为域A的输入图片x生成跨模态的域B原型,以及为域B的输入图片y生成同模态的域B原型yp
对于D=[Dgan,Did],它有两个训练目标:1)给定G生成的虚假域B原型和yp以及真实的域B原型yrp,Dgan期望将/>和yp归类为虚假原型,同时将yrp归类为真实原型;2)给定域B的输入图片y,Did期望正确预测其身份标签/>因此,训练判别器D的最终目标函数VD为:
其中α1是平衡超参数;和/>定义为 其中/>是Did中的第i个元素;
对于G,它也有两个训练目标:1)欺骗Dgan使其将和yp分类为真实的域B原型;2)使Did将/>的身份标签预测为与x的身份标签相同即/>将yp的身份标签预测为与y的身份标签相同即/>因此,训练生成器G的最终目标函数VG为:
其中λ1是平衡超参数,和/>各自定义为/>和/>
S32、阶段2:训练和G;在这个训练阶段,G和/>被训练为相互对抗竞争,以使G为域B的输入图片y生成跨模态的域A原型/>以及为域A的输入图片x生成同模态的域A原型xp
对于它有两个类似于D的训练目标:1)给定由G生成的虚假域A原型和xp以及真实的域A原型xrp,/>期望将/>和xp分类为虚假原型,同时将xrp分类为真实原型;2)给定域A的输入图像x,/>期望准确地预测其身份标签/>因此,训练判别器/>的最终目标函数/>如下:
其中α2是平衡超参数,和/>定义为 和/>其中/>是/>中的第i个元素;
对于G,它有如下两个训练目标:1)欺骗使其将/>和xp都分类为真实的域A原型;2)使/>将/>的身份标签预测为与y的身份标签相同即/>将xp的身份标签预测为与x的身份标签相同即/>综合上述两个目标,训练生成器G的最终目标函数/>可表述为:
其中λ2是平衡超参数,和/>各自定义为/>
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本发明旨在处理待检索目标人脸域A与注册人脸域B模态不一致情况下的异质人脸识别,并同时对域A的待检索目标人脸修复其在域B的脸部原型供人工鉴别和比对。本发明技术路线为:先从输入人脸图片学习到潜在特征空间,并在特征空间中解耦原型特征和源域特征,再用目标域特征替换源域特征,进而解码到像素空间中生成目标域的人脸原型图片。此外,特征空间中解耦出的原型特征可被用来进行鲁棒跨模态异质人脸识别。
S1:实验数据集配置。我们使用的数据集是包含近红外与可见光图片的BUAA NIR-VIS数据集。BUAA NIR-VIS是跨近红外和可见光域的公开异质人脸数据集,由北京航空航天大学采集和发布,被广泛应用于跨模态人脸识别和域自适应评估。BUAA NIR-VIS共包含了150个志愿者,每个志愿者拥有9张近红外图片和9张可见光图,描绘了在近红外域和可见光域9种不同的面部变化,包括5种表情变化(即高兴、悲伤、愤怒、惊讶、以及中性表情)和4种头部姿态变化(即头部倾斜向下,头部倾斜向上,头部右旋和头部左旋)。在实验中,该数据集被随机划分为50个志愿者的训练集和100个志愿者的测试集,训练集和测试集无任何交集。在模型训练和测试过程中,BUAA NIR-VIS数据集的所有图片均先被转换为128×128像素的灰度图。
S2:模型实现细节和参数设置。模型生成器G如图1所示。
对于G的编码器GencA,模型采用在MS-Celeb-1M数据集预训练好的Lightened-CNN作为骨干网络为域A(或域B)输入图片提取一个256维的原型特征。对于G的另一个编码器GencB,模型采用CASIA-Net作为骨干网络为域A(或域B)输入图片提取一个50维的域特征。而对于G中的解码器Gdec,模型选择用反向CASIA-Net作为解码网络并同时在每个反卷积层后引入批归一(Batch Normalization,BN)和指数线性单元(Exponential Linear Unit,ELU)。Gdec接收一个306维的特征向量并输出一张128×128维图片。对于判别器D和模型选择以CASIA-Net为骨干网络并额外填加了一层全连接层(Fully Connected Layer)。D和网络中每个卷积层后都进行了批归一化处理和指数线性单元激活。D(或/>)接收一张128×128维图片并输出一个Nd+1维的向量,其中前Nd维被Did(或/>)用来预测域B(或域A)中人脸图片的身份标签,而最后1维被预留给Dgan(或/>)用以打分进而区分域B(或域A)中的真假原型图片。
模型中的平衡超参数λ1、λ2、α1、和α2均被被设置为2。我们使用小批量梯度下降(Mini-Batch Gradient Descent)算法对模型进行优化,其中批大小设置为5。所有G、D、和的网络权重参数都是从一个以零为中心的正态分布初始化的,标准差设为0.02。我们使用Adam作为优化器,其中动量和学习率分别设成0.5和0.0002。
S3:模型测试效果。模型训练好后,我们将模型中的生成器G对来自近红外域的随机测试人脸图片xt与来自可见光域的随机测试人脸图片yt进行相互跨模态人脸原型修复。图2为近红外域(NIR)到可见光域(VIS)原型修复效果图,图3为可见光域(VIS)到近红外域(NIR)原型修复效果图。从图2和图3可以观测到,模型成功地完成了近红外与可见光之间的跨模态人脸原型的修复。具体来说,模型能够基于近红外域(或可将光域)中带有面部表情或者头部姿态的输入人脸图片修复其在可见光域(或近红外域)下的人脸原型图片,并准确地保留了输入图片的原有身份信息。此外,值得注意的是,作为副加功能,本模型也能处理同模态下的人脸原型修复问题。图4为近红外域(NIR)到近红外域(NIR)原型修复效果图,图5为可见光域(VIS)到可见光域(VIS)原型修复效果图。从图4和图5可以观测到,本模型也能够很好地完成同模态间的原型修复任务。
我们也在测试集中构建了一个跨模态异质人脸识别实验。其中,每个志愿者只有一张可见光注册图片,所有测试集的近红外图片都被用作待检索人脸样本。将模型中的GencA用来提取可见光注册图片和近红外检索图片的原型特征,并用作特征分类。在本实验中,选取了6种应用于近红外-可将光人脸识别的特征提取方法作为对比方法,包括了2种基于传统机器学习的方法(KDSR和H2-LBP3)和3种基于深度学习的方法(TRIVET、ADFL和RGM)。表一列出了本模型和其他对比方法在BUAA NIR-VIS数据集的识别准确率。
表一:BUAA NIR-VIS数据集上的跨模态人脸识别结果
KDSR H2-LBP3 TRIVET ADFL RGM 本模型
83.0% 88.8% 93.9% 95.2% 97.6% 98.7%
从上述观察到,本模型取得了最高的跨模态识别率,这表明了模型解耦的原型特征能够很好地捕获身份信息而排除模态信息。
不同于现有跨模态人脸识别技术只关注系统自动识别准确率,本发明引入了跨模态人脸原型修复过程,提供了人工鉴别和比对途径,进而提高了复杂环境下人脸识别系统的鲁棒性。此项发明技术尤其适用于刑事侦查和犯罪识别。
本发明融合了解耦表征学习与生成对抗学习技术,通过在潜在特征空间中仅解耦原型和域特征,进而在像素空间中自适应地移除了人脸变化信息(包括表情、姿态等)。本发明提供了一种针对通用面部变化移除的跨模态原型修复网络。
以上描述仅是本发明的实施例,不构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理的情况下,进行形式和细节上的各种修正和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求的保护范围之内。

Claims (4)

1.一种基于特征解耦的跨模态异质人脸识别和原型修复方法,其特征在于,包括以下步骤:
S1、模型训练集准备:一个训练集包含来自域A和域B的Nd个身份类别;域A中的每张图片x服从PdataA分布,即x~PdataA,并标记为而域B中的每张图像y服从PdataB分布,即y~PdataB,并标记为/> 或/>表示x或v的身份标签;/>或/>表示x或y是否包含面部变化;根据/>和/>的值,在训练集中选取未带有面部变化的域A和域B的图片并分别构建真实的域A和域B的原型库;真实的域A原型库中的每张图片表示为xrp~PrealA,真实的域B原型库中的每张图片表示为yrp~PrealB
S2、模型结构:
S21、生成器G:G由两个编码器即GencA和GencB,以及一个解码器即Gdec组成;GencA对x的原型特征Px和y的原型特征Py进行编码;而GencB对x的域特征Vx和y的域特征Vy进行编码;Gdec接收Px和Vx的拼接特征、Px和Vy的拼接特征、Py和Vx的拼接特征、以及Py和Vy的拼接特征作为四个输入,然后分别生成四个不同的原型图片,即x在域A的同模态原型xp、x在域B的跨模态原型y在域A的跨模态原型/>和y在域B的同模态原型yp
S21、判别器D和D包含两个子判别器Did和Dgan;Did是一个身份相关的子判别器,用于预测域B中的身份类别;它输出一个Nd维度的向量,其中Nd表示训练集中的身份类别数量;Dgan是一个GAN相关的子判别器,用于区分域B中的真假原型;/>也是一个多任务判别器,它包含两个子判别器/>和/> 输出一个Nd维向量,用于域A中的身份预测,而/>用于对域A中的真假原型进行区分;
S3、模型训练:本模型的训练包含G和D之间以及G和之间两个交替对抗训练阶段,具体过程如下:
S31、阶段1:训练D和G;在这个训练阶段中,G和D被训练相互对抗竞争,以使得G为域A的输入图片x生成跨模态的域B原型以及为域B的输入图片y生成同模态的域B原型yp
对于D=[Dgan,Did],它有两个训练目标:1)给定G生成的虚假域B原型和yp以及真实的域B原型yrp,Dgan期望将/>和yp归类为虚假原型,同时将yrp归类为真实原型;2)给定域B的输入图片y,Did期望正确预测其身份标签/>因此,训练判别器D的最终目标函数VD为:
其中α1是平衡超参数;和/>定义为 其中/>是Did中的第i个元素;
对于G,它也有两个训练目标:1)欺骗Dgan使其将和yp分类为真实的域B原型;2)使Did的身份标签预测为与x的身份标签相同即/>将yp的身份标签预测为与y的身份标签相同即/>因此,训练生成器G的最终目标函数VG为:
其中λ1是平衡超参数,和/>各自定义为/>
S32、阶段2:训练和G;在这个训练阶段,G和/>被训练为相互对抗竞争,以使G为域B的输入图片y生成跨模态的域A原型/>以及为域A的输入图片x生成同模态的域A原型xp
对于它有两个类似于D的训练目标:1)给定由G生成的虚假域A原型/>和xp以及真实的域A原型xrp,/>期望将/>和xp分类为虚假原型,同时将xrp分类为真实原型;2)给定域A的输入图像x,/>期望准确地预测其身份标签/>因此,训练判别器/>的最终目标函数如下:
其中α2是平衡超参数,和/>定义为 和/>其中/>是/>中的第i个元素;
对于G,它有如下两个训练目标:1)欺骗使其将/>和xp都分类为真实的域A原型;2)使将/>的身份标签预测为与y的身份标签相同即/>将xp的身份标签预测为与x的身份标签相同即/>综合上述两个目标,训练生成器G的最终目标函数/>可表述为:
其中λ2是平衡超参数,和/>各自定义为/>
2.根据权利要求1所述的一种基于特征解耦的跨模态异质人脸识别和原型修复方法,其特征在于:步骤S1中,如果x包含任意面部变化,包括姿势、表情或遮挡,则否则
3.根据权利要求1所述的一种基于特征解耦的跨模态异质人脸识别和原型修复方法,其特征在于:在实验中,使用包含近红外与可见光图片的BUAA NIR-VIS数据集,该数据集被随机划分为50个志愿者的训练集和100个志愿者的测试集,训练集和测试集无任何交集;在模型训练和测试过程中,BUAANIR-VIS数据集的所有图片均先被转换为128×128像素的灰度图。
4.根据权利要求l所述的一种基于特征解耦的跨模态异质人脸识别和原型修复方法,其特征在于:对于G的编码器GencA,模型采用在MS-Celeb-1M数据集预训练好的Lightened-CNN作为骨干网络为域A或域B输入图片提取一个256维的原型特征;对于G的另一个编码器GencB,模型采用CASIA-Net作为骨干网络为域A或域B输入图片提取一个50维的域特征;而对于G中的解码器Gdec,模型选择用反向CASIA-Net作为解码网络并同时在每个反卷积层后引入批归一和指数线性单元;Gdec接收一个306维的特征向量并输出一张128×128维图片;对于判别器D和模型选择以CASIA-Net为骨干网络并额外填加了一层全连接层;D和/>网络中每个卷积层后都进行了批归一化处理和指数线性单元激活;D(或/>)接收一张128×128维图片并输出一个Nd+1维的向量,其中前Nd维被Did或/>用来预测域B或域A中人脸图片的身份标签,而最后1维被预留给Dgan或/>用以打分进而区分域B(或域A)中的真假原型图片。
CN202211540523.6A 2022-12-02 2022-12-02 一种基于特征解耦的跨模态异质人脸识别和原型修复方法 Active CN116152885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211540523.6A CN116152885B (zh) 2022-12-02 2022-12-02 一种基于特征解耦的跨模态异质人脸识别和原型修复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211540523.6A CN116152885B (zh) 2022-12-02 2022-12-02 一种基于特征解耦的跨模态异质人脸识别和原型修复方法

Publications (2)

Publication Number Publication Date
CN116152885A CN116152885A (zh) 2023-05-23
CN116152885B true CN116152885B (zh) 2023-08-01

Family

ID=86353380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211540523.6A Active CN116152885B (zh) 2022-12-02 2022-12-02 一种基于特征解耦的跨模态异质人脸识别和原型修复方法

Country Status (1)

Country Link
CN (1) CN116152885B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107437077A (zh) * 2017-08-04 2017-12-05 深圳市唯特视科技有限公司 一种基于生成对抗网络的旋转面部表示学习的方法
CN111428667A (zh) * 2020-03-31 2020-07-17 天津中科智能识别产业技术研究院有限公司 一种基于解耦表达学习生成对抗网络的人脸图像转正方法
CN111539255A (zh) * 2020-03-27 2020-08-14 中国矿业大学 基于多模态图像风格转换的跨模态行人重识别方法
CN111666831A (zh) * 2020-05-18 2020-09-15 武汉理工大学 一种基于解耦表示学习的说话人脸视频生成方法
AU2020103905A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Unsupervised cross-domain self-adaptive medical image segmentation method based on deep adversarial learning
CN112418074A (zh) * 2020-11-20 2021-02-26 重庆邮电大学 一种基于自注意力的耦合姿态人脸识别方法
CN114663986A (zh) * 2022-03-31 2022-06-24 华南理工大学 一种基于双解耦生成和半监督学习的活体检测方法及系统
CN114764939A (zh) * 2022-03-29 2022-07-19 中国科学院信息工程研究所 一种基于身份-属性解耦合成的异质人脸识别方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107437077A (zh) * 2017-08-04 2017-12-05 深圳市唯特视科技有限公司 一种基于生成对抗网络的旋转面部表示学习的方法
CN111539255A (zh) * 2020-03-27 2020-08-14 中国矿业大学 基于多模态图像风格转换的跨模态行人重识别方法
CN111428667A (zh) * 2020-03-31 2020-07-17 天津中科智能识别产业技术研究院有限公司 一种基于解耦表达学习生成对抗网络的人脸图像转正方法
CN111666831A (zh) * 2020-05-18 2020-09-15 武汉理工大学 一种基于解耦表示学习的说话人脸视频生成方法
CN112418074A (zh) * 2020-11-20 2021-02-26 重庆邮电大学 一种基于自注意力的耦合姿态人脸识别方法
AU2020103905A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Unsupervised cross-domain self-adaptive medical image segmentation method based on deep adversarial learning
CN114764939A (zh) * 2022-03-29 2022-07-19 中国科学院信息工程研究所 一种基于身份-属性解耦合成的异质人脸识别方法及系统
CN114663986A (zh) * 2022-03-31 2022-06-24 华南理工大学 一种基于双解耦生成和半监督学习的活体检测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于改进的GAN的局部遮挡人脸表情识别;王海涌;梁红珠;;计算机工程与应用(第05期);全文 *

Also Published As

Publication number Publication date
CN116152885A (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN111325115B (zh) 带有三重约束损失的对抗跨模态行人重识别方法和系统
CN109492662B (zh) 一种基于对抗自编码器模型的零样本图像分类方法
CN109255289B (zh) 一种基于统一式生成模型的跨衰老人脸识别方法
CN105184260B (zh) 一种图像特征提取方法及行人检测方法及装置
CN110598019B (zh) 重复图像识别方法及装置
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN112560710B (zh) 一种用于构建指静脉识别系统的方法及指静脉识别系统
CN113656660B (zh) 跨模态数据的匹配方法、装置、设备及介质
Mansourifar et al. One-shot gan generated fake face detection
Sabry et al. Image retrieval using convolutional autoencoder, infogan, and vision transformer unsupervised models
CN112818915A (zh) 基于3dmm软生物特征的深度伪造视频检测方法及系统
Chen et al. Large-scale indoor/outdoor image classification via expert decision fusion (edf)
CN116152885B (zh) 一种基于特征解耦的跨模态异质人脸识别和原型修复方法
CN116959098A (zh) 一种基于双粒度三模态度量学习的行人重识别方法及系统
CN112380369B (zh) 图像检索模型的训练方法、装置、设备和存储介质
Kumar et al. Encoder–decoder-based CNN model for detection of object removal by image inpainting
CN116958615A (zh) 图片识别方法、装置、设备和介质
Guefrachi et al. Deep learning based DeepFake video detection
Sengottuvelan et al. Object classification using substance based neural network
Calderon-Vilca et al. The Best Model of Convolutional Neural Networks Combined with LSTM for the Detection of Interpersonal Physical Violence in Videos
Das et al. High-Performance Image Splicing Detection utilizing Image Augmentation and Deep Learning
Prasomphan et al. Feature extraction for image matching in wat phra chetuphon wimonmangklararam balcony painting with sift algorithms
Kumar et al. Learning Noise-Assisted Robust Image Features for Fine-Grained Image Retrieval.
CN115935378B (zh) 一种基于条件生成式网络的图像融合模型安全性检测方法
CN118072252B (zh) 适用于任意多模态数据组合的行人重识别模型训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant