CN116152885B

CN116152885B - 一种基于特征解耦的跨模态异质人脸识别和原型修复方法

Info

Publication number: CN116152885B
Application number: CN202211540523.6A
Authority: CN
Inventors: 庞孟; 周崟涛; 丁峰; 陈盛博; 黄伟
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2023-08-01
Anticipated expiration: 2042-12-02
Also published as: CN116152885A

Abstract

本发明公开了一种基于特征解耦的跨模态异质人脸识别和原型修复方法，技术路线为：先从输入人脸图片学习到潜在特征空间，并在特征空间中解耦原型特征和源域特征，再用目标域特征替换源域特征，进而解码到像素空间中生成目标域的人脸原型图片。不同于现有跨模态人脸识别技术只关注系统自动识别准确率，本发明引入了跨模态人脸原型修复过程，提供了人工鉴别和比对途径，进而提高了复杂环境下人脸识别系统的鲁棒性。此项发明技术尤其适用于刑事侦查和犯罪识别。发明融合了解耦表征学习与生成对抗学习技术，通过在潜在特征空间中仅解耦原型和域特征，进而在像素空间中自适应地移除了人脸变化信息。

Description

一种基于特征解耦的跨模态异质人脸识别和原型修复方法

技术领域

本发明涉及图像处理技术领域，特别涉及一种基于特征解耦的跨模态异质人脸识别和原型修复方法。

背景技术

在现实生活中，人脸识别系统所接收到的待检索目标人脸照片与系统预存的注册人脸照片可能不属于同一个模态(域)。比如说，注册人脸照片是可见光域的标准证件照，而待检索目标人脸照片是采集自红外摄像头的近红外图片。在这种情况下，由于这两种异质图片所处模态存在巨大差异，因而加大了系统的匹配和识别难度。这个问题被称为跨模态异质人脸识别。此外，在一些非受控场景，待检索目标人脸照片可能带有夸张的面部表情、或存在大角度的头部姿态、或部分面部被遮挡等，无法从视觉上提供良好的个人样貌特征供人工鉴别和比对。

自编码器(Auto Encoder)是一种人工神经网络，它有两个主要组成部分：编码器与解码器。编码器用于将输入图片编码，解码器使用编码来重构输入图片。自编码的目的是对输入数据学习出一种语义层次的表征，通常用于特征提取和降维。特征解耦(FeatureDisentanglement)旨在从真实数据中对具有不同的语义的生成因子进行解耦，分离出其对应的独立特征表示。特征解耦的前提是提取特征，而解耦一般利用信息熵或者变换空间后的数学特性来完成。特征解耦可用于多模态特征表示，它将多模态数据解耦为两种特征，一种表示模态之间的共同语义信息，另一种表示每个模态的独特属性。其中共同语义信息可用于跨模态人脸检索以及风格迁移中的身份信息保持等。

生成对抗网络(GAN)于2014年被蒙特利尔大学Ian Goodfellow等学者提出，GAN技术鉴于其强大的生成能力被广泛应用于图片生成任务,并被图灵奖得主Yann LeCun赞誉为“机器学习这二十年来最酷的想法”。GAN是非监督式学习的一种方法，通过让两个神经网络相互博弈的方式进行学习。具体来说，GAN由一个生成器与一个(或多个)判别器组成。生成器从潜在空间中随机取样作为输入，其输出结果需要尽量模仿训练集中的真实样本。判别器的输入则为真实样本或生成器输出的虚拟样本，其目的是将生成器的输出从真实样本中尽可能分辨出来。生成器和判别器相互对抗、不断调整网络参数，最终使判别器无法判断生成器的输出结果是真实样本或是生成样本，从而达到一种“纳什均衡”状态。

基于此，本发明旨在提出一种跨模态异质人脸识别和原型修复方法，一方面在特征空间中解耦出待检索人脸模态不相关的身份特征，以达成系统的准确识别目标人脸；另一方面在像素空间中对该检索人脸进行跨模态的脸部原型修复，复原正脸的、带有中性表情的、去遮挡的注册人脸所在域原型图片。

发明内容

针对现有技术中的上述不足，本发明提供了一种基于特征解耦的跨模态异质人脸识别和原型修复方法，主要目的在于处理待检索目标人脸(域A)与注册人脸(域B)模态不一致情况下的异质人脸识别，并同时对域A的待检索目标人脸修复其在域B的脸部原型供人工鉴别和比对。

一种基于特征解耦的跨模态异质人脸识别和原型修复方法，包括以下步骤：

S1、模型训练集准备：一个训练集包含来自域A和域B的N_d个身份类别；域A中的每张图片x服从P_dataA分布，即x～P_dataA，并标记为而域B中的每张图像y服从P_dataB分布，即y～P_dataB，并标记为/> 或/>表示x或y的身份标签；/>或/>表示x或y是否包含面部变化；根据/>和/>的值，在训练集中选取未带有面部变化的域A和域B的图片并分别构建真实的域A和域B的原型库；真实的域A原型库中的每张图片表示为x^rP～P_realA，真实的域B原型库中的每张图片表示为y^rp～P_realB；

S2、模型结构：

S21、生成器G：G由两个编码器即G_encA和G_encB，以及一个解码器即G_dec组成；G_encA对x的原型特征P_x和y的原型特征P_y进行编码；随后，而G_encB对x的域特征V_x和y的域特征V_y进行编码；G_dec接收P_x和V_x的拼接特征、P_x和V_y的拼接特征、P_y和V_x的拼接特征、以及P_y和V_y的拼接特征作为四个输入，然后分别生成四个不同的原型图片，即x在域A的同模态原型x^p、x在域B的跨模态原型、y在域A的跨模态原型/>、和y在域B的同模态原型y^p；

S21、判别器D和D包含两个子判别器D^id和D^gan；D^id是一个身份相关的子判别器，用于预测域B中的身份类别；它输出一个N_d维度的向量，其中N_d表示训练集中的身份类别数量；D^gan是一个GAN相关的子判别器，用于区分域B中的真假原型；类似地，/>也是一个多任务判别器，它包含两个子判别器/>和/> 输出一个N_d维向量，用于域A中的身份预测，而/>用于对域A中的真假原型进行区分；

S3、模型训练：本模型的训练包含G和D之间以及G和之间两个交替对抗训练阶段，具体过程如下：

S31、阶段1：训练D和G；在这个训练阶段中，G和D被训练相互对抗竞争，以使得G为域A的输入图片x生成跨模态的域B原型以及为域B的输入图片y生成同模态的域B原型y^p；

对于D＝[D^gan，D^id]，它有两个训练目标：1)给定G生成的虚假域B原型和y^p以及真实的域B原型y^rp，D^gan期望将/>和y^p归类为虚假原型，同时将y^rp归类为真实原型；2)给定域B的输入图片y，D^id期望正确预测其身份标签/>因此，训练判别器D的最终目标函数VD为：

其中α₁是平衡超参数；和/>定义为和其中/>是D^id中的第i个元素；

对于G，它也有两个训练目标：1)欺骗D^gan使其将和y^p分类为真实的域B原型；2)使D^id将/>的身份标签预测为与x的身份标签相同即/>将y^p的身份标签预测为与y的身份标签相同即/>因此，训练生成器G的最终目标函数V_G为：

其中λ₁是平衡超参数，和/>各自定义为/>和/>

S32、阶段2：训练和G；在这个训练阶段，G和/>被训练为相互对抗竞争，以使G为域B的输入图片y生成跨模态的域A原型/>以及为域A的输入图片x生成同模态的域A原型x^p；

对于它有两个类似于D的训练目标：1)给定由G生成的虚假域A原型和x^p以及真实的域A原型x^rp，/>期望将/>和x^p分类为虚假原型，同时将x^rp分类为真实原型；2)给定域A的输入图像x，/>期望准确地预测其身份标签/>因此，训练判别器/>的最终目标函数/>如下：

其中α₂是平衡超参数，和/>定义为和/>其中/>是/>中的第i个元素；

对于G，它有如下两个训练目标：1)欺骗使其将/>和x^p都分类为真实的域A原型；2)使/>将/>的身份标签预测为与y的身份标签相同即/>将x^p的身份标签预测为与x的身份标签相同即/>综合上述两个目标，训练生成器G的最终目标函数/>可表述为：

其中λ₂是平衡超参数，和/>各自定义为/>和

作为优选的，步骤S1中，如果x包含任意面部变化，包括姿势、表情或遮挡，则否则/>

作为优选的，在实验中，使用包含近红外与可见光图片的BUAANIR-VIS数据集，该数据集被随机划分为50个志愿者的训练集和100个志愿者的测试集，训练集和测试集无任何交集；在模型训练和测试过程中，BUAANIR-VIS数据集的所有图片均先被转换为128×128像素的灰度图。

作为优选的，对于G的编码器G_encA，模型采用在MS-Celeb-1M数据集预训练好的Lightened-CNN作为骨干网络为域A或域B输入图片提取一个256维的原型特征；对于G的另一个编码器G_encB，模型采用CASIA-Net作为骨干网络为域A或域B输入图片提取一个50维的域特征；而对于G中的解码器G_dec，模型选择用反向CASIA-Net作为解码网络并同时在每个反卷积层后引入批归一和指数线性单元；G_dec接收一个306维的特征向量并输出一张128×128维图片；对于判别器D和模型选择以CASIA-Net为骨干网络并额外填加了一层全连接层；D和/>网络中每个卷积层后都进行了批归一化处理和指数线性单元激活；D(或/>)接收一张128×128维图片并输出一个N_d+1维的向量，其中前N_d维被D^id或/>用来预测域B或域A中人脸图片的身份标签，而最后1维被预留给D^gan或/>用以打分进而区分域B(或域A)中的真假原型图片。

本发明的有益效果为：

1、不同于现有跨模态人脸识别技术只关注系统自动识别准确率，本发明引入了跨模态人脸原型修复过程，提供了人工鉴别和比对途径，进而提高了复杂环境下人脸识别系统的鲁棒性。此项发明技术尤其适用于刑事侦查和犯罪识别。

2、发明融合了解耦表征学习与生成对抗学习技术，通过在潜在特征空间中仅解耦原型和域特征，进而在像素空间中自适应地移除了人脸变化信息(包括表情、姿态等)。本发明提供了一种针对通用面部变化移除的跨模态原型修复网络。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应该被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为模型生成器G。其中x和y分别代表来自域A和域B的输入图片，P_x和V_x为x在特征空间中解耦的原型特征和域A特征，P_y和V_y为y在特征空间中解耦的原型特征和域B特征，x^p和分别表示x在域A和域B生成的原型图片，y^p和/>分别表示y在域B和域A生成的原型图片；

图2为近红外域(NIR)到可见光域(VIS)原型修复效果图；

图3为可见光域(VIS)到近红外域(NIR)原型修复效果图；

图4为近红外域(NIR)到近红外域(NIR)原型修复效果图；

图5为可见光域(VIS)到可见光域(VIS)原型修复效果图；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

如附图所示，一种基于特征解耦的跨模态异质人脸识别和原型修复方法，包括以下步骤：

S1、模型训练集准备：一个训练集包含来自域A和域B的N_d个身份类别；域A中的每张图片x服从P_dataA分布，即x～P_dataA，并标记为而域B中的每张图像y服从P_dataB分布，即y～P_dataB，并标记为/> 或/>表示x或y的身份标签；/>或/>表示x或y是否包含面部变化；以x为例，如果x包含任意面部变化(例如姿势、表情或遮挡)，则否则/>根据/>和/>的值，在训练集中选取未带有面部变化的域A和域B的图片并分别构建真实的域A和域B的原型库；真实的域A原型库中的每张图片表示为x^rp～P_realA，真实的域B原型库中的每张图片表示为y^rp～P_realB；

S2、模型结构：

S21、生成器G：G由两个编码器即G_encA和G_encB，以及一个解码器即G_dec组成；G_encA对x的原型特征P_x和y的原型特征P_y进行编码；而G_encB对x的域特征V_x和y的域特征V_y进行编码；随后，G_dec接收P_x和V_x的拼接特征、P_x和V_y的拼接特征、P_y和V_x的拼接特征、以及P_y和V_y的拼接特征作为四个输入，然后分别生成四个不同的原型图片，即x在域A的同模态原型x^p、x在域B的跨模态原型y在域A的跨模态原型/>和y在域B的同模态原型y^p；

S31、阶段1：训练D和G；在这个训练阶段中，G和D被训练相互对抗竞争，以使得G为域A的输入图片x生成跨模态的域B原型，以及为域B的输入图片y生成同模态的域B原型y^p；

对于D＝[D^gan，D^id]，它有两个训练目标：1)给定G生成的虚假域B原型和y^p以及真实的域B原型y^rp，D^gan期望将/>和y^p归类为虚假原型，同时将y^rp归类为真实原型；2)给定域B的输入图片y，D^id期望正确预测其身份标签/>因此，训练判别器D的最终目标函数V_D为：

其中λ₁是平衡超参数，和/>各自定义为/>和/>

其中λ₂是平衡超参数，和/>各自定义为/>和

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本发明旨在处理待检索目标人脸域A与注册人脸域B模态不一致情况下的异质人脸识别，并同时对域A的待检索目标人脸修复其在域B的脸部原型供人工鉴别和比对。本发明技术路线为：先从输入人脸图片学习到潜在特征空间，并在特征空间中解耦原型特征和源域特征，再用目标域特征替换源域特征，进而解码到像素空间中生成目标域的人脸原型图片。此外，特征空间中解耦出的原型特征可被用来进行鲁棒跨模态异质人脸识别。

S1：实验数据集配置。我们使用的数据集是包含近红外与可见光图片的BUAA NIR-VIS数据集。BUAA NIR-VIS是跨近红外和可见光域的公开异质人脸数据集，由北京航空航天大学采集和发布，被广泛应用于跨模态人脸识别和域自适应评估。BUAA NIR-VIS共包含了150个志愿者，每个志愿者拥有9张近红外图片和9张可见光图，描绘了在近红外域和可见光域9种不同的面部变化，包括5种表情变化(即高兴、悲伤、愤怒、惊讶、以及中性表情)和4种头部姿态变化(即头部倾斜向下，头部倾斜向上，头部右旋和头部左旋)。在实验中，该数据集被随机划分为50个志愿者的训练集和100个志愿者的测试集，训练集和测试集无任何交集。在模型训练和测试过程中，BUAA NIR-VIS数据集的所有图片均先被转换为128×128像素的灰度图。

S2：模型实现细节和参数设置。模型生成器G如图1所示。

对于G的编码器G_encA，模型采用在MS-Celeb-1M数据集预训练好的Lightened-CNN作为骨干网络为域A(或域B)输入图片提取一个256维的原型特征。对于G的另一个编码器G_encB，模型采用CASIA-Net作为骨干网络为域A(或域B)输入图片提取一个50维的域特征。而对于G中的解码器G_dec，模型选择用反向CASIA-Net作为解码网络并同时在每个反卷积层后引入批归一(Batch Normalization,BN)和指数线性单元(Exponential Linear Unit,ELU)。G_dec接收一个306维的特征向量并输出一张128×128维图片。对于判别器D和模型选择以CASIA-Net为骨干网络并额外填加了一层全连接层(Fully Connected Layer)。D和网络中每个卷积层后都进行了批归一化处理和指数线性单元激活。D(或/>)接收一张128×128维图片并输出一个N_d+1维的向量，其中前N_d维被D^id(或/>)用来预测域B(或域A)中人脸图片的身份标签，而最后1维被预留给D^gan(或/>)用以打分进而区分域B(或域A)中的真假原型图片。

模型中的平衡超参数λ₁、λ₂、α₁、和α₂均被被设置为2。我们使用小批量梯度下降(Mini-Batch Gradient Descent)算法对模型进行优化，其中批大小设置为5。所有G、D、和的网络权重参数都是从一个以零为中心的正态分布初始化的，标准差设为0.02。我们使用Adam作为优化器，其中动量和学习率分别设成0.5和0.0002。

S3：模型测试效果。模型训练好后，我们将模型中的生成器G对来自近红外域的随机测试人脸图片x_t与来自可见光域的随机测试人脸图片y_t进行相互跨模态人脸原型修复。图2为近红外域(NIR)到可见光域(VIS)原型修复效果图，图3为可见光域(VIS)到近红外域(NIR)原型修复效果图。从图2和图3可以观测到，模型成功地完成了近红外与可见光之间的跨模态人脸原型的修复。具体来说，模型能够基于近红外域(或可将光域)中带有面部表情或者头部姿态的输入人脸图片修复其在可见光域(或近红外域)下的人脸原型图片，并准确地保留了输入图片的原有身份信息。此外，值得注意的是，作为副加功能，本模型也能处理同模态下的人脸原型修复问题。图4为近红外域(NIR)到近红外域(NIR)原型修复效果图，图5为可见光域(VIS)到可见光域(VIS)原型修复效果图。从图4和图5可以观测到，本模型也能够很好地完成同模态间的原型修复任务。

我们也在测试集中构建了一个跨模态异质人脸识别实验。其中，每个志愿者只有一张可见光注册图片，所有测试集的近红外图片都被用作待检索人脸样本。将模型中的G_encA用来提取可见光注册图片和近红外检索图片的原型特征，并用作特征分类。在本实验中，选取了6种应用于近红外-可将光人脸识别的特征提取方法作为对比方法，包括了2种基于传统机器学习的方法(KDSR和H2-LBP3)和3种基于深度学习的方法(TRIVET、ADFL和RGM)。表一列出了本模型和其他对比方法在BUAA NIR-VIS数据集的识别准确率。

表一：BUAA NIR-VIS数据集上的跨模态人脸识别结果

KDSR	H2-LBP3	TRIVET	ADFL	RGM	本模型
						83.0％	88.8％	93.9％	95.2％	97.6％	98.7％

从上述观察到，本模型取得了最高的跨模态识别率，这表明了模型解耦的原型特征能够很好地捕获身份信息而排除模态信息。

不同于现有跨模态人脸识别技术只关注系统自动识别准确率，本发明引入了跨模态人脸原型修复过程，提供了人工鉴别和比对途径，进而提高了复杂环境下人脸识别系统的鲁棒性。此项发明技术尤其适用于刑事侦查和犯罪识别。

本发明融合了解耦表征学习与生成对抗学习技术，通过在潜在特征空间中仅解耦原型和域特征，进而在像素空间中自适应地移除了人脸变化信息(包括表情、姿态等)。本发明提供了一种针对通用面部变化移除的跨模态原型修复网络。

以上描述仅是本发明的实施例，不构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求的保护范围之内。

Claims

1.一种基于特征解耦的跨模态异质人脸识别和原型修复方法，其特征在于，包括以下步骤：

S1、模型训练集准备：一个训练集包含来自域A和域B的N_d个身份类别；域A中的每张图片x服从P_dataA分布，即x～P_dataA，并标记为而域B中的每张图像y服从P_dataB分布，即y～P_dataB，并标记为/> 或/>表示x或v的身份标签；/>或/>表示x或y是否包含面部变化；根据/>和/>的值，在训练集中选取未带有面部变化的域A和域B的图片并分别构建真实的域A和域B的原型库；真实的域A原型库中的每张图片表示为x^rp～P_realA，真实的域B原型库中的每张图片表示为y^rp～P_realB；

S2、模型结构：

S21、生成器G：G由两个编码器即G_encA和G_encB，以及一个解码器即G_dec组成；G_encA对x的原型特征P_x和y的原型特征P_y进行编码；而G_encB对x的域特征V_x和y的域特征V_y进行编码；G_dec接收P_x和V_x的拼接特征、P_x和V_y的拼接特征、P_y和V_x的拼接特征、以及P_y和V_y的拼接特征作为四个输入，然后分别生成四个不同的原型图片，即x在域A的同模态原型x^p、x在域B的跨模态原型y在域A的跨模态原型/>和y在域B的同模态原型y^p；

S21、判别器D和D包含两个子判别器D^id和D^gan；D^id是一个身份相关的子判别器，用于预测域B中的身份类别；它输出一个N_d维度的向量，其中N_d表示训练集中的身份类别数量；D^gan是一个GAN相关的子判别器，用于区分域B中的真假原型；/>也是一个多任务判别器，它包含两个子判别器/>和/> 输出一个Nd维向量，用于域A中的身份预测，而/>用于对域A中的真假原型进行区分；

对于G，它也有两个训练目标：1)欺骗D^gan使其将和y^p分类为真实的域B原型；2)使D^id将的身份标签预测为与x的身份标签相同即/>将y^p的身份标签预测为与y的身份标签相同即/>因此，训练生成器G的最终目标函数V_G为：

其中λ₁是平衡超参数，和/>各自定义为/>和

对于它有两个类似于D的训练目标：1)给定由G生成的虚假域A原型/>和x^p以及真实的域A原型x^rp，/>期望将/>和x^p分类为虚假原型，同时将x^rp分类为真实原型；2)给定域A的输入图像x，/>期望准确地预测其身份标签/>因此，训练判别器/>的最终目标函数如下：

对于G，它有如下两个训练目标：1)欺骗使其将/>和x^p都分类为真实的域A原型；2)使将/>的身份标签预测为与y的身份标签相同即/>将x^p的身份标签预测为与x的身份标签相同即/>综合上述两个目标，训练生成器G的最终目标函数/>可表述为：

其中λ₂是平衡超参数，和/>各自定义为/>和

2.根据权利要求1所述的一种基于特征解耦的跨模态异质人脸识别和原型修复方法，其特征在于：步骤S1中，如果x包含任意面部变化，包括姿势、表情或遮挡，则否则

3.根据权利要求1所述的一种基于特征解耦的跨模态异质人脸识别和原型修复方法，其特征在于：在实验中，使用包含近红外与可见光图片的BUAA NIR-VIS数据集，该数据集被随机划分为50个志愿者的训练集和100个志愿者的测试集，训练集和测试集无任何交集；在模型训练和测试过程中，BUAANIR-VIS数据集的所有图片均先被转换为128×128像素的灰度图。

4.根据权利要求l所述的一种基于特征解耦的跨模态异质人脸识别和原型修复方法，其特征在于：对于G的编码器G_encA，模型采用在MS-Celeb-1M数据集预训练好的Lightened-CNN作为骨干网络为域A或域B输入图片提取一个256维的原型特征；对于G的另一个编码器G_encB，模型采用CASIA-Net作为骨干网络为域A或域B输入图片提取一个50维的域特征；而对于G中的解码器G_dec，模型选择用反向CASIA-Net作为解码网络并同时在每个反卷积层后引入批归一和指数线性单元；G_dec接收一个306维的特征向量并输出一张128×128维图片；对于判别器D和模型选择以CASIA-Net为骨干网络并额外填加了一层全连接层；D和/>网络中每个卷积层后都进行了批归一化处理和指数线性单元激活；D(或/>)接收一张128×128维图片并输出一个N_d+1维的向量，其中前N_d维被D^id或/>用来预测域B或域A中人脸图片的身份标签，而最后1维被预留给D^gan或/>用以打分进而区分域B(或域A)中的真假原型图片。