CN112115838A

CN112115838A - 一种热红外图像光谱融合的人脸分类方法

Info

Publication number: CN112115838A
Application number: CN202010955026.7A
Authority: CN
Inventors: 张天序; 郭婷; 李正涛; 郭诗嘉; 苏轩; 彭雅; 叶建国
Original assignee: Nanjing Huatu Information Technology Co ltd
Current assignee: Nanjing Huatu Information Technology Co ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2020-12-22
Anticipated expiration: 2040-09-11
Also published as: CN112115838B

Abstract

本发明公开了一种热红外图像光谱融合的人脸分类方法，包括S1根据当前帧人脸热红外图像获得关键区域定位图像对应的关键点组坐标，并对目标人脸的关键区域进行测谱获得目标人脸四个关键区域的光谱序列数据；S2利用关键点组坐标对人脸热红外图像进行对齐处理，并将对齐后的人脸热红外图像进行特征提取，获得人脸热红外特征；S3采用注意机制的光谱特征提取模块对目标人脸四个关键区域的光谱序列数据进行提取，获得人脸光谱特征；S4利用特征组注意模块将人脸热红外特征和人脸光谱特征进行融合处理并获得图像光谱融合特征；S5采用聚类距离的优化策略训练分类模型对图像光谱融合特征进行分类处理并获得待检测的人的名字或标签。

Description

一种热红外图像光谱融合的人脸分类方法

技术领域

本发明属于生物特征识别与红外技术的交叉融合技术领域，更具体地，涉及一种热红外图像光谱融合的人脸分类方法。

背景技术

人脸识别，即对于一张人脸热红外图像，可以得知对应人脸的标签或者名字。

人脸识别技术在安防监控、入口控制以及数据安全等方向有着很大的应用价值，该技术不会像传统的用来鉴别身份的账号、钥匙和信用卡那样容易被破解、伪造和遗失。

基于可见光成像的人脸识别方法主要有：基于几何特征的人脸识别、基于模板匹配的人脸识别、基于深度学习的3D人脸识别方法等。经过数十年的发展，基于可见光成像的人脸识别技术已经取得了很大的进步，但是在某些不具备可见光人脸成像的极端情况下，例如：(1)弱光照甚至是无光照的情况；(2)面部进行妆容打扮、做夸张表情、伪装、甚至整容的情况；(3)大多数可见光人脸识别系统易受照片欺骗的情况。在这些情况下，可见光人脸识别系统的鲁棒性差，识别率降低。所有高于绝对零度的物体均可以发出不同波长的电磁辐射，利用红外辐射的不同，热红外成像仪可以将物体的红外辐射分布转化成人眼可见的图像。

因此面部热红外成像不依赖于外部光源，在夜间和弱光环境、光线不足的情况下，仍然可以获取人的面部热红外信息，如图1所示，其中，图1(a)为自然光下的可见光图像，图1(b)为弱光照条件下的可见光图像，图1(c)为自然光下的热红外图像，图1(d)为弱光照条件下的热红外图像。如图可见，热红外人脸识别的识别性能基本不受外部环境光照的影响，在阴暗的地方甚至没有光照的夜间情景，热红外成像仪仍然可以轻松地拍摄到人脸热红外图像；因为每个人面部的血管组织结构具有个体差异性，因此即使当人的面部进行妆容打扮、做夸张表情时，热红外人脸识别具备优于可见光人脸识别的效果，使用热红外人脸识别技术有望解决在光照变化、妆容打扮等情况下人脸识别效果不稳定的问题，同时也具备分辨照片与真人的能力。

但是当遇到面部遮挡的情况下，人面部热红外成像会严重受影响，如图2所示，为面部遮挡的热红外成像示例图。这种情况下，单一的利用热红外人脸识别，很难达到精确识别的目的，如果附加以光谱数据，强化未被遮挡部分的特征，可以增加识别率。其可以克服热红外人脸受到遮挡情况下，单独使用红外图像特征时导致识别率降低的缺陷。

当人表情发生变化或者面对照片的欺骗时，热红外图像信息结合高光谱信息可以依靠其丰富的数据信息得到准确的识别率。通过光谱测量，可以感测到人与人面部明显不同的皮下组织结构，但会随着时间的推移相对稳定。人体组织的局部光谱特性对人脸的方向和表情几乎是不变的，这使得将热红外图像与高光谱信息结合进行人脸识别的技术可以用于大范围的姿态和表情识别。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种热红外图像光谱融合的人脸分类方法，旨在解决传统的人脸识别技术存在可见光面临的光照问题和易受照片欺骗的问题。

本发明提供了一种热红外图像光谱融合的人脸分类方法，包括下述步骤：

S1：根据当前帧人脸热红外图像获得关键区域定位图像对应的关键点组坐标，并以所述关键点组坐标为中心对目标人脸的关键区域进行测谱获得目标人脸四个关键区域的光谱序列数据；

S2：利用关键点组坐标对对所述人脸热红外图像进行对齐处理，并将对齐后的人脸热红外图像进行特征提取，获得人脸热红外特征；

S3：采用注意机制的光谱特征提取模块对目标人脸四个关键区域的光谱序列数据进行提取，获得人脸光谱特征；

S4：利用特征组注意模块将所述人脸热红外特征和所述人脸光谱特征进行融合处理并获得图像光谱融合特征；

S5：采用聚类距离的优化策略训练分类模型对所述图像光谱融合特征进行分类处理并获得待检测的人的名字或标签。

更进一步地，步骤S1具体为：

S11通过视场扫描搜索人脸目标，并获得当前帧人脸热红外图像；

S12通过人脸框检测算法对所述当前帧人脸热红外图像进行处理获得人脸检测框；

S13对所述人脸检测框进行人脸三官部件提取获得关键区域定位图像；

S14分别对所述关键区域定位图像进行形心计算，并获得所述关键区域定位图像对应的关键点组坐标；

S15以所述关键点组坐标为中心，在关键区域内任选测谱中心点作为测谱中心坐标，并根据所述测谱中心坐标对目标人脸的关键区域进行测谱，获得目标人脸四个关键区域的光谱序列数据。

更进一步地，步骤S2具体为：

S21：获得标准脸对应的标准脸关键点组坐标，根据待对齐的人脸热红外图像的人脸关键点组坐标和标准脸的关键点组坐标计算仿射变换矩阵，并根据所述仿射变换矩阵对所述人脸热红外图像进行仿射变换后获得对齐后的人脸热红外图像；

S22：将对齐后的人脸热红外图像进行特征提取后获得人脸热红外特征。

更进一步地，在步骤S22中，采用特征提取器进行特征提取，所述特征提取器的网络架构包含多个密集块，且各个密集块内的特征图的尺寸相同，便于级联。

更进一步地，在步骤S4中，利用特征组注意模块融合图像特征和各个光谱特征并自动学习各个特征组的注意权重，从而引导分类模型更多的关注具有更好判别特性的特征组。

更进一步地，在步骤S4中，利用特征重标定策略对不同的分组特征进行注意重标定，通过计算每个分组特征不同的组权重，获得当前任务中各个组特征的重要程度，从而提高重要组特征的特征表达并抑制不重要的组特征。

更进一步地，特征重标定策略包括：组压缩操作，组激励操作和组特征重标定。

更进一步地，在步骤S5中，聚类距离的优化策略训练分类模型具有如下特性：

对于同一个体的一个样本，特征提取网络对于其所提取出的特征应尽可能的靠近该个体的类心；

对于同一个体的一个样本，特征提取网络对于其所提取出的特征应尽可能的远离其他个体的类别间距。

更进一步地，在步骤S5中，所述聚类距离的优化策略训练分类模型还包括如下特性：以优化类别内部以及类别之间距离为出发点，对于分类错误的样本，拉近该样本所提取出的特征与其类心的距离的同时，拉开其与分类错误的类的类心距离。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明提出的一种将高光谱信息与热红外图像信息结合进行人脸识别的方法可以解决可见光面临的光照问题和易受欺骗等问题，也可以弥补在有严重遮挡时热红外和高光谱人脸识别单独使用时的识别率降低和限制的问题。因为所有高于绝对零度的物体均可以发出不同波长的电磁辐射，利用红外辐射的不同，热红外成像仪可以将物体的红外辐射分布转化成人眼可见的图像，因此面部热红外成像不依赖于外部光源，在夜间和弱光环境、光线不足的情况下，仍然可以获取人的面部热红外信息，同时具备区分照片与真人的能力。

(2)本发明利用图谱关联设备进行热红外成像和红外光谱协同挖掘人脸内部结构及其温度分布信息，从而有效的拓展传统的可见光人脸识别的应用场景限制，对我国公共安全等领域具有重大的社会价值和效益。

附图说明

图1是现有技术提供的可见光与热红外图像对比图，其中，(a)为自然光下的可见光图像，(b)为弱光照条件下的可见光图像，(c)为自然光下的热红外图像，(d)为弱光照条件下的热红外图像；

图2是现有技术提供的面部被遮挡的热红外图像样本示例；

图3是本发明中采集红外光谱数据图谱关联设备示意图；

图4是本发明中人脸检测框图，其中(a)为原始热红外图像，(b)为人脸检测结果图；

图5是本发明中热红外人脸关键区域定位图，其中(a)为人脸检测结果图，(b)为生成的关键区域定位图；

图6是本发明中热红外人脸形心坐标关键点示意图；

图7是本发明中瞄准镜测谱中心示意图；

图8是本发明中测光谱红外流程图；

图9是本发明中人脸对齐结果图，其中(a)为对齐前人脸热红外图像，(b)为对齐后人脸热红外图像；

图10是本发明中热红外图像特征提取示意图，其中，(a)热红外图像特征提取网络架构图，(b)密集块示意图；

图11是本发明中热红外图像特征提取测试结果图，其中，(a)为将该三张图像输入未训练的特征提取器输出的欧式距离示意图，(b)为将该三张图像输入训练后的特征提取器输出的欧式距离示意图；

图12是本发明中含注意机制的光谱特征提取模块示意图；

图13是本发明中热红外图像和光谱特征组注意重标定示意图；

图14是本发明中人脸热红外图像数据集部分样本示例；

图15是本发明中人面部组织肌肉结构图；

图16是本发明中人面部关键区域辐射亮度曲线图，其中，(a)为左眼光谱辐射亮度曲线图，(b)为右眼光谱辐射亮度曲线图，(c)为鼻子光谱辐射亮度曲线图，(d)为嘴巴光谱辐射亮度曲线图；

图17是本发明中四位志愿者不同关键区域的光谱辐射亮度曲线汇总图；

图18是本发明中不同个体同一面部区域热红外光谱辐射亮度曲线图，其中，(a)为左眼的光谱辐射亮度对比，(b)为右眼的光谱辐射亮度对比，(c)为鼻子的光谱辐射亮度对比，(d)为嘴巴的光谱辐射亮度对比；

图19是人脸验证任务的正确接受率TAR和错误接受率FAR对比曲线图；

图20是本发明实施例提供的热红外图像光谱融合的人脸分类方法的实现流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提出了一种将高光谱信息与热红外图像信息结合进行人脸识别的方法；热红外光谱联合的人脸识别系统可以解决可见光面临的光照问题和易受照片欺骗等问题，也可以弥补高光谱和热红外人脸识别单独使用时的识别率降低和限制的问题。

本发明利用图谱关联设备进行热红外成像和热红外光谱协同挖掘人脸内部结构及其温度分布信息，从而有效的拓展传统的可见光人脸识别、热红外人脸识别中的应用场景限制，对我国公共安全等领域具有重大的社会价值和效益。

针对人脸识别现有技术的以上缺陷或改进需求，本发明提供了一种利用图谱关联设备进行热红外光谱联合的人脸识别方法，满足对于人脸识别的需求。本发明提供的一种利用图谱关联设备进行热红外光谱联合的人脸识别方法，包括以下步骤：

(1)利用图谱关联设备获得人面部红外热像图。另一方面，利用图谱关联设备的伺服系统追踪到人脸的眼睛、鼻子、嘴巴关键区域并测量其光谱，获得光谱数据，设备如图3所示。

其中，步骤(1)中利用图谱关联设备获得人面部红外热像图具体包括以下子步骤：

(1.1)利用瞄准镜进行视场扫描以搜索人脸目标，并在观测到人脸目标时保持瞄准镜不动，获得当前帧人脸热红外图像。

(1.2)输入当前帧热红外图像，检测到热红外人脸(人脸检测框)，结果图如图4所示。将当前帧人脸热红外图像人脸热红外图像输送网络获得人脸检测框。网络采用人脸框检测算法，该算法用于对输入的热红外图像进行卷积、最大池化以及归一化的操作，以获取卷积神经网络的权重，从而进行人脸判定以及位置回归，最终获得人脸检测框。

在本发明实施例中，人脸框检测算法具体为：将N张热红外图像作为正样本及L张未显示人脸的热红外图像作为负样本一起组成训练集，获取M张热红外图像作为测试集，对正样本的每张热红外图像分别框出人头框和人脸框作为标定框；正样本中每张热红外图像的标记均为1，负样本中每张热红外图像的标记均为0；每张热红外图像的标定框的中心点坐标值和宽度、高度尺寸值按比例缩小，缩小后的中心点坐标值、宽度、高度尺寸值与该张热红外图像的标记一起存在一个独立的txt文件中，则共计获得N个txt文件。

此外，将训练集中每张热红外图像的路径和负样本中所有热红外图像的标记一起存在另一个txt文件中；以此方式，共获得N+1个txt文件作为训练标签；搭建卷积神经网络，将训练集及训练标签一起输入卷积神经网络进行训练，利用损失函数来优化卷积神经网络，从而获得所需的卷积神经网络的训练模型；输入测试集中的热红外图像，通过卷积神经网络获得人头和人脸检测框。卷积神经网络采用Darknet框架和Yolo网络，Darknet框架用于对输入的热红外图像进行卷积、最大池化以及归一化的操作，以获取卷积神经网络的权重，Yolo网络用于进行对卷积神经网络的权重进行处理，以进行人脸判定以及位置回归。

进一步优选地，标定框与卷积神经网络构建的预测框的尺寸关系如下：a_x＝d_x+Δ(m_x)，a_y＝d_y+Δ(m_y)，

其中，a_x，a_y分别表示图像平面直角坐标系下标定框的中心坐标的宽度和高度，a_w和a_h表示标定框的宽度和高度，Δ(m_x)，Δ(m_y)分别表示标定框中心到预测框中心的宽度方向的偏移量和高度方向的偏移量，d_x，d_y分别表示预测框的中心坐标的宽度和高度，p_w，p_h分别表示为预测框的宽度和高度，m_w，m_h分别为预测框的宽缩放比和高缩放比，Δ函数为sigmoid函数。

进一步优选地，优选地，卷积神经网络构建的预测框为六个并且分为两个规模，这六个预测框的高度按从大至小排序后分别为预测框1～预测框6，其中第一个规模分配预测框1、预测框3和预测框5，第二个规模分配预测框2、预测框4和预测框6。

损失函数进行对卷积神经网络进行优化的具体如下：

其中，loss表示损失，S²表示卷积神经网络的网格数，Z表示每个单元格预测框的个数，

表示第i个网格的第j个anchor box是否负责这个目标，不负责时取值为0，负责时取值为1，

表示i个网格的第j个预测框不负责的目标，有目标的情况取值为1，没有目标的情况取值为0，λ_coord＝5，λ_noobj＝0.5，x_i，y_i分别表示第i个预测框的中心点坐标的宽度和高度，

分别表示第i个标定框的中心点坐标的宽度和高度，w_i，h_i分别表示第i个预测框的宽度和高度，

分别表示第i个标定框的宽度和高度，c_i表示第i个预测框的置信度，选中的预测框的取值为1，未选中的预测框的取值为0，

表示第i个标定框的置信度，选中的标定框的取值为1，未选中的标定框的取值为0，p_i表示第i个预测框中为人脸的分类概率，

表示第i个标定框中为人脸的分类概率，c表示有无人脸的类，classes表示有人脸和没有人脸的类的集合。

获得损失loss后，采用随机梯度下降算法进行更新，卷积神经网络不断选择和判断当前目标下最优的参数，根据损失loss的结果，对卷积神经网络中的参数更新，卷积神经网络达到所需的指标后停止更新。

(1.3)将人脸检测框送入热红外人脸三官提取器，着重眼睛、鼻子、嘴巴区域的特征的学习，自动得到眼睛，鼻子，嘴巴的三官定位图像。实现的结果为输入一张人脸热红外图像，输出一张面部各个关键区域位置可追踪的图像。

在本发明实施例中，热红外人脸三官提取器算法具体为：本发明采用带条件的生成对抗网络模型进行热红外人脸三官区域定位图的生成。带条件的生成对抗网络是近年来兴起的深度学习技术，目前在图像生成领域具有大量的应用。在生成对抗网络模型中，有两个网络：生成网络与判别网络，生成网络用于生成图像，判别网络用于判断输入的图像为真实的图像还是生成网络生成的图像，输出输入图像为真实图像的概率。

上公式为本发明用于训练生成网络，判别网络所采用的损失函数。x为输入的人脸热红外图像，y为x对应的真实三官定位图，G(x)为生成网络生成的虚假的三官定位图。D(λ，x)为判别网络对于输入图像对{λ，x}的识别，输出靠近1则判断为真实图像对{y，x}，靠近0则判断为生成图像对{G(x)，x}。

在训练时，交替训练两个网络，提高生成网络生成图像的能力的同时，刺激着判别网络提升自己对于真实图像与生成图像的分辨能力；而判别网络判断能力的提升又促使生成网络提高自己的生成能力。以该方式交替反复训练，生成网络与判断网络不断相互博弈，提升自己生成热红外三官区域定位图的能力。直至判断器无法判断输入图像为真实图像还是生成图像的时候，便得到了一个良好的图像生成器，在本发明中，图像生成器的作用是生成热红外三官区域定位图。

为了便于后续对于不同部位的定位，简单起见，将三官区域定位图中的眼睛，鼻子，嘴巴的颜色(R,G,B)通道值分别设为(0，0，255)，(0，255，0)，(255，0，0)。

三官区域定位图(三官区域之后统称为关键区域)可表示如下：

其中，C(w,h)表示区域定位图中坐标(w,h)处的(R,G,B)值，Area_Irrelevant表示红外人脸热红外图像中的无关区域；相应地，Area_Eyes表示眼睛区域，包含左眼与右眼两部分；Area_Nose表示鼻子区域；Area_Mouth表示嘴巴区域。

实现的结果是根据图谱关联设备输出的当前帧热红外图像经预处理获得的人脸框，如图5(a)，能够通过模型转换成其相应的关键区域定位图5(b)。根据图5(b)的面部区域特点，对于左眼、右眼、鼻子、嘴巴的关键区域可以实现精准定位。

(1.4)对获得的左眼、右眼、鼻子、嘴巴的关键区域定位图计算区域形心得到人脸热红外图像中对应的{左眼、右眼、鼻子、嘴巴}关键点组坐标，关键点组坐标如图6实心点所示。

具体的：

式中，

表示区域定位图中计算得到的面部各个区域的形心坐标，total_part表示区域定位图中属于各个区域的像素点的总数量。

(1.5)以关键点组坐标为中心，在三官关键区域内任选测谱中心点作为伺服瞄准镜中的测谱中心坐标，如图7所示。以确定伺服瞄准镜中的测谱中心位置坐标，从而对目标人脸的关键区域进行测谱，获得目标人脸四个关键区域的光谱序列数据。测光谱红外流程如图8所示。

(2)获取人脸热红外特征。利用得到的人脸关键点组坐标，对输入的人脸热红外图像进行对齐。人脸热红外图像经对齐处理后，可有效降低深度神经网络训练时整个模型的收敛难度，提高后续人脸识别的精度，将对齐后的人脸热红外图像输入特征提取器，得到人脸热红外特征。

其中，步骤(2)具体包括：

(2.1)记录步骤(1)中获得的人脸框热红外图像，此处称为待对齐人脸热红外图像人脸热红外图像，以及与该图像对应的关键点组坐标。再确定标准脸，以相同方式确定标准脸关键点组坐标，利用待对齐人脸热红外图像人脸热红外图像的人脸关键点组与标准脸上的关键点组计算所需的仿射变换矩阵，对于待对齐的人脸热红外图像人脸热红外图像进行仿射变换，输出得到对齐后的图像。对齐结果如图9所示。

作为本发明的一个实施例，根据获取的左眼、右眼和嘴巴形心关键点与标准脸上的形心关键点计算仿射变换矩阵，对相对于正视脸有一定姿态变化的人脸热红外图像进行矫正，可得对齐后的图像。

式中，

为标准脸各部位的关键点坐标，

为计算得到的各个部位的形心坐标。

(2.2)将对齐后的人脸热红外图像输入特征提取器，得到人脸热红外特征。

本发明选用的特征提取器的网络架构如图10(a)所示，该特征提取器网络架构包含4个密集块，包含多个密集块是希望各个密集块内的特征图的尺寸统一，这样在做级联时就不会有尺寸的问题。在密集块中，如图10(b)所示，每层都会额外增加上一层所提取出来的特征，即：

x₁＝H_i(x₀)

x₂＝H₂([x₀,x₁])

.....

x_n＝H_n([x₀,x₁....x_n-1])

上式中，x_i为第i层的输出，H_i为第i层的非线性激活函数。输入一张对齐后的热红外人脸图像，经过该特征提取器提取特征后获得人脸热红外特征向量。

作为本发明的一个实施例，该步骤分为训练部分和测试两部分；其中，训练部分采用170人，每人50张共8500张作为训练数据集，按照不同人的个数将其编号0-169作为其标签；测试部分采用200人，每人20张共4000张作为测试数据集。

在本发明实施例中，训练部分具体包括：

数据预处理：对于训练集和测试集中的待识别人脸热红外图像Img_i’，将其进行人脸对齐，得到对齐后的待识别人脸热红外图像Img_i。

①初始化特征提取器网络参数，将训练集热红外图像输入特征提取器，计算各类的类心特征矢量，如下式：

式中，Hoc_n为第n个人的类心特征矢量，M为第n类人的热红外图像的总量。

②将训练集中的热红外图像Img_i输入特征提取器，得到1x1000的输出特征矢量Fextrac(Img_i)。

③计算该特征矢量与各类心特征矢量的距离，选择距离最小的类心特征矢量对应的类作为预测结果。

Dist_i,n＝||Fextrac(Img_i)-Hoc_n||₂.........n＝0,1,2...148

Dist_i,m＝min(Dist_i,1,Dist_i,2,...Dist_i,148)

Pred_i＝m

式中，Dist_i，n为第i张输入热红外图像的特征与类m的类心特征矢量的欧氏距离。Pred_i为对应的预测结果。

④计算损失函数

loss＝||Fextrac(Img_i)-Hoc(real_i)||₂-||Fextrac(Img_i)-Hoc(pred_i)||₂

上式中，Real_i为Img_i的真实类。

⑤利用前面得到的损失函数更新特征提取器网络的参数。如下式：

上式中，θ特征提取器网络参数，η为学习率，在此取0.001，L(f(x)⁽ⁱ⁾；θ,y⁽ⁱ⁾)为网络输出。

⑥重新计算各类的类心特征矢量：

⑦回到步骤2继续训练，直至训练集中的热红外图像全部已经用于训练，以该方式对于特征提取器进行100次训练。使得特征提取器能够提取我们期望的特征。

在本发明实施例中，测试部分具体包括：

①将训练集中的热红外图像Img_i输入特征提取器，得到1×1000的输出特征矢量Fextrac(Img_i)。

②计算该特征矢量与各类心特征矢量的距离，选择距离最小的类心特征矢量对应的类作为预测结果。

Dist_i,n＝||Fextrac(Img_i)-Hoc_n||₂.........n＝0,1,2...148

Dist_i,m＝min(Dist_i,1,Dist_i,2,...Dist_i,148)

Pred_i＝m

为了更进一步的说明，现以三张图像为例，同一人的两张不同热红外图像分别表示为A1，A2，不同人的一张热红外图像表示为B；利用未经训练的特征提取网络，输入热红外图像A1，A2，B，可以获得分别对应该三张热红外图像的1×1000维的输出特征矢量Fextrac(Img_i)，对特征矢量进行计算并获得同类A1和A2之间的欧氏距离为2.6447，不同类A1和B之间的欧氏距离为2.6183，由此可知，A1，A2间的距离与A1，B间欧氏距离差别细微，因此未经训练的特征提取器提取的特征会导致分类错误。

利用训练后的特征提取网络，输入热红外图像A1，A2，B，可以获得分别对应该三张图像的1×1000的输出特征矢量Fextrac(Img_i)，对特征矢量计算获得同类A1，A2间的欧氏距离为5.8638，不同类A1，B之间的欧氏距离为19.8612，可知，A1，A2间的欧式距离远小于A1，B间的欧氏距离，因此训练后的特征提取器提取的特征促使分类正确。

如图11所示，(a)为将该三张图像输入未训练的特征提取器输出的欧式距离示意图，(b)为将该三张图像输入训练后的特征提取器输出的欧式距离示意图，两张图像间的数字代表彼此间的欧式距离。

其中，将热红外图像A1，A2，B输入训练前后的特征提取器分别输出1×1000维的特征向量Fextrac(Img_A1)，Fextrac(Img_A2)，Fextrac(Img_B)，分别取每个特征向量的前10位列表如下表1所示。

表1

为了更进一步的证明本发明提供的模型具有优秀的泛化能力，现对其进行泛化能力测试：训练集中包含的人的图像识别准确率为99.306％，未用于训练的人的识别准确率为98.653％，可知模型有优秀的泛化能力。

(3)获取人脸光谱特征。各个关键区域部位的光谱数据对类别差异的表达能力不尽相同，注意机制的光谱特征提取网络对每一个关键区域可得到不同的光谱特征，四个关键区域共四个光谱特征向量。

其中，注意机制的光谱特征提取模块具体实现如图12所示，其包含了光谱嵌入特征计算，双向GRU编码器层，光谱注意层，最后得到光谱特征向量。其中GRU(GatedRecurrent Unit)编码器是一种基于双向门控循环单元，双向GRU编码器结构使得数据可以从正反2个方向同时输入。

对于本发明中的面部各个部位的光谱曲线，通过对光谱曲线的分段表达和特征变换，其可变换为一维嵌入向量[e₁,...,e_n]，且其光谱嵌入向量e_i的长度为l。

本发明中的高光谱曲线以双向GRU编码器建模表达光谱谱段之间的相关性，对于光谱曲线的一维嵌入向量[e₁,...,e_n]，由双向GRU编码器可得其序列输出信息。双向GRU编码器包含前向GRU序列

和后向GRU序列

其中，前向序列

按照e₁到e_n顺序编码e_i，后向序列

由e_n到e₁顺序进行编码。

式中，通过连接前向状态

和后向状态

可得对应位置光谱嵌入的GRU编码输出向量h_i，且h_i包含了光谱嵌入整个序列的相关信息。

本发明中的光谱波段的注意模式为通过查询向量筛选出光谱波段中重要的光谱嵌入特征，并对序列信息更新权重以获得整个光谱特征向量，如下：

式中，通过单层MLP获得h_i的隐藏表示u_i；并引入查询向量u_query来查询序列中的重要信息谱段；然后，进行u_query对齐，计算序列中每个u_i与u_query的相似性，并利用softmax函数，计算归一化的权重系数α_i；最后，利用归一化权重α_i，可以计算得到四个关键区域的光谱特征向量。

(4)经过上述特征提取，可得面部特征的五个向量描述，特征组注意模式对五个分组特征进行拼接可得人脸的图像光谱融合特征，其表达了面部的整体图谱信息。

其中，对于热红外图像和光谱的协同识别，图像特征和面部各个关键部位的光谱特征共同组成了个体的判别特征，但不同的特征对识别任务的判别贡献不尽相同，通过引入注意机制，本发明利用特征组注意模块融合图像特征以及各个光谱特征并自动学习各个特征组的注意权重，从而引导分类模型更多的关注具有更好判别特性的特征组。本发明借鉴了压缩激励网络中的特征重标定策略，对不同的分组特征进行注意重标定，通过计算每个分组特征不同的组权重，可以得到当前任务中各个组特征的重要程度，从而提高重要组特征的特征表达并抑制不重要的组特征，其中特征组权重可通过网络训练学习得到。

不同于传统的组卷积操作，用于组特征加权的重标定策略可分为三步实现。如图13中所示，框图描述了“压缩/激励”部分，该模块的n个输入组特征表示为[group₁,...,group_i,...group_n]，图片中特征上部符号表示向量的维度，下部表示此处对向量进行的操作。

(4.1)组压缩操作，指的是在组特征内进行特征压缩，将每个三维的组特征变成一个实数，这个实数具有全局特征，并且输出的维度和输入的特征通道数相匹配。组压缩的目的是为了将整个组特征编码为一个全局特征，并采用组全局平均池化实现。组全局平均池化是将特征图所有像素值相加求平均，用该数值表达对应特征图。如对于维度为w_g×h_g×c_g的组特征group_i，通过组全局平均池化得到当前组的全局特征z_i：

因此，对于n个组特征可得向量Z＝[z₁,z₂,...,z_n]，其表达了特征组之间的信息分布。

(4.2)组激励操作，指的是通过参数w来给每个组生成权重，其中参数w被学习用来显式地建模组特征间的相关性。对于组压缩操作得到的全局特征描述，我们需要得到各组之间的关系，组激励操作采用sigmoid形式的门机制实现。其可以得到各个组之间的非线性关系，并且各个组之间的关系也是非互斥的，如图13所示，采用了包含两个全连接层的“瓶颈”结构来降低模型的复杂度并提升模型的泛化能力：S＝σ(W₂ReLU(W₁Z))，其中

第一个FC全连接层起到降维的作用，从n维降到n_e维，然后采用ReLU激活函数，最后的FC全连接层恢复原始的维度。最后，通过sigmoid门机制我们得到0～1之间的归一化权重向量S＝[s₁,s₂,...,s_n]。

(4.3)组特征重标定，将学习到的各组激活值乘上原始组特征。上一步组激励操作得到的归一化权重S可表示各组特征的重要程度，通过对各组特征group_i利用权重系数s_i进行重标定，可得到重新关注后的各组特征，重标定过程为：

其中，标量s_i为一个实数，组特征group_i的维度为(w_g,h_g,c_g)，函数F_scale表示标量s_i与组特征group_i元素逐个相乘，最后可得重标定特征输出

从而获得人脸的热红外图像光谱融合特征。

(5)根据图像光谱融合特征，聚类距离的优化策略训练分类模型，分类器输出所判断的该人的名字或者标签。

其中，对于模型中包含的个体类别，给定一个热红外图像光谱样本，能够在模型中对其正确分类；对于模型数据库之外的个体类别，无法检索出其类别。因此，对于一个性能良好的特征提取网络，该特征提取网络应具有如下特性：其一，对于同一个体的一个样本，特征提取网络对于其所提取出的特征应尽可能的靠近该个体的平均特征(类心)；其二，对于同一个体的一个样本，特征提取网络对于其所提取出的特征应尽可能的远离其他个体的平均特征(类别间距)。

通过统计不同个体的样本类心以及类别间距，计算得到各类的拒绝阈值，距离低于阈值判定同一个体，高于阈值进行拒绝。

本发明以优化类别内部以及类别之间距离为出发点，对于分类错误的样本，拉近该样本所提取出的特征与其类心的距离的同时，拉开其与分类错误的类的类心距离，并设计损失函数如下：

式中，Feature_i为输入样本通过特征提取器所提取出的特征，GroundTruth_i为输入样本所属类别的类心特征，Prediction_i为输入样本预测类别的类心特征。分析可知，输入样本全部分类正确，则损失函数值为零。

基于深度模型的分类网络训练：模型的每一次反向传播对网络权重进行调整，而在上述损失函数中，不同个体的类心特征也随着网络权重的调整而变化，故每做一次反向传播，不同个体的类心特征需要重新计算。则整个训练过程如下：

(5.1)利用预训练模型初始化特征提取器的参数，并设置训练周期，学习率，损失函数优化方式；

(5.2)对于训练集中的所有样本，输入特征提取网络，得到相应的特征；

(5.3)计算得到不同个体的类心特征；

(5.4)计算训练样本输出特征与不同个体类心的欧氏距离，选择距离最近的类作为预测结果；

(5.5)计算损失函数值，调整网络权重，跳至步骤2。

为了更进一步的说明本发明提供的热红外图像光谱融合的人脸分类方法，现结合具体实例并参照附图详述如下：

本发明利用红外热像仪采集制作了热红外人脸数据库。该数据集图像采集了3.4-5.0μm中波波段的热红外能量，热红外人脸数据，部分样本如图14所示。

人的生理特征由其自身独特的与构成血液和组织有关的分子结构决定。如图15所示，为人类面部组织结构图。人类面部组织结构的光谱特性可以更好地揭示人与人之间的差别。不同的人体器官如鼻子，眼睛，嘴巴在不同波带上的吸收特性曲线具有个体差异性。本发明主要利用了常温目标光谱辐射能量较集中的8～14μm光谱波段数据。图16描述了同一个体面部不同区域光谱辐射亮度示例，其中(a)为左眼光谱辐射亮度曲线图，(b)为右眼光谱辐射亮度曲线图，(c)为鼻子光谱辐射亮度曲线图，(d)为嘴巴光谱辐射亮度曲线图。图17列举了四位志愿者不同关键区域的光谱辐射亮度曲线汇总图。图18列举了不同个体同一区域的光谱辐射亮度曲线汇总图，其中图中(a)为左眼的光谱辐射亮度对比，(b)为右眼的光谱辐射亮度对比，(c)为鼻子的光谱辐射亮度对比，(d)为嘴巴的光谱辐射亮度对比。

本发明实施例提供的热红外图像光谱融合的人脸识别方法包括以下步骤：

1、采用图谱关联设备获得人面部红外热像图，经过预处理获得人脸框。同时，利用图谱关联设备的伺服系统追踪到人脸的眼睛、鼻子、嘴巴关键区域并测量其光谱，获得光谱数据：

将当前帧人面部红外热像图经过预处理裁剪出人脸框，送入带条件的生成对抗网络模型进行区域定位图的生成。

该网络以生成式模型得到各个面部关键区域，将区域定位问题转换为图像的生成问题。在生成对抗网络模型中，有两个网络：生成网络与判别网络。生成网络用于生成图像，判别网络用于判断输入的图像为真实图像的概率。通过生成对抗网络，最终实现人脸三官的关键区域精确定位。

对获得的左眼、右眼、鼻子、嘴巴的关键区域定位图计算区域形心得到人脸热红外图像中对应的关键点组坐标。

对获得的关键区域组求取形心坐标，以确定伺服瞄准镜中的测谱中心位置坐标，从而对目标人脸的三官关键区域进行测谱，获得目标人脸的四个关键区域的光谱序列。

该实施例中，测谱中心以形心为例。特别的，测谱中心为在三官关键区域内任选的测谱中心点，将该点作为伺服瞄准镜中的测谱中心坐标。

2、获取人脸热红外特征。利用得到的人脸关键点组坐标，对输入的人脸热红外图像人脸热红外图像进行对齐。将对齐后的人脸热红外图像输入特征提取器，得到人脸热红外特征。

记录步骤1中获得的人脸关键点组坐标，再确定一张标准人脸正脸图像，以相同方式确定标准脸关键点组，利用待对齐图像的人脸关键点组与标准脸的关键点组计算所需的仿射变换矩阵，对于待对齐的人脸热红外图像人脸热红外图像进行仿射变换，输出得到对齐后图像。将对齐后的人脸热红外图像输入特征提取器，得到人脸热红外特征。

3、由获得的四个关键区域的光谱信息，基于注意机制的光谱特征提取网络对每一个关键区域可得到不同的光谱特征，四个关键区域共四个光谱特征向量。

对于本发明中的面部各个关键部位的光谱曲线，通过对光谱曲线的分段表达和特征变换，其可变换为一维嵌入向量[e₁,...,e_n]，且其光谱嵌入向量e_i的长度为l。

和后向GRU序列

其中，前向序列

按照e₁到e_n顺序编码e_i，后向序列

由e_n到e₁顺序进行编码。

式中，通过连接前向状态

和后向状态

本发明中的光谱波段的注意模式为通过查询向量筛选出光谱波段中重要的光谱嵌入特征，并对序列信息注意加权以获得整个光谱特征向量，如下：

式中，通过单层MLP获得h_i的隐藏表示u_i；并引入查询向量u_query来查询序列中的重要信息谱段；然后，进行u_query对齐，计算序列中每个u_i与u_query的相似性，并利用softmax函数，计算归一化的权重系数α_i；最后，利用归一化权重α_i，可以计算得到光谱特征向量。

4、热红外图像特征和面部各个关键部位的光谱特征共同组成了个体的判别特征，将这些判别特征进行融合。

通过引入注意机制，本发明利用特征组注意模块融合图像特征以及各个光谱特征并自动学习各个特征组的注意权重，从而引导分类模型更多的关注具有更好判别特性的特征组。本发明借鉴了压缩激励网络中的特征重标定策略，对不同的分组特征进行注意重标定，通过计算每个分组特征不同的组权重，可以得到当前任务中各个组特征的重要程度，从而提高重要组特征的特征表达并抑制不重要的组特征，其中特征组权重可通过网络训练学习得到。

不同于传统的组卷积操作，用于组特征加权的重标定策略可分为三步实现。

第一步为组压缩操作，将整个组特征编码为一个全局特征，并采用组全局平均池化实现。如对于维度为w_g×h_g×c_g的组特征group_i，通过组全局平均池化得到当前组的全局特征z_i：

因此，对于n个组特征可以获得向量Z＝[z₁,z₂,...,z_n]，其表达了特征组之间的信息分布。

第二步为组激励操作，对于组压缩操作得到的全局特征描述，我们需要得到各组之间的关系，组激励操作采用sigmoid形式的门机制实现。其可以得到各个组之间的非线性关系，并且各个组之间的关系也是非互斥的，采用了包含两个全连接层的“瓶颈”结构来降低模型的复杂度并提升模型的泛化能力：S＝σ(W₂ReLU(W₁Z))，其中

第三步为组特征重标定，将学习到的各组激活值乘上原始组特征。上一步组激励操作得到的归一化权重S可表示各组特征的重要程度，通过对各组特征group_i利用权重系数s_i进行重标定，可得到重新关注后的各组特征，重标定过程为：

5、根据特征，基于聚类距离的优化策略训练分类模型设计分类器，分类器输出所判断的该人的名字或者标签。

对于模型中包含的个体类别，给定一个热红外图像光谱样本，能够在模型中对其正确分类；对于模型数据库之外的个体类别，无法检索出其类别。

(1)利用预训练模型初始化特征提取器的参数，并设置训练周期，学习率，损失函数优化方式；

(2)对于训练集中的所有样本，输入特征提取网络，得到相应的特征；

(3)计算得到不同个体的类心特征；

(4)计算训练样本输出特征与不同个体类心的欧氏距离，选择距离最近的类作为预测结果；

(5)计算损失函数值，调整网络权重，跳至步骤2。

6、实验分类精度对比分析

本发明中我们以图谱数据集中测试集来评估所述模型的精度，在此以1:1人脸验证任务来评价模型的精度。即针对测试样本，准备同一人的不同样本作为正例集，不同人的样本对作为负例集，对于正例集和负例集中的样本对，我们以L₂距离D(x_i,x_j)来评判正例集和负例集中的样本是否同一类别。正例样本对(i,j)集合记为D_same，而负例样本对集合记为D_diff。

在正例集合中，正确接受的集合部分记为：TA(d)＝(i,j)∈D_same,withD(x_i,x_j)≤d，其表示在以阈值d进行人脸验证的过程中，两个样本被认为是同一个人的集合部分。同样的，错误接受的集合部分记为:FA(d)＝(i,j)∈D_diff,withD(x_i,x_j)≤d；正例集中大于阈值d的比例为正确接受率TAR：

错误接受率FAR记为:

本发明中选择相同人的正例集合共20000组样本对，随机选择不同人的负例集合共30000组样本对，正例负例集共50000组样本对，其中正负比例为2：3。其样本与类别中心之间的距离转换为归一化数值，其阈值可表达样本与类心之间的相似度。

基于之前的介绍了解到，如果仅仅利用热红外图像，或者高光谱图像，又或者舍弃注意模块的图像光谱特征融合进行人脸识别分类。均因为各自的弊端产生较低的识别率，本发明以正确接受率和错误接受率来综合评估本发明模型的性能，识别率结果如表2所示，具体的分析如下：

(1)仅利用热红外图像特征进行分类训练的模型：

舍弃高光谱图像特征，单纯利用了热红外图像通过特征提取器得到的图像特征进行聚类学习。具体的利用有条件的生成对抗网络获得人脸的关键区域定位图，从而得到人脸关键点组坐标，对输入的人脸热红外图像进行对齐。将对齐后的人脸热红外图像输入红外特征提取器，得到人脸热红外特征。

(2)仅利用人面部高光谱信息进行分类训练的模型：

舍弃热红外图像特征，单纯利用面部的高光谱特征进行基于注意的特征提取并对面部的各个关键区域光谱特征分组关注。具体的，以双向GRU编码器建模表达光谱谱段之间的相关性，可得光谱嵌入整个序列的相关信息。通过查询向量筛选出光谱波段中重要的光谱嵌入特征，并对序列信息注意加权以获得整个光谱特征向量。

(3)包含注意模块的图像光谱特征融合的分类模型：

本发明综合利用热红外图像和高光谱数据进行分类训练。具体的，利用热红外图像进行分类训练获得一个特征向量，利用图像光谱进行分类训练获得人脸四个关键部位的特征向量，将这五个特征向量进行基于组注意的特征提取，获得包含注意模块的图像光谱融合特征。

(4)舍弃注意模块的图像光谱特征融合的分类模型：

在舍弃本章模型中的注意模块后，重新对模型进行训练，对比包含注意模块的模型。

表2人脸验证任务的正确接受率TAR和错误接受率FAR精度分析

为进一步显示本发明模型的性能，根据表2绘制如图19所示曲线图，由图中很容易分析出：本发明模型：包含注意图谱融合，在拥有较高正确接受率的同时，也拥有较低的错误接受率。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种热红外图像光谱融合的人脸分类方法，其特征在于，包括下述步骤：

2.如权利要求1所述的人脸分类方法，其特征在于，步骤S1具体为：

3.如权利要求1或2所述的人脸分类方法，其特征在于，步骤S2具体为：

4.如权利要求3所述的人脸分类方法，其特征在于，在步骤S22中，采用特征提取器进行特征提取，所述特征提取器的网络架构包含多个密集块，且各个密集块内的特征图的尺寸相同。

5.如权利要求1-4任一项所述的人脸分类方法，其特征在于，在步骤S4中，利用特征组注意模块融合图像特征和各个光谱特征并自动学习各个特征组的注意权重，从而引导分类模型更多的关注具有更好判别特性的特征组。

6.如权利要求1-5任一项所述的人脸分类方法，其特征在于，在步骤S4中，利用特征重标定策略对不同的分组特征进行注意重标定，通过计算每个分组特征不同的组权重，获得当前任务中各个组特征的重要程度，从而提高重要组特征的特征表达并抑制不重要的组特征。

7.如权利要求5或6所述的人脸分类方法，其特征在于，所述特征重标定策略包括：组压缩操作，组激励操作和组特征重标定。

8.如权利要求1-7任一项所述的人脸分类方法，其特征在于，在步骤S5中，聚类距离的优化策略训练分类模型具有如下特性：

9.如权利要求8所述的人脸分类方法，其特征在于，在步骤S5中，所述聚类距离的优化策略训练分类模型还包括如下特性：以优化类别内部以及类别之间距离为出发点，对于分类错误的样本，拉近该样本所提取出的特征与其类心的距离的同时，拉开其与分类错误的类的类心距离。