CN115757874B

CN115757874B - 人脸与人体协同检索方法、装置、设备和介质

Info

Publication number: CN115757874B
Application number: CN202211482388.4A
Authority: CN
Inventors: 温峻峰; 李鑫; 罗海涛; 林群雄; 孙全忠; 陈岸明; 洪小龙; 冯俊宇
Original assignee: Zhongke Tianwang Guangdong Technology Co ltd
Current assignee: Zhongke Tianwang Guangdong Technology Co ltd
Priority date: 2022-11-24
Filing date: 2022-11-24
Publication date: 2023-11-03
Anticipated expiration: 2042-11-24
Also published as: CN115757874A

Abstract

本发明公开了一种人脸与人体协同检索方法人脸与人体协同检索方法、装置、设备和介；其方法包括：利用网络模型中特征编码模块的外观编码和融合编码子模块实现对行人图像人脸特征和人体特征的分别提取和融合提取；利用网络模型中的信息瓶颈模块的通道压缩和行人辨别子模块实现对特征的压缩和行人身份的分类识别；根据不同的学习目标对各网络进行联合训练直至损失函数收敛，最终将特征编码模块所提取的特征用于实现人脸与人体的协同检索。本发明通过变分蒸馏实现了对人脸特征和人体特征中共有信息的提取和冗余信息的去除，非局部注意力机制的引入以及联合训练的实施，最终有效提高了特征编码网络的表征能力以及人脸与人体协同检索的精度。

Description

人脸与人体协同检索方法、装置、设备和介质

技术领域

本发明属于计算机视觉技术领域，具体涉及一种人脸与人体协同检索方法、装置、设备和介质。

背景技术

口罩的佩戴会导致脸部信息大量缺失，给人脸识别增添了不利因素，且由于相机的分辨率、拍摄角度等影响，监控摄像头往往无法得到高质量的人脸照片，而人体再识别可识别的有效信息范围更多，对镜头分辨率和拍摄角度的限制较低，可以作为人脸识别的一种非常重要的补充技术，所以可利用人脸与人体的协同检索来提高识别的准确率。当代社会，能够利用人脸与人体协同检索技术通过摄像头拍摄图像及视频寻找犯罪人员、寻找走失儿童、进行车辆追踪等，对维系社会稳定，构建平安城市、智慧城市有重要意义。此外，在当前大数据时代，面对海量的视频、图片监控数据，人脸与人体协同检索解决了人工检索费时费力且准确率低的问题。

为实现人脸与人体两种不同特征信息的协同检索，提取两种特征的共有信息是必要的途径。但是，当前发展互信息估计器的方法不但要依靠复杂的设计，还对估计精度有很高的要求，而这在高维条件下难以满足，且该方法无法同时实现较高的准确性和简洁性。

发明内容

为了解决上述现有技术的不足，本发明提供了一种基于变分蒸馏表征学习的人脸与人体协同检索，该方法构建的网络模型包括特征编码模块和信息瓶颈模块。

其中特征编码模块含有外观编码和融合编码两个子模块，实现对行人图像人脸特征和人体特征的分别提取和融合；

信息瓶颈模块含有通道压缩和行人辨别两个子模块，实现对人脸特征、人体特征和融合特征的压缩，实现高维特征向低维特征的转化，并得到行人图像的身份信息；

最终在联合训练完成后将特征编码模块所提取的特征用于人脸与人体协同检索。

本发明在特征编码中引入非局部注意力机制，充分学习了网络长距离卷积计算中的空间依赖关系，学习到了图像不同空间区域的关联信息，更有利于实现对不同行人图像的区分；并且在信息瓶颈中引入变分蒸馏的思想，使压缩后的特征在保留人脸特征和人体特征共有信息的同时去除所有冗余信息，与发展互信息估计器的方法相比，此算法避开了复杂的设计，不需要对互信息进行准确的计算，更加简单易行，可以减少模型的计算量，可以同时实现较高的准确性和简洁性；

进一步的，所述特征编码模块含有外观编码和融合编码两个子模块；其中外观编码子模块用于对输入的人脸图像和人体图像分别提取人脸信息和人体信息，生成外观特征编码，其网络以Resnet-50网络为主干，并在主干网络中间引入非局部注意力模块，捕获空间域中不同局部感受野间的长距离依赖关系，进一步增强网络特征提取能力；其中融合编码子模块用于对输入的人脸图像和人体图像同时进行特征提取与融合，生成融合特征编码，其网络以Resnet-50网络为主干，并在主干网络中间引入非局部注意力模块；

所述引入的非局部注意力模块对输入的特征图用三个1×1卷积块进行映射分别获得Query、Key和Value三条支路特征图，接着对Query和每个Key进行点乘计算并通过Softmax函数得到Value支路的权重，将Value支路乘以权重并通过Softmax函数获得最终的自注意力系数，将此系数与原始输入特征相乘得到非局部注意力模块的输出；根据下式实现非局部注意力模块的输出：

；

其中，是要学习的权重矩阵，/>表示非局部运算和输入/>形成的残差；

进一步的，所述信息瓶颈模块含有通道压缩和行人辨别两个子模块；其中通道压缩模块用于将外观特征编码和融合特征编码进行压缩从而降低特征的维度，其网络由两个用全连接层、批正则化层和ReLU激活层构成的block组成；其中行人辨别子模块用于对行人身份进行分类，其网络依次由一个全连接层、批正则化层、LeakyReLU激活层、Dropout层和一个全连接层组成。

进一步的，要上述各模块实现所述的功能，需在训练阶段对不同模块使用适当的损失函数来实现各模块的学习目标，所述外观编码模块的一个学习目标是，使输出的人脸特征和人体特征的分布尽可能地相似，因此采用深度互学习损失结合WasSE-Rstein距离度量来约束模型学习两种特征图的共有特征，深度互学习损失函数如下所示：

；

其中，是WasSE-Rstein距离度量，/>是外观编码器输出的人脸特征，/>是外观编码器输出的人体特征；

所述特征编码模块和行人辨别子模块瓶颈模块的学习目标都是尽可能对不同行人进行区分，并尽可能使得输出的特征只含有所有的共有信息而去除冗余信息，因此采用三元组损失函数、交叉熵损失函数、变分自蒸馏损失函数、变分交叉蒸馏损失函数分别对行人特征和行人身份信息进行约束，其中三元组损失函数如下所示：

；

其中，为正样本对间的距离，/>为负样本间的距离，/>为人为设置的阈值，表示/>；

交叉熵损失函数如下所示：

；

其中，为第i个输入图像的真实类别，/>为第i个输入图像的预测类别向量，为计算/>属于类别/>的预测概率；

变分自蒸馏损失函数如下所示：

；

其中，是一种分布相似程度度量，Kullback-Leibler散度，/>，/>分别是融合编码模块输出的人脸融合特征和人体融合特征，/>，/>分别是信息瓶颈模块输出的人脸身份信息和人体身份信息，最终总的损失函数如下：

；

其中，不同的权重值用于平衡不同的损失在训练过程中所起到的作用。

本发明还提供一种装置，包括特征编码模块和信息瓶颈模块；

利用特征编码模块通过包含的外观编码和融合编码两个子模块对不同类型的行人图像的人脸特征或人体特征进行分别提取和融合提取，得出行人的外观特征和融合特征；

利用信息瓶颈模块通过包含的通道压缩子模块对所述外观特征和融合特征压缩；压缩后的特征通过信息瓶颈模块包含的行人辨别子模块，实现对行人身份的分类；

在联合训练完成后，将特征编码模块所提取的特征用于人脸与人体协同检索。

本发明还提供一种电子设备，所述电子设备包括：

存储器，用于存储程序；

处理器，用于运行所述存储器中存储的所述程序，以执行前述的人脸与人体协同检索方法。

本发明还提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行前述方法的步骤。

本发明相对于现有技术具有如下的有益效果：

1、本发明的特征编码模块共用同一种具有非局部注意力模块的残差网络，关注了行人图像在网络传播中的长距离依赖信息，有效的提升了模型克服遮挡、光照、姿态变化带来的辨别困难问题的能力。

2、本发明的信息瓶颈模块运用了变分蒸馏的思想，实现了用简单易得的条件熵的差拟合互信息，避免了互信息估计器的复杂设计，并使得模型简洁性和准确性的优化方向得到统一。

3、本发明运用的变分自蒸馏损失和变分交叉蒸馏损失约束人脸和人体双通道都输出只含有共有信息的特征编码并去除冗余信息，有效地提高了模型的简洁性和应对视图变化的鲁棒性，提高了模型对行人图像的辨别能力。

附图说明

图1为本发明实施例人脸与人体协同检索方法的流程图；

图2为本发明实施例的外观编码子模块以及融合编码子模块的结构图；

图3为本发明实施例的通道压缩子模块的结构图；

图4为本发明实施例的行人辨别子模块的结构图；

图5为本发明实施例的人脸与人体协同检索方法总的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。应当理解，描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，本实施例提供一种基于变分蒸馏表征学习的人脸与人体协同检索，主要包括以下步骤：

S101、利用网络模型中特征编码模块的外观编码和融合编码子模块实现对不同类型的行人图像的人脸特征或人体特征进行分别提取和融合提取；

具体的，以Resnet-50网络为主干搭建特征编码模块中的外观编码子模块和融合编码子模块，原始Resnet-50网络包含四个大的Block结构，每个Block均由多个Bottleneck结构连接而成，在本方法的外观编码子模块和融合编码子模块中在主干网络中引入非局部注意力模块，具体的非局部注意力模块分别加在第2个和第3个Block结构的最后2个和最后3个Bottleneck结构之后，共5个非局部注意力模块加在了原始的Resnet-50主干网络内部，并将原始Resnet-50主干网络的全局平均池化层删除，在最后加上了一层自适应全局平均池化层，最终构成外观编码子模块，如图2所示；最后将外观编码和融合编码子模块的输出作为行人的外观特征和融合特征；

S102、利用网络模型中通道压缩子模块实现对外观特征和融合特征的压缩，实现特征从高维向低维的转化；

具体的，通道压缩子模块其网络由两个用全连接层、批正则化层和ReLU激活层构成的block组成；通道压缩子模块的输入为外观编码或融合编码，经过两个全连接层将特征从2048维压缩到512维，其结构如图3所示；

S103、将压缩后的特征输入行人辨别子模块，实现对行人身份的分类；

具体的，行人辨别子模块由一个全连接层、批正则化层、LeakyReLU激活层、Dropout层和一个全连接层组成，由最后一个全连接层来进行行人身份的分类，其结构如图4所示；

S104、根据不同学习目标对各网络进行联合训练直至损失函数收敛，最终将特征编码模块所提取的特征用于实现人脸与人体协同检索；

具体的，所述总的网络模型结构如图5所示，首先将所有输入的行人图像尺寸设置为256*128大小，并对其进行数据归一化处理和数据增强处理；接着对本方法网络中的所有模块进行参数初始化，外观编码子模块和融合编码子模块使用了Resnet-50主干网络，因此可以使用在ImageNet上预训练的模型参数对其对应层进行初始化，其他层和其他子模块则使用Kaiming初始化随机产生权重；接着采用Adam优化所有模块，学习率设置为 2.6x10^-4，动量设置为，该模型共训练200个迭代周期；

基于不同的学习目标选用特定的损失函数，所述外观编码子模块的一个学习目标是，使输出的人脸特征和人体特征的分布尽可能地相似，因此采用深度互学习损失结合WasSE-Rstein距离度量来约束模型学习两种特征图的共有特征，深度互学习损失函数如下所示：

；

其中，是WasSE-Rstein距离度量，/>是外观编码器输出的人脸特征，是外观编码器输出的人体特征；所述特征编码模块和信息瓶颈模块（包括所有的子模块）的学习目标都是尽可能对不同行人进行区分，并尽可能使得输出的特征只含有所有的共有信息而去除冗余信息，因此采用三元组损失函数、交叉熵损失函数、变分自蒸馏损失函数、变分交叉蒸馏损失函数分别对行人特征和行人身份信息进行约束，其中三元组损失函数如下所示：

；

其中，为正样本对间的距离，/>为负样本间的距离，/>为人为设置的阈值，表示/>，交叉熵损失函数如下所示：

；

其中，为第i个输入图像的真实类别，/>为第i个输入图像的预测类别向量，为计算/>属于类别/>的预测概率；变分自蒸馏损失函数如下所示：

；

其中，是一种分布相似程度度量，Kullback-Leibler散度，/>，/>分别是外观编码模块输出的人脸特征和人体特征，/>，/>分别是信息瓶颈模块输出的人脸身份信息和人体身份信息，变分交叉蒸馏损失函数如下所示：

；

其中，不同的权重值用于平衡不同的损失在训练过程中所起到的作用，具体的/>权重值为/>；

利用上述特征编码模块提取待查询图像和图库中的图像的特征，计算所有待查询图像与图库图像特征之间的欧氏距离并归一化为余弦距离，将距离最近的图库图像视为待查询图像的目标图像。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种人脸与人体协同检索方法，其特征在于，所述方法包括：

（1）利用特征编码模块通过包含的外观编码和融合编码两个子模块对不同类型的行人图像的人脸特征或人体特征进行分别提取和融合提取，得出行人的外观特征和融合特征；

（2）利用信息瓶颈模块通过包含的通道压缩子模块对所述外观特征和融合特征压缩；压缩后的特征通过信息瓶颈模块包含的行人辨别子模块，实现对行人身份的分类；

（3）在联合训练完成后，将特征编码模块所提取的特征用于人脸与人体协同检索；

特征编码模块和信息瓶颈模块在训练阶段使用损失函数进行学习；

所述特征编码模块和信息瓶颈模块的行人辨别子模块采用三元组损失函数、交叉熵损失函数、变分自蒸馏损失函数、变分交叉蒸馏损失函数分别对行人特征和行人身份信息进行约束，其中三元组损失函数如下所示：

；

其中，为正样本对间的距离，/>为负样本间的距离，/>为人为设置的阈值，/>表示/>；

交叉熵损失函数如下所示：

；

其中，为第i个输入图像的真实类别，/>为第i个输入图像的预测类别向量，/>为计算/>属于类别/>的预测概率；

变分自蒸馏损失函数如下所示：

；

其中，是一种分布相似程度度量，Kullback-Leibler散度，/>，/>分别是外观编码模块输出的人脸特征和人体特征，/>，/>分别是信息瓶颈模块输出的人脸身份信息和人体身份信息；

变分交叉蒸馏损失函数如下所示：

；

其中，是一种分布相似程度度量，Kullback-Leibler散度，/>，/>分别是融合编码模块输出的人脸融合特征和人体融合特征，/>，/>分别是信息瓶颈模块输出的人脸身份信息和人体身份信息；

总的损失函数如下：

；

其中，不同的权重值用于平衡不同的损失。

2.根据权利要求1所述的人脸与人体协同检索方法，其特征在于，所述特征编码模块含有外观编码和融合编码两个子模块；

其中所述外观编码子模块用于对输入的人脸图像和人体图像分别提取人脸信息和人体信息，生成外观特征编码，其网络以Resnet-50网络为主干，并在主干网络中间引入非局部注意力模块，捕获空间域中不同局部感受野间的长距离依赖关系，进一步增强网络特征提取能力；

其中所述融合编码子模块用于对输入的人脸图像和人体图像同时进行特征提取与融合，生成融合特征编码，其网络以Resnet-50网络为主干，并在主干网络中间引入非局部注意力模块。

3.根据权利要求2所述的人脸与人体协同检索方法，其特征在于，所述非局部注意力模块对输入的特征图用三个1×1卷积块进行映射分别获得Query、Key和Value三条支路特征图，接着对Query和每个Key进行点乘计算并通过Softmax函数得到Value支路的权重，将Value支路乘以权重并通过Softmax函数获得最终的自注意力系数，将此系数与原始输入特征相乘得到非局部注意力模块的输出；根据下式实现非局部注意力模块的输出：

；

其中，是要学习的权重矩阵，/>表示非局部运算和输入/>形成的残差。

4.根据权利要求1所述的人脸与人体协同检索方法，其特征在于，所述信息瓶颈模块含有通道压缩和行人辨别两个子模块；

其中通道压缩模块用于将外观特征编码和融合特征编码进行压缩从而降低特征的维度，其网络由两个用全连接层、批正则化层和ReLU激活层构成的block组成；

其中行人辨别子模块用于对行人身份进行分类，其网络依次由一个全连接层、批正则化层、LeakyReLU激活层、Dropout层和一个全连接层组成。

5.根据权利要求1所述的人脸与人体协同检索方法，其特征在于，

其中特征编码模块中的外观编码子模块采用深度互学习损失结合WasSE-Rstein距离度量来约束模型学习两种特征图的共有特征，深度互学习损失函数如下所示：

；

其中，是WasSE-Rstein距离度量，/>是外观编码器输出的人脸特征，/>是外观编码器输出的人体特征。

6.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储程序；

处理器，用于运行所述存储器中存储的所述程序，以执行权利要求1-5任一所述的人脸与人体协同检索方法。

7.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1-5任一所述方法的步骤。