CN113361495A

CN113361495A - 人脸图像相似度的计算方法、装置、设备及存储介质

Info

Publication number: CN113361495A
Application number: CN202110852052.1A
Authority: CN
Inventors: 陈欣; 戴磊; 刘玉宇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-09-07
Anticipated expiration: 2041-07-27
Also published as: WO2023005161A1; CN113361495B

Abstract

本发明涉及图像处理领域，公开了一种人脸图像相似度的计算方法、装置、设备及存储介质。本方法包括：通过将两帧视频图像输入预置人脸识别模型进行识别，输出视频图像对应的第一人脸图像和第二人脸图像；将人脸图像输入预置注意力检测模型的特征层进行图像特征提取，分别得到人脸图像的图像特征；对图像特征执行卷积注意力计算，分别得到人脸图像的第一注意力图像特征和第二注意力图像特征；计算第一注意力图像特征和第二注意力图像特征之间的特征相似度，确定为第一人脸图像和第二人脸图像的图像相似度。本方案通过对人脸图像进行特征提取和融合，根据两图像对应特征之间的相关性确定图像的相关性，提高了图像识别效率。

Description

人脸图像相似度的计算方法、装置、设备及存储介质

技术领域

本发明涉及图像处理领域，尤其涉及一种人脸图像相似度的计算方法、装置、设备及存储介质。

背景技术

多帧单人脸跟踪，一般是先找到人脸，再比对，一般都是要跨越多帧，需要建立多帧视频之间的关系。过去的技术基本都是，分颗粒度从粗到细而言，基本是：通过检测框找到固定的对象范围，然后再对其找特征，再比较；通过关键点锁定更小的局部范围(通过坐标实现降维数据)，根据关键点的位置通过卡尔曼滤波，但是本身关键点就不准，卡尔曼滤波又会叠加误差；细节到分割的方法(标注成本很高)，实现更小更细局部的比对。

这几种方法，都是逐步精确锁定比较范围，实现比较对象尽量无杂质，从而提高准确度，但是两者的锁定范围和比较程度无法兼顾标准难度，速度，准确度，其中遇到的问题还有很多：姿势(面部旋转)，遮挡(环境遮挡)，光线(面部对光线的反射)，分辨率(越低的分辨率越模糊)，造成泛化性很差。

发明内容

本发明的主要目的是通过对人脸图像进行特征提取和融合，根据两图像对应特征之间的相关性确定图像的相关性，提高了图像识别效率。

本发明第一方面提供了一种人脸图像相似度的计算方法，包括：获取两帧包含人脸的视频图像，并将所述视频图像输入预置人脸识别模型进行识别，输出所述视频图像中人脸的区域范围；根据所述区域范围，从所述两帧视频图像中提取出对应的第一人脸图像和第二人脸图像；将所述第一人脸图像和所述第二人脸图像输入预置注意力检测模型的特征层对所述第一人脸图像和所述第二人脸图像进行图像特征提取，分别得到所述第一人脸图像的第一图像特征和所述第二人脸图像的第二图像特征；分别对所述第一图像特征和所述第二图像特征进行卷积注意力的计算，得到第一注意力图像特征和第二注意力图像特征；计算所述第一注意力图像特征和第二注意力图像特征之间的特征相似度，并基于所述特征相似度确定所述第一人脸图像与所述第二人脸图像之间的图像相似度。

可选地，在本发明第一方面的第一种实现方式中，在所述获取两帧包含人脸的视频图像，并将所述视频图像输入预置人脸识别模型进行识别，输出所述视频图像中人脸的区域范围之前，还包括：获取多张不同应用场景下的包含人脸的样本图像，并将所述样本图像作为训练样本图像集；将所述训练样本图像集输入预置的初始人脸识别模型的主干网络，对所述训练样本图像集中的样本图像分别进行人脸特征提取，得到特征集，其中，所述初始人脸识别模型包括主干网络和多个分类网络；计算所述特征集的特征向量损失函数值，得到多个特征向量损失函数值；根据所述多个特征向量损失函数值，计算所述初始人脸识别模型的目标损失函数值；根据所述目标损失函数值对所述主干网络进行迭代更新，直至所述目标损失函数值收敛，得到目标人脸识别模型。

可选地，在本发明第一方面的第二种实现方式中，所述第一人脸图像和第二人脸图像包含全局图像信息，所述将所述第一人脸图像和所述第二人脸图像输入预置注意力检测模型的特征层对所述第一人脸图像和所述第二人脸图像进行图像特征提取，分别得到所述第一人脸图像的第一图像特征和所述第二人脸图像的第二图像特征包括：对所述第一人脸图像和所述第二人脸图像进行边缘提取，得到第一边缘图像和第二边缘图像，其中，所述第一边缘图像和所述第二边缘图像所包含边缘图像信息；将所述全局图像信息和所述边缘图像信息进行融合，得到所述第一人脸图像和所述第二人脸图像中包括目标对象的区域；对所述区域进行特征提取，得到所述第一人脸图像对应的第一全局特征、第一边缘特征和所述第二边缘图像对应的第二全局特征、第二边缘特征；对所述第一全局特征和所述第一边缘特征进行特征融合，得到第一人脸图像的第一图像特征，以及对所述第二全局特征和所述第二边缘特征进行特征融合得到所述第二人脸图像的第二图像特征。

可选地，在本发明第一方面的第三种实现方式中，所述将所述全局图像信息和所述边缘图像信息进行融合，得到所述第一人脸图像和所述第二人脸图像中包括目标对象的区域包括：通过预置双路特征提取网络对所述第一边缘图像和所述第二边缘图像所包含边缘图像信息进行特征提取，并对所述第一边缘图像和所述第二边缘图像所包含边缘图像信息进行特征提取；将所述特征提取结果进行加和，得到所述第一人脸图像和所述第二人脸图像中包括目标对象的区域图像特征。

可选地，在本发明第一方面的第四种实现方式中，所述分别对所述第一图像特征和所述第二图像特征进行卷积注意力的计算，得到第一注意力图像特征和第二注意力图像特征包括：分别对所述第一图像特征和所述第二图像特征进行通道注意力的计算，得到所述图像特征的通道注意力图；基于注意力机制对所述图像特征和所述通道注意力图合并得到的增强图像特征进行空间注意力计算，得到所述图像特征的空间注意力图；将所述空间注意力图和所述增强图像特征合并，分别得到所述第一人脸图像的第一注意力图像特征和所述第二人脸图像的第二注意力图像特征。

可选地，在本发明第一方面的第五种实现方式中，所述分别对所述特征层输出的第一图像特征和所述第二图像特征进行通道注意力的计算，得到所述图像特征的通道注意力图包括：分别对所述第一图像特征和所述第二图像特征进行平均池化运算和最大池化运算，得到平均池化特征和最大池化特征；利用预先构建的多层感知机处理所述平均池化特征，得到平均池化参数，并利用所述多层感知机处理所述最大池化特征，得到最大池化参数；将所述平均池化参数与所述最大池化参数的和输入激活模块，得到所述第一图像特征的第一通道注意力图和第二图像特征的第二通道注意力图。

本发明第二方面提供了一种人脸图像相似度的计算装置，包括：识别模块，用于获取两帧包含人脸的视频图像，并将所述视频图像输入预置人脸识别模型进行识别，输出所述视频图像中人脸的区域范围；提取模块，用于根据所述区域范围，从所述两帧视频图像中提取出对应的第一人脸图像和第二人脸图像；第一特征提取模块，用于将所述第一人脸图像和所述第二人脸图像输入预置注意力检测模型的特征层对所述第一人脸图像和所述第二人脸图像进行图像特征提取，分别得到所述第一人脸图像的第一图像特征和所述第二人脸图像的第二图像特征；第一计算模块，用于分别对所述第一图像特征和所述第二图像特征进行卷积注意力的计算，得到第一注意力图像特征和第二注意力图像特征；确定模块，用于计算所述第一注意力图像特征和第二注意力图像特征之间的特征相似度，并基于所述特征相似度确定所述第一人脸图像与所述第二人脸图像之间的图像相似度。

可选地，在本发明第二方面的第一种实现方式中，所述人脸图像相似度的计算装置包括：获取模块，用于获取多张不同应用场景下的包含人脸的样本图像，并将所述样本图像作为训练样本图像集；第二特征提取模块，用于将所述训练样本图像集输入预置的初始人脸识别模型的主干网络，对所述训练样本图像集中的样本图像分别进行人脸特征提取，得到特征集，其中，所述初始人脸识别模型包括主干网络和多个分类网络；第二计算模块，用于计算所述特征集的特征向量损失函数值，得到多个特征向量损失函数值；第三计算模块，用于根据所述多个特征向量损失函数值，计算所述初始人脸识别模型的目标损失函数值；更新模块，用于根据所述目标损失函数值对所述主干网络进行迭代更新，直至所述目标损失函数值收敛，得到目标人脸识别模型。

可选地，在本发明第二方面的第二种实现方式中，所述第一特征提取模块包括：边缘提取单元，用于对所述第一人脸图像和所述第二人脸图像进行边缘提取，得到第一边缘图像和第二边缘图像，其中，所述第一边缘图像和所述第二边缘图像所包含边缘图像信息；融合单元，用于将所述全局图像信息和所述边缘图像信息进行融合，得到所述第一人脸图像和所述第二人脸图像中包括目标对象的区域；特征提取单元，用于对所述区域进行特征提取，得到所述第一人脸图像对应的第一全局特征、第一边缘特征和所述第二边缘图像对应的第二全局特征、第二边缘特征；特征融合单元，用于对所述第一全局特征和所述第一边缘特征进行特征融合，得到第一人脸图像的第一图像特征，以及对所述第二全局特征和所述第二边缘特征进行特征融合得到所述第二人脸图像的第二图像特征。

可选地，在本发明第二方面的第三种实现方式中，所述融合单元具体用于：通过预置双路特征提取网络对所述第一边缘图像和所述第二边缘图像所包含边缘图像信息进行特征提取，并对所述第一边缘图像和所述第二边缘图像所包含边缘图像信息进行特征提取；将所述特征提取结果进行加和，得到所述第一人脸图像和所述第二人脸图像中包括目标对象的区域图像特征。

可选地，在本发明第二方面的第四种实现方式中，所述第一计算模块包括：第一计算单元，用于分别对所述第一图像特征和所述第二图像特征进行通道注意力的计算，得到所述图像特征的通道注意力图；第二计算单元，用于基于注意力机制对所述图像特征和所述通道注意力图合并得到的增强图像特征进行空间注意力计算，得到所述图像特征的空间注意力图；特征合并单元，用于将所述空间注意力图和所述增强图像特征合并，分别得到所述第一人脸图像的第一注意力图像特征和所述第二人脸图像的第二注意力图像特征。

可选地，在本发明第二方面的第五种实现方式中，所述第二计算单元具体用于：分别对所述第一图像特征和所述第二图像特征进行平均池化运算和最大池化运算，得到平均池化特征和最大池化特征；利用预先构建的多层感知机处理所述平均池化特征，得到平均池化参数，并利用所述多层感知机处理所述最大池化特征，得到最大池化参数；将所述平均池化参数与所述最大池化参数的和输入激活模块，得到所述第一图像特征的第一通道注意力图和第二图像特征的第二通道注意力图。

本发明第三方面提供了一种人脸图像相似度的计算设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述人脸图像相似度的计算设备执行上述的人脸图像相似度的计算方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的人脸图像相似度的计算方法。

本发明提供的技术方案中，通过将两帧视频图像输入预置人脸识别模型进行识别，输出视频图像对应的第一人脸图像和第二人脸图像；将人脸图像输入预置注意力检测模型的特征层进行图像特征提取，分别得到人脸图像的图像特征；对图像特征执行卷积注意力计算，分别得到人脸图像的第一注意力图像特征和第二注意力图像特征；计算第一注意力图像特征和第二注意力图像特征之间的特征相似度，确定为第一人脸图像和第二人脸图像的图像相似度。本方案通过对人脸图像进行特征提取和融合，根据两图像对应特征之间的相关性确定图像的相关性，提高了图像识别效率。

附图说明

图1为本发明人脸图像相似度的计算方法的第一个实施例示意图；

图2为本发明人脸图像相似度的计算方法的第二个实施例示意图；

图3为本发明人脸图像相似度的计算方法的第三个实施例示意图；

图4为本发明人脸图像相似度的计算方法的第四个实施例示意图；

图5为本发明人脸图像相似度的计算方法的第五个实施例示意图；

图6为本发明人脸图像相似度的计算装置的第一个实施例示意图；

图7为本发明人脸图像相似度的计算装置的第二个实施例示意图；

图8为本发明人脸图像相似度的计算设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种人脸图像相似度的计算方法、装置、设备及存储介质，本发明的技术方案中，首先通过将两帧视频图像输入预置人脸识别模型进行识别，输出视频图像对应的第一人脸图像和第二人脸图像；将人脸图像输入预置注意力检测模型的特征层进行图像特征提取，分别得到人脸图像的图像特征；对图像特征执行卷积注意力计算，分别得到人脸图像的第一注意力图像特征和第二注意力图像特征；计算第一注意力图像特征和第二注意力图像特征之间的特征相似度，确定为第一人脸图像和第二人脸图像的图像相似度。本方案通过对人脸图像进行特征提取和融合，根据两图像对应特征之间的相关性确定图像的相关性，提高了图像识别效率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中人脸图像相似度的计算方法的第一个实施例包括：

101、获取两帧包含人脸的视频图像，并将视频图像输入预置人脸识别模型进行识别，输出视频图像中人脸的区域范围；

本实施例中，训练得到人脸识别模型后，从预置数据库中获取两帧包含人脸的视频图像，其中，视频图像中包含待识别的人脸信息。然后将视频图像输入人脸识别模型中。

人脸识别模型能够通过鼻子、眼睛、或其他五官的框将视频图像中的人脸标识出来，得到视频图像中各人脸的区域范围。

102、根据区域范围，从两帧视频图像中提取出对应的第一人脸图像和第二人脸图像；

本实施例中，根据区域范围，然后将视频图像中各人脸的区域范围从第二图像中裁剪出来，从而提取各个视频图像对应的人脸图像，也就是第一人脸图像和第二人脸图像。

103、将第一人脸图像和第二人脸图像输入预置注意力检测模型的特征层对第一人脸图像和第二人脸图像进行图像特征提取，分别得到第一人脸图像的第一图像特征和第二人脸图像的第二图像特征；

本实施例中，图像特征提取是指计算机不认识图像,只认识数字。为了使计算机能够“理解”图像，从而具有真正意义上的“视觉”，本章我们将研究如何从图像中提取有用的数据或信息，得到图像的“非图像”的表示或描述，如数值、向量和符号等。这一过程就是特征提取，而提取出来的这些“非图像”的表示或描述就是特征。

其中，特征是某一类对象区别于其他类对象的相应(本质)特点或特性，或是这些特点和特性的集合。特征是通过测量或处理能够抽取的数据。对于图像而言，每一幅图像都具有能够区别于其他类图像的自身特征，有些是可以直观地感受到的自然特征，如亮度、边缘、纹理和色彩等；有些则是需要通过变换或处理才能得到的，如矩、直方图以及主成份等。比如，我们常常将某一类对象的多个或多种特性组合在一起，形成一个特征向量来代表该类对象，如果只有单个数值特征，则特征向量为一个一维向量，如果是n个特性的组合，则为一个n维特征向量。该类特征向量常常作为识别系统的输入。实际上，一个n维特征就是位于n维空间中的点，而识别分类的任务就是找到对这个n维空间的一种划分。

104、分别对第一图像特征和第二图像特征进行卷积注意力的计算，得到第一注意力图像特征和第二注意力图像特征；

本实施例中，其中，注意力检测模型包括依次连接的多个特征层；其中第一个特征层的输入为输入特征，除第一个特征层以外的每一个特征层的输入均为前一个特征层输出的图像特征；注意力图像特征中目标元素的数值大于对应的图像特征中目标元素的数值；目标元素指代根据待检测图像中目标物体的像素计算得到的元素。

105、计算第一注意力图像特征和第二注意力图像特征之间的特征相似度，并基于特征相似度确定第一人脸图像与第二人脸图像之间的图像相似度。

本实施例中，得到第一注意力图像特征之后，便可利用与或逻辑运算代替浮点运算，计算出第一注意力图像特征与第二注意力图像特征之间的特征相似度。该特征相似度即可视为第一人脸图像和第二人脸图像的图像相似度。

具体的，第二人脸图像为待识别图像，第一人脸图像为具有识别标签的目标图像，在将特征相似度确定为第一人脸图像和第二人脸图像的图像相似度之后，在图像相似度大于预设阈值时，将识别标签作为第二人脸图像的识别结果。如此，便可提高图像识别的准确率和识别速度。其中，识别标签可具体为人员身份，或分类信息或其他识别标签。

本发明实施例中，通过将两帧视频图像输入预置人脸识别模型进行识别，输出视频图像对应的第一人脸图像和第二人脸图像；将人脸图像输入预置注意力检测模型的特征层进行图像特征提取，分别得到人脸图像的图像特征；对图像特征执行卷积注意力计算，分别得到人脸图像的第一注意力图像特征和第二注意力图像特征；计算第一注意力图像特征和第二注意力图像特征之间的特征相似度，确定为第一人脸图像和第二人脸图像的图像相似度。本方案通过对人脸图像进行特征提取和融合，根据两图像对应特征之间的相关性确定图像的相关性，提高了图像识别效率。

请参阅图2，本发明实施例中人脸图像相似度的计算方法的第二个实施例包括：

201、获取多张不同应用场景下的包含人脸的样本图像，并将样本图像作为训练样本图像集；

本实施例中，一个训练数据集对应一个应用场景，例如：人证识别场景和自然场景。训练数据集可为不同维度下的人脸数据、开源数据和私有数据，例如：自然场景的人脸数据、亚洲人的人脸数据、考勤数据、人证数据和竞赛数据。服务器可从预置的数据库中提取多张不同应用场景下的包含人脸的样本图像，对包含人脸的样本图像进行预处理，得到预处理后的训练数据图像集。

202、将训练样本图像集输入预置的初始人脸识别模型的主干网络，对训练样本图像集中的样本图像分别进行人脸特征提取，得到特征集，其中，初始人脸识别模型包括主干网络和多个分类网络；

本实施例中，预置的初始人脸识别模型包括主干网络和多个分类网络，主干网络的输出为多个分类网络的输入，通过多个分类网络对主干网络处理后的数据进行分类，从而实现对训练数据集的人脸识别训练。主干网络可为单个卷积神经网络也可为多个卷积神经网络的综合框架，例如：主干网络可为深度残差学习框架ResNet或目标检测网络框架ET-YOLOv3，也可为深度残差学习框架ResNet结合目标检测网络框架ET-YOLOv3的综合框架。

服务器可通过初始人脸识别模型的主干网络，对每个训练数据集进行人脸标框识别、标框区域划分、人脸关键点检测和人脸特征向量提取，得到每个训练数据集对应的特征集(即多个特征集)。主干网络中的卷积网络层采用小卷积核，通过小卷积核保留更多的特征，减少计算量，提高人脸特征提取的效率。

203、计算特征集的特征向量损失函数值，得到多个特征向量损失函数值；

本实施例中，计算第一中心向量和第二中心向量，计算每个第一中心向量和第二中心向量之间的距离值，将该距离值作为每个特征集对应的特征向量损失函数值，从而获得多个特征向量损失函数，其中，第一中心向量为每个特征集对应的中心向量，也可为每个特征集中每个训练数据对应的中心向量，第二中心向量可为所有特征集对应的第二中心向量，也可为每个特征集中所有训练数据对应的中心向量。

服务器可通过获取每个特征集对应的训练数据个数，以及计算所有训练数据对应的第一中心向量的和值，根据训练数据个数计算和值的均值，该均值为每个特征集对应的第二中心向量，服务器也可通过预置的中心向量公式计算第二中心向量。

服务器通过预置的交叉熵损失函数计算每个分类数据集的分类损失函数值，从而得到多个分类损失函数值，该交叉熵损失函数可为多分类交叉熵损失函数，通过多分类交叉熵损失函数，求导更简单，能够使得收敛较快，对应的权重矩阵的更新更快。

204、根据多个特征向量损失函数值，计算初始人脸识别模型的目标损失函数值；

本实施例中，获得多个特征向量损失函数值和多个分类损失函数值后，获取多个训练数据集的数据集个数，根据数据集个数，计算多个特征向量损失函数值的平均特征向量损失函数值，以及多个分类损失函数值的平均分类损失函数值，将平均特征向量损失函数值和平均分类损失函数值的和值，作为人脸识别模型的目标损失函数值，或者将平均特征向量损失函数值和平均分类损失函数值的加权和值，作为人脸识别模型的目标损失函数值。每个分类网络计算得到分类损失函数值时，可根据分类损失函数值对对应的分类网络进行反向更新。

205、根据目标损失函数值对主干网络进行迭代更新，直至目标损失函数值收敛，得到目标人脸识别模型；

本实施例中，根据目标损失函数值和预置的迭代次数，对主干网络的网络结构和/或权重值进行迭代更新，直至目标损失函数值收敛(即人脸识别模型的训练精度符合预设条件)，得到更新后的人脸识别模型。其中，可通过对主干网络进行网络层的增加或删减来更新主干网络的网络结构，也可通过增设其他的网络框架来更新主干网络的网络结构，也可通过修改主干网络的卷积核大小和步长等来更新主干网络的网络结构。在对主干网络进行迭代更新时，服务器也可结合优化算法对人脸识别模型进行优化。

206、获取两帧包含人脸的视频图像，并将视频图像输入预置人脸识别模型进行识别，输出视频图像中人脸的区域范围；

207、根据区域范围，从两帧视频图像中提取出对应的第一人脸图像和第二人脸图像；

208、将第一人脸图像和第二人脸图像输入预置注意力检测模型的特征层对第一人脸图像和第二人脸图像进行图像特征提取，分别得到第一人脸图像的第一图像特征和第二人脸图像的第二图像特征；

209、分别对第一图像特征和第二图像特征进行卷积注意力的计算，得到第一注意力图像特征和第二注意力图像特征；

210、计算第一注意力图像特征和第二注意力图像特征之间的特征相似度，并基于特征相似度确定第一人脸图像与第二人脸图像之间的图像相似度。

本实施例中步骤206-210与第一实施例中的步骤101-105类似，此处不再赘述。

请参阅图3，本发明实施例中人脸图像相似度的计算方法的第三个实施例包括：

301、获取两帧包含人脸的视频图像，并将视频图像输入预置人脸识别模型进行识别，输出视频图像中人脸的区域范围；

302、根据区域范围，从两帧视频图像中提取出对应的第一人脸图像和第二人脸图像；

303、对第一人脸图像和第二人脸图像进行边缘提取，得到第一边缘图像和第二边缘图像，其中，第一边缘图像和第二边缘图像所包含边缘图像信息；

本实施例中，第一人脸图像和第二人脸图像为待特征提取的图像，第一人脸图像和第二人脸图像可以为RGB图像(即，由红黄蓝三原色组成的图像)，第一人脸图像和第二人脸图像的格式可以为jpg、jpeg、TIFF、PNG、BMP或PSD等，本公开实施例不作限定。第一人脸图像和第二人脸图像中包括目标对象，目标对象的数量可以为一个或多个(即，至少两个)。另外，边缘图像可以理解为用于突出表示第一人脸图像和第二人脸图像中目标对象与背景之间边界以及目标对象轮廓的图像。第一人脸图像和第二人脸图像与边缘图像中所包括的目标对象为相同目标对象，而目标对象在第一人脸图像和第二人脸图像和边缘图像中的表现形式不同。

304、通过预置双路特征提取网络对第一边缘图像和第二边缘图像所包含边缘图像信息进行特征提取，并对第一边缘图像和第二边缘图像所包含边缘图像信息进行特征提取；

本实施例中，将第一人脸图像和第二人脸图像中一个小区域的像素进行加权平均后，可以成为边缘图像中的对应像素。第一人脸图像和第二人脸图像的维度可以为H×W×3；其中，H表示的是第一人脸图像和第二人脸图像的高度(如，600)，W表示的是第一人脸图像和第二人脸图像的宽度(如，600)，3表示的是第一人脸图像和第二人脸图像的三原色通道数。预设卷积核的尺寸可以为3*3，也可以为5*5，也可以为其他尺寸，本公开实施例不作限定。举例来说，若预设卷积核的尺寸为3*3，预设卷积核内每个单元的权重可以如下：

-1 -2 -1 -2 12 -2 -1 -2 -1

具体地，根据预设卷积核对第一人脸图像和第二人脸图像进行梯度计算，以提取第一人脸图像和第二人脸图像对应的边缘图像的方式可以为：

将预设卷积核Sx与第一人脸图像和第二人脸图像进行卷积，得到其中，将预设卷积核Sx进行转置，得到转置后的卷积核并将与进行卷积，得到其中，通过对和的组合，得到第一人脸图像和第二人脸图像对应的梯度向量梯度方向θ以及梯度幅度其中，根据梯度向量确定出第一人脸图像和第二人脸图像对应的边缘图像，边缘图像中包括了用于表示灰度变化剧烈程度的图像频率。此外，需要说明的是，梯度幅度变化较快的区域可以为边缘区域，梯度方向θ用于表示梯度变化方向，结合梯度方向θ和梯度幅度能够确定出第一人脸图像和第二人脸图像中目标对象的边缘。

305、将特征提取结果进行加和，得到第一人脸图像和第二人脸图像中包括目标对象的区域；

本实施例中，其中，全局图像信息用于从整体上表征第一人脸图像和第二人脸图像。边缘图像信息用于表征第一人脸图像和第二人脸图像中目标对象的边缘和细节。融合结果可以表示为矩阵，对应目标对象的边缘和细节强化后的第一人脸图像和第二人脸图像。

可以将全局图像信息和边缘图像信息分别对应的参考图像特征进行加和，并对加和结果进行第二预设频次的卷积，实现全局图像信息和边缘图像信息的特征融合，得到第一人脸图像和第二人脸图像中包括目标对象的区域图像特征。

306、对区域进行特征提取，得到第一人脸图像对应的第一全局特征、第一边缘特征和第二边缘图像对应的第二全局特征、第二边缘特征；

本实施例中，全局特征用于在整体上表征目标对象，边缘特征用于突出在边缘和细节上表征目标对象。

307、对第一全局特征和第一边缘特征进行特征融合，得到第一人脸图像的第一图像特征，以及对第二全局特征和第二边缘特征进行特征融合得到第二人脸图像的第二图像特征；

本实施例中，其中，图像特征的输出形式可以为矩阵。对上述的全局特征和边缘特征进行特征融合，包括：将全局特征和边缘特征进行连接，得到第一参考特征，第一参考特征的维度为全局特征和边缘特征的维度之和；举例来说，若全局特征的维度为2048且边缘特征的维度为2048维，那么，第一参考特征的维度为4096维；对第一参考特征进行降维特征转换，得到第二参考特征，作为目标对象对应的图像特征。

308、分别对第一图像特征和第二图像特征进行卷积注意力的计算，得到第一注意力图像特征和第二注意力图像特征；

309、计算第一注意力图像特征和第二注意力图像特征之间的特征相似度，并基于特征相似度确定第一人脸图像与第二人脸图像的之间图像相似度。

本实施例中步骤301-302、308-309与第一实施例中的步骤101-102、104-105类似，此处不再赘述。

请参阅图4，本发明实施例中人脸图像相似度的计算方法的第四个实施例包括：

401、获取两帧包含人脸的视频图像，并将视频图像输入预置人脸识别模型进行识别，输出视频图像中人脸的区域范围；

402、根据区域范围，从两帧视频图像中提取出对应的第一人脸图像和第二人脸图像；

403、将第一人脸图像和第二人脸图像输入预置注意力检测模型的特征层对第一人脸图像和第二人脸图像进行图像特征提取，分别得到第一人脸图像的第一图像特征和第二人脸图像的第二图像特征；

404、分别对第一图像特征和第二图像特征进行通道注意力的计算，得到图像特征的通道注意力图；

本实施例中，分别对图像特征进行平均池化运算和最大池化运算，得到平均池化特征和最大池化特征；利用预先构建的多层感知机处理平均池化特征，得到平均池化参数，并利用多层感知机处理最大池化特征，得到最大池化参数；

将平均池化参数与最大池化参数的和输入激活模块，得到图像特征的通道注意力图。

其中，对图像特征进行平均池化运算，是指，利用一个具有预先设定的尺寸的池化窗口(如可以是2×2的池化窗口)在图像特征包含的每一个特征矩阵上移动，每次移动后池化窗口覆盖的区域均紧挨着移动前池化窗口覆盖的区域(即移动前后的两个区域的某一条边重合，但是两个区域互不重叠)，每当池化窗口覆盖一个新的区域，计算池化窗口当前覆盖的元素(以上述2×2的池化窗口，一次可以覆盖4个元素，即两行两列)的算术平均值，将得到的计算结果作为最终的平均池化特征中的一个元素，当图像特征中每一个元素均进行过上述平均值计算后，对这个图像特征的平均池化运算就完成，计算得到的所有平均值按照计算时池化窗口的位置组合，就得到这个图像特征对应的平均池化特征。

对图像特征进行最大池化运算的过程，和上述平均池化运算的过程基本一致，区别在于，每当池化窗口覆盖一个新区域时，从该区域内的所有元素中筛选出最大的元素，作为本次的计算结果(区别于平均池化运算中将平均值作为计算结果)，同样的，当图像特征中每一个元素均经过上述筛选后，对图像特征的最大池化运算过程完成，筛选得到的所有元素按照筛选时池化窗口的位置组合，就得到这个图像特征对应的最大池化特征。

405、基于注意力机制对图像特征和通道注意力图合并得到的增强图像特征进行空间注意力计算，得到图像特征的空间注意力图；

本实施例中，分别对增强图像特征进行平均池化运算和最大池化运算，得到平均池化增强特征和最大池化增强特征；将平均池化增强特征和最大池化增强特征合并得到合并池化特征；利用预设尺寸的卷积核对合并池化特征进行卷积运算，并将卷积运算得到的运算结果输入激活模块，得到图像特征的空间注意力图。

可以理解的，针对任意一个特征矩阵，其内部的元素中只有那些根据待检测图像中目标物体的像素计算得到的元素(即目标元素)对于检测目标物体是有价值的，而其他的元素则是对检测目标物体这一目的干扰。例如，待检测图像中目标物体位于图像的左下角，相应的，特征矩阵中，根据图像左下角的像素计算得到的，同样位于特征矩阵左下角的元素对于检测目标物体是有价值的，而其他元素，例如位于特征矩阵上方的元素则会在检测目标物体时形成干扰。

406、将空间注意力图和增强图像特征合并，分别得到第一人脸图像的第一注意力图像特征和第二人脸图像的第二注意力图像特征；

本实施例中，计算出图像特征的通道注意力图和空间注意力图，然后将通道注意力图和空间注意力图与图像特征合并，得到注意力图像特征。通过上述注意力计算，增加了卷积神经网络特征提取的有效性，使得目标检测的平均精度明显提升。

可选的，对于第一个特征层，可以设置归一化层，在这种情况下，第一个特征层输出图像特征之后，需要：利用归一化层对第一个特征层输出的图像特征进行批处理归一化运算，得到归一化图像特征；对应的，第一个特征层所连接的注意力层的具体作用是：利用特征层连接的注意力层对归一化图像特征执行卷积注意力计算，得到注意力图像特征。

本实施例中，批处理归一化(Batch Norm)是为了解决训练过程中数据分布的改变，提高网络泛化性，加快网络训练的一种算法。在网络训练的过程中，参数不断地在更新，前一层网络参数的更新，就会导致下一层网络输入数据分布的变化，那么该层网络就要去适应新的数据分布，这样大大影响了网络训练的速度。另一方面，卷积神经网路的训练过程就是在学习数据分布，如果数据分布不断发生变化的话，那么会降低网络的泛化能力。批处理归一化的本质就是对数据进行预处理，把数据送入网络之前，先对它进行归一化，这样做可以减少数据分布的变化，使得网络的泛化性和训练速度大大提高。

407、计算第一注意力图像特征和第二注意力图像特征之间的特征相似度，并基于特征相似度确定第一人脸图像与第二人脸图像之间的图像相似度。

本实施例中步骤401-403、407与第一实施例中的步骤101-103、105类似，此处不再赘述。

请参阅图5，本发明实施例中人脸图像相似度的计算方法的第五个实施例包括：

501、获取两帧包含人脸的视频图像，并将视频图像输入预置人脸识别模型进行识别，输出视频图像中人脸的区域范围；

502、根据区域范围，从两帧视频图像中提取出对应的第一人脸图像和第二人脸图像；

503、将第一人脸图像和第二人脸图像输入预置注意力检测模型的特征层对第一人脸图像和第二人脸图像进行图像特征提取，分别得到第一人脸图像的第一图像特征和第二人脸图像的第二图像特征；

504、分别对第一图像特征和第二图像特征进行平均池化运算和最大池化运算，得到平均池化特征和最大池化特征；

本实施例中，对图像特征进行平均池化运算，是指，利用一个具有预先设定的尺寸的池化窗口(如可以是2×2的池化窗口)在图像特征包含的每一个特征矩阵上移动，每次移动后池化窗口覆盖的区域均紧挨着移动前池化窗口覆盖的区域(即移动前后的两个区域的某一条边重合，但是两个区域互不重叠)，每当池化窗口覆盖一个新的区域，计算池化窗口当前覆盖的元素(以上述2×2的池化窗口，一次可以覆盖4个元素，即两行两列)的算术平均值，将得到的计算结果作为最终的平均池化特征中的一个元素，当图像特征中每一个元素均进行过上述平均值计算后，对这个图像特征的平均池化运算就完成，计算得到的所有平均值按照计算时池化窗口的位置组合，就得到这个图像特征对应的平均池化特征。

505、利用预先构建的多层感知机处理平均池化特征，得到平均池化参数，并利用多层感知机处理最大池化特征，得到最大池化参数；

本实施例中，多层感知机是一种前馈人工神经网络模型，其将输入的多个数据集映射到单一的输出的数据集上。在本方案中，多层感知机具体用于将最大池化特征和平均池化特征，分别映射为一个包含C个参数的一维向量，即映射为如下形式的向量：(A1，A2……AC-1，AC)。

其中，C就是输入至这个注意力层的图像特征的通道数(一个图像特征包含的特征矩阵的数量，称为通道数)。

多层感知机输出的这两个一维向量，就是前述计算过程中提及的平均池化参数和最大池化参数。

506、将平均池化参数与最大池化参数的和输入激活模块，得到第一图像特征的第一通道注意力图和第二图像特征的第二通道注意力图；

本实施例中，利用激活函数对多层感知机输出的两个一维向量进行激活运算(相当于将平均池化参数与最大池化参数的和输入激活模块)，就可以得到通道注意力图。其中，通道注意力图也是一个包含C个参数的一维向量。

本实施例中，通道注意力图的作用，在于突出图像特征中有意义的特征矩阵。一个图像中，每一种物体的特征在同一个图像特征的不同特征矩阵上的显著程度是不同的，例如，可能汽车的特征在第一特征矩阵上较为显著，而房屋的特征在第二特征矩阵上较为显著。显然，在物体检测这一应用场景中，那些目标物体的特征较为突出的特征矩阵是有意义的特征矩阵，而其他特征矩阵则是无意义的特征矩阵。

507、基于注意力机制对图像特征和通道注意力图合并得到的增强图像特征进行空间注意力计算，得到图像特征的空间注意力图；

508、将空间注意力图和增强图像特征合并，分别得到第一人脸图像的第一注意力图像特征和第二人脸图像的第二注意力图像特征；

509、计算第一注意力图像特征和第二注意力图像特征之间的特征相似度，并基于特征相似度确定第一人脸图像与第二人脸图像之间的图像相似度。

本实施例中步骤501-503、509与第一实施例中的101-103、105类似，此处不再赘述。

在本发明实施例中，通过将两帧视频图像输入预置人脸识别模型进行识别，输出视频图像对应的第一人脸图像和第二人脸图像；将人脸图像输入预置注意力检测模型的特征层进行图像特征提取，分别得到人脸图像的图像特征；对图像特征执行卷积注意力计算，分别得到人脸图像的第一注意力图像特征和第二注意力图像特征；计算第一注意力图像特征和第二注意力图像特征之间的特征相似度，确定为第一人脸图像和第二人脸图像的图像相似度。本方案通过对人脸图像进行特征提取和融合，根据两图像对应特征之间的相关性确定图像的相关性，提高了图像识别效率。

上面对本发明实施例中人脸图像相似度的计算方法进行了描述，下面对本发明实施例中人脸图像相似度的计算装置进行描述，请参阅图6，本发明实施例中人脸图像相似度的计算装置的第一个实施例包括：

识别模块601，用于获取两帧包含人脸的视频图像，并将所述视频图像输入预置人脸识别模型进行识别，输出所述视频图像中人脸的区域范围；

提取模块602，用于根据所述区域范围，从所述两帧视频图像中提取出对应的第一人脸图像和第二人脸图像；

第一特征提取模块603，用于将所述第一人脸图像和所述第二人脸图像输入预置注意力检测模型的特征层对所述第一人脸图像和所述第二人脸图像进行图像特征提取，分别得到所述第一人脸图像的第一图像特征和所述第二人脸图像的第二图像特征；

第一计算模块604，用于分别对所述第一图像特征和所述第二图像特征进行卷积注意力的计算，得到第一注意力图像特征和第二注意力图像特征；

确定模块605，用于计算所述第一注意力图像特征和第二注意力图像特征之间的特征相似度，并基于所述特征相似度确定所述第一人脸图像与所述第二人脸图像之间的图像相似度。

请参阅图7，本发明实施例中人脸图像相似度的计算装置的第二个实施例，该人脸图像相似度的计算装置具体包括：

本实施例中，所述人脸图像相似度的计算装置包括：

获取模块606，用于获取多张不同应用场景下的包含人脸的视频图像，并将所述视频图像作为训练样本图像集；

第二特征提取模块607，用于将所述训练样本图像集输入预置的初始人脸识别模型的主干网络，对所述训练样本图像集中的视频图像分别进行人脸特征提取，得到特征集，其中，所述初始人脸识别模型包括主干网络和多个分类网络；

第二计算模块608，用于计算所述特征集的特征向量损失函数值，得到多个特征向量损失函数值；

第三计算模块609，用于根据所述多个特征向量损失函数值，计算所述初始人脸识别模型的目标损失函数值；

更新模块610，用于根据所述目标损失函数值对所述主干网络进行迭代更新，直至所述目标损失函数值收敛，得到目标人脸识别模型。

本实施例中，所述第一特征提取模块603包括：

边缘提取单元6031，用于对所述第一人脸图像和所述第二人脸图像进行边缘提取，得到第一边缘图像和第二边缘图像；

融合单元6032，用于将所述第一人脸图像和所述第二人脸图像所包含的全局图像信息和所述第一边缘图像和所述第二边缘图像所包含的边缘图像信息进行融合，得到所述第一人脸图像和所述第二人脸图像中包括目标对象的区域；

特征提取单元6033，用于对所述区域进行特征提取，得到所述第一人脸图像对应的第一全局特征、第一边缘特征和所述第二边缘图像对应的第二全局特征、第二边缘特征；

特征融合单元6034，用于分别对所述第一全局特征和所述第一边缘特征以及所述第二全局特征和所述第二边缘特征进行特征融合，分别得到所述第一人脸图像的第一图像特征和所述第二人脸图像的第二图像特征。

本实施例中，所述融合单元6032具体用于：

通过预置双路特征提取网络对所述第一边缘图像和所述第二边缘图像所包含边缘图像信息进行特征提取，并对所述第一边缘图像和所述第二边缘图像所包含边缘图像信息进行特征提取；

将所述特征提取结果进行加和，得到所述第一人脸图像和所述第二人脸图像中包括目标对象的区域图像特征。

本实施例中，所述第一计算模块604包括：

第一计算单元6041，用于分别对所述特征层输出的第一图像特征和所述第二图像特征进行通道注意力的计算，得到所述图像特征的通道注意力图；

第二计算单元6042，用于基于注意力机制对所述图像特征和所述通道注意力图合并得到的增强图像特征进行空间注意力计算，得到所述图像特征的空间注意力图；

特征合并单元6043，用于将所述空间注意力图和所述增强图像特征合并，分别得到所述第一人脸图像的第一注意力图像特征和所述第二人脸图像的第二注意力图像特征。

本实施例中，所述第二计算单元6042具体用于：

分别对所述第一图像特征和所述第二图像特征进行平均池化运算和最大池化运算，得到平均池化特征和最大池化特征；

利用预先构建的多层感知机处理所述平均池化特征，得到平均池化参数，并利用所述多层感知机处理所述最大池化特征，得到最大池化参数；

将所述平均池化参数与所述最大池化参数的和输入激活模块，得到所述第一图像特征的第一通道注意力图和第二图像特征的第二通道注意力图。

上面图6和图7从模块化功能实体的角度对本发明实施例中的人脸图像相似度的计算装置进行详细描述，下面从硬件处理的角度对本发明实施例中人脸图像相似度的计算设备进行详细描述。

图8是本发明实施例提供的一种人脸图像相似度的计算设备的结构示意图，该人脸图像相似度的计算设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)810(例如，一个或一个以上处理器)和存储器820，一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对人脸图像相似度的计算设备800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在人脸图像相似度的计算设备800上执行存储介质830中的一系列指令操作，以实现上述各方法实施例提供的人脸图像相似度的计算方法的步骤。

人脸图像相似度的计算设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作系统831，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8示出的人脸图像相似度的计算设备结构并不构成对本申请提供的人脸图像相似度的计算设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行上述人脸图像相似度的计算方法的步骤。

所述领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种人脸图像相似度的计算方法，其特征在于，所述人脸图像相似度的计算方法包括：

获取两帧包含人脸的视频图像，并将所述视频图像输入预置人脸识别模型进行识别，输出所述视频图像中人脸的区域范围；

根据所述区域范围，从所述两帧视频图像中提取出对应的第一人脸图像和第二人脸图像；

将所述第一人脸图像和所述第二人脸图像输入预置注意力检测模型的特征层对所述第一人脸图像和所述第二人脸图像进行图像特征提取，分别得到所述第一人脸图像的第一图像特征和所述第二人脸图像的第二图像特征；

分别对所述第一图像特征和所述第二图像特征进行卷积注意力的计算，得到第一注意力图像特征和第二注意力图像特征；

计算所述第一注意力图像特征和第二注意力图像特征之间的特征相似度，并基于所述特征相似度确定所述第一人脸图像与所述第二人脸图像之间的图像相似度。

2.根据权利要求1所述的人脸图像相似度的计算方法，其特征在于，在所述获取两帧包含人脸的视频图像，并将所述视频图像输入预置人脸识别模型进行识别，输出所述视频图像中人脸的区域范围之前，还包括：

获取多张不同应用场景下的包含人脸的样本图像，并将所述样本图像作为训练样本图像集；

将所述训练样本图像集输入预置的初始人脸识别模型的主干网络，对所述训练样本图像集中的样本图像分别进行人脸特征提取，得到特征集，其中，所述初始人脸识别模型包括主干网络和多个分类网络；

计算所述特征集的特征向量损失函数值，得到多个特征向量损失函数值；

根据所述多个特征向量损失函数值，计算所述初始人脸识别模型的目标损失函数值；

根据所述目标损失函数值对所述主干网络进行迭代更新，直至所述目标损失函数值收敛，得到目标人脸识别模型。

3.根据权利要求1所述的人脸图像相似度的计算方法，其特征在于，所述第一人脸图像和第二人脸图像包含全局图像信息，所述将所述第一人脸图像和所述第二人脸图像输入预置注意力检测模型的特征层对所述第一人脸图像和所述第二人脸图像进行图像特征提取，分别得到所述第一人脸图像的第一图像特征和所述第二人脸图像的第二图像特征包括：

对所述第一人脸图像和所述第二人脸图像进行边缘提取，得到第一边缘图像和第二边缘图像，其中，所述第一边缘图像和所述第二边缘图像所包含边缘图像信息；

将所述全局图像信息和所述边缘图像信息进行融合，得到所述第一人脸图像和所述第二人脸图像中包括目标对象的区域；

对所述区域进行特征提取，得到所述第一人脸图像对应的第一全局特征、第一边缘特征和所述第二边缘图像对应的第二全局特征、第二边缘特征；

对所述第一全局特征和所述第一边缘特征进行特征融合，得到第一人脸图像的第一图像特征，以及对所述第二全局特征和所述第二边缘特征进行特征融合得到所述第二人脸图像的第二图像特征。

4.根据权利要求3所述的人脸图像相似度的计算方法，其特征在于，所述将所述全局图像信息和所述边缘图像信息进行融合，得到所述第一人脸图像和所述第二人脸图像中包括目标对象的区域包括：

将所述特征提取结果进行加和，得到所述第一人脸图像和所述第二人脸图像中包括目标对象的区域。

5.根据权利要求1所述的人脸图像相似度的计算方法，其特征在于，所述分别对所述第一图像特征和所述第二图像特征进行卷积注意力的计算，得到第一注意力图像特征和第二注意力图像特征包括：

分别对所述第一图像特征和所述第二图像特征进行通道注意力的计算，得到所述图像特征的通道注意力图；

基于注意力机制对所述图像特征和所述通道注意力图合并得到的增强图像特征进行空间注意力计算，得到所述图像特征的空间注意力图；

将所述空间注意力图和所述增强图像特征合并，分别得到所述第一人脸图像的第一注意力图像特征和所述第二人脸图像的第二注意力图像特征。

6.根据权利要求5所述的人脸图像相似度的计算方法，其特征在于，所述分别对所述特征层输出的第一图像特征和所述第二图像特征进行通道注意力的计算，得到所述图像特征的通道注意力图包括：

7.一种人脸图像相似度的计算装置，其特征在于，所述人脸图像相似度的计算装置包括：

识别模块，用于获取两帧包含人脸的视频图像，并将所述视频图像输入预置人脸识别模型进行识别，输出所述视频图像中人脸的区域范围；

提取模块，用于根据所述区域范围，从所述两帧视频图像中提取出对应的第一人脸图像和第二人脸图像；

第一特征提取模块，用于将所述第一人脸图像和所述第二人脸图像输入预置注意力检测模型的特征层对所述第一人脸图像和所述第二人脸图像进行图像特征提取，分别得到所述第一人脸图像的第一图像特征和所述第二人脸图像的第二图像特征；

第一计算模块，用于分别对所述第一图像特征和所述第二图像特征进行卷积注意力的计算，得到第一注意力图像特征和第二注意力图像特征；

确定模块，用于计算所述第一注意力图像特征和第二注意力图像特征之间的特征相似度，并基于所述特征相似度确定所述第一人脸图像与所述第二人脸图像之间的图像相似度。

8.根据权利要求7所述的人脸图像相似度的计算装置，其特征在于，所述人脸图像相似度的计算装置还包括：

获取模块，用于获取多张不同应用场景下的包含人脸的样本图像，并将所述样本图像作为训练样本图像集；

第二特征提取模块，用于将所述训练样本图像集输入预置的初始人脸识别模型的主干网络，对所述训练样本图像集中的样本图像分别进行人脸特征提取，得到特征集，其中，所述初始人脸识别模型包括主干网络和多个分类网络；

第二计算模块，用于计算所述特征集的特征向量损失函数值，得到多个特征向量损失函数值；

第三计算模块，用于根据所述多个特征向量损失函数值，计算所述初始人脸识别模型的目标损失函数值；

更新模块，用于根据所述目标损失函数值对所述主干网络进行迭代更新，直至所述目标损失函数值收敛，得到目标人脸识别模型。

9.一种人脸图像相似度的计算设备，其特征在于，所述人脸图像相似度的计算设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述人脸图像相似度的计算设备执行如权利要求1-6中任一项所述的人脸图像相似度的计算方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的人脸图像相似度的计算方法的步骤。