CN115294636A

CN115294636A - 一种基于自注意力机制的人脸聚类方法和装置

Info

Publication number: CN115294636A
Application number: CN202211224364.9A
Authority: CN
Inventors: 万力; 韩东明; 赵龙; 王庆焕
Original assignee: Shandong Haibo Technology Information System Co ltd
Current assignee: Shandong Haibo Technology Information System Co ltd
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2022-11-04

Abstract

本发明公开了一种基于自注意力机制的人脸聚类方法和装置，属于计算机视觉技术领域，该方法包括：对实时采集的人脸视频流进行人脸检测，得到人脸序列图片；将人脸序列图片输入预先训练好的基于自适应空间特征融合的特征提取网络中进行特征提取和加权特征融合，得到人脸空间特征向量；将人脸空间特征向量输入基于注意力机制的长短期记忆网络中进行时序预测，得到每一帧人脸空间特征向量对应的时序特征向量；将时序特征向量输入基于自注意力机制的多尺度特征融合网络中进行特征融合，得到人脸全局特征向量；将人脸全局特征向量输入增量聚类算法中进行分组和合并，得到人脸聚类结果。该方法能够提高人脸动态特征提取和人脸聚类的准确性。

Description

一种基于自注意力机制的人脸聚类方法和装置

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于自注意力机制的人脸聚类方法、装置、计算设备及存储介质。

背景技术

人脸聚类是挖掘未标记人脸的一个主要方法，在人脸标注和检索等方面有广泛的应用。人脸聚类一般有三个主要步骤，一是对人脸进行检测，通过检测脸部位置、大小和姿态，得到只包含人脸的图片；二是对人脸图片进行特征编码，也就是将人脸图片转换为表征人脸的特征向量；三是运用聚类算法对提取的人脸特征向量进行分组和合并，完成人脸的无监督聚类。其中，特征提取或编码过程直接关系到人脸聚类的最终效果，尤其对于人脸特征距离较近的人脸要分开，特征的编码以及多尺度特征向量有效融合至关重要。

现有的人脸特征编码主要是基于深度学习模型来完成的，但是基本上是基于单一的特征提取网络，比如残差网络ResNet等，忽略了视频中人脸的时序特征，而且对于多尺度人脸特征编码不充分，对于人脸的动态特征提取不到。现有技术中专利号为CN113239866A的中国发明专利公开了一种基于时空特征融合与样本注意增强的人脸识别方法，首先使用时间序列处理算法ConvGRU从输入的图像序列中提取时间维度的特征；再从图像序列中选择质量最佳的图像进行空间特征提取，得到三种不同深度的特征；然后利用空间特征融合算法进行自适应的空间特征融合得到空间特征；最后将时间特征和空间特征在通道上拼接后执行融合操作，得到鲁棒的时空特征用于人脸识别。该方法虽然提取了包含时序特征和空间特征的人脸特征向量，但是该方法未考虑不同尺度特征向量或特征层之间的关联关系。

因此，需要提供一种基于自注意力机制的人脸聚类方法，能够从提取的空间特征向量和时序特征向量中快速筛选出高价值信息，进一步提高人脸聚类或识别的准确性，以解决现有技术中存在的问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于自注意力机制的人脸聚类方法、装置、计算设备以及存储介质。

根据本发明的一个方面，提供一种基于自注意力机制的人脸聚类方法，在该方法中，首先，对实时采集的人脸视频流进行人脸检测，得到人脸序列图片；然后，将所述人脸序列图片输入预先训练好的基于自适应空间特征融合的特征提取网络中进行特征提取和加权特征融合，得到人脸空间特征向量；随后，将所述人脸空间特征向量输入基于注意力机制的长短期记忆网络中进行时序预测，得到每一帧人脸空间特征向量对应的时序特征向量；接着，将所述时序特征向量输入基于自注意力机制的多尺度特征融合网络中进行特征融合，得到人脸全局特征向量；最后将所述人脸全局特征向量输入增量聚类算法中进行分组和合并，得到人脸聚类结果。

该方法能够适用于实时人脸视频采集场景中，通过对人脸序列图片进行空间特征提取和对应的时序特征提取，并对时序特征进行基于自注意力机制的特征融合，能够充分提取图片中的有用信息，进一步提高特征提取和人脸聚类的准确性。

可选地，在根据本发明的方法中，首先，对实时采集的人脸视频流进行分帧处理，得到人脸序列帧；然后，对所述人脸序列帧进行筛选和预处理，所述预处理包括旋转、裁切、数据增强、灰度变换；接着，将预处理后的人脸序列帧输入训练好的卷积神经网络中进行人脸检测，得到包含边界框和特征点的人脸图片，所述卷积神经网络为MTCNN、RetinaFace、Yolov5Face中任意一种；最后，基于所述边界框和人脸特征点，对人脸图片进行裁剪得到人脸序列图片。

可选地，在根据本发明的方法中，基于自适应空间特征融合的特征提取网络包括特征金字塔网络、自适应空间特征融合网络和全连接层。可以首先将所述人脸序列图片输入特征金字塔网络进行特征提取，得到不同尺度的特征图；然后，选取三个不同尺度的特征图输入自适应空间特征融合网络，通过将三个不同尺度的特征图调整为同一尺度，并基于各自的权重矩阵加权求和生成空间尺度融合的三个特征图；最后，将所述三个特征图输入全连接层进行相加或连接，得到人脸空间特征向量。

可选地，在根据本发明的方法中，自适应空间特征融合过程中的权重矩阵通过卷积层和归一化函数反向传播生成，三个不同尺度特征图的权重矩阵满足以下关系：

其中，

分别表示第

个特征图在像素点

处的权重矩阵。

可选地，在根据本发明的方法中，首先，计算长短期记忆网络以往不同时刻输入的人脸空间特征向量与当前时刻输入的人脸空间特征向量之间的相关性；然后，基于所述相关性确定以往各个时刻的人脸空间特征向量的权重；最后，基于以往各个时刻人脸空间特征向量的权重进行加权求和，得到当前时刻输出的人脸空间特征向量对应的时序特征向量。

可选地，在根据本发明的方法中，首先，对人脸空间特征向量对应的时序特征向量进行key变换、query变换和value变换；然后，将query变换后的时序特征向量与key变换后的时序特征向量进行点积运算，得到注意力权重；最后，基于所述注意力权重和value变换后的时序特征向量，加权求和计算得到人脸全局特征向量。

可选地，在根据本发明的方法中，在人脸聚类过程中，首先设置聚类算法的相关参数，所述参数包括两个人脸全局特征向量被认为是同一张人脸的最大阈值距离、被认为是同一张人脸的最少人脸全局特征向量个数、两个人脸全局特征向量计算距离的方法；然后，从人脸全局特征向量集合中任意选取一个人脸全局特征向量；如果对于两个人脸全局特征向量被认为是同一张人脸的最大阈值距离、被认为是同一张人脸的最少人脸全局特征向量个数，所选取的人脸全局特征向量为核心点，则找出所有从该人脸全局特征向量密度可达的人脸全局特征向量，形成一个簇；如果选取的人脸全局特征向量是边缘点，选取另一个人脸全局特征向量，直到集合中所有的人脸全局特征向量被处理，得到人脸聚类结果。

根据本发明的另一个方面，提供一种基于自注意力机制的人脸聚类装置，该装置可以包括人脸检测模块、空间特征提取模块、时序特征提取模块、特征融合模块和人脸聚类模块。其中，人脸检测模块可以对实时采集的人脸视频流进行人脸检测，得到人脸序列图片。空间特征提取模块可以将所述人脸检测模块获得的人脸序列图片输入预先训练好的基于自适应空间特征融合的特征提取网络中进行特征提取和加权特征融合，得到人脸空间特征向量。时序特征提取模块可以将所述空间特征提取模块得到的人脸空间特征向量输入基于注意力机制的长短期记忆网络中进行时序预测，得到每一帧人脸空间特征向量对应的时序特征向量。特征融合模块可以将所述时序特征提取模块得到的时序特征向量输入基于自注意力机制的多尺度特征融合网络中进行特征融合，得到人脸全局特征向量。人脸聚类模块可以将所述特征融合模块得到的人脸全局特征向量输入增量聚类算法中进行分组和合并，得到人脸聚类结果。

根据本发明的又一个方面，提供一种计算设备，包括：至少一个处理器；和存储有程序指令的存储器，其中，程序指令被配置为适于由至少一个处理器执行，程序指令包括用于执行上述方法的指令。

根据本发明的又一个方面，提供一种存储有程序指令的可读存储介质，当程序指令被计算设备读取并执行时，使得计算设备执行上述的方法。

根据本发明的方案，通过提取人脸视频流中的时序特征和空间特征，并加入注意力机制和自注意力机制对获得的空间特征和对应的时序特征进行特征融合，可以快速筛选出人脸序列图片中的高价值信息，进一步提高人脸特征提取的准确性和人脸聚类或识别的准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的计算设备100的结构图；

图2示出了根据本发明一个实施例基于自注意力机制的人脸聚类方法200的流程示意图；

图3示出了根据本发明一个实施例的基于自适应空间特征融合的特征提取网络300的结构示意图；

图4示出了根据本发明一个实施例的基于注意力机制的长短期记忆网络400的结构示意图；

图5示出了根据本发明一个实施例的基于自注意力机制的多尺度特征融合网络500的结构示意图；

图6示出了根据本发明一个实施例的基于自注意力机制的人脸聚类装置600的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

随着深度学习技术的迅速发展，对于静态图像的人脸识别技术取得了显著的进步，但是基于静态图像的人脸识别或聚类算法性能依赖于输入图像的质量，但在实际应用中，尤其是视频监控场景下，视频中的时间和空间都有一定的随机性，图像清晰度、人脸姿态或关键部位角度的可识别性无法保证，导致人脸识别或聚类效果存在较大误差。因此为了保证视频监控场景下人脸识别或聚类的准确性，本方案提供一种基于自注意力机制的人脸聚类方法，能够通过注意力机制找出不同特征层之间的联系，得到权重划分，并基于自注意力机制在通道和空间两个层面计算通道之间、像素点之间的权重值，以提高人脸特征提取的准确性，进而提高人脸聚类的准确性。

图1示出了根据本发明一个实施例的计算设备100的结构图。如图1所示，在基本配置102中，计算设备100典型地包括存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理器，包括但不限于：微处理器（µP）、微控制器（µC）、数字信息处理器（DSP）或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元（ALU）、浮点数单元（FPU）、数字信号处理核心（DSP核心）或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，存储器106可以是任意类型的存储器，包括但不限于：易失性存储器（诸如RAM）、非易失性存储器（诸如ROM、闪存等）或者它们的任何组合。计算设备中的物理内存通常指的是易失性存储器RAM，磁盘中的数据需要加载至物理内存中才能够被处理器104读取。存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上由一个或多个处理器104利用程序数据124执行指令。操作系统120例如可以是Linux、Windows等，其包括用于处理基本系统服务以及执行依赖于硬件的任务的程序指令。应用122包括用于实现各种用户期望的功能的程序指令，应用122例如可以是浏览器、即时通讯软件、软件开发工具（例如集成开发环境IDE、编译器等）等，但不限于此。当应用122被安装到计算设备100中时，可以向操作系统120添加驱动模块。

在计算设备100启动运行时，处理器104会从存储器106中读取操作系统120的程序指令并执行。应用122运行在操作系统120之上，利用操作系统120以及底层硬件提供的接口来实现各种用户期望的功能。当用户启动应用122时，应用122会加载至存储器106中，处理器104从存储器106中读取并执行应用122的程序指令。

计算设备100还包括储存设备132，储存设备132包括可移除储存器136和不可移除储存器138，可移除储存器136和不可移除储存器138均与储存接口总线134连接。

计算设备100还可以包括有助于从各种接口设备（例如，输出设备142、外设接口144和通信设备146）到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备（例如，键盘、鼠标、笔、语音输入设备、触摸输入设备）或者其他外设（例如打印机、扫描仪等）之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信接口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频（RF）、微波、红外（IR）或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在根据本发明的计算设备100中，应用122包括用于执行本发明的基于自注意力机制的人脸聚类方法200的指令。

图2示出了根据本发明一个实施例的基于自注意力机制的人脸聚类方法200的流程示意图。如图2所示，该方法200适于步骤S210，对实时采集的人脸视频流进行人脸检测，得到人脸序列图片。其中，人脸检测是人脸识别或人脸聚类的第一步，主要作用将包含背景信息的人脸图片中的背景信息去除，从中获取人脸部位的位置、尺寸和姿态信息，得到只包含人脸的图片，避免无关信息对后续模型训练或检测的干扰，人脸检测的准确度和速度直接影响到后续人脸聚类的特性。在本发明的实施例中，可以对摄像头实时采集的人脸视频流进行分帧处理得到人脸序列帧，并对人脸序列帧进行筛选和预处理，例如对模糊图片或不包含人脸的图片筛除，对图像进行裁剪、数据增强、翻转、灰度变换等处理。然后将预处理后的人脸序列帧输入训练好的卷积神经网络中进行人脸检测，得到包含边界框和特征点的人脸图片。其中卷积神经网络可以是MTCNN、RetinaFace、Yolov5Face等目标检测模型。以MTCNN（多任务卷积神经网络）为例，使用三个卷积神经网络级联，即P-net、R-net、O-net。其中，P-Net是一个全卷积网络，用来生成候选窗和边界框回归向量。使用边界框回归的方法来校正这些候选窗，使用非极大值抑制（NMS）合并重叠的候选框。然后，使用N-Net改善候选窗。将通过P-Net的候选窗输入R-Net中，拒绝掉大部分false的窗口，继续使用边界框回归和NMS合并。最后使用O-Net输出最终的人脸框和特征点位置，例如标注出眼睛、嘴巴、鼻子等人脸关键部位的位置。最后，基于检测出的边界框和人脸特征点，对人脸图片进行裁剪，得到人脸序列图片。

随后执行步骤S220，将人脸序列图片输入预先训练好的基于自适应空间特征融合的特征提取网络中进行特征提取和加权特征融合，得到人脸空间特征向量。

类似于YOLOv3、RetinaNet多采用特征层直接连接或者相加的方式，这样并不能充分利用不同尺度的特征。为了充分利用高层特征的语义信息和底层特征的细粒度特征，本方案采用自适应空间特征融合方式，即在特征金字塔的add相加方式的基础上增加一个可学习参数，该参数是自动学习的，可以实现自适应融合效果。图3示出了根据本发明一个实施例的基于自适应空间特征融合的特征提取网络300的结构示意图。如图3所示，基于自适应空间特征融合的特征提取网络300包括特征金字塔网络、自适应空间特征融合网络和全连接层，其中，特征金字塔网络包括自底向上、自顶向下和横向连接。其中主干网络（ResNet）进行自底向上的特征提取，然后对最后一层特征图上采样，上采样的结果再与对应尺寸的特征图进行融合，即横向连接。但是，当某一特征图匹配某个对象时，其他层的特征图的信息将被忽视，导致特征融合不充分。因此本方案在特征金字塔网络之后添加三个特征层分支，分别是第一特征层256维，第二特征层512维，第三特征层1024维。从特征金字塔网络输出的特征图中选取三个不同尺度的特征图输入自适应空间特征融合网络，通过将三个不同尺度的特征图调整为同一尺度，并基于各自的权重矩阵加权求和生成空间尺度融合的三个特征图。也就是说，需要对level 1、level 2、level 3输出的特征图调整大小和通道数，例如将level 1、level 2、level 3融合成ASFF-1，需要对level 2、level 3进行下采样，例如，将level 2通过一个3*3，步长stride为2的卷积层，将level 3通过一个3*3卷积层和一个步长为2的最大池化层；比如要得到ASFF-3，需要将level 1先通过1*1卷积层调整到与level 3通道数相同，再用插值的方式调整为相同的尺寸，从而使level 1、level 2、level 3的尺寸一致。尺寸一致之后三个层不是简单的相加来融合，需要乘以不同的权重参数。对于权重参数

，则通过重新调整大小后的level 1、level 2、level 3的特征图经过1*1卷积层得到。level l重新调整大小后的特征图在每个像素点

与各自的权重矩阵

相乘再相加，得到融合后的ASFF-L，且满足：

其中，

分别表示第

个特征图在像素点

处的权重矩阵，

代表从level n的特征重新调整大小后到level 后像素点

处的特征向量，输出y就是ASFF-1、ASFF-2、ASFF-3三个空间特征层。对于ASFF-1、ASFF-2、ASFF-3这三个特征层可以进行相加或者拼接，或者使用自注意力机制进行融合得到一个人脸空间特征向量。

接着执行步骤S230，将人脸空间特征向量输入基于注意力机制的长短期记忆网络中进行时序预测，得到每一帧人脸空间特征向量对应的时序特征向量。

其中，LSTM长短期记忆网络是一种时间递归神经网络，通过在网络中加入循环，能够将之前的信息连接到当前的任务上，比如可以用之前的视频图像理解当前帧的图像。本方案通过在循环神经网络中增加注意力机制，通过对前期信息有选择的记忆和遗忘，实现了对相关信息的长期记忆，从而提取时间特征。LSTM模型中包括遗忘门、输入门和输出门，它们决定了信息通过的方式，包含一个sigmoid神经网络层和一个pointwise点乘操作。Sigmoid神经网络层输出0到1之间的数字，点乘操作决定多少信息可以传送过去，当为0时，不传送；当为1时，全部传送。在本发明的实施例中，将具有时序信息的人脸空间特征向量作为LSTM网络的输入，这样可以提高网络的运行速度，实现端到端的训练，最后输出得到人脸时序特征向量。在本发明的实施例中，首先，计算长短期记忆网络以往不同时刻输入的人脸空间特征向量与当前时刻输入的人脸空间特征向量之间的相关性；然后，基于相关性确定以往各个时刻的人脸空间特征向量的权重；最后，基于以往各个时刻人脸空间特征向量的权重进行加权求和，得到当前时刻输出的人脸空间特征向量对应的时序特征向量。图4示出了根据本发明一个实施例的基于注意力机制的长短期记忆网络400的结构示意图。如图4所示，LSTM网络采用Encoder-Decoder（编码器-解码器）结构，输入LSTM的数据序列X1、X2、X3、X4被编码成固定长度的向量表示。虽然LSTM的记忆功能可以保存长期状态，但是在实际应用过程中，面对庞大的多维度、多变量数据集时不能很好地加以处理，在训练时模型可能会忽略某些重要的时序信息，造成模型的性能变差，影响预测精度。因此本方案引入了Attention注意力机制C₁、C₂、C₃，保留LSTM编码器的中间状态，通过训练模型来对这些中间状态C₁、C₂、C₃进行选择性学习。Attention机制通过对LSTM的输入特征X1、X2、X3、X4赋予了不同的权重C₁、C₂、C₃，突出了关键的影响因素，帮助LSTM做出准确的判断，而且不会增加模型的计算和存储开销。

随后可以执行步骤S240，将时序特征向量输入基于自注意力机制的多尺度特征融合网络中进行特征融合，得到人脸全局特征向量。

其中，自注意力机制可以理解为对输入序列的加权和，而加权系数就是注意力机制，自注意力机制的加权系数是由输入序列计算并作用于输入。通过注意力分配系数（权重系数）来强调重要信息并抑制无关信息，将目标与特征进行相似度匹配。在本发明的实施例中，首先，对人脸空间特征向量对应的时序特征向量进行key变换、query变换和value变换；然后将query变换后的时序特征向量与key变换后的时序特征向量进行点积运算，得到注意力权重；最后，基于注意力权重和value变换后的时序特征向量，加权求和计算得到人脸全局特征向量。

图5示出了根据本发明一个实施例的基于自注意力机制的多尺度特征融合网络500的结构示意图。如图5所示，a1、a2、a3、a4分别代表输入的四帧人脸图像经过特征编码之后得到的向量，a1在经过K（key变换）、Q（query变换）、V（value变换）三个线性变换后得到q1，k1，v1。a2在经过K（key变换）、V（value变换）线性变换后得到k2，v2。a3在经过K（key变换）、V（value变换）线性变换后得到k3，v3。a4在经过K（key变换）、V（value变换）线性变换后得到k4，v4。之后计算attention权重a11、a12、a13、a14，经过加权和得到所有序列帧人脸的综合特征向量b1。由此完成了对一个基于自注意力机制的人脸特征融合过程。

最后执行步骤S250，将人脸全局特征向量输入增量聚类算法中进行分组和合并，得到人脸聚类结果。

常用的聚类算法有基于层次的、基于划分的、基于密度的、基于网格的和基于模型的聚类。本方案采用增量DBSCAN聚类算法，由于DBSCAN算法是基于密度的特性，插入或删除一个新的数据点只影响当前聚类中近邻该点的簇。当有新的特征向量加入时，基于新加入的特征对前一次聚类所得的聚类簇进行更新，从而实现增量DBSCAN聚类。聚类算法中和特征使用直接相关的有两个参数，即距离的度量方式和距离的阈值大小，在聚类时需要重新评估这两个参数。因此需要对这两个参数以及一些额外的参数进行设置。在本发明的实施例中，可以首先设置算法参数，所述参数包括两个人脸全局特征向量被认为是同一张人脸的最大阈值距离Epsilon（如果数据点的相互距离小于或等于指定的epsilon，那么它们将是同一类的）、被认为是同一张人脸的最少人脸全局特征向量个数MinPts、两个人脸全局特征向量计算距离的方法、聚类算法中树结构的叶子尺寸。更大的epsilon将产生更大的簇(包含更多的数据点)，更小的epsilon将构建更小的簇。在本发明的实施例中，可以将epsilon设为0.93，MinPts设为3，两个人脸表征向量计算距离的方法设为euclidean欧氏距离等。将上述特征融合后的人脸特征向量bi的列表作为聚类算法的输入。可以将获取的人脸全局特征向量保存到待人脸聚类的数据库，从数据库中任意选取一个人脸全局特征向量。如果对于两个人脸全局特征向量被认为是同一张人脸的最大阈值距离、被认为是同一张人脸的最少人脸全局特征向量个数，所选取的人脸全局特征向量为核心点，则找出所有从该人脸全局特征向量密度可达的人脸全局特征向量，形成一个簇；如果选取的人脸全局特征向量是边缘点，选取另一个人脸全局特征向量，直到数据库中所有的人脸全局特征向量被处理，得到人脸聚类结果。

图6示出了根据本发明一个实施例的基于自注意力机制的人脸聚类装置600的结构示意图。如图6所示，该装置600包括人脸检测模块610、空间特征提取模块620、时序特征提取模块630、特征融合模块640和人脸聚类模块650。

其中，人脸检测模块610可以对实时采集的人脸视频流进行人脸检测，得到人脸序列图片。空间特征提取模块620可以将人脸检测模块610获得的人脸序列图片输入预先训练好的基于自适应空间特征融合的特征提取网络中进行特征提取和加权特征融合，得到人脸空间特征向量。时序特征提取模块630可以将空间特征提取模块620得到的人脸空间特征向量输入基于注意力机制的长短期记忆网络中进行时序预测，得到每一帧人脸空间特征向量对应的时序特征向量。特征融合模块640可以将时序特征提取模块630得到的时序特征向量输入基于自注意力机制的多尺度特征融合网络中进行特征融合，得到人脸全局特征向量。人脸聚类模块650可以将特征融合模块640得到的人脸全局特征向量输入增量聚类算法中进行分组和合并，得到人脸聚类结果。

通过上述方案，通过提取人脸视频流中的时序特征和空间特征，并加入注意力机制和自注意力机制对获得的空间特征和对应的时序特征进行特征融合。可以快速筛选出人脸序列图片中的高价值信息，进一步提高人脸特征提取的准确性和人脸聚类或识别的准确性。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种基于自注意力机制的人脸聚类方法，适于在计算设备中执行，其特征在于，所述方法包括：

对实时采集的人脸视频流进行人脸检测，得到人脸序列图片；

将所述人脸序列图片输入预先训练好的基于自适应空间特征融合的特征提取网络中进行特征提取和加权特征融合，得到人脸空间特征向量；

将所述人脸空间特征向量输入基于注意力机制的长短期记忆网络中进行时序预测，得到每一帧人脸空间特征向量对应的时序特征向量；

将所述时序特征向量输入基于自注意力机制的多尺度特征融合网络中进行特征融合，得到人脸全局特征向量；

将所述人脸全局特征向量输入增量聚类算法中进行分组和合并，得到人脸聚类结果。

2.根据权利要求1所述的一种基于自注意力机制的人脸聚类方法，其特征在于，所述对实时采集的人脸视频流进行人脸检测，得到人脸序列图片的步骤包括：

对实时采集的人脸视频流进行分帧处理，得到人脸序列帧；

对所述人脸序列帧进行筛选和预处理，所述预处理包括旋转、裁切、数据增强、灰度变换；

将预处理后的人脸序列帧输入训练好的卷积神经网络中进行人脸检测，得到包含边界框和特征点的人脸图片，所述卷积神经网络为MTCNN、RetinaFace、Yolov5Face中任意一种；

基于所述边界框和人脸特征点，对人脸图片进行裁剪得到人脸序列图片。

3.根据权利要求1所述的一种基于自注意力机制的人脸聚类方法，其特征在于，所述基于自适应空间特征融合的特征提取网络包括特征金字塔网络、自适应空间特征融合网络和全连接层，所述将所述人脸序列图片输入预先训练好的基于自适应空间特征融合的特征提取网络中进行特征提取和加权特征融合，得到人脸空间特征向量的步骤包括：

将所述人脸序列图片输入特征金字塔网络进行特征提取，得到不同尺度的特征图；

从得到的不同尺度的特征图中选取三个不同尺度的特征图输入自适应空间特征融合网络，通过将三个不同尺度的特征图调整为同一尺度的特征图，并基于各自的权重矩阵加权求和生成空间尺度融合的三个特征图；

将所述三个特征图输入全连接层进行相加或连接，得到人脸空间特征向量。

4.根据权利要求3所述的一种基于自注意力机制的人脸聚类方法，其特征在于，所述权重矩阵通过卷积层和归一化函数反向传播生成，所述权重矩阵满足以下关系：

其中，

分别表示第

个特征图在像素点

处的权重矩阵。

5.根据权利要求1所述的一种基于自注意力机制的人脸聚类方法，其特征在于，所述将所述人脸空间特征向量输入基于注意力机制的长短期记忆网络中进行时序预测，得到每一帧人脸空间特征向量对应的时序特征向量的步骤包括：

计算长短期记忆网络以往不同时刻输入的人脸空间特征向量与当前时刻输入的人脸空间特征向量之间的相关性；

基于所述相关性确定以往各个时刻的人脸空间特征向量的权重；

基于以往各个时刻人脸空间特征向量的权重进行加权求和，得到当前时刻输出的人脸空间特征向量对应的时序特征向量。

6.根据权利要求1所述的一种基于自注意力机制的人脸聚类方法，其特征在于，所述将所述时序特征向量输入基于自注意力机制的多尺度特征融合网络中进行特征融合，得到人脸全局特征向量的步骤包括：

对人脸空间特征向量对应的时序特征向量进行key变换、query变换和value变换；

将query变换后的时序特征向量与key变换后的时序特征向量进行点积运算，得到注意力权重；

基于所述注意力权重和value变换后的时序特征向量，加权求和计算得到人脸全局特征向量。

7.根据权利要求1所述的一种基于自注意力机制的人脸聚类方法，其特征在于，所述将所述人脸全局特征向量输入聚类算法中进行分组和合并，得到人脸聚类结果的步骤包括：

设置聚类算法的相关参数，所述参数包括两个人脸全局特征向量被认为是同一张人脸的最大阈值距离、被认为是同一张人脸的最少人脸全局特征向量个数、两个人脸全局特征向量计算距离的方法；

从人脸全局特征向量集合中任意选取一个人脸全局特征向量；

如果对于两个人脸全局特征向量被认为是同一张人脸的最大阈值距离、被认为是同一张人脸的最少人脸全局特征向量个数，所选取的人脸全局特征向量为核心点，则找出所有从该人脸全局特征向量密度可达的人脸全局特征向量，形成一个簇；

如果选取的人脸全局特征向量是边缘点，选取另一个人脸全局特征向量，直到集合中所有的人脸全局特征向量被处理，得到人脸聚类结果。

8.一种基于自注意力机制的人脸聚类装置，其特征在于，所述装置包括：

人脸检测模块，适于对实时采集的人脸视频流进行人脸检测，得到人脸序列图片；

空间特征提取模块，适于将所述人脸检测模块获得的人脸序列图片输入预先训练好的基于自适应空间特征融合的特征提取网络中进行特征提取和加权特征融合，得到人脸空间特征向量；

时序特征提取模块，适于将所述空间特征提取模块得到的人脸空间特征向量输入基于注意力机制的长短期记忆网络中进行时序预测，得到每一帧人脸空间特征向量对应的时序特征向量；

特征融合模块，适于将所述时序特征提取模块得到的时序特征向量输入基于自注意力机制的多尺度特征融合网络中进行特征融合，得到人脸全局特征向量；

人脸聚类模块，适于将所述特征融合模块得到的人脸全局特征向量输入增量聚类算法中进行分组和合并，得到人脸聚类结果。

9.一种计算设备，包括：

至少一个处理器；和

存储有程序指令的存储器，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行如权利要求1-7中任一项所述方法的指令。

10.一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如权利要求1-7中任一项所述的方法。