CN112528077A

CN112528077A - 基于视频嵌入的视频人脸检索方法及系统

Info

Publication number: CN112528077A
Application number: CN202011246007.3A
Authority: CN
Inventors: 李振华; 柳博方
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-03-19
Anticipated expiration: 2040-11-10
Also published as: CN112528077B

Abstract

本公开提出了基于视频嵌入的视频人脸检索方法，包括：获取多个不同人的视频图片序列，对视频图片序列处理为统一大小；对视频图片序列中的每张静态图片进行处理，先获得特征向量，然后进行相邻图片特征的部分特征偏移操作，获得序列特征；对得到的序列特征进行融合提取关键帧的特征信息；对提取的每个人的图片序列映射的特征采用相似性度量损失函数进行训练，然后根据该损失函数对神经网络模型参数进行优化求解。对中间特征进行时序偏移，对时序偏移操作采用一种固定卷积参数的卷积实现，本发明方法检索精度高、速度快、帧间特征利用充分，有效的解决了视频人脸检索的帧间信息利用不充分问题。

Description

基于视频嵌入的视频人脸检索方法及系统

技术领域

本公开属于视频人脸检索技术领域，尤其涉及基于视频嵌入的视频人脸检索方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

对于视频人脸检索主要是将视频分成一帧一帧的图片进行处理，然后将这些图片看成视频的集合中的各个点，进行检索的时候主要是比较两个集合的相似性。对于集合相似性的比较主要有基于浅层特征的线性子空间的方法、非线性流形的方法、基于凸包的方法以及概率模型的方法。

对于线性相关分析主要采用典型相关分析找出集合中最具代表性的特征点进行集合间的相似性度量。在大多数基于视频的场景中存在姿势、光照、表情等的变化，这种变化多少非线性变化，所以为了解决典型相关分析不能解决非线性变化的问题，采用非线性流形的方式去表达视频中的人脸特征，在流形空间进行集合和集合的比较。

在真实的场景中，监控视频序列通常非常短，但是涵盖了大量的复杂的数据变换。为了解决这个问题采用基于凸包的方式去建模视频数据，这个方法对位置的变化是不敏感的。概率模型有着对集合数据分布表示的天然优势，所以对于视频数据采用精心设计的概率密度函数进行表示分布，通过协方差矩阵去进行集合之间的分类。还有一些通过深度学习的方式去表达静态图像特征然后再应用上述的方法进行视频集合间的分类问题。但是这种方法不是端到端的，也没有充分利用相邻帧间的信息，不能充分的表达视频特征。

发明内容

为克服上述现有技术的不足，本公开提供了基于视频嵌入的视频人脸检索方法，能够充分利用相邻帧间的信息。

为实现上述目的，本公开的一个或多个实施例提供了如下技术方案：

第一方面，公开了基于视频嵌入的视频人脸检索方法，包括：

获取多个不同人的视频图片序列，对视频图片序列处理为统一大小；

对视频图片序列中的每张静态图片进行处理，先获得特征向量，然后进行相邻图片特征的部分特征偏移操作，获得序列特征；

对得到的序列特征进行融合提取关键帧的特征信息；

对提取的每个人的图片序列映射的特征采用相似性度量损失函数进行训练，然后根据该损失函数对神经网络模型参数进行优化求解；

检索时基于训练出的神经网络的模型，对视频进行一个嵌入到设定维特征的提取，之后对提取后特征与要检索的视频特征进行一个相似度的计算，选择相似度得分最高的几个特征，进而返回该特征所代表的视频片段。

进一步的技术方案，多个不同人的视频图片序列中，每个人图片序列中包含从该人视频图片序列中随机选出的设定张静态图片，每个人包含两个图片序列，以此来构成正例对，不同的人的图片序列构成反例对。

进一步的技术方案，利用卷积神经网络对视频图片序列进行处理，首先对视频数据进行解码处理，将一段视频变成一系列静态图像，然后采用卷积神经网络对静态图像提取特征，主要包括卷积、批量归一化、池化以及非线性激活函数操作，对中间特征进行时序偏移。

进一步的技术方案，对时序偏移操作采用一种固定卷积参数的卷积实现。

进一步的技术方案，对得到的序列特征进行融合提取关键帧的特征信息，具体为：对一段视频的所有帧的图片的最后的输出特征采用注意力机制的方法进行融合。

进一步的技术方案，进行融合时，首先采用逐元素相加的方式将每一帧图像的最后的嵌入特征进行相加，然后对求和后的特征采用全连接层进行降低维度，对降低维度后的特征通过全连接层升高维度，并获取注意力的权重，根据上述得到的注意力的权重与每帧图像的嵌入进行相乘再求和即可得到最后的一段视频的嵌入特征。

进一步的技术方案，当是同一个人的映射的特征的余弦相似度就表示为正例，不同人的映射的特征的余弦相似度表示的为反例，然后根据损失函数对卷积神经网络的模型参数进行优化求解，通过该损失函数对卷积神经网络的模型进行训练，用训练完成的模型作为视频特征的提取模型。

第二方面，公开了基于视频嵌入的视频人脸检索系统，包括：

特征提取模块，被配置为：获取多个不同人的视频图片序列，对视频图片序列处理为统一大小；

对得到的序列特征进行融合提取关键帧的特征信息；

神经网络模型训练模块，被配置为：对提取的每个人的图片序列映射的特征采用相似性度量损失函数进行训练，然后根据该损失函数对神经网络模型参数进行优化求解；

检索模块，被配置为：检索时基于训练出的神经网络的模型，对视频进行一个嵌入到设定维特征的提取，之后对提取后特征与要检索的视频特征进行一个相似度的计算，选择相似度得分最高的几个特征，进而返回该特征所代表的视频片段。

以上一个或多个技术方案存在以下有益效果：

本发明对输入视频序列图像帧数和大小没有要求，在用卷积、批量归一化、池化以及非线性激活函数等操作提取到中间特征之后。对中间特征进行时序偏移，对时序偏移操作采用一种固定卷积参数的卷积实现，本发明方法检索精度高、速度快、帧间特征利用充分，有效的解决了视频人脸检索的帧间信息利用不充分问题。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开实施例子卷积层特征没有进行偏移状态的示意图；

图2是本公开实施例子卷积层特征进行时序状态偏移的向示意图；

图3是本公开实施例子图4中block示意图，其中S表示的是特征的时序偏移部分；

图4是本公开实施例子单个视频的特征提取模块示意图；

图5是本公开实施例子图4中combine的结构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了基于视频嵌入的视频人脸检索方法，包括以下步骤：

步骤1：一次输入多个不同人的视频图片序列，每个人图片序列中包含从该人视频图片序列中随机选出的16张静态图片，每个人包含两个图片序列，以此来构成正例对，不同的人的图片序列构成反例对。输入静态图片被统一大小为高×宽为48×32。每个人的图片序列中的静态图片对应着图4中的x₁,x₂,…,x_t-1,x_t。xi代表的是用来训练的第i帧图片，对应于图4中的xi，图4是整体的模型架构图。

步骤2：利用卷积神经网络对一段视频解析成一样大小的一系列静态图片提取单帧视频特征，并对相邻帧的卷积神经网络提取的特征的中间特征进行部分特征的时序偏移，利用卷积神经网络提取特征主要分为两部分：卷积特征提取和中间特征的时序偏移。首先对视频数据进行解码处理，将一段视频变成一系列静态图像，然后采用卷积神经网络对静态图像提取特征，卷积神经网络中主要包括卷积、批量归一化、池化以及非线性激活函数等操作。对中间特征进行时序偏移，对时序偏移操作采用一种固定卷积参数的卷积实现。

具体的，图片序列中的每张静态图片经过图4中的若干个block，映射到成一个512维的特征向量。每张静态图片在被送入一系列block之前都会先经过一个卷积层、一个批量归一化层、一个激活层以及最大值池化层变成一个特征通道×高度×宽度为64×24×16的特征向量。在特征向量经过block时，先经过图3进行相邻图片特征的部分特征偏移操作，该特征偏移操作可以从图1和图2中看出，图1表示的是没有进行相邻图片特征偏移的示意图，图2表示的是进行了相邻图片特征偏移后的特征示意图。对于第一个和最后一个图片偏移特征部分因为另一个方向上没有相邻的图片特征，所以采用的是对其偏移部分进行补0。该偏移部分用公式表示如下：

式中

表示卷积操作，

表示中间特征

经过卷积核

卷积的输出，T表示中间特征图的时序维度大小，C表示中间特征图的特征通道维度大小，H表示中间特征图的高，W表示中间特征图的宽。其中卷积核是固定大小的3×1×1，其中时序维度的固定参数可表示为：

式中c_i表示第i个通道上的卷积核，W_T表示时序维度上的卷积核权重。经过多个block之后图片特征变成一个512×3×2的特征向量，然后经过一个均值池化层变成一个512维的特征向量。

步骤3：对步骤2中得到的序列特征(具体为图4中汇聚到combine模块输入的特征)进行融合提取关键帧的特征信息。具体对一段视频的所有帧的图片的最后的输出特征采用一种注意力机制的方法进行融合。

该方法首先采用逐元素相加的方式将每一帧图像的最后的嵌入特征(为每一个静态图片的嵌入特征，即图4中combine的输入的特征)进行相加，用公式表示如下：

其中

是第i帧图像经过卷积神经网络提取特征后嵌入的特征，Σ表示逐元素求和，

表示求和后的特征。

然后对求和后的特征采用全连接层进行降低维度，公式表示如下：

式中

表示降低维度后的特征，C′＝αC″，并且α>1，δ表示激活函数，这里采用的是ReLU激活函数，

表示批量归一化，

表示全连接层的权重。

对降低维度后的特征通过全连接层升高维度，并获取注意力的权重，公式表示如下：

w_att＝σ(Φ(W_atty_re))

式中

表示全连接层的权重，Φ表示reshape操作将全连接层的输出特征从

变成

σ表示激活函数，这里是softmax激活函数，在T时序这个维度计算softmax，

表示的是经过变换后激活的注意力的权重，将其表示成矩阵形式为：

w_att＝[w_att-1,w_att-2,...,w_att-T]

其中

根据上述得到的注意力的权重与每帧图像的嵌入进行相乘再求和即可得到最后的一段视频的嵌入特征，用公式表示如下：

表示最终的视频嵌入的特征。最终得到的特征是将一个人的图片序列的特征映射成为一个512维的特征。

步骤4：对步骤3中提取的每个人的图片序列映射的512维特征采用相似性度量损失函数进行训练。该损失函数公式如下：

式中P_i和N_i表示一个mini-batch中正例集合和反例集合，即一个mini-batch中属于同一类别的集合和两两不属于同一个类别的集合，S_ik表示正例集合和反例集合中两个特征向量的余弦相似度，λ表示相似度的阈值，α和β表示正例集合的相似性系数和反例集合的相似性系数，m表示mini-batch的大小，L_MS表示一个mini-batch中的所有损失的均值，训练模型使L_MS最小。这里mini-batch为16，两个人脸图片序列最后映射的512维度进行的余弦相似度计算，当是同一个人的映射的特征的余弦相似度就表示为正例，不同人的映射的特征的余弦相似度表示的为反例，然后根据该损失函数对卷积神经网络的模型参数进行优化求解。通过该损失函数对图4中的模型进行训练。用训练完成的模型作为视频特征的提取模型。

该损失函数可以根据训练集中正例和反例的比例调节公式中alpha和beta值来平衡正例和反例的损失值，而且其中的相似矩阵Sik可以根据正例集合的最小相似度和反例集合的最大相似度值进行动态的难例挖掘。

训练完成更新模型参数后，就可以建立视频特征的数据库，主键为提取到的视频特征，其余包含该特征对应的视频片段等相关信息。

具体的检索步骤主要是通过该方法训练出的神经网络的模型，然后对视频进行一个嵌入到d维特征的提取，之后对提取后特征与要检索的视频特征进行一个cosine相似度的计算，选择相似度得分最高的几个特征，进而返回该特征所代表的视频片段。

本申请端到端主要是指训练的过程是端到端的，对视频解码成静态图片后，用卷积神经网络对静态图片进行特征提取，然后将多帧静态图片的特征进行特征融合。这个多帧图片的特征融合主要是有两部分进行了融合，1)在用卷积提取图片的特征过程中，对提取的中间特征进行一个时序特征的偏移，进而实现了对帧间信息的融合；2)在用卷积提取的特征后，对这些特征采用文中说的那种注意力机制进行一个特征的融合，再次进行了帧间信息的融合，最后一段视频的静态图片的特征被融合成了一个d维度的特征，来代表这个视频的特征，然后用这个特征进行一个相似度的损失函数的训练。主要优点是充分利用了帧间的特征，然后提取特征的时候用的是2d卷积，计算量较小，便于实现。

需要说明的是，上述步骤中，步骤1)利用卷积神经网络提取单帧视频特征，并对相邻帧的卷积神经网络提取的特征的中间特征部分进行部分特征的时序偏移。

该步骤采用卷积神经网络提取特征，然后对提取到的中间部分的特征进行了时序特征的偏移操作。该步骤解决了帧间信息利用不充分的问题，如果仅仅是用卷积神经网络提取每个静态图片的特征，就没有利用到帧间的信息，本申请在中间的特征部分，进行了帧间特征偏移的操作，进而利用到了帧间的信息。同时，进行帧间特征的偏移并不需要增加计算量，只需要对偏移部分的特征进行一个用前一帧的特征替换当前帧的特征，然后再把当前帧的特征替换下一帧的对应位置，依次替换下去，就进行了帧间信息的传递。对于第一帧的部分，因为没有前一帧，本申请采用将对应部分进行一个补0操作。

步骤2)采用一种注意力机制的方式进行所有帧间的特征融合。

该步骤采用一个注意力机制的方式进行了帧间特征的最后的融合，对卷积神经网络提取到的特征，采用一种类似于自注意力机制的方式，计算出每帧特征对应位置的权重，然后通过逐元素相乘再加和的方式得到一个d维的特征，代表这段视频的特征。该步骤进一步的进行了帧间信息的融合，将提取到的特征最后都融合成一个d维特征。

步骤3)对融合后的视频特征采用相似性度量损失函数进行训练。

该步骤是对上述提取到d维特征通过一个相似度量的损失函数进行训练，更新卷积神经网络的权重。该申请中采用的cosine相似度量，所以训练的过程中对于多段视频提取的多个d维特征，如果两段视频中是同一个人，那么会使得他们的cosine值趋近于1，不是同一个人的趋近于0。该步骤主要是用来训练模型参数的步骤。

实施例二

本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施例子一中的方法的步骤。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述实施例子一中的方法的步骤。

实施例四

本实施例的目的是提供基于视频嵌入的视频人脸检索系统，包括：

对得到的序列特征进行融合提取关键帧的特征信息；

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本公开中的任一方法。

本领域技术人员应该明白，上述本公开的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本公开不限制于任何特定的硬件和软件的结合。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.基于视频嵌入的视频人脸检索方法，其特征是，包括：

对得到的序列特征进行融合提取关键帧的特征信息；

2.如权利要求1所述的基于视频嵌入的视频人脸检索方法，其特征是，多个不同人的视频图片序列中，每个人图片序列中包含从该人视频图片序列中随机选出的设定张静态图片，每个人包含两个图片序列，以此来构成正例对，不同的人的图片序列构成反例对。

3.如权利要求1所述的基于视频嵌入的视频人脸检索方法，其特征是，利用卷积神经网络对视频图片序列进行处理，首先对视频数据进行解码处理，将一段视频变成一系列静态图像，然后采用卷积神经网络对静态图像提取特征，主要包括卷积、批量归一化、池化以及非线性激活函数操作，对中间特征进行时序偏移。

4.如权利要求1所述的基于视频嵌入的视频人脸检索方法，其特征是，对时序偏移操作采用一种固定卷积参数的卷积实现。

5.如权利要求1所述的基于视频嵌入的视频人脸检索方法，其特征是，对得到的序列特征进行融合提取关键帧的特征信息，具体为：对一段视频的所有帧的图片的最后的输出特征采用注意力机制的方法进行融合。

6.如权利要求1所述的基于视频嵌入的视频人脸检索方法，其特征是，进行融合时，首先采用逐元素相加的方式将每一帧图像的最后的嵌入特征进行相加，然后对求和后的特征采用全连接层进行降低维度，对降低维度后的特征通过全连接层升高维度，并获取注意力的权重，根据上述得到的注意力的权重与每帧图像的嵌入进行相乘再求和即可得到最后的一段视频的嵌入特征。

7.如权利要求1所述的基于视频嵌入的视频人脸检索方法，其特征是，当是同一个人的映射的特征的余弦相似度就表示为正例，不同人的映射的特征的余弦相似度表示的为反例，然后根据损失函数对卷积神经网络的模型参数进行优化求解，通过该损失函数对卷积神经网络的模型进行训练，用训练完成的模型作为视频特征的提取模型。

8.基于视频嵌入的视频人脸检索系统，其特征是，包括：

对得到的序列特征进行融合提取关键帧的特征信息；

9.一种计算装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现上述权利要求1-7任一所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时执行上述权利要求1-7任一所述的方法的步骤。