CN113627218A

CN113627218A - 基于视频数据的人物识别方法及装置

Info

Publication number: CN113627218A
Application number: CN202010381421.9A
Authority: CN
Inventors: 吴斌; 王文哲; 李芳涛; 刘子荷
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2021-11-09

Abstract

本发明公开了一种基于视频数据的人物识别方法及装置，其中，该方法包括：在待识别视频中，依据时间均匀抽取多帧图像作为关键帧；对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪，对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化；对每个视觉线索，将每帧图像的特征进行融合，得到视频级别的特征；对不同视觉线索对应的视频级别的特征进行融合，得到待识别视频中人物的特征表达；通过待识别视频中人物的特征表达对视频中的人物进行识别。在给定一个视频片段时，TMAM模型输出就是视频中人物的身份，解决了无约束视频数据中的人物识别问题。

Description

基于视频数据的人物识别方法及装置

技术领域

本发明涉及图像识别技术领域，特别涉及一种基于视频数据的人物识别方法及装置。

背景技术

随着信息时代的到来，视频数据已经主导了互联网的流量。视频语义分析和内容理解在实际应用中有着迫切的需求。对视频中的人物身份进行识别在公安监察、社会管理、信息检索、娱乐生态等领域都拥有巨大的社会和商业价值。

作为计算机视觉领域的一个关键问题，图像和视频数据中的人物识别问题是当前的一个研究热点。已有的图像和视频数据中的人物识别方案主要包括以下3类：

(1)基于单一视觉线索的人物识别方法

对于多媒体数据的人物识别问题，大多数研究主要关注基于单一视觉线索的人物识别，其主要包括人脸识别和行人重识别问题。其中，人脸识别即基于人的脸部特征信息进行身份识别，作为近年来应用最广泛的研究方向之一，人脸识别算法取得了大量突破性的成果，并分别在人脸验证和识别的标准数据集中达到了极高的准确率。例如，ArcFace算法在LFW数据集上取得了99.83％的人脸验证准确率，甚至超越了人类的表现；行人重识别算法则旨在识别一定时间内不同镜头间的图像或视频序列中行人的身份，特别地，AlignedReID++算法在行人重识别标准数据集Market1501和CUHK03上也取得了超越人类的效果。

但是，基于单一视觉线索的人物识别方法对单一视觉环境依赖过于敏感，因此无法处理无约束视频环境下的人物识别问题。具体来说，在无约束环境中，人脸识别模型无法解决实际应用场景中人脸模糊、遮挡，甚至不可见的情况，而行人重识别模型则无法应对实际应用场景中人物服饰变化、视图变化的情况。

(2)基于多视觉线索的图像人物识别方法

部分研究关注于基于多视觉线索的图像人物识别方法。目前，该研究重点关注相册中的人物识别问题。其中，Zhang等人构建了一个PIPA数据集用于该问题的研究，并组合了3个视觉识别器，来分别针对人物的人脸、身体和姿态线索来对人物进行识别。进一步的，一些研究在此基础上探索了更多的视觉线索，例如头部、上半身、场景等，甚至引入了年龄、性别、社交等高层语义信息来辅助相册中人物的识别。

基于多视觉线索的图像人物识别方法能够综合多种不同的视觉线索信息来识别无约束环境下图像中的人物。然而，对于视频数据而言，直接应用这些基于图像的方法将会损失视频中的时序信息，并且复杂性较高。

(3)视频人物识别方法

目前针对视频中人物识别问题的研究仍相对较少。Huang等人将视频中每帧的人脸特征作为输入，引入数据增强等方法，最后将视频片段每帧的预测结果通过加权平均的方式进行融合作为最终的预测结果。

但是，已有的视频人物识别方法仅仅使用人脸信息或者采用简单的级联方法来处理多线索信息，并使用求平均值或者启发式加权平均的方法来融合视频不同帧的信息，这些方法显然过于简单，难以综合利用视频中复杂的多线索视觉信息和时序信息。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于视频数据的人物识别方法，该方法解决了无约束视频数据中的人物识别问题。

本发明的另一个目的在于提出一种基于视频数据的人物识别装置。

为达到上述目的，本发明一方面实施例提出了一种基于视频数据的人物识别方法，包括：

在待识别视频中，依据时间均匀抽取多帧图像作为关键帧；

对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪，对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化；

对每个视觉线索，将每帧图像的特征进行融合，得到视频级别的特征；

对不同视觉线索对应的所述视频级别的特征进行融合，得到所述待识别视频中人物的特征表达；

通过所述待识别视频中人物的特征表达对视频中的人物进行识别。

本发明实施例的基于视频数据的人物识别方法，通过在待识别视频中，依据时间均匀抽取多帧图像作为关键帧；对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪，对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化；对每个视觉线索，将每帧图像的特征进行融合，得到视频级别的特征；对不同视觉线索对应的视频级别的特征进行融合，得到待识别视频中人物的特征表达；通过待识别视频中人物的特征表达对视频中的人物进行识别。由此，在给定一个视频片段时，TMAM模型输出就是视频中人物的身份，解决了无约束视频数据中的人物识别问题。

另外，根据本发明上述实施例的基于视频数据的人物识别方法还可以具有以下附加的技术特征：

在本发明的一个实施例中，所述对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪，包括：

利用在MS-COCO预训练的Mask R-CNN模型对人物人体进行检测；

利用在HollywoodHeads上预训练的SSD模型对头部进行检测；

利用MTCNN模型对人脸进行检测和对齐；

上半身图像基于人体和头部的位置利用几何规则进行确定。

在本发明的一个实施例中，对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化包括：利用ArcFace模型对人脸特征进行提取，利用在ImageNet上预训练的ResNet模型对上半身和整张图像的特征进行提取。

在本发明的一个实施例中，对每个视觉线索，将每帧图像的特征进行融合，得到视频级别的特征，包括：

通过时序注意力模型对每帧图像进行评估，得到每帧图像的权重分数，根据所述权重分数对特征进行加权融合，得到视频级别的特征。

在本发明的一个实施例中，对每个视觉线索，将每帧图像的特征进行融合，得到视频级别的特征，具体包括：

所述时序注意力模型的输入为：

其中，F代表关键帧的数目，D代表特征向量的长度；

将X输入到一个全连接层和Softmax层中，获得质量分数矩阵Z：

Y＝W_FX+b，

其中，

为训练参数，z_i表示Z矩阵的第i行，即第i帧对应的质量分数向量；

得到输出特征向量

其中，⊙代表矩阵的元素积运算，x_i表示X矩阵的第i行，即第i帧对应的特征向量。

在本发明的一个实施例中，对不同视觉线索对应的所述视频级别的特征进行融合，得到所述待识别视频中人物的特征表达，包括：

通过多线索注意力模型学习所述待识别视频中不同视觉线索的重要性差异，并依据所述多线索注意力模型生成权重分数，根据所述权重分数对不同视觉线索的特征以加权级联的方式进行融合，得到所述待识别视频中人物的特征表达。

在本发明的一个实施例中，所述多线索注意力模型的输入为：

其中，N代表选取的视觉线索的数目，D代表特征向量的长度，x_i表示X矩阵的第i行，即第i个线索输出的对应的视频级别特征；

将X输入到通过一个全连接层和一个Softmax层来得到N个线索对应的权重：

Y＝W_NX+b

其中，

是训练参数，y_i,j表示Y矩阵的第i行第j列的对应元素，z_i表示Z矩阵的第i行，即第i个视觉线索对应的权重分数；

得到输出特征向量o：

o_i＝z_ix_i

o＝concat(o₁,o₂,…，o_N)

其中，concat()表示多个向量的级联操作。

在本发明的一个实施例中，通过所述待识别视频中人物的特征表达对视频中的人物进行识别，包括：

利用一个3层多层感知机模型进行分类，并使用了Dropout和批标准化方法。

在本发明的一个实施例中，根据对模型效果和复杂度的要求调整所述关键帧的数目。

为达到上述目的，本发明另一方面实施例提出了一种基于视频数据的人物识别装置，包括：

抽取模块，用于在待识别视频中，依据时间均匀抽取多帧图像作为关键帧；

特征提取模块，用于对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪，对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化；

第一融合模块，用于对每个视觉线索，将每帧图像的特征进行融合，得到视频级别的特征；

第二融合模块，用于对不同视觉线索对应的所述视频级别的特征进行融合，得到所述待识别视频中人物的特征表达；

识别模块，用于通过所述待识别视频中人物的特征表达对视频中的人物进行识别。

本发明实施例的基于视频数据的人物识别装置，通过在待识别视频中，依据时间均匀抽取多帧图像作为关键帧；对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪，对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化；对每个视觉线索，将每帧图像的特征进行融合，得到视频级别的特征；对不同视觉线索对应的视频级别的特征进行融合，得到待识别视频中人物的特征表达；通过待识别视频中人物的特征表达对视频中的人物进行识别。由此，在给定一个视频片段时，TMAM模型输出就是视频中人物的身份，解决了无约束视频数据中的人物识别问题。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于视频数据的人物识别方法流程图；

图2为根据本发明一个实施例的基于视频数据的人物识别方法流程框架图；

图3为根据本发明一个实施例的基于视频数据的人物识别装置结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于视频数据的人物识别方法及装置。

首先将参照附图描述根据本发明实施例提出的基于视频数据的人物识别方法。

图1为根据本发明一个实施例的基于视频数据的人物识别方法流程图。

如图1所示，该基于视频数据的人物识别方法包括以下步骤：

步骤S1，在待识别视频中，依据时间均匀抽取多帧图像作为关键帧。

步骤S2，对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪，对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化。

可以理解的是，本发明的任务识别方法是基于时序和多线索注意力机制的端到端的视频人物识别模型(Temporal and Multi-cue Attention Model，TMAM)，通过充分挖掘并融合视频中的时序和多视觉线索信息，从而提高视频中人物实体识别的效果。在模型训练阶段，选择交叉熵作为损失函数，以端到端的方式进行。

首先是对待识别视频的预处理和特征提取，TMAM模型以一个视频片段作为输入。将视频片段依据时间均匀地抽取F帧图像作为关键帧(可根据对模型效果和复杂度的要求进行调整，通常F取16即可)；接着，对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪。

具体地，分别选择在MS-COCO预训练的Mask R-CNN模型对人体进行检测，在HollywoodHeads上预训练的SSD模型对头部进行检测，选择MTCNN模型对人脸进行检测和对齐，上半身图像则可以基于人体和头部的位置利用几何规则进行确定。

对裁剪出来的人脸图像、上半身图像和整张图像进行特征提取和特征归一化。

具体地，可以选择ArcFace模型对人脸特征进行提取，选择在ImageNet上预训练的ResNet模型对上半身和整张图像的特征进行提取。特别地，如果某身体部位未检测到或者不存在，则选取全零向量作为其特征。

步骤S3，对每个视觉线索，将每帧图像的特征进行融合，得到视频级别的特征。

对每个视觉线索，将每帧图像的特征进行融合，得到视频级别的特征，包括：

通过时序注意力模型对每帧图像进行评估，得到每帧图像的权重分数，根据权重分数对特征进行加权融合，得到视频级别的特征。

对于每个视觉线索(身体部位)，需要将视频中每帧的特征进行融合，得到一个视频级别的特征。在这里，引入一个时序注意力模型来自动评估视频各帧的重要性，并依据得到的权重分数将它们进行加权融合。具体来说，时序注意力模型的输入为：

其中F代表采样关键帧的数目，D代表特征向量的长度。接着，X被输入到一个全连接层和Softmax层中，来获得质量分数矩阵Z：

Y＝W_FX+b

其中，

是训练参数，z_i表示Z矩阵的第i行，即第i帧对应的质量分数向量。最后，通过下列公式得到输出特征向量

其中，⊙代表矩阵的元素积(element-wise)运算，x_i表示X矩阵的第i行，即第i帧对应的特征向量。

综上所述，对于每个视觉线索，时序注意力模型分别为其对应的视频的每一个关键帧生成了一个质量分数向量，并将各帧依据其质量分数进行加权聚合，从而能够综合不同帧之间的互补信息，利用质量较高的帧来弥补质量较低的帧的影响。

步骤S4，对不同视觉线索对应的视频级别的特征进行融合，得到待识别视频中人物的特征表达。

对不同视觉线索对应的视频级别的特征进行融合，得到待识别视频中人物的特征表达，包括：

通过多线索注意力模型学习待识别视频中不同视觉线索的重要性差异，并依据多线索注意力模型生成权重分数，根据权重分数对不同视觉线索的特征以加权级联的方式进行融合，得到待识别视频中人物的特征表达。

由上一步骤得到了视频中每个视觉线索对应的视频级别特征，需要对不同线索的特征进行融合，得到视频中人物最终的特征表达。在这里，引入了一个多线索注意力模型来自动地学习对于该视频不同视觉线索的重要性差异，并依据模型生成的权重对不同视觉线索的特征进行增强并级联。具体来说，多线索注意力模型的输入为：

其中N代表选取的视觉线索的数目，D代表特征向量的长度。x_i表示X矩阵的第i行，即第i个线索经过对应的视频级别特征。接着，主要通过一个全连接层和一个Softmax层来得到N个线索对应的权重：

Y＝W_NX+b

其中，

是训练参数，y_i,j表示Y矩阵的第i行第j列的对应元素,z_i表示Z矩阵的第i行，即第i个视觉线索对应的重要性分数。最后，通过下列公式得到输出特征向量o：

oi＝＝zixi

o＝concat(o₁,o₂,…，o_N)

其中，concat()表示多个向量的级联操作。

综上所述，多线索注意力模型为每一个视觉线索自适应地计算其重要性，并通过该重要性分数对不同线索的信息以加权级联的方式进行融合，得到了最终的视频人物特征表达。

步骤S5，通过待识别视频中人物的特征表达对视频中的人物进行识别。

得到视频中人物最终的特征表达之后，通过该特征对视频中的人物进行识别。具体来说，使用一个3层MLP模型进行分类，并使用了Dropout和批标准化技术。

如图2所示，展示了视频数据的人物识别方法的流程，解决了无约束视频数据中的人物识别问题，在给定一个视频片段(默认只含有一个人物)时，TMAM模型输出就是视频中人物的身份。

基于TMAM模型，新标注了一个视频人物识别数据集(由约5000段视频组成，划分为训练集、验证集和测试集，每个视频片段仅包含一个人物)上进行了相关的对比实验，结果如表1所示：

表1对比实验结果

(1)人脸+MLP：Huang等人的方法(为方便对比，移除了数据增强和模型集成部分)，该方法仅以图像级别的人脸特征作为输入，利用MLP模型进行分类，利用视频片段各帧预测结果向量的平均值作为视频的最终预测结果；

(2)多线索+MLP：将(1)中的输入由人脸特征替换为多视觉线索特征；

(3)TMAM-时序：TMAM的简化版本，将TMAM中的多线索信息建模方法替换为了级联；

(4)TMAM-多线索：TMAM的简化版本，将TMAM中的时序建模方法替换为了平均池化；

(5)TMAM-完整：TMAM的完整版本。

实验结果表明，相比已有的视频人物识别方法，TMAM模型中的时序和多线索信息建模方法均能大大提高视频中人物识别的效果。

根据本发明实施例提出的视频数据的人物识别方法，通过在待识别视频中，依据时间均匀抽取多帧图像作为关键帧；对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪，对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化；对每个视觉线索，将每帧图像的特征进行融合，得到视频级别的特征；对不同视觉线索对应的视频级别的特征进行融合，得到待识别视频中人物的特征表达；通过待识别视频中人物的特征表达对视频中的人物进行识别。由此，在给定一个视频片段时，TMAM模型输出就是视频中人物的身份，解决了无约束视频数据中的人物识别问题。

其次参照附图描述根据本发明实施例提出的基于视频数据的人物识别装置。

如图3所示，该基于视频数据的人物识别装置包括：抽取模块100、特征提取模块200、第一融合模块300、第二融合模块400和识别模块500。

其中，抽取模块100，用于在待识别视频中，依据时间均匀抽取多帧图像作为关键帧。

特征提取模块200，用于对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪，对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化。

第一融合模块300，用于对每个视觉线索，将每帧图像的特征进行融合，得到视频级别的特征。

第二融合模块400，用于对不同视觉线索对应的视频级别的特征进行融合，得到待识别视频中人物的特征表达。

识别模块500，用于通过待识别视频中人物的特征表达对视频中的人物进行识别。

需要说明的是，前述对方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

根据本发明实施例提出的基于视频数据的人物识别装置，通过在待识别视频中，依据时间均匀抽取多帧图像作为关键帧；对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪，对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化；对每个视觉线索，将每帧图像的特征进行融合，得到视频级别的特征；对不同视觉线索对应的视频级别的特征进行融合，得到待识别视频中人物的特征表达；通过待识别视频中人物的特征表达对视频中的人物进行识别。由此，在给定一个视频片段时，TMAM模型输出就是视频中人物的身份，解决了无约束视频数据中的人物识别问题。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。