CN111507311A

CN111507311A - 一种基于多模态特征融合深度网络的视频人物识别方法

Info

Publication number: CN111507311A
Application number: CN202010444043.4A
Authority: CN
Inventors: 陈建蓉; 史颖欢; 高阳
Original assignee: Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd; Nanjing University
Current assignee: Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd; Nanjing University
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-08-07
Anticipated expiration: 2040-05-22
Also published as: CN111507311B

Abstract

本发明公开了一种基于多模态特征融合深度网络的视频人物识别方法，是专门针对多模态人物视频特征数据的目标识别问题而提出的一种的深度学习目标识别多模态融合算法。该算法的网络结构由多个单模态多层感知器识别模块和一个多模态特征融合模块组成。该算法先预处理视频生成的多模态数据，使用预处理后的不同模态数据训练多个深度网络，在此基础上，再将多个子网络生成的特征加权融合，通过特征加权融合模块结合不同的模态的模型以达到更好的识别效果。本发明在公开视频人物数据集（iQIYI‑VID‑2019）上，对于预处理视频生成的多模态特征，使用多模态特征集权融合策略构建视频人物目标识别器，无需多模型集成，单个模型的平均精度均值达到了89.52%。

Description

一种基于多模态特征融合深度网络的视频人物识别方法

技术领域

本发明涉及一种基于多模态特征融合深度网络的视频人物识别方法，属于计算机应用领域。

背景技术

互联网迅速发展的今天，各大视频网站拥有了海量视频数据和亿级在线视频用户数。与传统的图像相比，视频内容信息更加丰富。视频人物识别技术拥有了广泛的应用场景，例如应用于广告投放、用户个性化定制的智能推荐场景；用于背景音乐、表情包生成、短视频合成的智能创作场景；暴力血腥、涉黄等违规视频的智能审核场景。

人物识别成为了热门的计算机应用方向，随着深度学习技术，人脸识别、语音识别、姿态识别、步态识别等多模态识别技术的发展，人物识别精度大幅提升。近年来，在静态图片数据集上，人物识别相关技术已日趋完善，计算机人脸识别精度甚至超过了人类的识别能力。但是视频数据中各模态信息之间的关联性和可迁移性，使得原本依靠单一信息的模式识别的传统方法在视频人物识别的精度不高，原因是每个单独模态的特征都不足以涵盖人物识别的所有要素。

随着视频采集及存储设备的广泛采用，如何充分利用多模态信息，从而进一步提高模型的视频人物识别能力，有关视频人脸识别与检索的应用研究正受到越来越多的关注。推动人物识别在视频智能分析产业中的广泛应用，视频名人识别在视频人物识别中拥有得天独厚的条件。海量的影视视频数据大大简化了数据获取难度，为人物识别能力提升提供了很好的数据基础。但不同角色化妆、不同表情、不同光照条件、拍摄角度局部遮挡等，能够很好的重现了非受限的实际场景，充分体现了人物识别技术的挑战性。

发明内容

本发明针对多模态视频人物识别，提出了一种基于多模态特征融合深度网络的方法，以解决现有技术存在的上述问题。

一种基于多模态特征融合深度网络的视频人物识别方法，包括如下步骤：

步骤(1)、选取多模态人物视频特征数据集，并划分训练集和测试集，人物视频特征数据集包含人脸特征、头部特征、身体特征和音频特征；

步骤(2)、对特征数据预处理：对于不同模态，针对性地使用不用的处理方法；

步骤(3)、在深度学习框架Pytorch中，构建用于单模态数据的多层感知器深度学习网络单元；

步骤(4)、基于多层感知器网络单元，在深度学习框架中进一步构建完整的多模态特征融合深度网络；

步骤(5)、基于训练数据集上预处理后的数据，使用训练加权融合系数，训练多模态特征融合深度网络，待模型收敛后保存模型参数；

步骤(6)、使用验证加权融合系数，将训练好的深度网络在测试数据集上进行视频任务识别，计算识别结果的平均精度均值，从而为了评估人物识别检索性能。

在进一步的实施例中，所述步骤(2)特征数据预处理，人脸特征首先计算特征的L2范数，旨在体现该人脸特征的质量，过滤L2范数较小的特征后，取质量分数加权平均结果作为最终网络使用特征，

头部特征、身体特征取平均结果，

当音频特征缺失，在训练集中随机抽取一个音频特征值补上。

在进一步的实施例中，所述步骤(3)用于单模态数据的多层感知器深度学习网络单元，使用了三层感知机，中间层宽为1024，输入输出均为512维，三层感知机后使用了残差连接计算。针对人脸特征、头部特征、身体特征的网络使用了ArcFaceLoss的分类模块，音频模态则使用一层全连接分类。

在进一步的实施例中，所述步骤(4)多模态特征融合深度网络，主要实践的数据集会涉及了噪声身份，在特征融合后增加了一个比目标人物类别数目加一的分类器，噪声身份均被视作一个身份。

在进一步的实施例中，所述步骤(5)(6)多模态特征融合策略，使用多模态(人脸特征、头部特征、身体特征和音频特征)训练模型，使用部分模态测试(人脸特征、头部特征)重新调整权重进行测试，有助于结果的提升；由于四个模态的质量不等，因此调整不同模态的比例具有帮助提高整体模型的学习能力的作用。

在进一步的实施例中，所述步骤(6)评价指标为前一百的平均准确率，训练集中每个人物在测试集中检索到的相应人物视频的平均准确率的平均值。

本发明在不使用多个复杂模型集成学习的情况下，基于多模态特征融合加权策略。在最大的公开的视频人物数据集(iQIYI-VID-2019)上，无多模型集成的情况下，单个模型的平均精度均值达到了89.52％。

附图说明

图1本发明方法构建图。

图2本发明中单模态子网络结构图。

图3本发明中网络结构图。

图4本发明中多模态特征融合策略示意图。

具体实施方式：

为细致展示本发明的目的、特征和优点，下面将结合附图和具体的实施案例来对本发明做进一步详细说明。

视频人物识别存在如下难点：

1)视频数据量巨大：原始视频数量多，时长分辨率等参差不齐。公开的视频人物数据集包含在复杂场景下10034名明星人物、200小时、20万条影视剧与短视频。数据量非常大，这些挑战对运行模型的环境的计算能力有要求，模型复杂度会有所限制。

2)如何对视频片段中的人物进行表示：单一信息的模式识别的目标相对容易表示，而多模态数据中同一视频可能包含多个人物。用高维度的特征表示视频片段中的人物的准确程度，直接关系到模型对视频人物的学习能力。

3)不同模态数据质量不一样：视频的分辨率不同。不同视频帧的人脸质量不一样，人脸识别的准确性受多个可逆因素的影响，例如，人脸姿势变化，遮挡和光照变化等。不同模态数据部分缺失等问题，例如有的视频片段没有声音无法提取音频特征。

如图1所示，本发明是专门针对多模态人物视频特征数据的目标识别问题而提出的一种的深度学习目标识别多模态融合算法。在模型训练阶段包括如下具体步骤：

步骤(1)选取多模态人物视频特征数据集，并划分训练集和测试集，人物视频特征数据集包含人脸特征、头部特征、身体特征和音频特征。

步骤(2)对多模态特征数据进行预处理。

步骤(3)如图2所示，在深度学习框架Pytorch中，构建用于单模态数据的多层感知器深度学习网络单元。

步骤(4)如图3所示，基于多层感知器网络单元，在深度学习框架中进一步构建完整的多模态特征融合深度网络。

步骤(5)如图4所示，基于训练数据集上预处理后的数据，使用训练加权融合系数α_1＝1,α_2＝0.5,α_3＝0.05,α_4＝0.1训练多模态特征融合深度网络，待模型收敛后保存模型参数。

步骤(6)如图4所示，在步骤(5)保存的模型中，使用验证加权融合系数β_1＝1,β_2＝0.1，将训练好的深度网络在测试数据集上进行视频任务识别，生成最终的测试结果。

本发明提出了一种基于多模态特征融合深度网络的视频人物识别方法，本发明包括如下若干部分：

1)多模态特征(人脸特征、头部特征、身体特征和音频特征)数据预处理。

2)用于单模态数据的多层感知器深度学习网络单元。

3)基于多层感知器网络单元，构建完整的多模态特征融合深度网络。

4)多模态特征融合策略。

1、多模态特征预处理模块:

数据预处理系本发明的算法流程重要组成部分。以在公开的视频人物数据集(iQIYI-VID-2019)上的实践为例子，该视频人物数据集提供了人脸特征、头部特征、身体特征和音频特征，多模态特征数据预处理的具体流程如下：

a)以人脸特征的视频标签名为键，构造map映像。

b)缺少人脸特征的视频被跳过，直接丢弃不用于训练。该数据集每个视频片段都预先提取了若干人脸特征、头部特征、身体特征，每段视频理论上会生成一个512维度的音频特征值。

c)人脸特征计算L2范数，用于去除模糊人脸。模糊姿态或极端的人脸L2范数小。过滤较小的L2范数，可以去除他们的极端差异性。过滤后取视频中所有帧的人脸特征的加权平均结果，权重为该数据集提供的人脸特征质量分数。

d)头部特征、身体特征分别取视频中所有帧的头部特征、身体特征的平均值，如果缺少头部特征、身体特征，直接用c)中加权平均结果补全。

e)如果某个视频片段缺少音频特征，则从训练集中随机抽取一个音频特征值作为该视频的音频特征，完成多模态补全。

2、多层感知器深度学习网络单元：

本发明每个模态的基本模型中使用了多层感知器。多层感知器(Multi-layerPerceptron,缩写MLP)是一种前向结构的人工神经网络，映射一组输入向量到一组输出向量。此基本模型如图2所示。该模型的细节如下：多层感知器层数为三层，输入层特征为512维。本发明中将隐藏层的尺寸设置为1024维。除了输入节点，每个节点都是一个带有非线性激活函数的神经元。批标准化层在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。本发明的模型中使用到了非线性激活函数的是使用PReLU(带参数的整流线性单元Parametric Rectified Linear Unit)。模型中间加入Dropout层，防止模型过拟合。输出层的特征同样为512维，经过多层感知器的特征与输入特征相加，完成残差连接操作。

3、多模态特征融合深度网络：

基于所述多层感知器深度学习网络单元，本发明构建了一个多模态学习的并行的网络结构。充分利用了四个模态的特征信息。如图3所示，简单的来说，本发明使用多模态(人脸特征、头部特征、身体特征和音频特征)训练模型，使用部分模态测试(人脸特征、头部特征)重新调整权重进行测试。

对于每种模态，我们都设计了与2.中描述的模型相似的结构。人脸特征、头部特征、身体特征具有很高的相关性，这三个特征都使用相同的模型结构，均将人脸识别目前应用最广的最好的ArcFaceloss用作损失函数且使用了ArcFace的分类模块。对于音频特性，使用一个全连接层作为分类器。经过四个并行的子模型之后，我们得到了四个相同维度的输出(以iQIYI-VID-2019为例子，将得到四个10034维的子网络分类结果输出)。四个输出的加权和被认为是最终的输出。将输出融合后，利用交叉熵损失来计算真实数据与网络输出之间的损失。从最后的softmax层，计算梯度并且反向传播到四个模态的子网络。

4、多模态特征融合策略：

本发明设计了一个多模态学习策略，有效地提高所述深度网络学习能力。如图4所示，简单的来说，本发明使用多模态(人脸特征、头部特征、身体特征和音频特征)训练模型，使用部分模态测试(人脸特征、头部特征)重新调整权重进行验证测试。

Output_train＝α₁*O_face+α₂*O_head+α₃*O_body+α₄*O_audia

其中O_face，O_head，O_body，O_audio代表了人脸特征、头部特征、身体特征和音频特征自网络的分类结果，α₁，α₂，α₃，α₄代表了各个子网络分类结果占最终输出结果的四个权值。在验证评估阶段，本发明使用相同的模型，但是改变输出的权重来微调结果。

Output_test＝β₁*O_face+β₂*O_head+β₃*O_body+β₄*O_audio

在相同的数据集中，设置了比较不同参数的训练验证策略，实验结果表明：1)人脸特征和头部特征质量高，权值较大时平均精度均值较高；2)训练阶段使用特征的模态越多，验证的效果越好；3)验证阶段不使用身体特征和音频特征，可以使得检索的准确率提高，即：Output_test＝β₁*O_face+β₂*O_head。

最终，本发明在不使用多个复杂模型集成学习的情况下，训练加权融合系数α₁＝1，α₂＝0.5α₃＝0.05，α₄＝0.1，验证加权融合系数β₁＝1，β₂＝0.1，仅使用一个的模型得到了平均精度均值89.52％的结果(数据集：iQIYI-VID-2019)。

Claims

1.一种基于多模态特征融合深度网络的视频人物识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于多模态特征融合深度网络的视频人物识别方法，其特征在于，所述步骤(2)特征数据预处理，人脸特征首先计算特征的L2范数，过滤L2范数小于预定值的特征后，取质量分数加权平均结果作为最终网络使用特征，

式中，F_face为最终用于训练的人脸特征，n为视频片段经过L2范数筛选之后的帧数；i为筛选后视频片段的帧数序列，

为第i帧中的原始人脸特征值，

为对应帧直接从数据集特征文件中获得原始质量分数，取值的范围大多在0到200之间；

头部特征、身体特征取平均结果，

式中，F_head为最终用于训练的头部特征，

为视频片段第i帧中的原始头部特征值，F_body为最终用于训练的身体特征，

为视频片段第i帧中的原始身体特征值。n为视频片段帧数。

3.根据权利要求1所述的一种基于多模态特征融合深度网络的视频人物识别方法，其特征在于，所述步骤(3)用于单模态数据的多层感知器深度学习网络单元，使用了三层感知机，中间层宽为1024，输入输出均为512维，三层感知机后使用了残差连接计算。针对人脸特征、头部特征、身体特征的网络使用了ArcFace Loss的分类模块，音频模态则使用一层全连接分类。

4.根据权利要求1所述的一种基于多模态特征融合深度网络的视频人物识别方法，其特征在于，所述步骤(4)多模态特征融合深度网络，主要实践的数据集会涉及了噪声身份，在特征融合后增加了一个比目标人物类别数目加一的分类器，噪声身份均被视作一个身份。

5.根据权利要求1所述的一种基于多模态特征融合深度网络的视频人物识别方法，其特征在于，所述步骤(5)和步骤(6)多模态特征融合策略，使用多模态训练模型，使用部分模态测试重新调整权重进行测试。

6.根据权利要求1所述的一种基于多模态特征融合深度网络的视频人物识别方法，其特征在于，所述步骤(6)评价指标为前一百的平均准确率。