CN113298015B

CN113298015B - 基于图卷积网络的视频人物社交关系图生成方法

Info

Publication number: CN113298015B
Application number: CN202110646096.9A
Authority: CN
Inventors: 徐童; 陈恩红; 吴世伟; 陈卓; 陈力以; 何向南
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2022-09-06
Anticipated expiration: 2041-06-10
Also published as: CN113298015A

Abstract

本发明公开了一种基于图卷积网络的视频人物社交关系图生成方法，结合视觉信息、文本信息以及音频信息，能够准确的从视频中生成出人物角色之间的社交关系图。并且，在电影数据集上进行了人物社交关系图的验证，结果表明本方案在客观评价指标上取得了突出的效果。

Description

基于图卷积网络的视频人物社交关系图生成方法

技术领域

本发明涉及计算机视觉和自然语言处理领域，尤其涉及一种基于图卷积网络的视频人物社交关系图生成方法。

背景技术

视频中人物的社交关系是视频理解的重要基础之一，它既可以帮助观众更好地理解视频内涵，也将支撑许多视频相关的应用，如视频标注、视频检索和视觉问答等。传统的方法主要分析可由视觉内容直接体现的空间或动作关系等，很少涉及到更高层的语义信息，如视频中人物社交关系图的生成。

与此同时，现有的视频分析工作主要针对人工剪裁的富含语义的图片或短视频，但是在现实场景的长视频中，往往却包含着大量与人物关系无关的信息，不仅场景和人物频繁切换，社交关系的呈现方式也更为复杂。

更为重要的是，人物关系事实上并不是相互独立的，而是彼此关联并形成完整的社交关系网络的，而网络中的关系往往通过“三元闭包”关系而存在着相互佐证、相互强化的作用，但现有技术并没有充分利用这一信息。因此，现有技术往往难以取得令人满意的效果。

发明内容

本发明的目的是提供一种基于图卷积网络的视频人物社交关系图生成方法，可以精确地从视频中生成人物角色之间的社交关系图。

本发明的目的是通过以下技术方案实现的：

一种基于图卷积网络的视频人物社交关系图生成方法，包括：

将输入的完整视频进行采样与分割，得到若干等长的子视频帧序列，并对每一子视频帧序列各自进行人物角色的检测及重识别，再将检测结果与重识别输入至人物社交关系图生成模型；

所述人物社交关系图生成模型，采用帧级别的图卷积网络对每一子视频帧序列中的每一帧图像中人物角色特征、人物对特征与相应本文特征进行信息传播，得到增强的人物角色特征与人物对特征，并通过时序积累，得到每一子视频帧序列中所有帧累积的人物角色特征与人物对特征，再采用片段级别的图卷积网络进行信息传播，得到片段级别的增强表征后的人物对特征；

训练阶段，利用片段级别的增强表征后的人物对特征对所述人物社交关系图生成模型进行训练；

推理阶段，对于每一子视频帧序列，利用片段级别的增强表征后的人物对特征、以及提取的子视频帧序列的视频特征、音频特征与文本特征生成片段级别的人物社交关系图，通过迭代得到整个视频的人物社交关系图；其中，每次迭代合并两个人物社交关系图，如果两个人物社交关系图中两个人物角色特征的相似度大于阈值，则认为属于同一个人物角色。

由上述本发明提供的技术方案可以看出，结合视觉信息、文本信息以及音频信息，能够准确的从视频中生成出人物角色之间的社交关系图。并且，在电影数据集上进行了人物社交关系图的验证，结果表明本方案在客观评价指标上取得了突出的效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于图卷积网络的视频人物社交关系图生成方法的框架图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

现有技术所存在的技术要问题主要在于：将视频中出现的所有人物角色视为相互独立，只是独立的识别两个人物之间的社交关系，没有对整体进行图结构的建模并充分利用关系之间的相互强化作用。因此，从整体社交关系图生成的角度来建模是很有价值的，通过生成社交关系图可以更加准确的挖掘出人物之间的社交关系，且能够对不同模态之间的信息进行更细粒度的融合与建模。

本发明实施例提供一种基于图卷积网络的视频人物社交关系图生成方法，如图1所示，其主要包括：

推理阶段，对于每一子视频帧序列，利用片段级别的增强表征后的人物对特征、以及提取的子视频帧序列的视频特征、音频特征及文本特征生成片段级别的人物社交关系图，通过迭代合最终得到整个视频的人物社交关系图；其中，每次迭代合并两个人物社交关系图，如果两个人物社交关系图中两个人物角色的相似度大于阈值，则认为属于同一个人物角色。

为了便于理解，下面针对本发明上述方案做详细的介绍。

一、数据预处理。

本发明实施例中，将完整视频作为输入。对于输入的完整视频，首先，进行等间距采样，得到一个由视频帧组成的视频序列；通过滑动窗口方法，将视频序列切分成若干等长的子视频帧序列。

示例性的，可以以2帧/秒的采样频率进行采样得到由视频帧组成的长的视频序列，以1帧的间隔进行滑动窗口采样得到等长的短的子视频帧序列。

然后，可以对子视频帧序列进行人物角色的检测以及重识别。

本发明实施例中，可以利用预训练的人物检测器(例如，基于Faster R-CNN的人物检测器)来检测出人物框和对应的置信度，如果检测出来的框置信度高于阈值，则认为该框含有人物角色；之后，利用基于残差网络的特征提取网络对人物角色框进行特征抽取，再对人物框特征之间进行余弦相似度的计算，相似度大于阈值(例如，大于0.7)的两个人物框视作同一个人物角色。

二、建立人物社交关系图生成模型。

本发明实施例中，人物社交关系图生成模型主要包括：帧级别的图卷积网络模块、多通道时序累积模块以及片段级别的图卷积网络模块。

1、帧级别的图卷积网络模块。

本发明实施例中，在帧级别的图卷积网络模块中，目标是生成一个帧级别的子图，用来提供当前帧的人物社交关系图。主要过程如下：

首先，由于视频中的所有人物都被检测定位和重识别，可以使用人物角色框和联合框的视觉特征分别作为人物和人物对的表征。具体而言，采用预训练的残差网络从人物角色框和联合框的视觉特征中分别提取人物角色特征F_c和人物对特征F_p。为了得到当前帧的全局背景特征F_b，将当前帧图像放入预训练所得的残差网络，提取到的全局背景特征F_b包含丰富的场景信息。此外，还利用深度自注意力变换网络来从当前时刻的台词中提取文本特征F_t，上述四种不同的特征分别构成当前子图上的四种节点。

本发明实施例中，上述过程所涉及的预训练的残差网络可以采用相同的结构，区别在于，提取人物角色特征F_c和人物对特征F_p的残差网络可以在CSM数据集上预训练，提取全局背景特征F_b的残差网络可以在Place365数据集上预训练。当然，用户也可以根据情况选择其他恰当的数据集来对残差网络进行预训练。

其次，使用图卷积神经网络来相互传播节点的信息，从而在帧级别的子图上丰富人物和人物对之间的表征，单层的图卷积层的操作表示为：

其中，

是第l-1层的输出，N表示子图数目，d表示任一特征节点的维度；

是当前子图的邻接矩阵，

是邻接矩阵

的度矩阵，

是可学习的参数，σ(·)是非线性激活函数；

子图的邻接矩阵定义为：

其中，F_c、F_p、F_b、F_t依次表示每一帧图像中人物角色特征、人物对特征、全局背景特征、文本特征；i、j表示不同人物角色，

表示人物角色i、人物角色j的特征，

表示两个不同人物对的特征；N₁与N₂表示不同种类的节点(Node)，N₁与N₂如果取邻接矩阵定义中的几种节点时，

为1，如果不取定义中的几种节点，则

为0。

最终，结合多视角的视觉特征F_c，F_p，F_b和文本特征F_t，通过图卷积神经网络，来获得每一帧图像中人物角色和人物对的增强表征，表示：

其中，GCN(.)表示图卷积神经网络。

2、多通道时序累积模块。

对于每个人物特征F_c和人物对特征F_p，可以使用长短时记忆网络来捕捉它们在时间轴上所有帧的时间动态。具体来说，由于角色特征和角色对特征之间的表示方式不同，可以采用两个独立的长短时记忆网络来传播一系列的特征。将人物特征和人物对的特征分别放入多路长短时记忆网络后，能够得到了子视频帧序列中所有帧的累积特征C_c和C_p。

本发明实施例中，将每个长短时记忆网络的最后一步输出的C_c和C_p作为片段级别的图卷积网络模块的输入。

3、片段级别的图卷积网络模块。

为了描述单个子视频帧序列(片段)V中的所有人物，并生成片段级别的人物社交关系图SG_v，通过多通道时序累积模块合并所有子图，以累积的人物特征C_c和累积的人物对特征C_p作为片段级别的人物社交关系图SG_v的输入。

值得注意的是，片段级别的人物社交关系图SG_v中的人物特征C_c和人物对特征C_p不仅包含帧级别的子图中的多视角和多模态信息，而且由于多通道时序累积模块，还能捕捉到时间维度上的变化。本发明实施例中，利用图卷积网络得到片段级别的增强表征后的人物对特征，表示为：

C_p′＝GCN(C_c,C_p,A)

其中，GCN(.)表示图卷积神经网络(操作方式与前文介绍的相同)，A为邻接矩阵，定义为：

其中，i、j表示不同人物角色，

表示累积的人物角色i、人物角色j的特征，

表示累积的两个人物对的特征。

三、基于弱监督学习的训练和测试方案。

对于一个视频来说，很难获得每一帧的人物级别标注。在这种情况下，我们应该只利用片段级别的社交关系标注来预测人物对的社交关系。为此，本发明实施例提出一个弱监督损失函数来解决这个具有挑战性的任务。

将片段级别的增强表征后的人物对特征输入至分类器，预测得到相应人物对在每个社交关系类别上的置信度向量，将所以人物对的置信度向量拼接起来组成分数矩阵Q；假设具有K对社交关系分数，R种社交关系以及P对人物，预测得到的分数矩阵Q形状为R×P，对分数矩阵Q进行交叉softmax操作，生成置信度矩阵：

S＝softmax_r(Q)⊙softmax_p(Q)

其中，softmax_r和softmax_p分别表示对所有人物对和所有社交关系的softmax运算。

本发明实施例中，可认为上式能够评估每个人物对关于每种社交关系的贡献。之后，可以累积每个人物对的置信度分数，用交叉熵准则来计算弱监督损失函数：

其中，y_r＝1表示视频具有r类型的社交关系，否则y_r＝0；

表示所有人物对在r类型社交关系上累计的归一化分数，能够代表r类型的片段级置信度分数；通过上述损失L，能够仅利用片段级的社交关系标注来训练网络。

如上述介绍，在训练阶段，主要利用片段级别的增强表征后的人物对特征C_p′来训练人物社交关系图生成模型，直至模型收敛。

在推理阶段，通过之前介绍的方式，得到片段级别的增强表征后的人物对特征C_p′之后，将每个人物对的特征C_p′与整个子视频帧序列的视频特征、音频特征与相应的文本特征拼接起来作为人物对的最终表征，再输入至分类器进行人物对的社交关系分类，得到了所有人物对之间的关系，从而得到片段级人物社交关系图。

子视频帧序列的视频特征、音频特征与相应的文本特征可以预先提取，也可以在得到人物对的特征C_p′后再进行提取；示例性的，可以利用在Kinetics-400数据集上预训练的神经网络(ResNet(2+1)D-18)来提取子视频帧序列的视频特征；利用子视频帧序列的背景音频的短时傅里叶变换特征作为子视频帧序列的音频特征，利用深度自注意力变换网络从子视频帧序列的的台词中提取相应的文本特征。

为了得到全局的人物社交关系图SG_m，合并了来自同一视频的所有片段级社交关系图

来生成SG_m。合并策略是基于人物特征的相似性，对于来自不同片段级社交关系图的两个人物，如果他们的特征余弦相似度大于阈值(例如0.7，)，则认为这两个人物是相同的。经过以上过程，可以将两个图中的社交关系合并为一个更大的人物社交关系图。通过迭代合并每两个图，最终可以得到整个视频的人物社交关系图。

需要说明的是，上述实施例中所涉及的参数数值以及神经网络的具体形式均为举例，并非构成限制；具体的参数数值可根据实际应用场景中的数据特点进行调整，神经网络的具体形式也可以根据实际情况自行设定；此外，图1中所示的文本信息的内容也仅用于示意，并非构成限制。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将模型的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于图卷积网络的视频人物社交关系图生成方法，其特征在于，包括：

推理阶段，对于每一子视频帧序列，利用片段级别的增强表征后的人物对特征、以及提取的子视频帧序列的视频特征、音频特征与文本特征生成片段级别的人物社交关系图，通过迭代得到整个视频的人物社交关系图；其中，每次迭代合并两个人物社交关系图，如果两个人物社交关系图中两个人物角色特征的相似度大于阈值，则认为属于同一个人物角色；

其中，所述人物社交关系图生成模型包括：帧级别的图卷积网络模块、多通道时序累积模块以及片段级别的图卷积网络模块；其中：

对每一子视频帧序列中的每一帧图像，根据人物角色的检测及重识别结果采用预训练的残差网络提取人物角色特征和人物对特征，采用预训练的残差网络从帧图像中提取全局背景特征，采用深度自注意力变换网络从帧图像对应时刻的台词中提取文本特征；

所述帧级别的图卷积网络模块，将帧图像作为一个子图，提取到的四类特征作为相应子图的四种节点；采用图卷积神经网络进行节点信息的传播，从而得到每一帧图像中人物角色和人物对的增强表征；之后，每一帧图像中人物角色和人物对的增强表征分别输入至多通道时序累积模块，得到所有帧图像累积的人物角色特征与人物对特征；最终，输入至片段级别的图卷积网络模块，得到片段级别的增强表征后的人物对特征。

2.根据权利要求1所述的一种基于图卷积网络的视频人物社交关系图生成方法，其特征在于，所述将输入的完整视频进行采样与分割，得到若干等长的子视频帧序列包括：

对于输入的完整视频，首先，进行等间距采样，得到一个由视频帧组成的视频序列；

通过滑动窗口方法，将视频序列切分成若干等长的子视频帧序列。

3.根据权利要求1所述的一种基于图卷积网络的视频人物社交关系图生成方法，其特征在于，

利用预训练的人物检测器来检测出人物框和对应的置信度，如果检测出来的框置信度高于阈值，则认为该框含有人物角色；

之后，利用基于残差网络的特征提取网络对人物角色框进行特征抽取，再对人物框特征之间进行余弦相似度的计算，相似度大于阈值的两个人物框视作同一个人物角色。

4.根据权利要求1所述的一种基于图卷积网络的视频人物社交关系图生成方法，其特征在于，帧级别的图卷积网络中单层的图卷积层的操作表示为：