CN114186069B

CN114186069B - 基于多模态异构图注意力网络的深度视频理解知识图谱构建方法

Info

Publication number: CN114186069B
Application number: CN202111434458.4A
Authority: CN
Inventors: 董文龙; 毛启容; 姚庆
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2023-09-29
Anticipated expiration: 2041-11-29
Also published as: CN114186069A

Abstract

本发明提供了一种基于多模态异构图注意力网络的深度视频理解知识图谱构建方法，将音频片段、每段音频对应的文本以及人物和物品送入人物/位置重识别系统，提取对齐后的人物、音频、文本、关键帧以及物品的特征；将提取的特征送入多模态异构图注意力网络，预测人物与人物以及人物与位置之间的关系，根据预测的关系生成知识图谱。本发明利用多模态异构图注意力网络预测人物与人物、人物与位置之间的关系，能显著提高预测关系的准确率。

Description

基于多模态异构图注意力网络的深度视频理解知识图谱构建方法

技术领域

本发明属于视频语义理解技术领域，具体涉及一种基于多模态异构图注意力网络的深度视频理解知识图谱构建方法。

背景技术

随着网络、计算机以及摄影设备的普及与发展，视频在互联网中占有越来越大的比重，观看视频是人们娱乐的重要方式之一；然而视频的复杂性也限制其进一步的应用。视频语义理解，其目标是从视频中获取描述视频内容的容量小、易于理解的信息，如标签、视频标题、视频字幕和知识图谱等，从而增强人类、机器理解视频内容的能力，在人机交互、视频检索、推荐系统以及智慧公安等领域有着广泛的应用。

2015年，首个基于深度学习的视频描述模型LRCN被提出。2016年，微软公布大规模视频描述数据集MSR-VTT，为视频描述任务提供了很好的语料库；但使用自然语言描述视频存在诸多弊端，如：注释是特定于语言，很难定量测试性能，并且很难在后续的自动数据处理中使用。2018年，MovieGraphs中使用知识图谱描述视频语义；但其使用短的视频片段，不能理解不同角色之间的关系，也不能深入理解视频上下文。2020年至今，从长视频中抽取知识图谱(深度视频语义理解，DVU)的任务被提出；但目前的方法无法充分利用多模态的数据，也未利用关系间潜在的联系。

发明内容

针对现有技术中存在不足，本发明提供了一种基于多模态异构图注意力网络的深度视频理解知识图谱构建方法，提高预测视频中人物与人物、人物与位置之间关系的准确率。

本发明是通过以下技术手段实现上述技术目的的。

基于多模态异构图注意力网络的深度视频理解知识图谱构建方法，具体为：

音频片段、每段音频对应的文本以及人物和物品送入人物/位置重识别系统，将音频、文本、人物、关键帧根据基本事实进行对齐，提取对齐后的人物、音频、文本、关键帧以及物品的特征；

将提取的特征送入多模态异构图注意力网络，预测人物与人物以及人物与位置之间的关系，根据预测的关系生成知识图谱；

所述预测人物与人物以及人物与位置之间的关系，具体为：

若两个人物同时出现在一个关键帧中，生成关系对T＝T_α∪T_β，其中T_α表示人物-人物之间的关系，T_β表示人物-位置之间的关系；

若两个人物没有同时出现在一个关键帧中，而人物所在背景中存在同类物品，对话涉及相同实体和主题，则认为人物-人物、人物-位置之间存在联系，生成异构图G＝{V，E}，其中：V是节点集合，包括关系对、物品、实体和主题节点，E是边集合，若关系涉及到相同的物品、主题或实体，则在关系对T-关系对T、关系对T-物品、关系对T-主题、关系对T-实体之间建立一条边；

所述异构图G按照特征传播规则进行特征传播，得到关系的特征，利用/>预测人物与人物、人物与位置之间的关系；

其中：B_s表示关注矩阵，其第v行第v′列的元素为δ_vv′s；H^(l)表示第l层所有关系对T节点的特征，表示第l层属于语义s的节点的特征，/>是可训练的参数，σ是激活函数，s_r，k是H中一个节点的特征，表示第k个场景中第r个关系对经多模态异构图注意力网络处理后的特征，p_r，k表示预测得分，R表示关系的种类。

进一步的技术方案，所述关系对T所在视频片段的特征中包含多个物品，文本中有多条语句，使用模态内注意力机制挖掘不同物品和语句对关系对判断的贡献度，所述模态内注意力机制的计算方法为：

其中：F_i表示一个物品或一条语句的特征，c_a、W_a、b_a是可训练的参数，tanh是激活函数，e_i是F_i的权重，N是物品或语句的数目，α_i是标准化的权重，F_m是物品或文本的整体特征。

进一步的技术方案，所述关系对T所在视频片段的特征由多种模态的特征组成，利用模态级注意力机制挖掘人物、物品、文本、关键帧、音频特征对关系对判断的贡献度，所述模态级注意力机制的计算方法为：

其中：F_m表示一种的特征，包括人物特征、关键帧特征、文本特征、音频特征和物品特征；c_b、W_b、b_b是可训练的参数；tanh是激活函数；e_m是F_m的权重；M是特征的种类数；β_m是标准化的权重；F_v是一个关系对T的整体特征。

进一步的技术方案，使用语义级注意力机制对关系对T-实体、关系对T-物品、关系对T-主题赋予相应的权重，其中语义级注意力机制的计算方法为：

其中：v是一个关系节点，v′是v的邻居节点集合N_v中的一个元素，A’是对称规范化的邻接矩阵，F_v′是节点v′的特征，F_s表示N_v中节点特征之和，F_v是节点v的特征，| |表示连接操作，σ是激活函数，μ_s是可训练的参数，e_s表示语义s的权重，γ_s表示标准化的权重S表示不同的语义，包括物品、实体和主题三种不同的语义。

进一步的技术方案，使用节点注意力机制捕获不同邻居节点的重要性，并降低噪声节点的权重，节点级注意力机制的计算方法为：

其中：σ是激活函数，μ_n是可训练的参数，e_vv′s表示节点v′对v的权重，N₁表示节点v的邻居节点数目，δ_vv′s表示标准化的权重。

进一步的技术方案，所述多模态异构图注意力网络的损失函数为：

其中：p_r，k表示预测得分，R表示关系的种类，K表示视频片段的数量，y_k表示真实的标签，1(·)是二进制指示符。

进一步的技术方案，所述音频对应的文本是通过将待分析视频中的音频信号进行分割，得到音频片段并生成时间戳；利用所述时间戳对由音频转录成的文本进行切分得到的。

进一步的技术方案，所述人物/位置重识别系统包括人物和位置的识别模块以及人物和音频的对齐模块；所述人物和位置的识别模块用于：①使用在Market1501数据集上预训练的ResNet50模型提取人物和关键帧的特征；②利用余弦相似度衡量人物和关键帧的特征与基本事实图像之间的相似度，为人物和位置附加基本事实的ID；所述人物和音频的对齐模块用于：使用Dlib的68个面部标志性预测器捕捉人物嘴唇的形状，并根据脸部大小的相对垂直形状变化来估计嘴唇运动，以预测目标人物是否为说话人，从而对音频片段和相应的文本分配人物ID。

本发明的有益效果为：本发明将音频片段、每段音频对应的文本以及人物和物品送入人物/位置重识别系统，提取对齐后的人物、音频、文本、关键帧以及物品的特征；将提取的特征送入多模态异构图注意力网络，预测人物与人物以及人物与位置之间的关系，根据预测的关系生成知识图谱；其中多模态异构图注意力网络，首先使用模态内注意力机制挖掘不同物品和语句对人物-人物和人物-位置间的关系对判断的贡献度，然后使用模态级注意力机制挖掘人物、物品、文本、关键帧、音频特征对关系对判断的贡献度，最后使用实体、主题和物品发现关系对间的关联，利用语义级注意力机制和节点级注意力机制挖掘不同语义和不同邻居节点对关系对判断的贡献度。本发明利用多模态异构图注意力网络，能显著提高预测关系的准确率。

附图说明

图1为本发明所述基于多模态异构图注意力网络的深度视频理解知识图谱构建流程图；

图2为本发明所述多模态异构图注意力网络示意图。

具体实施方式

下面结合附图以及具体实施例对本发明作进一步的说明，但本发明的保护范围并不限于此。

如图1所示，本发明一种基于多模态异构图注意力网络的深度视频理解知识图谱构建方法，具体包括如下步骤：

步骤(1)，检测待分析视频中的场景，将不同场景的视频分割出来，并识别关键帧；

步骤(1.1)，使用HSV(Hue-Saturation-Value，色调-饱和度-值)颜色直方图作为特征来预测待分析视频中的场景边界，并将待分析视频分割为片段序列；

步骤(1.2)，使用FFmpeg(Fast Forward Mpeg)提取片段序列中每个视频片段的关键帧。

步骤(2)，将待分析视频中的音频送入说话人日志系统，对音频信号进行分割，生成时间戳；

待分析视频中的音频是通过FFmpeg提取的；

使用说话人日志系统CMU-Sphinx(Carnegie Mellon University Sphinx)对音频信号进行分割，得到音频片段并生成时间戳。

步骤(3)，将待分析视频中的音频送入语音识别系统，将音频转录为文本，根据说话人日志系统生成的时间戳对文本进行切分，得到每段音频对应的文本；

所述音频使用YouTube的自动字幕转录为文本数据。

步骤(4)，从关键帧中识别目标，包括人物和物品；

步骤(4.1)，使用预训练的Faster R-CNN(Faster Region-based ConvolutionalNeural Network)检测出关键帧中的人物和物品；

步骤(4.2)，使用VGG16(Visual Geometry Group 16)将检测出来的物品识别为MSCOCO(Microsoft Common Objects in Context)数据集中的80个类别。

步骤(5)，将音频片段、每段音频对应的文本和关键帧中的人物和物品送入人物/位置重识别系统，将音频、文本、人物、关键帧根据基本事实进行对齐；

人物/位置重识别系统包括人物和位置的识别模块以及人物和音频的对齐模块；

人物和位置的识别模块具体的作用为：①使用在Market1501数据集(在清华大学校园中采集的行人重识别数据集)上预训练的ResNet50(Residual Network 50)模型提取人物和关键帧的特征；②利用余弦相似度衡量人物和关键帧的特征与基本事实图像之间的相似度，为人物和位置附加基本事实的ID；

人物和音频的对齐模块具体的作用为：使用Dlib(一个C++工具包，包含机器学习算法和工具)的68个面部标志性预测器捕捉人物嘴唇的形状，并根据脸部大小的相对垂直形状变化来估计嘴唇运动，以预测目标人物是否为说话人，从而对音频片段和相应的文本分配人物ID。

步骤(6)，提取对齐后的人物、音频、文本、关键帧以及物品的特征；

使用ResNet101(Residual Network 101)提取人物和关键帧的特征，使用FastText(快速文本分类器)提取文本的特征，使用VGG16提取物品的特征，使用VGG-ish(在YouTube的AudioSet数据预训练得到模型)提取整个场景中音频的特征。

步骤(7)，将步骤(6)提取的特征送入多模态异构图注意力网络，预测人物与人物以及人物与位置之间的关系；

如图2所示，多模态异构图注意力网络，首先使用模态内注意力机制挖掘不同物品和语句对人物-人物和人物-位置间的关系对判断的贡献度，然后使用模态级注意力机制挖掘人物、物品、文本、关键帧、音频特征对关系对判断的贡献度，最后使用实体、主题和物品发现关系对间的关联，利用语义级注意力机制和节点级注意力机制挖掘不同语义和不同邻居节点对关系对判断的贡献度。

所述预测人物与人物以及人物与位置之间的关系，具体为：

步骤(7.1)，若两个人物同时出现在一个关键帧中，则认为两人存在关系，又人物和所在的位置存在关系，从而生成关系对T＝T_α∪T_β，其中T_α表示人物-人物之间的关系，T_β表示人物-位置之间的关系；

步骤(7.2)，提取每个场景对齐后文本中的实体和主题；

所述实体通过斯坦福NER(Named Entity Recognition，命名实体识别)工具提取，所述主题使用LDA(Latent Dirichlet Allocation，隐含狄利克雷分配)提取；

步骤(7.3)，若两个人物没有同时出现在一个关键帧中，则认为两人不存在关系，而人物所在背景中存在由检测出的同类物品，对话涉及相同实体和主题，则认为人物-人物、人物-位置之间存在联系，从而生成异构图G＝{V，E}，其中：V是节点集合，包括关系对、物品、实体和主题节点，E是边集合，若关系涉及到相同的物品、主题或实体，则在关系对T-关系对T、关系对T-物品、关系对T-主题、关系对T-实体之间建立一条边；

步骤(7.4)，在(7.1)生成的关系对T所在视频片段的特征中包含多个物品，文本中有多条语句，使用模态内注意力机制发现模态内部哪些信息(包含物品、语句、物品+语句)对判断关系对更有帮助，其中模态内注意力机制的计算方式如下：

F_m＝∑_i∈Nα_iF_i (3)

其中：F_i表示一个物品或一条语句的特征，c_a、W_a、b_a是可训练的参数，tanh是激活函数，e_i是F_i的权重，N是物品或语句的数目，α_i是标准化的权重，F_m是物品或文本的整体特征；

步骤(7.5)，在(7.1)生成的关系对T所在视频片段的特征由多种模态的特征组成，利用模态级注意力机制，使多模态异构图注意力网络学习到不同模态数据对关系的贡献度，其中模态级注意力机制的计算方式如下：

F_v＝∑_m∈Mβ_mF_m (6)

其中：F_m表示一种的特征，包括人物特征、关键帧特征、文本特征、音频特征和物品特征；c_b、W_b、b_b是可训练的参数；tanh是激活函数；e_m是F_m的权重；M是特征的种类数；β_m是标准化的权重；F_v是一个关系对T的整体特征；

步骤(7.6)，使用语义级注意力机制对关系对T-实体、关系对T-物品、关系对T-主题赋予相应的权重，其中语义级注意力机制的计算方式如下：

其中：v是一个关系节点，v′是v的邻居节点集合N_v中的一个元素，A’是对称规范化的邻接矩阵，F_v′是节点v′的特征，F_s表示N_v中节点特征之和，F_v是节点v的特征，||表示连接操作，σ是激活函数，μ_s是可训练的参数，e_s表示语义s的权重，γ_s表示标准化的权重，S表示不同的语义，包括物品、实体和主题三种不同的语义。

步骤(7.7)，使用节点注意力机制捕获不同邻居节点的重要性，并降低噪声节点的权重，节点级注意力机制的计算方式如下：

其中：μ_n是可训练的参数，e_vv′s表示节点v′对v的权重(权重属于语义s)，N₁表示节点v的邻居节点数目(N₁属于语义s)，δ_vv′s表示标准化的权重；

步骤(7.8)，异构图G按照如下特征传播规则(公式(12))进行特征传播，得到关系的特征：

其中：B_s表示关注矩阵，其第v行第v′列的元素为δ_vv′s；H^(l)表示第l层所有关系对T节点的特征，表示第l层属于语义s的节点的特征，/>是可训练的参数；

人物与人物以及人物与位置之间的关系预测方法和多模态异构图注意力网络的损失函数分别如式(13)、(14)所示：

其中：s_r，k是H中一个节点的特征，表示第k个场景中第r个关系对经多模态异构图注意力网络处理后的特征，p_r，k表示预测得分，R表示关系的种类，K表示视频片段的数量，y_k表示真实的标签，1(·)是二进制指示符，如果表达式为真，则1(·)＝1。

步骤(8)，根据预测到的关系生成知识图谱，并通过准确率和召回率评估知识图谱。

所述实施例为本发明的优选的实施方式，但本发明并不限于上述实施方式，在不背离本发明的实质内容的情况下，本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims

1.基于多模态异构图注意力网络的深度视频理解知识图谱构建方法，其特征在于：

音频片段、每段音频对应的文本以及关键帧中的人物和物品送入人物/位置重识别系统，将音频、文本、人物、关键帧根据基本事实进行对齐，提取对齐后的人物、音频、文本、关键帧以及物品的特征；

所述预测人物与人物以及人物与位置之间的关系，具体为：

若两个人物同时出现在一个关键帧中，生成关系对T＝T_α∪T_β，其中T_α表示人物-人物之间的关系，T_β表示人物-位置之间的关系；所述关系对T所在视频片段的特征中包含多个物品，文本中有多条语句，使用模态内注意力机制挖掘不同物品和语句对关系对判断的贡献度；所述关系对T所在视频片段的特征由多种模态的特征组成，利用模态级注意力机制挖掘人物、物品、文本、关键帧、音频特征对关系对判断的贡献度；

若两个人物没有同时出现在一个关键帧中，而人物所在背景中存在同类物品，对话涉及相同实体和主题，则认为人物-人物、人物-位置之间存在联系，生成异构图G＝{V，E}，其中：V是节点集合，包括关系对T、物品、实体和主题节点，E是边集合，若关系涉及到相同物品、主题或实体，则在关系对T-关系对T、关系对T-物品、关系对T-主题、关系对T-实体之间建立一条边；

其中：B_s表示关注矩阵，其第v行第v′列的元素为δ_vv′s，δ_vv′s表示节点v′对v的权重标准化的权重，权重属于语义s；H^(l)表示第l层所有关系对T节点的特征，表示第l层属于语义s的节点的特征，/>是可训练的参数，σ是激活函数，s_r,k是H中一个节点的特征，表示第k个场景中第r个关系对经多模态异构图注意力网络处理后的特征，p_r,k表示预测得分，R表示关系的种类，S表示不同的语义，包括物品、实体和主题三种不同的语义。

2.根据权利要求1所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法，其特征在于，所述模态内注意力机制的计算方法为：

3.根据权利要求2所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法，其特征在于，所述模态级注意力机制的计算方法为：

4.根据权利要求1所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法，其特征在于，使用语义级注意力机制对关系对T-实体、关系对T-物品、关系对T-主题赋予相应的权重，其中语义级注意力机制的计算方法为：

其中：v是一个关系节点，v′是v的邻居节点集合N_v中的一个元素，A′_vv′是对称规范化的邻接矩阵，F_v′是节点v′的特征，F_s表示N_v中节点特征之和，F_v是节点v的特征，||表示连接操作，σ是激活函数，μ_s是可训练的参数，e_s表示语义s的权重，γ_s表示标准化的权重，S表示不同的语义，包括物品、实体和主题三种不同的语义。

5.根据权利要求4所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法，其特征在于，使用节点注意力机制捕获不同邻居节点的重要性，并降低噪声节点的权重，节点级注意力机制的计算方法为：

其中：σ是激活函数，μ_n是可训练的参数，e_vv′s表示节点v′对v的权重，权重属于语义s，N₁表示节点v的邻居节点数目，δ_vv′s表示标准化的权重。

6.根据权利要求1所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法，其特征在于，所述多模态异构图注意力网络的损失函数为：

其中：p_r,k表示预测得分，R表示关系的种类，K表示视频片段的数量，y_k表示真实的标签，1(·)是二进制指示符，如果表达式为真，则1(·)＝1。

7.根据权利要求1所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法，其特征在于，所述音频对应的文本是通过将待分析视频中的音频信号进行分割，得到音频片段并生成时间戳；利用所述时间戳对由音频转录成的文本进行切分得到的。

8.根据权利要求1所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法，其特征在于，所述人物/位置重识别系统包括人物和位置的识别模块以及人物和音频的对齐模块；所述人物和位置的识别模块用于：①使用在Market1501数据集上预训练的ResNet50模型提取人物和关键帧的特征；②利用余弦相似度衡量人物和关键帧的特征与基本事实图像之间的相似度，为人物和位置附加基本事实的ID；所述人物和音频的对齐模块用于：使用Dlib的68个面部标志性预测器捕捉人物嘴唇的形状，并根据脸部大小的相对垂直形状变化来估计嘴唇运动，以预测目标人物是否为说话人，从而对音频片段和相应的文本分配人物ID。