CN113936236A

CN113936236A - 一种基于多模态特征的视频实体关系及交互识别方法

Info

Publication number: CN113936236A
Application number: CN202111116334.1A
Authority: CN
Inventors: 任桐炜; 武港山; 张贝贝; 于凡; 高妍欣
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2022-01-14

Abstract

一种基于多模态特征的视频实体关系及交互识别方法，对影片中实体之间的交互进行预测识别：对影片根据场景划分为中片段，对中片段分别向上聚合为长片段，向下分割为短片段，对于每个中片段，将提取的实体特征、实体对特征、视频片段特征、音频特征和文字特征进行拼接作为该片段的融合特征，取平均作为长片段的特征预测长片段中的实体关系，并将该平均特征连接到每一个中片段特征，用于预测对应的中片段中的实体之间的互动，实体关系和实体互动同时进行预测，并联合训练对应的识别网络。本发明将长视频分为三种长度的视频，对长片段预测实体关系，对中片段预测实体交互和场景状态，对短片段预测实体交互，构建出实体关系图和互动图。

Description

一种基于多模态特征的视频实体关系及交互识别方法

技术领域

本发明属于计算机视觉技术领域，涉及视频中实体关系检测、实体互动检测以及场景状态预测，具体为，具体为一种基于多模态特征的视频实体关系及交互识别方法。

背景技术

长视频一般指超过半个小时的视频，内容以剧情为主，有完整的故事主线，一般为影片。长视频上不同实体间的关系分析和互动分析有助于长视频的深度理解，这往往需要根据已知信息推断隐藏的信息。关系分析具体是指构建整个影片中出现场景和人物两类实体间的(社会)关系图，互动分析则是致力于构建不同视频片段中人物实体间出现的动作互动图，本发明还涉及对场景状态进行预测。通过实体关系图、互动图以及场景状态信息，可以回答对视频深度分析的各种问题。

类似的关于视频理解的工作包括视频归纳、行为识别、视觉关系检测、社交关系识别和视频情绪检测，但是这些工作一般适用于时长较短的视频，且缺少对不同实体间关系和互动转变的深度分析，对于长视频分析，仍然存在以下问题：

1)短视频内容相对较少，往往只有一个场景，人物不多，用于短视频分析的现有技术不能解决多个实体，包括人物、场景间的关系、互动预测；

2)对短视频的分析难以进行合并，对未同框实体间的关系和互动无法预测。

3)对短视频的状态分析都比较简单，无法识别一些解决复杂情境。

同时，现有技术的分析方法一方面大多适用于有足够训练样本的情况，而长视频的深度关系分析任务则有部分关系不存在训练样本，另一方面，目前很少有能对实体间关系和互动进行联合分析的方法。因此现有的技术不能解决长视频上的深度关系和互动分析。

发明内容

本发明要解决的问题是：技术需要对长视频做深度理解，需要构建长视频上的实体之间的交互关系，进行视频的深度分析。

本发明的技术方案为：一种基于多模态特征的视频实体关系及交互识别方法，对影片利用识别、跟踪手段提取出视觉特征，结合音频和台词特征，对影片中实体之间的交互进行预测识别：对影片根据场景划分为中等长度视频片段，称为中片段，首先根据场景、视觉和声音模型对中片段分别向上聚合为长片段，以及根据场景的镜头向下分割为短片段，同时根据指定的人物截图和场景截图对中、短片段中的人物和场景进行识别和跟踪，提取中片段中对应的实体特征，对中片段中同时出现的两个实体提取实体对特征，并导出对应中片段的音频和文字特征，对于每个中片段，将提取的实体特征、实体对特征、视频片段特征、音频特征和文字特征进行拼接作为该片段的融合特征，然后将构成一个长片段的多个中片段的特征取平均，作为长片段的特征预测长片段中的实体关系，并将该平均特征连接到每一个中片段特征，用于预测对应的中片段中的实体之间的互动，实体关系和实体互动同时进行预测，并联合训练对应的识别网络；

由短片段直接预测人物的互动，用于提供中片段实体互动的时序；

对长片段的视频、音频和文字特征进行拼接，组成场景特征，再根据已知的场景标签，训练用来预测该视频的场景信息的模型。

进一步的，根据人物和场景进行对长片段识别和跟踪，与中片段一样得到融合特征，对长片段预测其中的实体关系，作为实体关系的结果输出。

中片段特征平均作为长片段特征预测得到实体关系，与中片段的实体交互预测联合进行训练，相比单独训练预测中片段特征的实体交互，具有更准确的训练效果，有利于实体交互的预测。而对于实体关系而言，通过识别跟踪长片段中的人物和场景，在实体关系预测的任务中，相比以平均特征预测的结果要好，所以本发明优选通过联合训练由中片段得到实体交互结果，同时对长片段做实体关系预测，作为实体关系预测的结果。

进一步的，建立识别网络用于识别视频中的实体关系图、实体交互图以及场景信息，识别网络的输入包括待识别影片的中片段，以及指定的场景截图、场景名称、人物截图及对应的人物名称，输出为对应场景和人物间的关系图、互动图以及相应的场景信息；使用多模态特征联合训练识别网络，首先将中片段根据场景、视觉和声音模型通过语义聚合为为长片段，然后从中片段中提取视频、声音和字幕文字特征，根据给定的场景截图和人物截图识别场景或人物出现在视频段中的位置，提取得到对应的融合特征，将组成长片段的一组中片段的融合特征取平均作为该长片段的特征，用于预测该长片段中的实体关系，并将该平均特征连接到每一个中片段特征，用于预测对应的中片段中的实体之间的互动，训练识别网络时，长片段实体关系和中片段实体互动同时进行预测，联合进行训练；同时，中片段的视频、声音和文字特征单独拼接作为该中片段的场景特征；

其中，通过小样本学习结合零样本学习同时预测长片段中的实体关系和中片段中的实体互动以及场景信息，以达到关系、互动以及场景状态互相影响、联合学习的目的。

关系预测的是社会关系，互动预测的是人物之间的动作互动，关系一般是稳定的，互动则是多变的，即一对人物在影片中可能只有一种社会关系，但是他们在不同的视频片段中体现了多种互动，这也是为什么关系要基于长视频进行片段预测，而实体交互与实体关系既有联系但又不同。本发明得到一整个影片上的实体关系图及实体互动图，互动是基于中/短视频片段预测的，关系由长片段预测得到。本发明通过视频段的聚合和分割以及对场景、人物的识别对实体间的关系、互动和视频状态信息进行联合预测，建立了一种基于视觉、声音和文字特征的多特征融合的联合训练网络，提供了一种长视频上深度关系分析的解决方案，对输入视频进行聚合和分割后，融合视觉、声音和文字特征，构建视频上不同实体间的关系图与交互图并预测视频的场景状态，利用它们即可回答视频深度理解的问题。

本发明包含了视频聚合与分割技术、人体跟踪技术、人脸识别技术、特征匹配技术、句编码技术、音频特征提取技术、联合训练技术和小样本学习结合零样本学习技术。视频聚合技术是通过特征聚类将中视频聚为长视频，视频分割技术是通过镜头分割，将中视频分为短视频。人体跟踪可以使用普通的物体跟踪技术也可以使用行人跟踪技术，由于物体跟踪技术容易在镜头间丢失物体，而行人跟踪技术难以跟踪到人物特写，因此本发明结合了人体跟踪技术和人脸跟踪技术，并利用特征匹配技术补充了丢失的人物轨迹。SURF是同时兼备了质量和速度优势的特征匹配技术，能够适应模板图像的形变，与视频帧匹配。BERT是自然语言处理中对各种任务均有较好效果的方法，利用BERT可以对文字提取有效特征。MFCC和LMFE是语音转文字技术中常用的音频特征。中视频特征取平均作为长视频特征，用来表示实体关系，然后将长视频特征拼接中视频特征作为更新后的中视频特征，用来表示实体交互，同时结合场景特征一起训练、预测，达到实体关系、互动和场景状态互相影响、联合训练的效果。长视频特征余弦相似度可以用来判断类别，常用于小样本学习和零样本学习中。

本发明的有益效果是：提供了一种对影片深度理解的方案，因为本发明面对的影片时长都较长，所以也会称为长视频，将长视频分为三种长度的视频，对长片段预测实体关系，对中片段预测实体交互和场景状态，对短片段预测实体交互，构建出实体关系图和互动图。长片段用于回答实体关系问题，中片段的交互用来回答大部分实体交互问题，短片段专门用来回答交互时序的问题。本发明解决了对长视频的实体关系、互动和场景状态的联合预测问题，并且能够应对零样本的情况，具有良好的广泛性与实用性。

附图说明

图1为本发明的输入输出定义和视频分析问题类型。

图2为本发明的基于多特征的联合训练征网络架构。

图3为本发明结果在使用不同特征和分支组合的结果比较。

具体实施方式

本发明提出一种基于多特征的用于视频深度分析的联合训练方法，结合多种特征建立联合训练网络，用于识别视频中的实体关系图和交互图，以及预测视频的场景状态，对影片利用识别、跟踪手段提取出视觉特征，结合音频和台词特征，对影片中实体之间的交互进行预测识别：对影片根据场景划分为中等长度视频片段，称为中片段，首先根据场景、视觉和声音模型对中片段分别向上聚合为长片段，以及根据场景的镜头向下分割为短片段，同时根据指定的人物截图和场景截图对中、短片段中的人物和场景进行识别和跟踪，提取中片段中对应的实体特征，对中片段中同时出现的两个实体提取实体对特征，并导出对应中片段的音频和文字特征，对于每个中片段，将提取的实体特征、实体对特征、视频片段特征、音频特征和文字特征进行拼接作为该片段的融合特征，然后将构成一个长片段的多个中片段的特征取平均，作为长片段的特征预测长片段中的实体关系，并将该平均特征连接到每一个中片段特征，用于预测对应的中片段中的实体之间的互动，实体关系和实体互动同时进行预测，并联合训练对应的识别网络；

对于实体关系的预测，中片段特征平均作为长片段特征预测实体关系，与中片段特征预测实体交互，两者联合进行训练，相比单独训练预测中片段特征的实体交互，具有更准确的训练效果，有利于实体交互的预测。而对于实体关系而言，通过识别跟踪长片段中的人物和场景，在实体关系预测的任务中，相比以平均特征预测的结果要好，所以本发明优选通过联合训练由中片段得到实体交互结果，同时对长片段做实体关系预测，作为实体关系预测的结果。

下面具体说明本发明的实施。

如图1所示，本发明识别网络输入包括待识别影片的中片段，以及指定的场景截图、场景名称、人物截图及对应的人物名称，输出为对应场景和人物间的关系图、互动图以及相应的场景信息，所述输出用于长视频分析的问题类型，这些问题将根据输出的关系图、交互图和场景状态来回答。基于多特征的联合训练网络的输入由数据集给出。识别网络基于多模态特征联合训练：首先将中片段根据场景、视觉和声音模型通过语义聚合为语义更加统一的长片段，将一组中片段聚合为彼此独立的多个长片段，然后从中片段中提取视频、声音和字幕文字特征，根据给定的场景截图和人物截图识别场景或人物出现在视频段中的位置，提取得到对应的融合特征，将组成长片段的一组中片段的融合特征取平均作为该长片段的特征，用于预测该长片段中的实体关系，并将该平均特征连接到每一个中片段特征，用于预测对应的中片段中的实体之间的互动，训练识别网络时，长片段实体关系和中片段实体互动同时进行预测，联合进行训练；同时，中片段的视频、声音和文字特征单独拼接作为该中片段的场景特征；

其中，通过小样本学习结合零样本学习同时预测长片段中的实体关系和中片段中的实体互动以及场景信息，以达到关系、互动以及场景状态互相影响、联合学习的目的。最后合并长片段中的实体对关系，得到整个视频的实体关系图。

如图2所示，本发明基于多模态特征的联合训练网络的实现具体包括以下步骤：

1)基于多模态特征，将输入的中片段聚合为语义上更加统一的长片段，同时根据镜头分割为多个短片段，每个短片段对应一个场景镜头。一群人物间发生的活动，一般发生在一个固定的场景中，但同一个场景根据会有多个镜头，短片段对应就是这样的场景镜头，基于镜头得到场景中的时序。本发明中，声音特征、文字特征和视觉特征都是从视频段中提取。具体为：

1.1)将中片段分为多个镜头片段，也就是短片段；镜头是指拍摄不间断，未经过剪辑的一段视频；而一群人物之间的活动，一般发生在一个场景中，表现为连续的一个或多个镜头的聚合；

1.2)对每个中片段分别根据场景模型、视觉模型和声音模型提取特征；

1.3)利用步骤1.2)中提取的三种特征分别语义聚合合并镜头片段为长片段，利用各个中片段的三种特征预测该中片段是否为组成长片段的最后一个中片段，以此确定各个长片段的边界，即组成其的最后一个中片段；

1.4)将步骤1.3)中根据三种特征的聚合结果合并：

E＝E_p∪E_v∪E_a

其中，E是最终的长片段集合，E_p是根据场景模型的中视频聚合边界集合，E_v是根据视觉模型的中片段聚合边界集合，E_a是根据声音模型的中片段聚合边界集合。

2)在步骤1)分割出的短/中/长每个视频段中采用加速稳健特征SURF(Speeded UpRobust Features)特征匹配将场景截图与帧进行匹配，每个视频段选取匹配点总数最高的场景为所在场景，场景的轨迹则为在整个视频段上的整个画面。视频与每个场景的匹配点总数的计算方法：

其中M_l表示场景l的匹配点总数，

表示场景l的截图ls的匹配点数，S^l为场景l的截图集合。视频段所对应的场景为的匹配点总数最高的场景。

3)在步骤1)分割出的短/中/长每个视频段中，采用人体跟踪方法和人脸检测识别方法相结合通过限制检测到的人体包围框和识别出的人脸包围框的交并比，进行人物的识别和跟踪，并且通过SURF特征匹配将人物截图与帧进行匹配作为人脸识别的补充：

3.1)使用中心点跟踪方法得到人体包围框轨迹；

3.2)使用InsightFace人脸检测识别方法得到与给定人物截图匹配的人脸包围框轨迹，当与人体包围框有重叠且交并比大于阈值，则人体包围框轨迹为该人物包围框轨迹；当与人体包围框无重叠或交并比小于阈值，则以人脸包围框轨迹的近似人体包围框估计为该人物包围框轨迹，近似人体包围框估计的获取为：预设人脸包围框处于人体包围框的上半部分的居中位置，根据人脸包围框预估计算人体位置，本实施例中以人脸包围框宽向两边扩展2倍，高向下扩展7倍为近似人体包围框，并以此由人脸包围框轨迹得到近似人体包围框轨迹；

3.2)使用SURF特征匹配方法将没有识别到的人物截图与帧对应，对应帧上的人体包围框所在轨迹则为该人物的包围框轨迹。这一步是指在当前幕中没有通过人脸检测识别方法识别到的目标人物，继续通过SURF特征匹配来识别，如果对应帧出现多个人体包围框时，计算SURF匹配区域与人体包围框的交并比IOU，如果都超过阈值0.7则取最大的。

4)将步骤1)分割出的短/中/长每个视频段输入预训练的C3D网络，计算视频特征。

5)在步骤1)分割出的短/中/长每个视频段中对音频提取梅尔频率倒谱系数MFCC和对数梅尔能量LMFE特征，并计算MFCC特征和LMFE特征的一阶差分和二阶差分，得到该视频段的声音特征。

6)对输入视频自动生成字幕并根据时间对应到步骤1)分割出的短/中/长每个视频段上，所有的待计算特征句采用BERT网络生成幕的文字特征：

6.1)自动生成视频字幕，例如使用autoSub软件，或阿里云、Youtube的自动生成视频字幕功能等；

6.2)根据字幕时间段对应各句字幕到幕片段；

6.3)当字幕一句长度超过15个词，或与后句间隔超过0.5秒时作为待计算特征句，当字幕一句长度小于15且后句间隔小于0.5时，此句与后句连接为一个新的句，当新句长句超过15或与后句间隔超过0.5秒时作为待计算特征句，否则继续与后句连接；

6.4)所有的待计算特征句采用BERT(Bidirectional Encoder Representationsfrom Transformers)网络生成文字特征。

7)在步骤1)分割出的短/中/长每个视频段中根据步骤3)和步骤4)中场景和人物实体包围框轨迹通过预训练的C3D网络计算实体的视觉特征，并根据每两个实体的联合包围框轨迹同样计算实体对的视觉特征。

8)将中片段中的每个实体对对应的步骤4)的视频特征、步骤5)的声音特征、步骤6)的文字特征、步骤7)中两个实体的视觉特征和步骤7)中实体对的视觉特征连接起来，作为实体对的互动特征。

9)将组成一个长片段的所有中片段中的同一对实体，通过步骤8)得到的实体对互动特征取平均，作为该实体对的关系特征。然后该实体对的关系特征与每一个互动特征连接作为最终的互动特征。

10)对每个中片段的通过步骤4)得到的视频特征、步骤5)得到的声音特征、步骤6)得到的文字特征连接起来作为该中视频段的场景特征；

11)由于本发明采用的是小样本学习结合零样本学习的训练方法，引入了分类标签的特征，也就是关系谓语、互动谓语和场景状态描述语的特征，而不是直接对实体对特征做全连接分类。采用BERT模型对关系谓语、互动谓语和场景状态生成语义特征，将步骤9)和10)得到的关系特征、互动特征和场景特征转换到语义表达，通过计算关系、互动和场景特征的语义表达与目标关系、互动和场景状态标签的语义特征的相似度判断实体对是哪种关系，哪种互动，以及视频段是哪种状态。具体如下：

11.1)将步骤9)和10)中得到的关系特征、互动特征和场景特征经过线性变换转换到语义空间；

11.2)将预定义的关系谓语、互动谓语和场景状态的描述通过BERT模型生成对应的语义特征；关系谓语、互动谓语和场景状态都是预定义的，每个关系谓语/互动谓语/场景状态都有一句话描述，根据这句描述生成对应的语义特征；

11.3)根据11.1)和11.2)得到的语义特征，小样本结合零样本学习训练时损失函数的计算方法：

其中，Lr是关系损失函数，Li是互动损失函数，Ls是场景状态损失函数，L是总的损失函数。β表示关系/互动/场景状态特征的语义空间特征，γ表示真实关系谓语/互动谓语/场景状态的语义特征，P表示长片段中非真实关系的集合，Q表示中片段中互动的集合，H表示中片段中场景状态的集合，μ_i表示非真关系/互动/场景状态i的特征，p表示非真实关系的数量，q表示非真实互动的数量，h表示非真实场景状态的数量，N表示组成该长片段的中片段集合，n表示组成该长片段的中片段数量，Lij是第j个中片段的互动损失，Lsj是第j个中片段是场景状态损失；

11.4)计算关系特征/互动特征/场景状态特征的语义表达与关系谓语/互动谓语/场景状态的语义特征的相似度作为实体对在每种关系/互动上的概率，以及该视频段在每种场景状态上的概率，进而确定实体对间的关系/互动以及视频段的场景状态。

本发明将小样本和零样本学习用于引入关系谓语/互动谓语/场景状态特征训练，BERT模型是用于生成语义特征的。11.3)是训练阶段，11.4)是预测阶段。

12)根据步骤11)预测的实体关系/互动/场景状态，取与预定义的关系类别/互动类别/场景状态类别相似性度量大于0的为关系/互动/场景状态候选，构建初步的实体关系图和互动图，以及场景状态。相似性从-1～1，取与预定义标签的相似性大于0的关系为预测候选来构建关系图/互动图/场景状态，构建关系图和互动图时，将关系/互动三元组列表转变为关系/互动图，即构建节点为实体(场景、人物)，边为关系/互动的图结构。

13)在步骤12)的基础上，根据实体的类型、名称和关系的类型调整关系预测概率，补充实体间的关系：

13.1)根据实体对为“场景-人物”、“场景-场景”、“人物-场景”或“人物-人物”调整不同关系类别的预测概率；

13.2)根据实体名称中是否含有亲属称谓、职业称谓或常见场景类型名称调整不同关系类别的预测概率。

14)根据步骤13)构建的长片段实体关系图填充视频知识图，得到整个视频上的实体关系图，用于回答实体之间的关系和查找两个实体之间的关系路径；再根据步骤12)构建的实体互动图和场景状态图，得到中片段上的实体互动情况以及场景状态，直接回答实体之间的互动问题以及场景识别问题。

14.1)对于关系知识图填充和给定中视频段的互动知识图填充，查找预测的实体关系图/互动图填充缺少的知识图节点；

14.2)对于给定互动集合的视频段识别问题，查找包含目标互动集合的视频段；

14.3)对于关系回答，遍历给出的候选答案，当答案符合预测的实体关系图则为正确答案，当所有答案都不符合预测的实体关系图则选取出现概率最大的答案；

14.4)对于场景选择问题，对每一个候选的中视频段，将其预测到的互动和场景状态与给定的自然语言描述进行关键词匹配，匹配率最高的则为正确答案；

14.5)对于场景状态选择问题，针对给定的中片段，候选的场景状态中概率最高的则为正确答案。

14.6)对于实体关系路径，深度优先遍历预测的实体关系图得到两个实体之间的关系路径。

15)对短片段中的每个实体对相关的视频特征、声音特征、文字特征、实体的视觉特征和实体对的视觉特征连接起来作为该实体对的互动特征；

16)用步骤11)相同的方法，通过小样本学习结合零样本学习的方式，预测短片段上该实体对之间的互动关系；

17)根据步骤16)预测的实体互动，仿照步骤12)得到最后的短片段实体互动图。将组成同一个中片段的所有短片段中的实体互动按时间先后进行排序，用于回答实体互动顺序问题；

17.1)对于给定中片段的给定互动，遍历组成该中片段的短片段集合，确定该互动在哪一个短片段。

17.2)同步骤17.1)，确定所有候选互动所在的视频段位置

17.3)步骤17.2)中离步骤17.1)最近的段视频段位置，即为目标互动的上一个/下一个互动。

本发明实施在HLVU数据集上，为了验证将关系，交互和场景状态联合训练的效果，我们对联合的分支及其特征进行了不同组合，进行对比。使用的指标是取前真实样本数量个结果时的召回率。

图3表头的三个Recall分别代表关系预测的召回率Recall_R、互动预测的召回率Recall_I和场景状态预测召回率Recall_S。

图3的表中第1-5行分别为：

使用互动特征的平均作为关系特征的关系分支R_s加上互动分支I加上没有融入实体对特征作为场景特征的场景状态分支S联合训练。

使用长片段特征作为关系特征的关系分支R_ss单独训练的关系召回率；互动分支I单独训练的互动召回率；没有融入实体对特征作为场景特征的场景状态分支S单独训练的场景状态召回率。

使用长片段特征作为关系特征的关系分支R_ss加上互动分支I加上没有融入实体对特征作为场景特征的场景状态分支S联合训练。

使用互动特征的平均作为关系特征的关系分支R_s加上互动分支I加上融入实体对特征作为场景特征的场景状态分支S_u联合训练。

使用长片段特征作为关系特征的关系分支R_ss加上互动分支I加上融入实体对特征作为场景特征的场景状态分支S_u联合训练。

可以看出本发明联合的结构预测人物关系和人物交互上都有优势。基于联合架构，使用中片段的平均特征对于交互的预测影响更好，而使用长片段本身的特征对于关系的预测影响更好。这是由于长片段本身的特征是基于一整段视频的，会给单个中片段引入不需要的噪声。而对于场景状态的预测，是单独训练更好。

图3所示的实验，在联合架构中，对场景状态分支加入了人物对的特征，发现性能有所下降，说明场景状态是基于整个场景的，与实体之间的交互关系没那么大。另一方面，由于数据集中只有场景状态而没有交互的中片段也很多，只训练和实体交互有关的场景状态，显然丢失了很多样本，所以也影响了预测召回率，因此优选场景分支单独训练。

Claims

1.一种基于多模态特征的视频实体关系及交互识别方法，其特征是对影片利用识别、跟踪手段提取出视觉特征，结合音频和台词特征，对影片中实体之间的交互进行预测识别：对影片根据场景划分为中等长度视频片段，称为中片段，首先根据场景、视觉和声音模型对中片段分别向上聚合为长片段，以及根据场景的镜头向下分割为短片段，同时根据指定的人物截图和场景截图对中、短片段中的人物和场景进行识别和跟踪，提取中片段中对应的实体特征，对中片段中同时出现的两个实体提取实体对特征，并导出对应中片段的音频和文字特征，对于每个中片段，将提取的实体特征、实体对特征、视频片段特征、音频特征和文字特征进行拼接作为该片段的融合特征，然后将构成一个长片段的多个中片段的特征取平均，作为长片段的特征预测长片段中的实体关系，并将该平均特征连接到每一个中片段特征，用于预测对应的中片段中的实体之间的互动，实体关系和实体互动同时进行预测，并联合训练对应的识别网络；

2.根据一种基于多模态特征的视频实体关系及交互识别方法，其特征是根据人物和场景进行对长片段识别和跟踪，与中片段一样得到融合特征，对长片段预测其中的实体关系，作为实体关系的结果输出。

3.根据权利要求1或2所述的一种基于多模态特征的视频实体关系及交互识别方法，其特征是建立识别网络用于识别视频中的实体关系图、实体交互图以及场景信息，识别网络的输入包括待识别影片的中片段，以及指定的场景截图、场景名称、人物截图及对应的人物名称，输出为对应场景和人物间的关系图、互动图以及相应的场景信息；使用多模态特征联合训练识别网络，首先将中片段根据场景、视觉和声音模型通过语义聚合为为长片段，然后从中片段中提取视频、声音和字幕文字特征，根据给定的场景截图和人物截图识别场景或人物出现在视频段中的位置，提取得到对应的融合特征，将组成长片段的一组中片段的融合特征取平均作为该长片段的特征，用于预测该长片段中的实体关系，并将该平均特征连接到每一个中片段特征，用于预测对应的中片段中的实体之间的互动，训练识别网络时，长片段实体关系和中片段实体互动同时进行预测，联合进行训练；同时，中片段的视频、声音和文字特征单独拼接作为该中片段的场景特征；

4.根据权利要求3所述的一种基于多模态特征的视频实体关系及交互识别方法，其特征是包括以下步骤：

1)基于多模态特征，将输入的中片段语义聚合为长片段，同时根据场景的镜头分割为多个短片段，每个短片段对应一个场景的镜头；

2)根据给定的场景截图，在步骤1)得到的每个短/中/长片段中采用SURF特征匹配将场景截图与帧进行匹配，选取匹配点总数最高的场景为视频段所对应的场景，场景的轨迹在时间上为整个片段，在空间上是片段中每个帧的画面区域；

3)根据给定的人物截图，在步骤1)得到的每个短/中/长片段中采用人体跟踪方法和人脸检测识别方法进行人物的识别和跟踪，并且通过SURF特征匹配将人物截图与帧进行匹配作为人脸识别的补充，得到人物实体包围框及其在幕中的轨迹；

4)对步骤1)得到的每个短/中/长片段进行平均采样得到一组关键帧，然后输入预训练的C3D网络计算得到视频特征；

5)在步骤1)得到的每个短/中/长片段中对音频提取梅尔频率倒谱系数MFCC和对数梅尔能量LMFE特征，并计算MFCC特征和LMFE特征的一阶差分和二阶差分，得到声音特征；

6)对输入视频自动生成字幕，并根据时间轴对应到步骤1)得到的每个短/中/长片段中，采用BERT网络生成幕的文字特征；

7)根据步骤2)和步骤3)中的场景轨迹和人物实体包围框轨迹通过预训练的C3D网络计算实体的视觉特征，得到实体特征，并根据每两个实体的联合包围框轨迹同样计算实体对的视觉特征，得到实体对特征；

8)对中视频段中的每个实体对相关的视频特征、声音特征、文字特征、实体的视觉特征和实体对的视觉特征连接起来作为该实体对的互动特征；

9)将组成一个长视频段的所有中视频段中的同一实体对通过8)获得的所有互动特征取平均，作为该实体对的关系特征，然后该实体对的关系特征与每一个互动特征连接作为最终的互动特征；

10)对中视频段的视频特征、声音特征、文字特征连接起来作为该中视频段的场景特征；

11)将8)、9)和10)得到的关系特征、互动特征和场景特征转换到语义空间，结合由BERT模型对关系谓语、互动谓语和场景状态生成的语义特征，通过小样本学习结合零样本学习的方式，进行同时预测，联合学习长视频段上该实体对之间的关系和中视频段上该实体对之间的互动关系以及中视频段的场景状态；

12)根据步骤11)预测的实体关系/互动/场景状态，取与预定义的关系类别/互动类别/场景状态类别相似性度量大于0的为关系/互动/场景状态候选，构建初步的实体关系图和互动图，以及场景状态图；

13)在步骤12)的基础上，根据实体的类型、名称、关系的类型调整关系预测概率，补充实体间的关系；

14)根据步骤13)构建的长视频段实体关系图填充视频知识图，得到整个视频上的实体关系图，用于回答实体之间的关系和查找两个实体之间的关系路径；再根据步骤12)构建的实体互动图和场景状态图，得到中视频段上的实体互动情况以及场景状态，直接回答实体之间的互动问题以及场景识别问题。

15)对短视频段中的每个实体对相关的视频特征、声音特征、文字特征、实体的视觉特征和实体对的视觉特征连接起来作为该实体对的互动特征；

16)将15)得到的互动特征转换到语义空间，结合由BERT模型对互动谓语生成的语义特征，通过小样本学习结合零样本学习的方式，预测短视频段上该实体对之间的互动关系；

17)根据步骤16)预测的实体互动，仿照步骤12)和13)得到最后的短视频段实体互动图，将组成同一个中视频段的所有短视频段中的实体互动按时间先后进行排序，用于回答实体互动顺序问题。

5.根据权利要求4所述的一种基于多模态特征的视频实体关系及交互识别方法，其特征是步骤1)所述的中视频段聚合长视频段的计算方法：

1.1)对输入的中视频段分别根据场景模型、视觉模型和声音模型提取特征；

1.2)利用步骤1.1)中提取的三种特征分别合并中视频段为长视频段；

1.3)将步骤1.2)中根据三种特征的聚合结果合并：

E＝E_p∪E_v∪E_a

其中，E是最终视频上的长视频段分割边界集合，E_p是根据场景模型的长视频段分割边界集合，E_v是根据视觉模型的长视频段分割边界集合，E_a是根据声音模型的长视频段分割边界集合。

6.根据权利要求4所述的一种基于多模态特征的视频实体关系及交互识别方法，其特征是步骤2)中视频段与每个场景的匹配点总数的计算方法为：

其中M_l表示场景l的匹配点总数，

表示场景l的截图ls的匹配点数，S^l为场景l的截图集合，视频段所对应的场景为的匹配点总数最高的场景。

7.根据权利要求4所述的一种基于多模态特征的视频实体关系及交互识别方法，其特征是步骤11)具体为：

11.1)将8)、9)和10)得到的关系特征、互动特征和场景特征经过线性变换转换到语义空间；

11.2)将预定义的关系谓语、互动谓语和场景状态描述通过BERT模型生成关系谓语、互动谓语和场景状态语义特征；

其中，Lr是关系损失函数，Li是互动损失函数，Ls是场景状态损失函数，L是总的损失函数，β表示关系/互动/场景状态特征的语义空间特征，γ表示真实关系谓语/互动谓语/场景状态的语义特征，P表示长片段中非真实关系的集合，Q表示中片段中互动的集合，H表示中片段中场景状态的集合，μ_i表示非真关系/互动/场景状态i的特征，p表示非真实关系的数量，q表示非真实互动的数量，h表示非真实场景状态的数量，N表示组成该长片段的中视频段集合，n表示组成该长片段的中片段数量，Lij是第j个中片段的互动损失，Lsj是第j个中片段是场景状态损失；

11.4)计算关系/互动/场景状态特征与关系谓语/互动谓语/场景状态语义特征的相似度作为对应视频段上实体对关系/互动以及场景状态的概率，进而确定实体对间的关系/互动以及场景状态。