CN115909170A

CN115909170A - 深度视频理解方法、装置、设备及可读存储介质

Info

Publication number: CN115909170A
Application number: CN202211604376.4A
Authority: CN
Inventors: 梁超; 郭佳昊; 鲁安康; 赵匡益; 孙莺菲; 李睿哲
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-04-04

Abstract

本申请涉及一种深度视频理解方法、装置、设备及可读存储介质，涉及视频理解技术领域，包括获取待理解视频中每个切片对应的文本特征；对每个切片进行特征提取得到每个切片的切片整体特征；对每个切片中的人物进行人脸检测与追踪生成追踪序列视频，并对追踪序列视频进行特征提取得到人物追踪视频特征；基于残差网络和切片整体特征确定每个切片对应的地点类型；基于人物追踪视频特征和地点类型对每个切片中的人物和地点进行随机组合得到每个切片的目标特征；将文本特征、切片整体特征及目标特征进行拼接得到每个切片的多模态特征；根据多模态特征对人物与人物、人物与地点之间的交互及关系进行预测。本申请可有效提高关系、交互等预测结果的准确性。

Description

深度视频理解方法、装置、设备及可读存储介质

技术领域

本申请涉及视频理解技术领域，特别涉及一种深度视频理解方法、装置、设备及可读存储介质。

背景技术

视频理解是给定一段视频后能够自动识别视频中的地点、人物身份、交互以及关系等属性的技术。其中，深度视频理解算法的发展有利于许多领域的发展，如为视障人群生成电影的音频描述、视频的智能快进以及相关人物的情节聚类等。

由于影视作品的深度视频理解是一个综合性的问题，因此需要对以人物为中心的关系和互动进行预测。不过，影视作品关系中人物的动作往往存在很多重合的部分，比如一起吃饭、谈话、运动的两个人，可能是朋友，也可能是父母子女，还有可能是配偶，而相关技术中往往仅凭视觉特征来对人物之间的关系、交互等进行预测，以致预测得到的结果准确性较低。

发明内容

本申请提供一种深度视频理解方法、装置、设备及可读存储介质，以解决相关技术中仅通过视觉特征进行关系、交互等的预测而导致的预测结果准确性低的问题。

第一方面，提供了一种深度视频理解方法，包括以下步骤：

获取待理解视频中每个切片对应的文本特征；

对每个切片进行特征提取，得到每个切片对应的切片整体特征；

对每个切片中的人物进行人脸检测与追踪，生成追踪序列视频，并对追踪序列视频进行特征提取，得到人物追踪视频特征；

基于残差网络和切片整体特征确定每个切片对应的地点类型；

基于人物追踪视频特征和地点类型对每个切片中的人物和地点进行随机组合，得到每个切片对应的目标特征，所述目标特征包括人物-人物对特征和人物-地点对特征；

将每个切片对应的文本特征、切片整体特征以及目标特征进行拼接，得到每个切片对应的多模态特征；

根据所述多模态特征对待理解视频中的人物与人物和/或人物与地点之间的交互及关系进行预测，得到预测结果。

一些实施例中，所述切片与待理解视频中的各个场景之间具有映射关系，所述根据所述多模态特征对待理解视频中的人物与人物和/或人物与地点之间的交互及关系进行预测，得到预测结果，包括：

根据所述映射关系将目标切片所在的目标场景中的所有切片的多模态特征进行平均池化处理，得到目标场景拼接特征；

基于所述目标场景拼接特征对目标场景中的人物与人物和/或人物与地点之间的关系进行预测，得到关系预测结果；

根据目标切片对应的目标多模态特征和所述目标场景拼接特征对目标切片中的人物与人物和/或人物与地点之间的交互进行预测，得到交互预测结果。

一些实施例中，所述基于所述目标场景拼接特征对目标场景中的人物与人物和/或人物与地点之间的关系进行预测，得到关系预测结果，包括：

将目标场景拼接特征代入第一计算公式，得到目标场景中的人物与人物或人物与地点之间的关系得分；

将最高的关系得分对应的目标关系作为目标场景的关系预测结果；

所述第一计算公式为：

式中，s_R(V，r)表示人物-人物对p或人物-地点对p在目标场景下对于关系r的关系得分，V表示目标场景对应的切片集，Φ_R表示目标场景拼接特征，

与

均表示网络参数，σ_r表示激活函数。

一些实施例中，所述根据目标切片对应的目标多模态特征和所述目标场景拼接特征对目标切片中的人物与人物和/或人物与地点之间的交互进行预测，得到交互预测结果，包括：

将目标切片对应的目标多模态特征和目标场景拼接特征代入第二计算公式，得到目标切片中的人物与人物或人物与地点之间的交互得分；

将最高的交互得分对应的交互关系作为目标切片的交互预测结果；

所述第二计算公式为：

式中，s_I(v，V，a)表示人物-人物对p或人物-地点对p在目标切片v上对于互动a的互动得分，Φ_I表示目标多模态特征，Φ_R表示目标场景拼接特征，

W^I1、B^I1和

均表示网络参数，σ_a表示激活函数。

一些实施例中，所述对每个切片中的人物进行人脸检测与追踪，生成追踪序列视频，包括：

对待理解视频中每个场景中的人物进行人脸检测，以确定每个人物的身份信息；

对每个场景中的人物进行追踪，生成多个人物追踪序列；

基于所述身份信息对多个人物追踪序列进行合并处理，得到目标追踪序列；

根据所述映射关系、所述目标追踪序列以及切片的开始和结束时刻生成每个切片对应的追踪序列视频。

一些实施例中，在所述根据所述多模态特征对待理解视频中的人物与人物和/或人物与地点之间的交互及关系进行预测，得到预测结果的步骤之后，还包括：

根据所述预测结果生成与所述待理解视频对应的知识图谱。

第二方面，提供了一种深度视频理解装置，包括特征提取单元、组合单元、拼接单元和预测单元；

所述特征提取单元用于获取待理解视频中每个切片对应的文本特征；对每个切片进行特征提取，得到每个切片对应的切片整体特征；对每个切片中的人物进行人脸检测与追踪，生成追踪序列视频，并对追踪序列视频进行特征提取，得到人物追踪视频特征；基于残差网络和切片整体特征确定每个切片对应的地点类型；

所述组合单元用于基于人物追踪视频特征和地点类型对每个切片中的人物和地点进行随机组合，得到每个切片对应的目标特征，所述目标特征包括人物-人物对特征和人物-地点对特征；

所述拼接单元用于将每个切片对应的文本特征、切片整体特征以及目标特征进行拼接，得到每个切片对应的多模态特征；

所述预测单元用于根据所述多模态特征对待理解视频中的人物与人物和/或人物与地点之间的交互及关系进行预测，得到预测结果。

一些实施例中，所述切片与待理解视频中的各个场景之间具有映射关系，所述预测单元具体用于：

第三方面，提供了一种深度视频理解设备，包括：存储器和处理器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现前述的深度视频理解方法。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，以实现前述的深度视频理解方法。

本申请提供的技术方案带来的有益效果包括：可有效提高关系、交互等预测结果的准确性。

本申请提供了一种深度视频理解方法、装置、设备及可读存储介质，包括获取待理解视频中每个切片对应的文本特征；对每个切片进行特征提取，得到每个切片对应的切片整体特征；对每个切片中的人物进行人脸检测与追踪，生成追踪序列视频，并对追踪序列视频进行特征提取，得到人物追踪视频特征；基于残差网络和切片整体特征确定每个切片对应的地点类型；基于人物追踪视频特征和地点类型对每个切片中的人物和地点进行随机组合，得到每个切片对应的目标特征，所述目标特征包括人物-人物对特征和人物-地点对特征；将每个切片对应的文本特征、切片整体特征以及目标特征进行拼接，得到每个切片对应的多模态特征；根据所述多模态特征对待理解视频中的人物与人物和/或人物与地点之间的交互及关系进行预测，得到预测结果。本申请通过引入人物-地点对，即加入对地点的识别，使得在不同场景地点下对人物交互有更合理的预测，并通过文本、切片整体特征以及人物-人物对特征和人物-地点对特征所拼接形成的多模态特征进行更为准确的交互及关系的预测，进而有效提高关系、交互等预测结果的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种深度视频理解方法的流程示意图；

图2为本申请实施例提供的形成多模态特征的原理示意图；

图3为本申请实施例提供的进行交互及关系预测的具体流程示意图；

图4为本申请实施例提供的进行交互及关系预测的原理示意图；

图5为本申请实施例提供的一种深度视频理解装置的结构示意图；

图6为本申请实施例提供的一种深度视频理解设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种深度视频理解方法、装置、设备及可读存储介质，其能解决相关技术中仅通过视觉特征进行关系、交互等的预测而导致的预测结果准确性低的问题。

参见图1和图2所示，本申请实施例提供了一种深度视频理解方法，包括以下步骤：

步骤S10：获取待理解视频中每个切片对应的文本特征；

示范性的，可以理解的是，视频理解算法的核心是要理解对象、动作、场景这三个要素；其中，(1)关于演员识别以及角色关系识别：电影是以人为核心来展开故事的，所以对于演员身份的识别是视频理解的基础；早期的身份识别通过图匹配来完成，通过在视频与剧本的共同出现次数分别构建人脸/名字亲和力矩阵，归一化后，将出现次数作为边的权重，将矩阵转化为图，将问题转化为两个亲和力图之间的匹配问题，然后通过光谱匹配将两个图中的顶点一一对应，得到人脸-名字的匹配；后续通过构建图库，提取视频中人脸的特征与图库中的人脸特征进行相似度匹配，将身份匹配转换成图库查询的问题。

此外，角色之间的关系同样是理解电影的关键环节，由于人物之间的关系并不是一种显性的视觉特征，因此可通过借助不同模态的特征或者对已有特征进行有针对性的融合，例如通过融合社会关系学的知识，融合人物的年龄、发型、表情、服装等特征进行对关系的辅助识别。

(2)关于动作及交互识别：在动作识别方面主要分为双流网络以及3D卷积的方法，双流的思想是将网络分为空间流卷积网络与时间流卷积网络，在两个网络上分别进行识别后，将得分进行融合得到最终的识别结果；3D卷积通过使用3D卷积核对视频直接进行特征提取，而不需要对时间维度单独建模。

而在交互识别方面则主要有双阶段方法和单阶段方法，双阶段方法将任务分为目标检测与交互判断；单阶段方法主要通过用检测框的中点来代表人与物体，两个点的中点来表示交互点，该模型使用两个并行分支来进行检测与匹配，点预测分支用来预测人、物体以及交互点，匹配分支用来预测交互点到其对应的人物以及物体点的位移，来自于同一个交互点的人物点以及物体点将被视作一个匹配对，以此预测最终的交互。

(3)关于场景识别：场景识别可通过使用两个组合的深层网络来处理不同分辨率的图片，较浅的网络处理分辨率低的图片以获得全局信息，更深的网络处理分辨率高的图片以获得更局部的信息，全局与局部结合的设计思路使网络对于图片信息掌握更加精细。

应当理解的是，影视作品里很多关系中人物的动作往往存在很多重合的部分，例如一起吃饭、谈话、运动的两个人，可能是朋友，也可能是父母子女，还有可能是配偶，或者是兄弟姐妹等；由此可见，在此情况下，多模态特征就显得尤为重要，例如台词中含有较为明显的“dad”、“boss”、“brother”等词汇将会提供决定性的信息。因此，本实施例将获取待理解视频中每个切片对应的文本特征，以辅助预测人物-人物对或人物-地点对的关系预测。

不过，在获取文本特征之前，需要进行数据准备：首先可基于TRECVID官方给出的图片集筛选出人脸库以及地点库；之后可通过ASR(Automatic Speech Recognition，自动语音识别技术)将待理解电影的字幕转录为文本信息，并基于字幕文本对待理解电影进行切片分割，其中，可将每一句完整台词的开始和结束时刻作为切片的分割依据。假设待理解电影中的一个场景分割出的切片数为n，那么该场景可以表示为V＝{v₁,v₂…v_n}，保存切片后结合场景信息生成“电影-切片”以及“场景-切片”映射表，也即切片分别与待理解电影以及待理解电影中的场景分别具有映射关系。

在本实施例中，可使用bert-base模型进行文本特征提取，即得到n×768的特征矩阵，n为切片数目，768为一个切片的特征维数，并按照预定结构存储。

步骤S20：对每个切片进行特征提取，得到每个切片对应的切片整体特征；

示范性的，在本实施例中，可使用TSM视频特征提取模型对每个切片进行特征提取，进而获取到每个切片对应的切片整体特征，即得到n×2048的特征矩阵。

步骤S30：对每个切片中的人物进行人脸检测与追踪，生成追踪序列视频，并对追踪序列视频进行特征提取，得到人物追踪视频特征；

示范性的，应当理解的是，本实施例将通过在场景上进行人脸检测与追踪，并与人脸库中的图像进行相似度计算，得到不同演员的追踪序列，并保存为视频后再提取出人物追踪视频特征。

进一步的，所述对每个切片中的人物进行人脸检测与追踪，生成追踪序列视频，包括：

对每个场景中的人物进行追踪，生成多个人物追踪序列；

示范性的，在本实施例中，可通过SCRFD模型与ArcFace模型在待理解视频中每个场景上逐帧进行人脸检测，以实现人脸特征提取。并将所提取到的人脸特征与预设人脸库中的人脸特征进行相似度计算，并保存相似度矩阵，以确认人脸身份，即确定每个人物的身份信息；然后结合fasterRCNN模型和Deepsort算法在场景上进行人物追踪，并保存原始追踪信息，以得到人物追踪系列；然后通过人物追踪序列以及逐帧的人脸身份来预测人物追踪序列中的人物身份，并将人物身份信息一致的不同序列合并为同一序列。

比如，人物追踪序列1中的人物身份为A，人物追踪序列2中的人物身份为B，人物追踪序列3中的人物身份为A，则将人物追踪序列1和人物追踪序列3进行合并后，得到合并后的人物追踪序列；而由于人物追踪序列2中的人物身份与其他人物追踪序列中的人物身份不一致，因此无需对人物追踪序列2进行合并处理，则将人物追踪序列2和合并后的人物追踪序列作为目标追踪序列。

然后基于目标追踪序列以及每个切片视频的开始和结束时刻的信息来生成每个切片对应的追踪序列视频，并通过TSM模型提取人物追踪视频特征，即得到并保存n×2048的特征矩阵。

步骤S40：基于残差网络和切片整体特征确定每个切片对应的地点类型；

示范性的，应当理解的是，现有技术在利用多模态信息进行预测时，其中大多数都忽略了背景信息，即地点信息；但是，地点信息对交互识别具有很大帮助。例如，在餐厅里，人物大概率将会发出吃饭以及交谈这样的动作；在车里，那么动作则是开车。此外，在关系预测中，特定的地点能够为关系预测提供非常有判别力的信息，例如，地点在家中，那么在该场景出现的人物之间的关系则大概率是亲属，地点在办公室，那么就很有可能是上司与下属或是同事的关系。

因此，本实施例将通过ResNet提取切片整体特征中地点特征，并计算地点特征与预设地点库中地点之间的相似度矩阵，进而得到每个切片中地点对应的地点类型，以使得在不同场景地点下对人物交互有更合理的预测。

步骤S50：基于人物追踪视频特征和地点类型对每个切片中的人物和地点进行随机组合，得到每个切片对应的目标特征，所述目标特征包括人物-人物对特征和人物-地点对特征；

示范性的，在本实施例中，将根据人物追踪视频特征以及地点类型将每个切片中检测到的人物和地点进行随机组合，以得到每个切片对应的人物-人物对特征和人物-地点对特征。比如，切片1中检测到人物A、人物B以及地点C，则可将人物A、人物B以及地点C进行随机组合，将可得到人物A-人物B对、人物A-地点C对以及人物B-地点C对。

步骤S60：将每个切片对应的文本特征、切片整体特征以及目标特征进行拼接，得到每个切片对应的多模态特征；

示范性的，在本实施例中，将每个切片单独提取出的文本特征、切片整体特征以及人物-人物对特征/人物-地点对特征进行拼接，即将所有特征单独经过两个全连接层后，进行直接拼接得到每个切片对应的多模态特征向量(即多模态特征)，且特征维数为1536维。

步骤S70：根据所述多模态特征对待理解视频中的人物与人物和/或人物与地点之间的交互及关系进行预测，得到预测结果。

示范性的，在本实施例中，将多模态特征输入模型，以组合单个切片所在场景上的所有切片的多模态特征来预测该场景上人物与人物/地点的关系并辅助预测交互，即通过单个切片所在场景上的所有多模态特征辅助该单个切片的多模态特征来预测人物-人物对/人物-地点对之间的交互，进而提高关系、交互等预测结果的准确性。

进一步的，所述切片与待理解视频中的各个场景之间具有映射关系，参见图3所示，步骤S70具体包括：

步骤S701：根据所述映射关系将目标切片所在的目标场景中的所有切片的多模态特征进行平均池化处理，得到目标场景拼接特征；

步骤S702：基于所述目标场景拼接特征对目标场景中的人物与人物和/或人物与地点之间的关系进行预测，得到关系预测结果；

具体的，所述基于所述目标场景拼接特征对目标场景中的人物与人物和/或人物与地点之间的关系进行预测，得到关系预测结果，包括：

所述第一计算公式为：

与

均表示网络参数，σ_r表示激活函数。

步骤S703：根据目标切片对应的目标多模态特征和所述目标场景拼接特征对目标切片中的人物与人物和/或人物与地点之间的交互进行预测，得到交互预测结果。

具体的，所述根据目标切片对应的目标多模态特征和所述目标场景拼接特征对目标切片中的人物与人物和/或人物与地点之间的交互进行预测，得到交互预测结果，包括：

所述第二计算公式为：

W^I1、B^I1和

均表示网络参数，σ_a表示激活函数。

示范性的，参见图4所示，以进行目标切片f及其所在的目标场景F的交互关系预测为例：在得到目标场景F中每个切片对应的多模态特征Φ后，将目标场景F中所有切片的多模态特征Φ均输入至预测模型中进行平均池化处理(即图4中的avg pool)，得到目标场景F对应的目标场景拼接特征Φ_R；此时，目标场景拼接特征Φ_R将分成两路输出，一路输入至分类器(即classifier)进行关系预测，另一路输入至互动预测通道，以辅助目标切片f对应的目标多模态特征Φ_I进行互动预测。

其中，将目标场景拼接特征Φ_R输入至分类器后，将通过以下计算公式得到目标场景F中的人物与人物或人物与地点之间的关系得分：

与

均表示网络参数，

与

的具体值可根据实际需求确定，σ_r表示激活函数，可优选为sigmoid激活函数。

再取得分最高的关系作为目标场景F的关系预测结果，比如，目标场景F中人物D和人物E之间的关系为friend的得分为0.72，stranger的得分为0.33，manager的得分为0.27，由于friend得分最高，因此将人物D和人物E之间的关系设为friend作为关系预测结果。

将目标场景拼接特征Φ_R输入至互动预测通道后，其将与目标切片f对应的目标多模态特征Φ_I一起进入全连接层(即fc)进行拼接融合，得到融合特征；并通过ReLU激活函数将融合特征输入至分类器后，通过以下计算公式得到目标切片f中的人物与人物或人物与地点之间的交互得分：

W^I1、B^I1和

均表示网络参数，

W^I1、B^I1和

的具体值可根据实际需求确定，σ_a表示激活函数，可优选为sigmoid激活函数。

最后将得分最高的交互关系作为目标切片f的交互预测结果，比如，目标切片f中人物D和人物E在地点G的交互为asks的得分为0.69，admits的得分为0.65，watches的得分为0.64，explains的得分为0.35，talks to的得分为0.27，由于asks得分最高，因此将人物D和人物E在地点G的交互设为asks作为交互预测结果。

综上，由于关系往往会影响一对对象的交互模式，因此本实施例通过关系的预测来辅助交互的预测，以提高交互预测的准确性；同时，本实施例通过引入人物-地点对，即加入对地点的识别，使得在不同场景地点下对人物交互有更合理的预测；此外，本实施例使用文本、切片整体特征以及人物-人物对特征和人物-地点对特征拼接形成一个能够更加完整表示电影的多模态特征数据，并通过该多模态特征数据进行更为准确的交互及关系的预测，以有效提高关系、交互等预测结果的准确性，进而可提高故事电影理解的准确性和有效性。

进一步的，在所述根据所述多模态特征对待理解视频中的人物与人物和/或人物与地点之间的交互及关系进行预测，得到预测结果的步骤之后，还包括：

根据所述预测结果生成与所述待理解视频对应的知识图谱。

示范性的，在本实施例中，将预测结果导入数据库，以生成待理解电影对应的电影级和场景级的知识图谱；并在知识图谱生成后，将影片相关的查询问题进行解析，转换成数据库查询语句，在数据库中查询到最接近的关系并按照积分算法选出答案完成检索。

由此可见，本实施例针对故事电影提出一种使用多模态信息对故事中人物互动与关系进行预测的方法，具体通过拼接一段电影切片的整体视频特征、台词文本特征以及人物/地点特征得到该切片的一个完整特征表示，之后通过组合多个切片的特征来预测一对对象在场景上的关系，并借助于该关系辅助预测该对对象在单个切片上的互动，即通过文本、视频等多种信息模态相融合构成特征来自动分析电影故事内容，据此对电影中人物的短期交互和长期关系问题进行自动回答。

参见图5所示，本申请实施例还提供了一种深度视频理解装置，包括特征提取单元、组合单元、拼接单元和预测单元；

进一步的，所述切片与待理解视频中的各个场景之间具有映射关系，所述预测单元具体用于：

进一步的，所述预测单元具体还用于：

所述第一计算公式为：

与

均表示网络参数，σ_r表示激活函数。

进一步的，所述预测单元具体还用于：

所述第二计算公式为：

W^I1、B^I1和

均表示网络参数，σ_a表示激活函数。

进一步的，所述特征提取单元具体用于：

对每个场景中的人物进行追踪，生成多个人物追踪序列；

进一步的，所述装置还包括图谱生成单元，其用于根据所述预测结果生成与所述待理解视频对应的知识图谱。

需要说明的是，所属本领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各单元的具体工作过程，可以参考前述深度视频理解方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图6所示的深度视频理解设备上运行。

本申请实施例还提供了一种深度视频理解设备，包括：通过系统总线连接的存储器、处理器和网络接口，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行，以实现前述的深度视频理解方法的全部步骤或部分步骤。

其中，网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

处理器可以是CPU，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程逻辑门阵列(FieldProgrammable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件分立硬件组件等。通用处理器可以是微处理器，或者该处理器也可以是任何常规的处理器等，处理器是计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如视频播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如视频数据、图像数据等)等。此外，存储器可以包括高速随存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘、智能存储卡(SmartMedia Card，SMC)、安全数字(Secure digital，SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时，实现前述的深度视频理解方法的全部步骤或部分步骤。

本申请实施例实现前述的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only memory，ROM)、随机存取存储器(Random Accessmemory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、服务器或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种深度视频理解方法，其特征在于，包括以下步骤：

获取待理解视频中每个切片对应的文本特征；

2.如权利要求1所述的深度视频理解方法，其特征在于，所述切片与待理解视频中的各个场景之间具有映射关系，所述根据所述多模态特征对待理解视频中的人物与人物和/或人物与地点之间的交互及关系进行预测，得到预测结果，包括：

3.如权利要求2所述的深度视频理解方法，其特征在于，所述基于所述目标场景拼接特征对目标场景中的人物与人物和/或人物与地点之间的关系进行预测，得到关系预测结果，包括：

所述第一计算公式为：

式中，s_R(V,r)表示人物-人物对p或人物-地点对p在目标场景下对于关系r的关系得分，V表示目标场景对应的切片集，Φ_R表示目标场景拼接特征，

与

均表示网络参数，σ_r表示激活函数。

4.如权利要求2所述的深度视频理解方法，其特征在于，所述根据目标切片对应的目标多模态特征和所述目标场景拼接特征对目标切片中的人物与人物和/或人物与地点之间的交互进行预测，得到交互预测结果，包括：

所述第二计算公式为：

式中，s_I(v,V,a)表示人物-人物对p或人物-地点对p在目标切片v上对于互动a的互动得分，Φ_I表示目标多模态特征，Φ_R表示目标场景拼接特征，

W^I1、B^I1和

均表示网络参数，σ_a表示激活函数。

5.如权利要求2所述的深度视频理解方法，其特征在于，所述对每个切片中的人物进行人脸检测与追踪，生成追踪序列视频，包括：

对每个场景中的人物进行追踪，生成多个人物追踪序列；

6.如权利要求1所述的深度视频理解方法，其特征在于，在所述根据所述多模态特征对待理解视频中的人物与人物和/或人物与地点之间的交互及关系进行预测，得到预测结果的步骤之后，还包括：

根据所述预测结果生成与所述待理解视频对应的知识图谱。

7.一种深度视频理解装置，其特征在于：包括特征提取单元、组合单元、拼接单元和预测单元；

8.如权利要求7所述的深度视频理解装置，其特征在于，所述切片与待理解视频中的各个场景之间具有映射关系，所述预测单元具体用于：

9.一种深度视频理解设备，其特征在于，包括：存储器和处理器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现权利要求1至6中任一项所述的深度视频理解方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，以实现权利要求1至6中任一项所述的深度视频理解方法。