CN113963304B

CN113963304B - 基于时序-空间图的跨模态视频时序动作定位方法及系统

Info

Publication number: CN113963304B
Application number: CN202111557734.6A
Authority: CN
Inventors: 刘萌; 齐孟津; 田传发; 周迪; 郭杰; 马玉玲; 刘新锋
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-06-28
Anticipated expiration: 2041-12-20
Also published as: CN113963304A

Abstract

本发明属于数据表示技术领域，提供了基于时序‑空间图的跨模态视频时序动作定位方法及系统，包括：接收视频数据和自然语言查询信息；基于自然语言查询信息确定自然语言查询特征表示；基于视频数据确定候选视频时序动作片段特征表示；基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示，预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性；通过对相关性得分最高的候选视频时序动作片段进行偏移量矫正，得到最终目标视频时序动作片段定位结果。本发明上述两种特征表示预测对应候选视频时序动作片段的时序偏移量和相关性分数，大幅度提高视频时序动作定位的准确度。

Description

基于时序-空间图的跨模态视频时序动作定位方法及系统

技术领域

本发明属于数据表示技术领域，具体涉及一种基于时序-空间图的跨模态视频时序动作定位方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

互联网技术的飞速发展和影像采集设备的日益普及，致使视频数量呈指数级增长，并且成为当今社会的一种主流媒体形式。面对如此大规模的视频数据，视频时序动作定位已成为视频分析领域的一个热点研究问题，其旨在从给定视频中定位出所有动作的起始和终止时刻，同时对这些动作的类别进行预测。但是，目前的视频时序动作定位方法只能检测和识别预定义集合内的简单动作，如：跑步、跳高和打篮球。随着真实世界中视频所包含的场景越来越复杂，以及其所涉及的对象、属性和行为交互信息越来越多，固定的动作集合无法覆盖真实世界中全部的动作行为。而利用自然语言可以更加灵活地描述视频中的动作行为，且清晰地表达人们定位包含复杂动作行为视频片段的需求。例如：通过“穿红色衣服戴黑色帽子的人第一次从摄像头下跑过”这样一个复杂的自然语言描述查询，从监控视频流中搜索出对应的视频片段，来辅助人员追踪。因此，研究跨模态视频时序动作定位——智能且高效地从视频中定位出符合复杂自然语言描述的动作片段，是非常必要的，其具有广泛的应用领域，包括但不局限于自动驾驶、机器人导航和监控安防等。

近几年，针对跨模态视频时序动作定位，虽然一些深度学习方法被提出且取得不错的效果，但是仍存在以下几个方面问题：

第一，复杂自然语言查询语句理解与表示方面。用于定位目标时序动作片段的自然语言描述一般较长，可同时蕴含多个实体不同动作行为的描述。现有方法大多采用整体编码形式，对其进行语义理解，导致无法精准捕获查询中细节性的关键信息。与此同时，自然语言描述中有些词语具有一词多义的特点，即词语受其所处上下文语境的影响具有截然不同的含义。

第二，时序动作片段候选集生成与表示方面。现有跨模态视频时序动作定位工作，大多采用滑动窗口、锚点多尺度采样等方式生成时序动作片段候选集，致使候选时序动作片段长度单一且与目标时序动作片段间覆盖率较低，故最终定位结果精度较低。此外，现有方法在对视频片段进行表示时，大多采用全局表示的方式（如，C3D或者I3D），忽略了帧内或者帧间物体的交互信息，导致对视频内容理解不够深入，继而影响目标时序动作片段的定位精度。

发明内容

为了解决上述问题，本发明提出了一种基于时序-空间图的跨模态视频时序动作定位方法及系统，其一方面，基于语义角色树对自然语言查询描述进行理解，得到语义精准的文本表示；另一方面，同时引入时序图和空间图网络，来建模不同物体时序和空间上的关联关系，以增强视频时序动作片段表示。最后，将文本和视频时序动作片段表示提供给相关性分数预测以及定位回归模型，来预测相关性分数和对应时序动作片段的时序偏移量。

根据一些实施例，本发明的第一方案提供了一种基于时序-空间图的跨模态视频时序动作定位方法及系统，采用如下技术方案：

基于时序-空间图的跨模态视频时序动作定位方法，包括：

接收视频数据和自然语言查询信息；

基于自然语言查询信息确定自然语言查询特征表示；

基于视频数据确定候选视频时序动作片段特征表示；

基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示，预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性；

通过对相关性得分最高的候选视频时序动作片段进行偏移量矫正，得到最终目标视频时序动作片段定位结果。

进一步地，所述基于自然语言查询信息确定自然语言查询特征表示，包括：

依据自然语言查询信息，获取初始自然语言查询特征表示；

利用语义角色标注工具，对自然语言查询信息中语义关系进行标注，构成语义角色树，；

根据语义角色树叶子节点的名词表示，得到中间节点的动词表示；

根据语义角色树中间节点的动词表示，得到根节点的自然语言查询特征表示；

将根据语义角色树编码得到的自然语言查询特征表示与初始自然语言查询特征表示进行融合，得到最终自然语言查询特征表示。

进一步地，所述语义角色树的根节点为自然语言查询信息，叶子节点为自然语言查询信息中的名词信息，中间节点为自然语言查询信息中的动词信息。

进一步地，所述将根据语义角色树编码得到的自然语言查询特征表示，包括：

对每一个所述中间节点下面连接的叶子节点的名词表示执行平均池化操作，得到新的中间节点的动词表示；

将由聚合叶子节点得到的新的中间节点的动词表示与所述中间节点的动词表示进行融合得到增强后的中间节点的动词表示；

将所有的增强后的中间节点的动词表示执行平均池化操作，得到增强后的根节点的自然语言查询特征表示。

进一步地，所述基于所述视频数据确定候选视频时序动作片段特征表示，包括：

基于所述视频数据，利用时序和空间图网络提取视频单元的表示；

根据二维时序矩阵构建视频时序动作片段候选集，并基于视频单元表示得到候选视频时序动作片段特征表示。

进一步地，基于所述视频数据，利用时序和空间图网络提取视频单元的表示，包括：

基于所述视频数据提取视频帧序列，对所述视频帧序列进行划分得到视频单元；

对视频单元采用C3D网络，提取视频单元的全局表示；

针对视频单元中的所有视频帧进行物体特征提取，得到物体表示集合；

基于视频单元内所有物体表示构建时序图和空间图，并进行不同节点间的信息传播，得到时序图强化的视频单元表示和空间图强化的视频单元表示；

将视频单元的全局表示、时序图强化的视频单元表示以及空间图强化的视频单元表示进行融合，得到最终的视频单元表示。

进一步地，所述根据二维时序矩阵构建视频时序动作片段候选集，并基于视频单元表示得到候选视频时序动作片段特征表示，包括：

依据最终的视频单元表示构建二维时序矩阵，矩阵中每一个元素表示起始和结束分别为对应索引坐标视频单元的一个视频时序动作片段；

将起始和结束区间内的视频单元表示进行最大池化，得到候选视频时序动作片段的初始表示；

依据二维时序表示矩阵，采用膨胀卷积神经网络对每个候选视频时序动作片段表示进行增强，得到候选视频时序动作片段特征表示。

进一步地，基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示采用训练好的定位回归模型预测所述候选视频时序动作片段的时序偏移量，包括：

将候选视频时序动作片段特征表示与自然语言查询特征表示进行串联，输入训练好的定位回归模型，得到二维时序偏移量预测结果。

具体地，预测结果为一个二维向量，第一维表示起始时间偏移量，第二维表示结束时间偏移量。

进一步地，所述基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示利用训练好的相关性预测模型预测所述候选视频时序动作片段与自然语言查询信息的相关性，包括：

将候选视频时序动作片段表示与自然语言查询表示进行串联，而后输入训练好的相关性预测模型，得到相关性分数值。

根据一些实施例，本发明的第二方案提供了一种基于时序-空间图的跨模态视频时序动作定位系统，采用如下技术方案：

基于时序-空间图的跨模态视频时序动作定位系统，包括：

数据收集模块，被配置为接收视频数据和自然语言查询信息；

语言特征表示确定模块，被配置为基于自然语言查询信息确定自然语言查询特征表示；

视频特征表示确定模块，被配置为基于视频数据确定候选视频时序动作片段特征表示；

特征表示分析模块，被配置为基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示，预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性；

视频时序定位模块，被配置为通过对相关性得分最高的候选视频时序动作片段进行偏移量矫正，得到最终目标视频时序动作片段定位结果。

与现有技术相比，本发明的有益效果为：

1、本发明所述的一种基于时序-空间图的跨模态视频时序动作定位方法，利用语义角色树获得了增强的自然语言查询表示，并引入一个时序图和空间图网络来增强候选视频时序动作片段的表示，将上述两种特征表示提供给定位回归和相关性分数预测网络，以预测对应候选视频时序动作片段的时序偏移量和相关性分数，大幅度提高视频时序动作定位的准确度。

2、本发明所述的基于语义角色树的自然语言描述编码策略，精准的捕获自然语言描述的不同粒度的语义信息，并通过自底向上的语义聚合，得到语义精准的自然语言查询表示。

3、本发明引入时序图和空间图网络对视频单元进行编码，其不仅可以捕获不同物体时序上的关联关系，还可以捕获不同物体间的空间关联关系，全面地对视频单元内容进行语义理解，同时也增强了候选视频时序动作片段的表示。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一所述的基于时序-空间图的跨模态视频时序动作定位方法的流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

实施例一

本实施例提供了一种基于时序-空间图的跨模态视频时序动作定位方法，本实施例的具体方案如图1所示，该方法包括以下步骤：

步骤（1）：接收视频数据和自然语言查询信息；

步骤（2）：基于自然语言查询信息确定自然语言查询特征表示；

步骤（3）：基于视频数据确定候选视频时序动作片段特征表示；

步骤（4）：基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示，预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性；

步骤（5）：通过对相关性得分最高的候选视频时序动作片段进行偏移量矫正，得到最终目标视频时序动作片段定位结果。

具体地，本实施例的步骤（2）中基于自然语言查询信息确定自然语言查询特征表示的具体步骤包括：

步骤（2-1）：初始自然语言查询特征表示提取。步骤（1）接收到的自然语言查询信息为一个文本描述语句，这里先使用Skip-Thought算法来进行初始自然语言查询特征表示的提取，该方法已经被证明相对于其他单纯叠加的字级别和词级别算法，速度快且表征效果较好，这里初始自然语言查询特征表示记为

；

步骤（2-2）：词义精准的词语表示提取。针对一段自然语言查询描述文本，使用预训练好的BERT模型，将输入的词语序列编码为上下文语义感知的词语表示序列

，其中

表示语境感知的第i个词语的特征表示，

表示自然语言描述中词语数目。

步骤（2-3）：语义角色树构建。自然语言查询句子通常蕴含包括全局层面（即整个句子）和短语层面在内的多重语义结构。这些多重语义结构涉及到复杂的交互信息，只有充分理解这部分信息并适当地将其与相应的视频部分对齐，才可以有效地定位目标视频片段。鉴于此，本实施例通过使用语义角色标记工具包，构建一个语义角色树，通过充分挖掘不同粒度的语义信息，来提升对文本句子的整体理解。

具体地，给定自然语言描述句子，语义角色标记工具会将句子中的名词以及动词标记出来，并将其设置为语义角色树的节点，其中名词设置为叶子节点，动词设置为中间节点。如果一个名词与一个动词语义相关，那么这两个节点之间会连边。语义角色树标注的结果，是一个3层的树结构，根节点对应的是自然语言查询信息，中间节点为动词信息，叶子节点为名词信息。

特别地，整个句子作为语义角色树的根节点，并与所有动词相连。注意，一个动词节点及其相关的名词节点，组成一个语义子树（也可看作一个短语）。

步骤（2-4）：语义表示提取和整合。将步骤（2-2）中BERT输出的相应词语表示，作为这些节点的初始表示，记为动词表示集合

以及名词表示集合

，其中

表示从S中索引出的第i个动词的表示，

表示从S中索引出的第i个名词对应的表示，

表示动词数目，

表示名词数目。

为得到每一个短语的表示，对每一个动词节点所包含的叶子节点（名词节点）执行平均池化操作，得到新的动词表示。之后，将其与初始动词表示进行融合，得到名词增强后的动词表示。具体计算流程如下：

（1）

其中，W和b为学习参数，

为聚合叶子结点得到的第i个动词的表示，

为名词增强后的第i个动词的表示；

步骤（2-5）：在得到增强后的动词表示后，采用类似名词节点的处理方式，即对所有动词节点执行平均池化操作，得到增强后的根节点表示

。而后，利用公式（1）对根节点信息

和

进行融合，得到最终的自然语言查询特征表示

。

本实施例的步骤（3）中基于视频数据确定候选视频时序动作片段特征表示具体步骤包括：

步骤（3-1）：利用时空图网络提取视频单元的表示，具体步骤如下：

步骤（3-1-1）：本项目将输入视频按照一定的帧率提取视频帧序列，而后采用固定间隔将帧序列分割为N个互不相交的视频单元，这里每个视频单元均由T个视频帧组成；

步骤（3-1-2）：为了提取视频单元的全局表示，本方法采用C3D网络，得到视频单元的全局表示

；

步骤（3-1-3）：基于视频单元的全局表示，利用时序图和空间图提取最终的视频单元表示。

可以有效捕获视频单元内的动作信息，但是其无法捕获视频内物件和物体间细粒度交互信息，不足以全面表征视频单元内容。

鉴于此，拟引入时序图和空间图分支，其中时序图分支用于捕获不同物体时序上行为变化信息，而空间图分支用于捕获不同物体间空间交互信息，具体步骤包括：

步骤（3-1-3-1）：针对视频单元中的所有视频帧进行物体特征提取，得到物体表示集合。

采用目标检测网络Faster-RCNN网络，提取视频单元中每一个视频帧内部的物体特征，这里每一帧内仅保留置信度分数较高的K物体表示信息，记为物体表示信息序列

，其中，

表示第i个视频帧内第j个物体表示，P=T·K；P表示视频中所有物体数目，T表示视频帧数目，K表示单帧内物体数目，D表示物体表示维度。随后，物体表示信息序列F被分别输入到时序图分支和空间图分支；时序图对所有物体表示建模，而空间图对每一帧内的物体关系建模。

步骤（3-1-3-2）：基于视频单元内所有物体表示构建时序图，并进行不同节点间的信息传播，得到时序图强化的视频单元表示。

具体地，构建了一个时序图，其中每一帧的物体表示作为该图的节点信息，所有节点之间连边。为了衡量两个节点间关联程度，定义了边权重，如下：

(2)

其中，

表示节点a和节点b之间的关联程度。通过上述公式，可以获得时序图的邻接矩阵

，每一个元素

反映了时序上不同物体节点之间的关系。之后，采用M层的图卷积网络来建模物体间时序关联关系。上述过程可表述为如下公式：

（3）

其中，

表示所有节点在第m层图卷积网络的隐含表示，

表示第m层图卷积网络的嵌入维度，

为待学习参数矩阵，

。最后，对时序图网络的输出结果

执行最大池化操作，得到最终的时序图强化的视频单元表示

；

步骤（3-1-3-3）：基于视频单元内所有物体表示构建空间图，并进行不同节点间的信息传播，得到空间图强化的视频单元表示。

为了增强不同视频单元表征的区分性，引入空间图网络来建模帧内的结构信息。针对视频单元的第i帧，构建一个子图

，

。然后，类似于时序图网络，计算每一帧的邻接关系矩阵

，

，

表示视频第i帧内部节点b和节点k之间的关联程度，并对每一帧执行Q层图卷积操作，每q层卷积得到结果为

，其中

为学习参数，

表示第q层卷积维度，

为由目标检测网络得到的物体表示矩阵。最终，每一帧空间图卷积网络输出经过最大池化，得到每一帧的表示，这些表示经过平均池化得到空间图强化的视频单元表示

；

步骤（3-1-4）：经过时序图和空间图分支处理后，将视频单元全局表示

、时序图得到的时序图强化的视频单元表示

以及空间图得到的空间图强化的视频单元表示进行拼接，得到最终的视频单元表示

，即

。

步骤（3-2）：视频时序动作片段候选集生成与优化。为了得到具有灵活时序长度且与目标视频片段有较高覆盖率的视频片段候选集，本方法构建二维时序矩阵M，该矩阵包含了所有可能的候选视频时序动作片段。

具体地，矩阵中元素

表示起始为第i个视频单元，结束为第j个视频单元的候选视频时序动作片段。由于矩阵中合法的视频片段数量较多，共N(N+1)/2，因此所需计算量较大。

此外，由于过于密集的采样使得候选视频片段之间重叠率较高，故本实施例拟对二维时序矩阵进行稀疏化操作，即对于时长较短的片段，采取全部保留的策略；而对于时长较长的片段，由于其相邻位置为重叠率较高的视频片段，故采取部分保留的策略。通过这种稀疏化策略，减少了候选集中视频片段的数量，降低了计算成本，同时保证了候选集中的视频片段具有灵活的时序长度。

步骤（3-3）：候选视频时序动作片段特征表示生成。由于每个候选视频时序动作片段都是由一个或多个连续的视频单元组成的，故首先对候选视频时序动作片段内的视频单元表示执行最大池化操作，得到初始的候选视频时序动作片段表示。

之后，将所有候选视频时序动作片段的表示也构造成一个二维时序表示矩阵C，其中

表示起始为第i个视频单元，结束为第j个视频单元的候选视频时序动作片段的表示。为捕获候选视频时序动作片段的上下文信息，利用膨胀卷积神经网络，通过多个不同尺度的卷积操作，得到不同上下文信息强化的候选视频时序动作片段表示。

最终，将这些结果进行拼接，得到最终的候选视频时序动作片段表示。

在本实施例的步骤（4）中，基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示，预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性的具体步骤包括：

步骤（4-1）：将候选视频时序动作片段特征表示与自然语言查询特征表示进行串联，而后输入训练好的定位回归模型，得到二维时序偏移量预测结果；

步骤（4-2）：将候选视频时序动作片段特征表示与自然语言查询特征表示进行串联，而后输入训练好的相关性预测模型，得到相关性分数值。

具体地，定位回归模型以及相关性预测模型分别为一个多层感知机网络，多层感知机网络由两个全连接层和ReLU激活函数组成，其中ReLU激活函数位于两个全连接层之间，并且这两个多层感知机网络的参数不共享，虽然采用的都是多层感知机网络，但是通过损失函数约束模型就可以实现偏移量预测和相关性预测的不同预测过程。

可以理解的是，训练定位回归模型的损失函数为：训练数据集中所有正样本对二维时序偏移量预测结果与真实时序偏移量

范数的和，具体公式如下：

（4）

其中，

是真实的时序偏置量，

为定位回归模型的输出结果；

表示真实的开始时间偏置量，

表示真实的结束时间偏置量，

表示预测的开始时间偏置量，

表示预测的结束时间偏置量。

另外，训练相关性预测模型的损失函数：旨在约束训练数据集中正样本对相关性分数尽可能较大，而负样本对的相关性分数尽可能交小，具体公式如下：

（5）

其中，P为正样本对数据集，N为负样本对数据集，score为相关性预测模型预测得到的相关性分数，

和

为正负样本项之间的平衡系数；

将定位回归模型的损失函数与相关性预测模型的损失函数相加，得到基于时序-空间图的跨模态视频时序动作定位方法的训练损失函数

，

为两个损失之间的平衡系数，

表示公式（4）的定位回归损失函数；

表示公式（5）相关性预测损失函数。

在本实施例的步骤（4）中，利用优化函数求解基于时序-空间图的跨模态视频时序动作定位方法中用到的所有网络中的参数。所述优化函数为Pytorch中的Adam函数。

本实施例在进行跨模态视频时序动作片段定位时，对自然语言查询进行全面地理解与表示，同时实现高质量候选视频时序动作片段生成与表示，继而提高定位准确性。

实施例二

本实施例提供了一种基于时序-空间图的跨模态视频时序动作定位系统。

基于时序-空间图的跨模态视频时序动作定位系统，包括：

此处需要说明的是，上述数据收集模块、语言特征表示确定模块、视频特征表示确定模块、特征表示分析模块和视频时序定位模块与实施例一中的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于时序-空间图的跨模态视频时序动作定位方法，其特征在于，包括：

接收视频数据和自然语言查询信息；

基于自然语言查询信息确定自然语言查询特征表示，包括：

依据自然语言查询信息，获取初始自然语言查询特征表示，使用Skip-Thought算法来进行初始自然语言查询特征表示的提取；

利用语义角色标注工具，对自然查询语言描述信息中语义关系进行标注，构成语义角色树；

将根据语义角色树编码得到的自然语言查询特征表示与初始自然语言查询特征表示进行融合，得到最终的自然语言查询特征表示；

基于视频数据确定候选视频时序动作片段特征表示，包括：

基于所述视频数据，利用时序和空间图网络提取视频单元的表示，包括：

对视频单元采用C3D网络，提取视频单元的全局表示；

构建了一个时序图，其中每一帧的物体表示作为该图的节点信息，所有节点之间连边，为了衡量两个节点间关联程度，定义了边权重，如下：

其中，

表示节点a和节点b之间的关联程度，通过上述公式，可以获得时序图的邻接矩阵

，P表示视频中所有物体数目，每一个元素

反映了时序上不同物体节点之间的关系；之后，采用M层的图卷积网络来建模物体间时序关联关系，上述过程可表述为如下公式：

其中，

表示所有节点在第m层图卷积网络的隐含表示，

表示第m层图卷积网络的嵌入维度，

为待学习参数矩阵，

；最后，对时序图网络的输出结果

执行最大池化操作，得到最终的时序图强化的视频单元表示

；

构建空间图，针对视频单元的第i帧，构建一个子图

，

；然后，类似于时序图网络，计算每一帧的邻接关系矩阵

，K表示单帧内物体数目，

，

，其中

为学习参数，

表示第q层卷积维度，

为由目标检测网络得到的物体表示矩阵，D表示物体表示维度；最终，每一帧空间图卷积网络输出经过最大池化，得到每一帧的表示，这些表示经过平均池化得到空间图强化的视频单元表示

；

将视频单元的全局表示、时序图强化的视频单元表示以及空间图强化的视频单元表示进行融合，得到最终的视频单元表示；

根据二维时序矩阵构建视频时序动作片段候选集，并基于最终的视频单元表示得到候选视频时序动作片段的特征表示，包括：

依据最终的视频单元表示构建二维时序矩阵，矩阵中每一个元素表示一个视频时序动作片段，所述视频时序动作片段是由起始和结束区间内的视频单元组成的；

依据二维时序表示矩阵，采用膨胀卷积神经网络对每个候选视频时序动作片段的初始表示进行增强，得到候选视频时序动作片段特征表示；

基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示，预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性，具体为：

将候选视频时序动作片段特征表示与自然语言查询特征表示进行串联，输入一个定位回归模型，得到二维时序偏移量预测结果；

将候选视频时序动作片段表示与自然语言查询表示进行串联，而后输入多层感知机模型，得到相关性分数值；

2.如权利要求1所述的基于时序-空间图的跨模态视频时序动作定位方法，其特征在于，所述基于自然语言查询信息确定自然语言查询特征表示，还包括：

根据语义角色树中间节点的动词表示，得到根节点的自然语言查询信息表示。

3.如权利要求1所述的基于时序-空间图的跨模态视频时序动作定位方法，其特征在于，所述语义角色树的根节点为自然语言查询信息，叶子节点为自然语言查询信息中的名词信息，中间节点为自然语言查询信息中的动词信息。

4.如权利要求2所述的基于时序-空间图的跨模态视频时序动作定位方法，其特征在于，所述将根据语义角色树编码得到的自然语言查询特征表示，包括：

5.基于时序-空间图的跨模态视频时序动作定位系统，其特征在于，包括：

语言特征表示确定模块，被配置为基于自然语言查询信息确定自然语言查询特征表示，包括：

视频特征表示确定模块，被配置为基于视频数据确定候选视频时序动作片段特征表示，包括：

对视频单元采用C3D网络，提取视频单元的全局表示；

其中，

，P表示视频中所有物体数目，每一个元素

其中，

表示所有节点在第m层图卷积网络的隐含表示，

表示第m层图卷积网络的嵌入维度，

为待学习参数矩阵，

；最后，对时序图网络的输出结果

执行最大池化操作，得到最终的时序图强化的视频单元表示

；

构建空间图，针对视频单元的第i帧，构建一个子图

，

；然后，类似于时序图网络，计算每一帧的邻接关系矩阵

，K表示单帧内物体数目，

，

，其中

为学习参数，

表示第q层卷积维度，

；

特征表示分析模块，被配置为基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示，预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性，具体为：