CN113806589B

CN113806589B - 视频片段定位方法、装置以及计算机可读存储介质

Info

Publication number: CN113806589B
Application number: CN202111154796.2A
Authority: CN
Inventors: 高伽林; 孙新; 许蒙蒙; 周曦
Original assignee: Yuncong Technology Group Co Ltd
Current assignee: Yuncong Technology Group Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2024-03-08
Anticipated expiration: 2041-09-29
Also published as: CN113806589A

Abstract

本发明涉及视频处理技术领域，具体提供一种视频片段定位方法、装置与介质，旨在解决如何提高视频片段定位时定位准确性的问题。本发明的方法包括控制视频定位模型根据视频样本中候选视频片段的候选特征以及语言描述信息的语言特征获取第一融合特征，采用图卷积网络并根据第一融合特征获取具有相同起始时间或终止时间的候选视频片段对应的第二融合特征；根据第二融合特征预测的候选视频片段与语言描述信息的匹配度对视频定位模型进行训练；采用训练后的模型进行视频片段定位。根据第一融合特征能够得到准确的候选视频片段提高视频定位的准确性，根据第二融合特征可以准确地区分出语义较难区分的候选视频片段，进一步提高视频定位的准确性。

Description

视频片段定位方法、装置以及计算机可读存储介质

技术领域

本发明涉及视频处理技术领域，具体提供一种视频片段定位方法、装置以及计算机可读存储介质。

背景技术

目前，基于语言查询的视频片段定位方法主要包括一阶段方法和二阶段方法。具体而言，一阶段方法主要包括两种方法，一种方法是对视频中的每一帧进行预测，判断其是否为与查询语言相关的视频片段的起始帧或结束帧，由于这种方法主要是根据当前帧的内容进行预测，忽略了视频的全局特征，导致预测结果的准确性较差；另一种方法是利用真实标签视频片段中的所有帧回归出当前帧分别与起始帧和结束帧的距离，根据距离判断当前帧是否为与查询语言相关的视频片段的起始帧或结束帧，这种方法同样忽略了视频的全局特征。

二阶段方法主要包括：利用滑动窗口等技术从视频中预先定义一系列不同时间长度的候选视频片段，计算候选视频片段与查询语言的特征匹配度，根据特征匹配度进行排序，根据排序结果选取与查询语言最相似的候选视频片段。但是，由于候选视频片段是预先定义的，数量有限，无法涵盖视频中所有与查询语言相关的视频片段，从而可能导致最终获取的与查询语言最相似的候选视频片段存在较大误差。进一步，如果为了尽可能涵盖所有与查询语言相关的视频片段而增加候选视频片段的数量，又会带来巨大的计算量，降低视频片段定位的效率。

可见，目前基于语言查询的视频片段定位方法存在视频定位准确性较差的问题。相应地，本领域需要一种新的视频片段定位方案来解决上述问题。

发明内容

为了克服上述缺陷，提出了本发明，以提供解决或至少部分地解决如何提高基于语言查询进行视频片段定位的定位准确性的技术问题的视频片段定位方法、装置以及计算机可读存储介质。

在第一方面，本发明提供一种视频片段定位方法，所述方法包括：

获取视频样本及其标签并通过下列步骤训练视频定位模型，所述标签包括视频样本所包含行为的行为时间和语言描述信息：

控制所述视频定位模型根据所述视频样本中候选视频片段的候选特征以及所述语言描述信息的语言特征获取第一融合特征，采用图卷积网络并根据所述第一融合特征获取具有相同起始时间或终止时间的候选视频片段对应的第二融合特征；

根据所述第二融合特征预测所述候选视频片段与所述语言描述信息的匹配度，获取所述候选视频片段的视频片段时间与所述行为时间的交并比，根据所述匹配度与所述交并比计算模型损失值，根据所述模型损失值调整模型参数，以完成模型迭代训练；

采用完成训练的视频定位模型并根据目标行为的语言描述信息对目标视频进行视频片段定位，获取所述目标行为对应的视频片段。

在上述视频片段定位方法的一个技术方案中，所述方法还包括通过下列步骤获取候选视频片段的候选特征：

获取所述视频样本的视频特征；

根据所述视频特征的长度T，构建大小为T×T的二维网格；所述二维网格中每个网格的横坐标和纵坐标分别表示起始时间t^s和终止时间t^e，所述网格表示时间跨度为(t^s,t^e)的视频片段；

选取起始时间小于终止时间的网格，对选取到的网格进行稀疏采样，根据稀疏采样的结果确定候选视频片段；

通过下式所示的方法获取所述候选视频片段的候选特征F：

其中，所述表示视频特征，所述A表示候选视频片段的集合且/>和/>分别表示第i个候选视频片段的起始时间和终止时间，N表示候选视频片段的总数；Ψ表示针对每个候选视频片段，将候选视频片段在起始时间的视频特征与终止时间的视频特征进行串联；

并且/或者，

“获取第一融合特征”的步骤具体包括：

根据所述候选特征与所述语言特征并通过下式获取第一特征F₁：

其中，所述表示所述语言描述信息的语言特征，所述/>表示对所述语言特征/>进行最大池化操作，所述/>表示对所述语言特征/>进行最大池化操作后得到的句子特征，所述Conv表示卷积操作，所述‖‖₂表示2范数，所述⊙表示内积运算；

根据所述候选特征与所述语言特征并通过下式获取第二特征F₂：

其中，所述R表示关系矩阵且所述T表示转置操作，所述/>表示对所述语言特征/>进行卷积操作后得到的词语特征，所述/>表示将/>映射到视频特征的特征空间得到的词语特征，所述/>表示外积运算；

对所述第一特征F₁与所述第二特征F₂依次进行特征相加与归一化处理，得到第一融合特征。

在上述视频片段定位方法的一个技术方案中，“获取具有相同起始时间或终止时间的候选视频片段对应的第二融合特征”的步骤具体包括：

采用图卷积网络并根据所述第一融合特征，生成邻接矩阵；所述邻接矩阵包括每个候选视频片段各自对应的邻接元素，所述邻接元素的元素值表示候选视频片段与其他候选视频片段是否具有相同的起始时间或终止时间；

根据所述第一融合特征与所述邻接矩阵，获取所述第二融合特征；

并且/或者，

“预测所述候选视频片段与所述语言描述信息的匹配度”的具体步骤包括通过下式所示的方法预测所述候选视频片段与所述语言描述信息的匹配度P_A：

其中，所述表示所述第二融合特征，所述/>表示所述第一融合特征，所述||表示对所述/>与所述/>进行串联连接，所述Conv表示卷积操作，所述σ表示sigmoid激活函数。

在上述视频片段定位方法的一个技术方案中，“获取所述候选视频片段的视频片段时间与所述行为时间的交并比”的步骤具体包括通过下式所示的方法获取所述候选视频片段的视频片段时间与所述行为时间的交并比：

其中，所述g_i表示第i个候选视频片段的视频片段时间与行为时间的交并比，所述θ_i表示根据第i个候选视频片段的视频片段时间与行为时间的实际交并比，所述θ_max和θ_min分别表示预设的交并比上限值和交并比下限值；

并且/或者，

“根据所述匹配度与所述交并比计算模型损失值”的步骤具体包括：

根据所述匹配度与所述交并比并通过下式所示的损失函数L，计算所述模型损失值：

其中，所述N表示候选视频片段的总数，所述g_i表示第i个候选视频片段的视频片段时间与行为时间的交并比，所述p_i表示第i个候选视频片段的匹配度。

在上述视频片段定位方法的一个技术方案中，“获取所述视频样本的视频特征”的步骤具体包括：

根据预设的帧率提取所述视频样本的视频图像，得到图像序列；

按照时间由先至后的顺序，根据所述图像序列中每帧视频图像的时间对所述图像序列中的视频图像进行分组得到多个视频图像组，每个视频图像组包含的视频图像的数量相同；

分别提取每个视频图像组的图像特征并根据所有视频图像组的图像特征获取初始的视频特征；

依次对所述初始的视频特征进行一维卷积操作与平均池化操作；

采用图卷积网络对完成所述一维卷积操作与平均池化操作的视频特征进行编码，得到最终的视频特征；

并且/或者，

所述方法还包括通过下列步骤获取所述语言描述信息的语言特征：

获取所述语言描述信息中每个词的词向量，根据所有词的词向量获取初始的语言特征；

采用双向长短期记忆网络对所述初始的语言特征进行编码，得到最终的语言特征。

第二方面，提供一种视频片段定位装置，所述装置包括模型训练模块和视频片段定位模块，所述模型训练模块被配置成对视频定位模型进行模型训练，所述视频片段定位模块被配置成采用完成训练的视频定位模型并根据目标行为的语言描述信息对目标视频进行视频片段定位，获取所述目标行为对应的视频片段；

所述模型训练模块包括样本获取子模块、融合特征获取子模块和模型参数调整子模块；

所述样本获取子模块被配置成获取视频样本及其标签，所述标签包括视频样本所包含行为的行为时间和语言描述信息：

所述融合特征获取子模块被配置成控制所述视频定位模型根据所述视频样本中候选视频片段的候选特征以及所述语言描述信息的语言特征获取第一融合特征，采用图卷积网络并根据所述第一融合特征获取具有相同起始时间或终止时间的候选视频片段对应的第二融合特征；

所述模型参数调整子模块被配置成根据所述第二融合特征预测所述候选视频片段与所述语言描述信息的匹配度，获取所述候选视频片段的视频片段时间与所述行为时间的交并比，根据所述匹配度与所述交并比计算模型损失值，根据所述模型损失值调整模型参数，以完成对视频定位模型的模型迭代训练。

在上述视频片段定位装置的一个技术方案中，所述融合特征获取子模块包括视频特征获取单元、二维网格构建单元、候选视频片段确定单元和候选特征获取单元；

所述视频特征获取单元被配置成获取所述视频样本的视频特征；

所述二维网格构建单元被配置成根据所述视频特征的长度T，构建大小为T×T的二维网格；所述二维网格中每个网格的横坐标和纵坐标分别表示起始时间t^s和终止时间t^e，所述网格表示时间跨度为(t^s,t^e)的视频片段；

所述候选视频片段确定单元被配置成选取起始时间小于终止时间的网格，对选取到的网格进行稀疏采样，根据稀疏采样的结果确定候选视频片段；

所述候选特征获取单元被配置成通过下式所示的方法获取所述候选视频片段的候选特征F：

并且/或者，

所述融合特征获取子模块还包括第一特征获取单元、第二特征获取单元和第一融合特征获取单元；

所述第一特征获取单元被配置成根据所述候选特征与所述语言特征并通过下式获取第一特征F₁：

所述第二特征获取单元被配置成根据所述候选特征与所述语言特征并通过下式获取第二特征F₂：

其中，所述R表示关系矩阵且所述T表示转置操作，所述表示对所述语言特征/>进行卷积操作后得到的词语特征，所述/>表示将/>映射到视频特征的特征空间得到的词语特征，所述/>表示外积运算；

所述第一融合特征获取单元被配置成对所述第一特征F₁与所述第二特征F₂依次进行特征相加与归一化处理，得到第一融合特征。

在上述视频片段定位装置的一个技术方案中，所述融合特征获取子模块还包括第二融合特征获取单元，所述第二融合特征获取单元被配置成执行下列操作：

并且/或者，

所述模型参数调整子模块包括匹配度获取单元，所述匹配度获取单元被配置成通过下式所示的方法预测所述候选视频片段与所述语言描述信息的匹配度P_A：

其中，所述表示所述第二融合特征，/>所述表示所述第一融合特征，所述||表示对所述/>与所述/>进行串联连接，所述Conv表示卷积操作，所述σ表示sigmoid激活函数。

在上述视频片段定位装置的一个技术方案中，所述模型参数调整子模块还包括交并比获取单元，所述交并比获取单元被配置成通过执行下式所示的方法获取所述候选视频片段的视频片段时间与所述行为时间的交并比：

并且/或者，

所述模型参数调整子模块还包括模型损失值计算单元，所述模型损失值计算单元被配置成根据所述匹配度与所述交并比并通过下式所示的损失函数L，计算所述模型损失值：

在上述视频片段定位装置的一个技术方案中，所述视频特征获取单元被进一步配置成执行下列操作：

并且/或者，

所述融合特征获取子模块还包括语言特征获取单元，所述语言特征获取单元被配置成执行下列操作：

在第三方面，提供一种控制装置，该控制装置包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行上述视频片段定位方法的技术方案中任一项技术方案所述的视频片段定位方法。

在第四方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述视频片段定位方法的技术方案中任一项技术方案所述的视频片段定位方法。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

在实施本发明的技术方案中，可以控制视频定位模型分别获取视频样本中候选视频片段的候选特征与语言描述信息的语言特征；进而根据候选特征与语言特征获取第一融合特征，采用图卷积网络并根据第一融合特征获取具有相同起始时间或终止时间的候选视频片段对应的第二融合特征；最后根据第二融合特征预测候选视频片段与语言描述信息的匹配度，获取候选视频片段的视频片段时间与行为时间的交并比，根据匹配度与交并比计算模型损失值，根据模型损失值调整模型参数，以完成模型迭代训练。

基于上述实施方式，同时根据候选特征与语言特征获取第一融合特征，不仅可以使第一融合特征包含候选特征与语言特征中句子特征的特征融合信息(第一特征F₁)，还可以包含候选特征与语言特征中词语特征的特征融合信息(第二特征F₂)。由于句子特征包含了语言描述信息的全局特征，因此第一特征F₁能够表示候选特征与语言描述信息在全局层面的融合关系或交互关系，即第一特征F₁是一个粗粒度的特征信息。而词语特征是语言描述信息中一个词语的特征信息，其实际上是语言描述信息的局部特征，因此第二特征F₂能够表示候选特征与语言描述信息在局部层面的融合关系或交互关系，即第二特征F₂是一个细粒度的特征信息。根据同时包含上述粗粒度的特征信息与细粒度的特征信息的第一融合特征，能够充分挖掘视频特征与语言描述信息的语言特征之间的内在联系，进而准确地确定出与语言描述信息相关的候选视频片段，提高视频定位的准确性。

进一步，由于在同一个视频样本中表示不同行为的候选视频片段可能存在重叠的部分，从而导致这些候选视频片段的语义比较难以区分(区分这些候选视频片段到底是属于哪个行为的片段)。而本发明实施例采用图卷积网络准确获取具有相同起始时间或终止时间的候选视频片段对应的第二融合特征的方式可以克服上述缺陷，具体是针对每种行为，即使存在视频片段重叠的情况，也可以根据是否具有相同起始时间或终止时间从存在重叠的候选视频片段中准确定位出与每种行为相关的所有候选视频片段，因此能够克服上述语义比较难以区分的缺陷。

附图说明

参照附图，本发明的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本发明的保护范围组成限制。其中：

图1是根据本发明的一个实施例的视频片段定位方法的主要步骤流程示意图；

图2是根据本发明的一个实施例的视频片段定位装置的主要结构框图示意图；

图3是根据本发明的另一个实施例的视频片段定位装置的主要结构框图示意图；

图4是根据本发明的一个实施例的二维网格示意图一；

图5是根据本发明的一个实施例的二维网格示意图二。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

参阅附图1，图1是根据本发明的一个实施例的视频片段定位方法的主要步骤流程示意图。如图1所示，本发明实施例中的视频片段定位方法主要包括下列步骤S101-步骤S107。在本实施例中可以先通过步骤S101至步骤S106所述的方法训练视频定位模型，再采用完成训练的视频定位模型并根据目标行为的语言描述信息对目标视频进行视频片段定位，获取目标行为对应的视频片段(步骤S107)。

步骤S101：获取视频样本及其标签，其中，标签可以包括视频样本所包含行为的行为时间和语言描述信息。

视频样本指的是包含一种或多种行为的视频信息，视频样本所包括的行为包括但不限于：由人自身产生的行为如行走、跳跃等，由人与其他物体共同产生的行为如人使用工具装卸物品等。在一个实施方式中，视频样本可以只包含由人自身产生的一种或多种行为，也可以只包含由人与其他物体共同产生的一种或多种行为，也可以同时包含至少一种由人自身产生的行为以及至少一种由人与其他物体共同产生的行为。

行为时间指的是行为发生的持续时间，例如人使用工具装卸物品这一行为的行为时间可以是5分钟。在一个实施方式中，为了降低后续步骤中对行为时间的计算量，可以所有行为的行为时间进行归一化处理，例如将行为时间归一化成[0,1]这一区间内的数值。

语言描述信息指的是使用自然语言描述行为内容的信息，例如，如果视频样本中显示某个人正在使用螺丝刀拧螺丝，那么这个行为的语言描述信息可以是“他正在使用工具拧螺丝”。

步骤S102：控制视频定位模型根据视频样本中候选视频片段的候选特征以及语言描述信息的语言特征获取第一融合特征。

候选视频片段指的是在视频样本中可能与行为相关的视频片段，这些视频片段可能包含了行为的画面信息。

由于第一融合特征是同时根据候选特征与语言特征获取到的，而语言特征中的句子特征能够表示语言描述信息的全局特征(粗粒度的特征信息)，语言特征中的词语特征能够表示语言描述信息的局部特征(细粒度的特征信息)，可见第一融合特征是同时包含了粗粒度的特征信息与细粒度的特征信息的特征，因此根据第一融合特征能够充分挖掘视频特征与语言描述信息的语言特征之间的内在联系，进而准确地确定出与语言描述信息相关的候选视频片段，提高视频定位的准确性。

步骤S103：采用图卷积网络并根据第一融合特征获取具有相同起始时间或终止时间的候选视频片段对应的第二融合特征。

由于在同一个视频样本中表示不同行为的候选视频片段可能存在重叠的部分，从而导致这些候选视频片段的语义比较难以区分。为此，本发明实施例可以采用图卷积网络准确获取具有相同起始时间或终止时间的候选视频片段对应的第二融合特征，也就是说，针对每种行为，即使存在视频片段重叠的情况，也可以根据是否具有相同起始时间或终止时间从存在重叠的候选视频片段中准确地获取与每种行为相关的所有候选视频片段，从而克服了上述语义比较难以区分的缺陷。

图卷积网络指的是基于神经网络技术领域中的图神经网络(GraphConvolutional Neural Network，GCN)构建的神经网络。

在本实施例中可以将每个候选视频片段视的候选特征为特征图中的一个点，将不同候选视频片段的候选特征之间的关系视为特征图中的边，进而构建邻接矩阵。进一步，为了准确获取具有相同起始时间或终止时间的候选视频片段的第二融合特征，可以设置邻接矩阵中每个元素的元素值表示候选视频片段与其他候选视频片段是否具有相同的起始时间或终止时间。例如，若元素值为1，则表示当前候选视频片段与其他候选视频片段具有相同的起始时间或终止时间，即具有相同的边。若元素为0，则表示当前候选视频片段与其他候选视频片段没有相同的起始时间或终止时间，即没有相同的边。最后控制图卷积网络按照上述邻接矩阵的设置方法，根据第一融合特征生成邻接矩阵，根据第一融合特征与生成的邻接矩阵就可以获取到第二融合特征。需要说明的是，在本实施例中图卷积网络可以包含邻接矩阵生成模块，这个邻接矩阵生成模块可以被配置成采用图神经网络技术领域中常规的邻接矩阵生成方法，采用上述邻接矩阵的设置方法，来根据第一融合特征生成邻接矩阵。在此不再对上述常规的邻接矩阵生成方法进行赘述。

步骤S104：根据第二融合特征预测候选视频片段与语言描述信息的匹配度。

匹配度的大小能够表示候选视频片段与语言描述信息的相关程度。例如，如果匹配度越大，则表明候选视频片段与语言描述信息的相关程度越大，候选视频片段越有可能包含这个语言描述信息所描述的行为。如果匹配度越小，则表明候选视频片段与语言描述信息的相关程度越小，候选视频片段越不可能包含这个语言描述信息所描述的行为。

步骤S105：获取候选视频片段的视频片段时间与行为时间的交并比。

视频片段时间指的是候选视频片段的持续时长，可以根据候选视频片段的起始时间和终止时间计算得到。

行为时间指的是在视频样本中行为的持续时长。

交并比(Intersection-over-Union，IoU)指的是视频片段时间与行为时间的重叠时间(时间交集)，以及视频片段时间与行为时间的联合时间(时间并集)的比值。

步骤S106：根据匹配度与交并比计算模型损失值，根据模型损失值调整模型参数，以完成模型迭代训练。

在本发明实施例中可以采用机器学习技术领域中常规的模型参数调整方法调整视频定位模型的模型参数，如根据模型损失值计算模型参数的梯度，根据梯度反向传播更新模型参数。此外，在本发明实施例中通过反复执行步骤S102至步骤S106对视频定位模型进行迭代训练，在满足模型收敛条件或迭代次数达到预设值后停止模型迭代训练。

需要说明的是，在完成模型迭代训练后还可以对视频定位装置进行测试，在本实施例中可以采用机器学习技术领域中常规的模型测试方法对完成模型迭代训练的视频定位模型进行测试，以确定视频定位模型对视频进行视频片段定位的准确率是否满足预设值。若满足，则在步骤S107中可以直接采用完成训练的视频定位模型进行视频片段定位；若不满足，则需要继续调整模型参数，重复执行上述步骤S102至步骤S106继续对视频定位模型，直至对视频进行视频片段定位的准确率满足预设值。

步骤S107：采用完成训练的视频定位模型并根据目标行为的语言描述信息对目标视频进行视频片段定位，获取目标行为对应的视频片段。

在本实施例中可以将目标视频和目标行为的语言描述信息同时输入到完成训练的视频定位模型，视频定位模型就可以直接输出在目标视频中包含目标行为的视频片段。

需要说明的是，在采用完成训练的视频定位模型并根据目标行为的语言描述信息对目标视频进行视频片段定位的过程中，视频定位模型可以采用前述步骤S104至步骤S107所述的方法，获取目标视频中每个候选视频片段与语言描述信息的匹配度，然后选取匹配度最高的一个或多个候选视频片段作为包含目标行为的视频片段。例如，可以按照匹配度由大至小的顺序对候选视频片段进行排序，然后选取首个或者排列靠前的多个候选视频片段作为包含目标行为的视频片段。

基于上述步骤S101至步骤S107，不仅能够充分挖掘视频特征与语言描述信息的语言特征之间的内在联系，进而准确地确定出与语言描述信息相关的候选视频片段，提高视频定位的准确性；还能够有效克服由于在同一个视频样本中表示不同行为的候选视频片段存在重叠部分导致候选视频片段的语义比较难以区分的缺陷，从而进一步提高了视频定位的准确性。进一步，在根据本发明实施例的一个实施方式中，在通过步骤S107得到目标行为对应的视频片段后，还可以对视频片段进行边界回归处理，以使得处理后的视频片段能够更加准确的包含与目标行为相关的所有画面信息。

下面对上述步骤S102至步骤S106作进一步说明。

在根据上述步骤S102的一个实施例中，可以通过下列步骤11至步骤14获取候选视频片段的候选特征：

步骤11：获取视频样本的视频特征。

在本实施例中可以通过提取视频样本中每帧视频图像的图像特征获取视频样本的视频特征。具体而言，在一个实施方式中可以通过下列步骤111至步骤115获取视频样本的视频特征：

步骤111：根据预设的帧率提取视频样本的视频图像，得到图像序列。

例如：对一段视频样本提取视频图像可以得到图像序列{d₁,d₂,d₃,d₄}，d₁,d₂,d₃,d₄分别表示视频图像，这些视频图像可以按照各自在视频样本中对应的视频时刻由先至后的顺序排列。

步骤112：按照时间由先至后的顺序，根据图像序列中每帧视频图像的时间对图像序列中的视频图像进行分组得到多个视频图像组，每个视频图像组包含的视频图像的数量相同。

对图像序列进行分组后视频样本可以表示成下式(1)所示的形式：

公式(1)中各参数含义是：

V表示视频样本，v_j表示视频样本中的第j个视频图像组，n_v表示视频图像组的总数，其中，每个视频图像组中包含的视频图像的数量都是L，L>1。需要说明的是，在对图像序列中的视频图像进行分组时，如果已经分得多个视频图像组，但是剩余的视频图像的数量不足以构成一个视频图像组，则可以删除这些视频图像。

步骤113：分别提取每个视频图像组的图像特征并根据所有视频图像组的图像特征获取初始的视频特征。

在本实施例中可以采用图像处理技术领域中常规的图像特征提取方法来提取每个视频图像组的图像特征。在一个实施方式中，视频定位模块可以包括特征提取网络，利用这个特征提取网络提取每个视频图像组的图像特征并根据所有视频图像组的图像特征获取初始的视频特征。例如，特征提取网络可以是基于三维卷积神经网络(3D convolution，C3D)构建的网络。参阅公式(1)的例子，初始的视频特征的特征维度和长度分别是C_v和n_v，初始的视频特征可以表示成表示实数集。

步骤114：依次对初始的视频特征进行一维卷积操作与平均池化操作。

通过对初始的视频特征进行一维卷积操作，可以将初始的视频特征的特征维度由C_v降低成C；通过对初始的视频特征进行平均池化操作，可以将初始的视频特征的长度由n_v变成T。

步骤115：采用图卷积网络对完成一维卷积操作与平均池化操作的视频特征进行编码，得到最终的视频特征。

需要说明的是，步骤115中的图卷积网络与前述步骤S103所述的图卷积网络可以是不同的，也就是说，视频定位装置可以包括多个图卷积网络。例如可以采用图卷积网络GC-NeXt对对完成一维卷积操作与平均池化操作的视频特征进行编码，得到最终的视频特征。在本实施例中经过图卷积网络编码后得到的最终的视频特征可以表示成

至此，通过上述步骤111至步骤115已介绍完视频特征的获取方法。下面继续介绍获取候选视频的步骤12至步骤14。

步骤12：根据视频特征的长度T，构建大小为T×T的二维网格；

二维网格中每个网格的横坐标和纵坐标分别表示起始时间t^s和终止时间t^e，网格表示时间跨度为(t^s,t^e)的视频片段。

在一个实施方式中，根据视频特征构建的二维网格可以如图4所示。图4中的横轴表示终止时间轴(end index)，纵轴表示起始时间轴(start index)，每个网格都表示一个视频片段，视频片段的视频时间(持续时长)可以根据网格的坐标确定。

步骤13：选取起始时间小于终止时间的网格，对选取到的网格进行稀疏采样，根据稀疏采样的结果确定候选视频片段。

由于起始时间大于终止时间的视频片段是不合理的，因此可以仅选取二维网格中起始时间小于终止时间的网格。通过对这些网格进行稀疏采样可以得到N(N＞1)个候选视频片段。对于时间跨度较长的视频样本，通过稀疏采样采集候选视频片段，可以减少采集的计算量。

步骤14：通过下式(2)所示的方法获取候选视频片段的候选特征F：

公式(2)中各参数的含义是：

表示视频特征，A表示候选视频片段的集合且/>和/>分别表示第i个候选视频片段的起始时间和终止时间，N表示候选视频片段的总数；Ψ表示针对每个候选视频片段，将候选视频片段在起始时间的视频特征与终止时间的视频特征进行串联。由前述步骤115可知，视频特征/>的特征维度是C，因此，候选视频片段在起始时间的视频特征与终止时间的视频特征的特征维度都是C，而在将起始时间的视频特征与终止时间的视频特征进行串联后候选特征F的特征维度会变成2C，此时，候选特征F可以表示成/>

至此，通过上述步骤11至步骤14已介绍完获取候选视频的方法。

在根据上述步骤S102的另一个实施例中，可以通过下列步骤21至步骤23获取第一融合特征：

步骤21：根据候选特征F与语言特征并通过下式(3)获取第一特征F₁：

公式(3)中各参数的含义是：

表示语言描述信息的语言特征，/>表示对语言特征/>进行最大池化操作，表示对语言特征/>进行最大池化操作后得到的句子特征，Conv表示卷积操作，‖‖₂表示2范数，⊙表示内积运算。由于候选特征F的特征维度是2C，通过卷积操作可以将候选特征F的特征维度变成C，即公式(3)中的卷积操作可以是一维卷积操作。

在本实施例中可以通过提取语言描述信息中每个词的词向量，根据次向量获取语言描述信息的语言特征。具体而言，在一个实施方式中可以通过下列步骤211至步骤212获取语言描述信息的语言特征：

步骤211：获取语言描述信息中每个词的词向量，根据所有词的词向量获取初始的语言特征。

在本实施方式中可以采用预先训练好的词向量提取模型如GloVe模型，分别提取语言描述信息中每个词的词向量，并根据所有词的词向量获取初始的语言特征。在本实施方式中一段语言描述信息W可以表示成下式(4)所示的形式：

公式(4)中各参数含义是：

w_k表示语言描述信息W中的第k个字，n_w表示语言描述信息W中字的总数(字数)。

初始的语言特征的特征维度和长度分别是C_w和n_w，初始的语言特征可以表示成表示实数集。

步骤212：采用双向长短期记忆网络(Long Short-Term Memory，LSTM)对初始的语言特征进行编码，得到最终的语言特征。

通过对语言特征进行编码，可以将语言特征的特征维度与候选特征F的特征维度保持一致，如编码后得到的语言特征可以表示成进一步，在本实施例中由于Conv(F)可以将候选特征F的特征维度变成C，而语言特征的特征维度也是C，因此采用公式(3)得到的第一特征F₁的特征维度也是C。

至此，通过上述步骤211至步骤212已介绍完语言特征的获取方法。下面继续介绍获取第一融合特征的步骤22至步骤23。

步骤22：根据候选特征F与语言特征并通过下式(5)获取第二特征F₂：

公式(5)中各参数含义是：

R表示关系矩阵且T表示转置操作，/>表示对语言特征/>进行卷积操作后得到的词语特征，/>表示将/>映射到视频特征的特征空间得到的词语特征，/>表示外积运算。在本实施方式中/>表示的卷积操作可以是一维卷积操作。由于候选特征F的特征维度是2C，通过卷积操作可以将候选特征F的特征维度变成C，Conv(F)表示的卷积操作也可以是一维卷积操作。进一步，在本实施例中由于Conv(F)可以将候选特征F的特征维度变成C，而语言特征的特征维度也是C，因此采用公式(5)得到的第二特征F₂的特征维度也是C。

步骤23：对第一特征F₁与第二特征F₂依次进行特征相加与归一化处理，得到第一融合特征。在本实施例中由于第一特征F₁和第二特征F₂的特征维度都是C，因此特征相加与归一化后得到的第一融合特征的特征维度也是C，第一融合特征可以表示成

至此，通过上述步骤21至步骤23已介绍完第一融合特征的获取方法。

在根据上述步骤S103的一个实施例中，可以通过下列步骤31至步骤32获取第二融合特征：

步骤31：采用图卷积网络并根据第一融合特征，生成邻接矩阵；邻接矩阵可以包括每个候选视频片段各自对应的邻接元素，邻接元素的元素值表示候选视频片段与其他候选视频片段是否具有相同的起始时间或终止时间。例如：若元素值是1，则表明当前候选视频片段与其他候选视频片段具有相同的起始时间或终止时间；若元素值是0，则表明当前候选视频片段与其他候选视频片段没有相同的起始时间或终止时间。

参阅附图4，根据前述步骤S102所述的实施例可知，可以根据视频特征的长度T，构建大小为T×T的二维网格。由于视频特征的长度是T，候选视频片段的起始时间(起始点)可能出现在(0,1,2,3,…,T-1)中的任意一个位置处，终止时间(终止点可能出现在)(1,1,2,3,…,T)中的任意一个位置处。只要网格的坐标(t^s,t^e)满足0<t^s<t^e<T，这个网格或者多个网格就可以构成一个候选视频片段(起始时间小于终止时间)。

针对每个候选视频片段，都可以构建属于候选视频片段的邻域，在邻域内包含了与候选视频片段具有相同的起始时间或终止时间的其他候选视频片段。参阅附图5，按照由上至下的顺序，以图5中第3行第6列所示的网格为例，根据是否具有相同的起始时间或终止时间可以确定，第3行的第3-5、7-8列以及第6列的第1-2、4-6行所表示的网格，都是与上述第3行第6列所表示的网格具有相同的起始时间或终止时间的网格。

假设存在N个候选视频片段，可以用元素值1表示两个候选视频片段具有相同的起始时间或终止时间，用元素值0表示两个候选视频片段没有相同的起始时间或终止时间，就可以采用图卷积网络并根据第一融合特征生成包含上述元素值的邻接矩阵。

步骤32：根据第一融合特征与邻接矩阵，获取第二融合特征。

第二融合特征可以表示成

至此，通过上述步骤31至步骤32已介绍完第二融合特征的获取方法。

在根据上述步骤S104的一个实施例中，可以通过下式(6)所示的方法预测候选视频片段与语言描述信息的匹配度P_A：

公式(6)中各参数含义是：

表示第二融合特征，/>表示第一融合特征，||表示对/>与/>进行串联连接，Conv表示卷积操作，σ表示sigmoid激活函数。

在本实施例中由于第一融合特征和第二融合特征/>的特征维度相同，都是C，在将/>与/>串联后特征维度会变成2C，通过公式(6)中的卷积操作可以将串联后的特征维度变成C，即公式(6)中Conv表示的卷积操作可以是一维卷积操作。

通过可以计算得到每个候选视频片段与语言描述信息的匹配度，这个匹配度的大小能够表示候选视频片段与语言描述信息的相关程度。例如，如果匹配度越大，则表明候选视频片段与语言描述信息的相关程度越大，候选视频片段越可能包含这个语言描述信息所描述的行为。如果匹配度越小，则表明候选视频片段与语言描述信息的相关程度越小，候选视频片段越不可能包含这个语言描述信息所描述的行为。

在根据上述步骤S105的一个实施例中，可以通过下式(7)所示的方法获取候选视频片段的视频片段时间与行为时间的交并比：

公式(7)中各参数含义是：

g_i表示第i个候选视频片段的视频片段时间与行为时间的交并比，θ_i表示根据第i个候选视频片段的视频片段时间与行为时间的实际交并比，θ_max和θ_min分别表示预设的交并比上限值和交并比下限值。

实际交并比指的是视频片段时间与行为时间的实际重叠时间(实际时间交集)，以及视频片段时间与行为时间的实际联合时间(实际时间并集)的比值。

在根据上述步骤S106的一个实施例中，可以采用交叉熵函数构建损失函数，再采用损失函数并根据匹配度与交并比计算视频定位模型的模型损失值。具体而言，在一个实施方式中，可以根据匹配度与交并比并通过下式(8)所示的损失函数L，计算视频定位模型的模型损失值：

公式(8)中各参数含义是：

N表示候选视频片段的总数，g_i表示第i个候选视频片段的视频片段时间与行为时间的交并比，p_i表示第i个候选视频片段的匹配度。

需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本发明的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时(并行)执行或以其他顺序执行，这些变化都在本发明的保护范围之内。

进一步，本发明还提供了一种视频片段定位装置。

参阅附图2，图2是根据本发明的一个实施例的视频片段定位装置的主要结构框图。如图2所示，本发明实施例中的视频片段定位装置主要包括模型训练模块和视频片段定位模块。在一些实施例中，模型训练模块可以被配置成对视频定位模型进行模型训练；视频片段定位模块可以被配置成采用完成训练的视频定位模型并根据目标行为的语言描述信息对目标视频进行视频片段定位，获取目标行为对应的视频片段。进一步，样本获取子模块可以被配置成获取视频样本及其标签，标签可以包括视频样本所包含行为的行为时间和语言描述信息；融合特征获取子模块可以被配置成控制视频定位模型根据视频样本中候选视频片段的候选特征以及语言描述信息的语言特征获取第一融合特征，采用图卷积网络并根据第一融合特征获取具有相同起始时间或终止时间的候选视频片段对应的第二融合特征；模型参数调整子模块可以被配置成根据第二融合特征预测候选视频片段与语言描述信息的匹配度，获取候选视频片段的视频片段时间与行为时间的交并比，根据匹配度与交并比计算模型损失值，根据模型损失值调整模型参数，以完成模型迭代训练；视频片段定位模块可以被配置成采用完成训练的视频定位模型并根据目标行为的语言描述信息对目标视频进行视频片段定位，获取目标行为对应的视频片段。一个实施方式中，具体实现功能的描述可以参见步骤S101至步骤S107所述。

在一个实施方式中，融合特征获取子模块可以包括视频特征获取单元、二维网格构建单元、候选视频片段确定单元和候选特征获取单元。在本实施方式中，视频特征获取单元可以被配置成获取视频样本的视频特征；二维网格构建单元可以被配置成根据视频特征的长度T，构建大小为T×T的二维网格；二维网格中每个网格的横坐标和纵坐标分别表示起始时间t^s和终止时间t^e，网格表示时间跨度为(t^s,t^e)的视频片段；候选视频片段确定单元可以被配置成选取起始时间小于终止时间的网格，对选取到的网格进行稀疏采样，根据稀疏采样的结果确定候选视频片段；候选特征获取单元可以被配置成通过前述方法实施例中公式(2)所示的方法获取候选视频片段的候选特征F。一个实施方式中，具体实现功能的描述可以参见步骤S102所述。

进一步，在一个实施方式中，视频特征获取单元可以被进一步配置成执行下列操作：根据预设的帧率提取视频样本的视频图像，得到图像序列；按照时间由先至后的顺序，根据图像序列中每帧视频图像的时间对图像序列中的视频图像进行分组得到多个视频图像组，每个视频图像组包含的视频图像的数量相同；分别提取每个视频图像组的图像特征并根据所有视频图像组的图像特征获取初始的视频特征；依次对初始的视频特征进行一维卷积操作与平均池化操作；采用图卷积网络对完成一维卷积操作与平均池化操作的视频特征进行编码，得到最终的视频特征。一个实施方式中，具体实现功能的描述可以参见步骤S102所述。

在一个实施方式中，融合特征获取子模块还可以包括第一特征获取单元、第二特征获取单元和第一融合特征获取单元。在本实施方式中，第一特征获取单元可以被配置成根据候选特征与语言特征并通过前述方法实施例中公式(3)所示的方法获取第一特征F₁；第二特征获取单元可以被配置成根据候选特征与语言特征并通过前述方法实施例中公式(5)所示的方法获取第二特征F₂；第一融合特征获取单元可以被配置成对第一特征F₁与第二特征F₂依次进行特征相加与归一化处理，得到第一融合特征。一个实施方式中，具体实现功能的描述可以参见步骤S102所述。

在一个实施方式中，融合特征获取子模块还可以包括语言特征获取单元。在本实施方式中，语言特征获取单元可以被配置成执行下列操作：获取语言描述信息中每个词的词向量，根据所有词的词向量获取初始的语言特征；采用双向长短期记忆网络对初始的语言特征进行编码，得到最终的语言特征。一个实施方式中，具体实现功能的描述可以参见步骤S102所述。

在一个实施方式中，融合特征获取子模块还可以包括第二融合特征获取单元。在本实施方式中，第二融合特征获取单元被配置成执行下列操作：采用图卷积网络并根据第一融合特征，生成邻接矩阵；邻接矩阵包括每个候选视频片段各自对应的邻接元素，邻接元素的元素值表示候选视频片段与其他候选视频片段是否具有相同的起始时间或终止时间；根据第一融合特征与邻接矩阵，获取第二融合特征。一个实施方式中，具体实现功能的描述可以参见步骤S103所述。

在一个实施方式中，模型参数调整子模块可以包括匹配度获取单元。在本实施方式中，匹配度获取单元可以被配置成通过前述方法实施例中公式(6)所示的方法预测候选视频片段与语言描述信息的匹配度P_A。一个实施方式中，具体实现功能的描述可以参见步骤S104所述。

在一个实施方式中，模型参数调整子模块还可以包括交并比获取单元。在本实施方式中，交并比获取单元可以被配置成通过前述方法实施例中公式(7)所示的方法获取候选视频片段的视频片段时间与行为时间的交并比。一个实施方式中，具体实现功能的描述可以参见步骤S105所述。

在一个实施方式中，模型参数调整子模块还可以包括模型损失值计算单元。在本实施方式中，模型损失值计算单元可以被配置成根据匹配度与交并比并通过前述方法实施例中公式(8)所示的损失函数L，计算模型损失值。一个实施方式中，具体实现功能的描述可以参见步骤S106所述。

上述视频片段定位装置以用于执行图1所示的视频片段定位方法实施例，两者的技术原理、所解决的技术问题及产生的技术效果相似，本技术领域技术人员可以清楚地了解到，为了描述的方便和简洁，视频片段定位装置的具体工作过程及有关说明，可以参考视频片段定位方法的实施例所描述的内容，此处不再赘述。

进一步，本发明还提供了一种视频片段定位装置。

参阅附图3，图3是根据本发明的另一个实施例的视频片段定位装置的主要结构框图。如图3所示，本发明实施例中的视频片段定位装置主要包括视频特征提取模块、视频特征编码模块、视频片段生成模块、语言特征提取模块、语言特征编码模块、视频语言特征交互模块、视频片段关系构建模块和候选视频片段选择模块。

在本发明实施例中，视频特征提取模块可以被配置成采用前述方法实施例中步骤111至步骤113所述的方法来提取视频(视频样本或目标视频)的初始的视频样本。视频特征编码模块可以被配置成采用前述方法实施例中步骤114至步骤115所述的方法来提取视频(视频样本或目标视频)的最终的视频样本。视频片段生成模块可以被配置成采用前述方法实施例中步骤11至步骤14所述的方法获取视频(视频样本或目标视频)中候选视频片段的候选特征。语言特征提取模块可以被配置成前述方法实施例中步骤211所述的方法获取语言查询中的语言描述信息的初始的语言特征。语言特征编码模块可以被配置成前述方法实施例中步骤212所述的方法获取语言描述信息的最终的语言特征。视频语言特征交互模块可以被配置成采用前述方法实施例中步骤S102所述的方法来获取视频(视频样本或目标视频)中候选视频片段对应的第一融合特征。视频片段关系构建模块可以被配置成采用前述方法实施例中步骤S103所述的方法来获取视频(视频样本或目标视频)中候选视频片段对应的第二融合特征。候选视频片段选择模块可以被配置成采用前述方法实施例中步骤S107所述的方法获取视频(视频样本或目标视频)中与语言描述信息所描述行为对应的候选视频片段。

本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

进一步，本发明还提供了一种控制装置。在根据本发明的一个控制装置实施例中，控制装置包括处理器和存储装置，存储装置可以被配置成存储执行上述方法实施例的视频片段定位方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的视频片段定位方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备。

进一步，本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的视频片段定位方法的程序，该程序可以由处理器加载并运行以实现上述视频片段定位方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本发明的装置的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。

本领域技术人员能够理解的是，可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理，因此，拆分或合并之后的技术方案都将落入本发明的保护范围内。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种视频片段定位方法，其特征在于，所述方法包括：

采用完成训练的视频定位模型并根据目标行为的语言描述信息对目标视频进行视频片段定位，获取所述目标行为对应的视频片段；

所述方法还包括通过下列步骤获取候选视频片段的候选特征：

获取所述视频样本的视频特征；

通过下式所示的方法获取所述候选视频片段的候选特征F：

其中，所述表示视频特征，所述A表示候选视频片段的集合且/> 和分别表示第i个候选视频片段的起始时间和终止时间，N表示候选视频片段的总数；Ψ表示针对每个候选视频片段，将候选视频片段在起始时间的视频特征与终止时间的视频特征进行串联；

“获取第一融合特征”的步骤具体包括：

其中，所述表示所述语言描述信息的语言特征，所述/>表示对所述语言特征/>进行最大池化操作，所述/>表示对所述语言特征/>进行最大池化操作后得到的句子特征，所述Conv表示卷积操作，所述‖ ‖₂表示2范数，所述⊙表示内积运算；

对所述第一特征F₁与所述第二特征F₂依次进行特征相加与归一化处理，得到第一融合特征；

“获取具有相同起始时间或终止时间的候选视频片段对应的第二融合特征”的步骤具体包括：采用图卷积网络并根据所述第一融合特征，生成邻接矩阵；所述邻接矩阵包括每个候选视频片段各自对应的邻接元素，所述邻接元素的元素值表示候选视频片段与其他候选视频片段是否具有相同的起始时间或终止时间；根据所述第一融合特征与所述邻接矩阵，获取所述第二融合特征。

2.根据权利要求1所述的视频片段定位方法，其特征在于，“预测所述候选视频片段与所述语言描述信息的匹配度”的具体步骤包括通过下式所示的方法预测所述候选视频片段与所述语言描述信息的匹配度P_A：

3.根据权利要求1所述的视频片段定位方法，其特征在于，“获取所述候选视频片段的视频片段时间与所述行为时间的交并比”的步骤具体包括通过下式所示的方法获取所述候选视频片段的视频片段时间与所述行为时间的交并比：

并且/或者，

4.根据权利要求1所述的视频片段定位方法，其特征在于，“获取所述视频样本的视频特征”的步骤具体包括：

并且/或者，

5.一种视频片段定位装置，其特征在于，所述装置包括模型训练模块和视频片段定位模块，所述模型训练模块被配置成对视频定位模型进行模型训练，所述视频片段定位模块被配置成采用完成训练的视频定位模型并根据目标行为的语言描述信息对目标视频进行视频片段定位，获取所述目标行为对应的视频片段；

所述模型参数调整子模块被配置成根据所述第二融合特征预测所述候选视频片段与所述语言描述信息的匹配度，获取所述候选视频片段的视频片段时间与所述行为时间的交并比，根据所述匹配度与所述交并比计算模型损失值，根据所述模型损失值调整模型参数，以完成对视频定位模型的模型迭代训练；

所述融合特征获取子模块包括视频特征获取单元、二维网格构建单元、候选视频片段确定单元和候选特征获取单元；

所述第一融合特征获取单元被配置成对所述第一特征F₁与所述第二特征F₂依次进行特征相加与归一化处理，得到第一融合特征；

所述融合特征获取子模块还包括第二融合特征获取单元，所述第二融合特征获取单元被配置成执行下列操作：采用图卷积网络并根据所述第一融合特征，生成邻接矩阵；所述邻接矩阵包括每个候选视频片段各自对应的邻接元素，所述邻接元素的元素值表示候选视频片段与其他候选视频片段是否具有相同的起始时间或终止时间；根据所述第一融合特征与所述邻接矩阵，获取所述第二融合特征。

6.根据权利要求5所述的视频片段定位装置，其特征在于，所述模型参数调整子模块包括匹配度获取单元，所述匹配度获取单元被配置成通过下式所示的方法预测所述候选视频片段与所述语言描述信息的匹配度P_A：

7.根据权利要求5所述的视频片段定位装置，其特征在于，所述模型参数调整子模块还包括交并比获取单元，所述交并比获取单元被配置成通过执行下式所示的方法获取所述候选视频片段的视频片段时间与所述行为时间的交并比：

并且/或者，

8.根据权利要求5所述的视频片段定位装置，其特征在于，所述视频特征获取单元被进一步配置成执行下列操作：

并且/或者，

9.一种控制装置，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至4中任一项所述的视频片段定位方法。

10.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至4中任一项所述的视频片段定位方法。