CN113590874A

CN113590874A - 一种视频定位方法及装置、模型训练方法及设备

Info

Publication number: CN113590874A
Application number: CN202111139903.4A
Authority: CN
Inventors: 房体品; 滕隽雅; 卢宪凯; 杨光远
Original assignee: Shandong Liju Robot Technology Co ltd
Current assignee: Shandong Liju Robot Technology Co ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2021-11-02
Anticipated expiration: 2041-09-28
Also published as: CN113590874B

Abstract

本发明公开了一种视频定位方法及装置、模型训练方法及设备。所述视频定位方法包括：使用多尺度的时间滑动窗口，对待定位视频进行片段划分；对每个视频片段以及查询语句的每个单词进行特征提取；动态获取视频模态与文本模态之间的注意力流；基于所述视频模态与文本模态之间的注意力流，对每个视频片段的特征和每个单词的特征进行更新；动态获取视频模态内的注意力流以及文本模态内的注意力流，对每个视频片段的特征和每个单词特征；计算所述每个视频片段与所述查询语句的相似度分数；选取相似度分数最高的视频片段作为视频定位的结果。本发明不依赖于时间标签，且可以更深入的挖掘模态间交互信息，具有更好的普适性。

Description

一种视频定位方法及装置、模型训练方法及设备

技术领域

本发明实施例涉及视频定位技术领域，尤其涉及一种视频定位方法及装置、模型训练方法及设备。

背景技术

基于自然语言的视频片段定位是计算机视觉的基本问题之一。这项任务的目标是给定一句文本描述的自然语言，从视频中找出对应片段的起止时间。不同于视频检索任务中使用图片或者短视频进行检索的方式，该任务引入自然语言，使用自然语言作为查询索引，这使得检索任务更加的方便、准确。基于自然语言视频片段定位对消防、刑侦、军事与交通等诸多领域的安全侦测工作有着重要的意义。使用这项技术可以实现对视频的目标片段的自动化监测，有效解放人工监测的劳动。

相关的基于自然语言的视频定位方法主要以基于强监督方法为主，涉及多个独立的网络，对计算要求很高，并且需要人为提供大量的视频片段的标注信息，而标注信息存在人为主观偏差且费时费力。

发明内容

本发明提供一种视频定位方法及装置、模型训练方法及设备，以解决现有技术中存在的上述问题。

第一方面，本发明实施例提供了一种视频定位方法，该方法包括：

S10：使用多尺度的时间滑动窗口，对待定位视频进行片段划分，得到多个视频片段，其中，相邻的视频片段之间存在设定比例的重叠；

S20：对每个视频片段以及查询语句的每个单词进行特征提取，将得到所述每个视频片段的原始特征R分解为键特征R _K、查询特征R _Q和值特征R _V，将所述每个单词的原始特征E分解为键特征E _K、查询特征E _Q和值特征E _V；

S30：基于所有视频片段的R _K、R _Q和R _V，以及所述查询语句的所有单词的E _K、E _Q和E _V，动态获取视频模态与文本模态之间的注意力流，其中，所述视频模态与文本模态之间的注意力流包含所有视频片段与所有单词之间的注意力权重；

S40：基于所述视频模态与文本模态之间的注意力流，利用所有单词的E对每个视频片段的R进行更新，得到所述每个视频片段的第一特征R ₁；利用所有视频片段的R对每个单词的E进行更新，得到所述每个单词的第一特征E ₁；

S50：基于所有视频片段的R _K、R _Q和R _V，以及所有单词的E _K、E _Q和E _V，动态获取视频模态内的注意力流以及文本模态内的注意力流，其中，所述视频模态内的注意力流包含所有视频片段之间的注意力权重，所述文本模态内的注意力流包含所有单词之间的注意力权重；

S60：基于所述视频模态内的注意力流，利用所有视频片段的R对每个视频片段的R ₁进行更新，得到所述每个视频片段的第二特征R ₂；基于所述文本模态内的注意力流，利用所有单词的E对每个单词的E ₁进行更新，得到所述每个单词的第二特征E ₂；

S70：基于每个视频片段的R ₂与所有单词的E ₂，计算所述每个视频片段与所述查询语句的相似度分数；选取相似度分数最高的视频片段作为视频定位的结果。

在一实施例中，所述视频模态与文本模态之间的注意力流包括：从文本模态到视频模态的注意力流

以及从视频模态到文本模态的注意力流

；

S30包括：通过相同的全连接层将R _K、R _Q和R _V，以及E _K、E _Q和E _V调整为相同的维度dim，根据公式（1）（2）计算

和

：

其中，softmax

表示归一化函数；

S40包括：根据公式（3）（4）对每个视频片段的R以及每个单词的E进行更新，得到所述每个视频片段的第一特征R ₁以及所述每个单词的第一特征E ₁：

其中，

表示对特征a和b进行连接；Linear

表示利用全连接层对x进行处理，所述全连接层基于训练好的网络参数θ；在公式（3）中，x=

，

；在公式（4）中，x=

，

。

在一实施例中，S50包括：根据公式（5）（6）计算所述视频模态内的注意力流

以及所述文本模态内的注意力流

：

S60包括：根据公式（7）（8）对每个视频片段的R ₁和每个单词的E ₁进行更新，得到所述每个视频片段的R ₂以及所述每个单词的E ₂：

其中，Linear

表示利用全连接层对x进行处理，所述全连接层基于训练好的网络参数θ；在公式（7）中，x=

，

；在公式（8）中，x=

，

。

在一实施例中，S50包括：

S51：根据公式（9）（10），将所有视频片段的R沿视频片段的索引维度，作平均池化，基于池化结果计算从视频模态到文本模态的信息流控制门

；将所有单词的E沿单词的索引维度作平均池化，基于池化结果计算从文本模态到视频模态的信息流控制门

；

其中，Avg_Pool

表示平均池化；

表示sigmoid激活函数；Linear

表示利用全连接层对x进行处理，所述全连接层基于训练好的网络参数θ；在公式（9）中，x=

，

；在公式（10）中，x=

，

；

S52：根据公式（11）（12）计算所述视频模态内的注意力流

以及所述文本模态内的注意力流

：

其中，

表示对应位置的元素相乘；

S60包括：根据公式（13）（14）对每个视频片段的R ₁和每个单词的E ₁进行更新，得到所述每个视频片段的R ₂以及所述每个单词的E ₂：

其中，Linear

表示利用全连接层对x进行处理，所述全连接层基于训练好的网络参数θ；在公式（13）中，x=

，

；在公式（14）中，x=

，

。

在一实施例中，S70包括：

S71：将所有单词的E ₂进行拼接，然后沿单词维度进行平均池化，得到所述查询语句的特征E ₂，使得所述查询语句的特征E ₂与每个单词的E ₂维度相同；

S72：将每个视频片段的R ₂与所述查询语句的E ₂进行点乘，得到融合特征；将所述融合特征经过一个全连接层，得到维度为（M，2）的二分类分数，其中，M表示视频片段的数量，每个视频片段对应一个维度为2的二分类分数，所述二分类分数的一个维度表示预测所述每个视频片段为正例样本的分数，另一个维度表示预测所述每个视频片段为负例样本的分数；

S73：从所有视频片段中选取正例样本的相似度分数最高的视频片段，作为视频定位的结果。

在一实施例中，S20中，对每个视频片段以及查询语句的每个单词进行特征提取，包括以下至少之一：

使用3D卷积神经网络对每个视频片段进行特征提取；

使用自然语言处理模型BERT对每个单词进行特征提取。

第二方面，本发明实施例还提供了一种模型训练方法。该方法包括：

S01：构建训练数据集，所述训练数据集中包括多个视频-语句对；将匹配的视频与查询语句构成的视频-语句对标注为正例样本，将不匹配的视频与查询语句构成的视频-语句对标注为负例样本；

S02：对于每个视频-语句对，将当前视频-语句对包括的待定位视频与查询语句输入如权利要求1-6中任意一项所述的方法对应的视频定位模型中，得到所述待定位视频中的每个视频片段与所述查询语句之间的相似度分数；将所述待定位视频的所有视频片段的相似度分数的总和作为所述待定位视频的预测值，将当前视频-语句对的标注信息作为真实值，计算交叉熵损失函数；

S03：利用所述交叉熵损失函数，对所述视频定位模型中的网络参数进行训练，使得对于同一视频或同一查询语句，匹配的视频和查询语句之间的相似分数高于不匹配的视频和查询语句之间的相似度分数。

第三方面，本发明实施例提供了一种视频定位装置，该装置包括：

视频划分模块，用于使用多尺度的时间滑动窗口，对待定位视频进行片段划分，得到多个视频片段，其中，相邻的视频片段之间存在设定比例的重叠；

特征提取模块，用于对每个视频片段以及查询语句的每个单词进行特征提取，将得到所述每个视频片段的原始特征R分解为键特征R _K、查询特征R _Q和值特征R _V，将所述每个单词的原始特征E分解为键特征E _K、查询特征E _Q和值特征E _V；

模态间注意力流获取模块，用于基于所有视频片段的R _K、R _Q和R _V，以及所述查询语句的所有单词的E _K、E _Q和E _V，动态获取视频模态与文本模态之间的注意力流，其中，所述视频模态与文本模态之间的注意力流包含所有视频片段与所有单词之间的注意力权重；

第一特征更新模块，用于基于所述视频模态与文本模态之间的注意力流，利用所有单词的E对每个视频片段的R进行更新，得到所述每个视频片段的第一特征R ₁；利用所有视频片段的R对每个单词的E进行更新，得到所述每个单词的第一特征E ₁；

模态内注意力流获取模块，用于基于所有视频片段的R _K、R _Q和R _V，以及所有单词的E _K、E _Q和E _V，动态获取视频模态内的注意力流以及文本模态内的注意力流，其中，所述视频模态内的注意力流包含所有视频片段之间的注意力权重，所述文本模态内的注意力流包含所有单词之间的注意力权重；

第二特征更新模块，用于基于所述视频模态内的注意力流，利用所有视频片段的R对每个视频片段的R ₁进行更新，得到所述每个视频片段的第二特征R ₂；基于所述文本模态内的注意力流，利用所有单词的E对每个单词的E ₁进行更新，得到所述每个单词的第二特征E ₂；

相似度计算及定位模块，用于基于每个视频片段的R ₂与所有单词的E ₂，计算所述每个视频片段与所述查询语句的相似度分数；选取相似度分数最高的视频片段作为视频定位的结果。

第四方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施例所述的视频定位方法，或实现上述实施例所述的模型训练方法。

本发明具有如下有益效果：

1.本发明实施例实现了基于弱监督网络的视频定位方法，强监督的网络中需要对与查询语句相匹配的视频片段的起止时间进行标注，且强监督网络往往针对于特定的任务及数据类型设计相互独立的网络，因而不具有普适性；而本发明实施例的弱监督网络提供查询语句是否与当前待查询视频相匹配的标签信息，不依赖于时间标签，具有更好的普适性；

2. 本发明实施例基于模态内注意力流和模态间注意力流的动态融合模式，实现了视频定位中的信息融合。不同于简单的相乘相加等融合模式，本申请实施例一方面使用共同注意力模型学习视觉模态和语言模态的模态间注意力流，另一方面在视觉模态和语言模态内部，分别使用自注意力模型产生模态内自注意力流；然后从视频及片段中聚合两者的模态间注意力权重信息，将模态间注意力流传给模内交互模块，用于捕捉复杂的模内关系，调节模态内注意力权重，从而实现视觉模态特征和语言模态特征的更新，实现了视觉模态和语言模态之间交替传递动态信息；

3. 本发明实施例通过对待分类视频中的多个视频片段的相似度分数进行求和，来获取待分类视频的相似度分数，并将模型训练的监督条件设置为：匹配的视频与语句对的相似分数更高，不匹配的视频与语句对的相似分数更低，从而实现了基于相似度分数的弱监督训练，监督条件设置简便，且充分利用了视频片段的标注信息；

4. 本发明实施例在视频片段划分的过程中，使用了多尺度的片段，并设置了一定比例的重叠，由于真实标注的时间片段的长度不是固定的，因此，这一片段设置方法与传统的等分划分方式相比，可以最大程度保证了划分得到的片段包含真实标注的时间片段。

附图说明

图1是本发明实施例提供的一种视频定位方法的流程图。

图2是本发明实施例提供的一种模型训练方法的流程图。

图3为本发明实施例提供的一种视频定位模型的网络示意图。

图4为本发明实施例提供的一种视频定位装置的结构示意图。

图5为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

本实施例提出一种视频定位方法。图1是本发明实施例提供的一种视频定位方法的流程图。如图1所示，该方法包括S10-S70。

S10：使用多尺度的时间滑动窗口，对待定位视频进行片段划分，得到多个视频片段，其中，相邻的视频片段之间存在设定比例的重叠。

可选地，在视频片段的划分中使用了多尺度的时间滑动窗口，时间滑动窗口的长度分别为[64，128，256，512]帧；且相邻视频片段之间保持80%的重叠。以尺寸为64帧的滑动窗口为例，划分的第一个视频片段从第1帧开始到第64帧结束，第二个视频片段从12.8帧开始到75.8帧结束，以此类推。这样可以保证相邻视频片段之间的重叠达到80%。需要说明的是，取帧数时统一向上处理，即把第12.8帧当作第13帧。不同于传统的等分划分，引入多尺度的时间窗口和设定比例的重叠，可以最大程度保证了所划分的视频片段中包含了真实的标准片段。

S20：对每个视频片段以及查询语句的每个单词进行特征提取，将得到所述每个视频片段的原始特征R分解为键特征R _K、查询特征R _Q和值特征R _V，将所述每个单词的原始特征E分解为键特征E _K、查询特征E _Q和值特征E _V。

S30：基于所有视频片段的R _K、R _Q和R _V，以及所述查询语句的所有单词的E _K、E _Q和E _V，动态获取视频模态与文本模态之间的注意力流，其中，所述视频模态与文本模态之间的注意力流包含所有视频片段与所有单词之间的注意力权重。

S40：基于所述视频模态与文本模态之间的注意力流，利用所有单词的E对每个视频片段的R进行更新，得到所述每个视频片段的第一特征R ₁；利用所有视频片段的R对每个单词的E进行更新，得到所述每个单词的第一特征E ₁。

S50：基于所有视频片段的R _K、R _Q和R _V，以及所有单词的E _K、E _Q和E _V，动态获取视频模态内的注意力流以及文本模态内的注意力流，其中，所述视频模态内的注意力流包含所有视频片段之间的注意力权重，所述文本模态内的注意力流包含所有单词之间的注意力权重。

S60：基于所述视频模态内的注意力流，利用所有视频片段的R对每个视频片段的R ₁进行更新，得到所述每个视频片段的第二特征R ₂；基于所述文本模态内的注意力流，利用所有单词的E对每个单词的E ₁进行更新，得到所述每个单词的第二特征E ₂。

可选地，通过S30-S60动态融合模态内的注意力流和模态间的注意力流，来获取视频模态内的有效信息流、文本模态内的有效信息流以及视频模态与文本模态之间的有效信息流，能够有力地捕捉语言领域和视觉领域之间的高层交互信息。

在一实施例中，S20中，对每个视频片段以及查询语句的每个单词进行特征提取，包括以下至少之一：使用3D卷积神经网络对每个视频片段进行特征提取；使用自然语言处理模型BERT对每个单词进行特征提取。

鉴于视频数目庞大，处理起来非常浪费时间，因此一般从提取好的视频特征开始进行处理。可选地，使用3D卷积神经网络（3D CNN）提取视频片段的特征。3D CNN将图像处理领域的2D卷积与池化操作扩展到3D空间，利用3D卷积核对连续视频帧进行时间维度和空间维度的卷积操作，以实现对视频的时空特征的建模，得到视频片段的原始特征R。

可选地，以常用的数据集ActivityNet为例，提取的视频的特征的维度为（N，500），其中N表示视频的总帧数，每个视频帧的特征的维度为500。可以使用PCA降维技术将原本的视频特征向量的高维度降维到固定维度500。

可选地，对于查询语句，使用自然语言处理模型——双向全自注意力变换网络的编码器（Bidirectional Encoder Representations from Transformers，简称为“BERT”）来提取单词的特征，得到单词的原始特征E。BERT提取的特征的维度为固定值768。

可选地，BERT提取特征时可以直接提取一整句的特征，特征尺寸为768；也可以提取每个单词的特征，将所有单词的特征拼接为查询语句的特征，则查询语句的特征的维度为（M，768），其中M表示查询语句包括的单词的数量，每个单词的特征的维度为768。

以及从视频模态到文本模态的注意力流

。

可选地，模态间的注意流用于表征每一对视频片段和查询语句的单词之间的原始注意权重。相应地，S30包括：通过相同的全连接层将R _K、R _Q和R _V，以及E _K、E _Q和E _V调整为相同的维度dim，根据公式（1）（2）计算

和

：

其中，softmax

表示归一化函数。

可选地，通过公式（1）（2）计算每一对视频片段和单词之间的原始注意权重，并将注意力权重转换为视频片段的R _K、R _Q和R _V，以及单词的E _K、E _Q和E _V的表达式。使用相同的全连接层，将两模态特征投影到同一空间，保证两模态具有相同的尺寸。通过计算每一对视频片段的特征R _Q和单词的关键特征E _K之间的内积，获得了从单词特征到每个视频片段特征的信息聚合的原始注意权重。通过计算每个单词的特征E _Q和视频片段的关键特征R _K之间的内积，获得了从视频片段特征到每个单词特征的信息聚合的原始注意权重。

可选地，两个双向InterMAF矩阵捕捉每个视频片段和单词对之间的注意力权重。以

为例，每行表示一个视频片段和所有单词嵌入之间的注意力权重。从所有单词嵌入到特定片段特征的信息可以聚合为所有单词的值特征E _V的加权求和。

相应地，S40包括：根据公式（3）（4）对每个视频片段的R以及每个单词的E进行更新，得到所述每个视频片段的第一特征R ₁以及所述每个单词的第一特征E ₁：

其中，

表示对特征a和b进行连接；Linear

，

；在公式（4）中，x=

，

。

可选地，将注意力流

和

用于更新视频片段的value表示R _V及单词的value表示E _V。在获得更新的视频片段特征和更新的单词特征后，将它们与原始的视频片段特征R和原始的单词特征E沿某一维度直接拼接，形成新的嵌入特征。同时，模态间注意力信息是动态变化的，且是有方向的。

以及所述文本模态内的注意力流

：

。

相应地，S60包括：根据公式（7）（8）对每个视频片段的R ₁和每个单词的E ₁进行更新，得到所述每个视频片段的R ₂以及所述每个单词的E ₂：

其中，Linear

，

；在公式（8）中，x=

，

。

可选地，模态内的注意力流关注的是模态内部的自我更新。在IntraMAF中，可以只利用模块内的信息来估计视频片段之间的关系以及单词与单词之间的关系。

在一实施例中，S50包括：S51和S52。

S51：根据公式（9）（10），将所有视频片段的R沿视频片段的索引维度作平均池化，基于池化结果计算从视频模态到文本模态的信息流控制门

；

其中，Avg_Pool

表示平均池化；

表示sigmoid激活函数；Linear

，

；在公式（10）中，x=

，

。

可选地，在IntraMAF的计算中，可以只利用模块内的信息来估计视频片段之间的关系以及单词与单词之间的关系。但有些关系需要通过其他模态的指导才能获得。因此，在本实施例中，根据公式（9）（10），将视频片段特征沿视频片段的索引维度作平均池化，即平均将视频片段特征沿视频片段的索引维度集合起来平均，同时，将单词特征沿单词的索引维度作平均池化，即将单词特征沿单词的索引维度集合起来平均，作为IntraMAF的计算的信息控制门，来控制注意流。

根据公式（11）（12）计算所述视频模态内的注意力流

以及所述文本模态内的注意力流

：

其中，

表示对应位置的元素相乘。

在本实施例中，IntraMAF被更新为DyIntraMAF。

相应地，S60包括：根据公式（13）（14）对每个视频片段的R ₁和每个单词的E ₁进行更新，得到所述每个视频片段的R ₂以及所述每个单词的E ₂：

其中，Linear

，

；在公式（14）中，x=

，

。

在一实施例中，S70包括：S71-S73。

S71：将所有单词的E ₂进行拼接，然后沿单词维度进行平均池化，得到所述查询语句的特征E ₂，使得所述查询语句的特征E ₂与每个单词的E ₂维度相同。

S72：将每个视频片段的 R ₂与所述查询语句的 E ₂进行点乘，得到融合特征；将所述融合特征经过一个全连接层，得到维度为（M，2）的二分类分数，其中，M表示视频片段的数量，每个视频片段对应一个维度为2的二分类分数，所述二分类分数的一个维度表示预测所述每个视频片段为正例样本的分数，另一个维度表示预测所述每个视频片段为负例样本的分数。

可选地，将上述过程中获得的最终的视频片段的特征R ₂及最终的查询语句的特征E ₂进行点乘，得到的融合特征经过全连接层转化为二分类问题。这里的点乘是为了得到融合特征，经过全连接层调整维度后得到尺寸为（片段数，2）的二分类分数。

本发明实施例具有如下有益效果：

实施例二

本实施例提供一种模型训练方法，用于对实施例一所述的视频定位方法所构成的视频定位模型进行训练。图2是本发明实施例提供的一种模型训练方法的流程图。如图2所示，该方法包括S01-S03。

S01：构建训练数据集，所述训练数据集中包括多个视频-语句对；将匹配的视频与查询语句构成的视频-语句对标注为正例样本，将不匹配的视频与查询语句构成的视频-语句对标注为负例样本。

可选地，对于一个待查询视频，如果提供的自然语言查询语句与该视频是不匹配的，则认为对应的视频-语句对为负例样本；如果提供的自然语言查询语句与该视频是匹配的，则认为对应的视频-语句对为正例样本。

可选地，训练过程中，正例样本和负例样本以1:1的比例打乱训练。

S02：对于每个视频-语句对，将当前视频-语句对包括的待定位视频与查询语句输入实施例一中任意一项视频定位方法对应的视频定位模型中，得到所述待定位视频中的每个视频片段与所述查询语句之间的相似度分数；将所述待定位视频的所有视频片段的相似度分数的总和作为所述待定位视频的预测值，将当前视频-语句对的标注信息作为真实值，计算交叉熵损失函数。

可选地，在训练过程中使用交叉熵损失函数，将视频包括的视频片段的相似度分数总和作为预测值，已知的视频-语句对是否匹配作为标签信息。训练过程中，保证匹配的视频和查询语句对的相似分数更高，不匹配的视频和查询语句对的相似分数更低。

可选地，所述网络参数包括：所有全连接层Linear

中的参数

，包括：

；

可选地，3DCNN和BERT都属于预训练过程，不参与网络的迭代训练。这里的“训练过程”是指两者得到的特征进入网络后有参数需要训练。

图3为本发明实施例提供的一种视频定位模型的网络示意图。不仅显示了实施例一中的视频定位方法对应的视频定位模型，还显示了利用实施例2中的训练方法对视频定位模型进行训练的过程。

如图3所示，第一阶段：利用视频定位模型对视频片段与查询语句的匹配性进行预测。首先，利用3D CNN对视频进行特征提取，得到视频片段特征；利用BERT对查询语句进行特征提取，得到单词特征。然后，通过模态间注意流和模态内注意流实现视频片段特征与单词特征之间的信息融合，分别得到维度为N*d的视频特征和维度1*d的句子特征（即语句特征），其中，N表示视频片段的数量。接着，将1*d的视频片段特征分别与句子特征作点积，再通过FC和softmax操作，得到N*2的匹配分数（即相似度分数），其中，匹配分数的一个维度表示预测该视频片段为正例样本的分数，另一个维度表示预测该视频片段为负例样本的分数。可选地，两个分数的和为1。最后，将N个视频片段的匹配分数沿视频片段的维度相加，得到整个视频与查询语句之间的匹配分数（维度为1*2）。

第二阶段：利用预测结果反向对视频定位模型进行训练。以视频级标签作为真实标注，通过交叉熵损失函数，对视频定位模型中的网络参数进行训练，所使用的约束条件为：对于同一视频或同一查询语句，匹配的视频和查询语句之间的相似分数高于不匹配的视频和查询语句之间的相似度分数。

本发明实施例具有如下有益效果：

实施例三

图4为本发明实施例提供的一种视频定位装置的结构示意图。该装置用于实现实施例一提供的视频定位方法，包括：视频划分模块410、特征提取模块420、模态间注意力流获取模块430、第一特征更新模块440、模态内注意力流获取模块450、第二特征更新模块460和相似度计算及定位模块470。

视频划分模块410用于使用多尺度的时间滑动窗口，对待定位视频进行片段划分，得到多个视频片段，其中，相邻的视频片段之间存在设定比例的重叠。

特征提取模块420用于对每个视频片段以及查询语句的每个单词进行特征提取，将得到所述每个视频片段的原始特征R分解为键特征R _K、查询特征R _Q和值特征R _V，将所述每个单词的原始特征E分解为键特征E _K、查询特征E _Q和值特征E _V。

模态间注意力流获取模块430用于基于所有视频片段的R _K、R _Q和R _V，以及所述查询语句的所有单词的E _K、E _Q和E _V，动态获取视频模态与文本模态之间的注意力流，其中，所述视频模态与文本模态之间的注意力流包含所有视频片段与所有单词之间的注意力权重。

第一特征更新模块440用于基于所述视频模态与文本模态之间的注意力流，利用所有单词的E对每个视频片段的R进行更新，得到所述每个视频片段的第一特征R ₁；利用所有视频片段的R对每个单词的E进行更新，得到所述每个单词的第一特征E ₁。

模态内注意力流获取模块450用于基于所有视频片段的R _K、R _Q和R _V，以及所有单词的E _K、E _Q和E _V，动态获取视频模态内的注意力流以及文本模态内的注意力流，其中，所述视频模态内的注意力流包含所有视频片段之间的注意力权重，所述文本模态内的注意力流包含所有单词之间的注意力权重。

第二特征更新模块460用于基于所述视频模态内的注意力流，利用所有视频片段的R对每个视频片段的R ₁进行更新，得到所述每个视频片段的第二特征R ₂；基于所述文本模态内的注意力流，利用所有单词的E对每个单词的E ₁进行更新，得到所述每个单词的第二特征E ₂。

相似度计算及定位模块470，用于基于每个视频片段的R ₂与所有单词的E ₂，计算所述每个视频片段与所述查询语句的相似度分数；选取相似度分数最高的视频片段作为视频定位的结果。

以及从视频模态到文本模态的注意力流

；

模态间注意力流获取模块430是用于通过相同的全连接层将R _K、R _Q和R _V，以及E _K、E _Q和E _V调整为相同的维度dim，根据公式（1）（2）计算

和

：

其中，softmax

表示归一化函数；

第一特征更新模块440是用于根据公式（3）（4）对每个视频片段的R以及每个单词的E进行更新，得到所述每个视频片段的第一特征R ₁以及所述每个单词的第一特征E ₁：

其中，

表示对特征a和b进行连接；Linear

，

；在公式（4）中，x=

，

。

在一实施例中，模态内注意力流获取模块450是用于根据公式（5）（6）计算所述视频模态内的注意力流

以及所述文本模态内的注意力流

：

；

第二特征更新模块460是用于根据公式（7）（8）对每个视频片段的R ₁和每个单词的E ₁进行更新，得到所述每个视频片段的R ₂以及所述每个单词的E ₂：

（7）

其中，Linear

，

；在公式（8）中，x=

，

。

在一实施例中，模态内注意力流获取模块450是用于：

根据公式（9）（10），将所有视频片段的R沿视频片段的索引维度作平均池化，基于池化结果计算从视频模态到文本模态的信息流控制门

；

其中，Avg_Pool

表示平均池化；

表示sigmoid激活函数；Linear

，

；在公式（10）中，x=

，

；

S52：根据公式（11）（12）计算所述视频模态内的注意力流

以及所述文本模态内的注意力流

：

其中，

表示对应位置的元素相乘；

第二特征更新模块460是用于根据公式（13）（14）对每个视频片段的R ₁和每个单词的E ₁进行更新，得到所述每个视频片段的R ₂以及所述每个单词的E ₂：

其中，Linear

，

；在公式（14）中，x=

，

。

在一实施实例中，相似度计算及定位模块470是用于：

将所有单词的E ₂进行拼接，然后沿单词维度进行平均池化，得到所述查询语句的特征E ₂，使得所述查询语句的特征E ₂与每个单词的E ₂维度相同；

将每个视频片段的R ₂与所述查询语句的E ₂进行点乘，得到融合特征；将所述融合特征经过一个全连接层，得到维度为（M，2）的二分类分数，其中，M表示视频片段的数量，每个视频片段对应一个维度为2的二分类分数，所述二分类分数的一个维度为正例样本的相似度分数，另一个维度为负例样本的相似度分数；

从所有视频片段中选取正例样本的相似度分数最高的视频片段，作为视频定位的结果。

在一实施例中，特征提取模块420是用于通过如下方式中的至少之一对每个视频片段以及查询语句的每个单词进行特征提取：

使用3D卷积神经网络对每个视频片段进行特征提取；

使用自然语言处理模型BERT对每个单词进行特征提取。

本发明实施例具有如下有益效果：

实施例四

图5为本发明实施例提供的一种计算机设备的结构示意图。如图5所示，该设备包括处理器510和存储器520。处理器510的数量可以是一个或多个，图5中以一个处理器510为例。

存储器520作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例一所述的视频定位方法的程序指令/模块，或实施例二所述的模型训练方法的程序指令/模块。

相应地，处理器510通过运行存储在存储器520中的软件程序、指令以及模块，实现本发明实施例一所述的视频定位方法，或实施例二所述的模型训练方法。

存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器520可进一步包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。