CN112015947A

CN112015947A - 一种语言描述引导的视频时序定位方法、系统

Info

Publication number: CN112015947A
Application number: CN202010889647.XA
Authority: CN
Inventors: 李冠彬; 许晓倩; 吴捷; 毛明志
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-12-01
Anticipated expiration: 2040-08-28
Also published as: CN112015947B

Abstract

本发明提供一种语言描述引导的视频时序定位方法及系统，所述方法包括：接收视频查询信息组；从所述待查询视频中获取目标视频片段；从所述查询文字中提取文字特征信息；从所述目标视频片段中提取目标特征信息；计算所述目标视频片段对应的目标损失值；在所述目标损失值不包含于预先设置的损失值集时，计算动作参数；根据所述动作参数调整所述目标视频片段在所述待查询视频中的边界位置，并返回从所述目标视频片段中提取目标视频片段特征信息的步骤。本发明提出了一种语言描述引导的弱监督视频时序定位方法，根据边界自适应优化框架，借助强化学习范式来自适应地优化时序边界，缩小跨模态语义差距，得到更精确的结果。

Description

一种语言描述引导的视频时序定位方法、系统

技术领域

本发明涉及机器视觉及深度学习技术领域，特别是涉及一种语言描述引导的视频时序定位方法、系统。

背景技术

视频时序定位作为一项新提出的关键任务，在人机交互和跨媒体分析领域中具有潜在应用，其目标是根据提供的文本描述，对某个给定视频进行时序定位，即输入一句话，通过模型定位出这句话所包含的意思在该视频中的时序片段(起始帧及终止帧)。

现有技术采用全监督的方式，在视频片段和相对应的语言描述之间进行映射。但是，获取细粒度的标注是一项艰巨的任务，需要大量的人工操作，随着这项任务向着更大尺度和更加复杂的场景发展，这成为了一个关键的瓶颈。

为了避免进行昂贵、笨拙的标注，人们开始在弱监督条件下解决该任务，即从视频级监督中推断与语言相关的时序范围。但是，这种弱监督范式只有视频级语言标注，而没有说明它们相应的具体时序边界，导致边界预测的准确性降低。

发明内容

本发明提出了一种语言描述引导的弱监督视频时序定位方法，根据边界自适应优化(Boundary Adaptive Refinement，BAR)框架，借助强化学习范式来自适应地优化时序边界，缩小跨模态语义差距，得到更精确的结果。

本发明一个实施例提供一种语言描述引导的视频时序定位方法，包括：

接收视频查询信息组；其中，所述视频查询信息组包括查询文字以及待查询视频；

从所述待查询视频中获取目标视频片段；

从所述查询文字中提取文字特征信息；其中，所述文字特征信息为所述查询文字中的文字关键词；

从所述目标视频片段中提取目标特征信息；其中，所述目标特征信息包括所述目标视频片段对应的第一边界位置及第二边界位置，第一边界位置为所述目标视频片段在待查询视频中的起始时间，第二边界位置为所述目标视频片段在待查询视频中的结束时间；

根据所述文字特征信息以及所述目标特征信息，计算所述目标视频片段对应的目标损失值；

在所述目标损失值不包含于预先设置的损失值集时，通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息，计算动作参数；

根据所述动作参数调整所述目标视频片段在所述待查询视频中的边界位置，并返回从所述目标视频片段中提取目标视频片段特征信息的步骤。

进一步地，所述从所述待查询视频中获取目标视频片段的步骤包括：

对所述待查询视频进行特征提取，得到待查询视频特征集合；根据所述待查询视频特征集合获取所述目标视频片段；

其中，所述目标视频片段包括：第一视频片段、第二视频片段及第三视频片段。

进一步地，所述从所述查询文字中提取文字特征信息的步骤包括：

通过GloVe模型对所述查询文字进行编码，生成编码数据；

将所述编码数据输入至GRU网络，生成远程依赖信息；

标记所述远程依赖信息的最后一个信息为查询指令。

进一步地，所述从所述目标视频片段中提取目标特征信息的步骤包括：

通过所述文字特征信息、滤波器函数、所述文字特征信息维度及所述目标特征信息，计算所述目标特征信息的注意力权重及所述目标视频片段信息的注意力特征；

其中，a_i为所述目标视频片段特征信息的注意力权重，E为所述文字特征信息，θ(F_i)为所述滤波器函数，⊙为点积计算，k为所述文字特征信息的维度；A为目标视频片段特征信息的注意力特征；

根据所述文字特征信息以及目标视频片段特征信息，计算所述查询文字信息与目标视频片段特征信息的对齐分数值：

S＝L2Norm(A)⊙L2Norm(E)

其中，S为对齐分数值，A为视频片段信息的注意力特征，⊙为点积计算，E为所述文字特征信息；

根据所述对齐分数值计算t时刻的奖励函数；

其中，r_t为奖励函数，

为t时刻的对齐分数值，

为t-1时刻的对齐分数值；

通过所述目标视频片段特征信息的注意力权重、所述目标视频片段特征信息的注意力特征、所述对齐分数值及所述奖励函数，对所述目标视频片段进行降维，生成与所述文字特征信息维度相同的目标特征信息。

进一步地，所述根据所述文字特征信息以及所述目标特征信息，计算所述目标视频片段对应的目标损失值的步骤包括：

分别对所述目标视频片段、所述第一视频片段、所述第二视频片段及所述第三视频片段进行平均池化处理，分别得到目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征及第三视频片段的池化特征；

通过第一视频片段的池化特征及所述文字特征信息，计算第一视频片段的池化特征的选通函数和文字特征信息的选通函数，

其中，

为第一视频片段的池化特征的选通函数，

为所述文字特征信息的选通函数，W^s和W^ν是参数矩阵，σ表示sigmoid函数，

为第一视频片段信息的池化特征，E为所述文字特征信息；

通过所述目标特征信息，计算归一化位置信息：

和

分别表示所述目标视频片段对应的第一边界位置及第二边界位置，L_t-1表示归一化位置信息，t＝{1,…,T_max}，T_max表示优化过程中的最大迭代次数；

通过所述文字特征信息的选通函数、第一视频片段的池化特征的选通函数、目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征、第三视频片段的池化特征及归一化位置信息，计算状态指令：

其中，s_t为状态指令，φ为两个级联的全连接层，

为所述文字特征信息的选通函数，

为第一视频片段的池化特征的选通函数，f^g为目标视频片段的池化特征，

为第二视频片段的池化特征，

为第三视频片段的池化特征，L_t-1为归一化位置信息；

将状态指令输入至GRU单元，得到输出状态；

将所述输出状态输入至策略函数。

进一步地，所述在所述目标损失值不包含于预先设置的损失值集时，通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息，计算动作参数的步骤包括：

通过策对略函数采样，得到动作参数；其中，所述动作参数包括：将所述目标视频片段对应的第一边界位置及第二边界位置移动v个步数，其中v按下式计算：

表示正整数的下限，s^g和

表示由对齐评估器估计的全局和当前对齐分数。

本发明一个实施例提供一种语言描述引导的视频时序定位系统，包括：

查询信息组接收模块，用于接收视频查询信息组；其中，所述视频查询信息组包括查询文字以及待查询视频；

目标视频片段获取模块，用于从所述待查询视频中获取目标视频片段；

文字特征信息提取模块，用于从所述查询文字中提取文字特征信息；其中，所述文字特征信息为所述查询文字中的文字关键词；

目标特征信息提取模块，用于从所述目标视频片段中提取目标特征信息；其中，所述目标特征信息包括所述目标视频片段对应的第一边界位置及第二边界位置，第一边界位置为所述目标视频片段在待查询视频中的起始时间，第二边界位置为所述目标视频片段在待查询视频中的结束时间；

目标损失值计算模块，用于根据所述文字特征信息以及所述目标特征信息，计算所述目标视频片段对应的目标损失值；

动作参数计算模块，用于在所述目标损失值不包含于预先设置的损失值集时，通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息，计算动作参数；

优化边界模块，用于根据所述动作参数调整所述目标视频片段在所述待查询视频中的边界位置，并返回从所述目标视频片段中提取目标视频片段特征信息的步骤。

进一步地，所述目标视频片段获取模块，还用于：

对所述待查询视频进行特征提取，得到待查询视频特征集合；

根据所述待查询视频特征集合获取所述目标视频片段；其中，所述目标视频片段包括：第一视频片段、第二视频片段及第三视频片段；

所述文字特征信息提取模块，还用于：

通过GloVe模型对所述查询文字进行编码，生成编码数据；

将所述编码数据输入至GRU网络，生成远程依赖信息；

标记所述远程依赖信息的最后一个信息为查询指令；

所述目标特征信息提取模块，还用于：

S＝L2Norm(A)⊙L2Norm(E)

根据所述对齐分数值计算t时刻的奖励函数；

其中，r_t为奖励函数，

为t时刻的对齐分数值，

为t-1时刻的对齐分数值；

通过所述目标视频片段特征信息的注意力权重、所述目标视频片段特征信息的注意力特征、所述对齐分数值及所述奖励函数，对所述目标视频片段进行降维，生成与所述文字特征信息维度相同的目标特征信息；

目标损失值计算模块，还用于：

其中，

为第一视频片段的池化特征的选通函数，

为所述文字特征信息的选通函数，W^s和W^v是参数矩阵，σ表示sigmoid函数，

为第一视频片段信息的池化特征，E为所述文字特征信息；

通过所述目标特征信息，计算归一化位置信息：

和

其中，s_t为状态指令，φ为两个级联的全连接层，

为所述文字特征信息的选通函数，

为第二视频片段的池化特征，

为第三视频片段的池化特征，L_t-1为归一化位置信息；

将状态指令输入至GRU单元，得到输出状态；

将所述输出状态输入至策略函数；

动作参数计算模块，还用于：

表示正整数的下限，s^g和

表示由对齐评估器估计的全局和当前对齐分数。

本发明一个实施例还提供一种电子装置，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现任意一项所述的语言描述引导的视频时序定位方法。

本发明一个实施例还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行任意一项所述的语言描述引导的视频时序定位方法。

与现有技术相比，本发明实施例的有益效果在于：

本发明提供一种语言描述引导的视频时序定位方法，包括：接收视频查询信息组；其中，所述视频查询信息组包括查询文字以及待查询视频；从所述待查询视频中获取目标视频片段；从所述查询文字中提取文字特征信息；其中，所述文字特征信息为所述查询文字中的文字关键词；从所述目标视频片段中提取目标特征信息；其中，所述目标特征信息包括所述目标视频片段对应的第一边界位置及第二边界位置，第一边界位置为所述目标视频片段在待查询视频中的起始时间，第二边界位置为所述目标视频片段在待查询视频中的结束时间；根据所述文字特征信息以及所述目标特征信息，计算所述目标视频片段对应的目标损失值；在所述目标损失值不包含于预先设置的损失值集时，通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息，计算动作参数；根据所述动作参数调整所述目标视频片段在所述待查询视频中的边界位置，并返回从所述目标视频片段中提取目标视频片段特征信息的步骤。本发明提出了一种语言描述引导的弱监督视频时序定位方法，根据边界自适应优化(Boundary Adaptive Refinement，BAR)框架，借助强化学习范式来自适应地优化时序边界，缩小跨模态语义差距，得到更精确的结果。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明某一实施例提供的一种语言描述引导的视频时序定位方法的流程图；

图2是本发明某一实施例提供的一种语言描述引导的视频时序定位装置的结构图；

图3是本发明某一实施例提供的边界自适应框架的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

第一方面。

现在流行的“proposal-and-rank”模式着重于在rank分支学习更健壮的跨模态表示，但没有显式考虑对灵活边界和内容感知提议的建模。这种模式本质上是局限性的，它严重依赖于预定义的、不灵活的滑动窗口(例如128和256帧)，导致难以泛化到长度差异很大的视频上。当将这种方法用于弱监督条件下时，它还会另外带来两个挑战。首先，在没有细粒度标注的情况下，用于边界调整的偏移回归学习(offset regressive learning)变得不切实际。其次，在训练过程中访问视频-查询对时，主导模型(leading model)只能从视频间(inter-videos)学习跨模态映射，而没有考虑到视频内(intra-video)更细微和细粒度的语义概念。这些次优的跨模态映射通常会导致边界预测的准确性降低。

本发明提出的语言描述引导的弱监督视频时序定位方法将时序定位过程表述为马尔可夫决策过程，设计了一个边界自适应优化框架(Boundary Adaptive Refinement,BAR)，从初始视频片段出发，使用强化学习技术逐步修改完善其时序边界，如图3所示。BAR框架包含3个部分，其中，上下文感知特征提取器(Context-aware Feature Extractor)将环境状态编码为跨模态上下文概念，跨模态对齐评估器(cross-modal alignmentevaluator)为迭代优化过程提供量身定制的奖励和终止信号，自适应动作计划器(adaptive action planner)根据上下文自适应地推断动作(action)的方向和幅度，而不是每步都移动固定幅度。

用N个小片段(clips){V_1,V_2,…,V_N}表示视频V，每个clip对应一小部分连续帧。以视频段V和文本查询T作为输入，任务是输出在语义上与查询匹配的视频段(segment)[j,k]，j和k分别表示开始和结束的片段索引。我们的工作集中在此任务的弱监督设置上，具体而言，仅提供一组V-T对，但每个对的视频段注释均不可用。

请参阅图1至图2，本发明某一实施例提供一种语言描述引导的视频时序定位方法，包括：

S10、接收视频查询信息组；其中，所述视频查询信息组包括查询文字以及待查询视频。

S20、从所述待查询视频中获取目标视频片段。

在某一具体实施中，所述从所述待查询视频中获取目标视频片段的步骤包括：

对所述待查询视频进行特征提取，得到待查询视频特征集合；根据所述待查询视频特征集合获取所述目标视频片段；其中，所述目标视频片段包括：第一视频片段、第二视频片段及第三视频片段。

优选地，通过预训练的视频特征提取器对所述待查询视频进行特征提取，所述预训练的视频特征提取器包括：深度三维卷积网络(C3D模型)或时间敏感型网络(TSN模型)。

S30、从所述查询文字中提取文字特征信息；其中，所述文字特征信息为所述查询文字中的文字关键词。

在某一具体实施例中，所述从所述查询文字中提取文字特征信息的步骤包括：

通过GloVe模型对所述查询文字进行编码，生成编码数据；

将所述编码数据输入至GRU网络，生成远程依赖信息；

标记所述远程依赖信息的最后一个信息为查询指令。

在某一具体实施方式中，上下文感知特征提取器从外部环境获取视频查询对(V-T)，其中V表示待查询视频，T表示查询文字，并将其编码为上下文感知跨模态概念。首先使用GloVe模型嵌入对查询文字T中的每个单词进行编码，然后将编码后的查询文字T送入GRU网络中以捕获远程依赖信息，从GRU网络的最后一个隐藏状态得到查询指令E。预训练的视频特征提取器用于提取每个视频片段的片段级别特征。视频段表示为一系列视频片段特征F，即

表示视频片段V_i的片段级别特征，M则是相应视频段中片段的数量。在每个预设时间内，更新后的视频边界将整个视频分为三个部分：左段，当前段和右段。然后，我们将相应边界内的所有片段级特征收集到一个集合中，以获得三个相应的片段级特征。该提取器没有直接将当前段的特征作为单独的输入，还利用了从视频中其它片段获得的上下文信息进行状态编码。

此外，提取器还将归一化的边界位置信息L_t-1包含在了编码特征中，以提供相对位置信息。其中，

和

分别表示边界的开始和结束片段索引，t＝{1,…,T_max}，T_max表示优化过程中的最大迭代次数。

S40、从所述目标视频片段中提取目标特征信息；其中，所述目标特征信息包括所述目标视频片段对应的第一边界位置及第二边界位置，第一边界位置为所述目标视频片段在待查询视频中的起始时间，第二边界位置为所述目标视频片段在待查询视频中的结束时间。

在某一具体实施例中，所述从所述目标视频片段中提取目标特征信息的步骤包括：

S＝L2Norm(A)⊙L2Norm(E)

根据所述对齐分数值计算t时刻的奖励函数；

其中，r_t为奖励函数，

为t时刻的对齐分数值，

为t-1时刻的对齐分数值；

在某一具体实施方式中，跨模态对齐评估器是专门为解决我们基于RL算法中的两个关键问题而设计的。一方面，该评估器用于分配面向目标的奖励，以解决在缺少细粒度边界注释的情况下自适应动作计划器无法直接获取可靠奖励函数的问题。另一方面，评估器确定准确的停止信号以终止优化过程。给定一个视频段，每个片段特征的维度通过过滤器函数(θ)减小到查询指令E的维度，该函数包括一个完全连接层，后跟线性整流函数(ReLU函数)和Dropout函数。查询指令E用于在所有视频片段上创建时序注意力(attention)，强调关键的视频片段并弱化不重要的部分。具体地，使用缩放点积注意力机制(scaled dot-product attention mechanism)来获得注意力权重a_i和分段注意力特征A：

其中，⊙表示两个向量之间的点积操作，k为查询指令E的维度。然后将片段注意力特征和查询表示映射到联合嵌入空间以计算对齐分数S：

S＝L2Norm(A)⊙L2Norm(E)

对齐分数可以被视为提供可靠奖励的奖励估计。具体而言，评估器测量连续的段-查询对的对齐分数，并分配相应的奖励r_t：

其中

表示当前片段和句子查询在时间步t的对齐分数。这个奖励函数返回+1或-1。如果下一个边界相比当前边界有更高的对齐分数，那么从当前窗口移动到下一个的行为a_t的奖励r_t为+1，否则为-1。这种二元奖励更清楚地反映了哪个行动可以将边界推向真值(ground-truth)，从而促进代理(agent)的学习。

S50、根据所述文字特征信息以及所述目标特征信息，计算所述目标视频片段对应的目标损失值。

在某一具体实施例中，所述根据所述文字特征信息以及所述目标特征信息，计算所述目标视频片段对应的目标损失值的步骤包括：

其中，

为第一视频片段的池化特征的选通函数，

为第一视频片段信息的池化特征，E为所述文字特征信息；

通过所述目标特征信息，计算归一化位置信息：

和

其中，a_t为状态指令，φ为两个级联的全连接层，

为所述文字特征信息的选通函数，

为第二视频片段的池化特征，

为第三视频片段的池化特征，L_t-1为归一化位置信息；

将状态指令输入至GRU单元，得到输出状态；

将所述输出状态输入至策略函数。

S60、在所述目标损失值不包含于预先设置的损失值集时，通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息，计算动作参数。

在某一具体实施例中，所述在所述目标损失值不包含于预先设置的损失值集时，通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息，计算动作参数的步骤包括：

表示正整数的下限，s^g和

表示由对齐评估器估计的全局和当前对齐分数。

S70、根据所述动作参数调整所述目标视频片段在所述待查询视频中的边界位置，并返回从所述目标视频片段中提取目标视频片段特征信息的步骤。

在某一具体实施方式中，自适应动作规划器旨在推断动作序列以完善时序边界。为了获得固定长度的视觉表示，我们在全局、当前、左和右视频段的特征集F上使用平均池化层，分别获得它们的池化特征F^g,

然后进一步采用交叉-门交互方法(cross-gated interaction method)来增强相关段-查询对的影响。具体而言，当前池化特征

由查询指令E选通，与此同时查询指令E的门(gate)取决于

其中W^s和W^v是参数矩阵，σ表示sigmoid函数。然后这些多模态特征被连接(concatenated)起来，送入两个级联的全连接层φ，得到状态激活表示s_t：

这些上下文特征促使规划器对视频内容进行左右权衡并推断出更准确的动作。s_t被进一步送入GRU网络单元，以使代理能够合并关于已探查视频段的历史信息。接下来，GRU网络的输出后面接两个单独的全连接层，分别估计一个策略函数π(a_t|s_t)和一个值近似器v^π(s_t)。在训练过程中，从策略函数π(a_t|s_t)采样获得基本动作

动作空间

由四个基本动作组成：将起点/终点向后/向前移动N/v个clip。v是振幅因子，根据经验设置为：

其中，

表示正整数的下限，s^g和

表示由对齐评估器估计的全局和当前对齐分数，tanh用于限制动作幅度在

附近波动。S^g作为对齐度的基线以确定v：当

较低时，v变小，边界被大幅移动；当

越高时，v越大，边界被更细微地调整。这种自适应设置使代理能够根据当前观察结果确定动作幅度，这也符合人类习惯。

评论者(critic)预测的状态值v^π(s_t)是当前状态的值估计。在critic产生精确值的假设下，基于对梯度的无偏估计来训练actor。

在某一具体实施方式中，我们选择advantage actor-critic(A2C)算法来训练自适应动作规划器，设计结合了ranking loss

的多实例学习算法来训练跨模态对齐评估器和上下文感知特征提取器。BAR的完整loss表示为：

其中，

表示A2C算法中的损失函数，η为两个损失之间的权衡因子。

A2C损失具体为：自适应动作规划器在训练阶段运行T_max步来调整边界。给定轨迹Γ＝<s_t,π(·|s_t),v^π(s_t),a_t,r_t>，actor的损失函数

表示为：

其中，A^π(s_t,a_t)表示优势函数(advantage function)，H()为策略的熵(policyentropy)。A^π(s_t,a_t)＝Q^π(s_t,a_t)-v^π(s_t)衡量动作是否比策略的默认行为好以及在多大程度上好于默认行为。采用时差学习(Temporal-difference learning)通过k阶函数逼近估计Q值函数(Q-value function)Q^π(s_t,a_t)：

其中，γ为常量折扣因子(constant discount factor)。BAR不会在训练期间出现稀疏的奖励问题，因为可以在每个步骤获得奖励。为了优化critic，我们将Q值函数和估计值之间的均方差(MSE)损失

最小化。A2C的完整损失为actor分支和critic分支的损失和：

Ranking损失具体为：通常，视频间的内容差异高于视频内的内容差异。因此，我们采用多实例学习算法，并且首次利用视频间的粗略语义概念来优化框架。具体地，给定全局视频特征F^g和它对应的查询表示E，对于从其他样本对获取的任何视频F^g′/查询

期望对齐分数S(F^g,E)(正对)比分数S(F^g′,E)/S(F^g,E‘)(负对)要高。视频间ranking损失因此定义为：

其中，[x]₊表示由max(0,x)定义的斜坡函数，∈表示很小的数。S(F^g,E)和S^g是等价的。正对和负对从同一mini-batch中取得。

视频间通常包括广泛的语义抽象，这些语义抽象很难区分特定视频中的相似内容。为此，我们设计了视频内ranking损失

以捕获视频内的更多细微概念，从而进一步优化网络。如果在优化过程中，左段、当前段、右段查询对中任何一个的得分超过了全局得分，则我们假定这一对应该比其它两对有更高的对齐分数：

其中，

和

分别是在时间步t时左段查询对和右段查询对的对齐分数。ψ为二元指示函数。如果括号中的不等式成立，ψ()将输出1，否则输出0。当段-查询对的分数

超过s_g时，通过增大

或减小

和

的方式，达到扩大

和其它两者之间差距的优化目标。注意到将

降到s_g以下是另一种可能的选择，但这通常随着视频间训练的进行而变得越来越不切实际。另外，当存在多个分数超过s_g的段-查询对时，

的优化目标通常指引对齐评估器抑制次优匹配对的分数，使其低于s_g，同时驱动动作规划器调整边界。直觉上，

鼓励文本查询相比同一视频中的其它可能视频段更接近于语义匹配的视频段，这有助于获得内容感知的对齐分数。

设法i)扩大匹配和不匹配的段查询对之间的得分差距，以增加对齐评估的置信度；ii)通过影响对齐评估器来驱动动作规划器实现更好的时间边界调整，从而改善奖励计算。综上所述，ranking损失

定义为：

其中，λ是权重参数，对视频内和视频间的ranking损失进行权衡。在训练阶段的初期，段查询对的分数几乎不会超过s_g，

趋于零，因此，

扮演着主要角色，学习从视频-查询对到段-查询对匹配的迁移。随着训练的进行，

逐渐收敛，段-查询对的分数超过s_g的情况更常见，

开始发挥关键作用。

交替更新：BAR是从头开始训练(trained from scratch)的，并且采用了交替更新策略来使训练过程更稳定。具体来说，对于每组2K次的迭代，首先固定动作规划器的参数，使用

进行模型优化。这种设置可以保证为动作规划器提供值得信赖的初始奖励。当达到K次迭代时，固定对齐评估器和特征提取器的参数，并将损失函数从

切换到

以优化动作规划器，再进行K次迭代。重复此交替更新机制，直至模型收敛。

在每个时间步，BAR通过贪婪解码算法执行一个动作以自适应调整时序边界。多模态对齐评估器计算分数

提供对齐度或终止信号。根据经验，与查询对应的结果通常占据合理的视频长度。因此，为了惩罚具有异常长度的视频片段，我们使用高斯惩罚函数更新置信度得分，如下所示：

其中，δ表示异常长度的惩罚因子，τ是调节因子，随着τ的增加，惩罚度的影响也随之降低。测试过程中具有最大

的视频段被视为最终的结果。

在某一具体实施方式中，输入查询语言及视频。

1.使用Glove对query进行编码后，再送入GRU网络，将GRU的最后一个隐藏状态作为查询表示E。

2.使用预训练的特征提取器(C3D或TSN)提取clip级别的视频特征

一个视频段由若干clip组成，因此视频段级别的特征表示为集合

将视频分为三个段：左段、当前段、右段，当前段即为当前迭代步所选取的视频段，左、右段分别在当前段左、右部分。

3.提取归一化位置信息：

和

分别表示边界的开始和结束clip索引，t＝{1,…,T_max}，T_max表示优化过程中的最大迭代次数。

4.将clip feature送入滤波器函数θ(由FC、ReLU和Dropout组成)，降维到和查询表示E相同的维度。通过下式计算clip i的attention weighta_i和视频段的attentionfeature A:

上面，⊙表示两个向量之间的点积操作，k为E的维度。

通过下式计算对齐分数S：

S＝L2Norm(A)⊙L2Norm(E)

根据对齐分数计算t时刻的奖励r_t(t时刻当前段的对齐分数和t-1时刻当前段对齐分数的差的符号):

5.对全局、当前、左、右视频段应用平均池化，分别得到池化特征F^g,

对E和

进行互相选通操作，如下式所示：

W^s和W^v是参数矩阵，σ表示sigmoid函数。

按下式计算，将括号内一系列特征cat起来，送入φ函数，φ表示两个级联的全连接层，得到状态表示s_t：

6.将s_t送入GRU单元。GRU的输出状态分别被送入两个fc分支，其中一个分支计算策略函数π(a_t|s_t)，另一分支为值近似器，输出价值函数近似v^π(s_t)。

7.从策略函数π(a_t|s_t)中采样得到动作(action)

动作空间

包含四个基本动作，即：将起点/终点向后/向前移动N/v个clip，其中v按下式计算：

表示正整数的下限，s^g和

表示由对齐评估器估计的全局和当前对齐分数。

8.若达到最大迭代次数，停止迭代，当前段即为对齐结果；否则，使用动作a_t调整当前段的边界，然后令t＝t+1，转到步骤1，进行下一次迭代。

在某一具体实施例中，完整的损失为

A2C用于训练自适应动作规划器：

A^π(s_t,at)＝Q^π(s_t,a_t)-v^π(s_t)

ranking loss用于训练跨模态对齐评估器和上下文感知特征提取器，具体计算方法如下：

是基于互相对应的视频查询对的对齐分数应该高于非对应视频查询对，在训练初期起主要作用。

鼓励文本查询相比同一视频中的其它可能视频段更接近于语义匹配的视频段。

在某一具体实施方式中，训练流程包括：从某一状态出发(随机选定当前视频段区域)，用上下文特征提取器提取出当前的查询特征、视频段特征、位置特征。将查询特征和视频段特征送入跨模态对齐评估器，计算出查询和视频段的对齐分数，再根据对齐分数计算奖励r_t，根据r_t计算损失

同时该奖励也将用于计算自适应规划器的损失函数

在自适应动作规划器中应用上下文特征提取器得到的特征计算出当前状态表示s_t，通过状态表示计算策略函数π(a_t|s_t)和价值函数估计v^π(s_t)，并计算

损失。计算损失后可利用反向传播算法使用交替更新策略更新模型参数，并根据action更新当前段的边界，进入下一次迭代。

其中，训练伪代码包括：

算法1交替更新训练过程

在某一具体实施例中，推断过程包括：

输入：查询句子、视频

1.随机选取当前段范围。

2.将查询和视频输入BAR获取对齐分数

3.使用高斯惩罚函数更新置信度得分

4.若

达到给定要求，终止迭代；否则执行动作，调整边界，转2。

5.选择过程中具有最大

的视频段作为最终结果。

第二方面。

请参阅图2，本发明某一实施例提供一种语言描述引导的视频时序定位系统，包括：

查询信息组接收模块10用于接收视频查询信息组；其中，所述视频查询信息组包括查询文字以及待查询视频。

目标视频片段获取模块20用于从所述待查询视频中获取目标视频片段。

在某一具体实施例中，所述目标视频片段获取模块20，还用于：

根据所述待查询视频特征集合获取所述目标视频片段；其中，所述目标视频片段包括：第一视频片段、第二视频片段及第三视频片段。

文字特征信息提取模块30用于从所述查询文字中提取文字特征信息；其中，所述文字特征信息为所述查询文字中的文字关键词。

在某一具体实施例中，所述文字特征信息提取模块30，还用于：

通过GloVe模型对所述查询文字进行编码，生成编码数据；

将所述编码数据输入至GRU网络，生成远程依赖信息；

标记所述远程依赖信息的最后一个信息为查询指令。

目标特征信息提取模块40用于从所述目标视频片段中提取目标特征信息；其中，所述目标特征信息包括所述目标视频片段对应的第一边界位置及第二边界位置，第一边界位置为所述目标视频片段在待查询视频中的起始时间，第二边界位置为所述目标视频片段在待查询视频中的结束时间。

在某一具体实施例中，所述目标特征信息提取模块40，还用于：

S＝L2Norm(A)⊙L2Norm(E)

根据所述对齐分数值计算t时刻的奖励函数；

其中，r_t为奖励函数，

为t时刻的对齐分数值，

为t-1时刻的对齐分数值；

目标损失值计算模块50用于根据所述文字特征信息以及所述目标特征信息，计算所述目标视频片段对应的目标损失值。

在某一具体实施例中，目标损失值计算模块50，还用于：

其中，

为第一视频片段的池化特征的选通函数，

为第一视频片段信息的池化特征，E为所述文字特征信息；

通过所述目标特征信息，计算归一化位置信息：

和

其中，s_t为状态指令，φ为两个级联的全连接层，

为所述文字特征信息的选通函数，

为第二视频片段的池化特征，

为第三视频片段的池化特征，L_t-1为归一化位置信息；

将状态指令输入至GRU单元，得到输出状态；

将所述输出状态输入至策略函数。

动作参数计算模块60用于在所述目标损失值不包含于预先设置的损失值集时，通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息，计算动作参数。

在某一具体实施例中，动作参数计算模块60，还用于：

表示正整数的下限，s^g和

表示由对齐评估器估计的全局和当前对齐分数。

优化边界模块70，用于根据所述动作参数调整所述目标视频片段在所述待查询视频中的边界位置，并返回从所述目标视频片段中提取目标视频片段特征信息的步骤。

第三部分。

本发明实施例还提供一种电子装置，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任意一项所述的语言描述引导的视频时序定位方法。

第四部分。

一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的语言描述引导的视频时序定位方法。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种语言描述引导的视频时序定位方法，其特征在于，包括：

从所述待查询视频中获取目标视频片段；

2.如权利要求1所述的一种语言描述引导的视频时序定位方法，其特征在于，所述从所述待查询视频中获取目标视频片段的步骤包括：

3.如权利要求1所述的一种语言描述引导的视频时序定位方法，其特征在于，所述从所述查询文字中提取文字特征信息的步骤包括：

通过GloVe模型对所述查询文字进行编码，生成编码数据；

将所述编码数据输入至GRU网络，生成远程依赖信息；

标记所述远程依赖信息的最后一个信息为查询指令。

4.如权利要求1所述的一种语言描述引导的视频时序定位方法，其特征在于，所述从所述目标视频片段中提取目标特征信息的步骤包括：

S＝L2Norm(A)⊙L2Norm(E)

根据所述对齐分数值计算t时刻的奖励函数；

其中，r_t为奖励函数，

为t时刻的对齐分数值，

为t-1时刻的对齐分数值；

5.如权利要求2所述的一种语言描述引导的视频时序定位方法，其特征在于，所述根据所述文字特征信息以及所述目标特征信息，计算所述目标视频片段对应的目标损失值的步骤包括：

其中，

为第一视频片段的池化特征的选通函数，

为第一视频片段信息的池化特征，E为所述文字特征信息；

通过所述目标特征信息，计算归一化位置信息：

和

其中，s_t为状态指令，φ为两个级联的全连接层，

为所述文字特征信息的选通函数，

为第二视频片段的池化特征，

为第三视频片段的池化特征，L_t-1为归一化位置信息；

将状态指令输入至GRU单元，得到输出状态；

将所述输出状态输入至策略函数。

6.如权利要求1所述的一种语言描述引导的视频时序定位方法，其特征在于，所述在所述目标损失值不包含于预先设置的损失值集时，通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息，计算动作参数的步骤包括：

表示正整数的下限，s^g和

表示由对齐评估器估计的全局和当前对齐分数。

7.一种语言描述引导的视频时序定位系统，其特征在于，包括：

8.如权利要求7所述的一种语言描述引导的视频时序定位系统，其特征在于，

所述目标视频片段获取模块，还用于：

所述文字特征信息提取模块，还用于：

通过GloVe模型对所述查询文字进行编码，生成编码数据；

将所述编码数据输入至GRU网络，生成远程依赖信息；

标记所述远程依赖信息的最后一个信息为查询指令；

所述目标特征信息提取模块，还用于：

S＝L2Norm(A)⊙L2Norm(E)

根据所述对齐分数值计算t时刻的奖励函数；

其中，r_t为奖励函数，

为t时刻的对齐分数值，

为t-1时刻的对齐分数值；

目标损失值计算模块，还用于：

其中，

为第一视频片段的池化特征的选通函数，

为第一视频片段信息的池化特征，E为所述文字特征信息；

通过所述目标特征信息，计算归一化位置信息：

和

其中，s_t为状态指令，φ为两个级联的全连接层，

为所述文字特征信息的选通函数，

为第二视频片段的池化特征，

为第三视频片段的池化特征，L_t-1为归一化位置信息；

将状态指令输入至GRU单元，得到输出状态；

将所述输出状态输入至策略函数；

动作参数计算模块，还用于：

表示正整数的下限，s^g和

表示由对齐评估器估计的全局和当前对齐分数。

9.一种电子装置，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的语言描述引导的视频时序定位方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至6中任意一项所述的语言描述引导的视频时序定位方法。