CN111782871B

CN111782871B - 基于时空强化学习的跨模态视频时刻定位方法

Info

Publication number: CN111782871B
Application number: CN202010562550.8A
Authority: CN
Inventors: 曹达; 曾雅文; 荣辉桂; 朱宁波; 陈浩; 秦拯
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2024-06-25
Anticipated expiration: 2040-06-18
Also published as: CN111782871A

Abstract

本发明提供了一种基于时空强化学习的跨模态视频时刻定位方法，包括以下步骤：S01、输入完整视频和查询语句，抽取视频特征和查询语句特征，构建强化学习环境；S02、基于强化学习环境信息进行时序强化学习并定位视频的时序边界，环境信息包括视频全局特征、视频局部特征、定位边界和查询语句特征；S03、基于时序强化学习的定位边界进行空间强化学习，在所述环境中处理空间信息并逐帧追踪相关场景，并用注意力机制过滤无关信息；S04、根据空间强化学习更新时序强化学习的局部片段特征，使得所述空间强化学习和所述时序强化学习交替训练，直至收敛，得到对应查询语句的视频时刻片段。本发明提供的方法能够返回精确的视频定位边界，提高用户的查询体验。

Description

基于时空强化学习的跨模态视频时刻定位方法

【技术领域】

本发明涉及视频时刻定位技术领域，尤其涉及一种基于时空强化学习的跨模态视频时刻定位方法。

【背景技术】

跨模态视频检索是在一组可能的视频集合中检索与查询语句文本所描述语义最相关的视频。然而，在一些场景中，如视频快速预览等，需要检索到一个相关的视频时刻而不是整个视频。

现有技术中已经提出一些处理视频时刻定位的方法。一种是采用在整个视频上切分滑动窗口的策略，对滑动窗口形成的候选集进行相关性排序。但是这种方法候选视频片段众多，导致耗时较长。另一种方法是引入强化学习将问题抽象成一个连续性决策问题进行直接定位，即直接定位视频的开始帧和结束帧。虽然第二种方法也取得了较好的效果，但是在一个视频中，人物和场景的变化范围较小，与查询语句相关的空间信息有限，在不考虑空间信息的情况下对视频进行定位，导致不相关的背景噪声等对相关的局部场景区域造成极大干扰，并进一步阻碍定位视频时刻的性能。

目前现有的视频时刻定位方法中，基于滑动窗口实现方法受到滑动窗口大小的限制并且十分耗时，基于强化学习直接定位的方法对视频特征的处理过于粗糙，忽视了视频帧中只有局部信息是与查询语句相关的，其他无关的信息可能对视频时刻定位性能造成极大的干扰。

这两种视频时刻定位方式都没有关注视频帧信息在时序上和空间上的影响，因此，有必要提供一种更精确的跨模态视频边界定位的方法。

【发明内容】

目前现有技术的视频时刻定位方法中没有关注视频帧信息在时序上和空间上的影响，因此，本发明提供一种基于时空强化学习的跨模态视频时刻定位方法。

一种基于时空强化学习的跨模态视频时刻定位方法，包括以下步骤：

S01、输入完整视频和查询语句，抽取视频特征和查询语句特征，构建强化学习环境；

S02、基于强化学习环境信息进行时序强化学习并定位视频的时序边界，所述环境信息包括视频全局特征、视频局部特征、定位边界和查询语句特征；

S03、基于所述时序强化学习的定位边界进行空间强化学习，在所述环境中处理空间信息并逐帧追踪相关场景，并用注意力机制过滤无关信息；

S04、根据空间强化学习更新时序强化学习的局部片段特征，使得所述空间强化学习和所述时序强化学习交替训练，直至收敛，得到对应查询语句的视频时刻片段。

优选的，所述步骤S02中，所述时序强化学习步骤包括：定义状态为s_e ^t＝[f_e，l^t，f_o ^t，f_g]，其中f_e为查询语句特征、l^t为位置特征、f_o ^t为所述位置特征相应的空间信息特征，f_g为视频全局特征，t是当前时间步；定义时序强化学习智能体的动作A_e，所述动作A_e包括同时向前移动起点、同时向前移动终点、同时向后移动起点、同时向后移动终点、单独向前/向后移动起点和终点、单独向后移动起点和终点以及停止动作；设置所述时序强化学习智能体移动的初始位置为L₀＝[0.25*n，0.75*n]，其中n是视频图像帧的总长度，动作每步的移动大小设置为n/2z_e，其中z_e为确定的超参数；定义智能体的最大搜索步数；所述时序强化学习智能体从环境中获取所述状态后，执行动作A_e，使用IoU评估后得到每步的奖励。

优选的，所述步骤S02中，使用IoU进行评估的公式为：

根据IoU的计算结果，定义所述时序强化学习智能体每步移动的奖励r_e ^t为：

其中，φ为惩罚系数，当IoU^t大于IoU^t-1，则当前动作将被视为正反馈，奖励为正，否则奖励为零或负，同时减去一个智能体对步数的惩罚。

优选的，步骤骤S03中，所述空间强化学习使用目标跟踪框算法实现观察输入视频帧的空间信息，并输出连续图像帧的空间边界。

优选的，所述目标跟踪框算法包括：定义状态为s_s ^k＝[f_e,f_o ^k,f_s]，其中f_e为查询语句特征，f_o ^k为空间信息特征，f_s为由时序强化学习定位到的局部视频特征，t是当前时间步；定义空间强化学习智能体的动作，控制局部目标框的移动，所述动作包括左移、右移、上移、下移、放大、缩小、变长、变宽以及停止动作；设置目标跟踪框为b＝[x，y，m，n]，其中[x，y]是目标跟踪框的中心点，[m，n]是所述目标跟踪框的大小；设置初始位置为b₀＝[0.25*h，0.25*w，0.75*h，0.75*w]，其中h和w为图像帧的高度和宽度；设置步长为垂直方向的h/2z_s和水平方向的w/2z_s，其中z_s为超参数；所述空间强化学习智能体使用IoU进行评估，得到其奖励函数r为：

其中Q值为状态执行动作后获得的期望回报，当更新特征后的Q值(Q_o)大于更新前的Q值(Q_w)，则奖励增加就1，Q值(Q_o)不变就0，Q值(Q_o)减少则奖励为-1。

优选的，步骤S03中使用注意力机制优化特征表达为：

其中W_q和W_o是权重矩阵，b是偏置向量，q是权重向量。

优选的，步骤S04中通过深度确定性策略梯度算法更新时序强化学习。

优选的，步骤S04中所述深度确定性策略梯度算法包括评论家网络、演员家网络、评论家参数滞后保存网络和演员家参数滞后保存网络。

优选的，所述评论家网络通过值函数近似用于评估当下动作是否有效，当最优动作的值函数Q(s，a)被视为逼近最优策略π时，所述时序强化学习智能体得到最大期望回报：：

Q^π(s,a)＝Ε[R|s^t＝s,a^t＝a]＝Ε_s'[r+γΕ_a'～π[Q^π(s',a')]]，

其中，γ是Q值的折扣因子，用于平衡奖励和预估值之间的重要性，s为当下状态，a为当下动作，t为当前时间步；

所述评论家网络通过最小化损失来学习与最优化最优策略对应的动作值函数Q：

其中，ω为参数，Q是评论家网络Q函数，Q*是旧的参数滞后保存网络。

优选的，所述演员家网络通过执行动作a＝π(s；θ)用于更新位置特征l^t，并朝着使得值函数Q增大的方向更新策略的参数θ，即对损失函数J求Q值方向的导数，以使得它取得最大值，其求导后的策略梯度如下：

与现有技术相比，本发明提供的基于时空强化学习的视频时刻定位方法，通过时序强化学习根据环境做出的动作决策，定位视频边界，并通过所述空间强化学习追踪场景的动态变化，同时通过注意力机制进行进一步过滤相关性少的空间信息，最后通过时序强化学习和空间强化学习交替增强直至收敛。本发明提供的视频时刻定位方法避免依靠大量的滑动窗口候选集，结合句子的语义信息，扩展使用时空强化学习分别处理视频在时序上和空间帧上的信息，以帮助智能体更好的理解视频内容，返回更精确的视频定位边界，提高用户的查询体验。

【附图说明】

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本发明提供的基于时空强化学习的跨模态视频时刻定位方法的流程图；

图2为本发明提供的空间强化学习的探索移动示意图。

【具体实施方式】

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如本领域技术人员所知，强化学习是一种基于序列行为的反馈进行的无标注的学习策略的方法。一般地，强化学习系统包括智能体和执行环境，智能体通过与执行环境的交互和反馈，不断进行学习，优化其策略。具体而言，智能体观察并获得执行环境的状态(state)，根据一定策略，针对当前执行环境的状态确定要采取的行为或动作(action)。这样的行为作用于执行环境，会改变执行环境的状态，同时产生一个反馈给智能体，基于该反馈可确定回报值(reward)。智能体根据获得的回报值来判断，之前的行为是否正确，策略是否需要调整，进而更新其策略。通过反复不断地观察状态、确定行为、收到反馈，使得智能体可以不断更新策略，最终目标是能够学习到一个策略，使得获得的回报值累积(即总收益)最大化。

请参阅图1，本发明提供了一种基于时空强化学习的跨模态视频时刻定位方法，其包括以下步骤：

S02、基于环境信息进行时序强化学习，定位视频的时序边界，所述环境信息包括视频全局特征、视频局部特征、定位边界和查询语句特征；

此外，本发明还提供了一种基于时空强化学习的跨模态视频时刻定位的时序强化学习智能体和空间强化智能体，该系统用于完成上述方法的步骤。

具体的，在步骤S01中，输入一个未修剪的长视频V＝{v₁，v₂，...，v_n}，其中v_i(i＝1，2，...，n)是第i个图像帧，以及一个查询句s，目标是识别符合查询语句的视频边界，即l＝[l_start，l_end]。抽取视频全局特征、视频局部特征、定位边界和查询语句，构建强化学习环境。

在步骤S02中，对于给定的视频和查询语句，时序强化学习智能体接收整个视频和查询语句作为输入，并采取一系列决策来输出定位边界。具体的，定义状态为：

s_e ^t＝[f_e，l^t，f_o ^t，f_g] (1)

其中f_e为查询语句特征、l^t为位置特征、f_o ^t为所述位置特征相应的空间信息特征，f_g为视频全局特征，t是当前时间步。定义所述时序强化学习智能体的动作A_e，所述动作A_e包括7个预定义的动作，所述动作包括同时向前移动起点、同时向前移动终点、同时向后移动起点、同时向后移动终点、单独向前/向后移动起点和终点、单独向后移动起点和终点以及停止动作。设置所述时序强化学习智能体移动的初始位置为L₀＝[0.25*n，0.75*n]，其中n是视频中图像帧的总长度，动作每步的移动大小设置为n/2z_e，z_e为确定的超参数，其决定了智能体的移动的数目。定义智能体的最大搜索步数，以确保在有限步数中智能体能历遍整个图像帧。

视频时刻定位的目的在于尽可能准确地定位边界，因此在本步骤中使用IoU进行评估。IoU(Intersection over Union)是一种测量在特定数据集中检测相应物体准确度的一个标准。在本发明中，IoU用于衡量边界和真实边界重叠程度，其由公式(2)可以得到：

根据IoU的计算结果，定义智能体每步移动的奖励为公式(3)：

其中，φ为惩罚系数，当IoU^t大于IoU^t-1，则当前动作将被视为正反馈，奖励为正，否则奖励为零或负，同时减去一个智能体对步数的惩罚。即，搜索的步数越多，奖励相对就越少。

此时得到时序强化学习定位到的局部视频特征。

在步骤S03中，所述空间强化学习智能体接收图像帧序列和查询语句作为输入，观察帧的空间信息，并输出连续图像帧的空间边界。由于在每个图像帧中定位场景应该是利用多个智能体独立执行每帧的操作，然而这将导致严重的时间消耗和不稳定。

因此在本发明中使用目标跟踪框算法来实现这一点。即实现每一时刻的空间信息会在上一时刻跟踪框的基础上进行移动。所述目标跟踪框算法包括：

定义状态为：

s_s ^k＝[f_e,f_o ^k,f_s] (4)

其中，f_e为查询语句特征，f_o ^k为空间信息特征，f_s为由时序强化学习定位到的局部视频特征，t是当前时间步。

所述空间强化学习智能体的动作空间由9个预定义的动作组成，控制局部目标框的移动，所述动作包括左移、右移、上移、下移、放大、缩小、变长、变宽以及停止动作。跟踪框表示为b＝[x，y，m，n]，其中[x，y]是框的中心点，[m，n]是框的大小。初始位置为b₀＝[0.25*h，0.25*w，0.75*h，0.75*w]，其中h和w是图像帧的高度和宽度。步长设置为垂直方向的h/2z_s和水平方向的w/2z_s，其中z_s是一个超参数，它决定了智能体的移动的数目，以确保在有限步数中智能体能遍历整个图像帧。空间强化学习使用IoU进行评估，空间强化学习的奖励函数为公式(5)：

其中，空间强化学习的网络结构与所述时序强化的网络结构一致，但两者的动作的探索方式不一样。请参阅图2，在空间强化学习中，类似于游戏回合的探索，对于在[l_start，l_end]的视频段的每一帧，都需要做移动，且每一帧的移动将在上一帧动作框的基础上进行。图像帧v_k上的跟踪框用b_vk表示，其表示为公式(6)：

为了处理不同图像帧上不同大小的跟踪框，利用空间金字塔池化来处理局部得到特征f_o ^k。同时，为了进一步过滤空间信息中的冗余信息，本发明使用注意力机制来优化特征表达如公式(7)：

其中W_q和W_o是权重矩阵，b是偏置向量，q是权重向量。

在步骤S04中，通过深度确定性策略梯度算法更新时序强化学习。所述深度确定性策略梯度算法包括评论家网络、演员家网络、评论家参数滞后保存网络和演员家参数滞后保存网络。

所述评论家网络用于值函数近似，用于评估当下状态下的动作是否有效。当最优动作值函数Q(s，a)被视为逼近最优策略π时，智能体将获得最大的期望回报，如公式(8)：

Q^π(s,a)＝Ε[R|s^t＝s,a^t＝a]＝Ε_s'[r+γΕ_a'～π[Q^π(s',a')]] (8)

γ是Q值的折扣因子，用于平衡奖励和预估值之间的重要性。

其中，ω为参数，Q是评论家网络Q函数，Q*是旧的参数滞后保存网络，[s,a,r,s’]将从记忆库中采样获得。

演员家网络是一种参数化策略，它执行动作a＝π(s；θ)去更新位置特征l^t。直观的思想是直接调整策略的参数θ以最大限度地实现目标，为了得到一个好的演员家网络，此时的评价标准应该为朝着使得值函数Q增大的方向去更新策略的参数θ，即对损失函数J求Q值方向的导数，以使得它取得最大值。求导后的策略梯度如下：

评论家网络和演员家网络的参数滞后保存网络会按照软更新的方法更新参数，即每一步都会更新对应的参数滞后保存网络，且更新的幅度小。

在步骤S04中，所述时序强化学习和空间强化学习的交替训练具体为：两层强化学习之间是合作关系，在时序强化学习的优化过程中，从空间强化学习中获得了空间局部特征，从而能滤掉相关性低的信息，提高边界定位性能。而在空间强化学习的优化过程中，初始的定位边界由时序强化学习给定，能够在语义相似的片段中有针对性的进行跟踪框移动，优化局部相关信息的表达。

与现有技术相比，本发明提供的基于时空强化学习的视频时刻定位方法，通过时序强化学习根据环境做出的动作决策，定位视频边界，并通过所述空间强化学习追踪场景的动态变化，同时通过注意力机制进行进一步过滤相关性少的空间信息，最后通过时序强化学习和空间强化学习交替增强直至收敛。本发明提供的视频时刻定位方法不需要依靠大量的滑动窗口候选集，且结合句子的语义信息，扩展使用时空强化学习分别处理视频在时序上和空间帧上的信息，以帮助智能体更好的理解视频内容，返回更精确的视频定位边界，提高用户的查询体验。

以上所述的仅是本发明的实施方式，在此应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出改进，但这些均属于本发明的保护范围。

Claims

1.一种基于时空强化学习的跨模态视频时刻定位方法，其特征在于，包括以下步骤：

S04、根据空间强化学习更新时序强化学习的局部片段特征，使得所述空间强化学习和所述时序强化学习交替训练，直至收敛，得到对应查询语句的视频时刻片段，

所述步骤S02中，所述时序强化学习步骤包括：定义状态为s_e ^t＝[f_e，l^t，f_o ^t，f_g]，其中f_e为查询语句特征、l^t为位置特征、f_o ^t为所述位置特征相应的空间信息特征，f_g为视频全局特征，t是当前时间步；定义时序强化学习智能体的动作A_e，所述动作A_e包括同时向前移动起点、同时向前移动终点、同时向后移动起点、同时向后移动终点、单独向前/向后移动起点和终点、单独向后移动起点和终点以及停止动作；设置所述时序强化学习智能体移动的初始位置为L₀＝[0.25*n，0.75*n]，其中n是视频图像帧的总长度，动作每步的移动大小设置为n/2z_e，其中z_e为确定的超参数；定义智能体的最大搜索步数；所述时序强化学习智能体从环境中获取所述状态后，执行动作A_e，使用IoU评估后得到每步的奖励，

所述步骤S02中，使用IoU进行评估的公式为：

其中，φ为惩罚系数，当IoU^t大于IoU^t-1，则当前动作将被视为正反馈，奖励为正，否则奖励为零或负，同时减去一个智能体对步数的惩罚，

步骤S03中，所述空间强化学习使用目标跟踪框算法实现观察输入视频帧的空间信息，并输出连续图像帧的空间边界，

步骤S03中，所述目标跟踪框算法包括：定义状态为s_s ^k＝[f_e,f_o ^k,f_s]，其中f_e为查询语句特征，f_o ^k为空间信息特征，f_s为由时序强化学习定位到的局部视频特征，t是当前时间步；定义空间强化学习智能体的动作，控制局部目标框的移动，所述动作包括左移、右移、上移、下移、放大、缩小、变长、变宽以及停止动作；设置目标跟踪框为b＝[x，y，m，n]，其中[x，y]是目标跟踪框的中心点，[m，n]是所述目标跟踪框的大小；设置初始位置为b₀＝[0.25*h，0.25*w，0.75*h，0.75*w]，其中h和w为图像帧的高度和宽度；设置步长为垂直方向的h/2z_s和水平方向的w/2z_s，其中z_s为超参数；所述空间强化学习智能体使用IoU进行评估，得到其奖励函数r为：

其中Q值为状态执行动作后获得的期望回报，当更新特征后的Q值Q_o大于更新前的Q值Q_w，则奖励为1，Q值Q_o不变则奖励为0，Q值Q_o小于更新前的Q值Q_w则奖励为-1。

2.根据权利要求1所述的基于时空强化学习的跨模态视频时刻定位方法，其特征在于，步骤S04中通过深度确定性策略梯度算法更新时序强化学习。

3.根据权利要求2所述的基于时空强化学习的跨模态视频时刻定位方法，其特征在于，步骤S04中所述深度确定性策略梯度算法包括评论家网络、演员家网络、评论家参数滞后保存网络和演员家参数滞后保存网络。

4.根据权利要求3所述的基于时空强化学习的跨模态视频时刻定位方法，其特征在于，所述评论家网络通过值函数近似用于评估当下动作是否有效，当最优动作的值函数Q(s，a)被视为逼近最优策略π时，所述时序强化学习智能体得到最大期望回报：

Q^π(s,a)＝Ε[R|s^t＝s,a^t＝a]＝Ε_s'[r+γΕ_a'～π[Q^π(s',a')]]，

y＝r+γmaxQ^*(s',a'|ω*)

L(ω)＝Ε_s,a,r,s'～M[(Q(s,a|ω)-y)²]

其中，ω为参数，Q是评论家网络的值函数，Q*是评论家参数滞后保存网络的值函数。

5.根据权利要求4所述的基于时空强化学习的跨模态视频时刻定位方法，其特征在于，所述演员家网络通过执行动作a＝π(s；θ)用于更新位置特征l^t，并朝着使得值函数Q增大的方向更新策略的参数θ，即对损失函数J求Q值方向的导数，以使得它取得最大值，其求导后的策略梯度如下：