CN111950393B

CN111950393B - 一种基于边界搜索智能体的时序动作片段分割方法

Info

Publication number: CN111950393B
Application number: CN202010722304.4A
Authority: CN
Inventors: 李平; 曹佳晨; 陈乐聪; 徐向华
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2021-05-04
Anticipated expiration: 2040-07-24
Also published as: CN111950393A

Abstract

本发明公开了一种基于边界搜索智能体的时序动作片段分割方法。本发明方法首先对视频采样处理，获得视频帧图像序列，通过特征提取器获得视频帧单元编码序列，然后构建动作发现网络获得动作单元，通过生成的边界搜索智能体得到动作单元所属动作片段的时序边界。本发明利用动作发现——边界搜索两阶段模型对视频帧之间的时序关系进行刻画，使用执行——评判网络结构的边界搜索智能体建立评判模型用于衡量边界搜索策略的优劣，基于强化学习机制设计具有记忆功能的智能体对动作边界进行跳转式搜索，更符合人的记忆机制和搜索习惯，通过双向迭代检测方法定位动作片段的时序边界，大幅提升了时序动作片段分割的平均精度，提高动作片段所属类别的识别率。

Description

一种基于边界搜索智能体的时序动作片段分割方法

技术领域

本发明属于视频理解与分析中的时序动作定位技术领域，涉及一种基于边界搜索智能体的时序动作片段分割方法。

背景技术

在当今的大数据时代，视频凭借其内容直观、表现形式丰富等特点成为体量最大的传播媒介，各类视频网站和短视频平台不间断地产生海量流数据。实际应用场景如自动驾驶，往往需要知晓视频中发生了什么动作什么时候发生的，因此，动作理解已成为计算机视觉领域的热点研究问题，尤其是时序动作片段分割。该任务的目标是根据动作的开始时间与结束时间将原始视频中的目标片段分割出来，即预测目标动作片段的时序边界和类别标记。其中，时序边界包括动作片段的开始帧位置(即开始时间)和结束帧位置(即结束时间)，类别标记指动作片段所属的类别。时序动作片段分割的研究能够辅助其他视频理解任务的发展，如为动作识别任务提供剪辑好的视频片段、为视频描述任务提供动作的类别标记以及帮助异常事件捕捉任务提供时序标注信息等。

视频和动作实例的时长不一致、动作实例呈稀疏分布，以及时序边界模糊等困难为时序动作片段分割任务带来巨大挑战。一般来说，该任务可简化为两个模块：动作提议生成和动作提议处理。其中，动作提议生成的目标是粗略生成仅有时序边界而无类别标记的动作片段提议，希望通过尽可能少的提议召回尽可能多的动作实例；动作提议处理的目标是对提议进行类别标记的预测和时序边界的调整，最后经过评估筛选获得动作片段。然而，相关研究通过追踪人搜索视频中动作实例的行为发现，人倾向于快速地搜索与目标动作相关的内容节点，随后再向节点的前后搜索该动作实例的开始时间与结束时间，从而实现时序动作片段分割。受此启发，研究人员提出其前驱任务——动作发现(Action Spotting)，目标是找到动作实例的开始时间至结束时间区段内的任意时间点，即定位与目标动作相关的某个内容节点。

通常，人在发现动作的过程中会观察视频并在大脑中生成时间点搜索序列，为了让机器模拟类似过程，研究人员提出基于时间点搜索序列的动作搜索模型，具体使用长短期记忆(LSTM：Long Short-Term Memory)网络将动作发现前驱任务转化为序列预测问题，每一时间步的预测对应搜索序列的时间点。近来，基于强化学习的方法被用于分割时序动作片段，例如：帧快速浏览模型以单帧图像为输入，下一时间步跳转偏置为输出，迭代搜索目标动作片段，端到端地完成任务；自适应提议模型(SAP：Self-Adaptive Proposal)将提议生成作为前驱任务，智能体可通过调整时序窗口的位置或者时序宽度的动作对动作实例进行定位，完成提议生成任务。

上述已有的方法存在以下明显缺点：第一，人类的搜索策略不完全适用计算机，机器需通过强化学习得到更高效、更合适的搜索策略；第二，受限于理论研究和硬件要求，强化学习难以高效准确地同时完成时序动作定位任务和动作发现任务；第三，帧快速浏览模型仅输入单帧图像，信息量不足造成时序边界预测不准确，边界需要结合动作内容及其上下文特征进行搜索。由此，迫切需要设计通过提高时序边界搜索精度从而增强时序动作片段分割性能的方法。

发明内容

本发明的目的就是针对现有技术的不足，提供一种基于边界搜索智能体的时序动作片段分割方法，从人的搜索习惯出发，采用动作发现——边界搜索两阶段模型，通过具有记忆功能的智能体对动作边界进行跳转式搜索，从而高效分割动作实例所在的视频片段。

本发明方法首先获取视频数据集合，然后进行如下操作：

步骤(1).对视频采样处理获得视频帧图像序列，然后通过特征提取器获得视频帧单元编码序列；

步骤(2).构建动作发现网络，输入为视频帧单元编码序列，输出为视频帧单元的类别预测向量序列，据此获得动作单元；

步骤(3).生成边界搜索智能体，输入为动作单元，输出为动作单元所属动作片段的时序边界；

步骤(4).对新视频根据动作发现网络获得动作单元，通过边界搜索智能体获得动作片段的时序边界，然后进行去重处理，完成时序动作片段分割任务。

进一步，步骤(1)具体是：

(1-1).对单个视频V，以每秒25帧的采样率处理为视频帧图像帧序列集合

f_i表示序列中第i幅宽为w高为h的RGB三通道图像，N为视频总帧数；

(1-2).将帧序列集合V_f划分成N/n_u个连续不重叠的视频帧单元序列

n_u为一个单元包含的帧数，

为向下取整函数，j为视频帧单元的索引；其中，视频V包含动作实例标记信息，标记信息记为

M表示不含背景片段视频动作实例数目，s_m表示第m个动作片段动作开始单元索引，e_m表示第m个动作片段动作结束单元索引，c_m表示第m个动作片段动作类别；

(1-3).采用训练好的三维卷积神经网络作为特征提取器φ，视频帧单元序列

经过特征提取器φ得到视频帧单元编码序列

表示第j个帧单元的特征向量。

再进一步，步骤(2)具体是：

(2-1).输入视频帧单元编码序列U，通过多层全连接层构建动作发现网络；

(2-2).根据视频动作实例的标记信息

得到视频帧单元编码序列U对应的单元类别标记序列

其中c_j∈{0,1,2,…,K}表示第j个帧单元对应的动作类别，K为动作类别总数，背景类别记为c_j＝0；

(2-3).采用Softmax层为输出层且交叉熵为损失函数，输出为视频帧单元的类别预测向量序列

其中

假定第j个帧单元对应动作类别k的输出概率为

Softmax层的计算式为

表示Softmax层的输入，即未归一化的概率得分，e为自然底数，得到单元对应的类别概率归一化向量

利用随机梯度下降算法优化训练网络模型，并通过过反向传播方式更新模型参数；

将第j个帧单元的真实类别标记为c_j，则其交叉熵损失函数为

表示单元对应动作类别k的真实概率，

表示单元对应动作类别k的预测概率，由于仅

其余类别的真实概率为0，简化为

其中

为单元标记类别c_j对应的预测概率；

根据单元对应的类别概率归一化向量y^j，得到单元类别预测序列

其中第j个帧单元的预测类别标记

的帧单元记为动作单元的索引集合

其中x_q为第q个动作单元索引，N_act为动作单元数量。

更进一步，步骤(3)具体是：

(3-1).根据动作实例标记信息

得到动作实例

获得

其中

为实例动作单元索引，

为其对应的时序边界索引，

为实例动作单元数量；

(3-2).通过多层全连接层生成边界搜索智能体，具体包括记忆模块、执行网络和评判网络；其中，记忆模块用于记录历史行为，执行网络学习输出行为分别寻找动作单元对应的开始边界和结束边界，评判网络估计各行为的后续累积奖赏辅助执行网络；其中，记忆模块包含一个固定大小u+1的记忆及其对应的可学习权重向量

在某一时间步t，记录前u个时间步所观察的视频单元特征序列

和动作单元x₀的特征序列

智能体在时间步t能够观察到的状态向量为

为记忆模块中

的所有视频单元特征的堆叠；

执行网络中所有全连接层的权重参数和偏置参数统一表示为θ_a，智能体行为空间表示为

其中d_bg为所有视频中背景持续时间的平均值，a为智能体行为；智能体从动作单元x₀出发，在某一时间步t，输入为状态向量B_t，输出当前时间步t的行为a_t；当a_t＝0时，智能体判定当前观察的视频单元是x₀所属动作片段的时序边界，当a_t≠0时，智能体跳转至其他视频单元索引x_t+1＝x_t+a_t；

评判网络中所有全连接层的权重参数和偏置参数统一表示为θ_v，在某一时间步t，输入为状态向量B_t，估计当前状态的后续累积奖赏期望值为Ω(B_t；θ_v)≈E[r_t+1+γr_t+2+…+γ^n'-1r_t+n'|B_t]，其中r_t表示时间步t行为的单步奖赏，n'为智能体与环境交互时每个回合的总步数，γ∈[0,1]为奖赏折扣系数,E[·]表示数学期望；

(3-3).在训练中，仅对发现行为进行奖赏，在某一时间步t，其状态向量为B_t，智能体发现边界单元x_t，假设初始动作单元索引为

和动作实例边界为

为开始边界单元索引，

为结束边界单元索引，则奖赏函数r_hit为：

其中，σ＞0为基线奖赏值，I_gt为初始动作单元

的动作实例边界邻域的单元索引

正整数ε用于限定邻域范围大小，

为中心奖赏，常数k＞0用于控制r_center奖赏程度，

为边界单元索引，

为步数奖赏，n为发现该动作实例耗费的时间步数，n_ideal为发现一个动作实例耗费的理想步数，η＞0为奖赏惩罚值，p＜0为没有正确发现动作实例时的惩罚值；当智能体沿动作单元前向搜索开始边界时，

当智能体沿动作单元后向搜索结束边界时，

和

评判网络的损失函数L_cri＝(r_t+Ω(B_t；θ_v)-Ω(B_t+1；θ_v))²的更新目标是最小化损失函数L_c，使得网络能更准确估计某一状态后续的累积奖赏，并通过随机梯度下降方法更新网络参数θ_v；执行网络的损失函数为L_act＝logπ(a_t|B_t；θ_a)A(B_t,a_t；θ_a,θ_v)，π(a_t|B_t；θ_a)为智能体搜索策略，即智能体根据当前状态向量B_t执行行为a_t的概率，A(B_t,a_t；θ_a,θ_v)＝r_t+Ω(B_t；θ_v)-Ω(B_t+1；θ_v)为优势函数，其更新目标是在状态B_t能获得最大累计奖赏的行为概率，在保持参数θ_v不变的同时通过随机梯度上升方法更新网络参数θ_a。

又进一步，步骤(4)具体是：

(4-1).对于新视频利用(1-1)获得视频帧图像序列

通过(1-2)和(1-3)获得其帧单元编码序列

(4-2).将帧单元编码序列U'输入至步骤(2)构建的动作发现网络中，得到动作单元索引集合

将动作单元索引集合X'的动作单元输入步骤(3)的边界搜索智能体中，则智能体输出各动作单元所属动作片段的时序边界

s'_q和e'_q分别表示第q个动作单元的开始时间和结束时间；

(4-3).对于新视频V'，得到初步的动作片段分割结果

通过(2-3)中视频单元对应的类别概率归一化向量

计算各个动作片段在所有动作类别上的得分序列

其中p_q为第q个动作片段在各类别上的得分向量，分别根据c_q＝argmax(p_q)和O_q＝max(p_q)得到第q个动作片段对应的类别和得分；

(4-4).使用非极大值抑制算法进行去重处理，即剔除各动作片段之间的时序重叠度大于设定阈值τ的重复动作片段，仅保留动作得分更高的片段，最终从原始视频中分割获得N_final个动作片段

τ＝0.2～0.4，集合元素的三个值分别对应动作的开始时间、结束时间、动作类别。

本发明方法利用边界搜索智能体对视频动作的片段进行分割，与现有方法相比的不同点主要有如下几方面：1)相比传统单一阶段模型，本方法提出一种新的解决方案，即使用动作发现任务与边界搜索任务两阶段完成时序动作片段的分割任务；2)相比动作搜索模型，本方法使用执行——评判网络结构的边界搜索智能体，建立评判模型衡量边界搜索策略的优劣，提升执行网络的性能；3)该方法基于人的动作片段搜索习惯，提出基于强化学习的边界搜索智能体；4)使用记忆模块记录智能体历史行为，结合历史做出当前行为最优决策，能够提高智能体的搜索效率。

本发明方法适用于通过强化学习进行视频动作片段分割的任务，优点在于：1)使用执行-评判结构的网络，通过评判网络评价执行网络策略优劣，指导其往更优策略学习；2)通过深度神经网络完成动作发现任务，在确保整体方法的召回率较高条件下，使用强化学习完成边界搜索任务提高准确率；3)设计记忆模块结合历史行为进行当前智能体行为的决策，使得动作片段分割模型做出更合理的行为。该方法模拟人的搜索方法，一方面，从强化学习的角度设计具有记忆功能的智能体学习更优的搜索策略；另一方面，从边界搜索的角度出发提出双向迭代检测方法定位动作片段的时序边界；可以大幅提升时序动作片段分割任务的性能，可应用于智慧交通、园区安防、异常检测等实际应用场景。

附图说明

图1是本发明方法的流程图。

具体实施方式

以下结合附图对本发明作进一步说明。

一种基于边界搜索智能体的时序动作片段分割方法，首先对视频采样处理，获得视频帧图像序列，通过特征提取器获得视频帧单元编码序列，然后构建动作发现网络模型获得动作单元，再根据生成的边界搜索智能体输出动作单元所属动作片段的时序边界。该方法利用动作发现——边界搜索两阶段模型刻画视频帧的时序动作关系，设计具有记忆功能的智能体对动作边界进行跳转式搜索更符合人的记忆机制和搜索习惯，通过去重处理得到更为精确的动作时序边界。

如图1，该方法首先获取视频数据集合，然后进行以下操作：

步骤(1).对视频采样处理获得视频帧图像序列，然后通过特征提取器获得视频帧单元编码序列；具体是：

f_i表示序列中第i幅宽为w高为h的RGB三通道图像，N表示视频总帧数；

n_u为一个单元包含的帧数，例如取8帧，

(1-3).采用训练好的三维卷积神经网络(C3D)作为特征提取器φ，视频帧单元序列

经过特征提取器φ得到视频帧单元编码序列

其中

表示第j个帧单元的特征向量。

步骤(2).构建动作发现网络，输入为视频帧单元编码序列，输出为视频帧单元的类别预测向量序列，据此获得动作单元；具体是：

(2-2).根据视频动作实例的标记信息

得到视频帧单元编码序列U对应的单元类别标记序列

其中

假定第j个帧单元对应动作类别k的输出概率为

Softmax层的计算式为

k＝0,1,...,K，其中

表示Softmax层的输入，即未归一化的概率得分(Logits)，e表示自然底数，得到单元对应的类别概率归一化向量

将第j个帧单元的真实类别标记为c_j，则其交叉熵损失函数为

其中

表示单元对应动作类别k的真实概率，

表示单元对应动作类别k的预测概率，由于仅

其余类别的真实概率为0，上述计算可简化为

其中

为单元标记类别c_j对应的预测概率；

其中第j个帧单元的预测类别标记

的帧单元记为动作单元的索引集合

其中x_q为第q个动作单元索引，N_act为动作单元数量。

步骤(3).生成边界搜索智能体，输入为动作单元，输出为动作单元所属动作片段的时序边界；具体是：

(3-1).根据动作实例标记信息

得到动作实例

获得

其中

为实例动作单元索引，

为其对应的时序边界索引，

为实例动作单元数量；

和动作单元x₀的特征序列

智能体在时间步t能够观察到的状态向量为

为记忆模块中

的所有视频单元特征的堆叠；

其中d_bg为所有视频中背景持续时间的平均值，a为智能体行为(即智能体跳转的偏置)；智能体从动作单元x₀出发，在某一时间步t，输入为状态向量B_t，输出当前时间步t的行为a_t；当a_t＝0时，智能体判定当前观察的视频单元是x₀所属动作片段的时序边界，当a_t≠0时，智能体跳转至其他视频单元索引x_t+1＝x_t+a_t；

和动作实例边界为

为开始边界单元索引，

为结束边界单元索引，则奖赏函数r_hit为：

其中，σ＞0为基线奖赏值，I_gt为初始动作单元

的动作实例边界邻域的单元索引

正整数ε用于限定邻域范围大小，

为中心奖赏，常数k＞0用于控制r_center奖赏程度，

为边界单元索引，

和

当智能体沿动作单元后向搜索结束边界时，

和

评判网络的损失函数L_cri＝(r_t+Ω(B_t；θ_v)-Ω(B_t+1；θ_v))²的更新目标是最小化损失函数L_c，使得网络能更准确估计某一状态后续的累积奖赏，并通过随机梯度下降方法更新网络参数θ_v；执行网络的损失函数为L_act＝logπ(a_t|B_t；θ_a)A(B_t,a_t；θ_a,θ_v)，π(a_t|B_t；θ_a)为智能体搜索策略，即智能体根据当前状态向量B_t执行行为a_t的概率，A(B_t,a_t；θ_a,θ_v)＝r_t+Ω(B_t；θ_v)-Ω(B_t+1；θ_v)为优势函数(Advantage Function)，其更新目标是在状态B_t能获得最大累计奖赏的行为概率，在保持参数θ_v不变的同时通过随机梯度上升方法更新网络参数θ_a。

步骤(4).对新视频根据动作发现网络获得动作单元，通过边界搜索智能体获得动作片段的时序边界，然后进行去重处理，完成时序动作片段分割任务；具体是：

(4-1).对于新视频利用(1-1)获得视频帧图像序列

通过(1-2)和(1-3)获得其帧单元编码序列

(4-2).将(4-1)的视频帧单元编码序列U'输入至(2)构建的动作发现网络中，得到动作单元索引集合

将动作单元索引集合X'的动作单元输入(3)的边界搜索智能体中，则智能体输出各动作单元所属动作片段的时序边界

s'_q和e'_q分别表示第q个动作单元的开始时间和结束时间；

(4-3).对于新视频V'，得到初步的动作片段分割结果

通过(2-3)中视频单元对应的类别概率归一化向量

计算各个动作片段在所有动作类别上的得分序列

(4-4).使用非极大值抑制算法进行去重处理，即剔除各动作片段之间的时序重叠度(tIoU)大于0.3的重复动作片段，仅保留动作得分更高的片段，最终从原始视频中分割获得N_final个动作片段

集合元素的三个值分别对应动作的开始时间、结束时间、动作类别。

本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于边界搜索智能体的时序动作片段分割方法，其特征在于，该方法首先获取视频数据集合，然后进行如下操作：

n_u为一个单元包含的帧数，

经过特征提取器φ得到视频帧单元编码序列

表示第j个帧单元的特征向量；

(2-2).根据视频动作实例的标记信息

得到视频帧单元编码序列U对应的单元类别标记序列

其中

假定第j个帧单元对应动作类别k的输出概率为

Softmax层的计算式为

将第j个帧单元的真实类别标记为c_j，则其交叉熵损失函数为

表示单元对应动作类别k的真实概率，

表示单元对应动作类别k的预测概率，由于仅

其余类别的真实概率为0，简化为

其中

为单元标记类别c_j对应的预测概率；

其中第j个帧单元的预测类别标记

的帧单元记为动作单元的索引集合

其中x_q为第q个动作单元索引，N_act为动作单元数量；

(3-1).根据动作实例标记信息

得到动作实例

获得

其中

为实例动作单元索引，

为其对应的时序边界索引，

为实例动作单元数量；

和动作单元x₀的特征序列

智能体在时间步t能够观察到的状态向量为

为记忆模块中

的所有视频单元特征的堆叠；

评判网络中所有全连接层的权重参数和偏置参数统一表示为θ_v，在某一时间步t，输入为状态向量B_t，估计当前状态的后续累积奖赏期望值为

其中r_t表示时间步t行为的单步奖赏，n'为智能体与环境交互时每个回合的总步数，γ∈[0,1]为奖赏折扣系数,E[·]表示数学期望；

和动作实例边界为

为开始边界单元索引，

为结束边界单元索引，则奖赏函数r_hit为：

其中，σ＞0为基线奖赏值，I_gt为初始动作单元

的动作实例边界邻域的单元索引

正整数ε用于限定邻域范围大小，

为中心奖赏，常数k＞0用于控制r_center奖赏程度，

为边界单元索引，

和

当智能体沿动作单元后向搜索结束边界时，

和

评判网络的损失函数L_cri＝(r_t+Ω(B_t；θ_v)-Ω(B_t+1；θ_v))²的更新目标是最小化损失函数L_c，使得网络能更准确估计某一状态后续的累积奖赏，并通过随机梯度下降方法更新网络参数θ_v；执行网络的损失函数为L_act＝logπ(a_t|B_t；θ_a)A(B_t,a_t；θ_a,θ_v)，π(a_t|B_t；θ_a)为智能体搜索策略，即智能体根据当前状态向量B_t执行行为a_t的概率，A(B_t,a_t；θ_a,θ_v)＝r_t+Ω(B_t；θ_v)-Ω(B_t+1；θ_v)为优势函数，其更新目标是在状态B_t能获得最大累计奖赏的行为概率，在保持参数θ_v不变的同时通过随机梯度上升方法更新网络参数θ_a；

(4-1).对于新视频利用(1-1)获得视频帧图像序列

通过(1-2)和(1-3)获得其帧单元编码序列

s'_q和e'_q分别表示第q个动作单元的开始时间和结束时间；

(4-3).对于新视频V'，得到初步的动作片段分割结果

通过(2-3)中视频单元对应的类别概率归一化向量

计算各个动作片段在所有动作类别上的得分序列