CN114821379A

CN114821379A - 一种基于松弛变换解码器的直接时序动作检测方法

Info

Publication number: CN114821379A
Application number: CN202110115997.5A
Authority: CN
Inventors: 王利民; 谈婧; 唐嘉岐; 武港山
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2022-07-29
Anticipated expiration: 2041-01-28
Also published as: CN114821379B

Abstract

一种基于松弛变换解码器的直接时序动作检测方法，包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段，结合动作起始点和结束点的概率以实现边界增强，并通过注意力机制自适应调整特征，实现时序动作检测。本发明通过边界增强的特征表示，有效利用全局上下文信息，显著提高生成提名的鲁棒性；利用松弛匹配的策略使网络快速稳定收敛；引入了时间交并比来指导动作提名排序，在有限的预测中，覆盖所有视频中的动作真值，灵活、高效、快速、准确的完成时序动作检测任务。

Description

一种基于松弛变换解码器的直接时序动作检测方法

技术领域

本发明属于计算机软件技术领域，涉及时序动作检测技术，具体为一种基于松弛变换解码器的直接时序动作检测方法。

背景技术

随着互联网上的视频数据爆炸式地增长，视频理解变得愈发重要。视频数据本身大多包含很多不重要的背景、无动作片段，无法直接用来识别，因此时序动作检测是一项刚需的技术。时序动作检测技术的目标是提取出一段未剪辑视频中的动作片段，并正确地预测其动作类别。一般地，时序动作检测任务由两个子任务组成：时序动作提名生成任务和动作分类任务，由于动作分类技术较为成熟，所以研究和发明重点集中在时序动作提名的生成，其主要的范式有两种。

第一种范式是基于锚点框的方法，其密集地生成多尺度的锚点框，来覆盖视频中的动作实例，例如TURN(Temporal Unit Regression Network)等。但由于视频中动作实例的长度可能由几秒到几十分钟不等，要想覆盖所有的动作实例，需要耗费极多的计算资源，因此无法有效地用于实际应用之中。

第二种范式是基于边界点检测的方法，其首先预测每一帧作为动作起始帧和动作终止帧的概率，之后应用自底向上的策略，完成边界帧的匹配，得到一系列的动作提名，例如BSN(Boundary Sensitive Network),BMN(Boundary Matching Network)等。但这种方法在预测边界概率的时候，只利用了本地的上下文，因此容易受到噪声的干扰，无法生成鲁棒的提名结果。

此外，这两种范式很大程度上依赖于精心设计的锚点放置或复杂的边界匹配机制，这些机制依赖于人类的先验知识，需要精细地调整参数。

发明内容

本发明要解决的问题是：现有的很多时序动作检测方法往往依赖于锚点框、密集匹配以及非极大值抑制等依赖于人类先验知识的手工模块，这些模块需要精细地调整参数，且耗费较长的运算时间。

本发明提出了一种直接生成时序动作提名的范式，能够基于全局上下文，时序自适应地调整特征表示，并直接、高效、快速、准确地生成时序上的动作提名。其中，时序自适应地调整特征表示指的是基于全局上下文，重新计算得到每一个时间点的特征权重。

本发明的技术方案为：一种基于松弛变换解码器的直接时序动作检测方法，对视频数据结合动作起始点和结束点的概率以实现边界增强，并通过注意力机制自适应调整特征，实现时序动作检测，所述时序动作检测步骤包括生成训练特征阶段、网络配置阶段、训练阶段以及测试阶段：

1)生成训练特征阶段：使用基于ResNet-50的I3D网络对训练样例视频进行特征提取，对于每个视频，将视频图像序列L_f分为若干个长度为L_s帧的视频段，每段为由L_s帧图像组成图像序列S_f，将图像序列S_f送入I3D网络，经过预训练参数的卷积层和池化层，输出得到L_D帧的双流特征，将不同视频段的双流特征按照时间顺序拼接起来，再经过一个池化层，得到整个视频D维的高维特征

其中，视频段长度L_s的大小表示在全局上进行时间划分的细粒程度；

2)网络配置阶段：基于多层感知机编码器和变换解码器，建立时序动作检测模型RTD-Net，模型包括以下配置：

2.1)计算边界概率：首先使用时间分割网络TSN对步骤1)得到的图像序列S_f处理得到时序分割双流特征，再送入由三个卷积层组成的边界概率预测模块，计算得到每个时间节点作为动作起始点和动作结束点的概率，得到边界概率序列；

2.2)获得边界增强特征：对于1)中生成的高维特征

和2.1)中计算出的边界概率序列，进行点乘操作，获得边界增强特征F_b，再将边界增强特征F_b送入多层感知机编码器得到编码特征F_enc，实现通道上的交互；

2.3)解析边界增强特征：对于2.2)中获得的边界增强特征的编码特征F_enc，利用变换解码器进行解析，变换解码器包含ND个解码层，每个解码层包含一个自注意力层、一个编码器-解码器注意力层和两个线性映射层，输入的特征依次经过自注意力层、编码器-解码器注意力层和堆叠的线性映射层后输出，边界增强特征通过堆叠的ND个解码层后，实现特征的解析；

2.4)时序动作提名的生成与评分：变换解码器输出的解析特征，送入三个不同的前馈神经网络：边界FFN、完整度FFN和分类FFN，三个前馈神经网络分别用于输出：动作提名的起始时刻和结束时刻、完整度分数以及置信度分数；

2.5)分配训练标签：采用松弛的训练标签匹配策略：首先，根据定义的匹配代价，匹配器利用匈牙利算法得到一组最优的one-to-one匹配，每个获得正标签的预测提名都能被分配到一个相应的实际提名，作为训练标签，其次，计算预测提名和实际提名的overlap，选取overlap大于O_t的预测提名，为其分配相应的实际提名作为标签；

2.6)时序动作提名的分类：生成一系列的时序提名后，通过以下两类方法进行提名分类并比较结果：第一种是选取UntrimmedNet视频级别top1的分类得分，第二种是将提名送入P-GCN进行分类；

3)训练阶段：对配置的模型采用训练数据进行训练，使用交叉熵、L1距离、交并比作为损失函数，使用AdamW优化器，使用退火策略通过反向传播算法来更新网络参数，不断重复步骤1)和步骤2)，直至达到迭代次数；

4)测试阶段：将待测试数据的视频特征序列输入到训练完成的RTD-Net模型中，生成动作提名，再利用2.6)中的两种方式，得到提名分类结果，实现时序动作检测。

本发明与现有技术相比有如下优点

本发明提出了一种直接生成动作提名的范式，无需锚点框、密集匹配以及非极大值抑制等依赖于人类先验知识的手工模块。直接生成动作提名的范式具有更少的超参数，易于调试，且在测试时具有更快的前向推理速度。

本发明使用了边界增强的特征表示，有效地利用了全局的上下文信息。边界增强的特征表示，有助于变换解码器在时序自适应地调整特征表示时，提升对于动作边界的辨别能力，而不会因为平滑的视频特征预测出全局相似的提名结果；利用全局上下文信息，有效地降低本地噪声的干扰，能够显著地提高生成提名的鲁棒性。

本发明提出了松弛匹配策略来帮助模型收敛。和图像中的物体边界相比，视频中动作边界存在着定义不清晰的情况。基于松弛匹配策略，本发明给部分质量较高的预测提名也分配训练标签，有助于网络快速、稳定的收敛。

本发明利用交并比IoU来指导动作提名的排序。只预测分类置信度，有时无法准确地表示预测提名的质量，而交并比很好地刻画了预测提名和真实提名的重叠、相似程度以及预测提名的完整程度，因此其能够准确地衡量预测提名的定位质量，以指导动作提名的排序，使得完整程度较高的提名获得更高的排名。由此，本发明可以利用数量较少且排名较高的预测提名，覆盖完所有的真实提名。

本发明在时序动作检测任务上具有灵活、高效、快速、准确等特点。和现有的方法相比，本发明在主流数据集和实际的应用中都具有更好的表现。

附图说明

图1是本发明所使用的系统框架图。

图2是本发明视频的抽帧处理示意图。

图3是本发明的特征提取模块示意图。

图4是本发明提出的边界特征增强过程示意图。

图5是本发明变换解码器示意图。

图6是本发明提出的松弛匹配器和三预测分支示意图。

图7展示本发明的提名数量与其他方法的比较。

图8展示本发明在THUMOS-14数据集样例上得到的结果。

图9为本发明的总体流程示意图。

具体实施方式

本发明一种基于松弛变换解码器的直接时序动作检测方法，构建了RTD-Net模型(Relaxed Transformer Decoders Network)，结合动作起始点和结束点的概率以实现边界增强，并通过注意力机制自适应调整特征，实现时序动作检测任务。本发明方法包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段，如图9所示，具体说明如下。

1)生成训练样例：使用基于ResNet-50的膨胀三维卷积网络(Inflated 3DNetwork)，对训练样例视频进行特征提取，一般在标准数据集上进行。对于每个视频，将视频图像序列L_f分为若干个长度为L_s帧的视频段，每个视频段是由L_s帧图像组成的图像序列S_f。将图像序列S_f送入I3D网络，经过预训练参数的卷积层和池化层，输出得到L_D帧的双流特征，将不同视频段的双流特征按照时间顺序拼接起来，再经过一个池化层，得到整个视频D维的高维特征

视频段长度L_s的大小表示在全局上进行时间划分的细粒程度，其取值较为灵活，取决于算力的大小，为减小时间复杂度的同时保留更多的局部信息，本发明实施例优选L_s取64，L_D取8，D取2048。具体实施如下。

使用denseflow对原视频进行抽帧处理，抽取视频的RGB帧和光流帧，得到RGB和光流的双流数据，视频图像序列长度记为L_f。RGB和光流图像经过中心裁剪，得到尺度为224*224的对应图像。将视频帧序列分为等长的

个视频段，视频段长度记为L_s，视频段序列记为V_f。以64帧为滑动窗口、8帧为步长，遍历整个视频的图像序列，得到若干个视频段，每个视频段为连续的L_s＝64帧，记作S_f,i，i为视频段的编号。将图像序列

送入I3D网络，经过预训练参数的卷积层，对时序和空间维度降采样得到中间特征的双流特征

将不同视频段的双流特征按照时间顺序拼接起来，再经过最大池化层降维度得到整个视频的高维特征

具体如下：

1.抽帧和预处理后得到的整体视频段序列如下：

V_f＝{S_f,1,S_f,2,…,S_f,i}

S_f,i＝{Img₁,Img₂,…,Img₆₄}，i＝1,2,3,…,L_f/L_s

其中V_f代表视频段序列，其由L_f/L_s个图像序列段S_f,i组成，每个图像序列段中包含了L_s张图像。

2.I3D网络处理输入视频图像序列的过程如下：

F_i＝I3D(S_f,i)

F＝Concatenate(F₁,F₂,…,F_i)

其中F_i代表输入视频段经过I3D卷积处理得到的中间特征，F为不同视频段按照时间顺序拼接起来的结果，

为经过最大池化层后得到的整个视频的高维特征。

2)网络配置阶段，基于多层感知机编码器和变换解码器，建立时序动作检测模型，即本发明的RTD-Net模型，模型包括以下配置：

2.1)计算边界概率：首先使用时间分割网络TSN(Temporal Segment Network)对输入的图像序列S_f,i处理得到时序分割双流特征F_tsn，其中空间和时间特征在特征维度通过拼合操作结合起来得到双流特征。双流特征送入由三个卷积层(Conv₁,Conv₂,Conv₃)组成的边界概率预测模块。第一层和第二层卷积使用的卷积核大小为3，激活函数为Relu；第三层卷积的核大小为1，激活函数为Sigmoid函数。卷积网络为每个时序位置预测其作为动作起始点和动作结束点的概率元组(p_s,p_e)，p_s为当前时序位置为起始点的概率，p_e为结束点的概率，形成边界概率序列

F_tsn＝TSN(S_f,i)

2.2)获得边界增强特征：对于1)中生成的高维特征

经过一层线性映射降维得到特征F_f，再和2.1)中计算出的边界概率序列

进行点乘操作，获得边界增强特征F_b。再将边界增强特征与位置编码P_sin送入多层感知机编码器MLP(Linear₁,Linear₂,Linear₃)，实现通道上的交互，得到编码后的特征F_enc，其中位置编码

对输入视频段的每个时序位置编码，使用Sin函数，使不同位置拥有不同的编码P_sin。由于变换器是位置无关的结构，引入位置编码可以强调视频时序上的先后顺序。多层感知机MLP将输入为512+512＝1024维先上采样两倍再下采样两倍，其隐藏层维度为2048维。具体计算如下。

1.边界概率增强的边界增强特征：

上面的式子表示对动作起始点和动作结束点边界概率序列进行归一化操作，并乘上比例系数α，α取2，用于强化边界概率大于0.5的边界点特征，得到边界增强特征。其中，F_start代表被动作开始概率增强的输入特征，F_end代表被动作结束概率增强的输入特征，将F_start和F_end沿特征维度拼合，得到边界增强特征F_b。

2.多层感知机编码后的最终编码特征F_enc：

其中，(Linear₁,Linear₂,Linear₃)组成的多层感知机对输入边界增强特征和位置编码的组合进行了先升维再降维的处理，完成了通道上的交互变换。

2.3)解析边界增强特征：对于2.2)中获得的边界增强编码特征F_enc，利用变换解码器进行解析。变换解码器包含ND个解码层，解码层记为Decoder_n，n表示解码层编号。每个解码层包含一个自注意力层(self-attention)SelfAttn_n、一个编码器-解码器注意力层(encoder-decoder attention)Attn_n和两个线性映射层，这里使用FFN完成线性映射。其中，自注意力层SelfAttn_n将查询位置编码Q_pos与查询量Query相加并进行自乘操作，计算得到每个时间节点的自注意力权重M_self，获得一个基于自注意力的特征表示，再利用一个残差结构增强并归一化原查询量；编码器-解码器注意力层将自注意力处理后的查询量和编码器输出的特征进行相乘操作，以获得每个时间节点的注意力权重M_cross，结合权重和编码特征获得新的查询特征表示Query″。查询特征Query″表示经过线性映射层后，在残差结构中与当前特征相加并归一化，即为编码层的输出。本发明优选ND取6，每个解码层由一个8输出分支的自注意力层、一个8输出分支的编码器-解码器注意力层和两个线性映射层串联组成，特征解析的输入通道数分别为512、512、512、2048，特征解析的输出通道数分别为512、512、2048、512；解码层中，输入特征首先经过自注意力层，通过自乘操作计算不同时间位置特征的权重，调整特征表示，然后将8个输出分支的结果拼接；自注意力层的输出经过编码器-解码器注意力层，通过和编码器特征相乘，计算不同时间位置特征的权重，调整特征表示，然后将8个输出分支的结果拼接；编码器-解码器注意力层的输出最后通过两个线性映射层，实现通道间的交互。边界增强特征F_enc通过变换解码器的6个解码层后，实现特征的解析，获得输出F_dec。具体计算如下:

1.变换器中某层解码层的具体解码过程：

M_self＝(Q_pos+Query)W_k·(Q_pos+Query)W_q

Query′＝Norm(Query+(QueryW_v·M_self)W_o)

M_cross＝(F_enc+P_sin)W_k·(Query′+Q_pos)W_q

Query″＝Norm(Query′+(F_encW_v·M_cross)W_o)

Query″′＝Norm(Query″+FFN(Query″))

其中，每层中自注意力机制和编码器-解码器注意力机制的关键字(key),查询量(query),值(value)输入都需要分别经过投影矩阵的变换，映射到高维空间进行注意力的变换。关键字(key),查询量(query)、值(value)及输出(output)的投影矩阵被分别记为W_k,W_q,W_v,W_o。自注意力机制和编码器-解码器注意力机制的投影矩阵不共享参数，不同层的投影矩阵也不共享参数。

输入动作查询量Query和由模型训练学习到的查询位置编码Q_pos相加后经过投影自乘，得到自注意力权重M_self矩阵。Query被投影后通过和M_self权重矩阵相乘得到强化，再与乘之前相加并归一化得到Query′。在编码器-解码器注意力机制中，Query′和Q_pos相加作为查询量，F_enc和位置编码P_sin相加作为关键字，相乘得到注意力矩阵M_cross。M_cross对输入编码特征F_enc抽取Query′和Q_pos感兴趣的部分，与Query′相加再归一化，为Query′加上了编码特征信息。Query′通过FFN和一个残差Add Norm，得到输出表示。

2.变换解码器对输入编码特征解码的表示为：

F_dec＝Decoders(F_enc)

＝Decoder₆(F_enc,Decoder₅(…Decoder₂(F_enc,Decoder₁(F_enc,Query,Q_pos),Q_pos)),Q_pos)其中，Decoder_n代表第n层decoder层，一共6层decoder层叠加，得到解码器结构。

边界增强特征的编码特征从自注意力层、编码器-解码器注意力层和堆叠的线性映射层输出后，再和输入特征相加，最后进行层标准化Layer Normalization操作，得到时序自适应调整的特征表示，通过这样的6个变换解码层，最终实现特征的解析。

2.4)时序动作提名的生成与评分：变换解码器输出的解析特征F_dec，被送入三个不同的前馈神经网络。边界FFN输出预测提名的起始位置和结束位置，分类FFN输出该提名为实际提名的置信度(概率)，如果概率较高，说明分类FFN认为该提名是预测正确的；如果概率较低，说明分类FFN认为该提名是预测错误的，这个时间段内没有动作发生。此外，鉴于完整度高的提名能够更好地覆盖真实的动作提名，本发明提出了一个完整度FFN，其基于交并比指标来预测提名的完整度，再基于完整度对于提名进行排序，使得完整度较高的提名获得更高的排名。由此，本发明可以利用数量较少且排名较高的预测提名，覆盖完所有的真实提名。

边界前馈神经网络输出动作提名的起始时刻和结束时刻，网络记为FFN_loc；完整性前馈神经网络输出完整度分数，网络记为FFN_iou；分类前馈神经网络输出分类置信度分数，网络记为FFN_cls。具体计算如下：

1.动作提名的起始时刻t_s和结束时刻t_e定位：

t_s,t_e＝sigmoid(FFN_loc(F_dec))

2.分类置信度分数p_bc的生成：

p_bc＝softmax(FFN_cls(F_dec))

3.完整度分数p_c的生成：

p_c＝sigmoid(FFN_iou(F_dec))

2.5)分配训练标签：考虑到时序动作的分布较为稀疏、边界的定义模糊，本发明采用了松弛的训练标签匹配策略：首先，根据定义的匹配代价，匹配器利用匈牙利算法得到一组最优的one-to-one匹配，每个获得正标签的预测提名都能被分配到一个相应的实际提名，作为训练标签。其次，计算预测提名和实际提名的overlap，选取overlap大于O_t的预测提名，为其分配相应的实际提名作为标签，本发明中，O_t取0.75。具体计算如下：

1.匈牙利算法的优化指标：

C＝∑(5·L_prop+L_cls+2·L_iou)

优化指标C，由三个部分组成：时序候选框边界函数L_prop、分类函数L_cls和覆盖率函数L_iou，这三个部分加权相加得到优化指标。匈牙利算法通过线性规划最小化目标C，选出one-to-one匹配的正样本候选框。

2.损失函数的定义：

在优化目标中，时序候选框边界函数由该时序候选框的开始和结束位置t_s,t_e与对应动作真值的开始和结束位置

的L1距离衡量；分类函数由预测出的该时序候选框为对应动作真值的概率度量，prob()是预测起始结束时间为动作真值的概率，由于C为最小化目标，所以对概率取负；覆盖率函数由该时序候选框和对应动作真值的交并比值度量，tIoU()指时间交并比，在时间维度上计算交并比，由于C为最小化优化目标，所以对交并比值取负。

2.6)时序动作提名的分类：生成一系列的时序提名后，通过以下两类方法进行提名分类：第一种是选取UntrimmedNet视频级别top1的分类得分，第二种是将提名送入P-GCNProposal-Graph Convolution Network)进行分类。在两种方式下，本发明均能够取得state-of-the-art的性能表现。基于时序动作提名及其分类结果，本发明实现了时序动作检测任务。

Output＝Classfier(proposals,features)

其中，分类器为UntrimmedNet或者P-GCN，输入为生成的提名和对应提取的提名特征，输出为提名和对应的动作类别的分数，通过softmax函数得到预测动作类别。

3)训练阶段：对配置的模型采用训练数据进行训练，使用交叉熵、L1距离、交并比(IoU,Intersection over Union)作为损失函数，使用AdamW优化器，使用退火策略通过反向传播算法来更新网络参数，不断重复步骤1)和步骤2)，直至达到迭代次数。模型分为两个阶段训练，在第一阶段训练除了完整度分支外的所有参数，在第二阶段训练完整度分支。在分配正负样本阶段，模型采用了松弛匹配策略，维护正负样本比例，使模型能够稳定收敛。

4)测试阶段：将测试数据的视频特征序列输入到训练完成的RTD-Net(RelaxedTransformer Decoders Network)模型中，生成动作提名。再利用2.6)中的两种方式，得到提名分类结果，实现时序动作检测。

本发明提出了一种基于松弛变换解码器的直接时序动作检测方法。下面通过具体实施例进行进一步说明。经过在Thumos14数据集和ActivityNet1.3上的训练和测试达到了高准确性，优选使用Python3编程语言，Pytorch1.6.0深度学习框架实施。

图1显示了本发明所使用的系统框架图，具体实施步骤如下：

1)视频帧的准备阶段，如图2所示，训练数据和测试数据均使用同一方式进行处理。使用denseflow对视频进行RGB和光流帧的抽取，按照原帧率和分辨率处理，统计总的视频类别、每个视频的帧数、以及视频帧所在路径，构建出训练数据与验证数据集合，以方便程序对数据进行加载。程序通过训练文本读取了视频帧后，对视频帧进行中心裁剪为224*224，最后转化为张量Tensor形式。

2)视频特征的提取阶段，如图3所示，程序对输入视频帧进行64帧为单位的分割，得到视频段序列，分别使用I3D网络提取双流特征。双流特征在通道上进行拼合，同一个视频不同视频段的特征按照时间顺序拼合在一起，再通过一次均匀池化提取特征，得到最终每个视频的对应双流特征。程序最后以视频和对应特征为单位，按批处理数量加载并打乱次序。

3)模型的配置阶段，首先对视频进行边界概率增强，即前述步骤2.2)，如图4所示，对于提取到的原始高维特征，程序对每个时序位置预测起始点概率序列和结束点概率序列，然后将两个概率序列按照时序位置分别和原始特征进行点乘操作，获得起始点概率增强特征和结束点概率增强特征。将起始点概率增强特征和结束点概率增强特征沿着通道拼合concat，得到最终的边界增强特征。一个三层感知机组成的MLP结构，对于得到的边界增强特征加入位置编码进行进一步通道上的融合与交互，得到编码后特征。

对编码后特征进行解码，得到最终结果表示的步骤，即前述步骤2.3)，如图5所示。对于2.2)中获得的边界增强的编码特征，利用变换解码器进行解析。变换解码器包含6个解码层。每个解码层包含一个多头自注意力层和一个多头注意力层和线性映射层。输入的查询量经过随机初始化放入多头自注意力层进行注意力强化，多头自注意力层将查询位置编码与查询量相加并进行自乘操作，计算得到每个时间节点的自注意力权重，获得一个新的查询特征表示，再利用一个残差结构增强并归一化原查询量。查询特征表示接着被送入多头注意力层，和编码器输出的特征进行相乘操作，以获得每个时间节点的注意力权重，结合权重和编码特征获得新的查询特征表示。查询特征表示经过线性映射层后，在残差结构中与当前特征相加并归一化。查询量和编码后特征通过变换解码器的6个解码层后，实现特征的解析，获得输出。

时序动作提名的生成与评和正负例标签分配策略，如图6所示。变换解码器输出的解析特征，被送入三个不同的前馈神经网络。定位前馈神经网络输出动作提名的起始时刻和结束时刻，完整性前馈神经网络输出完整度分数，分类前馈神经网络输出分类置信度分数。分配正负例标签策略采用松弛匹配策略，如图6中流程所示，对于一个样本，松弛匹配器判断其是否在匈牙利算法和损失函数主导的二分匹配中被分配为正样本，如果是则被分配正样本标签；此外判断该样本在和真实提名的重叠度中，是否大于特定阈值，如果是则也被分配为正样本。

3)训练阶段，本实例使用交叉熵、L1距离、交并比作为损失函数，使用AdamW优化器，设置批大小BatchSize为32，即每次训练在训练集中取32个样本训练，总的训练轮数设置为70，初始学习率为0.0001，在50轮处学习率除以10，在完整度训练时学习率除以100.衰减率设置为1e-4，在两块RTX2080ti GPU上训练。模型分为两个阶段训练，在第一阶段训练出了完整度分支外的所有参数，在第二阶段训练完整度分支。在分配正负样本阶段，模型采用了松弛匹配策略，维护正负样本比例，使模型能够稳定收敛。

4)测试阶段

测试集输入数据的预处理，同训练数据一样，在抽帧后进行中心裁剪为224*224，使用I3D网络进行高维双流特征提取，所使用的测试指标有AR@AN。AR@AN是定位指标，指在平均样本数量下平均召回率，其中召回值指预测正确的样本数占总真值数的比例。在THUMOS14数据集上，单个视频的预测样本数远小于经典工作BSN(Boundary-sensitiveNetworks)，如图7所示，体现出模型在小预测量中高正确率的优势，而非通过大量预测来覆盖真值。在预测精度上，同之前工作相比较，在全部指标上获得巨大提升，在AR@50上，比BMN(Bounday Matching Networks)高出1.72个百分点，在AR@100上高出1.31个百分点，在AR@200上高出1.37个百分点，在AR@500上高出0.86个百分点，在该数据集的效果样例如图8所示。

本发明着力于一种直接生成动作提名的范式，无需锚点框、密集匹配以及非极大值抑制等模块。针对视频中特征缓慢、平滑的现象，本发明使用了边界增强的特征表示，使得变换解码器在时序自适应地调整特征表示时，能够提升变换解码器对于动作边界的辨别能力；针对视频中动作边界定义不清晰的情况，本发明提出了松弛匹配策略来帮助模型收敛；针对提名置信度不准确的问题，本发明提出了完整度FFN，以交并比IoU作为指标来指导动作提名的排序。RTD-Net首次将变换器应用于视频中动作提名的直接生成，设计了一个简单、整齐的框架，移除了手工设计的模块；RTD-Net提出了边界增强的特征表示、松弛匹配策略、三分支检测头设计，以解决空间目标检测和时序动作检测的本质差异；RTD-Net在THUMOS14和ActivityNet-1.3两个主流benchmark上的召回率和准确率指标上，都取得了state-of-the-art的结果。

Claims

1.一种基于松弛变换解码器的直接时序动作检测方法，其特征是对视频数据结合动作起始点和结束点的概率以实现边界增强，并通过注意力机制自适应调整特征，实现时序动作检测，所述时序动作检测步骤包括生成训练特征阶段、网络配置阶段、训练阶段以及测试阶段：

2.1)计算边界概率：首先使用时间分割网络TSN对步骤1)得到的图像序列S_f处理得到时序双流特征，再送入由三个卷积层组成的边界概率预测模块，计算得到每个时间节点作为动作起始点和动作结束点的概率，得到边界概率序列；

2.2)获得边界增强特征：对于1)中生成的高维特征

2.6)时序动作提名的分类：生成一系列的时序提名后，通过以下两类方法进行提名分类：第一种是选取UntrimmedNet视频级别top1的分类得分，第二种是将提名送入P-GCN进行分类；

2.根据权利要求1所述的一种基于松弛变换解码器的直接时序动作检测方法，其特征是步骤1)中，先利用denseflow库对所有视频进行抽帧处理，得到RGB和光流的双流数据，然后分别对双流数据进行处理：对各个视频帧进行中心裁剪为224*224大小，转化为张量Tensor形式的视频图像序列V_f；其次，以64帧为滑动窗口、8帧为步长，遍历整个视频的图像序列，得到若干个视频段，再利用堆叠的卷积层和最大池化层，提取每个视频段的特征，按照时序顺序拼接，得到视频级别的特征；最后，将视频级别的RGB和光流特征在通道上拼接，得到整个视频的高维特征

3.根据权利要求1所述的一种基于松弛变换解码器的直接时序动作检测方法，其特征是步骤2)的网络配置中，卷积层由卷积操作、Batch Normalization操作和ReLU激活函数构成，编码器为多层感知机，解码器为变换解码器。

4.根据权利要求1所述的一种基于松弛变换解码器的直接时序动作检测方法，其特征是步骤2.2)对计算得到边界概率进行加权调整，将高维特征

经过一层线性映射降维得到特征F_f，再对2.1)中计算出的边界概率序列进行归一化操作，将其和特征F_f点乘，获得边界增强特征F_b；最后乘上比例系数α，α取2，用于强化边界概率大于0.5的边界点特征。

5.根据权利要求1所述的一种基于松弛变换解码器的直接时序动作检测方法，其特征是步骤2.3)中，ND取6，即变换解码器由6个解码层组成，每个解码层由一个8输出分支的自注意力层、一个8输出分支的编码器-解码器注意力层和两个线性映射层串联组成，特征解析的输入通道数分别为512、512、512、2048，特征解析的输出通道数分别为512、512、2048、512；解码层中，输入特征首先经过自注意力层，通过自乘操作计算不同时间位置特征的权重，调整特征表示，然后将8个输出分支的结果拼接；自注意力层的输出经过编码器-解码器注意力层，通过和编码器特征相乘，计算不同时间位置特征的权重，调整特征表示，然后将8个输出分支的结果拼接；编码器-解码器注意力层的输出最后通过两个线性映射层，实现通道间的交互；每一个解码层中，输入的特征从自注意力层、编码器-解码器注意力层和堆叠的线性映射层输出后，首先通过Dropout层，再和输入特征相加，最后进行层标准化操作，得到时序自适应调整的特征表示，通过6个变换解码层叠加，最终实现特征的解析。

6.根据权利要求1所述的一种基于松弛变换解码器的直接时序动作检测方法，其特征是结合2.4)的前馈神经网络FFN和2.5)的松弛匹配策略完成分类，边界FFN输出预测提名的起始位置和结束位置，分类FFN输出该提名为实际提名的置信度，即概率，如果概率较高，说明分类FFN认为该提名是预测正确的；如果概率较低，说明分类FFN认为该提名是预测错误的，这个时间段内没有动作发生；完整度FFN基于交并比指标来预测提名的完整度，再基于完整度对于提名进行排序，使得完整度较高的提名获得更高的排名。