CN114419487A

CN114419487A - 一种内容时间关系网络及生成时间动作提案的方法

Info

Publication number: CN114419487A
Application number: CN202111607289.XA
Authority: CN
Inventors: 甘明刚; 张琰; 陈杰; 吴玮; 何玉轩; 苏绍文; 马千兆; 刘晓舟
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-29
Anticipated expiration: 2041-12-24
Also published as: CN114419487B

Abstract

本发明公开了一种内容时间关系网络及生成时间动作提案的方法，能够解决在视频中难以生成高质量时序动作提案的问题。所述内容时间关系网络包括：特征编码模块、基础网络、提案评估网络、帧评估网络；所述特征编码模块得到视频特征序列；所述基础网络用于提取帧级别特征之间的双向语义关系，输出最终特征序列；所述提案评估网络包括提案特征图生成层和内容‑时间关系模块，所述提案特征图生成层将所述最终特征序列转化为二维时域提案特征图；所述内容‑时间关系模块基于所述二维时域提案特征图，获取提案之间的内容和时间语义关系，预测每个提案的置信度和完整性；所述帧评估网络输出每帧为动作帧、开始帧、以及结束帧的概率。

Description

一种内容时间关系网络及生成时间动作提案的方法

技术领域

本发明涉及视频分析领域，具体涉及一种内容时间关系网络及生成时间动作提案(temporal action proposal)的方法。

背景技术

目前，动作识别普遍只关注人工裁剪的视频，无法处理现实场景中大量未裁剪的视频。这个问题引出了时间动作检测这一技术问题。时间动作检测同时确定未修剪视频中的时间边界和动作类别。尽管动作分类取得了显著的性能提升，但在许多主流基准测试中，时间动作检测性能仍不尽如人意，提案的质量限制了时间动作检测的性能。一个视频可以包含上千个提案，每个提案不能与所有其他提案有关联。现有技术PGCN只考虑每个提案的本地邻域，使用GCNs来建模它们之间的关系。然而，该方法在训练过程中需要为每批构建一个新的图，计算时间代价很高。

因此，为了提高动作提案的质量进而提高时间动作检测精度，本发明设计了一个内容时间关系网络(CTRNet)来生成时间动作提案。

发明内容

有鉴于此，本发明提供了一种内容时间关系网络及生成时间动作提案的方法，能够解决在视频中动作个数及出现位置不确定、动作长度变化范围大情况下难以生成高质量时序动作提案的技术问题。

针对时间动作检测和提案之间的关系，本发明采用一个内容时间关系网络(CTRNet)来生成时间动作提案，它同时对内容和时间语义关系进行特征采集，进而生成高质量的提案。本发明首先生成密集分布的提案，并将所有提案投射到一个特征子空间中，以捕获它们的关系。设计了提案特征图生成层，将提案之间的时间语义关系转换为空间关系。在提案特征映射的基础上，利用滑动窗口获取每个提案的关联提案，并根据滑动窗口的大小和扩展速率确定关联提案的数量和粒度。本发明采用一个应用于提案特征图的内容-时间关系模块，同时对提案之间的内容和时间语义关系进行建模。在该模块中，本发明创新性地使用自适应扩张卷积，它的扩张速率自适应于空间位置，以建模时间语义关系。自适应扩张卷积滤波器的权值只依赖于空间位置，通过训练可以对复杂的空间结构进行建模。本发明还采用注意机制设计了一个内容自适应卷积操作，其权重依赖于像素特征，以建模提案之间的内容语义关系。最后，使用多种融合机制来融合内容和时间的语义关系信息。

为了解决上述技术问题，本发明是这样实现的。

一种内容时间关系网络，所述内容时间关系网络包括：

特征编码模块、基础网络、提案评估网络、帧评估网络；

所述特征编码模块对输入的视频片段序列S进行特征提取，提取出帧级特征序列，并将所述帧级特征序列沿时间维度拼接，得到视频特征序列

所述基础网络接收所述视频特征序列

用于提取帧级别特征之间的双向语义关系，输出最终特征序列

所述基础网络包括一个残差模块和一个双向LSTM模块，所述双向LSTM模块包括前向LSTM和反向LSTM，前向LSTM和反向LSTM各由一个两层LSTM组成；所述视频特征序列

输入所述残差模块，所述残差模块的输出分别输入所述前向LSTM和反向LSTM，将所述前向LSTM和反向LSTM的输出沿特征维度拼接得到最终特征序列

其中，

为前向LSTM的输出序列，

为反向LSTM的输出序列；

所述提案评估网络包括提案特征图生成层和内容-时间关系模块，所述提案特征图层接收所述最终特征序列

将所述最终特征序列转化为特征维度相同、每行动作提案长度相等的二维时域提案特征图；所述内容-时间关系模块基于所述二维时域提案特征图，获取提案之间的内容和时间语义关系，预测每个提案的置信度和完整性；所述内容-时间关系模块包括时间关系模块、内容关系模块和融合模块；所述二维时域提案特征图同时分别输入时间关系模块、内容关系模块，所述时间关系模块从所述二维时域提案特征图中提取提案之间的时间语义关系，所述内容关系模块从所述二维时域提案特征图中提取提案之间的内容语义关系；所述融合模块将所述时间语义关系与所述内容语义关系进行融合，将融合后的提案特征输入分类器，得到置信度分数和完整性分数所述提案特征图生成层是在卷积层上叠加抽样和排列规则得到的；

所述帧评估网络包括三个并行时序卷积网络，所述帧评估网络接收所述最终特征序列

将所述最终特征序列分别输入所述三个并行时序卷积网络，所述三个并行时序卷积网络分别输出每帧为动作帧、开始帧、以及结束帧的概率。

优选地，所述基础网络利用帧特征之间的双向关系来捕获过去和未来信息；所述基础网络以所述特征编码模块得到的特征序列

作为输入，利用所述残差模块进一步提取帧的语义信息；所述残差模块表示为:

F_u1＝Conv1d(F)

F_u＝F_u1+Conv1d(F_u1) (1)

其中，F为特征序列，Convld为一维卷积，F_u1为第一层一维卷积的输出，F_u为残差模块的最终输出；

将残差模块输出的特征序列

同时输入所述双向LSTM模块的所述前向LSTM和反向LSTM的隐藏状态序列沿特征维度拼接作为最终特征序列。

优选地，双向LSTM模块的双向编码过程定义为:

其中，

和

分别为前向LSTM和后向LSTM的隐藏状态序列；

为最终特征序列；

为前向LSTM的第一次计算得到的隐藏层特征，

为前向LSTM的第T次计算得到隐藏层特征，

为反向LSTM的第1次计算得到隐藏层特征，

为反向LSTM的第T次计算得到隐藏层特征，

是

和

经过沿特征维度拼接处理得到的，

为前向LSTM的第t次计算得到隐藏层特征，

为反向LSTM的第t次计算得到隐藏层特征。

优选地，所述抽样和排列规则为：1)采穷举法列出所有可能的动作提案，其长度范围为[1,T]；2)对于每一个动作提案，在其对应区间的最终特征序列H上采用线性差值法抽样出k个特征，将其拼接起来后用一个全连接层处理，得到动作提案特征；3)将所有的提案特征按照横轴为起始时间、纵轴为提案长度排列，得到二维时间特征图F^M′；4)将F^M′上的每个提案沿横轴移动

个位置得到最终的二维时域提案特征图F^M，其中d为每个提案的纵坐标。

优选地，所述时间关系模块通过改变卷积层的邻域选取规则得到基于自适应扩张的二维卷积计算，进而获得所述二维时域提案特征图中提案之间的时间语义关系；所述自适应扩张的二维卷积计算的机制为：每一个提案以其自身长度除以自适应率为采样步长选择其邻域的其他提案，所述自适应率是基于自适应扩张的二维卷积中定义的一个参数，通过设定自适应率的参数值能够决定不同位置提案邻域采样的步长；所述自适应扩张的二维卷积计算的计算方式为：

其中v_m,n∈R^c为特征图(m,n)位置上的特征；r为自适应率，是一个常数变量；s是卷积核的核长，自适应扩张的二维卷积计算进行采样的卷积核两个维度的核长都相同，均为s；W_i,j是卷积核(i,j)位置上的参数，v'_m,n是经过自适应扩张的二维卷积处理后的特征图(m,n)位置上的特征，b是偏置量。

优选地，所述内容关系模块通过基于注意力机制的自适应卷积计算，获得所述二维时域提案特征图中提案之间的内容语义关系；所述基于注意力机制的自适应卷积计算，其机制为每一个提案以其自身长度除以自适应率为采样步长选择其邻域的其他提案，并利用注意力机制计算提案与邻域内其他提案的注意力权重，将其加权求和后再用一个全连接层处理所述内容关系模块的自适应权重依赖于像素特征，对提案之间的内容语义关系进行建模；所述基于注意力机制的自适应卷积运算的运算方式为：

其中，v_m,n∈R^c为特征图(m,n)位置上的特征，

是内容自适应权重，它依赖于特征v_m,n和

表示对提案内容语义关系，r为自适应率，是一个常数变量；s是卷积核的核长，所述基于注意力机制的自适应卷积运算中采样的卷积核两个维度的核长都相同，均为s；

将内容自适应权重重写为：

函数S(·)以特征对为输入，输出标量，表示内容语义关系权重；W是一个参数矩阵，由1×1卷积实现，用于变换输入特征；则内容自适应卷积运算表示为:

优选地，所述融合模块将所述时间语义关系与所述内容语义关系进行融合，将融合后的提案特征输入分类器，得到提案置信度分数和完整性分数；将与真实动作的重合度大于阈值的提案看作正样本，其余为负样本，利用分类器预测每个提案为正样本的概率分数作为置信度分数，同时用一个分类器预测每个提案与真实动作的重合度作为完整性分数。

优选地，所述帧评估网络与所述提案评估网络同时接收所述最终特征序列

所述帧评估网络采用自上而下的方式评估提案，忽略局部动作信息和边界信息。

一种生成时间动作提案的方法，所述方法基于如前所述内容时间关系网络，所述方法包括以下步骤：

步骤S1：获取视频，从视频中采样出视频片段序列，利用双流网络进行特征提取，得到视频特征；

步骤S2：将所述视频帧特征输入所述内容时间关系网络；

步骤S3：将所述内容时间关系网络输出的置信度分数、完整性分数、提案开始时刻开始概率分数、提案结束时刻结束概率分数和提案中间时刻该动作概率分数进行乘积融合，得到最终分数。

有益效果：

(1)本发明提供的内容时间关系网络同时利用提案之间的内容语义关系和时序语义关系来生成时间动作提案，通过对提案间内容和时序语义关系的探索获取更多信息，提高了提案特征的质量，从而可以生成高质量的时间动作提案。

(2)本发明提供的方法设计了一个提案特征图生成层，将提案间的时序关系转换为空间关系，使得可以更加高效便捷的为每个提案获取存在关系的其他提案；设计一个自适应扩张的卷积，可以高效建模动作提案间的时序语义关系；基于注意力机制设计了内容自适应的卷积操作，可以有效建模动作提案间的内容语义关系

附图说明

图1为内容时间关系网络(CTRNet)框架结构示意图；

图2为视频中动作示例示意图；

图3为提案特征图生成层生成2D时间提案特征图示意图；

图4为内容自适应卷积示意图；

图5为本发明在THUMOS’14数据集的定性结果；

图6为生成时间动作提案的方法流程示意图。

具体实施方式

下面结合附图和实施例，对本发明进行详细描述。

如图1-2所示，本发明一种内容时间关系网络，包括：

特征编码模块、基础网络、提案评估网络、帧评估网络；

所述基础网络接收所述视频特征序列

其中，

为前向LSTM的输出序列，

为反向LSTM的输出序列；

所述提案评估网络包括提案特征图生成层和内容-时间关系模块，所述提案特征图生成层接收所述最终特征序列

本发明采用特征编码方法，利用双通道网络从原始视频数据中提取特征；基础网络利用帧特征之间的双向长程关系得到高质量的帧特征；提案评价网络通过建立提案内容和时间语义关系模型来预测提案的置信度和完整性；帧评价网络(Frame Evaluation Net,FENet)通过挖掘动作信息和局部边界信息来生成动作、开始和结束的概率序列。

本实施例中，所述特征编码模块是一个双流网络，所述双流网络包括一个用于处理RGB帧的空间网络和一个用于处理堆叠光流帧的时间网络，所述空间网络和时间网络均为全连接层。

将视频片段序列

输入所述双流网络，由所述空间网络和所述时间网络各生成一个特征序列。将两个特征序列在特征维度进行连接，得到一个视频特征序列

其中，所述片段序列

是在时间间隔τ内将一个未修剪的视频V下采样，得到的片段序列，每个片段s_t包含若干个光流帧和一个RGB帧；T为视频的片段数，也即特征序列的长度，t为索引符号，f_t为由第t个片段序列得到的帧级特征。

所述基础网络利用帧特征之间的双向关系来捕获过去和未来信息。所述基础网络以所述特征编码模块得到的特征序列

作为输入，利用所述残差模块进一步提取帧的语义信息。所述残差模块表示为:

F_u1＝Conv1d(F)

F_u＝F_u1+Conv1d(F_u1) (1)

其中，F为特征序列，Convld为一维卷积，F_u1为第一层一维卷积的输出，F_u为残差模块的最终输出。

将残差模块输出的特征序列

同时输入所述双向LSTM模块的所述前向LSTM和反向LSTM的隐藏状态序列沿特征维度拼接作为最终特征序列。本实施例中，双向编码过程定义为:

其中，

和

分别为前向LSTM和后向LSTM的隐藏状态序列；

为最终特征序列；

为前向LSTM的第一次计算得到的隐藏层特征，

为前向LSTM的第T次计算得到隐藏层特征，

为反向LSTM的第1次计算得到隐藏层特征，

为反向LSTM的第T次计算得到隐藏层特征，

是

和

经过沿特征维度拼接处理得到的，

为前向LSTM的第t次计算得到隐藏层特征，

为反向LSTM的第t次计算得到隐藏层特征。

如图3所示，所述提案特征图生成层接收到最终特征序列

由于动作的长度变化范围大导致提案的长度也变化多样，因此，为了对不同长度的动作提案进行统一评估，将提案建模成维度相同的特征并按规则排列，输出特征维度相同、每行动作提案长度相等的二维时域提案特征图。构建所述提案特征图层，所述提案特征图层是在卷积层的基础上，叠加抽样和排列规则得到的，本实施例中，所述抽样和排列规则为1)采穷举法列出所有可能的动作提案，其长度范围为[1,T]；2)对于每一个动作提案，在其对应区间的最终特征序列H上采用线性差值法抽样出k个特征，将其拼接起来后用一个全连接层处理，得到动作提案特征；3)将所有的提案特征按照横轴为起始时间、纵轴为提案长度排列，得到二维时间特征图F^M′；4)将F^M′上的每个提案沿横轴移动

假设每个提案只与其他地方提案有联系，但地方范围是不确定的。给定输入特征序列F∈R^T×C，生成稠密分布的候选提案集

对于每一个提案，将其延长一半的时间，通过线性插值得到扩展的提案，并从扩展的提案中得到N个样本位置，然后将这些时间位置特征连接起来，生成提案的特征f_i∈R^NC，最后，按照一定的规则排列上下文提案特征，得到提案特征图。具体来说，本实施例中，首先按照上述规则将所述最终特征序列

转成二维时间特征图F^M'∈R^T×T×NC，所述二维时间特征图的前两个维度分别表示提案的长度和起始时刻。提案的起始时刻和长度应该满足t_s+d≤T。然后，将每个提案(d-1)/2步沿着起始边界维度移动，得到最终的二维时域提案特征图F^M∈R^T×T×NC。

所述时间关系模块是由改变卷积层的邻域选取规则得到的基于自适应扩张的二维卷积计算构成，获得所述二维时域提案特征图中提案之间的时间语义关系。所述时间关系模块基于所述二维时域提案特征图的空间分布特点，即同行提案长度相同，设计了自适应扩张的二维卷积计算，其扩张速率依赖于像素位置。所述自适应扩张的二维卷积计算，其机制为：每一个提案以其自身长度除以自适应率为采样步长选择其邻域的其他提案，所述自适应率是基于自适应扩张的二维卷积中定义的一个参数，通过设定自适应率的参数值能够决定不同位置提案邻域采样的步长。所述自适应扩张的二维卷积计算的计算方式为：

其中v_m,n∈R^c为特征图(m,n)位置上的特征；r为自适应率，是一个常数变量；s是卷积核的核长，本方法中采样的卷积核两个维度的核长都相同，均为s；W_i,j是卷积核(i,j)位置上的参数，v'_m,n是经过自适应扩张的二维卷积处理后的特征图(m,n)位置上的特征，b是偏置量。提案的长度取决于提案在时间提案特征映射上的位置，提案在位置(m,n)处的长度为m。因此，自适应扩张的二维卷积计算的膨胀率也取决于提案的长度。提案与其选择的左侧第一个提案之间的计算时间片段重叠度的指标时域交并比(temporal intersectionand union,tIoU),可以写成

其中r是常数，所以tIoU也是常数。对于其他选定的提案，其与原始提案的关系也取决于所述自适应率。在所述二维时域提案特征图上应用自适应扩张的二维卷积计算，使得不同长度的提案使用相同的时间粒度来选择关系提案，帮助生成时间动作提案。

如图4所示，所述内容关系模块是在基于自适应扩张的二维卷积(上文提到的时序关系模块中定义设计的新的模型，它是通过改变了卷积层的邻域选取规则而得到的，从而使特征图上不同特征根据其位置自适应的决定其领域的采样步长，而不再是传统卷积里所有位置的邻域采样步长是一样的)中加入注意力机制得到的，设计了基于注意力机制的自适应卷积计算，获得所述二维时域提案特征图中提案之间的内容语义关系。所述自适应卷积计算，其机制为每一个提案以其自身长度除以自适应率为采样步长选择其邻域的其他提案，并利用注意力机制计算提案与邻域内其他提案的注意力权重，将其加权求和后再用一个全连接层处理所述内容关系模块的自适应权重依赖于像素特征，对提案之间的内容语义关系进行建模。所述基于注意力机制的自适应卷积运算的运算方式为：

其中，v_m,n∈R^c为特征图(m,n)位置上的特征，

是内容自适应权重，它依赖于特征v_m,n和

表示对提案内容语义关系，r为自适应率，是一个常数变量；s是卷积核的核长，本方法中采样的卷积核两个维度的核长都相同，均为s。

将内容自适应权重重写为：

函数S(·)以特征对为输入，输出标量，表示内容语义关系权重。W是一个参数矩阵，由1×1卷积实现，用于变换输入特征。则内容自适应卷积运算可表示为:

采用特征相似度来表征内容语义关系。将函数S(·)定义为:

其中W_v为待学习的参数矩阵。

所述融合模块将所述时间语义关系与所述内容语义关系进行融合，将融合后的提案特征输入分类器，得到提案置信度分数和完整性分数。所述融合模块旨在将时间和内容关系特征的互补信息进行彻底融合。将与真实动作的重合度大于阈值的提案看作正样本，其余为负样本，利用分类器预测每个提案为正样本的概率分数作为置信度分数，同时用一个分类器预测每个提案与真实动作的重合度作为完整性分数。

所述帧评估网络与所述提案评估网络同时接收所述最终特征序列

采用自上而下的方式评估提案，忽略局部动作信息和边界信息。

由三个时序卷积网络分别生成动作、开始和结束的概率序列，其中每个卷积由两个一维卷积组成。因此，根据内容语义关系网络的输出，定义第h个提案为

其中p_con,h和p_com,h为提案

的置信度分数和完整性分数，p_s,h和p_e,h分别为提案开始时刻t_s,h和t_e,h的开始和结束概率，p_a,h为

的动作概率。

利用Python在两个标准的时间动作检测数据集THUMOS’14和ActivityNet-1.3上对上述方法进行训练并通过其他最新成果比较来验证其有效性，具体以下述三例来说明。

例1：消融研究。消融研究中的所有实验都在THUMOS’14数据集上进行。

提案-提案关系的有效性。为了探究提案-提案关系如何帮助改进临时行动提案生成的性能，我们实现了一个基线和CTRNet的两个变体:1)基线，它包括基础网、提案特征图生成层和1×1卷积层，后面是一个s形层；2)时间关系网络(TRNet)，去掉了内容时间关系网络中的内容关系模块；3)内容关系网络(CRNet)，去掉了内容时间关系网络的时间关系模块。基线在二维临时提案特征图上应用1×1卷积来独立处理每个提案特征，忽略提案-提案关系。TRNet采用基于二维时间提案特征图的时间关系模块对提案进行评估，只考虑提案之间的时间语义关系。CRNet只包含一个内容关系模块；因此，它只利用提案之间的内容语义关系。实验结果如表1所示。

表1

将TRNet和CRNet与基线进行比较，发现TRNet在AR@50、AR@100和AR@200上的性能分别提高了1.69％、1.56％和0.72％，而CRNet在AR@50、AR@100和AR@200上的性能分别提高了1.64％、1.24％和1.1％。结果表明，提案-提案关系对于提高临时行动提案生成的性能至关重要。

对比TRNet、CRNet和CTRNet，发现CTRNet的性能优于其他模型，表明时间和内容语义关系对时间动作提案生成都很重要。

自适应扩张卷积的有效性。为了进一步证明我们提出的自适应膨胀卷积的有效性，我们采用标准的二维膨胀卷积构建内容时间关系网络，并尝试多个膨胀率进行实验。结果如表2所示。可见自适应扩张锥比不同扩张锥的标准二维扩张锥表现更好。这些实验结果证实了我们提出的自适应扩张卷积在时间动作提案生成中的作用。

表2

不同融合策略的有效性。为了更好地利用内容关系和时间关系信息，比较了表3中不同的融合策略，发现求和融合效果最好。这说明简单的特征图求和已经是一种很好的融合技术，而复杂的融合策略会导致较差的结果。

表3

CTRNet的网络架构设置。每个关系提案的数量和关系粒度是影响模型性能的重要超参数。因此，我们通过调整滑动窗口的大小来改变被选提案的数量，并通过调整自适应速率来确定关系粒度来探索时间动作提案生成的最佳模型。如表4所示，比较了在THUMOS’14数据集上AR@ANs的不同核大小和自适应速率的结果。当核大小固定为7时，增加自适应速率将改善结果。但当自适应速率超过7时，由于考虑到许多关系提案会引入背景信息，性能会下降。改变内核大小也会导致同样的现象。将自适应速率固定为7，并增加内核大小。当内核大小超过7时，性能将不再增加。

表4

例2：与THUMOS’14数据集上的最新结果进行比较。

时间动作提案生成。在时间动作提案生成任务中，我们将本方法与TURN[20]、CTAP[40]、BSN[10]、BMN[17]、MGG[22]、RapNet[34]、DBG[7]、TSA-Net[41]、BG-GNN[18]、CMSN[42]、Zhao等人[8]、Gao等人[19]等先进方法进行了比较。对比结果如表5所示。我们发现，我们的方法在AR@50上取得了46.31％的成绩，在AR@100上取得了55.10％的成绩，在AR@200上取得了61.33％的成绩。特别是在AR@100上，我们的模型比之前的最佳方法(即Gao etal.[19])提高了3.43％(从51.67％提高到55.1％)。进一步证明了本文方法的优越性。

表5

时间动作检测。为了进一步评估我们提出的方法的质量，我们将CTRNet生成的提案放在一个时间动作检测器中，并评估其检测性能。继BSN[10]之后，我们使用UntrimmedNet[43](UNet)作为动作检测器，并采用前2名的视频级分类结果生成提案的分类结果。表6给出了在THUMOS’14[13]数据集上，我们所提出的方法与以往最先进的方法的检测性能比较。我们可以观察到，Ours+UNet在大多数阈值上都有显著的mAP缺口，优于之前的最先进的方法。特别是，随着阈值的增加，我们的方法与以前的最先进的方法之间的mAP差距变得更大。与之前的最佳方法(Gao et al.[19])相比，我们的模型在tIoU＝0.4时提高了0.6％，tIoU＝0.5时提高了3.4％，tIoU＝0.6时提高了5.2％，tIoU＝0.7时提高了5.9％。它表明CTRNet产生的提案有更精确的时间界限。

表6

定性结果。如图5所示，我们可视化了THUMOS’14数据集上排名最高的提案的一些示例。每个案例由一个从测试视频中采样的帧序列组成。ground-truth操作实例用绿线标记，而CTRNet生成的提案用蓝线及其最终得分标记。通过对生成的提案进行比较，我们发现一些生成的提案有很高的重叠，但它们的最终得分有很大的差距，说明我们的方法非常注重边界定位，易于生成边界精确的提案。

例3：与ActivetyNet-1.3最新结果的比较。

我们总结了在ActivetyNet-1.3[14]数据集上，本文提出的方法与以往最先进的方法在时间动作提案生成和时间动作检测任务方面的对比结果，如表7和表8所示。从表7和表8可以看出，除了在tIoU＝0.95时的mAP分数外，我们的方法在两个任务中都优于BMN[17]。在ActivetyNet-1.3数据集中，验证集的平均视频长度为3280帧，动作实例的长度不同，从视频长度的0.04％到100％不等。在我们的方法中，我们将视频缩放到100帧，以减少计算成本，这使得一些动作实例的边界模糊。因此，我们的方法在tIoU＝0.95时的性能低于其他一些方法。但在实际应用中，地面真实动作实例大于0.95的预测动作实例tIoU是不需要的。

表7

表8

本发明还提供了一种生成时间动作提案的方法，如图6所示，该方法基于如前所述的内容时间关系网络，所述方法包括以下步骤：

步骤S1：获取视频，从视频中采样出视频片段序列，利用双流网络网络进行特征提取，得到视频特征；

步骤S2：将所述视频帧特征输入所述内容时间关系网络；

以上的具体实施例仅描述了本发明的设计原理，该描述中的部件形状，名称可以不同，不受限制。所以，本发明领域的技术人员可以对前述实施例记载的技术方案进行修改或等同替换；而这些修改和替换未脱离本发明创造宗旨和技术方案，均应属于本发明的保护范围。

Claims

1.一种内容时间关系网络，其特征在于，所述内容时间关系网络包括：

特征编码模块、基础网络、提案评估网络、帧评估网络；

所述基础网络接收所述视频特征序列

其中，

为前向LSTM的输出序列，

为反向LSTM的输出序列；

2.如权利要求1所述的内容时间关系网络，其特征在于，所述基础网络利用帧特征之间的双向关系来捕获过去和未来信息；所述基础网络以所述特征编码模块得到的特征序列

F_u1＝Conv1d(F)

F_u＝F_u1+Conv1d(F_u1) (1)

将残差模块输出的特征序列

3.如权利要求2所述的内容时间关系网络，其特征在于，双向LSTM模块的双向编码过程定义为:

其中，

和

分别为前向LSTM和后向LSTM的隐藏状态序列；

为最终特征序列；

为前向LSTM的第一次计算得到的隐藏层特征，

为前向LSTM的第T次计算得到隐藏层特征，

为反向LSTM的第1次计算得到隐藏层特征，

为反向LSTM的第T次计算得到隐藏层特征，

是

和

经过沿特征维度拼接处理得到的，

为前向LSTM的第t次计算得到隐藏层特征，

为反向LSTM的第t次计算得到隐藏层特征。

4.如权利要求3所述的内容时间关系网络，其特征在于，所述抽样和排列规则为：1)采穷举法列出所有可能的动作提案，其长度范围为[1,T]；2)对于每一个动作提案，在其对应区间的最终特征序列H上采用线性差值法抽样出k个特征，将其拼接起来后用一个全连接层处理，得到动作提案特征；3)将所有的提案特征按照横轴为起始时间、纵轴为提案长度排列，得到二维时间特征图F^M′；4)将F^M′上的每个提案沿横轴移动

5.如权利要求4所述的内容时间关系网络，其特征在于，所述时间关系模块通过改变卷积层的邻域选取规则得到基于自适应扩张的二维卷积计算，进而获得所述二维时域提案特征图中提案之间的时间语义关系；所述自适应扩张的二维卷积计算的机制为：每一个提案以其自身长度除以自适应率为采样步长选择其邻域的其他提案，所述自适应率是基于自适应扩张的二维卷积中定义的一个参数，通过设定自适应率的参数值能够决定不同位置提案邻域采样的步长；所述自适应扩张的二维卷积计算的计算方式为：

6.如权利要求5所述的内容时间关系网络，其特征在于，所述内容关系模块通过基于注意力机制的自适应卷积计算，获得所述二维时域提案特征图中提案之间的内容语义关系；所述基于注意力机制的自适应卷积计算，其机制为每一个提案以其自身长度除以自适应率为采样步长选择其邻域的其他提案，并利用注意力机制计算提案与邻域内其他提案的注意力权重，将其加权求和后再用一个全连接层处理所述内容关系模块的自适应权重依赖于像素特征，对提案之间的内容语义关系进行建模；所述基于注意力机制的自适应卷积运算的运算方式为：

其中，v_m,n∈R^c为特征图(m,n)位置上的特征，

是内容自适应权重，它依赖于特征v_m,n和

将内容自适应权重重写为：

7.如权利要求6所述的内容时间关系网络，其特征在于，所述融合模块将所述时间语义关系与所述内容语义关系进行融合，将融合后的提案特征输入分类器，得到提案置信度分数和完整性分数；将与真实动作的重合度大于阈值的提案看作正样本，其余为负样本，利用分类器预测每个提案为正样本的概率分数作为置信度分数，同时用一个分类器预测每个提案与真实动作的重合度作为完整性分数。

8.如权利要求7所述的内容时间关系网络，其特征在于，所述帧评估网络与所述提案评估网络同时接收所述最终特征序列

9.一种生成时间动作提案的方法，其特征在于，所述方法基于如权利要求1-8中任一项所述内容时间关系网络，所述方法包括以下步骤：

步骤S2：将所述视频帧特征输入所述内容时间关系网络；