CN110110648A

CN110110648A - 基于视觉感知与人工智能的动作提名方法

Info

Publication number: CN110110648A
Application number: CN201910364429.1A
Authority: CN
Inventors: 王田; 陈阳; 单光存
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-08-09
Anticipated expiration: 2039-04-30
Also published as: CN110110648B

Abstract

本发明公开了基于视觉感知与人工智能的动作提名方法，所述方法包括以下步骤：步骤1、利用I3D网络提取视频的双流特征向量；步骤2、将双流特征向量输入至堆叠的残差因果卷积模块中，进行时序建模并进行动作概率评估；步骤3、根据边界决策分析获得待选动作提名片段及其集合ψ_p；步骤4、对待选动作提名片段的集合ψ_p进行联合概率动作密度排序处理，得到有效动作提名片段。本发明所述方法在动作提名过程中不需要滑动窗户或锚箱，同时，本发明所述方法设计了一个轻量的联合概率动作密度排序策略，不需要再构建复杂的神经网络，同时这个策略可解释性强，效果很好。

Description

基于视觉感知与人工智能的动作提名方法

技术领域

本发明涉及动作提名技术，尤其涉及基于视觉感知与人工智能的动作提名方法。

背景技术

随着相机、监控录像等录像设备的日益普及以及互联网的快速发展，视频资料繁多，同时，视频监控也越来越多地承担起了公共场所内的安全保障任务。

如果需要对视频内容进行提取或查找时，单靠肉眼分析非常耗时耗力，而且其准确率不具有严格的客观性，尤其对于长视频、随着分析时间延长可能会出现审视疲劳而导致查找结果准确率降低。

在现有技术中，也有一些公开的模型用于动作提名：

SCNN网络采用了多尺度滑窗的策略，缺点是多尺度的方式计算量太大，而且滑窗策略无法覆盖任意长度的动作提名片段。

DAPs和SST采用RNN取代多尺度滑窗的策略，计算量变小了，然而它们核心思想任然和滑窗策略一样，无法覆盖任意长度的动作提名片段，同时RNN难以训练，效果一般。

TURN提出了多尺度锚窗的思想，TAL_Net使用了空洞卷积，这两个网络的核心思想仍然和滑窗企图直接输出一个完整的提名片段去覆盖真实提名片段一样，无法解决提名长度任意长的问题。

发明内容

为了克服上述问题，本发明人进行了锐意研究，构建的残余因果卷积模块对过去事件形成简短记忆，基于此联合概率行动密度排序机制得到有效动作片段，从而完成本发明。

(1)本发明提供了基于视觉感知与人工智能的动作提名方法，所述方法包括以下步骤：

步骤1、利用I3D网络提取视频的双流特征向量；

步骤2、将双流特征向量输入至堆叠的残差因果卷积模块(RCCM)中，进行时序建模并进行动作概率评估；

步骤3、根据边界决策分析获得待选动作提名片段及其集合ψ_p；

步骤4、对待选动作提名片段的集合ψ_p进行联合概率动作密度排序处理，得到有效动作提名片段。

(2)根据上述(1)所述的方法，其中，

在步骤1中，所述双流特征向量包括空间流和时间流，所述空间流是由堆叠的RGB图像为输入得到的特征向量，所述时间流是由堆叠的光流图像为输入得到的特征向量；和/或

在步骤2中，所述残差因果卷积模块包括空洞卷积层、层正则化层、dropout层、ReLU层和映射层。

(3)根据上述(2)所述的方法，其中，

在所述残差卷积模块(RCCM)中，设定卷积的步长为1，第i层神经元的感受野尺寸如式(1)所示：

在式(1)中，F(i)表示第i层的感受野尺寸，F(i-1)表示第i-1层的感受野尺寸，k_i、d_i分别代表第i层的卷积核尺寸和第i层的卷积空洞率；

和/或

设定顶层卷积层的感受野大小为K，则t时刻的顶层神经元接受该时刻前面的K个时刻的输入，对这K个时刻内的视频单元进行时序建模，构建短时记忆；

和/或

所述映射层为1*1的卷积层，在所述卷积层内设置有sigmoid激活函数，进行动作概率分数的分析，并输出3K维的向量，所述向量如式(2)所示：

在式(2)中，分别表示t时刻的顶层神经元预测时刻m为动作开始、动作结束和动作正在进行的概率分数，相应地，分别表示t时刻的顶层神经元预测时刻t-K+1为动作开始、动作结束和动作正在进行的概率分数，分别表示t时刻的顶层神经元预测时刻t-K+2为动作开始、动作结束和动作正在进行的概率分数，分别表示t时刻的顶层神经元预测时刻t-1为动作开始、动作结束和动作正在进行的概率分数，分别表示t时刻的顶层神经元预测时刻t为动作开始、动作结束和动作正在进行的概率分数。

(4)根据上述(3)所述的方法，其中，

采用如式(3)所示损失函数对堆叠的残差因果卷积模块进行训练：

L＝L_start+L_end+βL_action 式(3)，

在式(3)中，L_start、L_end、L_action分别表示动作开始、动作结束和动作正在进行的分数损失。β为平衡系数，用于动作开始、动作结束的分数损失与动作正在进行的分数损失之间的平衡；

优选地，在式(3)中，L_start、L_end、L_action分别通过交叉熵函数获得。

(5)根据上述(1)至(4)之一所述的方法，其中，步骤3包括以下子步骤：

步骤3-1、将步骤2得到概率分数调整为以当前时刻m时刻及其后面K个时刻的动作概率分数集合动作开始、动作结束和动作正在进行的概率分数集合S_m、E_m、A_m；

步骤3-2、对概率分数集合进行边界策略分析，得到动作边界时刻，所述动作边界时刻包括动作开始时刻和动作结束时刻；

步骤3-3、对动作边界进行组合，得到待选动作提名片段。

(6)根据上述(5)所述的方法，其中，

在步骤3-1中，以当前时刻为m时刻，得到m后面K个时刻分别为动作开始、动作结束和动作正在进行的概率分数集合S_m、E_m、A_m，如式(4-1)～式(4-3)所示：

和/或

在步骤3-2中，所述边界策略分析包括投票策略和峰值策略；优选地，所述投票策略如下进行：若S_m或E_m中有3个以上(优选5个以上)的概率分数超过了0.5，那么m时刻为动作开始时刻或动作结束时刻；所述峰值策略如下进行：若或时，那么m时刻为动作开始时刻或动作结束时刻。

(7)根据上述(6)所述的方法，其中，

在步骤3-2中，当m时刻满足投票决策和峰值决策中的一项时，收集对应的时刻m作为动作开始时刻或动作结束时刻，分别得到动作开始时刻的集合C_S和动作结束时刻C_E的集合；

在步骤3-3中，所述组合如下进行，设C_s中的任意元素为C_e中的任意元素为若满足则区间为一个待选动作提名片段，

优选由多个待选动作提名片段集合形成待选动作提名片段的集合ψ_p。

(8)根据上述(1)至(7)之一所述的方法，其中，在步骤4中，所述联合概率动作密度排序进行如式(5)所示处理：

在式(5)中，表示表示m_i时刻后面K个时刻的顶层神经元预测m_i时刻为动作正在进行的概率分数的平均值，表示动作密度指标，代表了待选动作提名片段的评价动作分数密度；表示m_s时刻后面K个时刻的顶层神经元预测m_s时刻为动作开始的概率分数的平均值，表示m_e时刻后面K个时刻的顶层神经元预测m_e时刻为动作结束的概率分数的平均值，代表了当前待选动作提名片段拥有正确动作边界的置信度。

(9)根据上述(8)所述的方法，其中，如式(5-1)所示：

在式(5-1)中，表示未来j时刻的顶层神经元预测m_i时刻为动作正在进行的概率分数，K表示顶层卷积层的感受野大小。

(10)根据上述(9)所述的方法，其中，在联合概率动作密度排序之后，利用非极大值抑制对时间有重复的动作片段进行处理，筛选出其中d_c值最大的片段，即有效动作提名片段。

附图说明

图1示出本发明所述方法的流程示意图；

图2示出普通卷积与因果卷积的示意图；

图3示出残差因果卷积模型的结构示意图；

图4示出动作的概率分数获得过程示意图；

图5示出有效地动作区域获得过程示意图；

图6～7分别示出实验例得到的AR-AN曲线和R@AN＝100-IoU曲线。

具体实施方式

下面通过附图对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

本发明主要关注视频分析中的动作提名任务，即给定一段未裁剪的长视频，找出该长视频中所有目标行为的开始时间和结束时间点，而不关心每段时间内的动作类别。

本发明提供了基于视觉感知与人工智能的动作提名方法，如图1所示，所述方法包括以下步骤：

步骤1、利用I3D网络提取视频的双流特征向量。

根据本发明一种优选的实时方式，所述双流特征向量包括空间流和时间流。

在进一步优选的实施方式中，所述空间流是由堆叠的RGB图像为输入得到的特征向量，所述时间流是由堆叠的光流图像为输入得到的特征向量。

其中，空间流中堆叠的RGB图像包含了物体的外观信息，时间流中堆叠的光流图像包含了物体的运动信息。

与目标检测中使用的静态图片不同，动态视频中的上下文语义编码信息对动作提名任务至关重要。在本发明中，采用双流I3D网络提取视频特征。其中，I3D以堆叠的RGB图像和堆叠的光流图像作为输入，输出对应的特征向量。

同时，被广泛使用的双流模型已被证明能有效提取视频中的语义信息，双流I3D则是通过精妙的结构设计达到了最好的效果。

根据本发明一种优选的实施方式，将包含T帧的视频序列X拆分成个互不重叠的视频单元，每个视频单元包含δ帧。

在进一步优选的实施方式中，针对每个视频单元，以其堆叠的RGB图像和堆叠的光流图像为I3D的输入，抽取双流特征向量。

根据本发明一种优选的实施方式，在双流I3D网络的每一流中，选取最后平均值池化层的1024维输出作为特征向量。

这样，每一流中有1024维的向量作为输出特征向量，双流共2048维的双流特征向量。

在进一步优选的实施方式中，所述双流特征向量表示为

其中，f_s,j和f_s,i分别代表空间流(RGB图像)和时间流(光流图像)中第i个单元对应的特征向量，||代表串接操作。

步骤2、将双流特征向量输入至堆叠的残差因果卷积模块(RCCM)中，进行时序建模并进行动作概率评估(如图4所示)。

根据本发明一种优选的实施方式，如图3所示，所述残差因果卷积模块均包括空洞卷积层、层正则化(layer-norm)层、dropout层、ReLU层和映射层。

因果卷积的贡献是使用堆叠的空洞卷积实现使用更少的参数获得更大的感受野，成功地克服了RNN训练中的难以训练和梯度消失的难题。“因果”的意思是神经网络在t时刻的输出仅仅与t时刻前的某段输入有关。图2展示了因果卷积(右侧)和普通卷积(左侧)之间的关联。因果卷积在实现时，通过仅仅在输入的前端补0，让输入和输出的尺寸保持一致。通过这种方式，每一个时刻的输出仅仅与该时刻前的输入有关，可以用于时间推理。因此，因果卷积可用于时序建模和推理。

根据本发明一种优选的实施方式，在所述残差卷积模块(RCCM)中，设定卷积的步长为1，第i层神经元的感受野尺寸如式(1)所示：

在式(1)中，F(i)表示第i层的感受野尺寸，F(i-1)表示第i-1层的感受野尺寸，k_i和d_i分别代表第i层的卷积核尺寸和第i层的卷积空洞率(d_i＝1意味着没有空洞)。在本发明中，将残差卷积模块中所有的卷积层的k都设为相同的值，同样，d也设为相同的值。

在进一步优选的实施方式中，每个空洞卷积层的k取值相同，每个空洞卷积层的d取值相同。

这样，顶层神经元的感受野尺寸为F(n)＝F(0)+n(k-1)d。在卷积后，顶层神经元在时刻t的输出仅仅与输入层在[t-F(n)+1,t]区间内的F(n)的时刻有关。最后，通过1*1卷积构成的映射层，我们将输入经过变换后加到输出，构建残差连接。

为了简洁性表述，我们用RCCM(n_c,n_n,k,d)表示一个包含n_c个卷积层的RCCM，每个卷积层的神经元个数为n_n，卷积核尺寸为k，空洞率为d。例如，RCCM(2,512,3,2)顶层的感受野大小是F(2)＝1+2×(3-l)×2＝9。

根据本发明一种优选的实施方式，设定顶层卷积层的感受野大小为K，则t时刻的顶层神经元接受该时刻前面的K个时刻的输入，并对这K个时刻内的视频单元进行时序建模，构建短时记忆。

其中，当顶层感受野为K时，说明顶层只能看到过去K个输入，因此，顶层神经元分析过去K个时刻的输入。

在进一步优选的实施方式中，通过回顾这K个时刻的输入，t时刻的顶层神经元对过去K个时刻中每个时刻的动作状态进行分析，所述动作状态包括动作(starting)开始、动作结束(ending)或者动作正在进行(ongoing)。

在更进一步优选的实时方式中，所述映射层为1*1的卷积层，在所述卷积层内设置有sigmoid激活函数，进行动作概率分数的分析，在时刻t输出为3K维的向量(y_t)，如式(2)所示：

其中，在式(2)中，分别表示t时刻的顶层神经元预测时刻m为动作开始、动作结束和动作正在进行的概率分数，相应地，分别表示t时刻的顶层神经元预测时刻t-K+1为动作开始、动作结束和动作正在进行的概率分数，分别表示t时刻的顶层神经元预测时刻t-K+2为动作开始、结束和动作正在进行的概率分数，分别表示t时刻的顶层神经元预测时刻t-1为动作开始、动作结束和动作正在进行的概率分数，分别表示t时刻的顶层神经元预测时刻t为动作开始、结束和动作正在进行的概率分数。

根据本发明一种优选的实施方式，采用如式(3)所示损失函数对堆叠的残差因果卷积模块进行训练：

L＝L_start+L_end+βL_action 式(3)。

其中，在式(3)中，L_start、L_end、L_action分别表示动作开始、动作结束和动作正在进行的分数损失。β为平衡系数，用于动作开始、动作结束的分数损失与动作正在进行的分数损失之间的平衡。

在进一步优选的实施方式中，式(3)中，L_start、L_end、L_ction分别通过交叉熵函数获得。

例如，L_start的获得如式(3-1)所示，

在式(3-1)中，i表示时刻，q_i(q_i∈{S_t})为残差因果卷积模块输出的动作开始的概率分数，p_i为动作开始概率的标签，N_B：为参与模型训练的视频单元。具体地，给定一个时刻i(一个时刻是包含δ帧的一个视频单元)，残差因果卷积模块会输出一个该时刻作为动作开始的概率值q_i，利用数据集的标签能得到动作开始概率的真实值p_i，N_B是总视频单元个数。这个计算的方式是经典的交叉熵损失，通用的计算方法。

在本发明中，采用交叉熵作为损失计算方法，

步骤3、根据边界决策分析获得待选动作提名片段及其集合Ψ_p。

根据本发明一种优选的实施方式，步骤3包括以下子步骤：

步骤3-3、对动作边界进行组合，得到待选动作提名片段。

根据本发明一种优选的实施方式，在步骤3-1中，以当前时刻为m时刻，得到m后面K个时刻(从m到m+K-1)分别为动作开始、动作结束和动作正在进行的概率分数集合S_m、E_m、A_m，如式(4-1)～式(4-3)所示：

根据本发明一种优选的实施方式，在步骤3-2中，所述边界策略分析包括投票策略和峰值策略。

在进一步优选的实施方式中，所述投票策略如下进行：若S_m或E_m中有3个以上(优选5个以上)的概率分数超过了0.5，那么m时刻为动作开始时刻或动作结束时刻。

在更进一步优选的实施方式中，所述峰值策略如下进行：若或时，那么m时刻为动作开始时刻或动作结束时刻。

其中，是S_m的平均值，是S_m-1的平均值，是S_m+1的平均值，是E_m的平均值，是E_m-1的平均值，是E_m+1的平均值。

在更进一步优选的实施方式中，当m时刻满足投票决策和峰值决策中的一项时，收集对应的时刻m作为动作开始时刻或动作结束时刻，分别得到动作开始时刻的集合C_s和动作结束时刻C_e的集合。

在本发明中，投票策略综合考虑了未来时刻中能看到当前时刻的神经元的决策，这种方式避免了个别神经元误判带来的漏检。峰值策略额外关注了那些吸引神经元注意的局部极大值，这些时刻也可能是动作正在开始或结束的时刻。

根据本发明一种优选的实施方式，在步骤3-3中，所述组合如下进行，设C_s中的任意元素为C_e中的任意元素为若满足则区间为一个待选动作提名片段。

在进一步优选的实施方式中，由多个待选动作提名片段集合形成待选动作提名片段的集合ψ_p。

一个准确的动作提名应该满足边界准确，如图5所示，与标签的交叠区域较大的特点。为了满足这一特点，本发明提出联合概率动作密度排序策略，来衡量ψ_p中的待选动作提名片段的质量，从而得到高质量的动作提名片段。

根据本发明一种优选的实施方式，所述联合概率动作密度排序进行如式(5)所示处理：

在式(5)中，表示m_i时刻后面K个时刻的顶层神经元预测m_i时刻为动作正在进行的概率分数的平均值；表示动作密度指标，代表了待选动作提名片段的评价动作分数密度，即图5中曲线下的面积除以提名片段的长度。表示m_s时刻后面K个时刻的顶层神经元预测m_s时刻为动作开始的概率分数的平均值。具体地，表示m_e时刻后面K个时刻的顶层神经元预测m_e时刻为动作结束的概率分数的平均值，代表了当前待选动作提名片段拥有正确动作边界的置信度。因此，我们可以得到联合概率密度动作密度指标d_c来为待选动作提名片段排序。

在进一步优选的实施方式中，如式(5-1)所示：

在式(5-1)中，表示未来j时刻的顶层神经元预测m_i时刻为动作正在进行的概率分数，K表示顶层卷积层的感受野大小。本发明以d_c为指标，该指标值越高，对应的动作提名片段的质量越高。

根据本发明一种优选的实施方式，在联合概率动作密度排序之后，利用非极大值抑制(NMS)对时间有重复的动作片段进行处理，筛选出其中d_c值最大的片段，即有效动作提名片段。

在进一步优选的实施方式中，设定非极大值抑制的阈值为0.8。

其中，非极大值抑制(Non-maximum suppression，NMS)是一种去除非极大值的算法。

本发明所具有的有益效果包括：

(1)本发明所述方法在动作提名过程中不需要滑动窗户或锚箱；

(2)采用了动作开始-动作正在进行-动作结束的打分策略，同时采用了回顾多次打分的思想，因此打分非常准确；

(3)在本发明所述方法中，设计了一个残差空洞因果卷积模块，同时将顶层感受野尺寸和打分结合在一起；

(4)本发明所述方法设计了一个轻量的联合概率动作密度排序策略，不需要再构建复杂的神经网络，同时这个策略可解释性强，效果很好。

实施例

在实验中，我们应用了在UCF-101数据集上训练的I3D模型，其中，δ设置为16得到视频单元，并采用150个视频单位进行训练并提取动作片段。堆叠两个残差因果卷积模块，可以表示为RCCM(2,512,3,2)--RCCM(2,512,3,2)，即每个RCCM有两个512内核卷积层，其卷积核尺寸为3和空洞率为2。以这种方式，接受顶层的感受野尺寸为17，对于30FPS的视频该感受野尺寸持续约9s。在边界投票策略中，将设置3作为投票阈值。为防止训练期间过度拟合，dropout系数设定为0.2，同时，将L2-正则化损失乘以1e-5加到最终损失函数。β根据经验设定为0.2。我们选择了Adam为优化函数，学习率为3e-3，其中，每50次训练按比例缩小0.94。最后，我们将NMS的阈值设定为0.8。

实验例效果评估

对开源THUMOS14数据集进行处理，输出的动作区域集合，与开源THUMOS14数据集中带标签的真实动作提名片段集合进行比对分析，其中，使用AR-AN和R@AN＝100-IoU曲线作为评价指标，评价指标分析方法说明：

AR-AN曲线：AR为平均召回率，AN为平均提名数目。AR-AN为平均召回率-平均提名数目曲线；

R@AN＝100-IoU曲线：设定一个IoU阈值，计算模型输出提名区域与真实标签提名区域的IoU(Intersection over Union,交并比，即区域的交集长度除以并集长度)，如果IoU>IoU阈值，则认为这个输出的提名是正确的。假如对于一个视频，真实有100个提名片段，模型输出了80个，但是里面只有50个是正确的，那么召回率R＝50/100＝0.5，就是真实的提名片段里面有多少个被找到了。而输出的80是AN。因此，固定一个阈值时，我们让AN变化，就可以画出一个R-AN曲线；

再计算AR-AN，设定阈值从0.5变化到1.0，每次阈值变化0.05，分别计算每个阈值下的R-AN，然后对这些阈值的结果取均值，得到AR-AN；

R@AN＝100-IoU曲线：R为Recall，即召回率。R@AN＝100-AN为AN固定为100时的召回率，计算R-AN，即固定平均提名数目下的召回率-平均提名数目曲线。

采用本发明实施例所述的方法以及现有公开的模型/方法分别对THUMOS14数据集进行处理/动作提名，验证其效果，固定AN，观察R和IoU阈值之间的关系，绘制关系曲线，结果如图6～7以及表1～2所示。

表1：

表2：

由图6～7和表1～2可以看出，(1)在AR-AN曲线中，本发明所述方法显着将AN＝500的平均召回率从60.64％(BSN)提高至65.32％，提高了4.68％。(2)在R@AN＝100-IoU曲线中，本发明所述方法在高IoU区表现优异，而且在IoU＝0.8时，只有实施例的平均召回率超过了0.5。

因此，这两个指标表明本发明所述方法进行动作提名不仅可以得到更高的召回率来接近真实值，而且本发明所述方法提取的动作片段与真实片段以更高的重叠率实现重叠。

在该实验例中，采用的现有公开的模型/方法可以参见以下文献：

(1)SPARSE参见“F.Caba Heilbron,J.Carlos Niebles,and B.Ghanem,“Fasttemporalactivity proposals for efficient detection of human actions inuntrimmed videos,”in Proceedings of the IEEE Conference on Computer VisionandPattern Recognition(CVPR),2016,pp.1914–1923.”。

(2)SCNN参见“Z.Shou,D.Wang,and S.-F.Chang,“Temporal actionlocalization in untrimmed videos via multi-stage cnns,”in Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition(CVPR),2016,pp.1049–1058.”。

(3)DAPs参见“V.Escorcia,F.C.Heilbron,J.C.Niebles,and B.Ghanem,“Daps:Deep action proposals for action understanding,”in Proceedings of theEuropean Conference on Computer Vision(ECCV),2016,pp.768–784.”。

(4)SST参见“S.Buch,V.Escorcia,C.Shen,B.Ghanem,and J.C.Niebles,“SST:Single-Stream Temporal Action Proposals,”in Proceedings of the IEEEConference on Computer Vision and Pattern Recognition(CVPR),2017,pp.6373–6382.”。

(5)TURN参见“J.Gao,Z.Yang,C.Sun,K.Chen,and R.Nevatia,“TURN TAP:Temporal Unit Regression Network for Temporal Action Proposals,”inProceedings of the IEEE International Conference on Computer Vision(ICCV),2017.”。

(6)TAL-Net参见“Y.-W.Chao,S.Vijayanarasimhan,B.Seybold,D.A.Ross,J.Deng,and R.Sukthankar,“Rethinking the Faster R-CNN Architecture forTemporal Action Localization,”in Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition(CVPR),2018,pp.1130–1139.”。

(7)CTAP参见“J.Gao,K.Chen,and R.Nevatia,“CTAP:Complementary temporalaction proposal generation,”in Proceedings of the European Conference onComputer Vision(ECCV),2018,pp.1–16.”。

(8)BSN参见“T.Lin,X.Zhao,H.Su,C.Wang,and M.Yang,“Bsn:Boundarysensitive network for temporal action proposal generation,”in Proceedings ofthe European Conference on Computer Vision(ECCV),2018,pp.3–19.”。

以上结合了优选的实施方式对本发明进行了说明，不过这些实施方式仅是范例性的，仅起到说明性的作用。在此基础上，可以对本发明进行多种替换和改进，这些均落入本发明的保护范围内。

Claims

1.基于视觉感知与人工智能的动作提名方法，所述方法包括以下步骤：

步骤1、利用I3D网络提取视频的双流特征向量；

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求2所述的方法，其特征在于，

在所述残差卷积模块中，设定卷积的步长为1，第i层神经元的感受野尺寸如式(1)所示：

和/或

4.根据权利要求3所述的方法，其特征在于，

L＝L_start+L_end+βL_action 式(3)，

5.根据权利要求1至4之一所述的方法，其特征在于，步骤3包括以下子步骤：

步骤3-3、对动作边界进行组合，得到待选动作提名片段。

6.根据权利要求5所述的方法，其特征在于，

和/或

7.根据权利要求6所述的方法，其特征在于，

8.根据权利要求1至7之一所述的方法，其特征在于，在步骤4中，所述联合概率动作密度排序进行如式(5)所示处理：

9.根据权利要求8所述的方法，其特征在于，如式(5-1)所示：

10.根据权利要求9所述的方法，其中，在联合概率动作密度排序之后，利用非极大值抑制(NMS)对时间有重复的动作片段进行处理，筛选出其中d_c值最大的片段，即有效动作提名片段。