CN113486784A

CN113486784A - 一种双阶段的时序动作检测方法、装置、设备和介质

Info

Publication number: CN113486784A
Application number: CN202110753604.3A
Authority: CN
Inventors: 王田; 李泽贤; 吕金虎; 刘克新; 张宝昌
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-10-08
Anticipated expiration: 2041-07-02
Also published as: CN113486784B

Abstract

本发明公开了一种双阶段的时序动作检测方法、装置、设备和介质，所述方法包括获取视频信息特征；根据视频信息特征，找到潜在的动作开始、结束时刻；将开始时刻和结束时刻组合成候选框；校准候选框边界，对候选框的内容进行判断，获得动作类别。本发明公开的双阶段的时序动作检测方法、装置、设备和介质，具有识别精度高、识别稳定性好、鲁棒性能好等诸多优点。

Description

一种双阶段的时序动作检测方法、装置、设备和介质

技术领域

本发明涉及一种时序动作检测方法，属于图像识别检测技术领域。

背景技术

视频中动作检测是图像理解中一个重要的分支。

现有的动作检测方法，存在着识别精度低，对动作起始、结束位置判断准确率低，对待检测视频长度有特殊要求等种种弊端。

由于上述原因，本发明人对现有的视频中动作检测方法进行了深入研究，提出了一种双阶段的时序动作检测方法。

发明内容

为了克服上述问题，本发明人进行了深入研究，设计出一种双阶段的时序动作检测方法，包括以下步骤：

S1、获取视频信息特征；

S2、根据视频信息特征，提取候选边界，由候选边界组合获得候选框；

S3、校正候选框边界，判断视频中动作。

进一步地，在步骤S2中，所述提取候选边界包括以下子步骤：

S21、将视频信息特征转化为得分曲线；

S23、获取得分曲线中潜在开始时刻、潜在结束时刻，组合获得候选框；

在步骤S21中，通过生成器网络将视频信息特征转化为得分曲线，所述得分曲线为视频中动作状态的概率随着视频时间变化的曲线。

优选地，所述生成器网络包括空洞卷积模块，视频信息特征输入空洞卷积模块后，将处理结果与视频信息特征一同依次通过第一激活函数、线性层、第二激活函数后输出，获得得分曲线，

所述空洞卷积模块具有空洞卷积，视频信息特征或数据输入空洞卷积处理后，处理结果依次通过第三激活函数并归一化后作为空洞卷积模块的输出，优选地，所述第一激活函数和第三激活函数相同。

优选地，在步骤S21和步骤S23之间，还设置有步骤S22、提升得分曲线稳定性；

通过将获得的每组中多条得分曲线融合为一条，获得三条融合得分曲线，达到提升稳定性的作用。

优选地，在步骤S23中，通过以下方式获取候选边界：

S231、将得分大于阈值的片段时刻以及得分为局部最大值的片段时刻作为潜在开始时刻和潜在结束时刻；

S232、组合潜在开始时刻和潜在结束时刻，二者及二者之间的视频片段信息特征即为获得的候选框。

优选地，在步骤S23之后，还具有步骤S24、时序片段池化，将候选框特征由不定长度转化为固定长度。

优选地，在步骤S3中，通过候选框评估模块和实例评估模块对候选框特征进行边界回归的校正和动作分类，具体地，所述候选框评估模块进行二分类任务，将明显不是正样本的视频信息特征过滤掉；

所述实例评估模块进行多分类任务，输出视频信息特征的特定类别。

另一方面，本发明还提供了一种双阶段的时序动作检测装置，包括视频信息特征提取单元、候选边界提取单元和视频动作判定单元，

所述视频信息特征提取单元将视频裁剪成多个片段，提取视频信息特征；

所述候选边界提取单元将视频信息特征转化为得分曲线；

所述视频动作判定单元获得候选边界的回归值，根据回归值对候选边界进行校正，并判断候选框中对应动作。

此外，本发明还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的方法。

此外，本发明还提供了一种存储有计算机指令的计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述的方法。

本发明所具有的有益效果包括：

(1)识别精度远高于传统的动作检测方法；

(2)识别稳定性高，鲁棒性好；

(3)可处理任意长度的视频。

附图说明

图1示出根据本发明一种优选实施方式的双阶段的时序动作检测方法流程图；

图2示出视频中背景动作交替出现示意图；

图3示出根据本发明一种优选实施方式的双阶段的时序动作检测方法中得分曲线示意图；

图4示出根据本发明一种优选实施方式的双阶段的时序动作检测方法中生成器网络结构示意图；

图5示出根据本发明一种优选实施方式的双阶段的时序动作检测方法中空洞卷积模块结构示意图；

图6示出根据本发明一种优选实施方式的双阶段的时序动作检测方法中时序片段池化过程示意图；

图7示出根据本发明一种优选实施方式的双阶段的时序动作检测方法中选边界评估模块结构示意图。

具体实施方式

下面通过附图和实施例对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

根据本发明提供的双阶段的时序动作检测方法，如图1所示，包括以下步骤：

S1、获取视频信息特征；

S3、校正候选框边界，判断视频中动作。

在步骤S1中，将视频裁剪成多个片段，通过3D动作识别模型提取视频信息特征。

进一步地，片段的总各数表示为N，不同的片段表示为n，n∈[1,N]。

在本发明中，对所述3D动作识别模型的具体结构不做特别限制，可以是任意一种能够提取视频信息特征的模型，例如采用文章Quo Vadis,Action Recognition？A NewModel and the Kinetics Dataset中介绍的I3D模型。

优选地，将视频按照时间先后顺序裁剪为长度相同的N段片段。

在一个优选的实施方式中，提取所有片段的RGB流和光流，将RGB流和光流分别输入3D动作识别模型提取获得RGB特征和光流特征，然后融合RGB特征和光流特征，获得表征整个视频信息的特征。

在本发明中，具体的融合方法为本领域技术人员常用手段，在本发明中不做赘述，例如本领域技术人员可参考文献Quo Vadis,Action Recognition？A New Model and theKinetics Dataset进行融合。

在步骤S2中，所述候选边界用于表征该片段视频信息特征是否为动作开始或动作结束。

视频中并不是一直包含有动作，通常视频中有大量的背景部分，如图2所示，在检测动作前，需要先将背景部分和动作部分区分开，即确定候选边界，组合候选边界即可得到动作候选框。

传统的边界提取多基于预设特定长度候选框和滑窗获得，此种方法受限于感受野和锚框尺寸，不能很好地进行边界的提取，在本发明中，不同于传统的候选边界的提取，所述提取候选边界包括以下子步骤：

S21、将视频信息特征转化为得分曲线；

S23、获取得分曲线中潜在开始时刻、潜在结束时刻，组合获得候选框。

在一个优选的实施方式中，在步骤S21和步骤S23之间，还具有步骤S22、提升得分曲线稳定性。

在步骤S21中，通过生成器网络将视频信息特征转化为得分曲线。

进一步地，所述得分曲线包括三组，即动作开始曲线，动作进行曲线和动作结束曲线，分别用于衡量动作的开始、动作的进行和动作的结束，每组包括X个得分曲线，表示为S_i[x][n],其中，i∈[1,2,3]分别表示动作开始曲线组，动作进行曲线组和动作结束曲线组，x∈[1,X]表示不同的得分曲线，n∈[1,N]表示不同的片段。

所述得分曲线为视频中动作状态的概率随着视频时间变化的曲线，曲线的横轴表示视频时间，纵轴表示动作状态的概率。

进一步地，所述生成器网络设置有三个通道，每个通道输出一组得分曲线。

进一步优选地，所述生成器网络包括空洞卷积模块，视频信息特征输入空洞卷积模块后，将处理结果与视频信息特征一同依次通过第一激活函数、线性层、第二激活函数后输出，即可获得三组得分曲线，如图4所示。

优选地，所述第一激活函数为ReLU函数，所述第二激活函数为Sigmoid函数。

所述线性层为神经网络中常用的一种结构，在本申请中不做赘述，本领域技术人员可根据实际需要进行设计。

所述空洞卷积模块可以为一个或多个，当空洞卷积模块为多个时，第一个空洞卷积模块的输入为视频信息特征，其输出数据作为第二个空洞卷积模块的输入，依次类推。

在一个优选的实施方式中，所述空洞卷积模块结构如图5所示，视频信息特征或数据输入空洞卷积处理后，将处理结果依次通过第三激活函数并归一化后输出。

优选地，所述第一激活函数和第三激活函数相同。

空洞卷积是广泛应用于语义分割与目标检测任务中的一种神经网络，相比于传统的CNN网络，其能够有效的扩大感受野。

进一步地，在本发明中，所述空洞卷积的卷积核为3，空洞比例为2。

发明人通过大量实验发现该参数为最优参数，卷积核与空洞比例越大，感受野越大，在本发明中，虽然希望有较大的感受野，但感受野太大会可能会引入其他动作的噪声，感受野太小可能不能很好地覆盖全动作，该参数能够很好的兼顾感受野和噪声的影响。

优选地，所述第三激活函数为ReLU，所述归一化为Batch Normalization，一种常用的归一化处理方法。

优选地，所述空洞卷积模块中采用Dropout策略，以防止模型出现过拟合。

Droupout是2012年，Hinton在论文《Improving neural networks by preventingco-adaptation of feature detectors》中提出的一种防止过拟合方法。

该空洞卷积模块经过训练后，能够有效的将视频信息特征转化为得分曲线。

发明人发现，虽然空洞卷积模型转化的得分曲线准确率已经较高，但是单组的得分曲线常常有很多的噪声，这些噪声可能对最终的结果产生不利影响。

为有效过滤噪声，在本发明中，在步骤S21和步骤S23之间，还设置有步骤S22、提升得分曲线稳定性。

在步骤S22中，通过得分融合策略将获得的每组中X条得分曲线S_i[x][n]融合为一条曲线，获得三条融合得分曲线，从而达到提升稳定性的作用，如图3所示。

在本发明中，通过将一组得分曲线融合为一条融合得分曲线，能够有效降低神经网络输出的噪声，仅使用很小的计算量即可获得很大的性能提升。

具体地，在步骤S22中，所述得分融合策略的输入为每组曲线中的得分S_i[x][n]，j∈[1，2，3]，x∈[1，X]，n∈[1，N]，得分融合策略的输出为每组曲线的平均得分S_ia和最大得分S_im。

进一步地，不同组曲线融合获得平均得分S_ia过程中，各片段时刻S_ia[n]的获取过程可以表示为：

k＝∑ε_n

不同组曲线融合获得最大得分S_im的过程中，各片段时刻S_im[n]的获取过程可以表示为：

其中，t表示得分阈值，为一预设常数，一般选择0.5～0.7。

其中，R表示感受野，感受野与空洞卷积模块数量及其参数有关，可以表示为：

R＝[1+w(q-1)p]*m-1

m表示空洞卷积模块的数量，w表示模块中空洞卷积的数量，q表示卷积核尺寸，p表示空洞比例。

在步骤S23中，通过以下方式获取候选边界。

S231、获得得分大于阈值的片段时刻以及得分为局部最大值的片段时刻作为潜在开始时刻和潜在结束时刻；

通过将得分与阈值比较，从而将动作的片段筛选出来，阈值的具体大小本领域技术人员可根据经验进行选择，优选为0.5～0.7，例如0.6。

所述局部最大值的片段是指该片段得分高于前一时刻片段和后一时刻片段。

进一步地，当潜在开始时刻和潜在结束时刻有多个时，在组合时，将每一个潜在开始时刻与该时刻之后的潜在结束时刻进行组合，获得所有可能的候选框。

在一个优选的实施方式中，在步骤S23之后，还具有步骤S24、时序片段池化，将候选框特征由不定长度转化为固定长度。

发明人发现，获得的候选框的长度是不定的，不定长度的特征不利于后续的检测。

在本发明中，通过将候选框的特征池化获得固定长度的特征。

具体地，包括以下步骤。

S241、扩展候选框，获得扩展特征；

优选地，将候选框扩大一倍；具体地，通过将候选边界前后移动，使得候选框扩大。

更优选地，将候选框均匀扩大一倍，即候选边界前移和后移的距离相同，例如，原候选框的开始时刻和结束时刻，即候选边界为10s和18s，将候选边界前后移动到6s和22s位置，使得候选框扩大一倍。

在本发明中，通过拓展候选框，使得动作在视频中前后文信息同样能够被关注到。

S242、池化扩展特征，获得结构特征；

所述结构特征，通过将扩展特征分为k份，采样每份中的特征，组合而成。

优选地，将拓展特征平均分为k份，k为大于3的正整数。

优选地，从分成的k份中，每份随机采集一个点，该点处的特征由其相邻的两个时刻的特征通过线性插值获得，共获得k个特征，如图6所示。

进一步地，在获得的k个特征前增加候选框的第一个特征，在获得的k个特征后增加候选框的最后一个特征，获得k+2个特征，即为长度为k+2的结构特征。

通过该方式，在尽可能维持数据的信息基础上，在建模动作时序长短的同时，将任意长度的候选框特征转换为固定长度的特征。

传统的视频中动作判断通常是直接对候选框的特征进行分类获得，然而此种方法准确率有所不足。

在步骤S3中，通过候选框评估模块和实例评估模块对候选框特征进行边界回归的校正和动作分类。

所述候选框评估模块进行二分类任务，将明显不是正样本的视频信息特征过滤掉；

所述正样本是指包含动作的样本。

具体地，所述候选框评估模块的输入为候选框特征，输出包括二分类的得分S_fore，当S_fore大于过滤阈值时，保留该得分对应的候选框，当S_fore小于等于过滤阈值时，将该候选框删除。

所述实例评估模块进行多分类任务，输出视频信息特征在W个类别中的特定类别；所述W个类别是指训练数据集上所有动作的个数及类别。

具体地，所述实例评估模块的输入为候选框特征，输出为多分类的得分S_multi。

进一步地，所述候选框评估模块和实例评估模块并联，两个模型输出的平均值或乘机作为候选边界的回归值。

候选边界的回归的校正还包括对该候选框得分曲线的综合得分的检测，所述得分曲线的综合得分S_p为：

S_p＝S_p，s·S_p，e·S_p，o

S_p，s表示动作开始时刻在开始曲线中的分数，S_p，e表示动作结束时刻在结束曲线中的分数，S_p，o表示动作进行过程中，在进行曲线的平均值。

不同的动作类型对应不同的综合得分，根据综合得分，通过查表即可获得该候选框对应的动作类型。

更优选地，所述候选边界的回归值表示为：

S_final＝S_fore＊S_multi＊S_p

通过回归值对候选框进行校正，获得更为准确的候选框，具体地，将回归值与校正前候选框长度的乘机与校正前候选框叠加，即可获得校正后的候选框，例如回归值为(-0.1，0.4)，校正前候选框为(10s，30s)，则校正前候选框长度为20s，校正后候选框为(8s，38s)。

根据本发明一个优选的实施方式，所述候选边界评估模块包括至少三个卷积层，其结构如图7所示，其中两个卷积层串联后与另一个卷积层并联，并联后的结果经过激活函数ReLu传递至一个线性层，通过线性层输出最终的结果。

进一步地，每个卷积层的输出都经过归一化处理，串联的两个卷积层之间通过激活函数ReLU连接。

根据本发明，所述候选框评估模块的输出为2个offset数值和一个二分类概率值。

进一步优选地，所述实例评估模块与所述候选框评估模块的网络结构相同，仅输出尺度不同，实例评估模块的输出为2个offset数值和训练集中W个动作分类的概率值。

根据本发明，在训练神经网络的过程中，候选框评估模块与实例评估模块分别训练，使得其不共享参数。

进一步地，在训练时，所述候选框评估模块的损失函数L_PEM为：

L_PEM＝L_fore+L_offset1

其中，L_fore表示前景部分的损失，优选为交叉熵损失函数，L_offset1表示候选框评估模块边界回归的损失，优选为MSE损失函数；

所述实例评估模块的损失函数L_IEM为：

L_IEM＝L_multi+L_offset2

其中，L_multi表示多分类损失，优选为交叉熵损失函数，L_offset2表示实例评估模块边界回归的损失，优选为MSE损失函数。

另一方面，本发明还提供了一种用于双节段的时序动作检测装置，包括视频信息特征提取单元、候选边界提取单元和视频动作判定单元。

所述视频信息特征提取单元将视频裁剪成多个片段，提取视频信息特征。

优选地，所述视频信息特征提取单元中设置有3D动作识别模型，通过3D动作识别模型提取视频片段的RGB特征和光流特征，然后融合RGB特征和光流特征，获得表征整个视频信息的特征。

所述候选边界提取单元包括生成器网络子单元，用于将视频信息特征转化为得分曲线，所述得分曲线包括动作开始曲线，动作进行曲线和动作结束曲线。

进一步地，所述生成器网络子单元中设置有空洞卷积模块和线性层，空洞卷积模块与线性层之间通过第一激活函数连接，线性层后通过第二激活函数输出。

所述空洞卷积模块中设置有空洞卷积网络，优选地，所述空洞卷积网络的卷积核为3，空洞比例为2。

优选地，空洞卷积模块中的空洞卷积网络的结果依次通过第三激活函数并归一化后输出。

优选地，所述第一激活函数为ReLU函数，所述第二激活函数为Sigmoid函数，所述第三激活函数为ReLU。

优选地，所述候选边界提取单元还包括得分曲线融合子单元，其按照步骤S22中的方法将三组得分曲线融合为一组。

所述候选边界提取单元还包括边界判定子单元，根据得分曲线判定候选边界。优选地，按照步骤S23中的方法判定候选边界。

进一步地，候选边界提取单元还能够将候选边界组合成候选框。

优选地，所述候选边界提取单元还包括时序片段池化子模块，将候选框特征由不定长度转化为固定长度。

优选地，将候选框均匀扩大一倍后平均分为k份，从分成的k份中，每份随机采集一个点，该点处的特征由其相邻的两个时刻的特征通过线性插值获得，共获得k个特征，在获得的k个特征前增加候选框的第一个特征，在获得的k个特征后增加候选框的最后一个特征，获得k+2个特征的候选框特征。

所述视频动作判定单元包括得分曲线综合模块、候选框评估模块和实例评估模块。

所述得分曲线的综合得分S_p为：

S_p＝S_p，s·S_p，e·S_p，o

根据综合得分，通过查表即可获得该候选框对应的动作类型。

所述候选框评估模块的输入为候选框特征，输出包括二分类的得分S_fore，当S_fore大于过滤阈值时，保留该得分对应的候选框，当S_fore小于等于过滤阈值时，将该候选框删除，

所述实例评估模块的输入为候选框特征，输出为多分类的得分S_multi。

所述视频动作判定单元根据分曲线综合模块、候选边界评估模块和实例评估模块的结果获得候选边界的回归值，根据回归值对候选边界进行校正，所述候选边界的回归值为：

S_final＝S_fore＊S_multi＊S_p

进一步地，所述候选边界评估模块包括至少三个卷积层，其中两个卷积层串联后与另一个卷积层并联，并联后的结果经过激活函数ReLu传递至一个线性层，通过线性层输出最终的结果，每个卷积层的输出都经过归一化处理，串联的两个卷积层之间通过激活函数ReLU连接。

优选地，所述实例评估模块与所述候选边界评估模块的网络结构相同，仅输出尺度不同。

本发明中以上描述的方法和装置的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的方法和装置，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的方法和装置实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明公开的技术方案所期望的结果，本文在此不进行限制。

实施例

实施例1

在公开数据集THUMOS-14和ActivityNet-1.3上进行双阶段的时序动作检测，按照以下步骤进行：

S1、获取视频信息特征

S3、校正候选框边界，判断视频中动作。

在步骤S1中，将视频按照时间先后顺序裁剪为长度相同的N段片段，提取所有片段的RGB流和光流，将RGB流和光流分别输入3D动作识别模型提取获得RGB特征和光流特征，然后融合RGB特征和光流特征，获得表征整个视频信息的特征，其中，N段片段中每一段片段为16帧。

步骤S2中包括以下子步骤：

S21、将视频信息特征转化为得分曲线；

S22、提升得分曲线稳定性；

S24、时序片段池化，将候选框特征由不定长度转化为固定长度。

在步骤S21中，生成器网络包括空洞卷积模块，视频信息特征输入空洞卷积模块后，将处理结果与视频信息特征一同依次通过第一激活函数、线性层、第二激活函数后输出获得得分曲线，其中第一激活函数为ReLU函数，所述第二激活函数为Sigmoid函数，空洞卷积模块有两个，空洞卷积的卷积核为3，空洞比例为2，空洞卷积模块中采用Dropout策略。

在步骤S22中，不同组曲线融合获得平均得分S_ia过程中，各片段时刻S_ia[n]的获取过程可以表示为：

k＝∑ε_n

其中，t表示得分阈值，为常数0.6，R表示感受野，

R＝[1+w(q-1)p]*m-1＝[1+2(3-1)*2]*2-1＝17

在步骤S24中，将候选框均匀扩大一倍后平均分为k份，从分成的k份中，每份随机采集一个点，该点处的特征由其相邻的两个时刻的特征通过线性插值获得，共获得k个特征，在获得的k个特征前增加候选框的第一个特征，在获得的k个特征后增加候选框的最后一个特征，获得k+2个特征的候选框特征。

得分曲线的综合得分S_p为：

S_p＝S_p，s·S_p，e·S_p，o

所述候选框评估模块的输入为候选框特征，输出包括二分类的得分S_fore，当S_fore大于过滤阈值时，保留该得分对应的候选边界，当S_fore小于等于过滤阈值时，将该候选边界删除，所述过滤阈值为0.5。

所述候选边界的回归值表示为：

S_final＝S_fore＊S_multi＊S_p

进一步地，所述候选框评估模块包括至少三个卷积层，其中两个卷积层串联后与另一个卷积层并联，并联后的结果经过激活函数ReLu传递至一个线性层，通过线性层输出最终的结果，每个卷积层的输出都经过归一化处理，串联的两个卷积层之间通过激活函数ReLU连接，所述候选边界评估模块的输出为2个offset数值和一个二分类概率值

所述实例评估模块与所述候选边界评估模块的网络结构相同，仅输出尺度不同，实例评估模块的输出为2个offset数值和训练集中W个动作分类的概率值。

在训练神经网络的过程中，候选框评估模块与实例评估模块分别训练，在训练时，所述候选框评估模块的损失函数L_PEM为：

L_PEM＝L_fore+L_offset1

其中，L_fore为交叉熵损失函数，L_offset1为MSE损失函数；

所述实例评估模块的损失函数L_IEM为：

L_IEM＝L_multi+L_offset2

其中，L_multi为交叉熵损失函数，L_offset2为MSE损失函数。

对比例1

进行与实施例1中相同的实验，区别在于，采用论文Huijuan Xu，Abir Das，andKate Saenko.2017.R-c3d：Region convolutional 3dnetwork for temporal activitydetection.In Proceedings of the IEEE internationalconference on computervision.5783-5792.中的TAG网络进行。

对比例2

进行与实施例1中相同的实验，区别在于，采用论文Jiyang Gao，Zhenheng Yang，Kan Chen，Chen Sun，and Ram Nevatia.2017.Turntap：Temporal unit regressionnetwork for temporal action proposals.In Proceedingsof the IEEE internationalconference on computer vision.3628-3636.中的TURN网络进行。

对比例3

进行与实施例1中相同的实验，区别在于，采用论文Jiyang Gao，Kan Chen，andRam Nevatia.2018.Ctap：Complementary temporalaction proposal generation.InProceedings of the European conference on computervision(ECCV).68-83.中的CTAP网络进行。

对比例4

进行与实施例1中相同的实验，区别在于，采用论文Tianwei Lin，Xu Zhao，Haisheng Su，Chongjing Wang，and Ming Yang.2018.Bsn：Boundary sensitive networkfor temporal action proposal generation.InProceedings of the EuropeanConference on Computer Vision(ECCV).3-19.中的BSN网络进行。

对比例5

进行与实施例1中相同的实验，区别在于，采用论文Tianwei Lin，Xiao Liu，XinLi，Errui Ding，and Shilei Wen.2019.Bmn：Boundarymatchingnetwork for temporalaction proposal generation.In Proceedings of the IEEE/CVF InternationalConference on Computer Vision.3889-3898.中的BMN网络进行。

对比例6

进行与实施例1中相同的实验，区别在于，采用论文Yuan Liu，Lin Ma，YifengZhang，Wei Liu，and Shih-Fu Chang.2019.Multigranularitygenerator for temporalaction proposal.In Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition.3604-3613.中的MGG网络进行。

对比例7

进行与实施例1中相同的实验，区别在于，采用论文Chuming Lin，Jian Li，YabiaoWang，Ying Tai，Donghao Luo，Zhipeng Cui，Chengjie Wang，Jilin Li，Feiyue Huang，andRongrong Ji.2020.Fast learning of temporal action proposal via dense boundarygenerator.In Proceedings of the AAAI Conference on Artificial Intelligence，Vol.34.11499-11506.中的DBG网络进行。

对比例8

进行与实施例1中相同的实验，区别在于，采用论文Guoqiang Gong，LiangfengZheng，and Yadong Mu.2020.Scale matters：Temporal scale aggregation network forprecise action 1ocalization in untrimmed videos.In 2020 IEEE InternationalConference on Multimedia and Expo(ICME).IEEE，1-6.中的TSA网络进行。

对比例9

进行与实施例1中相同的实验，区别在于，采用论文Yueran Bai，Yingying Wang，Yunhai Tong，Yang Yang，Qiyue Liu，and Junhui Liu.2020.Boundary content graphneural network for temporal action proposal generation.In European Conferenceon Computer Vision.Springer，121-137.中的BC-GNN网络进行。

对比例10

进行与实施例1中相同的实验，区别在于，采用论文Zheng Shou，Dongang Wang，and Shih-Fu Chang.2016.Temporal action localization in untrimmed videos viamulti。stage cnns.In Proceedings of the IEEE conference on computer vision andpattern recognition.1049-1058.中的S-CNN网络进行。

对比例11

进行与实施例1中相同的实验，区别在于，采用论文Shyamal Buch，VictorEscorcia，Chuanqi Shen，Bernard Ghanem，andJuan Carlos Niebles.2017.Sst：Single-stream temporal action proposals.In Proceedings of the IEEE conference onComputer Vision and Pattern Recognition.2911-2920.中的SST网络进行。

对比例12

进行与实施例1中相同的实验，区别在于，采用论文Zheng Shou，Jonathan Chan，Alireza Zareian，Kazuyuki Miyazawa，and Shih-Fu Chang.2017.Cdc：Convolutional-de-convolutional networks for precise temporal action localization inuntrimmed videos.In Proceedings of the IEEE conference on computer vision andpattern recognition.5734-5743.中的CDC网络进行。

对比例13

进行与实施例1中相同的实验，区别在于，采用论文Tianwei Lin，Xu Zhao，andZheng Shou.2017.Single shot temporal action detection.In Proceedings of the25th ACMinternational conference on Multimedia.988996.中的SSAD网络进行。

对比例14

进行与实施例1中相同的实验，区别在于，采用论文Xiyang Dai，Bharat Singh，Guyue Zhang，Larry S Davis，and Yan Qiu Chen.2017.Temporal context network foractivity localization in videos.In Proceedings of the IEEE InternationalConference on Computer Vision.5793-5802.中的TCN网络进行。

对比例15

进行与实施例1中相同的实验，区别在于，采用论文Huijuan Xu，Abir Das，andKate Saenko.2017.R-c3d：Region convolutional 3d network for temporal activitydetection.In Proceedings of the IEEE international conference on computervision.5783-5792.中的R-C3D网络进行。

对比例16

进行与实施例1中相同的实验，区别在于，采用论文Yue Zhao，Yuanjun Xiong，Limin Wang，Zhirong Wu，Xiaoou Tang，and Dahua Lin.2017.Temporal actiondetection with structured segment networks.In Proceedings of the IEEEInternational Conference on Computer Vision.2914-2923.中的SSN网络进行。

对比例17

进行与实施例1中相同的实验，区别在于，采用论文Jiyang Gao，Zhenheng Yang，and Ram Nevatia.2017.Cascaded boundary regression for temporal actiondetection.arXiv preprint arXiv：1705.01180(2017).中的CBR网络进行。

对比例18

进行与实施例1中相同的实验，区别在于，采用论文Haonan Qiu，Yingbin Zheng，Hao Ye，Yao Lu，FengWang，and Liang He.2018.Precise temporal action localizationby evolving temporal proposals.In Proceedings of the 2018 ACM onInternational Conference on Multimedia Retrieval.388-396.中的ETP网络进行。

对比例19

进行与实施例1中相同的实验，区别在于，采用论文Mengmeng Xu，Chen Zhao，David S Rojas，Ali Thabet，and Bernard Ghanem.2020.G-tad：Sub-graph localizationfor temporal action detection.In Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition.10156-10165.中的G-TAD网络进行。

对比例20

进行与实施例1中相同的实验，区别在于，采用论文Fuchen Long，Ting Yao，Zhaofan Qiu，Xinmei Tian，Jiebo Luo，and Tao Mei.2019.Gaussian temporalawareness networks for action localization.In Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.344-353.中的G-TAN网络进行。

对比例21

进行与实施例1中相同的实验，区别在于，采用论文Runhao Zeng，Wenbing Huang，Mingkui Tan，Yu Rong，Peilin Zhao，Junzhou Huang，and Chuang Gan.2019.Graphconvolutional networks for temporal action localization.In Proceedings of theIEEE/CVF International Conference onComputer Vision.7094-7103.中的P-GCN网络进行。

对比例22

进行与实施例1中相同的实验，区别在于，采用论文Qinying Liu and ZileiWang.2020.Progressive boundary refinement network for temporal actiondetection.In Proceedings of the AAAI Conference on Artificial Intelligence，Vol.34.11612-11619.中的PBR-NET网络进行。

对比例23

进行与实施例1中相同的实验，区别在于，采用论文Yu-Wei Chao，SudheendraVijayanarasimhan，Bryan Seybold，David A Ross，Jia Deng，and RahulSukthankar.2018.Rethinking the faster r-cnn architecture for temporal actionlocalization.In Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.1130-1139.中的TAL-Net网络进行。

实验例

对比实施例1与不同对比例在THUMOS-14数据集中候选框生成结果，如表一所示

表一

其中，@50、@100、@200表示每段视频平均生成50、100、200个候选框时的平均召回率，平均召回率越高，则性能越好，从表一可以看出，本申请实施例1中的召回率明显高于其它方式的召回率。

对比实施例1与不同对比例在ActivityNet-1.3数据集中候选框生成结果，如表二所示。

表二

其中，AR@AN＝100表示每段视频平均生成100个候选框时的平均召回率，平均召回率越高，则性能越好。AUC为AR@AN＝100曲线与坐标轴围成的面积，其数值越大表明性能越优。从表一可以看出，本申请实施例1中的候选框生成性能较高。

对比实施例1与不同对比例在THUMOS-14数据集中整体动作检测结果，如表三所示。

表三

其中，tIoU代表交并比，是候选框和真实值的交集时序长度/并集时序长度，其值越高，对候选框的状态要求越准确。从表三可以看出，本申请实施例1在不同tIoU值下的召回更多更准，说明本申请实施例1中整体检测流程更精准。

以上结合了优选的实施方式对本发明进行了说明，不过这些实施方式仅是范例性的，仅起到说明性的作用。在此基础上，可以对本发明进行多种替换和改进，这些均落入本发明的保护范围内。

Claims

1.一种双阶段的时序动作检测方法，其特征在于，包括以下步骤：

S1、获取视频信息特征；

S3、校正候选框边界，判断视频中动作。

2.根据权利要求1所述的双阶段的时序动作检测方法，其特征在于，

在步骤S2中，所述提取候选边界包括以下子步骤：

S21、将视频信息特征转化为得分曲线；

3.根据权利要求2所述的双阶段的时序动作检测方法，其特征在于，

所述生成器网络包括空洞卷积模块，视频信息特征输入空洞卷积模块后，将处理结果与视频信息特征一同依次通过第一激活函数、线性层、第二激活函数后输出，获得得分曲线，

4.根据权利要求2所述的双阶段的时序动作检测方法，其特征在于，

在步骤S21和步骤S23之间，还设置有步骤S22、提升得分曲线稳定性；

5.根据权利要求2所述的双阶段的时序动作检测方法，其特征在于，

在步骤S23中，通过以下方式获取候选边界：

6.根据权利要求2所述的双阶段的时序动作检测方法，其特征在于，

在步骤S23之后，还具有步骤S24、时序片段池化，将候选框特征由不定长度转化为固定长度。

7.根据权利要求1所述的双阶段的时序动作检测方法，其特征在于，

在步骤S3中，通过候选框评估模块和实例评估模块对候选框特征进行边界回归的校正和动作分类，具体地，

8.一种双阶段的时序动作检测装置，其特征在于，包括视频信息特征提取单元、候选边界提取单元和视频动作判定单元，

所述候选边界提取单元将视频信息特征转化为得分曲线；

9.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

10.一种存储有计算机指令的计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。