CN113033500B

CN113033500B - 动作片段检测方法、模型训练方法及装置

Info

Publication number: CN113033500B
Application number: CN202110488341.8A
Authority: CN
Inventors: 沈复民; 徐行; 任燚梵; 邵杰; 申恒涛
Original assignee: Chengdu Koala Youran Technology Co ltd
Current assignee: Chengdu Koala Youran Technology Co ltd
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2021-12-03
Anticipated expiration: 2041-05-06
Also published as: CN113033500A

Abstract

本申请实施例涉及计算机视觉技术领域，提供一种动作片段检测方法、模型训练方法及装置，针对待检测视频，枚举待检测视频中所有的候选视频段，并获取待检测视频的视频特征和所有候选视频段的视频段特征图；然后，将视频特征和视频段特征图输入预先训练的动作检测模型，利用动作检测模型进行多尺度特征提取及预测，得到每个候选视频段的预测结果；最后，根据每个候选视频段的预测结果，从所有候选视频段中确定出动作片段，从而能够从长视频中自动剪辑出动作片段。

Description

动作片段检测方法、模型训练方法及装置

技术领域

本申请实施例涉及计算机视觉技术领域，具体而言，涉及一种动作片段检测方法、模型训练方法及装置。

背景技术

随着存储技术的飞速发展，视频已经成为当下最流行的信息传播载体。然而，对于大部分视频来说，人们往往更加关注的是视频中包含动作的片段，因此，需要人们从原始的长视频中手动剪辑出感兴趣的视频片段，这一过程非常耗费精力。因此，利用技术手段从长视频中自动剪辑出动作片段是非常有必要的。

发明内容

本申请实施例的目的在于提供一种动作片段检测方法、模型训练方法及装置，能够从长视频中自动剪辑出动作片段。

为了实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种动作片段检测方法，所述方法包括：

获取待检测视频的视频特征和所述待检测视频中所有候选视频段的视频段特征图；

将所述视频特征和所述视频段特征图输入动作检测模型，利用所述动作检测模型进行多尺度特征提取，得到所有候选视频段的融合特征图；

利用所述动作检测模型对所述融合特征图进行预测，得到每个所述候选视频段的预测结果；

根据每个所述候选视频段的预测结果，从所有候选视频段中确定动作片段。

第二方面，本申请实施例还提供了一种模型训练方法，所述方法包括：

获取训练样本及所述训练样本对应的标签，所述标签表征所述训练样本中的各个动作片段；

对所述训练样本进行预处理，得到所述训练样本的视频特征和所述训练样本中所有候选视频段的视频段特征图；

基于每个所述候选视频段的预测结果、所述标签和预设的损失函数对所述动作检测模型进行反向传播训练，得到训练后的动作检测模型。

第三方面，本申请实施例还提供了一种动作片段检测装置，所述装置包括：

第一获取模块，用于获取待检测视频的视频特征和所述待检测视频中所有候选视频段的视频段特征图；

第一处理模块，用于将所述视频特征和所述视频段特征图输入动作检测模型，利用所述动作检测模型进行多尺度特征提取，得到所有候选视频段的融合特征图；

第一预测模块，用于利用所述动作检测模型对所述融合特征图进行预测，得到每个所述候选视频段的预测结果；

动作片段确定模块，用于根据每个所述候选视频段的预测结果，从所有候选视频段中确定动作片段。

第四方面，本申请实施例还提供了一种模型训练装置，所述装置包括：

第二获取模块，用于获取训练样本及所述训练样本对应的标签，所述标签表征所述训练样本中的各个动作片段；

预处理模块，用于对所述训练样本进行预处理，得到所述训练样本的视频特征和所述训练样本中所有候选视频段的视频段特征图；

第二处理模块，用于将所述视频特征和所述视频段特征图输入动作检测模型，利用所述动作检测模型进行多尺度特征提取，得到所有候选视频段的融合特征图；

第二预测模块，用于利用所述动作检测模型对所述融合特征图进行预测，得到每个所述候选视频段的预测结果；

训练模块，用于基于每个所述候选视频段的预测结果、所述标签和预设的损失函数对所述动作检测模型进行反向传播训练，得到训练后的动作检测模型。

相对现有技术，本申请实施例提供的一种动作片段检测方法、模型训练方法及装置，针对待检测视频，枚举待检测视频中所有的候选视频段，并获取待检测视频的视频特征和所有候选视频段的视频段特征图；然后，将视频特征和视频段特征图输入预先训练的动作检测模型，利用动作检测模型进行多尺度特征提取及预测，得到每个候选视频段的预测结果；最后，根据每个候选视频段的预测结果，从所有候选视频段中确定出动作片段，从而能够从长视频中自动剪辑出动作片段。

附图说明

图1示出了本申请实施例提供的动作片段检测方法的应用场景示意图。

图2示出了本申请实施例提供的动作片段检测方法的流程示意图。

图3示出了本申请实施例提供的候选视频段的示例图。

图4示出了本申请实施例提供的一种模型示例图。

图5示出了本申请实施例提供的另一种模型示例图。

图6示出了本申请实施例提供的模型训练方法的流程示意图。

图7示出了本申请实施例提供的样本示意图。

图8示出了本申请实施例提供的动作片段检测装置的方框示意图。

图9示出了本申请实施例提供的模型训练装置的方框示意图。

图10示出了本申请实施例提供的电子设备的方框示意图。

图标：10-电子设备；11-处理器；12-存储器；13-总线；20-第一终端；30-第二终端；40-网络；50-服务器；100-动作片段检测装置；110-第一获取模块；120-第一处理模块；130-第一预测模块；140-动作片段确定模块；200-模型训练装置；210-第二获取模块；220-预处理模块；230-第二处理模块；240-第二预测模块；250-训练模块。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述。

请参照图1，图1示出了本申请实施例提供的动作片段检测方法的应用场景图，包括第一终端20、第二终端30、网络40及服务器50，第一终端20和第二终端30均通过网络40连接到服务器50。

第一终端20可以是视频制作者的移动终端，具有屏幕显示功能，例如，智能手机、笔记本电脑、平板电脑、台式计算机等。

服务器50可以是视频平台，其可以是单个服务器，也可以是服务器集群。网络40可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

第二终端30可以是平台用户的移动终端，该移动终端上可以安装有用于播放视频的应用程序，第二终端30可以是任何具有屏幕显示功能的移动终端，例如，智能手机、笔记本电脑、平板电脑、台式计算机、智能电视等。

在实际应用中，视频制作者可以通过第一终端20从原始视频中剪辑动作片段，并以动作片段为素材制作成短视频后上传至视频平台，平台用户可以通过第二终端30观看短视频。或者，视频平台可以从原始视频中剪辑动作片段，并作为素材提供给视频制作者使用。

显然，对于视频制作者或者视频平台来说，如果从原始视频中手动剪辑动作片段，需要耗费大量精力。因此，利用技术手段帮助视频作者或者视频平台自动地从原始视频中剪辑出动作片段，可以提高视频剪辑的效率。在这一背景下，时序动作检测任务应运而生。

对于时序动作检测方法，目前常用方法是：使用预先定义好大小的滑动窗口从原始视频中采集候选视频段，然后对这些候选视频段进行分类，得到最后的结果。但是，时序动作检测的准确度不高。

针对这一问题，本申请实施例通过预先训练的动作检测模型对待检测视频进行检测，不仅能够从原始视频中自动剪辑出动作片段，还能依据视频的上下文信息过滤掉无关的视频帧、以及从不同尺度捕获候选视频片段之间的关系，从而可以提高动作片段检测的准确性。

结合到图1，本申请实施例提供的动作片段检测方法可以应用于第一终端20，也可以应用于服务器50，具体可以根据实际应用场景确定，在此不作限制。

下面对本申请实施例提供的动作片段检测方法进行详细介绍。

在图1所示的应用场景示意图的基础上，请参照图2，图2示出了本申请实施例提供的动作片段检测方法的流程示意图，该动作片段检测方法可以包括以下步骤：

S101，获取待检测视频的视频特征和待检测视频中所有候选视频段的视频段特征图。

待检测视频可以是任何需要进行动作片段检测，以自动剪辑出动作片段的长视频。待检测视频可以是视频制作者自己拍摄的视频，例如，记录日常的视频等，也可以是视频制作者从网上下载的视频，例如，电影、电视剧、记录片等。候选视频段是对待检测视频进行枚举得到的，且包括开始时间和结束时间。

对于待检测视频，枚举该待检测视频中的全部视频片段，得到所有候选视频段。例如，请参照图3，待检测视频包括n个视频帧，则枚举其中第1帧~第2帧、第1帧~第3帧、……、第1帧~第n帧、第2帧~第3帧、第2帧~第4帧、……、第2帧~第n帧、……第n-1帧~第n帧的全部视频片段，得到所有候选视频片段。

候选视频段包括开始时间和结束时间，候选视频段可以用

表示，其中，

表示候选视频段的开始时间，

表示候选视频段的结束时间。例如，(1,5)表示从第1帧到第5帧的候选视频段。

视频特征是对待检测视频进行预处理得到的，视频特征二维数据。视频段特征图是对所有候选视频段进行处理得到的，视频段特征图是三维数据。

S102，将视频特征和视频段特征图输入动作检测模型，利用动作检测模型进行多尺度特征提取，得到所有候选视频段的融合特征图。

动作检测模型可以为每一个候选视频段生成动态卷积核，这些动态卷积核可以依据待检测视频的上下文信息过滤掉无关的视频帧。并且，为了增强候选视频段的特征表达，动作检测模型可以从不同的尺度来捕获候选视频片段之间的关系，从而学习到更加鲁棒的特征表达。

也就是，对于不同的候选视频段，现有的时序动作检测方法通常使用相同的模型参数进行处理，但是忽略了不同候选视频片段之间的差异。而本申请实施例提供的动态检测模型，可以依据候选视频段的内容和待检测视频的内容，为不同的候选视频段生成特定的动态卷积核，这些动态卷积核可以更加灵活的提取出视频中易区分的特征，从而利于后续预测。

S103，利用动作检测模型对融合特征图进行预测，得到每个候选视频段的预测结果。

候选视频段的预测结果可以包括：候选视频段中包含的动作及各个动作的预测分数、以及动作类别，例如，跳高(分数:0.64)、跳远(分数:0.44)、跳远(分数:0.84)等。

S104，根据每个候选视频段的预测结果，从所有候选视频段中确定动作片段。

通过S103得到每个候选视频段的预测结果之后，首先根据预测分数从所有候选视频段中确定出包含动作的候选视频片段，再对所有的候选视频段进行分类，确定出每个候选视频段的动作类别，例如，跳高、跳远等。这样，就能从所有候选视频段中确定出动作片段，动作片段即为包含动作的候选视频片段。并且，由于每个候选视频段都包括开始时间和结束时间，所以，动作片段包括包含动作的候选视频段的开始时间、结束时间及动作类别。

下面对步骤S101进行详细介绍，S101可以包括：

S1011，对待检测视频进行初步特征提取，得到初步视频特征。

请参照图4，可以使用TSN网络提取待检测视频中的特征，得到初步视频特征，初步视频特征可以表示为

。初步视频特征

可以是按照以下过程得到的：

按照设定时间间隔，从待检测视频中抽取多个视频帧；

将多个视频帧输入TSN模型中，利用TSN模型提取各个视频帧的视觉特征和动作特征并进行连接，得到初步视频特征。

其中，视觉特征是指视频帧在视觉上的特征，即，视频帧包含的空间信息。动作特征是指不同视频帧之间的动作信息，即，不同视频帧之间动作的变化。将视觉特征和动作特征进行连接，是指在维度上进行叠加，例如，视觉特征为100维、动作特征为100维，则连接后的特征为200维。

S1012，对初步视频特征进行特征增强，得到视频特征。

可以利用Backbone对初步视频特征

进行特征增强，得到视频特征，视频特征可以表示为

。

在一个实施方式中，请参照图4，也可以利用图卷积(GCN)对初步视频特征

进行特征增强，获得语义信息更丰富的视频特征

，其计算公式如下：

也就是，利用图卷积捕获待检测视频中各个视频帧的上下文关系，将多尺度的语义信息动态融合到初步视频特征中，得到视频特征。

例如，检测的动作是打羽毛球，该动作所在视频帧的前后信息也有助于动作的检测，例如，前后帧中有羽毛球场。所以可以通过捕捉各个视频帧的上下文关系，将语义信息融合到初步视频特征中，语义信息可以是视频帧中表达的信息，例如，打羽毛球、羽毛球场等。

同时，由于待检测视频是一个长视频，可能距离很远的两个视频帧之间也有联系，因此，为了避免忽略掉长距离信息，可以将多尺度的语义信息动态融合到初步视频特征中，这里的尺度指的就是两个视频帧间的帧数，例如，视频帧1、2、3、4，当前帧为3，则可以将1融合到3、将2融合到3。

S1013，对每个候选视频段进行特征提取，得到视频段特征图。

得到视频特征

后，视频特征

可以被两个分支网络共享，其中，分支网络1用于判别待检测视频中的每一个时序位置是否为一个开始节点或者结束节点，输出节点类别信息，但是分支网络1输出的信息仅用于对模型进行辅助训练。分支网络2用于对每个候选视频段进行特征提取，输出所有候选视频段的视频段特征图。视频段特征图可以表示为

，其每一个位置都代表一个候选视频段的特征。

下面对步骤S102进行详细介绍。

将视频特征

和视频段特征图

输入动作检测模型，不同的候选视频段可以依据视频内容自适应地生成动态卷积核，来动态地捕获所有候选视频段中的特征，从而可以在增强动作实例的特征的同时抑制背景信息，产生更准确和更完备的结果。

动作检测模型可以包括多个多尺度动态网络，多尺度动态网络即为图5中的MDM，因此，S102可以包括：

S1021，将视频特征和视频段特征图输入第一个多尺度动态网络进行多尺度特征提取，得到所有候选视频段的初步特征图。

S1022，将视频特征和第N-1个多尺度动态网络的输出作为第N个多尺度动态网络的输入，利用多尺度动态网络进行多尺度特征提取。

S1023，将最后一个多尺度动态网络的输出作为融合特征图。

仅仅利用一个MDM所获取的特征表达是有限的，所以动作检测模型包括多个MDM，下面以包括2个MDM为例进行说明。

首先，视频特征

和视频段特征图

输入到一个MDM中，MDM可以利用视频的全局信息动态地帮助每一个候选视频段产生更加鲁棒的特征表达，得到所有候选视频段的初步特征图，初步特征图可以表示为

。

然后，将上一步输出的

和视频特征

再输入到一个MDM中，得到最终的融合特征图，融合特征图同样表示为

。

多尺度动态网络包括多个多尺度动态单元，多尺度动态单元即为图5中的MDU，因此，S1021可以包括：

S10211，将视频特征和视频段特征图输入每个多尺度动态单元。

S10212，利用多尺度动态单元从目标尺度进行特征提取，得到目标尺度的特征表达，其中，一个多尺度动态单元对应一个尺度。

其中，目标尺度的特征表达可以是待使用膨胀率（dilation rate）为d的卷积核进行特征提取的信息。一个多尺度动态单元对应一个尺度，使用不同的d，可以从不同的尺度来捕获上下文信息。S10212可以包括：

对视频段特征图进行滑窗操作，得到取样特征图；

对视频特征进行平均池化，得到待检测视频的全局特征；

利用1×1卷积对全局特征进行卷积操作以减少通道数，得到待检测视频的全局信息；

将全局信息和视频段特征图进行融合，得到中间特征图；

利用中间特征图生成每个候选视频段的动态卷积核；

利用动态卷积核对取样特征图进行卷积操作，得到目标尺度的特征表达。

S10213，获得多个多尺度动态单元输出的多个尺度的特征表达。

S10214，将多个尺度的特征表达进行聚合，得到所有候选视频段的特征信息。

S10215，对特征信息进行1×1卷积操作后，与视频段特征图进行叠加，得到初步特征图。

结合到图5，对于视频特征

和视频段特征图

，视频特征是二维数据，视频段特征图是三维数据。

其中，视频段特征图的每一个位置都代表一个候选视频段的特征，

表示特征的维数，例如，500维；

表示候选视频段的持续时间，

表示候选视频段的开始时间。位置指的是

里的每一个位置，

里的每一个位置都有一个

维的特征，即，

的每一个位置都是一个候选视频段，而这个位置是一个

维的特征，代表候选视频段的特征。

将视频特征

和视频段特征图

输入到MDM后，处理过程包括：

首先，使用

函数视频段特征图进行滑窗操作，在

的每一个位置都抽取出待卷积的特征，并进行多尺度的卷积操作，得到取样特征图

，并将其维度改为

。其中，d表示进行滑窗操作时卷积核的膨胀率（dilation rate），使用不同的d，可以从不同的多个尺度来捕获上下文信息；

表示卷积核的大小，为了减少计算量，

可以设置为3。

然后，对视频特征

进行平均池化，得到待检测视频的全局特征；

接下来，利用1×1卷积对全局特征进行卷积操作以减少通道数，得到待检测视频的全局信息

。

接下来，为了使用全局信息来引导卷积核的生成过程，将待检测视频的全局信息和视频段特征图按照如下公式进行融合：

得到中间特征图

，其中，

表示视频段特征图中每个位置的索引，每个位置的信息都按照以上公式进行融合。

接下来，利用中间特征图

为每个候选视频段生成特定的动态卷积核，对应于膨胀率d的动态卷积核

的计算公式如下：

其中，

，为了便于计算，将动态卷积核

的维度也改为

。

接下来，利用动态卷积核

对取样特征图

按照如下公式进行卷积操作：

其中，

，

表示在第一个维度上的求和操作，第一个维度为

，使用卷积核为

（例如，3）的卷积操作来聚合当前位置和其相邻位置的特征。

如前文所述，可以通过改变MDU中的d获得任意尺度的上下文信息。因此，获得多个多尺度动态单元输出的多个尺度的特征表达之后，为了捕获多尺度的上下文信息，将多个尺度的特征表达通过如下公式进行聚合：

其中，

表示尺度

的特征表达，

表示聚合操作。

最后，利用1×1卷积融合通道信息，并与视频段特征图进行叠加，得到初步特征图

，计算公式如下：

动作检测模型输出融合特征图

之后，将融合特征图

通过一个基本的卷积操作，就能得到每个候选视频段的预测分数。

因此，动作检测模型还可以包括卷积层，S103可以包括：

S1031，利用卷积层对融合特征图进行卷积操作，得到每个候选视频段的预测结果。

可以使用1×1的卷积来预测每个候选视频段的预测结果，其公式如下：

其中，

表示预测结果，

是使用不同的监督方式计算出来的两种结果，

表示使用回归损失函数计算的结果，

表示使用分类损失函数计算的结果，

表示激活函数，

表示卷积。

动作检测模型输出每个候选视频段的预测结果之后，根据预测结果从所有候选视频段中确定动作片段，因此，S104可以包括：

S1041，根据每个候选视频段的预测结果，计算每个候选视频段的评判分数。

S1042，根据每个候选视频段的评判分数，获得包含动作的候选视频段。

S1043，对包含动作的候选视频段进行分类，得到包含动作的候选视频段的动作类别。

S1044，获得动作片段，其中，动作片段包括包含动作的候选视频段的开始时间、结束时间及动作类别。

动作检测模型输出

之后，对于一个

的候选视频段，其评判分数

的计算公式如下：

其中，

，

和

表示所述候选视频段的开始时间和结束时间。

获取到每个候选视频段的评判分数之后，由于大部分候选视频段会存在重叠，因此，需要利用Soft-NMS来对重复的候选视频段进行剔除，剔除过程为：

第一步，每个候选视频段的评判分数

，先按照其大小进行排序，选取评判分数最高的候选视频段，计算与其他视频段之间的重叠度（tIou）；

第二步，将高度重叠的候选视频段按照下述公式进行衰减：

其中，

表示高斯函数的参数，

表示预先定义的阈值；最终就能得到包含动作的候选视频段。

接下来，利用Unet分类器来对所有包含动作的候选视频段候选视频段进行分类，得到包含动作的候选视频段的动作类别。

最后，就能得到最终的动作片段，动作片段可以表示为：

其中，

表示动作类别，

表示预测动作实例的数量。

接下来对动作检测模型的训练过程进行详细介绍。

本申请实施例提供的模型训练方法可以应用于任何具有视频处理功能的电子设备，例如，服务器、移动终端、通用计算机或者特殊用途的计算机等。

请参照图6，图6示出了本申请实施例提供的模型训练方法的流程示意图，该模型训练方法可以包括以下步骤：

S201，获取训练样本及训练样本对应的标签，标签表征训练样本中的各个动作片段，包括动作片段的开始时间、结束时间和动作类别。

这里是以训练样本为例进行说明，其实训练过程采用的是合适的训练数据集。实际中可以选择合适的训练数据集和测试数据集进行训练和测试，例如，在公开的数据集ActivityNet-1.3和THUMOS-14上进行训练和测试，可以在训练数据集上训练模型，并在测试数据集上评估模型的性能。

ActivityNet-1.3数据集是一个用于生成视频段和检测的公开数据集，其主要包含19994个视频并且包含200个动作类别，这些视频主要是从youtube网站上爬取下来的，其分辨率和时间都各不相同。ActivityNet-1.3数据集曾经是ActivityNet Challenge 2016and 2017的比赛数据集，该数据集按照2:1:1的比例将所有视频划分为训练集、评估集和测试集。

THIMOS-14数据集包含413个视频并且包含20个类别信息。其中，测试集包含212个视频，验证集包含200个视频被用来时序动作检测任务。

训练样本为一个未处理的长视频，对于训练样本，提取出其对应的视频帧表示为

，其中，

表示总的视频帧数，

表示在视频中的第n帧。

训练样本的标签可以表示为：

其中，

表示训练样本中含有动作片段的数目，

、

和

分别表示第

个标签的开始时间、结束时间和动作类别。

S202，对训练样本进行预处理，得到训练样本的视频特征和训练样本中所有候选视频段的视频段特征图。

S203，将视频特征和视频段特征图输入动作检测模型，利用动作检测模型进行多尺度特征提取，得到所有候选视频段的融合特征图。

S204，利用动作检测模型对融合特征图进行预测，得到每个候选视频段的预测结果。

需要指出的是，步骤S202~S204的处理过程与步骤S101~ S103的处理过程类似，在此不再赘述。下面主要介绍步骤S202~S204和步骤S101~ S103的不同之处。

在模型训练中，得到视频特征

后，视频特征

不仅要输入分支网络2对每个候选视频段进行特征提取，输出所有候选视频段的视频段特征图。视频特征

还要输入分支网络1，判别待检测视频中的每一个时序位置是否为一个开始节点或者结束节点，输出节点类别信息。

开始节点和结束节点分别表示为

和

，其中，

表示训练样本的长度。

S205，基于每个候选视频段的预测结果、标签和预设的损失函数对动作检测模型进行反向传播训练，得到训练后的动作检测模型。

在本实施例中，损失函数为：

其中，

和

表示超参数，

表示目标损失函数，

表示辅助损失函数，

表示边缘抑制损失函数。

用于判断训练样本中每一个时间节点是否为开始节点或者结束节点，其可以表示为：

其中，

和

分别表示带权重的交叉熵损失函数，

和

分别表示训练样本中的预测开始节点和预测结束节点；

和

分别表示标签中的开始时间和结束时间。

只是一个辅助损失函数，其预测结果可以帮助模型快速收敛，在推理过程中，其预测结果是不会被考虑在内的。

是主要用来监督训练模型的损失函数，其计算公式如下：

其中，

表示超参数，

和

分别表示平方差损失函数和带权重的交叉熵损失函数；

和

表示预测结果，

表示使用回归损失函数计算的结果，

表示使用分类损失函数计算的结果；

表示标签结果，所述标签结果是基于标签中的开始时间、结束时间和动作类别计算得到的。

为了准确地判别每一个候选视频片段是否包含完整的动作实例，现有方法将有较高tIou 的视频片段看作正样本，而有较低tIou的视频片段视为负样本。然而，实际上，一些负样本也包含一些动作信息，例如，图7中所示的困难样本，这就使得现有方法很难对样本进行准确分类。

因此，为了更加准确的区分难以分类的困难样本，还使用边缘抑制损失函数

来监督模型，其计算公式为：

其中，

和

表示超参数，D表示候选视频段的持续时间，T表示候选视频段的开始时间，M表示掩模。

在上述公式中，可以通过计算M将所有较难分类的样本选择出来，然后利用增加额外的边缘抑制损失函数使模型更加关注它们。

为了很好地评价本申请实施例提供的动作检测模型的有效性，选取平均准确率（mean Average Precision，mAP)）作为主要的评价指标。在THUMOS-14数据集上，在tIou集合{0.3,0.4,0.5,0.6,0.7}上分别计算mAP，即，重叠度为0.3、0.4、0.5、0.6、0.7预测正确的分别算一个分数，然后计算这5个分数的平均值。对于ActivityNet1.3数据集，计算tIou集合上的mAP。此外，还在ActivityNet1.3上计算10个不同tIou的平均mAP。

在当前主流的数据集ActivityNet-1.3上进行验证，其最后的验证结果如表1所示。

表1 在ActivityNet-1.3数据集上模型性能对比（%）

模型	0.5	0.75	0.95	average
					SCC	40.00	17.90	4.70	21.70
CDC	45.30	26.00	0.20	23.80
					BSN	46.45	29.96	8.02	30.03
TAL-Net	38.23	18.30	1.30	20.22
					BMN	50.07	34.78	8.29	33.85
DBG	42.59	26.24	6.56	29.72
					G-TAD	50.36	34.60	9.02	34.09
TSI	51.18	35.02	6.59	34.15
					BC-GNN	50.56	34.75	9.37	34.26
BU-TAL	43.47	33.91	9.21	30.12
					本申请	51.48	35.77	8.18	34.70

同时，在当前主流的数据集THUMOS-14上进行验证，其最后的验证结果如表2所示。

表2 在THUMOS-14数据集上模型性能对比（%）

模型	0.3	0.4	0.5	0.6	0.7
						CDC	40.1	29.4	23.3	13.1	7.9
BSN	53.5	45.0	36.9	28.4	20.0
						MGG	53.9	46.8	37.4	29.5	21.3
TAL-Net	53.9	48.5	42.8	33.8	20.8
						BMN	56.0	47.4	38.8	29.7	21.3
DBG	57.8	49.4	39.8	30.2	21.7
						G-TAD	54.5	47.6	40.2	30.8	23.4
TSI	61.0	52.1	42.6	33.2	22.4
						BC-GNN	57.1	49.1	40.4	31.2	23.1
BU-TAL	53.9	50.7	45.4	38.0	28.5
						本申请	61.2	55.7	48.0	38.2	27.6

从表1和表2都能明显看出，本申请提供的动作检测模型在各种评价指标下均显著优于现有的其它模型。

请参照图8，图8示出了本申请实施例提供的动作片段检测装置100的方框示意图。动作片段检测装置100应用于移动终端或者服务器，包括：第一获取模块110、第一处理模块120、第一预测模块130及动作片段确定模块140。

第一获取模块110，用于获取待检测视频的视频特征和待检测视频中所有候选视频段的视频段特征图。

第一处理模块120，用于将视频特征和视频段特征图输入动作检测模型，利用动作检测模型进行多尺度特征提取，得到所有候选视频段的融合特征图。

第一预测模块130，用于利用动作检测模型对融合特征图进行预测，得到每个候选视频段的预测结果。

动作片段确定模块140，用于根据每个候选视频段的预测结果，从所有候选视频段中确定动作片段。

可选地，第一获取模块110具体用于：

对待检测视频进行初步特征提取，得到初步视频特征；

对初步视频特征进行特征增强，得到视频特征；

对每个候选视频段进行特征提取，得到视频段特征图。

可选地，第一获取模块110执行对待检测视频进行初步特征提取，得到初步视频特征的方式，包括：

按照设定时间间隔，从待检测视频中抽取多个视频帧；

可选地，第一获取模块110执行对初步视频特征进行特征增强，得到视频特征的方式，包括：

利用图卷积捕获待检测视频中各个视频帧的上下文关系，将多尺度的语义信息动态融合到初步视频特征中，得到视频特征。

可选地，动作检测模型包括多个多尺度动态网络；第一处理模块120具体用于：

将视频特征和视频段特征图输入第一个多尺度动态网络进行多尺度特征提取，得到所有候选视频段的初步特征图；

将视频特征和第N-1个多尺度动态网络的输出作为第N个多尺度动态网络的输入，利用多尺度动态网络进行多尺度特征提取；

将最后一个多尺度动态网络的输出作为融合特征图。

可选地，尺度动态网络包括多个多尺度动态单元；第一处理模块120执行将视频特征和视频段特征图输入第一个多尺度动态网络进行多尺度特征提取，得到所有候选视频段的初步特征图的过程，包括：

将视频特征和视频段特征图输入每个多尺度动态单元；

利用多尺度动态单元从目标尺度进行特征提取，得到目标尺度的特征表达，其中，一个多尺度动态单元对应一个尺度；

获得多个多尺度动态单元输出的多个尺度的特征表达；

将多个尺度的特征表达进行聚合，得到所有候选视频段的特征信息；

对特征信息进行1×1卷积操作后，与视频段特征图进行叠加，得到初步特征图。

可选地，第一处理模块120执行利用多尺度动态单元从目标尺度进行特征提取，得到目标尺度的特征表达的方式，包括：

对视频段特征图进行滑窗操作，得到取样特征图；

对视频特征进行平均池化，得到待检测视频的全局特征；

将全局信息和视频段特征图进行融合，得到中间特征图；

利用中间特征图生成每个候选视频段的动态卷积核；

可选地，第一预测模块130具体用于：

利用卷积层对融合特征图进行卷积操作，得到每个候选视频段的预测结果。

可选地，候选视频段是对待检测视频进行枚举得到的，候选视频段包括开始时间和结束时间；动作片段确定模块140具体用于：

根据每个候选视频段的预测结果，计算每个候选视频段的评判分数；

根据每个候选视频段的评判分数，获得包含动作的候选视频段；

对包含动作的候选视频段进行分类，得到包含动作的候选视频段的动作类别；

获得动作片段，其中，动作片段包括包含动作的候选视频段的开始时间、结束时间及动作类别。

请参照图9，图9示出了本申请实施例提供的模型训练装置200的方框示意图。模型训练装置200应用于任何具有图像处理功能的电子设备，包括：第二获取模块210、预处理模块220、第二处理模块230、第二预测模块240及训练模块250。

第二获取模块210，用于获取训练样本及训练样本对应的标签，标签表征训练样本中的各个动作片段，包括动作片段的开始时间、结束时间和动作类别。

预处理模块220，用于对训练样本进行预处理，得到训练样本的视频特征和训练样本中所有候选视频段的视频段特征图。

第二处理模块230，用于将视频特征和视频段特征图输入动作检测模型，利用动作检测模型进行多尺度特征提取，得到所有候选视频段的融合特征图。

第二预测模块240，用于利用动作检测模型对融合特征图进行预测，得到每个候选视频段的预测结果。

训练模块250，用于基于每个候选视频段的预测结果、标签和预设的损失函数对动作检测模型进行反向传播训练，得到训练后的动作检测模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的动作片段检测装置100和模型训练装置200的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

请参照图10，图10示出了本申请实施例提供的电子设备10的方框示意图。电子设备10可以是执行上述动作片段检测方法的移动终端或服务器，也可以是执行上述模型训练方法的任何具有图像处理功能的电子设备。电子设备10包括处理器11、存储器12及总线13，处理器11通过总线13与存储器12连接。

存储器12用于存储程序，例如图8所示的动作片段检测装置100、或者图9所示的模型训练装置200。以动作片段检测装置100为例，动作片段检测装置100包括至少一个可以软件或固件（firmware）的形式存储于存储器12中的软件功能模块，处理器11在接收到执行指令后，执行所述程序以实现上述实施例揭示的动作片段检测方法。

存储器12可能包括高速随机存取存储器（Random Access Memory，RAM），也可能还包括非易失存储器（non-volatile memory，NVM）。

处理器11可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器11中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器11可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、微控制单元(Microcontroller Unit，MCU）、复杂可编程逻辑器件（Complex Programmable LogicDevice，CPLD）、现场可编程门阵列（Field Programmable Gate Array，FPGA）、嵌入式ARM等芯片。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器11执行时实现上述实施例揭示的动作片段检测方法、或者模型训练方法。

综上所述，本申请实施例提供的一种动作片段检测方法、模型训练方法及装置，针对待检测视频，枚举待检测视频中所有的候选视频段，并获取待检测视频的视频特征和所有候选视频段的视频段特征图；然后，将视频特征和视频段特征图输入预先训练的动作检测模型，利用动作检测模型进行多尺度特征提取及预测，得到每个候选视频段的预测结果；最后，根据每个候选视频段的预测结果，从所有候选视频段中确定出动作片段，从而能够从长视频中自动剪辑出动作片段。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种动作片段检测方法，其特征在于，所述方法包括：

根据每个所述候选视频段的预测结果，从所有候选视频段中确定动作片段；

所述动作检测模型包括多个多尺度动态网络；

所述将所述视频特征和所述视频段特征图输入动作检测模型，利用所述动作检测模型进行多尺度特征提取，得到所有候选视频段的融合特征图的步骤，包括：

将所述视频特征和所述视频段特征图输入第一个所述多尺度动态网络进行多尺度特征提取，得到所有候选视频段的初步特征图；

将所述视频特征和第N-1个所述多尺度动态网络的输出作为第N个所述多尺度动态网络的输入，利用所述多尺度动态网络进行多尺度特征提取；

将最后一个所述多尺度动态网络的输出作为所述融合特征图。

2.如权利要求1所述的方法，其特征在于，所述多尺度动态网络包括多个多尺度动态单元；

所述将所述视频特征和所述视频段特征图输入第一个所述多尺度动态网络进行多尺度特征提取，得到所有候选视频段的初步特征图的步骤，包括：

将所述视频特征和所述视频段特征图输入每个所述多尺度动态单元；

获得所述多个多尺度动态单元输出的多个尺度的特征表达；

将所述多个尺度的特征表达进行聚合，得到所有候选视频段的特征信息；

对所述特征信息进行1×1卷积操作后，与所述视频段特征图进行叠加，得到所述初步特征图。

3.如权利要求2所述的方法，其特征在于，所述利用多尺度动态单元从目标尺度进行特征提取，得到目标尺度的特征表达的步骤，包括：

对所述视频段特征图进行滑窗操作，得到取样特征图；

对所述视频特征进行平均池化，得到所述待检测视频的全局特征；

利用1×1卷积对所述全局特征进行卷积操作以减少通道数，得到所述待检测视频的全局信息；

将所述全局信息和所述视频段特征图进行融合，得到中间特征图；

利用所述中间特征图生成每个候选视频段的动态卷积核；

利用所述动态卷积核对所述取样特征图进行卷积操作，得到目标尺度的特征表达。

4.如权利要求1所述的方法，其特征在于，所述动作检测模型还包括卷积层；

所述利用所述动作检测模型对所述融合特征图进行预测，得到每个所述候选视频段的预测结果的步骤，包括：

利用所述卷积层对所述融合特征图进行卷积操作，得到每个所述候选视频段的预测结果。

5.如权利要求1所述的方法，其特征在于，所述候选视频段是对所述待检测视频进行枚举得到的，所述候选视频段包括开始时间和结束时间；

所述根据每个所述候选视频段的预测结果，从所有候选视频段中确定动作片段的步骤，包括：

根据每个所述候选视频段的预测结果，计算每个所述候选视频段的评判分数；

根据每个所述候选视频段的评判分数，获得包含动作的候选视频段；

获得所述动作片段，其中，所述动作片段包括包含动作的候选视频段的开始时间、结束时间及动作类别。

6.一种模型训练方法，其特征在于，所述方法包括：

基于每个所述候选视频段的预测结果、所述标签和预设的损失函数对所述动作检测模型进行反向传播训练，得到训练后的动作检测模型；

所述动作检测模型包括多个多尺度动态网络；

7.如权利要求6所述的方法，其特征在于，所述损失函数为：

L_total＝L_seg+λ₁L_node+λ₂L_esl

其中，λ₁和λ₂表示超参数，L_seg表示目标损失函数，L_node表示辅助损失函数，L_esl表示边缘抑制损失函数；

所述辅助损失函数为：

L_node＝L_start(G_s,P_s)+L_end(G_e,P_e)

其中，L_start和L_end分别表示带权重的交叉熵损失函数，P_s和P_e分别表示所述训练样本中的预测开始节点和预测结束节点；G_s和G_e分别表示所述标签中的开始时间和结束时间；

所述目标损失函数为：

L_seg＝λ₃L_reg(M_reg,G_score)+L_cls(M_cls,G_score)

其中，λ₃表示超参数，L_reg和L_cls分别表示平方差损失函数和带权重的交叉熵损失函数；M_reg和M_cls表示所述预测结果，M_reg表示使用回归损失函数计算的结果，M_cls表示使用分类损失函数计算的结果；G_score表示标签结果，所述标签结果是基于所述标签中的开始时间、结束时间和动作类别计算得到的；

所述边缘抑制损失函数为：

其中，α₁和α₂表示超参数，D表示所述候选视频段的持续时间，T表示所述候选视频段的开始时间，M表示掩模。

8.一种动作片段检测装置，其特征在于，所述装置包括：

动作片段确定模块，用于根据每个所述候选视频段的预测结果，从所有候选视频段中确定动作片段；

所述动作检测模型包括多个多尺度动态网络；所述第一处理模块具体用于：

9.一种模型训练装置，其特征在于，所述装置包括：

训练模块，用于基于每个所述候选视频段的预测结果、所述标签和预设的损失函数对所述动作检测模型进行反向传播训练，得到训练后的动作检测模型；

所述动作检测模型包括多个多尺度动态网络；所述第二处理模块具体用于：