CN111222476B

CN111222476B - 视频时序动作的检测方法、装置、电子设备及存储介质

Info

Publication number: CN111222476B
Application number: CN202010026653.2A
Authority: CN
Inventors: 林天威; 李鑫; 何栋梁; 李甫; 孙昊; 文石磊; 丁二锐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2023-06-06
Anticipated expiration: 2040-01-10
Also published as: JP2021111401A; CN111222476A; US20210216782A1; EP3848852B1; JP7059508B2; KR20210091057A; EP3848852A1; KR102567161B1; US11600069B2

Abstract

本申请公开了视频时序动作的检测方法、装置、电子设备及存储介质，涉及视频处理技术领域。具体实现方案为：获取待检测视频的初始时序特征序列；采用预先训练的视频时序动作检测模块，基于所述初始时序特征序列获取配置的多个时序锚定框的隐式特征和显式特征；采用所述视频时序动作检测模块，根据所述多个时序锚定框的显式特征和隐式特征，从所述多个时序锚定框中获取包含指定动作的视频片段的起始位置、结束位置、所述指定动作的类别以及所述指定动作属于所述类别的概率。本申请的实现方案，实现过程较为简单，能够有效地提高视频时序动作的检测效率，而且还能有效地提高时序动作检测的准确性。

Description

视频时序动作的检测方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及视频处理技术领域，具体涉及一种视频时序动作的检测方法、装置、电子设备及存储介质。

背景技术

为了生产高质量的短视频内容，视频制作者通常都需要从原始的长视频素材中手动地剪辑出感兴趣的视频片段，去除大量无用的素材，这一过程需要耗费视频作者很多的精力。例如，为了提高视频剪辑的效率，通常需要使用技术手段去帮助视频作者或是视频平台自动地从长视频中剪辑出指定动作类别的短视频片段。其剪辑过程中相关的算法任务为视频时序动作检测任务，其目的是在未裁剪的长视频中检测时序动作片段的开始时间、结束时间、置信度分数以及动作类别。该项技术是精彩视频智能剪辑的关键技术。

现有的视频时序动作检测方法类似于时序维度上的目标检测任务，通常可以采用时序提名生成和时序提名分类两个步骤来完成，具体地，首先采用滑窗或时序提名生成算法生成时序提名，再通过分类网络对时序提名的动作类别进行分类。

但是，现有的上述视频时序动作检测方案的实现过程较为繁琐，造成时序动作检测效率较低。

发明内容

为了解决上述技术问题，本申请提供一种视频时序动作的检测方法、装置、电子设备及存储介质，用于提高视频中时序动作检测的准确性。

一方面，本申请提供一种视频时序动作的检测方法包括：

获取待检测视频的初始时序特征序列；

采用预先训练的视频时序动作检测模块，基于所述初始时序特征序列获取配置的多个时序锚定框的隐式特征和显式特征；

采用所述视频时序动作检测模块，根据所述多个时序锚定框的显式特征和隐式特征，从所述多个时序锚定框中获取包含指定动作的视频片段的起始位置、结束位置、所述指定动作的类别以及所述指定动作属于所述类别的概率。

进一步可选地，如上所述的方法中，获取待检测视频的初始时序特征序列，包括：

从所述待检测的视频中按照从前至后的抽取顺序、采用预设的采样周期依次抽取多张图像，构成图像序列；

提取所述图像序列中的各张所述图像的特征，并按照在所述图像序列中的先后顺序拼接为所述初始时序特征序列。

进一步可选地，如上所述的方法中，采用预先训练的视频时序动作检测模块，基于所述初始时序特征序列获取配置的多个时序锚定框的隐式特征，包括：

由所述视频时序动作检测模块，按照预设的多种减小时序长度的方式，减小所述初始时序特征序列的时序长度，得到多种调整后的参考时序特征序列；

对于各所述参考时序特征序列，为各时序位置配置预设数量的、不同尺度的多个时序锚定框；

将各所述时序锚定框的隐式特征配置为对应的所述参考时序特征序列中对应的所述时序位置的特征。

进一步可选地，如上所述的方法中，采用预先训练的视频时序动作检测模块，基于所述初始时序特征序列获取配置的多个时序锚定框的显式特征，包括：

以多种所述参考时序特征序列中长度最长的参考时序特征序列为采样样本，按照为各所述时序锚定框构造的采样特征，采用所述采样特征乘以所述采样样本的方式，获取各所述时序锚定框的显式特征。

进一步可选地，如上所述的方法中，采用所述视频时序动作检测模块，根据所述多个时序锚定框的显式特征和隐式特征，从所述多个时序锚定框中获取包含指定动作的视频片段的起始位置、结束位置、所述指定动作的类别以及所述指定动作属于所述类别的概率，包括：

采用所述视频时序动作检测模块，将各所述时序锚定框的显式特征和隐式特征拼接，得到各所述时序锚定框的综合特征；

基于各所述时序锚定框的综合特征，对各所述时序锚定框进行检测，筛取包含有所述指定动作的目标时序锚定框、所述指定动作的类别以及所述指定动作属于所述类别的概率；

在所述初始时序特征序列中对包含所述指定动作的所述目标时序锚定框的边界进行检测，获取所述目标时序锚定框对应的视频片段的起始位置和结束位置。

进一步可选地，如上所述的方法中，在所述初始时序特征序列中对包含所述指定动作的所述目标时序锚定框的边界进行检测之后，获取所述目标时序锚定框对应的视频片段的起始位置和结束位置之前，还包括：

结合所述初始时序特征序列中、检测到的所述目标时序锚定框的边界的前后多个时序特征，对所述目标时序锚定框对应的视频片段的起始位置和结束位置进行逻辑回归分析。

另一方面，本申请还提供了一种视频时序动作的检测装置，包括：

特征序列获取模块，用于获取待检测视频的初始时序特征序列；

视频时序动作检测模块，用于基于所述初始时序特征序列获取配置的多个时序锚定框的隐式特征和显式特征；所述视频时序动作检测模块为预先训练的；

所述视频时序动作检测模块，还用于根据所述多个时序锚定框的显式特征和隐式特征，从所述多个时序锚定框中获取包含指定动作的视频片段的起始位置、结束位置、所述指定动作的类别以及所述指定动作属于所述类别的概率。

再一方面，本申请还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上任一项所述的方法。

又一方面，本申请还提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上任一项所述的方法。

上述申请中的一个实施例具有如下优点或有益效果：通过采用预先训练的视频时序动作检测模块来对视频的时序动作进行检测，避免了现有技术中将检测过程分为时序提名生成和时序提名分类两个步骤来实现，实现过程较为简单，能够有效地提高视频时序动作的检测效率。

而且，本申请中还高效而准确地配置了时序锚定框的显示特征，并采用每个时序锚定框的显式特征和隐式特征相结合的方式，来检测时序动作，能够进一步提高时序动作的检测的准确性。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2为本申请的不同尺度的时序锚定框的示意图。

图3为本申请的时序锚定框的显示特征的获取示意图。

图4为本申请的视频时序动作检测模块的工作原理图。

图5是根据本申请第二实施例的示意图；

图6是用来实现本申请实施例的视频时序动作的检测方法的电子设备的框图

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1为本申请第一实施例提供的视频时序动作的检测方法的流程图。如图1所示，本实施例的视频时序动作的检测方法，具体可以包括如下步骤：

S101、获取待检测视频的初始时序特征序列；

本实施例的视频时序动作的检测方法的执行主体为视频时序动作的检测装置，该视频时序动作的检测装置可以为一电子实体，或者也可以采用软件集成的应用系统来实现。使用时，向该视频时序动作的检测装置输入待检测的视频，便可以获取到该视频中包含指定动作的视频片段的起始位置、终止位置、动作类别以及属于该动作类别的概率等信息。

例如，该步骤S101获取待检测视频的初始时序特征序列，具体可以包括如下步骤：

(a1)从待检测的视频中按照从前至后的抽取顺序、采用预设的采样周期依次抽取多张图像，构成图像序列；

例如，本实施例的采样周期可以为待检测的视频中每帧图像都抽取，也可以为每隔2帧、5帧、或者其他数量的帧抽取一张图像。

(b1)提取图像序列中的各张图像的特征，并按照在图像序列中的先后顺序拼接为初始时序特征序列。

本实施例中，可以采用图像分类的卷积神经网络模型来提取图像的特征，例如该图像分类的卷积神经网络可以在imagenet数据集上预训练好，其网络结构可以为resnet50类似的网络结构。具体可以采用网络的倒数第二层的结果作为输入的图像的特征。或者实际应用中还可以采用其他训练好的、采用卷积神经网络构造的图像特征提取模型，来提取图像的特征。或者也可以采用其他图像特征的提取方法，在此不再一一举例赘述。

可选地，实际应用中，也可以将上述步骤S101放在视频时序动作检测模块中来实现。

S102、采用预先训练的视频时序动作检测模块，基于初始时序特征序列获取配置的多个时序锚定框的隐式特征和显式特征；

本实施例的视频时序动作检测模块为一个预先训练的神经网络模型。使用时，向该视频时序动作检测模块输入待检测视频的初始时序特征序列。该视频时序动作检测模块可以分为几大块：如特征获取单元、动作分类器以及边界回归器等。

具体地，在特征获取单元中，可以基于初始时序特征序列获取多个时序锚定框的隐式特征和显式特征。例如，在获取隐式特征时，具体可以包括如下步骤：

(a2)由视频时序动作检测模块，按照预设的多种减小时序长度的方式，减小初始时序特征序列的时序长度，得到多种调整后的参考时序特征序列；

例如，初始时序特征序列的长度为T，可以按照预设的方式分别获取T/4、T/8、T/16、T/32四种不同时序长度的参考时序特征序列。初始时序特征序列和各种参考时序特征序列对应的视频的时长是一样的，区别是两个相邻的时序特征所对应的时序位置之间的间隔是不同的。

(b2)对于各参考时序特征序列，为各时序位置配置预设数量的、不同尺度的多个时序锚定框；

本实施例中的各时序锚定框对应一个时长范围内的特征信息。采用本实施例的配置方式，可以在不同时长粒度的时序特征序列上，采用不同的尺度配置时序锚定框，以对应获取待检测的视频尽可能多的视频片段，以便于后续检测包含指定动作的视频片段。

(c2)将各时序锚定框的隐式特征配置为对应的参考时序特征序列中对应的时序位置的特征。

例如，图2为本申请的不同尺度的时序锚定框的示意图。如图2所示，以每个时序位置配置D个同中心、不同尺度的时序锚定框为例，且图2中以D等于3为例。且、同中心不同尺度的D个时序锚定框的共享对应的时序位置的特征。若长度为T的时序特征序列，大小是TxC，其中C为特征的通道数，第t个时序位置的特征的大小为1xC。

不同参考时序特征序列的长度不一样，对应的时序锚定框的数量也不一样。但是每个时序锚定框对应的隐式特征大小是一样的。

例如，如图2所示，对于一个长度为T的时序特征序列F∈R^T×C，其中第t_i个时序位置，其特征可以为f_i∈R^C，其归一化后的中心点位置为(t_i+0.5)/T，相邻两个时序特征的间隔为1/T。在获取隐式特征的过程中，对于某个时序特征序列中的第t_i个时序位置，都会关联D个时序锚定框，每个时序锚定框的中心都为该时序位置的中心，时序锚定框的长度为时序间隔1/T的一个倍数，如{0.5,0.75,1.0,1.25,1.5}。可以看出，D个时序锚定框所对应的特征是相同的。本申请中，可以通过网络学习即网络模型训练的过程给不同的时序锚定框做出不同的预测，因此此处的特征关联过程可以称之为隐式特征采样，即时序锚定框和时序特征之间的对应关系是隐式的，仅取其对应尺度中心位置的特征。对于一个时序锚定框

使用时可以将其隐式(implicit)特征记为/>

进一步地，对于采用预先训练的视频时序动作检测模块，基于初始时序特征序列获取多个时序锚定框的显式特征，具体可以包括：以多种参考时序特征序列中长度最长的参考时序特征序列为采样样本，按照为各时序锚定框构造的采样特征，采用采样特征乘以采样样本的方式，获取各时序锚定框的显式特征。具体地，该步骤也由视频时序动作检测模块中的特征获取单元来执行。

例如，图3为本申请的时序锚定框的显示特征的获取示意图。如图3所示，对于一个长度为T的时序特征序列F∈R^T×C，以及一个预设的时序锚定框

首先拓展时序锚定框的时序范围为[t_s-0.5d，t_e+0.5d]，此处d＝t_e-t_s。然后为每个时序锚定框构造一个采样特征，具体采用向量的形式，也可以称为采样向量，可以表示为s_i∈R^T，且该采样向量为可学习的向量，在模型训练时，可以调整并学习到每个时序锚定框对应的最佳的特征表示。其中所有在时序锚定框的时序范围内的值设置为(0,1]范围内的随机数，且可通过梯度下降优化，在该时序范围外的值则为0，不可优化，如图3所示。得到了时序锚定框/>

的显式特征具体为一个的形式，可以表示为s_i∈R^T，通过将该采样特征和时序特征序列F在时序维度上进行点乘，即可得到采样后的显式(explicit)采样特征，可以表示为/>

需要说明的是，为了保证采样特征的准确性，对于与不同尺度时序特征序列相关联的时序锚定框，显式特征采样模块都是从分辨率最高，也就是时序长度最长的时序特征序列中进行采样。

S103、采用视频时序动作检测模块，根据多个时序锚定框的显式特征和隐式特征，从多个时序锚定框中获取包含指定动作的视频片段的起始位置、结束位置、指定动作的类别以及指定动作属于类别的概率。

例如，该步骤具体可以由视频时序动作检测模块中的动作分类器以及边界回归器来实现。例如，可以包括如下步骤：

(a3)采用视频时序动作检测模块，将各时序锚定框的显式特征和隐式特征拼接，得到各时序锚定框的综合特征；

该步骤由视频时序动作检测模块中的特征获取单元来实现。

(b3)基于各时序锚定框的综合特征，对各时序锚定框进行检测，筛取包含有指定动作的目标时序锚定框、指定动作的类别以及指定动作属于类别的概率；

该步骤由视频时序动作检测模块中的动作分类器来实现。

(c3)在初始时序特征序列中对包含指定动作的目标时序锚定框的边界进行检测，获取目标时序锚定框对应的视频片段的起始位置和结束位置。

该步骤由视频时序动作检测模块中的边界回归器来实现。

进一步地，例如，在该步骤(c3)中，在初始时序特征序列中对包含指定动作的目标时序锚定框的边界进行检测之后，获取目标时序锚定框对应的视频片段的起始位置和结束位置之前，还包括：结合初始时序特征序列中、检测到的目标时序锚定框的边界的前后多个时序特征，对目标时序锚定框对应的视频片段的起始位置和结束位置进行逻辑回归分析。

也就是说，对目标时序锚定框的边界前后的时序特征进行分析，若与目标时序锚定框的特征相似度非常高，可以认为该时序特征疑似包括该目标时序锚定框中包含的指定动作，此时，也可以将这部分时序特征也融入到指定动作的视频片段中，从而调整包含指定动作的视频片段的起始位置和结束位置。该方案的实现，具体也可以设置在边界回归器中来实现。

例如，图4为本申请的视频时序动作检测模块的工作原理图。如图4所示。首先对于一段视频，按照一定间隔(如5FPS)提取图像特征，构成视频特征序列如

然后输入至视频时序动作检测模块中，在该视频时序动作检测模块中，首先通过基础卷积模块减小时序长度，增强感受野来生成第一个时序特征序列F₁∈R^T/4×C，之后继续用卷积层和池化层减小时序长度，获得F₂∈R^T/8×C、F₃∈R^T/16×C、F₄∈R^T/32×C。对于每个时序特征序列上的每个时序位置，都关联D个时序锚定框，共计/>

个时序锚定框。通过上述隐式特征采样的方式可以得到所有时序锚定框的隐式特征/>

同样采用显式特征采样的方式可以得到显式特征/>

然后，将两者拼接后即可以得到完整的时序锚定框特征/>

最后基于拼接后的时序锚定框特征来预测各时序锚定框中包括的指定动作的类别、属于该类别的概率、以及视频片段的边界偏移量。详细可以参考上述实施例的记载，在此不再赘述。

另外，需要说明的是，本实施例的视频时序动作检测模块的训练过程与上述使用过程大体一致，区别仅在于训练时，标注每一个训练视频中包括指定动作的视频片段的起始位置、结束位置、包含的指定动作的类别，以及属于该类别的概率，训练时，概率均为1。这样，采用上述实施例的使用过程，预测到每一个训练视频中的包括指定动作的视频片段的起始位置、结束位置、包含的指定动作的类别，以及属于该类别的概率之后，将预测的与标注的相对比，若不相同，调整模型中所有需要学习的参数，使得训练的结果和标注的结果趋于一致。按照上述方式，采用数条训练样本不断地对视频时序动作检测模块进行训练，直至预测的结果与标注的结果始终一致，此时确定所有可学习的参数的值，从而确定该视频时序动作检测模块。

本实施例的视频时序动作的检测方法，采用预先训练的视频时序动作检测模块来对视频的时序动作进行检测，避免了现有技术中将检测过程分为时序提名生成和时序提名分类两个步骤来实现，实现过程较为简单，能够有效地提高视频时序动作的检测效率。

另外，本实施例中，通过将每个时序锚定框的显式特征和隐式特征相结合，更为准确地预测每个时序锚定框的动作类别信息以及时序边界的偏移量，能够获得更好的时序动作检测效果。

而若仅采用时序锚定框的隐式特征来预测，如上述实施例所示，时序锚定框的隐式特征所采用的时序位置的特征只能大致而不能准确的对应时序锚定框所对应的信息，不准确的特征对应造成了视频时序动作检测模块不能非常准确地进行动作类别的分类以及时序边缘的回归。因此，本实施例中还高效而准确地配置了时序锚定框的显示特征，并采用每个时序锚定框的显式特征和隐式特征相结合的方式，来检测时序动作，能够进一步提高时序动作的检测的准确性。

图5为本申请第二实施例提供的视频时序动作的检测装置的结构图。如图5所示，本实施例的视频时序动作的检测装置500，包括：

特征序列获取模块501，用于获取待检测视频的初始时序特征序列；

视频时序动作检测模块502，用于基于初始时序特征序列获取配置的多个时序锚定框的隐式特征和显式特征；视频时序动作检测模块为预先训练的；

视频时序动作检测模块502，还用于根据多个时序锚定框的显式特征和隐式特征，从多个时序锚定框中获取包含指定动作的视频片段的起始位置、结束位置、指定动作的类别以及指定动作属于类别的概率。

进一步可选地，征序列获取模块501用于：

从待检测的视频中按照从前至后的抽取顺序、采用预设的采样周期依次抽取多张图像，构成图像序列；

提取图像序列中的各张图像的特征，并按照在图像序列中的先后顺序拼接为初始时序特征序列。

进一步可选地，视频时序动作检测模块502用于：

由视频时序动作检测模块，按照预设的多种减小时序长度的方式，减小初始时序特征序列的时序长度，得到多种调整后的参考时序特征序列；

对于各参考时序特征序列，为各时序位置配置预设数量的、不同尺度的多个时序锚定框；

将各时序锚定框的隐式特征配置为对应的参考时序特征序列中对应的时序位置的特征。

进一步可选地，视频时序动作检测模块502用于：

以多种参考时序特征序列中长度最长的参考时序特征序列为采样样本，按照为各时序锚定框构造的采样特征，采用采样特征乘以采样样本的方式，获取各时序锚定框的显式特征。

进一步可选地，视频时序动作检测模块502用于：

采用视频时序动作检测模块，将各时序锚定框的显式特征和隐式特征拼接，得到各时序锚定框的综合特征；

基于各时序锚定框的综合特征，对各时序锚定框进行检测，筛取包含有指定动作的目标时序锚定框、指定动作的类别以及指定动作属于类别的概率；

在初始时序特征序列中对包含指定动作的目标时序锚定框的边界进行检测，获取目标时序锚定框对应的视频片段的起始位置和结束位置。

进一步可选地，视频时序动作检测模块502用于：

结合初始时序特征序列中、检测到的目标时序锚定框的边界的前后多个时序特征，对目标时序锚定框对应的视频片段的起始位置和结束位置进行逻辑回归分析。

本实施例的视频时序动作的检测装置500，通过采用上述模块实现本实施例的视频时序动作的检测的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的实现视频时序动作的检测方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的视频时序动作的检测方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的视频时序动作的检测方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的视频时序动作的检测方法对应的程序指令/模块(例如，附图5所示的相关模块)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的视频时序动作的检测方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储实现视频时序动作的检测方法的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至实现视频时序动作的检测方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现视频时序动作的检测方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与实现视频时序动作的检测方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过采用预先训练的视频时序动作检测模块来对视频的时序动作进行检测，避免了现有技术中将检测过程分为时序提名生成和时序提名分类两个步骤来实现，实现过程较为简单，能够有效地提高视频时序动作的检测效率。

而且，根据本申请实施例的技术方案，还高效而准确地配置了时序锚定框的显示特征，并采用每个时序锚定框的显式特征和隐式特征相结合的方式，来检测时序动作，能够进一步提高时序动作的检测的准确性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种视频时序动作的检测方法，其特征在于，包括：

获取待检测视频的初始时序特征序列；

采用所述视频时序动作检测模块，根据所述多个时序锚定框的显式特征和隐式特征，从所述多个时序锚定框中获取包含指定动作的视频片段的起始位置、结束位置、所述指定动作的类别以及所述指定动作属于所述类别的概率；

采用预先训练的视频时序动作检测模块，基于所述初始时序特征序列获取配置的多个时序锚定框的隐式特征，包括：

对于各所述参考时序特征序列，为各时序位置配置预设数量的、不同尺度的时序锚定框，得到所述多个时序锚定框；且同一所述时序位置的所述预设数量的所述时序锚定框具有相同的中心；各所述时序锚定框对应一个时长范围内的特征信息；

将所述多个时序锚定框中各所述时序锚定框的隐式特征配置为对应的所述参考时序特征序列中对应的所述时序位置的特征。

2.根据权利要求1所述的方法，其特征在于，获取待检测视频的初始时序特征序列，包括：

3.根据权利要求1所述的方法，其特征在于，采用预先训练的视频时序动作检测模块，基于所述初始时序特征序列获取配置的多个时序锚定框的显式特征，包括：

4.根据权利要求1所述的方法，其特征在于，采用所述视频时序动作检测模块，根据所述多个时序锚定框的显式特征和隐式特征，从所述多个时序锚定框中获取包含指定动作的视频片段的起始位置、结束位置、所述指定动作的类别以及所述指定动作属于所述类别的概率，包括：

5.根据权利要求4所述的方法，其特征在于，在所述初始时序特征序列中对包含所述指定动作的所述目标时序锚定框的边界进行检测之后，获取所述目标时序锚定框对应的视频片段的起始位置和结束位置之前，还包括：

6.一种视频时序动作的检测装置，其特征在于，包括：

所述视频时序动作检测模块，还用于根据所述多个时序锚定框的显式特征和隐式特征，从所述多个时序锚定框中获取包含指定动作的视频片段的起始位置、结束位置、所述指定动作的类别以及所述指定动作属于所述类别的概率；

所述视频时序动作检测模块，用于：

按照预设的多种减小时序长度的方式，减小所述初始时序特征序列的时序长度，得到多种调整后的参考时序特征序列；

7.根据权利要求6所述的装置，其特征在于，所述特征序列获取模块，用于：

8.根据权利要求6所述的装置，其特征在于，所述视频时序动作检测模块，用于：

9.根据权利要求6所述的装置，其特征在于，所述视频时序动作检测模块，用于：

10.根据权利要求9所述的装置，其特征在于，所述视频时序动作检测模块，用于：

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。