CN111327949B

CN111327949B - 一种视频的时序动作检测方法、装置、设备及存储介质

Info

Publication number: CN111327949B
Application number: CN202010129341.4A
Authority: CN
Inventors: 杜吉祥; 彭肖肖; 张洪博; 汪冠鸿
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2021-12-21
Anticipated expiration: 2040-02-28
Also published as: CN111327949A

Abstract

本发明公开了一种视频的时序动作检测方法、装置、设备及计算机存储介质，方法包括：对视频进行特征提取，以获得视频特征向量；将所述视频特征向量输入至时序概率卷积神经网络中，以获得时序点概率分数；去除所述时序点概率分数的冗余时序点，以获得第一开始时序点和第一结束时序点；根据所述第一开始时序点和第一结束时序点，生成初始时序动作提名；根据初始时序动作提名，以获得时序动作提名的评价分数；根据时序动作提名的评价分数对时序提名进行分类，以完成视频的时序动作检测。本发明解决了现有技术视觉特征表达力不足的问题，以及提高时序动作检测准确度。

Description

一种视频的时序动作检测方法、装置、设备及存储介质

技术领域

本发明涉及计算机视觉领域，尤其涉及一种视频的时序动作检测方法、装置、设备及存储介质。

背景技术

时序动作检测技术在现实生活中有着非常广泛的应用场景。例如，我们生活中的许多公共场所存在很多的摄像头监控周围的行人的动作，这样做是为了更好地保护公共财产以及维护公共安全。据调查，在这些海量的视频中，工作人员组要时刻关注视频内容的变化，同时也可能在观察录像时漏掉一些关键信息，人工监控使得效率低下。因此利用机器智能高效且准确地判断视频中的各种动作是节约成本、提高工作效率的重要举措。而在现实中，动作跨度往往很长、动作背景往往很复杂、动作种类往往很不平衡，这些问题都是导致现有的动作检测方法性能低下的重要原因。

时序动作检测的关键技术是表达力高效且有判别力的时序提名提取和构建表达力强的时序动作提名特征，但是(1)现有的时序提名提取大多采用Two-stream网络提取的特征或者C3D网络提取的特征，由于在视频领域缺乏向Imagenet这样的大型数据集作为预训练模型，虽然有kinetics这样的视频数据集，但是视频中的动作种类繁多，与现实中的差别还是很大，并且视频人工标注没有图像那么准确，动作边界模糊，存在视觉特征表达力不足的问题。比如：一段视频中的某个人在慢跑，一种角度可以说是在跑步，而从速度上看是在走路。(2)现有的时序动作提名生成方法主要分为自顶向下和自底向下的方法，其中自顶向上的方法主要是以滑窗方法为代表，这种方法生成的proposal与anchor机制类似，都是预定尺度的proposal生成，往往生成的proposals不足以覆盖所有的真实动作，如跳水这个动作，有的proposal可能只是其中的一部分，而有的则甚至捕捉不到跳水的一瞬间。

发明内容

针对上述问题，本发明的目的在于提供一种视频的时序动作检测方法、装置、设备及存储介质，解决了现有技术视觉特征表达力不足的问题，以及提高时序动作检测准确度。

本发明实施例提供了一种视频的时序动作检测方法，包括：

对视频进行特征提取，以获得视频特征向量；

将所述视频特征向量输入至时序概率卷积神经网络中，以获得时序点概率分数；

去除所述时序点概率分数的冗余时序点，以获得第一开始时序点和第一结束时序点；

根据所述第一开始时序点和第一结束时序点，生成初始时序动作提名；

根据初始时序动作提名，以获得时序动作提名的评价分数；

根据时序动作提名的评价分数对时序提名进行分类，以完成视频的时序动作检测。

优选地，根据所述第一开始时序点和第一结束时序点，生成初始时序动作提名，具体为：

遍历所述第一开始时序点和第一结束时序点，以获得开始边界点和结束边界点；其中，所述开始边界点以及结束边界点均为极值点或者分数大于等于所述第一开始时序点和第一结束时序点中最大值的一半的点；

根据所述开始边界点以及结束边界点，以获得第二开始点序列和第二结束点序列；

对所述第二开始点序列和第二结束点序列进行组合，以生成初始动作时序提名。

优选地，所述根据初始时序动作，以获得时序动作提名的评价分数，具体为：

根据初始时序动作提名构造时序提名特征；

将所述时序提名特征输入至时序评估网络，以获得时序动作提名的评价分数。

优选地，根据初始时序动作提名构造时序提名特征，具体为：

根据所述初始时序动作提名，以查找出初始时序动作提名的与开始时间最近的结束时间和与结束时间最近的开始时间；

根据与开始时间最近的结束时间和与结束时间最近的开始时间，在初始时序动作提名中分别查找对应的相关时序提名；

计算与开始时间最近的结束时间在对应的相关时序提名中每个时序提名的时序第一交并比，以及计算与结束时间最近的开始时间在对应的相关时序提名中每个时序提名的时序第二交并比；

根据第一交并比以及第二交并比，构造时序提名关联特征；以及

根据时序提名相关的背景语义信息构造时序提名场景特征；

将所述时序提名关联特征以及时序提名场景特征进行融合，以构建时序提名特征。

优选地，还包括：

通过two-stream和C3D联合编码对视频进行特征提取；通过softmax分类器对时序提名进行分类。

第二方面，本发明实施例还提供了一种视频的时序动作检测装置，包括：

特征提取单元，用于对视频进行特征提取，以获得视频特征向量；

时序点概率分数获取单元，用于将所述视频特征向量输入至时序概率卷积神经网络中，以获得时序点概率分数；

冗余时序点去除单元，用于去除所述时序点概率分数的冗余时序点，以获得开始概率序列的时序点和结束概率序列的时序点；

初始时序动作提名生成单元，用于根据所述第一开始时序点和第一结束时序点，生成初始时序动作提名；

评价分数获取单元，用于根据初始时序动作提名，以获得时序动作提名的评价分数；

时序提名分类单元，用于根据时序动作提名的评价分数对时序提名进行分类，以完成视频的时序动作检测。

优选地，初始时序动作提名生成单元，包括：

时序点遍历模块，用于遍历所述第一开始时序点和第一结束时序点，以获得开始边界点和结束边界点；其中，所述开始边界点以及结束边界点均为极值点或者分数大于等于所述第一开始时序点和第一结束时序点中最大值的一半的点；

第二开始点序列和第二结束点序列获取模块，用于根据所述开始边界点以及结束边界点，以获得第二开始点序列和第二结束点序列；

初始动作时序提名生成模块，用于对所述第二开始点序列和第二结束点序列进行组合，以生成初始动作时序提名。

优选地，评价分数获取单元，包括：

时序提名特征构造模块，用于根据初始时序动作提名构造时序提名特征；

评价分数获取模块，用于将所述时序提名特征输入至时序评估网络，以获得时序动作提名的评价分数。

优选地，时序提名特征构造模块，包括：

根据所述初始时序动作提名，以查找出初始时序动作提名的与开始时间最近的结束时间和与结束时间最近的开始时间；根据与开始时间最近的结束时间和与结束时间最近的开始时间，在初始时序动作提名中分别查找对应的相关时序提名；计算与开始时间最近的结束时间在对应的相关时序提名中每个时序提名的时序第一交并比，以及计算与结束时间最近的开始时间在对应的相关时序提名中每个时序提名的时序第二交并比；根据第一交并比以及第二交并比，构造时序提名关联特征；以及根据时序提名相关的背景语义信息构造时序提名场景特征；将所述时序提名关联特征以及时序提名场景特征进行融合，以构建时序提名特征。

优选地，还包括：

本发明实施例还提供了一种视频的时序动作检测设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现如上述实施例所述的视频的时序动作检测方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述实施例所述的视频的时序动作检测方法。

实施本发明具有如下有益效果：

1、本发明的提供的一个多阶段多尺度的时序概率生成模块，用于生成包含丰富时序上下文信息的时序边界概率序列；且通过构造了一种新颖的时序提名特征，包含时序提名关联特征和时序提名场景特征，该特征能有效捕捉时序提名之间的关联信息和时序场景提供的语义信息，能使得后续的时序提名产生更可靠的置信度分数，进而提高时序动作检测准确度。

2、本发明采用two-stream(I3D)+C3D双重特征表达形式，能有效地提取视频时空特征，增强了视频序列的表达能力。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的视频的时序动作检测方法的第一流程示意图。

图2是本发明实施例提供的视频的时序动作检测方法的第二流程示意图。

图3是本发明实施例提供的时序概率网络的网络结构的结构示意图。

图4是本发明实施例提供的每个膨胀卷积单元的结构示意图。

图5，6是本发明实施例提供的时序提名特征构造图的结构示意图。

图7是本发明第二实施例提供的视频的时序动作检测装置的结构示意图。

具体实施方式

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

实施例中提及的“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换，以使这里描述的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

请参阅图1至图6，本发明第一实施例提供了一种视频的时序动作检测方法，其可由视频的时序动作检测设备(以下简称“检测设备”)来执行，特别的，由检测设备内的一个或多个处理器来执行，并至少包括如下步骤：

S101，对视频进行特征提取，以获得视频特征向量。

在本实施例中，检测设备通过two-stream网络(双流网络)和C3D网络两种视频特征提取器对预先通过等距采样对视频进行采用，以得到视频帧序列(本实施例中，采用香港中文大学的denseflow视频数据处理工具，所述denseflow视频数据处理工具，能够使得视频帧序列生成的相邻帧之间的差距很微小，基本上很难有较大的变化，且采用每隔3帧取1帧的等距采样方法进行视频采样能够大大减少了视频帧的冗余)，再对视频帧序列进行特征编码，以获得视频特征向量。例如，Xt表示具体的帧，则

为视频帧序列。需要说明的是，two-stream网络中有两种输入，一种是单帧的静态帧X_t，另一种是光流场；优选地，本实施例中采用静态帧X_t周围的6帧作为这个时刻的光流场表示，其中，为了生成光流特征有效地表达视频的时序信息，因此采用是TV-L1光流算法计算光流场。可以理解的是，C3D网络与two-stream网络输入对应，因此，C3D网络采用静态帧X_t周围的16帧作为这个时刻的视频帧卷，即通过对two-stream网络提取最后的全连接层融合作为two-streamte特征示，同理，C3D网络提取的也是全连接层输出作为C3D特征表示，从而获得的视频特征向量表示为F⁽¹⁰²⁴ ^{+1024+1024)×1}。在视觉特征表达上，本发明采用two-stream(I3D)+C3D双重特征表达形式，能有效地提取视频时空特征，增强了视频序列的表达能力。

S102，将所述视频特征向量输入至时序概率卷积神经网络中，以获得时序点概率分数。

S103，去除所述时序点概率分数的冗余时序点，以获得第一开始时序点和第一结束时序点。

在本实施例中，时序点概率分数包括开始、动作、结束三个序列分数。开始分数表示当前时刻是开始帧的分数，结束分数表示当前时刻是结束帧的分数，动作分数表示当前帧的特征分数。其中，为了对视频进行有效地建模，采用一种多阶段多尺度的膨胀卷积模块作为时序概率网络的网络结构。该模块结构如图3所示。该模块有多个阶段的膨胀卷积单元组成，每个膨胀卷积单元由图4所示，该单元仅仅由时间卷积构成，没有池化层和全连接层，因为池化层会降低时序分辨率，全连接层会迫使模型对固定输入大小的输入进行操作且增加了大量的参数。其中膨胀因子是逐层加倍的，单元中所有卷积层的卷积核大小一致,单元中感受野计算公式如下：

ReceptiveField(l)＝2^l+1-1 (1)

公式(1)中l表示层数，每层的感受是呈指数级增长的，因此能有效地对时序数据建模。在每个单元的最后一层接一个conv1d输出三个序列的分数，然后再逐个阶段优化这个序列的分数，最后再经过sigmoid层归一化序列分数。实验表明在经过5个阶段时能达到最优效果。其中，时序概率网络损失函数：

其中b_i＝sign(g_i-π_IOP)是一个二值函数，目的是要将真实匹配值转化成[0,1]。l⁺＝∑g_i，l^-＝l_w-l⁺，

这样做类似于non-local network中的focal loss，能在一定程度上减缓正负样本不平衡的问题，最后生成第一开始时序点Ps和第一结束时序点Pe。本发明采用的是两阶段的时序动作检测范式，在时序边界概率生成上，提出了一个多阶段多尺度膨胀卷积模块(Ms)用于生成时序概率，比传统的时序卷积能更有效地挖掘时序信息。

S104，根据所述第一开始时序点和第一结束时序点，生成初始时序动作提名。

在本实施例中，通过遍历所述第一开始时序点和第一结束时序点，以获得开始边界点和结束边界点；其中，所述开始边界点以及结束边界点均为极值点或者分数大于等于所述第一开始时序点和第一结束时序点中最大值的一半的点；然后根据所述开始边界点以及结束边界点，以获得第二开始点序列和第二结束点序列；对所述第二开始点序列和第二结束点序列进行组合，以生成初始动作时序提名。例如，分别遍历Ps和Pe，找出Ps和Pe中的极值点，找出其分数大于等于该序列中最大值的一半的点，视之为最有可能的边界点(开始/结束点)，得到第二开始点序列S和第二结束点序列E；组合序列S和序列E形成开始和结束对，抑制结束时间小于开始时间的匹配对，形成初始时序动作提名。

S105，根据初始时序动作提名，以获得时序动作提名的评价分数。

在本实施例中，所述S105的步骤包括如下：

S1051，根据初始时序动作提名构造时序提名特征。

在本实施例中，根据所述初始时序动作提名，以查找出初始时序动作提名的与开始时间最近的结束时间和与结束时间最近的开始时间；然后根据与开始时间最近的结束时间和与结束时间最近的开始时间，在初始时序动作提名中分别查找对应的相关时序提名；然后计算与开始时间最近的结束时间在对应的相关时序提名中每个时序提名的时序第一交并比，以及计算与结束时间最近的开始时间在对应的相关时序提名中每个时序提名的时序第二交并比；根据第一交并比以及第二交并比，构造时序提名关联特征；以及根据时序提名相关的背景语义信息构造时序提名场景特征；将所述时序提名关联特征以及时序提名场景特征进行融合，以构建时序提名特征。本发明在时序提名特征构造上设计了一种新颖的特征，包含时序提名关联特征和时序提名场景特征，能解决传统的时序提名上下文信息提取固定尺度无法捕捉完整的上下文信息的问题，从而为时序提名产生了可靠的置信度分数。

为了便于理解，以下以实际举例进行说明：

例子1，例如，如图5所示，中间那个时序提名表示为p，与之相邻的两个时序提名分别表示为p’和p”，认为p’和p”能提供重要的时序上下文信息。假设前面生成的时序候选提名

对于其中一个pi，都有开始时间和结束时间

对于每个开始时间和结束时间，均能找到离pi的开始时间最近的结束时间

和离pi的结束时间最近的开始时间

则可以在

中找到与

相关的时序提名

Step4:计算pi与

中每个时序提名的时序交并比tiou，计算pi与

中每个时序提名的时序交并比tiou，分别取两个最高tiou的时序提名作为pi的时序提名关联特征，最终得到

其中j,j’为每个pi搜索到的关联时序提名的编号，是一个不定值。

例子2，时序场景特征是为了捕捉与时序提名相关的背景信息，因为背景包含了大量丰富的动作语义信息，以往的特征构造往往是固定尺度的盲目地覆盖时序提名周围的上下文特征，例如TURN的时序金字塔池化，BSN的固定尺度覆盖，这些往往不能完整覆盖场景信息。如图6所示，对于一个时序提名pi，同样依照上面的方法找到与pi开始点最近的结束点te’和与结束点最近的开始点ts’，则认为

为时序提名pi的开始场景特征，

为结束场景特征。同时为了避免候选时序提名的不确定性带来的误差，在此基础上构造了以下的金字塔场景特征：

其中d为ts’和te之间的长度；

类似地，对于结束点也执行类似地操作，将这三级特征连接就形成时序提名场景特征。

S1052，将所述时序提名特征输入至时序评估网络，以获得时序动作提名的评价分数。

在本实施例中，时序提名评价的目标是对上一步得到的候选时序提名进行评价，输出置信度分数p_conf以便后处理过程根据p_conf去除冗余的时序提名并最终得到准确的时序边界。

时序评估网络损失函数：

公式3是是时序提名置信度的评价损失函数，P_conf,i是网络输出时序提名置信度，g_iou,i是该时序提名与所有真实值的最大时序交并比，L_PE是简单的平方回归损失。

S106，根据时序动作提名的评价分数对时序提名进行分类，以完成视频的时序动作检测。

在本实施例中，对时序提名的分类，采用以下的多分类损失函数：

其中k_g是这个动作实例的真实类别标签，在评价s分类上我们使用传统交叉熵损失。

综上，本发明的提供的一个多阶段多尺度的时序概率生成模块，用于生成包含丰富时序上下文信息的时序边界概率序列；且通过构造了一种新颖的时序提名特征，包含时序提名关联特征和时序提名场景特征，该特征能有效捕捉时序提名之间的关联信息和时序场景提供的语义信息，能使得后续的时序提名产生更可靠的置信度分数，进而提高时序动作检测准确度。同时本发明采用two-stream(I3D)+C3D双重特征表达形式，能有效地提取视频时空特征，增强了视频序列的表达能力。

在上述实施例的基础上，本发明一优选实施例中，通过two-stream和C3D联合编码对视频进行特征提取；通过softmax分类器对时序提名进行分类。

本发明第二实施例：

参见图7，本发明第二实施例还提供了一种视频的时序动作检测装置，包括：

特征提取单元100，用于对视频进行特征提取，以获得视频特征向量；

时序点概率分数获取单元200，用于将所述视频特征向量输入至时序概率卷积神经网络中，以获得时序点概率分数；

冗余时序点去除单元300，用于去除所述时序点概率分数的冗余时序点，以获得开始概率序列的时序点和结束概率序列的时序点；

初始时序动作提名生成单元400，用于根据所述第一开始时序点和第一结束时序点，生成初始时序动作提名；

评价分数获取单元500，用于根据初始时序动作提名，以获得时序动作提名的评价分数；

时序提名分类单元600，用于根据时序动作提名的评价分数对时序提名进行分类，以完成视频的时序动作检测。

在上述实施例的基础上，本发明一优选实施例中，初始时序动作提名生成单元400，包括：

在上述实施例的基础上，本发明一优选实施例中，评价分数获取单元500，包括：

在上述实施例的基础上，本发明一优选实施例中，时序提名特征构造模块，包括：

在上述实施例的基础上，本发明一优选实施例中，还包括：

本发明第三实施例：

本发明第三实施例还提供了一种视频的时序动作检测设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现如上述实施例所述的视频的时序动作检测方法。

本发明第四实施例：

本发明第四实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的视频的时序动作检测方法。

示例性的，所述计算机程序可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在视频的时序动作检测设备中的执行过程。

所述视频的时序动作检测设备可包括但不仅限于处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是视频的时序动作检测设备的示例，并不构成对视频的时序动作检测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述视频的时序动作检测设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述视频的时序动作检测设备的控制中心，利用各种接口和线路连接整个视频的时序动作检测设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述视频的时序动作检测设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述视频的时序动作检测设备集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种视频的时序动作检测方法，其特征在于，包括：

对视频进行特征提取，以获得视频特征向量；

根据初始时序动作提名，以获得时序动作提名的评价分数；其中，所述根据初始时序动作，以获得时序动作提名的评价分数，具体为：根据初始时序动作提名构造时序提名特征；将所述时序提名特征输入至时序评估网络，以获得时序动作提名的评价分数；根据初始时序动作提名构造时序提名特征，具体为：根据所述初始时序动作提名，以查找出初始时序动作提名的与开始时间最近的结束时间和与结束时间最近的开始时间；根据与开始时间最近的结束时间和与结束时间最近的开始时间，在初始时序动作提名中分别查找对应的相关时序提名；计算与开始时间最近的结束时间在对应的相关时序提名中每个时序提名的时序第一交并比，以及计算与结束时间最近的开始时间在对应的相关时序提名中每个时序提名的时序第二交并比；根据第一交并比以及第二交并比，构造时序提名关联特征；以及根据时序提名相关的背景语义信息构造时序提名场景特征；将所述时序提名关联特征以及时序提名场景特征进行融合，以构建时序提名特征；

根据时序动作提名的评价分数对时序提名进行分类，以完成视频的时序动作检测；

通过two-stream和C3D联合编码对视频进行特征提取；

通过softmax分类器对时序提名进行分类。

2.根据权利要求1所述的视频的时序动作检测方法，其特征在于，根据所述第一开始时序点和第一结束时序点，生成初始时序动作提名，具体为：

3.一种视频的时序动作检测装置，其特征在于，包括：

初始时序动作提名生成单元，用于根据第一开始时序点和第一结束时序点，生成初始时序动作提名；

评价分数获取单元，用于根据初始时序动作提名，以获得时序动作提名的评价分数；其中，评价分数获取单元，包括：时序提名特征构造模块，用于根据初始时序动作提名构造时序提名特征；评价分数获取模块，用于将所述时序提名特征输入至时序评估网络，以获得时序动作提名的评价分数；时序提名特征构造模块具体用于：根据所述初始时序动作提名，以查找出初始时序动作提名的与开始时间最近的结束时间和与结束时间最近的开始时间；根据与开始时间最近的结束时间和与结束时间最近的开始时间，在初始时序动作提名中分别查找对应的相关时序提名；计算与开始时间最近的结束时间在对应的相关时序提名中每个时序提名的时序第一交并比，以及计算与结束时间最近的开始时间在对应的相关时序提名中每个时序提名的时序第二交并比；根据第一交并比以及第二交并比，构造时序提名关联特征；以及根据时序提名相关的背景语义信息构造时序提名场景特征；将所述时序提名关联特征以及时序提名场景特征进行融合，以构建时序提名特征；

时序提名分类单元，用于根据时序动作提名的评价分数对时序提名进行分类，以完成视频的时序动作检测；

分类单元，用于通过two-stream和C3D联合编码对视频进行特征提取，通过softmax分类器对时序提名进行分类。

4.根据权利要求3所述的视频的时序动作检测装置，其特征在于，初始时序动作提名生成单元，包括：

5.一种视频的时序动作检测设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行如权利要求1至2任意一项所述的视频的时序动作检测方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至2任意一项所述的视频的时序动作检测方法。