CN111723243B

CN111723243B - 一种动作片段检测方法、装置、设备及介质

Info

Publication number: CN111723243B
Application number: CN202010542499.4A
Authority: CN
Inventors: 余程鹏; 王博; 左凯
Original assignee: Nanjing Leading Technology Co Ltd
Current assignee: Nanjing Leading Technology Co Ltd
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2022-06-07
Anticipated expiration: 2040-06-15
Also published as: CN111723243A

Abstract

本申请公开了一种动作片段检测方法、装置、设备及介质，应用于视频处理技术领域，用以解决现有技术的动作片段检测方法存在准确度低、覆盖率差的问题。具体为：利用时序评估模型，获得待检测视频中各个视频帧序列的时序信息，并利用各个视频帧序列的时序信息，对各个视频帧序列进行重组，从而实现对待检测视频中视频片段的全局检索，进而利用置信度评估模型，获得各个视频片段的置信度后，从各个视频片段中，选取对应的置信度符合置信度条件的视频片段作为目标动作片段，从而使得从各个视频片段中选取出的目标动作片段，不仅可以覆盖待检测视频中的所有动作片段，而且，目标动作片段的起始时间和结束时间的误差较小、准确度较高。

Description

一种动作片段检测方法、装置、设备及介质

技术领域

本申请涉及视频处理技术领域，尤其涉及一种动作片段检测方法、装置、设备及介质。

背景技术

视频内容分析是当前人工智能(Artificial Intelligence，AI)领域比较热门的研究课题，尤其是随着数码相机、摄像头等监控设备的逐渐增多，以及视频客户端、直播客户端等应用的日渐普及，产生了大量的视频，急需一种智能的视频内容分析方法，对产生的视频进行分析。

目前，视频分析的一个主要分支是动作识别，旨在从视频中提取出包含动作实例的视频片段，但是，实际场景下，视频中通常夹杂很多与动作实例无关的内容，如何从视频中精准且全面地提取出动作片段是当前视频处理技术领域需要考虑的问题。

发明内容

本申请实施例提供了一种动作片段检测方法、装置、设备及介质，用以解决现有技术在从视频中提取动作片段时存在动作片段的准确度较低、覆盖不全面的问题。

本申请实施例提供的技术方案如下：

一方面，本申请实施例提供了一种动作片段检测方法，包括：

对待检测视频进行特征提取，得到第一特征序列，其中，第一特征序列至少包含待检测视频对应的各个视频帧序列的特征数据；

基于第一特征序列，并利用时序评估模型，获得各个视频帧序列的时序信息，其中，时序信息至少包含视频帧序列属于动作片段开始的开始概率以及属于动作片段结束的结束概率；

基于各个视频帧序列的时序信息，对各个视频帧序列进行重组，得到视频片段集合；

对视频片段集合包含的各个视频片段分别进行特征采样，得到第二特征序列，其中，第二特征序列至少包含各个视频片段的特征数据；

基于第二特征序列，并利用置信度评估模型，获得视频片段集合包含的各个视频片段的置信度，其中，置信度表征视频片段中包含动作片段的概率；

从视频片段集合包含的各个视频片段中，选取对应的置信度符合置信度条件的视频片段作为目标动作片段。

在一种可能的实施方式中，对待检测视频进行特征提取，得到第一特征序列，包括：

利用双流网络(Two Stream Networks，TSN)，按照设定视频帧间隔，对待检测视频进行红绿蓝(Red Green Blue，RGB)特征提取和光流特征提取，得到各个视频帧序列的RGB特征数据和光流特征数据；

分别对各个视频帧序列的RGB特征数据和光流特征数据进行拼接处理，得到各个视频帧序列的特征数据，并基于各个视频帧序列的特征数据，得到第一特征序列。

在一种可能的实施方式中，时序信息还包含视频帧序列属于动作片段中间的中间概率。

在一种可能的实施方式中，基于各个视频帧序列的时序信息，对各个视频帧序列进行重组，得到视频片段集合，包括：

从各个视频帧序列的时序信息中，选取满足设定条件的开始概率组成开始概率集合，以及选取满足设定条件的结束概率组成结束概率集合；

将开始概率集合包含的每一个开始概率对应的视频帧序列，分别与结束概率集合包含的每一个结束概率对应的视频帧序列进行组合，得到各个视频片段；

基于各个视频片段，得到视频片段集合。

在一种可能的实施方式中，从各个视频帧序列的时序信息中，选取满足设定条件的开始概率组成开始概率集合，以及选取满足设定条件的结束概率组成结束概率集合，包括：

从各个视频帧序列的时序信息中，选取不小于设定阈值的开始概率和属于峰值的开始概率组成开始概率集合；以及，

从各个视频帧序列的时序信息中，选取不小于设定阈值的结束概率和属于峰值的结束概率组成结束概率集合。

在一种可能的实施方式中，基于各个视频片段，得到视频片段集合，包括：

从各个视频片段中，选取开始概率对应的视频帧序列在待检测视频中的时间位置，小于结束概率对应的视频帧序列在待检测视频中的时间位置的视频片段组成视频片段集合。

在一种可能的实施方式中，对视频片段集合包含的各个视频片段分别进行特征采样，得到第二特征序列，包括：

采用线性插值方法，从视频片段集合包含的各个视频片段中分别采取设定数目的特征值，得到视频片段集合包含的各个视频片段的特征数据；

基于视频片段集合包含的各个视频片段的特征数据，得到第二特征序列。

在一种可能的实施方式中，从视频片段集合包含的各个视频片段中，选取对应的置信度符合置信度条件的视频片段作为目标动作片段，包括：

若视频片段集合包含的各个视频片段的置信度均小于设定阈值，则从视频片段集合包含的各个视频片段中，选取置信度最大的视频片段作为目标动作片段；

若视频片段集合中存在置信度不小于设定阈值的视频片段，则将视频片段集合中置信度不小于设定阈值的视频片段作为初选动作片段，并按照置信度从大到小的顺序，对各个初选视频片段进行排序，得到视频片段序列，以及从视频片段序列中，选取前K个视频片段作为目标动作片段，其中，K为不大于初选视频片段总数的正整数。

另一方面，本申请实施例提供了一种动作片段检测装置，包括：

特征提取单元，用于对待检测视频进行特征提取，得到第一特征序列，其中，第一特征序列至少包含待检测视频对应的各个视频帧序列的特征数据；

时序评估单元，用于基于第一特征序列，并利用时序评估模型，获得各个视频帧序列的时序信息，其中，时序信息至少包含视频帧序列属于动作片段开始的开始概率以及属于动作片段结束的结束概率；

序列重组单元，用于基于各个视频帧序列的时序信息，对各个视频帧序列进行重组，得到视频片段集合；

特征采样单元，用于对视频片段集合包含的各个视频片段分别进行特征采样，得到第二特征序列，其中，第二特征序列至少包含各个视频片段的特征数据；

置信度评估单元，用于基于第二特征序列，并利用置信度评估模型，获得视频片段集合包含的各个视频片段的置信度，其中，置信度表征视频片段中包含动作片段的概率；

片段选取单元，用于从视频片段集合包含的各个视频片段中，选取对应的置信度符合置信度条件的视频片段作为目标动作片段。

在一种可能的实施方式中，在对待检测视频进行特征提取，得到第一特征序列时，特征提取单元具体用于：

利用TSN，按照设定视频帧间隔，对待检测视频进行RGB特征提取和光流特征提取，得到各个视频帧序列的RGB特征数据和光流特征数据；

在一种可能的实施方式中，在基于各个视频帧序列的时序信息，对各个视频帧序列进行重组，得到视频片段集合时，序列重组单元具体用于：

基于各个视频片段，得到视频片段集合。

在一种可能的实施方式中，在从各个视频帧序列的时序信息中，选取满足设定条件的开始概率组成开始概率集合，以及选取满足设定条件的结束概率组成结束概率集合时，序列重组单元具体用于：

在一种可能的实施方式中，在基于各个视频片段，得到视频片段集合时，序列重组单元具体用于：

在一种可能的实施方式中，在对视频片段集合包含的各个视频片段分别进行特征采样，得到第二特征序列时，特征采样单元具体用于：

在一种可能的实施方式中，在从视频片段集合包含的各个视频片段中，选取对应的置信度符合置信度条件的视频片段作为目标动作片段时，片段选取单元具体用于：

另一方面，本申请实施例提供了一种动作片段检测设备，包括：存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现本申请实施例提供的动作片段检测方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令被处理器执行时实现本申请实施例提供的动作片段检测方法。

本申请实施例的有益效果如下：

本申请实施例中，利用时序评估模型，可以获得待检测视频中各个视频帧序列的时序信息，从而利用各个视频帧序列的时序信息，对各个视频帧序列进行重组，可以实现对待检测视频中视频片段的全局检索，进而，利用置信度评估模型，获得全局检索出的各个视频片段的置信度后，可以从全局检索出的各个视频片段中，选取对应的置信度符合置信度条件的视频片段作为目标动作片段，从而使得从全局检索出的各个视频片段中选取出的目标动作片段，不仅可以覆盖待检测视频中的所有动作片段，而且，目标动作片段的起始时间和结束时间与实际场景下的动作实例的起始时间和结束时间的误差较小、准确度较高。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地可以从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中动作片段检测方法的概况流程示意图；

图2为本申请实施例中动作片段检测方法的具体流程示意图；

图3为本申请实施例中动作片段检测装置的功能结构示意图；

图4为本申请实施例中动作片段检测设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及有益效果更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于本领域技术人员更好地理解本申请，下面先对本申请涉及的技术用语进行简单介绍。

1、特征序列，是由多个特征数据组成的序列。本申请中，特征序列可以包括但不限于：第一特征序列和第二特征序列，其中：

第一特征序列，是由待检测视频对应的各个视频帧序列的特征数据组成的序列；

第二特征序列，是由视频片段集合包含的各个视频片段的特征数据组成的序列。

2、时序信息，是表征视频帧序列与动作片段之间起止关系的信息。本申请中，时序信息可以包括但不限于：视频帧序列属于动作片段开始的开始概率，以及视频帧序列属于动作片段结束的结束概率。实际应用中，时序信息还可以包括：视频帧序列属于动作片段中间的中间概率。

3、时序评估模型，是利用视频样本的预测时序信息和真实时序信息，采用损失函数，对预先构建的卷积神经网络模型进行训练得到的，用于对视频帧序列的时序信息进行评估的模型。

4、置信度，是表征视频片段中包含动作片段的概率的信息。

5、置信度评估模型，是利用视频片段样本的预测置信度和真实置信度，采用损失函数，对预先构建的卷积神经网络模型进行训练得到的，用于对视频片段的置信度进行评估的模型。

需要说明的是，在本文中提及的“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样的用语在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。

在介绍了本申请涉及的技术用语后，接下来，对本申请实施例的应用场景和设计思想进行简单介绍。

目前，在从视频中提取动作片段时采用的动作片段提取方法通常是，使用多个设定时间的滑动窗口，以固定间隔进行滑动，得到各个视频片段后，从各个视频片段中，选取包含动作实例的视频片段作为动作片段。在目前的这种动作片段提取方法中，由于是按照固定时间的滑动窗口，以固定间隔进行滑动来获取动作片段，因此，最终获得的动作片段的起始时间和结束时间，与实际场景下的动作实例的起始时间和结束时间存在一定误差，从而导致最终获得的动作片段的准确度较低，而且，由于实际场景下动作实例的持续时间复杂多变，因此，单一地按照固定时间的滑动窗口，以固定间隔进行滑动来获取动作片段，不能灵活覆盖视频中所有包含动作实例的动作片段，从而导致最终获得的动作片段覆盖不全面。

为此，本申请实施例中，首先，对待检测视频进行特征提取，得到第一特征序列，其中，第一特征序列至少包含待检测视频对应的各个视频帧序列的特征数据；其次，基于第一特征序列，并利用时序评估模型，获得各个视频帧序列的时序信息，其中，时序信息至少包含视频帧序列属于动作片段开始的开始概率以及属于动作片段结束的结束概率；再次，基于各个视频帧序列的时序信息，对各个视频帧序列进行重组，得到视频片段集合，并对视频片段集合包含的各个视频片段分别进行特征采样，得到第二特征序列，其中，第二特征序列至少包含所述各个视频片段的特征数据；然后，基于第二特征序列，并利用置信度评估模型，获得视频片段集合包含的各个视频片段的置信度，其中，置信度表征视频片段中包含动作片段的概率；最后，从视频片段集合包含的各个视频片段中，选取对应的置信度符合置信度条件的视频片段作为目标动作片段。

这样，利用时序评估模型，可以获得待检测视频中各个视频帧序列的时序信息，从而利用各个视频帧序列的时序信息，对各个视频帧序列进行重组，可以实现对待检测视频中视频片段的全局检索，进而，利用置信度评估模型，获得全局检索出的各个视频片段的置信度后，可以从全局检索出的各个视频片段中，选取对应的置信度符合置信度条件的视频片段作为目标动作片段，从而使得从全局检索出的各个视频片段中选取出的目标动作片段，不仅可以覆盖待检测视频中的所有动作片段，而且，目标动作片段的起始时间和结束时间与实际场景下的动作实例的起始时间和结束时间的误差较小、准确度较高。

在介绍了本申请实施例的应用场景和设计思想之后，下面对本申请实施例提供的技术方案进行详细说明。

本申请实施例提供了一种动作片段检测方法，参阅图1所示，本申请实施例提供的动作片段检测方法的概况流程如下：

步骤101：对待检测视频进行特征提取，得到第一特征序列，其中，第一特征序列至少包含待检测视频对应的各个视频帧序列的特征数据。

实际应用中，在执行步骤101时，可以采用但不限于以下方式：

首先，利用TSN，按照设定视频帧间隔，对待检测视频进行RGB特征提取和光流特征提取，得到各个视频帧序列的RGB特征数据和光流特征数据。

例如：假设待检测视频有N帧，设定视频帧间隔为M帧，则可以利用TSN，每隔M帧，对待检测视频进行一次RGB特征提取和光流特征提取，从而得到L＝N/M个视频帧序列的RGB特征数据和光流特征数据。

然后，分别对各个视频帧序列的RGB特征数据和光流特征数据进行拼接处理，得到各个视频帧序列的特征数据。

最后，基于各个视频帧序列的特征数据，得到第一特征序列。

步骤102：基于第一特征序列，并利用时序评估模型，获得各个视频帧序列的时序信息，其中，时序信息至少包含视频帧序列属于动作片段开始的开始概率以及属于动作片段结束的结束概率。

实际应用中，为了能够获得待检测视频对应的各个视频帧序列的时序信息，可以预先构建一个卷积神经网络模型，并利用视频样本的预测时序信息和真实时序信息，采用损失函数，对预先构建的卷积神经网络模型进行训练，来获得用于对视频帧序列的时序信息进行评估的时序评估模型。其中，时序评估模型可以由3层卷积层组成，前2层卷积层中，过滤器数目为512，卷积核为3，激活函数为Relu，步长为1，最后1层卷积层中，过滤器数目为3，卷积核为3，激活函数为Sigmoid，具体的，如公式(1)所示，时序评估模型可表示为：Conv1(512,3,Relu)→Conv2(512,3,Relu)→Conv3(3,3,Sigmoid)……(1)

在公式(1)中，Conv1(512,3,Relu)表征时序评估模型的第1层卷积层；Conv2(512,3,Relu)表征时序评估模型的第2层卷积层；Conv3(3,3,Sigmoid)表征时序评估模型的第3层卷积层。

值得说的是，在时序评估模型的训练过程中，如公式(2)所示，损失函数可表示为：

J＝L(s)+λL(m)+L(e)……(2)

在公式(2)中，J表征损失函数；L(s)表征开始概率的二元逻辑回归函数；L(m)表征中间概率的二元逻辑回归函数；L(e)表征结束概率的二元逻辑回归函数；λ表征平衡系数，一般为小数，例如，可以取值为0.01等。

实际应用中，如公式(3)所示，开始概率的二元逻辑回归函数可表示为：

L(s)＝∑bs*log(Ps)+(1-bs)*log(1-Ps)……(3)

在公式(3)中，Ps表征视频帧序列属于动作片段开始的开始概率；bs表征开始概率的指示函数，当视频帧序列属于动作片段开始时，bs取值为1，当视频帧序列不属于动作片段开始时，bs取值为0。

实际应用中，如公式(4)所示，中间概率的二元逻辑回归函数可表示为：

L(m)＝∑bm*log(Pm)+(1-bm)*log(1-Pm)……(4)

在公式(4)中，Pm表征视频帧序列属于动作片段中间的中间概率；bm表征中间概率的指示函数，当视频帧序列属于动作片段中间时，bm取值为1，当视频帧序列不属于动作片段中间时，bm取值为0。

实际应用中，如公式(5)所示，结束概率的二元逻辑回归函数可表示为：

L(e)＝∑be*log(Pe)+(1-be)*log(1-Pe)……(5)

在公式(5)中，Pe表征视频帧序列属于动作片段结束的结束概率；be表征结束概率的指示函数，当视频帧序列属于动作片段结束时，be取值为1，当视频帧序列不属于动作片段结束时，be取值为0。

进一步的，在时序评估模型训练完成后，即可利用时序评估模型，对待检测视频对应的各个视频帧序列的时序信息进行评估，以获取各个视频帧序列的时序信息。

步骤103：基于各个视频帧序列的时序信息，对各个视频帧序列进行重组，得到视频片段集合。

实际应用中，在执行步骤103时，可以采用但不限于以下方式：

首先，从各个视频帧序列的时序信息中，选取满足设定条件的开始概率组成开始概率集合，以及选取满足设定条件的结束概率组成结束概率集合。

本申请实施例中，设定条件可以是但不限于是：概率值大于设定阈值(例如，大于0.7的概率值)，或概率值属于峰值(例如，大于前一视频帧序列的开始概率、小于后一视频帧序列的开始概率的概率值)，在具体实施时，可以从各个视频帧序列的时序信息中，选取不小于设定阈值的开始概率和属于峰值的开始概率组成开始概率集合；以及，从各个视频帧序列的时序信息中，选取不小于设定阈值的结束概率和属于峰值的结束概率组成结束概率集合。

然后，将开始概率集合包含的每一个开始概率对应的视频帧序列，分别与结束概率集合包含的每一个结束概率对应的视频帧序列进行组合，得到各个视频片段。

最后，基于各个视频片段，得到视频片段集合。

在具体实施时，可以从各个视频片段中，选取开始概率对应的视频帧序列在待检测视频中的时间位置，小于结束概率对应的视频帧序列在待检测视频中的时间位置的视频片段组成视频片段集合。

步骤104：对视频片段集合包含的各个视频片段分别进行特征采样，得到第二特征序列，其中，第二特征序列至少包含各个视频片段的特征数据。

实际应用中，在执行步骤104时，可以采用但不限于以下方式：

首先，采用线性插值方法，从视频片段集合包含的各个视频片段中分别采取设定数目(例如，32个)的特征值，得到视频片段集合包含的各个视频片段的特征数据。

然后，基于视频片段集合包含的各个视频片段的特征数据，得到第二特征序列。

步骤105：基于第二特征序列，并利用置信度评估模型，获得视频片段集合包含的各个视频片段的置信度，其中，置信度表征视频片段中包含动作片段的概率。

实际应用中，为了能够获得视频片段集合包含的各个视频片段的置信度，可以预先构建一个卷积神经网络模型，并利用视频片段样本的预测置信度和真实置信度，采用损失函数，对预先构建的卷积神经网络模型进行训练，来获得用于对视频片段的置信度进行评估的置信度评估模型。其中，置信度评估模型可以由2层全连接层组成，第1层全连接层有512个单元，激活函数为Relu，第2层全连接层有1个单元，激活函数为Sigmoid，具体的，如公式(6)所示，置信度评估模型可表示为：

FC1(512,Relu)→FC2(1,Sigmoid)……(6)

在公式(6)中，FC1(512,Relu)表征置信度评估模型的第1层全连接层；FC2(1,Sigmoid)表征置信度评估模型的第2层全连接层。

值得说的是，在置信度评估模型的训练过程中，如公式(7)所示，损失函数可表示为：

在公式(7)中，J表征损失函数；N表征视频片段样本的数目；p表征预测置信度；g表征真实置信度。

进一步的，在置信度评估模型训练完成后，即可利用置信度评估模型，对视频片段集合包含的各个视频片段的置信度进行评估，以获取各个视频片段的置信度。

步骤106：从视频片段集合包含的各个视频片段中，选取对应的置信度符合置信度条件的视频片段作为目标动作片段。

实际应用中，在执行步骤106时，可以存在但不限于以下两种情况：

第一种情况：视频片段集合包含的各个视频片段的置信度均小于设定阈值。

此种情况下，可以从视频片段集合包含的各个视频片段中，选取置信度最大的视频片段作为目标动作片段。

第二种情况：视频片段集合中存在置信度不小于设定阈值的视频片段。

此种情况下，可以将视频片段集合中置信度不小于设定阈值的视频片段作为初选动作片段，并按照置信度从大到小的顺序，对各个初选视频片段进行排序，得到视频片段序列，以及从视频片段序列中，选取前K个视频片段作为目标动作片段，其中，K为不大于初选视频片段总数的正整数。

值得说的是，随着网约车的逐渐普及，网约车行车安全已成为热门话题，目前，网约车行车安全的核心是网约车司机的驾驶行为安全，实际应用中，为了实现对网约车司机的驾驶行为的监控，可以在网约车内安装摄像头，通过摄像头采集车内视频，并通过对采集到的车内视频进行视频内容分析，实现对网约车司机的驾驶行为的检测，为了确保对网约车司机的驾驶行为检测的准确度和全面性，可以采用本申请实施例提供的动作片段检测方法，从摄像头采集到的车内视频中提取动作片段，具体的，参阅图2所示，在驾驶行为监控场景下，本申请实施例提供的动作片段检测方法的具体流程如下：

步骤201：利用安装在网约车内的摄像头采集车内视频，并将采集到的车内视频作为待检测视频。

步骤202：利用TSN，按照设定视频帧间隔，对待检测视频进行RGB特征提取和光流特征提取，得到各个视频帧序列的RGB特征数据和光流特征数据。

步骤203：分别对各个视频帧序列的RGB特征数据和光流特征数据进行拼接处理，得到各个视频帧序列的特征数据，并基于各个视频帧序列的特征数据，得到第一特征序列{T1}。

步骤204：将第一特征序列{T1}输入时序评估模型，获得各个视频帧序列对应的属于动作片段开始的开始概率Ps、属于动作片段中间的中间概率Pm和属于动作片段结束的结束概率Pe等时序信息。

步骤205：从各个视频帧序列的时序信息中，选取不小于设定阈值的开始概率和属于峰值的开始概率组成开始概率集合{Ps}；以及，从各个视频帧序列的时序信息中，选取不小于设定阈值的结束概率和属于峰值的结束概率组成结束概率集合{Pe}。

步骤206：将开始概率集合{Ps}包含的每一个开始概率Ps对应的视频帧序列，分别与结束概率集合{Pe}包含的每一个结束概率Pe对应的视频帧序列进行组合，得到各个视频片段。

步骤207：从各个视频片段中，选取开始概率Ps对应的视频帧序列在待检测视频中的时间位置，小于结束概率Pe对应的视频帧序列在待检测视频中的时间位置的视频片段组成视频片段集合{d}。

步骤208：采用线性插值方法，从视频片段集合{d}包含的各个视频片段中分别采取设定数目的特征值，得到视频片段集合{d}包含的各个视频片段的特征数据，并基于视频片段集合{d}包含的各个视频片段的特征数据，得到第二特征序列{T2}。

步骤209：将第二特征序列{T2}输入置信度评估模型，获得视频片段集合{d}包含的各个视频片段的置信度。

步骤210：判断视频片段集合中是否存在置信度不小于设定阈值的视频片段，若是，则执行步骤211；若否，则执行步骤212。

步骤211：将视频片段集合中置信度不小于设定阈值的视频片段作为初选动作片段，并按照置信度从大到小的顺序，对各个初选视频片段进行排序，得到视频片段序列，以及从视频片段序列中，选取前K个视频片段作为目标动作片段，其中，K为不大于初选视频片段总数的正整数，并继续执行步骤213。

步骤212：从视频片段集合包含的各个视频片段中，选取置信度最大的视频片段作为目标动作片段，并继续执行步骤213。

步骤213：对目标动作片段进行特征提取，得到目标动作片段的特征数据，并基于目标动作片段的特征数据，得到第三特征序列{T3}。

步骤214：将第三特征序列{T3}输入动作分类模型，获得目标动作片段所属的动作片段类型。

步骤215：基于目标动作片段所属的动作片段类型，对待检测视频中是否存在危险驾驶动作进行检测。其中，危险驾驶动作包括但不限于：抽烟、打电话、发信息等。

步骤216：检测出待检测视频中存在危险驾驶动作时，通过车载终端进行危险驾驶提示。

这样，通过采用本申请实施例提供的动作片段检测方法，对摄像头采集到的车内视频进行动作片段检测，不仅能够全面的覆盖到车内视频包含的所有目标动作片段，而且，检测出的目标动作片段的起始时间和结束时间与实际场景下的动作实例的起始时间和结束时间的误差较小、准确度较高，从而为危险驾驶动作的检测提供了良好基础，进而提升了危险驾驶动作检测的准确度。

值得说的是，本申请实施例提供的动作片段检测方法不仅可以应用于驾驶行为监控场景，还可以应用于视频推荐、智能监控和视频剪辑等其它需要从视频中提取动作片段的场景，具体实施方式与驾驶行为监控场景下的具体实施方式类似，重复之处不再赘述。

基于上述实施例，本申请实施例提供了一种动作片段检测装置，参阅图3所示，本申请实施例提供的动作片段检测装置300至少包括：

特征提取单元301，用于对待检测视频进行特征提取，得到第一特征序列，其中，第一特征序列至少包含待检测视频对应的各个视频帧序列的特征数据；

时序评估单元302，用于基于第一特征序列，并利用时序评估模型，获得各个视频帧序列的时序信息，其中，时序信息至少包含视频帧序列属于动作片段开始的开始概率以及属于动作片段结束的结束概率；

序列重组单元303，用于基于各个视频帧序列的时序信息，对各个视频帧序列进行重组，得到视频片段集合；

特征采样单元304，用于对视频片段集合包含的各个视频片段分别进行特征采样，得到第二特征序列，其中，第二特征序列至少包含各个视频片段的特征数据；

置信度评估单元305，用于基于第二特征序列，并利用置信度评估模型，获得视频片段集合包含的各个视频片段的置信度，其中，置信度表征视频片段中包含动作片段的概率；

片段选取单元306，用于从视频片段集合包含的各个视频片段中，选取对应的置信度符合置信度条件的视频片段作为目标动作片段。

在一种可能的实施方式中，在对待检测视频进行特征提取，得到第一特征序列时，特征提取单元301具体用于：

在一种可能的实施方式中，在基于各个视频帧序列的时序信息，对各个视频帧序列进行重组，得到视频片段集合时，序列重组单元303具体用于：

基于各个视频片段，得到视频片段集合。

在一种可能的实施方式中，在从各个视频帧序列的时序信息中，选取满足设定条件的开始概率组成开始概率集合，以及选取满足设定条件的结束概率组成结束概率集合时，序列重组单元303具体用于：

在一种可能的实施方式中，在基于各个视频片段，得到视频片段集合时，序列重组单元303具体用于：

在一种可能的实施方式中，在对视频片段集合包含的各个视频片段分别进行特征采样，得到第二特征序列时，特征采样单元304具体用于：

在一种可能的实施方式中，在从视频片段集合包含的各个视频片段中，选取对应的置信度符合置信度条件的视频片段作为目标动作片段时，片段选取单元306具体用于：

需要说明的是，本申请实施例提供的动作片段检测装置300解决技术问题的原理与本申请实施例提供的动作片段检测方法相似，因此，本申请实施例提供的动作片段检测装置300的实施可以参见本申请实施例提供的动作片段检测方法的实施，重复之处不再赘述。

在介绍了本申请实施例提供的动作片段检测方法和装置之后，接下来，对本申请实施例提供的动作片段检测设备进行简单介绍。

参阅图4所示，本申请实施例提供的动作片段检测设备400至少包括：处理器401、存储器402和存储在存储器402上并可在处理器401上运行的计算机程序，处理器401执行计算机程序时实现本申请实施例提供的动作片段检测方法。

需要说明的是，图4所示的动作片段检测设备400仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供的动作片段检测设备400还可以包括连接不同组件(包括处理器401和存储器402)的总线403。其中，总线403表示几类总线结构中的一种或多种，包括存储器总线、外围总线、局域总线等。

存储器402可以包括易失性存储器形式的可读介质，例如随机存储器(RandomAccess Memory，RAM)4021和/或高速缓存存储器4022，还可以进一步包括只读存储器(ReadOnly Memory，ROM)4023。

存储器402还可以包括具有一组(至少一个)程序模块4024的程序工具4025，程序模块4024包括但不限于：操作子系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

动作片段检测设备400也可以与一个或多个外部设备404(例如键盘、遥控器等)通信，还可以与一个或者多个使得用户能与动作片段检测设备400交互的设备通信(例如手机、电脑等)，和/或，与使得动作片段检测设备400与一个或多个其它动作片段检测设备400进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口405进行。并且，动作片段检测设备400还可以通过网络适配器406与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide AreaNetwork，WAN)和/或公共网络，例如因特网)通信。如图4所示，网络适配器406通过总线403与动作片段检测设备400的其它模块通信。应当理解，尽管图4中未示出，可以结合动作片段检测设备400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)子系统、磁带驱动器以及数据备份存储子系统等。

下面对本申请实施例提供的计算机可读存储介质进行介绍。本申请实施例提供的计算机可读存储介质存储有计算机指令，计算机指令被处理器执行时实现本申请实施例提供的动作片段检测方法。具体地，该可执行程序可以内置或者安装在动作片段检测设备400中，这样，动作片段检测设备400就可以通过执行内置或者安装的可执行程序实现本申请实施例提供的动作片段检测方法。

此外，本申请实施例提供的动作片段检测方法还可以实现为一种程序产品，该程序产品包括程序代码，当该程序产品可以在动作片段检测设备400上运行时，该程序代码用于使动作片段检测设备400执行本申请实施例提供的动作片段检测方法。

本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合，其中，可读介质可以是可读信号介质或者可读存储介质，而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合，具体地，可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码，还可以在计算设备上运行。然而，本申请实施例提供的程序产品不限于此，在本申请实施例中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种动作片段检测方法，其特征在于，包括：

对待检测视频进行特征提取，得到第一特征序列，其中，所述第一特征序列至少包含所述待检测视频对应的各个视频帧序列的特征数据；

基于所述第一特征序列，并利用时序评估模型，获得所述各个视频帧序列的时序信息，其中，时序信息至少包含视频帧序列属于动作片段开始的开始概率以及属于动作片段结束的结束概率；

基于所述各个视频帧序列的时序信息，对所述各个视频帧序列进行重组，得到视频片段集合；

对所述视频片段集合包含的各个视频片段分别进行特征采样，得到第二特征序列，其中，所述第二特征序列至少包含所述各个视频片段的特征数据；

基于所述第二特征序列，并利用置信度评估模型，获得所述视频片段集合包含的各个视频片段的置信度，其中，置信度表征视频片段中包含动作片段的概率；

从所述视频片段集合包含的各个视频片段中，选取对应的置信度符合置信度条件的视频片段作为目标动作片段。

2.如权利要求1所述的动作片段检测方法，其特征在于，对待检测视频进行特征提取，得到第一特征序列，包括：

利用双流网络TSN，按照设定视频帧间隔，对所述待检测视频进行红绿蓝RGB特征提取和光流特征提取，得到各个视频帧序列的RGB特征数据和光流特征数据；

分别对所述各个视频帧序列的RGB特征数据和光流特征数据进行拼接处理，得到所述各个视频帧序列的特征数据，并基于所述各个视频帧序列的特征数据，得到所述第一特征序列。

3.如权利要求1所述的动作片段检测方法，其特征在于，所述时序信息还包含所述视频帧序列属于动作片段中间的中间概率。

4.如权利要求1-3任一项所述的动作片段检测方法，其特征在于，基于所述各个视频帧序列的时序信息，对所述各个视频帧序列进行重组，得到视频片段集合，包括：

从所述各个视频帧序列的时序信息中，选取满足设定条件的开始概率组成开始概率集合，以及选取满足所述设定条件的结束概率组成结束概率集合；

将所述开始概率集合包含的每一个开始概率对应的视频帧序列，分别与所述结束概率集合包含的每一个结束概率对应的视频帧序列进行组合，得到各个视频片段；

基于所述各个视频片段，得到所述视频片段集合。

5.如权利要求4所述的动作片段检测方法，其特征在于，从所述各个视频帧序列的时序信息中，选取满足设定条件的开始概率组成开始概率集合，以及选取满足所述设定条件的结束概率组成结束概率集合，包括：

从所述各个视频帧序列的时序信息中，选取不小于设定阈值的开始概率和属于峰值的开始概率组成所述开始概率集合；以及，

从所述各个视频帧序列的时序信息中，选取不小于设定阈值的结束概率和属于峰值的结束概率组成所述结束概率集合。

6.如权利要求4所述的动作片段检测方法，其特征在于，基于所述各个视频片段，得到所述视频片段集合，包括：

从所述各个视频片段中，选取开始概率对应的视频帧序列在所述待检测视频中的时间位置，小于结束概率对应的视频帧序列在所述待检测视频中的时间位置的视频片段组成所述视频片段集合。

7.如权利要求1所述的动作片段检测方法，其特征在于，对所述视频片段集合包含的各个视频片段分别进行特征采样，得到第二特征序列，包括：

采用线性插值方法，从所述视频片段集合包含的各个视频片段中分别采取设定数目的特征值，得到所述视频片段集合包含的各个视频片段的特征数据；

基于所述视频片段集合包含的各个视频片段的特征数据，得到所述第二特征序列。

8.如权利要求1所述的动作片段检测方法，其特征在于，从所述视频片段集合包含的各个视频片段中，选取对应的置信度符合置信度条件的视频片段作为目标动作片段，包括：

若所述视频片段集合包含的各个视频片段的置信度均小于设定阈值，则从所述视频片段集合包含的各个视频片段中，选取置信度最大的视频片段作为所述目标动作片段；

若所述视频片段集合中存在置信度不小于所述设定阈值的视频片段，则将所述视频片段集合中置信度不小于所述设定阈值的视频片段作为初选动作片段，并按照置信度从大到小的顺序，对各个初选视频片段进行排序，得到视频片段序列，以及从所述视频片段序列中，选取前K个视频片段作为所述目标动作片段，其中，K为不大于初选视频片段总数的正整数。

9.一种动作片段检测装置，其特征在于，包括：

特征提取单元，用于对待检测视频进行特征提取，得到第一特征序列，其中，所述第一特征序列至少包含所述待检测视频对应的各个视频帧序列的特征数据；

时序评估单元，用于基于所述第一特征序列，并利用时序评估模型，获得所述各个视频帧序列的时序信息，其中，时序信息至少包含视频帧序列属于动作片段开始的开始概率以及属于动作片段结束的结束概率；

序列重组单元，用于基于所述各个视频帧序列的时序信息，对所述各个视频帧序列进行重组，得到视频片段集合；

特征采样单元，用于对所述视频片段集合包含的各个视频片段分别进行特征采样，得到第二特征序列，其中，所述第二特征序列至少包含所述各个视频片段的特征数据；

置信度评估单元，用于基于所述第二特征序列，并利用置信度评估模型，获得所述视频片段集合包含的各个视频片段的置信度，其中，置信度表征视频片段中包含动作片段的概率；

片段选取单元，用于从所述视频片段集合包含的各个视频片段中，选取对应的置信度符合置信度条件的视频片段作为目标动作片段。

10.如权利要求9所述的动作片段检测装置，其特征在于，在对待检测视频进行特征提取，得到第一特征序列时，所述特征提取单元具体用于：

11.如权利要求9所述的动作片段检测装置，其特征在于，所述时序信息还包含所述视频帧序列属于动作片段中间的中间概率。

12.如权利要求9-11任一项所述的动作片段检测装置，其特征在于，在基于所述各个视频帧序列的时序信息，对所述各个视频帧序列进行重组，得到视频片段集合时，所述序列重组单元具体用于：

基于所述各个视频片段，得到所述视频片段集合。

13.如权利要求12所述的动作片段检测装置，其特征在于，在从所述各个视频帧序列的时序信息中，选取满足设定条件的开始概率组成开始概率集合，以及选取满足所述设定条件的结束概率组成结束概率集合时，所述序列重组单元具体用于：

14.如权利要求12所述的动作片段检测装置，其特征在于，在基于所述各个视频片段，得到所述视频片段集合时，所述序列重组单元具体用于：

15.如权利要求9所述的动作片段检测装置，其特征在于，在对所述视频片段集合包含的各个视频片段分别进行特征采样，得到第二特征序列时，所述特征采样单元具体用于：

16.如权利要求9所述的动作片段检测装置，其特征在于，在从所述视频片段集合包含的各个视频片段中，选取对应的置信度符合置信度条件的视频片段作为目标动作片段时，所述片段选取单元具体用于：

17.一种动作片段检测设备，其特征在于，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述的动作片段检测方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现如权利要求1-8任一项所述的动作片段检测方法。