CN111414868B

CN111414868B - 时序动作片段的确定方法、动作检测方法及装置

Info

Publication number: CN111414868B
Application number: CN202010215782.6A
Authority: CN
Inventors: 孙宇超; 姚聪
Original assignee: Beijing Kuangshi Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2023-05-16
Anticipated expiration: 2040-03-24
Also published as: CN111414868A

Abstract

本发明提供了一种时序动作片段的确定方法、动作检测方法及装置，涉及视频识别技术领域，该方法包括：获取原始视频中的多个原始聚类中心；以每个原始聚类中心分别作为临时聚类中心，并重复执行以下操作，直至操作满足预设的迭代停止规则时停止：计算原始视频中的帧图像与各临时聚类中心之间的聚类距离；基于聚类距离确定归属于各临时聚类中心的帧图像集合；基于帧图像集合对临时聚类中心进行变更，得到新的临时聚类中心；将操作停止时对应的新的临时聚类中心确定为目标聚类中心，并根据目标聚类中心和归属于目标聚类中心的帧图像集合确定超视频帧；基于每个超视频帧确定原始视频包含的时序动作片段。本发明能够有效提升生成序动作片段的准确性。

Description

时序动作片段的确定方法、动作检测方法及装置

技术领域

本发明涉及视频识别技术领域，尤其是涉及一种时序动作片段的确定方法、动作检测方法及装置。

背景技术

视频时序动作检测是指在包含一个或多个动作片段的长视频中，既要识别长视频中发生的动作种类，又要定位出这些动作发生的时序边界(也即时间区间)。大部分时序动作检测方法主要包括：先得到视频中包含时序动作的片段，然后再检测该片段中的动作；可见，时序动作片段的获得在时序动作检测过程中起着重要作用。目前，最常见的时序动作的生成方法包括滑动窗口方法和分析动作性(actionness)方法。

然而，滑动窗口方法因滑动窗口的边界是固定的，导致产生的时序动作片段的边界不准确，从而影响动作分类的检测结果；分析动作性方法通过判断每一视频帧属于动作起始、动作过程以及动作结束的概率，来生成时序动作片段，由此生成的时序动作片段无法表示动作的概念，导致对真实动作的召回率不高，也会影响动作分类的检测结果。因此，准确地生成时序动作片段是当前时序动作检测方法所面临的巨大挑战。

发明内容

有鉴于此，本发明的目的在于提供一种时序动作片段的确定方法、动作检测方法及装置，能够有效提升生成序动作片段的准确性。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种时序动作片段的确定方法，所述方法包括：获取原始视频中的原始聚类中心；其中，所述原始聚类中心为多个，分别位于所述原始视频的不同帧位置；以每个所述原始聚类中心分别作为临时聚类中心，并重复执行以下操作，直至所述操作满足预设的迭代停止规则时停止：计算所述原始视频中的帧图像与各所述临时聚类中心之间的聚类距离；基于所述聚类距离确定归属于各所述临时聚类中心的帧图像集合；基于所述帧图像集合对所述临时聚类中心进行变更，得到新的临时聚类中心；将所述操作停止时对应的新的临时聚类中心确定为目标聚类中心，并根据所述目标聚类中心和归属于所述目标聚类中心的帧图像集合确定超视频帧；其中，每个所述超视频帧为一个视频帧序列；基于每个所述超视频帧确定所述原始视频包含的时序动作片段。

进一步，所述获取原始视频中的原始聚类中心的步骤，包括：根据预设的视频分段长度将原始视频划分为多个分段视频，并在各个所述分段视频的中间帧图像处确定参考点；其中，所述参考点用于表征所述原始视频中的原始聚类中心的参考位置；将各个所述分段视频的中间帧图像逐一作为当前帧图像，并执行如下操作：检测所述当前帧图像和相邻帧图像中每相邻两张帧图像之间的相似度；其中，所述相邻帧图像为与所述当前帧图像相邻预设帧数的帧图像；根据检测到的相似度对所述参考点进行调整，将调整后的参考点对应的帧图像作为所述原始视频中的原始聚类中心。

进一步，所述计算所述原始视频中的帧图像与各所述临时聚类中心之间的聚类距离的步骤，包括：根据以下函数计算所述原始视频中的帧图像与各所述临时聚类中心之间的聚类距离：

其中，D_i,j为所述原始视频中第i张帧图像与第j个临时聚类中心之间的聚类距离，d_f为第i张帧图像与第j个临时聚类中心之间的特征距离，d_t为第i张帧图像与第j个临时聚类中心之间的时间距离，S为预设的视频分段长度，m为预设定值。

进一步，所述基于所述聚类距离确定归属于各所述临时聚类中心的帧图像集合的步骤，包括：针对所述原始视频中的每张帧图像，在该帧图像与所述临时聚类中心之间的多个聚类距离中选取最小聚类距离，通过将该帧图像归属于所述最小聚类距离对应的临时聚类中心，得到聚类结果；其中，所述聚类结果表示该帧图像与所述最小聚类距离对应的临时聚类中心之间的对应关系；根据所述原始视频中的每张帧图像对应的聚类结果确定各所述临时聚类中心对应的帧图像集合。

进一步，所述根据所述目标聚类中心和归属于所述目标聚类中心的帧图像集合确定超视频帧的步骤，包括：在归属于所述目标聚类中心的帧图像集合和所述目标聚类中心对应的帧图像中确定帧位置连续的至少一个视频帧序列；将每个所述视频帧序列确定为一个超视频帧。

进一步，所述方法还包括：根据预设长度值将所述超视频帧划分为第一超视频帧和第二超视频帧；其中，所述第一超视频帧为长度大于或等于所述预设长度值的超视频帧，所述第二超视频帧为长度小于所述预设长度值的超视频帧；对所述第二超视频帧和所述第一超视频帧进行合并操作，得到合并后的超视频帧。

进一步，所述对所述第二超视频帧和所述第一超视频帧进行合并操作，得到合并后的超视频帧的步骤，包括：根据所述第二超视频帧中各帧图像的帧位置，将所述第二超视频帧合并于帧位置相距最近的所述第一超视频帧中，得到合并后的超视频帧；和/或，根据所述第二超视频帧对应的目标聚类中心，将所述第二超视频帧合并至所述目标聚类中心相同的所述第一超视频帧中，得到所述合并后的超视频帧。

进一步，所述基于每个所述超视频帧确定所述原始视频包含的时序动作片段的步骤，包括：根据所述超视频帧中各帧图像的帧位置确定所述超视频帧的起始帧图像和终止帧图像；将连续多个所述超视频帧进行组合，生成多个候选时序动作片段；其中，所述候选时序动作片段的起点为连续多个所述超视频帧中首个超视频帧的起始帧图像，所述候选时序动作片段的终点为连续多个所述超视频帧中最后一个超视频帧的终止帧图像；所述超视频帧的连续数量不大于预设数值；根据预设的视频长度范围对所述候选时序动作片段进行筛选，得到最终的时序动作片段。

第二方面，本发明实施例还提供一种动作检测方法，所述方法包括：获取原始视频；根据第一方面任一项所述的时序动作片段的确定方法确定所述原始视频包含的时序动作片段；通过深度神经网络对所述时序动作片段对应的动作类别进行概率预测，得到所述时序动作片段对应的动作类别和所述动作类别的概率值；在得到的多个所述动作类别中，将所述动作类别的概率值大于预设概率阈值的动作类别确定为目标动作类别；将所述目标动作类别对应的时序动作片段确定为目标时序动作片段；根据所述目标时序动作片段的起止时间确定所述原始视频中的动作定位结果；其中，所述动作定位结果为以所述目标时序动作片段的起止时间为边界的时序区间。

第三方面，本发明实施例还提供一种时序动作片段的确定装置，所述装置包括：原始聚类中心获取模块，用于获取原始视频中的原始聚类中心；其中，所述原始聚类中心为多个，分别位于所述原始视频的不同帧位置；聚类中心更新模块，用于以每个所述原始聚类中心分别作为临时聚类中心，并重复执行以下操作，直至所述操作满足预设的迭代停止规则时停止：计算所述原始视频中的帧图像与各所述临时聚类中心之间的聚类距离；基于所述聚类距离确定归属于各所述临时聚类中心的帧图像集合；基于所述帧图像集合对所述临时聚类中心进行变更，得到新的临时聚类中心；超视频帧确定模块，用于将所述操作停止时对应的新的临时聚类中心确定为目标聚类中心，并根据所述目标聚类中心和归属于所述目标聚类中心的帧图像集合确定超视频帧；其中，每个所述超视频帧为一个视频帧序列；片段确定模块，用于基于每个所述超视频帧确定所述原始视频包含的时序动作片段。

第四方面，本发明实施例还提供一种动作检测装置，所述装置包括：视频获取模块，用于获取原始视频；时序动作片段的确定模块，用于根据第一方面任一项所述的时序动作片段的确定方法确定所述原始视频包含的时序动作片段；动作类别预测模块，用于通过深度神经网络对所述时序动作片段对应的动作类别进行概率预测，得到所述时序动作片段对应的动作类别和所述动作类别的概率值；动作类别确定模块，用于在得到的多个所述动作类别中，将所述动作类别的概率值大于预设概率阈值的动作类别确定为目标动作类别；动作片段确定模块，用于将所述目标动作类别对应的时序动作片段确定为目标时序动作片段；动作定位结果确定模块，用于根据所述目标时序动作片段的起止时间确定所述原始视频中的动作定位结果；其中，所述动作定位结果为以所述目标时序动作片段的起止时间为边界的时序区间。

第五方面，本发明实施例提供了一种电子设备，所述电子设备包括：处理器和存储装置；所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如第一方面任一项所述的方法，或者，所述计算机程序被处理设备运行时执行上述第二方面所述的方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面任一项所述的方法的步骤，或者，所述计算机程序被处理设备运行时执行上述第二方面所述的方法的步骤。

本发明实施例提供了一种时序动作片段的确定方法及装置，首先以位于原始视频中不同帧位置的每个原始聚类中心分别作为临时聚类中心，并重复执行以下操作，直至操作满足预设的迭代停止规则时停止：计算原始视频中的帧图像与各临时聚类中心之间的聚类距离，基于聚类距离确定归属于各临时聚类中心的帧图像集合，基于帧图像集合对临时聚类中心进行变更，得到新的临时聚类中心；然后将操作停止时对应的新的临时聚类中心确定为目标聚类中心，并根据目标聚类中心和归属于目标聚类中心的帧图像集合确定超视频帧；最后基于每个超视频帧确定原始视频包含的时序动作片段。本实施例提供的上述时序动作片段的确定方式，在重复执行操作的过程中，一方面将聚类距离作为更新临时聚类中心的参考因素，可以充分体现帧图像集合中动作的相似性，另一方面可以动态地调整聚类中心和归属于聚类中心的帧图像集合，以最终准确地确定出具有归属关系的目标聚类中心和帧图像集合；可以理解，基于目标聚类中心和帧图像集合确定的超视频帧也能够体现动作的概念并具有准确性较高的边界，从而能够有效提高确定时序动作片段的准确性和合理性。

本发明实施例提供了一种动作检测方法及装置，首先根据时序动作片段的确定方法确定所述原始视频包含的时序动作片段，然后通过深度神经网络预测时序动作片段对应的动作类别和所述动作类别的概率值，将动作类别的概率值大于预设概率阈值的动作类别确定为目标动作类别，以及将目标动作类别对应的时序动作片段确定为目标时序动作片段；最后根据所述目标时序动作片段的起止时间确定所述原始视频中的动作定位结果。上述动作检测方式通过采用时序动作片段的确定方法得到准确性、合理性较高的时序动作片段，并由此执行动作检测，可以提高动作检测结果的准确性。

本发明的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的一种电子设备的结构示意图；

图2示出了本发明实施例所提供的一种时序动作片段的确定方法的流程图；

图3示出了本发明实施例所提供的一种候选时序动作片段的示意图；

图4示出了本发明实施例所提供的一种时序动作片段的确定装置的结构框图；

图5示出了本发明实施例所提供的一种动作检测装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到现有的时序动作的生成方法中，生成的时序动作片段准确性较差，诸如存在边界不准确、对真实动作的召回率不高等问题，准确性较差的时序动作片段会对动作分类的检测结果造成不利影响。基于此，为改善以上问题至少之一，本发明实施例提供了一种时序动作片段的确定方法、动作检测方法及装置，能够有效提高生成序动作片段的准确性。该技术可以应用于安全监控、网络视频分析、服务型机器人和无人驾驶等领域，实现时序动作片段的确定以及时序动作检测等功能，为便于理解，以下对本发明实施例进行详细介绍。

实施例一：

首先，参照图1来描述用于实现本发明实施例的时序动作片段的确定方法、动作检测方法及装置的示例电子设备100。

如图1所示的一种电子设备的结构示意图，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备可以具有图1示出的部分组件，也可以具有图1未示出的其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的一种时序动作片段的确定方法、动作检测方法及装置的示例电子设备可以被实现为诸如智能手机、摄像机、计算机和机器人等智能终端上。

实施例二：

本实施例提供了一种时序动作片段的确定方法，该方法可以应用于上述实施例所提供的电子设备中，参照图2所示的时序动作片段的确定方法的流程图，该方法具体包括如下步骤S202至步骤S212：

步骤S202，获取原始视频中的原始聚类中心；其中，原始聚类中心为多个，分别位于原始视频的不同帧位置。原始聚类中心的选取方式有多种，比如：在原始视频中随机选取多个原始聚类中心；或者在原始视频中每间隔预设的视频分段长度(如10帧)选取一个原始聚类中心；或者还可以先根据预设的视频分段长度将原始视频划分为多个分段视频，然后在每个分段视频中选取一个原始聚类中心，该原始聚类中心诸如为分段视频的中间帧图像。获取的原始聚类中心用于将原始视频的帧图像中属于同类时序动作片段的聚为一类，同一聚类中心对应的帧图像之间相似度最大，彼此相似，而不同聚类中心对应的帧图像之间相似度最小，彼此相异。

可以理解，上述原始聚类中心的选取简单、快速，但具有一定随机性，可能无法得到有效的聚类结果。基于此，本实施例以每个原始聚类中心分别作为临时聚类中心，并重复执行如下步骤S204至步骤S208所示的操作，直至操作满足预设的迭代停止规则时停止：

步骤S204，计算原始视频中的帧图像与各临时聚类中心之间的聚类距离。其中，聚类距离用于表征帧图像与临时聚类中心之间相似度；聚类距离可以包括时间距离和特征距离，时间距离为帧图像与临时聚类中心之间的时间间隔，特征距离为帧图像与临时聚类中心之间的颜色、纹理和形状等图像特征的相似度，在此情况下，聚类距离越小表示帧图像与临时聚类中心之间相似度越高。

步骤S206，基于聚类距离确定归属于各临时聚类中心的帧图像集合。

在一种实现方式中，首先针对原始视频中的每张帧图像，在该帧图像与临时聚类中心之间的多个聚类距离中选取最小聚类距离，通过将该帧图像归属于最小聚类距离对应的临时聚类中心，得到聚类结果；其中，聚类结果表示该帧图像与最小聚类距离对应的临时聚类中心之间的对应关系。假设临时聚类中心有J个，则原始视频中的每张帧图像(如第i张帧图像)对应的聚类距离有J个，在J个聚类距离中选取最小聚类距离，并将第i张帧图像归属于最小聚类距离对应的临时聚类中心(如第j个临时聚类中心)，则聚类结果为第i张帧图像与第j个临时聚类中心之间的对应关系。然后再根据原始视频中的每张帧图像对应的聚类结果确定各临时聚类中心对应的帧图像集合。也即对于每个临时聚类中心而言，将与该临时聚类中心具有对应关系的多张帧图像确定为帧图像集合。

步骤S208，基于帧图像集合对临时聚类中心进行变更，得到新的临时聚类中心。

在基于聚类距离确定的帧图像集合中，原始选取的临时聚类中心可能出现偏离中心点的情况，例如原始选取的临时聚类中心为原始视频中的第10帧，而基于聚类距离归属于第10帧的帧图像集合为第1-17帧。在此情况下，可以根据帧图像集合的范围对临时聚类中心进行变更，一种简单有效的变更方式为将帧图像集合中位于中心位置的帧图像确定为新的临时聚类中心，也即新的临时聚类中心为第9帧的帧图像。

在确定新的临时聚类中心之后，返回上述步骤S204，通过计算各张帧图像与各新的临时聚类中心之间的聚类距离，确定归属于新的临时聚类中心的新的帧图像集合，并基于新的帧图像集合对新的临时聚类中心继续进行变更，重复上述操作，直至操作满足预设的迭代停止规则时停止；其中，迭代停止规则可以为操作的迭代次数达到预设的最大迭代次数，或者为在连续指定迭代次数的操作中，每张帧图像归属的临时聚类中心保持不变。

当操作满足预设的迭代停止规则时，表明变更后的新的临时聚类中心可以在视频时序动作检测方面达到令人满意的聚类效果，在此情况下，执行如下步骤S210。

步骤S210，将操作停止时对应的新的临时聚类中心确定为目标聚类中心，并根据目标聚类中心和归属于目标聚类中心的帧图像集合确定超视频帧。

在一种可能的场景中，原始聚类中心诸如分别对应于第10帧、第20帧和第30帧的帧图像，通过重复执行上述步骤S204至步骤S208，当操作停止时对应的目标聚类中心可能调整为了第9帧、第23帧和第34帧的帧图像。

每个超视频帧为一个视频帧序列，其确定方式可参照如下所示：在归属于目标聚类中心的帧图像集合和目标聚类中心对应的帧图像中确定帧位置连续的至少一个视频帧序列；将每个视频帧序列确定为一个超视频帧。由此可以看出，超视频帧包括变化程度较小、具有相似表示的多张连续帧图像；同时，超视频帧是通过重复执行操作，基于聚类距离对聚类中心和帧图像集合进行动态调整后确定的聚类结果，从而超视频帧能够较准确的区分原始视频中的相似或相异的动作以及动作的边界。

步骤S212，基于每个超视频帧确定原始视频包含的时序动作片段。

本实施例可以将超视频帧作为最小单元，将连续多个超视频帧进行组合，得到原始视频中的时序动作片段，进而再对时序动作片段进行动作检测。相对于现有技术中基于帧图像确定的时序动作片段，本实施例基于超视频帧确定的时序动作片段能够减少视频帧的冗余信息，提高视频处理效率，同时能够更加准确合理的表示视频中的动作信息。

本发明实施例提供的上述时序动作片段的确定方法，在以原始视频中的原始聚类中心作为临时聚类中心，并重复执行操作的过程中，一方面将聚类距离作为更新临时聚类中心的参考因素，可以充分体现帧图像集合中动作的相似性，另一方面可以动态地调整聚类中心和归属于聚类中心的帧图像集合，以最终准确地确定出具有归属关系的目标聚类中心和帧图像集合；可以理解，基于目标聚类中心和帧图像集合确定的超视频帧能够体现动作的概念并具有准确性较高的边界，从而能够有效提高确定时序动作片段的准确性和合理性。

考虑到随机选取的原始聚类中心可能质量较差，会对算法的迭代次数、算法的时间性能产生不好的影响，本实施例提供了一种获取原始视频中的原始聚类中心的方法，能够尽量减少迭代次数和提高时间性能，参照如下所示：

步骤1，根据预设的视频分段长度将原始视频划分为多个分段视频，并在各个分段视频的中间帧图像处确定参考点；其中，参考点用于表征原始视频中的原始聚类中心的参考位置。示例性的，原始视频的长度为N帧，预设的视频分段长度为S帧，则可以确定N/S个参考点。

步骤2，将各个分段视频的中间帧图像逐一作为当前帧图像，并执行如下步骤2.1和步骤2.2所示的操作：

步骤2.1，检测当前帧图像和相邻帧图像中每相邻两张帧图像之间的相似度。其中，相邻帧图像为与当前帧图像相邻预设帧数的帧图像；在实际应用中，为了提高参考点的调整效率，相邻帧图像可以为与当前帧图像相邻较少帧数(如一帧)的帧图像；或者，为了提高参考点的调整准确性，相邻帧图像可以为与当前帧图像相邻较多帧数(如5帧)的帧图像。用户可以根据实际生产需求对相邻帧图像的帧数进行选择。

每相邻两张帧图像之间的相似度可通过两张帧图像的图像特征之间的距离来表征。为便于描述，本实施例以当前帧图像为第10帧的帧图像(表示为P10)与该帧图像P10前后相邻一帧的相邻帧图像为第9帧的帧图像(表示为P9)和第11帧的帧图像(表示为P11)为例。计算帧图像P10的图像特征与帧图像P9的图像特征之间的欧式距离，通过欧式距离表征第一相似度，以及通过相同的方式检测帧图像P10与帧图像P11之间的第二相似度。当然，以上图像特征之间的距离仅为对相似度表示方式的示例性说明，不应理解为限制，诸如，相似度还可以基于两张帧图像之间的重叠度来表示。

步骤2.2，根据检测到的相似度对参考点进行调整，将调整后的参考点对应的帧图像作为原始视频中的原始聚类中心。

当前帧图像与不同的相邻帧图像之间的相似度不同，说明当前帧图像相对于相邻帧图像的动作变化程度不同，动作变化程度越小表示两张帧图像中的动作连贯且属于同类动作的概率越高，这两张帧图像能代表一个更长的片段。基于此，可以将参考点向着相似度较高的帧图像方向进行调整。在上述示例性描述中，假设第一相似度小于第二相似度，则将原来位于帧图像P10位置处的参考点调整至帧图像P11的位置处，并将帧图像P11作为原始视频中的原始聚类中心。

通过上述方式对每个分段视频的参考点进行调整，基于调整后的参考点确定的原始聚类中心能够在一定程度上反映不同帧图像之间的动作相似度，提高了原始聚类中心的质量，从而利用该原始聚类中心能够减少迭代次数和提高时间性能。

为了便于理解上述步骤S204中的聚类距离，本实施例提供一种聚类距离的具体计算方式：根据以下函数计算原始视频中的帧图像与各临时聚类中心之间的聚类距离：

其中，D_i,j为原始视频中第i张帧图像与第j个临时聚类中心之间的聚类距离，d_f为第i张帧图像与第j个临时聚类中心之间的特征距离，d_t为第i张帧图像与第j个临时聚类中心之间的时间距离，S为预设的视频分段长度，m为预设定值。可以理解，对于第i张帧图像，其对应的聚类距离有J个，J为临时聚类中心的数量。

在实际应用中，一个原始视频通常是一种事件的视频，如原始视频为烹饪的视频、运动的视频或游戏的视频等，由此可以根据原始视频中的事件类别和/或事件的时长确定预设定值m。其中，原始视频的事件类别可以人为识别，也可以采用现有技术进行简单的识别，在此不做限制。

在重复执行步骤S204至步骤S208所示的操作的过程中，上述聚类距离能够在时间距离和特征距离两方面对临时聚类中心进行动态调整，从而使得操作停止时得到的目标聚类中心和帧图像集合(也即超视频帧)能够更准确地表示原始视频中的动作。

考虑到超视频帧是在目标聚类中心及其对应的帧图像集合中确定的帧位置连续的多张帧图像，由此可能出现超视频帧长度过短或出现不连通等情况。比如以目标聚类中心为第9帧、第23帧和第34帧的帧图像为例，当目标聚类中心为第9帧时，由此确定的超视频帧可能分别为包含第1-5帧的超视频帧A1、包含第7-17帧的超视频帧A2；当目标聚类中心为第23帧时，由此确定的超视频帧可能分别为包含第18-28帧的超视频帧B1；当目标聚类中心为第34帧时，由此确定的超视频帧可能分别为包含第6帧的超视频帧C1、包含第29-40帧的超视频帧C2。

基于此，本实施例还可以提供如下两个步骤对超视频帧进行优化，包括：

步骤1，根据预设长度值将超视频帧划分为第一超视频帧和第二超视频帧；其中，第一超视频帧为长度大于或等于预设长度值的超视频帧，第二超视频帧为长度小于预设长度值的超视频帧。示例性的，当预设长度值为10帧时，上述超视频帧A1和超视频帧C1的长度小于10帧，为第二超视频帧，其余超视频帧的长度大于或等于10帧，为第一超视频帧。

步骤2，对第二超视频帧和第一超视频帧进行合并操作，得到合并后的超视频帧。

在具体实现时，可以根据第二超视频帧中各帧图像的帧位置，将第二超视频帧合并于帧位置相距最近的第一超视频帧中，得到合并后的超视频帧。和/或，根据第二超视频帧对应的目标聚类中心，将第二超视频帧合并至目标聚类中心相同的第一超视频帧中，得到合并后的超视频帧。下面以第二超视频帧A1为例对本实施例所提供的合并操作进行详细介绍。

对于上述第二超视频帧A1，可以根据其包含的帧图像的帧位置为第1-5帧，将其合并于帧位置相距最近的第一超视频帧A2中；当然，还可以根据第二超视频帧A1对应的目标聚类中心为第9帧的帧图像，将第二超视频帧A1与对应于同一目标聚类中心的第一超视频帧A2进行合并。同样，第二超视频帧C1也可以通过合并操作合并至第一超视频中。

当完成对所有第二超视频帧的合并操作后，得到原始视频中合并后的超视频帧：包含第1-17帧的超视频帧、包含第18-28帧的超视频帧和包含第29-40帧的超视频帧。

根据本发明实施例，提供了一种基于每个超视频帧确定时序动作片段的方法实施例，在本实施例中，超视频帧可以为根据目标聚类中心和归属于目标聚类中心的帧图像集合确定的超视频帧，也可以为上述合并后的超视频帧。该确定时序动作片段的方法参照如下步骤(1)至(3)所述：

(1)根据超视频帧中各帧图像的帧位置确定超视频帧的起始帧图像和终止帧图像。例如：包含第1-17帧的超视频帧，其起始帧图像为第1帧的帧图像，终止帧图像为第17帧的帧图像。

(2)将连续多个超视频帧进行组合，生成多个候选时序动作片段。

其中，超视频帧的连续数量δ不大于预设数值m(如m＝3)，参照如图3所示的候选时序动作片段的示意图，图中所示的相同标记图像(如圆形)表示一个超视频帧的起始帧图像和终止帧图像，标记图像之间的黑色线段表示超视频帧的长度(也可理解为时间跨度)，由此可以区分各个超视频帧的边界。当超视频帧的连续数量δ＝1时，每个超视频帧均为一个候选时序动作片段；当超视频帧的连续数量δ＝2时，第一、二个超视频帧组成第一个候选时序动作片段，第二、三个超视频帧组成第二个候选时序动作片段，第三、四个超视频帧组成第三个候选时序动作片段；当超视频帧的连续数量δ＝3时，第一至三个超视频帧组成第一个候选时序动作片段，以此类推，可以生成原始视频中的多个候选时序动作片段。可以理解，候选时序动作片段的起点为连续多个超视频帧中首个超视频帧的起始帧图像，候选时序动作片段的终点为连续多个超视频帧中最后一个超视频帧的终止帧图像。

(3)根据预设的视频长度范围对候选时序动作片段进行筛选，得到最终的时序动作片段。

时序动作片段过短可能会影响动作检测的效率，时序动作片段过长可能会影响动作检测的准确性，基于此，本实施例可以根据预设的视频长度范围[m，n]在候选时序动作片段中筛选部分时序动作片段。

通过以上时序动作片段的确定方法得到的时序动作片段具有准确的边界，且能够表示动作的概念，对真实动作的召回率比较高。

综上，上述发明实施例提供的时序动作片段的确定方法，在以原始视频中的原始聚类中心作为临时聚类中心，并重复执行操作的过程中，一方面将聚类距离作为更新临时聚类中心的参考因素，可以充分体现帧图像集合中动作的相似性，另一方面可以动态地调整聚类中心和归属于聚类中心的帧图像集合，以最终准确地确定出具有归属关系的目标聚类中心和帧图像集合；可以理解，基于目标聚类中心和帧图像集合确定的超视频帧能够体现动作的概念并具有准确性较高的边界，从而能够有效提高确定时序动作片段的准确性和合理性。

实施例三：

基于实施例二提供的时序动作片段的确定方法所得到的时序动作片段，本发明实施例还可以提供一种动作检测方法，以进一步对上述时序动作片段进行动作检测，有利于提高检测结果的准确性。本实施例提供的动作检测方法包括如下步骤1至步骤6：

步骤1，获取原始视频；

步骤2，根据上述时序动作片段的确定方法确定所述原始视频包含的时序动作片段；

步骤3，通过深度神经网络对时序动作片段对应的动作类别进行概率预测，得到时序动作片段对应的动作类别和动作类别的概率值。深度神经网络可以采用现有的诸如SCNN(多阶段网络)、TURN(单元回归网络)等。

步骤4，在得到的多个动作类别中，将动作类别的概率值大于预设概率阈值(如95％)的动作类别确定为目标动作类别。

步骤5，将目标动作类别对应的时序动作片段确定为目标时序动作片段。

步骤6，根据目标时序动作片段的起止时间确定原始视频中的动作定位结果；其中，动作定位结果为以目标时序动作片段的起止时间为边界的时序区间。

本实施例通过采用时序动作片段的确定方法得到准确性、合理性较高的时序动作片段，并由此执行动作检测，可以提高动作检测结果的准确性。

实施例四：

基于上述实施例二提供的时序动作片段的确定方法，本实施例还提供了一种时序动作片段的确定装置。参见图4所示的一种时序动作片段的确定装置的结构框图，该装置包括：

原始聚类中心获取模块402，用于获取原始视频中的原始聚类中心；其中，所述原始聚类中心为多个，分别位于所述原始视频的不同帧位置；

聚类中心更新模块404，用于以每个所述原始聚类中心分别作为临时聚类中心，并重复执行以下操作，直至所述操作满足预设的迭代停止规则时停止：计算所述原始视频中的帧图像与各所述临时聚类中心之间的聚类距离；基于所述聚类距离确定归属于各所述临时聚类中心的帧图像集合；基于所述帧图像集合对所述临时聚类中心进行变更，得到新的临时聚类中心；

超视频帧确定模块406，用于将所述操作停止时对应的新的临时聚类中心确定为目标聚类中心，并根据所述目标聚类中心和归属于所述目标聚类中心的帧图像集合确定超视频帧；其中，每个所述超视频帧为一个视频帧序列；

片段确定模块408，用于基于每个所述超视频帧确定所述原始视频包含的时序动作片段。

本发明实施例提供的上述时序动作片段的确定装置，在以原始视频中的原始聚类中心作为临时聚类中心，并重复执行操作的过程中，一方面将聚类距离作为更新临时聚类中心的参考因素，可以充分体现帧图像集合中动作的相似性，另一方面可以动态地调整聚类中心和归属于聚类中心的帧图像集合，以最终准确地确定出具有归属关系的目标聚类中心和帧图像集合；可以理解，基于目标聚类中心和帧图像集合确定的超视频帧能够体现动作的概念并具有准确性较高的边界，从而能够有效提高确定时序动作片段的准确性和合理性。

在一些实施方式中，上述原始聚类中心获取模块402进一步用于：根据预设的视频分段长度将原始视频划分为多个分段视频，并在各个分段视频的中间帧图像处确定参考点；其中，参考点用于表征原始视频中的原始聚类中心的参考位置；将各个分段视频的中间帧图像逐一作为当前帧图像，并执行如下操作：检测当前帧图像和相邻帧图像中每相邻两张帧图像之间的相似度；其中，相邻帧图像为与当前帧图像相邻预设帧数的帧图像；根据检测到的相似度对参考点进行调整，将调整后的参考点对应的帧图像作为原始视频中的原始聚类中心。

在一些实施方式中，上述聚类中心更新模块404进一步用于：针对原始视频中的每张帧图像，在该帧图像与临时聚类中心之间的多个聚类距离中选取最小聚类距离，通过将该帧图像归属于最小聚类距离对应的临时聚类中心，得到聚类结果；其中，聚类结果表示该帧图像与最小聚类距离对应的临时聚类中心之间的对应关系；根据原始视频中的每张帧图像对应的聚类结果确定各临时聚类中心对应的帧图像集合。

在一些实施方式中，上述超视频帧确定模块406进一步用于：在归属于目标聚类中心的帧图像集合和目标聚类中心对应的帧图像中确定帧位置连续的至少一个视频帧序列；将每个视频帧序列确定为一个超视频帧。

在一些实施方式中，上述超视频帧确定模块406进一步用于：根据预设长度值将超视频帧划分为第一超视频帧和第二超视频帧；其中，第一超视频帧为长度大于或等于预设长度值的超视频帧，第二超视频帧为长度小于预设长度值的超视频帧；对第二超视频帧和第一超视频帧进行合并操作，得到合并后的超视频帧。

在一些实施方式中，上述超视频帧确定模块406进一步用于：根据第二超视频帧中各帧图像的帧位置，将第二超视频帧合并于帧位置相距最近的第一超视频帧中，得到合并后的超视频帧；和/或，根据第二超视频帧对应的目标聚类中心，将第二超视频帧合并至目标聚类中心相同的第一超视频帧中，得到合并后的超视频帧。

在一些实施方式中，上述片段确定模块408进一步用于：根据超视频帧中各帧图像的帧位置确定超视频帧的起始帧图像和终止帧图像；将连续多个超视频帧进行组合，生成多个候选时序动作片段；其中，候选时序动作片段的起点为连续多个超视频帧中首个超视频帧的起始帧图像，候选时序动作片段的终点为连续多个超视频帧中最后一个超视频帧的终止帧图像；超视频帧的连续数量不大于预设数值；根据预设的视频长度范围对候选时序动作片段进行筛选，得到最终的时序动作片段。

基于上述实施例三提供的动作检测方法，本实施例还提供了一种动作检测装置。参见图5所示的一种动作检测装置的结构框图，该装置包括：

视频获取模块501，用于获取原始视频；

时序动作片段的确定模块502，用于根据上述的时序动作片段的确定方法确定原始视频包含的时序动作片段；

动作类别预测模块503，用于通过深度神经网络对时序动作片段对应的动作类别进行概率预测，得到时序动作片段对应的动作类别和动作类别的概率值；

动作类别确定模块504，用于在得到的多个动作类别中，将动作类别的概率值大于预设概率阈值的动作类别确定为目标动作类别；

动作片段确定模块505，用于将目标动作类别对应的时序动作片段确定为目标时序动作片段；

动作定位结果确定模块506，用于根据目标时序动作片段的起止时间确定原始视频中的动作定位结果；其中，动作定位结果为以目标时序动作片段的起止时间为边界的时序区间。

本实施例所提供的装置，其实现原理及产生的技术效果和前述实施例二和三相同，为简要描述，本实施例部分未提及之处，可参考前述实施例二和三中相应内容。

实施例四：

基于前述实施例，本实施例给出了一种电子设备，该电子设备包括：处理器和存储设备；其中，存储设备上存储有计算机程序，计算机程序在被处理器运行时执行如实施例二所提供的任一项时序动作片段的确定方法，或者，计算机程序被处理设备运行时执行如实施例三所提供的动作检测方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

进一步，本实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行上述实施例二提供的任一项方法的步骤，或者，计算机程序被处理设备运行时执行上述实施例三提供的任一项的方法的步骤。

本发明实施例所提供的一种时序动作片段的确定方法、动作检测方法及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种时序动作片段的确定方法，其特征在于，所述方法包括：

获取原始视频中的原始聚类中心；其中，所述原始聚类中心为多个，分别位于所述原始视频的不同帧位置；

以每个所述原始聚类中心分别作为临时聚类中心，并重复执行以下操作，直至所述操作满足预设的迭代停止规则时停止：计算所述原始视频中的帧图像与各所述临时聚类中心之间的聚类距离；基于所述聚类距离确定归属于各所述临时聚类中心的帧图像集合；基于所述帧图像集合对所述临时聚类中心进行变更，得到新的临时聚类中心；

将所述操作停止时对应的新的临时聚类中心确定为目标聚类中心，并根据所述目标聚类中心和归属于所述目标聚类中心的帧图像集合确定超视频帧；其中，每个所述超视频帧为一个视频帧序列；

基于每个所述超视频帧确定所述原始视频包含的时序动作片段。

2.根据权利要求1所述的方法，其特征在于，所述获取原始视频中的原始聚类中心的步骤，包括：

根据预设的视频分段长度将原始视频划分为多个分段视频，并在各个所述分段视频的中间帧图像处确定参考点；其中，所述参考点用于表征所述原始视频中的原始聚类中心的参考位置；

将各个所述分段视频的中间帧图像逐一作为当前帧图像，并执行如下操作：

检测所述当前帧图像和相邻帧图像中每相邻两张帧图像之间的相似度；其中，所述相邻帧图像为与所述当前帧图像相邻预设帧数的帧图像；

根据检测到的相似度对所述参考点进行调整，将调整后的参考点对应的帧图像作为所述原始视频中的原始聚类中心。

3.根据权利要求1所述的方法，其特征在于，所述计算所述原始视频中的帧图像与各所述临时聚类中心之间的聚类距离的步骤，包括：

根据以下函数计算所述原始视频中的帧图像与各所述临时聚类中心之间的聚类距离：

4.根据权利要求1所述的方法，其特征在于，所述基于所述聚类距离确定归属于各所述临时聚类中心的帧图像集合的步骤，包括：

针对所述原始视频中的每张帧图像，在该帧图像与所述临时聚类中心之间的多个聚类距离中选取最小聚类距离，通过将该帧图像归属于所述最小聚类距离对应的临时聚类中心，得到聚类结果；其中，所述聚类结果表示该帧图像与所述最小聚类距离对应的临时聚类中心之间的对应关系；

根据所述原始视频中的每张帧图像对应的聚类结果确定各所述临时聚类中心对应的帧图像集合。

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标聚类中心和归属于所述目标聚类中心的帧图像集合确定超视频帧的步骤，包括：

在归属于所述目标聚类中心的帧图像集合和所述目标聚类中心对应的帧图像中确定帧位置连续的至少一个视频帧序列；

将每个所述视频帧序列确定为一个超视频帧。

6.根据权利要求1或5所述的方法，其特征在于，所述方法还包括：

根据预设长度值将所述超视频帧划分为第一超视频帧和第二超视频帧；其中，所述第一超视频帧为长度大于或等于所述预设长度值的超视频帧，所述第二超视频帧为长度小于所述预设长度值的超视频帧；

对所述第二超视频帧和所述第一超视频帧进行合并操作，得到合并后的超视频帧。

7.根据权利要求6所述的方法，其特征在于，所述对所述第二超视频帧和所述第一超视频帧进行合并操作，得到合并后的超视频帧的步骤，包括：

根据所述第二超视频帧中各帧图像的帧位置，将所述第二超视频帧合并于帧位置相距最近的所述第一超视频帧中，得到合并后的超视频帧；和/或，根据所述第二超视频帧对应的目标聚类中心，将所述第二超视频帧合并至所述目标聚类中心相同的所述第一超视频帧中，得到所述合并后的超视频帧。

8.根据权利要求1所述的方法，其特征在于，所述基于每个所述超视频帧确定所述原始视频包含的时序动作片段的步骤，包括：

根据所述超视频帧中各帧图像的帧位置确定所述超视频帧的起始帧图像和终止帧图像；

将连续多个所述超视频帧进行组合，生成多个候选时序动作片段；其中，所述候选时序动作片段的起点为连续多个所述超视频帧中首个超视频帧的起始帧图像，所述候选时序动作片段的终点为连续多个所述超视频帧中最后一个超视频帧的终止帧图像；所述超视频帧的连续数量不大于预设数值；

根据预设的视频长度范围对所述候选时序动作片段进行筛选，得到最终的时序动作片段。

9.一种动作检测方法，其特征在于，所述方法包括：

获取原始视频；

根据权利要求1至8任一项所述的时序动作片段的确定方法确定所述原始视频包含的时序动作片段；

通过深度神经网络对所述时序动作片段对应的动作类别进行概率预测，得到所述时序动作片段对应的动作类别和所述动作类别的概率值；

在得到的多个所述动作类别中，将所述动作类别的概率值大于预设概率阈值的动作类别确定为目标动作类别；

将所述目标动作类别对应的时序动作片段确定为目标时序动作片段；

根据所述目标时序动作片段的起止时间确定所述原始视频中的动作定位结果；其中，所述动作定位结果为以所述目标时序动作片段的起止时间为边界的时序区间。

10.一种时序动作片段的确定装置，其特征在于，所述装置包括：

原始聚类中心获取模块，用于获取原始视频中的原始聚类中心；其中，所述原始聚类中心为多个，分别位于所述原始视频的不同帧位置；

聚类中心更新模块，用于以每个所述原始聚类中心分别作为临时聚类中心，并重复执行以下操作，直至所述操作满足预设的迭代停止规则时停止：计算所述原始视频中的帧图像与各所述临时聚类中心之间的聚类距离；基于所述聚类距离确定归属于各所述临时聚类中心的帧图像集合；基于所述帧图像集合对所述临时聚类中心进行变更，得到新的临时聚类中心；

超视频帧确定模块，用于将所述操作停止时对应的新的临时聚类中心确定为目标聚类中心，并根据所述目标聚类中心和归属于所述目标聚类中心的帧图像集合确定超视频帧；其中，每个所述超视频帧为一个视频帧序列；

片段确定模块，用于基于每个所述超视频帧确定所述原始视频包含的时序动作片段。

11.一种动作检测装置，其特征在于，所述装置包括：

视频获取模块，用于获取原始视频；

时序动作片段的确定模块，用于根据权利要求1至8任一项所述的时序动作片段的确定方法确定所述原始视频包含的时序动作片段；

动作类别预测模块，用于通过深度神经网络对所述时序动作片段对应的动作类别进行概率预测，得到所述时序动作片段对应的动作类别和所述动作类别的概率值；

动作类别确定模块，用于在得到的多个所述动作类别中，将所述动作类别的概率值大于预设概率阈值的动作类别确定为目标动作类别；

动作片段确定模块，用于将所述目标动作类别对应的时序动作片段确定为目标时序动作片段；

动作定位结果确定模块，用于根据所述目标时序动作片段的起止时间确定所述原始视频中的动作定位结果；其中，所述动作定位结果为以所述目标时序动作片段的起止时间为边界的时序区间。

12.一种电子设备，其特征在于，所述电子设备包括：处理器和存储装置；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1至8任一项所述的方法，或者，所述计算机程序被处理设备运行时执行上述权利要求9所述的方法。

13.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1至8任一项所述的方法的步骤，或者，所述计算机程序被处理设备运行时执行上述权利要求9所述的方法的步骤。