CN113887518A

CN113887518A - 一种行为检测的方法、装置、电子设备及存储介质

Info

Publication number: CN113887518A
Application number: CN202111272624.5A
Authority: CN
Inventors: 钱晨; 林君仪; 周嘉明; 陈瑞祥
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-01-04

Abstract

本公开提供了一种行为检测的方法、装置、电子设备及存储介质，其中，该方法包括：获取待检测视频，并对待检测视频进行抽帧处理，得到抽帧后的视频帧序列；利用第一特征提取网络对待检测视频进行时序特征提取，得到待检测视频中第一视频帧的第一特征图，以及利用第二特征提取网络对视频帧序列进行空间特征提取，得到视频帧序列中第二视频帧的第二特征图；基于得到的第一特征图以及第二特征图对第一时间窗口进行更新，得到更新后的第二时间窗口；在第二时间窗口内对视频帧序列进行目标行为检测，得到行为检测结果。本公开的第一特征图表征的连续动作信息可以补充第二特征图所表征的空间场景信息，使得第二时间窗口更为准确，行为检测的准确性更高。

Description

一种行为检测的方法、装置、电子设备及存储介质

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种行为检测的方法、装置、电子设备及存储介质。

背景技术

视频行为检测是从视频中定位出行为发生的时间区间和空间位置，并进行行为类别分类的技术，被广泛应用于各种应用场景，例如，安防领域、人机交互领域、智能园区、智慧课堂等。

现有的视频行为检测的建模比较复杂，同一类别的行为动作由于个体的区别，实际的运动过程会存在差异，导致动作的初始时刻和结束时刻难以有统一的定义，检测准确性不高。

发明内容

本公开实施例至少提供一种行为检测的方法、装置、电子设备及存储介质。

第一方面，本公开实施例提供了一种行为检测的方法，所述方法包括：

获取待检测视频，并对所述待检测视频进行抽帧处理，得到抽帧后的视频帧序列；

利用第一特征提取网络对所述待检测视频进行时序特征提取，得到所述待检测视频中第一视频帧的第一特征图，以及利用第二特征提取网络对所述视频帧序列进行空间特征提取，得到所述视频帧序列中第二视频帧的第二特征图；

基于得到的所述第一特征图以及所述第二特征图，对第一时间窗口进行更新，得到更新后的第二时间窗口；

在所述第二时间窗口内对所述视频帧序列进行目标行为检测，得到行为检测结果。

采用上述行为检测的方法，在获取到待检测视频以及视频帧序列的情况下，可以分别进行时序和空间两个维度的特征提取，得到待检测视频中第一视频帧的第一特征图以及视频帧序列中第二视频帧的第二特征图，而后对第一时间窗口进行更新，最后可以在得到的第二时间窗口内进行目标行为检测。本公开中的第一特征图所表征的连续动作信息一定程度上可以对第二特征图所表征的空间场景信息进行补充，进而使得所更新得到的第二时间窗口更为准确，从而提升了行为检测的准确性。

在一种可能的实施方式中，所述基于得到的所述第一特征图以及所述第二特征图，对第一时间窗口进行更新，得到更新后的第二时间窗口，包括：

基于所述视频帧序列包括的视频帧的数量，对所述待检测视频包括的第一视频帧进行分组，得到多个第一视频帧组；

针对所述视频帧序列中的每个第二视频帧，从所述多个第一视频帧组中选择与所述第二视频帧对应的第一目标视频帧组，并基于所述第二视频帧的第二特征图以及对应的第一目标视频帧组包括的各个第一视频帧的第一特征图，确定所述第二视频帧的融合特征图；

基于每个第二视频帧的融合特征图，确定针对所述视频帧序列的融合特征图，并基于所述视频帧序列的融合特征图对第一时间窗口进行更新，得到更新后的第二时间窗口。

这里，通过对待检测视频包括的各个第一视频帧进行分组，从而使得对应分组的第一视频组和第二视频帧可以更好的进行特征图融合，进一步便于进行后续的时间窗口更新。

在一种可能的实施方式中，所述基于所述视频帧序列的融合特征图对第一时间窗口进行更新，得到更新后的第二时间窗口，包括：

确定所述第一时间窗口包括的动作开始时刻指向的第二视频帧以及动作结束时刻指向的第二视频帧；

从所述视频帧序列的融合特征图中，选取与确定的两个所述第二视频帧所对应的视频帧段或者扩展视频帧段匹配的融合特征子图；

基于选取的所述融合特征子图对第一时间窗口进行更新，得到更新后的第二时间窗口。

这里，通过融合特征子图的选取可以获取更为精准的动作时间窗口，便于进行后续的行为检测。

在一种可能的实施方式中，按照如下步骤确定所述第一时间窗口：

利用训练好的多个动作参数提取网络分别对所述视频帧序列的融合特征图进行动作参数提取，得到每个所述动作参数提取网络输出的每个第二视频帧的动作参数值；所述动作参数值包括属于动作开始节点的概率值、属于动作结束节点的概率值、以及对应属于候选动作的概率值；

基于每个所述动作参数提取网络输出的动作参数值，确定第一时间窗口。

在一种可能的实施方式中，所述基于选取的所述融合特征子图对第一时间窗口进行更新，得到更新后的第二时间窗口，包括：

将选取的所述融合特征子图输入到训练好的动作偏移量提取网络中，确定有关动作参数值的动作偏移量；

基于所述动作偏移量对所述第一时间窗口进行调整，得到更新后的第二时间窗口。

这里，利用动作偏移量提取网络进行动作偏移量的提取，可以快速的实现有关动作时间窗口的更新。

在一种可能的实施方式中，按照如下步骤训练所述多个动作参数提取网络：

获取视频样本，以及针对所述视频样本标注的动作参数信息；所述动作参数信息包括动作开始节点信息、动作结束节点信息、动作时间窗口对应的候选动作信息；

将所述视频样本作为所述待训练的多个动作参数提取网络的输入数据，将所述动作参数信息作为所述待训练的多个动作参数提取网络的输出结果的对比监督数据，对所述待训练的多个动作参数提取网络进行训练，得到训练好的多个动作参数提取网络。

在一种可能的实施方式中，所述获取视频样本按照如下至少一种方式实现：

从其它视频中选取与所述视频样本所对应候选动作信息不同的视频段，并将选取的所述视频段插入至所述视频样本中，得到更新后的视频样本；

对所述视频样本进行采样处理，得到处理后的视频样本；

对所述视频样本标注的动作时间窗口添加噪声进行处理，得到处理后的视频样本。

在一种可能的实施方式中，所述第二特征提取网络包括多个特征提取层，每个所述特征提取层对应多个第二视频帧的融合特征图；所述基于每个第二视频帧的融合特征图，确定针对所述视频帧序列的融合特征图，包括：

针对所述第二特征提取网络的每个特征提取层，将该特征提取层对应的多个第二视频帧的融合特征图进行组合，得到该特征提取层对应的融合特征图，以及，

将该特征提取层对应的融合特征图作为下一个特征提取层的输入特征图，通过降维操作得到所述下一个特征提取层对应的融合特征图，依此循环，直至得到特征图维度满足预设要求的融合特征图，并作为所述针对所述视频帧序列的融合特征图。

这里，可以采用逐级降维的融合特征图实现有关融合特征图的获取，降维后的融合特征图可以表征更为深层次的图像特征，从而便于基于融合特征图实现更为准确的行为检测。

在一种可能的实施方式中，所述在所述第二时间窗口内对所述视频帧序列进行目标行为检测，得到行为检测结果，包括：

从所述视频帧序列的融合特征图中选取与所述第二时间窗口匹配的融合特征子图；

利用训练好的行为检测神经网络对选取的所述融合特征子图进行目标行为检测，得到所述待检测视频中有关目标行为的类别信息。

这里，可以基于有关更新后的第二时间窗口匹配的融合特征子图的选取实现目标行为检测，检测的准确性和鲁棒性均较高。

在一种可能的实施方式中，所述方法还包括：

利用训练好的目标检测神经网络对所述待检测视频进行目标检测，得到所述待检测视频中目标对象的位置信息；

其中，所述目标检测神经网络是基于视频帧样本集以及针对所述视频帧样本集中包括的各个视频帧样本标注的目标对象信息训练得到的。

在一种可能的实施方式中，按照如下步骤确定所述视频帧样本集：

获取初始的视频帧样本集；

按照所属对象类别对所述初始的视频帧样本集包括的各个视频帧样本进行分类，确定各个分类对应的样本数据量；

从所述初始的视频帧样本集中，确定对应样本数据量小于预设阈值的目标对象视频帧区域，并将所述目标对象视频帧区域，与不存在所述目标对象视频帧区域的视频帧样本融合，得到更新后的视频帧样本集。

这里，通过目标对象视频帧区域的融合操作，可以获得更为多样性的视频帧样本，提升后续进行目标检测的鲁棒性。

在一种可能的实施方式中，所述方法还包括：

从所述视频帧样本集中选取对应样本数据量小于预设阈值的目标视频帧样本；

增大所述目标视频帧样本的训练权重，并根据增大后的训练权重训练所述目标检测神经网络。

这里，可以通过增大小样本的训练权重来提升对应视频帧样本对网络训练的影响程度，提升网络训练性能。

在一种可能的实施方式中，在所述待检测视频为工业场景下采集的作业视频，所述视频帧序列为作业视频帧序列的情况下，所述在所述第二时间窗口内对所述视频帧序列进行目标行为检测，得到行为检测结果，包括：

在所述第二时间窗口内对所述作业视频帧序列中的目标对象进行目标行为检测，确定所述目标对象的行为检测结果。

第二方面，本公开实施例还提供了一种行为检测的装置，所述装置包括：

获取模块，用于获取待检测视频，并对所述待检测视频进行抽帧处理，得到抽帧后的视频帧序列；

提取模块，用于利用第一特征提取网络对所述待检测视频进行时序特征提取，得到所述待检测视频中第一视频帧的第一特征图，以及利用第二特征提取网络对所述视频帧序列进行空间特征提取，得到所述视频帧序列中第二视频帧的第二特征图；

更新模块，用于基于得到的所述第一特征图以及所述第二特征图，对第一时间窗口进行更新，得到更新后的第二时间窗口；

检测模块，用于在所述第二时间窗口内对所述视频帧序列进行目标行为检测，得到行为检测结果。

第三方面，本公开实施例还提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如第一方面及其各种实施方式任一所述的行为检测的方法的步骤。

第四方面，本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面及其各种实施方式任一所述的行为检测的方法的步骤。

关于上述行为检测的装置、电子设备、及计算机可读存储介质的效果描述参见上述行为检测的方法的说明，这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种行为检测的方法的流程图；

图2示出了本公开实施例所提供的行为检测的方法中，融合特征图提取具体方法的流程图；

图3示出了本公开实施例所提供的一种行为检测的装置的示意图；

图4示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，现有的视频行为检测的建模比较复杂，同一类别的行为动作由于个体的区别，实际的运动过程会存在差异，导致动作的初始时刻和结束时刻难以有统一的定义，检测准确性不高。

除此之外，由于标注工具的限制和人力因素导致动作标注过程相对缓慢，视频动作数据集难以形成较大的规模，这也为有关视频行为检测网络的训练提升了训练难度。

基于上述研究，本公开提供了一种结合时序特征提取和空间特征提取进行动作时间窗口更新的行为检测方案，以提升行为检测的准确度。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种行为检测的方法进行详细介绍，本公开实施例所提供的行为检测的方法的执行主体一般为具有一定计算能力的电子设备，该电子设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、蜂窝电话、无绳电话、个人数字助理(PersonalDigital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该行为检测的方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示，为本公开实施例提供的行为检测的方法的流程图，方法包括步骤S101～S104，其中：

S101：获取待检测视频，并对待检测视频进行抽帧处理，得到抽帧后的视频帧序列；

S102：利用第一特征提取网络对待检测视频进行时序特征提取，得到待检测视频中第一视频帧的第一特征图，以及利用第二特征提取网络对视频帧序列进行空间特征提取，得到视频帧序列中第二视频帧的第二特征图；

S103：基于得到的第一特征图以及第二特征图，对第一时间窗口进行更新，得到更新后的第二时间窗口；

S104：在第二时间窗口内对视频帧序列进行目标行为检测，得到行为检测结果。

为了便于理解本公开实施例提供的行为检测的方法，接下来首先对该方法的应用场景进行简单说明。本公开实施例中的行为检测的方法主要用于检测视频中的目标行为，有关目标行为与具体的应用场景有关，这里不做具体的限制。例如，在应用到道路监控场景的情况下，这里的目标行为可以是行人走路的行为；再如，在应用到高尔夫球场场景的情况下，这里的目标行人可以是用户打高尔夫球的行为。

考虑到在相关技术中有关视频中的连续动作的检测可以是预先标注好的，而由于个体的区别，针对同一类别的实际运动过程会存在差异，存在较大的类间差异，除此之外，不同标注人员所标注的动作状态信息也并不相同，这导致动作的初始时刻和结束时刻难以有统一的定义，从而无法在相关视频中准确的确定出相关动作视频帧以及相应的目标行为。

正是为了解决上述问题，本公开实施例才提供了一种结合时序特征提取和空间特征提取的动作时间窗口更新的方案，利用更新后的第二时间窗口所检测得到的行为检测结果更为准确。

其中，有关待检测视频可以是在具体场景下拍摄的原始视频，也可以是从原始视频中截取的视频段。视频帧序列可以是从待检测视频中抽取的视频帧的集合，这里可以是随机抽取的若干帧视频帧所组成，也可以是按照一定的抽取间隔抽取得到的，还可以是其它抽取方式，这里不做具体的限制。

本公开实施例可以采用双通道的特征提取框架对待检测视频和视频帧序列进行特征提取。其中，第一特征提取网络可以进行待检测视频的时序特征提取，第二特征提取网络可以进行视频帧序列的空间特征提取，从而可以得到待检测视频中第一视频帧的第一特征图以及视频帧序列中第二视频帧的第二特征图。

在具体应用中，可以使用Slow-Fast的双通道框架对视频特征进行提取，两个通道对视频流进行不同帧率的图像处理。其中，Fast通道对视频进行高帧率处理，从而提取时序上的运动信息(对应第一特征图)；Slow通道可以对视频进行低帧率处理，从而提取视频中的空间特征信息(对应第二特征图)，也即，通过Slow-Fast的双通道框架可以对视频流进行不同帧率的图像处理，从而得到有效的特征信息。

在提取出第一特征图和第二特征图的情况下，可以进行更细粒度的特征提取，从而预测每个动作相对于第一时间窗口的偏移量，进一步优化时间窗口的准确性。其中，第一时间窗口可以是基于上述第一特征图和第二特征图预测的动作开始节点和动作结束节点所确定的时间片段，也可以是通过其它方式确定的候选动作时间窗口。这里的时间窗口可以对应的是由动作开始的视频帧至动作结束的视频帧之间的时间跨度。

在得到更新后的第二时间窗口的情况下，可以实现有关目标行为的检测，得到行为检测结果。这里的行为检测结果可以对应指示的是目标行为发生的起始视频帧以及终止视频帧，有关目标行为可以是一个，也可以是多个。

考虑到时间窗口的更新对于目标行为检测的关键作用，接下来可以对更新第一时间窗口的过程进行具体说明。上述更新的过程具体可以通过如下步骤来实现：

步骤一、基于视频帧序列包括的视频帧的数量，对待检测视频包括的第一视频帧进行分组，得到多个第一视频帧组；

步骤二、针对视频帧序列中的每个第二视频帧，从多个第一视频帧组中选择与第二视频帧对应的第一目标视频帧组，并基于第二视频帧的第二特征图以及对应的第一目标视频帧组包括的各个第一视频帧的第一特征图，确定第二视频帧的融合特征图；

步骤三、基于每个第二视频帧的融合特征图，确定针对视频帧序列的融合特征图，并基于视频帧序列的融合特征图对第一时间窗口进行更新，得到更新后的第二时间窗口。

这里，可以先进行第一视频帧的分组，继而针对视频帧序列中的第二视频帧进行有关第二特征图和对应的第一目标视频帧组的第一特征图的融合，从而得到针对视频帧序列的融合特征图。

有关视频帧序列的融合特征图可以是由各个第二视频帧的融合特征图按照顺序组合得到的。在实际应用中，有关特征融合操作可以是基于第二特征提取网络所包括的多个特征提取层来实现的，这里的每个特征提取层对应多个第二视频帧的融合特征图。

这样，针对第二特征提取网络的每个特征提取层，将该特征提取层对应的多个第二视频帧的融合特征图进行组合，得到该特征提取层对应的融合特征图。本公开实施例中，将当前特征提取层对应的融合特征图作为下一个特征提取层的输入特征图，通过降维操作得到下一个特征提取层对应的融合特征图，依此循环，直至得到特征图维度满足预设要求的融合特征图，并作为针对视频帧序列的融合特征图。

为了便于说明基于降维操作实现特征融合的过程，接下来可以通过图2进一步进行说明。

有关Fast通道对应的是有关待检测视频的时序特征提取(可以基于第一特征提取网络来实现)，Slow通道对应的是有关视频帧序列的空间特征提取(可以基于第二特征提取网络来实现)。

针对Fast通道特征提取而言，对于输入的待检测视频，可以使用三维(3-Dimensional，3D)深度卷积神经网络对视频进行特征提取，这里可以包含4次的在空间分辨率下的采样过程(即降维操作)，从而得到每个第一视频帧的第一特征图；针对Slow通道特征提取而言，与Fast通道区别在于Slow通道首先对视频在时序上进行了均匀采样，输入的实际帧数更少。类似的，在使用3D深度卷积神经网络进行特征提取的过程中也可以进行4次空间下采样，在每次下采样之前，与Fast通道的特征进行特征融合，从而可以利用Fast通道的时序特征为Slow通道的空间场景进行时序内动作的补充。

在特征融合的过程中，首先可以将Fast通道的特征分成若干组，组数为Slow通道的帧数，把每一组的特征拼接起来，然后将Slow通道和对应分组Fast通道特征进一步做特征提取处理，最后再把两者的特征拼接在一起，从而得到第二特征提取网络中每个特征提取层对应的融合特征图，通过依照各个特征提取层的降维操作可以得到针对视频帧序列的融合特征图。

其中，有关各个第一视频帧的分组可以是基于视频帧序列包括的视频帧的数量来确定的，例如，在视频帧序列包括4帧视频帧的情况下，可以将待检测视频分为4组，有关各组对应的视频帧数可以相同也可以不同，这里不做具体的限制。

另外，基于上述视频帧序列的融合特征图可以对第一时间窗口进行更新，从而得到更新后的第二时间窗口。这里的第一时间窗口可以有一个，也可以有多个，每个第一时间窗口可以确定的是在对应视频帧段内存在动作，无法确定具体的动作类型，同理，有关更新后的第二时间窗口也可以是一个或多个。这里的第二时间窗口可以是通过更细粒度的特征对每个第一时间窗口更新得到的，具体包括如下步骤：

步骤一、确定第一时间窗口包括的动作开始时刻指向的第二视频帧以及动作结束时刻指向的第二视频帧；

步骤二、从视频帧序列的融合特征图中，选取与确定的两个第二视频帧所对应的视频帧段或者扩展视频帧段匹配的融合特征子图；

步骤三、基于选取的融合特征子图对第一时间窗口进行更新，得到更新后的第二时间窗口。

这里，首先可以确定第一时间窗口包括的动作开始时刻指向的第二视频帧以及动作结束时刻指向的第二视频帧，而后从视频帧序列的融合特征图中选取与上述两个视频帧匹配的融合特征子图，该特征子图是更细粒度的视频特征，规避了其它无关视频特征的干扰，可以实现第一时间窗口的准确更新。

其中，上述匹配的融合特征子图可以是基于两个第二视频帧所对应的视频帧段从视频帧序列的融合特征图中对应截取的子图，也可以是基于两个第二视频帧所对应的扩展视频帧段从视频帧序列的融合特征图中对应截取的子图。

例如，在确定第一时间窗口指向的两个第二视频帧分别是第2帧和第10帧的情况下，在这种情况下，可以从视频帧序列的融合特征图中选取从第2帧到第10帧这一视频帧段匹配的融合特征子图，还可以选取从第1帧到第11帧这一扩展视频帧段匹配的融合特征子图。

本公开实施例中，有关第一时间窗口可以是按照如下步骤确定的：

步骤一、利用训练好的多个动作参数提取网络分别对视频帧序列的融合特征图进行动作参数提取，得到每个动作参数提取网络输出的每个第二视频帧的动作参数值；动作参数值包括属于动作开始节点的概率值、属于动作结束节点的概率值、以及对应属于候选动作的概率值；

步骤二、基于每个动作参数提取网络输出的动作参数值，确定第一时间窗口。

这里，对于视频帧序列的融合特征图可以分为三个分支(对应动作开始预测分支，动作结束预测分支和动作持续预测分支)进行动作参数提取。这里的三个分支可以是三个动作参数提取网络实现的。为了实现不同动作参数值的提取，这里的动作参数提取网络可以是不同的卷积网络。

对于动作开始预测分支，这里预测一个长度为Slow通道帧数的概率结果，每一位表示了对应帧属于动作开始节点的概率值；类似地，动作结束预测分支也预测同样长度的概率结果，每一位表示了对应帧属于动作结束节点的概率值。

对于动作持续预测分支的预测结果可以是一个二维的概率图，横轴表示动作的初始节点，纵轴表示动作的持续时间。如果某个动作的发生时刻是(t_s,t_e)，其中t_s、t_e分别代表动作的开始视频帧和结束视频帧，则在(t_s,t_e–t_s)位置会有一个较高的概率。在本公开实施例的预测过程中，通过对三个概率进行处理，可以得到初步的候选动作时间窗口(即第一时间窗口)。

其中，上述多个动作参数提取网络可以是按照如下步骤训练得到的：

步骤一、获取视频样本，以及针对视频样本标注的动作参数信息；动作参数信息包括动作开始节点信息、动作结束节点信息、动作时间窗口对应的候选动作信息；

步骤二、将视频样本作为待训练的多个动作参数提取网络的输入数据，将动作参数信息作为待训练的多个动作参数提取网络的输出结果的对比监督数据，对待训练的多个动作参数提取网络进行训练，得到训练好的多个动作参数提取网络。

这里，预先可以对视频样本进行标注。上述动作参数提取网络训练的可以是视频样本与对应动作参数信息之间的对应关系。基于标注的动作参数信息可以作为待训练的多个动作参数提取网络的输出结果的对比监督数据，这样，在将视频样本输入到多个动作参数提取网络的情况下，可以得到网络的输出结果，将输出结果与上述标注的动作参数信息进行比对可以确定损失函数值。基于损失函数值可以进行网络反向传播，从而训练得到动作参数提取网络。

考虑到在工业等实际应用场景下，用于驱动网络的数据量有限，且不同种类数据呈长尾分布，使得数据数量分布不均匀。不均匀的数据分布会导致不同类的检测精度会有比较大的差异，使得数量多的类产生“过拟合”，数量少的类产生“欠拟合”，难以满足实际检测精度需求，同时在其他场景下的泛化性有限。本公开实施例在进行网络训练之前，可以对视频样本进行增强处理以提升网络的训练性能。

本公开实施例中，可以按照如下方式实现样本增强处理：

其一，可以从其它视频中选取与视频样本所对应候选动作信息不同的视频段，并将选取的视频段插入至视频样本中，得到更新后的视频样本。在实际应用中，可以对数据集中的每一个动作类别构建一个数据库，数据库中包含了该类别动作的视频实例，即每一个视频为该类别动作的片段。在训练过程中随机从不同动作类别中选取若干个动作片段加入到当前训练视频中进行训练。

其二，对视频样本进行采样处理，得到处理后的视频样本。在实际应用中，对于每个动作类别，不同实例的视频片段会存在时长上的差异。为了尽量模拟不同行为体的动作快慢，本公开实施例可以使用视频插帧或者视频采样的方式对不同动作进行变慢或者加速。

其三，对视频样本标注的动作时间窗口添加噪声进行处理，得到处理后的视频样本。在实际应用中，由于不同标注人员对同一个类别的动作可能存在理解上的差异，导致对动作初始时刻和结束时刻的标注规范不一样，本公开实施例可以对时间窗口真值结果加入随机噪声信息，进一步模拟不同的扰动情况。

在确定第一时间窗口的情况下，本公开实施例可以基于上述选取的与两个第二视频帧所对应的视频帧段或者扩展视频帧段匹配的融合特征子图，对第一时间窗口进行更新，具体通过如下步骤来实现：

步骤一、将选取的融合特征子图输入到训练好的动作偏移量提取网络中，确定有关动作参数值的动作偏移量；

步骤二、基于动作偏移量对第一时间窗口进行调整，得到更新后的第二时间窗口。

这里，可以将选取的融合特征子图输入到训练好的动作偏移量提取网络中，预测窗口内动作的开始时刻和结束时刻所对应的修正偏移量，通过修正第一时间窗口，输出更为精确的更新后的第二时间窗口。

在确定更新后的第二时间窗口的情况下，本公开实施例提供的行为检测的方法可以从视频帧序列的融合特征图中选取与第二时间窗口匹配的融合特征子图，继而通过训练好的行为检测神经网络对选取的融合特征子图进行目标行为检测，从而得到待检测视频中有关目标行为的类别信息。

其中，有关与更新后的第二时间窗口匹配的融合特征子图的选取操作可以按照有关第一时间窗口截取相应的融合特征子图的过程来实现，这里不做赘述。

本公开实施例中，有关行为检测神经网络可以训练的是视频样本与对应行为类别之间的关系，也即，在按照动作时间窗口的更新过程得到第二时间窗口的情况下，可以确定的是在窗口内存在行为动作，而利用行为检测神经网络则可以检测出对应窗口内有关目标行为的类别信息。

本公开实施例提供的行为检测的方法在进行行为检测的过程中，还可以进行目标检测，这里可以利用训练好的目标检测神经网络对待检测视频进行目标检测，从而得到待检测视频中目标对象的位置信息。

其中，上述目标检测神经网络训练的可以是视频帧样本以及目标对象信息之间的对应关系。结合不同的应用场景，这里的目标对象也不同。以工厂作业场景为例，这里的目标对象可以是操作员，也可以是操作员的手，还可以是操作机器等，从而可以在确定目标行为的同时，确定具体产生行为动作的目标对象，更有利于进行场景服务。

以操作员作为目标对象为例，在利用本公开实施提供的行为检测的方法确定操作员的行为检测结果的情况下，可以进一步判断操作员在当下的工业场景中的相关操作是否规范，便于进行有针对性的指导。

为了便于提升网络精度，这里可以对视频帧样本进行预处理。这里，可以采用“剪切混合”的方法对视频帧样本进行预处理，以平衡各个对象类别的数量。这里可以首先按照所属对象类别对初始的视频帧样本集包括的各个视频帧样本进行分类，确定各个分类对应的样本数据量，而后从初始的视频帧样本集中，确定对应样本数据量小于预设阈值的目标对象视频帧区域，并将目标对象视频帧区域，与不存在目标对象视频帧区域的视频帧样本融合，得到更新后的视频帧样本集。也即，本公开实施例可以将少类的训练集图像部分(即目标对象视频帧区域)剪切出来，随机粘贴到其他视频帧样本上。

为了进一步增加样本的多样性，可以对目标对象视频帧区域进行欧式变换和色彩变换，而后再进行粘贴。除此之外，还可以在所有对象类别的目标对象视频帧区域中随机粘贴一些单色的图像块，以减轻“训练过拟合”的现象。

为了进一步提升各个对象类别训练的网络精度，在训练的分类阶段可以调节不同类别的训练权重，这里，可以将少类(对应样本数据量小于预设阈值的目标视频帧样本)的权重调高一些，对于多类的权重可以不予约束，也可以适当的调低一些，以平衡各类之间的检测精度。

为了在确保高检测精度的前提下，提升训练速度，这里，可以利用剪枝后的轻量化网络作为网络框架基础，以降低网络资源占用及计算量，同时使用在相同任务上已训练的高精度的大网络进行“蒸馏”，约束使得轻量化网络和大网络在相同输入下产生相似的特征描述，通过相似的特征描述再进行目标检测的精度和速度均较高。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与行为检测的方法对应的行为检测的装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述行为检测的方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图3所示，为本公开实施例提供的一种行为检测的装置的示意图，装置包括：获取模块301、提取模块302、更新模块303和检测模块304；其中，

获取模块301，用于获取待检测视频，并对待检测视频进行抽帧处理，得到抽帧后的视频帧序列；

提取模块302，用于利用第一特征提取网络对待检测视频进行时序特征提取，得到待检测视频中第一视频帧的第一特征图，以及利用第二特征提取网络对视频帧序列进行空间特征提取，得到视频帧序列中第二视频帧的第二特征图；

更新模块303，用于基于得到的第一特征图以及第二特征图，对第一时间窗口进行更新，得到更新后的第二时间窗口；

检测模块304，用于在第二时间窗口内对视频帧序列进行目标行为检测，得到行为检测结果。

采用上述行为检测的装置，在获取到待检测视频以及视频帧序列的情况下，可以分别进行时序和空间两个维度的特征提取，得到待检测视频中每个第一视频帧的第一特征图以及视频帧序列中每个第二视频帧的第二特征图，而后对第一时间窗口进行更新，最后可以在得到的更新后的第二时间窗口内进行目标行为检测。本公开中的第一特征图所表征的连续动作信息一定程度上可以对第二特征图所表征的空间场景信息进行补充，进而使得所更新得到的第二时间窗口更为准确，从而提升了行为检测的准确性。

在一种可能的实施方式中，更新模块303，用于按照如下步骤基于得到的第一特征图以及第二特征图，对第一时间窗口进行更新，得到更新后的第二时间窗口：

基于视频帧序列包括的视频帧的数量，对待检测视频包括的第一视频帧进行分组，得到多个第一视频帧组；

针对视频帧序列中的每个第二视频帧，从多个第一视频帧组中选择与第二视频帧对应的第一目标视频帧组，并基于第二视频帧的第二特征图以及对应的第一目标视频帧组包括的各个第一视频帧的第一特征图，确定第二视频帧的融合特征图；

基于每个第二视频帧的融合特征图，确定针对视频帧序列的融合特征图，并基于视频帧序列的融合特征图对第一时间窗口进行更新，得到更新后的第二时间窗口。

在一种可能的实施方式中，更新模块303，用于按照如下步骤基于视频帧序列的融合特征图对第一时间窗口进行更新，得到更新后的第二时间窗口：

确定第一时间窗口包括的动作开始时刻指向的第二视频帧以及动作结束时刻指向的第二视频帧；

从视频帧序列的融合特征图中，选取与确定的两个第二视频帧所对应的视频帧段或者扩展视频帧段匹配的融合特征子图；

基于选取的融合特征子图对第一时间窗口进行更新，得到更新后的第二时间窗口。

在一种可能的实施方式中，更新模块303，用于按照如下步骤确定第一时间窗口：

利用训练好的多个动作参数提取网络分别对视频帧序列的融合特征图进行动作参数提取，得到每个动作参数提取网络输出的每个第二视频帧的动作参数值；动作参数值包括属于动作开始节点的概率值、属于动作结束节点的概率值、以及对应属于候选动作的概率值；

基于每个动作参数提取网络输出的动作参数值，确定第一时间窗口。

在一种可能的实施方式中，更新模块303，用于按照如下步骤基于选取的融合特征子图对第一时间窗口进行更新，得到更新后的第二时间窗口：

将选取的融合特征子图输入到训练好的动作偏移量提取网络中，确定有关动作参数值的动作偏移量；

基于动作偏移量对第一时间窗口进行调整，得到更新后的第二时间窗口。

在一种可能的实施方式中，更新模块303，用于按照如下步骤训练多个动作参数提取网络：

获取视频样本，以及针对视频样本标注的动作参数信息；动作参数信息包括动作开始节点信息、动作结束节点信息、动作时间窗口对应的候选动作信息；

将视频样本作为待训练的多个动作参数提取网络的输入数据，将动作参数信息作为待训练的多个动作参数提取网络的输出结果的对比监督数据，对待训练的多个动作参数提取网络进行训练，得到训练好的多个动作参数提取网络。

在一种可能的实施方式中，更新模块303，用于按照如下至少一种方式获取视频样本：

从其它视频中选取与视频样本所对应候选动作信息不同的视频段，并将选取的视频段插入至视频样本中，得到更新后的视频样本；

对视频样本进行采样处理，得到处理后的视频样本；

对视频样本标注的动作时间窗口添加噪声进行处理，得到处理后的视频样本。

在一种可能的实施方式中，第二特征提取网络包括多个特征提取层，每个特征提取层对应多个第二视频帧的融合特征图；更新模块303，用于按照如下步骤基于每个第二视频帧的融合特征图，确定针对视频帧序列的融合特征图：

针对第二特征提取网络的每个特征提取层，将该特征提取层对应的多个第二视频帧的融合特征图进行组合，得到该特征提取层对应的融合特征图，以及，

将该特征提取层对应的融合特征图作为下一个特征提取层的输入特征图，通过降维操作得到下一个特征提取层对应的融合特征图，依此循环，直至得到特征图维度满足预设要求的融合特征图，并作为针对视频帧序列的融合特征图。

在一种可能的实施方式中，检测模块304，用于按照如下步骤在第二时间窗口内对视频帧序列进行目标行为检测，得到行为检测结果：

从视频帧序列的融合特征图中选取与更新后的第二时间窗口匹配的融合特征子图；

利用训练好的行为检测神经网络对选取的融合特征子图进行目标行为检测，得到待检测视频中有关目标行为的类别信息。

在一种可能的实施方式中，检测模块304，还用于：

利用训练好的目标检测神经网络对待检测视频进行目标检测，得到待检测视频中目标对象的位置信息；

其中，目标检测神经网络是基于视频帧样本集以及针对视频帧样本集中包括的各个视频帧样本标注的目标对象信息训练得到的。

在一种可能的实施方式中，检测模块304，用于按照如下步骤确定视频帧样本集：

获取初始的视频帧样本集；

按照所属对象类别对初始的视频帧样本集包括的各个视频帧样本进行分类，确定各个分类对应的样本数据量；

从视频帧样本集中，确定对应样本数据量小于预设阈值的目标对象视频帧区域，并将目标对象视频帧区域，与不存在目标对象视频帧区域的视频帧样本融合，得到更新后的视频帧样本集。

在一种可能的实施方式中，检测模块304，还用于：

从视频帧样本集选取对应样本数据量小于预设阈值的目标视频帧样本；

增大目标视频帧样本的训练权重，并根据增大后的训练权重训练目标检测神经网络。

在一种可能的实施方式中，在待检测视频为工业场景下采集的作业视频，视频帧序列为作业视频帧序列的情况下，检测模块，用于按照以下步骤在第二时间窗口内对视频帧序列进行目标行为检测，得到行为检测结果：

在第二时间窗口内对作业视频帧序列中的目标对象进行目标行为检测，确定目标对象的行为检测结果。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本公开实施例还提供了一种电子设备，如图4所示，为本公开实施例提供的电子设备结构示意图，包括：处理器401、存储器402、和总线403。存储器402存储有处理器401可执行的机器可读指令(比如，图3中的装置中获取模块301、提取模块302、更新模块303和检测模块304对应的执行指令等)，当电子设备运行时，处理器401与存储器402之间通过总线403通信，机器可读指令被处理器401执行时执行如下处理：

获取待检测视频，并对待检测视频进行抽帧处理，得到抽帧后的视频帧序列；

利用第一特征提取网络对待检测视频进行时序特征提取，得到待检测视频中第一视频帧的第一特征图，以及利用第二特征提取网络对视频帧序列进行空间特征提取，得到视频帧序列中第二视频帧的第二特征图；

基于得到的第一特征图以及第二特征图，对第一时间窗口进行更新，得到更新后的第二时间窗口；

在第二时间窗口内对视频帧序列进行目标行为检测，得到行为检测结果。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的行为检测的方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的行为检测的方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种行为检测的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于得到的所述第一特征图以及所述第二特征图，对第一时间窗口进行更新，得到更新后的第二时间窗口，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述视频帧序列的融合特征图对第一时间窗口进行更新，得到更新后的第二时间窗口，包括：

4.根据权利要求3所述的方法，其特征在于，按照如下步骤确定所述第一时间窗口：

5.根据权利要求4所述的方法，其特征在于，所述基于选取的所述融合特征子图对第一时间窗口进行更新，得到更新后的第二时间窗口，包括：

6.根据权利要求4或5所述的方法，其特征在于，按照如下步骤训练所述多个动作参数提取网络：

7.根据权利要求6所述的方法，其特征在于，所述获取视频样本按照如下至少一种方式实现：

对所述视频样本进行采样处理，得到处理后的视频样本；

8.根据权利要求2-7任一所述的方法，其特征在于，所述第二特征提取网络包括多个特征提取层，每个所述特征提取层对应多个第二视频帧的融合特征图；所述基于每个第二视频帧的融合特征图，确定针对所述视频帧序列的融合特征图，包括：

9.根据权利要求2-8任一所述的方法，其特征在于，所述在所述第二时间窗口内对所述视频帧序列进行目标行为检测，得到行为检测结果，包括：

10.根据权利要求1-9任一所述的方法，其特征在于，所述方法还包括：

11.根据权利要求10所述的方法，其特征在于，按照如下步骤确定所述视频帧样本集：

获取初始的视频帧样本集；

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

13.根据权利要求1-12任一所述的方法，其特征在于，在所述待检测视频为工业场景下采集的作业视频，所述视频帧序列为作业视频帧序列的情况下，所述在所述第二时间窗口内对所述视频帧序列进行目标行为检测，得到行为检测结果，包括：

14.一种行为检测的装置，其特征在于，所述装置包括：

15.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至13任一所述的行为检测的方法的步骤。

16.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至13任一所述的行为检测的方法的步骤。