CN111753585A

CN111753585A - 动作追踪处理方法和装置、介质及设备

Info

Publication number: CN111753585A
Application number: CN201910242045.2A
Authority: CN
Inventors: 陈光启; 陈彦杰; 王飞; 钱晨
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2020-10-09

Abstract

本公开的实施方式公开了一种动作追踪处理方法、装置、电子设备、计算机可读存储介质及计算机程序，其中的动作追踪处理方法包括：获取视频帧序列中的当前视频帧的动作图像块；对所述当前视频帧的动作图像块进行动作状态检测处理，获得所述当前视频帧的动作状态信息；其中，所述动作状态信息用于判断动作图像块中的动作类别；在根据所述动作状态信息确定所述当前视频帧的动作图像块中的动作属于预定动作的情况下，将所述视频帧序列中的下一视频帧作为当前视频帧，以再次执行所述动作追踪处理的操作。

Description

动作追踪处理方法和装置、介质及设备

技术领域

本公开涉及计算机视觉技术，尤其是涉及一种动作追踪处理方法、动作追踪处理装置、电子设备、计算机可读存储介质以及计算机程序。

背景技术

目标追踪是计算机视觉技术领域中的一个研究方向。目标追踪可以应用在交通监控中的车辆追踪、摄像装置追踪对焦以及人脸追踪等场景中。目标追踪的任务通常包括：在连续的视频帧序列中，建立被追踪目标的位置关系，从而得到目标的运动轨迹。

发明内容

本公开实施方式提供一种动作追踪处理技术方案。

根据本公开实施方式其中一方面，提供一种动作追踪处理方法，包括：获取视频帧序列中的当前视频帧的动作图像块；对所述当前视频帧的动作图像块进行动作状态检测处理，获得所述当前视频帧的动作状态信息；其中，所述动作状态信息用于判断动作图像块中的动作类别；在根据所述动作状态信息确定所述当前视频帧的动作图像块中的动作属于预定动作的情况下，将所述视频帧序列中的下一视频帧作为当前视频帧，以再次执行所述动作追踪处理的操作。

在本公开一实施方式中，所述方法还包括：在根据所述动作状态信息确定所述当前视频帧的动作图像块中的动作不属于预定动作的情况下，所述视频帧序列中的下一视频帧不被作为当前视频帧，以停止执行所述动作追踪处理的操作。

在本公开又一实施方式中，所述获取视频帧序列中的当前视频帧的动作图像块包括：对所述视频帧序列中的当前视频帧进行目标检测，获得检测框；根据所述检测框对当前视频帧进行切分处理，获得当前视频帧的动作图像块。

在本公开再一实施方式中，所述获取视频帧序列中的当前视频帧的动作图像块包括：在所述视频帧序列中的当前视频帧的上一视频帧中的动作图像块中的动作属于预定动作的情况下，根据所述视频帧序列中的当前视频帧的上一视频帧的动作图像块的位置信息，确定当前视频帧的动作图像块的位置信息；根据所述当前视频帧的动作图像块的位置信息，对所述当前视频帧进行切分，获得所述当前视频帧的动作图像块。

在本公开再一实施方式中，所述根据所述视频帧序列中的当前视频帧的上一视频帧的动作图像块的位置信息，确定当前视频帧的动作图像块的位置信息，包括：根据预定扩展比例，对所述视频帧序列中的当前视频帧的上一视频帧的动作图像块的位置信息所形成的动作边界框，进行扩展处理，以获得所述当前视频帧的动作图像块的位置信息。

在本公开再一实施方式中，在对所述当前视频帧的动作图像块进行动作状态检测处理，获得所述当前视频帧的动作状态信息的步骤由神经网络执行的情况下，所述方法包括：经所述神经网络，对所述当前视频帧的动作图像块进行动作状态检测处理，根据所述神经网络的第一分支的输出，获得所述当前视频帧的动作图像块的位置信息，根据所述神经网络的第二分支的输出，获得所述当前视频帧的动作状态信息。

在本公开再一实施方式中，所述动作状态信息包括：动作属于至少一个预定动作类别的置信度。

在本公开再一实施方式中，所述动作状态信息还包括：动作属于背景动作类别的置信度。

在本公开再一实施方式中，所述获取视频帧序列中的当前视频帧的动作图像块，包括：获取交通工具上设置的图像采集装置所采集的视频帧序列中的当前视频帧的包含有脸部以及脸部周边区域的图像块；所述对所述当前视频帧的动作图像块进行动作状态检测处理，获得所述当前视频帧的动作状态信息，包括：对所述当前视频帧的包含有脸部以及脸部周边区域的图像块进行动作状态检测处理，获得所述当前视频帧的动作状态信息。

在本公开再一实施方式中，所述预定动作包括危险驾驶动作，所述方法还包括：在根据所述动作状态信息确定所述当前视频帧的动作图像块中的动作属于危险驾驶动作的情况下，输出预警信息。

在本公开再一实施方式中，所述方法还包括：在根据所述动作状态信息确定所述当前视频帧的动作图像块中的动作属于预定动作的情况下，形成相应的指令，并输出该指令。

在本公开再一实施方式中，所述对所述当前视频帧的动作图像块进行动作状态检测处理，获得所述当前视频帧的动作状态信息的步骤，由神经网络执行；所述神经网络是利用带有预定动作标注信息和预定动作区域的标注位置信息的视频帧样本序列，训练而成的。

在本公开再一实施方式中，所述神经网络的训练过程包括：获取视频帧样本序列中的当前视频帧样本的动作图像块；经待训练的神经网络，对所述当前视频帧样本的动作图像块进行动作状态检测处理，输出所述当前视频帧样本的动作状态信息和动作边界框的位置信息；根据所述当前视频帧样本的预定动作标注信息与所述当前视频帧样本的动作状态信息之间的差异形成的损失、以及预定动作区域的标注位置信息与动作边界框的位置信息之间的差异形成的损失，调整所述神经网络的网络参数。

根据本公开实施方式其中再一方面，提供一种动作追踪处理装置，该装置包括：第一获取模块，用于获取视频帧序列中的当前视频帧的动作图像块；第二获取模块，用于对所述当前视频帧的动作图像块进行动作状态检测处理，获得所述当前视频帧的动作状态信息；其中，所述动作状态信息用于判断动作图像块中的动作类别；追踪控制模块，用于在根据所述动作状态信息确定所述当前视频帧的动作图像块中的动作属于预定动作的情况下，将所述视频帧序列中的下一视频帧作为当前视频帧，以控制所述装置再次执行所述动作追踪处理的操作。

在本公开一实施方式中，所述追踪控制模块还用于：在根据所述动作状态信息确定所述当前视频帧的动作图像块中的动作不属于预定动作的情况下，所述视频帧序列中的下一视频帧不被作为当前视频帧，以停止执行所述动作追踪处理的操作。

在本公开又一实施方式中，所述第一获取模块包括：第一子模块，用于对所述视频帧序列中的当前视频帧进行目标检测，获得检测框；第二子模块，用于根据所述检测框对当前视频帧进行切分处理，获得当前视频帧的动作图像块。

在本公开再一实施方式中，所述第一获取模块包括：第三子模块，用于在所述视频帧序列中的当前视频帧的上一视频帧中的动作图像块中的动作属于预定动作的情况下，根据所述视频帧序列中的当前视频帧的上一视频帧的动作图像块的位置信息，确定当前视频帧的动作图像块的位置信息；第四子模块，用于根据所述当前视频帧的动作图像块的位置信息，对所述当前视频帧进行切分，获得所述当前视频帧的动作图像块。

在本公开再一实施方式中，所述第三子模块进一步用于：根据预定扩展比例，对所述视频帧序列中的当前视频帧的上一视频帧的动作图像块的位置信息所形成的动作边界框，进行扩展处理，以获得所述当前视频帧的动作图像块的位置信息。

在本公开再一实施方式中，在所述第二获取模块利用神经网络执行对所述当前视频帧的动作图像块进行动作状态检测处理，获得所述当前视频帧的动作状态信息的情况下，第二获取模块，用于经所述神经网络，对所述当前视频帧的动作图像块进行动作状态检测处理，根据所述神经网络的第一分支的输出，获得当前视频帧的动作图像块的位置信息，根据所述神经网络的第二分支的输出，获得所述当前视频帧的动作状态信息。

在本公开再一实施方式中，所述第一获取模块用于：获取交通工具上设置的图像采集装置所采集的视频帧序列中的当前视频帧的包含有脸部以及脸部周边区域的图像块；所述第二获取模块用于：对所述当前视频帧的包含有脸部以及脸部周边区域的图像块进行动作状态检测处理，获得所述当前视频帧的动作状态信息。

在本公开再一实施方式中，所述预定动作包括危险驾驶动作，所述装置还包括：预警模块，用于在根据所述动作状态信息确定所述当前视频帧的动作图像块中的动作属于危险驾驶动作的情况下，输出预警信息。

在本公开再一实施方式中，所述装置还包括：输出指令模块，用于在根据所述动作状态信息确定所述当前视频帧的动作图像块中的动作属于预定动作的情况下，形成相应的指令，并输出该指令。

在本公开再一实施方式中，所述对所述当前视频帧的动作图像块进行动作状态检测处理，获得所述当前视频帧的动作状态信息的步骤，由神经网络执行；所述神经网络是训练模块利用带有预定动作标注信息和预定动作区域的标注位置信息的视频帧样本序列，训练而成的。

在本公开再一实施方式中，所述训练模块，包括：第五子模块，用于获取视频帧样本序列中的当前视频帧样本的动作图像块；第六子模块，用于经待训练的神经网络，对所述当前视频帧样本的动作图像块进行动作状态检测处理，输出所述当前视频帧样本的动作状态信息和动作边界框的位置信息；第七子模块，用于根据所述当前视频帧样本的预定动作标注信息与所述当前视频帧样本的动作状态信息之间的差异形成的损失、以及预定动作区域的标注位置信息与动作边界框的位置信息之间的差异形成的损失，调整所述神经网络的网络参数。

根据本公开实施方式再一方面，提供一种电子设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现本公开任一方法实施方式。

根据本公开实施方式再一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现本公开任一方法实施方式。

根据本公开实施方式的再一个方面，提供一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现本公开任一方法实施方式。

基于本公开提供的动作追踪处理方法及装置、驾驶监控方法及装置、电子设备、计算机可读存储介质及计算机程序，通过对当前视频帧的动作图像块进行动作状态检测处理，可以获得当前视频帧的动作状态信息；本公开只在根据动作状态信息，确定出当前视频帧的动作图像块中的动作属于预定动作的情况下，继续针对下一视频帧执行动作追踪处理的操作，有利于避免不必要的动作追踪处理操作，从而有利于提高动作追踪处理的实时性。由此可知，本公开提供的技术方案有利于提高动作追踪处理的可实施性，在将该技术应用于智能驾驶控制技术领域中时，有利于提高检测出驾驶员的危险驾驶行为的实时性，进而有利于提高驾驶的安全性。

下面通过附图和实施方式，对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施方式，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开的动作追踪处理方法一个实施方式的流程图；

图2为本公开的一视频帧的示意图；

图3为图2所示的视频帧中的预定动作边界框的示意图；

图4为从图2所示的视频帧中切分出的动作图像块的示意图；

图5为本公开的神经网络训练方法一个实施方式的流程图；

图6为本公开的动作追踪处理方法应用在交通工具的智能驾驶监控场景中的一个实施方式的流程图；

图7为本公开的动作追踪处理装置一个实施方式的结构示意图；

图8为实现本公开实施方式的一示例性设备的框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法以及设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应当注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统及服务器等电子设备，其可与众多其它通用或者专用的计算系统环境或者配置一起操作。适于与终端设备、计算机系统以及服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子，包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统以及服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑以及数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性实施例

图1为本公开的动作追踪处理方法一个实施例的流程图。如图1所示，该实施例方法包括：步骤S100、S110以及S120。下面对图1中的各步骤分别进行详细描述。

S100、获取视频帧序列中的当前视频帧的动作图像块。

在一个可选示例中，本公开中的视频帧序列包括多个视频帧，且多个视频帧之间具有时序关系。例如，一视频中连续排列的多个视频帧可以被认为是本公开中的视频帧序列。再例如，针对一视频，进行抽帧处理，基于抽帧的结果而形成的多个连续抽取出的视频帧，可以形成本公开的视频帧序列。本公开中的视频帧序列可以是摄像装置实时摄取的视频。例如，设置于机动车辆或者飞机或者火车等交通工具中的摄像装置，针对交通工具的驾驭者(如驾驶员或者飞行员等)进行监控而摄取的视频。另外，本公开的视频序列可以为基于RGB(Red Green Blue，红绿蓝)图像的视频序列，也可以为基于红外或者红外图像的视频序列等。

在一个可选示例中，当前视频帧可以被称为当前待处理视频帧，且当前视频帧通常并不是视频帧序列中的第一个视频帧。本公开中的动作图像块通常是指：包含有目标对象的至少部分身体区域所做动作的图像内容的图像块。一个例子，包含有目标对象的手在脸附近区域所做动作这一图像内容的图像块，例如，包含有目标对象打电话或者打哈欠或者打瞌睡等动作的图像内容的图像块；再例如，包含有目标对象拿取手机或者翻看手机页面等动作的图像内容的图像块。本公开中的目标对象可以是车辆驾驶员或者飞行员或者乘客等需要进行动作跟踪处理的人。

在一个可选示例中，本公开中的当前视频帧(如图2所示的图像)的动作图像块包括但不限于：当前视频帧中的部分区域。例如，针对当前视频帧进行图像切分处理，而获得的图像块(如图4所示的图像块)。在对当前视频帧进行图像切分处理时，通常需要先获知动作图像内容可能所处的区域(如图3中的包含有脸部的方框所示的区域)，从而根据该区域的位置信息对当前视频帧进行图像切分处理，可以获得当前视频帧的动作图像块。本公开中的动作图像块可以为包含有脸部以及脸部周边区域的图像块，如图4所示的图像块包含有脸部以及放置于耳边的手等图像内容。本公开中的从当前视频帧中切分出相应区域的位置信息，可以是针对当前视频帧的上一视频帧的动作图像块的位置信息进行变换，从而获得的。例如，对当前视频帧的上一视频帧的动作图像块所在区域进行扩展或者位移等变换，变换后的位置信息即为当前视频帧中的动作图像块的位置信息。本公开可以通过下述两种方式中的至少一种，获得当前视频帧的动作图像块的位置信息：

方式一、基于目标检测神经网络的位置信息获得方式。

步骤1、按照视频帧序列中的视频帧的排列顺序，从视频帧序列中的未进行过动作追踪处理的视频帧中，获取一排列在先的视频帧，并提供给目标检测神经网络。

可选的，提供给目标检测神经网络的视频帧的大小，应符合目标检测神经网络对输入图像的大小要求。在视频帧不符合该要求的情况下，可以先对视频帧进行缩放等大小变换，然后，再将变换后的视频帧提供给目标检测神经网络。

步骤2、由目标检测神经网络对输入的视频帧进行预定动作检测，也就是进行目标检测，并输出动作检测结果。

在一个可选示例中，目标检测神经网络针对输入的视频帧输出的动作检测结果可以包括：至少一个检测框的动作类别信息以及位置信息等。检测框的动作类别信息用于表示检测框中的图像内容所属的动作类别。本公开中的动作类别可以包括：预定动作类别以及背景动作类别。其中的预定动作类别可以包括多个动作类别，例如，包括：第一预定动作类别、第二预定动作类别以及第三预定动作类别等。其中的背景动作类别可以称为非预定动作类别。预定动作可以根据实际需求设置，如可以根据导致危险驾驶的动作来设置预定动作，再如可以根据安防需求来设置预定动作。本公开不限制预定动作的具体表现形式。

在一个可选示例中，本公开中的检测框的位置信息用于表示检测框在输入的视频帧中的位置，且检测框的位置信息可以表示出检测框的大小。本公开中的预定动作可以为危险动作(如危险驾驶动作等)，且危险动作可以根据实际需求设置。例如，对于机动车的驾驶员而言，由于接听电话或者扭头与他人交谈等现象，可能会导致驾驶员不能专注于机动车的驾驶，因此，可以将接听电话动作和/或扭转头部动作设置为危险动作。本公开不限制预定动作类别的具体表现形式以及预定动作类别的数量等。

步骤3、在根据目标检测神经网络输出的动作检测结果，判断出当前输入的视频帧为包含有预定动作的视频帧的情况下，将检测到的该视频帧中的预定动作检测框的位置信息作为上一视频帧的动作图像块的位置信息。

在一个可选示例中，本公开通过目标检测神经网络，可以快捷准确的检测获得视频帧中的至少一个检测框。如果该视频帧中未包含有接听电话等属于预定动作的图像内容，则本公开可以返回上述步骤1，并再次执行步骤1至步骤3。如果视频帧中包含有接听电话等属于预定动作的图像内容，则本公开可以根据各检测框的动作类别信息，从所有检测框中筛选出预定动作检测框，从而获得预定动作检测框的位置信息，即获得上一视频帧的动作图像块的位置信息。本公开中的预定动作检测框也可以称为预定动作边界框或者预定动作外接框等。本公开中的预定动作检测框的位置信息可以包括：预定动作检测框的中心点在视频帧中的位置坐标以及预定动作检测框的两个顶点在视频帧中的位置坐标，例如，位于预定动作检测框的一条对角线上的两个顶点在视频帧中的位置坐标。

在S110利用神经网络来实现的情况下，本公开通过方式一所获得的预定动作图像块的位置信息，可以作为S110中的神经网络的初始化位置信息。即本公开可以利用方式一所获得的预定动作图像块的位置信息，对S110中的神经网络进行动作区域初始化，以便于使神经网络开始执行动作状态检测处理。

在一个可选示例中，本公开中的目标检测神经网络通常可以包括：抽取特征模块(如由多层卷积堆叠所形成的模块)、提取候选框模块、框分类模块以及坐标拟合模块等。目标检测神经网络针对输入的视频帧，输出动作检测结果的一个过程可以如下所示：

首先，可以对视频帧进行预处理(如缩放、剪切或者归一化处理等)，并将预处理结果输入抽取特征模块，由抽取特征模块采用非线性特征提取等方式，形成输入图像的特征图，并输出该特征图。抽取特征模块输出的特征图可以反映出视频帧中的动作特征。本公开中的抽取特征模块可以包括多个卷积层，且卷积层可以表示为如下述公式(1)所示：

在上述公式(1)中，X_l表示第l层卷积层的输出，

表示激活函数，W_l表示第l层卷积层的卷积核参数，X_l-1表示第l-1层卷积层的输出，b_l表示第l层卷积层的偏置项。本公开可以通过线性的卷积核以及非线性的激活函数，抽取出视频帧中的语义特征。

其次，由提取候选框模块针对抽取特征模块输出的特征图，给出一系列可能出现物体的区域，形成候选框集合，且该候选框集合中第i个候选框可以表示为

之后，通过候选框池化层，可以将输入的图像中的候选框区域映射到特征图上的部分区域，通过池化操作生成固定大小的特征。

最后，将固定大小的特征分别输入至框分类模块以及坐标拟合模块。由框分类模块进行分类处理，确定候选框为无效框(如非预定动作类别)，还是有效框(如预定动作类别)。由坐标拟合模块进行坐标精修处理(如坐标的精细回归处理)，获得各候选框最终的坐标。

如果视频帧中包含有预定动作(如危险动作)，则通过目标检测神经网络可以成功获得视频帧的预定动作图像块的位置信息。如果视频帧中未包含有预定动作，则本公开可以对视频序列中的下一个视频帧进行动作检测处理，直到成功获得相应视频帧的预定动作图像块的位置信息，或者直到视频序列中不存在未进行动作检测的视频帧(如摄像装置停止摄像或者被关闭等)。

本公开中的目标检测神经网络可以包括但不限于：R-CNN(Regions withConvolutional Neural Network，区域卷积神经网络)、Fast R-CNN(快速区域卷积神经网络)、Faster R-CNN(更快速区域卷积神经网络)或者SSD(Single Shot MultiBoxDetector，一阶多目标检测器)等。

方式二、基于动作追踪的位置信息获得方式。在执行了S100、S110以及S120之后，当前视频帧的上一视频帧中的动作图像块成为已知，从而本公开获得上一视频帧中的动作图像块的位置信息。该方式可以便捷的获得动作图像块的位置信息，从而有利于提高动作追踪处理的实时性。

在一个可选示例中，本公开中的根据视频帧序列中的当前视频帧的上一视频帧的动作图像块的位置信息，确定当前视频帧的动作图像块的位置信息，可以为：根据预定扩展比例，对视频帧序列中的当前视频帧的上一视频帧的动作图像块的位置信息所形成的动作边界框，进行扩展处理，以获得当前视频帧的动作图像块的位置信息，从而有利于准确的获得包含动作图像内容的动作图像块的位置信息。例如：

假定上一视频帧中的动作边界框表示为(x₁,y₁,x₂,y₂)，该动作边界框的中心点坐标表示为(c_x,c_y),且该动作边界框的宽和高分别为w和h，则下述关系存在：

c_x＝(x₁+x₂)×0.5

c_y＝(y₁+y₂)×0.5

w＝x₂-x₁

h＝y₂-y₁

本公开可以按照预定扩展比例r，对动作边界框(x₁,y₁,x₂,y₂)进行扩展，从而获得的当前视频帧的动作图像块的位置信息(x′₁,y′₁,x′₂,y′₂)可以表示为：

x′₁＝c_x-0.5×w×r

x′₂＝c_x+0.5×w×r

y′₁＝c_y-0.5×h×r

y′₂＝c_y+0.5×h×r

在一个可选示例中，本公开中的当前视频帧的动作图像块的大小通常与神经网络对输入图像的尺寸要求相关，例如，动作图像块的大小可以为256×256等。为了获得具有预定大小的动作图像块，本公开可以对从当前视频帧中剪切出的动作图像块进行缩放处理。当然，本公开也可以先对当前视频帧进行缩放处理，然后，再进行剪切处理。

通过对视频帧序列中的当前视频帧的上一视频帧的动作图像块的位置信息所形成的动作边界框，进行扩展处理，以获得当前视频帧的动作图像块的位置信息，有利于避免由于时间变化而导致的动作图像块没有包含完整的动作图像内容的现象，有利于提高动作图像块的准确性。

S110、对当前视频帧的动作图像块进行动作状态检测处理，获得当前视频帧的动作状态信息。

在一个可选示例中，本公开中的动作状态检测处理是指对动作图像块所包含的动作是否属于中断状态的识别处理。动作状态检测处理所获得的动作状态信息用于判断动作图像块中的动作类别。

可选的，本公开可以使用神经网络来执行该步骤的操作，为了与前述的目标检测神经网络相区别，下述将S110所使用的神经网络称为动作状态检测神经网络。通过利用神经网络来执行该步骤的操作，有利于丰富获得当前视频帧的动作状态信息的实现方式，且有利于准确的获得当前视频帧的动作状态信息。

可选的，本公开中的动作状态检测神经网络可以包括主干网络、第一分支以及第二分支。主干网络主要用于提取动作图像块的特征图。主干网络形成的特征图分别提供给第一分支和第二分支。第一分支用于对动作图像块进行动作区域的精准定位，以去除输入的动作图像块中的不必要的图像内容，从而形成当前视频帧的动作图像块的位置信息。第一分支可以为用于实现回归的子神经网络。第二分支用于形成当前视频帧的动作状态信息，并输出。当前视频帧的动作状态信息可以包括但不限于：当前视频帧的动作图像块中的动作属于预定动作的置信度。第二分支可以为用于实现分类的子神经网络。可选的，在预先设置有三种预定动作(如三种危险动作)的情况下，第二分支可以输出动作图像块中的动作属于第一预定动作的置信度、属于第二预定动作的置信度以及属于第三预定动作的置信度。可选的，第二分支还可以输出动作图像块中的动作属于背景动作的置信度。本公开中的背景动作通常是指，如果一动作不属于任何一种预定动作，则该动作可以称为背景动作。通过利用第二分支输出置信度信息，有利于准确的判断动作图像块中的动作是否属于预定动作。

需要特别说明的是，本公开中的主干网络、第一分支以及第二分支可以包括但不限于：卷积层、激活层、池化层、全连接层以及用于分类的层等。该主干网络、第一分支以及第二分支所包含的层数越多，则动作状态检测神经网络越深。本公开对主干网络、第一分支以及第二分支的具体结构不作限制。

S120、在根据动作状态信息确定当前视频帧的动作图像块中的动作属于预定动作的情况下，将视频帧序列中的下一视频帧作为当前视频帧，以再次执行本公开的动作追踪处理的操作。

在一个可选示例中，本公开在通过动作状态检测神经网络获得了多个置信度的情况下，可以根据各置信度判断出当前视频帧的动作图像块中的动作是否属于预定动作。如果判断出当前视频帧的动作图像块中的动作属于预定动作类别(如属于第一预定动作或者第二预定动作或者第三预定动作等)，则表示预定动作处于持续状态，本公开可以将视频帧序列中的下一视频帧作为当前视频帧，并将第一分支当前输出的动作图像块的位置信息，作为更新后的当前视频帧的上一视频帧的动作图像块的位置信息，从而针对更新后的当前视频帧，再次执行S100至S120。而如果判断出当前视频帧的动作图像块中的动作不属于预定动作类别(如属于背景动作)，则表示预定动作处于中断状态，本公开不会将视频帧序列中的下一视频帧作为当前视频帧进行动作追踪处理，从而本次不会再循环执行上述S100至S120。此时，本公开可以利用目标检测神经网络针对视频帧序列中的下一视频帧进行预定动作检测处理，直到成功获得相应视频帧的预定动作图像块的位置信息，或者直到视频序列中不存在未进行动作检测的视频帧(如摄像装置停止摄像或者被关闭等)。在再次成功获得相应视频帧的预定动作图像块的位置信息的情况下，该视频帧的下一视频帧被作为当前视频帧，本公开再次开始执行S100至S120。

由于本公开可以获知预定动作是否处于中断状态，且在预定动作处于中断状态时，不再使动作状态检测神经网络执行相应的处理，从而有利于节约计算资源，并有利于降低计算所消耗的时间，进而有利于提高动作追踪处理的实时性以及可实施性。

本公开根据动作状态检测神经网络输出的置信度判断出当前视频帧的动作图像块中的动作是否属于预定动作的一个例子：假定预先设置有三种预定动作(如三种危险动作)；动作状态检测神经网络的第二分支通常输出动作图像块中的动作属于第一预定动作的置信度、属于第二预定动作的置信度、属于第三预定动作的置信度以及属于背景动作的置信度。本公开可以从四个置信度中选取最大置信度，如果该最大置信度对应的动作类别为背景动作类别，则判断出当前视频帧的动作图像块中的动作不属于预定动作；而如果该最大置信度对应的动作类别为第一预定动作类别或者第二预定动作类别或者第三预定动作类别，且最大置信度大于预定阈值(如0.5或者0.6等)，则判断出当前视频帧的动作图像块中的动作属于预定动作。通过设置预定阈值，有利于准确的识别当前视频帧的动作图像块中的动作是否属于预定动作。

通过对当前视频帧的动作图像块进行动作状态检测处理，可以获得当前视频帧的动作状态信息；本公开在根据动作状态信息确定当前视频帧的动作图像块中的动作属于预定动作的情况下，会继续针对下一视频帧执行动作追踪处理的操作，有利于避免不必要的动作追踪处理操作，从而有利于提高动作追踪处理的实时性。由此可知，本公开提供的技术方案有利于提高动作追踪处理的可实施性，在将该技术应用于智能驾驶控制技术领域中时，有利于提高检测出驾驶员的危险驾驶行为的实时性，从而有利于提高驾驶的安全性。

可选的，本公开可以在确定出当前视频帧的动作图像块中的动作属于预定动作的情况下，形成相应的指令，以减少出现预定动作的情况。本公开中的相应的指令包括但不限于：预警信息或者驾驶模式切换指令等。通过形成预警信息或者驾驶模式切换指令等，有利于减少危险驾驶动作对交通工具安全行驶的影响，从而有利于提高驾驶的安全性。

在一个可选示例中，本公开的动作状态检测神经网络是利用带有动作类别标注值和预定动作边界框的标注位置信息的视频样本训练而成的，训练动作状态检测神经网络的一个实施例的流程如图5所示。

图5中，S500、获取视频帧样本序列中的当前视频帧样本的动作图像块。

在一个可选示例中，本公开获取当前视频帧样本的动作图像块的方式可以参见上述S100中的描述，在此不再详细说明。

S510、经待训练的神经网络，对当前视频帧样本的动作图像块进行动作状态检测处理，输出当前视频帧样本的动作状态信息和动作边界框的位置信息。

在一个可选示例中，待训练的神经网络输出当前视频帧样本的动作状态信息和动作边界框的位置信息的过程可以参见上述S110中的描述，在此不再详细说明。

S520、根据当前视频帧样本的预定动作标注信息与动作状态信息之间的差异形成的损失、以及预定动作区域的标注位置信息与动作边界框的位置信息之间的差异形成的损失，调整神经网络的网络参数。

在一个可选示例中，本公开应确定神经网络输出的动作状态信息以及动作边界框的位置信息各自对应的损失，并根据这两个损失之和，来调整神经网络的网络参数。本公开中的网络参数可以包括但不限于：卷积核参数和/或矩阵权重等。

在一个可选示例中，假设输入待训练的神经网络的动作图像块记为x(即输入图像x)，神经网络中的主干网络和第一分支针对输入图像的变换函数记为F_reg(*)，且神经网络中的主干网络和第二分支针对输入图像的变换函数记为F_cls(*)，则第一分支输出的动作边界框的位置信息可以记为

且

第二分支输出的动作状态信息可以记为

且

假设当前视频帧样本的预定动作区域的标注位置记为y_reg，且当前视频帧样本的预定动作区域的标注位置与第一分支输出的动作边界框的位置信息之间的距离记为Δy，则

在使用SmoothL1损失函数的情况下，由预定动作区域的标注位置信息和动作边界框的位置信息之间的差异而形成的损失L_reg可以表示为：L_reg＝SmoothL1(Δy)。本公开可以采用下述公式(2)来计算SmoothL1(Δy)的取值：

假设当前视频帧样本的预定动作标注信息记为y_cls，

其中，

即

的取值为0或者1；K表示预定动作的数量，例如，如果有五个预定动作，则K＝5，外加背景动作，所以

由当前视频帧样本的预定动作标注信息与动作状态信息之间的差异而形成的损失L_cls可以表示为：

其中的

所示神经网络针对当前视频帧样本而输出的动作状态信息中的第i个预定动作的置信度。

本公开可以根据下述公式(3)获得总的损失，并根据该总的损失调整神经网络的网络参数，例如，利用总的损失进行反向传播处理，使待训练的神经网络的网络参数按照损失梯度下降的方式来更新。

L＝L_cls+λL_reg 公式(3)

公式(3)中的λ表示加权系数，且λ>0。

在一个可选示例中，在针对待训练的神经网络的训练达到预定迭代条件时，本次训练过程结束。本公开中的预定迭代条件可以包括：待训练的神经网络输出的动作状态信息与预定动作标注信息之间的差异、以及待训练的神经网络输出的动作边界框的位置信息与预定动作区域的标注位置之间的差异，分别满足预定差异要求。在差异满足预定差异要求的情况下，本次对神经网络成功训练完成。本公开中的预定迭代条件也可以包括：对待训练的神经网络进行训练，所使用的视频帧样本的数量达到预定数量要求等。在使用的视频帧样本的数量达到预定数量要求，然而，差异并未满足预定差异要求的情况下，本次对神经网络并未训练成功。成功训练完成的神经网络可以用于动作追踪处理。

图6为本公开的动作追踪处理方法应用在交通工具的智能驾驶监控场景中的一个实施例的流程图。本公开的交通工具可以包括但不限于：机动车辆或者列车或者飞行器等。

如图6所示，该实施例方法包括：步骤S600、步骤S610、步骤S620、步骤S630以及步骤S640。下面对图6中的各步骤进行详细说明。

S600、获取交通工具上设置的图像采集装置所采集的视频帧序列中的当前视频帧的包含有脸部以及脸部周边区域的图像块。

可选的，由于接听电话或者转头等危险驾驶动作，通常与交通工具的驾驶者的面部相关，因此，本公开通过获得脸部以及脸部周边区域的图像块，可以便捷的确定出危险驾驶动作，有利于提高交通工具的驾驶安全性。本步骤的具体实现方式可以参见上述方法实施方式中针对图1中的S100的描述，在此不再详细说明。

S610、对当前视频帧的包含有脸部以及脸部周边区域的图像块进行动作状态检测处理，获得当前视频帧的动作状态信息。

可选的，本公开可以利用神经网络，来执行针对图像块的动作状态检测处理，从而根据神经网络的输出，获得当前视频帧的动作状态信息。本步骤中的神经网络是利用上述神经网络训练方法的实施方式，成功训练获得的。本步骤的具体实现方式可以参见上述方法实施方式中针对图1中的S110的描述，在此不再详细说明。

S620、根据动作状态信息，判断当前视频帧的动作图像块中的动作是否属于预定动作(如属于危险驾驶动作)，如果属于预定动作，到步骤S630，如果不属于预定动作，到步骤S640。

S630、将视频帧序列中的下一视频帧作为当前视频帧，以再次执行对更新后的当前视频帧的动作图像块的动作状态监测处理的操作，即返回S600，以使S600至S620可以循环执行。

可选的，本公开可以输出预警信息，该预警信息包括但不限于：声音预警信息或者灯光预警信息等。当然，本公开还可以形成相应的指令，如驾驶模式切换指令等交通工具控制指令，以避免疲劳驾驶等引起的驾驶安全问题。

S640、视频帧序列中的下一视频帧不被作为当前视频帧，以停止执行动作追踪处理的操作。

由于本公开的动作追踪处理技术，有利于节约计算资源，且有利于提高动作追踪处理的实时性，因此，本公开有利于促使动作追踪处理技术应用于安全驾驶等实时性较强的领域，有利于减少因危险驾驶动作而导致的安全隐患，从而有利于提高驾驶的安全性。

图7为本公开的动作追踪处理装置一个实施例的结构示意图。如图7所示的装置包括：第一获取模块700、第二获取模块710和追踪控制模块720。可选的，本公开的动作追踪处理装置还可以包括：预警模块730、输出指令模块740以及训练模块750。

第一获取模块700用于获取视频帧序列中的当前视频帧的动作图像块。

在一个可选示例中，在本公开的动作追踪处理装置应用在交通工具的智能驾驶监控应用中(如动作追踪处理装置设置于交通工具上)的情况下，第一获取模块700可以获取交通工具上设置的图像采集装置所采集的视频帧序列中的当前视频帧的包含有脸部以及脸部周边区域的图像块。

可选的，第一获取模块700可以包括：第一子模块和第二子模块。其中的第一子模块用于对视频帧序列中的当前视频帧进行目标检测，获得检测框。其中的第二子模块用于根据检测框对当前视频帧进行切分处理，获得当前视频帧的动作图像块。

可选的，第一获取模块700可以包括：第三子模块和第四子模块。其中的第三子模块用于在视频帧序列中的当前视频帧的上一视频帧中的动作图像块中的动作属于预定动作的情况下，根据视频帧序列中的当前视频帧的上一视频帧的动作图像块的位置信息，确定当前视频帧的动作图像块的位置信息。

可选的，第三子模块可以根据预定扩展比例，对视频帧序列中的当前视频帧的上一视频帧的动作图像块的位置信息所形成的动作边界框，进行扩展处理，以获得当前视频帧的动作图像块的位置信息。其中的第四子模块用于根据当前视频帧的动作图像块的位置信息，对当前视频帧进行切分，获得当前视频帧的动作图像块。

第一获取模块700及其包含的各子模块具体执行的操作可以参见上述方法实施方式中关于S100的相关描述。在此不再详细说明。

第二获取模块710用于对当前视频帧的动作图像块进行动作状态检测处理，获得当前视频帧的动作状态信息。本公开中的动作状态信息用于判断动作图像块中的动作类别。

可选的，在第二获取模块710利用神经网络执行对当前视频帧的动作图像块进行动作状态检测处理，以获得当前视频帧的动作状态信息的步骤的情况下，第二获取模块710可以经神经网络，对当前视频帧的动作图像块进行动作状态检测处理，第二获取模块710可以根据神经网络的第一分支的输出，获得当前视频帧的动作图像块的位置信息，第二获取模块710可以根据神经网络的第二分支的输出，获得当前视频帧的动作状态信息。

可选的，本公开中的动作状态信息包括：动作属于至少一个预定动作类别的置信度以及动作属于背景动作类别的置信度。本公开中的预定动作包括但不限于：危险驾驶动作。

第二获取模块710具体执行的操作可以参见上述方法实施方式中关于S110的相关描述。在此不再详细说明。

追踪控制模块720用于在根据动作状态信息确定当前视频帧的动作图像块中的动作属于预定动作的情况下，将视频帧序列中的下一视频帧作为当前视频帧，以控制本公开的动作追踪处理装置再次执行动作追踪处理的操作。

在一个可选示例中，追踪控制模块720还用于在根据动作状态信息确定当前视频帧的动作图像块中的动作不属于预定动作的情况下，视频帧序列中的下一视频帧不被作为当前视频帧，以停止执行动作追踪处理的操作。

可选的，第二获取模块710可以对当前视频帧的包含有脸部以及脸部周边区域的图像块进行动作状态检测处理，获得当前视频帧的动作状态信息。

可选的，在预定动作包括危险驾驶动作的情况下，预警模块730用于在根据动作状态信息确定当前视频帧的动作图像块中的动作属于危险驾驶动作的情况下，输出预警信息。

追踪控制模块720具体执行的操作可以参见上述方法实施方式中关于S120的相关描述。在此不再详细说明。

输出指令模块740用于在根据动作状态信息确定当前视频帧的动作图像块中的动作属于预定动作的情况下，形成相应的指令，并输出该指令，以减少出现预定动作的情况。输出指令模块740形成并输出的指令包括但不限于：预警信息或者驾驶模式切换指令等。

可选的，训练模块750用于利用带有预定动作标注信息和预定动作区域的标注位置信息的视频帧样本序列，训练神经网络。例如，训练模块750可以包括：第五子模块、第六子模块和第七子模块。其中的第五子模块用于获取视频帧样本序列中的当前视频帧样本的动作图像块。其中的第六子模块用于经待训练的神经网络，对当前视频帧样本的动作图像块进行动作状态检测处理，输出当前视频帧样本的动作状态信息和动作边界框的位置信息。其中的第七子模块用于根据当前视频帧样本的预定动作标注信息与当前视频帧样本的动作状态信息之间的差异形成的损失、以及预定动作区域的标注位置信息与动作边界框的位置信息之间的差异形成的损失，调整神经网络的网络参数。

训练模块750及其包含的各子模块具体执行的操作可以参见上述方法实施方式中关于图5的描述。在此不再详细说明。

示例性设备

图8示出了适于实现本公开的示例性设备800，设备800可以是个人计算机(PC，例如，台式计算机或者笔记型计算机等)、汽车中配置的控制系统/电子系统、移动终端(例如，智能移动电话等)、平板电脑以及服务器等。图8中，设备800包括一个或者多个处理器、通信部等，所述一个或者多个处理器可以为：一个或者多个中央处理单元(CPU)801，和/或，一个或者多个加速单元(如GPU，图像处理器)813等，处理器可以根据存储在只读存储器(ROM)802中的可执行指令或者从存储部分808加载到随机访问存储器(RAM)803中的可执行指令而执行各种适当的动作和处理。通信部812可以包括但不限于网卡，所述网卡可以包括但不限于IB(Infiniband)网卡。处理器可与只读存储器802和/或随机访问存储器803中通信以执行可执行指令，通过总线804与通信部812相连、并经通信部812与其他目标设备通信，从而完成本公开中的相应步骤。

上述各指令所执行的操作可以参见上述方法实施例中的相关描述，在此不再详细说明。此外，在RAM 803中，还可以存储有装置操作所需的各种程序以及数据。CPU801、ROM802以及RAM803通过总线804彼此相连。

在有RAM803的情况下，ROM802为可选模块。RAM803存储可执行指令，或在运行时向ROM802中写入可执行指令，可执行指令使中央处理单元801执行上述物体分割方法所包括的步骤。输入/输出(I/O)接口805也连接至总线804。通信部812可以集成设置，也可以设置为具有多个子模块(例如，多个IB网卡)，并分别与总线连接。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等及扬声器等输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装在存储部分808中。

需要特别说明的是，如图8所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图8的部件数量和类型进行选择、删减、增加或者替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如，加速单元813和CPU801可分离设置，再如理，可将加速单元813集成在CPU801上，通信部可分离设置，也可集成设置在CPU801或加速单元813等上。这些可替换的实施方式均落入本公开的保护范围。

特别地，根据本公开的实施方式，下文参考流程图描述的过程可以被实现为计算机软件程序，例如，本公开实施方式包括一种计算机程序产品，其包含有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的步骤的程序代码，程序代码可包括对应执行本公开提供的方法中的步骤对应的指令。

在这样的实施方式中，该计算机程序可以通过通信部分809从网络上被下载及安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本公开中记载的实现上述相应步骤的指令。

在一个或多个可选实施方式中，本公开实施例还提供了一种计算机程序程序产品，用于存储计算机可读指令，所述指令被执行时使得计算机执行上述任意实施例中所述的动作追踪处理方法。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选例子中，所述计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

在一个或多个可选实施方式中，本公开实施例还提供了另一种视觉跟踪方法和神经网络的训练方法及其对应的装置和电子设备、计算机存储介质、计算机程序以及计算机程序产品，其中的方法包括：第一装置向第二装置发送动作追踪处理指示，该指示使得第二装置执行上述任一可能的实施例中的动作追踪处理方法；第一装置接收第二装置发送的动作追踪处理结果。

在一些实施例中，该视动作追踪处理指示可以具体为调用指令，第一装置可以通过调用的方式指示第二装置执行动作追踪处理操作，相应地，响应于接收到调用指令，第二装置可以执行上述动作追踪处理方法中的任意实施例中的步骤和/或流程。

应理解，本公开实施例中的“第一”、“第二”等术语仅仅是为了区分，而不应理解成对本公开实施例的限定。还应理解，在本公开中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。还应理解，对于本公开中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

可能以许多方式来实现本公开的方法和装置、电子设备以及计算机可读存储介质。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置、电子设备以及计算机可读存储介质。用于方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施方式中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述，是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言，是显然的。选择和描述实施方式是为了更好说明本公开的原理以及实际应用，并且使本领域的普通技术人员能够理解本公开实施例可以从而设计适于特定用途的带有各种修改的各种实施方式。

Claims

1.一种动作追踪处理方法，其特征在于，包括：

获取视频帧序列中的当前视频帧的动作图像块；

对所述当前视频帧的动作图像块进行动作状态检测处理，获得所述当前视频帧的动作状态信息；其中，所述动作状态信息用于判断动作图像块中的动作类别；

在根据所述动作状态信息确定所述当前视频帧的动作图像块中的动作属于预定动作的情况下，将所述视频帧序列中的下一视频帧作为当前视频帧，以再次执行所述动作追踪处理的操作。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在根据所述动作状态信息确定所述当前视频帧的动作图像块中的动作不属于预定动作的情况下，所述视频帧序列中的下一视频帧不被作为当前视频帧，以停止执行所述动作追踪处理的操作。

3.根据权利要求1或2所述的方法，其特征在于，所述获取视频帧序列中的当前视频帧的动作图像块包括：

对所述视频帧序列中的当前视频帧进行目标检测，获得检测框；

根据所述检测框对当前视频帧进行切分处理，获得当前视频帧的动作图像块。

4.根据权利要求1或2所述的方法，其特征在于，所述获取视频帧序列中的当前视频帧的动作图像块包括：

在所述视频帧序列中的当前视频帧的上一视频帧中的动作图像块中的动作属于预定动作的情况下，根据所述视频帧序列中的当前视频帧的上一视频帧的动作图像块的位置信息，确定当前视频帧的动作图像块的位置信息；

根据所述当前视频帧的动作图像块的位置信息，对所述当前视频帧进行切分，获得所述当前视频帧的动作图像块。

5.根据权利要求4所述的方法，其特征在于，所述根据所述视频帧序列中的当前视频帧的上一视频帧的动作图像块的位置信息，确定当前视频帧的动作图像块的位置信息，包括：

根据预定扩展比例，对所述视频帧序列中的当前视频帧的上一视频帧的动作图像块的位置信息所形成的动作边界框，进行扩展处理，以获得所述当前视频帧的动作图像块的位置信息。

6.根据权利要求1至5中任一项所述的方法，其特征在于，在对所述当前视频帧的动作图像块进行动作状态检测处理，获得所述当前视频帧的动作状态信息的步骤由神经网络执行的情况下，所述方法包括：

经所述神经网络，对所述当前视频帧的动作图像块进行动作状态检测处理，根据所述神经网络的第一分支的输出，获得所述当前视频帧的动作图像块的位置信息，根据所述神经网络的第二分支的输出，获得所述当前视频帧的动作状态信息。

7.一种动作追踪处理装置，其特征在于，包括：

第一获取模块，用于获取视频帧序列中的当前视频帧的动作图像块；

第二获取模块，用于对所述当前视频帧的动作图像块进行动作状态检测处理，获得所述当前视频帧的动作状态信息；其中，所述动作状态信息用于判断动作图像块中的动作类别；

追踪控制模块，用于在根据所述动作状态信息确定所述当前视频帧的动作图像块中的动作属于预定动作的情况下，将所述视频帧序列中的下一视频帧作为当前视频帧，以控制所述装置再次执行所述动作追踪处理的操作。

8.一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述权利要求1-6中任一项所述的方法。

10.一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现上述权利要求1-6中任一项所述的方法。