CN111680543B

CN111680543B - 动作识别方法、装置及电子设备

Info

Publication number: CN111680543B
Application number: CN202010330214.0A
Authority: CN
Inventors: 吴骞
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2023-08-29
Anticipated expiration: 2040-04-23
Also published as: WO2021212759A1; CN111680543A; US20230038000A1

Abstract

本发明提供了一种动作识别方法、装置及电子设备，涉及图像处理技术领域，该方法包括：如果从视频帧中检测出目标对象，获取包含有该目标对象的多张图像，以及该多张图像的光流图像；从该多张图像中提取该目标对象的对象轨迹特征，从该多张图像的光流图像中提取该目标对象的光流轨迹特征；根据该对象轨迹特征和该光流轨迹特征，识别该目标对象的动作类型。本发明实施例通过结合视频帧中目标对象的轨迹信息，以及该图像的光流图像中该目标对象的光流信息，对目标对象的动作类型进行识别，由于融合了该目标对象的时间特征信息和空间特征信息，有效提高了动作类型的检测识别精度，并可以同时兼顾检测效率，提高了整体的检测性能。

Description

动作识别方法、装置及电子设备

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种动作识别方法、装置及电子设备。

背景技术

视频动作检测的任务是从视频中找出可能存在动作的片段，并对该动作所属的行为进行分类。随着国内外摄像设备的普及，对实时的在线视频动作检测也提出了更高的要求。目前，主流的在线视频动作检测方法多使用三维卷积网络，其计算量大，导致检测延迟高；而另一种使用二维卷积网络的视频动作检测方法，其计算速度较快，但是精度较低。

整体而言，当前的在线视频动作检测方法无法同时兼顾检测精度和检测效率，整体性能较差。

发明内容

有鉴于此，本发明的目的在于提供一种动作识别方法、装置及电子设备，可以同时兼顾在线视频动作检测的检测精度和检测效率，提高整体的检测性能。

第一方面，本发明实施例提供了一种动作识别方法，包括：如果从视频帧中检测出目标对象，获取包含有该目标对象的多张图像，以及该多张图像的光流图像；从该多张图像中提取该目标对象的对象轨迹特征，从该多张图像的光流图像中提取该目标对象的光流轨迹特征；根据该对象轨迹特征和该光流轨迹特征，识别该目标对象的动作类型。

在本发明较佳的实施例中，上述根据该对象轨迹特征和该光流轨迹特征，识别该目标对象的动作类型的步骤，包括：根据该对象轨迹特征和该光流轨迹特征，从该多张图像中确定发生动作的目标图像；根据该目标图像和该目标图像的光流图像，识别该目标对象的动作类型。

在本发明较佳的实施例中，上述根据该对象轨迹特征和该光流轨迹特征，从该多张图像中确定发生动作的目标图像的步骤，包括：对该多张图像中的每张图像均执行下述操作：对图像中该目标对象的对象轨迹特征和光流轨迹特征进行拼接，得到该目标对象的复合轨迹特征；或者，将图像中该目标对象的对象轨迹特征和光流轨迹特征相加，得到该目标对象的复合轨迹特征；根据该目标对象的复合轨迹特征，从该多张图像中确定发生动作的目标图像。

在本发明较佳的实施例中，上述根据该目标对象的复合轨迹特征，从该多张图像中确定发生动作的目标图像的步骤，包括：将该多张图像按时间顺序顺次排序；根据每个图像集包含的预设图像数，将排序后的该多张图像划分为多个图像集；对每一该图像集，按预设采样长度对该图像集中该目标对象的复合轨迹特征进行采样，得到该图像集的采样特征；将该图像集的采样特征输入到预先训练好的神经网络中，输出该图像集包含发生动作的图像的概率，该图像集中首张图像相对发生动作的图像区间始端的第一偏移量，以及该图像集中末张图像相对该图像区间末端的第二偏移量；根据该图像集包含发生动作的图像的概率，该第一偏移量和该第二偏移量，确定该图像集中发生动作的目标图像。

在本发明较佳的实施例中，上述根据该目标对象的复合轨迹特征，从该多张图像中确定发生动作的目标图像的步骤，包括：对该多张图像中的每张图像，根据图像中该目标对象的复合轨迹特征，确定该图像作为动作起始图像的第一概率、该图像作为动作结束图像的第二概率、以及该图像发生了动作的第三概率；根据每张图像的第一概率、第二概率和第三概率，从该多张图像中确定发生动作的目标图像。

在本发明较佳的实施例中，上述根据图像中该目标对象的复合轨迹特征，确定该图像作为动作起始图像的第一概率，该图像作为动作结束图像的第二概率，以及该图像发生了动作的第三概率的步骤，包括：将图像中该目标对象的复合轨迹特征，输入到预先训练好的神经网络中，输出该图像作为动作起始图像的第一概率、该图像作为动作结束图像的第二概率，以及该图像发生了动作的第三概率。

在本发明较佳的实施例中，上述根据每张图像的该第一概率、该第二概率和该第三概率，从该多张图像中确定发生动作的目标图像的步骤，包括：根据该第一概率、该第二概率以及预设的概率要求，从该多张图像中确定满足该概率要求的动作起始图像和动作结束图像；根据该动作起始图像和该动作结束图像确定发生动作的图像集；按预设采样长度对该图像集中该目标对象的复合轨迹特征进行采样，得到该图像集的采样特征；将该图像集的采样特征，以及该图像集中每张图像的第三概率，输入预先训练好的神经网络中，输出该图像集包含发生动作的图像的概率；根据该图像集包含发生动作的图像的概率，确定发生动作的目标图像。

在本发明较佳的实施例中，上述根据该动作起始图像和该动作结束图像确定发生动作的图像集的步骤，包括：将任一该动作起始图像作为起点，任一该动作结束图像作为终点，所对应的图像区间，确定为发生动作的图像集。

在本发明较佳的实施例中，上述概率要求包括：如果该图像的第一概率大于预设的第一概率阈值，且大于该图像的前后两张图像的第一概率，将该图像确定为动作起始图像；如果该图像的第二概率大于预设的第二概率阈值，且大于该图像的前后两张图像的第二概率，将该图像确定为动作结束图像。

在本发明较佳的实施例中，上述根据该图像集包含发生动作的图像的概率，确定发生动作的目标图像的步骤，包括：如果该图像集包含发生动作的图像的概率大于预设的第三概率阈值，将该图像集中的图像均确定为发生动作的目标图像。

在本发明较佳的实施例中，上述根据该目标图像和该目标图像的光流图像，识别该目标对象的动作类型的步骤，包括：将该目标图像中该目标对象的对象轨迹特征，以及该目标图像的光流图像中该目标对象的光流轨迹特征，输入到预设的行为识别网络中，输出该目标图像中该目标对象的动作类型。

在本发明较佳的实施例中，上述从该多张图像中提取该目标对象的对象轨迹特征，从该多张图像的光流图像中提取该目标对象的光流轨迹特征的步骤，包括：将该多张图像输入到预设的第一卷积神经网络中，输出该目标对象的对象轨迹特征；将该多张图像的光流图像输入到预设的第二卷积神经网络中，输出该目标对象的光流轨迹特征。

第二方面，本发明实施例还提供了一种动作识别装置，包括：图像获取模块，用于如果从视频帧中检测出目标对象，获取包含有该目标对象的多张图像，以及该多张图像的光流图像；特征提取模块，用于从该多张图像中提取该目标对象的对象轨迹特征，从该多张图像的光流图像中提取该目标对象的光流轨迹特征；动作识别模块，用于根据该对象轨迹特征和该光流轨迹特征，识别该目标对象的动作类型。

第三方面，本发明实施例还提供了一种电子设备，该电子设备包括处理器和存储器，该存储器存储有能够被该处理器执行的计算机可执行指令，该处理器执行该计算机可执行指令以实现上述动作识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述动作识别方法。

本发明实施例带来了以下有益效果：

本发明实施例提供的一种动作识别方法、装置及电子设备，如果从视频帧中检测出目标对象，获取包含有该目标对象的多张图像，以及该多张图像的光流图像；从该多张图像中提取该目标对象的对象轨迹特征，从该多张图像的光流图像中提取该目标对象的光流轨迹特征；根据该对象轨迹特征和该光流轨迹特征，识别该目标对象的动作类型。该方式中，通过结合视频帧图像中目标对象的轨迹信息，以及该图像的光流图像中该目标对象的光流信息，对目标对象的动作类型进行识别，由于融合了该目标对象的时间特征信息和空间特征信息，相比于传统的二维卷积网络的视频动作检测方式，本发明有效提高了动作类型的检测识别精度，并可以同时兼顾检测效率，提高了整体的检测性能。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种动作识别方法的流程示意图；

图2为本发明实施例提供的另一种动作识别方法的流程示意图；

图3为本发明实施例提供的一种动作识别方法中确定发生动作的目标图像的流程示意图；

图4为本发明实施例提供的另一种动作识别方法中确定发生动作的目标图像的流程示意图；

图5为本发明实施例提供的一种动作识别装置的结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

图标：51-图像获取模块；52-特征提取模块；53-动作识别模块；61-处理器；62-存储器；63-总线；64-通信接口。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到当前的在线视频动作检测方法无法同时兼顾检测精度和检测效率的问题，本发明实施例提供的一种动作识别方法、装置及电子设备，该技术可以应用于需要对目标对象的动作类型进行识别的各种场景中。为便于对本实施例进行理解，首先对本发明实施例所公开的一种动作识别方法进行详细介绍。

参见图1，所示为本发明实施例提供的一种动作识别方法的流程示意图，由图1可见，该方法包括以下步骤：

步骤S102：如果从视频帧中检测出目标对象，获取包含有该目标对象的多张图像，以及该多张图像的光流图像。

这里，目标对象可以是人、动物或者其他可移动的物体，例如机器人、虚拟人物、飞行器等等。并且，视频帧是构成视频的基本单元，在其中一种实施方式中，可以从预设的视频中获取视频帧，并检测视频帧中是否包含目标对象，如果包含，则从获取包含目标对象的视频帧图像。

另外，上述包含目标对象的图像，可以是视频帧图像，也可以是从视频帧图像中截取的包含该目标对象的截图。例如，当视频帧图像中有多人时，而目标对象只是其中某一个人时，可以从包含多人的视频帧图像中截取出包含目标对象的图像。此外，如果目标对象是其中的几个人，则可以分别截取出每个目标对象对应的图像。例如，可以通过跟踪算法对视频中所有的目标对象进行轨迹区分，得到每个目标对象的轨迹，进而截取出包含单个目标对象的图像。

在本实施例中，获取包含目标对象的多张图像，以及该多张图像的光流图像。这里，光流是指图像亮度模式的表观运动；当物体在运动时，它在图像上对应点的亮度模式也在运动，因而形成光流。光流表达了图像的变化，由于它包含了目标运动的信息，因此可被观察者用来确定目标的运动情况。在其中一种可能的实施方式中，可以根据获取到的多张图像，通过光流计算得到其对应的光流图像。

步骤S104：从该多张图像中提取该目标对象的对象轨迹特征，从该多张图像的光流图像中提取该目标对象的光流轨迹特征。

在其中一种可能的实施方式中，可以通过将该多张图像输入到预设的第一卷积神经网络中，输出该目标对象的对象轨迹特征；并且，将该多张图像的光流图像输入到预设的第二卷积神经网络中，输出该目标对象的光流轨迹特征。

这里，第一卷积神经网络和第二卷积神经网络预先经过训练得到，其中，第一卷积神经网络用于提取图像中目标对象的对象轨迹特征，第二卷积神经网络用于提取光流图像中目标对象的光流轨迹特征。

步骤S106：根据该对象轨迹特征和该光流轨迹特征，识别该目标对象的动作类型。

其中，对象轨迹特征反映了目标对象的空间特征信息，光流轨迹特征反映了该目标对象的时间特征信息，这样，本实施例根据目标对象的对象轨迹特征和光流轨迹特征，共同对目标对象的动作类型进行识别，相比于传统的二维卷积网络的视频动作检测方式，由于在该目标对象的空间特征信息的基础上，还融合了其时间特征信息，因而可以提高目标对象发生动作的动作类型的检测识别精度。

例如，在某工厂车间，为防止火灾发生，需要对车间工人是否抽烟进行识别。这里，通过本实施例提供的动作识别方法，可以对监控摄像头获取到的实时视频进行处理，基于视频中的视频帧，通过上述步骤S102至S106的操作，自动识别出员工正在进行的动作，例如，可以是正常生产、正常行走、抽烟等等，并且，可以在识别出有工人发生抽烟动作时，进行报警，以及时制止抽烟行为。在其他可能的场景中，除了对在线实时视频进行动作检测之外，还可以对已有视频进行回放和检测，从而可以识别目标对象是否有发生过指定的动作的历史。

本发明实施例提供的动作识别方法，如果从视频帧中检测出目标对象，获取包含有该目标对象的多张图像，以及该多张图像的光流图像；从该多张图像中提取该目标对象的对象轨迹特征，从该多张图像的光流图像中提取该目标对象的光流轨迹特征；根据该对象轨迹特征和该光流轨迹特征，识别该目标对象的动作类型。该方式中，通过结合视频帧图像中目标对象的轨迹信息，以及该图像的光流图像中该目标对象的光流信息，对目标对象的动作类型进行识别，该识别方式融合了该目标对象的时间特征信息和空间特征信息，相比于传统的二维卷积网络的视频动作检测方式，本发明有效提高了动作类型的检测识别精度，并可以同时兼顾检测效率，提高了整体的检测性能。

在图1所示动作识别方法的基础上，本实施例还提供了另一种动作识别方法，该方法重点描述了上述实施例中步骤S106(根据该对象轨迹特征和该光流轨迹特征，识别该目标对象的动作类型)的具体实现过程。参见图2，所示为该动作识别方法的流程示意图，由图2可见，该方法包括以下步骤：

步骤S202：如果从视频帧中检测出目标对象，获取包含有该目标对象的多张图像，以及该多张图像的光流图像。

步骤S204：从该多张图像中提取该目标对象的对象轨迹特征，从该多张图像的光流图像中提取该目标对象的光流轨迹特征。

这里，本实施例中的步骤S202和步骤S204，对应于前述实施例中的步骤S102和步骤S104，相应内容的描述可以参考前述实施例的对应部分，在此不再赘述。

步骤S206：根据该对象轨迹特征和该光流轨迹特征，从该多张图像中确定发生动作的目标图像。

在其中一种可能的实施方式中，可以通过下述步骤21-22实现从多张图像中确定发生动作的目标图像：

(21)对该多张图像中的每张图像均执行下述操作：对图像中该目标对象的对象轨迹特征和光流轨迹特征进行拼接，得到该目标对象的复合轨迹特征；或者，将图像中该目标对象的对象轨迹特征和光流轨迹特征相加，得到该目标对象的复合轨迹特征。

例如，假设其中一张图像A中目标对象的对象轨迹特征为并且，该图像A的光流图像中目标对象的光流轨迹特征为/>那么，在其中一种实施方式中，可以对上述对象轨迹特征和光流轨迹特征进行拼接，得到该目标对象的复合轨迹特征为/>

在另一种可能的实施方式中，还可以对上述对象轨迹特征和光流轨迹特征进行相加，得到该目标对象的复合轨迹特征为

(22)根据该目标对象的复合轨迹特征，从该多张图像中确定发生动作的目标图像。

在下述描述中，分别介绍了两种方式，以根据该目标对象的复合轨迹特征，从该多张图像中确定发生动作的目标图像。

首先，参见图3，所示为一种动作识别方法中确定发生动作的目标图像的流程示意图，在图3示出的实施方式中，包括以下步骤：

步骤S302：将该多张图像按时间顺序顺次排序。

由于该多张图像是根据视频中的视频帧图像获得，可以根据视频帧图像的拍摄时间对该多张图像进行排序，本实施例中，按时间顺序进行顺次排序。

步骤S304：根据每个图像集包含的预设图像数，将排序后的该多张图像划分为多个图像集。

这里，假设上述多张图像为20张图像，且预设每个图像集中的图像数为5，则可以将排序后的图像划分为：顺数前1～5张为一个图像集，第6～10张、第11～15张和第16～20张分别构成对应的图像集。

同理，假设预设的图像集中的图像数为6或者7或者其他数目，也可通过上述方式将上述多张图像划分得的对应的多个图像集。在其中一种可能的实施方式中，可以设置不同图像数，并将上述多张图像分别按照图像集中的不同图像数进行划分，从而得到包含不同图像数的多个图像集。

步骤S306：对每一该图像集，按预设采样长度对该图像集中该目标对象的复合轨迹特征进行采样，得到该图像集的采样特征。

其中，经过采样后，所得到的每个图像集的采样特征的长度均保持一致。

步骤S308：将该图像集的采样特征输入到预先训练好的神经网络中，输出该图像集包含发生动作的图像的概率，该图像集中首张图像相对发生动作的图像区间始端的第一偏移量，以及该图像集中末张图像相对该图像区间末端的第二偏移量。

步骤S310：根据该图像集包含发生动作的图像的概率，该第一偏移量和该第二偏移量，确定该图像集中发生动作的目标图像。

这里，假设该图像集包含发生动作的图像的概率低于预设的概率阈值，则认为该图像集中没有包含发生动作的图像；否则，认为该图像集中包含了发生动作的图像。此时，根据该图像集中首张图像相对发生动作的图像区间始端的第一偏移量，以及该图像集中末张图像相对该图像区间末端的第二偏移量，分别确定出发生动作的图像区间的始端对应的图像，以及该图像区间的末端对应的图像，从而确定出发生动作的图像区间，其中，该图像区间中的每张图像即为发生动作的目标图像。

例如，假设某图像集中有10张图像，且经过上述步骤S308得到该图像集包含发生动作的图像的概率为80％，大于预设的概率阈值50％，因而确定该图像集中包含了发生动作的图像。并且，得到该图像集中首张图像(即第1张图像)相对发生动作的图像区间始端的第一偏移量为3，表明该首张图像距离图像始端对应的图像中间隔3张图像；末张图像(即第10张图像)相对发生动作的图像区间的第二偏移量为2，表明该末张图像距离图像末端对应的图像中间隔2张图像；这样，则可确定该图像集中的第4～8张图像为发生动作的图像区间，这个图像区间中的每一张图像均确定为发生动作的目标图像。

这样，在步骤S308至步骤S310中，在确定图像集中包含了发生动作的图像之后，需要进一步确定该图像集中具体发生了动作的图像区间。通过以图像集中的首张图像，以及该首张图像距离动作发生的图像区间始端的第一偏移量，倒推出图像区间始端对应的图像；并且，通过以图像集中的末张图像，以及该末张图像距离动作发生的图像区间末端的第二偏移量，倒推出图像区间末端对应的图像，从而确定出发生动作的图像区间，进而确定出发生动作的目标图像。

其次，参见图4，所示为另一种动作识别方法中确定发生动作的目标图像的流程示意图，在图4示出的实施方式中，包括以下步骤：

步骤S402：对该多张图像中的每张图像，根据图像中该目标对象的复合轨迹特征，确定该图像作为动作起始图像的第一概率、该图像作为动作结束图像的第二概率、以及该图像发生了动作的第三概率。

在其中一种可能的实施方式中，可以将图像中该目标对象的复合轨迹特征，输入到预先训练好的神经网络中，输出该图像作为动作起始图像的第一概率、该图像作为动作结束图像的第二概率，以及该图像发生了动作的第三概率。也即，通过神经网络学习的方式，预先训练得到完成训练的神经网络，以根据该训练好的神经网络，根据每一张图像中目标对象的复合轨迹特征，计算该图像作为动作起始图像的第一概率、该图像作为动作结束图像的第二概率，以及该图像发生了动作的第三概率。

步骤S404：根据每张图像的第一概率、第二概率和第三概率，从该多张图像中确定发生动作的目标图像。

在至少一种可能的实施方式中，可以通过下述步骤31-35从上述多张图像中确定发生动作的目标图像：

(31)根据该第一概率、该第二概率以及预设的概率要求，从该多张图像中确定满足该概率要求的动作起始图像和动作结束图像。

在本实施例中，上述概率要求包括：如果该图像的第一概率大于预设的第一概率阈值，且大于该图像的前后两张图像的第一概率，将该图像确定为动作起始图像；并且，如果该图像的第二概率大于预设的第二概率阈值，且大于该图像的前后两张图像的第二概率，将该图像确定为动作结束图像。

例如，假设上述多张图像有8张，分别对应图像A至图像H，并且，预设的第一概率阈值、第二概率阈值均为50％，计算得到图像A至图像H的第一概率、第二概率分别如下表1所示：

表1图像A至图像H的第一概率和第二概率

由上表1可知，第一概率大于预设的第一概率阈值的图像包括图像B、图像E和图像F，但是，对于图像的第一概率满足局部极大值要求的只有图像B和图像F，因此，将图像B和图像F确定为满足概率要求的动作起始图像。

同理，表1中显示，第二概率大于预设的第二概率阈值的图像包括图像C、图像D、图像G和图像H，但是，对于图像的第二概率满足大于其前后两张图像的第二概率的图像只有图像C和图像G，也即，满足图像的第二概率为局部极大值的只有图像C和图像G，因此，将图像C和图像G确定为满足概率要求的动作结束图像。

(32)根据该动作起始图像和该动作结束图像确定发生动作的图像集。

这里，可以将任一上述确定出的动作起始图像作为起点，以及将任一上述确定出的动作结束图像作为终点，所对应的图像区间，确定为发生动作的图像集。

例如，以上述表1所示的例子，确定出的动作起始图像包括图像B和图像F，确定出的动作结束图像包括图像C和图像G，因此，根据上述确定图像集的原则，可以得到如下几个发生动作的图像集：

图像集J1：图像B、图像C；

图像集J2：图像F、图像G；

图像集J3：图像B、图像C、图像D、图像E、图像F、图像G。

(33)按预设采样长度对该图像集中该目标对象的复合轨迹特征进行采样，得到该图像集的采样特征。

这里，经过采样后得到的每个图像集的采样特征的长度均保持一致。

(34)将该图像集的采样特征，以及该图像集中每张图像的第三概率，输入预先训练好的神经网络中，输出该图像集包含发生动作的图像的概率。

也即，根据每个图像集中目标对象的复合轨迹特征的采样特征，以及该图像集中每张图像发生了动作的第三概率，输入预先训练好的神经网络中，得到该图像集包含发生动作的图像的概率。

(35)根据该图像集包含发生动作的图像的概率，确定发生动作的目标图像。

在本实施例中，如果该图像集包含发生动作的图像的概率大于预设的第三概率阈值，将该图像集中的图像均确定为发生动作的目标图像。

例如，假设预设的第三概率阈值为45％，并且上述图像集J1、图像集J2和图像集J3多对应的包含发生动作的图像的概率分别为35％、50％和20％，那么，将图像集J2中的图像均确定为发生动作的目标图像，也即，将图像F和图像G确定为发生动作的目标图像。

这样，可以通过上述图3或者图4所示的方式，实现根据该目标对象的复合轨迹特征，从该多张图像中确定发生动作的目标图像。其中，上述动作起始图像和动作结束图像均属于发生了动作的图像，在实际操作中，分别计算各张图像作为动作起始图像的第一概率、作为动作结束图像的第二概率、以及该图像发生了动作的第三概率；然后基于该第一概率和第二概率分别确定出动作起始图像和动作结束图像，进而根据动作起始图像和动作结束图像确定若干发生动作的图像集(也即图像区间)，并基于该图像集进行采样，以及结合该图像集中各图像对应的第三概率，求取各个图像集包含发生动作的图像的概率，进而筛选出满足概率要求的图像集，并确定出发生动作的目标图像。

步骤S208：根据该目标图像和该目标图像的光流图像，识别该目标对象的动作类型。

这里，在至少一种可能的实施方式中，可以将该目标图像中该目标对象的对象轨迹特征，以及该目标图像的光流图像中该目标对象的光流轨迹特征，输入到预设的行为识别网络中，输出该目标图像中该目标对象的动作类型。

本实施例提供的动作识别方法，通过融合目标对象的时间特征信息和空间特征信息，对目标对象的动作进行识别，有效提高了动作类型的检测识别精度，并可以同时兼顾检测效率，提高了整体的检测性能。

对应于图1中所示的动作识别方法，本发明实施例还提供了一种动作识别装置，参见图5，所示为一种动作识别装置的结构示意图，由图5所示，该装置包括依次连接的图像获取模块51、特征提取模块52和动作识别模块53，其中，各个模块的功能如下：

图像获取模块51，用于如果从视频帧中检测出目标对象，获取包含有该目标对象的多张图像，以及该多张图像的光流图像；

特征提取模块52，用于从该多张图像中提取该目标对象的对象轨迹特征，从该多张图像的光流图像中提取该目标对象的光流轨迹特征；

动作识别模块53，用于根据该对象轨迹特征和该光流轨迹特征，识别该目标对象的动作类型。

本发明实施例提供的一种动作识别装置，如果从视频帧中检测出目标对象，获取包含有该目标对象的多张图像，以及该多张图像的光流图像；从该多张图像中提取该目标对象的对象轨迹特征，从该多张图像的光流图像中提取该目标对象的光流轨迹特征；根据该对象轨迹特征和该光流轨迹特征，识别该目标对象的动作类型。该装置中，通过结合视频帧图像中目标对象的轨迹信息，以及该图像的光流图像中该目标对象的光流信息，对目标对象的动作类型进行识别，由于融合了该目标对象的时间特征信息和空间特征信息，相比于传统的二维卷积网络的视频动作检测方式，本发明有效提高了动作类型的检测识别精度，并可以同时兼顾检测效率，提高了整体的检测性能。

在其中一种可能的实施方式中，上述动作识别模块53还用于：根据该对象轨迹特征和该光流轨迹特征，从该多张图像中确定发生动作的目标图像；根据该目标图像和该目标图像的光流图像，识别该目标对象的动作类型。

在另一种可能的实施方式中，上述动作识别模块53还用于：对该多张图像中的每张图像均执行下述操作：对图像中该目标对象的对象轨迹特征和光流轨迹特征进行拼接，得到该目标对象的复合轨迹特征；或者，将图像中该目标对象的对象轨迹特征和光流轨迹特征相加，得到该目标对象的复合轨迹特征；根据该目标对象的复合轨迹特征，从该多张图像中确定发生动作的目标图像。

在另一种可能的实施方式中，上述动作识别模块53还用于：将该多张图像按时间顺序顺次排序；根据每个图像集包含的预设图像数，将排序后的该多张图像划分为多个图像集；对每一该图像集，按预设采样长度对该图像集中该目标对象的复合轨迹特征进行采样，得到该图像集的采样特征；将该图像集的采样特征输入到预先训练好的神经网络中，输出该图像集包含发生动作的图像的概率，该图像集中首张图像相对发生动作的图像区间始端的第一偏移量，以及该图像集中末张图像相对该图像区间末端的第二偏移量；根据该图像集包含发生动作的图像的概率，该第一偏移量和该第二偏移量，确定该图像集中发生动作的目标图像。

在另一种可能的实施方式中，上述动作识别模块53还用于：对该多张图像中的每张图像，根据图像中该目标对象的复合轨迹特征，确定该图像作为动作起始图像的第一概率、该图像作为动作结束图像的第二概率、以及该图像发生了动作的第三概率；根据每张图像的第一概率、第二概率和第三概率，从该多张图像中确定发生动作的目标图像。

在另一种可能的实施方式中，上述动作识别模块53还用于：将图像中该目标对象的复合轨迹特征，输入到预先训练好的神经网络中，输出该图像作为动作起始图像的第一概率、该图像作为动作结束图像的第二概率，以及该图像发生了动作的第三概率。

在另一种可能的实施方式中，上述动作识别模块53还用于：根据该第一概率、该第二概率以及预设的概率要求，从该多张图像中确定满足该概率要求的动作起始图像和动作结束图像；根据该动作起始图像和该动作结束图像确定发生动作的图像集；按预设采样长度对该图像集中该目标对象的复合轨迹特征进行采样，得到该图像集的采样特征；将该图像集的采样特征，以及该图像集中每张图像的第三概率，输入预先训练好的神经网络中，输出该图像集包含发生动作的图像的概率；根据该图像集包含发生动作的图像的概率，确定发生动作的目标图像。

在另一种可能的实施方式中，上述动作识别模块53还用于：将任一该动作起始图像作为起点，任一该动作结束图像作为终点，所对应的图像区间，确定为发生动作的图像集。

在另一种可能的实施方式中，上述动作识别模块53还用于：如果该图像集包含发生动作的图像的概率大于预设的第三概率阈值，将该图像集中的图像均确定为发生动作的目标图像。

在另一种可能的实施方式中，上述动作识别模块53还用于：将该目标图像中该目标对象的对象轨迹特征，以及该目标图像的光流图像中该目标对象的光流轨迹特征，输入到预设的行为识别网络中，输出该目标图像中该目标对象的动作类型。

在另一种可能的实施方式中，上述特征提取模块52还用于：将该多张图像输入到预设的第一卷积神经网络中，输出该目标对象的对象轨迹特征；将该多张图像的光流图像输入到预设的第二卷积神经网络中，输出该目标对象的光流轨迹特征。

本发明实施例提供的动作识别装置，其实现原理及产生的技术效果和前述动作识别方法实施例相同，为简要描述，动作识别装置的实施例部分未提及之处，可参考前述动作识别方法实施例中相应内容。

本发明实施例还提供了一种电子设备，如图6所示，为该电子设备的结构示意图，其中，该电子设备包括处理器61和存储器62，该存储器62存储有能够被该处理器61执行的机器可执行指令，该处理器61执行该机器可执行指令以实现上述动作识别方法。

在图6示出的实施方式中，该电子设备还包括总线63和通信接口64，其中，处理器61、通信接口64和存储器62通过总线连接。

其中，存储器62可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口64(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器61可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器61中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器61可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器61读取存储器62中的信息，结合其硬件完成前述实施例的动作识别方法的步骤。

本发明实施例还提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，该机器可执行指令促使处理器实现上述动作识别方法，具体实现可参见前述方法实施例，在此不再赘述。

本发明实施例所提供的动作识别方法、动作识别装置和电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的动作识别方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种动作识别方法，其特征在于，包括：

如果从视频帧中检测出目标对象，获取包含有所述目标对象的多张图像，以及所述多张图像的光流图像；

从所述多张图像中提取所述目标对象的对象轨迹特征，从所述多张图像的光流图像中提取所述目标对象的光流轨迹特征；所述对象轨迹特征用于表征所述目标对象的空间特征信息，所述光流轨迹特征用于表征所述目标对象的时间特征信息；

根据所述对象轨迹特征和所述光流轨迹特征，从所述多张图像中确定发生动作的目标图像；

根据所述目标图像和所述目标图像的光流图像，识别所述目标对象的动作类型。

2.根据权利要求1所述的动作识别方法，其特征在于，所述根据所述对象轨迹特征和所述光流轨迹特征，从所述多张图像中确定发生动作的目标图像的步骤，包括：

对所述多张图像中的每张图像均执行下述操作：对图像中所述目标对象的对象轨迹特征和光流轨迹特征进行拼接，得到所述目标对象的复合轨迹特征；或者，将图像中所述目标对象的对象轨迹特征和光流轨迹特征相加，得到所述目标对象的复合轨迹特征；

根据所述目标对象的复合轨迹特征，从所述多张图像中确定发生动作的目标图像。

3.根据权利要求2所述的动作识别方法，其特征在于，所述根据所述目标对象的复合轨迹特征，从所述多张图像中确定发生动作的目标图像的步骤，包括：

将所述多张图像按时间顺序顺次排序；

根据每个图像集包含的预设图像数，将排序后的所述多张图像划分为多个图像集；

对每一所述图像集，按预设采样长度对所述图像集中所述目标对象的复合轨迹特征进行采样，得到所述图像集的采样特征；

将所述图像集的采样特征输入到预先训练好的神经网络中，输出所述图像集包含发生动作的图像的概率，所述图像集中首张图像相对发生动作的图像区间始端的第一偏移量，以及所述图像集中末张图像相对所述图像区间末端的第二偏移量；

根据所述图像集包含发生动作的图像的概率，所述第一偏移量和所述第二偏移量，确定所述图像集中发生动作的目标图像。

4.根据权利要求2所述的动作识别方法，其特征在于，所述根据所述目标对象的复合轨迹特征，从所述多张图像中确定发生动作的目标图像的步骤，包括：

对所述多张图像中的每张图像，根据图像中所述目标对象的复合轨迹特征，确定所述图像作为动作起始图像的第一概率、所述图像作为动作结束图像的第二概率、以及所述图像发生了动作的第三概率；

根据每张图像的所述第一概率、所述第二概率和所述第三概率，从所述多张图像中确定发生动作的目标图像。

5.根据权利要求4所述的动作识别方法，其特征在于，所述根据图像中所述目标对象的复合轨迹特征，确定所述图像作为动作起始图像的第一概率，所述图像作为动作结束图像的第二概率，以及所述图像发生了动作的第三概率的步骤，包括：

将图像中所述目标对象的复合轨迹特征，输入到预先训练好的神经网络中，输出所述图像作为动作起始图像的第一概率、所述图像作为动作结束图像的第二概率，以及所述图像发生了动作的第三概率。

6.根据权利要求4所述的动作识别方法，其特征在于，所述根据每张图像的所述第一概率、所述第二概率和所述第三概率，从所述多张图像中确定发生动作的目标图像的步骤，包括：

根据所述第一概率、所述第二概率以及预设的概率要求，从所述多张图像中确定满足所述概率要求的动作起始图像和动作结束图像；

根据所述动作起始图像和所述动作结束图像确定发生动作的图像集；

按预设采样长度对所述图像集中所述目标对象的复合轨迹特征进行采样，得到所述图像集的采样特征；

将所述图像集的采样特征，以及所述图像集中每张图像的所述第三概率，输入预先训练好的神经网络中，输出所述图像集包含发生动作的图像的概率；

根据所述图像集包含发生动作的图像的概率，确定发生动作的目标图像。

7.根据权利要求6所述的动作识别方法，其特征在于，所述根据所述动作起始图像和所述动作结束图像确定发生动作的图像集的步骤，包括：

将任一所述动作起始图像作为起点，任一所述动作结束图像作为终点，所对应的图像区间，确定为发生动作的图像集。

8.根据权利要求6所述的动作识别方法，其特征在于，所述概率要求包括：

如果所述图像的第一概率大于预设的第一概率阈值，且大于所述图像的前后两张图像的第一概率，将所述图像确定为动作起始图像；

如果所述图像的第二概率大于预设的第二概率阈值，且大于所述图像的前后两张图像的第二概率，将所述图像确定为动作结束图像。

9.根据权利要求6所述的动作识别方法，其特征在于，所述根据所述图像集包含发生动作的图像的概率，确定发生动作的目标图像的步骤，包括：

如果所述图像集包含发生动作的图像的概率大于预设的第三概率阈值，将所述图像集中的图像均确定为发生动作的目标图像。

10.根据权利要求1所述的动作识别方法，其特征在于，所述根据所述目标图像和所述目标图像的光流图像，识别所述目标对象的动作类型的步骤，包括：

将所述目标图像中所述目标对象的对象轨迹特征，以及所述目标图像的光流图像中所述目标对象的光流轨迹特征，输入到预设的行为识别网络中，输出所述目标图像中所述目标对象的动作类型。

11.根据权利要求1-10中任一项所述的动作识别方法，其特征在于，所述从所述多张图像中提取所述目标对象的对象轨迹特征，从所述多张图像的光流图像中提取所述目标对象的光流轨迹特征的步骤，包括：

将所述多张图像输入到预设的第一卷积神经网络中，输出所述目标对象的对象轨迹特征；

将所述多张图像的光流图像输入到预设的第二卷积神经网络中，输出所述目标对象的光流轨迹特征。

12.一种动作识别装置，其特征在于，包括：

图像获取模块，用于如果从视频帧中检测出目标对象，获取包含有所述目标对象的多张图像，以及所述多张图像的光流图像；

特征提取模块，用于从所述多张图像中提取所述目标对象的对象轨迹特征，从所述多张图像的光流图像中提取所述目标对象的光流轨迹特征；所述对象轨迹特征用于表征所述目标对象的空间特征信息，所述光流轨迹特征用于表征所述目标对象的时间特征信息；

动作识别模块，用于根据所述对象轨迹特征和所述光流轨迹特征，从所述多张图像中确定发生动作的目标图像；根据所述目标图像和所述目标图像的光流图像，识别所述目标对象的动作类型。

13.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现权利要求1至11任一项所述的动作识别方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现权利要求1至11任一项所述的动作识别方法。