CN113610030A

CN113610030A - 行为识别方法和行为识别装置

Info

Publication number: CN113610030A
Application number: CN202110932377.0A
Authority: CN
Inventors: 宫永超; 李翔; 徐亮; 黄李超
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2021-11-05

Abstract

本公开实施例公开了一种行为识别方法和行为识别装置，其中，该方法包括：确定目标视频帧图像的感兴趣区域；对感兴趣区域进行特征提取，得到第一图像特征；确定与目标视频帧图像关联的多个视频帧图像；获取对多个视频帧图像中每个视频帧图像进行感兴趣区域特征提取得到多个图像特征；基于目标标视频帧图像和多个视频帧图像的视频帧采集顺序，对第一图像特征和多个图像特征拼接，得到拼接特征；基于拼接特征，对感兴趣区域中的目标对象进行行为识别。本公开实施例可以针对目标视频帧中的感兴趣区域的图像特征，和与目标视频帧来源于同一视频，且与目标视频帧相关联的多个视频帧图像中感兴趣区域的图像特征的融合特征，进行快速、有效的行为识别。

Description

行为识别方法和行为识别装置

技术领域

本公开涉及视频图像处理技术领域，尤其是一种行为识别方法和行为识别装置。

背景技术

行为识别是智能物联网、智能监控系统等应用的重要技术基础，其通过对一段摄像头采集的视频进行处理，以识别出其中人物的行为。

现有的基于卷积神经网络的行为识别方式通常采用基于图像分类的技术，即基于二维卷积神经网络的图像分类算法，对于视频输入，只能单独地对每一帧进行分类，行为识别准确率低。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种行为识别方法和行为识别装置。

根据本公开实施例的第一个方面，提供了一种行为识别方法，包括：

确定目标视频帧图像的感兴趣区域；

对所述感兴趣区域进行特征提取，得到第一图像特征；

确定与所述目标视频帧图像关联的多个视频帧图像；

获取对所述多个视频帧图像中每个视频帧图像进行感兴趣区域特征提取得到多个图像特征；

基于所述目标标视频帧图像和所述多个视频帧图像的视频帧采集顺序，对所述第一图像特征和所述多个图像特征拼接，得到拼接特征，其中，所述目标视频帧图像和所述多个视频帧图像是由同一个图像采集装置采集得到的；

基于所述拼接特征，对所述感兴趣区域中的目标对象进行行为识别。

根据本公开实施例的第二个方面，提供了一种行为识别装置，包括：

感兴趣区域确定模块，用于确定目标视频帧图像的感兴趣区域；

第一提取模块，用于对所述感兴趣区域进行特征提取，得到第一图像特征；

视频帧确定模块，用于基于所述目标视频帧图像，确定与所述目标视频帧关联的多个视频帧图像；

第二提取模块，用于获取对所述多个视频帧图像中每个视频帧图像进行感兴趣区域特征提取得到的多个图像特征；

特征拼接模块，用于基于所述标视频帧图像和所述多个视频帧图像在所述视频中的播放顺序关系，对所述第一图像特征和所述多个图像特征拼接，得到拼接特征；

第一行为识别模块，用于基于拼接特征，进行行为识别。

根据本公开实施例的第三个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述第一个方面所述的行为识别方法。

根据本公开实施例的第四个方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述第一个方面所述的行为识别方法。

基于本公开上述实施例提供的行为识别方法和行为识别装置，获取目标视频帧图像之后，一方面获取目标视频帧中的感兴趣区域的图像特征，另一方面获取与目标视频帧来源于同一视频，且与所述目标视频帧相关联的多个视频帧图像中感兴趣区域的图像特征，进而基于两方面获取的图像特征进行特征拼接得到拼接特征，从而可以基于拼接图像特征进行快速、有效的行为识别。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开实施例的行为识别方法的流程示意图。

图2是本公开一个示例中对视频帧的图像特征进行缓存的示意图。

图3是本公开一个示例中行为识别的流程示意图。

图4是本公开实施例的行为识别装置的结构框图。

图5是本公开一个实施例中获取模块440的结构框图。

图6是本公开一个具体实施例中行为识别装置的结构框图。

图7是本公开一个实施例中感兴趣区域确定模块410的结构框图。

图8是本公开一个示例中电子设备的结构框图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性方法

图1是本公开实施例的行为识别方法的流程示意图。如图1所示，本公开实施例的行为识别方法,包括：

S1：确定目标视频帧图像的感兴趣区域。

具体地，在从视频中获取目标视频帧图像之后，通过图像处理技术确定目标视频帧图像中的感兴趣区域。在本公开的实施例中，感兴趣区域需要根据行为识别内容而定。

在本公开的一个示例中，当目标视频帧图像为通过交通管理单位用于抓拍危险驾驶行为的摄像头拍摄的一帧图像时，感兴趣区域可以包括目标视频帧图像中包括驾驶员脸部的图像区域，还可以包括目标视频帧图像包括驾驶员手部的图像区域。

在本公开的另一个示例中，当目标视频帧图像为通过交通管理单位门用于抓拍行人闯红灯的监控摄像头拍摄的一帧图像时，感兴趣区域可以包括目标视频帧图像中包括交通灯的图像区域，还可以包括目标视频帧图像中包括行人和道路(例如斑马线)的图像区域。

在本公开的又一个示例中，当目标视频帧图像为车内摄像头拍摄的、用于记录司机驾驶行为一帧图像时，感兴趣区域可以包括司机的身体区域、方向盘所在区域和换挡杆所在区域。

在本公开实施例中，通过图像处理技术确定目标视频帧图像中的感兴趣区域的方式可以包括：获取目标视频帧图像的关键点(例如脸部关键点)，然后基于目标视频帧图像的关键点，将关键点所在的图像区域确定为感兴趣区域。其中，可以通过预先训练好的神经网络模型确定目标视频帧图像中的关键点。预先训练好的神经网络模型可以是卷积神经网络模型，或人工神经网络模型等等。

S2：对感兴趣区域进行特征提取，得到第一图像特征。

在本公开实施例中，可以利用深度学习网络对目标视频帧图像中的感兴趣区域提取第一图像特征，采用U-Net网络提取第一图像特征。其中，利用U-Net网络抽取图像特征的方式为本领域技术人员所熟知，不作赘述。此外，还可以对目标视频帧图像中感兴趣区域提取方向梯度直方图(Histogram of Oriented Gradient,HOG)特征，作为第一图像特征。

S3：确定与目标视频帧图像关联的多个视频帧图像。

本公开的一个示例中，将在视频中位于目标视频帧图像之前的X帧图像作为与目标视频帧图像关联的多个视频帧图像。其中，X为大于1的自然数，例如X取7，即按照视频帧采集顺序，将目标视频帧图像的前7帧图像作为与目标视频帧图像关联的视频帧图像。

在本公开的另一个示例中，将在视频中位于目标视频帧图像附近的Y帧图像作为与目标视频帧图像关联的多个视频帧图像。其中，Y为大于1的自然数，例如将Y取8，可以按照视频帧采集顺序，将目标视频帧图像的前4帧图像和后4帧图像作为与目标视频帧图像关联的视频帧图像。需要说明的是，与目标视频帧图像关联的视频帧图像，按照视频帧采集顺序，位于目标视频帧图像之前的视频帧图像数量与位于目标视频帧图像之后的视频帧图像数量不一定相同或数量接近，只需保证位于目标视频帧图像之前的视频帧图像数量与位于目标视频帧图像之后的视频帧图像数量之和等于一个视频帧图像数量阈值(例如取8)即可。

S4：获取对多个视频帧图像中每个视频帧图像进行感兴趣区域特征提取得到多个图像特征。即获取对与目标视频帧图像关联的多个视频帧图像中每个视频帧图像的感兴趣区域的图像特征，作为上述多个图像特征。

在本公开的一个示例中，上述多个图像特征可以是随着视频帧图像的采集，对每帧图像采用实时处理的方式，得到每帧图像中感兴趣区域的图像特征后，将每帧图像中感兴趣区域的图像特征存储在指定空间内。在需要获取时，从指定空间内读取出来。在对每帧图像中感兴趣区域的图像特征进行实时处理的情况下，将在视频中位于目标视频帧图像之前的X帧图像作为与目标视频帧图像关联的多个视频帧图像。

在本公开的另一个示例中，上述多个图像特征可以是随着视频帧图像的采集，对每帧图像采用非实时处理的方式(例如对一帧图提取感兴趣区域的图像特征的时间大于一帧视频的采集时间)，此时先对上述多个视频帧图像进行存储，然后等待图像处理资源。在获取到图像处理资源后针对多帧图像分别提取感兴趣区域的图像特征，进而将多个视频帧图像中每帧图像中感兴趣区域的图像特征存储在指定空间内。在需要获取时，从指定空间内读取多个视频帧图像中每帧图像中感兴趣区域的图像特征。

S5：基于目标标视频帧图像和多个视频帧图像的视频帧采集顺序，对第一图像特征和多个图像特征拼接，得到拼接特征。其中，目标视频帧图像和多个视频帧图像是由同一个图像采集装置采集得到的。

S6：基于拼接特征，对感兴趣区域中的目标对象进行行为识别。其中，感兴趣区域中的目标对象可以是指定人物。

本公开实施例基于拼接特征，可以得到感兴趣区域中的目标对象对每个需要识别行为的分类概率，基于每个需要识别行为的分类概率可以进行快速有效的行为识别。示例性地，本公开实施例基于拼接特征，得到行为A的概率为0％，接打电话的概率为95％，正常驾驶的概率为5％，则判定目标对象进行了接打电话行为。

在本实施例中，可以对每帧图像采用实时处理的方式，即每采集一帧图像，就对当前帧图像提取出感兴趣区域的图像特征，然后存入指定存储空间。当需要进行行为识别时，获取当前帧图像中感兴趣区域的图像特征，然后从指定存储空间中读取当前帧图像的前X帧图像中感兴趣区域的图像特征。将当前帧图像中感兴趣区域的图像特征与当前帧图像的前X帧图像中感兴趣区域的图像特征，按照视频帧采集顺序进行特征拼接，基于拼接特征可以进行实时的行为识别。

在本实施例中，可以对每帧图像采用非实时处理的方式，即采集多帧图像后，获取当前帧图像提取出感兴趣区域的图像特征，并获取当前帧图像的前X帧图像中感兴趣区域的图像特征，然后将当前帧图像中感兴趣区域的图像特征与当前帧图像的前X帧图像中感兴趣区域的图像特征，按照视频帧采集顺序进行特征拼接，基于拼接特征可以进行视频特定时间点或特点时间段内的行为识别。

在本公开的一个实施例中，步骤S4包括：

S4-1：对多个视频帧图像中每个视频帧图像进行感兴趣区域特征提取，得到的多个图像特征，将多个图像特征存入目标缓存。其中，目标缓存可以是队列，每次对多个视频帧图像中一个视频帧图像，进行感兴趣区域特征提取，得到对应的图像特征后，将其存入队列中。

S4-2：在得到第一图像特征之后，从目标缓存中读取多个图像特征。

在本实施例中，通过对图像特征缓存的方式，在需要读取图像特征时，从缓存中读取相应的图像特征，可以提升图像特征的读取速度。

在本公开的一个实施例中，步骤S4-1包括：

S4-1-1：基于多个视频帧图像的视频帧采集顺序，每次获取多个视频帧图像中的一视频帧图像。

在本实施例中，如果对每帧图像采用实时处理的方式，则每次获取的一视频帧图像即为当前帧图像。如果对每帧图像采用非实时处理的方式，则需要按照多个视频帧图像的视频帧采集时间，每次获取的一视频帧图像为未进行图像处理的、且采集时间最靠前的视频帧图像。

S4-1-2：检测当前获取的视频帧图像的感兴趣区域。

本实施例中，检测当前获取的视频帧图像的感兴趣区域的方式可以是：提取当前获取的视频帧图像的关键点特征，然后基于提取的关键点特征识别结果检测是否可以确定感兴趣区域。例如因图像问题无法提取关键点特征，或者提取关键点数量不足时，则无法检测出当前获取的视频帧图像的感兴趣区域。其中，图像问题包括图像编码解码错误，图像亮度太高或太低，等等。

S4-1-3：如果检测出当前获取的视频帧图像的感兴趣区域，则对当前获取的视频帧图像的感兴趣区域进行特征提取，得到当前获取的视频帧图像的感兴趣区域的图像特征，将当前获取的视频帧图像的感兴趣区域的图像特征存入目标缓存中。

S4-1-4：如果无法检测出当前获取的视频帧图像的感兴趣区域，则获取当前获取的视频帧图像的前一帧图像的感兴趣区域的图像特征，将前一帧图像的感兴趣区域的图像特征存入目标缓存中。

在本实施例中，基于多个视频帧图像的视频帧采集顺序，针对多个视频帧图像中的每帧图像，首先检测感兴趣区域，然后基于检测出的感兴趣区域提取图像特征存入目标缓存中。如果某帧图像无法检测出感兴趣区域，则将相邻帧图像的感兴趣区域的图像特征作为本帧图像的感兴趣区域的图像特征，这样可以使得视频帧图像与目标缓存中存储的图像特征最大程度的匹配，且可以保证图像特征的连续性，从而提升通过视频帧图像进行行为识别时的准确性。

图2是本公开一个示例中对视频帧的图像特征进行缓存的示意图。如图2所示，缓存队列中以每帧图像的编号代表每帧图像中感兴趣区域的图像特征，例如第1帧图像中感兴趣区域的图像特征用编号1代表，第2帧图像中感兴趣区域的图像特征用编号2代表，以此类推，第S-1帧图像中感兴趣区域的图像特征用编号S-1代表，第S帧图像中感兴趣区域的图像特征用编号S代表。

当缓存队列中有效帧数目不足时，例如预先设置队列可以存储的有效帧数目阈值为8，则当有效帧数目小于8时，即缓存队列存储的视频帧图像对应的感兴趣区域图像特征的数目小于8时，判定有效帧数目不足。其中，每帧图像提取出的感兴趣区域图像特征，认定为一个有效帧。

当队列中存储的有效帧数目等于预设有效帧数目阈值以后，再获取新的视频帧图像的感兴趣区域的图像特征时，删除缓存队列中视频帧采集时间最早的视频帧图像对应的图像特征，例如在缓存队列存储第S帧图像对应的图像特征时，删除了缓存队列中第S-8帧图像对应图像特征。

当无法获取到第S+1帧图像的感兴趣区域时，在队列中对应第S+1图像的存储位置，存储第S帧图像对应的图像特征。

在本实施例中，在通过缓存队列缓存图像特征时，如果无法获取到某帧图像对应的感兴趣区域，则会存储相邻视频帧图像对应的图像特征，例如存储前一帧图像对应的图像特征，通过这种方式可以避免时间上的断点，提升了在行为识别时的准确性。

在本公开的一个实施例中，在步骤S2之后，还包括：基于第一图像特征进行行为识别。

在本实施例中，仅根据目标视频帧图像，以单帧图像的图像分类方式进行行为识别，可以与基于拼接特征进行行为识别的方式进行了模块复用，即复用了对目标视频帧图像确定感兴趣区域的感兴趣区域确定模块，以及复用了对目标视频帧图像中感兴趣区域提取出第一图像特征的第一提取模块。

在本公开的一个实施例中，在步骤S1之前，还包括

S-0：从视频中帧提取当前视频帧图像；对当前视频帧图像进行预处理，得到目标视频帧图像。其中，预处理包括图像灰度处理。即图像采集装置为彩色相机时，需要对彩色的目标视频帧图像进行灰度处理。相应低，多个视频帧图像为对当前视频帧图像的前N帧视频图像进行预处理后得到的，即需要对上述多个视频帧图像中的每个视频帧图像进行灰度处理。其中，N为大于1的自然数。

在本实施例中，对目标视频帧图像进行灰度处理的目标是避免条带失真。灰度图像中每个的像素只需一个字节存放灰度值(又称强度值、亮度值)，灰度范围为0-255，灰度图像通常在单个电磁波频谱(如可见光)内测量每个像素的亮度得到的。用于显示的灰度图像通常用每个采样像素8位的非线性尺度来保存，这样可以有256级灰度。这种精度刚刚能够避免可见的条带失真。

在本公开的一个实施例中，步骤S1包括：

S1-1：基于行为识别内容确定感兴趣区域中的目标人物的肢体识别部位。

S1-2：对目标视频帧图像中目标人物的肢体识别部位进行关键点识别，基于关键点识别结果确定目标视频帧图像的感兴趣区域。

在本实施例中，可以针对每项行为识别内容确定相应的感兴趣区域，针对性强。

在本公开的一个实施例中，行为识别内容包括危险驾驶行为识别，其中，目标人物为驾驶员。

示例性地，当行为识别内容包括接打电话行为识别时，目标对象为驾驶员，肢体识别部位为驾驶员的手部和脸部，感兴趣区域为目标视频帧图像中驾驶员的手部区域和脸部区域。当行为识别内容包括未系安全带时，目标对象包括车内所有座位上的人员，肢体识别部位为车内所有座位上的人员的上半身，感兴趣区域为目标视频帧图像中所有座位上的人员的上半身区域。

在本实施例中，可以基于一帧图像进行危险驾驶行为识别，也可以基于上述拼接特征进行危险驾驶行为识别，识别方式灵活，识别效率高，识别准确性高。

图3是本公开一个示例中行为识别的流程示意图。如图3所示，本示例采用实时处理方式。当通过视频获取第S帧图像后，对第S图像进行预处理后，确定预处理后第S图像中的感兴趣区域，然后提取出预处理后第S图像中的感兴趣区域的图像特征，即图像特征S。此后，分为两种方式进行行为识别：

1、通过获取第S-X图像至第S-1帧图像对应的图像特征S-X，图像特征S-X+1，…，图像特征S-2，图像特征S-1。将图像特征S-X，图像特征S-X+1，…，图像特征S-2，图像特征S-1和图像特征S，按照视频帧采集顺序进行拼接得到拼接特征，然后基于拼接特征进行行为识别。

2、基于图像特征S进行行为识别。

本公开实施例的行为识别方法，由于拼接特征能够表示目标对象的指定肢体部位的运动轨迹，例如驾驶员的手部从手机放置位置拿起手机，然后移动到驾驶员的耳朵旁，该拼接特征可以表示手部特征点和手机特征点的运动轨迹，且运动轨迹具有动作连续性。因此本公开实施例基于拼接特征可以对感兴趣区域的目标对象进行快速、准确的行为识别。

本公开实施例提供的任一种行为识别方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种行为识别方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种行为识别方法。下文不再赘述。

示例性装置

图4是本公开实施例行为识别装置的结构框图。如图4所示，本公开实施例的行为识别装置，包括：

感兴趣区域确定模块410，用于确定目标视频帧图像的感兴趣区域；

提取模块420，用于对所述感兴趣区域进行特征提取，得到第一图像特征；

视频帧确定模块430，用于基于所述目标视频帧图像，确定与所述目标视频帧关联的多个视频帧图像；

获取模块440，用于获取对所述多个视频帧图像中每个视频帧图像进行感兴趣区域特征提取得到的多个图像特征；

特征拼接模块450，用于基于所述标视频帧图像和所述多个视频帧图像在所述视频中的播放顺序关系，对所述第一图像特征和所述多个图像特征拼接，得到拼接特征；

第一行为识别模块460，用于基于拼接特征，进行行为识别。

图5是本公开一个实施例中获取模块440的结构框图。如图5所示，在本公开的一个实施例中，获取模块440包括：

缓存单元4401，用于对所述多个视频帧图像中每个视频帧图像进行感兴趣区域特征提取，得到的多个图像特征，将所述多个图像特征存入目标缓存；

读取单元4402，用于在所述得到第一图像特征之后，从所述目标缓存中读取所述多个图像特征。

在本公开的一个实施例中，所述缓存单元4401用于基于所述多个视频帧图像的视频帧采集顺序，每次获取所述多个视频帧图像中的一视频帧图像；所述缓存单元4401还用于检测当前获取的视频帧图像的感兴趣区域；所述缓存单元4401还用于如果检测出所述当前获取的视频帧图像的感兴趣区域，则对所述当前获取的视频帧图像的感兴趣区域进行特征提取，得到所述当前获取的视频帧图像的感兴趣区域的图像特征，将所述当前获取的视频帧图像的感兴趣区域的图像特征存入所述目标缓存中；所述缓存单元4401还用于如果无法检测出所述当前获取的视频帧图像的感兴趣区域，则获取所述当前获取的视频帧图像的前一帧图像的感兴趣区域的图像特征，将所述前一帧图像的感兴趣区域的图像特征存入所述目标缓存中。

图6是本公开一个具体实施例中行为识别装置的结构框图。如图6所示，在本公开的一个实施例中，行为识别装置还包括：第二行为识别模块470，用于基于所述第一图像特征进行行为识别。

请再次参考图6，在本公开的一个实施例中，行为识别装置还包括：目标帧图像获取单元480，用于从所述视频中帧提取当前视频帧图像，并对所述当前视频帧图像进行预处理，得到所述目标视频帧图像。其中，所述多个视频帧图像为对所述当前视频帧图像的前N帧视频图像进行所述预处理后得到的，N为大于1的自然数。

图7是本公开一个实施例中感兴趣区域确定模块410的结构框图。如图7所示，在本公开的一个实施例中，所述感兴趣区域确定模块410包括：

确定单元4101，用于基于行为识别内容确定所述感兴趣区域中的目标人物的肢体识别部位；

识别单元4102，用于对所述目标视频帧图像中目标对象的肢体识别部位进行关键点识别，基于关键点识别结果确定所述目标视频帧图像的感兴趣区域。

在本公开的一个实施例中，所述行为识别内容包括危险驾驶行为识别，所述目标对象物为驾驶员。

示例性电子设备

下面，参考图8来描述根据本公开实施例的电子设备。该电子设备可以是第一设备810和第二设备820中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图8图示了根据本公开实施例的电子设备的框图。

如图8所示，电子设备包括一个或多个处理器810和存储器820。

处理器810可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器820可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本公开的各个实施例的行为识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备还可以包括：输入装置830和输出装置840，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

当然，为了简化，图8中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的行为识别方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的行为识别方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种行为识别方法，包括：

确定目标视频帧图像的感兴趣区域；

对所述感兴趣区域进行特征提取，得到第一图像特征；

确定与所述目标视频帧图像关联的多个视频帧图像；

获取对所述多个视频帧图像中每个视频帧图像进行感兴趣区域特征提取得到的多个图像特征；

2.根据权利要求1所述的行为识别方法，其中，所述获取对所述多个视频帧图像中每个视频帧图像进行感兴趣区域特征提取得到的多个图像特征，包括：

对所述多个视频帧图像中每个视频帧图像进行感兴趣区域特征提取，得到的多个图像特征，将所述多个图像特征存入目标缓存；

在所述得到第一图像特征之后，从所述目标缓存中读取所述多个图像特征。

3.根据权利要求2所述的行为识别方法，其中，所述对所述多个视频帧图像中每个视频帧图像进行感兴趣区域特征提取，得到的多个图像特征，并将所述多个图像特征存入目标缓存，包括：

基于所述多个视频帧图像的视频帧采集顺序，每次获取所述多个视频帧图像中的一视频帧图像；

检测当前获取的视频帧图像的感兴趣区域；

如果检测出所述当前获取的视频帧图像的感兴趣区域，则对所述当前获取的视频帧图像的感兴趣区域进行特征提取，得到所述当前获取的视频帧图像的感兴趣区域的图像特征，将所述当前获取的视频帧图像的感兴趣区域的图像特征存入所述目标缓存中；

如果无法检测出所述当前获取的视频帧图像的感兴趣区域，则获取所述当前获取的视频帧图像的前一帧图像的感兴趣区域的图像特征，将所述前一帧图像的感兴趣区域的图像特征存入所述目标缓存中。

4.根据权利要求1所述的行为识别方法，其中，在所述得到第一图像特征之后，还包括：

基于所述第一图像特征进行行为识别。

5.根据权利要求1所述的行为识别方法，在确定目标视频帧图像的感兴趣区域之前，还包括：

从所述视频中帧提取当前视频帧图像；

对所述当前视频帧图像进行预处理，得到所述目标视频帧图像；

其中，所述多个视频帧图像为对所述当前视频帧图像的前N帧视频图像进行所述预处理后得到的，N为大于1的自然数。

6.根据权利要求1所述的行为识别方法，其中，所述确定目标视频帧图像的感兴趣区域，包括：

基于行为识别内容确定所述感兴趣区域中的目标对象的肢体检测部位；

对所述目标视频帧图像中目标人物的肢体检测部位进行关键点检测，基于关键点检测结果确定所述目标视频帧图像的感兴趣区域。

7.根据权利要求6所述的行为识别方法，所述行为识别内容包括危险驾驶行为识别，所述目标对象为驾驶员。

8.一种行为识别装置，包括：

第一行为识别模块，用于基于拼接特征，进行行为识别。

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的行为识别方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一所述的行为识别方法。