CN115050013A

CN115050013A - 一种行为检测方法、装置、车辆、存储介质和电子设备

Info

Publication number: CN115050013A
Application number: CN202210669746.6A
Authority: CN
Inventors: 杨聪; 孔祥斌
Original assignee: Nanjing Artificial Intelligence Advanced Research Institute Co ltd
Current assignee: Nanjing Artificial Intelligence Advanced Research Institute Co ltd
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2022-09-13

Abstract

本公开实施例公开了一种行为检测方法、装置、车辆、存储介质和电子设备，其中，该方法包括：从摄像装置采集的视频帧中，分别获取包括有目标对象的目标部位的目标图像帧和第一图像帧序列；基于目标图像帧，确定目标对象的第一行为以及第一行为的第一置信度；分别对第一图像帧序列中的各图像帧进行骨架检测得到第一图像帧序列中的各图像帧的骨架信息，并基于第一图像帧序列中的各图像帧的骨架信息进行行为识别，得到目标对象的第二行为以及第二行为的第二置信度；基于第一行为和第一行为第一置信度，以及第二行为和第二行为第二置信度，确定目标对象的行为检测结果。本公开实施例可以大幅减低行为检测的误判几率。

Description

一种行为检测方法、装置、车辆、存储介质和电子设备

技术领域

本公开涉及行为检测技术领域，尤其是一种行为检测方法、装置、车辆、存储介质和电子设备。

背景技术

在车辆领域中，由于车辆的驾驶员以及乘客等人员的某些行为，会对车辆的行驶安全产生影响。因此，通过对车内人员进行行为检测，在检测出车内人员的危险行为时，及时采取相应措施，降低危险行为对车辆安全造成的影响，是非常必要的。

如何准确检测车内人员的行为，是一个亟待解决的问题。

发明内容

本公开的发明人经过大量创造性的劳动发现，从车内摄像装置采集的视频帧中获取单帧图像，通过对获取的单帧图像提取感兴趣区域后进行行为识别的方式，有时会出现行为误判，例如将车内人员的手部接触嘴部的行为，或将车内人员咬牙签的行为，误判为车内人员进行了抽烟行为(如图1所示)。

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种行为检测方法、装置、车辆、存储介质和电子设备。

根据本公开实施例的第一方面，提供了一种行为检测方法，包括：

从摄像装置采集的视频帧中，分别获取包括有目标对象的目标部位的目标图像帧和第一图像帧序列；

基于所述目标图像帧，确定所述目标对象的第一行为以及所述第一行为的第一置信度；

分别对所述第一图像帧序列中的各图像帧进行骨架检测得到所述第一图像帧序列中的各图像帧的骨架信息，并基于所述第一图像帧序列中的各图像帧的骨架信息进行行为识别，得到所述目标对象的第二行为以及所述第二行为的第二置信度；

基于所述第一行为和所述第一行为第一置信度，以及所述第二行为和所述第二行为第二置信度，确定所述目标对象的行为检测结果。

根据本公开实施例的第二方面，提供了一种行为检测装置，包括：

获取模块，用于从摄像装置采集的视频帧中，分别获取包括有目标对象的目标部位的目标图像帧和第一图像帧序列；

第一置信度确定模块，用于基于所述目标图像帧，确定所述目标对象的第一行为以及所述第一行为的第一置信度；

第二置信度确定模块，用于分别对所述第一图像帧序列中的各图像帧进行骨架检测得到所述第一图像帧序列中的各图像帧的骨架信息，并基于所述第一图像帧序列中的各图像帧的骨架信息进行行为识别，得到所述目标对象的第二行为以及所述第二行为的第二置信度；

检测结果确定模块，用于基于所述第一行为和所述第一行为第一置信度，以及所述第二行为和所述第二行为第二置信度，确定所述目标对象的行为检测结果。

根据本公开实施例的第三方面，提供了一种车辆，包括上述第二方面所述的行为检测装置。

根据本公开实施例的第四方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述第一方面所述的行为检测方法。

根据本公开实施例的第五方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述第一方面所述的行为检测方法。

基于本公开上述实施例提供的一种行为检测方法、装置、车辆、存储介质和电子设备，从摄像装置采集的视频帧中，分别获取包括有目标对象的目标部位的目标图像帧和第一图像帧序列；基于目标图像帧，可以确定目标对象的第一行为以及第一行为的第一置信度；分别对第一图像帧序列中的各图像帧进行骨架检测得到第一图像帧序列中的各图像帧的骨架信息，并基于第一图像帧序列中的各图像帧的骨架信息进行行为识别，得到目标对象的第二行为以及所述第二行为的第二置信度；基于第一行为以及第一行为第一置信度和第二行为以及第二行为第二置信度进行综合判断，最终确定目标对象的行为检测结果，可以大幅减低行为检测的误判几率。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开一个示例中对摄像装置采集的单帧图像确定感兴趣区域的示意图；

图2是本公开一个实施例中行为检测方法的流程示意图；

图3是本公开一个实施例中步骤S2的流程示意图；

图4是本公开一个实施例中步骤S2-3的流程示意图；

图5为本公开一个示例中步骤S3的流程示意图；

图6是本公开一个实施例中步骤S4的流程示意图；

图7是本公开一个实施例中行为检测装置的结构框图；

图8是本公开一个实施例中第一确定模块200的结构框图；

图9是本公开一个实施例中第二确定模块300的结构框图；

图10是本公开一个实施例中检测结果确定模块400的结构框图；

图11是本公开一个实施例中电子设备的结构框图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性系统

本公开实施例的行为检测技术可以适用于多种场景中。例如，本公开提供的行为识别的技术方案可以适用于车内人员监控系统中。

车辆中配置有至少一摄像装置和处理装置，摄像装置采集包括有车内人员的视频帧，并可以实时地提供给处理装置。

处理装置从摄像装置采集的视频帧中，可以获取包括行为检测对象的上半身的目标图像帧和图像帧序列。一方面，处理装置通过对目标图像帧进行行为检测，确定行为检测对象的第一行为以及第一行为的第一置信度。另一方面，处理装置通过对图像帧序列进行骨架检测得到行为检测对象在图像帧序列中的上半身骨架信息，然后基于行为检测对象在图像帧序列中的上半身骨架信息进行行为识别，确定行为检测对象的第二行为以及第二行为的第一置信度。其中，第一行为和第二行为可以是针对某个行为(例如抽烟行为或接打电话行为)的相同检测结果或不同检测结果。进而，处理装置可以基于第一行为和第一行为第一置信度，以及第二行为和第二行为第二置信度进行综合判断，最终确定目标对象的行为检测结果(例如执行了抽烟行为或没有执行抽烟行为)。

示例性方法

图2是本公开一个实施例中的行为检测方法的流程示意图。如图2所示，包括如下步骤：

S1：从摄像装置采集的视频帧中，分别获取包括有目标对象的目标部位的目标图像帧和第一图像帧序列。

可以在车内设置摄像装置，通过摄像装置采集车内的视频图像，并通过图像处理装置从摄像装置采集的视频帧中，分别获取包括有目标对象的目标部位的目标图像帧和第一图像帧序列。

其中，目标对象包括至少一个车内人员，例如目标对象可以仅包括驾驶员，也可以仅包括一名乘客，也可以包括驾驶员和乘客，还可以仅包括多名驾驶员。

目标对象的目标部位可以包括目标对象的上半身。由于在智能座舱环境中，人体腿部动作比较少，而且因为遮挡，摄像头方向等原因，腿部往往不可见。本公开实施例去掉腰部以下的部位可以有效降低算法复杂度，降低对车内人员下半身进行图像识别引起的干扰。

目标图像帧可以是在视频帧中包括有目标对象的关键帧，目标图像帧还可以是在视频帧中包括有目标对象的当前图像帧。当目标图像帧还可以是在视频帧中包括有目标对象的当前图像帧时，本公开实施例的行为检测方法可以进行实时的行为检测。

第一图像帧序列可以是位于目标图像帧之前的多个连续的视频帧，例如目标图像帧为P_i，第一图像帧序列可以包括{P_i-n,,P_i-n+1,…,P_i-2,P_i-1}，其中，i>n，且n为大于4的整数；第一图像帧序列也可以是位于目标图像帧之前的多个间隔的视频帧，例如目标图像帧为P_i，第一图像帧序列可以包括{P_i-m,,P_i-m+2,…,P_i-3,P_i-1}，其中，i>m，且m为大于6的整数。其中，第一图像帧序列中的视频帧根据视频采集时间的顺序进行排列。

S2：基于目标图像帧，确定目标对象的第一行为以及第一行为的第一置信度。

利用图像识别技术对目标图像帧进行识别，可以确定目标对象的第一行为以及第一行为的第一置信度。例如可以利用图像识别技术对目标图像帧中的目标对象进行抽烟行为识别，得到对目标对象的抽烟行为、没有抽烟行为和疑似抽烟行为的分类置信度，将置信度最高的行为确定为第一行为，并提取第一行为的第一置信度。例如第一行为是抽烟行为，提取抽烟行为对应的第一置信度。

S3：分别对第一图像帧序列中的各图像帧进行骨架检测得到第一图像帧序列中的各图像帧的骨架信息，并基于第一图像帧序列中的各图像帧的骨架信息进行行为识别，得到目标对象的第二行为以及第二行为的第二置信度。

可以利用骨架检测技术分别对第一图像帧序列中的各图像帧进行骨架检测，从而提取到第一图像帧序列中的各图像帧的骨架信息。其中，骨架检测技术可以采用K3M骨架提取方法。K3M骨架提取方法提取目标对象在第一图像帧序列中的各图像帧中点的外围轮廓，然后利用外围轮廓腐蚀图像边界的方式最终得到提取到第一图像帧序列中的各图像帧的骨架信息。骨架信息可以包括骨架点和骨架点在图像中的位置信息。

在提取到第一图像帧序列中的各图像帧的骨架信息之后，基于第一图像帧序列中的各图像帧的骨架信息进行行为识别，可以得到目标对象的第二行为以及第二行为的第二置信度。其中，第一行为和第二行为可以是针对同一个行为(例如抽烟行为或接打电话行为)的相同检测结果或不同检测结果。例如当第一行为是抽烟行为时，第二行为可以是抽烟行为、未抽烟行为或疑似抽烟行为中的一个。

S4：基于第一行为和第一行为第一置信度，以及第二行为和第二行为第二置信度，确定目标对象的行为检测结果。

可以基于第一置信度和第二置信度的数值关系，确定目标对象的最终置信度和最终检测行为，可以仅将最终检测行为作为目标对象的行为检测结果，也可以将目标对象的最终置信度和最终检测行为作为目标对象的行为检测结果。

在本实施例中，通过对摄像装置采集的包括有目标对象的目标部位的目标图像帧进行行为检测，可以确定针对目标对象的第一行为和第一行为的第一置信度，通过对摄像装置采集的包括有目标对象的目标部位的第一图像序列进行骨架检测和行为检测，可以确定针对目标对象的第二行为和第二行为的第二置信度，进而基于第一行为和第一行为第一置信度，以及第二行为和第二行为第二置信度进行综合判断，最终确定目标对象的行为检测结果，可以大幅减低行为检测的误判几率。

图3是本公开一个实施例中步骤S2的流程示意图。如图3所示，步骤S2包括：

S2-1：获取位于目标图像帧的采集时间之前、且包括有目标对象的目标部位的第二图像帧序列。

其中，第二图像帧序列的采集时间点与目标图像帧的采集时间点在预设时间间隔范围内，第一图像帧序列中的各图像帧的采集时间均位于目标图像帧的采集时间之前，第二图像帧序列中的各图像帧的采集时间均位于目标图像帧的采集时间之前，且第二图像帧序列的图像采集时间段长度小于第一图像帧序列的图像采集时间段长度。

在本公开的一个示例中，预设时间间隔可以为N秒，第二图像帧序列的图像采集时间段长度为M秒，即按照采集时间点进行排序，在第二图像帧序列中的排序第一的视频图像帧和排序倒数第一的视频图像帧之间，采集时间间隔M秒。第一图像帧序列的图像采集时间段长度为P秒，即在第一图像帧序列中的排序第一的视频图像帧和排序倒数第一的视频图像帧之间，采集时间间隔P秒。其中，N＞M，且P＞M，且P、N和M均大于或等于0。

优选地，P＞N，例如N取1，M取0，P取10。此时，第一图像帧序列中各图像帧的采集时间点可以位于目标图像帧的采集时间点11秒之前，且图像采集时间段长度为10秒的图像帧序列，即在第一图像帧序列中，采集时间点最早的视频图像帧位于目标图像帧的11秒前，采集时间点最晚的视频图像帧位于目标图像帧的1秒前。第二图像帧序列中各图像帧的采集时间点可以是位于目标图像帧的采集时间点1秒之前，且图像采集时间段长度为1秒的图像帧序列，即第二图像帧序列中，采集时间点最早的视频图像帧位于目标图像帧的1秒前，采集时间点最晚的视频图像帧即为目标图像帧。此时，第二图像帧序列中的各图像帧的图像采集时间点与目标图像帧的图像采集时间点，相对于第一图像帧序列中的各图像帧的图像采集时间点与目标图像帧的图像采集时间点，整体上采集时间点间隔较小。

S2-2：对第二图像帧序列中各图像帧提取目标对象的目标部位的图像块，得到图像块序列。

以目标对象的目标部位作为第二图像帧序列中各图像帧的感兴趣区域，对第二图像帧序列中各图像帧提取感兴趣区域所在的图像块，将从第二图像帧序列中各图像帧提出的图像块按照图像采集时间点进行排序，得到图像块序列。

S2-3：基于图像块序列进行行为识别，确定第一行为以及第一行为的第一置信度。

利用图像识别技术，基于图像块序列对目标对象进行行为识别，得到第一行为以及第一行为的第一置信度。

在本实施例中，从摄像装置采集的视频帧中，提取采集时间点与目标图像帧的采集时间点在预设时间间隔范围内、位于目标图像帧的采集时间之前、且相对于第一图像帧序列而言图像采集时间段长度较小的第二图像帧序列，由于第二图像帧序列可以包括短时间内的多个视频图像帧，因此将第二图像帧序列的行为检测结果作为目标图像帧的行为检测结果，相对于仅针对目标图像帧行为检测可以大幅提升第一行为检测的准确率。由于第一图像帧序列可以包括相对于第一图像帧序列而言较长时间段内的多个视频图像帧，因此基于第一图像帧序列进行行为检测得到的第二行为和第二置信度，可以有效表征目标对象在较长时间段内的行为及该行为的置信度；基于第二图像帧序列进行行为检测得到的第一行为和第一置信度，可以有效表征目标对象在较短时间段内的行为及该行为的置信度；将第一行为、第一置信度、第二行为和第二置信度进行综合判断，可以提升行为检测结果的准确性。

图4是本公开一个实施例中步骤S2-3的流程示意图。如图4所示，步骤S2-3包括：

S2-3-1：对图像块序列中的各图像块进行骨架检测得到图像块序列中的各图像块的骨架信息。其中，可以利用骨架检测技术分别对图像块序列中的各图像帧进行骨架检测，从而提取到图像块序列中的各图像块的骨架信息。

S2-3-2：基于图像块序列中的各图像块的骨架信息进行行为识别，得到图像块序列中的各图像块在多个预设行为分类上的置信度。

在本公开的一个示例中，可以针对图像块序列中的各图像块，分别对目标对象进行抽烟行为检测，得到各图像块中目标对象的抽烟行为的置信度、未抽烟行为的置信度和疑似抽烟行为的置信度。

S2-3-3：基于图像块序列中的各图像块在多个预设行为分类上的置信度，确定图像块序列中的各图像块的行为分类。

可以基于图像块序列中的各图像块在多个预设行为分类上的置信度的大小关系，确定图像块序列中的各图像块的行为分类。

在本公开的一个示例中，图像块序列包括按照采集时间点排序的6个图像块，6个图像块的在以下抽烟行为检测分类的置信度和行为分类如表1所示。

表1

如表1所示，针对基于图像块序列中各图像块，可以将置信度最高的行为作为检测行为。

S2-3-4：统计图像块序列中的各图像块的行为分类的数量，将行为分类数量最多的行为作为第一行为。

如表1所示的示例，可以将抽烟行为作为第一行为。

S2-3-5：将图像块序列中的各图像块在第一行为上的置信度进行均值处理，得到第一行为的第一置信度。

如表1所示的示例，可以对抽烟行为在6个图像块中的置信度求取平均值，例如(0.3+0.4+0.5+0.6+0.7+0.8)/6，得到抽烟行为的第一置信度，第一置信度可以为0.55。

在本实施例中，针对图像块序列中各图像块，对目标对象进行骨架检测和行为识别，得到图像块序列中各图像块的行为分类和置信度，对图像块序列中各图像块的行为分类置信度和置信度进行统计，将行为分类最多的行为作为第一行为，可以有效提升基于图像块序列进行行为检测的准确性。在确定第一行为后，将图像块序列中各图像块针对第一行为的置信度进行均值处理得到第一置信度，通过第一置信度可以合理表征第一行为的置信度。

图5为本公开一个示例中步骤S3的流程示意图。如图5所示，步骤S3包括：

S3-1：分别对第一图像帧序列中的各图像帧进行骨架检测，得到第一图像帧序列中的各图像帧的骨架信息。

S3-2：从第一图像帧序列中的各图像帧的骨架信息中，去除第一图像帧序列中的各图像帧中的预设部位的骨架信息，得到第一图像帧序列中的各图像帧的剩余骨架信息。其中，预设部位可以是目标对象的下半身。剩余骨架信息包括目标对象上半身的骨架信息，还可以包括除了目标对象以外的其他车内人员上半身的骨架信息。

S3-3：从第一图像帧序列中的各图像帧的剩余骨架信息中，提取第一图像帧序列中的各图像帧中目标对象的骨架信息。

S3-4：基于第一图像帧序列中的各图像帧中目标对象的骨架信息进行行为识别，得到目标对象的第二行为以及第二行为的第二置信度。

在本实施例中，针对第一图像帧序列中各图像帧，对目标对象进行骨架检测得到第一图像帧序列的各图像帧中所需的剩余骨架信息，由于第一图像帧序列的各图像帧中所需的剩余骨架信息可以有效表征目标对象针对检测行为所需关节点的运动轨迹，因此基于第一图像帧序列的各图像帧中所需的剩余骨架信息进行行为识别，既可以保证第二行为和第二置信度的准确度，又可以提升行为识别效率。

在本公开的一个实施例中，步骤S3-4包括：利用循环神经网络，对第一图像帧序列中的各图像帧中目标对象的骨架信息进行处理，得到目标对象的第二行为以及第二行为的第二置信度。

在本公开的一个示例中，利用循环神经网络的行为检测为针对驾驶员的抽烟行为检测时，目标对象的骨架信息至少包括驾驶员的嘴部骨架和手部骨架。

在循环神经网络中，针对驾驶员的嘴部骨架和手部骨架中的关节点分配不同的注意力，使用注意力机制进行行为检测。

基于预先训练好的循环神经网络对第一图像帧序列中的各图像帧中目标对象的骨架信息进行处理，根据处理结果可以得到驾驶员的抽烟行为的置信度、未抽烟行为的置信度和疑似抽烟行为的置信度。从驾驶员的抽烟行为的置信度、未抽烟行为的置信度和疑似抽烟行为的置信度中，选择置信度值最大的行为作为第二行为，并将第二行为的置信度作为第二置信度。

在本实施例中，利用循环神经网络有效学习车内人员的骨架特征并时域的动态过程建模后，使用建立好的循环神经网络模型对骨架信息第一图像帧序列中的各图像帧中目标对象的骨架信息进行处理，可以准确地得到目标对象的第二行为以及第二行为的第二置信度。

图6是本公开一个实施例中步骤S4的流程示意图。如图6所示，步骤S4包括：

S4-1：若基于第一行为与第二行为表示目标对象针对目标检测行为的分类结果相同，则基于第一置信度确定行为检测结果。

当第一行为和第二行为表征对目标对象的同一个行为的检测结果相同时，例如第一行为和第二行为均表征目标对象进行了抽烟行为，则可以将第一行为或第二行为确定目标对象的最终检测行为，可以将目标对象的最终检测行为作为目标对象的行为检测结果。也可以基于第一置信度和第二置信度确定目标对象进行了最终检测行为的最终置信度，将目标对象的最终检测行为和最终置信度作为目标对象的行为检测结果。

S4-2：若基于第一行为与第二行为表示目标对象针对目标检测行为的分类结果不同，则基于第一置信度和第二置信度的置信度值的大小关系确定行为检测结果。

当第一行为和第二行为表征对目标对象的同一个行为的检测结果不同时，可以基于第一置信度和第二置信度之间的大小关系，确定目标对象的最终检测行为，和针对最终检测行为的最终置信度。进而可以将目标对象的最终检测行为作为目标对象的行为检测结果，或者将目标对象的最终检测行为和最终置信度作为目标对象的行为检测结果。

在本实施例中，针对目标对象基于目标图像帧和第一图像帧序列分别进行行为检测得到的第一行为、第一置信度，以及第二行为和第二置信度。当第一行为和第二行为表征的行为分类结果相同，则可以准确地确定目标对象进行了第一行为或第二行为；当第一行为和第二行为表征的行为分类结果不同，则需要进一步根据第一置信度和第二置信度最终确定目标对象的最终检测结果。本实施例从行为检测结果和置信度两方面进行综合判断，最终确定目标对象的行为检测结果，相对于仅通过单一图像或仅通过单一图像帧序列进行行为检测的方式，可以大幅降低行为检测的误判几率。

本公开实施例提供的任一种行为检测方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种行为检测方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种行为检测方法。下文不再赘述。

示例性装置

图7是本公开一个实施例中行为检测装置的结构框图。如图7所示，行为检测装置包括：

获取模块100，用于从摄像装置采集的视频帧中，分别获取包括有目标对象的目标部位的目标图像帧和第一图像帧序列；

第一确定模块200，用于基于所述目标图像帧，确定所述目标对象的第一行为以及所述第一行为的第一置信度；

第二确定模块300，用于分别对所述第一图像帧序列中的各图像帧进行骨架检测得到所述第一图像帧序列中的各图像帧的骨架信息，并基于所述第一图像帧序列中的各图像帧的骨架信息进行行为识别，得到所述目标对象的第二行为以及所述第二行为的第二置信度；

检测结果确定模块400，用于基于所述第一行为和所述第一行为第一置信度，以及所述第二行为和所述第二行为第二置信度，确定所述目标对象的行为检测结果。

图8是本公开一个实施例中第一确定模块200的结构框图。如图8所示，第一确定模块200包括：

获取单元210，用于获取位于所述目标图像帧的采集时间之前、且包括有所述目标对象的目标部位的第二图像帧序列，其中，所述第二图像帧序列的采集时间点与所述目标图像帧的采集时间点在预设时间间隔范围内，所述第一图像帧序列中的各图像帧的采集时间均位于所述目标图像帧的采集时间之前，且所述第二图像帧序列的图像采集时间段长度小于所述第一图像帧序列的图像采集时间段长度；

第一提取单元220，用于对所述第二图像帧序列中各图像帧提取所述目标对象的目标部位的图像块，得到图像块序列；

第一识别单元230，用于基于所述图像块序列进行行为识别，确定所述第一行为以及所述第一行为的第一置信度。

在本公开的一个实施例中，识别单元230用于对所述图像块序列中的各图像块进行骨架检测，得到所述图像块序列中的各图像块的骨架信息；识别单元230还用于基于所述图像块序列中的各图像块的骨架信息进行行为识别，得到所述图像块序列中的各图像块在多个预设行为分类上的置信度；识别单元230还用于基于所述图像块序列中的各图像块在多个预设行为分类上的置信度，确定所述图像块序列中的各图像块的行为分类；识别单元230还用于统计所述图像块序列中的各图像块的行为分类的数量，将行为分类数量最多的行为作为所述第一行为；识别单元230还用于将所述图像块序列中的各图像块在所述第一行为上的置信度进行均值处理，得到所述第一行为的第一置信度。

图9是本公开一个实施例中第二确定模块300的结构框图。如图9所示，第二确定模块300包括：

去除单元310，用于从所述第一图像帧序列中的各图像帧的骨架信息中，去除所述第一图像帧序列中的各图像帧中的预设部位的骨架信息，得到所述第一图像帧序列中的各图像帧的剩余骨架信息；

第二提取单元320，用于从所述第一图像帧序列中的各图像帧的剩余骨架信息中，提取所述第一图像帧序列中的各图像帧中所述目标对象的骨架信息；

第二识别单元330，用于基于所述第一图像帧序列中的各图像帧中所述目标对象的骨架信息进行行为识别，得到所述目标对象的第二行为以及所述第二行为的第二置信度。

在本公开的一个实施例中，所述第二识别单元330用于利用循环神经网络，对所述第一图像帧序列中的各图像帧中所述目标对象的骨架信息进行处理，得到所述目标对象的第二行为以及所述第二行为的第二置信度。

图10是本公开一个实施例中检测结果确定模块400的结构框图。如图10所示，检测结果确定模块400包括：

第一确定单元410，用于若基于所述第一行为与所述第二行为表示所述目标对象针对目标检测行为的分类结果相同，则基于所述第一置信度确定所述行为检测结果；

第一确定单元420，用于若基于所述第一行为与所述第二行为表示所述目标对象针对目标检测行为的若基于所述第一行为与所述第二行为表示所述目标对象针对所述目标检测行为的分类结果不同，则基于所述第一置信度和所述第二置信度的置信度值的大小关系确定所述行为检测结果。

需要说明的是，本公开实施例的行为检测装置的具体实施方式与本公开实施例的行为检测方法的具体实施方式类似，具体参见行为检测方法部分，为了减少冗余，不作赘述。

示例性车辆

本公开还提供一种车辆，包括上述实施例的行为检测装置。

需要说明的是，本实施例中的车辆除了包括上述实施例的行为检测装置，剩余车辆结构和控制方式，与现有车辆结构和控制方式类似，为了减少冗余，不做赘述。

示例性电子设备

下面，参考图11来描述根据本公开实施例的电子设备。如图11所示，电子设备包括一个或多个处理器10和存储器20。

处理器10可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器20可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器10可以运行所述程序指令，以实现上文所述的本公开的各个实施例的行为检测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备还可以包括：输入装置30和输出装置40，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。输入装置30可以例如键盘、鼠标等等。输出装置40可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图11中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

示例性计算机可读存储介质

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种行为检测方法，包括：

2.根据权利要求1所述的行为检测方法，其中，所述基于所述目标图像帧，确定所述目标对象的第一行为以及所述第一行为的第一置信度，包括：

获取位于所述目标图像帧的采集时间之前、且包括有所述目标对象的目标部位的第二图像帧序列，其中，所述第二图像帧序列的采集时间点与所述目标图像帧的采集时间点在预设时间间隔范围内，所述第一图像帧序列中的各图像帧的采集时间均位于所述目标图像帧的采集时间之前，且所述第二图像帧序列的图像采集时间段长度小于所述第一图像帧序列的图像采集时间段长度；

对所述第二图像帧序列中各图像帧提取所述目标对象的目标部位的图像块，得到图像块序列；

基于所述图像块序列进行行为识别，确定所述第一行为以及所述第一行为的第一置信度。

3.根据权利要求2所述的行为检测方法，其中，所述基于所述图像块序列进行行为识别，确定所述第一行为以及所述第一行为的第一置信度，包括：

对所述图像块序列中的各图像块进行骨架检测，得到所述图像块序列中的各图像块的骨架信息；

基于所述图像块序列中的各图像块的骨架信息进行行为识别，得到所述图像块序列中的各图像块在多个预设行为分类上的置信度；

基于所述图像块序列中的各图像块在多个预设行为分类上的置信度，确定所述图像块序列中的各图像块的行为分类；

统计所述图像块序列中的各图像块的行为分类的数量，将行为分类数量最多的行为作为所述第一行为；

将所述图像块序列中的各图像块在所述第一行为上的置信度进行均值处理，得到所述第一行为的第一置信度。

4.根据权利要求1-3任一项所述的行为检测方法，其中，所述基于所述第一图像帧序列中的各图像帧的骨架信息进行行为识别，得到所述目标对象的第二行为以及所述第二行为的第二置信度，包括：

从所述第一图像帧序列中的各图像帧的骨架信息中，去除所述第一图像帧序列中的各图像帧中的预设部位的骨架信息，得到所述第一图像帧序列中的各图像帧的剩余骨架信息；

从所述第一图像帧序列中的各图像帧的剩余骨架信息中，提取所述第一图像帧序列中的各图像帧中所述目标对象的骨架信息；

基于所述第一图像帧序列中的各图像帧中所述目标对象的骨架信息进行行为识别，得到所述目标对象的第二行为以及所述第二行为的第二置信度。

5.根据权利要求4所述的行为检测方法，其中，所述基于所述第一图像帧序列中的各图像帧中所述目标对象的骨架信息进行行为识别，得到所述目标对象的第二行为以及所述第二行为的第二置信度，包括：

利用循环神经网络，对所述第一图像帧序列中的各图像帧中所述目标对象的骨架信息进行处理，得到所述目标对象的第二行为以及所述第二行为的第二置信度。

6.根据权利要求1-3任一项所述的行为检测方法，其中，所述基于所述第一行为以及所述第一行为第一置信度和所述第二行为以及所述第二行为第二置信度，确定所述目标对象的行为检测结果，包括：

若基于所述第一行为与所述第二行为表示所述目标对象针对目标检测行为的分类结果相同，则基于所述第一置信度确定所述行为检测结果；

若基于所述第一行为与所述第二行为表示所述目标对象针对所述目标检测行为的分类结果不同，则基于所述第一置信度和所述第二置信度的置信度值的大小关系确定所述行为检测结果。

7.一种行为检测装置，包括：

第一确定模块，用于基于所述目标图像帧，确定所述目标对象的第一行为以及所述第一行为的第一置信度；

第二确定模块，用于分别对所述第一图像帧序列中的各图像帧进行骨架检测得到所述第一图像帧序列中的各图像帧的骨架信息，并基于所述第一图像帧序列中的各图像帧的骨架信息进行行为识别，得到所述目标对象的第二行为以及所述第二行为的第二置信度；

8.一种车辆，包括：权利要求7所述的行为检测装置。

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-6任一所述的行为检测方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-6任一所述的行为检测方法。