CN110532891B

CN110532891B - 目标对象状态识别方法、装置、介质和设备

Info

Publication number: CN110532891B
Application number: CN201910717089.6A
Authority: CN
Inventors: 吴庭丞
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2022-04-05
Anticipated expiration: 2039-08-05
Also published as: CN110532891A

Abstract

公开了一种目标对象状态识别方法、装置、介质和设备。其中的目标对象状态识别方法包括：获取从多个视频帧中的每一视频帧中分别识别出的同一目标对象的多个关键点信息；根据所述多个视频帧中的每一视频帧中的所述目标对象的多个关键点信息，生成二维特征谱图；经由所述第一神经网络对所述二维特征谱图进行状态识别处理，获得所述目标对象的状态识别结果。本公开提供的技术方案有利于轻量化第一神经网络，并有利于提高第一神经网络进行状态识别处理的实时性。

Description

目标对象状态识别方法、装置、介质和设备

技术领域

本公开涉及计算机视觉技术，尤其是一种目标对象状态识别方法、目标对象状态识别装置、存储介质以及电子设备。

背景技术

目前，计算机视觉技术已经广泛应用于多种领域，例如，制造业、商业、互联网、医疗以及军事等领域。计算机视觉技术在实际应用过程中，有时会受到设备的硬件条件等因素的限制。例如，设备的计算能力等，不能很好的满足神经网络的要求。

如何降低神经网络对设备硬件条件的要求，使神经网络轻量化，是一个值得关注的技术问题。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种目标对象状态识别方法、装置、存储介质和电子设备。

根据本公开实施例的一个方面，提供一种目标对象状态识别方法，该方法包括：获取从多个视频帧中的每一视频帧中分别识别出的同一目标对象的多个关键点信息；根据所述多个视频帧中的每一视频帧中的所述目标对象的多个关键点信息，生成二维特征谱图；经由所述第一神经网络对所述二维特征谱图进行状态识别处理，获得所述目标对象的状态识别结果。

根据本公开实施例的另一个方面，提供一种目标对象状态识别装置，该装置包括：获取关键点模块，用于获取从多个视频帧中的每一视频帧中分别识别出的同一目标对象的多个关键点信息；生成特征谱图模块，用于根据所述获取关键点模块获取的所述多个关键点信息，生成二维特征谱图；状态识别模块，用于经由所述第一神经网络对所述生成特征谱图模块生成的二维特征谱图进行状态识别处理，获得所述目标对象的状态识别结果。

根据本公开实施例的再一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述目标对象状态识别方法。

根据本公开实施例的又一方面，提供了一种电子设备，该电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述目标对象状态识别方法。

基于本公开上述实施例提供的一种目标对象状态识别方法以及目标对象状态识别装置，通过利用多个视频帧中的同一目标对象的多个关键点信息，生成二维特征谱图，使多个视频帧中的同一目标对象的多个关键点信息可以以一图像的形式表示，有利于减少提供给第一神经网络的数据量，从而有利于降低第一神经网络进行状态识别处理的计算量；本公开通过利用第一神经网络对一个特征谱图进行状态识别处理，可以获得目标对象在多个视频帧中的状态，有利于提高第一神经网络识别目标对象状态的速度。由此可知，本公开提供的技术方案有利于轻量化第一神经网络，并有利于提高第一神经网络进行状态识别处理的实时性。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开所适用的场景示意图；

图2为本公开的目标对象状态识别方法一个实施例的流程示意图；

图3为本公开的设置二维特征谱图中的多个像素的通道的像素值的一个实施例的流程示意图；

图4为本公开的像素矩阵以及像素子矩阵的一个实施例的示意图；

图5为本公开的第一神经网络的训练过程的一个实施例的流程图；

图6为本公开的第一神经网络的训练过程的一个实施例的示意图；

图7为本公开的生成二维特征谱图样本的一个实施例的流程图；

图8为本公开的目标对象状态识别装置一个实施例的结构示意图；

图9是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或者两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅是一种描述关联对象的关联关系，表示可以存在三种关系，如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中，任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

本公开概述

在实现本公开的过程中，发明人发现，识别视频中的一目标对象的状态，往往需要将视频中的预定时长(例如，200ms)内的各视频帧分别提供给用于识别目标对象的状态的神经网络，由该神经网络对输入的各视频帧分别进行相应的处理，从而可以根据神经网络输出的处理结果，获得该目标对象在该预定时长内的状态。通过将多个预定时长内的各视频帧分别提供给用于识别目标对象的状态的神经网络，可以获得目标对象在每一个预定时长内的状态。

由于每一视频帧的大小属于图像级别，因此，每获得目标对象的一个状态，神经网络所需处理的数据量通常较大。这不仅不利于状态识别的实时性，而且，对于设备的硬件条件而言，也是一个挑战。

示例性概述

利用本公开提供的目标对象状态识别技术的一个应用场景如图1所示。

图1中，假设需要利用表演者100对学员进行表演技能讲解。

利用摄像装置对表演者100的表演进行视频拍摄，假设摄像装置通过拍摄获得的多个视频帧分别为视频帧101-1至101-n，其中，n的大小通常与拍摄时长相关。

本公开可以根据视频帧101-1中的表演者100的骨骼关键点信息至视频帧101-n中的表演者100的骨骼关键点信息，形成多个二维特征谱图102，每一个二维特征谱图102均包含有多个视频帧(例如，200ms时间段内的视频帧)中的表演者100的骨骼关键点信息。本公开可以将获得的各二维特征谱图102分别提供给用于识别状态的神经网络，由该神经网络对输入的各二维特征谱图102分别进行相应的状态识别处理，从而可以根据神经网络针对每一个二维特征谱图102的输出获得一个状态识别结果，进而可以获得视频帧101-1至101-n中的表演者100在每一个时间段(200ms)内的状态，例如，表演者100在第一个时间段(1ms-200ms)内处于平静状态，在第二个时间段(201ms-400ms)内处于平静状态，在第三个时间段(401ms-600ms)内处于平静状态等。

由于神经网络对一个二维特征谱图102的状态识别处理，相当于现有的神经网络对视频帧101-1至视频帧101-n中的多个视频帧(例如，200ms时间段内的视频帧)的状态识别处理，因此，本公开中的神经网络输出状态识别处理结果的实时性较好，从而讲解者可以在表演者100的表演过程中，实时的根据神经网络输出的信息，对学员进行表演技能讲解。例如，表演者100在第1s至第10s始终处于平静状态，表演者100在第11s至第14s期间逐渐变得激动(如处于激动状态)，在第15s时达到亢奋状态。

示例性方法

图2为本公开的目标对象状态识别方法的一个例子的流程。如图2所示，该实施例的方法包括步骤：S200、S201以及S202。下面对各步骤分别进行说明。

S200、获取从多个视频帧中的每一视频帧中分别识别出的同一目标对象的多个关键点信息。

本公开中的目标对象通常是指：需要进行状态识别的客体。目标对象可以为人、猫、狗或者猴等动物。本公开中的目标对象的关键点信息通常是指：用于描述目标对象身体上的相应部位的信息，身体上的部位例如可以为：身体骨骼的关键点，或者，面部的关键点。

S201、根据多个视频帧中的每一视频帧中的目标对象的多个关键点信息，生成二维特征谱图。

本公开中的二维特征谱图通常为具有预定大小(即具有预定空间分辨率)的二维图像。该二维特征谱图中的每一个像素通常均具有多个通道，该二维特征谱图中的每一个像素的每一个通道均具有相应的像素值。由于该二维特征谱图用于表征多个视频帧中的同一目标对象的关键点信息，因此，本公开中的二维特征谱图与通常意义上的图像存在区别。也就是说，虽然本公开中的二维特征谱图是图像，但是却与利用摄像装置(例如，相机或者手机或者摄像机等)拍摄到的图像的外在表现形式不相同，两者的外在表现形式上的区别包括：利用摄像装置拍摄到的图像主要用于展现画面内容；而本公开中的二维特征谱图并不用于展现图像的画面内容，而是用于存储目标对象的关键点信息。

S202、经由第一神经网络对二维特征谱图进行状态识别处理，获得目标对象的状态识别结果。

本公开中的第一神经网络是指用于识别目标对象的状态的神经网络。本公开中的目标对象的状态识别结果通常可以表示出目标对象处于预先设置的状态中的其中一种，预先设置的状态可以是针对目标对象的动作、表情和/或情绪等而设置的状态。例如，预先设置的状态可以包括：平静状态、激动状态以及亢奋状态等。预先设置的状态通常是根据实际需求设置的。

本公开通过利用多个视频帧中的同一目标对象的多个关键点信息，生成二维特征谱图，使多个视频帧中的同一目标对象的多个关键点信息可以以一图像的形式表示，有利于减少提供给第一神经网络的数据量，从而有利于降低第一神经网络进行状态识别处理过程的计算量；本公开通过利用第一神经网络对一个特征谱图进行状态识别处理，可以获得该目标对象在多个视频帧中的状态，有利于提高第一神经网络识别目标对象状态的速度。由此可知，本公开提供的技术方案有利于轻量化第一神经网络，并有利于提高第一神经网络进行状态识别处理的实时性。

在一个可选示例中，本公开中的目标对象的关键点可以为：目标对象的骨骼关键点；也可以为：目标对象的面部关键点；还可以为：目标对象的骨骼关键点以及目标对象的面部关键点。也就是说，本公开S200中的目标对象的关键点信息可以包括：目标对象的骨骼关键点信息、以及目标对象的面部关键点信息中的至少一种。

可选的，本公开中的骨骼关键点通常是指骨骼与骨骼之间相互衔接的位置点或者骨骼的端点等。骨骼关键点通常用于描述目标对象的姿态或者行为等。本公开中的一个视频帧中的一个目标对象的骨骼关键点的数量通常是预先设定的，例如，14个骨骼关键点或者17个骨骼关键点或者更多数量的骨骼关键点等。以人体为例，上述14个骨骼关键点可以包括：右肩关键点、右肘关键点、右腕关键点、左肩关键点、左肘关键点、左腕关键点、右髋关键点、右膝关键点、右踝关键点、左髋关键点、左膝关键点、左踝关键点、头顶关键点以及脖子关键点。上述17个骨骼关键点可以包括：骨盆关键点、胸部关键点、右肩关键点、右肘关键点、右腕关键点、左肩关键点、左肘关键点、左腕关键点、右髋关键点、右膝关键点、右踝关键点、左髋关键点、左膝关键点、左踝关键点、头部关键点、头顶关键点以及脖子关键点。需要特别说明的是，对于其他具有关节的可移动物体而言，骨骼关键点的数量可以视可移动物体的具体情形而定，本公开对此不做限制。

可选的，在目标对象为人的情况下，本公开中的面部关键点可以称为人脸关键点。本公开中的面部关键点通常是指用于表示面部轮廓的点以及用于表示面部器官的点等。面部关键点通常用于描述目标对象的表情等。本公开中的一个视频帧中的一个目标对象的面部关键点的数量通常是预先设定的，例如，34个面部关键点或者83个面部关键点或者更多数量的面部关键点等。

本公开通过利用目标对象的骨骼关键点信息，形成二维特征谱图，可以基于目标对象的肢体动作，识别出目标对象的状态。本公开通过利用目标对象的面部关键点信息，形成二维特征谱图，可以基于目标对象的面部表情，识别出目标对象的状态。本公开通过利用目标对象的骨骼关键点信息和面部关键点信息，形成二维特征谱图，可以基于目标对象的肢体动作和面部表情，更为精准的识别出目标对象的状态。从而有利于提高状态识别的多样性。

在一个可选示例中，本公开从多个视频帧中的每一视频帧中分别识别出的同一目标对象的多个关键点信息通常包括：多个关键点的二维坐标信息以及多个关键点的置信度。也就是说，对于一个关键点而言，其关键点信息包括：该关键点的二维坐标信息和该关键点的置信度。其中的关键点的二维坐标信息通常是指该关键点在视频帧的二维坐标系中的坐标。其中的视频帧的二维坐标系通常是以视频帧中的一点(如左上角点或者左下角点)为原点而建立的二维坐标系。其中的关键点的置信度用于表示该关键点的可信程度。

可选的，如果一个视频帧中的目标对象的关键点由于被遮挡而不可见，则该关键点的二维坐标信息可以为空，当然，该关键点的二维坐标信息也可以是通过预测等方式而获得的坐标。

可选的，在目标对象的关键点信息为该目标对象的骨骼关键点信息的情况下，对于一个骨骼关键点而言，其骨骼关键点信息通常包括：该骨骼关键点在视频帧的二维坐标系中的坐标以及该骨骼关键点的置信度，一个骨骼关键点信息中的骨骼关键点的置信度用于表示该骨骼关键点的可信程度。

可选的，在目标对象的关键点信息为该目标对象的面部关键点信息的情况下，对于一个面部关键点而言，其面部关键点信息通常包括：该面部关键点在视频帧的二维坐标系中的坐标以及该面部关键点的置信度，一个面部关键点信息中的面部关键点的置信度用于表示该面部关键点的可信程度。

另外，对于一个关键点而言，其关键点信息还可以包括：该关键点的标识(ID)。在关键点信息不包括关键点的标识的情况下，一个目标对象的所有关键点信息是按照预先设置的关键点的顺序而排列的，从而本公开可以根据一个视频帧中的一个目标对象的所有关键点信息的排列顺序(例如，骨骼关键点信息的排列顺序或者面部关键点的排列顺序等)，确定出其中任一个关键点信息具体对应的关键点，例如，第一个关键点信息对应右肩关键点、第二个关键点信息对应右肘关键点、第三个关键点信息对应右腕关键点等。

在一个可选示例中，本公开可以根据多个视频帧中的每一视频帧中的同一目标对象的多个关键点信息，设置二维特征谱图中的多个像素的通道的像素值，例如，根据多个视频帧中的每一视频帧中的同一目标对象的多个关键点信息，设置二维特征谱图中的多个像素的RGB(Red Green Blue，红绿蓝)通道的像素值。

一个例子，本公开可以利用二维特征谱图中的一个像素的RGB通道来存储一个关键点信息。例如，假设一个关键点的二维坐标信息为(X，Y)，且该关键点的置信度为C，则本公开可以根据X设置二维特征谱图中的相应像素的R通道的像素值，根据Y设置该像素的G通道的像素值，根据C设置该像素的B通道的像素值。

可选的，本公开可以先对关键点的二维坐标信息以及置信度进行归一化处理，然后，再利用归一化处理后的关键点的二维坐标信息和置信度来设置二维特征谱图中的相应像素的通道的像素值。也就是说，本公开需要将关键点的二维坐标信息以及置信度分别映射到像素的通道的有效像素值区间范围内。

一个例子，假设视频帧的二维坐标系中不存在坐标负值，一关键点的二维坐标信息为(X，Y)，且该关键点的置信度为C，本公开可以利用下述公式(1)对X、Y和C进行归一化处理：

在上述公式(1)中，三个等式的左边的X、Y和C分别为归一化处理后的X、Y和C，三个等式的右边的X、Y和C分别为归一化处理前的X、Y和C；X_max表示二维坐标系中的X坐标轴上的最大值(如1024)；R_max表示R通道的最大值(如255)；Y_max表示二维坐标系中的Y坐标轴上的最大值(如760)；G_max表示G通道的最大值(如255)；C_max表示置信度的最大值(如2048)；C_max表示B通道的最大值(如255)。

本公开通过利用二维特征谱图中的像素的通道的像素值(如一个像素的RGB通道的三个像素值)，来存储一个该关键点的二维坐标信息以及该关键点的置信度，有利于提高关键点信息的可维护性，且有利于使一个二维特征谱图可以存储较多数量的关键点信息。

在一个可选示例中，本公开的S200中的获取从多个视频帧中的每一视频帧中分别识别出的同一目标对象的多个关键点信息的实现方式可以为：实时获取摄像装置中的嵌入有第二神经网络的处理器输出的该摄像装置拍摄的各视频帧中的每一视频帧中的同一目标对象的多个关键点信息。也就是说，摄像装置的处理器嵌入了第二神经网络，该第二神经网络用于提取摄像装置拍摄的各视频帧中的每一视频帧中的目标对象的关键点信息，从而摄像装置拍摄的各视频帧在经由第二神经网络的处理后，可以输出每一个视频帧中的至少一个目标对象的关键点信息，例如，输出每一个视频帧中的所有目标对象的骨骼关键点信息。一个视频帧中的一个目标对象的所有关键点信息可以称为一组关键点信息，该组关键点信息可以对应相应的目标对象标识，不同组关键点信息对应不同的目标对象标识。本公开可以利用目标对象标识从第二神经网络输出的各目标对象的关键点信息中获得属于同一目标对象的关键点信息。本公开中的嵌入了第二神经网络的处理器可以称为嵌入式人工智能芯片。

本公开通过根据摄像装置中的嵌入式人工智能芯片输出的信息，来获取多个视频帧中的每一视频帧中的同一目标对象的关键点信息，可以便捷的获得目标对象的关键点信息，从而有利于提高状态识别的实时性。

在一个可选示例中，本公开的S201中的根据多个视频帧中的每一视频帧中的目标对象的多个关键点信息，生成二维特征谱图的一个实现方式可以如图3所示。图3包括步骤：S300、S301以及S302。

S300、根据各视频帧中的同一目标对象的多个关键点信息，形成像素矩阵中的相应像素的至少一通道的像素值。

可选的，本公开中的像素矩阵可以称为像素阵列。该像素矩阵所包含的像素列的数量(即一行像素所包含的像素数量)可以为一个视频帧中的一目标对象的关键点数量。例如，在目标对象的关键点为17个骨骼关键点的情况下，像素矩阵所包含的像素列的数量为17。本公开中的像素矩阵所包含的像素行可以实时发生变化，例如，实时的添加像素行和/或减少像素行。一个例子，本公开可以根据摄像装置当前输出的视频帧中的相应目标对象的关键点信息，实时的在像素矩阵中添加一行像素。在一个例子，本公开可以实时的将利用滑动窗从像素矩阵中选取出的像素子矩阵，从像素矩阵中删除。本公开中的第一神经网络可以为深度残差网络(ResNet)。

可选的，本公开的像素矩阵中的每一个像素可以认为是一个数组，该数组所包括的元素数量与像素的通道数相关，例如，像素的通道数为RGB通道时，该数组包括3个元素，且分别是R通道的像素值、G通道的像素值以及B通道的像素值。

一个更为具体的例子，在摄像装置输出视频中的第一个视频帧中的预定目标对象的N个骨骼关键点的二维坐标信息以及置信度时，本公开可以将N个骨骼关键点中的第一个骨骼关键点的二维坐标信息以及置信度作为像素矩阵中的第一行中的第一列像素的RGB通道的像素值，并将N个骨骼关键点中的第二个骨骼关键点的二维坐标信息以及置信度作为像素矩阵中的第一行中的第二列像素的RGB通道的像素值，以此类推，将N个骨骼关键点中的最后一个骨骼关键点的二维坐标信息以及置信度作为像素矩阵中的第一行中的最后一列元素的RGB通道的像素值。在摄像装置输出视频中的第二个视频帧中的预定目标对象的N个骨骼关键点的二维坐标信息以及骨骼关键点的置信度时，本公开可以依据上述方式设置像素矩阵中的第二行像素中的每一个像素的RGB通道的像素值。以此类推，在摄像装置每输出视频中的一个视频帧中的预定目标对象的N个骨骼关键点的二维坐标信息以及置信度时，本公开均对应设置像素矩阵中的一行像素中的每一个像素的RGB通道的像素值。

S301、根据滑动窗，确定像素矩阵中的像素子矩阵。

可选的，滑动窗的宽通常与像素矩阵的列数相同，滑动窗的高通常与用于训练第一神经网络的二维特征谱图样本的空间分辨率中的高相同。当然，滑动窗的宽也可以与用于训练第一神经网络的二维特征谱图样本的空间分辨率中的宽相同。

可选的，本公开在利用滑动窗从像素矩阵中选取像素子矩阵时，相邻两次选取出的像素子矩阵可以不包含像素矩阵中的相同行。例如，第i次选取出的像素子矩阵为像素矩阵中的第j行至第j+M行像素，而第i+1次选取出的像素子矩阵为像素矩阵中的第j+M+1行至第j+2M+1行像素。

可选的，相邻两次选取出的像素子矩阵也可以包含像素矩阵中的一定数量的相同行。例如，第i次选取出的像素子矩阵为像素矩阵中的第j行至第j+M行像素，第i+1次选取出的像素子矩阵为像素矩阵中的第j+M-x(x为小于M的整数)行至第j+2M-x行像素。

可选的，本公开利用滑动窗从像素矩阵中选取像素子矩阵的一个例子如图4所示。图4中，虚线框401表示滑动窗，虚线框400所包含的像素是像素矩阵400中的一个像素区域。

S302、根据像素子矩阵，生成二维特征谱图。

可选的，一个像素子矩阵用于生成一个二维特征谱图。二维特征谱图中的一个像素对应像素子矩阵中的一个像素。

本公开通过利用像素矩阵以及滑动窗，可以及时的将摄像装置实时输出的关键点信息转换为二维特征谱图，从而有利于提高第一神经网络进行状态识别处理的实时性。

在一个可选示例中，本公开中的二维特征谱图的空间分辨率(即宽和高)通常与一视频帧中的一目标对象的关键点信息的数量以及一个二维特征谱图所对应的视频帧的数量相关。例如，二维特征谱图的宽由一视频帧中的一目标对象的关键点信息的数量决定，且二维特征谱图的高由一个二维特征谱图所对应的视频帧的数量决定。一个更为具体的例子，在本公开利用二维特征谱图中的一个像素的RGB通道来存储一个关键点信息的情况下，如果一个视频帧中的一个目标对象的所有关键点信息的数量为N，且一个二维特征谱图可以存储M个视频帧中的同一目标对象的所有关键点信息，则本公开中的二维特征谱图的空间分辨率可以为N×M。

本公开通过使二维特征谱图的空间分辨率与一视频帧中的一目标对象的关键点信息的数量以及一个二维特征谱图所对应的视频帧的数量相关，有利于提高关键点信息的可维护性。

在一个可选示例中，本公开中的第一神经网络的训练过程可以如图5所示。

S500、获取多个二维特征谱图样本。

可选的，本公开中的每一个二维特征谱图样本均具有状态标注信息，且一个二维特征谱图样本的状态标注信息通常是根据该二维特征谱图样本所对应的多个视频帧中的同一目标对象的状态设置的。本公开获取到的多个二维特征谱图样本的一个例子如图6中的600所示。本公开中的二维特征谱图样本的生成方式可以如下述针对图7的描述。

S501、将多个二维特征谱图样本分别提供给待训练的第一神经网络，经由待训练的第一神经网络对输入的多个二维特征谱图分别进行状态识别处理，获得各二维特征谱图样本各自对应的同一目标对象的状态识别结果。

可选的，本公开中的待训练的第一神经网络(如图6中的601)可以是指预训练后的第一神经网络，例如，预训练后的深度残差网络(ResNet)等。本公开不限制深度残差网络的具体网络结构。

可选的，本公开可以先利用图像样本(例如，现有的训练数据集中的图像样本等)对第一神经网络进行预训练，形成预训练后的第一神经网络，预训练后的第一神经网络应具有较好的识别准确性以及泛化识别能力；然后，本公开再利用二维特征谱图样本对预训练后的第一神经网络进行微调训练(fine-tuning)，获得成功训练后的第一神经网络(如图6中的602)。本公开通过利用图像样本对第一神经网络进行预训练，并利用二维特征谱图样本对预训练后的第一神经网络进行训练，有利于减小利用二维特征谱图样本对第一神经网络进行训练的训练量。

本公开中的泛化识别能力可以是指将属于同一大类目标对象中的不同小类的目标对象均识别为该大类目标对象。例如，预训练后的第一神经网络将柳树叶和杨树叶等均识别为叶子。再例如，预训练后的第一神经网络将枫树和杨树等均识别为树。

可选的，本公开中的状态识别结果通常为预先设置的多种状态中的其中一种。预先设置的多种状态可以根据实际需求确定。例如，预先设置的状态可以包括：平静状态、激动状态以及亢奋状态等。

S502、根据多个二维特征谱图样本的状态标注信息分别与相应的状态识别结果的差异，训练待训练的第一神经网络的网络参数。

可选的，本公开可以根据状态标注信息与状态识别结果，利用相应的损失函数，计算损失，并通过将损失进行反向传播，来训练待训练的第一神经网络的网络参数。本公开中的训练待训练的第一神经网络的网络参数可以称为对待训练的第一神经网络的网络参数进行微调。其中的网络参数可以包括但不限于：卷积核参数和/或矩阵权重等。

可选的，在针对待训练的第一神经网络的训练达到预定迭代条件时，本次训练过程结束。本公开中的预定迭代条件可以包括：待训练的第一神经网络针对二维特征谱图样本输出的状态识别结果与二维特征谱图样本的状态标注信息之间的差异，满足预定差异要求。在差异满足预定差异要求的情况下，本次对第一神经网络成功训练完成。本公开中的预定迭代条件也可以包括：对待训练的第一神经网络进行训练，所使用的二维特征谱图样本的数量达到预定数量要求等。在使用的二维特征谱图样本的数量达到预定数量要求，然而，差异并未满足预定差异要求的情况下，本次对第一神经网络并未训练成功。成功训练完成的第一神经网络可以用于目标对象的状态识别处理。

本公开通过利用二维特征谱图样本对第一神经网络进行训练，使第一神经网络能够针对二维特征谱图进行状态识别，不仅可以使训练成功的第一神经网络成为轻量化的神经网络，还可以使训练成功的第一神经网络具有实时性。

在一个可选示例中，本公开中的二维特征谱图样本的生成过程如图7所示。

S700、获取摄像装置中的嵌入式人工智能处理器输出的该摄像装置拍摄的各视频帧中的每一个视频中的同一目标对象的多个关键点信息。

可选的，本公开中的目标对象的关键点可以为：目标对象的骨骼关键点；也可以为：目标对象的面部关键点；还可以为：目标对象的骨骼关键点以及目标对象的面部关键点。即本公开S700中目标对象的关键点信息可以包括：目标对象的骨骼关键点信息、以及目标对象的面部关键点信息中的至少一种。本公开中的一个关键点信息可以包括：该关键点的二维坐标信息和该关键点的置信度。

可选的，本公开中的从一个视频帧中获得的一个目标对象的关键点信息的数量通常用于决定二维特征谱图样本的空间分辨率的宽。例如，二维特征谱图样本的空间分辨率为N×M，则从一个视频帧中获得的一个目标对象的关键点信息的数量为N。

可选的，在目标对象的关键点信息为该目标对象的骨骼关键点信息的情况下，本公开中的一个骨骼关键点信息通常包括：该骨骼关键点在视频帧的二维坐标系中的坐标以及该骨骼关键点的置信度，一个骨骼关键点信息中的骨骼关键点的置信度用于表示该骨骼关键点的可信程度。

可选的，在目标对象的关键点信息为该目标对象的面部关键点信息的情况下，本公开中的一个面部关键点信息通常包括：该面部关键点在视频帧的二维坐标系中的坐标以及该面部关键点的置信度，一个面部关键点信息中的面部关键点的置信度用于表示该面部关键点的可信程度。

S701、根据预定数量的视频帧中的同一目标对象的多个关键点信息，生成二维特征谱图样本。

可选的，本公开中的预定数量通常用于决定二维特征谱图样本的空间分辨率的高。例如，二维特征谱图样本的空间分辨率为N×M，则上述预定数量为M。

可选的，本公开可以根据预定数量的视频帧中的同一目标对象的多个关键点信息，设置二维特征谱图样本中的多个像素的通道的像素值，以便于形成二维特征谱图样本。

可选的，本公开可以根据一个视频帧中的一目标对象的所有关键点信息，设置图像中的一行像素的RGB通道的像素值。例如，假设一个关键点的二维坐标信息为(X，Y)，且该关键点的置信度为C，则本公开可以根据X设置二维特征谱图样本中的相应像素的R通道的像素值，根据Y设置二维特征谱图样本中的该像素的G通道的像素值，根据C设置二维特征谱图样本中的该像素的B通道的像素值。

可选的，本公开可以先对关键点的二维坐标信息以及置信度进行归一化处理，然后，再利用归一化处理后的关键点的二维坐标信息和置信度来设置二维特征谱图样本中的相应像素的通道的像素值。也就是说，本公开需要将关键点的二维坐标信息和置信度分别映射到像素的通道的有效像素值区间范围内。具体如上述针对公式(1)的描述，在此不再详细说明。

可选的，本公开在设置了二维特征谱图样本中的所有像素的相应通道的像素值之后，可以根据该二维特征谱图样本所对应的多个视频帧中的相应目标对象的状态，为二维特征谱图样本设置状态标注信息，从而形成最终的二维特征谱图样本。

本公开通过利用设置有嵌入式人工智能处理器的摄像装置，来获得视频帧中的目标对象的关键点信息，并利用关键点信息生成二维特征谱图样本(如设置二维特征谱图样本中的像素的通道的像素值)，为形成二维特征谱图样本提供了一种便捷的实现方式。

示例性装置

图8为本公开的目标对象状态识别装置一个实施例的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。如图8所示，该实施例中的目标对象状态识别装置包括：获取关键点模块800、生成特征谱图模块801以及状态识别模块802。可选的，该装置还可以包括：训练模块803以及生成特征谱图样本模块804。

获取关键点模块800用于获取从多个视频帧中的每一视频帧中分别识别出的同一目标对象的多个关键点信息。

可选的，本公开中的关键点可以包括：骨骼关键点以及面部关键点中的至少一种。

可选的，获取关键点模块800可以获取从多个视频帧中的每一视频帧中分别识别出的同一目标对象的多个关键点的二维坐标信息以及多个关键点的置信度。

可选的，获取关键点模块800可以利用相应的摄像装置获得目标对象的关键点信息，例如，获取关键点模块800可以实时获取摄像装置中的嵌入有第二神经网络的处理器输出的该摄像装置拍摄的各视频帧中的每一视频帧中的同一目标对象的多个关键点信息。其中的第二神经网络用于提取摄像装置拍摄的各视频帧中的每一视频帧中的所述目标对象的关键点信息。

生成特征谱图模块801用于根据获取关键点模块800获取的多个关键点信息，生成二维特征谱图。

可选的，生成特征谱图模块801可以根据获取关键点模块800获得的关键点信息，设置二维特征谱图中的多个像素的通道的像素值，生成二维特征谱图。例如，生成特征谱图模块801可以根据获取关键点模块800获得的关键点信息中的关键点的二维坐标信息以及关键点的置信度，设置图像中的相应像素的RGB通道的像素值。

可选的，生成特征谱图模块801可以利用像素矩阵和滑动窗生成二维特征谱图。例如，生成特征谱图模块801根据各视频帧中的每一视频中的所述目标对象的多个关键点信息，形成像素矩阵中的相应像素的至少一通道的像素值；生成特征谱图模块801根据滑动窗，确定像素矩阵中的像素子矩阵，生成特征谱图模块801根据像素子矩阵，生成二维特征谱图。生成特征谱图模块801生成二维特征谱图的具体过程可以参见上述针对图3的描述，在此不再详细说明。

可选的，二维特征图谱的空间分辨率是根据一个视频帧中的所述目标对象的关键点数量以及多个视频帧的数量决定的。

状态识别模块802用于经由第一神经网络8021对生成特征谱图模块801生成的二维特征谱图进行状态识别处理，获得目标对象的状态识别结果。

训练模块803用于获取多个二维特征谱图样本，将多个二维特征谱图样本分别提供给待训练的第一神经网络8021，经由待训练的第一神经网络8021对多个二维特征谱图分别进行状态识别处理，获得各二维特征谱图样本各自对应的同一目标对象的状态识别结果；之后，训练模块803根据多个二维特征谱图样本的状态标注信息分别与相应的状态识别结果的差异，训练待训练的第一神经网络8021的网络参数。训练模块803训练第一神经网络8021的过程可以参见上述针对图5和图6的描述，在此不再详细说明。

生成特征谱图样本模块804用于获取摄像装置中的嵌入式人工智能处理器输出的该摄像装置拍摄的各视频帧中的每一个视频中的同一目标对象的多个关键点信息；并根据预定数量的视频帧中的同一目标对象的多个关键点信息，生成二维特征谱图样本。例如，生成特征谱图样本模块804根据预定数量的视频帧中的同一目标对象的多个关键点信息设置二维特征谱图样本中的多个像素的通道的像素值，并根据该二维特征谱图样本所对应的多个视频帧中的相应目标对象的状态，为二维特征谱图样本设置状态标注信息，从而形成最终的二维特征谱图样本。生成特征谱图样本模块804生成二维特征谱图样本的过程可以参见上述针对图7的描述，在此不再详细说明。

示例性电子设备

下面参考图9来描述根据本公开实施例的电子设备。图9示出了根据本公开实施例的电子设备的框图。如图9所示，电子设备91包括一个或多个处理器911和存储器912。

处理器911可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备91中的其他组件以执行期望的功能。

存储器912可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器，例如，可以包括：随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器，例如，可以包括：只读存储器(ROM)、硬盘以及闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器911可以运行所述程序指令，以实现上文所述的本公开的各个实施例的目标对象状态识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备91还可以包括：输入装置913以及输出装置914等，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外，该输入设备913还可以包括例如键盘、鼠标等等。该输出装置914可以向外部输出各种信息。该输出设备914可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备91中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备91还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的目标对象状态识别方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的目标对象状态识别方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括：具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”以及“和”指词汇“和/或””，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述，以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言，是非常显而易见的，并且在此定义的一般原理可以应用于其他方面，而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种目标对象状态识别方法，包括：

获取从多个视频帧中的每一视频帧中分别识别出的同一目标对象的多个关键点信息；

根据所述多个视频帧中的每一视频帧中的所述目标对象的多个关键点信息，生成二维特征谱图；其中，所述二维特征图谱的空间分辨率是根据一个视频帧中的所述目标对象的关键点数量以及所述多个视频帧的数量决定的；

经由第一神经网络对所述二维特征谱图进行状态识别，获得所述目标对象的状态识别结果。

2.根据权利要求1所述的方法，其中，所述获取从多个视频帧中的每一视频帧中分别识别出的同一目标对象的多个关键点信息，包括：

获取从多个视频帧中的每一视频帧中分别识别出的同一目标对象的多个关键点的二维坐标信息以及多个关键点的置信度；

所述根据所述多个视频帧中的每一视频帧中的所述目标对象的多个关键点信息，生成二维特征谱图，包括：

根据所述多个视频帧中的每一视频帧中的所述目标对象的多个关键点信息，分别设置二维特征谱图中的各像素的红绿蓝RGB通道的像素值。

3.根据权利要求1或2所述的方法，其中，所述获取从多个视频帧中的每一视频帧中分别识别出的同一目标对象的多个关键点信息，包括：

实时获取摄像装置中的嵌入有第二神经网络的处理器输出的该摄像装置拍摄的各视频帧中的每一视频帧中的同一目标对象的多个关键点信息；

所述第二神经网络用于提取摄像装置拍摄的各视频帧中的每一视频帧中的所述目标对象的关键点信息。

4.根据权利要求3所述的方法，其中，所述根据所述多个视频帧中的每一视频帧中的所述目标对象的多个关键点信息，生成二维特征谱图，包括：

根据所述各视频帧中的每一视频中的所述目标对象的多个关键点信息，形成像素矩阵中的相应像素的至少一通道的像素值；

根据滑动窗，确定所述像素矩阵中的像素子矩阵；

根据所述像素子矩阵，生成二维特征谱图。

5.根据权利要求1、2、4中任一项所述的方法，其中，所述第一神经网络的训练过程，包括：

获取多个二维特征谱图样本；

将所述多个二维特征谱图样本分别提供给待训练的第一神经网络，经由所述待训练的第一神经网络对所述多个二维特征谱图分别进行状态识别处理，获得各二维特征谱图样本各自对应的同一目标对象的状态识别结果；

根据所述多个二维特征谱图样本的状态标注信息分别与相应的状态识别结果的差异，训练所述待训练的第一神经网络的网络参数。

6.根据权利要求5所述的方法，其中，所述二维特征谱图样本的生成过程包括：

获取摄像装置中的嵌入式人工智能处理器输出的该摄像装置拍摄的各视频帧中的每一个视频中的同一目标对象的多个关键点信息；

根据预定数量的视频帧中的同一目标对象的多个关键点信息，生成二维特征谱图样本。

7.一种目标对象状态识别装置，包括：

获取关键点模块，用于获取从多个视频帧中的每一视频帧中分别识别出的同一目标对象的多个关键点信息；

生成特征谱图模块，用于根据所述获取关键点模块获取的所述多个关键点信息，生成二维特征谱图；其中，所述二维特征图谱的空间分辨率是根据一个视频帧中的所述目标对象的关键点数量以及所述多个视频帧的数量决定的；

状态识别模块，用于经由第一神经网络对所述生成特征谱图模块生成的二维特征谱图进行状态识别处理，获得所述目标对象的状态识别结果。

8.根据权利要求7所述的装置，其中，所述装置还包括：训练模块，用于：

获取多个二维特征谱图样本；

9.根据权利要求8所述的装置，其中，所述装置还包括：生成特征谱图样本模块，用于：

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-6中任一项所述的方法。

11.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-6中任一项所述的方法。