CN116884034A

CN116884034A - 对象识别方法及装置

Info

Publication number: CN116884034A
Application number: CN202310841246.0A
Authority: CN
Inventors: 杨恒; 郑影; 李志涛; 王湾湾; 王杨俊杰; 杨艳鑫
Original assignee: Zhongdian Jinxin Software Co Ltd
Current assignee: Zhongdian Jinxin Software Co Ltd
Priority date: 2023-07-10
Filing date: 2023-07-10
Publication date: 2023-10-13

Abstract

本公开提出一种对象识别方法及装置，方法包括：获取待识别图像，并对所述待识别图像中的至少一个第一目标对象进行人体关键点检测，以得到至少一个第一目标对象的人体关键点的坐标信息；根据至少一个第一目标对象的人体关键点的坐标信息，从至少一个第一目标对象中确定至少一个第二目标对象；根据至少一个第二目标对象的人体关键点中多个第一指定部位的坐标信息，从待识别图像中确定至少一个感兴趣区域ROI；对至少一个ROI中的各ROI进行行为分类，以从至少一个第二目标对象中确定属于目标行为类别的第三目标对象，由此，可从至少一个第二目标对象中自动且准确地确定属于目标行为类别的第二目标对象，无需人工监控目标对象的行为，节省了人力和物力。

Description

对象识别方法及装置

技术领域

本公开涉及图像处理技术领域，尤其涉及一种对象识别方法及装置。

背景技术

用户对象的一些行为可能对一些场景的安全生产、安全作业或安全经营等具有重要的影响，比如，在加油站内，用户对象打电话或者抽烟可能导致加油站发生严重的安全事故，因此，为了保障这些场景下的安全性，如何识别场景内的危险行为，并对执行危险行为的对象进行及时制止是非常重要的。

但是，目前主要依靠安全管控人员人工监控场景内的用户对象的行为，需要消耗巨大的人力和物力，并且，人工监控可能导致场景内行为监控的误报和漏报，准确性较差。

发明内容

本公开提供一种对象识别方法及装置，以至少在一定程度上解决相关技术中的技术问题之一。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种对象识别方法，包括：获取待识别图像，并对所述待识别图像中的至少一个第一目标对象进行人体关键点检测，以得到所述至少一个第一目标对象的人体关键点的坐标信息；根据所述至少一个第一目标对象的人体关键点的坐标信息，从所述至少一个第一目标对象中确定至少一个第二目标对象；根据所述至少一个第二目标对象的人体关键点中多个第一指定部位的坐标信息，从所述待识别图像中确定至少一个感兴趣区域(region of interest，简称ROI)；对所述至少一个ROI中的各ROI进行行为分类，以从所述至少一个第二目标对象中确定属于目标行为类别的第三目标对象。

根据本公开实施例的第二方面，提供一种对象识别装置，包括：检测模块，用于获取待识别图像，并对所述待识别图像中的至少一个第一目标对象进行人体关键点检测，以得到所述至少一个第一目标对象的人体关键点的坐标信息；第一确定模块，用于根据所述至少一个第一目标对象的人体关键点的坐标信息，从所述至少一个第一目标对象中确定至少一个第二目标对象；第二确定模块，用于根据所述至少一个第二目标对象的人体关键点中多个第一指定部位的坐标信息，从所述待识别图像中确定至少一个ROI；分类模块，用于对所述至少一个ROI中的各ROI进行行为分类，以从所述至少一个第二目标对象中确定属于目标行为类别的第三目标对象。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如本公开第一方面实施例所述的对象识别方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本公开第一方面实施例所述的对象识别方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括：计算机程序，所述计算机程序被处理器执行时实现如本公开第一方面实施例所述的对象识别方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

1、基于待识别图像中各个第一目标对象的人体关键点的坐标信息，从至少一个第一目标对象中确定至少一个第二目标对象，进而，根据至少一个目标对象的人体关键点中的多个第一指标部位的坐标信息，确定至少一个ROI，对至少一个ROI中的各ROI进行行为分类，可从至少一个第二目标对象中自动且准确地确定属于目标行为类别的第二目标对象，无需人工监控目标对象的行为，节省了人力和物力；

2、根据第一目标对象的人体关键点中多个第一指定部位的坐标信息，确定第一目标对象的第一夹角，并从至少一个第一目标对象中，确定第二夹角小于或等于第二夹角阈值的至少一个第三目标对象，并从至少一个第三目标对象中，确定至少一个第二目标对象，减少了对象识别的计算量，提高了对象识别的准确性；

3、对待识别图像进行目标检测，得到至少一个检测框的位置信息，并从至少一个检测框中，确定包含第三目标对象的第二检测框；根据第二检测框的位置信息，对待识别图像中的第三目标对象进行标注，使得相关人员可以及时地获知具有目标行为类别的第三目标对象，以对第三目标对象进行行为制止，提高了场景内的安全性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是本公开第一实施例所示出的对象识别方法的流程示意图；

图2是本公开第二实施例所示出的对象识别方法的流程示意图；

图3是本公开第三实施例所示出的对象识别方法的流程示意图；

图4是本公开第四实施例所示出的对象识别方法的流程示意图；

图5是本公开第五实施例所示出的对象识别方法的流程示意图；

图6是本公开实施例所示出的对象识别方法的流程示意图；

图7是本公开实施例所示出的人体关键点的示意图；

图8为本公开实施例所示出的ROI区域的示意图；

图9是本公开实施例所示出的属于待识别图像中属于目标行为类别的第三目标对象的检测框的示意图；

图10是本公开第六实施例所示出的对象识别装置的结构示意图；

图11是本公开一示例性实施例所示出的电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均在征得用户同意的前提下进行，并且均符合相关法律法规的规定，且不违背公序良俗。

在一些场景下，用户在执行危险行为时，用户对象手中可能持有一些与危险行为关联的物体，比如，用户对象打电话，手中持有移动设备，相关技术中，采用SSD(SingleShot MultiBox Detector，单目多框目标检测)、YOLO(You Only Look Once，你只看一眼)等对进行物体检测，在检测到相关物体时，可确定用户对象在执行危险行为，并对执行危险行为的对象进行行为制止。

但是，执行危险行为的用户对象持有的物体可能较小，或者，物体被遮挡，仅根据对物体的检测，则无法准确识别出执行危险行为的用户对象。

因此，针对上述问题，本公开提出一种对象识别方法及装置。

下面参考附图描述本公开实施例的对象识别方法及装置。

图1是本公开第一实施例所示出的对象识别方法的流程示意图。需要说明的是，本公开实施的对象识别方法可应用于对象识别装置，该对象识别装置可被配置于电子设备中。其中，该电子设备可以是移动终端，例如，手机、平板电脑、个人数字助理等具有各种操作系统的硬件设备。

如图1所示，该对象识别方法可包括如下步骤：

步骤101，获取待识别图像，并对待识别图像中的至少一个第一目标对象进行人体关键点检测，以得到至少一个第一目标对象的人体关键点的坐标信息。

在本公开实施例中，待识别图像可为对一些场景监控得到的图像，或者，待识别图像也可为安全监控人员上传的图像，或者，待识别图像也可为预先存储的场景图像，本公开不做具体限定。

作为一种示例，可对待识别图像进行目标检测，以得到待识别图像中的至少一个第一目标对象，并对至少一个第一目标对象进行人体关键点检测，可得到至少一个第一目标对象的人体关键点的坐标信息。

其中，需要说明的是，可采用目标检测算法对待识别图像进行目标检测，比如，目标检测算法可包括：YOLO、SSD等目标检测模型，可采用关键点检测算法对至少一个第一目标对象进行人体关键点检测，如，自下而上的人体关键点检测算法。

此外，还需要说明的是，在本公开实施例中，还可采用经过训练的检测模型同时检测待识别图像中的至少一个目标对象以及至少一个目标对象的关键点，以得到至少一个目标对象的检测框的位置信息和至少一个目标对象的人体关键点的坐标信息。

步骤102，根据至少一个第一目标对象的人体关键点的坐标信息，从至少一个第一目标对象中确定至少一个第二目标对象。

为了提高对象识别的准确性和减少对象识别的计算量，作为一种示例，可基于至少一个第一目标对象的人体关键点的坐标信息，确定疑似具有目标行为的第二目标对象。

步骤103，根据至少一个第二目标对象的人体关键点中多个第一指定部位的坐标信息，从待识别图像中确定至少一个感兴趣区域。

为了进一步提高对象识别的准确性，可根据第二目标对象的人体关键点中多个第一指定部位的坐标信息，从待识别图像中确定用于行为分类的ROI。

步骤104，对至少一个ROI中的各ROI进行行为分类，以从至少一个第二目标对象中确定属于目标行为类别的第三目标对象。

进而，对至少一个ROI中的各ROI进行行为分类，可得到各ROI所对应的第二目标对象的行为类别，根据各ROI所对应的第二目标对象的行为类别，可从至少一个第二目标对象中确定属于目标行为类别的第三目标对象。

综上，通过获取待识别图像，并对待识别图像中的至少一个第一目标对象进行人体关键点检测，以得到至少一个第一目标对象的人体关键点的坐标信息；根据至少一个第一目标对象的人体关键点的坐标信息，从至少一个第一目标对象中确定至少一个第二目标对象；根据至少一个第二目标对象的人体关键点中多个第一指定部位的坐标信息，从待识别图像中确定至少一个感兴趣区域；对至少一个ROI中的各ROI进行行为分类，以从至少一个第二目标对象中确定属于目标行为类别的第三目标对象，由此，基于待识别图像中各个第一目标对象的人体关键点的坐标信息，从至少一个第一目标对象中确定至少一个第二目标对象，进而，根据至少一个目标对象的人体关键点中的多个第一指标部位的坐标信息，确定至少一个ROI，对至少一个ROI中的各ROI进行行为分类，可从至少一个第二目标对象中自动且准确地确定属于目标行为类别的第二目标对象，无需人工监控目标对象的行为，节省了人力和物力。

为了清楚地说明上述实施例是如何根据至少一个第一目标对象的人体关键点的坐标信息，从至少一个第一目标对象中确定至少一个第二目标对象的，本公开提出另一种对象识别方法。

图2是本公开第二实施例所示出的对象识别方法的流程示意图。

如图2所示，该对象识别方法可包括如下步骤：

步骤201，获取待识别图像，并对待识别图像中的至少一个第一目标对象进行人体关键点检测，以得到至少一个第一目标对象的人体关键点的坐标信息。

步骤202，根据至少一个第一目标对象的人体关键点的坐标信息，确定至少一个第一目标对象的多个第一夹角。

需要了解的是，在第一目标对象执行目标行为时，第一目标对象的人体关键点中的一些指定部位需满足一定的角度，比如，目标行为为打电话，左手手腕、左手手肘和左手肩膀形成的角度需小于50度，或者，右手手腕、右手手肘和右手肩膀形成的角度需小于50度。因此，可根据至少一个第一目标对象的人体关键点的坐标信息，确定至少一个第一目标对象的多个第一夹角。

为了进一步减少对象识别的计算量，作为一种示例，针对至少一个第一目标对象中任一第一目标对象，根据任一第一目标对象的人体关键点中多个第一指定部位的坐标信息，确定任一第一目标对象的第二夹角；从至少一个第一目标对象中，确定第二夹角小于或等于第二夹角阈值(如，150度)的至少一个第三目标对象；根据任一第三目标对象的人体关键点中多个第二指定部位的坐标信息，确定任一第三目标对象的多个第一夹角。

也就是说，可根据任一第一目标对象的人体关键点中多个第一指定部位的坐标信息，确定任一第一目标对象的第二夹角，比如，多个第一指定部位为鼻、左肩和右肩，在以鼻为第二夹角的顶点，以鼻和左肩的连线，鼻和右肩的连线，作为该第二夹角的边，在第二夹角小于或等于第二夹角阈值时，可确定第一目标对象疑似执行目标行为，在本公开实施例中，可从至少一个第一目标对象中，确定第二夹角小于或等于第二夹角阈值的至少一个第三目标对象，为了进一步确定第三目标对象是否执行目标行为，可根据任一第三目标对象的人体关键点中多个第二指定部位的坐标信息，确定任一第三目标对象的多个第一夹角，比如，多个第二指定部位可为左手手腕、左手手肘和左手肩膀，以及右手手腕、右手手肘和右手肩膀，多个第一夹角的顶点可分别为左手手肘和右手手肘，以左手手肘为顶点的第一夹角的边可为左手手肘与左手手腕的连线，左手手肘与左手肩膀的连线，以右手手肘为顶点的第一夹角的边可为右手手肘与右手手腕的连线，右手手肘与右手肩膀的连线。

作为另一种示例，针对至少一个第一目标对象中任一第一目标对象，根据任一第一目标对象的人体关键点中多个第二指定部位的坐标信息，确定任一第三目标对象的多个第一夹角。

也就是说，直接根据任一第一目标对象的人体关键点中多个第二指定部位的坐标信息，确定任一第三目标对象的多个第一夹角。

步骤203，从至少一个第一目标对象中，确定存在至少一个第一夹角小于或等于第一夹角阈值的至少一个第二目标对象。

作为一种示例，在第一夹角是根据第一目标对象的人体关键点中多个第二指定部位的坐标信息确定的情况下，可将各第一目标对象的第一夹角分别与第一夹角阈值进行比对，以从至少一个第一目标对象中确定疑似执行目标行为的第二目标对象。

也就是说，在未根据第二夹角(如，以鼻为顶点的夹角)，从至少一个第一目标对象中筛选出疑似执行目标行为的第三目标对象的情况下，直接从至少一个第一目标对象中确定存在至少一个第一夹角(如，以左手手肘为顶点，左手手肘与左手手腕的连线和左手手肘与左手肩膀的连线为边的夹角，和以右手手肘为顶点，右手手肘与右手手腕的连线和右手手肘与右手肩膀的连线为边的夹角)小于或等于第一夹角阈值(如，50度)的至少一个第二目标对象。

作为另一种示例，在第一夹角是根据第三目标对象的人体关键点中多个第二指定部位的坐标信息确定的情况下，可将各第三目标对象的第一夹角分别与第一夹角阈值进行比对，从至少一个第三目标对象中，确定存在至少一个第一夹角小于或等于第一夹角阈值的至少一个第二目标对象。

也就是说，在根据第二夹角(如，以鼻为顶点的夹角)，从至少一个第一目标对象中筛选出疑似执行目标行为的第三目标对象的情况下，从至少一个第三目标对象中，确定存在至少一个第一夹角小于或等于第一夹角阈值的至少一个第二目标对象。

步骤204，根据至少一个第二目标对象的人体关键点中多个第一指定部位的坐标信息，从待识别图像中确定至少一个ROI。

步骤205，对至少一个ROI中的各ROI进行行为分类，以从至少一个第二目标对象中确定属于目标行为类别的第三目标对象。

需要说明的是，步骤201、步骤204至205的执行过程可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。

综上，通过根据至少一个第一目标对象的人体关键点的坐标信息，确定至少一个第一目标对象的多个第一夹角；从至少一个第一目标对象中，确定存在至少一个第一夹角小于或等于第一夹角阈值的至少一个第二目标对象，由此，减少了对象识别的计算量，同时提高了对象识别的准确性。

为了清楚地说明上述实施例中是如何根据至少一个第二目标对象的人体关键点中多个第一指定部位的坐标信息，从待识别图像中确定至少一个ROI的，本公开提出另一种对象识别方法。

图3是本公开第三实施例所示出的对象识别方法的流程示意图。

如图3所示，该对象识别方法可包括如下步骤：

步骤301，获取待识别图像，并对待识别图像中的至少一个第一目标对象进行人体关键点检测，以得到至少一个第一目标对象的人体关键点的坐标信息。

步骤302，根据至少一个第一目标对象的人体关键点的坐标信息，从至少一个第一目标对象中确定至少一个第二目标对象。

步骤303，根据至少一个第二目标对象的人体关键点中多个第一指定部位的坐标信息，确定至少一个待确定的ROI的中心点的坐标信息和尺寸信息。

在本公开实施例中，各第二目标对象的多个第一指定部位可包括：鼻，左肩和右肩。

作为一种示例，各第二目标对象对应的ROI的中心点的坐标信息可为鼻的坐标信息，进而，根据鼻的坐标信息、左肩的坐标信息和右肩的坐标信息，可计算各第二目标对象的鼻至左肩的距离，以及鼻至右肩的距离，从各第二目标对象的鼻至左肩的距离，以及鼻至右肩的距离中，确定各第二目标对象对应的距离最大值，如，第二目标对象的鼻至左肩的距离大于鼻至右肩的距离，则第二目标对象对应的距离最大值可为鼻至左肩的距离，进而，将各第二目标对象对应的距离最大值的2倍，作为对应的ROI的边。

作为另一种示例，各第二目标对象的多个第一指定部位可包括：鼻，左肩和右肩，各第二目标对象对应的ROI的中心点的坐标信息可为鼻的坐标信息，根据各第二目标对象的左肩的坐标信息和右肩的坐标信息，计算各第二目标对象的左肩与右肩之间的距离，并将该距离作为对应第二目标对象的ROI的边。

步骤304，根据至少一个待确定的ROI的中心点的坐标信息和尺寸信息，从待识别图像中确定至少一个ROI。

进一步地，根据至少一个待确定的ROI的中心点的坐标信息和尺寸信息，可从待识别图像中获取至少一个ROI。

步骤305，对至少一个ROI中的各ROI进行行为分类，以从至少一个第二目标对象中确定属于目标行为类别的第三目标对象。

需要说明的是，步骤301至302、步骤305的执行过程可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。

综上，通过根据至少一个第二目标对象的人体关键点中多个第一指定部位的坐标信息，确定至少一个待确定的ROI的中心点的坐标信息和尺寸信息；根据至少一个待确定的ROI的中心点的坐标信息和尺寸信息，从待识别图像中确定至少一个ROI，由此，可准确地确定待识别图像中的至少一个ROI，从而，对至少一个ROI中的各ROI进行行为分类，可提高确定对象行为类别的准确性，从而，可准确地从至少一个第二目标对象中确定属于目标行为类别的第三目标对象，提高了对象识别的准确性。

为了清楚地说明上述实施例中是如何对待识别图像中的至少一个第一目标对象进行人体关键点检测，以得到至少一个第一目标对象的人体关键点的坐标信息的，本公开提出另一种对象识别方法。

图4是本公开第四实施例所示出的对象识别方法的流程示意图。

如图4所示，该对象识别方法可包括如下步骤：

步骤401，对待识别图像进行目标的回归预测，以得到至少一个检测框的位置信息。

作为一种示例，可采用回归预测算法对待识别图像进行目标的回归预测，以得到至少一个检测框的位置信息。比如，可采用目标检测模型中的回归预测分支对待识别图像进行目标的回归预测，以得到至少一个检测框的位置信息。

步骤402，对待识别图像进行目标的类别预测，以得到至少一个检测框内目标所属的类别。

作为一种示例，可采用类别预测算法对待识别图像进行目标的类别预测，以得到至少一个检测框内目标所属的类别，比如，可采用目标检测模型中的类别预测分支对待识别图像进行目标的类别预测，以得到至少一个检测框内目标所属的类别。

步骤403，根据至少一个检测框的类别，从至少一个检测框中，确定至少一个第一检测框。

其中，第一检测框中包括第一目标对象。

进一步地，从至少一个检测框中，确定包含第一目标对象(如，人)的第一检测框。

步骤404，对至少一个第一检测框内的第一目标对象进行人体关键点检测，以得到至少一个第一目标对象的人体关键点的坐标信息。

进一步地，对至少一个第一目标对象进行人体关键点检测，可得到至少一个第一目标对象的人体关键点的坐标信息。

在本公开实施例中，还可采用经过训练的检测模型同时检测待识别图像中的至少一个目标对象对应的检测框的位置信息以及至少一个目标对象的人体关键点的坐标信息。

比如，可获取训练数据和初始的检测模型，其中，训练数据包括样本图像以及样本图像中人体关键点的标注类别、标注位置信息和标注置信度，和检测框的标注类别、标注位置信息和标注置信度，将样本图像输入至初始的检测模型中，以得到初始的检测模型输出的检测框的预测类别、预测位置信息和预测置信度，以及人体关键点的预测类别、预测位置信息和预测置信度，根据检测框的标注类别和预测类别之间的差异，生成第一分类子损失值，根据检测框的标注位置信息和预测位置信息之间的差异，生成第一回归子损失值，根据检测框的标注置信度和预测置信度之间的差异，生成第一置信度子损失值，根据人体关键点的标注类别和预测类别之间的差异，生成第二分类子损失值，根据人体关键点的标注位置信息和预测位置信息之间的差异，生成第二回归子损失值，根据人体关键点的标注置信度和预测置信度之间的差异，生成第二置信度子损失值，进而，根据第一分类子损失、第二分类子损失、第一回归子损失、第二回归子损失、第一置信度子损失和第二置信度子损失，生成交叉熵损失值，根据交叉熵损失值对初始的检测模型进行训练，以使交叉熵损失值最小化。

需要说明的是，上述仅以检测模型训练的终止条件为损失函数的取值最小化进行示例，实际应用时，也可以设置其它的终止条件，比如终止条件还可以为训练次数达到设定的次数阈值、训练时长大于设定的时长阈值等等，本公开对此并不做限制。

步骤405，根据至少一个第一目标对象的人体关键点的坐标信息，从至少一个第一目标对象中确定至少一个第二目标对象。

步骤406，根据至少一个第二目标对象的人体关键点中多个第一指定部位的坐标信息，从待识别图像中确定至少一个ROI。

步骤407，对至少一个ROI中的各ROI进行行为分类，以从至少一个第二目标对象中确定属于目标行为类别的第三目标对象。

为了使得相关人员可以及时地获知具有目标行为类别的第三目标对象，以对第三目标对象进行行为制止，提高场景内的安全性，可从至少一个检测框中，确定包含第三目标对象的第二检测框；根据第二检测框的位置信息，对待识别图像中的第三目标对象进行标注。

需要说明的是，步骤405至407的执行过程可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。

综上，通过对待识别图像进行目标的回归预测，以得到至少一个检测框的位置信息；对待识别图像进行目标的类别预测，以得到至少一个检测框内目标所属的类别；根据至少一个检测框的类别，从至少一个检测框中，确定至少一个目标检测框，其中，目标检测框中包括第一目标对象；对至少一个目标检测框内的第一目标对象进行人体关键点检测，以得到至少一个第一目标对象的人体关键点的坐标信息，由此，可准确地确定待识别图像中至少一个第一目标对象的人体关键点的坐标信息。

为了清楚地说明上述实施例中是如何对所述至少一个感兴趣ROI区域中各ROI区域进行行为分类，以从所述至少一个第二目标对象中确定属于目标行为类别的第三目标对象的，本公开提出另一种对象识别方法。

图5是本公开第五实施例所示出的对象识别方法的流程示意图。

如图5所示，该对象识别方法可包括如下步骤：

步骤501，获取待识别图像，并对待识别图像中的至少一个第一目标对象进行人体关键点检测，以得到至少一个第一目标对象的人体关键点的坐标信息。

步骤502，根据至少一个第一目标对象的人体关键点的坐标信息，从至少一个第一目标对象中确定至少一个第二目标对象。

步骤503，根据至少一个第二目标对象的人体关键点中多个第一指定部位的坐标信息，从待识别图像中确定至少一个感兴趣区域ROI。

步骤504，对至少一个ROI进行行为分类，以得到各ROI的分类概率。

在本公开实施例中，可采用行为分类算法对至少一个ROI进行行为分类，以得到各ROI的分类概率。

比如，可采用经过训练的行为分类模型对至少一个ROI进行行为分类，以得到各ROI的分类概率。如，将至少一个ROI区域输入至经过训练的行为分类模型中，以得到行为分类模型输出的各ROI的分类概率。

其中，经过训练的行为分类模型采用以下步骤训练得到：获取训练数据和初始的行为分类模型，其中，训练数据包括样本ROI区域和样本ROI区域的标注行为类别；将样本ROI区域输入至初始的行为分类模型中，以得到初始的行为分类模型输出的预测分类概率；根据预测分类概率，确定样本ROI区域的预测行为类别；根据标注行为类别和预测行为类别之间的差异，生成目标损失值；采用目标损失值，对初始的行为分类模型进行训练，以得到经过训练的行为分类模型，以使目标损失值最小化。

需要说明的是，上述仅以模型训练的终止条件为目标损失值最小化进行示例，实际应用时，也可以设置其它的终止条件，比如终止条件还可以为训练次数达到设定次数，或者，终止条件还可以为训练时长达到设定时长，等等，本公开对此并不做限制。

步骤505，根据各ROI的分类概率，确定各ROI所对应的第二目标对象的行为类别。

比如，在ROI的分类概率大于0.5，确定ROI所对应的第二目标对象的行为类别为目标行为类别(如，打电话)，在ROI的分类概率小于或等于0.5，确定ROI所对应的第二目标对象的行为类别为非目标行为类别。

步骤506，根据各ROI所对应的第二目标对象的行为类别，从至少一个第二目标对象中确定属于目标行为类别的第三目标对象。

进一步地，根据各ROI所对应的第二目标对象的行为类别，可从至少一个第二目标对象中确定出属于目标行为类别的第三目标对象。

需要说明的是，步骤501至503的执行过程可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。

综上，通过对至少一个ROI进行行为分类，以得到各ROI的分类概率；根据各ROI的分类概率，确定各ROI所对应的第二目标对象的行为类别；根据各ROI所对应的第二目标对象的行为类别，从至少一个第二目标对象中确定属于目标行为类别的第三目标对象，由此，可准确地确定各第二目标对象的行为类别，并从至少一个第二目标对象中确定属于目标行为类别的第三目标对象，无需人工监控目标对象的行为，节省了人力和物力。

在本公开任一实施例的基础上，以目标行为类别为打电话，如图6所示，还可基于如下步骤实现本公开实施例的对象识别方法：

1、将待识别图像输入人体关键点检测网络(如，YOLOV7)中，得到待识别图像中每一个人体的矩形框坐标、每个人体的关键点坐标和置信度信息，每个人体包含17个关键点，分别是：左耳、左眼、鼻、右眼、右耳、左肩、左肘、左腕、右肩、右肘、右腕、左胯、右胯、左膝、右膝、左踝、右踝，如图7所示；

2、将待识别图像中所有人体的关键点坐标信息，进行逐个处理判定是否符合打电话；具体地，包括以下子步骤：

(1)考虑到人体构造，鼻、左肩、右肩构成的夹角，通常来说不会出现大于150度的情况，因此采用检测到的每一个人体的关键点中的鼻、左肩、右肩的坐标信息，计算以鼻为顶点，鼻和左肩的连线，以及鼻和右肩的连线作为边的夹角(第二夹角)，针对每个目标对象，当夹角大于150度直接判定为未打电话；

(2)考虑到人体打电话行为的构成一定是将手举起到头、耳附近，因此，采用检测到的每一个人体的关键点中的左腕、左肘、左肩的坐标信息，计算以左肘为顶点，左肘和左腕的连线，以及左肘和左肩的连线为边的夹角(第一夹角)，同理，采用检测到的每一个人体的关键点中的右腕、右肘、右肩的坐标信息，计算以右肘为顶点，右肘和右腕的连线，以及右肘和右肩的连线为边的夹角(第一夹角)，在两个夹角均大于50度直接判定为未打电话，在存在至少一个夹角小于或等于50度，可判定为打电话。

3、在得到满足步骤2的目标对象(第二目标对象)后，通过分别计算鼻和左肩的距离，以及鼻和右肩的距离，从鼻和左肩的距离以及鼻和右肩的距离中获取距离最大值，并将距离最大值的两倍作为边，鼻作为中心，从待识别图像中确定待识别打电话状态的ROI区域，如图8所示。

4、将待识别打电话状态的ROI输入到一个输入打电话分类网络(行为分类模型)中，得到ROI的打电话置信度，置信度满足设定阈值后，确定打电话的目标对象，进而，可输出最终检测到的该打电话的目标对象的人体的检测框的位置信息和置信度信息，并对打电话的目标对象在待识别图像中进行标注，如图9所示。

与上述图1至图5实施例提供的对象识别方法相对应，本公开还提供一种对象识别装置，由于本公开实施例提供的对象识别装置与上述图1至图5实施例提供的对象识别方法相对应，因此在对象识别方法的实施方式也适用于本公开实施例提供的对象识别装置，在本公开实施例中不再详细描述。

图10是本公开第六实施例所示出的对象识别装置的结构示意图。

如图10所示，该对象识别装置1000包括：检测模块1010、第一确定模块1020、第二确定模块1030和分类模块1040。

其中，检测模块1010，用于获取待识别图像，并对待识别图像中的至少一个第一目标对象进行人体关键点检测，以得到至少一个第一目标对象的人体关键点的坐标信息；第一确定模块1020，用于根据至少一个第一目标对象的人体关键点的坐标信息，从至少一个第一目标对象中确定至少一个第二目标对象；第二确定模块1030，用于根据至少一个第二目标对象的人体关键点中多个第一指定部位的坐标信息，从待识别图像中确定至少一个ROI；分类模块1040，用于对至少一个ROI中的各ROI进行行为分类，以从至少一个第二目标对象中确定属于目标行为类别的第三目标对象。

作为本公开实施例的一种可能的实现方式，第一确定模块1020，具体用于：根据至少一个第一目标对象的人体关键点的坐标信息，确定至少一个第一目标对象的多个第一夹角；从至少一个第一目标对象中，确定存在至少一个第一夹角小于或等于第一夹角阈值的至少一个第二目标对象。

作为本公开实施例的一种可能的实现方式，第一确定模块1020，还用于：针对至少一个第一目标对象中任一第一目标对象，根据任一第一目标对象的人体关键点中多个第一指定部位的坐标信息，确定任一第一目标对象的第二夹角；从至少一个第一目标对象中，确定第二夹角小于或等于第二夹角阈值的至少一个第三目标对象；根据任一第三目标对象的人体关键点中多个第二指定部位的坐标信息，确定任一第三目标对象的多个第一夹角。

作为本公开实施例的一种可能的实现方式，第一确定模块1020，还用于：从至少一个第三目标对象中，确定存在至少一个第一夹角小于或等于第一夹角阈值的至少一个第二目标对象。

作为本公开实施例的一种可能的实现方式，第二确定模块1030，具体用于：根据至少一个第二目标对象的人体关键点中多个第一指定部位的坐标信息，确定至少一个待确定的ROI的中心点的坐标信息和尺寸信息；根据至少一个待确定的ROI的中心点的坐标信息和尺寸信息，从待识别图像中确定至少一个ROI。

作为本公开实施例的一种可能的实现方式，检测模块1010，具体用于：对待识别图像进行目标的回归预测，以得到至少一个检测框的位置信息；对待识别图像进行目标的类别预测，以得到至少一个检测框内目标所属的类别；根据至少一个检测框的类别，从至少一个检测框中，确定至少一个第一检测框，其中，目标检测框中包括第一目标对象；对至少一个第一检测框内的第一目标对象进行人体关键点检测，以得到至少一个第一目标对象的人体关键点的坐标信息。

作为本公开实施例的一种可能的实现方式，对象识别装置1000还包括：第三确定模块和标注模块。

其中，第三确定模块，用于从至少一个检测框中，确定包含第三目标对象的第二检测框；删除模块，用于根据第二检测框的位置信息，对待识别图像中的第三目标对象进行标注。

作为本公开实施例的一种可能的实现方式，分类模块1040，具体用于：对至少一个ROI进行行为分类，以得到各ROI的分类概率；根据各ROI的分类概率，确定各ROI所对应的第二目标对象的行为类别；根据各ROI所对应的第二目标对象的行为类别，从至少一个第二目标对象中确定属于目标行为类别的第三目标对象。

作为本公开实施例的一种可能的实现方式，分类模块1040，还用于：将至少一个ROI区域输入至经过训练的行为分类模型中，以得到行为分类模型输出的各ROI的分类概率。

作为本公开实施例的一种可能的实现方式，经过训练的行为分类模型采用以下模块训练得到：获取模块、输入模块、第四确定模块、生成模块和训练模块。

其中，获取模块，用于获取训练数据和初始的行为分类模型，其中，训练数据包括样本ROI区域和样本ROI区域的标注行为类别；输入模块，用于将样本ROI区域输入至初始的行为分类模型中，以得到初始的行为分类模型输出的预测分类概率；第四确定模块，用于根据所述预测分类概率，确定样本ROI区域的预测行为类别；生成模块，用于根据标注行为类别和预测行为类别之间的差异，生成目标损失值；训练模块，用于采用目标损失值，对初始的行为分类模型进行训练，以得到经过训练的行为分类模型。

本公开实施例的对象识别装置，通过获取待识别图像，并对待识别图像中的至少一个第一目标对象进行人体关键点检测，以得到至少一个第一目标对象的人体关键点的坐标信息；根据至少一个第一目标对象的人体关键点的坐标信息，从至少一个第一目标对象中确定至少一个第二目标对象；根据至少一个第二目标对象的人体关键点中多个第一指定部位的坐标信息，从待识别图像中确定至少一个感兴趣区域；对至少一个ROI中的各ROI进行行为分类，以从至少一个第二目标对象中确定属于目标行为类别的第三目标对象，由此，基于待识别图像中各个第一目标对象的人体关键点的坐标信息，从至少一个第一目标对象中确定至少一个第二目标对象，进而，根据至少一个目标对象的人体关键电子红的多个第一指标部位的坐标信息，确定至少一个ROI，对至少一个ROI中的各ROI进行行为分类，可从至少一个第二目标对象中自动且准确地确定属于目标行为类别的第二目标对象，无需人工监控目标对象的行为，节省了人力和物力。

在示例性实施例中，还提出了一种电子设备。

其中，电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行指令，以实现如前述任一实施例提出的对象识别方法。

作为一种示例，图11是本公开一示例性实施例所示出的电子设备1100的结构示意图，如图11所示，上述电子设备1100，还可以包括：

存储器1110及处理器1120，连接不同组件(包括存储器1110和处理器1120)的总线1130，存储器1110存储有计算机程序，当处理器1120执行所述程序时实现本公开实施例所述的对象识别方法。

总线1130表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备1100典型地包括多种电子设备可读介质。这些介质可以是任何能够被电子设备1100访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器1110还可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)1140和/或高速缓存存储器1150。服务器1100可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统1160可以用于读写不可移动的、非易失性磁介质(图11未显示，通常称为“硬盘驱动器”)。尽管图11中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线1130相连。存储器1110可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组(至少一个)程序模块1170的程序/实用工具1180，可以存储在例如存储器1110中，这样的程序模块1170包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块1170通常执行本公开所描述的实施例中的功能和/或方法。

电子设备1100也可以与一个或多个外部设备1190(例如键盘、指向设备、显示器1191等)通信，还可与一个或者多个使得用户能与该电子设备1100交互的设备通信，和/或与使得该电子设备1100能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1192进行。并且，电子设备1100还可以通过网络适配器1193与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1193通过总线1130与电子设备1100的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1100使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器1120通过运行存储在存储器1110中的程序，从而执行各种功能应用以及数据处理。

需要说明的是，本实施例的电子设备的实施过程和技术原理参见前述对本公开实施例的对象识别方法的解释说明，此处不再赘述。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器，上述指令可由电子设备的处理器执行以完成上述任一实施例提出的对象识别方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现上述任一实施例提出的对象识别方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种对象识别方法，其特征在于，包括：

获取待识别图像，并对所述待识别图像中的至少一个第一目标对象进行人体关键点检测，以得到所述至少一个第一目标对象的人体关键点的坐标信息；

根据所述至少一个第一目标对象的人体关键点的坐标信息，从所述至少一个第一目标对象中确定至少一个第二目标对象；

根据所述至少一个第二目标对象的人体关键点中多个第一指定部位的坐标信息，从所述待识别图像中确定至少一个感兴趣区域ROI；

对所述至少一个ROI中的各ROI进行行为分类，以从所述至少一个第二目标对象中确定属于目标行为类别的第三目标对象。

2.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个第一目标对象的人体关键点的坐标信息，从所述至少一个第一目标对象中确定至少一个第二目标对象，包括：

根据所述至少一个第一目标对象的人体关键点的坐标信息，确定所述至少一个第一目标对象的多个第一夹角；

从所述至少一个第一目标对象中，确定存在至少一个第一夹角小于或等于第一夹角阈值的至少一个第二目标对象。

3.根据权利要求2所述的方法，其特征在于，所述根据所述至少一个第一目标对象的人体关键点的坐标信息，确定所述至少一个第一目标对象的多个第一夹角，包括：

针对所述至少一个第一目标对象中任一第一目标对象，根据任一所述第一目标对象的人体关键点中多个第一指定部位的坐标信息，确定任一所述第一目标对象的第二夹角；

从所述至少一个第一目标对象中，确定第二夹角小于或等于第二夹角阈值的至少一个第三目标对象；

根据任一所述第三目标对象的人体关键点中多个第二指定部位的坐标信息，确定任一所述第三目标对象的多个第一夹角。

4.根据权利要求3所述的方法，其特征在于，所述从所述至少一个第一目标对象中，确定第一夹角小于或等于第一夹角阈值的至少一个第二目标对象，包括：

从所述至少一个第三目标对象中，确定存在至少一个第一夹角小于或等于第一夹角阈值的至少一个第二目标对象。

5.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个第二目标对象的人体关键点中多个第一指定部位的坐标信息，从所述待识别图像中确定至少一个感兴趣区域ROI，包括：

根据所述至少一个第二目标对象的人体关键点中多个第一指定部位的坐标信息，确定至少一个待确定的ROI的中心点的坐标信息和尺寸信息；

根据所述至少一个待确定的ROI的中心点的坐标信息和尺寸信息，从所述待识别图像中确定至少一个ROI。

6.根据权利要求1所述的方法，其特征在于，所述对所述待识别图像中的至少一个第一目标对象进行人体关键点检测，以得到所述至少一个第一目标对象的人体关键点的坐标信息，包括：

对所述待识别图像进行目标的回归预测，以得到至少一个检测框的位置信息；

对所述待识别图像进行目标的类别预测，以得到所述至少一个检测框内目标所属的类别；

根据所述至少一个检测框的类别，从所述至少一个检测框中，确定至少一个第一检测框，其中，所述目标检测框中包括第一目标对象；

对所述至少一个第一检测框内的第一目标对象进行人体关键点检测，以得到所述至少一个第一目标对象的人体关键点的坐标信息。

7.根据权利要求1所述的方法，其特征在于，所述对所述至少一个感兴趣ROI区域中各ROI区域进行行为分类，以从所述至少一个第二目标对象中确定属于目标行为类别的第三目标对象，包括：

对所述至少一个ROI进行行为分类，以得到各ROI的分类概率；

根据各所述ROI的分类概率，确定各所述ROI所对应的第二目标对象的行为类别；

根据各所述ROI所对应的第二目标对象的行为类别，从所述至少一个第二目标对象中确定属于目标行为类别的第三目标对象。

8.根据权利要求7所述的方法，其特征在于，所述对所述至少一个ROI进行行为分类，以得到各ROI的分类概率，包括：

将所述至少一个ROI区域输入至经过训练的行为分类模型中，以得到所述行为分类模型输出的各ROI的分类概率。

9.根据权利要求8所述的方法，其特征在于，所述经过训练的行为分类模型采用以下步骤训练得到：

获取训练数据和初始的行为分类模型，其中，所述训练数据包括样本ROI区域和所述样本ROI区域的标注行为类别；

将样本ROI区域输入至所述初始的行为分类模型中，以得到所述初始的行为分类模型输出的预测分类概率；

根据所述预测分类概率，确定所述样本ROI区域的预测行为类别；

根据所述标注行为类别和所述预测行为类别之间的差异，生成目标损失值；

采用所述目标损失值，对所述初始的行为分类模型进行训练，以得到所述经过训练的行为分类模型。

10.一种对象识别装置，其特征在于，包括：

检测模块，用于获取待识别图像，并对所述待识别图像中的至少一个第一目标对象进行人体关键点检测，以得到所述至少一个第一目标对象的人体关键点的坐标信息；

第一确定模块，用于根据所述至少一个第一目标对象的人体关键点的坐标信息，从所述至少一个第一目标对象中确定至少一个第二目标对象；

第二确定模块，用于根据所述至少一个第二目标对象的人体关键点中多个第一指定部位的坐标信息，从所述待识别图像中确定至少一个感兴趣区域ROI；

分类模块，用于对所述至少一个ROI中的各ROI进行行为分类，以从所述至少一个第二目标对象中确定属于目标行为类别的第三目标对象。