CN116363583A

CN116363583A - 一种用于顶视角的人体识别方法、装置、设备及介质

Info

Publication number: CN116363583A
Application number: CN202310255005.8A
Authority: CN
Inventors: 赵惠; 梁礼强; 张鹏飞; 苏江
Original assignee: DMAI Guangzhou Co Ltd
Current assignee: DMAI Guangzhou Co Ltd
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-06-30

Abstract

本发明公开了一种用于顶视角的人体识别方法、装置、设备及介质，包括：获取目标图像；基于预设识别模型中的框预测头以及点预测头对所述目标图像进行识别，得到所述预设识别模型中多种尺度特征图的人体检测框以及头顶点坐标；基于多种尺度特征图的人体检测框对所述多种尺度特征图中的小尺度特征图进行处理，得到目标小尺度特征图；基于所述预设识别模型中的外观表征预测头对所述目标小尺度特征图进行处理，得到目标表征向量，以用于对人体进行识别。人体检测框和头顶点坐标用于定位，可提高行人的召回率和准确率，同时输出的外观表征向量用于人框匹配，节省单独抽取外观表征向量的耗时，提高效率。

Description

一种用于顶视角的人体识别方法、装置、设备及介质

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种用于顶视角的人体识别方法、装置、设备及介质。

背景技术

随着深度学习的发展，越来越多的领域在运用目标识别技术，其中对人体的目标识别可运用在安全检查、身份核验、移动支付等领域中。多目标跟踪是指在不需要实现知道目标的外观和数量的情况下，对多个物体进行识别和跟踪。

为了提高人们日常活动场合的安全性，智能监控已广泛应用于安防领域，为人们的财产、生命安全提供保障。监控摄像头通常安装为俯视、顶视的角度，目前在对行人进行检测追踪时，往往只对身体进行识别，容易导致背景假阳例，识别模型的泛化能力较弱，精度不高。

发明内容

有鉴于此，本发明实施例提供了一种用于顶视角的人体识别方法、装置、设备及介质，以解决顶视角识别行人过程中对人体进行定位时效率不高的问题。

根据第一方面，本发明实施例提供了一种用于顶视角的人体识别方法，包括：

获取目标图像；

基于预设识别模型中的框预测头以及点预测头对所述目标图像进行识别，得到所述预设识别模型中多种尺度特征图的人体检测框以及头顶点坐标；

基于多种尺度特征图的人体检测框对所述多种尺度特征图中的小尺度特征图进行处理，得到目标小尺度特征图；

基于所述预设识别模型中的外观表征预测头对所述目标小尺度特征图进行处理，得到目标表征向量，以用于对人体进行识别。

本发明实施例提供的用于顶视角的人体识别方法，对目标图像进行识别，各框预测头和点预测头输出人体检测框以及头顶点坐标，由外观表征预测头输出外观表征向量。人体检测框和头顶点坐标用于定位，可提高行人的召回率和准确率，同时输出的外观表征向量用于人框匹配，节省单独抽取外观表征向量的耗时，提高效率。

在一些实施方式中，所述多种尺度特征图包括大尺度特征图、中尺度特征图以及小尺度特征图；所述基于多种尺度特征图的人体检测框对所述多种尺度特征图中的小尺度特征图进行处理，得到目标小尺度特征图，包括：

将所述大尺度特征图以及中尺度特征图中的人体检测框映射至所述小尺度特征图，得到目标小尺度特征图。

在一些实施方式中，所述大尺度特征图、中尺度特征图以及小尺度特征图分别包括框预测头与点预测头；所述基于预设识别模型中的框预测头以及点预测头对所述目标图像进行识别，得到所述预设识别模型中多种尺度特征图的人体检测框以及头顶点坐标，包括：

分别基于各所述框预测头与点预测头对大尺度特征图像、中尺度特征图像以及小尺度特征图像进行处理，得到多种尺度特征图的人体检测框、头顶点坐标、检测框置信度以及头顶点置信度。

在一些实施方式中，所述基于所述预设识别模型中的外观表征预测头对所述目标小尺度特征图进行处理，得到目标表征向量，包括：

裁剪所述目标小尺度特征图，得到目标区域图像；

基于预设识别模型中的外观表征预测头对所述目标区域图像进行识别，得到目标表征向量。

在一些实施方式中，所述预设识别模型按照如下方法进行训练：

获取标注图像，所述标注图像包括检测框，头顶点以及每个目标对象的标识号；

基于各框预测头与点预测头对所述标注图像进行处理，框预测头处理得到框坐标以及框置信度，点预测头处理得到头顶点坐标以及头顶点置信度；

基于各框坐标对小尺度特征图像进行处理，得到目标特征图像；

裁剪所述目标特征图像得到目标区域，并将所述目标区域输入外观表征预测头，得到外观表征向量；

基于所述框坐标、框置信度、头顶点坐标、头顶点置信度以及外观表征向量构造目标损失函数，并对所述目标损失函数进行优化，以确定所述预设识别模型。

在一些实施方式中，所述框置信度包括框类别置信度与框目标置信度，所述基于所述框坐标、框置信度、头顶点坐标、头顶点置信度以及外观表征向量构造目标损失函数，包括：

分别计算所述基于所述框坐标、框置信度、头顶点坐标、头顶点置信度以及外观表征向量的损失，得到框坐标损失、框目标置信度损失、框类别置信度损失、头顶点坐标损失、头顶点置信度损失以及外观表征向量损失；

所述目标损失函数按照如下公式确定：

其中，L_total表示目标损失函数，M表示尺度种数，

分别表示框坐标损失、框目标置信度损失、框类别置信度损失、头顶点置信度损失、头顶点坐标损失、外观表征向量损失，/>

表示每个损失相关的加权参数。

在一些实施方式中，所述预设识别模型包括大尺度特征图像、中尺度特征图像以及小尺度特征图像，所述基于各框坐标以及各头顶点坐标对小尺度特征图像进行处理，得到目标特征图像，包括：

分别将大尺度特征图像中的框坐标和中尺度特征图像中的框坐标以及头顶点坐标映射至小尺度特征图像中，得到目标特征图像。

根据第二方面，本发明实施例提供了一种用于顶视角的人体识别装置：包括：

图像获取模块，用于获取目标图像；

图像识别模块，用于基于预设识别模型中的框预测头以及点预测头对所述目标图像进行识别，得到所述预设识别模型中多种尺度特征图的人体检测框以及头顶点坐标；

特征处理模块，用于基于多种尺度特征图的人体检测框对所述多种尺度特征图中的小尺度特征图进行处理，得到目标小尺度特征图；

表征处理模块，用于基于所述预设识别模型中的外观表征预测头对所述目标小尺度特征图进行处理，得到目标表征向量，以用于对人体进行识别。

根据第三方面，本发明实施例提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面或者第一方面的任意一种实施方式中所述的用于顶视角的人体识别方法。

根据第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的用于顶视角的人体识别方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的用于顶视角的人体识别方法的流程图；

图2是根据本发明实施例的目标图像的示意图；

图3是根据本发明实施例的模型框架图；

图4是根据本发明实施例的用于顶视角的人体识别方法的效果示意图；

图5是根据本发明实施例的用于顶视角的人体识别装置的示意图；

图6是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明实施例，提供了一种用于顶视角的人体识别方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种用于顶视角的人体识别方法，图1是根据本发明实施例的用于顶视角的人体识别方法的流程图，如图1所示，该流程包括如下步骤：

S11，获取目标图像。

采集顶视场景、俯视场景的图像数据，或类似顶视、俯视场景的视频数据，得到目标图像。目标图像如图2所示。

S12，基于预设识别模型中的框预测头以及点预测头对目标图像进行识别，得到预设识别模型中多种尺度特征图的人体检测框以及头顶点坐标。

预设识别模型为一种预先训练好的目标识别模型，在Joint Detection andEmbedding(JDE)模型的基础上增加了框预测头和点预测头，框预测头用于对人体检测框进行预测，点预测头用于对图像中的行人的头顶点坐标进行预测。将目标图像输入预设识别模型，首先得到多种尺度特征图，尺度的数量在此不作限制，输出每种尺度特征图的人体检测框以及头顶点坐标。输出的人体检测框坐标是相对于预设锚框(anchor)的中心点坐标、宽和高。输出的效果图如图4所示。

S13，基于多种尺度特征图的人体检测框对多种尺度特征图中的小尺度特征图进行处理，得到目标小尺度特征图。

将各尺度特征图输出的人体检测框映射到分辨率最大尺度最小的特征图中，得到目标小尺度特征图。

S14，基于预设识别模型中的外观表征预测头对目标小尺度特征图进行处理，得到目标表征向量，以用于对人体进行识别。

预设识别模型中设有外观表征预测头，首先可对目标小尺度特征图进行裁剪，裁剪时可采用ROI Align算法，得到目标小尺度特征图中的人体检测框区域，将经过裁剪的目标小尺度特征图输入外观表征预测头，输出目标表征向量，目标表征向量是一种外观表征向量，实际使用时，比对人体框的外观表征向量相似度，即可区分是否为同一个人，用于后续对目标图像中的人体进行定位。

本发明实施例提供的用于顶视角的人体识别方法，对目标图像进行识别，各框预测头和点预测头输出人体检测框以及头顶点坐标，由外观表征预测头输出外观表征向量。人体检测框和头顶点坐标用于定位，可提高行人的召回率和准确率，同时输出的外观表征向量用于框匹配，节省单独抽取外观表征向量的耗时，提高效率。

在一些实施方式中，多种尺度特征图包括大尺度特征图、中尺度特征图以及小尺度特征图，图1中S13包括：将大尺度特征图以及中尺度特征图中的人体检测框以及头顶点坐标映射至所述小尺度特征图，得到目标小尺度特征图。

在本实施例中，以多种尺度特征图包括大尺度特征图、中尺度特征图以及小尺度特征图为例，假设小尺度特征图是网络输入的八分之一，中尺度特征图是网络输入的十六分之一，中尺度特征图上预测的坐标x2就得到小尺度特征图上对应的坐标。

在一些实施方式中，大尺度特征图、中尺度特征图以及小尺度特征图分别包括框预测头与点预测头，图1中的S12包括：

如图3所示的模型框架图，在大尺度特征图、中尺度特征图以及小尺度特征图中分别接对应的框预测头和点预测头，分别对各个尺度的特征图进行预测。框预测头中的每个网格(grid)预测三个anchor，每个anchor预测人体检测框和检测框置信度，人体检测框为四维的框坐标，包括相对于anchor的中心点坐标、宽和高，检测框置信度可以包括一维类别置信度和一维目标置信度，目标置信度表示某个预测框有目标的置信度，类别置信度表示有目标的情况下属于某个类别的置信度，最终的检测框置信度等于类别置信度与目标置信度的乘积，在本实施例中类别置信度为1，表示只有行人一种类别。点预测头中的每个grid与框预测头中grid的对应，预测对应anchor的头顶点坐标和头顶点置信度，头顶点坐标是二维的，头顶点置信度为1维。

在一些实施方式中，图1中的S14包括如下步骤：

S21，裁剪目标小尺度特征图，得到目标区域图像。

S22，基于预设识别模型中的外观表征预测头对所述目标区域图像进行识别，得到目标表征向量。

将JDE模型的embedding分支改成ROI Align分支，基于ROI Align算法目标小尺度特征图进行处理，裁剪出目标小尺度特征图中人体检测框的对应区域，即目标区域图像，将目标区域图像输入模型中的外观表征预测头，得到目标表征向量。

在一些实施方式中，图1中所述的预设识别模型按照如下方法进行训练：

S31，获取标注图像，所述标注图像包括检测框，头顶点以及每个目标对象的标识号。

采集目标场景的顶视视角或俯视视角的图像数据或视频数据，对视频数据进行抽帧采样标注，对图像数据进行标注。每张图像标注检测框、头顶点位置、每个目标对象的标识号，制作成训练数据集和测试数据集。本实施例中的目标对象为行人，检测框标注了人体检测框的左上角坐标和右下角坐标。

S32，基于各框预测头与点预测头对所述标注图像进行处理，框预测头处理得到框坐标以及框置信度，点预测头处理得到头顶点坐标以及头顶点置信度。

构建训练模型，模型包括主干网络，将标注图像输入模型后，经过主干网络，输出多种尺度特征图像，每种尺度特征图像接框预测头和点预测头，框预测头输出框坐标以及框置信度，点预测头输出头顶点坐标以及头顶点置信度。

以图3所示的模型网络结构为例，将JDE的embedding分支改成ROI Align分支，图像输入模型后，经过主干网络，输出大尺度特征图像、中尺度特征图像以及小尺度特征图像，每种尺度特征图像接框预测头和点预测头。分别对各个尺度的特征图进行预测。框预测头中的每个网格(grid)预测三个anchor，每个anchor预测四维框坐标和两维框置信度，框坐标包括相对于anchor的中心点坐标、宽和高，框置信度可以包括一维类别置信度和一维目标置信度，目标置信度表示某个预测框有目标的置信度，类别置信度表示有目标的情况下属于某个类别的置信度，最终的框置信度等于类别置信度与目标置信度的乘积，在本实施例中类别置信度为1，表示只有行人一种类别。点预测头中的每个grid与框预测头中grid的对应，预测对应anchor的头顶点坐标和头顶点置信度，头顶点坐标是二维的，头顶点置信度为1维。

S33，基于各框坐标以及各头顶点坐标对小尺度特征图像进行处理，得到目标特征图像。

在一些实施方式中，预设识别模型包括大尺度特征图像、中尺度特征图像以及小尺度特征图像，S33包括：

分别将大尺度特征图像中的框坐标和中尺度特征图像中的框坐标以及头顶点坐标映射至小尺度特征图像中，得到目标特征图像。假设小尺度特征图是网络输入的八分之一，中尺度特征图是网络输入的十六分之一，中尺度特征图上预测的坐标x2就得到小尺度特征图上对应的坐标。

S34，裁剪目标特征图像得到目标区域，并将所述目标区域输入外观表征预测头，得到外观表征向量。

可对目标特征图像进行裁剪，裁剪时可采用ROI Align算法，得到目标小尺度特征图中的目标区域，将目标区域输入外观表征预测头，输出外观表征向量。在训练时，外观表征预测头得到外观表征向量后需要送入全连接层转化成id预测问题，外观表征预测头输出的外观表征向量经过一个全连接层输出长度为总id数的向量，这个向量和对应的目标值经过CrossEntroyLoss层得到对应的id损失。CrossEntroyLoss层内部会经过softmax处理将全连接层输出长度为总id数的向量转成加和为1的向量，可以理解成这时候向量的每个值表示是该id的置信度，然后再算id损失。

S35，基于框坐标、框置信度、头顶点坐标、头顶点置信度以及外观表征向量构造目标损失函数，并对所述目标损失函数进行优化，以确定所述预设识别模型。

得到的框坐标和头顶点坐标都是相对于anchor中心点的坐标数据，在训练时给anchor分配id，避免出现一个grid对应多个anchor都有目标而无法分配id的问题，提高外观表征向量的准确度。

分别计算框坐标、框置信度、头顶点坐标、头顶点置信度以及外观表征向量的损失，并构造目标损失函数，对目标损失函数进行优化。

模型训练完成后，移除外观表征预测头后的全连接层，直接取外观表征向量即可，或者将全连接层定义在计算损失的地方，网络直接输出外观表征向量。在本实施例中，头顶点置信度的可信阈值设置为0.5，当头顶点置信度大于0.5可认为头顶点是可信的。

在一些实施方式中，框置信度包括框类别置信度与框目标置信度，S35包括：分别计算所述基于所述框坐标、框置信度、头顶点坐标、头顶点置信度以及外观表征向量的损失，得到框坐标损失、框目标置信度损失、框类别置信度损失、头顶点坐标损失、头顶点置信度损失以及外观表征向量损失；

目标损失函数按照如下公式确定：

其中，L_total表示目标损失函数，M表示尺度种数，

表示每个损失相关的加权参数。

在本实施例中，框坐标可采用CIOU损失进行监督，框类别置信度和框目标置信度采用BCE损失，头顶点置信度采用BCE损失，头顶点坐标采用OKS损失，外观表征向量采用CE损失。

本发明实施例提供的用于顶视角的人体识别方法中，构建的识别模型包括框预测头和点预测头，可检测出看不到人头但是大部分身体可见的真阳例，提高跟踪召回率，增强模型的泛化能力，提高模型精度，标注成本和难度较低，且支持不同高度。在训练时给anchor分配id，避免出现了一个grid对应多个anchor都有目标而无法分配id的问题，提高了用于行人重识别的特征向量的准确度。

在本实施例中还提供了一种用于顶视角的人体识别装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种用于顶视角的人体识别装置，如图5所示，包括：

图像获取模块，用于获取目标图像；

在一些实施方式中，所述多种尺度特征图包括大尺度特征图、中尺度特征图以及小尺度特征图；特征处理模块包括：

坐标映射单元，用于将所述大尺度特征图以及中尺度特征图中的人体检测框映射至所述小尺度特征图，得到目标小尺度特征图。

在一些实施方式中，所述大尺度特征图、中尺度特征图以及小尺度特征图分别包括框预测头与点预测头，图像识别模块包括：

预测处理单元，用于分别基于各所述框预测头与点预测头对大尺度特征图像、中尺度特征图像以及小尺度特征图像进行处理，得到多种尺度特征图的人体检测框、头顶点坐标、检测框置信度以及头顶点置信度。

在一些实施方式中，表征处理模块包括：

图像裁剪单元，用于裁剪所述目标小尺度特征图，得到目标区域图像；

图像识别单元，用于基于预设识别模型中的外观表征预测头对所述目标区域图像进行识别，得到目标表征向量。

在一些实施方式中，所述方法还包括：

标注图像获取模块，用于获取标注图像，所述标注图像包括检测框，头顶点以及每个目标对象的标识号；

标注图像处理模块，用于基于各框预测头与点预测头对所述标注图像进行处理，框预测头处理得到框坐标以及框置信度，点预测头处理得到头顶点坐标以及头顶点置信度；

目标特征图像获取模块，用于基于各框坐标对小尺度特征图像进行处理，得到目标特征图像；

区域裁剪模块，用于裁剪所述目标特征图像得到目标区域，并将所述目标区域输入外观表征预测头，得到外观表征向量；

模型确定模块，用于基于所述框坐标、框置信度、头顶点坐标、头顶点置信度以及外观表征向量构造目标损失函数，并对所述目标损失函数进行优化，以确定所述预设识别模型。

在一些实施方式中，所述框置信度包括框类别置信度与框目标置信度，模型确定模块包括：

损失计算单元，用于分别计算所述基于所述框坐标、框置信度、头顶点坐标、头顶点置信度以及外观表征向量的损失，得到框坐标损失、框目标置信度损失、框类别置信度损失、头顶点坐标损失、头顶点置信度损失以及外观表征向量损失；

所述目标损失函数按照如下公式确定：

其中，L_total表示目标损失函数，M表示尺度种数，

表示每个损失相关的加权参数。

在一些实施方式中，所述预设识别模型包括大尺度特征图像、中尺度特征图像以及小尺度特征图像，目标特征图像获取模块包括：

目标坐标映射单元，用于分别将大尺度特征图像中的框坐标和中尺度特征图像中的框坐标以及头顶点坐标映射至小尺度特征图像中，得到目标特征图像。

本实施例中的用于顶视角的人体识别装置是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本发明实施例还提供一种电子设备，具有上述图5所示的用于顶视角的人体识别装置。

请参阅图6，图6是本发明可选实施例提供的一种电子设备的结构示意图，如图6所示，该电子设备可以包括：至少一个处理器601，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口603，存储器604，至少一个通信总线602。其中，通信总线602用于实现这些组件之间的连接通信。其中，通信接口603可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口603还可以包括标准的有线接口、无线接口。存储器604可以是高速RAM存储器(Random Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器604可选的还可以是至少一个位于远离前述处理器601的存储装置。其中处理器601可以结合图5所描述的装置，存储器604中存储应用程序，且处理器601调用存储器604中存储的程序代码，以用于执行上述任一方法步骤。

其中，通信总线602可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线602可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器604可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；存储器604还可以包括上述种类的存储器的组合。

其中，处理器601可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器601还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic,缩写：GAL)或其任意组合。

可选地，存储器604还用于存储程序指令。处理器601可以调用程序指令，实现如本申请实施例中所示的用于顶视角的人体识别方法。

本发明实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于顶视角的人体识别方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种用于顶视角的人体识别方法，其特征在于，包括：

获取目标图像；

2.根据权利要求1所述的方法，其特征在于，所述多种尺度特征图包括大尺度特征图、中尺度特征图以及小尺度特征图；所述基于多种尺度特征图的人体检测框以及头顶点坐标对所述多种尺度特征图中的小尺度特征图进行处理，得到目标小尺度特征图，包括：

3.根据权利要求2所述的方法，其特征在于，所述大尺度特征图、中尺度特征图以及小尺度特征图分别包括框预测头与点预测头；所述基于预设识别模型中的框预测头以及点预测头对所述目标图像进行识别，得到所述预设识别模型中多种尺度特征图的人体检测框以及头顶点坐标，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述预设识别模型中的外观表征预测头对所述目标小尺度特征图进行处理，得到目标表征向量，包括：

裁剪所述目标小尺度特征图，得到目标区域图像；

5.根据权利要求1所述的方法，其特征在于，所述预设识别模型按照如下方法进行训练：

6.根据权利要求5所述的方法，其特征在于，所述框置信度包括框类别置信度与框目标置信度，所述基于所述框坐标、框置信度、头顶点坐标、头顶点置信度以及外观表征向量构造目标损失函数，包括：

所述目标损失函数按照如下公式确定：

其中，L_total表示目标损失函数，M表示尺度种数，

表示每个损失相关的加权参数。

7.根据权利要求5所述的方法，其特征在于，所述预设识别模型包括大尺度特征图像、中尺度特征图像以及小尺度特征图像，所述基于各框坐标对小尺度特征图像进行处理，得到目标特征图像，包括：

分别将大尺度特征图像中的框坐标和中尺度特征图像中的框坐标映射至小尺度特征图像中，得到目标特征图像。

8.一种用于顶视角的人体识别装置，其特征在于，所述装置包括：

图像获取模块，用于获取目标图像；

9.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-7中任一项所述的用于顶视角的人体识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行权利要求1-7中任一项所述的用于顶视角的人体识别方法。