CN110807361A

CN110807361A - 人体识别方法、装置、计算机设备及存储介质

Info

Publication number: CN110807361A
Application number: CN201910888555.7A
Authority: CN
Inventors: 翁昕钰; 彭瑾龙; 王亚彪; 汪铖杰; 李季檩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2020-02-18
Anticipated expiration: 2039-09-19
Also published as: CN110807361B

Abstract

本申请公开了一种人体识别方法、装置、计算机设备及存储介质，属于计算机技术领域。所述方法包括：获取多个第一图像；根据所述多个第一图像中人体的目标部位所在位置，对所述多个第一图像进行裁剪，得到多个第二图像，每个第二图像为人体的目标部位所在区域；调用目标识别模型，将所述多个第二图像输入所述目标识别模型中，输出所述多个第二图像的识别结果；基于所述多个第二图像的识别结果，获取所述多个第一图像中至少一个人的识别结果。本申请通过对第一图像进行裁剪，通过目标部位所在区域的第二图像进行人体识别，而不是通过整体的人体框，不会引入其他检测目标的干扰信息，可以准确对人进行识别，提高了识别准确率。

Description

人体识别方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种人体识别方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展，图像识别技术应用越来越广泛，其中，人体识别技术即为一种图像识别技术。人体识别的目的是通过分析包含目标人体的图片来区分不同的个体。人体识别技术在多目标跟踪、视频目标检索等领域发挥着重要的作用。

目前，人体识别方法通常是：对于多个图像，先对每个图像进行人体框检测，得到人体框，对人体框提取特征，从而对多个图像的特征进行相似度匹配，在多个图像中确定同一个人。

上述方法中通过提取人体框，进而对人体框进行识别的方式进行人体识别，当人们互相遮挡或人以非正常站立姿态出现时，以某个人作为检测目标，提取到的检测目标的人体框中可能含有大量背景以及其他人，许多人的人体框中包含有背景和其他人的人体信息，且占比较大，这时，该背景和其他人则为该检测目标的干扰信息，对该检测目标进行特征提取并识别时，可能将背景或其他人的特征也考虑在内，或者识别主体错误，则在相似度匹配时引入了误差，会使得识别准确率大幅度下降。

发明内容

本申请实施例提供了一种人体识别方法、装置、计算机设备及存储介质，可以解决相关技术中识别准确率低的问题。所述技术方案如下：

一方面，提供了一种人体识别方法，所述方法包括：

获取多个第一图像；

根据所述多个第一图像中人体的目标部位所在位置，对所述多个第一图像进行裁剪，得到多个第二图像，每个第二图像为人体的目标部位所在区域；

调用目标识别模型，将所述多个第二图像输入所述目标识别模型中，输出所述多个第二图像的识别结果；

基于所述多个第二图像的识别结果，获取所述多个第一图像中至少一个人的识别结果。

一方面，提供了一种人体识别装置，所述装置包括：

获取模块，用于获取多个第一图像；

裁剪模块，用于根据所述多个第一图像中人体的目标部位所在位置，对所述多个第一图像进行裁剪，得到多个第二图像，每个第二图像为人体的目标部位所在区域；

识别模块，用于调用目标识别模型，将所述多个第二图像输入所述目标识别模型中，输出所述多个第二图像的识别结果；

所述获取模块，还用于基于所述多个第二图像的识别结果，获取所述多个第一图像中至少一个人的识别结果。

可选地，所述识别模块用于：

对于任一个第二图像，由所述目标识别模型对所述第二图像进行特征提取，得到所述第二图像的特征图，所述特征图中包括所述两个目标部位的特征；

根据所述两个目标部位的比例关系，对所述特征图进行拆分，得到所述两个目标部位各自的特征图；

所述识别模块用于：

基于第一识别子模型对头部的特征进行识别，得到头部的识别结果，基于第二识别子模型对肩部的特征进行识别，得到肩部的识别结果。

可选地，所述每个第二图像的识别结果用于指示所述每个第二图像中人的身份；

所述获取模块用于：

将所述识别结果中所指示人的身份相同的多个第二图像在所述多个第一图像中的位置确定为同一个人在所述多个第一图像中的位置。

可选地，所述装置还包括：

添加模块，用于在同一个人在所述多个第一图像的位置上添加相同的标记信息；

显示模块，用于在显示所述多个第一图像时，显示添加的所述标记信息。

可选地，所述装置还包括训练模块，所述训练模块用于：

获取多个第一样本图像；

根据所述多个第一样本图像中人体的目标部位所在位置，获取多个第二样本图像，每个第二样本图像为人体的目标部位所在区域，每个第二样本图像携带有所述第二样本图像的目标识别结果；

基于所述多个第二样本图像，对第一初始识别模型进行训练，得到所述目标识别模型。

可选地，所述多个第二样本图像为第一图像集合；

所述训练模块还用于基于第二图像集合，对第二初始识别模型进行预训练，得到第一初始识别模型；

所述训练模块用于基于所述第一图像集合，对所述第一初始识别模型进行训练，得到所述目标识别模型。

可选地，所述训练模块用于：

调用目标部位检测模型，将所述多个第一样本图像输入所述目标部位检测模型中，由所述目标部位检测模型对所述多个第一样本图像进行目标部位检测，输出所述多个第一样本图像中人体的目标部位所在位置；

根据所述目标部位所在位置，对所述多个第一样本图像进行裁剪，得到第三图像集合；

根据所述第三图像集合中同一个人对应的多个第二样本图像之间的相似度，对所述第三图像集合中的多个第二样本图像进行筛选，得到第一图像集合；

所述训练模块用于：

从图像数据库中，获取第四图像集合，所述第四图像集合包括多个第三样本图像；

对所述第四图像集合中的多个第三样本图像进行关键点检测，得到所述多个第三样本图像中人体各个部位的关键点位置；

根据所述各个部位的关键点位置，对所述多个第三样本图像进行裁剪，得到第二图像集合。

可选地，所述训练模块用于：

对于所述第一样本图像中的每个人，对第五图像集合进行特征提取，得到第一特征集合，所述第五图像集合包括所述目标识别结果中指示为同一个人的多个第二样本图像；

对所述第一特征集合进行聚类，得到聚类中心集合，所述聚类中心集合中包括目标数量的聚类中心；

从所述第一特征集合中，分别获取与所述目标数量的聚类中心的距离最小的特征，得到第二特征集合；

获取所述第二特征集合中特征对应的多个第二样本图像作为第一图像集合。

一方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现所述人体识别方法所执行的操作。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现所述人体识别方法所执行的操作。

本申请实施例通过对第一图像进行裁剪，通过目标部位所在区域的第二图像进行人体识别，而不是通过整体的人体框，不会引入其他检测目标的干扰信息，可以准确对人进行识别，提高了识别准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种人体识别方法的实施环境；

图2是本申请实施例提供的一种人体识别方法的实施环境；

图3是本申请实施例提供的一种模型训练方法的流程图；

图4是本申请实施例提供的一种图像裁剪过程的示意图；

图5是本申请实施例提供的一种目标识别网络的网络结构示意图；

图6是本申请实施例提供的一种模型训练过程的示意图；

图7是本申请实施例提供的一种人体识别方法的流程图；

图8是本申请实施例提供的一种人体识别结果的示意图；

图9是本申请实施例提供的一种人体识别方法的对比示意图；

图10是本申请实施例提供的一种人体识别装置的示意图；

图11是本申请实施例提供的一种终端的结构示意图；

图12是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1和图2均是本申请实施例提供的一种人体识别方法的实施环境，该实施环境可以包括多种，每种实施环境中均可以包括计算机设备，该计算机设备用于执行该人体识别方法的方法步骤。

在一种可能实现方式中，参见图1，该实施环境中可以包括图像采集设备101和计算机设备102，该图像采集设备101可以与该计算机设备102通过数据线或无线网络连接。该图像采集设备101用于采集图像，并将采集到的图像发送至计算机设备102，计算机设备102可以根据该图像采集设备101实时发送的多个图像进行人体识别，也可以根据该图像采集设备101发送的多个历史图像，进行人体识别。当然，该图像采集设备101还可以录制视频，从而计算机设备102也可以基于视频中的多个视频帧进行人体识别，该多个视频帧即为多个图像。

在另一种可能实现方式中，参见图2，该实施环境中可以包括数据库103和计算机设备102，该数据库103中可以存储有多个图像，计算机设备102可以从数据库103中获取多个图像进行人体识别。同理地，该数据库103中也可以存储有视频，计算机设备102也可以从该数据库中获取视频，对视频中的多个视频帧进行人体识别，该多个视频帧即为多个图像。

在另一种可能实现方式中，该实施环境中还可以仅包括计算机设备102，该计算机设备102可以具有图像采集功能和图像处理功能，从而对采集到的多个图像进行人体识别，本申请实施例对具体采用哪种实现方式不作限定。

需要说明的是，该计算机设备102可以为终端，也可以为服务器，本申请实施例对此不作限定。

本申请实施例中，计算机设备通过目标识别模型，对多个图像进行人体识别，以确定多个图像中至少一个人的识别结果，该过程即为确定至少一个人在多个图像中的位置，也是确定多个图像中哪几个人为同一个人。以下，先对该目标识别模型的训练过程进行说明。

图3是本申请实施例提供的一种模型训练方法的流程图，目标识别模型可以在该计算机设备102上训练得到，也可以在其他计算机设备上训练得到后发送至该计算机设备102，在此仅以在计算机设备102上训练模型为例进行说明。参见图3，该方法可以包括以下步骤：

301、计算机设备获取多个第一样本图像。

在本申请实施例中，计算机设备可以多个第一样本图像，对第一样本图像进行预处理，基于预处理后的第二样本图像对初始识别模型进行训练，得到目标识别模型，进而，训练得到的目标识别模型可以用于人体识别。

该多个第一样本图像中可以包括至少一个人，该多个第一样本图像可以包括多组图像，每组图像可以是具有时间连续性的多个第一样本图像，计算机设备可以去识别该每组图像中同一个人在不同图像中的位置，也即是识别该每组图像中哪几个人是同一个人。例如，可以对同一个场景进行周期性拍摄得到一组图像，又例如，可以拍摄视频，提取该视频中的多个视频帧作为一组图像。

在一种可能实现方式中，计算机设备可以从数据库中获取得到该多个第一样本图像，也可以从目标网站下载得到，还可以从其他计算机设备处获取得到，本申请实施例对此不作限定。

例如，在一个具体示例中，在需要对视频中的多个目标进行跟踪时，可以获取历史视频，提取历史视频中的多个视频帧作为多个第一样本图像，将其作为训练样本，处理后对模型进行训练，从而训练得到的模型即可对这类视频的视频帧进行人体识别。

302、计算机设备根据该多个第一样本图像中人体的目标位置所在位置，获取多个第二样本图像，每个第二样本图像为人体的目标部位所在区域。

在本申请实施例中，可以通过人体的目标部位来对人进行识别，而不是提取整个人体框，以避免提取到检测目标的特征时引入误差的情况。因而，计算机设备获取到多个第一样本图像后，可以对其进行预处理，得到训练模型的样本数据。

每个第二样本图像携带有该第二样本图像的目标识别结果。该目标识别结果即为该第二样本图像的真实识别结果，可以以此来评判模型的预测结果是否准确，从而来确定模型训练过程是否完成。

在一种可能实现方式中，该目标识别结果可以由该第一样本图像所携带，在基于第一样本图像获取第二样本图像时，该第二样本图像可以生成该目标识别结果。在另一种可能实现方式中，该目标识别结果还可以在获取第二样本图像时对第二样本图像进行标注得到，具体地，可以在获取得到第二样本图像后，为第二样本图像添加标注信息，将该标注信息作为第二样本图像的目标识别结果。

该第一样本图像中人体通常包括从头到脚的完整人体区域，当然，也可能仅包括人体的部分部位。计算机设备可以对第一样本图像进行关键点检测，从而确定目标部位所在位置，对第一样本图像进行裁剪，从而得到第二样本图像，该第二样本图像即为用于训练第一初始识别模型的样本数据。

其中，该裁剪过程可以通过目标部位检测模型实现，具体地，计算机设备可以调用目标部位检测模型，将该多个第一样本图像输入该目标部位检测模型中，由该目标部位检测模型对该多个第一样本图像进行目标部位检测，输出该多个第一样本图像中人体的目标部位所在位置，这样计算机设备可以根据该目标部位所在位置，对该多个第一样本图像进行裁剪，得到多个第二样本图像。

该目标部位检测模型可以由相关技术人员根据多个第四样本图像训练得到，每个第四样本图像可以携带有目标检测结果，该目标检测结果即为该第四样本图像中目标部位所在的真实位置。该目标检测模型可以采用任一种目标检测算法，例如YOLO、可变型部件模型(Deformable Parts Model，DPM)或单发多盒检测(Single Shot MultiBox Detector，SSD)等，对此不作限定。其中，YOLO为You Only Live Once的缩写，意为你只能活一次，是一种基于深度神经网络的对象识别和定位算法。

在一种可能实现方式中，如果该多个第一样本图像是从一个或多个视频中提取得到，提取视频帧时可能间隔比较小，由于同一个人在短时间内发生姿态、视角改变的概率比较小，可能提取到的相邻的第一样本图像之间差异很小，通过这样的第一样本图像训练模型可能会出现简单样本过多，模型难以学习到具有鉴别力的特征表达，从而可能会导致训练得到的模型的识别准确率低。当然，如果该多个第一样本图像获取时间隔较大，或者该多个第一样本图像之间的差异较大，也不会产生上述可能出现的问题。

针对上述可能存在的问题，计算机设备在获取第二样本图像时，还可以将训练数据分为两部分：第一图像集合和第二图像集合。通过上述多个第一样本图像得到的多个第二样本图像可以作为第一图像集合，该第一图像集合用于对第一初始识别模型进行训练。从图像数据库中获取样本图像直接进行裁剪可以得到第二图像集合，该第二图像集合用于对第二初始识别模型进行预训练，得到第一初始识别模型。

其中，第一图像集合的获取过程包括裁剪和筛选两个阶段。在裁剪得到目标部位所在区域后，再基于图像相似度进行筛选，简单样本变少，则可以避免出现上述问题。

第一图像集合的获取过程可以为：计算机设备可以调用目标部位检测模型，将该多个第一样本图像输入该目标部位检测模型中，由该目标部位检测模型对该多个第一样本图像进行目标部位检测，输出该多个第一样本图像中人体的目标部位所在位置。计算机设备根据该目标部位所在位置，对该多个第一样本图像进行裁剪，得到第三图像集合，计算机设备再根据该第三图像集合中同一个人对应的多个第二样本图像之间的相似度，对该第三图像集合中的多个第二样本图像进行筛选，得到第一图像集合，该第一图像集合中包括多个第二样本图像。

其中，该裁剪过程仅示出了通过目标部位检测模型实现的方式，裁剪过程还可以采用其他方式实现，例如，可以进行关键点检测，根据关键点位置进行裁剪，具体可以参见下述第二图像集合的获取过程，在此不多做赘述。

对于筛选过程，筛选过程可以通过聚类实现，具体地，该筛选过程可以分为下述步骤一至步骤四：

步骤一、对于该第一样本图像中的每个人，计算机设备对第五图像集合进行特征提取，得到第一特征集合，该第五图像集合包括该目标识别结果中指示为同一个人的多个第二样本图像。

步骤二、计算机设备对该第一特征集合进行聚类，得到聚类中心集合，该聚类中心集合中包括目标数量的聚类中心。

步骤三、计算机设备从该第一特征集合中，分别获取与该目标数量的聚类中心的距离最小的特征，得到第二特征集合。

步骤四、计算机设备获取该第二特征集合中特征对应的多个第二样本图像作为第一图像集合。

例如，对于任一个人均可以执行上述步骤一至步骤四中，对于第p个行人图像网络(ImageNet)模型对第p个行人的N张第二样本图像I＝{I₁,I₂,...,I_N}进行特征抽取，得到第一特征集合F＝{f₁,f₂,...,f_N}。对第一特征集合F中的元素做K-means聚类，也即是，对第一特征集合中的特征进行聚类，得到K个聚类中心的集合

在第一特征集合F中找到分别离K个聚类中心最近的特征，得到第二特征集合

进而获取第二特征集合对应的图片集合

作为第一个图像集合，其中k为第k个聚类中心，为整数。K为目标数量，为聚类中心的数量，为正整数。p为行人标识，为整数。在该示例中仅以K-means聚类算法为例进行说明，也可以采用其他聚类算法，例如，层次聚类、具有噪声的基于密度的聚类方法(Density-BasedSpatial Clustering of Applications with Noise，DBSCAN)等。

对于第二图像集合，可以通过下述步骤一至步骤三获取得到：

步骤一、计算机设备从图像数据库中，获取第四图像集合，该第四图像集合包括多个第三样本图像。

该第四图像集合中包括的第三样本图像可以为公开的图像数据库中的图像，通过这部分图像对第二初始识别模型进行预训练，可以使得预训练得到的第一初始识别模型具有图像识别功能，再结合上述与模型使用时同样类型的第一样本图像进行训练，可以保证训练得到的目标识别模型的识别准确率。

例如，该图像数据库可以为一些公开的人体识别数据集，比如Market1501、CUHK03或DukeMTMC等。

步骤二、计算机设备对该第四图像集合中的多个第三样本图像进行关键点检测，得到该多个第三样本图像中人体各个部位的关键点位置。

计算机设备检测关键点位置，通过关键点位置可以获知各个部位的位置，尤其是可以确定目标部位的位置。例如，该各个部位的关键点位置可以包括头顶、颈部、左肩、右肩、左髋、右髋等关键点位置。当然，还可以包括其他部位的关键点位置，在此不一一列举。

在一个具体可能实施例中，该关键点检测过程可以通过人体关键点检测模型实现，计算机设备可以将第一样本图像输入人体关键点检测模型中，输出人体各个部位的关键点位置。例如，该关键点位置可以通过坐标的形式表示，例如，输入第一样本图像，在经过人体关键点检测后，得到头顶、颈部、左肩、右肩、左髋、右髋关键点坐标，分别记为P_h,P_n,P_ls,P_rs,P_lh,P_rh，每个点P包含横坐标x与纵坐标y。

步骤三、计算机设备根据该各个部位的关键点位置，对该多个第三样本图像进行裁剪，得到第二图像集合。

计算机设备通过各个部位的关键点位置，即可获知该目标部位所在位置，进而可以将该目标部位所在位置裁剪出来，得到第二图像集合。

具体地，该步骤三可以包括步骤3.1和步骤3.2：

步骤3.1、计算机设备根据该各个部位的关键点位置，确定该多个第三样本图像的裁剪位置。

计算机设备得到各个部位的关键点位置后，可以确定包括目标部位的区域位置，从而确定出裁剪位置，以便于裁剪。其中，计算机设备可以根据各个部位的关键点位置，确定包括该目标部位的矩形区域的顶点位置作为裁剪位置。

例如，以该目标部位包括头部和肩部为例，计算机设备在确定各个部位的关键点坐标后，可以通过以下公式计算头部和肩部所在的矩形区域的左上角点坐标(x_lt,y_lt)与右下角点坐标(x_rb,y_rb)：

在上述公式中，以颈部和髋部关键点的二分之一处作为裁切后图片的下边框，并对头顶、左肩和右肩向外扩充一定范围得到上边框、右边框和左边框，进而保证了裁剪后的区域中能够包括人的头部和肩部。当然，该公式仅为一种示例，上述公式中的系数以及各个坐标的计算方式可以由相关技术人员根据经验或需求进行设置，本申请实施例对此不作限定。

步骤3.2、计算机设备基于该裁剪位置，对该多个第三样本图像进行裁剪，得到第二图像集合。

计算机设备获取得到裁剪位置后，即可裁剪第三样本图像，得到目标部位所在区域。其中，第三样本图像中可以包括至少一个人，则每个第三样本图像可以裁剪得到至少一个样本图像。

上述仅以第二图像集合基于第四图像集合为例进行说明，该第二图像集合还可以基于第一图像集合获取得到，计算机设备也可以基于上述关键点检测方法，对第一样本图像进行裁剪，而不直接用第一图像集合，本申请实施例对具体采用哪种实现方式不作限定。

例如，以该目标部位包括头部和肩部为例，该裁剪过程可以如图4所示，计算机设备对第三样本图像进行关键点检测，从而再进行图像裁切，得到包括头部和肩部的样本图像。

303、计算机设备基于该多个第二样本图像，对第一初始识别模型进行训练，得到该目标识别模型。

计算机设备获取到多个第二样本图像后，即可对第一初始识别模型进行训练，该训练过程为调整第一初始识别模型的模型参数的过程，在该过程中，可以根据基于第一初始识别模型识别得到的预测识别结果与第二样本图像携带的目标识别结果，获取预测识别结果的准确度，基于准确度，对第一初始识别模型的模型参数进行调整，直至满足目标条件时停止，得到目标识别模型。

其中，该准确度可以采用损失值的方式表示，也可以采用奖励的方式表示，其中，损失值可以基于损失函数得到，例如，交叉熵函数。该目标条件可以为准确度收敛，也可以为迭代次数达到目标次数，本申请实施例对此不作限定。

在上述步骤302所示的多个第二样本图像为第一图像集合，还可以通过第二图像集合进行模型预训练的实现方式中，该步骤303之前，计算机设备可以基于该第二图像集合，对第二初始识别模型进行预训练，得到第一初始识别模型。该步骤303则可以为：计算机设备基于该第一图像集合，对该第一初始识别模型进行训练，得到该目标识别模型。

上述目标部位可以包括一个部位或多个部位，在一种可能实现方式中，目标部位可以包括头部和肩部。该目标识别模型可以包括两个识别子模型，每个识别子模型用于识别一个目标部位。

在该实现方式中，该目标识别模型的网络结构可以包括主干网络和两个分支网络。每个分支网络用于识别一个目标部位。其中，该主干网络用于对第二样本图像进行特征提取，得到第二样本图像的特征，该分支网络则分别处理人的头部和肩部，头部区域可以包含人脸、发型等可用于区分不同人的信息，肩部则可以包含衣着、颜色等信息。通过这两种信息可以准确对人进行识别。为了充分利用这两部分的信息，可以设置上述两个分支网络，分别对两个目标部位的特征进行处理。

例如，如图5所示，该主干网络可以采用深度残差网络(Deep residual network,ResNet)网络，当然也可以采用其他网络，例如视觉几何组(Visual Geometry Group，VGG)、DenseNet等。其中，Dense是密集的、稠密的。本申请实施例对此不作限定。对于输入的图像，可以通过主干网络提取特征图，该主干网络的输入图像可以为经过缩放后的正方形图像，最后一层卷积层的输出特征图维度为H×W×k。其中，H为高度(Heighth)，W为宽度(Width)，k大于0，然后可以对特征图进行拆分，得到两个目标部位的特征图，具体地，可以将生成的特征图在H维度上根据头部和肩部在图像中的占比进行划分，得到大小分别为H_h×W×k和H_s×W×k的头部特征图与肩部特征图。然后计算机设备可以将头部特征图与肩部特征图分别经过均值池化层，得到2个1×1×k的特征向量，进而在网络中添加两个全连接层分别作为头部分类器和肩部分类器，将上一步得到的两个特征向量分别通过这两个分类器，得到对头部标识信息(Identification，ID)的预测结果和对肩部ID的预测结果。计算机设备可以将上一步得到的两个预测向量逐元素相加，得到融合后的预测向量，也即是，综合头部和肩部的预测结果，得到最终的识别结果。该图5所示的图像识别过程适用于模型训练时对第二样本图像的处理，也适用于模型使用时对第二图像的处理。

在一个具体示例中，该模型训练过程可以如图6所示，该过程可以包括人头肩检测模块、数据标注模块、样本优选模块、预训练数据集构建模块和人头肩模型构建与训练模块，人头肩检测模块可以从视频指定帧开始，使用目标检测算法对视频逐帧进行检测，得到人头肩检测框。数据标注模块用于对人头肩检测框标注标识信息(Identification，ID)，得到每个目标p的人头肩检测框集合。样本优选模块用于对人头肩检测框集合进行优选，得到简单样本少的样本集合，也即是上述获取第二图像集合的过程。预训练数据集构建模块用于执行上述获取第一图像集合的步骤，人头肩模型构建与训练模块则用于构建第一初始识别网络并进行模型训练。

通过上述过程，训练得到目标识别模型，以下对通过该目标识别模型进行人体识别的过程进行说明。

图7是本申请实施例提供的一种人体识别方法的流程图，该方法可以应用于计算机设备，该计算机设备可以为上述计算机设备102，参见图7，该方法可以包括以下步骤：

701、计算机设备获取多个第一图像。

在本申请实施例中，计算机设备可以通过目标识别模型进行人体识别，该多个第一图像可以包括多种来源，例如，计算机设备提取视频的多个视频帧得到该多个第一图像，计算机设备也可以接收图像采集设备发送的多个第一图像，计算机设备还可以采集图像，将采集到的多个图像作为多个第一图像。本申请实施例对此不作限定。

702、计算机设备根据该多个第一图像中人体的目标部位所在位置，对该多个第一图像进行裁剪，得到多个第二图像，每个第二图像为人体的目标部位所在区域。

计算机设备可以对第一图像进行预处理，得到第二图像，从而可以通过训练好的目标识别模型进行人体识别。

在一种可能实现方式中，计算机设备确定多个第一图像中人体的目标部位所在位置的过程可以通过目标部位检测模型实现。

具体地，该计算机设备可以调用目标部位检测模型，将该多个第一图像输入该目标部位检测模型中，由该目标部位检测模型对该多个第一图像进行目标部位检测，输出该多个第一图像中人体的目标部位所在位置；根据该目标部位所在位置，对该多个第一图像进行裁剪，得到多个第二图像。

其中，该目标部位检测模型可以基于样本图像训练得到，训练过程与上述图3实施例所示的过程同理，本申请实施例在此不多做赘述。

703、计算机设备调用目标识别模型，将该多个第二图像输入该目标识别模型中，输出该多个第二图像的识别结果。

计算机设备在需要进行人体识别时，可以调用该目标识别模型来进行识别步骤。该目标识别模型可以在该计算机设备上训练得到，训练过程可以如图3所示的实施例所示，该目标识别模型也可以为其他计算机设备训练后发送至该计算机设备。

在一种可能实现方式中，该目标部位包括头部和肩部，该目标识别模型包括两个识别子模型，每个识别子模型用于识别一个目标部位。

在该实现方式中，该步骤703则可以为：计算机设备将该多个第二图像输入该目标识别模型中，由该目标识别模型分别对该多个第二图像中不同的目标部位进行特征提取，基于该目标识别模型中的两个识别子模型分别对不同目标部位的特征进行识别，得到两个目标部位各自的识别结果，基于该两个目标部位各自的识别结果，输出该多个第二图像的识别结果。

其中，该特征提取过程中，对于任一个第二图像，可以由该目标识别模型对该第二图像进行特征提取，得到该第二图像的特征图，该特征图中包括该两个目标部位的特征。计算机设备根据该两个目标部位的比例关系，对该特征图进行拆分，得到该两个目标部位各自的特征图。该特征提取过程与上述步骤303所示的目标识别模型的结构所示内容也同理，在此不多做赘述。

相应地，计算机设备分别提取不同的目标部位的特征，则可以分别进行识别，具体地，计算机设备基于第一识别子模型对头部的特征进行识别，得到头部的识别结果，基于第二识别子模型对肩部的特征进行识别，得到肩部的识别结果。

对于每个第二图像，计算机设备均可以得到该头部的识别结果和肩部的识别结果，计算机设备可以继续综合两个识别结果，得到该第二图像的识别结果并输出。

该融合过程可以为加权求和的过程，权重可以由相关技术人员根据需求进行设置，也可以在上述模型训练过程中训练得到，本申请实施例对此不作限定。

704、计算机设备基于该多个第二图像的识别结果，获取该多个第一图像中至少一个人的识别结果。

在本申请实施例中，计算机设备得到多个第二图像的识别结果后，第二图像为基于第一图像裁剪得到的，将第二图像的识别结果映射到第一图像中，即可得到多个第一图像的识别结果。

上述图像识别过程其实为图像中人的身份识别过程，该每个第二图像的识别结果用于指示该每个第二图像中人的身份。该步骤704所示的过程即可以为：计算机设备将该识别结果中所指示人的身份相同的多个第二图像在该多个第一图像中的位置确定为同一个人在该多个第一图像中的位置。

在一种可能实现方式中，该人体识别方法在具体应用时可以应用于多目标跟踪、视频行人建档等，通过上述步骤即可获知同一个人在多个第一图像中的位置。在该步骤704之后，计算机设备还可以通过其他方式将识别结果显示出来，用以提示用户识别结果。具体地，计算机设备可以在同一个人在该多个第一图像的位置上添加相同的标记信息，在显示该多个第一图像时，显示添加的该标记信息。

在一个具体的可能示例中，该人体识别方法可以应用于目标应用中，比如，该目标应用可以为优图开放平台优Mall中。在优图应用中，计算机设备可以基于该优图应用提取视频的多个视频帧，通过上述人体识别方法，识别出多个视频帧之间相似度最大的人头肩匹配对，将其用相同的数字标出。

具体地，计算机设备可以对多个视频帧进行裁剪得到多个人头肩图片，对于不同视频帧的人头肩图片，可以通过识别过程确定哪些人头肩图片中的人为同一个人，确定为同一个人的人头肩图片即为上述多个视频帧之间相似度最大的人头肩匹配对。上述人头肩匹配对通过相同的数字标出即为上述添加相同的标记信息的过程。

例如，如图8所示，对于两个第一图像，计算机设备可以执行上述识别步骤，识别出两个第一图像中哪两个人为同一个人，从而用相同的标记信息标记出来。如图9所示，相关技术中基于人体框表示人的特征，提取到的人体框中包括很多背景或其他人的信息，而通过本申请中的提取头部和肩部的特征，则可以有效避免上述问题，进而识别准确率高。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图10是本申请实施例提供的一种人体识别装置的示意图，参见图10，该装置包括：

获取模块1001，用于获取多个第一图像；

裁剪模块1002，用于根据该多个第一图像中人体的目标部位所在位置，对该多个第一图像进行裁剪，得到多个第二图像，每个第二图像为人体的目标部位所在区域；

识别模块1003，用于调用目标识别模型，将该多个第二图像输入该目标识别模型中，输出该多个第二图像的识别结果；

该获取模块1001，还用于基于该多个第二图像的识别结果，获取该多个第一图像中至少一个人的识别结果。

可选地，该裁剪模块1002用于调用目标部位检测模型，将该多个第一图像输入该目标部位检测模型中，由该目标部位检测模型对该多个第一图像进行目标部位检测，输出该多个第一图像中人体的目标部位所在位置；根据该目标部位所在位置，对该多个第一图像进行裁剪，得到多个第二图像。

可选地，该目标部位包括头部和肩部，该目标识别模型包括两个识别子模型，每个识别子模型用于识别一个目标部位；

该识别模块1003用于将该多个第二图像输入该目标识别模型中，由该目标识别模型分别对该多个第二图像中不同的目标部位进行特征提取，基于该目标识别模型中的两个识别子模型分别对不同目标部位的特征进行识别，得到两个目标部位各自的识别结果，基于该两个目标部位各自的识别结果，输出该多个第二图像的识别结果。

可选地，该识别模块1003用于：

对于任一个第二图像，由该目标识别模型对该第二图像进行特征提取，得到该第二图像的特征图，该特征图中包括该两个目标部位的特征；

根据该两个目标部位的比例关系，对该特征图进行拆分，得到该两个目标部位各自的特征图；

该识别模块1003用于：

可选地，该每个第二图像的识别结果用于指示该每个第二图像中人的身份；

该获取模块1001用于：

将该识别结果中所指示人的身份相同的多个第二图像在该多个第一图像中的位置确定为同一个人在该多个第一图像中的位置。

可选地，该装置还包括：

添加模块，用于在同一个人在该多个第一图像的位置上添加相同的标记信息；

显示模块，用于在显示该多个第一图像时，显示添加的该标记信息。

可选地，该装置还包括训练模块，该训练模块用于：

获取多个第一样本图像；

根据该多个第一样本图像中人体的目标部位所在位置，获取多个第二样本图像，每个第二样本图像为人体的目标部位所在区域，每个第二样本图像携带有该第二样本图像的目标识别结果；

基于该多个第二样本图像，对第一初始识别模型进行训练，得到该目标识别模型。

可选地，该多个第二样本图像为第一图像集合；

该训练模块还用于基于第二图像集合，对第二初始识别模型进行预训练，得到第一初始识别模型；

该训练模块用于基于该第一图像集合，对该第一初始识别模型进行训练，得到该目标识别模型。

可选地，该训练模块用于：

调用目标部位检测模型，将该多个第一样本图像输入该目标部位检测模型中，由该目标部位检测模型对该多个第一样本图像进行目标部位检测，输出该多个第一样本图像中人体的目标部位所在位置；

根据该目标部位所在位置，对该多个第一样本图像进行裁剪，得到第三图像集合；

根据该第三图像集合中同一个人对应的多个第二样本图像之间的相似度，对该第三图像集合中的多个第二样本图像进行筛选，得到第一图像集合；

该训练模块用于：

从图像数据库中，获取第四图像集合，该第四图像集合包括多个第三样本图像；

对该第四图像集合中的多个第三样本图像进行关键点检测，得到该多个第三样本图像中人体各个部位的关键点位置；

根据该各个部位的关键点位置，对该多个第三样本图像进行裁剪，得到第二图像集合。

可选地，该训练模块用于：

对于该第一样本图像中的每个人，对第五图像集合进行特征提取，得到第一特征集合，该第五图像集合包括该目标识别结果中指示为同一个人的多个第二样本图像；

对该第一特征集合进行聚类，得到聚类中心集合，该聚类中心集合中包括目标数量的聚类中心；

从该第一特征集合中，分别获取与该目标数量的聚类中心的距离最小的特征，得到第二特征集合；

获取该第二特征集合中特征对应的多个第二样本图像作为第一图像集合。

本申请实施例提供的装置，通过对第一图像进行裁剪，通过目标部位所在区域的第二图像进行人体识别，而不是通过整体的人体框，不会引入其他检测目标的干扰信息，可以准确对人进行识别，提高了识别准确率。

需要说明的是：上述实施例提供的人体识别装置在进行人体识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的人体识别装置与人体识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述计算机设备可以为下述图11所示的终端，也可以为下述图12所示的服务器，本申请实施例对此不作限定。

图11是本申请实施例提供的一种终端的结构示意图。该终端1100可以是：智能手机、平板电脑、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1100包括有：一个或多个处理器1101和一个或多个存储器1102。

处理器1101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1101可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1101还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1101所执行以实现本申请中方法实施例提供的人体识别方法。

在一些实施例中，终端1100还可选包括有：外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地，外围设备包括：射频电路1104、显示屏1105、摄像头组件1106、音频电路1107、定位组件1108和电源1109中的至少一种。

外围设备接口1103可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中，处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上；在一些其他实施例中，处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1104用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1104包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1104还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1105用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时，显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时，显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1105可以为一个，设置终端1100的前面板；在另一些实施例中，显示屏1105可以为至少两个，分别设置在终端1100的不同表面或呈折叠设计；在再一些实施例中，显示屏1105可以是柔性显示屏，设置在终端1100的弯曲表面上或折叠面上。甚至，显示屏1105还可以设置成非矩形的不规则图形，也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1106用于采集图像或视频。可选地，摄像头组件1106包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1101进行处理，或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1107还可以包括耳机插孔。

定位组件1108用于定位终端1100的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1108可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1109用于为终端1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于：加速度传感器1111、陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。

加速度传感器1111可以检测以终端1100建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号，控制显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1112可以检测终端1100的机体方向及转动角度，陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端1100的3D动作。处理器1101根据陀螺仪传感器1112采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1113可以设置在终端1100的侧边框和/或显示屏1105的下层。当压力传感器1113设置在终端1100的侧边框时，可以检测用户对终端1100的握持信号，由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在显示屏1105的下层时，由处理器1101根据用户对显示屏1105的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1114用于采集用户的指纹，由处理器1101根据指纹传感器1114采集到的指纹识别用户的身份，或者，由指纹传感器1114根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1101授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1114可以被设置终端1100的正面、背面或侧面。当终端1100上设置有物理按键或厂商Logo时，指纹传感器1114可以与物理按键或厂商Logo集成在一起。

光学传感器1115用于采集环境光强度。在一个实施例中，处理器1101可以根据光学传感器1115采集的环境光强度，控制显示屏1105的显示亮度。具体地，当环境光强度较高时，调高显示屏1105的显示亮度；当环境光强度较低时，调低显示屏1105的显示亮度。在另一个实施例中，处理器1101还可以根据光学传感器1115采集的环境光强度，动态调整摄像头组件1106的拍摄参数。

接近传感器1116，也称距离传感器，通常设置在终端1100的前面板。接近传感器1116用于采集用户与终端1100的正面之间的距离。在一个实施例中，当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变小时，由处理器1101控制显示屏1105从亮屏状态切换为息屏状态；当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变大时，由处理器1101控制显示屏1105从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图11中示出的结构并不构成对终端1100的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图12是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备1200可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(centralprocessing units，CPU)1201和一个或多个的存储器1202，其中，该一个或多个存储器1202中存储有至少一条指令，该至少一条指令由该一个或多个处理器1201加载并执行以实现上述各个方法实施例提供的人体识别方法。当然，该计算机设备1200还可以具有有线或无线网络接口以及输入输出接口等部件，以便进行输入输出，该计算机设备1200还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由处理器执行以完成上述实施例中的人体识别方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种人体识别方法，其特征在于，所述方法包括：

获取多个第一图像；

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个第一图像中人体的目标部位所在位置，对所述多个第一图像进行裁剪，得到多个第二图像，包括：

调用目标部位检测模型，将所述多个第一图像输入所述目标部位检测模型中，由所述目标部位检测模型对所述多个第一图像进行目标部位检测，输出所述多个第一图像中人体的目标部位所在位置；根据所述目标部位所在位置，对所述多个第一图像进行裁剪，得到多个第二图像。

3.根据权利要求1所述的方法，其特征在于，所述目标部位包括头部和肩部，所述目标识别模型包括两个识别子模型，每个识别子模型用于识别一个目标部位；

所述将所述多个第二图像输入所述目标识别模型中，输出所述多个第二图像的识别结果，包括：

将所述多个第二图像输入所述目标识别模型中，由所述目标识别模型分别对所述多个第二图像中不同的目标部位进行特征提取，基于所述目标识别模型中的两个识别子模型分别对不同目标部位的特征进行识别，得到两个目标部位各自的识别结果，基于所述两个目标部位各自的识别结果，输出所述多个第二图像的识别结果。

4.根据权利要求3所述的方法，其特征在于，所述由所述目标识别模型分别对所述多个第二图像中不同的目标部位进行特征提取，包括：

所述基于所述目标识别模型中的两个识别子模型分别对不同目标部位的特征进行识别，得到两个目标部位各自的识别结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述每个第二图像的识别结果用于指示所述每个第二图像中人的身份；

所述基于所述多个第二图像的识别结果，获取所述多个第一图像中至少一个人的识别结果，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述多个第二图像的识别结果，获取所述多个第一图像中至少一个人的识别结果之后，所述方法还包括：

在同一个人在所述多个第一图像的位置上添加相同的标记信息；

在显示所述多个第一图像时，显示添加的所述标记信息。

7.根据权利要求1所述的方法，其特征在于，所述目标识别模型的训练过程包括：

获取多个第一样本图像；

8.根据权利要求7所述的方法，其特征在于，所述多个第二样本图像为第一图像集合；

所述基于所述多个第二样本图像，对第一初始识别模型进行训练，得到所述目标识别模型之前，所述方法还包括：

基于第二图像集合，对第二初始识别模型进行预训练，得到第一初始识别模型；

所述基于所述多个第二样本图像，对第一初始识别模型进行训练，得到所述目标识别模型，包括：

基于所述第一图像集合，对所述第一初始识别模型进行训练，得到所述目标识别模型。

9.根据权利要求8所述的方法，其特征在于，所述第一图像集合的获取过程包括：

所述第二图像集合的获取过程包括：

10.根据权利要求9所述的方法，其特征在于，所述根据所述第三图像集合中同一个人对应的多个第二样本图像之间的相似度，对所述第三图像集合中的多个第二样本图像进行筛选，得到第一图像集合，包括：

11.一种人体识别装置，其特征在于，所述装置包括：

获取模块，用于获取多个第一图像；

12.根据权利要求11所述的装置，其特征在于，所述裁剪模块用于调用目标部位检测模型，将所述多个第一图像输入所述目标部位检测模型中，由所述目标部位检测模型对所述多个第一图像进行目标部位检测，输出所述多个第一图像中人体的目标部位所在位置；根据所述目标部位所在位置，对所述多个第一图像进行裁剪，得到多个第二图像。

13.根据权利要求11所述的装置，其特征在于，所述目标部位包括头部和肩部，所述目标识别模型包括两个识别子模型，每个识别子模型用于识别一个目标部位；

所述识别模块用于将所述多个第二图像输入所述目标识别模型中，由所述目标识别模型分别对所述多个第二图像中不同的目标部位进行特征提取，基于所述目标识别模型中的两个识别子模型分别对不同目标部位的特征进行识别，得到两个目标部位各自的识别结果，基于所述两个目标部位各自的识别结果，输出所述多个第二图像的识别结果。

14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求10任一项所述的人体识别方法所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至权利要求10任一项所述的人体识别方法所执行的操作。