CN113743313A

CN113743313A - 一种行人识别方法、装置及电子设备

Info

Publication number: CN113743313A
Application number: CN202111040980.4A
Authority: CN
Inventors: 高于超; 赵泽园
Original assignee: Beijing E Hualu Information Technology Co Ltd
Current assignee: Beijing E Hualu Information Technology Co Ltd
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2021-12-03

Abstract

本发明公开了一种行人识别方法、装置及电子设备，包括：获取待检测图像；利用预先训练好的行人检测模型对待检测图像进行行人检测；当在待检测图像中检测到行人，基于获取到的目标行人参照图像利用预先训练好的行人识别模型对包含行人的待检测图像进行行人重识别，行人识别模型基于行人的衣着、体型和行走姿态中至少一种特征进行行人重识别；当识别到目标行人，输出目标行人所在图像对应的图像采集设备标识以及图像拍摄时间。通过使用基于行人的衣着、体型和行走姿态中至少一种特征进行行人重识别，摒弃了人脸识别模型匹配正脸的方式，更关注于人物的衣着、体型和姿态等体貌特征，提高了模型的适用度以及行人识别的准确性。

Description

一种行人识别方法、装置及电子设备

技术领域

本发明涉及人工智能技术领域，具体涉及一种行人识别方法、装置及电子设备。

背景技术

公共场所人群密集，流动性大，极易导致人员走失。相关技术中，走失者识别通常依赖人脸识别技术的方法，但在大多应用场景下，摄像头无法捕获清晰的人脸正脸照片，故基于人脸的行人识别方法应用场景非常有限，适用性较差、准确性较低。

发明内容

因此，本发明要解决的技术问题在于克服现有行人识别方法适用性差、准确性低的缺陷，从而提供一种行人识别方法、装置及电子设备。

根据第一方面，本发明实施例公开了一种行人识别方法，包括：获取待检测图像；利用预先训练好的行人检测模型对所述待检测图像进行行人检测；当在所述待检测图像中检测到行人，基于获取到的目标行人参照图像利用预先训练好的行人识别模型对包含行人的待检测图像进行行人重识别，所述行人识别模型基于行人的衣着、体型和行走姿态中至少一种特征进行行人重识别；当识别到目标行人，输出所述目标行人所在图像对应的图像采集设备标识以及图像拍摄时间。

可选地，所述行人检测模型通过下述步骤训练得到：获取公共场所中的多个图像；对每一个图像进行行人检测框标注；对标注后的训练图像样本集进行数据增强，得到行人检测数据集；基于所述行人检测数据集对PP-YOLO网络模型进行训练，直至第一损失函数的第一损失值满足第一损失条件得到所述行人检测模型。

可选地，所述行人识别模型通过下述步骤训练得到：获取行人重识别图像数据集，所述行人重识别图像数据集中的每一个图像中标注有身份标识；基于所述行人重识别图像数据集对构建好的、基于BoT的行人重识别网络模型进行训练，直至第二损失函数的损失值满足第二损失条件得到所述行人识别模型。

可选地，当在所述待检测图像中检测到行人，基于获取到的目标行人参照图像利用预先训练好的行人识别模型对包含行人的待检测图像进行行人重识别，包括：接收上传的走失者图像作为目标行人参照图像；确定在待检测图像中检测到的行人与目标行人参照图像中的行人的相似度；将相似度大于预设相似度阈值的待检测图像中的行人判定为走失者；当所述相似度小于所述预设相似度阈值，重新获取待检测图像。

根据第二方面，本发明实施例还公开了一种行人识别装置，包括：获取模块，用于获取待检测图像；检测模块，用于利用预先训练好的行人检测模型对所述待检测图像进行行人检测；识别模块，用于当在所述待检测图像中检测到行人，基于获取到的目标行人参照图像利用预先训练好的行人识别模型对包含行人的待检测图像进行行人重识别，所述行人识别模型基于行人的衣着、体型和行走姿态中至少一种特征进行行人重识别；输出模块，用于当识别到目标行人，输出所述目标行人所在图像对应的图像采集设备标识以及图像拍摄时间。

可选地，所述装置包括：第一训练模块，用于训练得到所述行人检测模型，所述第一训练模块包括：第一获取子模块，用于获取公共场所中的多个图像；标注模块，用于对每一个图像进行行人检测框标注；数据增强模块，用于对标注后的训练图像样本集进行数据增强，得到行人检测数据集；第一训练子模块，用于基于所述行人检测数据集对PP-YOLO网络模型进行训练，直至第一损失函数的第一损失值满足第一损失条件得到所述行人检测模型。

可选地，所述装置还包括：第二训练模块，用于训练得到所述行人识别模型，所述第二训练模块包括：第二获取子模块，用于获取行人重识别图像数据集，所述行人重识别图像数据集中的每一个图像中标注有身份标识；第二训练子模块，用于基于所述行人重识别图像数据集对构建好的、基于BoT的行人重识别网络模型进行训练，直至第二损失函数的损失值满足第二损失条件得到所述行人识别模型。

可选地，所述识别模块，包括：接收子模块，用于接收上传的走失者图像作为目标行人参照图像；确定子模块，用于确定在待检测图像中检测到的行人与目标行人参照图像中的行人的相似度；判定子模块，用于将相似度大于预设相似度阈值的待检测图像中的行人判定为走失者；获取子模块，用于当所述相似度小于所述预设相似度阈值，重新获取待检测图像。

根据第三方面，本发明实施例还公开了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如第一方面或第一方面任一可选实施方式所述的行人识别方法的步骤。

根据第四方面，本发明实施方式还公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式所述的行人识别方法的步骤。

本发明技术方案，具有如下优点：

本发明提供的行人识别方法/装置，通过获取待检测图像，并利用预先训练好的行人检测模型对待检测图像进行行人检测，当在待检测图像中检测到行人，基于获取到的目标行人参照图像利用基于行人的衣着、体型和行走姿态中至少一种特征进行行人重识别的、预先训练好的行人识别模型对包含行人的待检测图像进行行人重识别，当识别到目标行人，输出该目标行人所在图像对应的图像采集设备标识以及图像拍摄时间。通过使用可以基于行人的衣着、体型和行走姿态中至少一种特征进行行人重识别的行人识别模型进行行人识别，摒弃了人脸识别模型匹配正脸的方式，更关注于人物的衣着、体型和姿态等体貌特征，此种方式能够很好的适应公共场景，相比于人脸识别技术提高了模型的适用度以及行人识别的准确性，继而保证了对走失者的寻找成功率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中行人识别方法的一个具体示例的流程图；

图2为本发明实施例中行人识别方法的行人检测模型的具体网络结构示意图；

图3为本发明实施例中行人识别方法的行人识别模型的具体网络结构示意图；

图4为本发明实施例中行人识别方法的行人识别模型的具体网络结构示意图；

图5为本发明实施例中行人识别方法的行人识别模型的具体网络结构示意图；

图6为本发明实施例中行人识别装置的一个具体示例的原理框图；

图7为本发明实施例中电子设备的一个具体示例图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例公开了一种行人识别方法，如图1所示，该方法包括如下步骤：

步骤101，获取待检测图像；从待检测的任一公共场所中获取该公共场所的视频，对该视频进行抽帧并对抽帧得到的图像进行归一化等预处理后得到待检测图像。该待检测图像中可以包含对应的图像采集设备的标识以及该图像的拍摄时间等信息。

步骤102，利用预先训练好的行人检测模型对所述待检测图像进行行人检测；

示例性地，使用训练好的行人检测模型进行行人检测，输出行人检测框，其中行人检测模型的训练是利用从实际公共场所中获得的监控图像，通过标注行人检测框并做数据增强，形成了行人检测数据集，本申请实施例构建PP-YOLO网络进行行人检测模型的训练并用于待检测图像中是否包含行人的检测。本申请实施例对该行人检测模型的网络结构不作限定，本领域技术人员可以根据时间需要确定。

步骤103，当在所述待检测图像中检测到行人，基于获取到的目标行人参照图像利用预先训练好的行人识别模型对包含行人的待检测图像进行行人重识别，所述行人识别模型基于行人的衣着、体型和行走姿态中至少一种特征进行行人重识别；

示例性地，该目标行人参照图像可为待寻找的行人图像，根据该目标行人参照图像使用训练好的行人识别模型对行人检测模型的检测结果进行1：N的行人匹配识别，其中N为在待检测图像中检测到的行人的数量。该行人识别模型可以基于行人的衣着、体型和行走姿态中的至少一种特征训练得到，以使得行人识别模型可以基于衣着、体型和行走姿态等信息来进行行人识别，本申请实施例中优选基于构建的BoT神经网络训练得到。

步骤104，当识别到目标行人，输出所述目标行人所在图像对应的图像采集设备标识以及图像拍摄时间。

本发明提供的行人识别方法，通过使用可以基于行人的衣着、体型和行走姿态中至少一种特征进行行人重识别的行人识别模型进行行人识别，摒弃了人脸识别模型匹配正脸的方式，更关注于人物的衣着、体型和姿态等体貌特征，此种方式能够很好的适应公共场景，相比于人脸识别技术提高了模型的适用度以及行人识别的准确性，继而保证了对走失者的寻找成功率。

作为本发明一个可选实施方式，所述行人检测模型通过下述步骤训练得到：

首先，获取公共场所中的多个图像；

示例性地，可以基于城管监控摄像头采集实际应用场景下、多个公共场所的图像数据，从采集的图像数据中获取多城市、多场景、多时间段、多角度的多个图像。为了提高模型训练的准确性，获取到的图像要求清晰度满足一定要求，使得通过肉眼可分辨出图像包含的信息。

然后，对每一个图像进行行人检测框标注；

示例性地，可从获取到的图像中抽取训练模型所需的、一定数量的图像，并对图像中存在的行人利用行人检测框进行标注，通过行人检测框标注出行人在图像中的位置信息。

其次，对标注后的训练图像样本集进行数据增强，得到行人检测数据集；

示例性地，数据增强的方式可以包括但不限于图像左右翻转、随机裁剪、随机旋转、图像模糊、颜色空间扰动、Mixup、图像归一化中的任意一种或多种方式。

再次，基于所述行人检测数据集对PP-YOLO网络模型进行训练，直至第一损失函数的第一损失值满足第一损失条件得到所述行人检测模型。

示例性地，本申请实施例中使用的网络模型为PP-YOLO，网络模型结构如图2所示，在图2中卷积模块、上采样模块以及检测头部分使用了C、C*2、C/2等表明输入通道数和输出通道数的关系，以逗号分隔，左边为输入通道数，右边为输出通道数，“C”表示通道数，检测头中输出通道数“3(K+5)”中“3”代表每个曾设定的三种尺寸的锚框，K代表类别数目，5可分成4+1，分别是目标框的4个位置参数以及1个类别参数来判断框中是否有物体，FPN网络中的符号

表征通道拼接操作。该模型的分类损失函数使用Focal Loss，边框损失函数使用IOU Loss，主干网络第五层C5采用了带有可变形卷积DCN的ResNet50替换原来的Darknet53，提升了原有PP-YOLO网络模型的速度和检测准确性。

在模型训练过程中，先将行人检测数据集中的图像缩放到416*416的三通道图像连同标签输入到PP-YOLO网络中，PP-YOLO网络模型使用空间金字塔池化结构进行多尺度特征融合，使得模型可以更好的适应多尺寸目标的检测，输出行人的置信度和边框，计算批次中对应的损失值，调整学习率降低损失，并再次循环，直至损失函数的损失值满足预设第一损失条件，本申请对该第一损失条件不作限定，比如可以是损失值为零。

作为本发明一个可选实施方式，所述行人识别模型通过下述步骤训练得到：

首先，获取行人重识别图像数据集，所述行人重识别图像数据集中的每一个图像中标注有身份标识；对获得的图像按照标注结果裁剪出图像中的行人，并可标注出行人的ID以用于区分行人身份，同时对标记出相应身份的行人标记出其对应的衣着、体型和行走姿态中至少一种特征，并将标记出的特征与行人身份关联存储，以完成构建行人重识别数据集。

其次，基于所述行人重识别图像数据集对构建好的、基于BoT的行人重识别网络模型进行训练，直至第二损失函数的损失值满足第二损失条件得到所述行人识别模型。

示例性地，本申请实施例中的行人识别模型采用基于BoT(Bag of Tricks)的行人重识别网络模型结构，具体如图3所示。该行人重识别主干网络为Resnet101_vd_dcn_IBN(a)，其中，图4为网络中设计的无下采样网络结构Resnet101_IBN，图5为需要进行下采样时的网络结构Resnet101_vd_IBN，使用Resnet101_vd网络结构，并将可变性卷积DCN加以应用的优点是通过处理全局特征，能够很好的提升模型的识别精度。具体的训练方式为将行人重识别图像数据集中的图像缩放到256*128的三通道图像输入到BoT神经网络中，通过网络训练后基于识别出的图像中的行人的特征输出行人对应的ID，计算批次中对应的损失值，调整学习率降低损失，并再次循环，直至损失函数满足一定条件。图4和图5中“IN(InstanceNormalization)”和“BN(Batch Normalization)”为两种归一化方法，“S(Stride)”为步长。

本申请实施例中该模型使用的损失函数是TIC loss，TIC loss是Triplet Loss、ID Loss和Center loss的损失和，公式见下式(1)：

L_TIC＝L_Tri+L_ID+βL_C (1)

式中，L_Tri表示Triplet Loss；L_ID表示ID Loss；L_C表示Center loss；β表示centerloss的权重，本申请实施例中该β＝0.0005。

Triplet Loss计算方式如下式(2)所示：

L_Tri＝[d_p+d_n+α] (2)

式中，d_p与d_n分别表示正样本对与负样本对的特征距离；α是Triplet Loss的权重。[x]₊等价于max(x,0)，本申请实施例中α设置为0.3。

ID loss是预测行人ID的损失值，具体计算方式如下式(3)所示：

式中，p_i表示第i个ID的预测值，i∈[1,N]，表示待识别的行人的个数；y为真实ID标签；q_i为第i个ID的预测对数。

其中：

式中，ε是一个很小的常数，主要为了奖励模型，易于模型收敛，ε<1；本申请实施例中该ε＝0.1；N与q_i同上。

由于d_p与d_n之间的计算，Triplet Loss只关注于正样本与负样本之间的特征距离(即类间距离)，无法很好的表示类内距离，所以仅仅只使用Triplet Loss作为损失函数，很难作用于整个样本集中的类内距离，故其后需增加能够关注类内距离的损失函数才能弥补Triplet Loss的缺陷，故本申请实施例中选用Center loss有利于关注类内距离的聚合。其中Center loss计算公式如下式(4)所示：

式中，yj是第j个图像的标签；c_yj表示第yj个类的特征中心；f_tj表示第j个图像的余弦距离；B表示图像总个数；通过选择余弦距离，可以提高测量测量两个特征向量之间角度的准确性。

作为本发明一个可选实施方式，步骤103，包括：接收上传的走失者图像作为目标行人参照图像；确定在待检测图像中检测到的行人与目标行人参照图像中的行人的相似度；将相似度大于预设相似度阈值的待检测图像中的行人判定为走失者；当所述相似度小于所述预设相似度阈值，重新获取待检测图像。本申请实施例对该预设相似度阈值不作限定，本领域技术人员可以根据实际需要确定，相似度大于该预设相似度阈值，则判为走失者，最后输出行人ID以及该图像拍摄时间和摄像头ID，小于该预设相似度阈值则继续抽帧判断。

本申请实施例提出的基于深度学习的走失者识别方法，设计了基于PP-YOLO的行人检测模型和基于BoT的行人重识别模型。通过对摄像头的视频流进行抽帧和图像预处理，提升了计算设备支持的视频路数；同时设计的基于PP-YOLO的行人检测模型，该模型在Tesla GV100上的mAP指标达到了56.7％，目标检测速度能够达到68FPS，且模型由于使用空间金字塔池化结构进行多尺度特征融合，使得模型可以更好的适应多尺寸目标的检测问题，对监控摄像头视野范围大的问题有较强的适应性；设计的基于BoT的行人识别模型，该模型在Tesla GV100上的首位命中率Rank-1达94.7％，识别速度能够达到35FPS；可以有效解决实际应用中跨设备、跨场景的问题；由于公共场所的监控环境复杂多样，极易导致人脸识别方法失效，基于BoT的行人识别方法通过侧脸、局部的动作、姿态等进行识别，弥补了人脸识别方法的缺陷；数据增强方式提升了算法的泛化能力，能够适应人物被遮挡的应用场景。

本发明实施例还公开了一种行人识别装置，如图6所示，该装置包括：

获取模块201，用于获取待检测图像；

检测模块202，用于利用预先训练好的行人检测模型对所述待检测图像进行行人检测；

识别模块203，用于当在所述待检测图像中检测到行人，基于获取到的目标行人参照图像利用预先训练好的行人识别模型对包含行人的待检测图像进行行人重识别，所述行人识别模型基于行人的衣着、体型和行走姿态中至少一种特征进行行人重识别；

输出模块204，用于当识别到目标行人，输出所述目标行人所在图像对应的图像采集设备标识以及图像拍摄时间。

本发明提供的行人识别装置，通过使用可以基于行人的衣着、体型和行走姿态中至少一种特征进行行人重识别的行人识别模型进行行人识别，摒弃了人脸识别模型匹配正脸的方式，更关注于人物的衣着、体型和姿态等体貌特征，此种方式能够很好的适应公共场景，相比于人脸识别技术提高了模型的适用度以及行人识别的准确性，继而保证了对走失者的寻找成功率。

作为本发明一个可选实施方式，所述装置包括：第一训练模块，用于训练得到所述行人检测模型，所述第一训练模块包括：第一获取子模块，用于获取公共场所中的多个图像；标注模块，用于对每一个图像进行行人检测框标注；数据增强模块，用于对标注后的训练图像样本集进行数据增强，得到行人检测数据集；第一训练子模块，用于基于所述行人检测数据集对PP-YOLO网络模型进行训练，直至第一损失函数的第一损失值满足第一损失条件得到所述行人检测模型。

作为本发明一个可选实施方式，所述装置还包括：第二训练模块，用于训练得到所述行人识别模型，所述第二训练模块包括：第二获取子模块，用于获取行人重识别图像数据集，所述行人重识别图像数据集中的每一个图像中标注有身份标识；第二训练子模块，用于基于所述行人重识别图像数据集对构建好的、基于BoT的行人重识别网络模型进行训练，直至第二损失函数的损失值满足第二损失条件得到所述行人识别模型。

作为本发明一个可选实施方式，所述识别模块，包括：接收子模块，用于接收上传的走失者图像作为目标行人参照图像；确定子模块，用于确定在待检测图像中检测到的行人与目标行人参照图像中的行人的相似度；判定子模块，用于将相似度大于预设相似度阈值的待检测图像中的行人判定为走失者；获取子模块，用于当所述相似度小于所述预设相似度阈值，重新获取待检测图像。

本发明实施例还提供了一种电子设备，如图7所示，该电子设备可以包括处理器401和存储器402，其中处理器401和存储器402可以通过总线或者其他方式连接，图7中以通过总线连接为例。

处理器401可以为中央处理器(Central Processing Unit，CPU)。处理器401还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器402作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的行人识别方法对应的程序指令/模块。处理器401通过运行存储在存储器402中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的行人识别方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器401所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至处理器401。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器402中，当被所述处理器401执行时，执行如图1所示实施例中的行人识别方法。

上述电子设备具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种行人识别方法，其特征在于，包括：

获取待检测图像；

利用预先训练好的行人检测模型对所述待检测图像进行行人检测；

当在所述待检测图像中检测到行人，基于获取到的目标行人参照图像利用预先训练好的行人识别模型对包含行人的待检测图像进行行人重识别，所述行人识别模型基于行人的衣着、体型和行走姿态中至少一种特征进行行人重识别；

当识别到目标行人，输出所述目标行人所在图像对应的图像采集设备标识以及图像拍摄时间。

2.根据权利要求1所述的方法，其特征在于，所述行人检测模型通过下述步骤训练得到：

获取公共场所中的多个图像；

对每一个图像进行行人检测框标注；

对标注后的训练图像样本集进行数据增强，得到行人检测数据集；

基于所述行人检测数据集对PP-YOLO网络模型进行训练，直至第一损失函数的第一损失值满足第一损失条件得到所述行人检测模型。

3.根据权利要求1所述的方法，其特征在于，所述行人识别模型通过下述步骤训练得到：

获取行人重识别图像数据集，所述行人重识别图像数据集中的每一个图像中标注有身份标识；

基于所述行人重识别图像数据集对构建好的、基于BoT的行人重识别网络模型进行训练，直至第二损失函数的损失值满足第二损失条件得到所述行人识别模型。

4.根据权利要求1-3中任一项所述的方法，其特征在于，当在所述待检测图像中检测到行人，基于获取到的目标行人参照图像利用预先训练好的行人识别模型对包含行人的待检测图像进行行人重识别，所述行人识别模型基于行人的衣着、体型和行走姿态中至少一种特征进行行人重识别，包括：

接收上传的走失者图像作为目标行人参照图像；

确定在待检测图像中检测到的行人与目标行人参照图像中的行人的相似度；

将相似度大于预设相似度阈值的待检测图像中的行人判定为走失者；

当所述相似度小于所述预设相似度阈值，重新获取待检测图像。

5.一种行人识别装置，其特征在于，包括：

获取模块，用于获取待检测图像；

检测模块，用于利用预先训练好的行人检测模型对所述待检测图像进行行人检测；

识别模块，用于当在所述待检测图像中检测到行人，基于获取到的目标行人参照图像利用预先训练好的行人识别模型对包含行人的待检测图像进行行人重识别，所述行人识别模型基于行人的衣着、体型和行走姿态中至少一种特征进行行人重识别；

输出模块，用于当识别到目标行人，输出所述目标行人所在图像对应的图像采集设备标识以及图像拍摄时间。

6.根据权利要求5所述的装置，其特征在于，所述装置包括：第一训练模块，用于训练得到所述行人检测模型，所述第一训练模块包括：

第一获取子模块，用于获取公共场所中的多个图像；

标注模块，用于对每一个图像进行行人检测框标注；

数据增强模块，用于对标注后的训练图像样本集进行数据增强，得到行人检测数据集；

第一训练子模块，用于基于所述行人检测数据集对PP-YOLO网络模型进行训练，直至第一损失函数的第一损失值满足第一损失条件得到所述行人检测模型。

7.根据权利要求5所述的装置，其特征在于，所述装置还包括：第二训练模块，用于训练得到所述行人识别模型，所述第二训练模块包括：

第二获取子模块，用于获取行人重识别图像数据集，所述行人重识别图像数据集中的每一个图像中标注有身份标识；

第二训练子模块，用于基于所述行人重识别图像数据集对构建好的、基于BoT的行人重识别网络模型进行训练，直至第二损失函数的损失值满足第二损失条件得到所述行人识别模型。

8.根据权利要求5-7中任一项所述的装置，其特征在于，所述识别模块，包括：

接收子模块，用于接收上传的走失者图像作为目标行人参照图像；

确定子模块，用于确定在待检测图像中检测到的行人与目标行人参照图像中的行人的相似度；

判定子模块，用于将相似度大于预设相似度阈值的待检测图像中的行人判定为走失者；

获取子模块，用于当所述相似度小于所述预设相似度阈值，重新获取待检测图像。

9.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-4任一所述的行人识别方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的行人识别方法的步骤。