CN111639616B

CN111639616B - 一种基于深度学习的重身份识别方法

Info

Publication number: CN111639616B
Application number: CN202010507148.XA
Authority: CN
Inventors: 姚思琼
Original assignee: Shanghai Yiyou Technology Co ltd
Current assignee: Shanghai Yiyou Technology Co ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2023-05-23
Anticipated expiration: 2040-06-05
Also published as: CN111639616A

Abstract

本发明涉及幼儿身份认证技术领域，尤其涉及一种基于深度学习的重身份识别方法，其中，包括模型训练过程：步骤A1，采集目标图像；步骤A2，采用第一检测模型检测目标图像的人脸特征与设定阈值比较，并对目标图像的人脸检测框分类，得到人脸检测框对应的身份信息；步骤A3，采用第二检测模型检测目标图像的人体特征；步骤A4，将人脸特征和人体特征匹配，将匹配成功的人体特征加入数据集中，形成训练数据集；步骤A5，采用训练数据集训练成重识别模型；身份识别过程包括：步骤B1，采集待识别图像；步骤B2，将待识别图像输入重识别模型中，识别对应的身份信息。有益效果：有效地识别出幼儿的身份信息，避免了人工标注过程，增强对待识别图像的处理能力。

Description

一种基于深度学习的重身份识别方法

技术领域

本发明涉及幼儿身份认证技术领域，尤其涉及一种基于深度学习的重身份识别方法。

背景技术

随着社会的发展，各个公共场所的监控系统的逐渐完善，以及人们对公共场所下安全性越来越重视，尤其是对托育园的幼儿的安全问题越来越重视。由此，重识别技术也得到了迅速发展和广泛应用，重识别是一种在不同摄像头下或者同一个摄像头在相近的时间内拍摄的照片或视频来识别出不同角度或不同时刻所捕捉到的同一个人的方法。

现有技术中，通过不依赖各种语义划分的手段，而是在空间上将输入图片划分成若干部分，假定某个图像中不同部分存在着一致性，利用这种一致性达到不同部分的对齐，但是这类方法容易受输入图像的质量的影响，对于不同体态的人物的输入图像，直观上看划分成固定数量的空间区域很难提取到一致的特征。同时，也要考虑划分后不同区域像素的个数的多少对训练过程产生的影响。

因此，针对上述问题，成为本领域技术人员亟待解决的难题。

发明内容

针对现有技术中存在的上述问题，现提供一种基于深度学习的重身份识别方法。

具体技术方案如下：

本发明提供一种基于深度学习的重身份识别方法，其中，包括模型训练过程和身份识别过程：

所述模型训练过程包括：

步骤A1，采集复数个目标图像；

步骤A2，采用一预先训练的第一检测模型检测得到所述目标图像中的人脸特征，并根据所述人脸特征与设定阈值的比较，分别对每个所述目标图像中的人脸检测框进行分类，从而识别得到每个所述人脸检测框所对应的身份信息；

步骤A3，采用一预先训练的第二检测模型检测得到所述目标图像中的人体特征；

步骤A4，将所述人脸特征和所述人体特征进行匹配，并将匹配成功的所述目标图像的人体特征辅以身份信息标注后加入一数据集中，以形成训练数据集；

步骤A5，采用所述训练数据集训练形成一重识别模型，所述重识别模型的输入数据为采集得到的待识别图像，输出数据为识别所述待识别图像得到的身份信息；

所述身份识别过程包括：

步骤B1，采集得到待识别图像；

步骤B2，将所述待识别图像输入至所述重识别模型中，以识别对应的身份信息并输出。

优选的，于所述步骤A1中，通过在一重身份识别区域中部署至少一个摄像装置采集多个目标的多角度的所述目标图像。

优选的，所述第一检测模型包括预先训练得到的人脸检测模型和人脸识别模型，所述人脸检测模型的输出作为所述人脸识别模型的输入。

优选的，所述步骤A2包括：

步骤A21，采用所述人脸检测模型分别提取每个所述目标图像中的人脸检测框并输入至所述人脸识别模型；

步骤A22，采用所述人脸识别模型分别提取每个所述人脸检测框的人脸特征；

步骤A23，采用所述人脸识别模型，根据所述人脸特征与所述设定阈值的比较，分别对每个所述人脸检测框进行分类，从而识别得到每个所述人脸检测框所对应的身份信息。

优选的，所述步骤A4中，采用所述人脸检测框所对应的所述身份信息对所述数据集中的对应的所述人体检测框进行身份信息标注，从而形成所述训练数据集。

优选的，所述步骤A5包括：

步骤A51，提供一深度卷积网络，以提取所述训练数据集中的各个所述目标图像的全局特征图；

步骤A52，将所述全局特征图进行划分，以获取复数个划分区域，并将所述重识别模型划分为分别对应所述划分区域的多个特征分类网络；

步骤A53，在模型训练的过程中，对每个所述特征分类网络进行损失函数计算，并根据计算结果得到所述重识别模型的最终输入的损失值；

步骤A54，根据所述损失值的目标约束训练得到最终的所述重识别模型。

优选的，所述步骤A52中，对所述全局特征图进行划分的过程具体包括：

步骤A521，确定对所述全局特征图进行划分得到的划分区域的数量；

步骤A522，处理得到所述全局特征图中每个位置的列向量属于不同的所述划分区域的区域概率；

步骤A523，针对每个所述划分区域：

将每个位置的列向量与对应属于所述划分区域的所述区域概率的乘积之和作为所述划分区域的特征向量，以及

将每个位置属于所述划分区域的所述区域概率之和作为所述划分区域的像素个数；

步骤A524，依照每个所述划分区域的所述特征向量和所述像素个数，对所述全局特征图进行划分，以获取复数个所述划分区域。

优选的，所述步骤A3包括：

步骤A31，采用所述第二检测模型分别提取每个所述目标图像中的人体检测框；

步骤A32，提取每个所述划分区域的分类网络，并进行归一化处理后进行拼接，以获取所述人体检测框的人体特征。

优选的，所述步骤B2包括：

步骤B21、提取所述待识别图像中的人体检测框，并分别采用每个所述特征分类网络处理得到所述人体检测框的特征分类特征，拼接所述分类特征得到所述人体检测框的综合特征；

步骤B22、将所述综合特征的特征向量分别与所述重识别模型中预设的已标注有身份信息的不同类别的人体检测框的特征向量进行比对，以得到比对结果；

步骤B23、根据所述比对结果，将与所述综合特征的特征向量之间的余弦距离最近的所述人体检测框所对应的身份信息输出为所述待识别图像的身份信息。

本发明的技术方案的有益效果在于：通过模型训练过程获得重识别模型，再通过身份识别模型将待识别图像输入至重识别模型中，从而有效准确地识别出待识别图像中的幼儿的身份信息，避免了繁琐的针对重识别身份的人工标注过程，也不需要考虑嵌入其它方法进行语义上的划分时带来的数据集分布不一致问题，且增强了对输入的待识别图像的处理能力。

附图说明

参考所附附图，以更加充分的描述本发明的实施例。然而，所附附图仅用于说明和阐述，并不构成对本发明范围的限制。

图1为本发明的实施例的模型训练过程步骤图；

图2为本发明的实施例的身份识别过程步骤图；

图3为本发明的实施例的A2步骤图；

图4为本发明的实施例的A5步骤图；

图5为本发明的实施例的A52步骤图；

图6为本发明的实施例的A3步骤图；

图7为本发明的实施例的B2步骤图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

模型训练过程包括：

步骤A1，采集复数个目标图像；

步骤A2，采用一预先训练的第一检测模型检测得到目标图像中的人脸特征，并根据所述人脸特征与设定阈值的比较，分别对每个所述目标图像中的人脸检测框进行分类，从而识别得到每个所述人脸检测框所对应的身份信息；

步骤A3，采用一预先训练的第二检测模型检测得到目标图像中的人体特征；

步骤A5，采用训练数据集训练形成一重识别模型，重识别模型的输入数据为采集得到的待识别图像，输出数据为识别待识别图像得到的身份信息；

身份识别过程包括：

步骤B1，采集得到待识别图像；

步骤B2，将待识别图像输入至重识别模型中，以识别对应的身份信息并输出。

结合图1、2所示，本实施例中包括模型训练过程和身份识别过程，其中，在模型训练过程，预先在托育园中部署至少一个摄像装置以采集多个目标的多角度的目标图像，该摄像装置的摄像头可360°转动，且可捕捉到托育园中的儿童的表情，若该儿童的表情较为丰富，则摄像头可随着该儿童的运行轨迹而转动。

进一步地，分别通过第一检测模型检测得到上述目标图像中的人脸特征，并根据人脸特征与设定阈值的比较，分别对每个目标图像中的人脸检测框进行分类，从而识别得到每个人脸检测框所对应的身份信息。

进一步地，再通过第二检测模型检测得到目标图像中的人体特征，并将人脸特征与人体特征进行匹配，若该人脸特征与人体特征能够匹配成功，那么就认为该人脸特征和人体特征指向同一个人。

进一步地，并将匹配成功的目标图像的人体特征辅以上述中人脸检测框所对应的身份信息标注后加入数据集中，以形成训练数据集，并采用训练数据集训练形成重识别模型。

本实施例中还包括身份识别过程，首先还是通过摄像装置采集待识别图像，并将该待识别图像输入至重识别模型进行测试，通过测试从而预测出待识别图像中所对应的身份信息。

进一步地，针对上述预测出待识别图像的身份信息，再进行对各个待识别图像中的目标幼儿关于年龄、情绪，社交情况等方面的分析。例如，关于年龄分析，可直接通过摄像装置判断出目标幼儿的身高，从而可预估目标幼儿的年龄；关于情绪分析，通过摄像装置捕捉到目标幼儿的面部表情，以得知该目标幼儿是高兴还是伤心等情绪；关于社交情况分析，通过不同角落的摄像装置追踪同一个目标幼儿在不同时段的社交情况，也就是该目标幼儿是长时间的独处还是与多个幼儿聚集玩耍，从而判断出该目标幼儿的社交情况。

通过上述分析得到的关于身份信息、情绪信息以及姿态识别信息等创建适龄儿童发展发育健康常模，以解决对有偏差的儿童进行早期干预和早期指导等问题。

本实施例中，通过模型训练过程获得重识别模型，再通过身份识别模型将待识别图像输入至重识别模型中，从而有效准确地识别出待识别图像中的幼儿的身份信息，避免了繁琐的针对重识别身份的人工标注过程，也不需要考虑嵌入其它方法进行语义上的划分时带来的数据集分布不一致问题，且增强了对输入的待识别图像的处理能力。

在一种较优的实施例中，第一检测模型包括预先训练得到的人脸检测模型和人脸识别模型，人脸检测模型的输出作为人脸识别模型的输入。

步骤A2包括：

步骤A21，采用人脸检测模型分别提取每个目标图像中的人脸检测框并输入至人脸识别模型；

步骤A22，采用人脸识别模型分别提取每个人脸检测框的人脸特征；

步骤A23，采用人脸识别模型，根据人脸特征与设定阈值的比较，分别对每个人脸检测框进行分类，从而识别得到每个人脸检测框所对应的身份信息。

具体地，如图3所示，通过采用第一检测模型中的人脸检测模型分别提取每个目标图像中的人脸检测框并输入至第一检测模型中的基于ArcFace(弧面)损失的预训练的人脸识别模型，再通过人脸识别模型分别提取每个人脸检测框的人脸特征，并根据设定阈值将不同的人脸进行分类，从而识别得到每个人脸检测框所对应的身份信息，从而可根据该身份信息对所对应的目标儿童进行关于年龄、情绪，社交情况等方面的分析，通过摄像装置捕捉到目标幼儿的面部表情后，以得知该目标幼儿是高兴还是伤心等情绪，以解决对有偏差的儿童进行早期干预和早期指导等问题。本实施例中的设定阈值为0.75。

在一种较优的实施例中，步骤A4中，采用人脸检测框所对应的身份信息对数据集中的对应的人体检测框进行身份信息标注，从而形成训练数据集，也就是说训练数据集具有身份信息标注的只有人体检测框。

在一种较优的实施例中，步骤A5包括：

步骤A51，提供一深度卷积网络，以提取训练数据集中的各个目标图像的全局特征图；

步骤A54，根据损失值的目标约束训练得到最终的重识别模型。

具体地，如图4所示，首先通过提供深度卷积网络，如ResNet(残差网络)或DenseNet(密集卷积网络)，提取训练数据集中的各个目标图像的全局特征图，但是ResNet(残差网络)或DenseNet(密集卷积网络)都需要做一些调整才能准确提取各个目标图像的全局特征图。本实施例中，以ResNet(残差网络)为例来说明提取训练数据集中的各个目标图像的全局特征图的具体过程，将ResNet(残差网络)全连接层之前的全局平均池化移除，只获取全连接层之后的图片区域的划分以及在每个区域内的池化过程，进一步地，ResNet(残差网络)接收经过放缩到固定大小的目标图像后，从而输出一个固定大小的全局特征图。

进一步地，由于捕捉到的人物对象常常处于站立或行走的状态，本实施例中将上述的全局特征图通过采用水平分割方式进行划分，并将重识别模型划分为分别对应划分区域的多个特征分类网络，使得划分的每个划分区域的特征分类网络更加一致，且不同划分区域的特征分类网络的差别更加明显。

进一步地，在模型训练的过程中，需要对每个特征分类网络进行损失函数计算。一般使用的softmax(损失函数)损失得到的决策边界在角度空间中并不存在间隔，因此，为了更加明显的让类内距离更加接近类间距离，并同时加大类间距离。本实施例中借鉴论文《ArcFace:Addictive Angular Margin Loss for Deep Face Recognition》中的内容，将最后一层的权值和输入进行归一化，并将概述如放缩到固定大小，则重识别模型的预测值和最后一层输入和权值的夹角有关，并在夹角添加惩罚项后，相当于显式地增大类间距离而减少类内距离，使某一类尽可能聚集在一个方向附近，进而将改进后每一个划分区域的特征分类网络的损失以划分区域面积占比作加权和，从得到重识别模型的最终输入的损失值。

进一步地，根据前向推导过程反向传播求出损失函数对每个参数的微分，设定学习率使用随机梯度下降训练模型，以得到最终的重识别模型。

在一种较优的实施例中，步骤A52中，对全局特征图进行划分的过程具体包括：

步骤A521，确定对全局特征图进行划分得到的划分区域的数量；

步骤A522，处理得到全局特征图中每个位置的列向量属于不同的划分区域的区域概率；

步骤A523，针对每个划分区域：

将每个位置的列向量与对应属于划分区域的区域概率的乘积之和作为划分区域的特征向量，以及

将每个位置属于划分区域的区域概率之和作为划分区域的像素个数；

步骤A524，依照每个划分区域的特征向量和像素个数，对全局特征图进行划分，以获取复数个划分区域。

具体地，如图5所示，将全局特征图进行划分得到的划分区域的数量，本实施例中划分得到的划分区域的数量为4。本实施例中将全局特征图划分成4个划分区域的目的是假设每个划分区域内的像素特征距离较近有较大的关联，那么单独考虑每一个划分区域可以得到比整个全局特征图更加细粒度的特征。在实际的应用中，这样严格划分的区块中会有许多位置并不符合上述条件，即某些位置的列向量和其它某个划分区域的距离反而要小于和本身所划分的划分区域的距离。因此，在得到全局特征图后，可加入一层卷积和softmax(损失函数)用于分类其每一个位置属于哪一个划分区域，从而得到每一个位置的列向量属于每一个划分区域的区域概率。从而将每个位置的列向量与对应属于划分区域的区域概率的乘积之和作为划分区域的特征向量，以及将每个位置属于划分区域的区域概率之和作为划分区域的像素个数。这样划分区域的划分并不是有着严格边界的硬性处理，而是由每个位置的特征自适应地决定其属于哪个划分区域，从而更加适应和符合实际情况。

在一种较优的实施例中，步骤A3包括：

步骤A31，采用第二检测模型分别提取每个目标图像中的人体检测框；

步骤A32，提取每个划分区域的特征分类网络，并进行归一化处理后进行拼接，以获取人体检测框的人体特征。

具体地，如图6所示，本实施例中的第二监测模型为目标检测模型，通过预训练的目标检测模型提取每个目标图像中的人体检测框，再提取每个目标图像的每个划分区域的特征分类网络，并进行归一化处理后进行拼接，以获取人体检测框的人体特征。

在一种较优的实施例中，步骤B2包括：

步骤B21、提取待识别图像中的人体检测框，并分别采用每个特征分类网络处理得到人体检测框的分类特征，拼接分类特征得到人体检测框的综合特征；

步骤B22、将综合特征的特征向量分别与重识别模型中预设的已标注有身份信息的不同类别的人体检测框的特征向量进行比对，以得到比对结果；

步骤B23、根据比对结果，将与综合特征的特征向量之间的余弦距离最近的人体检测框所对应的身份信息输出为待识别图像的身份信息。

具体地，如图7所示，先采用特征分类网络处理得到人体检测框的分类特征，并将分类特征做归一化处理后进行拼接，从而获得人体检测框的综合特征。

进一步地，提取重识别模型中预设的已标注有身份信息的不同类别的人体检测框的特征向量的中心以及提取的综合特征的特征向量，计算每个已标注有身份信息的不同类别的人体检测框的特征向量的中心与综合特征的特征向量之间的余弦距离，并将与综合特征的特征向量之间的余弦距离最近的人体检测框所对应的身份信息作为待识别图像的身份信息并输出。

进一步地，可针对上述预测出待识别图像的身份信息，再进行对各个待识别图像中的目标幼儿关于年龄、情绪，社交情况等方面的分析。例如，关于年龄分析，可直接通过摄像装置判断出目标幼儿的身高，从而可预估目标幼儿的年龄；关于情绪分析，通过摄像装置捕捉到目标幼儿的面部表情，以得知该目标幼儿是高兴还是伤心等情绪；关于社交情况分析，通过不同角落的摄像装置追踪同一个目标幼儿在不同时段的社交情况，也就是该目标幼儿是长时间的独处还是与多个幼儿聚集玩耍，从而判断出该目标幼儿的社交情况。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种基于深度学习的重身份识别方法，其特征在于，包括模型训练过程和身份识别过程：

所述模型训练过程包括：

步骤A1，采集复数个目标图像；

所述身份识别过程包括：

步骤B1，采集得到所述待识别图像；

步骤B2，将所述待识别图像输入至所述重识别模型中，以识别对应的身份信息并输出；

所述步骤A5包括：

步骤A54，根据所述损失值的目标约束训练得到最终的所述重识别模型；

所述步骤A52中，对所述全局特征图进行划分的过程具体包括：

步骤A523，针对每个所述划分区域：

2.如权利要求1所述的重身份识别方法，其特征在于，于所述步骤A1中，通过在一重身份识别区域中部署至少一个摄像装置采集多个目标的多角度的所述目标图像。

3.如权利要求1所述的重身份识别方法，其特征在于，所述第一检测模型包括预先训练得到的人脸检测模型和人脸识别模型，所述人脸检测模型的输出作为所述人脸识别模型的输入。

4.如权利要求3所述的重身份识别方法，其特征在于，所述步骤A2包括：

5.如权利要求4所述的重身份识别方法，其特征在于，所述步骤A4中，采用所述人脸检测框所对应的所述身份信息对所述数据集中的对应的人体检测框进行身份信息标注，从而形成所述训练数据集。

6.如权利要求1所述的重身份识别方法，其特征在于，所述步骤A3包括：

步骤A32，提取每个所述划分区域的特征分类网络，并进行归一化处理后进行拼接，以获取所述人体检测框的人体特征。

7.如权利要求6所述的重身份识别方法，其特征在于，所述步骤B2包括：

步骤B21、提取所述待识别图像中的人体检测框，并分别采用每个所述特征分类网络处理得到所述人体检测框的分类特征，拼接所述分类特征得到所述人体检测框的综合特征；