CN114694184A

CN114694184A - 一种基于多模板特征更新的行人重识别方法及系统

Info

Publication number: CN114694184A
Application number: CN202210584306.0A
Authority: CN
Inventors: 周军; 郭鸿韬; 曹晴晴; 弓育川
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-07-01
Anticipated expiration: 2042-05-27
Also published as: CN114694184B

Abstract

本发明公开了一种基于多模板特征更新的行人重识别方法及系统，属于计算机视觉技术领域。本发明方法包括：提取目标行人的行人特征、提取目标行人的面部图像的人脸关键点，以及检测各视频帧的行人，对行人进行行人特征提取；再基于余弦距离确定初步查找对象，当其与模板特征组间的余弦距离满足条件一时，则匹配成功，否则，检测其是否满足条件二，若是则启动人脸识别处理，基于人脸识别确定行人匹配结果，否则匹配失败；当连续多帧均匹配成功时，基于匹配得到的目标行人特征对模板特征组进行更新。本发明还公开了对应本发明方法的行人重识别系统。本发明解决了行人识别的遮挡问题，且降低了运算开销，有效提升了行人识别稳定性。

Description

一种基于多模板特征更新的行人重识别方法及系统

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于多模板特征更新的行人重识别方法及系统。

背景技术

行人重识别是计算机视觉领域中的一类重要问题。在图像或视频中进行行人的检测和识别时，往往会出现行人处于不同镜头所拍摄画面的情况。行人重识别任务需保证行人再次出现在该摄像头或其他摄像头时，可以重新锁定目标，从而完成跨镜头跟踪、行人定位等相关任务。

行人重识别包含特征提取和特征匹配两个步骤。首先在采集原始数据（图像数据）并将行人截取出来后，设计重识别模型去挖掘数据中不同行人的隐藏特征表达模式的过程称为特征提取，提取到的特征组称为模板。此后，将训练好的模型应用到测试场景中，将提取的待检测目标特征与模板特征进行比较，这一步骤称为特征匹配。

特征提取方面，随着基于神经网络的深度学习技术的发展，该技术被更广泛的用于行人重识别任务中。相比于传统的特征工程提取技术，神经网络通过数据驱动的学习方式，能够更好的提取高层次特征，并缓解手动高层次特征设计导致算法性能高度依赖经验的问题，为行人重识别任务的高准确率奠定了基础。

特征匹配方面，将模板和图像或视频帧通过特征提取后，对表示特征的向量进行匹配，从而得到匹配结果。使用该方法可以通过改变模板完成对不同目标的重识别，从而提高行人重识别灵活性。

然而，现有行人重识别任务因摄像头拍摄对象角度及遮挡不确定等因素，导致模板与输入图像匹配困难，针对这个问题，现有主流研究方向主要通过如何特征提取或如何对提取之后的特征进行匹配来减少影响，对模板图像的选取本身研究工作较少。当前，现有的行人重识别方案主要有：

公开号为CN111738090A的专利申请公开了一种行人重识别模型训练方法，包括：利用行人重识别模型的卷积网络对行人图像进行特征提取，得到行人图像的原始特征；利用行人重识别模型的注意力模块对原始特征进行处理，得到多个行人局部特征；利用行人重识别模型的图神经网络，确定各行人局部特征之间的相似性矩阵，并根据相似性矩阵对各行人局部特征进行调整；基于调整后的行人局部特征确定行人识别结果及行人重识别模型的训练损失，根据训练损失对模型参数进行优化。

公开号为CN112036271A的专利申请公开了一种行人重识别方法，该方法包括：分别获取对应一预设时刻且包含有多帧行人图像的第一行人图像数据集及对应预设时刻的下一时刻且包含有多帧行人图像的第二行人图像数据集；搭建行人重识别模型；行人重识别模型包括特征提取模块、卡尔曼滤波更新模块及特征输出模块；根据第一行人图像数据集和第二行人图像数据集训练行人重识别模型，获取训练好的行人重识别模型，以基于训练好的行人重识别模型进行行人重识别。

公开号为CN109598191A的专利申请公开了一种行人重识别残差网络训练方法，所述方法包括：将样本图像输入行人重识别残差网络的卷积层进行处理，以提取所述样本图像的特征；将所述特征输入所述行人重识别残差网络的映射层进行球面映射，以得到所述特征的映射值；根据所述映射值确定所述样本图像的余弦空间损失；向所述行人重识别残差网络反向传播所述余弦空间损失的梯度，以调整所述行人重识别残差网络的参数。

公开号为CN108446613A的专利申请公开了一种基于距离中心化与投影向量学习的行人重识别方法，包括：步骤1、行人训练集和测试集的划分；步骤2、提取行人图像的特征，包括颜色特征与纹理特征；步骤3、计算中心化的特征距离；步骤4、构建基于迭代投影向量学习的行人重识别模型；步骤5、利用共轭梯度法迭代求解模型；步骤6、计算测试集中的不同行人特征距离进行行人重识别。

公开号为CN111597876A的专利申请公开了一种基于困难五元组的跨模态行人重识别方法，该方法首先构建跨模态行人重识别模型，使用卷积神经网络提取图像特征，嵌入特征连接身份损失和排序损失，用单模态行人重识别数据集进行预训练；然后对训练批次图像进行选取，使用已有的单模态行人重识别网络进行行人特征提取，根据输入图像的特征向量构建困难五元组，困难五元组损失函数联合身份损失函数进行训练。最终在跨模态行人重识别数据集SYUSMM01上实现优越的精度。

公开号为CN109344787A的专利申请公开了一种基于人脸识别与行人重识别的特定目标跟踪方法，其首先训练基于特征融合与三重损失函数的行人重识别神经网络，建立追踪目标人脸库，人脸识别模块提取人脸库的人脸特征向量；然后检测监控画面中的行人，人脸识别模块提取监控画面中行人人脸特征，与人脸库特征向量比对相似度，人脸识别成功则保存由行人重识别模型得到的行人特征至行人库。人脸识别失败则进行行人重识别，比对行人特征与行人特征库的相似度。行人重识别成功则保存相似度高的行人特征至行人库，行人重识别失败则利用上下帧的时空相关性确定行人的身份。

基于上述现有的行人重识别方案可知，现有主流研究方向主要通过如何提取特征或如何对提取之后的特征进行匹配来减少因不同摄像头所在场景不同导致的识别不稳定问题，但是这些方法没有针对因摄像头拍摄对象角度及遮挡不确定等因素进行专门优化。且现有的行人重识别方案可能会对系统的运算和功耗带来较大负担。

发明内容

本发明提供了一种基于多模板特征更新的行人重识别方法及系统，可用于提升行人识别稳定性，并有效降低运算开销。

一方面，本发明提供了一种基于多模板特征更新的行人重识别方法，所述方法包括下列步骤：

特征提取步骤：

输入目标行人的整体图像，提取所述整体图像的行人特征，得到目标行人的行人特征并作为初始模板特征；并将初始模板特征复制N份组成模板特征组，其中N为大于2的正整数；

输入目标行人的面部图像，提取所述面部图像的人脸关键点，得到目标人脸关键点；

输入视频流数据，对所述视频流数据的各视频帧进行行人检测，得到各视频帧的行人检测结果，并对每个行人检测结果进行行人特征提取处理，得到每个视频帧的每个行人的行人特征；

行人特征匹配处理步骤：

计算当前视频帧的每个行人的行人特征与当前模板特征组的每个模板特征之间的余弦距离，查找各行人特征与当前模板特征组的平均余弦距离最小的行人，得到初步查找对象；

判断初步查找对象的行人特征与当前模板特征组的各模板特征之间的最小余弦距离是否小于第一阈值，若最小余弦距离小于第一阈值，则表示当前帧的目标行人匹配成功，将初步查找对象的行人特征作为当前帧的目标行人特征；

否则，继续判断初步查找对象的行人特征与当前模板特征组的各模板特征之间的平均余弦距离是否小于第二阈值，若平均余弦距离小于第二阈值，则表示当前帧的目标行人匹配成功，将初步查找对象的行人特征作为当前帧的目标行人特征；

否则，继续判断初步查找对象的行人特征与当前模板特征组的各模板特征之间的最小余弦距离是否小于第二阈值，若最小余弦距离小于第二阈值，则基于当前初步查找对象执行人脸识别处理步骤；

否则，继续判断所述初步查找对象的行人特征与当前模板特征组的各模板特征之间的平均余弦距离是否小于第三阈值，若平均余弦距离小于第三阈值，则基于当前初步查找对象执行人脸识别处理步骤；否则表示当前帧的目标行人匹配失败；

其中，第一阈值小于第二阈值，第二阈值小于第三阈值；

人脸识别处理步骤：

对当前初步查找对象的行人检测结果进行人脸定位和人脸关键点提取处理，得到当前初步查找对象的人脸关键点，若与目标人脸关键点相匹配，则表示当前帧的目标行人匹配成功，并将当前初步查找对象的行人特征作为当前帧的目标行人特征；否则，当前帧的目标行人匹配失败。

模板特征组更新步骤：

当检测到连续多帧的目标行人匹配均成功时，以最近得到的目标行人特征或者连续多帧中的任一一帧的目标行人特征作为候选模板特征，并将模板特征组的后N-1个模板特征作为候选模板特征，得到包含N个候选模板特征的候选模板特征集；遍历候选模板特征集中的N-1个候选模板特征的组合，查找N-1个候选模板特征的组合内的余弦距离最大的组合；将查找到的N-1个候选模板特征替换模板特征组的后N-1个模板特征，得到更新后的模板特征组。

进一步的，所述特征提取步骤中，采用基于神经网络的行人检测网络对视频流数据的各视频帧进行行人检测。

进一步的，行人检测网络在检测时的目标类仅设置为一个类别：行人。

进一步的，所述特征提取步骤中，通过基于神经网络的行人重识别网络进行行人特征提取。

另一方面，本发明还提供了一种基于多模板特征更新的行人重识别系统，包括行人检测单元、行人特征提取单元、人脸识别处理单元、行人特征匹配处理单元、模板特征组更新单元和存储单元；

所述行人检测单元，用于对输入的视频流数据的各视频帧进行行人检测处理，并将行人检测结果存入存储单元的指定位置；

所述行人特征提取单元，从存储单元中顺序读取每个视频帧的行人检测结果，并进行行人特征提取处理，得到当前视频帧的每个行人的行人特征并存入存储单元的指定位置；以及对直接输入的目标行人的整体图像进行行人特征提取，将目标行人的行人特征作为初始模板特征并存入存储单元的指定位置或者直接发送至模板特征组更新单元；

行人特征匹配处理单元，从存储单元中顺序读取各视频帧的行人特征，以及从模板特征组更新单元中读取模板特征组，对各视频帧进行行人特征匹配处理：计算当前视频帧的每个行人的行人特征与模板特征组的每个模板特征之间的余弦距离，查找各行人特征与模板特征组的平均余弦距离最小的行人，得到初步查找对象；并判断初步查找对象的行人特征与当前模板特征组的各模板特征之间的最小余弦距离是否小于第一阈值，若最小余弦距离小于第一阈值，则表示当前帧的目标行人匹配成功，将初步查找对象的行人特征作为当前帧的目标行人特征并发送给模板特征组更新单元；否则，继续判断初步查找对象的行人特征与当前模板特征组的各模板特征之间的平均余弦距离是否小于第二阈值，若平均余弦距离小于第二阈值，则表示当前帧的目标行人匹配成功，将初步查找对象的行人特征作为当前帧的目标行人特征并发送给模板特征组更新单元；否则，继续判断初步查找对象的行人特征与当前模板特征组的各模板特征之间的最小余弦距离是否小于第二阈值，若最小余弦距离小于第二阈值，则向人脸识别处理单元发送启动信息；否则，继续判断所述初步查找对象的行人特征与当前模板特征组的各模板特征之间的平均余弦距离是否小于第三阈值，若平均余弦距离小于第三阈值，则向人脸识别处理单元发送启动信息；否则表示当前帧的目标行人匹配失败；所述启动信息包括所述初步查找对象；

其中，第一阈值小于第二阈值，第二阈值小于第三阈值；

所述人脸识别处理单元，用于对直接输入的目标行人的面部图像进行人脸关键点提取处理，并将提取的人脸关键点作为目标人脸关键点并保存在人脸识别处理单元；以及基于行人特征匹配处理单元发送的启动信息，从存储单元中读取启动信息中的初步查找对象的行人检测结果，对当前初步查找对象的行人检测结果进行人脸定位和人脸关键点提取处理，得到当前初步查找对象的人脸关键点，若与目标人脸关键点相匹配，则表示当前帧的目标行人匹配成功，从存储单元中读取当前初步查找对象的行人特征作为当前帧的目标行人特征并发送给模板特征组更新单元；否则，当前帧的目标行人匹配失败；

所述模板特征组更新模块，用于模板特征组的初始化和更新；

其中，模板特征组初始化为：从存储单元中读取初始模板特征并复制N份组成模板特征组，或者将收到的初始模板特征复制N份组成模板特征组，其中N为大于2的正整数；

模板特征组更新为：当检测到连续多帧的目标行人匹配均成功时，以最近收到的目标行人特征或者连续多帧中的任一一帧的目标行人特征作为候选模板特征，并将模板特征组的后N-1个模板特征作为候选模板特征，得到包含N个候选模板特征的候选模板特征集；遍历候选模板特征集中的N-1个候选模板特征的组合，查找N-1个候选模板特征的组合内的余弦距离最大的组合；将查找到的N-1个候选模板特征替换模板特征组的后N-1个模板特征，得到更新后的模板特征组。

本发明提供的技术方案至少带来如下有益效果：

（1）能有效解决现有方案对摄像头拍摄对象角度及遮挡不确定等因素下的识别率差的技术问题，有效提升了行人识别稳定性；

（2）在极小的资源开销下可以缓解由于摄像头拍摄对象角度及遮挡不确定等因素导致的识别结果不稳定的技术问题；

（3）在原始行人重识别基础上增加了人脸识别的辅助判断，能够提高对目标的识别率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种基于多模板特征更新的行人重识别方法的处理流程图；

图2是本发明实施例提供的一种基于多模板特征更新的行人重识别方法的行人特征匹配处理的处理过程示意图；

图3是本发明实施例提供的一种基于多模板特征更新的行人重识别方法的模板特征组更新过程示意图；

图4是本发明实施例提供的一种基于多模板特征更新的行人重识别方法采用的行人重识别网络的残差单元一的结构示意图；

图5是本发明实施例提供的一种基于多模板特征更新的行人重识别方法采用的行人重识别网络的残差单元二的结构示意图；

图6是本发明实施例提供的一种基于多模板特征更新的行人重识系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

针对行人重识别匹配阶段由于目标多角度、不同遮挡情况等导致图片特征信息缺失所造成的识别结果不稳定的技术问题，本发明实施例提供了一种基于多模板特征更新的行人重识别方法及系统。旨在保证较少资源开销的条件下，自动获取目标的多角度、不同遮挡情况的特征信息，以此作为联合判别的依据。

参见图1，本发明实施例提供的基于多模板特征更新的行人重识别方法，包括下列步骤：

步骤S1，特征提取：

输入目标行人的整体图像，提取所述整体图像的行人特征，得到目标行人的行人特征并作为初始模板特征；并将初始模板特征复制N（大于2的正整）份组成模板特征组，即基于初始模板特征得到初始的模板特征组；

步骤S2，行人特征匹配处理：

该步骤中，将提取到的每个视频帧的每个行人的行人特征与模板特征组进行余弦距离的计算，基于余弦距离实现行人特征匹配处理，其中，余弦距离是由余弦公式计算向量空间中两个向量夹角的余弦值，以此作为衡量两个个体间差异的大小的度量，也称为余弦相似度，用以描述两个向量的方向差异。参见图2，步骤S2具体为：

步骤S201，确定初步查找对象：计算当前视频帧的每个行人的行人特征与模板特征组的每个模板特征之间的余弦距离，查找各行人特征与模板特征组的平均余弦距离最小的行人，得到初步查找对象；

步骤S202，判断初步查找对象的行人特征与当前模板特征组的各模板特征之间的最小余弦距离是否小于阈值A，若是，则执行步骤S204，否则执行步骤S203；

步骤S203：判断初步查找对象的行人特征与当前模板特征组的各模板特征之间的平均余弦距离是否小于阈值B，若是，则执行步骤S204，否则执行步骤S205；

步骤S204：基于初步查找对象确定当前帧的行人匹配结果：当前帧的目标行人匹配成功，将初步查找对象的行人特征作为当前帧的目标行人特征，从而得到当前帧的行人匹配结果；

步骤S205：判断初步查找对象的行人特征与当前模板特征组的各模板特征之间的最小余弦距离是否小于阈值B，若是，执行步骤S3（人脸识别处理），否则，执行步骤S206；

步骤S206：判断初步查找对象的行人特征与当前模板特征组的各模板特征之间的平均余弦距离是否小于阈值C，若是，执行步骤S3（人脸识别处理），否则，表示当前帧的目标行人匹配失败。

其中，阈值A小于阈值B，阈值B小于阈值C。

步骤S3，人脸识别处理：

该步骤中，基于步骤S1中提取得到的目标人脸关键点，以及初步查找对象的人脸关键点实现人脸识别处理，具体为：对当前初步查找对象的行人检测结果进行人脸定位和人脸关键点提取处理，得到当前初步查找对象的人脸关键点，若与目标人脸关键点相匹配，则表示当前帧的目标行人匹配成功，并将当前初步查找对象的行人特征作为当前帧的目标行人特征，否则，当前帧的目标行人匹配失败，从而得到当前帧的行人匹配结果。

步骤S4，模板特征组更新：

本申请中，只有当连续多帧都能目标行人匹配成功时，才对模板特征组进行更新，即基于步骤S2与S3得到的行人匹配结果进行更新，参见图3，其具体实现过程为：

步骤S401，检测是否连续多帧目标行人匹配成功，若是，则执行步骤S402；否则，模板特征组保持不变；

该步骤中，即基于得到的各帧的目标行人特征，检测这些目标行人特征所对应的视频帧是否是连续的，且帧数是否大于或等于预设阈值，若是，则表示连续多帧匹配成功；

步骤S402，提取候选模板特征：以最近得到的目标行人特征或者连续多帧中的任一一帧的目标行人特征作为候选模板特征，并将模板特征组的后N-1个模板特征作为候选模板特征，得到包含N个候选模板特征的候选模板特征集；

步骤S403，在候选模板特征集查找N-1个最佳组合：遍历候选模板特征集中的N-1个候选模板特征的组合，查找N-1个候选模板特征的组合内的余弦距离最大的组合；

步骤S404，基于查找结果更新模板特征组：将查找到的N-1个候选模板特征替换模板特征组的后N-1个模板特征，得到更新后的模板特征组。

本发明实施例提供的基于多模板特征更新的行人重识别方法旨在使重识别匹配阶段，能够自动保存目标人物的多角度、不同遮挡情况的图片特征，在逐渐获取到目标的多角度特征后就能对目标进行高稳定性的重识别。

作为一种可能的实现方式，本发明实施例中，可以采用任一惯用的行人检测网络实现行人检测，诸如通用的基于神经网络的目标检测网络，亦或是专用于行人的检测算法，如基于方向梯度直方图的各类检测器等都适用于行人检测任务。

作为一种可能的实现方式，本发明实施例中，提取行人特征（包括视频帧行人的行人特征，以及目标行人的整体图像的行人特征）可以是通过ReID （行人重识别）网络对全身图片提取特征，并初始化模板特征组。本发明实施例中，主要采用两种残差单元来构建行人重识别网络的残差结构，即两种残差单元可以根据实际处理场景进行选择，亦或是两种残差单元都包含，通过多个残差单元的堆叠结构构成行人重识别网络的残差结构。

两种残差单元的网络结构分别为：

第一种残差单元用于加深网络，参见图4，该残差单元包括三个依次连接的卷积层，各层卷积层的卷积核大小依次为：1×1、3×3和1×1，通道数依次为：n/4，n/4，n，卷积步长均为1，其中n表示残差单元的输入特征图的通道数，且在残差单元的输入和最后一层卷积层的输出之间存在短连接（跳跃连接），即将残差单元的输入特征图与最后一层卷积层的输出相加，再经激活函数relu得到该残差单元的输出特征图。

第二种残差单元用于加深网络的同时还起到对特征图进行下采样的操作，参见图5，该残差单元包括主路和短连接，其中主路包括三个依次连接的卷积层，各层卷积层的卷积核大小依次为：1×1、3×3和1×1，通道数依次为：n/4，n/4，n，卷积步长依次为：1、2、1，n/2表示残差单元的输入特征图的通道数，残差单元的输入和主路的最后一层卷积层的输出之间存在短连接，且该短连接上接入一层卷积核为1×1、步长为2，通道数为n的卷积层，主路与短连接的输出相加后再经激活函数relu得到该残差单元的输出特征图。

作为一种可能的实现方式，本发明实施例中，ReID网络在网络训练时采用的损失函数具体为：

ReID网络通常用于计算损失函数的特征有两组，分别是网络在最后全连接层前的特征f _t与经过全连接层后的特征f _i，可以认为f _t为行人特征，即行人的整体特征信息，而f _i为训练阶段网络预测的各行人标签概率。鉴于网络在训练时需要同时输入正样本与负样本两种数据，而训练的最终目标是希望网络对于输入，能够使其输出特征f _t尽可能逼近正样本且远离负样本，f _i的最大概率能够对应输入的真实标签值，所以训练时使用损失函数Triplet loss优化特征f _t，损失函数ID loss使用交叉熵函数优化特征f _i。

其中，Triplet loss和ID loss的表达式具体为：

其中，函数max( )表示求取最大值，d(a,p)表示输入样本a与正样本p的余弦距离，

表示输入样本a与负样本

的余弦距离，margin为一个预置的常量。可以发现，Triplet loss的优化目标就是最小化输入样本a与正样本p的余弦距离，并最大化输入样本a与负样本

的的余弦距离，最优情况下输入样本a与正样本p的余弦距离等于0，而与负样本

的余弦距离等于margin，所以margin的有效设置是有必要的，否则与负样本

的余弦距离可能会偏小。在ID loss中，y为样本真实的标签，p _i为网络对第i类的预测结果，即ReID网络输出的各行人标签概率，M表示类别数。ID loss希望最大化网络对于正确标签的输出概率，即在最小化ID loss时，令正确预测的p _i尽可能大。q _i用于抑制其他错误预测对损失函数的影响，可以理解为筛选第i类正确预测结果损失的度量值，当预测结果与真实标签相一致时，取值为1，否则为0，即当预测结果与真实标签相一致时，则筛选出该损失，否则，去除该损失。

基于上述ReID网络，本发明实施例提供的基于多模板特征更新的行人重识别方法的具体处理过程为：

输入一幅目标人物的全身图片，采用ReID网络对全身图片进行行人特征提取，并基于提取结果，初始化模板特征组（模板特征组也可称为ReID 模板），即将该目标人物的行人特征作为初始模板特征并复制若干份，从而得到初始的模板特征组，定义N表示复制的份数，优选的，N的取值可以设置为5。

同时使用人脸识别算法对目标人物的人脸图片进行关键点编码，即将人脸图片数据编码成一串字符串，从而得到目标人脸关键点。需要说明的是，人脸识别算法可以采用本领域任一惯用的算法，本发明实施例对此不做具体限定。

在进行匹配模板处理时，对输入的视频流数据的每帧图像进行行人检测，即将帧图像输入至采用的目标检测网络中，基于其输出获取行人检测结果。本发明实施例中，由于目标检测只需识别行人一类目标，为了进一步降低计算复杂度，重设了anchors（固定参考框）的大小，这样只保留下联合训练集中的person（行人类）目标。这样，当判断这个目标的各类可能性时，由于只有一类目标，所以当前区域有极大概率含有目标，降低了计算复杂度。以目标检测算法yolov5为例，原始网络的最后一层卷积核个数为255，由于每个尺度特征图分配3个anchors，预测的检测框（bbox）的信息包括x，y，△x，△y和confidence共5个参数，其中，x，y表示检测框的中心点坐标，△x，△y分别表示检测框的长度和宽度，confidence表示类别置信度，即检测框的目标属于person类的概率，本实施例中由于仅需要对1个person类获得概率，所以最后一层卷积核个数为：3×（1+5）=18，相较于原始网络的255个卷积核，极大减小了最后一层的计算量。

当得到每帧的行人检测结果后，需要对每帧检测到的行人进行裁剪，得到当前检测到的行人的全身图像，裁剪的目的是为了使得裁剪后的图像尺寸与ReID网络的输入相匹配。然后，将裁剪后的图像输入 ReID 网络进行行人特征提取，提取到当前视频帧的每个行人的行人特征，得到当前视频帧的行人特征组；再将行人特征组与当前的模板特征组进行匹配处理，即分别计算各行人特征与模板特征组的各模板特征之间的余弦距离，然后查找行人特征与模板特征组的最小平均余弦距离，得到初步查找对象，再判断初步查找对象是否满足，若满足第一条件，则行人匹配成功；当不满足第一条件时，则继续判断初步查找对象是否满足第二条件，以判断是否开启人脸识别处理。当满足第二条件时，开启人脸识别处理，当不满足第二条件时，当前视频帧的行人匹配失败。同时，当满足连续多帧匹配成功时，再基于匹配结果对模板特征组更新方式对其进行自适应的更新处理。

其中，第一条件为：初步查找对象的行人特征与模板特征组的各模板特征之间的最小余弦距离小于阈值A，或者初步查找对象的行人特征与模板特征组的各模板特征之间的平均余弦距离小于阈值B；第二条件为：初步查找对象的行人特征与模板特征组的各模板特征之间的最小余弦距离小于阈值B，或者初步查找对象的行人特征与模板特征组的各模板特征之间的平均余弦距离小于阈值C；且阈值A小于阈值B，阈值B小于阈值C。

本发明实施例中，ReID是基于残差神经网络的行人重识别网络。而在利用神经网络进行提取特征时，为保证网络性能，本发明实施例在训练时并未采用随机翻转、随机裁剪和随机增广擦除（REA）等技术，因为研究表明相较于未采用的情况，采用上述技术在进行跨域处理时会造成网络性能的下降。同时，采用学习率变化策略，使epoch（所有的数据完成一次完整训练的过程）学习率先缓慢上升到初始学习率，再逐渐下降。从而保证训练损失稳定下降。

需要说明的是，在利用本发明实施例提供的基于多模板特征更新的行人重识别方法进行目标跟踪处理时，包括：将当前搜索到的人物目标作为跟踪的模板帧，并对其进行连续多帧的跟踪，之后再结合更新后的模板特征组，利用本发明实施例提供的行人特征匹配处理和人脸识别处理重复对视频帧进行目标跟踪。若无法找到匹配人物，则继续对下一帧视频进行处理。

另一方面，本发明实施例还提供了一种基于多模板特征更新的行人重识别系统，参见图6，其包括行人检测单元、行人特征提取单元、人脸识别处理单元、行人特征匹配处理单元、模板特征组更新单元和存储单元；

其中，行人检测单元，用于对输入的视频流数据的各视频帧进行行人检测处理，并将行人检测结果存入存储单元的指定位置；

所述行人特征提取单元，从存储单元中顺序读取每个视频帧的行人检测结果，并进行行人特征提取处理，得到当前视频帧的每个行人的行人特征并存入存储单元的指定位置；以及对直接输入的目标行人的整体图像进行行人特征提取，将目标行人的行人特征作为初始模板特征并存入存储单元的指定位置或者直接发送至模板特征组更新单元；判断初步查找对象的行人特征与当前模板特征组的各模板特征之间的最小余弦距离是否小于阈值A，若最小余弦距离小于阈值A，则表示当前帧的目标行人匹配成功，将初步查找对象的行人特征作为当前帧的目标行人特征并发送给模板特征组更新单元；否则，继续判断初步查找对象的行人特征与当前模板特征组的各模板特征之间的平均余弦距离是否小于阈值B，若平均余弦距离小于阈值B，则表示当前帧的目标行人匹配成功，将初步查找对象的行人特征作为当前帧的目标行人特征并发送给模板特征组更新单元；否则，继续判断初步查找对象的行人特征与当前模板特征组的各模板特征之间的最小余弦距离是否小于阈值B，若最小余弦距离小于阈值B，则向人脸识别处理单元发送启动信息；否则，继续判断所述初步查找对象的行人特征与当前模板特征组的各模板特征之间的平均余弦距离是否小于阈值C，若平均余弦距离小于阈值C，则向人脸识别处理单元发送启动信息；否则表示当前帧的目标行人匹配失败；所述启动信息包括所述初步查找对象；其中，阈值A小于阈值B，阈值B小于阈值C。

其中，模板特征组初始化为：从存储单元中读取初始模板特征并复制N（N＞2）份组成模板特征组，或者将收到的初始模板特征复制多份组成模板特征组；

模板特征组更新为：当检测到连续多帧的目标行人匹配均成功时（即基于收到的各帧的目标行人特征，检测这些目标行人特征所对应的视频帧是否是连续的，且帧数是否大于或等于预设阈值，若是，则表示连续多帧匹配成功），以最近收到的目标行人特征或者连续多帧中的任一一帧的目标行人特征作为候选模板特征，并将模板特征组的后N-1个模板特征作为候选模板特征，得到包含N个候选模板特征的候选模板特征集；遍历候选模板特征集中的N-1个候选模板特征的组合，查找N-1个候选模板特征的组合内的余弦距离最大的组合；将查找到的N-1个候选模板特征替换模板特征组的后N-1个模板特征，得到更新后的模板特征组，其中，N表示模板特征组包含的模板特征数。

需要说明的是，上述实施例提供的行人重识别系统在实现其功能时，仅以上述各单元模块的划分进行举例说明，实际应用中，可以根据需要而将上述单元模块分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的行人重识别系统与方法实施例属于同一构思，其具体实现过程详见方法实施例，此处不再赘述。

本发明实施例提供的基于多模板特征更新的行人重识别方法及系统，相较于传统技术采用的方案，本发明实施例不再是单纯对原始提取的特征组优化，而是逐帧更新模板，从而能更好地提高对目标的检测率。同时，固定一组特征，更新后续特征的方式能在占据极小资源开销的同时，有效缓解传统方案随时间更新模板技术不保留上一次提取特征，容易造成持续误判的问题。从而使得在摄像头拍摄对象角度及遮挡不确定等因素的影响下，识别稳定性进一步提升。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于多模板特征更新的行人重识别方法，其特征在于，包括下列步骤：

特征提取步骤：

输入目标行人的整体图像，提取所述整体图像的行人特征，得到目标行人的行人特征并作为初始模板特征，并将初始模板特征复制N份组成模板特征组，其中N为大于2的正整数；

行人特征匹配处理步骤：

其中，第一阈值小于第二阈值，第二阈值小于第三阈值；

人脸识别处理步骤：

对当前初步查找对象的行人检测结果进行人脸定位和人脸关键点提取处理，得到当前初步查找对象的人脸关键点，若与目标人脸关键点相匹配，则表示当前帧的目标行人匹配成功，并将当前初步查找对象的行人特征作为当前帧的目标行人特征；否则，当前帧的目标行人匹配失败；

模板特征组更新步骤：

2.如权利要求1所述的基于多模板特征更新的行人重识别方法，其特征在于，所述特征提取步骤中，采用基于神经网络的行人检测网络对视频流数据的各视频帧进行行人检测。

3.如权利要求2所述的基于多模板特征更新的行人重识别方法，其特征在于，行人检测网络在检测时的目标类仅设置为一个类别：行人。

4.如权利要求1所述的基于多模板特征更新的行人重识别方法，其特征在于，所述特征提取步骤中，通过基于神经网络的行人重识别网络进行行人特征提取。

5.一种基于多模板特征更新的行人重识别系统，其特征在于，包括行人检测单元、行人特征提取单元、人脸识别处理单元、行人特征匹配处理单元、模板特征组更新单元和存储单元；

其中，第一阈值小于第二阈值，第二阈值小于第三阈值；