CN114863488A

CN114863488A - 一种基于行人重识别的公共场所多态行人目标识别追踪方法、电子设备及存储介质

Info

Publication number: CN114863488A
Application number: CN202210646437.7A
Authority: CN
Inventors: 李洋; 张�杰; 李伟; 孙轲; 兰元帅; 邓小龙; 张文鹏; 张鹏; 文俊杰; 彭家豪; 李应强; 冯若芯; 黄仕忧民; 牟一卉
Original assignee: Chengdu College of University of Electronic Science and Technology of China
Current assignee: Chengdu College of University of Electronic Science and Technology of China
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-08-05

Abstract

一种基于行人重识别的公共场所多态行人目标识别追踪方法、电子设备及存储介质，属于计算机视觉技术领域。为提供准确的无监督的行人重识别多态检测方法。本发明采用ImageNet网络进行数据的预训练，得到预训练的分类网络模型，通过AdaptiveAvgPool2d自适应池化，进行空间维度的压缩，同时取出对应维度的均值，抑制部分特征的权重，得到输出为Market1501数据集的网络模型，采用梯度下降法对网络模型进行训练，然后输入查询图像，如为重复图像则将重复图像丢弃，如为有效图像则对查询图像进行处理，调用函数计算出每张查询图片和查询库图像的相对权重，并对查询图片进行保存分类。本发明方法准确。

Description

一种基于行人重识别的公共场所多态行人目标识别追踪方法、电子设备及存储介质

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于行人重识别的公共场所多态行人目标识别追踪方法、电子设备及存储介质。

背景技术

目前在人脸识别等精准识别场景技术较为成熟，应用案例丰富，尤其是国内相关应用更是琳琅满目。然而对于复杂画面，且目标信息非高清内容环境下的识别方案少见，相关应用更是屈指可数。行人重识别是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。受行人姿态、遮挡、光照变化等因素的影响，传统方法下行人重识别对画面特诊的表达能力有限，导致准确率降低。以大画面多人物的识别为例，目前国内外虽有不少学者参与研究，但目前公众场所并无相关应用产生，仍然处于火热研究、高速发展的阶段。有部分学者针对开阔室内场景中摄像机位置及相关参数无法获取，现有定位方法无法保证精度的情况下，重点研究基于单目相机的行人精确定位。首先用YOLOv3算法完成行人检测与计数，为了达到实时检测的目的，用卡尔曼滤波器提高计算速度，最后通过摄像头高度以及内、外参数，计算人员脚下位置相对摄像头坐标，再通过几何校正转换为真实坐标，完成人员定位。经过现场验证，定位误差在20cm以内，但仍未能实现实时追踪功能。同时由于目前大部分方法依赖有效标注数据集，标签的缺乏也使无监督的行人重识别多态检测方法变得更具有挑战性。

发明内容

本发明要解决的问题是针对现有方法的不足，提出一种基于行人重识别的公共场所多态行人目标识别追踪方法、电子设备及存储介质。

为实现上述目的，本发明通过以下技术方案实现：

一种基于行人重识别的公共场所多态行人目标识别追踪方法，包括如下步骤：

S1、采用ImageNet网络进行数据的预训练，ImageNet预训练的分类网络模型将数据集内不同ID的行人进行分类，以一行人分配一个ID，不同图像相同ID的图片分类为一类，得到预训练的分类网络模型；

S2、将步骤S1预训练的分类网络模型通过AdaptiveAvgPool2d自适应池化，进行空间维度的压缩，同时取出对应维度的均值，抑制部分特征的权重，得到输出为Market1501数据集的网络模型；

S3、将步骤S2得到的Market1501数据集的网络模型的训练，采用梯度下降法对Market1501数据集的网络模型进行训练；

S4、载入步骤S3训练后的模型，然后输入查询图像，如为重复图像则将重复图像丢弃，如为有效图像则对查询图像进行处理，调用Trihard损失公式计算出每张查询图片和查询库图像的相对权重，并对查询图片进行保存分类，完成多态行人目标识别追踪。

进一步的，步骤S1中数据分类采用ResNET50预训练网络模型和Trihard损失公式：

其中P和K为设定的阈值参数，L_th为TriHard损失，maxd_a，p为距离最远的正样本，mind_a，n为距离最近的负样本，a∈batch为a输出这个图集，a，p为距离最远的样本集，a，n为距离最近的样本集，∝为代表随机选择图片；

通过计算在每一轮训练中的每一张图片在特征空间的欧式距离，然后选出与距离最远的正样本和距离最近的负样本来计算损失，判断图片是否为同一类型。

进一步的，步骤S1中将数据集内的图片定义相同ID的图片集为一类，不同ID的图片图集为一类后的损失，特征通道数为Ftr，通过卷积变换得到一个特征通道数为Fsq的特征，通过指定的特征排序将数据卷积变化输出。

进一步的，步骤S2中自适应池化具体计算公式为：

stride＝floor((input_size/(output_size-1))

input_size为输出数据的大小，output_size为输出数据得大小，kernel_size为核的尺寸，stride为步长，，floor为取整；

kernel_size＝input_size-(output_size-1)*stride

自适应池化全局信息计算公式为：

池化核尺寸为H、W，输出尺寸为(i，j)，，S_c为全局池化，F_gp为asgpool函数，U_c为池化输出；

通过计算公式将步骤S1的1000类预训练的分类网络模型通过自适应池化输出为751类的Market1501数据集的网络模型。

进一步的，步骤S3梯度下降训练法的具体实现方法为：

在训练Market1501数据集时，每一轮训练将训练出用于对比验证集的ID类图集，每一次对比都会给batch传入一次权重，每一次训练都会清空权重并将这次训练的权重参数应用于下一轮训练；

训练时前向传播预测值outputs、网络权重乘输出inputs和权重weights的关系为：

outputs＝net(inputs)

h＝dot(input[k]，weights)

h为通道维数，dot为内积，k为卷积层的重复次数，net为网络长度；

损失loss，前向传播预测值outputs，步长labels的计算公式为：

loss＝criterion(outputs，labels)

criterion为前向传播计算；

对应：

loss+＝(label[k]-h)*(label[k]-h)/2

最终输出的维度model_structure为batchsize*751，ft_net为网络大小，每十轮保存网络load_network和更新loss曲线model保存输出：

(model_structure＝ft_net(751)

model＝load_network(model_structure)。

进一步的，步骤S4抽取特征通过简单的前向传播，将图片按照图片本身之间的相似度排序，同时将两类图像剔除在外，剔除在外的分别是错误检测的图像，定义为junk_index1，另一类是同一个人在同一个视像头下不同的照片定义为junk_index2。

进一步的，步骤S4使用map来作为模型训练的指标。

本发明的有益效果：

本发明所述的一种基于行人重识别的公共场所多态行人目标识别追踪方法：

1、模型训练使用了基于表征学习的ReID方法，是一种得益于深度学习，在卷积神经网络方面，由于CNN可以自动从原始的图像数据中根据任务需求自动提取出表征特征，所以使用分类验证模型来训练这个模型。

2、适用性广，在基于行人重识别的公共场所目标多态识别追踪系统训练的同时就通过了在引用视频流接口的方式在视频中截取图片进行目标的多态识别，这种训练方式对于链接入摄像头进行视频流获取，开展网页端的形式都是适用性极高的。

3、最终通过本方法的寻找，针对目标周围环境复杂，人流较多，人物体态不同的情况，针对商场或者马路各种人流众多，人情复杂的场所，使用了基于表征学习的ReID方法，并将成熟的ImageNet网络映入模型进行训练的分类，使得最终训练出的模型对于多态行人的识别更加的精准。

附图说明

图1为本发明所述的一种基于行人重识别的公共场所多态行人目标识别追踪方法步骤S1的示意图；

图2为本发明所述的一种基于行人重识别的公共场所多态行人目标识别追踪方法步骤S2的示意图；

图3为本发明所述的一种基于行人重识别的公共场所多态行人目标识别追踪方法步骤S4中图片查找的示意图；

图4为本发明所述的一种基于行人重识别的公共场所多态行人目标识别追踪方法步骤S4的示意图；

图5为本发明所述的一种基于行人重识别的公共场所多态行人目标识别追踪方法的实验效果照片。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施方式，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅用以解释本发明，并不用于限定本发明，即所描述的具体实施方式仅仅是本发明一部分实施方式，而不是全部的具体实施方式。通常在此处附图中描述和展示的本发明具体实施方式的组件可以以各种不同的配置来布置和设计，本发明还可以具有其他实施方式。

因此，以下对在附图中提供的本发明的具体实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定具体实施方式。基于本发明的具体实施方式，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他具体实施方式，都属于本发明保护的范围。

为能进一步了解本发明的发明内容、特点及功效，兹例举以下具体实施方式，并配合附图1-5详细说明如下：

具体实施方式一：

进一步的，前期的训练中使用了分类网络Classification/Identification loss和验证网络Verification loss来训练模型，对网络输入若干对行人的照片，分类网络会对输入图片的ID特征进行预测，根据预测出的ID特征来计算分类误差损失。验证网络会将一对图片的特征进行融合，通过融合的特征来判断这对图片内的两张图片是否属于同一个行人，验证网络对于整个模型来说，就等同于一个二分类的网络。

进一步的，步骤S2中自适应池化具体计算公式为：

stride＝floor((input_size/(output_size-1))

input_size为输出数据的大小，output_size为输出数据得大小，kernel_size为核的尺寸，stride为步长，floor为取整；

kernel_size＝input_size-(output_size-1)*stride

自适应池化全局信息计算公式为：

进一步的，自适应池化就是将输入的数据，整体通过池化后输出为需要的各种数据格式。

进一步的，步骤S3梯度下降训练法的具体实现方法为：

outputs＝net(inputs)

h＝dot(input[k]，weights)

损失loss，前向传播预测值outputs，步长labels的计算公式为：

loss＝criterion(outputs，labels)

criterion为前向传播计算；

对应：

loss+＝(label[k]-h)*(label[k]-h)/2

(model_structure＝ft_net(751)

model＝load_network(model_structure)。

进一步的，在最重要的训练部分采用梯度下降的方式，在网络参量进行反馈是，梯度识别积累的而不是被替换掉，在每一个batch(批量梯度)并不需要将两个batch的梯度混合起来累计，只需要将每个batch设置一遍zero_gard(置零)，在设置成zero_gard时这其实就是一种梯度下降法，一个batch的损失权重的导数是所有样本的损失关于权重的倒数的累加和。

S4、载入步骤S3训练后的模型，然后输入查询图像，如为重复图像则将重复图像丢弃，如为有效图像则对查询图像进行处理，调用Trihard损失公式函数计算出每张查询图片和查询库图像的相对权重，并对查询图片进行保存分类，完成多态行人目标识别追踪。

进一步的，步骤S4使用map来作为模型训练的指标。

具体实施方式二：

本发明的计算机装置可以是包括有处理器以及存储器等装置，例如包含中央处理器的单片机等。并且，处理器用于执行存储器中存储的计算机程序时实现上述的基于CREO软件的可修改由关系驱动的推荐数据的推荐方法的步骤。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

具体实施方式三：

本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质，包括但不限于非易失性存储器、易失性存储器、铁电存储器等，计算机可读存储介质上存储有计算机程序，当计算机装置的处理器读取并执行存储器中所存储的计算机程序时，可以实现上述的基于CREO软件的可修改由关系驱动的建模数据的建模方法的步骤。所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

进一步的，在测试阶段载入模型的结构，然后载入权重(weight)使用调用函数计算出数据集内图片的相对权重，并对图片进行保存分类。对于查取数据集Market-1501内每一张图片或者将图片于库图像进行对比。抽取特征通过简单的前向传播，将图片按照图片本身之间的相似度排序，同时将两类图像剔除在外，剔除在外的分别是错误检测的图像，主要包含一些人的零部件，是不完整的图像定义为junk_index1，另一种是同一个人在同一个视像头下不同的照片定义为junk_index2，Market-1501数据集在数据收录下整理里多张这一类图像，但是在本轮训练中不需要检索这一类图像，使用map来作为模型训练的指标。

从图3能够看出，第二次查询图片2，返回图片为2、5、7，图片2的查准率为0.5，召回率为0.33，图片5的查准率为0.4，召回率为0.67，图片7的查准率为0.43，召回率为1，所以第二次检索精度为(0.5+0.4+0.43)/3＝0.44，平均检索精度为(0.62+0.44)/2＝0.53。

进一步的，经过训练，在测试的时候，将测试图片的特征自动提取出来，并将这个提取出的特征用于行人重识别。通过行人的ID信息、标注行人图片内的其它特征，例如：男女特征，头发特征，穿着等特征。通过引入行人的其余特征属性，训练的模型准确的预测了行人的ID，对列出的特征等属性，这种标签极大的提高了模型的泛化能力，具体效果如图5所示。

本实施方式所述的一种基于行人重识别的公共场所多态行人目标识别追踪方法，通过无监督的机器学习在不同摄像头下行人变化的特征。度量学习：将目标的特征再提取学习后映射到新的空间，再新空间内通过学得的距离度量，将相似对象间的距离缩小，不相似对象间的距离扩大。伴随卷积神经网络(CNN)的高速发展，卷积神经网络(CNN)可以自动在原始输入的图像数据中根据需求来提取出我们需要的显著特征。并且将面对的问题分为分类验证问题，利用数据集内标注的ID以及特征属性等作为训练的标签来训练我们需要的模型，再实用训练好的模型来区分我们输入的两张行人照片是否属于同一个行人。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然在上文中已经参考具体实施方式对本申请进行了描述，然而在不脱离本申请的范围的情况下，可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是，只要不存在结构冲突，本申请所披露的具体实施方式中的各项特征均可通过任意方式相互结合起来使用，在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此，本申请并不局限于文中公开的特定具体实施方式，而是包括落入权利要求的范围内的所有技术方案。

Claims

1.一种基于行人重识别的公共场所多态行人目标识别追踪方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于行人重识别的公共场所多态行人目标识别追踪方法，其特征在于：步骤S1中数据分类采用ResNET50预训练网络模型和Trihard损失公式：

3.根据权利要求2所述的一种基于行人重识别的公共场所多态行人目标识别追踪方法，其特征在于：步骤S1中将数据集内的图片定义相同ID的图片集为一类，不同ID的图片图集为一类后的损失，特征通道数为Ftr，通过卷积变换得到一个特征通道数为Fsq的特征，通过指定的特征排序将数据卷积变化输出。

4.根据权利要求3所述的一种基于行人重识别的公共场所多态行人目标识别追踪方法，其特征在于：步骤S2中自适应池化具体计算公式为：

stride＝floor((input_size/(output_size-1))

kernel_size＝input_size-(output_size-1)*stride

自适应池化全局信息计算公式为：

池化核尺寸为H、W，输出尺寸为(i，j)，S_c为全局池化，F_gp为asgpool函数，U_c为池化输出；

5.根据权利要求4所述的一种基于行人重识别的公共场所多态行人目标识别追踪方法，其特征在于：步骤S3梯度下降训练法的具体实现方法为：

outputs＝net(inputs)

h＝dot(input[k]，weights)

损失loss，前向传播预测值outputs，步长labels的计算公式为：

loss＝criterion(outputs，labels)

criterion为前向传播计算；

对应：

loss+＝(label[k]-h)*(label[k]-h)/2

(model_structure＝ft_net(751)

model＝load_network(model_structure)。

6.根据权利要求5所述的一种基于行人重识别的公共场所多态行人目标识别追踪方法，其特征在于：步骤S4抽取特征通过简单的前向传播，将图片按照图片本身之间的相似度排序，同时将两类图像剔除在外，剔除在外的分别是错误检测的图像，定义为junk_index1，另一类是同一个人在同一个视像头下不同的照片定义为junk_index2。

7.根据权利要求6所述的一种基于行人重识别的公共场所多态行人目标识别追踪方法，其特征在于：步骤S4使用map来作为模型训练的指标。

8.电子设备，其特征在于：包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现权利要求1-6任一项所述的基于行人重识别的公共场所多态行人目标识别追踪方法的步骤。

9.计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1-6任一项所述的一种基于行人重识别的公共场所多态行人目标识别追踪方法。