一种基于元类基学习器的行人重识别集成方法
技术领域
本发明属于计算机技术领域,具体是计算机视觉中的行人重识别技术领域,涉及一种基于元类基学习器的行人重识别集成方法。
背景技术
随着数字化城市的建设,视频监控设备被广泛应用于道路、商业区、生活区等公共场所,如何对采集到的海量视频数据进行智能分析变得尤为重要。行人重识别(Person Re-identification)是一项重要的应用研究问题,其目标是在不同的摄像机视图之间匹配同一身份的行人图像。它可以广泛应用于智能视频监控、安保、刑侦等领域,例如跨摄像机视角的行人跟踪、大型图库中行人搜索、零售商店中的访客分析等实际场景。
现阶段行人重识别的主流方法基于度量学习,而以马氏度量学习为主导的传统行人重识别技术通常利用手工设计的行人图像特征,并以线性投影方式学习行人图像相似度(或距离)度量函数;而以深度神经网络为主导的深度度量行人重识别方法大多侧重于单一的度量指标,通常从给定的行人图像数据分布中学习所有已观测样本的单个相似度度量函数,其优化目标是使得相似图像在深度特征空间中相互靠近,同时使得不相似图像相互远离。然而,视觉数据通常具有复杂的内在结构,如数据分布的不同区域具有不同的密度。因此,不同区域中的数据点可通过不同的相似性度量指标来刻画(例如形状、颜色、语义等)。现阶段行人重识别的主要挑战在于:1)较大差异的摄像机视角所引起的行人外观变化;2)行人之间的相似度很高给准确挖掘身份识别信息带来挑战。
综上所述,现有人物重识别方法的不足点主要表现在以下几方面:第一,直接将深度特征向量的所有维度用作单一度量指标的学习器,造成特征表示空间使用效率低下、行人识别性能不高;第二,直接拟合整个数据集的数据分布,未充分考虑行人图像数据分布的复杂性,在实践中通常会导致局部最优和过度拟合;第三,由于采用不同度量指标的基学习器存在差异性,通常会引起模型收敛缓慢的问题。因此,迫切需要设计一种能充分地利用深度特征,同时结合多种度量指标并充分挖掘样本信息的行人重识别技术。
发明内容
本发明的目的就是针对现有技术的不足,提供一种基于元类基学习器的行人重识别集成方法,可以有效地处理行人图像数据分布的复杂性,高效地利用深度特征的表示空间。
本发明方法首先获取行人图像的数据集,然后进行如下操作:
步骤(1).通过卷积神经网络获取行人图像的深度特征向量并进行聚类,获得语义相似的图像元类,即图像簇;
步骤(2).均匀划分卷积神经网络的全连接层,形成多个基学习器与行人图像元类对应;
步骤(3).训练基学习器,输入对应元类内的正负样本对及元类间负样本对,计算样本对损失及梯度,并更新基学习器,采取自适应梯度加权策略更新下一个基学习器;
步骤(4).重复步骤(1)~(3),直至基学习器收敛,将测试图库输入基学习器组成的集成学习器,得到相同行人的图像集合。
进一步,步骤(1)具体方法是:
(1-1).对行人图像训练数据集进行预处理,得到预处理后的训练数据集,记为
其中
表示第i幅行人图像,N为图像数目;所述的预处理包括缩放、修剪、翻转、旋转操作;
(1-2).选用在大型图像数据集上预训练的残差卷积神经网络,将
输入网络,所述的残差卷积神经网络中的全连接层将输出深度特征向量
其中
(1-3).对深度特征向量
进行聚类操作,通过聚类操作获得C个行人图像元类,聚类簇个数C由模型的超参数指定,C=4~8;通过聚类算法,
被组织成元类的集合
K
l表示由语义上相似的行人图像组成的第l个行人图像元类。
进一步,步骤(2)具体方法是:
(2-1).按照线性顺序均匀地将残差卷积神经网络的全连接层划分为C段,作为C个基学习器
f
l表示第l个基学习器;
(2-2).第l个基学习器fl用于学习第l个行人图像元类Kl,使得基学习器与行人图像元类对应。
进一步,步骤(3)具体方法是:
(3-1).设批量样本元组T
l为第l个基学习器f
l的训练样本,则对于每个行人图像元类K
l,批量样本元组T
l由一个参考深度特征向量
相对
的一个元类内正例特征向量
以及(M-1)个元类内负例特征向量
(C-1)个元类间负例特征向量
组成,j=1,2,...,C,j≠l,M为元类内的不同行人的类别数;
(3-2).根据批量样本元组Tl计算如下损失函数:
其中exp(·)表示指数函数;得到每个样本元组的损失及梯度,然后对学习器fl进行参数更新;
(3-3).进行自适应梯度加权操作,并更新第(l+1)个基学习器fl+1。
进一步,步骤(4)具体方法是:
(4-1).重复步骤(1)~(3),学习C个基学习器
直至基学习器收敛;
(4-2).将测试图库即行人图像测试数据集以1:1的比例划分为查询集和图库集;同时将已收敛的C个基学习器
依次合并为一个集成学习器f;
(4-3).将查询集和图库集中的行人图像分别输入集成学习器f得到对应的深度特征表示
和
其中D和S分别为查询集和图库集的大小;
(4-4).根据余弦相似度和欧氏距离,计算深度特征表示之间的相似度sim
f和距离dist
f:
计算得到查询与图库图像的相似度矩阵和距离矩阵;
(4-5).计算相似度矩阵和距离矩阵对应元素的平均值,据此搜索与查询集中的图像相似的图库图像,得到相同行人的图像集合。
本发明方法首先对行人图像的深度特征向量聚类以获取元类(图像簇)集合能够使得元类中的图像在特征空间中语义相似;通过均匀划分卷积神经网络的全连接层获取每个元类对应的基学习器,可以解决对应元类的行人重识别子问题;同时给出了元类内的正例对和负例对及元类间负例对的采样过程、基学习器的训练方案以及自适应梯度加权的基学习器差异化策略。
本发明方法充分考虑了行人图像数据分布的复杂性特点,高效利用了深度特征的表示空间,深度挖掘了行人图像数据分布不同区域间的负例样本对,同时有效缓解了网络模型收敛缓慢的问题。本发明能够有效地处理行人图像数据分布的复杂性,高效地利用深度特征的表示空间,从而获取更优越的行人识别性能。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
一种基于元类基学习器的行人重识别集成方法,重点考虑行人图像数据分布的复杂性特点,高效利用深度特征的表示空间,深度挖掘行人图像数据分布不同区域间的负例样本对,同时有效缓解网络模型收敛缓慢的问题。主要思想是对行人图像的深度特征向量聚类以获取元类(图像簇)集合,能够使得元类中的图像在特征空间中语义相似;通过均匀划分卷积神经网络的全连接层获取每个元类对应的基学习器,可以解决对应元类的行人重识别子问题。通过这种方式,可以有效地进行行人重识别。
如图1,该方法首先获取行人图像的数据集,然后进行如下操作:
步骤(1).通过卷积神经网络获取行人图像的深度特征向量并进行聚类,获得语义相似的图像元类,即图像簇。具体方法是:
(1-1).对行人图像训练数据集进行预处理,得到预处理后的训练数据集,记为
其中
表示第i幅行人图像,N为图像数目;预处理为进行缩放、修剪、翻转、旋转等常见图像数据增强操作;
(1-2).选用在大型图像数据集上(如ImageNet)预训练的残差卷积神经网络(ResNet-50),将
输入网络,该网络中的全连接层将输出深度特征向量
其中
(1-3).对深度特征向量
进行聚类操作,通过聚类操作获得C个行人图像元类,聚类簇个数C由模型的超参数指定,C=4~8;通过聚类算法,
被组织成元类的集合
K
l表示由语义上相似的行人图像组成的第l个行人图像元类。
聚类操作可选用常见的聚类算法,本实施例采用k-均值聚类或基于密度的聚类算法(DBSCAN)。
步骤(2).均匀划分卷积神经网络的全连接层,形成多个基学习器与行人图像元类对应。具体方法是:
(2-1).按照线性顺序均匀地将残差网络(ResNet-50)的全连接层划分为C段,作为C个基学习器
f
l表示第l个基学习器;
(2-2).第l个基学习器fl用于学习第l个行人图像元类Kl,使得基学习器与行人图像元类对应。
步骤(3).训练基学习器,输入对应元类内的正负样本对及元类间负样本对,计算样本对损失及梯度,并更新基学习器,采取自适应梯度加权策略更新下一个基学习器。具体方法是:
(3-1).设批量样本元组T
l为第l个基学习器f
l的训练样本,则对于每个行人图像元类K
l,批量样本元组T
l由一个参考深度特征向量
相对
的一个元类内正例特征向量
以及(M-1)个元类内负例特征向量
(C-1)个元类间负例特征向量
组成,j=1,2,...,C,j≠l,M为元类内的不同行人的类别数;
参考深度特征向量
通过对第l个元类的样本特征向量进行随机采样获得;
元类内正例特征向量
是对第l个元类的
所属的行人类别对应的样本特征向量随机采样获得;
元类内负例特征向量
采样过程为:对第l个元类K
l采样与参考深度特征向量
不同行人类别的样本特征,每个类别随机采样一个即可获得(M-1)个元类内负例特征向量;
元类间负例特征向量
采样过程为:对元类集合{K
j|j=1,2,...,C,j≠l},分别随机采样一个样本,即可获得(C-1)个元类间负例特征向量
(3-2).根据批量样本元组Tl计算如下损失函数:
其中exp(·)表示指数函数;得到每个样本元组的损失及梯度,然后对学习器fl进行参数更新;
(3-3).进行自适应梯度加权操作,并更新第(l+1)个基学习器fl+1,以进一步增加基学习器之间的差异性。
自适应梯度加权操作具体是:
①设置初始化的梯度权重
其中V为f
l的深度特征向量维度;
②计算f
l的深度特征向量的每一维组成的梯度向量G
l,由
更新自适应权重,(W
v)′为更新后的权重,从而对f
l+1进行网络参数更新;z为归一化常数;
表示基学习器f
l的梯度向量的第v维。
步骤(4).重复步骤(1)~(3),直至基学习器收敛,将测试图库输入基学习器组成的集成学习器,得到相同行人的图像集合。具体方法是:
(4-1).重复步骤(1)~(3),学习C个基学习器
直至基学习器收敛;
(4-2).将测试图库即行人图像测试数据集以1:1的比例划分为查询集(query)和图库集(gallery);同时将已收敛的C个基学习器
依次合并为一个集成学习器f;
(4-3).将查询集和图库集中的行人图像分别输入集成学习器f得到对应的深度特征表示
和
其中D和S分别为查询集和图库集的大小;
(4-4).根据余弦相似度和欧氏距离,计算深度特征表示之间的相似度simf和距离distf:
计算得到查询与图库图像的相似度矩阵和距离矩阵;
(4-5).计算相似度矩阵和距离矩阵对应元素的平均值,据此搜索与查询集中的图像相似的图库图像,得到相同行人(指同一身份)的图像集合。
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。