CN115100690B

CN115100690B - 一种基于联合学习的图像特征提取方法

Info

Publication number: CN115100690B
Application number: CN202211015620.3A
Authority: CN
Inventors: 张涛; 李爽; 梁杰; 赵鑫
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-11-15
Anticipated expiration: 2042-08-24
Also published as: CN115100690A

Abstract

本发明提供了一种基于联合学习的图像特征提取方法，在一个端到端的网络中同时实现了交叉图像特征提取和单图像特征提取，并采用分段聚类方法，通过离线精炼硬伪标签和在线精炼软伪标签的交替训练方式学习更好的特征，同时利用交叉图像特征的神经网络超参数优化单图像特征的提取，最终将单图像特征和交叉图像特征融合编码，作为无监督行人重识别的图像特征，有效提高了行人重识别准确率，减弱摄像头视野变化，背景变化等因素对无监督行人重识别的干扰。

Description

一种基于联合学习的图像特征提取方法

技术领域

本发明属于行人重识别领域，尤其是涉及一种基于联合学习的图像特征提取方法。

背景技术

行人重识别是计算机视觉技术的一个重要领域，是指在给定目标行人的图像序列,在拍摄区域不重叠的多摄像头监控网络中搜索与其身份相同的行人，能够在大规模监控网络中对目标人物进行快速、高效的识别和追踪，从而对视频安防监控起到十分重要的作用。

随着机器学习的快速发展，行人搜索中的多个研究问题都得到了十分有效的解决，但是由于受到监控环境中相机视角变化、人体姿态变化、光照变化、背景干扰和遮挡等因素的影响，我们通常无法获得高质量的行人图像或视频,传统的有监督行人重识别在实际应用中缺乏可扩展性和实用性，因此无监督域自适应行人重识别成为了重要的发展方向。

在无监督域自适应行人重识别中，模型在标记的源数据集中进行训练以生成预训练模型，然后在未标记的目标数据集中训练预训练模型以生成训练好的模型。但在现有技术条件下，在大多数无监督域自适应行人重识别方法中，只对单个图像进行特征提取，忽略了具有相同身份的交叉视图图像之间的差异以及每个图像之间的关系，导致现有的行人重识别准确率存在无法进一步提高的问题。

发明内容

有鉴于此，本发明旨在提出一种基于联合学习的图像特征提取方法，采用分段聚类方法，离线精炼硬伪标签和在线精炼软伪标签的交替训练方式学习更好的特征，通过单图像特征和交叉图像特征进行融合实现行人图片特征的高效优化提取，能够有效提高无监督行人重识别的准确度。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于联合学习的图像特征提取方法，包括：

步骤1：使用源数据集训练出两个具有不同初始化的相同深度神经网络；

步骤2：分别在两个深度神经网络中，把相应的深度神经网络截取成网络N_1和子网络N _S _1，并建立一个与子网络N _S _1结构完全相同的子网络N _S _2，构建一个由共享的网络N_1和两个平行分支的子网络N _S _1和子网络N _S _2组成的整体网络模型；

步骤3：分别在两个深度神经网络中，输入以不同身份的行人排序，同一身份行人包括偶数张图片的行人图片数据集，使用对应的子网络N_1分别对行人图片进行特征提取，每张图片均得到feature_1特征值；进一步把偶数图片的feature_1特征值作为该张图片的feature_f特征值；奇数图片把该张图片的feature_1特征值与后一张相同身份图片的feature_1特征值拼接在一起，通过卷积降维得到与feature_1特征值长度相同的feature_f特征值作为该张图片的feature_f特征值；

步骤4：分别在两个深度神经网络中，把行人图片数据集的feature_1特征值继续对应输入到子网络N _S_1中进行特征学习得到单图像特征feature_s值；把行人图片数据集的feature_f特征值继续对应输入到子网络N _S_2中进行特征学习得到交叉图像特征feature_c值；

步骤5：分别在两个深度神经网络中，在预定的迭代次数内，对单图像特征feature_1进行聚类计算，生成对应伪标签；超出预定的迭代次数后，取对应行人图片的单图像特征feature_s值和交叉图像特征feature_c值的每一维特征的均值作为融合特征进行聚类计算，生成对应伪标签；

步骤6：分别在两个深度神经网络中，利用带有伪标签的行人图片更新行人图片数据集，然后返回步骤3，利用更新后行人图片数据集输入到整体网络模型进行训练，到达设定的迭代次数；在对两个整体网络模型进行训练时，使用相同网络损失函数L进行约束；

步骤7：当到达设定的迭代次数后，选择任一训练好的整体网络模型，输入需要提取特征的行人图片数据集，得到每张行人图片的单图像特征feature_s值以及交叉图像特征feature_c值，再把单图像特征feature_s值以及交叉图像特征feature_c值的每一维特征的均值或最大值作为最终的基于联合学习的图像特征提取feature_r值，完成基于联合学习的图像特征提取。

相对于现有技术，本发明公开的一种基于联合学习的图像特征提取方法，具有以下优势：

本发明公开的一种基于联合学习的图像特征提取方法，在一个端到端的网络中同时实现了交叉图像特征提取和单图像特征提取，并采用分段聚类方法，通过离线精炼硬伪标签和在线精炼软伪标签的交替训练方式学习更好的特征，同时利用交叉图像特征的神经网络超参数优化单图像特征的提取，最终将单图像特征和交叉图像特征融合编码，作为无监督行人重识别的图像特征，有效提高了行人重识别准确率，减弱摄像头视野变化，背景变化等因素对无监督行人重识别的干扰。

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

在附图中：

图1为本发明实施例所述的一种基于联合学习的图像特征提取方法结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

如图1所示：步骤1：使用源数据集训练出两个具有不同初始化的相同深度神经网络；

在本实施例中，行人图片数据集一次输入8个身份的行人图片，同一身份的行人图片输入8张图像，即一次输入64张行人图片。

在本实施例中，每个feature_1特征值为1024维。

步骤5：分别在两个深度神经网络中，在预定的迭代次数内，对单图像特征feature_1进行聚类计算，生成对应伪标签；在本实施例中，预定的迭代次数是20次，超出预定的迭代次数后，取对应行人图片的单图像特征feature_s值和交叉图像特征feature_c值的每一维特征的均值作为融合特征进行聚类计算，生成对应伪标签；

步骤6：分别在两个深度神经网络中，利用带有伪标签的行人图片更新行人图片数据集，然后返回步骤3，利用更新后行人图片数据集输入到整体网络模型进行训练，到达设定的迭代次数；在对两个整体网络模型进行训练时，使用相同网络损失函数L进行约束。在本实施例中，设定的迭代次数是80次。

进一步，在步骤1中，源数据集是DukeMTMC数据集，深度神经网络是Resnet50网络。

进一步，在步骤2中，在深度神经网络的conv4_x层的第4个Resblock输出节点处进行截取，将该节点前的Resnet50子网络作为N_1，将该节点后的Resnet50子网络作为N _S _1。

在步骤6中，网络损失函数L如下：

其中：

行人图片数据集可以表示为

，其中

为行人图片数据集图片个数，每个行人图片可以用

和

表示；在两个深度神经网络中，子网络N _S _1分支对应的特征转换函数是

和

，子网络N _S _2对应的特征转换函数是

和

，

为网络参数；

指示为

生成的伪标签，

指示为

生成的伪标签，两个子网络N _S _1对应的可学习的目标域分类器分别为

和

，两个子网络N _S _2对应的可学习的目标域分类器分别为

和

，两个子网络N _S _1以及两个子网络N _S _2的伪标签置信值预测为

、

、

和

；

在两个深度神经网络中，两个子网络N _S _1分支以及两个子网络N _S _2分支在当前迭代T的时间平均模型参数分别为

、

、

以及

，由两个时间平均模型生成的软伪标签是

、

、

以及

；

以及

分别表示在一个mini-batch中最不相似的正样本和最相似的负样本；

是交叉熵损失，

是二元交叉熵损失；

= 0.5 ，

= 0.8。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。