CN111931637A

CN111931637A - 基于双流卷积神经网络的跨模态行人重识别方法和系统

Info

Publication number: CN111931637A
Application number: CN202010789561.XA
Authority: CN
Inventors: 邓圣衡; 丁长兴; 李弘洋; 王鹏飞; 黄家荣; 陈柏伶; 郭思聪
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2020-11-13
Anticipated expiration: 2040-08-07
Also published as: CN111931637B

Abstract

本发明公开了一种基于双流卷积神经网络的跨模态行人重识别方法和系统，该方法通过使用两个在大型图像识别数据集上预训练好的卷积神经网络中的特征提取部分，并采用交叉熵损失函数、跨模态三元组损失函数、相对熵损失函数和随机调换策略对两个网络在跨模态数据集上进行训练，分别提取两个模态图像的特征，再将两个模态的特征进行欧氏距离度量得到特征匹配结果，实现跨模态行人重识别。本发明针对跨模态行人重识别任务的需求，在双流卷积神经网络训练期间没有加大时间开销和增加额外人工工作量的条件下，拉近了深度神经网络提取的不同模态图像特征之间的距离，提高了行人重识别任务的匹配准确率。

Description

基于双流卷积神经网络的跨模态行人重识别方法和系统

技术领域

本发明涉及图像识别技术领域，具体涉及一种基于双流卷积神经网络的跨模态行人重识别方法和系统。

背景技术

现有的跨模态行人重识别方法利用了双流卷积神经网络(不同的模态对应不同的卷积神经网络)或者单流卷积神经网络(两个模态共用一个卷积神经网络)，使用交叉熵损失函数和三元组损失函数训练网络，并使用生成对抗网络辅助训练，将训练好的网络用于提取图像特征，将提取的特征进行特征之间的匹配，从而达到跨模态行人重识别的目的。但这种方法忽略了跨模态应用中不同模态之间的差异，并且采用生成对抗网络加大了网络训练的时间和设备开销，且由于红外域与RGB域的颜色对应关系并不单一，红外域中的纹理信息丢失等原因，生成对抗神经网络难以学习到一个泛化能力强的映射使得红外域的图像很好地变换成RGB域图像。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于双流卷积神经网络的跨模态行人重识别方法和系统，本发明是在双流卷积神经网络的基础上，保留了交叉熵损失函数，加入了跨模态三元组损失函数和相对熵损失函数对网络进行训练，并采用了随机调换双流卷积神经网络输入的训练方法，在一定概率下将两个卷积神经网络的输入调换，从网络中去除了生成对抗神经网络，减轻了深度神经网络的训练难度，加快了深度神经网络的训练速度，使网络可以学习到泛化能力更强的特征，并对网络提取的特征进行特征之间的匹配，可以在已有摄像头拍摄到的不同模态图像的情况下，提高跨模态行人检索的准确率。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种基于双流卷积神经网络的跨模态行人重识别方法，包括下述步骤：

构建双流卷积神经网络；

对双流卷积神经网络进行参数初始化；

采集两个不同模态下的图像，并进行图像预处理，作为双流卷积神经网络的输入张量；

基于随机调换策略，双流卷积神经网络在跨模态数据集上进行训练，分别提取两个模态图像的特征向量，将两个模态的特征向量进行欧氏距离度量得到特征匹配结果，完成跨模态行人重识别。

作为优选的技术方案，所述双流卷积神经网络包括两个结构一致的Resnet50网络和两个结构一致的全连接神经网络，两个Resnet50网络的参数各自独立，将两个Resnet50网络移除下采样。

作为优选的技术方案，所述对双流卷积神经网络进行参数初始化，具体步骤包括：

采用预训练好的Resnet50网络参数对双流卷积神经网络进行初始化，对两个全连接神经网络参数进行随机初始化。

作为优选的技术方案，所述采集两个不同模态下的图像，所述两个不同模态分别为：

第一模态中的图像为彩色的RGB图像，一张图像由三个彩色通道组成，每个通道对应位置的像素值表示对应颜色的量；

第二模态中的图像为单通道的红外相机灰度图像，图像中对应位置的像素值表示红外相机接收的反射回来的红外数值。

作为优选的技术方案，所述图像预处理的具体步骤包括：

将摄像机捕捉到的图像进行随机裁剪，将裁剪好的图像设定概率的水平翻转，将水平翻转后的图像进行归一化处理得到三维张量，随机将三维张量中的部分区域设置为图像均值，得到双流卷积神经网络的输入张量。

作为优选的技术方案，所述双流卷积神经网络在跨模态数据集上进行训练，具体步骤包括：

将双流卷积神经网络输出的两个模态图像的特征向量通过跨模态三元组损失函数计算得到三元组损失值；

将特征向量通过全连接神经网络计算和softmax函数归一化计算得到图像标签预测值，将图像标签预测值和图像标签真实值通过交叉熵和相对熵损失函数计算得到交叉熵损失值和相对熵损失值；

将三元组损失值、交叉熵损失值和相对熵损失值相加后得到总的损失值；

对损失值求导进行梯度计算，利用计算得到的梯度进行参数更新，进行网络训练。

作为优选的技术方案，所述交叉熵损失函数表示为：

所述相对熵损失函数表示为：

所述跨模态三元组损失函数表示为：

其中，P(y_i)表示图像样本的真实分布，

表示网络输出样本的预测分布，n表示图像总类别数，

表示第一模态下的第i类类图像特征，

表示第二模态下的第i类类图像特征，

表示第二模态下的第j类图像特征，d表示两者之间的距离，m表示常数。

作为优选的技术方案，所述图像的特征向量通过对卷积神经网络输出的特征图采用全局平均池化得到。

作为优选的技术方案，所述将两个模态的特征向量进行欧氏距离度量得到特征匹配结果，具体步骤包括：

在行人重识别的测试阶段，在第一模态下已有多个行人的特征向量的情况下，将第二模态中拍摄到的一张新的行人图像输入到双流卷积神经网络中，将双流卷积神经网络输出的特征向量通过批标准化得到输出特征向量，在两个模态的特征向量之间进行余弦距离计算并进行距离由小到大的排序，与新的特征向量余弦距离最近的特征向量所对应的行人图像ID即为匹配结果。

作为优选的技术方案，双流卷积神经网络构建模块、参数初始化模块、图像预处理模块、训练模块和特征匹配模块；

所述双流卷积神经网络构建模块用于构建双流卷积神经网络；

所述参数初始化模块用于对双流卷积神经网络进行参数初始化；

所述图像预处理模块用于采集两个不同模态下的图像，并进行图像预处理，作为双流卷积神经网络的输入张量；

所述训练模块用于双流卷积神经网络在跨模态数据集上基于随机调换策略进行训练；

所述特征匹配模块用于分别提取两个模态图像的特征向量，将两个模态的特征向量进行欧氏距离度量得到特征匹配结果，完成跨模态行人重识别。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明针对现有跨模态行人重识别方法的缺陷，采用跨模态三元组损失函数，相对熵损失函数和随即调换双流卷积神经网络输入的网络训练方法，去除了生成对抗神经网络，强调了不同模态图像特征之间的差异，使得神经网络可以学习提取到泛化能力更强的图像特征，从而达到提高跨模态行人重识别准确率的效果。

(2)本发明针对现有跨模态行人重识别方法的缺陷，采用了不依赖生成对抗神经网络(GAN)对网络进行训练的技术方案，降低了网络训练时的训练时间复杂度，提高了行人重识别测试时的速度和效率，解决了使用GAN技术对网络进行训练时计算量大，训练时间长，测试时测试速度慢的技术问题，达到了高效率进行跨模态行人重识别的技术效果。

附图说明

图1为基于双流卷积神经网络的跨模态行人重识别方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

如图1所示，本实施例提供一种基于双流卷积神经网络的跨模态行人重识别方法，该方法通过使用两个在大型图像识别数据集上预训练好的卷积神经网络中的特征提取部分，并采用交叉熵损失函数、跨模态三元组损失函数、相对熵损失函数和随机调换策略对两个网络在跨模态数据集上进行训练，分别提取两个模态图像的特征，再将两个模态的特征进行欧氏距离度量得到特征匹配结果，实现跨模态行人重识别，具体包括下述步骤：

构建双流卷积神经网络：双流卷积神经网络包括两个结构一致的Resnet50网络和两个结构一致的全连接神经网络，两个Resnet50网络的参数各自独立，将两个Resnet50网络的layer4层的stride＝2改为stirde＝1，即移除下采样。两个Resnet50网络各自接受不同模态的图像张量作为输入，在同样的损失函数和优化器下进行训练，训练步骤按照顺序描述具体为：对双流卷积神经网络进行参数初始化，对训练数据集中的图像进行预处理，将预处理好的图像输入进网络中，两个模态的预处理过后的图像分别输入进两个网络中，网络接受输入的图像输出图像特征和ID预测值，图像特征和ID预测值经过损失函数(跨模态三元组损失函数，交叉熵损失函数，相对熵损失函数)计算损失值，对损失值求导进行梯度计算，利用计算得到的梯度对网络的参数进行更新，以此迭代，最后得到符合要求的网络；

对双流卷积神经网络进行参数初始化：双流卷积神经网络设有两个Resnet50网络，在参数初始化阶段，采用在ImageNet数据集上预训练好的Resnet50网络参数对双流卷积神经网络进行初始化，对两个全连接神经网络参数进行随机初始化，加快网络训练速度；

进行图像预处理：将摄像机捕捉到的图像随机地裁剪成尺寸为288*144的图像，将裁剪好的图像进行概率为0.5的水平翻转，将随机翻转后的图像进行归一化处理得到三维张量，随机将三维张量中的部分区域设置为图像均值(即随机擦除原图像中的部分区域)，得到适合神经网络处理的输入张量；

双流卷积神经网络训练方法：双流卷积神经网路中两个网络接受不同模态图像输入，采用了随机调换的图像输入策略。在Adam优化器的优化下，以梯度下降的方式对损失值求导，更新网络中的参数，在跨模态行人重识别公开数据集SYSU-MM01数据集上进行网络训练。损失值通过对网络的损失函数进行计算得出。双流卷积神经网络训练的损失函数为交叉熵损失函数、跨模态三元组损失函数和相对熵损失函数三个函数的和函数，将双流网络输出的两个模态图像的特征向量通过跨模态三元组损失函数计算得到三元组损失值，其中，图像的特征向量通过对卷积神经网络输出的特征图使用全局平均池化得到，将特征向量通过全连接神经网络计算和softmax函数归一化计算得到图像标签预测值，将图像标签预测值和图像标签真实值通过交叉熵和相对熵损失函数计算得到交叉熵和相对熵的损失值，三者以1：1：1的权重进行相加可得到总的损失值，在Adam优化器的优化下，以梯度下降的方式对损失值求导，对网络中的卷积核，矩阵权重等参数进行更新，进行网络训练；

网络训练中的随机调换方法：在双流卷积神经网络训练过程中，两个Resnet50网络的输入图像会进行概率为40％的调换，即有40％的概率将一个网络的输入换成另外一个网络的输入，通过随机调换输入，一个特定模态的网络将有概率地接受另一个模态的图像作为输入，使得网络可以适应两个模态之间的差异。

特征匹配：在行人重识别的测试阶段，在一个模态下已有多个行人的特征向量的情况下(已有的特征向量可通过已有的行人图像获得)，将另一个模态中拍摄到的一张新的行人图像输入到双流卷积神经网络中，将双流卷积神经网络输出的特征向量通过批标准化得到输出特征向量，在两个模态的特征向量之间进行余弦距离计算并进行距离由小到大的排序，排序结果第一的特征向量(即与新的特征向量余弦距离最近的已知特征向量)对应的行人图像ID即为匹配结果。

网络训练的损失函数为：

交叉熵损失函数：设真实图像标签为y_i,预测标签为

图像总类别数为n，假设有p张第i类图像，则P(y_i)为n/m，若预测的第i类图像有q张，则Q(y_i)为q/m，依此类推，则可求得图像样本的真实分布P(y_i)和网络输出样本的预测分布

则交叉熵损失函数可表示为：

相对熵损失函数：已知真实图像标签和预测标签可以求得图像样本的真实分布P(y_i)和网络输出样本的预测分布

设总类别数为n，则相对熵损失函数可表示为：

跨模态三元组损失函数：设已知模态1下第i类类图像特征为

模态1中的图像为彩色的RGB图像，一张图像由三个彩色通道组成，每个通道对应位置的像素值表示对应颜色的量；

模态2下第i类图像特征为

模态2下第j类图像特征为

i≠j，模态2中的图像为单通道的红外相机灰度图像，图像中对应位置的像素值表示红外相机接收的反射回来的红外数值，则跨模态三元组损失函数可表示为：

其中，d(a,b)为a,b两者之间的距离，m为一常数。

本实施例针对跨模态行人重识别任务的需求，在双流卷积神经网络训练期间没有加大时间开销和增加额外人工工作量的条件下，拉近了深度神经网络提取的不同模态图像特征之间的距离，提高了行人重识别任务的匹配准确率。

以下为在SYSU-MM01数据集上，提出的方法与目前现有技术中其他识别方式的实验测试结果对比，其中R1，R10，R20表示Rank-1，10，20准确度(％)，mAP表示平均准确率(％)，为方法的性能评价指标，数值越高代表性能越好。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。