CN113723236B

CN113723236B - 一种结合局部阈值二值化图像的跨模态行人重识别方法

Info

Publication number: CN113723236B
Application number: CN202110945496.XA
Authority: CN
Inventors: 崔洪刚; 曹钢钢
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2023-02-28
Anticipated expiration: 2041-08-17
Also published as: CN113723236A

Abstract

本发明提供一种结合局部阈值二值化图像的跨模态行人重识别方法，包括以下步骤：S1：构建初始的跨模态行人重识别网络，并设置第一跨模态行人重识别数据集；S2：进行局部阈值二值化处理，形成第二跨模态行人重识别数据集；S3：进行图像数据增强处理，得到第三跨模态行人重识别数据集；S4：使用难样本三元组损失和交叉熵损失进行训练，得到训练好的跨模态行人重识别网络；通过训练好的跨模态行人重识别网络实现跨模态行人重识别。本发明提供一种结合局部阈值二值化图像的跨模态行人重识别方法，解决了目前跨模态行人重识别的准确率不够高的问题。

Description

一种结合局部阈值二值化图像的跨模态行人重识别方法

技术领域

本发明涉及计算机视觉技术领域，更具体的，涉及一种结合局部阈值二值化图像的跨模态行人重识别方法。

背景技术

行人重识别又称行人再识别(Person Re-Identification，ReID)，目标是给定一张行人图片，从多个摄像机拍摄的图片中，再识别到同一个人。而由于相机分辨率和拍摄角度的缘故，监控视频中难以得到高质量的人脸图片，容易导致人脸识别失效。当人脸识别失效的情况下，ReID就成为了一个非常重要的替代品技术。ReID具有跨摄像头的特性，目前是通过检索出不同摄像头下的相同行人图片来评价ReID的性能。

跨模态，就是指存在红外、可见光两个模态的图像。在行人重识别应用中，跨模态的应用可以有效地提高最终的识别效果，例如在晚上昏暗的情况下，常规RGB摄像头已失效，红外摄像头反而能起到效果。但是由于红外图片与常规RGB图片包含的信息不同，类间距离较大，融合两个模态的图像信息进行识别难度也较大。因此，目前跨模态行人重识别的准确率不够高。

现有技术中，如2020年08月28日公开的专利，一种基于困难五元组的跨模态行人重识别方法，公开号为CN111597876A，将单一模态行人重识别迁移至跨模态行人重识别任务中，利用困难五元组损失和身份损失训练卷积神经网络，收敛速度快、精度高，但是对识别准确率的提高效果不够好。

发明内容

本发明为克服目前跨模态行人重识别的准确率不够高的技术缺陷，提供一种结合局部阈值二值化图像的跨模态行人重识别方法。

为解决上述技术问题，本发明的技术方案如下：

一种结合局部阈值二值化图像的跨模态行人重识别方法，包括以下步骤：

S1：构建初始的跨模态行人重识别网络，并设置第一跨模态行人重识别数据集，所述第一跨模态行人重识别数据集包括可见光图像和红外图像；

S2：通过对所述第一跨模态行人重识别数据集中的图像进行局部阈值二值化处理，形成第二跨模态行人重识别数据集，所述第二跨模态行人重识别数据集包括可见光图像、可见光局部阈值二值化图像、红外图像和红外局部阈值二值化图像；

S3：对所述第二跨模态行人重识别数据集进行图像数据增强处理，得到第三跨模态行人重识别数据集；

S4：将所述第三跨模态行人重识别数据集输入所述初始的跨模态行人重识别网络，并使用难样本三元组损失和交叉熵损失进行训练，得到训练好的跨模态行人重识别网络；通过所述训练好的跨模态行人重识别网络实现跨模态行人重识别。

上述方案中，通过对跨模态的图像进行局部阈值二值化处理，得到相应的局部阈值二值化图像，使图像中数据量减少的同时凸显出目标轮廓，然后将原有图像和局部阈值二值化图像进行图像数据增强处理后输入初始的跨模态行人重识别网络中进行训练，最后得到的训练好的跨模态行人重识别网络结构简单、性能好、能够提高跨模态行人重识别的准确率。

优选的，在步骤S2进行局部阈值二值化处理之前，还包括对所述第一跨模态行人重识别数据集中的图像进行灰度化处理。

优选的，在步骤S3中，图像数据增强处理包括图像随机水平翻转处理、图像随机垂直翻转处理和图像随机垂直水平翻转处理。

上述方案中，通过数据增强，增加训练数据量以提高网络的泛化能力，增加噪声数据以提升网络的鲁棒性。

优选的，所述初始的跨模态行人重识别网络包括卷积模块、第一残差层、第二残差层、第三残差层、第四残差层、全局平均池化层、批归一化层、全连接层和特征融合模块。

上述方案中，初始的跨模态行人重识别网络结构简单，仅仅使用全局特征，易于理解，便于使用。

优选的，在卷积模块和第一残差层中，可见光图像和红外图像采取独立参数进行训练；在第二残差层、第三残差层和第四残差层中，可见光图像和红外图像采取共享参数进行训练。

优选的，所述特征融合模块通过以下公式进行特征融合：

F_T-NEW＝α*F_T+β*F_T-B,α+β≤1

F_V-NEW＝μ*F_V+ε*F_V-B,μ+ε≤1

其中，F_T表示由红外图像T训练得到的特征，F_T-B表示由与红外图像T对应的红外局部阈值二值化图像训练得到的特征，F_T-NEW表示由特征F_T与特征F_T-B融合后的特征，F_V表示由可见光图像V训练得到的特征，F_V-B表示由与可见光图像V对应的可见光局部阈值二值化图像训练得到的特征，F_V-NEW表示由特征F_V与特征F_V-B融合后的特征，α、β、μ和ε均为特征融合系数。

上述方案中，考虑融合系数时，为了避免特征数值过于突出，导致过拟合现象，给定α+β≤1以及μ+ε≤1，有利于网络的训练和鲁棒性。特征融合的过程以包含了大部分信息的可见光图像特征为主，辅以局部阈值二值化图像特征，在掌握全局特征的基础上，减少数据量，突出目标轮廓姿态。

优选的，特征F_V与特征F_V-B在第一残差层后进行一次特征融合，特征F_T与特征F_T-B在第三残差层与第四残差层之后分别进行一次特征融合。

上述方案中，可见光图像使用单次融合，红外图像使用双重融合。单次融合代表二值化图像的特征与原图像特征在网络中只进行一次特征融合；双重融合代表二值化图像的特征与原图像特征在网络的两个位置分别进行一次，共计两次融合。

优选的，μ取0.8，ε取0.2，α取0.9，β取0.1。

上述方案中，μ取0.8，ε取0.2，α取0.9，β取0.1时，特征融合效果最优。

优选的，所述全局平均池化层的公式如下：

其中，f_k表示特征矩阵，K表示第四残差层中特征图的数量，χ_K表示特征映射k∈{1,2,…K}的W×H的激活集，W表示特征图的宽，H表示特征图的高，x_i表示特征映射i的激活集，p_k为池化的超参数，[·]^T表示矩阵的转置。

上述方案中，全局平均池化层是一种介于平均池化和最大池化之间的池化方式。通过对p_k的调节，可以关注不同细度的区域。当p_k取1时，全局平均池化层(GemPooling)退化为平均池化层(AveragePooling)，当p_k取无穷大时，GemPooling等效于最大池化层(MaxPooling)。

优选的，设样本a为任一个训练批次中输入所述初始的跨模态行人重识别网络进行训练的图像，挑选一个最难正样本p和一个最难负样本n与之组成三元组，难样本三元组损失函数L_tri的计算公式为：

其中，不同的行人对应不同的ID，P表示挑选的行人ID数量，M表示每个行人挑选的图像数量，batch表示训练批次，d_a,p表示样本a的特征映射与最难正样本p的特征映射的欧式距离，d_a,n表示样本a的特征映射与最难负样本n的特征映射的欧式距离，γ表示一个超参数；(·)₊表示(·)内的值大于零的时取(·)内的值为损失，小于零时，取损失为零；

使用p(Y_v|X_u)表示输入所述初始的跨模态行人重识别网络的ID为u的行人图像X_u被识别为ID为v的行人的概率，其数学表达式如下：

其中，Z_u,v表示X_u经过分类后被认为是ID为v的行人的概率，Y_v表示对应标签，C表示行人ID总数量，w表示第w个行人ID；

计算交叉熵损失函数L_id：

整体损失函数L为：

L＝L_id+L_tri

其中，

表示输入的可见光图像,

表示输入的红外图像。

与现有技术相比，本发明技术方案的有益效果是：

本发明提供了一种结合局部阈值二值化图像的跨模态行人重识别方法，通过对跨模态的图像进行局部阈值二值化处理，得到相应的局部阈值二值化图像，使图像中数据量减少的同时凸显出目标轮廓，然后将原有图像和局部阈值二值化图像进行图像数据增强处理后输入初始的跨模态行人重识别网络中进行训练，最后得到的训练好的跨模态行人重识别网络结构简单、性能好、能够提高跨模态行人重识别的准确率。

附图说明

图1为本发明的技术方案实施步骤流程图；

图2为本发明中对可见光图像处理生成可见光局部阈值二值化图像的示意图；

图3为本发明中对红外图像处理生成红外局部阈值二值化图像的示意图；

图4为本发明中初始的跨模态行人重识别网络的整体架构图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种结合局部阈值二值化图像的跨模态行人重识别方法，包括以下步骤：

实际实施时，可以采用RegDB或SYSU-MM01数据集作为所述第一跨模态行人重识别数据集，也可以采用其他跨模态行人重识别数据集；

S2：通过对所述第一跨模态行人重识别数据集中的图像进行局部阈值二值化处理，形成第二跨模态行人重识别数据集，如图2-3所示，，所述第二跨模态行人重识别数据集包括可见光图像、可见光局部阈值二值化图像、红外图像和红外局部阈值二值化图像；

在具体实施过程中，通过对可见光图像和红外图像分别进行局部阈值二值化处理，得到相应的可见光局部阈值二值化图像和红外局部阈值二值化图像，使图像中数据量减少的同时凸显出目标轮廓，然后将可见光图像、红外图像、可见光局部阈值二值化图像和红外局部阈值二值化图像进行图像数据增强处理后输入初始的跨模态行人重识别网络中进行训练，最后得到的训练好的跨模态行人重识别网络结构简单、性能好、能够提高跨模态行人重识别的准确率。

实施例2

更具体地，在步骤S2进行局部阈值二值化处理之前，还包括对所述第一跨模态行人重识别数据集中的图像进行灰度化处理。

在具体实施过程中，灰度化是二值化的基础，局部阈值二值化是二值化的一种特殊形式。二值化，就是将灰度图中的256个亮度等级，通过阈值的选择，设置为0或255，这个过程中图像呈现出明显的黑白效果。二值化使图像中数据量减少的同时，凸显出目标轮廓。大于或等于阈值的像素点，判定为目标物体，灰度值为255，否则灰度值判定为0，表示背景或者例外的物体区域。全局二值化与局部阈值二值化的区别在于阈值的选择：全局二值化的过程整个图像采用一个阈值；局部阈值二值化的过程，图像在局部范围内会算出局部的阈值，以局部阈值进行局部范围的判定。

在本实施例中，采用Open Source Computer Vision Library(cv2)的AdaptiveThreshold函数生成局部阈值二值化图像。该函数共有四个调节参数，分别是灰度值、自适应方法、二值化方法、分割计算的区域大小(BlockSize)，常数C。参数的设定上，灰度值设置为255，自适应阈值算法选择使用均值，即函数ADAPTIVR_THRESH_MEAN_C，均值函数起到了平滑的作用。二值化算法选择THRESH_BINARY。此外，区域大小BlockSize参数设定越大，参与计算阈值的区域也越大，细节轮廓变少，整体轮廓越明显。常数C设定越大，每个像素点领域参与计算的阈值就越小。BlockSize选择25，C设置为10。

更具体地，在步骤S3中，图像数据增强处理包括图像随机水平翻转处理、图像随机垂直翻转处理和图像随机垂直水平翻转处理。

在具体实施过程中，进行数据增强之前需要将图像大小统一，本实施例中将图像大小统一为288×144。通过数据增强，增加训练数据量以提高网络的泛化能力，增加噪声数据以提升网络的鲁棒性。

更具体地，如图4所示，所述初始的跨模态行人重识别网络包括卷积模块ConvBlock、第一残差层layer1、第二残差层layer2、第三残差层layer3、第四残差层layer4、全局平均池化层GeM、批归一化层BN、全连接层FC和特征融合模块F。

在具体实施过程中，可以以残差网络ResNet为基本构架并加以改进构建初始的跨模态行人重识别网络。初始的跨模态行人重识别网络结构简单，仅仅使用全局特征，易于理解，便于使用。

更具体地，在卷积模块和第一残差层中，可见光图像和红外图像采取独立参数进行训练；但为了确保网络能够提取多模态图像的特征，需要关注不同模态图像中关联、相似的部分，在第二残差层、第三残差层和第四残差层中，可见光图像和红外图像采取共享参数进行训练，降低网络训练难度，减少参数量的同时，提取出不同模态下同一行人的相同特征，以获得更高的准确率。

由于局部阈值二值化图像包含的信息量较少，不足以支撑训练新的网络。因此，本实施例中可见光局部阈值二值化图像和红外局部阈值二值化图像在训练时与对应的可见光图像和红外图像共享参数训练。图像保持一一对应的关系，共享参数可以帮助网络识别出噪声和有效信息，把握两种图片的整体特征，也就是轮廓姿态。

更具体地，所述特征融合模块通过以下公式进行特征融合：

F_T-NEW＝α*F_T+β*F_T-B,α+β≤1

F_V-NEW＝μ*F_V+ε*F_V-B,μ+ε≤1

在具体实施过程中，考虑融合系数时，为了避免特征数值过于突出，导致过拟合现象，给定α+β≤1以及μ+ε≤1，有利于网络的训练和鲁棒性。特征融合的过程以包含了大部分信息的可见光图像特征为主，辅以局部阈值二值化图像特征，在掌握全局特征的基础上，减少数据量，突出目标轮廓姿态。

更具体地，特征F_V与特征F_V-B在第一残差层后进行一次特征融合，特征F_T与特征F_T-B在第三残差层与第四残差层之后分别进行一次特征融合。

在具体实施过程中，可见光图像使用单次融合，红外图像使用双重融合。单次融合代表二值化图像的特征与原图像特征在网络中只进行一次特征融合；双重融合代表二值化图像的特征与原图像特征在网络的两个位置分别进行一次，共计两次融合。

更具体地，μ取0.8，ε取0.2，α取0.9，β取0.1。

在具体实施过程中，μ取0.8，ε取0.2，α取0.9，β取0.1时，特征融合效果最优。

更具体地，所述全局平均池化层的公式如下：

在具体实施过程中，全局平均池化层是一种介于平均池化和最大池化之间的池化方式。通过对p_k的调节，可以关注不同细度的区域。当p_k取1时，全局平均池化层(GemPooling)退化为平均池化层(AveragePooling)，当p_k取无穷大时，GemPooling等效于最大池化层(MaxPooling)。

更具体地，设样本a为任一个训练批次中输入所述初始的跨模态行人重识别网络进行训练的图像，挑选一个最难正样本p和一个最难负样本n与之组成三元组，难样本三元组损失函数L_tri的计算公式为：

例如，选择P＝6个行人的ID，在第三跨模态行人重识别数据集中随机选取每个ID的可见光图像和红外图像各m＝4张，则每个行人挑选的图像数量为M＝2m＝8张，一共有P*M＝48张图像；并且还会选择与所选取的可见光图像和红外图像对应的可见光局部阈值二值化图像和红外局部阈值二值化图像各m＝4张，一同输入网络进行特征融合并进行训练。也就是说每个训练批次包含24张可见光图像和24张红外图像和48张局部阈值二值化图像。

计算交叉熵损失函数L_id：

整体损失函数L为：

L＝L_id+L_tri

其中，

表示输入的可见光图像,

表示输入的红外图像。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种结合局部阈值二值化图像的跨模态行人重识别方法，其特征在于，包括以下步骤：

S4：将所述第三跨模态行人重识别数据集输入所述初始的跨模态行人重识别网络，并使用难样本三元组损失和交叉熵损失进行训练，得到训练好的跨模态行人重识别网络；通过所述训练好的跨模态行人重识别网络实现跨模态行人重识别；

所述初始的跨模态行人重识别网络包括卷积模块、第一残差层、第二残差层、第三残差层、第四残差层、全局平均池化层、批归一化层、全连接层和特征融合模块；

在卷积模块和第一残差层中，可见光图像和红外图像采取独立参数进行训练；在第二残差层、第三残差层和第四残差层中，可见光图像和红外图像采取共享参数进行训练；

所述特征融合模块通过以下公式进行特征融合：

F_T-NEW＝α*F_T+β*F_T-B，α+β≤1

F_V-NEW＝μ*F_V+ε*F_V-B，μ+ε≤1

2.根据权利要求1所述的一种结合局部阈值二值化图像的跨模态行人重识别方法，其特征在于，在步骤S2进行局部阈值二值化处理之前，还包括对所述第一跨模态行人重识别数据集中的图像进行灰度化处理。

3.根据权利要求1所述的一种结合局部阈值二值化图像的跨模态行人重识别方法，其特征在于，在步骤S3中，图像数据增强处理包括图像随机水平翻转处理、图像随机垂直翻转处理和图像随机垂直水平翻转处理。

4.根据权利要求1所述的一种结合局部阈值二值化图像的跨模态行人重识别方法，其特征在于，特征F_V与特征F_V-B在第一残差层后进行一次特征融合，特征F_T与特征F_T-B在第三残差层与第四残差层之后分别进行一次特征融合。

5.根据权利要求1或4所述的一种结合局部阈值二值化图像的跨模态行人重识别方法，其特征在于，μ取0.8，ε取0.2，α取0.9，β取0.1。

6.根据权利要求1所述的一种结合局部阈值二值化图像的跨模态行人重识别方法，其特征在于，所述全局平均池化层的公式如下：

f＝[f₁…f_k…f_K]^T，

其中，f_k表示特征矩阵，K表示第四残差层中特征图的数量，χ_K表示特征映射k∈{1，2，…K}的W×H的激活集，W表示特征图的宽，H表示特征图的高，x_i表示特征映射i的激活集，p_k为池化的超参数，[·]^T表示矩阵的转置。

7.根据权利要求1所述的一种结合局部阈值二值化图像的跨模态行人重识别方法，其特征在于，设样本a为任一个训练批次中输入所述初始的跨模态行人重识别网络进行训练的图像，挑选一个最难正样本p和一个最难负样本n与之组成三元组，难样本三元组损失函数L_tri的计算公式为：

其中，不同的行人对应不同的ID，P表示挑选的行人ID数量，M表示每个行人挑选的图像数量，batch表示训练批次，d_a，p表示样本a的特征映射与最难正样本p的特征映射的欧式距离，d_a，n表示样本a的特征映射与最难负样本n的特征映射的欧式距离，γ表示一个超参数；(·)₊表示(·)内的值大于零的时取(·)内的值为损失，小于零时，取损失为零；

其中，Z_u，v表示X_u经过分类后被认为是ID为v的行人的概率，Y_v表示对应标签，C表示行人ID总数量，w表示第w个行人ID；

计算交叉熵损失函数L_id：

整体损失函数L为：

L＝L_id+L_tri

其中，

表示输入的可见光图像，

表示输入的红外图像。