CN114913372A

CN114913372A - 一种基于多模态数据集成决策的目标识别算法

Info

Publication number: CN114913372A
Application number: CN202210506178.8A
Authority: CN
Inventors: 殷光强; 李超; 王治国; 杨晓宇; 常益凡
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-08-16
Anticipated expiration: 2042-05-10
Also published as: CN114913372B

Abstract

本发明涉及数据处理技术领域，尤其涉及一种基于多模态数据集成决策的目标识别算法，包括建立分类识别网络模型，并基于该建立分类识别网络模型进行图像多模态处理、图像无标签分类和图像集成决策分类；通过图像多模态处理获得基于复杂环境的多个数据集；通过无标签分类以区分正负样本，然后基于正负样本进行图像集成决策分类。本发明基于复杂环境变化，通过对数据集图像处理得到多模态数据，使得目标图像有了多层次可梯次化的特性，为后续模型训练得到更稳健的性能打下了良好的基础，以运用集成决策算法与无标签样本辨识算法结合实现环境自适应目标识别算法，在复杂环境下能高效、准确地识别出目标。

Description

一种基于多模态数据集成决策的目标识别算法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于多模态数据集成决策的目标识别算法。

背景技术

目标识别是利用计算机视觉技术对跨摄像头的目标图像进行特征提取，从而进行目标匹配的技术。目前常见的目标识别是行人重识别。行人重识别广泛应用于智慧安防、智慧零售等领域。在目标识别领域中，主要分为有监督学习、半监督学习、无监督学习等技术方法。基于监督学习的目标识别准确度较高，但需要大量的手工标记图片标签，耗费人力过大；基于半监督学习的目标识别准确度较高，但对于摄像头、环境等变化时具有一定的局限性；基于无监督学习的目标识别能更好地解决关于局限性的拓展问题，但准确度存在较大差距。

尤其在需要实现跨域目标识别的模型中，数据集受复杂环境下的天气变化、光线变化、姿态变化等影响，因此会导致目标域的数据分布同源域相比差别较大，从而导致目标识别的任务复杂化。限于以上原因，为了更好提升环境的现有的算法在复杂环境变化情况下，耗费人力大小与准确度高低很难得到平衡，并且同一模型对于不同数据集下的目标识别结果存在很大差距。

发明内容

本发明针对上述现有技术的不足，提供一种基于多模态数据集成决策的目标识别算法，该方法结合了图像多模态处理、集成决策算法与无标签样本辨识算法，针对复杂环境下的目标，先通过对目标域样本的多模态处理实现多模态数据集形成，然后通过无监督聚类算法为多模态数据贴上区分正负样本伪标签，最后利用XGBoost算法模块进行集成决策，重复反馈训练，以提高复杂环境下目标识别的准确率。

本发明解决上述技术问题所采用的技术方案如下：

一种基于多模态数据集成决策的目标识别算法，包括建立分类识别网络模型，并基于该建立分类识别网络模型进行图像多模态处理、图像无标签分类和图像集成决策分类；

所述建立分类识别网络模型，包括以ResNet50模型为主干网络，融入无监督分类算法模块以及基于triplet loss损失函数的XGBoost算法模块，构成分类识别网络模型；

所述图像多模态处理，包括获取图像数据集，并基于分类识别网络模型将图像数据集中的图像基于复杂环境的多模态数据处理，以获得基于复杂环境的多个数据集；其中，复杂环境包括亮度变化、姿态变化和清晰度变化；

所述图像无标签分类，包括基于分类识别网络模型，利用DBSCAN聚类算法基于复杂环境的种类为多样性样本中的目标图像贴上伪标签，以区分正负样本；

所述图像集成决策分类，包括基于分类识别网络模型，利用XGBoost算法模型将可辨识正样本生成随机森林，以进行集成决策；基于集成决策结果更新负样本的伪标签，基于最终的正负样本进行模型循环训练，直至分类识别网络模型稳定。

优选的，所述图像多模态处理包括以下步骤：

S11，将数据集DukeMTMC-reID作为目标域T₀，对目标域T₀中的每张图像

打上伪标签

其中0＜i≤N，i∈Z，N标表示表示数据集T₀中的图像数量；

S12，采用高斯模糊对目标域T₀中的图像进行降低清晰度处理，基于处理后的图像数据建立新的数据集T₁，并对数据集T₁中的每张图像

打上伪标签

其中，0＜i≤N，i∈Z；

S13，对目标域T₀中的图像进行亮度调节处理：包括提高图像亮度，基于提高亮度后的图像数据建立新的数据集T₂，并对数据集T₂中的每张图像

打上伪标签

0＜i≤N，i∈Z；降低图像亮度，基于降低亮度后的图像数据建立新的数据集T₃，并对数据集T₂中的每张图像

打上伪标签

其中，0＜i≤N，i∈Z；

S14，基于目标域T₀，采用DeeperCut算法对其图像数据中呈现的人物进行姿态分割处理，基于处理结果建立新的数据集，并对新的数据集中的每张图像打上新的伪标签。

优选的，所述步骤S14中，姿态分割处理所用的DeeperCut算法，其计算公式为：

B^ub＝[(0，y₂-2α)，(W-1，y_c+2α)]

B^lb＝[(0，y_c-2α)，(W-1，H-1)]

v＝y₂-y₁+2α

其中，H为当前所处理图像的高度，W为当前所处理图像的宽度；(x₁，y₁)为头部点坐标；(x₂，y₂)为颈部点坐标；(x₃，y₃)为左髋关节点坐标；(x₄，y₄)为右髋关节点坐标；x_c为头部点坐标与颈部点坐标在x轴上的中间值，y_c为左髋关节点坐标与右髋关节点坐标在y轴上的中间值；v为头部点坐标与颈部点坐标在y轴上的差值；α是控制相邻部位区域之间重叠的参数；B^h表示头部区域作为数据集T₄，对数据集T₄中的每张图像

打上伪标签为

其中，0＜i≤N，i∈Z；B^ub表示上半身区域作为数据集T₅，对数据集T₅中的每张图像

打上伪标签为

其中，0＜i≤N，i∈Z；B^lb表示下半身区域作为数据集T₆，对数据集T₆中的每张图像

打上伪标签

其中，0＜i≤N，i∈Z。

优选的，所述图像无标签分类包括以下步骤：

S21，将数据集Market-1501作为源域S，将源域S在基于ImageNet预训练后的ResNet50上进行模型训练，期间的损失函数调用triplet loss，反复训练至模型稳定，并定义该模型为baseline；

S22，将数据集T_j在baseline上进行图像特征提取，表示为F_j∈R^c×h×w；其中，j表示图像多模态处理中所有数据集样本的序号，j＝1，2，3，4，5，6；F_j表示输出图像特征，c为图像特征的通道数量、h为图像特征的高度、w为图像特征的宽度；

S23，通过成分类识别网络模型中的GAP池化模块特征F_j转换为对应的特征向量

其中，N_t表示目标域T₀中的行人人数；

S24，针对图像多模态处理获得的每个样本，运用无监督聚类算法基于特征向量f_j将可识别出的图像添加伪标签k_j，将不可识别出的图像添加伪标签k_jf，以产生两个新的数据集，即：

可识别数据集

不可识别数据集

其中，M表示行人数量，

表示第j个数据集样本的第M个行人的图像数据样本，

表示数据集Y_T中第j个数据集样本的第M个行人的图像数据样本的伪标签，

表示数据集Y_Tf中第j个数据集样本的第M个行人的图像数据样本的伪标签。

优选的，所述图像集成决策分类包括以下步骤：

S31，将所述数据集Y_T内图像与对应特征向量f_i带入XGBoost算法模块中进行集成决策；

S32，基于XGBoost算法模块集成决策结果，划分出数据集Y_T中的负样本，将负样本加入数据集Y_Tf，并将其伪标签更新为k_jf；

S33，基于步骤S32中最终的获得的数据集Y_T和数据集Y_Tf对分类识别网络模型进行循环训练，直至分类识别网络模型稳定。

优选的，所述步骤S33中，对分类识别网络模型进行循环训练包括以下三个循环路径：

1)将步骤S32中最终的获得的数据集Y_T反馈至baseline，采用与步骤S22-S24相同的方法和流程重新划分新的可识别数据集合不可识别数据集；并采用与步骤S31-S32相同的方法和流程进行重新集成决策以及样本更新；

2)将步骤S32中最终的获得的数据集Y_Tf反馈至baseline，采用与步骤S22-S24相同的方法和流程重新划分新的可识别数据集合不可识别数据集；并采用与步骤S31-S32相同的方法和流程进行重新集成决策以及样本更新；

3)将步骤S32中最终的获得的数据集Y_T直接反馈至XGBoost算法模块，并采用与步骤S31-S32相同的方法和流程进行重新集成决策以及样本更新。

优选的，所述步骤S31中，集成决策所运用到的目标函数如下：

其中，k表示基于数据集Y_T所生成的随机森林中树的序号；Ω(f_k)代表抑制模型复杂度的正则项；m表示组成XGBoost算法模块的基模型数量；n表示数据集样本数量；另外，l(f_j+y^M)表示模型的损失函数L_um，l表示triplet loss损失函数，

表示第j个数据集样本中第M个行人的图像数据样本的预测值；L用于将损失函数L_um呈现在线性空间上。

本发明的有益效果：

本发明基于复杂环境变化，通过对数据集图像处理得到多模态数据，使得目标图像有了多层次可梯次化的特性，为后续模型训练得到更稳健的性能打下了良好的基础；另外针对复杂环境变化下的目标，实现基于多模态数据的无监督辨识样本、分类样本的算法，以运用集成决策算法与无标签样本辨识算法结合实现环境自适应目标识别算法，在复杂环境下能高效、准确地识别出目标。

附图说明

图1为本技术方案的实施流程图；

图2为图像多模态处理流程图；

图3为XGBoost算法模块的工作原理框图。

具体实施方式

为使发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

因此，以下对在附图中提供的本发明的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本实施例公开一种基于多模态数据集成决策的目标识别算法，作为本发明一种优选的实施方案，实施流程如图1所示，包括建立分类识别网络模型，并基于该建立分类识别网络模型进行图像多模态处理、图像无标签分类和图像集成决策分类。

其中，建立分类识别网络模型，包括以ResNet50模型为主干网络，融入无监督分类算法模块以及基于triplet loss损失函数的XGBoost算法模块，构成分类识别网络模型。

图像多模态处理，包括获取图像数据集，并基于分类识别网络模型将图像数据集中的图像基于复杂环境的多模态数据处理，以获得基于复杂环境的多个数据集，以增强训练样本的多样性；其中，复杂环境包括亮度变化、姿态变化和清晰度变化；如图2所示，具体包括以下步骤：

打上伪标签

其中0＜i≤N，i∈Z，N标表示表示数据集T₀中的图像数量。

打上伪标签

其中，0＜i≤N，i∈Z。

打上伪标签

打上伪标签

其中，0＜i≤N，i∈Z。

S14，基于目标域T₀，采用DeeperCut算法对其图像数据中呈现的人物进行姿态分割处理，基于处理结果建立新的数据集，并对新的数据集中的每张图像打上新的伪标签。具体的姿态分割处理所用的DeeperCut算法，其计算公式为：

B^ub＝[(0，y₂-2α)，(W-1，y_c+2α)]

B^lb＝[(0，y_c-2α)，(W-1，H-1)]

v＝y₂-y₁+2α

打上伪标签为

打上伪标签为

打上伪标签

其中，0＜i≤N，i∈Z。

前述所有的i表示为相应数据集中的图像序号。

针对增强数据多样性后，分类识别网络模型要能更好地学习到这类数据的特征，区分为是否可识别样本，需要对该类数据集进行初次分类为正负样本，反复训练，而打上伪标签帮助后续训练分组作为一个依据。基于此，图像无标签分类包括基于分类识别网络模型，利用DBSCAN聚类算法基于复杂环境的种类为多样性样本中的目标图像贴上伪标签，以区分正负样本；具体包括以下步骤：

S21，将数据集Market-1501作为源域S，将源域S在基于ImageNet预训练后的ResNet50上进行模型训练，期间的损失函数调用triplet loss，反复训练至模型稳定，并定义该模型为baseline。

S22，将数据集T_j在baseline上进行图像特征提取，表示为F_j∈R^c×h×w；其中，j表示图像多模态处理中所有数据集样本的序号，j＝1，2，3，4，5，6；F_j表示输出图像特征，c为图像特征的通道数量、h为图像特征的高度、w为图像特征的宽度；其中需要同时7个ResNet50网络进行特征提取，实行分享权重，完成对多个模块的特征提取。

其中，N_t表示目标域T₀中的行人人数。

可识别数据集

不可识别数据集

其中，M表示行人数量，

表示第j个数据集样本的第M个行人的图像数据样本，

在前述初步进行无监督聚类后区分出正负样本并打印好对应标签，由于该分类效果目标是区分可识别与不可识别效果，因此调用基于triplet loss损失函数的XGBoost算法模块实现对于图像集成决策分类，包括基于分类识别网络模型，利用XGBoost算法模型将可辨识正样本生成随机森林，以进行集成决策；基于集成决策结果更新负样本的伪标签，基于最终的正负样本进行模型循环训练，直至分类识别网络模型稳定。具体包括以下步骤：

S31，将所述数据集Y_T内图像与对应特征向量f_i带入XGBoost算法模块中，基于如图3所示的XGBoost算法模块工作原理进行集成决策；其中，集成决策所运用到的目标函数如下：

表示第j个数据集样本中第M个行人的图像数据样本的预测值；L用于将损失函数L_um呈现在线性空间上。该目标函数通过不断地添加树和进行特征分裂，每添加一棵树就学习一个新的函数，以每一轮的预测去拟合上一轮预测的残差，根据样本的特征就可预测样本分数，当训练完成得到n棵树，在每棵树中会落到对应的叶子节点上，每个叶子节点对应一个分数，最后将所有树的对应分数相加就得到该目标图像的预测值，基于该预测值的大小即可实现正负样本的划分。其中损失函数采用triplet loss组成的L_um，将f_i与Y_T内对应的伪标签加入损失函数进行计算。其中损失函数L_um公式为：

L_um＝L_triplet(f₀，k₀)+L_triplet(f₁，k₁)+…+L_triplet(f₆，k₆)。

S33，基于步骤S32中最终的获得的数据集Y_T和数据集Y_Tf对分类识别网络模型进行循环训练，直至分类识别网络模型稳定。具体的，对分类识别网络模型进行循环训练包括以下三个循环路径：