CN114913372B - 一种基于多模态数据集成决策的目标识别方法 - Google Patents

一种基于多模态数据集成决策的目标识别方法 Download PDF

Info

Publication number
CN114913372B
CN114913372B CN202210506178.8A CN202210506178A CN114913372B CN 114913372 B CN114913372 B CN 114913372B CN 202210506178 A CN202210506178 A CN 202210506178A CN 114913372 B CN114913372 B CN 114913372B
Authority
CN
China
Prior art keywords
image
data set
classification
data
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210506178.8A
Other languages
English (en)
Other versions
CN114913372A (zh
Inventor
殷光强
李超
王治国
杨晓宇
常益凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210506178.8A priority Critical patent/CN114913372B/zh
Publication of CN114913372A publication Critical patent/CN114913372A/zh
Application granted granted Critical
Publication of CN114913372B publication Critical patent/CN114913372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及数据处理技术领域,尤其涉及一种基于多模态数据集成决策的目标识别算法,包括建立分类识别网络模型,并基于该建立分类识别网络模型进行图像多模态处理、图像无标签分类和图像集成决策分类;通过图像多模态处理获得基于复杂环境的多个数据集;通过无标签分类以区分正负样本,然后基于正负样本进行图像集成决策分类。本发明基于复杂环境变化,通过对数据集图像处理得到多模态数据,使得目标图像有了多层次可梯次化的特性,为后续模型训练得到更稳健的性能打下了良好的基础,以运用集成决策算法与无标签样本辨识算法结合实现环境自适应目标识别算法,在复杂环境下能高效、准确地识别出目标。

Description

一种基于多模态数据集成决策的目标识别方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于多模态数据集成决策的目标识别方法。
背景技术
目标识别是利用计算机视觉技术对跨摄像头的目标图像进行特征提取,从而进行目标匹配的技术。目前常见的目标识别是行人重识别。行人重识别广泛应用于智慧安防、智慧零售等领域。在目标识别领域中,主要分为有监督学习、半监督学习、无监督学习等技术方法。基于监督学习的目标识别准确度较高,但需要大量的手工标记图片标签,耗费人力过大;基于半监督学习的目标识别准确度较高,但对于摄像头、环境等变化时具有一定的局限性;基于无监督学习的目标识别能更好地解决关于局限性的拓展问题,但准确度存在较大差距。
尤其在需要实现跨域目标识别的模型中,数据集受复杂环境下的天气变化、光线变化、姿态变化等影响,因此会导致目标域的数据分布同源域相比差别较大,从而导致目标识别的任务复杂化。限于以上原因,为了更好提升环境的现有的算法在复杂环境变化情况下,耗费人力大小与准确度高低很难得到平衡,并且同一模型对于不同数据集下的目标识别结果存在很大差距。
发明内容
本发明针对上述现有技术的不足,提供一种基于多模态数据集成决策的目标识别方法,该方法结合了图像多模态处理、集成决策算法与无标签样本辨识算法,针对复杂环境下的目标,先通过对目标域样本的多模态处理实现多模态数据集形成,然后通过无监督聚类算法为多模态数据贴上区分正负样本伪标签,最后利用XGBoost算法模块进行集成决策,重复反馈训练,以提高复杂环境下目标识别的准确率。
本发明解决上述技术问题所采用的技术方案如下:
一种基于多模态数据集成决策的目标识别方法,包括建立分类识别网络模型,并基于该建立分类识别网络模型进行图像多模态处理、图像无标签分类和图像集成决策分类;
所述建立分类识别网络模型,包括以ResNet50模型为主干网络,融入无监督分类算法模块以及基于triplet loss损失函数的XGBoost算法模块,构成分类识别网络模型;
所述图像多模态处理,包括获取图像数据集,并基于分类识别网络模型将图像数据集中的图像基于复杂环境的多模态数据处理,以获得基于复杂环境的多个数据集;其中,复杂环境包括亮度变化、姿态变化和清晰度变化;
所述图像无标签分类,包括基于分类识别网络模型,利用DBSCAN聚类算法基于复杂环境的种类为多样性样本中的目标图像贴上伪标签,以区分正负样本;
所述图像集成决策分类,包括基于分类识别网络模型,利用XGBoost算法模型将可辨识正样本生成随机森林,以进行集成决策;基于集成决策结果更新负样本的伪标签,基于最终的正负样本进行模型循环训练,直至分类识别网络模型稳定。
优选的,所述图像多模态处理包括以下步骤:
S11,将数据集DukeMTMC-reID作为目标域T0,对目标域T0中的每张图像
Figure GDA0004152616060000021
打上伪标签/>
Figure GDA0004152616060000022
其中0<i≤N,i∈Z,N标表示表示数据集T0中的图像数量;
S12,采用高斯模糊对目标域T0中的图像进行降低清晰度处理,基于处理后的图像数据建立新的数据集T1,并对数据集T1中的每张图像
Figure GDA0004152616060000023
打上伪标签/>
Figure GDA0004152616060000024
其中,0<i≤N,i∈Z;
S13,对目标域T0中的图像进行亮度调节处理:包括提高图像亮度,基于提高亮度后的图像数据建立新的数据集T2,并对数据集T2中的每张图像
Figure GDA0004152616060000025
打上伪标签/>
Figure GDA0004152616060000026
0<i≤N,i∈Z;降低图像亮度,基于降低亮度后的图像数据建立新的数据集T3,并对数据集T3中的每张图像/>
Figure GDA0004152616060000027
打上伪标签/>
Figure GDA0004152616060000028
其中,0<i≤N,i∈Z;
S14,基于目标域T0,采用DeeperCut算法对其图像数据中呈现的人物进行姿态分割处理,基于处理结果建立新的数据集,并对新的数据集中的每张图像打上新的伪标签。
优选的,所述步骤S14中,姿态分割处理所用的DeeperCut算法,其计算公式为:
Figure GDA0004152616060000029
Bub=[(0,y2-2α),(W-1,yc+2α)]
Blb=[(0,yc-2α),(W-1,H-1)]
v=y2-y1+2α
Figure GDA00041526160600000210
Figure GDA0004152616060000031
其中,H为当前所处理图像的高度,W为当前所处理图像的宽度;(x1,y1)为头部点坐标;(x2,y2)为颈部点坐标;(x3,y3)为左髋关节点坐标;(x4,y4)为右髋关节点坐标;xc为头部点坐标与颈部点坐标在x轴上的中间值,yc为左髋关节点坐标与右髋关节点坐标在y轴上的中间值;v为头部点坐标与颈部点坐标在y轴上的差值;α是控制相邻部位区域之间重叠的参数;Bh表示头部区域作为数据集T4,对数据集T4中的每张图像
Figure GDA0004152616060000032
打上伪标签为/>
Figure GDA0004152616060000033
其中,0<i≤N,i∈Z;Bub表示上半身区域作为数据集T5,对数据集T5中的每张图像/>
Figure GDA0004152616060000034
打上伪标签为/>
Figure GDA0004152616060000035
其中,0<i≤N,i∈Z;Blb表示下半身区域作为数据集T6,对数据集T6中的每张图像/>
Figure GDA0004152616060000036
打上伪标签/>
Figure GDA0004152616060000037
其中,0<i≤N,i∈Z。
优选的,所述图像无标签分类包括以下步骤:
S21,将数据集Market-1501作为源域S,将源域S在基于ImageNet预训练后的ResNet50上进行模型训练,期间的损失函数调用triplet loss,反复训练至模型稳定,并定义该模型为baseline;
S22,将数据集Tj在baseline上进行图像特征提取,表示为Fj∈Rc×h×w;其中,j表示图像多模态处理中所有数据集样本的序号,j=1,2,3,4,5,6;Fj表示输出图像特征,c为图像特征的通道数量、h为图像特征的高度、w为图像特征的宽度;
S23,通过成分类识别网络模型中的GAP池化模块特征Fj转换为对应的特征向量
Figure GDA0004152616060000038
其中,Nt表示目标域T0中的行人人数;
S24,针对图像多模态处理获得的每个样本,运用无监督聚类算法基于特征向量fj将可识别出的图像添加伪标签kj,将不可识别出的图像添加伪标签kjf,以产生两个新的数据集,即:
可识别数据集
Figure GDA0004152616060000039
1≤M≤Nt,0≤j≤6,M∈Z,j∈Z};
不可识别数据集
Figure GDA00041526160600000310
1≤M≤Nt,0≤j≤6,M∈Z,j∈Z};
其中,M表示行人数量,
Figure GDA00041526160600000311
表示第j个数据集样本的第M个行人的图像数据样本,
Figure GDA0004152616060000041
表示数据集YT中第j个数据集样本的第M个行人的图像数据样本的伪标签,/>
Figure GDA0004152616060000042
表示数据集YTf中第j个数据集样本的第M个行人的图像数据样本的伪标签。
优选的,所述图像集成决策分类包括以下步骤:
S31,将所述数据集YT内图像与对应特征向量fi带入XGBoost算法模块中进行集成决策;
S32,基于XGBoost算法模块集成决策结果,划分出数据集YT中的负样本,将负样本加入数据集YTf,并将其伪标签更新为kjf
S33,基于步骤S32中最终的获得的数据集YT和数据集YTf对分类识别网络模型进行循环训练,直至分类识别网络模型稳定。
优选的,所述步骤S33中,对分类识别网络模型进行循环训练包括以下三个循环路径:
1)将步骤S32中最终的获得的数据集YT反馈至baseline,采用与步骤S22—S24相同的方法和流程重新划分新的可识别数据集和不可识别数据集;并采用与步骤S31—S32相同的方法和流程进行重新集成决策以及样本更新;
2)将步骤S32中最终的获得的数据集YTf反馈至baseline,采用与步骤S22—S24相同的方法和流程重新划分新的可识别数据集和不可识别数据集;并采用与步骤S31—S32相同的方法和流程进行重新集成决策以及样本更新;
3)将步骤S32中最终的获得的数据集YT直接反馈至XGBoost算法模块,并采用与步骤S31—S32相同的方法和流程进行重新集成决策以及样本更新。
优选的,所述步骤S31中,集成决策所运用到的目标函数如下:
Figure GDA0004152616060000043
其中,k表示基于数据集YT所生成的随机森林中树的序号;Ω(fk)代表抑制模型复杂度的正则项;m表示组成XGBoost算法模块的基模型数量;n表示数据集样本数量;另外,l(fj+yM)表示模型的损失函数Lum,l表示triplet loss损失函数,
Figure GDA0004152616060000044
Figure GDA0004152616060000045
表示第j个数据集样本中第M个行人的图像数据样本的预测值;L(k)用于将损失函数Lum呈现在线性空间上。
本发明的有益效果:
本发明基于复杂环境变化,通过对数据集图像处理得到多模态数据,使得目标图像有了多层次可梯次化的特性,为后续模型训练得到更稳健的性能打下了良好的基础;另外针对复杂环境变化下的目标,实现基于多模态数据的无监督辨识样本、分类样本的算法,以运用集成决策算法与无标签样本辨识算法结合实现环境自适应目标识别算法,在复杂环境下能高效、准确地识别出目标。
附图说明
图1为本技术方案的实施流程图;
图2为图像多模态处理流程图;
图3为XGBoost算法模块的工作原理框图。
具体实施方式
为使发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
因此,以下对在附图中提供的本发明的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例公开一种基于多模态数据集成决策的目标识别方法,作为本发明一种优选的实施方案,实施流程如图1所示,包括建立分类识别网络模型,并基于该建立分类识别网络模型进行图像多模态处理、图像无标签分类和图像集成决策分类。
其中,建立分类识别网络模型,包括以ResNet50模型为主干网络,融入无监督分类算法模块以及基于triplet loss损失函数的XGBoost算法模块,构成分类识别网络模型。
图像多模态处理,包括获取图像数据集,并基于分类识别网络模型将图像数据集中的图像基于复杂环境的多模态数据处理,以获得基于复杂环境的多个数据集,以增强训练样本的多样性;其中,复杂环境包括亮度变化、姿态变化和清晰度变化;如图2所示,具体包括以下步骤:
S11,将数据集DukeMTMC-reID作为目标域T0,对目标域T0中的每张图像
Figure GDA0004152616060000051
打上伪标签/>
Figure GDA0004152616060000052
其中0<i≤N,i∈Z,N标表示表示数据集T0中的图像数量。
S12,采用高斯模糊对目标域T0中的图像进行降低清晰度处理,基于处理后的图像数据建立新的数据集T1,并对数据集T1中的每张图像
Figure GDA0004152616060000061
打上伪标签/>
Figure GDA0004152616060000062
其中,0<i≤N,i∈Z。
S13,对目标域T0中的图像进行亮度调节处理:包括提高图像亮度,基于提高亮度后的图像数据建立新的数据集T2,并对数据集T2中的每张图像
Figure GDA0004152616060000063
打上伪标签/>
Figure GDA0004152616060000064
0<i≤N,i∈Z;降低图像亮度,基于降低亮度后的图像数据建立新的数据集T3,并对数据集T3中的每张图像/>
Figure GDA0004152616060000065
打上伪标签/>
Figure GDA0004152616060000066
其中,0<i≤N,i∈Z。/>
S14,基于目标域T0,采用DeeperCut算法对其图像数据中呈现的人物进行姿态分割处理,基于处理结果建立新的数据集,并对新的数据集中的每张图像打上新的伪标签。具体的姿态分割处理所用的DeeperCut算法,其计算公式为:
Figure GDA0004152616060000067
Bub=[(0,y2-2α),(W-1,yc+2α)]
Blb=[(0,yc-2α),(W-1,H-1)]
v=y2-y1+2α
Figure GDA0004152616060000068
Figure GDA0004152616060000069
其中,H为当前所处理图像的高度,W为当前所处理图像的宽度;(x1,y1)为头部点坐标;(x2,y2)为颈部点坐标;(x3,y3)为左髋关节点坐标;(x4,y4)为右髋关节点坐标;xc为头部点坐标与颈部点坐标在x轴上的中间值,yc为左髋关节点坐标与右髋关节点坐标在y轴上的中间值;v为头部点坐标与颈部点坐标在y轴上的差值;α是控制相邻部位区域之间重叠的参数;Bh表示头部区域作为数据集T4,对数据集T4中的每张图像
Figure GDA00041526160600000610
打上伪标签为/>
Figure GDA00041526160600000611
其中,0<i≤N,i∈Z;Bub表示上半身区域作为数据集T5,对数据集T5中的每张图像/>
Figure GDA00041526160600000612
打上伪标签为/>
Figure GDA00041526160600000613
其中,0<i≤N,i∈Z;Blb表示下半身区域作为数据集T6,对数据集T6中的每张图像/>
Figure GDA00041526160600000614
打上伪标签/>
Figure GDA00041526160600000615
其中,0<i≤N,i∈Z。
前述所有的i表示为相应数据集中的图像序号。
针对增强数据多样性后,分类识别网络模型要能更好地学习到这类数据的特征,区分为是否可识别样本,需要对该类数据集进行初次分类为正负样本,反复训练,而打上伪标签帮助后续训练分组作为一个依据。基于此,图像无标签分类包括基于分类识别网络模型,利用DBSCAN聚类算法基于复杂环境的种类为多样性样本中的目标图像贴上伪标签,以区分正负样本;具体包括以下步骤:
S21,将数据集Market-1501作为源域S,将源域S在基于ImageNet预训练后的ResNet50上进行模型训练,期间的损失函数调用triplet loss,反复训练至模型稳定,并定义该模型为baseline。
S22,将数据集Tj在baseline上进行图像特征提取,表示为Fj∈Rc×h×w;其中,j表示图像多模态处理中所有数据集样本的序号,j=1,2,3,4,5,6;Fj表示输出图像特征,c为图像特征的通道数量、h为图像特征的高度、w为图像特征的宽度;其中需要同时7个ResNet50网络进行特征提取,实行分享权重,完成对多个模块的特征提取。
S23,通过成分类识别网络模型中的GAP池化模块特征Fj转换为对应的特征向量
Figure GDA0004152616060000071
其中,Nt表示目标域T0中的行人人数。
S24,针对图像多模态处理获得的每个样本,运用无监督聚类算法基于特征向量fj将可识别出的图像添加伪标签kj,将不可识别出的图像添加伪标签kjf,以产生两个新的数据集,即:
可识别数据集
Figure GDA0004152616060000072
1≤M≤Nt,0≤j≤6,M∈Z,j∈Z};
不可识别数据集
Figure GDA0004152616060000073
1≤M≤Nt,0≤j≤6,M∈Z,j∈Z};
其中,M表示行人数量,
Figure GDA0004152616060000074
表示第j个数据集样本的第M个行人的图像数据样本,/>
Figure GDA0004152616060000075
表示数据集YT中第j个数据集样本的第M个行人的图像数据样本的伪标签,/>
Figure GDA0004152616060000076
表示数据集YTf中第j个数据集样本的第M个行人的图像数据样本的伪标签。
在前述初步进行无监督聚类后区分出正负样本并打印好对应标签,由于该分类效果目标是区分可识别与不可识别效果,因此调用基于triplet loss损失函数的XGBoost算法模块实现对于图像集成决策分类,包括基于分类识别网络模型,利用XGBoost算法模型将可辨识正样本生成随机森林,以进行集成决策;基于集成决策结果更新负样本的伪标签,基于最终的正负样本进行模型循环训练,直至分类识别网络模型稳定。具体包括以下步骤:
S31,将所述数据集YT内图像与对应特征向量fi带入XGBoost算法模块中,基于如图3所示的XGBoost算法模块工作原理进行集成决策;其中,集成决策所运用到的目标函数如下:
Figure GDA0004152616060000081
其中,k表示基于数据集YT所生成的随机森林中树的序号;Ω(fk)代表抑制模型复杂度的正则项;m表示组成XGBoost算法模块的基模型数量;n表示数据集样本数量;另外,l(fj+yM)表示模型的损失函数Lum,l表示triplet loss损失函数,
Figure GDA0004152616060000082
Figure GDA0004152616060000083
表示第j个数据集样本中第M个行人的图像数据样本的预测值;L(k)用于将损失函数Lum呈现在线性空间上。该目标函数通过不断地添加树和进行特征分裂,每添加一棵树就学习一个新的函数,以每一轮的预测去拟合上一轮预测的残差,根据样本的特征就可预测样本分数,当训练完成得到n棵树,在每棵树中会落到对应的叶子节点上,每个叶子节点对应一个分数,最后将所有树的对应分数相加就得到该目标图像的预测值,基于该预测值的大小即可实现正负样本的划分。其中损失函数采用triplet loss组成的Lum,将fi与YT内对应的伪标签加入损失函数进行计算。其中损失函数Lum公式为:
Lum=Ltriplet(f0,k0)+Ltriplet(f1,k1)+…+Ltriplet(f6,k6)。
S32,基于XGBoost算法模块集成决策结果,划分出数据集YT中的负样本,将负样本加入数据集YTf,并将其伪标签更新为kjf
S33,基于步骤S32中最终的获得的数据集YT和数据集YTf对分类识别网络模型进行循环训练,直至分类识别网络模型稳定。具体的,对分类识别网络模型进行循环训练包括以下三个循环路径:
1)将步骤S32中最终的获得的数据集YT反馈至baseline,采用与步骤S22—S24相同的方法和流程重新划分新的可识别数据集和不可识别数据集;并采用与步骤S31—S32相同的方法和流程进行重新集成决策以及样本更新;
2)将步骤S32中最终的获得的数据集YTf反馈至baseline,采用与步骤S22—S24相同的方法和流程重新划分新的可识别数据集和不可识别数据集;并采用与步骤S31—S32相同的方法和流程进行重新集成决策以及样本更新;
3)将步骤S32中最终的获得的数据集YT直接反馈至XGBoost算法模块,并采用与步骤S31—S32相同的方法和流程进行重新集成决策以及样本更新。

Claims (7)

1.一种基于多模态数据集成决策的目标识别方法,其特征在于:包括建立分类识别网络模型,并基于该建立分类识别网络模型进行图像多模态处理、图像无标签分类和图像集成决策分类;
所述建立分类识别网络模型,包括以ResNet50模型为主干网络,融入无监督分类算法模块以及基于tripletloss损失函数的XGBoost算法模块,构成分类识别网络模型;
所述图像多模态处理,包括获取图像数据集,并基于分类识别网络模型将图像数据集中的图像基于复杂环境的多模态数据处理,以获得基于复杂环境的多个数据集;其中,复杂环境包括亮度变化、姿态变化和清晰度变化;
所述图像无标签分类,包括基于分类识别网络模型,利用DBSCAN聚类算法基于复杂环境的种类为多样性样本中的目标图像贴上伪标签,以区分正负样本;
所述图像集成决策分类,包括基于分类识别网络模型,利用XGBoost算法模型将可辨识正样本生成随机森林,以进行集成决策;基于集成决策结果更新负样本的伪标签,基于最终的正负样本进行模型循环训练,直至分类识别网络模型稳定。
2.如权利要求1所述一种基于多模态数据集成决策的目标识别方法,其特征在于:所述图像多模态处理包括以下步骤:
S11,将数据集DukeMTMC-reID作为目标域T0,对目标域T0中的每张图像
Figure FDA0004175389720000011
打上伪标签
Figure FDA0004175389720000012
其中0<i≤N,i∈Z,N标表示表示数据集T0中的图像数量;
S12,采用高斯模糊对目标域T0中的图像进行降低清晰度处理,基于处理后的图像数据建立新的数据集T1,并对数据集T1中的每张图像
Figure FDA0004175389720000013
打上伪标签/>
Figure FDA0004175389720000014
其中,0<i≤N,i∈Z;
S13,对目标域T0中的图像进行亮度调节处理:包括提高图像亮度,基于提高亮度后的图像数据建立新的数据集T2,并对数据集T2中的每张图像
Figure FDA0004175389720000015
打上伪标签/>
Figure FDA0004175389720000016
0<i≤N,i∈Z;降低图像亮度,基于降低亮度后的图像数据建立新的数据集T3,并对数据集T3中的每张图像
Figure FDA0004175389720000017
打上伪标签/>
Figure FDA0004175389720000018
其中,0<i≤N,i∈Z;
S14,基于目标域T0,采用DeeperCut算法对其图像数据中呈现的人物进行姿态分割处理,基于处理结果建立新的数据集,并对新的数据集中的每张图像打上新的伪标签。
3.如权利要求2所述一种基于多模态数据集成决策的目标识别方法,其特征在于所述步骤S14中,姿态分割处理所用的DeeperCut算法,其计算公式为:
Figure FDA0004175389720000019
Bub=[(0,y2-2α),(W-1,yc+2α)]
Blb=[(0,yc-2α),(W-1,H-1)]
v=y2-y1+2α
Figure FDA0004175389720000021
Figure FDA0004175389720000022
其中,H为当前所处理图像的高度,W为当前所处理图像的宽度;(x1,y1)为头部点坐标;(x2,y2)为颈部点坐标;(x3,y3)为左髋关节点坐标;(x4,y4)为右髋关节点坐标;xc为头部点坐标与颈部点坐标在x轴上的中间值,yc为左髋关节点坐标与右髋关节点坐标在y轴上的中间值;v为头部点坐标与颈部点坐标在y轴上的差值;α是控制相邻部位区域之间重叠的参数;Bh表示头部区域作为数据集T4,对数据集T4中的每张图像
Figure FDA0004175389720000023
打上伪标签为/>
Figure FDA0004175389720000024
其中,0<i≤N,i∈Z;Bub表示上半身区域作为数据集T5,对数据集T5中的每张图像/>
Figure FDA0004175389720000025
打上伪标签为/>
Figure FDA0004175389720000026
其中,0<i≤N,i∈Z;Blb表示下半身区域作为数据集T6,对数据集T6中的每张图像/>
Figure FDA0004175389720000027
打上伪标签/>
Figure FDA0004175389720000028
其中,0<i≤N,i∈Z。
4.如权利要求3所述一种基于多模态数据集成决策的目标识别方法,其特征在于,所述图像无标签分类包括以下步骤:
S21,将数据集Market-1501作为源域S,将源域S在基于ImageNet预训练后的ResNet50上进行模型训练,期间的损失函数调用tripletloss,反复训练至模型稳定,并定义该模型为baseline;
S22,将数据集Tj在baseline上进行图像特征提取,表示为Fj∈Rc×h×w;其中,j表示图像多模态处理中所有数据集样本的序号,j=1,2,3,4,5,6;Fj表示输出图像特征,c为图像特征的通道数量、h为图像特征的高度、w为图像特征的宽度;
S23,通过成分类识别网络模型中的GAP池化模块特征Fj转换为对应的特征向量
Figure FDA0004175389720000029
其中,Nt表示目标域T0中的行人人数;
S24,针对图像多模态处理获得的每个样本,运用无监督聚类算法基于特征向量fj将可识别出的图像添加伪标签kj,将不可识别出的图像添加伪标签kjf,以产生两个新的数据集,即:
可识别数据集
Figure FDA0004175389720000031
不可识别数据集
Figure FDA0004175389720000032
其中,M表示行人数量,
Figure FDA0004175389720000033
表示第j个数据集样本的第M个行人的图像数据样本,/>
Figure FDA0004175389720000034
表示数据集YT中第j个数据集样本的第M个行人的图像数据样本的伪标签,/>
Figure FDA0004175389720000035
表示数据集YTf中第j个数据集样本的第M个行人的图像数据样本的伪标签。
5.如权利要求4所述一种基于多模态数据集成决策的目标识别方法,其特征在于,所述图像集成决策分类包括以下步骤:
S31,将所述数据集YT内图像与对应特征向量fi带入XGBoost算法模块中进行集成决策;
S32,基于XGBoost算法模块集成决策结果,划分出数据集YT中的负样本,将负样本加入数据集YTf,并将其伪标签更新为kjf
S33,基于步骤S32中最终的获得的数据集YT和数据集YTf对分类识别网络模型进行循环训练,直至分类识别网络模型稳定。
6.如权利要求5所述一种基于多模态数据集成决策的目标识别方法,其特征在于,所述步骤S33中,对分类识别网络模型进行循环训练包括以下三个循环路径:
1)将步骤S32中最终的获得的数据集YT反馈至baseline,采用与步骤S22—S24相同的方法和流程重新划分新的可识别数据集和不可识别数据集;并采用与步骤S31—S32相同的方法和流程进行重新集成决策以及样本更新;
2)将步骤S32中最终的获得的数据集YTf反馈至baseline,采用与步骤S22—S24相同的方法和流程重新划分新的可识别数据集和不可识别数据集;并采用与步骤S31—S32相同的方法和流程进行重新集成决策以及样本更新;
3)将步骤S32中最终的获得的数据集YT直接反馈至XGBoost算法模块,并采用与步骤S31—S32相同的方法和流程进行重新集成决策以及样本更新。
7.如利要求5所述一种基于多模态数据集成决策的目标识别方法,其特征在于,所述步骤S31中,集成决策所运用到的目标函数如下:
Figure FDA0004175389720000036
其中,k表示基于数据集YT所生成的随机森林中树的序号;Ω(fk)代表抑制模型复杂度的正则项;m表示组成XGBoost算法模块的基模型数量;n表示数据集样本数量;另外,l(fj+yM)表示模型的损失函数Lum,l表示tripletloss损失函数,
Figure FDA0004175389720000041
表示第j个数据集样本中第M个行人的图像数据样本的预测值;L(k)用于将损失函数Lum呈现在线性空间上。/>
CN202210506178.8A 2022-05-10 2022-05-10 一种基于多模态数据集成决策的目标识别方法 Active CN114913372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210506178.8A CN114913372B (zh) 2022-05-10 2022-05-10 一种基于多模态数据集成决策的目标识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210506178.8A CN114913372B (zh) 2022-05-10 2022-05-10 一种基于多模态数据集成决策的目标识别方法

Publications (2)

Publication Number Publication Date
CN114913372A CN114913372A (zh) 2022-08-16
CN114913372B true CN114913372B (zh) 2023-05-26

Family

ID=82767202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210506178.8A Active CN114913372B (zh) 2022-05-10 2022-05-10 一种基于多模态数据集成决策的目标识别方法

Country Status (1)

Country Link
CN (1) CN114913372B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104992148A (zh) * 2015-06-18 2015-10-21 江南大学 基于随机森林的atm终端部分遮挡人脸关键点检测方法
CN105574544A (zh) * 2015-12-16 2016-05-11 平安科技(深圳)有限公司 一种数据处理方法和装置
CN110503205A (zh) * 2019-07-17 2019-11-26 中国科学院计算技术研究所 一种多模态数据处理方法及系统
CA3116705A1 (en) * 2018-10-18 2020-04-23 Deepnorth Inc. Semi-supervised person re-identification using multi-view clustering
CN112507901A (zh) * 2020-12-14 2021-03-16 华南理工大学 一种基于伪标签自纠正的无监督行人重识别方法
CN112733549A (zh) * 2020-12-31 2021-04-30 厦门智融合科技有限公司 一种基于多重语义融合的专利价值信息分析方法、装置
CN113326731A (zh) * 2021-04-22 2021-08-31 南京大学 一种基于动量网络指导的跨域行人重识别算法
CN113989560A (zh) * 2021-10-28 2022-01-28 清华大学 用于雷达姿势识别的在线半监督学习分类器及其分类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104992148A (zh) * 2015-06-18 2015-10-21 江南大学 基于随机森林的atm终端部分遮挡人脸关键点检测方法
CN105574544A (zh) * 2015-12-16 2016-05-11 平安科技(深圳)有限公司 一种数据处理方法和装置
CA3116705A1 (en) * 2018-10-18 2020-04-23 Deepnorth Inc. Semi-supervised person re-identification using multi-view clustering
CN110503205A (zh) * 2019-07-17 2019-11-26 中国科学院计算技术研究所 一种多模态数据处理方法及系统
CN112507901A (zh) * 2020-12-14 2021-03-16 华南理工大学 一种基于伪标签自纠正的无监督行人重识别方法
CN112733549A (zh) * 2020-12-31 2021-04-30 厦门智融合科技有限公司 一种基于多重语义融合的专利价值信息分析方法、装置
CN113326731A (zh) * 2021-04-22 2021-08-31 南京大学 一种基于动量网络指导的跨域行人重识别算法
CN113989560A (zh) * 2021-10-28 2022-01-28 清华大学 用于雷达姿势识别的在线半监督学习分类器及其分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BISSIAM: Bispectrum Siamese Network Based Contrastive Learning for UAV Anomaly Detection;Taotao Li 等;IEEE TRANSACTION ON KNOWLEDGE AND DATA ENGINEERING;1-16 *
基于数据相似度的自适应半监督随机森林算法;胡志鹏 等;微电子学与计算机;第35卷(第07期);117-121 *
语音识别研究综述;马晗 等;计算机系统应用;第31卷(第01期);1-10 *

Also Published As

Publication number Publication date
CN114913372A (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN110111340B (zh) 基于多路割的弱监督实例分割方法
CN111832514B (zh) 基于软多标签的无监督行人重识别方法及装置
US10445602B2 (en) Apparatus and method for recognizing traffic signs
CN109598268A (zh) 一种基于单流深度网络的rgb-d显著目标检测方法
CN112906606B (zh) 一种基于相互分歧学习的域自适应行人重识别方法
CN107145827A (zh) 基于自适应距离度量学习的跨摄像机行人再识别方法
CN108537168B (zh) 基于迁移学习技术的面部表情识别方法
CN112819065B (zh) 基于多重聚类信息的无监督行人难样本挖掘方法和系统
CN109785385A (zh) 视觉目标跟踪方法及系统
KR101917354B1 (ko) 모바일 환경 객체 신뢰도 평가와 학습을 통한 융합 객체 추적 시스템 및 방법
CN110929679A (zh) 一种基于gan的无监督自适应行人重识别方法
CN111967325A (zh) 一种基于增量优化的无监督跨域行人重识别方法
CN108345866B (zh) 一种基于深度特征学习的行人再识别方法
CN112541491A (zh) 基于图像字符区域感知的端到端文本检测及识别方法
CN116796810A (zh) 一种基于知识蒸馏的深度神经网络模型压缩方法及装置
Zhao et al. Cbph-net: A small object detector for behavior recognition in classroom scenarios
CN113313684B (zh) 一种暗光条件下基于视频的工业缺陷检测系统
Ahmed et al. Robust Object Recognition with Genetic Algorithm and Composite Saliency Map
CN112750128B (zh) 图像语义分割方法、装置、终端及可读存储介质
CN117437691A (zh) 一种基于轻量化网络的实时多人异常行为识别方法及系统
CN114913372B (zh) 一种基于多模态数据集成决策的目标识别方法
Tan et al. Wide Residual Network for Vision-based Static Hand Gesture Recognition.
CN112598013A (zh) 基于神经网络的计算机视觉处理方法
CN114359493A (zh) 一种用于无人船生成三维语义地图的方法和系统
CN110751153B (zh) 一种室内场景rgb-d图像的语义标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant