CN111881714B - 一种无监督跨域行人再识别方法 - Google Patents

一种无监督跨域行人再识别方法 Download PDF

Info

Publication number
CN111881714B
CN111881714B CN202010438989.XA CN202010438989A CN111881714B CN 111881714 B CN111881714 B CN 111881714B CN 202010438989 A CN202010438989 A CN 202010438989A CN 111881714 B CN111881714 B CN 111881714B
Authority
CN
China
Prior art keywords
training
image
loss
domain
pedestrian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010438989.XA
Other languages
English (en)
Other versions
CN111881714A (zh
Inventor
李艳凤
孙嘉
陈后金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202010438989.XA priority Critical patent/CN111881714B/zh
Publication of CN111881714A publication Critical patent/CN111881714A/zh
Application granted granted Critical
Publication of CN111881714B publication Critical patent/CN111881714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种无监督跨域行人再识别方法,包括如下步骤:使用有标签源域训练图像进行预训练,得到基线网络权重,将其作为多损失优化学习训练过程的基线网络初始权重;使用无标签目标域训练图像进行多损失优化学习训练,在基线网络初始权重的基础上,进行多次多损失优化学习训练,得到多损失优化学习训练后的基线网络;使用无标签目标域测试图像进行无监督跨域行人再识别测试,将无标签目标域测试图像输入多损失优化学习训练后的基线网络进行测试,得到识别结果。本发明,关注目标域图像内部的自然相似性,避免完全依赖伪标签,相比于其他同领域的方法具有更高的识别准确率。

Description

一种无监督跨域行人再识别方法
技术领域
本发明涉及模式识别与计算机视觉中的图像检索领域,具体说是一种无监督跨域行人再识别方法。尤指利用深度学习进行无监督跨域行人再识别方法。
所述利用深度学习尤指基于多损失优化学习。
背景技术
行人再识别技术通常用于解决在非重叠视域中进行人员匹配的问题,该技术是智能视频分析技术的重要组成部分,具有广阔的应用前景。
近年来,行人再识别技术获得了广泛关注,成为计算机视觉领域的研究热点。
早期的行人再识别研究主要依靠传统方法,例如:手工设计特征表达和距离度量。得益于深度学习的快速发展,越来越多的研究者应用深度学习来解决行人再识别问题,并且获得了较好的结果。
目前,行人再识别的研究大多集中在有标签的数据集上对模型进行训练和测试,但是这个任务需要大量的标签数据形成有标签的数据集(简称数据集)。随着数据集的增大,人工标记产生标签数据变得耗时且费力。
另外,当在有标签的源数据集(源域,简称为有标签的源域)训练一个模型,将其转移到无标签的目标数据集(目标域,简称为无标签的目标域)进行测试时,识别性能相比于在源域会大大降低。主要原因是:不同数据集的摄像机分辨率不同、行人的着装风格(冬夏季节)差异较大、图像背景存在较大差异等。
为了更加符合实际场景的应用需求,减少人工标记产生标签数据的工作量,研究人员开始关注无监督跨域行人再识别。
所述无监督跨域行人再识别的任务是:将在有标签的源域上训练的模型,转移到无标签的目标域上,并获得较高的识别性能。
目前的无监督跨域行人再识别方法大致可以分为两类:
(1)目标图像生成。一些方法利用图像生成来缩小两域之间的距离,通常采用生成式对抗网络将源域图像转化为目标域样式。但是生成的图像往往具有很大的不确定性,导致识别性能不稳定。
(2)目标域监督挖掘。一些方法利用目标域内的相似性,通过聚类或其他方法为无标签的目标域图像分配伪标签,将其作为目标域图像的伪身份进行监督学习。然而这些方法过于依赖伪标签,而伪标签噪声可能会降低行人再识别的性能。
公开于该背景技术部分的信息仅仅旨在加深对本发明的总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种无监督跨域行人再识别方法,关注目标域图像内部的自然相似性,避免完全依赖伪标签,相比于其他同领域的方法具有更高的识别准确率。
为达到以上目的,本发明采取的技术方案是:
1.一种无监督跨域行人再识别方法,包括如下步骤:
获取有标签源域训练图像、无标签目标域训练图像、以及无标签目标域测试图像;
使用有标签源域训练图像进行预训练,得到基线网络权重,将其作为多损失优化学习训练过程的基线网络初始权重;
使用无标签目标域训练图像进行多损失优化学习训练,在基线网络初始权重的基础上,进行多次多损失优化学习训练,得到多损失优化学习训练后的基线网络;
使用无标签目标域测试图像进行无监督跨域行人再识别测试,将无标签目标域测试图像输入多损失优化学习训练后的基线网络进行测试,得到识别结果,
在进行多损失优化学习训练时,将无标签目标域训练图像输入多损失优化学习训练过程中的基线网络进行前向传播,得到最终输出特征向量;
计算每幅无标签目标域训练图像的最终输出特征向量间的欧氏距离,根据距离大小通过DBSCAN算法进行聚类,根据聚类结果为每幅无标签目标域训练图像分配伪标签,其中不属于任何类的图像将会被丢弃,具有类别的图像组成带有聚类伪标签的目标域,所述目标域作为新目标域;
计算新目标域图像与其对应的伪标签之间的基于伪标签的三元组损失;
计算新目标域图像之间的余弦距离,并根据余弦距离从小到大对样本进行排序,根据排序结果计算基于排序平均的三元组损失和近邻一致性损失;
将基于伪标签的三元组损失、基于排序平均的三元组损失和近邻一致性损失加权求和,其结果作为一次迭代的目标域总损失;
根据目标域总损失的结果进行反向传播,更新多损失优化学习训练过程的基线网络初始权重;
重复前述步骤,直至达到多损失优化学习训练过程预设的训练次数,保存最后一次训练后的基线网络,
基于伪标签的三元组损失定义为:
P为一个批次训练的行人类别数,K为一个批次训练的每类行人的图像数量,xi g,a为新目标域中选定的一幅用于计算基于伪标签三元组损失的中心图像,f(xi g,a)为xi g,a的最终输出特征向量,xi g,p为新目标域中一幅与xi g,a相同类别的行人图像,f(xi g,p)为xi s,p的最终输出特征向量,xj g,n为新目标域中一幅与xi g,a不同类别的行人图像,f(xj g,n)为xj g,n的最终输出特征向量,δ是基于伪标签三元组损失的边距超参数;
余弦距离的计算为:
dc(xg,i,xg,j)=f(xg,i)Tf(xg,j),
f(xg,i)和f(xg,j)分别为新目标域图像xg,i和xg,j的最终输出特征向量,对于新目标域图像xg,i,根据余弦距离从小到大排序后的样本为
基于排序平均的三元组损失定义为:
P为一个批次训练的行人类别数,K为一个批次训练的每类行人的图像数量,γ为基于排序平均三元组损失的边距超参数;xg,i为新目标域中选定的一幅用于计算基于排序平均三元组损失的中心图像,为与xg,i根据余弦距离从小到大排序后的第j个样本,dc为余弦距离;
近邻一致性损失定义为:
P为一个批次训练的行人类别数,K为一个批次训练的每类行人的图像数量,k为选取的近邻数量,xg,i为新目标域中选定的一幅用于计算基于近邻一致性损失的图像,为与xg,i根据余弦距离从小到大排序后的第j个样本,dc为余弦距离,ε为缩放参数;
其中wi,j为权重,其定义为:
k为选取的近邻数量,P为一个批次训练的行人类别数,K为一个批次训练的每类行人的图像;
目标域总损失定义为:
Ltarget=LPLT+LRAT+αLNCB
α是用于平衡基于排序平均的三元组损失和近邻一致性损失之间关系的超参数,LPLT为基于伪标签的三元组损失,LRAT为基于排序平均的三元组损失,LNCB为近邻一致性损失。
在上述技术方案的基础上,在获取有标签源域训练图像时,进行如下预处理:
统一调整有标签源域训练图像的尺寸;
为了扩增输入数据,依次对有标签源域训练图像进行水平翻转处理、随机裁剪处理、归一化处理和随机擦除处理。
在上述技术方案的基础上,在进行预训练时,采用ResNet-50网络作为基线网络,将在ImageNet图像数据集上预训练好的网络权重作为基线网络初始权重,然后将有标签源域训练图像输入基线网络进行前向传播,得到最终输出特征向量;
分别计算最终输出特征向量与行人类别间的交叉熵损失值和三元组损失值,将其加和作为一次训练的源域总损失;
根据源域总损失进行反向传播,更新并保存预训练过程的基线网络权重;
将保存的预训练过程的基线网络权重作为下一次模型训练的基线网络初始权重,重复前述步骤,直至达到预训练过程预设的训练次数,保存基线网络权重,将其作为多损失优化学习训练过程的基线网络初始权重。
在上述技术方案的基础上,所述得到最终输出特征向量,具体步骤如下:
步骤1,将有标签源域训练图像输入ResNet-50网络第一层,输出特征图;
步骤2,将特征图输入ResNet-50网络第二层,输出新的特征图,然后将新的特征图输入多级注意力模块,改变每幅新的特征图的像素值,输出改变像素值的特征图;
步骤3,将改变像素值的特征图输入ResNet-50网络第三层,输出第三次处理后的特征图,然后将第三次处理后的特征图输入多级注意力模块,改变每幅特征图的像素值,输出第二次改变像素值的特征图;
步骤4,将第二次改变像素值的特征图输入ResNet-50网络第四层,输出第四次处理后的特征图,然后将第四次处理后的特征图输入多级注意力模块,改变每幅特征图的像素值,输出第三次改变像素值的特征图;
步骤5,将第三次改变像素值的特征图输入由全局平均池化层和全局最大池化层组成的池化块中,输出特征向量O1
将步骤4中输出的第三次改变像素值的特征图分别输入两个不共享权重的ResNet-50网络第五层,得到两个网络第五层输出的特征图,将两个网络第五层输出的特征图对应输入两个多级注意力模块,将两个多级注意力模块的输出分别输入两个池化块,输出特征向量O2和O3
步骤6,将步骤5中得到的三个输出特征向量分别输入三个分类器中,每个分类器由两个全连接层组成,输出三个与有标签源域训练图像的行人类别数等维的特征向量,将其级联组成最终输出特征向量。
在上述技术方案的基础上,交叉熵损失值定义为:
P为一个批次训练的行人类别数,K为一个批次训练的每类行人的图像数量,f(xs,i)为图像xs,i最终输出特征向量,ys,i为xs,i对应的行人类别,Ms为有标签源域训练图像的数量;和/>为被扩展到与f(xs,i)相同维数的类别向量;
最终输出特征向量间的欧氏距离定义为:
f(xs,i)、f(xs,j)分别为有标签源域训练图像xs,i和xs,j的最终输出特征向量,v为最终输出特征向量的维度,fu(xs,i)为xs,i最终输出特征向量的第u维,fu(xs,j)为xs,j最终输出特征向量的第u维;
三元组损失定义为:
P为一个批次训练的行人类别数,K为一个批次训练的每类行人的图像数量;xi s,a为有标签源域中选定的一幅用于计算三元组损失的中心图像,f(xi s,a)为xi s,a的最终输出特征向量,xi s,p为有标签源域中的一幅与xi s,a相同类别的行人图像,f(xi s,p)为xi s,p的最终输出特征向量,xj s,n为有标签源域中的一幅与xi s,a不同类别的行人图像,f(xj s,n)为xj s,n的最终输出特征向量,μ是三元组损失的边距超参数,
[x]+=max(0,x);
源域总损失定义为Lsource=LCEL+LTRL
将两种损失组合可以从局部和全局的角度共同优化预训练过程的基线网络。
在上述技术方案的基础上,在获取无标签目标域训练图像时,进行如下预处理:
统一调整无标签目标域训练图像的尺寸;
为了扩增输入数据,依次对无标签目标域训练图像进行水平翻转处理、随机裁剪处理、归一化处理和随机擦除处理。
在上述技术方案的基础上,在获取无标签目标域测试图像时,进行如下预处理:
统一调整无标签目标域测试图像的尺寸;
对无标签目标域测试图像进行归一化处理;
所述无标签目标域测试图像包括:无标签目标域测试集的检索图像和无标签目标域测试集的图像库图像。
在上述技术方案的基础上,在进行无监督跨域行人再识别测试时,将无标签目标域测试图像分别输入基线网络中,每幅图像得到一个最终输出特征向量;
给定一幅无标签目标域测试集的检索图像,计算其和无标签目标域测试集的图像库图像的最终特征向量间的欧氏距离,将其从小到大排序;
根据欧氏距离的排序顺序,输出对应序列图像作为识别结果。
本发明所述的无监督跨域行人再识别方法,具有以下有益效果:
1、关注目标域图像内部的自然相似性,避免完全依赖伪标签,相比于其他同领域的方法具有更高的识别准确率。
2、提出了一个多损失优化学习模型。
所述多损失优化学习模型能够充分挖掘目标域的内部信息,避免对伪标签的过度依赖。
3、为了更好地探索目标域图像的自然相似性,提出了基于对抗学习的两种损失函数,即基于排序平均的三元组损失和基于近邻一致性的损失。
本发明所述的无监督跨域行人再识别方法,实现了基于多损失优化学习的无监督跨域行人再识别,无需对目标域图像进行任何标注,适合应用于监控安防、刑事侦查和人员检索领域,可以处理大量无标签的视频监控数据,找到目标位置,减少相关人员的工作量和时间,提高智能视频分析处理的准确率和效率。
附图说明
本发明有如下附图:
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1本发明所述无监督跨域行人再识别方法的实施例一的流程图。
图2本发明所述无监督跨域行人再识别方法的多级注意力模块的流程图。
图3本发明所述无标签目标域测试集检索图像。
图4本发明所述无标签目标域测试集检索图像通过无监督跨域行人再识别方法得到的识别结果。
具体实施方式
以下结合附图对本发明作进一步详细说明。所述详细说明,为结合本发明的示范性实施例做出的说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如图1-2所示,本发明所述的无监督跨域行人再识别方法,包括如下步骤:
获取有标签源域训练图像、无标签目标域训练图像、以及无标签目标域测试图像;
使用有标签源域训练图像进行预训练,得到基线网络权重,将其作为多损失优化学习训练过程的基线网络初始权重;
使用无标签目标域训练图像进行多损失优化学习训练,在基线网络初始权重的基础上,进行多次多损失优化学习训练,得到多损失优化学习训练后的基线网络;
使用无标签目标域测试图像进行无监督跨域行人再识别测试,将无标签目标域测试图像输入多损失优化学习训练后的基线网络进行测试,得到识别结果。
在上述技术方案的基础上,在获取有标签源域训练图像时,进行如下预处理:
统一调整有标签源域训练图像的尺寸;所述尺寸可为预设尺寸(默认尺寸);
作为可选择的实施方案之一,所述预设尺寸为288×144像素;该预设尺寸可按需改变;本发明中未作明确限定时,各种图像尺寸的默认单位均为像素;
为了扩增输入数据,依次对有标签源域训练图像进行水平翻转处理、随机裁剪处理、归一化处理和随机擦除处理。
在上述技术方案的基础上,在进行预训练时,采用ResNet-50网络作为基线网络,将在ImageNet图像数据集上预训练好的网络权重作为基线网络初始权重,然后将有标签源域训练图像输入基线网络进行前向传播,得到最终输出特征向量;
分别计算最终输出特征向量与行人类别间的交叉熵损失值和三元组损失值,将其加和作为一次训练的源域总损失;
根据源域总损失进行反向传播,更新并保存预训练过程的基线网络权重;
将保存的预训练过程的基线网络权重作为下一次模型训练的基线网络初始权重,重复前述步骤,直至达到预训练过程预设的训练次数,保存基线网络权重,将其作为多损失优化学习训练过程的基线网络初始权重。
作为可选择的实施方案之一,达到预训练过程预设的训练次数后,保存最后一次训练后的基线网络权重,将其作为多损失优化学习训练过程的基线网络初始权重。
作为可选择的实施方案之一,所述ResNet-50网络,具体包括:
(1)在ResNet-50网络的第二层到第五层加入多级注意力模块;
(2)ResNet-50网络的池化块为全局最大池化与全局平均池化结合的池化块;
(3)Res-Net50网络的第五层输出三个特征向量:对第四层特征图采用两个不共享权重的滤波器得到两个第五层特征图,分别对这两个特征图采用2×2池化以及1×1池化,得到第二个输出特征向量和第三个输出特征向量;对第四层特征图采用1×1池化,得到第一个输出特征向量,Res-Net50网络的最终输出为三个输出特征向量的组合。
在上述技术方案的基础上,所述得到最终输出特征向量,具体步骤如下:
步骤1,将有标签源域训练图像输入ResNet-50网络第一层,输出特征图;
例如:将大小为3×288×144(3为图像的通道数,288为图像的长度,144为图像的宽度,单位为像素)的有标签源域训练图像输入ResNet-50网络第一层,输出大小为64×144×72(64为特征图的通道数,144为特征图的长度,72为特征图的宽度,单位为像素)的特征图;
步骤2,将特征图输入ResNet-50网络第二层,输出新的特征图,然后将新的特征图输入多级注意力模块,改变每幅新的特征图的像素值,输出改变像素值的特征图;
例如:将大小为64×144×72的特征图输入ResNet-50网络第二层,输出大小为256×72×36的新的特征图,然后将大小为256×72×36的新的特征图输入多级注意力模块,改变每幅特征图的像素值,输出大小为256×72×36的改变像素值的特征图;
其中,多级注意力模块示意图如图2所示,由一个空间级注意力模块和一个通道级注意力模块级联组成;
空间级注意力模块包括一个输出通道数为1的卷积层和两个全连接层,空间级注意力图的表达式为M为输入的新的特征图,conv为输出通道数为1的卷积层,F1 S、F2 S为两个全连接层,R为调整大小,目的是使输出的空间级注意力图AS的大小与输入新的特征图大小相同,将输入的特征图M与输出的空间级注意力图AS对应像素点相乘得到输出的空间级注意力特征图S;
通道级注意力模块包括一个全局平均池化层和两个全连接层,通道级注意力图的表达式为S为输出的空间级注意力特征图,GAP为全局平均池化层,F1 C、F2 C为两个全连接层,AC为输出的通道级注意力图,其通道数与S的通道数相同,长度为1,宽度为1,单位为像素。将AC与S对应通道相乘得到输出的改变像素值的特征图;
步骤3,将改变像素值的特征图输入ResNet-50网络第三层,输出第三次处理后的特征图,然后将第三次处理后的特征图输入多级注意力模块,改变每幅特征图的像素值,输出第二次改变像素值的特征图;
例如:将大小为256×72×36的改变像素值的特征图输入ResNet-50网络第三层,输出大小为512×36×18的第三次处理后特征图,然后将大小为512×36×18的第三次处理后特征图输入多级注意力模块,改变每幅特征图的像素值,输出大小为512×36×18的第二次改变像素值的特征图;
步骤4,将第二次改变像素值的特征图输入ResNet-50网络第四层,输出第四次处理后的特征图,然后将第四次处理后的特征图输入多级注意力模块,改变每幅特征图的像素值,输出第三次改变像素值的特征图;
例如:将大小为512×36×18的第二次改变像素值的特征图输入ResNet-50网络第四层,输出大小为1024×18×9的第四次处理后的特征图,然后将大小为1024×18×9的第四次处理后的特征图输入多级注意力模块,改变每幅特征图的像素值,输出大小为1024×18×9的第三次改变像素值的特征图;
步骤5,将第三次改变像素值的特征图输入由全局平均池化层和全局最大池化层组成的池化块中,输出特征向量O1
将步骤4中输出的第三次改变像素值的特征图分别输入两个不共享权重的ResNet-50网络第五层,得到两个网络第五层输出的特征图,将两个网络第五层输出的特征图对应输入两个多级注意力模块,将两个多级注意力模块的输出分别输入两个池化块,输出特征向量O2和O3
例如:输出特征向量O1的步骤为:将大小为1024×18×9的第三次改变像素值的特征图输入由全局平均池化层和全局最大池化层组成的池化块中,输出一个大小为1024×1×1的特征向量O1
其中,
全局平均池化层的输出为m,n分别为第三次改变像素值的特征图的长和宽,xi j为第三次改变像素值的特征图中第i个通道对应点的像素值,共有m×n个像素值;
全局最大池化层的输出为
由全局平均池化层和全局最大池化层组成的池化块的输出为Fi=Fi avg+Fi max
例如:输出特征向量O2和O3的步骤为:将步骤4中输出的第三次改变像素值的特征图分别输入两个不共享权重的ResNet-50网络第五层,得到两个大小为2048×18×9的网络第五层输出的特征图,将两个网络第五层输出的特征图对应输入两个多级注意力模块,将两个多级注意力模块的输出分别输入两个池化块,输出两个大小为2048×1×1的特征向量O2和O3
O1,O2和O3为三个输出特征向量;
步骤6,将步骤5中得到的三个输出特征向量分别输入三个分类器中,每个分类器由两个全连接层组成,输出三个与有标签源域训练图像的行人类别数等维的特征向量,将其级联组成最终输出特征向量。
本发明采用ResNet-50网络作为基线网络,所述ResNet-50网络,包含以下三处优化:
一是设计了多级注意力模块,并将其添加在多个卷积层的后面,可以使网络更多地关注图像的关键部分并获得更多代表性的特征,从而有效区分具有高度相似性的行人图像。
二是设计了结合全局平均池化和全局最大池化的池化块,可以使网络保留图像更多的细节特征,丰富特征表达。
三是进行了多层特征提取,可以充分利用输入图像的信息,提高特征表达的精细度。
在上述技术方案的基础上,交叉熵损失值定义为:
其中,
P为一个批次训练的行人类别数,K为一个批次训练的每类行人的图像数量,f(xs,i)为图像xs,i最终输出特征向量,ys,i为xs,i对应的行人类别,Ms为有标签源域训练图像的数量;和/>为被扩展到与f(xs,i)相同维数的类别向量;
最终输出特征向量间的欧氏距离定义为:
其中,
f(xs,i)、f(xs,j)分别为有标签源域训练图像xs,i和xs,j的最终输出特征向量,v为最终输出特征向量的维度,fu(xs,i)为xs,i最终输出特征向量的第u维,fu(xs,j)为xs,j最终输出特征向量的第u维;
三元组损失定义为:
其中,
P为一个批次训练的行人类别数,K为一个批次训练的每类行人的图像数量;xi s,a为有标签源域中选定的一幅用于计算三元组损失的中心图像,f(xi s,a)为xi s,a的最终输出特征向量,xi s,p为有标签源域中的一幅与xi s,a相同类别的行人图像,f(xi s,p)为xi s,p的最终输出特征向量,xj s,n为有标签源域中的一幅与xi s,a不同类别的行人图像,f(xj s,n)为xj s,n的最终输出特征向量,μ是三元组损失的边距超参数,[x]+=max(0,x);源域总损失定义为Lsource=LCEL+LTRL,将两种损失组合可以从局部和全局的角度共同优化预训练过程的基线网络。
在上述技术方案的基础上,在获取无标签目标域训练图像时,进行如下预处理:
统一调整无标签目标域训练图像的尺寸;所述尺寸可为预设尺寸(默认尺寸);
作为可选择的实施方案之一,所述预设尺寸为288×144像素;该预设尺寸可按需改变;
为了扩增输入数据,依次对无标签目标域训练图像进行水平翻转处理、随机裁剪处理、归一化处理和随机擦除处理。
在上述技术方案的基础上,在进行多损失优化学习训练时,将无标签目标域训练图像输入多损失优化学习训练过程中的基线网络进行前向传播,得到最终输出特征向量;具体步骤可同前述进行预训练时的步骤1-6;
计算每幅无标签目标域训练图像的最终输出特征向量间的欧氏距离,根据距离大小通过DBSCAN算法进行聚类,根据聚类结果为每幅无标签目标域训练图像分配伪标签,其中不属于任何类的图像将会被丢弃,具有类别的图像组成带有聚类伪标签的目标域,所述目标域作为新目标域;
计算新目标域图像与其对应的伪标签之间的基于伪标签的三元组损失;
计算新目标域图像之间的余弦距离,并根据余弦距离从小到大对样本进行排序,根据排序结果计算基于排序平均的三元组损失和近邻一致性损失;
将基于伪标签的三元组损失、基于排序平均的三元组损失和近邻一致性损失加权求和,其结果作为一次迭代的目标域总损失;
根据目标域总损失的结果进行反向传播,更新多损失优化学习训练过程的基线网络初始权重;
重复前述步骤,直至达到多损失优化学习训练过程预设的训练次数,保存最后一次训练后的基线网络。
在上述技术方案的基础上,基于伪标签的三元组损失定义为:
其中,
P为一个批次训练的行人类别数,K为一个批次训练的每类行人的图像数量,xi g,a为新目标域中选定的一幅用于计算基于伪标签三元组损失的中心图像,f(xi g,a)为xi g,a的最终输出特征向量,xi g,p为新目标域中一幅与xi g,a相同类别的行人图像,f(xi g,p)为xi s,p的最终输出特征向量,xj g,n为新目标域中一幅与xi g,a不同类别的行人图像,f(xj g,n)为xj g,n的最终输出特征向量,δ是基于伪标签三元组损失的边距超参数;
余弦距离的计算为:
dc(xg,i,xg,j)=f(xg,i)Tf(xg,j),
其中,
f(xg,i)和f(xg,j)分别为新目标域图像xg,i和xg,j的最终输出特征向量。对于新目标域图像xg,i,根据余弦距离从小到大排序后的样本为
基于排序平均的三元组损失定义为:
其中,
P为一个批次训练的行人类别数,K为一个批次训练的每类行人的图像数量,γ为基于排序平均三元组损失的边距超参数;xg,i为新目标域中选定的一幅用于计算基于排序平均三元组损失的中心图像,为与xg,i根据余弦距离从小到大排序后的第j个样本,dc为余弦距离;
该损失是本发明的创新之处,给定一幅新目标域图像,拉近其与排名前K个图像的距离,推远其与排名为K至2K个图像的距离;设计该损失函数的目的是为了避免网络过度依赖伪标签,同时充分挖掘新目标域内图像的自然相似性;
近邻一致性损失定义为:
其中,
P为一个批次训练的行人类别数,K为一个批次训练的每类行人的图像数量,k为选取的近邻数量,xg,i为新目标域中选定的一幅用于计算基于近邻一致性损失的图像,为与xg,i根据余弦距离从小到大排序后的第j个样本,dc为余弦距离,ε为缩放参数;
其中wi,j为权重,其定义为:
其中,
k为选取的近邻数量,P为一个批次训练的行人类别数,K为一个批次训练的每类行人的图像。
该损失是本发明的创新之处,给定一幅新目标域的图像,拉近该图像与距离最近的k个样本之间的距离,目的是为了与基于排序平均的三元组损失进行对抗学习,深入挖掘新目标域内部的自然相似性,避免网络对伪标签的过度依赖;
目标域总损失定义为:
Ltarget=LPLT+LRAT+αLNCB
其中,
α是用于平衡基于排序平均的三元组损失和近邻一致性损失之间关系的超参数,LPLT为基于伪标签的三元组损失,LRAT为基于排序平均的三元组损失,LNCB为近邻一致性损失。
在上述技术方案的基础上,在获取无标签目标域测试图像时,进行如下预处理:
统一调整无标签目标域测试图像的尺寸;所述尺寸可为预设尺寸(默认尺寸);
作为可选择的实施方案之一,所述预设尺寸为288×144像素;该预设尺寸可按需改变;
对无标签目标域测试图像进行归一化处理。
作为可选择的实施方案之一,所述无标签目标域测试图像包括:无标签目标域测试集的检索图像和无标签目标域测试集的图像库图像。
无标签目标域测试图像包括检索图像和图像库图像。给定一幅检索图像,需要在图像库中搜索与检索图像相同类别的图像,得到结果。测试集中的检索图像与图像库图像是已经分配好的。
在上述技术方案的基础上,在进行无监督跨域行人再识别测试时,将无标签目标域测试图像(具体包括:无标签目标域测试集的检索图像,如图3所示,以及无标签目标域测试集的图像库图像)分别输入基线网络中,每幅图像得到一个最终输出特征向量;
给定一幅无标签目标域测试集的检索图像,计算其和无标签目标域测试集的图像库图像的最终特征向量间的欧氏距离,将其从小到大排序;
根据欧氏距离的排序顺序,输出对应序列图像作为识别结果,如图4所示。
以下为具体实施例。
实施例1
以源域为Market-1501数据集,目标域为DukeMTMC-Re-ID数据集为例。
一、源域为Market-1501数据集,该数据集共包括751个行人的12936幅训练图像,使用该训练图像进行预训练,经过多次实验,得到实验参数的最佳取值为:步骤3中一个批次训练的行人类别P取32,一个批次训练的每类行人的图像数量K取4,三元组损失的边距超参数μ取0.5,预训练过程预设的训练次数为150。
保存最后一次训练后的基线网络权重,将其作为多损失优化学习过程的基线网络初始权重;
二、目标域为DukeMTMC-Re-ID数据集,该数据集共包括702个行人的16522幅训练图像,使用该训练图像进行多损失优化学习,经过多次实验,得到实验参数的最佳取值为:基于伪标签的三元组损失的边距超参数δ取0.5,基于排序平均三元组损失的边距超参数γ取0.5,近邻一致性损失中选取的近邻数量k取8,缩放参数ε取0.05。目标域总损失中的超参数α取0.3,多损失优化学习过程预设训练次数为70。保存最后一次训练后的基线网络;
三、目标域为DukeMTMC-Re-ID数据集,该数据集的测试集共包括2228幅检索图像和17661幅图像库图像。使用该数据集测试图像进行无监督跨域行人再识别,将测试图像输入最后一次训练后的基线网络中,得到识别结果。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

Claims (8)

1.一种无监督跨域行人再识别方法,其特征在于,包括如下步骤:
获取有标签源域训练图像、无标签目标域训练图像、以及无标签目标域测试图像;
使用有标签源域训练图像进行预训练,得到基线网络权重,将其作为多损失优化学习训练过程的基线网络初始权重;
使用无标签目标域训练图像进行多损失优化学习训练,在基线网络初始权重的基础上,进行多次多损失优化学习训练,得到多损失优化学习训练后的基线网络;
使用无标签目标域测试图像进行无监督跨域行人再识别测试,将无标签目标域测试图像输入多损失优化学习训练后的基线网络进行测试,得到识别结果,
在进行多损失优化学习训练时,将无标签目标域训练图像输入多损失优化学习训练过程中的基线网络进行前向传播,得到最终输出特征向量;
计算每幅无标签目标域训练图像的最终输出特征向量间的欧氏距离,根据距离大小通过DBSCAN算法进行聚类,根据聚类结果为每幅无标签目标域训练图像分配伪标签,其中不属于任何类的图像将会被丢弃,具有类别的图像组成带有聚类伪标签的目标域,所述目标域作为新目标域;
计算新目标域图像与其对应的伪标签之间的基于伪标签的三元组损失;
计算新目标域图像之间的余弦距离,并根据余弦距离从小到大对样本进行排序,根据排序结果计算基于排序平均的三元组损失和近邻一致性损失;
将基于伪标签的三元组损失、基于排序平均的三元组损失和近邻一致性损失加权求和,其结果作为一次迭代的目标域总损失;
根据目标域总损失的结果进行反向传播,更新多损失优化学习训练过程的基线网络初始权重;
重复前述步骤,直至达到多损失优化学习训练过程预设的训练次数,保存最后一次训练后的基线网络,
基于伪标签的三元组损失定义为:
P为一个批次训练的行人类别数,K为一个批次训练的每类行人的图像数量,xi g,a为新目标域中选定的一幅用于计算基于伪标签三元组损失的中心图像,f(xi g,a)为xi g,a的最终输出特征向量,xi g,p为新目标域中一幅与Xi g,a相同类别的行人图像,f(xi g,p)为xi s,p的最终输出特征向量,xj g,n为新目标域中一幅与不同类别的行人图像,f(xj g,n)为xj g,n的最终输出特征向量,δ是基于伪标签三元组损失的边距超参数;
余弦距离的计算为:
dc(xg,i,xg,j)=f(xg,i)Tf(xg,j),
f(xg,i)和f(xg,j)分别为新目标域图像xg,i和xg,j的最终输出特征向量,对于新目标域图像xg,i,根据余弦距离从小到大排序后的样本为基于排序平均的三元组损失定义为:
P为一个批次训练的行人类别数,K为一个批次训练的每类行人的图像数量,γ为基于排序平均三元组损失的边距超参数;xg,i为新目标域中选定的一幅用于计算基于排序平均三元组损失的中心图像,为与xg,i根据余弦距离从小到大排序后的第j个样本,dc为余弦距离;
近邻一致性损失定义为:
P为一个批次训练的行人类别数,K为一个批次训练的每类行人的图像数量,k为选取的近邻数量,xg,i为新目标域中选定的一幅用于计算基于近邻一致性损失的图像,为与xg,i根据余弦距离从小到大排序后的第j个样本,dc为余弦距离,ε为缩放参数;
其中wi,j为权重,其定义为:
k为选取的近邻数量,P为一个批次训练的行人类别数,K为一个批次训练的每类行人的图像;
目标域总损失定义为:
Ltarget=LPLT+LRAT+αLNCB
α是用于平衡基于排序平均的三元组损失和近邻一致性损失之间关系的超参数,LPLT为基于伪标签的三元组损失,LRAT为基于排序平均的三元组损失,LNCB为近邻一致性损失。
2.如权利要求1所述的无监督跨域行人再识别方法,其特征在于,在获取有标签源域训练图像时,进行如下预处理:
统一调整有标签源域训练图像的尺寸;
为了扩增输入数据,依次对有标签源域训练图像进行水平翻转处理、随机裁剪处理、归一化处理和随机擦除处理。
3.如权利要求1所述的无监督跨域行人再识别方法,其特征在于,在进行预训练时,采用ResNet-50网络作为基线网络,将在ImageNet图像数据集上预训练好的网络权重作为基线网络初始权重,然后将有标签源域训练图像输入基线网络进行前向传播,得到最终输出特征向量;
分别计算最终输出特征向量与行人类别间的交叉熵损失值和三元组损失值,将其加和作为一次训练的源域总损失;
根据源域总损失进行反向传播,更新并保存预训练过程的基线网络权重;
将保存的预训练过程的基线网络权重作为下一次模型训练的基线网络初始权重,重复前述步骤,直至达到预训练过程预设的训练次数,保存基线网络权重,将其作为多损失优化学习训练过程的基线网络初始权重。
4.如权利要求3所述的无监督跨域行人再识别方法,其特征在于,所述得到最终输出特征向量,具体步骤如下:
步骤1,将有标签源域训练图像输入ResNet-50网络第一层,输出特征图;
步骤2,将特征图输入ResNet-50网络第二层,输出新的特征图,然后将新的特征图输入多级注意力模块,改变每幅新的特征图的像素值,输出改变像素值的特征图;
步骤3,将改变像素值的特征图输入ResNet-50网络第三层,输出第三次处理后的特征图,然后将第三次处理后的特征图输入多级注意力模块,改变每幅特征图的像素值,输出第二次改变像素值的特征图;
步骤4,将第二次改变像素值的特征图输入ResNet-50网络第四层,输出第四次处理后的特征图,然后将第四次处理后的特征图输入多级注意力模块,改变每幅特征图的像素值,输出第三次改变像素值的特征图;
步骤5,将第三次改变像素值的特征图输入由全局平均池化层和全局最大池化层组成的池化块中,输出特征向量O1
将步骤4中输出的第三次改变像素值的特征图分别输入两个不共享权重的ResNet-50网络第五层,得到两个网络第五层输出的特征图,将两个网络第五层输出的特征图对应输入两个多级注意力模块,将两个多级注意力模块的输出分别输入两个池化块,输出特征向量O2和O3
步骤6,将步骤5中得到的三个输出特征向量分别输入三个分类器中,每个分类器由两个全连接层组成,输出三个与有标签源域训练图像的行人类别数等维的特征向量,将其级联组成最终输出特征向量。
5.如权利要求3所述的无监督跨域行人再识别方法,其特征在于,交叉熵损失值定义为:
P为一个批次训练的行人类别数,K为一个批次训练的每类行人的图像数量,f(xs,i)为图像xs,i最终输出特征向量,ys,i为xs,i对应的行人类别,Ms为有标签源域训练图像的数量;和/>为被扩展到与f(xs,i)相同维数的类别向量;
最终输出特征向量间的欧氏距离定义为:
f(xs,i)、f(xs,j)分别为有标签源域训练图像xs,i和xs,j的最终输出特征向量,v为最终输出特征向量的维度,fu(xs,i)为xs,i最终输出特征向量的第u维,fu(xs,j)为xs,j最终输出特征向量的第u维;
三元组损失定义为:
P为一个批次训练的行人类别数,K为一个批次训练的每类行人的图像数量;xi s,a为有标签源域中选定的一幅用于计算三元组损失的中心图像,f(xi s,a)为xi s,a的最终输出特征向量,xi s,p为有标签源域中的一幅与xi s,a相同类别的行人图像,f(xi s,p)为xi s,p的最终输出特征向量,xj s,n为有标签源域中的一幅与xi s,a不同类别的行人图像,f(xj s,n)为xj s,n的最终输出特征向量,μ是三元组损失的边距超参数,
[x]+=max(0,x);
源域总损失定义为Lsource=LCEL+LTRL
将两种损失组合可以从局部和全局的角度共同优化预训练过程的基线网络。
6.如权利要求1所述的无监督跨域行人再识别方法,其特征在于,在获取无标签目标域训练图像时,进行如下预处理:
统一调整无标签目标域训练图像的尺寸;
为了扩增输入数据,依次对无标签目标域训练图像进行水平翻转处理、随机裁剪处理、归一化处理和随机擦除处理。
7.如权利要求1所述的无监督跨域行人再识别方法,其特征在于,在获取无标签目标域测试图像时,进行如下预处理:
统一调整无标签目标域测试图像的尺寸;
对无标签目标域测试图像进行归一化处理;
所述无标签目标域测试图像包括:无标签目标域测试集的检索图像和无标签目标域测试集的图像库图像。
8.如权利要求7所述的无监督跨域行人再识别方法,其特征在于,在进行无监督跨域行人再识别测试时,将无标签目标域测试图像分别输入基线网络中,每幅图像得到一个最终输出特征向量;
给定一幅无标签目标域测试集的检索图像,计算其和无标签目标域测试集的图像库图像的最终特征向量间的欧氏距离,将其从小到大排序;
根据欧氏距离的排序顺序,输出对应序列图像作为识别结果。
CN202010438989.XA 2020-05-22 2020-05-22 一种无监督跨域行人再识别方法 Active CN111881714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010438989.XA CN111881714B (zh) 2020-05-22 2020-05-22 一种无监督跨域行人再识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010438989.XA CN111881714B (zh) 2020-05-22 2020-05-22 一种无监督跨域行人再识别方法

Publications (2)

Publication Number Publication Date
CN111881714A CN111881714A (zh) 2020-11-03
CN111881714B true CN111881714B (zh) 2023-11-21

Family

ID=73153918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010438989.XA Active CN111881714B (zh) 2020-05-22 2020-05-22 一种无监督跨域行人再识别方法

Country Status (1)

Country Link
CN (1) CN111881714B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347995B (zh) * 2020-11-30 2022-09-23 中国科学院自动化研究所 基于像素和特征转移相融合的无监督行人再识别方法
CN112766334B (zh) * 2021-01-08 2022-06-21 厦门大学 一种基于伪标签域适应的跨域图像分类方法
CN112906857B (zh) * 2021-01-21 2024-03-19 商汤国际私人有限公司 一种网络训练方法及装置、电子设备和存储介质
CN112801019B (zh) * 2021-02-09 2022-07-08 福州大学 基于合成数据消除无监督车辆再识别偏差的方法及系统
CN113052017B (zh) * 2021-03-09 2024-05-28 北京工业大学 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法
CN113065409A (zh) * 2021-03-09 2021-07-02 北京工业大学 一种基于摄像分头布差异对齐约束的无监督行人重识别方法
CN113096137B (zh) * 2021-04-08 2022-04-12 济南大学 一种oct视网膜图像领域适应分割方法及系统
CN113095221B (zh) * 2021-04-13 2022-10-18 电子科技大学 一种基于属性特征和身份特征融合的跨域行人重识别方法
CN113536972B (zh) * 2021-06-28 2023-01-31 华东师范大学 一种基于目标域伪标签的自监督跨域人群计数方法
CN113705439B (zh) * 2021-08-27 2023-09-08 中山大学 基于弱监督和度量学习的行人属性识别方法
CN113642547B (zh) * 2021-10-18 2022-02-11 中国海洋大学 一种基于密度聚类的无监督域适应人物重识别方法及系统
CN114694171B (zh) * 2022-02-22 2023-10-10 电子科技大学 一种基于自监督模式特征增强的行人属性识别方法
CN114882534B (zh) * 2022-05-31 2024-03-26 合肥工业大学 基于反事实注意力学习的行人再识别方法、系统、介质
CN114937289B (zh) * 2022-07-06 2024-04-19 天津师范大学 一种基于异构伪标签学习的跨域行人检索方法
CN114881909A (zh) * 2022-07-12 2022-08-09 安徽云森物联网科技有限公司 基于注意力机制与边缘约束的人脸素描合成照片方法
CN117173476B (zh) * 2023-09-05 2024-05-24 北京交通大学 一种单源域泛化行人再识别方法
CN116912633B (zh) * 2023-09-12 2024-01-05 深圳须弥云图空间科技有限公司 目标追踪模型的训练方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN110942025A (zh) * 2019-11-26 2020-03-31 河海大学 一种基于聚类的无监督跨域行人重识别方法
CN111126360A (zh) * 2019-11-15 2020-05-08 西安电子科技大学 基于无监督联合多损失模型的跨域行人重识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101859A (zh) * 2017-06-21 2018-12-28 北京大学深圳研究生院 使用高斯惩罚检测图像中行人的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN111126360A (zh) * 2019-11-15 2020-05-08 西安电子科技大学 基于无监督联合多损失模型的跨域行人重识别方法
CN110942025A (zh) * 2019-11-26 2020-03-31 河海大学 一种基于聚类的无监督跨域行人重识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Unsupervised Deep Domain Adaptation for Pedestrian Detection;Lihang Liu 等;arXiv;全文 *
Unsupervised Domain Adaptation for Multispectral Pedestrian Detection;Dayan Guan 等;IEEE;全文 *
基于无监督增量学习的跨域行人重识别;廖星宇;中国优秀硕士学位论文全文数据库;全文 *

Also Published As

Publication number Publication date
CN111881714A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN111881714B (zh) 一种无监督跨域行人再识别方法
CN111126360B (zh) 基于无监督联合多损失模型的跨域行人重识别方法
Bhandari et al. Tsallis entropy based multilevel thresholding for colored satellite image segmentation using evolutionary algorithms
CN111723675B (zh) 基于多重相似性度量深度学习的遥感图像场景分类方法
CN113378632A (zh) 一种基于伪标签优化的无监督域适应行人重识别算法
CN111198959A (zh) 一种基于卷积神经网络的两阶段图像检索方法
CN110909820A (zh) 基于自监督学习的图像分类方法及系统
CN110097060B (zh) 一种面向树干图像的开集识别方法
CN109002755B (zh) 基于人脸图像的年龄估计模型构建方法及估计方法
CN115410088B (zh) 一种基于虚拟分类器的高光谱图像领域自适应方法
Herdiyeni et al. Mobile application for Indonesian medicinal plants identification using fuzzy local binary pattern and fuzzy color histogram
Liang et al. Comparison detector for cervical cell/clumps detection in the limited data scenario
CN109034035A (zh) 基于显著性检测和特征融合的行人重识别方法
CN110942091A (zh) 寻找可靠的异常数据中心的半监督少样本图像分类方法
Simran et al. Content based image retrieval using deep learning convolutional neural network
CN114612761A (zh) 一种面向图像识别的网络架构搜索方法
CN113920472A (zh) 一种基于注意力机制的无监督目标重识别方法及系统
Zhang et al. Contour detection via stacking random forest learning
CN111488797B (zh) 一种行人再识别方法
CN112070116B (zh) 一种基于支持向量机的艺术画作自动分类系统及方法
Nawaz et al. Automatic categorization of traditional clothing using convolutional neural network
CN115496948A (zh) 一种基于深度学习的网络监督细粒度图像识别方法和系统
Jha et al. A novel approach for retrieval of historical monuments images using visual contents and unsupervised machine learning
CN112200093B (zh) 一种基于不确定性估计的行人再识别方法
CN115100509A (zh) 基于多分支块级注意力增强网络的图像识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant