CN112819065B - 基于多重聚类信息的无监督行人难样本挖掘方法和系统 - Google Patents

基于多重聚类信息的无监督行人难样本挖掘方法和系统 Download PDF

Info

Publication number
CN112819065B
CN112819065B CN202110119692.1A CN202110119692A CN112819065B CN 112819065 B CN112819065 B CN 112819065B CN 202110119692 A CN202110119692 A CN 202110119692A CN 112819065 B CN112819065 B CN 112819065B
Authority
CN
China
Prior art keywords
sample
clustering
pedestrian
label
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110119692.1A
Other languages
English (en)
Other versions
CN112819065A (zh
Inventor
王帮海
苏荻翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110119692.1A priority Critical patent/CN112819065B/zh
Publication of CN112819065A publication Critical patent/CN112819065A/zh
Application granted granted Critical
Publication of CN112819065B publication Critical patent/CN112819065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于多重聚类信息的无监督行人难样本挖掘方法和系统,根据三种聚类方法得出的聚类信息的置信度不同,使用不同的参数对三种聚类信息进行融合,生成软多重标签。根据数据的特征相似度与软多重标签相似度的矛盾,从而判定样本集中的难正样本对以及难负样本对。本发明基于不同聚类方法的聚类机制不同的特点,对同一样本集进行不同聚类方式的聚类,并且将聚类结果融合在一起形成软多重标签,为无标签数据提供了一个更鲁棒的监督信息,从而可以对现有的一些方法进行效果的提升,增强行人重识别的效果。本发明利用特征相似度与软多标签相似度之间的矛盾,从而挖掘样本数据集中的难样本对,对行人重识别进行优化。

Description

基于多重聚类信息的无监督行人难样本挖掘方法和系统
技术领域
本发明涉及行人重识别技术领域,更具体地,涉及一种基于多重聚类信息的无监督行人难样本挖掘方法和系统。
背景技术
行人重识别技术是近年来备受关注的一项技术。行人重识别技术是指利用计算机视觉技术,判断若干图像中或者视频的序列中,是否存在特定行人的技术。当我们得不到一个人清晰的人脸图片时,无法进行人脸识别,这时行人重识别就成为了一个非常重要的替代品技术。但是单靠人力在多个摄像头的多个时间段的视频图像中进行搜索,会出现因疲劳等人为因素的失误,而且需要判断的数据量过大,需要大量的人力资源以及时间,容易错失侦查时机。借助计算机技术,能够更好的完成该项任务。
近年来对行人重识别技术的研究主要集中在深度学习方面,利用深度学习的网络去学习带有标签作为强监督信息的行人图像,学习其中的行人细节特征,进而对其他行人图像进行判断。在有监督的情况下,行人重识别已经达到了很好的效果,但是在实际需要进行行人重识别的任务中,数据往往是没有人为标注的标签的。深度网络在进行行人特征学习时,并没有一个很好的监督信息作为约束,所以目前在无监督的行人重识别技术方面,效果一直差于有监督的行人重识别。如何让深度网络模型在没有标签的数据集上也能学习到有用的行人图像特征成为重点。近年来的研究,倾向于使用聚类以及域适应等方法,为无标签数据提供弱监督信息,然后使用神经网络模型进行特征学习。公开日为2020年11月03日,公开号为CN111881757A的中国专利公开了一种行人重识别方法、装置、设备及介质,包括:利用第一行人重识别模型提取原始训练集的特征;其中,所述原始训练集包括行人样本图像和对应的标签信息;根据所述原始数据集的特征空间分布特性,进行聚类;根据聚类结果筛选出困难样本;将所述困难样本添加至所述原始训练集,得到目标训练集;利用所述目标训练集对所述第一行人重识别模型进行训练,得到第二行人重识别模型;当获取到待识别行人图像,则利用所述第二行人重识别模型输出对应的识别结果。但是该专利没有很好的对行人图像数据中的难样本对进行处理。难样本对指的是不同的行人图像中特征相似的样本对以及相同的行人中特征不相似的样本对。因此需要一种更好的方法,对样本中的难样本进行判断并且优化它们之间的距离。
发明内容
本发明的首要目的是提供一种基于多重聚类信息的无监督行人难样本挖掘方法,对样本中的难样本进行判断并且优化。
本发明的进一步目的是提供一种基于多重聚类信息的无监督行人难样本挖掘系统。
为解决上述技术问题,本发明的技术方案如下:
一种基于多重聚类信息的无监督行人难样本挖掘方法,包括以下步骤:
S1:构建神经网络,并获取行人数据集,所述行人数据集包括有标签的行人数据集和无标签的行人数据集;
S2:利用S1构建的神经网络对有标签的行人数据集进行特征学习,并对划分出来的特征进行优化;
S3:利用S2特征学习后的神经网络作为对无标签的行人数据集进行学习的预训练模型,对无标签的行人数据集进行特征提取,将提取的特征构建记忆模型;
S4:对记忆模型中的数据进行DBSCAN聚类,计算被聚类样本的各自聚类中心,使用联合对比损失函数对神经网络进行优化,利用优化后的神经网络再次进行特征学习,并使用新的特征更新记忆模型;
S5:对更新后的记忆模型分别进行高斯混合模型聚类、KMeans聚类以及谱聚类,将聚类得到的结果进行融合,得到每个特征数据各自的软多重标签;
S6:计算当前无标签行人数据特征的cosine相似度矩阵并进行从小到大排序,根据排序的前后、软多重标签的相似度与阈值的大小关系判断当前样本是否为难样本对;
S7:根据难样本对,对记忆模型进行更新。
优选地,步骤S1中所述神经网络具体为:
使用在ImageNet上预训练过的ResNet-50神经网络作为基础,并在每个Layer后面添加通道注意力与空间注意力机制,并将网络输出层中的1000维分类层改为1024维的全连接层,最后连接分类层。
优选地,步骤S2中利用S1构建的神经网络对有标签的行人数据集进行特征学习,其中特征学习的方法是通过交叉熵损失函数与难样本三元组损失函数,对每一个划分出来的小样本集的行人图像的特征进行优化。
优选地,所述交叉熵损失函数与难样本三元组损失函数具体如下:
交叉熵损失函数:
Figure GDA0003012874780000031
其中,N为源域中行人ID的个数,pi为当前样本对于第i个行人的预测值,qi为防止标签过拟合参数,其取值为:
Figure GDA0003012874780000032
其中,y为当前样本真实标签,ε为常数;
难样本三元组损失函数:
Figure GDA0003012874780000033
其中,M为当前mini-batch中行人个数,Z为当前mini-batch中每个行人拥有的图像个数,a为当前行人图像,p为a的正样本对,A为当前mini-batch中a的正样本集,n为a的负样本对,B为当前mini-batch中a的负样本集,α为边界值,表示正样本与负样本之间的最小距离。
优选地,步骤S4中所述的联合对比损失函数计算公式如下:
Figure GDA0003012874780000034
其中的nc为聚类中心个数,nu为离群点个数,ck为第k个聚类中心,uk为第k个离群点在记忆模型中的特征向量,<·,·>为计算两个向量之间的余弦距离,τ为放大系数,设为0.05,z为当前x的趋向位置,若当前x为聚类点,则z为x所属类别的聚类中心;若x为离群点,则z为x在记忆模型中的特征向量。
优选地,步骤S4和S7中记忆模型更新时采取动量更新法,具体为:
Figure GDA0003012874780000035
式中,
Figure GDA0003012874780000036
表示t+1时刻记忆模型中第i个样本的特征向量,
Figure GDA0003012874780000037
表示t时刻记忆模型中第i个样本的特征向量,
Figure GDA0003012874780000041
表示t+1时刻网络提取的第i个样本的特征向量,m是动量系数。
优选地,步骤S5中形成软多重标签的公式如下:
li=dK1×sG2×sP
其中li为xi样本的软多重标签,dK为样本xi经过KMeans聚类后,得到的到各个聚类中心的距离值,其维数为聚类的中个数,λ1与λ2为两种聚类的置信度值,SG与SP分别为样本进行高斯混合模型聚类以及谱聚类得到的标签值,根据两种聚类的标签值,在dK的相应位置减去相应的数值,得到当前样本的软多重标签。
优选地,步骤S6中计算当前无标签行人数据特征的cosine相似度矩阵,均采用余弦距离进行计算,公式为:
Figure GDA0003012874780000042
式中,A、B为计算的向量,θ为向量A、B间的夹角。
优选地,步骤S6中根据排序的前后、软多重标签的相似度与阈值的大小关系判断当前样本是否为难样本对,具体为:
在排序的前k个样本中,进行软多重标签相似度排序,当软多重标签的相似度小于阈值时,判断为当前样本的难负样本对,选择最难样本进行损失函数计算;
在排序的k-2k范围内进行软多重标签的相似度排序,当样本的软多重标签相似度大于阈值时,判断为当前样本的难正样本对,选择最难样本进行损失函数计算。
一种基于多重聚类信息的无监督行人难样本挖掘系统,包括:
网络与数据模块,所述网络与数据模块用于构建神经网络,并获取行人数据集,所述行人数据集包括有标签的行人数据集和无标签的行人数据集;
学习模块,所述学习模块利用网络与数据模块构建的神经网络对有标签的行人数据集进行特征学习,并对划分出来的特征进行优化;
记忆模型模块,所述记忆模型模块利用特征学习后的神经网络作为对无标签的行人数据集进行学习的预训练模型,对无标签的行人数据集进行特征提取,将提取的特征构建记忆模型;
聚类模块,所述聚类模块用于对记忆模型中的数据进行DBSCAN聚类,计算被聚类样本的各自聚类中心,使用联合对比损失函数对神经网络进行优化,利用优化后的神经网络再次进行特征学习,并使用新的特征更新记忆模型;
软多重标签模块,所述软多重标签模块用于对更新后的记忆模型分别进行高斯混合模型聚类、KMeans聚类以及谱聚类,将聚类得到的结果进行融合,得到每个特征数据各自的软多重标签;
计算模块,所述计算模块用于计算当前无标签行人数据特征的cosine相似度矩阵并进行从小到大排序,根据排序的前后、软多重标签的相似度与阈值的大小关系判断当前样本是否为难样本对;
更新模块,所述更新模块用于根据难样本对,对记忆模型进行更新。
与现有技术相比,本发明技术方案的有益效果是:
本发明基于不同聚类方法的聚类机制不同的特点,对同一样本集进行不同聚类方式的聚类,并且将聚类结果融合在一起形成软多重标签,为无标签数据提供了一个更鲁棒的监督信息,从而可以对现有的一些方法进行效果的提升,增强行人重识别的效果。本发明利用特征相似度与软多标签相似度之间的矛盾,从而挖掘样本数据集中的难样本对,对行人重识别进行优化。
附图说明
图1为本发明的方法流程示意图。
图2为本发明的系统模块示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种基于多重聚类信息的无监督行人难样本挖掘方法,如图1,包括以下步骤:
S1:构建神经网络,并获取行人数据集,所述行人数据集包括有标签的行人数据集和无标签的行人数据集;
S2:利用S1构建的神经网络对有标签的行人数据集进行特征学习,并对划分出来的特征进行优化;
S3:利用S2特征学习后的神经网络作为对无标签的行人数据集进行学习的预训练模型,对无标签的行人数据集进行特征提取,将提取的特征构建记忆模型;
S4:对记忆模型中的数据进行DBSCAN聚类,计算被聚类样本的各自聚类中心,使用联合对比损失函数对神经网络进行优化,利用优化后的神经网络再次进行特征学习,并使用新的特征更新记忆模型;
S5:对更新后的记忆模型分别进行高斯混合模型聚类、KMeans聚类以及谱聚类,将聚类得到的结果进行融合,得到每个特征数据各自的软多重标签;
S6:计算当前无标签行人数据特征的cosine相似度矩阵并进行从小到大排序,根据排序的前后、软多重标签的相似度与阈值的大小关系判断当前样本是否为难样本对;
S7:根据难样本对,对记忆模型进行更新。
步骤S1中所述神经网络具体为:
使用在ImageNet上预训练过的ResNet-50神经网络作为基础,并在每个Layer后面添加通道注意力与空间注意力机制,并将网络输出层中的1000维分类层改为1024维的全连接层,最后连接分类层。
使用有标签数据对网络进行预训练的目的在于,使网络对行人的特征有一个初步的学习,能满足对于一些简单的行人样本进行识别。而在原始的ResNet-50的基础上,本发明在每一个残差Layer的输出中加上了通道注意力以及空间注意力模块,旨在让网络能够在行人图片中的去区分性较大的区域中学习到有用的信息。在网络的训练方面,本发明使用交叉熵损失函数对标签信息进行学习,使用难样本三元组损失函数学习数据集的样本分布。
步骤S2中利用S1构建的神经网络对有标签的行人数据集进行特征学习,其中特征学习的方法是通过交叉熵损失函数与难样本三元组损失函数,对每一个划分出来的小样本集的行人图像的特征进行优化。
所述交叉熵损失函数与难样本三元组损失函数具体如下:
交叉熵损失函数:
Figure GDA0003012874780000061
其中,N为源域中行人ID的个数,pi为当前样本对于第i个行人的预测值,qi为防止标签过拟合参数,其取值为:
Figure GDA0003012874780000071
其中,y为当前样本真实标签,ε为常数;
难样本三元组损失函数:
Figure GDA0003012874780000072
其中,M为当前mini-batch中行人个数,Z为当前mini-batch中每个行人拥有的图像个数,a为当前行人图像,p为a的正样本对,A为当前mini-batch中a的正样本集,n为a的负样本对,B为当前mini-batch中a的负样本集,α为边界值,表示正样本与负样本之间的最小距离。
步骤S4中所述的联合对比损失函数计算公式如下:
Figure GDA0003012874780000073
其中的nc为聚类中心个数,nu为离群点个数,ck为第k个聚类中心,uk为第k个离群点在记忆模型中的特征向量,<·,·>为计算两个向量之间的余弦距离,τ为放大系数,设为0.05,z为当前x的趋向位置,若当前x为聚类点,则z为x所属类别的聚类中心;若x为离群点,则z为x在记忆模型中的特征向量。
步骤S4和S7中记忆模型更新时采取动量更新法,具体为:
Figure GDA0003012874780000074
式中,
Figure GDA0003012874780000075
表示t+1时刻记忆模型中第i个样本的特征向量,
Figure GDA0003012874780000076
表示t时刻记忆模型中第i个样本的特征向量,
Figure GDA0003012874780000077
表示t+1时刻网络提取的第i个样本的特征向量,m是动量系数。
先使用DBSCAN聚类方法对预训练网络提取的无标签数据特征进行聚类,该聚类会将数据分为聚类点以及离群点,对于聚类点,计算其聚类中心位置,对于离群点则不作处理,将聚类中心以及离群点构建为记忆模型。计算联合对比损失时,聚类点往聚类中心聚拢,离群点往自身位置聚拢,每个mini-batch训练结束后,以动量更新的方式,用新的样本特征更新记忆模型中的旧样本特征。使用上述步骤学习到的行人重识别模型,再次对无标签数据集进行特征提取,使用高斯混合模型聚类、谱聚类以及KMeans聚类方法对特征进行聚类,其中KMeans的聚类结果为每个样本离各个聚类中心点的距离,高斯混合模型聚类的结果为每个样本属于各个聚类的可能性,谱聚类的结果为预测标签。以KMeans为软多重标签的基础,减去高斯混合模型聚类的结果,再减去谱聚类预测标签相应位置的数值,最终的到融合了三种聚类信息的软多重标签。使用该软多重标签进行数据集的难样本对挖掘。
步骤S5中形成软多重标签的公式如下:
li=dK1×sG2×sP
其中li为xi样本的软多重标签,dK为样本xi经过KMeans聚类后,得到的到各个聚类中心的距离值,其维数为聚类的中个数,λ1与λ2为两种聚类的置信度值,SG与SP分别为样本进行高斯混合模型聚类以及谱聚类得到的标签值,根据两种聚类的标签值,在dK的相应位置减去相应的数值,得到当前样本的软多重标签。
步骤S6中计算当前无标签行人数据特征的cosine相似度矩阵,均采用余弦距离进行计算,公式为:
Figure GDA0003012874780000081
式中,A、B为计算的向量,θ为向量A、B间的夹角。
步骤S6中根据排序的前后、软多重标签的相似度与阈值的大小关系判断当前样本是否为难样本对,具体为:
在排序的前k个样本中,进行软多重标签相似度排序,当软多重标签的相似度小于阈值时,判断为当前样本的难负样本对,选择最难样本进行损失函数计算;
在排序的k-2k范围内进行软多重标签的相似度排序,当样本的软多重标签相似度大于阈值时,判断为当前样本的难正样本对,选择最难样本进行损失函数计算。
本发明的难样本对挖掘策略采用特征相似度与软多重标签相似度结合的方法,先对样本特征相似度进行排序,这里假设相似度排名前k个的为正样本,排名k-2k的为负样本,然后分别对前k样本集与k-2k样本集进行软多标签相似度排序,当两个样本的特征相似度高但是软多重标签的相似度较低时,这时将这对样本判定为难负样本对。当两个样本的特征相似度较低,但是软多重标签的相似度较高时,这时将这对样本判定为难正样本对,并对难正样本对与难负样本对进行难样本三元组损失计算,优化整体网络。
实施例2
本实施例提供一种基于多重聚类信息的无监督行人难样本挖掘系统,如图2,包括:
网络与数据模块,所述网络与数据模块用于构建神经网络,并获取行人数据集,所述行人数据集包括有标签的行人数据集和无标签的行人数据集;
学习模块,所述学习模块利用网络与数据模块构建的神经网络对有标签的行人数据集进行特征学习,并对划分出来的特征进行优化;
记忆模型模块,所述记忆模型模块利用特征学习后的神经网络作为对无标签的行人数据集进行学习的预训练模型,对无标签的行人数据集进行特征提取,将提取的特征构建记忆模型;
聚类模块,所述聚类模块用于对记忆模型中的数据进行DBSCAN聚类,计算被聚类样本的各自聚类中心,使用联合对比损失函数对神经网络进行优化,利用优化后的神经网络再次进行特征学习,并使用新的特征更新记忆模型;
软多重标签模块,所述软多重标签模块用于对更新后的记忆模型分别进行高斯混合模型聚类、KMeans聚类以及谱聚类,将聚类得到的结果进行融合,得到每个特征数据各自的软多重标签;
计算模块,所述计算模块用于计算当前无标签行人数据特征的cosine相似度矩阵并进行从小到大排序,根据排序的前后、软多重标签的相似度与阈值的大小关系判断当前样本是否为难样本对;
更新模块,所述更新模块用于根据难样本对,对记忆模型进行更新。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于多重聚类信息的无监督行人难样本挖掘方法,其特征在于,包括以下步骤:
S1:构建神经网络,并获取行人数据集,所述行人数据集包括有标签的行人数据集和无标签的行人数据集;
S2:利用S1构建的神经网络对有标签的行人数据集进行特征学习,并对划分出来的特征进行优化;
S3:利用S2特征学习后的神经网络作为对无标签的行人数据集进行学习的预训练模型,对无标签的行人数据集进行特征提取,将提取的特征构建记忆模型;
S4:对记忆模型中的数据进行DBSCAN聚类,计算被聚类样本的各自聚类中心,使用联合对比损失函数对神经网络进行优化,利用优化后的神经网络再次进行特征学习,并使用新的特征更新记忆模型;
S5:对更新后的记忆模型分别进行高斯混合模型聚类、KMeans聚类以及谱聚类,将聚类得到的结果进行融合,得到每个特征数据各自的软多重标签;
S6:计算当前无标签行人数据特征的cosine相似度矩阵并进行从小到大排序,根据排序的前后、软多重标签的相似度与阈值的大小关系判断当前样本是否为难样本对;
S7:根据难样本对,对记忆模型进行更新;
步骤S2中利用S1构建的神经网络对有标签的行人数据集进行特征学习,其中特征学习的方法是通过交叉熵损失函数与难样本三元组损失函数,对每一个划分出来的小样本集的行人图像的特征进行优化;
所述交叉熵损失函数与难样本三元组损失函数具体如下:
交叉熵损失函数:
Figure FDA0004070065830000011
其中,N为源域中行人ID的个数,pi为当前样本对于第i个行人的预测值,qi为防止标签过拟合参数,其取值为:
Figure FDA0004070065830000021
其中,y为当前样本真实标签,ε为常数;
难样本三元组损失函数:
Figure FDA0004070065830000022
其中,M为当前mini-batch中行人个数,Z为当前mini-batch中每个行人拥有的图像个数,a为当前行人图像,p为a的正样本对,A为当前mini-batch中a的正样本集,n为a的负样本对,B为当前mini-batch中a的负样本集,α为边界值,表示正样本与负样本之间的最小距离;
步骤S4中所述的联合对比损失函数计算公式如下:
Figure FDA0004070065830000023
其中的nc为聚类中心个数,nu为离群点个数,ck为第k个聚类中心,uk为第k个离群点在记忆模型中的特征向量,<·,·>为计算两个向量之间的余弦距离,τ为放大系数,设为0.05,z为当前x的趋向位置,若当前x为聚类点,则z为x所属类别的聚类中心;若x为离群点,则z为x在记忆模型中的特征向量。
2.根据权利要求1所述的基于多重聚类信息的无监督行人难样本挖掘方法,其特征在于,步骤S1中所述神经网络具体为:
使用在ImageNet上预训练过的ResNet-50神经网络作为基础,并在每个Layer后面添加通道注意力与空间注意力机制,并将网络输出层中的1000维分类层改为1024维的全连接层,最后连接分类层。
3.根据权利要求2所述的基于多重聚类信息的无监督行人难样本挖掘方法,其特征在于,步骤S4和S7中记忆模型更新时采取动量更新法,具体为:
Figure FDA0004070065830000024
式中,
Figure FDA0004070065830000025
表示t+1时刻记忆模型中第i个样本的特征向量,
Figure FDA0004070065830000026
表示t时刻记忆模型中第i个样本的特征向量,fi t+1表示t+1时刻网络提取的第i个样本的特征向量,m是动量系数。
4.根据权利要求3所述的基于多重聚类信息的无监督行人难样本挖掘方法,其特征在于,步骤S5中形成软多重标签的公式如下:
li=dK1×sG2×sP
其中li为xi样本的软多重标签,dK为样本xi经过KMeans聚类后,得到的到各个聚类中心的距离值,其维数为聚类的中个数,SG与SP分别为样本进行高斯混合模型聚类以及谱聚类得到的标签值,λ1与λ2为两种聚类的置信度值,根据两种聚类的标签值,在dK的相应位置减去相应的数值,得到当前样本的软多重标签。
5.根据权利要求4所述的基于多重聚类信息的无监督行人难样本挖掘方法,其特征在于,步骤S6中计算当前无标签行人数据特征的cosine相似度矩阵,均采用余弦距离进行计算,公式为:
Figure FDA0004070065830000031
式中,A、B为计算的向量,θ为向量A、B间的夹角。
6.根据权利要求5所述的基于多重聚类信息的无监督行人难样本挖掘方法,其特征在于,步骤S6中根据排序的前后、软多重标签的相似度与阈值的大小关系判断当前样本是否为难样本对,具体为:
在排序的前k个样本中,进行软多重标签相似度排序,当软多重标签的相似度小于阈值时,判断为当前样本的难负样本对,选择最难样本进行损失函数计算;
在排序的k-2k个样本范围内进行软多重标签的相似度排序,当样本的软多重标签相似度大于阈值时,判断为当前样本的难正样本对,选择最难样本进行损失函数计算。
7.一种基于多重聚类信息的无监督行人难样本挖掘系统,其特征在于,包括:
网络与数据模块,所述网络与数据模块用于构建神经网络,并获取行人数据集,所述行人数据集包括有标签的行人数据集和无标签的行人数据集;
学习模块,所述学习模块利用网络与数据模块构建的神经网络对有标签的行人数据集进行特征学习,并对划分出来的特征进行优化;
记忆模型模块,所述记忆模型模块利用特征学习后的神经网络作为对无标签的行人数据集进行学习的预训练模型,对无标签的行人数据集进行特征提取,将提取的特征构建记忆模型;
聚类模块,所述聚类模块用于对记忆模型中的数据进行DBSCAN聚类,计算被聚类样本的各自聚类中心,使用联合对比损失函数对神经网络进行优化,利用优化后的神经网络再次进行特征学习,并使用新的特征更新记忆模型;
软多重标签模块,所述软多重标签模块用于对更新后的记忆模型分别进行高斯混合模型聚类、KMeans聚类以及谱聚类,将聚类得到的结果进行融合,得到每个特征数据各自的软多重标签;
计算模块,所述计算模块用于计算当前无标签行人数据特征的cosine相似度矩阵并进行从小到大排序,根据排序的前后、软多重标签的相似度与阈值的大小关系判断当前样本是否为难样本对;
更新模块,所述更新模块用于根据难样本对,对记忆模型进行更新;
学习模块中利用网络与数据模块构建的神经网络对有标签的行人数据集进行特征学习,其中特征学习的方法是通过交叉熵损失函数与难样本三元组损失函数,对每一个划分出来的小样本集的行人图像的特征进行优化;
所述交叉熵损失函数与难样本三元组损失函数具体如下:
交叉熵损失函数:
Figure FDA0004070065830000041
其中,N为源域中行人ID的个数,pi为当前样本对于第i个行人的预测值,qi为防止标签过拟合参数,其取值为:
Figure FDA0004070065830000042
其中,y为当前样本真实标签,ε为常数;
难样本三元组损失函数:
Figure FDA0004070065830000043
其中,M为当前mini-batch中行人个数,Z为当前mini-batch中每个行人拥有的图像个数,a为当前行人图像,p为a的正样本对,A为当前mini-batch中a的正样本集,n为a的负样本对,B为当前mini-batch中a的负样本集,α为边界值,表示正样本与负样本之间的最小距离;
聚类模块中所述的联合对比损失函数计算公式如下:
Figure FDA0004070065830000051
其中的nc为聚类中心个数,nu为离群点个数,ck为第k个聚类中心,uk为第k个离群点在记忆模型中的特征向量,<·,·>为计算两个向量之间的余弦距离,τ为放大系数,设为0.05,z为当前x的趋向位置,若当前x为聚类点,则z为x所属类别的聚类中心;若x为离群点,则z为x在记忆模型中的特征向量。
CN202110119692.1A 2021-01-28 2021-01-28 基于多重聚类信息的无监督行人难样本挖掘方法和系统 Active CN112819065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110119692.1A CN112819065B (zh) 2021-01-28 2021-01-28 基于多重聚类信息的无监督行人难样本挖掘方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110119692.1A CN112819065B (zh) 2021-01-28 2021-01-28 基于多重聚类信息的无监督行人难样本挖掘方法和系统

Publications (2)

Publication Number Publication Date
CN112819065A CN112819065A (zh) 2021-05-18
CN112819065B true CN112819065B (zh) 2023-04-18

Family

ID=75860214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110119692.1A Active CN112819065B (zh) 2021-01-28 2021-01-28 基于多重聚类信息的无监督行人难样本挖掘方法和系统

Country Status (1)

Country Link
CN (1) CN112819065B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657176A (zh) * 2021-07-22 2021-11-16 西南财经大学 一种基于主动对比学习的行人重识别实现方法
CN113688915B (zh) * 2021-08-24 2023-07-25 北京玖安天下科技有限公司 一种面向内容安全的困难样本挖掘方法及装置
CN113642547B (zh) * 2021-10-18 2022-02-11 中国海洋大学 一种基于密度聚类的无监督域适应人物重识别方法及系统
CN114429648B (zh) * 2022-01-27 2023-11-28 西安交通大学 一种基于对比特征的行人重识别方法及系统
CN115984671B (zh) * 2023-03-17 2023-06-20 中科慧远视觉技术(北京)有限公司 模型在线更新方法、装置、电子设备及可读存储介质
CN116866089B (zh) * 2023-09-05 2024-01-30 鹏城实验室 基于孪生胶囊网络的网络流量检测方法及其装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263697A (zh) * 2019-06-17 2019-09-20 哈尔滨工业大学(深圳) 基于无监督学习的行人重识别方法、装置及介质
CN111967294A (zh) * 2020-06-23 2020-11-20 南昌大学 一种无监督域自适应的行人重识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11537817B2 (en) * 2018-10-18 2022-12-27 Deepnorth Inc. Semi-supervised person re-identification using multi-view clustering
CN109492610B (zh) * 2018-11-27 2022-05-10 广东工业大学 一种行人重识别方法、装置及可读存储介质
CN110135295A (zh) * 2019-04-29 2019-08-16 华南理工大学 一种基于迁移学习的无监督行人重识别方法
CN111476168B (zh) * 2020-04-08 2022-06-21 山东师范大学 一种基于三阶段的跨域行人重识别方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263697A (zh) * 2019-06-17 2019-09-20 哈尔滨工业大学(深圳) 基于无监督学习的行人重识别方法、装置及介质
CN111967294A (zh) * 2020-06-23 2020-11-20 南昌大学 一种无监督域自适应的行人重识别方法

Also Published As

Publication number Publication date
CN112819065A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN112819065B (zh) 基于多重聚类信息的无监督行人难样本挖掘方法和系统
CN111814854B (zh) 一种无监督域适应的目标重识别方法
CN111860678B (zh) 一种基于聚类的无监督跨域行人重识别方法
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN114241282B (zh) 一种基于知识蒸馏的边缘设备场景识别方法及装置
CN109961051B (zh) 一种基于聚类和分块特征提取的行人重识别方法
CN112036322B (zh) 多任务网络跨域行人重识别模型构建方法、系统及装置
Lin et al. RSCM: Region selection and concurrency model for multi-class weather recognition
CN111666851B (zh) 一种基于多粒度标签的交叉域自适应行人重识别方法
CN108537119B (zh) 一种小样本视频识别方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN112507901B (zh) 一种基于伪标签自纠正的无监督行人重识别方法
CN108491766B (zh) 一种端到端的基于深度决策森林的人群计数方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN111832511A (zh) 一种增强样本数据的无监督行人重识别方法
CN112364791B (zh) 一种基于生成对抗网络的行人重识别方法和系统
CN111967325A (zh) 一种基于增量优化的无监督跨域行人重识别方法
CN112906606A (zh) 一种基于相互分歧学习的域自适应行人重识别方法
CN115984901A (zh) 一种基于多模态的图卷积神经网络行人重识别方法
Fan et al. Nonparametric hierarchical Bayesian models for positive data clustering based on inverted Dirichlet-based distributions
CN113052017A (zh) 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法
CN114782752A (zh) 基于自训练的小样本图像集成分类方法及装置
CN113076963B (zh) 一种图像识别方法、装置和计算机可读存储介质
CN114694173A (zh) 一种基于细粒度特征融合的跨域无监督行人重识别方法
CN114581769A (zh) 一种基于无监督聚类的在建房屋识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant