CN113111814B - 基于正则化约束的半监督行人重识别方法及装置 - Google Patents

基于正则化约束的半监督行人重识别方法及装置 Download PDF

Info

Publication number
CN113111814B
CN113111814B CN202110426252.0A CN202110426252A CN113111814B CN 113111814 B CN113111814 B CN 113111814B CN 202110426252 A CN202110426252 A CN 202110426252A CN 113111814 B CN113111814 B CN 113111814B
Authority
CN
China
Prior art keywords
neural network
layer
pedestrian
constraint function
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110426252.0A
Other languages
English (en)
Other versions
CN113111814A (zh
Inventor
吕刚
蒋鹏飞
年福东
吴超
周铜
徐珊珊
赵浩
梅益
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University
Original Assignee
Hefei University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University filed Critical Hefei University
Priority to CN202110426252.0A priority Critical patent/CN113111814B/zh
Publication of CN113111814A publication Critical patent/CN113111814A/zh
Application granted granted Critical
Publication of CN113111814B publication Critical patent/CN113111814B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明公开了基于正则化约束的半监督行人重识别方法及装置,该方法包括:对行人重识别模型进行训练;将待识别图像输入第一神经网络或者第二神经网络进行行人重识别;其中,行人重识别模型的训练过程包括:将有标签图像数据和无标签图像数据同时输入第一神经网络和第二神经网络;计算第一神经网络输出值的第一约束函数和第二约束函数;基于第一约束函数和第二约束函数对第一神经网络进行参数更新,并即时基于更新后的第一神经网络参数更新第二神经网络参数,完成行人重识别模型训练。本发明与当前常用的半监督行人重识别方法相比较,能更有效的利用无标签数据的信息,可以进一步提升算法效果。

Description

基于正则化约束的半监督行人重识别方法及装置
技术领域
本发明涉及识别技术领域,尤其涉及基于正则化约束的半监督行人重识别方法及装置。
背景技术
行人的重识别是一项极具挑战性的检测与识别任务,重点是给定一个行人的图像,从底库中检索该行人在不同场合下的图像进行识别。目前由于绝大多数行人重识别模型是基于监督学习下去检索行人,而这过程需要大量的带标签的训练数据,且获得高质量的带标签的行人重识别是非常耗时耗力的,这使得监督学习下的行人重识别方法的实际应用价值大大降低。另一方面深度卷积神经网络容易过度拟合小数据集,导致学习到的特征表示或相似度函数不能很好地推广到测试集,成为监督学习下的行人重识别算法中的主要瓶颈,从而影响了行人重识别的应用。
发明内容
针对上述现有技术存在的问题,本发明提供了基于正则化约束的半监督行人重识别方法,通过对未标记数据进行数据增广处理,然后输入分类器,训练时使预测结果保持一致,将此规则作为损失函数的正则项,实现基于正则化约束的半监督图像识别,该方法结构简单,便于训练。
本发明的第一方面提供了一种基于正则化约束的半监督行人重识别方法,包括:
对行人重识别模型进行训练,所述行人重识别模型包括结构完全相同的第一神经网络和第二神经网络;
将待识别图像输入第一神经网络或者第二神经网络进行行人重识别;
其中,行人重识别模型的训练过程包括:
(1)将有标签图像数据和无标签图像数据同时输入第一神经网络和第二神经网络;
(2)基于有标签图像数据输入第一神经网络后的输出结果计算第一神经网络输出值的第一约束函数,基于有标签和无标签图像数据中的同一张图像输入第一神经网络和第二神经网络的输出结果一致为第一神经网络输出值的第二约束函数;
(3)基于第一约束函数和第二约束函数对第一神经网络进行参数更新,并即时基于更新后的第一神经网络参数更新第二神经网络参数;
(4)重复(1)-(3)直至(2)中的第一约束函数和第二约束函数的融合结果满足收敛条件,完成行人重识别模型训练。
本发明的第二方面提供了一种基于正则化约束的半监督行人重识别装置,包括:
模型训练模块,用于对行人重识别模型进行训练,所述行人重识别模型包括结构完全相同的第一神经网络和第二神经网络;
行人重识别单元,用于将待识别图像输入第一神经网络或者第二神经网络进行行人重识别;
其中,模型训练模块包括:
样本输入单元,用于将有标签图像数据和无标签图像数据同时输入第一神经网络和第二神经网络;
模型约束函数计算单元,用于基于有标签图像数据输入第一神经网络后的输出结果计算第一神经网络输出值的第一约束函数,基于有标签和无标签图像数据中的同一张图像输入第一神经网络和第二神经网络的输出结果一致为第一神经网络输出值的第二约束函数;
模型权重参数更新单元,用于基于第一约束函数和第二约束函数对第一神经网络进行参数更新,并即时基于更新后的第一神经网络参数更新第二神经网络参数;
模型权重参数迭代更新单元,用于重复样本输入单元、模型约束函数计算单元和模型权重参数更新单元直至模型约束函数计算单元中的第一约束函数和第二约束函数的融合结果满足收敛条件,完成行人重识别模型训练。
本发明的第三方面提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行以实现上述的基于正则化约束的半监督行人重识别方法。
本发明的第四方面提供了一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现上述的基于正则化约束的半监督行人重识别方法。
本发明实施例的第三方面提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行以实现上述的基于正则化约束的半监督行人重识别方法。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现上述的基于正则化约束的半监督行人重识别方法。
本发明的基于正则化约束的半监督行人重识别方法及装置,具备如下有益效果:
1、本发明通过有标签图像数据和无标签图像数据输入第一神经网络和第二神经网络,先对第一神经网络进行训练得到模型权重参数,基于第一神经网络参数对第二神经网络模型权重参数进行更新,并迭代依次对第一神经网络和第二神经网络模型训练优化,与当前常用的半监督行人重识别方法相比较,本发明实施例得到行人重识别模型更简单速度更快,对进一步提升半监督行人重识别的现实应用价值有着重大意义。
2、本发明通过设置第二神经网络模型不参与模型训练,采用第二神经网络模型来记录统计第一神经网络的当前时刻以及历史时刻的网络模型权重参数,在行人重识别模型的整个训练过程中一直维护着第二神经网络的模型参数,避免第一神经网络模型的训练过程中权重参数的抖动带来的影响,提高了最终行人重识别模型的鲁棒性。
3、通过与现有的两种半监督行人重识别算法进行对比,本发明中的半监督行人重识别算法,能更有效的利用无标签数据的信息,可以进一步提升算法效果,对进一步提升半监督行人重识别的现实应用价值有着重大意义。
4、通过对比仅用有标签训练数据的损失曲线与利用无标签与有标签组合训练数据对比试验可得,利用无标签与有标签组合训练数据时,其损失曲线比仅用有标签训练数据的损失曲线下降更快,最终损失曲线较仅有标签训练数据的损失曲线更平滑,表明本发明所提出的算大在训练过程中采用无标签作为训练数据的一部分,与有标签数据一同训练增加了网络的鲁棒性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的基于正则化约束的半监督行人重识别方法的整体流程框图;
图2是本发明实施例中行人重识别模型训练示意图;
图3是基于market1501公开数据集上实验验证时1%有标签和99%无标签数据的模型损失损失值曲线;
图4是基于market1501公开数据集上实验验证时5%有标签和95%无标签数据的模型损失损失值曲线;
图5是本发明实施例的基于正则化约束的半监督行人重识别装置的整体结构图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
本发明实施例提供基于正则化约束的半监督行人重识别方法,包括:
对行人重识别模型进行训练,该行人重识别模型包括结构完全相同的第一神经网络和第二神经网络;
其中,行人重识别模型的训练过程包括:
(1)将有标签图像数据和无标签图像数据同时输入第一神经网络和第二神经网络;
(2)基于有标签图像数据输入第一神经网络后的输出结果计算第一神经网络输出值的第一约束函数,基于有标签和无标签图像数据中的同一张图像输入第一神经网络和第二神经网络的输出结果一致为第一神经网络输出值的第二约束函数;
(3)基于第一约束函数和第二约束函数对第一神经网络进行参数更新,并即时基于更新后的第一神经网络参数更新第二神经网络参数;
(4)重复(1)-(3)直至(2)中的第一约束函数和第二约束函数的融合结果满足收敛条件,完成行人重识别模型训练。
基于训练完成的行人重识别模型,将待识别图像输入第一神经网络或者第二神经网络进行行人重识别。
本发明实施例通过两个结构完全相同但参数不同的神经网络进行训练,在每个轮次的行人重识别模型权重参数训练更新过程中,第二神经网络模型不参与模型训练,即该模型不进行该模型的损失函数值计算并基于模型损失函数值进行反向传播更新该模型的网络权重参数,该第二神经网络模型的网络模型权重参数仅是用于记录统计第一神经网络参数历史轮次的模型权重参数,具体的,基于第一神经网络参数获得第二神经网络模型的网络模型权重参数的方法为:θ′t=αtθ′t-1+(1-αtt,其中,
Figure BDA0003029685650000051
t为当前迭代轮次,θ′t为第二神经网络当前迭代轮次t时的模型权重参数,θt为第一神经网络当前迭代轮次t时的模型权重参数。
基于上述,在每个轮次的行人重识别模型权重参数训练更新过程中,通过有标签图像数据和无标签图像数据输入第一神经网络和第二神经网络后,基于有标签图像输入到第一神经网络后得到的输出值、当前时刻第一神经网络的权重参数数据和每层隐层输出的隐层特征数据计算第一约束函数,该第一约束函数包括:
对于每个有标签图像
Figure BDA0003029685650000052
在有标签图像数据集中随机选择一个同类标签的样本
Figure BDA0003029685650000053
和一个不同类标签的样本
Figure BDA0003029685650000054
组成一个三元训练样本;
基于一个三元训练样本输入到第一神经网络后获得输出
Figure BDA0003029685650000055
Figure BDA0003029685650000056
基于输出的
Figure BDA0003029685650000057
趋向于与
Figure BDA0003029685650000058
一致同时趋向于与
Figure BDA0003029685650000059
不一致为约束条件,获得三元组损失函数L1:
Figure BDA00030296856500000510
其中ε为超参数。
基于
Figure BDA00030296856500000511
和有标签图像
Figure BDA00030296856500000512
的标签数据
Figure BDA00030296856500000513
计算得到交叉熵损失函数L2;
基于有标签图像
Figure BDA00030296856500000514
输入到第一神经网络后获得输出
Figure BDA00030296856500000515
时的网络权重参数θ的矩阵与正交矩阵的损失值计算得到第一正交约束函数LOW
基于有标签图像
Figure BDA00030296856500000516
输入到第一神经网络过程中全部隐藏层输出的隐藏特征矩阵与正交矩阵的损失值计算得到第二正交约束函数LOF
基于三元组损失函数、交叉熵损失函数、第一正交约束函数、第二正交约束函数进行加权和得到第一约束函数
Figure BDA00030296856500000517
为:
Figure BDA00030296856500000518
其中,
Figure BDA00030296856500000519
表示有标签图像,
Figure BDA00030296856500000520
表数无标签图像,
Figure BDA00030296856500000521
表示有标签图像
Figure BDA00030296856500000522
在第一神经网络权重参数为θ的情况下输入到第一神经网络得到的输出结果,
Figure BDA00030296856500000523
表示无标签图像
Figure BDA0003029685650000061
在第一神经网络权重参数为θ的情况下输入到第一神经网络得到的输出结果,
Figure BDA0003029685650000062
表示有标签图像
Figure BDA0003029685650000063
在第二神经网络权重参数为θ′的情况下输入到第二神经网络得到的输出结果,
Figure BDA0003029685650000064
表示无标签图像
Figure BDA0003029685650000065
在第一神经网络权重参数为θ′的情况下输入到第二神经网络得到的输出结果,βtr,βOF,βOW是超参数,该超参数的设置可以通过二分法进行确定。
基于上述,在每个轮次的行人重识别模型权重参数训练更新过程中,通过有标签图像数据和无标签图像数据输入第一神经网络和第二神经网络后,基于同一张有标签图像数据
Figure BDA0003029685650000066
输入到第一神经网络的输出
Figure BDA0003029685650000067
和输入到第二神经网络的输出
Figure BDA0003029685650000068
的差异最小化,且同一张无标签图像数据
Figure BDA0003029685650000069
输入到第一神经网络的输出
Figure BDA00030296856500000610
和输入到第二神经网络的输出
Figure BDA00030296856500000611
的差异最小化,得到第二约束函数:
Figure BDA00030296856500000612
其中,(h,w)表示图像的每个像素点。
基于第一约束函数和第二约束函数作为行人重识别模型的训练目标函数,该行人重识别网络模型目标函数为:
Figure BDA00030296856500000613
其中λ表示权重因子用于控制正则化项的比重。
基于上述,在每个轮次的行人重识别模型权重参数训练更新过程中,通过有标签图像数据和无标签图像数据输入第一神经网络和第二神经网络后,得到行人重识别模型的目标函数后,基于目标函数值采用梯度下降法对第一神经网络模型权重参数进行更新。
上述第一约束函数中的第一正交约束函数LOW和第二正交约束函数LOF的计算方法类似,本实施例中仅对第一正交约束函数获取方法进行说明,该获取过程包括:
基于第一神经网络的每层权重参数作为一个向量,基于第一神经网络的所有层权重参数获得一个格拉姆矩阵F,
基于格拉姆矩阵F乘格拉姆矩阵的转置趋向于与拉姆矩阵的转置乘以格拉姆矩阵为约束条件得到第一正交约束函数LOW为:
Figure BDA0003029685650000071
其中,η、λ1、λ2为系数。
基于本发明实施例中的半监督行人重识别方法,通过有标签图像数据和无标签图像数据输入第一神经网络和第二神经网络,先对第一神经网络进行训练得到模型权重参数,基于第一神经网络参数对第二神经网络模型权重参数进行更新,并迭代依次对第一神经网络和第二神经网络模型训练优化,与当前常用的半监督行人重识别方法相比较,本发明实施例得到行人重识别模型更简单速度更快,对进一步提升半监督行人重识别的现实应用价值有着重大意义。通过采用第二神经网络模型来记录统计第一神经网络的当前时刻以及历史时刻的网络模型权重参数,在行人重识别模型的整个训练过程中一直维护着第二神经网络的模型参数,避免第一神经网络模型的训练过程中权重参数的抖动带来的影响,提高了最终行人重识别模型的鲁棒性。
优选的,本发明实施例中训练行人重识别模型所采用的有标签图像数据和无标签图像数据,都对采集图像进行了图像缩放、随机水平翻转和随机擦除处理以对训练样本进行数据增强,避免模型训练过拟合,提高模型识别准确性。
本发明实施例中,上述有标签图像数据和无标签图像数据输入第一神经网络和第二神经网络得到输出结果的过程中,第一神经网络和第二神经网络对输入的图像数据的处理过程一致,以有标签图像数据
Figure BDA0003029685650000072
输入到第一神经网络后得到
Figure BDA0003029685650000073
的过程为例进行说明,该过程包括:
将图像数据输入第一卷积层网络得到第一图像特征图,每个所述卷积层中加入了权重正交化层;
基于第一图像特征图依次输入第一注意力层和隐藏特征正交化层后输入第二卷积层网络得到第二图像特征图,所述第一注意力层用于将第一图像特征图的相似通道组合;
基于第二图像特征图输入到第三卷积层网络,所述第三卷积层网络中包括1个卷积层、1个隐藏特征正交化层、1个第一注意力层和隐藏特征正交化层组合层、1个第二注意力层和隐藏特征正交化层组合层,所述1个卷积层通过1个隐藏特征正交化层分别连接1个第一注意力层和隐藏特征正交化层组合层和1个第二注意力层和隐藏特征正交化层组合层,所述1个隐藏特征正交化层、1个第一注意力层和隐藏特征正交化层组合层、1个第二注意力层和隐藏特征正交化层组合层的输出进行融合后,输入到1个隐藏特征正交化层,并经过全局平均池化层获得第一特征向量,其中第二注意力层用于对输入该注意力层的特征图中语义相关的像素点进行整合;
基于第二图像特征图输入到第四卷积层网络获得第二特征向量,所述第四卷积层网络包括1个卷积层和1个全局平均池化层;
基于第一特征向量和第二特征向量输入分类层网络获得图像识别结果。
可以理解,上述第一卷积层网络、第二卷积层网络、第三卷积层网络、第四卷积层网络中提到的所述卷积层指的是用于提取图像特征的卷积层,每个该用于提取图像特征的卷积层中均添加了权重正交化层,当然在第一卷积层网络、第二卷积层网络、第三卷积层网络、第四卷积层网络中还可以包括用于对图像特征提取后进一步对特征数据处理的1*1卷积层。
本发明实施例提出的第一神经网络和第二神经网络的网络模型结构可以在现有的特征提取网络中通过对应位置添加权重正交化层、隐藏特征正交化层、第一注意力层和第二注意力层得到,其中第三卷积层网络通过1个隐藏特征正交化层将该层输入的特征图变得更小,通过第三卷积层网络提取到更细节的特征,通过第四卷积层网络提取到全局特征,将两者组合得到更加丰富的特征信息,以提高模型识别准确率。
进一步的,上述行人重识别模型的训练过程中,包括预训练和再调整过程,
其中预训练包括对部分网络层进行第一预设轮次的训练,本实施例中第一预设轮次采用10,预训练的部分网络可以包括1*1卷积层、分类层和所有注意层,再调整过程基于预训练的结果对全部网络层进行模型调整训练,其中第一预设轮次的训练过程中第一约束函数
Figure BDA0003029685650000081
中的超参数βOF,βOW置0,即在预训练过程中采用的行人重识别目标函数包括三元组损失函数、交叉熵损失函数和第二约束函数,在再调整过程中采用的行人重识别目标函数包括第二约束函数LE和由三元组损失函数、交叉熵损失函数、第一正交约束函数、第二正交约束函数进行加权和得到的第一约束函数
Figure BDA0003029685650000082
本发明实施例中采用预训练和再调整结合的训练方法,有效提高了训练效率。
本发明实施例还提供了一种基于正则化约束的半监督行人重识别装置,包括:
模型训练模块,用于对行人重识别模型进行训练,所述行人重识别模型包括结构完全相同的第一神经网络和第二神经网络;
行人重识别单元,用于将待识别图像输入第一神经网络或者第二神经网络进行行人重识别;
其中,模型训练模块包括:
样本输入单元,用于将有标签图像数据和无标签图像数据同时输入第一神经网络和第二神经网络;
模型约束函数计算单元,用于基于有标签图像数据输入第一神经网络后的输出结果计算第一神经网络输出值的第一约束函数,基于有标签和无标签图像数据中的同一张图像输入第一神经网络和第二神经网络的输出结果一致为第一神经网络输出值的第二约束函数;
模型权重参数更新单元,用于基于第一约束函数和第二约束函数对第一神经网络进行参数更新,并即时基于更新后的第一神经网络参数更新第二神经网络参数;
模型权重参数迭代更新单元,用于重复样本输入单元、模型约束函数计算单元和模型权重参数更新单元直至模型约束函数计算单元中的第一约束函数和第二约束函数的融合结果满足收敛条件,完成行人重识别模型训练。
本发明实施例所提供的行人重识别装置可以直接体现为由处理器执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器,处理器读取存储器中软件模块包括的可执行指令,结合必要的硬件完成本发明实施例提供的行人重识别方法。另外,本实施例提供的行人重识别装置与上述实施例提供的行人重识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明实施例提供了一种终端,该终端包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行以实现上述实施例中的基于正则化约束的半监督行人重识别方法。
本发明实施例提供的终端包括:至少一个处理器、存储器、用户接口和至少一个网络接口。终端中的各个组件通过总线系统耦合在一起。可以理解,总线系统用于实现这些组件之间的连接通信。
本发明实施例提供了一种存储介质,该存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现上述实施例中的基于正则化约束的半监督行人重识别方法。
可以理解,存储器可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器能够存储数据以支持终端的操作。这些数据的示例包括:用于在终端上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
基于上述实施例中公开的基于正则化约束的半监督行人重识别方法,进行实验验证,该验证过程如下所述:
采用market1501作为数据集,该数据集包括由6个摄像头(其中5个高清摄像头和1个低清摄像头)拍摄到的1501个行人、32668个检测到的行人矩形框。每个行人至少由2个摄像头捕获到,并且在一个摄像头中可能具有多张图像。训练集有751人,包含12,936张图像,平均每个人有17.2张训练数据;测试集有750人,包含19,732张图像,平均每个人有26.3张测试数据。训练集按751人标签进行划分有标签与无标签,其中有标签数据占整个训练集标签的比例分别为1%,5%,10%,20%,40%,并采用平均精度均值(mean AveragePrecision)和搜索结果中最靠前(置信度最高)的n张图有正确结果的概率(rank-n)作为行人重识别的准确率度量标准。
采用PyTorch深度学习框架进行实现,在训练过程中,输入图像被缩放到384×128,通过随机水平翻转和随机擦除来增强数据,然后采用两步法对模型进行训练。首先,进行预训练过程,训练了10周期的1*1卷积层、分类层和所有注意层,并只用交叉熵损失和三元组损失。然后,所有层都被释放进行全部训练,并使用全部损失,其中设置βtr=10-1,βOF=10-6,βOW=10-3和三元组损失参数ε=1.2。
本发明通过不同数量有、无标签训练数据的mAP和Rank-1的精度对比,评估上述实施例提出的行人重识别方法能否有效利用大量无标签训练数据,由表1可以看出,本发明实施例算法在其他条件一致时,相比于仅利用无标签数据,通过对无标签训练数据的有效建模,通过无标签训练数据的建模,显著提升行人重识别的准确率,体现了本发明提出的半监督行人重识别算法的有效性。上述不同数量有/无标签训练数据的mAP和Rank-1的精度数据如下表1所述。
Figure BDA0003029685650000101
Figure BDA0003029685650000111
表1不同有/无标签训练数据的mAP和Rank-1对比
本实施例中通过算法对比验证本发明算法的优越性,实验过程如下:
选择两种现有的半监督行人重识别算法进行对比,从表2中可以看出本发明实施例提出的算法能更有效的利用无标签数据的信息。基于本发明提出的行人重识别算法,通过现有技术中的方法增加网络深度进一步获取特征,可以进一步提升算法效果,并且本发明中提出的行人重识别方法更加简单、速度更快,对进一步提升半监督行人重识别的现实应用价值有着重大意义,上述实验中的对比数据如下表2所述:
Figure BDA0003029685650000112
表2三种算法的mAP与Rank-1对比
本实施例中通过对比仅用有标签训练数据的损失曲线与利用无标签与有标签组合训练数据的损失曲线对本发明提出的算法进行定性评估,实验过程如下:
采用ABD-Net作为半监督行人重识别网络,第一步将训练集设置为仅有1%有标签数据和训练集同时包含1%有标签和99%无标签数据两种情况,通过计算得到上述两种情况下的最终损失曲线,如图3所示;第二步将训练集设置为仅有5%有标签数据和训练集同时包含5%有标签和95%无标签数据两种情况,通过计算得到上述两种情况下的最终损失曲线,如图4所示。同比图3、图4可得利用无标签与有标签组合训练数据时,其损失曲线比仅用有标签训练数据的损失曲线下降更快,最终损失曲线较仅有标签训练数据的损失曲线更平滑,表明本发明所提出的算法在训练过程中采用无标签作为训练数据的一部分,与有标签数据一同训练增加了网络的鲁棒性。
本发明不局限于上述具体的实施方式,本领域的普通技术人员从上述构思出发,不经过创造性的劳动,所做出的种种变换,均落在本发明的保护范围之内。

Claims (8)

1.基于正则化约束的半监督行人重识别方法,其特征在于,包括:
对行人重识别模型进行训练,所述行人重识别模型包括结构完全相同的第一神经网络和第二神经网络;
将待识别图像输入第一神经网络或者第二神经网络进行行人重识别;
其中,行人重识别模型的训练过程包括:
(1)将有标签图像数据和无标签图像数据同时输入第一神经网络和第二神经网络;
(2)基于有标签图像数据输入第一神经网络后的输出结果计算第一神经网络输出值的第一约束函数,基于有标签和无标签图像数据中的同一张图像输入第一神经网络和第二神经网络的输出结果一致为第一神经网络输出值的第二约束函数;
(3)基于第一约束函数和第二约束函数对第一神经网络进行参数更新,并即时基于更新后的第一神经网络参数更新第二神经网络参数;
(4)重复(1)-(3)直至(2)中的第一约束函数和第二约束函数的融合结果满足收敛条件,完成行人重识别模型训练;
所述第一约束函数获取方法包括:
对于每个有标签图像
Figure FDA0003877559340000011
在有标签图像数据集中随机选择一个同类标签的样本
Figure FDA0003877559340000012
和一个不同类标签的样本
Figure FDA0003877559340000013
组成一个三元训练样本;
基于一个三元训练样本输入到第一神经网络后获得输出
Figure FDA0003877559340000014
Figure FDA0003877559340000015
基于输出的
Figure FDA0003877559340000016
趋向于与
Figure FDA0003877559340000017
一致同时趋向于与
Figure FDA0003877559340000018
不一致为约束条件,获得三元组损失函数L1;
基于
Figure FDA0003877559340000019
和有标签图像
Figure FDA00038775593400000110
的标签数据
Figure FDA00038775593400000111
计算得到交叉熵损失函数L2;
基于有标签图像
Figure FDA00038775593400000112
输入到第一神经网络后获得输出
Figure FDA00038775593400000113
时的网络权重参数θ的矩阵与正交矩阵的损失值计算得到第一正交约束函数LOW
基于有标签图像
Figure FDA00038775593400000114
输入到第一神经网络过程中全部隐藏层输出的隐藏特征矩阵与正交矩阵的损失值计算得到第二正交约束函数LOF
基于三元组损失函数、交叉熵损失函数、第一正交约束函数、第二正交约束函数进行加权和得到第一约束函数
Figure FDA0003877559340000021
为:
Figure FDA0003877559340000022
其中,
Figure FDA0003877559340000023
表示有标签图像,
Figure FDA0003877559340000024
表数无标签图像,
Figure FDA0003877559340000025
表示有标签图像
Figure FDA0003877559340000026
在第一神经网络权重参数为θ的情况下输入到第一神经网络得到的输出结果,
Figure FDA0003877559340000027
表示无标签图像
Figure FDA0003877559340000028
在第一神经网络权重参数为θ的情况下输入到第一神经网络得到的输出结果,
Figure FDA0003877559340000029
表示有标签图像
Figure FDA00038775593400000210
在第二神经网络权重参数为θ′的情况下输入到第二神经网络得到的输出结果,
Figure FDA00038775593400000211
表示无标签图像
Figure FDA00038775593400000212
在第一神经网络权重参数为θ′的情况下输入到第二神经网络得到的输出结果,βtr,βOF,βOW是超参数;
所述基于有标签和无标签图像数据中的同一张图像输入第一神经网络和第二神经网络的输出结果一致为第一神经网络输出值的第二约束函数,第二约束函数LE为:
Figure FDA00038775593400000213
其中,(h,w)表示图像的每个像素点。
2.根据权利要求1所述的于正则化约束的半监督行人重识别方法,其特征在于,所述第一正交约束函数获取方法包括:
基于第一神经网络的每层权重参数作为一个向量,基于第一神经网络的所有层权重参数获得一个格拉姆矩阵F,
基于格拉姆矩阵F乘格拉姆矩阵的转置趋向于与拉姆矩阵的转置乘以格拉姆矩阵为约束条件得到第一正交约束函数LOW为:
Figure FDA00038775593400000214
其中,η、λ1、λ2为系数。
3.根据权利要求1所述的于正则化约束的半监督行人重识别方法,其特征在于,所述第一神经网络和第二神经网络对输入的图像数据的处理过程一致,包括:
将图像数据输入第一卷积层网络得到第一图像特征图,每个所述卷积层中加入了权重正交化层;
基于第一图像特征图依次输入第一注意力层和隐藏特征正交化层后输入第二卷积层网络得到第二图像特征图,所述第一注意力层用于将第一图像特征图的相似通道组合;
基于第二图像特征图输入到第三卷积层网络,所述第三卷积层网络中包括1个卷积层、1个隐藏特征正交化层、1个第一注意力层和隐藏特征正交化层组合层、1个第二注意力层和隐藏特征正交化层组合层,所述1个卷积层通过1个隐藏特征正交化层分别连接1个第一注意力层和隐藏特征正交化层组合层和1个第二注意力层和隐藏特征正交化层组合层,所述1个隐藏特征正交化层、1个第一注意力层和隐藏特征正交化层组合层、1个第二注意力层和隐藏特征正交化层组合层的输出进行融合后,输入到1个隐藏特征正交化层,并经过全局平均池化层获得第一特征向量,其中第二注意力层用于对输入该注意力层的特征图中语义相关的像素点进行整合;
基于第二图像特征图输入到第四卷积层网络获得第二特征向量,所述第四卷积层网络包括1个卷积层和1个全局平均池化层;
基于第一特征向量和第二特征向量输入分类层网络获得图像识别结果。
4.根据权利要求1所述的于正则化约束的半监督行人重识别方法,其特征在于,所述步骤(3)中,基于第一约束函数和第二约束函数对第一神经网络进行参数更新采用随机参数下降法,基于更新后的第一神经网络参数更新第二神经网络参数采用如下公式:
θ′t=αtθ′t-1+(1-αtt,其中,
Figure FDA0003877559340000031
t为当前迭代轮次。
5.根据权利要求1所述的基于正则化约束的半监督行人重识别方法,其特征在于,所述行人重识别模型的训练过程中,包括预训练和再调整过程,其中预训练包括对部分网络层进行第一预设轮次的训练,再调整过程基于预训练的结果对全部网络层进行模型调整训练,其中第一预设轮次的训练过程中第一约束函数
Figure FDA0003877559340000032
中的超参数βOF,βOW置0。
6.基于正则化约束的半监督行人重识别装置,其特征在于,包括:
模型训练模块,用于对行人重识别模型进行训练,所述行人重识别模型包括结构完全相同的第一神经网络和第二神经网络;
行人重识别单元,用于将待识别图像输入第一神经网络或者第二神经网络进行行人重识别;
其中,模型训练模块包括:
样本输入单元,用于将有标签图像数据和无标签图像数据同时输入第一神经网络和第二神经网络;
模型约束函数计算单元,用于基于有标签图像数据输入第一神经网络后的输出结果计算第一神经网络输出值的第一约束函数,基于有标签和无标签图像数据中的同一张图像输入第一神经网络和第二神经网络的输出结果一致为第一神经网络输出值的第二约束函数;
模型权重参数更新单元,用于基于第一约束函数和第二约束函数对第一神经网络进行参数更新,并即时基于更新后的第一神经网络参数更新第二神经网络参数;
模型权重参数迭代更新单元,用于重复样本输入单元、模型约束函数计算单元和模型权重参数更新单元直至模型约束函数计算单元中的第一约束函数和第二约束函数的融合结果满足收敛条件,完成行人重识别模型训练;
所述第一约束函数获取方法包括:
对于每个有标签图像
Figure FDA0003877559340000041
在有标签图像数据集中随机选择一个同类标签的样本
Figure FDA0003877559340000042
和一个不同类标签的样本
Figure FDA0003877559340000043
组成一个三元训练样本;
基于一个三元训练样本输入到第一神经网络后获得输出
Figure FDA0003877559340000044
Figure FDA0003877559340000045
基于输出的
Figure FDA0003877559340000046
趋向于与
Figure FDA0003877559340000047
一致同时趋向于与
Figure FDA0003877559340000048
不一致为约束条件,获得三元组损失函数L1;
基于
Figure FDA0003877559340000049
和有标签图像
Figure FDA00038775593400000410
的标签数据
Figure FDA00038775593400000411
计算得到交叉熵损失函数L2;
基于有标签图像
Figure FDA00038775593400000412
输入到第一神经网络后获得输出
Figure FDA00038775593400000413
时的网络权重参数θ的矩阵与正交矩阵的损失值计算得到第一正交约束函数LOW
基于有标签图像
Figure FDA00038775593400000414
输入到第一神经网络过程中全部隐藏层输出的隐藏特征矩阵与正交矩阵的损失值计算得到第二正交约束函数LOF
基于三元组损失函数、交叉熵损失函数、第一正交约束函数、第二正交约束函数进行加权和得到第一约束函数
Figure FDA00038775593400000415
为:
Figure FDA00038775593400000416
其中,
Figure FDA00038775593400000417
表示有标签图像,
Figure FDA00038775593400000418
表数无标签图像,
Figure FDA00038775593400000419
表示有标签图像
Figure FDA00038775593400000420
在第一神经网络权重参数为θ的情况下输入到第一神经网络得到的输出结果,
Figure FDA0003877559340000051
表示无标签图像
Figure FDA0003877559340000052
在第一神经网络权重参数为θ的情况下输入到第一神经网络得到的输出结果,
Figure FDA0003877559340000053
表示有标签图像
Figure FDA0003877559340000054
在第二神经网络权重参数为θ′的情况下输入到第二神经网络得到的输出结果,
Figure FDA0003877559340000055
表示无标签图像
Figure FDA0003877559340000056
在第一神经网络权重参数为θ′的情况下输入到第二神经网络得到的输出结果,βtr,βOF,βOW是超参数;
所述基于有标签和无标签图像数据中的同一张图像输入第一神经网络和第二神经网络的输出结果一致为第一神经网络输出值的第二约束函数,第二约束函数LE为:
Figure FDA0003877559340000057
其中,(h,w)表示图像的每个像素点。
7.一种终端,其特征在于,所述终端包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行以实现如权利要求1至5中任一项权利要求所述的基于正则化约束的半监督行人重识别方法。
8.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如权利要求1至5中任一项权利要求所述的基于正则化约束的半监督行人重识别方法。
CN202110426252.0A 2021-04-20 2021-04-20 基于正则化约束的半监督行人重识别方法及装置 Active CN113111814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110426252.0A CN113111814B (zh) 2021-04-20 2021-04-20 基于正则化约束的半监督行人重识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110426252.0A CN113111814B (zh) 2021-04-20 2021-04-20 基于正则化约束的半监督行人重识别方法及装置

Publications (2)

Publication Number Publication Date
CN113111814A CN113111814A (zh) 2021-07-13
CN113111814B true CN113111814B (zh) 2022-12-06

Family

ID=76719054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110426252.0A Active CN113111814B (zh) 2021-04-20 2021-04-20 基于正则化约束的半监督行人重识别方法及装置

Country Status (1)

Country Link
CN (1) CN113111814B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780243B (zh) * 2021-09-29 2023-10-17 平安科技(深圳)有限公司 行人图像识别模型的训练方法、装置、设备以及存储介质
CN114419678B (zh) * 2022-03-30 2022-06-14 南京甄视智能科技有限公司 基于行人重识别的训练和识别方法、装置、介质及设备
CN115035605B (zh) * 2022-08-10 2023-04-07 广东履安实业有限公司 基于深度学习的动作识别方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555390A (zh) * 2019-08-09 2019-12-10 厦门市美亚柏科信息股份有限公司 基于半监督训练方式的行人重识别方法、装置及介质
CN111860678A (zh) * 2020-07-29 2020-10-30 中国矿业大学 一种基于聚类的无监督跨域行人重识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3493120A1 (en) * 2017-12-01 2019-06-05 Koninklijke Philips N.V. Training a neural network model
CN111611880B (zh) * 2020-04-30 2023-06-20 杭州电子科技大学 一种基于神经网络无监督对比学习的高效行人重识别方法
CN112131961B (zh) * 2020-08-28 2023-02-03 中国海洋大学 一种基于单样本的半监督行人重识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555390A (zh) * 2019-08-09 2019-12-10 厦门市美亚柏科信息股份有限公司 基于半监督训练方式的行人重识别方法、装置及介质
CN111860678A (zh) * 2020-07-29 2020-10-30 中国矿业大学 一种基于聚类的无监督跨域行人重识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Transductive semi-supervised metric learning for person re-identification;Xinyuan Chang,and etc;《Pattern Recognition》;20200804;第1-12页 *
弱监督场景下的行人重识别研究综述;祁磊等;《软件学报》;20200930;第31卷(第9期);第2883-2902页 *

Also Published As

Publication number Publication date
CN113111814A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN113111814B (zh) 基于正则化约束的半监督行人重识别方法及装置
CN110321813B (zh) 基于行人分割的跨域行人重识别方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
CN110334589B (zh) 一种基于空洞卷积的高时序3d神经网络的动作识别方法
CN108182260B (zh) 一种基于语义选择的多变量时间序列分类方法
CN108491766B (zh) 一种端到端的基于深度决策森林的人群计数方法
CN111931641B (zh) 基于权重多样性正则化的行人重识别方法及其应用
CN109033107A (zh) 图像检索方法和装置、计算机设备和存储介质
CN113469289B (zh) 视频自监督表征学习方法、装置、计算机设备和介质
CN113298815A (zh) 一种半监督遥感图像语义分割方法、装置和计算机设备
US20230316733A1 (en) Video behavior recognition method and apparatus, and computer device and storage medium
CN113392933B (zh) 一种基于不确定性引导的自适应跨域目标检测方法
US20230215166A1 (en) Few-shot urban remote sensing image information extraction method based on meta learning and attention
CN115641613A (zh) 一种基于聚类和多尺度学习的无监督跨域行人重识别方法
CN113298816A (zh) 一种遥感图像语义分割方法、装置和计算机设备
CN113158815A (zh) 一种无监督行人重识别方法、系统及计算机可读介质
CN113205103A (zh) 一种轻量级的文身检测方法
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN114692732A (zh) 一种在线标签更新的方法、系统、装置及存储介质
CN112183464A (zh) 基于深度神经网络和图卷积网络的视频行人识别方法
CN114495004A (zh) 一种基于无监督跨模态的行人重识别方法
CN113283320A (zh) 一种基于通道特征聚合的行人重识别方法
Cai et al. Uncertainty-aware model adaptation for unsupervised cross-domain object detection
CN117217282A (zh) 一种面向深度行人搜索模型的结构化剪枝方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant