CN115830633B - 基于多任务学习残差神经网络的行人重识别方法和系统 - Google Patents

基于多任务学习残差神经网络的行人重识别方法和系统 Download PDF

Info

Publication number
CN115830633B
CN115830633B CN202211484307.4A CN202211484307A CN115830633B CN 115830633 B CN115830633 B CN 115830633B CN 202211484307 A CN202211484307 A CN 202211484307A CN 115830633 B CN115830633 B CN 115830633B
Authority
CN
China
Prior art keywords
layer
neural network
loss function
convolution
residual neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211484307.4A
Other languages
English (en)
Other versions
CN115830633A (zh
Inventor
朱世强
林哲远
张春龙
宛敏红
李特
王文
黄敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202211484307.4A priority Critical patent/CN115830633B/zh
Publication of CN115830633A publication Critical patent/CN115830633A/zh
Application granted granted Critical
Publication of CN115830633B publication Critical patent/CN115830633B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

一种基于多任务学习残差神经网络的行人重识别方法,包括:从公开数据集中获取场景的图片与行人的信息,根据标注的人物位置信息,生成人物的裁剪图与对应人物的身份信息;构建多任务学习残差神经网络;构建“分类‑检索‑二元分类”联合损失函数;基于数据集训练好多任务学习残差神经网络和“分类‑检索‑二元分类”联合损失函数;基于待识别的人物裁剪图,经过训练好的多任务学习残差神经网络获得人物视觉特征向量;基于人物视觉特征向量,经过特征匹配算法,得到人物在人物库中对应的人物信息。本发明还包括一种基于多任务学习残差神经网络的行人重识别系统。本发明解决了由于非结构环境下,人物遮挡、衣服相似的行人重识别的问题。

Description

基于多任务学习残差神经网络的行人重识别方法和系统
技术领域
本发明涉及一种基于多任务学习残差神经网络的行人重识别方法和系统,用于图像中人物身份识别,属于图像检索、机器学习与人机交互领域。
背景技术
行人重识别是计算机视觉与机器学习领域的热点和前沿研究主题之一,在视频监控、智能人机交互等方面有着广泛的应用前景。
行人重识别主要解决的问题是不同摄像头或不同时间出现在视野内的人物身份匹配。行人重识别主要包含以下步骤:首先是从图像帧中检测并记录人物在像素坐标的位置;然后根据位置截取完整的人物全身图像,并进行尺寸的统一;裁剪好的人物图像输入到深度学习的网络中进行人物的视觉特征的提取;提取好的特征通过与人物图像信息库中的人物进行比对,使用匈牙利匹配的方法实现人物身份信息的确认。尽管近年来国内外行人重识别的研究取得了重要的进展,但是复杂的非结构环境以及多变的人物角度、运动状态使得人物重识别的精确性和高效性并没有完全满足相关行业的实用要求。现有技术中的行人重识别方法存在以下不足之处:(1)有遮挡情况下,人物视觉信息变少,影响人物特征的提取以及最终检索结果,同时人物框中会存在较多的环境、其他人物的噪声,抽取出的特征的可靠性下降。如何提高对被遮挡的人物识别的准确度是实现准确的行人重识别的挑战之一;(2)当人群的衣服颜色相近时,显著的人物特征信息相似度大大提高,同时提高了人物的区分、检索的难度,如何从衣服颜色以外的特征获取更加鲁棒的人物视觉特征信息是一种挑战;(3)对于移动机器人,有限的物理空间限制了计算设备的能力,但是同时又需要较高的计算速度与准确度,这两个相互矛盾的需求也是这一个技术所面临的问题。
发明内容
针对上述问题,本发明要提供一种基于多任务学习残差神经网络的行人重识别方法和系统,解决现有技术中,因人物遮挡、人物衣服颜色相似,以及有限计算资源所导致的人物重识别精度低的问题。
为了达到上述目的,本发明采用如下技术方案:
一种基于多任务学习残差神经网络的行人重识别方法,其特征在于,包括如下步骤:
S1、构建数据集,即从公开数据集中,获取场景的图片与行人的信息,根据标注的人物全身位置信息、人物头肩位置信息,生成人物的全身裁剪图与对应人物的身份信息;
S2、构建多任务学习残差神经网络,网络中包含骨干网络与多任务头,骨干网络即为残差神经网络,其各个网络层依次包括不同参数的残差块层、Average Pooling层,多任务头包含deconv层、降维卷积层;
S3、构建多任务学习残差神经网络后,构建“分类-检索-二元分类”联合损失函数;
S4、基于数据集训练构建好的多任务学习残差神经网络和“分类-检索-二元分类”联合损失函数,得到训练好的多任务学习残差神经网络和训练好的“分类-检索-二元分类”联合损失函数;
S5、基于待识别的人物裁剪图,经过训练好的多任务学习残差神经网络获得人物视觉特征向量;
S6、基于人物视觉特征向量,经过特征匹配算法,得到人物在人物库中对应的人物信息。
进一步的,所属步骤S1中的公开数据集为TGRDB数据集,其数据包含训练集、验证集、录入样本库与待检索行人图片库。
进一步,步骤S2所述的Average Pooling层是指平均池化层,deconv层是指反卷积层。
进一步的,所述步骤S2中,多任务学习残差神经网络依次包括输入层和五个卷积层,其中输入层图像大小为224×224×3,第一层包括一个卷积核,一个批归一化层,一个激活层,第二层包括一个最大池化层,与2组重复的第二卷积层,第三层包括2组重复的第三卷积层,第四层包括2组重复的第四卷积层,第五层包括2组重复的第五卷积层,第一层的卷积核为一个7×7卷积核,通道数为64,步长为2,填充为3,第二卷积层依次包括一个卷积核,一个批量归一化层,一个卷积核,一个批量归一化层,一个激活层,各卷积核大小为3×3,通道数为64,步长为1,第三卷积层依次包括一个卷积核,一个批量归一化层,一个卷积核,一个批量归一化层,一个激活层,各卷积核大小为3×3,通道数为128,步长为1,第四卷积层依次包括一个卷积核,一个批量归一化层,一个卷积核,一个批量归一化层,一个激活层,各卷积核大小为3×3,通道数为256,步长为1,第五卷积层依次包括一个卷积核,一个批量归一化层,一个卷积核,一个批量归一化层,一个激活层,各卷积核大小为3×3,通道数为512,步长为1,多任务头中deconv层是一个2×2的反卷积核,步长为2,降维卷积层是一个1×1的卷积核,步长为1。
进一步的,所述步骤S2中,多任务学习残差神经网络实现过程如下:
S2.1、将图片输入到骨干网络中,获得特征向量;
S2.2、将特征向量输入到一个全连接网络层后,输出结果使用softmax归一化后,获得分类向量预测结果,输入到分类损失函数中;
S2.3、将特征向量直接输入到检索损失函数;
S2.4、将特征向量输入到反卷积层中扩大特征尺寸,然后输入到降维卷积层,生成单层的头肩掩膜预测输出;
S2.5、将头肩框的位置转化成头肩掩膜,并缩放尺寸到与头肩掩膜预测相同的尺寸,并与头肩掩膜预测一同输入到二元分类损失函数中进行计算。
进一步的,所述步骤S3的具体步骤为:
S3.1、构建一个交叉熵损失函数分类损失函数,表示如下:
其中N表示每个批量中的图片数量,g表示独热的人物身份真值向量,f表示从骨干网络输出的特征向量,特征向量输入到全连接层,W和b表示全连接层的权重和偏差。
S3.2、构建一个三元组损失函数作为检索损失函数,表示如下:
其中fa,fp,fn,分别为锚特征向量,正样本特征向量,负样本特征向量。d(a,b)表示特征向量a与b的欧式距离,m表示fa与fn之间的距离和fa与fp之间的距离之间有一个最小的间隔。
S3.3、构建一个二元交叉熵损失函数作为二元分类函数,表示如下:
其中H和W表示特征的高和宽,tij表示真值特征上第i行,第j列的像素,值为0或1,oij表示预测特征上第i行,第j列的像素,其值在[0,1]范围内。
S3.4、总损失函数表示如下:
Loss=lCE+lTri+γlBCE (4)
其中γ表示二元交叉熵损失的权重。
进一步的,所述步骤S4的具体步骤为:
多任务学习残差神经网络在训练阶段优化交叉熵损失函数、三元组损失函数和二元交叉熵损失函数。
本发明还包括一种基于多任务学习残差神经网络的行人重识别系统,包括:
数据集构建模块,用于构建数据集,即从公开数据集中,获取场景的图片与行人的信息,根据标注的人物位置信息,生成人物的裁剪图与对应人物的身份信息;
多任务学习残差神经网络构建模块,用于构建多任务学习残差神经网络,网络中包含骨干网络与多任务头,骨干网络即为残差神经网络,其各个网络层依次包括不同参数的残差块层,Average Pooling层,Average Pooling层是指平均池化层,多任务头包含deconv层、降维卷积层,deconv层是指反卷积层;
“分类-检索-二元分类”联合损失函数构建模块,用于构建多任务学习残差神经网络后,构建“分类-检索-二元分类”联合损失函数;
多任务学习残差神经网络“分类-检索-二元分类”联合损失函数获取模块,用于基于数据集训练构建好的多任务学习残差神经网络和“分类-检索-二元分类”联合损失函数,得到训练好的多任务学习残差神经网络和训练好的“分类-检索-二元分类”联合损失函数;
人物视觉特征向量获得模块,用于基于待识别的人物裁剪图,经过训练好的多任务学习残差神经网络获得人物视觉特征向量;
人物在人物库中对应的人物信息获取模块,用于基于人物视觉特征向量,经过特征匹配算法,得到人物在人物库中对应的人物信息。
本发明还包括一种基于多任务学习残差神经网络的行人重识别装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现本发明的一种基于多任务学习残差神经网络的行人重识别方法。
本发明还包括一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现本发明的一种基于多任务学习残差神经网络的行人重识别方法。
本发明同现有技术相比,其有益效果表现在:
一、本发明通过使用头肩信息在训练过程中引导模型找到人物的头部位置,能更高效地利用人脸视觉信息的特征,以在遮挡或相似衣服的情况下获取人物特征,提高行人重识别的准确度;
二、本发明通过使用多任务学习的方法,在不增加推理过程中计算资源需求的情况下提高了行人重识别的准确度,同时适应了移动机器人平台的;
三、本发明通过构建“分类-检索-二元分类”联合损失函数,预测人物身份信息类别的同时,实现人物类内差异最小化、类间差异最大化,以及找到头部位置信息,可提高行人重识别准确度。
附图说明
图1是本发明的一种基于多任务学习残差神经网络的行人重识别方法的流程图。
图2是本发明中多任务学习残差神经网络和“分类-检索-二元分类”联合损失函数示意图,其中,WB Image表示全身图像,Backbone表示骨干网络,Feature表示特征向量,Mask Head表示多任务学习头,Mask Logits表示头肩掩膜预测结果,HS Mask表示头肩掩膜,Resize表示尺寸收缩,CE Loss表示交叉熵损失函数,Triplet Loss表示三元组损失函数,Binary Cross Entropy与Mask Loss表示二元交叉熵损失函数,Losses表示所有损失函数。
图3是本发明用于特征提取的骨干网络结构图。
图4是本发明的一种基于多任务学习残差神经网络的行人重识别系统的结构图。
图5是本发明涉及的全身图像,头肩图像为黑色框内截取获得的图片。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
本发明的一种基于多任务学习残差神经网络的行人重识别方法,属于图像检索、机器学习与人机交互领域。解决了由于非结构环境下,人物遮挡、衣服相似,以及移动平台算力与准确度要求矛盾的问题。图1是本发明的一种基于多任务学习残差神经网络的行人重识别的流程图。如图1本发明实施例中的一种基于多任务学习残差神经网络的行人重识别方法,包括如下步骤:
S1、构建数据集,即从公开数据集中,获取场景的图片与行人的信息,根据标注的人物全身位置信息、人物头肩位置信息,生成人物的全身裁剪图与对应人物的身份信息;所属公开数据集为TGRDB数据集,其数据包含训练集、验证集、录入样本库与待检索行人图片库。
S2、构建多任务学习残差神经网络,网络中包含骨干网络与多任务头,骨干网络即为残差神经网络,其各个网络层依次包括不同参数的残差块层,Average Pooling层,Average Pooling层是指平均池化层,多任务头包含deconv层,降维卷积层,deconv层是指反卷积层;
多任务学习残差神经网络依次包括输入层和五个卷积层,其中输入层图像大小为224×224×3,第一层包括一个卷积核,一个批归一化层,一个激活层,第二层包括一个最大池化层,与2组重复的第二卷积层,第三层包括2组重复的第三卷积层,第四层包括2组重复的第四卷积层,第五层包括2组重复的第五卷积层,第一层的卷积核为一个7×7卷积核,通道数为64,步长为2,填充为3,第二卷积层依次包括一个卷积核,一个批量归一化层,一个卷积核,一个批量归一化层,一个激活层,各卷积核大小为3×3,通道数为64,步长为1,第三卷积层依次包括一个卷积核,一个批量归一化层,一个卷积核,一个批量归一化层,一个激活层,各卷积核大小为3×3,通道数为128,步长为1,第四卷积层依次包括一个卷积核,一个批量归一化层,一个卷积核,一个批量归一化层,一个激活层,各卷积核大小为3×3,通道数为256,步长为1,第五卷积层依次包括一个卷积核,一个批量归一化层,一个卷积核,一个批量归一化层,一个激活层,各卷积核大小为3×3,通道数为512,步长为1,多任务头中deconv层是一个2×2的反卷积核,步长为2,降维卷积层是一个1×1的卷积核,步长为1。
多任务学习残差神经网络的实现步骤如下:
S2.1、将图片输入到骨干网络中,获得特征向量;
S2.2、将特征向量输入到一个全连接网络层后,输出结果使用softmax归一化后,获得分类向量预测结果,输入到分类损失函数中;
S2.3、将特征向量直接输入到检索损失函数;
S2.4、将特征向量输入到反卷积层中扩大特征尺寸,然后输入到降维卷积层,生成单层的头肩掩膜预测输出;
S2.5、将头肩框的位置转化成头肩掩膜,并缩放尺寸到与头肩掩膜预测相同的尺寸,并与头肩掩膜预测一同输入到二元分类损失函数中进行计算。
S3、构建多任务学习残差神经网络后,构建“分类-检索-二元分类”联合损失函数;
具体步骤为:
S3.1、构建一个交叉熵损失函数分类损失函数,表示如下:
其中N表示每个批量中的图片数量,g表示独热的人物身份真值向量,f表示从骨干网络输出的特征向量,特征向量输入到全连接层,W和b表示全连接层的权重和偏差。
S3.2、构建一个三元组损失函数作为检索损失函数,表示如下:
其中fa,fp,fn,分别为锚特征向量,正样本特征向量,负样本特征向量。d(a,b)表示特征向量a与b的欧式距离,m表示fa与fn之间的距离和fa与fp之间的距离之间有一个最小的间隔。
S3.3、构建一个二元交叉熵损失函数作为二元分类函数,表示如下:
其中H和W表示特征的高和宽,tij表示真值特征上第i行,第j列的像素,值为0或1,oij表示预测特征上第i行,第j列的像素,其值在[0,1]范围内。
S3.4、总损失函数表示如下:
Loss=lCE+lTri+γlBCE (4)
其中γ表示二元交叉熵损失的权重。
S4、基于数据集训练构建好的多任务学习残差神经网络和“分类-检索-二元分类”联合损失函数,得到训练好的多任务学习残差神经网络和训练好的“分类-检索-二元分类”联合损失函数;
S5、基于待识别的人物裁剪图,经过训练好的多任务学习残差神经网络获得人物视觉特征向量;
S6、基于人物视觉特征向量,经过特征匹配算法,得到人物在人物库中对应的人物信息。
图4是本发明的一种基于多任务学习残差神经网络的行人重识别系统的结构图。图图4本发明实施例的一种基于多任务学习残差神经网络的行人重识别系统,包括:
数据集构建模块,用于构建数据集,即从公开数据集中,获取场景的图片与行人的信息,根据标注的人物位置信息,生成人物的裁剪图与对应人物的身份信息;
多任务学习残差神经网络构建模块,用于构建多任务学习残差神经网络,网络中包含骨干网络与多任务头,骨干网络即为残差神经网络,其各个网络层依次包括不同参数的残差块层,Average Pooling层,Average Pooling层是指平均池化层,多任务头包含deconv层、降维卷积层,deconv层是指反卷积层;
“分类-检索-二元分类”联合损失函数构建模块,用于构建多任务学习残差神经网络后,构建“分类-检索-二元分类”联合损失函数;
多任务学习残差神经网络“分类-检索-二元分类”联合损失函数获取模块,用于基于数据集训练构建好的多任务学习残差神经网络和“分类-检索-二元分类”联合损失函数,得到训练好的多任务学习残差神经网络和训练好的“分类-检索-二元分类”联合损失函数;
人物视觉特征向量获得模块,用于基于待识别的人物裁剪图,经过训练好的多任务学习残差神经网络获得人物视觉特征向量;
人物在人物库中对应的人物信息获取模块,用于基于人物视觉特征向量,经过特征匹配算法,得到人物在人物库中对应的人物信息。
本发明还包括一种基于多任务学习残差神经网络的行人重识别装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现本发明的一种基于多任务学习残差神经网络的行人重识别方法。
本发明还包括一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现本发明的一种基于多任务学习残差神经网络的行人重识别方法。
如图4,在硬件层面,该一种基于多任务学习残差神经网络的行人重识别装置包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的方法。当然,除了软件实现方式之外,本发明并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(ProgrammableLogic Device,PLD)(例如现场可编程门阵列(Field Programmable Gate Array,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware DescriptionLanguage,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced BooleanExpression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java HardwareDescription Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware DescriptionLanguage)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated CircuitHardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
以上仅是本发明众多具体应用范围中的代表性实施例,对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案,均落在本发明权利保护范围之内。

Claims (7)

1.一种基于多任务学习残差神经网络的行人重识别方法,其特征在于,包括如下步骤:
S1、构建数据集,即从公开数据集中,获取场景的图片与行人的信息,根据标注的人物位置信息,生成人物的裁剪图与对应人物的身份信息;
S2、构建多任务学习残差神经网络,网络中包含骨干网络与多任务头,骨干网络即为残差神经网络,其各个网络层依次包括不同参数的残差块层,Average Pooling层,AveragePooling层是指平均池化层,多任务头包含deconv层、降维卷积层,deconv层是指反卷积层;所述多任务学习残差神经网络依次包括输入层和五个卷积层,其中输入层图像大小为224×224×3,第一层包括一个卷积核,一个批归一化层,一个激活层,第二层包括一个最大池化层,滤波器尺寸为3×3,步长为2,与2组重复的第二卷积层,第三层包括2组重复的第三卷积层,第四层包括2组重复的第四卷积层,第五层包括2组重复的第五卷积层,第一层的卷积核为一个7×7卷积核,通道数为64,步长为2,填充为3,第二卷积层依次包括一个卷积核,一个批量归一化层,一个卷积核,一个批量归一化层,一个激活层,各卷积核大小为3×3,通道数为64,步长为1,第三卷积层依次包括一个卷积核,一个批量归一化层,一个卷积核,一个批量归一化层,一个激活层,各卷积核大小为3×3,通道数为128,步长为1,第四卷积层依次包括一个卷积核,一个批量归一化层,一个卷积核,一个批量归一化层,一个激活层,各卷积核大小为3×3,通道数为256,步长为1,第五卷积层依次包括一个卷积核,一个批量归一化层,一个卷积核,一个批量归一化层,一个激活层,各卷积核大小为3×3,通道数为512,步长为1,多任务头中deconv层是一个2×2的反卷积核,步长为2,降维卷积层是一个1×1的卷积核,步长为1;
所述多任务学习残差神经网络的实现过程如下:
S2.1、将图片输入到骨干网络中,获得特征向量;
S2.2、将特征向量输入到一个全连接网络层后,输出结果使用softmax归一化后,获得分类向量预测结果,输入到分类损失函数中;
S2.3、将特征向量直接输入到检索损失函数;
S2.4、将特征向量输入到反卷积层中扩大特征尺寸,然后输入到降维卷积层,生成单层的头肩掩膜预测输出;
S2.5、将头肩框的位置转化成头肩掩膜,并缩放尺寸到与头肩掩膜预测相同的尺寸,并与头肩掩膜预测一同输入到二元分类损失函数中进行计算;
S3、构建多任务学习残差神经网络后,构建“分类-检索-二元分类”联合损失函数;具体包括:
S3.1、构建一个交叉熵损失函数分类损失函数,表示如下:
其中N表示每个批量中的图片数量,g表示独热的人物身份真值向量,f表示从骨干网络输出的特征向量,特征向量输入到全连接层,W和b表示全连接层的权重和偏差;
S3.2、构建一个三元组损失函数作为检索损失函数,表示如下:
其中fa,fp,fn,分别为锚特征向量,正样本特征向量,负样本特征向量;d(a,b)表示特征向量a与b的欧式距离,m表示fa与fn之间的距离和fa与fp之间的距离之间有一个最小的间隔;
S3.3、构建一个二元交叉熵损失函数作为二元分类函数,表示如下:
其中H和W表示特征的高和宽,tij表示真值特征上第i行,第j列的像素,值为0或1,oij表示预测特征上第i行,第j列的像素,其值在[0,1]范围内;
S3.4、总损失函数表示如下:
其中γ表示二元交叉熵损失的权重;
S4、基于数据集训练构建好的多任务学习残差神经网络和“分类-检索-二元分类”联合损失函数,得到训练好的多任务学习残差神经网络和训练好的“分类-检索-二元分类”联合损失函数;
S5、基于待识别的人物裁剪图,经过训练好的多任务学习残差神经网络获得人物视觉特征向量;
S6、基于人物视觉特征向量,经过特征匹配算法,得到人物在人物库中对应的人物信息。
2.根据权利要求1所述的一种基于多任务学习残差神经网络的行人重识别方法,其特征在于,所属步骤S1中的公开数据集为TGRDB数据集,其数据包含训练集、验证集、录入样本库与待检索行人图片库。
3.根据权利要求1所述的一种基于多任务学习残差神经网络的行人重识别方法,其特征在于,步骤S2所述的Average Pooling层是指平均池化层,deconv层是指反卷积层。
4.根据权利要求1所述的一种基于多任务学习残差神经网络的行人重识别方法,其特征在于,所述步骤S4的具体步骤为:
多任务学习残差神经网络在训练阶段优化交叉熵损失函数、三元组损失函数和二元交叉熵损失函数。
5.一种基于多任务学习残差神经网络的行人重识别系统,其特征在于,包括:
数据集构建模块,用于构建数据集,即从公开数据集中,获取场景的图片与行人的信息,根据标注的人物位置信息,生成人物的裁剪图与对应人物的身份信息;
多任务学习残差神经网络构建模块,用于构建多任务学习残差神经网络,网络中包含骨干网络与多任务头,骨干网络即为残差神经网络,其各个网络层依次包括不同参数的残差块层,Average Pooling层,Average Pooling层是指平均池化层,多任务头包含deconv层、降维卷积层,deconv层是指反卷积层;所述多任务学习残差神经网络依次包括输入层和五个卷积层,其中输入层图像大小为224×224×3,第一层包括一个卷积核,一个批归一化层,一个激活层,第二层包括一个最大池化层,滤波器尺寸为3×3,步长为2,与2组重复的第二卷积层,第三层包括2组重复的第三卷积层,第四层包括2组重复的第四卷积层,第五层包括2组重复的第五卷积层,第一层的卷积核为一个7×7卷积核,通道数为64,步长为2,填充为3,第二卷积层依次包括一个卷积核,一个批量归一化层,一个卷积核,一个批量归一化层,一个激活层,各卷积核大小为3×3,通道数为64,步长为1,第三卷积层依次包括一个卷积核,一个批量归一化层,一个卷积核,一个批量归一化层,一个激活层,各卷积核大小为3×3,通道数为128,步长为1,第四卷积层依次包括一个卷积核,一个批量归一化层,一个卷积核,一个批量归一化层,一个激活层,各卷积核大小为3×3,通道数为256,步长为1,第五卷积层依次包括一个卷积核,一个批量归一化层,一个卷积核,一个批量归一化层,一个激活层,各卷积核大小为3×3,通道数为512,步长为1,多任务头中deconv层是一个2×2的反卷积核,步长为2,降维卷积层是一个1×1的卷积核,步长为1;
所述多任务学习残差神经网络的实现过程如下:
S2.1、将图片输入到骨干网络中,获得特征向量;
S2.2、将特征向量输入到一个全连接网络层后,输出结果使用softmax归一化后,获得分类向量预测结果,输入到分类损失函数中;
S2.3、将特征向量直接输入到检索损失函数;
S2.4、将特征向量输入到反卷积层中扩大特征尺寸,然后输入到降维卷积层,生成单层的头肩掩膜预测输出;
S2.5、将头肩框的位置转化成头肩掩膜,并缩放尺寸到与头肩掩膜预测相同的尺寸,并与头肩掩膜预测一同输入到二元分类损失函数中进行计算;
“分类-检索-二元分类”联合损失函数构建模块,用于构建多任务学习残差神经网络后,构建“分类-检索-二元分类”联合损失函数;具体包括:
S3.1、构建一个交叉熵损失函数分类损失函数,表示如下:
其中N表示每个批量中的图片数量,g表示独热的人物身份真值向量,f表示从骨干网络输出的特征向量,特征向量输入到全连接层,W和b表示全连接层的权重和偏差;
S3.2、构建一个三元组损失函数作为检索损失函数,表示如下:
其中fa,fp,fn,分别为锚特征向量,正样本特征向量,负样本特征向量;d(a,b)表示特征向量a与b的欧式距离,m表示fa与fn之间的距离和fa与fp之间的距离之间有一个最小的间隔;
S3.3、构建一个二元交叉熵损失函数作为二元分类函数,表示如下:
其中H和W表示特征的高和宽,tij表示真值特征上第i行,第j列的像素,值为0或1,oij表示预测特征上第i行,第j列的像素,其值在[0,1]范围内;
S3.4、总损失函数表示如下:
其中γ表示二元交叉熵损失的权重;
多任务学习残差神经网络“分类-检索-二元分类”联合损失函数获取模块,用于基于数据集训练构建好的多任务学习残差神经网络和“分类-检索-二元分类”联合损失函数,得到训练好的多任务学习残差神经网络和训练好的“分类-检索-二元分类”联合损失函数;
人物视觉特征向量获得模块,用于基于待识别的人物裁剪图,经过训练好的多任务学习残差神经网络获得人物视觉特征向量;
人物在人物库中对应的人物信息获取模块,用于基于人物视觉特征向量,经过特征匹配算法,得到人物在人物库中对应的人物信息。
6.一种基于多任务学习残差神经网络的行人重识别装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-4中任一项所述的一种基于多任务学习残差神经网络的行人重识别方法。
7.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1-4中任一项所述的一种基于多任务学习残差神经网络的行人重识别方法。
CN202211484307.4A 2022-11-24 2022-11-24 基于多任务学习残差神经网络的行人重识别方法和系统 Active CN115830633B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211484307.4A CN115830633B (zh) 2022-11-24 2022-11-24 基于多任务学习残差神经网络的行人重识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211484307.4A CN115830633B (zh) 2022-11-24 2022-11-24 基于多任务学习残差神经网络的行人重识别方法和系统

Publications (2)

Publication Number Publication Date
CN115830633A CN115830633A (zh) 2023-03-21
CN115830633B true CN115830633B (zh) 2023-07-25

Family

ID=85531253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211484307.4A Active CN115830633B (zh) 2022-11-24 2022-11-24 基于多任务学习残差神经网络的行人重识别方法和系统

Country Status (1)

Country Link
CN (1) CN115830633B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058492B (zh) * 2023-10-13 2024-02-27 之江实验室 一种基于学习解耦的两阶段训练病害识别方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580460A (zh) * 2019-08-28 2019-12-17 西北工业大学 基于行人身份和属性特征联合识别验证的行人再识别方法
CN110929697B (zh) * 2019-12-17 2021-04-13 中国人民解放军海军航空大学 一种基于残差结构的神经网络目标识别方法及系统
CN112084895B (zh) * 2020-08-25 2022-07-29 南京邮电大学 一种基于深度学习的行人重识别方法
CN113516012B (zh) * 2021-04-09 2022-04-15 湖北工业大学 一种基于多层级特征融合的行人重识别方法及系统

Also Published As

Publication number Publication date
CN115830633A (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN116205290B (zh) 一种基于中间特征知识融合的知识蒸馏方法和装置
CN115830633B (zh) 基于多任务学习残差神经网络的行人重识别方法和系统
CN112308113A (zh) 一种基于半监督的目标识别方法、设备及介质
CN113887325A (zh) 一种模型训练方法、表情识别方法以及装置
CN114238904A (zh) 身份识别方法、双通道超分模型的训练方法及装置
CN115600157A (zh) 一种数据处理的方法、装置、存储介质及电子设备
CN117197781B (zh) 一种交通标志识别的方法、装置、存储介质及电子设备
CN116343314B (zh) 一种表情识别方法、装置、存储介质及电子设备
CN116543264A (zh) 图像分类模型的训练方法、图像分类方法及装置
CN116805393A (zh) 一种基于3DUnet光谱-空间信息融合的高光谱图像分类方法和系统
CN116152933A (zh) 一种异常检测模型的训练方法、装置、设备及存储介质
CN111967365B (zh) 影像连接点的提取方法和装置
CN111652074B (zh) 一种人脸识别方法、装置、设备及介质
CN113496263B (zh) 字符识别方法、设备及字符识别芯片
CN114511911A (zh) 一种人脸识别方法、装置以及设备
CN112115952B (zh) 一种基于全卷积神经网络的图像分类方法、设备及介质
CN111598092A (zh) 图像中目标区域的确定方法、目标识别方法及装置
CN116451808B (zh) 一种模型训练的方法、装置、存储介质及电子设备
CN117036829A (zh) 一种基于原型学习实现标签增强的叶片细粒度识别方法和系统
CN117079060B (zh) 一种基于光合信号的叶片智能分类方法和系统
CN116721412B (zh) 一种自下而上的基于结构性先验的豆荚关键点检测方法和系统
CN113221871B (zh) 一种文字识别方法、装置、设备及介质
CN117011718B (zh) 一种基于多元损失融合的植物叶片细粒度识别方法和系统
CN116935055B (zh) 一种基于注意力掩码的弱监督语义分割方法及装置
CN115761885B (zh) 一种共时与跨域异步融合驱动的行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant