CN117333908A - 基于姿态特征对齐的跨模态行人重识别方法 - Google Patents

基于姿态特征对齐的跨模态行人重识别方法 Download PDF

Info

Publication number
CN117333908A
CN117333908A CN202311433431.2A CN202311433431A CN117333908A CN 117333908 A CN117333908 A CN 117333908A CN 202311433431 A CN202311433431 A CN 202311433431A CN 117333908 A CN117333908 A CN 117333908A
Authority
CN
China
Prior art keywords
feature
mode
modal
pedestrian
gesture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311433431.2A
Other languages
English (en)
Inventor
刘敏
李若霖
孙烨清
边远
王耀南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202311433431.2A priority Critical patent/CN117333908A/zh
Publication of CN117333908A publication Critical patent/CN117333908A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Abstract

一种基于姿态特征对齐的跨模态行人重识别方法,包括:1、构建训练集;2、构建跨模态行人重识别网络,包括双流网络、姿态估计器、姿态引导特征增强块和第一广义均值池化层;3、选取可见光模态图像、红外模态图像,并通过数据增广得到额外模态图像,并输入到跨模态行人重识别网络中,得到最终的拼接特征;4、对跨模态行人重识别网络进行模态特征对齐学习。本发明通过引入人物关键部位特征来增强特征分辨能力,从而消除类内干扰,并引导跨模态行人重识别网络同时学习同一人物的跨模态一致特征,同时本发明提出了模态特征对齐学习方法,从特征分布对齐和分层聚合两个方面来减少了模态的巨大差异,还充分考虑了模态内和模态间的约束。

Description

基于姿态特征对齐的跨模态行人重识别方法
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种基于姿态特征对齐的跨模态行人重识别方法。
背景技术
跨模态行人重识别技术旨在检索不同模态摄像机视角下的同一行人,即给定目标人物的可见光和红外图像,模型需要在非重叠的相机网络中跨模态检索同一个人。它比单模态可见光行人重识别更具挑战性,主要的困难来自两个方面:类似于单模态可见光行人重识别任务的复杂问题,如姿势变化、视点变化、遮挡;可见光和红外模态之间存在明显差异。
现有的大多数方法只学习全图像级别的粗粒度特征或使用水平刚性划分来获得局部特征,这容易受到类内变化的影响,比如相同行人类别下相机拍摄角度不同、拍摄场景不同、光线不同等,并且局限于提取语义对齐的局部特征。此外,现有的方法大多使用实例级度量学习,不适合类内模态差异大的情况。另外一些通过减小不同模态特征中心欧式距离的方法忽略了模态内的约束。因此,上述方法中的跨模态特征很难映射到一个一致的空间中,从而限制了其性能。
此外,为了减少模态差异,一些方法通过简单变换或轻量级编码器引入类似于红外模态的第三种额外模态,增强了模型对模态干扰的鲁棒性。在此基础上,采用基于实例级或模态中心级度量学习的方法来优化模型。然而,这些方法忽略了所有实例的综合分布或模态内的约束条件。
另外,人体姿态关键点提取是计算机视觉中的一个热门任务,近年来吸引了众多研究者的关注。由于它可以提取有效的人体信息,因此在其他许多研究中得到了应用。在行人重识别中,姿态信息表明了人体的位置,便于研究,在一些子任务中得到了应用,特别是遮挡行人重识别。
发明内容
本发明的目的在于克服上述现有技术的不足,提供了一种基于姿态特征对齐的跨模态行人重识别方法,旨在消除复杂的类内问题带来的干扰,克服模态差异问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种基于姿态特征对齐的跨模态行人重识别方法,包括如下步骤:
S1、获取多张可见光模态图像、多张红外模态图像,并利用获取的图像构建训练集、验证集和测试集;
S2、构建跨模态行人重识别网络,跨模态行人重识别网络包括ResNet50双流网络、姿态估计器、姿态引导特征增强块和第一广义均值池化层;ResNet50双流网络与第一广义均值池化层连接,姿态估计器与姿态引导特征增强块连接;
S3、从训练集中随机选取一张可见光模态图像、一张红外模态图像,并通过数据增广得到一张额外模态图像,将三张不同模态的图像均分别输入到ResNet50双流网络、姿态估计器中,分别得到全局特征图和m个关键点;将全局特征图输入到第一广义均值池化层中,得到全局特征向量,将m个关键点和全局特征图输入到姿态引导特征增强块中,并将姿态引导特征增强块输出结果与全局特征向量进行拼接,得到最终的拼接特征;
S4、构建模态特征对齐学习方法的总体损失函数,利用总体损失函数计算最终的拼接特征xm的总损失,重复S3至S4,直至迭代次数达到设定次数,使用验证集进行验证,选取验证集准确率最好的一组权重作为跨模态行人重识别网络的权重,得到训练后的跨模态行人重识别网络;
S5、使用测试集对训练后的跨模态行人重识别网络进行测试。
进一步地,所述S2中的ResNet50双流网络包括两个不同的零号卷积块、一号卷积块、二号卷积块、三号卷积块和四号卷积块;
两个不同的零号卷积块拼接后依次与一号卷积块、二号卷积块、三号卷积块和四号卷积块连接;
S2中的姿态估计器为预训练后的姿态估计器;
S2中的姿态引导特征增强块包括第二广义均值池化层和与第二广义均值池化层连接的最大池化层,最大池化层为一维最大池化层。
进一步地,所述S3具体包含如下步骤:
S31、从训练集中随机选取一张可见光模态图像、一张红外模态图像,并通过数据增广得到一张额外模态图像,将三张不同模态的图像均分别输入到ResNet50双流网络、姿态估计器中,分别得到全局特征图和人物图像的m个关键点;
S32、将全局特征图输入到第一广义均值池化层中,得到全局特征/>
S33、将m个关键点输入到姿态引导特征增强块中,并利用m个关键点生成以每个提取关键点为中心的二维高斯分布热力图;
S34、将二维高斯分布热力图和S31中的全局特征图做哈达玛积,可以得到每个关键点的姿态引导的局部特征图;
S35、将每个关键点的姿态引导的局部特征图输入到姿态引导特征增强块的第二广义均值池化层中,得到特征向量
S36、将特征向量输入到姿态引导特征增强块的最大池化层中,得到增强的局部特征向量/>并在姿态引导特征增强块中去除噪声;
S37、将去掉噪音的局部特征向量与全局特征/>进行拼接,得到最终的拼接特征xm
进一步地,所述S31中通过数据增广得到一张额外模态图像具体为:
通过随机选择一个通道为可见人物图像引入一个额外的模态,选择的通道可以是红色通道、绿色通道或蓝色通道任意一个,以替代其他通道,得到一张额外模态图像。
进一步地,所述S35采用公式表示具体如下:
其中,GeM(.)表示第一广义均值池化层的池化操作;表示二维高斯分布热力图上第j个位置的热图信号。
进一步地,所述S4中模态特征对齐学习方法的总体损失函数具体如下:
L=Lid1Lfda(V,E,T)+λ2Ltmct3Lic
其中,L为总损失;Lid为身份损失;Lfda(V,E,T)为身份感知特征分布对齐损失;V,E,T分别为可见光特征集、额外模态特征集和红外特征集;Ltmct为三模态中心三元组损失函数;Lic为模态内中心损失;λ1、λ2、λ3分别为身份感知特征分布对齐损失的超参数、三模态中心三元组损失函数的超参数、模态内中心损失的超参数。
进一步地,所述身份损失具体如下:
其中,N为参与计算的样本个数,yi表示样本的身份标签,表示图像/>被识别为其身份标签yi的预测概率输出。
进一步地,所述身份感知特征分布对齐损失具体如下:
Lfda(V,E,T)=Lfda(V,T)+Lfda(E,T)
其中,Lfda(E,T)为额外模块特征集和红外特征集之间的身份感知特征分布对齐损失;
Lfda(V,T)为可见光特征集和红外特征集之间的身份感知特征分布对齐损失;且Lfda(V,T)满足以下关系式:
其中,MMD′2(Vi,Ti)=max[MMD2(Vi,Ti)-ρ1,0]
P表示每个身份的数量;MMD′2(.)指的最大均值差异损失;Vi,Ti分别为第i个身份的可见光特征分布和第i个身份的红外特征分布;ρ1表示超参数。
进一步地,所述三模态中心三元组损失函数具体如下:
其中,ρ2为超参数,并且[·]+=max(·,0),p和n分别表示为正样本和负样本,a≠i表示行人属于不同类别,和/>分别表示为正样本中心和负样本中心;
分别为设定批次中可见光模态的第i个身份的特征中心、设定批次中额外模态的第i个身份的特征中心、设定批次中红外模态的第i个身份的特征中心,且分别满足以下关系式:
其中,K表示特征的数量,v、e、t分别表示可见光模态、额外模态和红外模态;分别表示设定批次中第i个人的第β个可见图像特征、设定批次中第i个人的第β个额外图像特征、设定批次中第i个人的第β个红外图像特征。
进一步地,所述模态内中心损失具体如下:
本发明的有益效果:
本发明提出了一种基于姿态引导模态不变特征对齐学习的跨模态行人重识别方法,以解决可见光和红外模态之间复杂的类内问题以及明显的模态差异问题。本发明利用姿态引导特征增强块来提取人体关键部位特征,可以显著增强特征表示以处理类内干扰,明确引导行人重识别模型学习跨模态一致特征。
在增强特征的基础上,本发明提出了模态特征对齐学习方法(即模态特征对齐学习方法的总体损失函数的建立过程),以缩小模态之间的差距,并强制网络学习模态不变的特征表示,该方法从特征分布对齐和分层聚合两个方面充分解决了该问题。
附图说明
图1为本发明的流程图;
图2为本发明的总体框架图;
图3为本发明的检索结果图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳的实施例。但是,本发明可以通过许多其他不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
本发明的目的在于克服上述现有技术的不足,提供了一种基于姿态特征对齐的跨模态行人重识别方法,姿态引导模态不变特征对齐,旨在消除复杂的类内(即相同行人类别的情况下)问题带来的干扰,克服模态差异问题。通过随机选择一个通道(红色通道R、绿色通道G或蓝色通道B)为可见人物图像引入一个额外的模态,以替代其他通道,这将大大提高输入数据对颜色变化的鲁棒性。因此,获得了带有标签的三种模态人物图像,即其中m1∈{v,t,e}表示可见光模态、红外模态和额外模态,Zm1为输入图像,y为输入图像的标签,N为每个模态的样本数。
如图2所示,本发明采用两分支框架来学习判别特征表示。一方面,将三种不同模态的行人图像输入到姿态估计器模块中,提取关键点,获得姿态信息;同时,这些图像也被输入到一个双流的ResNet50主干网络(即ResNet50双流网络)中以提取全局特征,其中第一个卷积块是不同的,用于捕获特定模态的浅层特征,而深层卷积块是共享的,用于学习模态共享的深层表征。然后引入姿态引导特征增强块,提取增强的局部特征xm k,并在姿态引导的特征增强模块中去除噪声。之后,最终的特征表示(即最终的拼接特征)xm是全局特征和增强的局部特征的融合。在最终特征表示的基础上,本发明引入了模态特征对齐学习方法,其中设计了身份感知特征分布对齐损失和分层聚合策略损失,以减少不同模态之间的分歧。
参照图1和图2,具体的,本申请实施例提供了一种基于姿态特征对齐的跨模态行人重识别方法,包括如下步骤:
S1、获取多张可见光模态图像、多张红外模态图像,并利用获取的图像构建训练集、验证集和测试集;
S2、构建跨模态行人重识别网络,跨模态行人重识别网络包括ResNet50双流网络、姿态估计器、姿态引导特征增强块和第一广义均值池化层;ResNet50双流网络与第一广义均值池化层连接,姿态估计器与姿态引导特征增强块连接;
本发明设计了姿态引导特征增强块(即姿态引导特征增强块),提取不同模态下的细粒度局部特征。姿态引导特征增强块在以下几个方面对模型有好处:它提供了身体部位的注意力图谱,可使模型集中注意在信息量大且可靠的身体区域,并过滤由姿态变化、视点变化和背景变化等引起的噪声特征。通过姿态引导特征增强块提取关键的细粒度特征,作为全局特征的补充,提高模型的识别能力,明确地引导模型学习同一人的跨模态一致性特征。通过引入该模块,可以得到一个鲁棒的特征向量,用于进一步的模态对齐学习。
S3、从训练集中随机选取一张可见光模态图像、一张红外模态图像,并通过数据增广得到一张额外模态图像,将三张不同模态的图像均分别输入到ResNet50双流网络、姿态估计器中,分别得到全局特征图和m个关键点;将全局特征图输入到第一广义均值池化层中,得到全局特征向量,将m个关键点和全局特征图输入到姿态引导特征增强块中,并将姿态引导特征增强块输出结果与全局特征向量进行拼接,得到最终的拼接特征;
S4、对跨模态行人重识别网络进行模态特征对齐学习;
具体的,构建模态特征对齐学习方法的总体损失函数,利用总体损失函数计算最终的拼接特征xm的总损失,重复S3至S4,直至迭代次数达到设定次数,使用验证集进行验证,选取验证集准确率最好的一组权重作为跨模态行人重识别网络的权重,得到训练后的跨模态行人重识别网络;
S5、使用测试集对训练后的跨模态行人重识别网络进行测试。
在一些实施例中,所述S2中的ResNet50双流网络包括两个不同的零号卷积块、一号卷积块、二号卷积块、三号卷积块和四号卷积块;
两个不同的零号卷积块拼接后依次与一号卷积块、二号卷积块、三号卷积块和四号卷积块依次连接;
S2中的姿态估计器为预训练后的姿态估计器;
S2中的姿态引导特征增强块包括第二广义均值池化层和与第二广义均值池化层连接的最大池化层,最大池化层为一维最大池化层。
广义平均池化是一种将广义池化和平均池化结合起来的方法。它主要是通过计算卷积核在输入特征图上滑动时所覆盖区域的加权均值来得到输出特征图中的每一个点。其中,加权系数可以通过学习得到,也可以手动设置。这里使用广义平均池化,而不是被广泛使用的最大池化或平均池化。由于与这两种池化方法相比,广义平均池化概括了这两种池化方案,并捕获了特定领域的判别特征。
在一些实施例中,所述S3具体包含如下步骤:
S31、从训练集中随机选取一张可见光模态图像、一张红外模态图像,并通过数据增广得到一张额外模态图像,将三张不同模态的图像均分别输入到ResNet50双流网络、姿态估计器中,分别得到全局特征图和人物图像k={pj|j=1,2,…,m}的m个关键点;其中m=14;人物图像即带有标签的三种模态人物图像;
S32、将全局特征图输入到第一广义均值池化层(Generalized Mean Pooling,GeM)中,得到全局特征/>
S33、将m个关键点输入到姿态引导特征增强块中,并利用m个关键点生成以每个提取关键点为中心的二维高斯分布热力图;
S34、将二维高斯分布热力图和S31中的全局特征图做哈达玛积,可以得到每个关键点的姿态引导的局部特征图;
S35、将每个关键点的姿态引导的局部特征图输入到姿态引导特征增强块的第二广义均值池化层中,得到一个2048维的特征向量它对应于行人的特定局部特征;
S36、将特征向量输入到姿态引导特征增强块的最大池化层中,得到增强的局部特征向量/>使特征向量融合身体各部位信息,忽略冗余的局部信息。需要注意的是,这里应用了一个一维自适应最大池化操作,将n个2048维向量投影组合成一个2048维向量/>并在姿态引导特征增强块中去除噪声;
S37、将去掉噪音的局部特征向量与全局特征/>进行拼接,得到最终的拼接特征xm
在一些实施例中,所述S31中通过数据增广得到一张额外模态图像具体为:
通过随机选择一个通道为可见人物图像引入一个额外的模态,选择的通道可以是红色通道、绿色通道或蓝色通道任意一个,以替代其他通道,得到一张额外模态图像。这将大大提高输入数据对颜色变化的鲁棒性。因此,获得了带有标签的三种模态人物图像;即
在一些实施例中,所述S35采用公式表示具体如下:
其中,GeM(.)表示第一广义均值池化层的池化操作;表示二维高斯分布热力图上第j个位置的热图信号,且/>其中C’、H’、W’分别表示通道数、高度、宽度。
在一些实施例中,所述S4中模态特征对齐学习方法的总体损失函数具体如下:
L=Lid1Lfda(V,E,T)+λ2Ltmct3Lic
其中,L为总损失;Lid为身份损失;Lfda(V,E,T)为身份感知特征分布对齐损失;V,E,T分别为可见光特征集、额外模态特征集和红外特征集;Ltmct为三模态中心三元组损失函数;Lic为模态内中心损失;λ1、λ2、λ3分别为身份感知特征分布对齐损失的超参数、三模态中心三元组损失函数的超参数、模态内中心损失的超参数。
在一些实施例中,本发明结合了身份损失来共同优化姿态引导模态不变特征对齐算法。身份损失将所有模态中身份标签相同的图像视为同一类。本发明采用了交叉熵来计算身份损失,所述身份损失具体如下:
其中,N为参与计算的样本个数,yi表示样本的身份标签,表示图像/>被识别为其身份标签yi的预测概率输出。
在一些实施例中,本发明进一步对齐了额外模态和红外模态之间的特征分布,以减少模态分歧,学习模态不变特征。额外模态图像保留了结构信息,忽略了可见光模态的颜色信息,从而减小了额外模态与红外模态之间的分布距离,可以进一步使网络挖掘结构关系,对颜色变化具有更强的鲁棒性,从而进一步缩小了可见光模态与红外模态之间的差距。因此,可以得到一个总的身份感知特征分布对齐损失;所述身份感知特征分布对齐损失具体如下:
Lfda(V,E,T)=Lfda(V,T)+Lfda(E,T)
其中,Lfda(E,T)为额外模块特征集和红外特征集之间的身份感知特征分布对齐损失;
Lfda(V,T)为可见光特征集和红外特征集之间的身份感知特征分布对齐损失;且Lfda(V,T)满足以下关系式:
其中,MMD′2(Vi,Ti)=max[MMD2(Vi,Ti)-ρ1,0]
MMD2(V,T)=EV[k(xv,xv′)]+ET[k(xt,xt′)]-2EV,T[k(xv,xt)] (1)
P表示每个身份的数量;MMD′2(.)指的是最大均值差异损失;Vi,Ti分别为第i个身份的可见光特征分布和第i个身份的红外特征分布,i是加了行人标签的一个限制条件,是一个身份标签内的两个模态特征分布去对齐;ρ1表示超参数,它可以控制分布对齐的数量,从而保持两种不同模态之间的平衡;
公式(1)中前两项分别是来自同一模态的样本的核相似度,即分别来自可见光模态和红外模态,第三项计算样本在可见光模态和红外模态上的核相似度。通过最小化最大均值差异损失,跨模态相似度尽可能接近同一模态相似度,从而使两个分布保持一致。考虑到身份条件并保留身份判别性质,本发明使用了改进版本的最大均值差异。
本发明采用广泛使用的领域差异度量最大均值差异(Maximum MeanDiscrepancy,MMD)来对齐异构特征分布,它将两个分布的高阶矩相匹配,并有效地确定两个分布之间的距离。最大均值差异是一种检验统计量,它通过将两个分布嵌入到再生核希尔伯特空间中来测量两个分布的差异。
在一些实施例中,本发明提出了一种分层聚合策略,该策略由两个函数组成:三模态中心三元组损失函数和模态内中心损失函数。三模态中心三元组损失函数增加了类间距离,减少了欧几里得空间中的类内距离。在一个小批次中,计算每个模态中每个类的特征的中心;所述三模态中心三元组损失函数具体如下:
其中,ρ2为超参数,并且[•]+=max(•,0),p和n分别表示为正样本和负样本,a≠i表示行人属于不同类别,和/>分别表示为正样本中心和负样本中心;
分别为小批次中可见光模态的第i个身份的特征中心、小批次中额外模态的第i个身份的特征中心、小批次中红外模态的第i个身份的特征中心,且分别满足以下关系式:
其中,K表示特征的数量,v、e、t分别表示可见光模态、额外模态和红外模态;分别表示小批次中第i个人的第β个可见图像特征、小批次中第i个人的第β个额外图像特征、小批次中第i个人的第β个红外图像特征。
虽然三模态中心三元组损失和特征分布对齐损失都能拉近两个模态之间的距离,但后者在统计上匹配所有高阶矩,在模态特征分布对齐方面更强,而三模态中心三元组损失却能保证所有模态中类间特征可区分的性质。
在本实施例中,本发明提出了模态内中心损失来减少相同行人特征在一个模态内的绝对距离,所述模态内中心损失具体如下:
分层聚合策略充分考虑了同一身份内不同模态实例存在巨大差异的情况。它首先采用基于中心的三元组约束来保证类间分离,并通过聚合一个模态内相同身份的每个实例来进一步处理异常情况的发生,这充分考虑了模态内和模态间的约束。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。并且,本发明各个实施方式之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.基于姿态特征对齐的跨模态行人重识别方法,其特征在于,包括如下步骤:
S1、获取多张可见光模态图像、多张红外模态图像,并利用获取的图像构建训练集、验证集和测试集;
S2、构建跨模态行人重识别网络,跨模态行人重识别网络包括ResNet50双流网络、姿态估计器、姿态引导特征增强块和第一广义均值池化层;ResNet50双流网络与第一广义均值池化层连接,姿态估计器与姿态引导特征增强块连接;
S3、从训练集中随机选取一张可见光模态图像、一张红外模态图像,并通过数据增广得到一张额外模态图像,将三张不同模态的图像均分别输入到ResNet50双流网络、姿态估计器中,分别得到全局特征图和m个关键点;将全局特征图输入到第一广义均值池化层中,得到全局特征向量,将m个关键点和全局特征图输入到姿态引导特征增强块中,并将姿态引导特征增强块输出结果与全局特征向量进行拼接,得到最终的拼接特征;
S4、构建模态特征对齐学习方法的总体损失函数,利用总体损失函数计算最终的拼接特征xm的总损失,重复S3至S4,直至迭代次数达到设定次数,使用验证集进行验证,选取验证集准确率最好的一组权重作为跨模态行人重识别网络的权重,得到训练后的跨模态行人重识别网络;
S5、使用测试集对训练后的跨模态行人重识别网络进行测试。
2.根据权利要求1所述的跨模态行人重识别方法,其特征在于,所述S2中的ResNet50双流网络包括两个不同的零号卷积块、一号卷积块、二号卷积块、三号卷积块和四号卷积块;
两个不同的零号卷积块拼接后依次与一号卷积块、二号卷积块、三号卷积块和四号卷积块连接;
S2中的姿态估计器为预训练后的姿态估计器;
S2中的姿态引导特征增强块包括第二广义均值池化层和与第二广义均值池化层连接的最大池化层,最大池化层为一维最大池化层。
3.根据权利要求1所述的跨模态行人重识别方法,其特征在于,所述S3具体包含如下步骤:
S31、从训练集中随机选取一张可见光模态图像、一张红外模态图像,并通过数据增广得到一张额外模态图像,将三张不同模态的图像均分别输入到ResNet50双流网络、姿态估计器中,分别得到全局特征图和人物图像的m个关键点;
S32、将全局特征图输入到第一广义均值池化层中,得到全局特征/>
S33、将人物图像的m个关键点输入到姿态引导特征增强块中,并利用m个关键点生成以每个提取关键点为中心的二维高斯分布热力图;
S34、将二维高斯分布热力图和S31中的全局特征图做哈达玛积,可以得到每个关键点的姿态引导的局部特征图;
S35、将每个关键点的姿态引导的局部特征图输入到姿态引导特征增强块的第二广义均值池化层中,得到特征向量
S36、将特征向量输入到姿态引导特征增强块的最大池化层中,得到增强的局部特征向量/>并在姿态引导特征增强块中去除噪声;
S37、将去掉噪音的局部特征向量与全局特征/>进行拼接,得到最终的拼接特征xm
4.根据权利要求3所述的跨模态行人重识别方法,其特征在于,所述S31中通过数据增广得到一张额外模态图像具体为:
通过随机选择一个通道为可见人物图像引入一个额外的模态,选择的通道可以是红色通道、绿色通道或蓝色通道任意一个,以替代其他通道,得到一张额外模态图像。
5.根据权利要求3所述的跨模态行人重识别方法,其特征在于,所述S35采用公式表示具体如下:
其中,GeM(.)表示第一广义均值池化层的池化操作;表示二维高斯分布热力图上第j个位置的热图信号。
6.根据权利要求5所述的跨模态行人重识别方法,其特征在于,所述S4中模态特征对齐学习方法的总体损失函数具体如下:
L=Lid1Lfda(V,E,T)+λ2Ltmct3Lic
其中,L为总损失;Lid为身份损失;Lfda(V,E,T)为身份感知特征分布对齐损失;V,E,T分别为可见光特征集、额外模态特征集和红外特征集;Ltmct为三模态中心三元组损失函数;Lic为模态内中心损失;λ1、λ2、λ3分别为身份感知特征分布对齐损失的超参数、三模态中心三元组损失函数的超参数、模态内中心损失的超参数。
7.根据权利要求6所述的跨模态行人重识别方法,其特征在于,所述身份损失具体如下:
其中,N为参与计算的样本个数,yi表示样本的身份标签,表示图像/>被识别为其身份标签yi的预测概率输出。
8.根据权利要求7所述的跨模态行人重识别方法,其特征在于,所述身份感知特征分布对齐损失具体如下:
Lfda(V,E,T)=Lfda(V,T)+Lfda(E,T)
其中,Lfda(E,T)为额外模块特征集和红外特征集之间的身份感知特征分布对齐损失;
Lfda(V,T)为可见光特征集和红外特征集之间的身份感知特征分布对齐损失;且Lfda(V,T)满足以下关系式:
其中,MMD′2(Vi,Ti)=max[MMD2(Vi,Ti)-ρ1,0]
P表示每个身份的数量;MMD′2(.)指的最大均值差异损失;Vi,Ti分别为第i个身份的可见光特征分布和第i个身份的红外特征分布;ρ1表示超参数。
9.根据权利要求8所述的跨模态行人重识别方法,其特征在于,所述三模态中心三元组损失函数具体如下:
其中,ρ2为超参数,并且[·]+=max(·,0),p和n分别表示为正样本和负样本,a≠i表示行人属于不同类别,和/>分别表示为正样本中心和负样本中心;
分别为设定批次中可见光模态的第i个身份的特征中心、设定批次中额外模态的第i个身份的特征中心、设定批次中红外模态的第i个身份的特征中心,且分别满足以下关系式:
其中,K表示特征的数量,v、e、t分别表示可见光模态、额外模态和红外模态;分别表示设定批次中第i个人的第β个可见图像特征、设定批次中第i个人的第β个额外图像特征、设定批次中第i个人的第β个红外图像特征。
10.根据权利要求9所述的跨模态行人重识别方法,其特征在于,所述模态内中心损失具体如下:
CN202311433431.2A 2023-10-31 2023-10-31 基于姿态特征对齐的跨模态行人重识别方法 Pending CN117333908A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311433431.2A CN117333908A (zh) 2023-10-31 2023-10-31 基于姿态特征对齐的跨模态行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311433431.2A CN117333908A (zh) 2023-10-31 2023-10-31 基于姿态特征对齐的跨模态行人重识别方法

Publications (1)

Publication Number Publication Date
CN117333908A true CN117333908A (zh) 2024-01-02

Family

ID=89279259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311433431.2A Pending CN117333908A (zh) 2023-10-31 2023-10-31 基于姿态特征对齐的跨模态行人重识别方法

Country Status (1)

Country Link
CN (1) CN117333908A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117576786A (zh) * 2024-01-16 2024-02-20 北京大学深圳研究生院 基于视觉语言模型的三维人体行为识别网络训练方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117576786A (zh) * 2024-01-16 2024-02-20 北京大学深圳研究生院 基于视觉语言模型的三维人体行为识别网络训练方法
CN117576786B (zh) * 2024-01-16 2024-04-16 北京大学深圳研究生院 基于视觉语言模型的三维人体行为识别网络训练方法

Similar Documents

Publication Publication Date Title
CN108520535B (zh) 基于深度恢复信息的物体分类方法
Wang et al. Large-scale isolated gesture recognition using convolutional neural networks
CN107145842B (zh) 结合lbp特征图与卷积神经网络的人脸识别方法
CN109063649B (zh) 基于孪生行人对齐残差网络的行人重识别方法
CN106570491A (zh) 一种机器人智能互动的方法及智能机器人
CN107424161B (zh) 一种由粗至精的室内场景图像布局估计方法
Zheng et al. Attention-based spatial-temporal multi-scale network for face anti-spoofing
CN110163117B (zh) 一种基于自激励判别性特征学习的行人重识别方法
CN112580590A (zh) 一种基于多语义特征融合网络的指静脉识别方法
CN105335719A (zh) 活体检测方法及装置
Huang et al. Joint cross-modal and unimodal features for RGB-D salient object detection
CN111539255A (zh) 基于多模态图像风格转换的跨模态行人重识别方法
CN110046544A (zh) 基于卷积神经网络的数字手势识别方法
CN112149538A (zh) 一种基于多任务学习的行人重识别方法
Liu et al. Attentive cross-modal fusion network for RGB-D saliency detection
CN112036260A (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN117333908A (zh) 基于姿态特征对齐的跨模态行人重识别方法
Xia et al. Face occlusion detection using deep convolutional neural networks
CN114299542A (zh) 一种基于多尺度特征融合的视频行人重识别方法
CN110751027A (zh) 一种基于深度多示例学习的行人重识别方法
Yang et al. A Face Detection Method Based on Skin Color Model and Improved AdaBoost Algorithm.
CN112200110A (zh) 一种基于深度干扰分离学习的人脸表情识别方法
CN116798070A (zh) 一种基于光谱感知和注意力机制的跨模态行人重识别方法
CN115830643A (zh) 一种姿势引导对齐的轻量行人重识别方法
CN114529842B (zh) 一种基于知识引导下双向注意力机制的人物交互检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination