CN112434796B - 一种基于局部信息学习的跨模态行人再识别方法 - Google Patents

一种基于局部信息学习的跨模态行人再识别方法 Download PDF

Info

Publication number
CN112434796B
CN112434796B CN202011426416.1A CN202011426416A CN112434796B CN 112434796 B CN112434796 B CN 112434796B CN 202011426416 A CN202011426416 A CN 202011426416A CN 112434796 B CN112434796 B CN 112434796B
Authority
CN
China
Prior art keywords
training
cross
identification
loss function
pedestrian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011426416.1A
Other languages
English (en)
Other versions
CN112434796A (zh
Inventor
黄德双
伍永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202011426416.1A priority Critical patent/CN112434796B/zh
Publication of CN112434796A publication Critical patent/CN112434796A/zh
Priority to US17/411,007 priority patent/US11836224B2/en
Application granted granted Critical
Publication of CN112434796B publication Critical patent/CN112434796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • G06V10/7515Shifting the patterns to accommodate for positional errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于局部信息学习的跨模态行人再识别方法,包括:获取标准数据集,并对标准数据集进行数据增强;将数据增强后的标准数据集划分为训练集和测试集;基于双流ResNet50卷积神经网络架构,构建跨模态行人再识别训练网络;将训练集输入跨模态行人再识别训练网络,通过训练得到跨模态行人再识别测试网络;从测试集中随机选取一张待查询图像,将待查询图像以及测试集中的候选数据库输入跨模态行人再识别测试网络,得到待查询图像对应的识别精度值。与现有技术相比,本发明通过有效提取不同模态图像之间的特定特征、对特定特征进行中高层特征联合学习以得到共享特征,能够减小RGB与红外两种模态之间的差异性、提高跨模态行人再识别的识别精度。

Description

一种基于局部信息学习的跨模态行人再识别方法
技术领域
本发明涉及计算机模式识别图像处理技术领域,尤其是涉及一种基于局部信息学习的跨模态行人再识别方法。
背景技术
行人再识别(Person Re-identification,PReID)是运用计算机视觉以及度量学习等方法,用来判断图像或者视频序列中是否在跨摄像机下出现某特定行人的图像检索技术,由于该技术能够在智能视觉监控和预防犯罪应用中发挥巨大作用,因此被受到广泛关注,随着深度学习技术的兴起,行人再识别技术在某些限定的条件下取得了较高的识别精度,但仍面临着行人图像的视角不同、姿态不同、遮挡、光照条件、背景干扰等难题。
现有的行人再识别技术大多是基于可见光摄像机所拍摄的同一类型的RGB数据,然而在实际生活中,可见光摄像机在条件有限的室内环境或光线不足的黑夜里无法获取行人的外观特征,导致识别结果准确度较低。因此,目前有研究结合可见光摄像机及红外摄像机进行跨模态行人再识别,与单模态行人再识别技术不同的是,可见光-红外跨模态行人再识别技术不仅存在视角、姿态变化等难题,而且也面临着两种模态图像的成像特点带来的巨大差异难题,因为可见光摄像机拍摄的是RGB图像,而红外摄像机拍摄的是红外图像,RGB图像有3个含有颜色信息的通道,没有行人的红外特征;而红外图像数据只有1个通道,没有颜色等重要特征,并且两种模态图像的波长范围也不同,使得跨模态行人再识别工作愈加困难。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于局部信息学习的跨模态行人再识别方法,通过有效提取不同模态图像之间的特定特征及共享特征,从而提高行人再识别的识别精度。
本发明的目的可以通过以下技术方案来实现:一种基于局部信息学习的跨模态行人再识别方法,包括以下步骤:
S1、获取标准数据集,并对标准数据集进行数据增强,其中,标准数据集内包含多个行人类别数据,每个行人类别数据包括多张RGB图像及多张红外图像;
S2、将数据增强后的标准数据集划分为训练集和测试集;
S3、基于双流ResNet50卷积神经网络架构,构建跨模态行人再识别训练网络,其中,跨模态行人再识别训练网络包括依次连接的自注意力学习模块、局部特征联合学习模块和损失函数训练模块;
S4、将训练集输入跨模态行人再识别训练网络,通过训练得到跨模态行人再识别测试网络;
S5、从测试集中随机选取一张待查询图像,将待查询图像以及测试集中的候选数据库输入跨模态行人再识别测试网络,得到待查询图像对应的识别精度值。
进一步地,所述步骤S1中数据增强具体是对图像依次进行水平翻转以及随机裁剪处理。
进一步地,所述步骤S3具体包括以下步骤:
S31、在双流ResNet50卷积神经网络的第二阶段输出和第三阶段输出位置分别嵌入自注意力学习模块,所述自注意力学习模块用于提取RGB图像以及红外图像的位置信息、捕获局部细节特征,以增强RGB图像和红外图像各自的特定特征表达;
S32、将双流ResNet50卷积神经网络的第三阶段输出及第四阶段输出连接至局部特征联合学习模块,所述局部特征联合学习模块用于进一步捕获RGB图像以及红外图像的局部细节特征,以进行中高层局部特征拼接,得到局部特征拼接块;
S33、将局部特征联合学习模块连接至损失函数训练模块,利用损失函数训练模块对局部特征拼接块进行训练和学习,以增强RGB图像和红外图像的共享特征表达,至此构建得到跨模态行人再识别训练网络。
进一步地,所述自注意力学习模块包括空洞卷积单元、通道重排单元以及批归一化处理单元。
进一步地,所述自注意力学习模块的具体表达式为:
F1=Fla(D1(X))
F2=Fla(D2(X))
F3=Per(F2)
Figure BDA0002825034350000031
Figure BDA0002825034350000032
Figure BDA0002825034350000033
其中,X为输入的特征图,其维度大小为(C,H,W);
Fla表示将多维数据进行一维化操作,D1和D2表示卷积核大小为3×3的空洞卷积,F1和F2表示经过卷积和一维化后得到的特征图,其维度为(1,H×W);
Per表示通道重排处理,F3是将F2进行通道重排后得到的特征图,其维度大小为(H×W,1);
Figure BDA0002825034350000034
表示张量相乘,将特征图F3与F1进行相乘得到S,特征图S的大小为(H×W,H×W);
GAP表示全局平均池化运算,
Figure BDA0002825034350000035
表示张量加法运算,Conv1×1表示卷积核大小为1×1的卷积操作,M是经过多次处理后的特征图,其维度大小为(H×W,1);
F为输出的特征图,其维度大小为(C,H,W)。
进一步地,所述局部特征联合学习模块包括平均池化单元、空间维度切分单元以及局部特征拼接单元,所述平均池化单元用于对第三阶段和第四阶段的输出进行平均池化运算,以分别得到第三阶段和第四阶段对应的特征图;
所述空间维度切分单元用于对第三阶段和第四阶段对应的特征图进行空间维度切分,以分别得到第三阶段和第四阶段对应的局部特征块;
所述局部特征拼接单元用于将第三阶段和第四阶段对应的局部特征块进行拼接,以得到局部拼接块。
进一步地,所述损失函数训练模块采用交叉熵损失函数以及异质中心损失函数联合进行训练。
进一步地,所述损失函数训练模块的具体表达式为:
Figure BDA0002825034350000036
Li=LCE+λLHC
其中,LAll为损失函数训练模块的整体训练损失函数,Li为第i个局部拼接块对应的训练损失函数,P为局部拼接块的总个数,LCE为交叉熵损失函数,LHC为异质中心损失函数。
进一步地,所述交叉熵损失函数具体为:
Figure BDA0002825034350000041
其中,LCE为交叉熵损失函数,N为一次训练所选取的样本数,M为总的类别数,xn为训练集中类别yn中第n个样本提取的特征,
Figure BDA0002825034350000045
为类别yn中第n个样本的权重,
Figure BDA0002825034350000046
为类别yn中第n个样本的偏置,Wm为训练集中类别m的权重,bm为类别m的偏置。
进一步地,所述异质中心损失函数具体为:
Figure BDA0002825034350000042
Figure BDA0002825034350000043
Figure BDA0002825034350000044
其中,LHC为异质中心损失函数,Ca,1和Ca,2分别为类别a中可见光模态和红外模态的特征分布中心,V和T分别为类别a中RGB图像的数量和红外图像的数量,Xa,1,b和Xa,2,b分别为类别a中第b张RGB图像和红外图像。
与现有技术相比,本发明具有以下优点:
一、本发明基于双流ResNet50卷积神经网络架构,构建得到跨模态行人再识别网络,通过分别学习和提取RGB图像和红外图像两种模态的特定特征,再将特定特征经过局部特征联合学习、损失函数训练,以学习和提取不同模态数据的共享特征,从而减小RGB图像和红外图像两种模态数据之间的差异性,提高跨模态行人再识别的识别准确度。
二、本发明通过在双流ResNet50卷积神经网络中第二阶段和第三阶段输出分别嵌入自注意力学习模块,利用自注意力学习模块来获取行人的局部区域和内容信息,增强两种模态行人图像中特定特征的表达能力,具体是通过空洞卷积,通道重排以及批归一化处理,以获取两种模态图像中具有判别力的位置信息,从而提升两种模态中特定特征的表征能力,以此提高后续识别结果的精度。
三、本发明通过将双流ResNet50卷积神经网络的第三阶段输出及第四阶段输出连接至局部特征联合学习模块,并将局部特征联合学习模块连接至损失函数训练模块,利用局部特征联合学习模块进行中高层局部特征拼接,结合中高层特征联合学习策略以及交叉熵损失与异质中心损失融合的训练方式,有利于缓解关于目标行人的判别性特征的丢失问题,不仅能关注不同模态行人的全局信息,更能加强对局部特征的提取能力,增强两种模态的共享特征能力的表达,有利于进一步提升跨模态行人再识别的识别准确度。
附图说明
图1为本发明的方法流程示意图;
图2为实施例中跨模态行人再识别测试网络的结构示意图;
图3为自注意力学习模块的工作原理示意图;
图4为局部特征联合学习的工作原理示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种基于局部信息学习的跨模态行人再识别方法,包括以下步骤:
S1、获取标准数据集,并对标准数据集进行数据增强,其中,标准数据集内包含多个行人类别数据,每个行人类别数据包括多张RGB图像及多张红外图像;
数据增强则具体是对图像进行水平翻转和随机剪裁处理;
S2、将数据增强后的标准数据集划分为训练集和测试集;
S3、基于双流ResNet50卷积神经网络架构,构建跨模态行人再识别训练网络,其中,跨模态行人再识别训练网络包括依次连接的自注意力学习模块、局部特征联合学习模块和损失函数训练模块,具体的,首先在双流ResNet50卷积神经网络的第二阶段输出和第三阶段输出位置分别嵌入自注意力学习模块,自注意力学习模块用于提取RGB图像以及红外图像的位置信息、捕获局部细节特征,以增强RGB图像和红外图像各自的特定特征表达;
之后将双流ResNet50卷积神经网络的第三阶段输出及第四阶段输出连接至局部特征联合学习模块,局部特征联合学习模块用于进一步捕获RGB图像以及红外图像的局部细节特征,以进行中高层局部特征拼接,得到局部特征拼接块;
最后将局部特征联合学习模块连接至损失函数训练模块,利用损失函数训练模块对局部特征拼接块进行训练和学习,以增强RGB图像和红外图像的共享特征表达,至此构建得到跨模态行人再识别训练网络;
本实施例中,跨模态行人再识别网络结构如图2所示,一个ResNet50支流用于提取RGB图像数据的特征,另一支流用于红外图像数据的特征提取,在各支流ResNet50的特征提取过程中的阶段2(Stage 2),阶段3(Stage 3)分别嵌入自注意力学习模块,以分别捕获两种模态图像的位置特征和内容信息,增强各自特定特征的表达能力;
再将第3阶段(Stage 3)和第4阶段(Stage 4)的特征图进行平均池化(AP)运算,将池化后的特征图进行空间维度切分,本实施例将第3阶段的特征图切分成6份、将第4阶段的特征图切分成2份,一共得到共8份含有可见光特征和红外特征的局部特征块,最后采用中高层局部特征联合学习策略,将第3阶段的中层局部特征和第4阶段的高层局部特征进行局部特征的拼接,得到局部特征拼接块;
最后采用交叉熵损失和异质中心损失联合训练,以此来学习和提取两种模态数据的共享特征;
S4、将训练集输入跨模态行人再识别训练网络,通过训练得到跨模态行人再识别测试网络;
S5、从测试集中随机选取一张待查询图像,将待查询图像以及测试集中的候选数据库输入跨模态行人再识别测试网络,得到待查询图像对应的识别精度值,在实际应用中,具体是按照设置的测试模式进行学习测试,其中测试模式包含两种:1、待查询图像为RGB图像,则候选数据库中的图像均为红外图像,即将候选数据库内的红外图像依次与待查询的RGB图像进行匹配计算;2、待查询图像为红外图像,则候选数据库中的图像均为RGB图像,即将候选数据库内的RGB图像依次与待查询的红外图像进行匹配计算。
具体的,在步骤S3构建跨模态行人再识别训练网络时,其中的自注意力模块是由空洞卷积,通道重排以及批归一化处理三部分组成,用于获取两种模态图像中具有判别力的位置信息,提升两种模态中特定特征的表征能力。自注意力学习模块的工作原理如图3所示,其目的是捕获局部信息和长距离依赖关系,提取目标行人的位置特征和内容信息,包括两层空洞卷积层,一层1*1卷积层,一层全局平均池化层,首先对维度为(C,H,W)的输入特征图X进行两层空洞卷积运算:
F1=Fla(D1(X))
F2=Fla(D2(X)
F3=Per(F2)
其中,
Figure BDA0002825034350000071
D1和D2分别表示3*3大小的空洞卷积运算,Fla表示将得到的多维特征图一维化,Per为通道重排操作;
再通过矩阵乘法来获取特征图长距离依赖关系以及局部的位置特征:
Figure BDA0002825034350000072
其中,
Figure BDA0002825034350000073
对提取到的特征F3再次进行GAP运算,对判别性信息重新聚合:
Figure BDA0002825034350000074
最后输出特征图:
Figure BDA0002825034350000075
其中,
Figure BDA0002825034350000076
表示张量加法运算,Conv1×1表示卷积核大小为1×1的卷积操作,M是经过多次处理后的特征图,其维度大小为(H×W,1)。
对于局部特征联合学习模块和损失函数训练模块,两者基于局部特征联合学习策略,如图4所示,主要是将双流ResNet50网络的第三阶段以及第四阶段先进行平均池化运算,再将得到的特征图进行空间切分,之后将双流切分后的特征进行拼接,并输入到损失函数训练模块中进行学习和训练,以此获取两种模态的行人图像的局部的、细节性的特征,增强两种模态图像的共享特征的表达能力,从而提升整个行人再识别网络的识别性能和泛化能力。损失函数训练模块具体采用交叉熵损失函数以及异质中心损失函数联合进行训练,以尽可能地去实现类间差异的判别和类内跨模态相似性度量:
Figure BDA0002825034350000077
Li=LCE+λLHC
其中,LAll为损失函数训练模块的整体训练损失函数,Li为第i个局部拼接块对应的训练损失函数,P为局部拼接块的总个数,本实施例中,P=8,i∈{1,2,3,…,8},LCE为交叉熵损失函数,LHC为异质中心损失函数。
对于交叉熵损失函数,和一般分类任务所用损失函数相同:
Figure BDA0002825034350000078
其中,LCE为交叉熵损失函数,N为一次训练所选取的样本数,M为总的类别数,xn为训练集中类别yn中第n个样本提取的特征,
Figure BDA0002825034350000086
为类别yn中第n个样本的权重,
Figure BDA0002825034350000087
为类别yn中第n个样本的偏置,Wm为训练集中类别m的权重,bm为类别m的偏置。
对于异质中心损失函数,通过约束两个异质模态之间的类内中心距离来监督网络学习跨模态信息:
Figure BDA0002825034350000081
Figure BDA0002825034350000082
Figure BDA0002825034350000083
其中,LHC为异质中心损失函数,Ca,1和Ca,2分别为类别a中可见光模态和红外模态的特征分布中心,V和T分别为类别a中RGB图像的数量和红外图像的数量,Xa,1,b和Xa,2,b分别为类别a中第b张RGB图像和红外图像。
本实施例中,网络训练过程中的训练参数包括:训练总周期(epoch)设置为60,批量大小(batch size)为64,学习率更新方式为:
Figure BDA0002825034350000084
采用本发明提出的方法,本实施例在RegDB跨模态数据集上与其他识别方法进行比较,得到对应识别结果如表1所示:
表1
Figure BDA0002825034350000085
Figure BDA0002825034350000091
表1中,Visible to Thermal表示待查询图像为RGB图像,候选数据库的图像均为红外图像;Thermal to Visible表示待查询图像是红外图像,候选数据库的图像均为RGB图像,从表1的数据可知,采用本发明提出的行人再识别方法,其Rank-1正确率值和mAP值均优于现有的其他识别方法,表明本发明不仅能够关注到不同模态行人的全局信息,更能加强对局部特征的提取能力,增强两种模态的特定特征以及共享特征能力的表达,从而提升跨模态行人再识别的识别精度。
综上所述,本发明考虑到解决跨模态行人再识别的关键点在于特征提取和度量学习,而如何有效提取不同模态图像之间有判别性、精细的特定特征和共享特征,则成为跨模态行人再识别技术的重点和难点,因此提出一种基于局部信息学习的跨模态行人再识别方法,通过融合自注意力和局部特征联合学习,设计了一种简单有效的自注意力学习模块,通过较大感受野的采样机制,能够学习到两种模态图像中具有判别力的位置特征和内容信息,从而增强特定特征的表达能力、提升跨模态行人再识别的识别性能;
采用中高层特征联合学习策略,注重骨干网络中各阶段的特征的重要性,有利于缓解关于目标行人的判别性特征的丢失问题,本发明在训练或学习过程中,采用中高层局部特征联合训练策略,不仅能关注不同模态行人的全局信息,更能加强对局部特征的提取能力,增强两种模态的共享特征能力的表达,从而有利于提升跨模态行人再识别的识别性能。

Claims (6)

1.一种基于局部信息学习的跨模态行人再识别方法,其特征在于,包括以下步骤:
S1、获取标准数据集,并对标准数据集进行数据增强,其中,标准数据集内包含多个行人类别数据,每个行人类别数据包括多张RGB图像及多张红外图像;
S2、将数据增强后的标准数据集划分为训练集和测试集;
S3、基于双流ResNet50卷积神经网络架构,构建跨模态行人再识别训练网络,其中,跨模态行人再识别训练网络包括依次连接的自注意力学习模块、局部特征联合学习模块和损失函数训练模块;
S4、将训练集输入跨模态行人再识别训练网络,通过训练得到跨模态行人再识别测试网络;
S5、从测试集中随机选取一张待查询图像,将待查询图像以及测试集中的候选数据库输入跨模态行人再识别测试网络,得到待查询图像对应的识别精度值;
所述步骤S3具体包括以下步骤:
S31、在双流ResNet50卷积神经网络的第二阶段输出和第三阶段输出位置分别嵌入自注意力学习模块,所述自注意力学习模块用于提取RGB图像以及红外图像的位置信息、捕获局部细节特征,以增强RGB图像和红外图像各自的特定特征表达;
S32、将双流ResNet50卷积神经网络的第三阶段输出及第四阶段输出连接至局部特征联合学习模块,所述局部特征联合学习模块用于进一步捕获RGB图像以及红外图像的局部细节特征,以进行中高层局部特征拼接,得到局部特征拼接块;
S33、将局部特征联合学习模块连接至损失函数训练模块,利用损失函数训练模块对局部特征拼接块进行训练和学习,以增强RGB图像和红外图像的共享特征表达,至此构建得到跨模态行人再识别训练网络;
所述局部特征联合学习模块包括平均池化单元、空间维度切分单元以及局部特征拼接单元,所述平均池化单元用于对第三阶段和第四阶段的输出进行平均池化运算,以分别得到第三阶段和第四阶段对应的特征图;
所述空间维度切分单元用于对第三阶段和第四阶段对应的特征图进行空间维度切分,以分别得到第三阶段和第四阶段对应的局部特征块;
所述局部特征拼接单元用于将第三阶段和第四阶段对应的局部特征块进行拼接,以得到局部拼接块;
所述自注意力学习模块包括空洞卷积单元、通道重排单元以及批归一化处理单元,所述自注意力学习模块的具体表达式为:
F1=Fla(D1(X))
F2=Fla(D2(X))
F3=Per(F2)
Figure FDA0003753866950000021
Figure FDA0003753866950000022
Figure FDA0003753866950000023
其中,X为输入的特征图,其维度大小为(C,H,W);
Fla表示将多维数据进行一维化操作,D1和D2表示卷积核大小为3×3的空洞卷积,F1和F2表示经过卷积和一维化后得到的特征图,其维度为(1,H×W);
Per表示通道重排处理,F3是将F2进行通道重排后得到的特征图,其维度大小为(H×W,1);
Figure FDA0003753866950000024
表示张量相乘,将特征图F3与F1进行相乘得到S,特征图S的大小为(H×W,H×W);
GAP表示全局平均池化运算,
Figure FDA0003753866950000025
表示张量加法运算,Conv1×1表示卷积核大小为1×1的卷积操作,M是经过多次处理后的特征图,其维度大小为(H×W,1);
F为输出的特征图,其维度大小为(C,H,W)。
2.根据权利要求1所述的一种基于局部信息学习的跨模态行人再识别方法,其特征在于,所述步骤S1中数据增强具体是对图像依次进行水平翻转以及随机裁剪处理。
3.根据权利要求1所述的一种基于局部信息学习的跨模态行人再识别方法,所述损失函数训练模块采用交叉熵损失函数以及异质中心损失函数联合进行训练。
4.根据权利要求3所述的一种基于局部信息学习的跨模态行人再识别方法,所述损失函数训练模块的具体表达式为:
Figure FDA0003753866950000026
Li=LCE+λLHC
其中,LAll为损失函数训练模块的整体训练损失函数,Li为第i个局部拼接块对应的训练损失函数,P为局部拼接块的总个数,LCE为交叉熵损失函数,LHC为异质中心损失函数。
5.根据权利要求4所述的一种基于局部信息学习的跨模态行人再识别方法,所述交叉熵损失函数具体为:
Figure FDA0003753866950000031
其中,LCE为交叉熵损失函数,N为一次训练所选取的样本数,M为总的类别数,xn为训练集中类别yn中第n个样本提取的特征,
Figure FDA0003753866950000035
为类别yn中第n个样本的权重,
Figure FDA0003753866950000036
为类别yn中第n个样本的偏置,Wm为训练集中类别m的权重,bm为类别m的偏置。
6.根据权利要求4所述的一种基于局部信息学习的跨模态行人再识别方法,所述异质中心损失函数具体为:
Figure FDA0003753866950000032
Figure FDA0003753866950000033
Figure FDA0003753866950000034
其中,LHC为异质中心损失函数,Ca,1和Ca,2分别为类别a中可见光模态和红外模态的特征分布中心,V和T分别为类别a中RGB图像的数量和红外图像的数量,Xa,1,b和Xa,2,b分别为类别a中第b张RGB图像和红外图像。
CN202011426416.1A 2020-12-09 2020-12-09 一种基于局部信息学习的跨模态行人再识别方法 Active CN112434796B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011426416.1A CN112434796B (zh) 2020-12-09 2020-12-09 一种基于局部信息学习的跨模态行人再识别方法
US17/411,007 US11836224B2 (en) 2020-12-09 2021-08-24 Cross-modality person re-identification method based on local information learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011426416.1A CN112434796B (zh) 2020-12-09 2020-12-09 一种基于局部信息学习的跨模态行人再识别方法

Publications (2)

Publication Number Publication Date
CN112434796A CN112434796A (zh) 2021-03-02
CN112434796B true CN112434796B (zh) 2022-10-25

Family

ID=74691424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011426416.1A Active CN112434796B (zh) 2020-12-09 2020-12-09 一种基于局部信息学习的跨模态行人再识别方法

Country Status (2)

Country Link
US (1) US11836224B2 (zh)
CN (1) CN112434796B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627241B (zh) * 2021-06-29 2023-03-24 厦门市美亚柏科信息股份有限公司 一种用于行人重识别的背景抑制方法与系统
CN113887382B (zh) * 2021-09-29 2024-02-23 合肥工业大学 基于rgb-d跨模态行人再识别方法、存储介质、设备
CN113743544A (zh) * 2021-11-05 2021-12-03 中科智为科技(天津)有限公司 一种跨模态神经网络构建方法、行人检索方法及系统
CN114266973A (zh) * 2021-12-23 2022-04-01 华侨大学 基于人车部件联合学习的载人电动车再识别方法及系统
CN114550208A (zh) * 2022-02-10 2022-05-27 南通大学 基于全局级别和局部级别联合约束的跨模态行人再识别方法
CN114743128A (zh) * 2022-03-09 2022-07-12 华侨大学 一种基于异种神经网络的多模态东北虎再辨识方法及装置
CN114332955B (zh) * 2022-03-11 2022-06-10 浪潮云信息技术股份公司 一种行人重识别的方法、装置及计算机可读存储介质
CN115050044B (zh) * 2022-04-02 2023-06-23 广西科学院 一种基于MLP-Mixer的跨模态行人重识别方法
CN114581838B (zh) * 2022-04-26 2022-08-26 阿里巴巴达摩院(杭州)科技有限公司 图像处理方法、装置和云设备
CN114841970B (zh) * 2022-05-09 2023-07-18 抖音视界有限公司 检查图像的识别方法、装置、可读介质和电子设备
CN115034257B (zh) * 2022-05-09 2023-04-07 西北工业大学 一种基于特征融合的跨模态信息目标识别方法及装置
CN115050048B (zh) * 2022-05-25 2023-04-18 杭州像素元科技有限公司 一种基于局部细节特征的跨模态行人重识别方法
CN115457420B (zh) * 2022-11-10 2023-03-17 松立控股集团股份有限公司 一种基于无人机拍摄夜间低对比度的车辆重检测方法
CN116580287A (zh) * 2023-04-13 2023-08-11 南通大学 一种基于全局和局部特征联合约束的跨模态地点识别方法
CN116524542B (zh) * 2023-05-08 2023-10-31 杭州像素元科技有限公司 一种基于细粒度特征的跨模态行人重识别方法及装置
CN116682144B (zh) * 2023-06-20 2023-12-22 北京大学 一种基于多层次跨模态差异调和的多模态行人重识别方法
CN117542084A (zh) * 2023-12-06 2024-02-09 湖南大学 一种语义感知的跨模态行人重识别方法
CN117407557B (zh) * 2023-12-13 2024-05-07 江西云眼视界科技股份有限公司 零样本实例分割方法、系统、可读存储介质及计算机
CN117935172A (zh) * 2024-03-21 2024-04-26 南京信息工程大学 一种基于光谱信息过滤的可见光红外行人重识别方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259850A (zh) * 2020-01-23 2020-06-09 同济大学 一种融合随机批掩膜和多尺度表征学习的行人重识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344787B (zh) * 2018-10-15 2021-06-08 浙江工业大学 一种基于人脸识别与行人重识别的特定目标跟踪方法
US11138469B2 (en) * 2019-01-15 2021-10-05 Naver Corporation Training and using a convolutional neural network for person re-identification
CN111008618B (zh) * 2019-10-29 2023-03-31 黄山学院 一种自注意力深度学习端到端的行人再识别方法
CN111274922B (zh) * 2020-01-17 2022-11-29 山东师范大学 基于多层次深度学习网络的行人重识别方法及系统
CN111931802A (zh) * 2020-06-16 2020-11-13 南京信息工程大学 基于Siamese网络结构融合中层特征的行人重识别方法
CN111881780A (zh) * 2020-07-08 2020-11-03 上海蠡图信息科技有限公司 一种基于多层融合与对齐划分的行人重识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259850A (zh) * 2020-01-23 2020-06-09 同济大学 一种融合随机批掩膜和多尺度表征学习的行人重识别方法

Also Published As

Publication number Publication date
US11836224B2 (en) 2023-12-05
CN112434796A (zh) 2021-03-02
US20220180132A1 (en) 2022-06-09

Similar Documents

Publication Publication Date Title
CN112434796B (zh) 一种基于局部信息学习的跨模态行人再识别方法
CN106096561B (zh) 基于图像块深度学习特征的红外行人检测方法
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
CN110909605B (zh) 基于对比相关的跨模态行人重识别方法
CN111046964B (zh) 一种基于卷积神经网络的人和车辆红外热图像识别方法
CN109410171B (zh) 一种用于雨天图像的目标显著性检测方法
CN112507853B (zh) 一种基于互注意力机制的跨模态行人重识别方法
CN109712105A (zh) 一种结合彩色和深度信息的图像显著目标检测方法
CN110889398B (zh) 一种基于相似度网络的多模态图像能见度检测方法
CN111652273B (zh) 一种基于深度学习的rgb-d图像分类方法
CN111666852A (zh) 一种基于卷积神经网络的微表情双流网络识别方法
CN112070010B (zh) 一种联合多损失动态训练策略增强局部特征学习的行人重识别方法
CN109919246A (zh) 基于自适应特征聚类和多重损失融合的行人重识别方法
CN115830531A (zh) 一种基于残差多通道注意力多特征融合的行人重识别方法
CN113792686B (zh) 基于视觉表征跨传感器不变性的车辆重识别方法
CN111259736A (zh) 一种基于深度学习的复杂环境下行人实时检测方法
CN117218446A (zh) 一种基于rgb-msi特征融合的固废分选方法及系统
CN115050044B (zh) 一种基于MLP-Mixer的跨模态行人重识别方法
CN115393901A (zh) 一种跨模态行人重识别方法及计算机可读存储介质
CN114973246A (zh) 一种基于光流对齐的交叉模式神经网络的裂缝检测方法
CN113011506B (zh) 一种基于深度重分形频谱网络的纹理图像分类方法
CN113537032A (zh) 一种基于图片分块丢弃的分集多支路行人重识别方法
CN114972975B (zh) 一种基于双输入网络的偏振图像伪装目标检测方法
CN112836605B (zh) 一种基于模态增广的近红外与可见光跨模态人脸识别方法
CN112580424B (zh) 一种复杂车路环境的偏振特征多尺度池化分类算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant