CN114724187A - 一种基于切片融合的行人重识别方法及装置 - Google Patents
一种基于切片融合的行人重识别方法及装置 Download PDFInfo
- Publication number
- CN114724187A CN114724187A CN202210456289.2A CN202210456289A CN114724187A CN 114724187 A CN114724187 A CN 114724187A CN 202210456289 A CN202210456289 A CN 202210456289A CN 114724187 A CN114724187 A CN 114724187A
- Authority
- CN
- China
- Prior art keywords
- feature map
- pedestrian
- fusion
- feature
- difference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于切片融合的行人重识别方法及装置,构建并训练包括主干网络、最大池化层、相邻关系模块和差异特征池化模块的行人重识别网络,对主干网络Resnet‑50进行修改并添加CA注意力模块,让网络关注具有辨别性特征,通过改进后的Resnet‑50进行特征提取,将提取后的特征分别经过相邻关系模块和差异特征池化模块,考虑相邻关系及全局差异关系,最后采用训练好的行人重识别网络进行新人重识别。本发明在行人重识别任务取得了不错的效果,能够有效的区分图像中穿着相似的人们。
Description
技术领域
本申请属于图像处理技术领域,尤其涉及一种基于切片融合的行人重识别方法及装置。
背景技术
行人重识别是图像检索的一类基本问题,其目的就是将查询集query中的目标图像匹配到由不同相机捕获的数据库集gallery中的图像。近年来,深度神经网络已被证明可以有效地提取图像分类问题的判别特征,因此被广泛用作人员重识别方法的基础模型。由于行人有不同的属性,例如:光照问题、遮挡问题、姿势问题、服饰问题、背景杂乱等问题,对这项研究带来了很多研究难点,特别是对于穿着非常相似的人们,是非常难区分的。主流的技术方案主要考虑的是全局特征的方法和局部特征的方法,但大部分都单独考虑局部,没有考虑局部与整体,局部与局部的特征关系,对于解决穿着非常相似的人们,不具有区分性。
发明内容
本申请的目的是提供一种基于切片融合的行人重识别方法及装置,在现有技术方案中考虑了局部与局部以及局部与全局的特征关系,同时使用CA注意力,增强网络中特征的表达能力。
为了实现上述目的,本申请技术方案如下:
一种基于切片融合的行人重识别方法,包括:
构建包括主干网络、最大池化层、相邻关系模块和差异特征池化模块的行人重识别网络;
将训练数据输入到主干网络,提取主特征图,然后通过最大池化层生成三种大小的第一特征图、第二特征图和第三特征图;
通过相邻关系模块分别将第一特征图、第二特征图和第三特征图进行水平切片,然后分别将切片后相邻的特征图进行两两融合,得到对应的融合特征图;
通过差异特征池化模块将主特征图分别进行最大池化操作和平均池化操作得到最大池化特征图和平均池化特征图,将平均池化特征图减去最大池化特征图得到差异特征图,并将差异特征图与最大池化特征图相加得到全局特征图;
对融合特征图、差异特征图和全局特征图均进行分类,计算联合分类损失,反向传播更新主干网络参数,完成训练;
将待识别图像输入到训练好的行人重识别网络,分别提取待识别图像和图像库中图像的特征,用余弦相似度来表示特征之间的相似度,完成待识别图像的识别。
进一步的,所述主干网络采用Resnet-50,包括五个阶段,分别为stage0、stage1、stage2、stage3和stage4。
进一步的,所述主干网络采用Resnet-50,包括五个阶段,分别为stage0、stage1、stage2、stage3和stage4,并在stage1之前和stage3之后加入了注意力模块。
进一步的,所述将第一特征图、第二特征图和第三特征图进行水平切片,切片后的特征图大小相同。
进一步的,所述对融合特征图、差异特征图和全局特征图均进行分类,包括:
对融合特征图、差异特征图和全局特征图分别通过Conv2d进行降维,然后进行归一化处理,再输入到全连接层分类器进行分类。
本申请还提出了一种基于切片融合的行人重识别装置,包括处理器以及存储有若干计算机指令的存储器,所述计算机指令被处理器执行时实现所述基于切片融合的行人重识别方法的步骤。
本申请提出的一种基于切片融合的行人重识别方法,在现有技术方案中,考虑了局部与局部以及局部与全局的特征关系,同时使用CA注意力增强网络中特征的表达能力,能够有效的区分图像中穿着相似的人们。
附图说明
图1为本申请基于切片融合的行人重识别方法流程图;
图2为本申请特征融合示意图;
图3为本申请差异特征池化示意图;
图4为本申请实施例主干网络示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提出了一种基于切片融合的行人重识别方法,包括:
步骤S1、构建包括主干网络、最大池化层、相邻关系模块和差异特征池化模块的行人重识别网络。
本申请首先构建了用于进行行人重识别的行人重识别网络模型,该行人重识别网络模型包括主干网络、最大池化层、相邻关系模块和差异特征池化模块。
其中主干网络采用Resnet-50,包括五个阶段(stage),分别为stage0、stage1、stage2、stage3和stage4。
在一个优选的实施例中,如图4所示,主干网络在stage1之前和stage3之后加入了注意力模块。
本实施例在Resnet-50在stage1之前和stage3之后加入CA注意力机制,增强网络中特征的表达能力。一个CA注意力模块可以被看作是一个计算单元,旨在增强网络中特征的表达能力。CA通过精确的位置信息对通道关系和长期依赖性进行编码。
需要说明的是,现有技术将CA注意力模块插入到Mobile Network中,可以使MobileNetV2、EfficientNet等网络涨点,性能优于Squeeze Excitation(SE)、Convolutional BlockAttention Module(CBAM)等注意力模块。本实施例将CA注意力模块应用于Resnet-50中,将CA具体操作分为Coordinate信息嵌入和Coordinate Attention生成2个步骤。Coordinate信息嵌入:全局池化方法通常用于通道注意编码空间信息的全局编码,但由于它将全局空间信息压缩到通道描述符中,导致难以保存位置信息。为了促使注意力模块能够捕捉具有精确位置信息的远程空间交互,本实施例按照以下公式分解了全局池化,转化为一对一维特征编码操作:
具体地,给定输入X,首先使用尺寸为(H,1)或(1,W)的池化核分别沿着水平坐标和垂直坐标对每个通道进行编码,因此高度为h的第c通道的输出可以表示为:
同样地,宽度为w的第c通道的输出可以表示为:
Coordinate Attention生成:通过上述的变换可以很好的获得全局感受野并编码精确的位置信息,通过信息嵌入中的变换后,该部分将上面的变换进行合并操作,然后使用1x1卷积变换函数F对其进行变换操作:
其中,[.,.]操作为为沿空间维数的合并操作,f为对空间信息在水平方向和垂直方向进行编码的中间特征映射。然后沿着空间维数将f分解为2个单独的张量fh∈RC/r×H和fw∈RC/r×W,r用来控制SE块大小的缩减率,利用另外2个1x1卷积变换Fh和Fw分别将fh和fw变换为具有相同通道数的张量,输入X得到:
gh=σ(Fh(fh))
gw=σ(Fw(fh))。
为了降低模型的复杂性和计算开销,这里通常使用适当的缩减比(如32)来减少f的通道数。然后对输出gh和gw进行扩展,分别作为注意力权重。因此,Coordinate Attention的输出Y可以写成:
本实例中,stage1之前加入CA注意力,赋予其通道数为(64,64),在stage3之后加入CA注意力,赋予其通道数为(1024,1024),使其输入与输出的通道数保持不变,不改变输入特征的大小,在本实例中效果较好。
步骤S2、将训练数据输入到主干网络,提取主特征图,然后通过最大池化层生成三种大小的第一特征图、第二特征图和第三特征图。
本实施例读取带标签的行人重识别训练数据集,对训练数据集进行数据增强以及初始化图片尺寸,将同一批次的行人图像送入主干网络Resnet-50进行特征提取。
本实施例采用数据集Market-1501、DukeMTMC-reID、CUHK03作为训练数据集,训练数据集为带有人工标注的不同摄像头下的行人图像数据集。将所有图像大小调整为(384x128)即高为384,宽为128进行训练,使用水平翻转和随机擦除来扩充训练数据集,利用随机梯度下降来优化模型。本申请采用分批次进行训练,训练过程中批处理大小为64(即每个批次处理64张图片,有16个不同的id行人和每个id行人有4张不同的图片)。
采用加入CA注意力后的Resnet-50来特征提取,得到的主特征图F,经过自适应最大池化成三种大小的特征图F1、F2、F3。
本实例中,输入图片的尺寸为(384x128),经过提取网络后的到F的特征大小为(24x8),再对F进行自适应最大池化,池化后的特征F1大小为(7x1),特征F2大小为(5x1),特征F3大小为(3x1)。
步骤S3、通过相邻关系模块分别将第一特征图、第二特征图和第三特征图进行水平切片,然后分别将切片后相邻的特征图进行两两融合,得到对应的融合特征图。
本实施例对F1、F2、F3分别水平平均切片成7块、5块、3块。经过相邻关系模块,把相邻的特征进行两两融合,得到6块、4块、2块特征。
具体地,首先对特征图F1进行水平切片处理,得到特征图 特征大小都为(1x1);其次对特征图F2进行切片处理,得到特征图特征大小都为(1x1);最后对特征图F3进行切片处理,得到特征图特征大小都为(1x1)。
将切片后的特征进行特征融合,对特征图 进行相邻两块特征融合,得到特征图特征大小都为(2x1);其次对特征图进行相邻两块特征融合,得到特征图特征大小都为(2x1);最后对特征图进行相邻两块特征融合,得到特征图特征大小都为(2x1)。
如图2所示,本实施例相邻两块特征融合,表现为任意相邻的特征进行融合。
步骤S4、通过差异特征池化模块将主特征图分别进行最大池化操作和平均池化操作得到最大池化特征图和平均池化特征图,将平均池化特征图减去最大池化特征图得到差异特征图,并将差异特征图与最大池化特征图相加得到全局特征图。
将输出特征图F进行特征处理,输入到差异特征池化模块,如图3所示,首先这个模块对特征图F分别进行最大池化操作(GMP)和平均池化操作(GAP)后得到特征FGMP和特征FGAP,再用特征FGAP减去特征FGMP得到差异特征Fcont,再加上特征FGMP得到全局特征FGCP。
具体地,常见的操作是把GMP和GAP操作后的特征相加,而这里本申请采用了特征相减,用平均池化减去最大池化得到差异性特征,最后再和最大池化相加得到最终特征。这种减法可以提取人体的局部特征,去掉了背景的干扰。
步骤S5、对融合特征图、差异特征图和全局特征图均进行分类,计算联合分类损失,反向传播更新主干网络参数,完成训练。
具体地,对于上述特征图利用Conv2d来降维成256,通过降维来保留一些比较重要的特征,去除一些冗余的特征。再进行归一化处理,让处理后的特征去经过全连接层去分类,全连接层的输入为通道数即256,输出为数据集的id个数。
使用交叉熵损失与三元组损失的组合,计算联合损失,通过损失函数的反向传播对主干网络Resnet-50参数进行优化。联合损失为:
L=Ltriplet+λLce;
其中,Lce表示交叉熵损失函数,Ltriplet表示三元组损失函数,通过参数λ进行平衡。
步骤S6、将待识别图像输入到训练好的行人重识别网络,分别提取待识别图像和图像库中图像的特征,用余弦相似度来表示特征之间的相似度,完成待识别图像的识别
具体实施方法为:将待识别的查询库query中的图片作为待查询图像输入到训练好的模型中,分别提取待查询图像和数据库gallery图像的特征,将提取的特征保存,并对待查询图像和数据库gallery图像的图像保存的特征计算余弦相似度(CosineSimilarity)进行匹配,根据余弦相似度对待识别图像用累积匹配曲线(CMC曲线)和平均正确率(mAP)进行评估。
余弦相似度计算公式如下:
其中A,B分别为待查询图像和数据库gallery图像特征向量,包括前述的融合特征图 以及差异特征图和全局特征图,被表示为n维向量,·表示向量内积,|| ||表示对向量求模。余弦相似度衡量两个向量的相似度,余弦相似度越大,代表特征越匹配。
需要说明的是,本申请提到的性能评价指标CMC曲线和mAP已经是比较成熟的性能评价指标,这里不再赘述。
在一个实施例中,本申请还提供了一种基于切片融合的行人重识别装置,包括处理器以及存储有若干计算机指令的存储器,所述计算机指令被处理器执行时实现所述基于切片融合的行人重识别方法的步骤。
关于基于切片融合的行人重识别装置的具体限定可以参见上文中对于基于切片融合的行人重识别方法的限定,在此不再赘述。上述基于切片融合的行人重识别装置可全部或部分通过软件、硬件及其组合来实现,可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上对应的操作。
存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器中存储有可在处理器上运行的计算机程序,所述处理器通过运行存储在存储器内的计算机程序,从而实现本发明实施例中的网络拓扑布局方法。
其中,所述存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器用于存储程序,所述处理器在接收到执行指令后,执行所述程序。
所述处理器可能是一种集成电路芯片,具有数据的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种基于切片融合的行人重识别方法,其特征在于,所述基于切片融合的行人重识别方法,包括:
构建包括主干网络、最大池化层、相邻关系模块和差异特征池化模块的行人重识别网络;
将训练数据输入到主干网络,提取主特征图,然后通过最大池化层生成三种大小的第一特征图、第二特征图和第三特征图;
通过相邻关系模块分别将第一特征图、第二特征图和第三特征图进行水平切片,然后分别将切片后相邻的特征图进行两两融合,得到对应的融合特征图;
通过差异特征池化模块将主特征图分别进行最大池化操作和平均池化操作得到最大池化特征图和平均池化特征图,将平均池化特征图减去最大池化特征图得到差异特征图,并将差异特征图与最大池化特征图相加得到全局特征图;
对融合特征图、差异特征图和全局特征图均进行分类,计算联合分类损失,反向传播更新主干网络参数,完成训练;
将待识别图像输入到训练好的行人重识别网络,分别提取待识别图像和图像库中图像的特征,用余弦相似度来表示特征之间的相似度,完成待识别图像的识别。
2.根据权利要求1所述的基于切片融合的行人重识别方法,其特征在于,所述主干网络采用Resnet-50,包括五个阶段,分别为stage0、stage1、stage2、stage3和stage4。
3.根据权利要求1所述的基于切片融合的行人重识别方法,其特征在于,所述主干网络采用Resnet-50,包括五个阶段,分别为stage0、stage1、stage2、stage3和stage4,并在stage1之前和stage3之后加入了注意力模块。
4.根据权利要求1所述的基于切片融合的行人重识别方法,其特征在于,所述将第一特征图、第二特征图和第三特征图进行水平切片,切片后的特征图大小相同。
5.根据权利要求1所述的基于切片融合的行人重识别方法,其特征在于,所述对融合特征图、差异特征图和全局特征图均进行分类,包括:
对融合特征图、差异特征图和全局特征图分别通过Conv2d进行降维,然后进行归一化处理,再输入到全连接层分类器进行分类。
6.一种基于切片融合的行人重识别装置,包括处理器以及存储有若干计算机指令的存储器,其特征在于,所述计算机指令被处理器执行时实现权利要求1至权利要求5中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210456289.2A CN114724187A (zh) | 2022-04-27 | 2022-04-27 | 一种基于切片融合的行人重识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210456289.2A CN114724187A (zh) | 2022-04-27 | 2022-04-27 | 一种基于切片融合的行人重识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114724187A true CN114724187A (zh) | 2022-07-08 |
Family
ID=82246075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210456289.2A Pending CN114724187A (zh) | 2022-04-27 | 2022-04-27 | 一种基于切片融合的行人重识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114724187A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912889A (zh) * | 2023-09-12 | 2023-10-20 | 深圳须弥云图空间科技有限公司 | 行人重识别方法及装置 |
-
2022
- 2022-04-27 CN CN202210456289.2A patent/CN114724187A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912889A (zh) * | 2023-09-12 | 2023-10-20 | 深圳须弥云图空间科技有限公司 | 行人重识别方法及装置 |
CN116912889B (zh) * | 2023-09-12 | 2024-01-05 | 深圳须弥云图空间科技有限公司 | 行人重识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325111A (zh) | 一种融合逆注意力和多尺度深度监督的行人重识别方法 | |
CN110738207A (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN111754396B (zh) | 脸部图像处理方法、装置、计算机设备和存储介质 | |
CN111597955A (zh) | 基于深度学习的表情情绪识别的智能家居控制方法及装置 | |
CN113177518B (zh) | 一种利用弱监督区域推荐的车辆重识别方法 | |
CN110378301B (zh) | 行人重识别方法及系统 | |
CN111339812A (zh) | 一种基于全部或部分人体结构化特征集的行人识别和再识别的方法、电子设备和存储介质 | |
CN111985332B (zh) | 一种基于深度学习的改进损失函数的步态识别方法 | |
CN107463917A (zh) | 一种基于改进的ltp与二维双向pca融合的人脸特征提取方法 | |
WO2020107847A1 (zh) | 基于骨骼点的跌倒检测方法及其跌倒检测装置 | |
CN110222718A (zh) | 图像处理的方法及装置 | |
CN114359974A (zh) | 一种人体姿态的检测方法、设备及存储介质 | |
CN111414812A (zh) | 人体属性识别方法、系统、计算机设备及存储介质 | |
CN113569598A (zh) | 图像处理方法和图像处理装置 | |
CN111199212A (zh) | 基于注意力模型的行人属性识别方法 | |
CN108268863B (zh) | 一种图像处理方法、装置和计算机存储介质 | |
CN111160225A (zh) | 基于深度学习的人体解析方法和装置 | |
CN114724187A (zh) | 一种基于切片融合的行人重识别方法及装置 | |
CN115100684A (zh) | 基于姿态与样式归一化的换衣行人重识别方法 | |
CN114782979A (zh) | 一种行人重识别模型的训练方法、装置、存储介质及终端 | |
CN108875496B (zh) | 行人画像的生成及基于画像的行人识别 | |
KR101174103B1 (ko) | 근골격 구조에 기초한 수학적 패턴 분석의 얼굴인식 방법 | |
CN110348395B (zh) | 一种基于时空关系的骨架行为识别方法 | |
CN113822134A (zh) | 一种基于视频的实例跟踪方法、装置、设备及存储介质 | |
CN110795995B (zh) | 数据处理方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |