CN113516012B - 一种基于多层级特征融合的行人重识别方法及系统 - Google Patents

一种基于多层级特征融合的行人重识别方法及系统 Download PDF

Info

Publication number
CN113516012B
CN113516012B CN202110381418.1A CN202110381418A CN113516012B CN 113516012 B CN113516012 B CN 113516012B CN 202110381418 A CN202110381418 A CN 202110381418A CN 113516012 B CN113516012 B CN 113516012B
Authority
CN
China
Prior art keywords
pedestrian
network
identification
image
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110381418.1A
Other languages
English (en)
Other versions
CN113516012A (zh
Inventor
熊炜
乐玲
周蕾
张开
李敏
李利荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN202110381418.1A priority Critical patent/CN113516012B/zh
Publication of CN113516012A publication Critical patent/CN113516012A/zh
Application granted granted Critical
Publication of CN113516012B publication Critical patent/CN113516012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多层级特征融合的行人重识别方法及系统,通过构建行人重识别网络,包括骨干网络、分支网络和聚合模块;训练行人重识别网络,获得训练好的行人重识别网络;最后从视频中抽取图像帧,预处理后将图像送入训练好的行人重识别网络的骨干网络进行特征提取,同时利用分支网络通过卷积核的多尺度和多深度,提取不同尺度的细节信息;然后通过相加的方式将主干网络和各层级分支网络进行特征融合,输出行人重识别结果;本发明在显著提升了行人重识别效果的同时,不会带来过多的计算量,同时能够解决图像遮挡、拍摄角度变化、分辨率不高等现象所带来的行人重识别研究算法精度不高的问题。

Description

一种基于多层级特征融合的行人重识别方法及系统
技术领域
本发明属于数字图像处理、计算机视觉技术领域,涉及一种行人重识别方法及系统,特别是涉及一种基于全局特征表征的多层级特征融合的行人重识别方法及系统。
背景技术
行人重识别问题是跨摄像头的图像检索问题,旨在利用查询图在图像库中检索出属于同一身份的行人图像。首先从多个摄像头中提取原始行人视频图像,依次通过特征提取、相似度度量确认该行人其他图像。当前,由于摄像头角度、天气等因素的影响,获得的原始视频图像质量不高。遮挡、模糊的图像会严重影响行人重识别的精度,因此在低质量图像上学习出高精度行人重识别模型成为研究重点。
根据损失类型,行人重识别分为表征学习和度量学习。表征学习将行人重识别问题当作图像分类和验证问题,度量学习将图像特征映射到高维特征空间,通过距离度量出两张图像相似度。2014年以来,通过卷积神经网络提取的更具鲁棒性的特征,利用更简单的距离度量公式查找更准确的行人图像,大大增强了行人重识别模型的精度与泛化能力。在本研究方向上大量学者提出更高质量算法,行人重识别研究迎来了爆发式增长。
注意力机制可以使神经网络专注于特定的区域特征,从大量的特征信息中筛选出重要的信息。当前行人重识别可分别在空间、通道上引入注意力机制,强调空间和通道两个维度上的重点信息,削弱非重点信息,同时将全局特征与局部特征融合,增强模型的表征能力,达到较高的识别率。然而这些研究鲁棒性较差,模型的泛化能力不强,模型复杂度也较高。
发明内容
为了解决上述技术问题,本发明提出了一种基于全局特征表征的多层级特征融合的行人重识别方法及系统,在显著提升了行人重识别效果的同时,不会带来过多的计算量,同时能够解决图像遮挡、拍摄角度变化、分辨率不高等现象所带来的行人重识别研究算法精度不高的问题。
本发明的方法所采用的技术方案是:一种基于多层级特征融合的行人重识别方法,包括以下步骤:
步骤1:构建行人重识别网络,包括骨干网络、分支网络和聚合模块;
所述骨干网络分成5层,其中第1层不加分裂模型,第2、3、4、5层分别添加分裂模型,该分裂模型的每层输入均不相同,若分裂模型输入图像通道数为 c,沿通道维度平均分成k个基块组,在每个基块组内沿通道维度上继续分裂成r 个分裂组,其中r、k为设置的超参数,c=k×r,r个分裂组先分别进行特征提取,k个基块组后通过通道数融合后与原始输入特征相加;
所述分支网络为采用金字塔卷积结构,卷积核的大小设置成3×3、5×5、7×7、 9×9,卷积核递增的同时卷积核深度逐渐递减,同时每个金字塔卷积内通过分组卷积来降低计算量;金字塔卷积分别被应用在骨干网络的不同层,每层的卷积核尺度和深度各不相同,第2层卷积核尺度分别为3、5、7、9,深度均为64,第 3层卷积核尺度为3、5、7,深度分别为128、128、256,第4层卷积尺度均为 512,第5层卷积核尺度为3,深度为2048;
所述聚合模块,引入广义均值池化代替最后一层的平均池化;假设输入向量为χ,池化后的输出为f,最大池化公式:
Figure BDA0003013148440000021
其中,f(m)是输出f的第m个特征向量,
Figure BDA0003013148440000022
是f(m)的第k个特征值,共有 K个特征值,
Figure BDA0003013148440000023
是输入向量χ中属于第k个特征值邻域内特征值的最大值;
平均池化公式:
Figure BDA0003013148440000024
广义均值池化公式:
Figure BDA0003013148440000025
公式(1)和公式(2)都是公式(3)特殊形式,pk是引入的超参数,通过反向传播可以自动学习到最优解,当pk=1时,公式(2)就是平均池化;当pk→∞时,公式(1)就是最大池化;
步骤2:训练行人重识别网络,获得训练好的行人重识别网络;
从公开数据源中获取训练数据并预处理,将预处理后的图像数据分为训练集和测试集,将训练集送入行人重识别网络进行训练,获得训练后的行人重识别网络;通过测试集测试训练后的行人重识别网络,若满足预设要求,则停止训练,获得训练好的行人重识别网络,否则继续执行训练过程;
步骤3:从视频中抽取图像帧,预处理后将图像送入训练好的行人重识别网络的骨干网络进行特征提取,同时利用分支网络通过卷积核的多尺度和多深度,提取不同尺度的细节信息;然后通过相加的方式将主干网络和各层级分支网络进行特征融合;最后通过表征学习和度量学习,找到该行人图像在图像库中的其他图像,根据与原图像的相似度输出排名前N的行人图像。
本发明的系统所采用的技术方案是:一种基于多层级特征融合的行人重识别系统,包括以下模块:
模块一,用于构建行人重识别网络,包括骨干网络、分支网络和聚合模块;
所述骨干网络分成5层,其中第1层不加分裂模型,第2、3、4、5层分别添加分裂模型,该分裂模型的每层输入均不相同,若分裂模型输入图像通道数为 c,沿通道维度平均分成k个基块组,在每个基块组内沿通道维度上继续分裂成r 个分裂组,其中r、k为设置的超参数,c=k×r,r个分裂组先分别进行特征提取,k个基块组后通过通道数融合后与原始输入特征相加;
所述分支网络为采用金字塔卷积结构,卷积核的大小设置成3×3、5×5、7×7、 9×9,卷积核递增的同时卷积核深度逐渐递减,同时每个金字塔卷积内通过分组卷积来降低计算量;金字塔卷积分别被应用在骨干网络的不同层,每层的卷积核尺度和深度各不相同,第2层卷积核尺度分别为3、5、7、9,深度均为64,第 3层卷积核尺度为3、5、7,深度分别为128、128、256,第4层卷积尺度均为 512,第5层卷积核尺度为3,深度为2048;
所述聚合模块,引入广义均值池化代替最后一层的平均池化;假设输入向量为χ,池化后的输出为f,最大池化公式:
Figure BDA0003013148440000031
其中,f(m)是输出f的第m个特征向量,
Figure BDA0003013148440000032
是f(m)的第k个特征值,共有 K个特征值,
Figure BDA0003013148440000033
是输入向量χ中属于第k个特征值邻域内特征值的最大值;
平均池化公式:
Figure BDA0003013148440000041
广义均值池化公式:
Figure BDA0003013148440000042
公式(1)和公式(2)都是公式(3)特殊形式,pk是引入的超参数,通过反向传播可以自动学习到最优解,当pk=1时,公式(2)就是平均池化;当pk→∞时,公式(1)就是最大池化;
模块二,用于训练行人重识别网络,获得训练好的行人重识别网络;
从公开数据源中获取训练数据并预处理,将预处理后的图像数据分为训练集和测试集,将训练集送入行人重识别网络进行训练,获得训练后的行人重识别网络;通过测试集测试训练后的行人重识别网络,若满足预设要求,则停止训练,获得训练好的行人重识别网络,否则继续执行训练过程;
模块三,用于从视频中抽取图像帧,预处理后将图像送入训练好的行人重识别网络的骨干网络进行特征提取,同时利用分支网络通过卷积核的多尺度和多深度,提取不同尺度的细节信息;然后通过相加的方式将主干网络和各层级分支网络进行特征融合;最后通过表征学习和度量学习,找到该行人图像在图像库中的其他图像,根据与原图像的相似度输出排名前N的行人图像。
本发明与现有方法相比,其显著优点在于:
(1)本发明提出了一种基于多层级特征融合的行人重识别算法,从空间维度提升网络性能。首先将ResNeSt-50网络作为骨干网络提取行人图像的全局特征;然后与金字塔卷积分支网络提取到的细节特征相融合,达到提取多粒度特征的目的。
(2)本发明采用广义均值池化作为聚合模块,该池化介于最大池化和均值池化之间,通过一种统一池化类型,能更好的捕捉特征差异性。
(3)本发明的识别效果在DukeMTMC-ReID数据集上,Rank-1、mAP两个评价指标分别达到了90.9%和89.8%,达到了目前较高的识别率。
附图说明
图1为本发明实施例的行人重识别网络框架图;
图2为本发明实施例的金字塔卷积示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明的目的在于提供一种基于多层级特征融合的行人重识别方法及系统。使用ResNeSt-50作为基础的特征提取网络,通过多尺度特征信息的融合,提取更丰富的特征信息的同时,不会带来过多的计算。使用金字塔卷积分支提取更多细节特征,并通过多层级信息的融合,带来更加丰富的语义信息。距离度量使用带有难例样本挖掘(Hard Mining)的三元组损失函数(Triplet Loss),分类阶段使用交叉熵损失函数(Cross Entropy Loss)。最后一层池化阶段使用广义均值池化 (Generalized Mean Pooling,GeM)。测试阶段使用基于k近邻编码(k-reciprocal Encoding)的Reranking,以及图像查询(Query Expansion,QE)。
请见图1和图2,本发明提供的一种基于多层级特征融合的行人重识别方法,包括以下步骤:
步骤1:构建行人重识别网络,包括骨干网络、分支网络和聚合模块;
本实施例的骨干网络基于Resnet分成5层,其中第1层不加分裂模型,第2、 3、4、5层分别添加分裂模型,该分裂模型的每层输入均不相同,若分裂模型输入图像通道数为c,沿通道维度平均分成k个基块组(Cardinal Groups),在每个基块组内沿通道维度上继续分裂成r个分裂组(Split Groups),其中r、k为设置的超参数,c=k×r,r个分裂组(SplitGroups)先分别进行特征提取,k个基块组后通过通道数融合后与原始输入特征相加。本方法通过对特征图进行压缩得到通道级的全局特征,再对全局特征进行共享尺度,相加获得融合特征,在基块组内使用跨空间维度的全局平均池化(Global Average Pooling)收集全局上下文信息,随后通过逐通道(Channel-wise)的软注意力(Soft Attention)聚合得到突出重点区域、弱化非重点区域的特征信息图。
本实施例的分支网络为采用金字塔卷积结构,如图2所示为金字塔卷积结构,卷积核的大小设置成3×3、5×5、7×7、9×9,卷积核递增的同时卷积核深度逐渐递减,同时每个金字塔卷积内通过分组卷积(Group Convolution)来降低计算量。为了更好地提取细粒度特征信息,金字塔卷积分别被应用在骨干网络的不同层,每层的卷积核尺度和深度各不相同,第2层卷积核尺度分别为3、5、7、9,深度均为64,第3层卷积核尺度为3、5、7,深度分别为128、128、256,第4层卷积尺度均为512,第5层卷积核尺度为3,深度为2048,最后通过相加的方式将主干网络和各层级分支网络进行特征融合。
传统平均池化(Mean Pooling)和最大池化(Max Pooling)都过于极端,容易忽略某些区域的特征差异性,因此,本实施例的聚合模块,引入在图像检索领域常用的广义均值池化代替最后一层的平均池化。
假设输入向量为χ,池化后的输出为f,最大池化公式:
Figure BDA0003013148440000061
其中,f(m)是输出f的第m个特征向量,
Figure BDA0003013148440000062
是f(m)的第k个特征值,共有 K个特征值,
Figure BDA0003013148440000063
是输入向量χ中属于第k个特征值邻域内特征值的最大值;
平均池化公式:
Figure BDA0003013148440000064
广义均值池化公式:
Figure BDA0003013148440000065
公式(1)和公式(2)都是公式(3)特殊形式,pk是引入的超参数,通过反向传播可以自动学习到最优解,当pk=1时,公式(2)就是平均池化;当pk→∞时,公式(1)就是最大池化;广义均值池化是介于平均池化和最大池化之间的一种统一形式的池化,能更好的捕捉图像的特征差异性。
步骤2:训练行人重识别网络,获得训练好的行人重识别网络;
从公开数据源中获取训练数据并预处理,将预处理后的图像数据分为训练集和测试集,将训练集送入行人重识别网络进行训练,获得训练后的行人重识别网络;通过测试集测试训练后的行人重识别网络,若满足预设要求,则停止训练,获得训练好的行人重识别网络,否则继续执行训练过程;
本实施例中,数据来源于几个公开数据集,如Market1501、DukeMTMC-Reid、MSMT17。从数据集中提取的图像通过水平翻转、随机擦除等预处理方法进行预处理。
本实施例中,借助目标检测技术将图像裁剪成大小为256×128,通道数为3,之后使用随机擦除、图像翻转等方法对输入图像进行预处理。
本实施例采用损失函数衡量深度学习模型的预测能力,使用损失函数监督模型训练过程,从而缩小真实值与预测值差距的目的。
(1)交叉熵损失函数
行人重识别的分类问题,就是区分某一张图像上的行人是否属于某一 ID(Identification)的问题。神经网络会输出一个当前真实值的预测概率,预测值概率与标签真实概率通过一个交叉熵损失函数计算损失函数值,在训练中最小化该损失函数值,得到最优的预测概率分布。
Figure BDA0003013148440000071
其中,N是批次数,H表示行人数,fi是图像i的特征向量,其真实标签为yi, W为权重,b是偏置;
Figure BDA0003013148440000072
是第k个行人的权重向量的转置,bk是第k个行人的偏置向量;
(2)三元组损失函数
行人重识别的度量学习,就是通过将行人图像通过聚合模块后得到的特征向量与图库内图像特征向量通过欧氏距离公式计算出距离大小,找到距离最小的即相似度最高的图像。三元组损失函数(Triplet Loss)选取锚点an、正样本pos、负样本neg构成三元组,损失函数的最小化,就是锚点与负样本之间的距离最大化、锚点与正样之间的距离最小化。但三元组损失仅对正负样本距离在阈值内的样本进行优化,难以顾及阈值外的样本,因此改用难例样本挖掘三元组损失函数 (Triplet Loss with Batch Hard Mining,TriHard)进行训练,训练时在每个批次中挑选出P个行人,每个行人挑选出K张图像,三元组均来自于该P×K张图像,通过计算欧氏距离找到离锚点距离最远的正样本、最近的负样本来计算三元组损失,如公式(5)所示,其中mar为设置的超参数,dan,pos是锚点与正样本的距离,dan,neg是锚点与负样本的距离。
Figure BDA0003013148440000081
其中,A、B表示该P×K张图像中不同的样本集,A、B分别表示正样本 pos和负样本neg分别来源于不同的样本集,正样本和负样本不重合。
(3)联合损失函数
本发明通过交叉熵损失函数和难例样本挖掘三元组损失函数的联合训练来优化训练过程,避免模型的过拟合,最终的损失函数如公式(6)所示:
Ltotal=LSoftmax+Ltri_hard (6)
本实施例针对训练后模型的测试,会输出该图像的t张同一ID图像。本发明对输出结果先后采用两种重排序方式,图像查询和k近邻编码。如公式(7)所示,图像查询通过一个查询图fq,图库中t个相似的特征图fg,通过计算返回的前t个结果,包括查询图本身,求取平均值得到新的查询特征图。新的特征图被用作k 近邻编码重排序,通过计算马氏距离和杰卡德距离,在图库中找到查询图的排序列表。
Figure BDA0003013148440000082
通过该重排序方法,将更多相似度高且互相关联的图像往前排,得到更精确的行人重识别排序结果。
步骤3:从视频中抽取图像帧,借助目标检测技术将图像裁剪成大小为256 ×128,通道数为3,之后使用随机擦除、图像翻转等方法对输入图像进行预处理。随后将图像送入训练好的行人重识别网络的骨干网络进行特征提取。
本实施例在骨干网络特征提取的同时,利用分支网络通过卷积核的多尺度和多深度,提取不同尺度的细节信息。采用金字塔卷积进行分支网络的特征提取,相比于标准卷积,金字塔卷积在提取更加丰富语义信息的同时并不会带来过多的计算量和参数量。
本实施例通过相加的方式将主干网络和各层级分支网络进行特征融合。
本实施例的图像经过骨干网络和分支网络进行特征提取后,得到的特征信息送入聚合模块,最后通过表征学习和度量学习,找到该行人图像在图像库中的其他图像,根据与原图像的相似度输出排名前10的行人图像。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (5)

1.一种基于多层级特征融合的行人重识别方法,其特征在于,包括以下步骤:
步骤1:构建行人重识别网络,包括骨干网络、分支网络和聚合模块;
所述骨干网络基于ResNeSt-50网络,分成5层,其中第1层不加分裂模型,第2、3、4、5层分别添加分裂模型,该分裂模型的每层输入均不相同,若分裂模型输入图像通道数为c,沿通道维度平均分成k个基块组,在每个基块组内沿通道维度上继续分裂成r个分裂组,其中r、k为设置的超参数,c=k×r,r个分裂组先分别进行特征提取,k个基块组后通过通道数融合后与原始输入特征相加;
所述分支网络为采用金字塔卷积结构,卷积核的大小设置成3×3、5×5、7×7、9×9,卷积核递增的同时卷积核深度逐渐递减,同时每个金字塔卷积内通过分组卷积来降低计算量;金字塔卷积分别被应用在骨干网络的不同层,每层的卷积核尺度和深度各不相同,第2层卷积核尺度分别为3、5、7、9,深度均为64,第3层卷积核尺度为3、5、7,深度分别为128、128、256,第4层卷积尺度均为512,第5层卷积核尺度为3,深度为2048;
所述聚合模块,引入广义均值池化代替最后一层的平均池化;假设输入向量为χ,池化后的输出为f,最大池化公式:
Figure FDA0003461778250000011
其中,f(m)是输出f的第m个特征向量,
Figure FDA0003461778250000012
是f(m)的第k个特征值,共有K个特征值,
Figure FDA0003461778250000013
是输入向量χ中属于第k个特征值邻域内特征值的最大值;
平均池化公式:
Figure FDA0003461778250000014
广义均值池化公式:
Figure FDA0003461778250000015
公式(1)和公式(2)都是公式(3)特殊形式,pk是引入的超参数,通过反向传播可以自动学习到最优解,当pk=1时,公式(2)就是平均池化;当pk→∞时,公式(1)就是最大池化;
步骤2:训练行人重识别网络,获得训练好的行人重识别网络;
从公开数据源中获取训练数据并预处理,将预处理后的图像数据分为训练集和测试集,将训练集送入行人重识别网络进行训练,获得训练后的行人重识别网络;通过测试集测试训练后的行人重识别网络,若满足预设要求,则停止训练,获得训练好的行人重识别网络,否则继续执行训练过程;
步骤3:从视频中抽取图像帧,预处理后将图像送入训练好的行人重识别网络的骨干网络进行特征提取,同时利用分支网络通过卷积核的多尺度和多深度,提取不同尺度的细节信息;然后通过相加的方式将主干网络和各层级分支网络进行特征融合;图像经过骨干网络和分支网络进行特征提取后,得到的特征信息送入聚合模块,最后通过表征学习和度量学习,找到行人图像在图像库中的其他图像,根据与原图像的相似度输出排名前N的行人图像。
2.根据权利要求1所述的基于多层级特征融合的行人重识别方法,其特征在于:步骤2中,使用损失函数监督行人重识别网络训练过程,从而缩小真实值与预测值差距;
通过交叉熵损失函数LSoftmax和难例样本挖掘三元组损失函数Ltri_hard的联合训练来优化训练过程,避免行人重识别网络的过拟合,损失函数如公式(4)所示:
Ltotal=LSoftmax+Ltri_hard (4)
Figure FDA0003461778250000021
其中,N是批次数,H表示行人数,fi是图像i的特征向量,其真实标签为yi,W为权重,b是偏置;Wk T是第k个行人的权重向量的转置,bk是第k个行人的偏置向量;
Figure FDA0003461778250000022
采用难例样本挖掘三元组损失函数进行训练,三元组损失函数选取锚点an、正样本pos、负样本neg构成三元组,训练时在每个批次中挑选出P个行人,每个行人挑选出K张图像,三元组均来自于P×K张图像,通过计算欧氏距离找到离锚点距离最远的正样本、最近的负样本来计算三元组损失,如公式(6)所示,其中mar为设置的超参数,dan,pos是锚点与正样本的距离,dan,neg是锚点与负样本的距离,A、B表示该P×K张图像中不同的样本集,即所选正样本和负样本不重合;
损失函数的最小化,就是锚点与负样本之间的距离最大化、锚点与正样之间的距离最小化。
3.根据权利要求1所述的基于多层级特征融合的行人重识别方法,其特征在于:步骤2中,针对训练后行人重识别网络的测试,会输出该图像的t张同一ID图像;对输出结果先后采用两种重排序方式,图像查询和k近邻编码;图像查询通过一个查询图fq,图库中t个相似的特征图fg,通过计算返回的前t个结果,包括查询图本身,求取平均值得到新的查询特征图
Figure FDA0003461778250000031
新的查询特征图
Figure FDA0003461778250000032
被用作k近邻编码重排序,通过计算马氏距离和杰卡德距离,在图库中找到查询图的排序列表;
Figure FDA0003461778250000033
通过该重排序方法,将更多相似度高且互相关联的图像往前排,得到更精确的行人重识别排序结果。
4.根据权利要求1-3任意一项所述的基于多层级特征融合的行人重识别方法,其特征在于:步骤2和步骤3中,借助目标检测技术将图像裁剪成大小为256×128,通道数为3,之后使用随机擦除、图像翻转对输入图像进行预处理。
5.一种基于多层级特征融合的行人重识别系统,其特征在于,包括以下模块:
模块一,用于构建行人重识别网络,包括骨干网络、分支网络和聚合模块;
所述骨干网络基于ResNeSt-50网络,分成5层,其中第1层不加分裂模型,第2、3、4、5层分别添加分裂模型,该分裂模型的每层输入均不相同,若分裂模型输入图像通道数为c,沿通道维度平均分成k个基块组,在每个基块组内沿通道维度上继续分裂成r个分裂组,其中r、k为设置的超参数,c=k×r,r个分裂组先分别进行特征提取,k个基块组后通过通道数融合后与原始输入特征相加;
所述分支网络为采用金字塔卷积结构,卷积核的大小设置成3×3、5×5、7×7、9×9,卷积核递增的同时卷积核深度逐渐递减,同时每个金字塔卷积内通过分组卷积来降低计算量;金字塔卷积分别被应用在骨干网络的不同层,每层的卷积核尺度和深度各不相同,第2层卷积核尺度分别为3、5、7、9,深度均为64,第3层卷积核尺度为3、5、7,深度分别为128、128、256,第4层卷积尺度均为512,第5层卷积核尺度为3,深度为2048;
所述聚合模块,引入广义均值池化代替最后一层的平均池化;假设输入向量为χ,池化后的输出为f,最大池化公式:
Figure FDA0003461778250000041
其中,f(m)是输出f的第m个特征向量,
Figure FDA0003461778250000042
是f(m)的第k个特征值,共有K个特征值,
Figure FDA0003461778250000043
是输入向量χ中属于第k个特征值邻域内特征值的最大值;
平均池化公式:
Figure FDA0003461778250000044
广义均值池化公式:
Figure FDA0003461778250000045
公式(1)和公式(2)都是公式(3)特殊形式,pk是引入的超参数,通过反向传播可以自动学习到最优解,当pk=1时,公式(2)就是平均池化;当pk→∞时,公式(1)就是最大池化;
模块二,用于训练行人重识别网络,获得训练好的行人重识别网络;
从公开数据源中获取训练数据并预处理,将预处理后的图像数据分为训练集和测试集,将训练集送入行人重识别网络进行训练,获得训练后的行人重识别网络;通过测试集测试训练后的行人重识别网络,若满足预设要求,则停止训练,获得训练好的行人重识别网络,否则继续执行训练过程;
模块三,用于从视频中抽取图像帧,预处理后将图像送入训练好的行人重识别网络的骨干网络进行特征提取,同时利用分支网络通过卷积核的多尺度和多深度,提取不同尺度的细节信息;然后通过相加的方式将主干网络和各层级分支网络进行特征融合;最后通过表征学习和度量学习,找到行人图像在图像库中的其他图像,根据与原图像的相似度输出排名前N的行人图像。
CN202110381418.1A 2021-04-09 2021-04-09 一种基于多层级特征融合的行人重识别方法及系统 Active CN113516012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110381418.1A CN113516012B (zh) 2021-04-09 2021-04-09 一种基于多层级特征融合的行人重识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110381418.1A CN113516012B (zh) 2021-04-09 2021-04-09 一种基于多层级特征融合的行人重识别方法及系统

Publications (2)

Publication Number Publication Date
CN113516012A CN113516012A (zh) 2021-10-19
CN113516012B true CN113516012B (zh) 2022-04-15

Family

ID=78062277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110381418.1A Active CN113516012B (zh) 2021-04-09 2021-04-09 一种基于多层级特征融合的行人重识别方法及系统

Country Status (1)

Country Link
CN (1) CN113516012B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863505B (zh) * 2022-03-07 2024-04-16 武汉纺织大学 一种基于三叉戟卷积神经网络的行人重识别方法
CN115171165A (zh) * 2022-07-29 2022-10-11 南京邮电大学 全局特征与阶梯型局部特征融合的行人重识别方法及装置
CN115240121B (zh) * 2022-09-22 2023-01-03 之江实验室 一种用于增强行人局部特征的联合建模方法和装置
US11810366B1 (en) 2022-09-22 2023-11-07 Zhejiang Lab Joint modeling method and apparatus for enhancing local features of pedestrians
CN115830633B (zh) * 2022-11-24 2023-07-25 之江实验室 基于多任务学习残差神经网络的行人重识别方法和系统
CN115841683B (zh) * 2022-12-27 2023-06-20 石家庄铁道大学 一种联合多级特征的轻量行人重识别方法
CN116052218B (zh) * 2023-02-13 2023-07-18 中国矿业大学 一种行人重识别方法
CN116310358B (zh) * 2023-02-23 2023-12-15 哈尔滨市科佳通用机电股份有限公司 铁路货车螺栓丢失检测方法、存储介质及设备
CN116311387B (zh) * 2023-05-25 2023-09-01 浙江工业大学 一种基于特征交集的跨模态行人重识别方法
CN116524602B (zh) * 2023-07-03 2023-09-19 华东交通大学 基于步态特征的换衣行人重识别方法及系统
CN117789253B (zh) * 2024-02-23 2024-05-03 东北大学 一种基于双网络的视频行人重识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644426A (zh) * 2017-10-12 2018-01-30 中国科学技术大学 基于金字塔池化编解码结构的图像语义分割方法
CN109902590A (zh) * 2019-01-30 2019-06-18 西安理工大学 深度多视图特征距离学习的行人重识别方法
CN110334622A (zh) * 2019-06-24 2019-10-15 电子科技大学 基于自适应特征金字塔的行人检索方法
CN110717411A (zh) * 2019-09-23 2020-01-21 湖北工业大学 一种基于深层特征融合的行人重识别方法
CN110929685A (zh) * 2019-12-10 2020-03-27 电子科技大学 基于混合特征金字塔和混合膨胀卷积的行人检测网络结构
CN111783576A (zh) * 2020-06-18 2020-10-16 西安电子科技大学 基于改进型YOLOv3网络和特征融合的行人重识别方法
CN111931624A (zh) * 2020-08-03 2020-11-13 重庆邮电大学 基于注意力机制的轻量级多分支行人重识别方法及系统
CN112069943A (zh) * 2020-08-25 2020-12-11 西安工业大学 基于自顶向下框架的在线多人姿态估计与跟踪方法
CN112507861A (zh) * 2020-12-04 2021-03-16 江苏科技大学 一种多层卷积特征融合的行人检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163059B (zh) * 2018-10-30 2022-08-23 腾讯科技(深圳)有限公司 多人姿态识别方法、装置及电子设备
KR20200123501A (ko) * 2019-04-15 2020-10-30 현대자동차주식회사 차량의 객체 검출 장치 및 방법

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644426A (zh) * 2017-10-12 2018-01-30 中国科学技术大学 基于金字塔池化编解码结构的图像语义分割方法
CN109902590A (zh) * 2019-01-30 2019-06-18 西安理工大学 深度多视图特征距离学习的行人重识别方法
CN110334622A (zh) * 2019-06-24 2019-10-15 电子科技大学 基于自适应特征金字塔的行人检索方法
CN110717411A (zh) * 2019-09-23 2020-01-21 湖北工业大学 一种基于深层特征融合的行人重识别方法
CN110929685A (zh) * 2019-12-10 2020-03-27 电子科技大学 基于混合特征金字塔和混合膨胀卷积的行人检测网络结构
CN111783576A (zh) * 2020-06-18 2020-10-16 西安电子科技大学 基于改进型YOLOv3网络和特征融合的行人重识别方法
CN111931624A (zh) * 2020-08-03 2020-11-13 重庆邮电大学 基于注意力机制的轻量级多分支行人重识别方法及系统
CN112069943A (zh) * 2020-08-25 2020-12-11 西安工业大学 基于自顶向下框架的在线多人姿态估计与跟踪方法
CN112507861A (zh) * 2020-12-04 2021-03-16 江苏科技大学 一种多层卷积特征融合的行人检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
《FastReID: A Pytorch Toolbox for General Instance Re-identification》;Lingxiao He et al.;《https://arxiv.org/abs/2006.02631v4》;20200604;1-10 *
Bag of Tricks and A Strong Baseline for Deep Person Re-identification;Hao Luo et al.;《https://arxiv.org/abs/1903.07071v3》;20190317;1-9 *
Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition;Ionut Cosmin Duta et al.;《https://arxiv.org/abs/2006.11538》;20200620;1-16 *
ResNeSt: Split-Attention Networks;Hang Zhang et al.;《https://arxiv.org/abs/2004.08955v2》;20200419;1-12 *
基于深层特征融合的行人重识别方法;熊炜 等;《计算机工程与科学》;20200229;第42卷(第2期);1-7 *
多任务金字塔重叠匹配的行人重识别方法;徐龙壮 等;《计算机工程》;20210131;第47卷(第1期);1-8 *

Also Published As

Publication number Publication date
CN113516012A (zh) 2021-10-19

Similar Documents

Publication Publication Date Title
CN113516012B (zh) 一种基于多层级特征融合的行人重识别方法及系统
CN108960140B (zh) 基于多区域特征提取和融合的行人再识别方法
CN106096561B (zh) 基于图像块深度学习特征的红外行人检测方法
Cao et al. A pixel-level segmentation convolutional neural network based on deep feature fusion for surface defect detection
CN107577990B (zh) 一种基于gpu加速检索的大规模人脸识别方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN107633226B (zh) 一种人体动作跟踪特征处理方法
CN109165540B (zh) 一种基于先验候选框选择策略的行人搜索方法和装置
CN112633382B (zh) 一种基于互近邻的少样本图像分类方法及系统
CN113221641B (zh) 基于生成对抗网络和注意力机制的视频行人重识别方法
CN108875610B (zh) 一种基于边界查找的用于视频中动作时间轴定位的方法
CN111881714A (zh) 一种无监督跨域行人再识别方法
CN109063649B (zh) 基于孪生行人对齐残差网络的行人重识别方法
CN105574505A (zh) 一种多摄像机间人体目标再识别的方法及系统
CN111506773B (zh) 一种基于无监督深度孪生网络的视频去重方法
CN115171165A (zh) 全局特征与阶梯型局部特征融合的行人重识别方法及装置
CN111027377B (zh) 一种双流神经网络时序动作定位方法
CN109919073B (zh) 一种具有光照鲁棒性的行人再识别方法
CN112818790A (zh) 一种基于注意力机制与空间几何约束的行人重识别方法
CN116091946A (zh) 一种基于YOLOv5的无人机航拍图像目标检测方法
CN108875448B (zh) 一种行人再识别方法及装置
CN109359530B (zh) 一种智能视频监控方法及装置
CN109241315B (zh) 一种基于深度学习的快速人脸检索方法
CN111242003B (zh) 一种基于多尺度受约束自注意机制的视频显著性物体检测的方法
Liao et al. A flower classification method combining DenseNet architecture with SVM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant