CN111709311B - 一种基于多尺度卷积特征融合的行人重识别方法 - Google Patents
一种基于多尺度卷积特征融合的行人重识别方法 Download PDFInfo
- Publication number
- CN111709311B CN111709311B CN202010460003.9A CN202010460003A CN111709311B CN 111709311 B CN111709311 B CN 111709311B CN 202010460003 A CN202010460003 A CN 202010460003A CN 111709311 B CN111709311 B CN 111709311B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- feature
- distance
- network
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000004927 fusion Effects 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 40
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000010586 diagram Methods 0.000 claims abstract description 6
- 210000005036 nerve Anatomy 0.000 claims abstract description 5
- 230000001537 neural effect Effects 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 47
- 238000011176 pooling Methods 0.000 claims description 25
- 210000002569 neuron Anatomy 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 8
- 238000011478 gradient descent method Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多尺度卷积特征融合的行人重识别方法,首先对行人图片预处理;将Resnet‑50卷积神经网络作为骨干网络构建多层卷积神经网络,将处理后的图像作为样本数据输入到多层卷积神经网络中,得到卷积后的特征图;构建多尺度卷积神经单元;利用多尺度卷积神经单元计算原始特征距离,给定查询图像,通过将其k‑倒数最近邻编码为单个向量来计算k‑倒数特征,该单个矢量用于在雅克比距离下重新排序,最终距离计算为原始距离与雅克比距离的组合;本发明方法大幅度提高行人重识别的精度,并能广泛应用于行人重识别领域;本发明基于多尺度卷积特征融合的行人重识别算法也适合于图像检索领域,能大幅提高图像检索的精度。
Description
技术领域
本发明属于图像分析及图像识别技术领域,具体涉及一种基于多尺度卷积特征融合的行人重识别方法。
背景技术
行人重识别的目的是识别在不同位置以及不同摄像机视图中拍摄到的相同的行人并广泛应用于行人检索和摄像机跟踪任务的视频分析中。当在众多的视频序列中搜索特定的行人时,利用行人重识别系统可以节省时间和成本,因此利用身体外观的行人重识别已经受到越来越多的关注,但是由于行人容易受到姿态、照明、背景以及遮挡等方面的影响,使得行人重识别方法在本质上具有挑战性。
目前,具有深层的卷积神经网络的行人重识别取得了进展并且取得了高的识别率,许多先进的方法都设计了复杂的网络结构并连接了多分支网络,这些工作都集中在学习对行人姿势、照明和视角变化具有鲁棒性的判别性特征表示,以使用卷积神经网络提高行人的识别率。因为行人重识别的识别率的高低很大程度上取决于行人特征的鲁棒性,获取的行人图像的特征表示越全面,得到的行人重识别的精确度越高。为了更好的提高模型的鲁棒性,一些有效的训练技巧也被应用到行人重识别领域。因为随着视角的变化,行人的面部、手和脚等身体部位极不稳定,而卷积神经网络主要集中在行人的主干部分,因此抑制了对行人其他身体部位的描述;Fan等人(Xing Fan,Hao Luo,Xuan Zhang,et al.SCPNet:Spatial-Channel Parallelism Network for Joint Holistic and Partial Person Re-Identification[C]//Asian Conference on Computer Vision.Springer,Cham,2018)提出了一个空间通道并行网络(Spatial-Channel Parallelism Network,SCPNet),提供了行人身体某一块空间区域的特征,并利用空间-通道相关性来监督网络学习一个鲁棒的特征,该方法在训练阶段有效地使用局部特征来利用全局特征。Dai等人(Z.Dai,M.Chen,X.Gu,S.Zhu and P.Tan,"Batch DropBlock Network for Person Re-Identification andBeyond,"2019IEEE/CVF International Conference on Computer Vision(ICCV),Seoul,Korea(South),2019,pp.3690-3700.)提出了批处理丢弃块(Batch DropBlock,BDB)网络,该模型以ResNet-50作为骨干网络,将骨干网络作为全局分支和特征删除分支组成两个分支网络,其中全局分支主要针对行人图像的全局特征提取,特征擦除分支主要通过批量随机擦除所有输入特征图的相同区域,以加强对行人图像局部区域特征的学习功能,最后,网络将两个分支得到的特征进行串联,得到了更全面和具有判别力的特征表示。
深度卷积神经网络已经证明了行人重识别的突破精度,从CNN学到的一系列特征提取器已经用于其他计算机视觉任务。来自CNN不同层次的特征旨在编码不同层次的信息,一系列从低层到高层的特征提取器可以从大规模的训练数据中以端到端的方式自动学习。不同层次的特征有着各自不同的特点,低层特征分辨率更高,包含更多位置和细节信息,用于度量细粒度的相似度,但是由于其经过的卷积层数较低,包含噪声较多,语义性不强,容易受到背景混乱和语义杂波的影响。高层特征具有更强的语义信息,用于度量语义的相似度,但其分辨率较低,对细节的感知能力较差,不足以描述图像细粒度的细节,因此如何将两者有效结合是提高识别准确率的关键。
发明内容
本发明的目的是提供一种多尺度卷积特征融合的行人重识别方法,充分利用不同层次的卷积特征的更多的互补优势,在骨干网络的基础上应用一系列优化技巧,把经过ResNet-50网络第2,3,4阶段的特征分别进行池化操作,得到多尺度特征,将这些不同层次的卷积特征进行拼接以测试图像,利用低层和高层特征的互补性来提高查询图像和其他候选图像之间的相似性度量。
本发明所采用的技术方案是,一种多尺度卷积特征融合的行人重识别方法,其特征在于,具体按以下步骤实施:
步骤1,数据预处理;
步骤2,将Resnet-50卷积神经网络作为骨干网络,构建多层卷积神经网络,将步骤1得到的处理后的图像作为样本数据输入到多层卷积神经网络中,得到卷积后的特征图;
步骤3,构建多尺度卷积神经单元;
步骤4,计算原始特征距离,将查询目标行人图像和候选行人图像集中每个行人图像输入到经步骤3训练好的网络模型中,计算查询目标行人图像特征与候选行人集中每个行人图像特征的原始特征距离;
步骤5,重排序策略,给定查询图像,通过将其k-倒数最近邻编码为单个向量来计算k-倒数特征,该单个矢量用于在雅克比距离下重新排序,最终距离计算为原始距离与雅克比距离的组合。
本发明的特点还在于:
其中步骤1具体操作包括以下步骤:
步骤1.1,将Resnet-50卷积网络作为骨干网络,将行人图片统一变换为长256宽128的大小,采用ImageNet中真实图像的RGB三通道均值和标准差来归一化输入图像,并使用随机翻转来进行数据增强;
步骤1.2,在经步骤1.1数据增强后,使用随机擦除增强策略来进行数据预处理;
其中步骤2具体操作包括以下步骤:
步骤2.1,将步骤1处理后的行人图片输入到网络中;骨干网络采用Resnet-50网络;
步骤2.2,提取特征图,分别提取Resnet-50网络卷积层第2阶段和第3阶段得到的特征图,并经Resnet-50网络第4阶段得到的特征图深度复制为两份,总共得到4个特征图;
其中步骤3具体操作包括以下步骤:将经步骤2得到的多层的卷积特征图经过池化处理以后进行特征拼接,使用动态学习率机制将得到的每一个特征向量进行独立分类,将池化后得到的特征向量通过一个卷积层、一个批量归一化层和一个ReLU层,通过Tripletloss和Softmax loss损失将维数进一步降低到512维,最后使用梯度下降法优化得到分类损失,得到网络训练模型;
其中步骤3中构建多尺度卷积神经单元包括以下步骤:
步骤3.1,池化策略,将步骤2.2得到的经过卷积第2阶段和第3阶段得到的特征图,分别经过全局最大池化和全局平均池化,得到包含特征信息的1024维和2048维的特征向量;在ResNet-50的第4阶段之后,卷积核的步长由2变为1,然后将得到的特征图深度复制为两份,将经过第4阶段得到的深度复制以后的特征向量分别采用全局平均池化和全局最大池化策略,得到包含高层次特征信息的特征向量;
步骤3.2,学习率的设置,用前10个周期从3.5′10-5到3.5′10-4线性增加学习率;然后,在第40个和第70个学习周期,学习率分别下降到3.5′10-5和3.5′10-6;在第t个周期的学习率lr(t)计算为:
步骤3.3,在步骤3.2学习率设置的基础上,将经过步骤3.1得到的每一个特征向量进行独立分类,并将池化后得到的特征向量通过一个卷积层、一个批量归一化层和一个ReLU层;
步骤3.4,损失函数的设置,将步骤3.1得到的特征向量分别输入到损失函数中,softmax函数的公式表示为:
式中,Si代表的是第i个神经元的输出,zi为第i个节点的输出值,k为输出节点的个数,即分类的类别个数;
式中,wij为是第i个神经元的第j个权重;b表示每个神经元的偏置值;zi表示该网络的第i个输出,xij表示网络第i个神经元的输入值;
给zi加上一个softmax函数,为:
ai表示这个输入图像对应的第i类的概率值的大小,每类ai的取值范围是[0,1]区间内;zi为第i个节点的输出值,k为输出节点的个数,即分类的类别个数;
步骤3.5,经步骤3.4分别求出所有所属类别的概率值后,在神经网络后面添加softmax函数,经过softmax loss得出的值就是预测的结果,因此可以使用交叉熵函数来作为损失函数;因此softmax的损失函数为:
式中,yi是神经元的输出也可以作为预测结果;是第i个类别的真实值,/>只能取值0或者1,在softmax中取以e为底的对数;
步骤3.6,将三元组损失结合softmax损失应用在网络模型中,在使用三元组损失函数时,将是三张图片作为网络的输入,其中/>是锚点样本,是在训练数据集中随机选取的一个样本,/>表示与锚点样本属于同一行人标签的样本,即正样本,代表与锚点样本不属于同一行人标签的样本,即负样本;在特征提取时,输入相同的网络结构,经过特征提取之后计算损失函数的公式如下:
式中:
表示正样本与锚点样本的欧氏距离度量值,即类内距离;
代表负样本与锚点样本的欧式度量值,即类间距离;
α是指与/>之间的距离和/>与/>之间的距离之间有一个最小的间隔;
+表示[]内的值大于零时,该值为损失值,小于零的时候,损失为零;
步骤3.6,最终的损失函数表示为:
式中,m代表损失函数的个数,Lsoftmax表示使用softmax函数得到损失值,Ltriplet表示使用trilpet函数得到的损失值;
步骤3.8,最后使用随机梯度下降法优化得到的分类损失;
其中步骤4具体操作包括以下步骤:
步骤4.1,在测试阶段,将获得的不同卷积层的特征进行拼接操作,使用多个不同的特征向量的融合来预测行人身份;
步骤4.2,利用欧氏距离公式,计算查询目标行人图像特征与候选行人集中每个行人图像特征的特征距离;给定一个测试图行人p和参考图像集G={gi|i=1,2,...,N},两个行人图像p和gi之间的原始距离可以通过马氏距离来测量,
式中,xp代表测试图像p的外观特征;代表参考图像gi的外观特征;M表示半正定矩阵;
其中步骤5具体操作包括以下步骤:
步骤5.1,定义一个更具有鲁棒性的集合:
对于原来的集合R(p,k)中的每一个测试样本q,找到它们的k-倒数最近邻集合在重合样本数量达到一定的条件时,求其与R(p,k)的并集,将原本不在R(p,k)集合中匹配的正样本重新包含在集合中;
步骤5.2,使用高斯核将检索图像的k倒排最近邻集合编码成N维向量,定义为 设置为:
步骤5.3,计算雅克比距离时用到的交集的基数就改写为:
步骤5.4,最终得到的雅克比距离如下:
步骤5.5,则最终计算距离如下:
d*(p,gi)=(1-λ)dJ(p,gi)+λd(p,gi) (14)
通过结合步骤4.2得到的原始马氏距离和雅克比距离对初始的排序进行重排序,其最终距离为两个距离的加权和,根据最终距离得到匹配的等级。
本发明的有益效果是:
本发明通过设计基于多尺度卷积特征融合的行人重识别的算法,能明显提高行人重识别的鲁棒性;通过行人重识别数据集,在使用优化技巧的基础上重新训练了网络模型Resnet-50,使网络模型能够判别不同身份的行人;对多层卷积特征今天不同的池化策略处理后得到的特征描述子用于行人重识别,提高行人重识别的性能;该方法利用不同层次的卷积特征的互补优势,在训练阶段,在应用一系列优化技巧的基础上,使用全局平均池化和全局最大池化对多个卷积特征图进行池化操作,并结合多个损失函数,得到多个特征向量,并对每一个特征向量进行独立分类,最后使用梯度下降法优化所有的损失函数。在测试阶段,将池化后的多个特征向量拼接成一个新的特征向量,使用新的特征向量进行相似性度量。大幅度提高行人重识别的精度,并能广泛应用于行人重识别领域;本发明基于多尺度卷积特征融合的行人重识别算法也适合于图像检索领域,能大幅提高图像检索的精度。
附图说明
图1是本发明的一种多尺度卷积特征融合的行人重识别方法的框架图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明提供了一种多尺度卷积特征融合的行人重识别方法,具体按以下步骤实施:
步骤1,数据预处理:
步骤1.1,将Resnet-50卷积网络作为骨干网络,将行人图片统一变换为长256宽128的大小,采用ImageNet中真实图像的RGB三通道均值和标准差来归一化输入图像,并使用随机翻转来进行数据增强;
步骤1.2,在经步骤1.1数据增强后,使用随机擦除增强策略来进行数据预处理;
步骤2,将Resnet-50卷积神经网络作为骨干网络,构建多层卷积神经网络,将步骤1得到的处理后的图像作为样本数据输入到多层卷积神经网络中,得到卷积后的特征图:
步骤2.1,将步骤1得到的行人图片输入到网络中。骨干网络采用Resnet-50网络,ResNet-50网络结构一般分为5个阶段,若给定输入图像尺寸为(224,224,3),其中224代表图像的宽度和高度,3代表RGB三个通道,每经过一层,其输出的图像尺寸会变为上一层的一半。本发明只利用网络的前四个阶段,并在ResNet-50的第4阶段之后,卷积核的步长由2变为1,以获得包含更多细节信息的行人图片;
步骤2.2,提取特征图,分别提取Resnet-50网络卷积层第2阶段和第3阶段得到的特征图,并经网络第4阶段得到的特征图深度复制为两份,总共得到4个特征图;
步骤3,构建多尺度卷积神经单元:
将经步骤2得到的多层的卷积特征图经过池化处理以后进行特征拼接,使用动态学习率机制将得到的每一个特征向量进行独立分类,将池化后得到的特征向量通过一个卷积层、一个批量归一化层和一个ReLU层,通过triplet loss和softmax loss损失将维数进一步降低到512维,最后使用梯度下降法优化得到分类损失,得到网络训练模型;
构建多尺度卷积神经单元包括以下步骤:
步骤3.1,池化策略,将步骤2.2得到的经过卷积第2阶段和第3阶段得到的特征图,分别经过全局最大池化和全局平均池化,得到包含特征信息的1024维和2048维的特征向量;在ResNet-50的第4阶段之后,卷积核的步长由2变为1,然后将得到的特征图深度复制为两份,将经过第4阶段得到的深度复制以后的特征向量分别采用全局平均池化和全局最大池化策略,得到包含高层次特征信息的特征向量;
步骤3.2,学习率的设置,用前10个周期从3.5′10-5到3.5′10-4线性增加学习率。然后,在第40个和第70个学习周期,学习率分别下降到3.5′10-5和3.5′10-6;在第t个周期的学习率lr(t)计算为:
步骤3.3,在步骤3.2学习率设置的基础上,将经过步骤3.1得到的每一个特征向量进行独立分类,并将池化后得到的特征向量通过一个卷积层、一个批量归一化层和一个ReLU层;
步骤3.4,损失函数的设置,将步骤3.1得到的特征向量分别输入到损失函数中,softmax函数的公式表示为:
式中,Si代表的是第i个神经元的输出,zi为第i个节点的输出值,k为输出节点的个数,即分类的类别个数;
式中,wij为是第i个神经元的第j个权重;b表示每个神经元的偏置值;zi表示该网络的第i个输出,xij表示网络第i个神经元的输入值;
给zi加上一个softmax函数,为:
ai表示这个输入图像对应的第i类的概率值的大小,每类ai的取值范围是[0,1]区间内;zi为第i个节点的输出值,k为输出节点的个数,即分类的类别个数;
步骤3.5,经步骤3.4分别求出所有所属类别的概率值后,在神经网络后面添加softmax函数,经过softmax loss得出的值就是预测的结果,因此可以使用交叉熵函数来作为损失函数;因此softmax的损失函数为:
式中,yi是神经元的输出也可以作为预测结果;是第i个类别的真实值,/>只能取值0或者1,在softmax中取以e为底的对数;
步骤3.6,将三元组损失结合softmax损失应用在网络模型中,在使用三元组损失函数时,将是三张图片作为网络的输入,其中/>是锚点样本,是在训练数据集中随机选取的一个样本,/>表示与锚点样本属于同一行人标签的样本,即正样本,代表与锚点样本不属于同一行人标签的样本,即负样本;在特征提取时,输入相同的网络结构,经过特征提取之后计算损失函数的公式如下:
式中:
表示正样本与锚点样本的欧氏距离度量值,即类内距离;
代表负样本与锚点样本的欧式度量值,即类间距离;
α是指与/>之间的距离和/>与/>之间的距离之间有一个最小的间隔;
+表示[]内的值大于零时,该值为损失值,小于零的时候,损失为零;
步骤3.6,最终的损失函数表示为:
式中,m代表损失函数的个数,Lsoftmax表示使用softmax函数得到损失值,Ltriplet表示使用trilpet函数得到的损失值;
步骤3.8,最后使用随机梯度下降法优化得到的分类损失;
步骤4,计算原始特征距离,将查询目标行人图像和候选行人图像集中每个行人图像输入到经步骤3训练好的网络模型中,计算查询目标行人图像特征与候选行人集中每个行人图像特征的原始特征距离:
步骤4.1,在测试阶段,将获得的不同卷积层的特征进行拼接操作,使用多个不同的特征向量的融合来预测行人身份;
步骤4.2,利用欧氏距离公式,计算查询目标行人图像特征与候选行人集中每个行人图像特征的特征距离;给定一个测试图行人p和参考图像集G={gi|i=1,2,...,N},两个行人图像p和gi之间的原始距离可以通过马氏距离来测量,
式中,xp代表测试图像p的外观特征;代表参考图像gi的外观特征;M表示半正定矩阵;
步骤5,重排序策略,给定查询图像,通过将其k-倒数最近邻编码为单个向量来计算k-倒数特征,该单个矢量用于在雅克比距离下重新排序,最终距离计算为原始距离与雅克比距离的组合;
步骤5具体操作包括以下步骤:
步骤5.1,定义一个更具有鲁棒性的集合:
对于原来的集合R(p,k)中的每一个测试样本q,找到它们的k-倒数最近邻集合在重合样本数量达到一定的条件时,求其与R(p,k)的并集,将原本不在R(p,k)集合中匹配的正样本重新包含在集合中;
步骤5.2,使用高斯核将检索图像的k倒排最近邻集合编码成N维向量,定义为 设置为:
步骤5.3,计算雅克比距离时用到的交集的基数就改写为:
步骤5.4,最终得到的雅克比距离如下:
步骤5.5,则最终计算距离如下:
d*(p,gi)=(1-λ)dJ(p,gi)+λd(p,gi) (14)
通过结合步骤4.2得到的原始马氏距离和雅克比距离对初始的排序进行重排序,其最终距离为两个距离的加权和,根据最终距离得到匹配的等级。
多尺度卷积特征融合的行人重识别方法算法的框架图,如图1所示,从算法输入输出来看,本发明输入两个图像库(查询图库、待处理图像库),其中两幅图像在训练的Resnet-50的特征提取阶段经过,得到多个卷积特征;
从算法的流程来看;利用不同层次的卷积特征的更多互补优势,提出了一种基于多尺度卷积特征融合的行人重识别方法,所提的多尺度卷积特征融合方法如图1所示,主要分为以下几个部分:
1)在骨干网络的基础上应用一系列优化技巧,将第4阶段卷积核的步幅由2设置为1,增加特征图的尺寸,应用随机擦除的数据增强方法和动态学习率机制,增加网络模型的鲁棒性,使得模型的性能更好。归一化每个分类器的权重与特征,使得损失函数只优化权重与特征之间的角度,提升了分类性能;
2)把经过ResNet-50网络第2,3,4阶段的特征分别进行池化操作,得到多尺度特征,并将得到的特征进行独立分类,同时使用softmax loss和triplet loss函数,弥补判别特征信息不足的缺陷;
3)在测试阶段,将获得的不同卷积层的特征进行拼接操作,使用多个不同的特征向量的融合来预测行人身份。
Claims (4)
1.一种多尺度卷积特征融合的行人重识别方法,其特征在于,具体按以下步骤实施:
步骤1,数据预处理;
步骤2,将Resnet-50卷积神经网络作为骨干网络,构建多层卷积神经网络,将步骤1得到的处理后的图像作为样本数据输入到多层卷积神经网络中,得到卷积后的特征图:
步骤2.1,将步骤1处理后的行人图片输入到网络中;骨干网络采用Resnet-50网络;
步骤2.2,提取特征图,分别提取Resnet-50网络卷积层第2阶段和第3阶段得到的特征图,并经Resnet-50网络第4阶段得到的特征图深度复制为两份,总共得到4个特征图;
步骤3,构建多尺度卷积神经单元,具体操作包括以下步骤:将经步骤2得到的多层的卷积特征图经过池化处理以后进行特征拼接,使用动态学习率机制将得到的每一个特征向量进行独立分类,将池化后得到的特征向量通过一个卷积层、一个批量归一化层和一个ReLU层,通过triplet loss和softmax loss损失将维数进一步降低到512维,最后使用梯度下降法优化得到分类损失,得到网络训练模型;
构建多尺度卷积神经单元包括以下步骤:
步骤3.1,池化策略,将步骤2.2得到的经过卷积第2阶段和第3阶段得到的特征图,分别经过全局最大池化和全局平均池化,得到包含特征信息的1024维和2048维的特征向量;在ResNet-50的第4阶段之后,卷积核的步长由2变为1,然后将得到的特征图深度复制为两份,将经过第4阶段得到的深度复制以后的特征向量分别采用全局平均池化和全局最大池化策略,得到包含高层次特征信息的特征向量;
步骤3.2,学习率的设置,用前10个周期从3.5×10-5到3.5×10-4线性增加学习率;然后,在第40个和第70个学习周期,学习率分别下降到3.5×10-5和3.5×10-6;在第t个周期的学习率lr(t)计算为:
步骤3.3,在步骤3.2学习率设置的基础上,将经过步骤3.1得到的每一个特征向量进行独立分类,并将池化后得到的特征向量通过一个卷积层、一个批量归一化层和一个ReLU层;
步骤3.4,损失函数的设置,将步骤3.1得到的特征向量分别输入到损失函数中,softmax函数的公式表示为:
式中,Si代表的是第i个神经元的输出,zi为第i个节点的输出值,k为输出节点的个数,即分类的类别个数;
式中,wij为是第i个神经元的第j个权重;b表示每个神经元的偏置值;zi表示该网络的第i个输出,xij表示网络第i个神经元的输入值;
给zi加上一个softmax函数,为:
ai表示这个输入图像对应的第i类的概率值的大小,每类ai的取值范围是[0,1]区间内;zi为第i个节点的输出值,k为输出节点的个数,即分类的类别个数;
步骤3.5,经步骤3.4分别求出所有所属类别的概率值后,在神经网络后面添加softmax函数,经过softmax loss得出的值就是预测的结果,因此可以使用交叉熵函数来作为损失函数;因此softmax的损失函数为:
式中,yi是神经元的输出也可以作为预测结果;是第i个类别的真实值,/>只能取值0或者1,在softmax中取以e为底的对数;
步骤3.6,将三元组损失结合softmax损失应用在网络模型中,在使用三元组损失函数时,将是三张图片作为网络的输入,其中/>是锚点样本,是在训练数据集中随机选取的一个样本,/>表示与锚点样本属于同一行人标签的样本,即正样本,/>代表与锚点样本不属于同一行人标签的样本,即负样本;在特征提取时,输入相同的网络结构,经过特征提取之后计算损失函数的公式如下:
式中:
表示正样本与锚点样本的欧氏距离度量值,即类内距离;
代表负样本与锚点样本的欧式度量值,即类间距离;
α是指与/>之间的距离和/>与/>之间的距离之间有一个最小的间隔;
+表示[]内的值大于零时,该值为损失值,小于零的时候,损失为零;
步骤3.6,最终的损失函数表示为:
式中,m代表损失函数的个数,Lsoftmax表示使用softmax函数得到损失值,Ltriplet表示使用trilpet函数得到的损失值;
步骤3.8,最后使用随机梯度下降法优化得到的分类损失;
步骤4,计算原始特征距离,将查询目标行人图像和候选行人图像集中每个行人图像输入到经步骤3训练好的网络模型中,计算查询目标行人图像特征与候选行人集中每个行人图像特征的原始特征距离;
步骤5,重排序策略,给定查询图像,通过将其k-倒数最近邻编码为单个向量来计算k-倒数特征,该单个矢量用于在雅克比距离下重新排序,最终距离计算为原始距离与雅克比距离的组合。
2.根据权利要求1所述的一种多尺度卷积特征融合的行人重识别方法,其特征在于,所述步骤1具体操作包括以下步骤:
步骤1.1,将Resnet-50卷积网络作为骨干网络,将行人图片统一变换为长256宽128的大小,采用ImageNet中真实图像的RGB三通道均值和标准差来归一化输入图像,并使用随机翻转来进行数据增强;
步骤1.2,在经步骤1.1数据增强后,使用随机擦除增强策略来进行数据预处理。
3.根据权利要求1所述的一种多尺度卷积特征融合的行人重识别方法,其特征在于,所述步骤4具体操作包括以下步骤:
步骤4.1,在测试阶段,将获得的不同卷积层的特征进行拼接操作,使用多个不同的特征向量的融合来预测行人身份;
步骤4.2,利用欧氏距离公式,计算查询目标行人图像特征与候选行人集中每个行人图像特征的特征距离;给定一个测试图行人p和参考图像集G={gi|i=1,2,...,N},两个行人图像p和gi之间的原始距离可以通过马氏距离来测量,
式中,xp代表测试图像p的外观特征;代表参考图像gi的外观特征;M表示半正定矩阵。
4.根据权利要求1所述的一种多尺度卷积特征融合的行人重识别方法,其特征在于,所述步骤5具体操作包括以下步骤:
步骤5.1,定义一个更具有鲁棒性的集合:
对于原来的集合R(p,k)中的每一个测试样本q,找到它们的k-倒数最近邻集合在重合样本数量达到一定的条件时,求其与R(p,k)的并集,将原本不在R(p,k)集合中匹配的正样本重新包含在集合中;
步骤5.2,使用高斯核将检索图像的k倒排最近邻集合编码成N维向量,定义为 设置为:
步骤5.3,计算雅克比距离时用到的交集的基数就改写为:
步骤5.4,最终得到的雅克比距离如下:
步骤5.5,则最终计算距离如下:
d*(p,gi)=(1-λ)dJ(p,gi)+λd(p,gi) (14)
通过结合步骤4.2得到的原始马氏距离和雅克比距离对初始的排序进行重排序,其最终距离为两个距离的加权和,根据最终距离得到匹配的等级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010460003.9A CN111709311B (zh) | 2020-05-27 | 2020-05-27 | 一种基于多尺度卷积特征融合的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010460003.9A CN111709311B (zh) | 2020-05-27 | 2020-05-27 | 一种基于多尺度卷积特征融合的行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111709311A CN111709311A (zh) | 2020-09-25 |
CN111709311B true CN111709311B (zh) | 2023-11-28 |
Family
ID=72538215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010460003.9A Active CN111709311B (zh) | 2020-05-27 | 2020-05-27 | 一种基于多尺度卷积特征融合的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111709311B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985367A (zh) * | 2020-08-07 | 2020-11-24 | 湖南大学 | 一种基于多尺度特征融合的行人重识别特征提取方法 |
CN112347855A (zh) * | 2020-10-12 | 2021-02-09 | 西安电子科技大学青岛计算技术研究院 | 一种基于深度学习的生物特征模板保护方法及装置 |
CN112183468A (zh) * | 2020-10-27 | 2021-01-05 | 南京信息工程大学 | 一种基于多注意力联合多级特征的行人再识别方法 |
CN112446305A (zh) * | 2020-11-10 | 2021-03-05 | 云南联合视觉科技有限公司 | 一种基于分类权重等距分布损失模型的行人重识别方法 |
CN112464775A (zh) * | 2020-11-21 | 2021-03-09 | 西北工业大学 | 一种基于多分支网络的视频目标重识别方法 |
CN112633229A (zh) * | 2020-12-31 | 2021-04-09 | 天津大学 | 一种基于spd流形的行人重识别系统 |
CN112766353B (zh) * | 2021-01-13 | 2023-07-21 | 南京信息工程大学 | 一种加强局部注意的双分支车辆再识别方法 |
CN112528059A (zh) * | 2021-02-08 | 2021-03-19 | 南京理工大学 | 基于深度学习的交通目标图像检索方法、装置及可读介质 |
CN112986210B (zh) * | 2021-02-10 | 2021-12-17 | 四川大学 | 一种尺度自适应的微生物拉曼光谱检测方法及系统 |
CN112836673B (zh) * | 2021-02-27 | 2024-06-04 | 西北工业大学 | 一种基于实例感知和匹配感知的重识别方法 |
CN113378729B (zh) * | 2021-06-16 | 2024-05-10 | 西安理工大学 | 一种基于位姿嵌入的多尺度卷积特征融合行人重识别方法 |
CN113628104B (zh) * | 2021-08-30 | 2022-09-20 | 中国人民解放军国防科技大学 | 针对无序图像增量式SfM的初始图像对选取方法 |
CN113822419B (zh) * | 2021-09-26 | 2023-08-01 | 广东技术师范大学 | 一种基于结构信息的自监督图表示学习运行方法 |
CN117612266B (zh) * | 2024-01-24 | 2024-04-19 | 南京信息工程大学 | 基于多尺度图像及特征层对齐的跨分辨率行人重识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399362B (zh) * | 2018-01-24 | 2022-01-07 | 中山大学 | 一种快速行人检测方法及装置 |
CN109948425B (zh) * | 2019-01-22 | 2023-06-09 | 中国矿业大学 | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 |
CN110781817B (zh) * | 2019-10-25 | 2022-05-17 | 南京大学 | 一种解决部件不对齐的行人再识别方法 |
-
2020
- 2020-05-27 CN CN202010460003.9A patent/CN111709311B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111709311A (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN111126360B (zh) | 基于无监督联合多损失模型的跨域行人重识别方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN111783576B (zh) | 基于改进型YOLOv3网络和特征融合的行人重识别方法 | |
CN111259850A (zh) | 一种融合随机批掩膜和多尺度表征学习的行人重识别方法 | |
CN110263697A (zh) | 基于无监督学习的行人重识别方法、装置及介质 | |
CN107067413B (zh) | 一种时空域统计匹配局部特征的运动目标检测方法 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN109255289B (zh) | 一种基于统一式生成模型的跨衰老人脸识别方法 | |
CN111666843A (zh) | 一种基于全局特征和局部特征拼接的行人重识别方法 | |
CN110163117B (zh) | 一种基于自激励判别性特征学习的行人重识别方法 | |
CN112149538A (zh) | 一种基于多任务学习的行人重识别方法 | |
CN112800967B (zh) | 一种姿态驱动的遮挡行人重识别方法 | |
Putro et al. | High performance and efficient real-time face detector on central processing unit based on convolutional neural network | |
CN104376308B (zh) | 一种基于多任务学习的人体动作识别方法 | |
CN113920472A (zh) | 一种基于注意力机制的无监督目标重识别方法及系统 | |
CN112434599A (zh) | 一种基于噪声通道的随机遮挡恢复的行人重识别方法 | |
Symeonidis et al. | Neural attention-driven non-maximum suppression for person detection | |
CN111104911A (zh) | 一种基于大数据训练的行人重识别方法及装置 | |
Wang et al. | Multiple pedestrian tracking with graph attention map on urban road scene | |
CN109492702B (zh) | 基于排序度量函数的行人重识别方法、系统、装置 | |
Najibi et al. | Towards the success rate of one: Real-time unconstrained salient object detection | |
CN114743257A (zh) | 图像目标行为的检测识别方法 | |
Pang et al. | Target tracking based on siamese convolution neural networks | |
CN115050044A (zh) | 一种基于MLP-Mixer的跨模态行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |