CN116503914B - 行人重识别方法、系统、可读存储介质及计算机设备 - Google Patents

行人重识别方法、系统、可读存储介质及计算机设备 Download PDF

Info

Publication number
CN116503914B
CN116503914B CN202310760280.5A CN202310760280A CN116503914B CN 116503914 B CN116503914 B CN 116503914B CN 202310760280 A CN202310760280 A CN 202310760280A CN 116503914 B CN116503914 B CN 116503914B
Authority
CN
China
Prior art keywords
pedestrian
feature
representing
activation
tensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310760280.5A
Other languages
English (en)
Other versions
CN116503914A (zh
Inventor
涂宏斌
胡剑文
罗会源
彭圆圆
徐任玉
高晨
李启翔
章翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202310760280.5A priority Critical patent/CN116503914B/zh
Publication of CN116503914A publication Critical patent/CN116503914A/zh
Application granted granted Critical
Publication of CN116503914B publication Critical patent/CN116503914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明提出行人重识别方法、系统、可读存储介质及计算机设备,该方法包括:对历史行人图像进行特征提取;沿着水平坐标和垂直坐标分别对特征张量进行编码,并将水平特征和垂直特征进行级联转换,并根据在水平方向和在垂直方向上的中间特征图获取注意力特征图;根据注意力特征图获取池化核域中每个激活值所对应的激活权重,以根据激活权重对池化核域内所有激活值的加权求和;将加权求和值编码映射到欧式空间,以计算出样本的类中心,并根据样本的类中心计算出类中心三元组损失,并根据类中心三元组损失迭代训练出行人重识别模型。本发明能够传统技术行人重识别准确率较低的问题。

Description

行人重识别方法、系统、可读存储介质及计算机设备
技术领域
本发明涉及图像识别技术领域,特别涉及一种行人重识别方法、系统、可读存储介质及计算机设备。
背景技术
近年来,随着智能安防和视频监控领域的需求与日俱增,行人重识别(ReID)受到了越来越多研究学者的关注和研究。行人重识别可以看成一个图像检索任务,利用计算机视觉技术判断给定的图像或视频序列中是否存在特定行人,即给定一张待识别的行人图像,在其它摄像头拍摄到的视频中检索出与待识别行人具有相同身份的行人图像。其在计算机视觉领域的行人追踪、智能监控等方面具有重要作用。
随着深度学习的不断发展,在计算机视觉领域更深层的网络被应用到行人重识别任务中,优化了识别效果。但随着更深层网络的提出,底层细节信息随着卷积层的加深往往会丢失,同时,受背景冗余、颜色、亮度、摄像头拍摄角度、运动模糊和检测误差等问题的影响,使得行人图像间的差异很大,不易区分,最终导致行人重识别准确率低下。
发明内容
基于此,本发明的目的是提出一种行人重识别方法、系统、可读存储介质及计算机设备,以解决传统技术行人重识别准确率较低的问题。
根据本发明提出的一种行人重识别方法,所述方法包括:
获取历史行人图像,并对所述历史行人图像进行特征提取,得到与每份所述历史行人图像分别对应的特征张量;
沿着水平坐标和垂直坐标分别对所述特征张量进行编码,得到水平特征和垂直特征,并将所述水平特征和所述垂直特征进行级联转换,以得到在水平方向和在垂直方向上的中间特征图,并根据在水平方向和在垂直方向上的中间特征图获取注意力特征图;
根据所述注意力特征图获取池化核域中每个激活值所对应的激活权重,以根据所述激活权重对池化核域内所有激活值的加权求和,得到输出值
将所述输出值编码映射到欧式空间,以计算出样本的类中心,并根据样本的类中心计算出类中心三元组损失,并根据所述类中心三元组损失迭代训练出行人重识别模型;
将待识别的行人图像输入到所述行人重识别模型,以通过所述类中心三元组损失对待识别的行人图像进行聚类表示,得到最终的识别结果。
综上,根据上述的行人重识别方法,通过提取不因图像颜色、亮度和角度等外观变化而变化的行人特征,然后对提取的行人特征做出了更进一步的研究,第一,在模型骨干网络不同的网络层嵌入坐标注意力模块(CA),抑制图像中无关的特征,增强具有判别力的特征;第二,将骨干网络最后的平均池化替换为软池化(SoftPool),减少特征丢失,保留更多的细粒度特征。另外,在模型训练阶段,通过对现有的三元组损失进行了改进,通过将同一类的行人特征使用类中心表示,来增强三元组损失在训练过程中的鲁棒性,从而得到行人重识别准确率较高的行人重识别模型,以克服传统技术因行人图像差异很大、不易区分等原因而导致的行人重识别准确率较低的问题。
在本发明较佳实施例中,所述获取历史行人图像,并对所述历史行人图像进行特征提取,得到与每份所述历史行人图像分别对应的特征张量的步骤包括:
对输入的行人图像进行预处理,并将预处理得到的输出张量以特征通道所在维度进行划分,将一半的行人特征图/>进行IN计算,另一半行人的特征图/>进行BN计算,以分别得到特征/>和特征/>,其中,R表示实数集,/>表示张量的特征通道数,/>表示张量的高度,/>表示张量的宽度;
将得到的特征和特征/>经过ReLU激活函数计算和卷积操作,得到特征张量,其中/>分别表示第一张、第二张、第c张行人图像对应的特征张量。
在本发明较佳实施例中,所述沿着水平坐标和垂直坐标分别对所述特征张量进行编码,得到水平特征和垂直特征的步骤包括:
输入特征张量,分别使用尺寸为/>和/>的卷积核沿着水平坐标和垂直坐标对特征图的每一个通道进行编码,其中高度为/>的/>通道输出表示为:
其中,表示与特征张量/>对应的水平特征;
宽度为的/>通道输出表示为:
其中,表示与特征张量/>对应的垂直特征;
所述将所述水平特征和所述垂直特征进行级联转换,以得到在水平方向和在垂直方向上的中间特征图的步骤包括:
根据以下公式获取中间特征图:
其中,表示卷积变换操作,/>(·)表示/>激活函数,/>表示中间特征图,f包括在水平方向上的中间特征图/>和在垂直方向上的中间特征图/>
所述根据在水平方向和在垂直方向上的中间特征图获取注意力特征图的步骤包括:
根据以下公式分别对在水平方向上的中间特征图和在垂直方向上的中间特征图/>进行激活操作:
其中,和/>均表示卷积变换操作,/>表示在水平方向上经过卷积变换后的中间特征图,/>表示在垂直方向上经过卷积变换后的中间特征图;
根据以下公式获取注意力特征图:
其中,表示注意力特征图。
在本发明较佳实施例中,所述根据所述注意力特征图获取池化核域中每个激活值所对应的激活权重,以根据所述激活权重对池化核域内所有激活值的加权求和,得到输出值的步骤包括:
根据以下公式获取激活权重:
其中,表示池化核域的第i个激活区域对应的激活权重,yci表示注意力特征图yc的池化核域中的第i个激活值,ycj表示注意力特征图yc的池化核域中的第j个激活值;
根据以下公式计算得到加权求和
在本发明较佳实施例中,所述将所述输出值编码映射到欧式空间,以计算出样本的类中心,并根据样本的类中心计算出类中心三元组损失,并根据所述类中心三元组损失迭代训练出行人重识别模型的步骤包括:
根据以下公式计算得到样本的类中心:
其中,表示第/>类样本的类中心,/>表示批量中第/>类的一组样本,/>分别表示第1个、第i个、第N个样本,f(·)表示将样本编码映射到欧式空间;
根据以下公式计算得到类中心三元组损失:
其中,L表示类中心三元组损失,分别表示第/>个三元组的正、负样本类中心,/>表示锚样本与正样本类中心之间的欧氏度量距离;表示锚样本与负样本类中心之间的欧式度量距离,/>表示阈值参数,[/>]为ReLU激活函数。
在本发明较佳实施例中,所述将一半的行人特征图进行IN计算的步骤包括:
根据以下公式计算得到特征
其中,和/>表示经过训练得到的两个可参变量,/>和/>表示对每一个行人图像的每个特征通道计算得到的均值和标准差,/>表示输入张量/>在第/>个样本的第/>个通道高度/>、宽度/>处对应的像素值,/>表示常量。
在本发明较佳实施例中,所述另一半行人的特征图进行BN计算的步骤包括:
根据以下公式计算得到特征
其中,和/>表示对当前批次的所有行人图像的每个特征通道计算得到的均值和标准差。
本发明另一方面还提供行人重识别系统,所述系统包括:
特征张量提取模块,用于获取历史行人图像,并对所述历史行人图像进行特征提取,得到与每份所述历史行人图像分别对应的特征张量;
注意力特征获取模块,用于沿着水平坐标和垂直坐标分别对所述特征张量进行编码,得到水平特征和垂直特征,并将所述水平特征和所述垂直特征进行级联转换,以得到在水平方向和在垂直方向上的中间特征图,并根据在水平方向和在垂直方向上的中间特征图获取注意力特征图;
加权求和获取模块,用于根据所述注意力特征图获取池化核域中每个激活值所对应的激活权重,以根据所述激活权重对池化核域内所有激活值的加权求和,得到输出值
迭代训练模块,用于将所述输出值编码映射到欧式空间,以计算出样本的类中心,并根据样本的类中心计算出类中心三元组损失,并根据所述类中心三元组损失迭代训练出行人重识别模型;
识别输出模块,用于将待识别的行人图像输入到所述行人重识别模型,以通过所述类中心三元组损失对待识别的行人图像进行聚类表示,得到最终的识别结果。
本发明另一方面还提供一种可读存储介质,所述可读存储介质存储一个或多个程序,该程序被执行时实现如上述的行人重识别方法。
本发明另一方面还提供一种计算机设备,所述计算机设备包括存储器和处理器,其中:
所述存储器用于存放计算机程序;
所述处理器用于执行所述存储器上所存放的计算机程序时,实现如上述的行人重识别方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明第一实施例提出的行人重识别方法的流程图;
图2为本发明第一实施例中的行人重识别模型的结构示意图;
图3为本发明第一实施例中的参差块的结构示意图;
图4为本发明第一实施例中的CA注意力机制的结构示意图;
图5为本发明第一实施例中的SoftPool的池化过程示意图;
图6本发明第二实施例提出的行人重识别系统的结构示意图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干个实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
请参阅图1,所示为本发明第一实施例中的行人重识别方法的流程图,该方法包括步骤S01至步骤S05,其中:
步骤S01:获取历史行人图像,并对所述历史行人图像进行特征提取,得到与每份所述历史行人图像分别对应的特征张量;
请参阅图2,所示为行人重识别模型的结构示意图,图中的骨干网络IBN-Net50-a由conv1、conv2_x-conv5_x组成,CA为坐标注意力模块,SoftPool为软池化,Class CenterTriplet Loss为类中心三元组损失;
IBN-Net50-a是在ResNet50网络的基础上添加了实例归一化IN,其中的IN可以学习到不随图像颜色、亮度和角度等外观变化而变化的特征,故采用在ImageNet数据上预训练的IBN-Net50-a作为重识别模型的骨干网络。
示例性地,IBN-Net50-a共有5个卷积块(conv1、conv2_x-conv5_x),conv1为一个含有64个卷积核的7×7的卷积层,用于对输入的行人图像进行预处理,conv2_x-conv5_x分别包含3、4、6、3个残差块,具体请参阅图3,所示为参差块的结构示意图,图中,ReLU为激活函数,假设在一个残差块中,输入通道数C=256的张量,其中/>表示输入批次(batch)包含的图片数量,/>是张量的特征通道数,/>是张量的高度,/>是张量的宽度。经过1×1卷积层后,输出张量/>。以特征通道所在维度进行划分,将一半的行人特征进行IN计算,另一半行人的特征/>进行BN计算。BN为批量归一化,它可以加速训练和学习到更加有区分性的特征,BN的计算公式如下:
式中,和/>是经过训练得到的两个可参变量,能够还原BN之前数据的特征分布,/>和/>是对当前批次所有图片的每个特征通道计算得到的均值和标准差,它们的定义分别为:
其中,的作用是确保/>而添加的一个常量,在一般情况下/>,/>表示输入张量/>在第/>个样本的第/>个通道高度/>、宽度/>处对应的像素值。IN的计算公式为:
式中,和/>是对每一个实例行人图像的每个特征通道计算得到的均值和标准差,它们的定义分别为:
进一步地,再将得到的特征和特征/>经过ReLU激活函数计算和卷积操作,得到特征张量/>,其中/>分别表示第一张、第二张、第c张行人图像对应的特征张量。
步骤S02:沿着水平坐标和垂直坐标分别对所述特征张量进行编码,得到水平特征和垂直特征,并将所述水平特征和所述垂直特征进行级联转换,以得到在水平方向和在垂直方向上的中间特征图,并根据在水平方向和在垂直方向上的中间特征图获取注意力特征图;
需要指出的是,一般的注意力模块都只关注通道之间的相互依赖关系,忽略了空间特征,而本实施例中引入CA注意力模块不仅考虑了通道信息,还考虑了方向相关的位置信息,在通道和空间两个维度上增强具有判别力的特征。请参阅图4,所示为CA注意力机制的结构示意图,输入端与输出端在经过CA操作之后张量尺寸没有发生变化,可以嵌入模型结构的任意位置,具体流程如下:
首先,输入特征张量,然后分别使用尺寸为/>和/>的卷积核沿着水平坐标和垂直坐标对特征图的每一个通道进行编码,其中高度为/>的/>通道输出表示为:
同理,宽度为的/>通道输出表示为:
此外,上述两种变换分别沿着两个空间方向聚合特征,得到一个对向感知的特征图。这两种转换允许注意力模块捕捉到沿着一个空间方向的长期以来关系,并保存沿着另一个空间方向的精确位置,这有助于网络更准确地定位感兴趣的区域。
通过这两种变换之后生成CA注意力。在转换过程中,CA注意力机制先将之前生成的两个特征图进行级联,用一个1*1的卷积进行变换,表示为:
其中,表示卷积变换操作,/>(·)表示/>激活函数,/>表示中间特征图,f包括在水平方向上的中间特征图/>和在垂直方向上的中间特征图/>
接着,沿着空间维度将和/>,经过两个1*1卷积/>和/>将两者变换到与输入相同的通道数,表示为:
其中,和/>均表示卷积变换操作,/>表示在水平方向上经过卷积变换后的中间特征图,/>表示在垂直方向上经过卷积变换后的中间特征图;
最后,对和/>进行拓展,得到权重注意力,CA注意力的最终输出可表示为:
其中,表示注意力特征图。
需要说明的是,采用CA注意力模块在通道和空间的维度上增强具有判别力的特征,CA注意力可以增强图像中具有辨别力的特征,如人脸、身体、四肢等。相比于比他注意力,CA注意力不仅在通道维度增强特征,同时还在空间维度上增强特征。
步骤S03:根据所述注意力特征图获取池化核域中每个激活值所对应的激活权重,以根据所述激活权重对池化核域内所有激活值的加权求和,得到输出值;
需要说明的是,IBN-Net50-a最后的平均池化对邻域内特征点求平均值,能很好地保留背景,但容易使图片模糊,而SoftPool是一种变种的池化层,它可以在保持池化层功能的同时尽可能地减少特征图信息的损失,保留更多的细粒度特征。
SoftPool的核心思想在于充分利用softmax作为池化核域内的每个激活值的权重分配机制,使池化核内的重要属性分配到更大的权重,权重计算公式如下:
其中,表示池化核域的第i个激活区域对应的激活权重,yci表示注意力特征图yc的池化核域中的第i个激活值,ycj表示注意力特征图yc的池化核域中的第j个激活值;
在求得权重后,将其作用到/>中并求和,得到加权求和/>:
示例而非限定,请参阅图5,所示为SoftPool的池化过程示意图,首先输入一张特征图,图中虚线部分表示正在进行采样的3×3大小的池化核域,利用权重计算公式,计算出池化核内每个激活值的权重,将每个权重与相应的激活值进行相乘并累加,得到最后结果,在此过程中,权重与相应的激活值一起做非线性变换。通过SoftPool池化减少特征丢失,保留更多细粒度特征,可以减少由于卷积神经网络的加深,而引起的特征丢失问题。相比于其他池化操作,同时SoftPool池化综合了平均池化和最大池化的特点,在保持池化层功能的同时尽可能地减少特征图信息的损失,保留更多的细粒度特征。
步骤S04:将所述输出值编码映射到欧式空间,以计算出样本的类中心,并根据样本的类中心计算出类中心三元组损失,并根据所述类中心三元组损失迭代训练出行人重识别模型;
需要指出的是,三元组损失的本质是一个聚类的过程,旨在计算正负样本和锚样本之间的距离,通过学习参数使正样本与锚样本之间的距离更近,负样本与锚样本之间的距离更远。由于三元组损失对于三元组的选取会导致数据分布不均匀,所以在模型训练过程中会出现不稳定的问题,基于此,本发明将同一行人的图像样本使用类中心表示,这样的表示方法使得三元组损失在训练过程中更具鲁棒性,具体流程如下:
在模型训练阶段,每个批量数据包含类样本,每类样本含有/>个实例,则每个批量数据的大小为/>。/>表示批量中第/>类的一组样本,分别表示第1个、第i个、第N个样本,/>表示第/>类中的每一个样本,/>,/>表示将图像样本编码映射到欧式空间。/>为第/>类样本的类中心,计算公式如下:
基于类中心的三元组损失不是计算锚样本与正负样本实例的距离,而是计算锚样本与正负样本类的类中心的距离,而锚样本则是在批量数据中随机选取的一个样本,计算公式如下:
其中,L表示类中心三元组损失,、/>分别表示第/>个三元组的正、负样本类中心,/>表示锚样本与正样本类中心之间的欧氏度量距离;表示锚样本与负样本类中心之间的欧式度量距离,/>表示阈值参数,用来调节锚样本与正、负样本类中心的距离,[/>]为ReLU激活函数,通过最小化/>,达到拉近正样本类,远离负样本类的效果。
最后,通过类中心三元组损失对模型进行迭代训练,得到训练后的行人重识别模型。
需要说明的是,损失函数可以计算神经网络每次迭代的前向计算结果与真实值的差距,从而指导下一步的训练向正确的方向进行,而类中心三元组损失相比于原有三元组损失,它放松了锚样本与正、负样本之间的约束,它将同一行人的图像样本使用类中心表示,使得模型在训练过程中更具鲁棒性。
步骤S05:将待识别的行人图像输入到所述行人重识别模型,以通过所述类中心三元组损失对待识别的行人图像进行聚类表示,得到最终的识别结果。
综上,本发明首先采用IBN-Net50-a作为骨干网络来提取不因图像颜色、亮度和角度等外观变化而变化的特征,然后对提取的行人特征做出了更近一步的研究。第一,在骨干网络不同的网络层嵌入坐标注意力模块(CA),抑制图像中无关的特征,增强具有判别力的特征;第二,将骨干网络最后的平均池化替换为软池化(SoftPool),减少特征丢失,保留更多的细粒度特征。另外,在模型训练阶段,本发明对现有的三元组损失进行了改进,通过将同一类的行人特征使用类中心表示,来增强三元组损失在训练过程中的鲁棒性,从而克服了传统行人重识别技术受背景冗余、颜色、亮度、摄像头拍摄角度、运动模糊和检测误差等问题的影响而导致的识别准确率低的问题。
请参阅图6,所示为本发明第二实施例中的行人重识别系统的结构示意图,该系统包括:
特征张量提取模块10,用于获取历史行人图像,并对所述历史行人图像进行特征提取,得到与每份所述历史行人图像分别对应的特征张量;
进一步地,所述特征张量提取模块10还包括:
预处理单元,用于对输入的行人图像进行预处理,并将预处理得到的输出张量以特征通道所在维度进行划分,将一半的行人特征图/>进行IN计算,另一半行人的特征图/>进行BN计算,以分别得到特征/>和特征/>,其中,R表示实数集,/>表示张量的特征通道数,/>表示张量的高度,/>表示张量的宽度;
进一步地,所述预处理单元还包括:
IN计算子单元,用于根据以下公式计算得到特征
其中,和/>表示经过训练得到的两个可参变量,/>和/>表示对每一个行人图像的每个特征通道计算得到的均值和标准差,/>表示输入张量/>在第/>个样本的第/>个通道高度/>、宽度/>处对应的像素值,/>表示常量;
BN计算子单元,用于根据以下公式计算得到特征
其中,和/>表示对当前批次的所有行人图像的每个特征通道计算得到的均值和标准差;
特征张量生成单元,用于将得到的特征和特征/>经过ReLU激活函数计算和卷积操作,得到特征张量/>,其中/>分别表示第一张、第二张、第c张行人图像对应的特征张量。
注意力特征获取模块20,用于沿着水平坐标和垂直坐标分别对所述特征张量进行编码,得到水平特征和垂直特征,并将所述水平特征和所述垂直特征进行级联转换,以得到在水平方向和在垂直方向上的中间特征图,并根据在水平方向和在垂直方向上的中间特征图获取注意力特征图;
进一步地,所述注意力特征获取模块20还包括:
编码执行单元,用于输入特征张量,分别使用尺寸为/>的卷积核沿着水平坐标和垂直坐标对特征图的每一个通道进行编码,其中高度为/>通道输出表示为:
其中,表示与特征张量/>对应的水平特征;
宽度为的/>通道输出表示为:
其中,表示与特征张量/>对应的垂直特征;
激活执行单元,用于根据以下公式分别对在水平方向上的中间特征图和在垂直方向上的中间特征图/>进行激活操作:
其中,和/>均表示卷积变换操作,/>表示在水平方向上经过卷积变换后的中间特征图,/>表示在垂直方向上经过卷积变换后的中间特征图;
注意力特征图输出单元,用于根据以下公式获取注意力特征图:
其中,表示注意力特征图。
加权求和获取模块30,用于根据所述注意力特征图获取池化核域中每个激活值所对应的激活权重,以根据所述激活权重对池化核域内所有激活值的加权求和,得到输出值
进一步地,所述加权求和获取模块30还包括:
激活权重计算单元,用于根据以下公式获取激活权重:
其中,表示池化核域的第i个激活区域对应的激活权重,yci表示注意力特征图yc的池化核域中的第i个激活值,ycj表示注意力特征图yc的池化核域中的第j个激活值;
加权求和计算单元,用于根据以下公式计算得到加权求和
迭代训练模块40,用于将所述输出值编码映射到欧式空间,以计算出样本的类中心,并根据样本的类中心计算出类中心三元组损失,并根据所述类中心三元组损失迭代训练出行人重识别模型;
进一步地,所述迭代训练模块40还包括:
样本类中心计算单元,用于根据以下公式计算得到样本的类中心:
/>
其中,表示第/>类样本的类中心,/>表示批量中第/>类的一组样本,/>分别表示第1个、第i个、第N个样本,f(·)表示将样本编码映射到欧式空间;
三元组损失计算单元,用于根据以下公式计算得到类中心三元组损失:
其中,L表示类中心三元组损失,、/>分别表示第/>个三元组的正、负样本类中心,/>表示锚样本与正样本类中心之间的欧氏度量距离;表示锚样本与负样本类中心之间的欧式度量距离,/>表示阈值参数,[/>]为ReLU激活函数。
识别输出模块50,用于将待识别的行人图像输入到所述行人重识别模型,以通过所述类中心三元组损失对待识别的行人图像进行聚类表示,得到最终的识别结果。
本发明另一方面还提出可读存储介质,其上存储有一个或多个程序,该程序给处理器执行时实现上述的行人重识别方法。
本发明另一方面还提出一种计算机设备,包括存储器和处理器,其中存储器用于存放计算机程序,处理器用于执行存储器上所存放的计算机程序,以实现上述的行人重识别方法。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

Claims (10)

1.一种行人重识别方法,其特征在于,所述方法包括:
获取历史行人图像,并对所述历史行人图像进行特征提取,得到与每份所述历史行人图像分别对应的特征张量;
沿着水平坐标和垂直坐标分别对所述特征张量进行编码,得到水平特征和垂直特征,并将所述水平特征和所述垂直特征进行级联转换,以得到在水平方向和在垂直方向上的中间特征图,并根据在水平方向和在垂直方向上的中间特征图获取注意力特征图,具体为:
输入特征张量,分别使用尺寸为/>和/>的卷积核沿着水平坐标和垂直坐标对特征图的每一个通道进行编码,其中高度为/>的/>通道输出表示为:
其中,表示与特征张量/>对应的水平特征;
宽度为的/>通道输出表示为:
其中,表示与特征张量/>对应的垂直特征;
根据所述注意力特征图获取池化核域中每个激活值所对应的激活权重,以根据所述激活权重对池化核域内所有激活值的加权求和,得到输出值
将所述输出值编码映射到欧式空间,以计算出样本的类中心,并根据样本的类中心计算出类中心三元组损失,并根据所述类中心三元组损失迭代训练出行人重识别模型;
将待识别的行人图像输入到所述行人重识别模型,以通过所述类中心三元组损失对待识别的行人图像进行聚类表示,得到最终的识别结果。
2.根据权利要求1所述的行人重识别方法,其特征在于,所述获取历史行人图像,并对所述历史行人图像进行特征提取,得到与每份所述历史行人图像分别对应的特征张量的步骤包括:
对输入的行人图像进行预处理,并将预处理得到的输出张量以特征通道所在维度进行划分,将一半的行人特征图/>进行IN计算,另一半行人的特征图进行BN计算,以分别得到特征/>和特征/>,其中,R表示实数集,/>表示张量的高度,/>表示张量的宽度,N为输出张量x1×1的批次大小;
将得到的特征和特征/>经过ReLU激活函数计算和卷积操作,得到特征张量,其中/>分别表示第一张、第二张、第c张行人图像对应的特征张量,/>表示张量的特征通道数。
3.根据权利要求2所述的行人重识别方法,其特征在于,所述将所述水平特征和所述垂直特征进行级联转换,以得到在水平方向和在垂直方向上的中间特征图的步骤包括:
根据以下公式获取中间特征图:
其中,表示卷积变换操作,/>(·)表示/>激活函数,/>表示中间特征图,f包括在水平方向上的中间特征图/>和在垂直方向上的中间特征图/>
所述根据在水平方向和在垂直方向上的中间特征图获取注意力特征图的步骤包括:
根据以下公式分别对在水平方向上的中间特征图和在垂直方向上的中间特征图/>进行激活操作:
其中,和/>均表示卷积变换操作,/>表示在水平方向上经过卷积变换后的中间特征图,表示在垂直方向上经过卷积变换后的中间特征图;
根据以下公式获取注意力特征图:
其中,表示注意力特征图。
4.根据权利要求3所述的行人重识别方法,其特征在于,所述根据所述注意力特征图获取池化核域中每个激活值所对应的激活权重,以根据所述激活权重对池化核域内所有激活值的加权求和,得到输出值的步骤包括:
根据以下公式获取激活权重:
其中,表示池化核域的第i个激活区域对应的激活权重,yci表示注意力特征图yc的池化核域中的第i个激活值,ycj表示注意力特征图yc的池化核域中的第j个激活值;
根据以下公式计算得到加权求和
5.根据权利要求4所述的行人重识别方法,其特征在于,所述将所述输出值编码映射到欧式空间,以计算出样本的类中心,并根据样本的类中心计算出类中心三元组损失,并根据所述类中心三元组损失迭代训练出行人重识别模型的步骤包括:
根据以下公式计算得到样本的类中心:
其中,表示第/>类样本的类中心,/>表示批量中第/>类的一组样本,/>分别表示第1个、第i个、第N个样本,f(·)表示将样本编码映射到欧式空间;
根据以下公式计算得到类中心三元组损失:
其中,L表示类中心三元组损失,、/>分别表示第/>个三元组的正、负样本类中心,表示锚样本与正样本类中心之间的欧氏度量距离;/>表示锚样本与负样本类中心之间的欧式度量距离,/>表示阈值参数,[/>]为ReLU激活函数。
6.根据权利要求2所述的行人重识别方法,其特征在于,所述将一半的行人特征图进行IN计算的步骤包括:
根据以下公式计算得到特征
其中,和/>表示经过训练得到的两个可参变量,/>和/>表示对每一个行人图像的每个特征通道计算得到的均值和标准差,/>表示输入张量/>在第/>个样本的第个通道高度/>、宽度/>处对应的像素值,/>表示常量。
7.根据权利要求6所述的行人重识别方法,其特征在于,所述另一半行人的特征图进行BN计算的步骤包括:
根据以下公式计算得到特征
其中,和/>表示对当前批次的所有行人图像的每个特征通道计算得到的均值和标准差。
8.一种行人重识别系统,其特征在于,所述系统包括:
特征张量提取模块,用于获取历史行人图像,并对所述历史行人图像进行特征提取,得到与每份所述历史行人图像分别对应的特征张量;
注意力特征获取模块,用于沿着水平坐标和垂直坐标分别对所述特征张量进行编码,得到水平特征和垂直特征,并将所述水平特征和所述垂直特征进行级联转换,以得到在水平方向和在垂直方向上的中间特征图,并根据在水平方向和在垂直方向上的中间特征图获取注意力特征图;
编码执行单元,用于输入特征张量,分别使用尺寸为/>和/>的卷积核沿着水平坐标和垂直坐标对特征图的每一个通道进行编码,其中高度为/>的/>通道输出表示为:
其中,表示与特征张量/>对应的水平特征;
宽度为的/>通道输出表示为:
其中,表示与特征张量/>对应的垂直特征;
加权求和获取模块,用于根据所述注意力特征图获取池化核域中每个激活值所对应的激活权重,以根据所述激活权重对池化核域内所有激活值的加权求和,得到输出值
迭代训练模块,用于将所述输出值编码映射到欧式空间,以计算出样本的类中心,并根据样本的类中心计算出类中心三元组损失,并根据所述类中心三元组损失迭代训练出行人重识别模型;
识别输出模块,用于将待识别的行人图像输入到所述行人重识别模型,以通过所述类中心三元组损失对待识别的行人图像进行聚类表示,得到最终的识别结果。
9.一种可读存储介质,其特征在于,包括:所述可读存储介质存储一个或多个程序,该程序被处理器执行时实现如权利要求1-7任一所述的行人重识别方法。
10.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,其中:
所述存储器用于存放计算机程序;
所述处理器用于执行所述存储器上所存放的计算机程序时,实现权利要求1-7任一所述的行人重识别方法。
CN202310760280.5A 2023-06-27 2023-06-27 行人重识别方法、系统、可读存储介质及计算机设备 Active CN116503914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310760280.5A CN116503914B (zh) 2023-06-27 2023-06-27 行人重识别方法、系统、可读存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310760280.5A CN116503914B (zh) 2023-06-27 2023-06-27 行人重识别方法、系统、可读存储介质及计算机设备

Publications (2)

Publication Number Publication Date
CN116503914A CN116503914A (zh) 2023-07-28
CN116503914B true CN116503914B (zh) 2023-09-01

Family

ID=87316985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310760280.5A Active CN116503914B (zh) 2023-06-27 2023-06-27 行人重识别方法、系统、可读存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN116503914B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190513A (zh) * 2018-08-14 2019-01-11 中山大学 结合图像显著性检测和神经网络的车辆重识别方法与系统
CN110070075A (zh) * 2019-05-07 2019-07-30 中国科学院宁波材料技术与工程研究所 基于群对称理论的行人重识别方法
CN111460914A (zh) * 2020-03-13 2020-07-28 华南理工大学 一种基于全局和局部细粒度特征的行人重识别方法
CN111881780A (zh) * 2020-07-08 2020-11-03 上海蠡图信息科技有限公司 一种基于多层融合与对齐划分的行人重识别方法
CN113158905A (zh) * 2021-04-23 2021-07-23 佛山市南海区广工大数控装备协同创新研究院 一种基于注意力机制的行人重识别方法
CN113920472A (zh) * 2021-10-15 2022-01-11 中国海洋大学 一种基于注意力机制的无监督目标重识别方法及系统
CN114283326A (zh) * 2021-12-22 2022-04-05 大连海事大学 一种结合局部感知和高阶特征重构的水下目标重识别方法
CN114694089A (zh) * 2022-02-28 2022-07-01 郑州大学 一种新型的多模态融合的行人重识别算法
CN114782979A (zh) * 2022-03-02 2022-07-22 特斯联科技集团有限公司 一种行人重识别模型的训练方法、装置、存储介质及终端
CN114943937A (zh) * 2022-06-29 2022-08-26 中国电信股份有限公司 行人重识别方法、装置、存储介质及电子设备
WO2023273290A1 (zh) * 2021-06-29 2023-01-05 山东建筑大学 基于多特征信息捕捉和相关性分析的物品图像重识别方法
CN116311368A (zh) * 2023-03-21 2023-06-23 南京邮电大学 行人重识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205274B2 (en) * 2018-04-03 2021-12-21 Altumview Systems Inc. High-performance visual object tracking for embedded vision systems

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190513A (zh) * 2018-08-14 2019-01-11 中山大学 结合图像显著性检测和神经网络的车辆重识别方法与系统
CN110070075A (zh) * 2019-05-07 2019-07-30 中国科学院宁波材料技术与工程研究所 基于群对称理论的行人重识别方法
CN111460914A (zh) * 2020-03-13 2020-07-28 华南理工大学 一种基于全局和局部细粒度特征的行人重识别方法
CN111881780A (zh) * 2020-07-08 2020-11-03 上海蠡图信息科技有限公司 一种基于多层融合与对齐划分的行人重识别方法
CN113158905A (zh) * 2021-04-23 2021-07-23 佛山市南海区广工大数控装备协同创新研究院 一种基于注意力机制的行人重识别方法
WO2023273290A1 (zh) * 2021-06-29 2023-01-05 山东建筑大学 基于多特征信息捕捉和相关性分析的物品图像重识别方法
CN113920472A (zh) * 2021-10-15 2022-01-11 中国海洋大学 一种基于注意力机制的无监督目标重识别方法及系统
CN114283326A (zh) * 2021-12-22 2022-04-05 大连海事大学 一种结合局部感知和高阶特征重构的水下目标重识别方法
CN114694089A (zh) * 2022-02-28 2022-07-01 郑州大学 一种新型的多模态融合的行人重识别算法
CN114782979A (zh) * 2022-03-02 2022-07-22 特斯联科技集团有限公司 一种行人重识别模型的训练方法、装置、存储介质及终端
CN114943937A (zh) * 2022-06-29 2022-08-26 中国电信股份有限公司 行人重识别方法、装置、存储介质及电子设备
CN116311368A (zh) * 2023-03-21 2023-06-23 南京邮电大学 行人重识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于CNN的改进行人重识别技术;熊炜;冯川;熊子婕;王娟;刘敏;曾春艳;;计算机工程与科学(04);全文 *

Also Published As

Publication number Publication date
CN116503914A (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN111833273B (zh) 基于长距离依赖的语义边界增强方法
CN114187450A (zh) 一种基于深度学习的遥感图像语义分割方法
CN113255557B (zh) 一种基于深度学习的视频人群情绪分析方法及系统
CN111626134A (zh) 一种基于隐密度分布的密集人群计数方法、系统及终端
CN114639122A (zh) 一种基于卷积生成对抗网络的姿态修正行人再识别方法
CN116189265A (zh) 基于轻量化语义Transformer模型的素描人脸识别方法、装置及设备
CN114898080A (zh) 一种基于ViT网络的图像成像设备识别方法
Liu et al. SLPR: A deep learning based chinese ship license plate recognition framework
Yang et al. Robust visual tracking using adaptive local appearance model for smart transportation
CN113255604A (zh) 基于深度学习网络的行人重识别方法、装置、设备及介质
CN116229406B (zh) 车道线检测方法、系统、电子设备及存储介质
CN116503914B (zh) 行人重识别方法、系统、可读存储介质及计算机设备
CN114821651B (zh) 一种行人重识别方法、系统、设备及计算机可读存储介质
CN109064403B (zh) 基于分类耦合字典稀疏表示的指纹图像超分辨率方法
CN113128461B (zh) 基于人体关键点挖掘全尺度特征的行人重识别性能提升方法
Wei et al. FRGAN: a blind face restoration with generative adversarial networks
Liu et al. Body-structure based feature representation for person re-identification
CN116311106B (zh) 一种遮挡图像识别模型的训练方法、装置、设备及介质
CN113128456B (zh) 一种联合图片生成的行人重识别方法
CN117152546B (zh) 一种遥感场景分类方法、系统、存储介质及电子设备
CN115240121B (zh) 一种用于增强行人局部特征的联合建模方法和装置
CN116883748A (zh) 一种基于多粒度交互与特征重组网络的细粒度分类方法
Nezhinsky et al. Efficient and robust shape retrieval from deformable templates
Huang et al. MSFL-Net: Multi-Semantic Feature Learning Network for Occluded Person Re-Identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant