CN117635973B - 一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法 - Google Patents

一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法 Download PDF

Info

Publication number
CN117635973B
CN117635973B CN202311661718.0A CN202311661718A CN117635973B CN 117635973 B CN117635973 B CN 117635973B CN 202311661718 A CN202311661718 A CN 202311661718A CN 117635973 B CN117635973 B CN 117635973B
Authority
CN
China
Prior art keywords
layer
pedestrian
image
aggregation
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311661718.0A
Other languages
English (en)
Other versions
CN117635973A (zh
Inventor
张国庆
周洁琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202311661718.0A priority Critical patent/CN117635973B/zh
Publication of CN117635973A publication Critical patent/CN117635973A/zh
Application granted granted Critical
Publication of CN117635973B publication Critical patent/CN117635973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法,包括以下步骤:(1)对图像数据集添加风雨场景并执行标准化预处理及数据增强操作;(2)构建输入到Transformer模型的序列;(3)构建基于标准Transformer架构的行人特征提取网络;(4)利用多层动态聚焦模块,对得到的Transformer各层特征进行动态权重调整与融合处理;(5)通过局部金字塔聚合模块选择性地提取并融合Transformer网络中的特定层特征,以获取多尺度特征信息;(6)根据步骤(4)‑(5)所得的特征输出应用于损失函数,以验证查询图像与测试图像是否为同一类别,从而完成模型的训练和优化;本发明在复杂场景下,尤其是面对换衣行人重识别任务时,能够显著提升算法的识别精度和鲁棒性。

Description

一种基于多层动态集中和局部金字塔聚合的换衣行人重识别 方法
技术领域
本发明涉及计算机视觉图像识别技术领域,具体涉及一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法。
背景技术
行人重识别(Person Re-identification,ReID)是计算机视觉领域和公共安全领域研究的一个关键议题,旨在实现个体在不同监控摄像头下的身份确认与追踪。现有的ReID算法主要聚焦在短期内有效的识别策略,但这些策略往往没有充分地考量到行人服装变更的动态性,限制了它们在长时间跨度中的应用效果。在实际应用中,尤其是法律执法和刑事侦查场景,重点关注人员可能通过改变服饰来逃避识别,这对ReID系统提出了更高的要求。因此,研究和开发具有鲁棒性的长期ReID技术(即CC-ReID)是解决服装变更引起的识别问题的必要路径。
当前针对CC-ReID的研究主要分为两类方法:第一类是引入辅助模块(例如,生成人体轮廓草图、提取姿态关键点、步态分析等)来识别与服装无关的生物特征。例如,Yang[1]等人的研究通过构建基于人体轮廓的网络模型来克服服装变化的影响。尽管如此,这种方法容易受到外界环境(例如照明和遮挡)的影响,并可能忽视如面部特征和步态模式等其他重要生物标志。第二类方法则是专注于分离身份特征与服装特征。举例来说,Xu等人提出的对抗性特征解缠网络(AFD-Net)利用类内重建和类间对抗机制来区分身份相关与无关(如服装)特征。然而,这种方法可能面临计算成本高、模型稳定性和数据依赖性问题的挑战。
在近几年的发展中,基于Transformer架构的模型得益于其先进的多头注意力机制,在综合分析图像多个关键特征以实现身份识别的任务上取得了突破性成就。多头注意力机制通过并行处理,能够有效地集中于图像不同区域的关键特征,增强了模型对于各视角变换和行人服装更迭的适应性和鉴别能力。尽管如此,现有方法主要是利用Transformer顶层的高级信息来提取判别特征,而未能充分利用网络较低层的细节信息,这可能限制了模型对于复杂场景下细粒度特征的捕获能力。为了解决这个问题,我们提出一种创新的自适应感知注意力机制与金字塔级特征融合网络。该网络设计旨在实现多尺度信息的高效整合,以增强换衣行人重识别算法在复杂场景下的识别精度和鲁棒性。
发明内容
发明目的:本发明的目的是提供一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法。
技术方案:本发明所述的一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法,包括以下步骤:
(1)对图像数据集添加风雨场景并执行标准化预处理及数据增强操作;
(2)将经预处理的图像分割为N个尺寸一致、互不重叠的区块,引入附加的可学习嵌入[CLS_TOKEN]作为序列输入的全局特征,同时对每个区块赋予位置编码[POS_TOKEN],构成输入到Transformer模型的序列;
(3)构建基于标准Transformer架构的行人特征提取网络,输入步骤(2)生成的序列,提取行人特征并记录下各Transformer层的特征;
(4)利用多层动态聚焦模块,对步骤(3)中得到的Transformer各层特征进行动态权重调整与融合处理;
(5)通过局部金字塔聚合模块选择性地提取并融合Transformer网络中的特定层特征,以获取多尺度特征信息,并采用快速傅立叶变换嵌入至自注意力机制中;
(6)根据步骤(4)-(5)所得的特征输出应用于损失函数,以验证查询图像与测试图像是否为同一类别,从而完成模型的训练和优化。
进一步的的,所述步骤(1)对图像数据集添加风雨场景包括以下步骤:
(11)通过公式N~Uniform(0,255),N∈Rw*h在图像的宽度w和高度h范围内,生成一个服从均匀分布的噪声矩阵N,模拟雨点在不同位置的随机散布效果;
(12)通过公式N‘=N*K对噪声矩阵施加模糊处理,生成无特定方向的雨滴效果;
其中,K代表预定义的模糊核,(*)表示二维卷积操作;
(13)构造对角矩阵D表示雨滴的直线下落路径;通过旋转对角矩阵D模拟雨滴的倾斜,再应用高斯模糊处理再现雨滴在空中下落的速度和方向,最终得到了模拟雨滴的模糊核M;
(14)通过公式:将模拟的风雨效果与原始图像融合;
其中,C表示图像通道,β为混合权重,N″为模糊核后的噪声矩阵。
进一步的,所述步骤(1)标准化预处理及数据增强操作包括:水平翻转、随机裁剪、随机擦除。
进一步的,所述步骤(2)具体如下:
设图像x属于RW*H*C,其中,H,W和C分别表示其高度、宽度和通道数;
首先,将图像分割成N个不重叠的块,表示为其次,引入额外的可学习嵌入xcls,作为输入序列开始时聚合的特征表示;然后,在每个图像区块的特征向量后附加位置编码P;最后,传输给Transformer层的输入序列公式化为:
Z0=[xcls;F(x1);F(x2);...;F(xN)]+P
其中,Z0代表输入序列的嵌入;P∈R(N+1)*D表示位置嵌入;F为线性投影函数,将图像映射到D维空间。
进一步的,所述步骤(3)具体如下:
输入序列Z0输入到Transformer网络中进行处理,每一层通过多头自注意力机制对特征进行提炼和上下文信息整合,第l层的输出Zl可以通过以下方式计算:
Zl=Transformerlayer(Zl-1),l=1,2,...,L
其中,TransformerLayer代表标准Transformer中的层,L代表层数总和;
则每一层Transformer的输出{Z1,Z2,...,ZL}。
进一步的,所述步骤(4)包括以下步骤:
(41)构建权重向量W={w1,w2,...,wL},其中,wi为对应模型层次结构中第i层所提取的特征的重要性;利用正交性约束加权对每一层进行权重计算;具体的加权计算公式如下所示:
其中,fi表示第i层的特征重要性,在所有层上初始化为统一值;β和γ是可学习的参数;<Fi,Fj>表示第i层和第j层的特征集之间的内积作为它们特征相关性的度量;α是一个正则化系数;L是总层数。
(42)引入L2正则化项计算融合后的特征,公式如下:
其中,λ是一个非负正则化参数,用于通过限制模型内权重的大小来减轻过度拟合;是权重矩阵W的Frobenius范数,计算所有层权重的平方和。
进一步的,所述步骤(5)具体如下:
在局部金字塔聚合模块中,选取四个不同Transformer层的输出特征f1,f2,f3,f4作为输入,分别进行卷积块操作:
首先,使用1×1卷积层;其次,使用BacthNorm2D和ReLU函数调整特征维度并引入非线性;然后,添加快速傅立叶变换的自注意力机制,使用序列中所有元素的全局信息优化特征;最后,将所有特征连接起来,并输入到相同卷积块中得到融合后的特征。公式如下:
其中表示整个卷积块操作,ft表示由fm和fm+1融合后得到的特征。如图2所示,通过局部金字塔聚合模块最终获得三个输出。
进一步的,所述步骤(6)损失函数包括:ID损失和三元组损失;ID损失采用传统的交叉熵损失函数,不包括标签平滑;公式如下:
其中,C是类别数,yi是真实标签的one-hot编码,pi是模型预测样本属于第i个类别的概率。
三元组损失公式如下:
其中,d(ap)和d(an)分别表示锚样本与正样本/>和负样本/>之间的距离;超参数m作为正负样本对之间距离的下限,M为上限;
其中,函数f(·)表示将输入图像映射到嵌入空间的特征提取算子;表示L2范数,用于计算两个特征向量之间的欧氏距离;[·]+是铰链损失函数,仅当括号中的值为正数时才计算损失,否则损失为0;
总损失函数公式L如下:
其中,N表示整个训练架构产生的输出量,最初每个输出的损失被设置为相等的权重,表示为wi(i=0,1,2,3);然后在训练过程中通过反向传播算法动态调整各部分的权重。
判断是否达到最大迭代次数,若则输出最终的模型精度,若未达到,则重复步骤(2)-(5)。
进一步的,还包括以下步骤:(0)构建监控网络,获取行人视频数据;采用目标检测算法检测行人,再采用目标跟踪算法获得行人检测框;裁剪为258*128像素规格的行人视频序列,组成图库集gallery。
本发明所述的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现任一项所述的种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法。
有益效果:与现有技术相比,本发明具有如下显著优点:通过结合网络低层的细节信息,能更有效地捕获和处理复杂场景中的细粒度特征;金字塔级特征融合网络能够整合不同层级的信息,从而提供更全面的数据分析和处理;在复杂场景下,尤其是面对换衣行人重识别任务时,本方法能够显著提升算法的识别精度和鲁棒性;更加全面地利用了Transformer网络的各个层级,克服了其在处理复杂场景时的局限性。
附图说明
图1为本发明的流程图;
图2为本发明提出的基于多层动态集中和局部金字塔聚合框架的网络结构图;
图3为本发明基于多层动态集中和局部金字塔聚合框架内的局部金字塔聚合模块的卷积块结构图:
图4为本发明基于图神经网络的动态小股行人再识别框架中结合快速傅立叶变换的自注意力的示意图;
图5为本发明添加了风雨场景的行人图像示意图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
如图1-5所示,本发明实施例提供一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法,包括以下步骤:
(0)构建监控网络,获取行人视频数据;采用目标检测算法检测行人,再采用目标跟踪算法获得行人检测框;裁剪为258*128像素规格的行人视频序列,组成图库集gallery;
(1)对图像数据集添加风雨场景并执行标准化预处理及数据增强操作;对图像数据集添加风雨场景包括以下步骤:
(11)通过公式N~Uniform(0,255),N∈Rw*h在图像的宽度w和高度h范围内,生成一个服从均匀分布的噪声矩阵N,模拟雨点在不同位置的随机散布效果;
(12)通过公式N‘=N*K对噪声矩阵施加模糊处理,生成无特定方向的雨滴效果;
其中,K代表预定义的模糊核,(*)表示二维卷积操作;
(13)构造对角矩阵D表示雨滴的直线下落路径;通过旋转对角矩阵D模拟雨滴的倾斜,再应用高斯模糊处理再现雨滴在空中下落的速度和方向,最终得到了模拟雨滴的模糊核M;
(14)通过公式:将模拟的风雨效果与原始图像融合;
其中,C表示图像通道,β为混合权重,N″为模糊核后的噪声矩阵;
标准化预处理及数据增强操作包括:水平翻转、随机裁剪、随机擦除。
(2)将经预处理的图像分割为N个尺寸一致、互不重叠的区块,引入附加的可学习嵌入[CLS_TOKEN]作为序列输入的全局特征,同时对每个区块赋予位置编码[POS_TOKEN],构成输入到Transformer模型的序列;具体如下:
设图像x属于RW*H*C,其中,H,W和C分别表示其高度、宽度和通道数;
首先,将图像分割成N个不重叠的块,表示为其次,引入额外的可学习嵌入xcls,作为输入序列开始时聚合的特征表示;然后,在每个图像区块的特征向量后附加位置编码P;最后,传输给Transformer层的输入序列公式化为:
Z0=[xcls;F(x1);F(x2);...;F(xN)]+P
其中,Z0代表输入序列的嵌入;P∈R(N+1)*D表示位置嵌入;F为线性投影函数,将图像映射到D维空间。
(3)构建基于标准Transformer架构的行人特征提取网络,输入步骤(2)生成的序列,提取行人特征并记录下各Transformer层的特征;具体如下:
输入序列Z0输入到Transformer网络中进行处理,每一层通过多头自注意力机制对特征进行提炼和上下文信息整合,第l层的输出Zl可以通过以下方式计算:
Zl=Transformerlayer(Zl-1),l=1,2,...,L
其中,TransformerLayer代表标准Transformer中的层,L代表层数总和;
则每一层Transformer的输出{Z1,Z2,...,ZL}。
(4)利用多层动态聚焦模块,对步骤(3)中得到的Transformer各层特征进行动态权重调整与融合处理;包括以下步骤:
(41)构建权重向量W={w1,w2,...,wL},其中,wi为对应模型层次结构中第i层所提取的特征的重要性;利用正交性约束加权对每一层进行权重计算;具体的加权计算公式如下所示:
其中,fi表示第i层的特征重要性,在所有层上初始化为统一值;β和γ是可学习的参数;<Fi,Fj>表示第i层和第j层的特征集之间的内积作为它们特征相关性的度量;α是一个正则化系数;L是总层数。
(42)引入L2正则化项计算融合后的特征,公式如下:
其中,λ是一个非负正则化参数,用于通过限制模型内权重的大小来减轻过度拟合;是权重矩阵W的Frobenius范数,计算所有层权重的平方和。
(5)通过局部金字塔聚合模块选择性地提取并融合Transformer网络中的特定层特征,以获取多尺度特征信息,并采用快速傅立叶变换嵌入至自注意力机制中;具体如下:
在局部金字塔聚合模块中,选取四个不同Transformer层的输出特征f1,f2,f3,f4作为输入,分别进行卷积块操作:
首先,使用1×1卷积层;其次,使用BacthNorm2D和ReLU函数调整特征维度并引入非线性;然后,添加快速傅立叶变换的自注意力机制,使用序列中所有元素的全局信息优化特征;最后,将所有特征连接起来,并输入到相同卷积块中得到融合后的特征。公式如下:
其中表示整个卷积块操作,ft表示由fm和fm+1融合后得到的特征。如图2所示,通过局部金字塔聚合模块最终获得三个输出。
其中,快速傅立叶变换的自注意力机制具体过程如下:
首先,自注意力模块接收输入X∈RB*N*C,其中B是batch size,N是序列长度,C是特征维度。其次,通过三个线性层,输入X转换为查询Q、键K和值V:Q=XWQ,K=XWK,V=XWV。其中,WQ,WK和WV都是是可学习的权重矩阵;然后,查询、键和值被分成多个头;当输入大小为2的整数幂时,快速傅立叶变换(FFT)算法表现出最佳效率。最后,对Q和K应用适当的填充,将FFT应用于填充的Qpadded和Kpadded,并估计它们在频域中的相关性。输出公式如下:
Attn=Softmax(F-1(F(Qpadded)⊙F(Kpadded))[:,:,:,:Q.size(1)])
其中,F(·)和F-1(·)分别表示FFT和逆FFT。先计算FFT结果的点积,对点积结果进行逆FFT(IFFT),截取为原始大小。然后使用softmax函数对上一步得到的点积结果进行归一化,得到注意力权重Attn。然后,通过点积运算,对注意力得分和对应的值向量进行加权聚合,并将结果与输入X相加,得到特征增强的自注意力输出:
Out=Attn⊙V+X
(6)根据步骤(4)-(5)所得的特征输出应用于损失函数,以验证查询图像与测试图像是否为同一类别,从而完成模型的训练和优化。损失函数包括:ID损失和三元组损失;ID损失采用传统的交叉熵损失函数,不包括标签平滑;公式如下:
其中,C是类别数,yi是真实标签的one-hot编码,pi是模型预测样本属于第i个类别的概率。
三元组损失公式如下:
其中,d(ap)和d(an)分别表示锚样本与正样本/>和负样本/>之间的距离;超参数m作为正负样本对之间距离的下限,M为上限;
其中,函数f(·)表示将输入图像映射到嵌入空间的特征提取算子;表示L2范数,用于计算两个特征向量之间的欧氏距离;[·]+是铰链损失函数,仅当括号中的值为正数时才计算损失,否则损失为0;
总损失函数公式L如下:
其中,N表示整个训练架构产生的输出量,最初每个输出的损失被设置为相等的权重,表示为wi(i=0,1,2,3);然后在训练过程中通过反向传播算法动态调整各部分的权重。
判断是否达到最大迭代次数,若则输出最终的模型精度,若未达到,则重复步骤(2)-(5)。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现任一项所述的种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法。

Claims (8)

1.一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法,其特征在于,包括以下步骤:
(1)对图像数据集添加风雨场景并执行标准化预处理及数据增强操作;
(2)将经预处理的图像分割为Q个尺寸一致、互不重叠的区块,引入附加的可学习嵌入[CLS_TOKEN]作为序列输入的全局特征,同时对每个区块赋予位置编码[POS_TOKEN],构成输入到行人特征提取网络的序列Z0
(3)构建基于标准Transformer架构的行人特征提取网络,输入步骤(2)生成的序列,提取行人特征并记录下各Transformer层的输出特征Zl,l=1,2,...,L;L为所述行人特征提取网络所包括的Transformer层的层数;
(4)利用多层动态聚焦模块,对步骤(3)中得到的各Transformer层的输出特征进行动态权重调整与融合处理;
所述步骤(4)包括以下步骤:
(41)构建权重向量W={w1,w2,...,wL},其中,wi为行人特征提取网络中第i层Transformer层所输出的特征的权重;利用正交性约束加权对每一层Transformer层进行权重计算;具体的加权计算公式如下所示:
其中,gi表示第i层的特征重要性,在所有层上初始化为统一值;β和γ是可学习的参数;<Zi,Zj>表示第i层Transformer层和第j层Transformer层的输出特征之间的内积,是它们输出特征相关性的度量;α是一个正则化系数;
(42)引入L2正则化项计算融合后的特征,公式如下:
其中,λ是一个非负正则化参数,用于通过限制模型内权重的大小来减轻过度拟合;是权重向量W的Frobenius范数,计算所有Transformer层权重的平方和;
(5)通过局部金字塔聚合模块选择性地提取并融合行人特征提取网络中的特定Transformer层的输出特征,以获取多尺度特征信息,并采用快速傅立叶变换嵌入至自注意力机制中;
所述步骤(5)具体如下:
在局部金字塔聚合模块中,选取四个不同Transformer层的输出特征f1,f2,f3,f4作为输入,进行三层金字塔特征聚合操作,每个特征聚合操作包括将两个输入分别进行卷积块计算后得到的自注意力输出连接起来,并输入到相同卷积块中得到融合后的特征;通过局部金字塔聚合模块最终获得三个输出;
所述卷积块计算具体为:首先,使用1×1卷积层;其次,使用BacthNorm2D和ReLU函数调整特征维度并引入非线性;然后,添加快速傅立叶变换的自注意力机制,得到特征增强的自注意力输出;
(6)根据步骤(4)-(5)所得的特征输出应用于损失函数,以验证查询图像与测试图像是否为同一类别,从而完成模型的训练和优化。
2.根据权利要求1所述的一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法,其特征在于,所述步骤(1)对图像数据集添加风雨场景包括以下步骤:
(11)通过公式N~Uniform(0,255),N∈RW*H在图像的宽度W和高度H范围内,生成一个服从均匀分布的噪声矩阵N,模拟雨点在不同位置的随机散布效果;
(12)通过公式N′=N*K对噪声矩阵施加模糊处理,生成无特定方向的雨滴效果;其中,K代表预定义的模糊核,*表示二维卷积操作;
(13)构造对角矩阵D表示雨滴的直线下落路径;通过旋转对角矩阵D模拟雨滴的倾斜,再应用高斯模糊处理再现雨滴在空中下落的速度和方向,最终得到了模拟雨滴的模糊核M;
(14)通过公式:将模拟的风雨效果与原始图像融合;
其中,IC表示原始图像,β为混合权重,N″为模糊核后的噪声矩阵。
3.根据权利要求1所述的一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法,其特征在于,所述步骤(1)标准化预处理及数据增强操作包括:水平翻转、随机裁剪、随机擦除。
4.根据权利要求1所述的一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法,其特征在于,所述步骤(2)具体如下:
设图像x属于RW*H*C,其中,H,W和C分别表示其高度、宽度和通道数;
首先,将图像分割成Q个不重叠的块,表示为{xi|i=1,2,…,Q};其次,引入额外的可学习嵌入xcls,作为输入序列开始时聚合的特征表示;然后,在每个图像区块的特征向量后附加位置编码P;最后,传输给Transformer层的输入序列公式化为:
Z0=[xcls;F(x1);F(x2);...;F(xQ)]+P
其中,Z0代表输入序列;P∈R(Q+1)*D表示位置嵌入;F为线性投影函数,将图像映射到D维空间。
5.根据权利要求1所述的一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法,其特征在于,所述步骤(3)具体如下:
输入序列Z0输入到行人特征提取网络中进行处理,每一层通过多头自注意力机制对特征进行提炼和上下文信息整合,第l层的输出特征Zl可以通过以下方式计算:
Zl=Transformerlayer(Zl-1),l=1,2,...,L
其中,TransformerLayer代表标准Transformer架构中的层;
每一层Transformer层的输出特征构成{Z1,Z2,...,ZL}。
6.根据权利要求1所述的一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法,其特征在于,所述步骤(6)损失函数包括:ID损失和三元组损失;ID损失采用传统的交叉熵损失函数,不包括标签平滑;公式如下:
其中,B是类别数,yi是真实标签的one-hot编码,pi是模型预测样本属于第i个类别的概率;
三元组损失公式如下:
其中,d(ap)和d(an)分别表示锚样本与正样本/>和负样本/>之间的距离;超参数m作为正负样本对之间距离的下限:
其中,函数f(·)表示将输入图像映射到嵌入空间的特征提取算子;表示L2范数,用于计算两个特征向量之间的欧氏距离;[·]+是铰链损失函数,仅当括号中的值为正数时才计算损失,否则损失为0;
总损失函数公式L如下:
其中,最初每个输出的损失被设置为相等的权重,表示为ui,其中,i=0,1,2,3;然后在训练过程中通过反向传播算法动态调整各部分的权重;
判断是否达到最大迭代次数,若达到则输出最终的模型精度,若未达到,则重复步骤(2)-(5)。
7.根据权利要求1所述的一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法,其特征在于,还包括以下步骤:(0)构建监控网络,获取行人视频数据;采用目标检测算法检测行人,再采用目标跟踪算法获得行人检测框;裁剪为258*128像素规格的行人视频序列,组成图像数据集。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法。
CN202311661718.0A 2023-12-06 2023-12-06 一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法 Active CN117635973B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311661718.0A CN117635973B (zh) 2023-12-06 2023-12-06 一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311661718.0A CN117635973B (zh) 2023-12-06 2023-12-06 一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法

Publications (2)

Publication Number Publication Date
CN117635973A CN117635973A (zh) 2024-03-01
CN117635973B true CN117635973B (zh) 2024-05-10

Family

ID=90023146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311661718.0A Active CN117635973B (zh) 2023-12-06 2023-12-06 一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法

Country Status (1)

Country Link
CN (1) CN117635973B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627266A (zh) * 2021-07-15 2021-11-09 武汉大学 基于Transformer时空建模的视频行人重识别方法
CN115482508A (zh) * 2022-09-26 2022-12-16 天津理工大学 换装行人重识别方法、装置、设备和计算机可存储介质
CN115631513A (zh) * 2022-11-10 2023-01-20 杭州电子科技大学 基于Transformer的多尺度行人重识别方法
JP2023523502A (ja) * 2021-04-07 2023-06-06 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド モデルトレーニング方法、歩行者再識別方法、装置および電子機器
CN116486433A (zh) * 2023-04-10 2023-07-25 浙江大学 基于交叉自蒸馏Transformer重识别网络的重识别方法
CN116977817A (zh) * 2023-04-28 2023-10-31 浙江工商大学 一种基于多尺度特征学习的行人重识别方法
CN117011883A (zh) * 2023-05-16 2023-11-07 沈阳化工大学 一种基于金字塔卷积和Transformer双分支的行人重识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023523502A (ja) * 2021-04-07 2023-06-06 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド モデルトレーニング方法、歩行者再識別方法、装置および電子機器
CN113627266A (zh) * 2021-07-15 2021-11-09 武汉大学 基于Transformer时空建模的视频行人重识别方法
CN115482508A (zh) * 2022-09-26 2022-12-16 天津理工大学 换装行人重识别方法、装置、设备和计算机可存储介质
CN115631513A (zh) * 2022-11-10 2023-01-20 杭州电子科技大学 基于Transformer的多尺度行人重识别方法
CN116486433A (zh) * 2023-04-10 2023-07-25 浙江大学 基于交叉自蒸馏Transformer重识别网络的重识别方法
CN116977817A (zh) * 2023-04-28 2023-10-31 浙江工商大学 一种基于多尺度特征学习的行人重识别方法
CN117011883A (zh) * 2023-05-16 2023-11-07 沈阳化工大学 一种基于金字塔卷积和Transformer双分支的行人重识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Cloth-Changing Person Re-identification from A Single Image with Gait Prediction and Regularization;Xin Jin等;https://arxiv.org/pdf/2103.15537.pdf;20220331;全文 *
Multi-Biometric Unified Network for Cloth-Changing Person Re-Identification;Guoqing Zhang等;2022 IEEE International Conference on Multimedia and Expo (ICME);20220826;全文 *
Multi-direction and Multi-scale Pyramid in Transformer for Video-based Pedestrian Retrieval;Xianghao Zang等;https://arxiv.org/pdf/2202.06014.pdf;20220406;全文 *
Specialized Re-Ranking: A Novel Retrieval-Verification Framework for Cloth Changing Person Re-Identification;Renjie Zhang等;https://arxiv.org/pdf/2210.03592.pdf;20221007;全文 *
TransReID: Transformer-based Object Re-Identification;Shuting He等;https://arxiv.org/pdf/2102.04378.pdf;20210326;全文 *
基于CNN和TransFormer多尺度学习行人重识别方法;陈莹等;电子与信息学报;20230630;第45卷(第6期);全文 *

Also Published As

Publication number Publication date
CN117635973A (zh) 2024-03-01

Similar Documents

Publication Publication Date Title
CN110348319B (zh) 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
CN105913025B (zh) 一种基于多特征融合的深度学习人脸识别方法
Aggarwal et al. Image surface texture analysis and classification using deep learning
CN113221641B (zh) 基于生成对抗网络和注意力机制的视频行人重识别方法
CN108537743A (zh) 一种基于生成对抗网络的面部图像增强方法
CN113011357B (zh) 基于时空融合的深度伪造人脸视频定位方法
CN111709311A (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN115063573B (zh) 一种基于注意力机制的多尺度目标检测方法
CN108765279A (zh) 一种面向监控场景的行人人脸超分辨率重建方法
CN105825183B (zh) 基于部分遮挡图像的人脸表情识别方法
CN106228142A (zh) 基于卷积神经网络和贝叶斯决策的人脸验证方法
CN114067444B (zh) 基于元伪标签和光照不变特征的人脸欺骗检测方法和系统
CN103714326B (zh) 一种单样本人脸识别方法
CN108154133B (zh) 基于非对称联合学习的人脸画像-照片识别方法
CN107392213B (zh) 基于深度图模型特征学习的人脸画像合成方法
CN105893941B (zh) 一种基于区域图像的人脸表情识别方法
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN118247711A (zh) 一种Transformer架构小目标检测方法及系统
CN118212572A (zh) 一种基于改进YOLOv7的道路损坏检测方法
CN117635935A (zh) 轻量化无监督自适应图像语义分割方法及系统
Yang et al. Improved Object Detection Algorithm Based on Multi-scale and Variability Convolutional Neural Networks
CN117635973B (zh) 一种基于多层动态集中和局部金字塔聚合的换衣行人重识别方法
Liu et al. Iris double recognition based on modified evolutionary neural network
CN114694042A (zh) 一种基于改进Scaled-YOLOv4的伪装人员目标检测方法
CN114360058A (zh) 一种基于行走视角预测的跨视角步态识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant