CN117456560B - 一种基于前景感知动态部件学习的行人再辨识方法 - Google Patents
一种基于前景感知动态部件学习的行人再辨识方法 Download PDFInfo
- Publication number
- CN117456560B CN117456560B CN202311775203.3A CN202311775203A CN117456560B CN 117456560 B CN117456560 B CN 117456560B CN 202311775203 A CN202311775203 A CN 202311775203A CN 117456560 B CN117456560 B CN 117456560B
- Authority
- CN
- China
- Prior art keywords
- foreground
- pedestrian
- block
- importance
- energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000008447 perception Effects 0.000 title claims abstract description 15
- 238000013507 mapping Methods 0.000 claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 238000012216 screening Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000008707 rearrangement Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000011218 segmentation Effects 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 208000032538 Depersonalisation Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于前景感知动态部件学习的行人再辨识方法,涉及人工智能、机器视觉领域,包括:将浅层特征映射解码为前景能量图,利用交叉熵优化前景能量图,使其趋于真实前景标签,再将前景能量图空间划分为若干部件能量块,用各个部件能量块代表相应的浅层特征映射块的当前重要性;结合当前重要性和历史重要性对各浅层特征映射块进行综合重要性计算并排序,根据综合重要性排序优先选择高综合重要性的浅层特征映射块参与行人再辨识模型训练,从而减少来自背景区域的低综合重要性的浅层特征映射块参与行人再辨识模型训练的机会,达到抑制背景区域对行人辨识的干扰,提升行人再辨识准确性,可广泛应用于智慧城市场景中的城市安防系统。
Description
技术领域
本发明涉及人工智能、机器视觉领域,特别涉及一种基于前景感知动态部件学习的行人再辨识方法。
背景技术
实际中的行人图像多有行人检测器或人工截取的矩形图像,因为人体姿势差异、摄像头视角多变等因素,行人图像中无可避免混入相当多的背景区域像素,对行人身份相关的特征的学习造成严重干扰,限制了行人再辨识准确度。对于背景干扰的排除方法,现有的行人再辨识方法通常使用独立级联方式实现,即先利用训练好的前景分割模型对背景像素进行置零,再利用行人再辨识模型对背景像素置零后的行人图像进行特征学习。这类方法具有较好的可执行性,但是严重依赖前景分割模型的前景、背景分割质量,又由于行人图像前景背景本身就具有挑战性,难以完美分割前景与背景。此外,前景分割模型和行人再辨识模型是独立级联的,无法联合优化,因此行人再辨识模型无法对不完美的前景分割模型进行适应性的优化调整。综上,行人再辨识方法中的前景分割模型和行人再辨识模型独立级联型的背景干扰排除方式尚有很大改进空间。
发明内容
针对复杂背景干扰制约行人再辨识模型精确度的问题,本发明的目的在于提供一种基于前景感知动态部件学习的行人再辨识方法,将前景分割和行人再辨识联合优化,减少复杂背景对行人再辨识模型精确度不利干扰。
本发明采用的技术方案是:
一种基于前景感知动态部件学习的行人再辨识方法,包括:
前景感知步骤,将浅层特征映射解码为前景能量图,利用交叉熵优化前景能量图,使其趋于真实前景标签,再将前景能量图空间划分为若干部件能量块,用各个部件能量块表示相应的浅层特征映射块的当前重要性;
部件筛选步骤,结合部件能量块当前重要性和历史重要性对各浅层特征映射块进行综合重要性计算并排序,根据综合重要性排序优先筛选出高综合重要性对应的浅层特征映射块参与行人再辨识模型训练,并确保留下的浅层特征映射块的综合重要性之和与全体浅层特征映射块的综合重要性之和的比值超过预先设置的阈值,丢弃未被选中的综合重要性小的部件块,记录每个部件被选状态作为对应的空间位置的部件块历史被选状态信息;其中,被选状态包括选中或丢弃。
优选的,前景感知步骤将浅层特征映射解码为前景能量图的计算过程如公式(1)所示:
其中,是由行人图像上学得的N个浅层特征映射块的集合,每个浅层特征映射块都是由浅层神经网络从相应的行人图像块提取的特征,其维度是B×C,B表示样本数量,C表示特征通道数,/>H和W分别是行人图像相同的高度和宽度,h与w分别是经空间划分后每个图像块的高度与宽度;Reshape表示空间重排操作,针对x,它将N这一维度重排为H0和W0两个维度,并将C这个维度置换到B维度之后,获得重排后的特征映射/>H0表示所获得重排后的特征映射的高度,W0表示所获得重排后的特征映射的宽度,为确保后续前景能量图中每个空间位置的部件能量块都有之对应的相同空间位置行人图像块上学得的浅层特征映射块,即有Decoder为前景解码器,它由1×1卷积层Conv与两倍上采样层Upsample组成,其中,1×1卷积层Conv实现通道压缩,两倍上采样层Upsample通过空间插值将输入特征的空间尺寸的高度和宽度扩大至原来的2倍;/>表示第l个前景解码器的输出特征映射,Hl表示特征映射yl的高度,wl表示特征映射yl的宽度,Cl表示特征映射yl的通道数,l表示前景解码器序号,K表示解码层数量,因为采用两倍上采样层Upsample,Hl=2Hl-1,Wl=2Wl-1,l=1,2,3,....,K;经过K个前景解码中的一系列上采样后,yK具有和输入的行人图像相同的高度H和宽度W,即HK=H,WK=W,而且因为前景解码的目的是感知每个空间位置属于非行人背景和行人前景的概率,因此末尾前景解码器中的卷积层采用有两通道输出卷积核,使得yK具有2个通道,/>其中第0通道用于记录非行人背景信息,第1通道用于记载行人前景信息;利用概率分布转化函数Softmax将对yK沿通道进行归一化获得前景感知图,记为/>Ei,j表示前景能量图E在空间位置(i,j)上的取值,d为通道序号,表示yK在第0个通道在空间位置(i,j)上的非行人背景信息取值,/>表示yK在第1个通道在空间位置(i,j)上的行人背景信息取值。
优选的,前景感知步骤中,利用交叉熵优化前景能量图,使其趋于真实前景标签步骤中,交叉熵损失计算如公式(2)所示:
其中,L(E,G)表示交叉熵损失函数;表示真实的前景标签图;/>表示第k个样本的前景能量图在空间位置(i,j)上的取值;/>表示第k个样本的真实的前景标签图在空间位置(i,j)上的取值,且/>表示相应空间位置上的像素是非行人背景像素,/>表示相应空间位置上的像素是行人前景像素。
优选的,前景感知步骤中,将前景能量图空间划分为若干部件能量块步骤中,如公式(3)所示:
zm,n=Split(E,m,n,h,w)=E[:,m·h:(m+1)·h,n·w:(n+1)·w]
其中,Split表示空间划分操作,用于取出指定位置的数据;表示部件能量块,h与w分别表示部件能量块zm,n的高度与宽度,即部件能量块zm,n的高度与宽度与图像块一致;m和n分别表示高度位置上与宽度位置上的序号。
优选的,部件筛选步骤中,计算各个部件能量块对应的浅层特征映射块的当前重要性,如公式(4)所示:
其中,pm,n表示部件能量块zm,n对应浅层特征映射块xm,n的当前重要性,当前重要性指的是在本轮训练中,该部件内部的信息对于行人身份辨识的重要程度;为部件能量块zm,n前景能量的均值,h与w分别表示部件能量块zm,n的高度与宽度,即部件能量块zm,n的高度与宽度与图像块一致;m和n分别表示高度位置上与宽度位置上的序号。
优选的,部件筛选步骤中,计算各个空间位置的历史重要性,如公式(5)所示:
其中,qm,n表示空间位置(m,n)的历史重要性,它由空间位置(m,n)历史被选次数为与所有空间位置历史被选次数之和的比值,一个空间位置如被选中就表示该空间位置对应的特征映射块能被输入给深层网络参与行人再辨识模型训练,否则该空间位置对应的特征映射块不能输入给深层网络参与行人再辨识模型训练,历史重要性是指前面的所有训练中,该部件内部的信息对于行人身份辨识的重要程度;H与W分别表示行人图像的高度与宽度,h与w分别表示部件能量块zm,n的高度与宽度,即部件能量块zm,n的高度与宽度与图像块一致;m和n分别表示高度位置上与宽度位置上的序号。
优选的,部件筛选步骤中,结合当前重要性和历史重要性计算部件能量块对应的浅层特征映射块的综合重要性,如公式(6)所示:
其中,s表示综合重要性集合,sm,n表示部件能量块zm,n对应浅层特征映射块xm,n的综合重要性;pm,n为部件能量块zm,n对应浅层特征映射块xm,n的当前重要性;qm,n为空间位置(m,n)的历史重要性;H与W分别表示行人图像的高度与宽度,h与w分别表示部件能量块zm,n的高度与宽度,即部件能量块zm,n的高度与宽度与图像块一致;m和n分别表示高度位置上与宽度位置上的序号。
优选的,部件筛选步骤中,根据综合重要性对能量块对应的浅层特征映射块进行降序排序、筛选和记录,如公式(7)所示:
idx=Descend(s)
其中,Descend表示降序排序方法,idx表示综合重要性集合s中各元素从大到小排序的降序索引数组;Select表示筛选特征映射块的方法,因为综合重要性集合s和浅层特征映射块集合x各种的元素是一一对应的,Select根据降序索引数组idx,选中前T个对应具备高综合重要性的浅层特征映射块,获得输出特征映射块用于行人再辨识模型训练,而未被选中的浅层特征映射块不参与行人再辨识模型训练;对于T的取值,要求其满足选中的前T个特征的综合重要性之和与所有特征的综合重要性之和的比值应大于预先设置的阈值τ,且T为满足这一条件的最小整数,即T为满足/>的最小整数,其中s[idx]k表示综合重要性集合s按照降序索引数组idx进行降序排序获得集合中的第k个综合重要性;H与W分别表示行人图像的高度与宽度,h与w分别表示部件能量块zm,n的高度与宽度,即部件能量块zm,n的高度与宽度与图像块一致;m和n分别表示高度位置上与宽度位置上的序号;完成筛选后,所述部件筛选步骤还负责记录各空间位置对应选中情况,即对被选中浅层特征块的空间位置的选中次数加一。
与现有技术相比,本发明的有益效果是本发明能够联合优化前景分割和行人再辨识,减少来自背景区域的低综合重要性的浅层特征映射块参与行人再辨识模型训练机会,达到抑制背景区域对行人辨识干扰的效果。
附图说明
图1为本发明前景感知动态部件学习方法的示意图;
图2为本发明基于前景感知动态部件学习的行人再辨识方法的实施案例示意图。
具体实施方式
如图1和图2所示,本实施例一种基于前景感知动态部件学习的行人再辨识方法,其训练阶段,包括以下步骤。
步骤1:获取带有身份标签和行人/背景分割图的行人图像数据作为行人再辨识数据集。
步骤2:基于ViT-Base模型构建基于前景感知动态部件学习的行人再辨识模型,具体地说,如图2所示,把ViT-Base模型的线性映射层和前六个Transformer块作为浅层网络,把ViT-Base模型的后六层Transformer块作为深层网络,前景感知动态部件学习步骤插入到浅层网络和深层网络之间,即将其置于浅层网络之后且深层网络之前。
步骤3:浅层网络计算,将图像处理为令牌及特征映射块集合。
3.1、数据预处理,将图片大小调整至H×W,H与W分别是图像的高度与宽度,并使用随机翻转、随机擦除等数据增强进行数据预处理。
3.2、线性映射,将图像转化为特征映射,如公式(1)所示:
r=Flatten(Conv(im)) (1)
其中,图像数据经过线性投影后转为特征映射/>B为样本数量,N是特征块数目,C是特征块的通道数,H与W分别是数据的高度与宽度;线性投影包括卷积运算Conv与空间拉平操作Flatten。具体地说,此处卷积运算Conv采用h×w感受野的卷积核配以垂直方向h像素,水平方向w像素的滑动步长,将输入图像转化为/>的特征映射,每块的维数是B×C;空间拉平操作将/>的特征映射为B×C×N的特征映射,其中/>随后将维度N移动至维度B后,获得特征映射/>值得注意的是,此处卷积运算可视为先将图像空间划分为/>个高度为h宽度为w的图像块,再对每个图像块用相同的卷积核进行内积运算获得相应的维数为B×C的浅层特征映射块,最后获得浅层特征映射块拼接为/>的浅层特征映射。因此,特征映射r可以看做从N个高度为h宽度为w的图像块提取的特征映射块的集合,即其中/>
3.3、堆叠Transformer块计算,把一个与特征映射块相同通道数令牌(Token)tok与特征映射r拼接后送入浅层网络,计算过程如公式(2)所示:
其中,是通过特征连接操作Concat在N这一维度上拼接令牌与特征映射/>获得的数据;/>为第l个Transformer块对第l-1个Transformer块的输出数据进行Transformer运算获得的数据,如图2所示,每个Transformer块中的Transformer运算包括注意力Attention、正则化Norm以及多层感知机MLP;浅层网络的输出特征为第六个Transformer块的输出/>并在(N+1)这一维度上分离出令牌/>与特征映射/>为便于后续描述,将特征映射x视为特征映射块集合,即/>因为x集合和r集合中元素是一一对应的,所以x本质上是由浅层网络从N个高度为h宽度为w的图像块提取的特征映射块的集合,/>
步骤4:利用前景感知步骤获取浅层特征映射块的重要性,筛选重要的浅层特征映射块进步深层网络进一步进行特征学习。
4.1、将浅层特征映射解码为前景能量图的计算过程如公式(3)所示:
其中,是由浅层网络从行人图像上学得的N个浅层特征映射块的集合,每个浅层特征映射块的维度是B×C,h与w分别是经空间划分后每个图像块的高度与宽度;Reshape为空间重排操作,针对x,它将N这一维度重排为H0和W0两个维度,并将C这个维度置换到B维度之后,获得重排后的特征映射/>H0,W0与C分别为所获得重排后的特征映射的高度,宽度与通道数,为确保后续前景能量图中每个空间位置的部件能量块都有之对应的相同空间位置行人图像块上学得的浅层特征映射块,即有/>Decoder为前景解码器,它由1×1卷积层Conv与两倍上采样层Upsample组成,其中,1×1卷积层Conv实现通道压缩,两倍上采样层Upsample通过空间插值将输入特征的空间尺寸的高度和宽度扩大至原来的2倍;是第l个前景解码器的输出特征映射,Hl,Wl和Cl分别为特征映射yl的高度,宽度和通道数,l为前景解码器序号,K为解码层数量,因为采用两倍上采样层Upsample,Hl=2Hl-1,Wl=2Wl-1,l=1,2,3,....,K;经过K个前景解码中的一系列上采样后,yK具有和输入的行人图像相同的高度H和宽度W,即HK=H,WK=W,而且因为前景解码的目的是感知每个空间位置属于非行人背景和行人前景的概率,因此末尾前景解码器中的卷积层采用有两通道输出卷积核,使得yK具有2个通道,/>其中第0通道用于记录非行人背景信息,第1通道用于记载行人前景信息;利用概率分布转化函数Softmax将对yK沿通道进行归一化获得前景感知图,记为/>进一步地,Ei,j表示前景能量图E在空间位置(i,j)上的取值,d为通道序号,/>表示yK在第0个通道在空间位置(i,j)上的非行人背景信息取值,/>表示yK在第1个通道在空间位置(i,j)上的行人背景信息取值。
4.2、利用交叉熵优化前景能量图,使其趋于真实前景标签,交叉熵损失计算如公式(4)所示:
其中,L(E,G)代表交叉熵损失函数;和/>分别表示前景能量图和真实的前景标签图;/>表示第k个样本的前景能量图在空间位置(i,j)上的取值;表示第k个样本的真实的前景标签图在空间位置(i,j)上的取值,且/>表示相应空间位置上的像素是非行人背景像素,/>表示相应空间位置上的像素是行人前景像素。
4.3、将前景能量图空间划分为若干部件能量块,且空间划分方式与步骤3中的图像空间划分方式相同,如公式(5)所示:
其中,Split为空间划分操作,用于取出指定位置的数据;表示前景能量图;/>为部件能量块,m和n分别是高度位置上与宽度位置上的序号。
步骤5:利用部件筛选步骤,减少来自背景区域的低综合重要性的浅层特征映射块参与深层网络训练的机会。
5.1、计算各个部件能量块对应的浅层特征映射块的当前重要性,如公式(6)所示:
其中,pm,n为部件能量块zm,n对应浅层特征映射块xm,n的当前重要性,当前重要性指的是在本轮训练中,该部件内部的信息对于行人身份辨识的重要程度;为部件能量块zm,n前景能量的均值。
5.2、计算各个空间位置的历史重要性,如公式(7)所示:
其中,qm,n为空间位置(m,n)的历史重要性,它由空间位置(m,n)历史被选次数为与所有空间位置历史被选次数之和的比值,一个空间位置如被选中就表示该空间位置对应的特征映射块能被输入给深层网络参与行人再辨识模型训练,否则该空间位置对应的特征映射块不能输入给深层网络参与行人再辨识模型训练,历史重要性是指前面的所有训练中,该部件内部的信息对于行人身份辨识的重要程度。
5.3、结合当前重要性和历史重要性计算部件能量块对应的浅层特征映射块的综合重要性,如公式(8)所示:
其中,s是综合重要性集合,其中sm,n为部件能量块zm,n对应浅层特征映射块xm,n的综合重要性;pm,n为部件能量块zm,n对应浅层特征映射块xm,n的当前重要性;qm,n为空间位置(m,n)的历史重要性。
5.4、根据综合重要性对能量块对应的浅层特征映射块进行降序排序、筛选和记录,如公式(9)所示:
其中,Descend是降序排序方法,idx为综合重要性集合s中各元素从大到小排序的降序索引数组;Select为筛选特征映射块的方法。具体地说,因为综合重要性集合s和浅层特征映射块集合x各种的元素是一一对应的,Select根据降序索引数组idx,选中前T个对应具备高综合重要性的浅层特征映射块,获得输出特征映射块用于行人再辨识模型训练,而未被选中的浅层特征映射块不参与行人再辨识模型训练。进一步地,对于T的取值,要求其满足选中的前T个特征的综合重要性之和与所有特征的综合重要性之和的比值应大于预先设置的阈值τ,且T为满足这一条件的最小整数,即T为满足/>的最小整数,其中s[idx]k为综合重要性集合s按照降序索引数组idx进行降序排序获得集合中的第k个综合重要性。完成筛选后,部件筛选步骤,还有负责记录各空间位置对应选中情况,即对被选中浅层特征映射块的空间位置的选中次数加一。
步骤6:深层网络计算,对前景感知步骤筛选获得重要的浅层特征映射块进行特征学习,其过程与步骤3浅层网络中的堆叠Transformer块计算类似,如公式(10)所示:
其中,为输入至Transformer块的数据,通过特征连接操作Concat在T维度拼接令牌/>与特征映射块/>得到,T是特征块数目;/>为第l层Transformer块的输出特征;最后一层的输出特征/>在维度(T+1)上提取出令牌/>
步骤7:身份交叉熵优化,使用全连接层与概率分布转化函数处理深层网络输出的令牌,并利用交叉熵计算并输出身份的交叉熵损失,如公式(11)所示:
I(g,H)=CrossEntropy(Softmax(FC(g)),H) (11)
其中,I(g,H)代表身份的交叉熵损失函数;令牌g经过全连接层FC将其维数转化至训练集的身份类别数量,再利用概率分布转化函数Softmax映射获得身份后验概率,最后由交叉熵CrossEntropy计算身份后验概率与身份标签H之间的损失值。
步骤8:随机梯度下降,对前景的交叉熵损失函数(即公式(4))和身份的交叉熵损失函数(即公式(11))进行随机梯度下降,完成模型训练。
在本实施案例中,一种基于前景感知动态部件学习的行人再辨识方法,其推理阶段为:使用训练阶段得到的行人再辨识模型,对查询图像与注册图像进行特征提取,基于深层网络所提取的令牌,利用欧式距离计算查询图像与注册图像的距离,距离更近的注册图像即为与查询图像相似的注册图像,作为行人再辨识模型识别的结果。
本发明的关键在于通过在行人再辨识模型中应用前景感知动态部件学习方法,联合优化前景分割和行人再辨识,减少来自背景区域的低综合重要性的浅层特征映射块参与行人再辨识模型训练机会,达到抑制背景区域对行人辨识干扰的效果。因此,本发明可广泛应用于智慧城市场景中的城市安防系统。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,本发明所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (6)
1.一种基于前景感知动态部件学习的行人再辨识方法,其特征在于,包括以下步骤:
前景感知步骤,将浅层特征映射解码为前景能量图,利用交叉熵优化前景能量图,使其趋于真实前景标签,再将前景能量图空间划分为若干部件能量块,用各个部件能量块表示相应的浅层特征映射块的当前重要性;
部件筛选步骤,结合部件能量块当前重要性和历史重要性对各浅层特征映射块进行综合重要性计算并排序,根据综合重要性排序优先筛选出高综合重要性对应的浅层特征映射块参与行人再辨识模型训练,并确保留下的浅层特征映射块的综合重要性之和与全体浅层特征映射块的综合重要性之和的比值超过预先设置的阈值,丢弃未被选中的综合重要性小的部件块,记录每个部件被选状态作为对应的空间位置的部件块历史被选状态信息;其中,被选状态包括选中或丢弃;
前景感知步骤中,将浅层特征映射解码为前景能量图的计算过程如下:
其中,是由行人图像上学得的N个浅层特征映射块的集合,每个浅层特征映射块都是由浅层神经网络从相应的行人图像块提取的特征,其维度是B×C,B表示样本数量,C表示特征通道数,/>H和W分别是行人图像相同的高度和宽度,h与w分别是经空间划分后每个图像块的高度与宽度;Reshape表示空间重排操作,针对x,它将N这一维度重排为H0和W0两个维度,并将C这个维度置换到B维度之后,获得重排后的特征映射/>H0表示所获得重排后的特征映射的高度,W0表示所获得重排后的特征映射的宽度,为确保后续前景能量图中每个空间位置的部件能量块都有之对应的相同空间位置行人图像块上学得的浅层特征映射块,即有Decoder为前景解码器,它由1×1卷积层Conv与两倍上采样层Upsample组成,其中,1×1卷积层Conv实现通道压缩,两倍上采样层Upsample通过空间插值将输入特征的空间尺寸的高度和宽度扩大至原来的2倍;/>表示第l个前景解码器的输出特征映射,Hl表示特征映射yl的高度,Wl表示特征映射yl的宽度,Cl表示特征映射yl的通道数,l表示前景解码器序号,K表示解码层数量,因为采用两倍上采样层Upsample,Hl=2Hl-1,Wl=2Wl-1,l=1,2,3,....,K;经过K个前景解码中的一系列上采样后,yK具有和输入的行人图像相同的高度H和宽度W,即HK=H,WK=W,而且因为前景解码的目的是感知每个空间位置属于非行人背景和行人前景的概率,因此末尾前景解码器中的卷积层采用有两通道输出卷积核,使得yK具有2个通道,/>其中第0通道用于记录非行人背景信息,第1通道用于记载行人前景信息;利用概率分布转化函数Softmax将对yK沿通道进行归一化获得前景感知图,记为/>Ei,j表示前景能量图E在空间位置(i,j)上的取值,d为通道序号,表示yK在第0个通道在空间位置(i,j)上的非行人背景信息取值,/>表示yK在第1个通道在空间位置(i,j)上的行人背景信息取值;
前景感知步骤中,利用交叉熵优化前景能量图,使其趋于真实前景标签步骤中,交叉熵损失计算如下所示:
其中,L(E,G)表示交叉熵损失函数;表示真实的前景标签图;/>表示第k个样本的前景能量图在空间位置(i,j)上的取值;/>表示第k个样本的真实的前景标签图在空间位置(i,j)上的取值,且/>表示相应空间位置上的像素是非行人背景像素,表示相应空间位置上的像素是行人前景像素。
2.根据权利要求1所述的基于前景感知动态部件学习的行人再辨识方法,其特征在于,前景感知步骤中,将前景能量图空间划分为若干部件能量块步骤中,如下所示:
其中,Split表示空间划分操作,用于取出指定位置的数据;表示部件能量块,h与w分别表示部件能量块zm,n的高度与宽度,即部件能量块zm,n的高度与宽度与图像块一致;m和n分别表示高度位置上与宽度位置上的序号。
3.根据权利要求1所述的基于前景感知动态部件学习的行人再辨识方法,其特征在于,部件筛选步骤中,计算各个部件能量块对应的浅层特征映射块的当前重要性的公式如下:
其中,pm,n表示部件能量块zm,n对应浅层特征映射块xm,n的当前重要性,当前重要性指的是在本轮训练中,该部件内部的信息对于行人身份辨识的重要程度;为部件能量块zm,n前景能量的均值,h与w分别表示部件能量块zm,n的高度与宽度,即部件能量块zm,n的高度与宽度与图像块一致;m和n分别表示高度位置上与宽度位置上的序号。
4.根据权利要求1所述的基于前景感知动态部件学习的行人再辨识方法,其特征在于,部件筛选步骤中,计算各个空间位置的历史重要性的公式如下:
其中,qm,n表示空间位置(m,n)的历史重要性,它由空间位置(m,n)历史被选次数为与所有空间位置历史被选次数之和的比值,一个空间位置如被选中就表示该空间位置对应的特征映射块能被输入给深层网络参与行人再辨识模型训练,否则该空间位置对应的特征映射块不能输入给深层网络参与行人再辨识模型训练,历史重要性是指前面的所有训练中,该部件内部的信息对于行人身份辨识的重要程度;H与W分别表示行人图像的高度与宽度,h与w分别表示部件能量块zm,n的高度与宽度,即部件能量块zm,n的高度与宽度与图像块一致;m和n分别表示高度位置上与宽度位置上的序号。
5.根据权利要求1所述的基于前景感知动态部件学习的行人再辨识方法,其特征在于,部件筛选步骤中,结合当前重要性和历史重要性计算部件能量块对应的浅层特征映射块的综合重要性,如下所示:
其中,s表示综合重要性集合,sm,n表示部件能量块zm,n对应浅层特征映射块xm,n的综合重要性;pm,n为部件能量块zm,n对应浅层特征映射块xm,n的当前重要性;qm,n为空间位置(m,n)的历史重要性;H与W分别表示行人图像的高度与宽度,h与w分别表示部件能量块zm,n的高度与宽度,即部件能量块zm,n的高度与宽度与图像块一致;m和n分别表示高度位置上与宽度位置上的序号。
6.根据权利要求1所述的基于前景感知动态部件学习的行人再辨识方法,其特征在于,部件筛选步骤中,根据综合重要性对能量块对应的浅层特征映射块进行降序排序、筛选和记录,如下所示:
idx=Descend(s)
其中,Descend表示降序排序方法,idx表示综合重要性集合s中各元素从大到小排序的降序索引数组;Select表示筛选特征映射块的方法,因为综合重要性集合s和浅层特征映射块集合x各种的元素是一一对应的,Select根据降序索引数组idx,选中前T个对应具备高综合重要性的浅层特征映射块,获得输出特征映射块用于行人再辨识模型训练,而未被选中的浅层特征映射块不参与行人再辨识模型训练;对于T的取值,要求其满足选中的前T个特征的综合重要性之和与所有特征的综合重要性之和的比值应大于预先设置的阈值τ,且T为满足这一条件的最小整数,即T为满足/>的最小整数,其中s[idx]k表示综合重要性集合s按照降序索引数组idx进行降序排序获得集合中的第k个综合重要性;H与W分别表示行人图像的高度与宽度,h与w分别表示部件能量块zm,n的高度与宽度,即部件能量块zm,n的高度与宽度与图像块一致;m和n分别表示高度位置上与宽度位置上的序号;完成筛选后,所述部件筛选步骤还负责记录各空间位置对应选中情况,即对被选中浅层特征块的空间位置的选中次数加一。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311775203.3A CN117456560B (zh) | 2023-12-22 | 2023-12-22 | 一种基于前景感知动态部件学习的行人再辨识方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311775203.3A CN117456560B (zh) | 2023-12-22 | 2023-12-22 | 一种基于前景感知动态部件学习的行人再辨识方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117456560A CN117456560A (zh) | 2024-01-26 |
CN117456560B true CN117456560B (zh) | 2024-03-29 |
Family
ID=89591456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311775203.3A Active CN117456560B (zh) | 2023-12-22 | 2023-12-22 | 一种基于前景感知动态部件学习的行人再辨识方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117456560B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280411A (zh) * | 2018-01-10 | 2018-07-13 | 上海交通大学 | 一种具有空间变换能力的行人搜索方法 |
CN109902590A (zh) * | 2019-01-30 | 2019-06-18 | 西安理工大学 | 深度多视图特征距离学习的行人重识别方法 |
CN109948425A (zh) * | 2019-01-22 | 2019-06-28 | 中国矿业大学 | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 |
WO2020173036A1 (zh) * | 2019-02-26 | 2020-09-03 | 博众精工科技股份有限公司 | 基于深度学习的定位方法和系统 |
CN112464730A (zh) * | 2020-11-03 | 2021-03-09 | 南京理工大学 | 一种基于域无关前景特征学习的行人再识别方法 |
CN114743217A (zh) * | 2022-03-29 | 2022-07-12 | 南京信息工程大学 | 一种基于局部特征感知图文跨模态模型的行人识别方法和模型的训练方法 |
CN115294655A (zh) * | 2022-08-18 | 2022-11-04 | 中科天网(广东)科技有限公司 | 一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备 |
CN116681921A (zh) * | 2023-05-06 | 2023-09-01 | 北京工业大学 | 一种基于多特征损失函数融合的目标标注方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220415027A1 (en) * | 2021-06-29 | 2022-12-29 | Shandong Jianzhu University | Method for re-recognizing object image based on multi-feature information capture and correlation analysis |
US20230162522A1 (en) * | 2022-07-29 | 2023-05-25 | Nanjing University Of Posts And Telecommunications | Person re-identification method of integrating global features and ladder-shaped local features and device thereof |
-
2023
- 2023-12-22 CN CN202311775203.3A patent/CN117456560B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280411A (zh) * | 2018-01-10 | 2018-07-13 | 上海交通大学 | 一种具有空间变换能力的行人搜索方法 |
CN109948425A (zh) * | 2019-01-22 | 2019-06-28 | 中国矿业大学 | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 |
CN109902590A (zh) * | 2019-01-30 | 2019-06-18 | 西安理工大学 | 深度多视图特征距离学习的行人重识别方法 |
WO2020173036A1 (zh) * | 2019-02-26 | 2020-09-03 | 博众精工科技股份有限公司 | 基于深度学习的定位方法和系统 |
CN112464730A (zh) * | 2020-11-03 | 2021-03-09 | 南京理工大学 | 一种基于域无关前景特征学习的行人再识别方法 |
CN114743217A (zh) * | 2022-03-29 | 2022-07-12 | 南京信息工程大学 | 一种基于局部特征感知图文跨模态模型的行人识别方法和模型的训练方法 |
CN115294655A (zh) * | 2022-08-18 | 2022-11-04 | 中科天网(广东)科技有限公司 | 一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备 |
CN116681921A (zh) * | 2023-05-06 | 2023-09-01 | 北京工业大学 | 一种基于多特征损失函数融合的目标标注方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于多池化融合与背景消除网络的跨数据集行人再识别方法;李艳凤等;《通信学报》;20201025;第41卷(2020年第10期);第70-79页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117456560A (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112329658B (zh) | 一种对于yolov3网络的检测算法改进方法 | |
CN110555465B (zh) | 一种基于cnn与多特征融合的天气图像识别方法 | |
CN111754446A (zh) | 一种基于生成对抗网络的图像融合方法、系统及存储介质 | |
CN109034184B (zh) | 一种基于深度学习的均压环检测识别方法 | |
CN111860683B (zh) | 一种基于特征融合的目标检测方法 | |
CN112435191B (zh) | 一种基于多个神经网络结构融合的低照度图像增强方法 | |
CN107123091A (zh) | 一种基于深度学习的近红外人脸图像超分辨率重建方法 | |
CN115393396B (zh) | 一种基于掩码预训练的无人机目标跟踪方法 | |
CN116469100A (zh) | 一种基于Transformer的双波段图像语义分割方法 | |
CN111696136A (zh) | 一种基于编解码结构的目标跟踪方法 | |
CN113743269A (zh) | 一种轻量化识别视频人体姿态的方法 | |
CN113112519A (zh) | 基于感兴趣目标分布的关键帧筛选方法 | |
CN113642445A (zh) | 一种基于全卷积神经网络的高光谱影像分类方法 | |
CN113052170A (zh) | 一种无约束场景下的小目标车牌识别方法 | |
CN113095277A (zh) | 一种基于目标空间分布特征的无人机航拍车辆检测方法 | |
CN110929649A (zh) | 一种面向小目标检测的网络和困难样本挖掘方法 | |
CN115631513A (zh) | 基于Transformer的多尺度行人重识别方法 | |
CN116563410A (zh) | 基于两级生成对抗网络的电气设备电火花图像生成方法 | |
CN113743515B (zh) | 基于自监督自学习特征点的遥感影像特征匹配方法 | |
CN113610707B (zh) | 一种基于时间注意力与循环反馈网络的视频超分辨率方法 | |
CN112669324B (zh) | 基于时序特征聚合和条件卷积的快速视频目标分割方法 | |
CN117456560B (zh) | 一种基于前景感知动态部件学习的行人再辨识方法 | |
CN117315336A (zh) | 花粉颗粒识别方法、装置、电子设备及存储介质 | |
CN114821318B (zh) | 一种基于Darkdet-Net的低照度小样本目标检测方法 | |
CN116543338A (zh) | 一种基于注视目标估计的学生课堂行为检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |