CN114724182A - 基于时序补偿引导的强化学习图像-视频行人重识别方法 - Google Patents
基于时序补偿引导的强化学习图像-视频行人重识别方法 Download PDFInfo
- Publication number
- CN114724182A CN114724182A CN202210362412.4A CN202210362412A CN114724182A CN 114724182 A CN114724182 A CN 114724182A CN 202210362412 A CN202210362412 A CN 202210362412A CN 114724182 A CN114724182 A CN 114724182A
- Authority
- CN
- China
- Prior art keywords
- video
- pedestrian
- network
- image
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 39
- 230000002787 reinforcement Effects 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims description 48
- 230000006870 function Effects 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 21
- 239000000126 substance Substances 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 9
- 239000003795 chemical substances by application Substances 0.000 claims description 8
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 241000208340 Araliaceae Species 0.000 claims description 3
- 101100161752 Mus musculus Acot11 gene Proteins 0.000 claims description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 3
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 235000008434 ginseng Nutrition 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract 1
- 230000000295 complement effect Effects 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明涉及行人重识别场景,具体而言是一种基于时序信息补偿引导的强化学习图像- 视频跨模态行人重识别方法。
背景技术
行人重识别(Person Re-Identification)旨在从多个不同的相机视图中识别目标行人身份。 该技术在智能监控系统,行为分析和人机交互等诸多领域中拥有的巨大潜力,近年来引起了 越来越多的关注。由于背景杂乱,部分遮挡,拍摄角度、照明和身体姿势变化等因素,行人 重识别非常具有挑战性。现有的大多数方法主要关注基于图像或视频的单模态行人重识别, 即基于图像-图像或视频-视频的行人匹配技术,极大地限制了行人重识别在很多实际场景中 的应用。这就引出了图像-视频跨模态行人重识别(Image-to-Video Person Re-Identification)。 该任务的目标在于给定一张行人图像,从多个不同的相机视图中识别与检索包含同一行人身 份的视频。相较于基于图像或视频的单模态行人重识别而言,该任务的主要难点在于需要解 决图像和视频之间信息不对等问题。视频中蕴含大量空间和时间信息而图像中只含有空间信 息,这使视频和图像在特征空间存在巨大的差异,难以衡量图像特征和视频特征的相似度, 导致图像-视频跨模态行人检索性能不足以支撑实际场景的应用落地。为此,视频和图像信 息不对等问题成为图像-视频行人重识别技术亟待解决的关键。
为解决上述问题,现有图像-视频行人重识别方法主要分为两大类:1)利用距离度量方 法将图像和视频特征投影同一特征空间;2)利用知识蒸馏方法使图像特征提取网络具备视频 特征提取网络学习时序信息的能力。两者均将图像-视频行人重识别视作跨模态检索任务, 驱使网络模型从视频和图像中学习相似的特征表达,忽略了视频和图像之间由于时空信息不 对等问题引起的巨大差异。第二类方法还需要分别构建图像特征提取网络与视频特征提取网 络,极大程度上提高了网络模型的复杂度。此外,视频序列通常包含大量冗余的外观信息和 噪声,而现有的两类方法直接从所有视频帧中提取特征,未考虑噪声和冗余信息对网络模型 造成的影响,导致视频特征表达的鲁棒性和有效性不如人意。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于时序补偿引导的强化学 习图像-视频行人重识别方法,以期能减少视频序列中时空冗余信息与噪声的干扰,从而实 现从图像到视频的行人匹配以达到高效、精确的身份识别。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于时序补偿引导的强化学习图像-视频行人重识别方法的特点在于,包括 如下步骤:
步骤一、行人数据收集和预处理:
分别采集不同场景的行人视频数据并逐帧使用行人检测方法和尺寸归一化法进行预处理, 获得训练数据集其中,x′i表示第i段行人视频,且第i段行人视频x′i所包 含的帧数为ti,即 表示第i段行人视频x′i内第t帧图像,y′i表示第i段行人视 频x′i对应的行人身份ID,且m表示任意一个行人的身份ID,表示 训练数据集中D的身份ID数量;N表示训练数据集D中的行人视频的数量;
步骤二、构建批处理视频数据:
步骤2.1、从所述训练数据集D中随机采集p个行人身份ID,且根据每个行人身份ID分 别随机选取n段相应行人身份ID的行人视频,再从每段行人视频中采样T帧图像,从而由p×n段视频序列构成当前批的处理数据其中,xj表示批处理数据X中时间长度为T的第j段视频,且 表示第j段视频xj中的第t帧图像,yj表示批处理数 据X中第j段视频xj中对应的行人身份ID;
步骤2.2、构建以ResNet-50深度学习网络为基础的序列特征提取网络;
所述ResNet-50深度学习网络包括5个阶段,其中,第1个阶段Stage 0由一个卷积核为 k1×k1的卷积层,一个批量归一化处理层和一个ReLU激活函数层构成,其余4个阶段均由 Bottleneck模块组成;第2个阶段Stage 1包含3个Bottleneck模块,剩下3个阶段分别包括 4个、6个、3个Bottleneck模块,每个Bottleneck模块由S个卷积层组成,每个卷积层后均连接一个批量归一化处理层和一个ReLU激活函数层;其中第s个卷积层的卷积核为Ks×Ks;
所述序列特征提取模块包含一个由ResNet-50网络前四个阶段构成的基础特征提取模块, 一个多头注意力模块及T个补偿残差检测器;
其中,所述多头注意力模块包含两个卷积层,每个补充残差检测器包含一个由ResNet- 50网络第五阶段构造的补偿特征学习模块;
当t=1时,第t帧图像对应的基础特征经过第t个补偿残差检测模块的提取后,得 到第t帧图像对应的特征并令第t帧图像对应的包含时序补偿信息的序列特征 其中,表示前t-1帧图像对应的包含时序补偿信息的序列特征,且
在第t个补偿残差检测器中,将显著性特征作为维度为k×k×c的卷积核,并与第t 帧基础特征进行卷积学习后获取前t-1帧图像对应的显著性特征在第t帧图像上对 应的显著区域的掩图并利用式(1)得到第t帧图像蕴含的补偿残差信息
第j段视频xj的所有帧图像对应的包含时序补偿信息的序列特征经过一个时空平均池 化层后输出第j个特征集合从而得到当前批的处理数据X的特征集合其中,表示第j段视频xj的前t帧图像提取的含时序补偿信息的序列特征向量;
步骤2.4、构建由actor网络和critic网络组成的智能体,并作为序列决策模块网络;其中, critic网络包括三个全连接层,actor网络包括三个全连接层和一个Sigmoid函数层;
步骤2.4.1、从当前批的处理数据X中获取与行人视频xj不同的行人视频x′j,行人视频x′j对应行人ID为y′j,将行人视频x′j中的第一帧记为行人图像Ii,行人图像Ii经过所述序列特征 提取网络后得到对应的图像特征向量v′i;
步骤2.4.3、第j段行人视频xj中前t帧图像对应的包含时序补偿信息的序列特征、第 t帧图像对应的基础特征向量以及图像Ii对应的图像特征向量v′i输入所述actor网络中进 行运算,并输出t时刻的动作at,且at∈(0,1);若at≥0.5,则将为第j段行人视频xj对 应的视频特征向量若at<0.5,则将t+1赋值给t后,返回步骤2.4.2顺序执行;
步骤三、使用行人重识别损失更新序列特征提取网络:
步骤3.1、所述序列特征向量经过一个全连接层的分类处理后,输出的结果再经过 Softmax函数后得到对应行人身份ID的分类概率其中,表示行人视频xj每一帧被 为正确行人身份ID为yj的概率集合,且 表示行人视频xj中第t帧被分类为 正确行人身份ID yj的概率,利用式(2)计算身份损失函数Lide:
步骤3.2、利用式(3)计算当前批的处理数据X的三元组损失Ltri:
式(3)中,ρ是边距参数,[*]+=max(*,0)表示取最大值函数,表示第j段视频xj中前 t帧序列特征向量,表示当前批的处理数据X中与第j段视频xj所对应的行人身份ID相同 的正样本视频xp中前t帧图像对应的序列特征向量,yp表示行人视频xp对应的行人身份ID, 表示当前批的处理数据X中与第j段视频xj所对应的行人身份ID不同的负样本视频xe中前 t帧图像对应的序列特征向量,ye表示行人视频xe对应的行人身份ID;
步骤3.3、利用式(4)计算当前批的处理数据X的行人重识别损失Lre-id:
Lre-id=Lide+Ltri (4)
步骤3.4、基于所述训练数据集,使用Adam优化策略对序列特征提取网络进行训练优 化,直至网络损失函数Lre-id收敛为止,从而得到最优的序列特征提取网络;
步骤四、使用强化学习损失更新所述序列决策模块网络:
若at≥0.5,则在两种情况下判定为正确,并按式(5)计算奖励1)图像Ii与视频xj对应 同一行人身份ID,且v′i与的相似度比之前所有的相似度大;2)图像Ii与视频xj对应不同行 人身份ID,且v′i与的相似度比之前所有相似度小;其余情况判定为错误,并按式(5)计算 奖励
步骤4.2、利用式(6)和式(7)分别计算actor网络的损失函数Lact和critic网络的损失函数 Lcrt:
步骤4.3、基于所述训练数据集,使用Adam优化策略对序列决策模块网络的actor网络 和critic网络进行交替训练,直至损失函数Lact和Lcrt收敛为止,从而得到最优的序列决策模 块网络;
步骤五、检索过程:
步骤5.1、按照步骤一的方式构建视频查询库和视频待检索库,并取视频查询库内所有 视频的第一帧构成图像查询库,将图像查询库和视频待检索库分别记作query和gallery,并 一起输入最优的序列特征提取网络和最优的序列决策模块网络对应的actor网络中进行处理, 从而由actor网络输出视频待检索库gallery的对应的视频特征由序列特征提取 网络输出图像查询库query对应的图像特征其中,表示图像查询库query 中的第q个查询图像对应的特征,Nq表示查询图像中的数量,表示视频待检索库 gallery中的第g个视频对应的特征,Ng表示视频待检索库gallery中的视频数量;
与现有技术相比,本发明的有益效果在于:
1、本发明首次将图像-视频跨模态行人重识别任务视为点到集的匹配问题,通过序列特 征提取网络学习视频帧间的互补信息,增强了视频特征表达,利用强化学习理论构造了根据 行人查询图像内容,动态地选择所需视频帧数的智能体,极大地提高了图像-视频行人检索 的效率和准确率。
2、本发明将点到集的匹配问题建模为马尔可夫过程,基于强化学习理论设计了一个 actor-critic智能体(称为序列决策模块网络),并设计特定的奖励机制,促使模型能根据不 同的行人查询图像,自适应地从全部视频帧选择合适的帧数,累积充分的时序补偿区分线索, 从而提升了图像-视频行人检索的效率,同时避免了额外视频帧内噪声的引入,获得更为可 靠的视频行人特征。
3、本发明使用序列特征提取网络可动态抑制连续视频帧内已激活的显著信息,深入挖掘 视频帧间未探索的、潜在的互补线索,避免了视频内蕴含的大量时空冗余信息对网络造成干 扰,从而提高了视频特征的鲁棒性以及图像-视频行人检索的准确率。
附图说明
图1为本发明方法的流程图。
具体实施方式
本实施例中,一种基于时序信息补偿引导的强化学习图像-视频行人重识别方法,是为 了解决视频和图像之间由于时空信息不对等差异问题,该方法将图像-视频跨模态行人检索 视为点到集的匹配问题,深入挖掘视频序列所蕴含的互补信息,减少视频序列中时空冗余信 息与噪声的干扰,利用强化学习理论根据行人查询图像内容动态地使用较少的视频帧数,累 积充分的时序补偿区分线索,完成从图像到视频的行人匹配,实现高效、精确的身份识别。
参照图1,具体地说,包括如下步骤:
步骤一、行人数据收集和预处理:
分别采集不同场景的行人视频数据并逐帧使用行人检测方法和尺寸归一化法进行预处理, 获得训练数据集其中,x′i表示第i段行人视频,且第i段行人视频x′i所包 含的帧数为ti,即 表示第i段行人视频x′i内第t帧图像,y′i表示第i段行人视 频x′i对应的行人身份ID,且m表示任意一个行人的身份ID,表示 训练数据集中D的身份ID数量;N表示训练数据集D中的行人视频的数量;本实施例中, N=8298,ti平均值为61.5。
步骤二、构建批处理视频数据:
步骤2.1、从训练数据集D中随机采集p个行人身份ID,且根据每个行人身份ID分别随 机选取n段相应行人身份ID的行人视频,再从每段行人视频中采样T帧图像,从而由p×n段视频序列构成当前批的处理数据其中,xj表示批处理数据X中时间长度为 T的第j段视频,且 表示第j段视频xj中的第t帧图像,yj表示批处理数据X中 第j段视频xj中对应的行人身份ID;本实施例中,p=4,n=4,T=6。
步骤2.2、构建以ResNet-50深度学习网络为基础的序列特征提取网络;
ResNet-50深度学习网络包括5个阶段,其中,第1个阶段Stage 0由一个卷积核为k1×k1的卷积层,一个批量归一化处理层和一个ReLU激活函数层构成,其余4个阶段均由Bottleneck模块组成;第2个阶段Stage 1包含3个Bottleneck模块,剩下3个阶段分别包括4个、6个、3个Bottleneck模块,每个Bottleneck模块由S个卷积层组成,每个卷积层后均 连接一个批量归一化处理层和一个ReLU激活函数层;其中第s个卷积层的卷积核为Ks×Ks; 本实施例中,k1=7,S=3,K1=1,K2=3,K3=1;
序列特征提取模块包含一个由ResNet-50网络前四个阶段构成的基础特征提取模块,一 个多头注意力模块及T个补偿残差检测器;本实施例中,T=6;
其中,多头注意力模块包含两个卷积层,每个补充残差检测器包含一个由ResNet-50网 络第五阶段构造的补偿特征学习模块;本实施例中,T个补偿残差检测器中的补偿特征学习 模块均为ResNet-50网络的第五阶段,为减少网络参数量,其T个补偿残差检测器的前两个 Bottleneck模块的参数共享,最后一个Bottleneck模块的参数各不相同。不同补偿特征学习 模块用于挖掘不同帧内的互补信息,对其进行累计能够获取更为有效的行人特征。当构建序 列特征提取模块用于提取行人查询图像对应的特征时,仅使用基础特征提取模块和第一个补 偿残差检测器,避免了针对图像和视频数据需要搭建不同的网络,极大程度地降低了网络的 复杂度。
当t=1时,第t帧图像对应的基础特征经过第t个补偿残差检测模块的提取后,得 到第t帧图像对应的特征并令第t帧图像对应的包含时序补偿信息的序列特征 其中,表示前t-1帧图像对应的包含时序补偿信息的序列特征,且
当t≥2时,前t-1帧图像对应的序列特征经由卷积核为1×1的降维卷积层和一个多 头注意力模块的处理后,获得前t-1帧图像对应的维度为k2×c的显著性特征其中, k2表示显著区域的数量;本实例中k=3,c=1024;
在第t个补偿残差检测器中,将显著性特征作为维度为k×k×c的卷积核,并与第t 帧基础特征进行卷积学习后获取前t-1帧图像对应的显著性特征在第t帧图像上对 应的显著区域的掩图并利用式(1)得到第t帧图像蕴含的补偿残差信息
第j段视频xj的所有帧图像对应的包含时序补偿信息的序列特征经过一个时空平均池 化层后输出第j个特征集合从而得到当前批的处理数据X的特征集合其中,表示第j段视频xj的前t帧图像提取的含时序补偿信息的序列特征向量;本实例中, 当k=1时,可以被视作大小为1×1×c的卷积核,将与卷积等价于计算中每 个特征向量与之间的相似度。
步骤2.4、构建由actor网络和critic网络组成的智能体,被称为序列决策模块网络。其 中,critic网络包括三个全连接层,actor网络含三个全连接层和一个Sigmoid函数层;本实 例中,actor网络用于判断是否需要视频序列中下一帧的互补信息辅助识别,从而决定最终 行人视频对应的特征表达,critic网络用于预测状态动作值;
步骤2.4.1、从当前批的处理数据X中获取与行人视频xj不同的行人视频x′j,行人视频x′j对应行人ID为y′j,将行人视频x′j中的第一帧记为行人图像Ii,行人图像Ii经过序列特征提取 网络后得到对应的图像特征向量v′i;
步骤2.4.3、第j段行人视频xj中前t帧图像对应的包含时序补偿信息的序列特征、第t帧图像对应的基础特征向量以及图像Ii对应的图像特征向量v′i输入actor网络中进行运 算,并输出t时刻的动作at,且at∈(0,1);若at≥0.5,则将为第j段行人视频xj对应的 视频特征向量若at<0.5,则将t+1赋值给t后,返回步骤2.4.2顺序执行;视频特征向 量由agent根据视频xj中前t帧图像对应的包含时序补偿信息的序列特征,第t帧图像对应的基础特征向量以及图像Ii对应的图像特征向量v′i确定;
步骤三、使用行人重识别损失更新序列特征提取网络:
步骤3.1、序列特征向量经过一个全连接层的分类处理后,输出的结果再经过Softmax函数后得到对应行人身份ID的分类概率其中,表示行人视频xj每一帧被为正确行人身份ID为yj的概率集合,且 表示行人视频xj中第t帧被分类为正确行人身份ID yj的概率,利用式(2)计算身份损失函数Lide:
步骤3.2、利用式(3)计算当前批的处理数据X的三元组损失Ltri:
式(3)中,ρ是边距参数,[*]+=max(*,0)表示取最大值函数,表示第j段视频xj中前 t帧序列特征向量,表示当前批的处理数据X中与第j段视频xj所对应的行人身份ID相同 的正样本视频xp中前t帧图像对应的序列特征向量,yp表示行人视频xp对应的行人身份ID, 表示当前批的处理数据X中与第j段视频xj所对应的行人身份ID不同的负样本视频xe中前 t帧图像对应的序列特征向量,ye表示行人视频xe对应的行人身份ID;
步骤3.3、利用式(4)计算当前批的处理数据X的行人重识别损失Lre-id:
Lre-id=Lide+Ltri (4)
该损失函数能够驱使序列特征提取网络中每个补偿残差检测器都能从视频各帧内学习鲁 棒的互补信息。
步骤3.4、基于训练数据集,使用Adam优化策略对序列特征提取网络进行训练优化, 直至网络损失函数Lre-id收敛为止,从而得到最优的序列特征提取网络;
步骤四、使用强化学习损失更新序列决策模块网络:
若at≥0.5,则在两种情况下判定为正确,并按式(5)计算奖励1)图像Ii与视频xj对应 同一行人身份ID,且v′i与的相似度比之前所有的相似度大;2)图像Ii与视频xj对应不同行 人身份ID,且v′i与的相似度比之前所有相似度小;其余情况判定为错误,并按式(5)计算 奖励
步骤4.2、利用式(6)和式(7)分别计算actor网络的损失函数Lact和critic网络的损失函数 Lcrt:
步骤4.3、基于训练数据集,使用Adam优化策略对序列决策模块网络的actor网络和 critic网络进行交替训练,直至损失函数Lact和Lcrt收敛为止,从而得到最优的序列决策模块 网络;
步骤五、检索过程:
步骤5.1、按照步骤一的方式构建视频查询库和视频待检索库,并取视频查询库内所有 视频的第一帧构成图像查询库,将图像查询库和视频待检索库分别记作query和gallery,并 一起输入最优的序列特征提取网络和最优的序列决策模块网络对应的actor网络中进行处理, 从而由actor网络输出视频待检索库gallery的对应的视频特征由序列特征提取 网络输出图像查询库query对应的图像特征其中,表示图像查询库query 中的第q个查询图像对应的特征,Nq表示查询图像中的数量,表示视频待检索库 gallery中的第g个视频对应的特征,Ng表示视频待检索库gallery中的视频数量;本实施例 中,Nq=1980,Ng=10200;
Claims (1)
1.一种基于时序补偿引导的强化学习图像-视频行人重识别方法,其特征在于,包括如下步骤:
步骤一、行人数据收集和预处理:
分别采集不同场景的行人视频数据并逐帧使用行人检测方法和尺寸归一化法进行预处理,获得训练数据集其中,x'i表示第i段行人视频,且第i段行人视频x'i所包含的帧数为ti,即 表示第i段行人视频x'i内第t帧图像,y'i表示第i段行人视频x'i对应的行人身份ID,且m表示任意一个行人的身份ID,表示训练数据集中D的身份ID数量;N表示训练数据集D中的行人视频的数量;
步骤二、构建批处理视频数据:
步骤2.1、从所述训练数据集D中随机采集p个行人身份ID,且根据每个行人身份ID分别随机选取n段相应行人身份ID的行人视频,再从每段行人视频中采样T帧图像,从而由p×n段视频序列构成当前批的处理数据其中,xj表示批处理数据X中时间长度为T的第j段视频,且 表示第j段视频xj中的第t帧图像,yj表示批处理数据X中第j段视频xj中对应的行人身份ID;
步骤2.2、构建以ResNet-50深度学习网络为基础的序列特征提取网络;
所述ResNet-50深度学习网络包括5个阶段,其中,第1个阶段Stage 0由一个卷积核为k1×k1的卷积层,一个批量归一化处理层和一个ReLU激活函数层构成,其余4个阶段均由Bottleneck模块组成;第2个阶段Stage 1包含3个Bottleneck模块,剩下3个阶段分别包括4个、6个、3个Bottleneck模块,每个Bottleneck模块由S个卷积层组成,每个卷积层后均连接一个批量归一化处理层和一个ReLU激活函数层;其中第s个卷积层的卷积核为Ks×Ks;
所述序列特征提取模块包含一个由ResNet-50网络前四个阶段构成的基础特征提取模块,一个多头注意力模块及T个补偿残差检测器;
其中,所述多头注意力模块包含两个卷积层,每个补充残差检测器包含一个由ResNet-50网络第五阶段构造的补偿特征学习模块;
当t=1时,第t帧图像对应的基础特征经过第t个补偿残差检测模块的提取后,得到第t帧图像对应的特征并令第t帧图像对应的包含时序补偿信息的序列特征其中,表示前t-1帧图像对应的包含时序补偿信息的序列特征,且
在第t个补偿残差检测器中,将显著性特征作为维度为k×k×c的卷积核,并与第t帧基础特征进行卷积学习后获取前t-1帧图像对应的显著性特征在第t帧图像上对应的显著区域的掩图并利用式(1)得到第t帧图像蕴含的补偿残差信息
第j段视频xj的所有帧图像对应的包含时序补偿信息的序列特征经过一个时空平均池化层后输出第j个特征集合从而得到当前批的处理数据X的特征集合其中,表示第j段视频xj的前t帧图像提取的含时序补偿信息的序列特征向量;
步骤2.4、构建由actor网络和critic网络组成的智能体,并作为序列决策模块网络;其中,critic网络包括三个全连接层,actor网络包括三个全连接层和一个Sigmoid函数层;
步骤2.4.1、从当前批的处理数据X中获取与行人视频xj不同的行人视频x'j,行人视频x'j对应行人ID为y'j,将行人视频x'j中的第一帧记为行人图像Ii,行人图像Ii经过所述序列特征提取网络后得到对应的图像特征向量v'i;
步骤2.4.3、第j段行人视频xj中前t帧图像对应的包含时序补偿信息的序列特征、第t帧图像对应的基础特征向量以及图像Ii对应的图像特征向量v'i输入所述actor网络中进行运算,并输出t时刻的动作at,且at∈(0,1);若at≥0.5,则将为第j段行人视频xj对应的视频特征向量若at<0.5,则将t+1赋值给t后,返回步骤2.4.2顺序执行;
步骤三、使用行人重识别损失更新序列特征提取网络:
步骤3.1、所述序列特征向量经过一个全连接层的分类处理后,输出的结果再经过Softmax函数后得到对应行人身份ID的分类概率其中,表示行人视频xj每一帧被为正确行人身份ID为yj的概率集合,且 表示行人视频xj中第t帧被分类为正确行人身份ID yj的概率,利用式(2)计算身份损失函数Lide:
步骤3.2、利用式(3)计算当前批的处理数据X的三元组损失Ltri:
式(3)中,ρ是边距参数,[*]+=max(*,0)表示取最大值函数,表示第j段视频xj中前t帧序列特征向量,表示当前批的处理数据X中与第j段视频xj所对应的行人身份ID相同的正样本视频xp中前t帧图像对应的序列特征向量,yp表示行人视频xp对应的行人身份ID,表示当前批的处理数据X中与第j段视频xj所对应的行人身份ID不同的负样本视频xe中前t帧图像对应的序列特征向量,ye表示行人视频xe对应的行人身份ID;
步骤3.3、利用式(4)计算当前批的处理数据X的行人重识别损失Lre-id:
Lre-id=Lide+Ltri (4)
步骤3.4、基于所述训练数据集,使用Adam优化策略对序列特征提取网络进行训练优化,直至网络损失函数Lre-id收敛为止,从而得到最优的序列特征提取网络;
步骤四、使用强化学习损失更新所述序列决策模块网络:
若at≥0.5,则在两种情况下判定为正确,并按式(5)计算奖励1)图像Ii与视频xj对应同一行人身份ID,且v'i与的相似度比之前所有的相似度大;2)图像Ii与视频xj对应不同行人身份ID,且v'i与的相似度比之前所有相似度小;其余情况判定为错误,并按式(5)计算奖励
步骤4.2、利用式(6)和式(7)分别计算actor网络的损失函数Lact和critic网络的损失函数Lcrt:
步骤4.3、基于所述训练数据集,使用Adam优化策略对序列决策模块网络的actor网络和critic网络进行交替训练,直至损失函数Lact和Lcrt收敛为止,从而得到最优的序列决策模块网络;
步骤五、检索过程:
步骤5.1、按照步骤一的方式构建视频查询库和视频待检索库,并取视频查询库内所有视频的第一帧构成图像查询库,将图像查询库和视频待检索库分别记作query和gallery,并一起输入最优的序列特征提取网络和最优的序列决策模块网络对应的actor网络中进行处理,从而由actor网络输出视频待检索库gallery的对应的视频特征由序列特征提取网络输出图像查询库query对应的图像特征其中,表示图像查询库query中的第q个查询图像对应的特征,Nq表示查询图像中的数量,表示视频待检索库gallery中的第g个视频对应的特征,Ng表示视频待检索库gallery中的视频数量;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210362412.4A CN114724182B (zh) | 2022-04-07 | 2022-04-07 | 基于时序补偿引导的强化学习图像-视频行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210362412.4A CN114724182B (zh) | 2022-04-07 | 2022-04-07 | 基于时序补偿引导的强化学习图像-视频行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114724182A true CN114724182A (zh) | 2022-07-08 |
CN114724182B CN114724182B (zh) | 2024-04-02 |
Family
ID=82241545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210362412.4A Active CN114724182B (zh) | 2022-04-07 | 2022-04-07 | 基于时序补偿引导的强化学习图像-视频行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114724182B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709449A (zh) * | 2016-12-22 | 2017-05-24 | 深圳市深网视界科技有限公司 | 一种基于深度学习和强化学习的行人重识别方法及系统 |
WO2021017303A1 (zh) * | 2019-07-30 | 2021-02-04 | 平安科技(深圳)有限公司 | 行人重识别方法、装置、计算机设备及存储介质 |
CN113221641A (zh) * | 2021-04-01 | 2021-08-06 | 哈尔滨工业大学(深圳) | 基于生成对抗网络和注意力机制的视频行人重识别方法 |
-
2022
- 2022-04-07 CN CN202210362412.4A patent/CN114724182B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709449A (zh) * | 2016-12-22 | 2017-05-24 | 深圳市深网视界科技有限公司 | 一种基于深度学习和强化学习的行人重识别方法及系统 |
WO2021017303A1 (zh) * | 2019-07-30 | 2021-02-04 | 平安科技(深圳)有限公司 | 行人重识别方法、装置、计算机设备及存储介质 |
CN113221641A (zh) * | 2021-04-01 | 2021-08-06 | 哈尔滨工业大学(深圳) | 基于生成对抗网络和注意力机制的视频行人重识别方法 |
Non-Patent Citations (1)
Title |
---|
张伟信;刘斌;: "基于残差网络的特征加权行人重识别研究", 微电子学与计算机, no. 04, 30 April 2020 (2020-04-30), pages 26 - 31 * |
Also Published As
Publication number | Publication date |
---|---|
CN114724182B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108133188B (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN110909673B (zh) | 一种基于自然语言描述的行人再识别方法 | |
CN114972418B (zh) | 基于核自适应滤波与yolox检测结合的机动多目标跟踪方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN110120064B (zh) | 一种基于互强化与多注意机制学习的深度相关目标跟踪算法 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN110728694A (zh) | 一种基于持续学习的长时视觉目标跟踪方法 | |
CN113159066B (zh) | 基于类间相似度的分布式标签的细粒度图像识别算法 | |
CN112200020A (zh) | 一种行人重识别方法、装置、电子设备及可读存储介质 | |
CN112308921A (zh) | 一种基于语义和几何的联合优化动态slam方法 | |
CN116798070A (zh) | 一种基于光谱感知和注意力机制的跨模态行人重识别方法 | |
Huang et al. | Efficient attention network: Accelerate attention by searching where to plug | |
CN115578568A (zh) | 一种小规模可靠数据集驱动的噪声修正算法 | |
CN115346207A (zh) | 一种基于实例结构相关性的二维图像中三维目标检测方法 | |
CN116740418A (zh) | 一种基于图重构网络的目标检测方法 | |
CN112001280B (zh) | 一种实时、可在线优化的人脸识别系统和方法 | |
CN117333948A (zh) | 一种融合时空注意力机制的端到端多目标肉鸡行为识别方法 | |
CN113361475A (zh) | 一种基于多阶段特征融合信息复用的多光谱行人检测方法 | |
CN117315556A (zh) | 改进的Vision Transformer昆虫细粒度识别方法 | |
CN113326738A (zh) | 基于深度网络和字典学习的行人目标检测与重识别方法 | |
CN114724182A (zh) | 基于时序补偿引导的强化学习图像-视频行人重识别方法 | |
CN117037085A (zh) | 基于改进YOLOv5的车辆识别及数量统计的监控方法 | |
CN116245913A (zh) | 基于层次化上下文引导的多目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |