CN113221641A - 基于生成对抗网络和注意力机制的视频行人重识别方法 - Google Patents
基于生成对抗网络和注意力机制的视频行人重识别方法 Download PDFInfo
- Publication number
- CN113221641A CN113221641A CN202110357679.XA CN202110357679A CN113221641A CN 113221641 A CN113221641 A CN 113221641A CN 202110357679 A CN202110357679 A CN 202110357679A CN 113221641 A CN113221641 A CN 113221641A
- Authority
- CN
- China
- Prior art keywords
- image
- pedestrian
- network
- model
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000007246 mechanism Effects 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 37
- 230000008859 change Effects 0.000 claims abstract description 6
- 230000003287 optical effect Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 47
- 239000012634 fragment Substances 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 11
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 230000003042 antagnostic effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 abstract description 5
- 238000005286 illumination Methods 0.000 abstract description 4
- 230000000052 comparative effect Effects 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于生成对抗网络和注意力机制的视频行人重识别方法,包括基于生成对抗网络,利用现有公开的视频行人重识别数据集,实现视频帧预测和行人身份标定,增加有效的训练样本;其次使用预训练的RseNet50模型对每帧图像和对应的光流图进行特征提取,然后通过门控循环单元(GRU)捕捉每个行人图像序列中的特征的依赖关系,引入注意力机制,提取整个图像序列特征表示;最后使用孪生网络构建行人重识别模型,利用模型两个输出特征进行对比学习。本发明技术方案在无重叠监控系统中,能够有效解决行人出现在监控摄像头下时间较短造成模型训练样本不足和光照变化、行人遮挡等问题,可以明显提高行人重识别的精度。
Description
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于生成对抗网络和注意力机 制的视频行人重识别方法。
背景技术
随着社会对公共安全的日益重视,视频监控系统无处不在,在计算机视觉 领域,行人重识别逐渐成为研究热点。虽然深度学习目前在人脸识别技术非常 成熟,但在实际的场景中,我们很难提取到摄像头下行人的脸部特征信息,通 过提取行人全身特征进行行人查找成为一种主要的研究方法。
行人重识别是指在非重叠视域的监控系统中,检索和匹配不同摄像头下的 两个行人是否为同一个行人的技术。目前大多数针对行人重识别的研究都是基 于图像,通过提取单帧图片的空间特征完成识别任务。由于摄像机之间的分辨 率差异、光照、行人遮挡等因素的影响,导致同一行人在不同摄像机下的外观 特征存在很大的差异,给重识别任务带来很大的挑战。连续的视频序列包含有 时域信息,通过融合时域和空间特征能够有效避免上述因素带来的问题,能够 提高重识别精度。
现有基于视频行人重识别依靠卷积神经网络和循环神经网络构建识别模型, 通过卷积神经网络自动学习出高维、复杂的行人全局特征和局部特征,利用循 环神经网络捕获相邻视频帧上下文之间的联系,获得一个视频层次的特征表示。 由于图像的特征具有很强的表征能力,利用简单的距离算法进行特征之间的相 似性度量,因此,目前大多数行人重识别算法都是基于改进神经网络的结构, 优化特征提取方法,以获取更高的识别精度。行人重识别模型的训练需要依赖 大量的训练数据,现有公开的视频行人重识别的数据集中,由于有些行人在摄 像头下出现的时间很短,往往造成训练数据不足,使得模型很难广泛适用于复 杂的视频监控系统。
发明内容
本发明的目的是为了弥补行人重识别数据不足的缺陷,克服行人遮挡、光 照变化等噪声信息的影响,提供一种基于生成对抗网络和注意力机制的视频行 人重识别方法。
为达到上述目的,本发明是按照以下技术方案实施的:
本发明提供一种基于生成对抗网络和注意力机制视频行人重识别方法,包 括如下步骤:
步骤1:生成对抗网络结合图像多尺度结构构建视频帧预测模型,不同尺度 采用双线性插值算法进行转换;
步骤2:利用现有连续5帧图像作为生成器的输入,将下一帧真实图像和生 成器生成的图像输入到判别器,损失函数使用二元交叉熵,采用随机梯度下降 法进行参数优化,通过不断迭代训练,最终使得判别器无法区分真实图像和生 成图像;
步骤3:使用训练好的生成器,通过输入每个行人图像序列最后5帧图像, 循环生成预测的5帧图像,并且对生成的行人图像进行标签平滑;
步骤4:使用预训练的ResNet50网络,增加一层具有2通道输入,64通道 输出,卷积核大小为3×3的卷积层,删除最后全连接层和平均池化层,增加一 层批归一化层;
步骤5:将数据集中每个行人的图像序列按照采样步长为4,采样长度为8 方式进行序列分割;
步骤6:利用门循环单元捕捉每个图像片段序列输出的特征之间的依赖关系, 通过自注意力机制提取整个片段序列的特征表示;
步骤7:将步骤4和步骤6的网络进行复制,将两个网络并行连接组合成一 个的孪生网络;
步骤8:将孪生网络两个分支提取的特征输入到一个平方差层,平方差层后 是一个2048×2的全连接层和一个Sigmoid层,构建一个完整的孪生网络模型;
步骤9:使用步骤5分割的片段序列,选取50%的数据进行训练,剩下的50% 用于测试;
步骤10:训练行人重识别网络,利用随机梯度下降法优化损失函数,对网 络中参数进行优化;
步骤11:使用训练好的重识别模型,将一个待查片段序列作为孪生网络的 一个输入,将候选片段序列集中片段序列作为孪生网络的另一个输入,得到孪 生网络对两个序列的判别和分类结果;
步骤12:将两个行人片段序列的分类结果和两序列是否一致作为判别条件, 判别两个输入序列是否属于同一行人。
进一步的,所述生成对抗网络结合图像多尺度结构构建视频预测模型,采 用4个尺度进行训练,具体步骤如下:
步骤1:图像多尺度结构采用拉普拉斯金字塔结构,通过双线性插值的方式 不断进行上采样。通过真实的图像序列和上一尺度经过上采样得到的预测图像 进行融合生成当前尺度的预测图像。
步骤2:判别模型用来判别输入序列最后一帧是生成的还是真实的图像,同 时满足不同图像尺度的变化,输出单个标量。
步骤3:生成器和判别器的训练采用对抗策略,模型采用二分类交叉熵作为 损失函数,使用随机梯度下降法优化模型参数。训练过程中将真实数据样本判 别为1类,将生成器生成的预测图像判别为0类。生成器损失函数采用和判别 模型损失函数对抗的形式进行设计,将生成器生成的预测图像设定为1类。
步骤4:生成器和判别器都是通过最小化损失函数来达到模型训练效果,使 得生成模型生成的图片取迷惑判别模型,使得判别器最终分辨不出真实图像和 生成图像。通过增加附加的损失函数减少对抗损失在生成模型中所占权重来提 高模型训练的稳定性。因此,设计生成模型联合损失函数,在对抗损失的基础 上加入图像梯度差分损失和图像距离损失。
进一步的,所述视频行人重识别网络采用孪生网络融合自注意力机制构建, 具体步骤如下:
步骤1:使用预训练ResNet50提取每一帧图像的特征,在预训练的ResNet50 的基础上将最后的全连接层和平均池化层替换成批归一化层,添加一层输入通 道为2,输出通道为64,卷积核大小为3×3的卷积层,来满足3通道的RGB图 像和2通道的光流图的同时输入。
步骤2:为了充分利用时间序列信息,使用门控循环单元(GRU)在连续视 频帧之间获取上下文特征信息,通过加入注意力机制获得序列的整体特征信息。 注意力机制采用点积自注意力,使用一个查询向量(query)和一对键值对 (key-value),利用GRU生成查询向量,将视频序列中的每帧图像特征乘以相 应的权重矩阵生成键和值。
步骤3:在训练阶段网络中输入一对序列,利用二分类交叉熵函数作为损失 函数来监督片段之间相似性估计学习,同时联合在线匹配损失函数来监督行人 id,对两个输入序列进行分类和相似性度量操作,判别输入的两个行人序列是否 属于同一行人。
上述技术方案可以看出,由于本发明实施例采用生成对抗网络结合图像多 尺度结构实现数据增强,采用自注意力机制对图像序列整体特征进行提取,实 验结果表明在两个公开的数据集(iLIDS-VID,PRID2011)上的识别精度均有明 显提高,Rank-1的精度分别为88%,95.5%。
本发明的有益效果是:
本发明是一种基于生成对抗网络和注意力机制的视频行人重识别方法,与 现有技术相比,本发明利用生成对抗网络结合图像多尺度结构构建生成模型, 通过已有的连续视频帧训练生成预测视频帧序列来增加训练样本的数量,提高 识别精度。为提高视频行人重识别模型在不同实际应用中的泛化能力,使用孪 生网络构建重识别模型,通过门控循环单元(GRU)捕捉连续图像序列信息, 一定程度上克服遮挡、光照变化等问题。为了克服图像帧的遮挡和减少冗余信 息的学习,充分利用图像特征中具有判别力的信息,通过注意力机制融合获得 连续视频序列的信息表征来完成重识别任务。
附图说明
图1融合生成对抗网络的视频行人重识别系统;
图2是生成对抗网络构建图像生成模型;
图3是生成对抗网络结合图像多尺度结构视频预测模型;
图4是视频行人重识别网络;
图5是视频预测结果图;
图(a)是iLIDS-VID数据集结果(前5帧是真实图像,后5帧是生成预测图像);
图(b)是PRID2011数据集结果(前5帧是真实图像,后5帧是生成预测图像);
图6是融合生成对抗网络前后和光流对累计匹配精度的影响对比图;
图(a)是iLIDS-VID数据集的累计匹配精度对比图;
图(b)是PRID2011数据集的累计匹配精度对比图。
具体实施方式
下面结合附图以及具体实施例对本发明作进一步描述,在此发明的示意性 实施例以及说明用来解释本发明,但并不作为对本发明的限定。
1生成对抗网络结合图像多尺度结构构建视频预测模型
图2是构建视频预测基础网络结构,采用拉普拉斯金字塔结构构建视频预 测模型,通过双线性插值的方式不断进行上采样。网络中各尺度生成网络生成 预测图像可以表示成:
其中,k(1,2,3,4)表示对应尺度的图像尺寸,分别代表输入尺寸为 4×4,8×8,16×16,32×32;l表示输入图片序列长度;uk表示通过双线性插值进行 图像上采样,Gk中通过真实的图像序列和上一尺度经过上采样得到的预测图像 进行融合生成当前尺度的预测图像。
图3是视频预测网络,判别模型用来判别输入序列最后一帧是生成的还是 真实的图像,同时满足不同图像尺度的变化,输出单个标量。生成器和判别器 进行对抗训练,模型采用二分类交叉熵函数作为损失函数使用随机梯度下降算 法优化损失函数。对生成的图像进行标签平滑处理,对于标签平滑的公式为:
其中ε(ε∈[0,1])是平滑因子,K是批量处理数据中的行人数。交叉熵损失函数可以表示为:
判别器损失函数的损失函数为:
训练过程中,将真实数据样本判别为1类,将生成器生成的预测图像判别为0 类,(Z,X)是来自于数据集中的样本,Z表示连续的输入视频序列,X表示Z的 下一帧图像,表示生成的预测图像。对于每个尺度的图像训练,先固定能够 生成模型,然后对判别模型进行迭代训练。
生成器损失函数采用和判别模型损失函数对抗的形式进行设计,将生成器 生成的预测图像设定为1类,损失函数为:
生成器和判别器都是通过最小化损失函数来达到模型训练效果,使得生成 模型生成的图片取迷惑判别模型,使得判别器最终分辨不出真实图像和生成图 像。在训练过程中这种对抗损失函数会导致模型训练很不稳定。通过增加额外 的损失函数减少对抗损失在生成模型中所占权重来提高模型训练队的稳定性。 因此,设计生成模型联合损失函数,在对抗损失的基础上加入图像梯度差分损 失和图像距离损失,联合损失函数表示为:
图像距离差损失通过最小化真实图像和生成图像之间的距离来优化模型, 距离差损失函数如下,其中p可以取1或2,本发明模型训练采用2,
为了使生成的图像更加锐化,在重识别模型中具有更强的表征能力,加入 图像梯度差损失函数作为惩罚项,利用生成预测图像和真实图像相邻像素的梯 度差分和对角像素的梯度差分的差值构建损失函数,其中a的值是大于等于1 的整数,模型训练过程中a的取值为4:
2视频行人重识别网络模型
图4是视频行人重识别网络,使用预训练ResNet50提取每一帧图像的特征, 在预训练的ResNet50的基础上将最后的全连接层和平均池化层替换成一层批归 一化层,添加一层输入通道为2,输出通道为64,卷积核大小为3×3的卷积层, 来满足3通道的RGB图像和2通道的光流图的同时输入。对于给定的连续的图 像序列c,其中包含L帧图像,第i帧图像的特征表示为整个序列图像特 征集合可以表示成
为了充分利用时间序列信息,使用门控循环单元(GRU)在连续视频帧之 间获取上下文特征信息,通过加入注意力机制获得序列的整体特征信息。注意 力机制采用点积自注意力,使用一个查询向量query和一对键值对(key-value), 利用GRU生成query向量,将视频序列中的每帧图像特征乘以相应的权重矩阵 生成键和值,具体计算方式如下:
利用查询向量query和每个键做点积运算得到注意力权重为
f(Q,Ki)=QΤKi
其中,Ki=ki(c)表示第i帧生成的键。利用softmax函数将得到的权重归一化成 概率和为1的分布,由此获得每帧图像对应的注意力权重为:
将注意力权重和对应的值进行加权求和得到注意力为:
其中,c表示矩阵中对应元素的乘积,Vi=vi(c)表示第i帧生成的值。
在训练阶段网络中输入一对序列(sn,sm),利用二分类交叉熵损失函数来进 行片段之间相似性学习,相似性可以表示为:
d(sn,sm)=σ[ffc((F(sn)-F(sm))2)]
上式中F(sn)和F(sm)表示视频序列sn,sm的特征向量,n,m表示对应行人的身 份标签,函数ffc((F(sn)-F(sm))2)表示全连接层,将一个特征向量转换成一个标量形 式,函数σ表示sigmoid激活函数,损失函数定义为:
利用ResNet50的输出特征,构建行人分类损失函数来监督预测行人id,具 体为
其中,xi表示第i张图像的特征,训练数据集中总共有T个行人共包含N张图像, 如果第i张图片在第j个行人图像序列中,则yi,j=1,否则yi,j=0,w是特征权 重参数。因此,联合损失函数为:
L=Lver+Lid
对两图像输入序列分类,度量两者的相似度;如果两序列的分类结果同属一类,那么就判断为同一个行人;否则不是同一个行人。
以上对本发明实施例所提供的一种融合生成对抗网络和注意力机制视频行 人重识别方法,进行了详细的介绍,本文中应用了具体个例对本发明的原理及 实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其 核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实 施方式及应用范围上均有改变之处,综上所述,本说明数内容不应当理解为本 发明的限制。
Claims (7)
1.一种基于生成对抗网络和注意力机制的视频行人重识别方法,其特征在于:包括如下步骤:
步骤1:生成对抗网络结合图像多尺度结构构建视频帧预测模型;
步骤2:采用连续5帧图像作为生成器的输入,将下一帧真实图像和生成器生成的图像输入到判别器进行迭代训练,并且对生成的行人图像进行标签平滑;
步骤3:使用训练好的生成器,通过输入每个行人图像序列最后5帧图像,循环生成预测的5帧图像;
步骤4:使用预训练的ResNet50网络,增加一层卷积核大小为3×3的卷积层,利用批归一化层替代最后全连接层和平均池化层;
步骤5:将数据集中每个行人的图像序列按照固定的采样周期和一定的采样序列长度,对整个行人图像序列进行分割,分割成若干个小片段;
步骤6:利用门循环单元捕捉每个片段序列输出的特征之间的依赖关系,通过自注意力机制提取整个片段序列的特征表示;
步骤7:将步骤4和步骤6的网络进行复制,将两个网络并行连接组合成一个的孪生网络;
步骤8:将孪生网络两个分支提取的特征输入到一个平方差层,平方差层后是一个2048×2的全连接层和一个Sigmoid层,构建一个完整的孪生网络模型;
步骤9:使用步骤5分割的片段序列,选取50%的数据进行训练,剩下的50%用于测试;
步骤10:训练行人重识别网络,利用随机梯度下降法优化损失函数,对网络中参数进行优化;
步骤11:使用训练好的重识别模型,将一个待查片段序列作为孪生网络的一个输入,将候选片段序列集中片段序列作为孪生网络的另一个输入,得到孪生网络对两个序列的判别和分类结果;
步骤12:将两个行人片段序列的分类结果和两序列是否一致作为判别条件,判别两个输入序列是否属于同一行人。
2.根据权利要求1所述的基于生成对抗网络和注意力机制的视频行人重识别方法,其特征在于:生成对抗网络结合图像多尺度结构构建视频预测模型,采用4个尺度进行训练,具体步骤如下:
步骤1:图像多尺度结构采用拉普拉斯金字塔结构,通过双线性插值的方式不断进行上采样。通过真实的图像序列和上一尺度经过上采样得到的预测图像进行融合生成当前尺度的预测图像。
步骤2:判别模型用来判别输入序列最后一帧是生成的还是真实的图像,同时满足不同图像尺度的变化,输出单个标量。
步骤3:生成器和判别器的训练采用对抗策略,模型采用二分类交叉熵作为损失函数,使用随机梯度下降法优化模型参数。训练过程中将真实数据样本判别为1类,将生成器生成的预测图像判别为0类。生成器损失函数采用和判别模型损失函数对抗的形式进行设计,将生成器生成的预测图像设定为1类。
步骤4:生成器和判别器都是通过最小化损失函数来达到模型训练效果,使得生成模型生成的图片取迷惑判别模型,使得判别器最终分辨不出真实图像和生成图像。通过增加附加的损失函数减少对抗损失在生成模型中所占权重来提高模型训练的稳定性。因此,设计生成模型联合损失函数,在对抗损失的基础上加入图像梯度差分损失和图像距离损失。
3.根据权利要求1所述的基于生成对抗网络和注意力机制的视频行人重识别方法,其特征在于:视频行人重识别网络采用孪生网络融合自注意力机制构建,具体步骤如下:
步骤1:使用预训练ResNet50提取每一帧图像的特征,在预训练的ResNet50的基础上将最后的全连接层和平均池化层替换成批归一化层,添加一层输入通道为2,输出通道为64,卷积核大小为3×3的卷积层,来满足3通道的RGB图像和2通道的光流图的同时输入;
步骤2:为充分利用时间序列信息,使用门控循环单元GRU在连续视频帧之间获取上下文特征信息,通过加入注意力机制获得序列的整体特征信息;注意力机制采用点积自注意力,使用一个查询向量query和一对键值对key-value,利用GRU生成查询向量,将视频序列中的每帧图像特征乘以相应的权重矩阵生成键和值;
步骤3:在训练阶段网络中输入一对序列,利用二分类交叉熵函数作为损失函数来监督片段之间相似性估计学习,同时联合在线匹配损失函数来监督行人id,对两个输入序列进行分类和相似性度量操作,判别输入的两个行人序列是否属于同一行人。
4.根据权利要求1所述的基于生成对抗网络和注意力机制的视频行人重识别方法,其特征在于:所述步骤1生成对抗网络结合图像多尺度结构构建视频帧预测模型中,不同尺度采用双线性插值算法进行转换。
5.根据权利要求1所述的基于生成对抗网络和注意力机制的视频行人重识别方法,其特征在于:所述步骤2输入判别器过程中损失函数使用二元交叉熵,采用随机梯度下降法进行参数优化,最终使得判别器无法区分真实图像和生成图像。
6.根据权利要求1所述的基于生成对抗网络和注意力机制的视频行人重识别方法,其特征在于:所述步骤4中卷积层为具有2通道输入,64通道输出,卷积核大小为3×3的卷积层。
7.根据权利要求1所述的基于生成对抗网络和注意力机制的视频行人重识别方法,其特征在于:所述步骤5中:将数据集中每个行人的图像序列按照采样步长为4,采样长度为8方式进行序列分割。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110357679.XA CN113221641B (zh) | 2021-04-01 | 2021-04-01 | 基于生成对抗网络和注意力机制的视频行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110357679.XA CN113221641B (zh) | 2021-04-01 | 2021-04-01 | 基于生成对抗网络和注意力机制的视频行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221641A true CN113221641A (zh) | 2021-08-06 |
CN113221641B CN113221641B (zh) | 2023-07-07 |
Family
ID=77086329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110357679.XA Active CN113221641B (zh) | 2021-04-01 | 2021-04-01 | 基于生成对抗网络和注意力机制的视频行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221641B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688761A (zh) * | 2021-08-31 | 2021-11-23 | 安徽大学 | 一种基于图像序列的行人行为类别检测方法 |
CN113837290A (zh) * | 2021-09-27 | 2021-12-24 | 上海大学 | 一种基于注意力生成器网络的无监督非成对图像翻译方法 |
CN113886226A (zh) * | 2021-09-23 | 2022-01-04 | 中国人民解放军战略支援部队信息工程大学 | 一种基于孪生网络的对抗生成模型的测试数据生成方法 |
CN114062812A (zh) * | 2021-11-15 | 2022-02-18 | 国网四川省电力公司营销服务中心 | 一种计量柜故障诊断方法及系统 |
CN114092856A (zh) * | 2021-11-18 | 2022-02-25 | 西安交通大学 | 对抗与注意力联合机制的视频弱监督异常检测系统及方法 |
CN114724182A (zh) * | 2022-04-07 | 2022-07-08 | 中国科学技术大学 | 基于时序补偿引导的强化学习图像-视频行人重识别方法 |
CN115049781A (zh) * | 2022-05-11 | 2022-09-13 | 西南石油大学 | 一种基于深度学习的页岩数字岩心三维重建方法 |
CN115345970A (zh) * | 2022-08-15 | 2022-11-15 | 哈尔滨工业大学(深圳) | 基于生成对抗网络的多模态输入视频条件生成方法 |
CN115861384A (zh) * | 2023-02-27 | 2023-03-28 | 广东工业大学 | 基于生成对抗和注意力机制的光流估计方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934117A (zh) * | 2019-02-18 | 2019-06-25 | 北京联合大学 | 基于生成对抗网络的行人重识别检测方法 |
CN110135366A (zh) * | 2019-05-20 | 2019-08-16 | 厦门大学 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
US20200134321A1 (en) * | 2018-02-12 | 2020-04-30 | Beijing Sensetime Technology Development Co., Ltd. | Pedestrian re-identification methods and apparatuses, electronic devices, and storage media |
US20200342271A1 (en) * | 2019-04-29 | 2020-10-29 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Pedestrian re-identification method, computer device and readable medium |
CN112183464A (zh) * | 2020-10-26 | 2021-01-05 | 天津大学 | 基于深度神经网络和图卷积网络的视频行人识别方法 |
CN112364791A (zh) * | 2020-11-17 | 2021-02-12 | 中南民族大学 | 一种基于生成对抗网络的行人重识别方法和系统 |
-
2021
- 2021-04-01 CN CN202110357679.XA patent/CN113221641B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200134321A1 (en) * | 2018-02-12 | 2020-04-30 | Beijing Sensetime Technology Development Co., Ltd. | Pedestrian re-identification methods and apparatuses, electronic devices, and storage media |
CN109934117A (zh) * | 2019-02-18 | 2019-06-25 | 北京联合大学 | 基于生成对抗网络的行人重识别检测方法 |
US20200342271A1 (en) * | 2019-04-29 | 2020-10-29 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Pedestrian re-identification method, computer device and readable medium |
CN110135366A (zh) * | 2019-05-20 | 2019-08-16 | 厦门大学 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
CN112183464A (zh) * | 2020-10-26 | 2021-01-05 | 天津大学 | 基于深度神经网络和图卷积网络的视频行人识别方法 |
CN112364791A (zh) * | 2020-11-17 | 2021-02-12 | 中南民族大学 | 一种基于生成对抗网络的行人重识别方法和系统 |
Non-Patent Citations (1)
Title |
---|
杨婉香等: "基于多尺度生成对抗网络的遮挡行人重识别方法", 《软件学报》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688761A (zh) * | 2021-08-31 | 2021-11-23 | 安徽大学 | 一种基于图像序列的行人行为类别检测方法 |
CN113688761B (zh) * | 2021-08-31 | 2024-02-20 | 安徽大学 | 一种基于图像序列的行人行为类别检测方法 |
CN113886226A (zh) * | 2021-09-23 | 2022-01-04 | 中国人民解放军战略支援部队信息工程大学 | 一种基于孪生网络的对抗生成模型的测试数据生成方法 |
CN113837290A (zh) * | 2021-09-27 | 2021-12-24 | 上海大学 | 一种基于注意力生成器网络的无监督非成对图像翻译方法 |
CN114062812A (zh) * | 2021-11-15 | 2022-02-18 | 国网四川省电力公司营销服务中心 | 一种计量柜故障诊断方法及系统 |
CN114062812B (zh) * | 2021-11-15 | 2024-05-07 | 国网四川省电力公司营销服务中心 | 一种计量柜故障诊断方法及系统 |
CN114092856B (zh) * | 2021-11-18 | 2024-02-06 | 西安交通大学 | 对抗与注意力联合机制的视频弱监督异常检测系统及方法 |
CN114092856A (zh) * | 2021-11-18 | 2022-02-25 | 西安交通大学 | 对抗与注意力联合机制的视频弱监督异常检测系统及方法 |
CN114724182A (zh) * | 2022-04-07 | 2022-07-08 | 中国科学技术大学 | 基于时序补偿引导的强化学习图像-视频行人重识别方法 |
CN114724182B (zh) * | 2022-04-07 | 2024-04-02 | 中国科学技术大学 | 基于时序补偿引导的强化学习图像-视频行人重识别方法 |
CN115049781A (zh) * | 2022-05-11 | 2022-09-13 | 西南石油大学 | 一种基于深度学习的页岩数字岩心三维重建方法 |
CN115049781B (zh) * | 2022-05-11 | 2023-05-23 | 西南石油大学 | 一种基于深度学习的页岩数字岩心三维重建方法 |
CN115345970A (zh) * | 2022-08-15 | 2022-11-15 | 哈尔滨工业大学(深圳) | 基于生成对抗网络的多模态输入视频条件生成方法 |
CN115861384B (zh) * | 2023-02-27 | 2023-05-23 | 广东工业大学 | 基于生成对抗和注意力机制的光流估计方法及系统 |
CN115861384A (zh) * | 2023-02-27 | 2023-03-28 | 广东工业大学 | 基于生成对抗和注意力机制的光流估计方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113221641B (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113221641B (zh) | 基于生成对抗网络和注意力机制的视频行人重识别方法 | |
Li et al. | Yolo-firi: Improved yolov5 for infrared image object detection | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN108764308B (zh) | 一种基于卷积循环网络的行人重识别方法 | |
Wang et al. | Multi-scale dilated convolution of convolutional neural network for crowd counting | |
Alani et al. | Hand gesture recognition using an adapted convolutional neural network with data augmentation | |
CN111639692A (zh) | 一种基于注意力机制的阴影检测方法 | |
CN111723693B (zh) | 一种基于小样本学习的人群计数方法 | |
CN112560831B (zh) | 一种基于多尺度空间校正的行人属性识别方法 | |
Chen et al. | Local patch network with global attention for infrared small target detection | |
CN113642634A (zh) | 一种基于混合注意力的阴影检测方法 | |
CN110097028B (zh) | 基于三维金字塔图像生成网络的人群异常事件检测方法 | |
CN115100709B (zh) | 一种特征分离的图像人脸识别与年龄估计方法 | |
CN114220154A (zh) | 一种基于深度学习的微表情特征提取与识别方法 | |
Pham et al. | Skeletal movement to color map: A novel representation for 3D action recognition with inception residual networks | |
Li et al. | MSAt-GAN: a generative adversarial network based on multi-scale and deep attention mechanism for infrared and visible light image fusion | |
CN112580480A (zh) | 一种高光谱遥感影像分类方法及装置 | |
Moghaddam et al. | Jointly human semantic parsing and attribute recognition with feature pyramid structure in EfficientNets | |
Huyan et al. | AUD-Net: a unified deep detector for multiple hyperspectral image anomaly detection via relation and few-shot learning | |
Huang et al. | Srnet: scale-aware representation learning network for dense crowd counting | |
Sabater et al. | Event Transformer+. A multi-purpose solution for efficient event data processing | |
Chacon-Murguia et al. | Moving object detection in video sequences based on a two-frame temporal information CNN | |
CN114120076B (zh) | 基于步态运动估计的跨视角视频步态识别方法 | |
CN113313185B (zh) | 一种基于自适应空谱特征提取的高光谱图像分类方法 | |
CN115439926A (zh) | 一种基于关键区域和场景深度的小样本异常行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |