CN113221641B - 基于生成对抗网络和注意力机制的视频行人重识别方法 - Google Patents

基于生成对抗网络和注意力机制的视频行人重识别方法 Download PDF

Info

Publication number
CN113221641B
CN113221641B CN202110357679.XA CN202110357679A CN113221641B CN 113221641 B CN113221641 B CN 113221641B CN 202110357679 A CN202110357679 A CN 202110357679A CN 113221641 B CN113221641 B CN 113221641B
Authority
CN
China
Prior art keywords
pedestrian
image
network
model
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110357679.XA
Other languages
English (en)
Other versions
CN113221641A (zh
Inventor
吴爱国
赵威龙
张颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202110357679.XA priority Critical patent/CN113221641B/zh
Publication of CN113221641A publication Critical patent/CN113221641A/zh
Application granted granted Critical
Publication of CN113221641B publication Critical patent/CN113221641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于生成对抗网络和注意力机制的视频行人重识别方法,包括基于生成对抗网络,利用现有公开的视频行人重识别数据集,实现视频帧预测和行人身份标定,增加有效的训练样本;其次使用预训练的ResNet50模型对每帧图像和对应的光流图进行特征提取,然后通过门控循环单元(GRU)捕捉每个行人图像序列中的特征的依赖关系,引入注意力机制,提取整个图像序列特征表示;最后使用孪生网络构建行人重识别模型,利用模型两个输出特征进行对比学习。本发明技术方案在无重叠监控系统中,能够有效解决行人出现在监控摄像头下时间较短造成模型训练样本不足和光照变化、行人遮挡等问题,可以明显提高行人重识别的精度。

Description

基于生成对抗网络和注意力机制的视频行人重识别方法
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于生成对抗网络和注意力机 制的视频行人重识别方法。
背景技术
随着社会对公共安全的日益重视,视频监控系统无处不在,在计算机视觉 领域,行人重识别逐渐成为研究热点。虽然深度学习目前在人脸识别技术非常 成熟,但在实际的场景中,我们很难提取到摄像头下行人的脸部特征信息,通 过提取行人全身特征进行行人查找成为一种主要的研究方法。
行人重识别是指在非重叠视域的监控系统中,检索和匹配不同摄像头下的 两个行人是否为同一个行人的技术。目前大多数针对行人重识别的研究都是基 于图像,通过提取单帧图片的空间特征完成识别任务。由于摄像机之间的分辨 率差异、光照、行人遮挡等因素的影响,导致同一行人在不同摄像机下的外观 特征存在很大的差异,给重识别任务带来很大的挑战。连续的视频序列包含有时域信息,通过融合时域和空间特征能够有效避免上述因素带来的问题,能够 提高重识别精度。
现有基于视频行人重识别依靠卷积神经网络和循环神经网络构建识别模型, 通过卷积神经网络自动学习出高维、复杂的行人全局特征和局部特征,利用循 环神经网络捕获相邻视频帧上下文之间的联系,获得一个视频层次的特征表示。 由于图像的特征具有很强的表征能力,利用简单的距离算法进行特征之间的相 似性度量,因此,目前大多数行人重识别算法都是基于改进神经网络的结构,优化特征提取方法,以获取更高的识别精度。行人重识别模型的训练需要依赖 大量的训练数据,现有公开的视频行人重识别的数据集中,由于有些行人在摄 像头下出现的时间很短,往往造成训练数据不足,使得模型很难广泛适用于复 杂的视频监控系统。
发明内容
本发明的目的是为了弥补行人重识别数据不足的缺陷,克服行人遮挡、光 照变化等噪声信息的影响,提供一种基于生成对抗网络和注意力机制的视频行 人重识别方法。
为达到上述目的,本发明是按照以下技术方案实施的:
本发明提供一种基于生成对抗网络和注意力机制视频行人重识别方法,包 括如下步骤:
步骤1:生成对抗网络结合图像多尺度结构构建视频帧预测模型,不同尺度 采用双线性插值算法进行转换;
步骤2:利用现有连续5帧图像作为生成器的输入,将下一帧真实图像和生 成器生成的图像输入到判别器,损失函数使用二元交叉熵,采用随机梯度下降 法进行参数优化,通过不断迭代训练,最终使得判别器无法区分真实图像和生 成图像;
步骤3:使用训练好的生成器,通过输入每个行人图像序列最后5帧图像, 循环生成预测的5帧图像,并且对生成的行人图像进行标签平滑;
步骤4:使用预训练的ResNet50网络,增加一层具有2通道输入,64通道 输出,卷积核大小为3×3的卷积层,删除最后全连接层和平均池化层,增加一 层批归一化层;
步骤5:将数据集中每个行人的图像序列按照采样步长为4,采样长度为8 方式进行序列分割;
步骤6:利用门循环单元捕捉每个图像片段序列输出的特征之间的依赖关系, 通过自注意力机制提取整个片段序列的特征表示;
步骤7:将步骤4和步骤6的网络进行复制,将两个网络并行连接组合成一 个的孪生网络;
步骤8:将孪生网络两个分支提取的特征输入到一个平方差层,平方差层后 是一个2048×2的全连接层和一个Sigmoid层,构建一个完整的孪生网络模型;
步骤9:使用步骤5分割的片段序列,选取50%的数据进行训练,剩下的50% 用于测试;
步骤10:训练行人重识别网络,利用随机梯度下降法优化损失函数,对网 络中参数进行优化;
步骤11:使用训练好的重识别模型,将一个待查片段序列作为孪生网络的 一个输入,将候选片段序列集中片段序列作为孪生网络的另一个输入,得到孪 生网络对两个序列的判别和分类结果;
步骤12:将两个行人片段序列的分类结果和两序列是否一致作为判别条件, 判别两个输入序列是否属于同一行人。
进一步的,所述生成对抗网络结合图像多尺度结构构建视频预测模型,采 用4个尺度进行训练,具体步骤如下:
步骤1:图像多尺度结构采用拉普拉斯金字塔结构,通过双线性插值的方式 不断进行上采样。通过真实的图像序列和上一尺度经过上采样得到的预测图像 进行融合生成当前尺度的预测图像。
步骤2:判别模型用来判别输入序列最后一帧是生成的还是真实的图像,同 时满足不同图像尺度的变化,输出单个标量。
步骤3:生成器和判别器的训练采用对抗策略,模型采用二分类交叉熵作为 损失函数,使用随机梯度下降法优化模型参数。训练过程中将真实数据样本判 别为1类,将生成器生成的预测图像判别为0类。生成器损失函数采用和判别 模型损失函数对抗的形式进行设计,将生成器生成的预测图像设定为1类。
步骤4:生成器和判别器都是通过最小化损失函数来达到模型训练效果,使 得生成模型生成的图片取迷惑判别模型,使得判别器最终分辨不出真实图像和 生成图像。通过增加附加的损失函数减少对抗损失在生成模型中所占权重来提 高模型训练的稳定性。因此,设计生成模型联合损失函数,在对抗损失的基础上加入图像梯度差分损失和图像距离损失。
进一步的,所述视频行人重识别网络采用孪生网络融合自注意力机制构建, 具体步骤如下:
步骤1:使用预训练ResNet50提取每一帧图像的特征,在预训练的ResNet50 的基础上将最后的全连接层和平均池化层替换成批归一化层,添加一层输入通 道为2,输出通道为64,卷积核大小为3×3的卷积层,来满足3通道的RGB图 像和2通道的光流图的同时输入。
步骤2:为了充分利用时间序列信息,使用门控循环单元(GRU)在连续视 频帧之间获取上下文特征信息,通过加入注意力机制获得序列的整体特征信息。 注意力机制采用点积自注意力,使用一个查询向量(query)和一对键值对 (key-value),利用GRU生成查询向量,将视频序列中的每帧图像特征乘以相 应的权重矩阵生成键和值。
步骤3:在训练阶段网络中输入一对序列,利用二分类交叉熵函数作为损失 函数来监督片段之间相似性估计学习,同时联合在线匹配损失函数来监督行人 id,对两个输入序列进行分类和相似性度量操作,判别输入的两个行人序列是否 属于同一行人。
上述技术方案可以看出,由于本发明实施例采用生成对抗网络结合图像多 尺度结构实现数据增强,采用自注意力机制对图像序列整体特征进行提取,实 验结果表明在两个公开的数据集(iLIDS-VID,PRID2011)上的识别精度均有明 显提高,Rank-1的精度分别为88%,95.5%。
本发明的有益效果是:
本发明是一种基于生成对抗网络和注意力机制的视频行人重识别方法,与 现有技术相比,本发明利用生成对抗网络结合图像多尺度结构构建生成模型, 通过已有的连续视频帧训练生成预测视频帧序列来增加训练样本的数量,提高 识别精度。为提高视频行人重识别模型在不同实际应用中的泛化能力,使用孪 生网络构建重识别模型,通过门控循环单元(GRU)捕捉连续图像序列信息, 一定程度上克服遮挡、光照变化等问题。为了克服图像帧的遮挡和减少冗余信 息的学习,充分利用图像特征中具有判别力的信息,通过注意力机制融合获得连续视频序列的信息表征来完成重识别任务。
附图说明
图1融合生成对抗网络的视频行人重识别系统;
图2是生成对抗网络构建图像生成模型;
图3是生成对抗网络结合图像多尺度结构视频预测模型;
图4是视频行人重识别网络;
图5是视频预测结果图;
图(a)是iLIDS-VID数据集结果(前5帧是真实图像,后5帧是生成预测图像);
图(b)是PRID2011数据集结果(前5帧是真实图像,后5帧是生成预测图像);
图6是融合生成对抗网络前后和光流对累计匹配精度的影响对比图;
图(a)是iLIDS-VID数据集的累计匹配精度对比图;
图(b)是PRID2011数据集的累计匹配精度对比图。
具体实施方式
下面结合附图以及具体实施例对本发明作进一步描述,在此发明的示意性 实施例以及说明用来解释本发明,但并不作为对本发明的限定。
1生成对抗网络结合图像多尺度结构构建视频预测模型
图2是构建视频预测基础网络结构,采用拉普拉斯金字塔结构构建视频预 测模型,通过双线性插值的方式不断进行上采样。网络中各尺度生成网络生成 预测图像可以表示成:
Figure SMS_1
其中,k(1,2,3,4)表示对应尺度的图像尺寸,分别代表输入尺寸为 4×4,8×8,16×16,32×32;l表示输入图片序列长度;uk表示通过双线性插值进行 图像上采样,Gk中通过真实的图像序列和上一尺度经过上采样得到的预测图像 进行融合生成当前尺度的预测图像。
图3是视频预测网络,判别模型用来判别输入序列最后一帧是生成的还是 真实的图像,同时满足不同图像尺度的变化,输出单个标量。生成器和判别器 进行对抗训练,模型采用二分类交叉熵函数作为损失函数使用随机梯度下降算 法优化损失函数。对生成的图像进行标签平滑处理,对于标签平滑的公式为:
Figure SMS_2
其中ε(ε∈[0,1])是平滑因子,K是批量处理数据中的行人数。交叉熵损失函数可以表示为:
Figure SMS_3
判别器损失函数的损失函数为:
Figure SMS_4
训练过程中,将真实数据样本判别为1类,将生成器生成的预测图像判别为0 类,(Z,X)是来自于数据集中的样本,Z表示连续的输入视频序列,X表示Z的 下一帧图像,
Figure SMS_5
表示生成的预测图像。对于每个尺度的图像训练,先固定能够 生成模型,然后对判别模型进行迭代训练。
生成器损失函数采用和判别模型损失函数对抗的形式进行设计,将生成器 生成的预测图像设定为1类,损失函数为:
Figure SMS_6
生成器和判别器都是通过最小化损失函数来达到模型训练效果,使得生成 模型生成的图片取迷惑判别模型,使得判别器最终分辨不出真实图像和生成图 像。在训练过程中这种对抗损失函数会导致模型训练很不稳定。通过增加额外 的损失函数减少对抗损失在生成模型中所占权重来提高模型训练队的稳定性。 因此,设计生成模型联合损失函数,在对抗损失的基础上加入图像梯度差分损失和图像距离损失,联合损失函数表示为:
Figure SMS_7
图像距离差损失通过最小化真实图像和生成图像之间的距离来优化模型, 距离差损失函数如下,其中p可以取1或2,本发明模型训练采用2,
Figure SMS_8
为了使生成的图像更加锐化,在重识别模型中具有更强的表征能力,加入 图像梯度差损失函数作为惩罚项,利用生成预测图像和真实图像相邻像素的梯 度差分和对角像素的梯度差分的差值构建损失函数,其中a的值是大于等于1 的整数,模型训练过程中a的取值为4:
Figure SMS_9
2视频行人重识别网络模型
图4是视频行人重识别网络,使用预训练ResNet50提取每一帧图像的特征, 在预训练的ResNet50的基础上将最后的全连接层和平均池化层替换成一层批归 一化层,添加一层输入通道为2,输出通道为64,卷积核大小为3×3的卷积层, 来满足3通道的RGB图像和2通道的光流图的同时输入。对于给定的连续的图 像序列c,其中包含L帧图像,第i帧图像的特征表示为
Figure SMS_10
整个序列图像特 征集合可以表示成/>
Figure SMS_11
为了充分利用时间序列信息,使用门控循环单元(GRU)在连续视频帧之 间获取上下文特征信息,通过加入注意力机制获得序列的整体特征信息。注意 力机制采用点积自注意力,使用一个查询向量query和一对键值对(key-value), 利用GRU生成query向量,将视频序列中的每帧图像特征乘以相应的权重矩阵 生成键和值,具体计算方式如下:
利用查询向量query和每个键做点积运算得到注意力权重为
f(Q,Ki)=QΤKi
其中,Ki=ki(c)表示第i帧生成的键。利用softmax函数将得到的权重归一化成 概率和为1的分布,由此获得每帧图像对应的注意力权重为:
Figure SMS_12
将注意力权重和对应的值进行加权求和得到注意力为:
Figure SMS_13
其中,c表示矩阵中对应元素的乘积,Vi=vi(c)表示第i帧生成的值。
在训练阶段网络中输入一对序列(sn,sm),利用二分类交叉熵损失函数来进 行片段之间相似性学习,相似性可以表示为:
d(sn,sm)=σ[ffc((F(sn)-F(sm))2)]
Figure SMS_14
上式中F(sn)和F(sm)表示视频序列sn,sm的特征向量,n,m表示对应行人的身 份标签,函数ffc((F(sn)-F(sm))2)表示全连接层,将一个特征向量转换成一个标量形 式,函数σ表示sigmoid激活函数,损失函数定义为:
Figure SMS_15
利用ResNet50的输出特征,构建行人分类损失函数来监督预测行人id,具 体为
Figure SMS_16
其中,xi表示第i张图像的特征,训练数据集中总共有T个行人共包含N张图像, 如果第i张图片在第j个行人图像序列中,则yi,j=1,否则yi,j=0,w是特征权 重参数。因此,联合损失函数为:
L=Lver+Lid
对两图像输入序列分类,度量两者的相似度;如果两序列的分类结果同属一类,那么就判断为同一个行人;否则不是同一个行人。
以上对本发明实施例所提供的一种融合生成对抗网络和注意力机制视频行 人重识别方法,进行了详细的介绍,本文中应用了具体个例对本发明的原理及 实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其 核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均有改变之处,综上所述,本说明数内容不应当理解为本 发明的限制。

Claims (6)

1.一种基于生成对抗网络和注意力机制的视频行人重识别方法,其特征在于:包括如下步骤:
步骤1:生成对抗网络结合图像多尺度结构构建视频帧预测模型,采用4个尺度进行训练,具体步骤如下:
步骤1.1:图像多尺度结构采用拉普拉斯金字塔结构,通过双线性插值的方式不断进行上采样;通过真实的图像序列和上一尺度经过上采样得到的预测图像进行融合生成当前尺度的预测图像;
步骤1.2:判别模型用来判别输入序列最后一帧是生成的还是真实的图像,同时满足不同图像尺度的变化,输出单个标量;
步骤1.3:生成器和判别器的训练采用对抗策略,模型采用二分类交叉熵作为损失函数,使用随机梯度下降法优化模型参数;训练过程中将真实数据样本判别为1类,将生成器生成的预测图像判别为0类;生成器损失函数采用和判别模型损失函数对抗的形式进行设计,将生成器生成的预测图像设定为1类;
步骤1.4:生成器和判别器都是通过最小化损失函数来达到模型训练效果,使得生成模型生成的图片去迷惑判别模型,使得判别器最终分辨不出真实图像和生成图像;通过增加附加的损失函数减少对抗损失在生成模型中所占权重来提高模型训练的稳定性;因此 ,设计生成模型联合损失函数,在对抗损失的基础上加入图像梯度差分损失和图像距离损失;
步骤2:采用连续5帧图像作为生成器的输入,将下一帧真实图像和生成器生成的图像输入到判别器进行迭代训练,并且对生成的行人图像进行标签平滑;
步骤3:使用训练好的生成器,通过输入每个行人图像序列最后5帧图像,循环生成预测的5帧图像;
步骤4:使用预训练的ResNet50网络,增加一层卷积核大小为3×3的卷积层,利用批归一化层替代最后全连接层和平均池化层;
步骤5:将数据集中每个行人的图像序列按照固定的采样周期和一定的采样序列长度,对整个行人图像序列进行分割,分割成若干个小片段;
步骤6:利用门循环单元捕捉每个片段序列输出的特征之间的依赖关系,通过自注意力机制提取整个片段序列的特征表示;
步骤7:将步骤4和步骤6的网络进行复制,将两个网络并行连接组合成一个孪生网络;
步骤8:将孪生网络两个分支提取的特征输入到一个平方差层,平方差层后是一个2048×2的全连接层和一个Sigmoid层,构建一个完整的孪生网络模型;
步骤9:使用步骤5分割的片段序列,选取50%的数据进行训练,剩下的50%用于测试;
步骤10:训练行人重识别网络,利用随机梯度下降法优化损失函数,对网络中参数进行优化;
步骤11:使用训练好的重识别模型,将一个待查片段序列作为孪生网络的一个输入,将候选片段序列集中片段序列作为孪生网络的另一个输入,得到孪生网络对两个序列的判别和分类结果;
步骤12:将两个行人片段序列的分类结果和两序列是否一致作为判别条件,判别两个输入序列是否属于同一行人。
2.根据权利要求1所述的基于生成对抗网络和注意力机制的视频行人重识别方法,其特征在于:视频行人重识别网络采用孪生网络融合自注意力机制构建,具体步骤如下:
步骤1:使用预训练ResNet50提取每一帧图像的特征,在预训练的ResNet50的基础上将最后的全连接层和平均池化层替换成批归一化层,添加一层输入通道为2,输出通道为64,卷积核大小为3×3的卷积层,来满足3通道的RGB图像和2通道的光流图的同时输入;
步骤2:为充分利用时间序列信息,使用门控循环单元GRU在连续视频帧之间获取上下文特征信息,通过加入注意力机制获得序列的整体特征信息;注意力机制采用点积自注意力,使用一个查询向量query和一对键值对key-value,利用GRU生成查询向量,将视频序列中的每帧图像特征乘以相应的权重矩阵生成键和值;
步骤3:在训练阶段网络中输入一对序列,利用二分类交叉熵函数作为损失函数来监督片段之间相似性估计学习,同时联合在线匹配损失函数来监督行人id,对两个输入序列进行分类和相似性度量操作,判别输入的两个行人序列是否属于同一行人。
3.根据权利要求1所述的基于生成对抗网络和注意力机制的视频行人重识别方法,其特征在于:所述步骤1生成对抗网络结合图像多尺度结构构建视频帧预测模型中,不同尺度采用双线性插值算法进行转换。
4.根据权利要求1所述的基于生成对抗网络和注意力机制的视频行人重识别方法,其特征在于:所述步骤2输入判别器过程中损失函数使用二元交叉熵,采用随机梯度下降法进行参数优化,最终使得判别器无法区分真实图像和生成图像。
5.根据权利要求1所述的基于生成对抗网络和注意力机制的视频行人重识别方法,其特征在于:所述步骤4中卷积层为具有2通道输入,64通道输出,卷积核大小为3×3的卷积。
6.根据权利要求1所述的基于生成对抗网络和注意力机制的视频行人重识别方法,其特征在于:所述步骤5中:将数据集中每个行人的图像序列按照采样步长为4,采样长度为8方式进行序列分割。
CN202110357679.XA 2021-04-01 2021-04-01 基于生成对抗网络和注意力机制的视频行人重识别方法 Active CN113221641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110357679.XA CN113221641B (zh) 2021-04-01 2021-04-01 基于生成对抗网络和注意力机制的视频行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110357679.XA CN113221641B (zh) 2021-04-01 2021-04-01 基于生成对抗网络和注意力机制的视频行人重识别方法

Publications (2)

Publication Number Publication Date
CN113221641A CN113221641A (zh) 2021-08-06
CN113221641B true CN113221641B (zh) 2023-07-07

Family

ID=77086329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110357679.XA Active CN113221641B (zh) 2021-04-01 2021-04-01 基于生成对抗网络和注意力机制的视频行人重识别方法

Country Status (1)

Country Link
CN (1) CN113221641B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688761B (zh) * 2021-08-31 2024-02-20 安徽大学 一种基于图像序列的行人行为类别检测方法
CN113886226B (zh) * 2021-09-23 2022-05-17 中国人民解放军战略支援部队信息工程大学 一种基于孪生网络的对抗生成模型的测试数据生成方法
CN113837290A (zh) * 2021-09-27 2021-12-24 上海大学 一种基于注意力生成器网络的无监督非成对图像翻译方法
CN114062812B (zh) * 2021-11-15 2024-05-07 国网四川省电力公司营销服务中心 一种计量柜故障诊断方法及系统
CN114092856B (zh) * 2021-11-18 2024-02-06 西安交通大学 对抗与注意力联合机制的视频弱监督异常检测系统及方法
CN114724182B (zh) * 2022-04-07 2024-04-02 中国科学技术大学 基于时序补偿引导的强化学习图像-视频行人重识别方法
CN115049781B (zh) * 2022-05-11 2023-05-23 西南石油大学 一种基于深度学习的页岩数字岩心三维重建方法
CN115345970B (zh) * 2022-08-15 2023-04-07 哈尔滨工业大学(深圳) 基于生成对抗网络的多模态输入视频条件生成方法
CN115861384B (zh) * 2023-02-27 2023-05-23 广东工业大学 基于生成对抗和注意力机制的光流估计方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934117A (zh) * 2019-02-18 2019-06-25 北京联合大学 基于生成对抗网络的行人重识别检测方法
CN112183464A (zh) * 2020-10-26 2021-01-05 天津大学 基于深度神经网络和图卷积网络的视频行人识别方法
CN112364791A (zh) * 2020-11-17 2021-02-12 中南民族大学 一种基于生成对抗网络的行人重识别方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399381B (zh) * 2018-02-12 2020-10-30 北京市商汤科技开发有限公司 行人再识别方法、装置、电子设备和存储介质
CN110175527B (zh) * 2019-04-29 2022-03-25 北京百度网讯科技有限公司 行人再识别方法及装置、计算机设备及可读介质
CN110135366B (zh) * 2019-05-20 2021-04-13 厦门大学 基于多尺度生成对抗网络的遮挡行人重识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934117A (zh) * 2019-02-18 2019-06-25 北京联合大学 基于生成对抗网络的行人重识别检测方法
CN112183464A (zh) * 2020-10-26 2021-01-05 天津大学 基于深度神经网络和图卷积网络的视频行人识别方法
CN112364791A (zh) * 2020-11-17 2021-02-12 中南民族大学 一种基于生成对抗网络的行人重识别方法和系统

Also Published As

Publication number Publication date
CN113221641A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN113221641B (zh) 基于生成对抗网络和注意力机制的视频行人重识别方法
CN108764308B (zh) 一种基于卷积循环网络的行人重识别方法
Alani et al. Hand gesture recognition using an adapted convolutional neural network with data augmentation
Zhang et al. Breeds classification with deep convolutional neural network
CN106599797A (zh) 一种基于局部并行神经网络的红外人脸识别方法
CN111738363B (zh) 基于改进的3d cnn网络的阿尔茨海默病分类方法
Gu et al. Blind image quality assessment via vector regression and object oriented pooling
CN114821164A (zh) 基于孪生网络的高光谱图像分类方法
CN115100709B (zh) 一种特征分离的图像人脸识别与年龄估计方法
Chang et al. AFT: Adaptive fusion transformer for visible and infrared images
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
Bai et al. Multimodal information fusion for weather systems and clouds identification from satellite images
Xu et al. Residual spatial attention kernel generation network for hyperspectral image classification with small sample size
CN110688966A (zh) 语义指导的行人重识别方法
Pham et al. A deep learning approach for real-time 3D human action recognition from skeletal data
Chacon-Murguia et al. Moving object detection in video sequences based on a two-frame temporal information CNN
CN111209886A (zh) 一种基于深度神经网络的快速行人再识别方法
CN113313185B (zh) 一种基于自适应空谱特征提取的高光谱图像分类方法
CN114627424A (zh) 一种基于视角转化的步态识别方法和系统
CN114782995A (zh) 一种基于自注意力机制的人交互行为检测方法
Zhang et al. A Spectrum-Aware Transformer Network for Change Detection in Hyperspectral Imagery
Veerashetty et al. Texture-based face recognition using grasshopper optimization algorithm and deep convolutional neural network
Liu et al. Weather recognition of street scene based on sparse deep neural networks
Shrestha et al. Face recognition based on shallow convolutional neural network classifier
Balachandran et al. Moving scene-based video segmentation using fast convolutional neural network integration of VGG-16 net deep learning architecture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant