CN111967310A - 一种联合注意力机制的时空特征聚合方法及系统、终端 - Google Patents
一种联合注意力机制的时空特征聚合方法及系统、终端 Download PDFInfo
- Publication number
- CN111967310A CN111967310A CN202010634849.XA CN202010634849A CN111967310A CN 111967310 A CN111967310 A CN 111967310A CN 202010634849 A CN202010634849 A CN 202010634849A CN 111967310 A CN111967310 A CN 111967310A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- feature
- sensitive
- neural network
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000002776 aggregation Effects 0.000 title claims description 28
- 238000004220 aggregation Methods 0.000 title claims description 28
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 28
- 230000002123 temporal effect Effects 0.000 claims abstract description 12
- 230000004927 fusion Effects 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims description 52
- 230000007246 mechanism Effects 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 35
- 238000011176 pooling Methods 0.000 claims description 29
- 102100024521 Ficolin-2 Human genes 0.000 claims description 23
- 101001052753 Homo sapiens Ficolin-2 Proteins 0.000 claims description 23
- 230000000306 recurrent effect Effects 0.000 claims description 22
- 102100024508 Ficolin-1 Human genes 0.000 claims description 20
- 101001052785 Homo sapiens Ficolin-1 Proteins 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 19
- 230000035945 sensitivity Effects 0.000 claims description 15
- 238000005457 optimization Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000006116 polymerization reaction Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 abstract description 16
- 230000004931 aggregating effect Effects 0.000 abstract description 4
- 230000008859 change Effects 0.000 abstract description 4
- 230000000295 complement effect Effects 0.000 abstract description 2
- 238000012549 training Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007306 functionalization reaction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
- G06V40/25—Recognition of walking or running movements, e.g. gait recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种联合注意力机制的时空特征聚合方法及系统、终端,在深度网络中利用卷积神经网络提取行人的空域特征,利用递归神经网络综合提取出的空域特征从而得到行人的时域特征;采用特征提取网络分别生成对应的质量敏感和帧敏感的注意力分数用以对空域和时域特征进行动态融合;通过线性叠加融合得到的质量敏感的空域特征和帧敏感的时域特征,得到行人空时特征表达;分别在行人的上中下部位进行网络训练得到相应的具有互补性质局部特征,拼接得到更具区分度的特征表达。本发明具有很好的鲁棒性,能更好的解决与适应遮挡和光线变化等情况;结合行人的空域和时域特征,挖掘行人的细节特性,使其在下一步的行人识别中发挥更好的性能及效率。
Description
技术领域
本发明属于计算机视觉技术领域,具体地,涉及一种一种联合注意力机制的时空特征聚合方法及系统、终端。
背景技术
行人重识别是智能视频监控中的一项关键任务,是近年来计算机视觉领域中一直备受关注的研究热点,适用于安防以及公共场所寻人等技术领域。行人重识别可定义为:在无重叠的视频监控网络中,对于摄像头中给定的某个行人,判断其是否出现在其他摄像头中的过程。它是一种自动的目标识别技术,能在监控网络中快速定位到感兴趣的人体目标,是智能视频监控和人体行为分析等应用中的重要步骤。
如何在有限的数据中提取足够具有区分度的特征是行人重识别技术中的关键性挑战。基于行人视频的重识别算法由于包含更多的连续性样本,能够更好的解决由遮挡等带来的挑战,近期来得到了越来越多的关注。从现有的技术文献检索发现,基于视频的行人重识别整体来讲有两种主要的研究思路。思路之一是利用传统的计算机是利用传统的计算机视觉的方法,通过复杂的数学推导和模型设计从而实现特定数据集的特征提取(参见I.Kviatkovsky,A.Adam,and E.Rivlin.Color invariants for personreidentification.IEEE Transactions on Pattern Analysis and MachineIntelligence,35(7):1622–1634,2013.1;R.Zhao,W.Ouyang,and X.Wang.Person re-identification by salience matching.In Proceedings of the IEEE InternationalConference on Computer Vision,pages 2528–2535,2013.1)但是,这类方法受不同摄像机视角下的形变,光照变化等的严重影响,性能并不好。另一方面,复杂的模型设计对不同的数据集并没有很好地适应性,从而严重影响了这类方法的普适性。思路二是利用深度学习的方法,设计网络自适应的学习行人的特征表达。这种方法近年来得到了很大的应用,尤其是用深度卷积网络(CNN)提取行人的空域特征(参见E.Ahmed,M.Jones,andT.K.Marks.An improved deep learning architecture for person re-identification.In Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,pages 3908–3916,2015.1,2)取得了比较好的效果。然而,这类方法在行人外貌特征变化很大时,提取出的空域特征并不够可靠,此时性能不够理想。利用递归神经网络进行更可靠的时域特征提取是另一个有效方案(参见McLaughlin,N.,Martinezdel Rincon,J.,&Miller,P.Recurrent convolutional network for video-basedperson re-identification.In Proceedings of the IEEE conference on computervision and pattern recognition,pages 1325-1334,2016)。然而,递归神经网络存在梯度发散的问题,无法很好的综合早期图像帧的信息,缺乏必要的空域信息,限制了最终的识别准确度。空域特征和时域特征也无法进行有效的融合而获得进一步性能。
发明内容
本发明针对现有技术中存在的上述问题,提供了一种联合注意力机制的时空特征聚合方法及系统、终端,提出了多重注意力机制分别用于时空特征聚合。提出了质量敏感的注意力模块用于卷积神经网络(CNN)中空域特征学习;提出了帧敏感的注意力模块用于递归神经网络(LSTM)中时域特征学习;此外,提出了自适应的残差学习机制,通过线性叠加,用于自适应的时空域特征融合,从而得到更具辨识度更有效的特征表达。
本发明是通过以下技术方案实现的。
根据本发明的一个方面,提供了一种联合注意力机制的空时特征聚合方法,包括:
构造全卷积神经网络FCN1,对行人视频中空域特征进行提取,得到质量分数μt并输出;
构造全卷积神经网络FCN2,对于行人视频中的一个行人序列中的每一张图片st,均经过此全卷积神经网络FCN2,得到图片特征ft;
对得到的图片特征ft和对应的质量分数μt进行群池化,得到质量敏感的序列化行人空域特征XC;
基于递归神经网络,提取行人序列中的每一张图片st的时域特征ot;
利用递归神经网络,提取帧敏感分数vt用于表征当前帧在时域特征提取中的重要性;
对得到的时域特征ot和帧敏感分数vt进行群池化,提取帧敏感的序列化行人时域特征XR;
将行人序列中的行人图像分为上中下三部分,分别经过由上述全卷积神经网络和递归神经网络构成的特征提取网络,提取出局部联合注意力机制的空时特征,然后组合成最终的全局特征,得到最终更具区分度的质量敏感的序列化行人空域特征XC和帧敏感的序列化行人时域特征XR表达;
将提取出的更具区分度的质量敏感的序列化行人空域特征XC和帧敏感的序列化行人时域特征XR通过线性叠加进行融合,得到聚合的行人空时特征XF。
优选地,所述全卷积神经网络FCN1包括三个卷积层、两个池化层和一个全连接层。
优选地,所述全卷积神经网络FCN2包括22层GoogLeNet。
优选地,对得到的图片特征ft和对应的质量分数μt进行群池化以及对得到的时域特征ot和帧敏感分数vt进行群池化中,所述群池化为:
其中,T表示行人视频中的一个行人序列的长度。
优选地,将提取出的更具区分度的质量敏感的行人空域特征XC和提取出的更具区分度的帧敏感的行人时域特征XR进行融合,其中特征向量采用1:1的线性叠加,具体为:
XF=XC+XR。
优选地,所述方法还包括:
将行人的空时特征XF送入三元损失函数和交叉熵损失函数,计算出损失从而对特征提取网络进行优化迭代。
优选地,采用三元损失函数和交叉熵损失函数对特征提取网络进行优化迭代中,两种损失函数的权重比为1:1。
根据本发明的另一个方面,提供了一种联合注意力机制的空时特征聚合系统,包括:
全卷积神经网络FCN1模块,所述全卷积神经网络FCN1模块用于对行人视频中空域特征进行提取,得到质量分数μt并输出;
全卷积神经网络FCN2模块,所述全卷积神经网络FCN2模块用于输入行人视频中的一个行人序列中的每一张图片st,得到图片特征ft;
递归神经网络模块,所述递归神经网络模块用于提取行人序列中的每一张图片st的时域特征ot以及用于表征当前帧在时域特征提取中的重要性的帧敏感分数vt;
特征提取模块,所述特征提取模块对图片特征ft和对应的质量分数μt进行群池化,得到质量敏感的序列化行人空域特征XC;对得到的时域特征ot和帧敏感分数vt进行群池化,提取帧敏感的序列化行人时域特征XR;输入行人序列中的行人图像的上中下三部分,提取出局部联合注意力机制的空时特征,然后组合成最终的全局特征,得到最终更具区分度的质量敏感的序列化行人空域特征XC和帧敏感的序列化行人时域特征XR表达;
特征聚合模块,将提取出的更具区分度的质量敏感的序列化行人空域特征XC和帧敏感的序列化行人时域特征XR通过线性叠加层进行融合,得到聚合的行人空时特征XF。
优选地,所述全卷积神经网络FCN1包括三个卷积层、两个池化层和一个全连接层。
优选地,所述全卷积神经网络FCN2包括22层GoogLeNet。
优选地,所述系统还包括:
优化迭代模块,所述优化迭代模块采用三元损失函数和交叉熵损失函数,将行人的空时特征xF作为输入,计算出损失从而对所述系统中的各模块进行优化迭代。
根据本发明的第三个方面,提供了一种终端,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时能够用于执行上述任一项所述的方法。
由于采用了上述技术方案,本发明具有如下至少一项有益效果:
1、本发明提供的一种联合注意力机制的时空特征聚合方法及系统、终端,提出了多重注意力机制,用于学习更具区分度的行人序列化空域和时域特征。
2、本发明提供的一种联合注意力机制的时空特征聚合方法及系统、终端,利用残差学习机制,通过设定的线性叠加自适应地融合行人的空域和时域特征,用以对行人进行描述,因此能得到更为鲁棒性和代表性的特征表达。
3、本发明提供的一种联合注意力机制的时空特征聚合方法及系统、终端,提出了基于行人部位的局部特征融合方案,分别在行人的上中下三个部位图片应用所提出的多重注意力机制时空特征融合网络,从而得到更具有区分度的特征表达,进一步提升下一步的行人识别率。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一优选实施例中联合注意力机制的时空特征聚合方法的流程示意图;
图2为本发明一优选实施例中生成注意力分数网络结构的具体参数和组成方式示意图。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
本发明一实施例提供了一种联合注意力机制的时空特征聚合方法,该方法针对现有技术中存在的问题,采用了注意力机制使得识别网络更多的关注于高质量的行人图片样本从而提取出更有效地空域特征。然而,在时域特征提取中,视频帧中的不同样本同样包含了不同的贡献程度,需要分配不同的注意力分数才能用于更有效的时域特征提取。此外,空域外貌特征和时域周期性特征之前需要根据特征的重要性给予不同的关注度,才能得到更具区分度的特征表达。
基于以上研究,本实施例所提供的方法,包括如下步骤:
构造全卷积神经网络FCN1,对行人视频中空域特征进行提取,得到质量分数μt并输出;
构造全卷积神经网络FCN2,对于行人视频中的一个行人序列中的每一张图片st,均经过此全卷积神经网络FCN2,得到图片特征ft;
对得到的图片特征ft和对应的质量分数μt进行群池化,得到质量敏感的序列化行人空域特征XC;
基于递归神经网络,提取行人序列中的每一张图片st的时域特征ot;
利用递归神经网络,提取帧敏感分数vt用于表征当前帧在时域特征提取中的重要性;
对得到的时域特征ot和帧敏感分数vt进行群池化,提取帧敏感的序列化行人时域特征XR;
将行人序列中的行人图像分为上中下三部分,分别经过由上述全卷积神经网络和递归神经网络构成的特征提取网络,提取出局部联合注意力机制的空时特征,然后组合成最终的全局特征,得到最终更具区分度的质量敏感的序列化行人空域特征XC和帧敏感的序列化行人时域特征XR表达;
将提取出的更具区分度的质量敏感的序列化行人空域特征XC和帧敏感的序列化行人时域特征XR通过线性叠加进行融合,得到聚合的行人空时特征XF。
下面对本实施例所提供的方法进一步详细描述如下。
作为一优选实施例,第一步:构造卷积神经网络,实现对质量敏感的注意力模块,用于对行人视频中空域特征提取。
具体步骤为:
1.设计一个全卷积神经网络FCN1,对行人视频中的每一张图片st,均经过此卷积神经网络,得到质量分数输出μt:
μt=Normalization(Sigmoid(FCN1(st)))
其中FCN1代表经过全卷积神经网络的操作,Sigmoid代表经过sigmoid函数激活操作,Normalization代表经过归一化操作。
2.设计另一个全卷积网络FCN2,对于一个行人序列中的每一张图片st,均经过此全卷积网络,得到图片特征ft,
C(st)==FCN2(st),
ft=C(st)
其中C代表全卷积操作。其中行人序列的长度为T。
3.对得到的图片特征ft和对应的质量分数μt进行群池化(set-pooling),得到质量敏感的序列化行人空域特征XC:
其中,attention代表应用空域注意力机制操作。
作为一优选实施例,第二步:构造递归神经网络,实现对帧敏感的注意力模块,用于对行人视频中时域特征提取。
具体步骤为:
1.基于递归神经网络(LSTM),提取行人的时域特征ot:
st=sigmoid(Ws[ht-1,ft]+bs),
it=sigmoid(Wi[ht-1,ft]+bi),
ot=sigmoid(Wo[ht-1,ft]+bo),
ht=ot*tanh(ct)
其中,it表示LSTM中输入门接收ft后的输出,表示处理后的输入信息,ct表示本次单元状态,ht表示当前时刻单元门的输出,ft表示行人序列图片st经由上一个步骤的全卷积网络提取的图片特征,sigmoid代表经过sigmoid函数激活操作,W为学习的网络权重参数,b为偏置参数,tanh为双切正切激活函数。
2.利用LSTM提取帧敏感分数vt用于表征当前帧在时域特征提取中的重要性:
vt=sigmoid(W[ht-1,μt]+b),
其中,sigmoid代表经过sigmoid函数激活操作,W为学习的网络权重参数,b为偏置参数,μt为质量分数。
3.类似的,利用set-pooling提取帧敏感的序列化时域特征:
作为一优选实施例,第三步:基于行人部位信息提取更具区分度的全局特征表达。
具体步骤为:
1.将行人图像分为上中下三部分,分别经过步骤一到步骤二所构成的网络的特征提取步骤,提取出局部联合注意力机制的空时特征,然后组合成最终的全局特征,得到最终更具区分度的特征表达。
XC=concat(XC,m)
XR=concat(XR,m)
其中concat为特征拼接操作。m取值为{1,2,3}代表三个部位特征。
第四步:构造残差学习机制,用于自适应地融合行人视频中的空域和时域特征。
具体步骤为:
1.设计一个线性叠加层,将CNN提取出的更具区分度的质量敏感的序列化行人空域特征xc和LSTM提取出的更具区分度的帧敏感的行人时域特征xR进行融合,得到聚合的行人空时特征表达xF:
xF=xC+xR
作为一优选实施例,所述方法还包括:
第五步:将行人空时特征表达xF送入三元损失函数(triplet loss)和交叉熵损失(Softmax loss)函数中算出损失从而对整个特征提取网络进行优化迭代。
作为一优选实施例,第五步中,采用三元损失函数和交叉熵损失函数对特征提取网络进行优化迭代中,两种损失函数的权重比为1:1。
下面结合说明书附图以及具体数据库中图像,以一具体实例对本实施例中方法所采用技术方案以及所达到技术效果进一步说明如下。
本实施采用的图像帧来自数据库PRID-2011,i-LIDS-VID和MARS中的群体监控视频(video for traffic surveillance)。
该视频序列是由(Martin Hirzer,Csaba Beleznai,Peter M.Roth,and HorstBischof.2011.Person Re-identification by Descriptive and DiscriminativeClassification.Springer Berlin Heidelberg.91–102pages.),(Wei Shi Zheng,Shaogang Gong,and Tao Xiang.2009.Associating Groups of People.Active RangeImaging Dataset for Indoor Surveillance(2009))和(Zheng,Liang,et al."Mars:Avideo benchmark for large-scale person re-identification."European Conferenceon Computer Vision.Springer,Cham,2016.)提供的,以进行行人重识别性能评估。
本实例中,涉及的联合注意力机制的时空特征聚合方法,包括如下具体步骤:
第一步:构造卷积神经网络,实现对质量敏感的注意力模块,用于对行人视频中空域特征提取。
本步骤中具体操作为:
1.设计一个全卷积神经网络FCN1,包含三个卷积层,两个池化层,一个全连接层。本实施例中,具体参数如表1所示。
表1
Name | Type | Number Output | Kernel Size | Stride | Pad |
Convl_s | convolution | 64 | 7 | 2 | 3 |
Pool1_s | Maxpooling | - | 3 | 2 | - |
Convl_ss1 | convolution | 64 | 3 | 1 | 1 |
Conv2_s | convolution | 64 | 3 | 1 | 1 |
Pool_s | Avepooling | - | 7 | 7 | - |
fcl_s | InnerProduct | 3 | - | - | - |
2.对行人视频中的每一张图片st,均经过此卷积神经网络,得到质量分数输出μt:
μt=Normalization(Sigmoid(FCN1(st)))
其中FCN1代表经过全卷积神经网络的操作,Sigmoid代表经过sigmoid函数激活操作,Normalization代表经过归一化操作。
3.设计另一个全卷积网络FCN2,对于一个行人序列中的每一张图片,均经过此全卷积网络,得到图片特征ft,
C(st)==FCN2(st),
ft=C(st)
其中FCN2代表经过卷积神经网络的操作。本实施例中,FCN2为22层的googlenet,特征向量维度为2048。
4.对得到的特征ft和对应的质量分数μt进行群池化(set-pooling),得到质量敏感的序列化空域特征:
本实施例中T为8。
图1是方法流程图,其中对各步骤中的特征提取进行了具体示意。图2是步骤中所述注意力分数生成结构的具体参数和组成方式示意图。行人是以序列的方式输入,经过的卷积池化等操作后提取出质量敏感的空域特征送入递归神经网络中进行下一步综合得到时域特征。
第二步:构造递归神经网络,实现对帧敏感的注意力模块,用于对行人视频中时域特征提取。
本步骤中具体操作为:
1.基于递归神经网络(LSTM),提取行人的时域特征:
st=sigmoid(Ws[ht-1,ft]+bs),
it=sigmoid(Wi[ht-1,ft]+bi),
ot=sigmoid(Wo[ht-1,ft]+bo),
ht=ot*tanh(ct)
其中sigmoid代表经过sigmoid函数激活操作,w为学习的网络权重参数,b为偏置参数。本实例中特征维度为2048。
2.利用LSTM提取帧敏感分数vt用于表征当前帧在时域特征提取中的重要性:
vt=sigmoid(W[ht-1,μt]+b),
3.利用set-pooling提取帧敏感的序列化时域特征:
本实例中T为8。
第三步:基于行人部位信息提取更具区分度的全局特征表达。
本步骤中具体操作为:
2.将行人图像分为上中下三部分,分别经过步骤一到步骤二所构成的网络的特征提取步骤,提取出局部联合注意力机制的空时特征,然后组合成最终的全局特征,得到最终更具区分度的特征表达。
XC=concat(XC,m)
XR=concat(XR,m)
其中concat为特征拼接操作。m取值为{1,2,3}代表三个部位特征。本实例中最终得到的聚和特征维度为6144.
第四步:构造残差学习机制,用于自适应地融合行人视频中的空域和时域特征。
本步骤中具体操作为:
设计一个线性叠加层,将CNN提取出的平均行人空域特征xc和LSTM提取出的时域特征xR进行融合,得到行人的空时特征表达xF:
xF=xC+xR
在本实例中,特征向量采用1:1的线性叠加。
第五步:将行人的空时特征表达xF送入三元损失函数(triplet loss)和交叉熵损失(Softmax loss)函数中算出损失从而对整个网络进行优化迭代。
在本实例中,两种损失的计算权重为1:1。
图1是整个方法运行的流程示意图。详细阐释了第一到第四步实施的具体过程和数据流向。本实施例中的联合注意力机制的时空特征聚合方法集成在同一个深度神经网络架构中,易于重现且具有很好地适用性和推广性。
综上所述,本实施例中方法步骤同时考虑了给予注意力机制的行人空域特征和更具代表性的时域特征,并在同一深度网络中加之进行了高效的融合,提取出的特征更具有区分度,更具有鲁棒性,能更好的解决与适应遮挡和光线变化等复杂情况;结合了行人的局部特征,挖掘行人的细节特性,使其在下一步的行人识别中发挥更好的性能及效率。
以下表2,是基于本实施例中方法得到的性能的最终识别准确率的数值比较结果。从上至下依次陈列了用以对照的其他结果同本实施例实施结果(JAFN)的数值比较。可以看到本实施例精度在不同数据集上都有很好的效果提升。
表2
以下表3,是本实施例的方法的中间结果性能比较,用以说明本实施例提出的注意力机制的有效性。其中QA代表在空域特征上采用质量敏感的注意力机制,FA代表在时域特征上采用帧敏感的注意力机制,RL代表采用残差学习机制综合时空域特征得到的识别结果。
表3
以下表4,是本实施例的方法的中间结果性能比较,用以说明本本实施例提出的时空特征融合机制的有效性。自上而下分别为只选用CNN提取的空域特征,只选用LSTM提取的时域特征,以及最终的空时特征融合结果比较。
表4
从表3和表4中可以看出,本实施例的方法提出的多重注意力融合机制,以及时空特征融合的方法的确能带来性能上的提升,能够更好的挖掘行人的本质特征,给出更好的特征提取方案。
本发明另一实施例,提供了一种联合注意力机制的空时特征聚合系统,包括:
全卷积神经网络FCN1模块,所述全卷积神经网络FCN1模块用于对行人视频中空域特征进行提取,得到质量分数μt并输出;
全卷积神经网络FCN2模块,所述全卷积神经网络FCN2模块用于输入行人视频中的一个行人序列中的每一张图片st,得到图片特征ft;
递归神经网络模块,所述递归神经网络模块用于提取行人序列中的每一张图片st的时域特征ot以及用于表征当前帧在时域特征提取中的重要性的帧敏感分数vt;
特征提取模块,所述特征提取模块对图片特征ft和对应的质量分数μt进行群池化,得到质量敏感的序列化行人空域特征XC;对得到的时域特征ot和帧敏感分数vt进行群池化,提取帧敏感的序列化行人时域特征XR;输入行人序列中的行人图像的上中下三部分,提取出局部联合注意力机制的空时特征,然后组合成最终的全局特征,得到最终更具区分度的质量敏感的序列化行人空域特征XC和帧敏感的序列化时域特征XR表达;
特征聚合模块,将提取出的更具区分度的质量敏感的序列化行人空域特征XC和帧敏感的序列化行人时域特征XR通过线性叠加层进行融合,得到聚合的行人空时特征XF。
作为一优选实施例,所述全卷积神经网络FCN1包括三个卷积层、两个池化层和一个全连接层。
作为一优选实施例,所述全卷积神经网络FCN2包括22层GoogLeNet。
作为一优选实施例,所述系统还包括:
优化迭代模块,所述优化迭代模块采用三元损失函数和交叉熵损失函数,将行人的空时特征xF作为输入,计算出损失从而对所述系统中的各模块进行优化迭代。
本发明第三个实施例,提供了一种终端,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时能够用于执行上述任一项所述的方法。
可选地,存储器,用于存储程序;存储器,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-access memory,缩写:RAM),如静态随机存取存储器(英文:static random-access memory,缩写:SRAM),双倍数据率同步动态随机存取存储器(英文:Double Data Rate Synchronous Dynamic Random Access Memory,缩写:DDR SDRAM)等;存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory)。存储器62用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
处理器,用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
处理器和存储器可以是独立结构,也可以是集成在一起的集成结构。当处理器和存储器是独立结构时,存储器、处理器可以通过总线耦合连接。
本发明上述实施例提供的联合注意力机制的时空特征聚合方法及系统、终端,在一个深度网络中利用卷积神经网络(CNN)提取行人的空域特征,利用递归神经网络(RNN)综合提取出的空域特征从而得到行人的时域特征;采用全卷积神经网络和递归神经网络分别生成对应的质量敏感和帧敏感的注意力分数用以对空域和时域特征进行动态融合;在网络中设计叠加层融合得到的质量敏感的空域特征和帧敏感的时域特征,得到行人的空时特征表达;分别在行人的上中下部位进行网络训练得到相应的具有互补性质局部特征,拼接得到更具区分度的特征表达,具有很好的鲁棒性,能更好的解决与适应遮挡和光线变化等复杂情况;结合了行人的空域和时域特征,挖掘行人的细节特性,使其在下一步的行人识别中发挥更好的性能及效率。
本发明上述实施例提供的联合注意力机制的时空特征聚合方法及系统、终端,首先设计了一个一体化的网络,同时包含质量敏感、帧敏感的特征提取功能,以及自适应的残差学习用于多重注意力机制下的时空域特征聚合功能。其中利用卷积神经网络(CNN)和质量敏感的注意力机制提取更有效行人的空域特征,利用递归神经网络(LSTM)和帧敏感的注意力机制提取更有效的时域特征,利用残差学习自适应地综合提取出的空时特征从而得到更具区分度的行人特征表达。其次,本发明上述实施例提供的,联合注意力机制的时空特征聚合方法及系统、终端,通过设置多重损失函数,进一步地提升了识别性能。
由于采用了上述技术方案,本发明上述实施例同时考虑了行人的空域特征和更具代表性的时域特征,并在同一深度网络中加之进行了高效的融合,提取出的特征更具有区分度,更具有鲁棒性,能更好的解决与适应遮挡和光线变化等复杂情况;同时结合了多重注意力机制,分别对空域和时域特征进行优化,挖掘行人的细节特性,使其在下一步的行人识别中发挥更好的性能及效率,尤其适合于行人重识别中提升识别性能的时空特征提取。
需要说明的是,本发明提供的方法中的步骤,可以利用系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照系统的技术方案实现方法的步骤流程,即,系统中的实施例可理解为实现方法的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (10)
1.一种联合注意力机制的空时特征聚合方法,其特征在于,包括:
构造全卷积神经网络FCN1,对行人视频中空域特征进行提取,得到质量分数μt并输出;
构造全卷积神经网络FCN2,对于行人视频中的一个行人序列中的每一张图片st,均经过此全卷积神经网络FCN2,得到图片特征ft;
对得到的图片特征ft和对应的质量分数μt进行群池化,得到质量敏感的序列化行人空域特征XC;
基于递归神经网络,提取行人序列中的每一张图片st的时域特征ot;
利用递归神经网络,提取帧敏感分数vt用于表征当前帧在时域特征提取中的重要性;
对得到的时域特征ot和帧敏感分数vt进行群池化,提取帧敏感的序列化行人时域特征XR;
将行人序列中的行人图像分为上中下三部分,分别经过由上述全卷积神经网络和递归神经网络构成的特征提取网络,提取出局部联合注意力机制的空时特征,然后组合成最终的全局特征,得到最终具有区分度的质量敏感的序列化行人空域特征XC和帧敏感的序列化行人时域特征XR表达;
将提取出的具有区分度的质量敏感的序列化行人空域特征XC和帧敏感的序列化行人时域特征XR通过线性叠加进行融合,得到聚合的行人空时特征XF。
2.根据权利要求1所述的联合注意力机制的时空特征聚合方法,其特征在于,所述全卷积神经网络FCN1包括三个卷积层、两个池化层和一个全连接层;和/或
所述全卷积神经网络FCN2包括22层GoogLeNet。
4.根据权利要求1所述的联合注意力机制的时空特征聚合方法,其特征在于,将提取出的具有区分度的质量敏感的行人空域特征XC和提取出的具有区分度的帧敏感的行人时域特征XR进行融合,其中特征向量采用1:1的线性叠加,具体为:
XF=XC+XR。
5.根据权利要求1-4任一项所述的联合注意力机制的时空特征聚合方法,其特征在于,还包括:
将行人的空时特征XF送入三元损失函数和交叉熵损失函数,计算出损失从而对特征提取网络进行优化迭代。
6.根据权利要求5所述的联合注意力机制的时空特征聚合方法,其特征在于,采用三元损失函数和交叉熵损失函数对特征提取网络进行优化迭代中,两种损失函数的权重比为1:1。
7.一种联合注意力机制的空时特征聚合系统,其特征在于,包括:
全卷积神经网络FCN1模块,所述全卷积神经网络FCN1模块用于对行人视频中空域特征进行提取,得到质量分数μt并输出;
全卷积神经网络FCN2模块,所述全卷积神经网络FCN2模块用于输入行人视频中的一个行人序列中的每一张图片st,得到图片特征ft;
递归神经网络模块,所述递归神经网络模块用于提取行人序列中的每一张图片st的时域特征ot以及用于表征当前帧在时域特征提取中的重要性的帧敏感分数vt;
特征提取模块,所述特征提取模块对图片特征ft和对应的质量分数μt进行群池化,得到质量敏感的序列化行人空域特征XC;对得到的时域特征ot和帧敏感分数vt进行群池化,提取帧敏感的序列化行人时域特征XR;输入行人序列中的行人图像的上中下三部分,提取出局部联合注意力机制的空时特征,然后组合成最终的全局特征,得到最终具有区分度的质量敏感的序列化行人空域特征XC和帧敏感的序列化行人时域特征XR表达;
特征聚合模块,将提取出的具有区分度的质量敏感的序列化行人空域特征XC和帧敏感的序列化行人时域特征XR通过线性叠加层进行融合,得到聚合的行人空时特征XF。
8.根据权利要求7所述的联合注意力机制的时空特征聚合系统,其特征在于,所述全卷积神经网络FCN1包括三个卷积层、两个池化层和一个全连接层;和/或
所述全卷积神经网络FCN2包括22层GoogLeNet。
9.根据权利要求7或8所述的联合注意力机制的时空特征聚合系统,其特征在于,还包括:
优化迭代模块,所述优化迭代模块采用三元损失函数和交叉熵损失函数,将行人的空时特征xF作为输入,计算出损失从而对所述系统中的各模块进行优化迭代。
10.一种终端,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时能够用于执行权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010634849.XA CN111967310A (zh) | 2020-07-03 | 2020-07-03 | 一种联合注意力机制的时空特征聚合方法及系统、终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010634849.XA CN111967310A (zh) | 2020-07-03 | 2020-07-03 | 一种联合注意力机制的时空特征聚合方法及系统、终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111967310A true CN111967310A (zh) | 2020-11-20 |
Family
ID=73361335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010634849.XA Pending CN111967310A (zh) | 2020-07-03 | 2020-07-03 | 一种联合注意力机制的时空特征聚合方法及系统、终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111967310A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560827A (zh) * | 2021-02-24 | 2021-03-26 | 北京澎思科技有限公司 | 模型训练方法、装置、预测方法、电子设备及介质 |
CN112929629A (zh) * | 2021-02-03 | 2021-06-08 | 天津大学 | 一种智能虚拟参考帧生成方法 |
CN113011404A (zh) * | 2021-05-25 | 2021-06-22 | 南京甄视智能科技有限公司 | 基于时空域特征的狗拴绳识别方法、装置 |
CN113158815A (zh) * | 2021-03-27 | 2021-07-23 | 复旦大学 | 一种无监督行人重识别方法、系统及计算机可读介质 |
CN113283400A (zh) * | 2021-07-19 | 2021-08-20 | 成都考拉悠然科技有限公司 | 一种基于选择性超图卷积网络的骨架动作识别方法 |
CN116778430A (zh) * | 2023-08-24 | 2023-09-19 | 吉林省牛人网络科技股份有限公司 | 肉牛养殖的疾病监测系统及其方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN107679465A (zh) * | 2017-09-20 | 2018-02-09 | 上海交通大学 | 一种基于生成网络的行人重识别数据生成和扩充方法 |
-
2020
- 2020-07-03 CN CN202010634849.XA patent/CN111967310A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN107679465A (zh) * | 2017-09-20 | 2018-02-09 | 上海交通大学 | 一种基于生成网络的行人重识别数据生成和扩充方法 |
Non-Patent Citations (1)
Title |
---|
LIN CHEN ET AL.: "Joint Attentive Spatial-Temporal Feature Aggregation for Video-Based Person Re-Identification", 《IEEE ACCESS》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112929629A (zh) * | 2021-02-03 | 2021-06-08 | 天津大学 | 一种智能虚拟参考帧生成方法 |
CN112929629B (zh) * | 2021-02-03 | 2021-12-07 | 天津大学 | 一种智能虚拟参考帧生成方法 |
CN112560827A (zh) * | 2021-02-24 | 2021-03-26 | 北京澎思科技有限公司 | 模型训练方法、装置、预测方法、电子设备及介质 |
CN112560827B (zh) * | 2021-02-24 | 2021-11-19 | 北京澎思科技有限公司 | 模型训练方法、装置、预测方法、电子设备及介质 |
CN113158815A (zh) * | 2021-03-27 | 2021-07-23 | 复旦大学 | 一种无监督行人重识别方法、系统及计算机可读介质 |
CN113011404A (zh) * | 2021-05-25 | 2021-06-22 | 南京甄视智能科技有限公司 | 基于时空域特征的狗拴绳识别方法、装置 |
CN113011404B (zh) * | 2021-05-25 | 2021-08-24 | 南京甄视智能科技有限公司 | 基于时空域特征的狗拴绳识别方法、装置 |
CN113283400A (zh) * | 2021-07-19 | 2021-08-20 | 成都考拉悠然科技有限公司 | 一种基于选择性超图卷积网络的骨架动作识别方法 |
CN116778430A (zh) * | 2023-08-24 | 2023-09-19 | 吉林省牛人网络科技股份有限公司 | 肉牛养殖的疾病监测系统及其方法 |
CN116778430B (zh) * | 2023-08-24 | 2023-11-28 | 吉林省牛人网络科技股份有限公司 | 肉牛养殖的疾病监测系统及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967310A (zh) | 一种联合注意力机制的时空特征聚合方法及系统、终端 | |
Qi et al. | Dynamic texture and scene classification by transferring deep image features | |
Sun et al. | Lattice long short-term memory for human action recognition | |
Laraba et al. | 3D skeleton‐based action recognition by representing motion capture sequences as 2D‐RGB images | |
Zhang et al. | Information fusion in visual question answering: A survey | |
CN109583340B (zh) | 一种基于深度学习的视频目标检测方法 | |
Baccouche et al. | Sequential deep learning for human action recognition | |
WO2021057056A1 (zh) | 神经网络架构搜索方法、图像处理方法、装置和存储介质 | |
Lee et al. | Recognizing pedestrian’s unsafe behaviors in far-infrared imagery at night | |
CN109190479A (zh) | 一种基于混合深度学习的视频序列表情识别方法 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
Li et al. | Pedestrian detection based on deep learning model | |
CN112784929B (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
Yan et al. | Age estimation based on convolutional neural network | |
Zhang et al. | Local–global attentive adaptation for object detection | |
CN112597873A (zh) | 一种基于深度学习的双通道人脸表情识别方法 | |
Li et al. | Multi-attention guided feature fusion network for salient object detection | |
Wang et al. | An interconnected feature pyramid networks for object detection | |
Cui et al. | Deep saliency detection via spatial-wise dilated convolutional attention | |
CN116611021A (zh) | 一种基于双Transformer融合模型的多模态事件检测方法及系统 | |
An | Pedestrian Re‐Recognition Algorithm Based on Optimization Deep Learning‐Sequence Memory Model | |
Dong et al. | Field-matching attention network for object detection | |
Zhao et al. | Human action recognition based on improved fusion attention CNN and RNN | |
Gao et al. | Adaptive random down-sampling data augmentation and area attention pooling for low resolution face recognition | |
Hong et al. | Characterizing subtle facial movements via Riemannian manifold |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201120 |
|
RJ01 | Rejection of invention patent application after publication |