CN110751018A - 一种基于混合注意力机制的群组行人重识别方法 - Google Patents

一种基于混合注意力机制的群组行人重识别方法 Download PDF

Info

Publication number
CN110751018A
CN110751018A CN201910827179.0A CN201910827179A CN110751018A CN 110751018 A CN110751018 A CN 110751018A CN 201910827179 A CN201910827179 A CN 201910827179A CN 110751018 A CN110751018 A CN 110751018A
Authority
CN
China
Prior art keywords
attention
group
mixed
features
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910827179.0A
Other languages
English (en)
Inventor
杨华
许琪羚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201910827179.0A priority Critical patent/CN110751018A/zh
Publication of CN110751018A publication Critical patent/CN110751018A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Abstract

本发明提供了一种基于混合注意力机制的群组行人重识别方法,包括:利用深度卷积神经网络骨干模型对群组图像进行初步特征提取;利用混合注意力机制模型对已初步提取的特征进行进一步提取;对已经过混合注意力模型的特征用最小二乘残差距离进行比对和评估。本发明通过充分考虑群组行人重识别问题中存在的各种挑战,利用了包括空间注意力和通道注意力的混合注意力模型,使网络更多地关注群组图像的关键区域和特征,提出基于最小二乘算法的新型最小二乘残差距离,更好地学习群组图像对之间的度量。本发明能够很好地适应由于群组行人图像带来的各种挑战,具有很好的多样性和普遍的适用性。

Description

一种基于混合注意力机制的群组行人重识别方法
技术领域
本发明属于计算机视觉技术领域,具体为一种基于混合注意力机制的群组行人重识别方法,涉及在无重叠监控摄像头下的专注于群组的行人重识别。
背景技术
近年来,人们对于公共安全问题的关注日益提升,对安全问题的重视程度已上升到全新高度,在城市中的视频监控网络日益完善,视频监控遍布到城市的各个角落且视频监控数据的质量和数量大大提升。在视频监控网络的各部分中,考虑到行人活动的灵活多变性及监控行人对于保护人员安全和刑侦破案的重要意义,行人是监控视频关心的重点对象之一,视频监控已经应用到各种人员频繁出没的场所。
现阶段的行人监控手段主要是以人工监控为主的形式对实时摄像进行监看为主,这一过程需要大量的人力物力,且视频监控得到的视频数据量非常庞大,人工监控为主的方式很难对得到的庞大的视频数据量全部覆盖,因此这种监控机制极易错失重要信息和数据。在此情况下,基于深度学习和人工智能的行人重识别算法越来越重要。行人重识别算法能够在不重叠的不同摄像机的监控下识别出同一个行人。行人重识别的快速发展能够为视频监控系统带来巨大精确度提升的同时,还可以节省下大量的人力物力,具有重要的研究意义。
跨摄像机的行人重识别对于视频监控中的关键问题解决有着重要作用。行人重新识别是监控场景中的关键技术,在监控网络中清晰的脸部图像较为稀缺,行人的监控结果图像或视频分辨率不能满足人脸识别的需求,因此人脸识别技术难以应用到分辨率极低或位置与行人相隔较远的摄像头所得到的监控视频。考虑到在实际情况中,监控摄像机的部署有许多无法监控到的真空区域,在行人离开摄像机的监控区域并进入真空区域后,目标跟踪的相关技术不适用,而行人重识别功能是解决这种跨摄像机跟踪的关键。
目前已有的研究对于单人的行人重识别问题关注度较高,但却忽视了基于群组的行人重识别在行人比对任务上的重要作用。考虑到行人的行为常伴随着群组信息,群组行为是非常常见的且群组的共同行动所提供的信息有重要价值,因此基于群组的行人重识别可以解决一些单人的行人重识别所不能解决的问题。例如,当单个行人在摄像头中长时间被群组中另一个行人大面积遮挡,单人的行人重识别无法做到匹配,而从群组的角度实现重识别可以解决这样的问题,另外,单独的行人可能会存在其他与其特征相似的对象作为干扰,所以群组的重识别可以使行人间的匹配更加准确,具有极大的研究价值。
群组重识别对公共安全和监控系统具有重要的作用。群组重识别的目标是在不同的非重叠相机视图中识别同一个群组。现有的行人重识别相关研究多基于单人,而现实情境中,群组行为是不容忽视的。群组是很常见且能提供大量有效信息的行为。同时基于图像的群组比对方法可以扩展到视频序列中。视频序列相较于图像存在更多信息,综合对于时空信息的分析,可以进一步提升系统性能。
已有的关于群组行人重识别的研究相对较少,存在利用位置、轨迹、速度和方向等信息来研究群组行人识别(参见Ukita,Norimichi,Yusuke Moriguchi,and NorihiroHagita."People re-identification across non-overlapping cameras using groupfeatures."Computer Vision and Image Understanding 144(2016):228-236.),但这种方法有位置和速度信息不唯一和轨迹信息不精确等问题。一些工作采用了稀疏特征编码方法和非监督的迁移学习,将单人的行人重识别学习到的稀疏编码字典迁移学习到群组问题中(参见Lisanti,Giuseppe,et al."Group re-identification via unsupervisedtransfer of sparse features encoding."Proceedings of the IEEE InternationalConference on Computer Vision.2017.),但这种方法需要同时用DPM,ACF,R-CNN的结果,预处理的开销较大。一些工作提取组中的子集并利用多级匹配算法迭代匹配,能完全提取组的特征并能处理组内人数有变化情况(参见Xiao,Hao,et al."Group Re-Identification:Leveraging and Integrating Multi-Grain Information."2018 ACMMultimedia Conference on Multimedia Conference.ACM,2018.),但匹配过程非常费时,不适用于大数据集和现实场景。
针对目前社会公共安全系统的需求,跨摄像机的群组重识别研究对于监控系统的准确度和目标行人的高召回率有着重要作用。因此在本发明中将对跨摄像机的群组重识别问题进行深入研究。
发明内容
针对现有技术中存在的上述问题,本发明的目的是是提供一种基于混合注意力机制的群组行人重识别方法,该方法利用现有的深度学习方法的优势,通过利用深度学习对群组图像进行特征提取,同时融合混合注意力机制,提取出更有分辨力的特征并对关键区域加以更大的权重,使框架的注意力从关注整个包括背景在内群组图像到更多地关注群组行人中的关键的有分辨力的信息,从而提升了监控摄像头下群组行人重识别的性能。
群体行为可为行人重识别提供更多信息,这对于进一步提升行人重识别结果具有重要的研究价值。本发明的目标为基于群组的重识别,是在视频监控系统中能够对目标群组进行比对并进行跨摄像头的检索。在目标检索过程中,基于群组重识别和行人重识别的深度学习方法远远优于人工搜索。随着视频监控覆盖范围的不断扩大,智能视频监控技术在监控网络方面的作用远远超过传统的手动监控。通过智能视频监控技术有效控制目标行人的比对,可以有效提高社会安全水平和管理效率。研究这一问题对安防和刑侦事件具有十分重要的现实意义。
基于空间注意力和通道注意力等多重注意力可以关注到具有区分度的群组特征。通过设计利用深度神经网络的群组跨摄像头重识别的网络框架,同时针对群组内部的空间变化问题,本发明通过设计基于注意力模型的融合全局和局部特征的特征提取算法,对监控视频中的群组进行可区分的高效图像特征提取和表达。同时,考虑到基于单帧图像的重识别算法局限于静态的行人的视觉特征,无法很好地解决不同摄像机视角下行人的形变遮挡等实际性挑战,在图像的特征提取基础上,进一步利用视频中行人的时空特征,设计基于视频序列同时提取图像中的空间特征和时序特征的网络,进行跨时空域的重点行人目标比对和关联分析。
在监控视频中,经常出现目标行人被大面积遮挡的情况,被遮挡的目标人物难以通过简单的行人重识别被检索到。因此基于群组的行人重识别最大的优势就在于能够借助群组的匹配信息来进一步判断信息不充足的行人的重识别的问题。在单人的行人重识别问题中,如果一个人在某一摄像机的视角下持续被群组中的其他人遮挡,那么这个人在这个相机中都很难重识别,而基于群组的重识别对于这样的问题有解决能力。匹配这样的图像的重点在于要充分利用群组中图像完整的行人的图像信息,使这样的信息完整的行人成为图像配对的重要人物,通过重要人物的匹配同时辅之以被遮挡行人的信息完成群组的匹配。群组识别可以弥补单人重识别的这个缺点。将群组比对结果应用于单人行人重识别任务后,加入群组内行人的时空关联的网络可以更好地匹配目标行人,在本研究中,基于上述的群组比对的研究基础,可以进一步将群组比对结果应用于单人的行人重识别结果。当同时应用行人重识别和群组重识别后,通过增加群组比对提供的更多有效信息,行人重识别的准确率可以得到优化;
深度学习中的注意力机制基本上类似于人类选择性视觉注意机制。核心目标是从众多对当前任务目标有用的信息中选择更多更为关键的信息。针对群组重识别存在的多种挑战,采用通道注意力、空间注意力在内的多种注意力机制,通过混合注意力模型对网络特征的提取,可以得到更有分辨度的特征向量。由于在群组的图像中,背景信息所占的比例就会比单独行人图片的背景信息更多。所以通过设计基于注意力模型的融合全局和局部特征的特征提取算法,提取行人部分的局部特征,让提取的特征更关注行人部分而给背景部分较小权重。利用注意力机制可以提取到更有区分度的特征向量。空间注意力即为在图像的宽高两个维度上,对应与图片不同位置的注意力关注度。在传统的行人比对过程中对于外表相似的不同行人,极易出现误匹配。在这种情况下,空间注意力机制可以更好地关注到具有区分度的局部特征,进而提升整体行人重识别准确度。
本发明是通过以下技术方案实现的。
一种基于混合注意力机制的群组行人重识别方法,包括:
S1:基于深度卷积神经网络,形成群组行人重识别任务的骨干模型特征提取网络P,将整个群组行人重识别数据集上的图像对得到的骨干模型特征提取网络P进行应用,对群组行人的每一个图像s,均经过骨干模型特征提取网络P生成特征向量E;
S2:在骨干模型特征提取网络P的基础上,加入混合注意力机制网络H,对已初步提取的特征进行进一步提取;加入混合注意力机制的网络H,更多地关注群组图像的关键区域和特征;其中,混合注意力机制网络H包括通道注意力模块C和空间注意力模块S,所述通道注意力模块C和空间注意力模块S分别作用于特征向量E不同维度上的特征;
S3:通过混合注意力机制网络H捕获特征向量E内的全局依赖,每一个输入的特征向量E分别经过混合注意力机制网络H中的通道注意力模块C和空间注意力模块S处理后得到注意力参数w1和w2,注意力参数w1和w2分别为通道注意力参数和空间注意力参数;所述注意力参数w1和w2分别用于代表所有通道特征和位置特征的权重;
S4:应用S3获得的图像特征经混合注意力机制网络H获得的通道维度和位置维度的注意力参数w1和w2,得到特征向量E的整体注意力权重w;
S5:将特征向量E和注意力权重w相乘,即将通道和位置维度分别乘以通道特征和位置特征的权重(即注意力参数w1和w2),得到更多地关注群组行人图像的关键区域的特征F;
S6:对已提取的图像特征F与检测目标的特征进行匹配;在距离度量阶段采用最小二乘残差距离,最小二乘残差距离中的检测目标和匹配对象经骨干模型特征提取网络P和混合注意力机制网络H提取后的特征分别为Y和X,通过学习多项式拟合函数来近似接近真实检测目标的特征Y(即最小二乘残差距离中的检测目标和匹配对象经骨干模型特征提取网络P和混合注意力机制网络H提取后的特征Y);
所述多项式拟合函数
Figure BDA0002189464990000052
表示为其中A为匹配对象的特征X扩展为矩阵的形式,W为多项式拟合函数的系数;
S7:通过简单地考虑最优解而获得的模型将具有过度拟合的巨大可能性并且预测结果较差;为了解决这个问题,在多项式拟合函数
Figure BDA0002189464990000054
中加入正则化项;
S8:使用最小二乘法对加入正则化项的多项式拟合函数进行求解,找到最佳的多项式拟合函数的系数W;
S9:将多项式拟合函数
Figure BDA0002189464990000055
的拟合结果与经骨干模型特征提取网络P提取的特征Y的差值构成的函数
Figure BDA0002189464990000056
作为距离对经过混合注意力机制网络H提取的特征X进行比对和评估。
优选地,S1中,所述群组行人重识别任务的骨干模型特征提取网络P主要由深度卷积神经网络组成,输出群组行人的每一个图像s的初步特征。
优选地,S2中,同时采用空间注意力机制和通道注意力机制完成对于群组行人的每一个图像s特征的进一步提取。
优选地,S3中,所述混合注意力机制网络H中:
对于通道注意力模块C,首先对特征向量进行全局池化操作,计算公式如下,
Figure BDA0002189464990000061
其中,X表示骨干模型特征提取网络P提取的特征,h,w,c分别表示注意力模块C的输入向量在三个维度上的长度;将特征向量进行全局池化后,特征就变成和通道数量一样的长度,同时表示了不同特征通道的注意力权重,然后将全局池化得到的特征向量分别送入两个全连接层;这一操作增加了网络的非线性,同时减少了网络训练进行需要的参数;
对于空间注意力模块S,首先在通道维度上对特征向量进行池化,并通过核大小为1×1,步长为1的全连接层用于学习网络在长宽两个维度上的注意力权重;最后将空间注意力和通道注意力的结果作为权重作用于原特征,得到更有分辨力的特征。
优选地,S4中,通道注意力参数w1存在一个维度,空间注意力参数w2存在两个不同维度;将注意力参数w1和w2进行合并后获得在h,w,c三个维度上存在注意力权重的参数w;h,w,c分别表示注意力模块C的输入向量在三个维度上的长度。
优选地,S5中,特征F为加入混合注意力机制后得到的群组图像的特征,通过未加入混合注意力机制的特征向量E与体注意力权重w的相乘得到。
优选地,S6中,最小二乘残差距离中的检测目标和匹配对象经骨干模型和混合注意力模型提取后的特征分别为Y和X,通过学习多项式拟合函数 来近似接近真实检测目标的特征Y。
优选地,S7中,加入正则化项之后的多项式拟合函数为:
Figure BDA0002189464990000064
优选地,S6中,将特征X=(x1,x2,x3,……,xd)扩展为矩阵的形式为,
Figure BDA0002189464990000065
其中d是特征X的维度。问题转化为找到
Figure BDA0002189464990000066
的最优解,根据最小二乘法的公式,可得,W=(ATA+βI)-1ATY。
优选地,S8中,使用最小二乘法对加入正则化项的多项式拟合函数进行求解最佳的多项式拟合函数的系数W的等式为,
W=(ATA+βI)-1ATY (4)
优选地,S9中,函数
Figure BDA0002189464990000071
Figure BDA0002189464990000072
作为距离对已经过混合注意力模型的特征进行比对和评估。
与现有技术相比,本发明的有益效果在于:
1)本发明采用深度学习对群组重识别任务中的图像特征进行提取并对群组身份进行排序识别,与现有的传统的手工设计特征和度量学习两部分完全分开的模式相比,本发明的深度学习方法能提取到更有效的群组图像特征。
2)本发明采用了混合注意力机制并能够提取到更具有分辨力的特征。针对群组重识别存在的多种挑战,采用通道注意力、空间注意力在内的多种注意力机制,通过混合注意力模型对网络特征的提取,可以得到更有分辨度的特征向量,更好地完整群组的重识别任务。
3)与传统的距离度量多使用欧式距离和余弦距离不同,本发明对已提取特征的图片进行匹配并在距离度量阶段可采用基于最小二乘法的残差距离,能够更好地学习到目标图像与待匹配图像的特征之间的关联,并以其特征的残差之间的距离作为判定两张图片特征之间的距离,能够更有效地代表两张图片之间的关系,提高重识别的准确度。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中混合注意力机制网络特征提取示意图;
图2为本发明一实施例中群组重识别挑战性问题示意图;
图3为本发明一实施例中最小二乘残差距离示意图;
具体实施方式
下面结合附图对本发明的实施例作详细说明:本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明实施例提供了一种基于混合注意力机制的群组行人重识别方法,包括以下步骤:
S1:基于深度卷积神经网络,形成群组行人重识别任务的骨干模型特征提取网络P,将整个群组行人重识别数据集上的图像对得到的骨干模型特征提取网络P进行应用,对群组行人的每一个图像s,均经过群组行人重识别任务的骨干模型特征提取网络P生成特征向量E,输出群组图像的初步特征。
S2:在骨干模型特征提取网络P的基础上,加入混合注意力机制网络H,对已初步提取的特征进行进一步提取。混合注意力机制网络H捕获单个特征内的全局依赖。加入混合注意力机制的网络H,更多地关注群组图像的关键区域和特征,混合注意力机制网络模型H分为通道注意力模块C和空间注意力模块S两个模块,分别作用于图片经骨干模型特征提取网络P提取特征后的不同维度上的特征。
S3:通过S2中的混合注意力机制网络H捕获单个特征内的全局依赖,每一个输入的特征E分别经过注意力模型网络H中的通道注意力模块C和空间注意力模块S处理后得到注意力参数w1和w2,分别代表所有通道特征和位置特征的权重;
具体步骤为:
每一个输入的特征E分别经过注意力模型网络H中的通道注意力模块C和空间注意力模块S处理后得到注意力参数w1和w2,分别代表所有通道特征和位置特征的权重;对于通道注意力模块,首先对特征向量进行全局池化操作,计算公式如下,
Figure BDA0002189464990000081
其中,X表示骨干模型特征提取网络提取的特征,h,w,c分别表示注意力模块的输入向量在三个维度上的长度。将特征向量进行全局池化后,特征就变成和通道数量一样的长度,同时表示了不同特征通道的注意力权重,然后将全局池化得到的特征向量分别送入两个全连接层,这一操作增加了网络的非线性,同时减少了网络训练进行需要的参数。对于空间注意力模块,首先在通道维度上对特征向量进行池化,并通过核大小为1×1,步长为1的全连接层用于学习网络在长宽两个维度上的注意力权重。最后将空间注意力和通道注意力的结果作为权重作用于原特征,得到更有分辨力的特征。
S4:应用S3获得的图像特征经混合注意力模型H获得的通道维度和位置维度的注意力参数w1和w2,得到特征E的整体注意力权重w;注意力参数w1和w2分别为通道注意力参数和空间注意力参数,分别存在一个和两个不同维度。将w1和w2进行合并后获得在h,w,c三个维度上存在注意力权重的参数w。
S5:将群组行人的特征E和注意力权重w相乘,即将群组特征的位置和通道维度分别乘以位置特征和通道特征的权重,得到更多地关注群组图像的关键区域的特征F,加入混合注意力机制后得到的群组图像的特征F为未加入混合注意力机制的图像特征E与注意力参数w的乘积。
S6:对已提取的图像特征与检测目标的特征进行匹配。在距离度量阶段采用最小二乘残差距离。最小二乘残差距离中的检测目标和匹配对象经骨干模型和混合注意力模型提取后的特征分别为Y和X,通过学习多项式拟合函数
Figure BDA0002189464990000091
来近似接近真实检测目标的特征Y。
具体步骤为:
检测目标和匹配对象经骨干模型和混合注意力模型提取后的特征分别为Y和X。最小二乘残差距离中的检测目标和匹配对象经骨干模型和混合注意力模型提取后的特征分别为Y和X,通过学习多项式拟合函数
Figure BDA0002189464990000092
Figure BDA0002189464990000093
来近似接近真实检测目标的特征Y。将多项式拟合函数表示为
Figure BDA0002189464990000094
形式,其中A为匹配对象的特征X扩展为矩阵的形式,将特征X=(x1,x2,x3,……,xd)扩展为多项式,
Figure BDA0002189464990000095
其中d是特征X的维度。问题转化为找到
Figure BDA0002189464990000096
的最优解,根据最小二乘法的公式,可得,W=(ATA+βI)-1ATY。W为目标多项式拟合函数的系数;
S7:通过简单地考虑最优解而获得的模型将具有过度拟合的巨大可能性并且预测结果较差。为了解决这个问题,在目标函数中加入正则化项,加入正则化项之后的目标函数为,
Figure BDA0002189464990000101
S8:使用最小二乘法对目标拟合函数进行求解,从而找到最佳的拟合函数的系数参数W,使用最小二乘法对目标拟合函数进行求解最佳的拟合函数的系数参数W的等式为,
W=(ATA+βI)-1ATY (4)
S9:将拟合函数结果与真实的经网络提取的特征Y的差值构成的函数
Figure BDA0002189464990000103
作为距离对已经过混合注意力模型的特征进行比对和评估。最后的残差距离为
Figure BDA0002189464990000104
作为距离对已经过混合注意力模型的特征进行比对和评估。
通过比对检测目标和匹配对象之间的距离完成对目标群组的排序检索和检索,并用mAP和排序数对结果的准确率进行评估。
综上所述,本发明实施例所提供的方法通过混合注意力模型提取图像的群组行人的特征,基于空间注意力和通道注意力等多重注意力可以关注到具有区分度的群组特征。通过设计利用深度神经网络的群组跨摄像头重识别的网络框架,同时针对群组内部的空间变化问题,通过设计基于注意力模型的融合全局和局部特征的特征提取算法,对监控视频中的群组进行可区分的高效图像特征提取和表达。同时,通过应用最小二乘残差距离能够更好地学习到目标图像与待匹配图像的特征之间的关联,并以其特征的残差之间的距离作为判定两张图片特征之间的距离,能够更有效地代表两张图片之间的关系,提高重识别的准确度。
以下表1,是基于本发明上述实施例所提供的方法得到的性能的最终识别准确率的数值比较结果。从上至下依次陈列了用以对照的其他结果同本实施例实施结果的数值比较。可以看到本发明上述实施例精度有很好的效果提升。
表1
Figure BDA0002189464990000105
Figure BDA0002189464990000111
以下表2,是本发明中混合注意力模型中的两个模块分别作用在网络上得到的性能与整体混合注意力模块得到的实验结果的对照说明,可以看到本发明中混合注意力模型中的每一部分注意力独立作用于网络是都能为结果带来提升,且混合注意力模型的结果更优。
表2
方法 R=1 R=5 R=10 mAP
骨干模型 80.7% 89.7% 92.6% 71.0%
空间注意力 80.9% 89.1% 94.2% 73.4%
通道注意力 81.3% 89.9% 92.6% 73.8%
混合注意力 82.7% 91.6% 94.6% 75.2%
综上所述,本发明上述实施例提供的基于混合注意力机制的群组行人重识别方法,以卷积神经网络为基础,加入混合注意力模型,将对群组重识别存在的多种挑战,采用通道注意力、空间注意力在内的多种注意力机制,通过混合注意力模型对网络特征的提取,可以得到更有分辨度的特征向量,更好地完整群组的重识别任务;通过多实例学习方法,在原有数据集不变的基础下改变了输入元素,从视频变为视频片段,不仅使网络训练拜托数据集不充分的限制,而且使测试阶段能够比较精确地定位到异常发生地片段,提升了异常检测的鲁棒性;通过注意力模型捕获特征内部的全局依赖,对特征进行修正,以更合理的形态参与整体网络的训练;最终提高了方法的普适性。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (10)

1.一种基于混合注意力机制的群组行人重识别方法,其特征在于,包括:
S1:基于深度卷积神经网络,形成群组行人重识别任务的骨干模型特征提取网络P,将整个群组行人重识别数据集上的图像对得到的骨干模型特征提取网络P进行应用,对群组行人的每一个图像s,均经过骨干模型特征提取网络P生成特征向量E;
S2:在骨干模型特征提取网络P的基础上,加入混合注意力机制网络H,对已初步提取的特征进行进一步提取;其中,混合注意力机制网络H包括通道注意力模块C和空间注意力模块S,所述通道注意力模块C和空间注意力模块S分别作用于特征向量E不同维度上的特征;
S3:通过混合注意力机制网络H捕获特征向量E的全局依赖,每一个输入的特征向量E分别经过混合注意力机制网络H中的通道注意力模块C和空间注意力模块S处理后得到注意力参数w1和w2,注意力参数w1和w2分别为通道注意力参数和空间注意力参数;
S4:应用S3获得的图像特征经混合注意力机制网络H获得的通道维度和位置维度的注意力参数w1和w2,得到特征向量E的整体注意力权重w;
S5:将特征向量E和注意力权重w相乘,即将群组行人图像特征的通道和位置维度分别乘以注意力参数w1和w2,得到更多地关注群组行人图像的关键区域的特征F;
S6:对已提取的图像特征F与检测目标的特征进行匹配;在距离度量阶段采用最小二乘残差距离,最小二乘残差距离中的检测目标和匹配对象经骨干模型特征提取网络P和混合注意力机制网络H提取后的特征分别为Y和X,通过学习多项式拟合函数
Figure FDA0002189464980000011
来近似接近真实检测目标的特征Y;
所述多项式拟合函数
Figure FDA0002189464980000012
表示为
Figure FDA0002189464980000013
其中A为匹配对象的特征X扩展为矩阵的形式,W为多项式拟合函数的系数;
S7:在多项式拟合函数
Figure FDA0002189464980000014
中加入正则化项;
S8:使用最小二乘法对加入正则化项的多项式拟合函数进行求解,找到最佳的多项式拟合函数的系数W;
S9:将多项式拟合函数
Figure FDA0002189464980000023
的拟合结果与经骨干模型特征提取网络P提取的特征Y的差值构成的函数
Figure FDA0002189464980000022
作为距离对经过混合注意力机制网络H提取的特征X进行比对和评估。
2.根据权利要求1所述的基于混合注意力机制的群组行人重识别方法,其特征是:S1中,所述群组行人重识别任务的骨干模型特征提取网络P主要由深度卷积神经网络组成,输出群组行人的每一个图像s的初步特征。
3.根据权利要求1所述的基于混合注意力机制的群组行人重识别方法,其特征是:S2中,同时采用空间注意力机制和通道注意力机制完成对于群组行人的每一个图像s特征的进一步提取。
4.根据权利要求1所述的基于混合注意力机制的群组行人重识别方法,其特征是:S3中,所述混合注意力机制网络H中:
对于通道注意力模块C,首先对特征向量进行全局池化操作,计算公式如下,
Figure FDA0002189464980000021
其中,X表示骨干模型特征提取网络P提取的特征,h,w,c分别表示注意力模块C的输入向量在三个维度上的长度;将特征向量进行全局池化后,特征就变成和通道数量一样的长度,同时表示了不同特征通道的注意力权重,然后将全局池化得到的特征向量分别送入两个全连接层;
对于空间注意力模块S,首先在通道维度上对特征向量进行池化,并通过核大小为1×1,步长为1的全连接层用于学习网络在长宽两个维度上的注意力权重;最后将空间注意力和通道注意力的结果作为权重作用于原特征,得到更有分辨力的特征。
5.根据权利要求1所述的基于混合注意力机制的群组行人重识别方法,其特征是:S4中,通道注意力参数w1存在一个维度,空间注意力参数w2存在两个不同维度;将注意力参数w1和w2进行合并后获得在h,w,c三个维度上存在注意力权重的参数w;h,w,c分别表示注意力模块C的输入向量在三个维度上的长度。
6.根据权利要求1所述的基于混合注意力机制的群组行人重识别方法,其特征是:S5中,特征F为加入混合注意力机制后得到的群组图像的特征,通过未加入混合注意力机制的特征向量E与体注意力权重w的相乘得到。
7.根据权利要求1所述的基于混合注意力机制的群组行人重识别方法,其特征是:S7中,加入正则化项之后的多项式拟合函数为:
8.根据权利要求1所述的基于混合注意力机制的群组行人重识别方法,其特征是:S6中,将特征X=(x1,x2,x3,……,xd)扩展为矩阵的形式为,
Figure FDA0002189464980000032
其中d是特征X的维度。
9.根据权利要求1所述的基于混合注意力机制的群组行人重识别方法,其特征是:S8中,使用最小二乘法对加入正则化项的多项式拟合函数进行求解最佳的多项式拟合函数的系数W的等式为,
W=(ATA+βI)-1ATY (4)
10.根据权利要求1所述的基于混合注意力机制的群组行人重识别方法,其特征是:S9中,函数
Figure FDA0002189464980000034
作为距离对已经过混合注意力模型的特征进行比对和评估。
CN201910827179.0A 2019-09-03 2019-09-03 一种基于混合注意力机制的群组行人重识别方法 Pending CN110751018A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910827179.0A CN110751018A (zh) 2019-09-03 2019-09-03 一种基于混合注意力机制的群组行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910827179.0A CN110751018A (zh) 2019-09-03 2019-09-03 一种基于混合注意力机制的群组行人重识别方法

Publications (1)

Publication Number Publication Date
CN110751018A true CN110751018A (zh) 2020-02-04

Family

ID=69276006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910827179.0A Pending CN110751018A (zh) 2019-09-03 2019-09-03 一种基于混合注意力机制的群组行人重识别方法

Country Status (1)

Country Link
CN (1) CN110751018A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111289853A (zh) * 2020-02-25 2020-06-16 安徽炬视科技有限公司 一种基于通道-空间注意力机制的绝缘子检测系统及算法
CN111461038A (zh) * 2020-04-07 2020-07-28 中北大学 一种基于分层多模式注意力机制的行人再识别方法
CN111639564A (zh) * 2020-05-18 2020-09-08 华中科技大学 一种基于多注意力异构网络的视频行人重识别方法
CN112489098A (zh) * 2020-12-09 2021-03-12 福建农林大学 一种基于空间通道注意力机制神经网络的图像匹配方法
CN113239784A (zh) * 2021-05-11 2021-08-10 广西科学院 一种基于空间序列特征学习的行人重识别系统及方法
CN113393496A (zh) * 2021-07-05 2021-09-14 中国电子科技集团公司第二十八研究所 一种基于时空注意力机制的目标跟踪方法
CN113449131A (zh) * 2021-06-29 2021-09-28 山东建筑大学 基于多特征信息捕捉和相关性分析的物品图像重识别方法
CN114092477A (zh) * 2022-01-21 2022-02-25 浪潮云信息技术股份公司 一种图像篡改检测方法、装置及设备
CN114581858A (zh) * 2022-05-06 2022-06-03 中科智为科技(天津)有限公司 一种小股人群重识别方法及模型训练方法
CN111539336B (zh) * 2020-04-25 2023-06-20 长治学院 一种提高局部注意力的行人重识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180374233A1 (en) * 2017-06-27 2018-12-27 Qualcomm Incorporated Using object re-identification in video surveillance
CN109711366A (zh) * 2018-12-29 2019-05-03 浙江大学 一种基于群组信息损失函数的行人重识别方法
CN109829430A (zh) * 2019-01-31 2019-05-31 中科人工智能创新技术研究院(青岛)有限公司 基于异构层次化注意机制的跨模态行人再识别方法及系统
CN110188611A (zh) * 2019-04-26 2019-08-30 华中科技大学 一种引入视觉注意力机制的行人重识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180374233A1 (en) * 2017-06-27 2018-12-27 Qualcomm Incorporated Using object re-identification in video surveillance
CN109711366A (zh) * 2018-12-29 2019-05-03 浙江大学 一种基于群组信息损失函数的行人重识别方法
CN109829430A (zh) * 2019-01-31 2019-05-31 中科人工智能创新技术研究院(青岛)有限公司 基于异构层次化注意机制的跨模态行人再识别方法及系统
CN110188611A (zh) * 2019-04-26 2019-08-30 华中科技大学 一种引入视觉注意力机制的行人重识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QILING XU ET AL: "Group Re-Identification with Hybrid Attention Model and Residual Distance", 《2019 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111289853A (zh) * 2020-02-25 2020-06-16 安徽炬视科技有限公司 一种基于通道-空间注意力机制的绝缘子检测系统及算法
CN111461038A (zh) * 2020-04-07 2020-07-28 中北大学 一种基于分层多模式注意力机制的行人再识别方法
CN111539336B (zh) * 2020-04-25 2023-06-20 长治学院 一种提高局部注意力的行人重识别方法
CN111639564B (zh) * 2020-05-18 2022-05-27 华中科技大学 一种基于多注意力异构网络的视频行人重识别方法
CN111639564A (zh) * 2020-05-18 2020-09-08 华中科技大学 一种基于多注意力异构网络的视频行人重识别方法
CN112489098A (zh) * 2020-12-09 2021-03-12 福建农林大学 一种基于空间通道注意力机制神经网络的图像匹配方法
CN112489098B (zh) * 2020-12-09 2024-04-09 福建农林大学 一种基于空间通道注意力机制神经网络的图像匹配方法
CN113239784A (zh) * 2021-05-11 2021-08-10 广西科学院 一种基于空间序列特征学习的行人重识别系统及方法
CN113449131A (zh) * 2021-06-29 2021-09-28 山东建筑大学 基于多特征信息捕捉和相关性分析的物品图像重识别方法
CN113449131B (zh) * 2021-06-29 2022-06-03 山东建筑大学 基于多特征信息捕捉和相关性分析的物品图像重识别方法
WO2023273290A1 (zh) * 2021-06-29 2023-01-05 山东建筑大学 基于多特征信息捕捉和相关性分析的物品图像重识别方法
CN113393496A (zh) * 2021-07-05 2021-09-14 中国电子科技集团公司第二十八研究所 一种基于时空注意力机制的目标跟踪方法
CN114092477A (zh) * 2022-01-21 2022-02-25 浪潮云信息技术股份公司 一种图像篡改检测方法、装置及设备
CN114581858A (zh) * 2022-05-06 2022-06-03 中科智为科技(天津)有限公司 一种小股人群重识别方法及模型训练方法
CN114581858B (zh) * 2022-05-06 2022-08-23 中科智为科技(天津)有限公司 一种小股人群重识别方法及模型训练方法

Similar Documents

Publication Publication Date Title
CN110751018A (zh) 一种基于混合注意力机制的群组行人重识别方法
CN110765841A (zh) 基于混合注意力机制的群组行人重识别系统及终端
Chen et al. Partition and reunion: A two-branch neural network for vehicle re-identification.
CN108960141B (zh) 基于增强型深度卷积神经网络的行人再识别方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN112183468A (zh) 一种基于多注意力联合多级特征的行人再识别方法
Tang et al. Multi-modal metric learning for vehicle re-identification in traffic surveillance environment
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
CN111310633A (zh) 基于视频的并行时空注意力行人重识别方法
CN113822246A (zh) 一种基于全局参考注意力机制的车辆重识别方法
CN113239885A (zh) 一种人脸检测与识别方法及系统
CN111274988B (zh) 一种基于多光谱的车辆重识别方法及装置
CN113269099B (zh) 基于图匹配的异构无人系统下车辆重新识别方法
CN114519863A (zh) 人体重识别方法、人体重识别装置、计算机设备及介质
CN116824641B (zh) 姿态分类方法、装置、设备和计算机存储介质
Xia et al. Abnormal event detection method in surveillance video based on temporal CNN and sparse optical flow
CN115393788B (zh) 一种基于增强全局信息注意力的多尺度监控行人重识别方法
Huang et al. Temporally-aggregating multiple-discontinuous-image saliency prediction with transformer-based attention
CN114219901A (zh) 基于投影一致性和孪生Transformer的三维底盘投影方法
CN1936924A (zh) 基于统计不相关和正交特性的局部保留映射人脸识别方法
CN114639156B (zh) 基于轴向注意力权重分配网络的俯角人脸识别方法及系统
CN112528733B (zh) 一种基于改进inceptionv3网络的人体异常行为识别方法
CN115240121B (zh) 一种用于增强行人局部特征的联合建模方法和装置
CN115761444B (zh) 一种非完整信息目标识别模型的训练方法及目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200204

WD01 Invention patent application deemed withdrawn after publication