CN111160295B - 基于区域引导和时空注意力的视频行人重识别方法 - Google Patents

基于区域引导和时空注意力的视频行人重识别方法 Download PDF

Info

Publication number
CN111160295B
CN111160295B CN201911416933.8A CN201911416933A CN111160295B CN 111160295 B CN111160295 B CN 111160295B CN 201911416933 A CN201911416933 A CN 201911416933A CN 111160295 B CN111160295 B CN 111160295B
Authority
CN
China
Prior art keywords
pedestrian
feature
convolution
layer
feature vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911416933.8A
Other languages
English (en)
Other versions
CN111160295A (zh
Inventor
汪壮雄
周智恒
彭永坚
张昱晟
彭明
朱湘军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Video Star Intelligent Co ltd
GUANGZHOU VIDEO-STAR ELECTRONICS CO LTD
South China University of Technology SCUT
Original Assignee
Guangzhou Video Star Intelligent Co ltd
GUANGZHOU VIDEO-STAR ELECTRONICS CO LTD
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Video Star Intelligent Co ltd, GUANGZHOU VIDEO-STAR ELECTRONICS CO LTD, South China University of Technology SCUT filed Critical Guangzhou Video Star Intelligent Co ltd
Priority to CN201911416933.8A priority Critical patent/CN111160295B/zh
Publication of CN111160295A publication Critical patent/CN111160295A/zh
Application granted granted Critical
Publication of CN111160295B publication Critical patent/CN111160295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于区域引导和时空注意力的视频行人重识别方法,该方法先构建全局特征,基于时间注意力模型来计算视频流中每一帧所提取的全局特征,聚合得到全局特征向量;构建区域特征,将提取的行人深度特征图水平划分为四块,经由关键帧生成层生成四个区域各自的引导帧去提取对应的区域特征,结合时空注意力模型计算获得区域特征向量;待识别行人视频流的特征向量由全局特征向量和区域特征向量结合获得,与选定地理区域的视频图像的行人的特征向量对比,得到距离最小的行人目标视频流并输出最终重识别匹配结果。本发明能够解决行人视频图像成像质量差,细节损失严重,行人部位缺失而特征提取困难导致的视频行人重识别准确率不高的问题。

Description

基于区域引导和时空注意力的视频行人重识别方法
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于区域引导和时空注意力的视频行人重识别方法。
背景技术
随着人工智能领域、计算机视觉和硬件技术的不断发展,视频图像处理技术已经广泛应用于智慧城市系统、公安安防系统中。
行人重识别技术(Person Re-identification)也称行人再检索,简称为Re-ID。这是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。一般地,在监控摄像头所拍摄的监控视频中,由于摄像头分辨率通常较低,很难得到高质量清晰的人脸图片。这时人脸识别可能会失效,那么Re-ID就成为了一个非常重要的替代品技术。由于不同摄像头所拍摄的角度、光照、色差等条件会不同,因此,如何跨摄像头检索出同一行人图片就成为了Re-ID的关键。
大多已有的视频行人重识别问题算法是把视频流每一帧编码成一个向量,然后聚合所有的帧向量提取时间信息得到整个视频流的特征嵌入。但是在实践中,检测到的行人可能会被部分遮挡或者部位没有对齐,导致提取的特征表达力不强。
发明内容
本发明提出一种基于区域引导和时空注意力的视频行人重识别方法,能够使用视频流中各个区域中的关键帧引导提取特征向量,解决实际过程中行人视频图像成像质量差,细节损失严重,能够很好地对抗部位遮挡和不对齐,利用时空注意力机制有效提取视频序列中的时间和空间信息,很好地提高在复杂条件下的重识别准确率,并提高系统的鲁棒性。
为了解决上述技术问题,本发明实施例提供了一种基于区域引导和时空注意力的视频行人重识别方法,包括:
S1、使用ResNet50结构构造主干网络,作为视频流的特征图提取器;
S2、构建全局特征提取分支,基于时间注意力模型来计算视频流中每一帧所提取的全局特征的聚合表示,得到全局特征特征向量;
S3、构建区域特征提取分支,将主干网络ResNet50提取的行人深度特征图水平划分为四块,经由关键帧生成层生成四个区域各自的关键帧并将其作为引导帧去提取对应的区域特征,拼接后结合时空注意力模型计算区域特征的聚合表示,得到区域特征向量;
S4、根据步骤S2和S3获取待识别行人视频流的全局特征向量和区域特征向量,拼接后作为将待识别行人视频流的特征向量,与选定地理区域范围内的视频图像的行人的特征向量对比,比较得到距离最小的行人目标视频流并输出最终重识别匹配结果。
优选地,所述S1中视频流输入格式为:
视频流由有序的一组采样帧表示In(n=1...N),其中每一帧图像检测的都是同一个行人,图像为256*128(长*宽)的RGB图像。
优选地,所述主干网络ResNet50具体结构如下:
原始ResNet50结构截去通道数为2048的卷积块以及最后的全连接层,具体为:
从输入层至输出层依次连接为:卷积层conv1、池化层max_pooling1、卷积层conv2_1(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv2_2(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv2_3(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、ReLU激活层conv2_relu、卷积层conv3_1(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv3_2(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv3_3(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv3_4(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、ReLU激活层conv3_relu、卷积层conv4_1(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv4_2(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv4_3(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv4_4(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv4_5(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv4_6(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、ReLU激活层conv4_relu、卷积层conv5_1(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv5_2(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv5_3(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)。
优选地,所述步骤S2包括:
S2.1、对步骤S1中主干网络输出的特征图Mn(n=1,…,N),特征图尺寸为2048*8*4,做平均池化后得到N个全局特征向量Fn(n=1,…,N);
S2.2、由空间注意力模型与全局特征向量计算全局特征的聚合表示f′g,这里的空间注意力模型是使用2D卷积在空间维度上做聚合;
S2.3、全局特征的聚合表示f′g经过1×1卷积做通道压缩与融合得到全局特征的最终表示fg
S2.4、由行人重识别损失函数lid,ltriplet、反向传播训练该分支,两个损失函数具体公式分别如下:
Figure BDA0002351429090000031
其中
Figure BDA0002351429090000032
是视频流每一帧的全局特征向量,yn是全连接层预测的身份分类结果;
Figure BDA0002351429090000033
其中
Figure BDA0002351429090000034
Figure BDA0002351429090000035
分别是当前输入视频流的全局特征,与当前输入视频流同属一个行人的全局特征以及与当前输入视频流属不同行人的全局特征;
Figure BDA0002351429090000041
为取正函数,即输入小于0时置零,输入大于等于0时不变,m为裕量,取值影响所学特征向量距离是否拉得足够远。
优选地,所述步骤S3包括:
S3.1、对步骤S1中主干网络输出的特征图Mn(n=1,…,N),按高度切分成四块以后得到切块后的特征图,每一块的尺寸为2048*2*4,做平均池化后得到N*4个区域特征向量Fl,i n(n=1,…,N;i=1,2,3,4);
S3.2、对N*4个区域特征向量Fl,i n(n=1,…,N;i=1,2,3,4),通过关键帧生成层生成所切分的四个区域各自的关键帧特征向量
Figure BDA0002351429090000042
这里的关键帧生成层是在时间维度N上的最大池化层;
S3.3、对4个关键帧特征向量
Figure BDA0002351429090000043
通过1×1卷积做通道融合后,由S2.4中提到的行人重识别损失函数lid、ltriplet反向传播训练;
S3.4、用4个关键帧特征向量
Figure BDA0002351429090000044
与主干网络输出的特征图Mn(n=1,…,N)做互相关(组卷积)以后得到N*4个特征图Mn,i,随后再做平均池化得到N*4个由关键帧引导而来的区域特征向量Fl,i n(n=1,…,N;i=1,2,3,4);
S3.5、对这N*4个由关键帧引导而来的区域特征向量,通过时间注意力模型在时间维度上做聚合,时间注意力模型具体指对做互相关操作以后的特征图Mn,i进行单位化:
Figure BDA0002351429090000045
Figure BDA0002351429090000046
其中,h和w是指特征图的每一个像素点坐标;
时间维度聚合后的特征Fk,l,i为:
Figure BDA0002351429090000051
其中,
Figure BDA0002351429090000053
为哈达玛积运算;
S3.6、对时间维度聚合后的特征Fk,l,i,通过空间注意力模型在空间上做聚合,空间注意力模型具体指利用一维卷积计算每一个区域的注意力权重,再将该权重与对应区域特征向量Fk,l,i相乘以后求和,通道融合后得到最终区域特征向量fl
S3.7、对最终区域特征向量fl,由S2.4中提到的行人重识别损失函数lid、ltriplet反向传播训练。
优选地,所述步骤S4包括:
S4.1、将S2.3中提到的fg以及S3.6中提到的fl连接成最终的特征向量
Figure BDA0002351429090000054
S4.2、通过公式
Figure BDA0002351429090000052
计算特征距离。
相应地,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行任意一项所述基于区域引导和时空注意力的视频行人重识别方法。
本发明提出的基于区域引导和时空注意力的视频行人重识别方法,能够使用视频流中各个区域中的关键帧引导提取特征向量,解决实际过程中行人视频图像成像质量差,细节损失严重,能够很好地对抗部位遮挡和不对齐,利用时空注意力机制有效提取视频序列中的时间和空间信息,很好地提高在复杂条件下的重识别准确率,并提高系统的鲁棒性。
附图说明
图1是本发明中双分支网络示意图;
图2是本发明中关键帧引导产生特征图的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例公开了一种基于区域引导和时空注意力的视频行人重识别方法,具体包括下列步骤:
S1、使用ResNet50结构构造主干网络,作为视频流的特征图提取器;
S1.1、S1所述视频流输入格式为:
视频流由有序的一组采样帧表示In(n=1...N),其中每一帧图像检测的都是同一个行人,图像为256*128(长*宽)的RGB图像。
S1.2、S1所述主干网络ResNet50具体结构如下:
从输入层至输出层依次连接为:卷积层conv1、池化层max_pooling1、卷积层conv2_1(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv2_2(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv2_3(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、ReLU激活层conv2_relu、卷积层conv3_1(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv3_2(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv3_3(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv3_4(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、ReLU激活层conv3_relu、卷积层conv4_1(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv4_2(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv4_3(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv4_4(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv4_5(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv4_6(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、ReLU激活层conv4_relu、卷积层conv5_1(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv5_2(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)、卷积层conv5_3(1×1卷积,BN层,3×3卷积,BN层,1×1卷积)。
S2、构建全局特征提取分支,基于时间注意力模型来计算视频流中每一帧所提取的全局特征的聚合表示,得到特征向量fg
S2.1、对步骤S1中主干网络输出的特征图Mn(n=1,…,N),特征图尺寸为2048*8*4,做平均池化后得到N个全局特征向量Fn(n=1,…,N);
S2.2、由空间注意力模型与全局特征向量计算全局特征的聚合表示f′g,这里的空间注意力模型是使用2D卷积聚合空间维度;
S2.3、全局特征的聚合表示f′g经过1×1卷积做通道压缩与融合得到全局特征的最终表示fg
S2.4、由行人重识别损失函数lid、ltriplet反向传播训练该分支,两个损失函数具体公式分别如下:
Figure BDA0002351429090000071
其中
Figure BDA0002351429090000072
是视频流每一帧的全局特征向量,yn是全连接层预测的身份分类结果。
Figure BDA0002351429090000073
其中
Figure BDA0002351429090000074
Figure BDA0002351429090000075
分别是当前输入视频流的全局特征,与当前输入视频流同属一个行人的全局特征以及与当前输入视频流属不同行人的全局特征;
Figure BDA0002351429090000076
取正函数,即小于0置零,大于等于0不变。
S3、构建区域特征提取分支,将主干网络ResNet50提取的行人深度特征图水平划分为四块,经由关键帧(key frame)生成层生成四个区域各自的关键帧并将其作为引导帧(guide frame)去提取对应的区域特征,拼接后结合空间注意力模型计算区域特征的聚合表示,得到特征向量fl
S3.1、对步骤S1中主干网络输出的特征图Mn(n=1,…,N),按高度切分成四块以后得到切块后的特征图,每一块的尺寸为2048*2*4,做平均池化后得到N*4个区域特征向量Fl,i n(n=1,…,N;i=1,2,3,4);
S3.2、对N*4个区域特征向量Fl,i n(n=1,…,N;i=1,2,3,4),通过关键帧生成层生成所切分的四个区域各自的关键帧特征向量
Figure BDA0002351429090000081
这里的关键帧生成层是在时间维度N上的最大池化层;
S3.3、对4个关键帧特征向量
Figure BDA0002351429090000082
通过1×1卷积做通道融合后,由S2.4中提到的行人重识别损失函数lid、ltriplet反向传播训练;
S3.4、用4个关键帧特征向量
Figure BDA0002351429090000083
与主干网络输出的特征图Mn(n=1,…,N)做互相关(组卷积)以后得到N*4个特征图Mn,i,随后再做平均池化得到N*4个由关键帧引导而来的区域特征向量Fl,i n(n=1,…,N;i=1,2,3,4);
S3.5、对这N*4个由关键帧引导而来的区域特征向量,通过时间注意力模型在时间维度上做聚合,时间注意力模型具体指对做互相关操作以后的特征图Mn,i进行单位化:
Figure BDA0002351429090000084
Figure BDA0002351429090000085
其中,h和w是指特征图的每一个像素点坐标。
时间维度聚合后的特征Fk,l,i为:
Figure BDA0002351429090000086
其中,
Figure BDA0002351429090000087
为哈达玛积运算;
S3.6、对时间维度聚合后的特征Fk,l,i,通过空间注意力模型在空间上做聚合,空间注意力模型具体指利用一维卷积计算每一个区域的注意力权重,再将该权重与对应区域特征向量Fk,l,i相乘以后求和,通道融合后得到最终区域特征向量fl
S3.7、对最终区域特征向量fl,由S2.4中提到的行人重识别损失函数lid、ltriplet反向传播训练。
S4、根据步骤S2和S3获取待识别行人视频流的全局特征向量fg和区域特征向量fl,拼接后作为将待识别行人视频流的特征向量fc,与选定地理区域范围内的视频图像的行人的特征向量对比,比较得到距离最小的行人目标视频流并输出最终重识别匹配结果。
S4.1、将S2.3中提到的fg以及S3.6中提到的fl连接成最终的特征向量
Figure BDA0002351429090000092
S4.2、通过公式
Figure BDA0002351429090000091
计算特征距离。
第二实施例
本方发明第二实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一实施例中任意一项所述的基于区域引导和时空注意力的视频行人重识别方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种基于区域引导和时空注意力的视频行人重识别方法,其特征在于,包括:
步骤S1、使用ResNet50结构构造主干网络,作为视频流的特征图提取器;
步骤S2、构建全局特征提取分支,基于时间注意力模型来计算视频流中每一帧所提取的全局特征的聚合表示,得到全局特征特征向量;
所述步骤S2包括:
S2.1、对步骤S1中主干网络输出的特征图Mn(n=1,…,N),特征图尺寸为2048*8*4,做平均池化后得到N个全局特征向量Fn(n=1,…,N);
S2.2、由空间注意力模型与全局特征向量计算全局特征的聚合表示f′g,这里的空间注意力模型是使用2D卷积在空间维度上做聚合;
S2.3、全局特征的聚合表示f′g经过1×1卷积做通道压缩与融合得到全局特征的最终表示fg
S2.4、由行人重识别损失函数lid、ltriplet反向传播训练该分支,两个损失函数具体公式分别如下:
Figure FDA0004150621250000011
其中
Figure FDA0004150621250000012
是视频流每一帧的全局特征向量,yn是全连接层预测的身份分类结果;
Figure FDA0004150621250000013
其中
Figure FDA0004150621250000014
Figure FDA0004150621250000015
分别是当前输入视频流的全局特征,与当前输入视频流同属一个行人的全局特征以及与当前输入视频流属不同行人的全局特征;
Figure FDA0004150621250000016
为取正函数,即输入小于0时置零,输入大于等于0时不变,m为裕量,取值影响所学特征向量距离是否拉得足够远;
步骤S3、构建区域特征提取分支,将主干网络ResNet50提取的行人深度特征图水平划分为四块,经由关键帧生成层生成四个区域各自的关键帧并将其作为引导帧去提取对应的区域特征,拼接后结合时空注意力模型计算区域特征的聚合表示,得到区域特征向量;
所述步骤S3包括:
S3.1、对步骤S1中主干网络输出的特征图Mn(n=1,…,N),按高度切分成四块以后得到切块后的特征图,每一块的尺寸为2048*2*4,做平均池化后得到N*4个区域特征向量Fl,i n(n=1,…,N;i=1,2,3,4);
S3.2、对N*4个区域特征向量Fl,i n(n=1,…,N;i=1,2,3,4),通过关键帧生成层生成所切分的四个区域各自的关键帧特征向量
Figure FDA0004150621250000021
这里的关键帧生成层是在时间维度N上的最大池化层;
S3.3、对4个关键帧特征向量
Figure FDA0004150621250000022
通过1×1卷积做通道融合后,由S2.4中提到的行人重识别损失函数lid、ltriplet反向传播训练;
S3.4、用4个关键帧特征向量
Figure FDA0004150621250000023
与主干网络输出的特征图Mn(n=1,…,N)做互相关以后得到N*4个特征图Mn,i,随后再做平均池化得到N*4个由关键帧引导而来的区域特征向量Fl,i n(n=1,…,N;i=1,2,3,4);
S3.5、对这N*4个由关键帧引导而来的区域特征向量,通过时间注意力模型在时间维度上做聚合,时间注意力模型具体指对做互相关操作以后的特征图Mn,i进行单位化:
Figure FDA0004150621250000024
Figure FDA0004150621250000025
其中,h和w是指特征图的每一个像素点坐标;
时间维度聚合后的特征Fk,l,i为:
Figure FDA0004150621250000026
其中,
Figure FDA0004150621250000031
为哈达玛积运算;
S3.6、对时间维度聚合后的特征Fk,l,i,通过空间注意力模型在空间上做聚合,空间注意力模型具体指利用一维卷积计算每一个区域的注意力权重,再将该权重与对应区域特征向量Fk,l,i相乘以后求和,通道融合后得到最终区域特征向量fl
S3.7、对最终区域特征向量fl,由S2.4中提到的行人重识别损失函数lid、ltriplet反向传播训练;
步骤S4、根据步骤S2和S3获取待识别行人视频流的全局特征向量和区域特征向量,拼接后作为将待识别行人视频流的特征向量,与选定地理区域范围内的视频图像的行人的特征向量对比,比较得到距离最小的行人目标视频流并输出最终重识别匹配结果。
2.根据权利要求1所述基于区域引导和时空注意力的视频行人重识别方法,其特征在于,所述S1中视频流输入格式为:
视频流由有序的一组采样帧表示In(n=1...N),其中每一帧图像检测的都是同一个行人,图像为256*128(长*宽)的RGB图像。
3.根据权利要求1所述基于区域引导和时空注意力的视频行人重识别方法,其特征在于,所述主干网络为:
原始ResNet50结构截去通道数为2048的卷积块以及最后的全连接层。
4.根据权利要求1所述基于区域引导和时空注意力的视频行人重识别方法,其特征在于,所述步骤S4包括:
S4.1、将S2.3中提到的fg以及S3.6中提到的fl连接成最终的特征向量
Figure FDA0004150621250000032
S4.2、通过公式
Figure FDA0004150621250000033
计算特征距离。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至4中任意一项所述基于区域引导和时空注意力的视频行人重识别方法。
CN201911416933.8A 2019-12-31 2019-12-31 基于区域引导和时空注意力的视频行人重识别方法 Active CN111160295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911416933.8A CN111160295B (zh) 2019-12-31 2019-12-31 基于区域引导和时空注意力的视频行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911416933.8A CN111160295B (zh) 2019-12-31 2019-12-31 基于区域引导和时空注意力的视频行人重识别方法

Publications (2)

Publication Number Publication Date
CN111160295A CN111160295A (zh) 2020-05-15
CN111160295B true CN111160295B (zh) 2023-05-12

Family

ID=70560253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911416933.8A Active CN111160295B (zh) 2019-12-31 2019-12-31 基于区域引导和时空注意力的视频行人重识别方法

Country Status (1)

Country Link
CN (1) CN111160295B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860147B (zh) * 2020-06-11 2021-05-11 北京市威富安防科技有限公司 行人重识别模型优化处理方法、装置和计算机设备
CN112380395B (zh) * 2020-10-30 2022-04-22 华南理工大学 基于双流架构的图卷积网络的情感获取方法、系统及存储介质
CN112836609A (zh) * 2021-01-25 2021-05-25 山东师范大学 基于关系引导视频时空特征的人体行为识别方法及系统
CN112883880B (zh) * 2021-02-25 2022-08-19 电子科技大学 基于人体结构多尺度分割的行人属性识别方法、存储介质和终端
CN113221686B (zh) * 2021-04-27 2024-01-09 西北工业大学 一种基于时空通道注意力的目标重识别方法
CN113239784B (zh) * 2021-05-11 2022-09-30 广西科学院 一种基于空间序列特征学习的行人重识别系统及方法
CN113947782B (zh) * 2021-10-14 2024-06-07 哈尔滨工程大学 一种基于注意力机制的行人目标对齐方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019007004A1 (zh) * 2017-07-04 2019-01-10 北京大学深圳研究生院 用于行人重识别的图像特征提取方法
CN109472248A (zh) * 2018-11-22 2019-03-15 广东工业大学 一种行人重识别方法、系统及电子设备和存储介质
CN110110601A (zh) * 2019-04-04 2019-08-09 深圳久凌软件技术有限公司 基于多时空注意力模型的视频行人重识别算法及装置
CN110163110A (zh) * 2019-04-23 2019-08-23 中电科大数据研究院有限公司 一种基于迁移学习和深度特征融合的行人重识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102044914B1 (ko) * 2018-01-02 2019-11-14 중앙대학교 산학협력단 영상 처리에 있어서의 객체 재인식을 위한 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019007004A1 (zh) * 2017-07-04 2019-01-10 北京大学深圳研究生院 用于行人重识别的图像特征提取方法
CN109472248A (zh) * 2018-11-22 2019-03-15 广东工业大学 一种行人重识别方法、系统及电子设备和存储介质
CN110110601A (zh) * 2019-04-04 2019-08-09 深圳久凌软件技术有限公司 基于多时空注意力模型的视频行人重识别算法及装置
CN110163110A (zh) * 2019-04-23 2019-08-23 中电科大数据研究院有限公司 一种基于迁移学习和深度特征融合的行人重识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
仇春春 ; 杨星红 ; 程海粟 ; 郭晶晶 ; .基于特征表示的行人再识别技术综述.信息技术.2016,(07),第195-198页. *

Also Published As

Publication number Publication date
CN111160295A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111160295B (zh) 基于区域引导和时空注意力的视频行人重识别方法
US12033082B2 (en) Maintaining fixed sizes for target objects in frames
CN106162177B (zh) 视频编码方法和装置
CN100556153C (zh) 一种多视点图像的预处理方法
CN103198488B (zh) Ptz监控摄像机实时姿态快速估算方法
US11037308B2 (en) Intelligent method for viewing surveillance videos with improved efficiency
KR100560464B1 (ko) 관찰자의 시점에 적응적인 다시점 영상 디스플레이 시스템을 구성하는 방법
CN112085031A (zh) 目标检测方法及系统
KR20140074201A (ko) 추적 장치
CN113391644B (zh) 一种基于图像信息熵的无人机拍摄距离半自动寻优方法
WO2023159898A1 (zh) 一种动作识别系统、方法、装置及模型训练方法、装置、计算机设备及计算机可读存储介质
CN108090877A (zh) 一种基于图像序列的rgb-d相机深度图像修复方法
CN111915735B (zh) 一种针对视频中三维结构轮廓的深度优化方法
CN117372706A (zh) 一种多尺度可变形的人物交互关系检测方法
CN111460964A (zh) 一种广电传输机房低照度条件下运动目标检测方法
CN107330856B (zh) 一种基于投影变换和薄板样条的全景成像方法
US11044399B2 (en) Video surveillance system
CN117409204A (zh) 一种基于特征复用和两阶段自注意力的实时语义分割方法
CN110430400B (zh) 一种双目可运动摄像机的地平面区域检测方法
KR20210082901A (ko) 두 단계 U-Net 구조 기반의 어긋난 데이터를 이용한 raw에서 RGB로의 매핑 방법, 이를 수행하기 위한 기록 매체 및 장치
KR102450466B1 (ko) 영상 내의 카메라 움직임 제거 시스템 및 방법
CN113269808B (zh) 视频小目标跟踪方法和装置
CN111292357B (zh) 一种基于相关滤波的视频帧间快速运动估计方法
CN109671107B (zh) 通过对所投影一维图像轮廓进行匹配将多个相机图像对准
CN112464727A (zh) 一种基于光场相机的自适应人脸识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant