CN112784648B - 一种优化视频行人重识别系统特征提取的方法及装置 - Google Patents

一种优化视频行人重识别系统特征提取的方法及装置 Download PDF

Info

Publication number
CN112784648B
CN112784648B CN201911092071.8A CN201911092071A CN112784648B CN 112784648 B CN112784648 B CN 112784648B CN 201911092071 A CN201911092071 A CN 201911092071A CN 112784648 B CN112784648 B CN 112784648B
Authority
CN
China
Prior art keywords
vector
feature
relation
module
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911092071.8A
Other languages
English (en)
Other versions
CN112784648A (zh
Inventor
李厚强
周文罡
李星泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201911092071.8A priority Critical patent/CN112784648B/zh
Publication of CN112784648A publication Critical patent/CN112784648A/zh
Application granted granted Critical
Publication of CN112784648B publication Critical patent/CN112784648B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种优化视频行人重识别系统特征提取的方法及装置,方法包括:构建输入视频片段,对于两个特征使用关系模块,计算两个向量间的关系向量信息;对于N个特征,使用全局关系向量模块整合每个特征和N个特征之间的关系向量,得到全局关系向量;对输入视频片段中的每张图像,通过卷积神经网络和关系引导的空间注意力模块组成的空域特征提取器,输出图像的特征向量;对于一个含T帧图像的输入视频片段,使用关系引导的时域特征精炼模块将图像的特征融合成视频的特征;使用交叉熵损失函数和自适应权重三元组损失函数作为优化函数,对网络参数进行优化。本发明能够在空域上能关注更多有区分性的区域,在时域上能精炼各个图像的特征。

Description

一种优化视频行人重识别系统特征提取的方法及装置
技术领域
本发明涉及视频行人重识别系统技术领域,尤其涉及一种优化视频行人重识别系统特征提取的方法及装置。
背景技术
行人重识别的目的是通过计算机设计一定的算法,匹配多个摄像头拍摄的行人的图像,并且在大多数情况下,这些相机的视野是不重叠的。这项研究在视频监控,公共安全,智慧城市等领域有着重要的应用前景,例如跟踪嫌疑犯,在公共场所寻人,用户轨迹与行为分析等等。
由于视角、光照和行人姿态的变化,以及模糊、遮挡和背景等因素的影响,这一任务具有很大的挑战性。根据数据类型是图像还是视频,行人重识别进一步分为两个子任务,基于图像的行人重识别和基于视频的行人重识别。相比于图像,视频序列可以在很长的时间内包含丰富的上下文信息。此外,视频中还可能包含干净和信息丰富的内容,从而降低噪音对系统性能的影响。
视频行人重识别系统主要分为两个部分,分别是图像上空域特征提取模块和视频内时域特征融合模块。空域特征提取模块提取图像的具有区分性的关键视觉信息,将图像转化为数字化的特征表达。时域特征融合模块负责对视频中图像的特征进行时域上的建模,并将其融合成固定长度的特征表达。
在现有的视频行人重识别方法中,基于深度神经网络的方法取得了很好的结果。基于深度神经网络的行人重识别方法通常由特征提取模块和特征融合模块组成。特征提取模块,通常采用卷积神经网络(Convolutional Neural Network,CNN)提取图像的特征表达。特征融合模块,有多种时域建模的方法,如循环神经网络(RecurrentNeural Network,RNN),递归精炼单元(Refining RecurrentUnit,RRU),区域质量评价网络(Region-basedQuality Estimation Network,RQEN)和多尺度三维卷积网络(Multi-scale 3DConvolution Network,M3D),将视频内多帧图像的特征融合成一个视频的特征表达。
由此可以看出,现有的特征提取模块通常采用卷积神经网络学习空域注意力。卷积网络对局部的信息进行处理,缺乏对空域整体信息的建模,因此不能很好的促使系统关注更具区分性的前景区域。现有的特征融合模块采用时域卷积操作或循环神经网络,这些模块更多关注短时的信息,没有充分利用数据间的长时依赖,缺乏对时域整体信息的建模,以及对时域特征的有效精炼。
发明内容
有鉴于此,本发明提供了一种优化视频行人重识别系统特征提取的方法,能够对整体的信息进行建模,使优化视频行人重识别系统能在空域上关注更多有区分性的区域,在时域上能精炼各个图像的特征,从而提高优化视频行人重识别系统的性能。
本发明提供了一种优化视频行人重识别系统特征提取的方法,包括:
构建输入视频片段;
对于两个特征使用关系模块,计算两个向量间的关系向量信息;
对于N个特征,使用全局关系向量模块整合每个特征和N个特征之间的关系向量,得到全局关系向量;
对所述输入视频片段中的每张图像,通过卷积神经网络和关系引导的空间注意力模块组成的空域特征提取器,输出图像的特征向量;
对于一个含T帧图像的输入视频片段,使用关系引导的时域特征精炼模块将图像的特征融合成视频的特征;
使用交叉熵损失函数和自适应权重三元组损失函数作为优化函数,对网络参数进行优化。
优选地,所述构建输入视频片段包括:
在一个拥有L帧的视频中随机采样T帧图像,构成一个输入视频片段。
优选地,所述对于两个特征使用关系模块,计算两个向量间的关系向量信息,包括:
分别通过全连接层、批归一化和线性整流函数对两个特征进行降维;
计算两个特征的逐元素差;
基于所述逐元素差,通过一个全连接层、批归一化和线性整流函数得到两个向量间的关系向量。
优选地,所述对所述输入视频片段中的每张图像,通过卷积神经网络和关系引导的空间注意力模块组成的空域特征提取器,输出图像的特征向量,包括:
对所述输入视频片段中的每张图像,通过卷积神经网络提取图像的特征图;
基于所述特征图,通过关系引导的空间注意力模块学习空间的注意力,提取出图像的特征向量。
一种优化视频行人重识别系统特征提取的装置,包括:
构建模块,用于构建输入视频片段;
关系模块,用于对于两个特征计算两个向量间的关系向量信息;
全局关系向量模块,用于对于N个特征整合每个特征和N个特征之间的关系向量,得到全局关系向量;
通过卷积神经网络和关系引导的空间注意力模块组成的空域特征提取器,用于对所述输入视频片段中的每张图像输出图像的特征向量;
关系引导的时域特征精炼模块,用于对于一个含T帧图像的输入视频片段将图像的特征融合成视频的特征;
优化模块,用于使用交叉熵损失函数和自适应权重三元组损失函数作为优化函数,对网络参数进行优化。
优选地,所述构建模块在执行构建输入视频片段时,具体用于:
在一个拥有L帧的视频中随机采样T帧图像,构成一个输入视频片段。
优选地,所述关系模块在执行对于两个特征计算两个向量间的关系向量信息时,具体用于:
分别通过全连接层、批归一化和线性整流函数对两个特征进行降维;
计算两个特征的逐元素差;
基于所述逐元素差,通过一个全连接层、批归一化和线性整流函数得到两个向量间的关系向量。
优选地,所述通过卷积神经网络和关系引导的空间注意力模块组成的空域特征提取器在执行对所述输入视频片段中的每张图像输出图像的特征向量时,具体用于:
对所述输入视频片段中的每张图像,通过卷积神经网络提取图像的特征图;
基于所述特征图,通过关系引导的空间注意力模块学习空间的注意力,提取出图像的特征向量。
综上所述,本发明公开了一种优化视频行人重识别系统特征提取的方法,包括:构建输入视频片段,对于两个特征使用关系模块,计算两个向量间的关系向量信息;对于N个特征,使用全局关系向量模块整合每个特征和N个特征之间的关系向量,得到全局关系向量;对输入视频片段中的每张图像,通过卷积神经网络和关系引导的空间注意力模块组成的空域特征提取器,输出图像的特征向量;对于一个含T帧图像的输入视频片段,使用关系引导的时域特征精炼模块将图像的特征融合成视频的特征;使用交叉熵损失函数和自适应权重三元组损失函数作为优化函数,对网络参数进行优化。本发明能够对整体的信息进行建模,使优化视频行人重识别系统能在空域上关注更多有区分性的区域,在时域上能精炼各个图像的特征,从而提高优化视频行人重识别系统的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开的一种优化视频行人重识别系统特征提取的方法实施例1的方法流程图;
图2为本发明公开的关系模块(RM)和全局关系向量模块(GRV)的结构图;
图3为本发明公开的关系引导的空间注意力模块的结构图;
图4为本发明公开的关系引导的时域特征精炼模块的结构图;
图5为本发明公开的一种优化视频行人重识别系统特征提取的装置实施例1的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明公开的一种优化视频行人重识别系统特征提取的方法实施例1的方法流程图,所述方法可以包括以下步骤:
S101、构建输入视频片段;
首先,在一个拥有L帧的视频中随机采样T帧图像,构成一个输入视频片段。每批数据由P个不同的人且每个人K个不同的输入视频片段组成。
S102、对于两个特征使用关系模块,计算两个向量间的关系向量信息;
如图2所示,对于两个特征f1,f2,使用关系模块(Relation Module,RM)计算两个向量间的关系向量信息。
首先,计算两个嵌入特征的逐元素差,
Figure BDA0002263986360000068
其中θ,
Figure BDA0002263986360000061
是两个嵌入函数,由全连接层(Fully Connected Layer,FC)、批归一化(Batch Normalization,BN)和线性整流函数(Rectified Linear Unit,ReLU)组成,即:
θ(f1)=ReLU(BN(Wθf2)),
Figure BDA0002263986360000062
其中
Figure BDA0002263986360000063
将原特征的通道数由C降维成C/r1,然后通过一个全连接层、批归一化和线性整流函数得到关系向量r1,2
r1,2=RM(f1,f2)=ReLU(BN(Wfdiff)),
其中
Figure BDA0002263986360000064
最终输出特征向量的维度为C/r2
S103、对于N个特征,使用全局关系向量模块整合每个特征和N个特征之间的关系向量,得到全局关系向量;
如图2所示,对于N个特征
Figure BDA0002263986360000065
使用全局关系向量模块(Global RelationVector,GRV)整合每个特征fi和N个特征之间的关系向量,得到全局关系向量
Figure BDA0002263986360000066
Figure BDA0002263986360000067
其中ri,j=RM(fi,fj)为关系模块计算两个特征间的关系向量,Concat表示将多个向量拼接成一个向量,全局关系向量的维度为NC/r2
S104、对输入视频片段中的每张图像,通过卷积神经网络和关系引导的空间注意力模块组成的空域特征提取器,输出图像的特征向量;
如图3所示,对每张图像,通过卷积神经网络提取图像的特征图
Figure BDA0002263986360000071
Figure BDA0002263986360000072
其中C、H、W分别表示特征图的通道数、高度和宽度。再通过关系引导的空间注意力模块,学习空间的注意力,提取图像的特征向量f。特征图包含N(N=H×W)个不同的空间位置。调整特征图X的维度为
Figure BDA0002263986360000073
其中
Figure BDA0002263986360000074
表示在第i个位置的特征向量。使用全局关系向量模块计算出的每个位置的特征向量与所有特征间的全局关系向量
Figure BDA0002263986360000075
Figure BDA0002263986360000076
将全局关系向量与原特征向量拼接在一起,并通过全连接层、批归一化层和S型函数(Sigmoid)将其映射为注意力分数ai
Figure BDA0002263986360000077
其中
Figure BDA0002263986360000078
和原特征向量
Figure BDA0002263986360000079
有相同的维度,ai表示第i个特征每个通道的重要性。因此每张图像的特征向量f:
Figure BDA00022639863600000710
S105、对于一个含T帧图像的输入视频片段,使用关系引导的时域特征精炼模块将图像的特征融合成视频的特征;
如图4所示,对于一个含T帧图像的输入视频片段,使用关系引导的时域特征精炼模块将图像的特征
Figure BDA00022639863600000711
融合成视频的特征
Figure BDA00022639863600000712
使用全局关系向量模块计算出的每帧的特征ft和所有帧特征之间的全局关系向量
Figure BDA00022639863600000713
Figure BDA00022639863600000714
将全局关系向量与原特征向量拼接在一起,并通过全连接层和批归一化层将其映射为精炼后的特征:
Figure BDA00022639863600000715
其中
Figure BDA0002263986360000081
和原特征向量ft有相同的维度,
Figure BDA0002263986360000082
表示ft精炼后的特征。视频的特征
Figure BDA0002263986360000083
为:
Figure BDA0002263986360000084
S106、使用交叉熵损失函数和自适应权重三元组损失函数作为优化函数,对网络参数进行优化。
最后,使用交叉熵损失函数和自适应权重三元组损失函数作为优化函数,对网络参数进行优化。至此,优化完成,得到最终的行人重识别系统。
综上所述,本发明在空间上能关注整体的信息,从而使得特征提取模块能更好的提取有区分性的前景区域的信息。在时域上,能够使得每张图像的特征之间相互补充与促进,从而得到精炼后的视频特征表达。对整个神经网络进行端到端的优化,使得多个模块可以更好的耦合,进一步优化了系统的识别率。
如图5所示,为本发明公开的一种优化视频行人重识别系统特征提取的装置的结构示意图,所述装置可以包括:
构建模块51,用于构建输入视频片段;
首先,在一个拥有L帧的视频中随机采样T帧图像,构成一个输入视频片段。每批数据由P个不同的人且每个人K个不同的输入视频片段组成。
关系模块52,用于对于两个特征计算两个向量间的关系向量信息;
如图2所示,对于两个特征f1,f2,使用关系模块(Relation Module,RM)计算两个向量间的关系向量信息。
首先,计算两个嵌入特征的逐元素差,
Figure BDA0002263986360000085
其中θ,
Figure BDA0002263986360000091
是两个嵌入函数,由全连接层(Fully Connected Layer,FC)、批归一化(Batch Normalization,BN)和线性整流函数(Rectified Linear Unit,ReLU)组成,即:
θ(f1)=ReLU(BN(Wθf2)),
Figure BDA0002263986360000092
其中
Figure BDA0002263986360000093
将原特征的通道数由C降维成C/r1,然后通过一个全连接层、批归一化和线性整流函数得到关系向量r1,2
r1,2=RM(f1,f2)=ReLU(BN(Wfdiff)),
其中
Figure BDA0002263986360000094
最终输出特征向量的维度为C/r2
全局关系向量模块53,用于对于N个特征整合每个特征和N个特征之间的关系向量,得到全局关系向量;
如图2所示,对于N个特征
Figure BDA0002263986360000095
使用全局关系向量模块(Global RelationVector,GRV)整合每个特征fi和N个特征之间的关系向量,得到全局关系向量
Figure BDA0002263986360000096
Figure BDA0002263986360000097
其中ri,j=RM(fi,fj)为关系模块计算两个特征间的关系向量,Concat表示将多个向量拼接成一个向量,全局关系向量的维度为NC/r2
通过卷积神经网络541和关系引导的空间注意力模块542组成的空域特征提取器54,用于对所述输入视频片段中的每张图像输出图像的特征向量;
如图3所示,对每张图像,通过卷积神经网络提取图像的特征图
Figure BDA0002263986360000098
Figure BDA0002263986360000099
其中C、H、W分别表示特征图的通道数、高度和宽度。再通过关系引导的空间注意力模块,学习空间的注意力,提取图像的特征向量f。特征图包含N(N=H×W)个不同的空间位置。调整特征图X的维度为
Figure BDA00022639863600000910
其中
Figure BDA00022639863600000911
表示在第i个位置的特征向量。使用全局关系向量模块计算出的每个位置的特征向量与所有特征间的全局关系向量
Figure BDA00022639863600000912
Figure BDA0002263986360000101
将全局关系向量与原特征向量拼接在一起,并通过全连接层、批归一化层和S型函数(Sigmoid)将其映射为注意力分数ai
Figure BDA0002263986360000102
其中
Figure BDA0002263986360000103
和原特征向量
Figure BDA0002263986360000104
有相同的维度,ai表示第i个特征每个通道的重要性。因此每张图像的特征向量f:
Figure BDA0002263986360000105
关系引导的时域特征精炼模块55,用于对于一个含T帧图像的输入视频片段将图像的特征融合成视频的特征;
如图4所示,对于一个含T帧图像的输入视频片段,使用关系引导的时域特征精炼模块将图像的特征
Figure BDA0002263986360000106
融合成视频的特征
Figure BDA0002263986360000107
使用全局关系向量模块计算出的每帧的特征ft和所有帧特征之间的全局关系向量
Figure BDA0002263986360000108
Figure BDA0002263986360000109
将全局关系向量与原特征向量拼接在一起,并通过全连接层和批归一化层将其映射为精炼后的特征:
Figure BDA00022639863600001010
其中
Figure BDA00022639863600001011
和原特征向量ft有相同的维度,
Figure BDA00022639863600001012
表示ft精炼后的特征。视频的特征
Figure BDA00022639863600001013
为:
Figure BDA00022639863600001014
优化模块56,用于使用交叉熵损失函数和自适应权重三元组损失函数作为优化函数,对网络参数进行优化。
最后,使用交叉熵损失函数和自适应权重三元组损失函数作为优化函数,对网络参数进行优化。至此,优化完成,得到最终的行人重识别系统。
综上所述,本发明在空间上能关注整体的信息,从而使得特征提取模块能更好的提取有区分性的前景区域的信息。在时域上,能够使得每张图像的特征之间相互补充与促进,从而得到精炼后的视频特征表达。对整个神经网络进行端到端的优化,使得多个模块可以更好的耦合,进一步优化了系统的识别率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (4)

1.一种优化视频行人重识别系统特征提取的方法,其特征在于,包括:
构建输入视频片段;
对于两个特征向量f1,f2,使用关系模块计算两个特征向量间的关系向量信息,包括:计算两个向量特征的逐元素差,
Figure FDA0003678984520000011
Figure FDA0003678984520000012
其中,θ,
Figure FDA0003678984520000013
是嵌入函数,由全连接层(Fully Connected Layer,FC)、批归一化(BatchNormalization,BN)和线性整流函数(Rectified Linear Unit,ReLU)组成,
Figure FDA0003678984520000014
用于将特征向量的通道数由C降维成C/r1;通过全连接层、批归一化和线性整流函数得到关系向量r1,2:r1,2=RM(f1,f2)=ReLU(BN(Wfdiff)),其中,
Figure FDA0003678984520000015
输出特征向量的维度为C/r2,r1和r2为预设的降维系数;
对于N个特征向量
Figure FDA0003678984520000016
使用全局关系向量模块整合每个特征向量fi和N个特征向量之间的关系向量,得到全局关系向量
Figure FDA00036789845200000112
Figure FDA0003678984520000017
Figure FDA0003678984520000018
其中,ri,j=RM(fi,fj)为关系模块计算的两个特征向量间的关系向量,Concat表示将多个关系向量拼接成一个向量,全局关系向量的维度为NC/r2
对所述输入视频片段中的每张图像,通过卷积神经网络和关系引导的空间注意力模块组成的空域特征提取器,输出图像的特征向量,包括:
对所述输入视频片段中的每张图像,通过卷积神经网络提取图像的特征图
Figure FDA0003678984520000019
其中,C、H、W分别表示特征图的通道数、高度和宽度,所述特征图包含N个不同的空间位置,N=H×W;
基于所述特征图,通过关系引导的空间注意力模块学习空间的注意力,提取出图像的特征向量,包括:调整特征图X的维度为
Figure FDA00036789845200000110
其中,
Figure FDA00036789845200000111
表示在第i个空间位置的特征向量;对于两个空间位置的特征向量,调用计算关系模块计算两个特征向量间的关系向量;对于N个空间位置的特征向量,调用全局关系向量模块整合每个空间位置的特征向量和N个特征向量之间的关系向量,得到全局关系向量
Figure FDA0003678984520000021
将全局关系向量与原特征向量进行拼接,通过全连接层、批归一化层和S型函数(Sigmoid)将拼接得到的向量特征映射为注意力分数ai
Figure FDA0003678984520000022
其中,
Figure FDA0003678984520000023
Figure FDA0003678984520000024
和原特征向量
Figure FDA0003678984520000025
有相同的维度,ai表示第i个特征每个通道的重要性;每帧图像的特征向量
Figure FDA00036789845200000216
对于一个含T帧图像的输入视频片段,使用关系引导的时域特征精炼模块将图像的特征
Figure FDA0003678984520000027
融合成视频的特征
Figure FDA0003678984520000028
包括:对于两帧图像的特征向量,调用计算关系模块计算两帧图像的特征向量间的关系向量;调用全局关系向量模块整合每帧图像的特征向量ft和T帧图像的特征向量之间的关系向量,得到全局关系向量
Figure FDA0003678984520000029
将全局关系向量与原特征向量拼接在一起,并通过全连接层和批归一化层将拼接后的向量映射为该帧图像精炼后的特征
Figure FDA00036789845200000210
其中,
Figure FDA00036789845200000211
Figure FDA00036789845200000212
和原特征向量ft有相同的维度,
Figure FDA00036789845200000213
表示ft精炼后的特征;视频的特征
Figure FDA00036789845200000214
为:
Figure FDA00036789845200000215
使用交叉熵损失函数和自适应权重三元组损失函数作为优化函数,对网络参数进行优化。
2.根据权利要求1所述的方法,其特征在于,所述构建输入视频片段包括:
在一个拥有L帧的视频中随机采样T帧图像,构成一个输入视频片段。
3.一种优化视频行人重识别系统特征提取的装置,其特征在于,包括:
构建模块,用于构建输入视频片段;
关系模块,用于对于两个特征向量,计算两个特征向量间的关系向量信息;
其中,对于两个特征向量f1,f2,使用关系模块计算两个特征向量间的关系向量信息包括:计算两个向量特征的逐元素差,
Figure FDA0003678984520000031
Figure FDA0003678984520000032
其中,θ,
Figure FDA0003678984520000033
是嵌入函数,由全连接层(Fully Connected Layer,FC)、批归一化(BatchNormalization,BN)和线性整流函数(Rectified Linear Unit,ReLU)组成,
Figure FDA0003678984520000034
用于将特征向量的通道数由C降维成C/r1;通过全连接层、批归一化和线性整流函数得到关系向量r1,2:r1,2=RM(f1,f2)=ReLU(BN(Wfdiff)),其中,
Figure FDA0003678984520000035
输出特征向量的维度为C/r2,r1和r2为预设的降维系数;
全局关系向量模块,用于对于N个特征向量,整合每个特征向量和N个特征向量之间的关系向量,得到全局关系向量;
其中,对于N个特征向量
Figure FDA0003678984520000036
使用全局关系向量模块整合每个特征向量fi和N个特征之间的关系向量,得到全局关系向量
Figure FDA0003678984520000037
Figure FDA0003678984520000038
ri,j=RM(fi,fj)为关系模块计算的两个特征向量间的关系向量,Concat表示将多个关系向量拼接成一个向量,全局关系向量的维度为NC/r2
通过卷积神经网络和关系引导的空间注意力模块组成的空域特征提取器,用于对所述输入视频片段中的每张图像输出图像的特征向量;
其中,对所述输入视频片段中的每张图像输出图像的特征向量包括:
对所述输入视频片段中的每张图像,通过卷积神经网络提取图像的特征图
Figure FDA00036789845200000311
其中,C、H、W分别表示特征图的通道数、高度和宽度,所述特征图包含N个不同的空间位置,N=H×W;
基于所述特征图,通过关系引导的空间注意力模块学习空间的注意力,提取出图像的特征向量,包括:调整特征图X的维度为
Figure FDA0003678984520000039
其中,
Figure FDA00036789845200000310
表示在第i个空间位置的特征向量;对于两个空间位置的特征向量,调用计算关系模块计算两个特征向量间的关系向量;对于N个空间位置的特征向量,调用全局关系向量模块整合每个空间位置的特征向量和N个特征向量之间的关系向量,得到全局关系向量
Figure FDA0003678984520000041
将全局关系向量与原特征向量进行拼接,通过全连接层、批归一化层和S型函数(Sigmoid)将拼接得到的向量特征映射为注意力分数ai
Figure FDA0003678984520000042
其中,
Figure FDA0003678984520000043
Figure FDA0003678984520000044
和原特征向量
Figure FDA0003678984520000045
有相同的维度,ai表示第i个特征每个通道的重要性;每帧图像的特征向量
Figure FDA0003678984520000046
关系引导的时域特征精炼模块,用于对于一个含T帧图像的输入视频片段将图像的特征融合成视频的特征;
其中,对于一个含T帧图像的输入视频片段,使用关系引导的时域特征精炼模块将图像的特征
Figure FDA0003678984520000047
融合成视频的特征
Figure FDA0003678984520000048
包括:
对于两帧图像的特征向量,调用计算关系模块计算两帧图像的特征向量间的关系向量;调用全局关系向量模块整合每帧图像的特征向量ft和T帧图像的特征向量之间的关系向量,得到全局关系向量
Figure FDA0003678984520000049
将全局关系向量与原特征向量拼接在一起,并通过全连接层和批归一化层将拼接后的向量映射为该帧图像精炼后的特征
Figure FDA00036789845200000410
其中,
Figure FDA00036789845200000411
Figure FDA00036789845200000412
和原特征向量ft有相同的维度,
Figure FDA00036789845200000413
表示ft精炼后的特征;视频的特征
Figure FDA00036789845200000414
为:
Figure FDA00036789845200000415
优化模块,用于使用交叉熵损失函数和自适应权重三元组损失函数作为优化函数,对网络参数进行优化。
4.根据权利要求3所述的装置,其特征在于,所述构建模块在执行构建输入视频片段时,具体用于:
在一个拥有L帧的视频中随机采样T帧图像,构成一个输入视频片段。
CN201911092071.8A 2019-11-07 2019-11-07 一种优化视频行人重识别系统特征提取的方法及装置 Active CN112784648B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911092071.8A CN112784648B (zh) 2019-11-07 2019-11-07 一种优化视频行人重识别系统特征提取的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911092071.8A CN112784648B (zh) 2019-11-07 2019-11-07 一种优化视频行人重识别系统特征提取的方法及装置

Publications (2)

Publication Number Publication Date
CN112784648A CN112784648A (zh) 2021-05-11
CN112784648B true CN112784648B (zh) 2022-09-06

Family

ID=75749490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911092071.8A Active CN112784648B (zh) 2019-11-07 2019-11-07 一种优化视频行人重识别系统特征提取的方法及装置

Country Status (1)

Country Link
CN (1) CN112784648B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657249A (zh) * 2017-10-26 2018-02-02 珠海习悦信息技术有限公司 多尺度特征行人重识别的方法、装置、存储介质及处理器
WO2018121287A1 (zh) * 2016-12-30 2018-07-05 纳恩博(北京)科技有限公司 目标再识别方法和装置
CN109784166A (zh) * 2018-12-13 2019-05-21 北京飞搜科技有限公司 行人重识别的方法及装置
CN110110689A (zh) * 2019-05-15 2019-08-09 东北大学 一种行人重识别方法
CN110110601A (zh) * 2019-04-04 2019-08-09 深圳久凌软件技术有限公司 基于多时空注意力模型的视频行人重识别算法及装置
CN110188611A (zh) * 2019-04-26 2019-08-30 华中科技大学 一种引入视觉注意力机制的行人重识别方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9396412B2 (en) * 2012-06-21 2016-07-19 Siemens Aktiengesellschaft Machine-learnt person re-identification

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018121287A1 (zh) * 2016-12-30 2018-07-05 纳恩博(北京)科技有限公司 目标再识别方法和装置
CN107657249A (zh) * 2017-10-26 2018-02-02 珠海习悦信息技术有限公司 多尺度特征行人重识别的方法、装置、存储介质及处理器
CN109784166A (zh) * 2018-12-13 2019-05-21 北京飞搜科技有限公司 行人重识别的方法及装置
CN110110601A (zh) * 2019-04-04 2019-08-09 深圳久凌软件技术有限公司 基于多时空注意力模型的视频行人重识别算法及装置
CN110188611A (zh) * 2019-04-26 2019-08-30 华中科技大学 一种引入视觉注意力机制的行人重识别方法及系统
CN110110689A (zh) * 2019-05-15 2019-08-09 东北大学 一种行人重识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Spatiotemporal Attention on Sliced Parts for Video-based Person Re-identification;Xu Yang等;《2018 IEEE Visual Communications and Image Processing (VCIP)》;20190425;第1-4页 *
基于度量学习和深度学习的行人重识别研究;朱婷婷;《信息与电脑》;20190815;第131-132页 *

Also Published As

Publication number Publication date
CN112784648A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN110598610B (zh) 一种基于神经选择注意的目标显著性检测方法
CN106254933B (zh) 字幕提取方法及装置
CN109583340B (zh) 一种基于深度学习的视频目标检测方法
CN112597941B (zh) 一种人脸识别方法、装置及电子设备
EP4062363A1 (en) Methods and systems for forecasting crowd dynamics
CN111144344B (zh) 人物年龄的确定方法、装置、设备及存储介质
CN112861691A (zh) 基于部位感知建模的遮挡场景下的行人重识别方法
CN102457724B (zh) 一种图像运动检测系统及方法
Shahrian et al. Temporally coherent and spatially accurate video matting
CN111079507A (zh) 一种行为识别方法及装置、计算机装置及可读存储介质
CN110765903A (zh) 行人重识别方法、装置及存储介质
CN111091093A (zh) 一种高密度人群的数量估测方法、系统及相关装置
CN113378641A (zh) 基于深度神经网络和注意力机制的手势识别方法
CN115115540A (zh) 基于光照信息引导的无监督低光图像增强方法及装置
CN115731505A (zh) 视频显著性区域检测方法、装置、电子设备及存储介质
CN114022497A (zh) 一种图像处理方法及装置
CN111967399A (zh) 一种基于改进的Faster RCNN行为识别方法
CN109815902B (zh) 一种行人属性区域信息获取方法、装置及设备
CN111563492B (zh) 一种跌倒检测方法、跌倒检测装置及存储装置
CN112784648B (zh) 一种优化视频行人重识别系统特征提取的方法及装置
CN113010736A (zh) 一种视频分类方法、装置、电子设备及存储介质
KR101592087B1 (ko) 배경 영상의 위치를 이용한 관심맵 생성 방법 및 이를 기록한 기록 매체
CN113538523B (zh) 车位检测跟踪方法、电子设备及车辆
CN111046232B (zh) 一种视频分类方法、装置及系统
CN114445881A (zh) 人脸检测方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant