CN110781350B - 一种面向全画面监控场景的行人检索方法及系统 - Google Patents

一种面向全画面监控场景的行人检索方法及系统 Download PDF

Info

Publication number
CN110781350B
CN110781350B CN201910915717.1A CN201910915717A CN110781350B CN 110781350 B CN110781350 B CN 110781350B CN 201910915717 A CN201910915717 A CN 201910915717A CN 110781350 B CN110781350 B CN 110781350B
Authority
CN
China
Prior art keywords
pedestrian
feature
network
candidate region
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910915717.1A
Other languages
English (en)
Other versions
CN110781350A (zh
Inventor
梁超
胡必成
王晓
焦黎
白云鹏
叶力果
鲁铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201910915717.1A priority Critical patent/CN110781350B/zh
Publication of CN110781350A publication Critical patent/CN110781350A/zh
Application granted granted Critical
Publication of CN110781350B publication Critical patent/CN110781350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向全画面监控场景的行人检索方法及系统,通过卷积神经网络对关键视频帧图片和指定查询行人图片进行初步特征提取;在区域建议网络中引入空间变换器来生成行人候选区域;对行人候选区域和指定查询行人图片进行局部特征提取;计算各个行人候选区域与指定查询行人的特征相似度,得到最高相似度的行人候选区域,若相似度大于某一阈值,则判定该区域中的行人在当前视频帧中为目标行人。该方法能够有效地缓解监控场景中存在的尺度不一、视角变化等空间变换对重识别的影响,并且通过局部特征匹配能进一步提升算法鲁棒性;能够实现对全景的监控视频画面进行自动的行人检索,满足实际应用场景需求,对现代视频侦查工作有着重要意义。

Description

一种面向全画面监控场景的行人检索方法及系统
技术领域
本发明涉及监控视频检索领域,尤其涉及一种面向全画面监控场景的行人检索方法及系统。
背景技术
在跨摄像头无重叠区域对指定行人进行匹配的技术称为行人检索。当前的行人检索(又称行人重识别)技术主要包括对待查询行人图片和手工裁剪好的行人图库进行特征提取,以及通过距离度量的方式来对行人图库中的行人进行排序。但在实际视频侦查中,理想的方式是在全画面视频中对目标行人进行自动地检索,即将行人检测和行人重识别结合起来,形成一个端到端的行人检索想系统。面向全画面监控场景的行人检索方法及系统对现代警务工作提高工作效率具有重要意义。
随着深度学习在计算机视觉领域的火速发展,行人检索领域的研究人员也开始将深度学习运用其中。2017年,文献1(参见:Tong Xiao,Shuang Li,Boch ao Wang,LiangLin,Xiaogang Wang.“Joint Detection and Identification Featur e Learning forPerson Search”,IEEE Conference on Computer Vision and Patter n Recognition(CVPR),PP.3415–3424,2017.)提出了第一个基于深度学习的端到端行人检索网络,通过联合检测和识别一起进行特征学习来完成面向全画面的行人检索任务。但在监控场景中,该方法仍存在以下问题:1)监控场景中往往伴随着尺度不一、视角变化等空间变换问题,而卷积神经网络不具备空间不变性;2)在识别网络中采用全局匹配的方式,识别性能一般。
发明内容
本发明旨在至少在一定程度上解决上诉背景技术存在的问题,提出了一种面向全画面监控场景的行人检索方法,提高在监控场景下的行人检索准确率。
为达到上诉目的,本发明采用如下技术方案:一种面向全画监控场景的行人检索方法,包括以下步骤:
步骤1,对于给定的待检索视频关键帧和手动裁剪的查询行人图片,分别通过特征提取基础网络进行初步特征提取,记关键帧通过特征提取输出的基础特征图为B;
步骤2,对基础特征图B通过行人区域建议网络PRPN,Person Region ProposalsNetworks生成固定数目的行人候选区域U;
步骤3,对查询行人图片进行局部特征提取,对行人候选区域进行双通道特征提取,包括全局特征和局部特征,其中提取的全局特征用于进一步分类和回归,分别获得行人候选区域对应的分类信息和行人候选区域的位置信息,提取的局部特征用于对行人候选区域与查询行人图片通过局部匹配的方式进行相似度计算,通过欧式距离直接计算相似度;
步骤4,如果最大相似度大于设定阈值,一般设置为0.5,则将最大相似度的行人候选区域标记为目标行人,结合其分类信息和位置信息输出最终的检索结果。
进一步的,步骤1中的特征提取基础网络为ResNet50的conv1层到conv4_3层,包含卷积层、最大值池化层以及激活函数层。
进一步的,步骤2的具体实现方式如下,
步骤2.1,利用先验知识选取一系列不同尺寸和比例的k个先验框anchor;
步骤2.2,对于输入基础特征图B的每个像素点,根据anchor产生k个候选区域;
步骤2.3,使用分类器对所有行人候选区域进行分类,判断其属于行人还是背景,最后通过非极大值抑制保留128个属于行人的候选区域。
进一步的,步骤3中对查询行人图片进行局部特征提取,对行人候选区域进行双通道特征提取的具体实习方式如下,
步骤3.1,利用行人候选区域特征图U通过空间变换器产生用于进行仿射变换的系数θi,j,并组成仿射变换矩阵Aθ
步骤3.2,在空间变换器中,以采样网格G的某一点坐标
Figure GDA0003573299290000021
为自变量,Aθ为参数矩阵,通过参数化采样得到输入特征图U对应的坐标
Figure GDA0003573299290000022
步骤3.3,根据行人候选区域特征图U和采样网格映射到U上的区域,采用线性插值的方式得到对应的输出特征图V;
步骤3.4,构建全局特征网络和局部特征网络,其中全局特征网络采用Fast R-CNN架构,最后通过2个全连接层输出2个固定维度的向量;局部特征网络采用多个全局平均池化层和卷积层,得到多个固定维度的特征向量;
步骤3.5,对步骤3.5构建的全局特征网络和局部特征网络进行训练;
步骤3.6,利用训练好的局部特征网络对查询行人图片和输出特征图V进行局部特征提取,利用训练好的全局特征网络对输出特征图V进行全局特征提取。
进一步的,步骤3.2的具体实现方式如下,
对于每个行人候选区域,将对应的仿射变换参数θi,j作为采样网格的参数,对于采样网格的第i个点Gi,通过参数化采样得到输入特征图U对应的坐标,如下式所示:
Figure GDA0003573299290000031
其中,
Figure GDA0003573299290000032
表示采样网格G的第i个像素点的坐标,
Figure GDA0003573299290000033
表示输入特征图U对应的坐标。
进一步的,步骤3.3的具体实现方式如下,
根据行人候选区域特征图U和以及采样网格在U上的对应坐标
Figure GDA0003573299290000034
采用线性插值的方式的到输出特征图V,如下式所示:
Figure GDA0003573299290000035
其中,
Figure GDA0003573299290000036
是输入特征图第c个通道上的点(n,m)的灰度值,
Figure GDA0003573299290000037
是输出特征图上第c个通道上对应点的灰度值,C为1024,表示输入特征图通道数;H和W表示U的长和宽,H′和W′表示V的长和宽;Φx和Φy是一个具体的采样核参数,定义了输入与输出特征图的重要关系,利用双线性插值将上式简化为:
Figure GDA0003573299290000038
进一步的,步骤3.4中,全局特征网络的损失函数如下:
L(p,u,tu,u)=Lcls(p,u)+λ[u=1]Lloc(tu,v)
其中,Lcls表示分类损失,Lloc表示候选区位置回归损失,p表示当前候选区域属于行人或背景的概率,u表示当前候选区域所属类别,u为0时当前候选区域属于背景,u为1时当前候选区域为行人;Lloc表示回归损失,tu表示预测的类别为u的候选区域的坐标信息,v为ground truth的坐标信息;λ为损失函数中的超参数,[u=1]表示当u为1时值为1,否则为0。
进一步的,步骤3.5中,局部特征网络通过对6×D维向量进行在线实例匹配训练,具体过程如下:
创建6个用于储存有id实例的局部特征的查找表
Figure GDA0003573299290000041
其中i∈(0,1,…,5),表示第i个部件,L表示训练集中行人id个数,D表示行人候选区域特征向量维度;对于无id实例,创建6个循环队列
Figure GDA0003573299290000042
其中,Q表示自定义的循环队列长度;
在前向传播时,对于mini-batch中每个行人候选区域的第i个部件特征向量xi,计算其与第i个查找表中所有有id实例的余弦相似度,即
Figure GDA0003573299290000043
T表示转置;
在反向传播时,如果目标id为t,则用以下公式来更新第i个部件的第t列:
vi,t←γvi,t+(1-γ)xi
其中,vi,t表示查找表中第i个部件特征,γ为调整参数;通过Softmax函数来定义某个有id实例的第i个部件特征向量xi被视为第t类行人的概率为:
Figure GDA0003573299290000044
其中,
Figure GDA0003573299290000045
表示查找表中标注身份id的特征,
Figure GDA0003573299290000046
表示查找表中没有标注身份id的特征;同样,特征向量xi被判别为在循环队列中第t个无id实例的概率为:
Figure GDA0003573299290000047
其中,
Figure GDA0003573299290000048
表示循环列队中第j个无标注身份id的部件特征;
Figure GDA0003573299290000049
表示循环列队中第t个无标注身份id的部件特征;
Figure GDA00035732992900000410
表示循环列队中第k个无标注身份id的部件特征;
基于局部特征网络损失函数最终优化的目标是使得期望似然函数最大化:
Figure GDA00035732992900000411
为达到上述目的,本发明还提出了一种面向全画面监控场景的行人检索系统,包括:
初步特征提取模块,对于给定的待检索视频关键帧和手动裁剪的查询行人图片,分别通过特征提取基础网络进行初步特征提取,记关键帧通过特征提取输出的基础特征图为B;
行人候选区域生成模块,用于对基础特征图B通过行人区域建议网络PRPN,PersonRegion Proposals Networks生成固定数目的行人候选区域U;
全局特征和局部特征提取模块,对查询行人图片进行局部特征提取,对行人候选区域进行双通道特征提取,包括全局特征和局部特征,其中提取的全局特征用于进一步分类和回归,分别获得行人候选区域对应的分类信息和行人候选区域的位置信息,提取的局部特征用于对行人候选区域与查询行人图片通过局部匹配的方式进行相似度计算,通过欧式距离直接计算相似度;
检索结果输出模块,如果最大相似度大于设定阈值,则将最大相似度的行人候选区域标记为目标行人,结合其分类信息和位置信息输出最终的检索结果。
本发明实施例的面向全画面监控场景的行人检索系统,通过背景建模技术剔除冗余信息,提取待检索视频关键帧,然后通过端到端的行人检索网络可以自动地在全画面关键帧中检测出所有行人区域,并对其进行行人重识别,判断该视频帧是否存在目标行人。本发明实施例能针对监控场景缓解了视角变化带来的影响,并通过双通道特征提取,局部匹配的方式进一步提高了行人检索准确率,能够高效地完成现代警务工作中视频侦查任务。
与现有技术相比,本发明具有如下特点:
1)在行人候选区域网络中引入空间变换器,能够缓解空间变换带来的影响;
2)采用双通道特征提取,对于行人识别部分,采用局部匹配的方式,提高算法鲁棒性。
附图说明
本发明上述的方面和优点结合附图对实施例的描述将变得更加明显和容易理解,其中:
图1为本发明实施例的面向全画面监控场景的行人检索方法流程图。
具体实施方式
下面结合附图对本发明的实施例做详细说明:
参照图1所示,一种面向全画面监控场景的行人检索方法,包括以下步骤:
第一步,对于提取好的待检索视频关键帧K和手动裁剪的查询行人图片,按比例缩放到固定尺寸,利用ResNet50的conv1到conv4_3层进行初步特征提取得到特征图B,输出的基础特征图B大小为网络输入尺寸的1/16。
第二步,将B送入PRPN产生固定数目的行人候选区域。
具体步骤为:
2.1.利用先验知识选取一系列不同尺寸和比例的k个先验框anchor;
2.2.对于输入特征图B的每个像素点,根据anchor产生k个候选区域;
2.3.使用分类器对所有行人候选区域进行分类,判断其属于行人还是背景,最后通过非极大值抑制保留128个属于行人的候选区域;
第三步,对查询行人图片进行局部特征提取,对128个行人候选区域特征图U进行双通道特征提取,包括全局特征和局部特征,其中提取的全局特征用于进一步分类和回归,分别获得行人候选区域对应的分类信息和行人候选区域的位置信息,提取的局部特征用于对行人候选区域与查询行人图片通过局部匹配的方式进行相似度计算,其中相似度通过欧式距离直接计算;其中,全局特征网络通过两个全连接层输出2维和8维向量,分别表示分类信息和行人候选区域位置信息;局部特征网络通过6个全局平均池化层进行局部特征提取,然后通过6个1×1卷积层输出6×D维向量。
步骤3.1,针对行人候选区域特征图U,通过空间变换器的本地网络产生用于进行仿射变换的系数θi,j,组成仿射变换矩阵Aθ
Figure GDA0003573299290000061
步骤3.2,在空间变换器中,以采样网格G的第i个点坐标
Figure GDA0003573299290000062
为自变量,Aθ为参数矩阵,得到输入特征图U对应的坐标
Figure GDA0003573299290000063
即可以通过参数化采样网格τθ(Gi)映射得到原始特征图U对应的行人区域。
Figure GDA0003573299290000064
步骤3.3,对于每个行人候选区域的原始特征图U,结合通过参数化采样网格映射得到对应的行人区域,采用线性插值的方式输出对应的特征图V,如下式所示:
Figure GDA0003573299290000071
其中,
Figure GDA0003573299290000072
表示原始特征图第c个通道上的点(n,m)的灰度值,
Figure GDA0003573299290000073
是输出特征图上第c个通道上对应点的灰度值,C为1024,表示输入特征图通道数;H和W分别表示U的长和宽,H′和W′分别表示V的长和宽,与采样网格一致,分别为24和8,即输出特征图V的维度为1024×24×8,V的尺寸大小由采样网格决定;Φx和Φy是一个具体的采样核参数,定义了输入与输出特征图的重要关系。理论上我们可以采用任意一种采样核,在本发明中采用的是双线性插值,并用一种更简洁的形式来表示,公式如下:
Figure GDA0003573299290000074
步骤3.4,构建全局特征网络和局部特征网络,其中全局特征网络采用Fast R-CNN架构,最后通过2个全连接层输出2个固定维度的向量;局部特征网络采用多个全局平均池化层和卷积层,得到多个固定维度的特征向量;
其中,全局特征网络的损失函数如下:
L(p,u,tu,u)=Lcls(p,u)+λ[u=1]Lloc(tu,v)
其中,Lcls表示分类损失,Lloc表示候选区位置回归损失,p表示当前候选区域属于行人或背景的概率,u表示当前候选区域所属类别,u为0时当前候选区域属于背景,u为1时当前候选区域为行人;Lloc表示回归损失,tu表示预测的类别为u的候选区域的坐标信息,v为ground truth的坐标信息(为已知信息);λ为损失函数中的超参数,[u=1]表示当u为1时值为1,否则为0。
步骤3.5,对步骤3.4构建的全局特征网络和局部特征网络进行训练;
局部特征网络通过对6×D维向量进行在线实例匹配训练,具体过程如下:
创建6个用于储存有id实例的局部特征的查找表
Figure GDA0003573299290000075
其中i∈(0,1,…,5),表示第i个部件,L表示训练集中行人id个数,本实施例中训练集为数据集CUHK-SYS,其中,D表示行人候选区域特征向量维度;对于无id实例,创建6个循环队列
Figure GDA0003573299290000081
其中,Q表示自定义的循环队列长度。
在前向传播时,对于mini-batch中每个行人候选区域的第i个部件的特征向量xi,由于训练数据较多,图像中的行人大多被标注行人框,一部分被标注身份id;计算其与第i个查找表中所有有id实例的余弦相似度,即
Figure GDA0003573299290000082
T表示转置。
在反向传播时,如果目标id为t,则用以下公式来更新第i个部件的第t列:
vi,t←γvi,t+(1-γ)xi
其中,vi,t表示查找表中第i个部件特征,γ为调整参数;通过Softmax函数来定义某个有id实例的第i个部件特征xi被视为第t类行人的概率为:
Figure GDA0003573299290000083
其中,
Figure GDA0003573299290000084
表示查找表中标注身份id的特征,
Figure GDA0003573299290000085
表示查找表中没有标注身份id的特征;同样,特征向量xi被判别为在循环队列中第t个无id实例的概率为:
Figure GDA0003573299290000086
其中,
Figure GDA0003573299290000087
表示循环列队中第j个无标注身份id的部件特征;
Figure GDA0003573299290000088
表示循环列队中第t个无标注身份id的部件特征;
Figure GDA0003573299290000089
表示循环列队中第k个无标注身份id的部件特征;
基于局部匹配的行人识别损失函数最终优化的目标是使得期望似然函数最大化:
Figure GDA00035732992900000810
步骤3.6,利用训练好的局部特征网络对查询行人图片和输出特征图V进行局部特征提取,利用训练好的全局特征网络对输出特征图V进行全局特征提取。
步骤4,如果最大相似度大于设定阈值,一般设置为0.5,则将最大相似度的行人候选区域标记为目标行人,结合其分类信息和位置信息输出最终的检索结果。
其次,根据本发明实施例提出面向全画面监控场景的行人检索系统,包括:
初步特征提取模块,对于给定的待检索视频关键帧和手动裁剪的查询行人图片,分别通过特征提取基础网络进行初步特征提取,记关键帧通过特征提取输出的基础特征图为B;
行人候选区域生成模块,用于对基础特征图B通过行人区域建议网络PRP N,Person Region Proposals Networks生成固定数目的行人候选区域U;
全局特征和局部特征提取模块,对查询行人图片进行局部特征提取,对行人候选区域进行双通道特征提取,包括全局特征和局部特征,其中提取的全局特征用于进一步分类和回归,分别获得行人候选区域对应的分类信息和行人候选区域的位置信息,提取的局部特征用于对行人候选区域与查询行人图片通过局部匹配的方式进行相似度计算,通过欧式距离直接计算相似度;
检索结果输出模块,如果最大相似度大于设定阈值,则将最大相似度的行人候选区域标记为目标行人,结合其分类信息和位置信息输出最终的检索结果。
本发明实施例的面向全画面监控场景的行人检索系统,通过背景建模技术剔除冗余信息,提取待检索视频关键帧,然后通过端到端的行人检索网络可以自动地在全画面关键帧中检测出所有行人区域,并对其进行行人重识别,判断该视频帧是否存在目标行人。本发明实施例能针对监控场景缓解了视角变化带来的影响,并通过双通道特征提取,局部匹配的方式进一步提高了行人检索准确率,能够高效地完成现代警务工作中视频侦查任务。
进一步地,系统中各模块的具体实现与面向全画面监控场景地行人检索方法的各步骤相应,本发明不做赘述。
本文中所描述的具体实施例仅仅是对本发明精神做举例说明。本发明技术领域的技术人员可以对所描述的具体实施例做各种各样的修改补充或者采用类似的方式替代,但并不会偏离本发明精神或者超越所附权利要求书所定义的范围。

Claims (8)

1.一种面向全画面监控场景的行人检索方法,其特征在于,包含以下步骤:
步骤1,对于给定的待检索视频关键帧和手动裁剪的查询行人图片,分别通过特征提取基础网络进行初步特征提取,记关键帧通过特征提取输出的基础特征图为B;
步骤2,对基础特征图B通过行人区域建议网络PRPN,即Person Region ProposalsNetworks生成固定数目的行人候选区域U;
步骤3,对查询行人图片进行局部特征提取,对行人候选区域进行双通道特征提取,包括全局特征和局部特征,其中提取的全局特征用于进一步分类和回归,分别获得行人候选区域对应的分类信息和行人候选区域的位置信息,提取的局部特征用于对行人候选区域与查询行人图片通过局部匹配的方式进行相似度计算,通过欧式距离直接计算相似度;
步骤3中对查询行人图片进行局部特征提取,对行人候选区域进行双通道特征提取的具体实现方式如下,
步骤3.1,利用行人候选区域特征图U通过空间变换器产生用于进行仿射变换的系数θa,b,并组成仿射变换矩阵Aθ
步骤3.2,在空间变换器中,以采样网格G的某一点坐标
Figure FDA0003691155120000011
为自变量,Aθ为参数矩阵,通过参数化采样得到输入特征图U对应的坐标
Figure FDA0003691155120000012
步骤3.3,根据行人候选区域特征图U和采样网格映射到U上的区域,采用线性插值的方式得到对应的输出特征图V;
步骤3.4,构建全局特征网络和局部特征网络,其中全局特征网络采用Fast R-CNN架构,最后通过2个全连接层输出2个固定维度的向量;局部特征网络采用多个全局平均池化层和卷积层,得到多个固定维度的特征向量;
步骤3.5,对步骤3.4构建的全局特征网络和局部特征网络进行训练;
步骤3.6,利用训练好的局部特征网络对查询行人图片和输出特征图V进行局部特征提取,利用训练好的全局特征网络对输出特征图V进行全局特征提取;步骤4,如果最大相似度大于设定阈值,则将最大相似度的行人候选区域标记为目标行人,结合其分类信息和位置信息输出最终的检索结果。
2.如权利要求1所述的一种面向全画面监控场景的行人检索方法,其特征在于:步骤1中的特征提取基础网络为ResNet50的conv1层到conv4_3层,包含卷积层、最大值池化层以及激活函数层。
3.如权利要求1所述的一种面向全画面监控场景的行人检索方法,其特征在于:步骤2的具体实现方式如下,
步骤2.1,利用先验知识选取一系列不同尺寸和比例的k个先验框anchor;
步骤2.2,对于输入基础特征图B的每个像素点,根据anchor产生k个候选区域;
步骤2.3,使用分类器对所有行人候选区域进行分类,判断其属于行人还是背景,最后通过非极大值抑制保留128个属于行人的候选区域。
4.如权利要求1所述的一种面向全画面监控场景的行人检索方法,其特征在于:步骤3.2的具体实现方式如下,
对于每个行人候选区域,将对应的仿射变换参数θa,b作为采样网格的参数,对于采样网格的第i′个点Gi′,通过参数化采样得到输入特征图U对应的坐标,如下式所示:
Figure FDA0003691155120000021
其中,
Figure FDA0003691155120000022
表示采样网格G的第i′个像素点的坐标,
Figure FDA0003691155120000023
表示输入特征图U对应的坐标。
5.权利要求1的一种面向全画面监控场景的行人检索方法,其特征在于:步骤3.3的具体实现方式如下,
根据行人候选区域特征图U和采样网格在U上的对应坐标
Figure FDA0003691155120000024
采用线性插值的方式的到输出特征图V,如下式所示:
Figure FDA0003691155120000025
其中,
Figure FDA0003691155120000026
是输入特征图第c个通道上的点(n,m)的灰度值,
Figure FDA0003691155120000027
是输出特征图上第c个通道上对应点的灰度值,C为1024,表示输入特征图通道数;H和W表示U的长和宽,H′和W′表示V的长和宽;Φx和Φy是一个具体的采样核参数,定义了输入与输出特征图的重要关系,利用双线性插值将上式简化为:
Figure FDA0003691155120000031
6.如权利要求1所述的一种面向全画面监控场景的行人检索方法,其特征在于:步骤3.4中,全局特征网络的损失函数如下:
L(p,u,tu,u)=Lcls(p,u)+λ[u=1]Lloc(tu,v)
其中,Lcls表示分类损失,Lloc表示候选区位置回归损失,p表示当前候选区域属于行人或背景的概率,u表示当前候选区域所属类别,u为0时当前候选区域属于背景,u为1时当前候选区域为行人;Lloc表示回归损失,tu表示预测的类别为u的候选区域的坐标信息,v为ground truth的坐标信息;λ为损失函数中的超参数,[u=1]表示当u为1时值为1,否则为0。
7.如权利要求1所述的一种面向全画面监控场景的行人检索方法,其特征在于:步骤3.5中,局部特征网络通过对6×D维向量进行在线实例匹配训练,具体过程如下:
创建6个用于储存有id实例的局部特征的查找表
Figure FDA0003691155120000032
其中i∈(0,1,…,5),表示第i个部件,L表示训练集中行人id个数,D表示行人候选区域特征向量维度;对于无id实例,创建6个循环队列
Figure FDA0003691155120000033
其中,Q表示自定义的循环队列长度;
在前向传播时,对于mini-batch中每个行人候选区域的第i个部件特征向量xi,计算其与第i个查找表中所有有id实例的余弦相似度,即
Figure FDA0003691155120000034
T表示转置;
在反向传播时,如果目标id为t,则用以下公式来更新第i个部件的第t列:
vi,t←γvi,t+(1-γ)xi
其中,vi,t表示查找表中第i个部件特征,γ为调整参数;通过Softmax函数来定义某个有id实例的第i个部件特征向量xi被视为第t类行人的概率为:
Figure FDA0003691155120000035
其中,
Figure FDA0003691155120000036
表示查找表中标注身份id的特征,
Figure FDA0003691155120000037
表示查找表中没有标注身份id的特征;同样,特征向量xi被判别为在循环队列中第t个无id实例的概率为:
Figure FDA0003691155120000041
其中,
Figure FDA0003691155120000042
表示循环列队中第j个无标注身份id的部件特征;
Figure FDA0003691155120000043
表示循环列队中第t个无标注身份id的部件特征;
Figure FDA0003691155120000044
表示循环列队中第k个无标注身份id的部件特征;
基于局部特征网络损失函数最终优化的目标是使得期望似然函数最大化:
Figure FDA0003691155120000045
8.一种用于实现权利要求1-7任一所述的面向全画面监控场景的行人检索方法的系统,其特征在于,包括如下模块:
初步特征提取模块,对于给定的待检索视频关键帧和手动裁剪的查询行人图片,分别通过特征提取基础网络进行初步特征提取,记关键帧通过特征提取输出的基础特征图为B;
行人候选区域生成模块,用于对基础特征图B通过行人区域建议网络PRP N,即PersonRegion Proposals Networks生成固定数目的行人候选区域U;
全局特征和局部特征提取模块,对查询行人图片进行局部特征提取,对行人候选区域进行双通道特征提取,包括全局特征和局部特征,其中提取的全局特征用于进一步分类和回归,分别获得行人候选区域对应的分类信息和行人候选区域的位置信息,提取的局部特征用于对行人候选区域与查询行人图片通过局部匹配的方式进行相似度计算,通过欧式距离直接计算相似度;
对查询行人图片进行局部特征提取,对行人候选区域进行双通道特征提取的具体实现方式如下,
步骤3.1,利用行人候选区域特征图U通过空间变换器产生用于进行仿射变换的系数θa,b,并组成仿射变换矩阵Aθ
步骤3.2,在空间变换器中,以采样网格G的某一点坐标
Figure FDA0003691155120000046
为自变量,Aθ为参数矩阵,通过参数化采样得到输入特征图U对应的坐标
Figure FDA0003691155120000047
步骤3.3,根据行人候选区域特征图U和采样网格映射到U上的区域,采用线性插值的方式得到对应的输出特征图V;
步骤3.4,构建全局特征网络和局部特征网络,其中全局特征网络采用Fast R-CNN架构,最后通过2个全连接层输出2个固定维度的向量;局部特征网络采用多个全局平均池化层和卷积层,得到多个固定维度的特征向量;
步骤3.5,对步骤3.4构建的全局特征网络和局部特征网络进行训练;
步骤3.6,利用训练好的局部特征网络对查询行人图片和输出特征图V进行局部特征提取,利用训练好的全局特征网络对输出特征图V进行全局特征提取;检索结果输出模块,如果最大相似度大于设定阈值,则将最大相似度的行人候选区域标记为目标行人,结合其分类信息和位置信息输出最终的检索结果。
CN201910915717.1A 2019-09-26 2019-09-26 一种面向全画面监控场景的行人检索方法及系统 Active CN110781350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910915717.1A CN110781350B (zh) 2019-09-26 2019-09-26 一种面向全画面监控场景的行人检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910915717.1A CN110781350B (zh) 2019-09-26 2019-09-26 一种面向全画面监控场景的行人检索方法及系统

Publications (2)

Publication Number Publication Date
CN110781350A CN110781350A (zh) 2020-02-11
CN110781350B true CN110781350B (zh) 2022-07-22

Family

ID=69384763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910915717.1A Active CN110781350B (zh) 2019-09-26 2019-09-26 一种面向全画面监控场景的行人检索方法及系统

Country Status (1)

Country Link
CN (1) CN110781350B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428567B (zh) * 2020-02-26 2024-02-02 沈阳大学 一种基于仿射多任务回归的行人跟踪系统及方法
CN112199983A (zh) * 2020-07-08 2021-01-08 北京航空航天大学 一种多层次筛选的长时间大范围行人再识别方法
CN111709945B (zh) * 2020-07-17 2023-06-30 深圳市网联安瑞网络科技有限公司 一种基于深度局部特征的视频拷贝检测方法
CN112149514B (zh) * 2020-08-28 2023-04-07 中国地质大学(武汉) 一种施工作业人员的安全着装检测方法及系统
CN111967442A (zh) * 2020-09-04 2020-11-20 中国科学院自动化研究所 基于实例导向检测网络的行人搜索方法、系统、装置
CN112579811A (zh) * 2020-12-11 2021-03-30 公安部第三研究所 面向视频侦查的目标图像检索识别系统、方法、装置、处理器及计算机可读存储介质
CN112699846B (zh) * 2021-01-12 2022-06-07 武汉大学 一种具有身份一致性校验的特定人物与特定行为联合检索方法及装置
CN113077556A (zh) * 2021-03-29 2021-07-06 深圳大学 基于行人重识别的检票系统及方法
CN113312961A (zh) * 2021-04-03 2021-08-27 国家计算机网络与信息安全管理中心 一种logo识别加速方法
CN114332169B (zh) * 2022-03-14 2022-05-06 南京甄视智能科技有限公司 基于行人重识别的行人跟踪方法、装置、存储介质及设备
CN115103125B (zh) * 2022-07-13 2023-05-12 北京拙河科技有限公司 导播方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070104362A1 (en) * 2005-11-08 2007-05-10 Samsung Electronics Co., Ltd. Face recognition method, and system using gender information
CN107273836A (zh) * 2017-06-07 2017-10-20 深圳市深网视界科技有限公司 一种行人检测识别方法、装置、模型和介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070104362A1 (en) * 2005-11-08 2007-05-10 Samsung Electronics Co., Ltd. Face recognition method, and system using gender information
CN107273836A (zh) * 2017-06-07 2017-10-20 深圳市深网视界科技有限公司 一种行人检测识别方法、装置、模型和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于双通道特征自适应融合的红外行为识别方法";吕静 等;《重庆邮电大学学报(自然科学版)》;20170630;第29卷(第3期);第391页 *

Also Published As

Publication number Publication date
CN110781350A (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
CN110781350B (zh) 一种面向全画面监控场景的行人检索方法及系统
CN109829398B (zh) 一种基于三维卷积网络的视频中的目标检测方法
Shen et al. Multiobject tracking by submodular optimization
WO2019144575A1 (zh) 一种快速行人检测方法及装置
WO2022111506A1 (zh) 视频动作识别方法、装置、电子设备和存储介质
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN113065558A (zh) 一种结合注意力机制的轻量级小目标检测方法
US8818024B2 (en) Method, apparatus, and computer program product for object tracking
CN111539370A (zh) 一种基于多注意力联合学习的图像行人重识别方法和系统
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN114783003B (zh) 一种基于局部特征注意力的行人重识别方法和装置
CN111814753A (zh) 针对雾天条件下的目标检测方法和装置
CN110110755B (zh) 基于ptgan区域差距与多重分支的行人重识别检测方法及装置
WO2018082308A1 (zh) 一种图像处理方法及终端
WO2023030182A1 (zh) 图像生成方法及装置
CN111612024A (zh) 特征提取方法、装置、电子设备及计算机可读存储介质
CN112396036B (zh) 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法
WO2023159898A1 (zh) 一种动作识别系统、方法、装置及模型训练方法、装置、计算机设备及计算机可读存储介质
Kuang et al. DenseGAP: graph-structured dense correspondence learning with anchor points
CN112348116A (zh) 利用空间上下文的目标检测方法、装置和计算机设备
CN115393635A (zh) 一种基于超像素分割以及数据增强的红外小目标检测方法
Aldhaheri et al. MACC Net: Multi-task attention crowd counting network
CN111967408B (zh) 基于“预测-恢复-识别”的低分辨率行人重识别方法及系统
CN111814618B (zh) 行人重识别方法、步态识别网络训练方法及相关装置
CN115240121B (zh) 一种用于增强行人局部特征的联合建模方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant