CN112241682B - 一种基于分块以及多层信息融合的端到端行人搜索方法 - Google Patents

一种基于分块以及多层信息融合的端到端行人搜索方法 Download PDF

Info

Publication number
CN112241682B
CN112241682B CN202010970031.5A CN202010970031A CN112241682B CN 112241682 B CN112241682 B CN 112241682B CN 202010970031 A CN202010970031 A CN 202010970031A CN 112241682 B CN112241682 B CN 112241682B
Authority
CN
China
Prior art keywords
pedestrian
network
image
layer
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010970031.5A
Other languages
English (en)
Other versions
CN112241682A (zh
Inventor
赵才荣
陈至成
卫志华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202010970031.5A priority Critical patent/CN112241682B/zh
Publication of CN112241682A publication Critical patent/CN112241682A/zh
Application granted granted Critical
Publication of CN112241682B publication Critical patent/CN112241682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉领域,采用深度学习框架,提出了一种基于分块以及多层信息融合的端到端行人搜索方法。本方法包括:1)使用监控摄像机所拍摄的整幅画面作为数据输入;2)使用卷积神经网络提取初步的特征,随后使用候选区域提取网络提取可能存在行人的候选区域;3)对上述候选区域的特征进行池化并使用另一卷积神经网络提取用于行人识别的特征,将特征进行分块进行处理,与网络的中层特征进行特征融合,最后使用在线实例匹配损失训练网络;4)将测试图像输入网络,网络输出图像中的行人位置及对应特征,最后将行人检测结果以及与待查找行人的相似度标注在图像上。此算法相比现有方法具有更加准确、鲁棒性好的特点。

Description

一种基于分块以及多层信息融合的端到端行人搜索方法
技术领域
本发明属于计算机视觉中的图像检索领域,采用深度学习框架,更具体地,本发明涉及一种基于分块以及多层信息融合的端到端行人搜索方法。
背景技术
数以万计的视频监控设备正在源源不断的部署到我们日常的生活中,组成一个庞大的视频监控网络。面对海量的数据,如何对这些数据进行分析以及使用成了人们不得不面对的问题。传统的,也是现在使用范围较广的人工的监视或是检索的方式明显是低效且将耗费大量的人力以及财力。
由于监控视频画面的特殊性,使用现有人脸识别的方式并不能够很好地解决该场景下的需求。行人重识别以及行人搜索是解决该问题的一个研究方向,其旨在通过利用行人的体型,衣着等特征,建立起不同监控画面之间的联系,从而完成跨摄像头的行人的识别以及检索。不同的是,行人搜索将检测以及识别的工作合融合在一起,使用完整的摄像头画面作为输入。将检测以及识别两个部分共同进行优化能够获得更好效果,此外,这样也更加贴近于实际的落地环境。行人搜索是对进行海量监控视频检索分析的重要组成部分,在最近几年引起了众多研究学者的关注。
专利CN 109635686A提出了一种结合人脸与外观的两阶段行人搜索方法,本发明通过基于的卷积神经网络将人脸与行人再识别联合起来搜索目标行人。但是该方法只考虑了使用多种途径进行目标的识别,并没有涉及和优化行人的检测部分,因此可能在使用现有检测器的过程中丢失部分有鉴别力的信息,造成性能的下滑。此外,由于缺少对与目标检测部分的优化,该方法的相关性能可能会收到限制。
专利CN 108280411A提出了一种具有空间变换能力的行人搜索算法。使用端到端的神经网络模型进行行人的检测以及特征提取和匹配,该方法的优点是使用空间变换对画面中歪斜以及受到遮挡的行人进行了一定程度的修正。但是,该方法没有考虑对与行人的不同部位分别进行处理,使得性能受到了一定程度的限制。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于分块以及多层信息融合的端到端行人搜索方法,从而使得行人的特征表示更加鲁棒,从而在行人检索任务上获得更好的效果。
本发明的目的可以通过以下技术方案来实现:
一种基于分块以及多层信息融合的端到端行人搜索方法,其特征在于,包括以下步骤:
1)选取场景图像样本,对于图像中的行人的边界位置以及身份信息进行标注;
2)将预训练的卷积神经分为前后两个部分,分别作为主干网络(BackboneNetwork)以及识别网络(IDNet);将预处理之后的图像通过Backbone Network,得到用于候选区域提取的特征图谱;
3)使用候选区域提取网络(RPN)提取可能存在行人的候选区域并使用感兴趣区域池化(RoI Pooling)对候选区域的特征进行池化,得到固定大小的特征图谱;
4)将上一步得到的特征图谱送入IDNet得到其对应的高层特征,将其高层的特征分块,分别进行池化,最终得到行人的高层特征表示,该信息分块处理为发明点之一;同时,通过一个辅助网络提取IDNet的中层特征,作为行人的中层特征表示;将中层特征表示以及高层特征表示拼合在一起,共同作为行人的特征表示,该多层信息融合为发明点之二;
5)将上一步的行人高层特征表示通过两个全连接层分别得到用于行人前景/背景分类的以及行人边界框修正的两个向量,使用Softmax交叉熵损失以及平滑的L1损失分别对着两部分进行优化;
6)使用在线实例匹配(0IM)损失函数对于高层行人特征表示进行优化;
7)将测试图像输入网络,网络输出图像中行人的位置以及其对应特征,将特征与待查找的行人的特征进行比对并将相似性的信息标注在图像上。
所述的步骤2)中,预训练卷积神经网络的选取以及划分和数据预处理部分具体包括以下步骤:
2-1)选取在ImageNet上预训练的Resnet50作为基本的网络结构;将网络按照“conv4_3”层作为边界,分为两个部分:从网络开始到“conv4_3”的部分作为BackboneNetwork,将剩余的部分作为IDNet;Backbone Network用于图像特征的初步提取,IDNet用于图像特征的进一步提取;
2-2)每张图像的标注由每一个行人所在矩形位置的左上角以及右下角坐标以及行人的身份信息组成;
2-3)数据预处理部分首先将图像的像素数据减去在ImageNet上计算得到的像素均值,随后除以在ImageNet上计算得到的像素方差;按照50%的概率将图像水平翻转;最后将图像缩放,使得图像较短的一边等于600个像素;同时,保证图像图像较长的一边小于1000个像素。
所述的步骤3)中,具体包括:
3-1)使用一个512×3×3的卷积层对于Backbone Network所获得的特征图谱进行进一步提取,得到一个新的特征图谱,记作featrpn;该特征图谱的尺寸是BackboneNetwork输入图像的1/16;
3-2)在featrpn的每一个空间位置,生成三种宽高比,每种宽高比三个尺寸的锚框(Anchor),前景背景各一个,如此使用一个18×1×1的卷积层对于featrpn进行进一步的特征提取,得到一个用于对每一位置的Anchor进行分类的特征图谱,记作featfgbg;随后在featfgbg上,随机选取128个正样本以及128个负样本,使用Softmax交叉熵损失函数对每个Anchor位置前景/背景进行预测;
3-3)每个位置9个anchor,每个anchor需要水平位置、垂直位置、anchor的宽、anchor的高,四个变换参数,如此9*4=36,随后使用一个36×1×1的卷积层对于featrpn进行进一步的特征提取,得到一个用于对回归每一Anchor到真实边界框变换参数的的特征图谱,记作featreg;随后在featreg上,随机选取128个正样本以及128个负样本,使用平滑的L1损失函数对于上述的变换参数进行回归;
3-4)根据“3-2)”和“3-3)”中的featfgbg以及featreg中的特征对Anchor进行筛选,得到128个候选区域;使用RoI Pooling获取对应位置固定大小的128个特征图谱。
所述的步骤4)中,具体包括:
4-1)将池化后得到的特征图谱送入IDNet中提取特征,得到对应的特征图谱;将IDNet所得到的特征图谱分为水平方向上Q块,垂直方向上P块;在块与块之间设置一个像素的重叠,对这些块分别进行全局平均池化,并进行拼合,最终得到表示行人高层特征的特征向量;该步骤对应本专利信息分块处理的发明点。
4-2)抽取IDNet的中层特征图谱,使用一个辅助网络对于中层特征进行提取,得到表示行人中层特征的特征向量;该步骤对应本专利多层信息融合的发明点;
4-3)将上述表示行人中层以及高层特征的向量拼接成为一个表示行人总体特征的向量。
所述的步骤5)中,具体包括:
5-1)使用一个全连接层将步骤“4-1)”所得到的向量降维到2维,用于对先前流程得到的候选区域进行前景/背景分类;
5-2)使用一个新的全连接层将步骤“4-1)”所得到的向量降维到8维,用于对候选区域的边界的进一步回归,使边界框更加准确;
5-3)使用一个全连接层将步骤“4-3)”所得到的向量降维到512维,用于行人的匹配。
所述的一种基于分块以及多层信息融合的端到端行人搜索方法,其特征在于,所述的步骤6)中,具体:
在网络训练的过程中,使用“5-3)”中所得到的512维的向量送入OIM损失函数,对网络进行优化。
与现有技术相比,本发明对行人不同部位分开进行处理,使得网络能够学习到更加鲁棒的相关特征表示,该发明点对应技术方案中的步骤“4-1)”;此外,本发明融合了网络中的不同层级的特征,使得最终的特征表示更加鲁棒,该发明点对应技术方案中的步骤“4-2)”。本方法能够提取到更加鲁棒的行人特征表示,从而提升行人搜索算法的性能。
附图说明
图1为本发明方法的系统流程图。
图2为本发明算法和其他算法在CUHK数据集上不同大小图像库的Top-1比较。
图3为本发明算法和其他算法在CUHK数据集上不同大小图像库的mAP比较。
图4为本发明实施例算法和其他算法在检索同一行人时的可视化比较。
图5为全局平均池化数学式解释。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例:
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,具体如图1所示算法流程图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,但并不限定本发明。
步骤一:将图像数据进行预处理,输入网络,具体操作如下:
(1)将图像减去是预先计算的图像均值,随后将相减结果除以预先计算的图像方差;
(2)保持图像的宽高比,将图像较短的一边缩放到600像素,同时,保证图像较长的一边小于1000像素。
步骤二:将图像送入主干网络,得到用于候选区域提取的特征图谱fbackbone,具体操作如下:
(1)网络使用Resnet50的conv1到conv4_3作为主干网络
(2)将步骤一预处理完成的图像输入主干网络得到特征图谱fbackbone
步骤三:将fbackbone送入候选区域提取网络得到感兴趣区域,并使用感兴趣区域池化得到固定大小的特征图谱,具体操作如下:
(1)在候选区域提取网络中。首先使用一个512×3×3的卷积层对fbackbone进行进一步提取,获得一个新的特征图谱frpn
(2)在frpn的每一个位置,生成宽高比分别为
Figure BDA0002681142350000051
1∶1、
Figure BDA0002681142350000052
面积分别为8×8、16×16、32×32的共9个锚框;
(3)使用一个18×1×1的卷积层以及一个Softmax层预测每个锚框是前景还是背景。使用一个36×1×1的卷积层回归每一个锚框到行人标注矩形框位置的变换参数。
(4)在训练的过程中,将与行人标注矩形框IoU大于0.7的锚框认为是正样本;IoU小于0.3的锚框认为是负样本;IoU处于0.3到0.7之间的不参与训练。
(5)在网络训练的过程中,随机选取128个正样本以及128个负样本。使用Softmax交叉熵损失函数对18×1×1的卷积层进行优化。类似地,使用平滑的L1损失函数对于每一个锚框到行人标注矩形框的位置进行回归。
(6)在网络训练以及推理的时候,选取经过非极大值抑制后的正负样本各64个,作为感兴趣区域
(7)使用感兴趣区域池化对fbackbone中的感兴趣区域进行池化,获得固定大小的特征图谱froi
步骤四:将池化后的特征图谱froi送入行人重识别网络进一步提取特征,具体操作如下:
(1)使用Resnet50中conv4_4以及后后续的部分作为行人重识别网络;
(2)将froi送入行人重识别网络,得到特征图谱
Figure BDA0002681142350000061
(3)将特征图谱
Figure BDA0002681142350000062
的垂直方向分为P块,水平方向分为Q块,分别进行全局平均池化,其数学形式表示为:
Figure BDA0002681142350000063
其中kH和kW是每一块的尺寸,p和q代表
Figure BDA0002681142350000064
中(p,q)位置的输出。最后将
Figure BDA0002681142350000065
中除了batch以外的维度拉成一个特征向量
Figure BDA0002681142350000066
具体解释见图5。
步骤五:使用辅助网络提取行人识别网络中层特征,具体操作如下:
(1)抽取行人识别网络的中层特征,得到特征图谱
Figure BDA0002681142350000067
(2)使用辅助网络,获得行人的中层特征向量
Figure BDA0002681142350000068
该辅助网络具体包括:
Figure BDA0002681142350000069
Figure BDA0002681142350000071
步骤六:添加对于网络的监督,对网络进行训练,具体操作如下:
(1)将
Figure BDA0002681142350000072
使用全连接层降维,得到特征向量vfgbg,用于对于前景以及背景的分类,在训练的过程中,使用Softmax交叉熵损失函数对于这部分以及整个网络进行监督和优化;
(2)将
Figure BDA0002681142350000073
使用全连接层降维,得到特征向量vbbox_reg,用于对检测结果边界框进行进一步修正,在训练的过程中,使用Smooth-L1损失函数对于这部分以及整个网络进行监督和优化;
(3)将
Figure BDA0002681142350000074
以及
Figure BDA0002681142350000075
进行拼接,得到vperson。随后使用一个全连接层将vperson降维到512维,得到特征向量vreid
(4)使用在线实例匹配损失函数对vreid以及整个网络进行优化。
步骤七:在推理的过程中,使用网络输出的相关信息进行匹配图像库中的信息,并将结果叠加在画面上,具体操作如下:
(1)根据vfgbg对所得到的边界框进行非极大值抑制,得到画面中行人的边界框以及其对应的vreid
(2)计算所得到的v_{reid}与图像库中图像特征向量的余弦距离。并将相关的结果叠加在画面中。
本发明具体实现步骤为:
图1是本发明的实现流程图,具体实施方式如下:
1、对于输入进行预处理;
2、将图像送入主干网络,得到用于候选区域提取的特征图谱;
3、将上述候特征图谱输入候选区域提取网络得到感兴趣区域;
4、并使用感兴趣区域池化得到固定大小的特征图谱;
5、使用行人重识别网络对特征进一步提取,同时抽取该网络的中层特征;
6、特征拼合,在训练时使用以在线实例匹配为首的损失函数对网络的优化进行监督;
7、测试时使用余弦距离,计算所得特征与图像库对应特征的相似度。
实施例图像检索的困难程度,会随着所要检索图像规模的增大而增大。由图2可知,随着所要检索图像规模的增大,基准方法以及本发明所提出的方法的Top-1性能均有所下降。但本发明所提出的方法,在不同规模图像的检索任务中的Top-1性能均显著优于基准方法。
与图2类似,图3所示本发明所提出的方法,在不同规模图像的检索任务中的mAP性能均显著优于基准方法。
在待检索的图像库中,共有四位与之匹配的行人。图4中第一行表示本发明所提出的方法的可视化结果,第二行表示基准方法的可视化结果。在每一行中,图像的顺序按照算法给出的相似度从高到低进行排列。对于错误的匹配结果,使用“叉号”每一幅图像的右下角进行标记。从图4中可以看到,所提出的算法在给出的最为相似的四位行人均为所要检索的行人;而基准方法给出的第三位行人出现匹配错误,并且在算法给出的前五个行人中,只有三个所要检索的行人。该对比直观地展示了本发明提出的算法至于基准算法的优越性。
显然,上述实例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (6)

1.一种基于分块以及多层信息融合的端到端行人搜索方法,其特征在于,包括以下步骤:
1)选取场景图像样本,对于图像中的行人的边界位置以及身份信息进行标注;
2)将预训练的卷积神经网络分为前后两个部分,分别作为主干网络Backbone Network以及识别网络IDNet;将预处理之后的图像通过Backbone Network,得到用于候选区域提取的特征图谱;
3)使用候选区域提取网络RPN提取可能存在行人的候选区域并使用感兴趣区域池化RoI Pooling对候选区域的特征进行池化,得到固定大小的特征图谱;
4)将上一步得到的特征图谱送入IDNet得到其对应的高层特征,将其高层的特征分块,分别进行池化,最终得到行人的高层特征表示,该信息分块处理为发明点之一;同时,通过一个辅助网络提取IDNet的中层特征,作为行人的中层特征表示;将中层特征表示以及高层特征表示拼合在一起,共同作为行人的特征表示,该多层信息融合为发明点之二;
5)将上一步的行人高层特征表示通过两个全连接层分别得到用于行人前景/背景分类的以及行人边界框修正的两个向量,使用Softmax交叉熵损失以及平滑的L1损失分别对这两部分进行优化;
6)使用在线实例匹配OIM损失函数对于高层行人特征表示进行优化;
7)将测试图像输入网络,网络输出图像中行人的位置以及其对应特征,将特征与待查找的行人的特征进行比对并将相似性的信息标注在图像上。
2.根据权利要求1所述的一种基于分块以及多层信息融合的端到端行人搜索方法,其特征在于,所述的步骤2)中,预训练卷积神经网络的选取以及划分和数据预处理部分具体包括以下步骤:
2-1)选取在ImageNet上预训练的Resnet50作为基本的网络结构;将网络按照“conv4_3”层作为边界,分为两个部分:从网络开始到“conv4_3”的部分作为Backbone Network,将剩余的部分作为IDNet;Backbone Network用于图像特征的初步提取,IDNet用于图像特征的进一步提取;
2-2)每张图像的标注由每一个行人所在矩形位置的左上角以及右下角坐标以及行人的身份信息组成;
2-3)数据预处理部分首先将图像的像素数据减去在ImageNet上计算得到的像素均值,随后除以在ImageNet上计算得到的像素方差;将图像水平翻转;最后将图像缩放,使得图像较短的一边等于600个像素;同时,保证图像较长的一边小于1000个像素。
3.根据权利要求1所述的一种基于分块以及多层信息融合的端到端行人搜索方法,其特征在于,所述的步骤3)中,具体包括:
3-1)使用一个512×3×3的卷积层对于Backbone Network所获得的特征图谱进行进一步提取,得到一个新的特征图谱,记作featrpn;该特征图谱的尺寸是Backbone Network输入图像的1/16;
3-2)在featrpn的每一个空间位置,生成三种宽高比,每种宽高比三个尺寸的锚框Anchor,使用一个18×1×1的卷积层对于featrpn进行进一步的特征提取,得到一个用于对每一位置的Anchor进行分类的特征图谱,记作featfgbg;随后在featfgbg上,随机选取128个正样本以及128个负样本,使用Softmax交叉熵损失函数对每个Anchor位置前景/背景进行预测;
3-3)每个位置9个anchor,每个anchor需要水平位置、垂直位置、anchor的宽、anchor的高,四个变换参数,如此9*4=36,随后使用一个36×1×1的卷积层对于featrpn进行进一步的特征提取,得到一个用于对回归每一Anchor到真实边界框变换参数的特征图谱,记作featreg;随后在featreg上,随机选取128个正样本以及128个负样本,使用平滑的L1损失函数对于上述的变换参数进行回归;
3-4)根据“3-2)”和“3-3)”中的featfgbg以及featreg中的特征对Anchor进行筛选,得到128个候选区域;使用RoI Pooling获取对应位置固定大小的128个特征图谱。
4.根据权利要求1所述的一种基于分块以及多层信息融合的端到端行人搜索方法,其特征在于,所述的步骤4)中,具体包括:
4-1)将池化后得到的特征图谱送入IDNet中提取特征,得到对应的特征图谱;将IDNet所得到的特征图谱分为水平方向上Q块,垂直方向上P块;在块与块之间设置一个像素的重叠,对这些块分别进行全局平均池化,并进行拼合,最终得到表示行人高层特征的特征向量;
4-2)抽取IDNet的中层特征图谱,使用一个辅助网络对于中层特征进行提取,得到表示行人中层特征的特征向量;
4-3)将上述表示行人中层以及高层特征的向量拼接成为一个表示行人总体特征的向量。
5.根据权利要求1所述的一种基于分块以及多层信息融合的端到端行人搜索方法,其特征在于,所述的步骤5)中,具体包括:
5-1)使用一个全连接层将步骤“4-1)”所得到的向量降维到2维,用于对先前流程得到的候选区域进行前景/背景分类;
5-2)使用一个新的全连接层将步骤“4-1)”所得到的向量降维到8维,用于对候选区域的边界的进一步回归,使边界框更加准确;
5-3)使用一个全连接层将步骤“4-3)”所得到的向量降维到512维,用于行人的匹配。
6.根据权利要求5所述的一种基于分块以及多层信息融合的端到端行人搜索方法,其特征在于,所述的步骤6)中,具体:
在网络训练的过程中,使用“5-3)”中所得到的512维的向量送入OIM损失函数,对网络进行优化。
CN202010970031.5A 2020-09-14 2020-09-14 一种基于分块以及多层信息融合的端到端行人搜索方法 Active CN112241682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010970031.5A CN112241682B (zh) 2020-09-14 2020-09-14 一种基于分块以及多层信息融合的端到端行人搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010970031.5A CN112241682B (zh) 2020-09-14 2020-09-14 一种基于分块以及多层信息融合的端到端行人搜索方法

Publications (2)

Publication Number Publication Date
CN112241682A CN112241682A (zh) 2021-01-19
CN112241682B true CN112241682B (zh) 2022-05-10

Family

ID=74170952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010970031.5A Active CN112241682B (zh) 2020-09-14 2020-09-14 一种基于分块以及多层信息融合的端到端行人搜索方法

Country Status (1)

Country Link
CN (1) CN112241682B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635728A (zh) * 2018-12-12 2019-04-16 中山大学 一种基于非对称度量学习的异构行人再识别方法
CN109784258A (zh) * 2019-01-08 2019-05-21 华南理工大学 一种基于多尺度特征切割与融合的行人重识别方法
CN110084173A (zh) * 2019-04-23 2019-08-02 精伦电子股份有限公司 人头检测方法及装置
CN110580460A (zh) * 2019-08-28 2019-12-17 西北工业大学 基于行人身份和属性特征联合识别验证的行人再识别方法
CN111274430A (zh) * 2020-01-19 2020-06-12 易拍全球(北京)科贸有限公司 一种基于特征重建监督的瓷器领域图像检索算法
CN111339827A (zh) * 2020-01-18 2020-06-26 中国海洋大学 基于多区域卷积神经网络的sar图像变化检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198657B2 (en) * 2016-12-12 2019-02-05 National Chung Shan Institute Of Science And Technology All-weather thermal-image pedestrian detection method
CN111209810B (zh) * 2018-12-26 2023-05-26 浙江大学 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构
CN109948425B (zh) * 2019-01-22 2023-06-09 中国矿业大学 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置
CN109858467B (zh) * 2019-03-01 2021-05-07 北京视甄智能科技有限公司 一种基于关键点区域特征融合的人脸识别方法及装置
CN110909673B (zh) * 2019-11-21 2022-09-16 河北工业大学 一种基于自然语言描述的行人再识别方法
CN111461038B (zh) * 2020-04-07 2022-08-05 中北大学 一种基于分层多模式注意力机制的行人再识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635728A (zh) * 2018-12-12 2019-04-16 中山大学 一种基于非对称度量学习的异构行人再识别方法
CN109784258A (zh) * 2019-01-08 2019-05-21 华南理工大学 一种基于多尺度特征切割与融合的行人重识别方法
CN110084173A (zh) * 2019-04-23 2019-08-02 精伦电子股份有限公司 人头检测方法及装置
CN110580460A (zh) * 2019-08-28 2019-12-17 西北工业大学 基于行人身份和属性特征联合识别验证的行人再识别方法
CN111339827A (zh) * 2020-01-18 2020-06-26 中国海洋大学 基于多区域卷积神经网络的sar图像变化检测方法
CN111274430A (zh) * 2020-01-19 2020-06-12 易拍全球(北京)科贸有限公司 一种基于特征重建监督的瓷器领域图像检索算法

Also Published As

Publication number Publication date
CN112241682A (zh) 2021-01-19

Similar Documents

Publication Publication Date Title
Racki et al. A compact convolutional neural network for textured surface anomaly detection
CN109636795B (zh) 实时无跟踪的监控视频遗留物检测方法
CN112861635B (zh) 一种基于深度学习的火灾及烟雾实时检测方法
Seow et al. Neural network based skin color model for face detection
CN113159120A (zh) 一种基于多尺度跨图像弱监督学习的违禁物检测方法
CN101971190A (zh) 实时身体分割系统
Ahn et al. Research of multi-object detection and tracking using machine learning based on knowledge for video surveillance system
CN109886159B (zh) 一种非限定条件下的人脸检测方法
CN110852179B (zh) 基于视频监控平台的可疑人员入侵的检测方法
Tao et al. Smoke vehicle detection based on multi-feature fusion and hidden Markov model
CN113177467A (zh) 火焰识别方法及系统、装置、介质
CN112861917A (zh) 基于图像属性学习的弱监督目标检测方法
Cao et al. Learning spatial-temporal representation for smoke vehicle detection
CN108345835B (zh) 一种基于仿复眼感知的目标识别方法
CN109409224B (zh) 一种自然场景火焰检测的方法
CN102509414A (zh) 一种基于计算机视觉的烟雾检测方法
Teja Static object detection for video surveillance
CN118115947A (zh) 基于随机颜色转换和多尺度特征融合的跨模态行人重识别方法
CN117409347A (zh) 一种基于esnn的早期火灾检测方法
CN110795995B (zh) 数据处理方法、装置及计算机可读存储介质
CN112241682B (zh) 一种基于分块以及多层信息融合的端到端行人搜索方法
CN117011346A (zh) 鼓风机图像配准算法
CN106909936B (zh) 一种基于双车辆可变形部件模型的车辆检测方法
CN115690692A (zh) 一种基于主动学习和神经网络的高空抛物检测方法
Wang et al. Video Smoke Detection Based on Multi-feature Fusion and Modified Random Forest.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant