CN109766868B

CN109766868B - 一种基于身体关键点检测的真实场景遮挡行人检测网络及其检测方法

Info

Publication number: CN109766868B
Application number: CN201910063662.6A
Authority: CN
Inventors: 张永强; 丁明理; 李贤�; 杨光磊; 董娜; 朱月熠; 王莉娜; 白延成
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2020-12-11
Anticipated expiration: 2039-01-23
Also published as: CN109766868A

Abstract

本发明提出了一种基于身体关键点检测的真实场景遮挡行人检测网络及其检测方法，属于计算机视觉的行人检测技术领域。所述检测网络包括关键点检测网络、身体区域分割和图像合成模块以及行人分类网络。所述检测方法为：利用行人检测数据库训练生成基准行人检测器，通过基准行人检测器获取候选区域图像。通过关键点检测网络检测候选区域图像中人体身体的关键点信息，将关键点信息作为身体关键点真值，进而训练关键点检测网络。利用身体区域分割和图像合成模块获得合成图像；将合成图像输入至行人分类网络中指导训练行人分类网络。行人分类网络根据输入的合成图像判别输入图像是行人图像还是背景图像，完成真实场景中遮挡行人的检测。

Description

一种基于身体关键点检测的真实场景遮挡行人检测网络及其检测方法

技术领域

本发明涉及一种基于身体关键点检测的真实场景遮挡行人检测网络及其检测方法，属于计算机视觉的行人检测技术领域。

背景技术

随着我国经济的发展，城镇化的推进，导致城市人口数量激增，在车站、地铁、商场等许多公共场所聚集的人口数量巨大，很容易发生安全事故。因此，及时地检测客流情况，对行人进行检测分析显得十分重要。近年来，基于深度学习的行人检测技术，特别是真实场景下存在遮挡的行人检测技术正是在这种背景下出现并迅速发展的针对行人识别和定位的一种解决方案。行人检测技术作为图像处理和模式识别领域的一个分支，一直是计算机视觉领域中一个非常重要的研究课题。同时，它在一些实际应用中扮演着关键技术的角色，例如，行人检索、人口计数、自动驾驶，以及智能搜寻系统等，对其展开深入的研究不仅具有广泛的应用需求和前景，对于解决计算机视觉领域中的其它问题也有重大的借鉴意义。

近些年，特别是深度学习(Deep Learning)兴起之后，国内外的一些科研机构、高校、企业投入了巨大的人力、物力，对行人检测开展了相关的研究工作，其中在理论研究和实际应用中都取得了一定的成果，并提出了一些行人检测的智能监控系统。尽管行人检测关键技术得到了迅猛发展，国内外学者在许多相关领域也都取得了丰硕的研究成果，但是现阶段的研究大多是在实验室的摆拍图像上或者在较为理想的图片上进行的，这样的图像具有如下特点：第一，行人目标较大，且位于图像正中央；第二，图像背景较为干净，且不存在遮挡问题。然而在真实场景中的行人图像，行人通常极其微小而且背景较为复杂，同时会出被其他物体遮挡或者出现行人间相互遮挡的现象。此外，还会受到尺度、姿态、光照等诸多因素的影响。如何在这种真实场景中以及被这些影响因素的影响下实现遮挡行人的精准检测，成为急需解决的一个热点问题。

目前为止，行人检测技术在其发展的过程中主要经历了两个阶段：传统的行人检测方法和基于深度学习的行人检测方法。由于基于深度学习的行人检测方法不管在检测准确率还是检测效率上都远远高于传统的行人检测方法，所以本发明不再赘述传统的行人检测方法。针对基于深度学习的行人检测方法，主要分为两类：两阶行人检测框架和一阶行人检测框架。在两阶行人检测框架中，对于一张被测图像，第一阶段主要生成行人候选区域，一般情况下会生成大约几千个最可能包含行人的候选区域，常用方法有SelectiveSearch,Edge Boxes,RPN等；第二阶段对这些生成的候选区域进行进一步的分类(Classification)和位置回归(Regression)。这一类方法主要是从一般物体检测方法Fast-RCNN和Faster-RCNN改进而来。在一阶行人检测框架中，是直接对锚点(Anchor)进行分类和位置回归预测，代表性的方法主要有基于YOLO/SSD的行人检测方法。现阶段的这些行人检测方法虽然取得了一定的进展，但是在真实场景中的遮挡行人的检测效果远远不能令人满意。导致现阶段的基于深度学习的行人检测方法不适用于真实场景中遮挡行人检测的主要原因为：现实中的场景千变万化，再加上行人的非刚性特点而使得的行人的姿势变化多端，同时真实场景中的绝大多数行人都会被其他物体所遮挡或者出现行人间相互遮挡的现象，如图1所示。上述诸多因素导致目前还没有一种有效的方法可以解决真实场景中行人严重遮挡的问题。

对于行人检测中的遮挡问题，目前常用的一个解决方法是分别训练一系列的检测器，每一个检测器只用来检测身体的某个特定部位。例如，有的工作分别训练45个检测器，并将行人的身体划分为45部分，每个检测器只负责检测行人身体的某一个特定部位，如果检测到的部位的数量大于一定的阈值，则认为成功检测到一个遮挡的行人；还有的工作利用LSTM(Long Short Term Memory)机制来获取行人身体各部分区域之间的关系来解决行人检测中的遮挡问题。但是，现存的解决遮挡行人检测的方法中，这些行人身体各部分的划分都是事先人为定义的，这在一定程度上影响到了遮挡行人检测的识别率。同时，这些工作中的针对行人身体各部位区域检测的检测器都是单独训练的，这大大降低了行人检测的效率。

针对上述真实场景下遮挡行人检测存在的问题，本发明提出了一种基于身体关键点检测的真实场景遮挡行人检测方法，首先检测行人的一些身体关键点，然后通过检测到的行人身体关键点将行人身体自动的划分为不同的语义部分，将截取出来的行人身体语义部分图像与被遮挡的行人候选区域图像在图像级别上拼成一张大的图像来训练一个针对遮挡行人的行人检测器，从而解决真实场景下行人检测中的遮挡问题，其核心出发点是，第一通过行人身体关键点的检测来自动划分生成行人身体各个语义区域图像，第二利用对行人身体部分区域的检测来实现真实场景中遮挡行人的检测。本发明突破了现有深度学习方法不适用于真实场景中的遮挡行人检测的问题，克服了现阶段的行人检测方法在识别真实场景中被遮挡行人时正确率低的困难，促进了基于深度学习的行人检测技术在真实场景行人检测中的应用。

发明内容

本发明主要针对现有的基于深度学习的行人检测方法的不足，克服了现有的这些行人检测方法不适用于真实场景中的遮挡当行人检测的困难，解决了现阶段的行人检测方法在真实场景中遮挡行人识别时正确率低的问题，提供了一种基于身体关键点检测的真实场景遮挡行人检测网络和检测方法。使用基于身体关键点检测的真实场景遮挡行人检测方法可以实现真实场景中被遮挡的行人检测，检测对象不止局限于背景较为简单且不存在遮挡的行人，更不局限于实验室理想情况下的摆拍图片，尤其是使得真实场景中行人被其他物体遮挡或者存在行人间相互遮挡间的行人的检测成为可能。所采取的技术方案如下：

一种基于身体关键点检测的真实场景遮挡行人检测网络，所述检测网络包括关键点检测网络、身体区域分割和图像合成模块以及行人分类网络；

关键点检测网络，用于检测行人身体的关键点信息，并将所述关键点信息输入至身体区域分割和图像合成模块；

身体区域分割和图像合成模块，用于通过检测到的行人身体的关键点信息将行人身体自动划分成不同的语义区域，并利用语义区域生成合成图像输入至行人分类网络中完成行人分类网络的训练；

行人分类网络，用于判断所述合成图像是行人图像还是背景图像。

进一步地，所述行人分类网络包括Resnet50主网络结构和两个平行的全连接层。

一种基于身体关键点检测的真实场景遮挡行人检测方法，所述检测方法包括：

步骤一、利用行人检测数据库中的训练样本训练生成一个基准行人检测器；然后，通过所述基准行人检测器对所述行人检测数据库中的样本图像进行截取获得候选区域图像；

步骤二、通过关键点检测网络检测所述候选区域图像中人体身体的关键点信息，将所述关键点信息作为身体关键点真值，进而训练关键点检测网络；

步骤三、所述身体区域分割和图像合成模块通过关键点信息将行人身体自动划分成不同的语义区域并获取精确的各语义区域的边界框；然后，根据边界框将身体各部分区域从输入的候选区域图像中截取出来，并通过缩放形式进行图像尺寸统一，获得与所述语义区域对应的身体区域图像；最后，将所述身体区域图像与所述候选区域图像在图像级别上合成一张图像，进而获得合成图像；将所述合成图像输入至行人分类网络中指导训练行人分类网络；

步骤四、所述行人分类网络根据输入的合成图像，合成图像中包含了行人身体各个部分语义区域图像，通过这些部分语义区域图像判别输入图像是行人图像还是背景图像，进而完成真实场景中遮挡行人的检测。

进一步地，步骤一所述获得候选区域图像的具体过程包括：

第一步：利用行人检测数据库中的训练样本训练生成一个基准行人检测器；其中，所述行人检测数据库包括训练样本图像和测试样本图像；

第二步：对于训练样本图像中的每一张图像，利用基准行人检测器其进行行人位置信息预测，并从每一张图像中截取产生100个最有可能包含行人的区域并保存；

第三步：对于测试样本图像中的每一张图像，利用基准行人检测器其进行行人位置信息预测，并从每一张图像中截取产生100个最有可能包含行人的区域并保存；其中，第二步和第三步获得的最有可能包含行人的区域即为候选区域图像。

进一步地，步骤一所述行人检测数据库采用CityPersons数据集；所述CityPersons数据集依据行人大小和受遮挡程度将所有被检定目标分为正常、小目标、严重遮挡目标和全部四类，其中，严重遮挡目标是指行人躯体面积为20％—65％可见的行人目标，全部是指一切的行人，包括正常、小目标、遮挡以及不遮挡的全部行人目标。

进一步地，步骤二所述人体身体的关键点信息包括鼻子，左右眼睛，左右耳朵，左右肩膀，左右肘关节，左右腕关节，左右髋关节，左右膝关节和左右踝关节。

进一步地，所述步骤三所述语义区域包括：头部、上半身、身体中间部分和下半身。

进一步地，步骤三所述获取精确的身体各部分区域的边界框的具体过程包括：首先，根据身体各部分区域对应的关键点信息形成一个能够包含所述关键点信息的一个最小矩形框，然后利用放大因子为1.2对所述矩形框进行放大，获得放大后的矩形框；所述放大后的矩形框即为边界框。

进一步地，步骤四所述行人图像和背景图像的分类标准为：输入候选区域经过行人分类网络后的得分大于一定的阈值(0.5)即判别为行人图像，如果得分小于0.5即判别为背景图像。

进一步地，步骤四所述行人分类网络的初始化包括：

行人分类网络的网络参数利用在ImageNet数据集上预训练的模型进行初始化，对于新增的全连接层，用标准差为0.1的高斯分布去初始化，同时偏差初始化为0；训练整个网络时，每个Mini-batch包含64张图像，行人图像和背景图像的样本比例为1:1，总迭代次数为20轮，前12轮迭代的学习率为0.01，后8轮迭代的学习率为0.001。

本发明有益效果：

本发明提出了一种基于身体关键点检测的真实场景遮挡行人检测网络是一种新颖的通用的端到端的基于身体关键点检测的遮挡行人检测框架，将关键点检测成功的引入到遮挡行人检测技术中，克服真实场景下严重遮挡行人检测的困难，进而提高真实场景下遮挡行人检测的准确率，实现有效检测图像中的被遮挡的行人目标。在本发明提出的一种基于身体关键点检测的真实场景遮挡行人检测方法中，身体关键点检测网络精确的检测到行人候选区域的行人身体关键点，身体区域分割和图像合成模块进一步利用检测到的身体关键点自动将行人划分成不同的语义区域，并将各个语义区域图像在图像级别上与输入的行人候选区域图像合成一张图像，最后，将合成的图像输入到行人分类网络中，进一步判定起始输入的行人候选区域图像是行人图像还是背景图像，进而达到了真实场景中遮挡行人检测的目的。本发明解决了现有的基于深度学习的行人检测方法不适用于真实场景中遮挡行人检测的问题，能够有效、精确的检测出图像中被遮挡的行人目标，促进了遮挡行人检测技术的发展，为行人检测技术从实验室到实际应用起到了一定的推动作用。

附图说明

图1为真实场景中遮挡行人示意图；

图2为基于身体关键点检测的真实场景遮挡行人检测网络结构示意图；

图3为行人身体关键点检测示意图；

图4为检测到的身体关键点以及各个关键点在特征图上的热量图；

图5为身体区域分割和图像合成方法示意图；其中，(a)为检测到的身体关键点和从关键点到身体区域划分的映射图，(b)为截取出来的身体各区域图像与行人候选区域图像在图像级别上的合成图像，(c)是身体关键点与身体各语义区域的对应表；

图6为实验结果图一；

图7为实验结果图二；

图8为实验结果图三。

具体实施方式

下面结合具体实施例对本发明做进一步说明，但本发明不受实施例的限制。

实施例1：

一种基于身体关键点检测的真实场景遮挡行人检测网络，如图2所示，所述检测网络包括关键点检测网络、身体区域分割和图像合成模块以及行人分类网络；

各个网络和模块的具体结构为：

第一个模块是关键点检测网络，其主要作用是检测行人身体的关键点信息，本发明依据COCO标准数据集的定义来检测行人身体的17个关键点，分别为鼻子，左右眼睛，左右耳朵，左右肩膀，左右肘关节，左右腕关节，左右髋关节，左右膝关节，左右踝关节，如图3所示。进而利用检测到的行人身体关键点将行人身体自动划分成不同的语义区域。在关键点检测网络中，用户可以根据实际需求自行训练一个身体关键点检测网络，也可以采用现有的关键点检测网络。本实施例中，采用一个现有的身体关键点检测网络/方法——ECCV18身体关键点检测竞赛中排名第一的方法来检测输入行人候选区域身体的各个关键点，图4为检测到的身体关键点以及各个关键点在特征图上的热量图。

第二个模块是身体区域分割和图像合成模块，其主要利用检测到的那些行人身体关键点来将行人身体自动划分成不同的语义区域，如图5(a)所示。由于真实场景的多变性，本发明结合检测到的身体关键点将行人身体自动划分成四个不同的语义区域，即头部，上半身，身体的中间部分，和下半身，具体划分方法图如图5(c)所示。此外，为了能够有效的利用划分出来的各部分身体区域来解决遮挡行人检测问题，本实施例提出了一种简单有效的方法，即将划分出来的各部分行人身体区域图像与遮挡行人候选区域图像在图像级别上合成一张大的图像，如图5(b)所示，将这张合成的图像输入到行人分类网络中来判别输入的图像是行人图像还是背景图像，实现遮挡行人的检测。

第三个模块是行人分类网络，它的主要作用是判定网络起始输入的行人候选区域图像是行人图像还是背景图像。其输入为行人候选区域图像和身体各部分区域图像合成的图像。如表1所示，本发明采用ResNet50网络结构作为行人分类网络的网络躯干，此外，根据实际需求本发明在ResNet50的结构上新增了一个全连接层(Fully Connected Layer,FC)，它们的作用为判定输入的图像是行人图像还是背景图像。行人分类网络的输出是输入图像是行人的概率。

表1行人分类网络的网络结构细节信息

实施例2

步骤二、通过关键点检测网络检测所述候选区域图像中人体身体的关键点信息，将所述关键点信息作为身体关键点真值，进而训练关键点检测网络；所述人体身体的关键点信息包括鼻子，左右眼睛，左右耳朵，左右肩膀，左右肘关节，左右腕关节，左右髋关节，左右膝关节和左右踝关节；

其中，所述语义区域包括：头部、上半身、身体中间部分和下半身；并且，所述获取精确的身体各部分区域的边界框的具体过程包括：首先，根据身体各部分区域对应的关键点信息形成一个能够包含所述关键点信息的一个最小矩形框，然后利用放大因子为1.2对所述矩形框进行放大，获得放大后的矩形框；所述放大后的矩形框即为边界框。

步骤四、所述行人分类网络根据输入的合成图像，合成图像中包含了行人身体各个部分语义区域图像，通过这些部分语义区域图像判别输入图像是行人图像还是背景图像，进而完成真实场景中遮挡行人的检测。其中，所述行人图像和背景图像的分类标准为输入候选区域经过行人分类网络后的得分大于一定的阈值(0.5)即判别为行人图像，如果得分小于0.5即判别为背景图像。

本实施例中，选用具有标注信息的CityPersons数据库作为行人检测数据库，为训练本发明中的行人分类网络准备训练样本。同时，为了证明本发明的通用性，本实施例采用了现存的ALFNet行人检测器来实现上述目的。利用训练好的基准行人测器产生候选区域，即对训练数据集中的每一张图像样本的行人位置进行预测，并且根据预测的行人位置信息来截取产生行人候选图像和背景候选图像，得到的行人候选图像和背景候选图像将作为本发明中基于身体关键点检测的真实场景遮挡行人检测网络的训练样本。此外，由于CityPersons数据集中没有身体关键点信息的标注，本实施例采用身体关键点检测方法来对每一张行人候选区域图像中的身体关键点进行预测，并将预测到的身体关键点作为身体关键点真值，进而用来得到行人身体不同的语义区域图像。最后，利用这些截取的行人和背景图像和已经得到的行人身体关键点真值作为输入信息来训练所提出的基于身体关键点检测的真实场景遮挡行人检测网络，行人分类网络将根据关键点检测得到的各部分行人身体区域给出一个更为准确的遮挡行人检测结果。

下面将对每部分进行详细描述：

行人检测数据库的形成和选取：训练样本图像可以根据实际需求自行收集，进而构建相应的真实场景行人检测数据库，也可以选用现有公开的行人检测数据库，如Caltech，CityPersons等数据库。为了方便与其它现有方法进行比较，本实施例采用被广泛使用的CityPersons数据集中的图像作为所述检测方法的训练样本和测试样本。CityPersons数据集是一个最新公布的真实场景行人检测数据库，其中的图像均是在真是场景下抓拍得到的，这些图片来自欧洲多个国家中的18个城市跨越3个季节的真实街道场景记录图，其中也包含大量的遮挡行人目标，同时这些行人受尺度、光照等因素的影响，这种真实场景下的遮挡行人给现有的行人检测方法提出了巨大的挑战。CityPersons数据集包含5000张图像，约35000个标注的行人目标，本发明按照标准设定的训练集及测试集来训练和测试所提出的基于身体关键点检测的真实场景遮挡行人检测网络。此外，CityPersons数据集依据行人大小和受遮挡程度将所有被检定目标分为四类，分别是正常/小目标/严重遮挡目标/全部，其中严重遮挡是指行人躯体面积约20％-65％可见的行人目标。

基准行人检测器的训练及工作过程为：利用上述准备好的训练样本训练一个基准行人检测器，其作用是为所述基于身体关键点检测的真实场景遮挡行人检测方法产生训练样本，即截取产生行人候选区域图像和背景候选区域图像。基准行人检测器的好坏将直接影响到基于身体关键点检测的真实场景遮挡行人检测网络训练样本的质量。这里的基准行人检测器可以自行训练，也可以是现存的任何一个行人检测器，本实施例将这个基准行人检测器作为一个基准线(Baseline)，在这个检测器的基础上使得行人检测的准确率得到进一步的提升。为了证明本发明的通用性，所以本发明采用了行人检测器ALFNet，其基础网络结构为ResNet-50。本实施例中，利用所述基准行人检测器为基于身体关键点检测的真实场景遮挡行人检测网络截取产生候选区域图像的具体过程为：

第二步：对于CityPersons数据集中的每一个训练样本图像，利用基准行人检测器其进行行人位置信息预测，并从每一张图像中截取产生100个最有可能包含行人的区域并保存；将这些保存的图像作为基于身体关键点检测的真实场景遮挡行人检测网络的训练样本。

随后，这些被保存的候选区域图像被输入至身体区域分割和图像合成模块，通过身体区域分割和图像合成模块生成一张大图，最后行人分类网络判断输入的行人候选区域是行人图像还是背景图像，进而实现真实场景下的遮挡行人检测的功能。

身体区域分割和图像合成模块的图像处理过程如下：根据已经检测到的身体关键点，本发明将行人身体自动的划分成不同的语义部分：头部，上半身，身体的中间部分，和下半身，如图5(a)所示。由检测到的关键点获取精确的身体各部分区域的边界框(BoundingBox)的具体过程为：首先根据身体各部分区域对应的关键点画一个能包含这些关键点的一个最小矩形框，为了使得这个矩形框可以完全覆盖身体各部分区域，使用了一个放大因子1.2来放大上述得到的矩形框。为了进一步的利用得到的身体各部分的语义区域来解决真实场景中遮挡行人的检测问题，在这里提出了一种简单有效的方法：首先根据得到的身体各部分区域的矩形框将身体各部分区域从输入的行人候选区域图像中截取出来，然后缩放到统一尺寸，最后将这些缩放后的身体各部分区域图像与输入的行人候选区域图像在图像级别上合成一张大的图像，如图5(b)所示。这张合成的大的图像最终输入到行人分类网络中来判别起始的输入图像是行人图像还是背景图像，进而达到真实场景中遮挡行人检测的目的。

利用关键点检测网络对行人分类网络的训练过程为：对于上述截取保存的最有可能包含行人的候选区域图像，首先求取每一个产生的图像与人为标注的行人位置真值(Ground-truth Bounding Boxes)的重叠面积(Intersection over Union,IoU)，如果IoU大于0.5则标记为正样本(行人)，如果IoU小于0.35则标记为负样本(背景)。由于CityPersons数据集中没有行人身体关键点信息的标注，本发明采用身体关键点检测网络对每一张行人候选区域图像中的身体关键点进行预测，并将预测到的身体关键点作为身体关键点真值，进而用来训练关键点检测网络，然后身体区域分割和图像合成模块中依据检测到的关键点将身体不同的语义区域图像与输入的行人候选区域图像在图像级别上合成一张大图去指导训练行人分类网络。

所述一种基于身体关键点检测的真实场景遮挡行人检测方法通过训练基于身体关键点检测的真实场景遮挡行人检测网络实现真实场景行人小目标检测，其训练过程和实验结果为：

利用行人身体关键点检测网络、身体区域分割和图像合成模块和行人分类网络结构，和已经构建好的正负训练样本就可以训练一个基于身体关键点检测的真实场景遮挡行人检测网络。其中，行人分类网络的网络参数利用在ImageNet数据集上预训练的模型进行初始化，对于新增的全连接层，用标准差为0.1的高斯分布去初始化，同时偏差(bias)初始化为0。训练整个网络时，每个Mini-batch包含64张图像，正负样本比例为1:1，总迭代次数为20轮，前12轮迭代的学习率为0.01，后8轮迭代的学习率为0.001。

通过上述步骤训练的基于身体关键点检测的真实场景遮挡行人检测网络，不受现有行人检测方法容易受到遮挡的影响而导致检测准确率低下的限制，可以实现真实场景下的遮挡行人检测任务。实验证明所述基于身体关键点检测的真实场景遮挡行人检测方法的行人定位精度准确非常高，同时检测效率高。表2为实验结果对比数据，其中，采用CityPersons数据集的标准评价指标FPPI(False Positive Per Image)对所训练的网络进行评估。从对比数据中可以看出，本发明提出的“基于身体关键点检测的真实场景遮挡行人检测方法”比目前最先进的行人检测器ALFNet的准确率有一个很大的提升，Reasonable/Heavy/All图像集上分别提高了0.77％/4.14％/0.59％。此外，与其他最新的行人检测器进行比较，本发明在Reasonable/Small/All图像集中的检测结果都要优于其他方法，均达到了目前最高的检测结果11.24/39.72/38.11，特别是针对遮挡行人目标检测的准确率提升了超过4％，从而证明了本发明提出的基于身体关键点检测的真实场景遮挡行人检测方法在遮挡行人标检测上的有效性。图6、图7、图8为实验结果图，其中绿色的框为人为标注的行人的真值位置(Ground-truth Bounding Boxes)，红色的检测框为“基于身体关键点检测的真实场景遮挡行人检测方法”的检测结果，从图中看出即使是在行人被遮挡、尺度较小、受光照等因素影响的条件下，本发明提出的方法几乎可以找到全部的待检测行人目标。

表2实验结果对比数据

虽然本发明已以较佳的实施例公开如上，但其并非用以限定本发明，任何熟悉此技术的人，在不脱离本发明的精神和范围内，都可以做各种改动和修饰，因此本发明的保护范围应该以权利要求书所界定的为准。

Claims

1.一种基于身体关键点检测的真实场景遮挡行人检测网络，其特征在于，所述检测网络包括关键点检测网络、身体区域分割和图像合成模块以及行人分类网络；

行人分类网络，用于判断所述合成图像是行人图像还是背景图像；利用关键点检测网络对行人分类网络的训练过程为：由于CityPersons数据集中没有行人身体关键点信息的标注，采用身体关键点检测网络对每一张行人候选区域图像中的身体关键点进行预测，并将预测到的身体关键点作为身体关键点真值，进而用来训练关键点检测网络，然后身体区域分割和图像合成模块中依据检测到的关键点将身体不同的语义区域图像与输入的行人候选区域图像在图像级别上合成一张大图去指导训练行人分类网络；

行人图像和背景图像的分类标准为：输入候选区域经过行人分类网络后的得分大于阈值0.5即判别为行人图像，如果得分小于阈值0.5即判别为背景图像。

2.根据权利要求1所述真实场景遮挡行人检测网络，其特征在于，所述行人分类网络包括Resnet50主网络结构和两个平行的全连接层。

3.一种基于权利要求1所述检测网络的真实场景遮挡行人检测方法，其特征在于，所述检测方法包括：

4.根据权利要求3所述真实场景遮挡行人检测方法，其特征在于，步骤一所述获得候选区域图像的具体过程包括：

第三步：对于测试样本图像中的每一张图像，利用基准行人检测器其进行行人位置信息预测，并从每一张图像中截取产生100个最有可能包含行人的区域并保存；其中，第二步和

第三步获得的最有可能包含行人的区域即为候选区域图像。

5.根据权利要求3所述真实场景遮挡行人检测方法，其特征在于，步骤一所述行人检测数据库采用CityPersons数据集；所述CityPersons数据集依据行人大小和受遮挡程度将所有被检定目标分为正常、小目标、严重遮挡目标和全部四类，其中，严重遮挡目标是指行人躯体面积为20％—65％可见的行人目标。

6.根据权利要求3所述真实场景遮挡行人检测方法，其特征在于，步骤二所述行人身体的关键点信息包括鼻子，左右眼睛，左右耳朵，左右肩膀，左右肘关节，左右腕关节，左右髋关节，左右膝关节和左右踝关节。

7.根据权利要求3所述真实场景遮挡行人检测方法，其特征在于，所述步骤三所述语义区域包括：头部、上半身、身体中间部分和下半身。

8.根据权利要求3所述真实场景遮挡行人检测方法，其特征在于，步骤三所述获取精确的身体各部分区域的边界框的具体过程包括：首先，根据身体各部分区域对应的关键点信息形成一个能够包含所述关键点信息的一个最小矩形框，然后利用放大因子为1.2对所述矩形框进行放大，获得放大后的矩形框；所述放大后的矩形框即为边界框。

9.根据权利要求3所述真实场景遮挡行人检测方法，其特征在于，步骤四所述行人分类网络的初始化包括：

行人分类网络的网络参数利用在ImageNet数据集上预训练的模型进行初始化，对于新增的全连接层，用标准差为0.1的高斯分布去初始化，同时偏差初始化为0；训练整个网络时，

每个Mini-batch包含64张图像，行人图像和背景图像的样本比例为1:1，总迭代次数为20轮，

前12轮迭代的学习率为0.01，后8轮迭代的学习率为0.001。