CN114067359B

CN114067359B - 融合人体关键点与可见部位注意力特征的行人检测方法

Info

Publication number: CN114067359B
Application number: CN202111294660.1A
Authority: CN
Inventors: 薛彦兵; 董翔超; 蔡靖; 王志岗; 温显斌
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2024-05-07
Anticipated expiration: 2041-11-03
Also published as: CN114067359A

Abstract

一种融合人体关键点与可见部位注意力特征的行人检测方法，通过引入人体关键点注意力机制和可见部位注意力机制来对严重遮挡的行人特征进行优化，在抑制遮挡物的特征信息的同时使更多的特征信息聚集在行人上，减少遮挡物对模型的干扰，使得模型能够较好地检测处于严重遮挡状态的行人目标，同时为了提升检测框的质量，本方法通过衰减低质量样本的置信度来提升检测的精准度。基于本方法的行人检测在Citypersons数据集上的漏检率为40.59%，相比其他方法有更低的漏检率，对于严重遮挡的行人检测任务具有一定的实用价值。

Description

融合人体关键点与可见部位注意力特征的行人检测方法

【技术领域】

本发明涉及模式识别、图像处理以及计算机视觉等领域，具体为一种融合人体关键点与可见部位注意力特征的行人检测方法。

【背景技术】

近年来，人工智能在监控、公共安防等领域中的应用越来越多，并且随着算法能力的提升，人工智能在这些领域具有重要的发展意义，它不仅能够无间断地进行监控和相关辅助工作，而且可以帮助人工进行监控减少人工的出错率。然而，现实场景存在大量行人密集的场景，例如，人与人、人与物之间存在较多的遮挡，对于普通的检测算法很难处理这样的问题，很容易产生漏检、误检等问题。

Faster Region Convolutional Neural Network(Faster RCNN)即一种快速且带有区域信息的卷积神经网络，是基于深度学习并用于目标检测任务的算法，其流程大致为：首先将输入图片通过深度网路提取图片中的特征；其次将该特征送入区域提议网络(RPN，Region Proposal Network)，该模块负责两个功能，其一是在图像上生成不同大小和不同长宽比的锚框/候选检测框(Anchor)，并通过交并比(IoU，Intersection over Union)函数对这些候选检测框进行正负样本判断；其二是在上述的候选检测框集合中选择出最优的框作为目标的候选框。然后通过感兴趣区域池化(RoI Pooling，Region of InterestPooling)，将不同大小的候选区域所对应的特征缩放至相同尺寸即7*7大小的特征，便于后续的操作。最后对上述处理后的特征分别进行分类和检测框的定位，得到最终的检测结果。

行人检测是目标检测的子任务，其目标是对于输入的图像，通过算法的处理在原图上显示出代表行人的位置的矩形框，常采用Faster RCNN检测算法。然而，行人检测的难点主要在于在遮挡程度较高的场景中，普通的检测算法很难检测出被遮挡的目标。

【发明内容】

本发明的目的在于提出一种融合人体关键点与可见部位注意力特征的行人检测方法，它可以克服现有技术的不足，是一种基于注意力机制的行人检测模型，通过引入人体关键点的注意力机制和可见部位的注意力机制，用以针对严重遮挡的行人目标的行人检测方法，该方法提升了对严重遮挡的行人目标的检测效果，检测准确率更高，具有一定的实用价值。

本发明的技术方案：一种融合人体关键点与可见部位注意力特征的行人检测系统，其特点在于它包括数据采集单元、融合人体关键点与可见部位注意力特征的行人检测单元；其中，融合人体关键点与可见部位注意力特征的行人检测单元由特征提取模块、人体关键点生成模块、带有计算样本质量分数的区域提议网络模块、感兴趣区域池化模块、关键点注意力模块、可见部位注意力模块和检测头模块组成；所述数据采集单元对数据集中的图片及可见部位的标签信息进行采集，其输出端分别连接特征提取模块、人体关键点生成模块及可见部位注意力模块的输入端；所述人体关键点生成模块的输出端连接关键点注意力模块的输入端；所述特征提取模块的输出端与感兴趣区域池化模块的输入端连接；所述带有计算样本质量分数的区域提议网络模块的输入端连接特征提取模块，其输出端与感兴趣区域池化模块的输入端连接；所述关键点注意力模块的输入端与感兴趣区域池化模块的输出端连接，其输出端连接可见部位注意力模块及检测头模块的输入端；所述可见部位注意力模块的输出端连接检测头模块的输入端；所述检测头模块的输出端输出检测结果。

所述特征提取模块是由VGG16网络组成，为常规结构。

所述检测头模块是由2个全连接层组成的结构，分别用于进行检测框的定位和行人的分类，其中定位分支用于优化候选检测框与标签的距离，分类分支用于计算每个候选检测框中的目标属于行人的概率，并进行损失计算，便于后续训练。

一种融合人体关键点与可见部位注意力特征的行人检测方法，其特征在于它包括以下步骤：

(1)由数据采集单元对待识别图片进行采集，并将人体可见部位的标签信息输入到可见部位注意力模块；由特征提取模块利用VGG16网络完成对输入的待识别图片进行图像特征的提取：

(2)由人体关键点生成模块对人体关键点进行生成：

人体关键点生成模块中利用现有的姿态估计网络对输入图像中的行人提取人体关键点，并输出对应人体关键点的响应度图，其中，人体关键点对应不同的人体部位，利用人体关键点的响应度图与图像中被遮挡的人体部位的特征相乘，即可对图像中被遮挡的人体部位的特征进行抑制，从而减少遮挡物对人体特征的干扰；

所述步骤(2)中人体关键点的响应度图的大小为(0,1)之间的小数，且响应度图的大小反映了人体部位被遮挡的程度，遮挡程度越高则响应度越小。

(3)建立带有计算样本质量分数的区域提议网络模块的模型：

(3-1)由带有计算样本质量分数的区域提议网络模块生成步骤(1)的输出特征对应的候选检测框样本，并利用公式(1)计算每个样本与标签框的交并比；由于交并比代表样本与标签框的接近程度，交并比越大则代表当前样本属于正样本，相反越小则代表当前样本属于负样本；

其中，area(A)和area(B)分别表示候选检测框样本的面积和标签的面积；

所述步骤(3-1)中的正样本是指交并比大于阈值T的样本，通常T值取值范围在[0.5，0.7]之间；所述负样本是指交并比小于阈值F的样本，通常F值取值范围在(0，0.5)之间为最优；根据目前行人检测相关研究，具体取值需根据多次实验结果中最优结果所对应的阈值，本实施例中取T＝0.7，F＝0.3。

(3-2)计算步骤(3-1)输出的候选检测框样本的质量分数：

(3-2-1)假设候选检测框样本的集合为S，对步骤(3-1)产生的每个样本利用公式(2)-(4)计算与之对应的标签的分类损失Loss^cls、定位损失Loss^reg和交并比损失Loss^iou：

Loss^iou＝1-IoU (4)

其中，式(2)中N代表特征的维度，i代表集合S中的第i个样本，y_i表示集合S中第i个样本的标签，p_i表示第i个样本的类别属于行人的概率；式(3)中表示集合S中第i个样本所对应的标签；

(3-2-2)对步骤(3-2-1)得到的每个样本计算后的三个损失求和，如式(5)所示：

其中，α，β，γ分别代表控制三个损失的权重，实施例中α＝2，β＝2，γ＝1，i表示样本集合S中的第i个样本，C_i值的大小代表第i个样本与标签的质量分数即相似程度；且C_i值越小代表该样本与标签越相似，表明该样本属于高质量的样本，相反则属于低质量的样本；样本的质量决定着检测的精确度，高质量样本有利于提升算法的精准度，而低质量样本容易引起检测误差甚至错误；

(3-2-3)选出C_i值最小的样本，记作P_i ^*，P_i ^*代表质量最优的样本，如式(6)所示；

(3-2-4)利用式(7)对样本C_i进行归一化处理，随后对样本集合S中除C_i值最小的样本P_i ^*外，剩余的其他样本进行如式(8)所示的置信度重分配的操作：

其中，代表除去P_i ^*后集合中剩余样本的置信度；

(4)感兴趣区域池化模块对特征提取模块输出的特征以及带有计算样本质量分数的区域提议网络模块输出的候选检测框进行处理，将候选检测框对应的特征统一缩放，得到F特征；

所述步骤(4)中统一缩放的大小为7*7。

(5)构建关键点注意力模块和可见部位注意力模块的模型：

(5-1)关键点注意力模块的构建，将由步骤(2)提取的输入图像中行人的人体关键点，通过卷积和全连接层，得到注意力权重图Att_k，如式(9)所示：

Att_k＝FC(ReLU(Conv(Key Points))) (9)

其中，FC为全连接层，ReLU为激活函数,Conv为卷积运算，Key Points为行人的关键点信息；

随后将公式(9)得到的注意力权重图Att_k与(4-1)输出的F特征相乘，并记相乘结果为该结果代表在特征F的通道上对行人特征中被遮挡的部位进行抑制后的特征，如式(10)所示：

(5-2)可见部位注意力模块的构建，利用数据集中的行人可见部位的标签信息，将可见部位的区域记为1，其他位置记为0，则可见部位的注意力图Att_v，如式(11)所示：

Att_v∈[1×7×7] (11)

随后将步骤(5-1)的输出与步骤(5-2)的输出Att_v作为可见部位注意力模块输入，计算两者的乘积，该计算结果代表在F特征的空间上对行人特征中被遮挡的部位进行抑制后的特征，进一步减少遮挡物对人体特征的干扰，记为/>如式(12)所示：

(5-3)将步骤(5-1)得到的输出与步骤(5-2)得到的输出/>进行融合相加，得到融合后的特征作为输出，该结果代表在特征F的空间和通道上对遮挡信息进行抑制后的特征，如式(13)所示，记为F_out；

最后，将(5-3)的输出的F_out送入检测头模块进行检测框的定位和行人的分类，并进行损失计算，得到最终检测结果。

(6)融合人体关键点和可见部位注意力特征方法对检测效果的贡献在于该方法抑制了遮挡物的信息，提升行人人体的信息，从而得到更好的检测效果。

本发明的工作原理：本发明设计了一种融合人体关键点与可见部位注意力特征的行人检测方法，主要研究普通的检测算法难以处理行人检测场景中严重遮挡的行人目标。普通的行人检测网络对重叠程度大的目标或者被其他相似物体遮挡的目标的检测效果不佳，主要原因除了由于目标较为密集，在样本分配上不够明确，导致较多的负样本被视为正样本进行检测外，还存在模型的特征表达不够精确，导致被遮挡的目标不能被较好地识别。为了解决上述问题，本发明引入计算样本属于正样本的程度的模块来降低负样本的置信度，提升样本分配的精确度，同时引入人体关键点的注意力机制和可见部位的注意力机制来提升特征表达的精确度。与普通的Faster RCNN检测算法相比，本方明所提出的融合人体关键点与可见部位注意力特征的行人检测方法具有以下特点：在原区域提议网络中加入了计算各个样本属于正样本的程度的模块，提升了检测框的质量；引入了人体关键点的信息和可见部位的信息较好地提升了算法对严重遮挡的行人的检测效果；推理速度不受影响，能较快地处理高分辨率的图像；与其他方法相比，对于严重遮挡的行人目标，本方法具有较好的检测效果。

本发明的优越性：引入计算样本属于正样本的程度来选择更好的样本进行检测，达到降低负样本的置信度的目的，提升了样本分配的精确度，同时引入人体关键点的注意力机制和可见部位的注意力机制来提升了特征表达的精确度；对于严重遮挡的行人目标对的检测准确率更高，具有一定的实用价值。

【附图说明】

图1为本发明所涉一种融合人体关键点与可见部位注意力特征的行人检测方法种的系统架构示意图。

图2为本发明所涉一种融合人体关键点与可见部位注意力特征的行人检测系统中带有计算样本质量分数的区域提议网络模块的原理结构示意图。

图3为本发明所涉一种融合人体关键点与可见部位注意力特征的行人检测方法中人体关键点注意力模块的原理结构示意图。

图4文本发明所涉一种融合人体关键点与可见部位注意力特征的行人检测方法中可见部位注意力模块的原理结构示意图。

图5为本发明所涉一种融合人体关键点与可见部位注意力特征的行人检测方法与其它行人检测方法的性能比较示意图。

图6为本发明所涉一种融合人体关键点与可见部位注意力特征的行人检测方法中姿态估计网络输出的响应度图示意图(其中，图6-1为行人，图6-2为该行人的人体关键点对应的响应度图示意图)。

图7为本发明所涉一种融合人体关键点与可见部位注意力特征的行人检测方法对遮挡的处理效果示意图(其中，图7-1为候选检测样本，图7-2为不对遮挡进行处理的效果示意图，图7-3为本方法对遮挡进行处理后的效果示意图)。

图8为本发明的一种实施例中预测的图像对比示意图(其中，图8-1为输入图像，图8-2为预测结果)。

【具体实施方式】

实施例：一种融合人体关键点与可见部位注意力特征的行人检测系统，如图1所示，其特点在于它包括数据采集单元、融合人体关键点与可见部位注意力特征的行人检测单元；其中，融合人体关键点与可见部位注意力特征的行人检测单元由特征提取模块、人体关键点生成模块、带有计算样本质量分数的区域提议网络模块、感兴趣区域池化模块、关键点注意力模块、可见部位注意力模块和检测头模块组成；所述数据采集单元对对数据集中的图片及可见部位的标签信息进行采集，其输出端分别连接特征提取模块、人体关键点生成模块及可见部位注意力模块的输入端；所述人体关键点生成模块的输出端连接关键点注意力模块的输入端；所述特征提取模块的输出端与感兴趣区域池化模块的输入端连接；所述带有计算样本质量分数的区域提议网络模块的输入端连接特征提取模块，其输出端与感兴趣区域池化模块的输入端连接；所述关键点注意力模块的输入端与感兴趣区域池化模块的输出端连接，其输出端连接可见部位注意力模块及检测头模块的输入端；所述可见部位注意力模块的输出端连接检测头模块的输入端；所述检测头模块的输出端输出检测结果。

实施例中进一步地有，所述特征提取模块的输入端接收数据采集单元输出端的输入图像信号，其输出端产生图像的特征图，并将特征图输入到带有计算样本质量分数的区域提议网络模块；所述人体关键点生成模块使用现有的姿态估计网络，其输入端连接数据采集单元输出端，接收输入图像信号，其输出端输出图像中行人身体部位的关键点特征，并连接关键点注意力模块；所述带有计算样本质量的区域提议网络模块除了用于生成候选的检测框外，还对所有的候选检测框样本计算质量分数，该质量分数表示样本与标签的相似度，用于筛选出高质量的样本进行检测，其输入端连接特征提取模块的输出端，输出端与感兴趣区域池化模块的输入端连接；所述感兴趣区域池化模块的输入端分别连接特征提取模块输出端及带有计算样本质量的区域提议网络模的输出端，将不同大小的候选检测框样本所对应的特征缩放至相同尺寸，便于后续的操作。所述关键点注意力模块的输入端分别连接人体关键点注意力模块的输出端及感兴趣区域池化模块的输出端，将感兴趣区域池化模块的输出特征图与人体关键点生成模块的输出相乘，其输出端为计算注意力后的特征图，连接到可见部位注意力模块；所述可见部位注意力模块输入端接收关键点注意力模块的输出信号及数据采集单元输出的人体可见部位的标签信息，将两者相乘后作为可见部位注意力特征图输出，随后其输出端与关键点注意力模块的输出的特征图相加，进行特征融合，最后连接到检测头模块的输入端；所述检测头模块输出图像中行人的检测框坐标和置信度，再计算检测框坐标与标签的坐标的误差，以及置信度和标签的置信度误差，便于下一次迭代对检测框坐标和置信度进行优化。

所述特征提取模块是由VGG16网络组成，为常规结构。

本方案的实施例中，所述数据采集单元用于模型对Citypersons数据集的测试，该数据集包含5000张图片，其中2975张图片用于模型训练，500张图片用于验证，1525张图片用于测试，图中包含大量的行人用于模型训练。

(2)由人体关键点生成模块对人体关键点进行生成：

人体关键点生成模块中利用现有的姿态估计网络对输入图像中的行人提取人体关键点，并输出对应人体关键点的响应度图，响应度图的大小为(0,1)之间的小数，响应度图的大小反映了人体部位被遮挡的程度，遮挡程度越高则响应度越小，如图6所示。其中，人体关键点对应不同的人体部位，利用人体关键点的响应度图与图像中被遮挡的人体部位的特征相乘，即可对图像中被遮挡的人体部位的特征进行抑制，从而减少遮挡物对人体特征的干扰，如图7所示。

(3)建立带有计算样本质量分数的区域提议网络模块的模型，如图2所示：

(3-1)由带有计算样本质量分数的区域提议网络模块生成步骤(1)的输出特征对应的候选检测框样本，并利用公式(1)计算每个样本与标签框的交并比；由于交并比代表样本与标签框的接近程度，交并比越大则代表当前样本属于正样本，相反越小则代表当前样本属于负样本；正样本是指交并比大于阈值T的样本，负样本是指交并比小于阈值F的样本，根据目前行人检测相关研究，具体取值需根据多次实验结果中最优结果所对应的阈值，本实施例中取T＝0.7，F＝0.3。

(3-2)计算步骤(3-1)输出的候选检测框样本的质量分数：

Loss^iou＝1-IoU (4)

其中，代表除去P_i ^*后集合中剩余样本的置信度；

(4)感兴趣区域池化模块对特征提取模块输出的特征以及带有计算样本质量分数的区域提议网络模块输出的候选检测框进行处理，将候选检测框对应的特征统一缩放为7*7的大小，得到F特征；

(5)构建关键点注意力模块和可见部位注意力模块的模型：

(5-1)关键点注意力模块的构建，如图3所示，将由步骤(2)提取的输入图像中行人的人体关键点，通过卷积和全连接层，得到注意力权重图Att_k，如式(9)所示：

Att_k＝FC(ReLU(Conv(Key Points))) (9)

(5-2)可见部位注意力模块的构建，如图4所示，利用数据集中的行人可见部位的标签信息，将可见部位的区域记为1，其他位置记为0，则可见部位的注意力图Att_v，如式(11)所示：

Att_v∈[1×7×7] (11)

遮挡的处理结果示意图如图7所示，图7-1为候选检测样本，图7-2表示其他行人检测方法在该候选检测样本上处理的特征分布，图7-3为融合人体关键点和可见部位注意力特征方法在该候选检测样本上处理的特征分布，可见其他方法将特征聚集在了汽车上面，而本方法能将特征聚集中在行人上，减少了汽车对行人特征的干扰。

本实施例利用Python3语言和PyTorch1.5等框架构建融合人体关键点与可见部位注意力特征的行人检测方法。检测的主要目标是由网络检测图像中行人的位置和置信度。

数据采集单元：从https://www.cityscapes-dataset.com/获取Citypersons数据集。

特征提取模块：输入图像为3通道，1024*2048像素的图像，通过13个卷积层和3个池化层操作后，输出512通道，128*256像素的特征图。

人体关键点生成模块：从https://github.com/HRNet/HigherHRNet-Human-Pose- Estimation可获取人体关键点生成网络对输入图像进行预测，输出图像种行人的关键点信息。

带有计算样本质量分数的区域提议网络模块：如图2所示，在图像上生成11个长宽比固定为2.4的候选框，长度分别为4.0、5.4、7.2、9.8、13.2、17.9、24.2、33.0、44.1、59.6、80.0。将特征提取模块输出的特征图通过尺寸为3*3的卷积操作，再分别通过2个尺寸为1*1的卷积操作，得到分类分支和定位分支，其中分类分支计算候选检测框所对应的特征属于行人类别的概率，然后对特征图使用Softmax函数计算属于行人类别的置信度，定位分支计算候选检测框相对标签的偏移量，然后计算候选检测框与标签的交并比，选择出交并比大于0.7的样本作为正样本，将这2个分支的结果组合得到(候选检测框样本，置信度)。随后，对这些样本进行质量分数计算，即选择分类损失、定位损失和IoU损失，记三者之和为C,则C值最小的样本作为当前标签的最优候选检测框样本，同时通过公式(7)-(8)对其他样本的置信度进行重分配，降低低质量的样本的置信度，从而降低由于过多的置信度候选检测框对检测效果的干扰。

关键点注意力模块：如图3所示，使用感兴趣区域池化提取区域提议网络产生的候选检测框对应的特征，记为F，便于后续处理；将人体的关键点的信息通过尺寸为3*3的卷积和全连接层，得到注意力权重图Att_k，如式(9)所示，并将该权重图与F相乘，得到关键点注意力计算后的特征

可见部位注意力模块：Citypersons数据集提供了行人可见部位的标签，利用该标签将行人可见部位的区域记为1，其他位置记为0，如图4所示，得到可见部位的注意力图Att_v，随后将关键点注意力模块的输出与注意力图Att_v相乘得到结果同时为了提升特征的表达效果，将关键点注意力模块输出的特征/>与可见部位注意力模块输出的特征/>进行融合，得到结果F_out。

最后，将F_out输入检测头模块进行检测框的定位和行人的分类，并进行损失计算，得到最终检测结果。

预测结果：如图5所示，横坐标为不同的行人检测方法，纵坐标为漏检率，漏检率越小越好。在Citypersons数据集中的漏检率指标上，本发明所涉一种融合人体关键点与可见部位注意力特征的行人检测方法的漏检率为40.59％，相比其他方法有更低的漏检率。如图8-1与图8-2分别为输入图像和输出图像，本方法能比较高质量地检测出图像中的行人并且有较高的置信度。

本方法提出的带有计算样本质量分数的区域提议网络模块能够更好的区分正负样本，尤其在遮挡严重的区域能够较好地选择更优的样本进行训练，同时抑制冗余的检测框。

利用人体关键点的信息组成的权值可作为通道上的注意力，权值低则代表在此通道上的特征存在遮挡，因此使用通道注意力将特征图中各个通道的值进行重新分配，起到增强或抑制不同通道的作用。

当人体被其他物体所遮挡时，特征图上存在其他物体的特征，这将会干扰检测效果，而可见部位信息组成的注意力可作为空间上的注意力，将特征更加集中在未被遮挡的部位，使得网络能够较好地区分行人与背景。

Claims

1.一种融合人体关键点与可见部位注意力特征的行人检测方法，其特征在于它包括以下步骤：

(2)由人体关键点生成模块对人体关键点进行生成：

(3)建立带有计算样本质量分数的区域提议网络模块的模型：

(3-2)计算步骤(3-1)输出的候选检测框样本的质量分数：

Loss^iou＝1-IoU (4)

其中，α，β，γ分别代表控制三个损失的权重，α＝2，β＝2，γ＝1，C_i值的大小代表第i个样本与标签的质量分数即相似程度；且C_i值越小代表该样本与标签越相似，表明该样本属于高质量的样本，相反则属于低质量的样本；

其中，代表除去P_i ^*后集合中剩余样本的置信度；

(5)构建关键点注意力模块和可见部位注意力模块的模型：

Att_k＝FC(ReLU(Conv(Key Points))) (9)

其中，FC为全连接层，ReLU为激活函数，Conv为卷积运算，Key Points为行人的关键点信息；

随后将公式(9)得到的注意力权重图Att_k与步骤(4)输出的F特征相乘，并记相乘结果为该结果代表在特征F的通道上对行人特征中被遮挡的部位进行抑制后的特征，如式(10)所示：

Att_v∈[7×7×7] (11)

随后将步骤(5-1)的输出与步骤(5-2)的输出Att_v作为可见部位注意力模块输入，计算两者的乘积，该两者的乘积代表在F特征的空间上对行人特征中被遮挡的部位进行抑制后的特征，进一步减少遮挡物对人体特征的干扰，记为/>如式(12)所示；

最后，将(5-3)的输出的F_out送入检测头模块进行检测框的定位和行人的分类，并进行损失计算，得到最终检测结果；

2.根据权利要求1所述一种融合人体关键点与可见部位注意力特征的行人检测方法，其特征在于所述步骤(2)中人体关键点的响应度图的大小为(0，1)之间的小数，且响应度图的大小反映了人体部位被遮挡的程度，遮挡程度越高则响应度越小。

3.根据权利要求1所述一种融合人体关键点与可见部位注意力特征的行人检测方法，其特征在于所述步骤(3-1)中的正样本是指交并比大于阈值T的样本，T值取值范围在[0.5，0.7]之间；所述负样本是指交并比小于阈值F的样本，F值取值范围在(0，0.5)之间为最优。

4.根据权利要求1所述一种融合人体关键点与可见部位注意力特征的行人检测方法，其特征在于所述步骤(4)中统一缩放的大小为7*7。

5.一种实现权利要求1所述融合人体关键点与可见部位注意力特征的行人检测方法的系统，其特征在于它包括数据采集单元、融合人体关键点与可见部位注意力特征的行人检测单元；其中，融合人体关键点与可见部位注意力特征的行人检测单元由特征提取模块、人体关键点生成模块、带有计算样本质量分数的区域提议网络模块、感兴趣区域池化模块、关键点注意力模块、可见部位注意力模块和检测头模块组成；所述数据采集单元对数据集中的图片及可见部位的标签信息进行采集，其输出端分别连接特征提取模块、人体关键点生成模块及可见部位注意力模块的输入端；所述人体关键点生成模块的输出端连接关键点注意力模块的输入端；所述特征提取模块的输出端与感兴趣区域池化模块的输入端连接；所述带有计算样本质量分数的区域提议网络模块的输入端连接特征提取模块，其输出端与感兴趣区域池化模块的输入端连接；所述关键点注意力模块的输入端与感兴趣区域池化模块的输出端连接，其输出端连接可见部位注意力模块及检测头模块的输入端；所述可见部位注意力模块的输出端连接检测头模块的输入端；所述检测头模块的输出端输出检测结果。

6.根据权利要求5所述的系统，其特征在于所述检测头模块是由2个全连接层组成的结构，分别用于进行检测框的定位和行人的分类。