CN113762221B

CN113762221B - 人体检测方法及装置

Info

Publication number: CN113762221B
Application number: CN202111303347.XA
Authority: CN
Inventors: 郭宇鹏; 王晓; 毛少将; 雷庆庆
Original assignee: CRSC Communication and Information Group Co Ltd CRSCIC
Current assignee: CRSC Communication and Information Group Co Ltd CRSCIC
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-03-25
Anticipated expiration: 2041-11-05
Also published as: WO2023077897A1; CN113762221A

Abstract

本申请公开了一种人体检测方法及装置，属于图像识别技术领域。该方法包括：提取待检测图像的结构特征；根据结构特征，确定待检测图像中的人体区域；提取人体区域的色彩特征；根据结构特征和色彩特征，确定待检测图像的人体检测结果，人体检测结果包括待检测图像的人体框和关键点信息。该方法使用结构特征和色彩特征共同进行人体检测，从而可以获得准确度较高的人体检测结果，而且该方法对应的人体检测模型使用具有人体框的图像即可训练获得，无需使用具有关键点坐标标记的图像进行训练，避免人工标注关键点坐标。

Description

人体检测方法及装置

技术领域

本申请涉及图像识别技术领域，具体涉及一种人体检测方法及装置。

背景技术

近年来，随着人工智能以及神经网络领域的快速发展，人体姿态识别技术被广泛应用于各种应用场景中。人体姿态识别主要在于研究描述人体姿态以及预测人体行为，其识别过程是指，在指定图像或视频中，根据人体中关节点位置的变化，识别人体动作的过程。在现有的人体检测方法中，通常使用预先标注有关键点坐标的训练图像对人体检测模型进行训练，以根据训练好的人体检测模型进行人体检测。但是对训练图像进行关键点坐标的标注需要耗费大量时间，同时还将浪费大量的人力成本。

发明内容

为此，本申请提供一种人体检测方法及装置，以解决对人体检测模型的训练需要使用标注有关键点坐标的数据，从而导致耗费大量时间和人力的问题。

为了实现上述目的，本申请第一方面提供一种人体检测方法，该方法包括。

提取待检测图像的结构特征，所述结构特征用于表征所述待检测图像的结构信息；

根据所述结构特征，确定所述待检测图像中的人体区域；

提取所述人体区域的色彩特征，所述色彩特征用于表征所述人体区域的色彩信息；

根据所述结构特征和所述色彩特征，确定所述待检测图像的人体检测结果，所述人体检测结果包括所述待检测图像的人体框和关键点信息。

进一步地，所述结构特征包括第一结构特征及第二结构特征；

所述提取待检测图像的结构特征，包括。

基于预设的第一卷积核对所述待检测图像进行特征提取，获得所述第一结构特征；

基于预设的第二卷积核对所述第一结构特征进行特征提取，获得所述第二结构特征。

进一步地，所述第一卷积核包括多个卷积核簇，每个卷积核簇包括至少一个卷积核，

所述基于预设的第一卷积核对所述待检测图像进行特征提取，获得所述第一结构特征，包括。

通过所述多个卷积核簇，分别对所述待检测图像进行特征提取，得到第三结构特征；

将与同一卷积核簇对应的第三结构特征叠加，得到与所述卷积核簇对应的结构特征，其中，所述第一结构特征包括与多个卷积核簇对应的结构特征。

进一步地，所述根据所述结构特征，确定所述待检测图像中的人体区域，包括。

根据预设的结构特征阈值对所述结构特征进行过滤处理，获得过滤结构特征，其中，所述结构特征阈值用于过滤所述结构特征中的背景结构特征；

将所述过滤结构特征回归到所述待检测图像中，确定所述待检测图像中的所述人体区域。

进一步地，所述结构特征阈值包括第一结构特征阈值和第二结构特征阈值，所述过滤结构特征包括第一过滤结构特征和第二过滤结构特征；

所述根据预设的结构特征阈值对所述结构特征进行过滤处理，获得过滤结构特征，包括。

根据所述第一结构特征阈值对所述第一结构特征进行过滤处理，获得第一过滤结构特征；

根据所述第二结构特征阈值对所述第二结构特征进行过滤处理，获得第二过滤结构特征。

进一步地，所述人体区域包括第一人体区域和第二人体区域，所述第一人体区域是将所述第一过滤结构特征回归到所述待检测图像中获得的区域，所述第二人体区域是将所述第二过滤结构特征回归到所述待检测图像中获得的区域；

所述提取所述人体区域的色彩特征，包括。

提取所述第一人体区域的色彩特征，获得第一色彩特征；

提取所述第二人体区域的色彩特征，获得第二色彩特征。

进一步地，所述根据所述结构特征和所述色彩特征，确定所述待检测图像的人体检测结果，包括。

连接所述第一结构特征和所述第一色彩特征，获得第一连接特征；

连接所述第二结构特征和所述第二色彩特征，获得第二连接特征；

基于预设的激活函数对所述第一连接特征和所述第二连接特征进行激活处理，获得所述待检测图像的人体检测结果。

进一步地，其特征在于，所述人体检测方法通过预设的人体检测模型实现。

进一步地，所述提取待检测图像的结构特征之前，还包括。

通过预设的训练集对所述人体检测模型进行训练，其中，所述训练集中包括样本图像及所述样本图像的人体框标注信息。

为了实现上述目的，本申请第二方面提供一种人体检测装置，该装置包括。

第一提取模块，被配置为提取待检测图像的结构特征，所述结构特征用于表征所述待检测图像的结构信息；

区域确定模块，被配置为根据所述结构特征，确定所述待检测图像中的人体区域；

第二提取模块，被配置为提取所述人体区域的色彩特征，所述色彩特征用于表征所述人体区域的色彩信息；

检测模块，被配置为根据所述结构特征和所述色彩特征，确定所述待检测图像的人体检测结果，所述人体检测结果包括所述待检测图像的人体框和关键点信息。

本申请具有如下优点：

本申请提供的人体检测方法及装置，提取待检测图像的结构特征；根据结构特征，确定待检测图像中的人体区域；提取人体区域的色彩特征；根据结构特征和色彩特征，确定待检测图像的人体检测结果，人体检测结果包括待检测图像的人体框和关键点信息。该方法使用结构特征和色彩特征共同进行人体检测，从而可以获得准确度较高的人体检测结果，而且该方法对应的人体检测模型使用具有人体框的图像即可训练获得，无需使用具有关键点坐标标记的图像进行训练，避免人工标注关键点坐标。

附图说明

附图是用来提供对本申请的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本申请，但并不构成对本申请的限制。

图1为本申请实施例提供的一种人体检测方法的流程图。

图2为本申请实施例提供的一种结构特征提取方法的流程图。

图3为本申请实施例提供的一种人体检测模型训练方法的流程图。

图4为本申请实施例提供的一种人体检测模型的训练过程示意图。

图5为本申请实施例提供的一种人体检测装置的组成方框图。

图6是用来实现本申请实施例的人体检测方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本申请，并不用于限制本申请。

动作类识别算法一直是人工智能应用的主要场景之一，例如摔倒识别、打架检测、攀高检测等，这类算法的核心包括关键点（或关键骨骼点）检测和动作分类。其中，动作分类的准确性依赖于关键点检测的准确性。相关技术中，主流的关键点检测方法包括OpenPose、MoveNet等，其均属于根据特征回归关键点坐标的检测方法。

其中，OpenPose是美国卡耐基梅隆大学基于卷积神经网络和监督学习，并使用卷积神经网络框架（Convolutional Architecture for Fast Feature Embedding，CAFFE）开发的关于人体姿态识别的开源库，其可以实现人体动作、面部表情、手指运动等姿态估计，适用于单人和多人，具有极好的鲁棒性，是世界上首个基于深度学习的实时多人二维姿态估计应用。MoveNet是谷歌推出的一款能够检测人体姿态的模型，包括闪电（Lighting）和雷电（Thunder）两个衍生版本。前者适用于对延迟比较敏感的关键型应用程序，而后者侧重于牺牲实效性来提升识别的准确性。

上述关键点检测方法虽然在大多数实验场景下的识别准确率较高，但是在实际的应用场景中，由于情况较为复杂，容易导致识别效果不理想。例如，在高铁站、地铁站等公共场合，由于人员比较密集，并且遮挡严重，从而导致关键点检测结果准确率不高。

在相关技术中，人体检测算法通常使用大量标注有关键点坐标的训练数据对初始人体检测模型进行训练，获得训练好的人体检测模型之后，将待检测图片输入该人体检测模型，模型对输入数据进行处理之后输出人体检测结果，人体检测结果中包括待检测图片的关键点坐标。在上述方法中，人体检测模型的训练依赖于标注有关键点坐标的数据集。通常情况下，图片中需要进行关键点标注的坐标数量较多，且不同的人体部位相似度较高，从而使得关键点坐标标注难度较大，导致耗费大量的时间和人力。

有鉴于此，本申请实施例提供一种人体检测方法及装置，其对应的人体检测模型使用标注人体框的样本图像进行训练即可，较使用标注有关键点坐标的样本图像进行训练而言，操作复杂度得以有效降低，节约了时间和人力成本。

本申请第一方面提供一种人体检测方法。图1是本申请实施例提供的一种人体检测方法的流程图，该人体检测方法可应用于人体检测装置。如图1所示，该人体检测方法包括如下步骤。

步骤S101，提取待检测图像的结构特征。

其中，结构特征用于表征待检测图像的结构信息。例如，待检测图像中包括人体时，其结构特征可以是人体的头部、肘部、关节、腕部等结构性特征。在一些具体实现中，可以通过卷积方式从待检测图像中提取结构特征。

在一些实施例中，待检测图像的结构特征包括第一结构特征和第二结构特征，提取待检测图像的结构特征的步骤，包括：

首先，基于预设的第一卷积核对待检测图像进行特征提取，获得第一结构特征；其次，基于预设的第二卷积核对第一结构特征进行特征提取，获得第二结构特征。

其中，卷积核可以视作滤波器矩阵，其用于从被卷积的图像中提取特征。在本实施例中，第二结构特征是对第一结构特征进行进一步卷积获得的特征，其相对于第一结构特征而言，是特征层次（或特征尺度）更高、更加全局化的特征。第一结构特征和第二结构特征对应的特征层次与提取该特征时所使用的卷积核尺寸以及卷积步长等相关。

例如，第一结构特征包括待检测图像中某人物的眼部特征、鼻部特征和嘴部特征，相应的，第二结构特征可以为人脸特征。又如，第一结构特征包括待检测图像中某人物的头部特征、肘部特征、手部特征、和腿部特征，相应的，第二结构特征可以为该人物的整体结构特征。

需要说明的是，以上对于第一结构特征和第二结构特征仅是举例说明，可根据实际需求进行灵活设置，本申请对此不作限定。

步骤S102，根据结构特征，确定待检测图像中的人体区域。

其中，待检测图像包括前景区域和背景区域。在人体检测应用场景中，前景区域特指人体区域，背景区域指除人体区域之外的、由物体、物品等构成的区域。在人体检测过程中，并不过多关注背景区域的特征，因此，需要将背景区域从待检测图像中剔除，或者将前景区域从待检测图像中提取出来，以针对前景区域作进一步的分析与处理。

在一些实施例中，根据结构特征，确定待检测图像中的人体区域的步骤，包括：将结构特征回归到待检测图像中，确定待检测图像中的人体区域。

在一些具体实现中，结构特征包括第一结构特征和第二结构特征。将第一结构特征和第二结构特征回归到待检测图像中，获得与第一结构特征对应的第一人体区域以及与第二结构特征对应的第二人体区域。

针对上述实施例，以结构特征为人体的头部特征为例进行说明。如果直接将该头部特征回归到待检测图像中，其在待检测图像中的区域通常为一个规则的矩形区域，人体的头部位于该矩形区域内。换言之，通过直接回归结构特征方式确定的区域中，既包括头部区域，也包括部分背景区域，因此，无法准确地从待检测图像中框选头部区域。基于此，在将结构特征回归到待检测图像之前，先对结构特征进行过滤处理，将背景结构特征过滤掉，获得过滤结构特征。在将过滤结构特征回归到待检测图像时，可以获得只包括人体区域的回归结果，从而实现对人体结构的准确框选，为后续提取色彩特征提供区域基础。

在一些实施例中，根据结构特征，确定待检测图像中的人体区域的步骤，包括：

首先，根据预设的结构特征阈值对结构特征进行过滤处理，获得过滤结构特征，其中，结构特征阈值用于过滤结构特征中的背景结构特征；其次，将过滤结构特征回归到待检测图像中，确定待检测图像中的人体区域。其中，结构特征阈值可以根据经验、统计数据或者通过训练获得，本申请对此不作限定。

在一些具体实现中，结构特征阈值包括第一结构特征阈值和第二结构特征阈值。根据结构特征，确定待检测图像中的人体区域的步骤，包括：

首先，根据第一结构特征阈值对第一结构特征进行过滤处理，获得第一过滤结构特征；将第一过滤结构特征回归到待检测图像中，获得第一人体区域。其次，根据第二结构特征阈值对第二结构特征进行过滤处理，获得第二过滤结构特征；将第二过滤结构特征回归到待检测图像中，获得第二人体区域。

需要说明的是，由于针对不同的结构特征设置了不同的结构特征阈值，使得基于结构特征阈值获取的过滤结构特征更加准确合理，从而可以获得更加准确的人体区域。

还需要说明的是，在将结构特征回归到待检测图像时，可以使用线性回归、K-近邻（K-Nearest Neighbor，K-NN）回归、决策树回归和随机森林回归等算法，本申请对此不作限定。

步骤S103，提取人体区域的色彩特征。

其中，色彩特征用于表征人体区域的色彩信息。例如，色彩特征是基于图像灰度的特征，又如，色彩特征是基于RGB（Red、Green、Blue，红、绿、蓝）颜色通道的特征。

需要说明的是，以上对于色彩特征仅是举例说明，本申请对此不作限定。

在一些实施例中，人体区域包括第一人体区域和第二人体区域，其中，第一人体区域是将第一过滤结构特征回归到待检测图像中获得的区域，第二人体区域是将第二过滤结构特征回归到待检测图像中获得的区域。提取人体区域的色彩特征的步骤，包括：

首先，提取第一人体区域的色彩特征，获得第一色彩特征；其次，提取第二人体区域的色彩特征，获得第二色彩特征。

在一些其他实施例中，提取人体区域的色彩特征的步骤，包括：首先，提取第一人体区域的色彩特征，获得第一色彩特征；其次，在第一色彩特征的基础上再次进行卷积，提取第二色彩特征。换言之，在本实施例中，不使用第二结构特征获取第二色彩特征，而是对第一色彩特征进行进一步卷积获得第二色彩特征，因此，第二色彩特征相对于第一色彩特征而言，是特征层次更高、更加全局化的特征。

步骤S104，根据结构特征和色彩特征，确定待检测图像的人体检测结果。

其中，人体检测结果包括待检测图像的人体框和关键点信息。人体框表现为矩形或者正方形，其表示人体在图像中的区域范围。关键点信息包括人体关键点的坐标，在一些具体实现中，关键点对应人体的17个部位，分别是鼻子、左右眼、左右耳、左右肩、左右肘、左右腕、左右臀、左右膝和左右脚踝。

在一些实施例中，根据结构特征和色彩特征，确定待检测图像的人体检测结果的步骤，包括：

首先，连接第一结构特征和第一色彩特征，获得第一连接特征；其次，连接第二结构特征和第二色彩特征，获得第二连接特征；最后，基于预设的激活函数对第一连接特征和第二连接特征进行激活处理，获得待检测图像的人体检测结果。

其中，可以通过连接（Concat）函数连接结构特征和色彩特征。激活函数包括但不限于S型函数（Sigmoid）、双曲正切函数（Tanh）、线性整流函数（Rectified Linear Unit，ReLU）。

需要说明的是，在一些实施例中，在确定待检测图像的人体检测结果之后，还包括：

首先，根据待检测图像的人体框和关键点信息，确定人体姿态信息；其次，在根据人体姿态信息确定发生预设预警事件的情况下，发出预警信号。

例如，在车站、车厢或者其他公共场所内，对监控视频进行人体检测，获得人体检测结果，并在根据人体框以及关键点信息确定人体姿态为摔倒姿态时，获知发生人员摔倒事件，因此，可以向工作人员终端或广播终端发送预警信号，以使相关工作人员及时进行应急处理或启动应急预案。

在本实施例中，提取待检测图像的结构特征；根据结构特征，确定待检测图像中的人体区域；提取人体区域的色彩特征；根据结构特征和色彩特征，确定待检测图像的人体检测结果，人体检测结果包括待检测图像的人体框和关键点信息。该方法使用结构特征和色彩特征共同进行人体检测，从而可以获得准确度较高的人体检测结果，而且该方法对应的人体检测模型使用具有人体框的图像即可训练获得，无需使用具有关键点坐标标记的图像进行训练，避免人工标注关键点坐标。

图2是本申请实施例提供的一种结构特征提取方法的流程图。如图2所示，该结构特征提取方法包括如下步骤。

步骤S201，通过多个卷积核簇，分别对待检测图像进行特征提取，得到第三结构特征。

其中，第一卷积核包括多个卷积核簇，每个卷积核簇包括至少一个卷积核。第三结构特征为每个卷积核对待检测图像进行特征提取所获得的结构特征，其与卷积核数量相等（单通道情况）。

在一些实施例中，为全面准确地从待检测图像中提取结构特征，因此，设置多个第一卷积核。这些卷积核通过聚类操作被划分为多个卷积核簇，每个卷积核簇中包括至少一个卷积核。对于各个卷积核簇，归属于该卷积核簇的卷积核之间具有较高的相似性，具体表现在这些卷积核在提取某一类结构特征时，具有较好的提取效果。

步骤S202，将与同一卷积核簇对应的第三结构特征叠加，得到与卷积核簇对应的结构特征。

其中，第一结构特征包括与多个卷积核簇对应的结构特征。

在一些实施例中，将同一卷积核簇的卷积核提取的第三结构特征叠加，获得与该卷积核簇对应的结构特征。

由于同一卷积核簇对应的第三结构特征针对某些结构特征表现较好，因此，通过上述叠加操作，使得结构特征实现了增强效果，从而获得效果更好的结构特征。

步骤S203，基于预设的第二卷积核对第一结构特征进行特征提取，获得第二结构特征。

例如，第一卷积核包括100个卷积核，这些卷积核被划分到第一卷积核簇、第二卷积核簇和第三卷积核簇中，其中，归属于第一卷积核簇的卷积核在提取肘部特征时提取效果较好，归属于第二卷积核簇的卷积核在提取腕部特征时提取效果较好，归属于第三卷积核簇的卷积核在提取头部特征时提取效果较好。在使用上述100个卷积核对待检测图像进行特征提取时，获得100个第三结构特征。

针对第一卷积核簇，将归属于其中的卷积核所提取的第三结构特征进行叠加，获得第一卷积核簇对应的第一结构特征；针对第二卷积核簇，将归属于其中的卷积核所提取的第三结构特征进行叠加，获得第二卷积核簇对应的第一结构特征；针对第三卷积核簇，将归属于其中的卷积核所提取的第三结构特征进行叠加，获得第三卷积核簇对应的第一结构特征。

在本实施例中，由于第一卷积核簇提取肘部特征效果较好，因此，较单个第三结构特征而言，第一卷积核簇对应的第一结构特征可以更好地反映肘部特征。类似地，第二卷积核簇对应的第一结构特征可以更好地反映腕部特征，第三卷积核簇对应的第一结构特征可以更好地反映头部特征。

需要说明的是，在一些具体实现中，本申请实施例提供的人体检测方法可以通过预设的人体检测模型实现。其中，人体检测模型包括基于神经网络构建的模型。

在一些实施例中，提取待检测图像的结构特征之前，还包括：

通过预设的训练集对人体检测模型进行训练，其中，训练集中包括样本图像及样本图像的人体框标注信息。

在相关技术中，训练人体检测模型所使用的训练集中，包括样本图像及样本图像的关键点坐标标注信息。通过模型训练，使人体检测模型学习到关键点坐标标注能力，从而为待检测图像进行关键点坐标标记。但是，对样本图像进行关键点坐标标注通常依赖于人工标注，操作复杂，耗费大量时间和人力。

在本申请实施例中，使用包括样本图像及样本图像的人体框标注信息的训练集进行模型训练，模型在训练过程中学习人体框标注能力。而人体检测模型实现人体框标注，依赖于对图像中特征的识别与提取，当识别和提取的特征越准确时，其获得的人体框标注越准确，相应地，基于该特征所确定的关键点坐标也就越准确。换言之，本申请实施例提供的人体检测模型，使用包括样本图像及样本图像的人体框标注信息作为训练集进行训练即可，同样可以获得关键点坐标标注能力，且无需对样本图像进行关键点坐标标记，简化了操作复杂度，节省了大量的时间和人力。

图3为本申请实施例提供的一种人体检测模型训练方法的流程图。如图3所示，人体检测模型训练方法包括如下步骤。

步骤S301，将训练集输入初始的人体检测模型，通过第一卷积网络提取样本图像的细节特征。

其中，训练集中包括样本图像及样本图像的人体框标注信息。换言之，训练人体检测模型所使用的样本图像是经过人体框标注的图像。第一卷积网络包括多个卷积层（例如，3个卷积层），其用于提取低层的结构特征（即细节特征），细节特征包括纹理特征等。

步骤S302，通过第二卷积网络提取样本图像的第一结构特征，根据第一结构特征阈值对第一结构特征进行过滤处理，获得第一过滤结构特征。

步骤S303，将第一过滤结构特征回归到样本图像中，确定第一人体区域，提取第一人体区域的色彩特征，获得第一色彩特征。

步骤S304，使用第三卷积网络对第一结构特征进行全局特征提取，获得第二结构特征，根据第二结构特征阈值对第二结构特征进行过滤处理，获得第二过滤结构特征。

步骤S305，将第二过滤结构特征回归到样本图像中，确定第二人体区域，提取第二人体区域的色彩特征，获得第二色彩特征。

步骤S306，通过连接层连接第一结构特征和第一色彩特征，获得第一连接特征，通过连接层连接第二结构特征和第二色彩特征，获得第二连接特征。

步骤S307，将第一连接特征和第二连接特征输入激活层，通过激活处理，获得样本图像的人体检测结果。

其中，人体检测结果包括样本图像的人体框和关键点信息。

步骤S308，根据人体检测结果对人体检测模型的参数进行调整，使用调整后的人体检测模型进行迭代训练，直到满足预设的停止条件时，停止模型训练。

其中，停止条件可以是关于检测准确度和/或训练次数相关的条件，本申请对此不作限定。停止训练之后所获得的人体检测模型即认为是符合要求的模型，可以基于该人体检测模型进行人体检测。

需要说明的是，在一些实施例中，在经过多次训练之后，还可以通过卷积核聚类提高训练获得的模型的检测准确度。具体地：

首先，对第二卷积网络的卷积核进行聚类，获得卷积核簇。可选地，在一些具体体现中，仅对第二卷积网络的首个卷积层对应的卷积核进行聚类，使得相似的卷积核被聚类到同一卷积核簇中。其次，将与同一卷积核簇对应的第一结构特征叠加，得到与卷积核簇对应的增强的第一结构特征，并使用增强的第一结构特征提取第一色彩特征。再次，使用增强的第一结构特征确定第二结构特征，并根据第二结构特征提取第二色彩特征。然后，通过连接层，连接第一结构特征和第一色彩特征，获得第一连接特征，连接第二结构特征和第二色彩特征，获得第二连接特征。最后，将第一连接特征和第二连接特征输入激活层，通过激活处理，获得样本图像的人体检测结果，根据人体检测结果对人体检测模型的参数进行调整，使用调整后的人体检测模型再次进行迭代训练，当满足预设的停止条件时，停止模型训练，获得训练好的人体检测模型。其中，通过聚类获得的卷积核簇中，存在部分卷积核簇，其对结构特征提取效果较差（例如，主要提取噪声特征的卷积核簇），对于这部分卷积核簇，可以将其过滤掉，以提升结构特征提取准确度。

通过卷积核聚类及卷积核过滤操作，可以减少模型参数，并提升模型的泛化能力，使得人体检测模型对于不同应用场景、不同类型图片均能获得良好的人体检测结果。

图4为本申请实施例提供的一种人体检测模型的训练过程示意图。如图4所示，训练集中包括多个样本图像，样本图像标注有人体框。将训练集输入人体检测模型之后，首先通过卷积操作提取样本图像的细节特征，在细节特征的基础上进一步提取第一结构特征，并根据第一结构特征和第一结构特征阈值，从样本图像中提取第一色彩特征。在第一结构特征的基础上，进一步提取第二结构特征，根据第二结构特征和第二结构特征阈值，从样本图像中提取全局色彩特征。

通过连接层，将第一结构特征和第一色彩特征连接，构成第一连接特征，并将第二结构特征和第二色彩特征连接，构成第二连接特征，然后将第一连接特征和第二连接特征输入到激活层，由预设的激活函数进行处理，获得训练结果。

需要说明的是，在经过多次训练之后，可以对提取第一结构特征的卷积核进行聚类，获得卷积核簇。归属于同一卷积核簇中的卷积核具有较高的相似性，具体表现在这些卷积核在提取某一类结构特征时，具有较好的提取效果。因此，可以将同一卷积核簇中的卷积核提取的第一结构特征进行叠加，获得具有特征增强效果的第一结构特征，以基于该第一结构特征提取到准确性更高的第二结构特征。

在这些卷积核簇中，可能存在部分卷积核簇对结构特征的提取效果不好（例如，主要提取噪声特征的卷积核簇），为提高结构特征的提取效果，可以将这部分卷积核簇过滤掉，过滤卷积核的作用类似于“模型剪枝”操作。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本申请的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该申请的保护范围内。

本申请第二方面提供一种人体检测装置。图5是本申请实施例提供的一种人体检测装置的组成方框图。如图5所示，该人体检测装置500包括。

第一提取模块501，被配置为提取待检测图像的结构特征，结构特征用于表征待检测图像的结构信息。

其中，结构特征用于表征待检测图像的结构信息。例如，待检测图像中包括人体时，其结构特征可以是人体的头部、肘部、关节、足部等结构性特征。在一些具体实现中，可以通过卷积方式从待检测图像中提取结构特征。

在一些实施例中，待检测图像的结构特征包括第一结构特征和第二结构特征，第一提取模块501包括第一提取单元和第二提取单元。其中，第一提取单元，用于基于预设的第一卷积核对待检测图像进行特征提取，获得第一结构特征；第二提取单元，用于基于预设的第二卷积核对第一结构特征进行特征提取，获得第二结构特征。

其中，卷积核可以视作滤波器矩阵，其用于从被卷积的图像中提取特征。在本实施例中，第二结构特征是对第一结构特征进行进一步卷积获得的特征，其相对于第一结构特征而言，是特征层次更高、更加全局化的特征。

例如，第一结构特征包括眼部特征、鼻部特征和嘴部特征，则第二结构特征为人脸特征。又如，第一结构特征包括待检测图像中某人物的头部特征、肘部特征、手部特征、腿部特征和足部特征，第二结构特征为该人物的整体结构特征。

区域确定模块502，被配置为根据结构特征，确定待检测图像中的人体区域。

其中，待检测图像包括前景区域和背景区域。在人体检测应用场景中，前景区域特指人体区域，背景区域指除人体区域之外的、由物体、物品等构成的区域。在人体检测过程中，并不过多关注背景区域的特征，因此，需要将背景区域从待检测图像中剔除，或者将前景区域从待检测图像中提取出来，以对前景区域作进一步的分析与处理。

在一些实施例中，区域确定模块502包括回归单元。其中，回归单元，用于将结构特征回归到待检测图像中，确定待检测图像中的人体区域。

在一些具体实现中，结构特征包括第一结构特征和第二结构特征。基于回归单元，将第一结构特征和第二结构特征分别回归到待检测图像中，获得与第一结构特征对应的第一人体区域以及与第二结构特征对应的第二人体区域。

在一些实施例中，区域确定模块502还包括过滤单元。其中，过滤单元，用于根据预设的结构特征阈值对结构特征进行过滤处理，获得过滤结构特征，其中，结构特征阈值用于过滤结构特征中的背景结构特征；回归单元，还用于将过滤结构特征回归到待检测图像中，确定待检测图像中的人体区域。其中，结构特征阈值可以根据经验、统计数据或者通过训练获得，本申请对此不作限定。

在一些具体实现中，结构特征阈值包括第一结构特征阈值和第二结构特征阈值。过滤单元，具体用于根据第一结构特征阈值对第一结构特征进行过滤处理，获得第一过滤结构特征；回归单元，具体用于将第一过滤结构特征回归到待检测图像中，获得第一人体区域。过滤单元，具体用于根据第二结构特征阈值对第二结构特征进行过滤处理，获得第二过滤结构特征；回归单元，具体用于将第二过滤结构特征回归到待检测图像中，获得第二人体区域。

还需要说明的是，将结构特征回归到待检测图像时，可以使用线性回归、K-近邻回归、决策树回归和随机森林回归等算法，本申请对此不作限定。

第二提取模块503，被配置为提取人体区域的色彩特征，色彩特征用于表征人体区域的色彩信息。

其中，色彩特征用于表征人体区域的色彩信息。例如，色彩特征是基于图像灰度的特征，又如，色彩特征是基于RGB颜色通道的特征。

在一些实施例中，人体区域包括第一人体区域和第二人体区域，其中，第一人体区域是将第一过滤结构特征回归到待检测图像中获得的区域，第二人体区域是将第二过滤结构特征回归到待检测图像中获得的区域。第二提取模块503包括第三提取单元和第四提取单元。其中，第三提取单元，用于提取第一人体区域的色彩特征，获得第一色彩特征；第四提取单元，用于提取第二人体区域的色彩特征，获得第二色彩特征。

在一些其他实施例中，第二提取模块503包括第三提取单元和第五提取单元。其中，第三提取单元，用于提取第一人体区域的色彩特征，获得第一色彩特征；第五提取单元，用于在第一色彩特征的基础上再次进行卷积，提取第二色彩特征。换言之，在本实施例中，不使用第二结构特征获取第二色彩特征，而是对第一色彩特征进行进一步卷积获得第二色彩特征，因此，第二色彩特征相对于第一色彩特征而言，是特征层次更高、更加全局化的特征。

检测模块504，被配置为根据结构特征和色彩特征，确定待检测图像的人体检测结果，人体检测结果包括待检测图像的人体框和关键点信息。

在一些实施例中，检测模块504包括连接单元和激活单元。其中，连接单元，用于连接第一结构特征和第一色彩特征，获得第一连接特征；连接单元，还用于连接第二结构特征和第二色彩特征，获得第二连接特征；激活单元，用于基于预设的激活函数对第一连接特征和第二连接特征进行激活处理，获得待检测图像的人体检测结果。

其中，可以通过Concat函数连接结构特征和色彩特征。激活函数包括但不限于Sigmoid函数、Tanh函数和ReLU函数。

需要说明的是，在一些实施例中，人体检测装置还包括预警模块。预警模型包括姿态确定单元和预警信号发射单元。具体地，，姿态确定单元，用于在确定待检测图像的人体检测结果之后，根据待检测图像的人体框和关键点信息，确定人体姿态信息；预警信号发射单元，用于在根据人体姿态信息确定发生预设预警事件的情况下，发出预警信号。

例如，在车站、车厢或者公共场所内，对监控视频进行人体检测，获得人体检测结果，并在根据人体框以及关键点信息确定人体姿态为摔倒姿态时，获知发生人员摔倒事件，因此，可以向工作人员终端或广播终端发送预警信号，以使相关工作人员及时进行应急处理或启动应急预案。

还需要说明的是，本实施例公开的人体检测装置，可以部署或运行在物理服务器、虚拟服务器以及各种电子终端内，本申请对此不作限定。

在本实施例中，通过第一提取模块提取待检测图像的结构特征；由区域确定模块根据结构特征，确定待检测图像中的人体区域；第二提取模块提取人体区域的色彩特征；并通过检测模块根据结构特征和色彩特征，确定待检测图像的人体检测结果。该装置使用结构特征和色彩特征共同进行人体检测，可以获得准确度较高的人体检测结果，而且该装置对应的人体检测模型使用具有人体框的图像即可训练获得，无需使用具有关键点坐标标记的图像进行训练，避免人工标注关键点坐标。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器（ROM）602中的计算机程序或者从存储单元608加载到随机访问存储器（RAM）603中的计算机程序，来执行各种适当的动作和处理。在RAM603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM602以及RAM603通过总线604彼此相连。输入/输出（I/O）接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如人体检测方法。例如，在一些实施例中，人体检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM603并由计算单元601执行时，可以执行上文描述的人体检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行人体检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本申请的创新部分，本实施方式中并没有将与解决本申请所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

可以理解的是，以上实施方式仅仅是为了说明本申请的原理而采用的示例性实施方式，然而本申请并不局限于此。对于本领域内的普通技术人员而言，在不脱离本申请的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本申请的保护范围。

Claims

1.一种人体检测方法，其特征在于，包括：

根据所述结构特征，确定所述待检测图像中的人体区域；

根据所述结构特征和所述色彩特征，确定所述待检测图像的人体检测结果，所述人体检测结果包括所述待检测图像的人体框和关键点信息；

所述结构特征包括第一结构特征，所述提取待检测图像的结构特征，包括：基于预设的第一卷积核对所述待检测图像进行特征提取，获得所述第一结构特征；

其中，所述第一卷积核包括多个卷积核簇，每个卷积核簇包括至少一个卷积核，处于同一卷积核簇中的卷积核用于提取相同的特定的结构特征，

所述基于预设的第一卷积核对所述待检测图像进行特征提取，获得所述第一结构特征，包括：

2.根据权利要求1所述的人体检测方法，其特征在于，所述结构特征还包括第二结构特征；

所述提取待检测图像的结构特征，包括：

3.根据权利要求1所述的人体检测方法，其特征在于，所述根据所述结构特征，确定所述待检测图像中的人体区域，包括：

4.根据权利要求3所述的人体检测方法，其特征在于，所述结构特征阈值包括第一结构特征阈值和第二结构特征阈值，所述过滤结构特征包括第一过滤结构特征和第二过滤结构特征；

所述根据预设的结构特征阈值对所述结构特征进行过滤处理，获得过滤结构特征，包括：

5.根据权利要求4所述的人体检测方法，其特征在于，所述人体区域包括第一人体区域和第二人体区域，所述第一人体区域是将所述第一过滤结构特征回归到所述待检测图像中获得的区域，所述第二人体区域是将所述第二过滤结构特征回归到所述待检测图像中获得的区域；

所述提取所述人体区域的色彩特征，包括：

提取所述第一人体区域的色彩特征，获得第一色彩特征；

提取所述第二人体区域的色彩特征，获得第二色彩特征。

6.根据权利要求5所述的人体检测方法，其特征在于，所述根据所述结构特征和所述色彩特征，确定所述待检测图像的人体检测结果，包括：

7.根据权利要求1-6中任意一项所述的人体检测方法，其特征在于，所述人体检测方法通过预设的人体检测模型实现。

8.根据权利要求7所述的人体检测方法，其特征在于，所述提取待检测图像的结构特征之前，还包括：

9.一种人体检测装置，其特征在于，包括：

检测模块，被配置为根据所述结构特征和所述色彩特征，确定所述待检测图像的人体检测结果，所述人体检测结果包括所述待检测图像的人体框和关键点信息；

所述第一提取模块包括第一提取单元，所述第一提取单元，用于基于预设的第一卷积核对待检测图像进行特征提取，获得第一结构特征；

其中，所述第一卷积核包括多个卷积核簇，每个卷积核簇包括至少一个卷积核，处于同一卷积核簇中的卷积核用于提取相同的特定的结构特征，所述第一提取单元，具体用于通过所述多个卷积核簇，分别对所述待检测图像进行特征提取，得到第三结构特征，并将与同一卷积核簇对应的第三结构特征叠加，得到与所述卷积核簇对应的结构特征，其中，所述第一结构特征包括与多个卷积核簇对应的结构特征。