CN111160162A

CN111160162A - 一种级联的驾驶员人体姿态估计方法

Info

Publication number: CN111160162A
Application number: CN201911309965.8A
Authority: CN
Inventors: 徐珊珊; 刘翼
Original assignee: Jiangsu Biteda Information Technology Co ltd
Current assignee: Jiangsu Biteda Information Technology Co ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-05-15
Anticipated expiration: 2039-12-18
Also published as: CN111160162B

Abstract

一种级联的驾驶员人体姿态估计方法，通过采集车辆驾驶平台的驾驶员图像，并在系统中输入驾驶员图像；利用VGG网络对输入的图像提取特征图F；使用添加了沙漏结构的深度网络FCN1提取图像中驾驶员的关键点位置信息；同时利用深度网络FCN2获得关键点之间的连接情况；将用深度网络FCN1提取到的图像特征中的关键点位置信息、深度网络FCN2提取到的图像特征中的关键点之间的连接情况和特征图F进行融合；通过搭建级联的网络结构充分利用图像空间信息，并增加网络深度来提高网络整体预测准确度，能够将关键点的位置信息和关键点对应的连接信息融合，给出较高准确性和可靠性的驾驶员人体姿态估计结果。

Description

一种级联的驾驶员人体姿态估计方法

技术领域

本发明涉及一种人体姿态估计方法，具体是一种级联的驾驶员人体姿态估计方法，属于计算机视觉和图像处理技术领域。

背景技术

目前人体姿态估计已经在计算机视觉领域取得了很大的进步，其中就被广泛应用在动作识别、人体跟踪、视频分析、智能监控和高级人机交互等任务中；它可以通过读取图像或者视频预测到目标人体的关节点和肢体部位的位置信息，但在复杂场景下的姿态估计由于受遮挡、光线、人员和衣着的变化等问题，导致人体姿态估计不够准确和鲁棒性差，因此，在复杂环境下对高自由度的人体实现高精度的鲁棒姿态估计仍面临巨大的挑战。

人们在乘车或驾驶车辆的过程中，车辆内人员的姿态存在明显的隐蔽性和主观抑制特性，因此对行驶车辆中的人员进行人体姿态估计，一方面可以减轻监管机构在监督行车人员行为规范方面的部分工作，实现高效管理；另一方面，尽可能避免车辆在行车过程中因失误而发生的意外，进行及时的提醒和监督，减少交通事故的发生，避免对社会带来的不良影响。

发明内容

本发明的目的是提供一种级联的驾驶员人体姿态估计方法，可以针对车辆驾驶室内环境复杂、光照变化等情况，提供一种高准确率和鲁棒性的人体姿态估计方法。

为了实现上述目的，本发明提供一种级联的驾驶员人体姿态估计方法，包括以下步骤：

步骤一：从车辆驾驶平台收集相关驾驶员图像，制作数据集DDS的驾驶员图像，作为输入网络的实验数据；

步骤二：利用VGG网络对输入的驾驶员图像提取特征图F；

步骤三：使用添加了沙漏结构的深度网络FCN1提取图像中驾驶员的关键点位置信息；同时利用深度网络FCN2获得关键点之间的连接信息；

步骤四：将深度网络FCN1提取到的图像特征中的关键点位置信息、深度网络FCN2提取到的图像特征中的关键点之间的连接信息与特征图F进行融合；

步骤五：重复步骤三、步骤四，通过增加网络深度提高网络整体检测精度，设定t＝6，循环到第六次网络结束

作为本发明的进一步改进，步骤二中使用VGG网络进行迁移学习，利用在ImageNet数据集上训练的VGG-16网络提取驾驶员图像特征图F，其中特征图F是128个46*46大小的特征图，在VGG-16网络之后添加两个卷积层Conv4_3A和Conv4_4A，卷积核大小均为3 乘3，其中Conv4_3A是256维，Conv4_4A为128维，降低特征维度减少冗余特征对网络的影响。

作为本发明的进一步改进，步骤三中一共包含18个人体关键点，它们分别是：鼻子，脖子，右肩，右肘，右手腕，左肩，左肘，左手腕，右臀部，右膝盖，右脚裸，左臀部，左膝盖，左脚裸，左眼睛，右眼睛，左耳朵，右耳朵。

作为本发明的进一步改进，步骤三中通过在全连接网络中添加沙漏结构，融合图像多个尺度的特征信息，再通过heatmap得到图像中每个像素对于各个关节点的概率图，同时保留原始特征图上各关键点的空间信息，获取关键点的方法具体为：

步骤一：在深度网络FCN1第一个阶段输出热力图S¹＝ρ¹(F)，其中ρ¹为网络的映射函数；

步骤二：之后的阶段将前一阶段的预测结果和特征图F进行融合，作为当前阶段的输出，经过卷积操作预测出骨点热力图：

在训练的时候对每个阶段的输出的关键点位置进行了监督起到中继监督作用，损失函数形式分别如下：

式中：

表示关键的位置信息；

J包含所有的关键点；

W为掩膜函数。

作为本发明的进一步改进，步骤三中使用FCN2对关键点间获取连接信息，获取关键点的方法具体为：

步骤一：在深度网络FCN2第一个阶段输出关键点的部分亲和域图

其中

为网络的映射函数；

步骤二：之后的阶段将前一阶段的预测结果和特征图F进行融合，经过卷积操作预测关键点间连接信息：

式中：

表示亲和区域的实际值；

C表示人体的所有关节数目。

使用中继监督方法计算整个网络每个阶段的损失之和累加，其方法为：

与现有技术相比，本发明通过采集车辆驾驶平台的驾驶员图像，并制作数据集DDS的驾驶员图像，在系统中输入驾驶员图像；利用VGG网络对输入的图像提取特征图F；使用添加了沙漏结构的深度网络FCN1提取图像中驾驶员的关键点位置信息；同时利用深度网络FCN2获得关键点之间的连接情况；将用深度网络FCN1提取到的图像特征中的关键点位置信息、深度网络FCN2提取到的图像特征中的关键点之间的连接情况和特征图F进行融合；通过搭建级联的网络结构充分利用图像空间信息，并增加网络深度来提高网络整体预测准确度，能够将关键点的位置信息和关键点对应的连接信息融合，给出较高准确性和可靠性的驾驶员人体姿态估计结果。

附图说明

图1是本发明中添加了沙漏结构的FCN网络结构示意图；

图2是本发明的网络结构图。

具体实施方式

下面结合附图对本发明作进一步说明。

一种级联的驾驶员人体姿态估计方法，包括以下步骤：

步骤一：从车辆驾驶平台收集相关驾驶员图像，制作数据集DDS的驾驶员图像，作为输入网络的实验数据；制作数据集DDS的步骤为：把采集到的驾驶员图像的图片下载下来，然后采用标注工具对采集到的驾驶员图像进行标注，标注出具体的关键点位置及连接关系，标注工具为coco-annotator(coco标注工具)；

步骤二：利用VGG网络对输入的驾驶员图像提取特征图F；使用VGG网络进行迁移学习，利用在ImageNet数据集上训练的VGG-16网络提取驾驶员图像特征图F，其中特征图F大小为46×46×128，并在VGG-16网络之后添加两个卷积层，Conv4_3A和 Conv4_4A，卷积核大小均为3×3，其中Conv4_3A是256维，Conv4_4A为128维，降低特征维度减少冗余特征对网络的影响。

步骤四：将用深度网络FCN1提取到的图像特征中的关键点位置信息、深度网络FCN2 提取到的图像特征中的关键点之间的连接信息与特征图F进行融合；

步骤五：重复步骤三、步骤四，通过增加网络深度提高网络整体检测精度，设定t＝6，循环到第六次网络结束。

作为本发明的进一步改进，步骤三中一共包含18个人体关键点，它们分别是：鼻子，脖子，右肩，右肘，右手腕，左肩，左肘，左手腕，右臀部，右膝盖，右脚裸，左臀部，左膝盖，左脚裸，右眼睛，左眼睛，右耳朵，左耳朵，关键点鼻子连接右眼睛、左眼睛，右眼睛连接右耳朵，左眼睛连接左耳朵，鼻子连接脖子，脖子分别连接右肩、左肩、右臀部、左臀部，右肩依次连接右肘、右手腕，左肩依次连接左肘，左手腕，右臀部依次连接右膝盖，右脚裸，左臀部依次连接左膝盖，左脚裸。

为了避免梯度消失现象的发生，在训练的时候对每个阶段的输出的关键点位置进行了监督起到中继监督作用，损失函数形式分别如下：

其中

表示关键的位置信息，J包含所有的关键点，W为掩膜函数。

其中

为网络的映射函数；

式中：

表示亲和区域的实际值；

C表示人体的所有关节数目。

上述姿态评估方法可以应用到驾驶员行为识别中，用来判断驾驶员行驶过程中食肉出现违规操作的现象。

实施例

如图1所示，从车辆驾驶平台收集相关驾驶员图像，制作驾驶员图像数据集DDS，作为网络的输入计；利用VGG网络对输入的驾驶员图像提取特征图F；其中特征图F是由128 个通道且大小为46×46的特征图组成，并将特征图F作为级联深度网络FCN1的输入，通过加入沙漏结构，使特征图大小由46降维至23，过滤特征图中的噪声和背景信息，突出关键信息。每一阶段结束时，将特征图F、深度网络FCN1提取到的通道数为38的特征图和深度网络FCN2提取到的通道数为19的特征图进行融合，结合低级特征与复杂高级特征得到图像整体空间关系；

如图2所示，采集到的驾驶员图像原始图片的大小为368×368，通过VGG网络提取特征得到大小为46×46×128的特征图F，分别由深度网络FCN1和深度网络FCN2提取人体关键点的位置信息和连接信息，每阶段结束后，将二者与特征图F进行信息融合，得到大小为46×46×185特征图，通过t个阶段的训练，加深网络层数，提高网络的整体精度和鲁棒性。

Claims

1.一种级联的驾驶员人体姿态估计方法，其特征在于，包括以下步骤：

步骤二：利用VGG网络对输入的驾驶员图像提取特征图F；

步骤四：将深度网络FCN1提取到的图像特征中的关键点位置信息、深度网络FCN2提取到的图像特征中的关键点之间的连接情况与特征图F进行融合，作为网络当前阶段的输出；

2.根据权利要求1所述的一种级联的驾驶员人体姿态估计方法，其特征在于，步骤二中使用VGG网络进行迁移学习，利用在ImageNet数据集上训练的VGG-16网络提取驾驶员图像特征图F，其中特征图F是128个46×46大小的特征图，在VGG-16网络之后添加两个卷积层Conv4_3A和Conv4_4A，卷积核大小均为3×3，其中Conv4_3A是256维，Conv4_4A为128维。

3.根据权利要求2所述的一种级联的驾驶员人体姿态估计方法，其特征在于，步骤三中一共包含18个人体关键点，它们分别是：鼻子，脖子，右肩，右肘，右手腕，左肩，左肘，左手腕，右臀部，右膝盖，右脚裸，左臀部，左膝盖，左脚裸，左眼睛，右眼睛，左耳朵，右耳朵。

4.根据权利要求3所述的一种级联的驾驶员人体姿态估计方法，其特征在于，步骤三中通过在全连接网络中添加沙漏结构，融合图像多个尺度的特征信息，再通过heatmap得到图像中每个像素对于各个关节点的概率图，同时保留原始特征图上各关键点的空间信息，获取关键点的方法具体为：

步骤一：在深度网络FCN1第一个阶段输出热力图S¹：

S¹＝ρ¹(F)

式中：ρ¹为网络的映射函数；

F为特征图；

步骤二：之后的阶段将前一阶段的预测结果和特征图F进行融合，作为当前阶段的输出，经过卷积操作预测出骨点热力图S^t：