CN108256431A

CN108256431A - 一种手部位置标识方法及装置

Info

Publication number: CN108256431A
Application number: CN201711385223.4A
Authority: CN
Inventors: 李欣旭; 田寅; 龚明; 孙帮成; 唐海川
Original assignee: CRRC Industry Institute Co Ltd
Current assignee: CRRC Industry Institute Co Ltd
Priority date: 2017-12-20
Filing date: 2017-12-20
Publication date: 2018-07-06
Anticipated expiration: 2037-12-20
Also published as: CN108256431B

Abstract

本发明提供一种手部位置标识方法及装置。所述方法包括：获取待识别的图像，其中，所述待识别的图像中至少包括手部形状；根据所述待识别的图像和预先建立的手部位置识别模型，确定所述待识别图像中的手部位置和手部骨骼关键点的位置。本发明提供的手部位置标识方法及装置能够提高手部位置的识别的精确度，识别过程不受环境因素的影响。

Description

一种手部位置标识方法及装置

技术领域

本发明涉及机器视觉物体检测技术领域，具体涉及一种手部位置标识方法及装置。

背景技术

随着城市轨道交通规模的拓展，保证司机的规范操作是维护运营安全的重要因素。但是，由于司机行为的复杂性和不确定性，能够实时监督司机操作并在违规时进行提醒的监测系统还不成熟。因此为了实现司机行为监测，其中一个核心技术是司机的手部位置标识算法。

现阶段在交通领域中，手部位置标识技术基本都用于汽车驾驶员，例如汽车驾驶员双手离开方向盘状态检测、驾驶过程接电话行为分析等。由于针对某种状态进行识别，因此汽车驾驶员的手部位置标识算法多以基于某类特征进行优化与实现。然而，地铁司机操作过程中会使用多种手势，不同线路的司机室内环境差距很多，因此针对汽车驾驶员的手部位置标识算法不适用于地铁司机。

在一般性的手部位置标识技术方面，大多数算法采用深度摄像头，通过图像分割将获取手部大致位置，随后再结合之前构建的手部骨骼模型与图像比对，从而获取定位手部。这类方法有局限性，通常需要先验知识、经验和手工调整，手势操作速度、方向、手形大小的差异会对识别率产生影响，容易受环境干扰，鲁棒性差。此外，深度摄像头相比于一般视觉传感器也更加复杂。因此，地铁司机的手部定位需要另行设计。

因此，如何提出一种方法，能够提高手部位置识别的准确性，成为亟待解决的问题。

发明内容

针对现有技术中的缺陷，本发明提供了一种手部位置标识方法及装置。

第一方面，本发明提供一种手部位置标识方法，包括：

获取待识别的图像，其中，所述待识别的图像中至少包括手部形状；

根据所述待识别的图像和预先建立的手部位置识别模型，确定所述待识别图像中的手部位置和手部骨骼关键点的位置。

第二方面，本发明提供一种手部位置标识装置，包括：

获取模块，用于获取待识别的图像，其中，所述待识别的图像中至少包括手部形状；

识别模块，用于根据所述待识别的图像和预先建立的手部位置识别模型，确定所述待识别图像中的手部位置和手部骨骼关键点的位置。

本发明提供的手部位置标识方法及装置，通过采用多阶段卷积神经网络对获取的图像中的手部位置及关键点位置进行识别，能够提高手部位置的识别的精确度，识别过程不受环境因素的影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中提供的手部位置标识方法的流程示意图；

图2为本发明又一实施例提供的手部位置标识流程示意图；

图3为本发明实施例提供的构建样本时的手部标注示意图；

图4为本发明实施例提供的神经网络模型的结构示意图；

图5为本发明实施例提供的训练过程与一般训练过程的区别示意图；

图6为本发明实施例中提供的手部位置标识装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例中提供的手部位置标识方法的流程示意图，如图1所示，所述方法包括：

S101、获取待识别的图像，其中，所述待识别的图像中至少包括手部形状；

S102、根据所述待识别的图像和预先建立的手部位置识别模型，确定所述待识别图像中的手部位置和手部骨骼关键点的位置。

具体地，在地铁内安装红外视觉传感器，用来拍摄司机的工作视频，从拍摄好的视频中提取一帧图像，作为待识别的图像，且所述待识别的图像中至少包括手部形状；

将包含有手部形状的待识别图像输入到预先建立的手部位置识别模型中进行训练，确定出所述待识别图像中的手部位置和手部骨骼关键点的位置。

该识别模型是一个多阶段神经网络模型，前一阶段的结果参与后续阶段的计算。该模型的前两个阶段能够提供司机手部的整体位置，随后的阶段模型则会输出司机手部骨骼的具体位置，并且随着阶段数量的增加识别精度也越高。

本发明提供的手部位置标识方法，通过采用多阶段卷积神经网络对获取的图像中的手部位置及关键点位置进行识别，能够提高手部位置的识别的精确度，识别过程不受环境因素的影响。

可选地，所述手部位置识别模型采用如下步骤建立：

从原始的视频中每隔一定间隔提出图像帧，构建成数据集；

对所述数据集中每个图像帧中的手部的整体位置和手部骨骼关键点的位置进行标注，建立训练样本库；

根据所述训练样本库中的图像帧，对预先建立的神经网络模型进行训练，从而获得所述手部位置识别模型。

在上述实施例的基础上，图2为本发明又一实施例提供的手部位置标识流程示意图，在执行上述步骤之前，需要预先建立手部位置识别模型，具体的建立步骤如下：

从原始的视频中，也就是通过红外视觉传感器拍摄司机工作视频，每隔一定间隔提取出图像帧，构建成数据集；

对数据集中每个图像帧中的手部整体位置和手部骨骼关键点的位置进行标注，对每一帧图像都要进行标注，并将标注的图像作为神经网络的训练样本库。

可选地，所述对所述数据集中每个图像帧中的手部的整体位置和手部骨骼关键点的位置进行标注，包括：

对所述数据集中每个图像帧中的每个手部标注一个整体位置和21个手部骨骼关键点的位置。

在上述实施例的基础上，图3为本发明实施例提供的构建样本时的手部标注示意图，如图3所示。对训练样本库中的每帧图像中的司机双手进行标注，即对双手整体位置，以及骨骼关键点所在位置进行标注，记为：

Hand_right＝{R_r1,P_ro,P_r1,P_r2,…,P_r20}；Hand_left＝{R_l1,P_lo,P_l1,P_l2,…,P_l20}

其中，R_r1表示右手的整体区域，P_ro,P_r1,P_r2,…,P_r20为右手的21个关键点的位置坐标；

R_l1表示左手的整体区域，P_lo,P_l1,P_l2,…,P_l20为左手的21个关键点的位置坐标；

其中，每只手包含1个整体区域与21个节点坐标，并作为该图片的标签与其一起送入网络进行训练。

其中，骨骼关键点的个数可以根据具体的需求进行自行设定，并不局限于上述的实施例中的具体数值。

可选地，所述神经网络模型为多阶段卷积神经网络模型，具体为至少三阶段卷积神经网络模型。

在上述实施例的基础上，图4为本发明实施例提供的神经网络模型的结构示意图；本发明实施例中提供的是基于多阶段卷积神经网络的手部位置标识模型，并使用由训练样本库中的图像帧进行训练，从而优化模型参数，最终获得一个可以用于手部定位标识的模型，如图4所示，本发明实施例提供的多阶段卷积神经网络的结构示意图，至少包括3阶段的卷积神经网络模型，本实施例中以6个阶段做具体介绍；

第1阶段接受大小为512*512*1的图像输入，其中，其中512*512是指输入图片的宽度和高度，1是指图片为单通道，该图像由原始视频图像经过调整得到。

例如：原始获取的图像的大小为640*480，经过调整后变成大小为512*512，在输入到卷积神经网络之前，需要将图像的大小都调整为512*512，方便后续的神经网络训练。

随后输入图像将通过一个卷积神经网络(CNN1)，CNN1类似如下结构：

Conv1→Pool1→Conv2→Pool2→Conv3a→Conv3b→Pool3→Conv4a

→Conv4b→Pool4→Conv5a→Conv5b→Pool5

其中，每个卷积层的卷积核都采用不同大小，以实现多个尺度特征处理，从而能够考虑各部件之间的位置关系，确保精度。最后，第1阶段将会输出64*64*3的热图，代表着双手的位置响应，另外包含一个背景响应。该阶段能够大致输出双手部位的空间位置特征。

第2阶段所接受的输入与第1阶段一致，随后输入图像将通过另一个卷积神经网络(CNN2)，CNN2结构类似CNN1，CNN2将会输出64*64*8的特征图，其中，8表示图片的数量，其为阶段性的卷积结果，能够反应一定的纹理特征。而后是一个串联层，将把以下数据合并：

①阶段性的卷积结果：64*64*8的特征图；

②前一阶段的卷积结果：64*64*3的热图；

③中心约束(64*64*1)，即一个提前生成的高斯函数模板，用来把响应归拢到图像中心。其中，高斯模板的生成依赖于以下公式：

串联后得到64*64*12的特征图集合，并将其送入一个新的卷积神经网络(CNN3)，CNN3结构类似CNN1，最后与第1阶段类似，CNN3将会输出64*64*3的热图。该热图将作为下一阶段手部骨骼各点位置评估的依据。

第3阶段不再使用原始图像为输入，其将从第2阶段中CNN2的中途取出一个深度为128的特征图集合作为输入。在该特征图集合经过卷积神经网络(CNN4)后，同样使用串联层合并三种数据：

①阶段性的卷积结果：64*64*128的特征图；

②前一阶段的卷积结果：64*64*(2*8+1*6)的热图；(为了使后续阶段的网络结构一致，此时将响应图的数量增加至22张)

③中心约束：64*64*1的高斯函数模板。

类似地，该64*64*132特征图集合将会被送入新的卷积神经网络(CNN5)，最后被转化成64*64*22的热图。与前两个阶段不同，第3阶段是从特征图集合预测手部骨骼各节点的位置响应，因此包含21个节点与1个背景响应，共22个热图。该阶段已经能够初步反应手部骨骼各点的空间位置。

第4、5、6阶段的结构和第3阶段相同。最后一个阶段将输出64*64*22的热图，每个热图单独反应一个节点的空间位置以及背景响应，将其上采样恢复为原图大小，则可以获得手部的区域位置与节点的具体坐标。理论上随着阶段的增加，网络能计算更多的节点位置，因此本发明提供的网络可以应对更复杂的场景，只需要在设计网络时调整第3阶段重复次数即可。

需要说明的是，在第3个阶段，已经可以将司机手部位置和骨骼关键点的位置确定，后续的训练阶段是为了得到的结果更加的精确，具体的训练阶段的个数可以根据需求自己设定，在本发明中不做具体限定。

为了丰富训练样本，本发明实施例将对原始图片进行随机旋转与缩放操作。训练时，将80％的样本作为训练集，10％的样本作为验证集，10％的样本作为测试集。训练前，网络模型的权值采用均值为0、方差为1的正太分布初始化。训练时使用交叉熵损失函数，公式如下所示：

其中，y_(i,j)为由标注转换得到的热图中的点(i,j)的真实值，为计算得到的热图中的点(i,j)的估计值。对于样本帧，如果经过计算得到节点的正确位置，这种情况下损失函数取值最小。但是，如果检测错误，此时损失函数的值增大。因此，训练过程将会优化权重趋向使得L的值趋近于1，从而减小损失函数。

训练过程中，如果直接对整个网络进行随机梯度下降，输出层的误差经过多层反向传播会大幅减小，发生梯度消失现象。为解决此问题，图5是本发明实施例提供的训练过程与一般训练过程的区别示意图，如图5所示，本发明实施例将计算每个阶段输出的损失，即中继监督优化，从而保证底层参数的正常更新。在对每个阶段进行权值更新时，使用随机梯度下降操作，取30个样本为一个批量，记为B，学习率开始设为0.003，然后每经过10w次迭代计算后减半，每次迭代都会反向更新网络的权重,当损失变化随训练过程趋于1之后，则停止训练，输出基于多阶段卷积神经网络的模型。根据损失函数得到的最终梯度方向为：

(1)本发明提供的位置标识算法基于卷积神经网络，善于处理视觉信息，能将图像浅层特征通过非线性变化转化为高级深层特征，在位置回归方面有极佳的表现。

(2)本发明提供的网络分为多个阶段，利用卷积神经网络在多个尺度处理输入特征，能够考虑各部件之间的位置关系，从而确保精度。同时，训练中各阶段都会计算损失，因此底层参数能够正常更新，从而避免网络过深参数难以优化问题。

(3)本发明提供的深度网络模型针对地铁司机室内采集的红外图像进行设计与优化，用于解决地铁司机的手部定位技术问题，能够推进地铁司机监测系统的开发，同时也能为新的人车交互方式提供参考。

图6为本发明实施例中提供的手部位置标识装置的结构示意图，如图6所示，所述装置包括：获取模块10和识别模块20，其中：

获取模块10用于获取待识别的图像，其中，所述待识别的图像中至少包括手部形状；

识别模块20用于根据所述待识别的图像和预先建立的手部位置识别模型，确定所述待识别图像中的手部位置和手部骨骼关键点的位置。

在上述实施例的基础上，本发明实施例中提供的手部位置标识装置包括获取模块10和识别模块20，其中，获取模块10获取待识别的图像，其中，所述待识别的图像中至少包括手部形状；识别模块20根据所述待识别的图像和预先建立的手部位置识别模型，确定所述待识别图像中的手部位置和手部骨骼关键点的位置。

本发明提供的手部位置标识装置，通过采用多阶段卷积神经网络对获取的图像中的手部位置及关键点位置进行识别，能够提高手部位置的识别的精确度，识别过程不受环境因素的影响。

可选地，所述手部位置识别模型采用如下步骤建立：

从原始的视频中每隔一定间隔提出图像帧，构建成数据集；

对所述数据集中每个图像帧中的手部的整体位置和手部骨骼关键点的位置进行标注，建立训练样本库；根据所述训练样本库中的图像帧，对预先建立的神经网络模型进行训练，从而获得所述手部位置识别模型。

在上述实施例的基础上，参见图2所示的手部位置识别的流程示意图，在对图像中手部进行识别的时候，需要预先建立手部位置识别模型，具体的建立步骤如下：

多阶段神经网络模型的结构在前面方法实施例中做了具体的介绍，在此不再赘述。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

以上所描述的装置以及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

Claims

1.一种手部位置标识方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述手部位置识别模型采用如下步骤建立：

从原始的视频中每隔一定间隔提出图像帧，构建成数据集；

根据所述训练样本库中的图像帧，对预先建立的神经网络模型进行训练，获得所述手部位置识别模型。

3.根据权利要求2所述的方法，其特征在于，所述对所述数据集中每个图像帧中的手部的整体位置和手部骨骼关键点的位置进行标注，包括：

4.根据权利要求2所述的方法，其特征在于，所述神经网络模型为多阶段卷积神经网络模型，具体为至少三阶段卷积神经网络模型。

5.一种手部位置标识装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述手部位置识别模型采用如下步骤建立：

从原始的视频中每隔一定间隔提出图像帧，构建成数据集；

7.根据权利要求6所述的装置，其特征在于，所述对所述数据集中每个图像帧中的手部的整体位置和手部骨骼关键点的位置进行标注，包括：

8.根据权利要求6所述的装置，其特征在于，所述神经网络模型为多阶段卷积神经网络模型，具体为至少三阶段卷积神经网络模型。