CN108898045A

CN108898045A - 基于深度学习的手势识别的多标签图像预处理方法

Info

Publication number: CN108898045A
Application number: CN201810366869.6A
Authority: CN
Inventors: 颜成钢; 吕晓泉; 张勇东
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-04-23
Filing date: 2018-04-23
Publication date: 2018-11-27
Anticipated expiration: 2038-04-23
Also published as: CN108898045B

Abstract

本发明公开了一种基于深度学习的手势识别的多标签图像预处理方法。本发明步骤如下：1.获取已标记的多个特征点的坐标；2.在坐标中选出图像平面坐标系中x的最大和最小值，y的最大和最小值，确认坐标点A(x_min，y_min)和坐标点B(x_max，y_max)；3.利用坐标A和B定位目标在图像中标签有效的方形区域P，同时在区域P边缘的坐标点应按规则留有余量，从而得到拓展后的方形区域P₁，并对区域P₁的长和宽更新；4.比较区域P₁的长和宽从而得到一个新的方形区域P₂；5.计算裁剪图中特征点的坐标，作为裁剪图的标签。本发明在原图像中裁剪出包含目标的正方形图像，尽可能少的添加通道，减少背景冗余度，保留目标特征。

Description

基于深度学习的手势识别的多标签图像预处理方法

技术领域

本发明涉及基于深度学习的手势识别的图像预处理方法，适用于被识别目标有复杂的背景且有多个标签为二维坐标的特征点。

背景技术

为了使神经网络的损失值更好更快的收敛，得到优秀识别率的模型，被训练的三维图像在输入网络前均会进行一系列预处理。目前，无论科研人员使用深度学习进行分类任务还是回归任务，都会把数据集原始图像的长宽直接缩放到同等大小，或者为了保证原图像长宽比例不变，在短的一侧添加0通道，使长宽一致，这样为尺度归一化。但是这样做的后果是，前者压缩了原图像的长宽比例导致图像中被检测的目标物体发生变形，损失了纹理特征，使准确率下降；后者虽然保留了纹理特征，但是会添加许多相同像素值的通道，这不属于图像中的信息，增加了图像的冗余度，所以同样会对准确率造成很大的影响。

同时在目标在图像中所占的比例较小，其背景也很复杂的情况下，图片中无用的信息太多，不利于神经网络提取目标特征，背景的冗余和噪声较多，神经网络会在训练时不容易收敛,训练时间较长，对服务器GPU造成负担，且模型准确率也会受到影响。

发明内容

本发明主要解决的技术问题是在基于深度学习的手势识别图像预处理过程中，减少目标背景的冗余度，同时在原图像长宽比例不变并添加通道时更多的保留目标的特征。

为了实现上述目的，本发明采用的技术方案如下：

步骤1.获取已标记的多个特征点的坐标点(x₁,y₁),(x₂,y₂)...(x₂₁,y₂₁),所述的多个特征点的坐标点也是网络学习时的标签。

步骤2.在坐标点中分别选出图像平面坐标系中x的最大值x_max和最小值x_min，y的最大值y_max和最小值y_min，确认坐标点A(x_min，y_min)和坐标点B(x_max，y_max)；

X_max＝max[X₁,X₂...x₂₁]；

X_min＝min[X₁,X₂...X₂₁]；

y_max＝max[y₁,y₂...y₂₁]；

y_min＝min[y₁,y₂...y₂₁]；

步骤3.利用坐标点A(x_min，y_min)和坐标点B(x_max，y_max)定位目标在图像P₀中标签有效的方形区域P，其长为L，宽为W。同时，在方形区域P边缘的坐标点应按规则留有余量，使其落在方形区域P内，得到拓展后的方形区域P₁，然后对方形区域P₁的长和宽更新，具体如下：

方形区域P₁的长L₁更新为L₁＝L+2×L×K，宽W₁更新为W₁＝W+2×W×K，其中K＝0.01；

步骤4.比较方形区域P₁的长L₁和宽W₁，若长L₁大于宽W₁，则对宽W₁进行扩展，令△＝L₁-W₁，则以区域P₁的W₁/2为对称轴，在L₁上向两边均匀扩展△/2，直至长L₁和宽W₁的长度相等，从而得到一个新的方形区域P₂；

若新的方形区域P₂的长为L₂，宽为W₂,其无法达到长宽一致，则应使宽W₂的长度无限接近长L₂，即使得△最小，得到方形区域P₃；

然后将获得的方形区域P₂或方形区域P₃裁剪下来，获得裁剪图，将剩下的背景区域分别计算每一维的像素平均值M。

步骤5.按照原图像与裁剪图的坐标系原点的相对位置，计算裁剪图中特征点的坐标，作为裁剪图的标签。

若裁剪图的尺寸为方形区域P₃，则在宽W₂所在的边添加通道，使L₂与W₂相等，通道的像素值为剩余背景每一维的像素的平均值M。

本发明的有益效果是：

目标在图像中所占的比例增大，除去了图片中无用的信息，减少了图像的复杂度，在不损失特征的情况下完成尺度归一化，神经网络更加容易提取目标特征。保留了目标的纹理特征，添加的通道数减少，没有添加外来的信息，这样可以使网络训练容易收敛，且准确率提高。如果将上述区域P₂或P₃进行了旋转操作，根据旋转的特征点坐标，则可再次对旋转图片进行上述操作，除去图片四角旋转留下的多余通道。

附图说明

图1为图像P₀示意图；

图2为区域P示意图；

图3为区域P₁示意图；

图4为区域P₂示意图；

图5为区域P₃示意图，其中，黑色区域为所添加的通道；

具体实施方式

下面结合附图对本发明作进一步说明。

如图1-5所示，为了实现上述目的，本发明采用的技术方案如下：

步骤1.获取已标记的多个特征点的坐标点(x₁,y₁),(x₂,y₂)...(x₂₁,y₂₁)作什么？所述的多个特征点的坐标点也是网络学习时的标签。

X_max＝max[X₁,X₂...X₂₁]；

X_min＝min[X₁,X₂...X₂₁]；

y_max＝max[y₁,y₂...y₂₁]；

y_min＝min[y₁,y₂...y₂₁]；

步骤3.如图1所示，利用坐标点A(x_min，y_min)和坐标点B(x_max，y_max)定位目标在图像P₀中标签有效的方形区域P，其长为L，宽为W。同时，在方形区域P边缘的坐标点应按规则留有余量，使其落在方形区域P内，参看图2；得到拓展后的方形区域P₁，如图3所示，然后对方形区域P₁的长和宽更新，具体如下：

步骤4.比较方形区域P₁的长L₁和宽W₁，若长L₁大于宽W₁，则对宽W₁进行扩展，令△＝L₁-W₁，则以区域P₁的W₁/2为对称轴，在L₁上向两边均匀扩展△/2，直至长L₁和宽W₁的长度相等，从而得到一个新的方形区域P₂，参看图4；

若新的方形区域P₂的长为L_2，宽为W₂,其无法达到长宽一致，则应使宽W₂的长度无限接近长L₂，即使得△最小，得到方形区域P₃，参看如5；

Claims

1.基于深度学习的手势识别的多标签图像预处理方法，其特征在于包括如下步骤：

步骤1.获取已标记的多个特征点的坐标点(x₁,y₁),(x₂,y₂)...(x₂₁,y₂₁),所述的多个特征点的坐标点也是网络学习时的标签；

X_max＝max[X₁,X₂...X₂₁]；

X_min＝min[X₁,X₂...X₂₁]；

y_max＝max[y₁,y₂...y₂₁]；

y_min＝min[y₁,y₂...y₂₁]；

步骤3.利用坐标点A(x_min，y_min)和坐标点B(x_max，y_max)定位目标在图像P₀中标签有效的方形区域P，其长为L，宽为W；同时，在方形区域P边缘的坐标点应按规则留有余量，使其落在方形区域P内，得到拓展后的方形区域P₁，然后对方形区域P₁的长和宽更新，具体如下：

若新的方形区域P₂的长为L_2，宽为W₂,其无法达到长宽一致，则应使宽W₂的长度无限接近长L₂，即使得△最小，得到方形区域P₃；

然后将获得的方形区域P₂或方形区域P₃裁剪下来，获得裁剪图，将剩下的背景区域分别计算每一维的像素平均值M；

步骤5.按照原图像与裁剪图的坐标系原点的相对位置，计算裁剪图中特征点的坐标，作为裁剪图的标签；