CN108898045A - 基于深度学习的手势识别的多标签图像预处理方法 - Google Patents
基于深度学习的手势识别的多标签图像预处理方法 Download PDFInfo
- Publication number
- CN108898045A CN108898045A CN201810366869.6A CN201810366869A CN108898045A CN 108898045 A CN108898045 A CN 108898045A CN 201810366869 A CN201810366869 A CN 201810366869A CN 108898045 A CN108898045 A CN 108898045A
- Authority
- CN
- China
- Prior art keywords
- max
- coordinate
- region
- square region
- wide
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/113—Recognition of static hand signs
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的手势识别的多标签图像预处理方法。本发明步骤如下:1.获取已标记的多个特征点的坐标;2.在坐标中选出图像平面坐标系中x的最大和最小值,y的最大和最小值,确认坐标点A(xmin,ymin)和坐标点B(xmax,ymax);3.利用坐标A和B定位目标在图像中标签有效的方形区域P,同时在区域P边缘的坐标点应按规则留有余量,从而得到拓展后的方形区域P1,并对区域P1的长和宽更新;4.比较区域P1的长和宽从而得到一个新的方形区域P2;5.计算裁剪图中特征点的坐标,作为裁剪图的标签。本发明在原图像中裁剪出包含目标的正方形图像,尽可能少的添加通道,减少背景冗余度,保留目标特征。
Description
技术领域
本发明涉及基于深度学习的手势识别的图像预处理方法,适用于被识别目标有复杂的背景且有多个标签为二维坐标的特征点。
背景技术
为了使神经网络的损失值更好更快的收敛,得到优秀识别率的模型,被训练的三维图像在输入网络前均会进行一系列预处理。目前,无论科研人员使用深度学习进行分类任务还是回归任务,都会把数据集原始图像的长宽直接缩放到同等大小,或者为了保证原图像长宽比例不变,在短的一侧添加0通道,使长宽一致,这样为尺度归一化。但是这样做的后果是,前者压缩了原图像的长宽比例导致图像中被检测的目标物体发生变形,损失了纹理特征,使准确率下降;后者虽然保留了纹理特征,但是会添加许多相同像素值的通道,这不属于图像中的信息,增加了图像的冗余度,所以同样会对准确率造成很大的影响。
同时在目标在图像中所占的比例较小,其背景也很复杂的情况下,图片中无用的信息太多,不利于神经网络提取目标特征,背景的冗余和噪声较多,神经网络会在训练时不容易收敛,训练时间较长,对服务器GPU造成负担,且模型准确率也会受到影响。
发明内容
本发明主要解决的技术问题是在基于深度学习的手势识别图像预处理过程中,减少目标背景的冗余度,同时在原图像长宽比例不变并添加通道时更多的保留目标的特征。
为了实现上述目的,本发明采用的技术方案如下:
步骤1.获取已标记的多个特征点的坐标点(x1,y1),(x2,y2)...(x21,y21),所述的多个特征点的坐标点也是网络学习时的标签。
步骤2.在坐标点中分别选出图像平面坐标系中x的最大值xmax和最小值xmin,y的最大值ymax和最小值ymin,确认坐标点A(xmin,ymin)和坐标点B(xmax,ymax);
Xmax=max[X1,X2...x21];
Xmin=min[X1,X2...X21];
ymax=max[y1,y2...y21];
ymin=min[y1,y2...y21];
步骤3.利用坐标点A(xmin,ymin)和坐标点B(xmax,ymax)定位目标在图像P0中标签有效的方形区域P,其长为L,宽为W。同时,在方形区域P边缘的坐标点应按规则留有余量,使其落在方形区域P内,得到拓展后的方形区域P1,然后对方形区域P1的长和宽更新,具体如下:
方形区域P1的长L1更新为L1=L+2×L×K,宽W1更新为W1=W+2×W×K,其中K=0.01;
步骤4.比较方形区域P1的长L1和宽W1,若长L1大于宽W1,则对宽W1进行扩展,令△=L1-W1,则以区域P1的W1/2为对称轴,在L1上向两边均匀扩展△/2,直至长L1和宽W1的长度相等,从而得到一个新的方形区域P2;
若新的方形区域P2的长为L2,宽为W2,其无法达到长宽一致,则应使宽W2的长度无限接近长L2,即使得△最小,得到方形区域P3;
然后将获得的方形区域P2或方形区域P3裁剪下来,获得裁剪图,将剩下的背景区域分别计算每一维的像素平均值M。
步骤5.按照原图像与裁剪图的坐标系原点的相对位置,计算裁剪图中特征点的坐标,作为裁剪图的标签。
若裁剪图的尺寸为方形区域P3,则在宽W2所在的边添加通道,使L2与W2相等,通道的像素值为剩余背景每一维的像素的平均值M。
本发明的有益效果是:
目标在图像中所占的比例增大,除去了图片中无用的信息,减少了图像的复杂度,在不损失特征的情况下完成尺度归一化,神经网络更加容易提取目标特征。保留了目标的纹理特征,添加的通道数减少,没有添加外来的信息,这样可以使网络训练容易收敛,且准确率提高。如果将上述区域P2或P3进行了旋转操作,根据旋转的特征点坐标,则可再次对旋转图片进行上述操作,除去图片四角旋转留下的多余通道。
附图说明
图1为图像P0示意图;
图2为区域P示意图;
图3为区域P1示意图;
图4为区域P2示意图;
图5为区域P3示意图,其中,黑色区域为所添加的通道;
具体实施方式
下面结合附图对本发明作进一步说明。
如图1-5所示,为了实现上述目的,本发明采用的技术方案如下:
步骤1.获取已标记的多个特征点的坐标点(x1,y1),(x2,y2)...(x21,y21)作什么?所述的多个特征点的坐标点也是网络学习时的标签。
步骤2.在坐标点中分别选出图像平面坐标系中x的最大值xmax和最小值xmin,y的最大值ymax和最小值ymin,确认坐标点A(xmin,ymin)和坐标点B(xmax,ymax);
Xmax=max[X1,X2...X21];
Xmin=min[X1,X2...X21];
ymax=max[y1,y2...y21];
ymin=min[y1,y2...y21];
步骤3.如图1所示,利用坐标点A(xmin,ymin)和坐标点B(xmax,ymax)定位目标在图像P0中标签有效的方形区域P,其长为L,宽为W。同时,在方形区域P边缘的坐标点应按规则留有余量,使其落在方形区域P内,参看图2;得到拓展后的方形区域P1,如图3所示,然后对方形区域P1的长和宽更新,具体如下:
方形区域P1的长L1更新为L1=L+2×L×K,宽W1更新为W1=W+2×W×K,其中K=0.01;
步骤4.比较方形区域P1的长L1和宽W1,若长L1大于宽W1,则对宽W1进行扩展,令△=L1-W1,则以区域P1的W1/2为对称轴,在L1上向两边均匀扩展△/2,直至长L1和宽W1的长度相等,从而得到一个新的方形区域P2,参看图4;
若新的方形区域P2的长为L2,宽为W2,其无法达到长宽一致,则应使宽W2的长度无限接近长L2,即使得△最小,得到方形区域P3,参看如5;
然后将获得的方形区域P2或方形区域P3裁剪下来,获得裁剪图,将剩下的背景区域分别计算每一维的像素平均值M。
步骤5.按照原图像与裁剪图的坐标系原点的相对位置,计算裁剪图中特征点的坐标,作为裁剪图的标签。
若裁剪图的尺寸为方形区域P3,则在宽W2所在的边添加通道,使L2与W2相等,通道的像素值为剩余背景每一维的像素的平均值M。
Claims (1)
1.基于深度学习的手势识别的多标签图像预处理方法,其特征在于包括如下步骤:
步骤1.获取已标记的多个特征点的坐标点(x1,y1),(x2,y2)...(x21,y21),所述的多个特征点的坐标点也是网络学习时的标签;
步骤2.在坐标点中分别选出图像平面坐标系中x的最大值xmax和最小值xmin,y的最大值ymax和最小值ymin,确认坐标点A(xmin,ymin)和坐标点B(xmax,ymax);
Xmax=max[X1,X2...X21];
Xmin=min[X1,X2...X21];
ymax=max[y1,y2...y21];
ymin=min[y1,y2...y21];
步骤3.利用坐标点A(xmin,ymin)和坐标点B(xmax,ymax)定位目标在图像P0中标签有效的方形区域P,其长为L,宽为W;同时,在方形区域P边缘的坐标点应按规则留有余量,使其落在方形区域P内,得到拓展后的方形区域P1,然后对方形区域P1的长和宽更新,具体如下:
方形区域P1的长L1更新为L1=L+2×L×K,宽W1更新为W1=W+2×W×K,其中K=0.01;
步骤4.比较方形区域P1的长L1和宽W1,若长L1大于宽W1,则对宽W1进行扩展,令△=L1-W1,则以区域P1的W1/2为对称轴,在L1上向两边均匀扩展△/2,直至长L1和宽W1的长度相等,从而得到一个新的方形区域P2;
若新的方形区域P2的长为L2,宽为W2,其无法达到长宽一致,则应使宽W2的长度无限接近长L2,即使得△最小,得到方形区域P3;
然后将获得的方形区域P2或方形区域P3裁剪下来,获得裁剪图,将剩下的背景区域分别计算每一维的像素平均值M;
步骤5.按照原图像与裁剪图的坐标系原点的相对位置,计算裁剪图中特征点的坐标,作为裁剪图的标签;
若裁剪图的尺寸为方形区域P3,则在宽W2所在的边添加通道,使L2与W2相等,通道的像素值为剩余背景每一维的像素的平均值M。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810366869.6A CN108898045B (zh) | 2018-04-23 | 2018-04-23 | 基于深度学习的手势识别的多标签图像预处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810366869.6A CN108898045B (zh) | 2018-04-23 | 2018-04-23 | 基于深度学习的手势识别的多标签图像预处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108898045A true CN108898045A (zh) | 2018-11-27 |
CN108898045B CN108898045B (zh) | 2021-05-25 |
Family
ID=64342384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810366869.6A Active CN108898045B (zh) | 2018-04-23 | 2018-04-23 | 基于深度学习的手势识别的多标签图像预处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108898045B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827247A (zh) * | 2019-10-28 | 2020-02-21 | 上海悦易网络信息技术有限公司 | 一种识别标签的方法及设备 |
CN111722717A (zh) * | 2020-06-18 | 2020-09-29 | 歌尔科技有限公司 | 手势识别方法、装置及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101718528A (zh) * | 2009-12-10 | 2010-06-02 | 北京科技大学 | 基于数字图像的快速求解圆参数方法 |
CN102592260A (zh) * | 2011-12-26 | 2012-07-18 | 广州商景网络科技有限公司 | 证照图像裁剪方法及系统 |
CN104484853A (zh) * | 2014-12-24 | 2015-04-01 | 北京奇虎科技有限公司 | 对包含图形标志的图片进行裁剪的方法和装置 |
KR101513540B1 (ko) * | 2014-07-14 | 2015-04-21 | 연세대학교 산학협력단 | 손 제스처 인식에 의한 차량 제어 장치 및 방법 |
CN104820990A (zh) * | 2015-05-15 | 2015-08-05 | 北京理工大学 | 一种交互式图像抠图系统 |
-
2018
- 2018-04-23 CN CN201810366869.6A patent/CN108898045B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101718528A (zh) * | 2009-12-10 | 2010-06-02 | 北京科技大学 | 基于数字图像的快速求解圆参数方法 |
CN102592260A (zh) * | 2011-12-26 | 2012-07-18 | 广州商景网络科技有限公司 | 证照图像裁剪方法及系统 |
KR101513540B1 (ko) * | 2014-07-14 | 2015-04-21 | 연세대학교 산학협력단 | 손 제스처 인식에 의한 차량 제어 장치 및 방법 |
CN104484853A (zh) * | 2014-12-24 | 2015-04-01 | 北京奇虎科技有限公司 | 对包含图形标志的图片进行裁剪的方法和装置 |
CN104820990A (zh) * | 2015-05-15 | 2015-08-05 | 北京理工大学 | 一种交互式图像抠图系统 |
Non-Patent Citations (2)
Title |
---|
SIDDHARTH S. RAUTARAY ET AL.: "VISION-BASED APPLICATION-ADAPTIVE HAND GESTURE RECOGNITION SYSTEM", 《INTERNATIONAL JOURNAL OF INFORMATION ACQUISITION》 * |
严利民 等: "基于深度数据的关键特征点提取及动态手势轨迹识别", 《工业控制计算机》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827247A (zh) * | 2019-10-28 | 2020-02-21 | 上海悦易网络信息技术有限公司 | 一种识别标签的方法及设备 |
CN110827247B (zh) * | 2019-10-28 | 2024-03-15 | 上海万物新生环保科技集团有限公司 | 一种识别标签的方法及设备 |
CN111722717A (zh) * | 2020-06-18 | 2020-09-29 | 歌尔科技有限公司 | 手势识别方法、装置及计算机可读存储介质 |
CN111722717B (zh) * | 2020-06-18 | 2024-03-15 | 歌尔科技有限公司 | 手势识别方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108898045B (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8582887B2 (en) | Image processing system, learning device and method, and program | |
EP3096263B1 (en) | Human body orientation recognition method and system based on two-lens camera | |
CN104463117B (zh) | 一种基于视频方式的人脸识别样本采集方法及系统 | |
WO2020119661A1 (zh) | 一种目标检测方法、装置以及行人检测方法、系统 | |
CN105046206B (zh) | 基于视频中运动先验信息的行人检测方法及装置 | |
JP2020038658A (ja) | エッジイメージを利用して物体を検出する学習方法及び学習装置、並びにそれを利用したテスト方法及びテスト装置 | |
EP3229171A1 (en) | Method and device for determining identity identifier of human face in human face image, and terminal | |
CN107145889A (zh) | 基于具有RoI池化的双CNN网络的目标识别方法 | |
CN109325954A (zh) | 图像分割方法、装置及电子设备 | |
CN106295564B (zh) | 一种邻域高斯结构和视频特征融合的动作识别方法 | |
CN108446707B (zh) | 基于关键点筛选及dpm确认的遥感图像飞机检测方法 | |
CN104794435A (zh) | 一种基于视觉的无人机对地运动目标检测方法 | |
CN109426828B (zh) | 点云分类方法、装置、设备及存储介质 | |
CN110634131B (zh) | 一种裂缝图像识别与建模方法 | |
CN110263794B (zh) | 基于数据增强的目标识别模型的训练方法 | |
CN105095880A (zh) | 一种基于lgbp编码的手指多模态特征融合方法 | |
CN104915678A (zh) | 一种输电线路中目标对象的检测方法及装置 | |
CN108898045A (zh) | 基于深度学习的手势识别的多标签图像预处理方法 | |
CN107529071B (zh) | 一种视频数据处理方法以及装置 | |
CN115797962B (zh) | 基于装配式建筑ai设计的墙柱识别方法及装置 | |
CN104951440A (zh) | 一种图像处理方法及电子设备 | |
CN105956592B (zh) | 一种基于图像显著性与svm的飞机目标检测方法 | |
Essa et al. | Volumetric directional pattern for spatial feature extraction in hyperspectral imagery | |
CN104268845A (zh) | 极值温差短波红外图像的自适应双局部增强方法 | |
CN106952287A (zh) | 一种基于低秩稀疏表达的视频多目标分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |