CN116958715A - 一种手部关键点的检测方法、装置以及存储介质 - Google Patents
一种手部关键点的检测方法、装置以及存储介质 Download PDFInfo
- Publication number
- CN116958715A CN116958715A CN202310472262.7A CN202310472262A CN116958715A CN 116958715 A CN116958715 A CN 116958715A CN 202310472262 A CN202310472262 A CN 202310472262A CN 116958715 A CN116958715 A CN 116958715A
- Authority
- CN
- China
- Prior art keywords
- hand
- feature
- features
- image
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 112
- 238000001514 detection method Methods 0.000 claims abstract description 154
- 238000000605 extraction Methods 0.000 claims abstract description 76
- 230000007246 mechanism Effects 0.000 claims abstract description 75
- 230000003993 interaction Effects 0.000 claims description 50
- 238000012545 processing Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 20
- 230000004044 response Effects 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 13
- 230000002452 interceptive effect Effects 0.000 claims description 12
- 238000009877 rendering Methods 0.000 claims description 11
- 238000005286 illumination Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013140 knowledge distillation Methods 0.000 claims description 6
- 238000011084 recovery Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 40
- 230000000875 corresponding effect Effects 0.000 description 75
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 230000009471 action Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000003190 augmentative effect Effects 0.000 description 6
- 238000013136 deep learning model Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 210000004247 hand Anatomy 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000036544 posture Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004660 morphological change Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Human Computer Interaction (AREA)
Abstract
本申请公开了一种手部关键点的检测方法、装置以及存储介质。通过获取待处理图像并裁剪得到手部图像;然后基于通道丢弃机制得到输入手部特征;并对输入手部特征进行特征增强,以得到注意力增强的手部特征;进而映射为手部坐标信息,以确定手部坐标信息对应的手部关键点。从而实现适应于不同场景的手部关键点检测过程,由于采用通道丢弃机制进行特征提取,使得手部特征包含了关键点之间的关联关系,且通过注意力机制的特征增强,使得手部特征从全局与局部的角度进行了特征的关联,提高了手部关键点检测的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种手部关键点的检测方法、装置以及存储介质。
背景技术
手部关键点定位是扩展现实(Extended Reality,XR)工程和学术项目中一项非常重要的任务,该检测定位模块的准确与否会对后续的手部重建、检测等产生巨大的影响。
一般,可以通过配置手部关键点定位算法进行手部关键点的提取,该算法的执行通过特征提取算子的配置实现,即通过手工配置不同的特征提取算子进行手部关键点的提取。
但是,手工配置不同的特征提取算子进行手部关键点的提取过程耗时耗力,在大量数据的场景或存在遮挡等特殊场景中,可能出现配置错误,影响手部关键点检测的准确性。
实施例内容
有鉴于此,本申请提供一种手部关键点的检测方法,可以有效提高手部关键点检测的准确性。
本申请第一方面提供一种手部关键点的检测方法,可以应用于终端设备中包含手部关键点的检测功能的系统或程序中,具体包括:
获取待处理图像,并对所述待处理图像进行手部检测,以从所述待处理图像中裁剪得到手部图像;
基于通道丢弃机制对所述手部图像进行特征提取,以得到输入手部特征,所述通道丢弃机制用于使所述输入手部特征包含手部关键点之间的关联关系;
对所述输入手部特征进行特征增强,以得到增强手部特征,所述增强手部特征由所述输入手部特征对应的原始特征、全局特征和局部特征融合所得,所述原始特征用于指示所述输入手部特征中的原始信息,所述全局特征用于指示所述输入手部特征中的特征关联关系,所述局部特征用于指示所述输入手部特征中的像素位置关系;
将所述增强手部特征映射为手部坐标信息,以确定所述手部坐标信息对应的手部关键点。
可选的,在本申请一些可能的实现方式中,所述基于通道丢弃机制对所述手部图像进行特征提取,以得到输入手部特征,包括:
获取训练手部图像;
将所述训练手部图像输入预设特征网络,以得到提取特征图,所述提取特征图包含K个通道,K为正整数;
基于所述通道丢弃机制对所述提取特征图中的N个通道进行随机提取,以得到丢弃通道,N<K,N为正整数;
将所述丢弃通道的参数至零;
根据所述提取特征图中特征之间的关联关系对参数至零后的所述丢弃通道进行参数恢复,以对所述预设特征网络进行训练得到所述特征提取网络;
基于特征提取网络对所述手部图像进行特征提取,以得到所述输入手部特征。
可选的,在本申请一些可能的实现方式中,所述基于所述通道丢弃机制对所述提取特征图中的N个通道进行随机提取,以得到丢弃通道,包括:
获取所述训练图像对应的状态标签,所述姿态标签基于遮挡信息、角度信息或光照信息确定;
基于所述状态标签确定对应的随机丢弃的通道数N;
基于所述通道丢弃机制对所述提取特征图中的N个通道进行随机提取,以得到所述丢弃通道。
可选的,在本申请一些可能的实现方式中,所述基于所述通道丢弃机制对所述提取特征图中的N个通道进行随机提取,以得到所述丢弃通道之后,所述方法还包括:
将所述丢弃通道配置丢弃标识,配置所述丢弃标识的通道不参与随机提取;
基于所述丢弃标识对所述提取特征图中的N个通道进行随机提取,以对所述丢弃通道进行更新。
可选的,在本申请一些可能的实现方式中,所述对所述输入手部特征进行特征增强,以得到增强手部特征,包括:
将所述输入手部特征输入特征增强模块中的第一卷积层,以得到第一卷积特征;
将所述第一卷积特征输入所述原始信息分支,以对所述第一卷积特征的细节信息进行保持得到所述原始特征;
将所述第一卷积特征输入所述全局注意力分支中的全局池化层,以得到池化特征,所述全局注意力分支包括所述全局池化层、第二卷积层、第三卷积层和第一损失层;
将所述池化特征输入所述第二卷积层进行卷积,以得到第二卷积特征;
将所述第二卷积特征输入所述第三卷积层进行卷积,以得到第三卷积特征;
将所述第三卷积特征输入所述第一损失层,以得到指示所述输入手部特征中特征关联关系的所述全局特征;
将所述第一卷积特征输入所述局部注意力分支中的第四卷积层进行卷积,以得到第四卷积特征,所述局部注意力分支包括所述第四卷积层、第五卷积层、第六卷积层和第二损失层;
将所述第四卷积特征输入所述第四卷积层进行卷积,以得到第五卷积特征;
将所述第五卷积特征输入所述第五卷积层进行卷积,以得到第六卷积特征,所述第五卷积层的卷积核大小大于所述第四卷积层的卷积核大小;
将所述第六卷积特征输入所述第六卷积层进行卷积,以得到第七卷积特征,所述第六卷积层的卷积核大小大于所述第四卷积层的卷积核大小;
将所述第七卷积特征输入所述第二损失层,以得到所述输入手部特征中指示像素位置关系的局部特征;
对所述原始特征、所述全局特征和所述局部特征进行特征融合,以得到所述增强手部特征。
可选的,在本申请一些可能的实现方式中,所述对所述原始特征、所述全局特征和所述局部特征进行特征融合,以得到所述增强手部特征,包括:
获取针对于所述输入手部特征配置的加权参数;
基于所述加权参数对所述原始特征、所述全局特征和所述局部特征进行特征加权融合,以得到所述增强手部特征。
可选的,在本申请一些可能的实现方式中,所述获取针对于所述输入手部特征配置的加权参数,包括:
获取所述输入手部特征对应的场景信息;
基于所述场景确定确定指示所述全局特征与所述局部特征的偏好参数;
根据所述偏好参数配置所述输入手部特征对应的所述加权参数。
可选的,在本申请一些可能的实现方式中,所述获取待处理图像,并对所述待处理图像进行手部检测,以从所述待处理图像中裁剪得到手部图像,包括:
响应于交互任务的触发,获取目标对象对应的所述待处理图像;
对所述待处理图像进行手部检测,以以从所述待处理图像中裁剪得到检测手部图像;
将所述检测手部图像与模板手部图像进行比对,以得到调整信息;
基于所述调整信息对所述检测手部图像进行调整,以得到所述手部图像。
可选的,在本申请一些可能的实现方式中,所述将所述检测手部图像与模板手部图像进行比对,以得到调整信息,包括:
获取所述交互任务对应的任务信息;
基于所述任务信息调用对应的所述模板手部图像;
确定所述模板手部图像中的检测关键点;
基于所述检测关键点与所述检测手部图像进行比对,以得到所述调整信息。
可选的,在本申请一些可能的实现方式中,所述响应于交互任务的触发,获取目标对象对应的所述待处理图像,包括:
响应于交互任务的触发,获取所述目标对象对应的多张采集图像;
将所述采集图像输入预训练的生成对抗模型中的判别器,以得到所述待处理图像。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
响应于检测请求,调用所述特征提取网络和所述特征增强模块;
获取所述检测请求对应的检测模型;
将所述检测模型作为教师模型对所述特征提取网络和所述特征增强模块进行知识蒸馏,以对所述特征提取网络和所述特征增强模块进行参数更新。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
获取待检测图像对应任务的交互动作信息;
确定所述交互动作信息对应的虚拟元素;
基于手部关键点对所述虚拟元素进行图像处理,以得到渲染对象;
响应于针对于所述渲染对象的操作信息,执行虚拟场景交互。
本申请第二方面提供一种手部关键点的检测装置,包括:
获取单元,用于获取待处理图像,并对所述待处理图像进行手部检测,以从所述待处理图像中裁剪得到手部图像;
提取单元,用于基于通道丢弃机制对所述手部图像进行特征提取,以得到输入手部特征,所述通道丢弃机制用于使所述输入手部特征包含手部关键点之间的关联关系;
检测单元,用于对所述输入手部特征进行特征增强,以得到增强手部特征,所述增强手部特征由所述输入手部特征对应的原始特征、全局特征和局部特征融合所得,所述原始特征用于指示所述输入手部特征中的原始信息,所述全局特征用于指示所述输入手部特征中的特征关联关系,所述局部特征用于指示所述输入手部特征中的像素位置关系;
所述检测单元,还用于将所述增强手部特征映射为手部坐标信息,以确定所述手部坐标信息对应的手部关键点。
可选的,在本申请一些可能的实现方式中,所述提取单元,具体用于获取训练手部图像;
所述提取单元,具体用于将所述训练手部图像输入预设特征网络,以得到提取特征图,所述提取特征图包含K个通道,K为正整数;
所述提取单元,具体用于基于所述通道丢弃机制对所述提取特征图中的N个通道进行随机提取,以得到丢弃通道,N<K,N为正整数;
所述提取单元,具体用于将所述丢弃通道的参数至零;
所述提取单元,具体用于根据所述提取特征图中特征之间的关联关系对参数至零后的所述丢弃通道进行参数恢复,以对所述预设特征网络进行训练得到所述特征提取网络;
所述提取单元,具体用于基于特征提取网络对所述手部图像进行特征提取,以得到所述输入手部特征。
可选的,在本申请一些可能的实现方式中,所述提取单元,具体用于获取所述训练图像对应的状态标签,所述姿态标签基于遮挡信息、角度信息或光照信息确定;
所述提取单元,具体用于基于所述状态标签确定对应的随机丢弃的通道数N;
所述提取单元,具体用于基于所述通道丢弃机制对所述提取特征图中的N个通道进行随机提取,以得到所述丢弃通道。
可选的,在本申请一些可能的实现方式中,所述提取单元,具体用于将所述丢弃通道配置丢弃标识,配置所述丢弃标识的通道不参与随机提取;
所述提取单元,具体用于基于所述丢弃标识对所述提取特征图中的N个通道进行随机提取,以对所述丢弃通道进行更新。
可选的,在本申请一些可能的实现方式中,所述检测单元,具体用于将所述输入手部特征输入特征增强模块中的第一卷积层,以得到第一卷积特征;
所述检测单元,具体用于将所述第一卷积特征输入所述原始信息分支,以对所述第一卷积特征的细节信息进行保持得到所述原始特征;
所述检测单元,具体用于将所述第一卷积特征输入所述全局注意力分支中的全局池化层,以得到池化特征,所述全局注意力分支包括所述全局池化层、第二卷积层、第三卷积层和第一损失层;
所述检测单元,具体用于将所述池化特征输入所述第二卷积层进行卷积,以得到第二卷积特征;
所述检测单元,具体用于将所述第二卷积特征输入所述第三卷积层进行卷积,以得到第三卷积特征;
所述检测单元,具体用于将所述第三卷积特征输入所述第一损失层,以得到指示所述输入手部特征中特征关联关系的所述全局特征;
所述检测单元,具体用于将所述第一卷积特征输入所述局部注意力分支中的第四卷积层进行卷积,以得到第四卷积特征,所述局部注意力分支包括所述第四卷积层、第五卷积层、第六卷积层和第二损失层;
所述检测单元,具体用于将所述第四卷积特征输入所述第四卷积层进行卷积,以得到第五卷积特征;
所述检测单元,具体用于将所述第五卷积特征输入所述第五卷积层进行卷积,以得到第六卷积特征,所述第五卷积层的卷积核大小大于所述第四卷积层的卷积核大小;
所述检测单元,具体用于将所述第六卷积特征输入所述第六卷积层进行卷积,以得到第七卷积特征,所述第六卷积层的卷积核大小大于所述第四卷积层的卷积核大小;
所述检测单元,具体用于将所述第七卷积特征输入所述第二损失层,以得到所述输入手部特征中指示像素位置关系的局部特征;
所述检测单元,具体用于对所述原始特征、所述全局特征和所述局部特征进行特征融合,以得到所述增强手部特征。
可选的,在本申请一些可能的实现方式中,所述检测单元,具体用于获取针对于所述输入手部特征配置的加权参数;
所述检测单元,具体用于基于所述加权参数对所述原始特征、所述全局特征和所述局部特征进行特征加权融合,以得到所述增强手部特征。
可选的,在本申请一些可能的实现方式中,所述检测单元,具体用于获取所述输入手部特征对应的场景信息;
所述检测单元,具体用于基于所述场景确定确定指示所述全局特征与所述局部特征的偏好参数;
所述检测单元,具体用于根据所述偏好参数配置所述输入手部特征对应的所述加权参数。
可选的,在本申请一些可能的实现方式中,所述获取单元,具体用于响应于交互任务的触发,获取目标对象对应的所述待处理图像;
所述获取单元,具体用于对所述待处理图像进行手部检测,以以从所述待处理图像中裁剪得到检测手部图像;
所述获取单元,具体用于将所述检测手部图像与模板手部图像进行比对,以得到调整信息;
所述获取单元,具体用于基于所述调整信息对所述检测手部图像进行调整,以得到所述手部图像。
可选的,在本申请一些可能的实现方式中,所述获取单元,具体用于获取所述交互任务对应的任务信息;
所述获取单元,具体用于基于所述任务信息调用对应的所述模板手部图像;
所述获取单元,具体用于确定所述模板手部图像中的检测关键点;
所述获取单元,具体用于基于所述检测关键点与所述检测手部图像进行比对,以得到所述调整信息。
可选的,在本申请一些可能的实现方式中,所述获取单元,具体用于响应于交互任务的触发,获取所述目标对象对应的多张采集图像;
所述获取单元,具体用于将所述采集图像输入预训练的生成对抗模型中的判别器,以得到所述待处理图像。
可选的,在本申请一些可能的实现方式中,所述检测单元,具体用于响应于检测请求,调用所述特征提取网络和所述特征增强模块;
所述检测单元,具体用于获取所述检测请求对应的检测模型;
所述检测单元,具体用于将所述检测模型作为教师模型对所述特征提取网络和所述特征增强模块进行知识蒸馏,以对所述特征提取网络和所述特征增强模块进行参数更新。
可选的,在本申请一些可能的实现方式中,所述检测单元,具体用于获取待检测图像对应任务的交互动作信息;
所述检测单元,具体用于确定所述交互动作信息对应的虚拟元素;
所述检测单元,具体用于基于手部关键点对所述虚拟元素进行图像处理,以得到渲染对象;
所述检测单元,具体用于响应于针对于所述渲染对象的操作信息,执行虚拟场景交互。
本申请第三方面提供一种计算机设备,包括:存储器、处理器以及总线系统;所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的手部关键点的检测方法。
本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的手部关键点的检测方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的手部关键点的检测方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
通过获取待处理图像,并对待处理图像进行手部检测,以从待处理图像中裁剪得到手部图像;然后基于通道丢弃机制对手部图像进行特征提取,以得到输入手部特征,该通道丢弃机制用于使输入手部特征包含手部关键点之间的关联关系;并对输入手部特征进行特征增强,以得到增强手部特征,该增强手部特征由输入手部特征对应的原始特征、全局特征和局部特征融合所得,且原始特征用于指示输入手部特征中的原始信息,全局特征用于指示输入手部特征中的特征关联关系,局部特征用于指示输入手部特征中的像素位置关系;进而将增强手部特征映射为手部坐标信息,以确定手部坐标信息对应的手部关键点。从而实现适应于不同场景的手部关键点检测过程,由于采用通道丢弃机制进行特征提取,使得手部特征包含了关键点之间的关联关系,且通过注意力机制的特征增强,使得手部特征从全局与局部的角度进行了特征的关联,提高了遮挡场景中手部关键点检测的鲁棒性,并提高了手部关键点检测的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为手部关键点的检测系统运行的网络架构图;
图2为本申请实施例提供的一种手部关键点的检测的流程架构图;
图3为本申请实施例提供的一种手部关键点的检测方法的流程图;
图4为本申请实施例提供的一种手部关键点的检测方法的场景示意图;
图5为本申请实施例提供的另一种手部关键点的检测方法的场景示意图;
图6为本申请实施例提供的另一种手部关键点的检测方法的场景示意图;
图7为本申请实施例提供的一种手部关键点的检测方法的模型结构示意图;
图8为本申请实施例提供的另一种手部关键点的检测方法的流程图;
图9为本申请实施例提供的另一种手部关键点的检测方法的场景示意图;
图10为本申请实施例提供的一种手部关键点的检测装置的结构示意图;
图11为本申请实施例提供的一种终端设备的结构示意图;
图12为本申请实施例提供的一种服务器的结构示意图。
具体实施方式
本申请实施例提供了一种手部关键点的检测方法以及相关装置,可以应用于终端设备中包含手部关键点的检测功能的系统或程序中,通过获取待处理图像,并对待处理图像进行手部检测,以从待处理图像中裁剪得到手部图像;然后基于通道丢弃机制对手部图像进行特征提取,以得到输入手部特征,该通道丢弃机制用于使输入手部特征包含手部关键点之间的关联关系;并对输入手部特征进行特征增强,以得到增强手部特征,该增强手部特征由输入手部特征对应的原始特征、全局特征和局部特征融合所得,且原始特征用于指示输入手部特征中的原始信息,全局特征用于指示输入手部特征中的特征关联关系,局部特征用于指示输入手部特征中的像素位置关系;进而将增强手部特征映射为手部坐标信息,以确定手部坐标信息对应的手部关键点。从而实现适应于不同场景的手部关键点检测过程,由于采用通道丢弃机制进行特征提取,使得手部特征包含了关键点之间的关联关系,且通过注意力机制的特征增强,使得手部特征从全局与局部的角度进行了特征的关联,提高了遮挡场景中手部关键点检测的鲁棒性,并提高了手部关键点检测的准确性。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本申请提供的手部关键点的检测方法可以应用于终端设备中包含手部关键点的检测功能的系统或程序中,例如扩展现实,具体的,手部关键点的检测系统可以运行于如图1所示的网络架构中,如图1所示,是手部关键点的检测系统运行的网络架构图,如图可知,手部关键点的检测系统可以提供与多个信息源的手部关键点的检测过程,即通过终端侧的交互操作触发服务器对相应的图像进行手部关键点的检测;可以理解的是,图1中示出了多种终端设备,终端设备可以为计算机设备,在实际场景中可以有更多或更少种类的终端设备参与到手部关键点的检测的过程中,具体数量和种类因实际场景而定,此处不做限定,另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,特别是在多模型训练交互的场景中,具体服务器数量因实际场景而定。
本实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端以及XR(包括VR、AR、MR)设备等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,终端以及服务器可以连接组成区块链网络,本申请在此不做限制。
可以理解的是,上述手部关键点的检测系统可以运行于个人移动终端,例如:作为扩展现实这样的应用,也可以运行于服务器,还可以作为运行于第三方设备以提供手部关键点的检测,以得到信息源的手部关键点的检测处理结果;具体的手部关键点的检测系统可以是以一种程序的形式在上述设备中运行,也可以作为上述设备中的系统部件进行运行,还可以作为云端服务程序的一种,本实施例可应用于云技术、自动驾驶、游戏(包括体感游戏、手势控制游戏)等场景,具体运作模式因实际场景而定,此处不做限定。
随着计算机技术的发展,人机之间的交互方式日益丰富,对于扩展现实技术的需求逐渐提高。扩展现实(Extended Reality,XR)是通过计算机技术和可穿戴设备搭建而成的一个虚拟和现实组合、可人机交互的环境。其展现性包括虚拟现实(Virtual Reality,VR)、增强现实(Augmented Reality,AR)、混合现实(Mixed Reality,MR)等等各种新沉浸式技术;同时继承了它们的所有技术和特性特点,营造真实、虚拟组合的数字化环境和新型人机交互方式,为体验者带来虚拟世界与现实世界之间无缝转换的沉浸感。
进一步的,手部关键点定位是扩展现实工程和学术项目中一项非常重要的任务,该检测定位模块的准确与否会对后续的手部重建、检测等产生巨大的影响。
一般,可以通过配置手部关键点定位算法进行手部关键点的提取,该算法的执行通过特征提取算子的配置实现,即通过手工配置不同的特征提取算子进行手部关键点的提取。
但是,手工配置不同的特征提取算子进行手部关键点的提取过程耗时耗力,在大量数据的场景或存在遮挡等特殊场景中,可能出现配置错误,影响手部关键点检测的准确性。
为了解决上述问题,本申请提出了一种手部关键点的检测方法,该方法应用于图2所示的手部关键点的检测的流程框架中,如图2所示,为本申请实施例提供的一种手部关键点的检测的流程架构图,响应于终端的交互操作,使得服务器进行图像中手部关键点的检测过程,检测过程中的特征提取模块基于通道的随机丢弃模块,来增强模型对于那些遮挡、大姿态等实例的处理能力,可以帮助模型提取出更具有特异性的手部关键点定位特征,并且会使模型学习出点与点之间的内在联系。然后,根据注意力机制辅助模型提取局部特征和全局的特征;因此当某些点被遮挡时,模型可以根据已有的结果去推断出那些被遮挡点的大概位置,从而检测得到手部关键点,以进行进一步的交互过程。
可以理解的是,本申请所提供的方法可以为一种程序的写入,以作为硬件系统中的一种处理逻辑,也可以作为一种手部关键点的检测装置,采用集成或外接的方式实现上述处理逻辑。作为一种实现方式,该手部关键点的检测装置通过获取待处理图像,并对待处理图像进行手部检测,以从待处理图像中裁剪得到手部图像;然后基于特征提取网络对手部图像进行特征提取,以得到输入手部特征,该特征提取网络基于通道丢弃机制训练所得,该通道丢弃机制用于使输入手部特征包含手部关键点之间的关联关系;并将输入手部特征输入特征增强模块,以得到增强手部特征,该特征增强模块包括原始信息分支、全局注意力分支和局部注意力分支,原始信息分支用于保持输入手部特征中的原始特征,全局注意力分支用于提取输入手部特征中指示特征关联关系的全局特征,局部注意力分支用于提取输入手部特征中指示像素位置关系的局部特征,增强手部特征基于原始特征、全局特征和局部特征融合所得;进而根据检测头将增强手部特征映射为手部坐标信息,以确定手部坐标信息对应的手部关键点。从而实现适应于不同场景的手部关键点检测过程,由于采用通道丢弃机制进行特征提取,使得手部特征包含了关键点之间的关联关系,且通过注意力机制的特征增强,使得手部特征从全局与局部的角度进行了特征的关联,提高了遮挡场景中手部关键点检测的鲁棒性,并提高了手部关键点检测的准确性。
本申请实施例提供的方案涉及人工智能的计算机视觉技术,具体通过如下实施例进行说明:
结合上述流程架构,下面将对本申请中手部关键点的检测方法进行介绍,请参阅图3,图3为本申请实施例提供的一种手部关键点的检测方法的流程图,该管理方法可以是由终端或服务器执行的,本申请实施例至少包括以下步骤:
301、获取待处理图像,并对待处理图像进行手部检测,以从待处理图像中裁剪得到手部图像。
本实施例中,待处理图像即为采集或接收到的目标对象的图像,该目标对象可以是参与XR、VR或其他交互终端的用户,且交互过程基于手部进行,具体的对象交互场景因实际操作而定,此处不作限定。
可以理解的是,对于手部关键点检测的整体流程,如图4所示,图4为本申请实施例提供的一种手部关键点的检测方法的场景示意图;图中是示出了对于待处理图像首先进行图像调整401过程,即将待处理图像进行手部定位(HandDetection)、数据增广等预处理之后,将手部从输入图片中裁剪出来;然后进行关键点定位402的过程,即使用卷积神经网络来进行特征提取,然后将提取出的特征送入到基于注意力机制的特征增强模块,来计算特征中全局信息和局部信息,这些具有抽象语义信息的特征与原始的特征融合后,输送到检测头(DetectionHead)部分并将其映射为2D坐标信息。其中,在特征提取阶段,为了使模型能够发掘更多的点与点之间的关联关系,可以在特征提取模型的最后几个阶段(Stage)中使用了基于通道随机丢弃机制的特征增强模块。
具体的,对于待处理图像进行图像预处理的过程,即为了进一步提升模型的鲁棒性,具体可以将经过手部定位(HandDetection)和尺度缩放的数据进行旋转、对称、颜色增强、模糊、加噪声等各种形态学变化;还可以使用生成对抗模型来对数据进行更多的增广。
可选的,对于图像预处理的调整过程,可以是基于模板手部图像进行的,即合适的检测姿态,首先响应于交互任务的触发,获取目标对象对应的待处理图像;然后对待处理图像进行手部检测,以以从待处理图像中裁剪得到检测手部图像;并将检测手部图像与模板手部图像进行比对,以得到调整信息;进而基于调整信息对检测手部图像进行调整,以得到手部图像,从而得到匹配于检测手部图像的手部图像,提高检测的准确性。
可选的,对于调整信息的确定,还可以是基于模板手部图像中的检测关键点进行的,这是由于遮挡场景中可能没有显示手部的全部元素,通过检测关键点进行调整,可以避免元素缺失时调整的错误。即首先获取交互任务对应的任务信息;由于不同的任务对应的模板可能不同,故可以基于任务信息调用对应的模板手部图像;进而确定模板手部图像中的检测关键点;从而基于检测关键点与检测手部图像进行比对,以得到调整信息,故可以提高调整信息的准确性以及确定效率。
可选的,对于使用生成对抗模型来对数据进行更多的增广的场景,可以响应于交互任务的触发,获取目标对象对应的多张采集图像;然后将采集图像输入预训练的生成对抗模型中的判别器,以得到待处理图像,从而避免错误图像的输入,例如用户不在采集场景中时采集的图像,即在一些可能的场景中,用户通过手部的交互过程中手部是移动的,在移动时可能会移出图像采集的范围,此时采集的图像并没有手部元素,因此可以通过生成对抗模型中的判别器对图像中的手部元素进行判别,对于存在手部元素的图像进行采集,以进行进一步的处理,从而提高采集到的待处理图像的有效性。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息、手部图像等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
302、基于通道丢弃机制对手部图像进行特征提取,以得到输入手部特征。
本实施例中,基于通道丢弃机制对手部图像进行特征提取的过程,即采用通道丢弃机制对特征提取网络(backbone)进行训练,并通过训练后的特征提取网络对手部图像进行特征提取;该通道丢弃机制用于使输入手部特征包含手部关键点之间的关联关系,即在深度学习模型中,加入了对于特征通道的随机丢弃机制,该机制有助于模型发现点与点之间的内在联系。这是由于在手部关键点定位任务中,存在大量的遮挡、极端姿态等问题;这些情况会对模型的定位精度产生非常严重的影响,且会降低用户体验。如果使模型在训练阶段,能够发掘一些手部关键点之间的内在联系,将有助于提升模型对于被遮挡位置处的点的定位精度和稳定性;而通过通道丢弃机制对手部关键点进行随机的丢弃,来类比手部关键点被遮挡或极端姿态下的场景,并通过特征图恢复原有手部关键点的过程,来学习手部关键点之间的关联关系,从而在手部关键点被遮挡时,通过关联关系来确定其相应的特征位置。
应当注意的是,与其他的计算机视觉问题不同,手部关键点定位任务存在一定的特殊性,即相较于计算机视觉任务从像素特征维度识别得到图像特征,手部关键点定位的过程是基于手部关键点的特征执行的,即将backbone提取所得的特征看作是手部关键点的一些特征集合;因此对于backbone输出的FeatureMap中的某些Channel代表2D的手部关键点的位置坐标。通过通道丢弃机制的特征增强模块,对手部关键点的位置坐标进行丢弃后恢复的过程,来提取手部中点与点之间的长程的关联关系(也可以称为依赖关系)。由于该依赖关系并不是被显式的标注出来,即手部同一手指中的关键点的位置存在关联依赖,但难以进行标注,因此难以配置模型来对这些隐含的长程依赖关系进行学习和建模。
具体的,对于手部关键点之间的关联关系,如图5所示,图5为本申请实施例提供的另一种手部关键点的检测方法的场景示意图;图中示出了在手部关键点定位任务中,点与点之间具有很强的关联关系,如手腕处的点与手掌中的点相互依赖,但是与指尖的点并没有明显的关联;手指中的相邻的点之间具有关联性,但是与另外的手指中关键点的关联性较小,可见手部关键点之间的关联关系关联程度不同,难以进行准确的标注以量化其关联程序,故本申请采用通道丢弃机制以丢弃后恢复的方式学习手部关键点之间的关联关系。例如在如图5所示的实例中,当10号点被遮挡住时,可以可以根据9号点和11号点的具体位置来对10号点的坐标进行预测。
具体的,对于通道丢弃机制的使用过程如图6所示,图6为本申请实施例提供的另一种手部关键点的检测方法的场景示意图;区中示出了对于给定的一组FeatureMapF=(f1,f2,…,fk),其中fi表示特征组中的第i-th层,所设计的模块会随机选择出其中的N层,然后将其中的参数全部置零。后续的深度神经网络会根据FeatureMap之间的关联关系来恢复出相应的信息。
基于上述通道丢弃机制的过程,在输入手部特征确定前,即首先获取训练手部图像;然后将训练手部图像输入预设特征网络,以得到提取特征图,提取特征图包含K个通道,K为正整数;并基于通道丢弃机制对提取特征图中的N个通道进行随机提取,以得到丢弃通道,N<K,N为正整数;然后将丢弃通道的参数至零;进而根据提取特征图中特征之间的关联关系对参数至零后的丢弃通道进行参数恢复,以对预设特征网络进行训练得到特征提取网络,通过学习如何恢复信息的过程能够帮助模型发掘手部关键点之间的长程依赖和几何关系。
可选的,对于丢弃通道数量的确定,可以是根据不同场景确定的,即遮挡、光照等的场景对于关键点之间的长程依赖和几何关系的关联性可能不同;即首先获取训练图像对应的状态标签,该姿态标签基于遮挡信息、角度信息或光照信息确定;然后基于状态标签确定对应的随机丢弃的通道数N,即通过多次实验确定符合于不同场景的丢弃通道数;进而基于通道丢弃机制对提取特征图中的N个通道进行随机提取,以得到丢弃通道,从而提高对于不同特殊场景的适配性。
另外,为了避免通道重复丢弃,可以将丢弃通道配置丢弃标识,配置丢弃标识的通道不参与随机提取;进而基于丢弃标识对提取特征图中的N个通道进行随机提取,以对丢弃通道进行更新,从而避免重复丢弃的过程,节约计算资源。
303、对输入手部特征进行特征增强,以得到增强手部特征。
本实施例中,由于基于深度学习的手部关键点定位模型所提取出的特征具有较强的语义特征,因此可以可以根据这一特性来对输入手部特征进行增强,以提高特征的表征能力。
具体的,对输入手部特征进行特征增强可以通过原始特征、全局特征和局部特征的融合过程进行;其中,该原始特征用于指示输入手部特征中的原始信息,原始信息即为输入手部特征中未被修改的特征信息;而全局特征用于指示输入手部特征中的特征关联关系,即从特征的角度计算各个特征之间的权重;另外局部特征用于指示输入手部特征中的像素位置关系,即从像素分布的角度计算各个特征之间的权重。
在一种可能的场景中,对输入手部特征进行特征增强的过程可以通过特征增强模块进行,该特征增强模块包括原始信息分支、全局注意力分支和局部注意力分支,原始信息分支用于保持输入手部特征中的原始特征,全局注意力分支用于提取输入手部特征中指示特征关联关系的全局特征,局部注意力分支用于提取输入手部特征中指示像素位置关系的局部特征,从而增强手部特征基于原始特征、全局特征和局部特征融合所得。通过基于注意力机制的辅助模块,可以提升深度学习模型对于局部信息和全局信息的提取,进而提升模型在遮挡场景中的鲁棒性。
由于特征提取模块中的FeatureMap中包含了大量的有效信息,使用基于注意力机制的特征增强模块将全局信息和局部信息提取出来,会对遮挡等复杂场景中的关键点定位精度有较大的提升。
在一种可能的场景中,基于注意力机制的特征增强模块放置到特征提取模块(backbone)和DetectionHead之间。特征增强模块的具体配置如图7所示,图7为本申请实施例提供的一种手部关键点的检测方法的模型结构示意图;图中示出了对于图像增强的过程,首先将输入手部特征输入特征增强模块中的第一卷积层(conv 3*3),以得到第一卷积特征;即从Backbone输出的FeatureMap首先需要经过一个3x3的卷积,然后将送入到上述的三个分支。
对于原始信息分支,可以将第一卷积特征输入原始信息分支,以对第一卷积特征的细节信息进行保持得到原始特征,即用于保持FeatureMap的原始信息,原始信息分支具有类似与ResNet结构的Shortcut结构,这些结构能够位置原有FeatureMap中的重要的细节信息。
对于全局注意力分支,可以将第一卷积特征输入全局注意力分支中的全局池化层(GlobalAveragePooling),以得到池化特征,该全局注意力分支包括全局池化层、第二卷积层、第三卷积层和第一损失层;进而将池化特征输入第二卷积层(conv 1*1)进行卷积,以得到第二卷积特征;然后将第二卷积特征输入第三卷积层(conv 1*1)进行卷积,以得到第三卷积特征;并将第三卷积特征输入第一损失层,以得到指示输入手部特征中特征关联关系的全局特征,即全局注意力分支用提取FeatureMap中的全局信息;具体是一种与Channel-Wise Attention类似的过程,有GlobalAveragePooling和两个1x1的卷积和一个SigmoidActivateLayer组成,全局注意力分支能够从FeatureMap中提取出全局信息,该全局信息为手部关键点的宏观特征,因此全局信息可以从整个图像的宏观维度强化模型发掘手部关键点之间的关联关系。
对于全局注意力分支,可以将第一卷积特征输入局部注意力分支中的第四卷积层进行卷积,以得到第四卷积特征,局部注意力分支包括第四卷积层、第五卷积层、第六卷积层和第二损失层;然后将第四卷积特征输入第四卷积层(conv 1*1)进行卷积,以得到第五卷积特征;并将第五卷积特征输入第五卷积层(conv 3*3)进行卷积,以得到第六卷积特征,第五卷积层的卷积核大小大于第四卷积层的卷积核大小;然后将第六卷积特征输入第六卷积层(conv3*3)进行卷积,以得到第七卷积特征,第六卷积层的卷积核大小大于第四卷积层的卷积核大小;并将第七卷积特征输入第二损失层,以得到输入手部特征中指示像素位置关系的局部特征;即对于全局注意力分支用来提取FeatureMap中的局部信息,是模型能够通过像素之间的关系来粗略推断被遮挡位置处的坐标,该分支主要由一个1x1的卷积层和2个3x3的卷积层组成。
进一步的,对原始特征、全局特征和局部特征进行特征融合,以得到增强手部特征,即基于注意力机制的特征增强模块需要将上述的三分支信息进行融合,融合公式如下:
fout=φ(fin)+α⊙chφ(fin)+β⊙spφ(fin)
其中,fin和fout分别表示输入特征和输出特征,φ(·)表示注意力机制模块中的第一个3x3的卷积层,⊙ch和⊙sp表示上层的Attention分支和下层的Attention分支,即ch表示全局信息,sp标识局部信息;α和β是两个常数,用来对不同的特征进行加权。
对于加权参数的配置,可以是获取针对于输入手部特征配置的加权参数;然后基于加权参数对原始特征、全局特征和局部特征进行特征加权融合,以得到增强手部特征。
可选的,对于不同的场景可以配置不同的加权参数,例如手部模型占交互场景比重大的场景全局特征影响较大,故可以配置较高的权重;即首先获取输入手部特征对应的场景信息;然后基于场景确定确定指示全局特征与局部特征的偏好参数;进而根据偏好参数配置输入手部特征对应的加权参数,从而提高不同场景中融合特征的准确性。
另外,在模型训练阶段,可以将输入图片缩放到统一的尺寸,训练中有多种学习率变换的方式可供选择,如固定学习率、分步式学习率、Cosine变化学习率等;对于深度学习模型的优化器可以选择Adam、SGD、RMSprop等。深度学习模型可以使用PyTorch、Tensorflow、Keras等多种不同工具进行搭建、训练和部署。
可以理解的是,为了所设计模块的普适性,可以尽量降低特征提取网络与特征增强模块之间耦合性,使所设计的两种特征增强模块可以适配到大部分常用的模型,包括比较复杂的模型:ResNet、VGG、ViT等,也可以应用到轻量化模型中如:MobileNet、ShuffleNet、GhostNet等。
304、将增强手部特征映射为手部坐标信息,以确定手部坐标信息对应的手部关键点。
本实施例中,将增强手部特征映射为手部坐标信息的过程可以是通过检测头(DetectionHead)进行的在将具有抽象语义信息的特征与原始的特征融合后,输送到DetectionHead部分并将其映射为2D的坐标信息,从而可以确定对应的手部关键点。
上述实施例中的,可以帮助模型提取出更具有特异性的手部关键点定位特征,并且会使模型学习出点与点之间的内在联系;因此,当某些点被遮挡时,模型可以根据已有的结果去推断出那些被遮挡点的大概位置。
在一种可能的场景中,对于本实施例中提出的特征提取网络以及特征增强模块,可以根据本实施例中阐述的内容,训练一个高精度的模型部署在云端服务器,提供云端服务,为用户提供高精度的手部关键点定位结果。还可以设计和训练一种适用于遮挡、大姿态、极端光照场景中的高精度手部关键点定定位模型,为XR、智能交互任务提供精准的手部关键点位置信息。
另外,对于已经配置检测模型的场景,可以训练的高精度模型同样可以用在知识蒸馏任务中,使用大模型作为TeacherModel,有助于用户获取到性能更好的小模型。即响应于检测请求,调用特征提取网络和特征增强模块;然后获取检测请求对应的检测模型;进而将检测模型作为教师模型对特征提取网络和特征增强模块进行知识蒸馏,以对特征提取网络和特征增强模块进行参数更新,从而提高特征提取网络以及特征增强模块的适配性。
可选的,还可以将特征增强模块、注意力机制模块单独使用,根据不同的任务场景来对模型的结构进行具体的调整,从而获得较好的定位精度。且本实施例中所设计的注意力机制模块、特征增强模块能够适用于目前常见的深度学习模型,因此可以将模块与轻量化模型联合使用,从而获获得能够在嵌入式设备中使用的并且对遮挡等场景鲁棒的手部关键点定位模型。
可以理解的是,由于上述实施例设计的注意力机制、特征增强模型,计算量、参数量都很低,因此可以部署到XR、手机等智能终端设备中。
在一种可能的场景中,为了验证本实施例中算法的性能,可以使用相同的配置条件和训练数据,对本实施例中的方法和目前的经典方法进行了对比,使用PCK作为模型精度的测试指标,其中归一化指标d=0.05和d=0.1,同时还对算法的参数量也进行了对比,实验结果如表1所示。其中Res18表示使用了ResNet18作为Backbone的baseline方法,Att表示使用了基于注意力机制的特征增强模块,Drop表示使用了基于通道随机丢弃机制的特征增强模块。
实验结果如表1的算法性能对比所示,从表1中可以看出,与常用的ResNet18模型相比,本实施例中所提出的基于注意力机制的特征增强模块和基于通道随机丢弃机制的特征增强模块都提升模型精度有促进作用;并且可以看出,同时使用了两种模块的方法取得了最好的检测效果。
表1算法性能对比
方法 | PCK@0.05 | PCK@0.1 | 参数量(M) |
Res18 | 0.4201 | 0.7633 | 58M |
Res18+Att | 0.4362 | 0.7836 | 59M |
Res18+Drop | 0.4359 | 0.7823 | 58M |
Res18+Att+Drop | 0.4406 | 0.7895 | 59M |
结合上述实施例可知,通过获取待处理图像,并对待处理图像进行手部检测,以从待处理图像中裁剪得到手部图像;然后基于通道丢弃机制对手部图像进行特征提取,以得到输入手部特征,该通道丢弃机制用于使输入手部特征包含手部关键点之间的关联关系;并对输入手部特征进行特征增强,以得到增强手部特征,该增强手部特征由输入手部特征对应的原始特征、全局特征和局部特征融合所得,且原始特征用于指示输入手部特征中的原始信息,全局特征用于指示输入手部特征中的特征关联关系,局部特征用于指示输入手部特征中的像素位置关系;进而将增强手部特征映射为手部坐标信息,以确定手部坐标信息对应的手部关键点。从而实现适应于不同场景的手部关键点检测过程,由于采用通道丢弃机制进行特征提取,使得手部特征包含了关键点之间的关联关系,且通过注意力机制的特征增强,使得手部特征从全局与局部的角度进行了特征的关联,提高了遮挡场景中手部关键点检测的鲁棒性,并提高了手部关键点检测的准确性。
上述实施例介绍了手部关键点的检测过程,在检测得到关键点后,可以进行相应的场景交互过程,下面对该场景进行说明。请参阅图8,图8为本申请实施例提供的另一种手部关键点的检测方法的流程图,本申请实施例至少包括以下步骤:
801、获取待检测图像对应任务的交互动作信息。
本实施例中,交互动作信息即为交互过程中手部对应的作用,例如交互控件的载体、车辆的控制器等虚拟元素。具体的交互元素形式因实际场景而定,此处不作限定。
802、确定交互动作信息对应的虚拟元素。
本实施例中,交互动作信息对应的虚拟元素即为接下来需要与手部进行结合或基于手部进行变换的虚拟元素。
803、基于手部关键点对虚拟元素进行图像处理,以得到渲染对象。
本实施例中,对手部关键点对虚拟元素进行图像处理,即将手部与虚拟元素进行结合,例如玩家控制的对象手部出现交互控件,由于通过手部关键点进行渲染,在虚拟场景中将虚拟对象手部与交互控件进行融合,使得游戏任务配置交互控件的效果更加真实,提高用户体验;另外,渲染对象还可以是体感游戏中的虚拟对象,即通过手部关键点对虚拟元素进行图像处理,将玩家的手部动作进行采集,从而触发虚拟对象执行相应的动作,例如在体育类游戏中,通过玩家的抓握动作,控制虚拟对象进行道具的拿起与放下;可以理解的是,对于玩家动作与虚拟对象执行动作的对应关系,可以是相同的,即虚拟对象模拟同样的动作;也可以是不同的,即玩家动作可以触发虚拟对象执行特定动作,该特定动作与玩家动作不同,具体的对应关系因实际场景而定,从而进一步丰富了玩家在虚拟场景中交互的丰富度。
804、响应于针对于渲染对象的操作信息,执行虚拟场景交互。
本实施例中,执行虚拟场景交互即根据用户的操作进行进一步交互的过程。如图9所示,图9为本申请实施例提供的另一种手部关键点的检测方法的场景示意图;图中的虚拟人物在进行手部关键点检测后,在手部配置了相应的交互控件,玩家即可控制该虚拟人物进行基于交互控件的场景交互过程。
可以理解的是,由于手部关键点的检测过程针对目前手部关键点定位模型在遮挡、大姿态、极端光照等复杂条件中性能不佳的问题设计,故渲染后的虚拟元素可以适应于不同复杂的交互场景中,在复杂场景中具有更好的渲染效果,提高用户体验。
为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关装置。请参阅图10,图10为本申请实施例提供的一种手部关键点的检测装置的结构示意图,手部关键点的检测装置1000包括:
获取单元1001,用于获取待处理图像,并对所述待处理图像进行手部检测,以从所述待处理图像中裁剪得到手部图像;
提取单元1002,用于基于通道丢弃机制对所述手部图像进行特征提取,以得到输入手部特征,所述通道丢弃机制用于使所述输入手部特征包含手部关键点之间的关联关系;
检测单元1003,用于对所述输入手部特征进行特征增强,以得到增强手部特征,所述增强手部特征由所述输入手部特征对应的原始特征、全局特征和局部特征融合所得,所述原始特征用于指示所述输入手部特征中的原始信息,所述全局特征用于指示所述输入手部特征中的特征关联关系,所述局部特征用于指示所述输入手部特征中的像素位置关系;
所述检测单元1003,还用于将所述增强手部特征映射为手部坐标信息,以确定所述手部坐标信息对应的手部关键点。
可选的,在本申请一些可能的实现方式中,所述提取单元1002,具体用于获取训练手部图像;
所述提取单元1002,具体用于将所述训练手部图像输入预设特征网络,以得到提取特征图,所述提取特征图包含K个通道,K为正整数;
所述提取单元1002,具体用于基于所述通道丢弃机制对所述提取特征图中的N个通道进行随机提取,以得到丢弃通道,N<K,N为正整数;
所述提取单元1002,具体用于将所述丢弃通道的参数至零;
所述提取单元1002,具体用于根据所述提取特征图中特征之间的关联关系对参数至零后的所述丢弃通道进行参数恢复,以对所述预设特征网络进行训练得到所述特征提取网络;
所述提取单元1002,具体用于基于特征提取网络对所述手部图像进行特征提取,以得到所述输入手部特征。
可选的,在本申请一些可能的实现方式中,所述提取单元1002,具体用于获取所述训练图像对应的状态标签,所述姿态标签基于遮挡信息、角度信息或光照信息确定;
所述提取单元1002,具体用于基于所述状态标签确定对应的随机丢弃的通道数N;
所述提取单元1002,具体用于基于所述通道丢弃机制对所述提取特征图中的N个通道进行随机提取,以得到所述丢弃通道。
可选的,在本申请一些可能的实现方式中,所述提取单元1002,具体用于将所述丢弃通道配置丢弃标识,配置所述丢弃标识的通道不参与随机提取;
所述提取单元1002,具体用于基于所述丢弃标识对所述提取特征图中的N个通道进行随机提取,以对所述丢弃通道进行更新。
可选的,在本申请一些可能的实现方式中,所述检测单元1003,具体用于将所述输入手部特征输入特征增强模块中的第一卷积层,以得到第一卷积特征;
所述检测单元1003,具体用于将所述第一卷积特征输入所述原始信息分支,以对所述第一卷积特征的细节信息进行保持得到所述原始特征;
所述检测单元1003,具体用于将所述第一卷积特征输入所述全局注意力分支中的全局池化层,以得到池化特征,所述全局注意力分支包括所述全局池化层、第二卷积层、第三卷积层和第一损失层;
所述检测单元1003,具体用于将所述池化特征输入所述第二卷积层进行卷积,以得到第二卷积特征;
所述检测单元1003,具体用于将所述第二卷积特征输入所述第三卷积层进行卷积,以得到第三卷积特征;
所述检测单元1003,具体用于将所述第三卷积特征输入所述第一损失层,以得到指示所述输入手部特征中特征关联关系的所述全局特征;
所述检测单元1003,具体用于将所述第一卷积特征输入所述局部注意力分支中的第四卷积层进行卷积,以得到第四卷积特征,所述局部注意力分支包括所述第四卷积层、第五卷积层、第六卷积层和第二损失层;
所述检测单元1003,具体用于将所述第四卷积特征输入所述第四卷积层进行卷积,以得到第五卷积特征;
所述检测单元1003,具体用于将所述第五卷积特征输入所述第五卷积层进行卷积,以得到第六卷积特征,所述第五卷积层的卷积核大小大于所述第四卷积层的卷积核大小;
所述检测单元1003,具体用于将所述第六卷积特征输入所述第六卷积层进行卷积,以得到第七卷积特征,所述第六卷积层的卷积核大小大于所述第四卷积层的卷积核大小;
所述检测单元1003,具体用于将所述第七卷积特征输入所述第二损失层,以得到所述输入手部特征中指示像素位置关系的局部特征;
所述检测单元1003,具体用于对所述原始特征、所述全局特征和所述局部特征进行特征融合,以得到所述增强手部特征。
可选的,在本申请一些可能的实现方式中,所述检测单元1003,具体用于获取针对于所述输入手部特征配置的加权参数;
所述检测单元1003,具体用于基于所述加权参数对所述原始特征、所述全局特征和所述局部特征进行特征加权融合,以得到所述增强手部特征。
可选的,在本申请一些可能的实现方式中,所述检测单元1003,具体用于获取所述输入手部特征对应的场景信息;
所述检测单元1003,具体用于基于所述场景确定确定指示所述全局特征与所述局部特征的偏好参数;
所述检测单元1003,具体用于根据所述偏好参数配置所述输入手部特征对应的所述加权参数。
可选的,在本申请一些可能的实现方式中,所述获取单元1001,具体用于响应于交互任务的触发,获取目标对象对应的所述待处理图像;
所述获取单元1001,具体用于对所述待处理图像进行手部检测,以以从所述待处理图像中裁剪得到检测手部图像;
所述获取单元1001,具体用于将所述检测手部图像与模板手部图像进行比对,以得到调整信息;
所述获取单元1001,具体用于基于所述调整信息对所述检测手部图像进行调整,以得到所述手部图像。
可选的,在本申请一些可能的实现方式中,所述获取单元1001,具体用于获取所述交互任务对应的任务信息;
所述获取单元1001,具体用于基于所述任务信息调用对应的所述模板手部图像;
所述获取单元1001,具体用于确定所述模板手部图像中的检测关键点;
所述获取单元1001,具体用于基于所述检测关键点与所述检测手部图像进行比对,以得到所述调整信息。
可选的,在本申请一些可能的实现方式中,所述获取单元1001,具体用于响应于交互任务的触发,获取所述目标对象对应的多张采集图像;
所述获取单元1001,具体用于将所述采集图像输入预训练的生成对抗模型中的判别器,以得到所述待处理图像。
可选的,在本申请一些可能的实现方式中,所述检测单元1003,具体用于响应于检测请求,调用所述特征提取网络和所述特征增强模块;
所述检测单元1003,具体用于获取所述检测请求对应的检测模型;
所述检测单元1003,具体用于将所述检测模型作为教师模型对所述特征提取网络和所述特征增强模块进行知识蒸馏,以对所述特征提取网络和所述特征增强模块进行参数更新。
可选的,在本申请一些可能的实现方式中,所述检测单元1003,具体用于获取待检测图像对应任务的交互动作信息;
所述检测单元1003,具体用于确定所述交互动作信息对应的虚拟元素;
所述检测单元1003,具体用于基于手部关键点对所述虚拟元素进行图像处理,以得到渲染对象;
所述检测单元1003,具体用于响应于针对于所述渲染对象的操作信息,执行虚拟场景交互。
通过获取待处理图像,并对待处理图像进行手部检测,以从待处理图像中裁剪得到手部图像;然后基于通道丢弃机制对手部图像进行特征提取,以得到输入手部特征,该通道丢弃机制用于使输入手部特征包含手部关键点之间的关联关系;并对输入手部特征进行特征增强,以得到增强手部特征,该增强手部特征由输入手部特征对应的原始特征、全局特征和局部特征融合所得,且原始特征用于指示输入手部特征中的原始信息,全局特征用于指示输入手部特征中的特征关联关系,局部特征用于指示输入手部特征中的像素位置关系;进而将增强手部特征映射为手部坐标信息,以确定手部坐标信息对应的手部关键点。从而实现适应于不同场景的手部关键点检测过程,由于采用通道丢弃机制进行特征提取,使得手部特征包含了关键点之间的关联关系,且通过注意力机制的特征增强,使得手部特征从全局与局部的角度进行了特征的关联,提高了遮挡场景中手部关键点检测的鲁棒性,并提高了手部关键点检测的准确性。
本申请实施例还提供了一种终端设备,如图11所示,是本申请实施例提供的另一种终端设备的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)、车载电脑等任意终端设备,以终端为手机为例:
图11示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图11,手机包括:射频(radio frequency,RF)电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线保真(wireless fidelity,WiFi)模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解,图11中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图11对手机的各个构成部件进行具体的介绍:
RF电路1110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1180处理;另外,将设计上行的数据发送给基站。通常,RF电路1110包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路1110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器1120可用于存储软件程序以及模块,处理器1180通过运行存储在存储器1120的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1130可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1130可包括触控面板1131以及其他输入设备1132。触控面板1131,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1131上或在触控面板1131附近的操作,以及在触控面板1131上一定范围内的隔空触控操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1180,并能接收处理器1180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1131。除了触控面板1131,输入单元1130还可以包括其他输入设备1132。具体地,其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1140可包括显示面板1141,可选的,可以采用液晶显示器(liquidcrystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板1141。进一步的,触控面板1131可覆盖显示面板1141,当触控面板1131检测到在其上或附近的触摸操作后,传送给处理器1180以确定触摸事件的类型,随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图11中,触控面板1131与显示面板1141是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1131与显示面板1141集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1141和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1160、扬声器1161,传声器1162可提供用户与手机之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号,传输到扬声器1161,由扬声器1161转换为声音信号输出;另一方面,传声器1162将收集的声音信号转换为电信号,由音频电路1160接收后转换为音频数据,再将音频数据输出处理器1180处理后,经RF电路1110以发送给比如另一手机,或者将音频数据输出至存储器1120以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块1170,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变实施例的本质的范围内而省略。
处理器1180是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1120内的软件程序和/或模块,以及调用存储在存储器1120内的数据,执行手机的各种功能和处理数据,从而对手机进行整体检测。可选的,处理器1180可包括一个或多个处理单元;可选的,处理器1180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1180中。
手机还包括给各个部件供电的电源1190(比如电池),可选的,电源可以通过电源管理系统与处理器1180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器1180还具有执行如上述页面处理方法的各个步骤的功能。
本申请实施例还提供了一种服务器,请参阅图12,图12是本申请实施例提供的一种服务器的结构示意图,该服务器1200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1222(例如,一个或一个以上处理器)和存储器1232,一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)。其中,存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1222可以设置为与存储介质1230通信,在服务器1200上执行存储介质1230中的一系列指令操作。
服务器1200还可以包括一个或一个以上电源1226,一个或一个以上有线或无线网络接口1250,一个或一个以上输入输出接口1258,和/或,一个或一个以上操作系统1241,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由管理装置所执行的步骤可以基于该图12所示的服务器结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有手部关键点的检测指令,当其在计算机上运行时,使得计算机执行如前述图3至图9所示实施例描述的方法中手部关键点的检测装置所执行的步骤。
本申请实施例中还提供一种包括手部关键点的检测指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图3至图9所示实施例描述的方法中手部关键点的检测装置所执行的步骤。
本申请实施例还提供了一种手部关键点的检测系统,所述手部关键点的检测系统可以包含图10所描述实施例中的手部关键点的检测装置,或图11所描述实施例中的终端设备,或者图12所描述的服务器。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,手部关键点的检测装置,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (15)
1.一种手部关键点的检测方法,其特征在于,包括:
获取待处理图像,并对所述待处理图像进行手部检测,以从所述待处理图像中裁剪得到手部图像;
基于通道丢弃机制对所述手部图像进行特征提取,以得到输入手部特征,所述通道丢弃机制用于使所述输入手部特征包含手部关键点之间的关联关系;
对所述输入手部特征进行特征增强,以得到增强手部特征,所述增强手部特征由所述输入手部特征对应的原始特征、全局特征和局部特征融合所得,所述原始特征用于指示所述输入手部特征中的原始信息,所述全局特征用于指示所述输入手部特征中的特征关联关系,所述局部特征用于指示所述输入手部特征中的像素位置关系;
将所述增强手部特征映射为手部坐标信息,以确定所述手部坐标信息对应的手部关键点。
2.根据权利要求1所述的方法,其特征在于,所述基于通道丢弃机制对所述手部图像进行特征提取,以得到输入手部特征,包括:
获取训练手部图像;
将所述训练手部图像输入预设特征网络,以得到提取特征图,所述提取特征图包含K个通道,K为正整数;
基于所述通道丢弃机制对所述提取特征图中的N个通道进行随机提取,以得到丢弃通道,N<K,N为正整数;
将所述丢弃通道的参数至零;
根据所述提取特征图中特征之间的关联关系对参数至零后的所述丢弃通道进行参数恢复,以对所述预设特征网络进行训练得到特征提取网络;
基于所述特征提取网络对所述手部图像进行特征提取,以得到所述输入手部特征。
3.根据权利要求2所述的方法,其特征在于,所述基于所述通道丢弃机制对所述提取特征图中的N个通道进行随机提取,以得到丢弃通道,包括:
获取所述训练图像对应的状态标签,所述姿态标签基于遮挡信息、角度信息或光照信息确定;
基于所述状态标签确定对应的随机丢弃的通道数N;
基于所述通道丢弃机制对所述提取特征图中的N个通道进行随机提取,以得到所述丢弃通道。
4.根据权利要求3所述的方法,其特征在于,所述基于所述通道丢弃机制对所述提取特征图中的N个通道进行随机提取,以得到所述丢弃通道之后,所述方法还包括:
将所述丢弃通道配置丢弃标识,配置所述丢弃标识的通道不参与随机提取;
基于所述丢弃标识对所述提取特征图中的N个通道进行随机提取,以对所述丢弃通道进行更新。
5.根据权利要求1所述的方法,其特征在于,所述对所述输入手部特征进行特征增强,以得到增强手部特征,包括:
将所述输入手部特征输入特征增强模块中的第一卷积层,以得到第一卷积特征;
将所述第一卷积特征输入所述原始信息分支,以对所述第一卷积特征的细节信息进行保持得到所述原始特征;
将所述第一卷积特征输入所述全局注意力分支中的全局池化层,以得到池化特征,所述全局注意力分支包括所述全局池化层、第二卷积层、第三卷积层和第一损失层;
将所述池化特征输入所述第二卷积层进行卷积,以得到第二卷积特征;
将所述第二卷积特征输入所述第三卷积层进行卷积,以得到第三卷积特征;
将所述第三卷积特征输入所述第一损失层,以得到指示所述输入手部特征中特征关联关系的所述全局特征;
将所述第一卷积特征输入所述局部注意力分支中的第四卷积层进行卷积,以得到第四卷积特征,所述局部注意力分支包括所述第四卷积层、第五卷积层、第六卷积层和第二损失层;
将所述第四卷积特征输入所述第四卷积层进行卷积,以得到第五卷积特征;
将所述第五卷积特征输入所述第五卷积层进行卷积,以得到第六卷积特征,所述第五卷积层的卷积核大小大于所述第四卷积层的卷积核大小;
将所述第六卷积特征输入所述第六卷积层进行卷积,以得到第七卷积特征,所述第六卷积层的卷积核大小大于所述第四卷积层的卷积核大小;
将所述第七卷积特征输入所述第二损失层,以得到所述输入手部特征中指示像素位置关系的局部特征;
对所述原始特征、所述全局特征和所述局部特征进行特征融合,以得到所述增强手部特征。
6.根据权利要求5所述的方法,其特征在于,所述对所述原始特征、所述全局特征和所述局部特征进行特征融合,以得到所述增强手部特征,包括:
获取针对于所述输入手部特征配置的加权参数;
基于所述加权参数对所述原始特征、所述全局特征和所述局部特征进行特征加权融合,以得到所述增强手部特征。
7.根据权利要求6所述的方法,其特征在于,所述获取针对于所述输入手部特征配置的加权参数,包括:
获取所述输入手部特征对应的场景信息;
基于所述场景确定确定指示所述全局特征与所述局部特征的偏好参数;
根据所述偏好参数配置所述输入手部特征对应的所述加权参数。
8.根据权利要求1所述的方法,其特征在于,所述获取待处理图像,并对所述待处理图像进行手部检测,以从所述待处理图像中裁剪得到手部图像,包括:
响应于交互任务的触发,获取目标对象对应的所述待处理图像;
对所述待处理图像进行手部检测,以以从所述待处理图像中裁剪得到检测手部图像;
将所述检测手部图像与模板手部图像进行比对,以得到调整信息;
基于所述调整信息对所述检测手部图像进行调整,以得到所述手部图像。
9.根据权利要求8所述的方法,其特征在于,所述将所述检测手部图像与模板手部图像进行比对,以得到调整信息,包括:
获取所述交互任务对应的任务信息;
基于所述任务信息调用对应的所述模板手部图像;
确定所述模板手部图像中的检测关键点;
基于所述检测关键点与所述检测手部图像进行比对,以得到所述调整信息。
10.根据权利要求8所述的方法,其特征在于,所述响应于交互任务的触发,获取目标对象对应的所述待处理图像,包括:
响应于交互任务的触发,获取所述目标对象对应的多张采集图像;
将所述采集图像输入预训练的生成对抗模型中的判别器,以得到所述待处理图像。
11.根据权利要求1-10任一项所述的方法,其特征在于,所述方法还包括:
响应于检测请求,调用所述特征提取网络和所述特征增强模块;
获取所述检测请求对应的检测模型;
将所述检测模型作为教师模型对所述特征提取网络和所述特征增强模块进行知识蒸馏,以对所述特征提取网络和所述特征增强模块进行参数更新。
12.根据权利要求1-10任一项所述的方法,其特征在于,所述方法还包括:
获取待检测图像对应任务的交互动作信息;
确定所述交互动作信息对应的虚拟元素;
基于手部关键点对所述虚拟元素进行图像处理,以得到渲染对象;
响应于针对于所述渲染对象的操作信息,执行虚拟场景交互。
13.一种手部关键点的检测装置,其特征在于,包括:
获取单元,用于获取待处理图像,并对所述待处理图像进行手部检测,以从所述待处理图像中裁剪得到手部图像;
提取单元,用于基于通道丢弃机制对所述手部图像进行特征提取,以得到输入手部特征,所述通道丢弃机制用于使所述输入手部特征包含手部关键点之间的关联关系;
检测单元,用于对所述输入手部特征进行特征增强,以得到增强手部特征,所述增强手部特征由所述输入手部特征对应的原始特征、全局特征和局部特征融合所得,所述原始特征用于指示所述输入手部特征中的原始信息,所述全局特征用于指示所述输入手部特征中的特征关联关系,所述局部特征用于指示所述输入手部特征中的像素位置关系;
所述检测单元,还用于将所述增强手部特征映射为手部坐标信息,以确定所述手部坐标信息对应的手部关键点。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行权利要求1至12任一项所述的手部关键点的检测方法。
15.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令存储于计算机可读存储介质,其特征在于,所述计算机可读存储介质中的所述计算机程序/指令被处理器执行时实现上述权利要求1至12任一项所述的手部关键点的检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310472262.7A CN116958715A (zh) | 2023-04-23 | 2023-04-23 | 一种手部关键点的检测方法、装置以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310472262.7A CN116958715A (zh) | 2023-04-23 | 2023-04-23 | 一种手部关键点的检测方法、装置以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116958715A true CN116958715A (zh) | 2023-10-27 |
Family
ID=88457184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310472262.7A Pending CN116958715A (zh) | 2023-04-23 | 2023-04-23 | 一种手部关键点的检测方法、装置以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116958715A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117420917A (zh) * | 2023-12-19 | 2024-01-19 | 烟台大学 | 基于手部骨架的虚拟现实控制方法、系统、设备及介质 |
-
2023
- 2023-04-23 CN CN202310472262.7A patent/CN116958715A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117420917A (zh) * | 2023-12-19 | 2024-01-19 | 烟台大学 | 基于手部骨架的虚拟现实控制方法、系统、设备及介质 |
CN117420917B (zh) * | 2023-12-19 | 2024-03-08 | 烟台大学 | 基于手部骨架的虚拟现实控制方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738211B (zh) | 一种对象检测的方法、相关装置以及设备 | |
US10353883B2 (en) | Method, device and storage medium for providing data statistics | |
CN110163045B (zh) | 一种手势动作的识别方法、装置以及设备 | |
CN111209423B (zh) | 一种基于电子相册的图像管理方法、装置以及存储介质 | |
CN110795007B (zh) | 一种获取截图信息的方法及装置 | |
CN109145809B (zh) | 一种记谱处理方法和装置以及计算机可读存储介质 | |
CN109062464B (zh) | 触控操作方法、装置、存储介质和电子设备 | |
CN106446797A (zh) | 图像聚类方法及装置 | |
CN112203115B (zh) | 一种视频识别方法和相关装置 | |
CN108121803A (zh) | 一种确定页面布局的方法和服务器 | |
CN109495616B (zh) | 一种拍照方法及终端设备 | |
CN113190646B (zh) | 一种用户名样本的标注方法、装置、电子设备及存储介质 | |
CN108279904A (zh) | 代码编译方法及终端 | |
CN111672109A (zh) | 一种游戏地图生成的方法、游戏测试的方法以及相关装置 | |
CN112995757B (zh) | 视频剪裁方法及装置 | |
CN113535055B (zh) | 一种基于虚拟现实播放点读物的方法、设备及存储介质 | |
CN110162653A (zh) | 一种图文排序推荐方法及终端设备 | |
CN115588131B (zh) | 模型鲁棒性检测方法、相关装置及存储介质 | |
CN110263077A (zh) | 一种获取移动终端中文件的方法、移动终端及存储介质 | |
CN116958715A (zh) | 一种手部关键点的检测方法、装置以及存储介质 | |
CN111556337A (zh) | 一种媒体内容植入方法、模型训练方法以及相关装置 | |
CN105513098B (zh) | 一种图像处理的方法和装置 | |
CN116486463B (zh) | 图像处理方法、相关装置及存储介质 | |
CN116758362A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN104915627B (zh) | 一种文字识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |