CN116884095B - 仿生机械手的手势识别控制方法、系统、设备和存储介质 - Google Patents
仿生机械手的手势识别控制方法、系统、设备和存储介质 Download PDFInfo
- Publication number
- CN116884095B CN116884095B CN202311153305.1A CN202311153305A CN116884095B CN 116884095 B CN116884095 B CN 116884095B CN 202311153305 A CN202311153305 A CN 202311153305A CN 116884095 B CN116884095 B CN 116884095B
- Authority
- CN
- China
- Prior art keywords
- feature map
- attention
- channel
- level
- low
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000011664 nicotinic acid Substances 0.000 title claims abstract description 56
- 238000012545 processing Methods 0.000 claims abstract description 86
- 238000001514 detection method Methods 0.000 claims abstract description 85
- 238000010586 diagram Methods 0.000 claims abstract description 70
- 230000004927 fusion Effects 0.000 claims abstract description 66
- 230000007246 mechanism Effects 0.000 claims abstract description 27
- 230000003993 interaction Effects 0.000 claims abstract description 26
- 238000007499 fusion processing Methods 0.000 claims description 23
- 238000010606 normalization Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 9
- 230000009901 attention process Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 7
- 238000004891 communication Methods 0.000 abstract description 5
- 238000012216 screening Methods 0.000 abstract description 4
- 230000002349 favourable effect Effects 0.000 abstract description 3
- 230000009471 action Effects 0.000 description 6
- 230000003592 biomimetic effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000033001 locomotion Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Computing Systems (AREA)
- Robotics (AREA)
- Psychiatry (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明涉及图像处理技术领域,具体为仿生机械手的手势识别控制方法、系统、设备和存储介质,通过将手部图像浅层的低级特征图,深层的高级特征图和多尺度特征图经第一注意力机制处理后进行特征融合,得到融合特征图;基于残差值特征图与融合特征图,得到不同的待测手部特征图;接着,通过边界框回归确定图像检测范围,基于置信度大小筛选出有利于检测的最优检测框图,并与手势数据库的匹配结果来确定手势识别结果;最后,将手势识别结果通信传输至仿生机械手,仿生机械手并给出相应交互结果,实现了仿生机械手的准确、灵活控制;且在大量图像信息中筛选出关键信息进行手势识别结果的计算,在保证控制结果准确度的基础上,提高计算效率。
Description
技术领域
本发明涉及图像处理技术领域,具体为仿生机械手的手势识别控制方法、系统、设备和存储介质。
背景技术
仿生机械手作为一种人机交互自动化作业设备,能够实现多种复杂动作的自动化操作。现有的仿生机械手操作系统大多进行单一、重复的工作,在面临复杂的工作场景时,缺少自适应能力。基于手势识别的人机交互能够增强机械手作业的灵活性,满足机械手在实际应用的需求。
目前仿生机械手控制方法主要通过接触式设备方法与非接触式设备方法来实现手势识别。使用接触式设备实现仿生机械手识别手势时,需佩戴带有传感器的手套来传递手部数据。常见的传感器设备有可穿戴式数据装备、Leap Motion、Kinect等。这些方法具有识别速度快、精确度高的优点。但是,昂贵的价格使其难以普及到实际应用中。非接触式设备方法能够解决上述接触式设备成本高的问题,随着深度学习的出现,通过使用图像处理技术,将获取的图片手势识别结果通信传输给仿生机械手,从而实现仿生机械手的控制过程。
基于图像处理技术的手势识别技术,实现仿生机械手的灵巧控制,但现有技术仍存在着一些问题。图像中包含着大量手势数据,大量图像数据的处理,造成手势识别效率低,识别效果不稳定,仿生机械手控制效果差;而且图像中手势的相似性、遮挡性以及多样性,易降低手势识别的准确度,影响仿生机械手的准确控制。
发明内容
本发明的目的是提供了一种识别效果高,识别速度快的仿生机械手的手势识别控制方法、系统、设备和存储介质。
本发明技术方案如下:
一种仿生机械手的手势识别控制方法,包括如下操作:
S1、获取手部图像的低级特征图、多尺度特征图和高级特征图,经第一注意力机制处理后,经特征融合处理,得到融合特征图;具体为,将所述低级特征图、多尺度特征图和高级特征图分别依次经全局平均合并处理和通道特征学习处理后,得到第一通道低级特征图、第一通道多尺度特征图和第一通道高级特征图;所述第一通道低级特征图、第一通道多尺度特征图和第一通道高级特征图分别与低级特征图、多尺度特征图和高级特征图进行对应通道相乘处理,得到第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图;所述第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图经特征融合处理,得到所述融合特征图;
S2、获取所述融合特征图的不同的低分辨率特征图,基于所述不同的低分辨率特征图与融合特征图,得到不同的残差值特征图;所述不同的残差值特征图分别与融合特征图经融合处理,得到不同的待测手部特征图;
S3、所述不同的待测手部特征图经边界框回归处理,得到不同的检测框图;获取所述不同的检测框图的置信度,保留置信度最大值的检测框图,得到最优检测框图;
S4、所述最优检测框图与手势数据库进行特征匹配,得到手势识别结果;将所述手势识别结果输入至仿生机械手,依据预设手势交互规则,输出手势交互结果。
所述S1中第一注意力机制处理的操作之后,包括进行第二注意力机制处理,所述第二注意力机制处理包括通道注意力处理,所述通道注意力处理的操作具体为:所述第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图分别依次经通道归一化处理、加权处理和通道特征映射处理,得到通道注意力低级特征图、通道注意力多尺度特征图和通道注意力高级特征图;所述通道注意力低级特征图、通道注意力多尺度特征图和通道注意力高级特征图执行所述S1中的特征融合处理。
其中,所述通道归一化处理的操作之前,包括分别获取所述第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图的通道权重,分别删除所述通道权重小于权重阈值的通道后,执行所述通道归一化处理。
其中,所述第二注意力机制处理还包括空间注意力处理,所述空间注意力处理的操作具体为:所述通道注意力低级特征图、通道注意力多尺度特征图和通道注意力高级特征图分别依次经空间归一化处理、加权处理和空间特征映射处理,得到空间注意力低级特征图、空间注意力多尺度特征图和空间注意力高级特征图;所述空间注意力低级特征图、空间注意力多尺度特征图和空间注意力高级特征图执行所述S1中的特征融合处理。
所述S3中获取不同的检测框图的置信度的操作之前,包括:将所述不同的检测框图进行融合处理,得到融合检测框图;获取所述融合检测框图中每个检测框的交并比,删除所述交并比最小的检测框图,得到优选检测框图;所述优选检测框图执行所述S3中的获取置信度的操作。
所述S1中获取手部图像的低级特征图、多尺度特征图和高级特征图的操作之前,包括对所述手部图像进行预处理,所述预处理包括数据增强和尺寸重构。
所述S1中全局平均合并处理的操作之后,包括进行空间特征压缩处理后,执行所述S1中的通道特征学习。
一种仿生机械手的手势识别控制系统,包括:
融合特征图生成模块,用于获取手部图像的低级特征图、多尺度特征图和高级特征图,经第一注意力机制处理后,经特征融合处理,得到融合特征图;具体为,将所述低级特征图、多尺度特征图和高级特征图分别依次经全局平均合并处理和通道特征学习处理后,得到第一通道低级特征图、第一通道多尺度特征图和第一通道高级特征图;所述第一通道低级特征图、第一通道多尺度特征图和第一通道高级特征图分别与低级特征图、多尺度特征图和高级特征图进行对应通道相乘处理,得到第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图;所述第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图经特征融合处理,得到所述融合特征图;
不同的待测手部特征图生成模块,用于获取所述融合特征图的不同的低分辨率特征图,基于所述不同的低分辨率特征图与融合特征图,得到不同的残差值特征图;所述不同的残差值特征图分别与融合特征图经融合处理,得到不同的待测手部特征图;
最优检测框图生成模块,用于所述不同的待测手部特征图经边界框回归处理,得到不同的检测框图;获取所述不同的检测框图的置信度,保留置信度最大值的检测框图,得到最优检测框图;
手势交互结果输出模块,用于所述最优检测框图与手势数据库进行特征匹配,得到手势识别结果;将所述手势识别结果输入至仿生机械手,依据预设手势交互规则,输出手势交互结果。
一种仿生机械手的手势识别控制设备,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现上述的仿生机械手的手势识别控制方法。
一种计算机可读存储介质,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现上述的仿生机械手的手势识别控制方法。
本发明的有益效果在于:
本发明提供一种仿生机械手的手势识别控制方法,通过将手部图像浅层的低级特征图,深层的高级特征图和多尺度特征图经第一注意力机制处理后进行特征融合,得到具有丰富手势特征信息的融合特征图;基于残差值特征图与融合特征图,得到保留了上下文信息的不同的待测手部特征图;接着,通过边界框回归确定图像检测范围,基于置信度大小筛选出有利于检测的最优检测框图,并与手势数据库的匹配结果来确定手势识别结果;最后,将手势识别结果通信传输至仿生机械手,仿生机械手并给出相应交互结果,实现了仿生机械手的准确、灵活控制;且在大量图像信息中筛选出关键信息进行手势识别结果的计算,在保证控制结果准确度的基础上,提高计算效率。
附图说明
通过阅读下文优选实施方式的详细描述,本申请的方案和优点对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
在附图中:
图1为实施例中不同手势的示意图。
具体实施方式
本实施例提供了一种仿生机械手的手势识别控制方法,包括如下操作:
S1、获取手部图像的低级特征图、多尺度特征图和高级特征图,经第一注意力机制处理后,经特征融合处理,得到融合特征图;具体为,将所述低级特征图、多尺度特征图和高级特征图分别依次经全局平均合并处理和通道特征学习处理后,得到第一通道低级特征图、第一通道多尺度特征图和第一通道高级特征图;所述第一通道低级特征图、第一通道多尺度特征图和第一通道高级特征图分别与低级特征图、多尺度特征图和高级特征图进行对应通道相乘处理,得到第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图;所述第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图经特征融合处理,得到所述融合特征图;
S2、获取所述融合特征图的不同的低分辨率特征图,基于所述不同的低分辨率特征图与融合特征图,得到不同的残差值特征图;所述不同的残差值特征图分别与融合特征图经融合处理,得到不同的待测手部特征图;
S3、所述不同的待测手部特征图经边界框回归处理,得到不同的检测框图;获取所述不同的检测框图的置信度,保留置信度最大值的检测框图,得到最优检测框图;
S4、所述最优检测框图与手势数据库进行特征匹配,得到手势识别结果;将所述手势识别结果输入至仿生机械手,依据预设手势交互规则,输出手势交互结果。
S1、获取手部图像的低级特征图、多尺度特征图和高级特征图,经第一注意力机制处理后,经特征融合处理,得到融合特征图;具体为,将低级特征图、多尺度特征图和高级特征图分别依次经全局平均合并处理和通道特征学习处理后,得到第一通道低级特征图、第一通道多尺度特征图和第一通道高级特征图;第一通道低级特征图、第一通道多尺度特征图和第一通道高级特征图分别与低级特征图、多尺度特征图和高级特征图进行对应通道相乘处理,得到第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图;第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图经特征融合处理,得到融合特征图。
获取手部图像的低级特征图、多尺度特征图和高级特征图的操作之前,包括对手部图像进行预处理,预处理包括数据增强和尺寸重构。数据增强的过程中,采用生成对抗网络作为样本增强策略,首先构建一个生成器网络来生成合成手部图像,同时设计一个判别器网络来区分真实手部图像和合成手部图像。在训练过程中,生成器和判别器相互竞争,通过优化生成器生成更逼真的合成手部图像,并使判别器能够准确区分真实手部图像和合成手部图像。随机向量被用作生成器的输入,生成器输出合成图像,而判别器根据图像的真伪输出概率。这样的过程能够为手部图像的手势识别提供更多样性和挑战性的训练数据,从而计算的准确性和鲁棒性。数据增强后的尺寸重构会将不同尺寸的手部图像调整为固定输入尺寸,提升计算效率。
获取手部图像的低级特征图的操作为,将手部图像进行浅层特征提取处理,捕获手部图像中底层手势特征,并生成具有空间位置信息的手势特征图,得到低级特征图。浅层特征提取的操作通过卷积层中的浅层网络实现,卷积层包含多个卷积核,每个卷积核中学习不同的低级手势特征。
获取手部图像的多尺度特征图的操作为,将手部图像进行多尺度卷积处理,提取不同尺度下手势特征,得到多尺度特征图。通过对输入的手部图像的不同尺度进行卷积运算来提取不同尺度下的图像特征,有利于提高目标识别的准确性和效率。
获取手部图像的高级特征图的操作为,将手部图像进行深层特征提取处理,捕获手部图像中高层手势特征,并生成具有较多语义信息的手势特征图,得到高级特征图。
第一注意力机制处理具体为,首先对输入的低级特征图、多尺度特征图、高级特征图分别进行全局平均合并,并进行空间特征压缩,以获得1×1×C的特性图。然后,通过全连通层进行通道特征学习,得到具有通道注意力特征图,即第一通道低级特征图、第一通道多尺度特征图和第一通道高级特征图,维数仍然是1×1×C;接着将第一通道低级特征图、第一通道多尺度特征图和第一通道高级特征图分别与对应原图(全局平均合并前)逐通道相乘,得到第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图。
第一注意力机制处理的操作之后,进行第二注意力机制处理,第二注意力机制处理包括通道注意力处理,通道注意力处理的操作具体为:第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图分别依次经通道归一化处理、加权处理和通道特征映射处理,得到通道注意力低级特征图、通道注意力多尺度特征图和通道注意力高级特征图;通道注意力低级特征图、通道注意力多尺度特征图和通道注意力高级特征图执行S1中的特征融合处理。
具体为,以经第一注意力机制处理后的低级特征图-第一注意力低级特征图为例,将其进行通道归一化处理,得到通道归一化尺度因子,通道归一化尺度因子用于度量通道的方差,这个方差可以用来表示通道的重要性,较大的方差通常对应着更丰富的信息,通过将这个方差应用于通道的特征表示,可以自动地调整不同通道的权重;接着,在每个特征图内,将对应通道的特征与权重进行相乘处理,执行加权处理后,将这个加权后加权处理后的特征图映射到0到1之间的范围,得到通道注意力低级特征图,从而增强对于手势识别任务中关键通道的关注,提高识别的准确度。
通道注意力可通过如下公式实现:
,
以经第一注意力机制处理后的低级特征图为例,为通道注意力低级特征图,为第一注意力机制处理后的低级特征图,为权重,可通过公式得到,为经第一注意力机制处理后的低级特征图的通道归一化尺度因子,计算公式为:
,
和分别为小批量的均值和标准差;γ和β分别为尺度和偏移量的相关
参数,为补充常数,用以避免分母为0。
为减小计算量,提升计算效率,通道归一化处理的操作之前,包括分别获取第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图的通道权重,分别删除通道权重小于权重阈值(包括第一权重阈值、第二权重阈值、第三权重阈值)的通道后,执行通道归一化处理。根据通道的重要性信息,可以选择性地排除或弱化某些通道,从而实现特征筛选的效果。这可以有助于减少不重要的通道对于模型的负面影响,从而提高模型的计算效率和泛化能力。
为进一步提取关键信息,第二注意力机制处理还包括空间注意力处理,空间注意力处理的操作具体为:通道注意力低级特征图、通道注意力多尺度特征图和通道注意力高级特征图分别依次经空间归一化处理、加权处理和空间特征映射处理,得到空间注意力低级特征图、空间注意力多尺度特征图和空间注意力高级特征图;空间注意力低级特征图、空间注意力多尺度特征图和空间注意力高级特征图执行S1中的特征融合处理。
空间注意力处理的过程中,以通道注意力低级特征图为例,首先对通道注意力低
级特征图进行空间归一化处理,获取空间归一化尺度因子,然后使用权重矩阵对空间
归一化处理后的特征进行加权处理,通过加权处理后的特征图,能够被关注不同位置的像
素,接着,将加权处理后的特征图空间特征映射到0到1之间的范围,得到空间注意力的输
出,得到空间注意力低级特征图。
将第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图,或通道注意力低级特征图、通道注意力多尺度特征图和通道注意力高级特征图,或空间注意力低级特征图、空间注意力多尺度特征图和空间注意力高级特征图进行特征融合,得到融合特征图。通过自底向上将高级特征图与低级特征图进行融合,将底层位置信息传递到深层,进而与多尺度特征图进行特征拼接,实现特征融合,从而增强多个尺度上的目标被识别能力。
S2、获取融合特征图的不同的低分辨率特征图,基于不同的低分辨率特征图与融合特征图,得到不同的残差值特征图;不同的残差值特征图分别与融合特征图经融合处理,得到不同的待测手部特征图。
为实现手部图像的手势分类,将融合特征图放入不同分辨率的检测头中进行检测,检测头的分辨率小于融合特征图的分辨率。例如,融合特征图大小为640×640时,检测头的大小可以为80×80、40×40和20×20,从而降低融合特征图的分辨率。接着,将高分辨率的融合特征图分别减去不同的低分辨率特征图,得到不同的残差值特征图,将残差值特征图与对应高分辨率的融合特征图进行相加融合,形成跨尺度特征融合,得到不同的待测手部特征图。通过残差值传递可保留低分辨率特征图中的上下文信息,同时避免了梯度消失问题,可以更好地捕捉手势特征,从而提高识别的准确性。
S3、不同的待测手部特征图经边界框回归处理,得到不同的检测框图;获取不同的检测框图的置信度,保留置信度最大值的检测框图,得到最优检测框图。
本实施例中,使用边界框回归方法处理不同的待测手部特征图,缩小检测区域,获得含有目标框的不同的检测框图。
边界框回归处理获得检测框可通过如下公式实现:
,
(, , , )为目标框中心点坐标(, )、宽度()和高度(),(, )为检测框中心点所在网格的左上角坐标,在目标检测中,通常采用的是
相对于锚点的偏移量来表示检测框的位置,对于锚点而言,一般情况下会选择锚点框的左
上角作为参考点,这是因为这个点相对于锚点框的宽度和高度相对稳定,更容易进行计算,
(, )为检测框中心点相对于网格左上角坐标的偏移量,(, )表示检测框的
宽度和高度相对于锚点的宽度和高度的缩放,( , )表示先验框锚点的宽度和高
度。通过函数、常数2和0.5可进一步控制检测框架中心的偏移量。
获取不同的检测框图的置信度的操作之前,包括:将不同的检测框图进行融合处理,得到融合检测框图;获取融合检测框图中每个检测框的交并比,删除交并比最小的检测框图,得到优选检测框图;优选检测框图执行S3中的获取置信度的操作。
S4、最优检测框图与手势数据库进行特征匹配,得到手势识别结果;将手势识别结果输入至仿生机械手,依据预设手势交互规则,输出手势交互结果。
手势数据库的建立。首先,收集制作一个手势数据集,共有7种手势,包括初始抓取\捏、准备抓取、有效抓取、结束抓取、准备捏住、有效捏住、结束捏住(参见图1)。随后利用LabelImg标注工具对手势数据集中的JPEGImages格式的图片人工手势标注,手势数据集中总共包括2800张手势图片,每种手势类别图片为400张。在进行模型训练时,手势数据集按照8:2的比例划分为训练集和测试集,使用随机梯度下降对模型进行优化。使用的实验参数设置如下:初始学习率为0.01,动量和权重衰减分别为0.937和0.0005,模型的训练次数为300,批量大小设置为16,由此建立手势数据库。
手势识别结果一旦检测到,立即将该信息指令实时传递给仿生机械手,仿生机械手在接收到手势识别结果的指令后,根据预设手势交互规则,马上给出相应的手势交互结果,这样就能够通过手势识别实现人机交互的目标。
为实现上述过程,用于拍摄手部图像的相机与计算机相连接,并通过TCP/IP通信协议与机器人操作系统的仿生机械手建立连接,仿生机械手每个手指的自由度仅由一个马达和两个被动辅助装置控制。机器人操作系统作为机器人控制的核心,能够接收手势识别模型输出的手势识别结果,并根据手势识别结果控制仿生机械手做出预定义的动作。
为证明本实施例提供的手势识别控制方法具有较好的识别效果,利用手势数据集中的测试集进行实验,手势类型见图1,并用识别精度、召回率、mAP@0.5和mAP@0.5:0.95四个指标进行实验效果评价,实验结果参见表1。mAP@0.5:0.95指标是考虑多个IOU阈值下的平均精度,mAP@0.5是在IOU=0.5时候的平均精度。
从表1中可以看出,7个手势在进行手势识别时,各项实验参数均表现出较好的结果。另外,整体的平均精度、平均召回率和平均mAP@0.5,平均mAP@0.5:0.95,分别达到了98.1%、99.9%、99.3%和84.9%,表明该手势识别控制方法在手势识别方面的性能非常出色,可以应用到人机交互的实际场景中。
表1 不同手势的测试实验结果
。
实验过程中,手势1(初始抓取/捏住)是用户的初始动作,用来向仿生机械手指示要开始抓取物体,在这个阶段,仿生机械手会开始调整手部的位置和姿态,以准备进行后续的抓取动作。在手势2(准备抓取)的这个阶段,仿生机械手可能会根据预定的抓取动作,调整手部的形状和位置,以便能够更好地适应目标物体的形状和大小。这个阶段的特点是机器人正在做出预备动作,但尚未实际触及物体。在手势3(有效抓取)的这个阶段,进一步调整仿生机械手的姿态,仿生机械手的手部会再次弯曲到一定的位置。在手势4(完成抓取)的这个阶段,仿生机械手上的力传感器会进行力反馈,同时仿生机械手会给物体施加一定的力,确保物体稳定地被抓住。在手势5(准备捏住)的这个阶段,仿生机械手会做出准备捏住物体的动作,这个阶段的特点是机器人正在为进一步的捏住动作做出准备。在手势6(有效捏住)的这个阶段,在这个阶段,仿生机械手的手指会移动到适当的位置,以便能够牢牢地捏住物体。在手势6(完成捏住)的这个阶段,仿生机械手会通过力反馈对物体施加适当的力,以确保物体不会滑落。每个手势都对应于不同的机器人动作阶段,这种细分流程允许机器人根据用户的手势变化和物体的特性进行适应性操作,从而实现更精确和灵活的抓取和捏取动作。
本实施例提供一种仿生机械手的手势识别控制系统,包括:
融合特征图生成模块,用于获取手部图像的低级特征图、多尺度特征图和高级特征图,经第一注意力机制处理后,经特征融合处理,得到融合特征图;具体为,将低级特征图、多尺度特征图和高级特征图分别依次经全局平均合并处理和通道特征学习处理后,得到第一通道低级特征图、第一通道多尺度特征图和第一通道高级特征图;第一通道低级特征图、第一通道多尺度特征图和第一通道高级特征图分别与低级特征图、多尺度特征图和高级特征图进行对应通道相乘处理,得到第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图;第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图经特征融合处理,得到融合特征图;
不同的待测手部特征图生成模块,用于获取融合特征图的不同的低分辨率特征图,基于不同的低分辨率特征图与融合特征图,得到不同的残差值特征图;不同的残差值特征图分别与融合特征图经融合处理,得到不同的待测手部特征图;
最优检测框图生成模块,用于不同的待测手部特征图经边界框回归处理,得到不同的检测框图;获取不同的检测框图的置信度,保留置信度最大值的检测框图,得到最优检测框图;
手势交互结果输出模块,用于最优检测框图与手势数据库进行特征匹配,得到手势识别结果;将手势识别结果输入至仿生机械手,依据预设手势交互规则,输出手势交互结果。
本实施例提供一种仿生机械手的手势识别控制设备,包括处理器和存储器,其中,处理器执行存储器中保存的计算机程序时实现上述的仿生机械手的手势识别控制方法。
本实施例提供一种计算机可读存储介质,用于存储计算机程序,其中,计算机程序被处理器执行时实现上述的仿生机械手的手势识别控制方法。
本实施例提供的一种仿生机械手的手势识别控制方法,通过将手部图像浅层的低级特征图,深层的高级特征图和多尺度特征图经第一注意力机制处理后进行特征融合,得到具有丰富手势特征信息的融合特征图;基于残差值特征图与融合特征图,得到保留了上下文信息的不同的待测手部特征图;接着,通过边界框回归确定图像检测范围,基于置信度大小筛选出有利于检测的最优检测框图,并与手势数据库的匹配结果来确定手势识别结果;最后,将手势识别结果通信传输至仿生机械手,仿生机械手并给出相应交互结果,实现了仿生机械手的准确、灵活控制;且在大量图像信息中筛选出关键信息进行手势识别结果的计算,在保证控制结果准确度的基础上,提高计算效率。
Claims (10)
1.一种仿生机械手的手势识别控制方法,其特征在于,包括如下操作:
S1、获取手部图像的低级特征图、多尺度特征图和高级特征图,经第一注意力机制处理后,经特征融合处理,得到融合特征图;具体为,将所述低级特征图、多尺度特征图和高级特征图分别依次经全局平均合并处理和通道特征学习处理后,得到第一通道低级特征图、第一通道多尺度特征图和第一通道高级特征图;
所述第一通道低级特征图、第一通道多尺度特征图和第一通道高级特征图分别与低级特征图、多尺度特征图和高级特征图进行对应通道相乘处理,得到第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图;所述第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图经特征融合处理,得到所述融合特征图;
获取手部图像的的低级特征图的操作具体为:将手部图像进行浅层特征提取处理,捕获手部图像中底层手势特征,生成具有空间位置信息的手势特征图,得到低级特征图;
获取手部图像的的多尺度特征图的操作具体为:将手部图像进行多尺度卷积处理,提取不同尺度下手势特征,得到多尺度特征图;
获取手部图像的的高级特征图的操作具体为:将手部图像进行深层特征提取处理,捕获手部图像中高层手势特征,生成具有语义信息的手势特征图,得到高级特征图;
S2、获取所述融合特征图的不同的低分辨率特征图,基于所述不同的低分辨率特征图与融合特征图,得到不同的残差值特征图;所述不同的残差值特征图分别与融合特征图经融合处理,得到不同的待测手部特征图;
S3、所述不同的待测手部特征图经边界框回归处理,得到不同的检测框图;获取所述不同的检测框图的置信度,保留置信度最大值的检测框图,得到最优检测框图;
S4、所述最优检测框图与手势数据库进行特征匹配,得到手势识别结果;将所述手势识别结果输入至仿生机械手,依据预设手势交互规则,输出手势交互结果。
2.根据权利要求1所述的手势识别控制方法,其特征在于,所述S1中第一注意力机制处理的操作之后,包括进行第二注意力机制处理,所述第二注意力机制处理包括通道注意力处理,所述通道注意力处理的操作具体为:
所述第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图分别依次经通道归一化处理、加权处理和通道特征映射处理,得到通道注意力低级特征图、通道注意力多尺度特征图和通道注意力高级特征图;
所述通道注意力低级特征图、通道注意力多尺度特征图和通道注意力高级特征图执行所述S1中的特征融合处理。
3.根据权利要求2所述的手势识别控制方法,其特征在于,所述通道归一化处理的操作之前,包括分别获取所述第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图的通道权重,分别删除所述通道权重小于权重阈值的通道后,执行所述通道归一化处理。
4.根据权利要求2所述的手势识别控制方法,其特征在于,所述第二注意力机制处理还包括空间注意力处理,所述空间注意力处理的操作具体为:
所述通道注意力低级特征图、通道注意力多尺度特征图和通道注意力高级特征图分别依次经空间归一化处理、加权处理和空间特征映射处理,得到空间注意力低级特征图、空间注意力多尺度特征图和空间注意力高级特征图;
所述空间注意力低级特征图、空间注意力多尺度特征图和空间注意力高级特征图执行所述S1中的特征融合处理。
5.根据权利要求1所述的手势识别控制方法,其特征在于,所述S3中获取不同的检测框图的置信度的操作之前,包括:
将所述不同的检测框图进行融合处理,得到融合检测框图;
获取所述融合检测框图中每个检测框的交并比,删除所述交并比最小的检测框图,得到优选检测框图;
所述优选检测框图执行所述S3中的获取置信度的操作。
6.根据权利要求1所述的手势识别控制方法,其特征在于,所述S1中获取手部图像的的低级特征图、多尺度特征图和高级特征图的操作之前,包括对所述手部图像进行预处理,所述预处理包括数据增强和尺寸重构。
7.根据权利要求1所述的手势识别控制方法,其特征在于,所述S1中全局平均合并处理的操作之后,包括进行空间特征压缩处理后,执行所述S1中的通道特征学习。
8.一种仿生机械手的手势识别控制系统,其特征在于,包括:
融合特征图生成模块,用于获取手部图像的低级特征图、多尺度特征图和高级特征图,经第一注意力机制处理后,经特征融合处理,得到融合特征图;具体为,将所述低级特征图、多尺度特征图和高级特征图分别依次经全局平均合并处理和通道特征学习处理后,得到第一通道低级特征图、第一通道多尺度特征图和第一通道高级特征图;所述第一通道低级特征图、第一通道多尺度特征图和第一通道高级特征图分别与低级特征图、多尺度特征图和高级特征图进行对应通道相乘处理,得到第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图;所述第一注意力低级特征图、第一注意力多尺度特征图和第一注意力高级特征图经特征融合处理,得到所述融合特征图;获取手部图像的的低级特征图的操作具体为:将手部图像进行浅层特征提取处理,捕获手部图像中底层手势特征,生成具有空间位置信息的手势特征图,得到低级特征图;获取手部图像的的多尺度特征图的操作具体为:将手部图像进行多尺度卷积处理,提取不同尺度下手势特征,得到多尺度特征图;获取手部图像的的高级特征图的操作具体为:将手部图像进行深层特征提取处理,捕获手部图像中高层手势特征,生成具有语义信息的手势特征图,得到高级特征图;
不同的待测手部特征图生成模块,用于获取所述融合特征图的不同的低分辨率特征图,基于所述不同的低分辨率特征图与融合特征图,得到不同的残差值特征图;所述不同的残差值特征图分别与融合特征图经融合处理,得到不同的待测手部特征图;
最优检测框图生成模块,用于所述不同的待测手部特征图经边界框回归处理,得到不同的检测框图;获取所述不同的检测框图的置信度,保留置信度最大值的检测框图,得到最优检测框图;
手势交互结果输出模块,用于所述最优检测框图与手势数据库进行特征匹配,得到手势识别结果;将所述手势识别结果输入至仿生机械手,依据预设手势交互规则,输出手势交互结果。
9.一种仿生机械手的手势识别控制设备,其特征在于,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1-7任一项所述的仿生机械手的手势识别控制方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的仿生机械手的手势识别控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311153305.1A CN116884095B (zh) | 2023-09-08 | 2023-09-08 | 仿生机械手的手势识别控制方法、系统、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311153305.1A CN116884095B (zh) | 2023-09-08 | 2023-09-08 | 仿生机械手的手势识别控制方法、系统、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116884095A CN116884095A (zh) | 2023-10-13 |
CN116884095B true CN116884095B (zh) | 2023-11-21 |
Family
ID=88260906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311153305.1A Active CN116884095B (zh) | 2023-09-08 | 2023-09-08 | 仿生机械手的手势识别控制方法、系统、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116884095B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893895A (zh) * | 2024-03-15 | 2024-04-16 | 山东省海洋资源与环境研究院(山东省海洋环境监测中心、山东省水产品质量检验中心) | 一种三疣梭子蟹的识别方法、系统、设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784810A (zh) * | 2021-02-08 | 2021-05-11 | 风变科技(深圳)有限公司 | 手势识别方法、装置、计算机设备和存储介质 |
CN112906550A (zh) * | 2021-02-09 | 2021-06-04 | 哈尔滨理工大学 | 一种基于分水岭变换的静态手势识别方法 |
CN113537169A (zh) * | 2021-09-16 | 2021-10-22 | 深圳市信润富联数字科技有限公司 | 手势识别方法、设备、存储介质和计算机程序产品 |
CN114495273A (zh) * | 2022-01-24 | 2022-05-13 | 香港中文大学(深圳) | 一种机器人手势遥操作方法及相关装置 |
CN114821777A (zh) * | 2022-04-22 | 2022-07-29 | 海南大学 | 一种手势检测方法、装置、设备及存储介质 |
CN115471898A (zh) * | 2022-10-19 | 2022-12-13 | 北京理工华汇智能科技有限公司 | 一种融合注意力机制的人脸与手势识别方法及产品 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021098543A1 (zh) * | 2019-11-20 | 2021-05-27 | Oppo广东移动通信有限公司 | 一种姿势识别方法及装置、存储介质 |
-
2023
- 2023-09-08 CN CN202311153305.1A patent/CN116884095B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784810A (zh) * | 2021-02-08 | 2021-05-11 | 风变科技(深圳)有限公司 | 手势识别方法、装置、计算机设备和存储介质 |
CN112906550A (zh) * | 2021-02-09 | 2021-06-04 | 哈尔滨理工大学 | 一种基于分水岭变换的静态手势识别方法 |
CN113537169A (zh) * | 2021-09-16 | 2021-10-22 | 深圳市信润富联数字科技有限公司 | 手势识别方法、设备、存储介质和计算机程序产品 |
CN114495273A (zh) * | 2022-01-24 | 2022-05-13 | 香港中文大学(深圳) | 一种机器人手势遥操作方法及相关装置 |
CN114821777A (zh) * | 2022-04-22 | 2022-07-29 | 海南大学 | 一种手势检测方法、装置、设备及存储介质 |
CN115471898A (zh) * | 2022-10-19 | 2022-12-13 | 北京理工华汇智能科技有限公司 | 一种融合注意力机制的人脸与手势识别方法及产品 |
Also Published As
Publication number | Publication date |
---|---|
CN116884095A (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532984B (zh) | 关键点检测方法、手势识别方法、装置及系统 | |
WO2021103648A1 (zh) | 手部关键点检测方法、手势识别方法及相关装置 | |
CN109015640B (zh) | 抓取方法、系统、计算机装置及可读存储介质 | |
WO2020103700A1 (zh) | 一种基于微表情的图像识别方法、装置以及相关设备 | |
Nair et al. | Hand gesture recognition system for physically challenged people using IOT | |
CN116884095B (zh) | 仿生机械手的手势识别控制方法、系统、设备和存储介质 | |
CN111738261A (zh) | 基于位姿估计和校正的单图像机器人无序目标抓取方法 | |
Bilal et al. | Vision-based hand posture detection and recognition for Sign Language—A study | |
CN109241810B (zh) | 虚拟角色图像的构建方法及装置、存储介质 | |
Ma et al. | Multi-view face detection and landmark localization based on MTCNN | |
US9734435B2 (en) | Recognition of hand poses by classification using discrete values | |
CN111027403A (zh) | 手势估计方法、装置、设备及计算机可读存储介质 | |
CN106845384A (zh) | 一种基于递归模型的手势识别方法 | |
CN106886165A (zh) | 一种基于模拟器的机械手抓取和操纵方法 | |
CN116766213B (zh) | 一种基于图像处理的仿生手控制方法、系统和设备 | |
CN116968022B (zh) | 一种基于视觉引导的机械臂抓取目标物体方法及系统 | |
Yang et al. | Predict robot grasp outcomes based on multi-modal information | |
JP2020021212A (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN112699784A (zh) | 一种人脸朝向估计方法、装置、电子设备及存储介质 | |
CN116310976A (zh) | 学习习惯养成方法、装置、电子设备及存储介质 | |
CN110414393A (zh) | 一种基于深度学习的自然交互方法及终端 | |
Jeong et al. | Hand gesture user interface for transforming objects in 3d virtual space | |
WO2018161305A1 (zh) | 抓取质量检测方法及其应用的方法与系统 | |
CN113961067A (zh) | 基于深度学习的非接触式涂鸦绘制方法与识别交互系统 | |
KR102382883B1 (ko) | 3차원 손 자세 인식 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |