CN116486489B - 基于语义感知图卷积的三维手物姿态估计方法及系统 - Google Patents
基于语义感知图卷积的三维手物姿态估计方法及系统 Download PDFInfo
- Publication number
- CN116486489B CN116486489B CN202310754065.4A CN202310754065A CN116486489B CN 116486489 B CN116486489 B CN 116486489B CN 202310754065 A CN202310754065 A CN 202310754065A CN 116486489 B CN116486489 B CN 116486489B
- Authority
- CN
- China
- Prior art keywords
- hand
- dimensional
- gesture
- module
- estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000008447 perception Effects 0.000 title claims abstract description 57
- 230000003993 interaction Effects 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 23
- 238000012937 correction Methods 0.000 claims description 20
- 238000005457 optimization Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 230000004927 fusion Effects 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000004590 computer program Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于语义感知图卷积的三维手物姿态估计方法及系统,使用特征提取网络从彩色图像中提取手感兴趣区域特征和物感兴趣区域特征;基于手感兴趣区域特征估计二维手姿态,基于物感兴趣区域特征估计二维物姿态;将二维手姿态和二维物姿态输入三维姿态估计网络以估计三维手物姿态,所述三维姿态估计网络包括多个共同注意力模块和语义感知图卷积模块。本发明使用语义感知图卷积模块实现了手物全局特征的充分融合,在一定程度上实现了手物交互,并使用多个共同注意力模块对包含不同数目关键点的手物姿态进行关联计算,能够充分建模不同状态下的手物交互关系,有利于手物姿态的准确估计。
Description
技术领域
本发明属于姿态识别技术领域,具体涉及一种基于语义感知图卷积的三维手物姿态估计方法及系统。
背景技术
手是人类与物理世界接触的主要方式,在日常生活中起着至关重要的作用。近些年来,随着计算机视觉领域的大力发展,出现了一大批智能产物,如增强现实、虚拟现实及人机交互设备等等。人们可以通过调整姿态等方式实现非接触式的人机交互活动,因此,如何有效理解手物交互姿态是实现增强现实、虚拟现实及人机交互领域进一步发展的基础。
手物姿态识别一般基于深度学习的方法,通过大量的数据训练一个深度网络,使得该网络能够直接从视频或图片中估计手和物体位姿。由于单RGB图像视角单一且手持物体方式多种多样,手、物交互过程极易存在遮挡现象,而常规特征提取方法毫无差别提取图像特征使得手物特征相互混淆,无法有效解决手物遮挡问题。考虑到手部姿态链接关系复杂多变,物体形状各异且手持物体姿态多种多样,目前并没有一个统一的目标识别网络架构能够同时估计三维手物姿态,目前的技术方案基于两个独立分支估计手物姿态,无法对手物交互过程中的关联关系建模,使得姿态估计结果不够准确。
发明内容
为了实现手物交互场景下的三维手物姿态估计,本发明提供了一种基于语义感知图卷积的三维手物姿态估计方法及系统,通过包含特征金字塔结构的ResNet50网络提取多尺度手、物感兴趣区域特征,基于该特征估计二维手物姿态,将其输入三维姿态估计网络以估计三维手物姿态,为了进一步实现高精度手物姿态估计。
本发明采用的技术方案是:基于语义感知图卷积的三维手物姿态估计方法,使用特征提取网络从彩色图像中提取手感兴趣区域特征和物感兴趣区域特征;基于手感兴趣区域特征估计二维手姿态,基于物感兴趣区域特征估计二维物姿态;将二维手姿态和二维物姿态输入三维姿态估计网络以估计三维手物姿态;所述三维姿态估计网络包括姿态估计阶段和姿态优化阶段,姿态估计阶段由编码阶段和解码阶段组成,编码阶段包括依次设置的多个由共同注意力模块和语义感知图卷积模块组成的组合模块;解码阶段包括依次设置的多个由共同注意力模块和语义感知图卷积模块组成的组合模块,随后设置一个单独的语义感知图卷积模块,编码阶段与解码阶段之间设置两个全连接层;姿态优化阶段由多个共同注意力模块与语义感知图卷积模块组成的姿态修正模块级联而成。
进一步优选,将裁剪到一定大小的彩色图像作为特征提取网络的输入以提取手感兴趣区域特征和物感兴趣区域特征,所述特征提取网络包括ResNet50网络和特征金字塔网络。
进一步优选,基于手感兴趣区域特征估计二维手姿态,基于物感兴趣区域特征估计二维物姿态的具体过程为:使用卷积将手感兴趣区域特征变换为手热图,将物感兴趣区域特征变换为物热图,其中,手热图和物热图的每一个通道分别对应于手或物姿态中的一个关键点,基于通道使用argmax函数进行关键点预测,最后将关键点拼接起来作为二维手姿态或二维物姿态。
关键点计算方式如下:
;
式中,为二维手姿态或二维物姿态的第k个关键点,/>表示手热图或物热图的第k个通道,n为手热图或物热图某一通道中所有像素点的索引,/>函数用来提取对应通道所有像素点中最大像素值的索引。
进一步优选,使用真值热图监督特征提取网络的学习,损失函数定义为预测热图与真值热图的均方误差,即:
;
式中,为预测热图,/>为真值热图;
真值热图使用高斯函数计算而得,高斯函数的中心在每个关键点的位置上,真值热图计算方式如下:
;
式中,为基于二维手姿态或二维物姿态第k个关键点位置产生的真值热图,K为关键点数量,K个关键点的真值热图拼接起来即可得到完整的二维手姿态或二维物姿态真值热图/>,/>为手热图或物热图的高,/>为手热图或物热图的宽,e为自然常数,(w,h)为手热图或物热图上某一点的像素坐标,w为像素宽度坐标,h为像素高度坐标;c为高斯函数的标准差;/>为第k个关键点的横坐标,/>为第k个关键点的纵坐标,k=1,2,…,K。
进一步优选,基于二维手姿态构建二维手姿态图,基于二维物姿态构建二维物姿态图/>;基于二维手姿态构建二维手姿态图/>的过程如下:其中,/>,表示K个关键点构成的集合,/>表示第k个关键点;/>表示邻接矩阵,根据关键点间的连接关系来定义邻接关系;若第i个关键点Ji和第j个关键点Jj相同或者存在连接关系,则邻接矩阵第i行、第j列位置上的元素/>,否则为0。
进一步优选,三维姿态估计网络将二维手姿态图和二维物体姿态图作为输入,输出三维手物姿态估计结果,在编码阶段通过多次四倍下采样逐步对图节点进行简化,最终将所有信息压缩到一个节点上,而后在解码阶段逐步还原图节点,并通过维度为3的语义感知图卷积模块将节点特征维度变为3,将此作为手物姿态各关键点三维坐标的初始估计结果。
进一步优选,二维手姿态图通过语义感知图卷积模块处理的过程为:第层输入为,其中/>是维度的表示,/>表示关键点数量; />表示每个关键点的特征维度,则第/>层的特征更新过程表示如下:
;
其中,
;
;
式中,为第/>层的输出,同时也是第/>层的输入,/>是单位矩阵,是二维手姿态图的邻接矩阵,如果第i个关键点Ji和第j个关键点Jj相同或存在连接关系,则/>,否则为0;/>是/>的对称归一化矩阵,其中,/>是二维手姿态图的潜在关系矩阵,如果第i个关键点Ji和第j个关键点Jj处于同一层级,则潜在关系矩阵第i行、第j列位置上的元素/>,否则为0;/>为第一可学习权重矩阵,/>为第二可学习权重矩阵,/>为softmax激活函数,/>是一个逐元素的操作,/>是可学习矩阵,在/>操作中,/>相当于掩码,用于筛选是目标关键点的邻接关键点,/>为ReLU非线性激活函数,/>表示归一化的度矩阵,/>表示领接矩阵/>的第i行、第j列位置上的元素,/>表示度矩阵。
进一步优选,使用共同注意力模块挖掘图与图之间的交互关系,所得交互关系与语义感知图卷积模块所习得的关系相互补充,以建模现实场景下手物交互过程中的全方位关系,过程如下:
对于二维手姿态图而言,首先使用三个1×1卷积从手部特征提取查询集合, 键集合/>, 值集合/>,其中的每一行都对应于一个关键点的查询集合、键集合和值集合;对于物体而言,同样使用三个1×1卷积从物体特征/>提取查询集合/>、键集合/>和值集合/>;计算物体对手的注意力影响的公式如下:
;
所有符号的上标h表示手,o表示物体;是物体对手的注意力影响,用表示第i行所有物体顶点对手部第i个关键点Ji的期望概率分布,/>是从手部特征获得的查询集合,/>是从物体特征获得的键集合,/>表示物体的键集合的转置,/>是特征维度;则物体在交互过程中对手产生的影响用以下过程表示:
;
其中,是共同注意力模块计算的物体对手部的影响特征,/>是从物体特征获得的值集合,手对物体的注意力影响计算如下:
;
;
其中,为共同注意力模块计算的手对物体的影响特征,/>是手对物体的注意力影响,/>是从手聚合而得的特征;/>是从手部特征获得的值集合,是物体特征获得的查询集合,/>是从手部特征获得的查询集合,/>是从手部特征获得的键集合,T表示转置;
得到物体对手及手对物体的相互影响特征后,完整的手部特征及物体特征更新为:
;
;
其中,代表多层感知层操作,/>是经过共同注意力模块更新后的手部特征,是经过共同注意力模块更新后的物体特征,也是三维姿态估计网络中下一阶段的语义感知图卷积模块的输入;/>是输入共同注意力模块的手部特征,/>是输入共同注意力模块的物体特征,/>为共同注意力模块计算的物体对手部的影响特征,/>为共同注意力模块计算的手对物体的影响特征。
进一步优选,将初始的三维手物估计姿态作为第一个姿态修正模块的输入,通过语义感知图卷积模块和共同注意力模块习得各关键点位置偏差,并将此偏差与初始估计结果相加以完成对关键点位置的第一次修正。该相加结果作为下一个姿态修正模块的输入进一步对第一次修正后的结果进行修正,依此传递,最后准确的估计结果;修正过程的每一次修正都对关键点进行了监督。
本发明提供了基于语义感知图卷积的三维手物姿态估计系统,包括特征提取模块、二维手物姿态估计模块、三维姿态估计模块,特征提取模块使用特征提取网络从彩色图像中提取手感兴趣区域特征和物感兴趣区域特征;二维手物姿态估计模块基于手感兴趣区域特征和物感兴趣区域特征,使用argmax函数进行关键点预测,并将关键点拼接起来作为二维手姿态或二维物姿态;三维姿态估计模块内置三维姿态估计网络,将二维手姿态和二维物姿态输入三维姿态估计网络以估计三维手物姿态。
本发明提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述基于语义感知图卷积的三维手物姿态估计方法。
本发明还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述基于语义感知图卷积的三维手物姿态估计方法。
本发明提供一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行基于语义感知图卷积的三维手物姿态估计方法。
本发明的优点:1、本发明使用带有特征金字塔结构的ResNet50网络从图像中提取准确的手感兴趣区域特征和物感兴趣区域特征,抑制了其他无关区域特征的干扰,为准确估计三维手姿态和三维物姿态奠定了良好基础。
2、本发明的语义感知图卷积较其他图卷积方法更能灵活捕获图的固有拓扑结构关系及图节点间的潜在语义关系,因此对于现实生活中复杂的手和物体更具鲁棒性;此外,编码阶段对图的节点数目进行逐步简化,最终将所有信息压缩到一个节点上,实现了手物全局特征的充分融合,在一定程度上实现了手物交互。
3、本发明在三维姿态估计网络使用多个共同注意力模块对包含不同数目关键点的手物姿态进行关联计算,能够充分建模不同状态下的手物交互关系,有利于手物姿态的准确估计。
附图说明
图1为本发明的方法流程图。
图2为本发明的网络架构原理图。
图3为三维姿态估计网络示意图。
图4为节点间的水平关系示意图。
具体实施方式
下面结合附图和实施例进一步详细阐明本发明。
参照图1和图2,基于语义感知图卷积的三维手物姿态估计方法,使用特征提取网络从彩色图像中提取手感兴趣区域特征和物感兴趣区域特征;基于手感兴趣区域特征估计二维手姿态,基于物感兴趣区域特征估计二维物姿态;将二维手姿态和二维物姿态输入三维姿态估计网络以估计三维手物姿态。
参照图2,将裁剪到一定大小的彩色图像作为特征提取网络的输入以提取手感兴趣区域特征和物感兴趣区域特征。本实施例的特征提取网络包括ResNet50网络和特征金字塔网络。ResNet50网络为自底向上线路,根据特征图维度是否改变将ResNet50网络划分为多个阶段,将每个阶段的最后一层特征图引出进行后续操作;特征金字塔网络为自顶向下线路。假设将大小为640×640×3的彩色图像作为输入,则在ResNet50网络中,各阶段的特征图大小分别160×160×256、80×80×512、40×40×102及20×20×2048,分别记作特征图C2、特征图C3、特征图C4及特征图C5。为了构建特征金字塔结构,该发明技术方案使用1×1卷积将各阶段特征的通道数统一为256,而高和宽保持不变。此处以C4和C5为例进行具体说明,首先使用1×1卷积将特征图C4和特征图C5变换为特征图C4’和特征图C5’,维度分别为40×40×256和20×20×256;为了实现多尺度特征的相互融合,对特征图C5’进行2倍上采样后与特征图C4’进行相加融合,进而完成多尺度特征融合。随后使用感兴趣区域对齐(RoIAlign)方法从上述多尺度融合特征图中抽取手和物体对应位置的特征,从而排除了其他区域特征的干扰。得益于上述特征提取方式,该发明技术方案能够提取较为准确丰富的手、物特征,为准确估计三维手物姿态奠定了强有力基础。
得到手感兴趣区域特征和物感兴趣区域特征后,使用1×1卷积将手感兴趣区域特征变换为通道数为21的手热图,将物感兴趣区域特征变换为通道数为8的物热图,其中,手热图和物热图的每一个通道分别对应于手或物姿态中的一个关键点。在本实施例中,基于通道使用argmax函数进行关键点预测,最后将关键点拼接起来作为最终的二维手姿态估计结果或二维物姿态估计结果,具体计算如下:
(1);
式中,为二维手姿态或二维物姿态的第k个关键点,/>表示手热图或物热图的第k个通道,n为手热图或物热图某一通道中所有像素点的索引,/>函数用来提取对应通道所有像素点中最大像素值的索引。为了准确预测二维姿态,本实施例使用真值热图监督特征提取网络的学习,损失函数/>定义为预测热图与真值热图的均方误差,即:
(2);
式中,为预测热图,/>为真值热图。
上述真值热图使用标准差为2的高斯函数计算而得,高斯函数的中心在每个关键点的位置上,真值热图计算方式如下:
(3);
式中,为基于二维手姿态或二维物姿态第k个关键点位置产生的真值热图,K为关键点数量,K个关键点的真值热图拼接起来即可得到完整的二维手姿态或二维物姿态真值热图/>,/>为手热图或物热图的高,/>为手热图或物热图的宽,e为自然常数,(w,h)为手热图或物热图上某一点的像素坐标,w为像素宽度坐标,h为像素高度坐标;c为高斯函数的标准差,这里取值为2;/>为第k个关键点的横坐标,/>为第k个关键点的纵坐标,k=1,2,…,K。
考虑到手、物姿态属于天然的图结构数据,同时受到图卷积在图结构数据领域取得卓越成果的启发,本发明方案拟使用图卷积实现三维姿态估计,因此,如何将二维姿态表示为图是使用图卷积实现三维姿态估计的基础。基于此,本实施例基于估计得到的二维手姿态和二维物姿态分别构建二维手姿态图和二维物姿态图/>,以使用图卷积估计三维手物姿态估计。由于图的构建过程一致,以下均以二维手姿态图/>的构建方式为例进行说明,二维物姿态图依此类推。基于二维手姿态构建二维手姿态图/>的过程如下:其中,, />表示K个关键点构成的集合,/>表示第k个关键点;/>表示邻接矩阵,根据关键点间的连接关系来定义邻接关系;若第i个关键点Ji和第j个关键点Jj相同或者存在连接关系,则邻接矩阵第i行、第j列位置上的元素/>,否则为0。
本实施例的三维姿态估计网络如图3所示,包括姿态估计阶段和姿态优化阶段,姿态估计阶段由编码阶段和解码阶段组成,编码阶段包括依次设置的多个由共同注意力模块和语义感知模块组成的组合模块;解码阶段包括依次设置的多个由共同注意力模块和语义感知模块组成的组合模块,随后设置一个单独的语义感知图卷积模块,编码阶段与解码阶段之间设置两个全连接层;姿态优化阶段由多个共同注意力模块与语义感知模块组成的姿态修正模块级联而成。
三维姿态估计网络将二维手姿态图和二维物体姿态图作为输入,输出三维手物姿态估计结果,在编码阶段通过多次四倍下采样逐步对图节点进行简化,最终将所有信息压缩到一个节点上,而后在解码阶段逐步还原图节点,并通过维度为3的语义感知图卷积模块将节点特征维度变为3,将此作为手物姿态各关键点三维坐标的初始估计结果。
由于二维手姿态图和二维物体姿态图的链接关系复杂多变,例如,对某一手关键点而言,其受限于同一手指其他关键点的固有连接限制,且与该关键点相连的各关键点对其产生的影响并不一致;更有甚者,其他不相连的关键点也会对其产生不定性影响(即本发明方案涉及的潜在语义关系),如图4所示;对于物体关键点也是如此。基于上述分析可知,虽然普通图卷积能够捕获二维手姿态图和二维物体姿态图的固有连接信息,但其捕获图拓扑结构的方式不够灵活,且无法深入挖掘关键点间的潜在语义关系,如手关键点间的潜在语义关系、物关键点间的对称关系等。基于此,本实施例提出语义感知图卷积模块解决以上问题,其不仅可以灵活感知二维手姿态图和二维物体姿态图的拓扑结构,而且能够挖掘节点间的潜在语义关系,对于手和物体的姿态估计起着积极影响。下面以二维手姿态构建的图为输入对其进行详细说明。
假设第层输入为/>,其中/>是维度的表示,/>表示关键点个=数量,对于手而言,/>,对于物体而言,/>;/>表示每个关键点的特征维度,则第/>层的特征更新过程可表示如下:
(4);
其中,
(5);
(6);
式中,为第/>层的输出,同时也是第/>层的输入,/>是单位矩阵,是二维手姿态图的邻接矩阵,如果第i个关键点Ji和第j个关键点Jj相同或存在连接关系,则/>,否则为0;/>是/>的对称归一化矩阵,其中,/>是二维手姿态图的潜在关系矩阵,如果第i个关键点Ji和第j个关键点Jj处于同一层级,则潜在关系矩阵第i行、第j列位置上的元素/>,否则为0;图4直观展示了手部关键点间的潜在关系。/>为第一可学习权重矩阵,/>为第二可学习权重矩阵,/>为softmax激活函数,/>是一个逐元素的操作,/>是可学习矩阵,在/>操作中,/>相当于掩码,用于筛选是目标关键点的邻接关键点,/>为ReLU非线性激活函数,/>表示归一化的度矩阵,/>表示领接矩阵/>的第i行、第j列位置上的元素,/>表示度矩阵。
尽管语义感知图卷积模块能够充分挖掘图的拓扑结构及图中各关键点间的关系,但手、物分属两个独立的图,其并不能建模图与图之间的交互关系,该点反映在手物姿态估计中,即无法建模手物交互过程的交互关系,而该交互关系是准确估计三维手物姿态的关键之一。基于此,该发明技术方案拟使用共同注意力模块挖掘图与图之间的交互关系,该关系与语义感知图卷积模块所习得的关系相互补充,能够充分建模现实场景下手物交互过程中的全方位关系。下面将以二维手姿态图为例进行详细说明:
对于二维手姿态图而言,首先使用三个1×1卷积从手部特征提取查询集合, 键集合/>, 值集合/>,其中的每一行都对应于一个关键点的查询集合、键集合和值集合。对于物体而言,同样使用三个1×1卷积从物体特征/>提取查询集合/>、键集合/>和值集合/>。基于以上表示,我们计算物体对手的注意力影响/>,公式如下:
(7);
所有符号的上标h表示手,o表示物体。是物体对手的注意力影响,用表示第i行所有物体顶点对手部第i个关键点Ji的期望概率分布,/>是从手部特征获得的查询集合,/>是从物体特征获得的键集合,/>表示物体的键集合的转置,/>是特征维度,此处各集合的特征维度都相同。则物体在交互过程中对手产生的影响可用以下过程表示:
(8);
其中,是共同注意力模块计算的物体对手部的影响特征,/>是从物体特征获得的值集合,类似地,手对物体的注意力影响可计算如下:
(9);
(10);
其中,为共同注意力模块计算的手对物体的影响特征,/>是手对物体的注意力影响,/>是从手聚合而得的特征。/>是从手部特征获得的值集合,是从物体特征获得的值集合,/>是物体特征获得的查询集合,/>是从手部特征获得的查询集合,/>是从手部特征获得的键集合,T表示转置。
得到物体对手及手对物体的相互影响特征后,完整的手部特征及物体特征更新为:
(11);
(12);
其中,代表多层感知层操作,/>是经过共同注意力模块更新后的手部特征,是经过共同注意力模块更新后的物体特征,它们也是三维姿态估计网络中下一阶段的语义感知图卷积模块的输入。/>是输入该共同注意力模块的手部特征,/>是输入共同注意力模块的物体特征,/>为共同注意力模块计算的物体对手部的影响特征,/>为共同注意力模块计算的手对物体的影响特征。
共同注意力模块与语义感知图卷积模块相辅相成,相互影响,共同作为三维姿态估计网络的核心组成,在学习单个图的拓扑关系及图节点间潜在关系的同时也能对图与图之间的关联关系进行建模,理论上而言,能够有效提升手物姿态估计的精度。
最后,为了得到更为准确的估计结果,该发明方案基于迭代优化思想对初始估计结果进行修正。姿态优化阶段由N(N=3)个共同注意力模块与语义感知图卷积模块组成的姿态修正模块级联而成,这里以第一个姿态修正模块为例进行说明,其将初始的三维手物估计姿态作为输入,通过语义感知图卷积模块和共同注意力模块习得各关键点位置偏差,并将此偏差与初始估计结果相加以完成对关键点位置的第一次修正。该相加结果作为下一个姿态修正模块的输入进一步对第一次修正后的结果进行修正,依此传递,最后经过3个姿态修正模块的修正可以得到更为准确的估计结果。值得说明的是,修正过程的每一次修正都对关键点进行了监督,该损失具体计算如公式(13)所示:
(13);
式中,为关键点损失,/>为估计的关键点坐标,J*为真实标记节点坐标。
在另一实施例中,提供了基于语义感知图卷积的三维手物姿态估计系统,包括特征提取模块、二维手物姿态估计模块、三维姿态估计模块,特征提取模块使用特征提取网络从彩色图像中提取手感兴趣区域特征和物感兴趣区域特征;二维手物姿态估计模块基于手感兴趣区域特征和物感兴趣区域特征,使用argmax函数进行关键点预测,并将关键点拼接起来作为二维手姿态或二维物姿态;三维姿态估计模块内置三维姿态估计网络,将二维手姿态和二维物姿态输入三维姿态估计网络以估计三维手物姿态。
在另一实施例中,提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意实施例中的基于语义感知图卷积的三维手物姿态估计方法。
本实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述实施例的基于语义感知图卷积的三维手物姿态估计方法。
本实施例提供一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行基于语义感知图卷积的三维手物姿态估计方法。
以上所述的具体实施方案,进一步详细地说明了本发明的目的、技术方案和技术效果。所应理解的是,以上所述仅为本发明的具体实施方案而已,并非用以限定本发明的范围,任何本领域的技术人员,在不脱离本发明思想和原则的前提下所做出的等同变化与修改,均应属于本发明保护的范围。
Claims (10)
1.基于语义感知图卷积的三维手物姿态估计方法,其特征在于,使用特征提取网络从彩色图像中提取手感兴趣区域特征和物感兴趣区域特征;基于手感兴趣区域特征估计二维手姿态,基于物感兴趣区域特征估计二维物姿态;将二维手姿态和二维物姿态输入三维姿态估计网络以估计三维手物姿态;所述三维姿态估计网络包括姿态估计阶段和姿态优化阶段,姿态估计阶段由编码阶段和解码阶段组成,编码阶段包括依次设置的多个由共同注意力模块和语义感知图卷积模块组成的组合模块;解码阶段包括依次设置的多个由共同注意力模块和语义感知图卷积模块组成的组合模块,随后设置一个单独的语义感知图卷积模块,编码阶段与解码阶段之间设置两个全连接层;姿态优化阶段由多个共同注意力模块与语义感知图卷积模块组成的姿态修正模块级联而成;
二维手姿态图通过语义感知图卷积模块处理的过程为:第层输入为/>,其中/>是维度的表示,/>表示关键点数量;/>表示每个关键点的特征维度,则第/>层的特征更新过程表示如下:
;
其中,
;
;
式中,为第/>层的输出,同时也是第/>+1层的输入,/>是单位矩阵,/>是二维手姿态图的邻接矩阵,如果第i个关键点Ji和第j个关键点Jj相同或存在连接关系,则,否则为0;/>是/>的对称归一化矩阵,其中,/>是二维手姿态图的潜在关系矩阵,如果第i个关键点Ji和第j个关键点Jj处于同一层级,则潜在关系矩阵第i行、第j列位置上的元素/>,否则为0;/>为第一可学习权重矩阵,/>为第二可学习权重矩阵,/>为softmax激活函数,/>是一个逐元素的操作,/>是可学习矩阵,在/>操作中,/>相当于掩码,用于筛选是目标关键点的邻接关键点,/>为ReLU非线性激活函数,/>表示归一化的度矩阵,/>表示领接矩阵/>的第i行、第j列位置上的元素,/>表示度矩阵;
使用共同注意力模块挖掘图与图之间的交互关系,所得交互关系与语义感知图卷积模块所习得的关系相互补充,以建模现实场景下手物交互过程中的全方位关系,过程如下:
对于二维手姿态图而言,首先使用三个1×1卷积从手部特征提取查询集合, 键集合/>,值集合/>,其中的每一行都对应于一个关键点的查询集合、键集合和值集合;对于物体而言,同样使用三个1×1卷积从物体特征/>提取查询集合/>、键集合/>和值集合/>;计算物体对手的注意力影响/>的公式如下:
;
所有符号的上标h表示手,o表示物体;是物体对手的注意力影响,用表示第i行所有物体顶点对手部第i个关键点Ji的期望概率分布,/>是从手部特征获得的查询集合,/>是从物体特征获得的键集合,/>表示物体的键集合的转置,是特征维度;则物体在交互过程中对手产生的影响用以下过程表示:
;
其中,是共同注意力模块计算的物体对手部的影响特征,/>是从物体特征获得的值集合,手对物体的注意力影响计算如下:
;
;
其中,为共同注意力模块计算的手对物体的影响特征,/>是手对物体的注意力影响,/>是从手聚合而得的特征;/>是从手部特征获得的值集合,/>是物体特征获得的查询集合,/>是从手部特征获得的查询集合,/>是从手部特征获得的键集合,T表示转置;
得到物体对手及手对物体的相互影响特征后,完整的手部特征及物体特征更新为:
;
;
其中,代表多层感知层操作,/>是经过共同注意力模块更新后的手部特征,/>是经过共同注意力模块更新后的物体特征,也是三维姿态估计网络中下一阶段的语义感知图卷积模块的输入;/>是输入共同注意力模块的手部特征,/>是输入共同注意力模块的物体特征,/>为共同注意力模块计算的物体对手部的影响特征,/>为共同注意力模块计算的手对物体的影响特征。
2.根据权利要求1所述的基于语义感知图卷积的三维手物姿态估计方法,其特征在于,将裁剪到一定大小的彩色图像作为特征提取网络的输入以提取手感兴趣区域特征和物感兴趣区域特征,所述特征提取网络包括ResNet50网络和特征金字塔网络。
3.根据权利要求1所述的基于语义感知图卷积的三维手物姿态估计方法,其特征在于,基于手感兴趣区域特征估计二维手姿态,基于物感兴趣区域特征估计二维物姿态的具体过程为:使用卷积将手感兴趣区域特征变换为手热图,将物感兴趣区域特征变换为物热图,其中,手热图和物热图的每一个通道分别对应于手或物姿态中的一个关键点,基于通道使用argmax函数进行关键点预测,最后将关键点拼接起来作为二维手姿态或二维物姿态。
4.根据权利要求3所述的基于语义感知图卷积的三维手物姿态估计方法,其特征在于,关键点计算方式如下:
;
式中,为二维手姿态或二维物姿态的第k个关键点,/>表示手热图或物热图的第k个通道,n为手热图或物热图某一通道中所有像素点的索引,/>函数用来提取对应通道所有像素点中最大像素值的索引。
5.根据权利要求4所述的基于语义感知图卷积的三维手物姿态估计方法,其特征在于,使用真值热图监督特征提取网络的学习,损失函数定义为预测热图与真值热图的均方误差,即:
;
式中,为预测热图,/>为真值热图;
真值热图使用高斯函数计算而得,高斯函数的中心在每个关键点的位置上,真值热图计算方式如下:
;
式中,为基于二维手姿态或二维物姿态第k个关键点位置产生的真值热图,K为关键点数量,K个关键点的真值热图拼接起来即可得到完整的二维手姿态或二维物姿态真值热图/>,/>为手热图或物热图的高,/>为手热图或物热图的宽,e为自然常数,(w,h)为手热图或物热图上某一点的像素坐标,w为像素宽度坐标,h为像素高度坐标;c为高斯函数的标准差;/>为第k个关键点的横坐标,/>为第k个关键点的纵坐标,k=1,2,…,K。
6.根据权利要求1所述的基于语义感知图卷积的三维手物姿态估计方法,其特征在于,基于二维手姿态构建二维手姿态图,基于二维物姿态构建二维物姿态图/>;基于二维手姿态构建二维手姿态图/>的过程如下:其中,/>表示K个关键点构成的集合,/>表示第k个关键点;/>表示邻接矩阵,根据关键点间的连接关系来定义邻接关系;若第i个关键点Ji和第j个关键点Jj相同或者存在连接关系,则邻接矩阵第i行、第j列位置上的元素/>,否则为0。
7.根据权利要求6所述的基于语义感知图卷积的三维手物姿态估计方法,其特征在于,三维姿态估计网络将二维手姿态图和二维物体姿态图作为输入,输出三维手物姿态估计结果,在编码阶段通过多次四倍下采样逐步对图节点进行简化,最终将所有信息压缩到一个节点上,而后在解码阶段逐步还原图节点,并通过维度为3的语义感知图卷积模块将节点特征维度变为3,将此作为手物姿态各关键点三维坐标的初始估计结果。
8.一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,其特征在于,该计算机可执行指令执行权利要求1-7任意一项所述的基于语义感知图卷积的三维手物姿态估计方法。
9.一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,其特征在于,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-7任意一项所述的基于语义感知图卷积的三维手物姿态估计方法。
10.一种用于实现权利要求1-7任意一项所述的基于语义感知图卷积的三维手物姿态估计方法的系统,其特征在于,包括特征提取模块、二维手物姿态估计模块、三维姿态估计模块,特征提取模块使用特征提取网络从彩色图像中提取手感兴趣区域特征和物感兴趣区域特征;二维手物姿态估计模块基于手感兴趣区域特征和物感兴趣区域特征,使用argmax函数进行关键点预测,并将关键点拼接起来作为二维手姿态或二维物姿态;三维姿态估计模块内置三维姿态估计网络,将二维手姿态和二维物姿态输入三维姿态估计网络以估计三维手物姿态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310754065.4A CN116486489B (zh) | 2023-06-26 | 2023-06-26 | 基于语义感知图卷积的三维手物姿态估计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310754065.4A CN116486489B (zh) | 2023-06-26 | 2023-06-26 | 基于语义感知图卷积的三维手物姿态估计方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116486489A CN116486489A (zh) | 2023-07-25 |
CN116486489B true CN116486489B (zh) | 2023-08-29 |
Family
ID=87218194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310754065.4A Active CN116486489B (zh) | 2023-06-26 | 2023-06-26 | 基于语义感知图卷积的三维手物姿态估计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116486489B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117880126B (zh) * | 2024-01-30 | 2024-07-05 | 金数信息科技(苏州)有限公司 | 一种基于虚拟现实的交互式网络流量可视化设备识别方法 |
CN118247851A (zh) * | 2024-05-28 | 2024-06-25 | 江西农业大学 | 一种端到端的手部对象交互姿态估计方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021237875A1 (zh) * | 2020-05-29 | 2021-12-02 | 广州幻境科技有限公司 | 基于图卷积网络的手部数据识别方法、系统和存储介质 |
WO2022036777A1 (zh) * | 2020-08-21 | 2022-02-24 | 暨南大学 | 基于卷积神经网络的人体动作姿态智能估计方法及装置 |
CN114724247A (zh) * | 2022-04-11 | 2022-07-08 | 西安电子科技大学广州研究院 | 面向特定场景下基于语义认知的姿态估计方法及系统 |
CN115546888A (zh) * | 2022-09-06 | 2022-12-30 | 华南理工大学 | 一种基于身体部位分组的对称语义图卷积姿态估计方法 |
CN115690908A (zh) * | 2022-10-28 | 2023-02-03 | 中国科学院上海微系统与信息技术研究所 | 一种基于拓扑感知的三维手势姿态估计方法 |
CN115880724A (zh) * | 2022-12-17 | 2023-03-31 | 杭州电子科技大学 | 一种基于rgb图像的轻量化三维手部姿态估计方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10867441B2 (en) * | 2019-02-15 | 2020-12-15 | Microsoft Technology Licensing, Llc | Method and apparatus for prefetching data items to a cache |
US11361470B2 (en) * | 2019-05-09 | 2022-06-14 | Sri International | Semantically-aware image-based visual localization |
WO2021098441A1 (zh) * | 2019-11-20 | 2021-05-27 | Oppo广东移动通信有限公司 | 手部姿态估计方法、装置、设备以及计算机存储介质 |
US11804040B2 (en) * | 2021-03-17 | 2023-10-31 | Qualcomm Incorporated | Keypoint-based sampling for pose estimation |
-
2023
- 2023-06-26 CN CN202310754065.4A patent/CN116486489B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021237875A1 (zh) * | 2020-05-29 | 2021-12-02 | 广州幻境科技有限公司 | 基于图卷积网络的手部数据识别方法、系统和存储介质 |
WO2022036777A1 (zh) * | 2020-08-21 | 2022-02-24 | 暨南大学 | 基于卷积神经网络的人体动作姿态智能估计方法及装置 |
CN114724247A (zh) * | 2022-04-11 | 2022-07-08 | 西安电子科技大学广州研究院 | 面向特定场景下基于语义认知的姿态估计方法及系统 |
CN115546888A (zh) * | 2022-09-06 | 2022-12-30 | 华南理工大学 | 一种基于身体部位分组的对称语义图卷积姿态估计方法 |
CN115690908A (zh) * | 2022-10-28 | 2023-02-03 | 中国科学院上海微系统与信息技术研究所 | 一种基于拓扑感知的三维手势姿态估计方法 |
CN115880724A (zh) * | 2022-12-17 | 2023-03-31 | 杭州电子科技大学 | 一种基于rgb图像的轻量化三维手部姿态估计方法 |
Non-Patent Citations (1)
Title |
---|
使用视觉注意和多特征融合的手势检测与识别;杨文姬,等;《小型微型计算机系统》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116486489A (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116486489B (zh) | 基于语义感知图卷积的三维手物姿态估计方法及系统 | |
JP6924517B2 (ja) | ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識し、極度の状況でフォールトトレランス及びフラクチュエーションロバスト性を向上させる方法 | |
CN108734210B (zh) | 一种基于跨模态多尺度特征融合的对象检测方法 | |
CN105654492A (zh) | 基于消费级摄像头的鲁棒实时三维重建方法 | |
CN110020620A (zh) | 一种大姿态下的人脸识别方法、装置及设备 | |
CN109902583B (zh) | 一种基于双向独立循环神经网络的骨架手势识别方法 | |
CN115240121B (zh) | 一种用于增强行人局部特征的联合建模方法和装置 | |
CN112766244A (zh) | 目标对象检测方法、装置、计算机设备和存储介质 | |
CN112085835B (zh) | 三维卡通人脸生成方法、装置、电子设备及存储介质 | |
CN111104930B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN107808129A (zh) | 一种基于单个卷积神经网络的面部多特征点定位方法 | |
CN113128424B (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
Hua et al. | Depth estimation with convolutional conditional random field network | |
CN116258757A (zh) | 一种基于多尺度交叉注意力的单目图像深度估计方法 | |
CN113449612B (zh) | 一种基于子流型稀疏卷积的三维目标点云识别的方法 | |
CN116012626B (zh) | 建筑立面图像的素材匹配方法、装置、设备和存储介质 | |
CN113888697A (zh) | 一种双手交互状态下的三维重建方法 | |
CN112199994A (zh) | 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置 | |
CN114529949A (zh) | 一种基于深度学习的轻量级手势识别方法 | |
Luanyuan et al. | MGNet: Learning Correspondences via Multiple Graphs | |
CN112017159B (zh) | 一种遥感场景下的地面目标真实感仿真方法 | |
Zhang et al. | A multi-cue guidance network for depth completion | |
CN117115911A (zh) | 一种基于注意力机制的超图学习动作识别系统 | |
CN117115855A (zh) | 基于多尺度Transformer学习丰富视觉特征的人体姿态估计方法及系统 | |
Zeng et al. | Multiscale Global Context Network for Semantic Segmentation of High-Resolution Remote Sensing Images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |