CN116486489B

CN116486489B - 基于语义感知图卷积的三维手物姿态估计方法及系统

Info

Publication number: CN116486489B
Application number: CN202310754065.4A
Authority: CN
Inventors: 杨文姬; 谢丽萍; 杨振姬; 钱文彬
Original assignee: Jiangxi Agricultural University
Current assignee: Jiangxi Agricultural University
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-08-29
Anticipated expiration: 2043-06-26
Also published as: CN116486489A

Abstract

本发明公开了一种基于语义感知图卷积的三维手物姿态估计方法及系统，使用特征提取网络从彩色图像中提取手感兴趣区域特征和物感兴趣区域特征；基于手感兴趣区域特征估计二维手姿态，基于物感兴趣区域特征估计二维物姿态；将二维手姿态和二维物姿态输入三维姿态估计网络以估计三维手物姿态，所述三维姿态估计网络包括多个共同注意力模块和语义感知图卷积模块。本发明使用语义感知图卷积模块实现了手物全局特征的充分融合，在一定程度上实现了手物交互，并使用多个共同注意力模块对包含不同数目关键点的手物姿态进行关联计算，能够充分建模不同状态下的手物交互关系，有利于手物姿态的准确估计。

Description

基于语义感知图卷积的三维手物姿态估计方法及系统

技术领域

本发明属于姿态识别技术领域，具体涉及一种基于语义感知图卷积的三维手物姿态估计方法及系统。

背景技术

手是人类与物理世界接触的主要方式，在日常生活中起着至关重要的作用。近些年来，随着计算机视觉领域的大力发展，出现了一大批智能产物，如增强现实、虚拟现实及人机交互设备等等。人们可以通过调整姿态等方式实现非接触式的人机交互活动，因此，如何有效理解手物交互姿态是实现增强现实、虚拟现实及人机交互领域进一步发展的基础。

手物姿态识别一般基于深度学习的方法，通过大量的数据训练一个深度网络，使得该网络能够直接从视频或图片中估计手和物体位姿。由于单RGB图像视角单一且手持物体方式多种多样，手、物交互过程极易存在遮挡现象，而常规特征提取方法毫无差别提取图像特征使得手物特征相互混淆，无法有效解决手物遮挡问题。考虑到手部姿态链接关系复杂多变，物体形状各异且手持物体姿态多种多样，目前并没有一个统一的目标识别网络架构能够同时估计三维手物姿态，目前的技术方案基于两个独立分支估计手物姿态，无法对手物交互过程中的关联关系建模，使得姿态估计结果不够准确。

发明内容

为了实现手物交互场景下的三维手物姿态估计，本发明提供了一种基于语义感知图卷积的三维手物姿态估计方法及系统，通过包含特征金字塔结构的ResNet50网络提取多尺度手、物感兴趣区域特征，基于该特征估计二维手物姿态，将其输入三维姿态估计网络以估计三维手物姿态，为了进一步实现高精度手物姿态估计。

本发明采用的技术方案是：基于语义感知图卷积的三维手物姿态估计方法，使用特征提取网络从彩色图像中提取手感兴趣区域特征和物感兴趣区域特征；基于手感兴趣区域特征估计二维手姿态，基于物感兴趣区域特征估计二维物姿态；将二维手姿态和二维物姿态输入三维姿态估计网络以估计三维手物姿态；所述三维姿态估计网络包括姿态估计阶段和姿态优化阶段，姿态估计阶段由编码阶段和解码阶段组成，编码阶段包括依次设置的多个由共同注意力模块和语义感知图卷积模块组成的组合模块；解码阶段包括依次设置的多个由共同注意力模块和语义感知图卷积模块组成的组合模块，随后设置一个单独的语义感知图卷积模块，编码阶段与解码阶段之间设置两个全连接层；姿态优化阶段由多个共同注意力模块与语义感知图卷积模块组成的姿态修正模块级联而成。

进一步优选，将裁剪到一定大小的彩色图像作为特征提取网络的输入以提取手感兴趣区域特征和物感兴趣区域特征，所述特征提取网络包括ResNet50网络和特征金字塔网络。

进一步优选，基于手感兴趣区域特征估计二维手姿态，基于物感兴趣区域特征估计二维物姿态的具体过程为：使用卷积将手感兴趣区域特征变换为手热图，将物感兴趣区域特征变换为物热图，其中，手热图和物热图的每一个通道分别对应于手或物姿态中的一个关键点，基于通道使用argmax函数进行关键点预测，最后将关键点拼接起来作为二维手姿态或二维物姿态。

关键点计算方式如下：

；

式中，为二维手姿态或二维物姿态的第k个关键点，/>表示手热图或物热图的第k个通道，n为手热图或物热图某一通道中所有像素点的索引，/>函数用来提取对应通道所有像素点中最大像素值的索引。

进一步优选，使用真值热图监督特征提取网络的学习，损失函数定义为预测热图与真值热图的均方误差，即：

；

式中，为预测热图，/>为真值热图；

真值热图使用高斯函数计算而得，高斯函数的中心在每个关键点的位置上，真值热图计算方式如下：

；

式中，为基于二维手姿态或二维物姿态第k个关键点位置产生的真值热图，K为关键点数量，K个关键点的真值热图拼接起来即可得到完整的二维手姿态或二维物姿态真值热图/>，/>为手热图或物热图的高，/>为手热图或物热图的宽，e为自然常数，(w,h)为手热图或物热图上某一点的像素坐标，w为像素宽度坐标，h为像素高度坐标；c为高斯函数的标准差；/>为第k个关键点的横坐标，/>为第k个关键点的纵坐标，k=1,2,…,K。

进一步优选，基于二维手姿态构建二维手姿态图，基于二维物姿态构建二维物姿态图/>；基于二维手姿态构建二维手姿态图/>的过程如下：其中，/>,表示K个关键点构成的集合，/>表示第k个关键点；/>表示邻接矩阵，根据关键点间的连接关系来定义邻接关系；若第i个关键点J_i和第j个关键点J_j相同或者存在连接关系，则邻接矩阵第i行、第j列位置上的元素/>，否则为0。

进一步优选，三维姿态估计网络将二维手姿态图和二维物体姿态图作为输入，输出三维手物姿态估计结果，在编码阶段通过多次四倍下采样逐步对图节点进行简化，最终将所有信息压缩到一个节点上，而后在解码阶段逐步还原图节点，并通过维度为3的语义感知图卷积模块将节点特征维度变为3，将此作为手物姿态各关键点三维坐标的初始估计结果。

进一步优选，二维手姿态图通过语义感知图卷积模块处理的过程为：第层输入为，其中/>是维度的表示，/>表示关键点数量; />表示每个关键点的特征维度，则第/>层的特征更新过程表示如下：

；

其中，

；

式中，为第/>层的输出，同时也是第/>层的输入，/>是单位矩阵，是二维手姿态图的邻接矩阵，如果第i个关键点J_i和第j个关键点J_j相同或存在连接关系，则/>，否则为0；/>是/>的对称归一化矩阵，其中，/>是二维手姿态图的潜在关系矩阵，如果第i个关键点J_i和第j个关键点J_j处于同一层级，则潜在关系矩阵第i行、第j列位置上的元素/>，否则为0；/>为第一可学习权重矩阵，/>为第二可学习权重矩阵，/>为softmax激活函数，/>是一个逐元素的操作，/>是可学习矩阵，在/>操作中，/>相当于掩码，用于筛选是目标关键点的邻接关键点，/>为ReLU非线性激活函数，/>表示归一化的度矩阵，/>表示领接矩阵/>的第i行、第j列位置上的元素，/>表示度矩阵。

进一步优选，使用共同注意力模块挖掘图与图之间的交互关系，所得交互关系与语义感知图卷积模块所习得的关系相互补充，以建模现实场景下手物交互过程中的全方位关系，过程如下：

对于二维手姿态图而言，首先使用三个1×1卷积从手部特征提取查询集合, 键集合/>, 值集合/>，其中的每一行都对应于一个关键点的查询集合、键集合和值集合；对于物体而言，同样使用三个1×1卷积从物体特征/>提取查询集合/>、键集合/>和值集合/>；计算物体对手的注意力影响的公式如下：

；

所有符号的上标h表示手，o表示物体；是物体对手的注意力影响，用表示第i行所有物体顶点对手部第i个关键点J_i的期望概率分布，/>是从手部特征获得的查询集合，/>是从物体特征获得的键集合，/>表示物体的键集合的转置，/>是特征维度；则物体在交互过程中对手产生的影响用以下过程表示：

；

其中，是共同注意力模块计算的物体对手部的影响特征，/>是从物体特征获得的值集合，手对物体的注意力影响计算如下：

；

其中，为共同注意力模块计算的手对物体的影响特征，/>是手对物体的注意力影响，/>是从手聚合而得的特征；/>是从手部特征获得的值集合，是物体特征获得的查询集合，/>是从手部特征获得的查询集合，/>是从手部特征获得的键集合，T表示转置；

得到物体对手及手对物体的相互影响特征后，完整的手部特征及物体特征更新为：

；

其中，代表多层感知层操作，/>是经过共同注意力模块更新后的手部特征，是经过共同注意力模块更新后的物体特征，也是三维姿态估计网络中下一阶段的语义感知图卷积模块的输入；/>是输入共同注意力模块的手部特征，/>是输入共同注意力模块的物体特征，/>为共同注意力模块计算的物体对手部的影响特征，/>为共同注意力模块计算的手对物体的影响特征。

进一步优选，将初始的三维手物估计姿态作为第一个姿态修正模块的输入，通过语义感知图卷积模块和共同注意力模块习得各关键点位置偏差，并将此偏差与初始估计结果相加以完成对关键点位置的第一次修正。该相加结果作为下一个姿态修正模块的输入进一步对第一次修正后的结果进行修正，依此传递，最后准确的估计结果；修正过程的每一次修正都对关键点进行了监督。

本发明提供了基于语义感知图卷积的三维手物姿态估计系统，包括特征提取模块、二维手物姿态估计模块、三维姿态估计模块，特征提取模块使用特征提取网络从彩色图像中提取手感兴趣区域特征和物感兴趣区域特征；二维手物姿态估计模块基于手感兴趣区域特征和物感兴趣区域特征，使用argmax函数进行关键点预测，并将关键点拼接起来作为二维手姿态或二维物姿态；三维姿态估计模块内置三维姿态估计网络，将二维手姿态和二维物姿态输入三维姿态估计网络以估计三维手物姿态。

本发明提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述基于语义感知图卷积的三维手物姿态估计方法。

本发明还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述基于语义感知图卷积的三维手物姿态估计方法。

本发明提供一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行基于语义感知图卷积的三维手物姿态估计方法。

本发明的优点：1、本发明使用带有特征金字塔结构的ResNet50网络从图像中提取准确的手感兴趣区域特征和物感兴趣区域特征,抑制了其他无关区域特征的干扰，为准确估计三维手姿态和三维物姿态奠定了良好基础。

2、本发明的语义感知图卷积较其他图卷积方法更能灵活捕获图的固有拓扑结构关系及图节点间的潜在语义关系，因此对于现实生活中复杂的手和物体更具鲁棒性；此外，编码阶段对图的节点数目进行逐步简化，最终将所有信息压缩到一个节点上，实现了手物全局特征的充分融合，在一定程度上实现了手物交互。

3、本发明在三维姿态估计网络使用多个共同注意力模块对包含不同数目关键点的手物姿态进行关联计算，能够充分建模不同状态下的手物交互关系，有利于手物姿态的准确估计。

附图说明

图1为本发明的方法流程图。

图2为本发明的网络架构原理图。

图3为三维姿态估计网络示意图。

图4为节点间的水平关系示意图。

具体实施方式

下面结合附图和实施例进一步详细阐明本发明。

参照图1和图2，基于语义感知图卷积的三维手物姿态估计方法，使用特征提取网络从彩色图像中提取手感兴趣区域特征和物感兴趣区域特征；基于手感兴趣区域特征估计二维手姿态，基于物感兴趣区域特征估计二维物姿态；将二维手姿态和二维物姿态输入三维姿态估计网络以估计三维手物姿态。

参照图2，将裁剪到一定大小的彩色图像作为特征提取网络的输入以提取手感兴趣区域特征和物感兴趣区域特征。本实施例的特征提取网络包括ResNet50网络和特征金字塔网络。ResNet50网络为自底向上线路，根据特征图维度是否改变将ResNet50网络划分为多个阶段，将每个阶段的最后一层特征图引出进行后续操作；特征金字塔网络为自顶向下线路。假设将大小为640×640×3的彩色图像作为输入，则在ResNet50网络中，各阶段的特征图大小分别160×160×256、80×80×512、40×40×102及20×20×2048，分别记作特征图C2、特征图C3、特征图C4及特征图C5。为了构建特征金字塔结构，该发明技术方案使用1×1卷积将各阶段特征的通道数统一为256，而高和宽保持不变。此处以C4和C5为例进行具体说明，首先使用1×1卷积将特征图C4和特征图C5变换为特征图C4’和特征图C5’，维度分别为40×40×256和20×20×256；为了实现多尺度特征的相互融合，对特征图C5’进行2倍上采样后与特征图C4’进行相加融合，进而完成多尺度特征融合。随后使用感兴趣区域对齐(RoIAlign)方法从上述多尺度融合特征图中抽取手和物体对应位置的特征，从而排除了其他区域特征的干扰。得益于上述特征提取方式，该发明技术方案能够提取较为准确丰富的手、物特征，为准确估计三维手物姿态奠定了强有力基础。

得到手感兴趣区域特征和物感兴趣区域特征后，使用1×1卷积将手感兴趣区域特征变换为通道数为21的手热图，将物感兴趣区域特征变换为通道数为8的物热图，其中，手热图和物热图的每一个通道分别对应于手或物姿态中的一个关键点。在本实施例中，基于通道使用argmax函数进行关键点预测，最后将关键点拼接起来作为最终的二维手姿态估计结果或二维物姿态估计结果，具体计算如下：

（1）；

式中，为二维手姿态或二维物姿态的第k个关键点，/>表示手热图或物热图的第k个通道，n为手热图或物热图某一通道中所有像素点的索引，/>函数用来提取对应通道所有像素点中最大像素值的索引。为了准确预测二维姿态，本实施例使用真值热图监督特征提取网络的学习，损失函数/>定义为预测热图与真值热图的均方误差，即：

（2）；

式中，为预测热图，/>为真值热图。

上述真值热图使用标准差为2的高斯函数计算而得，高斯函数的中心在每个关键点的位置上，真值热图计算方式如下：

（3）；

式中，为基于二维手姿态或二维物姿态第k个关键点位置产生的真值热图，K为关键点数量，K个关键点的真值热图拼接起来即可得到完整的二维手姿态或二维物姿态真值热图/>，/>为手热图或物热图的高，/>为手热图或物热图的宽，e为自然常数，(w,h)为手热图或物热图上某一点的像素坐标，w为像素宽度坐标，h为像素高度坐标；c为高斯函数的标准差，这里取值为2；/>为第k个关键点的横坐标，/>为第k个关键点的纵坐标，k=1,2,…,K。

考虑到手、物姿态属于天然的图结构数据，同时受到图卷积在图结构数据领域取得卓越成果的启发，本发明方案拟使用图卷积实现三维姿态估计，因此，如何将二维姿态表示为图是使用图卷积实现三维姿态估计的基础。基于此，本实施例基于估计得到的二维手姿态和二维物姿态分别构建二维手姿态图和二维物姿态图/>，以使用图卷积估计三维手物姿态估计。由于图的构建过程一致，以下均以二维手姿态图/>的构建方式为例进行说明，二维物姿态图依此类推。基于二维手姿态构建二维手姿态图/>的过程如下：其中，, />表示K个关键点构成的集合，/>表示第k个关键点；/>表示邻接矩阵，根据关键点间的连接关系来定义邻接关系；若第i个关键点J_i和第j个关键点J_j相同或者存在连接关系，则邻接矩阵第i行、第j列位置上的元素/>，否则为0。

本实施例的三维姿态估计网络如图3所示,包括姿态估计阶段和姿态优化阶段，姿态估计阶段由编码阶段和解码阶段组成，编码阶段包括依次设置的多个由共同注意力模块和语义感知模块组成的组合模块；解码阶段包括依次设置的多个由共同注意力模块和语义感知模块组成的组合模块，随后设置一个单独的语义感知图卷积模块，编码阶段与解码阶段之间设置两个全连接层；姿态优化阶段由多个共同注意力模块与语义感知模块组成的姿态修正模块级联而成。

三维姿态估计网络将二维手姿态图和二维物体姿态图作为输入，输出三维手物姿态估计结果，在编码阶段通过多次四倍下采样逐步对图节点进行简化，最终将所有信息压缩到一个节点上，而后在解码阶段逐步还原图节点，并通过维度为3的语义感知图卷积模块将节点特征维度变为3，将此作为手物姿态各关键点三维坐标的初始估计结果。

由于二维手姿态图和二维物体姿态图的链接关系复杂多变，例如，对某一手关键点而言，其受限于同一手指其他关键点的固有连接限制，且与该关键点相连的各关键点对其产生的影响并不一致；更有甚者，其他不相连的关键点也会对其产生不定性影响（即本发明方案涉及的潜在语义关系），如图4所示；对于物体关键点也是如此。基于上述分析可知，虽然普通图卷积能够捕获二维手姿态图和二维物体姿态图的固有连接信息，但其捕获图拓扑结构的方式不够灵活，且无法深入挖掘关键点间的潜在语义关系，如手关键点间的潜在语义关系、物关键点间的对称关系等。基于此，本实施例提出语义感知图卷积模块解决以上问题，其不仅可以灵活感知二维手姿态图和二维物体姿态图的拓扑结构，而且能够挖掘节点间的潜在语义关系，对于手和物体的姿态估计起着积极影响。下面以二维手姿态构建的图为输入对其进行详细说明。

假设第层输入为/>，其中/>是维度的表示，/>表示关键点个=数量，对于手而言，/>，对于物体而言，/>;/>表示每个关键点的特征维度，则第/>层的特征更新过程可表示如下：

（4）；

其中，

（5）；

（6）；

式中，为第/>层的输出，同时也是第/>层的输入，/>是单位矩阵，是二维手姿态图的邻接矩阵，如果第i个关键点J_i和第j个关键点J_j相同或存在连接关系，则/>，否则为0；/>是/>的对称归一化矩阵，其中，/>是二维手姿态图的潜在关系矩阵，如果第i个关键点J_i和第j个关键点J_j处于同一层级，则潜在关系矩阵第i行、第j列位置上的元素/>，否则为0；图4直观展示了手部关键点间的潜在关系。/>为第一可学习权重矩阵，/>为第二可学习权重矩阵，/>为softmax激活函数，/>是一个逐元素的操作，/>是可学习矩阵，在/>操作中，/>相当于掩码，用于筛选是目标关键点的邻接关键点，/>为ReLU非线性激活函数，/>表示归一化的度矩阵，/>表示领接矩阵/>的第i行、第j列位置上的元素，/>表示度矩阵。

尽管语义感知图卷积模块能够充分挖掘图的拓扑结构及图中各关键点间的关系，但手、物分属两个独立的图，其并不能建模图与图之间的交互关系，该点反映在手物姿态估计中，即无法建模手物交互过程的交互关系，而该交互关系是准确估计三维手物姿态的关键之一。基于此，该发明技术方案拟使用共同注意力模块挖掘图与图之间的交互关系，该关系与语义感知图卷积模块所习得的关系相互补充，能够充分建模现实场景下手物交互过程中的全方位关系。下面将以二维手姿态图为例进行详细说明：

对于二维手姿态图而言，首先使用三个1×1卷积从手部特征提取查询集合, 键集合/>, 值集合/>，其中的每一行都对应于一个关键点的查询集合、键集合和值集合。对于物体而言，同样使用三个1×1卷积从物体特征/>提取查询集合/>、键集合/>和值集合/>。基于以上表示，我们计算物体对手的注意力影响/>，公式如下：

（7）；

所有符号的上标h表示手，o表示物体。是物体对手的注意力影响，用表示第i行所有物体顶点对手部第i个关键点J_i的期望概率分布，/>是从手部特征获得的查询集合，/>是从物体特征获得的键集合，/>表示物体的键集合的转置，/>是特征维度，此处各集合的特征维度都相同。则物体在交互过程中对手产生的影响可用以下过程表示：

（8）；

其中，是共同注意力模块计算的物体对手部的影响特征，/>是从物体特征获得的值集合，类似地，手对物体的注意力影响可计算如下：

（9）；

（10）；

其中，为共同注意力模块计算的手对物体的影响特征，/>是手对物体的注意力影响，/>是从手聚合而得的特征。/>是从手部特征获得的值集合，是从物体特征获得的值集合，/>是物体特征获得的查询集合，/>是从手部特征获得的查询集合，/>是从手部特征获得的键集合，T表示转置。

（11）；

（12）；

其中，代表多层感知层操作，/>是经过共同注意力模块更新后的手部特征，是经过共同注意力模块更新后的物体特征，它们也是三维姿态估计网络中下一阶段的语义感知图卷积模块的输入。/>是输入该共同注意力模块的手部特征，/>是输入共同注意力模块的物体特征，/>为共同注意力模块计算的物体对手部的影响特征，/>为共同注意力模块计算的手对物体的影响特征。

共同注意力模块与语义感知图卷积模块相辅相成，相互影响，共同作为三维姿态估计网络的核心组成，在学习单个图的拓扑关系及图节点间潜在关系的同时也能对图与图之间的关联关系进行建模，理论上而言，能够有效提升手物姿态估计的精度。

最后，为了得到更为准确的估计结果，该发明方案基于迭代优化思想对初始估计结果进行修正。姿态优化阶段由N（N=3）个共同注意力模块与语义感知图卷积模块组成的姿态修正模块级联而成，这里以第一个姿态修正模块为例进行说明，其将初始的三维手物估计姿态作为输入，通过语义感知图卷积模块和共同注意力模块习得各关键点位置偏差，并将此偏差与初始估计结果相加以完成对关键点位置的第一次修正。该相加结果作为下一个姿态修正模块的输入进一步对第一次修正后的结果进行修正，依此传递，最后经过3个姿态修正模块的修正可以得到更为准确的估计结果。值得说明的是，修正过程的每一次修正都对关键点进行了监督，该损失具体计算如公式（13）所示：

(13)；

式中，为关键点损失，/>为估计的关键点坐标，J^*为真实标记节点坐标。

在另一实施例中，提供了基于语义感知图卷积的三维手物姿态估计系统，包括特征提取模块、二维手物姿态估计模块、三维姿态估计模块，特征提取模块使用特征提取网络从彩色图像中提取手感兴趣区域特征和物感兴趣区域特征；二维手物姿态估计模块基于手感兴趣区域特征和物感兴趣区域特征，使用argmax函数进行关键点预测，并将关键点拼接起来作为二维手姿态或二维物姿态；三维姿态估计模块内置三维姿态估计网络，将二维手姿态和二维物姿态输入三维姿态估计网络以估计三维手物姿态。

在另一实施例中，提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意实施例中的基于语义感知图卷积的三维手物姿态估计方法。

本实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述实施例的基于语义感知图卷积的三维手物姿态估计方法。

本实施例提供一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行基于语义感知图卷积的三维手物姿态估计方法。

以上所述的具体实施方案，进一步详细地说明了本发明的目的、技术方案和技术效果。所应理解的是，以上所述仅为本发明的具体实施方案而已，并非用以限定本发明的范围，任何本领域的技术人员，在不脱离本发明思想和原则的前提下所做出的等同变化与修改，均应属于本发明保护的范围。

Claims

1.基于语义感知图卷积的三维手物姿态估计方法，其特征在于，使用特征提取网络从彩色图像中提取手感兴趣区域特征和物感兴趣区域特征；基于手感兴趣区域特征估计二维手姿态，基于物感兴趣区域特征估计二维物姿态；将二维手姿态和二维物姿态输入三维姿态估计网络以估计三维手物姿态；所述三维姿态估计网络包括姿态估计阶段和姿态优化阶段，姿态估计阶段由编码阶段和解码阶段组成，编码阶段包括依次设置的多个由共同注意力模块和语义感知图卷积模块组成的组合模块；解码阶段包括依次设置的多个由共同注意力模块和语义感知图卷积模块组成的组合模块，随后设置一个单独的语义感知图卷积模块，编码阶段与解码阶段之间设置两个全连接层；姿态优化阶段由多个共同注意力模块与语义感知图卷积模块组成的姿态修正模块级联而成；

二维手姿态图通过语义感知图卷积模块处理的过程为：第层输入为/>，其中/>是维度的表示，/>表示关键点数量;/>表示每个关键点的特征维度，则第/>层的特征更新过程表示如下：

；

其中，

；

式中，为第/>层的输出，同时也是第/>+1层的输入，/>是单位矩阵，/>是二维手姿态图的邻接矩阵，如果第i个关键点J_i和第j个关键点J_j相同或存在连接关系，则，否则为0；/>是/>的对称归一化矩阵，其中，/>是二维手姿态图的潜在关系矩阵，如果第i个关键点J_i和第j个关键点J_j处于同一层级，则潜在关系矩阵第i行、第j列位置上的元素/>，否则为0；/>为第一可学习权重矩阵，/>为第二可学习权重矩阵，/>为softmax激活函数，/>是一个逐元素的操作，/>是可学习矩阵，在/>操作中，/>相当于掩码，用于筛选是目标关键点的邻接关键点，/>为ReLU非线性激活函数，/>表示归一化的度矩阵，/>表示领接矩阵/>的第i行、第j列位置上的元素，/>表示度矩阵；

使用共同注意力模块挖掘图与图之间的交互关系，所得交互关系与语义感知图卷积模块所习得的关系相互补充，以建模现实场景下手物交互过程中的全方位关系，过程如下：

对于二维手姿态图而言，首先使用三个1×1卷积从手部特征提取查询集合，键集合/>，值集合/>，其中的每一行都对应于一个关键点的查询集合、键集合和值集合；对于物体而言，同样使用三个1×1卷积从物体特征/>提取查询集合/>、键集合/>和值集合/>；计算物体对手的注意力影响/>的公式如下：

；

所有符号的上标h表示手，o表示物体；是物体对手的注意力影响，用表示第i行所有物体顶点对手部第i个关键点J_i的期望概率分布，/>是从手部特征获得的查询集合，/>是从物体特征获得的键集合，/>表示物体的键集合的转置，是特征维度；则物体在交互过程中对手产生的影响用以下过程表示：

；

其中，为共同注意力模块计算的手对物体的影响特征，/>是手对物体的注意力影响，/>是从手聚合而得的特征；/>是从手部特征获得的值集合，/>是物体特征获得的查询集合，/>是从手部特征获得的查询集合，/>是从手部特征获得的键集合，T表示转置；

；

其中，代表多层感知层操作，/>是经过共同注意力模块更新后的手部特征，/>是经过共同注意力模块更新后的物体特征，也是三维姿态估计网络中下一阶段的语义感知图卷积模块的输入；/>是输入共同注意力模块的手部特征，/>是输入共同注意力模块的物体特征，/>为共同注意力模块计算的物体对手部的影响特征，/>为共同注意力模块计算的手对物体的影响特征。

2.根据权利要求1所述的基于语义感知图卷积的三维手物姿态估计方法，其特征在于，将裁剪到一定大小的彩色图像作为特征提取网络的输入以提取手感兴趣区域特征和物感兴趣区域特征，所述特征提取网络包括ResNet50网络和特征金字塔网络。

3.根据权利要求1所述的基于语义感知图卷积的三维手物姿态估计方法，其特征在于，基于手感兴趣区域特征估计二维手姿态，基于物感兴趣区域特征估计二维物姿态的具体过程为：使用卷积将手感兴趣区域特征变换为手热图，将物感兴趣区域特征变换为物热图，其中，手热图和物热图的每一个通道分别对应于手或物姿态中的一个关键点，基于通道使用argmax函数进行关键点预测，最后将关键点拼接起来作为二维手姿态或二维物姿态。

4.根据权利要求3所述的基于语义感知图卷积的三维手物姿态估计方法，其特征在于，关键点计算方式如下：

；

5.根据权利要求4所述的基于语义感知图卷积的三维手物姿态估计方法，其特征在于，使用真值热图监督特征提取网络的学习，损失函数定义为预测热图与真值热图的均方误差，即：

；

式中，为预测热图，/>为真值热图；

；

6.根据权利要求1所述的基于语义感知图卷积的三维手物姿态估计方法，其特征在于，基于二维手姿态构建二维手姿态图，基于二维物姿态构建二维物姿态图/>；基于二维手姿态构建二维手姿态图/>的过程如下：其中，/>表示K个关键点构成的集合，/>表示第k个关键点；/>表示邻接矩阵，根据关键点间的连接关系来定义邻接关系；若第i个关键点J_i和第j个关键点J_j相同或者存在连接关系，则邻接矩阵第i行、第j列位置上的元素/>，否则为0。

7.根据权利要求6所述的基于语义感知图卷积的三维手物姿态估计方法，其特征在于，三维姿态估计网络将二维手姿态图和二维物体姿态图作为输入，输出三维手物姿态估计结果，在编码阶段通过多次四倍下采样逐步对图节点进行简化，最终将所有信息压缩到一个节点上，而后在解码阶段逐步还原图节点，并通过维度为3的语义感知图卷积模块将节点特征维度变为3，将此作为手物姿态各关键点三维坐标的初始估计结果。

8.一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，其特征在于，该计算机可执行指令执行权利要求1-7任意一项所述的基于语义感知图卷积的三维手物姿态估计方法。

9.一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，其特征在于，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-7任意一项所述的基于语义感知图卷积的三维手物姿态估计方法。

10.一种用于实现权利要求1-7任意一项所述的基于语义感知图卷积的三维手物姿态估计方法的系统，其特征在于，包括特征提取模块、二维手物姿态估计模块、三维姿态估计模块，特征提取模块使用特征提取网络从彩色图像中提取手感兴趣区域特征和物感兴趣区域特征；二维手物姿态估计模块基于手感兴趣区域特征和物感兴趣区域特征，使用argmax函数进行关键点预测，并将关键点拼接起来作为二维手姿态或二维物姿态；三维姿态估计模块内置三维姿态估计网络，将二维手姿态和二维物姿态输入三维姿态估计网络以估计三维手物姿态。