CN115097935A - 一种手部定位方法和vr设备 - Google Patents
一种手部定位方法和vr设备 Download PDFInfo
- Publication number
- CN115097935A CN115097935A CN202210680733.9A CN202210680733A CN115097935A CN 115097935 A CN115097935 A CN 115097935A CN 202210680733 A CN202210680733 A CN 202210680733A CN 115097935 A CN115097935 A CN 115097935A
- Authority
- CN
- China
- Prior art keywords
- hand
- feature vector
- image
- initial
- dimensional coordinates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/01—Indexing scheme relating to G06F3/01
- G06F2203/012—Walk-in-place systems for allowing a user to walk in a virtual environment while constraining him to a given position in the physical environment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Psychiatry (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Social Psychology (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种手部定位方法和VR设备,包括:获取VR设备的双目相机采集的待处理图像;将待处理图像输入至手部检测网络,对待处理图像进行至少一次深度可分离卷积,提取待处理图像的初始手部特征向量;对初始手部特征向量进行卷积,生成两个不同尺度的初始手部图像;将初始手部图像输入至手部关键点估计网络,对初始手部图像进行至少一次深度可分离卷积,得到初始手部图像的目标手部特征向量;对目标手部特征向量预测得到的手部关键点二维坐标的热力图进行可微分最大索引操作,得到手部关键点的二维坐标;基于手部关键点的二维坐标和双目相机内外参数,确定手部关键点的三维坐标。保证手部定位精度,提高运行速度。
Description
技术领域
本发明涉及VR技术领域,尤其涉及一种手部定位方法和VR设备。
背景技术
新一代的人机交互方式中,增强现实(AR)与虚拟现实(VR)技术的应用越来越广泛。其中,三维手势估计与跟踪作为实时手势交互中的重要组成部分,能够获取手部关键点的位置,是后续与手部位置相关的其他交互任务的基础。因此,在VR设备的应用中,准确对手部以及手部关键点进行定位至关重要。
相关技术中,在对手部以及手部关键点进行定位时,通常依赖于大规模高质量标注数据,但是,这种方式中,不仅增加了开发难度,还降低了运行速度。
尤其是在双目成像的场景中,上述弊端尤为明显。因此,亟需一种手部定位方法,在保证定位精度的同时,还可以提高运行速度。
发明内容
本发明示例性的实施方式中提供一种手部定位方法和VR设备,用以在保证手部定位精度的同时,提高运行速度。
根据示例性的实施方式中的第一方面,提供一种手部定位方法,应用于VR设备,包括:
获取所述VR设备的双目相机采集的待处理图像;
将所述待处理图像输入至手部检测网络,对所述待处理图像进行至少一次深度可分离卷积,提取所述待处理图像的初始手部特征向量;
对所述初始手部特征向量进行卷积,生成两个不同尺度的初始手部图像;
将所述初始手部图像输入至手部关键点估计网络,对所述初始手部图像进行至少一次深度可分离卷积,得到所述初始手部图像的目标手部特征向量;
对所述目标手部特征向量预测得到的手部关键点二维坐标的热力图进行可微分最大索引操作,得到手部关键点的二维坐标;
基于所述手部关键点的二维坐标和所述双目相机内外参数,确定手部关键点的三维坐标。
根据示例性的实施方式中的第二方面,提供一种VR设备,包括处理器、存储器以及至少一个外部通信接口,所述处理器、所述存储器以及所述外部通信接口均通过总线连接;
所述外部通信接口,被配置为接收双目相机采集的待处理图像;
所述存储器中存储有计算机程序,所述处理器被配置为基于所述计算机程序执行以下操作:
将所述待处理图像输入至手部检测网络,对所述待处理图像进行至少一次深度可分离卷积,提取所述待处理图像的初始手部特征向量;
对所述初始手部特征向量进行卷积,生成两个不同尺度的初始手部图像;
将所述初始手部图像输入至手部关键点估计网络,对所述初始手部图像进行至少一次深度可分离卷积,得到所述初始手部图像的目标手部特征向量;
对所述目标手部特征向量预测得到的手部关键点二维坐标的热力图进行可微分最大索引操作,得到手部关键点的二维坐标;
基于所述手部关键点的二维坐标和所述双目相机内外参数,确定手部关键点的三维坐标。
根据示例性的实施方式中的第三方面,提供一种手部定位装置,该装置包括:
图像获取模块,用于获取所述VR设备的双目相机采集的待处理图像;
第一处理模块,用于将所述待处理图像输入至手部检测网络,对所述待处理图像进行至少一次深度可分离卷积,提取所述待处理图像的初始手部特征向量;
第二处理模块,用于对所述初始手部特征向量进行卷积,生成两个不同尺度的初始手部图像;
第三处理模块,用于将所述初始手部图像输入至手部关键点估计网络,对所述初始手部图像进行至少一次深度可分离卷积,得到所述初始手部图像的目标手部特征向量;
第一坐标确定模块,用于对所述目标手部特征向量预测得到的手部关键点二维坐标的热力图进行可微分最大索引操作,得到手部关键点的二维坐标;
第二坐标确定模块,用于基于所述手部关键点的二维坐标和所述双目相机内外参数,确定手部关键点的三维坐标。
根据示例性的实施方式中的第四方面,提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面所述的手部定位方法。
本申请实施例具备如下有益效果:
通过对手部检测网络和手部关键点估计网络的网络结构分别进行改进,具体为,在手部检测网络中,对待处理图像进行至少一次深度可分离卷积,提取待处理图像的初始手部特征向量,应用深度可分离卷积,在不影响效果的情况下有效降低了参数量以及运算量。再对初始手部特征向量进行卷积,生成两个不同尺度的初始手部图像,减少特征金字塔结构的层数,一定程度降低了运算量。在手部关键点估计网络中,将初始手部图像输入至手部关键点估计网络,对初始手部图像进行至少一次深度可分离卷积,得到初始手部图像的目标手部特征向量;对目标手部特征向量预测得到的手部关键点二维坐标的热力图进行可微分最大索引操作,得到手部关键点的二维坐标,降低了整体耗时。在最后基于手部关键点的二维坐标和双目相机内外参数,确定手部关键点的三维坐标。因此,在保持精度的前提下,从体积和速度两方面对这两个网络进行轻量化改造,提高了运行速度,进而提高了手部定位的速度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示例性示出了本发明实施例提供的一种手部定位方法的应用场景图;
图2示例性示出了本发明实施例提供的一种手部定位方法的流程图;
图3示例性示出了本发明实施例提供的一种初始手部特征向量的提取过程的流程;
图4示例性示出了本发明实施例提供的一种手部检测网络的部分结构图;
图5示例性示出了本发明实施例提供的一种残差单元的结构示意图;
图6示例性示出了本发明实施例提供的一种下采样残差单元的结构示意图;
图7示例性示出了本发明实施例提供的一种初始手部图像的提取过程的流程图;
图8示例性示出了本发明实施例提供的另一种手部检测网络的局部示意图;
图9示例性示出了本发明实施例提供的一种手部检测网络的结构示意图;
图10示例性示出了本发明实施例提供的一种目标手部特征向量的提取过程的流程图;
图11示例性示出了本发明实施例提供的一种手部关键点估计网络的结构图;
图12示例性示出了本发明实施例提供的一种手部定位方法的流程示意图;
图13示例性示出了本发明实施例提供的另一种手部定位方法的流程示意图;
图14示例性示出了本发明实施例提供的一种手部定位装置的结构示意图;
图15示例性示出了本发明实施例提供的一种VR设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
新一代的人机交互方式中,增强现实(AR)与虚拟现实(VR)技术的应用越来越广泛。其中,三维手势估计与跟踪作为实时手势交互中的重要组成部分,能够获取手部关键点的位置,是后续与手部位置相关的其他交互任务的基础。因此,在VR设备的应用中,准确对手部以及手部关键点进行定位至关重要。
现有的视觉手势跟踪技术中主要分为单目方案及双目方案。单目方案利用一个RGB相机或深度相机直接完成手部的检测与三维关键点位置的估计,对三维手势估计算法的要求较高,通常需要设计精巧的神经网络模型并配以大规模高质量标注数据集进行训练,开发成本较高,且泛化性难以保证。而双目方案则依赖于双目图像中的手部位置及关键点位置,泛化能力更强,开发难度更低,但由于需要同时处理双目图像,效率相对较低。因此,亟需一种手部定位方法,在保证定位精度的同时,还可以提高运行速度。
为此,本申请实施例提供了一种手部定位方法,该方法应用于VR设备,通过对手部检测网络和手部关键点估计网络的网络结构分别进行改进,比如,在手部检测网络中,对待处理图像进行至少一次深度可分离卷积,提取待处理图像的初始手部特征向量,以及,对初始手部特征向量进行卷积,生成两个不同尺度的初始手部图像;在手部关键点估计网络中,将初始手部图像输入至手部关键点估计网络,对初始手部图像进行至少一次深度可分离卷积,得到初始手部图像的目标手部特征向量;对目标手部特征向量预测得到的手部关键点二维坐标的热力图进行可微分最大索引操作,得到手部关键点的二维坐标。在最后基于手部关键点的二维坐标和双目相机内外参数,确定手部关键点的三维坐标。因此,本申请实施例中,在保持精度的前提下,从体积和速度两方面对这两个网络进行轻量化改造,提高了运行速度,进而提高了手部定位的速度。
在介绍完本申请实施例的设计思想之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
参考图1,示出了一种手部定位方法的应用场景图,其中,双目相机对手部进行拍摄,得到各个待处理图像。为了表示清楚,图1中直接示出双目相机,在实际的应用过程中,双目相机可集成在VR设备中,在此只是举例说明,不形成任何限定。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。
下面结合图1所示的应用场景,参考图2示出的一种手部定位方法的流程图,对本申请实施例提供的技术方案进行说明。
S201、获取VR设备的双目相机采集的待处理图像。
S202、将待处理图像输入至手部检测网络,对待处理图像进行至少一次深度可分离卷积,提取待处理图像的初始手部特征向量。
S203、对初始手部特征向量进行卷积,生成两个不同尺度的初始手部图像。
S204、将初始手部图像输入至手部关键点估计网络,对初始手部图像进行至少一次深度可分离卷积,得到初始手部图像的目标手部特征向量。
S205、对目标手部特征向量预测得到的手部关键点二维坐标的热力图进行可微分最大索引操作,得到手部关键点的二维坐标。
S206、基于手部关键点的二维坐标和双目相机内外参数,确定手部关键点的三维坐标。
本申请实施例中,通过对手部检测网络和手部关键点估计网络的网络结构分别进行改进,具体为,在手部检测网络中,对待处理图像进行至少一次深度可分离卷积,提取待处理图像的初始手部特征向量,应用深度可分离卷积,在不影响效果的情况下有效降低了参数量以及运算量。再对初始手部特征向量进行卷积,生成两个不同尺度的初始手部图像,减少特征金字塔结构的层数,一定程度降低了运算量。在手部关键点估计网络中,将初始手部图像输入至手部关键点估计网络,对初始手部图像进行至少一次深度可分离卷积,得到初始手部图像的目标手部特征向量;对目标手部特征向量预测得到的手部关键点二维坐标的热力图进行可微分最大索引操作,得到手部关键点的二维坐标,降低了整体耗时。在最后基于手部关键点的二维坐标和双目相机内外参数,确定手部关键点的三维坐标。因此,在保持精度的前提下,从体积和速度两方面对这两个网络进行轻量化改造,提高了运行速度,进而提高了手部定位的速度。
涉及到S201,对于集成双目相机的VR设备,在VR设备捕捉手部图像的过程中,实时获取VR设备的双目相机采集的待处理图像。其中,待处理图像是对手部进行拍摄得到的,但是,其中可能包括完整的手部、部分手部或者不包括手部。
为了确定手部关键点的二维坐标,需要先识别手部的位置,再剪裁手部局部图像,再基于手部局部图像,识别手部关键点的位置,得到手部关键点的二维坐标。在这个过程中,手部检测网络用来确定手部的位置,手部关键点估计网络用来确定手部关键点的二维坐标。接下来分别针对这两个网络的识别过程进行说明。
涉及到S202,将待处理图像输入至手部检测网络,对待处理图像进行至少一次深度可分离卷积,提取待处理图像的初始手部特征向量。结合图3和图4,对提取待处理图像的初始手部特征向量的过程进行说明,图3示出了一种初始手部特征向量的提取过程的流程图,图4示出了一种手部检测网络的部分结构图:
S301、对待处理图像进行常规卷积,得到第一手部特征向量。
以一个待处理图像为例,将待处理图像输入至网络层D11,在网络层D11进行常规卷积(Con2D)和最大池化(MaxPool)处理,并且,在该网络层中,使用激活函数Relu6,得到第一手部特征向量。在网络层D11进行常规卷积和池化,降低了处理数据的分辨率。
S302、对第一手部特征向量进行深度可分离卷积,得到第二手部特征向量。
示例性的,将第一手部特征向量输入至网络层D12,在网络层D12的残差单元(Resblock)进行残差处理,在网络侧D12的下采样残差单元(DownSampleRes)进行下采样处理。其中,残差单元中,对第一手部特征向量进行深度可分离卷积和常规卷积(DwConv)处理,且使用激活函数Relu6,图5示出了一种残差单元的结构示意图。在下采样残差单元中,对第一手部特征向量进行深度可分离卷积和常规卷积处理,以及最大池化处理,且使用激活函数Relu6,图6示出了一种下采样残差单元的结构示意图。
在一个具体的例子中,深度可分离卷积使用一个3x3的逐通道卷积以及一个1x1普通卷积代替常规3x3卷积,在基本不影响效果的情况下有效的降低了参数量以及运算量。这样,除了初始输入网络层D11卷积处理用的常规卷积,其他网络层均使用深度可分离卷积替换。经过以上对手部关键点估计网络的优化,并通过网络预训练技术及数据集扩增技术增强网络的泛化性。配合神经网络框架的推理加速策略,实现了仅CPU资源条件下的毫秒级推理速度,保证了双目手部定位方案的实时性。
另外,将网络层D12的结果输入至网络层D13,再网络层D13中进行深度可分离卷积处理(Conv2D),得到第二手部特征向量。
S303、融合对第二手部特征向量进行最大池化后的结果,与对第二手部特征向量进行深度可分离卷积后的结果,得到待处理图像的初始手部特征向量。
其中,在网络层D14对第二手部特征向量进行最大池化处理,在网络层D15对第二手部特征向量进行深度可分离卷积处理,融合两个处理的结果,得到待处理图像的初始手部特征向量。
如上,为手部检测网络的确定初始手部特征向量的过程,接下来继续对手部检测网络生成初始手部图像的过程进行说明。
涉及到S203,对初始手部特征向量进行卷积,生成两个不同尺度的初始手部图像。结合图7和图8,对初始手部图像的过程进行说明,图7示出了一种初始手部图像的提取过程的流程图,图8示出了一种手部检测网络的局部示意图。
S701、对初始手部特征向量进行深度可分离卷积,得到第三手部特征向量。
示例性的,在网络层D16应用图5所示的残差单元对初始手部特征向量进行深度可分离卷积,使用激活单数Relu6,得到第三手部特征向量。
S702、对第三手部特征向量进行上采样卷积后,与第二手部特征向量融合,得到第四手部特征向量。
示例性的,在网络层D17对第三手部特征此向量进行上采样卷积,与前述网络层D13输出的第二手部特征向量进行融合,得到第四手部特征向量。
S703、对第四手部特征向量进行深度可分离卷积,得到第五手部特征向量。
示例性的,在网络层D18应用图5示出的残差单元对第四手部特征向量进深度可分离卷积,得到第五手部特征向量。
S704、分别对第三手部特征向量和第五手部特征向量进行常规卷积,得到两个不同尺度的初始手部图像。
示例性的,在网络层D19对第三手部特征向量进行常规卷积,得到第一尺度F1的初始手部图像;在网络层D191对第五手部特征向量进行常规卷积,得到第二尺度F2的初始手部图像。第一尺度和第二尺度的相关数据参见图4。根据初始手部图像确定初始手部图像,该过程为,两个尺度的初始手部图像构成特征金字塔,通过该金字塔完成手部的分类以及手部矩形区域的回归处理,进而确定手部在整个待处理图像中的位置,以便对待处理图像进行剪裁,得到手部局部图像,也即,初始手部图像。减少特征金字塔结构的层数为两层,一定程度上提高了处理速度。
为了使手部检测网络的结构更清晰,图9示出了一种手部检测网络的结构示意图。该网络中,还减少了骨干网络中的残差单元的数量,进一步降低了算法耗时,提高了处理速度。
在有多个待处理图像时,可以均用手部关键点估计网络得到手部的位置,进而对待处理图像进行剪裁,得到手部局部图像。但是,为了缓解仅使用手部检测网络时可能出现的手部检测框位置抖动问题,引入了基于Kalman滤波的手部跟踪算法。Kalman滤波通过对手部在连续帧中的位置变化进行建模,预测下一帧的手部位置,相比其他跟踪算法速度更快,从而可以配合手部检测网络实现“多帧一检”的优化策略,进一步提高了实时应用的效率。辅助加速手部定位的过程,优化手部检测的稳定性,从而提高整体算法的性能。
这样,可以预先设定一个预设数量,其中,预设数量的手部关键点的二维坐标是应用卡尔曼滤波算法基于上一帧待处理图像的手部关键点的二维坐标预测得到的。其他的手部关键点的二维坐标是应用手部关键点估计网络确定的。
在得到初始手部图像后,接下来对应用手部关键点估计网络确定手部关键点的二维坐标的过程进行说明,为了保证整体的运算效率,对手部关键点估计网络也进行了轻量化改进,在满足精度的前提下,参见如下优化过程。
涉及到S204,将初始手部图像输入至手部关键点估计网络,对初始手部图像进行至少一次深度可分离卷积,得到初始手部图像的目标手部特征向量。具体的,结合图10和图11,对目标手部特征向量的过程进行说明,图10示出了一种目标手部特征向量的提取过程的流程图,图11示出了一种手部关键点估计网络的结构图:
S101、将初始手部图像输入至手部关键点估计网络,对初始手部图像进行常规卷积处理,得到第六手部特征向量。
示例性的,将初始手部图像输入至手部关键点估计网络,在网络层D21进行常规卷积处理,使用激活函数Relu6,得到第六手部特征向量。
S102、对第六手部特征向量进行深度可分离卷积处理,得到第七手部特征向量。
示例性的,应用图5示出的残差单元,以及图6示出的下采样残差单元,在网络层D22对第六手部特征向量进行深度可分离卷积处理,得到第七手部特征向量。还可以应用其他形式的残差单元和下采样残差单元,在此不进行限定。深度可分离卷积使用一个3x3的逐通道卷积以及一个1x1普通卷积代替常规3x3卷积,在基本不影响效果的情况下有效的降低了参数量以及运算量。
S103、对第七手部特征向量进行沙漏处理,得到第八手部特征向量。
示例性的,在网络层D23对第七手部特征向量进行沙漏处理,得到第八手部特征向量。其中,沙漏处理可以提高对手部姿态估计的效果。
S104、对第八特征向量进行深度可分离卷积处理,得到目标手部特征向量。
在网络层D24对第八特征向量进行深度可分离卷积,具体可以应用图5示出的残差单元实现;继续在网络层D25对得到的结果再次进行深度可分离卷积,得到目标手部特征向量。如上,D21-D24构成了手部关键点估计网络的骨干网络。
涉及到S205,利用手部关键点估计网络,基于目标手部特征向量可以预测手部关键点二维坐标的热力图。在网络层D26中,通过Soft-argmax对该热力图进行可微分最大索引操作,找到概率最大的坐标输出,得到手部关键点的二维坐标。
这样,将原来较难加速的热力图后处理过程嵌入到手部关键点估计网络的推理过程中,配合神经网络框架即可实现手部关键点二维估计的端对端加速推理,大大降低了整体算法的耗时。
涉及到S206,基于手部关键点的二维坐标和双目相机内外参数,确定手部关键点的三维坐标。该过程可以通过双目立体视觉成像原理联立两个相机的投影方程,结合相机内外参即可求解出对应的手部关键点的三维坐标。
另外,由于鱼眼相机相比普通相机具有更大的视场范围,更小的焦距,因此,在AR/VR眼镜等微小型智能穿戴设备中适用范围更广,但是,可能其成像存在畸变,实际应用中需要经过额外的校正处理。这样,为了提高定位精度,在得到手部关键点的二维坐标以后,判断待处理图像是否存在畸变(比如用鱼眼相机拍摄),若是,则应用畸变系数对手部关键点的二维坐标进行校正,进而,应用校正后的手部关键点的二维坐标和双目相机内外参数确定手部关键点的三维坐标。这样,本申请实施例的方法可以兼顾普通图像及带畸变图像的手部定位,极大提升了本算法的适用范围。
为了使本申请的流程更清楚,下面用两个完整的流程图对手部定位的过程进行说明,参见图12和图13。
图12示出了一种手部定位方法的流程示意图。
S1201、获取VR设备的双目相机采集的待处理图像。
S1202、对待处理图像进行常规卷积,得到第一手部特征向量。
S1203、对第一手部特征向量进行深度可分离卷积,得到第二手部特征向量。
S1204、融合对第二手部特征向量进行最大池化后的结果,与对第二手部特征向量进行深度可分离卷积后的结果,得到待处理图像的初始手部特征向量。
S1205、对初始手部特征向量进行深度可分离卷积,得到第三手部特征向量。
S1206、对第三手部特征向量进行上采样卷积后,与第二手部特征向量融合,得到第四手部特征向量。
S1207、对第四手部特征向量进行深度可分离卷积,得到第五手部特征向量。
S1208、分别对第三手部特征向量和第五手部特征向量进行常规卷积,得到两个不同尺度的初始手部图像。
S1209、将初始手部图像输入至手部关键点估计网络,对初始手部图像进行常规卷积处理,得到第六手部特征向量。
S1210、对第六手部特征向量进行深度可分离卷积处理,得到第七手部特征向量。
S1211、对第七手部特征向量进行沙漏处理,得到第八手部特征向量。
S1212、对第八特征向量进行深度可分离卷积处理,得到目标手部特征向量。
S1213、对目标手部特征向量预测得到的手部关键点二维坐标的热力图进行可微分最大索引操作,得到手部关键点的二维坐标。
S1214、若待处理图像是否存在畸变,应用畸变系数对手部关键点的二维坐标进行校正。
S1215、应用校正后的手部关键点的二维坐标和双目相机内外参数确定手部关键点的三维坐标。
本申请实施例,减少了对大规模高质量标注数据的依赖,降低了开发难度和成本。通过轻量级的手部关键点估计网络和手部检测网络,在提高运行速度的同时,降低了存储资源的占用,利于便携式可穿戴设备(比如VR设备)的轻量化部署。另外,基于深度学习的手部检测网络和手部关键点估计网络,能够利用鱼眼相机成像的畸变图像进行训练,使得其支持在带畸变图像上直接定位手部及关键点位置,再结合提供的相机畸变系数校正所预测的手部关键点的二维坐标,配合双目立体视觉原理即可求解对应的三维空间坐标,兼容了正常图像及畸变图像的手部姿态估计与跟踪,将两者统一于同一个算法框架之下,极大丰富了算法的延展性。
图13示出了另一种手部定位方法的流程示意图。
S131、获取VR设备的双目相机采集的待处理图像。
获取双目相机的图像后,分别将两张图像进行缩放及填充,变为统一的256*256分辨率,然后输入预先训练完成的手部检测网络。
S132、应用手部关键点估计网络识别手部在待处理图像中的位置。
对手部检测网络输出结果进行一定的后处理后即可得到手在图像中的位置,同时判断出该手为左手还是右手。该手部检测网络为轻量化改造,并配合特定神经网络框架进行推理加速,保证了其运行的高效性。另外,通过引入额外设计的手部跟踪算法(卡尔曼绿波算法),手部检测网络可在连续若干帧图像中仅运行一次,进一步提高了手部定位的整体效率。
S133、剪裁待处理图像得到手部布局图像(初始手部图像)。
得到两张图像中的手部位置后,结合同时得到的左右手类别可获取两张图像中各个手目标的对应关系,从而确定哪些目标为同一只手,并在两张原图像中各自对其进行局部图像裁剪,得到仅包含手的局部图像。
S134、应用手部检测网络识别手部关键点在手部局部图像中的手部关键点二维坐标。
将得到的局部手部图像输入预先训练好的手部关键点估计网络,即可得到手部16个关节点及5个指尖点共21个手部关键点在图像中的位置,并可还原其在裁剪前原图像中的位置。该手部关键点估计网络尾轻量化网络,配合特定神经网络框架进行推理加速,保证了运行的实时性。
S135、若双目相机是否为鱼眼相机,则应用畸变系数对手部关键点的二维坐标进行校正。
S136、应用校正后的手部关键点的二维坐标和双目相机内外参数确定手部关键点的三维坐标。
在计算手部关键点的三维坐标之前,需要先判断输入原图像是否为鱼眼相机成像,具体方式为判断输入的双目相机参数中畸变系数是否为0。若畸变系数不为0,则对得到的手部关键点二维坐标进行畸变校正,得到校正后的关键点二维坐标;若畸变系数为0,则不需要进行校正,直接进行三维坐标计算。通过双目立体视觉成像原理联立两个相机的投影方程,结合相机内外参即可求解出对应的手部三维关键点坐标。
如图14所示,基于相同的发明构思,本发明实施例提供一种手部定位装置,包括图像获取模块141、第一处理模块142、第二处理模块143、第三处理模块144、第一坐标确定模块145和第二坐标确定模块146。
其中,图像获取模块141,用于获取VR设备的双目相机采集的待处理图像;
第一处理模块142,用于将待处理图像输入至手部检测网络,对待处理图像进行至少一次深度可分离卷积,提取待处理图像的初始手部特征向量;
第二处理模块143,用于对初始手部特征向量进行卷积,生成两个不同尺度的初始手部图像;
第三处理模块144,用于将初始手部图像输入至手部关键点估计网络,对初始手部图像进行至少一次深度可分离卷积,得到初始手部图像的目标手部特征向量;
第一坐标确定模块145,用于对目标手部特征向量预测得到的手部关键点二维坐标的热力图进行可微分最大索引操作,得到手部关键点的二维坐标;
第二坐标确定模块146,用于基于手部关键点的二维坐标和双目相机内外参数,确定手部关键点的三维坐标。
在一些示例性的实施方式中,第一处理模块142具体用于:
对待处理图像进行常规卷积,得到第一手部特征向量;
对第一手部特征向量进行深度可分离卷积,得到第二手部特征向量;
融合对第二手部特征向量进行最大池化后的结果,与对第二手部特征向量进行深度可分离卷积后的结果,得到待处理图像的初始手部特征向量。
在一些示例性的实施方式中,第二处理模块143具体用于:
对初始手部特征向量进行深度可分离卷积,得到第三手部特征向量;
对第三手部特征向量进行上采样卷积后,与第二手部特征向量融合,得到第四手部特征向量;
对第四手部特征向量进行深度可分离卷积,得到第五手部特征向量;
分别对第三手部特征向量和第五手部特征向量进行常规卷积,得到两个不同尺度的初始手部图像。
在一些示例性的实施方式中,第三处理模块144具体用于:
将初始手部图像输入至手部关键点估计网络,对初始手部图像进行常规卷积处理,得到第六手部特征向量;
对第六手部特征向量进行深度可分离卷积处理,得到第七手部特征向量;
对第七手部特征向量进行沙漏处理,得到第八手部特征向量;
对第八特征向量进行深度可分离卷积处理,得到目标手部特征向量。
在一些示例性的实施方式中,预设数量的手部关键点的二维坐标是应用卡尔曼滤波算法基于上一帧待处理图像的手部关键点的二维坐标确定的。
在一些示例性的实施方式中,还包括判断模块,用于在得到手部关键点的二维坐标以后,判断待处理图像是否存在畸变,若是,则应用畸变系数对手部关键点的二维坐标进行校正;
第二坐标确定模块146具体用于:
应用校正后的手部关键点的二维坐标和双目相机内外参数确定手部关键点的三维坐标。
由于该装置即是本发明实施例中的方法中的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
如图15所示,基于相同的发明构思,本发明实施例提供一种VR设备,该VR设备包括处理器151、存储器152以及至少一个外部通信接口153,处理器151、存储器152以及外部通信接口153均通过总线154连接;
外部通信接口153,被配置为接收VR设备的双目相机采集的待处理图像;
存储器152中存储有计算机程序,处理器151被配置为基于计算机程序执行以下操作:
将待处理图像输入至手部检测网络,对待处理图像进行至少一次深度可分离卷积,提取待处理图像的初始手部特征向量;
对初始手部特征向量进行卷积,生成两个不同尺度的初始手部图像;
将初始手部图像输入至手部关键点估计网络,对初始手部图像进行至少一次深度可分离卷积,得到初始手部图像的目标手部特征向量;
对目标手部特征向量预测得到的手部关键点二维坐标的热力图进行可微分最大索引操作,得到手部关键点的二维坐标;
基于手部关键点的二维坐标和双目相机内外参数,确定手部关键点的三维坐标。
在一些示例性的实施方式中,处理器151被配置为:
对待处理图像进行常规卷积,得到第一手部特征向量;
对第一手部特征向量进行深度可分离卷积,得到第二手部特征向量;
融合对第二手部特征向量进行最大池化后的结果,与对第二手部特征向量进行深度可分离卷积后的结果,得到待处理图像的初始手部特征向量。
在一些示例性的实施方式中,处理器151还被配置为:
对初始手部特征向量进行深度可分离卷积,得到第三手部特征向;
对第三手部特征向量进行上采样卷积后,与第二手部特征向量融合,得到第四手部特征向量;
对第四手部特征向量进行深度可分离卷积,得到第五手部特征向量;
分别对第三手部特征向量和第五手部特征向量进行常规卷积,得到两个不同尺度的初始手部图像。
在一些示例性的实施方式中,处理器151还被配置为:
将初始手部图像输入至手部关键点估计网络,对初始手部图像进行常规卷积处理,得到第六手部特征向量;
对第六手部特征向量进行深度可分离卷积处理,得到第七手部特征向量;
对第七手部特征向量进行沙漏处理,得到第八手部特征向量;
对第八特征向量进行深度可分离卷积处理,得到目标手部特征向量。
在一些示例性的实施方式中,预设数量的手部关键点的二维坐标是应用卡尔曼滤波算法基于上一帧待处理图像的手部关键点的二维坐标预测得到的。
在一些示例性的实施方式中,处理器151被配置为执行:在得到手部关键点的二维坐标以后,判断待处理图像是否存在畸变,若是,则应用畸变系数对手部关键点的二维坐标进行校正;
处理器151被配置为执行:
应用校正后的手部关键点的二维坐标和双目相机内外参数确定手部关键点的三维坐标。
本发明实施例还提供一种计算机存储介质,计算机存储介质中存储有计算机程序指令,当指令在计算机上运行时,使得计算机执行上述手部定位方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种手部定位方法,其特征在于,应用于VR设备,包括:
获取所述VR设备的双目相机采集的待处理图像;
将所述待处理图像输入至手部检测网络,对所述待处理图像进行至少一次深度可分离卷积,提取所述待处理图像的初始手部特征向量;
对所述初始手部特征向量进行卷积,生成两个不同尺度的初始手部图像;
将所述初始手部图像输入至手部关键点估计网络,对所述初始手部图像进行至少一次深度可分离卷积,得到所述初始手部图像的目标手部特征向量;
对所述目标手部特征向量预测得到的手部关键点二维坐标的热力图进行可微分最大索引操作,得到手部关键点的二维坐标;
基于所述手部关键点的二维坐标和所述双目相机内外参数,确定手部关键点的三维坐标。
2.如权利要求1所述的方法,其特征在于,所述对所述待处理图像进行至少一次深度可分离卷积,提取所述待处理图像的初始手部特征向量,包括:
对所述待处理图像进行常规卷积,得到第一手部特征向量;
对所述第一手部特征向量进行深度可分离卷积,得到第二手部特征向量;
融合对所述第二手部特征向量进行最大池化后的结果,与对所述第二手部特征向量进行深度可分离卷积后的结果,得到所述待处理图像的初始手部特征向量。
3.根据权利要求2所述的方法,其特征在于,所述对所述初始手部特征向量进行卷积,生成两个不同尺度的初始手部图像,包括:
对所述初始手部特征向量进行深度可分离卷积,得到第三手部特征向量;
对所述第三手部特征向量进行上采样卷积后,与所述第二手部特征向量融合,得到第四手部特征向量;
对所述第四手部特征向量进行深度可分离卷积,得到第五手部特征向量;
分别对所述第三手部特征向量和所述第五手部特征向量进行常规卷积,得到两个不同尺度的初始手部图像。
4.根据权利要求1所述的方法,其特征在于,所述将所述通过所述初始手部图像输入至手部关键点估计网络,对所述初始手部图像进行至少一次深度可分离卷积,得到所述初始手部图像的目标手部特征向量,包括:
将所述通过所述初始手部图像输入至手部关键点估计网络,对所述初始手部图像进行常规卷积处理,得到第六手部特征向量;
对所述第六手部特征向量进行深度可分离卷积处理,得到第七手部特征向量;
对所述第七手部特征向量进行沙漏处理,得到第八手部特征向量;
对所述第八特征向量进行深度可分离卷积处理,得到目标手部特征向量。
5.根据权利要求1所述的方法,其特征在于,预设数量的所述手部关键点的二维坐标是应用卡尔曼滤波算法基于上一帧待处理图像的手部关键点的二维坐标预测得到的。
6.根据权利要求1所述的方法,其特征在于,在所述得到手部关键点的二维坐标以后,判断所述待处理图像是否存在畸变,若是,则应用畸变系数对所述手部关键点的二维坐标进行校正;
所述基于所述手部关键点的二维坐标和所述双目相机内外参数确定手部关键点的三维坐标,包括:
应用校正后的所述手部关键点的二维坐标和所述双目相机内外参数确定手部关键点的三维坐标。
7.一种VR设备,其特征在于,包括处理器、存储器以及至少一个外部通信接口,所述处理器、所述存储器以及所述外部通信接口均通过总线连接;
所述外部通信接口,被配置为接收所述VR设备的双目相机采集的待处理图像;
所述存储器中存储有计算机程序,所述处理器被配置为基于所述计算机程序执行以下操作:
将所述待处理图像输入至手部检测网络,对所述待处理图像进行至少一次深度可分离卷积,提取所述待处理图像的初始手部特征向量;
对所述初始手部特征向量进行卷积,生成两个不同尺度的初始手部图像;
将所述初始手部图像输入至手部关键点估计网络,对所述初始手部图像进行至少一次深度可分离卷积,得到所述初始手部图像的目标手部特征向量;
对所述目标手部特征向量预测得到的手部关键点二维坐标的热力图进行可微分最大索引操作,得到手部关键点的二维坐标;
基于所述手部关键点的二维坐标和所述双目相机内外参数,确定手部关键点的三维坐标。
8.如权利要求7所述的VR设备,其特征在于,所述处理器被配置为:
对所述待处理图像进行常规卷积,得到第一手部特征向量;
对所述第一手部特征向量进行深度可分离卷积,得到第二手部特征向量;
融合对所述第二手部特征向量进行最大池化后的结果,与对所述第二手部特征向量进行深度可分离卷积后的结果,得到所述待处理图像的初始手部特征向量。
9.根据权利要求8所述的VR设备,其特征在于,所述处理器还被配置为:
对所述初始手部特征向量进行深度可分离卷积,得到第三手部特征向量
对所述第三手部特征向量进行上采样卷积后,与所述第二手部特征向量融合,得到第四手部特征向量;
对所述第四手部特征向量进行深度可分离卷积,得到第五手部特征向量;
分别对所述第三手部特征向量和所述第五手部特征向量进行常规卷积,得到两个不同尺度的初始手部图像。
10.根据权利要求7所述的VR设备,其特征在于,所述处理器还被配置为:
将所述通过所述初始手部图像输入至手部关键点估计网络,对所述初始手部图像进行常规卷积处理,得到第六手部特征向量;
对所述第六手部特征向量进行深度可分离卷积处理,得到第七手部特征向量;
对所述第七手部特征向量进行沙漏处理,得到第八手部特征向量;
对所述第八特征向量进行深度可分离卷积处理,得到目标手部特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210680733.9A CN115097935A (zh) | 2022-06-15 | 2022-06-15 | 一种手部定位方法和vr设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210680733.9A CN115097935A (zh) | 2022-06-15 | 2022-06-15 | 一种手部定位方法和vr设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115097935A true CN115097935A (zh) | 2022-09-23 |
Family
ID=83290428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210680733.9A Pending CN115097935A (zh) | 2022-06-15 | 2022-06-15 | 一种手部定位方法和vr设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115097935A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117953545A (zh) * | 2024-03-27 | 2024-04-30 | 江汉大学 | 基于彩色图像的三维手部姿态估计方法、装置及处理设备 |
-
2022
- 2022-06-15 CN CN202210680733.9A patent/CN115097935A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117953545A (zh) * | 2024-03-27 | 2024-04-30 | 江汉大学 | 基于彩色图像的三维手部姿态估计方法、装置及处理设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135455B (zh) | 影像匹配方法、装置及计算机可读存储介质 | |
CN109919993B (zh) | 视差图获取方法、装置和设备及控制系统 | |
CN107329962B (zh) | 图像检索数据库生成方法、增强现实的方法及装置 | |
CN111696110B (zh) | 场景分割方法及系统 | |
CN111340922A (zh) | 定位与地图构建的方法和电子设备 | |
EP3905194A1 (en) | Pose estimation method and apparatus | |
KR20220157329A (ko) | 가변 초점 카메라의 깊이 추정 방법 | |
CN114119992B (zh) | 基于图像与点云融合的多模态三维目标检测方法及装置 | |
CN113592015B (zh) | 定位以及训练特征匹配网络的方法和装置 | |
CN112270701B (zh) | 基于分组距离网络的视差预测方法、系统及存储介质 | |
CN115097935A (zh) | 一种手部定位方法和vr设备 | |
KR20180112374A (ko) | 영상 특징점 기반의 실시간 카메라 자세 추정 방법 및 그 장치 | |
CN112509014B (zh) | 金字塔遮挡检测块匹配的鲁棒插值光流计算方法 | |
CN117173655B (zh) | 基于语义传播和跨注意力机制的多模态3d目标检测方法 | |
CN114792401A (zh) | 行为识别模型的训练方法、装置、设备及存储介质 | |
CN114820755B (zh) | 一种深度图估计方法及系统 | |
CN107341151B (zh) | 图像检索数据库生成方法、增强现实的方法及装置 | |
CN114387324A (zh) | 深度成像方法、装置、电子设备和计算机可读存储介质 | |
CN114022630A (zh) | 三维场景的重建方法、装置、设备和计算机可读存储介质 | |
CN114140497A (zh) | 目标车辆3d实时追踪方法及系统 | |
CN114022458A (zh) | 骨架检测方法、装置、电子设备和计算机可读存储介质 | |
CN112686155A (zh) | 图像识别方法、装置、计算机可读存储介质及处理器 | |
CN112184833B (zh) | 一种双目立体匹配算法的硬件实现系统和方法 | |
CN118334364B (zh) | 一种红外图像特征提取方法、装置及红外小目标跟踪方法 | |
CN117726746B (zh) | 三维人体重建方法、装置、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |