CN105528082B - 三维空间及手势识别追踪交互方法、装置和系统 - Google Patents

三维空间及手势识别追踪交互方法、装置和系统 Download PDF

Info

Publication number
CN105528082B
CN105528082B CN201610012018.2A CN201610012018A CN105528082B CN 105528082 B CN105528082 B CN 105528082B CN 201610012018 A CN201610012018 A CN 201610012018A CN 105528082 B CN105528082 B CN 105528082B
Authority
CN
China
Prior art keywords
scene
data
transformation matrix
dimensional
point cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610012018.2A
Other languages
English (en)
Other versions
CN105528082A (zh
Inventor
古鉴
王雷
方维
伊威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Storm Mirror Technology Co Ltd
Original Assignee
Beijing Storm Mirror Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Storm Mirror Technology Co Ltd filed Critical Beijing Storm Mirror Technology Co Ltd
Priority to CN201610012018.2A priority Critical patent/CN105528082B/zh
Publication of CN105528082A publication Critical patent/CN105528082A/zh
Application granted granted Critical
Publication of CN105528082B publication Critical patent/CN105528082B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • G06T3/14
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Abstract

本发明公开了一种三维空间及手势识别追踪交互方法、装置和系统,属于增强现实领域,该方法包括:采集现实场景的原始二维图像数据;根据原始二维图像数据生成深度图像,根据深度图像生成三维点云数据;提取原始二维图像数据的特征点数据,并进行特征点的匹配,得到匹配后的数据,特征点的匹配后的数据包括不同视点下的2.5D点云数据和稀疏三维点云,稀疏三维点云对应于二维图像上的特征描述子;将特征点的匹配后的数据与三维点云数据进行场景配准,得到现实场景对应虚拟场景的变换矩阵;将虚拟物体与现实场景对应虚拟场景的变换矩阵进行叠加。本发明能够在移动终端上对场景进行识别、跟踪,给予用户良好增强现实应用体验,且内容丰富,操作简单。

Description

三维空间及手势识别追踪交互方法、装置和系统
技术领域
本发明涉及增强现实领域,特别是指一种基于双目摄像头的三维空间及手势识别追踪交互方法、装置和系统。
背景技术
增强现实(AR)是通过信息技术,将虚拟的信息应用到真实世界,真实的环境和虚拟的物体实时地叠加到了同一个画面或在同一空间同时存在。增强现实技术将动态的、背景专门化的信息加在用户的视觉域之上,它借助计算机图形图像与可视化技术产生虚拟对象,并通过传感技术将它们准确地“放置”于真实环境中,使之借助显示设备与真实环境融为一体。
增强现实具有以下特点:一是有一个输入设备:增强现实的系统必须有一个图像输入设备,它可以获取真实世界的图像。现在普遍采用的是摄像头,包括单目摄像头,双目摄像头,深度摄像头等。二是识别追踪算法:追踪算法的作用是可以把虚拟物体和真实摄像头图像实现无缝的叠加,使得人们可以感觉一个虚拟的物体就在真实世界里面。追踪算法是增强现实最核心的部分。三是实时交互:它使交互从精确的位置扩展到整个环境,从简单的人面对屏幕交流发展到将自己融合于周围的空间与对象中。运用信息系统不再是自觉而有意的独立行动,而是和人们的当前活动自然而然地成为一体。交互性系统不再是具备明确的位置,而是扩展到整个环境。
传统的增强现实应用一般是通过台式电脑(PC)来实现人机交互。这种交互方式适用于相对固定的环境。移动设备在生活中应用日益广泛,在移动设备应用环境中使用PC交互不是很方便,移动设备提供了触控、摇动、语音、图像输入等多种交互手段。因此把移动设备的交互手段和增强现实应用结合不仅能给用户带来更好的交互体验,同时也可以让增强现实得到更广泛的应用。现在的移动设备可以包括:手机,增强现实眼镜,虚拟现实头盔。
发明内容
本发明提供一种三维空间及手势识别追踪交互方法、装置和系统,本发明能够在移动终端上对场景进行识别、跟踪,给予用户良好增强现实应用体验,且内容丰富,操作简单。
为解决上述技术问题,本发明提供技术方案如下:
一方面,提供一种三维空间及手势识别追踪交互方法,包括如下步骤:
采集现实场景的原始二维图像数据;
在移动端,根据所述原始二维图像数据生成深度图像,进而根据所述深度图像生成三维点云数据;
在移动端,提取所述原始二维图像数据的特征点数据,并进行特征点的匹配,得到特征点的匹配后的数据,所述特征点的匹配后的数据包括不同视点下的2.5D点云数据和稀疏三维点云,所述稀疏三维点云对应于二维图像上的特征描述子;
在移动端,将特征点的匹配后的数据与三维点云数据进行场景配准,得到现实场景对应虚拟场景的变换矩阵;
在移动端,将虚拟物体与所述现实场景对应虚拟场景的变换矩阵进行叠加。
进一步的,还包括如下步骤:
将特征点匹配后的数据传输到服务器,服务器根据所述特征描述子进行匹配,若在与服务器连接的数据库中找到已存的虚拟场景的变换矩阵,则将所找到已存的虚拟场景的变换矩阵返回,替代上述将特征点的匹配后的数据与三维点云数据进行场景配准所得到的虚拟场景的变换矩阵;若没有找到,则将特征描述子和三维点云数据上传至服务器,服务器进行高精度配准计算,生成高精度的现实场景对应虚拟场景的变换矩阵,并存入数据库。
进一步的,还包括如下步骤:
根据所述原始二维图像数据获取手指的坐标;
根据预先给予的手指坐标和从原始二维图像数据获取的手指坐标计算出手势变换矩阵。
进一步的,还包括如下步骤:对虚拟物体与现实场景对应虚拟场景的变换矩阵,以及手势变换矩阵进行叠加。
另一方面,提供一种三维空间及手势识别追踪交互装置,包括:
深度数据采集模块,用于根据所述原始二维图像数据生成深度图像,进而根据所述深度图像生成三维点云数据;
特征点匹配模块,用于提取所述原始二维图像数据的特征点数据,并进行特征点的匹配,得到特征点的匹配后的数据,所述特征点的匹配后的数据包括不同视点下的2.5D点云数据和稀疏三维点云,所述稀疏三维点云对应于二维图像上的特征描述子;
虚拟场景配准模块,用于将特征点的匹配后的数据与三维点云数据进行场景配准,得到现实场景对应虚拟场景的变换矩阵;
虚拟场景叠加模块,用于将虚拟物体与所述现实场景对应虚拟场景的变换矩阵进行叠加。
进一步的,还包括:
数据传输模块,用于将特征点匹配后的数据传输到服务器,使得服务器根据所述特征描述子进行匹配,若在与服务器连接的数据库中找到已存的虚拟场景的变换矩阵,则将所找到已存的虚拟场景的变换矩阵返回,替代上述将特征点的匹配后的数据与三维点云数据进行场景配准所得到的虚拟场景的变换矩阵;若没有找到,则将特征描述子和三维点云数据上传至服务器,服务器进行高精度配准计算,生成高精度的现实场景对应虚拟场景的变换矩阵,并存入数据库。
进一步的,还包括:
手指坐标获取模块,用于根据所述原始二维图像数据获取手指的坐标;
手势变换矩阵计算模块,用于根据预先给予的手指坐标和从原始二维图像数据获取的手指坐标计算出手势变换矩阵。
进一步的,所述虚拟场景叠加模块还用于:
对虚拟物体与现实场景对应虚拟场景的变换矩阵,以及手势变换矩阵进行叠加。
在一方面,提供一种三维空间及手势识别追踪交互系统,包括双目的图像采集设备和上述任一的三维空间及手势识别追踪交互装置,所述双目的图像采集设备用于采集现实场景的原始二维图像数据。
进一步的,还包括服务器,所述服务器用于:
接收所述三维空间及手势识别追踪交互装置传输的特征点匹配后的数据,根据所述特征描述子进行匹配,若在与服务器连接的数据库中找到已存的虚拟场景的变换矩阵,则将所找到已存的虚拟场景的变换矩阵返回,替代上述将特征点的匹配后的数据与三维点云数据进行场景配准所得到的虚拟场景的变换矩阵;若没有找到,则将特征描述子和三维点云数据上传至服务器,服务器进行高精度配准计算,生成高精度的现实场景对应虚拟场景的变换矩阵,并存入数据库。
本发明具有以下有益效果:
与现有技术相比,本发明的三维空间及手势识别追踪交互方法能够在移动终端上对场景(尤其是室内场景)进行识别、跟踪,给予用户良好增强现实应用体验,且内容丰富,操作简单。
附图说明
图1为本发明的三维空间及手势识别追踪交互方法的一个实施例的流程图;
图2为本发明的三维空间及手势识别追踪交互装置的一个实施例的示意图;
图3为本发明的图像采集设备的一个实施例的示意图;
图4为本发明的三维空间及手势识别追踪交互方法的优选实施例的流程图;
图5为本发明中的室内小范围环境示意图;
图6为本发明中的室内大范围环境示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提供一种三维空间及手势识别追踪交互方法,如图1所示,包括:
步骤101:采集现实场景的原始二维图像数据。并发送给移动端;图像采集设备一般为双目摄像头、TOF摄像头或深度摄像头等。
具体的,以双目摄像头为例。从双目摄像头硬件设备获取对应的摄像头图像,包括左侧摄像头图像,右侧摄像头图像。
步骤102:在移动端,根据原始二维图像数据生成深度图像,进而根据深度图像生成三维点云数据。
根据原始二维图像数据生成深度图像,深度图像为一张8位深度的位图,以每个像素的灰度值来描述该像素下的点到摄像头的距离。
步骤103:在移动端,提取原始二维图像数据的特征点数据,并进行特征点的匹配,得到特征点的匹配后的数据,特征点的匹配后的数据包括不同视点下的2.5D点云数据和稀疏三维点云,稀疏三维点云对应于二维图像上的特征描述子。
步骤104:在移动端,将特征点的匹配后的数据与三维点云数据进行场景配准,得到现实场景对应虚拟场景的变换矩阵。
步骤105:在移动端,将虚拟物体与现实场景对应虚拟场景的变换矩阵进行叠加,并显示等。
虚拟物体可以是事先已经得到的虚拟数据,也可以是实时生成的游戏画面,图像、视频等。
本发明实施例的三维空间及手势识别追踪交互方法能够在移动终端上对场景(尤其是室内场景)进行识别、跟踪,给予用户良好增强现实应用体验,且内容丰富,操作简单。
作为本发明实施例的三维空间及手势识别追踪交互方法的一种改进,还包括如下步骤:
将特征点匹配后的数据传输到服务器,服务器根据特征描述子进行匹配,若在与服务器连接的数据库中找到已存的虚拟场景的变换矩阵,则将所找到已存的虚拟场景的变换矩阵返回,替代上述将特征点的匹配后的数据与三维点云数据进行场景配准所得到的虚拟场景的变换矩阵;若没有找到,则将特征描述子和三维点云数据上传至服务器,服务器进行高精度配准计算,生成高精度的现实场景对应虚拟场景的变换矩阵,并存入数据库。
因服务器具有更强大的计算能力,能更高效的实现大规模矩阵运算,因此该三维场景跟踪数据使用服务器进行精配准计算,主要用稀疏三维点云及其对应描述子,获取2.5D点云间转换矩阵的精确值,实现三维场景的融合,以保证被测三维场景的高精度再现。
服务器可以是单独的服务器,也可以是集成在移动端的服务器模块。
更进一步的,还包括如下步骤:
根据原始二维图像数据获取手指的坐标;
根据预先给予的手指坐标和从原始二维图像数据获取的手指坐标计算出手势变换矩阵。
如果调用了手掌追踪模块,取出手掌对应的摄像头姿态,然后和场景取出的摄像头姿态进行融合,最后最后形成一个姿态信息。也就是两个坐标系进行整合,得到一个坐标系,这样才能在建立虚拟物体从手掌到小范围或大范围场景的准确切换。
此时,还包括如下步骤:对虚拟物体与现实场景对应虚拟场景的变换矩阵,以及手势变换矩阵进行叠加。
获取相机姿态矩阵实现虚拟场景和现实场景的叠加,最终结果进行渲染,根据手势互动的结果,更新渲染结果。
另一方面,本发明实施例提供一种三维空间及手势识别追踪交互装置,如图2所示,包括:
深度数据采集模块11,用于根据原始二维图像数据生成深度图像,进而根据深度图像生成三维点云数据;
特征点匹配模块12,用于提取原始二维图像数据的特征点数据,并进行特征点的匹配,得到特征点的匹配后的数据,特征点的匹配后的数据包括不同视点下的2.5D点云数据和稀疏三维点云,稀疏三维点云对应于二维图像上的特征描述子;
虚拟场景配准模块13,用于将特征点的匹配后的数据与三维点云数据进行场景配准,得到现实场景对应虚拟场景的变换矩阵;
虚拟场景叠加模块14,用于将虚拟物体与现实场景对应虚拟场景的变换矩阵进行叠加。
本发明实施例的三维空间及手势识别追踪交互装置能够在移动终端上对场景(尤其是室内场景)进行识别、跟踪,给予用户良好增强现实应用体验,且内容丰富,操作简单。
作为本发明实施例的三维空间及手势识别追踪交互装置的一种改进,还包括
数据传输模块,用于将特征点匹配后的数据传输到服务器,使得服务器根据特征描述子进行匹配,若在与服务器连接的数据库中找到已存的虚拟场景的变换矩阵,则将所找到已存的虚拟场景的变换矩阵返回,替代上述将特征点的匹配后的数据与三维点云数据进行场景配准所得到的虚拟场景的变换矩阵;若没有找到,则将特征描述子和三维点云数据上传至服务器,服务器进行高精度配准计算,生成高精度的现实场景对应虚拟场景的变换矩阵,并存入数据库。
更进一步的,还包括:
手指坐标获取模块,用于根据原始二维图像数据获取手指的坐标;
手势变换矩阵计算模块,用于根据预先给予的手指坐标和从原始二维图像数据获取的手指坐标计算出手势变换矩阵。
此时,虚拟场景叠加模块还用于:
对虚拟物体与现实场景对应虚拟场景的变换矩阵,以及手势变换矩阵进行叠加。
再一方面,本发明实施例提供一种三维空间及手势识别追踪交互系统,包括双目的图像采集设备和上述任一的三维空间及手势识别追踪交互装置,双目的图像采集设备用于采集现实场景的原始二维图像数据。
作为本发明实施例的三维空间及手势识别追踪交互系统德一种改进,还包括服务器,服务器用于:
接收三维空间及手势识别追踪交互装置传输的特征点匹配后的数据,根据特征描述子进行匹配,若在与服务器连接的数据库中找到已存的虚拟场景的变换矩阵,则将所找到已存的虚拟场景的变换矩阵返回,替代上述将特征点的匹配后的数据与三维点云数据进行场景配准所得到的虚拟场景的变换矩阵;若没有找到,则将特征描述子和三维点云数据上传至服务器,服务器进行高精度配准计算,生成高精度的现实场景对应虚拟场景的变换矩阵,并存入数据库。
下面以一个优选的实施例对本发明进行阐述:
本发明实施例的主要技术内容在于:
图3系本发明实施例的硬件设备组成,在该实施方案中,该系统设备可包括:
双目摄像头模组,它包括:
右眼摄像头,右眼摄像头用于采集用户右侧图像信息。
左眼摄像头,左眼摄像头用于采集用户左侧图像信息
深度数据采集模块,用来与上述双目摄像头连接,该模块能实时处理左右摄像机采集的图像,并自动生成深度图像及三维点云数据;
输出连接设备,把数据处理模块通讯连接,用于获取手势三维信息,并进行实时信息传输到移动设备。
图4系本发明实施例的软件组成,以下仅以基于双目摄像头的三维空间及手势识别追踪交互系统为例对本发明进行增强现实的过程做简要说明:
001.双目摄像头采集图像。
002.用户进入程序后,会先进入一个选择界面,这个界面上提供两个选项:
室内小范围场景是室内大范围场景,根据用户的选择程序会采取不同的跟踪方式。
003.用户扫描三维场景,得到不同视点下2.5D点云,及其的稀疏三维点云对应于二维图像上的特征描述子,把这些数据以文件的形式上传到服务器(服务器加数据库的模式)。
004.服务器对比该三维场景跟踪数据所对应的数据文件是否存在。对比的是稀疏三维点间的对应描述子。
005.若该描述子在场景数据库中已存在,则取出该描述子对应的三维场景数据。
006.若该描述子在场景数据库中不存在,则存储该描述子及其对应的三维场景信息。
007.因服务器具有更强大的计算能力,能更高效的实现大规模矩阵运算,因此该三维场景跟踪数据使用服务器进行精配准计算。主要用稀疏三维点云及其对应描述子,获取2.5D点云间转换矩阵的精确值,实现三维场景的融合,以保证被测三维场景的高精度再现。
008.使用从005取出的三维场景数据,开始计算小范围的场景变换矩阵(002中如果用户选择了小范围场景)。
009.使用从005取出的三维场景数据,结合更新的场景,开始计算大范围的场景变换矩阵(002中如果用户选择了大范围场景)。
010.得到三维场景数据(一系列相机姿态矩阵,该姿态下对应的三维场景点云信息。同时连接服务器时,该三维场景信息及其对应的特征描述子更新到服务器。
011.是否调用了手掌追踪模块。如果不需要手掌追踪,直接使用从011获取相机姿态矩阵实现虚拟场景和现实场景的叠加。
012.如果调用了手掌追踪模块,取出手掌对应的摄像头姿态,然后和小范围或大范围场景取出的摄像头姿态进行融合,最后最后形成一个姿态信息。也就是两个坐标系进行整合,得到一个坐标系,这样才能在建立虚拟物体从手掌到小范围或大范围场景的准确切换。
013.利用012得到的虚拟场景的坐标系矩阵,实现虚拟场景和现实场景的叠加;(虚拟场景由游戏制作人员制作,真实场景即为摄像头获取的图像;)。
0014.获取相机姿态矩阵实现虚拟场景和现实场景的叠加,最终结果进行渲染,根据手势互动的结果,更新渲染结果。
0015.计算获得的手掌变换矩阵,用于手势交互模块的计算。
以下仅以基于双目摄像头的三维空间及手势识别追踪交互系统为例对本发明进行增强现实的过程做详细说明:
步骤001提到的双目摄像头采集图像,即从双目摄像头硬件设备获取对应的摄像头图像,包括左侧摄像头图像,右侧摄像头图像和从芯片(芯片的作用计算两个图像通过视差得到的深度图像)获取的深度图像,深度图像为一张8位深度的位图,以每个像素的灰度值来描述该像素下的点到摄像头的距离。
步骤002中用户需要选择两种场景中的某一个开启跟踪,室内小范围跟踪环境,或者室内大范围跟踪环境。室内小范围跟踪的方式,指室内一个相对较小(2-4平方米)的空间,包括屋里的一个角落,一个桌面,茶几,饭桌等。室内大范围跟踪环境指室内一个相对较大(10-30平方米)的空间,包括一个房间,或几个房间组成的环境。如图5和图6所示,虚线为虚拟物体。图5室内小范围跟踪环境,图6室内大范围跟踪环境.
步骤003-007是指用户利用双目视觉系统,扫描并重建三维场景信息。具体是在扫描三维场景时,得到不同视点下的三维点云数据,以及其二维图像和2.5D场景信息间的对应关系。同时将该2.5D场景信息和特征描述子上传至服务器,并与服务器中已有的数据库进行比对。若该场景信息已经存在于服务器中,则直接下载该场景信息,并将该2.5D场景信息与服务器中的3D场景进行高精度配准,实时计算得到该时刻下摄像头在场景中对应的位置;若服务器上不完全存在该视点下的2.5D场景信息,则需要将该视点下获取的2.5D场景与服务器上已有的3D场景进行配准。具体实现过程是将该视点下获取的2.5D场景信息和对应的描述子上传至服务器,根据特征描述子在已有3D场景中寻找匹配点并实现配准,同时拓展数据库中已有的场景信息,并得到该时刻下摄像头的位置。整个与服务器连接交互的过程,主要目的是利用服务器高性能的计算能力,通过数据的实时交互传输,实现大规模的配准优化计算,以保证快速、高效、稳定的跟踪。
增强现实的难度就是如何把现实世界和虚拟世界进行完美的叠加,让你感觉到真实和虚拟同时的存在。识别追踪算法是增强现实里面最重要的部分,也是区别虚拟现实的核心。追踪算法的原理是当摄像头识别到该图片,即能通过图像在画面中的畸变、姿态等信息计算出相应的矩阵。用于对虚拟物体的定位。现在的追踪算法包括:2D图像识别,3D物体识别,室内追踪,室外追踪,手掌追踪等。这些都是增强现实识别追踪算法的组成部分。我们的追踪算法主要基于室内追踪SLAM算法。SLAM(simultaneous localization andmapping),即时定位与地图构建。它最早是指机器人在未知的环境中,从一个位置开始移动,在移动过程中根据位置估计和传感器数据进行自身定位,同时构建未知环境地图的过程。其主要可分为定位和建图两个部分。增强现实把SLAM和视觉结合,让虚拟物体可以实时的在房间里面的任意一个位置,而且非常精准。我们的算法在已有的算法上进行了改进,主要体现在两点:1、传感器参数标定方面,充分实现并应用Visual+IMU的融合技术。传统基于RGB_Camera的SLAM技术,对于光照变化、弱纹理、动态场景等情况鲁棒性较差,为此,我们提出了结合IMU的定位技术,通过对IMU的准确矫正,减少了整体的误差漂移,并通过对IMU和Camera的整体标定,很大程度上克服了传统基于视觉建图和定位失败的问题。2、实现基于移动端的实时SLAM技术。当前的RGB_SLAM由于运算量较大的原因,传统的SLAM技术几乎都是只能在PC机上运行实时运行,我们通过将定位和建图过程分配在不同的线程中运行,并执行相应的优化加速策略,最终实现其在Andorid系统上实时的SLAM。
步骤008-010是增强现实室内场景追踪的核心部分。通过摄像头获取的左图像,右图像和深度图像,结合起来,以实现场景的快速鲁棒的重建。其基本的技术方案如下:
1、在某一视点下,用双目视觉系统获取场景的深度图,结合已知的相机参数,可将深度图中的各像素转化为对应的2.5D点云图,该2.5D点云图一般具有较大的噪声。
2、对双目视觉系统同时获取的两幅二维图像进行特征检测,该特征检测一般具有较高的定位精度,根据左右图像的特征点位置,结合相机参数可以得到高精度的稀疏三维点坐标。
3、建立高精度基于特征的稀疏三维点和粗糙基于深度图2.5D点云间的关联。
4、当双目立体相机位置变换至下一视点时,根据不同视点下二维图像间的特征匹配,进而得到稀疏三维点间的对应关系,从而实现不同视点稀疏三维点的配准。
5、根据不同视点下稀疏三维点间的变换关系,结合稀疏三维点和2.5D点云间的关联,实现被测场景稠密的配准。依次类推,即可得到被测场景完整的三维点云。
虽然不同场景对应的技术路线大体相同,但由于具体应用目标的不同,使得其在具体实施方案的要求上却不大相同:
对于小范围的场景重建,如桌面、墙角等。该情况下数据量相对较小,一般具有较好的实时性和相对稳定的特征描述子。但其小范围的尺度决定了其对场景重建误差的高度敏感,且其一般需要利用重建的三维场景信息,拟合平面等实体形状,并基于该拟合实体进行二次应用开发,因此在具体优化调整上,需要使用更为严格的约束阈值,如为实现桌面的在空间的准确拟合,可以对定位过程中的特征数目和IMU标定误差赋予更苛刻的参数要求,以保障小空间的定位重建精度。
对于大范围的场景重建,如开阔的房间等。该情况下的场景信息具有更多的不可预测性,如光照变换,场景动态变化等,都会很大程度上影响该技术方案的顺利进行,因此在大范围的场景重建中,需更加侧重于场景三维重建和配准的稳定性,而对于精度的要求是相对次要的因素。因此,可以在图像间定位的特征数目阈值上进行适当的放松,并通过后续的整体优化策略实现定位的连续稳定。
步骤012提到的手掌追踪的实现方法:从摄像头获得对应的二维图像上使用离线训练好的级联分类器进行相应手势的识别,从而定位出手掌的区域。然后在手掌区域内使用大津阈值自适应分割算法,提取出手掌的二值掩膜图。基于掩膜图,找到手掌的轮廓。使用距离变换的方法,找到手掌轮廓内距离轮廓边缘半径最大的点,作为手掌的质心。紧接着,沿着轮廓线,采用曲率最大的方法,将包络五个手指指尖的候选点提取出来。从而拟合出一个椭圆,根据椭圆长短轴的位置和方向,确定候选的指尖点的位置。最终指尖点的确定如下,通过比较包络指尖点的位置和方向的平均值得到的点,与拟合椭圆长短轴边上的点。如果拟合椭圆算出的点与平局值算出的点距离差别较大,就采用平局值算出的点;否则使用椭圆拟合算出的点。同时为了进一步确定五个指尖的点,将候选的点与手掌质心作比较,根据它们的相对位置,从而排除手掌以下的候选点。接着,对于手指指尖的五个点,按照坐标位置的进行排序,并通过大拇指距离质心距离最远的特性确定大拇指的顺序,从而确定手掌是正面还是反面。
第一帧检测到五个手指后,后续帧同样采用距离变换和曲率最大的方式找到候选的手指点和手掌质心。然后采用像素距离最近的方法将当前候选点与之前的指尖点进行匹配,从而跟踪得到当前对应排序的手指点。
在确定了当前帧五个手指的二维图像点坐标之后,就开始计算摄像机的姿态。计算姿态之前,预先给予五个手指指尖对应的物理坐标中的参考位置,并采用标定的方式获取相机内参和矫正参数。通过二维图像上匹配的五个手指点,和五个手指实际物理中的坐标点,采用张正友摄像机外参计算的方式计算出手指的姿态,包括平移和旋转矩阵。为了防止噪声干扰,对计算出来的平移和旋转矩阵使用了kalman滤波对其进行平滑。在此之后,每帧平移和旋转矩阵的数据都利用了前八帧的数据进行平均,从而最终确定平移和旋转矩阵的大小,保证了计算出来的姿态的平滑和稳定性。
步骤013提到的场景信息融合模块:综合得到的三种矩阵变换信息(由于用户每次只能在小范围与大范围空间跟踪中二选其一,所以在程序实际运行时,加上手势的矩阵,只有2种矩阵信息),则可以用来对虚拟物体与现实场景进行叠加,叠加的具体实现方式是在三维场景世界坐标系下,结合三维场景和相机间的变换矩阵,以及相机和手势间的变换矩阵,共同实现三维场景、相机和手势坐标系的统一,然后将其与虚拟场景之间进行矩阵变换,最终实现虚实场景的完美统一。如下面描述的那样:一个虚拟场景首先出现在手掌中,此时它使用了手势的矩阵进行叠加处理,当另一只手点击一下该虚拟场景,它会掉落到桌面,此时它使用了室内小范围桌面矩阵进行叠加。
步骤014提到的虚拟场景叠加模块:增强现实的核心功能之一就是将虚拟场景准确、合适的放置在真实场景中。比如,将一个虚拟的茶壶放置在真实的桌面上。虚拟的茶壶若想看起来“就在真实的桌面上”,需要令茶壶的矩阵信息与我们在之前步骤得到的“平面矩阵信息”保持一致。这种一致通常只需要简单的矩阵乘法来实现。当获取到从010或013得到的矩阵,我们就可以通过游戏引擎渲染的方式把虚拟物体渲染到真实场景中。
几乎所有的游戏引擎,采用opengl或者directX进行渲染部分的编程。无论哪种渲染方式,大体的流程是没有区别的。最终的片段颜色与一系列的矩阵乘法相关:顶点坐标与MVP矩阵相乘,即能得到最终位于显示器平面上的坐标。由于之前的010或013步骤会导致M矩阵发生变化,因此最终的渲染,会将虚拟模型的顶点坐标发生变换,看起来,像是在计算获得的平面矩阵之上。
015提到的手势交互模块:手势交互模块的主要任务之一就是确定矩阵的变化,用以满足游戏逻辑。
下面的场景描述了手势交互模块的工作方式:
天空飞行着一只蝴蝶(蝴蝶为虚拟对象,此时蝴蝶使用了一个世界的全局矩阵,该矩阵为默认),当用户将手掌摊开时,手势交互模块会发出消息,“通知”蝴蝶落到手掌中,会跟随手掌移动,蝴蝶此时将使用手势矩阵进行叠加处理。当另一只手试图使用“捏拿操作”捉住蝴蝶时,手势交互模块会发出消息,“通知”蝴蝶飞走,脱离手掌控制(蝴蝶回到默认矩阵)。
手势事件包括但不仅限于:
捏拿操作:通过食指和大拇指合拢动作对空间中虚拟物体进行拿捏操作。
释放操作:通过由食指和大拇指合拢状态到食指和大拇指分开动作可将拿起的虚拟物体释放到当前位置。
拖拽操作:通过食指按下并保持按住动作向其他位置移动可将空间中虚拟物体进行拖拽操作。
点击操作:通过手指按下并弹起动作可将空间中虚拟物体进行点击操作。
小范围来回移动:通过手指按下,并在小范围来回运动,模拟一种摩擦,擦拭的操作。
五指张开:通过手掌五指张开动作,可将虚拟按钮置于五根手指肚,或者手掌中心,并可跟随五指移动和旋转。
五指张开并旋转:通过手掌的手背面向摄像头五指张开并旋转,可将空间中虚拟物体进行旋转操作。通常这可以用来操作一些需要旋转打开的门。
握拳:大多数情况下,可以用来描述抓握操作,如天空有一只蝴蝶时,可通过该握拳操作将蝴蝶抓住。在手掌摊开时,蝴蝶出现,再握拳时,蝴蝶消失。
在虚拟对象与真实场景进行合理的叠加操作之后。我们将进行渲染并输出。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种三维空间及手势识别追踪交互方法,其特征在于,包括如下步骤:
采集现实场景的原始二维图像数据;
在移动端,根据所述原始二维图像数据生成深度图像,进而根据所述深度图像生成三维点云数据;
在移动端,提取所述原始二维图像数据的特征点数据,并进行特征点的匹配,得到特征点的匹配后的数据,所述特征点的匹配后的数据包括不同视点下的2.5D点云数据和稀疏三维点云,所述稀疏三维点云对应于二维图像上的特征描述子;
在移动端,将特征点的匹配后的数据与三维点云数据进行场景配准,得到现实场景对应虚拟场景的变换矩阵;
在移动端,将虚拟物体与所述现实场景对应虚拟场景的变换矩阵进行叠加;
还包括如下步骤:
将特征点的匹配后的数据传输到服务器,服务器根据所述特征描述子进行匹配,若在与服务器连接的数据库中找到已存的虚拟场景的变换矩阵,则将所找到已存的虚拟场景的变换矩阵返回,替代上述将特征点的匹配后的数据与三维点云数据进行场景配准所得到的虚拟场景的变换矩阵;若没有找到,则将特征描述子和三维点云数据上传至服务器,服务器进行高精度配准计算,生成高精度的现实场景对应虚拟场景的变换矩阵,并存入数据库。
2.根据权利要求1所述的三维空间及手势识别追踪交互方法,其特征在于,还包括如下步骤:
根据所述原始二维图像数据获取手指的坐标;
根据预先给予的手指坐标和从原始二维图像数据获取的手指坐标计算出手势变换矩阵。
3.根据权利要求2所述的三维空间及手势识别追踪交互方法,其特征在于,还包括如下步骤:对虚拟物体与现实场景对应虚拟场景的变换矩阵,以及手势变换矩阵进行叠加。
4.一种三维空间及手势识别追踪交互装置,其特征在于,包括:
深度数据采集模块,用于根据原始二维图像数据生成深度图像,进而根据所述深度图像生成三维点云数据;
特征点匹配模块,用于提取所述原始二维图像数据的特征点数据,并进行特征点的匹配,得到特征点的匹配后的数据,所述特征点的匹配后的数据包括不同视点下的2.5D点云数据和稀疏三维点云,所述稀疏三维点云对应于二维图像上的特征描述子;
虚拟场景配准模块,用于将特征点的匹配后的数据与三维点云数据进行场景配准,得到现实场景对应虚拟场景的变换矩阵;
虚拟场景叠加模块,用于将虚拟物体与所述现实场景对应虚拟场景的变换矩阵进行叠加;
还包括:
数据传输模块,用于将特征点的匹配后的数据传输到服务器,使得服务器根据所述特征描述子进行匹配,若在与服务器连接的数据库中找到已存的虚拟场景的变换矩阵,则将所找到已存的虚拟场景的变换矩阵返回,替代上述将特征点的匹配后的数据与三维点云数据进行场景配准所得到的虚拟场景的变换矩阵;若没有找到,则将特征描述子和三维点云数据上传至服务器,服务器进行高精度配准计算,生成高精度的现实场景对应虚拟场景的变换矩阵,并存入数据库。
5.根据权利要求4所述的三维空间及手势识别追踪交互装置,其特征在于,还包括:
手指坐标获取模块,用于根据所述原始二维图像数据获取手指的坐标;
手势变换矩阵计算模块,用于根据预先给予的手指坐标和从原始二维图像数据获取的手指坐标计算出手势变换矩阵。
6.根据权利要求5所述的三维空间及手势识别追踪交互装置,其特征在于,所述虚拟场景叠加模块还用于:
对虚拟物体与现实场景对应虚拟场景的变换矩阵,以及手势变换矩阵进行叠加。
7.一种三维空间及手势识别追踪交互系统,其特征在于,包括双目的图像采集设备和权利要求4-6任一所述的三维空间及手势识别追踪交互装置,所述双目的图像采集设备用于采集现实场景的原始二维图像数据。
8.根据权利要求7所述的三维空间及手势识别追踪交互系统,其特征在于,还包括服务器,所述服务器用于:
接收所述三维空间及手势识别追踪交互装置传输的特征点的匹配后的数据,根据所述特征描述子进行匹配,若在与服务器连接的数据库中找到已存的虚拟场景的变换矩阵,则将所找到已存的虚拟场景的变换矩阵返回,替代上述将特征点的匹配后的数据与三维点云数据进行场景配准所得到的虚拟场景的变换矩阵;若没有找到,则将特征描述子和三维点云数据上传至服务器,服务器进行高精度配准计算,生成高精度的现实场景对应虚拟场景的变换矩阵,并存入数据库。
CN201610012018.2A 2016-01-08 2016-01-08 三维空间及手势识别追踪交互方法、装置和系统 Expired - Fee Related CN105528082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610012018.2A CN105528082B (zh) 2016-01-08 2016-01-08 三维空间及手势识别追踪交互方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610012018.2A CN105528082B (zh) 2016-01-08 2016-01-08 三维空间及手势识别追踪交互方法、装置和系统

Publications (2)

Publication Number Publication Date
CN105528082A CN105528082A (zh) 2016-04-27
CN105528082B true CN105528082B (zh) 2018-11-06

Family

ID=55770355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610012018.2A Expired - Fee Related CN105528082B (zh) 2016-01-08 2016-01-08 三维空间及手势识别追踪交互方法、装置和系统

Country Status (1)

Country Link
CN (1) CN105528082B (zh)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105939481A (zh) * 2016-05-12 2016-09-14 深圳市望尘科技有限公司 一种交互式三维虚拟现实视频节目录播和直播方法
CN106125938B (zh) * 2016-07-01 2021-10-22 联想(北京)有限公司 一种信息处理方法及电子设备
CN107798702B (zh) * 2016-08-30 2021-04-30 成都理想境界科技有限公司 一种用于增强现实的实时图像叠加方法以及装置
CN106909875B (zh) * 2016-09-12 2020-04-10 湖南拓视觉信息技术有限公司 人脸脸型分类方法和系统
US10332317B2 (en) * 2016-10-25 2019-06-25 Microsoft Technology Licensing, Llc Virtual reality and cross-device experiences
CN109710559A (zh) * 2016-11-03 2019-05-03 北京中科寒武纪科技有限公司 Slam运算装置和方法
CN106873768B (zh) * 2016-12-30 2020-05-05 中兴通讯股份有限公司 一种增强现实方法、装置及系统
US10659768B2 (en) * 2017-02-28 2020-05-19 Mitsubishi Electric Research Laboratories, Inc. System and method for virtually-augmented visual simultaneous localization and mapping
WO2018170678A1 (zh) * 2017-03-20 2018-09-27 廖建强 一种头戴式显示装置及其手势动作识别方法
CN108629843B (zh) * 2017-03-24 2021-07-13 成都理想境界科技有限公司 一种实现增强现实的方法及设备
CN107168516B (zh) * 2017-03-31 2019-10-11 浙江工业大学 基于vr及手势交互技术的全球气候矢量场数据可视化方法
CN109099888A (zh) * 2017-06-21 2018-12-28 中兴通讯股份有限公司 一种位姿测量方法、设备及存储介质
EP3418976A1 (en) * 2017-06-22 2018-12-26 Thomson Licensing Methods and devices for encoding and reconstructing a point cloud
CN107357424B (zh) * 2017-06-29 2021-05-18 联想(北京)有限公司 一种手势操作的识别方法、设备及计算机可读存储介质
WO2019006760A1 (zh) * 2017-07-07 2019-01-10 深圳市大疆创新科技有限公司 一种姿态的识别方法、设备及可移动平台
CN107358215B (zh) * 2017-07-20 2020-10-09 重庆工商大学 一种应用于手饰增强现实系统的图像处理方法
CN107563333A (zh) * 2017-09-05 2018-01-09 广州大学 一种基于测距辅助的双目视觉手势识别方法和装置
CN107992820B (zh) * 2017-11-29 2021-08-03 北京伟景智能科技有限公司 基于双目视觉的货柜自助售货方法
CN108430032B (zh) * 2017-12-08 2020-11-17 深圳新易乘科技有限公司 一种实现vr/ar设备位置共享的方法及设备
CN108171790B (zh) * 2017-12-25 2019-02-15 北京航空航天大学 一种基于字典学习的目标重建方法
US10719124B2 (en) * 2018-02-07 2020-07-21 Htc Corporation Tracking system, tracking method for real-time rendering an image and non-transitory computer-readable medium
CN108447116A (zh) * 2018-02-13 2018-08-24 中国传媒大学 基于视觉slam的三维场景重建方法和装置
CN109636916B (zh) * 2018-07-17 2022-12-02 北京理工大学 一种动态标定的大范围虚拟现实漫游系统及方法
CN109461203B (zh) * 2018-09-17 2020-09-29 百度在线网络技术(北京)有限公司 手势三维图像生成方法、装置、计算机设备及存储介质
CN110942479B (zh) 2018-09-25 2023-06-02 Oppo广东移动通信有限公司 虚拟对象控制方法、存储介质及电子设备
CN109949422B (zh) * 2018-10-15 2020-12-15 华为技术有限公司 用于虚拟场景的数据处理方法以及设备
CN109712245B (zh) * 2018-11-20 2022-10-04 北京农业信息技术研究中心 三维场景中蝴蝶行为的模拟方法及装置
CN109782905A (zh) * 2018-12-27 2019-05-21 佛山科学技术学院 一种适用于agv舵轮的增强现实装配引导方法及系统
CN109683699B (zh) * 2019-01-07 2022-03-29 深圳增强现实技术有限公司 基于深度学习实现增强现实的方法、装置及移动终端
CN110059580B (zh) * 2019-03-27 2023-01-31 长春理工大学 一种基于leap motion的动态手势识别增强方法
US11107293B2 (en) 2019-04-23 2021-08-31 XRSpace CO., LTD. Head mounted display system capable of assigning at least one predetermined interactive characteristic to a virtual object in a virtual environment created according to a real object in a real environment, a related method and a related non-transitory computer readable storage medium
CN110221690B (zh) 2019-05-13 2022-01-04 Oppo广东移动通信有限公司 基于ar场景的手势交互方法及装置、存储介质、通信终端
CN111949112A (zh) * 2019-05-14 2020-11-17 Oppo广东移动通信有限公司 对象交互方法及装置、系统、计算机可读介质和电子设备
CN112445326B (zh) * 2019-09-03 2023-04-07 浙江舜宇智能光学技术有限公司 一种基于tof相机的投影交互方法及其系统和电子设备
CN112711324B (zh) * 2019-10-24 2024-03-26 浙江舜宇智能光学技术有限公司 基于tof相机的手势交互方法及其系统
CN111176443B (zh) * 2019-12-12 2023-10-13 青岛小鸟看看科技有限公司 一种车载智能系统及其控制方法
WO2024061238A1 (zh) * 2022-09-21 2024-03-28 海信电子科技(深圳)有限公司 一种估计手柄位姿的方法及虚拟显示设备
CN116152469B (zh) * 2023-02-16 2023-10-20 宏景科技股份有限公司 虚拟现实的三维空间数据修正方法
CN116954383B (zh) * 2023-09-20 2023-12-12 中物联讯(北京)科技有限公司 一种基于ar的对象交互展示方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102821323A (zh) * 2012-08-01 2012-12-12 成都理想境界科技有限公司 基于增强现实技术的视频播放方法、系统及移动终端
CN102902355A (zh) * 2012-08-31 2013-01-30 中国科学院自动化研究所 移动设备的空间交互方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102821323A (zh) * 2012-08-01 2012-12-12 成都理想境界科技有限公司 基于增强现实技术的视频播放方法、系统及移动终端
CN102902355A (zh) * 2012-08-31 2013-01-30 中国科学院自动化研究所 移动设备的空间交互方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向增强现实的实时三维跟踪;董子龙;<<浙江大学博士学位论文>>;20100701;正文第4-8页、第12-16页、第20-22页、第39-40页、第47-58页 *

Also Published As

Publication number Publication date
CN105528082A (zh) 2016-04-27

Similar Documents

Publication Publication Date Title
CN105528082B (zh) 三维空间及手势识别追踪交互方法、装置和系统
US11238644B2 (en) Image processing method and apparatus, storage medium, and computer device
US11087488B2 (en) Automated gesture identification using neural networks
WO2022121645A1 (zh) 一种教学场景中虚拟对象的真实感生成方法
CN109636831B (zh) 一种估计三维人体姿态及手部信息的方法
KR101687017B1 (ko) 머리 착용형 컬러 깊이 카메라를 활용한 손 위치 추정 장치 및 방법, 이를 이용한 맨 손 상호작용 시스템
CN108596974A (zh) 动态场景机器人定位建图系统及方法
CN108818569A (zh) 面向公共服务场景的智能机器人系统
CN108509026B (zh) 基于增强交互方式的远程维修支持系统及方法
Lee et al. 3D natural hand interaction for AR applications
CN106030610B (zh) 移动设备的实时3d姿势识别和跟踪系统
CN108510594A (zh) 虚拟试衣方法、装置及终端设备
CN107357427A (zh) 一种用于虚拟现实设备的手势识别控制方法
CN107004275A (zh) 用于确定实物的至少一部分的处于绝对空间比例的3d重构件的空间坐标的方法和系统
CN107357428A (zh) 基于手势识别的人机交互方法及装置、系统
CN109359514B (zh) 一种面向deskVR的手势跟踪识别联合策略方法
Zhang et al. A practical robotic grasping method by using 6-D pose estimation with protective correction
CN113672099A (zh) 一种电子设备及其交互方法
US20200326783A1 (en) Head mounted display device and operating method thereof
Liu et al. Hand pose estimation from rgb images based on deep learning: A survey
Park et al. Hand tracking with a near-range depth camera for virtual object manipulation in an wearable augmented reality
CN108682282A (zh) 一种基于ARKit框架的增强现实版化学元素周期表的交互方法
Abdallah et al. An overview of gesture recognition
CN112181135B (zh) 一种基于增强现实的6-dof视触觉交互方法
Ghosh et al. Real-time 3d markerless multiple hand detection and tracking for human computer interaction applications

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right

Effective date of registration: 20200730

Granted publication date: 20181106

PP01 Preservation of patent right
PD01 Discharge of preservation of patent

Date of cancellation: 20230730

Granted publication date: 20181106

PD01 Discharge of preservation of patent
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181106

CF01 Termination of patent right due to non-payment of annual fee