CN115830112A

CN115830112A - 一种基于手持实物的混合现实交互方法和系统

Info

Publication number: CN115830112A
Application number: CN202211491374.9A
Authority: CN
Inventors: 谢天; 华炜; 韩雅妮; 卢阳; 邓超
Original assignee: Zhejiang Hanggang Vocational Education Group Co ltd; Zhejiang Lab
Current assignee: Zhejiang Hanggang Vocational Education Group Co ltd; Zhejiang Lab
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-03-21
Anticipated expiration: 2042-11-25
Also published as: CN115830112B

Abstract

本发明公开了一种基于手持实物的混合现实交互方法，该发明采用特殊外形的手持实物来取代交互手柄，对实物实时追踪其六自由度位姿，再叠加混合现实的工具模型，在视觉上将实物变换为各类可操作的工具或工件，再对其进行近似于实际工具的操作与交互，提升了交互的实物触感，有利于提升虚拟实训的教学效果；同时，对手持实物的手柄部分进行快速简便的遮挡提取，从而修正观测时手柄应被手遮挡的拟真观感，进一步提升交互操作的沉浸感受，提升实训效果。

Description

一种基于手持实物的混合现实交互方法和系统

技术领域

本发明属于计算机应用技术领域，尤其涉及一种基于手持实物的混合现实交互方法和系统。

背景技术

混合现实包括虚拟现实(VR)和增强现实(AR)，是计算机应用的重要方向，近几年来在虚拟实训、远程教育等信息化教学场景中都有较新的应用和发展。但现有的手部交互方式多以按钮式的手柄为主，握法固定，交互过程也往往需要按钮配合，无法提供类似于螺丝刀、电烙铁等真实实训工具的操作感受，一定程度上限制了虚拟实训的教学效果，被公认为混合现实应用在手部真实感交互方面的缺陷。因此，需要提出新的方法来提升混合现实应用手部交互的真实感。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于手持实物的混合现实交互方法和系统。本发明通过对手持实物的虚拟化视觉更换，使用户可以在混合现实中更自由地操作工具，体验更贴近于真实工具的操作感受。

本发明的目的是通过以下技术方案来实现的：一种基于手持实物的混合现实交互方法，包括如下步骤：

步骤1：预建模。对预期执行混合现实交互的手持实物M进行建模，得到M的三维数字模型。所述实物M应包含以下几个特征：

(1)实物M应至少包含手柄和前端两部分，且两部分刚性连接，交互过程中两部分的相对位置姿态不会改变；

(2)实物手柄部分H的外观纯色，与手部肤色有较大区分；

(3)实物前端部分F的造型具有“剪影的各向异性”，即从任意视角对前端部分进行拍摄，其在画面中的外轮廓都不一致，且经过任意2D空间的缩放、平移和旋转后的外轮廓图像也都不一致。

步骤2：追踪位姿。在实时交互过程中，通过观测相机实时采集手持实物M的动态画面，采用基于模型的物体追踪方法追踪实物M的前端部分，并实时估计实物M相对于观测相机的三维位姿TRi。

步骤3：遮挡计算。基于实时估计得到的三维位姿TRi，将实物M预先建好的三维数字模型进行空间变换，并在观测相机视角下渲染生成与实际观测相同尺寸的虚拟图像，此时手持实物M的虚拟图像与实际观测图像基本重合；提取实物M在虚拟图像中的区域，对比实际观测图像中的相同区域，估算得到手在实物M手柄上的视觉遮挡区域，提取该区域为实时的遮罩图P；

步骤4：混合现实合成。基于实时得到的三维位姿TRi，将当前应用需要交互使用的虚拟工具模型，变换至观测视角坐标系下，叠加遮罩图P，渲染得到该工具带有遮挡效果的虚拟图像；通过混合现实显示设备，将该虚拟图像实时呈现于现实观测视角中，使虚拟工具刚好叠加在手持实物M之上，并露出原本握住实物M手柄部分的手的全貌，形成手握虚拟工具的混合现实效果。

步骤5：多模态交互。通过语音、界面的交互，替换不同的虚拟工具；根据虚拟工具的长度和使用模式，对场景中的虚拟物体进行操作和交互；在观测图像中补充采集另一只手对虚拟工具的交互和遮挡，识别特定工具下的双手交互组合，并执行相关应用预设的交互命令。循环重复步骤2-5，直至应用中止或结束。

进一步地，所述步骤2-4中的三维位姿，是指三维位置和三维姿态，包含6个自由度。

进一步地，所述步骤4-5中的虚拟工具，包括但不限于各类实训所用的手持工具，如榔头、螺丝刀、扳手、焊枪、锉刀、锯子。

进一步地，所述步骤3中的遮罩图，是在虚拟图像区域与实际观测图像区域对比后，提取非实物M部分的像素点，标记为0，其余为1。在步骤4中进行叠加时，标记为1处渲染像素点，标记为0处不渲染。

一种基于手持实物的混合现实交互系统，包括：

预建模模块，用于对预期执行混合现实交互的手持实物M进行建模，得到M的三维数字模型；

追踪位姿模块，用于在实时交互过程中，通过观测相机实时采集手持实物M的动态画面，采用基于模型的物体追踪方法追踪实物M的前端部分，并实时估计实物M相对于观测相机的三维位姿TRi。

遮挡计算模块，用于基于实时估计得到的三维位姿TRi，将实物M预先建好的三维数字模型进行空间变换，并在观测相机视角下渲染生成与实际观测相同尺寸的虚拟图像，此时手持实物M的虚拟图像与实际观测图像基本重合；提取实物M在虚拟图像中的区域，对比实际观测图像中的相同区域，估算得到手在实物M手柄上的视觉遮挡区域，提取该区域为实时的遮罩图P；

混合现实合成模块，用于基于实时得到的三维位姿TRi，将当前应用需要交互使用的虚拟工具模型，变换至观测视角坐标系下，叠加遮罩图P，渲染得到该工具带有遮挡效果的虚拟图像；通过混合现实显示设备，将该虚拟图像实时呈现于现实观测视角中，使虚拟工具刚好叠加在手持实物M之上，并露出原本握住实物M手柄部分的手的全貌，形成手握虚拟工具的混合现实效果；

多模态交互模块，用于通过语音、界面的交互，替换不同的虚拟工具；根据虚拟工具的长度和使用模式，对场景中的虚拟物体进行操作和交互；在观测图像中补充采集另一只手对虚拟工具的交互和遮挡，识别特定工具下的双手交互组合，并执行相关应用预设的交互命令。循环重复追踪位姿模块、遮挡计算模块、混合现实合成模块、模态交互模块的操作，直至应用中止或结束。

本发明的有益效果是：通过对手持实物的虚拟替换，实现用户手持各类工具的观感；通过仅对实物前端部分的追踪定位，释放了手柄处的自由握姿，从而支持对不同工具的不同持物方式，如旋转螺丝刀，横握扳手，手持电烙铁等不同持物姿态，大大提升了虚拟实训等操作过程的交互拟真程度；通过对手部遮挡的提取和处理，更好地融合了虚拟工具和实际手部的观感，进一步提升操作的逼真度，更有利于实训效果的提升。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为一种基于手持实物的混合现实交互方法的流程图；

图2a-图2c为手持实物的一种造型示例和追踪效果示例图，其中图2a是手持实物造型示例示意图，图2b是前段部分的数字模型示意图，图2c是前段部分位姿追踪效果示意图；

图3a-图3c为手部遮挡提取示意图，其中图3a是虚实叠加对比图，图2b是实物区域对比结果图，图3c是遮罩提取效果图；

图4为替换不同工具后的结果示例图；

图5是本发明的系统结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参考图1，本发明提供一种基于手持实物的混合现实交互方法，该方法包括如下步骤：

(2)实物手柄部分H的外观纯色，与手部肤色有较大区分；

具体地，对图2a所示的实物进行三维建模，再通过3D打印制造出该实物。其包含手柄和前端，整体统一颜色，且前端部分不具备任何对称性，满足所述特征1-3。这种设计的优点在于，剪影的各向异性可确保前端部分在任意观测视角下的轮廓都不一致，当使用基于模型轮廓的追踪和定位方法时不存在多个解，可保证估算得到的三维姿态的唯一性。

具体地，在实时交互的每一帧画面中，采用基于模型的物体追踪方法(Model-based Object Tracking)进行物体追踪。首先预建立实物M的姿态剪影库，根据一定参数间隔预采集各个6自由度位姿下实物M的剪影轮廓，建立位姿绑定和邻近索引关系。在追踪开始前，将实物M手动摆成一个预设的初始姿态，得到此时的剪影和对应的初始三维姿态；随后开启实时追踪，在上一帧画面对应的剪影库的邻近空间内搜索相似轮廓并进行匹配，得到最相近的轮廓，直接读取该轮廓绑定的位姿参数，快速实现三维位姿的估计。

这种设计的优点在于，只要前端不被遮挡，即可实现对任意姿态的前端部分进行追踪和位姿估计，如参考图2c示例，从而支持手持实物的自由持物姿态，实现对工具不同的握姿，提升交互操作逼真度。

步骤3：遮挡计算。基于实时估计得到的三维位姿TRi，将实物M预先建好的三维数字模型进行空间变换，并在观测相机视角下渲染生成与实际观测相同尺寸的虚拟图像，此时手持实物M的虚拟图像与实际观测图像基本重合；提取实物M在虚拟图像中的区域，对比实际观测图像中的相同区域，估算得到手在实物M手柄上的视觉遮挡区域，提取该区域为实时的遮罩图P。

具体地，如图3a-图3c所示，获得位姿估计后，将预先建好的三维模型变换至相似视角，提取相关图像区域，并在实际观测图像中截取相同区域，进行像素对比，超过一定阈值即提取为遮挡物，在遮罩图中标记为0，图3c中显示为黑色；非遮挡区域标记为1，图3c中显示为白色。

这种设计的优点在于，可通过颜色对比快速提取手柄处未被遮挡的区域，而不用执行手势识别、手部轮廓提取等较复杂的算法，大大提升实时能力。

具体地，基于三维位姿，转换所需的虚拟工具模型至相同视角，叠加遮罩图，即在渲染时直接进行像素的点乘，遮挡区域像素值点乘0后为0，非遮挡区域点乘1不变，即实现了遮挡显示的效果，使用户可以体验到不同虚拟物体被握在手中的观感。这种设计的优点在于，可迅速合成虚实融合的混合现实效果，计算简单且易于并行处理，又使用户可以体验到不同的工具，如图4示例所示。

具体地，通过语音交互可更换手中虚拟工具；分析虚拟工具的预期交互点和交互模式，与场景中的虚拟工件进行交互计算；如执行工具自身的部件更换等虚拟操作，则同时采集另一只手的交互轨迹与遮挡情况，实现双手的联合交互。最后循环重复步骤2-5，执行实时运行，直至应用中止或结束。

本发明通过对带手柄的模板工具的追踪和虚拟替换，实现了更具操作多样性的交互体验，从视觉观感和持物姿态等方面都更贴近于真实的工具操作，可有效提升虚拟实训等应用中的交互体验，有益于对培训教学效果和学习效率的提升。

一种基于手持实物的混合现实交互系统，包括：

本发明还提供了图5所示的一种对应于图1的一种基于手持实物的混合现实交互系统的示意结构图。如图5所述，在硬件层面，该一种基于手持实物的混合现实交互系统包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的方法。当然，除了软件实现方式之外，本发明并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(ProgrammableLogic Device,PLD)(例如现场可编程门阵列(Field Programmable Gate Array，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware DescriptionLanguage，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced BooleanExpression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java HardwareDescription Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware DescriptionLanguage)等，目前最普遍使用的是VHDL(Very-High-Speed Integrated CircuitHardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于手持实物的混合现实交互方法，其特征在于，包括如下步骤：

步骤1：预建模；

步骤2：追踪位姿；

步骤3：遮挡计算；

步骤4：混合现实合成；

步骤5：多模态交互。

2.如权利要求1所述的一种基于手持实物的混合现实交互方法，其特征在于，步骤1具体包括：对预期执行混合现实交互的手持实物M进行建模，得到M的三维数字模型。所述实物M应包含以下几个特征：

(2)实物手柄部分H的外观纯色，与手部肤色有较大区分；

3.如权利要求1所述的一种基于手持实物的混合现实交互方法，其特征在于，步骤2具体包括：在实时交互过程中，通过观测相机实时采集手持实物M的动态画面，采用基于模型的物体追踪方法追踪实物M的前端部分，并实时估计实物M相对于观测相机的三维位姿TRi。

4.如权利要求1所述的一种基于手持实物的混合现实交互方法，其特征在于，步骤3具体包括：基于实时估计得到的三维位姿TRi，将实物M预先建好的三维数字模型进行空间变换，并在观测相机视角下渲染生成与实际观测相同尺寸的虚拟图像，此时手持实物M的虚拟图像与实际观测图像基本重合；提取实物M在虚拟图像中的区域，对比实际观测图像中的相同区域，估算得到手在实物M手柄上的视觉遮挡区域，提取该区域为实时的遮罩图P。

5.如权利要求1所述的一种基于手持实物的混合现实交互方法，其特征在于，步骤4具体包括：基于实时得到的三维位姿TRi，将当前应用需要交互使用的虚拟工具模型，变换至观测视角坐标系下，叠加遮罩图P，渲染得到该工具带有遮挡效果的虚拟图像；通过混合现实显示设备，将该虚拟图像实时呈现于现实观测视角中，使虚拟工具刚好叠加在手持实物M之上，并露出原本握住实物M手柄部分的手的全貌，形成手握虚拟工具的混合现实效果。

6.如权利要求1所述的一种基于手持实物的混合现实交互方法，其特征在于，步骤5具体包括：通过语音、界面的交互，替换不同的虚拟工具；根据虚拟工具的长度和使用模式，对场景中的虚拟物体进行操作和交互；在观测图像中补充采集另一只手对虚拟工具的交互和遮挡，识别特定工具下的双手交互组合，并执行相关应用预设的交互命令。循环重复步骤2-5，直至应用中止或结束。

7.根据权利要求1-6之一所述的一种基于手持实物的混合现实交互方法，其特征还在于，所述步骤2-4中的三维位姿，是指三维位置和三维姿态，包含6个自由度。

8.根据权利要求1-6之一所述的一种基于手持实物的混合现实交互方法，其特征还在于，所述步骤4-5中的虚拟工具，包括但不限于各类实训所用的手持工具，如榔头、螺丝刀、扳手、焊枪、锉刀、锯子。

9.根据权利要求1-6之一所述的一种基于手持实物的混合现实交互方法，其特征还在于，所述步骤3中的遮罩图，是在虚拟图像区域与实际观测图像区域对比后，提取非实物M部分的像素点，标记为0，其余为1。在步骤4中进行叠加时，标记为1处渲染像素点，标记为0处不渲染。

10.一种基于手持实物的混合现实交互系统，其特征在于，包括：