CN116736976A

CN116736976A - 基于意图理解的虚实映射方法及装置、介质、电子设备

Info

Publication number: CN116736976A
Application number: CN202310673416.9A
Authority: CN
Inventors: 张振亮; 封雪
Original assignee: Beijing General Artificial Intelligence Research Institute
Current assignee: Beijing General Artificial Intelligence Research Institute
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2023-09-12

Abstract

本发明的实施例提供一种基于意图理解的虚实映射方法，其中，方法包括：采集至少一个用户的人体位姿数据，和/或至少一个用户输入的指令，和/或指令库中的指令；分析采集的所述人体位姿数据和/或指令数据，得到交互意图类别标签；以及根据所述交互意图类别标签驱动虚拟世界中的虚拟具身执行相应的动作。本发明的实施例还提供了一种基于意图理解的虚实映射装置、计算机可读存储介质和电子设备。

Description

基于意图理解的虚实映射方法及装置、介质、电子设备

技术领域

本发明涉及计算机元宇宙技术领域，尤其涉及基于用户意图推理的多样化具身动作映射方法，更具体地基于意图理解的虚实映射方法及装置、介质、电子设备。

背景技术

随着元宇宙技术的发展，人类进入虚拟世界从事娱乐或者工作活动已经比较常见。将人体动作映射到虚拟世界三维虚拟形象的技术在许多领域都有应用。人类通常采用穿戴式VR(虚拟现实)设备或者手柄键盘等控制设备接入虚拟世界。例如，在娱乐领域，基于景深摄像头的动作捕捉技术可以将玩家的动作实时反映至游戏人物中。在影视制作领域，演员穿着动作捕捉服做出相应动作，经过技术处理后便将演员的动作映射到了电影中的虚拟角色中。

在实现本发明构思的过程中，发明人发现相关技术中至少存在如下问题：通常情况下，人类在虚拟世界的具身形态都是人类外观或者近似结构的具身形态(如机器人等)，这样的设计方便将用户的身体姿态直接迁移到虚拟具身上。但是，当在虚拟世界的具身形态不是人形的时候(如一辆汽车、一棵树、一个杯子、一头大象等)，人类用户如何方便地对具身形态进行控制还没有得到很好地解决。如果仅仅通过手柄产生的信号进行控制，会极大降低用户的沉浸感，而且在控制上也十分不便。

因此，如何实现多样化具身映射的方法，对促进元宇宙的丰富体验十分必要。

发明内容

有鉴于此，本发明要解决的技术问题在于提供一种基于意图理解的虚实映射方法及装置、介质、电子设备，解决了相关技术中当在虚拟世界的具身形态不是人形时，用户不能很好地控制虚拟具身的问题。

为了解决上述技术问题，本发明的具体实施方式提供一种基于意图理解的虚实映射方法，包括：采集至少一个用户的人体位姿数据，和/或至少一个用户输入的指令，和/或指令库中的指令；分析采集的所述人体位姿数据和/或指令数据，得到交互意图类别标签；以及根据所述交互意图类别标签驱动虚拟世界中的虚拟具身执行相应的动作。

可选地，在分析采集的所述人体位姿数据得到交互意图类别标签的步骤之前，基于意图理解的虚实映射方法还包括：预先标注每个所述交互意图类别标签对应的虚拟动作集合。

可选地，预先标注每个所述交互意图类别标签对应的虚拟动作集合的步骤，包括：利用训练标签和虚拟动作数据训练神经网络模型；以及向训练后的神经网络模型中输入所述交互意图类别标签得到对应的虚拟动作集合。

可选地，分析采集的所述人体位姿数据得到交互意图类别标签的步骤，包括：采用端到端的神经网络模型提取所述人体位姿数据的语义；以及基于所述语义确定对应的交互意图类别标签。

可选地，根据所述交互意图类别标签驱动虚拟世界中的虚拟具身执行相应的动作的步骤，包括：从所述交互意图类别标签对应的虚拟动作集合中选择至少一个第一虚拟动作；过滤掉所述第一虚拟动作中所述虚拟具身不支持的动作，得到第二虚拟动作；以及驱动所述虚拟具身执行所述第二虚拟动作中的至少一个虚拟动作。

可选地，过虑掉所述第一虚拟动作中所述虚拟具身不支持的动作，得到第二虚拟动作的步骤，包括：提取为所述虚拟具身设置的全部虚拟动作；以及查找同时存在于所述第一虚拟动作和所述全部虚拟动作中的虚拟动作，并将查找到的虚拟动作记为所述第二虚拟动作。

可选地，驱动所述虚拟具身执行所述第二虚拟动作中的至少一个虚拟动作的步骤，包括：根据所述交互意图类别标签标注所述第二虚拟动作的优先级；以及驱动所述虚拟具身执行所述第二虚拟动作中优先级最高的虚拟动作。

可选地，所述虚拟具身的形象与人类的形象不同。

可选地，用户输入的指令包括：语音指令、文字指令、手柄指令和键盘指令中的至少一种。

本发明的具体实施方式还提供一种基于意图理解的虚实映射装置，包括：采集单元，用于采集至少一个用户的人体位姿数据，和/或至少一个用户输入的指令，和/或指令库中的指令；分析单元，用于分析所述人体位姿数据和/或指令数据，得到交互意图类别标签；驱动单元，用于根据所述交互意图类别标签驱动虚拟世界中的虚拟具身执行相应的动作。

本发明实施例的另一方面提供了一种电子设备，包括一个或多个处理器以及存储装置，其中，上述存储装置用于存储可执行指令，上述可执行指令在被上述处理器执行时，实现本发明实施例的方法。

本发明实施例的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，上述指令在被处理器执行时用于实现本发明实施例的方法。

本发明实施例的另一方面提供了一种计算机程序，上述计算机程序包括计算机可执行指令，上述指令在被执行时用于实现本发明实施例的方法。

根据本发明的上述实施例，通过姿态意图理解和等价动作映射来实现以单一的VR交互设备来控制虚拟世界不同形态的虚拟具身，可以至少部分地解决相关技术中当在虚拟世界的具身形态不是人形时，用户不能很好地控制虚拟具身的问题，并因此可以实现用户利用单一VR交互设备来控制虚拟世界不同形态虚拟具身的技术效果。

应了解的是，上述一般描述及以下具体实施方式仅为示例性及阐释性的，其并不能限制本发明所欲主张的范围。

附图说明

下面的所附附图是本发明的说明书的一部分，其绘示了本发明的示例实施例，所附附图与说明书的描述一起用来说明本发明的原理。

图1为本发明具体实施例提供的一种基于意图理解的虚实映射方法的示意流程图。

图2为本发明又一具体实施例提供的一种基于意图理解的虚实映射方法的示意流程图。

图3为本发明具体实施例提供的一种预先标注每个交互意图类别标签对应的虚拟动作集合的示意流程图。

图4为本发明具体实施例提供的一种分析采集的人体位姿数据得到交互意图类别标签的示意流程图。

图5为本发明具体实施例提供的一种根据交互意图类别标签驱动虚拟世界中的虚拟具身执行相应的动作的示意流程图。

图6为本发明具体实施例提供的一种过虑掉第一虚拟动作中虚拟具身不支持的动作的示意流程图。

图7为本发明具体实施例提供的一种驱动虚拟具身执行第二虚拟动作中的至少一个虚拟动作的示意流程图。

图8为本发明具体实施例提供的一种基于意图理解的虚实映射装置的结构框图。

图9为本发明具体实施例提供的一种基于意图理解的虚实映射方法的应用示意图。

图10为本发明具体实施例提供的一种基于意图理解的虚实映射装置的应用示意图。

附图标记说明：

1采集单元 2分析单元

3驱动单元 U用户

VW虚拟世界 HIE虚拟具身

4服务器 S101～S104步骤

S1041～S1042步骤 S1021～S1022步骤

S1031～S1033步骤 S10321～S10322步骤

S10331～S10332步骤

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面将以附图及详细叙述清楚说明本发明所揭示内容的精神，任何所属技术领域技术人员在了解本发明内容的实施例后，当可由本发明内容所教示的技术，加以改变及修饰，其并不脱离本发明内容的精神与范围。

本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。另外，在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。

关于本文中所使用的“第一”、“第二”、…等，并非特别指称次序或顺位的意思，也非用以限定本发明，其仅为了区别以相同技术用语描述的元件或操作。

关于本文中所使用的方向用语，例如：上、下、左、右、前或后等，仅是参考附图的方向。因此，使用的方向用语是用来说明并非用来限制本创作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中所使用的“及/或”，包括所述事物的任一或全部组合。

关于本文中的“多个”包括“两个”及“两个以上”；关于本文中的“多组”包括“两组”及“两组以上”。

关于本文中所使用的用语“大致”、“约”等，用以修饰任何可以微变化的数量或误差，但这些微变化或误差并不会改变其本质。一般而言，此类用语所修饰的微变化或误差的范围在部分实施例中可为20％，在部分实施例中可为10％，在部分实施例中可为5％或是其他数值。本领域技术人员应当了解，前述提及的数值可依实际需求而调整，并不以此为限。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。本领域技术人员还应理解，实质上任意表示两个或更多可选项目的转折连词和/或短语，无论是在说明书、权利要求书还是附图中，都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如，短语“A或B”应当被理解为包括“A”或“B”、或“A和B”的可能性。

本发明的实施方式提供一种基于意图理解的虚实映射方法，包括：采集至少一个用户的人体位姿数据，和/或至少一个用户输入的指令，和/或指令库中的指令；分析采集的所述人体位姿数据和/或指令数据，得到交互意图类别标签；以及根据所述交互意图类别标签驱动虚拟世界中的虚拟具身执行相应的动作。用户可以利用单一VR交互设备来控制虚拟世界不同形态虚拟具身，实现等价动作映射，提升用户的沉浸度和体验度。

如图1所示，基于意图理解的虚实映射方法可以包括以下操作S101～S103：

在操作S101：采集至少一个用户的人体位姿数据，和/或至少一个用户输入的指令，和/或指令库中的指令。

本发明的实施例中，人体位姿数据可以是动态或静态的姿态数据，例如人体位姿数据可以包括：头部位姿信息、手部位姿信息、腿部位姿信息等。可以利用VR交互设备(虚拟现实交互设备)(例如，HTC Vive Pro2和Meta Quest 2等)、穿戴设备、眼动分析仪、深度传感器、深度摄像头等采集用户的人体位姿数据。例如，利用穿戴设备可以采集用户的空间位置变化、轨迹信息等；利用深度摄像头可以采集用户的图像数据，通过图像分析，可以得到用户的骨架数据、动作轨迹数据等；利用眼动分析仪可以获得用户的眼动数据。用户输入的指令可以包括：语音指令、文字指令、手柄指令、键盘指令及其他用户社交交互指令中的至少一种。至少一个用户包括一个、两个或多个用户。指令库中的指令是随机配置的。

接下来，在操作S102：分析采集的所述人体位姿数据和/或指令数据，得到交互意图类别标签。

本发明的实施例中，交互意图类别标签可以包括：打招呼、挥手、摇头、点头、攻击、遮挡等。分析人体位姿数据得到交互意图类别标签，实现人体位姿数据到交互意图类别标签的映射。可以利用自然语言模型或者其他意图推理模型得到交互意图类别标签，本发明不以此为限。

然后，在操作S103：根据所述交互意图类别标签驱动虚拟世界中的虚拟具身执行相应的动作。

本发明的实施例中，虚拟世界可以运行在服务器上，虚拟世界负责为用户提供多样化的虚拟体验，支持各类虚拟具身的动作执行和演示。虚拟具身的形象可以包括一棵树、一辆车、一个桌子、一只猫、一只鸟、一座房子等。一个交互意图类别标签对应到不同虚拟具体的时候，可能是不同的动作。例如，“招手”动作在虚拟具身为“树木”的时候，可以表现为摇动树枝动作；在虚拟具身为“汽车”的时候，可以表现为摇动雨刷器。本发明的可选实施例中，所述虚拟具身的形象与人类的形象不同。即虚拟具身的外观可以是多样化的形式，可以根据具体的需求来确定。例如，虚拟具身的外观可以包括：一辆汽车、一棵树、一个杯子、一头大象、一个桌子、一根画笔等。

本发明的实施例中，通过姿态意图理解和等价动作映射实现用户以单一的VR交互设备来控制虚拟世界不同形态、不同形象的虚拟具身，不会受到预定义动作的限制，可以基于用户的人体位姿数据，在不同形象的虚拟具身上产生合理的动作。虚拟具身在虚拟世界中移动可以通过菜单切换、手柄、鼠标、操作杆、键盘、语音指令、手柄指令等多种方式实现，本发明不以此为限。在保证虚拟形象多样性的基础上，提高用户的沉浸感和体验度，并提供了用户在元宇宙虚拟环境中的新奇体验。

如图2所示，在操作S102分析采集的所述人体位姿数据得到交互意图类别标签之前，基于意图理解的虚实映射方法还可以包括以下操作S104：

在操作S104：预先标注每个所述交互意图类别标签对应的虚拟动作集合。

本发明的实施例中，从交互意图类别标签到虚拟动作的映射是一个松弛的映射，一个交互意图类别标签可以对应一种或多种虚拟动作，一种虚拟动作也可以被一个或多个交互意图类别标签对应。

本发明的实施例中，预先设定交互意图类别标签与虚拟动作的对应关系，可以将人类用户的动作等价映射到非人形的虚拟具身，通过姿态意图理解和等价动作映射来实现以单一的VR交互设备来控制外观或形象不同的虚拟具身，提高用户的沉浸感和体验度。

本发明的实施例中，在操作S103根据所述交互意图类别标签驱动虚拟世界中的虚拟具身执行相应的动作之后，基于意图理解的虚实映射方法还可以包括以下操作：虚拟世界中的虚拟具身相互交互。

本发明的实施例中，虚拟具身相互交互的具体形式例如可以通过游戏引擎模拟出的虚拟世界人机交互平台进行支撑。虚拟具身可以在房间尺度下交互，进行知识和技能的传递，此外，虚拟具身也不局限于在房间尺度下交互。常见的交互任务包括技能型任务(如工具使用、摆放积木、端茶倒水等)和知识型任务(如对话交流、数学推理等)，本发明不以此为限。

如图3所示，操作S104预先标注每个所述交互意图类别标签对应的虚拟动作集合可以包括以下操作S1041～S1042：

在操作S1041：利用训练标签和虚拟动作数据训练神经网络模型。

本发明的实施例中，利用训练标签和虚拟动作数据训练神经网络模型的参数，神经网络模型的输入为交互意图标签，神经网络模型的输出为虚拟动作。训练标签属于交互意图标签。神经网络模型的训练可以离线进行，增加用户的体验度。

接下来，在操作S1042：向训练后的神经网络模型中输入所述交互意图类别标签得到对应的虚拟动作集合。

本发明的实施例中，神经网络模型训练完成后，向神经网络模型输入交互意图类别标签，神经网络模型输出虚拟动作集合。

本发明的实施例中，利用神经网络模型确定交互意图类别标签与虚拟动作的对应关系，可以将人类用户的动作等价映射到非人形的虚拟具身，从而提高用户的沉浸感。

如图4所示，操作S102分析采集的所述人体位姿数据得到交互意图类别标签可以包括以下操作S1021～S1022：

在操作S1021：采用端到端的神经网络模型提取所述人体位姿数据的语义。

本发明的实施例中，提取人体位姿数据的语义，推理用户的交互意图，将语义与交互意图类别标签对应。

接下来，在操作S1022：基于所述语义确定对应的交互意图类别标签。

本发明的实施例中，基于语义确定相应的交互意图类别标签，即根据语义确定用户的交互意图。

本发明的实施例中，可以根据人体位姿数据(动态或静态的)直接得到用户的交互意图，用户沉浸感好，体验度高。

如图5所示，操作S103根据所述交互意图类别标签驱动虚拟世界中的虚拟具身执行相应的动作可以包括以下操作S1031～S1033：

在操作S1031：从所述交互意图类别标签对应的虚拟动作集合中选择至少一个第一虚拟动作。

本发明的实施例中，每个交互意图类别标签对应一个虚拟动作集合，一个虚拟动作集合至少包含一个虚拟动作。

接下来，在操作S1032：过虑掉所述第一虚拟动作中所述虚拟具身不支持的动作，得到第二虚拟动作。

本发明的实施例中，虚拟具身的形象决定了其支持的动作。例如，桌子不支持微笑动作，火车不支持摇头动作等。

然后，在操作S1033：驱动所述虚拟具身执行所述第二虚拟动作中的至少一个虚拟动作。

本发明的实施例中，按照优先级顺序，虚拟具身执行第二虚拟动作中的至少一个虚拟动作。例如，虚拟具身可以先执行挥手动作，随即执行点头动作。

本发明的实施例中，根据交互意图类别标签，结合虚拟具身的形象，驱动虚拟具身执行相应的一个动作，实现用户到虚拟具身的等价动作映射。

如图6所示，操作S1032过虑掉所述第一虚拟动作中所述虚拟具身不支持的动作，得到第二虚拟动作可以包括以下操作S10321～S10322：

在操作S10321：提取为所述虚拟具身设置的全部虚拟动作。

本发明的实施例中，预先为虚拟世界的虚拟具身设置虚拟动作，每个虚拟具身至少可以执行一个虚拟动作。虚拟具身形象不同，可以执行的虚拟动作一般也不同。

接下来，在操作S10322：查找同时存在于所述第一虚拟动作和所述全部虚拟动作中的虚拟动作，并将查找到的虚拟动作记为所述第二虚拟动作。

本发明的实施例中，从交互意图类别标签对应的虚拟动作集合中选择的第一虚拟动作，可能不被虚拟具身支持。只有第一虚拟动作中的动作存在于全部虚拟动作中时，才能被虚拟具身支持，才能被虚拟具身执行。

本发明的实施例中，仅驱动虚拟具身执行其支持的动作，有效实现用户到虚拟具身的等价动作映射，提高用户沉浸度和体验度。

如图7所示，操作S1033驱动所述虚拟具身执行所述第二虚拟动作中的至少一个虚拟动作可以包括以下操作S10331～S10332：

在操作S10331：根据所述交互意图类别标签标注所述第二虚拟动作的优先级。

本发明的实施例中，每个交互意图类别标签对应一个虚拟动作集合，一个虚拟动作集合至少包含一个虚拟动作，虚拟动作集合中的虚拟动作具有不同的优先级(即被选择的概率)。

接下来，在操作S10332：驱动所述虚拟具身执行所述第二虚拟动作中优先级最高的虚拟动作。

本发明的一个实施例中，虚拟具身执行第二虚拟动作中优先级最高的虚拟动作；本发明的其他实施例中，虚拟具身也可以执行第二虚拟动作中优先级最高及优先级次高的虚拟动作。本发明的其他实施例中，用户可以调整或修改虚拟动作的优先级，从而修正不合理或者用户不满意的动作映射，进一步提高用户体验度。

本发明的实施例中，驱动虚拟具身执行优先级最高的虚拟动作，建立了人类用户动作到不同种类、不同形象虚拟具身动作的直接映射，提升了用户的沉浸感，提供了用户在元宇宙虚拟环境中的新奇体验。

如图8所示，基于意图理解的虚实映射装置可以包括采集单元1、分析单元2和驱动单元3。

具体地，采集单元1用于采集至少一个用户U的人体位姿数据，和/或至少一个用户U输入的指令，和/或指令库中的指令；分析单元2用于分析采集的所述人体位姿数据和/或指令数据，得到交互意图类别标签；驱动单元3用于根据所述交互意图类别标签驱动虚拟世界VW中的虚拟具身HIE执行相应的动作。其中，采集单元1可以在客户端上运行，分析单元2可以在客户端或服务器4上运行，驱动单元3可以在服务器4上运行。

本发明的实施例中，通过姿态意图理解和等价动作映射实现以单一的VR交互设备来控制虚拟世界不同形态、不同形象的虚拟具身，不会受到预定义动作的限制，可以基于用户的人体位姿数据，在不同形象的虚拟具身上产生合理的动作。在保证虚拟形象多样性的基础上，提高用户的沉浸感，并提供了用户在元宇宙虚拟环境中的新奇体验。本发明的可选实施例中，所述虚拟具身的形象与人类的形象不同。即虚拟具身的外观可以是多样化的形式，可以根据具体的需求来确定。例如，虚拟具身的外观可以包括：一辆汽车、一棵树、一个杯子、一头大象、一个桌子、一根画笔等。

如图9所示，系统初始化后，利用VR交互设备等感应设备感知用户的身体姿态，采集用户的人体位姿数据。然后，基于人体位姿数据得到交互意图类别标签。再标注每个交互意图类别标签对应的虚拟动作集合，完成等价动作映射。其次，根据交互意图类别标签驱动虚拟具身执行相应的动作。最后确认虚拟具身是否完成交互任务，如果完成交互任务，结束；如果未完成交互任务，重新感知用户的身体姿态，采集用户的人体位姿数据。其中，不同用户映射的虚拟具身之间可以相互交互，用户映射的虚拟具身与AI智能体之间也可以相互交互，常见的交互任务可以包括技能型任务(如工具使用、摆放积木、端茶倒水等)和知识型任务(如对话交流、数学推理等)。

如图10所示，用户利用客户端(例如VR交互设备、穿戴设备、眼动分析仪、深度传感器、深度摄像头等)通过网络接入运行在服务器4上的虚拟世界。不同用户映射的虚拟具身之间可以相互交互，用户映射的虚拟具身与AI智能体之间也可以相互交互，交互的内容包括但不限于知识和技能的传递。

本发明的实施例中，首次实现了多种虚拟具身形象统一驱动的方法，并通过意图理解和等价动作映射实现常规单一类别VR设备对多类型具身形象的直接驱动。可以让用户仅仅使用普通VR设备(例如，VR头盔或者手柄)或输入设备(例如，语音交互设备或键盘或者鼠标或者操作杆)便可以完成对虚拟世界任意的具身形象的动作控制，且整个过程用户只需要做出常规的人类动作，能够可靠地将人类动作信号转化为对应具身形象的合理动作，为用户在元宇宙中的生活方式提供了多种可能。

根据本发明的实施例，根据本发明实施例的方法流程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。根据本发明的实施例，上文描述的电子设备、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本发明中。特别地，在不脱离本发明精神和教导的情况下，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。

以上对本发明的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本发明的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本发明的范围之内。

Claims

1.一种基于意图理解的虚实映射方法，其特征在于，该方法包括：

采集至少一个用户的人体位姿数据，和/或至少一个用户输入的指令，和/或指令库中的指令；

分析采集的所述人体位姿数据和/或指令数据，得到交互意图类别标签；以及

根据所述交互意图类别标签，驱动虚拟世界中的虚拟具身执行相应的动作。

2.根据权利要求1所述的基于意图理解的虚实映射方法，其特征在于，分析采集的所述人体位姿数据得到交互意图类别标签的步骤之前，该方法还包括：

预先标注每个所述交互意图类别标签对应的虚拟动作集合。

3.根据权利要求2所述的基于意图理解的虚实映射方法，其特征在于，预先标注每个所述交互意图类别标签对应的虚拟动作集合的步骤，包括：

利用训练标签和虚拟动作数据训练神经网络模型；以及

向训练后的神经网络模型中输入所述交互意图类别标签得到对应的虚拟动作集合。

4.根据权利要求2或3所述的基于意图理解的虚实映射方法，其特征在于，分析采集的所述人体位姿数据得到交互意图类别标签的步骤，包括：

采用端到端的神经网络模型提取所述人体位姿数据的语义；以及

基于所述语义确定对应的交互意图类别标签。

5.根据权利要求4所述的基于意图理解的虚实映射方法，其特征在于，根据所述交互意图类别标签驱动虚拟世界中的虚拟具身执行相应的动作的步骤，包括：

从所述交互意图类别标签对应的虚拟动作集合中选择至少一个第一虚拟动作；

过滤掉所述第一虚拟动作中所述虚拟具身不支持的动作，得到第二虚拟动作；以及

驱动所述虚拟具身执行所述第二虚拟动作中的至少一个虚拟动作。

6.根据权利要求5所述的基于意图理解的虚实映射方法，其特征在于，过虑掉所述第一虚拟动作中所述虚拟具身不支持的动作，得到第二虚拟动作的步骤，包括：

提取为所述虚拟具身设置的全部虚拟动作；以及

查找同时存在于所述第一虚拟动作和所述全部虚拟动作中的虚拟动作，并将查找到的虚拟动作记为所述第二虚拟动作。

7.根据权利要求5所述的基于意图理解的虚实映射方法，其特征在于，驱动所述虚拟具身执行所述第二虚拟动作中的至少一个虚拟动作的步骤，包括：

根据所述交互意图类别标签标注所述第二虚拟动作的优先级；以及

驱动所述虚拟具身执行所述第二虚拟动作中优先级最高的虚拟动作。

8.根据权利要求1所述的基于意图理解的虚实映射方法，其特征在于，所述虚拟具身的形象与人类的形象不同。

9.根据权利要求1所述的基于意图理解的虚实映射方法，其特征在于，用户输入的指令包括：语音指令、文字指令、手柄指令和键盘指令中的至少一种。

10.一种基于意图理解的虚实映射装置，其特征在于，该装置包括：

采集单元(1)，用于采集至少一个用户(U)的人体位姿数据，和/或至少一个用户(U)输入的指令，和/或指令库中的指令；

分析单元(2)，用于分析采集的所述人体位姿数据和/或指令数据，得到交互意图类别标签；以及

驱动单元(3)，用于根据所述交互意图类别标签，驱动虚拟世界(VW)中的虚拟具身(HIE)执行相应的动作。

11.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储可执行指令，所述可执行指令在被所述处理器执行时，实现根据权利要求1～9中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时实现根据权利要求1～9中任一项所述的方法。