CN116860114B

CN116860114B - 基于人工智能的扩展现实交互方法及相关装置

Info

Publication number: CN116860114B
Application number: CN202311131897.7A
Authority: CN
Inventors: 叶聪; 夏珍
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2024-04-05
Anticipated expiration: 2043-09-04
Also published as: CN116860114A

Abstract

本申请实施例提供了一种基于人工智能的扩展现实交互方法及相关装置，涉及人工智能、云技术和元宇宙领域。该方法包括：获取目标对象佩戴的扩展现实设备对应的目标场景指示信息，然后，基于目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据，进而将目标场景数据注入预先训练好的初始生成式语言模型，得到目标生成式语言模型，然后基于接收到的来自佩戴有扩展现实设备的目标对象的交互指令，生成第一交互文本，通过目标生成式语言模型基于第一交互文本进行预测，从而得到第二交互文本，播放第二交互文本对应的信息。本申请实施例提高交互指令对应的交互结果的准确性，进而提升体验者的交互体验。

Description

基于人工智能的扩展现实交互方法及相关装置

技术领域

本申请涉及人工智能（Artificial Intelligence，AI）技术领域，具体而言，本申请涉及一种基于人工智能的扩展现实交互方法及相关装置。

背景技术

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如在扩展现实（Extended Reality，XR）领域展开研究和应用。XR技术是指通过计算机将真实与虚拟相结合，打造一个可人机交互的虚拟环境，为体验者带来虚拟世界与现实世界之间无缝转换的“沉浸感”。XR技术也是虚拟现实（Virtual Reality，VR）、增强现实（AugmentedReality，AR）和混合现实（Mixed Reality，MR）等多种技术的统称。

在相关技术中，体验者可以通过佩戴XR设备，并发起交互指令，则可以通过AI来确定交互指令对应的交互结果，并通过XR设备向体验者展示交互指令对应的交互结果。

然而，经实践发现，交互指令对应的交互结果的准确性不足，进而影响体验者的交互体验。

发明内容

本申请实施例提供了一种基于人工智能的扩展现实交互方法及相关装置，用于解决交互指令对应的交互结果的准确性不足，进而影响体验者的交互体验的技术问题，可以提高交互指令对应的交互结果的准确性，进而提升体验者的交互体验。

一方面，本申请实施例提供了一种基于人工智能的扩展现实交互方法，包括：

基于接收到的来自佩戴有扩展现实设备的目标对象的交互指令，生成第一交互文本；

通过目标生成式语言模型基于第一交互文本进行预测，得到第二交互文本，其中，目标生成式语言模型是基于扩展现实设备对应的目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据，以及将目标场景数据注入预先训练好的初始生成式语言模型得到的，目标场景指示信息用于指示目标对象的视野中的扩展现实场景画面，目标场景数据所指示的目标场景画面与扩展现实场景画面相匹配；

播放第二交互文本对应的信息。

可选的，方法还包括：

若满足目标生成式语言模型的更新条件，则对目标生成式语言模型进行更新，以得到新的目标生成式语言模型，新的目标生成式语言模型是通过卸载目标生成式语言模型注入的目标场景数据，得到未注入有场景数据的目标生成式语言模型，并基于新的目标场景指示信息，从场景数据库预先存储的场景数据中获取新的目标场景数据，以及将新的目标场景数据注入未注入有场景数据的目标生成式语言模型得到的；

更新条件包括以下的至少一项：

以目标场景数据的注入时间为时间起点，目标生成式语言模型注入目标场景数据的持续时间到达时间阈值；

检测到目标场景指示信息的更新操作；

目标场景数据所指示的任一目标场景画面与扩展现实设备播放的当前扩展现实场景画面不匹配。

可选的，时间阈值是通过以下方式确定的：

获取目标对象的位置变化指示信息，位置变化指示信息包括移动速度信息或移动加速度信息中的至少一项；

基于位置变化指示信息确定时间阈值，其中，时间阈值与移动速度或移动加速度中的至少一项负相关。

可选的，目标场景数据是通过以下方式注入待注入模型的：

基于目标场景数据生成至少一个第一提示文本；

将各第一提示文本依次输入待注入模型，其中，待注入模型为初始生成式语言模型或未注入有场景数据的目标生成式语言模型中的至少一项。

可选的，目标场景指示信息包括目标空间信息，目标空间信息包括位置信息或方向信息中的至少一项；

场景数据库包括空间向量数据库，空间向量数据库中的场景数据包括对应有空间信息的空间向量数据，空间向量数据是对空间数据进行向量化得到的，基于扩展现实设备对应的目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据，包括：

确定目标空间信息与空间向量数据库中的每一空间信息之间的信息相似度；

基于目标空间信息与空间向量数据库中的每一空间信息之间的信息相似度，确定信息相似度最大的空间信息；

将信息相似度最大的空间信息对应的空间向量数据，作为目标场景数据。

可选的，若交互指令为针对目标对象的视野中的扩展现实场景画面的目标交互指令，则基于接收到的来自佩戴有扩展现实设备的目标对象的交互指令，生成第一交互文本，包括：

基于目标交互指令生成第一子交互文本；

获取目标扩展现实场景画面，目标扩展现实场景画面包括与接收时间相匹配的至少一个目标时间对应的扩展现实场景画面，接收时间为接收到目标交互指令的时间；

对于每一目标扩展现实场景画面，从目标扩展现实场景画面中提取场景画面特征，并基于各目标扩展现实场景画面对应的场景画面特征生成第二子交互文本；

将第一子交互文本和第二子交互文本进行融合，生成第一交互文本。

可选的，从场景数据库预先存储的场景数据中获取目标场景数据，包括：

基于位置变化指示信息确定目标数据长度，其中，目标数据长度与移动速度或移动加速度中的至少一项正相关；

从场景数据库预先存储的场景数据中，获取目标数据长度的目标场景数据。

可选的，初始生成式语言模型部署在多个服务器中的每一服务器，通过目标生成式语言模型基于第一交互文本进行预测，得到第二交互文本，包括：

若多个服务器中的其中一个服务器部署有目标大语言模型，则将第一交互文本发送至部署有目标大语言模型的服务器，以使得部署有目标大语言模型的服务器通过目标大语言模型基于第一交互文本进行预测，得到第二交互文本；

若多个服务器中的任一服务器未部署有目标大语言模型，则将从多个服务器中确定出目标服务器，并将目标场景指示信息和第一交互文本发送至目标服务器，以使得目标服务器基于目标场景指示信息生成目标大语言模型，并通过目标大语言模型基于第一交互文本进行预测，得到第二交互文本。

可选的，从多个服务器中确定出目标服务器，包括：

从多个服务器中确定出满足筛选条件的候选服务器，筛选条件包括服务器部署的初始生成式语言模型未注入有场景数据；

若候选服务器为一个，则将候选服务器作为目标服务器；

若候选服务器为至少两个，则对于至少两个候选服务器中的每一候选服务器，基于候选服务器的服务器位置信息和扩展现实设备的当前位置信息，确定候选服务器与扩展现实设备之间的距离，并基于各候选服务器对应的距离，将最小的距离所对应的候选服务器作为目标服务器。

可选的，在将目标场景数据注入预先训练好的初始生成式语言模型之前，还包括：

获取目标对象的目标对象数据；

将目标场景数据注入预先训练好的初始生成式语言模型，包括：

将目标场景数据和目标对象数据注入初始生成式语言模型。

可选的，目标对象数据是通过以下方式注入初始生成式语言模型的：

从目标对象数据中提取与扩展现实场景画面相关的对象数据；

基于相关的对象数据生成第二提示文本；

将第二提示文本输入初始生成式语言模型。

另一方面，本申请实施例还提供了一种基于人工智能的扩展现实交互方法，包括：

获取目标对象佩戴的扩展现实设备对应的目标场景指示信息，目标场景指示信息用于指示目标对象的视野中的扩展现实场景画面；

基于目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据，目标场景数据所指示的目标场景画面与扩展现实场景画面相匹配；

将目标场景数据注入预先训练好的初始生成式语言模型，得到目标生成式语言模型；

获取第一交互文本，并通过目标生成式语言模型基于第一交互文本进行预测，得到第二交互文本，以及将第二交互文本发送给扩展现实设备，以使得扩展现实设备播放第二交互文本对应的信息，第一交互文本是基于扩展现实设备接收到来自目标对象的交互指令生成的。

另一方面，本申请实施例还提供了一种基于人工智能的扩展现实交互装置，包括：

交互模块，用于基于接收到的来自佩戴有扩展现实设备的目标对象的交互指令，生成第一交互文本；

第一预测模块，用于通过目标生成式语言模型基于第一交互文本进行预测，得到第二交互文本，其中，目标生成式语言模型是基于扩展现实设备对应的目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据，以及将目标场景数据注入预先训练好的初始生成式语言模型得到的，目标场景指示信息用于指示目标对象的视野中的扩展现实场景画面，目标场景数据所指示的目标场景画面与扩展现实场景画面相匹配；

播放模块，用于播放第二交互文本对应的信息。

信息获取模块，用于获取目标对象佩戴的扩展现实设备对应的目标场景指示信息，目标场景指示信息用于指示目标对象的视野中的扩展现实场景画面；

数据获取模块，用于基于目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据，目标场景数据所指示的目标场景画面与扩展现实场景画面相匹配；

注入模块，用于将目标场景数据注入预先训练好的初始生成式语言模型，得到目标生成式语言模型；

第二预测模块，用于获取第一交互文本，并通过目标生成式语言模型基于第一交互文本进行预测，得到第二交互文本，以及将第二交互文本发送给扩展现实设备，以使得扩展现实设备播放第二交互文本对应的信息，第一交互文本是基于扩展现实设备接收到来自目标对象的交互指令生成的。

另一方面，本申请实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，处理器执行计算机程序以实现本申请任一实施例的方法的步骤。

另一方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请任一实施例的方法的步骤。

另一方面，本申请实施例还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现本申请任一实施例的方法的步骤。

本实施例的技术方案，通过获取目标对象佩戴的扩展现实设备对应的目标场景指示信息，基于目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据，将目标场景数据注入预先训练好的初始生成式语言模型，得到目标生成式语言模型，基于接收到的来自佩戴有扩展现实设备的目标对象的交互指令，生成第一交互文本，通过目标生成式语言模型基于第一交互文本进行预测，得到第二交互文本，播放第二交互文本对应的信息，由于目标场景数据所指示的目标场景画面与扩展现实场景画面相匹配，也就是说，目标场景数据能够一定程度上反映出目标对象看到的场景画面，因此，将目标场景数据注入初始生成式语言模型后得到的目标生成式语言模型，可以了解到目标对象看到的场景画面的相关信息，因此通过目标生成式语言模型基于第一交互文本进行预测处理所得到的第二交互文本也更准确，因此解决交互指令对应的交互结果的准确性不足，进而影响体验者的交互体验的技术问题，可以提高交互指令对应的交互结果的准确性，进而提升体验者的交互体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种基于人工智能的扩展现实交互系统的框架示意图；

图2为本申请实施例提供的一种基于人工智能的扩展现实交互的应用场景示意图；

图3为本申请实施例提供的另一种基于人工智能的扩展现实交互的应用场景示意图；

图4为本申请实施例提供的另一种基于人工智能的扩展现实交互的应用场景示意图；

图5为本申请实施例提供的另一种基于人工智能的扩展现实交互的应用场景示意图；

图6为本申请实施例提供的一种基于人工智能的扩展现实交互方法的流程示意图；

图7为本申请实施例提供的另一种基于人工智能的扩展现实交互方法的流程示意图；

图8为本申请实施例提供的另一种基于人工智能的扩展现实交互方法的流程示意图；

图9为本申请实施例提供的一种基于人工智能的扩展现实交互方法的实现框架示意图；

图10为本申请实施例提供的另一种扩展现实交互方法的流程示意图；

图11为本申请实施例提供的一种基于扩展现实设备采集的多种模态的数据发送第一交互文本给生成式语言模型的示意图；

图12为本申请实施例提供的一种基于人工智能的扩展现实交互装置的结构示意图；

图13为本申请实施例提供的另一种基于人工智能的扩展现实交互装置的结构示意图；

图14为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、组件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、组件、组件和/或它们的组合等。应该理解，当我们称一个组件被“连接”或“耦接”到另一组件时，该一个组件可以直接连接或耦接到另一组件，也可以指该一个组件和另一组件通过中间组件建立连接关系。此外，这里使用的“连接”或 “耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”指示实现为“A”，或者实现为“A”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参阅图1，图1为本申请实施例提供的一种基于人工智能的扩展现实交互系统的框架示意图。如图1所示的系统可以包括扩展现实设备102和服务器104。

其中，扩展现实设备102可以用于播放扩展现实场景画面。其中，扩展现实场景画面可以是虚拟场景画面，也可以是虚拟场景画面与真实场景画面的叠加画面，在此不做限定。可选的，本实施例的扩展现实设备102可以包括但不限于VR设备、AR设备或MR设备中的至少一项。扩展现实设备102可以通过网络与服务器104进行通信，从而交互数据。服务器104可以是部署在云端的云服务器104，也可以是将扩展现实设备102的周边范围内的终端作为服务器104。可选的，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备或便携式可穿戴设备等中的至少一项，物联网设备可为智能音箱、智能电视、智能空调或智能车载设备等中的至少一项。便携式可穿戴设备可为智能手表或智能手环等中的至少一项。数据存储系统可以存储服务器104需要处理的数据，例如存储场景数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器104上。

在相关技术中，可以在扩展现实设备102或者服务器104中部署生成式语言模型，则在获得来自佩戴有扩展现实设备102的目标对象的交互指令时，可以基于生成式语言模型得到交互指令对应的交互结果，并通过扩展现实设备102播放交互结果。

然而，目前的生成式语言模型，一般来说，泛化能力较强，但是泛化能力强一般也代表准确度会稍弱。因此，若直接基于该生成式语言模型来确定交互指令对应的交互结果，则得到的交互结果的准确度也会较差，进而导致体验者的交互体验较差。

针对相关技术中所存在的上述至少一个技术问题或需要改善的地方，本申请提出一种基于人工智能的扩展现实交互方法及相关装置，该方案通过在接收到交互指令之前或之后，基于扩展现实设备102对应的目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据，以及将目标场景数据注入预先训练好的初始生成式语言模型，得到目标生成式语言模型，并通过目标生成式语言模型对基于交互指令生成的第一交互文本进行预测，得到第二交互文本，进而播放第二交互文本对应的信息，可以提高交互指令对应的交互结果的准确性，进而提升体验者的交互体验。

下面通过对几个示例性实施方式的描述，对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

可选的，本申请实施例可以涉及人工智能(Artificial Intelligence， AI)技术领域。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。人工智能领域模型训练的重要技术，预训练模型，即是从自然语言处理(Nature Language processing，NLP)领域的大语言模型（Large Language Model）发展而来。大语言模型在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。其中，本申请实施例中的初始生成式语言模型可以是一种大语言模型。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。其中，本申请实施例可以通过机器学习的方式，将目标场景数据注入预先训练好的初始生成式语言模型，得到目标语言模型。

可选的，本申请实施例还可以涉及云技术。其中，本申请实施例的生成式语言模型可以部署在云端。该方案在实施过程中所涉及的数据处理可以基于云技术实现，比如通过目标生成式语言模型基于第一交互文本进行预测。

其中，云技术（Cloud technology）基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。而云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统 (以下简称存储系统）是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备（存储设备也称之为存储节点）通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和目标业务访问功能的一个存储系统。

可选的，本申请实施例还可以涉及元宇宙（Metaverse）。元宇宙是一个虚拟的世界，它是由扩展现实技术和人工智能技术等共同组成的全息数字空间，元宇宙可以架起现实世界和数字世界之间的桥梁，在虚拟时间中呈现一系列的视觉、听觉、触觉和嗅觉等多种感官体验。更为重要的是，元宇宙将以新的形式降低人与人之间的交互成本，打破现实世界的边界和限制，让人们可以在其中进行交流、合作等活动。

需要说明的是，在本申请的可选实施例中，所涉及到的对象数据，当本申请中的实施例运用到具体产品或技术中时，需要获得对象许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。也就是说，本申请实施例中如果涉及到与对象有关的数据，需要经由对象授权同意、相关部门授权同意、且符合国家和地区的相关法律法规和标准的情况下获取的。实施例中如涉及个人信息，所有个人信息的获取需要获得个人的同意，如涉及到敏感信息，需要征得信息主体的单独同意，实施例也是需要在对象授权同意的情况下实施。

首先，对本申请实施例的技术方案的应用场景进行举例说明。请分别参阅图2-图5。

如图2和图3所示的场景为文旅场景。具体的，在如图2和图3所示的文旅场景中，体验者可以佩戴扩展现实设身处旅游景区，此时体验者的视野中可以看到景区以及相关景物对象的介绍信息，也即体验者可以通过扩展现实设看到景区以及相关景物对象的介绍信息。同时，体验者可以通过语音或者特定的指令生成操作，对所处环境或视野中的真实或虚拟对象进行提问和追问。通过本申请实施例的技术方案，体验者可以不再需要导游，大大降低探寻旅游景点的门槛，提升旅游体验。

如图4所示的场景为出行场景。具体的，在如图4所示的出行场景中，体验者可以通过佩戴扩展现实设备，可以支持体验者实时的资讯一路上的各种信息。例如，当体验者身处地铁、轻轨站中，体验者就可以通过语音或者特定的指令生成操作，自由的询问最近地铁、轻轨的信息，例如班次、下一班的时间、下一站的地点等等。

如图5所示的场景为教育场景。具体的，在如图5所示的教育场景中，体验者可以通过佩戴扩展现实设备进行学习，或者是佩戴扩展现实设备进行实验项目时，当体验者对于视野中的知识点不太理解时，或者是对于实验项目的实验操作不清楚时，可以通过语音或者特定的指令生成操作，自由的询问不懂的知识点或者是询问实验项目的具体实验操作，相当于配备了一名高水平私教，可以帮助教学质量的显着提高。

可以理解的是，以上几种应用场景为本申请实施例的技术方案的示例应用场景，本申请实施例的技术方案还可以应用于其他应用场景，在此不做限定。

其次，以下实施例对本申请的技术方案进行说明。

请参阅图6，图6为本申请实施例提供的一种基于人工智能的扩展现实交互方法的流程示意图。如图6所示的方法可以由电子设备执行，电子设备可以包括扩展现实设备或服务器中的至少一项，如图6所示的方法可以包括：

S610、获取目标对象佩戴的扩展现实设备对应的目标场景指示信息。

其中，目标场景指示信息用于指示目标对象的视野中的扩展现实场景画面。在本实施例中，目标对象的视野中的扩展现实场景画面，可以理解为目标对象通过扩展现实设备所看到的画面。具体的，视野中的扩展现实场景，可以包括真实场景画面，也可以包括虚拟场景画面，也可以包括真实场景画面和虚拟场景画面，根据实际情况确定，在此不做限定。

示例性的，对于目标对象佩戴的扩展现实设备为AR设备或MR设备来说，目标对象佩戴的扩展现实设备处于关机状态时，或者未开启虚拟场景画面播放功能时，则此时目标对象的视野可能只看到真实场景画面，例如目标对象处于景区时，目标对象通过扩展现实设备只看到真实的景区；当扩展现实设备开机且开启虚拟场景画面播放功能后，此时目标对象的视野可能会看到真实场景画面和虚拟场景画面，例如看到景区以及相关景物对象的介绍信息，则看到的景区可以是真实场景画面，而景物对象的介绍信息可以是虚拟场景画面。对于目标对象佩戴的扩展现实设备为VR设备来说，则目标对象的视野中的扩展现实场景画面为虚拟场景画面，例如目标对象在家通过VR设备观看教学视频等。

S620、基于目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据。

其中，场景数据库中预先存储的场景数据，可以是真实场景对应的数据，也可以虚拟场景对应的数据。在本实施例中，可以是通过录制真实场景得到的数据作为场景数据，例如录制景区得到的数据作为场景数据；也可以是将AI生成的虚拟场景数据作为场景数据，例如将AI生成的教学视频作为场景数据。

其中，目标场景数据可以用来指示目标场景画面。目标场景数据所指示的目标场景画面与扩展现实场景画面相匹配。可选的，目标场景画面与扩展现实场景画面相匹配，可以是指目标场景画面与扩展现实场景画面的画面相似度大于画面相似度阈值。

在本实施例中，通过目标场景指示信息可以得知目标对象的视野中的扩展现实场景画面，因此，基于目标场景指示信息，能够从场景数据库中获取与扩展现实场景画面相匹配的目标场景画面所对应的场景数据作为目标场景数据。

S630、将目标场景数据注入预先训练好的初始生成式语言模型，得到目标生成式语言模型。

其中，初始生成式语言模型可以是通用的大语言模型，具有较强的泛化能力。在本实施例中，目标场景数据所指示的目标场景画面与扩展现实场景画面相匹配，也就是说，目标场景数据能够一定程度上反映出目标对象看到的场景画面，因此，将目标场景数据注入初始生成式语言模型后得到的目标生成式语言模型，可以了解到目标对象看到的场景画面的相关信息。

S640、基于接收到的来自佩戴有扩展现实设备的目标对象的交互指令，生成第一交互文本。

其中，交互指令可以是基于目标对象的语音请求得到的文本指令，例如目标对象发出“我想要知道这个最大的建筑物的详细信息”的语音请求，则将语音转换为“我想要知道这个最大的建筑物的详细信息”此文本指令。此外，交互指令还可以是目标对象触发特定的指令生成操作所生成的指令。第一交互文本可以是指基于交互指令生成的，用于输入生成式语言模型的文本。

S650、通过目标生成式语言模型基于第一交互文本进行预测，得到第二交互文本。

在本实施例中，目标生成式语言模型可以了解到目标对象看到的场景画面的相关信息，也就是说，第二交互文本是通过目标生成式语言模型在了解到目标对象看到的场景画面的相关信息的基础上，对第一交互文本预测得到的。

S660、播放第二交互文本对应的信息。

其中，第二交互文本对应的信息，可以是第二交互文本其自身，也可以是基于第二交互文本进行进一步搜索得到的信息，在此不做限定。在本实施例中，第二交互文本对应的信息可以以语音的方式播放，也可以是扩展现实设备中进行可视化展示，使得目标对象的视野中能够看到第二交互文本对应的信息。

需要说明的是，对于佩戴有扩展现实设备的目标对象来说，其视野中的扩展现实场景画面可能是变化较快的。例如，目标对象佩戴扩展现实设备欣赏景点时，由于目标对象的移动，目标对象的视野中的扩展现实场景画面可能变化的也比较快。

因此，在一种可能的实现方式中，基于人工智能的扩展现实交互方法还包括：

若满足目标生成式语言模型的更新条件，则对目标生成式语言模型进行更新，以得到新的目标生成式语言模型，新的目标生成式语言模型是通过卸载目标生成式语言模型注入的目标场景数据，得到未注入有场景数据的目标生成式语言模型，并基于新的目标场景指示信息，从场景数据库预先存储的场景数据中获取新的目标场景数据，以及将新的目标场景数据注入未注入有场景数据的目标生成式语言模型得到的。

其中，更新条件可以包括以下的至少一项：

检测到目标场景指示信息的更新操作；

具体的，对于第一个更新条件来说，以目标场景数据的注入时间为时间起点，若时间较长，则此时目标对象的视野中的扩展显示场景画面可能已经发生了较大改变，此时目标生成式语言模型的预测准确性会下降比较多，需要注入新的目标场景数据。示例性的，目标对象在景区1游玩，则会在初始生成式语言模型注入了景区1有关的目标场景数据，经过一段时间后，目标对象可能已经移动到了景区2游玩，此时仍然以注入了景区1有关的目标场景数据的目标生成式语言模型，来对目标对象在景区2发起的交互指令得到的交互文本进行预测的话，预测准确性会有一定的下降。因此，此时需要注入新的目标场景数据，也即注入景区2有关的目标场景数据，从而保证交互文本预测的准确性，进而保证目标对象的交互体验。因此，以目标场景数据的注入时间为时间起点，目标生成式语言模型注入目标场景数据的持续时间到达时间阈值，则需要更新目标生成式语言模型，得到新的目标生成式语言模型。

对于第二个更新条件来说，如果检测到目标场景指示信息的更新操作，则说明此时目标用户视野中的扩展显示场景画面已经发生了改变，因此需要更新目标生成式语言模型。示例性的，目标对象在观看教学视频1，则会在初始生成式语言模型中注入教学视频1有关的目标场景数据。当目标对象切换至观看教学视频2时，此时以注入了教学视频1有关的目标场景数据的目标大预言模型，对正在观看教学视频2的目标对象发起的交互指令得到的交互文本进行预测的话，预测准确性会有一定的下降。因此，需要注入新的目标场景数据，基于注入教学视频2有关的目标场景数据，从而保证交互文本预测的准确性。因此，检测到目标场景指示信息的更新操作，则需要更新目标生成式语言模型。

对于第三个条件来说，若目标场景数据所指示的任一目标场景画面与扩展现实设备播放的当前扩展现实场景画面不匹配，则说明此时目标用户视野中的扩展显示场景画面已经发生了较大改变，因此也需要更新目标生成式语言模型中注入的目标场景数据。

本实施例的技术方案，通过在满足目标生成式语言模型的更新条件时，更新目标生成式语言模型注入的目标场景数据，可以保持交互文本预测的准确性，进而保持目标对象的交互体验。此外，本实施例通过卸载目标生成式语言模型注入的目标场景数据，得到未注入有场景数据的目标生成式语言模型，并基于新的目标场景指示信息，从场景数据库预先存储的场景数据中获取新的目标场景数据，以及将新的目标场景数据注入未注入有场景数据的目标生成式语言模型，得到新的生成式语言模型，可以去除较大干扰的目标场景数据，可以进一步提升交互文本预测的准确性，进而进一步提升目标对象的交互体验。

在一种可能的实现方式中，时间阈值是通过以下方式确定的：

获取目标对象的位置变化指示信息，位置变化指示信息包括移动速度信息或移动加速度信息中的至少一项；基于位置变化指示信息确定时间阈值，其中，时间阈值与移动速度或移动加速度中的至少一项负相关。

在本实施例中，具体的，移动速度或移动加速度中的至少一项越大，则说明目标对象此时移动的越快，此时更新目标生成式语言模型的频率需要越高，从而保持交互文本的预测准确性。移动速度或移动加速度中的至少一项越小，则说明目标对象此时移动的越慢，此时更新目标生成式语言模型的频率可以低一些，从而兼顾交互文本的预测准确性以及减少更新目标生成式语言模型所需要的运算资源。

在一种可能的实现方式中，目标场景数据是通过以下方式注入待注入模型的：

基于目标场景数据生成至少一个第一提示文本；将各第一提示文本依次输入待注入模型。

其中，待注入模型为初始生成式语言模型或未注入有场景数据的目标生成式语言模型中的至少一项。本实施例中的第一提示文本用于描述目标画面特征。

可选的，目标场景数据可以包括目标场景画面，则基于目标场景数据生成至少一个第一提示文本，可以是基于目标场景数据确定目标场景画面，并从目标场景画面中提取至少一个目标画面特征；对于至少一个目标画面特征中的每一目标画面特征，基于目标画面特征生成第一提示文本。

对于教育场景来说，可以提取教学视频的一些知识点，或者是提取实验项目的一些试验器材和实验要求等目标画面特征。

可选的，目标场景数据也可以包括目标描述文档，目标描述文档用于描述目标场景画面，目标描述文档包括至少一个目标描述文本，则可以将目标描述文本作为第一提示文本。

在本实施例中，对于文旅、出行等场景来说，可以是对预先录制的真场景画面进行空间计算（Space Computing），从而得到用于描述真实场景画面的描述文档，描述文档包括至少一个描述文本。空间计算最初是指对地图及其他地理位置数据进行计算和分析以实现定位与测量的技术。

第一提示文本可以是一种提示（Prompt）指令。Prompt可以理解为一种启动机器学习模型的方式，它是一段文本或语句，用于指导机器学习模型生成特定类型、主题或格式的输出。在自然语言处理领域中，Prompt 通常由一个问题或任务描述组成，例如“给我写一篇有关人工智能的文章”、“翻译这个英文句子到法语”等等。具体的，使用提示文本的方式，可以在模型不重新训练的情况下，将目标对象的视野中的扩展现实场景画面的相关知识临时插入到模型中，并在失效时，将相关知识从模型中移除。可选的，移除相关知识的方式可以是发送移除提示文本，移除提示文本用于指示目标生成式语言模型移除第一提示文本。

其中，第一提示文本可以以上下文学习（In-context Learning，ICL）的方式输入待注入模型。In-context Learning是指在特定上下文环境中学习的机器学习方法。它考虑到文本、语音、图像、视频等数据的上下文环境，以及数据之间的关系和上下文信息的影响。在这种方法中，学习算法会利用上下文信息来提高预测和分类的准确性和有效性。

具体的，在一些相关的方案中，将初始生成式语言模型应用于下游任务的方式是：数据放入模型的训练集（training data）中然后对模型进行重新训练。这种方式最大的问题就是每次重训模型都很耗时，训练好的模型重新进行部署还会消耗额外的时间。因此此种方法不具备实时的信息注入和清除能力。因此完全无法运用在数据快速变化的XR混合现实的场景中。在移动的XR场景中，该不足则会更加明显，因此传统方式无法支持在XR虚实融合这种灵活的移动场景中对模型的不断重新更新。而In-context Learning的优点是无需重训模型，对于XR虚实融合这种灵活的移动场景，通过In-context Learning的方式将第一提示文本输入到初始生成式语言模型中，可以让生成式语言模型快速获得相关信息。并且In-context Learning的方式可以确保被注入的空间数据类似“短期记忆”的效果，拥有最高的响应优先级。同时，因为这种方式可以避免响应被模型中的原有的“长期记忆”数据干扰。

在一种可能的实现方式中，场景数据对应有场景指示信息，则可以确定目标场景指示信息与每一场景指示信息之间的信息相似度，并将信息相似度最大的场景指示信息所对应的场景数据作为目标场景数据。

在一种可能的实现方式中，场景数据库为多个，多个场景数据库部署在不同地方，且部署有生成式语言模型的电子设备未部署有场景数据库，则可以基于电子设备与各场景数据库之间的距离，从距离最小的场景数据库中获取目标场景数据。

可以理解的是，通过将多个场景数据库部署在多处，并且从距离最小的场景数据库中获取目标场景数据，可以提高场景数据的保存稳定性以及获取目标场景数据的效率，进而保证本方案的实现有效性。

以文旅场景为例，可选的，目标场景指示信息包括目标空间信息，目标空间信息包括位置信息或方向信息中的至少一项；

确定目标空间信息与空间向量数据库中的每一空间信息之间的信息相似度；基于目标空间信息与空间向量数据库中的每一空间信息之间的信息相似度，确定信息相似度最大的空间信息；将信息相似度最大的空间信息对应的空间向量数据，作为目标场景数据。

其中，空间数据又称几何数据，它用来表示物体的位置、形态、大小分布等各方面的信息，是对现世界中存在的具有定位意义的事物和现象的定量描述。根据在计算机系统中对地图的存储组织、处理方法的不同，以及空间数据本身的几何特征，空间数据又可分为图形数据和图像数据。向量数据库是专门用来存储和查询向量的数据库，其存储的向量来自于对文本、语音、图像、视频等的向量化。同传统数据库相比，向量数据库不仅能够完成基本的添加、读取查询、更新和删除（CRUD）等操作，还能够对向量数据进行更快速的相似性搜索。

在本实施例中，可根据目标空间信息，从向量数据库中检索、获取相应的空间数据。并对空间数据进行格式转换为生成式语言模型可以理解的形式，接下来将该数据以输入Prompt指令的形式注入初始生成式语言模型，并设定系统提示（System Prompt）使大模型做好响应环境数据相关请求的准备。

本实施例的技术方案，通过空间向量数据库存储空间向量数据，可以解决海量的空间知识信息存取的问题。因此可以提高存储的空间数据的容量，进而提升本方案的适应性，并且可以提高查找空间数据的效率，从而提高交互效率。

在一种可能的实现方式中，该空间向量数据库存储的空间向量数据，可以是通过其他图像采集设备预先采集的所有真实场景的空间数据，并对空间数据进行向量化后存储到空间向量数据库中的。

在另一种可能的实现方式中，该空间向量数据库存储的空间向量数据，可以是通过扩展现实设备所采集到的真实场景的空间数据，并对空间数据进行向量化后存储到空间向量数据库中的。

在另一种可能的实现方式中，空间向量数据库中存储的空间向量数据，可以是位于目标对象的移动方向上的预设距离内的其他扩展现实设备所采集到的数据。

具体的，以文旅场景为例，在同一个景区内，可能存在多个游客游玩的情况，则每一游客的扩展现实设备可以在游玩的过程中采集空间数据，并存储到空间向量数据库中。则目标对象可以从空间向量数据库中，获取位于目标对象的移动方向上的预设距离内的其他扩展现实设备所采集到的数据作为目标场景数据。

在一种可能的实现方式中，从场景数据库预先存储的场景数据中获取目标场景数据，包括：

获取目标对象的位置变化指示信息，位置变化指示信息包括移动速度信息或移动加速度信息中的至少一项；基于位置变化指示信息确定目标数据长度，其中，目标数据长度与移动速度或移动加速度中的至少一项正相关。

在本实施例中，移动速度或移动加速度中的至少一项越大，则说明目标对象的视野中的扩展现实场景画面变化的也越快，则此时可以获取较长数据长度的目标场景数据，从而减少由于目标生成式语言模型更新频率过高所带来的运算资源过大的问题。移动速度或移动加速度的至少一项越小，则说明目标对象的视野中的扩展现实场景画面变化的也越慢，则此时可以获取较短数据长度的目标场景数据，从而提高交互文本预测的准确性，进而提升交互体验。

以教育场景为例，可选的，目标场景指示信息可以包括目标画面信息，场景数据库中包括对应有画面信息的虚拟场景数据。可以基于目标对象的虚拟场景画面播放操作，从场景数据库中确定虚拟场景画面播放操作对应的目标画面信息，进而选择目标画面信息对应的虚拟场景数据在扩展现实设备中进行播放，则此时基于目标画面信息也可以将目标画面信息对应的虚拟场景数据注入初始生成式语言模型。

需要说明的是，目标对象发起的交互指令，可以是针对其视野中的扩展现实场景画面的指令，也可以使针对其视野外的画面的指令。

示例性的，以文旅场景为例，则用户处于某一景点时，可以是针对视野中的某一建筑物的提问指令，例如提问：我眼前的最大的建筑物的历史；也可以是针对视野外的建筑物的提问指令，例如提问：世界上最大的建筑物在哪里。

因此，以下实施例在以上任一实施例的基础上，就以上两种交互指令的情况分别进行说明。

在一种可能的实现方式中，若交互指令为针对视野外的画面的非目标交互指令，则基于接收到的来自佩戴有扩展现实设备的目标对象的交互指令，生成第一交互文本，可以包括：

将非目标交互指令作为第一交互文本。

在另一种可能的实现方式中，若交互指令为针对目标对象的视野中的扩展现实场景画面的目标交互指令，则基于接收到的来自佩戴有扩展现实设备的目标对象的交互指令，生成第一交互文本，包括：

基于目标交互指令生成第一子交互文本；获取目标扩展现实场景画面，目标扩展现实场景画面包括与接收时间相匹配的至少一个目标时间对应的扩展现实场景画面，接收时间为接收到目标交互指令的时间；对于每一目标扩展现实场景画面，从目标扩展现实场景画面中提取场景画面特征，并基于各目标扩展现实场景画面对应的场景画面特征生成第二子交互文本；将第一子交互文本和第二子交互文本进行融合，生成第一交互文本。

在本实施例中，与接收时间相匹配的至少一个目标时间，可以是与接收时间之间的时间差值小于时间差值阈值的时间。第二子交互文本可以用来描述场景画面特征。将第一子交互文本和第二子交互文本进行融合，可以是将第一子交互文本与第二子交互文本进行叠加得到第一交互文本。

示例性的，若目标对象发起提问：我眼前的最大的建筑物的历史，则此时生成的第一子交互文本为“眼前的最大的建筑物的历史”，然后，基于每一目标扩展现实场景画面，从目标扩展现实场景画面中提取场景画面特征，并基于各目标扩展现实场景画面对应的场景画面特征生成第二子交互文本，则此时生成的第二子交互文本可以是“建筑物为XX风格，位于YY街道ZZ广场”，则此时第一交互文本可以是“眼前的最大的建筑物的历史，建筑物为XX风格，位于YY街道ZZ广场”。

本实施例的技术方案，通过基于目标交互指令生成第一子交互文本；获取目标扩展现实场景画面，目标扩展现实场景画面包括与接收时间相匹配的至少一个目标时间对应的扩展现实场景画面，接收时间为接收到目标交互指令的时间；对于每一目标扩展现实场景画面，从目标扩展现实场景画面中提取场景画面特征，并基于各目标扩展现实场景画面对应的场景画面特征生成第二子交互文本；将第一子交互文本和第二子交互文本进行融合，生成第一交互文本，生成的第一交互文本能够描述更多的细节，因此目标生成式语言模型得到的第二交互文本也能更加准确，从而提高交互体验。

需要说明的是，目标对象可以是对其视野中的扩展现实场景画面中的部分画面感兴趣，而并非是对视野中的整个扩展现实场景画面感兴趣，因此，若基于视野中的整个扩展现实场景画面生成第二子交互文本，可能会导致第一交互文本的生成不够准确，进而导致交互文本的预测不够准确，交互体验降低。

因此，在一种可能的实现方式中，从目标扩展现实场景画面中提取场景画面特征，可以包括：

确定目标对象的观看方向，基于观看方向，确定目标扩展现实场景画面中的感兴趣画面，从感兴趣画面中提取场景画面特征。

本实施例的技术方案，通过确定目标对象的观看方向，基于观看方向，确定目标扩展现实场景画面中的感兴趣画面，从感兴趣画面中提取场景画面特征，可以提高第一交互文本的生成准确性，进而提高交互文本的预测准确性，从而提高交互体验。

请参阅图7，图7为本申请实施例提供的另一种基于人工智能的扩展现实交互方法的流程示意图。如图7所示的方法可以包括：

S710、获取目标对象佩戴的扩展现实设备对应的目标场景指示信息和目标对象的目标对象数据。

其中，目标对象数据可以是表征目标对象的特性的数据。例如，表征目标对象的年龄、喜好或学习成绩等中的至少一项。

S720、基于目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据。

S730、将目标场景数据和目标对象数据注入预先训练好的初始生成式语言模型，得到目标生成式语言模型。

在本实施例中，目标场景数据和目标对象数据可以同时注入初始生成式语言模型，也可以是分时注入初始生成式语言模型，在此不做限定。

S740、基于接收到的来自佩戴有扩展现实设备的目标对象的交互指令，生成第一交互文本。

S750、通过目标生成式语言模型基于第一交互文本进行预测，得到第二交互文本。

S760、播放第二交互文本对应的信息。

可以理解的是，S710-S760的部分内容可以参照以上任一实施例的描述，在此不做赘述。

本实施例的技术方案，通过获取目标对象佩戴的扩展现实设备对应的目标场景指示信息和目标对象的目标对象数据基于目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据将目标场景数据和目标对象数据注入预先训练好的初始生成式语言模型，得到目标生成式语言模型基于接收到的来自佩戴有扩展现实设备的目标对象的交互指令，生成第一交互文本通过目标生成式语言模型基于第一交互文本进行预测，得到第二交互文本，播放第二交互文本对应的信息，由于还考虑到了目标对象的目标对象数据，则目标生成式语言模型的预测结果也更贴合目标对象，进而提升目标对象的交互体验。

在一种可能的实现方式中，可以通过基于目标对象数据生成第二提示文本，进而输入到初始生成式语言模型中。

然而，在示例的一些情形中，并非是所有目标对象数据都与目标对象的当前视野中的扩展现实场景画面有关。因此，在一种可能的实现方式中，目标对象数据是通过以下方式注入初始生成式语言模型的：

从目标对象数据中提取与扩展现实场景画面相关的对象数据；基于相关的对象数据生成第二提示文本；将第二提示文本输入初始生成式语言模型。

在本实施例中，第二提示文本也可以是Prompt。其中，第二提示文本用于描述相关的对象数据。

示例性的，若视野中的扩展现实场景画面为文旅场景，则相关的对象数据可以是文旅场景相关的对象数据，例如目标对象是喜欢景点历史还是喜欢景点建筑多一点。若视野中的扩展现实场景画面为教育场景，则相关的对象数据可以是目标对象的年龄、学习成绩等，在此不做限定。

可以理解的是，通过从目标对象数据中提取与扩展现实场景画面相关的对象数据；基于相关的对象数据生成第二提示文本；将第二提示文本输入初始生成式语言模型，提取的相关的对象数据也与目标对象的当前视野中的扩展现实场景画面有关，可以使得目标生成式语言模型的预测结果更准确。

请参阅图8，图8为本申请实施例提供的另一种基于人工智能的扩展现实交互方法的流程示意图。

如图8所示，可以从多个渠道提取场景数据，例如文本、各类文件和数据库中提取场景数据，然后进行一定的预处理，例如将场景数据进行分块，然后通过生成式语言模型提取场景数据中的第一实体信息，第一实体信息可以包括空间信息和文档，然后基于第一实体信息生成搜索索引和实体存储到场景数据库中，例如基于空间信息生成搜索索引，进而将搜索索引与文档关联存储到场景数据库。

当需要注入数据时，可以基于空间数据请求，然后基于生成式语言模型提取空间数据请求的第二实体信息。第二实体信息可以包括目标空间信息。然后，比较空间请求与场景数据库索引，可以查找到相关的目标文档。然后，基于目标文档将知识注入初始生成式语言模型，此时可以通过一个生成prompt，prompt通过一个或多个数据块向初始生成式语言模型提供相关信息，从而得到目标生成式语言模型。

然后，扩展现实设备可以基于交互指令生成第一交互文本，则目标生成式语言模型可以向扩展现实设备返回第二交互文本。

为了更好地理解本方案，以下实施例在以上任一实施例的基础上，结合各个步骤在扩展现实设备执行还是在服务器执行进行举例说明。

请分别参阅9和图10。图9为本申请实施例提供的一种基于人工智能的扩展现实交互方法的实现框架示意图。图10为本申请实施例提供的另一种扩展现实交互方法的流程示意图，如图10所示的方法可以包括：

S1000、扩展现实设备获取扩展现实设备对应的目标场景指示信息和目标对象的目标对象数据。

在本实施例中，可选的，可以是扩展现实设备在开机时即获取目标场景指示信息和目标对象数据，也可以是扩展现实设备在检测到来自目标对象的虚拟画面启动操作时获取目标场景指示信息和目标对象，在此不做限定。

具体的，扩展现实设备可以安装有一些传感器，例如安装有获取位置信息的位置传感器、获取移动速度的速度传感器、获取移动加速度的加速度传感器或采集语音的语音传感器中的至少一项。

S1002、扩展现实设备将目标场景指示信息和目标对象数据发送给服务器。

S1004、服务器基于目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据。

可选的，服务器可以通过场景数据管理服务基于目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据。

具体的，场景数据管理服务的功能是根据请求的输入，从向量数据库中检索、获取相应的空间数据。并对空间数据进行格式转换为大模型可以理解的形式，接下来将该数据以输入Prompt的形式注入多模态大语言模型，并设定System Prompt使大模型做好响应环境数据相关请求的准备。

S1006、服务器将目标场景数据注入预先训练好的初始生成式语言模型，得到目标生成式语言模型。

在本实施例中，初始生成式语言模型可以是一种多模态的生成式语言模型，多模态的生成式语言模型，也可以理解为能够基于多模态数据进行学习的生成式语言模型。具体的，多模态机器学习，旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。

S1008、扩展现实设备接收来自佩戴有扩展现实设备的目标对象的目标交互指令。

S1010、扩展现实设备确定目标交互指令的接收时间，并确定与接收时间相匹配的至少一个目标时间，以及获取至少一个目标时间对应的扩展现实场景画面。

S1012、扩展现实设备对于每一目标扩展现实场景画面，从目标扩展现实场景画面中提取场景画面特征，并基于各目标扩展现实场景画面对应的场景画面特征生成第二子交互文本。

S1014、扩展现实设备将第一子交互文本和第二子交互文本进行融合，生成第一交互文本。

可选的，扩展现实设备可以通过请求管理服务来生成第一交互文本。

具体的，请求管理模块可以将扩展现实设备实时采集的多种模态的数据，包括扩展现实设备的摄像头采集的场景视频和图片数据等画面数据，目标对象通过扩展现实设备的麦克风输入的语音请求数据进行时间轴对齐。准备对应的Prompt请求体，发送给多模态生成式语言模型。

请参阅图11，图11为本申请实施例提供的一种基于扩展现实设备采集的多种模态的数据发送第一交互文本给生成式语言模型的示意图。

具体的，原始请求数据包括摄像头采集的视频流片段，以及目标对象随时可能产生的语音请求。视频流会持续的传输到本地的场景数据管理服务，当检测到目标对象有语音输入时，相关语音数据片和时间戳会一起以配对方式发送给请求管理服务，请求管理服务会调用语音识别（ASR）算法将语音请求转换成文字指令。当发现目标对象的语音请求是针对视频中内容时，该机制会将相应时间范围内的视频片段截取出。文字指令和视频片段将被作为多模态请求发送给生成式语言模型获取响应。

S1016、扩展现实设备将第一交互文本发送给服务器。

S1018、服务器通过目标生成式语言模型基于第一交互文本进行预测，得到第二交互文本。

S1020、服务器将第二交互文本发送至扩展设备。

S1022、扩展现实设备播放第二交互文本对应的信息。

可以理解的是，本实施例的描述可以参考以上任一实施例的描述，在此不做赘述。

需要说明的是，可选的，若扩展现实设备确定需要更新目标生成式语言模型时，则扩展现实设备则将新的目标场景信息发送至服务器，则服务器基于新的目标场景信息更新目标生成式语言模型。可选的，也可以是扩展现实设备持续向服务器发送目标场景指示信息，则服务器确定需要更新目标生成式语言模型时，则服务器基于最新的目标场景信息更新目标生成式语言模型。

可选的，可以在至少一个服务器中部署初始生成式语言模型。

在一种可能的实现方式中，初始生成式语言模型部署在多个服务器中的每一服务器，扩展现实设备通过目标生成式语言模型基于第一交互文本进行预测，得到第二交互文本，包括：

在本实施例中，服务器部署的目标大语言模型，可以是基于目标对象佩戴的扩展现实设备发送的数据得到的，也可以及时基于其他对象佩戴的扩展现实设备发送的数据得到的。

在一种可能的实现方式中，从多个服务器中确定出目标服务器，包括：

若候选服务器为一个，则将候选服务器作为目标服务器；

在本实施例中，通过在从多个服务器中确定出候选服务器，若候选服务器为至少两个，则对于至少两个候选服务器中的每一候选服务器，基于候选服务器的服务器位置信息和扩展现实设备的当前位置信息，确定候选服务器与扩展现实设备之间的距离，并基于各候选服务器对应的距离，将最小的距离所对应的候选服务器作为目标服务器，也即选择了距离最小的候选服务器作为交互的目标服务器，则可以提高扩展现实设备与目标服务器之间的交互效率，进而提高响应目标对象的交互指令的效率，从而提升目标对象的交互体验。

可以理解的是，初始生成式语言模型也可以部署在扩展现实设备中，则在此情形中，扩展现实设备则可以不需要与服务器进行交互。

请参阅12，图12为本申请实施例提供的一种基于人工智能的扩展现实交互装置的结构示意图。如图12所示的基于人工智能的扩展现实交互装置120可以应用于扩展现实设备，如图12所示的基于人工智能的扩展现实交互装置120可以包括：交互模块1210、第一预测模块1220和播放模块1230，其中：

交互模块1210，用于基于接收到的来自佩戴有扩展现实设备的目标对象的交互指令，生成第一交互文本；

第一预测模块1220，用于通过目标生成式语言模型基于第一交互文本进行预测，得到第二交互文本，其中，目标生成式语言模型是基于扩展现实设备对应的目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据，以及将目标场景数据注入预先训练好的初始生成式语言模型得到的，目标场景指示信息用于指示目标对象的视野中的扩展现实场景画面，目标场景数据所指示的目标场景画面与扩展现实场景画面相匹配；

播放模块1230，用于播放第二交互文本对应的信息。

在一种可能的实现方式中，第一预测模块1220还用于：

更新条件包括以下的至少一项：

检测到目标场景指示信息的更新操作；

在一种可能的实现方式中，第一预测模块1220还用于：

在一种可能的实现方式中，第一预测模块1220用于通过以下方式将目标场景数据注入待注入模型：

基于目标场景数据生成至少一个第一提示文本；将各第一提示文本依次输入待注入模型，其中，待注入模型为初始生成式语言模型或未注入有场景数据的目标生成式语言模型中的至少一项。

在一种可能的实现方式中，目标场景指示信息包括目标空间信息，目标空间信息包括位置信息或方向信息中的至少一项；

场景数据库包括空间向量数据库，空间向量数据库中的场景数据包括对应有空间信息的空间向量数据，空间向量数据是对空间数据进行向量化得到的，第一预测模块1220在基于扩展现实设备对应的目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据时，可以用于：

在一种可能的实现方式中，若交互指令为针对目标对象的视野中的扩展现实场景画面的目标交互指令，则交互模块1210在基于接收到的来自佩戴有扩展现实设备的目标对象的交互指令，生成第一交互文本时，可以用于：

在一种可能的实现方式中，第一预测模块1220在从场景数据库预先存储的场景数据中获取目标场景数据，包括：

获取目标对象的位置变化指示信息，位置变化指示信息包括移动速度信息或移动加速度信息中的至少一项；基于位置变化指示信息确定目标数据长度，其中，目标数据长度与移动速度或移动加速度中的至少一项正相关；从场景数据库预先存储的场景数据中，获取目标数据长度的目标场景数据。

在一种可能的实现方式中，初始生成式语言模型部署在多个服务器中的每一服务器，第一预测模块1220在通过目标生成式语言模型基于第一交互文本进行预测，得到第二交互文本时，可以用于：

在一种可能的实现方式中，第一预测模块1220在从多个服务器中确定出目标服务器时，可以用于：

若候选服务器为一个，则将候选服务器作为目标服务器；

在一种可能的实现方式中，第一预测模块1220还用于：

获取目标对象的目标对象数据；第一预测模块1220在将目标场景数据注入预先训练好的初始生成式语言模型时，可以用于：将目标场景数据和目标对象数据注入初始生成式语言模型。

在一种可能的实现方式中，第一预测模块1220用于通过以下方式将目标对象数据注入初始生成式语言模型：

请参阅13，图13为本申请实施例提供的另一种基于人工智能的扩展现实交互装置的结构示意图。如图13所示的基于人工智能的扩展现实交互装置130可以应用于服务器。如图13所示的基于人工智能的扩展现实交互装置130可以包括：信息获取模块1310、数据获取模块1320、注入模块1330和第二预测模块1340，其中：

信息获取模块1310，用于获取目标对象佩戴的扩展现实设备对应的目标场景指示信息，目标场景指示信息用于指示目标对象的视野中的扩展现实场景画面；

数据获取模块1320，用于基于目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据，目标场景数据所指示的目标场景画面与扩展现实场景画面相匹配；

注入模块1330，用于将目标场景数据注入预先训练好的初始生成式语言模型，得到目标生成式语言模型；

第二预测模块1340，用于获取第一交互文本，并通过目标生成式语言模型基于第一交互文本进行预测，得到第二交互文本，以及将第二交互文本发送给扩展现实设备，以使得扩展现实设备播放第二交互文本对应的信息，第一交互文本是基于扩展现实设备接收到来自目标对象的交互指令生成的。

在一种可能的实现方式中，第二预测模块1340还用于：

更新条件包括以下的至少一项：

检测到目标场景指示信息的更新操作；

在一种可能的实现方式中，第二预测模块1340还用于：

在一种可能的实现方式中，第二预测模块1340用于通过以下方式将目标场景数据注入待注入模型：

场景数据库包括空间向量数据库，空间向量数据库中的场景数据包括对应有空间信息的空间向量数据，空间向量数据是对空间数据进行向量化得到的，第二预测模块1340在基于扩展现实设备对应的目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据时，可以用于：

在一种可能的实现方式中，第二预测模块1340在从场景数据库预先存储的场景数据中获取目标场景数据，包括：

在一种可能的实现方式中，第二预测模块1340还用于：

获取目标对象的目标对象数据；第二预测模块1340在将目标场景数据注入预先训练好的初始生成式语言模型时，可以用于：将目标场景数据和目标对象数据注入初始生成式语言模型。

在一种可能的实现方式中，第二预测模块1340用于通过以下方式将目标对象数据注入初始生成式语言模型：

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

本申请实施例中提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现本申请任何一实施例的方法的步骤。

在一个可选实施例中提供了一种电子设备，如图14所示，图14所示的电子设备1400包括：处理器1401和存储器1403。其中，处理器1401和存储器1403相连，如通过总线1402相连。可选地，电子设备1400还可以包括收发器1404，收发器1404可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器1404不限于一个，该电子设备1400的结构并不构成对本申请实施例的限定。

处理器1401可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器1401也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线1402可包括一通路，在上述组件之间传送信息。总线1402可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线1402可以分为地址总线、数据总线、控制总线等。为便于表示，图14中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1403可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光盘存储（包括压缩光盘、激光盘、光盘、数字通用光盘、蓝光光盘等）、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器1403用于存储执行本申请实施例的计算机程序，并由处理器1401来控制执行。处理器1401用于执行存储器1403中存储的计算机程序，以实现前述方法实施例所示的步骤。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种基于人工智能的扩展现实交互方法，其特征在于，包括：

通过目标生成式语言模型基于所述第一交互文本进行预测，得到第二交互文本，其中，所述目标生成式语言模型是基于所述扩展现实设备对应的目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据，以及将所述目标场景数据注入预先训练好的初始生成式语言模型得到的，所述目标场景指示信息用于指示所述目标对象的视野中的扩展现实场景画面，所述目标场景数据所指示的目标场景画面与所述扩展现实场景画面相匹配；

播放所述第二交互文本对应的信息；

若满足所述目标生成式语言模型的更新条件，则对所述目标生成式语言模型进行更新，以得到新的所述目标生成式语言模型，新的所述目标生成式语言模型是通过卸载所述目标生成式语言模型注入的所述目标场景数据，得到未注入有场景数据的目标生成式语言模型，并基于新的目标场景指示信息，从场景数据库预先存储的场景数据中获取新的目标场景数据，以及将新的目标场景数据注入所述未注入有场景数据的目标生成式语言模型得到的。

2.根据权利要求1所述的方法，其特征在于，所述更新条件包括以下的至少一项：

以所述目标场景数据的注入时间为时间起点，所述目标生成式语言模型注入所述目标场景数据的持续时间到达时间阈值；

检测到所述目标场景指示信息的更新操作；

所述目标场景数据所指示的任一目标场景画面与所述扩展现实设备播放的当前扩展现实场景画面不匹配。

3.根据权利要求2所述的方法，其特征在于，所述时间阈值是通过以下方式确定的：

获取所述目标对象的位置变化指示信息，所述位置变化指示信息包括移动速度信息或移动加速度信息中的至少一项；

基于所述位置变化指示信息确定所述时间阈值，其中，所述时间阈值与移动速度或移动加速度中的至少一项负相关。

4.根据权利要求2所述的方法，其特征在于，所述目标场景数据是通过以下方式注入待注入模型的：

基于所述目标场景数据生成至少一个第一提示文本；

将各所述第一提示文本依次输入待注入模型，其中，所述待注入模型为所述初始生成式语言模型或所述未注入有场景数据的目标生成式语言模型中的至少一项。

5.根据权利要求1所述的方法，其特征在于，所述目标场景指示信息包括目标空间信息，所述目标空间信息包括位置信息或方向信息中的至少一项；

所述场景数据库包括空间向量数据库，所述空间向量数据库中的场景数据包括对应有空间信息的空间向量数据，所述空间向量数据是对空间数据进行向量化得到的，所述基于所述扩展现实设备对应的目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据，包括：

确定所述目标空间信息与所述空间向量数据库中的每一空间信息之间的信息相似度；

基于所述目标空间信息与所述空间向量数据库中的每一空间信息之间的信息相似度，确定信息相似度最大的空间信息；

将所述信息相似度最大的空间信息对应的空间向量数据，作为所述目标场景数据。

6.根据权利要求1所述的方法，其特征在于，若所述交互指令为针对所述目标对象的视野中的扩展现实场景画面的目标交互指令，则基于接收到的来自佩戴有扩展现实设备的目标对象的交互指令，生成第一交互文本，包括：

基于所述目标交互指令生成第一子交互文本；

获取目标扩展现实场景画面，所述目标扩展现实场景画面包括与接收时间相匹配的至少一个目标时间对应的扩展现实场景画面，所述接收时间为接收到所述目标交互指令的时间；

对于每一所述目标扩展现实场景画面，从所述目标扩展现实场景画面中提取场景画面特征，并基于各所述目标扩展现实场景画面对应的场景画面特征生成第二子交互文本；

将所述第一子交互文本和所述第二子交互文本进行融合，生成所述第一交互文本。

7.根据权利要求1所述的方法，其特征在于，所述从场景数据库预先存储的场景数据中获取目标场景数据，包括：

基于所述位置变化指示信息确定目标数据长度，其中，所述目标数据长度与移动速度或移动加速度中的至少一项正相关；

从场景数据库预先存储的场景数据中，获取所述目标数据长度的目标场景数据。

8.根据权利要求1所述的方法，其特征在于，所述初始生成式语言模型为大语言模型；所述目标生成式语言模型包括将所述目标场景数据注入预先训练好的初始生成式语言模型得到的目标大语言模型。

9.根据权利要求8所述的方法，其特征在于，所述初始生成式语言模型部署在多个服务器中的每一服务器，所述通过目标生成式语言模型基于所述第一交互文本进行预测，得到第二交互文本，包括：

若所述多个服务器中的其中一个服务器部署有所述目标大语言模型，则将所述第一交互文本发送至部署有所述目标大语言模型的服务器，以使得部署有所述目标大语言模型的服务器通过所述目标大语言模型基于所述第一交互文本进行预测，得到第二交互文本；

若所述多个服务器中的任一服务器未部署有所述目标大语言模型，则将从所述多个服务器中确定出目标服务器，并将所述目标场景指示信息和所述第一交互文本发送至所述目标服务器，以使得所述目标服务器基于所述目标场景指示信息生成所述目标大语言模型，并通过所述目标大语言模型基于所述第一交互文本进行预测，得到第二交互文本。

10.根据权利要求9所述的方法，其特征在于，所述从所述多个服务器中确定出目标服务器，包括：

从多个服务器中确定出满足筛选条件的候选服务器，所述筛选条件包括服务器部署的所述初始生成式语言模型未注入有场景数据；

若所述候选服务器为一个，则将所述候选服务器作为所述目标服务器；

若所述候选服务器为至少两个，则对于至少两个候选服务器中的每一候选服务器，基于所述候选服务器的服务器位置信息和所述扩展现实设备的当前位置信息，确定所述候选服务器与所述扩展现实设备之间的距离，并基于各所述候选服务器对应的距离，将最小的距离所对应的候选服务器作为所述目标服务器。

11.根据权利要求1-10任一项所述的方法，其特征在于，在所述将所述目标场景数据注入预先训练好的初始生成式语言模型之前，还包括：

获取所述目标对象的目标对象数据；

所述将所述目标场景数据注入预先训练好的初始生成式语言模型，包括：

将所述目标场景数据和所述目标对象数据注入所述初始生成式语言模型。

12.根据权利要求11所述的方法，其特征在于，所述目标对象数据是通过以下方式注入所述初始生成式语言模型的：

从所述目标对象数据中提取与所述扩展现实场景画面相关的对象数据；

基于所述相关的对象数据生成第二提示文本；

将所述第二提示文本输入所述初始生成式语言模型。

13.一种基于人工智能的扩展现实交互方法，其特征在于，包括：

获取目标对象佩戴的扩展现实设备对应的目标场景指示信息，所述目标场景指示信息用于指示所述目标对象的视野中的扩展现实场景画面；

基于所述目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据，所述目标场景数据所指示的目标场景画面与所述扩展现实场景画面相匹配；

将所述目标场景数据注入预先训练好的初始生成式语言模型，得到目标生成式语言模型；

获取第一交互文本，并通过所述目标生成式语言模型基于所述第一交互文本进行预测，得到第二交互文本，以及将所述第二交互文本发送给所述扩展现实设备，以使得所述扩展现实设备播放所述第二交互文本对应的信息，所述第一交互文本是基于所述扩展现实设备接收到来自所述目标对象的交互指令生成的；

14.一种基于人工智能的扩展现实交互装置，其特征在于，包括：

第一预测模块，用于通过目标生成式语言模型基于所述第一交互文本进行预测，得到第二交互文本，其中，所述目标生成式语言模型是基于所述扩展现实设备对应的目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据，以及将所述目标场景数据注入预先训练好的初始生成式语言模型得到的，所述目标场景指示信息用于指示所述目标对象的视野中的扩展现实场景画面，所述目标场景数据所指示的目标场景画面与所述扩展现实场景画面相匹配；

播放模块，用于播放所述第二交互文本对应的信息；

所述第一预测模块还用于若满足所述目标生成式语言模型的更新条件，则对所述目标生成式语言模型进行更新，以得到新的所述目标生成式语言模型，新的所述目标生成式语言模型是通过卸载所述目标生成式语言模型注入的所述目标场景数据，得到未注入有场景数据的目标生成式语言模型，并基于新的目标场景指示信息，从场景数据库预先存储的场景数据中获取新的目标场景数据，以及将新的目标场景数据注入所述未注入有场景数据的目标生成式语言模型得到的。

15.一种基于人工智能的扩展现实交互装置，其特征在于，包括：

信息获取模块，用于获取目标对象佩戴的扩展现实设备对应的目标场景指示信息，所述目标场景指示信息用于指示所述目标对象的视野中的扩展现实场景画面；

数据获取模块，用于基于所述目标场景指示信息，从场景数据库预先存储的场景数据中获取目标场景数据，所述目标场景数据所指示的目标场景画面与所述扩展现实场景画面相匹配；

注入模块，用于将所述目标场景数据注入预先训练好的初始生成式语言模型，得到目标生成式语言模型；

第二预测模块，用于获取第一交互文本，并通过所述目标生成式语言模型基于所述第一交互文本进行预测，得到第二交互文本，以及将所述第二交互文本发送给所述扩展现实设备，以使得所述扩展现实设备播放所述第二交互文本对应的信息，所述第一交互文本是基于所述扩展现实设备接收到来自所述目标对象的交互指令生成的；

所述注入模块还用于若满足所述目标生成式语言模型的更新条件，则对所述目标生成式语言模型进行更新，以得到新的所述目标生成式语言模型，新的所述目标生成式语言模型是通过卸载所述目标生成式语言模型注入的所述目标场景数据，得到未注入有场景数据的目标生成式语言模型，并基于新的目标场景指示信息，从场景数据库预先存储的场景数据中获取新的目标场景数据，以及将新的目标场景数据注入所述未注入有场景数据的目标生成式语言模型得到的。

16.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-13任一项所述方法的步骤。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-13任一项所述方法的步骤。