CN117234341B

CN117234341B - 基于人工智能的虚拟现实人机交互方法及系统

Info

Publication number: CN117234341B
Application number: CN202311517376.5A
Authority: CN
Inventors: 郭勇; 苑朋飞; 靳世凯; 赵存喜
Original assignee: Zhongying Nian Nian Beijing Technology Co ltd
Current assignee: Zhongying Nian Nian Beijing Technology Co ltd
Priority date: 2023-11-15
Filing date: 2023-11-15
Publication date: 2024-03-05
Anticipated expiration: 2043-11-15
Also published as: CN117234341A

Abstract

本发明公开了一种基于人工智能的虚拟现实人机交互方法及系统，涉及虚拟现实技术领域，其通过在采集到用户输入的数字人语音控制信号后，在后端将该语音控制信号转化为语音控制文本，并引入语义理解和处理技术来进行语音控制文本的语义识别，以此来生成数字人动作控制指令，这样，能够实现用户通过语音发送指令，数字角色能够根据指令做出相应的动作和对话效果，增强了虚拟现实体验的沉浸感和真实感。同时，在此过程中，引入语义补偿技术来对于语音控制文本进行文本的修正，以避免用户个体差异和语言习惯不同而导致的语音识别效果欠佳问题，提升了用户体验和交互效果。

Description

基于人工智能的虚拟现实人机交互方法及系统

技术领域

本申请涉及虚拟现实技术领域，且更为具体地，涉及一种基于人工智能的虚拟现实人机交互方法及系统。

背景技术

虚拟现实（Virtual Reality，简称VR）是一种通过计算机生成的模拟环境，用户可以身临其境地感受和交互其中。虚拟现实人机交互是指通过虚拟现实技术实现人与计算机之间的交互，其目标是提供一种沉浸式、自然而直观的交互体验，使用户能够以更加自然的方式与虚拟环境进行交互和操作。传统的人机交互方式，如键盘、鼠标和触摸屏等，对于虚拟现实环境来说不够直观和自然。因此，虚拟现实人机交互致力于开发更加智能、自适应的交互方式，使用户能够通过自己的身体动作、语音、手势等与虚拟环境进行交互。

在虚拟现实人机交互过程中，语音控制成为一种重要的交互方式。通过语音指令，用户可以与虚拟现实环境中的数字角色进行沟通和互动。这需要将用户的语音输入转化为可理解的指令，并使得数字角色能够根据指令做出相应的动作和对话效果。

然而，现有的虚拟现实人机交互方案中，语音识别技术在识别用户的语音指令时可能存在误解或错误，这可能导致数字角色无法正确理解用户的意图，从而无法做出正确的动作和对话效果。并且，在某些情况下，现有方案还可能存在延迟或不及时响应的问题，这会导致用户在语音交互过程中感受到明显的延迟或不连贯性，降低了交互的实时性和流畅性。此外，现有虚拟现实人机交互方案可能无法满足不同用户的个体差异和需求。例如，对于具有口音或不同语言习惯的用户，语音识别技术可能存在困难，导致交互效果不佳。

因此，期望一种基于人工智能的虚拟现实人机交互方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于人工智能的虚拟现实人机交互方法及系统，其通过在采集到用户输入的数字人语音控制信号后，在后端将该语音控制信号转化为语音控制文本，并引入语义理解和处理技术来进行语音控制文本的语义识别，以此来生成数字人动作控制指令，这样，能够实现用户通过语音发送指令，数字角色能够根据指令做出相应的动作和对话效果，增强了虚拟现实体验的沉浸感和真实感。同时，在此过程中，引入语义补偿技术来对于语音控制文本进行文本的修正，以避免用户个体差异和语言习惯不同而导致的语音识别效果欠佳问题，提升了用户体验和交互效果。

根据本申请的一个方面，提供了一种基于人工智能的虚拟现实人机交互方法，其包括：

获取由用户输入的数字人语音控制信号；

对所述数字人语音控制信号进行语义识别以得到语音控制文本；

对所述语音控制文本进行语义编码以得到语音控制文本语义理解特征，其包括：

将所述语音控制文本通过基于AIGC模型的语义信息补偿器以得到补偿优化语音控制文本；

对所述补偿优化语音控制文本进行分词处理后通过包含词嵌入层的语义编码器以得到语音控制文本语义理解特征向量作为所述语音控制文本语义理解特征；

基于所述语音控制文本语义理解特征，生成数字人动作控制指令。

根据本申请的另一个方面，提供了一种基于人工智能的虚拟现实人机交互系统，其包括：

信号获取模块，用于获取由用户输入的数字人语音控制信号；

语义识别模块，用于对所述数字人语音控制信号进行语义识别以得到语音控制文本；

语义编码模块，用于对所述语音控制文本进行语义编码以得到语音控制文本语义理解特征；

控制指令生成模块，用于基于所述语音控制文本语义理解特征，生成数字人动作控制指令。

与现有技术相比，本申请提供的一种基于人工智能的虚拟现实人机交互方法及系统，其通过在采集到用户输入的数字人语音控制信号后，在后端将该语音控制信号转化为语音控制文本，并引入语义理解和处理技术来进行语音控制文本的语义识别，以此来生成数字人动作控制指令，这样，能够实现用户通过语音发送指令，数字角色能够根据指令做出相应的动作和对话效果，增强了虚拟现实体验的沉浸感和真实感。同时，在此过程中，引入语义补偿技术来对于语音控制文本进行文本的修正，以避免用户个体差异和语言习惯不同而导致的语音识别效果欠佳问题，提升了用户体验和交互效果。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的基于人工智能的虚拟现实人机交互方法的流程图；

图2为根据本申请实施例的基于人工智能的虚拟现实人机交互方法的系统架构图；

图3为根据本申请实施例的基于人工智能的虚拟现实人机交互方法的训练阶段的流程图；

图4为根据本申请实施例的基于人工智能的虚拟现实人机交互方法的子步骤S3的流程图；

图5为根据本申请实施例的基于人工智能的虚拟现实人机交互方法的子步骤S4的流程图；

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

现有的虚拟现实人机交互方案中，语音识别技术在识别用户的语音指令时可能存在误解或错误，这可能导致数字角色无法正确理解用户的意图，从而无法做出正确的动作和对话效果。并且，在某些情况下，现有方案还可能存在延迟或不及时响应的问题，这会导致用户在语音交互过程中感受到明显的延迟或不连贯性，降低了交互的实时性和流畅性。此外，现有虚拟现实人机交互方案可能无法满足不同用户的个体差异和需求。例如，对于具有口音或不同语言习惯的用户，语音识别技术可能存在困难，导致交互效果不佳。因此，期望一种基于人工智能的虚拟现实人机交互方案。

在本申请的技术方案中，提出了一种基于人工智能的虚拟现实人机交互方法。图1为根据本申请实施例的基于人工智能的虚拟现实人机交互方法的流程图。图2为根据本申请实施例的基于人工智能的虚拟现实人机交互方法的系统架构图。如图1和图2所示，根据本申请的实施例的基于人工智能的虚拟现实人机交互方法，包括步骤：S1，获取由用户输入的数字人语音控制信号；S2，对所述数字人语音控制信号进行语义识别以得到语音控制文本；S3，对所述语音控制文本进行语义编码以得到语音控制文本语义理解特征；S4，基于所述语音控制文本语义理解特征，生成数字人动作控制指令。

特别地，所述S1，获取由用户输入的数字人语音控制信号。在虚拟现实人机交互过程中，语音控制成为一种重要的交互方式。通过语音指令，用户可以与虚拟现实环境中的数字角色进行沟通和互动。这需要将用户的语音输入转化为可理解的指令，并使得数字角色能够根据指令做出相应的动作和对话效果。

相应的，在一种可能的实现方式中，可通过以下步骤获取由用户输入的数字人语音控制信号,例如：使用麦克风或其他音频输入设备来捕捉用户的语音信号。这可以是实时的，也可以是从存储设备中获取的音频文件；对捕捉到的音频信号进行预处理，以提高后续信号处理的准确性和质量。这可能包括去除噪音、音频增益调整、降低回声等；使用声音识别技术将音频信号转换为文本或命令。这一步骤通常涉及机器学习和语音识别算法，可以使用现有的语音识别引擎或自定义模型；对从声音识别得到的文本进行解析和处理，以提取有用的指令和信息。这可能涉及自然语言处理（NLP）技术，例如分词、语法分析、实体识别等；根据解析得到的指令，执行相应的操作或触发相应的功能。这可能涉及与其他系统或设备的交互，例如控制家居设备、发送请求到网络服务等。

特别地，所述S2，对所述数字人语音控制信号进行语义识别以得到语音控制文本。应可以理解，在虚拟现实人机交互中，语音控制是一种常见的交互方式，用户可以通过语音指令来控制虚拟环境中的数字角色或进行其他操作。为了使计算机能够理解用户的语音指令并做出相应的反应，需要进行用户输入的所述数字人语音控制信号的语义识别以得到语音控制文本。也就是说，语义识别能够将语音信号转化为对应的语义内容或文本，以便于后续对于文本内容进行语义理解，从而理解用户的意图和要求，以更准确地解析用户的语音指令，便于后续的数字人动作生成。

相应的，在一种可能的实现方式中，可通过以下步骤对所述数字人语音控制信号进行语义识别以得到语音控制文本，例如：使用麦克风或其他音频设备录制数字人的语音控制信号。确保录制环境良好，以获得清晰的语音信号；对录制的语音信号进行预处理，以提高语音识别的准确性。预处理可能包括降噪、去除静音段、音频增强等操作；使用语音识别技术将预处理后的语音信号转换为文本。语音识别技术可以基于声学模型和语言模型，通过对语音信号进行特征提取和模式匹配来识别语音中的文字内容；使用自然语言处理（NLP）技术对语音识别结果进行语义理解。这可能涉及词法分析、句法分析、语义角色标注等技术，以提取文本中的关键信息和语义表示；基于语义理解的结果，生成最终的语音控制文本。这可能涉及文本的重组、修正或补充，以确保生成的文本准确反映用户的意图和指令。

特别地，所述S3，对所述语音控制文本进行语义编码以得到语音控制文本语义理解特征。特别地，在本申请的一个具体示例中，如图4所示，所述S3，包括：S31，将所述语音控制文本通过基于AIGC模型的语义信息补偿器以得到补偿优化语音控制文本；以及，S32，对所述补偿优化语音控制文本进行分词处理后通过包含词嵌入层的语义编码器以得到语音控制文本语义理解特征向量作为所述语音控制文本语义理解特征。

具体地，所述S31，将所述语音控制文本通过基于AIGC模型的语义信息补偿器以得到补偿优化语音控制文本。在通过用户输入的数字人语音控制信号来进行语音控制的过程中，由于不同用户的个体差异和需求，例如，对于具有口音或不同语言习惯的用户，语音识别会存在较大的误差或语音表达存在不准确性，因此得到的语音控制文本可能存在一定的歧义或模糊性。基于此，在本申请的技术方案中，需要使用AIGC模型进行所述语音控制文本的语义信息补偿优化。具体地，将所述语音控制文本通过基于AIGC模型的语义信息补偿器以得到补偿优化语音控制文本。应可以理解，补偿优化的过程是通过AIGC模型对语音控制文本进行进一步的语义分析和推理，以获得更准确、更完整的语义信息。所述AIGC模型可以根据上下文、语境和先验知识等因素，对所述语音控制文本进行语义解释和补充，从而消除歧义、澄清意图，并生成更准确的语义表示，提高语义理解的准确性和鲁棒性。

相应的，在一种可能的实现方式中，可通过以下步骤将所述语音控制文本通过基于AIGC模型的语义信息补偿器以得到补偿优化语音控制文本，例如：对输入的语音控制文本进行预处理，包括文本清洗、分词、去除停用词等。这些步骤有助于提取出关键信息并减少噪声影响；使用自然语言处理技术对预处理后的语音控制文本进行语义理解。这可以包括词法分析、句法分析、语义角色标注等技术，以提取出文本中的实体、动作、关系等语义信息；从语义理解的结果中提取特征，用于后续的补偿优化。这些特征可以包括动作类型、目标位置、动作强度等信息，可以根据具体的应用场景和需求进行选择和提取；使用基于AIGC模型的语义信息补偿器对提取的特征进行补偿优化；根据补偿优化后的特征，生成优化的语音控制文本。这可以是一个重新组合、修正或调整的过程，以使生成的文本更符合用户意图和语义要求。

具体地，所述S32，对所述补偿优化语音控制文本进行分词处理后通过包含词嵌入层的语义编码器以得到语音控制文本语义理解特征向量作为所述语音控制文本语义理解特征。也就是，在所述补偿后话后的所述语音控制文本后，为了能够对于该文本进行语义理解，以此来自动生成数字人的动作，在本申请的技术方案中，进一步对所述补偿优化语音控制文本进行分词处理后通过包含词嵌入层的语义编码器中进行编码，以提取出所述补偿优化语音控制文本中的各个词基于全局的上下文语义关联特征信息，从而得到语音控制文本语义理解特征向量。更具体地，对所述补偿优化语音控制文本进行分词处理以将所述补偿优化语音控制文本转化为由多个词组成的词序列，分词的目的是将文本转换为离散的语言单位，以便后续处理；使用所述包含词嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列，词嵌入向量捕捉了单词的语义信息和上下文关系，能够在向量空间中表示单词的语义相似性；使用所述包含词嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量，其中，语义编码器可以是循环神经网络（如长短时记忆网络 LSTM 或门控循环单元 GRU）或者是Transformer等模型。；以及，将所述多个全局上下文语义特征向量进行级联以得到所述语音控制文本语义理解特征向量。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式对所述语音控制文本进行语义编码以得到语音控制文本语义理解特征，例如：对输入的语音控制文本进行预处理，包括文本清洗、分词和词干化等操作。这些步骤有助于减少噪音和标准化输入文本；选择适合任务的语义表示模型。这可以是基于规则的方法，也可以是基于机器学习的方法，如词袋模型、词嵌入模型（如Word2Vec、GloVe）或深度学习模型（如Transformer）；使用选择的语义表示模型对预处理后的文本进行特征提取。这可能涉及将文本转换为向量表示，以捕捉词汇、句法和语义信息。常见的特征提取方法包括词嵌入、句子编码和上下文注意力等；将提取的特征进行编码，以获得语音控制文本的语义理解特征。这可以是通过将特征输入到预训练的语义模型（如BERT、GPT）中进行编码，也可以是通过自定义的神经网络或其他编码方法进行处理；将语义编码后的特征表示用于进一步的语义理解任务。这可能包括意图识别、槽位填充、实体识别等。可以使用传统的机器学习算法（如支持向量机、随机森林）或深度学习模型（如循环神经网络、卷积神经网络）来实现这些任务；根据具体任务需求，生成最终的语音控制文本的语义理解特征。这可能是一组标签、类别或其他形式的表示，用于进一步的决策和操作。

特别地，所述S4，基于所述语音控制文本语义理解特征，生成数字人动作控制指令。特别地，在本申请的一个具体示例中，如图5所示，所述S4，包括：S41，将所述语音控制文本语义理解特征向量通过分类器以得到分类结果，所述分类结果用于表示动作类型标签；以及，S42，基于所述分类结果，生成数字人动作控制指令。

具体地，所述S41，将所述语音控制文本语义理解特征向量通过分类器以得到分类结果，所述分类结果用于表示动作类型标签。具体地，使用所述分类器的多个全连接层对所述语音控制文本语义理解特征向量进行全连接编码以得到编码分类特征向量；以及，将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。其中，所述分类器的分类标签为基于语音控制信号所产生的动作类型标签，因此，在得到所述分类结果后，可以基于所述分类结果来生成数字人动作控制指令，以此来使得数字角色能够根据指令做出相应的动作效果，增强了虚拟现实体验的沉浸感和真实感。

分类器是指一种机器学习模型或算法，用于将输入数据分为不同的类别或标签。分类器接收输入数据的特征，并根据这些特征将数据分配到预定义的类别中。分类器是监督学习的一部分，它通过学习从输入数据到输出类别的映射关系来进行分类任务。

全连接层是神经网络中常见的一种层类型。在全连接层中，每个神经元都与上一层的所有神经元相连接，每个连接都有一个权重。这意味着全连接层中的每个神经元都接收来自上一层所有神经元的输入，并通过权重对这些输入进行加权求和，然后将结果传递给下一层。

Softmax分类函数是一种常用的激活函数，用于多分类问题。它将输入向量的每个元素转化为一个介于0和1之间的概率值，并且这些概率值的和等于1。Softmax函数常用于神经网络的输出层，特别适用于多分类问题，因为它能够将网络输出映射为各个类别的概率分布。在训练过程中，Softmax函数的输出可以用于计算损失函数，并通过反向传播算法来更新网络参数。值得注意的是，Softmax函数的输出并不会改变元素之间的相对大小关系，只是对其进行了归一化处理。因此，Softmax函数并不改变输入向量的特性，只是将其转化为概率分布形式。

具体地，所述S42，基于所述分类结果，生成数字人动作控制指令。也就是，根据分类器的预测结果，确定所属的动作类型标签。例如，根据分类结果生成与动作类型相关的数字人动作控制指令，从而实现根据语音指令控制数字人执行相应动作的功能。在一个示例中，如果分类器预测的结果是"行走"，则表示用户想让数字人执行行走动作；根据动作类型标签的映射关系，将预测的动作类型转换为相应的数字人动作控制指令；接着，将生成的数字人动作控制指令传递给数字人系统，使其执行相应的动作。这可以通过与数字人系统的接口进行通信或调用相关的动作控制模块来实现。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式基于所述语音控制文本语义理解特征，生成数字人动作控制指令，例如：对原始语音控制文本进行预处理，例如去除标点符号、转换为小写字母等，以便后续处理；使用自然语言处理技术对预处理后的语音控制文本进行语义理解。这可能涉及词法分析、句法分析、语义角色标注等技术，以提取文本中的关键信息和语义表示；从语义理解结果中提取与数字人动作控制相关的特征。这些特征可以包括动作类型、目标对象、动作参数等；基于提取的特征，生成数字人动作控制指令。这可能涉及将特征映射到特定的动作控制命令或者生成描述动作的自然语言指令；将生成的数字人动作控制指令传递给相应的系统或平台，以实现对数字人的动作控制。这可能涉及与数字人交互的接口、通信协议或者应用程序接口。

应可以理解，在利用上述神经网络模型进行推断之前，需要对所述包含词嵌入层的语义编码器和所述分类器进行训练。也就是说，在本申请的基于人工智能的虚拟现实人机交互方法中，还包括训练阶段，用于对所述包含词嵌入层的语义编码器和所述分类器进行训练。

图3为根据本申请实施例的基于人工智能的虚拟现实人机交互方法的训练阶段的流程图。如图3所示，根据本申请实施例的基于人工智能的虚拟现实人机交互方法，包括：训练阶段，包括：S110,获取训练数据，所述训练数据包括由用户输入的训练数字人语音控制信号，以及，所述动作类型标签的真实值；S120,对所述训练数字人语音控制信号进行语义识别以得到训练语音控制文本；S130,将所述训练语音控制文本通过所述基于AIGC模型的语义信息补偿器以得到训练补偿优化语音控制文本；S140,对所述训练补偿优化语音控制文本进行分词处理后通过所述包含词嵌入层的语义编码器以得到训练语音控制文本语义理解特征向量；S150,对所述训练语音控制文本语义理解特征向量进行优化以得到优化训练语音控制文本语义理解特征向量；S160,将所述优化训练语音控制文本语义理解特征向量通过所述分类器以得到分类损失函数值；S170,基于所述分类损失函数值并通过梯度下降的反向传播来对所述包含词嵌入层的语义编码器和所述分类器进行训练。

特别地，在本申请的技术方案中，在本申请的技术方案中，在将所述训练语音控制文本通过基于AIGC模型的语义信息补偿器时， AIGC模型生成的语音控制文本与基于用户输入的原始语音控制文本之间会具有固有语义差异。并且，在对所述训练补偿优化语音控制文本进行分词处理后通过包含词嵌入层的语义编码器以得到训练语音控制文本语义理解特征向量，并将所述训练语音控制文本语义理解特征向量通过分类器进行分类时，基于分词尺度下的文本语义特征编码在分类过程中也会基于语义特征编码尺度来进行尺度启发式的类概率映射。但是，考虑到具有具有语义空间分布差异的不同文本语义编码特征导致所述分类器的训练效率降低，本申请的申请人在将对所述训练语音控制文本语义理解特征向量通过分类器进行分类回归时，对于对所述训练语音控制文本语义理解特征向量进行优化，具体表示为：以如下优化公式对所述训练语音控制文本语义理解特征向量进行优化以得到所述优化训练语音控制文本语义理解特征向量；其中，所述优化公式为：

其中，是所述训练语音控制文本语义理解特征向量的第/>个位置的特征值，/>是所述训练语音控制文本语义理解特征向量的所有特征值的全局均值，且/>是所述训练语音控制文本语义理解特征向量的最大特征值，/>是所述优化训练语音控制文本语义理解特征向量的第/>个位置的特征值。

也就是，通过所述训练语音控制文本语义理解特征向量的全局分布特征参数的正则化仿函数的概念，上述优化基于所述训练语音控制文本语义理解特征向量的全局分布的参数向量式表征，来以回归概率的正则式表达模拟代价函数，从而对所述训练语音控制文本语义理解特征向量高维特征空间内的特征流形表征对于类回归概率下的基于分类器的权重矩阵的逐点回归特性进行建模，以捕获待分类的训练语音控制文本语义理解特征向量经由分类器模型的参数空间在高维特征流形的场景几何形状下的参数平滑式优化轨迹，提高其在所述分类器的分类概率回归下的训练效率。这样，能够实现数字角色能够根据用户发送的语音指令做出相应的动作效果，增强了虚拟现实体验的沉浸感和真实感，提升了用户体验和交互效果。

综上，根据本申请实施例的基于人工智能的虚拟现实人机交互方法被阐明，其通过在采集到用户输入的数字人语音控制信号后，在后端将该语音控制信号转化为语音控制文本，并引入语义理解和处理技术来进行语音控制文本的语义识别，以此来生成数字人动作控制指令，这样，能够实现用户通过语音发送指令，数字角色能够根据指令做出相应的动作和对话效果，增强了虚拟现实体验的沉浸感和真实感。同时，在此过程中，引入语义补偿技术来对于语音控制文本进行文本的修正，以避免用户个体差异和语言习惯不同而导致的语音识别效果欠佳问题，提升了用户体验和交互效果。

进一步地，还提供一种基于人工智能的虚拟现实人机交互系统。

根据本申请实施例的基于人工智能的虚拟现实人机交互系统，包括：信号获取模块，用于获取由用户输入的数字人语音控制信号；语义识别模块，用于对所述数字人语音控制信号进行语义识别以得到语音控制文本；语义编码模块，用于对所述语音控制文本进行语义编码以得到语音控制文本语义理解特征；控制指令生成模块，用于基于所述语音控制文本语义理解特征，生成数字人动作控制指令。

如上所述，根据本申请实施例的基于人工智能的虚拟现实人机交互系统可以实现在各种无线终端中，例如具有基于人工智能的虚拟现实人机交互算法的服务器等。在一种可能的实现方式中，根据本申请实施例的基于人工智能的虚拟现实人机交互系统可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如，该基于人工智能的虚拟现实人机交互系统可以是该无线终端的操作系统中的一个软件模块，或者可以是针对于该无线终端所开发的一个应用程序；当然，该基于人工智能的虚拟现实人机交互系统同样可以是该无线终端的众多硬件模块之一。

替换地，在另一示例中，该基于人工智能的虚拟现实人机交互系统与该无线终端也可以是分立的设备，并且该基于人工智能的虚拟现实人机交互系统可以通过有线和/或无线网络连接到该无线终端，并且按照约定的数据格式来传输交互信息。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于人工智能的虚拟现实人机交互方法，其特征在于，包括：

获取由用户输入的数字人语音控制信号；

基于所述语音控制文本语义理解特征，生成数字人动作控制指令；

所述方法还包括训练步骤：用于对包含词嵌入层的语义编码器和分类器进行训练；

所述训练步骤，包括：

获取训练数据，所述训练数据包括由用户输入的训练数字人语音控制信号，以及，动作类型标签的真实值；

对所述训练数字人语音控制信号进行语义识别以得到训练语音控制文本；

将所述训练语音控制文本通过所述基于AIGC模型的语义信息补偿器以得到训练补偿优化语音控制文本；

对所述训练补偿优化语音控制文本进行分词处理后通过所述包含词嵌入层的语义编码器以得到训练语音控制文本语义理解特征向量；

对所述训练语音控制文本语义理解特征向量进行优化以得到优化训练语音控制文本语义理解特征向量；

将所述优化训练语音控制文本语义理解特征向量通过所述分类器以得到分类损失函数值；

基于所述分类损失函数值并通过梯度下降的反向传播来对所述包含词嵌入层的语义编码器和所述分类器进行训练；

对所述训练语音控制文本语义理解特征向量进行优化以得到优化训练语音控制文本语义理解特征向量，包括：

以如下优化公式对所述训练语音控制文本语义理解特征向量进行优化以得到所述优化训练语音控制文本语义理解特征向量；

其中，所述优化公式为：其中，/>是所述训练语音控制文本语义理解特征向量的第/>个位置的特征值，/>是所述训练语音控制文本语义理解特征向量的所有特征值的全局均值，且/>是所述训练语音控制文本语义理解特征向量的最大特征值，/>是所述优化训练语音控制文本语义理解特征向量的第/>个位置的特征值。

2.根据权利要求1所述的基于人工智能的虚拟现实人机交互方法，其特征在于，对所述补偿优化语音控制文本进行分词处理后通过包含词嵌入层的语义编码器以得到语音控制文本语义理解特征向量作为所述语音控制文本语义理解特征，包括：

对所述补偿优化语音控制文本进行分词处理以将所述补偿优化语音控制文本转化为由多个词组成的词序列；

使用所述包含词嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列；

使用所述包含词嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量；

以及将所述多个全局上下文语义特征向量进行级联以得到所述语音控制文本语义理解特征向量。

3.根据权利要求2所述的基于人工智能的虚拟现实人机交互方法，其特征在于，基于所述语音控制文本语义理解特征，生成数字人动作控制指令，包括：

将所述语音控制文本语义理解特征向量通过分类器以得到分类结果，所述分类结果用于表示动作类型标签；

以及基于所述分类结果，生成数字人动作控制指令。

4.根据权利要求3所述的基于人工智能的虚拟现实人机交互方法，其特征在于，将所述优化训练语音控制文本语义理解特征向量通过所述分类器以得到分类损失函数值，包括：

使用所述分类器对所述优化训练语音控制文本语义理解特征向量进行处理以得到训练分类结果:

以及计算所述训练分类结果与所述动作类型标签的真实值之间的交叉熵损失函数值作为所述分类损失函数值。

5.一种基于人工智能的虚拟现实人机交互系统，其特征在于，包括：

语义编码模块，用于对所述语音控制文本进行语义编码以得到语音控制文本语义理解特征，其包括：

控制指令生成模块，用于基于所述语音控制文本语义理解特征，生成数字人动作控制指令；

所述系统还包括训练模块：用于对包含词嵌入层的语义编码器和分类器进行训练；

所述训练模块，具体用于：