CN117241077A

CN117241077A - 语音互动方法、装置和电子设备

Info

Publication number: CN117241077A
Application number: CN202311032467.XA
Authority: CN
Inventors: 朱俊丞; 陈浩泽; 孙静
Original assignee: Guangzhou Boguan Information Technology Co Ltd
Current assignee: Guangzhou Boguan Information Technology Co Ltd
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-12-15

Abstract

本发明提供了一种语音互动方法、装置和电子设备，通过显示有主播画面的终端设备接收语音数据，并识别语音数据对应的文本数据；基于主播画面中显示的主播虚拟角色对应的主播特征，对文本数据进行自然语音处理，得到与文本数据相匹配的对话文本；基于对话文本，确定对话文本对应的对话语音和对话文本对应的对话情绪；播放对话语音，并在播放对话语音时，基于对话情绪控制主播虚拟角色的动作和表情。该方式中，可基于用户发出的语音生成附带情感的对话语音，然后播放对话语音并基于对话语音的情感控制主播虚拟角色的动作和表情，从而该方式不仅可以基于生成的语音快速对用户的提问进行应答，还可通过主播虚拟角色为用户更加真实的虚拟直播体验。

Description

语音互动方法、装置和电子设备

技术领域

本发明涉及直播互动技术领域，尤其是涉及一种语音互动方法、装置和电子设备。

背景技术

在直播过程中，主播需要在特定时间内，与多名用户进行互动，当直播规模达到一定的数量级时，主播难以与每一名想要参与互动的用户进行充分交流，从而导致用户观看直播体验感较差，可能会造成用户付费意愿的下降或者用户的流失。

发明内容

本发明的目的在于提供一种语音互动方法、装置和电子设备，以使用户对直播内容的提问，可快速得到应答，从而提升用户直播体验感。

第一方面，本发明提供了一种语音互动方法，该方法应用于终端设备，该终端设备中显示有直播画面，直播画面中显示有主播虚拟角色，该方法包括：接收语音数据，并识别语音数据对应的文本数据；基于主播虚拟角色对应的主播特征，对文本数据进行自然语音处理，得到与文本数据相匹配的对话文本；其中，主播特征用于指示：主播虚拟角色对应的主播人物的对话特征和直播内容；基于对话文本，确定对话文本对应的对话语音和所述对话文本对应的对话情绪；播放对话语音，并在播放对话语音时，基于对话情绪控制主播虚拟角色的动作和表情。

第二方面，本发明提供了一种语音互动装置，该装置设置于终端设备，该终端设备中显示有直播画面，直播画面中显示有主播虚拟角色，该装置包括：语音识别模块，用于接收语音数据，并识别语音数据对应的文本数据；文本处理模块，用于基于主播虚拟角色对应的主播特征，对文本数据进行自然语音处理，得到与文本数据相匹配的对话文本；其中，主播特征用于指示：主播虚拟角色对应的主播人物的对话特征和直播内容；文本转化模块，用于基于对话文本，确定对话文本对应的对话语音和所述对话文本对应的对话情绪；语音播放模块，用于播放对话语音，并在播放对话语音时，基于对话情绪控制主播虚拟角色的动作和表情。

第三方面，本发明提供了一种电子设备，该电子设备包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述语音互动方法。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述语音互动方法。

本发明实施例带来了以下有益效果：

本发明提供的一种语音互动方法、装置和电子设备，首先通过显示有主播画面的终端设备接收语音数据，并识别语音数据对应的文本数据；进而基于主播画面中显示的主播虚拟角色对应的主播特征，对文本数据进行自然语音处理，得到与文本数据相匹配的对话文本；然后基于对话文本，确定对话文本对应的对话语音和对话文本对应的对话情绪；再播放对话语音，并在播放对话语音时，基于对话情绪控制主播虚拟角色的动作和表情。该方式中，可基于用户发出的语音生成附带情感的对话语音，然后播放对话语音并基于对话语音的情感控制主播虚拟角色的动作和表情，从而该方式不仅可以基于生成的语音快速对用户的提问进行应答，还可通过主播虚拟角色为用户更加真实的虚拟直播体验。

本发明的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施方式，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音互动方法的流程图；

图2为本发明实施例提供的另一种语音互动方法的流程图；

图3为本发明实施例提供的一种语音互动的流程示意图；

图4为本发明实施例提供的一种语音互动装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在直播生态中，直播平台通过高效的流媒体技术，实现了高质量的实时传输，使得观众可以随时随地观看直播内容，同时提供视频直播、音频直播、文字直播等多种直播形式。为了提高用户的参与度和用户黏性，直播平台一般会提供弹幕、点赞、评论、送礼物、打赏、醒目留言等社交互动功能。这些功能可以增加用户的参与感和归属感，提高用户的忠诚度。另一方面，随着虚拟现实技术的不断发展，直播平台开始为MR(Mixed Reality，混合现实)设备提供内容服务。通常是将虚拟直播内容画面投射在MR眼镜内部的透明玻璃屏幕上，再与现实相结合，同时，通过传感器识别手势指令，从而实现用户直接与虚拟直播内容进行交互。

然而，在这一过程中，往往需要在特定时间内，一名主播与多名用户进行互动，当直播规模达到一定的数量级时，主播本人难以与每一名想要参与互动的用户进行充分交流，主播难以与每一名想要参与互动的用户进行充分交流，从而导致用户观看直播体验感较差，可能会造成用户付费意愿的下降或者用户的流失。并且，目前的直播平台将目光聚焦于MR眼镜的手势识别方面的功能，而针对语音识别方面的内容尚未有与硬件相匹配的功能开发。

基于上述问题，本发明实施例提供了一种语音互动方法、装置和电子设备，该技术可以应用于直播的互动场景中。

为了便于对本发明实施例进行理解，首先对本发明实施例公开的一种语音互动方法进行详细介绍，该方法应用于终端设备，该终端设备中显示有直播画面，该直播画面中显示有主播虚拟角色，如图1所示，该方法包括如下具体步骤：

步骤S102，接收语音数据，并识别语音数据对应的文本数据。

在具体实现时，可以通终端设备中的语音采集装置，采集用户发出的语音数据。在采集到语音数据后对语音数据进行语音识别，将采集到的语音数据转化为文字形式，得到语音数据对应的文本数据。

在实际应用中，上述终端设备可以是手机、平板电脑或者个人计算机、混合实现设备等，具体根据研发需求或者用户操作确定。其中，混合实现设备也即是MR设备，该MR设备通常是指一种基于头戴显示器的设备，既能够拥有虚拟现实(VR)设备所具有的完全沉浸式的体验，同时又能够保留现实中真实物体的存在，从而将虚拟和现实世界进行结合。该MR设备可以包括MR眼镜，该MR眼镜通常是通过双目摄像头进行高动态范围的图像采集，经过计算机算法进行实时渲染得到新的“现实画面”，并大视角的呈现在MR眼镜内部的透明玻璃屏幕上。在一具体实施例中，可以通过MR眼镜自带的语音输入功能进行音频采样，采集得到配戴MR眼镜的用户发出的语音数据。在采集到语音数据后对语音数据进行语音识别，将采集到的语音数据转化为文字形式，得到语音数据对应的文本数据。

步骤S104，基于主播虚拟角色对应的主播特征，对文本数据进行自然语音处理，得到与文本数据相匹配的对话文本；其中，主播特征用于指示：主播虚拟角色对应的主播人物的对话特征和直播内容。

在得到语音数据对应的文本数据后，可以根据当前终端设备上显示的主播虚拟角色对应的主播特征，生成与文本数据对应的答复内容，该答复内容也即是与文本数据相匹配的对话文本。上述主播虚拟角色是根据当前直播的主播人物的形象生成的虚拟角色模型，在直播中或者直播结束后，可以通过主播虚拟角色模仿主播人物与用户进行交互，从而用户的提问或者对话可以实时得到反馈。具体地，针对不同的直播产品，本发明需要推出相对应的虚拟AI向导的主播虚拟角色，并在虚幻引擎中对其进行渲染、表情、动作等方面内容的制作。此外，针对已经生成的、附带情感信息的对话语音，本发明还需要为主播虚拟角色匹配相应的表情、动作，从而实现生动、活泼、具有视觉冲击力的虚拟AI向导角色形象。

在具体实现时，上述主播虚拟角色对应的主播特征包括：当前直播内容的内容特征，以及主播人物的对话特征，该对话特征包括但不限于主播人物的惯用语句、说话语气和说话语调等。上述与文本数据相匹配的对话文本的文本内容与当前直播内容和主播人物的对话特征相吻合。

步骤S106，基于对话文本，确定对话文本对应的对话语音和对话文本对应的对话情绪。

在得到对话文本后，还需要将对话文本转换成语音数据，得到对话文本对应的对话语音；同时，还可以根据对话文本进行情感分析，得到对话文本对应的对话情绪。具体地，可以通过预先训练好的神经网络模型或者深度学习模型等，对对话文本进行语音转换或者情感分析；还可以采用现有的文本转化语音的技术，将对话文本转换成语音数据，也可以采用现有的情感分析工具，对对话文本进行情感分析，得到对话情绪。

在一具体实施例中，还可以基于主播人物的主播特征，对对话语音进行优化处理，以得到与主播人物的说话特征相符的对话语音，从而提升用户的直播体验感。例如，该方式可对生成的对话语音进行音调高低、速度快慢等方面的调整和转换，从而赋予主播虚拟角色接近于人类的语言表达能力。

步骤S108，播放对话语音，并在播放对话语音时，基于对话情绪控制主播虚拟角色的动作和表情。

在得到对话语音对应的对话语音和对话情绪后，需要根据对话情绪确定虚拟角色的动作和表情，以在播放对话语音的同时，控制主播虚拟角色作出与对话情绪相匹配的动作和表情，从而为用户提供更加逼真的虚拟体验。

本发明实施例提供的一种语音互动方法，首先通过显示有主播画面的终端设备接收语音数据，并识别语音数据对应的文本数据；进而基于主播画面中显示的主播虚拟角色对应的主播特征，对文本数据进行自然语音处理，得到与文本数据相匹配的对话文本；然后基于对话文本，确定对话文本对应的对话语音和对话文本对应的对话情绪；再播放对话语音，并在播放对话语音时，基于对话情绪控制主播虚拟角色的动作和表情。该方式中，可基于用户发出的语音生成附带情感的对话语音，然后播放对话语音并基于对话语音的情感控制主播虚拟角色的动作和表情，从而该方式不仅可以基于生成的语音快速对用户的提问进行应答，还可通过主播虚拟角色为用户更加真实的虚拟直播体验。

本发明实施例还提供了另一种语音互动方法，该方法在上述实施例的基础上实现，该方法重点描述基于对话文本，确定对话文本对应的对话语音和对话文本对应的对话情绪的具体过程(具体通过下述步骤S210-S212实现)；如图2所示，该方法包括如下具体步骤：

步骤S202，接收语音数据，并识别语音数据对应的文本数据。

步骤S204，识别文本数据中的关键词，并判断关键词是否为预设关键词；如果是，执行步骤S206；否则，执行步骤S208。

在具体实现时，预先设置有多个预设关键词，每个预设关键词分别配置对应的预设命令；而且不同的预设关键词对应的预设命令不同。例如，预设关键词可以是“调高音量”、“降低亮度”等；其中，预设关键词“调高音量”对应的预设命令也即是将终端设备的音量调高；预设关键词“降低亮度”对应的预设命令也即是将屏幕亮度调低。

步骤S206，执行文本数据包含的预设关键词对应的预设命令。

如果文本数据中包含有预设关键词，那么会根据文本数据包含的预设关键词对应的预设命令直接作出反馈。例如，预设命令为将屏幕亮度调低，此时会将屏幕亮度调低。

步骤S208，基于主播虚拟角色对应的主播特征，对文本数据进行自然语音处理，得到与文本数据相匹配的对话文本。

步骤S210，对对话文本进行语音转换，得到对话文本对应的对话语音。

在具体实现时，可以采用语音生成技术，将对话文本转换为对话语音，例如，可以采用VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)语音生成技术或者其他语生成技术等。

在一具体实施例中，可以将对话文本转化为发音规则；将发音规则输入至预先训练完成的语音编辑器中，语音编辑器会根据发音规则生成语音特征；然后将语音特征输入至预选训练完成的语音合成模型中，语音合成模型会根据语音特征合成语音，得到对话语音。该方式生成的语音质量较高，且能够生成流畅的语音。具体地，上述语音编辑器和语音合成模型是预先训练好的，且该方式需要大量的预料进行训练，以得到加好的语音合成效果。

步骤S212，将对话文本输入至预先训练完成的情绪分类模型中，得到对话文本对应的目标情绪分类，将目标情绪分类确定为对话文本对应的对话情绪。

在得到对话文本后，还需要进行情绪识别，用于后续的主播虚拟角色的动作输出。本发明需要预先标记好语料内容和其对应的情绪供情绪分类模型学习，模型训练完成后，模型会自动分析对话文本中的情绪，将其分类为积极、消极或中性等不同的情绪类别，并标记在一个向量空间中，最后输出一个代表某类预设情绪的标识符，该标识符对应的情绪也即是对话文本对应的对话情绪。具体地，上述情绪分类模型可采用现有的深度学习模型或者神经网络模型等。

在一具体实施例中，本发明的情绪分类模型可采用BERT(Bidirectional EncoderRepresentations from Transformers)模型。其中，BERT模型是一种预训练的语言模型，采用了Transformer架构，通过无监督学习从大规模的文本数据中学习语言表示。本发明利用BERT模型的预训练能力和上下文理解能力，以及分类任务的微调，将其应用于本发明的情绪分类任务中。

具体地，使用BERT模型进行情绪识别的流程如下：

1、预训练BERT模型：使用大规模的文本语料库对BERT模型进行预训练。这个阶段的目标是让模型学习到语言的潜在结构和语义表示。

2、微调BERT模型：使用带有标记的情绪分类数据集对预训练的BERT模型进行微调。将情绪分类任务的标记数据输入到BERT模型中，通过反向传播和梯度下降等方法，优化模型参数以适应情绪分类任务。

3、特征提取与表示：在微调完成后，可以使用BERT模型的隐藏层表示或池化层表示来表示输入文本的特征。这些特征捕捉了文本的上下文信息和语义信息，有助于情绪分类任务。

4、情绪分类：利用微调后的BERT模型和提取的特征，对新的文本进行情绪分类。通过将对话文本输入到BERT模型中，获取模型的输出，并通过一个分类器(如逻辑回归、支持向量机等)进行情绪分类预测，得到对话文本对应的对话情绪。

步骤S214，播放上述对话语音，并在播放对话语音时，基于对话情绪控制主播虚拟角色的动作和表情。

上述语音互动方法，可以将文字转换成用户可以听见的语音内容。除此之外，人类的语言表达往往会附带一定的感情，直接将文字转换成语音内容，难以还原原文中的情感信息，造成“机器音”的体验感受，故本发明还需要对生成的文字信息进行情感提取，并对生成的语音内容进行音调高低、速度快慢等方面的调整和转换，从而赋予接近于人类的语言表达能力。

下述实施例重点描述得到与文本数据相匹配的对话文本的方式，以及对对话文本的处理方式。

具体地，上述基于主播虚拟角色对应的主播特征，对文本数据进行自然语音处理，得到与文本数据相匹配的对话文本的步骤，包括：将文本数据输入至预先训练完成的自然语言处理模型中，得到与文本数据相匹配的对话文本；其中，自然语言处理模型是通过训练数据集训练得到的；训练数据集中包含有多个训练样本，训练样本包括：训练文本和该训练文本对应的对话文本；对话文本为主播人物基于训练文本回复的对话内容。

在具体实现时，上述自然语言处理模型可以是深度学习模型或者神经网络模型等，还可以是其他模型，具体可根据研发需求确定。上述训练数据集中包含有大量的训练样本，在训练自然语言处理模型时，在使用训练数据集的同时，还针对具体使用场景，使用了不同的背景介绍、惯用语句、角色个性描写等内容对自然语言处理模型进行训练，使自然语言处理模型能够根据其所在的场景，针对性输出相应的语句，扮演不同的角色，达到更好的角色代入感。

在一具体实施例中，本发明的自然语言处理模型可以使用基于生成式预训练模型的聊天机器，例如，该自然语言处理模型可以采用ChatGPT模型。ChatGPT模型是一种使用深度学习技术训练的自然语言处理模型，它使用了大量的文本数据进行预训练。通过在海量文本数据上进行自监督学习，模型能够学习到语言的结构、语法规则和常见的语义关联。ChatGPT能够根据给定的输入文本生成相关的回复。它的设计目标是使对话流畅自然，能够理解上下文并生成合理的响应。该模型可以用于多种应用，例如在线客服聊天机器人、智能助手、社交媒体应答等。本发明使用与直播内容相对应的训练数据集用于微调模型，从而生成具有独特人格的虚拟角色向导的自然语言处理模型。

如图3所示为本发明实施例提供的一种语音互动的流程示意图，图3中采用ChatGPT进行自然语言生成、使用VITS处理语音生成、基于BERT判断情绪识别，最终通过UE5虚幻一定渲染主播虚拟角色，从而实现虚拟AI向导的功能。图3中首先通过语音采集装置进行音频采样，针对输入的音频数据，使用已有的通用开源模型进行语音识别，将输入的语音转化为文字；针对转化后的文字进行关键字检索，当文字包含有预设关键词时，直接做出该预设关键词对应的预设命令的事件反馈。如果文字中不包含有预设关键词，使用将文字直接输入ChatGPT中，通过ChatGPT生成对话文本。对于ChatGPT生成的对话文本，本发明采用了VITS进行语音生成，得到对话语音。对于ChatGPT生成的对话文本，本发明还需要进行情绪识别，也即是使用BERT模型得到对话情绪，用于后续的虚拟角色的预设动作输出。

具体地，ChatGPT能够理解和生成自然语言，而虚幻引擎提供了强大的虚拟环境和交互性，结合两者可以创建一个自然语言驱动的虚拟角色向导，使用户能够通过语言与虚拟角色进行交互。这种自然语言交互可以提供更直观、便捷的用户体验，让用户感觉像在与一个真实的人对话。进一步地，ChatGPT可以根据用户的输入和需求生成个性化的回复，虚幻引擎则提供了丰富的定制和表现能力。结合两者，虚拟AI向导可以根据用户的喜好和个性化需求，提供定制化的服务和体验。这种个性化用户体验可以增加用户的参与度和满意度。

在可选实施例中，得到与文本数据相匹配的对话文之后，可以对对话文本进行分割处理，得到对话文本对应的多个子文本；然后针对多个子文本，确定当前子文本对应的对话语音和当前子文本对应的对话情绪。由于自然语言处理模型是根据上下文推理得到的对话文本，无法一次性给出最终对话文本，等待自然语言处理模型回答出所有内容再进行后续步骤将会等待较长的时间。对此，本发明做出逐句分割的优化模式，也即是实时读取自然语言模型输出的内容，识别对话文本中逗号、句号、破折号等断句符号，从而对对话文本中大段的文本内容进行分割，这样能够将文字输出和后续的情绪处理、语音生成同步生成，完成流水线式语音产出。该方式可以解决自然语言处理模型生成对话文本过慢的问题，从而可与用户进行实时的应答和互动。

本发明结合自然语言处理模型和虚幻引擎的虚拟角色向导可以实现更高程度的人机协作和互动。用户可以通过语音或文本与虚拟角色向导进行实时对话，提问问题、寻求帮助或进行交流。虚拟角色向导可以根据用户的需求和反馈做出相应的反应和行动，增强用户与虚拟环境之间的沟通和互动性。

下述实施例重点描述控制主播虚拟角色的动作和表情的方式。

具体地，上述基于对话情绪控制主播虚拟角色的动作和表情的步骤，包括：将对话情绪输入至预设动画状态机，得到主播虚拟角色的目标动作和目标表情；基于目标动作和目标表情，控制主播虚拟角色的动作和表情。该方式使用了动画状态机系统管理主播虚拟角色的动作、行为和表情，从而达到人机交互的效果。

在具体实现时，预设动画状态机包括多个预设状态，以及多个预设状态之间的状态转换条件；其中，预设状态配置有：预设情绪和预设情绪对应的角色动画；角色动画包括角色动作和角色表情；上述将对话情绪输入至预设动画状态机，得到主播虚拟角色的目标动作和目标表情的步骤，包括：将对话情绪输入至预设状态机，确定与对话情绪相匹配的预设状态，基于相匹配的预设状态对应的角色动画，确定主播虚拟角色的目标动作和目标表情。

具体地，研发人员需要预先确定预设动画状态机包含有哪些预设状态，这些状态可以代表主播虚拟角色的不同行为或状态。例如，"站立"、"行走"、"跳跃"等。这些预设状态将会与预先制作好的动画资产关联。还需要定义状态变量来跟踪当前的状态。该变量用于接收对话情绪，用于在虚幻引擎中调用对应情绪的预设内容，如动作、表情、特效、摄像机运动等。研发人员还需要使用虚幻引擎的动画状态机功能创建一个状态转换图，将预设状态和状态转换条件进行可视化表示，从而更好地理解和管理预设动画状态机的逻辑，这部分内容将会自动处理不同预设状态之间的动画混合，包括不同情绪到闲置状态，闲置状态动画再到另一种情绪的动画。

研发人员还需要为每个预设状态定义相应的行为，这些行为包含不同情绪所对应的动画、表情、摄像机抖动、触发相应的事件等调用逻辑。还需要通过状态变量接收到的数值实现状态转换的逻辑，给不同情绪状态创建相应的枚举，在主播虚拟角色变脸改变时调用相应枚举的状态行为。具体地，当用户进行下一次语音输入，识别后的情绪会改变状态变量，状态转换逻辑将会切换至相对应的内容，从而完成虚拟角色不同情绪表现的输出。

在一具体实施例中，还需对预设动画状态机进行测试和调试，确保状态转换和行为的正确性，通过调试工具和日志输出来检查预设动画状态机的运行情况，修复可能出现的问题。

相较于传统直播模式，本发明可以实现更高程度的人机协作和互动，用户可以通过语音或文本与虚拟AI向导进行实时对话，提问问题、寻求帮助或进行交流。虚拟AI向导可以根据用户的需求和反馈做出相应的反应和行动，增强用户与虚拟环境之间的沟通和互动性。

此外，在上述终端设备与MR设备时，虚拟AI向导与MR设备的结合能够将虚拟内容与真实世界融合在一起，让用户身临其境。用户可以通过MR眼镜直接看到虚拟人物与场景，搭配麦克风和扬声器，与虚拟AI向导进行实时的语音交互。这种语音交互能够增加交互的自然性和便利性，用户可以直接提问、寻求帮助或进行对话，而无需使用其他输入设备，实现更加沉浸式的交互体验。这使得用户能够更自然地与虚拟人物进行互动，增加了交互的真实感和身临其境的感觉。

而且，MR眼镜通常具备高分辨率的显示屏和跟踪技术，可以实时显示虚拟人物的面部表情和情感。结合虚拟AI向导，可以通过面部表情和语音模拟表达情感和情绪，增加了与用户的情感连接和沟通效果。这种情感传达可以使虚拟AI向导更加生动和亲近，增强用户与虚拟AI向导的情感共鸣。

对应于上述方法实施例，本发明实施例还提供了一种语音互动装置，该装置设置于终端设备，该终端设备中显示有直播画面，直播画面中显示有主播虚拟角色，如图4所示，该装置包括：

语音识别模块40，用于接收语音数据，并识别语音数据对应的文本数据。

文本处理模块41，用于基于主播虚拟角色对应的主播特征，对文本数据进行自然语音处理，得到与文本数据相匹配的对话文本；其中，主播特征用于指示：主播虚拟角色对应的主播人物的对话特征和直播内容。

文本转化模块42，用于基于对话文本，确定对话文本对应的对话语音和对话文本对应的对话情绪。

语音播放模块43，用于播放对话语音，并在播放对话语音时，基于对话情绪控制主播虚拟角色的动作和表情。

上述语音互动装置，首先通过显示有主播画面的终端设备接收语音数据，并识别语音数据对应的文本数据；进而基于主播画面中显示的主播虚拟角色对应的主播特征，对文本数据进行自然语音处理，得到与文本数据相匹配的对话文本；然后基于对话文本，确定对话文本对应的对话语音和对话文本对应的对话情绪；再播放对话语音，并在播放对话语音时，基于对话情绪控制主播虚拟角色的动作和表情。该方式中，可基于用户发出的语音生成附带情感的对话语音，然后播放对话语音并基于对话语音的情感控制主播虚拟角色的动作和表情，从而该方式不仅可以基于生成的语音快速对用户的提问进行应答，还可通过主播虚拟角色为用户更加真实的虚拟直播体验。

具体地，上述装置还包括关键词识别模块，用于：在接收语音数据，并识别语音数据对应的文本数据之后，识别文本数据中的关键词，并判断关键词是否为预设关键词；其中，不同预设关键词分别配置对应的预设命令；如果是，执行文本数据包含的预设关键词对应的预设命令；如果不是，执行基于主播虚拟角色对应的主播特征，对文本数据进行自然语音处理，得到与文本数据相匹配的对话文本的步骤。

进一步地，上述文本处理模块41，用于：将文本数据输入至预先训练完成的自然语言处理模型中，得到与文本数据相匹配的对话文本；其中，自然语言处理模型是通过训练数据集训练得到的；训练数据集中包含有多个训练样本，训练样本包括：训练文本和训练文本对应的对话文本；对话文本为主播人物基于训练文本回复的对话内容。

在具体实现时，上述装置还包括文本分割模块，用于：在基于对话文本，确定对话文本对应的对话语音和对话文本对应的对话情绪之前，对对话文本进行分割处理，得到对话文本对应的多个子文本。基于此，上述文本转化模块42，用于：针对多个子文本，确定当前子文本对应的对话语音和当前子文本对应的对话情绪。

进一步地，上述文本转化模块42，用于：对对话文本进行语音转换，得到对话文本对应的对话语音；将对话文本输入至预先训练完成的情绪分类模型中，得到对话文本对应的目标情绪分类，将目标情绪分类确定为对话文本对应的对话情绪。

在具体实现时，上述文本转化模块42，还用于：将对话文本转化为发音规则；将发音规则输入至预先训练完成的语音编辑器中，得到语音特征；将语音特征输入至预选训练完成的语音合成模型中，得到对话语音。

进一步地，上述语音播放模块43，用于：将对话情绪输入至预设动画状态机，得到主播虚拟角色的目标动作和目标表情；基于目标动作和目标表情，控制主播虚拟角色的动作和表情。

在实际应用中，上述预设动画状态机包括多个预设状态，以及多个预设状态之间的状态转换条件；其中，预设状态配置有：预设情绪和预设情绪对应的角色动画；角色动画包括角色动作和角色表情；上述语音播放模块43，还用于：将对话情绪输入至预设状态机，确定与对话情绪相匹配的预设状态，基于相匹配的预设状态对应的角色动画，确定主播虚拟角色的目标动作和目标表情。

本发明实施例所提供的语音互动装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例还提供了一种电子设备，如图5所示，该电子设备包括处理器和存储器，该存储器存储有能够被处理器执行的机器可执行指令，该处理器执行机器可执行指令以实现上述语音互动方法。

具体地，上述语音互动方法应用于终端设备，所述终端设备中显示有直播画面，直播画面中显示有主播虚拟角色，该方法包括：接收语音数据，并识别语音数据对应的文本数据；基于主播虚拟角色对应的主播特征，对文本数据进行自然语音处理，得到与文本数据相匹配的对话文本；其中，主播特征用于指示：主播虚拟角色对应的主播人物的对话特征和直播内容；基于对话文本，确定对话文本对应的对话语音和对话文本对应的对话情绪；播放对话语音，并在播放对话语音时，基于对话情绪控制主播虚拟角色的动作和表情。

上述语音互动方法可基于用户发出的语音生成附带情感的对话语音，然后播放对话语音并基于对话语音的情感控制主播虚拟角色的动作和表情，从而该方式不仅可以基于生成的语音快速对用户的提问进行应答，还可通过主播虚拟角色为用户更加真实的虚拟直播体验。

在可选实施例中，在接收语音数据，并识别语音数据对应的文本数据的步骤之后，上述方法还包括：识别文本数据中的关键词，并判断关键词是否为预设关键词；其中，不同预设关键词分别配置对应的预设命令；如果是，执行文本数据包含的预设关键词对应的预设命令；如果不是，执行基于主播虚拟角色对应的主播特征，对文本数据进行自然语音处理，得到与文本数据相匹配的对话文本的步骤。

在可选实施例中，上述基于主播虚拟角色对应的主播特征，对文本数据进行自然语音处理，得到与文本数据相匹配的对话文本的步骤，包括：将文本数据输入至预先训练完成的自然语言处理模型中，得到与文本数据相匹配的对话文本；其中，自然语言处理模型是通过训练数据集训练得到的；训练数据集中包含有多个训练样本，训练样本包括：训练文本和训练文本对应的对话文本；对话文本为主播人物基于训练文本回复的对话内容。

在可选实施例中，在基于对话文本，确定对话文本对应的对话语音和对话文本对应的对话情绪的步骤之前，上述方法还包括：对对话文本进行分割处理，得到对话文本对应的多个子文本；上述基于对话文本，确定对话文本对应的对话语音和对话文本对应的对话情绪的步骤，包括：针对多个子文本，确定当前子文本对应的对话语音和当前子文本对应的对话情绪。

在可选实施例中，上述基于对话文本，确定对话文本对应的对话语音和对话文本对应的对话情绪的步骤，包括：对对话文本进行语音转换，得到对话文本对应的对话语音；将对话文本输入至预先训练完成的情绪分类模型中，得到对话文本对应的目标情绪分类，将目标情绪分类确定为对话文本对应的对话情绪。

在可选实施例中，上述对对话文本进行语音转换，得到对话文本对应的对话语音的步骤，包括：将对话文本转化为发音规则；将发音规则输入至预先训练完成的语音编辑器中，得到语音特征；将语音特征输入至预选训练完成的语音合成模型中，得到对话语音。

在可选实施例中，上述基于对话情绪控制主播虚拟角色的动作和表情的步骤，包括：将对话情绪输入至预设动画状态机，得到主播虚拟角色的目标动作和目标表情；基于目标动作和目标表情，控制主播虚拟角色的动作和表情。

在可选实施例中，上述预设动画状态机包括多个预设状态，以及多个预设状态之间的状态转换条件；其中，预设状态配置有：预设情绪和预设情绪对应的角色动画；角色动画包括角色动作和角色表情；上述将对话情绪输入至预设动画状态机，得到主播虚拟角色的目标动作和目标表情的步骤，包括：将对话情绪输入至预设状态机，确定与对话情绪相匹配的预设状态，基于相匹配的预设状态对应的角色动画，确定主播虚拟角色的目标动作和目标表情。

进一步地，图5所示的电子设备还包括总线102和通信接口103，处理器101、通信接口103和存储器100通过总线102连接。

其中，存储器100可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100，处理器101读取存储器100中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令在被处理器调用和执行时，该计算机可执行指令促使处理器实现上述语音互动方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端设备，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种语音互动方法，其特征在于，所述方法应用于终端设备，所述终端设备中显示有直播画面，所述直播画面中显示有主播虚拟角色，所述方法包括：

接收语音数据，并识别所述语音数据对应的文本数据；

基于所述主播虚拟角色对应的主播特征，对所述文本数据进行自然语音处理，得到与所述文本数据相匹配的对话文本；其中，所述主播特征用于指示：所述主播虚拟角色对应的主播人物的对话特征和直播内容；

基于所述对话文本，确定所述对话文本对应的对话语音和所述对话文本对应的对话情绪；

播放所述对话语音，并在播放所述对话语音时，基于所述对话情绪控制所述主播虚拟角色的动作和表情。

2.根据权利要求1所述的方法，其特征在于，所述接收语音数据，并识别所述语音数据对应的文本数据的步骤之后，所述方法还包括：

识别所述文本数据中的关键词，并判断所述关键词是否为预设关键词；其中，不同所述预设关键词分别配置对应的预设命令；

如果是，执行所述文本数据包含的预设关键词对应的预设命令；

如果不是，执行基于所述主播虚拟角色对应的主播特征，对所述文本数据进行自然语音处理，得到与所述文本数据相匹配的对话文本的步骤。

3.根据权利要求1所述的方法，其特征在于，所述基于所述主播虚拟角色对应的主播特征，对所述文本数据进行自然语音处理，得到与所述文本数据相匹配的对话文本的步骤，包括：

将所述文本数据输入至预先训练完成的自然语言处理模型中，得到与所述文本数据相匹配的对话文本；

其中，所述自然语言处理模型是通过训练数据集训练得到的；所述训练数据集中包含有多个训练样本，所述训练样本包括：训练文本和所述训练文本对应的对话文本；所述对话文本为所述主播人物基于所述训练文本回复的对话内容。

4.根据权利要求1所述的方法，其特征在于，所述基于所述对话文本，确定所述对话文本对应的对话语音和所述对话文本对应的对话情绪的步骤之前，所述方法还包括：

对所述对话文本进行分割处理，得到所述对话文本对应的多个子文本；

所述基于所述对话文本，确定所述对话文本对应的对话语音和所述对话文本对应的对话情绪的步骤，包括：

针对所述多个子文本，确定当前子文本对应的对话语音和所述当前子文本对应的对话情绪。

5.根据权利要求1所述的方法，其特征在于，所述基于所述对话文本，确定所述对话文本对应的对话语音和所述对话文本对应的对话情绪的步骤，包括：

对所述对话文本进行语音转换，得到所述对话文本对应的对话语音；

将所述对话文本输入至预先训练完成的情绪分类模型中，得到所述对话文本对应的目标情绪分类，将所述目标情绪分类确定为所述对话文本对应的对话情绪。

6.根据权利要求5所述的方法，其特征在于，所述对所述对话文本进行语音转换，得到所述对话文本对应的对话语音的步骤，包括：

将所述对话文本转化为发音规则；

将所述发音规则输入至预先训练完成的语音编辑器中，得到语音特征；

将所述语音特征输入至预选训练完成的语音合成模型中，得到所述对话语音。

7.根据权利要求1所述的方法，其特征在于，所述基于所述对话情绪控制所述主播虚拟角色的动作和表情的步骤，包括：

将所述对话情绪输入至预设动画状态机，得到所述主播虚拟角色的目标动作和目标表情；

基于所述目标动作和所述目标表情，控制所述主播虚拟角色的动作和表情。

8.根据权利要求7所述的方法，其特征在于，所述预设动画状态机包括多个预设状态，以及所述多个预设状态之间的状态转换条件；其中，所述预设状态配置有：预设情绪和所述预设情绪对应的角色动画；所述角色动画包括角色动作和角色表情；

所述将所述对话情绪输入至预设动画状态机，得到所述主播虚拟角色的目标动作和目标表情的步骤，包括：

将所述对话情绪输入至预设状态机，确定与所述对话情绪相匹配的预设状态，基于所述相匹配的预设状态对应的角色动画，确定所述主播虚拟角色的目标动作和目标表情。

9.一种语音互动装置，其特征在于，所述装置设置于终端设备，所述终端设备中显示有直播画面，所述直播画面中显示有主播虚拟角色，所述装置包括：

语音识别模块，用于接收语音数据，并识别所述语音数据对应的文本数据；

文本处理模块，用于基于所述主播虚拟角色对应的主播特征，对所述文本数据进行自然语音处理，得到与所述文本数据相匹配的对话文本；其中，所述主播特征用于指示：所述主播虚拟角色对应的主播人物的对话特征和直播内容；

文本转化模块，用于基于所述对话文本，确定所述对话文本对应的对话语音和所述对话文本对应的对话情绪；

语音播放模块，用于播放所述对话语音，并在播放所述对话语音时，基于所述对话情绪控制所述主播虚拟角色的动作和表情。

10.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1至8任一项所述的语音互动方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，所述计算机可执行指令促使所述处理器实现权利要求1至8任一项所述的语音互动方法。