CN117155885A

CN117155885A - 基于虚拟形象的语音交互方法、电子设备及存储介质

Info

Publication number: CN117155885A
Application number: CN202311058527.5A
Authority: CN
Inventors: 张鹏; 刘帅
Original assignee: Netease Youdao Hangzhou Intelligent Technology Co ltd
Current assignee: Netease Youdao Hangzhou Intelligent Technology Co ltd
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2023-12-01

Abstract

本发明的实施方式提供了一种基于虚拟形象的语音交互方法、电子设备及存储介质。其中，所述语音交互方法包括：响应于接收到用户的交互信息，获取关于交互信息的语音答复；根据语音答复，生成虚拟形象图像和音频信息；对虚拟形象图像和音频信息进行缓存和/或对齐处理；以及对经缓存和/或对齐处理后的虚拟形象图像进行动态展示，并播报所展示的虚拟形象图像对应的音频信息。通过本发明的技术方案，在电子设备上落地基于虚拟形象的语音交互设计时，仅需要电子设备能够播放音频、图片即可，对电子设备的性能以及硬件配置要求较低，突破了语音交互技术无法落地低配设备的技术瓶颈。

Description

基于虚拟形象的语音交互方法、电子设备及存储介质

技术领域

本发明的实施方式涉及信息处理技术领域，更具体地，本发明的实施方式涉及基于虚拟形象的语音交互方法，以及执行前述语音交互方法的电子设备和计算机可读存储介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。

人工智能聊天服务是一种为用户提供随时可用虚拟语音助手的服务，可以通过一虚拟人与用户进行语音对话交互。然而，目前关于该人工智能聊天服务的技术多是闭源的，且一些电子设备(例如，词典笔、听力学习机、扫描翻译笔等)受限于软硬件配置，使得该项人工智能聊天服务技术尚未在该类电子设备上具体落地，形成一定的技术瓶颈。

发明内容

已知的针对电子设备上落地基于虚拟形象的语音交互设计效果不理想，这是非常令人烦恼的过程。

为此，非常需要一种改进的基于虚拟形象的语音交互方案，能够利用与语音答复相关的虚拟形象图像和音频信息的同步展示，实现基于虚拟形象的语音交互技术的落地。

在本上下文中，本发明的实施方式期望提供一种基于虚拟形象的语音交互方法、电子设备及存储介质。

在本发明实施方式的第一方面中，提出了一种基于虚拟形象的语音交互方法，包括：响应于接收到用户的交互信息，获取关于所述交互信息的语音答复；根据所述语音答复，生成虚拟形象图像和音频信息；对所述虚拟形象图像和所述音频信息进行缓存和/或对齐处理；以及对经缓存和/或对齐处理后的虚拟形象图像进行动态展示，并播报所展示的虚拟形象图像对应的音频信息。

在本发明的一个实施例中，生成虚拟形象图像和音频信息包括：基于训练好的虚拟形象生成模型对所述语音答复进行处理，以输出关于所述语音答复的虚拟形象图像和音频信息。

在本发明的另一个实施例中，对所述虚拟形象图像和所述音频信息进行缓存和/或对齐处理包括：对所述虚拟形象生成模型输出的每一帧虚拟形象图像和其对应的音频信息进行对齐处理；和/或将对齐处理后的虚拟形象图像和音频信息存入缓存中。

在本发明的又一个实施例中，对所述虚拟形象图像和所述音频信息进行缓存和/或对齐处理包括：获取所述每一帧虚拟形象图像和其对应的音频信息的时间戳；以及将所述每一帧虚拟形象图像、其对应的音频信息和时间戳作为整体存放在所述缓存中。

在本发明的再一个实施例中，对所述虚拟形象图像和所述音频信息进行缓存和/或对齐处理包括：获取所述每一帧虚拟形象图像和其对应的音频信息的编号；以及将所述每一帧虚拟形象图像、其对应的音频信息和编号作为整体存放在所述缓存中。

在本发明的一个实施例中，对经缓存和/或对齐处理后的虚拟形象图像进行动态展示包括：基于画布组件周期性地将经缓存和/或对齐处理后的虚拟形象图像写入画布中，以实现虚拟形象图像的动态展示。

在本发明的另一个实施例中，播报所展示的虚拟形象图像对应的音频信息包括：基于音频播报组件对所展示的虚拟形象图像对应的音频信息进行播放。

在本发明的又一个实施例中，所述方法还包括：响应于所述缓存中的数据达到阈值，触发针对所述虚拟形象图像的动态展示操作和针对所述虚拟形象图像对应的音频信息的播报操作。

在本发明的再一个实施例中，获取关于所述交互信息的语音答复包括：将所述交互信息发送至云端服务器；以及获取所述云端服务器基于所述交互信息反馈的脉冲编码调制格式的语音答复。

在本发明实施方式的第二方面中，提供了一种电子设备，包括：处理器；以及存储器，其存储有基于虚拟形象的语音交互的计算机指令，当所述计算机指令由所述处理器运行时，使得所述电子设备执行根据前文以及下文多个实施例所述的方法。

在本发明实施方式的第三方面中，提供了一种计算机可读存储介质，包含有基于虚拟形象的语音交互的程序指令，当所述程序指令由处理器执行时，使得实现根据前文以及下文多个实施例所述的方法。

根据本发明实施方式的基于虚拟形象的语音交互方法、电子设备及存储介质，可以利用与用户的交互信息相关的语音答复来生成虚拟形象图像和音频信息，并对所生成的虚拟形象图像和音频信息进行同步展示。由此，该基于虚拟形象的语音交互技术在具体落地时，仅需要电子设备能够播放音频、图片即可，对电子设备的性能以及硬件配置要求较低，突破了语音交互技术无法落地低配设备的技术瓶颈。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了适于实现本发明实施方式的示例性计算系统100的框图；

图2示意性地示出了根据本发明一个实施例的基于虚拟形象的语音交互方法的流程示意图；

图3示意性地示出了根据本发明另一个实施例的基于虚拟形象的语音交互方法的流程示意图；

图4示意性地示出了根据本发明又一个实施例的基于虚拟形象的语音交互方法的流程示意图；以及

图5示意性地示出了根据本发明实施例的电子设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

图1示出了适于实现本发明实施方式的示例性计算系统100的框图。如图1所示，计算系统100可以包括：中央处理单元(CPU)101、随机存取存储器(RAM)102、只读存储器(ROM)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。这些设备中，与系统总线104耦合的有CPU 101、RAM 102、ROM 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合，键盘111与键盘控制器106耦合，串行外部设备112与串行接口控制器107耦合，并行外部设备113与并行接口控制器108耦合，以及显示器114与显示控制器109耦合。应当理解，图1所述的结构框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些设备。

本领域技术技术人员知道，本发明的实施方式可以实现为一种系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式，本文一般称为“电路”、“模块”、“单元”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

下面将参照本发明实施例的方法的流程图和设备(或系统)的框图描述本发明的实施方式。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

根据本发明的实施方式，提出了一种基于虚拟形象的语音交互方法、电子设备及存储介质。此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

发明人发现，目前针对电子设备上落地虚拟形象的语音交互设计效果不理想。具体地，通常该类虚拟形象的语音交互设计(例如人工智能聊天服务)多是闭源的，仅限于在某类(例如IOS)系统中运行。另外，该类虚拟形象的语音交互设计一般落地在一些配置较高的设备中，其对系统配置要求较高，普适性较差。

对此，发明人经研究发现，目前市面上流通的电子设备均可支持一些语音、图片的展示，即便是配置较低的设备也可以具备语音、图片的展示等基础配置，可以将针对交互过程中的语音答复生成虚拟形象图像和对应的音频，并调用电子设备中的这些基础配置来同步对虚拟形象图像和音频进行播放，以实现虚拟形象的语音交互设计在电子设备中的具体落地。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

示例性方法

下面参考图2来描述根据本发明示例性实施方式的基于虚拟形象的语音交互方法。需要注意的是，本发明的实施方式可以应用于适用的任何场景。

图2示意性地示出了根据本发明一个实施例的基于虚拟形象的语音交互方法200(以下简称方法200)的流程示意图。

如图2所示，在步骤S201处，可以响应于接收到用户的交互信息，获取关于交互信息的语音答复。这里的交互信息可以理解是用户与电子设备之间的交互信息，通常用户侧可以以语音或文字形式向电子设备输入该交互信息，而电子设备则可以根据该交互信息给出相应的语音答复。需要说明的是，方法200所适应的人机交互场景并不进行限定，例如可以是口语对话练习场景，或者生活或工作中的咨询类交互场景等。另外，这里对交互信息的描述为示例性说明，具体可以根据用户与电子设备之间的人机交互设计来调整。

在步骤S202处，可以根据语音答复，生成虚拟形象图像和音频信息。在根据用户的交互信息获取到相关的语音答复之后，可以根据该语音答复来生成虚拟形象图像和音频信息，以便借助虚拟形象图像和音频信息来对语音答复进行可视化展示。

在步骤S203处，可以对虚拟形象图像和音频信息进行缓存和/或对齐处理。语音答复为流式数据，依据语音答复所生成的虚拟形象图像和音频信息也为流式数据，针对流式虚拟形象图像和音频信息需要进行缓存和/或对齐处理，以便后续虚拟形象图像和音频信息能够同步展示。

在步骤S204处，可以对经缓存和/或对齐处理后的虚拟形象图像进行动态展示，并播报所展示的虚拟形象图像对应的音频信息。通常电子设备会含有语音、图片展示等基础配置，在对虚拟形象图像和音频信息进行缓存和/或对齐处理后，可以通过这些基础配置来实现虚拟形象图像和音频信息的同步展示。

由此，可以利用与用户的交互信息相关的语音答复来生成虚拟形象图像和音频信息，并对所生成的虚拟形象图像和音频信息进行同步展示，使得基于虚拟形象的语音交互技术在具体落地时，仅需要电子设备能够播放音频、图片即可，对电子设备的性能以及硬件配置要求较低，突破了语音交互技术无法落地低配设备的技术瓶颈。由此提高了基于虚拟形象的语音交互技术的普适性，使得该技术可以在例如具备linux系统、轻应用显示框架HaaS UI等的电子设备中很好落地。

图3示意性地示出了根据本发明另一个实施例的基于虚拟形象的语音交互方法300(以下简称方法300)的流程示意图。可以理解的是，方法300是对图2中方法200的进一步限定和/或拓展。因此，前文结合图2的相关细节性描述同样也适用于下文。

如图3所示，在步骤S301处，可以响应于接收到用户的交互信息，将该交互信息发送至云端服务器，以通过云端服务器对交互信息进行处理得到语音答复。本实施例中，用户的交互信息可以为语音形式的交互信息，也可以为文字形式的交互信息。在一些实施例中，可以通电子设备的录音接口对用户的音频数据进行采集，以得到脉冲编码调制(PulseCode Modulation，简称PCM)格式的交互信息。当然，也可以通过外部录音设备来采集用户的音频数据，并将采集到的音频数据发送至电子设备。在另一些实施例中，还可以通电子设备的输入接口对用户输入的文字形式的交互信息进行采集。需要说明的，这里对交互信息的相关细节性描述仅是示例性说明，具体可以根据电子设备与用户之间的人机交互设计来调整。

另外，本实施例中考虑到电子设备的配置以及对交互信息的响应速度等，可以将交互信息发送至云端服务器进行处理。在实际应用中，若电子设备能够支持语音答复的生成，可以在电子设备的本地端生成关于交互信息的语音答复。

在步骤S302处，可以获取云端服务器基于交互信息反馈的脉冲编码调整格式的语音答复。在一些实施例中，云端服务器在接收到交互信息之后，可以将交互信息转换为文字、进行文字内容识别和语义识别等、针对文字内容进行答复以及将答复内容转换成PCM格式的语音答复。又或者，当交互信息为文字形式时，云端服务器可以直接对该交互信息进行文字内容识别和语义识别等、针对文字内容进行答复以及将答复内容转换成PCM格式的语音答复。云端服务器在生成语音答复之后，可以将该语音答复下发至电子设备。

在步骤S303处，可以基于训练好的虚拟形象生成模型对语音答复进行处理，以输出关于该语音答复的虚拟形象图像和音频信息。这里的虚拟形象生成模型可以通过对神经网络模型训练得到。例如，在一些实施例中，可以获取作为训练数据的语料，然后抓取关于这些语料的真人表情和/或肢体动作(例如真人朗读这些语料时的面部表情和/或动作)，基于抓取到的真人表情和/或肢体动作生成虚拟形象的表情和/或肢体动作，然后基于这些语料和对应的虚拟形象的表情和/或肢体动作对神经网络模型进行训练，使得训练得到的虚拟形象生成模型具备基于语音生成对应的虚拟形象图像和音频信息的功能。需要说明的是，这里的虚拟形象可以是固定形象，虚拟形象生成模型根据每一帧语音生成匹配的表情和/或肢体动作，将所生成的表情和/肢体动作与固定形象融合得到每一帧的虚拟形象图像，所得到的每一帧虚拟形象图像和音频信息是对齐的。

另外，前述的固定形象可以是单一的形象，也可以是多个不同的形象。当为单一的形象时，后续展示给每个用户的形象是统一的。当为多个不同的形象时，可以将这些不同形象展示给用户，供用户选择，使得后续展示给每个用户的形象可以根据用户设置进行调整，从而提升用户的使用体验。

此外，虚拟形象生成模型在利用语音生成虚拟形象图像过程中，可以使用原始语音作为该虚拟形象图像对应的音频信息。又或者，还可以对原始语音进行处理(例如进行变音处理等)，以生成与虚拟形象图像更加贴合的音频信息。

需要说明的是，上述对虚拟形象生成模型的相关描述仅是示例性说明，本发明的方案并不局限于此，其他能够支持虚拟形象图像和音频信息生成的技术也适用于本申请。

在得到虚拟形象图像和音频信息之后，可以对该虚拟形象图像和音频信息进行缓存和/或对齐处理。具体地，在步骤S304处，可以对虚拟形象生成模型输出的每一帧虚拟形象图像和其对应的音频信息进行对齐处理，和/或，将对齐处理后的虚拟形象图像和音频信息存入缓存中。虚拟形象生成模型输出的每一帧虚拟形象图像和音频信息是对齐的，但是该虚拟形象图像和音频信息是流式数据，因此需要及时对所有的虚拟形象图像和音频信息进行对齐处理，以便后续能够同步播放。另外，还可以将对齐处理后的虚拟形象图像和音频信息存入缓存中，以便后续能够流畅播放，当然具体可以根据虚拟形象生成模型的输出性能来确定是否进行缓存处理。例如，虚拟形象生成模型的输出稳定性好时，也可以不对虚拟形象图像和其对应的音频信息进行缓存处理。

在实际应用中，可以通过多种方式实现对虚拟形象图像和音频信息的缓存和/或对齐处理。例如，在一些实施例中，可以获取每一帧虚拟形象图像和其对应的音频信息的时间戳，然后将每一帧虚拟形象图像、其对应的音频信息和时间戳作为整体存放在缓存中。例如，可以将上述内容以{时间戳，音频信息，虚拟形象图像}的格式存入缓存中，也即以绝对时间来对齐和缓存虚拟形象图像和音频信息。

在另一些实施例中，还可以获取每一帧虚拟形象图像和其对应的音频信息的编号，将每一帧虚拟形象图像、其对应的音频信息和编号作为整体存放在缓存中。例如，可以将上述内容以{编号，音频信息，虚拟形象图像}的格式存入缓存中，也即以相对时间来对齐和缓存虚拟形象图像和音频信息。

在完成对齐和/或缓存处理后，在步骤S305处，可以基于画布组件周期性地将经缓存和/或对齐处理后的虚拟形象图像写入画布中，以实现虚拟形象图像的动态展示。同时，可以基于音频播报组件对所展示的虚拟形象图像对应的音频信息进行播放。

这里的画布组件可以理解为是用于渲染图像的工具组件，其为电子设备中的基础配置。在一些实施例中，具体可以采用Canvas组件作为该画布组件，虚拟形象图像通过周期性使用Canvas组件渲染一帧，以实现每秒连续多帧的画面。例如，每预定时长(例如40ms)定时使用Canvas组件渲染一帧，可以实现每秒连续25帧的画面。

该Canvas组件可以适用于HaaS UI中，具体可以将该Canvas组件的缓存区作为画布，通过周期性地(例如可以通过定时器每间隔一定时长)将虚拟形象图像写入一次画布，就可以得到动态画面。在一些实施场景中，在HaaS UI里可以通过JavaScript API使用createCanvasContext创建canvas对象。为了渲染效率，需要调用getImageData获取canvas原始内存地址，并交由c++处理渲染。在c++里，只需要对虚拟形象图像(例如RGB格式图像)每一个像素都拷贝到指定的地址，即可实现流畅的播放实时画面。进一步地，考虑到Canvas存在阿尔法alpha通道(透明通道)，还需要将其填充为OXFF(＝255)。由此，实现了虚拟形象图像的动态展示。

前述的音频组件可以理解为是支持音频播放的组件，例如可以是系统自带的API(如高级Linux声音架构alsa)。在一些实施例中，可以预先配置好alsa的相关参数(例如采样率、采样通道等)，然后将音频信息写入缓存区进行播放。同时，可以采用上述的Canvas组件同步动态展示音频信息对应的虚拟形象图像。

进一步地，当对虚拟形象图像和音频信息进行缓存处理时，考虑到缓存太多，会导致明显的视频延迟，缓存太少时会引起播放卡顿，因此可以设置合适阈值，以得到更好的播放效果。具体地，可以响应于缓存中的数据达到阈值，触发针对虚拟形象图像的动态展示操作和针对虚拟形象图像对应的音频信息的播报操作。其中，前述的阈值可以根据虚拟形象生成模型的输出性能等因素进行调整。例如，虚拟形象生成模型输出的帧率为N帧每秒(fps)，对应每帧数据是(1/N，秒)，需要缓存的阈值为M×每帧数据。其中，M、N为整数。

可以看出，在将基于虚拟形象的语音交互设计落地电子设备过程中，对电子设备的性能要求较低，且通过对齐和缓存处理使得延迟可控，以及在展示虚拟形象图像和音频信息时，只需要系统能够播放音频、图片即可，不需要一个完整的视频播放器。

图4示意性地示出了根据本发明又一个实施例的基于虚拟形象的语音交互方法400(以下简称方法400)的流程示意图。可以理解的是，方法400是对图2中方法200和图3中方法300的进一步限定和/或拓展。因此，前文结合图2和图3的相关细节性描述同样也适用于下文。另外，在图4中，对接方案和本地算法都是在电子设备的本地端实施，云端用于生成语音答复。当然，根据电子设备的具体配置，也可以在本地端生成语音答复。

如图4所示，在步骤S401处，可以接收用户的交互信息。在一些实施例中，该交互信息可以包括语音形式交互信息。在该实施场景下，需要将用户的音频数据通过设备的录音接口进行采集。一般来说，通过配置录音接口的采样率、采集通道、采样精度等参数，就可以采集到语音的数据流(例如，可以是PCM格式语音或者PCM的进一步压缩格式语音等)。其中，PCM是声音的模拟信号(波形)以一定的采样率(时间间隔)采样量化后的一种数字信号格式，该PCM数据流的格式大致可以是包含很多采样点值的数组，例如数组[0x1122,0x2312,...]。

在步骤S402处，可以将该交互信息发送至云端服务器，由云端服务器将语音转换成文字。例如，可以通过自动语音识别技术(简称ASR)将语音形式的交互信息转换成文字。在步骤S403处，可以对所转换的文字进行语义识别，基于语音分析识别结果返回答复。接着，在步骤S404处，可以将文字形式的答复转换成语音形式的答复。例如，可以使用语音合成技术(简称TTS)将文字形式的答复转换成语音形式的答复。

在云端服务器生成语音答复之后，可以将语音答复反馈至本地端。在步骤S405处，可以利用本地算法对语音答复进行处理。本地算法具体可以通过预训练的虚拟形象生成模型来实现，将语音答复(例如PCM格式的语音答复)输入至虚拟形象生成模型中，然后基于该虚拟形象生成模型生成符合这段语音口型的AI虚拟人画面的数据以及符合AI虚拟人形象的语音音色的数据。在步骤S406处，通过该虚拟形象生成模型可以输出RGB格式的虚拟形象图像和PCM格式的音频信息。需要说明的是，这里对虚拟形象图像和音频信息的具体格式并不进行限制。

例如，用户询问“今天天气如何”，可以将用户的音频录制下来得到PCM格式的交互信息，其在C语言里为一个数组形式。然后，将该PCM格式语音发送至云端服务器，云端服务器基于对PCM格式语音的相关处理得到PCM格式语音答复(例如“今天天气xx、气温xx”等语音答复)，并可以将该PCM格式语音答复返回至本地端，本地端将PCM格式语音答复输入至该本地算法，本地算法会输出关于该PCM格式语音答复的RGB格式的虚拟形象图像和PCM格式的音频信息。

本地端在得到RGB格式的虚拟形象图像和PCM格式的音频信息之后，需要将RGB格式的虚拟形象图像和PCM格式的音频信息同步播放出来。然而，所生成的虚拟形象图像和音频信息并不是类似mp4的音视频文件数据，其不能直接使用常见的视频播放器进行播放。因此，在步骤S407处，需要对所生成的虚拟形象图像和音频信息进行缓冲同步处理。

具体地，可以将生成的音视频流(PCM音频和RGB图像帧)，添加时间戳后缓存下来。每一帧RGB图像和当前它对应的音频，在后续的播放中都要保证对齐。

另外，为了流畅播放，可以先把数据缓存存放。而经过缓存后，可以通过计算时间以确保它们在合适的时机播放。为了记录时间，可以在每次接收到本地算法输出的每帧数据(包括每帧图像和其对应的音频)时，同时获取当前系统的精确到毫秒的时间戳(绝对时间)，然后把他们当做一个整体(例如{时间戳,音频信息,虚拟形象图像})存入缓存。

进一步，考虑到缓存太多，会导致明显的视频延迟。缓存太少时会引起播放卡顿。经过测试需要选取适当的缓存值(即前文中的阈值)，以得到更好地效果。例如，本地算法输出的帧率是25帧每秒(fps)，也就是每帧数据是(1/fps，秒)，约为40毫秒。缓存了10帧(也就是400毫秒数据)后，才开始读取缓存。具体地，在存满10帧后，通知播放的线程可以音频播放和图片渲染。

然后，在步骤S408中，针对音频信息，可以采用系统自带的alsa组件播放，以及针对虚拟形象图像，可以定时使用Canvas渲染，以实现动态展示。具体地，可以配置好采样率、采样通道、采样精度等参数，将音频信息写入缓存区进行播放。同时，将Canvas组件的缓存区作为画布，通过定时器每40ms将RGB图像写入一次画布，这样就得到了25FPS的动态画面。

由此，通过先缓存流式的音频和图像帧，再经过缓存、音视频对齐、Canvas渲染等流程，最终能够播放流畅的画面。

示例性设备

在介绍了本发明示例性实施方式的方法之后，接下来，参考图5对本发明示例性实施方式的基于虚拟形象的语音交互方法的相关产品进行描述。

图5示意性地示出了根据本发明实施例的电子设备500的示意框图。如图5所示，电子设备500可以包括处理器501和存储器502。其中存储器502存储有基于虚拟形象的语音交互的计算机指令，当所述计算机指令由处理器501运行时，使得便电子设备500执行根据前文结合图2～图4所描述的方法。例如，在一些实施例中，电子设备500可以获取关于交互信息的语音答复、生成虚拟形象图像和音频信息、对虚拟形象图像和音频信息进行缓存和/或对齐处理、以及对经缓存和/或对齐处理后的虚拟形象图像进行动态展示，并播报所展示的虚拟形象图像对应的音频信息等等。基于此，在将基于虚拟形象的语音交互技术落地在电子设备500时，仅需要电子设备能够播放音频、图片即可，对电子设备的性能以及硬件配置要求较低，突破了语音交互技术无法落地低配设备的技术瓶颈。

另外，本实例中的电子设备500可以包括词典笔、听力学习机、扫描翻译笔或者其他需要布设基于虚拟形象的语音交互设计的设备。

应当注意，尽管在上文详细描述中提及了设备的若干装置或子装置，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种基于虚拟形象的语音交互方法，其特征在于，包括：

响应于接收到用户的交互信息，获取关于所述交互信息的语音答复；

根据所述语音答复，生成虚拟形象图像和音频信息；

对所述虚拟形象图像和所述音频信息进行缓存和/或对齐处理；以及

对经缓存和/或对齐处理后的虚拟形象图像进行动态展示，并播报所展示的虚拟形象图像对应的音频信息。

2.根据权利要求1所述的语音交互方法，其特征在于，生成虚拟形象图像和音频信息包括：

基于训练好的虚拟形象生成模型对所述语音答复进行处理，以输出关于所述语音答复的虚拟形象图像和音频信息。

3.根据权利要求2所述的语音交互方法，其特征在于，对所述虚拟形象图像和所述音频信息进行缓存和/或对齐处理包括：

对所述虚拟形象生成模型输出的每一帧虚拟形象图像和其对应的音频信息进行对齐处理；和/或

将对齐处理后的虚拟形象图像和音频信息存入缓存中。

4.根据权利要求3所述的语音交互方法，其特征在于，对所述虚拟形象图像和所述音频信息进行缓存和/或对齐处理包括：

获取所述每一帧虚拟形象图像和其对应的音频信息的时间戳；以及

将所述每一帧虚拟形象图像、其对应的音频信息和时间戳作为整体存放在所述缓存中。

5.根据权利要求3所述的语音交互方法，其特征在于，对所述虚拟形象图像和所述音频信息进行缓存和/或对齐处理包括：

获取所述每一帧虚拟形象图像和其对应的音频信息的编号；以及

将所述每一帧虚拟形象图像、其对应的音频信息和编号作为整体存放在所述缓存中。

6.根据权利要求1所述的语音交互方法，其特征在于，对经缓存和/或对齐处理后的虚拟形象图像进行动态展示包括：

基于画布组件周期性地将经缓存和/或对齐处理后的虚拟形象图像写入画布中，以实现虚拟形象图像的动态展示。

7.根据权利要求6所述的语音交互方法，其特征在于，播报所展示的虚拟形象图像对应的音频信息包括：

基于音频播报组件对所展示的虚拟形象图像对应的音频信息进行播放。

8.根据权利要求3所述的语音交互方法，其特征在于，所述方法还包括：

响应于所述缓存中的数据达到阈值，触发针对所述虚拟形象图像的动态展示操作和针对所述虚拟形象图像对应的音频信息的播报操作。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，其存储有基于虚拟形象的语音交互的计算机指令，当所述计算机指令由所述处理器运行时，使得所述电子设备执行根据权利要求1-8的任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，包含有基于虚拟形象的语音交互的程序指令，当所述程序指令由处理器执行时，使得实现根据权利要求1-8的任意一项所述的方法。