CN117155886A

CN117155886A - 基于虚拟形象的语音交互方法、电子设备及存储介质

Info

Publication number: CN117155886A
Application number: CN202311059069.7A
Authority: CN
Inventors: 张鹏; 刘帅
Original assignee: Netease Youdao Hangzhou Intelligent Technology Co ltd
Current assignee: Netease Youdao Hangzhou Intelligent Technology Co ltd
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2023-12-01

Abstract

本发明的实施方式提供了一种基于虚拟形象的语音交互方法、电子设备及存储介质。其中，所述语音交互方法包括：响应于获取到关于用户交互信息的语音答复，根据语音答复生成包含虚拟形象的音视频流；构建在线播放链接，并将音视频流推流至在线播放链接；访问在线播放链接，以对在线播放链接中的内容进行播放。通过本发明的技术方案，该基于虚拟形象的语音交互技术在具体落地时，仅需要电子设备具备访问在线播放链接的功能即可实现与语音答复相关的音视频流的可视化展示，避免图像渲染等复杂操作逻辑，突破了语音交互技术无法落地低配设备的技术瓶颈。

Description

基于虚拟形象的语音交互方法、电子设备及存储介质

技术领域

本发明的实施方式涉及信息处理技术领域，更具体地，本发明的实施方式涉及基于虚拟形象的语音交互方法，以及执行前述语音交互方法的电子设备和计算机可读存储介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。

人工智能聊天服务是一种为用户提供随时可用虚拟语音助手的服务，可以通过一虚拟人与用户进行语音对话交互。然而，目前关于该人工智能聊天服务的技术多是闭源的，且一些电子设备(例如，词典笔、听力学习机、扫描翻译笔等)受限于软硬件配置，使得该项人工智能聊天服务技术尚未在该类电子设备上具体落地，形成一定的技术瓶颈。

发明内容

已知的针对电子设备上落地基于虚拟形象的语音交互设计效果不理想，这是非常令人烦恼的过程。

为此，非常需要一种改进的基于虚拟形象的语音交互方法的方案，利用在线播放链接推拉流实现与语音答复相关的音视频流的播放。

在本上下文中，本发明的实施方式期望提供一种基于虚拟形象的语音交互方法、电子设备及存储介质。

在本发明实施方式的第一方面中，提出了一种基于虚拟形象的语音交互方法，包括：响应于获取到关于用户交互信息的语音答复，根据所述语音答复生成包含虚拟形象的音视频流；构建在线播放链接，并将所述音视频流推流至所述在线播放链接；以及访问所述在线播放链接，以对所述在线播放链接中的内容进行播放。

在本发明的一个实施例中，构建在线播放链接包括：在本地端编译一支持在线视频协议的目标服务器；以及启动所述目标服务器以得到所述在线播放链接。

在本发明的另一个实施例中，其中所述在线视频协议包括实时消息传送协议RTMP。

在本发明的又一个实施例中，根据所述语音答复生成包含虚拟形象的音视频流包括：根据所述语音答复，生成虚拟形象图像和音频信息；以及将所述虚拟形象图像和音频信息封装成所述音视频流。

在本发明的再一个实施例中，生成虚拟形象图像和音频信息包括：基于训练好的虚拟形象生成模型对所述语音答复进行处理，以输出关于所述语音答复的虚拟形象图像和音频信息。

在本发明的一个实施例中，对所述在线播放链接中的内容进行播放包括：调用音视频播放器播放所述在线播放链接中的内容。

在本发明的另一个实施例中，所述方法还包括：获取语音形式的用户交互信息；或获取文字形式的用户交互信息。

在本发明的又一个实施例中，获取关于所述交互信息的语音答复包括：将所述用户交互信息发送至云端服务器；以及获取所述云端服务器基于所述用户交互信息反馈的脉冲编码调制格式的语音答复。

在本发明实施方式的第二方面中，提供了一种电子设备，包括：处理器；以及存储器，其存储有基于虚拟形象的语音交互的计算机指令，当所述计算机指令由所述处理器运行时，使得所述电子设备执行根据前文以及下文多个实施例所述的方法。

在本发明实施方式的第三方面中，提供了一种计算机可读存储介质，包含有基于虚拟形象的语音交互的程序指令，当所述程序指令由处理器执行时，使得实现根据前文以及下文多个实施例所述的方法。

根据本发明实施方式的基于虚拟形象的语音交互方法、电子设备及存储介质，可以利用与用户交互信息相关的语音答复来生成含有虚拟形象的音视频流，并基于所构建的在线播放链接对音视频流进行展示。由此，该基于虚拟形象的语音交互技术在具体落地时，仅需要电子设备具备访问在线播放链接的功能即可实现音视频流的可视化展示，避免图像渲染等复杂操作逻辑，突破了语音交互技术无法落地低配设备的技术瓶颈。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了适于实现本发明实施方式的示例性计算系统100的框图；

图2示意性地示出了根据本发明一个实施例的基于虚拟形象的语音交互方法的流程示意图；

图3示意性地示出了根据本发明另一个实施例的基于虚拟形象的语音交互方法的流程示意图；

图4示意性地示出了根据本发明又一个实施例的基于虚拟形象的语音交互方法的流程示意图；以及

图5示意性地示出了根据本发明实施例的电子设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

图1示出了适于实现本发明实施方式的示例性计算系统100的框图。如图1所示，计算系统100可以包括：中央处理单元(CPU)101、随机存取存储器(RAM)102、只读存储器(ROM)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。这些设备中，与系统总线104耦合的有CPU 101、RAM 102、ROM 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合，键盘111与键盘控制器106耦合，串行外部设备112与串行接口控制器107耦合，并行外部设备113与并行接口控制器108耦合，以及显示器114与显示控制器109耦合。应当理解，图1所述的结构框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些设备。

本领域技术技术人员知道，本发明的实施方式可以实现为一种系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式，本文一般称为“电路”、“模块”、“单元”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

下面将参照本发明实施例的方法的流程图和设备(或系统)的框图描述本发明的实施方式。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

根据本发明的实施方式，提出了一种基于虚拟形象的语音交互方法、电子设备及存储介质。此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

发明人发现，目前针对电子设备上落地虚拟形象的语音交互设计效果不理想。具体地，通常该类虚拟形象的语音交互设计(例如人工智能聊天服务)多是闭源的，仅限于在某类(例如iOS)系统中运行。另外，该类虚拟形象的语音交互设计一般落地在一些配置较高的设备中，其对系统配置要求较高，普适性较差。

对此，发明人经研究发现，电子设备中的普通音视频播放器可以读取并播放在线播放链接中的内容。基于此，可以针对交互过程中产生的语音答复生成包含虚拟形象的音视频流，然后经在线播放链接进行推流，并由电子设备通过在线播放链接进行拉流，即可实现虚拟形象的语音交互设计在电子设备中的具体落地。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

示例性方法

下面参考图2来描述根据本发明示例性实施方式的基于虚拟形象的语音交互方法。需要注意的是，本发明的实施方式可以应用于适用的任何场景。

图2示意性地示出了根据本发明一个实施例的基于虚拟形象的语音交互方法200(以下简称方法200)的流程示意图。

如图2所示，在步骤S201处，响应于获取到关于用户交互信息的语音答复，根据语音答复生成包含虚拟形象的音视频流。前述的用户交互信息可以理解是用户与电子设备之间的交互信息，通常用户可以以语音或文字形式向电子设备输入该用户交互信息，而电子设备则可以根据该用户交互信息给出相应的语音答复。需要说明的是，方法200所适应的人机交互场景并不进行限定，例如可以是口语对话练习场景，或者生活或工作中的咨询类交互场景等。另外，这里对用户交互信息的描述为示例性说明，具体可以根据用户与电子设备之间的人机交互设计来调整。

在获取到语音答复之后，可以根据该语音答复生成包含虚拟形象的音视频流，使得后续可以基于该音视频流对语音答复进行可视化展示。

在步骤S202处，可以构建在线播放链接，并将音视频流推流至在线播放链接。并在步骤S203处，可以访问该在线播放链接，以对在线播放链接中的内容进行播放。通过构建在线播放链接来对音视频流进行推拉流处理，使得音视频流中图像和音频能够同步播放。

可以利用与用户交互信息相关的语音答复来生成含有虚拟形象的音视频流，并基于所构建的在线播放链接对音视频流进行展示。由此，该基于虚拟形象的语音交互技术在具体落地时，仅需要电子设备具备访问在线播放链接的功能即可实现音视频流的可视化展示。其中，仅需要一个普通的播放器组件即可实现视频渲染，避免图像渲染等复杂操作逻辑，有效降低技术实现成本，突破了语音交互技术无法落地低配设备的技术瓶颈。

图3示意性地示出了根据本发明另一个实施例的基于虚拟形象的语音交互方法300(以下简称方法300)的流程示意图。可以理解的是，方法300是对图2中方法200的进一步限定和/或拓展。因此，前文结合图2的相关细节性描述同样也适用于下文。

如图3所示，在步骤S301处，可以获取用户交互信息，并将该用户交互信息发送至云端服务器。本实例中的用户交互信息可以为语音形式的交互信息，也可以为文字形式的交互信息。在一些实施例中，可以通电子设备的录音接口对用户的音频数据进行采集，以得到脉冲编码调制(Pulse Code Modulation，简称PCM)格式的交互信息。当然，也可以通过外部录音设备来采集用户的音频数据，并将采集到的音频数据发送至电子设备。在另一些实施例中，还可以通电子设备的输入接口对用户输入的文字形式的交互信息进行采集。需要说明的，这里对用户交互信息的相关细节性描述仅是示例性说明，具体可以根据电子设备与用户之间的人机交互设计来调整。

另外，本实施例中考虑到电子设备的配置以及对用户交互信息的响应速度等，可以将交互信息发送至云端服务器进行处理。在实际应用中，若电子设备能够支持语音答复的生成，可以在电子设备的本地端生成关于用户交互信息的语音答复。

在步骤S302处，可以获取云端服务器基于用户交互信息反馈的脉冲编码调制格式的语音答复。在一些实施例中，云端服务器在接收到用户交互信息之后，可以将用户交互信息转换为文字、进行文字内容识别和语义识别等、针对文字内容进行答复以及将答复内容转换成PCM格式的语音答复。又或者，当用户交互信息为文字形式时，云端服务器可以直接对该用户交互信息进行文字内容识别和语义识别等、针对文字内容进行答复以及将答复内容转换成PCM格式的语音答复。云端服务器在生成语音答复之后，可以将该语音答复下发至电子设备。

在步骤S303处，可以根据语音答复，生成虚拟形象图像和音频信息。具体地，可以基于训练好的虚拟形象生成模型对该语音答复进行处理，以输出关于该语音答复的虚拟形象图像和音频信息。这里的虚拟形象生成模型可以通过对神经网络模型训练得到。例如，在一些实施例中，可以获取作为训练数据的语料，然后抓取关于这些语料的真人表情和/或肢体动作(例如真人朗读这些语料时的面部表情和/或动作)，基于抓取到的真人表情和/或肢体动作生成虚拟形象的表情和/或肢体动作，然后基于这些语料和对应的虚拟形象的表情和/或肢体动作对神经网络模型进行训练，使得训练得到的虚拟形象生成模型具备基于语音生成对应的虚拟形象图像和音频信息的功能。需要说明的是，这里的虚拟形象可以是固定形象，虚拟形象生成模型根据每一帧语音生成匹配的表情和/或肢体动作，将所生成的表情和/肢体动作与固定形象融合得到每一帧的虚拟形象图像，所得到的每一帧虚拟形象图像和音频信息是对齐的。

另外，前述的固定形象可以是单一的形象，也可以是多个不同的形象。当为单一的形象时，后续展示给每个用户的形象是统一的。当为多个不同的形象时，可以将这些不同形象展示给用户，供用户选择，使得后续展示给每个用户的形象可以根据用户设置进行调整，从而提升用户的使用体验。

此外，虚拟形象生成模型在利用语音生成虚拟形象图像过程中，可以使用原始语音作为该虚拟形象图像对应的音频信息。又或者，还可以对原始语音进行处理(例如进行变音处理等)，以生成与虚拟形象图像更加贴合的音频信息。

需要说明的是，上述对虚拟形象生成模型的相关描述仅是示例性说明，本发明的方案并不局限于此，其他能够支持虚拟形象图像和音频信息生成的技术也适用于本申请。

在得到虚拟形象图像和音频信息之后，在步骤S304处，可以将虚拟形象图像和音频信息封装成音视频流，以便后续基于该音视频流实现语音答复的可视化展示。

在步骤S305处，可以在本地端编译一支持在线视频协议的目标服务器，以及启动该目标服务器以得到前述的在线播放链接。例如，在一些实施例中，可以在本地端构建一支持实时消息传送协议(Real-TimeMessagingProtocol，简称RTMP)的目标服务器(例如支持RTMP协议的Nginx服务器)。其中，Nginx是一个很强大的高性能Web和反向代理服务，其可以支持RTMP协议等在线视频协议。具体在编译例如Nginx的目标服务器时，可以通过修改Nginx的配置文件，来使其支持RTMP协议等在线视频协议。需要说明的是，这里对在线视频协议和目标服务器的描述仅是举例说明，例如在线视频协议还可以包括HTTP或者其他在线视频协议。

在步骤S306处，可以将前述的音视频流推流至在线播放链接。具体地，可以将前述的音视频流中每一帧数据推流到目标服务器上。在一些实施例中，可以基于ffmpeg将音视频流中每一帧数据推流到目标服务器。该ffmpeg是一个功能强大的音视频处理工具，可以用来进行音视频采集、编码、解码、转换等操作。

在步骤S307处，可以调用音视频播放器播放在线播放链接中的内容。在一些实施例中，可以基于电子设备中普通的视频播放器(例如基于ffmpeg的播放器)来访问并播放该在线播放链接。

由此，可以通过将音视频(包括虚拟形象图像和音频信息)打包封装成音视频流，然后经过RTMP服务推流，电子设备通过RTMP拉流播放即可实现虚拟形象图像和音频信息的同步播放。整个技术实现成本极低，且视频渲染仅需要一个播放器组件即可。另外本实例的方案可移植性很好，只需要普通的视频播放器即可在大多数系统上使用。

图4示意性地示出了根据本发明又一个实施例的基于虚拟形象的语音交互方法400(以下简称方法400)的流程示意图。可以理解的是，方法400是对图2中方法200和图3中方法300的进一步限定和/或拓展。因此，前文结合图2和图3的相关细节性描述同样也适用于下文。另外，在图4中，对接方案和本地算法都是在电子设备的本地端实施，云端用于生成语音答复。当然，根据电子设备的具体配置，也可以在本地端生成语音答复。

如图4所示，在步骤S401处，在步骤S401处，可以接收用户交互信息。在一些实施例中，该用户交互信息可以包括语音形式的交互信息。在该实施场景下，需要将用户的音频数据通过设备的录音接口进行采集。一般来说，通过配置录音接口的采样率、采集通道、采样精度等参数，就可以采集到语音的数据流(例如，可以是PCM格式语音或者PCM的进一步压缩格式语音等)。其中，PCM是声音的模拟信号(波形)以一定的采样率(时间间隔)采样量化后的一种数字信号格式，该PCM数据流的格式大致可以是包含很多采样点值的数组，例如数组[0x1122,0x2312,...]。

在步骤S402处，可以将该交互信息发送至云端服务器，由云端服务器将语音转换成文字。例如，可以通过自动语音识别技术(简称ASR)将语音形式的交互信息转换成文字。在步骤S403处，可以对所转换的文字进行语义识别，基于语音分析识别结果返回答复。接着，在步骤S404处，可以将文字形式的答复转换成语音形式的答复。例如，可以使用语音合成技术(简称TTS)将文字形式的答复转换成语音形式的答复。

在云端服务器生成语音答复之后，可以将语音答复反馈至本地端。在步骤S405处，可以利用本地算法对语音答复进行处理。本地算法具体可以通过预训练的虚拟形象生成模型来实现，将语音答复(例如PCM格式的语音答复)输入至虚拟形象生成模型中，然后基于该虚拟形象生成模型生成符合这段语音口型的AI虚拟人画面的数据以及符合AI虚拟人形象的语音音色的数据。需要说明的是，这里对虚拟形象图像和音频信息的具体格式并不进行限制。

在得到虚拟形象图像和音频信息之后，需要将虚拟形象图像和音频信息封装成音视频流，然后将生成的音视频流播放出来。然而，所生成的音视频流并不是类似mp4的音视频文件数据，其不能直接使用常见的视频播放器进行播放。因此，需要构建在线播放链接来实现音视频流的播放。

具体地，在步骤S406处，可以交叉编译Nginx服务器和Nginx匹配的RTMP模块，以便能够在电子设备(例如词典笔、听力学习机等设备)上使用。在步骤S407处，可以在电子设备上启动RTMP服务器，以得到在线播放链接。

例如，可以修改Nginx服务器的配置文件，并启动该RTMP服务器得到例如“rtmp://127.0.0.1/live/stream”等形式的在线播放链接。接着，可以将前述的音视频流的每一帧数据推流到RTMP服务器上。

在一些实施例中，可以在C++中使用ffmpeg推流RTMP。具体的推流过程涉及以下步骤：

1)可以使用例如av_register_all()等函数初始化ffmpeg库；

2)使用例如avformat_find_stream_info()等函数查找音视频流信息；

3)使用例如avformat_alloc_output_context2()等函数创建一个AVFormatContext结构体以及使用例如avio_open()等函数打开输出流；

4)使用例如avformat_new_stream()等函数新建音视频流；

5)设置例如编码器类型、分辨率、码率、帧率等音视频编码器参数；

6)使用例如avcodec_open2()等函数打开编码器；

7)使用例如av_write_frame()等函数将音视频推送到输出流；

8)使用例如avcodec_close()等函数关闭编码器；

9)使用例如av_write_trailer()等函数关闭输出流；

10)释放所有分配的例如AVFormatContext、AVCodecContext、AVPacket、AVFrame等资源。

上述过程仅是示例性地说明了大致的推流过程，具体在实现过程中可以根据需求进行调整。例如，还需要考虑一些异常情况的处理、错误码判断等问题。

最后，在步骤S408中，可以使用普通的视频播放器渲染前述的在线播放链接中的音视频流。例如，可以使用基于ffmpeg的播放器播放该在线播放链接，以实现对音视频流的渲染。

示例性设备

在介绍了本发明示例性实施方式的方法之后，接下来，参考图5对本发明示例性实施方式的基于虚拟形象的语音交互方法的相关产品进行描述。

图5示意性地示出了根据本发明实施例的电子设备500的示意框图。如图5所示，电子设备500可以包括处理器501和存储器502。其中存储器502存储有基于虚拟形象的语音交互的计算机指令，当所述计算机指令由处理器501运行时，使得便电子设备500执行根据前文结合图2～图4所描述的方法。例如，在一些实施例中，电子设备500可以获取用户交互信息的语音答复、根据语音答复生成包含虚拟形象的音视频流、生构建在线播放链接以向其推流音视频流、访问在线播放链接以对在线播放链接中的内容进行播放等等。基于此，基于虚拟形象的语音交互技术在电子设备500上落地过程中，仅需要电子设备具备访问在线播放链接的功能即可实现音视频流的可视化展示，避免图像渲染等复杂操作逻辑，突破了语音交互技术无法落地低配设备的技术瓶颈。

应当注意，尽管在上文详细描述中提及了设备的若干装置或子装置，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

另外，本实例中的电子设备500可以包括词典笔、听力学习机、扫描翻译笔或者其他需要布设基于虚拟形象的语音交互设计的设备。

申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种基于虚拟形象的语音交互方法，其特征在于，包括：

响应于获取到关于用户交互信息的语音答复，根据所述语音答复生成包含虚拟形象的音视频流；

构建在线播放链接，并将所述音视频流推流至所述在线播放链接；以及

访问所述在线播放链接，以对所述在线播放链接中的内容进行播放。

2.根据权利要求1所述的语音交互方法，其特征在于，构建在线播放链接包括：

在本地端编译一支持在线视频协议的目标服务器；以及

启动所述目标服务器以得到所述在线播放链接。

3.根据权利要求1所述的语音交互方法，其特征在于，其中所述在线视频协议包括实时消息传送协议RTMP。

4.根据权利要求1所述的语音交互方法，其特征在于，根据所述语音答复生成包含虚拟形象的音视频流包括：

根据所述语音答复，生成虚拟形象图像和音频信息；以及

将所述虚拟形象图像和音频信息封装成所述音视频流。

5.根据权利要求4所述的语音交互方法，其特征在于，生成虚拟形象图像和音频信息包括：

基于训练好的虚拟形象生成模型对所述语音答复进行处理，以输出关于所述语音答复的虚拟形象图像和音频信息。

6.根据权利要求1所述的语音交互方法，其特征在于，对所述在线播放链接中的内容进行播放包括：

调用音视频播放器播放所述在线播放链接中的内容。

7.根据权利要求1～6中任一项所述的语音交互方法，其特征在于，所述方法还包括：

获取语音形式的用户交互信息；或

获取文字形式的用户交互信息。

8.根据权利要求7所述的语音交互方法，其特征在于，获取关于所述交互信息的语音答复包括：

将所述用户交互信息发送至云端服务器；以及

获取所述云端服务器基于所述用户交互信息反馈的脉冲编码调制格式的语音答复。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，其存储有基于虚拟形象的语音交互的计算机指令，当所述计算机指令由所述处理器运行时，使得所述电子设备执行根据权利要求1-8的任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，包含有基于虚拟形象的语音交互的程序指令，当所述程序指令由处理器执行时，使得实现根据权利要求1-8的任意一项所述的方法。