CN111639223A

CN111639223A - 一种用于口语练习的虚拟对象的音频生成方法及电子设备

Info

Publication number: CN111639223A
Application number: CN202010455167.2A
Authority: CN
Inventors: 周林
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-08
Anticipated expiration: 2040-05-26
Also published as: CN111639223B

Abstract

本申请实施例公开一种用于口语练习的虚拟对象的音频生成方法及电子设备，该方法包括：采集多个用户的对练音频；依据该多个用户的对练音频以及预设对练内容，确定不同虚拟对象的目标对练音频；对不同虚拟对象的目标对练音频进行预处理，得到不同虚拟对象的目标参考对练音频。通过实施本申请实施例，能够提高口语练习效果。

Description

一种用于口语练习的虚拟对象的音频生成方法及电子设备

技术领域

本申请涉及计算机技术领域，具体涉及一种用于口语练习的虚拟对象的音频生成方法及电子设备。

背景技术

“说”是学好一门语音需掌握的关键技能之一，要做到“说好”通常需要学生频繁进行口语练习。在实践中发现，学生进行单人口语练习时的沉浸感通常较差，为解决这一问题，具备口语对练功能的家教机层出不穷，而市面上多数家教机的口语对练大都是学生与录好的标准录音进行对练，易使学生感到乏味和枯燥，练习效果通常不佳。

发明内容

本申请实施例公开一种用于口语练习的虚拟对象的音频生成方法及电子设备，能够提高口语练习效果。

本申请实施例第一方面公开一种用于口语练习的虚拟对象的音频生成方法，包括：

采集多个用户的对练音频；

依据所述多个用户的对练音频以及预设对练内容，确定不同虚拟对象的目标对练音频；

对所述不同虚拟对象的目标对练音频进行预处理，得到所述不同虚拟对象的目标参考对练音频。

作为一种可选的实施方式，在本申请实施例第一方面中，所述不同虚拟对象的目标对练音频包括：第一虚拟对象的第一目标对练音频，所述不同虚拟对象的目标参考对练音频包括：所述第一虚拟对象的第一目标参考对练音频；

所述对所述不同虚拟对象的目标对练音频进行预处理，得到所述不同虚拟对象的目标参考对练音频，包括：

从所述预设对练内容中获取所述第一虚拟对象的第一预设对练内容，以及获取所述第一目标对练音频对应的第一目标对练内容；

若所述第一目标对练内容与所述第一预设对练内容匹配，则将所述第一目标对练音频确定为所述第一虚拟对象的第一目标参考对练音频；

若所述第一目标对练内容与所述第一预设对练内容不匹配，则依据所述第一预设对练内容对所述第一目标对练音频进行修正，以得到所述第一虚拟对象的第一目标参考对练音频。

作为一种可选的实施方式，在本申请实施例第一方面中，所述不同虚拟对象的目标对练音频包括：第一虚拟对象的M个用户的第一目标对练音频，所述不同虚拟对象的目标参考对练音频包括：所述第一虚拟对象的N个用户的第一目标参考对练音频，所述N小于或者等于所述M，M和N为正整数。

作为一种可选的实施方式，在本申请实施例第一方面中，在所述N小于所述M的情况下，所述依据所述第一预设对练内容对所述第一目标对练音频进行修正，以得到所述第一虚拟对象的第一目标参考对练音频，包括：

依据所述第一预设对练内容，确定所述M个用户中每一用户的第一目标对练音频的完整度；

从所述M个用户的第一目标对练音频中剔除完整度小于预设完整度的第一目标对练音频，得到所述N个用户的第一目标对练音频；

依据所述第一预设对练内容，修正所述N个用户中每一用户的第一目标对练音频，得到所述N个用户的第一目标参考对练音频。

作为一种可选的实施方式，在本申请实施例第一方面中，所述不同虚拟对象的目标参考对练音频还包括：第二虚拟对象的Y个用户的第二目标参考对练音频；所述第一虚拟对象和所述第二虚拟对象属于包含于所述预设对练内容中的第一对话的虚拟对象；所述N个用户中第一用户和所述Y个用户中第二用户的用户标签为第一标签；

所述方法还包括：

对所述第一用户的第一目标参考对练音频和所述第二用户的第二目标参考对练音频进行打包，得到所述第一标签对应的语音包。

作为一种可选的实施方式，在本申请实施例第一方面中，所述对所述第一用户的第一目标参考对练音频和所述第二用户的第二目标参考对练音频进行打包，得到所述第一标签对应的语音包之后，所述方法还包括：

在检测到对练请求时，获取所述对练请求对应的当前用户标签；

在所述当前用户标签为所述第一标签时，查找所述第一标签对应的语音包；

确定所述对练请求的请求用户针对所述第一对话选取的第三虚拟对象；

依据所述第一用户标签的语音包，启动所述第三虚拟对象对应的口语对练模式。

本申请实施例第二方面公开一种电子设备，包括：

采集单元，用于采集多个用户的对练音频；

确定单元，用于依据所述多个用户的对练音频以及预设对练内容，确定不同虚拟对象的目标对练音频；

处理单元，用于对所述不同虚拟对象的目标对练音频进行预处理，得到所述不同虚拟对象的目标参考对练音频。

作为一种可选的实施方式，在本申请实施例第二方面中，所述不同虚拟对象的目标对练音频包括：第一虚拟对象的第一目标对练音频，所述不同虚拟对象的目标参考对练音频包括：所述第一虚拟对象的第一目标参考对练音频；

所述处理单元，具体用于从所述预设对练内容中获取所述第一虚拟对象的第一预设对练内容，以及获取所述第一目标对练音频对应的第一目标对练内容；以及，在所述第一目标对练内容与所述第一预设对练内容匹配时，则将所述第一目标对练音频确定为所述第一虚拟对象的第一目标参考对练音频；以及，在所述第一目标对练内容与所述第一预设对练内容不匹配时，则依据所述第一预设对练内容对所述第一目标对练音频进行修正，以得到所述第一虚拟对象的第一目标参考对练音频。

作为一种可选的实施方式，在本申请实施例第二方面中，所述不同虚拟对象的目标对练音频包括：第一虚拟对象的M个用户的第一目标对练音频，所述不同虚拟对象的目标参考对练音频包括：所述第一虚拟对象的N个用户的第一目标参考对练音频，所述N小于或者等于所述M，M和N为正整数。

作为一种可选的实施方式，在本申请实施例第二方面中，在所述N小于所述M的情况下，所述处理单元用于依据所述第一预设对练内容对所述第一目标对练音频进行修正，以得到所述第一虚拟对象的第一目标参考对练音频，的方式具体为：

所述处理单元，用于依据所述第一预设对练内容，确定所述M个用户中每一用户的第一目标对练音频的完整度；以及，从所述M个用户的第一目标对练音频中剔除完整度小于预设完整度的第一目标对练音频，得到所述N个用户的第一目标对练音频；以及，依据所述第一预设对练内容，修正所述N个用户中每一用户的第一目标对练音频，得到所述N个用户的第一目标参考对练音频。

作为一种可选的实施方式，在本申请实施例第二方面中，所述不同虚拟对象的目标参考对练音频还包括：第二虚拟对象的Y个用户的第二目标参考对练音频；所述第一虚拟对象和所述第二虚拟对象属于包含于所述预设对练内容中的第一对话的虚拟对象；所述N个用户中第一用户和所述Y个用户中第二用户的用户标签为第一标签；

所述电子设备还包括：

打包单元，用于对所述第一用户的第一目标参考对练音频和所述第二用户的第二目标参考对练音频进行打包，得到所述第一标签对应的语音包。

作为一种可选的实施方式，在本申请实施例第二方面中，所述电子设备还包括：

获取单元，用于所述打包单元对所述第一用户的第一目标参考对练音频和所述第二用户的第二目标参考对练音频进行打包，得到所述第一标签对应的语音包之后，在检测到对练请求时，获取所述对练请求对应的当前用户标签；以及，在所述当前用户标签为所述第一标签时，查找所述第一标签对应的语音包；

所述确定单元，还用于确定所述对练请求的请求用户针对所述第一对话选取的第三虚拟对象；以及，依据所述第一用户标签的语音包，启动所述第三虚拟对象对应的口语对练模式。

本申请实施例第三方面公开一种电子设备，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本申请第一方面的任意一种方法的部分或全部步骤。

本申请实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，所述计算机程序包括用于执行本申请第一方面的任意一种方法的部分或全部步骤。

本申请实施例第五面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。

本申请实施例第六方面公开一种应用发布系统，所述应用发布系统用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。

与现有技术相比，本申请实施例具有以下有益效果：

实施本申请实施例，采集多个用户的对练音频；依据该多个用户的对练音频以及预设对练内容，确定不同虚拟对象的目标对练音频；对不同虚拟对象的目标对练音频进行预处理，得到不同虚拟对象的目标参考对练音频。通过实施该方法，依据多个用户的对练语音，生成用于口语练习的虚拟对象的音频，使得学生的口语对练更加符合真实场景，趣味性更好，有助于提高口语练习效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造率劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例公开的一种用于口语练习的虚拟对象的音频生成方法的流程示意图；

图2是针对图1中步骤103的细化步骤；

图3是本申请实施例公开的一种电子设备的结构示意图；

图4是本申请实施例公开的另一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例及附图中的术语“包括”“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例公开的用于口语练习的虚拟对象的音频生成方法可应用于电子设备上，该电子设备可以为家教机，家教机的操作系统可包括但不限于Android操作系统、IOS操作系统、Symbian(塞班)操作系统、Black Berry(黑莓)操作系统、Windows Phone8操作系统等等，本申请实施例不做限定。

电子设备可以是终端设备，也可以是其他的电子设备。其中，终端设备可称之为用户设备(user equipment，UE)、移动台(mobile station，MS)、移动终端(mobileterminal)、智能终端等，终端设备可以经无线接入网(radioaccess network，RAN)与一个或多个核心网进行通信。例如，终端设备可以是移动电话(或称为“蜂窝”电话)、具有移动终端的计算机等，终端设备还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置以及未来NR网络中的终端设备，它们与无线接入网交换语音或数据。

本申请实施例公开一种用于口语练习的虚拟对象的音频生成方法及电子设备，能够提高口语练习效果。以下进行详细说明。

实施例一

请参阅图1，图1是本申请实施例公开的一种用于口语练习的虚拟对象的音频生成方法的流程示意图。如图1所示的用于口语练习的虚拟对象的音频生成方法具体可以包括以下步骤：

101、采集多个用户的对练音频。

采集多个用户的对练音频的方式可以利用拾音器采集，该拾音器可以安装于电子设备上，还可以独立于电子设备，本申请实施例不做限定。在拾音器独立于电子设备时，该电子设备和拾音器可以通过有线或者无线连接，在电子设备与拾音器无线连接时，电子设备和拾音器的连接的方式可以是蓝牙或者WiFi，通过实施该方法，拾音器在独立于电子设备时，利用拾音器采集多个用户的对练音频时，便于用户操作。

102、依据上述多个用户的对练音频以及预设对练内容，确定不同虚拟对象的目标对练音频。

在本申请实施例中，多个用户的对练音频是对应预设对练内容的，该预设对练内容可以为一个或者多个对话内容，在预设对练内容为多个对话内容的情况下，上述不同虚拟对象可以为多个对话内容的虚拟对象，在预设对练内容为一个对话内容的情况下，上述不同虚拟对象可以为该对话内容的虚拟对象。

上述依据上述多个用户的对练音频以及预设对练内容，确定不同虚拟对象的目标对练音频包括但不限于以下实现方式：

在上述不同虚拟对象为多个对话内容的虚拟对象时，识别每一对练音频，得到每一对练音频对应的文本内容；依据每一对练音频对应的文本内容，从预设对练内容中获取每一对练音频的对话信息和角色信息；依据每一对练音频的对话信息和角色信息对多个用户的对练音频进行整理，得到每一对话对应的不同虚拟对象的目标对练音频；

在上述不同虚拟对象为一个对话内容的虚拟对象时，识别每一对练音频，得到每一对练音频对应的文本内容；依据每一对练音频对应的文本内容，从预设对练内容中获取每一对练音频的角色信息；依据每一对练音频的角色信息对多个用户的对练音频进行整理，得到该对话对应的不同虚拟对象的目标对练音频。

103、对不同虚拟对象的目标对练音频进行预处理，得到不同虚拟对象的目标参考对练音频。

在本申请实施例中，上述不同虚拟对象的目标对练音频可以包括：第一虚拟对象的第一目标对练音频，不同虚拟对象的目标参考对练音频可以包括：第一虚拟对象的第一目标参考对练音频；由于任一虚拟对象的目标对练音频的处理方式可以相同，下面以第一虚拟对象的第一目标对练音频的处理方式为例进行说明，请参阅图2：

1031、从预设对练内容中获取第一虚拟对象的第一预设对练内容，以及获取第一目标对练音频对应的第一目标对练内容。

1032、若第一目标对练内容与第一预设对练内容匹配，则将第一目标对练音频确定为第一虚拟对象的第一目标参考对练音频。

1033、若第一目标对练内容与第一预设对练内容不匹配，则依据第一预设对练内容对第一目标对练音频进行修正，以得到第一虚拟对象的第一目标参考对练音频。

其中，在本申请实施例中，不同虚拟对象的目标对练音频可以包括：第一虚拟对象的M个用户的第一目标对练音频，不同虚拟对象的目标参考对练音频可以包括：第一虚拟对象的N个用户的第一目标参考对练音频，N小于或者等于M，M和N为正整数。

示例性的：

依据第一预设对练内容对第一目标对练音频进行修正，以得到第一虚拟对象的第一目标参考对练音频包括但不限于以下实现方式：

在N小于M的情况下：

方式1：依据第一预设对练内容，确定M个用户中每一用户的第一目标对练音频的完整度；从M个用户的第一目标对练音频中剔除完整度小于预设完整度的第一目标对练音频，得到N个用户的第一目标对练音频；依据第一预设对练内容，修正N个用户中每一用户的第一目标对练音频，得到N个用户的第一目标参考对练音频；

方式2：依据第一预设对练内容，确定M个用户中每一用户的第一目标对练音频的完整度；依据每一用户的第一目标对练音频的完整度，确定每一用户的第一目标对练音频的权重值，其中，每一用户的第一目标对练音频的完整度和其对应的权重值成正比；依据权重值由大到小的顺序，从M个用户的第一目标对练音频确定出N个用户的第一目标对练音频；其中，N可以是由用户预先设置的。

通过实施上述方法，在对M个用户的第一目标对练音频进行修正之前，依据每一用户的第一目标对练音频的完整度对M个用户的第一目标对练音频进行删选，可以有效提高修正效率，减轻电子设备的设备功耗。

在N等于M的情况下：

依据第一预设对练内容，修正M个用户中每一用户的第一目标对练音频，得到M个用户的第一目标参考对练音频。

可选的，在N小于M的情况下，N个用户的第一目标参考对练音频包括第三用户的第一目标参考对练音频，或者，在N等于M的情况下，M个用户的第一目标参考对练音频包括第三用户的第一目标参考对练音频，下面以第三用户的第一目标对练音频的处理方式为例，对N或者M个用户中每一用户的第一目标对练音频的修正方式进行说明：依据第三用户对应的第一目标对练内容和第一预设对练内容，确定第三用户对应的第一目标对练内容的缺失内容；获取第三用户的声音特征；依据第三用户的声音特征和第三用户对应的第一目标对练内容的缺失内容进行机器学习得到第三用户的第一目标对练音频的缺失音频；依据该缺失音频修正第三用户的第一目标对练音频，得到第三用户的目标参考对练音频；其中，第三用户的声音特征可以包括音调、音色以及发音频率等信息。通过实施该方法，可以使得修正得到的第一目标参考对练音频的仿真效果更佳。

作为一种可选的实施方式，在本申请实施例中，不同虚拟对象的目标参考对练音频还可以包括：第二虚拟对象的Y个用户的第二目标参考对练音频；第一虚拟对象和第二虚拟对象属于包含于预设对练内容中的第一对话的虚拟对象；N个用户中第一用户和Y个用户中第二用户的用户标签为第一标签；在本申请实施例中，还可以执行以下步骤：对第一用户的第一目标参考对练音频和第二用户的第二目标参考对练音频进行打包，得到第一标签对应的语音包。

在本申请实施例中，用户标签可以分为家人标签和好友标签，依据用户标签得到第一对话的语音包，使得口语练习的虚拟对象的音频可以为家人音频或者好友音频，给到练习者与家人或者好友进行口语对练的真实体验，可以进一步增强口语对练时的使用体验感。

其中，在本申请实施例中，第一虚拟对象中包括的用户标签和第二虚拟对象中包括的用户标签相同，以第一虚拟对象的包括的用户标签为例，对用户标签进行介绍：第一虚拟对象的N个用户中可以存在用户标签相同的用户，也可以不存在用户标签相同的用户，本申请实施例不做限定。若第一虚拟对象的N个用户中存在用户标签相同的用户，用户标签相同的不同用户的第一目标参考对练音频的打包优先级不同。

需要说明的是，用户标签相同的不同用户的第一目标参考对练音频的打包优先级可以由用户自主设定，有利于提高打包灵活性。

基于上述表述，在N个用户中第一用户和Y个用户中第二用户的用户标签为第一标签时，对第一用户的第一目标参考对练音频和第二用户的第二目标参考对练音频进行打包，得到第一标签对应的语音包的情况可以包括但不限于以下几种：

第一种：第一虚拟对象的N个用户中第一标签对应的用户为多个，且包括第一用户；第二虚拟对象的Y个用户中第一标签对应的用户为多个，且包括第二用户，第一用户的第一目标参考对练音频的打包优先级和第二用户的第二目标参考对练音频的打包优先级相同；

第二种：第一虚拟对象的N个用户中第一标签对应的用户为多个，包括第一用户，且第一用户的第一目标参考对练音频的打包优先级最高；第二虚拟对象的Y个用户中第一标签对应的用户仅为第二用户；

第三种：第一虚拟对象的N个用户中第一标签对应的用户仅为第一用户，第二虚拟对象的Y个用户中第一标签对应的用户为多个，包括第二用户，且第二用户的第二目标参考对练音频的打包优先级最高。

进一步可选的，还可以执行以下步骤：在检测到对练请求时，获取对练请求对应的当前用户标签；在当前用户标签为第一标签时，查找第一标签对应的语音包；确定对练请求的请求用户针对第一对话选取的第三虚拟对象；依据第一用户标签的语音包，启动第三虚拟对象对应的口语对练模式。

在第一虚拟对象对练的口语对练模式中，在轮到第三虚拟对象的预设对练内容时，采集请求用户的输入语音，在轮到第一对话中除第三虚拟对象之外的其他虚拟对象的预设对练内容时，从语音包中获取其他虚拟对象对应的目标参考对练音频，并播放其他虚拟对象对应的目标参考对练音频。

示例性的：确定对练请求的请求用户针对第一对话选取的第三虚拟对象包括但不限于以下实现方式：

方式1：加载显示第一对话的多个虚拟对象的标识；确定请求用户从第一对话的多个虚拟对象的标识中选取的目标标识；将目标标识对应的虚拟对象作为请求用户针对第一对话选取的第三虚拟对象。

方式2：识别请求用户的声音特征；获取第一对话的多个虚拟对象中每一虚拟对象的声音特征；从第一对话的多个虚拟对象中确定出声音特征与请求用户的声音特征匹配的虚拟对象；将角色声音特征与请求用户的声音特征匹配的虚拟对象作为请求用户针对第一对话选取的第三虚拟对象。

通过实施上述方法，可以提高口语练习效果，还可以便于用户操作，还可以减轻电子设备的设备功耗，还可以使得修正得到的第一目标参考对练音频的仿真效果更佳，还可以进一步增强口语对练时的使用体验感。

实施例二

请参阅图3，图3是本申请实施例公开的一种电子设备的结构示意图。如图3所示，该电子设备可以包括：

采集单元301，用于采集多个用户的对练音频。

确定单元302，用于依据上述多个用户的对练音频以及预设对练内容，确定不同虚拟对象的目标对练音频。

确定单元302用于依据上述多个用户的对练音频以及预设对练内容，确定不同虚拟对象的目标对练音频的方式具体可以为：

确定单元302，用于在上述不同虚拟对象为多个对话内容的虚拟对象时，识别每一对练音频，得到每一对练音频对应的文本内容；依据每一对练音频对应的文本内容，从预设对练内容中获取每一对练音频的对话信息和角色信息；依据每一对练音频的对话信息和角色信息对多个用户的对练音频进行整理，得到每一对话对应的不同虚拟对象的目标对练音频；

确定单元302，用于在上述不同虚拟对象为一个对话内容的虚拟对象时，识别每一对练音频，得到每一对练音频对应的文本内容；依据每一对练音频对应的文本内容，从预设对练内容中获取每一对练音频的角色信息；依据每一对练音频的角色信息对多个用户的对练音频进行整理，得到该对话对应的不同虚拟对象的目标对练音频。

处理单元303，用于对不同虚拟对象的目标对练音频进行预处理，得到不同虚拟对象的目标参考对练音频。

在本申请实施例中，上述不同虚拟对象的目标对练音频可以包括：第一虚拟对象的第一目标对练音频，不同虚拟对象的目标参考对练音频可以包括：第一虚拟对象的第一目标参考对练音频；由于处理单元303对任一虚拟对象的目标对练音频的处理方式可以相同，下面以处理单元303处理第一虚拟对象的第一目标对练音频为例进行说明：

处理单元303，用于从预设对练内容中获取第一虚拟对象的第一预设对练内容，以及获取第一目标对练音频对应的第一目标对练内容；以及在第一目标对练内容与第一预设对练内容匹配时，则将第一目标对练音频确定为第一虚拟对象的第一目标参考对练音频；以及在第一目标对练内容与第一预设对练内容不匹配时，则依据第一预设对练内容对第一目标对练音频进行修正，以得到第一虚拟对象的第一目标参考对练音频。

示例性的：

处理单元303用于依据第一预设对练内容对第一目标对练音频进行修正，以得到第一虚拟对象的第一目标参考对练音频的方式具体可以为：

在N小于M的情况下：

方式1：处理单元303，用于依据第一预设对练内容，确定M个用户中每一用户的第一目标对练音频的完整度；从M个用户的第一目标对练音频中剔除完整度小于预设完整度的第一目标对练音频，得到N个用户的第一目标对练音频；依据第一预设对练内容，修正N个用户中每一用户的第一目标对练音频，得到N个用户的第一目标参考对练音频；

方式2：处理单元303，用于依据第一预设对练内容，确定M个用户中每一用户的第一目标对练音频的完整度；依据每一用户的第一目标对练音频的完整度，确定每一用户的第一目标对练音频的权重值，其中，每一用户的第一目标对练音频的完整度和其对应的权重值成正比；依据权重值由大到小的顺序，从M个用户的第一目标对练音频确定出N个用户的第一目标对练音频；其中，N可以是由用户预先设置的。

在N等于M的情况下：

处理单元303，用于依据第一预设对练内容，修正M个用户中每一用户的第一目标对练音频，得到M个用户的第一目标参考对练音频。

可选的，在N小于M的情况下，N个用户的第一目标参考对练音频包括第三用户的第一目标参考对练音频，或者，在N等于M的情况下，M个用户的第一目标参考对练音频包括第三用户的第一目标参考对练音频，下面以处理单元303处理第三用户的第一目标对练音频为例，对N/M个用户中每一用户的第一目标对练音频的修正方式进行说明：处理单元303，用于依据第三用户对应的第一目标对练内容和第一预设对练内容，确定第三用户对应的第一目标对练内容的缺失内容；获取第三用户的声音特征；依据第三用户的声音特征和第三用户对应的第一目标对练内容的缺失内容进行机器学习得到第三用户的第一目标对练音频的缺失音频；依据该缺失音频修正第三用户的第一目标对练音频，得到第三用户的目标参考对练音频；其中，第三用户的声音特征可以包括音调、音色以及发音频率等信息。

作为一种可选的实施方式，在本申请实施例中，不同虚拟对象的目标参考对练音频还可以包括：第二虚拟对象的Y个用户的第二目标参考对练音频；第一虚拟对象和第二虚拟对象属于包含于预设对练内容中的第一对话的虚拟对象；N个用户中第一用户和Y个用户中第二用户的用户标签为第一标签；在本申请实施例中，该电子设备还可以包括打包单元，用于对第一用户的第一目标参考对练音频和第二用户的第二目标参考对练音频进行打包，得到第一标签对应的语音包。

在本申请实施例中，关于用户标签的详细介绍，请参照实施例一中的描述，本申请实施例不再赘述。

进一步可选的，该电子设备还可以包括获取单元，用于打包单元对第一用户的第一目标参考对练音频和第二用户的第二目标参考对练音频进行打包，得到第一标签对应的语音包之后，在检测到对练请求时，获取对练请求对应的当前用户标签；在当前用户标签为第一标签时，查找第一标签对应的语音包；

上述确定单元302，还用于确定对练请求的请求用户针对第一对话选取的第三虚拟对象；依据第一用户标签的语音包，启动第三虚拟对象对应的口语对练模式。

其中，关于第三虚拟对象对应的口语对练模式的介绍，请参照实施例一中的描述，本申请实施例不再赘述。

示例性的：上述确定单元302确定对练请求的请求用户针对第一对话选取的第三虚拟对象的方式具体可以为：

方式1：确定单元302，用于加载显示第一对话的多个虚拟对象的标识；确定请求用户从第一对话的多个虚拟对象的标识中选取的目标标识；将目标标识对应的虚拟对象作为请求用户针对第一对话选取的第三虚拟对象。

方式2：确定单元302，用于识别请求用户的声音特征；获取第一对话的多个虚拟对象中每一虚拟对象的声音特征；从第一对话的多个虚拟对象中确定出声音特征与请求用户的声音特征匹配的虚拟对象；将角色声音特征与请求用户的声音特征匹配的虚拟对象作为请求用户针对第一对话选取的第三虚拟对象。

请参阅图4，图4是本申请实施例公开的一种电子设备的结构示意图。如图4所示，该电子设备可以包括：

存储有可执行程序代码的存储器401；

与存储器401耦合的处理器402；

其中，处理器402调用存储器401中存储的可执行程序代码，执行以上实施例中的方法的部分或者全部步骤。

本申请实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行以上实施例中的方法的部分或者全部步骤。

本申请实施例公开一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行以上实施例中的方法的部分或者全部步骤。

本申请实施例公开一种应用发布系统，该应用发布系统用于发布计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执以上实施例中的方法的部分或者全部步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(ProgrammableRead-only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本申请实施例公开的一种用于口语练习的虚拟对象的音频生成方法及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，且上述具体个例中步骤序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

本文中字符“/”，一般表示前后关联对象是一种“或”的关系。在本申请所提供的实施例中，应理解，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。另外，在本申请各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。若上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本申请的各个实施例上述方法的部分或全部步骤。

以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种用于口语练习的虚拟对象的音频生成方法，其特征在于，所述方法包括：

采集多个用户的对练音频；

2.根据权利要求1所述的方法，其特征在于，所述不同虚拟对象的目标对练音频包括：第一虚拟对象的第一目标对练音频，所述不同虚拟对象的目标参考对练音频包括：所述第一虚拟对象的第一目标参考对练音频；

3.根据权利要求2所述的方法，其特征在于，所述不同虚拟对象的目标对练音频包括：第一虚拟对象的M个用户的第一目标对练音频，所述不同虚拟对象的目标参考对练音频包括：所述第一虚拟对象的N个用户的第一目标参考对练音频，所述N小于或者等于所述M，M和N为正整数。

4.根据权利要求3所述的方法，其特征在于，在所述N小于所述M的情况下，所述依据所述第一预设对练内容对所述第一目标对练音频进行修正，以得到所述第一虚拟对象的第一目标参考对练音频，包括：

5.根据权利要求4所述的方法，其特征在于，所述不同虚拟对象的目标参考对练音频还包括：第二虚拟对象的Y个用户的第二目标参考对练音频；所述第一虚拟对象和所述第二虚拟对象属于包含于所述预设对练内容中的第一对话的虚拟对象；所述N个用户中第一用户和所述Y个用户中第二用户的用户标签为第一标签；

所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述第一用户的第一目标参考对练音频和所述第二用户的第二目标参考对练音频进行打包，得到所述第一标签对应的语音包之后，所述方法还包括：

7.一种电子设备，其特征在于，包括：

采集单元，用于采集多个用户的对练音频；

8.根据权利要求7所述的电子设备，其特征在于，所述不同虚拟对象的目标对练音频包括：第一虚拟对象的第一目标对练音频，所述不同虚拟对象的目标参考对练音频包括：所述第一虚拟对象的第一目标参考对练音频；

9.一种电子设备，其特征在于，所述电子设备包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行权利要求1～5任一项所述方法的部分或全部步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序包括用于执行权利要求1～5任一项所述方法的部分或全部步骤。