CN110970014A

CN110970014A - 语音转换、文件生成、播音、语音处理方法、设备及介质

Info

Publication number: CN110970014A
Application number: CN201911051955.9A
Authority: CN
Inventors: 赵胜奎
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-04-07
Anticipated expiration: 2039-10-31
Also published as: WO2021083071A1; CN110970014B

Abstract

本申请实施例提供一种语音转换方法、设备及存储介质。在本申请的一些实施例中，在语音转换过程中，将声学特征与发音信息相结合，通过将声学特征映射为至少一种语种下的发音信息，并结合预先学习到从发音信息到声码器特征的特征转换关系完成从第一音源到第二音源的语音转换；一方面，利用与第一音源的语种关联性较弱的发音信息进行语音转换，转换结果受第一音源的影响较小，语音转换质量更高；另一方面，利用至少一种语种下的发音信息，可扩大第一音源的语种适用范围，提高语音转换的智能化程度。

Description

语音转换、文件生成、播音、语音处理方法、设备及介质

技术领域

本申请涉及语音信号处理技术领域，尤其涉及一种语音转换方法、设备及存储介质。

背景技术

语音转换技术，是在保证源说话人的说话内容的基础上，改变源说话人的声学特征，使之听起来像目标说话人的音色，满足在语音交互应用中对用户个性化的需求。

目前，常用语音转换技术主要是从源说话人的语音信号中提取源说话人的声学特征，结合源说话人的声学特征将该语音信号转换为目标说话人的语音信号。现有语音转换技术存在转换质量较差的问题，有待解决。

发明内容

本申请的多个方面提供一种语音转换方法、设备及存储介质，提升语音转换质量，提升用户体验。

本申请实施例提供一种语音转换方法，包括：

从第一音源发出的语音信号中提取所述第一音源的声学特征；

将所述第一音源的声学特征映射为至少一种语种下的发音信息，所述发音信息包含发音音素和发音特征；

根据预先学习到的第二音源对应的特征转换关系，将所述第一音源的声学特征和所述至少一种语种下的发音信息转换为声码器特征；

将所述声码器特征送入声码器进行语音合成，得到所述第二音源对应的语音信号。

本申请实施例还提供一种语音转换设备，包括：存储器和处理器；

所述存储器，用于存储一条或多条计算机指令；

所述处理器，用于执行所述一条或多条计算机指令以用于：

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当所述计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行包括以下的动作：

本申请实施例还提供一种配音文件生成方法，包括：

获取至少一段语音片段；

响应于对至少一段语音片段的选择操作，确定需要进行语音转换的待转换语音片段；

利用已有的语音转换模型对待转换语音片段分别进行语音转换，生成转换后的指定说话人的语音片段；其中，语音转换模型能够将第一音源的语音信号转换为第二音源的语音信号；

响应于语音合并操作，将转换后的指定说话人的语音片段与至少一段语音片段中除待转换语音片段之外的语音片段进行合并以生成配音文件。

本申请实施例还提供一种文件生成设备，包括：存储器和处理器；

所述存储器，用于存储一条或多条计算机指令；

所述处理器，用于执行所述一条或多条计算机指令以用于：

获取至少一段语音片段；

本申请实施例还提供一种播音方法，适用于服务器，包括：

接收播放终端发送的语音转换请求，其中，语音转换请求中携带有指定音源信息和指定语种类型；

获取待播报语音；

根据指定音源信息和指定语种类型，利用已有的语种翻译模型和语音转换模型对待播报语音进行音源和语种的语音转换，得到转换后的目标播报语音，其中，语音转换模型能够将第一音源的语音信号转换为第二音源的语音信号，语种翻译模型能够将第一语种的语音信号转换为第二语种的语音信号；

将所述目标播报语音发送至播放终端，以供播放终端播放所述转换后目标播报语音。

本申请实施例还提供一种播音方法，适用于播放终端，包括：

响应于音源选择操作，获取音源信息；

响应于语种选择操作，获取指定语种类型；

响应于语音转换确认操作，向服务器发送语音转换请求，以供服务器对待播报语音进行音源和语种的语音转换，得到转换后的目标播报语音；

接收服务器下发的所述目标播报语音；

播放所述目标播报语音。

本申请实施例还提供一种服务器，包括：存储器和处理器；

所述存储器，用于存储一条或多条计算机指令；

所述处理器，用于执行所述一条或多条计算机指令以用于：

获取待播报语音；

本申请实施例还提供一种播放终端，其特征在于，包括：存储器和处理器；

所述存储器，用于存储一条或多条计算机指令；

所述处理器，用于执行所述一条或多条计算机指令以用于：

响应于音源选择操作，获取音源信息；

响应于语种选择操作，获取指定语种类型；

接收服务器下发的所述目标播报语音；

播放所述目标播报语音。

响应于音源选择操作，获取音源信息；

响应于语种选择操作，获取指定语种类型；

接收服务器下发的所述目标播报语音；

播放所述目标播报语音。

本申请实施例还提供一种语音处理方法，适用于服务器，包括：

采集播报员的语音；

根据指定音源信息和指定语种类型，利用已有的语种翻译模型和语音转换模型对播报员的语音进行音源和语种的语音转换，得到转换后的目标播报语音，其中，语音转换模型能够将第一音源的语音信号转换为第二音源的语音信号，语种翻译模型能够将第一语种的语音信号转换为第二语种的语音信号；

本申请实施例还提供一种语音处理方法，适用于播放终端，包括：

响应于音源选择操作，获取音源信息；

响应于语种选择操作，获取指定语种类型；

接收服务器下发的所述目标播报语音；

播放所述目标播报语音。

本申请实施例还提供一种服务器，包括：存储器和处理器；

所述存储器，用于存储一条或多条计算机指令；

所述处理器，用于执行所述一条或多条计算机指令以用于：

采集播报员的语音；

本申请实施例还提供一种播放终端，包括：存储器和处理器；

所述存储器，用于存储一条或多条计算机指令；

所述处理器，用于执行所述一条或多条计算机指令以用于：

响应于音源选择操作，获取音源信息；

响应于语种选择操作，获取指定语种类型；

接收服务器下发的所述目标播报语音；

播放所述目标播报语音。

响应于音源选择操作，获取音源信息；

响应于语种选择操作，获取指定语种类型；

接收服务器下发的所述目标播报语音；

播放所述目标播报语音。

本申请实施例还提供一种语音转换方法，包括：

响应于音源选择操作，获取被选中的目标音源；

响应于语音录入操作，获取原始音源发出的语音信号；

利用已有的语音转换模型，将原始音源发出的语音信号转换为目标音源的语音信号；

播放所述目标音源的语音信号。

所述存储器，用于存储一条或多条计算机指令；

所述处理器，用于执行所述一条或多条计算机指令以用于：

响应于音源选择操作，获取被选中的目标音源；

响应于语音录入操作，获取原始音源发出的语音信号；

播放所述目标音源的语音信号。

响应于音源选择操作，获取被选中的目标音源；

响应于语音录入操作，获取原始音源发出的语音信号；

播放所述目标音源的语音信号。

在本申请的一些实施例中，在语音转换过程中，将声学特征与发音信息相结合，通过将声学特征映射为至少一种语种下的发音信息，并结合预先学习到从发音信息到声码器特征的特征转换关系完成从第一音源到第二音源的语音转换；一方面，利用与第一音源的语种关联性较弱的发音信息进行语音转换，转换结果受第一音源的影响较小，语音转换质量更高；另一方面，利用至少一种语种下的发音信息，可扩大第一音源的语种适用范围，提高语音转换的智能化程度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1a为本申请一示例性实施例提供的一种语音转换系统10a的结构示意图；

图1b为本申请一示例性实施例提供的另一种语音转换系统10b的结构示意图；

图2为本申请示例性实施例提供的一种语音转换模型的网络结构示意图；

图3为本申请示例性实施例提供的一种中文声学模型训练过程的示意图；

图4为本申请示例性实施例提供的一种特征转化模型训练过程的示意图；

图5为本申请示例性实施例提供的一种LPCNet声码器训练过程的示意图；

图6为本申请示例性实施例提供的一种语音转换模型应用的示意图；

图7为本申请示例性实施例提供的一种语音转换方法的流程示意图；

图8为本申请示例性实施例提供的另一种语音转换方法的流程示意图；

图9为本申请示例性实施例提供的另一种语音转换方法的流程示意图；

图10为本申请示例性实施例提供的另一种语音转换方法的流程示意图；

图11为本申请一示例性实施例提供的一种配音文件生成方法的流程示意图；

图12a为本申请一示例性实施例提供的一种播音方法的方法流程图；

图12b本申请一示例性实施例提供的一种播音方法的方法流程图；

图13a为本申请一示例性实施例提供的一种语音处理方法的方法流程图；

图13b为本申请一示例性实施例提供的一种语音处理方法的方法流程图

图14为本申请一示例性实施例提供的一种语音转换设备的结构示意图；

图15为本申请一示例性实施例提供的一种语音转换设备的结构示意图；

图16为本申请一示例性实施例提供的一种文件生成设备的结构示意图；

图17为本申请一示例性实施例提供的一种服务器的结构示意图；

图18为本申请一示例性实施例提供的一种播放设备的结构示意图；

图19本申请一示例性实施例提供的一种服务器的结构示意图；

图20本申请一示例性实施例提供的一种播放设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有技术中，一种语音转换的方法是，从源说话人的语音中提取文字信息，文字信息是语音相关的，依赖于文字信息进行语音合成。基于文本信息的语音转换方式，语音信号质量较差。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1a为本申请一示例性实施例提供的一种语音转换系统10a的结构示意图。如图1a所示，该语音转换系统包括：终端设备11和服务器12；其中，终端设备11和服务器12之间建立通信连接。终端设备11采集第一音源发出的语音信号并将第一音源发出的语音信号发送至服务器12，服务器12接收第一音源发出的语音信号进行语音转换得到第二音源对应的语音信号。

在本实施例中，服务器12和终端设备11通过无线或有线建立通信连接。可选地，服务器12可采用WIFI、蓝牙、红外等通信方式与终端设备11建立通信连接，或者，服务器12也可以通过移动网络与终端设备11建立通信连接。其中，移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax等中的任意一种。

在本实施例中，终端设备11是指可以采集第一音源发出的语音信号的设备，同时终端设备11具有用户所需的计算、上网、通信等功能。其中，终端设备11可以为计算机设备或者手持设备，其实现形式可以有多种，例如可以是智能手机、个人电脑、穿戴设备、平板电脑等。

在本实施例中，服务器12可以为终端设备11提供数据支持、计算服务以及一些管理服务。在本实施例中，并不限定服务器12的实现形态，例如服务器12可以是常规服务器、云服务器、云主机、虚拟中心等服务器设备。其中，服务器设备的构成主要包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类型。服务器12可以包含一台服务器，也可以包含多台服务器。

在本一示例性实施例中，终端设备11包括一声音传感器，终端设备11通过声音传感器采集第一音源发出的语音信号，并将采集到的第一音源发出的语音信号发送至服务器12，服务器12利用已有的语音转换模型进行语音转换得到第二音源对应的语音信号。在另一示例性实施例中，终端设备11还可以包括扬声器，接收服务器12发送的语音转换得到第二音源对应的语音信号，并对第二音源对应的语音信号进行播放。

需要说明的是，语音转换模型的训练过程可以在图1a的语音转换系统的服务器12上完成，也可以为独立于图1a的语音转换系统之外的服务器训练完成，然后训练模型的服务器将训练好的语音转换模型集成至图1a的语音转换系统的服务器12上。

在上述及下述各实施例中，第一音源和第二音源能够发出语音信号的实体，例如，第一音源和第二音源可以为说话人，或者能够发出语音信号的智能设备。

关于语音转换模型训练方式以及使用模型的过程在下述实施例中进行详细说明，下面先对模型训练过程进行说明，但该说明不构成对语音转换模型的限定，下面仅为示例性说明，还可以根据下述实施例推知语音转换模型的其他实施方式。

在本实施例中，图2为本申请示例性实施例提供的一种语音转换模型的网络结构示意图。如图2所示，语音转换模型的网络结构包括至少一个声学模型、特征转换模型和声码器。在本实施例中，需要预先训练得到上述至少一个声学模型、特征转换模型和声码器。其中，至少一个声学模型将第一音源的声学特征映射为至少一种语种下的发音信息；特征转换模型结合预先学习到从发音信息到声码器特征的转换关系，将第一音源的声学特征和至少一种语种下的发音信息转换为声码器特征；声码器将声码器特征送入声码器进行语音合成，得到第二音源对应的语音信号。下列分别对至少一个声学模型、特征转换模型和声码器的训练过程作出说明。

一，至少一个声学模型的训练过程。

在本实施例中，声学模型的数量可由本申请实施例采用的语种的数量决定，一种语种对应一种声学模型，本申请实施例对声学模型的数量不作限定，可以根据实际需求作出调整。例如，当产品面向的客户群体的语种只有或者大部分为中文和英文时，只需训练得到中文声学模型和英文声学模型即可。

在上述实施例中，在对至少一个声学模型的训练前，需要首先收集训练至少一个声学模型的训练数据集。在至少一个声学模型的训练数据集收集完成后，利用至少一个声学模型的训练数据集进行声学模型的训练包括但不限于以下几种训练方式。

训练方式一：收集至少一种语种下的多个第一语音样本信号形成训练数据集，并提取多个第一语音样本信号对应的内容型声学特征和发音信息；利用多个第一语音样本信号对应的内容型声学特征和发音信息分别针对至少一种语种训练声学模型以进行从内容型声学特征到发音信息的映射。

训练方式二：收集至少一种语种下的多个文本信息形成训练数据集，并从多个文本信息中获取多个文本信息对应的内容型声学特征和发音信息；利用多个文本信息对应的内容型声学特征和发音信息分别针对至少一种语种训练声学模型以进行从内容型声学特征到发音信息的映射。

训练方式三：收集至少一种语种下的多个第一语音样本信号和至少一种语种下的多个文本信息形成训练数据集，并从至少一种语种下的多个第一语音样本信号和至少一种语种下的多个文本信息，获取多个第一语音样本信号和多个文本信息对应的内容型声学特征和发音信息；利用多个第一语音样本信号和多个文本信息对应的内容型声学特征和发音信息分别针对至少一种语种训练声学模型以进行从内容型声学特征到发音信息的映射。

在上述及下述各实施例中，语音信号中的声学特征可分为内容型声学特征和音色型声学特征，需要说明的是，音色型声学特征包括音色信息，也可以包含音色信息之外的其他信息，例如内容信息。在一可选实施例中，内容型声学特征包括梅尔频率倒谱系数，音色型声学特征包括基频和梅尔频普中的至少一种。发音信息包括发音因素和发音特征，其中，发音特征表征语音最小单元发音音素的发音方式，在不同语种中发音因素的发音方式不同。例如，在中文中，发音特征指声调；在英文和泰语中，发音特征指长短音。

在上述训练方式一中，分别收集至少一种语种对应的多个第一语音样本信号，利用语音提取工具，分别从多个第一语音样本信号相应语种下的语音样本信号中提取内容声学特征和发音信息，利用各语种下的内容声学特征和发音信息分别对相应语种的声学模型进行训练，以供各语种的声学模型实现从该语种下的内容型声学特征到发音信息的映射。

在上述训练方式二中，分别收集至少一种语种的多个文本信息，从多个文本信息中相应语种下的文本信息中提取代表内容声学特征的文本内容和代表发音信息的文本特征，并将相应语种下代表内容声学特征的文本内容和代表发音信息的文本特征进行语音转换，得到获取各语种下相应的语音样本信号对应的内容型声学特征和发音信息，利用各语种下的内容声学特征和发音信息分别对相应语种的声学模型进行训练，以供各语种的声学模型实现从该语种下的内容型声学特征到发音信息的映射。

在上述训练方式三中，分别收集至少一种语种下的多个第一语音样本信号和至少一种语种下的多个文本信息，参照上述训练方式一中从第一语音样本信号中获取内容型声学特征和发音信息的方式、以及训练方式二中从多个第一语音样本信号和多个文本信息对应的内容型声学特征和发音信息的方式，获取多个第一语音样本信号和多个文本信息对应的内容型声学特征和发音信息，并利用各语种下的内容声学特征和发音信息分别对相应语种的声学模型进行训练，以供各语种的声学模型实现从该语种下的内容型声学特征到发音信息的映射。

以下以中英文声学模型训练过程为例对至少一个声学模型的训练过程作出说明，仅为一种示例性实施例方式，并不限于此。

图3为本申请示例性实施例提供的一种中文声学模型训练过程的示意图。如图3所示，收集中文的第一语音样本信号，从中文的第一语音样本信号对应的内容型声学特征、发音音素和声调；利用中文的第一语音样本信号对应的内容型声学特征、发音音素和声调针对中文声学模型以进行从内容型声学特征到发音音素和声调之间的映射。

二，特征转换模型的训练过程。

在本实施例中，在对特征转换模型进行训练前，需要首先收集训练特征转换模型所需的训练数据集。其中，训练数据集包括第二音源发出的第二语音样本信号。在特征转换模型的训练数据集收集完成后，利用特征转换模型的训练数据集进行特征转换模型训练。

在上述实施例中，收集第二音源发出的多个第二语音样本信号，提取多个第二语音样本信号对应的音色型声学特征、发音信息和声码器特征。一种可实现的方式为，从多个第二语音样本信号中提取第二音源的内容型声学特征、音色型声学特征和声码器特征；将第二音源的内容型声学特征输入至少一种语种各自对应的声学模型，利用至少一种语种各自对应的声学模型将第二音源的内容型声学特征映射为至少一种语种下的发音信息。其中，若声学模型为多个，则将多个声学模型输出的各自语种下的发音信息进行合并，获得至少一种语种下的发音信息。

进一步，利用多个第二语音样本信号的音色型声学特、发音信息和声码器特征针对第二音源训练特征转换模型以进行从音色型声学特征、发音信息到声码器特征的转换。在模型训练过程中，建立从音色型声学特征、发音信息到声码器特征的映射关系。需要说明的是，可以预先训练多个第二音源特征转换关系，以供语音转换模型应用过程中，可根据需要从多个第二音源中选择语音转换的目标音源，提升语音转换性能。

图4为本申请示例性实施例提供的一种特征转化模型训练过程的示意图。其中，声学模型包括中文声学模型和英文声学模型。如图4所示，第一阶段，收集第二音源发出的多个第二语音样本信号，利用语音提取工具从多个第二语音样本信号中提取第二音源的内容型声学特征、音色型声学特征和声码器特征；将第二音源的内容型声学特征分别输入中文声学模型和英文声学模型中，将中文声学模型和英文声学模型输出的各自语种下的发音信息进行合并，获得在中文和英文的发音信息。第二阶段，利用多个第二语音样本信号的音色型声学特征、发音信息和声码器特征针对第二音源训练特征转换模型以进行从音色型声学特征、发音信息到声码器特征的转换，得到训练好的特征转换模型。需要说明的是，在第一阶段中，利用中文声学模型和英文声学模型分别提取中文和英文的发音信息，仅为一种示例性实施方式，并不限于此。其中，关于获取训练特征转换模型所需的至少一种语种下的发音信息，还可以采用其它方式。

三，声码器的训练过程。

在本实施例中，在对声码器进行训练前，需要首先收集训练声码器所需的训练数据集。其中，训练数据集包括第二音源发出的第二语音样本信号。在声码器所需的训练数据集收集完成后，利用声码器的训练数据集进行声码器训练。其中，声码器可以为WaveNet声码器或者LPCNet声码器，本申请实施例优选LPCNet声码器。LPCNet声码器具有训练时间短、合成语音速度快以及合成语音质量较高的特点，提高整个语音转换的效率和转换语音的质量。

在上述实施例中，收集第二音源发出的多个第二语音样本信号，利用声码器特征提取工具提取多个第二语音样本信号对应的声码器特征；利用多个第二语音样本信号和多个第二语音样本信号对应的声码器特征针对第二音源进行模型训练，以建立从声码器特征到语音信号合成的声码器。其中，针对不同的声码器需要采集不同的声码器特征，例如，LPCNet声码器所需的声码器特征为LPCNet特征，WaveNet声码器所需的特征为WaveNet特征。

图5为本申请示例性实施例提供的一种LPCNet声码器训练过程的示意图。如图5所示，从第二音源发出的多个第二语音样本信号提取多个第二语音样本信号对应的LPCNet特征，利用多个第二语音样本信号和多个第二语音样本信号对应的LPCNet特征针对第二音源进行模型训练，以建立从LPCNet特征到语音信号合成的声码器，得到LPCNet声码器。

在另一种系统架构中，可以不包括服务器10b，可以将语音转换模型集成于终端设备11上，终端设备11完成语音转换。终端设备11采集第一音源发出的语音信号，终端设备11对第一音源发出的语音信号进行语音转换得到第二音源对应的语音信号。关于语音转换的方法可参见上述各实施例的相关描述部分，在此不再赘述。

在训练得到至少一个声学模型、特征转换模型和声码器后，构建语音转换模型的网络结构，得到语音转化模型，其中，语音转化模型的执行过程可下述各实施例的描述。

图6为本申请示例性实施例提供的一种语音转换模型应用的示意图。如图6所示，首先，服务器12将第一音源的声学特征映射为至少一种语种下的发音信息；接着，服务器12根据预先学习到的第二音源对应的特征转换关系，将第一音源的声学特征和至少一种语种下的发音信息转换为声码器特征；最后，服务器12将声码器特征送入声码器进行语音合成，得到第二音源对应的语音信号。

在上述实施例中，服务器12将第一音源的声学特征映射为至少一种语种下的发音信息，一种可选实施例为，将第一音源的内容型声学特征映射为至少一种语种下的发音信息。

在上述实施例中，服务器12根据预先学习到的第二音源对应的特征转换关系，将第一音源的声学特征和至少一种语种下的发音信息转换为声码器特征，包括但不限于以下几种转换方式：

转换方式一：服务器12根据预先学习到的第二音源对应的特征转换关系，将第一音源的音色型声学特征和至少一种语种下的发音信息转换为声码器特征；

转换方式二：服务器12根据预先学习到的第二音源对应的特征转换关系，将第一音源的音色型声学特征、内容型声学特征和至少一种语种下的发音信息转换为声码器特征。

在上述实施例中，服务器12将第一音源的内容型声学特征映射为至少一种语种下的发音信息。一种可选实施例为，服务器12将第一音源的内容型声学特征分别输入至少一种语种各自对应的上述训练好的声学模型，利用至少一种语种各自对应的声学模型将第一音源的内容型声学特征映射为至少一种语种下的发音信息。

在上述实施例中，服务器12根据预先学习到的第二音源对应的特征转换关系，将第一音源的音色型声学特征和至少一种语种下的发音信息转换为声码器特征。一种可实现的方式为，将第一音源的音色型声学特征和至少一种语种下的发音信息输入上述训练好的特征转换模型，利用特征转换模型将第一音源的音色型声学特征和至少一种语种下的发音信息转换为声码器特征；其中，特征转换模型反映第二音源对应的从音色型声学特征和发音信息到声码器特征之间的特征转换关系。

图1b为本申请一示例性实施例提供的另一种语音转换系统10b的结构示意图。如图1b所示，该语音转换系统10b包括语音采集设备21，服务器22和语音播放设备23；其中，语音采集设备21和语音播放设备23分别与服务器22建立通信连接。语音采集设备21采集第一音源发出的语音信号并将第一音源发出的语音信号发送至服务器22，服务器22接收第一音源发出的语音信号进行语音转换得到第二音源对应的语音信号并将第二音源对应的语音信号发送至语音播放设备23，语音播放设备23播放第二音源对应的语音信号。例如，第一用户A和第二用户B分别使用不同的移动终端进行通信，服务器22可以将第一用户A的语音信号转换为目标用户C的语音信号，并在第二用户B所使用的移动终端进行播放，这样第二用户B听到的是目标用户C的语音信号，实现移动通信中的变声功能。

在本实施例中，语音采集设备21和语音播放设备23分别与服务器22之间通过无线或有线建立通信连接。可选地，服务器22可采用WIFI、蓝牙、红外等通信方式与语音采集设备21和语音播放设备23建立通信连接，或者服务器22也可以通过移动网络与语音采集设备21和语音播放设备23建立通信连接。其中，移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax等中的任意一种。

在本实施例中，语音采集设备21是指可以采集第一音源发出的语音信号的设备，语音播放设备23为播放第二音源发出的语音信号的设备，同时语音采集设备21和语音播放设备23具有用户所需的计算、上网、通信等功能。其中，语音采集设备21和语音播放设备23可以为计算机设备或者手持设备，其实现形式可以有多种，例如可以是智能手机、个人电脑、穿戴设备、平板电脑等。

在本实施例中，服务器22可以为语音采集设备21和语音播放设备23提供数据支持、计算服务以及一些管理服务。在本实施例中，并不限定服务器22的实现形态，例如服务器22可以是常规服务器、云服务器、云主机、虚拟中心等服务器设备。其中，服务器设备的构成主要包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类型。服务器22可以包含一台服务器，也可以包含多台服务器。

在本实施例中，语音采集设备21包括一声音传感器，语音采集设备21通过声音传感器采集第一音源发出的语音信号，并将采集到的第一音源发出的语音信号发送至服务器22，服务器22利用已有的语音转换模型进行语音转换得到第二音源对应的语音信号，服务器22将第二音源对应的语音信号发送至语音播放设备23，语音播放设备23接收并播放第二音源对应的语音信号。

在本实施例中，关于语音转化模型的训练方法以及语音转换模型的执行方法可参见上述各实施例的相应部分的描述，本实施例的语音转换系统也可以取得与前述各实施例相同的有益效果，在此不再赘述。

在本申请的语音转换系统的实施例中，在语音转换过程中，将声学特征与发音信息相结合，通过将声学特征映射为至少一种语种下的发音信息，并结合预先学习到从发音信息到声码器特征的特征转换关系完成从第一音源到第二音源的语音转换；一方面，利用与第一音源的语种关联性较弱的发音信息进行语音转换，转换结果受第一音源的影响较小，语音转换质量更高；另一方面，利用至少一种语种下的发音信息，可扩大第一音源的语种适用范围，提高语音转换的智能化程度。

除上述提供的各语音转换系统之外，本申请一些实施例还提供一种语音转换方法，本申请实施例所提供的语音转换方法可应用于上述各语音转换系统，但不限于上述实施例提供的语音转换系统。

图7为本申请示例性实施例提供的一种语音转换方法的流程示意图。如图7所示，该方法包括：

S701：从第一音源发出的语音信号中提取第一音源的声学特征；

S702：将第一音源的声学特征映射为至少一种语种下的发音信息，发音信息包含发音音素和发音特征；

S703：根据预先学习到的第二音源对应的特征转换关系，将第一音源的声学特征和至少一种语种下的发音信息转换为声码器特征；

S704：将声码器特征送入声码器进行语音合成，得到第二音源对应的语音信号。

在本申请实施例中，本申请实施例语音转换方法的执行主体可以为多个具有数据支持、计算服务以及一些管理服务的服务器或者终端设备，在执行主体为服务器时，并不限定服务器的实现形态，例如，服务器可以是常规服务器、云服务器、云主机、虚拟中心等服务器设备。其中，服务器设备的构成主要包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类型。服务器包含一台服务器，也可以包含多台服务器。

在本实施例中，本申请实施例语音转换方法的执行主体为服务器时，利用终端设备采集从第一音源发出的语音信号，终端设备包括一声音传感器，终端设备通过声音传感器采集第一音源发出的语音信号，并将采集到的第一音源发出的语音信号发送至服务器，服务器利用已有的语音转换模型进行语音转换得到第二音源对应的语音信号。在另一示例性实施例中，终端设备还可以包括扬声器，接收服务器发送的语音转换得到第二音源对应的语音信号，并对第二音源对应的语音信号进行播放。

需要说明的是，语音转换模型的训练过程可以在另外一台服务器上完成，然后训练模型的服务器将训练好的语音转换模型集成至上述服务器上。

一，至少一个声学模型的训练过程。

二，特征转换模型的训练过程。

图4为本申请示例性实施例提供的一种特征转化模型训练过程的示意图。其中，声学模型包括中文声学模型和英文声学模型。如图4所示，第一阶段，收集第二音源发出的多个第二语音样本信号，利用语音提取工具从多个第二语音样本信号中提取第二音源的内容型声学特征、音色型声学特征和声码器特征；将第二音源的内容型声学特征分别输入中文声学模型和英文声学模型中，将中文声学模型和英文声学模型输出的各自语种下的发音信息进行合并，获得在中文和英文下的发音信息。第二阶段，利用多个第二语音样本信号的音色型声学特、发音信息和声码器特征针对第二音源训练特征转换模型以进行从音色型声学特征、发音信息到声码器特征的转换，得到训练好的特征转换模型。需要说明的是，在第一阶段中，利用中文声学模型和英文声学模型分别提取中文和英文的发音信息，仅为一种示例性实施方式，并不限于此。其中，关于获取训练特征转换模型所需的至少一种语种下的发音信息，还可以采用其它方式。

三，声码器的训练过程。

图6为本申请示例性实施例提供的一种语音转换模型应用的示意图。如图6所示，首先，将第一音源的声学特征映射为至少一种语种下的发音信息；接着，根据预先学习到的第二音源对应的特征转换关系，将第一音源的声学特征和至少一种语种下的发音信息转换为声码器特征；最后，将声码器特征送入声码器进行语音合成，得到第二音源对应的语音信号。

在上述实施例中，将第一音源的声学特征映射为至少一种语种下的发音信息，一种可选实施例为，将第一音源的内容型声学特征映射为至少一种语种下的发音信息。

在上述实施例中，根据预先学习到的第二音源对应的特征转换关系，将第一音源的声学特征和至少一种语种下的发音信息转换为声码器特征，包括但不限于以下几种转换方式：

转换方式一：根据预先学习到的第二音源对应的特征转换关系，将第一音源的音色型声学特征和至少一种语种下的发音信息转换为声码器特征；

转换方式二：根据预先学习到的第二音源对应的特征转换关系，将第一音源的音色型声学特征、内容型声学特征和至少一种语种下的发音信息转换为声码器特征。

需要说明的是，服务器预先学习到多个第二音源对应的特征转换关系。在将第一音源的声学特征和至少一种语种下的发音信息转换为声码器特征之前，从多个第二音源中选择出目标音源转换为目标音源对应的声码器特征。

在上述实施例中，将第一音源的内容型声学特征映射为至少一种语种下的发音信息。一种可选实施例为，将第一音源的内容型声学特征分别输入至少一种语种各自对应的上述训练好的声学模型，利用至少一种语种各自对应的声学模型将第一音源的内容型声学特征映射为至少一种语种下的发音信息。

在上述实施例中，根据预先学习到的第二音源对应的特征转换关系，将第一音源的音色型声学特征和至少一种语种下的发音信息转换为声码器特征。一种可实现的方式为，将第一音源的音色型声学特征和至少一种语种下的发音信息输入上述训练好的特征转换模型，利用特征转换模型将第一音源的音色型声学特征和至少一种语种下的发音信息转换为声码器特征；其中，特征转换模型反映第二音源对应的从音色型声学特征和发音信息到声码器特征之间的特征转换关系。

图8为本申请示例性实施例提供的另一种语音转换方法的流程示意图。如图8所示，该方法包括：

S801：利用终端设备上的语音组件采集第一音源发出的语音信号；

S802：终端设备从第一音源发出的语音信号中提取第一音源的声学特征；

S803：终端设备将第一音源的声学特征映射为至少一种语种下的发音信息，发音信息包含发音音素和发音特征；

S804：终端设备根据预先学习到的第二音源对应的特征转换关系，将第一音源的声学特征和至少一种语种下的发音信息转换为声码器特征；

S805：终端设备将声码器特征送入声码器进行语音合成，得到第二音源对应的语音信号；

S806：终端设备上的语音组件播放第二音源对应的语音信号。

在本申请实施例中，本申请实施例语音转换方法的执行主体为终端设备，本申请实施例不限定终端设备的实现形式，终端设备可以为计算机设备或者手持设备，其实现形式可以有多种，例如可以是智能手机、个人电脑、穿戴设备、平板电脑等。

关于语音转化的具体实现方法可参照前述各实施例的相应部分的描述，本实施例的语音转换方法也可以取得与前述各实施例相同的有益效果，在此不再赘述。

图9为本申请示例性实施例提供的另一种语音转换方法的流程示意图。如图9所示，该方法包括：

S901：接收语音采集设备发送的第一音源发出的语音信号；

S902：从第一音源发出的语音信号中提取第一音源的声学特征；

S903：将第一音源的声学特征映射为至少一种语种下的发音信息，发音信息包含发音音素和发音特征；

S904：根据预先学习到的第二音源对应的特征转换关系，将第一音源的声学特征和至少一种语种下的发音信息转换为声码器特征；

S905：将声码器特征送入声码器进行语音合成，得到第二音源对应的语音信号；

S906：将第二音源对应的语音信号发送至语音播放设备，以供语音播放设备播放第二音源对应的语音信号。

在本申请实施例中，本申请实施例语音转换方法的执行主体可以为多个具有数据支持、计算服务以及一些管理服务的服务器，并不限定服务器的实现形态，例如，服务器可以是常规服务器、云服务器、云主机、虚拟中心等服务器设备。其中，服务器设备的构成主要包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类型。服务器包含一台服务器，也可以包含多台服务器。

在本申请实施例中，并不限定语音采集设备和语音播放设备的实现形式，语音采集设备和语音播放设备可以为计算机设备或者手持设备，其实现形式可以有多种，例如可以是智能手机、个人电脑、穿戴设备、平板电脑等。

图10为本申请示例性实施例提供的另一种语音转换方法的流程示意图。如图10所示，该方法包括：

S1001：响应于音源选择操作，获取被选中的目标音源；

S1002：响应于语音录入操作，获取原始音源发出的语音信号；

S1003：利用已有的语音转换模型，将原始音源发出的语音信号转换为目标音源的语音信号；

S1004：播放目标音源的语音信号。

在本实施例中，执行主体可以为与用户交互，且具有用户所需的计算、上网、通信等功能的计算机设备，其实现形式可以有多种，例如可以是智能手机、个人电脑、穿戴设备、平板电脑和智能语音设备等。

在上述实施例中，在执行主体为智能语音设备的情况下，在智能语音设备上可以部署实现上述各实施例语音转换方法的语音转换模模型，智能语音设备可以设置操作控件或者电子显示屏以实现与用户的交互。

在上述实施例中，用户通过操作智能语音设备上的操作控件或者电子显示屏，进行目标音源的选择和打开智能语音设备上的麦克风采集原始音源发出的语音信号，智能语音设备在获取到目标音源和原始音源发出的语音信号后，利用自身部署的语音转换模型，将原始音源发出的语音信号转换为目标音源的语音信号，并在转换完成后播放该目标音源的语音信号。

本申请实施例语音转换方法基于中英双声学模型，提取与输入语言无关的发音标签，独立于输入的语言信息，可将各种语言的语音转换到同一种发音标签形式，可以支持多种语言的变声功能，成功实现了跨语言间的语音转换功能。本申请实施例的语音转换方法可以适用于对不同音源之间转换的场景下，下面以配音场景、播音场景和直播场景为例对本申请实施例语音转换方法的应用进行说明。

以配音场景为例，图11为本申请一示例性实施例提供的一种配音文件生成方法的流程示意图，如图11所示，该方法包括：

S1101：获取至少一段语音片段；

S1102：响应于对至少一段语音片段的选择操作，确定需要进行语音转换的待转换语音片段；

S1103：利用已有的语音转换模型对待转换语音片段分别进行语音转换，生成转换后的指定说话人的语音片段；其中，语音转换模型能够将第一音源的语音信号转换为第二音源的语音信号；

S1104：响应于语音合并操作，将转换后的指定说话人的语音片段与至少一段语音片段中除待转换语音片段之外的语音片段进行合并以生成配音文件。

在本实施例中，文件生成设备上可以部署实现上述各实施例语音转换方法的语音转换模型，文件生成设备上也可以布置麦克风用于采集针对不同角色进行配音的语音片段，显然，不同角色进行配音的语音片段也可以为其他录音设备上预先录制好的语音片段。

在本实施例中，用户可以选择需要进行语音转换的语音片段，作为待转换语音片段，例如，将部分语音片段替换为某一位或者某几位电影明星的片段，语音转换模型可以支持某一位或者某几位电影明星的语音转换，用户在每段待转换语音片段选择指定明星后，依次将将每段待转换语音片段输入语音转换模型中进行指定说话人的语音转换，生成转换后的指定说话人的语音片段。

在本实施例中，用户进行语音合并操作，文件生成设备响应于语音合并操作后，将转换后的指定说话人的语音片段与至少一段语音片段中除待转换语音片段之外的语音片段进行合并以生成配音文件。

例如，文件生成设备通过自身设置的麦克风采集一位未经过专业训练的说话人的配音，并将配音分为多段语音片段，将多段语音片段依次通过语音转换模型转换后，即可将多段语音片段转换为多个明星的配音片段；文件生成设备将多个明星的配音片段进行合并后，生成重新配音的配音文件。在本实施例中，基于一位说话人的配音，经过转换模型转换，就能得到不同明星配音的配音文件，增加配音的效率以及趣味性，降低配音成本。

以播音场景为例，从服务器角度，图12a本申请一示例性实施例提供的一种播音方法的方法流程图，如图12a所示，该方法包括：

S1211：接收播放终端发送的语音转换请求，其中，语音转换请求中携带有指定音源信息和指定语种类型；

S1212：获取待播报语音；

S1213：根据指定音源信息和指定语种类型，利用已有的语种翻译模型和语音转换模型对待播报语音进行音源和语种的语音转换，得到转换后的目标播报语音，其中，语音转换模型能够将第一音源的语音信号转换为第二音源的语音信号，语种翻译模型能够将第一语种的语音信号转换为第二语种的语音信号；

S1214：将目标播报语音发送至播放终端，以供播放终端播放转换后目标播报语音。

从播放终端角度，图12b本申请一示例性实施例提供的一种播音方法的方法流程图，如图12b所示，该方法包括：

S1221：响应于音源选择操作，获取音源信息；

S1222：响应于语种选择操作，获取指定语种类型；

S1223：响应于语音转换确认操作，向服务器发送语音转换请求，以供服务器对待播报语音进行音源和语种的语音转换，得到转换后的目标播报语音；

S1224：接收服务器下发的目标播报语音；

S1225：播放目标播报语音。

在本实施例中，用户通过播放终端进行音源以及语种的选择操作，播放终端响应于响应于音源选择操作，获取音源信息；播放终端响应于语种选择操作，获取指定语种类型；播放终端响应于语音转换确认操作，向服务器发送语音转换请求，以供服务器对待播报语音进行音源和语种的语音转换，得到转换后的目标播报语音。

服务器获取待播报语音，其中，服务器获取待播报语音的方式包括以下几种方式：

方式一：采集播音员的待播报语音。

方式二：接收从播音信号处理设备发送的待播报语音。

服务器在接收到播放终端发送的语音转换请求后，根据指定音源信息和指定语种类型，利用已有的语种翻译模型和语音转换模型对待播报语音进行音源和语种的语音转换，得到转换后的目标播报语音，并将目标播报语音发送至播放终端，播放终端接收到目标播报语音后，播放转换后目标播报语音。

在上述实施例中，根据指定音源信息和指定语种类型，利用已有的语种翻译模型和语音转换模型对待播报语音进行音源和语种的语音转换，得到转换后的目标播报语音，一种可实现的方式为，根据指定语种类型，利用已有的语种翻译模型将待播报语音转换为指定语种下的指定语种语音；根据指定音源信息，利用已有的语音转换模型对指定语种语音进行音源转换，得到目标播报语音。在服务器中部署语种翻译模型和语音转换模型，实现播音语音的转换。

以电视终端播放电视节目为例，当前待播报的语音的语种为中文，音源为某位主播的音源，用户通过操作播放终端，选择指定明星的音源，并选择英文作为指定语种，向服务器发送语音转换请求，服务器在接收到语音转换请求后，首先利用中英翻译模型将待播报的语音转换为英文的待播报语音，然后利用语音转换模型将英文的待播报语音转换为指定明星的英文语音，发送至电视终端，电视终端在后续时间段采用指定明星的英文语音播放电视节目。

以播音场景为例，从服务器角度，图13a为本申请一示例性实施例提供的一种语音处理方法的方法流程图，如图13a所示，该方法包括：

S1311：接收播放终端发送的语音转换请求，其中，语音转换请求中携带有指定音源信息和指定语种类型；

S1312：采集播报员的语音；

S1313：根据指定音源信息和指定语种类型，利用已有的语种翻译模型和语音转换模型对播报员的语音进行音源和语种的语音转换，得到转换后的目标播报语音，其中，语音转换模型能够将第一音源的语音信号转换为第二音源的语音信号，语种翻译模型能够将第一语种的语音信号转换为第二语种的语音信号；

S1314：将目标播报语音发送至播放终端，以供播放终端播放转换后目标播报语音。

从播放终端角度，图13b为本申请一示例性实施例提供的一种语音处理方法的方法流程图，如图13b所示，该方法包括：

S1321：响应于音源选择操作，获取音源信息；

S1322：响应于语种选择操作，获取指定语种类型；

S1323：响应于语音转换确认操作，向服务器发送语音转换请求，以供服务器对待播报语音进行音源和语种的语音转换，得到转换后的目标播报语音；

S1324：接收服务器下发的目标播报语音；

S1325：播放目标播报语音。

服务器通过语音传感器获取播报员的语音，在接收到播放终端发送的语音转换请求后，根据指定音源信息和指定语种类型，利用已有的语种翻译模型和语音转换模型对播报员的进行音源和语种的语音转换，得到转换后的目标播报语音，并将目标播报语音发送至播放终端，播放终端接收到目标播报语音后，播放转换后的目标播报语音。

服务器根据指定音源信息和指定语种类型，利用已有的语种翻译模型和语音转换模型对播报员的语音进行音源和语种的语音转换，得到转换后的目标播报语音，一种可实现的方式为，根据指定语种类型，利用已有的语种翻译模型将播报员的语音转换为指定语种下的指定语种语音；根据指定音源信息，利用已有的语音转换模型对指定语种语音进行音源转换，得到目标播报语音。

以个人电脑上直播足球赛事为例，当前待播报的语音的语种为中文，音源为某位主播的音源，用户通过操作播放终端，选择指定明星的音源，并选择英文作为指定语种，向服务器发送语音转换请求，服务器在接收到语音转换请求后，首先利用中英翻译模型将待播报的语音转换为英文的待播报语音，然后利用语音转换模型将英文的待播报语音转换为指定明星的英文语音，发送至个人电脑，个人电脑在后续时间段采用指定明星的英文语音播放该足球赛事。

图14本申请一示例性实施例提供的一种语音转换设备的结构示意图。如图14所示，该语音转换设备包括：存储器1401和处理器1402。另外，该数据处理设备还包括通信组件1403和电源组件1404等必须组件。进一步，在语音转换设备为终端设备时，该语音转换设备还可以包括语音组件1405。

存储器1401，用于存储计算机程序，并可被配置为存储其它各种数据以支持在数据处理设备上的操作。这些数据的示例包括用于在数据处理设备上操作的任何应用程序或方法的指令。

存储器1401，可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

通信组件1403，用于与其他设备进行数据传输。

处理器1402，可执行存储器1401中存储的计算机指令，以用于：从第一音源发出的语音信号中提取第一音源的声学特征；将第一音源的声学特征映射为至少一种语种下的发音信息，发音信息包含发音音素和发音特征；根据预先学习到的第二音源对应的特征转换关系，将第一音源的声学特征和至少一种语种下的发音信息转换为声码器特征；将声码器特征送入声码器进行语音合成，得到第二音源对应的语音信号。

可选地，第一音源的声学特征包括：内容型声学特征和音色型声学特征；处理器1402在将第一音源的声学特征映射为至少一种语种下的发音信息时，具体用于：将第一音源的内容型声学特征映射为至少一种语种下的发音信息；根据预先学习到的第二音源对应的特征转换关系，将第一音源的声学特征和至少一种语种下的发音信息转换为声码器特征，包括：根据预先学习到的第二音源对应的特征转换关系，将第一音源的音色型声学特征和至少一种语种下的发音信息转换为声码器特征。

可选地，第一音源的内容型声学特征包括梅尔频率倒谱系数；第一音源的音色型声学特征包括基频和梅尔频普中的至少一种。

可选地，处理器1402在将第一音源的内容型声学特征映射为至少一种语种下的发音信息，具体用于：将第一音源的内容型声学特征分别输入至少一种语种各自对应的声学模型，利用至少一种语种各自对应的声学模型将第一音源的内容型声学特征映射为至少一种语种下的发音信息。

可选地，处理器1402在将第一音源的内容型声学特征分别输入至少一种语种各自对应的声学模型之前，还可用于：收集至少一种语种下的多个第一语音样本信号，并提取多个第一语音样本信号对应的内容型声学特征和发音信息；利用多个第一语音样本信号对应的内容型声学特征和发音信息分别针对至少一种语种训练声学模型以进行从内容型声学特征到发音信息的映射。

可选地，处理器1402在根据预先学习到的第二音源对应的特征转换关系，将第一音源的音色型声学特征和至少一种语种下的发音信息转换为声码器特征时，具体用于：将第一音源的音色型声学特征和至少一种语种下的发音信息输入特征转换模型，利用特征转换模型将第一音源的音色型声学特征和至少一种语种下的发音信息转换为声码器特征；其中，特征转换模型反映第二音源对应的从音色型声学特征和发音信息到声码器特征之间的特征转换关系。

可选地，处理器1402在将第一音源的音色型声学特征和至少一种语种下的发音信息输入特征转换模型之前，还可用于：收集第二音源发出的多个第二语音样本信号，提取多个第二语音样本信号对应的音色型声学特征、发音信息和声码器特征；利用多个第二语音样本信号的音色型声学特、发音信息和声码器特征针对第二音源训练特征转换模型以进行从音色型声学特征、发音信息到声码器特征的转换。

可选地，处理器1402在提取多个第二语音样本信号对应的音色型声学特、发音信息和声码器特征时，具体用于：从多个第二语音样本信号中提取第二音源的内容型声学特征、音色型声学特征和声码器特征；将第二音源的内容型声学特征输入至少一种语种各自对应的声学模型，利用至少一种语种各自对应的声学模型将第二音源的内容型声学特征映射为至少一种语种下的发音信息。

可选地，处理器1402在将声码器特征送入声码器进行语音合成之前，还可用于：收集第二音源发出的多个第二语音样本信号，提取多个第二语音样本信号对应的声码器特征；利用多个第二语音样本信号和多个第二语音样本信号对应的声码器特征针对第二音源进行模型训练，以建立从声码器特征到语音信号合成的声码器。

可选地，声码器为LPCNet声码器。

可选地，处理器1402在得到第二音源对应的语音信号之后，还可用于：播放第二音源对应的语音信号。

在本申请的语音转换设备的实施例中，在语音转换过程中，将声学特征与发音信息相结合，通过将声学特征映射为至少一种语种下的发音信息，并结合预先学习到从发音信息到声码器特征的特征转换关系完成从第一音源到第二音源的语音转换；一方面，利用与第一音源的语种关联性较弱的发音信息进行语音转换，转换结果受第一音源的影响较小，语音转换质量更高；另一方面，利用至少一种语种下的发音信息，可扩大第一音源的语种适用范围，提高语音转换的智能化程度。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质。当计算机可读存储介质存储计算机程序，且计算机程序被一个或多个处理器执行时，致使一个或多个处理器执行图7所示方法实施例中的各步骤。

图15本申请一示例性实施例提供的一种语音转换设备的结构示意图。如图15所示，该语音转换设备包括：存储器1501和处理器1502。另外，该数据处理设备还包括通信组件1503和电源组件1504等必须组件。进一步，还可以包括语音组件1505。

存储器1501，用于存储计算机程序，并可被配置为存储其它各种数据以支持在数据处理设备上的操作。这些数据的示例包括用于在数据处理设备上操作的任何应用程序或方法的指令。

存储器1501，可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

通信组件1503，用于与其他设备进行数据传输。

处理器1502，可执行存储器1501中存储的计算机指令，以用于：

响应于音源选择操作，获取被选中的目标音源；

响应于语音录入操作，获取原始音源发出的语音信号；

播放目标音源的语音信号。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质。当计算机可读存储介质存储计算机程序，且计算机程序被一个或多个处理器执行时，致使一个或多个处理器执行图10所示方法实施例中的各步骤。

图16本申请一示例性实施例提供的一种文件生成设备的结构示意图。如图16所示，该文件生成设备包括：存储器1601和处理器1602。另外，该数据处理设备还包括通信组件1603和电源组件1604等必须组件。进一步，还可以包括语音组件1605。

存储器1601，用于存储计算机程序，并可被配置为存储其它各种数据以支持在数据处理设备上的操作。这些数据的示例包括用于在数据处理设备上操作的任何应用程序或方法的指令。

存储器1601，可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

通信组件1603，用于与其他设备进行数据传输。

处理器1602，可执行存储器1601中存储的计算机指令，以用于：

获取至少一段语音片段；

可选地，处理器1602在利用已有的语音转换模型对待转换语音片段分别进行语音转换，生成转换后的指定说话人的语音片段时，具体用于：分别将每段待转换语音片段输入语音转换模型中进行指定说话人的语音转换，生成转换后的指定说话人的语音片段。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质。当计算机可读存储介质存储计算机程序，且计算机程序被一个或多个处理器执行时，致使一个或多个处理器执行图11所示方法实施例中的各步骤。

图17为本申请一示例性实施例提供的一种服务器的结构示意图。如图17所示，该服务器包括：存储器1701和处理器1702。另外，该数据处理设备还包括通信组件1703和电源组件1704等必须组件。

存储器1701，用于存储计算机程序，并可被配置为存储其它各种数据以支持在数据处理设备上的操作。这些数据的示例包括用于在数据处理设备上操作的任何应用程序或方法的指令。

存储器1701，可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

通信组件1703，用于与其他设备进行数据传输。

处理器1702，可执行存储器1701中存储的计算机指令，以用于：接收播放终端发送的语音转换请求，其中，语音转换请求中携带有指定音源信息和指定语种类型；获取待播报语音；根据指定音源信息和指定语种类型，利用已有的语种翻译模型和语音转换模型对待播报语音进行音源和语种的语音转换，得到转换后的目标播报语音，其中，语音转换模型能够将第一音源的语音信号转换为第二音源的语音信号，语种翻译模型能够将第一语种的语音信号转换为第二语种的语音信号；将目标播报语音发送至播放终端，以供播放终端播放转换后目标播报语音。

可选地，处理器1702在获取待播报语音时，具体用于：采集播音员的待播报语音；或者，接收从播音信号处理设备发送的待播报语音。

可选地，处理器1702在根据指定音源信息和指定语种类型，利用已有的语种翻译模型和语音转换模型对待播报语音进行音源和语种的语音转换，得到转换后的目标播报语音时，具体用于：根据指定语种类型，利用已有的语种翻译模型将待播报语音转换为指定语种下的指定语种语音；根据指定音源信息，利用已有的语音转换模型对指定语种语音进行音源转换，得到目标播报语音。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质。当计算机可读存储介质存储计算机程序，且计算机程序被一个或多个处理器执行时，致使一个或多个处理器执行图12a所示方法实施例中的各步骤。

图18为本申请一示例性实施例提供的一种播放设备的结构示意图。如图18所示，该播放设备包括：存储器1801和处理器1802。另外，该数据处理设备还包括通信组件1803和电源组件1804等必须组件。

存储器1801，用于存储计算机程序，并可被配置为存储其它各种数据以支持在数据处理设备上的操作。这些数据的示例包括用于在数据处理设备上操作的任何应用程序或方法的指令。

存储器1801，可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

通信组件1803，用于与其他设备进行数据传输。

处理器1802，可执行存储器1801中存储的计算机指令，以用于：响应于音源选择操作，获取音源信息；响应于语种选择操作，获取指定语种类型；

响应于语音转换确认操作，向服务器发送语音转换请求，以供服务器对待播报语音进行音源和语种的语音转换，得到转换后的目标播报语音；接收服务器下发的目标播报语音；播放目标播报语音。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质。当计算机可读存储介质存储计算机程序，且计算机程序被一个或多个处理器执行时，致使一个或多个处理器执行图12b所示方法实施例中的各步骤。

图19本申请一示例性实施例提供的一种服务器的结构示意图。如图19所示，该服务器包括：存储器1901和处理器1902。另外，该数据处理设备还包括通信组件1903和电源组件1904等必须组件。

存储器1901，用于存储计算机程序，并可被配置为存储其它各种数据以支持在数据处理设备上的操作。这些数据的示例包括用于在数据处理设备上操作的任何应用程序或方法的指令。

存储器1901，可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

通信组件1903，用于与其他设备进行数据传输。

处理器1902，可执行存储器1901中存储的计算机指令，以用于：接收播放终端发送的语音转换请求，其中，语音转换请求中携带有指定音源信息和指定语种类型；采集播报员的语音；根据指定音源信息和指定语种类型，利用已有的语种翻译模型和语音转换模型对播报员的语音进行音源和语种的语音转换，得到转换后的目标播报语音，其中，语音转换模型能够将第一音源的语音信号转换为第二音源的语音信号，语种翻译模型能够将第一语种的语音信号转换为第二语种的语音信号；将目标播报语音发送至播放终端，以供播放终端播放转换后目标播报语音。

可选地，处理器1902在根据指定音源信息和指定语种类型，利用已有的语种翻译模型和语音转换模型对播报员的语音进行音源和语种的语音转换，得到转换后的目标播报语音时，具体用于：根据指定语种类型，利用已有的语种翻译模型将播报员的语音转换为指定语种下的指定语种语音；根据指定音源信息，利用已有的语音转换模型对指定语种语音进行音源转换，得到目标播报语音。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质。当计算机可读存储介质存储计算机程序，且计算机程序被一个或多个处理器执行时，致使一个或多个处理器执行图13a所示方法实施例中的各步骤。

图20本申请一示例性实施例提供的一种播放设备的结构示意图。如图20所示，该播放设备包括：存储器2001和处理器2002。另外，该数据处理设备还包括通信组件2003和电源组件2004等必须组件。

存储器2001，用于存储计算机程序，并可被配置为存储其它各种数据以支持在数据处理设备上的操作。这些数据的示例包括用于在数据处理设备上操作的任何应用程序或方法的指令。

存储器2001，可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

通信组件2003，用于与其他设备进行数据传输。

处理器2002，可执行存储器2001中存储的计算机指令，以用于：响应于音源选择操作，获取音源信息；响应于语种选择操作，获取指定语种类型；响应于语音转换确认操作，向服务器发送语音转换请求，以供服务器对待播报语音进行音源和语种的语音转换，得到转换后的目标播报语音；接收服务器下发的目标播报语音；播放目标播报语音。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质。当计算机可读存储介质存储计算机程序，且计算机程序被一个或多个处理器执行时，致使一个或多个处理器执行图13b所示方法实施例中的各步骤。

上述图14-20中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括近场通信(NFC)技术、射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术和蓝牙(BT)技术等，以促进短程通信。

上述图14-20中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种语音转换方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一音源的声学特征包括：内容型声学特征和音色型声学特征；

将所述第一音源的声学特征映射为至少一种语种下的发音信息，包括：将所述第一音源的内容型声学特征映射为至少一种语种下的发音信息；

根据预先学习到的第二音源对应的特征转换关系，将所述第一音源的声学特征和所述至少一种语种下的发音信息转换为声码器特征，包括：根据预先学习到的第二音源对应的特征转换关系，将所述第一音源的音色型声学特征和所述至少一种语种下的发音信息转换为声码器特征。

3.根据权利要求2所述的方法，其特征在于，所述第一音源的内容型声学特征包括梅尔频率倒谱系数；所述第一音源的音色型声学特征包括基频和梅尔频普中的至少一种。

4.根据权利要求2所述的方法，其特征在于，将所述第一音源的内容型声学特征映射为至少一种语种下的发音信息，包括：

将所述第一音源的内容型声学特征分别输入至少一种语种各自对应的声学模型，利用至少一种语种各自对应的声学模型将所述第一音源的内容型声学特征映射为至少一种语种下的发音信息。

5.根据权利要求4所述的方法，其特征在于，在将所述第一音源的内容型声学特征分别输入至少一种语种各自对应的声学模型之前，还包括：

收集至少一种语种下的多个第一语音样本信号，并提取所述多个第一语音样本信号对应的内容型声学特征和发音信息；

利用所述多个第一语音样本信号对应的内容型声学特征和发音信息分别针对至少一种语种训练声学模型以进行从内容型声学特征到发音信息的映射。

6.根据权利要求2所述的方法，其特征在于，根据预先学习到的第二音源对应的特征转换关系，将所述第一音源的音色型声学特征和所述至少一种语种下的发音信息转换为声码器特征，包括：

将所述第一音源的音色型声学特征和所述至少一种语种下的发音信息输入特征转换模型，利用所述特征转换模型将所述第一音源的音色型声学特征和所述至少一种语种下的发音信息转换为声码器特征；其中，所述特征转换模型反映所述第二音源对应的从音色型声学特征和发音信息到声码器特征之间的特征转换关系。

7.根据权利要求6所述的方法，其特征在于，在将所述第一音源的音色型声学特征和所述至少一种语种下的发音信息输入特征转换模型之前，还包括：

收集第二音源发出的多个第二语音样本信号，提取所述多个第二语音样本信号对应的音色型声学特征、发音信息和声码器特征；

利用所述多个第二语音样本信号的音色型声学特、发音信息和声码器特征针对所述第二音源训练特征转换模型以进行从音色型声学特征、发音信息到声码器特征的转换。

8.根据权利要求7所述的方法，其特征在于，提取所述多个第二语音样本信号对应的音色型声学特、发音信息和声码器特征，包括：

从所述多个第二语音样本信号中提取第二音源的内容型声学特征、音色型声学特征和声码器特征；

将所述第二音源的内容型声学特征输入至少一种语种各自对应的声学模型，利用所述至少一种语种各自对应的声学模型将所述第二音源的内容型声学特征映射为至少一种语种下的发音信息。

9.根据权利要求1所述的方法，其特征在于，在将所述声码器特征送入声码器进行语音合成之前，还包括：

收集第二音源发出的多个第二语音样本信号，提取所述多个第二语音样本信号对应的声码器特征；

利用所述多个第二语音样本信号和所述多个第二语音样本信号对应的声码器特征针对所述第二音源进行模型训练，以建立从声码器特征到语音信号合成的声码器。

10.根据权利要求1或9所述的方法，其特征在于，所述声码器为LPCNet声码器。

11.根据权利要求1所述的方法，其特征在于，在得到所述第二音源对应的语音信号之后，还包括：

播放所述第二音源对应的语音信号。

12.一种语音转换设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储一条或多条计算机指令；

所述处理器，用于执行所述一条或多条计算机指令以用于：

13.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行包括以下的动作：

14.一种文件生成方法，其特征在于，包括：

获取至少一段语音片段；

15.根据权利要求14所述的方法，其特征在于，利用已有的语音转换模型对待转换语音片段分别进行语音转换，生成转换后的指定说话人的语音片段，包括：

分别将每段待转换语音片段输入语音转换模型中进行指定说话人的语音转换，生成转换后的指定说话人的语音片段。

16.一种文件生成设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储一条或多条计算机指令；

所述处理器，用于执行所述一条或多条计算机指令以用于：

获取至少一段语音片段；

17.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行包括以下的动作：

获取至少一段语音片段；

18.一种播音方法，适用于服务器，其特征在于，包括：

获取待播报语音；

19.根据权利要求18所述的方法，其特征在于，获取待播报语音，包括：

采集播音员的待播报语音；

或者，

接收从播音信号处理设备发送的待播报语音。

20.根据权利要求18所述的方法，其特征在于，根据指定音源信息和指定语种类型，利用已有的语种翻译模型和语音转换模型对待播报语音进行音源和语种的语音转换，得到转换后的目标播报语音，包括：

根据指定语种类型，利用已有的语种翻译模型将所述待播报语音转换为指定语种下的指定语种语音；

根据指定音源信息，利用已有的语音转换模型对所述指定语种语音进行音源转换，得到目标播报语音。

21.一种播音方法，适用于播放终端，其特征在于，包括：

响应于音源选择操作，获取音源信息；

响应于语种选择操作，获取指定语种类型；

接收服务器下发的所述目标播报语音；

播放所述目标播报语音。

22.一种服务器，其特征在于，包括：存储器和处理器；

所述存储器，用于存储一条或多条计算机指令；

所述处理器，用于执行所述一条或多条计算机指令以用于：

获取待播报语音；

23.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行包括以下的动作：

获取待播报语音；

24.一种播放终端，其特征在于，包括：存储器和处理器；

所述存储器，用于存储一条或多条计算机指令；

所述处理器，用于执行所述一条或多条计算机指令以用于：

响应于音源选择操作，获取音源信息；

响应于语种选择操作，获取指定语种类型；

接收服务器下发的所述目标播报语音；

播放所述目标播报语音。

25.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行包括以下的动作：

响应于音源选择操作，获取音源信息；

响应于语种选择操作，获取指定语种类型；

接收服务器下发的所述目标播报语音；

播放所述目标播报语音。

26.一种语音处理方法，适用于服务器，其特征在于，包括：

采集播报员的语音；

27.根据权利要求26所述的方法，其特征在于，根据指定音源信息和指定语种类型，利用已有的语种翻译模型和语音转换模型对播报员的语音进行音源和语种的语音转换，得到转换后的目标播报语音，包括：

根据指定语种类型，利用已有的语种翻译模型将所述播报员的语音转换为指定语种下的指定语种语音；

28.一种语音处理方法，适用于播放终端，其特征在于，包括：

响应于音源选择操作，获取音源信息；

响应于语种选择操作，获取指定语种类型；

接收服务器下发的所述目标播报语音；

播放所述目标播报语音。

29.一种服务器，其特征在于，包括：存储器和处理器；

所述存储器，用于存储一条或多条计算机指令；

所述处理器，用于执行所述一条或多条计算机指令以用于：

采集播报员的语音；

30.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行包括以下的动作：

采集播报员的语音；

31.一种播放终端，其特征在于，包括：存储器和处理器；

所述存储器，用于存储一条或多条计算机指令；

所述处理器，用于执行所述一条或多条计算机指令以用于：

响应于音源选择操作，获取音源信息；

响应于语种选择操作，获取指定语种类型；

接收服务器下发的所述目标播报语音；

播放所述目标播报语音。

32.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行包括以下的动作：

响应于音源选择操作，获取音源信息；

响应于语种选择操作，获取指定语种类型；

接收服务器下发的所述目标播报语音；

播放所述目标播报语音。

33.一种语音转换方法，其特征在于，包括：

响应于音源选择操作，获取被选中的目标音源；

响应于语音录入操作，获取原始音源发出的语音信号；

播放所述目标音源的语音信号。

34.一种语音转换设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储一条或多条计算机指令；

所述处理器，用于执行所述一条或多条计算机指令以用于：

响应于音源选择操作，获取被选中的目标音源；

响应于语音录入操作，获取原始音源发出的语音信号；

播放所述目标音源的语音信号。

35.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行包括以下的动作：

响应于音源选择操作，获取被选中的目标音源；

响应于语音录入操作，获取原始音源发出的语音信号；

播放所述目标音源的语音信号。