CN111312267B

CN111312267B - 一种语音风格的转换方法、装置、设备和存储介质

Info

Publication number: CN111312267B
Application number: CN202010104395.5A
Authority: CN
Inventors: 娄帆
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2023-08-11
Anticipated expiration: 2040-02-20
Also published as: CN111312267A

Abstract

本发明实施例公开了一种语音风格的转换方法、装置、设备和存储介质。其中，该方法包括：获取源风格语音、目标风格语音和初始转换语音；根据初始转换语音和源风格语音之间的语音内容损失以及初始转换语音和目标风格语音之间的语音风格损失，对初始转换语音进行损失优化，得到新的初始转换语音继续进行损失优化，直至新的初始转换语音满足预设的损失优化条件，则将新的初始转换语音作为源风格语音在目标风格下的风格转换语音。本发明实施例提供的技术方案，实现源风格语音在目标风格下的准确转换，无需针对该目标风格进行语音风格转换的预先训练，保证未经过预先训练的目标语音下的语音风格转换，提高语音风格转换的全面性和准确性。

Description

一种语音风格的转换方法、装置、设备和存储介质

技术领域

本发明实施例涉及语音变声技术领域，尤其涉及一种语音风格的转换方法、装置、设备和存储介质。

背景技术

随着智能语音技术的迅猛发展，音频变声技术已经成为目前新兴的一项热门技术，其旨在将某一源语音转换成具有特征语音风格且语音内容不发生变化的目标语音，例如某一变声应用将用户录制的一段音频采用某一特定目标的变声特效进行变声播放。

目前，由于需要变声的目标语音通常是提前确定好的，因此针对提前确定的每一目标语音，均会预先利用大量历史源语音作为训练样本，对该目标语音下的语音风格转换进行训练，使得用于语音风格转换的训练集中存在大量已经完成训练的目标语音，从而在后续实现源语音到训练集内的某一目标语音的准确转换，而针对未完成训练的其他目标语音的语音风格转换存在一定的局限性，特别是将某一源语音转换为与训练集内已完成训练的目标语音存在较大风格差异的其他目标语音时，其转换后语音与该其他目标语音之间的风格相似度较低，使得其他目标语音下的语音风格转换存在一定缺陷，从而影响最终转换后的语音变声效果。

发明内容

本发明实施例提供了一种语音风格的转换方法、装置、设备和存储介质，实现源风格语音在任一目标风格下的语音转换，提高语音风格转换的全面性和准确性。

第一方面，本发明实施例提供了一种语音风格的转换方法，该方法包括：

获取源风格语音、目标风格语音和初始转换语音；

根据所述初始转换语音和所述源风格语音之间的语音内容损失以及所述初始转换语音和所述目标风格语音之间的语音风格损失，对所述初始转换语音进行损失优化，得到新的初始转换语音继续进行损失优化，直至所述新的初始转换语音满足预设的损失优化条件，则将所述新的初始转换语音作为所述源风格语音在目标风格下的风格转换语音。

第二方面，本发明实施例提供了一种语音风格的转换装置，该装置包括：

相关语音获取模块，用于获取源风格语音、目标风格语音和初始转换语音；

语音风格转换模块，用于根据所述初始转换语音和所述源风格语音之间的语音内容损失以及所述初始转换语音和所述目标风格语音之间的语音风格损失，对所述初始转换语音进行损失优化，得到新的初始转换语音继续进行损失优化，直至所述新的初始转换语音满足预设的损失优化条件，则将所述新的初始转换语音作为所述源风格语音在目标风格下的风格转换语音。

第三方面，本发明实施例提供了一种设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所述的语音风格的转换方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述的语音风格的转换方法。

本发明实施例提供的一种语音风格的转换方法、装置、设备和存储介质，将初始转换语音作为语音风格转换的中间变量，根据初始转换语音和源风格语音之间的语音内容损失以及初始转换语音与目标风格语音之间的语音风格损失，对该初始转换语音进行损失优化，从而得到新的初始转换语音继续进行损失优化，依次循环，直至新的初始转换语音满足预设的损失优化条件，使得新的初始转换语音与源风格语音之间保持内容一致，且与目标风格语音之间保持风格一致，进而将该新的初始转换语音作为源风格语音在目标风格下的风格转换语音，实现源风格语音在目标风格下的准确转换，无需针对该目标风格进行语音风格转换的预先训练，保证未经过预先训练的目标语音下的语音风格转换，提高语音风格转换的全面性，同时通过不断减小与源风格语音的语音内容损失以及与目标风格语音的语音风格损失，尽可能保证源风格语音在目标风格下的风格转换语音与源风格语音之间保持内容一致，且与目标风格语音之间保持风格一致，提高语音风格转换的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例一提供的一种语音风格的转换方法的流程图；

图2A为本发明实施例二提供的一种语音风格的转换方法的流程图；

图2B为本发明实施例二提供的方法中计算损失优化过程中各类语音损失的原理示意图；

图3为本发明实施例三提供的一种语音风格的转换方法的流程图；

图4A为本发明实施例四提供的一种语音风格的转换方法的流程图；

图4B为本发明实施例四提供的语音风格的转换过程的原理示意图；

图5为本发明实施例五提供的一种语音风格的转换装置的结构示意图；

图6为本发明实施例六提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

图1为本发明实施例一提供的一种语音风格的转换方法的流程图，本实施例可适用于对任一语音进行具备特定风格且语音内容不变的音频变声的情况中。本实施例提供的一种语音风格的转换方法可以由本发明实施例提供的语音风格的转换装置来执行，该装置可以通过软件和/或硬件的方式来实现，并集成在执行本方法的设备中，该设备可以是配置有任一种变声应用的用户终端。

具体的，参考图1，该方法可以包括如下步骤：

S110，获取源风格语音、目标风格语音和初始转换语音。

具体的，目前为了向用户展示多样化语音风格下的各类语音，通常会利用变声应用中设置的音频变声技术为当前语音添加某一种特定的声效，从而转换为特定风格下的语音进行播放；例如，用户在录制一段语音后，如果想要采用某个名人或者卡通人物等具有明显声效的语音风格来播放本次录制的语音，会在变声应用中选择出该语音风格下的一段语音，或者如果变声应用中没有该语音风格下的语音，则会再次上传该语音风格下的一段语音，作为本次选择需要转换至的语音风格。其中，源风格语音为当前待转换语音风格的原始语音，目标风格语音为存在指定转换后的语音风格下的参考语音，该目标风格语音的时长无需很长，仅需要表征出目标风格即可，例如5s-10s的目标风格语音。

同时，为了确保对于未预先训练的语音风格也能实现准确转换，避免未经过训练的语音风格转换所存在的局限性问题，本实施例可以额外获取一个初始转换语音，作为源风格语音在目标风格下进行转换的中间变量，后续分别通过不断缩小初始转换语音的语音内容和语音风格与源风格语音的语音内容和目标风格语音的语音风格之间的差异性，使初步转换语音不断接近源风格语音在目标风格下的转换结果。

可选的，在存在语音风格转换需求时，首先根据用户指定的变声需求获取当前待转换的源风格语音和目标风格语音，同时额外获取参与辅助本次语音风格转换的初始转换语音，以便后续根据源风格语音的语音内容和目标风格语音的语音风格不断优化该初始转换语音，实现源风格语音在目标风格下的转换。

示例性的，为了降低初始转换语音在后续的优化收敛次数，本实施例可以设置未优化前原始的初始转换语音的语音内容和语音风格尽可能接近源风格语音的语音内容和目标风格语音的语音风格，此时获取源风格语音、目标风格语音和初始转换语音，具体可以包括：获取风格转换指令对应的源风格语音和目标风格语音；将源风格语音作为对应的初始转换语音，或者，将源风格语音的语音内容特征和目标风格语音的语音风格特征输入预先构建的预生成网络中，得到对应的初始转换语音。

具体的，在获取到用户输入的风格转换指令后，可以对该风格转换指令进行解析，从而获取用户在本次语音风格转换下指定的源风格语音和目标风格语音，此时由于在对源风格语音进行语音风格转换时，仅需要对其语音风格进行转换，而保证其语音内容保持不变，因此本实施例中可以直接将该源风格语音作为本实施例中未优化前原始的初始转换语音，后续在保证与源风格语音的语音内容一致的基础上，不断对该初始转换语音与目标风格语音之间的语音风格进行相似性优化，从而提高初始转换语音的优化速度；或者，为了进一步提高初始转换语音的优化速度，本实施例还可以利用预先对大量历史语音在不同语音风格下进行语音风格转换训练而构建的预生成网络，对该源风格语音在目标风格下进行初步转换，首先分别提取源风格语音的语音内容特征和目标风格语音的语音风格特征，并同时输入到该预生成网络中，由该预生成网络对源风格语音的语音内容特征和目标风格语音的语音风格特征进行相应的特征转换处理，输出对应的转换结果，此时由于该预生成网络的训练集中不存在该目标风格，使得所输出的转换结果与目标风格语音的语音风格的相似度较低，此时可以将该预生成网络输出的转换结果作为对应未优化前的初始转换语音，以便后续不断对该初始转换语音的语音内容和语音风格进行优化，从而实现源风格语音在目标风格下的转换。

S120，根据初始转换语音和源风格语音之间的语音内容损失以及初始转换语音和目标风格语音之间的语音风格损失，对初始转换语音进行损失优化，得到新的初始转换语音。

可选的，在获取到源风格语音、目标风格语音和初始转换语音后，由于语音风格转换时，仅需要将转换后的语音内容与源风格语音的语音内容保持一致，而语音风格与目标风格语音的语音风格保持一致，因此首先需要解析出源风格语音内包含的语音内容、目标风格语音所采用的语音风格以及初始转换语音的语音内容和语音风格，进而分别对源风格语音内包含的语音内容与初始转换语音的语音内容以及目标风格语音所采用的语音风格和初始转换语音的语音风格进行对比，从而确定初始转换语音和源风格语音之间的语音内容损失以及初始转换语音和目标风格语音之间的语音风格损失，此时为了保证最终转换后的语音和源风格语音的语音内容一致，而和目标风格语音的语音风格一致，需要根据该语音内容损失和语音风格损失对初始转换语音进行相应的损失优化，以尽可能的降低优化后的初始转换语音和源风格语音之间的语音内容损失以及优化后的初始转换语音和目标风格语音之间的语音风格损失，从而得到新的初始转换语音，后续通过循环采用上述步骤不断优化最新的初始转换语音，以尽可能使最新的初始转换语音能够具有准确的语音风格转换效果。

S130，判断新的初始转换语音是否满足预设的损失优化条件；若是，执行S140；若否，返回执行S120。

其中，本实施例中的损失优化条件用于指示最新的初始转换语音是否达到语音风格的最优转换，可以为新的初始转换语音的损失优化次数达到预设的损失优化上限或者新的初始转换语音在不同损失维度下的损失总和不再降低，也就是对初始转换语音的损失优化次数作出相应限定，以使初始转换语音执行有足够的损失优化，或者，对初始转换语音在不同损失维度下进行损失优化后的损失总和进行限定，如果该损失总和不再降低，说明此时损失优化后的初始转换语音的语音内容和语音风格已经最接近源风格语音的语音内容和目标风格语音的语音风格，无需再进行损失优化；此时，本实施例中的损失总和可以为损失优化后的初始转换语音的和源风格语音之间的语音内容损失与该初始转换语音和目标风格语音之间的语音风格损失的和，示例性的，若当前损失优化后的初始转换语音与源风格语音之间的语音内容损失为与目标风格语音之间的语音风格损失为/>则该初始转换语音对应的损失总和为/>其中λ为预先设定的语音内容损失的系数。

可选的，在每次得到新的初始转换语音后，均需要首先判断新的初始转换语音对应的损失优化参数是否满足本实施例中预设的损失优化条件，也就是判断新的初始转换语音所执行的损失优化次数是否达到预设的损失优化上限，或者，该新的初始转换语音在不同损失维度下的损失总和相对于上一次损失优化后的初始转换语音在不同损失维度下的损失总和是否不再降低；此时，如果当前损失优化后的新的初始转换语音已经满足预设的损失优化条件，说明已经达到语音风格转换的要求，无需再次进行损失优化，而如果当前损失优化后的新的初始转换语音不满足预设的损失优化条件，说明当前的优化结果未达到语音风格转换的要求，需要采用S120中记载的步骤对该新的初始转换语音继续进行相应的损失优化，直至新的初始转换语音满足预设的损失优化条件。

S140，将新的初始转换语音作为源风格语音在目标风格下的风格转换语音。

可选的，如果当前损失优化后的新的初始转换语音已经满足预设的损失优化条件，说明已经达到语音风格转换的要求，无需再次进行损失优化，并将新的初始转换语音直接作为源风格语音在目标风格下的风格转换语音，此时该风格转换语音与源风格语音的语音内容保持一致，且与目标风格语音的语音风格也保持一致，从而实现源风格语音在目标风格下的准确转换。

本实施例提供的技术方案，将初始转换语音作为语音风格转换的中间变量，根据初始转换语音和源风格语音之间的语音内容损失以及初始转换语音与目标风格语音之间的语音风格损失，对该初始转换语音进行损失优化，从而得到新的初始转换语音继续进行损失优化，依次循环，直至新的初始转换语音满足预设的损失优化条件，使得新的初始转换语音与源风格语音之间保持内容一致，且与目标风格语音之间保持风格一致，进而将该新的初始转换语音作为源风格语音在目标风格下的风格转换语音，实现源风格语音在目标风格下的准确转换，无需针对该目标风格进行语音风格转换的预先训练，保证未经过预先训练的目标语音下的语音风格转换，提高语音风格转换的全面性，同时通过不断减小与源风格语音的语音内容损失以及与目标风格语音的语音风格损失，尽可能保证源风格语音在目标风格下的风格转换语音与源风格语音之间保持内容一致，且与目标风格语音之间保持风格一致，提高语音风格转换的准确性。

实施例二

图2A为本发明实施例二提供的一种语音风格的转换方法的流程图，图2B为本发明实施例二提供的方法中计算损失优化过程中各类语音损失的原理示意图。本实施例是在上述实施例的基础上进行优化。具体的，如图2A所示，本实施例对于语音内容损失和语音风格损失的具体计算过程进行详细的解释说明。

可选的，如图2A所示，本实施例中可以包括如下步骤：

S210，获取源风格语音、目标风格语音和初始转换语音。

S220，分别确定源风格语音的语音内容特征、目标风格语音的语音风格特征以及初始转换语音的语音内容特征和语音风格特征。

具体的，本实施例通过分析比对初始转换语音和源风格语音之间的语音内容差异以及初始转换语音和目标风格语音之间的语音风格差异，来分别计算对应的语音内容损失和语音风格损失，此时首先可以通过现有的特征提取方式分别分析源风格语音的语音内容特征、目标风格语音的语音风格特征以及初始转换语音的语音内容特征和语音风格特征，以便后续对语音内容特征和语音风格特征之间的差异进行分析，确定对应的语音内容损失和语音风格损失。

示例性的，为了保证各类语音的语音内容特征和语音风格特征的提取准确性，本实施例中分别确定源风格语音的语音内容特征、目标风格语音的语音风格特征以及初始转换语音的语音内容特征和语音风格特征，具体可以包括：将源风格语音输入预先构建的语音识别网络中，得到源风格语音的语音内容特征；将目标风格语音输入预先构建的风格编码网络中，得到目标风格语音的语音风格特征；将初始转换语音分别输入语音识别网络和风格编码网络中，得到初始转换语音的语音内容特征和语音风格特征。

具体的，本实施例在分析各类语音的语音内容特征和语音风格特征时，可以在预训练阶段采用大量历史语音预先训练出分别用于准确提取语音内容特征和语音风格特征的语音识别网络和风格编码网络，此时该语音识别网络可以为Kaldi-nnet3语音识别网络，按照kaldi标准训练方法使用大批量历史语音数据进行预训练，而风格编码网络可以为简单的多层卷积前馈网络，采用广义端到端损失函数(Generalized end-to-end，GE2E)的训练方法使用大批量历史语音数据进行预训练。

可选的，在获取到源风格语音、目标风格语音和初始转换语音后，可以直接将该源风格语音输入到预先构建的语音识别网络中，由语音识别网络对该源风格语音中包含的语音内容进行分析，得到该源风格语音的语音内容特征；将该目标风格语音输入到预先构建的风格编码网络中，由风格编码网络对该目标风格语音中包含的语音风格进行分析，得到目标风格语音的语音风格特征；同时，将初始转换语音分别输入到预先构建的语音识别网络和风格编码网络中，由语音识别网络对该初始转换语音中包含的语音内容进行分析，由风格编码网络对该初始转换语音中包含的语音风格进行分析，从而得到该初始转换语音的语音内容特征和语音风格特征。

需要说明的是，由于初始转换语音可能会通过预先构建的预生成网络对源风格语音和目标风格语音进行初步的转换处理后生成，如图2B所示，此时在将源风格语音输入预先构建的语音识别网络中，得到源风格语音的语音内容特征，且将目标风格语音输入预先构建的风格编码网络中，得到目标风格语音的语音风格特征之后，会进一步将该源风格语音的语音内容特征和该目标风格语音的语音风格特征同时输入到预先构建的预生成网络中，得到为损失优化前的初始转换语音。

S230，计算源风格语音的语音内容特征和初始转换语音的语音内容特征之间的内容差异，作为对应的语言内容损失。

可选的，通过对源风格语音的语音内容特征和初始转换语音的语音内容特征进行比对，计算语音内容特征之间的内容差异，作为对应的语言内容损失；而由于本实施例中会对初始转换语音不断进行损失优化，也就是会循环计算当前损失优化后的初始转换语音和源风格语音的语音内容特征之间的内容差异，此时本实施例可以将未损失优化前的初始转换语音设为例如通过预生成网络输出的初始转换语音，而将已经过损失优化后得到的新的初始转换语音设为/>后续在损失优化过程中不断计算当前的初始转换语音和源风格语音的语音内容特征之间的语言内容损失。

示例性的，设定语音识别网络输出的源风格语音的语音内容特征为P_s,当前的初始转换语音的语音内容特征为/>此时该初始转换语音和源风格语音之间的语言内容损失为/>其中，KL[·]函数为KL散度计算。

S240，计算目标风格语音的语音风格特征和初始转换语音的语音风格特征之间的风格差异，作为对应的语言风格损失。

可选的，通过对目标风格语音的语音风格特征和初始转换语音的语音风格特征进行比对，计算语音风格特征之间的风格差异，作为对应的语言风格损失；而由于本实施例中会对初始转换语音不断进行损失优化，也就是会循环计算当前损失优化后的初始转换语音和目标风格语音的语音风格特征之间的风格差异，此时本实施例可以将未损失优化前的初始转换语音设为例如通过预生成网络输出的初始转换语音，而将已经过损失优化后得到的新的初始转换语音设为/>后续在损失优化过程中不断计算当前的初始转换语音和目标风格语音的语音风格特征之间的语言风格损失。

示例性的，设定风格编码网络输出的目标风格语音的语音风格特征为E_t,当前的初始转换语音的语音内容特征为/>此时该初始转换语音和目标风格语音之间的语言风格损失为/>

S250，根据初始转换语音和源风格语音之间的语音内容损失以及初始转换语音和目标风格语音之间的语音风格损失，对初始转换语音进行损失优化，得到新的初始转换语音。

S260，判断新的初始转换语音是否满足预设的损失优化条件；若是，执行S270；若否，返回执行S250。

S270，将新的初始转换语音作为源风格语音在目标风格下的风格转换语音。

S280，采用预设声码器播放风格转换语音。

可选的，在得到源风格语音在目标风格下的风格转换语音后，可以根据该风格转换语音在损失优化过程中选用的特征表示类型，采用对应的预设声码器播放该风格转换语音。

示例性的，如果在损失优化过程中初始转换语音通过梅尔频谱进行体征提取，则预设声码器可以为MelGAN声码器，如果初始转换语音使用线性预测编码(LinearPredictive Coding，LPC)系数进行特征表示，则预设声码器可以为LPCnet进行音频恢复；如果初始转换语音使用world的基频和谱包络特征则预设声码器采用world进行音频恢复；如果初始转换语音使用傅里叶幅度谱则预设声码器采用语音重建Griffin_Lim算法进行音频恢复等。

本实施例提供的技术方案，通过预先构建的语音识别网络和风格编码网络分别分析源风格语音和初始转换语音的语音内容特征以及目标风格语音和初始转换语音的语音风格特征，从而计算对应的语音内容损失和语音风格损失，提高了语音内容损失和语音风格损失的准确性，保证初始转换语音的损失优化精度。

实施例三

图3为本发明实施例三提供的一种语音风格的转换方法的流程图。本实施例是在上述实施例的基础上进行优化。具体的，本实施例对于初始转换语音进行损失优化的具体过程进行详细的解释说明。

可选的，如图3所示，本实施例中可以包括如下步骤：

S301，获取源风格语音、目标风格语音和初始转换语音。

S302，根据初始转换语音和源风格语音之间的语音内容损失以及初始转换语音和目标风格语音之间的语音风格损失，采用梯度下降算法对初始转换语音的梯度损失进行对应的梯度子优化，得到新的梯度损失。

可选的，本实施例中对初始转换语音进行损失优化时，可以会构建损失优化后的初始转换语音的相关函数，示例性的，采用拉格朗日乘数法构建初始转换语音在各损失维度下的总损失函数，并计算初始转换语音的梯度损失。

具体的，该总损失函数可以为通过计算该相关函数对/>和λ的导数g_M和g_λ，并迭代求解g_M＝0和g_λ＝0来计算最佳的新的初始转换语音；此时，由于语音内容损失/>和语音风格损失/>是通过网络计算得到的，此时梯度方程组一般难以求解，因此本实施例中可以采用梯度下降算法对初始转换语音的相关损失进行逼近，确定计算出初始转换语音的梯度损失L_gra＝||g_M||+||g_λ||，进而采用梯度下降算法对该梯度损失进行对应的梯度子优化，得到新的梯度损失，后续通过循环采用上述步骤不断优化最新的梯度损失，以尽可能加快初始转换语音的收敛速度。

S303，判断新的梯度损失是否满足预设的梯度子优化条件；若是，执行S304；若否，返回执行S302。

其中，本实施例中的梯度子优化条件用于指示最新的梯度损失是否达到最低的梯度差异，可以为新的梯度损失的梯度子优化次数达到预设的梯度子优化上限、新的梯度损失小于预设的梯度损失下限或者新的梯度损失的优化浮动值小于预设的浮动上限。

此时，在每次得到新的新的梯度损失后，均需要判断新的梯度损失是否满足预设的梯度子优化条件，如果新的梯度损失满足预设的梯度子优化条件，说明此时优化后的梯度损失最低，无需再进行梯度子优化；而如果新的梯度损失未满足预设的梯度子优化条件，说明当前的梯度损失未达到迭代优化的要求，需要采用S302中记载的步骤对该新的梯度损失继续进行相应的损失优化，直至新的梯度损失满足预设的梯度子优化条件。

S304，将新的梯度损失作为最优的梯度损失。

可选的，如果新的梯度损失满足预设的梯度子优化条件，则可直接将最新的梯度损失作为最优的梯度损失，以便后续对最优的梯度损失下的初始转换语音在不同损失维度下构建的总损失函数也进行相同的迭代优化。

S305，采用梯度下降算法对最优的梯度损失下的初始转换语音在不同损失维度下构建的总损失函数进行函数子优化，得到新的总损失函数。

可选的，本实施例采用与梯度损失进行梯度子优化时相同的子优化步骤，也相应采用梯度下降算法对最优的梯度损失下的初始转换语音在不同损失维度下构建的总损失函数进行同样的函数子优化，此时判断新的总损失函数是否满足预设的函数子优化条件可以为新的总损失函数的函数子优化次数达到预设的函数子优化上限。

S306，判断新的总损失函数是否满足预设的函数子优化条件；若是，执行S307；若否，返回执行S305。

S307，将新的总损失函数作为最优的总损失函数。

S308，将最优的总损失函数下的初始转换语音作为新的初始转换语音。

可选的，在循环优化新的总损失函数得到最优的总损失函数后，则直接将该最优的总损失函数下的初始转换语音作为新的初始转换语音，以便后续继续进行新的损失优化。

S309，判断新的初始转换语音是否满足预设的损失优化条件；若是，执行S310；若否，返回执行S302。

S310，将新的初始转换语音作为源风格语音在目标风格下的风格转换语音。

本实施例提供的技术方案，通过采用梯度下降算法依次对初始转换语音的梯度损失和在不同损失维度下构建的总损失函数进行对应的子优化，从而得到新的初始转换语音，加快初始转换语音的优化收敛速度，尽可能保证源风格语音在目标风格下的风格转换语音与源风格语音之间保持内容一致，且与目标风格语音之间保持风格一致，提高语音风格转换的准确性。

实施例四

图4A为本发明实施例四提供的一种语音风格的转换方法的流程图，图4B为本发明实施例四提供的语音风格的转换过程的原理示意图。本实施例是在上述实施例的基础上进行优化。具体的，本实施例对于通过预生成网络生成的初始转换语音进行损失优化的具体过程进行详细的解释说明。

可选的，如图4A所示，本实施例中可以包括如下步骤：

S410，获取风格转换指令对应的源风格语音和目标风格语音。

S420，将源风格语音的语音内容特征和目标风格语音的语音风格特征输入预先构建的预生成网络中，得到对应的初始转换语音。

S430，在初始转换语音的损失优化过程中计算对应的语音偏移损失，并根据语音内容损失、语音风格损失和语音偏移损失，对初始转换语音进行损失优化，得到新的初始转换语音。

可选的，由于通过预生成网络源风格语音的语音内容特征和目标风格语音的语音风格特征进行处理，得到未优化前的初始转换网络，此时可以在对每一阶段的初始转换语音进行损失优化的过程中，分别计算当前的初始转换语音对应的语音偏移损失，例如该语音偏移损失为进而根据源风格语音和初始转换语音之间的语音内容损失、目标风格语音和初始转换语音之间的语音风格损失以及该初始转换语音的语音偏移损失，对该初始转换语音进行损失优化。

示例性的，本实施例中所构建的总损失函数可以为后续基于该总损失函数，采用梯度下降算法对该初始转换语音下的梯度损失和总损失函数进行对应的子优化，从而准确得到新的初始转换语音。

S440，判断新的初始转换语音是否满足预设的损失优化条件；若是，执行S450；若否，返回执行S430。

S450，将新的初始转换语音作为源风格语音在目标风格下的风格转换语音。

本实施例提供的技术方案，根据初始转换语音和源风格语音之间的语音内容损失、初始转换语音与目标风格语音之间的语音风格损失以及初始转换语音的语音偏移损失，对该初始转换语音进行损失优化，从而得到新的初始转换语音继续进行损失优化，依次循环，直至新的初始转换语音满足预设的损失优化条件，使得新的初始转换语音与源风格语音之间保持内容一致，且与目标风格语音之间保持风格一致，进而将该新的初始转换语音作为源风格语音在目标风格下的风格转换语音，实现源风格语音在目标风格下的准确转换，无需针对该目标风格进行语音风格转换的预先训练，保证未经过预先训练的目标语音下的语音风格转换，提高语音风格转换的全面性，同时通过不断减小与源风格语音的语音内容损失以及与目标风格语音的语音风格损失，尽可能保证源风格语音在目标风格下的风格转换语音与源风格语音之间保持内容一致，且与目标风格语音之间保持风格一致，提高语音风格转换的准确性。

实施例五

图5为本发明实施例五提供的一种语音风格的转换装置的结构示意图，具体的，如图5所示，该装置可以包括：

相关语音获取模块510，用于获取源风格语音、目标风格语音和初始转换语音；

语音风格转换模块520，用于根据初始转换语音和源风格语音之间的语音内容损失以及初始转换语音和目标风格语音之间的语音风格损失，对初始转换语音进行损失优化，得到新的初始转换语音继续进行损失优化，直至新的初始转换语音满足预设的损失优化条件，则将新的初始转换语音作为源风格语音在目标风格下的风格转换语音。

进一步的，上述语音风格的转换装置，还可以包括：

语音特征确定模块，用于分别确定源风格语音的语音内容特征、目标风格语音的语音风格特征以及初始转换语音的语音内容特征和语音风格特征；

内容损失计算模块，用于计算源风格语音的语音内容特征和初始转换语音的语音内容特征之间的内容差异，作为对应的语言内容损失；

风格损失计算模块，用于计算目标风格语音的语音风格特征和初始转换语音的语音风格特征之间的风格差异，作为对应的语言风格损失。

进一步的，上述语音特征确定模块，可以具体用于：

将源风格语音输入预先构建的语音识别网络中，得到源风格语音的语音内容特征；

将目标风格语音输入预先构建的风格编码网络中，得到目标风格语音的语音风格特征；

将初始转换语音分别输入语音识别网络和风格编码网络中，得到初始转换语音的语音内容特征和语音风格特征。

进一步的，上述语音风格转换模块520，可以具体用于：

采用梯度下降算法对初始转换语音的梯度损失进行对应的梯度子优化，得到新的梯度损失继续进行梯度子优化，直至新的梯度损失满足预设的梯度子优化条件，则将新的梯度损失作为最优的梯度损失；

采用梯度下降算法对最优的梯度损失下的初始转换语音在不同损失维度下构建的总损失函数进行函数子优化，得到新的总损失函数继续进行函数子优化，直至新的总损失函数满足预设的函数子优化条件，则将新的总损失函数作为最优的总损失函数；

将最优的总损失函数下的初始转换语音作为新的初始转换语音继续进行损失优化。

进一步的，上述梯度子优化条件为新的梯度损失的梯度子优化次数达到预设的梯度子优化上限、新的梯度损失小于预设的梯度损失下限或者新的梯度损失的优化浮动值小于预设的浮动上限；上述函数子优化条件为新的总损失函数的函数子优化次数达到预设的函数子优化上限。

进一步的，上述语音风格的转换装置，还可以包括：

优化构建模块，用于采用拉格朗日乘数法构建初始转换语音在各损失维度下的总损失函数，并计算初始转换语音的梯度损失。

进一步的，上述相关语音获取模块510，可以具体用于：

获取风格转换指令对应的源风格语音和目标风格语音；

将源风格语音作为对应的初始转换语音，或者，将源风格语音的语音内容特征和目标风格语音的语音风格特征输入预先构建的预生成网络中，得到对应的初始转换语音。

进一步的，上述语音风格转换模块520，可以具体用于：

如果通过预生成网络得到对应的初始转换语音，则在初始转换语音的损失优化过程中计算对应的语音偏移损失，并根据语音内容损失、语音风格损失和语音偏移损失，对初始转换语音进行损失优化。

进一步的，上述损失优化条件为新的初始转换语音的损失优化次数达到预设的损失优化上限或者新的初始转换语音在不同损失维度下的损失总和不再降低。

进一步的，上述语音风格的转换装置，还可以包括：

语音播放模块，用于采用预设声码器播放风格转换语音。

本实施例提供的文本语音转换的装置可适用于上述任意实施例提供的文本语音转换的方法，具备相应的功能和有益效果。

实施例六

图6为本发明实施例六提供的一种设备的结构示意图，如图6所示，该设备包括处理器60、存储装置61和通信装置62；设备中处理器60的数量可以是一个或多个，图6中以一个处理器60为例；设备中的处理器60、存储装置61和通信装置62可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储装置61作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明任意实施例所述的语音风格的转换方法对应的程序指令/模块。处理器60通过运行存储在存储装置61中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述语音风格的转换方法。

存储装置61可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储装置61可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置61可进一步包括相对于处理器60远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信装置62可用于实现设备间的网络连接或者移动数据连接。

本实施例提供的一种设备可用于执行上述任意实施例提供的语音风格的转换方法，具备相应的功能和有益效果。

实施例七

本发明实施例七还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可实现上述任意实施例中的语音风格的转换方法。

该方法具体可以包括：

获取源风格语音、目标风格语音和初始转换语音；

根据初始转换语音和源风格语音之间的语音内容损失以及初始转换语音和目标风格语音之间的语音风格损失，对初始转换语音进行损失优化，得到新的初始转换语音继续进行损失优化，直至新的初始转换语音满足预设的损失优化条件，则将新的初始转换语音作为源风格语音在目标风格下的风格转换语音。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的语音风格的转换方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述语音风格的转换装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音风格的转换方法，其特征在于，包括：

获取源风格语音、目标风格语音和初始转换语音；

根据所述初始转换语音和所述源风格语音之间的语音内容损失以及所述初始转换语音和所述目标风格语音之间的语音风格损失，对所述初始转换语音进行损失优化，得到新的初始转换语音继续进行损失优化，直至所述新的初始转换语音满足预设的损失优化条件，则将所述新的初始转换语音作为所述源风格语音在目标风格下的风格转换语音；

所述获取源风格语音、目标风格语音和初始转换语音，包括：

获取风格转换指令对应的源风格语音和目标风格语音；

将所述源风格语音作为对应的初始转换语音，或者，将所述源风格语音的语音内容特征和所述目标风格语音的语音风格特征输入预先构建的预生成网络中，得到对应的初始转换语音。

2.根据权利要求1所述的方法，其特征在于，在获取源风格语音、目标风格语音和初始转换语音之后，还包括：

分别确定所述源风格语音的语音内容特征、所述目标风格语音的语音风格特征以及所述初始转换语音的语音内容特征和语音风格特征；

计算所述源风格语音的语音内容特征和所述初始转换语音的语音内容特征之间的内容差异，作为对应的语言内容损失；

计算所述目标风格语音的语音风格特征和所述初始转换语音的语音风格特征之间的风格差异，作为对应的语言风格损失。

3.根据权利要求2所述的方法，其特征在于，分别确定所述源风格语音的语音内容特征、所述目标风格语音的语音风格特征以及所述初始转换语音的语音内容特征和语音风格特征，包括：

将所述源风格语音输入预先构建的语音识别网络中，得到所述源风格语音的语音内容特征；

将所述目标风格语音输入预先构建的风格编码网络中，得到所述目标风格语音的语音风格特征；

将所述初始转换语音分别输入所述语音识别网络和所述风格编码网络中，得到所述初始转换语音的语音内容特征和语音风格特征。

4.根据权利要求1所述的方法，其特征在于，对所述初始转换语音进行损失优化，得到新的初始转换语音继续进行损失优化，包括：

采用梯度下降算法对所述初始转换语音的梯度损失进行对应的梯度子优化，得到新的梯度损失继续进行梯度子优化，直至所述新的梯度损失满足预设的梯度子优化条件，则将所述新的梯度损失作为最优的梯度损失；

采用梯度下降算法对所述最优的梯度损失下的初始转换语音在不同损失维度下构建的总损失函数进行函数子优化，得到新的总损失函数继续进行函数子优化，直至所述新的总损失函数满足预设的函数子优化条件，则将所述新的总损失函数作为最优的总损失函数；

将所述最优的总损失函数下的初始转换语音作为新的初始转换语音继续进行损失优化。

5.根据权利要求4所述的方法，其特征在于，所述梯度子优化条件为所述新的梯度损失的梯度子优化次数达到预设的梯度子优化上限、所述新的梯度损失小于预设的梯度损失下限或者所述新的梯度损失的优化浮动值小于预设的浮动上限；所述函数子优化条件为所述新的总损失函数的函数子优化次数达到预设的函数子优化上限。

6.根据权利要求4所述的方法，其特征在于，在对所述初始转换语音进行损失优化之前，还包括：

采用拉格朗日乘数法构建所述初始转换语音在各损失维度下的总损失函数，并计算所述初始转换语音的梯度损失。

7.根据权利要求6所述的方法，其特征在于，根据所述初始转换语音和所述源风格语音之间的语音内容损失以及所述初始转换语音和所述目标风格语音之间的语音风格损失，对所述初始转换语音进行损失优化，包括：

如果通过预生成网络得到对应的初始转换语音，则在所述初始转换语音的损失优化过程中计算对应的语音偏移损失，并根据所述语音内容损失、所述语音风格损失和所述语音偏移损失，对所述初始转换语音进行损失优化。

8.根据权利要求1-6任一项所述的方法，其特征在于，所述损失优化条件为所述新的初始转换语音的损失优化次数达到预设的损失优化上限或者所述新的初始转换语音在不同损失维度下的损失总和不再降低。

9.根据权利要求1-6任一项所述的方法，其特征在于，在将所述新的初始转换语音作为所述源风格语音在目标风格下的风格转换语音之后，还包括：

采用预设声码器播放所述风格转换语音。

10.一种语音风格的转换装置，其特征在于，包括：

语音风格转换模块，用于根据所述初始转换语音和所述源风格语音之间的语音内容损失以及所述初始转换语音和所述目标风格语音之间的语音风格损失，对所述初始转换语音进行损失优化，得到新的初始转换语音继续进行损失优化，直至所述新的初始转换语音满足预设的损失优化条件，则将所述新的初始转换语音作为所述源风格语音在目标风格下的风格转换语音；

所述相关语音获取模块，具体用于：

获取风格转换指令对应的源风格语音和目标风格语音；

11.一种语音风格的转换设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的语音风格的转换方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的语音风格的转换方法。