CN113421571B

CN113421571B - 一种语音转换方法、装置、电子设备和存储介质

Info

Publication number: CN113421571B
Application number: CN202110693848.7A
Authority: CN
Inventors: 贺来朋; 孙见青; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2023-01-24
Anticipated expiration: 2041-06-22
Also published as: CN113421571A

Abstract

本发明涉及一种语音转换方法、装置、电子设备和存储介质，该方法应用于将源发音人的语音转换为目标发音人的语音，包括：获取源发音人的语音，根据源发音人的语音确定源发音人的文本；将源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音；其中，谱特征预测模块中包括时长模型以及声学特征模块。本申请通过时长强制对齐模型对源发音人的语音做强制对齐，得到源发音人的强制对齐时长信息，使用强制对齐的时长信息对时长模型预测的时长做调整，得到调整后的时长信息，并根据调整后的时长信息合成目标发音人的语音，使得转换后语音的语速与输入语音保持一致，从而使得转换后语音的发音风格与源发音人保持一致。

Description

一种语音转换方法、装置、电子设备和存储介质

技术领域

本发明涉及语音转换技术领域，具体涉及一种语音转换方法、装置、电子设备和存储介质。

背景技术

目前，说话人转换技术，就是以源发音人的语音作为输入，将语音音色转换为目标发音人音色，同时保持说话内容不变。现有的技术方案，大都同时需要源发音人和目标发音人的训练数据，很多系统还必须要有平行数据(即两个发音人必须朗读相同的文本内容)。由于数据获取的困难，这大大限制了语音转换技术的使用场景。另一类采用ASR+TTS技术方案，使用ASR系统从源发音人录音中获取发音文本，然后送给目标发音人的TTS系统做合成。该方案不需要源发音人的训练数据，也不需要做与源发音人有关的模型训练，可以实现一套模型支持任意源发音人到特定目标发音人的语音转换。

目前的ASR+TTS语音转换方案可以实现任意源发音人到特定目标发音人的语音转换，但是这些系统无法根据源发音人的输入语音来控制目标发音人的发音风格，导致转换前后语音的发音风格存在明显差异。

发明内容

本发明提供一种语音转换方法、装置、电子设备和存储介质，能够解决上述语音转换过程中前后语音的发音风格存在明显差异的技术问题。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明实施例提供了一种语音转换方法，应用于将源发音人的语音转换为目标发音人的语音，包括：

获取源发音人的语音，根据所述源发音人的语音确定源发音人的文本；

将所述源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音；

其中，所述目标发音人的语音合成模型包括：前端模块、谱特征预测模块、神经网络声码器；所述谱特征预测模块中包括时长模型以及声学特征模块。

在一些实施例中，上述语音转换方法中，将源发音人的语音和源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音，包括：

将源发音人的文本输入至所述前端模块中输出上下文相关信息；

从源发音人的语音中提取所述源发音人的声学特征；

将上下文相关信息输入至时长模型中得到每个音素的预测时长；

将源发音人的声学特征、上下文相关信息输入至时长强制对齐模型中得到每个音素的强制对齐时长；

使用每个音素的强制对齐时长调整每个音素的预测时长得到调整后的时长；

将上下文相关信息、调整后的时长输入至声学特征模块中输出每一帧的声学特征；

将每一帧的声学特征输入至神经网络声码器中得到目标发音人的语音。

在一些实施例中，上述语音转换方法中，训练时长强制对齐模型的步骤包括：

获取多个语音和多个文本对；

根据多个文本确定第一上下文相关信息；

提取多个语音中的梅尔倒谱特征，非周期谱特征和对数基频特征；

梅尔倒谱特征，非周期谱特征和对数基频特征及梅尔倒谱特征，非周期谱特征和对数基频特征的差分特征构成第一声学特征；

根据第一上下文相关信息和第一声学特征训练隐马尔可夫模型得到时长强制对齐模型。

在一些实施例中，上述语音转换方法中，上下文相关信息至少包括：拼音信息、分词、词性、韵律停顿和句中位置。

在一些实施例中，上述语音转换方法中，根据源发音人的语音确定源发音人的文本，包括：

获取多个语音和多个文本对；

训练多个语音和多个文本对得到语音识别模型；

将源发音人的语音输入至语音识别模型中输出源发音人的文本。

在一些实施例中，上述语音转换方法中，使用每个音素的强制对齐时长调整每个音素的预测时长得到调整后的时长，包括：

采用韵律短语停顿方法停顿至少一次；

统计韵律短语内，每个音素的强制对齐时长和每个音素的预测时长的比例，将所述比例作为时长调整系数；

将所述韵律短语中每个音素的预测时长都乘以时长调整系数，得到的时长为调整后的时长。

在一些实施例中，上述语音转换方法中，目标发音人的语音合成模型的训练步骤如下：

获取目标发音人的多个语音和文本对；

训练目标发音人的多个语音和文本对得到目标发音人的语音合成模型。

第二方面，本发明实施例提供了一种语音转换装置，应用于将源发音人的语音转换为目标发音人的语音，包括：

获取模块和确定模块：用于获取源发音人的语音，根据源发音人的语音确定源发音人的文本；

输入模块和合成模块：用于将源发音人的文本输入至目标发音人的语音合成模型中合成目标发音人的语音；

其中，目标发音人的语音合成模型包括：前端模块、谱特征预测模块和神经网络声码器；谱特征预测模块中包括时长强制对齐模型和声学特征模块。

第三方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如上所述任一项所述一种语音转换方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如上所述任一项所述一种语音转换方法。

本发明的有益效果是：应用于将源发音人的语音转换为目标发音人的语音，包括：获取源发音人的语音，根据源发音人的语音确定源发音人的文本；将源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音；其中，目标发音人的语音合成模型包括：前端模块、谱特征预测模块、神经网络声码器；谱特征预测模块中包括时长模型以及声学特征模块。本申请实施例中通过时长强制对齐模型对源发音人的语音做强制对齐，得到源发音人的强制对齐时长信息，使用强制对齐的时长信息对时长模型预测的时长做调整，得到调整后的时长信息，并根据调整后的时长信息合成目标发音人的语音，使得转换后语音的语速与输入语音保持一致，从而使得转换后语音的发音风格与源发音人保持一致。

附图说明

图1为本发明实施例提供的一种语音转换方法图一；

图2为本发明实施例提供的一种语音转换方法图二；

图3为本发明实施例提供的一种语音转换方法图三；

图4为本发明实施例提供的一种语音转换方法图四；

图5为本发明实施例提供的一种语音转换方法图五；

图6为本发明实施例提供的一种语音转换装置图；

图7为本发明实施例提供的一种电子设备的示意性框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开，而非对本申请的限定。基于所描述的本申请的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

图1为本发明实施例提供的一种语音转换方法图一。

S101：获取源发音人的语音，根据所述源发音人的语音确定源发音人的文本；

S102：将所述源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音；

具体的，本发明实施例中前端模块的主要作用是分析待合成文本，得到上下文相关信息，包括拼音、分词、词性、韵律停顿、句中位置等信息。谱特征预测模块和神经网络声码器通常被称为语音合成后端，后端包括谱特征预测模块、神经网络声码器，后端的作用是从前端输出的上下文相关标记中生成目标发音人的语音。

本申请实施例中的时长对齐模型的作用是在已知语音和发音文本的前提下，将语音和每一个音素做对齐，给出每个音素的起止时间。

应理解，本申请实施例中，以任意源发音人的语音作为输入，得到目标发音人音色的转换语音。并通过引入时长对齐模型从源发音人的输入语音中获取时长信息，用于对转换语音的时长进行控制，使得转换后的目标发音人的语音的时长和韵律信息与源发音人语音尽可能保持一致。

图2为本发明实施例提供的一种语音转换方法图二。

S201：将源发音人的文本输入至所述前端模块中输出上下文相关信息；

具体的，本申请实施例中，上下文相关信息是上下文相关标记，具体包括：拼音、分词、词性、韵律停顿、句中位置。

S202：从源发音人的语音中提取所述源发音人的声学特征；

S203：将上下文相关信息输入至时长模型中得到每个音素的预测时长；

具体的，将拼音、分词、词性、韵律停顿、句中位置输入至时长模型中预测出每个音素对应的时长。

S204：将源发音人的声学特征、上下文相关信息输入至时长强制对齐模型中得到每个音素的强制对齐时长；

S205：使用每个音素的强制对齐时长调整每个音素的预测时长得到调整后的时长；

应理解，使用强制对齐时长来对预测时长做调整，使得转换后语音的语速与输入语音保持一致，从而使得转换后语音的发音风格与源发音人保持一致。

S206：将上下文相关信息、调整后的时长输入至声学特征模块中输出每一帧的声学特征；

具体的，本申请实施例中，声学特征模块以拼音、分词、词性、韵律停顿、句中位置、以及音素时长信息作为输入，输出每一帧的声学特征。

S207：将每一帧的声学特征输入至神经网络声码器中得到目标发音人的语音。

具体的，本申请实施例中，神经网络声码器模块将声学特征转换为语音波形，从而得到目标发音人的语音。

图3为本发明实施例提供的一种语音转换方法图三。

在一些实施例中，上述语音转换方法中，训练时长强制对齐模型的步骤包括S301-S304四个步骤：

S301：获取多个语音和多个文本对；

S302：根据多个文本确定第一上下文相关信息；

S303：提取多个语音中的梅尔倒谱特征，非周期谱特征和对数基频特征；

S304：根据第一上下文相关信息和第一声学特征训练隐马尔可夫模型得到时长强制对齐模型。

具体的，本申请实施例中上述S301-S304四个步骤基于大规模文本-语音对训练通用的时长强制对齐模型；文本首先经过语音合成系统前端模块分析，得到上下文相关信息。语音经过声学分析模块，提取出梅尔倒谱MCEP，非周期谱BAP和对数基频LF0，这三种梅尔倒谱特征，非周期谱特征和对数基频特征声学特征及其一阶、二阶差分特征构成了时长强制对齐模型中使用的第一声学特征；使用上下文相关信息以及第一声学特征训练模型，得到时长强制对齐模型。

图4为本发明实施例提供的一种语音转换方法图四。

在一些实施例中，上述语音转换方法中，根据源发音人的语音确定源发音人的文本，包括S401-S403三个步骤：

S401：获取多个语音和多个文本对；

具体的，多个语音和多个文本对是一一对应的。

S402：训练多个语音和多个文本对得到语音识别模型；

具体的，通过训练多个语音和多个文本对得到语音识别模型。

S403：将源发音人的语音输入至语音识别模型中输出源发音人的文本。

具体的，可以是录制源发音人的音频，记为源发音人的语音。将源发音人的语音输入语音识别模型中做语音识别，得到源发音人的文本。

采用韵律短语停顿方法停顿至少一次；

应理解，上述统计和调整步骤通过统计当前韵律短语内，强制对齐模型确定的强制对齐时长和时长模型预测的时长，并将其比例作为时长调整系数。将当前韵律短语中的每个音素的时长都乘以这个系数，得到的时长作为最终使用的时长；使得转换后语音的语速与输入语音保持一致，从而使得转换后语音的发音风格与源发音人保持一致。

图5为本发明实施例提供的一种语音转换方法图五。

在一些实施例中，上述语音转换方法中，目标发音人的语音合成模型的训练步骤包括：S501和S502两个步骤：

S501：获取目标发音人的多个语音和文本对；

具体的，目标发音人的多个语音和多个文本对是一一对应的。

S502：训练目标发音人的多个语音和文本对得到目标发音人的语音合成模型。

具体的，通过训练目标发音人的多个语音和多个文本对得到目标发音人的语音合成模型。

图6为本发明实施例提供的一种语音转换装置图。

获取模块601和确定模块602：用于获取源发音人的语音，根据源发音人的语音确定源发音人的文本；

具体的，本发明实施例中通过获取模块601获取源发音人的语音，确定模块602根据所述源发音人的语音确定源发音人的文本。

输入模块603和合成模块604：用于将源发音人的文本输入至目标发音人的语音合成模型中合成目标发音人的语音；

具体的，本发明实施例中前端模块的主要作用是分析待合成文本，得到上下文相关信息，包括拼音、分词、词性、韵律停顿、句中位置等信息。谱特征预测模块和神经网络声码器通常被称为语音合成后端，后端的作用是从前端输出的上下文相关标记中生成目标发音人的语音。

应理解，本申请实施例中，输入模块603以任意源发音人的语音作为输入，合成模块604目标发音人音色的转换语音。并通过引入时长对齐模型从源发音人的输入语音中获取时长信息，用于对转换语音的时长进行控制，使得转换后的目标发音人的语音的时长和韵律信息与源发音人语音尽可能保持一致。

图7是本公开实施例提供的一种电子设备的示意性框图。

如图7所示，电子设备包括：至少一个处理器701、至少一个存储器702和至少一个通信接口703。电子设备中的各个组件通过总线系统704耦合在一起。通信接口703，用于与外部设备之间的信息传输。可理解，总线系统704用于实现这些组件之间的连接通信。总线系统704除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图7中将各种总线都标为总线系统704。

可以理解，本实施例中的存储器702可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器702存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本申请实施例提供的一种语音转换方法中任一方法的程序可以包含在应用程序中。

在本申请实施例中，处理器701通过调用存储器702存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器701用于执行本申请实施例提供的一种语音转换方法各实施例的步骤。

获取源发音人的语音，根据源发音人的语音确定源发音人的文本；

将源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音；

其中，目标发音人的语音合成模型包括：前端模块、谱特征预测模块、神经网络声码器；谱特征预测模块中包括时长模型以及声学特征模块。

本申请实施例提供的一种语音转换方法中任一方法可以应用于处理器701中，或者由处理器701实现。处理器701可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器701中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器701可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例提供的一种语音转换方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器702，处理器701读取存储器702中的信息，结合其硬件完成一种语音转换方法的步骤。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本申请的实施方式，但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音转换方法，应用于将源发音人的语音转换为目标发音人的语音，其特征在于，包括：

其中，所述目标发音人的语音合成模型包括：前端模块、谱特征预测模块、神经网络声码器；所述谱特征预测模块中包括时长模型以及声学特征模块；

所述将所述源发音人的语音和源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音，包括：

将所述源发音人的文本输入至所述前端模块中输出上下文相关信息；

从所述源发音人的语音中提取所述源发音人的声学特征；

将所述上下文相关信息输入至所述时长模型中得到每个音素的预测时长；

将所述源发音人的声学特征、所述上下文相关信息输入至所述时长强制对齐模型中得到每个音素的强制对齐时长；

使用所述每个音素的强制对齐时长调整所述每个音素的预测时长得到调整后的时长；

将所述上下文相关信息、所述调整后的时长输入至所述声学特征模块中输出每一帧的声学特征；

将所述每一帧的声学特征输入至所述神经网络声码器中得到目标发音人的语音。

2.根据权利要求1所述的一种语音转换方法，其特征在于，训练时长强制对齐模型的步骤包括：

获取多个语音和多个文本对；

根据所述多个文本确定第一上下文相关信息；

提取所述多个语音中的梅尔倒谱特征，非周期谱特征和对数基频特征；

所述梅尔倒谱特征，所述非周期谱特征和所述对数基频特征及所述梅尔倒谱特征，所述非周期谱特征和所述对数基频特征的差分特征构成第一声学特征；

根据所述第一上下文相关信息和所述第一声学特征训练隐马尔可夫模型得到所述时长强制对齐模型。

3.根据权利要求1所述的一种语音转换方法，其特征在于，所述上下文相关信息至少包括：拼音信息、分词、词性、韵律停顿和句中位置。

4.根据权利要求1所述的一种语音转换方法，其特征在于，所述根据所述源发音人的语音确定源发音人的文本，包括：

获取多个语音和多个文本对；

训练所述多个语音和多个文本对得到语音识别模型；

将所述源发音人的语音输入至所述语音识别模型中输出所述源发音人的文本。

5.根据权利要求1所述的一种语音转换方法，其特征在于，所述使用所述每个音素的强制对齐时长调整所述每个音素的预测时长得到调整后的时长，包括：

采用韵律短语停顿方法停顿至少一次；

将所述韵律短语中每个音素的预测时长都乘以所述时长调整系数，得到的时长为调整后的时长。

6.根据权利要求1所述的一种语音转换方法，其特征在于，所述目标发音人的语音合成模型的训练步骤如下：

获取目标发音人的多个语音和文本对；

训练所述目标发音人的多个语音和文本对得到所述目标发音人的语音合成模型。

7.一种语音转换装置，应用于将源发音人的语音转换为目标发音人的语音，其特征在于，包括：

获取模块和确定模块：用于获取源发音人的语音，根据所述源发音人的语音确定源发音人的文本；

输入模块和合成模块：用于将所述源发音人的文本输入至目标发音人的语音合成模型和时长强制对齐模型中合成目标发音人的语音；

其中，所述目标发音人的语音合成模型包括：前端模块、谱特征预测模块和神经网络声码器；所述谱特征预测模块中包括时长强制对齐模型和声学特征模块；

从所述源发音人的语音中提取所述源发音人的声学特征；

8.一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至6任一项所述一种语音转换方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至6任一项所述一种语音转换方法。