CN112509553B

CN112509553B - 一种语音合成方法、装置以及计算机可读存储介质

Info

Publication number: CN112509553B
Application number: CN202011391440.6A
Authority: CN
Inventors: 江明奇; 陈云琳; 殷昊; 杨喜鹏; 张旭
Original assignee: Wenwen Intelligent Information Technology Co ltd
Current assignee: Wenwen Intelligent Information Technology Co ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2023-08-01
Anticipated expiration: 2040-12-02
Also published as: CN112509553A

Abstract

本发明公开了一种语音合成方法、装置以及计算机可读存储介质，包括：获取文本信息，并将所获取的文本信息输入到基于端到端神经网络的声学模型中进行编码，编码生成表征用于概括所述文本信息的第一内容向量；接收针对所述文本信息中每个子文本信息的语音时长信息；根据所接收的语音时长信息，调整所述第一内容向量中针对所述子文本信息的语音时长，生成第二内容向量；根据所生成的第二内容向量，生成对应于所述文本信息的语音信息。由此，在语音合成过程中，通过控制第一内容向量中的文本时长，使得所生成的声音在音质未下降的基础上变得富有情感并且连贯舒畅。

Description

一种语音合成方法、装置以及计算机可读存储介质

技术领域

本发明涉及语音合成领域，尤其涉及一种语音合成方法、装置以及计算机可读存储介质。

背景技术

在语音合成是指计算机自动根据文本生成相应语音的技术，传统的语音合成技术分为参数语音合成和拼接语音合成。

参数语音合成所生成的声音，音质不错，缺点在于声音平淡、缺乏情感，并且含有一些背景音。

拼接语音合成所生成的声音，音质很高，缺点在于需要大量的录制声音，以满足不同的场景需求，另外，拼接算法常常会有拼接不连贯的问题。

发明内容

本发明实施例提供了一种语音合成方法、装置以及计算机可读存储介质，具有生成富有情感且音质高语音的技术效果。

本发明一方面提供一种语音合成方法，所述方法包括：获取文本信息，并将所获取的文本信息输入到基于端到端神经网络的声学模型中进行编码，编码生成表征用于概括所述文本信息的第一内容向量；接收针对所述文本信息中每个子文本信息的语音时长信息；根据所接收的语音时长信息，调整所述第一内容向量中针对所述子文本信息的语音时长，生成第二内容向量；根据所生成的第二内容向量，生成对应于所述文本信息的语音信息。

在一可实施方式中，所述接收针对所述文本信息中每个子文本信息的语音时长信息，包括：将所述文本信息作为已预训练好的时长模型的输入，输出得到对应于所述子文本信息的语音时长信息；或者，从信息库中获取对应于所述子文本信息的语音时长信息。

在一可实施方式中，所述时长模型为基于端到端的神经网络模型；相应的，所述将所述文本信息作为已预训练好的时长模型的输入，输出得到对应于所述子文本信息的语音时长信息，包括：将所述文本信息输入于所述时长模型中的编码层进行编码处理，输出得到表征用于概括所述文本信息的第三内容向量；将所述第三内容向量输入于所述时长模型中的解码层进行解码处理，输出得到对应于所述子文本信息的语音时长信息。

在一可实施方式中，所述根据所接收的语音时长信息，调整所述第一内容向量中针对所述子文本信息的语音时长，生成第二内容向量，包括：根据所接收的语音时长信息，将所述第一内容向量中对应的子文本信息进行重复增加/删除语音帧数处理，生成第二内容向量。

在一可实施方式中，所述根据所生成的第二内容向量，生成对应于所述文本信息的语音信息，包括：将所述第二内容向量输入于所述声学模型中的解码层进行解码，生成对应的语音谱参数；将所生成的语音谱参数作为基于神经网络的声码器模型的输入，生成对应于所述文本信息的语音信息。

在一可实施方式中，所述将所述第二内容向量输入于所述声学模型中的解码层进行解码，包括：通过注意力机制选择性的将所述第二内容向量输入于所述声学模型进行解码。

在一可实施方式中，所述声码器模型采用卷积神经网络，并且根据语音采样点建模。

本发明另一方面提供一种语音合成装置，所述装置包括：

文本获取模块，用于获取文本信息，并将所获取的文本信息输入到基于端到端神经网络的声学模型中进行编码，编码生成表征用于概括所述文本信息的第一内容向量；时长获取模块，用于接收针对所述文本信息中每个子文本信息的语音时长信息；时长调整模块，用于根据所接收的语音时长信息，调整所述第一内容向量中针对所述子文本信息的语音时长，生成第二内容向量；语音合成模块，用于根据所生成的第二内容向量，生成对应于所述文本信息的语音信息。

在一可实施方式中，所述时长获取模块具体用于：将所述文本信息作为已预训练好的时长模型的输入，输出得到对应于所述子文本信息的语音时长信息；或者，从信息库中获取对应于所述子文本信息的语音时长信息。

本发明另一方面提供一种计算机可读存储介质，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行上述任一项所述的语音合成方法。

在本发明实施例中，在语音合成过程中，通过控制第一内容向量中的文本时长，使得所生成的声音在音质未下降的基础上变得富有情感并且连贯舒畅。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1为本发明实施例一种语音合成方法的实现流程示意图；

图2为本发明实施例一种语音合成方法中时长模型以及声学模型的使用过程示意图；

图3为本发明实施例一种语音合成方法中时长模型以及声学模型的训练过程示意图；

图4为本发明实施例一种语音合成装置的结构组成示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一种语音合成方法的实现流程示意图；

图2为本发明实施例一种语音合成方法中时长模型以及声学模型的使用过程示意图。

如图1以及图2所示，本发明一方面提供一种语音合成方法，方法包括：

步骤101，获取文本信息，并将所获取的文本信息输入到基于端到端神经网络的声学模型中进行编码，编码生成表征用于概括文本信息的第一内容向量；

步骤102，接收针对文本信息中每个子文本信息的语音时长信息；

步骤103，根据所接收的语音时长信息，调整第一内容向量中针对子文本信息的语音时长，生成第二内容向量；

步骤104，根据所生成的第二内容向量，生成对应于文本信息的语音信息。

本实施例中，在步骤101中，基于端到端神经网络的声学模型包括编码层和解码层，具体应用时，将文本信息输入到编码层中进行编码，生成得到表征用于概括文本信息的第一内容向量；

在步骤102中，子文本信息包括文本信息中的字、词或者短语，语音时长信息可以是人工根据文本信息以及实际需求自定义设置，也可以通过预训练好的神经网络模型自动生成，还可以是根据文本信息从预设信息库中获取。

在步骤103中，调整方式可以是在原有语音时长的基础上进行语音帧数重复性增加或者删减，以达到调整语音时长的目的。

在步骤104中，语音信息的生成具体为将第二内容信息作为解码层的输入，得到对应的语音谱参数，再将语音谱参数输入到声码器中便可生成对应于文本信息的语音信息。

由此，在语音合成过程中，通过控制第一内容向量中的文本时长，使得所生成的声音在音质未下降的基础上变得富有情感并且连贯舒畅。

在一可实施方式中，接收针对文本信息中每个子文本信息的语音时长信息，包括：

将文本信息作为已预训练好的时长模型的输入，输出得到对应于子文本信息的语音时长信息；

或者，从信息库中获取对应于子文本信息的语音时长信息。

本实施例中，时长模型需事先进行预训练，以用于针对文本信息预测出对应于子文本信息最佳的语音时长信息。

图3为本发明实施例一种语音合成方法中时长模型以及声学模型的训练过程示意图。

参考图3所示，该时长模型的训练过程为：

将训练文本以及对应的带有时长标签的训练时长数据输入到时长模型中进行训练，生成对应的预设时长数据，计算预设时长数据和训练时长数据之间的损失数据，根据损失数据进一步调整时长模型的参数，直到损失数据满足预设条件，停止训练。

信息库中可以事先存有大量子文本信息以及对应的时长信息，提取时，将文本信息作为字段从信息库中进行检索，得到对应的语音时长信息。

在一可实施方式中，时长模型为基于端到端的神经网络模型：

相应的，将文本信息作为已预训练好的时长模型的输入，输出得到对应于子文本信息的语音时长信息，包括：

将文本信息输入于时长模型中的编码层进行编码处理，输出得到表征用于概括文本信息的第三内容向量；

将第三内容向量输入于时长模型中的解码层进行解码处理，输出得到对应于子文本信息的语音时长信息。

本实施例中，基于端到端的神经网络时长模型包括编码层和解码层；

相应的，上述步骤中通过时长模型输出得到对应于子文本信息的语音时长信息的具体过程为：

将文本信息输入于时长模型中的编码层进行编码处理，输出得到表征用于概括文本信息的第三内容向量，再将第三内容向量输入于时长模型中的解码层进行解码处理，输出得到对应于子文本信息的语音时长信息。

在一可实施方式中，根据所接收的语音时长信息，调整第一内容向量中针对子文本信息的语音时长，生成第二内容向量，包括：

根据所接收的语音时长信息，将第一内容向量中对应的子文本信息进行重复增加/删除语音帧数处理，生成第二内容向量。

本实施例中，步骤103的具体过程优选为：以文本信息为“我”为例，重复增加语音帧数的过程即为在原有的“我”的位置基础上往后重复增设多次语音帧数，进而达到扩充的目的，同理，在原有的“我”的位置基础上删除多次语音帧数，进而达到缩减的目的。通过上述语音帧数的增加或者删减，可使最后合成的语音情感丰富。

在一可实施方式中，根据所生成的第二内容向量，生成对应于文本信息的语音信息，包括：

将第二内容向量输入于声学模型中的解码层进行解码，生成对应的语音谱参数；

将所生成的语音谱参数作为基于神经网络的声码器模型的输入，生成对应于文本信息的语音信息。

本实施例中，基于神经网络的声码器模型包括WaveRNN、SparseWaveRNN等等。

在一可实施方式中，将第二内容向量输入于声学模型中的解码层进行解码，包括：

通过注意力机制选择性的将第二内容向量输入于声学模型进行解码。

本实施例中，通过引入注意力机制来判断当前的第二内容向量在当前语音合成任务中是否为关键信息，若判定当前的第二内容向量为关键信息，则将当前的第二内容向量输入于声学模型进行解码，反之，若判定当前的第二内容向量不是关键信息，那么将第二内容向量舍弃，通过引入注意力机制，可提升语音合成的效率以及提高输出结果的准确度和稳定性。

在一可实施方式中，声码器模型采用卷积神经网络，并且根据语音采样点建模。

本实施例中，通过采用卷积神经网络并且根据语音采样点直接建模，可使生成的声音可以高度保真，并且非常流畅自然。

参考图3所示，该声学模型的训练过程为：

首先根据训练文本经过声学模型的编码层获取文本内容向量，再根据所输入的文本时长，生成时长调整后的内容向量，接着通过注意力机制以及解码阶段生成对应的语音谱参数，将生成的语音谱参数与目标语音谱参数进行损失计算，根据损失值更新参数，直到损失值在预设范围内停止训练。神经网络声码器采用卷积神经网络，在采样点上直接建模并单独训练。

图4为本发明实施例一种语音合成装置的结构组成示意图。

如图4所示，本发明实施例另一方面提供一种语音合成装置，装置包括：

文本获取模块201，用于获取文本信息，并将所获取的文本信息输入到基于端到端神经网络的声学模型中进行编码，编码生成表征用于概括文本信息的第一内容向量；

时长获取模块202，用于接收针对文本信息中每个子文本信息的语音时长信息；

时长调整模块203，用于根据所接收的语音时长信息，调整第一内容向量中针对子文本信息的语音时长，生成第二内容向量；

语音合成模块204，用于根据所生成的第二内容向量，生成对应于文本信息的语音信息。

本实施例中，在文本获取模块201中，基于端到端神经网络的声学模型包括编码层和解码层，具体应用时，将文本信息输入到编码层中进行编码，生成得到表征用于概括文本信息的第一内容向量；

在时长获取模块202中，子文本信息包括文本信息中的字、词或者短语，语音时长信息可以是人工根据文本信息以及实际需求自定义设置，也可以通过预训练好的神经网络模型自动生成，还可以是根据文本信息从预设信息库中获取。

在时长调整模块203中，调整方式可以是在原有语音时长的基础上进行语音帧数重复性增加或者删减，以达到调整语音时长的目的。

在语音合成模块204中，语音信息的生成具体为将第二内容信息作为解码层的输入，得到对应的语音谱参数，再将语音谱参数输入到声码器中便可生成对应于文本信息的语音信息。

在一可实施方式中，时长获取模块202具体用于：

或者，从信息库中获取对应于子文本信息的语音时长信息。

参考图3所示，该时长模型的训练过程为：

本发明另一方面提供一种计算机可读存储介质，存储介质包括一组计算机可执行指令，当指令被执行时用于执行上述任一项的语音合成方法。

在本发明实施例中计算机可读存储介质包括一组计算机可执行指令，当指令被执行时用于，获取文本信息，并将所获取的文本信息输入到基于端到端神经网络的声学模型中进行编码，编码生成表征用于概括文本信息的第一内容向量；接收针对文本信息中每个子文本信息的语音时长信息；根据所接收的语音时长信息，调整第一内容向量中针对子文本信息的语音时长，生成第二内容向量；根据所生成的第二内容向量，生成对应于文本信息的语音信息。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

获取文本信息，并将所获取的文本信息输入到基于端到端神经网络的声学模型中进行编码，编码生成表征用于概括所述文本信息的第一内容向量；

接收针对所述文本信息中每个子文本信息的语音时长信息；

根据所接收的语音时长信息，调整所述第一内容向量中针对所述子文本信息的语音时长，生成第二内容向量；

根据所生成的第二内容向量，生成对应于所述文本信息的语音信息；

其中，将所述第二内容向量输入于所述声学模型中的解码层进行解码，生成对应的语音谱参数；

将所生成的语音谱参数作为基于神经网络的声码器模型的输入，生成对应于所述文本信息的语音信息；

其中，通过注意力机制选择性的将所述第二内容向量输入于所述声学模型进行解码。

2.根据权利要求1所述的方法，其特征在于，所述接收针对所述文本信息中每个子文本信息的语音时长信息，包括：

将所述文本信息作为已预训练好的时长模型的输入，输出得到对应于所述子文本信息的语音时长信息；

或者，从信息库中获取对应于所述子文本信息的语音时长信息。

3.根据权利要求2所述的方法，其特征在于，所述时长模型为基于端到端的神经网络模型：

相应的，所述将所述文本信息作为已预训练好的时长模型的输入，输出得到对应于所述子文本信息的语音时长信息，包括：

将所述文本信息输入于所述时长模型中的编码层进行编码处理，输出得到表征用于概括所述文本信息的第三内容向量；

将所述第三内容向量输入于所述时长模型中的解码层进行解码处理，输出得到对应于所述子文本信息的语音时长信息。

4.根据权利要求1所述的方法，其特征在于，所述根据所接收的语音时长信息，调整所述第一内容向量中针对所述子文本信息的语音时长，生成第二内容向量，包括：

根据所接收的语音时长信息，将所述第一内容向量中对应的子文本信息进行重复增加/删除语音帧数处理，生成第二内容向量。

5.根据权利要求1所述的方法，其特征在于，所述声码器模型采用卷积神经网络，并且根据语音采样点建模。

6.一种语音合成装置，其特征在于，所述装置包括：

文本获取模块，用于获取文本信息，并将所获取的文本信息输入到基于端到端神经网络的声学模型中进行编码，编码生成表征用于概括所述文本信息的第一内容向量；

时长获取模块，用于接收针对所述文本信息中每个子文本信息的语音时长信息；

时长调整模块，用于根据所接收的语音时长信息，调整所述第一内容向量中针对所述子文本信息的语音时长，生成第二内容向量；

语音合成模块，用于根据所生成的第二内容向量，生成对应于所述文本信息的语音信息；

所述语音合成模块还用于，将所述第二内容向量输入于所述声学模型中的解码层进行解码，生成对应的语音谱参数；将所生成的语音谱参数作为基于神经网络的声码器模型的输入，生成对应于所述文本信息的语音信息；其中，通过注意力机制选择性的将所述第二内容向量输入于所述声学模型进行解码。

7.根据权利要求6所述的装置，其特征在于，所述时长获取模块具体用于：

8.一种计算机可读存储介质，其特征在于，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行权利要求1-5任一项所述的语音合成方法。