CN111524500B

CN111524500B - 语音合成方法、装置、设备和存储介质

Info

Publication number: CN111524500B
Application number: CN202010306617.1A
Authority: CN
Inventors: 张鹏; 胡新辉; 徐欣康
Original assignee: Zhejiang Tonghuashun Intelligent Technology Co Ltd
Current assignee: Zhejiang Tonghuashun Intelligent Technology Co Ltd
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2023-03-31
Anticipated expiration: 2040-04-17
Also published as: CN111524500A

Abstract

本申请涉及语音合成方法、装置、设备和存储介质。该方法包括：获取到对待语音合成的目标文本进行编码处理后的文本向量；获取到对所述文本向量进行解码处理后得到的第一向量片段，以及所述第一向量片段所对应的第一属性特征；所述第一属性特征至少能够表征所述第一向量片段在所述目标文本的文本内容中所对应的语序位置特征；对所述第一向量片段进行语音合成处理，得到并输出第一语音片段；至少基于所述文本向量，以及所述第一向量片段和所述第一属性特征所表征的语序位置特征，得到第二向量片段。如此，实现流式转换流式输出的目的，进而为降低整体输出时间奠定了基础，同时，也为提升用户体验奠定了基础。

Description

语音合成方法、装置、设备和存储介质

技术领域

本申请涉及语音合成领域，特别是涉及一种语音合成方法、装置、设备和存储介质。

背景技术

在语音交互场景中，需要把文本内容转换为语音时，要求快速且高质量语音响应。但现有神经网络合成方案，虽然质量高，但合成速度非常缓慢，以端到端神经网络合成方案Tacotron2为例，在tensorflow开发平台下以CPU解码的话，大约一句话5s的语音需要等待2.5s的时间才能生成，而且语音时间越长，所需要等待的时间越长。因为，Tacotron2在tensorflow开发平台下的语音生成是非流式方式，对文本内容整体处理完成后才会输出语音，因此，降低了用户体验。

发明内容

为解决上述问题，本发明提出了一种语音合成方法、装置、设备和存储介质，能够将文本向量逐步转换为与文本向量所对应的语序关联特征相匹配的向量片段，如第一向量片段和第二向量片段，并在未全部得到文本向量的语音结果之前，先输出已得到的向量片段对应的语音片段，如先输出第一语音片段，实现流式转换流式输出的目的，进而为降低整体输出时间奠定了基础，同时，也为提升用户体验奠定了基础。

第一方面，本申请实施例提供一种语音合成方法，包括：

获取到对待语音合成的目标文本进行编码处理后的文本向量，其中，所述文本向量至少能够表征所述目标文本的文本内容所对应的语序关联特征；

获取到对所述文本向量进行解码处理后得到的第一向量片段，以及所述第一向量片段所对应的第一属性特征；其中，所述第一向量片段至少与所述文本向量中的部分文本内容相匹配；所述第一属性特征至少能够表征所述第一向量片段在所述目标文本的文本内容中所对应的语序位置特征；

对所述第一向量片段进行语音合成处理，得到并输出第一语音片段；

至少基于所述文本向量，以及所述第一向量片段和所述第一属性特征所表征的语序位置特征，得到第二向量片段；其中，所述第二向量片段至少与所述文本向量中的部分文本内容相匹配；所述第二向量片段与所述第一向量片段之间的语序关系与所述文本向量所表征的语序关系特征相匹配。

在本申请一具体实施例中，基于所述第二向量片段能够得到第二语音片段，其中，所述第一语音片段与第二语音片段之间的时序关系特征与所述文本向量所表征的语序关联特征相匹配。

在本申请一具体实施例中，所述方法还包括：

获取生成所述第一向量片段的时间信息，将生成的所述第一向量片段的时间信息记录于所述第一属性特征中；其中，利用所述第一属性特征所表征的时间信息能够确定出所述第一语音片段的时序特征。

在本申请一具体实施例中，所述方法还包括：

对第二向量片段进行语音合成处理，得到第二语音片段，输出所述第二语音片段；其中，所述第二语音片段与所述第一语音片段之间的时序关系特征与所述文本向量所表征的语序关联特征相匹配。

在本申请一具体实施例中，所述方法还包括：

获取生成所述第二向量片段的时间信息，将生成的所述第二向量片段的时间信息记录于所述第二向量片段所对应的第二属性特征中；其中，所述第二属性特征至少能够表征所述第二向量片段在所述目标文本的文本内容中所对应的语序位置特征；利用所述第二属性特征所表征的时间信息能够确定出所述第二语音片段的时序特征。

在本申请一具体实施例中，所述方法还包括：

至少基于第一语音片段以及第二语音片段，将所述文本向量转换为成的语音片段并按照时序特征输出。

第二方面，本申请实施例提供一种语音合成装置，包括：

获取单元，用于获取到对待语音合成的目标文本进行编码处理后的文本向量，其中，所述文本向量至少能够表征所述目标文本的文本内容所对应的语序关联特征；获取到对所述文本向量进行解码处理后得到的第一向量片段，以及所述第一向量片段所对应的第一属性特征；其中，所述第一向量片段至少与所述文本向量中的部分文本内容相匹配；所述第一属性特征至少能够表征所述第一向量片段在所述目标文本的文本内容中所对应的语序位置特征；

处理单元，用于对所述第一向量片段进行语音合成处理，得到并输出第一语音片段；至少基于所述文本向量，以及所述第一向量片段和所述第一属性特征所表征的语序位置特征，得到第二向量片段；其中，所述第二向量片段至少与所述文本向量中的部分文本内容相匹配；所述第二向量片段与所述第一向量片段之间的语序关系与所述文本向量所表征的语序关系特征相匹配。

在本申请一具体实施例中，所述处理单元，还用于基于所述第二向量片段得到第二语音片段，其中，所述第一语音片段与第二语音片段之间的时序关系特征与所述文本向量所表征的语序关联特征相匹配。

在本申请一具体实施例中，所述获取单元，还用于获取生成所述第一向量片段的时间信息；

所述处理单元，还用于将生成的所述第一向量片段的时间信息记录于所述第一属性特征中；其中，利用所述第一属性特征所表征的时间信息能够确定出所述第一语音片段的时序特征。

在本申请一具体实施例中，所述处理单元，还用于：

在本申请一具体实施例中，所述获取单元，还用于获取生成所述第二向量片段的时间信息；

所述处理单元，还用于将生成的所述第二向量片段的时间信息记录于所述第二向量片段所对应的第二属性特征中；其中，所述第二属性特征至少能够表征所述第二向量片段在所述目标文本的文本内容中所对应的语序位置特征；利用所述第二属性特征所表征的时间信息能够确定出所述第二语音片段的时序特征。

在本申请一具体实施例中，所述处理单元，还用于至少基于第一语音片段以及第二语音片段，将所述文本向量转换为成的语音片段并按照时序特征输出。

第三方面，本申请实施例提供一种语音合成设备，包括：

一个或多个处理器；

与所述一个或多个处理器通信连接的存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序被配置为执行以上所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现以上所述的方法。

这样，由于本申请方案能够将文本向量逐步转换为向量片段，如第一向量片段，第二向量片段，所以，为后续实现流式输出奠定了基础。进一步地，又由于本申请方案能够在未全部得到文本向量的语音结果之前，先输出已得到的第一向量片段对应的语音片段，如先输出第一语音片段，如此，为降低整体输出时间奠定了基础，同时，为提升用户体验奠定了基础。

而且，由于先后得到的第一向量片段以及第二向量片段之间的语序关系与文本向量所表征的语序关系特征相匹配，所以能够为确保输出的语音片段之间的语序准备奠定了基础，进而为快速高效的输出文本向量所对应的全部语音奠定了基础。

附图说明

图1为本发明实施例语音合成方法的实现流程示意图；

图2为本申请实施例语音合成方法在一具体应用场景的示意图；

图3为本发明实施例语音合成装置的结构示意图；

图4本发明实施例语音合成设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本申请的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。

本申请实施例提供了一种语音合成方法、装置、设备和存储介质；具体地，图1为本发明实施例语音合成方法的实现流程示意图，如图1所示，所述方法包括：

步骤101：获取到对待语音合成的目标文本进行编码处理后的文本向量，其中，所述文本向量至少能够表征所述目标文本的文本内容所对应的语序关联特征。

这里，所述语序关联特征可以具体包括语序特征、分词之间的关联关系等，如此，为后续基于语序关联特征先后得到向量片段，并基于先后得到的向量片段先后输出语音片段实现将目标文本进行流式输出奠定了基础。

步骤102：获取到对所述文本向量进行解码处理后得到的第一向量片段，以及所述第一向量片段所对应的第一属性特征；其中，所述第一向量片段至少与所述文本向量中的部分文本内容相匹配；所述第一属性特征至少能够表征所述第一向量片段在所述目标文本的文本内容中所对应的语序位置特征。

这里，实际应用中，所述第一向量片段可以是对目标文本的文本向量进行解码处理后得到的首个向量片段，也可以是中间过程中得到的向量片段。

步骤103：对所述第一向量片段进行语音合成处理，得到并输出第一语音片段。

这里，需要说明的是，实际场景中，步骤103和步骤104同步执行，即在对第一向量片段进行语音合成处理的同时，基于所述文本向量，以及所述第一向量片段和所述第一属性特征去确定第二向量片段，如此，为减少等待时间奠定了基础，进而为降低整体的输出时间奠定了基础。

步骤104：至少基于所述文本向量，以及所述第一向量片段和所述第一属性特征所表征的语序位置特征，得到第二向量片段；其中，所述第二向量片段至少与所述文本向量中的部分文本内容相匹配；所述第二向量片段与所述第一向量片段之间的语序关系与所述文本向量所表征的语序关系特征相匹配。

这里，实际应用中，基于所述第一向量片段能够得到第一语音片段，基于所述第二向量片段能够得到第二语音片段，而且，所述第一语音片段与第二语音片段之间的时序关系特征与所述文本向量所表征的语序关联特征相匹配，如此，来确保输出的第一语音片段和第二语音片段的输出顺序与文本向量所表征的语序关联特征相匹配，进而确保准备输出的基础上，实现流式输出。

实际应用中，为实现流式输出，所述语音合成方法至少基于第一语音片段以及第二语音片段，将所述文本向量转换为成的语音片段并按照时序特征输出。

在一具体示例中，为实现按照与语序关联特征相匹配的时序特征流式输出语音片段，语音合成装置在得到第一向量片段后，还会获取生成所述第一向量片段的时间信息，将生成的所述第一向量片段的时间信息记录于所述第一属性特征中；其中，利用所述第一属性特征所表征的时间信息能够确定出所述第一语音片段的时序特征。同理，获取生成所述第二向量片段的时间信息，将生成的所述第二向量片段的时间信息记录于所述第二向量片段所对应的第二属性特征中；其中，所述第二属性特征至少能够表征所述第二向量片段在所述目标文本的文本内容中所对应的语序位置特征；利用所述第二属性特征所表征的时间信息能够确定出所述第二语音片段的时序特征。

在一具体示例中，所述方法还包括：对第二向量片段进行语音合成处理，得到第二语音片段，输出所述第二语音片段；其中，所述第二语音片段与所述第一语音片段之间的时序关系特征与所述文本向量所表征的语序关联特征相匹配。

举例来说，以第一向量片段为首个向量片段为例，当语音合成装置对目标文本进行编码处理得到文本向量后，会对得到的文本向量进行解码处理，此时，为了实现流式输出，语音合成装置会按照语序关联特征对文本向量中的部分内容进行解码，并在解码处理后得到第一向量片段以及表征第一向量片段在所述目标文本的文本内容中所对应的语序位置特征的第一属性特征；此时，对第一向量片段进行语音合成处理，得到第一语音片段，并输出第一语音片段；同时，利用所述文本向量，以及第一向量片段和所述第一属性特征来得到第二向量片段，同理，进而再利用所述文本向量，以及第二向量片段和第二属性特征所表征的语序位置特征，得到第三向量片段，依次循环，直至将文本向量全部解码成向量片段为止；这里，为了实现流式输出，在得到向量片段后即对向量片段进行语音合成处理，比如，在得到第一向量片段后即对第一向量片段进行语音合成处理，得到并输出第一语音片段，同理，在得到第二向量片段后即对第二向量片段进行语音合成处理，得到并输出第二语音片段，也就是说，无需等待对文本向量全部处理完成后再进行语音输出，因此，减少了等待时间，降低了整体的输出时间，进而提升了用户体验。

或者，以所述第一向量片段为中间的向量片段为例，此时，所述第一向量片段是基于上一次得到的向量片段和上一次得到的向量片段的属性特征，以及所述文本向量而确定出的，此时，对第一向量片段进行语音合成处理，得到第一语音片段，并输出第一语音片段；同时，利用所述文本向量，以及第一向量片段和所述第一属性特征来得到第二向量片段，同理，进而再利用所述文本向量，以及第二向量片段和第二属性特征所表征的语序位置特征，得到第三向量片段，依次循环，直至将文本向量全部解码成向量片段为止；这里，为了实现流式输出，在得到向量片段后即对向量片段进行语音合成处理，比如，在得到第一向量片段后即对第一向量片段进行语音合成处理，得到并输出第一语音片段，同理，在得到第二向量片段后即对第二向量片段进行语音合成处理，得到并输出第二语音片段，也就是说，无需等待对文本向量全部处理完成后再进行语音输出，因此，减少了等待时间，降低了整体的输出时间，进而提升了用户体验。

以下结合具体示例，对本申请方案做进一步详细说明，具体地，本申请方案通过对端到端(E2E，End-to-End)的语音合成模型进行多重拆分，在tensorflow开发平台按照时序特征输出语音片段，如此，来实现流式解码，流式输出的目的，满足了实时响应要求，且响应速度不会线性增长。

具体地，如图2所示，以Tacotron模型为例,将Tacotron模型按照功能划分为编码部分和解码部分，进而把Tacotron模型拆分为编码子模型(Encoder)和解码子模型(Decoder)，两个模型；基于此，先把文本输入到Encoder子模型中，将整个文本生成一个文本向量，将文本向量作为encoder-output输出到Decoder子模型中；Decoder子模型设置初始值，该Decoder子模型对该初始值与encoder-output进行解码得到向量片段output1，以及属性特征tmp1(这里，属性特征也可以通过向量来表示)；此时，将向量片段output1发送至声码器即可得到语音片段1。

进一步地，Decoder子模型对output1，tmp1以及encoder-output继续进行解码处理，得到output2和tmp2，并将output2发送至声码器即可得到语音片段2；依次循环，得到output n和tmp-n，将output n发送至声码器即可得到语音片段n，这样，直至遇到decoder-stop结束符时，跳出循环，当前语音合成流程结束，完成了整个流式输出。

这样，通过将Tacotron模型拆分为Encoder和Decode两个模型后，在tensorflow平台下，且在不损失语音质量的基础上，实现了流式解码、流式输出的目的，且该过程增加了合成输出的灵活性，满足了实时响应要求，且响应速度不会线性增长。

本申请实施例还提供了一种语音合成装置，如图3所示，所述装置包括：

获取单元31，用于获取到对待语音合成的目标文本进行编码处理后的文本向量，其中，所述文本向量至少能够表征所述目标文本的文本内容所对应的语序关联特征；获取到对所述文本向量进行解码处理后得到的第一向量片段，以及所述第一向量片段所对应的第一属性特征；其中，所述第一向量片段至少与所述文本向量中的部分文本内容相匹配；所述第一属性特征至少能够表征所述第一向量片段在所述目标文本的文本内容中所对应的语序位置特征；

处理单元32，用于对所述第一向量片段进行语音合成处理，得到并输出第一语音片段；至少基于所述文本向量，以及所述第一向量片段和所述第一属性特征所表征的语序位置特征，得到第二向量片段；其中，所述第二向量片段至少与所述文本向量中的部分文本内容相匹配；所述第二向量片段与所述第一向量片段之间的语序关系与所述文本向量所表征的语序关系特征相匹配。

在本申请一具体实施例中，所述处理单元32，还用于基于所述第二向量片段得到第二语音片段，其中，所述第一语音片段与第二语音片段之间的时序关系特征与所述文本向量所表征的语序关联特征相匹配。

在本申请一具体实施例中，所述获取单元31，还用于获取生成所述第一向量片段的时间信息；

所述处理单元32，还用于将生成的所述第一向量片段的时间信息记录于所述第一属性特征中；其中，利用所述第一属性特征所表征的时间信息能够确定出所述第一语音片段的时序特征。

在本申请一具体实施例中，所述处理单元32，还用于：

在本申请一具体实施例中，所述获取单元31，还用于获取生成所述第二向量片段的时间信息；

所述处理单元32，还用于将生成的所述第二向量片段的时间信息记录于所述第二向量片段所对应的第二属性特征中；其中，所述第二属性特征至少能够表征所述第二向量片段在所述目标文本的文本内容中所对应的语序位置特征；利用所述第二属性特征所表征的时间信息能够确定出所述第二语音片段的时序特征。

在本申请一具体实施例中，所述处理单元32，还用于至少基于第一语音片段以及第二语音片段，将所述文本向量转换为成的语音片段并按照时序特征输出。

这里需要指出的是：以上装置实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果，因此不做赘述。对于本发明装置实施例中未披露的技术细节，本领域的技术人员请参照本发明方法实施例的描述而理解，为节约篇幅，这里不再赘述。

本申请实施例还提供了一种语音合成设备，包括：一个或多个处理器；与所述一个或多个处理器通信连接的存储器；一个或多个应用程序；其中，所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序被配置为执行以上所述的方法。

在一具体示例中，本申请实施例所述的语音合成设备可具体为如图4所示的结构，所述语音合成设备至少包括处理器41、存储介质42以及至少一个外部通信接口43；所述处理器41、存储介质42以及外部通信接口43均通过总线44连接。所述处理器41可为微处理器、中央处理器、数字信号处理器或可编程逻辑阵列等具有处理功能的电子元器件。所述存储介质中存储有计算机可执行代码，所述计算机可执行代码能够执行以上任一实施例所述的方法。在实际应用中，所述获取单元31以及处理单元32均可以通过所述处理器41实现。

这里需要指出的是：以上语音合成设备实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果，因此不做赘述。对于本发明语音合成设备实施例中未披露的技术细节，本领域的技术人员请参照本发明方法实施例的描述而理解，为节约篇幅，这里不再赘述。

本申请实施例还提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现以上所述的方法。

这里，计算机可读存储介质可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

上述所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，基于所述第二向量片段能够得到第二语音片段，其中，所述第一语音片段与第二语音片段之间的时序关系特征与所述文本向量所表征的语序关联特征相匹配。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求2或4所述的方法，其特征在于，所述方法还包括：

7.一种语音合成装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述处理单元，还用于基于所述第二向量片段得到第二语音片段，其中，所述第一语音片段与第二语音片段之间的时序关系特征与所述文本向量所表征的语序关联特征相匹配。

9.一种语音合成设备，其特征在于，包括：

一个或多个处理器；

与所述一个或多个处理器通信连接的存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序被配置为执行权利要求1至6任一项所述的方法。

10.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至6中任一项所述的方法。