CN109767752A

CN109767752A - 一种基于注意力机制的语音合成方法及装置

Info

Publication number: CN109767752A
Application number: CN201910149065.5A
Authority: CN
Inventors: 房树明; 程宁; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2019-05-17
Anticipated expiration: 2039-02-27
Also published as: WO2020173134A1; CN109767752B

Abstract

本申请实施例提供了一种基于注意力机制的语音合成方法及装置，其中，一种基于注意力机制的语音合成方法，可包括：根据目标文本确定文本编码矩阵和音频编码矩阵；根据文本编码矩阵和音频编码矩阵，通过函数L(A)确定音频解码矩阵，其中，函数L(A)为根据A_nt以及W_nt确定的注意力机制损失函数；根据音频解码矩阵确定梅尔倒谱系数，并根据梅尔倒谱系数确定目标音频。本申请可以在目标文本的对齐强度小于对齐强度阈值时，使W_nt呈线性变化，不仅可以大大降低原注意力机制中的算法难度，而且可以在不需要常需要大量的样本数据和训练时间的情况下，保证将明显位置偏离的文本和语音信号进行强制对齐。

Description

一种基于注意力机制的语音合成方法及装置

技术领域

本申请涉及语音合成技术领域，尤其涉及一种基于注意力机制的语音合成方法及装置。

背景技术

语音合成是通过机械的、电子的方法产生人造语音的技术，又叫文语转换技术(Text to Speech，TTS)，TTS技术隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。现有的基于注意力机制语音合成技术中原来的算法能够使得注意力机制具有将明显位置偏离的文本和语音信号进行强制对齐的性质，但是复杂度太高，通常需要大量的样本数据和训练时间才能达到预期效果，所以如何在保证将明显位置偏离的文本和语音信号进行强制对齐的性质的情况下降低算法的难度，是目前要解决的问题。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于注意力机制的语音合成方法及装置。

第一方面，本申请实施例提供了一种基于注意力机制的语音合成方法，可包括：根据目标文本确定文本编码矩阵和音频编码矩阵；

根据文本编码矩阵和音频编码矩阵，通过函数L(A)确定音频解码矩阵，其中，函数L(A)为根据A_nt以及W_nt确定的注意力机制损失函数，其中，A_nt用于对所述文本编码矩阵进行转换，若目标文本的对齐强度小于对齐强度阈值，则W_nt呈线性变化；目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定，n大于0且小于或等于目标文本字符数，t大于0且小于或等于目标文本总发音的时间点；

根据音频解码矩阵确定梅尔倒谱系数，并根据梅尔倒谱系数确定目标音频。

通过第一方面提供的方法，可以根据目标文本的文本编码矩阵和音频编码矩阵通过函数L(A)确定音频解码矩阵后，进一步的根据音频解码矩阵确定梅尔倒谱系数，并根据梅尔倒谱系数确定目标音频。其中，函数L(A)为根据A_nt以及W_nt确定的注意力机制损失函数，其中，A_nt用于对所述文本编码矩阵进行转换，若目标文本的对齐强度小于对齐强度阈值，则W_nt呈线性变化；进一步的目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定。若在目标文本的对齐强度小于对齐强度阈值时，使W_nt呈线性变化，不仅可以大大降低原注意力机制中的算法难度，而且可以在不需要常需要大量的样本数据和训练时间的情况下，保证将明显位置偏离的文本和语音信号进行强制对齐，有助于更快地使得注意力机制矩阵达到近似对齐的目的，从而使得语音合成更加有条理。

在一种可能实现的方式中，根据目标文本确定文本编码矩阵和音频编码矩阵包括：获取目标文本，所述目标文本包括N个字符的文字；获取偏移音频，所述偏移音频包括所述目标文本的时长为T的音频；根据所述目标文本确定所述文本编码矩阵；根据所述偏移音频确定所述音频编码矩阵。

在一种可能实现的方式中，根据所述目标文本确定所述文本编码矩阵，根据所述偏移音频确定所述音频编码矩阵，包括：通过文本编码器，根据输入的所述目标文本X＝(x₁，x₂，…x_n…，x_N-1，x_N)确定所述文本编码矩阵P＝f(x₁，x₂，…x_n…，x_N-1，x_N)，其中，x_n为第n个文本，f(x_n)为输入的第n个文本x_n通过第一编码变换确定的文本编码；通过音频编码器，根据输入的所述偏移音频Y＝(y₁，y₂，…y_t…，y_T-1，y_T)确定所述音频编码矩阵Q＝g(y₁，y₂，…y_t…，y_T-1，y_T)，其中y_t为第n个文字在输入所述偏移音频的时长为t时的音频，g(y_t)为输入所述偏移音频的时长为t时的音频y_t通过第二编码变换确定的音频编码；所述音频解码矩阵包括：所述音频解码矩阵S＝(s₁，s₂，…s_n…，s_N-1，s_N)，其中s_n＝h(L(A),y₁，y₂，…y_t-1)，其中h为第一解码变换函数。

在一种可能实现的方式中，其中，为所述目标文本的对齐强度，θ为对齐强度阈值，N是所述目标文本的N个文字的字符总字符数，n是在N个文字中第n个字的字符数，T是所述目标文本的第N个文字发音时所在的时间点，t是第n个文字发音时所在的时间点。

在一种可能实现的方式中，对齐强度阈值θ为线性可调节，用于表示第n个文字所处位置与第n个文字发音的时间点t之间预设的对齐强度，且θ的取值范围为θ∈(0,1)。

在一种可能实现的方式中，根据所述文本编码矩阵和所述音频编码矩阵，通过函数L(A)确定音频解码矩阵之前，还包括：根据样本文本和样本语音做所述函数L(A)模型训练，确定所述函数L(A)的对齐强度阈值θ。

在一种可能实现的方式中，根据样本文本和样本语音做所述函数L(A)模型训练，确定所述函数L(A)的对齐强度阈值θ包括：按预设间隔设置θ从0到1进行自动变化；对每次变化后的θ，根据样本文本和样本语音做所述函数L(A)训练；确定在所述样本文本和所述样本语音的对齐强度达到第一阈值的情况下，所述语音合成所费时间最短的θ为对齐强度阈值θ。

第二方面，本申请实施例提供了一种基于注意力机制的语音合成装置，可包括：第一确定单元，用于根据目标文本确定文本编码矩阵和音频编码矩阵；

第二确定单元，用于根据文本编码矩阵和音频编码矩阵，通过函数L(A)确定音频解码矩阵，其中，函数L(A)为根据A_nt以及W_nt确定的注意力机制损失函数，其中，A_nt用于对所述文本编码矩阵进行转换，若目标文本的对齐强度小于对齐强度阈值，则W_nt呈线性变化；目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定，n大于0且小于或等于目标文本字符数，t大于0且小于或等于目标文本总发音的时间点；

第三确定单元，用于根据音频解码矩阵确定梅尔倒谱系数，并根据梅尔倒谱系数确定目标音频。

在一种可能实现的方式中，第一确定单元具体用于：获取目标文本，所述目标文本包括N个字符的文字；获取偏移音频，所述偏移音频包括所述目标文本的时长为T的音频；根据所述目标文本确定所述文本编码矩阵；根据所述偏移音频确定所述音频编码矩阵。

在一种可能实现的方式中，第二确定单元具体用于：通过文本编码器，根据输入的所述目标文本X＝(x₁，x₂，…x_n…，x_N-1，x_N)确定所述文本编码矩阵P＝f(x₁，x₂，…x_n…，x_N-1，x_N)，其中，x_n为第n个文本，f(x_n)为输入的第n个文本x_n通过第一编码变换确定的文本编码；通过音频编码器，根据输入的所述偏移音频Y＝(y₁，y₂，…y_t…，y_T-1，y_T)确定所述音频编码矩阵Q＝g(y₁，y₂，…y_t…，y_T-1，y_T)，其中y_t为第n个文字在输入所述偏移音频的时长为t时的音频，g(y_t)为输入所述偏移音频的时长为t时的音频y_t通过第二编码变换确定的音频编码；所述音频解码矩阵包括：所述音频解码矩阵S＝(s₁，s₂，…s_n…，s_N-1，s_N)，其中s_n＝h(L(A),y₁，y₂，…y_t-1)，其中h为第一解码变换函数。

在一种可能实现的方式中，θ为线性可调节的对齐强度阈值，用于表示第n个文字所处位置与第n个文字发音的时间点t之间预设的对齐强度，且θ的取值范围为θ∈(0,1)。

在一种可能实现的方式中，所述装置还包括第四确定单元，用于在根据所述文本编码矩阵和所述音频编码矩阵，通过函数L(A)确定音频解码矩阵之前，根据样本文本和样本语音做所述函数L(A)模型训练，确定所述函数L(A)的对齐强度阈值θ。

在一种可能实现的方式中，所述第四确定单元具体用于：按预设间隔设置θ从0到1进行自动变化；对每次变化后的θ，根据样本文本和样本语音做所述函数L(A)训练；确定在所述样本文本和所述样本语音的对齐强度达到第一阈值的情况下，所述语音合成所费时间最短的θ为对齐强度阈值θ。

第三方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有程序指令，该程序指令当被处理器运行时，该处理器执行上述第一方面的方法。

第四方面，本申请实施例提供了一种基于注意力机制的语音合成装置，包括存储组件，处理组件和通信组件，存储组件，处理组件和通信组件相互连接，其中，存储组件用于存储数据处理代码，通信组件用于与外部设备进行信息交互；处理组件被配置用于调用程序代码，执行第一方面所述的方法，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1是本申请实施例提供的一种基于注意力机制的语音合成系统架构的示意图；

图2是本申请实施例提供的一种合成语音时的终端界面示意图；

图3A是本申请实施例提供的一种基于注意力机制的语音合成方法流程的示意图；

图3B是本申请实施例提供的基于一种改进的基于注意力机制的语音合成技术方法框架示意图；

图4是本申请实施例提供的另一种基于注意力机制的语音合成方法流程的示意图；

图5是本申请实施例提供的一种基于注意力机制的语音合成装置的结构示意图；

图6是本申请实施例提供的一种简化的基于注意力机制的语音合成装置的实体装置结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例进行描述。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在本申请中使用的术语“服务器”、“单元”、“系统”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如，服务器可以是但不限于，处理器，数据处理平台，计算设备，计算机，两个或更多个计算机等。

首先，对本申请中的部分用语进行解释说明，以便于本领域技术人员理解。

(1)语音合成，语音合成是将一段文字输入进去输出与文字对应的一段语音，也是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

(2)注意力机制，注意力机制(Attention Mechanism)源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息。上述机制通常被称为注意力机制。人类视网膜不同的部位具有不同程度的信息处理能力，即敏锐度(Acuity)，只有视网膜中央凹部位具有最强的敏锐度。为了合理利用有限的视觉信息处理资源，人类需要选择视觉区域中的特定部分，然后集中关注它。例如，人们在阅读时，通常只有少量要被读取的词会被关注和处理。综上，注意力机制主要有两个方面：决定需要关注输入的哪部分；分配有限的信息处理资源给重要的部分。

(3)短时距傅里叶变换，短时距傅里叶变换是傅里叶变换的一种变形，用于决定随时间变化的信号局部部分的正弦频率和相位。实际上，计算短时傅里叶变换(STFT)的过程是将长时间信号分成数个较短的等长信号，然后再分别计算每个较短段的傅里叶变换。通常拿来描绘频域与时域上的变化，为时频分析中其中一个重要的工具。

其次，对本申请实施例所基于的其中一种基于注意力机制的语音合成系统架构进行描述。请参考附图1，图1是本申请实施例提供的一种基于注意力机制的语音合成系统架构的示意图，包括：基于注意力机制的语音合成装置101和终端装置102。

基于注意力机制的语音合成装置101，可以是服务器，其中服务器可以是但不限于，处理器，数据处理平台，计算设备，计算机，两个或更多个计算机等。例如当基于注意力机制的语音合成装置101为服务器时，服务器是一种通过获取、处理、分析和提取有价值的、海量和多样化数据，以交互数据为基础，为第三方使用带来各种便利的服务设备。基于注意力机制的语音合成装置101可以根据目标文本确定文本编码矩阵和音频编码矩阵；根据文本编码矩阵和音频编码矩阵，通过函数L(A)确定音频解码矩阵，其中，函数L(A)为根据A_nt以及W_nt确定的注意力机制损失函数，其中，A_nt用于对所述文本编码矩阵进行转换，若目标文本的对齐强度小于对齐强度阈值，则W_nt呈线性变化；目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定，n大于0且小于或等于目标文本字符数，t大于0且小于或等于目标文本总发音的时间点；根据音频解码矩阵确定梅尔倒谱系数，并根据梅尔倒谱系数确定目标音频。

终端装置102可以是通信终端、便携式终端、移动设备、用户终端、移动终端、无线通信设备、用户代理、用户装置、服务设备或用户设备(User Equipment，UE)等计算机网络中处于网络最外围的设备，主要用于数据的输入以及处理结果的输出或显示等，也可以是安装于或运行于上述任一一设备上的软件客户端、应用程度等。例如，客户端可以是目标用户或当前租赁用户所使用的智能手机、电脑、平板设备，或安装于或运行于智能手机、电脑、平板设备上的软件客户端、应用程度等。请见附图2，图2是本申请实施例提供的一种合成语音时的终端界面示意图。当终端装置102为电脑时，可以用于向基于注意力机制的语音合成装置101发送目标文本，接收并播放基于注意力机制的语音合成装置101发送的目标音频。

可以理解的是，基于注意力机制的语音合成装置101可以同时接收多个不同终端装置102发送的不同的目标文本。

参考附图3A，图3A是本申请实施例提供的一种基于注意力机制的语音合成方法流程的示意图。可应用于上述图1中的系统，下面将结合图3A以执行主体是基于注意力机制的语音合成装置101为例，从基于注意力机制的语音合成装置101的单侧进行描述。该方法可以包括以下步骤S301-步骤S303。

步骤S301：根据目标文本确定文本编码矩阵和音频编码矩阵。

具体地，根据目标文本确定文本编码矩阵和音频编码矩阵可以包括通过文本编码器Encoder，根据输入的所述目标文本X＝(x₁，x₂，…x_n…，x_N-1，x_N)确定所述文本编码矩阵P＝f(x₁，x₂，…x_n…，x_N-1，x_N)，其中，x_n为第n个文本，f(x_n)为输入的第n个文本x_n通过第一编码变换确定的文本编码；通过音频编码器Encoder，根据输入的所述偏移音频Y＝(y₁，y₂，…y_t…，y_T-1，y_T)确定所述音频编码矩阵Q＝g(y₁，y₂，…y_t…，y_T-1，y_T)，其中y_t为第n个文字在输入所述偏移音频的时长为t时的音频，g(y_t)为输入所述偏移音频的时长为t时的音频y_t通过第二编码变换确定的音频编码。可以理解的：文本编码是对输入目标文本X进行编码，将输入文本通过非线性变换转化为中间语义表示P，此过程即为文本编码。

可选的，根据目标文本确定文本编码矩阵和音频编码矩阵之前可以获取目标文本，所述目标文本包括N个字符的文字；获取偏移音频，所述偏移音频包括所述目标文本的时长为T的音频；再根据所述目标文本确定所述文本编码矩阵；根据所述偏移音频确定所述音频编码矩阵。举例来说：获取目标文本可以为接收用户输入的样本文本“平安科技技术有限公司”，对输入的文本进行字序标注，每个句子中的字体位置表示为向量X＝(x₁，x₂，…x_n…，x_N-1，x_N)，N为源句子长度，其中x_n为文本中第n个字字符的文本。获取偏移音频可以为根据所述目标文本，在语音库中匹配与所述目标文本相对应的音频，确定所述偏移音频。例如：样本文本“平安科技技术有限公司”可以在语音库中分别匹配“平”、“安”、“科”、“技”、“技”、“术”、“有”、“限”、“公”、“司”十个文字的对应音频，并组成偏移音频。其中，所述语音库可以包括文本与该文本发音音频的映射关系获取偏移音频还可以为接收输入的时长为T＝5s的偏移音频“平安科技技术有限公司”的偏移音频。其中，可以为每个目标文本中的句子的发音表示为向量Y＝(y₁，y₂，…y_t…，y_T-1，y_T)，T为目标字体的发音的时间长，其中y_t为句子中第n个字的发音的时间帧t时的音频。可以理解的是，获取目标文本，所述目标文本包括N个字符的文字；获取偏移音频，所述偏移音频包括所述目标文本的时长为T的音频；根据所述目标文本确定所述文本编码矩阵；根据所述偏移音频确定所述音频编码矩阵，四个步骤的先后顺序并不做具体限定。举例来说：可以首先获取目标文本，根据所述目标文本确定所述文本编码矩阵后，再获取偏移音频，最后根据所述偏移音频确定所述音频编码矩阵。

步骤S302：根据文本编码矩阵和音频编码矩阵，通过函数L(A)确定音频解码矩阵。

具体地，对于音频解码矩阵来说可以利用解码器Decoder获得，即对于解码器Decoder来说，其任务是根据文本编码矩阵获得的文本X的中间语义表示P和音频编码矩阵获得的音频表示Q＝g(y₁，y₂，…y_t…，y_T-1，y_T)来生成t时刻要生成的音频y_t，即所述音频解码矩阵。所述音频解码矩阵S＝(s₁，s₂，…s_n…，s_N-1，s_N)，其中s_n＝h(L(A),y₁，y₂，…y_t-1)，其中h为第一解码变换函数。请参见图3，图3B是本申请实施例提供的基于一种改进的基于注意力机制的语音合成技术方法框架示意图，包括：文本编码模块、音频编码模块、注意力矩阵模块、音频解码模块和短时傅里叶频谱模块。其中，目标文本和偏移音频分别从文本编码模块和音频编码模块输入，获得对应的文本解码矩阵和音频解码矩阵，将所述音频解码矩阵与文本解码矩阵经注意力强制对齐后与所述文本解码矩阵输入音频解码模块中，得到与所述目标文本对应的目标音频。可以理解的，Encoder-Decoder是个非常通用的计算框架，至于Encoder和Decoder具体使用什么模型函数即都不做限定，举例来说：卷积神经网络CNN/循环神经网络RNN/双向长短时记忆循环神经网络BiRNN/门控循环单元GRU/长短期记忆网络LSTM等等，都可以做Encoder和Decoder的模型函数。

可选的，函数L(A)为根据A_nt以及W_nt确定的注意力机制损失函数，其中，A_nt用于对所述文本编码矩阵进行转换，若目标文本的对齐强度小于对齐强度阈值，则W_nt呈线性变化；目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定，n大于0且小于或等于目标文本字符数，t大于0且小于或等于目标文本总发音的时间点。预设函数L(A)可以为举例来说：函数L(A)应用于图3B所述注意力机制模块中的注意力机制矩阵A，A∈R^N×T，其意义为评估第n次字符和T时间的对应关系，即第n个字符第1和第t个时间帧S_1:F,t是相关的，其中A_nt可以为意味着注意力机制模块在时间t处查看第n个字符，它将在随后的时间t+1处查看第n个字符或第n+1个字符或它们周围的字符，其中d为与文本长度相关的预设参数。即L(A)可以通过注意力机制，使用LSTM标准函数归一化指数函数(Softmax函数)去获得在训练过程中第n个字符声音特征的权重，然后进行求和后归一化，。

可选的，其中，为所述目标文本的对齐强度，θ为对齐强度阈值，N是所述目标文本的N个文字的字符总字符数，n是在N个文字中第n个字的字符数，T是所述目标文本的第N个文字发音时所在的时间点，t是第n个文字发音时所在的时间点。W_nt与所述目标文本对齐强度有关的分段函数，若目标文本的对齐强度小于对齐强度阈值，则W_nt随目标文本的增大而减小。

步骤S303：根据音频解码矩阵确定梅尔倒谱系数，并根据梅尔倒谱系数确定目标音频。

具体地，根据音频解码矩阵确定梅尔倒谱系数，并根据梅尔倒谱系数确定目标音频具体为：根据音频解码矩阵确定梅尔倒谱系数，并将梅尔倒谱系数，进行短时傅里叶变换，再根据短时傅里叶频谱，确定目标音频。在声音处理领域中，梅尔频率倒谱(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)就是组成梅尔频率倒谱的系数。它衍生自音讯片段的倒频谱(cepstrum)。倒谱和梅尔频率倒谱的区别在于，梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的，它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。这样的非线性表示，可以在多个领域中使声音信号有更好的表示。举例来说，所述确定对应的梅尔倒谱系数，可以为先对音频解码矩阵的语音进行预加重、分帧和加窗；对每一个短时分析窗，可以通过离散傅氏变换的快速算法(Fast Fourier Transformation，FFT)得到对应的频谱；将上述频谱通过梅尔滤波器组得到梅尔频谱(Mel频谱)。其中，公式表述可以为：log X[k]＝log(Mel-Spectrum)。因此我们可以在log X[k]上进行倒谱分析：1)取对数：log X[k]＝log H[k]+log E[k]；2)进行逆变换：x[k]＝h[k]+e[k]。在Mel频谱上面获得的倒谱系数h[k]就称为梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)。根据梅尔倒谱系数确定目标音频，可以包括将梅尔倒谱系数转换为短时傅里叶频谱，可以得到一个随着时间变化的频谱图，所述频谱图这个就是描述语音信号的spectrogram声谱图，声谱图中可以表示目标音频。可以理解的是，本发明实施例对根据梅尔倒谱系数确定目标音频的方式不做具体限定。

实施本申请实施例，可以根据目标文本的文本编码矩阵和音频编码矩阵通过函数L(A)确定音频解码矩阵后，进一步的根据音频解码矩阵确定梅尔倒谱系数，并根据梅尔倒谱系数确定目标音频。其中，函数L(A)为根据A_nt以及W_nt确定的注意力机制损失函数，其中，A_nt用于对所述文本编码矩阵进行转换，若目标文本的对齐强度小于对齐强度阈值，则W_nt呈线性变化；进一步的目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定。因此，在目标文本的对齐强度小于对齐强度阈值时，W_nt呈线性变化不仅可以大大降低原注意力机制中的算法难度，而且可以保证将明显位置偏离的文本和语音信号进行强制对齐，有助于更快地使得注意力机制矩阵达到近似对齐的目的，从而使得语音合成更加有条理。

参考附图4，图4是本申请实施例提供的另一种基于注意力机制的语音合成方法流程的示意图。可应用于上述图1中的系统，下面将结合图4从基于注意力机制的语音合成装置101的单侧进行描述。该方法可以包括以下步骤S401-步骤S403。

步骤S401：根据样本文本和样本语音做函数L(A)模型训练，确定函数L(A)的对齐强度阈值θ。

具体地，按预设间隔设置θ从0到1进行自动变化；对每次变化后的θ，根据样本文本和样本语音做所述函数L(A)训练；确定在所述样本文本和所述样本语音的对齐强度达到第一阈值的情况下，所述语音合成所费时间最短的θ为对齐强度阈值θ。举例来说，本申请实施例可应用于基于导向性注意力机制的语音合成的场景中，在语音合成建模过程中，文字和音频信号片段的位置有着大致的关联性。因此，当一个人说一句话的时候，文字所处的位置n与所在的时间点t有着近似的线性关系，即n～at，其中，a～N/T。进一步的将这样一个先验知识纳入到语音合成的注意力机制中。还可以先确定θ使字体位置和语音时间的对应强度较强的阈值范围，再按照预设间隔在其阈值范围进行自动变化，对每次变化后的θ，根据样本文本和样本语音做所述函数L(A)训练，所获得的训练后的θ可以更好地使字体位置和语音时间的对应强度越强。可以理解的是，本申请实施例对确定函数L(A)的对齐强度阈值θ的方法，不做具体限定。可选的，θ为线性可调节的对齐强度阈值，用于表示第n个文字所处位置与第n个文字发音的时间点t之间预设的对齐强度，且θ的取值范围为θ∈(0,1)。当当阈值θ越接近零时，说明其获得的字体位置和语音时间的对应强度越强，及语音与文字的对应强度越高。

步骤S402：根据目标文本确定文本编码矩阵和音频编码矩阵。

步骤S403：根据文本编码矩阵和音频编码矩阵，通过函数L(A)确定音频解码矩阵。

步骤S404：根据音频解码矩阵确定梅尔倒谱系数，并根据梅尔倒谱系数确定目标音频。

具体地，上述对步骤S402-步骤S404的相关描述可以对应参照图3的步骤S301-步骤S303的相关描述，此处不再赘述。

实施本申请实施例，可以先对函数L(A)的模型做样本训练，再根据目标文本的文本编码矩阵和音频编码矩阵通过函数L(A)确定音频解码矩阵后，进一步的根据音频解码矩阵确定梅尔倒谱系数，并根据梅尔倒谱系数确定目标音频。其中，函数L(A)为根据A_nt以及W_nt确定的注意力机制损失函数，其中，A_nt用于对所述文本编码矩阵进行转换，若目标文本的对齐强度小于对齐强度阈值，则W_nt呈线性变化；进一步的目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定。通过训练阈值θ的大小，确定在当阈值θ越接近零，目标文本的对齐强度越接近于阈值θ的时候，证明其字体位置和语音时间的对应强度越强，及语音与文字的对应强度越高。所以通过改进的注意力机制模型的语音合成技术，可以在保证将明显位置偏离的文本和语音信号进行强制对齐的性质的同时，降低算法的难度，大大减少了语音合成的时间。因此，在目标文本的对齐强度小于对齐强度阈值时，W_nt呈线性变化不仅可以大大降低原注意力机制中的算法难度，而且可以保证将明显位置偏离的文本和语音信号进行强制对齐，有助于更快地使得注意力机制矩阵达到近似对齐的目的，从而使得语音合成更加有条理。

总的来说，本申请可以根据目标文本的文本编码矩阵和音频编码矩阵通过函数L(A)确定音频解码矩阵后，进一步的根据音频解码矩阵确定梅尔倒谱系数，并根据梅尔倒谱系数确定目标音频。而注意力机制损失函数L(A)随在目标文本的对齐强度的变化而变化，当对齐强度阈值时，因W_nt呈线性变化，通过调整损失函数W_nt的计算方式，使得注意力机制矩阵的损失函数，具有线性可调节的θ阈值，使得损失函数变为线性，此时不仅可以大大降低原注意力机制中的算法难度，可以在不需要常需要大量的样本数据和训练时间的情况下，保证将明显位置偏离的文本和语音信号进行强制对齐。

上述详细阐述了本申请实施例的方法，下面提供了与本申请实施例的相关基于注意力机制的语音合成装置，基于注意力机制的语音合成装置可以是一种通过快速获取、处理、分析和提取有价值的数据，以交互数据为基础，为第三方使用带来各种便利的服务设备。请参考附图5，图5是本申请实施例提供的一种基于注意力机制的语音合成装置的结构示意图。可以包括第一确定单元501、第二确定单元502、第三确定单元503，还可以包括第四确定单元504。

第一确定单元501，用于根据目标文本确定文本编码矩阵和音频编码矩阵；

第二确定单元502，用于根据文本编码矩阵和音频编码矩阵，通过函数L(A)确定音频解码矩阵，其中，函数L(A)为根据A_nt以及W_nt确定的注意力机制损失函数，其中，A_nt用于对所述文本编码矩阵进行转换，若目标文本的对齐强度小于对齐强度阈值，则W_nt呈线性变化；目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定，n大于0且小于或等于目标文本字符数，t大于0且小于或等于目标文本总发音的时间点；

第三确定单元503，用于根据音频解码矩阵确定梅尔倒谱系数，并根据梅尔倒谱系数确定目标音频。

在一种可能实现的方式中，第一确定单元501具体用于：获取目标文本，所述目标文本包括N个字符的文字；获取偏移音频，所述偏移音频包括所述目标文本的时长为T的音频；根据所述目标文本确定所述文本编码矩阵；根据所述偏移音频确定所述音频编码矩阵。

在一种可能实现的方式中，第二确定单元502具体用于：通过文本编码器，根据输入的所述目标文本X＝(x₁，x₂，…x_n…，x_N-1，x_N)确定所述文本编码矩阵P＝f(x₁，x₂，…x_n…，x_N-1，x_N)，其中，x_n为第n个文本，f(x_n)为输入的第n个文本x_n通过第一编码变换确定的文本编码；通过音频编码器，根据输入的所述偏移音频Y＝(y₁，y₂，…y_t…，y_T-1，y_T)确定所述音频编码矩阵Q＝g(y₁，y₂，…y_t…，y_T-1，y_T)，其中y_t为第n个文字在输入所述偏移音频的时长为t时的音频，g(y_t)为输入所述偏移音频的时长为t时的音频y_t通过第二编码变换确定的音频编码；所述音频解码矩阵包括：所述音频解码矩阵S＝(s₁，s₂，…s_n…，s_N-1，s_N)，其中s_n＝h(L(A),y₁，y₂，…y_t-1)，其中h为第一解码变换函数。

在一种可能实现的方式中，所述装置还包括第四确定单元504，用于在根据所述文本编码矩阵和所述音频编码矩阵，通过函数L(A)确定音频解码矩阵之前，根据样本文本和样本语音做所述函数L(A)模型训练，确定所述函数L(A)的对齐强度阈值θ。

在一种可能实现的方式中，所述第四确定单元504具体用于：按预设间隔设置θ从0到1进行自动变化；对每次变化后的θ，根据样本文本和样本语音做所述函数L(A)训练；确定在所述样本文本和所述样本语音的对齐强度达到第一阈值的情况下，所述语音合成所费时间最短的θ为对齐强度阈值θ。

请参考附图6，图6是本申请实施例提供的一种简化的基于注意力机制的语音合成装置的实体装置结构示意图，便于理解和图示方便，图6装置60中，可以包括以下一个或多个组件：存储组件601，处理组件602，通信组件603。

存储组件601可以包括一个或多个存储单元，每个单元可以包括一个或多个存储器，存储组件可用于存储程序和各种数据，并能在装置60运行过程中高速、自动地完成程序或数据的存取。可以采用具有两种稳定状态的物理器件来存储信息，所述两种稳定状态分别表示为“0”和“1”。当图6所示的装置60，为图1所述基于注意力机制的语音合成装置时，存储组件可以用来存储目标文本、目标音频以及其他相关数据等。

处理组件602，处理组件也可以称为处理器，处理单元，处理单板，处理模块、处理装置等。处理组件可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)或者CPU和NP的组合。当图6所示的装置60，为图1所述基于注意力机制的语音合成装置时，所述处理组件603用于调用所述存储组件601的数据执行上述图3A至图4所述方法的相关描述，此处不再赘述。

通信组件603，也可以称为收发机，或收发器等，其中可以包括用来进行无线、有线或其他通信方式的单元。可选的，可以将603部分中用于实现接收功能的器件视为接收单元，将用于实现发送功能的器件视为发送单元，即603部分可以接收目标文本或发送目标音频。

需要说明的是，各个操作的具体实现还可以对应参照图3A、图4所示的方法实施例的相应描述，此处不再赘述。

本发明实施例还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时包括上述方法实施例中记载的任意一种的部分或全部步骤。

本发明实施例还提供一种计算机程序，该计算机程序包括指令，当该计算机程序被计算机执行时，使得计算机可以执行任意一种基于注意力机制的语音合成方法的部分或全部步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如数字多功能光盘(digital versatile disc，DVD)、半导体介质(例如固态硬盘solid state disk，SSD)等。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请中，所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能组件可以集成在一个组件也可以是各个组件单独物理存在，也可以是两个或两个以上组件集成在一个组件中。上述集成的组件既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。尽管在此结合各实施例对本申请进行了描述，然而，在实施例所要求保护的本申请过程中，本领域技术人员可理解并实现公开实施例的其他变化。

Claims

1.一种基于注意力机制的语音合成方法，其特征在于，包括：

根据目标文本确定文本编码矩阵和音频编码矩阵；

根据所述文本编码矩阵和所述音频编码矩阵，通过函数L(A)确定音频解码矩阵，其中，所述函数L(A)为根据A_nt以及W_nt确定的注意力机制损失函数，其中，A_nt用于对所述文本编码矩阵进行转换，若所述目标文本的对齐强度小于对齐强度阈值，则W_nt呈线性变化；所述目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定；

根据所述音频解码矩阵确定梅尔倒谱系数，并根据所述梅尔倒谱系数确定目标音频。

2.根据权利要求1所述方法，其特征在于，所述根据目标文本确定文本编码矩阵和音频编码矩阵包括：

获取目标文本，所述目标文本包括N个字符的文字；

获取偏移音频，所述偏移音频包括所述目标文本的时长为T的音频；

根据所述目标文本确定所述文本编码矩阵；

根据所述偏移音频确定所述音频编码矩阵。

3.根据权利要求2所述方法，其特征在于，所述根据所述目标文本确定所述文本编码矩阵，根据所述偏移音频确定所述音频编码矩阵，包括：

通过文本编码器，根据输入的所述目标文本X＝(x₁，x₂，…x_n…，x_N-1，x_N)确定所述文本编码矩阵P＝f(x₁，x₂，…x_n…，x_N-1，x_N)，其中，x_n为第n个文本，f(x_n)为输入的第n个文本x_n通过第一编码变换确定的文本编码；

通过音频编码器，根据输入的所述偏移音频Y＝(y₁，y₂，…y_t…，y_T-1，y_T)确定所述音频编码矩阵Q＝g(y₁，y₂，…y_t…，y_T-1，y_T)，其中y_t为第n个文字在输入所述偏移音频的时长为t时的音频，g(y_t)为输入所述偏移音频的时长为t时的音频y_t通过第二编码变换确定的音频编码；

所述音频解码矩阵包括：所述音频解码矩阵S＝(s₁，s₂，…s_n…，s_N-1，s_N)，其中s_n＝h(L(A)，y₁，y₂，…y_t-1)，其中h为第一解码变换函数。

4.根据权利要求1所述方法，其特征在于，对齐强度阈值θ为线性可调节，用于表示第n个文字所处位置与第n个文字发音的时间点t之间预设的对齐强度，且θ的取值范围为θ∈(0,1)。

5.根据权利要求1所述方法，其特征在于，所述根据所述文本编码矩阵和所述音频编码矩阵，通过函数L(A)确定音频解码矩阵之前，还包括：

根据样本文本和样本语音做所述函数L(A)模型训练，确定所述函数L(A)的对齐强度阈值θ。

6.根据权利要求1-5任一项所述方法，其特征在于，

所述其中，为所述目标文本的对齐强度，θ为对齐强度阈值，N是所述目标文本的N个文字的字符总字符数，n是在N个文字中第n个字的字符数，T是所述目标文本的第N个文字发音时所在的时间点，t是第n个文字发音时所在的时间点。

7.根据权利要求5所述方法，其特征在于，所述根据样本文本和样本语音做所述函数L(A)模型训练，确定所述函数L(A)的对齐强度阈值θ包括：

按预设间隔设置θ从0到1进行自动变化；

对每次变化后的θ，根据样本文本和样本语音做所述函数L(A)训练；

确定在所述样本文本和所述样本语音的对齐强度达到第一阈值的情况下，所述语音合成所费时间最短的θ为对齐强度阈值θ。

8.一种基于注意力机制的语音合成装置，其特征在于，包括：

第一确定单元，用于根据目标文本确定文本编码矩阵和音频编码矩阵；

第二确定单元，用于根据所述文本编码矩阵和所述音频编码矩阵，通过函数L(A)确定音频解码矩阵，其中，所述函数L(A)为根据A_nt以及W_nt确定的注意力机制损失函数，其中，A_nt用于对所述文本编码矩阵进行转换，若所述目标文本的对齐强度小于对齐强度阈值，则W_nt呈线性变化；所述目标文本的对齐强度由所述目标文本中第n个文字所处位置和所述目标文本中第n个文字发音的时间点t确定；

第三确定单元，用于根据所述音频解码矩阵确定梅尔倒谱系数，并根据所述梅尔倒谱系数确定目标音频。

9.一种基于注意力机制的语音合成装置，其特征在于，包括处理组件、存储组件和通信模组件，处理组件、存储组件和通信组件相互连接，其中，存储组件用于存储数据处理代码，通信组件用于与外部设备进行信息交互；处理组件被配置用于调用程序代码，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1至7任意一项所述的方法。