CN115223539A

CN115223539A - 一种豪萨语语音合成方法及系统

Info

Publication number: CN115223539A
Application number: CN202110343409.3A
Authority: CN
Inventors: 刘刚; 龚科; 张硕
Original assignee: DMAI Guangzhou Co Ltd
Current assignee: DMAI Guangzhou Co Ltd
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2022-10-21

Abstract

本发明公开了一种豪萨语语音合成方法及系统，将输入的豪萨语文本进行多音字消歧处理后，输入到豪萨语声学模型中，得到豪萨语语音对应的频谱特征；将频谱特征输入到豪萨语声码器中，将频谱特征映射为语音。通过用户输入的豪萨语文本进行前端处理，利用语言的上下文语义使用条件随机场度量单词声调与单词声调间的联系，整个识别模型结构简单，模型参数量较少，易于部署在云端或者移动端的设备上，对于输入的豪萨文本能快速准确地计算出识别结果，提高了后续合成的准确率，针对端对端和移动端不同的应用场景，选取了不同的声学模型和声码器的组合，提升豪萨语语音合成的准确性，自然度以及合成效率，可以应用到豪萨语语境下的各类语音交互场景。

Description

一种豪萨语语音合成方法及系统

技术领域

本发明涉及语音合成领域，具体涉及一种豪萨语语音合成方法及系统。

背景技术

语音作为人类信息传递的载体，与人们的生活密不可分。随着移动互联网以及语音处理技术的高速发展，语音在我们的生活中扮演着越来越重要的角色。语音合成技术是语音处理技术中最核心的技术之一，旨在将任意文本转换成语音，在人机交互中必不可少。语音合成系统包含前端和后端两个模块：前端模块通常是对文本进行分析，获取文字的发音及韵律等，对于带声调的语音，例如汉语和大多数的非洲语言，前端处理模块还需获取文本的声调。后端模块主要对声音建模，得到文本一系列的声学特征从而进一步得到声音的波形。

豪萨语是非洲的三大语言之一，在西非地区被广泛使用。豪萨语也是一种声调语言，不同的声调包含不同的语义及发音，但在正式书写时声调并不会明确标出。在豪萨语里，每个元音字母(a,e,i,o,u)都可能有三种声调：低声调、高声调或者降声调，另外，元音发音的长短也表示不同的语义及发音，因此，一个豪萨语单词可能包含多个声调。豪萨语语音合成是指将豪萨语文本转换为对应的语音，因此必须要解决的问题的是确定豪萨文本中每个单词的声调。然而声调往往是跟文本的上下文语义相关的，一个单词在不同的语义下可能具有不同的声调，依据手写的规则很难覆盖所有的情况以准确的确定每个单词的声调，这使得豪萨语的声调识别是一项极具挑战的任务。

近些年来，随着深度学习的发展，语音合成方法越来越多，除英文之外，不同语种如中文，英文，日文，韩文等的语音合成系统都得到了广泛的应用。豪萨语作为非洲的重要语言，使用人数众多，但仍缺乏面向豪萨语的语音合成方法及系统。

发明内容

因此，为了克服现有的技术中缺乏针对豪萨语的语音合成方法和系统的缺陷，本发明提供一种豪萨语语音合成方法及系统。

为达到上述目的，本发明提供如下技术方案：

第一方面，本发明实施例提供一种豪萨语语音合成方法，包括:将输入的豪萨语文本进行多音字消歧处理；

将处理后的豪萨语文本输入到豪萨语声学模型中，得到豪萨语语音对应的频谱特征；

将所述频谱特征输入到豪萨语声码器中，将所述频谱特征映射为语音。

优选地，对豪萨语文本进行多音字消歧处理的过程，包括：

将豪萨语文本输入到深度神经网络输出每个单词的声调得分，并通过解码模块得到最优的声调识别结果，所述深度神经网络包括：词向量模块、上下文语义提取模块、全连接层、条件随机场模块，其中：

将待识别的豪萨语文本，通过词向量模块获取文本中每个单词预训练好的词向量，将得到的词向量送入上下文语义提取模块得到每个单词包含上下文信息的语义表示，在得到每个单词带有上下文语义信息的表示后，将每个单词的表示送入全连接层，得到在每个声调上的得分，通过条件随机场得到各声调之间的转移得分后，结合之前计算的各单词在各声调上的得分，使用解码模块解码出对于整个文本最优的声调识别结果。

优选地，所述上下文语义提取模块由一层的双向长短时记忆网络组成。

优选地，所述解码模块采用维特比算法计算豪萨语文本得分最大的声调序列。

优选地，豪萨语声学模块模型采用序列到序列带注意力机制的生成模型Tacotron2，包括编码器，解码器以及后处理网络三个子模块；其中，编码器模块将输入的豪萨语文本处理为带有上下文信息的文本特征，解码器负责将这些文本特征映射为对应的频谱特征，后处理网络起到补充频谱特征中细节的作用；豪萨语声码器采用WaveNet或MelGAN。

优选地，所述豪萨语声学模型采用按预设压缩比例进行压缩后的Tacotron 2，豪萨语声码器选择Griffin-Lim或者神经网络声码器Squeeze_wave。。

优选地，所述Tacotron2包括编码器encoder、解码器decoder及注意力模块attention，其中，编码器encoder包括：1层嵌入层、3层卷积层，1层双向长短期记忆层；解码器decoder包括：2层全连接层，2层单向长短期记忆层，1层映射层以及5层卷积层，将编码器encoder、解码器decoder中的卷积层的filter数量和LSTM以及全连接层的hidden units数量压缩到原来的50％作为声学模型的网络结构。

第二方面，本发明实施例提供一种豪萨语语音合成系统，包括：

豪萨语前端处理模块，用于将输入的豪萨语文本分别进行多音字消歧处理和数字处理；

豪萨语声学模型模块，用于将处理后的豪萨语文本输入到豪萨语声学模型中，得到豪萨语语音对应的频谱特征；

豪萨语声码器模块，用于将所述频谱特征输入到豪萨语声码器中，将所述频谱特征映射为语音。

第三方面，本发明实施例提供一种计算机设备，包括：至少一个处理器，以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器执行本发明实施例第一方面所述的豪萨语语音合成方法。

第四方面，本发明实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使计算机执行第一方面所述的豪萨语语音合成方法。。

本发明技术方案，具有如下优点：

本发明实施例提供的豪萨语语音合成方法及系统，将输入的豪萨语文本进行多音字消歧处理；将处理后的豪萨语文本输入到豪萨语声学模型中，得到豪萨语语音对应的频谱特征；将频谱特征输入到豪萨语声码器中，将所述频谱特征映射为语音。通过用户输入的豪萨语文本进行前端处理，利用语言的上下文语义，使用条件随机场度量单词声调与单词声调间的联系，整个识别模型结构简单，模型参数量较少，易于部署在云端或者移动端的设备上，对于输入的豪萨文本能快速准确地计算出识别结果，提高了后续合成的准确率，针对端对端和移动端不同的应用场景，选取了不同的声学模型和声码器的组合，能够满足对应的需求，提升豪萨语语音合成的准确性，自然度以及合成效率，可以应用到豪萨语语境下的各类语音交互场景。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中提供的豪萨语语音合成方法的一个示例的流程图；

图2为本发明实施例中提供的件随机场学习每个声调与每个声调之间的转移得分的示意图；

图3为本发明实施例中提供的豪萨语语音合成系统一个示例的模块组成图；

图4为本发明实施例提供的计算机设备一个具体示例的组成图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本发明实施例提供一种豪萨语语音合成方法，可以应用于端对端和移动端的豪萨语语音合成应用场景，如图1所示，包括:

步骤S1:将输入的豪萨语文本进行多音字消歧处理。

具体地，将豪萨语文本输入到深度神经网络输出每个单词的声调得分，并通过解码模块得到最优的声调识别结果，所述深度神经网络包括：词向量模块、上下文语义提取模块、全连接层、条件随机场模块，其中：

将待识别的豪萨语文本，通过词向量模块获取文本中每个单词预训练好的词向量(词向量的预训练过程采用目前通用的方法，即将大量的豪萨语文本送入GPT等语言模型中进行训练，最终能得到每个单词的富有语义的词向量，在此不作具体描述)，将得到的词向量送入上下文语义提取模块(由一层的双向长短时记忆网络BiLSTM组成，相比于单向的LSTM，BiLSTM拼接前向和后向计算得到的隐状态，能同时捕获前向和后向的信息，更有效的提取上下文语义信息)得到每个单词包含上下文信息的语义表示，在得到每个单词带有上下文语义信息的表示后，将每个单词的表示送入全连接层得到在每个声调上的得分，通过条件随机场得到各声调之间的转移得分后，结合之前计算的各单词在各声调上的得分，使用解码模块解码出对于整个文本最优的声调识别结果。

现有技术中一般最直接的做法是将全连接层的输出送入softmax层得到属于每个声调的概率，取概率最大的对应的声调作为该词的声调。但该方法在对每个单词做决策时并没有考虑到前后单词识别结果的影响，事实上前后单词识别结果对当前词的识别可能有较大影响，比如文本中某个单词的声调被确定为1，根据经验它后面一个单词的声调很大概率是4，基本不可能是声调2。因此，为把这种前后联系引入到本发明实施例提供的方法中，在全连接层后加入条件随机场模块，条件随机场衡量不同声调之间的转移关系，从整体上使整个输入文本具有更准确的声调识别结果。通过条件随机场得到各声调之间的转移得分后，结合之前计算的各单词在各声调上的得分，使用维特比算法解码出针对于整个文本来说最优的声调识别结果。

在一具体实施例中，条件随机场模型学习每个声调与每个声调之间的转移得分，如图2所示，假设共有三个声调:T₁、T₂和T₃，则条件随机场模型会生成一个3×3的转移矩阵，矩阵的第一行第一列的元素表示声调T₁向声调T₁的转移得分，第i行第j列元素表示声调T_i向声调T_j的转移得分。对于句子里的单词序列，希望得到一个使单词本身得分和转移得分加起来最大的声调序列。如图2所示，对于单词序列<w₁,w₂,w₃,w₄>，如果不考虑转移得分，最终预测的声调序列是<T₁,T₁,T₂,T₃>；在将声调之间的转移关系考虑进去后，得到的声调序列为<T₁,T₂,T₂,T₃>，其转移和本身得分总和为0.8+0.9+0.3+0.8+0.9+0.7+0.7＝5.2，如果不考虑转移关系而直接采用送入softmax层的方式得到声调序列<T₁,T₁,T₂,T₃>的总得分为0.8+0.1+0.4+0.8+0.9+0.7+0.7＝4.4，在考虑转移得分后并不能保证全局最优。在训练整个网络时，保证真实的声调序列得分最高来更新网络的参数以及转移矩阵，在预测时能够得到单词本身得分以及转移得分矩阵，基于维特比算法即可求出得分最大的声调序列。

步骤S2:将处理后的豪萨语文本输入到豪萨语声学模型中，得到豪萨语语音对应的频谱特征。

步骤S3:将所述频谱特征输入到声码器中，将所述频谱特征映射为语音。

在一具体实施例中，如果是针对端对端的豪萨语语音合成，豪萨语声学模型采用序列到序列带注意力机制的生成模型Tacotron 2，豪萨语声码器若需要合成高保真度的语音而不需要考虑系统带来的延迟，则可以使用WaveNet等声码器；反之，则可以选择MelGAN等可以利用GPU并行计算进行加速的声码器。Tacotron 2是序列到序列带注意力机制的生成模型，实现了从文本到频谱特征的建模，经大量实验证明，此模型可以学习到文本到频谱之间的对齐，生成自然度高同时富有韵律的语音，符合现代语音合成对自然度的要求，其包括编码器，解码器以及后处理网络三个子模块；其中，编码器模块将输入的豪萨语文本处理为带有上下文信息的文本特征，解码器负责将这些文本特征映射为对应的频谱特征，后处理网络起到补充频谱特征中细节的作用。

在一具体实施例中，如果是针对移动端的豪萨语语音合成，由于移动端资源有限，所以需要对模型进行压缩，为了可以在移动端设备使用tacotron2模块，本发明实施例对模型的通道数进行了不同程度地裁剪，使得模型的计算量、参数量大大降低。为了提高自回归的推理效率，采取每一次解码多帧的策略，成倍地提高在移动端的推理速度，且几乎不损失声音质量，得益于以上两种策略，Tacotron2模型可以在移动端设备进行低延迟的推理。

Tacotron2模型包括：编码器encoder、解码器decoder及注意力模块attention，其中，编码器encoder包括：1层嵌入层、3层卷积层，1层双向长短期记忆层；解码器decoder包括：2层全连接层，2层单向长短期记忆层，1层映射层以及5层卷积层，在实际试验过程中，分别将encoder、decoder部分的卷积层filter数量减少为75％、50％、25％，以及将encoder、decoder部分LSTM以及全连接层的hidden units数量减少为75％、50％、25％。最后实验得出，全部裁剪为50％得到的效果以及性能是最适合的移动端的参数。

	100％	75％	50％	25％
					Encoder CNN	512	384	256	128
Encoder LSTM	512	384	256	128
					Decoder FC	256	192	128	64
Decoder LSTM	1024	786	512	256
					Decoder CNN	512	384	256	128

因此，最终将编码器encoder、解码器decoder中的卷积层的filter数量和LSTM以及全连接层的hidden units数量压缩到原来的50％作为声学模型的网络结构。

移动端的豪萨语声码器选择Griffin-Lim或者神经网络声码器Squeeze_wave型。Griffin-Lim是在仅已知幅度谱、不知道相位谱的条件下重建语音的算法。Squeeze_wave是基于流的生成模型，可以将频谱特征映射为高质量的语音。Squeeze_wave是对WaveGlow进行了模型参数以及计算量的分析，采取了更高效的运算单元，所以在几乎不损失声音质量的前提下，大大降低了模型的参数量、计算量，使得其在移动端设备可以达到很低的实时率。

本发明实施例提供的豪萨语语音合成方法，通过用户输入的豪萨语文本进行前端处理，利用语言的上下文语义使用条件随机场度量单词声调与单词声调间的联系，提高了后续合成的准确率，针对端对端和移动端不同的应用场景，选取了不同的声学模型和声码器的组合，能够满足对应的需求，提升豪萨语语音合成的准确性，自然度以及合成效率，可以应用到豪萨语语境下的各类语音交互场景。

实施例2

本发明实施例提供一种豪萨语语音合成系统，如图3所示，包括：

豪萨语前端处理模块1，用于将输入的豪萨语文本进行多音字消歧处理。此模块执行实施例1中的步骤1所描述的方法，在此不再赘述。

豪萨语声学模型模块2，用于将处理后的豪萨语文本输入到豪萨语声学模型中，得到豪萨语语音对应的频谱特征；此模块执行实施例1中的步骤S2所描述的方法，在此不再赘述。

豪萨语声码器模块3，用于将所述频谱特征输入到豪萨语声码器中，将所述频谱特征映射为语音；此模块执行实施例1中的步骤S3所描述的方法，在此不再赘述。

本发明实施例提供的豪萨语语音合成系统，通过设置豪萨语前端处理模块提升了合成的准确率，通过声学模型模块提升了合成的自然度，通过声码器模块则提升了合成的效率。其前端处理模块利用语言的上下文语义，使用条件随机场度量单词声调与单词声调间的联系，整个识别模型结构简单，模型参数量较少，易于部署在云端或者移动端的设备上，并且对于输入的豪萨文本能快速准确地计算出识别结果，并进行语音合成，可以应用到豪萨语语境下的各类语音交互场景。

实施例3

本发明实施例提供一种计算机设备，如图4所示，包括：至少一个处理器401，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口403，存储器404，至少一个通信总线402。其中，通信总线402用于实现这些组件之间的连接通信。其中，通信接口403可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Ramdom Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1所述的方法。存储器404中存储一组程序代码，且处理器401调用存储器404中存储的程序代码，以用于执行实施例1的豪萨语语音合成方法。

其中，通信总线402可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器404可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固降硬盘(英文：solid-state drive，缩写：SSD)；存储器404还可以包括上述种类的存储器的组合。其中，处理器401可以是中央处理器(英文：centralprocessing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic,缩写：GAL)或其任意组合。可选地，存储器404还用于存储程序指令。处理器401可以调用程序指令，实现如本申请执行实施例1的豪萨语语音合成方法。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机可执行指令，该计算机可执行指令可执行实施例1的豪萨语语音合成方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固降硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种豪萨语语音合成方法，其特征在于，包括:

将输入的豪萨语文本进行多音字消歧处理；

2.根据权利要求1所述的豪萨语语音合成方法，其特征在于，对豪萨语文本进行多音字消歧处理的过程，包括：

3.根据权利要求2所述的豪萨语语音合成方法，其特征在于，所述上下文语义提取模块由一层的双向长短时记忆网络组成。

4.根据权利要求2所述的豪萨语语音合成方法，其特征在于，所述解码模块采用维特比算法计算豪萨语文本得分最大的声调序列。

5.根据权利要求1所述的豪萨语语音合成方法，其特征在于，豪萨语声学模块模型采用序列到序列带注意力机制的生成模型Tacotron 2，包括编码器，解码器以及后处理网络三个子模块；其中，编码器模块将输入的豪萨语文本处理为带有上下文信息的文本特征，解码器负责将这些文本特征映射为对应的频谱特征，后处理网络起到补充频谱特征中细节的作用；豪萨语声码器采用WaveNet或MelGAN。

6.根据权利要求1所述的豪萨语语音合成方法，其特征在于，所述豪萨语声学模型采用按预设压缩比例进行压缩后的Tacotron 2，豪萨语声码器选择Griffin-Lim或者神经网络声码器Squeeze_wave。

7.根据权利要求6所述的豪萨语语音合成方法，其特征在于，所述Tacotron2包括编码器encoder、解码器decoder及注意力模块attention，其中，编码器encoder包括：1层嵌入层、3层卷积层，1层双向长短期记忆层；解码器decoder包括：2层全连接层，2层单向长短期记忆层，1层映射层以及5层卷积层，将编码器encoder、解码器decoder中的卷积层的filter数量和LSTM以及全连接层的hidden units数量压缩到原来的50％作为声学模型的网络结构。

8.一种豪萨语语音合成系统，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-7中任一所述的豪萨语语音合成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行1-7中任一所述的豪萨语语音合成方法。