CN114974208A

CN114974208A - 一种中文语音合成方法、装置、电子设备、存储介质

Info

Publication number: CN114974208A
Application number: CN202210695151.8A
Authority: CN
Inventors: 刘银华; 王智
Original assignee: Qingdao University
Current assignee: Qingdao University
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-08-30

Abstract

本发明适用于语音合成技术领域，提供了一种中文语音合成方法、装置、电子设备、存储介质，其中所述方法包括：将输入的中文序列转化为标记有声调的拼音序列；对所述标记有声调的拼音序列进行转化，得到文本编码向量；对所述文本编码向量进行转化，得到语音信号；通过情感特征修正参数对所述语音信号进行修正，所述情感特征修正参数包括基频、能量、时长中的至少一种。该方法通过将中文序列转化为标记有声调的拼音序列，以及通过情感特征修正参数对得到的语音信号进行修正，修正后的语音信号既具有中文的音调变化，也能通过对基频、能量、时长的修正得到不同情感状态的语音。

Description

一种中文语音合成方法、装置、电子设备、存储介质

技术领域

本发明属于语音合成技术领域，尤其涉及一种中文语音合成方法、装置、电子设备、存储介质。

背景技术

语音合成，又称文语转换(Text to Speech)技术，是将文本信息转换为语音信息的技术，涉及声学、语言学、计算机科学等多门学科，其打破了传统的文字式人机交互方法，更方便人机沟通。

中文语音是一种有调语言，同一种音素可以包含四声以及轻声在内的五种读音。

由于中文语音的特点，现有语音合成技术在合成中文语音时存在合成的语音自然度不足，语气单一且情感性较低，用户体验较差的问题。

发明内容

本发明实施例的目的在于提供一种中文语音合成方法，旨在解决背景技术中所提到的问题。

本发明实施例是这样实现的，一种中文语音合成方法，包括：

将输入的中文序列转化为标记有声调的拼音序列；

对所述标记有声调的拼音序列进行转化，得到文本编码向量；

对所述文本编码向量进行转化，得到语音信号；

通过情感特征修正参数对所述语音信号进行修正，所述情感特征修正参数包括基频、能量、时长中的至少一种。

优选的，所述将输入的中文序列转化为标记有声调的拼音序列的步骤包括：

对输入的中文序列进行分词处理，得到词语和/或单个字符；

将所述词语和/或单个字符转化为标记有声调的拼音序列。

优选的，所述对所述标记有声调的拼音序列进行转化，得到文本编码向量的步骤包括：

将标记有声调的拼音序列转化为拼音编码向量；

基于卷积神经网络将字符对应的拼音编码向量组成词语编码向量；

基于双向循环神经网络将词语编码向量组成文本编码向量。

优选的，所述对所述文本编码向量进行转化，得到语音信号的步骤包括：

对文本编码向量进行线性投影获得梅尔频谱；

将梅尔频谱转化为线性频谱；

将线性频谱还原为语音信号。

优选的，在对文本编码向量进行线性投影获得梅尔频谱的步骤之前，基于注意力神经网络对文本编码向量进行加权计算。

本发明实施例的另一目的在于提供一种中文语音合成装置，包括：

中文预处理模块，用于将输入的中文序列转化为标记有声调的拼音序列；

编码模块，用于对所述标记有声调的拼音序列进行转化，得到文本编码向量；

解码模块，用于对所述文本编码向量进行转化，得到语音信号；

语音情感修正模块，用于通过情感特征修正参数对所述语音信号进行修正，所述情感特征修正参数包括基频、能量、时长中的至少一种。

优选的，所述中文预处理模块包括：

分词子模块，用于输入的中文序列进行分词处理，得到词语和/或单个字符；

拼音转化子模块，用于将所述词语和/或单个字符转化为标记有声调的拼音序列。

优选的，所述编码模块包括：

字符嵌入子模块，用于将标记有声调的拼音序列转化为拼音编码向量；

卷积神经网络子模块，用于基于卷积神经网络将字符对应的拼音编码向量组成词语编码向量；

双向循环神经网络子模块，用于基于双向循环神经网络将词语编码向量组成文本编码向量。

本发明实施例的另一目的在于提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述中任一项所述的中文语音合成方法。

本发明实施例的另一目的在于提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述中任一项所述的中文语音合成方法。

本发明实施例提供的一种中文语音合成方法，通过将中文序列转化为标记有声调的拼音序列，以及通过情感特征修正参数对得到的语音信号进行修正，修正后的语音信号既具有中文的音调变化，也能通过对基频、能量、时长的修正得到不同情感状态的语音，从而解决了现有语音合成技术在合成中文语音时存在合成的语音自然度不足，语气单一且情感性较低，用户体验较差的问题。

附图说明

图1为本发明实施例提供的中文语音合成方法的流程示意图；

图2为本发明实施例提供的对语音信号进行修正的流程图；

图3为本发明实施例提供的将输入的中文序列转化为标记有声调的拼音序列的流程示意图；

图4为本发明实施例提供的对标记有声调的拼音序列进行转化，得到文本编码向量的流程示意图；

图5为本发明实施例提供的对文本编码向量进行转化，得到语音信号的流程示意图；

图6为本发明实施例提供的中文语音合成装置的结构框图；

图7为本发明实施例提供的中文预处理模块的结构框图；

图8为本发明实施例提供的编码模块的结构框图；

图9为本发明实施例提供的另一中文语音合成装置的结构框图；

图10为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述。

如附图1所示，为本发明一个实施例提供的一种中文语音合成方法，包括：

步骤S101，将输入的中文序列转化为标记有声调的拼音序列。

在本实施例中，输入的中文序列指的是输入的中文文本，可以是一句话、一段话、一篇文章等，中文序列可以由人工输入，也可来自预设的中文序列库。

将中文序列转化为标记有声调的拼音序列，就是根据中文序列的发音将中文文字转化为拼音符号。由于中文具有阴平、阳平、上声、去声、轻声在内的五种读音，因此，在转化为拼音符号时，在拼音符号中标记对应的中文文字的发音。通过将中文序列转化为标记有声调的拼音序列，既可以避免中文中多音字的问题，也可以使得后续合成的语音具有声调变化。

S102，对所述标记有声调的拼音序列进行转化，得到文本编码向量。

在本实施例中，将标记有声调的拼音序列转化为文本编码向量，即对拼音文本进行向量化，拼音文本向量化后得到矩阵形式的文本编码向量，为后续的语音合成做准备。

S103，对所述文本编码向量进行转化，得到语音信号。

在本实施例中，将得到的矩阵形式的文本编码向量转化为语音信号。转化方式可以采取将文本编码向量输入现有技术中的声学模型，通过声学模型将文本编码向量转化为声音。

S104，通过情感特征修正参数对所述语音信号进行修正，所述情感特征修正参数包括基频、能量、时长中的至少一种。

情感特征修正参数包括基频修正参数α、能量修正参数β和时长修正参数γ。

在本实施例中，如附图2所示，对语音信号进行基频修正包括以下步骤：首先对语音信号进行分段加窗，再对分段加窗后的语音信号进行自相关处理，自相关处理得到基频序列，最后通过基频修正参数α对得到的基频序列进行修正。

在对语音信号进行处理时需要使用傅里叶变换，傅里叶变换在处理过程中容易发生频谱泄露现象和采样同步偏差问题。通过对语音信号进行分段加窗处理，将原始采样波形乘以幅度变化平滑且边缘趋零的有限长度的窗来减小每个周期边界处的突变，从而解决语音信号处理过程中的问题。

自相关(Autocorrelation)，也叫序列相关，是一个信号与其自身在不同时间点的互相关。通过自相关处理，可以找出重复信息(被噪声掩盖的周期信号)，或识别隐含在信号谐波频率中消失的基频。

具体的，在本实施例中，对基频进行修正可以采取如下算法：

其中，

为修正后的基频值，f_o为语音信号，p_i为第i时刻的基频值，p_a为原始基频平均值，即

n为时间长度。

在本实施例中，如附图2所示，对语音信号进行能量修正包括以下步骤：分析语音信号的短时平均幅度，确定能量修正系数，根据能量修正系数对语音信号进行能量修正。

短时平均幅度是反映信号幅值的时域参数。对于中文来说，短时平均幅度可以用来区分声母与韵母的分界，无声与有声的分界，连字(指字之间无间隙)的分界等。对于高信噪比的语音信号，短时平均幅度用来区分有无语音。此时，无语音信号的噪声能量很小，而有语音信号的能量显著地增大到某一个数值，由此可区分语音信号的开始点或终止点。

具体的，在本实施例中，对能量进行修正可以采取如下算法：

其中，

为修正后的能量值，s(m)为语音信号幅度，ω(n-m)为窗函数(本实施例使用的是汉恩窗)。

在本实施例中，如附图2所示，对语音信号进行时长修正包括以下步骤：首先判断语音信号的情感类别，同一个句子在不同情感状态下时长有明显的差异，悲伤状态下的语句时长会稍长，而愉快状态下的语句时长会稍短；对语句时长的处理不同于基频、能量，如果要缩短时长，就要从原始语音中按时长修正参数γ删除周期；如果要增加时长，就要从原始语音中按时长修正参数γ复制周期，从而做到通过修改中性语音的相关参数获得不同情感状态的语音。

在本实施例中，通过将中文序列转化为标记有声调的拼音序列，以及通过情感特征修正参数对得到的语音信号进行修正，修正后的语音信号既具有中文的音调变化，也能通过对基频、能量、时长的修正得到不同情感状态的语音，从而解决了现有语音合成技术在合成中文语音时存在合成的语音自然度不足，语气单一且情感性较低，用户体验较差的问题。

在本实施例的一种情况中，通过对情感语音库内不同情感状态的语音进行不同维度的分析总结，得到不同情感状态语音的情感特征修正参数。

在本实施例中，上述内容在具体实现时，可以选取中国科学院自动化所录制的CASIA情感语音库，利用声学软件praat进行分析总结来获取情感特征修正参数。

如下表1所示，是得到的情感特征修正参数表：

表1情感特征修正参数表

如附图3所示，在本实施例的一种情况中，所述将输入的中文序列转化为标记有声调的拼音序列的步骤包括：

S1011，对输入的中文序列进行分词处理，得到词语和/或单个字符。

在本实施例中，对中文进行分词处理可以采取多种方式，例如结巴分词、HanLP、FuDanNLP、LTP、THULAC、NLPIR等。以输入文本是“今天会下雨”为例，采取结巴分词进行处理后，得到“今天/会/下雨/”。

S1012，将所述词语和/或单个字符转化为标记有声调的拼音序列。

在本实施例中，将词语和/或单个字符转化为标记有声调的拼音序列也可以采取多种方式。例如可以直接对词语和/或单个字符进行拼音和音调标注，或者构建汉字-拼音库，汉字-拼音库由单个汉字、词语和与单个汉字、词语一一对应的拼音(包含音调)组成，通过调用汉字-拼音库，从而将词语和/或单个字符转化为标记有声调的拼音序列。以上述得到的“今天/会/下雨/”为例，可以转化为“jin1tian1，hui4，xia4yu3”，其中数字1-4分别对应着汉语韵律中的四类声调：阴平、阳平、上声、去声。对于轻声，可以采取不标注数字或者标注其他数字(例如标注数字0)来表示。

如附图4所示，在本实施例的一种情况中，所述对所述标记有声调的拼音序列进行转化，得到文本编码向量的步骤包括：

S1021，将标记有声调的拼音序列转化为拼音编码向量。

在本实施例中，可以采取UTF-8编码表。在UTF-8编码表中，每个拼音字符都有与其对应的拼音编码向量。

S1022，基于卷积神经网络将字符对应的拼音编码向量组成词语编码向量。

卷积神经网络(Convolutional Neural Networks，CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification)，因此也被称为平移不变人工神经网络(Shift-Invariant ArtificialNeural Networks，SIANN)。

在本实施例中，将字符对应的拼音编码向量输入到卷积神经网络中，得到输出的词语编码向量。

S1023，基于双向循环神经网络将词语编码向量组成文本编码向量。

双向循环神经网络(BRNN)的基本思想是提出每一个训练序列向前和向后分别是两个循环神经网络(RNN)，而且这两个都连接着一个输出层。这个结构提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息。

在本实施例中，双向循环神经网络可以采取为Bi-LSTM。将词语编码向量输入到Bi-LSTM中，得到输出的文本编码向量。

如附图5所示，在本实施例的一种情况中，所述对所述文本编码向量进行转化，得到语音信号的步骤包括：

S1031，对文本编码向量进行线性投影获得梅尔频谱。

在本实施例中，文本编码向量经过线性投影得到的是矩阵形式的梅尔频谱。

S1032，将梅尔频谱转化为线性频谱。

在本实施例中，梅尔频谱可以由CBHG(1-D convolution bank+highway network+bidirectional GRU)网络计算转换成线性频谱，或者采取其他计算方式。

S1033，将线性频谱还原为语音信号。

在本实施例中，线性频谱可以由Griffin-lim算法转换成语音信号，或者采取其他算法。

在本实施例的一种情况中，在对文本编码向量进行线性投影获得梅尔频谱的步骤之前，基于注意力神经网络对文本编码向量进行加权计算。

本申请是通过模型预测文本对应的梅尔频谱实现的，一次预测一帧。在将拼音序列转化为文本编码向量并对文本编码向量进行线性投影获得梅尔频谱的过程中，可能会出现信息丢失或顺序偏差等问题。

为了解决上述问题，在本实施例中，基于注意力神经网络对文本编码向量进行概率值分布计算，增加文本编码向量的权重，以使文本编码向量与后续得到的梅尔频谱相匹配。

结合附图6，在另一个实施例中，提供了一种中文语音合成装置，包括：

中文预处理模块101，用于将输入的中文序列转化为标记有声调的拼音序列。

编码模块102，用于对所述标记有声调的拼音序列进行转化，得到文本编码向量。

解码模块103，用于对所述文本编码向量进行转化，得到语音信号。

语音情感修正模块104，用于通过情感特征修正参数对所述语音信号进行修正，所述情感特征修正参数包括基频、能量、时长中的至少一种。

其中，

n为时间长度。

其中，

在本实施例中，如附图2所示，对语音信号进行时长修正包括以下步骤：首先判断语音信号的情感类别，同一个句子在不同情感状态下时长有明显的差异，悲伤状态下的语句时长会稍长，而愉快状态下的语句时长会稍短；对语句时长的处理不同于基频、能量，如果要缩短时长，就要从原始语音中按时长修正参数γ删除周期；如果要增加时长，就要从原始语音中按时长修正参数γ复制周期，从而做到通过修改中性语音的相关参数获得不同情感状态的音频。

在本实施例中，通过中文预处理模块101将中文序列转化为标记有声调的拼音序列，以及语音情感修正模块104通过情感特征修正参数对得到的语音信号进行修正，修正后的语音信号既具有中文的音调变化，也能通过对基频、能量、时长的修正得到不同情感状态的语音，从而解决了现有语音合成技术在合成中文语音时存在合成的语音自然度不足，语气单一且情感性较低，用户体验较差的问题。

在本实施例中，上述内容在具体实现时，可以选取中国科学院自动化所录制的CASIA情感语音库，利用声学软件praat进行分析总结来获取情感特征修正参数。得到的情感特征修正参数表如上述实施例中的表1所述。

如附图7所示，在本实施例的一种情况中，所述中文预处理模块101包括：

分词子模块1011，用于输入的中文序列进行分词处理，得到词语和/或单个字符。

拼音转化子模块1012，用于将所述词语和/或单个字符转化为标记有声调的拼音序列。

如附图8所示，在本实施例的一种情况中，所述编码模块102包括：

字符嵌入子模块1021，用于将标记有声调的拼音序列转化为拼音编码向量。

卷积神经网络子模块1022，用于基于卷积神经网络将字符对应的拼音编码向量组成词语编码向量。

双向循环神经网络子模块1023，用于基于双向循环神经网络将词语编码向量组成文本编码向量。

在本实施例的一种情况中，所述解码模块103包括长短时记忆网络LSTM、线性投影层和卷积神经网络，所述解码模块103具有以下功能：

对文本编码向量进行线性投影获得梅尔频谱；

将梅尔频谱转化为线性频谱；

将线性频谱还原为语音信号。

如附图9所示，在本实施例的一种情况中，所述中文语音合成装置还包括：

对齐模块105，用于在对文本编码向量进行线性投影获得梅尔频谱的步骤之前，基于注意力神经网络对文本编码向量进行加权计算。

本申请是通过模型预测文本对应的梅尔频谱实现的，一次预测一帧。在编码模块将拼音序列转化为文本编码向量并由解码模块对文本编码向量进行线性投影获得梅尔频谱的过程中，可能会出现信息丢失或顺序偏差等问题。

结合附图10，在另一个实施例中，提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述实施例中提供的中文语音合成方法。

在本实施例中，存储器与处理器之间通过通信接口实现数据传输。存储器可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。处理器，用于执行计算机程序时实现上述实施例中提供的中文语音合成方法。如果存储器、处理器和通信接口独立实现，则通信接口、存储器和处理器可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry StandardArchitecture，简称为ISA)总线、外部设备互连(Peripheral Component，简称为PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器、处理器及通信接口，集成在一块芯片上实现，则存储器、处理器及通信接口可以通过内部接口完成相互间的通信。

处理器可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本实施例的一个或多个集成电路。

在另一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中提供的中文语音合成方法。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种中文语音合成方法，其特征在于，包括：

将输入的中文序列转化为标记有声调的拼音序列；

对所述文本编码向量进行转化，得到语音信号；

2.根据权利要求1所述的中文语音合成方法，其特征在于，所述将输入的中文序列转化为标记有声调的拼音序列的步骤包括：

对输入的中文序列进行分词处理，得到词语和/或单个字符；

将所述词语和/或单个字符转化为标记有声调的拼音序列。

3.根据权利要求1所述的中文语音合成方法，其特征在于，所述对所述标记有声调的拼音序列进行转化，得到文本编码向量的步骤包括：

将标记有声调的拼音序列转化为拼音编码向量；

基于双向循环神经网络将词语编码向量组成文本编码向量。

4.根据权利要求1所述的中文语音合成方法，其特征在于，所述对所述文本编码向量进行转化，得到语音信号的步骤包括：

对文本编码向量进行线性投影获得梅尔频谱；

将梅尔频谱转化为线性频谱；

将线性频谱还原为语音信号。

5.根据权利要求4所述的中文语音合成方法，其特征在于，在对文本编码向量进行线性投影获得梅尔频谱的步骤之前，基于注意力神经网络对文本编码向量进行加权计算。

6.一种中文语音合成装置，其特征在于，包括：

7.根据权利要求6所述的中文语音合成装置，其特征在于，所述中文预处理模块包括：

8.根据权利要求6所述的中文语音合成装置，其特征在于，所述编码模块包括：

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1至5中任一项所述的中文语音合成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的中文语音合成方法。