CN108364632A

CN108364632A - 一种具备情感的中文文本人声合成方法

Info

Publication number: CN108364632A
Application number: CN201711407738.XA
Authority: CN
Inventors: 沈傲东; 俞豪敏; 孔佑勇; 吴剑锋; 董涵; 舒华忠; 王坤
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2018-08-03
Anticipated expiration: 2037-12-22
Also published as: CN108364632B

Abstract

本发明公开一种具备情感的中文文本人声合成方法，主要包括，(1)构建情感语料库；(2)基于波形拼接的带情感语音合成。建立语料库的主要步骤为：(11)分词并获取词语的词性；(12)语音切分，基于语音数据特征与文本语料获取对应分词的音频数据；(13)情感分析，基于文本分词与音频特征获取词语、短句和整句的情感特征值。基于波形拼接的带情感语音合成步骤为：(21)分词和情感分析，对待合成文本进行分词和情感分析，获取待合成文本内的词语词性、句型和情感特征；(32)选取最优语料，基于文本特征值匹配出最优语料集；(23)语音合成，波形拼接，从语料集中提取出词语音频序列集，将音频拼接合成输出最终语音。本发明合成输出具有情感特征的真人声语音。

Description

一种具备情感的中文文本人声合成方法

技术领域

本发明涉及语音合成技术，具体涉及一种具备情感的中文文本人声合成方法。

背景技术

随着智能手机的普及，语音合成引擎也发展地非常迅速，目前国内的市场上已经有不少成熟的汉语语音合成应用，但是由于汉语是一种存在语调的声调语言，它的语调是由多重因素造成的，包括句型、词性、表达的情感等等，它不同于纯语调语言的语调，因此在处理汉语语调时就存在着诸多的问题，这也直接导致了目前的汉语语音合成引擎得到的语音结果都较为僵硬、不自然，和汉语母语者说话的结果存在较大的差异。因此在人机交互过程中机器的语音表达显得十分生硬，使得交互过程不能更好地继续。

为了增加互动，获得正向的反馈作用，语音合成技术在情感韵律方面还有待不断的研究和提高。一种具备情感的中文文本人声合成方法可以实现具有情感韵律的语音合成效果。

发明内容

本发明的目的在于解决现有技术中存在的不足，提供一种具备情感的中文文本人声合成方法。

为了实现上述目的，本发明的技术方案如下：一种具备情感的中文文本人声合成方法，所述合成方法包括以下步骤：

(1)构建情感语料库；

(2)基于波形拼接的带情感语音合成。

作为本发明的一种改进，步骤(1)中所述的构建情感语料库具体操作如下：

(11)分词和词性标注，基于已有的隐马尔可夫模型对原始文本进行分词和词性标注，并将分词结果转化为文本形式，在各个词语间加“#”作为分隔符，合并输出为分词文本；

(12)语音采集和自动切分，

(12.1)基于安卓智能设备完成语音采集，具体录音采集参数为：采样率8000Hz，单通道，16位精度；将录音数据保存为WAV格式；

(12.2)根据录音数据内的间歇和频率特征，结合步骤(11)中获取的分词结果，得到各个词语在音频中所对应的起止时刻点；

(12.3)根据音频起讫时刻序列，切割出对应词语的音频，保存为PCM格式音频，构建分词-音频的对应关系；

(13)情感分析，将原始文本进行分句，对各个语句进行情感的分析判别，共分为七种情感：乐，好，怒，哀，惧，恶，惊，基于语句的情感特征值，计算语句中的各个词语的情感特征值；

(14)输入语料库，综合上述步骤获得的分词文本内容、词性、句型、情感特征以及词语音频文件地址，录入语料库中。

作为本发明的一种改进，步骤(2)中所述的基于波形拼接的带情感语音合成，包括如

下步骤：

(21)分词和情感分析，对待合成文本进行分词和情感分析，得到各个词语的词语内容、词性、句型和七种情感特征值；

(22)选取最优语料：

(22.1)从语料库中取出所有该分词t_k所对应的音频数据集{pcm_k}；

(22.2)根据分词文本的词性、句型、情感等特征值分别计算音频数据集{pcm_k}中的匹配特征度W_k：

其中p表示分词文本的词性，t表示所属句型，如果相同输出为1，否则为输出为0，e_i表示候选词语的第i种情感特征值，E_i表示目标词语的第i种情感特征值；

(22.3)通过对候选集中的音频数据排序，选取出最优匹配特征度的语料结果；

(23)语音合成，基于波形拼接合成输出最优语料的音频内容。

作为本发明的一种改进，所述步骤(11)分词和词性标注,具体如下，

分词过程分为预处理、粗切分和词性标注,预处理包括文本过滤和原子切分，过滤未定义符号、非汉语常用符号，比如“|”，“&”等，以避免产生无谓的分词。基于完成的预处理文本，根据基础词典找出文本中所有的词语，构造出词语切分有向无环图，针对该图，在所有的路径中，找出长度值最小的集合作为粗切分结果集；

对于获得的粗切分结果集，基于一阶隐马模型可得最终分词结果W^#计算公式为

其中{c_i}表示与{w_i}对应的类别序列，通过语法分析建立角色表，在分词结果的基础上利用隐马模型得到概率最大的角色序列，生成最终的词性标注结果。

作为本发明的一种改进，步骤(13)情感分析,具体如下，将原始文本进行分句，根据

构建的情感词典，对各个语句基于贝叶斯模型：

进行情感的分析判别，其中X为短句文本分词集合，C_i为情感类别，共分为七种情感：乐，好，怒，哀，惧，恶，惊，选择最大概率P(C_i|X)作为短句的情感所属类别，根据短句情感分析结果，输出语句中的各个词语的情感特征值。

作为本发明的一种改进，所述步骤(23)语音合成基于波形拼接合成输出最优语料的音频内容，具体步骤如下：根据获得的最优音频集合，获取对应PCM存放地址的一个完整序列，根据存放地址取出文件，各自存入一个Byte数组中，在内存中完成拼接形成对应的语音数据。

相对于现有技术，本发明的有益效果如下，该技术方案通过构建情感语料库，基于波形拼接的带情感语音合成，最终得到的人声合成结果在情感韵律方面有较大的提升，通过和目前市场上流行的语音合成引擎比较，可以得到本应用服务的结果所具有的情感韵律，效果表现更佳；尤其在一些问句、感叹句等情感色彩比较强烈的句子和具有情感词语的语句上，本发明的表现更为突出；本发明直接采用人声作为合成语音语料，通过隐马尔可夫模型实现的短句上下文的情感分析，比单纯对分词的情感分析的方法更吻合文本语义语境；本发明可作为情感语音合成的基础框架，实现多语言、跨语种的带情感的语音合成。综上所述，本发明提高了语音合成的情感韵律效果表现，输出的合成语音更为自然。

附图说明

图1：本发明应用实施例文本示例所对应的音频波形图；

图2：本发明应用实施例示例音频的切割波形图；

图3：本发明应用实施例示例语音合成结果波形图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

实施例：参见图1，一种具备情感的中文文本人声合成方法，所述合成方法包括以下步骤：

(1)构建情感语料库；

(2)基于波形拼接的带情感语音合成；

步骤(1)中所述的构建情感语料库具体操作如下：

(11)分词和词性标注，基于已有的隐马尔可夫模型对原始文本进行分词和词性标注，并将分词结果转化为文本形式，在各个词语间加“#”作为分隔符，合并输出为分词文本；所述步骤(11)分词和词性标注,具体如下，

分词过程分为预处理、粗切分和词性标注,预处理包括文本过滤和原子切分，过滤未定义符号、非汉语常用符号(比如“|”，“&”等)，以避免产生无谓的分词。基于完成的预处理文本，根据基础词典找出文本中所有的词语，构造出词语切分有向无环图，针对该图，在所有的路径中，找出长度值最小的集合作为粗切分结果集；

(12)语音采集和自动切分，

(13)情感分析，将原始文本进行分句，对各个语句进行情感的分析判别，共分为七种情感：乐，好，怒，哀，惧，恶，惊，基于语句的情感特征值，计算语句中的各个词语的情感特征值；步骤(13)情感分析,具体如下，将原始文本进行分句，根据构建的情感词典，对各个语句基于贝叶斯模型：

步骤(2)中所述的基于波形拼接的带情感语音合成，包括如下步骤：

(22)选取最优语料：

(23)语音合成，基于波形拼接合成输出最优语料的音频内容。所述步骤(23)语音合成基于波形拼接合成输出最优语料的音频内容，具体步骤如下：根据获得的最优音频集合，获取对应PCM存放地址的一个完整序列，根据存放地址取出文件，各自存入一个Byte数组中，在内存中完成拼接形成对应的语音数据。

应用实施例1：参见图1-图3，一种具备情感的中文文本人声合成方法，所述合成方法如下：

步骤1：对原始文本进行分词和词性标注，得到分词文本内容。示例如下：对“这问题像烈火一样煎熬着他，他几乎无法忍受了。”进行分词的结果是“这#问题#像#烈火#一样#煎熬#着#他，#他#几乎#无法#忍受#了。#”；

步骤2：导入分词文本内容至安卓端，进行语音录入，区分出词语之间的停顿，得到完整的WAV格式音频数据。对步骤1中的文本示例所对应的音频波形图如图1所示；

步骤3：分析音频的间歇特征，比对分词文本，得到各个分词的起止时刻。通过起讫时刻对音频进行自动切割，保存为PCM格式音频。对步骤2示例音频的切割波形图如图2所示；

步骤4：对原始文本进行情感分析，计算七种情感特征分量；

步骤5：将上述步骤得到的词语内容、词性、句型、七种情感特征、分词词语音频，存入语料库；

步骤6：选取其他文本，重复步骤1至步骤5，扩充语料库；

步骤7：对待合成文本进行分词和情感分析，得到词语的词性、句型、七种情感特征；

步骤8：从语料库中取出待合成词语序列中对应词语内容的所有音频集合，通过对词性、句型、情感特征的匹配特征度计算，选取出最优预料结果，并输出词语音频序列集；

步骤9：通过词语音频序列集，取出各个词语的音频数据，进行波形的拼接整合，得到最终的语音合成输出结果。以文本“人类还有未来吗？没有任何人知道。老人早已厌倦，这个枯燥的世界在时时困扰着他。”为例得到的语音合成结果波形图如图3所示。

Claims

1.一种具备情感的中文文本人声合成方法，其特征在于：所述合成方法包括以下步骤：

(1)构建情感语料库；

(2)基于波形拼接的带情感语音合成。

2.根据权利要求1所述的一种具备情感的中文文本人声合成方法，其特征在于，步骤(1)中所述的构建情感语料库具体操作如下：

(11)分词和词性标注，基于已有的隐马尔可夫模型对原始文本进行分词和词性标注，并将分词结果转化为文本形式；

(12)语音采集和自动切分，

3.根据权利要求1所述的一种具备情感的中文文本人声合成方法，其特征在于，步骤(2)中所述的基于波形拼接的带情感语音合成，包括如下步骤：

(22)选取最优语料：

(23)语音合成，基于波形拼接合成输出最优语料的音频内容。

4.根据权利要求3所述的一种具备情感的中文文本人声合成方法，其特征在于，步骤(11)分词和词性标注,具体如下，

分词过程分为预处理、粗切分和词性标注,预处理包括文本过滤和原子切分，过滤未定义符号、非汉语常用符号；基于完成的预处理文本，根据基础词典找出文本中所有的词语，构造出词语切分有向无环图，针对该图，在所有的路径中，找出长度值最小的集合作为粗切分结果集；

5.根据权利要求4所述的一种具备情感的中文文本人声合成方法，其特征在于，步骤(13)情感分析,具体如下，将原始文本进行分句，根据构建的情感词典，对各个语句基于贝叶斯模型：

6.根据权利要求5所述的一种具备情感的中文文本人声合成方法，其特征在于，步骤(23)语音合成基于波形拼接合成输出最优语料的音频内容，具体步骤如下：根据获得的最优音频集合，获取对应PCM存放地址的一个完整序列，根据存放地址取出文件，各自存入一个Byte数组中，在内存中完成拼接形成对应的语音数据。