CN111179902B

CN111179902B - 基于高斯模型模拟共鸣腔的语音合成方法、设备及介质

Info

Publication number: CN111179902B
Application number: CN202010011587.1A
Authority: CN
Inventors: 张广学; 肖龙源; 蔡振华; 李稀敏; 刘晓葳
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2022-10-28
Anticipated expiration: 2040-01-06
Also published as: CN111179902A

Abstract

本发明公开了一种基于高斯模型模拟共鸣腔的语音合成方法、终端设备及介质，所述方法包括：分别构建说话人基频模型、强度模型、共鸣腔模型；获取被模拟说话人的基本语音；提取被模拟人正常情况下、异常情况下说话时的语速特征和/或强度特征；与现有强度模型进行匹配；若找到，相似的，则以该模型替换被模拟说话人的强度模型；提取被模拟说话人对元音因素的发音部分，并通过高斯模型来拟合该元音特征；通过相似度来调整高斯模型的参数；获取该音素的共鸣腔模型；输入待语音合成文本，输出模拟语音，本发明可以有效模拟目标人话语；可拓展性较强，适应人发生结构变化特征；仅需较少的被模拟人语音即可完成模型训练。

Description

基于高斯模型模拟共鸣腔的语音合成方法、设备及介质

技术领域

本发明涉及语音合成领域，尤其涉及一种基于高斯模型模拟共鸣腔的语音合成方法、终端设备及介质。

背景技术

在导航、阅读、自动规划、自动提醒等方面，语音合成技术都有很大的应用场景。一个好的语音合成技术，可以很好的模拟人的声音和语气，达到以假乱真的程度。发音器官可以分为声门下系统、喉系统和声门上系统(共鸣腔)等三部分。现有的语音合成技术，对说话人在各种情况下的语速/能量控制效果不佳，不够自然。另外，需要从被模拟人处收集较多的语料，进而进行语音合成。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提出一种基于高斯模型模拟共鸣腔的语音合成方法、终端设备及存储介质，旨在在实现一个好的语音合成模型，本发明的设计构思主要分为三个部分，基频模型、强度模型、共鸣腔模型。其中，基频部分为被模拟人发不同音素时的语音基频，语速模块则为被模拟人正常、生气、高兴等情况下的说话语速/强度，共鸣腔模型则为说话人区别于其他人的声音特征的。

为达成上述目的，本发明的技术方案如下：

本发明提供了一种基于高斯模型模拟共鸣腔的语音合成方法，包括步骤一至步骤七：

步骤一，分别构建说话人基频模型、强度模型、共鸣腔模型；

所述构建说话人基频模型具体包括如下步骤：

采集说话人正常情况下进行元音音素发音时的基频特征，

根据上一步骤所述的基频特征构建该说话人相应元音音素的基频模型；

所述构建说话人强度模型具体包括如下步骤：

采集一定数量的人在正常情况下、异常情况下的语音；

通过声学模型确定各个元音音素的位置；

通过声学模型训练元音音素在正常情况下相应的转变特征、能量和语速模型；

通过声学模型训练元音音素在异常情况下相应的转变特征、能量和语速模型；

所述构建说话人共鸣腔模型具体包括如下步骤：

获取说话人的语音；

通过高斯模型模拟说话人在发不同元音时的共鸣腔特征；

步骤二，获取被模拟说话人的基本语音；提取被模拟人正常情况下说话时的语速特征和/或强度特征，提取被模拟人异常情况下说话时的语速特征和/或强度特征；

步骤三，与现有强度模型进行匹配；若找到相似的，则以该模型替换被模拟说话人的强度模型；

步骤四，提取被模拟说话人对元音的发音部分，并通过高斯模型来拟合该元音特征；

步骤五，通过相似度来调整高斯模型的参数；当高斯模型的拟合度达到预定值时，获取该音素的共鸣腔模型；

步骤六，输入待语音合成文本，通过说话人基频模型和说话人共鸣腔模型，模拟出每个字的发音；

步骤七，输出模拟语音。

进一步的，在本发明优选实施例中，所述声学模型为TDNN模型。所述声学模型还可以为GMM模型，RNN模型，CNN模型等模型。

进一步的，步骤七中，所述输出模拟语音具体实现方法为：通过文本情感分析，判断说话人的情绪；根据情感分析，调整语速和强度，输出模拟语音。

进一步的，通过高斯模型模拟说话人在发不同元音时的共鸣腔特征步骤中，对未收集到的元音音素，则通过发音相似人的共鸣腔特征进行替换。

进一步的，所述异常情况下的语音包括以下生气情况下的语音、高兴情况下的语音、生病情况下的语音、惊吓情况下的语音、愤怒情况下的语音、拘谨情况下的语音中的一种、或任意多种；

当异常情况为生气情况下，则通过声学模型训练元音音素在生气情况下相应的转变特征、能量和语速模型；当异常情况为高兴情况下，则通过声学模型训练元音音素在高兴情况下相应的转变特征、能量和语速模型；当异常情况为生病情况下，则通过声学模型训练元音音素在生病情况下相应的转变特征、能量和语速模型；当异常情况为惊吓情况下，则通过声学模型训练元音音素在惊吓情况下相应的转变特征、能量和语速模型；当异常情况为愤怒情况下，则通过声学模型训练元音音素在愤怒情况下相应的转变特征、能量和语速模型；当异常情况为拘谨情况下，则通过声学模型训练元音音素在拘谨情况下相应的转变特征、能量和语速模型。

需要说明的，通常情况下，所述异常情况下包含三左右的异常情况，可以根据选择设置多种的异常情况。

进一步的，所述从步骤二提取的被模拟人的语速特征和/或强度特征与现有强度模型进行匹配，具体为：提取说话人正常情况时和/或异常情况时的语速、强度特征，将该特征与现有强度模型进行匹配，查找各种情况下的相似度，并根据相似度选取与被模拟人相似的强度模型。

进一步的，上述方法中，基于权重方式来选取与说话人相似的强度模型。

进一步的，所述通过相似度来调整高斯模型的参数，具体为：

当说话人发一个元音时，则对该元音发音时的共鸣腔建立高斯模型，依次使用多个元音发音时的共鸣腔特征来调整高斯模型的参数。

另外，本发明还提供了一种终端设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述的基于高斯模型模拟共鸣腔的语音合成方法步骤。

另外，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有处理系统，所述处理系统被处理器执行上述的基于高斯模型模拟共鸣腔的语音合成方法步骤。

通过本发明的基于高斯模型模拟共鸣腔的语音合成方法、终端设备及存储介质，与现有技术，可以达到以下的有益效果：

(1)本发明通过三个模型来模拟目标人说话，可应用在导航、阅读、自动规划、自动提醒等方面，可以有效模拟目标人话语；

(2)本发明可拓展性较强，适应人发生结构变化特征；

(3)需要较少的被模拟人语音即可完成模型训练。

附图说明

此处所说明的附图用来提供对发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的一种基于高斯模型模拟共鸣腔的语音合成方法的流程步骤图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。下面通过实施例一、二对本发明提供的基于高斯模型模拟共鸣腔的语音合成方法进行详细阐述。

实施例一

本发明实施例提供了一种基于高斯模型模拟共鸣腔的语音合成方法，包括如下步骤：

步骤S1，分别构建说话人基频模型、强度模型、共鸣腔模型；

所述构建说话人基频模型具体包括如下步骤：

采集说话人正常情况下进行元音音素发音时的基频特征；

采集说话人正常情况下进行元音音素发音时的基频特征，即正常情况下为被模拟者日常交流且情绪波动不大的情况下的说话特征，相反地，被模拟者日常交流且情绪波动大的情况下的说话特征为异常情况下。

根据上一步骤所述的基频特征构建该说话人相应元音音素的基频模型；相应的元音音素包括a、e、i、o、ang、ing、eng等一些元音。

所述构建说话人强度模型具体包括如下步骤：

采集一定数量的人在正常情况下、异常情况下的语音；在本发明实施例中，采集说话人的语音应该包括各地方言、普通话说话者，并且每类说话者至少一千人以上，且男女、老幼分布平均。

通过声学模型确定各个元音音素的位置；

通过声学模型(如TDNN模型)训练元音音素在正常情况下的相应转变特征、能量和语速模型；

通过声学模型(如TDNN模型)训练元音音素在异常情况下相应的转变特征、能量和语速模型；

TDNN模型为时延神经网络(TDNN)，时延神经网络是多层的，每层对特征有较强的抽象能力，有能力表达语音特征在时间上的关系，具有时间不变性，习过程中不要求对所学的标记进行精确的时间定为，通过共享权值，方便学习。

通过声学模型(如TDNN模型)声学模型确定各个元音音素的位置，具体而言为：

通过TDNN模型训练元音音素在正常情况下相应的转变特征、能量和语速模型；

通过TDNN模型训练元音音素在异常情况下相应的转变特征、能量和语速模型；

所述转变特征为辅音-元音结合处的过渡音征问题，能量即为说话人发音时的普遍能量强度，可以理解为强度或能量强度。将转变特征、能量都放在了语速模型这个模块，语速的变化会影响转变特征和能量，有一种内在关联特征。

在语音对齐之后，可以通过声学模型知道该处的元音是何种元音。进而，通过进行相应特征的提取和训练。

需要说明的是，本发明所述的声学模型不限于本发明实施所举例的TDNN模型，还可以为GMM模型(混合高斯模型)，RNN模型(递归神经网络模型)，CNN模型(卷积神经网络模型)等。

所述异常情况下的语音包括生气情况下的语音、高兴情况下的语音、生病情况下、惊吓情况下、愤怒情况下、拘谨情况下的语音中的一种、或任意多种；

当异常情况为生气情况下，则通过TDNN模型训练元音音素在生气情况下相应的转变特征、能量和语速模型；当异常情况为高兴情况下，则通过TDNN模型训练元音音素在高兴情况下相应的转变特征、能量和语速模型；当异常情况为生病情况下，则通过TDNN模型训练元音音素在生病情况下相应的转变特征、能量和语速模型。当异常情况为惊吓情况下，则通过声学模型训练元音音素在惊吓情况下相应的转变特征、能量和语速模型；当异常情况为愤怒情况下，则通过声学模型训练元音音素在愤怒情况下相应的转变特征、能量和语速模型；当异常情况为拘谨情况下，则通过声学模型训练元音音素在拘谨情况下相应的转变特征、能量和语速模型。

在本发明实施例中，通过TDNN模型训练元音音素在生气情况下相应的转变特征、能量和语速模型；通过TDNN模型训练元音音素在高兴情况下相应的转变特征、能量和语速模型；通过TDNN模型训练元音音素在生病情况下相应的转变特征、能量和语速模型；

所述构建说话人共鸣腔模型具体包括如下步骤：

获取说话人的语音；

通过高斯模型模拟说话人在发不同元音时的共鸣腔特征；不同元音指a、e、i、o、ang、ing、eng等一些元音，进一步，最好能采集正常、异常情况下的各个元音的发音，即使不能亦可匹配现有模型，找最相似的人共鸣腔特征代替。

步骤S2，获取被模拟说话人的基本语音；需要说明的是，基本语音为一段语音包含正常情况下的语音和异常情况下的语音。

提取被模拟人正常情况下说话时的语速特征和/或强度特征，和/或提取被模拟人异常情况下说话时的语速特征和/或强度特征；

步骤S3，从步骤二提取的被模拟人的语速特征和/或强度特征与现有强度模型进行匹配；若找到相似的，则以该模型替换被模拟说话人的语速模型；

语速模型即指说话人在各种情况下的说话语速以及说话过程中的声音大小(也称响度)，这部分属于语速模型。通过提取说话人在该种状态下(如正常、生气、高兴等)的说话语速和强度特征，将这些特征与现有模型中的类似状态下的语速、强度模型进行比较，查找最为相似的模型。

相似即为与被模拟人说话语速相近，声音大小等特征相似度较高，该模型即为模型里边匹配度较高的所存说话人的强度模型。

从步骤二提取的被模拟人的语速特征和/或强度特征与现有强度模型进行匹配，具体为：提取说话人正常情况时和/异常情况时(如生气情况时、和/或高兴情况时、和/或生病情况时)的语速、强度特征，将该特征与现有强度模型进行匹配，查找各种情况下的相似度，最后，基于权重方式来选取与说话人相似的强度模型。

步骤S4，提取被模拟说话人对元音的发音部分，并通过高斯模型来拟合该元音特征；

步骤S5，通过相似度来调整高斯模型的参数；当高斯模型的拟合度达到预定值时，获取该音素的共鸣腔模型；所述相似度即为高斯模型所模拟的特征与元音发音时的特征的相似度，即为高斯模型模拟元音发音特征的切合度。被模拟元音的，元音有多个，每一个都需要进行高斯模型模拟。

所述通过相似度来调整高斯模型的参数，具体为：

当说话人发一个元音时，则对该元音发音时的共鸣腔建立高斯模型。之后，依次使用多个元音发音时的共鸣腔特征来调整高斯模型的参数。辨别标准为，调整后的高斯模型与各个元音发音时的共鸣腔特征相似度最高。

步骤S6，输入待语音合成文本，通过说话人基频模型和说话人共鸣腔模型，模拟出每个字的发音；

步骤S7，输出模拟语音。

其中，在本发明进一步优选实施例中，所述输出模拟语音具体为：

将待语音合成文本通过文本情感分析，判断说话人的情绪；

根据文本情感分析的判断说话人的情绪，调整语速和强度，输出模拟语音。

进一步，通过高斯模型模拟说话人在发不同元音时的共鸣腔特征步骤中，对未收集到的元音音素，则通过发音相似人的共鸣腔特征进行替换。

找到相似说话人之后，即可认为这两个人所有元音音素发音时的共鸣腔特征相似。

实施例二

本发明实施例提供了一种终端设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行实现基于高斯模型模拟共鸣腔的语音合成方法步骤，所述至少一个处理器执行实现基于高斯模型模拟共鸣腔的语音合成方法步骤与具体实施例1相同，本发明在此不再赘述。

实施例三

一种计算机可读存储介质，所述计算机可读存储介质上存储有处理系统，所述处理系统被处理器执行时实现一种基于高斯模型模拟共鸣腔的语音合成方法步骤。所述至少一个处理器执行实现基于高斯模型模拟共鸣腔的语音合成方法步骤与具体实施例1相同，本发明在此不再赘述。

以上所述的实施例仅是本发明的优选实施方式，应当指出，对本领域普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和浸润，这些改进和浸润也应该视为本发明的保护范围。

Claims

1.一种基于高斯模型模拟共鸣腔的语音合成方法，其特征在于，所述方法，包括：

所述构建说话人基频模型具体包括如下步骤：

采集说话人正常情况下进行元音音素发音时的基频特征，

所述构建说话人强度模型具体包括如下步骤：

采集一定数量的人在正常情况下、异常情况下的语音；

通过声学模型确定各个元音音素的位置；

所述转变特征为辅音-元音结合处的过渡音征；

所述构建说话人共鸣腔模型具体包括如下步骤：

获取说话人的语音；

通过高斯模型模拟说话人在发不同元音时的共鸣腔特征；

步骤六，提取并输入待语音合成文本，通过说话人基频模型和说话人共鸣腔模型，模拟出每个字的发音；

步骤七，输出模拟语音。

2.根据权利要求1所述的基于高斯模型模拟共鸣腔的语音合成方法，其特征在于，

所述声学模型为TDNN模型。

3.根据权利要求1所述的基于高斯模型模拟共鸣腔的语音合成方法，其特征在于，步骤七中，所述输出模拟语音具体实现方法为：

通过文本情感分析，判断说话人的情绪；

根据情感分析，调整语速和强度，输出模拟语音。

4.根据权利要求1所述的基于高斯模型模拟共鸣腔的语音合成方法，其特征在于，

通过高斯模型模拟说话人在发不同元音时的共鸣腔特征步骤中，对未收集到的元音音素，则通过发音相似人的共鸣腔特征进行替换。

5.根据权利要求1所述的基于高斯模型模拟共鸣腔的语音合成方法，其特征在于，

所述异常情况下的语音包括以下生气情况下的语音、高兴情况下的语音、生病情况下的语音、惊吓情况下的语音、愤怒情况下的语音、拘谨情况下的语音中的一种、或任意多种；

当异常情况为生气情况下，则通过声学模型训练元音音素在生气情况下相应的转变特征、能量和语速模型；

当异常情况为高兴情况下，则通过声学模型训练元音音素在高兴情况下相应的转变特征、能量和语速模型；

当异常情况为生病情况下，则通过声学模型训练元音音素在生病情况下相应的转变特征、能量和语速模型；

当异常情况为惊吓情况下，则通过声学模型训练元音音素在惊吓情况下相应的转变特征、能量和语速模型；

当异常情况为愤怒情况下，则通过声学模型训练元音音素在愤怒情况下相应的转变特征、能量和语速模型；

当异常情况为拘谨情况下，则通过声学模型训练元音音素在拘谨情况下相应的转变特征、能量和语速模型。

6.根据权利要求1所述的基于高斯模型模拟共鸣腔的语音合成方法，其特征在于，

所述从步骤二提取的被模拟人的语速特征和/或强度特征与现有强度模型进行匹配，具体为：

提取说话人正常情况时和/或异常情况时的语速、强度特征，将该特征与现有强度模型进行匹配，查找各种情况下的相似度，并根据相似度选取与被模拟人相似的强度模型。

7.根据权利要求1所述的基于高斯模型模拟共鸣腔的语音合成方法，其特征在于，

所述通过相似度来调整高斯模型的参数，具体为：

当所述说话人发一个元音时，则对该元音发音时的共鸣腔建立高斯模型，依次使用多个元音发音时的共鸣腔特征来调整高斯模型的参数。

8.一种终端设备，其特征在于，

所述终端设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行实现如权利要求1至7任一项所述的基于高斯模型模拟共鸣腔的语音合成方法步骤。

9.一种计算机可读存储介质，其特征在于，

所述计算机可读存储介质上存储有处理系统，所述处理系统被处理器执行时实现权利要求1至7中任一项所述的基于高斯模型模拟共鸣腔的语音合成方法步骤。