CN107833572A

CN107833572A - 一种模拟用户说话的语音合成方法及系统

Info

Publication number: CN107833572A
Application number: CN201711080690.6A
Authority: CN
Inventors: 孟猛
Original assignee: Yutou Technology Hangzhou Co Ltd
Current assignee: Yutou Technology Hangzhou Co Ltd
Priority date: 2017-11-06
Filing date: 2017-11-06
Publication date: 2018-03-23

Abstract

本发明公开了一种模拟用户说话的语音合成方法及系统，属于语音合成技术领域；方法包括步骤S1，获取外部输入的一段待模拟语音；步骤S2，将待模拟语音识别为对应的包括多个顺序排列的基本音子的发音文本；步骤S3，根据待模拟语音分别处理得到发音文本中每个基本音子的发音时段信息；步骤S4，将发音文本和发音时段信息送入包括一预先训练形成的语音合成模型的语音合成器中，以得到对应于待模拟语音的合成语音并输出。系统包括语音获取单元、语音识别单元、处理单元以及合成单元。上述技术方案的有益效果是：体现语音模拟应用的音色一致性，突出应用本身的个性特点，同时提供给用户更有特色的合成语音，提升用户的使用体验。

Description

一种模拟用户说话的语音合成方法及系统

技术领域

本发明涉及语音合成技术领域，尤其涉及一种模拟用户说话的语音合成方法及系统。

背景技术

随着语音识别和语音合成技术的日渐发展，越来越多具有趣味性的语音模拟应用进入人们的娱乐生活。语音模拟应用的作用主要为模仿用户说话，即用户说一句话，语音模拟应用可以直接对用户的语音进行变声处理再输出，以达到“学舌”的娱乐目的。

现有的语音模拟应用通常只是对用户输入的语音进行简单的变换处理就输出来达到模拟用户说话的目的。例如对于不同音色的声音输入，语音模拟应用会进行相同的变换(例如对基频、音色或者语速进行简单的变换处理)，所得到的声音音色仍然是各不相同的，这样的后果是应用本身的音色没有一致性，给用户的体验就像面对一面镜子的感觉，

发明内容

根据现有技术中存在的上述问题，现提供一种模拟用户说话的语音合成方法及系统的技术方案，旨在体现语音模拟应用的音色一致性，突出应用本身的个性特点，同时提供给用户更有特色的合成语音，提升用户的使用体验。

上述技术方案具体包括：

一种模拟用户说话的语音合成方法，其中，包括：

步骤S1，获取外部输入的一段待模拟语音；

步骤S2，将所述待模拟语音识别为对应的包括多个顺序排列的基本音子的发音文本；

步骤S3，根据所述待模拟语音分别处理得到所述发音文本中每个基本音子的发音时段信息；

步骤S4，将所述发音文本和所述发音时段信息送入包括一预先训练形成的语音合成模型的语音合成器中，以得到对应于所述待模拟语音的合成语音并输出。

优选的，该语音合成方法，所述步骤S3中，所述发音时段信息包括所述基本音子的起始发音时刻和终止发音时刻。

优选的，该语音合成方法，其中，所述步骤S3中，采用维特比方法分别处理得到每个所述基本音子的所述发音时段信息。

优选的，该语音合成方法，其中，所述步骤S1中，在获取所述待模拟语音时，获取所述待模拟语音的基频信息；

则所述步骤S4中，将所述待模拟语音的所述基频信息作为所述语音合成器的基频信息，以处理得到所述合成语音。

优选的，该语音合成方法，其中，所述步骤S4中，采用所述语音合成器中预设的音色处理得到所述合成语音。

一种模拟用户说话的语音合成系统，其中，包括：

语音获取单元，用于获取外部输入的一段待模拟语音；

语音识别单元，连接所述语音获取单元，用于将所述待模拟语音识别为对应的发音文本，所述发音文本中包括多个顺序排列的基本音子；

处理单元，连接所述语音识别单元，用于根据所述待模拟语音分别处理得到所述发音文本中每个基本音子的发音时段信息；

合成单元，分别连接所述处理单元和所述语音获取单元，所述合成单元中预先训练形成一语音合成模型，所述合成单元用于将所述发音文本和所述发音时段信息所述语音合成模型中，以得到对应于所述待模拟语音的合成语音并输出。

优选的，该语音合成系统，其中，所述发音时段信息包括所述基本音子的起始发音时刻和终止发音时刻。

优选的，该语音合成系统，其中，所述语音获取单元具体包括：

第一获取模块，用于获取所述待模拟语音；

第二获取模块，连接所述第一获取模块，用于获取所述待模拟语音的基频信息；

则所述合成单元将所述待模拟语音的所述基频信息作为在所述语音合成模型中进行语音合成时应用的基频信息，以处理得到所述合成语音。

优选的，该语音合成系统，其中，所述合成单元为语音合成器。

优选的，该语音合成系统，其中，于所述语音合成器中预先设置有用于形成预设的音色的合成器参数；

所述合成单元采用所述合成器参数，以所述预设的音色处理得到所述合成语音。

上述技术方案的有益效果是：

1)提供一种模拟用户说话的语音合成方法，能够体现语音模拟应用的音色一致性，突出应用本身的个性特点，同时提供给用户更有特色的合成语音，提升用户的使用体验。

2)提供一种模拟用户说话的语音合成系统，能够支持实现上述语音合成方法。

附图说明

图1是本发明的较佳的实施例中，一种模拟用户说话的语音合成方法的总体流程示意图；

图2是本发明的较佳的实施例中，一种模拟用户说话的语音合成方法的总体结构示意图；

图3是本发明的较佳的实施例中，于图2的基础上，语音获取单元的具体结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

根据现有技术中存在的上述问题，现提供一种模拟用户说话的语音合成方法，该方法可以适用在语音模拟应用中。

该方法具体如图1中所示，包括：

步骤S1，获取外部输入的一段待模拟语音；

步骤S2，将待模拟语音识别为对应的包括多个顺序排列的基本音子的发音文本；

步骤S3，根据待模拟语音分别处理得到发音文本中每个基本音子的发音时段信息；

步骤S4，将发音文本和发音时段信息送入包括一预先训练形成的语音合成模型的语音合成器中，以得到对应于待模拟语音的合成语音并输出。

具体地，本实施例中，上述步骤S1中，首先获取用户输入到语音模拟应用中的一段语音，并将这段语音视作待模拟语音。在用户结束语音输入后，将这段待模拟语音送入后续进行语音识别和模拟合成语音的过程中。

本实施例中，上述步骤S2中，采用语音识别技术将待模拟语音识别为对应的发音文本，上述语音识别过程中，可以采用现有的语音识别技术来将语音识别为对应的文本，在此不再赘述。

本实施例中，上述发音文本中的每个文字都可以由对应的基本音子(即音素)构成，具体地可以参照现有技术中各自语言的音子对照表来将上述发音文本中的每个文字转换成对应的基本音子。

随后，上述步骤S3中，分别获取每个基本音子的发音时段信息。具体地，通过对待模拟语音的变换和分析可以获知每个基本音子在待模拟语音中对应的位置，随后可以采用得到每个基本音子在待模拟语音中对应的发音时段，并且以发音时段信息来表示。

本实施例中，最终将上述发音文本以及文本中每个基本音子的发音时段信息送入语音合成器中，以合成得到模拟用户发音的合成语音。具体地，上述语音合成器中预先训练形成了一语音合成模型。该语音合成模型采用现有技术中的语音合成模型实现，例如采用一些通用的TTS(从文本到语言，Text To Speech)引擎来实现上述语音合成模型。基于上述理由，本发明技术方案中不再赘述上述语音合成模型的具体构成、训练步骤以及采用该语音合成模型合成语音等具体过程。

本发明的较佳的实施例中，上述发音时段信息包括基本音子的起始发音时刻和终止发音时刻。换言之，本发明技术方案中，采用一个基本音子的起始发音时刻和终止发音时刻来定义该基本音子在整段待模拟语音中所处的发音时间。并且，用户说话的节奏反映为语音中各基本音子的发音持续时间长短的变化，例如音子的发音持续时间越长说明用户说话越缓慢，对应地音子的发音时间越短说明用户说话越急促。当将所有基本音子的发音时段信息被确定之后，整段待模拟语音的发音时长和每个基本音子的发音时间点就被确定了，这有助于更好地对用户说的话进行节奏模拟。

对用户说话的语调进行模拟，是通过提取用户的语音基频信息，并将该基频信息应用到最终合成语音中来实现的。进一步地，本发明的较佳的实施例中，采用维特比(veterbi)方法来处理得到发音文本中基本音子的时间对齐信息，即采用维特比方法来处理得到发音文本中各基本音子的发音时段信息。

本发明的较佳的实施例中，上述步骤S1中，在获取待模拟语音时，获取待模拟语音的基频信息；

则步骤S4中，将待模拟语音的基频信息作为语音合成器的基频信息，以处理得到合成语音。

具体地，本实施例中，在获取待模拟语音的同时提取用户的基频信息，并且通过将语音合成器中输出的原始的基频信息替换成用户的基频信息的方式在最终的合成语音中模拟用户说话的腔调，即实现按照用户说话的腔调重复用户语音的目的。

本发明的较佳的实施例中，上述步骤S4中，采用语音合成器中预设的音色处理得到合成语音。

因此，本发明技术方案中，将用户输入的语音转换成发音文本，并且利用维特比方法得到发音文本中各基本音子的发音时段信息，将发音文本和发音时段信息送入语音合成器中，并且利用用户输入语音时的基频信息替换掉语音合成器中预设的基频信息，以及利用语音合成器中预设的音色，最终形成以语音合成器自身的音色模拟形成的合成语音，该合成语音能够按照用户说话的腔调来重复用户的语音。

本发明的较佳的实施例中，基于上文中所述的模拟用户说话的语音合成方法，还提供一种模拟用户说话的语音合成系统。该系统同样可以适用在语音模拟应用中。

该语音合成系统的结构具体如图2中所示，包括：

语音获取单元1，用于获取外部输入的一段待模拟语音；

语音识别单元2，连接语音获取单元1，用于将待模拟语音识别为对应的发音文本，发音文本中包括多个顺序排列的基本音子；

处理单元3，连接语音识别单元2，用于根据待模拟语音分别处理得到发音文本中每个基本音子的发音时段信息；

合成单元4，分别连接处理单元3和语音获取单元1，合成单元中预先训练形成一语音合成模型，合成单元4用于将发音文本和发音时段信息语音合成模型中，以得到对应于待模拟语音的合成语音并输出。

本发明的较佳的实施例中，如上文中所述，上述发音时段信息包括基本音子的起始发音时刻和终止发音时刻。

本发明的较佳的实施例中，如图3中所示，上述语音获取单元1具体包括：

第一获取模块11，用于获取待模拟语音；

第二获取模块12，连接第一获取模块11，用于获取待模拟语音的基频信息；

则合成单元4将待模拟语音的基频信息作为在语音合成模型中进行语音合成时应用的基频信息，以处理得到合成语音。

本发明的较佳的实施例中，上述合成单元4为语音合成器。

本发明的较佳的实施例中，于语音合成器中预先设置有用于形成预设的音色的合成器参数；

则上述合成单元4采用合成器参数，以预设的音色处理得到合成语音。

具体地，上述合成器参数可以包括共振峰、基频信息、基频波动比信息语速以及相关的情绪参数等，通过预设合成器参数可以对一个语音合成器的音色做个性化的设置，进而对一个具体的语音模拟应用做有特色的个性化设置。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种模拟用户说话的语音合成方法，其特征在于，包括：

步骤S1，获取外部输入的一段待模拟语音；

2.如权利要求1所述的语音合成方法，所述步骤S3中，所述发音时段信息包括所述基本音子的起始发音时刻和终止发音时刻。

3.如权利要求1所述的语音合成方法，其特征在于，所述步骤S3中，采用维特比方法分别处理得到每个所述基本音子的所述发音时段信息。

4.如权利要求1所述的语音合成方法，其特征在于，所述步骤S1中，在获取所述待模拟语音时，获取所述待模拟语音的基频信息；

5.如权利要求1所述的语音合成方法，其特征在于，所述步骤S4中，采用所述语音合成器中预设的音色处理得到所述合成语音。

6.一种模拟用户说话的语音合成系统，其特征在于，包括：

语音获取单元，用于获取外部输入的一段待模拟语音；

7.如权利要求6所述的语音合成系统，其特征在于，所述发音时段信息包括所述基本音子的起始发音时刻和终止发音时刻。

8.如权利要求6所述的语音合成系统，其特征在于，所述语音获取单元具体包括：

第一获取模块，用于获取所述待模拟语音；

9.如权利要求6所述的语音合成系统，其特征在于，所述合成单元为语音合成器。

10.如权利要求9所述的语音合成系统，其特征在于，于所述语音合成器中预先设置有用于形成预设的音色的合成器参数；