CN109599092A

CN109599092A - 一种音频合成方法及装置

Info

Publication number: CN109599092A
Application number: CN201811575024.4A
Authority: CN
Inventors: 唐大闰; 徐浩; 吴明辉
Original assignee: Miaozhen Systems Information Technology Co Ltd
Current assignee: Miaozhen Systems Information Technology Co Ltd
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2019-04-09
Anticipated expiration: 2038-12-21
Also published as: CN109599092B

Abstract

本发明提供了一种音频合成方法及装置，其中，该方法包括：获取待合成音频的文本信息；将所述文本信息转换成音素信息序列；预测所述音素信息序列中每一音素的发音持续时间和基频；根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成。通过本发明，可以解决相关技术中经过多次合成优化语音效果不佳，听起来感觉不自然的问题，通过预测音素的持续发音数据和基频，根据才的结果合成语音，使得合成的语音更自然。

Description

一种音频合成方法及装置

技术领域

本发明涉及通信领域，具体而言，涉及一种音频合成方法及装置。

背景技术

人工智能(Artificial Intelligence，简称为AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、语音合成、图像识别、自然语言处理和专家系统等。其中，语音合成技术是计算机科学领域与人工智能领域中的一个重要方向。

语音合成的目的实现从文本到语音，是将计算机合成的、或者外部输入的文本转变为口语输出的技术，具体是将文本转换为对应的语音信号波形的技术。

语音合成时，为了防止效果太生硬，都会对语音进行优化。但是同一句话，合成两次，依然是一模一样的，很容易感觉不自然。

针对相关技术中经过多次合成优化语音效果不佳，听起来感觉不自然的问题，尚未提出解决方案。

发明内容

本发明实施例提供了一种音频合成方法及装置，以至少解决相关技术中经过多次合成优化语音效果不佳，听起来感觉不自然的问题。

根据本发明的一个实施例，提供了一种音频合成方法，包括：

获取待合成音频的文本信息；

将所述文本信息转换成音素信息序列；

预测所述音素信息序列中每一音素的发音持续时间和基频；

根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成。

可选地，根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成包括：

对所述文本信息进行分析；

对预测的所述发音持续时间和所述基频进行调整；

根据调整后的所述发音持续时间和所述基频对所述音素信息序列进行音频合成。

可选地，对预测的所述发音持续时间和所述基频进行调整包括：

根据神经网络训练得到的音素与发音持续时间的对应关系调整预测的所述发音持续时间；

根据神经网络训练得到的音素与基频的对应关系调整预测的所述基频。

可选地，根据调整后的所述发音持续时间和所述基频对所述音素信息序列进行音频合成包括：

获取所述文本信息中语气词对应的音素；

增加所述语气词对应的音素的发音持续时间，以及所述语气词对应的音素之后停顿的时间；

将所述音素信息序列中每一音素按照调整后的所述发音持续时间、所述语气词对应的音素之后停顿的时间以及所述基频进行拼接合成音频。

获取预先保存的噪音和回音；

根据预测的所述发音持续时间、所述基频、所述噪音以及所述回音对所述音素信息序列进行音频合成。

根据本发明的另一个实施例，还提供了一种音频合成装置，包括：

获取模块，用于获取待合成音频的文本信息；

转换模块，用于将所述文本信息转换成音素信息序列；

预测模块，用于预测所述音素信息序列中每一音素的发音持续时间和基频；

合成模块，用于根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成。

可选地，所述合成模块包括：

分析单元，用于对所述文本信息进行分析；

调整单元，用于对预测的所述发音持续时间和所述基频进行调整；

第一合成单元，用于根据调整后的所述发音持续时间和所述基频对所述音素信息序列进行音频合成。

可选地，所述调整单元，还用于

可选地，所述第一合成单元，还用于

获取所述文本信息中语气词对应的音素；

可选地，所述合成模块包括：

获取单元，用于获取预先保存的噪音和回音；

第二合成单元，用于根据预测的所述发音持续时间、所述基频、所述噪音以及所述回音对所述音素信息序列进行音频合成。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，获取待合成音频的文本信息；将所述文本信息转换成音素信息序列；预测所述音素信息序列中每一音素的发音持续时间；预测所述音素信息序列中每一音素的基频；根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成。因此，可以解决相关技术中经过多次合成优化语音效果不佳，听起来感觉不自然的问题，通过预测音素的持续发音数据和基频，根据才的结果合成语音，使得合成的语音更自然。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种音频合成方法的移动终端的硬件结构框图；

图2是根据本发明实施例的音频合成方法的流程图；

图3是根据本发明实施例的增强真实感音频合成的流程图；

图4是根据本发明实施例的音频合成装置的框图；

图5是根据本发明优选实施例的音频合成装置的框图一；

图6是根据本发明优选实施例的音频合成装置的框图二。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种音频合成方法的移动终端的硬件结构框图，如图1所示，移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的报文接收方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

基于上述的移动终端，本实施例提供了一种音频合成方法，应用于服务器，图2是根据本发明实施例的音频合成方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取待合成音频的文本信息；

步骤S204，将所述文本信息转换成音素信息序列；

步骤S206，预测所述音素信息序列中每一音素的发音持续时间和基频；

步骤S208，根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成。

通过步骤S202至S208，获取待合成音频的文本信息；将所述文本信息转换成音素信息序列；预测所述音素信息序列中每一音素的发音持续时间；预测所述音素信息序列中每一音素的基频；根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成，可以解决相关技术中经过多次合成优化语音效果不佳，听起来感觉不自然的问题，通过预测音素的持续发音数据和基频，根据才的结果合成语音，使得合成的语音更自然。

进一步地，上述步骤S206中，预测所述音素信息序列中每一音素的基频可以具体包括：

将所述文本信息转化为语音特征帧序列，其中，每一音素对应多个所述语音特征帧；

预测所述语音特征帧序列中的每一语音特征帧是否为基频帧，以形成所述基频的预测结果。

进一步地，在预测所述语音特征帧序列中的每一语音特征帧是否为基频帧，以形成所述基频的预测结果之后，所述方法还可以包括：

判断所述音素信息序列中每一音素是否为含基频信息音素，以形成辅助信息；

将所述音素信息序列与所述语音特征帧序列相对应，并根据所述辅助信息修正所述基频的预测结果。

本发明实施例中，上述步骤S208具体可以包括：

S2081，对所述文本信息进行分析；

S2082，对预测的所述发音持续时间和所述基频进行调整；

S2083，根据调整后的所述发音持续时间和所述基频对所述音素信息序列进行音频合成。

在一个可选的实施例中，步骤S2082具体可以包括：

本发明实施例中，在调整预测的发音持续时间和基频之前，需要通过神经网络对大量数据进行训练，训练出音素与发音持续时间的对应关系、音素与基频的对应关系，当然音素很可能不是对应一个确切的发音持续时间和基频，而是对应于一个发音持续时间范围和基频范围，只要在对应发音持续范围和基频范围内调整即可。

在另一个可选的实施例中，步骤S2083具体可以包括：

获取所述文本信息中语气词对应的音素；

在一个可选的实施例中，为了使得合成的音频更接近真实的声音，还可以在音频合成过程中增加噪音和回音，具体地，上述步骤208具体还可以包括：

获取预先保存的噪音和回音；

本发明实施例中，还可以一下方式增强真实感：声音的沙哑程度，呼吸音，齿音等，当然呼吸音和齿音也可以作为噪音在合成过程中进行添加。

下面举例对本发明实施例进行说明。

图3是根据本发明实施例的增强真实感音频合成的流程图，如图4所示，包括：

S302，将文本转换成音素。

S304，预测各音素的发音持续时间。

S306，预测各音素的基频，决定了语音合成后的音色。

S308，对音素进行真实感增强。

通过对本次对话的上下文分析，对预测得到的持续时间+基频适当变形，并增加部分语气词发音、停顿：1、持续时间变化；2、基频微调；3、增加背景噪音、回音混响；4、在句首、句尾增加语气词，停顿。目的都是为了增强真实感。

持续时间扰动的可能实现之一：为一个循环神经网络，输入为在该时间点之前，合成的n句话中音素的持续时间数据(n可固定为3或者4等等)+本句话中所有音素原有的持续时间。输出为本句话所有音素的经过扰动的持续时间。该神经网络的训练数据，使用人工设计的，更自然的合成语音的因素的持续时间。

基频微调的可能实现之一：为一个循环神经网络，输入为在该时间点之前，合成的n句话中音素的基频变化数据(n可固定为3或者4等等)+本句话中所有音素原有的基频。输出为本句话所有音素的经过微调的基频。该神经网络的训练数据，使用人工设计的，更自然的合成语音的因素的基频数据。

语气词、停顿追加：根据对话的上一句内容，提取关键词等信息，决定本句的语气词及停顿情况。例如上一句是一个问题，本句可以适当停顿模拟思考。

背景噪音、回音混响追加：可以添加白噪音、马路噪音、市场噪音等。可认为设定。

S310，将各音素按照持续时间、基频以及背景噪音进行拼接得到最终合成的音频。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例3

在本实施例中还提供了一种音频合成装置，应用于服务器，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本发明实施例的音频合成装置的框图，如图4所示，包括：

获取模块42，用于获取待合成音频的文本信息；

转换模块44，用于将所述文本信息转换成音素信息序列；

预测模块46，用于预测所述音素信息序列中每一音素的发音持续时间和基频；

合成模块48，用于根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成。

图5是根据本发明优选实施例的音频合成装置的框图一，如图5所示，所述合成模块48包括：

分析单元52，用于对所述文本信息进行分析；

调整单元54，用于对预测的所述发音持续时间和所述基频进行调整；

第一合成单元56，用于根据调整后的所述发音持续时间和所述基频对所述音素信息序列进行音频合成。

可选地，所述调整单元54，还用于

可选地，所述第一合成单元56，还用于

获取所述文本信息中语气词对应的音素；

图6是根据本发明优选实施例的音频合成装置的框图二，如图6所示，所述合成模块48包括：

获取单元62，用于获取预先保存的噪音和回音；

第二合成单元64，用于根据预测的所述发音持续时间、所述基频、所述噪音以及所述回音对所述音素信息序列进行音频合成。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S11，获取待合成音频的文本信息；

S12，将所述文本信息转换成音素信息序列；

S13，预测所述音素信息序列中每一音素的发音持续时间和基频；

S14，根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

实施例4

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S11，获取待合成音频的文本信息；

S12，将所述文本信息转换成音素信息序列；

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频合成方法，其特征在于，包括：

获取待合成音频的文本信息；

将所述文本信息转换成音素信息序列；

预测所述音素信息序列中每一音素的发音持续时间和基频；

2.根据权利要求1所述的方法，其特征在于，所述根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成包括：

对所述文本信息进行分析；

对预测的所述发音持续时间和所述基频进行调整；

3.根据权利要求2所述的方法，其特征在于，所述对预测的所述发音持续时间和所述基频进行调整包括：

4.根据权利要求2所述的方法，其特征在于，所述根据调整后的所述发音持续时间和所述基频对所述音素信息序列进行音频合成包括：

获取所述文本信息中语气词对应的音素；

5.根据权利要求1至4所述的方法，其特征在于，所述根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成包括：

获取预先保存的噪音和回音；

6.一种音频合成装置，其特征在于，包括：

获取模块，用于获取待合成音频的文本信息；

转换模块，用于将所述文本信息转换成音素信息序列；

7.根据权利要求6所述的装置，其特征在于，所述合成模块包括：

分析单元，用于对所述文本信息进行分析；

8.根据权利要求7所述的装置，其特征在于，所述调整单元，还用于

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至5中任一项所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至5中任一项所述的方法。