CN101894547A

CN101894547A - 一种语音合成方法和系统

Info

Publication number: CN101894547A
Application number: CN2010102234937A
Authority: CN
Inventors: 李健; 张连毅; 武卫东
Original assignee: JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Current assignee: JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd; Beijing Sinovoice Technology Co Ltd
Priority date: 2010-06-30
Filing date: 2010-06-30
Publication date: 2010-11-24

Abstract

本发明提供了一种语音合成方法和系统，其中的方法具体包括：接收用户输入的文本；进行文本分析，获得与所述文本对应的音节序列，以及，该音节序列中每个音节的音节名称；针对所述音节序列中每个音节，根据其音节名称及上下文环境，结合统计参数模型，规划得到相应的时长参数和基频参数；针对所述音节序列中每个音节，根据其音节名称及上下文环境、时长参数及基频参数，从谱参数数据库中匹配得到对应的谱参数；根据所述音节序列中每个音节的时长参数、基频参数和谱参数，利用合成器得到与所述音节序列对应的语音数据。本发明能够应用于嵌入式设备，且在具有好的音质效果下有效降低数据存储空间占用。

Description

一种语音合成方法和系统

技术领域

本发明涉及语音合成技术领域，特别是涉及一种语音合成方法和系统。

背景技术

语音合成技术，又称文语转换(TTS，Text To Speech)技术，其能将任意文字信息转化为标准流畅的语音朗读出来，

目前的语音合成中，主要有两种方法：

一是波形拼接方法；

其基本思想是，预先录制一个语音库，在合成时，根据文本分析和韵律预测的结果，直接从语音库中选择出合适的录音片段，最后将所选的录音片段拼接在一起。

由于使用了原始录音，合成语音的音质可以得到保证；但是，要得到较好的合成结果，语音库需要事先存储大量的语音数据，合成结果与存储数据量的大小直接相关，即当语音库大幅减小后，其音质也会大幅下降。

例如，有些语音库至少需要1G以上的存储空间，这对于智能手机、车载终端、PDA(个人数码助理，Personal Digital Assistant)等嵌入式设备来说，是非常大的开销。

二是参数合成方法。

参数合成方法首先根据语音数据统计出一个参数模型，在合成时，根据用户的输入文本，结合参数模型规划出参数，然后再将这些参数用合成器合成。

由于所述参数模型经参数提取、模型统计得到，相对于预存储语音数据而言，此方法可以将存储空间压缩下来；但是，在参数提取、模型统计过程中会损失一些语音信息，所以，会导致合成语音的音质下降。

总之，需要本领域技术人员迫切解决的一个技术问题就是：如何能够提供一种在嵌入式设备上使用的具有好的音质效果的语音合成方法。

发明内容

本发明所要解决的技术问题是提供一种语音合成方法和系统，能够应用于嵌入式设备，且在具有好的音质效果下有效降低数据存储空间占用。

为了解决上述问题，本发明公开了一种语音合成方法，包括：

接收用户输入的文本；

进行文本分析，获得与所述文本对应的音节序列，以及，该音节序列中每个音节的音节名称；

针对所述音节序列中每个音节，根据其音节名称及上下文环境，结合统计参数模型，规划得到相应的时长参数和基频参数；

针对所述音节序列中每个音节，根据其音节名称及上下文环境、时长参数及基频参数，从谱参数数据库中匹配得到对应的谱参数；

根据所述音节序列中每个音节的时长参数、基频参数和谱参数，利用合成器得到与所述音节序列对应的语音数据。

优选的，所述谱参数数据库为通过以下步骤建立的数据库：

从原始录音数据中提取谱参数；

根据音节名称、上下文环境以及时长参数、基频参数，将对应的谱参数保存至谱参数数据库。

优选的，在保存谱参数前，所述建立数据库的步骤还包括：

对所述谱参数进行矢量量化压缩，以压缩后的谱参数进行保存操作；

所述方法还包括：

利用与压缩算法相对应的解压缩算法对匹配得到的谱参数进行还原，以解压缩后的谱参数进行语音数据的合成操作。

优选的，所述保存步骤包括：

分别对时长参数、基频参数进行分类；

根据音节名称、上下文环境以及所属的时长参数类别、基频参数类别，将对应的谱参数保存至谱参数数据库。

优选的，所述文本分析步骤包括：

对所述文本进行分词操作；

将所述文本中的数字符号转换为文字；

依据分词结果，对数字符号转换后的文本进行韵律预测；

根据韵律预测结果，将文本转换为音节序列，以及，基于音节映射表，得到该音节序列中每个音节的音节名称。

本发明还公开了一种语音合成系统，包括：

接口模块，用于接收用户输入的文本；

文本分析模块，用于进行文本分析，获得与所述文本对应的音节序列，以及，该音节序列中每个音节的音节名称；

参数规划模块，用于针对所述音节序列中每个音节，根据其音节名称及上下文环境，结合统计参数模型，规划得到相应的时长参数和基频参数；

谱参数数据库，用于根据音节名称、上下文环境以及时长参数、基频参数，存储音节所对应的谱参数；

谱参数匹配模块，用于针对所述音节序列中每个音节，根据其音节名称及上下文环境、时长参数及基频参数，从所述谱参数数据库中匹配得到对应的谱参数；

合成模块，用于根据所述音节序列中每个音节的时长参数、基频参数和谱参数，利用合成器得到与所述音节序列对应的语音数据。

优选的，所述谱参数为经过矢量量化压缩的谱参数；

所述系统还包括：

解压缩模块，用于利用与压缩算法相对应的解压缩算法对匹配得到的谱参数进行还原，所述解压缩后的谱参数作为所述合成模块的输入谱参数。

优选的，所述文本分析模块包括：

分词单元，用于对所述文本进行分词操作；

数字符号处理单元，用于将所述文本中的数字符号转换为文字；

韵律预测单元，用于依据分词结果，对数字符号转换后的文本进行韵律预测；

音节转换单元，用于根据韵律预测结果，将文本转换为音节序列，以及，基于音节映射表，得到该音节序列中每个音节的音节名称。

与现有技术相比，本发明具有以下优点：

本发明采用谱参数数据库存储特定音节的谱参数，这样，在用户输入文本时，可以从所述谱参数数据库中匹配得到与文本中音节对应的谱参数，然后将所述谱参数以及规划的时长参数、基频参数，利用合成器得到所述文本的语音数据。

由于相对于时长参数、基频参数而言，谱参数是最能表现发音人特色的音频参数，而且相对于特定音节来说也是最稳定的参数，其没有经过统计量化，因而，相对于现有技术采用经过统计训练的谱参数，本发明合成的语音数据更接近真人发音，音色更饱满圆润；而且，由于所述谱参数数据库仅需存储每个音节的若干个谱参数，故相对于现有的语音库，本发明可以大大降低数据存储空间。

进一步，本发明还可以在保证听感不受损失的前提下，对谱参数进行矢量量化压缩，以进一步降低数据存储空间。

附图说明

图1是本发明一种语音合成方法实施例的流程图；

图2是本发明一种语音合成系统实施例的结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一在于，采用谱参数数据库存储特定音节的谱参数，这样，在用户在线输入文本时，可以根据文本中音节名称和上下文环境，以及，基于统计参数模型规划出的时长、基频参数，从所述谱参数数据库中匹配得到对应的谱参数，然后利用合成器得到所述文本的语音数据。

参照图1，示出了本发明一种语音合成方法实施例的流程图，具体可以包括：

步骤101、接收用户输入的文本；

所述用户输入的文本可以包括文字和数字符号，其中，所述文字可以是汉字、日文、韩文、英文等，或者，上述多种文字中的一种或者几种，如汉英组合等等，本发明对具体的文本不加以限制，以下主要以汉字为例。

步骤102、进行文本分析，获得与所述文本对应的音节序列，以及，该音节序列中每个音节的音节名称；

以下具体的文本“北京在2008-8-8举行了盛大的奥运会开幕式”为例，对所述文本分析步骤进行说明，具体可以包括：

子步骤A1、对所述文本进行分词操作；

分词结果：北京/在/2008-8-8/举行/了/盛大/的/奥运会/开幕式

子步骤A2、将所述文本中的数字符号转换为文字；

对应本例，所述数字符号转换也即，将“2008-8-8”转换为“二零零八年八月八日”，数字符号转换后的文本为“北京在二零零八年八月八日举行了盛大的奥运会开幕式”。

子步骤A3、依据分词结果，对数字符号转换后的文本进行韵律预测；

韵律预测结果：北京在二零零八年八月八日/举行了盛大的奥运会开幕式

子步骤A4、根据韵律预测结果，将文本转换为音节序列，以及，基于音节映射表，得到该音节序列中每个音节的音节名称。

音节序列：bei3 jing1 zai4 er4 ling2 ling2 ba1 nian2 ba1 yue 4 ba1 ri4Ju3 xing2 le5 sheng4 da4 de5 ao4 yun4 hui4 kai1 mu4 shi4

其中，数字12345代表声调，分别为一声、二声、三声、四声、轻声。在实际中，汉字音节的音节名称可通过查询汉字音节映射表得到，例如上例中的“bei3”即是音节名称。

步骤103、针对所述音节序列中每个音节，根据其音节名称及上下文环境，结合统计参数模型，规划得到相应的时长参数和基频参数；

所述上下文环境主要是指音节的位置信息，可以包括句首、句中和句末；对应上例，“bei3”的上下文环境是句首，而“ling2”的上下文环境则是句中。

在实际中，所述统计参数模型可通过离线训练得到，其存储有音节在不同上下文环境下所对应的参数。

例如，离线时，针对时长参数训练第一统计模型，针对基频参数训练第二统计模型；那么，在线规划时，可以直接从所述第一统计模型得到与音节相应的时长参数，以及，从所述第二统计模型得到与音节相应的基频参数。

步骤104、针对所述音节序列中每个音节，根据其音节名称及上下文环境、时长参数及基频参数，从谱参数数据库中匹配得到对应的谱参数；

在实际中，可通过以下离线步骤建立谱参数数据库：

步骤B1、从原始录音数据中提取谱参数；

作为录音素材，所述原始录音数据可直接从现有语音库中得到，本发明对此不加以限制。

谱参数可以用多种方法来描述，由于在量化特征和内插特性方面具有明显的优势，LSP(线谱对，Line Spectrum Pair)在编码中得到广泛的应用，故本发明实施例优先选用LSP来描述谱参数。

步骤B2、根据音节名称、上下文环境以及时长参数、基频参数，将对应的谱参数保存至谱参数数据库。

在具体实现中，所述子步骤B2可以进一步包括：

子步骤C1、分别对时长参数、基频参数进行分类；

子步骤C2、根据音节名称、上下文环境以及所属的时长参数类别、基频参数类别，将对应的谱参数保存至谱参数数据库。

例如，时长参数1到2为一类，2到3为一类；然后将音节名称、上下文环境以及所属的时长参数类别、基频参数类别等组合对应一个谱参数。相应地，在匹配时，应分别获取音节的时长参数及基频参数所属的类别，然后，从所述谱参数数据库中得到与该音节相应的谱参数。

由于所述谱参数数据库仅需存储音节的谱参数，具体地，对于一个音节而言，仅需存储其在不同上下文环境下的若干个谱参数，因而，相对于现有的语音库，可以降低数据存储空间。

步骤105、根据所述音节序列中每个音节的时长参数、基频参数和谱参数，利用合成器得到与所述音节序列对应的语音数据。

例如，可以采用LPC(线性预测编码，linear predictive coding)滤波器作为合成器，本发明对具体的合成器不加以限制。

为进一步降低数据存储空间，在本发明的一种优选实施例中，在步骤B2前，所述建立谱参数数据库的步骤还可以包括如下步骤：

相应地，所述语音合成方法还可以包括：

离线时，可首先将所述谱参数压缩成码字序列，然后为该码字序列建立一个索引标记，并将该索引标记和码字序列一起放入所述谱参数数据库中，其中，可以采用拼音、一些特殊符号的字符等符号来表示所述索引标记，可以使用HASH(哈希)表等方式建立索引表。

在线匹配时，可以首先查阅所述索引表得到索引标记，也即得到音节的码字序列，然后，通过与编码压缩相应的解压缩算法还原出未经压缩的谱参数。

本发明所采用的压缩算法可以是任意一种能够满足嵌入式设备存储空间要求、且能够达到听觉要求(用户满意)的算法。因此，本优选实施例能够在听感不受损失的前提下，进一步降低数据存储空间。

参照图2，示出了本发明一种语音合成系统实施例的结构图，具体可以包括：

接口模块201，用于接收用户输入的文本；

文本分析模块202，用于进行文本分析，获得与所述文本对应的音节序列，以及，该音节序列中每个音节的音节名称；

参数规划模块203，用于针对所述音节序列中每个音节，根据其音节名称及上下文环境，结合统计参数模型，规划得到相应的时长参数和基频参数；

谱参数数据库204，用于根据音节名称、上下文环境以及时长参数、基频参数，存储音节所对应的谱参数；

谱参数匹配模块205，用于针对所述音节序列中每个音节，根据其音节名称及上下文环境、时长参数及基频参数，从所述谱参数数据库中匹配得到对应的谱参数；

合成模块206，用于根据所述音节序列中每个音节的时长参数、基频参数和谱参数，利用合成器得到与所述音节序列对应的语音数据。

在实际中，所述文本分析模块202可以进一步包括：

分词单元，用于对所述文本进行分词操作；

本发明可以采用如下离线装置建立所述谱参数数据库204，所述离线装置具体可以包括：

提取模块D1，用于从原始录音数据中提取谱参数；

保存模块D2，用于根据音节名称、上下文环境以及时长参数、基频参数，将对应的谱参数保存至谱参数数据库。

在具体实现中，所述保存模块D2可以进一步包括如下单元结构：

分类单元E1，用于分别对时长参数、基频参数进行分类；

保存单元E2，根据音节名称、上下文环境以及所属的时长参数类别、基频参数类别，将对应的谱参数保存至谱参数数据库。

由于所述谱参数数据库仅需存储一个音节的若干个谱参数，因而，相对于现有的语音库，可以降低数据存储空间。

为进一步降低数据存储空间，在本发明的一种优选实施例中，可对所述谱参数进行矢量量化压缩；

此时，所述系统还可以包括：

解压缩模块，用于利用与压缩算法相对应的解压缩算法对匹配得到的谱参数进行还原，所述解压缩后的谱参数作为所述合成模块的输入信号。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例无需过大的存储空间，可以应用于智能手机、车载终端、PDA等嵌入式设备中，且可以提供更接近真人发音、音色饱满圆润的语音。

以上对本发明所提供的一种语音合成方法和系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音合成方法，其特征在于，包括：

接收用户输入的文本；

2.如权利要求1所述的方法，其特征在于，所述谱参数数据库为通过以下步骤建立的数据库：

从原始录音数据中提取谱参数；

3.如权利要求2所述的方法，其特征在于，在保存谱参数前，所述建立数据库的步骤还包括：

所述方法还包括：

4.如权利要求2所述的方法，其特征在于，所述保存步骤包括：

分别对时长参数、基频参数进行分类；

5.如权利要求1所述的方法，其特征在于，所述文本分析步骤包括：

对所述文本进行分词操作；

将所述文本中的数字符号转换为文字；

依据分词结果，对数字符号转换后的文本进行韵律预测；

6.一种语音合成系统，其特征在于，包括：

接口模块，用于接收用户输入的文本；

7.如权利要求6所述的系统，其特征在于，所述谱参数为经过矢量量化压缩的谱参数；

所述系统还包括：

8.如权利要求6所述的系统，其特征在于，所述文本分析模块包括：

分词单元，用于对所述文本进行分词操作；