CN105304080A

CN105304080A - 语音合成装置及方法

Info

Publication number: CN105304080A
Application number: CN201510607820.1A
Authority: CN
Inventors: 孙见青; 王影; 江源; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2015-09-22
Filing date: 2015-09-22
Publication date: 2016-02-03
Anticipated expiration: 2035-09-22
Also published as: CN105304080B

Abstract

本发明公开了一种语音合成装置及方法，该装置包括：模型构建模块，用于预先根据收集的大量发音人语音数据构建语音合成模型；接收模块，用于接收用户的待合成文本；风格确定模块，用于确定合成语音风格；模型修正模块，用于根据合成语音风格对所述语音合成模型进行修正，以使修正后的语音合成模型适应所述合成语音风格；合成模块，用于利用所述修正后的语音合成模型对所述待合成文本进行语音合成，得到合成语音数据。利用本发明，可以使合成语音的风格更丰富自然，有效提高用户体验，增加娱乐性。

Description

语音合成装置及方法

技术领域

本发明涉及语音合成领域，具体涉及一种语音合成装置及方法。

背景技术

语音合成又称文语转换，其主要功能是将文本转换成语音，并尽可能使合成语音有较高的可懂度和自然度。随着语音合成需求的日益增加，人们对合成语音的要求越来越多样性。合成语音应该以一种能够重新产生自然重读和感情的方式传递信息，最好可以体现出较强的韵律感，合成具有独特特征风格的语音，如感情色彩较重的小说朗读风格、评书风格，及不同表现的幽默风格等非正式的合成语音风格，从而增加合成语音的多样性，满足人们的不同需求。

目前，合成不同风格的语音主要做法是基于规则的方法对合成语音进行调整，比如将合成后的语音数据的基频调整为80到150之间。这种方法不能考虑到每种风格语音的细节，从而使特定风格在合成语音上不能很好的体现，造成调整后的语音自然度较低，进而降低了用户体验。

发明内容

本发明提供一种语音合成装置及方法，以解决现有技术中基于规则的方法调整后的语音自然度较低的问题。

为此，本发明提供如下技术方案：

一种语音合成装置，包括：

模型构建模块，用于预先根据收集的大量发音人语音数据构建语音合成模型；

接收模块，用于接收用户的待合成文本；

风格确定模块，用于确定合成语音风格；

模型修正模块，用于根据合成语音风格对所述语音合成模型进行修正，以使修正后的语音合成模型适应所述合成语音风格；

合成模块，用于利用所述修正后的语音合成模型对所述待合成文本进行语音合成，得到合成语音数据。

优选地，所述风格确定模块包括以下任意一种或多种子模块：

第一确定子模块，用于向用户提供可选的合成语音风格类型或风格语音数据，根据用户的选择确定待合成文本的合成语音风格；

第二确定子模块，用于根据用户提供的风格语音数据确定待合成文本的合成语音风格，所述用户提供的风格语音数据是用户通过朗读文本并录音得到的，所述文本是推荐给用户的文本或者是用户自选的文本；

第三确定子模块，用于根据待合成文本的风格标注信息或内容确定待合成文本的合成语音风格，所述待合成文本对应一个或多个风格标注信息，不同风格标注信息对应所述待合成文本中不同的文本段；

第四确定子模块，用于根据用户的日志信息确定待合成文本的合成语音风格。

优选地，所述模型修正模块包括：

语音数据获取单元，用于获取与所述合成语音风格对应的风格语音数据；

语音识别单元，用于对所述风格语音数据进行语音识别，得到识别文本；

特征提取单元，用于分别提取所述识别文本的韵律特征及所述风格语音数据的声学特征；

修正单元，用于将所述韵律特征和声学特征作为风格特征对所述语音合成模型进行修正，得到修正后的语音合成模型。

优选地，所述语音合成模型包括：时长合成模型、基频合成模型、频谱合成模型；

所述修正单元利用最大似然线性回归MLLR算法或最大后验概率MAP算法对所述时长合成模型、基频合成模型、频谱合成模型的能量维进行修正。

优选地，所述模型修正模块还包括：

预处理单元，用于去除所述语音数据获取单元获取的风格语音数据中的噪声，并将去噪后的风格语音数据传送给所述语音识别单元。

一种语音合成方法，包括：

预先根据收集的大量发音人语音数据构建语音合成模型；

接收用户的待合成文本；

确定合成语音风格；

根据合成语音风格对所述语音合成模型进行修正，以使修正后的语音合成模型适应所述合成语音风格；

利用所述修正后的语音合成模型对所述待合成文本进行语音合成，得到合成语音数据。

优选地，所述确定合成语音风格包括以下任意一种或多种：

向用户提供可选的合成语音风格类型或风格语音数据，根据用户的选择确定待合成文本的合成语音风格；

根据用户提供的风格语音数据确定待合成文本的合成语音风格，所述用户提供的风格语音数据是用户通过朗读风格文本并录音得到的，所述风格文本是推荐给用户的文本或者是用户自选的文本；

根据待合成文本的风格标注信息或内容确定待合成文本的合成语音风格，所述待合成文本对应一个或多个风格标注信息，不同风格标注信息对应所述待合成文本中不同的文本段；

根据用户的日志信息确定待合成文本的合成语音风格。

优选地，所述根据合成语音风格对所述语音合成模型进行修正包括：

获取与所述合成语音风格对应的风格语音数据；

对所述风格语音数据进行语音识别，得到识别文本；

分别提取所述识别文本的韵律特征及所述风格语音数据的声学特征；

将所述韵律特征和声学特征作为风格特征对所述语音合成模型进行修正，得到修正后的语音合成模型。

所述将所述韵律特征和声学特征作为风格特征对所述语音合成模型进行修正包括：

利用最大似然线性回归MLLR算法或最大后验概率MAP算法对所述时长合成模型、基频合成模型、频谱合成模型的能量维进行修正。

优选地，所述根据合成语音风格对所述语音合成模型进行修正还包括：

去除所述语音数据获取单元获取的风格语音数据中的噪声，得到去噪后的风格语音数据；

所述对所述风格语音数据进行语音识别包括：

对所述去噪后的风格语音数据进行语音识别。

本发明实施例提供的语音合成装置及方法，在接收到用户的待合成文本后，首先确定目标语音的合成语音风格，然后根据该合成语音风格对预先根据收集的大量发音人语音数据构建的语音合成模型修正，使修正后的语音合成模型更加适合于所述合成语音风格。最后，利用修正后的语音合成模型对所述待合成文本进行语音合成，得到合成语音数据。由于是直接对语音合成模型进行与合成语音风格相适应的修正，从而可以使合成语音更加自然，大大提升用户体验。

进一步地，合成语音风格的确定可以根据应用环境及用户需求有多种不同实现方式，可以更好地满足用户需求，并增加娱乐性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例语音合成装置的结构框图；

图2是本发明实施例语音合成方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

如图1所示，是本发明实施例语音合成装置的结构框图，该装置包括以下各模块：

模型构建模块11，用于预先根据收集的大量发音人语音数据构建语音合成模型；

接收模块12，用于接收用户的待合成文本；

风格确定模块13，用于确定合成语音风格；

模型修正模块14，用于根据合成语音风格对所述语音合成模型进行修正，以使修正后的语音合成模型适应所述合成语音风格；

合成模块15，用于利用所述修正后的语音合成模型对所述待合成文本进行语音合成，得到合成语音数据。

具体地，首先利用韵律模型对待合成文本进行韵律分析，得到待合成文本的韵律特征；根据所述韵律特征利用修正后的基频合成模型、时长合成模型、及能量维参数修正后的频谱合成模型及待合成文本的韵律特征进行参数生成，所述参数为基频参数和频谱参数，利用所述参数进行语音合成，得到合成语音数据。

上述模型修正模块14包括：语音数据获取单元、语音识别单元、特征提取单元、修正单元。其中：

所述语音数据获取单元用于获取与所述合成语音风格对应的风格语音数据。比如，确定的合成语音风格为武侠风格，则获取武侠风格的风格语音数据。根据应用方式的不同，所述风格语音数据可以从预先建立的语音数据库中提取，也可以是用户提供的录音数据等，对此本发明实施例不做限定。

所述语音识别单元用于对所述风格语音数据进行语音识别，得到识别文本。具体地，可以采用现有技术，对风格语音数据进行特征提取、利用提取的特征及预先训练的声学模型和语言模型进行解码，根据解码结果得到所述风格语音数据对应的识别文本。

所述特征提取单元用于分别提取所述识别文本的韵律特征及所述风格语音数据的声学特征。

语音数据识别文本的风格主要表现在识别文本的韵律上，因此，可以利用预先训练好的韵律模型对识别文本进行韵律分析，得到识别文本的韵律特征，所述韵律特征主要包括识别文本对应的语法单元、韵律词、韵律短语、韵律子句、重音(即语法上需要重读的语法单元)、焦点(即用户着重说明或有意强调的语法单元)。所述韵律模型可以根据预先收集的大量文本数据构建得到，具体构建方法与现有技术相同，在此不再详述。

对于风格语音数据提取相应声学特征，由于语音数据的风格在声学上主要表现在基频、时长及语音数据的能量上，因此，在本发明实施例中，以语法单元为单位，提取所述风格语音数据的基频、时长及能量特征，作为语音数据的声学特征。所述语法单元如音素或音节；所述基频特征使用各语法单元对应语音数据赫兹数表征，所述时长特征使用各语法单元对应语音数据的时间长度表征，所述能量特征使用各语法单元对应语音数据的幅度大小表征，具体提取方法可以采用现有技术，在此不再详述。

所述修正单元用于将所述韵律特征和声学特征作为风格特征对模型构建模块预先构建的语音合成模型的能量维进行修正，得到修正后的语音合成模型。比如，可以利用MLLR(MaximumLikelihoodLinearRegression，最大似然线性回归)算法或MAP(MaximumAPosteriori，最大后验概率)算法对所述语音合成模型的能量维进行修正。

所述语音合成模型主要包括基频合成模型、频谱合成模型及时长合成模型，具体构建方法可以采用现有技术，即离线收集发音人大量语音数据分别提取语音数据的基频、频谱及时长特征，利用所述特征数据进行模型训练得到各特征相应的合成模型，如训练基于HMM(HiddenMarkovModel，隐马尔科夫模型)的基频合成模型。

由于频谱特征对合成语音风格变化影响较小，因此，在本发明实施例中，只对基频合成模型、时长合成模型及频谱合成模型的能量维进行修正。

以MLLR方法对合成模型进行修正为例，假设合成模型符合高斯分布，因此，合成模型参数为均值μ和方差Σ，具体模型参数转换方法如(1)、(2)、(3)所示：

\hat{μ} = φ μ + b - - - (1)

{\hat{Σ}}^{- 1} = {AH}^{- 1} A^{T} - - - (2)

Σ^-1＝AA^T(3)

其中，μ和Σ为修正前合成模型的均值和方差，A为方差Σ的分解矩阵，和为修正后合成模型的均值和方差。

所述合成模型可以为基频合成模型、时长合成模型或频谱合成模型能量维的任意一种，[φ,b]为均值转换矩阵，H为方差转换矩阵，[φ,b]和H可以通过风格语音数据及相应风格特征利用最大似然准则进行自适应训练估计得到，所述风格特征包括风格语音数据识别文本的韵律特征及风格语音数据的声学特征。

采用上述方法依次对基频合成模型、时长合成模型及频谱合成模型的能量维进行转换，得到修正后基频合成模型、修正后时长合成模型及能量维修正后的频谱合成模型。

需要说明的是，在另一实施例中，上述模型修正模块14还可进一步包括：预处理单元，用于去除所述语音数据获取单元获取的风格语音数据中的噪声，并将去噪后的风格语音数据传送给所述语音识别单元。比如，可以通过VAD(VoiceActivityDetection，语音活动检测)的方法，检测出部分噪声语音数据，直接将待处理语音数据中的噪声语音数据去除，然后将去噪后的风格语音数据传送给语音识别单元进行语音识别。

在实际应用中，合成语音风格的确定可以根据应用环境及用户需求有多种不同实现方式，可以更好地满足用户需求，并增加娱乐性。比如：

所述风格确定模块13可以包括以下任意一种或多种子模块：

第一确定子模块，用于向用户提供可选的合成语音风格类型或风格语音数据，根据用户的选择确定待合成文本的合成语音风格。所述合成语音风格类型及风格语音数据比如可以有：男声/女声、评书/话剧/演讲/朗诵等多种形式，可以向用户提供多个选项。另外，所述装置还可以设置相应的语音数据库，向用户提供的风格语音数据可以从该语音数据库中提取。当然，所述装置还可以设置语音播放模块和显示模块。所述语音播放模块可以播放上述风格语音数据，使用户可以从听觉上更好地区分不同风格的语音效果；所述显示模块可以提供相应的界面，使用户可以根据界面的提示进行选择。需要说明的是，在实际应用中，所述装置可以通过所述显示模块向用户展现选择菜单或虚拟按键等，以指引用户的操作，也可以设置实体按键，并标识不同按键对应的语音风格类型。当然，也可以有其它的设置方式，对此本发明实施例不做限定。

第二确定子模块，用于根据用户提供的风格语音数据确定待合成文本的合成语音风格，所述用户提供的风格语音数据是用户通过朗读文本并录音得到的，具体录音时，用户可以根据待合成文本的内容，使用自己喜欢的风格进行风格语音数据的录制，如待合成文本为小说文本，用户喜欢感情色彩较重的武侠小说风格来合成待合成文本，则可以使用武侠风格进行录音。所述文本是推荐给用户的文本或者是用户自选的文本。当然，所述装置还可以设置相应的文本数据库，向用户提供的文本可以从该语音数据库中提取。需要说明的是，在这种应用情况下，上述语音数据获取单元获取的风格语音数据即为所述用户提供的风格语音数据。当然，在实际应用中，用户提供的风格语音数据也可以是从网络上或其它渠道(比如唱片等)获取的他人的一些音频数据。

第三确定子模块，用于根据待合成文本的风格标注信息或内容确定待合成文本的合成语音风格，所述待合成文本对应一个或多个风格标注信息，不同风格标注信息对应所述待合成文本中不同的文本段。具体地，用户可以将待合成文本划分为不同片段，不同片段之间可以使用相同或不同的合成语音风格，如待合成文本为小说文本，用户可以根据小说人物角色进行风格标注，不同角色间可以使用相同或不同的合成语音风格。如果待合成文本没有各种指定的人物角色，第三确定子模块也可以根据语义将待合成文本划分为不同的片段，根据每个片段的语义确定该片段的合成语音风格。

第四确定子模块，用于根据用户的日志信息确定待合成文本的合成语音风格，所述日志信息中包含用户对终端的各种操作信息。比如，可以通过分析用户的日志信息，得到用户上网的操作内容(比如浏览或下载信息等)，对该内容进行语义理解，可以得到用户关注的信息；或者直接从用户上网的日志信息中，得到用户所关注的信息。如果用户经常上网浏览武侠类小说，或者用户经常下载武侠类小说，则可以确定待合成文本的合成语音风格为武侠风格。在这种应用情况下，上述语音数据获取单元可以从语音数据库中获取与该合成语音风格相对应的风格语音数据。

本发明实施例提供的语音合成装置，在接收到用户的待合成文本后，首先确定目标语音的合成语音风格，然后根据该合成语音风格对预先根据收集的大量发音人语音数据构建的语音合成模型修正，使修正后的语音合成模型更加适合于所述合成语音风格。最后，利用修正后的语音合成模型对所述待合成文本进行语音合成，得到合成语音数据。由于是直接对语音合成模型进行与合成语音风格相适应的修正，从而可以使合成语音更加自然，大大提升用户体验。

本发明实施例还提供一种语音合成方法，如图2所示，是该方法的流程图，包括以下步骤：

步骤201，预先根据收集的大量发音人语音数据构建语音合成模型。

所述合成模型主要包括基频合成模型、频谱合成模型及时长合成模型，具体构建方法可以采用现有技术，即离线收集发音人大量语音数据分别提取语音数据的基频、频谱及时长特征，利用所述特征数据进行模型训练得到各特征相应的合成模型，如训练基于HMM(HiddenMarkovModel，隐马尔科夫模型)的基频合成模型。

步骤202，接收用户的待合成文本。

步骤203，确定合成语音风格。

(1)向用户提供可选的合成语音风格类型或风格语音数据，根据用户的选择确定待合成文本的合成语音风格；

(2)根据用户提供的风格语音数据确定待合成文本的合成语音风格，所述用户提供的风格语音数据是用户通过朗读风格文本并录音得到的，所述风格文本是推荐给用户的文本或者是用户自选的文本；

(3)根据待合成文本的风格标注信息或内容确定待合成文本的合成语音风格，所述待合成文本对应一个或多个风格标注信息，不同风格标注信息对应所述待合成文本中不同的文本段；

(4)根据用户的日志信息确定待合成文本的合成语音风格。

当然，还可以有其它确定方式，对此本发明实施例不做限定。而且，还可以根据应用需要，选择其中的一种或多种方式提供给用户。

步骤204，根据合成语音风格对所述语音合成模型进行修正，以使修正后的语音合成模型适应所述合成语音风格。

所述语音合成模型主要包括基频合成模型、频谱合成模型及时长合成模型，具体构建方法可以采用现有技术，即离线收集发音人大量语音数据分别提取语音数据的基频、频谱及时长特征，利用所述特征数据进行模型训练得到各特征相应的合成模型，如训练基于HMM的基频合成模型。

由于频谱特征对合成语音风格变化影响较小，因此，在本发明实施例中，可以只对基频合成模型、时长合成模型及频谱合成模型的能量维进行修正。具体可以利用MLLR算法或MAP算法对所述音合成模型的能量维进行修正。具体修正过程包括：

(1)获取与所述合成语音风格对应的风格语音数据；

(2)对所述风格语音数据进行语音识别，得到识别文本；

(3)分别提取所述识别文本的韵律特征及所述风格语音数据的声学特征；

(4)将所述韵律特征和声学特征作为风格特征对所述语音合成模型的能量维进行修正，得到修正后的语音合成模型。

需要说明的是，进一步地，为了防止噪声的影响，在对所述风格语音数据进行语音识别之前，还可以先去除所述风格语音数据中的噪声，然后再对去噪后的风格语音数据进行语音识别。

步骤205，利用所述修正后的语音合成模型对所述待合成文本进行语音合成，得到合成语音数据。

本发明实施例提供的语音合成方法，在接收到用户的待合成文本后，首先确定目标语音的合成语音风格，然后根据该合成语音风格对预先根据收集的大量发音人语音数据构建的语音合成模型修正，使修正后的语音合成模型更加适合于所述合成语音风格。最后，利用修正后的语音合成模型对所述待合成文本进行语音合成，得到合成语音数据。由于是直接对语音合成模型进行与合成语音风格相适应的修正，从而可以使合成语音更加自然，大大提升用户体验。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音合成装置，其特征在于，包括：

接收模块，用于接收用户的待合成文本；

风格确定模块，用于确定合成语音风格；

2.根据权利要求1所述的装置，其特征在于，所述风格确定模块包括以下任意一种或多种子模块：

3.根据权利要求1或2所述的装置，其特征在于，所述模型修正模块包括：

4.根据权利要求3所述的装置，其特征在于，所述语音合成模型包括：时长合成模型、基频合成模型、频谱合成模型；

5.根据权利要求3所述的装置，其特征在于，所述模型修正模块还包括：

6.一种语音合成方法，其特征在于，包括：

预先根据收集的大量发音人语音数据构建语音合成模型；

接收用户的待合成文本；

确定合成语音风格；

7.根据权利要求6所述的方法，其特征在于，所述确定合成语音风格包括以下任意一种或多种：

根据用户的日志信息确定待合成文本的合成语音风格。

8.根据权利要求6或7所述的方法，其特征在于，所述根据合成语音风格对所述语音合成模型进行修正包括：

获取与所述合成语音风格对应的风格语音数据；

对所述风格语音数据进行语音识别，得到识别文本；

9.根据权利要求8所述的方法，其特征在于，所述语音合成模型包括：时长合成模型、基频合成模型、频谱合成模型；

10.根据权利要求8所述的方法，其特征在于，所述根据合成语音风格对所述语音合成模型进行修正还包括：

所述对所述风格语音数据进行语音识别包括：

对所述去噪后的风格语音数据进行语音识别。