CN103065620A

CN103065620A - 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法

Info

Publication number: CN103065620A
Application number: CN2012105786628A
Authority: CN
Inventors: 徐鹤林; 江源; 张磊; 江涛; 聂小林; 胡国平; 胡郁
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2012-12-27
Filing date: 2012-12-27
Publication date: 2013-04-24
Anticipated expiration: 2032-12-27
Also published as: CN103065620B

Abstract

本发明公开了一种在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法，涉及语音合成及个性化语音合成技术领域，该方法包括：在手机或网页上输入文字；将文字合成为具有特殊音色特征的个性化声音；用户将个性化的声音设为彩铃或手机铃音，其中在个性化合成系统中采用的远离类中心单元的聚类方法这一新算法。利用本发明，可以实现用户制作个性化彩铃或个性化手机铃音的需求。

Description

在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法

技术领域

本发明涉及语音合成及个性化语音合成技术领域，公开了一种在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法和系统。

背景技术

现有“由文本生成个性化语音的方法”的解决方案跟本发明要解决的问题有些相似，它主要包括：对输入的文本进行分析,通过标准TTS数据库得出可以表征将要合成的语音的特征的标准语音参数；使用通过训练获得的参数个性化模型将所述标准语音参数变换为个性化的语音参数；以及基于所述个性化语音参数合成对应于所述输入文本的语音。

传统HMM-based合成系统中，针对上下文信息构建基于maximum likelihood准则的自上而下的决策分类树，而无监督构建的音库中存在读音错误、发音缺陷、标注错误等问题，很难将问题单元正确分类，而且这些错误将影响聚类过程中分裂问题的选择，形成并非最优的决策树结构，因此我们采用了远离类中心单元的聚类方法。本发明方法包括：接收用户在手机上或网页上输入的文字；将文字合成为具有蜡笔小新、马三立等音色特征的个性化声音；用户将个性化的声音设置为彩铃。利用本发明，可以实现用户制作个性化彩铃或个性化手机铃音的需求。采用C/S结构，轻量便捷，降低了用户使用门槛，提升了用户交互体验。

发明内容

本发明提案要解决的技术问题为：现有技术合成的普通话、方言等音色，特征不够丰富，不能满足用户合成制作个性化音色特征的需求。

本发明采用的技术方案为：一种在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法，包括：

步骤1）、音库准备：从网络上下载马三立、蜡笔小新、康辉、李瑞英和林志玲的音视频数据，然后从视频中提取出音频数据；

步骤2）、音段切分：需要语音分析下的自动分句结果和语音/非语音判断；

步骤3）、声纹识别：需要做目标发音人判断；

步骤4）、语音识别：使用普适行的语音识别模型，不做声学模型和语音模型的自适应，并利用识别结果输出切分信息、音素置信度和韵律词文本；

步骤5）、文本分析：直接对识别文本做前端自动文本分析，分析文本得到拼音串和分词、L3/L4预测；

步骤6）、系统搭建：结合音素置信度在统计建模和单元挑选阶段改进效果；

步骤7）、人工调整：在人工调整的情况下改善合成句效果，保证重要的用例句子的效果，并判定音库的完备性，即在最理想情况下能达到的合成效果上限，预留系统进化能力；

步骤8）、个性化声音转化：利用步骤1）至7）形成个性化声音合成系统，将文字合成为具有特殊音色特征的个性化声音；在个性化合成系统搭建过程中采用了远离类中心单元的聚类方法，没有采用传统HMM-based合成系统中针对上下文信息构建基于maximumlikelihood准则的自上而下的决策分类树方法；

本发明与现有技术相比技术优点为：

1、本发明在普通话、方言等语音合成的基础上，增加了蜡笔小新、马三立等音色特征的个性化语音合成。

2、本发明用户可以通过在手机上输入文本便捷地制作个性化的彩铃或个性化的手机铃音。

附图说明

图1为针对海量个性化发音人数据系统构建流程框图示意图；

图2为声纹识别正确率分布；

图3为声纹识别错误率分布。

具体实施方式

下面结合附图以及具体实施方法进一步说明本发明。

1、针对海量个性化发音人数据的合成系统搭建方法（如图1所示）：

1）、音库准备：从网络上下载马三立、蜡笔小新、康辉、李瑞英和林志玲的音视频数据，然后从视频中提取出音频数据。

2）、音段切分：需要语音分析下的自动分句结果和语音/非语音判断。

3）、声纹识别：需要做目标发音人判断。

4）、语音识别：使用普适行的语音识别模型，不做声学模型和语音模型的自适应，并利用识别结果输出切分信息、音素置信度和韵律词文本。

5）、文本分析：直接对识别文本做前端自动文本分析，分析文本得到拼音串和分词、L3/L4预测。

6）、系统搭建：结合音素置信度在统计建模和单元挑选阶段改进效果。

7）、人工调整：在人工调整的情况下改善合成句效果，保证重要的用例句子的效果，并判定音库的完备性，即在最理想情况下能达到的合成效果上限，预留系统进化能力。

8）、个性化声音转化：利用步骤1）至7）形成个性化声音合成系统，将文字合成为具有特殊音色特征的个性化声音；

在个性化合成系统搭建过程中采用了远离类中心单元的聚类方法，没有采用传统HMM-based合成系统中针对上下文信息构建基于maximum likelihood准则的自上而下的决策分类树方法。

传统HMM-based合成系统中，针对上下文信息构建基于maximum likelihood准则的自上而下的决策分类树，而无监督构建的音库中存在读音错误、发音缺陷、标注错误等问题，很难将问题单元正确分类，而且这些错误将影响聚类过程中分裂问题的选择，形成并非最优的决策树结构，因此我们采用了远离类中心单元的聚类方法。

原先模型的聚类方法是：初始时把所有样本当做一类作为根节点，然后遍历问题集中的问题，从中选择一个最优的问题对原有节点进行分裂，通过计算分裂前后似然值增长的大小来判定问题是否最优，最终挑选似然值增长最大的问题用来对节点进行分裂，当所有节点的似然值增长都不满足似然值增长的最低门限时，停止分裂。具体的似然值计算和似然值门限确定方法在这里我们不做详细讨论。由于样本中存在部分标注错误数据，在进行似然值增长计算时这些数据可能会产生不好的影响，因此在进行似然值计算之前我们对参与似然值计算的数据再进行一次聚类，挑选出其中离类中心近的单元参与似然值增长计算，我们认为离类中心远的数据就是标注错误数据。具体的挑选多少单元用于似然值计算要结合识别正确率确定。具体的算法流程如下：首先根据公式1.1和1.2计算出类中心和方差。

u = \frac{Σ_{m = 1}^{M} Σ_{t = 1}^{T} γ_{t} (m) * o_{m, t}}{Σ_{m = 1}^{M} Σ_{t = 1}^{T} γ_{t} (m)} - - - (1.1)

Σ = \frac{Σ_{m = 1}^{M} Σ_{t = 1}^{T} γ_{t} (m) (o_{t} - u) {(o_{t} - u)}^{T}}{Σ_{m = 1}^{M} Σ_{t = 1}^{T} γ_{t} (m)} - - - (1.2)

式中，M表示样本单元数目，T表示样本的时长，γ_t(m)表示样本m在t时刻的出现概率，O_m，t表示样本m在t时刻的观测值。然后根据公式1.3和1.4计算出各个样本离类中心的距离。

u_{m} = \frac{Σ_{t = 1}^{T} γ_{t} (m) * o_{m, t}}{Σ_{t = 1}^{T} γ_{t} (m)} - - - (1.3)

{Dist}_{m} = Σ_{k = 1}^{K} \frac{{(u_{m, k} - u_{k})}^{2}}{Σ_{k}} - - - (1.4)

式1.4中的K表示观测向量的维数。计算出各个样本离中心的距离后，确定参与似然值计算的距离门限，距离小于距离门限的样本参与似然值增长计算。

2、系统关键模块说明

1）音段切分

马三立和蜡笔小新的数据都是大段数据，而且大部分都是他们单人数据，因此可以不做声纹识别，但是需要先将这些数据切分成短句才能进行后续的语音识别操作。这里我们使用语音分析组提供的分句工具进行分句。马三立的数据分句后得到6248句语句、共682M数据。蜡笔小新的数据经过分句后得到1800句语句，共128M数据。

2）声纹识别

声纹识别（说话人识别）是海量无监督数据处理的关键步骤，能否提取较为纯净的单一发音人数据，直接影响能否形成合成音库以及系统构建效果。

由于我们要提取的是目标发音人已确定，故这里的声纹处理不是做说话人聚类而是说话人判断。需要目标发音人的种子数据。根据声纹识别结果从大段的数据中切出林志玲的数据，共得到3341句语句，共204M数据。我们从切出的林志玲语句中抽出559句进行声纹识别准确率统计，统计结果如表1所示。

表1.林志玲声纹识别正确率统计

语句总数	判定为林志玲语句数目	纯净林志玲语句数目
			559	364（65.12%）	285（50.98%）

由于音频数据是从电视剧中直接提取的，因此声纹识别结果切分而得的句子中有部分语句是带有杂音的（关门，翻书）。表1中判定为林志玲的语句中包含了带杂音和纯净语音数据，由表1可以看到，林志玲纯净数据的识别率只有51%。接着我们又结合声纹识别给出的置信度信息对声纹识别结果做了更进一步的分析。我们统计了各个置信区间内的识别正确率和错误率，统计结果如图2和图3所示。

由图2和图3我们可以看出纯净的林志玲数据在置信度高的时候识别正确率也高，而识别错误率则正好相反，因此可以通过设立置信度门限来提高数据的声纹识别正确率。由于林志玲的数据量较少（3341句，204M），因此对于林志玲数据我们没有进行这样的处理。

3）语音识别

语音识别流程与康辉数据处理略有不同，这里使用的声学模型和处理康辉数据使用的声学模型一样，用的都是识别组提供的1560h数据训练的声学模型，语言模型使用的是识别组提供的通用的语言模型。我们使用这一流程对马三立，蜡笔小新和林志玲的数据进行识别转出文本，经过fa后得到分词和自动切分。由于存在部分不能识别句子，并且识别结果的部分语句中包含英文字母及特殊符号，这些语句在进行文本分析前就要进行丢弃处理，最终这三个发音人的音库的数据量如表2所示。

表2.个性化发音人数据语音识别语句数目统计

个性化发音人	识别前语句数	识别处理后语句数
			马三立	6248	5815
蜡笔小新	1800	1798
			林志玲	3341	3249

由表2可以看出在识别过程中还是有部分数据损失的，接着我们从这些发音人的语句中挑选出一部分进行人工标注，然后将人工标注的结果和识别的结果进行比对，统计识别正确率。由于林志玲的数据在声纹识别时就存在误判，因此我们挑出用于人工标注的林志玲语句是经过确认的纯净的林志玲语句。识别正确率统计使用的是识别组提供的统计工具，各发音人识别正确率统计结果如表3所示。

表3.个性化发音人数据语音识别正确率统计

发音人	语句数	整句正确率	单字正确率
				马三立	104	10.58%	60.69%
蜡笔小新	248	4.85%	29.82%
				林志玲	197	3.55%	57.52%

由表3可以看出，蜡笔小新数据的识别正确率比较低，我们试听了部分蜡笔小新语句，发现有些语句中噪声比较大，马三立和和林志玲的数据相对比较纯净，为了验证噪声对识别正确率的影响，我们对蜡笔小新和马三立数据都进行LSA去噪，去噪后的语句在听感上比去噪之前效果要好，接着我们对这部分去噪后的语句进行语音识别，使用的声学模型和语言模型与之前的相同，然后统计识别后的识别正确率，识别正确率统计结果如表4所示。

表4.个性化发音人数据去噪后语音识别正确率统计

发音人	语句数	整句正确率	单字正确率
				马三立	100	7%	51.23%
蜡笔小新	248	3.23%	23.05%

表4中的语句都是去噪后的语句，由表4看出，去噪后识别正确率有所下降。此外在进行数据处理时发现蜡笔小新的数据比马三立的数据截幅现象严重，这也可能是导致蜡笔小新数据识别正确率低的因素。由于去噪会影响识别正确率，因此我们决定在识别之前不去噪，但是在进行系统搭建之前要对带噪声的训练数据去噪。

4）文本分析

文本分析同样采用对纯文本结果的前端自动文本分析，生成韵律文本作为各单元上下文信息。

5）系统搭建

对马三立和林志玲数据分别搭建基于HMM的单元拼接合成系统和参数合成系统，蜡笔小新数据量较少只能用于搭建基于HMM的参数合成系统。初始时数据没有原始切分，我们使用康辉的单音模型做切分。

本发明未详细阐述的部分属于本领域公知技术。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法，其特征在于：

步骤3）、声纹识别：需要做目标发音人判断；

步骤8）、个性化声音转化：利用步骤1）至7）形成个性化声音合成系统，将文字合成为具有特殊音色特征的个性化声音；