CN103778912A

CN103778912A - 引导式说话人自适应语音合成的系统与方法及程序产品

Info

Publication number: CN103778912A
Application number: CN201310127602.9A
Authority: CN
Inventors: 林政源; 林政贤; 郭志忠
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2012-10-19
Filing date: 2013-04-12
Publication date: 2014-05-07
Also published as: US20140114663A1; TW201417092A; TWI471854B

Abstract

引导式说话人自适应语音合成的系统与方法及程序产品。根据一种引导式说话人自适应语音合成系统的一实施例，一说话人自适应训练模块，根据输入的录音文稿与对应的录音语句，输出自适应信息与说话人自适应模型。一文字转语音合成引擎，接收该录音文稿、该说话人自适应模型，输出合成语句信息。一成果评估模块，接收该自适应信息、该合成语句信息，估计出评估信息。一自适应建议模块，根据该自适应信息以及该评估信息内容，从文稿来源中选取出后续要录制的录音文稿，作为下一次自适应的建议。

Description

引导式说话人自适应语音合成的系统与方法及程序产品

技术领域

本公开涉及一种引导式说话人自适应(guided speaker adaptation)语音合成(speech synthesis)的系统与方法及计算机程序产品。

背景技术

建立说话人相关(speaker dependent)语音合成系统，不论是采用语料库(corpus based)或是统计模型为主(statistical model based)等，通常需要在专业的录音环境下，录制大量、稳定且说话特性一致的声音样本，例如收录大于2.5个小时，且声音样本控制在稳定一致的状态的声音样本。基于隐藏式马可夫模型(Hidden Markov Model，HMM)语音合成系统搭配说话人自适应技术可提供快速且稳定的个人化语音合成系统的建立方案。此技术通过一预先建立好的初始语音模型(全文中的“模式”也可称之为“模型”)，新的说话人只要输入少于约10分钟的语料就可将一平均语音模型自适应成具有个人音色特质的语音模型。

基于HMM架构的语音合成系统，如图1所示，一开始输入一串文字，经过文本分析(Text Analysis)110可转成文字转语音(Text-To-Speech，TTS)系统可读的全标签(full label)格式的字串112，例如sil-P14+P41/A:4^0/B:0+4/C:1=14/D:16。接着进行三种模型决策树(decisiontree)比对后，取得各个模型文档所对应的模型编号。此三种模型决策树为频谱模型决策树122、音长(duration)模型决策树124、以及音高(pitch)模型决策树126。每一模型决策树决定出约有数百到数千个HMM模型，也就是说，频谱模型决策树决定出约有数百到数千个HMM频谱模型、音高模型决策树决定出约有数百到数千个HMM音高模型。例如，前述全标签格式的字串sil-P14+P41/A:4^0/B:0+4/C:1=14/D:16转成音素与模型信息如下:

音素:P14；

状态1至5的频谱模型编号:123、89、22、232、12；

状态1至5的韵律模型编号:33、64、82、321、19。

之后，参考这些音素与模型信息来进行合成130。

语音合成技术不胜枚举。一般的说话人自适应策略是语句越多越好，针对每个人说话特性不同并没有设计最合适的自适应内容。在现有的技术或文献中，有些说话人自适应的算法从少量的语料去自适应全部的语音模型，并设计模型之间彼此共享自适应数据的行为。理论上，每一语音模型代表了不同的声音特性，所以过度共享不同特性的数据来进行说话人自适应，也会模糊化模型原本的特性而影响到合成的质量。

有的语音合成技术的说话人自适应策略是先区分说话人相关特征参数、以及说话人无关特征参数，再调整说话人相关特征后，整合之前的说话人特征无关参数后再进行合成。有的说话人自适应策略是利用类似语音转换技术来自适应原始音高与共振峰。有的说话人自适应语音合成进行说话人自适应的算法后，并无再探讨相关的自适应成果以及自适应语句推荐的部分。有的语音合成技术在设计语料库时，并无涉以覆盖率与声音失真度为准则的语句挑选方式。

有的语音合成技术如图2所示，在说话人自适应阶段210中结合高层描述讯息，例如是上下文相关韵律讯息，共同来自适应目标说话人的频谱、基频与时长模型。此技术着重在加入高层描述讯息来进行说话人自适应，对于说话人自适应后的模型没有进行任何评估或预测的动作。有的语音合成技术如图3所示，比较说话人自适应模型所合成的语音参数与真实语音的听感误差，并且采用基于生成参数听感误差最小化的准则回头调整原始说话人到目标说话人的模型转移矩阵。此技术是着重在改变说话人自适应算法的估计法则，对于说话人自适应后的模型没有进行任何评估或预测的动作。

上述或现有的语音合成技术中，有的仅由文字层面分析使用者应该输入的数据，没有考虑实际自适应之后的结果。有的默认(预设)的文稿无法在事前就知道每一使用者(客户端)最需要自适应的地方在何处。文字层面的分析通常基于目标语言的音素类别而定，而非针对初始语音模型的架构而定。语音模型的分类常会使用到大量的语言学知识，仅基于音素的语音合成是无法窥探整个语音模型的全貌。所以该默认文稿无法让语音模型间得到平均的语音数据来进行估计，容易出现前述模型特性模糊化的现象。

因此，如何设计一种对于说话人自适应后的模型进行评估或预测、考虑覆盖率与声音失真度为准则来挑选语句、以及可推荐自适应语句的语音合成技术，来提供好的声音质量与相似度，是一个重要的议题。

发明内容

本公开实施例可提供一种引导式说话人自适应语音合成系统与方法及计算机程序产品。

所公开的一实施例是关于一种引导式说话人自适应语音合成系统。此系统包含一说话人自适应训练模块(speaker adaptive training module)、一文字转语音引擎(text to speech engine)、一成果评估模块(performance assessmentmodule)、以及一自适应建议模块(adaptation recommandation module)。此说话人自适应训练模块根据输入的录音文稿(recording text)以及对应的录音语句(recorded speech)，输出自适应信息以及说话人自适应模型。此文字转语音合成引擎，接收此录音文稿、此说话人自适应模型，输出合成语句信息。此成果评估模块，将参考自适应信息、此合成语句信息，估计出评估信息。此自适应建议模块根据此录音语句、此自适应结果、以及此评估信息，从文稿来源中选取出后续要录制的录音文稿，作为下一次自适应的建议。

所公开的另一实施例是关于一种引导式说话人自适应语音合成方法。此方法包含:输入录音文稿以及录音语句，输出一说话人自适应模型以及自适应信息；载入说话人自适应模型以及给定录音文稿，输出一合成语句信息；输入此自适应信息、此合成语句信息，估计出评估信息；以及根据此录音语句、此自适应信息、以及此评估信息，从文稿来源中选取出后续要录制的录音文稿，作为下一次自适应的建议。

所公开的又一实施例是关于一种引导式说话人自适应语音合成的计算机程序产品。此计算机程序产品包含备有多笔可读程序代码的一存储介质，并且通过一硬件处理器读取此多笔可读程序代码来执行:输入录音文稿以及录音语句，输出一说话人自适应模型以及自适应信息；载入说话人自适应模型以及给定录音文稿，输出一合成语句信息；输入此自适应信息、此合成语句信息，估计出评估信息；以及根据此录音语句、此自适应信息、以及此评估信息，从文稿来源中选取出后续要录制的录音文稿，作为下一次自适应的建议。

现在配合下列图示、实施例的详细说明及申请专利范围，将上述及本发明的其他优点详述于后。

附图说明

图1是基于HMM架构的语音合成技术的一范例示意图。

图2是一种结合高层描述信息和模型自适应的说话人转换技术的一范例示意图。

图3是一种基于生成参数听感误差最小化的模型自适应技术的一范例示意图。

图4是根据本公开一实施例，说明一种引导式说话人自适应语音合成系统。

图5是根据本公开一实施例，说明说话人自适应训练模块从一输入文稿的范例，收集到每一笔全标签信息所对应的音素与模型信息。

图6是根据本公开一实施例，估计音素覆盖率与模型覆盖率的公式范例。

图7是根据本公开一实施例，说明成果评估模块估计频谱失真度的运作。

图8是根据本公开一实施例，说明自适应建议模块的运作。

图9是根据本公开的一实施例，说明一种引导式说话人自适应语音合成方法。

图10是根据本公开的一实施例，说明基于音素覆盖率最大化算法的流程。

图11是根据本公开的实施例，说明基于模型覆盖率最大化算法的流程。

图12是根据本公开一实施例，说明一种权重重估计的调整方式。

图13是一个句子的范例代表图，其频谱失真度计算的单位为音素。

【主要元件符号说明】

110文本分析 112全标签格式的字串

122频谱模型决策树 124音长模型决策树

126音高模型决策树 130合成

210说话人自适应阶段 411录音文稿

400语音合成系统 410说话人自适应训练模

块

420成果评估模块 430自适应建议模块

440TTS引擎 412录音语句

414自适应信息 416说话人自适应模型

442合成语句信息 424音素与模型覆盖率

422频谱失真度 450文稿来源

460自适应结果输出模块 TTS文字转语音

516多笔全标签信息

610覆盖率计算公式

710特征提取 720时间调整

730频谱失真计算

810权重重估计

820基于音素与模型覆盖率最大化的算法

910输入录音文稿以及对应的录音语句进行说话人自适应训练，输出说话人自适应模型以及自适应信息

920将说话人自适应模型以及录音文稿提供给一TTS引擎，输出合成语音信息

930根据此自适应信息、以及此合成语音信息，估计出目前录音语句的评估信息

940根据此自适应信息、以及此评估信息，从一文稿来源中选取出后续要录制的录音文稿，作为下一次自适应的建议

1005根据一当次的评估信息，进行权重重估计

1010初始化一文稿来源中每一候选语句的分数为0

1012根据一分数函数的定义，计算文稿来源中每一句子的分数，并且将分数正规化

1014从中挑选分数最高者从该文稿来源移出到自适应建议的句子集合中

1016该挑选到的句子其所包含的音素的影响力将被降低

1018当被挑选出的句子的个数未超过一预定值时

1105根据一当次的录音语料信息，进行权重重估计

1110初始化一文稿来源中每一候选语句的分数为0

1112根据一分数函数的定义，计算文稿来源中每一句子的分数，并且将分数正规化

1114从中挑选分数最高者从该文稿来源移出到自适应建议的句子集合中

1116该挑选到的句子其所包含的模型的影响力将被降低

1118被挑选出的句子的个数未超过一预定值时

1200权重重估计的调整方式的公式

Di某一语音单位(例如音素)的第i个失真度

D_mean自适应语料的平均失真度

D_std自适应语料的标准差失真度

N参与此次权重调整的单位个数

NewWeight新权重 Weight新权重

Factor_i各个因子 F平均因子

具体实施方式

本公开实施例的引导式说话人自适应语音合成技术是通过输入的录音语句以及文稿内容等数据做出下一次自适应语句的推荐，由此引导使用者针对前一次自适应过程中的不足之处再次输入语料进行补强。其中数据的评估可分为覆盖率以及频谱失真度的评估。在本公开实施例中，覆盖率以及频谱失真度的估计结果可搭配一算法，例如贪婪式算法等的设计，再从一文稿来源中挑选出最适合的自适应语句并且将该评估结果回馈给使用者或客户端、或一处理文稿与语音输入的模块等。其中覆盖率可根据输入文稿转换为可读的全标签(full label)格式的字串后，分析对应到音素以及说话人无关模型内容的覆盖比例。频谱失真度通过比对录音语句与自适应后的合成语句两者的频谱参数，经过时间校正后所测量出的频谱失真度而定。

说话人自适应基本上是利用自适应语料来调整所有的语音模型，这些语音模型例如是采用基于HMM架构于进行合成时所参考的多个HMM频谱模型、多个HMM音长模型、以及多个HMM音高模型。在本公开实施例中，说话人自适应过程中被自适应的语音模型例如是，但不限定于，采用基于HMM架构于进行合成时所参考的HMM频谱模型、HMM音长模型、HMM音高模型。举前述基于HMM模型为例来说明说话人自适应及训练。理论上，当进行自适应的录音语料所转成的可读的全标签格式的字串所对应到的模型编号足够广泛，也就是说能包含原本TTS系统中的大部分模型分布，那么获得的自适应成果可以更好。基于此基本的理论点，本公开实施例设计一种可利用算法，例如贪婪算法(greedy algorithm)，进行最大化的模型覆盖率的挑选方法，来选取出后续要录制的录音文稿，以更有效率地进行说话人自适应。

既有的说话人自适应是根据输入的录音语句，进行说话人无关(SpeechIndependent，SI)语音合成模型的自适应训练，产生说话人自适应的(SpeechAdaptive，SA)语音合成模型，并且由一TTS引擎直接根据此SA语音合成模型来进行语音合成。与既有的语音合成技术不同的是，本公开实施例的语音合成系统在进行既有的说话人自适应训练后，还加入了一成果评估模块与一自适应建议模块，使得说话人自适应过程中可以根据目前自适应成果做不同后续文稿建议，以及提供目前自适应语句的评估信息供使用者(客户端)参考。此成果评估模块可以估计出自适应语句的音素覆盖率、模型覆盖率、以及频谱失真度。此自适应建议模块可以根据说话人自适应训练后的自适应结果、以及成果评估模块估计出的目前自适应语句的评估信息，从文稿来源中选取出后续要录制的文稿，作为下一次自适应的推荐。依此，经由不断地自适应与提供文稿建议的方式进行有效率的说话人自适应，使得此语音合成的系统可以提供好的声音质量与相似度。

承接上述，图4是根据本公开一实施例，说明一种引导式说话人自适应语音合成系统。参考图4，语音合成系统400包含一说话人自适应训练模块410、一文字转语音(TTS)引擎440、一成果评估模块420、以及一自适应建议模块430。说话人自适应训练模块410根据录音文稿411以及录音语句412自适应出一说话人自适应模型416。说话人自适应训练模块410根据录音文稿411内容进行分析后，可收集到录音文稿411所对应的音素与模型信息。说话人自适应训练模块410自适应后的一自适应信息414至少包括输入的录音语句412、分析录音语句412所产生的切音信息、录音文稿411所对应的音素与多种模型信息。此多种模型信息例如可采用频谱模型信息与韵律模型信息。此韵律模型即前述的音高模型，因为频谱决定了音色，而音高决定了韵律的大致趋势。

一文字转语音(TTS)引擎440根据录音文稿411以及说话人自适应模型416，输出合成语音信息442。此合成语音信息442至少包括合成语句以及合成语句的切音信息。

成果评估模块420结合自适应信息414以及合成语句信息442，估计出目前自适应语句的评估信息，此评估信息包含如音素与模型覆盖率424、以及一或多个语音差异评估参数(例如频谱失真度422等)。音素与模型覆盖率424包括如音素覆盖率、频谱模型覆盖率、韵律型覆盖率等。一旦有了音素和模型的统计信息之后，套用音素覆盖率公式以及模型覆盖率公式即可求得音素与模型覆盖率。此一或多个语音差异评估参数(如频谱失真度和/或韵律失真度等)的估计可利用说话人自适应训练模块410所输入的录音语句、录音语句的切音信息、以及TTS引擎440提供的合成语句和合成语句的切音信息，并通过多个执行程序来求得。如何估计出音素与模型覆盖率与语音差异评估参数的细节与范例说明将再描述。

自适应建议模块430根据说话人自适应训练模块410所输出的自适应信息414、以及成果评估模块420估计出的目前录音语句的评估信息，例如频谱失真度，从一文稿来源(例如文稿数据库)450中选取出后续要录制的录音文稿，作为下一次自适应的建议。自适应建议模块430选取录音文稿的策略例如是，能够让音素/模型的覆盖率最大化。语音合成系统400可输出成果评估模块420估计出的目前自适应语句的评估信息，如音素与模型覆盖率、频谱失真度等，以及自适应建议模块430做出的下一次自适应语句的建议，如录音文稿的建议，至一自适应结果输出模块460。自适应结果输出模块460可将这些信息，如评估信息、录音文稿的建议等，回馈给使用者或客户端、或一处理文字与语音输入的模块等。依此，经由不断地自适应与提供文稿建议的方式进行有效率的说话人自适应，使得语音合成系统400也可经由自适应结果输出模块460输出自适应后的语音合成声音。

图5是根据本公开一实施例，说明说话人自适应训练模块从一输入文稿收集到每一笔全标签信息所对应的音素与模型信息的范例。在图5的例子中，说话人自适应训练模块将输入文稿转成多笔全标签信息516，将此多笔全标签信息516进行比对后，收集到每一笔全标签信息所对应的音素信息、状态(state)1至5的频谱模型编号、以及状态1至5的韵律模型编号。当模型的种类收集越多(表示覆盖率越高)时，则代表平均语音模型可能获得更好的自适应结果。

从图5的例子中可窥知，当输入一笔全标签信息到一语音合成系统后，经过如决策树比对之后可获得它的频谱模型编号与韵律模型编号。从全标签信息本身也可看出它的音素信息，以sil-P14+P41/A:4^0/B:0+4/C:1=14/D:16为例，它的音素即P14(注音为ㄒ)，而左音素则为sil(代表静音(silence))，右音素则为P41(注音为一)。因此收集自适应语料的音素与模型信息是相当直觉的，此信息收集过程是执行于自适应训练模块之中。有了音素与模型的统计信息之后，就可以套用音素覆盖率公式以及模型覆盖率公式来估计出音素与模型覆盖率。

图6是根据本公开一实施例，估计音素覆盖率与模型覆盖率的公式范例。在图6的覆盖率计算公式610中，估计音素覆盖率的公式中，分母的值(此例为50)代表TTS引擎有50种不同的音素；估计模型覆盖率的公式中，假设频谱或韵律模型皆有5个不同的状态。当模型为频谱模型时，模型覆盖率的公式中，StateCoverRate_s中的分母(即变量ModelCount_s)代表状态s的频谱模型种类数，分子(即变量Num_UniqueNodel_s)代表状态目前收集到的频谱模型种类数，依此模型覆盖率的公式估计出频谱模型覆盖率。类似地，当模型为韵律模型时，从模型覆盖率的公式中，可估计出韵律模型覆盖率。

成果评估模块420估计出的语音差异评估参数包含频谱失真度时，相较于覆盖率的估计是比较复杂的。如图7所示，在本公开的实施例中，频谱失真度的估计可利用自适应训练模块410所输出录音语句、录音语句的切音信息、以及TTS引擎440所提供的合成语句、合成语句的切音信息，再执行特征提取(feature extraction)710、时间校正(time alignment)720、以及频谱失真计算(spectral distortion calculation)730来求得。

特征提取是先求取语音的特征参数，例如可采用梅尔倒频谱(Mel-Cepstral)参数，或是线性预测编码(Linear Prediction Coding，LPC)、或是线频谱(LineSpecturm Frequency，LSF)、或是感知线性预测(Perceptual Linear Prediction，PLP)等方法作为参考语音特征，接着再进行录音语句与合成语句的时间校正比对。录音语句及合成语句的切音信息虽然是已知的，但是录音语句与合成语句之间，每一字的发音长度并不一致，因此进行频谱失真度计算之前，需先进行时间校正。时间校正的做法可采用动态时间扭曲(Dynamic TimeWarping，DTW)。最后利用如梅尔倒频谱失真(Mel-Cepstral Distortion，MCD)作为频谱失真度指标计算的基础。MCD的计算公式如下:

{MCD}_{frame} = \frac{10}{\ln 10} \sqrt{2 Σ_{i = 1}^{N} {({mcp}_{i}^{(syn)} - {mcp}_{i}^{(tar)})}^{2}},

其中

mcp是梅尔倒频谱参数，syn是来自自适应语句(adapted speech)的合成帧(synthesized frame，又称之为“音框”)，tar是来自实际语句(real speech)的目标帧(target frame)，N是mcp维度(dimension)。每一语音单位(例如音素)的频谱失真度(Distortion)可估计如下:

Distortion = \frac{Σ_{f = 1}^{K} {MCD}_{f}}{K},

其中K是帧的个数。

当MCD值越高时，表示合成结果相似度越低。因此，系统目前的自适应结果可采用此指标来表示。

自适应建议模块430结合来自说话人自适应训练模块410的自适应信息414、以及成果评估模块420估计出的评估信息如频谱失真度，从一文稿来源中选取出后续录音文稿的建议。如图8所示，在本公开的实施例中，自适应建议模块430还利用基于音素与模型覆盖率最大化(Phone/Model basedcoverage maximization)的算法820，例如贪婪算法(greedy algorithm)，来挑选最适合的录音文稿，并且在执行此算法的过程中，先参考权重重估计(weightre-estimation)810的结果；最后输出后续录音文稿的建议。

承接上述的引导式说话人自适应语音合成系统及各模块的描述，图9是根据本公开的一实施例，说明一种引导式说话人自适应语音合成方法。如图9所示，此语音合成方法900先输入录音文稿以及对应的录音语句进行说话人自适应训练，输出说话人自适应模型以及自适应信息(步骤910)。接着将说话人自适应模型以及录音文稿提供给一TTS引擎，输出合成语音信息(步骤920)。此语音合成方法900再根据此自适应信息、以及此合成语音信息，估计出目前录音语句的评估信息(步骤930)。最后再根据此自适应信息、以及此评估信息，从一文稿来源中选取出后续要录制的录音文稿，作为下一次自适应的建议(步骤940)。

承接上述，此引导式说话人自适应语音合成方法可包含:输入录音文稿以及录音语句，输出一说话人自适应模型以及自适应信息；载入说话人自适应模型以及给定录音文稿，输出一合成语句信息；输入此自适应信息、此合成语句信息，估计出评估信息；以及根据此自适应信息、以及此评估信息，从文稿来源中选取出后续要录制的录音文稿，作为下一次自适应的建议。

此自适应信息至少包括录音语句以及录音语句的切音信息以及录音语句对应的该音素与模型信息。此合成语音信息至少包括合成语句以及合成语句的切音信息。此评估信息至少包括音素与模型覆盖率、以及一或多个语音差异评估参数(如频谱失真度)。

在语音合成方法900中，如何从一输入文稿的录音语句收集到所对应的音素与模型信息、如何估计音素覆盖率与模型覆盖率、如何估计频谱失真度、以及选取录音文稿的策略等相关内容皆已描述于前述本公开实施例中，此处不再重述。如之前所述，本公开的实施例是先进行一权重重估计后，再利用基于音素与模型覆盖率最大化的算法来挑选录音文稿。图10与图11是根据本公开的实施例，分别说明基于音素与模型覆盖率最大化的算法的流程。

参考图10的算法的流程，首先，此基于音素覆盖率最大化算法根据一当次的评估信息，进行权重重估计(步骤1005)。进行权重重估计后可得到一音素的新的权重Weight(PhoneID)、以及此音素的一更新的影响力Influence(PhoneID)，其中PhoneID是音素的识别码(identifier)。此权重重估计的细节将于图12中描述。然后，初始化一文稿来源中每一候选语句的分数为0(步骤1010)；此算法根据一分数函数(score function)的定义，计算文稿来源中每一句子的分数，并且将分数正规化(步骤1012)；例如可根据此句子中音素的个数来进行此正规化(例如将总分数除以音素的个数)。定义一音素的分数函数的范例如下:

Score=Weigtht(PhoneID)×10^{Influence(PhoneID)}

在上述的分数函数中，一音素的分数是依此音素的权重和影响力来决定。音素的权重Weight(PhoneID)的系统初始值是取此音素出现次数的倒数当作此音素的权重(weight)，所以在存储介质例如数据库中出现越多次，其权重越低。音素的影响力Influence(PhoneID)初始值假设定为20，表示每一音素最多出现20次，之后其分数影响力可视为不计；当音素被挑选过1次之后，此音素的Influence(PhoneID)将被减1，对其分数的贡献将变成10¹⁹，以此类推，当此音素被挑选过j次之后，对其分数的贡献将变成10^20-j。也就是说，一音素的Influence(PhoneID)与此音素被挑选过的次数有关，被挑选过的次数越多，其影响力越低。

音素种类越多元的候选语句获得的分数则越高，最后从中挑选分数最高者从该文稿来源移出到自适应建议的句子集合中(步骤1014)，并且该挑选到的句子其所包含的音素的影响力将被降低(步骤1016)，以利提高其他音素下次被挑选的机会。当被挑选出的句子的个数未超过一预定值时(步骤1018)，则进行步骤1012，而重新计算该文稿来源中的所有剩下的候选语句的分数，重复上述过程，直到挑选出的句子的个数超过一预定值为止。

也就是说，此基于音素覆盖率最大化算法定义一音素的分数函数，对于一文稿来源中每一个候选语句进行分数估计，音素种类越多元的候选语句获得的分数则越高，最后从中挑选分数最高者从该文稿来源移出到自适应建议的句子集合中，并且该挑选到的句子其所包含的音素的影响力将被降低，以利提高其他音素下次被挑选的机会。接着重新计算该文稿来源中的所有候选语句的分数，重复上述过程，直到挑选出的句子的个数超过一预定值为止。

参考图11的算法的流程，首先，此基于模型覆盖率最大化算法根据一当次的评估信息，进行权重重估计(步骤1105)。进行权重重估计后可得到两模型的新的MCP权重和LF0权重以及此两模型的两更新影响力，即

与

其中

表示当状态为S且文稿标签信息为L时所对应到的频谱(MCP)模型，同理

表示当状态为S且文稿标签信息为L时所对应到的韵律(LF0)模型。此文稿标签信息定义为输入的录音文稿，经由说话人自适应训练模块的文稿分析后所得的全标签信息，如图五中的516。此权重重估计的细节将于图12中描述。然后，初始化一文稿来源中每一候选语句的分数为0(步骤1110)；此算法根据一分数函数(score function)的定义，计算文稿来源中每一句子的分数，并且将分数正规化(步骤1112)；例如可根据此句子中的L(文稿标签)个数来进行此正规化(例如将总分数除以音素的个数)。定义一模型的分数函数的范例如下:

Score = Σ_{s = 1}^{5} (MCPScore (M_{s}^{L}) + LFOScore (P_{s}^{L}))

MCPScore (M_{s}^{L}) = Weight (M_{s}^{L}) \times 10^{Influence (M_{s}^{L})}

LFOScore (P_{s}^{L}) = Weight (P_{s}^{L}) \times 10^{Influence (P_{s}^{L})}

在上述的分数函数中，分数是依此一频谱模型分数与一韵律模型分数来决定，并且一频谱或韵律模型的分数是依此模型的权重和影响力来决定。在上述的模型分数函数中，频谱模型的权重

以及韵律模型的权重

的系统初始值分别是取其出现次数的倒数分别当作MCP模型的权重与LF0模型的权重，所以模型在存储介质例如数据库中出现越多次者，其模型权重越低。

与

的值一开始例如皆为5，每出现一次，其值减1。也就是说，

及的值与其模型被挑选过的次数有关，被挑选过的次数越多，其影响力越低。

MCP模型与LF0模型种类越多元的候选语句获得的分数则越高，最后从中挑选分数最高者从该文稿来源移出到自适应建议的句子集合中(步骤1114)，并且该挑选到的句子其所包含的模型的影响力将被降低(步骤1116)，以利提高其他模型下次被挑选的机会。当被挑选出的句子的个数未超过一预定值时(步骤1118)，则进行步骤1112，而重新计算该文稿来源中的所有剩下的候选语句的分数，重复上述过程，直到挑选出的句子的个数超过一预定值为止。

也就是说，此基于模型覆盖率最大化算法定义一模型的分数函数，对于一文稿来源中每一个候选语句进行分数估计，模型种类越多元的候选语句获得的分数则越高，最后从中挑选分数最高者从该文稿来源移出到自适应建议的句子集合中，并且该挑选到的句子其所包含的模型的影响力将被降低，以利提高其他模型下次被挑选的机会。接着重新计算该文稿来源中的所有候选语句的分数，重复上述过程，直到挑选出的句子的个数超过一预定值为止。

承接上述图10与图11的流程，在基于音素覆盖率最大化或是基于模型覆盖率最大化的演算中，权重重估计扮演了关键性角色。它根据频谱失真度来决定新的音素权重、及模型权重，例如新的Weight(PhoneID)、及

并且是利用一种音色相似度的方法来动态调整权重的高低。此权重重估计是利用音色相似度的方法来动态调整权重的高低，使得后续挑选文稿的参考不只是考虑到覆盖率(只根据文本参考)，也能兼顾合成结果的回馈。而音色相似度通常是以频谱失真度来估计，假如一语音单位(例如音素或音节或字)的频谱失真度过高，表示它自适应的结果不够好，后续的文稿应该要加强此单位的挑选，因此它的权重应该要调升；反之，当一语音单位的频谱失真度很低，表示它自适应的结果已经够好，后续应调降它的权重，让其他语音单位被挑选的机会增加。依此，在本公开实施例中，权重调整原则为，当一语音单位的频谱失真度高于一高阈值(例如，原始语句的平均失真度+原始语句的标准差)时，调升此语音单位的权重；当一语音单位的频谱失真度低于一低阈值(例如，原始语句的平均失真度－原始语句的标准差)时，调降此语音单位的权重。

图12是根据本公开一实施例，说明一种权重重估计的调整方式。在图12的权重重估计的调整方式的公式1200中，Di表示某一语音单位(例如以音素为单位)的第i个失真度(distortion)，D_mean表示自适应语料的平均失真度，D_std表示自适应语料的标准差失真度。N表示参与此次权重调整的单位个数(例如P14这个音素共有5个参与计算)，同一种单位所估计的各个因子Factor_i不尽相同，因此求取这些Factor_i的平均(即平均因子F)作为代表。最后，新权重是根据平均因子F来进行调整，调整公式的范例为，新权重=权重×(1+F)，其中平均因子F的值可能为正值或负值。

图13是合成语句和原始语句的频谱失真度分布的一个范例图，其中横轴代表不同的音素，纵轴代表其频谱失真度(纵轴的单位为dB)，计算频谱失真度的语音单位为音素。因为音素5至音素8的频谱失真度皆高于(D_mean+D_std)，因此根据本公开实施例的权重调整原则，可依图12的调整方式来调升音素5、音素6、音素7、以及音素8的权重；而音素11、音素13、音素20、以及音素37的频谱失真度皆低于(D_mean－D_std)，因此根据本公开实施例的权重调整原则，可依图12的调整方式来调降音素11、音素13、音素20、以及音素37的权重。

上述本公开实施例的引导式说话人自适应语音合成的方法可通过一计算机程序产品来实现。此计算机程序产品可通过至少一硬件处理器读取内嵌于一存储介质的程序代码来执行此方法。依此，根据本公开又一实施例，此计算机程序产品可包含备有多笔可读程序代码的一存储介质，并且通过至少一硬件处理器读取此多笔可读程序代码来执行:输入录音文稿以及录音语句，输出一说话人自适应模型以及自适应信息；载入说话人自适应模型以及给定录音文稿，输出一合成语句信息；输入此自适应信息、此合成语句信息，估计出评估信息；以及根据此自适应信息、以及此评估信息，从文稿来源中选取出后续要录制的录音文稿，作为下一次自适应的建议。

综上所述，本公开实施例提供一种引导式说话人自适应语音合成系统与方法。其技术先输入录音文稿和录音语句，输出为自适应信息以及说话人自适应模型；一TTS引擎读取此说话人自适应模型以及此录音文稿，输出合成语句信息；接着结合此自适应信息以及此合成语句信息，估计出评估信息；再根据此自适应信息、以及此评估信息，来选取出后续要录制的录音文稿，作为下一次自适应的建议。此技术考虑音素与模型覆盖率，以声音失真度为准则来挑选语句，以及做出下一次自适应语句的推荐，由此引导使用者/客户端针对前一次自适应过程中的不足之处补强输入语料，以提供好的声音质量与相似度。

以上所述者仅为本公开实施例，当不能依此限定本公开实施的范围。即大凡根据本发明权利要求书所作的均等变化与修饰，皆应仍属本发明权利要求书覆盖的范围。

Claims

1.一种引导式说话人自适应语音合成系统，包含：

一说话人自适应训练模块，根据输入的录音文稿与对应的录音语句，输出自适应信息与说话人自适应模型；

一文字转语音合成引擎，接收该录音文稿与该说话人自适应模型，输出合成语句信息；

一成果评估模块，接收该自适应信息、该合成语句信息，估计出评估信息；以及

一自适应建议模块，根据该自适应信息与该评估信息内容，从文稿来源中选取出后续要录制的录音文稿，以作为下一次自适应的建议。

2.如权利要求1所述的系统，其中该自适应训练模块所输出的该自适应信息至少包括：

该录音文稿、该录音语句、该录音文稿对应的音素与模型信息、以及该录音语句对应的切音信息。

3.如权利要求2所述的系统，其中该模型信息至少包括频谱模型信息、与韵律模型信息。

4.如权利要求1所述的系统，该文字转语音合成引擎所输出的该合成语句信息至少包括：该录音文稿的合成语句，以及该合成语句的切音信息。

5.如权利要求1所述的系统，其中该评估信息至少包括该录音语句的音素与模型覆盖率。

6.如权利要求5所述的系统，其中该音素与模型覆盖率包括音素覆盖率、频谱模型覆盖率、以及韵律模型覆盖率。

7.如权利要求1所述的系统，其中该评估信息至少包括一或多个语音差异评估参数。

8.如权利要求7所述的系统，其中该一或多个语音差异评估参数至少包括该录音语句和该合成语句的频谱失真度。

9.如权利要求1所述的系统，其中该自适应建议模块选取录音文稿的策略是能够让该音素与模型的覆盖率最大化。

10.如权利要求1所述的系统，其中该系统是采用基于隐藏式马可夫模型或者隐藏式半马可夫模型架构的语音合成系统。

11.如权利要求1所述的系统，其中该系统经由不断地自适应与提供文稿建议的方式来进行说话人自适应。

12.如权利要求1所述的系统，其中该系统输出该合成语句、该成果评估模块估计出的该目前录音语句的评估信息、以及该自适应建议模块做出的下一次自适应语句的建议。

13.一种引导式说话人自适应语音合成方法，包含：

输入录音文稿与对应的录音语句，输出说话人自适应模型与自适应信息；

载入该说话人自适应模型，输入该录音文稿，以合成出合成语音信息；

结合该自适应信息与该合成语音信息，估计出评估信息；以及

根据该自适应信息与该评估信息内容，从文稿来源中选取出后续要录制的录音文稿，作为下一次自适应的建议。

14.如权利要求13所述的方法，其中该评估信息包括该目前录音语句的音素覆盖率、频谱模型覆盖率、韵律模型覆盖率、以及一或多个语音差异评估参数。

15.如权利要求13所述的方法，其中该一或多个语音差异评估参数至少包括频谱失真度。

16.如权利要求13所述的方法，其中该方法先进行一权重重估计后，再利用一基于音素覆盖率最大化的算法与一基于模型覆盖率最大化的算法来选取出后续要录制的该录音文稿。

17.如权利要求16所述的方法，其中该权重重估计是根据频谱失真度来决定新的音素权重、及模型权重，并且是利用一种音色相似度的方法来动态调整权重的高低。

18.如权利要求17所述的方法，其中该调整权重的原则为，当一语音单位的频谱失真度高于一高阈值，调升该语音单位的权重；反之当一语音单位的频谱失真度低于一低阈值时，调降该语音单位的权重。

19.如权利要求18所述的方法，其中该语音单位是字、音节、或音素的其中一种或多种组合。

20.如权利要求16所述的方法，其中该基于音素覆盖率最大化算法定义一音素的分数函数，对于一文稿来源中每一个候选语句进行分数估计，音素种类越多元的候选语句获得的分数则越高，最后从中挑选分数最高者从该文稿来源移出到自适应建议的句子集合中，并且该挑选到的句子其所包含的音素的影响力将被降低，以利提高其他音素下次被挑选的机会。接着重新计算该文稿来源中的所有候选语句的分数，重复上述过程，直到挑选出的句子的个数超过一预定值为止。

21.如权利要求20所述的方法，其中根据该音素的分数函数定义，一音素的分数是依该音素的权重和影响力来决定。

22.如权利要求16所述的方法，其中该基于模型覆盖率最大化算法定义一模型的分数函数，对于一文稿来源中每一个候选语句进行分数估计，模型种类越多元的候选语句获得的分数则越高，最后从中挑选分数最高者从该文稿来源移出到自适应建议的句子集合中，并且该挑选到的句子其所包含的模型的影响力将被降低，以利提高其他模型下次被挑选的机会。接着从新计算该文稿来源中的所有候选语句的分数，重复上述过程，直到挑选出的句子的个数超过一预定值为止。

23.如权利要求22所述的方法，其中根据该模型的分数函数定义，一模型的分数是依该一频谱模型分数与一韵律模型分数来决定，并且一频谱或韵律模型的分数是依该频谱或韵律模型的权重和影响力来决定。

24.一种引导式说话人自适应语音合成的计算机程序产品，包含备有多笔可读程序代码的一存储介质，并且通过至少一硬件处理器读取该多笔可读程序代码来执行：

结合该自适应信息、与合成语音信息，估计出评估信息；以及

25.如权利要求24所述的计算机程序产品，其中该评估信息包括该目前录音语句的音素覆盖率、频谱模型覆盖率、韵律模型覆盖率、以及一或多个语音差异评估参数。

26.如权利要求24所述的计算机程序产品，其中该一或多个语音差异评估参数至少包括频谱失真度。

27.如权利要求24所述的计算机程序产品，其中该方法先进行一权重重估计后，再利用一基于音素覆盖率最大化的算法与一基于模型覆盖率最大化的算法来选取出后续要录制的该录音文稿。

28.如权利要求27所述的计算机程序产品，其中该权重重估计是根据频谱失真度来决定新的音素权重、及模型权重，并且是利用一种音色相似度的方法来动态调整权重的高低。

29.如权利要求28所述的计算机程序产品，其中该调整权重的原则为，当一语音单位的频谱失真度高于一高阈值，调升该语音单位的权重；反之当一语音单位的频谱失真度低于一低阈值时，调降该语音单位的权重。

30.如权利要求29所述的计算机程序产品，其中该语音单位是字、音节、或音素其中一种或多种组合。

31.如权利要求27所述的计算机程序产品，其中该基于音素覆盖率最大化算法定义一音素的分数函数，对于一文稿来源中每一个候选语句进行分数估计，音素种类越多元的候选语句获得的分数则越高，最后从中挑选分数最高者从该文稿来源移出到自适应建议的句子集合中，并且该挑选到的句子其所包含的音素的影响力将被降低，以利提高其他音素下次被挑选的机会。接着重新计算该文稿来源中的所有候选语句的分数，重复上述过程，直到挑选出的句子的个数超过一预定值为止。

32.如权利要求31所述的计算机程序产品，其中根据该音素的分数函数定义，一音素的分数是依该音素的权重和影响力来决定。

33.如权利要求27所述的计算机程序产品，其中该基于模型覆盖率最大化算法定义一模型的分数函数，对于一文稿来源中每一个候选语句进行分数估计，模型种类越多元的候选语句获得的分数则越高，最后从中挑选分数最高者从该文稿来源移出到自适应建议的句子集合中，并且该挑选到的句子其所包含的模型的影响力将被降低，以利提高其他模型下次被挑选的机会。接着从新计算该文稿来源中的所有候选语句的分数，重复上述过程，直到挑选出的句子的个数超过一预定值为止。

34.如权利要求33所述的计算机程序产品，其中根据该模型的分数函数定义，一模型的分数是依该一频谱模型分数与一韵律模型分数来决定，并且一频谱或韵律模型的分数是依该频谱或韵律模型的权重和影响力来决定。