CN105593936B

CN105593936B - 用于文本转语音性能评价的系统和方法

Info

Publication number: CN105593936B
Application number: CN201380080087.1A
Authority: CN
Inventors: C·伊泽特; 赖胜; C·聚斯; H·胡
Original assignee: Bayerische Motoren Werke AG
Current assignee: Bayerische Motoren Werke AG
Priority date: 2013-10-24
Filing date: 2013-10-24
Publication date: 2020-10-23
Anticipated expiration: 2033-10-24
Also published as: EP3061086A4; WO2015058386A1; EP3061086B1; US20160240215A1; CN105593936A; EP3061086A1

Abstract

本发明提供用于文本转语音性能评价的系统和方法。在例证实施例中，一种用于文本转语音(TTS)性能评价的方法包括：提供多个语音样本和与相应语音样本关联的得分；根据所述多个语音样本和对应得分，建立语音模型；和通过语音模型评价TTS引擎。本发明只需要一人在开始阶段生成标准语音模型，该语音模型可反复用于不同TTS合成引擎的测试和评价。本发明中提出的解决方案大大降低了所需的时间和人工成本。

Description

用于文本转语音性能评价的系统和方法

技术领域

本发明涉及文本转语音(TTS)合成的领域，更具体地，涉及用于文本转语音合成的性能评价的系统和相关方法。

背景技术

话音控制技术已被研究20年以上，许多提出的益处已在各种应用中得到证明。计算机硬件和软件的不断发展使话音控制技术的使用更实用、灵活和可靠。结果，话音控制系统在现代电子设备中变得越来越普及。例如，话音控制系统已被结合到智能电话机、车载电子设备(比如可从BMW Corp.获得的iSpeech系统)、智能家居应用等中。

话音控制系统一般基于语音识别和文本转语音(TTS)合成。语音识别可把用户产生的音频信号转换成对应命令，根据所述命令，电子设备进行特定操作。另一方面，文本转语音合成向用户提供话音读出功能。例如，在车载电子设备的情况下，语音识别可让驾驶员利用口头命令控制诸如电话机、空调、导航和音响系统之类的功能部件，并且文本转语音合成可提供话音导航信息，或者为驾驶员朗读电子邮件或SMS消息。这不仅更舒适，而且安全：驾驶员的双手始终保持在方向盘上，他(她)对周围交通情况的注意力不被分散。

文本转语音合成是文本到语音的转换。这种转换依照特定语言的发音规范，把文本变换成尽可能接近真实人类语音的合成语音。通常，TTS合成包含自然语言处理的第一步骤。更具体地，文本输入被变换成包括待产生的音素、其持续时间、短语边界的位置以及各个短语的音高/频率轮廓的语言表达。随后，TTS合成的第二步骤是通过数字信号处理，把在语言分析阶段中获得的标音和韵律信息变换成声波波形。K.R.Aida-Zade等在“the mainprinciples of text-to-speech synthesis system”(International Journal ofSignal Processing,Vol.6,No.1,2010)中也描述了TTS合成系统，该文献通过引用整体包含于此。

TTS的质量非常重要，因为它与TTS合成系统或引擎生成的话音输出是否可被客户理解以及当听到所述话音输出时客户是否感到舒适有关。语音合成系统的最关键质量是自然性和可懂度。自然性描述输出的声音到底有多像人类语音，而可懂度是理解所述输出的容易度。理想的语音合成器既自然又易懂。语音合成系统通常试图使这两种特性最大化。

目前，存在许多可用的TTS引擎，比如Apple Corp.的Siri、Microsoft Corp.的SAM、Android TTS引擎以及许多其它因特网TTS引擎。从而，出现如何评价这样的引擎以便选择对客户来说最佳的TTS产品的挑战。TTS评价旨在关于诸如可懂度和自然性之类的重要准则，评价由TTS合成引擎生成的语音。在TTS性能的评价中，一般使用主观评价方法，比如MOS(平均意见得分)、DRT(诊断押韵测试)、DAM(诊断接受度测量)、CT(理解测试)等。

以MOS为例，它是通过计算一组标准和主观测试的结果的平均值进行的，在所述一组测试中，许多听众评定由TTS合成引擎生成的测试句子的感知话音质量的等级。下表1表示MOS分级方案。MOS被表示成在1-5的范围中的单一数字，其中1是最低的感知音频质量，5是最高的感知音频质量测量。通过求所有听众的所有得分的平均值，计算各个测试句子的感知得分。

表1：MOS分级方案

MOS等级得分	质量	减损
			5	极好	感觉不到
4	好	感觉得到，但不令人讨厌
			3	一般	稍微令人讨厌
2	差	令人讨厌
			1	极差	很令人讨厌

正如其名称所暗指的，主观评价方法依赖于听众的个人主观感知，这意味结果受对于测试句子的个体反应的随机性影响。为了降低结果的不确定性和增大结果的可重复性，通常对于测试装置、数据、条件和听众有严格要求(即，理想地，对于不同参与者的测试环境应严格一致)。通常，主观评价方法非常费时、费力和耗费成本。

另一方面，主观评价方法不能自动生成TTS性能评价结果。到目前为止，不存在自动评价不同TTS合成引擎的性能的现有解决方案。目前，提供TTS产品的公司很多，为了选择对客户来说最佳的TTS产品，非常期望一种能够高效并且无偏地自动生成评价结果的TTS性能评价系统。在开发基于TTS的产品的过程中，对供应商或初始设备制造商(OEM)来说，随着产品的更迭，能够评价性能是得到改善还是下降也是非常合乎需要的。主观评价方法或许适合于科学研究，但是不能满足产业层级要求。

发明内容

本发明的一个方面提供一种能够解决上述和其它现有技术问题中的一个或多个问题的用于文本转语音性能评价的系统和方法。

本发明的另一个方面提供一种能够自动生成TTS性能评价结果的用于文本转语音性能评价的系统和方法。

按照本发明的一个例证实施例，提供一种用于文本转语音(TTS)性能评价的方法，包括：提供多个语音样本和与相应语音样本关联的得分；根据所述多个语音样本和对应得分，建立语音模型；和通过语音模型评价TTS引擎。

在本实施例的一个例子中，所述提供步骤还可包括：记录基于相同的一组训练文本、来自多个语音源的多个语音样本；和对所述多个语音样本中的每个语音样本分级，以向其分配得分。

在本实施例的另一个例子中，所述多个语音源可包括多个TTS引擎，以及方言不同和发音的清晰度不同的人类。

在本实施例的另一个例子中，所述分级步骤可通过选自由下列构成的组中的方法进行：平均意见得分(MOS)、诊断接受度测量(DAM)和理解测试(CT)。

在本实施例的另一个例子中，所述建立步骤还可包括：预处理所述多个语音样本，以便获得相应的波形；从每个预处理波形中提取特征；和通过提取的特征和对应得分，训练语音模型。

在本实施例的另一个例子中，提取的特征可包括时域特征和频域特征中的一个或多个特征。

在本实施例的另一个例子中，所述训练步骤可通过利用HMM(隐式马尔可夫模型)、SVM(支持向量机)、深度学习或神经网络进行。

在本实施例的另一个例子中，所述评价步骤还可包括：向被评价的TTS引擎提供一组测试文本；接收由被评价的TTS引擎变换自所述一组测试文本的语音；和根据训练的语音模型计算每个语音的得分。

按照本发明的另一个例证实施例，提供一种用于文本转语音(TTS)性能评价的系统，包括：包含多个语音样本和与相应语音样本关联的得分的样本库；被配置成根据所述多个语音样本和对应得分建立语音模型的语音建模部分；和被配置成通过语音模型评价TTS引擎的评价部分。

在本实施例的一个例子中，系统还可包括：被配置成记录基于相同的一组训练文本、来自多个语音源的多个语音样本的采样部分；和被配置成对所述一组语音样本中的每个语音样本分级，以向其分配得分的分级部分。

在本实施例的另一个例子中，所述分级部分可被配置成通过选自由下列构成的组中的方法对每个语音样本分级：平均意见得分(MOS)、诊断接受度测量(DAM)和理解测试(CT)。

在本实施例的另一个例子中，语音建模部分还可包括：被配置成预处理所述多个语音样本，以便获得相应波形的预处理单元；被配置成从每个预处理波形中提取特征的特征提取单元；和被配置成通过提取的特征和对应得分训练语音模型的机器学习单元。

在本实施例的另一个例子中，所述机器学习单元可被配置成通过利用HMM(隐式马尔可夫模型)、SVM(支持向量机)、深度学习或神经网络，进行语音模型的训练。

在本实施例的另一个例子中，评价部分还可包括：被配置成把保存于其中的一组测试文本提供给被评价的TTS引擎的测试文本库；被配置成接收由TTS引擎变换自所述一组测试文本的语音的语音库；和被配置成根据训练的语音模型计算每个语音的得分的计算单元。

按照本发明的另一个例证实施例，提供一种计算机可读介质，包括用于实现一种用于文本转语音(TTS)性能评价的方法的可执行指令，所述方法包括：根据多个语音样本和与相应语音样本关联的得分，建立语音模型；和通过语音模型评价TTS引擎。

在本实施例的一个例子中，所述方法还可包括：记录基于相同的一组训练文本、来自多个语音源的多个语音样本；和对所述一组语音样本中的每个语音样本分级，以向其分配得分。

在本实施例的另一个例子中，所述建立步骤还可包括：预处理所述多个语音样本，以便获得相应的波形；从每个预处理波形中提取特征；和通过提取的特征和对应得分训练语音模型。

在本实施例的另一个例子中，所述评价步骤还可包括：向被评价的TTS引擎提供一组测试文本；接收由TTS引擎变换自所述一组测试文本的语音；和根据训练的语音模型计算每个语音的得分。

根据下面给出的详细说明，本发明的进一步适用范围将变得明显。然而，应明白尽管指示本发明的优选实施例，不过详细说明和具体例子只是作为例证给出的，因为根据下面的详细说明，对本领域的技术人员来说，在本发明的精神和范围内的各种变化和修改将变得明显。

附图说明

根据结合附图进行的例证实施例的以下详细说明，本发明的上述和其它方面及优点将变得明显，附图举例图解说明本发明的原理。

图1图解说明表示按照本发明的例证实施例的文本转语音合成的性能评价方法的高级流程图；

图2图解说明表示按照本发明的例证实施例的准备多个语音样本和相关得分的方法的流程图；

图3图解说明表示按照本发明的例证实施例的利用多个语音样本和相关得分的语音建模处理的流程图；

图4图解说明表示按照本发明的例证实施例的TTS性能评价处理的流程图；

图5图解说明按照本发明的例证实施例的用于TTS性能评价的系统的方框图。

具体实施方式

在下面的详细说明中，陈述了众多的具体细节，以透彻理解说明的例证实施例。然而，对本领域的技术人员来说，显然可在没有一些或所有这些具体细节的情况下实践说明的实施例。在其它例证实施例中，未详细说明公知的结构或处理步骤，以避免不必要地模糊本发明的概念。

本发明的总体思路是通过结合几个方面的监督机器学习方法来解决自动TTS评价的问题。这分成两个阶段：数据采样和分级阶段；以及语音建模和评价阶段。

首先参见图1，图中表示按照本发明的例证实施例的文本转语音(TTS)合成的性能评价用方法100的高级流程图。方法100始于在110，准备多个语音样本和与相应语音样本关联的得分。然后，在120，根据多个语音样本和对应得分，可建立语音模型。随后，在130，可利用语音模型评价TTS引擎。

下面，将利用许多具体细节讨论方法100。再次地，这样的具体细节是作为例子给出的，可在没有一些或所有这些细节的情况下实践本发明。图2是图解说明用于准备多个语音样本和与之关联的得分的处理200的流程图。如在210所示，可以提供一组训练文本(“训练”将在后面讨论)。训练文本可包括单词、短语、成语和句子，或者它们的任意组合。在选定的实施例中，优选句子。所述一组训练文本可以尽可能地多种多样，以便覆盖各种使用情形。例如，所述一组训练文本可包括与智能电话机操作、计算机操作、导航、游戏控制台、体育运动、新闻、日期/时间、天气/温度、文学、科学和其它领域相关的句子。所述一组训练文本还可包括从容易/简单的单词到困难/复杂的句子。从下面的讨论可看出，训练集的多样性有益于语音模型的训练。

另外，在220，提供多个语音源。所述多个语音源可包括TTS引擎和人类。TTS引擎可从历史上的第一个TTS引擎到目前最新的TTS引擎，和从相当差的TTS引擎到最好的引擎。在选定的实施例中，可取的是只包括少数几个确实较差的例子，而主要集中于具有目前通常已知的优点和缺点的当前引擎，例如，擅长于智能电话机操作的TTS引擎、擅长于导航的TTS引擎、擅长于新闻的TTS引擎等等。同样地，人类可包括方言不同和发音的清晰度不同的人。另外，人类可包括男性和女性两者。

从而，在230，通过语音源朗读一组训练文本，可以准备多个语音样本。就语音源之中的TTS引擎来说，所述一组训练文本可经应用编程接口(API)被提供给各个TTS引擎，各个TTS引擎把文本变换成按照预定格式记录并作为语音样本保存在非临时性存储介质中的语音。就人类讲话者而论，语音样本可利用诸如麦克风之类的声音记录装置和关联的声音记录软件记录。另外，语音样本和来自TTS引擎的语音样本一样地被格式化，并保存在非临时性存储介质中。优选在相同的环境(比如记录设备、记录软件及其参数设定、噪声级等)中，记录语音样本。在处理的这个时刻，可能产生非常大量的语音样本。例如，如果M是训练句子(或者单词、短语和成语)的数目，N是准备的语音源的数目，那么将产生M*N个语音样本。

随后，在240，可对多个语音样本分级，以便相对于人类语音评价生成的语音样本的性能，即，可懂度和自然性。如上所述，可利用主观评价方法评价语音样本，在本发明的实施例中，主观评价方法的适当例子可包括平均意见得分(MOS)、诊断接受度测量(DAM)和理解测试(CT)。

典型的MOS测试首先包括招募多样性充分的足够数量的听众，以便提供统计上有意义的结果。随后，在具有特定的声学特性和设备的受控环境中进行样本收听实验，以确保每个听众接收相同的指令和刺激，以便按照尽可能公平的方式对语音样本分级。ITU-T(国际电报联盟-电信标准化部门)推荐标准P.800也更详细地规定了MOS测试，该推荐标准也通过引用包含于此。

由于这种方法规模大，也可利用众包(crowd sourcing)方法分发对语音样本分级的任务。更具体地，例如可经因特网把语音样本分配给一大群人(包括志愿者和兼职人员)，以致人们可以坐在家中，在他们的业余时间利用自己的硬件对这些语音样本分级。分级结果也可通过因特网收集。从而，可降低分级的成本。

借助MOS测试，每个语音样本被赋予MOS得分(如表1中所示)。MOS得分可直接用作对应语音样本的评价得分。在另一个实施例中，语音样本可被加权。例如，简单的句子可具有较低的权重，而复杂的句子可具有较高的权重。赋予的MOS得分和权重的乘积可用作语音样本的评价得分。权重可有助于扩大各个语音源之间的性能差异。

DAM可估计每个语音样本的可懂度、愉悦性和总体接受度，而CT测量听众的理解或者接收的消息被理解的程度。由于DAM和CT在相关领域中都是众所周知的，因此这里省略其详细说明。

在处理200结束时，提供了多个语音样本和与相应语音样本关联的得分。随后，参见图3，可通过利用语音样本和关联得分进行语音建模处理300。语音建模处理300可始于预处理过程310，预处理过程310为后续过程预处理语音样本。通常，预处理过程310可包括为语音研究领域的技术人员所熟悉的信号采样、滤波、预加重、分帧、加窗和端点检测等。

随后，处理300转到特征提取过程320，在320，从预处理波形中提取特征。语音研究领域中的特征通常由两种类型组成：时域特征和频域特征。时域特征包括共振峰、短时平均能量、短时平均过零率等。频域特征包括线性预测系数(LPC)、线性预测倒谱系数(LPCC)、Mel频率倒频系数(MFCC)等。可以选择列举的时域或频域特征中的一个或多个特征，供在本发明的实施例里使用。

应注意除了上面所述之外，已经存在关于如何预处理语音样本和从语音样本中提取特征，以供自然语言处理之用的大量研究，这些预处理和特征提取方法可以直接用于本发明的实施例。

之后，在330，通过监督机器学习算法把提取的特征连同关联得分一起用于语音模型训练。来自过程320的特征数据和关联得分被训练，以建立表示对应的人类语音的数学模型。在330，可以使用许多统计模型和参数训练算法，包括(但不限于)隐式马尔可夫模型(HMM)、SVM(支持向量机)、深度学习、神经网络等。

以作为用于模拟语音的流行统计工具的HMM为例，可以应用Baum-Welch算法，以从训练数据获得最佳的HMM模型参数。大体的处理可如下所述。假定从M个训练句子和N个语音源(包括TTS引擎和人类讲话者)准备了M*N个语音样本和关联得分。从M*N个语音样本中的每个语音样本提取的特征数据代表观察序列O。从而，存在M*N个观察序列O_ij(i＝1,…,M；j＝1,…N)，每个观察序列O_ij与一得分(比如MOS得分)相关。MOS得分代表观察序列O_ij的概率P(O_ij|λ)，假定HMM模型λ。

训练处理通过例如Baum-Welch算法优化HMM模型的参数，以便最佳地模拟观察序列O和对应概率P(O|λ)，这在HMM研究领域中被称为问题3。对于每个训练句子S_i(i＝1,…,M)，通过训练与训练句子S_i对应的N个观察序列O_ij(j＝1～N)以及与观察序列O_ij关联的MOS得分，可以建立HMM模型λ_i。结果，从M个训练句子生成M个HMM模型λ_i(i＝1～M)。

在也通过引用整体包含于此的L.R.Rabiner的“A tutorial on Hidden MarkovModels and Selected Applications in Speech Recognition”(Proceedings of TheIEEE,Vol.77,No.2,1989)中，可以找到关于HMM模型及其在语音建模方面的应用的更多细节。同样，本发明不限于HMM，机器学习的其它标准技术也可用于利用训练数据和交叉验证等来解决本问题。这样的标准技术包括(但不限于)SVM(支持向量机)、深度学习、神经网络等。由于已存在关于SVM、深度学习和神经网络的大量研究，因此这里省略它们的重复说明，以免模糊本发明的发明特征。

此时，语音模型已被建立，随后它可用作进行新的TTS引擎的自动评价的评价引擎。图4中图解说明例证的评价过程400。首先，在410，准备一组测试文本。类似于先前在210提供的训练集，测试集也可包括单词、短语、成语和句子，或者它们的任意组合。在选定的实施例中，优选句子。所述一组测试文本可以尽可能地多种多样，以便覆盖各种使用情形。例如，所述一组测试文本可包括与智能电话机操作、计算机操作、导航、游戏控制台、体育运动、新闻、日期/时间、天气/温度、文学、科学和其它领域相关的句子。所述一组测试文本还可包括从容易/简单的单词到困难/复杂的句子。在一些优选实施例中，测试集可以和先前在210提供的训练集相同。在其它实施例中，测试集可包括比训练集更多或更少的元素。另外，测试集可经API被提供给被评价的TTS引擎。

被评价的TTS引擎随后在420，把一组测试文本变换成测试语音，测试语音可由测试框架自动记录并保存在非临时性存储介质中。根据建立的语音模型(或者评价引擎)，这样的测试语音可用于评价对应的TTS引擎。

在借助测试语音的评价之前，测试语音也应经历预处理和特征提取过程。预处理和特征提取过程可以和关于步骤310和320讨论的预处理和特征提取过程相同，这里省略它们的重复说明。

随后，测试语音(更准确地说，提取的特征)可用于在430，通过语音模型评价TTS引擎。同样以HMM为例，在HMM研究领域中，评价处理被称为问题1。更具体地，通过利用问题1的解答来根据测试特征(或者观察序列)对各个HMM模型λ_i(i＝1～M)打分并选择最高得分，来进行评价。对所述一组测试文本重复该步骤，所有得分被合计，从而代表对于TTS引擎的评价结果。在也通过引用整体包含于此的L.R.Rabiner的“A tutorial on Hidden MarkovModels and Selected Applications in Speech Recognition”(Proceedings of TheIEEE,Vol.77,No.2,1989)中，可以找到HMM模型的问题1的解答。

在其它实施例中，所述一组测试文本可被分别赋予权重。例如，简单的测试句子可具有较低的权重，而复杂的测试句子可具有较高的权重。在被合计之前，得分可被乘以权重。

如上公开了按照本发明的例证实施例的文本转语音性能评价用方法。实施例应用已有的语音处理技术分析语音信号、建立语音模型和计算语音相似性，并提出一种自动评价TTS合成引擎性能的高效且无偏的解决方案。与需要大量参与者以便获得统计上可信的评价结果的主观评价方法相比，本发明只需要一人在开始阶段生成标准语音模型，该语音模型可反复用于不同TTS合成引擎的测试和评价。本发明中提出的解决方案大大降低了所需的时间和人工成本。

图5图解说明表示按照本发明的例证实施例的用于文本转语音性能评价的系统500的方框图。系统500的各个方框可用硬件、软件、固件或它们的任意组合实现，以执行本发明的原理。本领域的技术人员明白图5中描述的各个方框可被组合或分离成子方框，以实现如上所述的本发明的原理。于是，这里的说明可支持这里说明的各个方框的任何可能组合或分离或进一步的定义。

此外，由于参考关于图1-4讨论的方法，系统500的一些组件的操作变得明显，因此下面简要说明系统500。

参见图5，系统500可包括采样部分510和分级部分520。采样部分510可被配置成记录基于相同的一组训练文本、来自多个语音源的多个语音样本。语音源可包括多个TTS引擎以及方言不同和发音清晰度不同的人类。采样部分510可被实现成诸如麦克风之类的声音记录设备，和/或诸如记录来自语音源的读出的声音记录程序之类的软件。在其它实施例中，采样部分510可被实现成直接接收从多个TTS引擎输出的语音样本。采样部分510生成的语音样本可被保存在样本库530中。

分级部分520可被配置成对所述一组语音样本中的每个语音样本分级，以便至少向各个样本赋予得分。分级部分520可被配置成实现平均意见得分(MOS)测试、诊断接受度测量(DAM)测试、理解测试(CT)等。分级部分520可通过网络把多个语音样本分发给包括志愿者和/或兼职人员的多个听众，并通过网络从所述多个志愿者和/或兼职人员收集对应得分。在一些实施例中，所述多个语音样本的每个都具有权重。例如，简单的语音可具有较低的权重，而复杂的语音可具有较高的权重。分级部分520可进一步把听众赋予的得分乘以对应权重，并输出乘积，作为分级得分。

来自分级部分520的得分也可和来自样本部分510的语音样本一起，被保存在样本库530中。样本库530可被实现成非临时性存储介质，比如闪存、硬盘驱动器(HDD)、光盘等。语音样本和对应得分可从样本库530被提供给语音建模部分540，在语音建模部分540，它们被用于通过选定的算法建立语音模型。样本库530可被实现成在语音建模部分540附近的本地存储器，或者可被实现成远离语音建模部分540的远程存储器。在后一情况下，样本和得分例如可通过网络被传送给语音建模部分540。

更具体地，语音建模部分540可包括预处理单元542、特征提取单元544和机器学习单元546。预处理单元542可对语音样本进行一系列的预处理，以获得用于后续过程的预处理波形。预处理可包括(但不限于)信号采样、滤波、预加重、分帧、加窗和端点检测等，这些预处理为语音研究领域的技术人员所熟悉，从而这里省略其详细说明。随后，特征提取单元544可从预处理波形中提取特征，包括诸如共振峰、短时平均能量、短时平均过零率等之类的时域特征以及诸如线性预测系数(LPC)、线性预测倒谱系数(LPCC)、Mel频率倒频系数(MFCC)等之类的频域特征中的一个或多个特征。机器学习单元546可利用提取的特征连同对应得分一起来训练语音模型。在机器学习单元546中，可以实现标准机器学习技术，包括(但不限于)隐式马尔可夫模型(HMM)、支持向量机(SVM)、深度学习、神经网络等。机器学习处理可参见图3及相关说明，这里将省略机器学习处理的重复说明。

系统500还可包括评价部分550，评价部分550被配置成通过利用训练之后的语音模块，评价一个或多个新的TTS引擎。评价部分550可包括测试文本库552、语音库554和计算单元556。测试文本库552可包含待提供给被评价的TTS引擎的一组测试文本。在选定的实施例中，测试集可以和训练集相同，而在其它实施例中，测试集可不同于训练集。语音库554可接收由被测试的TTS引擎变换自所述一组测试文本的语音。随后，计算单元556可根据测试语音，利用来自机器学习单元546的语音模型，计算得分或加权得分。尽管未图示，不过，评价部分550还可包括在测试语音被提供给计算单元556以便进行评价之前，处理测试语音的预处理单元和特征提取单元。预处理单元和特征提取单元可以分别和语音建模部分540中的预处理单元542和特征提取单元544实质相同，这里将省略它们的重复说明。可在计算单元556中合计各个测试语音的得分或加权得分，从而代表对于TTS引擎的评价结果。

根据以上实施例，本领域的技术人员清楚知道本发明可用具有必要硬件的软件、或者用硬件、固件等实现。基于这样的理解，本发明的实施例可部分以软件形式具体体现。计算机软件可被保存在计算机的可读存储介质(比如软盘、硬盘、光盘或闪存)中。计算机软件包含使计算机(例如，个人计算机、服务站或网络终端)执行按照本发明的各个实施例的方法或方法的一部分的一系列指令。

如上说明了本发明，显然可按许多方式变更本发明。这样的变化不应被视为脱离本发明的精神和范围，对本领域的技术人员来说显而易见的所有这样的修改都包含在以下权利要求的范围内。

Claims

1.一种用于自动评价不同文本转语音引擎的文本转语音性能的方法，包括：

提供多个语音样本和与相应语音样本关联的得分；

预处理所述多个语音样本，以便获得经预处理的波形；

从每个所述经预处理的波形中提取特征；

基于从所述多个语音样本获得的、经预处理的波形而提取的特征和对应得分，建立语音模型；并且

通过语音模型评价文本转语音引擎；

其中，所述提供步骤还包括：

记录基于相同的一组训练文本、来自多个语音源的多个语音样本并且对所述多个语音样本中的每个语音样本分级，以向其分配得分；

其中，所述多个语音源包括多个文本转语音引擎和方言不同以及发音的清晰度不同的人类；并且

其中，所述评价步骤还包括：

向被评价的文本转语音引擎提供一组测试句子；

接收从所述一组测试句子由被评价的文本转语音引擎所变换的语音；和

根据所建立的语音模型，计算每个语音的评价得分，其中，简单的测试句子具有较低的权重，而复杂的测试句子具有较高的权重，并且每个评价得分被乘以相应的较低或较高的权重之后，被合计以用于确定最终评价得分。

2.按照权利要求1所述的方法，其中所述分级步骤通过选自由下列构成的组中的方法进行：平均意见得分、诊断接受度测量和理解测试。

3.按照权利要求1所述的方法，其中提取的特征包括时域特征和频域特征中的一个或多个特征。

4.按照权利要求1所述的方法，其中所述建立步骤是通过利用隐式马尔可夫模型、支持向量机、深度学习或神经网络进行的。

5.一种用于自动评价不同文本转语音引擎的文本转语音性能的系统，包括：

包含多个语音样本和与相应语音样本关联的得分的样本库；

被配置成根据所述多个语音样本和对应得分建立语音模型的语音建模部分，所述语音建模部分还包括：

被配置成预处理所述多个语音样本以便获得经预处理的波形的预处理单元；

被配置成从每个经预处理的波形中提取特征的特征提取单元；和

被配置成通过提取的特征和对应得分建立语音模型的机器学习单元；

被配置成记录基于相同的一组训练文本、来自多个语音源的多个语音样本的采样部分，其中，所述多个语音源包括多个文本转语音引擎和方言不同以及发音的清晰度不同的人类；

被配置成对所述多个语音样本中的每个语音样本分级以向其分配得分的分级部分，

被配置成通过语音模型评价文本转语音引擎的评价部分，

所述评价部分还包括：

被配置成把保存于其中的一组测试句子提供给被评价的文本转语音引擎的测试文本库；

被配置成对从所述一组测试句子由文本转语音引擎所变换的语音进行接收的语音库；和

被配置成根据所建立的语音模型计算每个语音的评价得分的计算单元，

其中，所述语音模型用作进行文本转语音引擎的自动评价的评价引擎，其中，简单的测试句子具有较低的权重，而复杂的测试句子具有较高的权重，并且每个评价得分被乘以相应的较低或较高的权重之后，被合计以用于确定最终评价得分。

6.按照权利要求5所述的系统，其中所述分级部分被配置成通过选自由下列构成的组中的方法对每个语音样本分级：平均意见得分、诊断接受度测量和理解测试。

7.按照权利要求5所述的系统，其中提取的特征包括时域特征和频域特征中的一个或多个特征。

8.按照权利要求5所述的系统，其中所述机器学习单元被配置成通过利用隐式马尔可夫模型、支持向量机、深度学习或神经网络，进行语音模型的训练。

9.一种计算机可读介质，包括用于实现一种用于自动评价不同文本转语音引擎的文本转语音性能的方法的可执行指令，所述方法包括：

提供多个语音样本和与相应语音样本关联的得分；

预处理所述多个语音样本，以便获得经预处理的波形；

从每个经预处理的波形中提取特征；

基于从所述多个语音样本获得的、经预处理的波形而提取的特征和对应得分，建立语音模型；

通过语音模型评价文本转语音引擎，

所述提供步骤还包括：

记录基于相同的一组训练文本、来自多个语音源的多个语音样本；并且对所述多个语音样本中的每个语音样本分级，以向其分配得分；

其中，所述评价步骤还包括：

向被评价的文本转语音引擎提供一组测试句子；