CN1641674A

CN1641674A - 计算机语音合成自然度的评测方法和系统

Info

Publication number: CN1641674A
Application number: CNA2004100000671A
Authority: CN
Inventors: 钱跃良; 林守勋; 熊德意; 褚诚缘; 谢萦
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2004-01-08
Filing date: 2004-01-08
Publication date: 2005-07-20

Abstract

本发明公开了一种计算机语音合成自然度的评测方法及其系统，在该方法中听音人每次对同一文本文件对应的两个计算机语音合成系统合成的语音文件进行两两对比，并给出自然度优劣的对比结果；最后根据所有的对比结果，统计出每个计算机语音合成系统的评测结果。在本发明中，由计算机完成语音文件的排序，该计算机包括配对列表生成模块、初始播放列表生成模块、最终播放列表生成模块和校验模块。本发明的评测方法对听音人要求较低且降低了评测过程中的“记忆”效应。该评测方法具有操作简单、评测结果真实可靠等特点，对于科学、客观、公正地评价语音合成技术，促进语音技术和产业的发展具有重要意义。

Description

计算机语音合成自然度的评测方法和系统

技术领域

本发明涉及计算机语音合成系统的评测，特别是涉及计算机语音合成自然度的评测方法和系统。

背景技术

计算机语音合成是指通过计算机语音合成系统，将文字信息转换为语音信息。一个计算机语音合成系统的评价指标，主要包括语音的可懂度、清晰度和自然度。

要评价一个语音合成系统的自然度，必须要有一个评价和测试的方法。如图1所示，对于语音合成系统自然度的评测目前通常是：由评测主持单位选择若干段用于评测的短文组成计算机的文本文件；各参评语音合成系统运行语音合成软件将文字信息转换为语音信息；评测主持单位运行排序软件，将各个系统合成的所有语音文件随机进行排序，生成新的语音文件；组织一定人数的测听队，播放排序后的语音文件，听音人根据合成语音的自然度按MOS等级(共5等)进行打分；所有系统合成的所有短文播放完后，统计出每个系统的平均MOS得分。

相应于这种评测方法，现有的评测系统通常要包括一个计算机，该计算机存储有一个排序软件，该排序软件对语音合成系统合成的语音文件进行排序。如前所述，在现有技术中，通常是仅对语音合成系统合成的语音文件进行随机排序。

这种评测方法存在二个重要缺点：

一)要求听音人能对不同的语音质量给出按五个等级划分的MOS分，这对听音人的听音要求非常高。

二)会产生“记忆效应”，就是在刚开始的时候，由于对播放的内容不熟悉，主观感觉会比较差，但在播放了许多遍后，主观感觉就会有变化，那么排在前面播放的语音所得到的MOS分可能就不如在后面播放的高，这样的评测方法就不是很科学。

发明内容

本发明的主要目的在于提供一种改进的计算机语音合成自然度评测方法，降低评测方法中对听音人的听音要求；本发明的目的还在于提供一种改进的计算机语音合成自然度评测方法，降低评测方法中产生的记忆效应；本发明最后还提供一种实现该方法的计算机语音合成自然度评测系统。

为了实现上述目的，本发明提供的计算机语音合成自然度的评测方法，包括步骤：

1)多个参评的计算机语音合成系统分别将多个文本文件合成为语音文件。

2)听音人每次对同一文本文件对应的两个计算机语音合成系统合成的语音文件进行两两对比，并给出自然度优劣的对比结果；该两两对比遍及所有可能的计算机语音合成系统的两两组合，并且遍及所有的文本文件。

在步骤2)中，所述听音人每次给出的自然度优劣的对比结果包括：两个语音文件的自然度相同、两个语音文件的自然度有优劣区别。当两个语音文件的自然度相同时，该两个语音文件获得相同的得分；当两个语音文件的自然度有优劣区别时，该两个语音文件获得不同的得分。当两个语音文件的自然度有优劣区别时，自然度优的语音文件获得一个相对高的得分，自然度劣的语音文件获得一个相对低的得分；当两个语音文件的自然度相同时，该两个语音文件都获得位于所述相对高的得分和所述相对低的得分之间的一个得分。听音人对不同文本文件对应的语音文件交叉评测。

3)根据所有的对比结果，统计出每个计算机语音合成系统的评测结果。

本发明还提供一种应用于前述方法的计算机语音合成自然度的评测系统，该评测系统存储有多个参评的计算机语音合成系统分别对多个文本文件进行语音合成后的语音文件，并将所述语音文件排序后输出以便听音人进行评测，最后根据外部输入的评测结果统计出每个参评的计算机语音合成系统的评测结果；该评测系统包括一计算机，该计算机包括：

配对列表生成模块，用于生成配对列表，该列表包括了所有可能的计算机语音合成系统的两两配对组合；

初始播放列表生成模块，用于生成初始播放列表，该初始播放列表是将所述配对列表与所述多个文本文件分别结合而形成；配对列表中的每一个配对中包括同一个文本文件对应的两个不同的计算机语音合成系统合成的语音文件；

最终播放列表生成模块，用于生成最终播放列表，该最终播放列表是将所述初始播放列表中的各个配对随机排列；该随即排列包括各个配对之间的随机排列，还包括一个配对内两个语音文件的前后随机排列；

校验模块，用于根据校验法则对最终播放列表进行校验，如果符合校验法则则由输出模块根据该最终播放列表输出语音文件，如果不符合则由最终播放列表生成模块重新生成最终播放列表；所述校验法则包括：a)各参评计算机语音合成系统在所有配对中出现在前的总次数相等，出现在后的总次数也相等；b)相同的文本文件对应的不同配对之间间隔排列；

输出模块，用于根据最终播放列表输出语音文件。

本发明的计算机语音合成自然度的评测系统对所有语音文件进行配对排序，然后按照最终播放列表输出语音文件。

本发明的优点在于：

(1)听音人在进行评测时，只需要对两个语音文件进行比较，而得出两个语音文件的自然度基本相同或者有优劣差异的评判结果，并给出相应的分数。相比于现有的按MOS等级对语音的自然度进行区分，本发明的方法对听音人的要求比较低。

(2)本发明的计算机语音合成自然度的评测系统在生成最终播放列表时，使得不同文本文件对应的语音文件随机交叉播放，这样听音人在某段连续时间内不会因为总是听同一语音文件而形成“记忆”。而且同一文本文件对应的语音文件先后播放的机会均等，因而它们对听音人的影响也是相等的。

(3)本发明的计算机语音合成自然度的评测方法具有操作简单、评测结果真实可靠等特点，对于科学、客观、公正地评价语音合成技术，促进语音技术和产业的发展具有重要意义。

附图说明

图1是现有的语音合成自然度MOS评测方法流程框图；

图2是本发明的语音合成自然度评测方法流程框图；

图3是本发明的语音文件排序软件流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述。

如图1所示，首先由评测主持单位选择若干段用于评测的短文组成计算机的文本文件(以下简称“短文”)。各参评系统运行语音合成软件，将评测的短文合成为语音文件。评测主持单位在一计算机上运行排序软件，将各个系统合成的所有语音文件按照一定的排序方法进行组合，生成两两配对的语音文件，该排序方法将在下文中详细描述。组织一定人数的测听队，在计算机上播放排序后的语音文件，对同一段短文，每次只播放某两个系统合成的语音。听音人根据合成语音的拟人性、连贯性及韵律感等对两个系统做出判断：自然度水平基本相同或者能区分优劣，并给出相应的分数，例如，自然度水平基本相同的两个语音文件各得1分，能区分优劣的两个语音文件中优者得2分劣者得0分。每个系统合成的每一段短文都分别与其他系统进行比较，并打分。所有系统合成的所有短文两两比较完成后，统计出每个系统的得分。

本发明的语音文件排序软件的排序策略如图3所示，将排序过程分解为四个连贯的子过程，分别由配对列表生成模块、初始播放列表生成模块、最终播放列表生成模块模块和校验模块完成。为了便于理解，以一个实施例来详细说明各个模块的功能。在该实施例中，参加评测的语音合成系统为三个，分别用A、B、C表示，用于评测的短文有两段，用数字1和2表示。首先，三个参评系统分别运行语音合成软件，将这两段短文合成为语音文件，三个系统合成的语音文件分别用A(1)、A(2)、B(1)、B(2)、C(1)和C(2)表示。然后进行排序，具体为：

第一步，配对列表生成模块生成参评系统两两对比的配对列表，列表中的每个元素就是某两个参评系统配好的对子。这里的配对是要遍及所有可能的参评系统的两两组合。在本实施例中，可能的配对组合有三种A～B、A～C和B～C，并以此顺序构成配对列表。一般来说，如果有N个参评系统，其配对组合为CN2个。

第二步，由初始播放列表生成模块生成初始播放列表。其中，初始播放列表生成模块首先将配对列表生成模块生成的配对列表和某段短文结合，就生成了该短文的一个初始播放顺序表，在该顺序表中，同一个短文对应的对子按配对列表顺序排列。所有短文的初始播放顺序表组合在一起就构成了初始播放列表。在本实施例中，配对列表和两段短文结合，分别生成这两段短文的初始播放顺序表，将这两个初始播放顺序表合在一起就构成了初始播放列表，即，A(1)～B(1)、A(1)～C(1)、B(1)～C(1)、A(2)～B(2)、A(2)～C(2)、B(2)～C(2)。

第三步，最终播放列表生成模块将初始播放列表中的各个配对随机排列。这里所说的随机排列包括两个含义，一个是指各个配对之间的随机排列，另一个是指在一个配对内两个语音文件的前后随机排列。

第四步，校验模块根据校验法则对中间播放列表进行校验，如果符合校验法则由输出模块根据该最终播放列表输出语音文件，如果不符合则由最终播放列表生成模块重新生成最终播放列表。在这里，校验法则包括：

a)各参评计算机语音合成系统在所有配对中出现在前的总次数相等，出现在后的总次数也相等。该法则保证同一篇短文的各参评系统合成的语音先后播放的机会均等，因而它们对听音人的影响也是相等的。

b)相同的短文对应的不同配对之间间隔排列。该法则使得不同文本文件对应的语音文件随机交叉播放，从而降低了听音人的“记忆”效应。

经过校验模块的校验，最后可通过校验的最终播放列表可以为：A(1)～B(1)、C(2)～B(2)、B(1)～C(1)、A(2)～C(2)、C(1)～A(1)、B(2)～A(2)。该列表只是所有符合要求的列表中的一种，应当理解，也可存在其它符合要求的列表。

经过上述四步生成最终播放列表后，在计算机的输出模块上按照该列表播放语音文件。最后，组织30人的测听队，对同一段短文，每次只播放某两个系统合成的语音，听音人根据合成语音的拟人性、连贯性及韵律感等对两个系统做出判断：自然度水平不相上下的，各得1分；能区分优劣的，优者得2分，劣者得0分。每个系统合成的每一段短文都分别与其他系统进行比较，并打分；所有系统合成的所有短文两两比较完成后，统计出每个系统的得分。

Claims

1、一种计算机语音合成自然度的评测方法，包括步骤：

1)多个参评的计算机语音合成系统分别将多个文本文件合成为语音文件；

2)听音人每次对同一文本文件对应的两个计算机语音合成系统合成的语音文件进行两两对比，并给出自然度优劣的对比结果；该两两对比遍及所有可能的计算机语音合成系统的两两组合，并且遍及所有的文本文件；

2、根据权利要求1所述的计算机语音合成自然度的评测方法，其特征在于，在步骤2)中，所述听音人每次给出的自然度优劣的对比结果包括：两个语音文件的自然度相同、两个语音文件的自然度有优劣区别。

3、根据权利要求2所述的计算机语音合成自然度的评测方法，其特征在于，在步骤2)中，当两个语音文件的自然度相同时，该两个语音文件获得相同的得分；当两个语音文件的自然度有优劣区别时，该两个语音文件获得不同的得分。

4、根据权利要求3所述的计算机语音合成自然度的评测方法，其特征在于，当两个语音文件的自然度有优劣区别时，自然度优的语音文件获得一个相对高的得分，自然度劣的语音文件获得一个相对低的得分；当两个语音文件的自然度相同时，该两个语音文件都获得位于所述相对高的得分和所述相对低的得分之间的一个得分。

5、根据权利要求1所述的计算机语音合成自然度的评测方法，其特征在于，听音人对不同文本文件对应的语音文件交叉评测。

6、一种应用于权利要求1所述方法的计算机语音合成自然度的评测系统，该评测系统存储有多个参评的计算机语音合成系统分别对多个文本文件进行语音合成后的语音文件，并将所述语音文件排序后输出以便听音人进行评测，最后根据外部输入的评测结果统计出每个参评的计算机语音合成系统的评测结果；该评测系统包括一计算机，其特征在于，该计算机包括：

输出模块，用于根据最终播放列表输出语音文件。