CN102723077B

CN102723077B - 汉语教学语音合成方法及装置

Info

Publication number: CN102723077B
Application number: CN201210207692.8A
Authority: CN
Inventors: 解焱陆; 张劲松
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2012-06-18
Filing date: 2012-06-18
Publication date: 2014-07-09
Anticipated expiration: 2032-06-18
Also published as: CN102723077A

Abstract

本发明提供一种汉语教学语音合成方法及装置，其中，该方法包括：获取语言学习者语音以及多个标准教师语音；根据语音参数从多个标准教师语音中选择与语言学习者语音最接近的标准教师语音，其中，语音参数包括：声学参数、音高、节奏信息；根据最接近的标准教师语音与语言学习者语音合成声调教学语音。通过本发明，可以使得语言学习者更容易学习发音，从而可以给汉语学习者提供较好的帮助。

Description

汉语教学语音合成方法及装置

技术领域

本发明涉及语音信号处理领域，具体地，涉及一种汉语教学语音合成方法及装置。

背景技术

外国人学习汉语，面临的一个很大的困难就是汉语声调的学习，因为汉语声调的变化要比重音复杂的多。为了解决汉语声调学习的问题，有学者提出了各种针对性的声调教学方法，但往往只有经过训练的对外汉语教师才能掌握这种教学方法，学生自学手段有限。

上世纪九十年代以来，计算机辅助语言学习（CALL）的研究取得了较大进展，语音处理技术被广泛的用到了计算机辅助语言学习（CALL）系统中，其中语音识别被广泛用于学习者的发音水平检测和评估，语音合成以及语音的感知和理解技术被用于学习系统的反馈和指导，以及一些特定语音和韵律的学习。

目前，国内外对于CALL的研究更集中在发音质量评价和发音错误检测，一般是基于语音识别的技术，结合语音学知识，针对不同语言设计特定的测评和检测算法。检测算法大都是基于隐马尔可夫模型（HMM）框架的，取得了很好的评测效果。但对于汉语声调的学习，仍存在一个亟待解决的问题，即反馈学习问题。目前大多数系统的反馈指导还是基于事先录制好的标准语音或标准合成语音的简单指导，并没有考虑到学生的语言背景和所学语言的特点，做到因材施教。

例如，在CALL系统中，一般是直接给出一个正确的标准发音，学习者通过比对自身发音和标准发音之间的区别，训练自己的声调发音；或者是提供给发音者基频曲线的对比，让其根据曲线纠正发音问题；或者是在决策树中给出一些简单反馈。

也就是说，目前的汉语学习方案并未针对不同的声调偏误进行因材施教，从而也无法给汉语学习者提供较好的帮助。

发明内容

本发明实施例的主要目的在于提供一种汉语教学语音合成方法及装置，以解决现有技术中的汉语学习方案并未针对不同的声调偏误进行因材施教、从而无法给汉语学习者提供较好帮助的问题。

为了实现上述目的，本发明实施例提供一种汉语教学语音合成方法，该方法包括：获取语言学习者语音以及多个标准教师语音；根据语音参数从所述多个标准教师语音中选择与所述语言学习者语音最接近的标准教师语音，其中，所述的语音参数包括：声学参数、音高、节奏信息；根据所述最接近的标准教师语音与所述语言学习者语音合成声调教学语音。

根据语音参数从所述多个标准教师语音中选择与所述语言学习者语音最接近的标准教师语音包括：根据语音参数分别对每个标准教师语音、以及所述语言学习者语音训练高斯混合模型；根据得到的高斯混合模型选择与所述语言学习者语音最接近的标准教师语音。

根据所述最接近的标准教师语音与所述语言学习者语音合成声调教学语音包括：分别对所述最接近的标准教师语音与所述语言学习者语音进行音素分段；根据所述最接近的标准教师语音与所述语言学习者语音的每个对应音素段调整所述语言学习者语音的时长和基音周期；根据调整后的所述语言学习者语音的时长和基音周期、应用TD-PSOLA算法合成所述声调教学语音。

根据所述最接近的标准教师语音与所述语言学习者语音的每个对应音素段调整所述语言学习者语音的时长和基音周期包括：将所述最接近的标准教师语音的时长与所述语言学习者语音的时长的平均值确定为调整后的所述语言学习者语音的时长；将所述最接近的标准教师语音的基音周期确定为调整后的所述语言学习者语音的基音周期。

所述的节奏信息包括：一句语音中所有元音的时长加占总时长的比例；一句语音中元音时长的标准差；相邻两元音段或辅音段之间的时长差的平均值；相邻两元音段或辅音段之间的时长差占单个片段时长的比例的平均值。

本发明实施例还提供一种汉语教学语音合成装置，所述装置包括：语音获取单元，用于获取语言学习者语音以及多个标准教师语音；最接近标准教师语音选择单元，用于根据语音参数从所述多个标准教师语音中选择与所述语言学习者语音最接近的标准教师语音，其中，所述的语音参数包括：声学参数、音高、节奏信息；声调教学语音合成单元，用于根据所述最接近的标准教师语音与所述语言学习者语音合成声调教学语音。

所述最接近标准教师语音选择单元包括：高斯混合模型训练模块，用于根据语音参数分别对每个标准教师语音、以及所述语言学习者语音训练高斯混合模型；最接近标准教师语音选择模块，用于根据得到的高斯混合模型选择与所述语言学习者语音最接近的标准教师语音。

所述声调教学语音合成单元包括：音素分段模块，用于分别对所述最接近的标准教师语音与所述语言学习者语音进行音素分段；语言学习者语音调整模块，用于根据所述最接近的标准教师语音与所述语言学习者语音的每个对应音素段调整所述语言学习者语音的时长和基音周期；声调教学语音合成模块，用于根据调整后的所述语言学习者语音的时长和基音周期、应用TD-PSOLA算法合成所述声调教学语音。

所述语言学习者语音调整模块包括：时长调整子模块，用于将所述最接近的标准教师语音的时长与所述语言学习者语音的时长的平均值确定为调整后的所述语言学习者语音的时长；基音周期调整子模块，用于将所述最接近的标准教师语音的基音周期确定为调整后的所述语言学习者语音的基音周期。

所述最接近标准教师语音选择单元中的节奏信息包括：一句语音中所有元音的时长加占总时长的比例；一句语音中元音时长的标准差；相邻两元音段或辅音段之间的时长差的平均值；相邻两元音段或辅音段之间的时长差占单个片段时长的比例的平均值。

借助于上述技术方案至少之一，通过将选择的最接近的标准教师语音与语言学习者语音合成声调教学语音，可以使得语言学习者更容易学习发音，从而可以给汉语学习者提供较好的帮助。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的汉语教学语音合成方法的流程图；

图2是根据本发明实施例的汉语教学语音合成方法的流程示意框图；

图3是语音质量的感知结果示意图；

图4是声调质量的感知结果示意图；

图5是根据本发明实施例的汉语教学语音合成装置的结构框图；

图6是根据本发明实施例的最接近标准教师语音选择单元的结构框图；

图7是根据本发明实施例的声调教学语音合成单元的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于现有的汉语学习方案并未针对不同的声调偏误进行因材施教、从而无法给汉语学习者提供较好帮助的问题，基于此，本发明实施例提供一种汉语教学语音合成方法及装置，以解决上述问题。以下结合附图对本发明进行详细说明。

实施例一

本发明实施例提供一种汉语教学语音合成方法，图1是该方法的流程图，如图1所示，该方法包括：

步骤101，获取语言学习者语音以及多个标准教师语音；

步骤102，根据语音参数从多个标准教师语音中选择与语言学习者语音最接近的标准教师语音，其中，语音参数包括：声学参数、音高、节奏信息；

步骤103，根据最接近的标准教师语音与语言学习者语音合成声调教学语音。

由以上描述可以看出，通过将选择的最接近的标准教师语音与语言学习者语音合成声调教学语音，由于该合成声调教学语音类似于语言学习者自己的声音，因此，语言学习者将更容易学习发音，通过本发明实施例，可以给汉语学习者提供较好的帮助。

具体地，根据语音参数从多个标准教师语音中选择与语言学习者语音最接近的标准教师语音包括：根据语音参数分别对每个标准教师语音、以及语言学习者语音训练高斯混合模型；根据得到的高斯混合模型选择与语言学习者语音最接近的标准教师语音。

这里的语音参数是可以用于衡量语音相似性的参数，其中：

声学参数：通常用在说话人识别中，在本发明实施例中，声学参数是比较母语发音（即标准教师语音）和语言学习者发音之间的相似性，采用MFCC参数。

音高（pitch）：说话人的声调主要由其音高的变化决定。如果将音高用来衡量母语和学生之间的相似性，应能更好的比较其声调的相似性。在本发明实施例中，为了反映音调的情况，可以使用音高一阶动态和二阶动态参数。

节奏信息：汉语普通话一般被认为是一种节奏语言，节奏一般和说话的时长有关，用节奏信息可以区分不同语言背景人所说的普通话，在本发明实施例中，选用节奏信息用以选择和语言学习者最接近的标准教师语音，具体地节奏信息包括：%V,△V,rPVI,nPVI。

%V是指：在一句话（或一句语音）中，所有元音的时长加占总时长的比例；

△V是指：在一句话中，元音时长的标准差；

rPVI是指：相邻两元音段或辅音段之间的时长差的平均值。

nPVI是指：相邻两元音段或辅音段之间的时长差占单个片段时长的比例的平均值。

rPVI、nPVI的计算公式如下：

rPVI = [Σ_{k = 1}^{m - 1} | d_{k} - d_{k - 1} | / (m - 1)]

nPVI = 100 * [Σ_{k = 1}^{m - 1} | \frac{d_{k} - d_{k - 1}}{(d_{k} - d_{k - 1}) / 2} | / (m - 1)]

在上述公式中，m是一句话中元音的间隔数，d是第k个间隔持续的时长。

在本发明实施例中，需要将上述四种参数合并成一个矢量，作为一个共同的参数进行识别。在合并前，需要对参数进行均值和方差的规整。

在本发明实施例中，选用比较语音参数模型为高斯混合模型，具体操作为：先使用标准语音库的语音，对每个教师语音分别训练高斯混合模型，所使用的参数分别为上述的三种语音参数，故每个教师有三个高斯混合模型。测试时，对语言学习者的语音也分别提取三种语音参数，对应的参数分别和不同的教师模型匹配，选择似然评分最高的教师语音。在三种不同参数的评价准则下，会选取出3个最接近的教师语音。

具体地，在某一种参数条件下会从教师语音库中选择出一种最接近的教师语音，在此有三种参数，因此可能会选择出三个教师语音，三个教师语音在对应的参数上都是最接近的。若某两种参数选择出相同的教师语音，最后得到的教师语音也有可能小于三个。这三个里面哪个最优，是通过后续的合成听辨实验得到的。在实验中，以MFCC参数选取的教师语音，合成出的结果最好。

在选择了最接近的标准教师语音之后，根据最接近的标准教师语音与语言学习者语音合成声调教学语音包括：分别对最接近的标准教师语音与语言学习者语音进行音素分段；根据最接近的标准教师语音与语言学习者语音的每个对应音素段调整语言学习者语音的时长和基音周期；根据调整后的语言学习者语音的时长和基音周期、应用TD-PSOLA算法合成声调教学语音。

其中，根据最接近的标准教师语音与语言学习者语音的每个对应音素段调整语言学习者语音的时长和基音周期包括：将最接近的标准教师语音的时长与语言学习者语音的时长的平均值确定为调整后的语言学习者语音的时长；将最接近的标准教师语音的基音周期确定为调整后的语言学习者语音的基音周期。

在实际操作中，可以使用自动语音识别中的强制对齐（force align）方法对输入的语音按照音素进行分段。语言学习者的语音和最接近的标准教师语音具有相同的文本内容，对比二者的分段结果，对两条语音的每个对应音素段调整语言学习者的语音的时长和基音周期。优选地，时长选择为二者之间的均值，基音周期选择为最接近的标准教师语音的基音周期。在时长、基音周期确定后，使用TD-PSOLA算法合成教学语音。TD-PSOLA是一个较成熟的技术，TD-PSOLA技术改变原始语音波形的基频和音长的情况，如何根据TD-PSOLA算法合成教学语音可以参见现有技术中的相关描述，此处不再赘述。

图2是汉语教学语音合成方法的流程示意框图，如图2所示，对于一个新的声调学习者，首先将其发音进行参数提取，同时从标准发音人语音库中进行参数提取，再进行语音参数模型比较，并选择最接近的标准教师语音进行教学语音合成。

最接近的标准教师语音的选择：即从本地语音库中选择最佳的教师语音。首先对标准发音人语音库中的语音进行三种语音参数的提取，训练标准发音人的高斯混合模型GMM。由于不同语音参数所提取到的数据量是不同的，GMM的混合度数量也不同。其中，MFCC参数的GMM的混合度数量最大，pitch参数和节奏参数的GMM的混合度数量较小，因此，GMM可以预先离线训练得到。

对于一个新的语言学习者，也同样提取其三种语音参数，分别和相应参数的标准发音人的高斯混合模型比较，选择最接近的标准教师语音。

具体地，对于所提取的语音参数，以MFCC为例（其余两个参数选择过程也类似）。标准发音人事先已提取了MFCC参数，并根据该参数训练出高斯混合模型（GMM），有多少个标准发音人就可以得到多少个高斯混合模型。对于新的语言学习者，相应的提取同样阶次的MFCC参数，再将此参数和每个标准发音人的GMM相匹配，计算出MFCC参数在该模型上的似然评分。将和所有模型匹配得到的似然评分进行比较，找出最大值，所对应的GMM即为和新的语言学习者最接近的模型，也就找出了最接近的标准教师语音。

之后，进行语音合成：使用自动语音识别中的强制对齐对输入的语音按照音素进行分段。由于语言学习者的语音和所选取的标准教师语音是相同的文本内容，因此，对比二者的分段结果，对两条语音的每个对应音素段调整语言学习者的语音的时长和基音周期。时长选择为二者之间的均值，基音周期选择为标准教师语音的基音周期。

在时长、基音周期确定后，使用TD-PSOLA算法合成教学语音。

为了验证本发明实施例的有效性，可以选择汉语学习教材《汉语会话301句》的语音，验证合成语音的语音质量和声调质量。

标准语料库共有12个中国人（6男6女）朗读《汉语会话301句》的语音，语音学习者共3人（2男1女，母语为日语），语音学习者也录制了其朗读《汉语会话301句》的语音。

按照本发明实施例的方法对三个语音学习者分别选择最接近的中国人语音，再根据中国人语音和学习者语音合成教学语音。

五位语言学研究生通过感知实验对合成语音进行了测评，五个学生的母语都是汉语普通话。五位学生以MOS评分，1（差）到5（优秀），对合成语音的音质和声调质量进行了评测。

图3是语音质量的感知结果示意图，图4是声调质量的感知结果示意图，图中M1，M2，F1是指不同的2男1女语言学习者的实验结果。

如图3、4所示，每组数据的第一列CHN是指原标准发音人的MOS得分，第二列JPN是指语言学习者原始语音的MOS得分，最后三列MFCC、PITCH和RYHTHM，都是合成语音的MOS得分，其区别在于以不同参数选择标准发音人进行语音合成，参数不同，所选取到的最接近的标准发音人也有可能不同，所合成的语音质量也是不同的。F1比较特殊，在MFCC、PITCH上选出了同样的标准发音人，合成的语音结果也相同。

从两个图中，可以发现合成语音的语音质量和声调质量都得到了提高，综合五个学生的结果，对于M1语言学习者而言，MFCC方法合成语音质量的MOS评分相对改善约5.4％，声调质量相对改善12.6％。

原语言学习者的声调质量越差，则通过本方法合成语音质量越好，在图3中，原始的三个学习者声调MOS评分分别为3.7，4.0和3.1，就MFCC方法而言，相对改善为12.6％，9.0％和20.7％

以不同的参数标准选择不同的标准发音人进行语音合成，在语音质量和声调质量上，都是MFCC方法最优。这可能因为，MFCC的反映了大部分的声学特性和部分的声调特性。平均声调质量相对改善了20.7%。

实施例二

本发明实施例还提供一种汉语教学语音合成装置，该装置优选地用于实现上述实施例一中的方法。图5是该装置的结构框图，如图5所示，该装置包括：

语音获取单元1，用于获取语言学习者语音以及多个标准教师语音；

最接近标准教师语音选择单元2，用于根据语音参数从多个标准教师语音中选择与语言学习者语音最接近的标准教师语音，其中，语音参数包括：声学参数、音高、节奏信息；

声调教学语音合成单元3，用于根据最接近的标准教师语音与语言学习者语音合成声调教学语音。

由以上描述可知，通过声调教学语音合成单元将最接近标准教师语音选择单元选择的最接近的标准教师语音与语言学习者语音合成声调教学语音，由于该合成声调教学语音类似于语言学习者自己的声音，因此，语言学习者将更容易学习发音，通过本发明实施例，可以给汉语学习者提供较好的帮助。

上述最接近标准教师语音选择单元中的节奏信息包括：一句语音中所有元音的时长加占总时长的比例；一句语音中元音时长的标准差；相邻两元音段或辅音段之间的时长差的平均值；相邻两元音段或辅音段之间的时长差占单个片段时长的比例的平均值。

如图6所示，上述最接近标准教师语音选择单元2包括：

高斯混合模型训练模块21，用于根据语音参数分别对每个标准教师语音、以及语言学习者语音训练高斯混合模型；

最接近标准教师语音选择模块22，用于根据得到的高斯混合模型选择与语言学习者语音最接近的标准教师语音。

如图7所示，声调教学语音合成单元3包括：

音素分段模块31，用于分别对最接近的标准教师语音与语言学习者语音进行音素分段；

语言学习者语音调整模块32，用于根据最接近的标准教师语音与语言学习者语音的每个对应音素段调整语言学习者语音的时长和基音周期；

声调教学语音合成模块33，用于根据调整后的语言学习者语音的时长和基音周期、应用TD-PSOLA算法合成声调教学语音。

其中，语言学习者语音调整模块32包括：

时长调整子模块321，用于将最接近的标准教师语音的时长与语言学习者语音的时长的平均值确定为调整后的语言学习者语音的时长；

基音周期调整子模块322，用于将最接近的标准教师语音的基音周期确定为调整后的语言学习者语音的基音周期。

上述各单元、各模块、各子模块的具体的执行过程，可以参见上述实施例一中的描述，此处不再赘述。

本发明实施例能够合成出音段、个性信息和语言学习者语音一致，而声调为标准声调的教学语音，通过感知实验结果表明，以MFCC参数选取的教师语音为基准，所得到的合成教学语音在音质和声调上都得到了最优的效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读取存储介质中，比如ROM/RAM、磁碟、光盘等。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种汉语教学语音合成方法，其特征在于，所述的方法包括：

获取语言学习者语音以及多个标准教师语音；

根据语音参数从所述多个标准教师语音中选择与所述语言学习者语音最接近的标准教师语音，其中，所述的语音参数包括：声学参数、音高、节奏信息；

根据所述最接近的标准教师语音与所述语言学习者语音合成声调教学语音；

其中，所述根据语音参数从所述多个标准教师语音中选择与所述语言学习者语音最接近的标准教师语音，包括：

根据语音参数分别对每个标准教师语音、以及所述语言学习者语音训练高斯混合模型；

根据得到的高斯混合模型选择与所述语言学习者语音最接近的标准教师语音；

所述根据所述最接近的标准教师语音与所述语言学习者语音合成声调教学语音，包括：

分别对所述最接近的标准教师语音与所述语言学习者语音进行音素分段；

根据所述最接近的标准教师语音与所述语言学习者语音的每个对应音素段调整所述语言学习者语音的时长和基音周期；

根据调整后的所述语言学习者语音的时长和基音周期、应用TD-PSOLA算法合成所述声调教学语音。

2.根据权利要求1所述的方法，其特征在于，根据所述最接近的标准教师语音与所述语言学习者语音的每个对应音素段调整所述语言学习者语音的时长和基音周期包括：

将所述最接近的标准教师语音的时长与所述语言学习者语音的时长的平均值确定为调整后的所述语言学习者语音的时长；

将所述最接近的标准教师语音的基音周期确定为调整后的所述语言学习者语音的基音周期。

3.根据权利要求1或2所述的方法，其特征在于，所述的节奏信息包括：

一句语音中所有元音的时长加占总时长的比例；

一句语音中元音时长的标准差；

相邻两元音段或辅音段之间的时长差的平均值；

相邻两元音段或辅音段之间的时长差占单个片段时长的比例的平均值。

4.一种汉语教学语音合成装置，其特征在于，所述的装置包括：

语音获取单元，用于获取语言学习者语音以及多个标准教师语音；

最接近标准教师语音选择单元，用于根据语音参数从所述多个标准教师语音中选择与所述语言学习者语音最接近的标准教师语音，其中，所述的语音参数包括：声学参数、音高、节奏信息；

声调教学语音合成单元，用于根据所述最接近的标准教师语音与所述语言学习者语音合成声调教学语音；

其中，所述最接近标准教师语音选择单元包括：

高斯混合模型训练模块，用于根据语音参数分别对每个标准教师语音、以及所述语言学习者语音训练高斯混合模型；

最接近标准教师语音选择模块，用于根据得到的高斯混合模型选择与所述语言学习者语音最接近的标准教师语音；

所述声调教学语音合成单元包括：

音素分段模块，用于分别对所述最接近的标准教师语音与所述语言学习者语音进行音素分段；

语言学习者语音调整模块，用于根据所述最接近的标准教师语音与所述语言学习者语音的每个对应音素段调整所述语言学习者语音的时长和基音周期；

声调教学语音合成模块，用于根据调整后的所述语言学习者语音的时长和基音周期、应用TD-PSOLA算法合成所述声调教学语音。

5.根据权利要求4所述的装置，其特征在于，所述语言学习者语音调整模块包括：

时长调整子模块，用于将所述最接近的标准教师语音的时长与所述语言学习者语音的时长的平均值确定为调整后的所述语言学习者语音的时长；

基音周期调整子模块，用于将所述最接近的标准教师语音的基音周期确定为调整后的所述语言学习者语音的基音周期。

6.根据权利要求4或5所述的装置，其特征在于，所述最接近标准教师语音选择单元中的节奏信息包括：

一句语音中所有元音的时长加占总时长的比例；

一句语音中元音时长的标准差；

相邻两元音段或辅音段之间的时长差的平均值；