CN100411011C

CN100411011C - 用于语言学习机的发音质量评价方法

Info

Publication number: CN100411011C
Application number: CNB2005101148488A
Authority: CN
Inventors: 梁维谦; 董明; 丁玉国; 刘润生
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2005-11-18
Filing date: 2005-11-18
Publication date: 2008-08-13
Anticipated expiration: 2025-11-18
Also published as: CN1763843A

Abstract

本发明涉及用于语言学习机的发音质量评价方法，属于计算机辅助语言学习和语音技术领域，包括用于训练的语音特征提取，标准发音模型训练，标准发音网络的生成，语音端点检测，用于评价的语音特征提取，最优路径搜索，以及发音质量分数的计算各部分；本发明的发音质量评价方法具有与主观评价相关性较高、稳健性好等特点。构成的嵌入式英语学习系统可以用于人机交互教学和自动口语测试。

Description

用于语言学习机的发音质量评价方法

技术领域

本发明属于计算机辅助语言学习和语音技术领域，尤其涉及采用16位及以上的数字信号处理芯片实现的发音质量评价方法。

背景技术

近年来，嵌入式语言学习产品在国内外发展迅速。早期主要是复读机，它是在一台模拟磁带录音机上附加一个可将一小段语音数字化存储的装置，这一小段语音可以多次重复放音，利于学习者反复听音，跟读记忆。目前市场上主流的语言学习机是采用数字信号处理芯片(DSP，Digital Signal Processing)技术的第二代产品。硬件系统一般包括微控制器(Micro Control Unit，MCU)、数字信号处理芯片(DSP)、多媒体数字信号编解码器(CODEC)、ROM、SRAM、快闪存储器(Flash Memory)、通用串行总线(USB)、键盘和液晶显示器(Liquid Crystal Display，LCD)等；其中MCU作为主控芯片，执行设备驱动和程序调度等系统控制程序，DSP执行应用算法程序。应用程序包括录音、放音、语速调节等基本模块，有些产品还带有mp3模块。功能上具有复读，跟读，跟读对比，文字同步显示，内容检索查询和语速可调节的放音等。这类学习机大多可以通过互联网下载和更新学习材料。深圳好记星公司的好记星英语学习机是第二代数字式英语学习机的典型代表。

学习语言尤其是学习口语关键在于互动的学习过程，即在学习过程中教师及时地有针对性地评判和指导。然而在传统的以教师为中心的语言学习中，由于师资力量的缺乏，这一任务无法完成。而现有的语言学习机又都不具备这种评价学习者发音的能力。

发明内容

本发明的目的是为克服已有技术的不足之处，提出一种用于语言学习机的发音质量评价方法，可在嵌入式语言学习机上的实现高性能的文本和说话人无关的发音质量评价，具有方法复杂度适中、评价准确度高和稳健性好的特点。特别是对汉语口音的人群的评价准确性达到、甚至超过了当前的国际先进水平。

本发明提出的用于语言学习机的发音质量评价方法，包括用于训练的语音特征提取，标准发音模型训练，标准发音网络的生成，语音端点检测，用于评价的语音特征提取，最优路径搜索，以及发音质量分数的计算各部分；其特征在于，各部分的实现方法具体包括以下步骤：

A、用于训练的语音特征提取：

(1)预先建立包含大量朗读语音的训练数据库；

(2)对所说的训练数据库中的每个语音文件中的数字语音进行预加重和分帧加窗处理，得到具有准平稳性的分帧语音；

(3)对所说的分帧语音提取语音特征，该语音特征为倒谱系数；

B、标准发音模型训练

(1)利用步骤A所说的语音特征训练得到基于音素的标准发音模型；

(2)对所说的标准发音模型进行汉语人群口音的自适应作为最终的标准发音模型，优化模型对汉语人群的评价性能；

C、标准发音网络的生成

对给定的文本进行单词切分，查找发音字典得到音素标注，最后利用所说的基于音素的标准发音模型得到以状态为节点的线性标准发音网络；

D、语音端点检测：

(1)模拟语音信号经过A/D变换，得到数字语音；

(2)对所说的数字语音进行预加重和分帧加窗处理，得到具有准平稳性的分帧语音；

(3)对所说的分帧语音计算得到时域对数能量；

(4)采用滑动平均滤波(moving-average filter)的方法由所说的时域对数能量得到用于端点检测的特征(以下简称为端检特征)；

(5)采用上限和下限双阈值和有限状态机结合的方法，对所说的端检特征进行端点检测，得到语音的起始和结束端点；

E、用于评价的语音特征提取

对步骤D所说的分帧语音提取语音特征，过程与步骤A的第(3)步相同。

F、最优路径搜索：

(1)将步骤E所说的语音特征与步骤C所说的标准发音网络进行强制匹配，得到网络中所有可能的路径信息；

(2)利用所说的路径信息，从网络允许的终止节点回溯出最优路径；

G、发音质量分数的计算：

(1)利用步骤F中所说的最优路径信息计算得到每帧语音特征的置信分数；

(2)利用步骤F中所说的最优路径信息计算路径上每个状态的置信分数；对最优路径上所有状态的置信分数取平均得到整句的置信分数；

(3)利用映射函数将所说的整句置信分数映射到主观评价分数区间，得到最终的发音质量分数。

所说的步骤A中的倒谱系数可以为美尔频标倒谱系数(MFCC，Mel-FrequencyCepstrum Coefficients)，它利用了人耳的频率分辨特性。

所说的步骤B(1)中的标准发音模型为基于音素的隐含马尔可夫模型(HMM，HiddenMarkov Model)，该模型的具体训练过程为：采用所有语音特征初始化一个高斯模型，利用这个模型复制出所有的音素模型，采用Baum-Welth的方法对模型进行多次训练。不断增加每个音素模型的高斯成分的数量，重新进行Baum-Welth训练。

所说的步骤B(2)中的对标准发音模型进行汉语人群口音的自适应的实现方法为：对得到的标准发音模型进行基于最大似然线性回归(Maximum Likelihood LinearRegression，MLLR)和最大后验概率(Maximum A Posteriori，MAP)方法的口音自适应，得到最终的标准发音模型。

所说的步骤C的标准发音网络可为一个具有确定的起始节点和终止节点，当前节点只与其前序节点相关的不考虑文法的以HMM的状态为节点的线性网络。

所说的步骤F的最优路径搜索的方法采用了帧同步维特比(Viterbi)束搜索的方法。

为能够在嵌入式系统的有限内存资源上实现本发明的发音质量评价方法，步骤D、E、F和G都是以预先设定的固定帧数步长在时间上分段进行的，这样可大大降低对系统资源的要求，使得嵌入式学习系统能够处理比较长的语音；

本发明的发音质量评价方法使得语言学习机具有了交互功能。利用该方法实现的嵌入式英语学习系统在实际应用中取得了较好的性能。

本发明具有如下特点：

(1)本发明具有评价准确性高、稳健性好、系统资源开销小等特点；

(2)采用基于音素的标准发音模型，使得嵌入式学习系统可以方便的更改课件内容，无需重新训练；

(3)考虑到母语口音对英语发音的影响，对音素模型进行了口音自适应；

(4)采用滑动平均滤波和有限状态机等技术进行实时的端点检测，提高了端点检测对英语语音的准确性和稳健性；

(5)可用于基于以DSP为核心的嵌入式语言学习系统，具有体积小、重量轻、耗电省、成本低的突出特点；

(6)本发明的发音质量评价方法，结合丰富的课件形式，可以改变传统的学习机工作模式以及课堂教学模式。

附图说明

图1为本发明实施例的方法总体流程示意图。

图2为本发明实施例的标准发音模型训练流程图；图2(a)表示标准发音模型训练的全过程，图2(b)表示一个特定隐含马尔可夫模型的训练过程。

图3为本发明实施例的标准发音模型的拓扑结构图；图3(a)表示停顿模型，图3(b)表示音素和静音模型。

图4为本发明实施例的隐含马尔可夫模型口音自适应流程图。

图5为本发明实施例的标准发音网络的拓扑结构示意图；图5(a)表示整句以单词为节点的线性网络结构，图5(b)表示每一个单词以音素为节点的线性网络结构。

图6为本发明实施例的标准发音网络的生成过程示意图。

图7为本发明实施例的在嵌入式平台上实现的发音质量评价方法的详细流程图。

具体实施方式

本发明提出的一种用于语言学习机的发音质量评价方法实施例结合各图详细说明如下：

本发明方法的实施例总体流程如图1所示，分为：A、用于训练的语音特征提取；B、标准发音模型的训练；C、标准发音网络的生成(以上各步骤可事先利用计算机完成)；D、语音端点检测；E、用于评价的语音特征提取；F、最优路径搜索；G、发音质量分数的计算和输出(以上各步骤利用嵌入式平台完成)。每个步骤的实施例详细说明如下。

A、用于训练的语音特征提取：

(1)预先建立包含大量英语朗读语音的训练数据库(要求包含的内容对每一个音素都有一定数量的覆盖)；

(2)对所说的训练数据库中的每个语音文件中的数字语音进行预加重处理，预加重滤波器取为H(z)＝1-0.9375z^-1；对预加重后的语音进行分帧加窗(采用哈明窗)处理，帧长可为32ms，帧移可为16ms，得到具有准平稳性的分帧语音；

(3)对所说的分帧语音提取美尔频标倒谱系数(MFCC)作为语音特征；语音的短时频域特征能精确描述语音的变化，MFCC是根据人耳听觉的频率分辨特性计算出来的一种特征矢量，建立在傅立叶频谱分析的基础上，MFCC的计算方法为：首先对分帧语音进行快速傅立叶变换(Fast Fourier Transformation，FFT)得到信号的短时频谱，其次根据MEL频标把短时频谱等分成若干个带通组，其带通的频率响应为三角形，再次计算相应滤波器组的信号能量，最后通过离散余弦变换计算对应的倒谱系数；

MFCC特征主要反映语音的静态特征，语音信号的动态特征可以用静态特征的一阶差分谱和二阶差分谱来描述。整个语音特征由MFCC参数、MFCC一阶、二阶差分系数、归一化能量系数及其一阶、二阶差分系数构成。每帧共包含39维特征；

B、标准发音模型的训练：

(1)利用步骤A所说的语音特征训练基于音素的标准发音模型的过程，如图2所示：

a、根据语音特征的维数建立一个协方差矩阵为对角形式的单数据流的多维高斯分布的原型，使用全部的语音数据估计该高斯分布的均值矢量和协方差矩阵。

b、确定发音字典和音标体系，完成对所有语音的音素级标注，本实施例的音标体系包括40个音素以及1个静音标识、1个停顿标识。

c、本实施例采用基于音素的隐含马尔可夫模型(HMM)作为标准发音模型，HMM是目前被广泛采用的统计语音识别模型。HMM从左向右的状态转移模型，能够很好地描叙语音的发音特点。本发明采用的音素和静音模型为3状态的HM，停顿模型为单状态可跨越的HMM，其拓扑结构如图3所示。其中q_i表示HMM的状态。a_ij表示HMM的跳转概率。b_j(O_t)为HMM模型的状态输出的多流混合高斯密度概率分布函数。如式(1)所示。

b_{j} (O_{t}) = Π_{s = 1}^{S} {[Σ_{m = 1}^{M_{S}} C_{jsm} N (O_{st}; μ_{jsm}; φ_{jsm})]}^{γ_{s}} - - - (1)

其中S是数据的流数，M_s是每一数据流中的混合高斯密度分布的个数；N为多维高斯分布，如式(2)所示：

N (o; μ; φ) = \frac{1}{\sqrt{{(2 π)}^{n} | φ |}} e^{- \frac{1}{2} (o - μ) φ^{- 1} (o - μ)} - - - (2)

本实施例的标准发音模型包括40个音素HMM模型以及一个静音HMM模型、一个停顿HMM模型；将所说的高斯分布原型复制成各个HMM模型；然后利用Baum-Welch算法对每个HMM模型进行多次估值，估值次数可为5；

d、逐步增加HMM模型中高斯成分的数量，对得到的模型再次进行Baum-Welch训练；高斯成分的数量增加依次为2、4、6、8；当高斯数量增长到8时，重复训练10次，训练过程结束。

(2)对所说的标准发音模型进行汉语人群口音的自适应，本发明实施例采用了基于全局MLLR和MAP串行的口音自适应方法，自适应次数设定为4，具体流程如图4所示。

a、MLLR是一种基于模型变换的自适应算法。这一类算法的基本假设是相近语音在说话人无关语音模型空间与被适应人语音空间之间的变换关系也是相近的，因此可以利用训练语音中出现过的语音统计出这一变换关系，对未出现的语音的模型用该变换实现从说话人无关模型到被适应人语音空间的映射，从而实现自适应。语音模型空间根据一定测度(如欧氏距离，似然度等)被划分为R类，各类的变换为T_r(*)，各类对应的训练语音集为X_r，r＝1，2，...，R，模型参数为λ_r，r＝1，2，...，R，则自适应训练满足：

T_{r} = \underset{T}{\arg \max} (P (X_{r} | T_{r})), r = 1,2, . . ., R - - - (3)

自适应后的参数

{\hat{λ}}_{r}, r = 1,2, . . ., R

满足

{\hat{λ}}_{r} = T_{r} (λ_{r}), r = 1,2, . . ., R - - - (4)

由于这一类算法充分利用了语音间的相互关系，多个模型共享一个变换，需要估计的参数是各个变换的系数，较容易积累数据估计参数可以在较少自适应数据情况下生效，因此具有较快的自适应速度。本发明实施例采用的是未分类的全局MLLR自适应。

b、MAP算法的基本准则是后验概率最大化，因此具有理论上的最优性：

{\hat{θ}}_{i} = \underset{θ_{i}}{\arg \max} P (θ_{i} | χ) - - - (5)

标准MAP算法的均值矢量估值公式为：

\hat{μ} = \frac{Σ_{t = 1}^{T} L_{t}}{Σ_{t = 1}^{T} L_{t} + τ} \overset{&OverBar;}{μ} + \frac{τ}{Σ_{t = 1}^{T} L_{t} + τ} μ - - - (6)

其中L_t是t时刻观测矢量对该高斯混合分量的概率，τ是自适应语音数据基于先验知识的权重，μ是自适应语音的均值矢量，μ是说话人无关模型的均值矢量。由此也可看出，当自适应数据足够多时，自适应后的均值矢量

将趋向于说话人相关的均值矢量μ。本发明实施例在MLLR自适应之后又采用MAP自适应的目的是充分利用自适应的语音数据，进一步提供口音自适应的效果。

将最终得到的标准发音模型存入嵌入式系统的外部存储器。

C、标准发音网络的生成：

本发明实施例的标准发音网络如图5所示，其中(a)为以单词为节点的线性网络示例，起始节点为开始的“sil”，终止节点为最后的“sil”，(b)为每个单词内部的以音素为节点的线性网络，每个音素内部为如图3所示的以状态为节点的网络。网络生成过程如图6所示：首先对原始文本进行单词切分得到如图5(a)所示，其次对每一个单词查找发音字典得到如图5(b)所示。考虑到单词的多发音情况，为节省存储空间和提高搜索效率，本实施例在单词的多种发音之间进行了基于动态规划的音素字符串比对，将多个音素序列融合成一个以音素为节点的网络，使得各个发音之间的相同音素得到共享。最后利用音素HMM模型将网络最终展开成以状态为节点的网络，每个状态节点上记录了当前节点的状态标识、音素标识、单词标识以及前序节点数目和前序节点标识信息。至此，得到本实施例的具有确定的起始节点P和终止节点T，当前节点只与其前序节点相关的不考虑文法的以HMM的状态为节点的标准发音网络。

将所说的标准发音网络存入嵌入式系统的外部存储器。

D、语音端点检测：

(1)语音信号首先进行低通滤波，然后通过16bit线性A/D进行采样和量化，成为数字语音。采样频率为8kHz；

(2)对所说的数字语音进行预加重和分帧加窗处理，得到具有准平稳性的分帧语音；方法与步骤A的第(2)步相同；

(3)再对所说的分帧语音计算短时对数能量。

(4)采用滑动平均滤波的方法由所说的时域对数能量得到端检特征：端点检测是实时进行的，实时端点检测方法需满足以下要求：a、对不同的背景噪声电平有一致的输出；b、能够检测到起始点和终止点；c、较短的延时；d、有限的响应区间；e、在端点处最大化信噪比；f、准确定位检测的端点；g、最大限度地抑制检测错误；综合考虑以上要求定义的目标函数，和图像处理中通常采用的图形边界检测函数(滑动平均滤波)非常相似。所说的滑动平均滤波器如式(7)所示，其中g(·)是时域对数能量，t为当前帧数，h(·)为滑动平均滤波器，如式(8)所示，可见h(·)是一个奇对称函数，W可取13，f(·)如式(9)所示，其参数可为：A＝0.2208，s＝0.5383，[K₁...K₆]＝[1.583，1.468，-0.078，-0.036，-0.872，-0.56]。

F (t) = Σ_{i = - W}^{W} h (i) g (t + i) - - - (7)

h (i) = \{\begin{matrix} - f (- i) & - W \leq i < 0 \\ f (i) & 0 \leq i \leq W \end{matrix} - - - (8)

f(x)＝e^Ax[K₁ sin(Ax)+K₂ cos(Ax)]+e^-Ax[K₃ sin(Ax)+K₄ cos(Ax)]+K₅+K₆e^xx(9)

(5)采用上限和下限双阈值和有限状态机结合的方法，对所说的端检特征进行端点检测，得到语音的起始和结束端点：所说的端检特征F(t)在语音的起始端为正值，在结束端为负值，在静音段则接近为零。根据预先设定的上限、下限阈值和语音最短持续时间，控制每一帧语音在语音、静音和离开语音状态之间进行跳转。初始设定为静音状态，当F(t)达到上限阈值时输出语音的起始端点，进入语音状态。处于语音状态，当F(t)达到下限阈值时就进入了离开语音状态。处于离开语音状态的时间达到一个设定的阈值时输出语音的结束端点，关闭录音通道，端点检测结束。

E、用于评价的语音特征提取：

F、最优路径搜索：

(1)将步骤E所说的语音特征与步骤C所说的标准发音网络进行强制匹配，得到网络中所有可能的路径信息：本发明实施例的标准发音网络是自左向后的线性网络(如图5所示)，可采用帧同步的维特比束搜索算法得到最优路径。给定HMM模型Φ和观察矢量序列O＝{o₁，…，o_T}后，需要求取产生此观察矢量序列的最佳状态序列S＝{s¹，…s^T}，即

\hat{S} = \underset{s}{\arg \max} {P (S, O | Φ)} - - - (10)

在维特比算法中，定义t时刻的最佳路径似然度为

V_i(t)＝P(o₁，…，o_t，s¹，…，s^t-1，s^t＝i|Φ) (11)

在线性网络中，任意时刻的最优路径仅和当前帧与上一帧的信息相关，即满足无后效性的原则。因此，如果全局最优路径在t时刻通过节点i，那么，路径在0～t时刻之间的部分，一定是在t时刻以节点i为最终节点的各条路径中是最优的。如果我们只想获得最优路径，那么在t时刻，以节点i为最终节点的路径只需要保留一条就足够了。

根据上述原则，本实施例的搜索算法为：

定义：PreNode(i)为节点i的前序节点集合。BestPre(t，i)为t时刻节点i的最优前序节点。L(t，i)为t时刻的语音帧对应节点i的似然分数。L_Path(-1，i)和L_Path(0，i)分别为前一帧和当前帧以节点i为最终节点的最优路径似然分数。

步骤1：在t＝0时刻

L_Path (- 1, i) = \{\begin{matrix} L (0, i) & i &Element; Entry \\ 0 & i &NotElement; Entry \end{matrix} - - - (12)

其中i∈Entry表示i为起始节点。

步骤2：在t时刻，对于任意的节点i已经得到当前帧的似然分数L(t，i)，则当前帧的最优路径分数为：

L_Path (0, i) = \max_{j} (L_Path (- 1, j)) + L (t, i), &ForAll; j &Element; PreNode (i) - - - (13)

将最优前序节点记入BestPre(t，i)，将L_Path(-1，i)和L_Path(0，i)的数据进行交换为下一帧的计算做准备。

步骤3：如果t＜T，转到步骤2；否则，结束。

(2)当语音结束时，可以从网络允许得终止节点回溯BestPre(t，i)获取到强制匹配的最优状态路径；

G、发音质量分数的计算

(1)利用步骤F中所说的最优路径信息计算每帧语音特征的置信分数，如式(14)所示：

C_{j} = \log (p (O_{j} | s^{i})) - \log (\underset{i}{Σ} p (O_{j} | s^{i})) - - - (14)

(2)利用步骤F中所说的最优路径信息计算路径上每个状态的置信分数；对最优路径上所有状态的置信分数取平均得到整句的置信分数，如式(15)所示，其中N为最优路径包含的状态数。

C = \frac{Σ_{i = 1}^{N} (\frac{Σ_{j = js}^{je} C_{j}}{je - js})}{N} - - - (15)

(3)利用映射函数将所说的整句置信分数映射到主观评价分数区间：直接计算得到的置信分数的取值区间通常在(-∞，a]之间，其中a为一常数，与主观评价分数区间不一致，本发明实施例利用分段线性函数将其映射到主观分数区间，如式(16)所示，其中a和b由实验确定，α为一个调节因子：

S = \{\begin{matrix} αC & if & a \leq C \leq b \\ 100 & if & C > b \\ 0 & if & C < a \end{matrix} - - - (16)

也可以将得到的S进一步量化为优、良、中、差的发音质量等级。

考虑到内存资源的限制，本发明实施例的步骤D、E、F和G都是以预先设定的固定帧数步长在时间上分段进行的，每段大小可为40帧。

本实施例基于上述方法开发了基于发音质量评价的嵌入式英语学习系统。学习内容可以根据教学要求随时自动地更新。采用发音质量评价技术可以使人机之间互动学习，大大减轻了课堂口语教学的工作量，缓解了教师供需紧张的问题，实现了英语口语的自主学习和自动测试。本发明可以评价汉语普通话人群的英语发音质量。该方法对汉语人群的英语发音质量评价在评分等级为4级(优、良、中、差)时，与主观评价的相关性达到了0.74。

Claims

1. 一种用于语言学习机的发音质量评价方法，包括用于训练的语音特征提取，标准发音模型训练，标准发音网络的生成，语音端点检测，用于评价的语音特征提取，最优路径搜索，以及发音质量分数的计算各部分；其特征在于，各部分的实现方法具体包括以下步骤：

A、用于训练的语音特征提取：

(1)预先建立包含大量朗读语音的训练数据库；

B、标准发音模型训练

C、标准发音网络的生成

D、语音端点检测：

(1)模拟语音信号经过A/D变换，得到数字语音；

(3)对所说的分帧语音计算得到时域对数能量；

(4)采用滑动平均滤波的方法由所说的时域对数能量得到用于端点检测的端检特征；

E、用于评价的语音特征提取

F、最优路径搜索：

G、发音质量分数的计算：

2. 如权利要求1所述的用于语言学习机的发音质量评价方法，其特征在于，所说的步骤A中的倒谱系数为利用人耳的频率分辨特性的美尔频标倒谱系数。

3. 如权利要求1所述的用于语言学习机的发音质量评价方法，其特征在于，所说的步骤B(1)中的标准发音模型为基于音素的隐含马尔可夫模型，该模型的具体训练过程为：采用所有语音特征初始化一个高斯模型，利用该模型复制出所有的音素模型，采用Baum-Welth的方法对模型进行多次训练；不断增加每个音素模型的高斯成分的数量，重新进行Baum-Welth训练。

4. 如权利要求1所述的用于语言学习机的发音质量评价方法，其特征在于，所说的步骤B(2)中的对标准发音模型进行汉语人群口音的自适应的实现方法为：对得到的标准发音模型进行基于最大似然线性回归和最大后验概率方法的口音自适应，得到最终的标准发音模型。

5. 如权利要求1所述的用于语言学习机的发音质量评价方法，其特征在于，所说的步骤C的标准发音网络为一个具有确定的起始节点和终止节点，当前节点只与其前序节点相关的不考虑文法的以HMM的状态为节点的线性网络。