CN101241699A

CN101241699A - 一种远程汉语教学中的说话人确认系统

Info

Publication number: CN101241699A
Application number: CNA2008101019508A
Authority: CN
Inventors: 苗振江; 明悦; 王琛
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2008-03-14
Filing date: 2008-03-14
Publication date: 2008-08-13
Anticipated expiration: 2028-03-14
Also published as: CN101241699B

Abstract

本发明公开了一种远程汉语教学中的说话人确认系统，包括用户注册、用户登录和汉语发音学习三大阶段，其中用户登录阶段又分为身份确认模块和用户判断模块，而汉语发音学习阶段则分为说话人确认模块和用户确认后处理模块。我们运用高斯混合模型－全局背景模型(GMM－UBM)处理方法将用户输入的语音在说话人确认模块中进行分析处理，确认出登陆的是否为正式注册用户。通过记录正式注册用户的相关学习信息，实现了一种以人为本，根据特定人特定的学习习惯和学习历史记录分配相应教学内容的教学方法。

Description

一种远程汉语教学中的说话人确认系统

技术领域

本发明涉及一种远程汉语教学身份确认系统，特别是设计一种远程汉语教学中的说话人确认系统，属于网络汉语教学及说话人确认技术领域。

背景技术

随着经济全球化的发展和中国经济的持续快速增长，世界各国对汉语学习的需求也在迅速增长，这种需求已经从学术和教学领域走到民间及政府层面，带动了一股学习汉语的热潮。据不完全统计，目前世界上学习汉语的人数已超过3000万人，有100个国家的2500余所大学和越来越多的中小学开设了汉语课程，中国汉语水平考试的考点遍布五大洲。搭建一个汉文化交流的平台，繁荣和发展世界汉语教学，推动汉语文化的广泛传播，让汉语更快地走向世界，正在成为越来越多炎黄子孙为之不懈奋斗的方向。

现有的用户身份确认主要方法有：基于所有，如各种证件，不需要密码就能使用，易丢失、伪造，识别可靠性较低；基于所知，如静态口令，用户登录系统或使用某项功能时，需输入自己的用户名与口令，系统即进行身份识别，它方便、简洁，但易泄密、易破译。基于这种身份识别系统的远程汉语教学网站中对存储于计算机中用户的敏感信息保护不力，致使有些用户盗用他人的帐号进行学习，从而破坏了数据库中该用户的历史信息，为用户在前次学习的基础上进行下一次的学习带来了很大的麻烦，无法真正意义上实现以人为本循序渐进地学习，如何有效地防止他人盗用并根据特定人的特定学习习惯分配相应的学习内容，从而使用户在远程实现高效的汉语学习，成为目前研究学者广泛关注的课题。

发明内容

为了克服现有技术的不足，基于远程汉语教学这一特殊教学领域的相关特点。本发明提供一种远程汉语教学中的说话人确认系统。该系统有效地运用说话人确认的相应技术，实现了在用户进行汉语发音练习的同时，进行说话人确认的相关处理，确认是否与用户登录用的帐号相吻合，如果两者一致就记录该用户本次学习的信息，为该用户的下次学习提供方便，反之就不进行记录。

本发明的目的是通过下述技术方案实现的。

为了实现基于说话人确认的远程汉语教学身份确认系统，我们将整个系统分为用户注册、用户登录和汉语发音学习三大阶段，其中用户注册阶段为用户选择是否运用说话人确认机制进行身份确认，如果选择“是”则为该用户建立说话人的语料库，反之则不建立语料库在用户以后登陆时也不进行说话人确认工作；用户登录阶段又分为身份确认模块和用户判断模块；汉语发音学习阶段则分为说话人确认模块和用户确认后处理模块。

用户登录阶段是当一个用户进入系统时输入了系统数据库中存储的一个用户名和密码，系统就认定他为注册用户可以登陆系统进行汉语发音学习否则为非注册用户禁止进入系统。

汉语发音学习阶段的说话人确认模块处理过程主要包括两个阶段，即训练和确认。训练阶段即根据用户建立的语料库进行训练提取特征参数，系统据此建立每个使用者的模板和模型参数。确认阶段是由待识人说的语音经特征提取后与系统训练时产生的模板或模型参数进行比较。在说话人的确认中，取与测试音匹配距离最小的说话人模型所对应的说话人的模型的匹配是否小于一定阈值作出判断。

一、特征提取

1.Mel频率倒谱系数(MFCC)的计算过程

根据上面的评价结果，我们选取Mel频率倒谱系数及其相应变化形式作为系统的特征参数。首先，介绍一下倒谱的定义：信号频谱模的自然对数的逆傅立叶变换。设语音信号为s(n)，则其倒谱为：

\tilde{s} (n) = {DFT}^{- 1} {\ln | DFT [s (n)] |} - - - (1)

Mel倒谱在此基础上进行调整，着眼于人耳的听觉特性，利用人耳对声音的感知是非线性的，从人耳的角度来考虑，具有很强的抗噪性。

Mel-滤波器的设计体现了人耳滤波器的非线性感知，感知频率与实际频率的关系如下：

Mel(f)＝2595(1+f/700)其中，0≤f≤F (2)

F为实际频率上限，这里取8KHz，滤波器的设计也体现了这种关系。

在一般的计算方法中，三角滤波器组所包含的滤波器的个数及每个滤波器的中心频率是固定不变的，这种方法没有考虑到不同说话人之间的语音特征，所以本发明在设计时，滤波器的个数是随着基频的变化而改变的，设p为滤波器的个数，f为基频，F为频率上限，则：

p＝5·Mel(F)/Mel(f) (3)

然后计算短时信号的能量谱：

X(k)＝|DFT(s_w(n))| (4)

接着计算经过滤波器组后的相关系数m₁，m₂，....m_n，则：

m_{i} = 2 Σ_{k = 1}^{N} \lg [H_{i} (k) \cdot X (k)] - - - (5)

其中H_i(k)表示第i个Mel三角滤波器，且i＝1，2，...p，最终通过离散余弦变换得到MFCC滤波器系数为：

C_{i} = α Σ_{j = 1}^{N} m_{j} \cos [\frac{πi}{N} (j - 0.5)] - - - (6)

其中i＝1，2，...n，n是MFCC系数的阶数。将每一帧的系数相加后取均值：

C_{i} = Σ_{k = 1}^{M} (C_{i}^{1} + C_{i}^{2} + C_{i}^{3} + . . . C_{i}^{M}) / M - - - (7)

就可以得到最终的MFCC系数，其中M是帧的个数。

用这种算法得到的系数，虽然识别的精度非常高，但同样存在运行时间过长的缺点，主要是因为对每帧信号计算短时能量谱的运算量极大，例如，每帧128样本点，X(k)的计算要得到K＝0...F(F为实际频率上限)的各点的值，这样每帧的运行时间是0.5秒，而要得到完整的语音样本(包含孤立词和语速、停顿等)至少需要200帧，即运算1分钟左右，这在实时监控中是不被允许的。

因此，必须改进算法，在这里可以采取跳跃的取点的方法，每隔10Hz计算一个X(k)，即k＝0，10，20...F；

然后令X(k+9)＝X(k+8)＝X(k+7)＝...＝X(k) (8)

这样做虽然会使识别率稍有下降，但仍然优于其他两种方法，大大提高了识别效率，同时也满足实时监控的要求。

2.MFCC系数的变换

为了增强对不同信道的鲁棒性，减少噪声影响，我们考虑映射原始MFCC特征到一个理想分布。首先，通过累积分布函数(CDF)匹配，它可以将给定的特征序列转换到某个CDF中以满足一个理想分布N(0，1)。这是一种将从原始特征X转换到变换特征

的非线性变换：

\hat{X} = T (X) .

我们取19维MFCC系数、19维MFCC系数的一阶差分作为全部特征序列。每个分量作为单独特征流处理。CDF由一个变化窗函数形成，它的值设为N。只有窗的中心是满足这个CDF的。给定发音窗中的特征按升序排列。设中心帧的范围为γ∈[1，N]。相应的CDF值为Φ＝(r-1/2)/N，变换值

满足

Φ = {&Integral;}_{- \infty}^{\hat{x}} f (z) dz,

f(z)为标准归一化分布的概率密度函数

f (z) = \frac{1}{\sqrt{2 π}} \exp (- \frac{z^{2}}{2}),

可以通过标准CDF表查得。

特征空间先由线性变换进行转换，然后用归一化分布进行全局CDF处理。由上面的特征转换方法可以得到一些变化的高斯结构。用短时窗进行特征变换处理，补偿信道和麦克风影响。具体处理过程如下：

设原始特征集为X，D为特征维数。经过线性变换A_D×D使特征转换为Y＝AX。Y由概率分布的组合高斯分布描述：

p (y; θ) = Σ_{k = 1}^{K} ρ_{k} | A | Π_{d = 1}^{D} Σ_{i = 1}^{I_{k, d}} π_{k, d, i} φ (y_{d}, μ_{k, d, i}, σ_{k, d, i}^{2}) - - - (9)

K为组合高斯分量数，D为特征维数，I_k，d是第k个组合高斯分布分量第d维的高斯数。ρ_k为第k个组合高斯分布分量先验值。π_k，d，i为d维第k个组合高斯分布分量的第i个高斯的先验值。φ为单变量高斯分布的概率密度函数：

φ (y_{d}, μ_{k, d, i}, σ_{k, d, i}^{2}) = \frac{1}{\sqrt{2 π} σ_{k, d, i}} \exp (- \frac{{(y_{d} - μ_{k, d, i})}^{2}}{2 σ_{k, d, i}^{2}}) - - - (10)

均值μ_k，d，i，方差σ_k，d，i ²，参数集为θ＝{A，ρ_k，π_k，d，i，μ_k，d，i，σ_k，d，i}。

我们有y_d＝a_dx，a_d为矩阵A第d行，X的概率分布为：

p (x; θ) = Σ_{k = 1}^{K} ρ_{k} | A | Π_{d = 1}^{D} Σ_{i = 1}^{I_{k, d}} π_{k, d, i} φ (a_{d} x, μ_{k, d, i}, σ_{k, d, i}^{2}) - - - (11)

EM算法用来重估参数集θ，基于x和θ的最大似然值，5次EM迭代即可(算法具体步骤将在下面具体介绍)。对比一般高斯无迭代过程，这是一种仅用全局转移矩阵A，基于与说话人无关的数据进行重估并应用到所有与说话人无关的特征上的处理方法。

二、语料库的建立

本发明中采用的语料库是所有系统中选择进行说话人确认机制的注册者，并随着注册人数的增加不断改变。每位用户对他进行语料库建立的工作，即录制他的一部分汉语发音学习中的发音。汉语发音学习包括以下内容：20句数字串，长度为1s左右；汉语孤立词发音，长度2s左右；长度为20s左右的朗读式发音；自然发音的语句，语句的内容为自由发言，长度20s左右。各语句均以8kHz抽样，16bit量化。系统首先将用户初次登陆时录制的发音作为语料库进行训练，当用户下次登陆时以上次训练所得数据作为参考模板进行说话人确认，作为下次登陆时的参考数据。

三、高斯混合模型(GMM)描述

1.高斯混合模型(GMM)的概念

在从语音信号中提取出特征参数序列之后，需要通过这些能够表征说话人身份特征的参数序列，为每个说话人建立相应的分类模型。在进行识别的时候，对输入的待识别语音信号的特征参数和已有的分类模型进行相似性的评估，根据评估结果对待确认说话人的身份作相应判断。

高斯混合模型(GMM)本质上是一种多维概率密度函数，用它可以直接构成说话人确认系统，每一个说话人对应一个GMM。

一个具有M个混合数的D维GMM，用M个高斯分量的加权和来表示，即：

P (x | λ) = Σ_{i = 1}^{M} P_{i} b_{i} (x) - - - (12)

其中，x是一个D维的观测矢量；P_i，i＝1，2，...，M为混合权值，且

Σ_{i = 1}^{M} P_{i} = 1;

b_i(x)为D维高斯函数，即：

b_{i} (\overset{&OverBar;}{x}) = \frac{1}{{(2 π)}^{D / 2} {| Σ_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(\overset{&OverBar;}{x} - {\overset{&OverBar;}{μ}}_{i})}^{'} Σ_{i}^{- 1} (\overset{&OverBar;}{x} - {\overset{&OverBar;}{μ}}_{i})} - - - (13)

其中，μ_i为均值矢量，∑_i为协方差矩阵。协方差矩阵可以用满矩阵，也可以简化为对角矩阵。

整个高斯混合模型便可由各均值矢量、协方差矩阵及混合分量的权值来描述，因此，我们将一个模型λ表示为如下三元式：

λ＝{p_i，μ_i，∑_i}，i＝1，2，...，M (14)

2.GMM模型参数的最大似然估计

设某说话人的训练特征矢量序列为X＝{x_t，t＝1，2，...，T}，它对于模型λ的似然度可表示为：

P (x | λ) = Π_{t = 1}^{T} P (x_{t} | λ) - - - (15)

训练的目的就是找到一组参数λ的非线性函数，直接求其最大值是不可能的。这种最大参数估计可利用EM算法的一种特殊形式，通过迭代得到。我们将算法简述如下：

定义Q函数：

Q (λ, λ^{'}) \overset{Δ}{=} Σ_{i = 1}^{M} P (X, i | λ) \log P (X, i | λ) - - - (16)

其中i为高斯分量序号，或称隐状态号。

Q (λ, λ^{'}) = Σ_{i = 1}^{T} Σ_{i = 1}^{M} γ_{t} (i) \log {P_{i}}^{'} {b_{i}}^{'} (x) - - - (17)

γ_{t} (i) = Σ_{i = 1}^{M} n_{t} (i, i_{t} = k) P (x_{t}, k | λ) = P (x_{t}, i | λ) = P (x | λ) P (i_{t} = i | x_{t}, λ) - - - (18)

其中

(1)E-Step：求训练数据落在假定的隐状态i的概率：

P (i_{t} = i | x_{t}, λ) = \frac{P_{i} P (x_{t} | i_{t} = i, λ)}{P (x_{t} | λ)} = \frac{P_{i} b_{i} (x_{i})}{Σ_{i = 1}^{M} P_{m} b_{m} (x_{t})} - - - (19)

(2)M-Step：分别求Q相对于三个参数P_i，μ_i，∑_i，i＝1，2，...，M的偏导为零时的参数值：

混合权值：在混合权值和为1的限定下，可得：

P_{i}^{'} = \frac{Σ_{t = 1}^{T} γ_{t} (i)}{Σ_{t = 1}^{T} Σ_{t = 1}^{M} γ_{t} (i)} = \frac{1}{T} Σ_{t = 1}^{T} P (i_{t} = i | x_{t}, λ) - - - (20)

μ^{'} = \frac{Σ_{t = 1}^{T} γ_{t} (i) x_{t}}{Σ_{t = 1}^{T} γ_{t} (i)} = \frac{Σ_{t = 1}^{T} P (i_{t} = i | x_{t}, λ) x_{t}}{Σ_{t = 1}^{T} P (i_{t} = i | x_{t}, λ)} - - - (21)

方差：类似的方法，可得：

σ_{i}^{2'} = \frac{Σ_{t = 1}^{T} P (i_{t} = i | x_{t}, λ) x_{t}^{2}}{Σ_{t = 1}^{T} P (i_{t} = i | x_{t}, λ)} - - - (22)

这里指对角阵情况，σ_i ²′、x_i和μ_i′分别指向相应矢量的任一元素。这样E-Step和M-Step反复迭代，直到收敛，即可得到最优的参数λ。

然后，采用EM算法进行参数估计时，需要给λ设一个初始值λ⁽⁰⁾，现在尚没有解决这一问题的理论框架。一种方法是从训练数据中任取50个元素，求其均值和方差，作为初始均值和方差；另一种方法是用HMM语料进行分段，分出不同的状态，得到各分量的均值和方差的初值。至于模型混合数M，则由实验确定。大量试验表明，训练数据在小于30s时，以M＝16较好，训练数据为1min时，若测试语句小于1s，M＝32最好，而测试语句为5s或10s，则以M＝16为宜。而当训练数据为90s时，测试数据小于5s，M＝32为宜，若为10s则M＝16比32略好一些。

四、全局背景模型——UBM

1.全局背景模型(UBM)描述

说话人确认是一个假设检验问题。即给定测试语音，在下列两个事件中做出选择：H₁：X是由真实说话人发出，H₀：X是由假冒者发出。说话人确认是一个二元判决问题，即给定说话人的确认语句及其所声称的身份。系统做出接受或拒绝的判断。大多数说话人确认系统都设置一个背景模型，用于描述整个说话人集合的特性。理论上，背景说话人越多，则越能描述

。在说话人确认系统中，使用假冒者模型进行似然比归一化可提高系统的准确性和鲁棒性，但假冒者模型如何能更好地描述用户的尚待深入研究。被广为研究的假冒者模型大致可分为两种。一种是全局模型(UBM)，一种是竞争者模型(cohort model)。这两个模型各有优缺点。全局模型对普通人的区分性能较强，而对伪装者的识别较差。竞争者模型可以较好地区分声学特征相近的假冒者。但对声学特征相差较大的则性能较差。因此根据我们系统需要确定特定用户的需要，我们采用全局背景模型(UBM)。

2.筛选树结构

将所有UBM高斯分量聚类组织成筛选树结构，将声学空间分成不同层的不同区域。给定矢量的最优混合很容易通过筛选树找到，设d(m，n)为两个高斯分量G_m，G_n的距离，分布为N(μ_m，∑_m)，N(μ_n，∑_n)，

d (m, n) = \underset{i}{Σ} [\frac{σ_{m}^{2} (i) - σ_{n}^{2} (i) + {(μ_{m} (i) - μ_{n} (i))}^{2}}{σ_{n}^{2} (i)} + \frac{σ_{n}^{2} (i) - σ_{m}^{2} (i) + {(μ_{n} (i) - μ_{m} (i))}^{2}}{σ_{m}^{2} (i)}] - - - (23)

μ_m(i)为均值矢量μ_m的第i元素，σ_m ²(i)为高斯G_m协方差矩阵∑_m的第i个对角元素，每个非叶节点近似为某权重下高斯概率分布节点C的PDF参数为：

μ_{c} (i) = \frac{Σ_{k &Element; R} ω_{k} μ_{k} (i)}{Σ_{k &Element; R} ω_{k}} - - - (24)

σ_{c}^{2} (i) = \frac{Σ_{k &Element; R} ω_{k} (σ_{k}^{2} (i) + μ_{k}^{2} (i))}{Σ_{k &Element; R} ω_{k}} - μ_{c}^{2} (i) - - - (25)

ω_{c} = Σ_{k &Element; R} ω_{k} - - - (26)

μ_c＝{μ_c(i)}^T为均值矢量，∑_m为协方差矩阵，ω_c为权重；

(1)所有UBM高斯分量的根节点PDF由上面三式计算，所有高斯分量属于根节点；

(2)下层节点的PDF由最大最小方法初始化，这些节点属于当前层，然后用当前层节点进行增补；

(3)K均值算法用来聚类属于当前节点高斯混合分量的分类，它们用来形成下层的新节点，每次迭代每个节点的均值、方差、权重被改进至距离收敛。

(4)重复(2)(3)至最后一层非叶节点分配到相应父节点。

每个测试矢量，第二层所有节点用来计算似然，选出得分最高的N个节点。这N个最高节点的所有子节点再计算得分，得到下层得分最高的N个节点。选择过程持续到叶节点层，最后，选出的得分最高的N个叶节点作为UBM的N个最高混合的近似值。

对观察矢量X＝{x₁，x₂，...，x_T}运用树切分的方法，去掉得分较低的节点，

(1)初始化Y，它由等间隔抽取X矢量值组成，作为观察矢量集的子集，并从X中删除这些观察值；

(2)从左至右核对保留在X中的观察值将最接近的放到观察序列Y中，至所有被重新排序并都放在Y中为止。

五、确认算法

说话人确认中用似然比代替概率，当且仅当下式成立时，接受该语音：

S (x) = \frac{p (x / λ_{1})}{p (x / λ_{0})} > γ - - - (27)

其中x为给定的声称者的测试语句的特征矢量，S(x)为该测试句的得分，γ为确认阈值，p(x/λ₁)为真实说话人的模型相对于测试语句的似然度，p(x/λ₀)为假冒者模型相对于测试语句的似然度。通常采用对数似然比(LLR)：

S(x)＝lgp(x/λ₁)-lgp(x/λ₀) (28)

这种似然比是Bayes准则下最优评分的一种近似，增加了不同说话人之间的可区分性，降低确认系统对阈值的依赖性；可以依靠两个模型取差的形式从一定程度上削弱输入语音被噪声污染的影响。为了减少发音时间的长短对似然比的影响，采用时间归一化对数似然比：

S (x) = \frac{1}{T} [lgp (x {/ λ}_{1}) - lgp (x / λ_{0})] - - - (29)

其中T为测试语句的帧数。

对说话人确认来说，设S个说话人，对应得GMM模型分别为λ₁，λ₀，...，λ_S。目标则是对一个观测序列X，找到使之有最大后验概率的模型所对应的说话人λ_S，即：

\hat{S} = \underset{1 \leq k \leq S}{\arg \max} P_{γ} (λ_{k} | X) = \underset{1 \leq k \leq S}{\arg \max} \frac{P (X | λ_{k}) P_{γ} (λ_{k})}{P (X)} - - - (30)

假定P_γ(λ_k)＝1/S，即每个说话人出现为等概率，且因P(X)对每个说话人是相同的，上式可以简化为：

\hat{S} = \underset{1 \leq k \leq S}{\arg \max} P (X | λ) - - - (31)

如果使用对数得分，且按上面假定，说话人确认的任务就是计算：

\hat{S} = \underset{1 \leq k \leq S}{\arg \max} Σ_{t = 1}^{T} \log P (x_{t} | λ_{k}) - - - (32)

通过上面的得分就可以得到说话人确认的结果，将此结果送入用户确认后处理模块。对于确认出确为注册者其人的情况，系统将其确认为正式注册用户，将对他的发音进行录入，供下次学习使用，同时对他的学习情况状态进行记录，以便分配适合该用户的相关学习资料。若确认出的结果为非正式注册用户即假冒者，则不对他整个学习过程做任何记录。

本发明的主要特点是：

(1)惟一性：说话人确认中提取的特征参数的惟一性是保证确认技术科学性基础。如果识别所依据“语音特征”不具有惟一性，意味着身份确认具有或然性，其科学性必然大大降低。研究表明：每个说话人的语音信号中都包含有该说话人的个性特征，因而具有惟一性特点。以目前应用最广泛的说话人确认身份为例，电话预约业务中的声音确认转帐、汇款、余额通知、股票行情咨询；用特定人的声音实现机密场所的出入人员检查；用工厂职工的口令实现职工签名管理等。

(2)稳定性：说话人特征稳定性是保证确认技术科学性的前提。也只有稳定的特征才能保证确认技术科学性，而非偶然性。研究表明：特定的说话人具有稳定性特点。虽然可能有些变化，但仍维持相对稳定，完全满足身份识别的要求。

附图说明

图1为本发明远程汉语教学中的说话人确认系统示意图；

图2为基于Mel频率倒谱系数的特征提取流程框图；

图3为通过Mel频率滤波器组得到的Mel频谱图；

图4为说话人确认系统中的模型框图。

具体实施方式

下面结合附图和具体实施方式来对发明作进一步描述。

如图1所示，用户首先通过输入系统现存的匹配的用户名和密码进入远程汉语教学系统首页，即用户注册阶段，在此阶段中为用户选择是否运用说话人确认机制进行身份确认，如果选择“是”则为该用户建立其说话人语料库，反之则不建立语料库在用户以后登陆时也不进行说话人确认工作。接着进入了用户登录阶段，身份确认模块中大量存有已注册用户的用户名和密码。用户在系统的提示下输入自己的用户名和密码，当这些信息与身份确认模块中某套用户名和密码吻合时，在用户判断模块中为注册用户，允许此用户登录系统并进行汉语发音及相关学习，反之则认为是非注册用户无法登陆系统。这个过程与一般的网站登陆方式无异，但注册用户有两种可能：此用户名和密码却为该用户所有；此用户名和密码为他人所盗用，登陆之人为假冒者。为此我们的系统为已事先选择进行说话人确认机制并建立语料库的用户在汉语发音学习阶段要进行说话人确认的工作，即进入说话人确认模块。

下面对具体的实施过程分块进行描述；

预处理与特征提取：

如图2所示，对输入的原始语音数据进行预处理与特征提取工作，此模块中会实时收集用户在学习过程中的汉语发音，得到相应的语音信号，计算全局结构特征参数：语句发音持续时间、语速，并进行预加重、分帧、加窗处理。

然后对输入的原始语音信号进行预加重，一般通过一个传递函数H(Z)＝1-αZ^-1的滤波器对其加以滤波，其中α为预加重系数0.9＜α＜1.0，一般为0.95、0.97或0.98。假设在n时刻的语音采样值为x(n)，则经过预加重处理后的结果为

y(n)＝x(n)-αx(n-1)(0.9＜α＜1.0) (33)

语音具有短时平稳特点，通过对语音进行分帧操作后，可以提取其短时特性，从而便于模型的建立，我们这里一般取帧长为23.22ms(256点)，帧移10ms。

然后用每帧信号用汉明窗相乘，以减小帧起始和结束处的不连续性，采用的汉明窗函数为：

ω (n) = 0.54 - 0.46 \cos (\frac{2 πn}{N - 1}) (0 \leq n \leq N - 1) - - - (34)

其中N为当前语音帧的采样数。

此模块中主要是提取MFCC特征及其相应变化形式作为特征参数。对于MFCC特征的变化形式主要考虑两个方面，即静态和动态两个方面。

假设语音信号足够长，在安静环境下，特征参数近似表现为正态分布；对于倒谱特征，通道噪声对特征参数的影响表现为特征概率分布在数轴上平移，而加性噪声的影响表现为特征概率的分布不再符合正态分布。因此我们采用特征归一化的方法作为静态特征参数化的调整方法。

而动态特征我们采用将MFCC特征进行移位差分的方法进行处理，它由许多语音帧的一阶差分谱连接扩展而成，主要取决于静态特征谱的维数，计算一阶差分谱的时移，一帧一阶差分谱之间的时移。设

指的是t时刻(第t帧)的N维静态特征谱，那么t时刻的一阶差分谱如下：

我们将MFCC系数的静态特征和动态特征结合作为系统得特征参数。其中Mel滤波器组的设置如图3所示，横坐标为原始语音频率，纵坐标为所求Mel频率。

为了增强对不同信道的鲁棒性，减少噪声影响，特征参数空间先由线性变换进行转换，然后用归一化分布进行全局CDF处理。由上面的特征转换方法可以将特征参数用组合高斯分布来描述，便于后续处理。

训练：

通过K均值聚类和EM迭代算法训练一个与说话人无关的全局背景模型(UBM)。该全局背景模型本质上是一个大型的GMM模型，它是使用所有待确认说话人的训练语音训练得到的，它反映了所有待确认说话人的特征分布特性。最后，与传统的借助EM算法训练GMM模型不同，每个说话人的GMM模型是从UBM模型中贝叶斯自适应得到的，从而大大减少了训练时间和需要的数据量。

由于各个说话人模型是从UBM模型自适应得到的，所以每个说话人模型可以共享UBM模型的高斯分量，而对于一个特征向量来说，仅有几个高斯分量对概率值贡献较大，为此计算各说话人GMM模型的概率值，可首先从UBM中通过筛选树结构处理选取6个最佳的高斯分量，然后利用说话人模型中相对应的6个高斯分量，计算每个说话人模型的概率值。这是一种快速高斯算法，相比于传统的对模型所有高斯分量计算不同，大大提高了确认速度。

GMM-UBM确认算法：

GMM-UBM也称为高斯混合模型一全局背景模型，它应用在说话人确认系统中，训练用来表示与说话人无关的特征分布。UBM模型系统是一个说话人无关的背景模型，利用待识别各种说话人的所有训练数据获得一个全局背景模型。

UBM模型本质上是一个大型的GMM模型。在说话人确认系统中，它表示一个单一的说话人无关的特征分布，呈现所有不同说话人的特征，因此通过所有待确认说话人的训练数据训练一个大型的GMM模型来获得。给定了训练UBM模型的各个说话人的数据后，有多种方法可以用来得到最终的模型，最简单的方法是采用EM算法来训练UBM模型。在GMM-UBM模型中，通过贝叶斯自适应算法来获得每个目标说话人的模型。贝叶斯自适应方法是通过训练后的UBM模型自适应地导出每个说话人的GMM模型的。贝叶斯自适应的算法如下：给定UBM模型和某种语言的训练向量X＝x_t(t＝1，...，T)，首先确定训练矢量在UBM混合成员中的概率分布P，即对于UBM中的第i个混合成员，可以计算：

P (i | x_{t}) = \frac{ω_{i} p_{i} (x_{t})}{Σ_{j = 1}^{M} ω_{j} p_{j} (x_{t})} - - - (36)

然后利用P(i|x_t)和x_t计算充分统计，权重、均值和方差参数为：

n_{i} = Σ_{t = 1}^{T} P (i | x_{t}) - - - (37)

E_{i} (x) = \frac{1}{n_{i}} Σ_{t = 1}^{T} P (i | x_{t}) x_{t} - - - (38)

E_{i} (x^{2}) = \frac{1}{n_{i}} Σ_{t = 1}^{T} P (i | x_{t}) x_{t}^{2} - - - (39)

这与EM算法中的E-Step相同。

最后，训练数据中新的充分统计量用来更新旧的UBM的第i个混合成员的充分统计量，产生第i个混合变量的自适应的参数。用下列公式计算：

{\hat{ω}}_{i} = [α_{i}^{ω} n_{i} / T + (1 - α_{i}^{ω}) ω_{i}] γ - - - (40)

{\hat{μ}}_{i} = α_{i}^{m} E_{t} (x) + (1 - α_{i}^{m}) μ_{i} - - - (41)

{\hat{δ}}_{i}^{2} = α_{i}^{v} E_{i} (x^{2}) + (1 - α_{i}^{v}) (δ_{i}^{2} + μ_{i}^{2}) - {\hat{μ}}_{i}^{2} - - - (42)

自适应系数{α_i ^ω，α_i ^m，α_i ^v}控制着旧估计和新估计之间的均衡，分别控制权值、均值和方差。尺度因子γ作用于所有的自适应混合权值，确保权值和为1。

对每个混合成分和每个参数，在上面的公式中的一个与数据有关的自适应系数α_i ^ρ，ρ∈{ω，m，v}定义为：

α_{i}^{ρ} = n_{i} / (n_{i} + γ^{ρ}) - - - (43)

其中，γ^ρ使参数ρ的一个固定关系因子。

通常在GMM-UBM系统中，采用一种简单的自适应系数，

α_{i}^{ω} = α_{i}^{m} = α_{i}^{v} = n_{i} / (n_{i} + γ),

一般来说，r的取值范围为8-20，通常取16。

如图4所示，根据用户模型(GMM)和背景模型(UBM)得到测试特征向量序列X的对数似然比计算如下：

Λ(X)＝lg p(X|λ_hyp)-lg p(X|λ_ubm) (44)

由于目标说话人模型从UBM模型中自适应计算得到，所以可通过快速算法得到对数似然比。当一个大型的GMM对一个特征矢量进行测试时，只有少数的混合成员对概率值贡献较大，仅利用由筛选树结构获得的前C(一般取六)个最佳混合分量就可以很好地近似概率值。其次自适应后的GMM仍保留了与UBM对应的混合成员，因此这个变量接近于UBM中的某个特定混合成员时，也将接近于目标说话人模型的相应的成员。对于每个特征向量，确定UBM中最佳的C个混合成员，并利用它们计算UBM概率值。然后，利用目标说话人模型中相对应的C个混合成员对向量进行打分计算目标说话人的似然值。有M个混合成员的UBM，对每个向量只需进行M+C次高斯运算(通常的似然比计算需2M次)，可大大节省运算量。

通过上面的得分就可以得到说话人确认的判决结果，将此结果送入用户确认后处理模块。对于确认出确为注册者其人的情况，系统将其确认为正式注册用户，将对他的发音进行录入，并存入语料库中供下次训练使用，同时对他的学习情况状态进行记录，以便分配适合该用户的相关学习资料。若确认出的结果为非正式注册用户即假冒者，则不对他整个学习过程做任何记录。

Claims

1.一种远程汉语教学中的说话人确认系统，其特征在于：该系统包含用户注册、用户登录和汉语发音学习三大阶段，其中：

(1)用户注册阶段为用户选择是否运用说话人确认机制进行身份确认，如果选择“是”则为该用户建立他个人的语料库，反之则不建立语料库在用户以后登陆时也不进行说话人确认工作；

(2)用户登录阶段又分为身份确认模块和用户判断模块，用户进入系统首页，即进入了用户登录阶段，在身份确认模块输入用户名和密码，通过用户判断模块进行处理用户名和密码一致则为注册用户，允许登陆系统，反之非注册用户拒绝登陆系统；

(3)汉语发音学习阶段则分为说话人确认模块和用户确认后处理模块；确认模块处理过程包括训练和确认两个阶段，训练过程是根据用户建立的语料库进行训练提取特征参数，系统据此确定模型参数；确认过程是由待识人说的语音经特征提取后与系统在训练时通过EM算法重估高斯混合模型(GMM)、全局背景模型(UBM)的模型参数，并进行比较，进而得到确认结果；若为正式注册用户就记录他的学习过程供下次使用，若为非正式注册用户就不记录相关学习信息。

2.根据权利要求1所述的一种远程汉语教学中的说话人确认系统，其特征在于：特征提取阶段对原始语音信号经过预加重、分帧、加窗后，将该时域信号补0进行离散傅立叶变换(DFT)，所得线性频谱经过Mel滤波器组得到Mel频谱，再经过离散余弦变换得到Mel频率倒谱系数(MFCC)；采用跳跃取点的方式加速运算速度；并将得到的MFCC进行变换使之满足特定的高斯分布以减少噪声干扰。

3.根据权利要求1所述的一种远程汉语教学中的说话人确认系统，其特征在于：采用高斯混合模型(GMM)描述用户模型，其中对于模型的权重、均值、协方差矩阵参数的最大似然重估采用EM算法实现。

4.根据权利要求1所述的一种远程汉语教学中的说话人确认系统，其特征在于：通过K均值聚类和EM迭代算法训练一个与说话人无关的全局背景模型(UBM)，它本质上是一个大型的GMM模型，使用所有待识别说话人的特征分布特性，为了提高计算效率我们采用一种筛选树的方法，从UBM中选取前6个最佳高斯分量，利用用户模型中相对应的6个高斯分量计算每个说话人模型的概率值，提高识别速度。