CN105261246B

CN105261246B - 一种基于大数据挖掘技术的英语口语纠错系统

Info

Publication number: CN105261246B
Application number: CN201510880858.6A
Authority: CN
Inventors: 戴翰波; 吴卉
Original assignee: WUHAN HUIREN INFORMATION TECHNOLOGY Co Ltd
Current assignee: WUHAN HUIREN INFORMATION TECHNOLOGY Co Ltd
Priority date: 2015-12-02
Filing date: 2015-12-02
Publication date: 2018-06-05
Anticipated expiration: 2035-12-02
Also published as: CN105261246A

Abstract

本发明涉及一种基于大数据挖掘技术的英语口语纠错系统，属于数据挖掘领域。该系统包括语音特征提取模块、音标发音分类模块、英语口语纠错模块，通过以下步骤实现：1.建立音标标准发音特征参量库2.建立音标标准口型舌位字典3.抽取用户语音特征参量4.根据音标标准口型舌位字典和用户语音特征参量自动提出纠错意见本发明交互性好、实时性强，不需要专家打分，能根据使用者发音情况给出个性化改进意见，为英语学习提供了一种有效的个性化辅助工具。

Description

一种基于大数据挖掘技术的英语口语纠错系统

技术领域

本发明涉及一种基于非负矩阵分解的英语口语口型和舌位识别纠错方法，从口语

发音音频中提取与口型和舌位相关的隐含变量，根据该变量判断发音时实际采用的口型和

舌位，并据此进行评价和纠错，属于数据挖掘和语音识别领域。

背景技术

1971 年，Dell Hymes 第一次提出了英语教学的交际能力理论。在过去30 年间，该

理论对于外语教学产生了重大影响，学生的交际能力尤其是口语能力越来越受到重视。然

而受师资及语言环境限制，“哑巴英语”成为长期困扰公共英语教学的难题。由于缺乏有效

的学习和反馈机制，学生很难掌握正确的口型和发音习惯，从而很难建立有效的口语交流。

大数据挖掘和语言识别技术作为一种新的电化外语辅助教学工具，能为学生创造充分的口

语听说训练，并能根据学生发音提出纠错意见，形成正确的发音习惯。

正确的口型和舌位是掌握英语标准发音的关键。一般语言学认为英语共48 个音

标，其中元音20 个，辅音28 个。根据发音语音学，元音是气流振动声带、在口腔没有收到阻碍而形成的一类发音，不同的口腔形状形成了不同的元音；而辅音是气流在口腔受到阻碍

而形成的，不同的发音部位或发音方法形成了不同的辅音。

表1 英语国际音标表

现有的口语辅助教学工具只能根据学生的发音音频与标准音频的声波模板的比较来

进行口音的评价和纠错。受个体差异和环境噪音的影响，这种评价方法并不能准确反映学

生的发音正确度，也无法根据口型给出改进意见。

非负矩阵分解作为一种数据挖掘技术，已经广泛应用于语音识别中的声源分离、

说话人识别等领域。该方法能够从标准音标发音特征参量库中提取与正确口型和舌位高度

相关的特征子空间，以及在子空间下区分各个音标的分类参数，这个特征子空间和分类参

数称为音标标准口型舌位字典。根据该字典，可以准确判断用户发音时所使用的口型和舌位，并且根据其与标准发音口型和舌位的差别给出个性化的改进意见。

发明内容

本发明为了解决现有的英语口语学习系统通常只利用单纯的语音识别技术，识别

率低、抗噪能力差，无法根据口型和舌位给出实时个性化纠错意见的技术问题，提供了一种

基于大数据分类技术的智能口语纠错系统。该系统能够根据朗读音频数据准确识别用户发

音所使用的口型和舌位，并通过视频和文字的方式将纠错意见反馈给用户，实现了实时个

性化口语教学，提高了学习的效率和针对性。

本系统包括语音特征提取模块、音标发音分类模块、英语口语纠错模块，其特征在

于首先由所述语音特征提取模块从标准语音发音中建立音标标准发音特征参量库，再由音

标发音分类模块根据音标标准发音特征参量库建立音标标准口型舌位字典，需要对用户的

英语口语进行纠错时，先由语音特征提取模块从用户的音频中提取特征参量，再由音标发

音分类模块判断用户的口型和舌位，最后英语口语纠错模块根据音标标准口型舌位字典和

用户发音的口型和舌位，给出纠错意见，形成个性化的口语学习系统。

所述的语音特征提取模块通过双门限前端端点检测、汉明(Hamming) 窗截取和梅

尔倒谱系数(MFCC) 从口语音频中提取与音标发音相关的特征参量；该语音特征提取模块

可以从海量的英语标准发音文本和对应的音频数据中提取标准音标发音的特征参量样本，

构成标准音标发音特征参量库。由音标发音分类模块根据基于非负矩阵分解的分类模型从

标准音标发音特征参量库中计算音标标准口型舌位字典，其中包括与48 个国际音标发音

的标准口型和舌位相关的特征子空间以及在该子空间下区分不同音标的分类参数。

在用户朗读口语文本后，由语音特征提取模块从录入的用户音频数据中提取与音

标发音相关的特征参量；再由所述的音标发音分类模块，根据之前训练学习得到的标准音

标口型舌位字典来判断用户发音所使用的口型和舌位；纠错模块对比用户口型和舌位与标

准发音的口型和舌位来判断发音正确与否，并给出口型和舌位的改进意见；纠错意见通过

口型和舌位视频演示和相关说明文字实时反馈给用户，实现交互式个性化口语纠错。

所述音标发音分类模块的已标注好的海量音标标准发音特征参量库

为训练数据集，其中为第个音标标准发音样本的维特

征参量，表示M 维正实数空间。所述基于非负矩阵分解的多类学习模型由该数据集提取与48 个音标发音最相关的特征子空间；该子空间由个特征向量张成。在该特征子空间下，标准音标发音样本的隐含特征表示为，其中表示D 维正实数空间。在该特征子空间下，各个音标发音的特征表示有最佳的分类效力，可提取对每个音标的支持向量机分类参数。记，，为支持向量机模型的松弛变量，所述基于非负矩阵分解的多类学习模型的成本函数为：

其中: 为可调模型参数；

是48维二元向量，表示第i个样本对于的音标；除了

相应音标所属分量取值为1，其他分量均取值为0 ；

为一组判别函数；如果均对应于第c个音标，，否则;

为同类判别函数；如果均对应于同一个音标，，否则；

高斯核密度函数；

该非凸成本函数的全局最优化求解的模拟退火算法如下：

输入：维标准音标特征参量矩阵X，样本分类向量集，维标准音标口型舌位字典矩阵U, 维隐含特征参量矩阵V, 松弛变量

输出：维标准音标口型舌位字典矩阵U, 分类参数

1.Uniformlyrandomize;

2.NormalizeX;

3.

4.

5. while ( i<maxIter && cost>errTor)

6.p = i/maxIter;

7.Uniformly randomize r;

8.if (r>p) then

9.Uniformly randomize;

10.

11.else

12. ;

13. end if

14. ；

15. ；

16.end while

17.

18.

19.return

附图说明

图1 为本发明的系统流程示意图

图2 为音标发音口型和舌位示例图

具体实施方式

由图1 所示，一种基于大数据挖掘技术的英语口语纠错系统，它包括语音特征提

取模块、音标发音分类模块、英语口语纠错模块，其特征在于首先由所述语音特征提取模块

从标准语音发音中建立音标标准发音特征参量库，再由音标发音分类模块根据音标标准发

音特征参量库建立音标标准口型舌位字典，需要对用户的英语口语进行纠错时，先由语音

特征提取模块从用户的音频中提取特征参量，再由音标发音分类模块判断用户的口型和舌

位，最后英语口语纠错模块根据音标标准口型舌位字典和用户发音的口型和舌位，给出纠

错意见，形成个性化的口语学习系统。

1. 语音特征量提取分为前端监测、时间依赖处理和特征参量提取：

[1] 时间依赖处理

对音标信号采用短汉明（Hamming）窗截取进行数字化处理，其公式为：

，

其中为输入信号序列，为汉明（Hamming）窗序列。

汉明（Hamming）窗序列的定义为：

，其中L 为窗口长度。

[2] 语音端点检测

对音频信号用用短视能量E 和短时过零率Z 进行双门限端点检测将音频信号切分为一系列音标。

短时能量E 的计算公式如下：

短时过零率Z 的计算公式如下：

[3] 音标信号的特征参数提取

对预处理[1] 后得到的音标信号提取Mel 倒谱系数；以归一化能量和组成31 维特征向量X作为音标信号的特征参数；

2. 建立音标标准发音特征参量库的步骤为：

[1] 寻找英语标准发音人

按照地域（北美/ 英国）、性别（男/ 女）、年龄（儿童/ 青少年/ 成人）将标准发音人分为12 个类别，对每个类别寻找3 个标准发音人；

[2] 采集英语标准发音的文本和对应的音频数据；

通过公开的广播和新闻资料收集海量的口语文本资料，要求涵盖尽量多的生活场景和常用词汇；标准发音人对照文本进行录音；标识有发音人和文本序号的音频数据以BLOG 格式存入数据库；

参照现有口语教材的知识点和难度体系收集口语训练朗读文本资料，要求涵盖尽量多

的场景和发音。文本资料按长度分为音节、单词、简单短句和长文本四大类，分别存储到数

据库中；文本资料的存储信息包含场景、知识点、难度、文本、标准发音音频。国际音标标注由人工查询权威辞书后录入，存储信息包括所对应文本的编号、文本标准发音的音标长度

和按发音顺序的音标序列。按照文本资料长度的不同，其对应的国际音标序列所分配的列

数不同；音节为4 列，单词为8 列，简单短句为32 列，长文本为256 列，缺省值为空。

[3] 对每条文本资料，由人工查询权威辞书后录入相应的国际音标信息，包括所对应文

本的编号、文本标准发音的音标长度和按发音顺序的音标序列；

[4] 使用语音特征提取模块按照1 中所述方法将音频自动切分为音标单位后提取相应

的特征参量；每音标单位的特征参数与相应国际音标作为一个数据样本存入音标标准发音

特征参量库。

3. 建立音标标准口型舌位字典：由音标发音分类模块根据基于非负矩阵分解的分类

模型从标准音标发音特征参量库中计算音标标准口型舌位字典，其中包括与48个国际音

标发音的标准口型和舌位相关的特征子空间以及在该子空间下区分不同音标的分类参数。

4. 在用户朗读英文后，系统所述语音特征提取模块将朗读音频切分为一系列音标发音并提取每一音标发音的特征参量；由音标发音分类模块判断用户的口型和舌位。如图2 所示纠错模块通过对比用户发音和音标标准口型舌位字典得出纠错意见，该意见以视频和文字的形式反馈给用户。以训练文本”Good morning”为例，其标准发音音标为 /ɡu:dmɔ:niŋ/ ：

实例1 用户发音正确，系统自动转入下一条训练文本；

实例2 用户发音为 /ɡɔ:d mɔ:niŋ/，系统显示:

Good morning

橙色文字表示其对应的音标发音正确，紫色文字表明音标发音不标准。本例中用户错

将/ u:/ 发为 /ɔ:/，其相应的口型和舌位如图2 所示。

查询纠错决策表可知，纠错意见为“口型保持不变，舌后部尽量抬起”。系统将纠错

意见以图2 和文字的形式反馈给用户，并且提供标准发音的音频供用户参照。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性的劳动即可做出的各种修改或变形仍在本发明的保护范围之内。

Claims

1.一种基于大数据挖掘技术的英语口语纠错系统，它包括语音特征提取模块、音标发音分类模块、英语口语纠错模块，其特征在于首先由所述语音特征提取模块从标准语音发音中建立音标标准发音特征参量库，再由音标发音分类模块根据音标标准发音特征参量库建立音标标准口型舌位字典，需要对用户的英语口语进行纠错时，先由语音特征提取模块从用户的音频中提取特征参量，再由音标发音分类模块判断用户的口型和舌位，最后英语口语纠错模块根据音标标准口型舌位字典和用户发音的口型和舌位，给出纠错意见，形成个性化的口语学习系统；

所述的语音特征提取模块通过双门限前端端点检测、汉明(Hamming)窗截取和梅尔倒谱系数(MFCC)提取与音标发音有关的M维特征参量其中表示M维正实数空间；

所述的音标发音分类模块通过基于非负矩阵分解的多类学习(multi-classlearning)模型从音标标准发音特征参量库中提取音标标准口型舌位字典，包括与48个国际音标的标准口型和舌位相关的D维特征子空间以及在该子空间下的分类参数W(c),b(c)为子空间下的分类参数的不同子集。

2.根据权利要求1所述的基于大数据挖掘技术的英语口语纠错系统，其特征在于：所述的音标发音分类模块中的基于非负矩阵分解模型所使用的成本函数为：

其中:

X≡[X₁，X₂，...，X_n]，其中X_n为第n个音标标准发音样本的M维特征参量

U≡[U₁，U₂，...，U_D]，其中U_D为与标准口型和舌位相关的第D维特征子空间

V≡[V₁，V₂，...，V_n],其中Vn为Xn在特征子空间U内的隐含特征参量

λ，μ＞0为可调模型参数

y_n(n＝1，2，...，N)是48维二元向量，表示第i个样本的音标；除了相应音标所属分量取值为1，其他分量均取值为0

s^(c)(y_i，y_j) (c＝1，2，...，48)为一组判别函数如果y_i，y_j均对应于第c个音标，s^(c)(y_i，y_j)＝1，否则S^(c)(y_i，y_j)＝-1

S⁽⁰⁾(y_i，y_j)为同类判别函数，如果y_i，y_j均对应于同一个音标，S⁽⁰⁾(y_i，y_j)＝1,否则S⁽⁰⁾(y_i，y_j)＝-1

K(V_i,V_j)高斯核密度函数；

为支持向量机模型的松弛变量。