CN112767961B

CN112767961B - 一种基于云端计算的口音矫正方法

Info

Publication number: CN112767961B
Application number: CN202110169403.9A
Authority: CN
Inventors: 谢琦
Original assignee: Harbin Qiyin Technology Co ltd
Current assignee: Harbin Qiyin Technology Co ltd
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2022-06-03
Anticipated expiration: 2041-02-07
Also published as: CN112767961A

Abstract

本发明公开了一种基于云端计算的口音矫正方法，属于口音矫正技术领域。移动设备仅需要采集学习者的语音，再利用云端的计算平台的强大的计算能力对语音信息进行语音识别和口音特征识别，并根据学习者口音类别针对性地将错误发音的标准发音口型，音标及标准语音信息发送给移动设备端供学习者矫正口型。本发明所述的基于云端计算的口音矫正方法一方面可以极大的降低移动设备的硬件需求，并利用云端大量的数据库和计算能力来提升语音识别的精度；另一方面额外提取特征维度中等、特性粒度更为精细的对数梅尔频率特征,利用卷积神经网络来有效提取口音特征，选取对应的语音数据库，从而有效地识别学习者口音类别，提升语音识别的准确度。

Description

一种基于云端计算的口音矫正方法

技术领域

本发明涉及一种基于云端计算的口音矫正方法，属于口音矫正技术领域。

背景技术

作为现阶段世界的通用的国际语言，英语教学一直受到国内外各教育机构的广泛重视。然而，受限于我国目前的高考内容和教学形式，目前大学生的英语强项普遍集中于阅读和写作方面，但口语能力却相对薄弱，许多硕士甚至博士研究生在参与国际交流、国际会议或留学的过程中甚至无法与国际友人进行正常英语沟通。因此，英语口语的学习已逐渐成为我国教育机构的关注重点。

现阶段，英语口语的教学主要还停留在传统课堂上老师领读及同学跟读的阶段，但这种传统的教学方式对老师本身的口音要求较高，使得老师英语口音发音不准确问题限制了教学的质量。同时，学生在课下无法准确的确认自己的口语发音是否准确，因此，研究基于语音识别技术的英语口音矫正技术对提升国内学生的英语口语学习能力具有重要意义。

国内外学者针对英语口语教学系统展开了研究。文献[涂惠燕.移动设备平台上英语口语学习中的语音识别技术[D].上海交通大学,2011.]提出了一种英语于移动设备平台上的英语口语学习软件，通过运用半连续型隐马尔可夫模型的系统，以牺牲少量识别精度为代价，极大地提高了运行速度，使得传统电脑上的学习软件可以成功移植到移动端设备，提升了学生学习的灵活性。但该技术需要在移动设备端完成语音识别工作，受限于移动设备有限的运行内存和存储于设备内部有限的数据库，语音识别的准确度较差，降低了该软件的实用性。文献[王国林.基于DTW的语音评价系统及其中学英语教学中的应用[D].华中师范大学,2017.]提出了一种英语口语检测及发音评价系统，基于动态时间规划(DTW)算法，提升了特征参数识别的准确性。但该系统仅采用单一语音库，同时无法有效地识别学习者的口音问题，使得语音识别的准确度降低，同时无法有效地纠正学习者的口音问题。综上所述，现有的基于语音识别的英语口语教学系统均需要在移动设备上完成语音的采集、特征参数的提取及特征参数识别等操作，在模型训练及运行相关算法的过程中，需要大量的信息处理速度及CPU处理速度，这对移动设备的硬件方面提出了较高的要求。另一方面，现有技术缺少针对英语口音的识别技术，由于带口音的语音会导致语音识别的效果大大下降，现有技术的语音识别正确率较低，无法很好地对存在英语口音的学习者提供帮助。

发明内容

本发明的目的是提出一种基于云端计算的口音矫正方法，以解决现有技术中存在的问题。

一种基于云端计算的口音矫正方法，口音矫正方法包括以下步骤：

步骤1、当学习者朗读完英语句子后，移动设备客户端完成学习者的语音录入，将语音信息保存为纯波形声音文件后，通过网络将纯波形声音文件发送至云端；

步骤2、云端针对接收到的学习者的纯波形声音文件，通过LMS算法进行降噪处理，消除额外噪音和不必要的停顿；

步骤3、云端对经过降噪处理后的语音信息进行预处理和特征参数提取，分别提取出语音信息中的梅尔频率倒谱系数和对数梅尔频率信息；

步骤4、将提取到的对数梅尔频率信息的特征参数输入卷积神经网络，基于卷积核进行卷积操作，围绕着表征口音主要特征的片段归纳出语音数据中的口音特征局部信息；

步骤5、将卷积神经网络归纳出的口音特征局部信息进行汇总并与口音模板数据库比对，总结出学习者口音类别；

步骤6、基于学习者口音类别，对云端数据库进行搜索，选定对应口音类别的模型数据库文件；

步骤7、基于隐马尔可夫模型算法，在云端对模型数据库中的语音信息进行特征提出和声学模型训练，根据学习者语音信息中的梅尔频率倒谱系数特征和模型数据库中声学模型完成语音识别；

步骤8、计算学习者语音与模型数据库汇总对应语音的HMM似然度，判断其似然度是否满足预设设定的阈值；

步骤9、若学习者语音的HMM似然度满足阈值，发送信息至移动设备客户端，提示学习者发音标准，结束本次口音矫正；若HMM似然度低于阈值，标记学习者语音中的错误发音单词，进行下一步；

步骤10、云端调取数据库中错误发音单词的发音口型动图、标准音标和标准语音信息，连同语音识别结果中的文本信息一起发送给客户端移动设备，客户端学习者根据了解自己的错误发音后，听取标准发音信息；

步骤11：学习者在完成错误发音的发音口信，标准音标等学习后，选择再次发音，重复步骤1至步骤10，直至学习者正确发音后完成整个矫正步骤。

进一步的，在步骤3中，学习者语音信息中的梅尔频率倒谱系数和对数梅尔频率信息的提取流程具体为：

云端在对移动设备客户端传输的.wav格式的语音信息进行LMS算法降噪后，首先对语音信息进行预加重处理；其次，对预加重后的语音信息进行分帧加窗操作；之后，对分帧加窗后的信息进行存储；

其中LMF特征参数提取的方法具体为：将存储的分帧加窗后进行短时傅里叶变换(STFT)，再通过梅尔滤波器获得语音信息中的LMF特征参数；

短时傅里叶变换的具体过程为将语音信息汇总长的时间信号分成多段相同长度的短时信号后，对每段信号进行傅里叶变换的过程；STFT的数学公式满足：

式中x(n)表示n时刻的输入信号，ω(n)表示窗函数；其中m是离散的值；e为自然常数；i表示虚部；

其中MCFF特征参数提取的方法具体为：将存储的分帧加窗后进行快速傅里叶变换后通过梅尔滤波器，之后对其输出进行取对数操作，随后再进行离散余弦变换后即可获得语音信息中的MCFF特征参数。

进一步的，在步骤3中，学习者语音信息中的梅尔频率倒谱系数和对数梅尔频率信息的提取流程具体为：在步骤4中，基于卷积神经网络提取语音信息中表征口音主要特征的片段局部信息的流程如下：

步骤41、选取特征粒度更为精细的LMF特征信息作为口音识别的输入；

步骤42、采用卷积神经网络中的二维卷积运算，利用其卷积特性，LMF特征信息通过卷积核后取出数据中的卷积核覆盖的局部范围内的特征；

步骤43、当抓取了语音中的表征这些独特发音的特征后，将特征作为区分不同口音的依据，判断学习者的口音类别。

进一步的，在步骤5中，口音模板数据库文件来源于数据集VoxForge，数据集VoxForge中包含有数十种带口音的英语语音的标准清洁数据。

本发明的有以下优点：

本发明所述的一种基于云端计算的口音矫正方法中，移动设备仅需要采集学习者的语音即可，无需预先储存标准语音数据库和对语音信息进行处理，通过网络传送给云端数据库，利用云端的计算平台的储存空间和强大的计算能力，对语音信息进行降噪处理，特征提取及口音特征识别，根据学习者口音选择对应的标准语音库作为模板进行语音识别，并将错误发音的标准发音口型，音标及标准语音信息发送给移动设备端供学习者矫正口型。相比于现有技术，本发明所述的基于云端计算的口音矫正方法一方面可以极大的降低对移动设备的运行速度及内存需求，减小对设备的硬件需求，同时利用云端大量的数据库和计算能力来提升语音识别的精度。另一方面可以针对当前英语口音识别中所使用的特征(如GPPS特征)维度过高或特征粒度精细度较差(如MFCC特征)等问题，借助云端的计算能力，通过提取特征维度中等、特性粒度更为精细的对数梅尔频率(LMF)特征,利用卷积神经网络(CNN)来有效提取口音特征，进而对学习者的英语口音类别进行更好地识别，对应选取语音数据库作为模板文件，提升语音识别的准确度，并给出口音矫正策略，使得学习者可以有针对性的了解自己的口音类别，并够针对性地训练英语口语的口音问题。

附图说明

图1为本发明所述的一种基于云端计算的口音矫正方法的方法流程图；

图2为从语音信息中获取特征参数梅尔频率倒谱系数MCFF和倒数梅尔频率LMF的流程图；

图3为本发明所述的基于卷积神经网络(CNN)的口音特征提取方法流程图。

具体实施方式

具体实施方式一

下面将参照附图更详细地描公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图1并结合实施例来详细说明本发明。

图1给出了本发明所述的一种基于云端计算的口音矫正方法的流程图，本发明所述的一种基于云端计算的口音矫正方法分为以下8个基本步骤：

步骤1：在移动设备客户端，当学习者朗读完英语句子后，完成学习者的语音录入，将语音信息保存为纯波形声音文件(.wav格式)后，通过网络将其发送至云端；

步骤2：云端针对接收到的学习者语音信息文件，通过LMS(Least mean square)算法进行降噪处理，消除由于语音录制设备的影响、环境杂音、学习者发音不流利等问题造成的额外噪音和不必要的停顿；

步骤3：云端对经过降噪处理后的语音信息进行预处理和特征参数提取，分别提取出语音信息中的梅尔频率倒谱系数(MCFF)和对数梅尔频率(LMF)信息；

步骤4：将提取到的对数梅尔频率(LMF)特征参数输入卷积神经网络(CNN)，基于卷积核进行卷积操作，围绕着表征口音主要特征的片段归纳出语音数据中的局部信息；

步骤5：将卷积神经网络(CNN)归纳出的口音特征局部信息进行汇总并与口音模板数据库比对，总结出学习者口音类别；

步骤6：基于学习者口音类别，对云端数据库进行搜索，选定对应口音类型的模型数据库文件；

步骤7：基于隐马尔可夫模型(HMM)算法，在云端对模型数据库中的语音信息进行特征提出和声学模型训练，根据学习者语音信息中的MCFF特征和模型数据库中声学模型完成语音识别；

步骤8：计算学习者语音与模型数据库汇总对应语音的HMM似然度，判断其似然度是否满足预设设定的阈值；

步骤9：若学习者语音的HMM似然度满足阈值，发送信息至客户端，提示学习者发音标准，结束本次口音矫正；若HMM似然度低于阈值，标记学习者语音中的错误发音单词，进行下一步；

步骤10：云端调取数据库中错误发音单词的发音口型动图，标准音标和标准语音信息，连同语音识别结果中的文本信息一起发送给客户端移动设备，客户端学习者根据了解自己的错误发音后，听取标准发音信息；

步骤11：学习者在完成错误发音的发音口信，标准音标等学习后，选择再次发音，重复步骤1至步骤10，直至学习者正确发音后完成。

具体实施方式二

本实施方式是对具体实施方式一的进一步解释说明；

具体实施方式一种所述口音矫正方法的步骤3中，从语音信息中获取特征参数梅尔频率倒谱系数MCFF和倒数梅尔频率LMF的流程图如附图2所示；学习者语音信息中的梅尔频率倒谱系数(MCFF)和对数梅尔频率(LMF)信息的提取流程具体为：

云端在对移动设备客户端传输的.wav格式的语音信息进行LMS算法降噪后，首先对语音信息进行预加重处理，其中预加重的目的为凸显语音信息中的高频信号，滤去语音信息汇总的低频信号，从而使语音信号频率变得更为平坦；其次，对预加重后的语音信息进行分帧加窗操作，使得语音信号在时间轴上有相同的分段；之后，对分帧加窗后的信息进行存储，以便后续进行LMF和MCFF信息的提取；

进一步地，LMF特征参数提取的方法具体为：将存储的分帧加窗后进行短时傅里叶变换(STFT)，再通过梅尔滤波器获得语音信息中的LMF特征参数；

所述短时傅里叶变换的具体过程为将语音信息汇总长的时间信号分成多段相同长度的短时信号后，对每段信号进行傅里叶变换的过程；STFT的数学公式满足：

进一步地，MCFF特征参数提取的方法具体为：将存储的分帧加窗后进行快速傅里叶变换(FFT)后通过梅尔滤波器，之后对其输出进行取对数操作，随后再进行离散余弦变换(DCT)后即可获得语音信息中的MCFF特征参数。

具体实施方式三

本实施方式是对具体实施方式一的进一步解释说明；

具体实施方式一种所述口音矫正方法的步骤4中，基于卷积神经网络(CNN)的口音特征提取方法流程图如附图3所示；

步骤4中所述的基于卷积神经网络(CNN)提取语音信息中表征口音主要特征的片段局部信息的流程如下：

由于口音特征往往出现在语音信息中的某些片段上，传统的特征信息如MCFF，由于其特性粒度不够精细，因此无法准确提取出口音的特征信息；因此本发明选取特征粒度更为精细的LMF特征信息作为口音识别的输入；采用卷积神经网络中的二维卷积运算，利用其卷积特性，LMF特征信息通过卷积核后可以取出数据中的卷积核覆盖的局部范围内的特征；当抓取了语音中的表征这些独特发音的特征(例如印度口音中的/r/发颤音)后，可以将这些特征作为区分不同口音的依据，判断学习者的口音类别；

学习者的口音类别的判别思路为：

以美式英语和英式英语为例，上述两种英语口音中最明显的差异就是美式英语中存在很多卷舌音，而英式英语中则没有这种现象；当学习者发音例如effort这个单词的发音，对于字母or的发音，英式英语发

而美式英语发

美式英语中会有一个很重的卷舌音；因此，当通过CNN提取到学习者所发语音中的表征这些独特发音的特征后，如

等特征，即可将这些特征作为区分不同口音的依据；同理，印式英语中的/r/的颤音和澳式英语中将/ei/音发音为/ai/等特征可以作为其他口音的判定依据。

具体实施方式四

本实施方式是对具体实施方式一的进一步解释说明；

进一步地，步骤5中所述的口音模板数据库文件来源于数据集VoxForge；数据集中包含有美式英语(American English)、澳式英语(Australian English)、英式英语(British English)、加拿大式英语(Canadian English)、欧式英语(European English)和印式英语(Indian English)等包含了数十种带口音的英语语音的标准语音数据。

Claims

1.一种基于云端计算的口音矫正方法，其特征在于，包括以下步骤:

步骤1、当学习者朗读完英语句子后，移动设备客户端完成学习者的语音录入，将语音信息保存为纯波形声音文件后，通过网络将所述纯波形声音文件发送至云端；

步骤4、将提取到的对数梅尔频率信息输入卷积神经网络，基于卷积核进行卷积操作，围绕表征口音主要特征的片段归纳出语音数据中的口音特征局部信息；

步骤5、将经卷积神经网络归纳出的口音特征局部信息进行汇总，并与口音模板数据库比对，总结出学习者口音类别；

步骤7、基于隐马尔可夫模型算法，在云端对模型数据库中的语音信息进行特征提出和声学模型训练，根据学习者语音信息中的梅尔频率倒谱系数特征和模型数据库中的声学模型完成语音识别；

步骤8、计算学习者语音与模型数据库汇总对应语音的HMM 似然度，并判断似然度是否满足设定的阈值；

步骤9、若学习者语音的HMM似然度满足设定的阈值，则发送信息至移动设备客户端，提示学习者发音标准，结束本次口音矫正；若HMM似然度低于设定的阈值，则标记学习者语音中的错误发音单词，进行下一步；

步骤10、云端调取数据库中错误发音单词的发音口型动图、标准音标和标准语音信息，连同语音识别结果中的文本信息一起发送给移动设备客户端，学习者在了解自己的错误发音后，听取标准发音信息；

步骤11：学习者在完成错误发音的发音口型、标准音标的学习后，选择再次发音，重复步骤1至步骤10，直至学习者正确发音后完成整个矫正步骤；

在步骤3中，学习者语音信息中的梅尔频率倒谱系数和对数梅尔频率信息的提取流程具体为：

云端在对移动设备客户端传输的.wav格式的语音信息进行LMS算法降噪后，首先对语音信息进行预加重处理；其次，对预加重后的语音信息进行分帧加窗操作；之后，对分帧加窗后的语音信息进行存储；

其中，对数梅尔频率信息的提取方法具体为：将存储的分帧加窗后进行短时傅里叶变换，再通过梅尔滤波器获得语音信息中的对数梅尔频率信息；

所述短时傅里叶变换的具体过程为：将语音信息汇总的时间信号分成多段相同长度的短时信号后，对每段信号进行傅里叶变换；

其中，梅尔频率倒谱系数的提取方法具体为：将存储的分帧加窗后进行快速傅里叶变换后通过梅尔滤波器，之后对其输出进行取对数操作，随后再进行离散余弦变换后即可获得语音信息中的梅尔频率倒谱系数；

在步骤4中，基于卷积神经网络提取语音信息中表征口音主要特征的片段局部信息的流程如下：

步骤41、选取特征粒度更为精细的对数梅尔频率信息作为口音识别的输入；

步骤42、采用卷积神经网络中的二维卷积运算，利用其卷积特性，对数梅尔频率信息通过卷积核后取出数据中的卷积核覆盖的局部范围内的特征；

步骤43、当抓取了语音中的表征独特发音的特征后，将所述特征作为区分不同口音的依据，判断学习者的口音类别。

2.根据权利要求1所述的一种基于云端计算的口音矫正方法，其特征在于，在步骤5中，所述的口音模板数据库文件来源于数据集VoxForge。