CN112767961B - 一种基于云端计算的口音矫正方法 - Google Patents

一种基于云端计算的口音矫正方法 Download PDF

Info

Publication number
CN112767961B
CN112767961B CN202110169403.9A CN202110169403A CN112767961B CN 112767961 B CN112767961 B CN 112767961B CN 202110169403 A CN202110169403 A CN 202110169403A CN 112767961 B CN112767961 B CN 112767961B
Authority
CN
China
Prior art keywords
learner
voice
information
accent
voice information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110169403.9A
Other languages
English (en)
Other versions
CN112767961A (zh
Inventor
谢琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Qiyin Technology Co ltd
Original Assignee
Harbin Qiyin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Qiyin Technology Co ltd filed Critical Harbin Qiyin Technology Co ltd
Priority to CN202110169403.9A priority Critical patent/CN112767961B/zh
Publication of CN112767961A publication Critical patent/CN112767961A/zh
Application granted granted Critical
Publication of CN112767961B publication Critical patent/CN112767961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/04Electrically-operated educational appliances with audible presentation of the material to be studied
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于云端计算的口音矫正方法,属于口音矫正技术领域。移动设备仅需要采集学习者的语音,再利用云端的计算平台的强大的计算能力对语音信息进行语音识别和口音特征识别,并根据学习者口音类别针对性地将错误发音的标准发音口型,音标及标准语音信息发送给移动设备端供学习者矫正口型。本发明所述的基于云端计算的口音矫正方法一方面可以极大的降低移动设备的硬件需求,并利用云端大量的数据库和计算能力来提升语音识别的精度;另一方面额外提取特征维度中等、特性粒度更为精细的对数梅尔频率特征,利用卷积神经网络来有效提取口音特征,选取对应的语音数据库,从而有效地识别学习者口音类别,提升语音识别的准确度。

Description

一种基于云端计算的口音矫正方法
技术领域
本发明涉及一种基于云端计算的口音矫正方法,属于口音矫正技术领域。
背景技术
作为现阶段世界的通用的国际语言,英语教学一直受到国内外各教育机构的广泛重视。然而,受限于我国目前的高考内容和教学形式,目前大学生的英语强项普遍集中于阅读和写作方面,但口语能力却相对薄弱,许多硕士甚至博士研究生在参与国际交流、国际会议或留学的过程中甚至无法与国际友人进行正常英语沟通。因此,英语口语的学习已逐渐成为我国教育机构的关注重点。
现阶段,英语口语的教学主要还停留在传统课堂上老师领读及同学跟读的阶段,但这种传统的教学方式对老师本身的口音要求较高,使得老师英语口音发音不准确问题限制了教学的质量。同时,学生在课下无法准确的确认自己的口语发音是否准确,因此,研究基于语音识别技术的英语口音矫正技术对提升国内学生的英语口语学习能力具有重要意义。
国内外学者针对英语口语教学系统展开了研究。文献[涂惠燕.移动设备平台上英语口语学习中的语音识别技术[D].上海交通大学,2011.]提出了一种英语于移动设备平台上的英语口语学习软件,通过运用半连续型隐马尔可夫模型的系统,以牺牲少量识别精度为代价,极大地提高了运行速度,使得传统电脑上的学习软件可以成功移植到移动端设备,提升了学生学习的灵活性。但该技术需要在移动设备端完成语音识别工作,受限于移动设备有限的运行内存和存储于设备内部有限的数据库,语音识别的准确度较差,降低了该软件的实用性。文献[王国林.基于DTW的语音评价系统及其中学英语教学中的应用[D].华中师范大学,2017.]提出了一种英语口语检测及发音评价系统,基于动态时间规划(DTW)算法,提升了特征参数识别的准确性。但该系统仅采用单一语音库,同时无法有效地识别学习者的口音问题,使得语音识别的准确度降低,同时无法有效地纠正学习者的口音问题。综上所述,现有的基于语音识别的英语口语教学系统均需要在移动设备上完成语音的采集、特征参数的提取及特征参数识别等操作,在模型训练及运行相关算法的过程中,需要大量的信息处理速度及CPU处理速度,这对移动设备的硬件方面提出了较高的要求。另一方面,现有技术缺少针对英语口音的识别技术,由于带口音的语音会导致语音识别的效果大大下降,现有技术的语音识别正确率较低,无法很好地对存在英语口音的学习者提供帮助。
发明内容
本发明的目的是提出一种基于云端计算的口音矫正方法,以解决现有技术中存在的问题。
一种基于云端计算的口音矫正方法,口音矫正方法包括以下步骤:
步骤1、当学习者朗读完英语句子后,移动设备客户端完成学习者的语音录入,将语音信息保存为纯波形声音文件后,通过网络将纯波形声音文件发送至云端;
步骤2、云端针对接收到的学习者的纯波形声音文件,通过LMS算法进行降噪处理,消除额外噪音和不必要的停顿;
步骤3、云端对经过降噪处理后的语音信息进行预处理和特征参数提取,分别提取出语音信息中的梅尔频率倒谱系数和对数梅尔频率信息;
步骤4、将提取到的对数梅尔频率信息的特征参数输入卷积神经网络,基于卷积核进行卷积操作,围绕着表征口音主要特征的片段归纳出语音数据中的口音特征局部信息;
步骤5、将卷积神经网络归纳出的口音特征局部信息进行汇总并与口音模板数据库比对,总结出学习者口音类别;
步骤6、基于学习者口音类别,对云端数据库进行搜索,选定对应口音类别的模型数据库文件;
步骤7、基于隐马尔可夫模型算法,在云端对模型数据库中的语音信息进行特征提出和声学模型训练,根据学习者语音信息中的梅尔频率倒谱系数特征和模型数据库中声学模型完成语音识别;
步骤8、计算学习者语音与模型数据库汇总对应语音的HMM似然度,判断其似然度是否满足预设设定的阈值;
步骤9、若学习者语音的HMM似然度满足阈值,发送信息至移动设备客户端,提示学习者发音标准,结束本次口音矫正;若HMM似然度低于阈值,标记学习者语音中的错误发音单词,进行下一步;
步骤10、云端调取数据库中错误发音单词的发音口型动图、标准音标和标准语音信息,连同语音识别结果中的文本信息一起发送给客户端移动设备,客户端学习者根据了解自己的错误发音后,听取标准发音信息;
步骤11:学习者在完成错误发音的发音口信,标准音标等学习后,选择再次发音,重复步骤1至步骤10,直至学习者正确发音后完成整个矫正步骤。
进一步的,在步骤3中,学习者语音信息中的梅尔频率倒谱系数和对数梅尔频率信息的提取流程具体为:
云端在对移动设备客户端传输的.wav格式的语音信息进行LMS算法降噪后,首先对语音信息进行预加重处理;其次,对预加重后的语音信息进行分帧加窗操作;之后,对分帧加窗后的信息进行存储;
其中LMF特征参数提取的方法具体为:将存储的分帧加窗后进行短时傅里叶变换(STFT),再通过梅尔滤波器获得语音信息中的LMF特征参数;
短时傅里叶变换的具体过程为将语音信息汇总长的时间信号分成多段相同长度的短时信号后,对每段信号进行傅里叶变换的过程;STFT的数学公式满足:
Figure BDA0002938491060000031
式中x(n)表示n时刻的输入信号,ω(n)表示窗函数;其中m是离散的值;e为自然常数;i表示虚部;
其中MCFF特征参数提取的方法具体为:将存储的分帧加窗后进行快速傅里叶变换后通过梅尔滤波器,之后对其输出进行取对数操作,随后再进行离散余弦变换后即可获得语音信息中的MCFF特征参数。
进一步的,在步骤3中,学习者语音信息中的梅尔频率倒谱系数和对数梅尔频率信息的提取流程具体为:在步骤4中,基于卷积神经网络提取语音信息中表征口音主要特征的片段局部信息的流程如下:
步骤41、选取特征粒度更为精细的LMF特征信息作为口音识别的输入;
步骤42、采用卷积神经网络中的二维卷积运算,利用其卷积特性,LMF特征信息通过卷积核后取出数据中的卷积核覆盖的局部范围内的特征;
步骤43、当抓取了语音中的表征这些独特发音的特征后,将特征作为区分不同口音的依据,判断学习者的口音类别。
进一步的,在步骤5中,口音模板数据库文件来源于数据集VoxForge,数据集VoxForge中包含有数十种带口音的英语语音的标准清洁数据。
本发明的有以下优点:
本发明所述的一种基于云端计算的口音矫正方法中,移动设备仅需要采集学习者的语音即可,无需预先储存标准语音数据库和对语音信息进行处理,通过网络传送给云端数据库,利用云端的计算平台的储存空间和强大的计算能力,对语音信息进行降噪处理,特征提取及口音特征识别,根据学习者口音选择对应的标准语音库作为模板进行语音识别,并将错误发音的标准发音口型,音标及标准语音信息发送给移动设备端供学习者矫正口型。相比于现有技术,本发明所述的基于云端计算的口音矫正方法一方面可以极大的降低对移动设备的运行速度及内存需求,减小对设备的硬件需求,同时利用云端大量的数据库和计算能力来提升语音识别的精度。另一方面可以针对当前英语口音识别中所使用的特征(如GPPS特征)维度过高或特征粒度精细度较差(如MFCC特征)等问题,借助云端的计算能力,通过提取特征维度中等、特性粒度更为精细的对数梅尔频率(LMF)特征,利用卷积神经网络(CNN)来有效提取口音特征,进而对学习者的英语口音类别进行更好地识别,对应选取语音数据库作为模板文件,提升语音识别的准确度,并给出口音矫正策略,使得学习者可以有针对性的了解自己的口音类别,并够针对性地训练英语口语的口音问题。
附图说明
图1为本发明所述的一种基于云端计算的口音矫正方法的方法流程图;
图2为从语音信息中获取特征参数梅尔频率倒谱系数MCFF和倒数梅尔频率LMF的流程图;
图3为本发明所述的基于卷积神经网络(CNN)的口音特征提取方法流程图。
具体实施方式
具体实施方式一
下面将参照附图更详细地描公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图1并结合实施例来详细说明本发明。
图1给出了本发明所述的一种基于云端计算的口音矫正方法的流程图,本发明所述的一种基于云端计算的口音矫正方法分为以下8个基本步骤:
步骤1:在移动设备客户端,当学习者朗读完英语句子后,完成学习者的语音录入,将语音信息保存为纯波形声音文件(.wav格式)后,通过网络将其发送至云端;
步骤2:云端针对接收到的学习者语音信息文件,通过LMS(Least mean square)算法进行降噪处理,消除由于语音录制设备的影响、环境杂音、学习者发音不流利等问题造成的额外噪音和不必要的停顿;
步骤3:云端对经过降噪处理后的语音信息进行预处理和特征参数提取,分别提取出语音信息中的梅尔频率倒谱系数(MCFF)和对数梅尔频率(LMF)信息;
步骤4:将提取到的对数梅尔频率(LMF)特征参数输入卷积神经网络(CNN),基于卷积核进行卷积操作,围绕着表征口音主要特征的片段归纳出语音数据中的局部信息;
步骤5:将卷积神经网络(CNN)归纳出的口音特征局部信息进行汇总并与口音模板数据库比对,总结出学习者口音类别;
步骤6:基于学习者口音类别,对云端数据库进行搜索,选定对应口音类型的模型数据库文件;
步骤7:基于隐马尔可夫模型(HMM)算法,在云端对模型数据库中的语音信息进行特征提出和声学模型训练,根据学习者语音信息中的MCFF特征和模型数据库中声学模型完成语音识别;
步骤8:计算学习者语音与模型数据库汇总对应语音的HMM似然度,判断其似然度是否满足预设设定的阈值;
步骤9:若学习者语音的HMM似然度满足阈值,发送信息至客户端,提示学习者发音标准,结束本次口音矫正;若HMM似然度低于阈值,标记学习者语音中的错误发音单词,进行下一步;
步骤10:云端调取数据库中错误发音单词的发音口型动图,标准音标和标准语音信息,连同语音识别结果中的文本信息一起发送给客户端移动设备,客户端学习者根据了解自己的错误发音后,听取标准发音信息;
步骤11:学习者在完成错误发音的发音口信,标准音标等学习后,选择再次发音,重复步骤1至步骤10,直至学习者正确发音后完成。
具体实施方式二
本实施方式是对具体实施方式一的进一步解释说明;
具体实施方式一种所述口音矫正方法的步骤3中,从语音信息中获取特征参数梅尔频率倒谱系数MCFF和倒数梅尔频率LMF的流程图如附图2所示;学习者语音信息中的梅尔频率倒谱系数(MCFF)和对数梅尔频率(LMF)信息的提取流程具体为:
云端在对移动设备客户端传输的.wav格式的语音信息进行LMS算法降噪后,首先对语音信息进行预加重处理,其中预加重的目的为凸显语音信息中的高频信号,滤去语音信息汇总的低频信号,从而使语音信号频率变得更为平坦;其次,对预加重后的语音信息进行分帧加窗操作,使得语音信号在时间轴上有相同的分段;之后,对分帧加窗后的信息进行存储,以便后续进行LMF和MCFF信息的提取;
进一步地,LMF特征参数提取的方法具体为:将存储的分帧加窗后进行短时傅里叶变换(STFT),再通过梅尔滤波器获得语音信息中的LMF特征参数;
所述短时傅里叶变换的具体过程为将语音信息汇总长的时间信号分成多段相同长度的短时信号后,对每段信号进行傅里叶变换的过程;STFT的数学公式满足:
Figure BDA0002938491060000061
式中x(n)表示n时刻的输入信号,ω(n)表示窗函数;其中m是离散的值;e为自然常数;i表示虚部;
进一步地,MCFF特征参数提取的方法具体为:将存储的分帧加窗后进行快速傅里叶变换(FFT)后通过梅尔滤波器,之后对其输出进行取对数操作,随后再进行离散余弦变换(DCT)后即可获得语音信息中的MCFF特征参数。
具体实施方式三
本实施方式是对具体实施方式一的进一步解释说明;
具体实施方式一种所述口音矫正方法的步骤4中,基于卷积神经网络(CNN)的口音特征提取方法流程图如附图3所示;
步骤4中所述的基于卷积神经网络(CNN)提取语音信息中表征口音主要特征的片段局部信息的流程如下:
由于口音特征往往出现在语音信息中的某些片段上,传统的特征信息如MCFF,由于其特性粒度不够精细,因此无法准确提取出口音的特征信息;因此本发明选取特征粒度更为精细的LMF特征信息作为口音识别的输入;采用卷积神经网络中的二维卷积运算,利用其卷积特性,LMF特征信息通过卷积核后可以取出数据中的卷积核覆盖的局部范围内的特征;当抓取了语音中的表征这些独特发音的特征(例如印度口音中的/r/发颤音)后,可以将这些特征作为区分不同口音的依据,判断学习者的口音类别;
学习者的口音类别的判别思路为:
以美式英语和英式英语为例,上述两种英语口音中最明显的差异就是美式英语中存在很多卷舌音,而英式英语中则没有这种现象;当学习者发音例如effort这个单词的发音,对于字母or的发音,英式英语发
Figure BDA0002938491060000071
而美式英语发
Figure BDA0002938491060000072
美式英语中会有一个很重的卷舌音;因此,当通过CNN提取到学习者所发语音中的表征这些独特发音的特征后,如
Figure BDA0002938491060000073
等特征,即可将这些特征作为区分不同口音的依据;同理,印式英语中的/r/的颤音和澳式英语中将/ei/音发音为/ai/等特征可以作为其他口音的判定依据。
具体实施方式四
本实施方式是对具体实施方式一的进一步解释说明;
进一步地,步骤5中所述的口音模板数据库文件来源于数据集VoxForge;数据集中包含有美式英语(American English)、澳式英语(Australian English)、英式英语(British English)、加拿大式英语(Canadian English)、欧式英语(European English)和印式英语(Indian English)等包含了数十种带口音的英语语音的标准语音数据。

Claims (2)

1.一种基于云端计算的口音矫正方法,其特征在于,包括以下步骤:
步骤1、当学习者朗读完英语句子后,移动设备客户端完成学习者的语音录入,将语音信息保存为纯波形声音文件后,通过网络将所述纯波形声音文件发送至云端;
步骤2、云端针对接收到的学习者的纯波形声音文件,通过LMS算法进行降噪处理,消除额外噪音和不必要的停顿;
步骤3、云端对经过降噪处理后的语音信息进行预处理和特征参数提取,分别提取出语音信息中的梅尔频率倒谱系数和对数梅尔频率信息;
步骤4、将提取到的对数梅尔频率信息输入卷积神经网络,基于卷积核进行卷积操作,围绕表征口音主要特征的片段归纳出语音数据中的口音特征局部信息;
步骤5、将经卷积神经网络归纳出的口音特征局部信息进行汇总,并与口音模板数据库比对,总结出学习者口音类别;
步骤6、基于学习者口音类别,对云端数据库进行搜索,选定对应口音类别的模型数据库文件;
步骤7、基于隐马尔可夫模型算法,在云端对模型数据库中的语音信息进行特征提出和声学模型训练,根据学习者语音信息中的梅尔频率倒谱系数特征和模型数据库中的声学模型完成语音识别;
步骤8、计算学习者语音与模型数据库汇总对应语音的HMM 似然度,并判断似然度是否满足设定的阈值;
步骤9、若学习者语音的HMM似然度满足设定的阈值,则发送信息至移动设备客户端,提示学习者发音标准,结束本次口音矫正;若HMM似然度低于设定的阈值,则标记学习者语音中的错误发音单词,进行下一步;
步骤10、云端调取数据库中错误发音单词的发音口型动图、标准音标和标准语音信息,连同语音识别结果中的文本信息一起发送给移动设备客户端,学习者在了解自己的错误发音后,听取标准发音信息;
步骤11:学习者在完成错误发音的发音口型、标准音标的学习后,选择再次发音,重复步骤1至步骤10,直至学习者正确发音后完成整个矫正步骤;
在步骤3中,学习者语音信息中的梅尔频率倒谱系数和对数梅尔频率信息的提取流程具体为:
云端在对移动设备客户端传输的.wav格式的语音信息进行LMS算法降噪后,首先对语音信息进行预加重处理;其次,对预加重后的语音信息进行分帧加窗操作;之后,对分帧加窗后的语音信息进行存储;
其中,对数梅尔频率信息的提取方法具体为:将存储的分帧加窗后进行短时傅里叶变换,再通过梅尔滤波器获得语音信息中的对数梅尔频率信息;
所述短时傅里叶变换的具体过程为:将语音信息汇总的时间信号分成多段相同长度的短时信号后,对每段信号进行傅里叶变换;
其中,梅尔频率倒谱系数的提取方法具体为:将存储的分帧加窗后进行快速傅里叶变换后通过梅尔滤波器,之后对其输出进行取对数操作,随后再进行离散余弦变换后即可获得语音信息中的梅尔频率倒谱系数;
在步骤4中,基于卷积神经网络提取语音信息中表征口音主要特征的片段局部信息的流程如下:
步骤41、选取特征粒度更为精细的对数梅尔频率信息作为口音识别的输入;
步骤42、采用卷积神经网络中的二维卷积运算,利用其卷积特性,对数梅尔频率信息通过卷积核后取出数据中的卷积核覆盖的局部范围内的特征;
步骤43、当抓取了语音中的表征独特发音的特征后,将所述特征作为区分不同口音的依据,判断学习者的口音类别。
2.根据权利要求1所述的一种基于云端计算的口音矫正方法,其特征在于,在步骤5中,所述的口音模板数据库文件来源于数据集VoxForge。
CN202110169403.9A 2021-02-07 2021-02-07 一种基于云端计算的口音矫正方法 Active CN112767961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110169403.9A CN112767961B (zh) 2021-02-07 2021-02-07 一种基于云端计算的口音矫正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110169403.9A CN112767961B (zh) 2021-02-07 2021-02-07 一种基于云端计算的口音矫正方法

Publications (2)

Publication Number Publication Date
CN112767961A CN112767961A (zh) 2021-05-07
CN112767961B true CN112767961B (zh) 2022-06-03

Family

ID=75705305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110169403.9A Active CN112767961B (zh) 2021-02-07 2021-02-07 一种基于云端计算的口音矫正方法

Country Status (1)

Country Link
CN (1) CN112767961B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI806703B (zh) * 2022-07-12 2023-06-21 國泰醫療財團法人國泰綜合醫院 語音矯正輔助方法和系統

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1298533A (zh) * 1998-04-22 2001-06-06 国际商业机器公司 用于特殊领域或方言的语音识别器
CN104732977A (zh) * 2015-03-09 2015-06-24 广东外语外贸大学 一种在线口语发音质量评价方法和系统
CN105578115A (zh) * 2015-12-22 2016-05-11 深圳市鹰硕音频科技有限公司 一种具有语音评估功能的网络教学方法及系统
CN105608960A (zh) * 2016-01-27 2016-05-25 广东外语外贸大学 一种基于多参量分析的口语形成性教学方法及系统
CN106531182A (zh) * 2016-12-16 2017-03-22 上海斐讯数据通信技术有限公司 一种语言学习系统
CN107172157A (zh) * 2017-05-22 2017-09-15 浙江精益佰汇数字技术有限公司 多人交互式英语教学系统平台及实现方法
CN110010123A (zh) * 2018-01-16 2019-07-12 上海异构网络科技有限公司 英语音标发音学习评价系统及方法
CN110176248A (zh) * 2019-05-23 2019-08-27 广西交通科学研究院有限公司 道路声音识别方法、系统、计算机设备及可读存储介质
KR20190125064A (ko) * 2018-04-27 2019-11-06 (주)투미유 음성 유사도 판단 장치 및 음성 유사도 판단 방법
CN110634491A (zh) * 2019-10-23 2019-12-31 大连东软信息学院 语音信号中针对通用语音任务的串联特征提取系统及方法
CN111951828A (zh) * 2019-05-16 2020-11-17 上海流利说信息技术有限公司 发音测评方法、装置、系统、介质和计算设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7457745B2 (en) * 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1298533A (zh) * 1998-04-22 2001-06-06 国际商业机器公司 用于特殊领域或方言的语音识别器
CN104732977A (zh) * 2015-03-09 2015-06-24 广东外语外贸大学 一种在线口语发音质量评价方法和系统
CN105578115A (zh) * 2015-12-22 2016-05-11 深圳市鹰硕音频科技有限公司 一种具有语音评估功能的网络教学方法及系统
CN105608960A (zh) * 2016-01-27 2016-05-25 广东外语外贸大学 一种基于多参量分析的口语形成性教学方法及系统
CN106531182A (zh) * 2016-12-16 2017-03-22 上海斐讯数据通信技术有限公司 一种语言学习系统
CN107172157A (zh) * 2017-05-22 2017-09-15 浙江精益佰汇数字技术有限公司 多人交互式英语教学系统平台及实现方法
CN110010123A (zh) * 2018-01-16 2019-07-12 上海异构网络科技有限公司 英语音标发音学习评价系统及方法
KR20190125064A (ko) * 2018-04-27 2019-11-06 (주)투미유 음성 유사도 판단 장치 및 음성 유사도 판단 방법
CN111951828A (zh) * 2019-05-16 2020-11-17 上海流利说信息技术有限公司 发音测评方法、装置、系统、介质和计算设备
CN110176248A (zh) * 2019-05-23 2019-08-27 广西交通科学研究院有限公司 道路声音识别方法、系统、计算机设备及可读存储介质
CN110634491A (zh) * 2019-10-23 2019-12-31 大连东软信息学院 语音信号中针对通用语音任务的串联特征提取系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于DTW的语音评价系统及其中学英语教学中的应用;王国林;《中国优秀硕士学位论文全文数据库 社会科学2辑》;20180215(第2期);第H130-2156页 *

Also Published As

Publication number Publication date
CN112767961A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN107221318B (zh) 英语口语发音评分方法和系统
CN107993665B (zh) 多人会话场景中发言人角色确定方法、智能会议方法及系统
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN103617799B (zh) 一种适应于移动设备的英语语句发音质量检测方法
CN101246685B (zh) 计算机辅助语言学习系统中的发音质量评价方法
CN101645271B (zh) 发音质量评估系统中的置信度快速求取方法
CN101751919B (zh) 一种汉语口语重音自动检测方法
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
CN101887725A (zh) 一种基于音素混淆网络的音素后验概率计算方法
CN111640418B (zh) 一种韵律短语识别方法、装置及电子设备
KR20070098094A (ko) 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
Ghai et al. Analysis of automatic speech recognition systems for indo-aryan languages: Punjabi a case study
Ahsiah et al. Tajweed checking system to support recitation
Duan et al. A Preliminary study on ASR-based detection of Chinese mispronunciation by Japanese learners
CN113744722A (zh) 一种用于有限句库的离线语音识别匹配装置与方法
CN114627896A (zh) 语音评测方法、装置、设备及存储介质
CN112767961B (zh) 一种基于云端计算的口音矫正方法
KR20080018658A (ko) 사용자 선택구간에 대한 음성비교 시스템
Shufang Design of an automatic english pronunciation error correction system based on radio magnetic pronunciation recording devices
CN112185357A (zh) 一种同时识别人声和非人声的装置及方法
Dai [Retracted] An Automatic Pronunciation Error Detection and Correction Mechanism in English Teaching Based on an Improved Random Forest Model
Yin Training & evaluation system of intelligent oral phonics based on speech recognition technology
Duan et al. An English pronunciation and intonation evaluation method based on the DTW algorithm
CN112951208B (zh) 语音识别的方法和装置
Wang et al. Putonghua proficiency test and evaluation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant