CN110246484A - 一种智能化英语发音自助学习系统 - Google Patents
一种智能化英语发音自助学习系统 Download PDFInfo
- Publication number
- CN110246484A CN110246484A CN201910656536.1A CN201910656536A CN110246484A CN 110246484 A CN110246484 A CN 110246484A CN 201910656536 A CN201910656536 A CN 201910656536A CN 110246484 A CN110246484 A CN 110246484A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- pronunciation
- english
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007405 data analysis Methods 0.000 claims abstract description 32
- 238000012937 correction Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 238000013500 data storage Methods 0.000 claims abstract description 10
- 238000012546 transfer Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 27
- 238000000034 method Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 22
- 238000001228 spectrum Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000012821 model calculation Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000003014 reinforcing effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/06—Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
- G09B5/065—Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/081—Search algorithms, e.g. Baum-Welch or Viterbi
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种智能化英语发音自助学习系统,包括标准数据模块、数据选择模块、数据采集模块、数据存储模块、数据分析模块、数据导出模块和强化模块。数据选择模块进行多级数据库分类,使用者根据需求选择相应的分级数据库,系统自动调取相应阶段、领域和难易程度的英语数据;将采集的语音数据存储到数据存储模块,数据分析模块将采集的语音数据进行语音识别,与标准声音数据进行对比反馈;数据导出模块根据分析结果,进行发音纠错,并且播报标准英语发音数据;强化模块调取数据库中相关单词,让使用者进行强化训练。本发明能为使用者进行自助英语发音练习并进行纠错及强化训练,显著提高发音水平。
Description
技术领域
本发明属于英语发音技术领域,具体涉及一种智能化英语发音自助学习系统。
背景技术
随着全球一体化的趋势日渐明显,英语作为世界上使用最广泛的一种语言,受到了越来越多的重视。英语已经成为我国使用最广泛的一种外语,相应的英语学习系统和产品也越来越多,但是大多数系统对英语口语发音都缺乏良好的发音评价和反馈纠正,以及强化训练。然而在英语发音学习中,尤其是对于非英语母语的学习者来说,有效的反馈纠错机制和强化训练是非常重要的。这成为制约智能化英语自助学习系统的一个瓶颈。
随着语音识别技术的成熟和优化,利用语音识别技术进行辅助发音学习成为了一个新的研究方向和研究热点。语音识别技术可以使发音学习系统具有反馈功能,帮助使用者纠正错误的发音。
申请号为CN201810461567.7的发明专利中公开了一种英语发音匹配纠正系统,通过所述元音辅音识别模块中的频谱分析采用基于相关图法的线性谱估计方法,以利于英语教学中对学生的发音进行纠正。申请号为CN201910028050.3的发明专利中公开了一种英语发音教学系统、装置及方法,在教学视频的基础上增加用户练习英语发音时的数据的采集,并对数据进行分析,判断出用户发音的缺陷并提供改进方向。申请号为CN201711220712.4的发明专利中公开了一种英语发音测试与评价系统,综合了发音口型以及发音音频特征数据的评估,使得用户可以基本了解自己发音情况。
当前的研究报道,所采用的方法纷繁复杂,存在对英语发音数据提取误差大,反馈纠错的效果有效等问题。
发明内容
针对以上不足,本发明的目的是提供一种智能化英语发音自助学习系统,包括标准数据模块、数据选择模块、数据采集模块、数据存储模块、数据分析模块、数据导出模块和强化模块。使得使用者在英语发音自助学习过程中能得到有效的反馈和纠错,并且进行强化训练,进而显著提高英语口语水平。
为了实现上述发明目的,本发明的技术方案如下:
本发明的第一方面为
一种智能化英语发音自助学习系统,包括标准数据模块、数据选择模块、数据采集模块、数据存储模块、数据分析模块、数据导出模块和强化模块,所述数据存储模块将所述数据采集模块采集单词音频数据和所述标准数据模块反馈的标准单次音频同时输入至所述数据分析模块进行语音识别和比对处理,并将比对处理后的结果反馈至所述数据导出模块,所述数据导出模块将结果反馈至所述数据选择模块进行显示和所述强化模块;
优选的,所述标准数据模块包括字母数据模块和声音数据模块,标准数据模块的输出端与数据存储模块的输入端相连接,且所述的字母数据模块的输出端与数据选择模块输入端相连接,所述的声音数据模块的输出端与数据分析模块的输入端相连接;
优选的,所述数据导出模块的输出端分别与强化模块的输入端和数据采集模块的输入端相连接。
优选的,所述的数据选择模块按学习阶段,应用领域的英语口语发音数据进行初/中/高三种难易梯度的多级数据库分类,当使用者完成选择时,显示相应的英语口语单词数据。
优选的,所述数据选择模块设置为LED显示屏。
优选的,所述的数据分析模块中包括语音识别模块,所述语音识别模块对检测到的音频依次进行数据预处理、参数特征提取和模式匹配;所述的参数特征提取的方法具体为:
S1、预加重及分帧加窗处理:将采集的发音数据预加重处理,提升高频信号,计算公式为,式中μ的值介于0.9-1.0之间,本发明取0.97;然后进行分帧加窗处理,计算公式为:
,式中a取0.46;
,为加窗后的信号;
S2、对每一个短时分析窗,进行转换得到对应的频谱,计算公式为,X(n)为输入的语音信号,N为傅里叶变换的点数;
S3、将上面得到的频谱通过Mel滤波器组得到Mel频谱:;
S4、在Mel频谱上面进行倒谱分析,获得Mel频率倒谱系数MFCC,计算公式为。
优选的,所述的模式匹配采用的模型计算公式为:
其中,W为权重矩阵,b为偏置向量;x和y分别表示输入和输出;i,f和o分别表示控制输入门、遗忘门和输出门;c卫模型细胞,m为细胞的输出,r和p是从m分流出来的两个输出;为Sigmoid函数,g和h为非线性激活函数,⊙为两个相同规模的矩阵元素按位置顺序依次相乘。
优选的,所述的数据分析模块中还包括比对处理模块,所述比对模块对检测到的音频与所述数据存储模块中的标准音频进行比对,并将比对结果反馈至所述数据导出模块。
优选的,所述比对处理模块进行比对处理的具体步骤为:
S1、共振峰包络提取,计算公式为:
,w为窗函数,W为感知权重函数;
S2、谱包络系数向量计算公式为:
;
S3、平滑后的系数向量计算公式为:
;
S4、将数据转换得到共振峰对比修正图,显示在显示屏上,并且标注错误的音节位置,及在图上着重标注错误的发音倒谱,做到对单次中某个音节的识别。
优选的,所述数据导出模块在数据分析模块指令为正确时,输出端与数据采集模块连接,进行循环学习;所述数据导出模块在数据分析模块指令为错误时,将比对处理结果反馈至所述数据选择模块进行显示,并将比对处理结构输入至所述强化模块进行强化学习。
优选的,所述强化学习的具体方法为:当所述比对处理模块判定单词的一个音节有误时,通过所述标准数据模块调取具有该音节的单词,并将该单词信息反馈至所述数据选择模块进行显示;当所述比对处理模块判定单词的多个音节有误时,通过所述标准数据模块调取具有该多个音节的单词,并将该单词信息反馈至所述数据选择模块进行显示。
本发明的第二方面为一种智能化英语发音自助学习方法,由上述的系统来实现,具体包括如下步骤:
S1、数据选择:将标准英语口语发音数据库进行多级分类,使用者根据需求选择相应的分级数据库,系统自动调取相应阶段、领域和难易程度的英语数据;
S2、数据采集:系统的麦克风拾取使用者的英语发音数据;
S3、数据存储:将采集的语音数据存储到存储盘;
S4、数据分析:进行语音识别,并与标准发音数据进行对比分析,得出测评结果;
S5、数据导出:测评结果为正确时,显示屏显示正确,并返回数据采集模块,进行下一个单词的循环自助学习;测评结果为错误时,进行发音纠错,播报标准英语发音数据;
S6、强化训练:调取数据库中相关单词或词组,让使用者进行强化训练。
有益效果
1. 本发明公开的具有发音反馈纠错、发音强化训练、自助循环学习等多功能的英语发音自助学习系统,能够实现英语发音学习的智能化,显著提高使用者的英语口语发音水平。
2. 本发明提供的系统采用美尔倒谱系数作为语音识别技术中特征提取的参数,提取的特征参数既能够比较全面的反应英语发音数据的特点,同时计算量适中,能够保证系统运算的速度较快,还不会因为输入语音音调的变化而变化。
3. 本发明公开的语音识别模块中模式匹配的声学模型采用深度学习模型,基于循环神经网络算法,在数据的模式匹配中具有较高的精准性。
4. 本发明公开的发声数据反馈方法,纠正错误英语发音,具有很强的实用性。
5. 本发明公开的强化模块,在纠正使用者错误的发音基础上,调取相关的发音数据,进行强化训练,巩固使用者的发音,进而提高英语口语水平。
附图说明
图1为智能化英语发音自助学习系统模块图。
图2为智能化英语发音自助学习系统流程图。
具体实施方式
以下将结合附图对本发明各实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例;基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
本发明提供一种智能化英语发音自助学习系统,如图1所示,包括标准数据模块、数据选择模块、数据采集模块、数据存储模块、数据分析模块、数据导出模块和强化模块。在学习过程中,数据选择模块进行多级数据库分类,使用者根据需求选择相应的分级数据库,系统自动调取相应阶段、领域和难易程度的英语数据;将采集的语音数据存储到数据存储模块;数据分析模块将采集的语音数据进行语音识别,与标准声音数据进行对比;数据导出模块根据分析结果,如果发音正确,则返回数据采集模块进行下一个英语数据的发音训练;如果发音错误,则进行发音纠错,并且播报标准英语发音数据;强化模块调取数据库中相关单词,让使用者进行强化训练。
实施例1
一种智能化英语发音自助学习系统,如图1所示,该系统包括标准数据模块、数据选择模块、数据采集模块、数据存储模块、数据分析模块、数据导出模块和强化模块,所述数据存储模块将所述数据采集模块采集单词音频数据和所述标准数据模块反馈的标准单次音频同时输入至所述数据分析模块进行语音识别和比对处理,并将比对处理后的结果反馈至所述数据导出模块,所述数据导出模块将结果反馈至所述数据选择模块进行显示和所述强化模块;所述标准数据模块包括字母数据模块和声音数据模块,标准数据模块的输出端与数据存储模块的输入端相连接,且所述的字母数据模块的输出端与数据选择模块输入端相连接,所述的声音数据模块的输出端与数据分析模块的输入端相连接;所述数据导出模块的输出端分别与强化模块的输入端和数据采集模块的输入端相连接。
由上述的系统来实现的一种智能化英语发音自助学习方法,如图2所示,具体包括如下步骤:
S1、数据选择:将标准英语口语发音数据库进行多级分类,使用者根据需求选择相应的分级数据库,系统自动调取相应阶段、领域和难易程度的英语数据,其中学习阶段包含小学、初中、高中、大学、四级、六级、雅思、托福、GRE;应用领域包括但不限于商务英语、旅游英语、日常英语、金融英语、医学英语、生物英语及相关专业英语口语的一种或多种;
S2、数据采集:系统的麦克风拾取使用者相应的英语发音数据;
S3、数据存储:将采集的语音数据存储到存储盘;
S4、数据分析:进行语音识别,并与标准发音数据进行对比分析,得出测评结果;所述的数据分析模块中的语音识别模块进行数据预处理、特征提取和模式匹配步骤;所述的参数特征提取的方法具体为:
S411、预加重及分帧加窗处理:将采集的发音数据预加重处理,提升高频信号,计算公式为,式中μ的值介于0.9-1.0之间,本发明取0.97;然后进行分帧加窗处理,计算公式为:
,式中a取0.46;,为加窗后的信号;
S412、对每一个短时分析窗,进行转换得到对应的频谱,计算公式为,X(n)为输入的语音信号,N为傅里叶变换的点数;
S413、将上面得到的频谱通过Mel滤波器组得到Mel频谱:;
S414、在Mel频谱上面进行倒谱分析,获得Mel频率倒谱系数MFCC,计算公式为。
所述的模式匹配采用的模型计算公式为:
其中,W为权重矩阵,b为偏置向量;x和y分别表示输入和输出;i,f和o分别表示控制输入门、遗忘门和输出门;c卫模型细胞,m为细胞的输出,r和p是从m分流出来的两个输出;为Sigmoid函数,g和h为非线性激活函数,⊙为两个相同规模的矩阵元素按位置顺序依次相乘。
所述的数据分析模块中还包括比对处理模块,所述比对模块对检测到的音频与所述数据存储模块中的标准音频进行比对,并将比对结果反馈至所述数据导出模块。
所述比对处理模块进行比对处理的具体步骤为:
S421、共振峰包络提取,计算公式为:
,w为窗函数,W为感知权重函数;
S422、谱包络系数向量计算公式为:
;
S423、平滑后的系数向量计算公式为:
;
S424、将数据转换得到共振峰对比修正图,显示在显示屏上,并且标注错误的音节位置,及在图上着重标注错误的发音倒谱,做到对单次中某个音节的识别。
S5、数据导出:测评结果为正确时,显示正确,并返回数据采集模块;
S6、循环学习:进行下一个单词的自助循环学习。
实施例2
一种智能化英语发音自助学习系统,如图1所示,该系统包括标准数据模块、数据选择模块、数据采集模块、数据存储模块、数据分析模块、数据导出模块和强化模块,所述数据存储模块将所述数据采集模块采集单词音频数据和所述标准数据模块反馈的标准单次音频同时输入至所述数据分析模块进行语音识别和比对处理,并将比对处理后的结果反馈至所述数据导出模块,所述数据导出模块将结果反馈至所述数据选择模块进行显示和所述强化模块;所述标准数据模块包括字母数据模块和声音数据模块,标准数据模块的输出端与数据存储模块的输入端相连接,且所述的字母数据模块的输出端与数据选择模块输入端相连接,所述的声音数据模块的输出端与数据分析模块的输入端相连接;所述数据导出模块的输出端分别与强化模块的输入端和数据采集模块的输入端相连接。
由上述的系统来实现的一种智能化英语发音自助学习方法,如图2所示,具体包括如下步骤:
S1、数据选择:将标准英语口语发音数据库进行多级分类,使用者根据需求选择相应的分级数据库,系统自动调取相应阶段、领域和难易程度的英语数据,其中学习阶段包含小学、初中、高中、大学、四级、六级、雅思、托福、GRE;应用领域包括但不限于商务英语、旅游英语、日常英语、金融英语、医学英语、生物英语及相关专业英语口语的一种或多种;
S2、数据采集:系统的麦克风拾取使用者的英语发音数据;
S3、数据存储:将采集的语音数据存储到存储盘;
S4、数据分析:进行语音识别,并与标准发音数据进行对比分析,得出测评结果:所述的参数特征提取的方法具体为:
S411、预加重及分帧加窗处理:将采集的发音数据预加重处理,提升高频信号,计算公式为,式中μ的值介于0.9-1.0之间,本发明取0.97;然后进行分帧加窗处理,计算公式为
,式中a取0.46;
,为加窗后的信号;
S412、对每一个短时分析窗,进行转换得到对应的频谱,计算公式为,X(n)为输入的语音信号,N为傅里叶变换的点数;
S413、将上面得到的频谱通过Mel滤波器组得到Mel频谱:;
S414、在Mel频谱上面进行倒谱分析,获得Mel频率倒谱系数MFCC,计算公式为。
所述的模式匹配采用的模型计算公式为:
其中,W为权重矩阵,b为偏置向量;x和y分别表示输入和输出;i,f和o分别表示控制输入门、遗忘门和输出门;c卫模型细胞,m为细胞的输出,r和p是从m分流出来的两个输出;为Sigmoid函数,g和h为非线性激活函数,⊙为两个相同规模的矩阵元素按位置顺序依次相乘。
所述的数据分析模块中还包括比对处理模块,所述比对模块对检测到的音频与所述数据存储模块中的标准音频进行比对,并将比对结果反馈至所述数据导出模块。
所述比对处理模块进行比对处理的具体步骤为:
S421、共振峰包络提取,计算公式为:
,w为窗函数,W为感知权重函数;
S422、谱包络系数向量计算公式为:
;
S423、平滑后的系数向量计算公式为:
;
S424、将数据转换得到共振峰对比修正图,显示在显示屏上,并且标注错误的音节位置,及在图上着重标注错误的发音倒谱,做到对单次中某个音节的识别。
S5、数据导出:测评结果为错误时,进行发音纠错,播报标准英语发音数据;
S6、强化训练:调取数据库中相关单词或词组,让使用者进行强化训练。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种智能化英语发音自助学习系统,其特征在于:该系统包括标准数据模块、数据选择模块、数据采集模块、数据存储模块、数据分析模块、数据导出模块和强化模块,所述数据存储模块将所述数据采集模块采集单词音频数据和所述标准数据模块反馈的标准单次音频同时输入至所述数据分析模块进行语音识别和比对处理,并将比对处理后的结果反馈至所述数据导出模块,所述数据导出模块将结果反馈至所述数据选择模块进行显示和所述强化模块;
所述标准数据模块包括字母数据模块和声音数据模块,标准数据模块的输出端与数据存储模块的输入端相连接,且所述的字母数据模块的输出端与数据选择模块输入端相连接,所述的声音数据模块的输出端与数据分析模块的输入端相连接;
所述数据导出模块的输出端分别与强化模块的输入端和数据采集模块的输入端相连接。
2.根据权利要求1所述的智能化英语发音自助学习系统,其特征在于:所述的数据选择模块按学习阶段,应用领域的英语口语发音数据进行初/中/高三种难易梯度的多级数据库分类,当使用者完成选择时,显示相应的英语口语单词数据。
3.根据权利要求1所述的智能化英语发音自助学习系统,其特征在于:所述数据选择模块设置为LED显示屏。
4.根据权利要求1所述的智能化英语发音自助学习系统,其特征在于:所述的数据分析模块中包括语音识别模块,所述语音识别模块对检测到的音频依次进行数据预处理、参数特征提取和模式匹配;所述的参数特征提取的方法具体为:
S1、预加重及分帧加窗处理:将采集的发音数据预加重处理,提升高频信号,计算公式为,式中μ的值介于0.9-1.0之间,本发明取0.97;然后进行分帧加窗处理,计算公式为:
,式中a取0.46;
,为加窗后的信号;
S2、对每一个短时分析窗,进行转换得到对应的频谱,计算公式为,X(n)为输入的语音信号,N为傅里叶变换的点数;
S3、将上面得到的频谱通过Mel滤波器组得到Mel频谱:;
S4、在Mel频谱上面进行倒谱分析,获得Mel频率倒谱系数MFCC,计算公式为。
5.根据权利要求4所述的智能化英语发音自助学习系统,其特征在于:所述的模式匹配采用的模型计算公式为:
其中,W为权重矩阵,b为偏置向量;x和y分别表示输入和输出;i,f和o分别表示控制输入门、遗忘门和输出门;c卫模型细胞,m为细胞的输出,r和p是从m分流出来的两个输出;为Sigmoid函数,g和h为非线性激活函数,⊙为两个相同规模的矩阵元素按位置顺序依次相乘。
6.根据权利要求1所述的智能化英语发音自助学习系统,其特征在于:所述的数据分析模块中还包括比对处理模块,所述比对模块对检测到的音频与所述数据存储模块中的标准音频进行比对,并将比对结果反馈至所述数据导出模块。
7.根据权利要求1所述的智能化英语发音自助学习系统,其特征在于:所述比对处理模块进行比对处理的具体步骤为:
S1、共振峰包络提取,计算公式为:
,w为窗函数,W为感知权重函数;
S2、谱包络系数向量计算公式为:
;
S3、平滑后的系数向量计算公式为:
;
S4、将数据转换得到共振峰对比修正图,显示在显示屏上,并且标注错误的音节位置,及在图上着重标注错误的发音倒谱,做到对单次中某个音节的识别。
8.根据权利要求1所述的智能化英语发音自助学习系统,其特征在于:所述数据导出模块在数据分析模块指令为正确时,输出端与数据采集模块连接,进行循环学习;所述数据导出模块在数据分析模块指令为错误时,将比对处理结果反馈至所述数据选择模块进行显示,并将比对处理结构输入至所述强化模块进行强化学习。
9.根据权利要求1所述的智能化英语发音自助学习系统,其特征在于:所述强化学习的具体方法为:当所述比对处理模块判定单词的一个音节有误时,通过所述标准数据模块调取具有该音节的单词,并将该单词信息反馈至所述数据选择模块进行显示;当所述比对处理模块判定单词的多个音节有误时,通过所述标准数据模块调取具有该多个音节的单词,并将该单词信息反馈至所述数据选择模块进行显示。
10.一种智能化英语发音自助学习方法,其特征在于:由权利要求1-7所述的系统来实现,具体包括如下步骤:
S1、数据选择:将标准英语口语发音数据库进行多级分类,使用者根据需求选择相应的分级数据库,系统自动调取相应阶段、领域和难易程度的英语数据;
S2、数据采集:系统的麦克风拾取使用者的英语发音数据;
S3、数据存储:将采集的语音数据存储到存储盘;
S4、数据分析:进行语音识别,并与标准发音数据进行对比分析,得出测评结果;
S5、数据导出:测评结果为正确时,显示屏显示正确,并返回数据采集模块,进行下一个单词的循环自助学习;测评结果为错误时,进行发音纠错,播报标准英语发音数据;
S6、强化训练:调取数据库中相关单词或词组,让使用者进行强化训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910656536.1A CN110246484A (zh) | 2019-07-19 | 2019-07-19 | 一种智能化英语发音自助学习系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910656536.1A CN110246484A (zh) | 2019-07-19 | 2019-07-19 | 一种智能化英语发音自助学习系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110246484A true CN110246484A (zh) | 2019-09-17 |
Family
ID=67893132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910656536.1A Pending CN110246484A (zh) | 2019-07-19 | 2019-07-19 | 一种智能化英语发音自助学习系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110246484A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853426A (zh) * | 2019-11-18 | 2020-02-28 | 永城职业学院 | 一种英语发音学习评价系统及方法 |
CN111261193A (zh) * | 2020-03-20 | 2020-06-09 | 上海乂学教育科技有限公司 | 发音训练与教学系统 |
CN111710203A (zh) * | 2020-07-15 | 2020-09-25 | 罗鹏 | 一种基于大数据的英语发音纠正系统 |
CN113808441A (zh) * | 2021-08-03 | 2021-12-17 | 郑州科技学院 | 便携式外语单词练习器 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739870A (zh) * | 2009-12-03 | 2010-06-16 | 深圳先进技术研究院 | 交互式语言学习系统及交互式语言学习方法 |
US20100151427A1 (en) * | 2008-12-12 | 2010-06-17 | Institute For Information Industry | Adjustable hierarchical scoring method and system |
CN105261246A (zh) * | 2015-12-02 | 2016-01-20 | 武汉慧人信息科技有限公司 | 一种基于大数据挖掘技术的英语口语纠错系统 |
CN106205634A (zh) * | 2016-07-14 | 2016-12-07 | 东北电力大学 | 一种大学英语口语学习与测试系统及其方法 |
CN108806719A (zh) * | 2018-06-19 | 2018-11-13 | 合肥凌极西雅电子科技有限公司 | 交互式语言学习系统及其方法 |
-
2019
- 2019-07-19 CN CN201910656536.1A patent/CN110246484A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100151427A1 (en) * | 2008-12-12 | 2010-06-17 | Institute For Information Industry | Adjustable hierarchical scoring method and system |
CN101739870A (zh) * | 2009-12-03 | 2010-06-16 | 深圳先进技术研究院 | 交互式语言学习系统及交互式语言学习方法 |
CN105261246A (zh) * | 2015-12-02 | 2016-01-20 | 武汉慧人信息科技有限公司 | 一种基于大数据挖掘技术的英语口语纠错系统 |
CN106205634A (zh) * | 2016-07-14 | 2016-12-07 | 东北电力大学 | 一种大学英语口语学习与测试系统及其方法 |
CN108806719A (zh) * | 2018-06-19 | 2018-11-13 | 合肥凌极西雅电子科技有限公司 | 交互式语言学习系统及其方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853426A (zh) * | 2019-11-18 | 2020-02-28 | 永城职业学院 | 一种英语发音学习评价系统及方法 |
CN111261193A (zh) * | 2020-03-20 | 2020-06-09 | 上海乂学教育科技有限公司 | 发音训练与教学系统 |
CN111261193B (zh) * | 2020-03-20 | 2023-03-10 | 上海松鼠课堂人工智能科技有限公司 | 发音训练与教学系统 |
CN111710203A (zh) * | 2020-07-15 | 2020-09-25 | 罗鹏 | 一种基于大数据的英语发音纠正系统 |
CN113808441A (zh) * | 2021-08-03 | 2021-12-17 | 郑州科技学院 | 便携式外语单词练习器 |
CN113808441B (zh) * | 2021-08-03 | 2023-07-07 | 郑州科技学院 | 便携式外语单词练习器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110246484A (zh) | 一种智能化英语发音自助学习系统 | |
CN110556129B (zh) | 双模态情感识别模型训练方法及双模态情感识别方法 | |
CN102779508B (zh) | 语音库生成设备及其方法、语音合成系统及其方法 | |
CN110246487A (zh) | 用于单通道的语音识别模型的优化方法及系统 | |
CN108447486A (zh) | 一种语音翻译方法及装置 | |
CN106297826A (zh) | 语音情感辨识系统及方法 | |
Dong | Application of artificial intelligence software based on semantic web technology in english learning and teaching | |
CN110600055A (zh) | 一种使用旋律提取与语音合成技术的歌声分离方法 | |
CN110322900A (zh) | 一种语音信号特征融合的方法 | |
CN107293290A (zh) | 建立语音声学模型的方法和装置 | |
US20080004879A1 (en) | Method for assessing learner's pronunciation through voice and image | |
CN102723077B (zh) | 汉语教学语音合成方法及装置 | |
Ji | Speaker independent acoustic-to-articulatory inversion | |
CN108172211A (zh) | 可调节的波形拼接系统及方法 | |
CN107910008A (zh) | 一种用于个人设备的基于多声学模型的语音识别方法 | |
CN111128211A (zh) | 一种语音分离方法及装置 | |
Liu et al. | AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning | |
CN109994116A (zh) | 一种基于会议场景小样本条件下的声纹准确识别方法 | |
Choi et al. | Learning to maximize speech quality directly using MOS prediction for neural text-to-speech | |
Chen et al. | An investigation of implementation and performance analysis of DNN based speech synthesis system | |
CN116631409A (zh) | 一种轻量化声纹识别方法及系统 | |
Li et al. | Improving mandarin tone mispronunciation detection for non-native learners with soft-target tone labels and blstm-based deep models | |
Zhao | Study on the effectiveness of the asr-based english teaching software in helping college students’ listening learning | |
Li et al. | Spectro-Temporal Modelling with Time-Frequency LSTM and Structured Output Layer for Voice Conversion. | |
CN113870897A (zh) | 音频数据教学测评方法及其装置、设备、介质、产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190917 |