CN108922563B - 基于偏差器官形态行为可视化的口语学习矫正方法 - Google Patents
基于偏差器官形态行为可视化的口语学习矫正方法 Download PDFInfo
- Publication number
- CN108922563B CN108922563B CN201810624822.5A CN201810624822A CN108922563B CN 108922563 B CN108922563 B CN 108922563B CN 201810624822 A CN201810624822 A CN 201810624822A CN 108922563 B CN108922563 B CN 108922563B
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- learner
- standard
- behavior
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 210000000056 organ Anatomy 0.000 title claims abstract description 89
- 230000006399 behavior Effects 0.000 title claims abstract description 79
- 230000001755 vocal effect Effects 0.000 title claims abstract description 43
- 230000000007 visual effect Effects 0.000 title claims abstract description 17
- 239000000729 antidote Substances 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 22
- 239000000284 extract Substances 0.000 claims abstract description 4
- 238000013507 mapping Methods 0.000 claims description 32
- 238000001514 detection method Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000001228 spectrum Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 11
- 238000009432 framing Methods 0.000 claims description 8
- 239000000203 mixture Substances 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 5
- 238000005520 cutting process Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000005303 weighing Methods 0.000 claims description 3
- 241001146702 Candidatus Entotheonella factor Species 0.000 description 2
- 210000005182 tip of the tongue Anatomy 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/06—Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明是一种基于偏差器官形态行为可视化的口语学习矫正方法。通过对学习者发音时的音素、重读、词间停顿和语调与标准音进行对比,计算学习者发音准确度以及发音器官行为与标准行为的偏差,可视化地展示给学习者。主要步骤是S1.采集学习者和标准音的发音信息,对所述采集信号进行预处理,提取特征;S2.构建句子的标准发音器官形态行为库,将标准音的发音特征映射到所述器官形态行为库;S3.计算学习者发音的音素、重读、停顿和语调与标准音的相似度,计算出器官行为的偏差值,可视化的展示给学习者;S4.综合四个指标对学习者的发音评分并反馈给学习者,提升学习效率。
Description
技术领域
本发明是一种基于偏差器官形态行为可视化的口语学习矫正方法,属于语音信号处理与软件工程交叉领域。
背景技术
口语教学有着长期而又广泛的需求,本发明提出的口语学习方法能够对学习者的口语发音质量进行检测,给出发音评分,同时以可视化的方式告诉学习者标准发音以及标准发音器官行为。语言的基本单位是音素,在进一步组成词和句子,本发明基于对音素发音的标准度评估学习者的发音情况,并可视化展示给学习者发错音的因素的标准器官行为。掌握好词间停顿对英语学习至关重要,因此首先要将句子分割成单词的组合,近年来,在语音信号处理领域,关于语音信号中端点检测及判定的研究越来越重要。作为语音识别的前提工作,有效的端点检测方法不仅可以减少数据的存储量和处理时间,而且可以排除无声段的噪声干扰,使语音识别更为准确。本发明基于结合短时能量和短时过零率的端点检测方法来分割句子成单词。口语学习中重读有很多规则,英语是重读因素最为明显的一种语言,本发明提出通过单词的发音时长和短时平均能量对学习者的重读发音进行评分。语调,即说话的腔调,就是一句话里声调高低抑扬轻重的配制和变化,例如英语有五种基本语调:升调、降调、升降调、降升调以及平调。本法明使用DTW算法计算学习者的语调发音和标准音之间的曲线相似度来对学习者发音质量进行评分,并以可视化的方式展示给学习者错误发音对应的标准发音器官行为。
发明内容
本发明提出一种基于偏差器官形态行为可视化的口语学习矫正方法,通过计算学习者对句子的发音信息和标准音做对比,给出学习者的发音评分,如果发音不准确,将定位发音不准确的位置,反馈给学习者标准的发音以及可视化的告诉学习者发音器官动作。具体地,将原始语音信号经过处理得到切分的单词和组成单词的音素的Mel倒频谱系数,计算学习者的音素发音和标准音素发音的Mel倒频谱系数特征的欧几里得距离评估相似度,通过平均短时能量评估学习者发音的重读准确度,通过DTW算法评估学习者的语调发音准确度,通过基于短时能量和过零率的检测方法评估学习者的词间停顿准确度。本发明是一种口语学习方法,其特征在于,包括
S1.采集学习者对学习句子的发音信息以及标准发音信息,对所述采集信号进行预处理,提取特征;
S2. 构建标准发音器官形态行为库,将标准音的特征映射到标准发音器官形态行为库;
S3.将采集的学习者的发音信息和标准音信息进行对比,计算句子的音素、重读、词间停顿和语调与标准音的相似度;若相似度大于阈值,则认为发音准确,若小于阈值,则认为发音不准确,计算不准确发音的器官形态行为与标准行为的偏差,并定位发音错误位置,用可视化的方式展示给学习者正确的发音以及正确发音的器官行为偏差;
S4.根据音素、重读、词间停顿和语调相似度计算学习者对句子发音的综合评分,判断学习者该次句子发音的综合得分。
其中,所述步骤S3包括:
通过计算学习者的原始发音信息的音素和标准音的音素的Mel倒频谱系数的欧几里得距离评估音素发音的准确度,若超过给定阈值,则认为发音准确,该阈值由训练得出。若音素发音不准确,则计算不准确音素发音器官行为与标准器官行为的偏差。
所述步骤S3还包括:
通过基于结合短时能量和过零率的检测方法计算重音的平均短时能量和过零率,综合平均短时能量和重音在单词当中的相对位置计算学习者的重音发音和标准重音发音的相似度。若超过给定阈值,则认为发音准确,该阈值由训练得出。若重读发音不准确,则计算不准确音素发音器官行为与标准器官行为的偏差。
所述步骤S3还包括:
通过基于结合短时能量和过零率的检测方法计算无声段,从而确定词间停顿,通过对比学习者对句子发音时的词间停顿时长和标准发音的词间停顿时长对学习者发音的准确度进行评分。
所述步骤S3还包括:
将原始信号分成n段,每段取声音强度的最大值,连接起来形成包络表示该语音信号语调曲线,调取学习者发音信号和标准音信号的语调曲线。利用DTW算法计算两个曲线之间的差异参数dist。并根据差异参数评估学习者发音的语调准确度。若语调不准确,则计算不准确音素发音器官行为与标准器官行为的偏差。
所述步骤S4包括:
综合音素、重读、词间停顿和语调对学习者的发音进行准确度评分,每个指标对评
分的影响权重为。
所述步骤S2包括:
对所述采集的原始信号进行预处理(Pre-emphasis),预处理包括包括预加重处理、分帧处理、加窗处理和端点检测;
预加重处理:通过传递函数为H(z)=1-az-1的一阶FIR高通数字滤波器(6dB/oct的规格)来实现预加重,输出结果:y(n)=x(n)- 0.945x(n-1);
分帧处理:语音信号具有短时平稳性(10--30ms内可以认为语音信号近似不变),这样就可以把语音信号分为一些短段来来进行处理;
加窗处理:所述加窗函数为汉明窗:
端点检测:使用双门方法进行端点检测。分别求信号的短时能量和过零率。
所述步骤S2还包括:
提取句子的原始语音信息的单词特征和音素特征,调取原始信号的Mel倒频谱系数,根据语音的发音时长分段,从而获取句子的每个单词的Mel倒频谱系数作为单词的特征向量。建立标准音素的Mel倒频谱系数表,将每个单词的Mel倒频谱系数的特征向量集合与标准音素的Mel倒频谱系数进行匹配从而切割每个单词成音素Mel倒频谱系数的组成。
所述步骤S2还包括:
提取句子标准发音的所述四个指标的特征,即因素特征提取Mel倒频谱系数(这里,MFCC的阶数设为12),重读特征提取信号短时能量,词间停顿特征提取信号无声段时长,语调特征提取信号的强度包络。使用映射函数mapping()将特征与器官形态行为记录函数h(oi, pk)将标准发音的四个指标特征与标准发音器官形态行为建立对应关系,其中oi表示第i个发音器官,pk表示第i个发音器官上的第k个映射点。h(oi, pk)定义为一个包含误差范围器官形态行为的值的范围。
所述步骤S2还包括:
音素特征的映射:
即音素的Mel倒频谱系数特征映射倒发音器官形态行为函数h(oi, pk):
本发明使用一组映射系数 ={u1, u2, u3, u4, u5, u6, u7, u8, u9, u10, u11,
u12}将标准发音映射到标准器官行为。求出这组系数U之后就可以对学习者的发音与标准发
音的器官行为进行对比。MFCC系数为{m1, m2, m3, m4, m5, m6, m7, m8, m9, m10, m11,
m12},
h(oi, pk)= mapping(MFCC)=m1 *u1+ m2*u1+… + m12*u1
这组U系数的选择条件是:
满足条件:最小
时的系数U.
得出Ujl最小的这组U将作为评估学习者发音器官行为与标准行为差异的一组评估系数。
所述S2还包括:
重读特征的映射:
标准音第i个重读部分的短时能量谱曲线为En,在曲线上采集m个点取能量值形成一组离散的反应短时能量谱的离散点集{e1, e2, …,em}. 使用一组系数W={w1, w2, …,wm}将标准音的重读发音的短时能量谱特征与标准器官行为对应起来,如下所示:
h(oi, pk)= mapping(En)=e1*w1 + e2*w2 + ,,, + em*wm
选取系数W的标准是:
满足条件:最小时的系数组W。
所述S2还包括:
语调的映射:
标准音的语调曲线是语音信号强度的曲线,在曲线上采集n个样本点形成离散的一组语音信号强度点集{s1, s2, …, sn},使用一组系数Q={q1, q2, …, qn}将标准音的语调映射到标准器官行为上,如下所示:
h(oi, pk)= mapping(y(n))=s1*q1 + s2*q2 + … + sn*qn
其中,y(n)是标准音原始信号的包络,选取系数W的标准是:
满足条件:最小时的系数组Q。
附图说明
图1是一种基于偏差器官形态行为可视化的口语学习矫正方法的一个实施例的总框图;
图2是一种基于偏差器官形态行为可视化的口语学习矫正方法具体实施流程;
图3是一种基于偏差器官形态行为可视化的口语学习矫正方法的器官行为量化时建立的坐标系。
具体实施方式
本发明提出一种基于偏差器官形态行为可视化的口语学习矫正方法,通过计算学习者对句子的发音信息和标准音做对比,给出学习者的发音评分,如果发音不准确,将定位发音不准确的位置,反馈给学习者标准的发音以及可视化的告诉学习者发音器官动作。具体地,将原始语音信号经过处理得到切分的单词和组成单词的音素的Mel倒频谱系数,计算学习者的音素发音和标准音素发音的Mel倒频谱系数特征的欧几里得距离评估相似度,通过平均短时能量评估学习者发音的重读准确度,通过DTW算法评估学习者的语调发音准确度,通过基于短时能量和过零率的检测方法评估学习者的词间停顿准确度。本发明是一种口语学习方法,其特征在于,包括
S1.如图2中的步骤001所示,采集学习者对学习句子的发音信息以及标准发音信息,对所述采集信号进行预处理,提取特征;
S2. 如图2中的步骤002,003所示,构建标准发音器官形态行为库,将标准音的特征映射到标准发音器官形态行为库;
S3. 如图2中的步骤004到013所示,将采集的学习者的发音信息和标准音信息进行对比,计算句子的音素、重读、词间停顿和语调与标准音的相似度;若相似度大于阈值,则认为发音准确,若小于阈值,则认为发音不准确,计算不准确发音的器官形态行为与标准行为的偏差,并定位发音错误位置,用可视化的方式展示给学习者正确的发音以及正确发音的器官行为偏差;
S4. 如图2中的步骤013,014所示,根据音素、重读、词间停顿和语调相似度计算学习者对句子发音的综合评分,判断学习者该次句子发音的综合得分。并反馈给学习者。
其中,所述步骤S3包括:
音素相似度计算:经过步骤S2后,得到每个音素的Mel倒频谱系数,通过计算学习者发音的音素与标准发音发音的音素的Mel倒频谱系数的欧几里得距离来评估学习者对音素发音的准确度,如图2中的步骤004,音素相似度计算如下:
xk表示采集的学习者的语音引号的第k个音素Mel倒频谱系数的特征向量,yk表示标准音的第k个音素的Mel倒频谱系数的特征向量,如图2中的步骤007,判断音素发音相似度与阈值的大小,若音素相似度小于阈值Similarityys0,则认为发音不准确,计算学习者发音的器官行为与标准器官形态行为的差异值Differencexw1,如图2中的步骤007-1,计算实现如下:
其中, 表示音素标准器官形态行为, 表示学习者的不准
确音素发音时的发音器官形态行为。学习者对音素的发音器官行为的计算为: , 表示MFCC特征向量, 表示音素发音时音素特征向发音器
官行为映射的系数向量。
所述步骤S3还包括:
重读相似度计算:使用结合基于短时能量和过零率的检测方法进行端点检测确定词的界限,从而切分连续语音信号的句子分开成一组词;当短时能量值超过阈值E0时标记为重读部分,标准音的短时能量超过E0的起始时刻为STstart和STend,如图2中的008,重音相似度计算如下:
其中,CTmiddle表示短时能量谱上第k个重音的中间时刻,CTstart表示第k个重音的发
音起始时刻,STmiddle表示标准音的短时能量谱上第k个重音的中间时刻,STstart表示标准音
的第k个重音的发音起始时刻。 表示采集的语音信号
的重读的短时平均能量, 表示对应的标准音的第k个
重读的短时平均能量。如图2中的009,判断重读相似度与阈值的大小,若重读相似度小于阈
值Similarityzhd0,则认为发音不准确,计算学习者重读发音的器官行为与标准器官形态行
为的差异值Differencexw2,如图2中的步骤009-1,计算实现如下:
其中, 表示重读标准器官形态行为, 表示学习者
不准确重读的发音器官形态行为。学习者发音器官行为的计算为: , 表示抽样的短时能量离散点作为一个向量, 表示重读时特征向器官映射的系数向
量。
所述步骤S3还包括:
词间停顿相似度计算:语音和噪声的区别可以体现在他们的能量上,语音和噪声的区别可以体现在他们的能量上,因此假设有一段语音,如果某部分短时能量和过零率都为零或者为很小的值,就可以认为这部分为无声段。测量单词间无声段的时长作为词间停顿时长指标,如图2中的步骤010,词间停顿相似度计算如下:
其中CTtd表示第i个停顿的时长,STtd表示对应的标准音的第i个停顿的时长。
所述步骤S3还包括:
语调相似度计算:提取语音信号的包络,采集n个采集点的语音强度值作为特征向量,使用DTW算法计算语调相似度,如图2中的012,实现如下:
dist是采集信号与标准信号的DTW相似度参数,a和b通过训练得出;如图2中的步骤013,判断语调相似度与阈值的大小,若重读相似度小于阈值Similarityyd0,则认为发音不准确,计算学习者重读发音的器官行为与标准器官形态行为的差异值Differencexw3,如图2中的步骤013-1,计算实现如下:
其中, 表示语调的标准器官形态行为, 表示学习者
不准确语调的发音器官形态行为。学习者发音器官行为的计算为:
, 表示抽样的语音信号强度包络的离散点作为一个向量,表示语调特征向器官映
射的系数向量。
所述步骤S3还包括:
综合音素、重读、词间停顿和语调对学习者的发音进行准确度评分,每个指标对评
分的影响权重为。综合评分计算如下:
所述步骤S1包括:
如图2中的步骤001,对所述采集的原始信号进行预处理(Pre-emphasis),预处理包括包括预加重处理、分帧处理、加窗处理和端点检测:
预加重:信号传输线表现出来的是低通滤波特性,传输过程中信号的高频成分衰减大,低频成分衰减少。预加重技术的思想就是在传输线的始端增强信号的高频成分,以补偿高频分量在传输过程中的过大衰减。发送端对输入信号高频分量的提升。本发明通过传递函数为H(z)=1-az-1的一阶FIR高通数字滤波器(6dB/oct的规格)来实现预加重。其中a为预加重系数,0.9<a<1.0;
设n时刻的原始语音采样值为x(n),经过预加重处理后的结果为:
y(n)=x(n)- 0.945x(n-1);
分帧:对预加重数字滤波处理后的信号进行加窗分帧处理,语音信号具有短时平稳性(10--30ms内可以认为语音信号近似不变),这样就可以把语音信号分为一些短段来来进行处理,这就是分帧,所述语音信号的分帧采用可移动的有限长度的窗口进行加权的方法来实现的,即交叠分段的方法,前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般为0~0.5,
所述加窗函数为汉明窗:
汉明窗的主瓣宽度较宽,具有更平滑的低通特性,能够在较高的程度上反应短时信号的频率特性;
端点检测:采用双门限法进行端点检测,短时能量的定义:设第n帧语音信号xn(m)的短时能量谱用En 表示,则其计算公式如下
过零率:短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。它可以用来区分清音和浊音,这是因为语音信号中的高频段有高的过零率,低频段过零率较低。定义语音信号xn(m) 的短时过零率Zn为
式中,sgn[] 是符号函数,即:
为防止误判以及无声段过零率太大,设t1和t2为相邻两个采样点,则同时满足
t1*t2 < 0和|t1- t2|的大于delta时才算一次过零,除此之外,为短时能量和过零率分别确定两个门限,一个是较低的门限ELT 和ZLT,其数值较小,对信号的变化比较敏感,很容易就会被超过。另一个是较高的门限EHT 和ZHT,数值较大,信号必须达到一定的强度,该门限才可能被超过。低门限被超过有可能是时间很短的噪声引起的,高门限被超过则可以基本确定是由语音信号引起的。
所述S1还包括:
提取特征,求单词和音素的Mel倒频谱系数;
Mel特征提取过程:1)先对语音进行预加重、分帧和加窗;
2)对每一个短时分析窗,通过DFT(离散傅里叶变换)得到对应的频谱,实现如下:
3)将上面的频谱通过Mel滤波器组得到Mel频谱;
梅尔滤波器第一个得到 0Hz 附近的能量,越往后的滤波器频带越宽。梅尔滤波器是一组包含20-40个(标准26个)三角滤波器的滤波器。根据梅尔尺度(Mel scale)设置每一个滤波器,频率到梅尔尺度(Mel scale)转换公式:
梅尔尺度转为频率, 转换成梅尔频率后,我们要实现的是40个滤波器,所以计算这40个滤波器的梅尔频率分布,然后把梅尔频率转换成实际频率如下公式:
根据以下公式,计算滤波器的输出(m为滤波器的个数):
4)在Mel频谱上面进行倒谱分析(取对数,做逆变换,实际逆变换一般是通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数作为MFCC系数),获得Mel频率倒谱系数MFCC:
根据发音时长对语音信号进行分段聚类,得到每个单词的Mel倒频谱系数,其中第i段的语音信号的Mel倒频谱系数如下:
M(k)表示第k个单词的Mel倒频谱系数,tk表示第k个单词的发音时长。经过分段聚类后每个单词将由一个Mel倒频谱系数的特征向量集合表示,求音素的Mel倒频谱系数:
建立标准音素的Mel倒频谱系数表,
将每个单词的Mel倒频谱系数的特征向量集合与标准音素的Mel倒频谱系数进行匹配从而切割每个单词成音素Mel倒频谱系数的组成。
所述S2包括:
如图2中的步骤002,提取句子标准发音的所述四个指标的特征,即因素特征提取Mel倒频谱系数(这里,MFCC的阶数设为12),重读特征提取信号短时能量,词间停顿特征提取信号无声段时长,语调特征提取信号的强度包络。如图2中的步骤003,使用映射函数mapping()将特征与器官形态行为记录函数h(oi, pk)将标准发音的四个指标特征与标准发音器官形态行为建立对应关系,其中oi表示第i个发音器官,pk表示第i个发音器官上的第k个映射点。
所述S2还包括:
音素特征的映射:
即音素的Mel倒频谱系数特征映射倒发音器官形态行为函数h(oi, pk):
本发明使用一组映射系数U={u1, u2, u3, u4, u5, u6, u7, u8, u9, u10, u11,u12}将标准发音映射到标准器官行为。求出这组系数U之后就可以对学习者的发音与标准发音的器官行为进行对比。MFCC系数为{m1, m2, m3, m4, m5, m6, m7, m8, m9, m10, m11,m12},
h(oi, pk)= mapping(MFCC)=m1 *u1+ m2*u1+ m3*u1+ m4*u1+ m5*u1+ m6*u1+ m7*u1+m8*u1+ m9*u1+ m10*u1+ m11*u1+ m12*u1
这组U系数的选择条件是:
满足条件:最小时
的系数U.
例如,普通话音素s的MFCC为{-18.10, 5.30, 3.72, 2.11, 1.73, 0.25, -0.11,-0.002, 0.067, -19.3, 5.28, 3.49}对应的标准发音器官形态行为是:
o1(嘴部):{ 0, 20hmm, 30hmm},标签:开唇,平展
o2(舌位):{+7zmm, 0, -2mm}标签:高位,前部舌中央气流
o3(牙齿):{+4zmm, -17zmm}
o4(呼气量):100,标签:不送气
o5(下颌高度):-20zmm,标签:高
描述:发音时舌尖接近上门齿背,流出窄缝,气门从舌尖的窄缝挤出,摩擦成音。
其中下表h表示相对于牙齿平面、以门牙点为原点画纵坐标的横向移动数据(标记点的变化后的横坐标),下表z表示该坐标系下的纵向移动数据(标记点变化后的纵坐标)。如附图3所示,使用一组映射系数{u1, u2, u3, u4, u5, u6, u7, u8, u9, u10, u11, u12}将标准发音映射到标准器官行为的函数是:
h(oi, pk)=-18.10*u1 + 5.30*u2 + 3.73*u3 + 2.11*u4 + 1.73*u5 + 0.25*u6 + (-0.11)*u7 + (-0.002)*u8 + 0.067*u9 + (-19.3)*u10 + 5.28*u11 + 3.49*u12
得出Ujl最小的这组U将作为评估学习者发音器官行为与标准行为差异的一组评估系数。
所述S2还包括:
重读特征的映射:
标准音第i个重读部分的短时能量谱曲线为En,在曲线上采集m个点取能量值形成一组离散的反应短时能量谱的离散点集{e1, e2, …,em}. 使用一组系数W={w1, w2, …,wm}将标准音的重读发音的短时能量谱特征与标准器官行为对应起来,如下所示:
h(oi, pk)= mapping(En)=e1*w1 + e2*w2 + ,,, + em*wm
选取系数W的标准是:
满足条件:最小时的系数组W。
所述S2还包括:
语调的映射:
标准音的语调曲线是语音信号强度的曲线,在曲线上采集n个样本点形成离散的一组语音信号强度点集{s1, s2, …, sn},使用一组系数Q={q1, q2, …, qn}将标准音的语调映射到标准器官行为上,如下所示:
h(oi, pk)= mapping(y(n))=s1*q1 + s2*q2 + … + sn*qn
其中,y(n)是标准音原始信号的包络,选取系数W的标准是:
满足条件:最小时的系数组Q。
Claims (3)
1.一种基于偏差器官形态行为可视化的口语学习矫正方法,通过计算学习者对句子的发音信息和标准音做对比,给出学习者的发音评分,如果发音不准确,将定位发音不准确的位置,反馈给学习者标准的发音以及可视化的告诉学习者发音器官动作;具体地,将原始语音信号经过处理得到切分的单词和组成单词的音素的Mel倒频谱系数,计算学习者的音素发音和标准音素发音的Mel倒频谱系数特征的欧几里得距离评估相似度,通过平均短时能量评估学习者发音的重读准确度,通过DTW算法评估学习者的语调发音准确度,通过基于短时能量和过零率的检测方法评估学习者的词间停顿准确度;具体实施步骤为:
步骤S1.采集学习者对学习句子的发音信息以及标准发音信息,对采集信息进行预处理,提取特征;
所述步骤S1具体包括:
对采集的原始信号进行预处理,预处理包括预加重、分帧、加窗和端点检测;
预加重:通过传递函数为H(z)=1-az-1的一阶FIR高通数字滤波器来实现预加重,其中a为预加重系数,0.9<a<1.0;
分帧:采用可移动的有限长度的窗口进行加权的方法来实现分帧,其中帧移与帧长的比值为0~0.5;
加窗:所述加窗函数为汉明窗:
端点检测:采用双门限法进行端点检测,第n帧语音信号xn(m)的短时能量谱用En 表示,其计算公式如下:
过零率:定义语音信号xn(m) 的短时过零率Zn为
式中,sgn[] 是符号函数,即:
步骤S2.构建标准发音器官形态行为库,将标准发音的特征映射到标准发音器官形态行为库;
所述步骤S2具体包括:
提取句子标准发音的四个指标的特征,即音素特征提取Mel倒频谱系数,重读特征提取信号短时能量,词间停顿特征提取信号无声段时长,语调特征提取信号的强度包络,使用映射函数将标准发音的四个指标特征与标准发音器官形态行为建立对应关系;
其中,音素特征的映射:
即音素的Mel倒频谱系数特征映射倒发音器官形态行为函数h(oi, pk),其中oi表示第i个发音器官,pk表示第i个发音器官上的第k个映射点,
使用一组映射系数U={u1, u2, u3, u4, u5, u6, u7, u8, u9, u10, u11, u12}将标准发音映射到标准器官行为,求出这组系数U之后对学习者的发音与标准发音的器官行为进行对比,MFCC系数为{m1, m2, m3, m4, m5, m6, m7, m8, m9, m10, m11, m12},h(oi, pk)=m1 *u1+ m2*u1+ …+ m12*u1
U系数的选择条件是:
满足条件:最小时的系数U;
其中,重读特征的映射:
标准发音第i个重读部分的短时能量谱曲线为En,在曲线上采集m个点取能量值形成一组离散的反应短时能量谱的离散点集{e1, e2, …,em}. 使用一组系数W={w1, w2, …,wm}将标准发音的重读发音的短时能量谱特征与标准器官行为对应起来,如下所示:
h(oi, pk)=e1*w1 + e2*w2 + … + em*wm
选取系数W的标准是:
满足条件:最小时的系数组W;
其中,语调特征的映射:
标准发音的语调曲线是语音信号强度的曲线,在曲线上采集n个样本点形成离散的一组语音信号强度点集{s1, s2, …, sn},使用一组系数Q={q1, q2, …, qn}将标准发音的语调映射到标准器官行为上,如下所示:
h(oi, pk) =s1*q1 + s2*q2 + … + sn*qn
其中,选取系数W的标准是:
满足条件:最小时的系数组Q;
步骤S3.将采集的学习者的发音信息和标准发音信息进行对比,计算句子的音素、重读、词间停顿和语调与标准发音的相似度;若相似度大于阈值,则认为发音准确,若小于阈值,则认为发音不准确,计算不准确发音的器官形态行为与标准行为的偏差,并定位发音错误位置,用可视化的方式展示给学习者正确的发音以及正确发音的器官行为偏差;
其中,音素相似度计算:通过计算学习者发音的音素与标准发音的音素的Mel倒频谱系数的欧几里得距离来评估学习者对音素发音的准确度,音素相似度计算如下:
xk表示采集的学习者的语音引号的第k个音素Mel倒频谱系数的特征向量,yk表示标准音的第k个音素的Mel倒频谱系数的特征向量;判断音素发音相似度与阈值的大小,若音素相似度小于阈值Similarityys0,则认为发音不准确;计算学习者发音的器官行为与标准器官形态行为的差异值Differencexw1,计算实现如下:
其中,表示音素标准器官形态行为,表示学习者的不准确音
素发音时的发音器官形态行为,学习者对音素的发音器官行为的计算为:
,表示MFCC特征向量,表示音素发音时音素特征向发音器官行为映射的系数向量;
重读相似度计算:使用结合基于短时能量和过零率的检测方法进行端点检测确定词的界限,从而切分连续语音信号的句子分开成一组词;当短时能量值超过阈值E0时标记为重读部分,标准音的短时能量超过E0的起始时刻为STstart和STend,重音相似度计算如下:
其中,CTmiddle表示短时能量谱上第k个重音的中间时刻,CTstart表示第k个重音的发音起始时刻,STmiddle表示标准音的短时能量谱上第k个重音的中间时刻,STstart表示标准音的第k个重音的发音起始时刻,
表示采集的语音信号的重读的短时平均能量,表示对应的标准音的第k个重读的短时平均能量;判断重
读相似度与阈值的大小,若重读相似度小于阈值Similarityzhd0,则认为发音不准确;计算
学习者重读发音的器官行为与标准器官形态行为的差异值Differencexw2,计算实现如下:
其中,表示重读标准器官形态行为,表示学习者不准确重
读的发音器官形态行为,学习者发音器官行为的计算为:,表示抽样
的短时能量离散点作为一个向量,表示重读时特征向器官映射的系数向量;
词间停顿相似度计算:
其中CTtd表示第i个停顿的时长,STtd表示对应的标准音的第i个停顿的时长;
语调相似度计算:提取语音信号的包络,采集n个采集点的语音强度值作为特征向量,使用DTW算法计算语调相似度,实现如下:
dist是采集信号与标准信号的DTW相似度参数,a和b通过训练得出;判断语调相似度与阈值的大小,若重读相似度小于阈值Similarityyd0,则认为发音不准确;计算学习者重读发音的器官行为与标准器官形态行为的差异值Differencexw3,计算实现如下:
其中,表示语调的标准器官形态行为,表示学习者不准确
语调的发音器官形态行为,学习者发音器官行为的计算为:,表示
抽样的语音信号强度包络的离散点作为一个向量,表示语调特征向器官映射的系数向
量;
步骤S4.根据音素、重读、词间停顿和语调相似度计算学习者对句子发音的综合评分,判断学习者句子发音的综合得分,并反馈给学习者。
2.如权利要求1所述的一种基于偏差器官形态行为可视化的口语学习矫正方法,其特征在于所述步骤S4包括:
综合音素、重读、词间停顿和语调对学习者的发音进行准确度评分,每个指标对评分的
影响权重为,综合评分计算如下:
其中,Similarity1代表Similarityys,Similarity2代表Similarityzhd,Similarity3代表Similaritytd, Similarity4代表Similarityyd。
3.如权利要求1所述的一种基于偏差器官形态行为可视化的口语学习矫正方法,其特征在于所述步骤S1包括:
提取特征,求单词和音素的Mel倒频谱系数;
Mel特征提取过程:
1)先对语音进行预加重、分帧和加窗;
2)对每一个短时分析窗,通过离散傅里叶变换DFT得到对应的频谱,实现如下:
3)将上面的频谱通过Mel滤波器组得到Mel频谱;
梅尔滤波器第一个得到 0Hz 附近的能量,越往后的滤波器频带越宽,根据梅尔尺度Mel scale设置每一个滤波器,频率到梅尔尺度Mel scale转换公式为:
梅尔尺度转为频率, 转换成梅尔频率后,计算40个滤波器的梅尔频率分布,然后把梅尔频率转换成实际频率,如下公式:
根据以下公式,计算滤波器的输出,m为滤波器的个数:
4)在Mel频谱上面进行倒谱分析,即取对数,做逆变换,取DCT后的第2个到第13个系数作为MFCC系数,获得Mel频率倒谱系数MFCC:
根据发音时长对语音信号进行分段聚类,得到每个单词的Mel倒频谱系数,其中第i段的语音信号的Mel倒频谱系数如下:
M(k)表示第k个单词的Mel倒频谱系数,tk表示第k个单词的发音时长;
经过分段聚类后每个单词将由一个Mel倒频谱系数的特征向量集合表示,求音素的Mel倒频谱系数:
建立标准音素的Mel倒频谱系数表,将每个单词的Mel倒频谱系数的特征向量集合与标准音素的Mel倒频谱系数进行匹配从而切割每个单词成音素Mel倒频谱系数的组成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810624822.5A CN108922563B (zh) | 2018-06-17 | 2018-06-17 | 基于偏差器官形态行为可视化的口语学习矫正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810624822.5A CN108922563B (zh) | 2018-06-17 | 2018-06-17 | 基于偏差器官形态行为可视化的口语学习矫正方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108922563A CN108922563A (zh) | 2018-11-30 |
CN108922563B true CN108922563B (zh) | 2019-09-24 |
Family
ID=64419331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810624822.5A Active CN108922563B (zh) | 2018-06-17 | 2018-06-17 | 基于偏差器官形态行为可视化的口语学习矫正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108922563B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111640452B (zh) * | 2019-03-01 | 2024-05-07 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN110289015B (zh) * | 2019-05-27 | 2021-09-17 | 北京大米科技有限公司 | 一种音频处理方法、装置、服务器、存储介质及系统 |
CN110705505A (zh) * | 2019-10-14 | 2020-01-17 | 国网山东省电力公司泰安供电公司 | 一种电力营业厅服务规范智能识别装置、方法及系统 |
CN113051985A (zh) * | 2019-12-26 | 2021-06-29 | 深圳云天励飞技术有限公司 | 信息提示方法、装置、电子设备及存储介质 |
CN111047922A (zh) * | 2019-12-27 | 2020-04-21 | 浙江工业大学之江学院 | 一种发音教学方法、装置、系统、计算机设备和存储介质 |
CN111599230B (zh) * | 2020-06-12 | 2022-01-25 | 西安培华学院 | 一种基于大数据的语言教学方法及装置 |
CN111833859B (zh) * | 2020-07-22 | 2024-02-13 | 科大讯飞股份有限公司 | 发音检错方法、装置、电子设备及存储介质 |
CN112863263B (zh) * | 2021-01-18 | 2021-12-07 | 吉林农业科技学院 | 一种基于大数据挖掘技术的韩语发音纠正系统 |
CN113077819A (zh) * | 2021-03-19 | 2021-07-06 | 北京有竹居网络技术有限公司 | 发音评价方法和装置、存储介质和电子设备 |
CN112802494B (zh) * | 2021-04-12 | 2021-07-16 | 北京世纪好未来教育科技有限公司 | 语音评测方法、装置、计算机设备和介质 |
CN114515138A (zh) * | 2022-01-06 | 2022-05-20 | 福州市星康朗语教育科技有限公司 | 一种语言障碍评估与矫正系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102169642A (zh) * | 2011-04-06 | 2011-08-31 | 李一波 | 具有智能纠错功能的交互式虚拟教师系统 |
CN103617799A (zh) * | 2013-11-28 | 2014-03-05 | 广东外语外贸大学 | 一种适应于移动设备的英语语句发音质量检测方法 |
CN105825852A (zh) * | 2016-05-23 | 2016-08-03 | 渤海大学 | 一种英语口语朗读考试评分方法 |
CN107578772A (zh) * | 2017-08-17 | 2018-01-12 | 天津快商通信息技术有限责任公司 | 融合声学特征和发音运动特征的发音评估方法和系统 |
-
2018
- 2018-06-17 CN CN201810624822.5A patent/CN108922563B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102169642A (zh) * | 2011-04-06 | 2011-08-31 | 李一波 | 具有智能纠错功能的交互式虚拟教师系统 |
CN103617799A (zh) * | 2013-11-28 | 2014-03-05 | 广东外语外贸大学 | 一种适应于移动设备的英语语句发音质量检测方法 |
CN105825852A (zh) * | 2016-05-23 | 2016-08-03 | 渤海大学 | 一种英语口语朗读考试评分方法 |
CN107578772A (zh) * | 2017-08-17 | 2018-01-12 | 天津快商通信息技术有限责任公司 | 融合声学特征和发音运动特征的发音评估方法和系统 |
Non-Patent Citations (1)
Title |
---|
《可视化英语语音矫正研究—以藏语语者英语单元音矫正为例》;宋瑞等;《第十三届全国人机语音通讯学术会议(NCMMSC2015)论文集》;20151025;第1-5页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108922563A (zh) | 2018-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108922563B (zh) | 基于偏差器官形态行为可视化的口语学习矫正方法 | |
KR101943520B1 (ko) | 비원어민의 영어 말하기 발음의 자동평가 시스템 및 이를 이용한 평가방법 | |
CN102800314B (zh) | 具有反馈指导的英语句子识别与评价系统及其方法 | |
CN105825852A (zh) | 一种英语口语朗读考试评分方法 | |
CN106782603B (zh) | 智能语音评测方法及系统 | |
CN103366759A (zh) | 语音数据的测评方法和装置 | |
CN103366735B (zh) | 语音数据的映射方法和装置 | |
CN103617799A (zh) | 一种适应于移动设备的英语语句发音质量检测方法 | |
CN104050965A (zh) | 具有情感识别功能的英语语音发音质量评价系统及方法 | |
CN101887725A (zh) | 一种基于音素混淆网络的音素后验概率计算方法 | |
CN101751919A (zh) | 一种汉语口语重音自动检测方法 | |
CN104240706B (zh) | 一种基于GMM Token配比相似度校正得分的说话人识别方法 | |
CN102426834B (zh) | 测试英文口语韵律水平的方法 | |
CN108648527B (zh) | 一种英语发音匹配纠正方法 | |
CN106856095A (zh) | 一种拼音拼读的发音质量评测系统 | |
CN101231848A (zh) | 一种基于支持向量机进行发音错误检测的方法 | |
CN110047474A (zh) | 一种英语音标发音智能训练系统及训练方法 | |
Mairano et al. | Acoustic distances, Pillai scores and LDA classification scores as metrics of L2 comprehensibility and nativelikeness | |
CN109377981A (zh) | 音素对齐的方法及装置 | |
CN108470476B (zh) | 一种英语发音匹配纠正系统 | |
CN105976811B (zh) | 一种包含声母的音节切分方法及装置 | |
Patil et al. | Detection of phonemic aspiration for spoken Hindi pronunciation evaluation | |
CN202758611U (zh) | 语音数据的测评装置 | |
Espy-Wilson | An acoustic-phonetic approach to speech recognition: Application to the semivowels | |
Yang et al. | Landmark-based pronunciation error identification on Chinese learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |