CN106128477A - 一种口语识别校正系统 - Google Patents
一种口语识别校正系统 Download PDFInfo
- Publication number
- CN106128477A CN106128477A CN201610474319.7A CN201610474319A CN106128477A CN 106128477 A CN106128477 A CN 106128477A CN 201610474319 A CN201610474319 A CN 201610474319A CN 106128477 A CN106128477 A CN 106128477A
- Authority
- CN
- China
- Prior art keywords
- unit
- parameter
- signal
- mike
- characteristic parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 238000005457 optimization Methods 0.000 claims abstract description 20
- 238000006243 chemical reaction Methods 0.000 claims abstract description 19
- 230000009466 transformation Effects 0.000 claims abstract description 11
- 230000009467 reduction Effects 0.000 claims abstract description 8
- 238000005728 strengthening Methods 0.000 claims abstract description 8
- 230000006978 adaptation Effects 0.000 claims abstract description 3
- 238000003032 molecular docking Methods 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 27
- 230000002787 reinforcement Effects 0.000 claims description 17
- 230000003044 adaptive effect Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 238000000205 computational method Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 8
- 238000002156 mixing Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 2
- 235000008434 ginseng Nutrition 0.000 claims description 2
- 230000001755 vocal effect Effects 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Machine Translation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供一种口语识别校正系统,所述系统对接收到的口语语音信号进行多通道增强降噪,再将增强降噪后的模拟信号进行组合特征参数的提取,通过自适应转换和参数转换将其转换为优化特征参数,最后将优化特征参数和与标准库中规范的口语数据进行匹配,完成口语校正输出,本发明通过对学生口语的输入信息进行一系列的信号变换,使得可能口音不准的学生,同样能够通过本系统中的转换和匹配功能,跟随系统进行口语学习和校正。
Description
技术领域
本发明属于语音信号处理技术领域,具体涉及一种口语识别校正系统。
背景技术
作为人际交流的重要媒介,口语语言在实际生活中占有极其重要的地位。随着社会经济的不断发展和全球化趋势的加剧,人们对语言学习的效率以及语言评估的客观性、公正性和规模化测试提出了越来越高的要求。传统的人工口语水平评测方法使教师和学生在教学时间和空间上受到很大限制,在师资力量、教学场地、经费支出等方面也存在诸多硬件上的差距和不平衡;人工评测无法避免评估者自身的个体偏差,从而不能保证评分标准的统一,有时甚至无法准确反映被测者的真实水平;而对于大规模口语测试,则需要大量的人力、物力和财力支持,限制了经常性、规模性的评估测试。为此,业界相继开发出了一些语言教学和评测系统。
在现有技术中,口语评测系统通常采用的识别器往往识别能力交叉,对接收到的语音信号进行语音识别会存在错误识别,而在口语教学中,最为关键的即是识别过程和匹配过程的准确性,系统从各语音片断中分别提取描述各基本语音单元发音标准度或流畅度等衡量口语评测标准的特征,最后基于所述特征通过匹配输出正确语音内容。在安静的环境下使用高保真的录音设备时,语音识别系统由于能提供较高的识别准确率因而后续口语评测也能提供较为客观准确的结果。然而在实际应用中特别是对于大规模口语考试或其他公共场合进行口语训练学习,录音环境不可避免会受到考场噪声、环境噪声等因素的影响,语音识别准确率下降导致口语评测过程中会出现一定比例的异常评分语音。显然这种现象使得大规模口语考试中计算机自动评分很难真正实用,限制了口语学习。
发明内容
为了解决上述问题,本发明提供一种口语识别校正系统,所述系统对接收到的口语语音信号进行多通道加强降噪,再将加强降噪后的模拟信号进行组合特征参数提取,通过自适应转换和参数转换将其转换为优化特征参数,最后将优化特征参数和与标准库中的口语数据进行匹配,完成口语校正输出;
进一步地,所述系统包括语音输入模块、加强减噪模块、识别匹配模块和校正输出模块,所述语音输入模块、加强减噪模块、识别匹配模块和校正输出模块依次连接,其中;
语音输入模块,所述语音输入模块包括多个麦克风,所述多个麦克风用于接收需要校正的口语语音信息;
加强减噪模块,所述加强减噪模块用于将语音输入模块接收的口语语音信息进行多通道加强处理和减噪处理;
识别匹配模块,所述识别匹配模块用于将加强减噪模块输出的模拟信号进行预处理,再对预处理过的信号进行LPC、MFCC、LPMFCC和TEOCC四种特征参数提取,并对提取的特征参数进行方差比计算,按照方差比从大到小排列,接着将按方差比从大到小排列的特征参数按比例进行提取,获得组合特征参数,然后对组合特征参数进行参数自适应和识别分类,最后对识别分类后的数据进行样本匹配,获取最后输出的参数信息;
校正输出模块,所述校正输出模块用于将所述识别匹配模块输出的参数信息转换为语音进行校正输出;
进一步地,所述加强减噪模块中包括多个语音通道,每个所述语音通道中包括加强单元和减噪单元,所述加强单元一端连接多个麦克风的输入信号,另一端连接减噪单元,其中,
加强单元,所述加强单元通过对所述多个语音通道的语音信号依次进行排列实现和阵列实现,获得加强后的噪声子通道和混合子通道;
减噪单元,所述减噪单元通过对噪声子通道和混合子通道的信号进行加权失真,获得减噪后的模拟信号;
进一步地,令fi(i=1、2、3....m)为相邻两个麦克风的声音到达时间差,s(t)为期望语音信号;xm(t)为各麦克风接收到的含噪语音,nm(t)为各麦克风接收到的噪声信号;
f1=(d1cosθ)/v,其中v为声速,d1为第1个麦克风和第2个麦克风之间的距离,θ为声源与第2个麦克风的连线和第1个麦克风与第2个麦克风连线所成夹角;
fm-1=(dm-1cosθ)/v,其中v为声速,dm-1为第m-1个麦克风和第m个麦克风之间的距离,θ为声源与第m个麦克风的连线和第m-1个麦克风与第m个麦克风连线所成夹角;
阵列实现输出信号:
y1(t)=x1(t)-x2(t-T)
=s(t)+n1(t)-s[s-d(1+cosθ)/v]-n2(t-d/v) (7)
y2(t)=x2(t)-x1(t-T)
=s(t-dcosθ/v)+n2(t)-s(t-d/v)-n1(t-d/v) (8)
其中(8)式中期望声源一般被放置在阵列沿线,因此简化为:
y2(t)≈n2(t)-n1(t-d/v) (9);
进一步地,所述加权失真方法具体为:
S1:定义信噪比为:
其中,T计算方法为:
S2:输出语音模拟信号:
对|S|2进行开方,获得S(t,k);
其中,S(t,k)、Y1(t,k)、Y2(t,k)分别对应时域信号s(t)、y1(t)、y2(t)的STFT;
进一步地,所述识别匹配模块包括预处理单元、特征提取单元、参数自适应单元、识别分类单元和样本匹配单元,所述预处理单元、特征提取单元、参数自适应单元、参数转换单元和样本匹配单元依次连接;
进一步地,所述预处理单元对加强减噪模块发送的模拟信号进行采样量化、预加重和分帧加窗,对模拟信号进行采样量化时依据带宽和采样率对输入的模拟信号进行采样,使之转换为数字信号,再通过预加重数字滤波器进行加重处理,通过交替分段方法和汉明窗进行分帧加窗;
进一步地,所述特征提取单元以10:10:4:1的比例对分帧加窗的数字信号进行MFCC、LPMFCC、LPC和TEOCC特征参数提取,分别进行方差比计算,按照方差比从大到小对提取的特征参数进行排列,再以5:5:2:1的比例从MFCC、LPMFCC、LPC和TEOCC四种特征参数中共计提取13个特征参数,即为组合特征参数,所述方差比计算方法如下:
其中,mk为语音特征第k维分量在所有类上的均值;mk (i)为语音特征第k维分量第i类的均值;wi为第i类的语音特征序列;c、ni分别为语音特征序列的类别数和各类的样本数;ck (i)为第i类语音特征的第k维分量,σbetween为特征分量的类间方差,σwithin为特征分量的类内方差;
进一步地,所述参数自适应单元通过EigenVoice模型将不等长的语音序列转换为定长的优化特征参数(xj,yj),所述参数转换单元将所述优化特征参数(xj,yj)进行参数转换,输出转换后的优化特征参数K(xj·yj),所述参数转换计算方法如下:
K(xj·yj)=a[(xj·yj)+1]q+(1-a)exp(||xj-yj||2/2β2)
其中a>0,表示比例系数,β是径向基核函数的宽度系数,q是幂指数,q和β均为可调节参数,(xj·yj)为线性内积核函数运算;
进一步地,所述样本匹配单元中设有口语转化标准库,所述样本匹配单元将参数转换单元转换的优化特征参数K(xj·yj)与口语转化标准库中存储的样本优化特征参数E(xj·yj)进行比较,输出相同的样本优化特征参数E(xj·yj);
本发明通过对学生口语的输入信息进行一系列的信号变换,使得可能口音不准的学生,同样能够通过本系统中的转换和匹配功能,跟随系统进行口语学习和校正。
附图说明
图1为本发明系统结构图;
图2为本发明中对麦克风进行排列实现的方法图;
图3为本发明中对麦克风进行阵列实现的方法图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
下面结合附图和具体实施例对本发明作进一步说明,但不作为对本发明的限定。下面为本发明的举出最佳实施例:
如图1-图3所示,本发明提供一种口语识别校正系统及校正方法,所述系统包括语音输入模块、加强减噪模块、识别匹配模块和校正输出模块,所述加强减噪模块一端连接语音输入模块,另一端通过识别匹配模块连接校正输出模块。
所述语音输入模块由多个麦克风组成,所述多个麦克风接收学生口述的口语语音信息,该口语语音信息可以由一个人或多个人组成,人数不限。
所述加强减噪模块中包括多个语音通道,所述多个语音通道由所述语音输入模块的多个麦克风与其一一对应连接,将学生口述的语音信息转换为语音信号,每个所述语音通道中接收的信号为:
x1(t)=s(t)h1(t)+n1(t);(1)
x2(t)=s(t)h2(t)+n2(t);(2)
......
xm(t)=s(t)hm(t)+nm(t)(m>2,m∈N+);(3)
其中,s(t)为期望语音信号;h1(t)为声源到达第1个麦克风的脉冲响应,h2(t)声源到达第2个麦克风的脉冲响应,hm(t)声源到达第m个麦克风的脉冲响应,xm(t)为各麦克风接收到的含噪语音,nm(t)为各麦克风接收到的噪声信号;
上述(1)、(2)、(3)式在不考虑声学反射的条件下,简化为:
x1(t)=s(t)+n1(t);(4)
x2(t)=s(t-f1)+n2(t);(5)
xm(t)=s(t-fm-1)+nm(t);(6)
将多个麦克风进行排列实现,如图2所示,其中,fi(i=1、2、3....m)为相邻两个麦克风的声音到达时间差;则
f1=(d1cosθ)/v,其中v为声速,d1为第1个麦克风和第2个麦克风之间的距离,θ为声源与第2个麦克风的连线和第1个麦克风与第2个麦克风连线所成夹角;
fm-1=(dm-1cosθ)/v,其中v为声速,dm-1为第m-1个麦克风和第m个麦克风之间的距离,θ为声源与第m个麦克风的连线和第m-1个麦克风与第m个麦克风连线所成夹角;
对(4)、(5)、(6)进行阵列实现,如图3所示,输出信号为:
y1(t)=x1(t)-x2(t-T)
=s(t)+n1(t)-s[s-d(1+cosθ)/v]-n2(t-d/v)(7)
y2(t)=x2(t)-x1(t-T)
=s(t-dcosθ/v)+n2(t)-s(t-d/v)-n1(t-d/v)(8)
其中,因为在进行阵列实现时,期望声源一般被放置在阵列的沿线方向,即θ约为0,因此(8)可以简化为:
y2(t)≈n2(t)-n1(t-d/v) (9)
y2(t)中只包含了噪声项,y1(t)通道既包含了经空间波束加强后的语音又包含了部分残留噪声,因此y2(t)为噪声子通道,y1(t)为混合子通道,所述噪声子通道和混合子通道中的信号输出均为加强后的信号输出。
对(7)、(9)进行傅立叶变换,可得,
Y1(t,k)=S(t,k){1-exp[-jkd(1+cosθ)/c]}+N1(t,k)-N2(t,k)exp(-jkd/c)
(10)
Y2(t,k)=N2(t,k)-N1(t,k)exp(-jkd/c) (11),
其中,S(t,k)、Y1(t,k)、Y2(t,k)、N1(t,k)和N2(t,k)分别对应时域信号s(t)、y1(t)、y2(t)、n1(t)和n2(t)的STFT(短时傅里叶变换),
对(10)、(11)输出的信号进行进行加权失真降噪,获得模拟信号。
所述加权失真降噪方法为:
S1:定义信噪比为:
其中T计算方法如下:
S2:输出语音模拟信号:
对|S|2进行开方,获得
S(t,k),即输出语音模拟信号,所述加权失真降噪方法利用y2(t)噪声子通道的参考噪声来抵消y1(t)混合子通道的残留噪声,实现减噪,避免了常规自适应滤波的方法中性能会受到滤波器是否收敛以及收敛速度快慢等因素的影响的问题以及收敛过程中的噪声泄漏问题。
所述识别匹配模块包括预处理单元、特征提取单元、参数自适应单元、识别分类单元和样本匹配单元,所述预处理单元、特征提取单元、参数自适应单元、参数转换单元和样本匹配单元依次连接。
所述预处理单元对加强减噪模块发送的模拟信号进行采样量化、预加重和分帧加窗,对模拟信号进行采样量化时依据带宽和采样率对输入的模拟信号进行采样,使之转换为数字信号,再通过预加重数字滤波器进行加重处理,处理后的数字信号包含大量的个性特性,以利于特征提取,由于语音信号典型的非平稳特性,需要加窗分帧处理,通过交替分段方法和汉明窗进行分帧加窗,体现信号的短时平稳特征。
所述特征提取单元通过LPC参数提取、MFCC参数提取、LPMFCC参数提取和TEOCC参数提取四种方法对所述预处理单元处理的数字信号进行参数提取,由于MFCC考虑了人耳的听觉特性,将频谱转化为基于Mel频标的非线性频谱,然后转换到倒谱域上,由于充分考虑了人的听觉特性,而且没有任何提前假设,MFCC参数具有良好的识别性能和抗噪能力,LPC在所有频率上都是线性逼近语音的,这与人耳的听觉特性不一致,并且它对噪声的影响特别敏感,包含了语音高频部分的大部分噪声细;LPMFCC参数主要集中在低频部分,Mel滤波器组在低频区域的分布比较集中,所以借鉴MFCC,将实际频率的LPC系数转化为Mel频率的LPC系数,得到线性预测梅尔参数,这样使声道特征和人耳听觉特征结合了起来,应用于说话人识别系统会有更好的识别效果;TEOCC参数提取提出的一种非线性差分算子,不仅具有非线性能量跟踪信号特性,能够合理地呈现信号能量的变换,而且能够消除信号的零均值噪声影响,增强语音信号,同时进行信号特征提取。由于特征参数对识别的贡献程度不一样,有些参数可能包含大量的冗余信息甚至是干扰信息,如果将它们同等对待,最终会影响识别效果,所以必须对各维参数进行特征选择,选出那些可分离性最优且能有效地表征语音信号的特征分量,从而达到降维的目的并得到最优的识别性能。因此分别提取10维MFCC参数、10维LPMFCC参数、4维LPC参数和1维TEOCC参数,对这25组特征参数进行方差比计算,所述方差比计算方法如下:
其中,
mk表示语音特征第k维分量在所有类上的均值;mk (i)表示语音特征第k维分量第i类的均值;wi表示第i类的语音特征序列;c、ni分别表示语音特征序列的类别数和各类的样本数;ck (i)表示第i类语音特征的第k维分量,σbetween为特征分量的类间方差,即不同语音特征分量均值的方差,其代表的是不同语音样本之间的差异程度,σwithin为特征分量的类内方差,其代表的是同一语音特征分量的方差的均值,即同一语音样本之间的密集程度。
由于方差比在这个参数的类别区分度越大越好,因此将方差比从大到小排列,并以5:2:5的比例从MFCC、LPC和LPMFCC三种特征参数中分别选择其中方差比最大的12个维数分量,将其与TEOCC参数组合成13维的组合特征参数,
所述参数自适应单元通过EigenVoice模型进行对所述特征提取单元提取的组合特征参数进行参数自适应,将不等长的语音序列转换为定长的优化特征参数(xj,yj)。
所述参数转换单元将参数自适应单元转换的优化特征参数(xj,yj)进行参数转换,输出转换后的优化特征参数K(xj·yj),所述参数转换计算方法如下:
K(xj·yj)=a[(xj·yj)+1]q+(1-a)exp(||xj-yj||2/2β2),其中β>0,表示比例系数,β是径向基核函数的宽度系数,q是幂指数,q和β均为可调节参数,(xj·yj)为线性内积核函数运算。K(xj·yj)为输出的最后信号,通过本发明中所述的参数转换方法,将数据库中存储样本E(xj·yj)与其进行精确查找对比,识别率高达90%。
所述样本匹配单元将优化特征参数K(xj·yj)与数据库中的存储的样本优化特征参数E(xj·yj)进行比较,输出相同的样本优化特征参数E(xj·yj)。
所述校正输出模块连接样本匹配单元,并将样本匹配单元中的样本优化特征参数E(xj·yj)通过语音库中的数据转换,输出为语音输出,让口语学习者完成校正过程,快速改正自己口语中的不足。
以上所述的实施例,只是本发明较优选的具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。
Claims (10)
1.一种口语识别校正系统,其特征在于,所述系统对接收到的口语语音信号进行多通道加强降噪,再将加强降噪后的模拟信号进行组合特征参数提取,通过自适应转换和参数转换将其转换为优化特征参数,最后将优化特征参数和与标准库中的口语数据进行匹配,完成口语校正输出。
2.根据权利要求1所述系统,其特征在于,所述系统包括语音输入模块、加强减噪模块、识别匹配模块和校正输出模块,所述语音输入模块、加强减噪模块、识别匹配模块和校正输出模块依次连接,其中;
语音输入模块,所述语音输入模块包括多个麦克风,所述多个麦克风用于接收需要校正的口语语音信息;
加强减噪模块,所述加强减噪模块用于将语音输入模块接收的口语语音信息进行多通道加强处理和减噪处理;
识别匹配模块,所述识别匹配模块用于将加强减噪模块输出的模拟信号进行预处理,再对预处理过的信号进行LPC、MFCC、LPMFCC和TEOCC四种特征参数提取,并对提取的特征参数进行方差比计算,按照方差比从大到小排列,接着将以方差比从大到小排列的特征参数按比例进行提取,获得组合特征参数,然后对组合特征参数进行参数自适应和识别分类,最后对识别分类后的数据进行样本匹配,获取最后输出的参数信息;
校正输出模块,所述校正输出模块用于将所述识别匹配模块输出的参数信息转换为语音进行校正输出。
3.根据权利要求2所述的系统,其特征在于,所述加强减噪模块中包括多个语音通道,每个所述语音通道中包括加强单元和减噪单元,所述加强单元一端连接多个麦克风的输入信号,另一端连接减噪单元,其中,
加强单元,所述加强单元通过对所述多个语音通道的语音信号依次进行排列实现和阵列实现,获得加强后的噪声子通道和混合子通道;
减噪单元,所述减噪单元通过对噪声子通道和混合子通道的信号进行加权失真,获得减噪后的模拟信号。
4.根据权利要求3所述的系统,其特征在于,所述排列实现和阵列实现的方法具体为:
令fi(i=1、2、3....m)为相邻两个麦克风的声音到达时间差,s(t)为期望语音信号;xm(t)为各麦克风接收到的含噪语音,nm(t)为各麦克风接收到的噪声信号;
f1=(d1cosθ)/v,其中v为声速,d1为第1个麦克风和第2个麦克风之间的距离,θ为声源与第2个麦克风的连线和第1个麦克风与第2个麦克风连线所成夹角;
fm-1=(dm-1cosθ)/v,其中v为声速,dm-1为第m-1个麦克风和第m个麦克风之间的距离,θ为声源与第m个麦克风的连线和第m-1个麦克风与第m个麦克风连线所成夹角;
阵列实现输出信号:
y1(t)=x1(t)-x2(t-T)
=s(t)+n1(t)-s[s-d(1+cosθ)/v]-n2(t-d/v) (7)
y2(t)=x2(t)-x1(t-T)
=s(t-dcosθ/v)+n2(t)-s(t-d/v)-n1(t-d/v) (8)
其中(8)式中期望声源被放置在阵列沿线,因此简化为:
y2(t)≈n2(t)-n1(t-d/v) (9)。
5.根据权利要求4所述的系统,其特征在于,所述加权失真方法具体为:
S1:定义信噪比为:
其中,T计算方法为:
S2:输出语音模拟信号:
对|S|2进行开方,获得S(t,k);
其中,S(t,k)、Y1(t,k)、Y2(t,k)分别对应时域信号s(t)、y1(t)、y2(t)的STFT。
6.根据权利要求2所述的系统,其特征在于,所述识别匹配模块包括预处理单元、特征提取单元、参数自适应单元、识别分类单元和样本匹配单元,所述预处理单元、特征提取单元、参数自适应单元、参数转换单元和样本匹配单元依次连接。
7.根据权利要求6所述的系统,其特征在于,所述预处理单元对加强减噪模块发送的模拟信号进行采样量化、预加重和分帧加窗,对模拟信号进行采样量化时依据带宽和采样率对输入的模拟信号进行采样,使之转换为数字信号,再通过预加重数字滤波器进行加重处理,最后通过交替分段方法和汉明窗进行分帧加窗。
8.根据权利要求7所述的系统,其特征在于,所述特征提取单元以10:10:4:1的比例对分帧加窗的数字信号进行MFCC、LPMFCC、LPC和TEOCC特征参数提取,分别进行方差比计算,按照方差比从大到小对提取的特征参数进行排列,再以5:5:2:1的比例从MFCC、LPMFCC、LPC和TEOCC四种特征参数中共计提取13个特征参数,即为组合特征参数,所述方差比计算方法如下:
其中,
mk为语音特征第k维分量在所有类上的均值;mk (i)为语音特征第k维分量第i类的均值;wi为第i类的语音特征序列;c、ni分别为语音特征序列的类别数和各类的样本数;ck (i)为第i类语音特征的第k维分量,σbetween为特征分量的类间方差,σwithin为特征分量的类内方差。
9.根据权利要求6所述的系统,其特征在于,所述参数自适应单元通过EigenVoice模型将不等长的语音序列转换为定长的优化特征参数(xj,yj),所述参数转换单元将所述优化特征参数(xj,yj)进行参数转换,输出转换后的优化特征参数K(xj·yj),所述参数转换计算方法如下:
K(xj·yj)=a[(xj·yj)+1]q+(1-a)exp(||xj-yj||2/2β2)
其中a>0,表示比例系数,β是径向基核函数的宽度系数,q是幂指数,q和β均为可调节参数,(xj·yj)为线性内积核函数运算。
10.根据权利要求9所述的系统,其特征在于,所述样本匹配单元中设有口语转化标准库,所述样本匹配单元将参数转换单元转换的优化特征参数K(xj·yj)与口语转化标准库中存储的样本优化特征参数E(xj·yj)进行比较,输出相同的样本优化特征参数E(xj·yj)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610474319.7A CN106128477B (zh) | 2016-06-23 | 2016-06-23 | 一种口语识别校正系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610474319.7A CN106128477B (zh) | 2016-06-23 | 2016-06-23 | 一种口语识别校正系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106128477A true CN106128477A (zh) | 2016-11-16 |
CN106128477B CN106128477B (zh) | 2017-07-04 |
Family
ID=57266141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610474319.7A Active CN106128477B (zh) | 2016-06-23 | 2016-06-23 | 一种口语识别校正系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106128477B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107481732A (zh) * | 2017-08-31 | 2017-12-15 | 广东小天才科技有限公司 | 一种口语测评中的降噪方法、装置及终端设备 |
CN107871498A (zh) * | 2017-10-10 | 2018-04-03 | 昆明理工大学 | 一种基于Fisher准则以提高语音识别率的混合特征组合算法 |
CN108447495A (zh) * | 2018-03-28 | 2018-08-24 | 天津大学 | 一种基于综合特征集的深度学习语音增强方法 |
CN109255448A (zh) * | 2018-09-25 | 2019-01-22 | 陈颖 | 一种快捷报修服务的方法和平台 |
CN109671433A (zh) * | 2019-01-10 | 2019-04-23 | 腾讯科技(深圳)有限公司 | 一种关键词的检测方法以及相关装置 |
CN110164414A (zh) * | 2018-11-30 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置及智能设备 |
CN110349453A (zh) * | 2019-06-26 | 2019-10-18 | 广东粤图之星科技有限公司 | 一种基于电子资源库的英语学习系统及方法 |
CN116631410A (zh) * | 2023-07-25 | 2023-08-22 | 北京安吉贝玛健康科技有限公司 | 一种基于深度学习的语音识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1312543A (zh) * | 2000-02-28 | 2001-09-12 | 索尼公司 | 语音识别装置、识别方法以及记录介质 |
US20090222258A1 (en) * | 2008-02-29 | 2009-09-03 | Takashi Fukuda | Voice activity detection system, method, and program product |
JP2009237254A (ja) * | 2008-03-27 | 2009-10-15 | Namco Bandai Games Inc | プログラム、情報記憶媒体、及び特定音認識システム |
CN102436809A (zh) * | 2011-10-21 | 2012-05-02 | 东南大学 | 英语口语机考系统中网络语音识别方法 |
CN105408952A (zh) * | 2013-02-21 | 2016-03-16 | 谷歌技术控股有限责任公司 | 识别带口音的语音 |
-
2016
- 2016-06-23 CN CN201610474319.7A patent/CN106128477B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1312543A (zh) * | 2000-02-28 | 2001-09-12 | 索尼公司 | 语音识别装置、识别方法以及记录介质 |
US20090222258A1 (en) * | 2008-02-29 | 2009-09-03 | Takashi Fukuda | Voice activity detection system, method, and program product |
JP2009237254A (ja) * | 2008-03-27 | 2009-10-15 | Namco Bandai Games Inc | プログラム、情報記憶媒体、及び特定音認識システム |
CN102436809A (zh) * | 2011-10-21 | 2012-05-02 | 东南大学 | 英语口语机考系统中网络语音识别方法 |
CN105408952A (zh) * | 2013-02-21 | 2016-03-16 | 谷歌技术控股有限责任公司 | 识别带口音的语音 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107481732A (zh) * | 2017-08-31 | 2017-12-15 | 广东小天才科技有限公司 | 一种口语测评中的降噪方法、装置及终端设备 |
CN107481732B (zh) * | 2017-08-31 | 2020-10-02 | 广东小天才科技有限公司 | 一种口语测评中的降噪方法、装置及终端设备 |
CN107871498A (zh) * | 2017-10-10 | 2018-04-03 | 昆明理工大学 | 一种基于Fisher准则以提高语音识别率的混合特征组合算法 |
CN108447495B (zh) * | 2018-03-28 | 2020-06-09 | 天津大学 | 一种基于综合特征集的深度学习语音增强方法 |
CN108447495A (zh) * | 2018-03-28 | 2018-08-24 | 天津大学 | 一种基于综合特征集的深度学习语音增强方法 |
CN109255448A (zh) * | 2018-09-25 | 2019-01-22 | 陈颖 | 一种快捷报修服务的方法和平台 |
CN110164414A (zh) * | 2018-11-30 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置及智能设备 |
WO2020143652A1 (zh) * | 2019-01-10 | 2020-07-16 | 腾讯科技(深圳)有限公司 | 一种关键词的检测方法以及相关装置 |
CN109671433A (zh) * | 2019-01-10 | 2019-04-23 | 腾讯科技(深圳)有限公司 | 一种关键词的检测方法以及相关装置 |
CN109671433B (zh) * | 2019-01-10 | 2023-06-16 | 腾讯科技(深圳)有限公司 | 一种关键词的检测方法以及相关装置 |
US11749262B2 (en) | 2019-01-10 | 2023-09-05 | Tencent Technology (Shenzhen) Company Limited | Keyword detection method and related apparatus |
CN110349453A (zh) * | 2019-06-26 | 2019-10-18 | 广东粤图之星科技有限公司 | 一种基于电子资源库的英语学习系统及方法 |
CN116631410A (zh) * | 2023-07-25 | 2023-08-22 | 北京安吉贝玛健康科技有限公司 | 一种基于深度学习的语音识别方法 |
CN116631410B (zh) * | 2023-07-25 | 2023-10-24 | 陈志丰 | 一种基于深度学习的语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106128477B (zh) | 2017-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106128477B (zh) | 一种口语识别校正系统 | |
US8392190B2 (en) | Systems and methods for assessment of non-native spontaneous speech | |
US9262941B2 (en) | Systems and methods for assessment of non-native speech using vowel space characteristics | |
Darabkh et al. | An efficient speech recognition system for arm‐disabled students based on isolated words | |
CN103559892A (zh) | 口语评测方法及系统 | |
CN103559894A (zh) | 口语评测方法及系统 | |
CN103594087A (zh) | 提高口语评测性能的方法及系统 | |
Dong | Application of artificial intelligence software based on semantic web technology in english learning and teaching | |
CN109658918A (zh) | 一种智能英语口语复述题评分方法和系统 | |
CN102723077A (zh) | 汉语教学语音合成方法及装置 | |
Liu et al. | AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning | |
CN103514764A (zh) | 语言教学评估系统 | |
CN109119064A (zh) | 一种适用于翻转课堂的英语口语教学系统的实现方法 | |
Loukina et al. | Use of automated scoring in spoken language assessments for test takers with speech impairments | |
Wang et al. | LAIX Corpus of Chinese Learner English: Towards a Benchmark for L2 English ASR. | |
Loukina et al. | Scoring and filtering models for automated speech scoring | |
Nelson | Student pronunciation: A comparison of evaluation techniques | |
Jing et al. | The speech evaluation method of English phoneme mobile learning system | |
Kintamani et al. | THE USE OF ORAL PEER FEEDBACK TO MINIMIZE THE STUDENTS’ERRORS IN PRONOUNCING ENGLISH CONSONANT SOUNDS/p/,/f/and/v/IN READING ALOUD | |
Bao et al. | [Retracted] An Auxiliary Teaching System for Spoken English Based on Speech Recognition Technology | |
Jambi et al. | An Empirical Performance Analysis of the Speak Correct Computerized Interface | |
Black et al. | Automatic pronunciation verification of English letter-names for early literacy assessment of preliterate children | |
Sun | Research on Intelligent Oral English Teaching Training System Based on Computer Multimedia Technology | |
Harmsen et al. | Measuring Word Correctness in Young Initial Readers: Comparing Assessments from Teachers, Phoneticians, and ASR Models | |
Rouhe et al. | A pipeline for automatic assessment of foreign language pronunciation. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |