CN106128477A

CN106128477A - 一种口语识别校正系统

Info

Publication number: CN106128477A
Application number: CN201610474319.7A
Authority: CN
Inventors: 黄义娟; 田园; 张蕾
Original assignee: Nanyang Institute of Technology
Current assignee: Nanyang Institute of Technology
Priority date: 2016-06-23
Filing date: 2016-06-23
Publication date: 2016-11-16
Anticipated expiration: 2036-06-23
Also published as: CN106128477B

Abstract

本发明提供一种口语识别校正系统，所述系统对接收到的口语语音信号进行多通道增强降噪，再将增强降噪后的模拟信号进行组合特征参数的提取，通过自适应转换和参数转换将其转换为优化特征参数，最后将优化特征参数和与标准库中规范的口语数据进行匹配，完成口语校正输出，本发明通过对学生口语的输入信息进行一系列的信号变换，使得可能口音不准的学生，同样能够通过本系统中的转换和匹配功能，跟随系统进行口语学习和校正。

Description

一种口语识别校正系统

技术领域

本发明属于语音信号处理技术领域，具体涉及一种口语识别校正系统。

背景技术

作为人际交流的重要媒介，口语语言在实际生活中占有极其重要的地位。随着社会经济的不断发展和全球化趋势的加剧，人们对语言学习的效率以及语言评估的客观性、公正性和规模化测试提出了越来越高的要求。传统的人工口语水平评测方法使教师和学生在教学时间和空间上受到很大限制，在师资力量、教学场地、经费支出等方面也存在诸多硬件上的差距和不平衡；人工评测无法避免评估者自身的个体偏差，从而不能保证评分标准的统一，有时甚至无法准确反映被测者的真实水平；而对于大规模口语测试，则需要大量的人力、物力和财力支持，限制了经常性、规模性的评估测试。为此，业界相继开发出了一些语言教学和评测系统。

在现有技术中，口语评测系统通常采用的识别器往往识别能力交叉，对接收到的语音信号进行语音识别会存在错误识别，而在口语教学中，最为关键的即是识别过程和匹配过程的准确性，系统从各语音片断中分别提取描述各基本语音单元发音标准度或流畅度等衡量口语评测标准的特征，最后基于所述特征通过匹配输出正确语音内容。在安静的环境下使用高保真的录音设备时，语音识别系统由于能提供较高的识别准确率因而后续口语评测也能提供较为客观准确的结果。然而在实际应用中特别是对于大规模口语考试或其他公共场合进行口语训练学习，录音环境不可避免会受到考场噪声、环境噪声等因素的影响，语音识别准确率下降导致口语评测过程中会出现一定比例的异常评分语音。显然这种现象使得大规模口语考试中计算机自动评分很难真正实用，限制了口语学习。

发明内容

为了解决上述问题，本发明提供一种口语识别校正系统，所述系统对接收到的口语语音信号进行多通道加强降噪，再将加强降噪后的模拟信号进行组合特征参数提取，通过自适应转换和参数转换将其转换为优化特征参数，最后将优化特征参数和与标准库中的口语数据进行匹配，完成口语校正输出；

进一步地，所述系统包括语音输入模块、加强减噪模块、识别匹配模块和校正输出模块，所述语音输入模块、加强减噪模块、识别匹配模块和校正输出模块依次连接，其中；

语音输入模块，所述语音输入模块包括多个麦克风，所述多个麦克风用于接收需要校正的口语语音信息；

加强减噪模块，所述加强减噪模块用于将语音输入模块接收的口语语音信息进行多通道加强处理和减噪处理；

识别匹配模块，所述识别匹配模块用于将加强减噪模块输出的模拟信号进行预处理，再对预处理过的信号进行LPC、MFCC、LPMFCC和TEOCC四种特征参数提取，并对提取的特征参数进行方差比计算，按照方差比从大到小排列，接着将按方差比从大到小排列的特征参数按比例进行提取，获得组合特征参数，然后对组合特征参数进行参数自适应和识别分类，最后对识别分类后的数据进行样本匹配，获取最后输出的参数信息；

校正输出模块，所述校正输出模块用于将所述识别匹配模块输出的参数信息转换为语音进行校正输出；

进一步地，所述加强减噪模块中包括多个语音通道，每个所述语音通道中包括加强单元和减噪单元，所述加强单元一端连接多个麦克风的输入信号，另一端连接减噪单元，其中，

加强单元，所述加强单元通过对所述多个语音通道的语音信号依次进行排列实现和阵列实现，获得加强后的噪声子通道和混合子通道；

减噪单元，所述减噪单元通过对噪声子通道和混合子通道的信号进行加权失真，获得减噪后的模拟信号；

进一步地，令f_{i(i＝1、2、3....m)}为相邻两个麦克风的声音到达时间差，s(t)为期望语音信号；x_m(t)为各麦克风接收到的含噪语音，n_m(t)为各麦克风接收到的噪声信号；

f₁＝(d₁cosθ)/v,其中v为声速，d₁为第1个麦克风和第2个麦克风之间的距离,θ为声源与第2个麦克风的连线和第1个麦克风与第2个麦克风连线所成夹角；

f_m-1＝(d_m-1cosθ)/v，其中v为声速，d_m-1为第m-1个麦克风和第m个麦克风之间的距离,θ为声源与第m个麦克风的连线和第m-1个麦克风与第m个麦克风连线所成夹角；

阵列实现输出信号：

y₁(t)＝x₁(t)-x₂(t-T)

＝s(t)+n₁(t)-s[s-d(1+cosθ)/v]-n₂(t-d/v) (7)

y₂(t)＝x₂(t)-x₁(t-T)

＝s(t-dcosθ/v)+n₂(t)-s(t-d/v)-n₁(t-d/v) (8)

其中(8)式中期望声源一般被放置在阵列沿线，因此简化为：

y₂(t)≈n₂(t)-n₁(t-d/v) (9)；

进一步地，所述加权失真方法具体为：

S1：定义信噪比为：

a (t, k) = \frac{| Y_{1} |^{2} - T (t, k) | Y_{2} |^{2}}{T (t, k) | Y_{2} |^{2}}

其中，T计算方法为：

T (t, k) = \frac{| Y_{1} |^{2}}{| Y_{2} |^{2}}

S2：输出语音模拟信号：

对|S|²进行开方，获得S(t,k)；

其中，S(t,k)、Y₁(t,k)、Y₂(t,k)分别对应时域信号s(t)、y₁(t)、y₂(t)的STFT；

进一步地，所述识别匹配模块包括预处理单元、特征提取单元、参数自适应单元、识别分类单元和样本匹配单元，所述预处理单元、特征提取单元、参数自适应单元、参数转换单元和样本匹配单元依次连接；

进一步地，所述预处理单元对加强减噪模块发送的模拟信号进行采样量化、预加重和分帧加窗，对模拟信号进行采样量化时依据带宽和采样率对输入的模拟信号进行采样,使之转换为数字信号，再通过预加重数字滤波器进行加重处理,通过交替分段方法和汉明窗进行分帧加窗；

进一步地，所述特征提取单元以10：10：4：1的比例对分帧加窗的数字信号进行MFCC、LPMFCC、LPC和TEOCC特征参数提取，分别进行方差比计算，按照方差比从大到小对提取的特征参数进行排列，再以5：5：2：1的比例从MFCC、LPMFCC、LPC和TEOCC四种特征参数中共计提取13个特征参数，即为组合特征参数，所述方差比计算方法如下：

σ_{b e t w e e n} = Σ_{i = 1}^{c} {({m_{k}}^{(i)} - m_{k})}^{2}

σ_{w i t h i n} = Σ_{i = 1}^{c} [\frac{1}{n} \underset{C &Element; w i}{Σ} {({c_{k}}^{(i)} - {m_{k}}^{(i)})}^{2}

其中,m_k为语音特征第k维分量在所有类上的均值；m_k ⁽ⁱ⁾为语音特征第k维分量第i类的均值；w_i为第i类的语音特征序列；c、n_i分别为语音特征序列的类别数和各类的样本数；c_k ⁽ⁱ⁾为第i类语音特征的第k维分量,σ_between为特征分量的类间方差，σ_within为特征分量的类内方差；

进一步地，所述参数自适应单元通过EigenVoice模型将不等长的语音序列转换为定长的优化特征参数(x_j,y_j)，所述参数转换单元将所述优化特征参数(x_j,y_j)进行参数转换，输出转换后的优化特征参数K(x_j·y_j)，所述参数转换计算方法如下：

K(x_j·y_j)＝a[(x_j·y_j)+1]^q+(1-a)exp(||x_j-y_j||²/2β²)

其中a>0,表示比例系数,β是径向基核函数的宽度系数，q是幂指数，q和β均为可调节参数，(x_j·y_j)为线性内积核函数运算；

进一步地，所述样本匹配单元中设有口语转化标准库，所述样本匹配单元将参数转换单元转换的优化特征参数K(x_j·y_j)与口语转化标准库中存储的样本优化特征参数E(x_j·y_j)进行比较，输出相同的样本优化特征参数E(x_j·y_j)；

本发明通过对学生口语的输入信息进行一系列的信号变换，使得可能口音不准的学生，同样能够通过本系统中的转换和匹配功能，跟随系统进行口语学习和校正。

附图说明

图1为本发明系统结构图；

图2为本发明中对麦克风进行排列实现的方法图；

图3为本发明中对麦克风进行阵列实现的方法图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

下面结合附图和具体实施例对本发明作进一步说明，但不作为对本发明的限定。下面为本发明的举出最佳实施例：

如图1-图3所示，本发明提供一种口语识别校正系统及校正方法，所述系统包括语音输入模块、加强减噪模块、识别匹配模块和校正输出模块，所述加强减噪模块一端连接语音输入模块，另一端通过识别匹配模块连接校正输出模块。

所述语音输入模块由多个麦克风组成，所述多个麦克风接收学生口述的口语语音信息，该口语语音信息可以由一个人或多个人组成，人数不限。

所述加强减噪模块中包括多个语音通道，所述多个语音通道由所述语音输入模块的多个麦克风与其一一对应连接，将学生口述的语音信息转换为语音信号，每个所述语音通道中接收的信号为：

x₁(t)＝s(t)h₁(t)+n₁(t)；(1)

x₂(t)＝s(t)h₂(t)+n₂(t)；(2)

......

x_m(t)＝s(t)h_m(t)+n_m(t)(m＞2，m∈N⁺)；(3)

其中，s(t)为期望语音信号；h₁(t)为声源到达第1个麦克风的脉冲响应，h₂(t)声源到达第2个麦克风的脉冲响应，h_m(t)声源到达第m个麦克风的脉冲响应，x_m(t)为各麦克风接收到的含噪语音，n_m(t)为各麦克风接收到的噪声信号；

上述(1)、(2)、(3)式在不考虑声学反射的条件下，简化为：

x₁(t)＝s(t)+n₁(t)；(4)

x₂(t)＝s(t-f₁)+n₂(t)；(5)

x_m(t)＝s(t-f_m-1)+n_m(t)；(6)

将多个麦克风进行排列实现，如图2所示，其中，f_{i(i＝1、2、3....m)}为相邻两个麦克风的声音到达时间差；则

对(4)、(5)、(6)进行阵列实现，如图3所示，输出信号为：

y₁(t)＝x₁(t)-x₂(t-T)

＝s(t)+n₁(t)-s[s-d(1+cosθ)/v]-n₂(t-d/v)(7)

y₂(t)＝x₂(t)-x₁(t-T)

＝s(t-dcosθ/v)+n₂(t)-s(t-d/v)-n₁(t-d/v)(8)

其中，因为在进行阵列实现时，期望声源一般被放置在阵列的沿线方向，即θ约为0，因此(8)可以简化为：

y₂(t)≈n₂(t)-n₁(t-d/v) (9)

y₂(t)中只包含了噪声项,y₁(t)通道既包含了经空间波束加强后的语音又包含了部分残留噪声,因此y₂(t)为噪声子通道,y₁(t)为混合子通道，所述噪声子通道和混合子通道中的信号输出均为加强后的信号输出。

对(7)、(9)进行傅立叶变换，可得，

Y₁(t,k)＝S(t,k){1-exp[-jkd(1+cosθ)/c]}+N₁(t,k)-N₂(t,k)exp(-jkd/c)

(10)

Y₂(t,k)＝N₂(t,k)-N₁(t,k)exp(-jkd/c) (11)，

其中，S(t,k)、Y₁(t,k)、Y₂(t,k)、N₁(t,k)和N₂(t,k)分别对应时域信号s(t)、y₁(t)、y₂(t)、n₁(t)和n₂(t)的STFT(短时傅里叶变换)，

对(10)、(11)输出的信号进行进行加权失真降噪，获得模拟信号。

所述加权失真降噪方法为：

S1：定义信噪比为：

a (t, k) = \frac{| Y_{1} |^{2} - T (t, k) | Y_{2} |^{2}}{T (t, k) | Y_{2} |^{2}}

其中T计算方法如下：

T (t, k) = \frac{| Y_{1} |^{2}}{| Y_{2} |^{2}}

S2：输出语音模拟信号：

对|S|²进行开方，获得

S(t,k)，即输出语音模拟信号，所述加权失真降噪方法利用y₂(t)噪声子通道的参考噪声来抵消y₁(t)混合子通道的残留噪声，实现减噪，避免了常规自适应滤波的方法中性能会受到滤波器是否收敛以及收敛速度快慢等因素的影响的问题以及收敛过程中的噪声泄漏问题。

所述识别匹配模块包括预处理单元、特征提取单元、参数自适应单元、识别分类单元和样本匹配单元，所述预处理单元、特征提取单元、参数自适应单元、参数转换单元和样本匹配单元依次连接。

所述预处理单元对加强减噪模块发送的模拟信号进行采样量化、预加重和分帧加窗，对模拟信号进行采样量化时依据带宽和采样率对输入的模拟信号进行采样,使之转换为数字信号，再通过预加重数字滤波器进行加重处理,处理后的数字信号包含大量的个性特性,以利于特征提取，由于语音信号典型的非平稳特性,需要加窗分帧处理,通过交替分段方法和汉明窗进行分帧加窗,体现信号的短时平稳特征。

所述特征提取单元通过LPC参数提取、MFCC参数提取、LPMFCC参数提取和TEOCC参数提取四种方法对所述预处理单元处理的数字信号进行参数提取，由于MFCC考虑了人耳的听觉特性，将频谱转化为基于Mel频标的非线性频谱，然后转换到倒谱域上，由于充分考虑了人的听觉特性，而且没有任何提前假设，MFCC参数具有良好的识别性能和抗噪能力，LPC在所有频率上都是线性逼近语音的，这与人耳的听觉特性不一致，并且它对噪声的影响特别敏感，包含了语音高频部分的大部分噪声细；LPMFCC参数主要集中在低频部分，Mel滤波器组在低频区域的分布比较集中，所以借鉴MFCC，将实际频率的LPC系数转化为Mel频率的LPC系数，得到线性预测梅尔参数，这样使声道特征和人耳听觉特征结合了起来，应用于说话人识别系统会有更好的识别效果；TEOCC参数提取提出的一种非线性差分算子，不仅具有非线性能量跟踪信号特性，能够合理地呈现信号能量的变换，而且能够消除信号的零均值噪声影响，增强语音信号，同时进行信号特征提取。由于特征参数对识别的贡献程度不一样，有些参数可能包含大量的冗余信息甚至是干扰信息，如果将它们同等对待，最终会影响识别效果，所以必须对各维参数进行特征选择，选出那些可分离性最优且能有效地表征语音信号的特征分量，从而达到降维的目的并得到最优的识别性能。因此分别提取10维MFCC参数、10维LPMFCC参数、4维LPC参数和1维TEOCC参数，对这25组特征参数进行方差比计算，所述方差比计算方法如下：

σ_{b e t w e e n} = Σ_{i = 1}^{c} {({m_{k}}^{(i)} - m_{k})}^{2}

σ_{w i t h i n} = Σ_{i = 1}^{c} [\frac{1}{n} \underset{C &Element; w i}{Σ} {({c_{k}}^{(i)} - {m_{k}}^{(i)})}^{2}

其中,

m_k表示语音特征第k维分量在所有类上的均值；m_k ⁽ⁱ⁾表示语音特征第k维分量第i类的均值；w_i表示第i类的语音特征序列；c、n_i分别表示语音特征序列的类别数和各类的样本数；c_k ⁽ⁱ⁾表示第i类语音特征的第k维分量,σ_between为特征分量的类间方差,即不同语音特征分量均值的方差，其代表的是不同语音样本之间的差异程度，σ_within为特征分量的类内方差，其代表的是同一语音特征分量的方差的均值，即同一语音样本之间的密集程度。

由于方差比在这个参数的类别区分度越大越好，因此将方差比从大到小排列，并以5：2：5的比例从MFCC、LPC和LPMFCC三种特征参数中分别选择其中方差比最大的12个维数分量，将其与TEOCC参数组合成13维的组合特征参数，

所述参数自适应单元通过EigenVoice模型进行对所述特征提取单元提取的组合特征参数进行参数自适应，将不等长的语音序列转换为定长的优化特征参数(x_j,y_j)。

所述参数转换单元将参数自适应单元转换的优化特征参数(x_j,y_j)进行参数转换，输出转换后的优化特征参数K(x_j·y_j)，所述参数转换计算方法如下：

K(x_j·y_j)＝a[(x_j·y_j)+1]^q+(1-a)exp(||x_j-y_j||²/2β²)，其中β>0,表示比例系数，β是径向基核函数的宽度系数，q是幂指数，q和β均为可调节参数,(x_j·y_j)为线性内积核函数运算。K(x_j·y_j)为输出的最后信号,通过本发明中所述的参数转换方法，将数据库中存储样本E(x_j·y_j)与其进行精确查找对比，识别率高达90％。

所述样本匹配单元将优化特征参数K(x_j·y_j)与数据库中的存储的样本优化特征参数E(x_j·y_j)进行比较，输出相同的样本优化特征参数E(x_j·y_j)。

所述校正输出模块连接样本匹配单元，并将样本匹配单元中的样本优化特征参数E(x_j·y_j)通过语音库中的数据转换，输出为语音输出，让口语学习者完成校正过程，快速改正自己口语中的不足。

以上所述的实施例，只是本发明较优选的具体实施方式的一种，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种口语识别校正系统，其特征在于，所述系统对接收到的口语语音信号进行多通道加强降噪，再将加强降噪后的模拟信号进行组合特征参数提取，通过自适应转换和参数转换将其转换为优化特征参数，最后将优化特征参数和与标准库中的口语数据进行匹配，完成口语校正输出。

2.根据权利要求1所述系统，其特征在于，所述系统包括语音输入模块、加强减噪模块、识别匹配模块和校正输出模块，所述语音输入模块、加强减噪模块、识别匹配模块和校正输出模块依次连接，其中；

识别匹配模块，所述识别匹配模块用于将加强减噪模块输出的模拟信号进行预处理，再对预处理过的信号进行LPC、MFCC、LPMFCC和TEOCC四种特征参数提取，并对提取的特征参数进行方差比计算，按照方差比从大到小排列，接着将以方差比从大到小排列的特征参数按比例进行提取，获得组合特征参数，然后对组合特征参数进行参数自适应和识别分类，最后对识别分类后的数据进行样本匹配，获取最后输出的参数信息；

校正输出模块，所述校正输出模块用于将所述识别匹配模块输出的参数信息转换为语音进行校正输出。

3.根据权利要求2所述的系统，其特征在于，所述加强减噪模块中包括多个语音通道，每个所述语音通道中包括加强单元和减噪单元，所述加强单元一端连接多个麦克风的输入信号，另一端连接减噪单元，其中，

减噪单元，所述减噪单元通过对噪声子通道和混合子通道的信号进行加权失真，获得减噪后的模拟信号。

4.根据权利要求3所述的系统，其特征在于，所述排列实现和阵列实现的方法具体为：

令f_{i(i＝1、2、3....m)}为相邻两个麦克风的声音到达时间差，s(t)为期望语音信号；x_m(t)为各麦克风接收到的含噪语音，n_m(t)为各麦克风接收到的噪声信号；

阵列实现输出信号：

y₁(t)＝x₁(t)-x₂(t-T)

＝s(t)+n₁(t)-s[s-d(1+cosθ)/v]-n₂(t-d/v) (7)

y₂(t)＝x₂(t)-x₁(t-T)

＝s(t-dcosθ/v)+n₂(t)-s(t-d/v)-n₁(t-d/v) (8)

其中(8)式中期望声源被放置在阵列沿线，因此简化为：

y₂(t)≈n₂(t)-n₁(t-d/v) (9)。

5.根据权利要求4所述的系统，其特征在于，所述加权失真方法具体为：

S1：定义信噪比为：

a (t, k) = \frac{| Y_{1} |^{2} - T (t, k) | Y_{2} |^{2}}{T (t, k) | Y_{2} |^{2}}

其中，T计算方法为：

T (t, k) = \frac{| Y_{1} |^{2}}{| Y_{2} |^{2}}

S2：输出语音模拟信号：

对|S|²进行开方，获得S(t,k)；

其中，S(t,k)、Y₁(t,k)、Y₂(t,k)分别对应时域信号s(t)、y₁(t)、y₂(t)的STFT。

6.根据权利要求2所述的系统，其特征在于，所述识别匹配模块包括预处理单元、特征提取单元、参数自适应单元、识别分类单元和样本匹配单元，所述预处理单元、特征提取单元、参数自适应单元、参数转换单元和样本匹配单元依次连接。

7.根据权利要求6所述的系统，其特征在于，所述预处理单元对加强减噪模块发送的模拟信号进行采样量化、预加重和分帧加窗，对模拟信号进行采样量化时依据带宽和采样率对输入的模拟信号进行采样,使之转换为数字信号，再通过预加重数字滤波器进行加重处理,最后通过交替分段方法和汉明窗进行分帧加窗。

8.根据权利要求7所述的系统，其特征在于，所述特征提取单元以10：10：4：1的比例对分帧加窗的数字信号进行MFCC、LPMFCC、LPC和TEOCC特征参数提取，分别进行方差比计算，按照方差比从大到小对提取的特征参数进行排列，再以5：5：2：1的比例从MFCC、LPMFCC、LPC和TEOCC四种特征参数中共计提取13个特征参数，即为组合特征参数，所述方差比计算方法如下：

σ_{b e t w e e n} = Σ_{i = 1}^{c} {({m_{k}}^{(i)} - m_{k})}^{2}

σ_{w i t h i n} = Σ_{i = 1}^{c} [\frac{1}{n} \underset{C &Element; w i}{Σ} {({c_{k}}^{(i)} - {m_{k}}^{(i)})}^{2}

其中,

m_k为语音特征第k维分量在所有类上的均值；m_k ⁽ⁱ⁾为语音特征第k维分量第i类的均值；w_i为第i类的语音特征序列；c、n_i分别为语音特征序列的类别数和各类的样本数；c_k ⁽ⁱ⁾为第i类语音特征的第k维分量,σ_between为特征分量的类间方差，σ_within为特征分量的类内方差。

9.根据权利要求6所述的系统，其特征在于，所述参数自适应单元通过EigenVoice模型将不等长的语音序列转换为定长的优化特征参数(x_j,y_j)，所述参数转换单元将所述优化特征参数(x_j,y_j)进行参数转换，输出转换后的优化特征参数K(x_j·y_j)，所述参数转换计算方法如下：

K(x_j·y_j)＝a[(x_j·y_j)+1]^q+(1-a)exp(||x_j-y_j||²/2β²)

其中a＞0，表示比例系数，β是径向基核函数的宽度系数，q是幂指数，q和β均为可调节参数，(x_j·y_j)为线性内积核函数运算。

10.根据权利要求9所述的系统，其特征在于，所述样本匹配单元中设有口语转化标准库，所述样本匹配单元将参数转换单元转换的优化特征参数K(x_j·y_j)与口语转化标准库中存储的样本优化特征参数E(x_j·y_j)进行比较，输出相同的样本优化特征参数E(x_j·y_j)。