CN102324229B

CN102324229B - 语音输入设备使用异常的检测方法及系统

Info

Publication number: CN102324229B
Application number: CN2011102654730A
Authority: CN
Inventors: 徐波; 黄申; 王士进; 李宏言; 陈振标; 柯登峰; 高鹏; 李鹏
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2011-09-08
Filing date: 2011-09-08
Publication date: 2012-11-28
Anticipated expiration: 2031-09-08
Also published as: CN102324229A

Abstract

本发明公开了一种语音输入设备使用异常的检测方法及系统。本发明采用对远讲语音信号表征更全面、更趋近于人感知的特征提取方式，从而可以粗略的判断背景语音，正常语音和远讲语音。在音频信号分类的基础上，采用现代信号处理技术和统计机器学习理论相结合的方法，克服了传统方法对前端语音输入的诸多限制问题，使得信号级质量评分更趋近于人的评分。本发明解决了在大规模口语测试中，由于人为设备使用错误而导致的前端输入语音质量差异问题。

Description

语音输入设备使用异常的检测方法及系统

技术领域

本发明涉及电子信息行业语音信号处理技术领域，尤其涉及一种语音输入设备使用异常的检测方法及系统。

背景技术

语音作为信息传递的重要载体，与其相关构成的通信、编码、存储和处理等系统已经成为现代社会信息交流的必要手段，且已广泛应用于社会各个领域。尤其是在计算机自动口语考试中，对于前端输入语音质量好坏与否的判断成为后端学习者口语水平估计的关键。而前端输入语音质量通常和口语学习者的水平是无关的。这就需要在系统设计时，尽可能地使其保持相同的标准和质量，以便学习者能够公平、公正地进行考试。为达到这个目的，一方面要选用专用的统一制式考试用耳麦，并对耳麦故障进行自动排查、预警提出一系列行之有效的规则和措施；另一方面则需要通过自动检测的方法，确定测试者由于使用不当等主观原因而导致的前端语音输入异常情况，由系统自动给出错误预警。本发明更关注由于主观人为使用原因导致的异常情况，通常称之为“使用设备异常”。与之对应的则为硬件故障原因导致的异常情况，通常称之为“纯设备异常”，该部分异常的检测与处理不在本文所述之列。

多项口语自动评分的研究表明：即使评分算法性能再为优异、对噪声再为鲁棒，如果通过麦克风得到的前端语音输入信号质量不好，对自动评分系统的结果就会带来很大的偏颇。而在如今的技术条件下，由于麦克风质量缺陷导致的前端语音信号质量缺陷，其概率往往是比较低的。经过大规模观察可以发现，多数前端语音信号质量缺陷的原因是由于使用者人为原因造成的。主要包括以下几种类型：

1)远讲：导致该现象的原因，一方面为使用者唇部距离麦克风过远，另一方面为麦克风位置放置错误，包括远离话者、戴偏或者戴反；

2)信噪比过低：口语自动测试时，由于教室房间的物理材质、形状，麦克风之间距离违反要求等原因导致周围发声者的语音湮没了目标语音，造成输入信噪比过低；

而现有的语音增强算法通常不能满足以上需求。语音增强的过程势必会在去除噪声的情况下对主体语音有所影响。这也就更加彰显了计算机自动检测使用设备异常情况的重要性。通过自动检测这些错误，更换耳麦或安排、指导测试者正确使用设备，重新进行考试，是目前在计算机口语评测中比较合理的方案。但是其召回率和检测精度仍是亟待解决的问题。

在听感上，使用设备异常语音和语音质量评估是休戚相关的。语音质量评估是以人为主体来评价语音质量的，异常语音必然会对语音质量在听感上有所影响。该方式虽较为繁杂，但由于人是语音最终的接受者，因此，这种评价应是语音质量的真实反映。目前，国内外使用较多的主观评价方法有：平均意见分MOS、音韵字可懂度测量DRT和满意度测量DAM等。其中，MOS评分法是一种广为使用的主观评价方法，它以平均意见分来衡量语音质量，用五个等级来表示语音的质量等级：优(5分)、良(4分)、一般(3分)、差(2分)、坏(1分)。显然，主观评价的优点是符合人对语音质量的感觉，缺点是费时费力费钱，且灵活性不够、重复性和稳定性较差，受人的主观影响较大等。为了克服主观评价的缺点，人们不得不寻求一种能够以方便、快捷的方式给出语音质量评估的客观评估方法，即用机器来自动判别语音的质量。不过，值得注意的是，研究语音质量客观评价的目的不是要用客观评价来完全替代主观评价，而是使客观评价成为一种既方便快捷又能够准确预测出主观评价值的手段，并将该手段应用在异常语音检测上。

尽管客观评价具有省时省力等优点，但它还不能够反映机器对使用设备异常语音的接受能力。有两个瓶颈制约着评估模块的发挥：首先，语音质量评估对于使用设备异常语音(尤其是远讲语音)和背景声语音的区分度不够(MOS值均较低)，故系统应具有对使用设备异常语音、背景声语音以及正常语音有较强的区分能力。而在信号特征的表现上，使用设备异常语音通常是与正常语音、背景声语音有明显区别的，所以加入特征提取和分类器的音频分类模块，在语音质量评估模块的前端进行粗筛，可以有效提高系统精度；其次，传统的介入式语音质量评估需要依赖纯净情况下的参考语音，如何针对使用设备异常语音的特点进行非介入式的语音质量评估，也是本发明所关注的问题。

发明内容

(一)要解决的技术问题

为解决上述的一个或多个问题，本发明提供了一种语音输入设备使用异常的检测方法及系统，以提前发现远讲、背景干扰过强等使用过程中麦克风设备的异常问题。

(二)技术方案

本发明公开了一种语音输入设备使用异常的检测方法。该方法包括：步骤A，利用语音输入设备收集语音测试数据；步骤B，对每条语音测试数据对应的语音测试信号进行前端预处理，得到预处理后的增强语音测试信号；步骤C，对预处理后的增强语音测试信号进行远讲信号特征提取，远讲信号特征包括以下特征中的一种或多种：线性预测系数LPC残差特征；频谱低、高阶矩统计量特征；能量高阶统计量特征；时域远讲特征；步骤D，将从增强语音测试信号提取的远讲信号特征输入音频分类模型，对语音测试数据进行远讲模式分类，远讲模式包括：背景语音、疑似正常语音和疑似远讲语音。

优选地，本发明语音输入设备使用异常的检测方法中，步骤A之前还包括：步骤A′，利用语音输入单元收集语音训练数据，对每条语音训练数据，进行所属为正常语音、背景声语音、或远讲语音的类别标注；步骤B′，对每条语音训练数据对应的语音训练信号进行前端预处理，得到预处理后的增强语音训练信号；步骤C′，对预处理后的增强语音训练信号进行远讲信号特征提取；步骤D′，结合语音训练数据的类别标注及其对应的增强语音训练信号的远讲信号特征，离线训练用于检测使用设备异常的音频分类模型。

优选地，本发明语音输入设备使用异常的检测方法中，步骤D之后还包括：步骤E，对于远讲模式分类结果中，判别类别为背景声语音，以及类别为正常语音且置信度大于一定阀值的语音，将音频分类结果直接作为最终的判别结果；或步骤F，对于判别类别为远讲语音、以及类别为正常且置信度小于一定阀值的语音进行MOS值打分；打分大于等于一定阀值的语音作为正常语音，小于一定阀值的语音作为使用设备异常语音。

优选地，本发明语音输入设备使用异常的检测方法中，步骤F中，对于判别类别为远讲语音、以及类别为正常且置信度小于一定阀值的语音进行MOS值打分包括：步骤F1：将经过预处理后的该部分语音通过Hilbert变换，得到语音信号的时域包络，并进行分帧；步骤F2：对每帧的时域语音信号通过加速的频域变换，映射到对应的频域中去；步骤F3：基于频谱平方商的积分，得到频域归一化的调制谱能量；步骤F4：通过对调制谱能量进行对数变化，得到对数尺度下各帧的质量指标；步骤F5，对其在语音的全部时间帧上进行范数加权，以获得MOS值打分。

根据本发明的另一个方面，还提供了一种语音输入设备使用异常的检测系统。该系统包括：语音输入单元，用于收集语音测试数据；信号预处理单元，与语音输入单元相连接，用于对每条语音测试数据对应的语音测试信号进行前端预处理，得到预处理后的增强语音测试信号；特征提取单元，与信号预处理单元相连接，用于对预处理后的增强语音测试信号进行远讲信号特征提取，远讲信号特征包括以下特征中的一种或多种：LPC残差特征，频谱低、高阶矩统计量特征，能量高阶统计量特征，子带能量特征；设备异常粗测单元，与特征提取单元相连接，用于将从增强语音测试信号提取的远讲信号特征输入音频分类模型，对语音测试数据进行远讲模式分类，远讲模式包括：背景语音、疑似正常语音和疑似远讲语音。

(三)有益效果

本发明针对口语教学和口语自动化考试中的前端设备，提出一种语音输入设备使用异常的检测方法及系统，以解决在大规模口语测试中，由于人为设备使用错误而导致的前端输入语音质量差异问题，以保证测试的公平、公正性。

和传统方法不同，在本发明音频信号分类方法中，采用对远讲语音信号表征更全面、更趋近于人感知的特征提取方式，从而可以粗略的判断背景语音，正常语音和远讲语音。在音频信号分类的基础上，在语音质量评估方法中，采用现代信号处理技术和统计机器学习理论相结合的方法，克服了传统方法对前端语音输入的诸多限制问题，使得信号级质量评分更趋近于人的评分。

附图说明

图1为本发明实施例语音输入设备使用异常的检测系统的整体工作流程框图；

图2为本发明实施例语音输入设备使用异常的检测系统的信号预处理模块的工作流程框图；

图3为本发明实施例语音输入设备使用异常的检测系统的特征提取模块、模型训练单元和设备异常粗测单元的工作流程图；

图4为本发明实施例语音输入设备使用异常的检测系统的设备异常细测单元的工作流程图；

图5为本发明实施例语音输入设备使用异常的检测系统的运行界面。

具体实施方式

下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

本发明的方法主要包括两个部分：音频分类方法和语音质量评估方法。其中，音频分类方法可以单独实施，而语音质量评估方法必须在音频分类方法实施的基础上执行。在使用本发明前，需要对硬件条件加以限制，以保证本发明能够顺利的实施：

1、麦克风设备必须在硬件和语音输出上保持正常状态，没有由于麦克风硬件故障而导致的设备杂音、饱和噪声、设备静音、马达声等现象。后者属于纯硬件设备异常，和本发明由于人为使用而导致的使用设备异常有着本质的区别；

2、麦克风最好为相同制式的，并且在做工工艺上个体差异要控制在较小的范围内。且易于使用，佩戴方便，适合口语测试的需求；

3、在测试者正常使用设备时，音质达到一定要求，通常可以用ITU-Tp.862(PESQ)进行衡量。另外，设备输入端需具有良好的指向性和抗干扰性，采样频率在8K以上，14K以下，所采集语音没有明显由于硬件原因导致的频谱畸变。以下将在上述硬件限制的基础上，对本发明的执行步骤逐一进行说明。

一、单麦克风设备输入语音的前端预处理

尽管做了以上硬件上的限定。但是，对于麦克风设备录入的语音，由于输入制式不同，话者说话音量不同等因素，仍然会在信号级出现较大的差异。由于本发明方法建立在信号级，故在检测前，需要对麦克风输入语音进行标准的统一。下面将对这些步骤分别进行阐述。

1、重采样：通过麦克风录入的语音通常存在采样率的差异，所以需要对采样率进行重新调整。通常情况下，针对考试测试语音，采样率在16K就可以了。根据Nyquist采样定理，该采样率可以描述0-8K频段的声音，满足以语音为主的口语考试和自动评估系统的前端特征频带提取范围。

假设录入采样频率为P，标准采样频率为Q，首先需要将P和Q除以两者的最大公约数以得到有理倍率p和q。转采样时首先对进行升q采样，设原始信号f(n)的频谱信号为F(w)，则升采样后信号u(n)带来的频域信号U(w)对应为F(qw)。如下式所示：

U (w) = \underset{n}{Σ} u (n) \exp (- jwn) = \underset{n}{Σ} f (n) \exp (- jwqn) = F (qw)

在频域上，升采样带来了频谱的挤压。故这种时域上的插值操作势必会带来频谱上的“复制”现象，即在频域π/q-π处混淆进入低频信号泄漏的部分，所以需要对结果进行低通滤波，设计滤波器和滤波后的信号表示为：

H (w) = \{\begin{matrix} 1, & | w | < = \frac{π}{q} \\ 0, & else \end{matrix}

U(w)＝F(qw)H(w)

而在降p采样时，降采样后信号d(n)带来的频域信号D(w)对应的频谱信号可表示为：

D (w) = \frac{1}{p} \underset{l}{Σ} X (\frac{w - 2 πl}{p})

上式中，l代表在无线整数域上的周期序号。在频域上，降采样带来了频谱的膨胀。这种现象带来的问题是：如果输入信号频谱大于π/p，那么在时域抽取信号时频谱会失真，即以2π为间隔发生前后两个周期的混淆，所以在抽取前需要进行“反混淆”滤波，设计的滤波器H(w)和滤波后的信号D(w)可表示为：

H (w) = \{\begin{matrix} 1, & | w | < = \frac{π}{p} \\ 0, & else \end{matrix}

D (w) = \frac{1}{p} F (\frac{w}{p}), | w | < π

在本发明的实际转采样过程中，升和降的低通滤波可以合成一步，以降低计算复杂度，如图2所示。该低通滤波器的截止频率可以表示为：

\min {\frac{π}{p}, \frac{π}{q}}

2、单麦克风信号幅值归一化和滤波：

为了避免零漂，首先将时域语音信号进行减均值操作，并以VAD段(含有内容的有效语音段)语音为基准，将幅值归一化到-26dB，以保证输入语音的音量一致。最后，对归一化后语音进行中间参照系滤波(Intermediate Reference System，简称IRS滤波)，该滤波通过对频域能量的非线性变化，可以有效反映口语测试情况下麦克风输入设备的使用特性。

通过上述处理，得到预处理后的语音增强测试信号。此处的“增强”是指当语音信号被各种噪声干扰，甚至淹没后，进行抑制降低噪声干扰，从噪声背景中提取有用的语音信号。

二、基于音频分类的远讲信号特征提取

本发明实施中的基于远讲信号特征的音频分类方法。选取特征力求能够反映测试者由于距离麦克风远近所导致的语音信号级差异，提取的四大类特征为：LPC(线性预测系数)残差特征，频谱低、高阶矩统计量特征，能量高阶统计量特征，子带能量特征。

特征提取前，首先对步骤一中预处理后的语音信号进行分窗并分帧，其中窗口为2秒，1秒窗移，窗内帧长为30毫秒，20毫秒帧移。f_i，m代表第i窗第m帧语音，将其通过基于子带能量的VAD检测模块，得到结果V_i，m，代表第i窗第m帧语音是否为VAD。之后对V_i，m为1的帧所对应语音f_i，m进行加Hanning窗操作，并通过RFFT算法变换到频域，C_i，m(k)代表f_i，m在频域上第k个子带的功率谱。之后，通过计算，可以得到以下四大类特征：

1、LPC残差特征

首先，对f_i，m通过信号处理中常用的Levenson-Durbin算法进行p阶LPC分析，得到s_p(n)，代表通过LPC分析获取第k阶LPC系数a_k后载入ARMA模型得到的预测信号。A(z)代表上述LPC分析得到模型的逆滤波模型。将语音信号通过上述逆滤波模型得到LPC残差信号e_i，m(n)。

1.1 LPC残差峰值率：

经研究发现，通常上述LPC残差信号e_i，m(n)对于麦克风远近的表征是具有显著性的，一个最重要的特点即话者距离麦克风越远，其e_i，m(n)的直方图分布越平缓，相反则越陡峭。为了描述这种陡峭性，本发明提出一种衡量LPC峰值率的特性。

首先，在VAD判断结果中，令V_i，m为1的帧所对应的编号集合为Ω；

其次，对集合Ω中对应各帧，计算p阶LPC残差信号e_i，m(n)的均方能量(RMS)，计算方法为：

上式中，N代表帧中的语音采样点数。

另外一个需要计算的统计量为帧幅值基线ρ_i，m(n)，在该基线下，90％的观测样本点都能够被覆盖到。得到了ρ_i，m(n)和r_i，m(n)后，计算第i窗的窗平均能量和窗平均幅值基线：

P_{F_{i}} = Σ_{m = 1}^{M} ρ_{i, m},

R_{F_{i}} = Σ_{m = 1}^{M} r_{i, m} .

上式中，M代表语音窗内帧数。这样，第i窗的残差峰值率可以由两者的比值得到：

{LPC}_{peak} (F_{i}) = \frac{P_{F_{i}}}{R_{F_{i}}} .

1.2 LPC残差峭度：

得到1.1中的LPC残差之后，可以通过更高阶的统计量反映麦克风在距离不同远近所导致LPC残差的分布平缓陡峭状况。在统计上比较常用的衡量方法为数据的四阶统计量(峭度)。第i窗第m阶语音信号LPC残差峭度的计算方法如下：

k_{i, m} = \frac{N Σ_{n = 1}^{N} {(e_{i, m} (n) - {\overset{&OverBar;}{e}}_{i, m})}^{4}}{{(Σ_{n = 1}^{N} {(e_{i, m} (n) - {\overset{&OverBar;}{e}}_{i, m})}^{2})}^{2}} .

上式中，

代表帧语音LPC频谱残差的平均幅值。通过上述方法得到帧LPC残差峭度后，第i窗的LPC残差峭度可以通过窗内各帧该统计量进行平均得到：

{LPC}_{Kurt} (F_{i}) = \frac{1}{M} Σ_{m = 1}^{M} k_{i, m} .

2、频谱低、高阶矩统计量特征

2.1 频谱倾斜度：

通过对大量使用设备异常数据的观察，申请人发现：随着麦克风距离的增大，或者由于使用不当而造成的背景声干扰和混杂，使得频谱呈现两种现象：首先，信噪比降低，背景语音(其他的考试者等等)比率随之增大，主要分布在较高的频带，且主体语音部分频带分布也有向高频处靠拢的趋势；其次，功率谱幅值较低的频带增多，幅值直方图更趋向于向较低处倾斜，并呈现向高幅值抛射的长尾型。而麦克风距离较近时，由于主体明显，幅值分布则更密集在较高处，呈现向低能量幅值抛射的长尾型。对这种统计特性比较合理的描述统计量为倾斜度，即数据的三阶矩。

首先，计算第i窗第m帧频域信号的倾斜度，将频谱中各谱带的能量幅值C_i，m(k)通过三阶矩计算得到如下的统计量：

g_{i, m} = \frac{\sqrt{N} Σ_{k = 1}^{K} {(C_{i, m} (k) - {\overset{&OverBar;}{C}}_{i, m})}^{3}}{{(Σ_{k = 1}^{K} {(C_{i, m} (k) - {\overset{&OverBar;}{C}}_{i, m})}^{2})}^{\frac{3}{2}}} .

上式中，K代表频带个数，k代表频带编号，C_i，m(k)代表第i窗第m帧在第k个谱带的能量，

代表在帧语音处频谱能量的均值。通过上述计算，第i窗的频谱倾斜度可以通过该窗内各帧语音的该统计量进行平均得到：

{SP}_{Skew} (F_{i}) = \frac{1}{M} Σ_{m = 1}^{M} g_{i, m} .

2.2 子频带对应谱带能量的低阶矩特性：

当使用设备异常情况发生时，子频带的另一个特性是：不论在低频还是高频带，各个子带之间能量的差异变小。而在较高的频带上，子带能量均值变大，在较低的频带上，子带能量均值变小。基于上述三点，这里，申请人计算子带平均谱带能量的均值和方差以对该特性进行更为合理的描述，如下式所示：

{Mean}_{i, m} = \frac{Σ_{k = 1}^{K} C_{i, m} (k)}{K},

{Var}_{i, m} = \sqrt{\frac{Σ_{k = 1}^{K} {(C_{i, m} (k) - {\overset{&OverBar;}{C}}_{i, m})}^{2}}{K - 1}}

利用上述方法得到全频带、50-500Hz、500-2000Hz、2000-4000Hz四组带宽下子带能量的一、二阶矩统计特征，每一帧共得到8维特征。之后将窗内将各帧特征进行平均得到Mean_i，和Var_i。

2.3 子频带谱带能量统计特征的时序高阶矩特征：

从频谱的时序统计意义来看，在话者近讲时，由于主体明显，所以从频谱的时序特性来看，变化是比较大的，在分布上，也偏向与双峰，即静音和VAD两个极端。而当话者远讲或背景干扰较大时，由于主体被淹没，所以频谱的时序变化较小，分布更加平缓，所以求出窗内各镇Mean_i，后，在语音的所有窗间求取Mean_i的二阶(方差)、三阶(倾斜度)、四阶矩(峭度)统计特征。

3、能量的高阶矩统计量特征

尽管本发明在前段采用了幅值归一化技术，但是由于话者距离麦克风远近的不同，通常会导致语音在能量上会有变化。当距离麦克风过远时，语音信号在Onset处比Offset处更加锐利。所以，在语音的能量分布上，远讲语音和近讲语音的能量分布在倾斜度这种高阶统计量上是区分显著的。所以，能量的高阶统计量特征可以和频谱的高阶统计量特征采用相同的计算方法获取，表示为：

d_{i, m} = \frac{\sqrt{N} Σ_{n = 1}^{N} {(f_{i, m} (n) - {\overset{&OverBar;}{f}}_{i, m})}^{3}}{{(Σ_{n = 1}^{N} {(f_{i, m} (n) - {\overset{&OverBar;}{f}}_{i, m})}^{2})}^{\frac{3}{2}}},

上式中i，m，n，f等参量均和之前保持相同，而第i窗的能量倾斜度可以通过该窗内各帧语音该统计量进行平均得到，如下式所示：

{Ener}_{Skew} (F_{i}) = \frac{1}{M} Σ_{m = 1}^{M} d_{i, m} .

4、时域远讲特征

4.1 VAD帧数量和语音能量过小帧数

统计所有语音段中VAD检测结果中V_i，m＝1语音帧的数量。该指标在使用者由于使用不当所导致的异常中，常常由于信号输入能量不足而在数值上偏小。另外，统计语音VAD结果为1的帧中，能量过小的帧数占所有VAD结果为1帧数的比例。该指标在远讲时同样偏小。

4.2 过零率和能量前后差分累计比例

该时域特性主要反映语音时序信号前后的统计量差异，正常语音和使用设备异常语音除了可以通过上述用来表示能量信息的VAD统计量特征。但是在背景噪声干扰过大、佩戴设备异常造成信号畸变的情况下，使用能量的效果就不是很好，还需要借助过零率等差分信息进行描述。定义在帧和窗分别的级别下，该统计量的计算方法如下：

{ZCR}_{i, m} = \frac{1}{2} Σ_{n = 1}^{N} | sgn [f_{i, m} (n)] - sgn [f_{i, m} (n - 1)] |

{ZCR}_{i} = Σ_{m = 1}^{M} {ZCR}_{i, m} .

过零率可以反映时域信号在时间上的变化。

4.3 信噪比

在使用设备出现异常时，较为显著的表现就是信噪比过低。该特征计算可以采用近似估计的方法。通过VAD后，取非VAD段(V_i，m＝0)语音作为背景语音B_i，m，此时窗信噪比可计算为：

{SNR}_{i} = 20 \cdot \log \frac{Σ_{m = 1}^{M} F_{i, m} - B_{i, m}}{Σ_{m = 1}^{M} B_{i, m}} .

三、音频分类模型的训练

本发明的实施例，在模型训练方面，通过对特征提取模块得到的远讲信号特征和人工标注相同语音段的类别，建立对应的分类器模型，具体步骤如下：

1、标注各个语音训练数据的类别：针对使用设备异常语音的特点，可以标注为三类：正常语音、使用设备异常语音、纯背景音。标注时，以感知上最主要的类别作为整个语音的类别。譬如某些语音也属于正常语音，但是只有零碎的有效语音，则将其算作纯背景音。

2、特征提取：这里需要注意的是，在能量的高阶矩统计量特征和时域远讲特征上，提取主要分为两部分：第一部分为语音的全频带段，在其上进行所有特征的提取，得到以窗为单位的远讲信号特征。之后，在VAD段、全语音段进行平均，得到描述该语音的远讲信号特征；第二部分则在语音的高频带处，先使用FIR滤波器将语音进行200-2000Hz频段的时域带通滤波，得到滤波后信号。之后采用和全频带段相同的方法，在滤波后信号上获得能量的高阶矩统计量和时域远讲这两大类特征。

3、训练分类模型：通过对特征提取模块所提取的基于远讲信号的各项特征和专家判断类别建立映射关系，通过分类器建立远讲音频分类模型。通常情况下，分类器可以是混合高斯模型(GMM)、神经网络模型(Neural Network)、支持向量机模型(SVM)。在实际过程中后者由于引入了Mercer核和基于VC维的风险控制理论，在一般问题上的分类正确率更高，且泛化性能更好。

通过特征为输入，训练得到基于远讲信号的音频分类模型后，对于测试语音，可以采用同样的特征提取方法。通过该训练得到的模型，获得对应的音频类别。在决策过程中，当音频类别为1(背景语音时)，将音频分类模块结果作为最终判别结果，而当类别为0(疑似正常语音)时，如果分类器置信度大于一定阈值，则将该结果作为最终判别结果，反之，连同类别为2(疑似远讲语音)的语音，一起送入下一步将要介绍的非介入式语音质量评估步骤。

四.非介入式语音质量评估步骤

上述步骤主要基于在使用设备异常发生时，对于语音时域和频域信号的影响和分类模型，模型的建立也是基于使用设备异常中发生最多的种类，即远讲情况考虑的。同时兼顾了背景噪声干扰过大等因素，得到了初步区分使用设备异常信号的分类器模型。而本步骤则从另一个角度描述使用设备异常：当异常发生时，不论是远讲，还是使用不当而造成的背景干扰过大，都会极大地影响人对语音质量的听感。所以本步骤主要基于语音的主观MOS值。该值基于主观评测，把人接听和感知语音质量的行为被调研和量化，接听到何种级别质量的语音，就得到多少平均主观值MOS。一般情况下MOS值是4或更高被认为是比较好的语音质量，而若平均主观值MOS低于2，则认为可能出现了使用设备异常。平均主观测试虽然准确有效，但是最大问题就是实现起来非常麻烦和昂贵，因此人们在不断地探索能进行客观测量的方法。通常情况下计算MOS值所采用的方法是PESQ法，该方法依据参考语音和测试语音之间的某种形式的距离特征来进行预测，缺点是需要相同情况下纯净的参考源，对于基于麦克风的口语考试显然在客观条件上是无法达到的。所以，本发明采用非介入式音频质量评估的方法，不依赖于纯净参考源进行使用设备异常情况下的自动听感评估。

传统的非介入式音频质量评估多依赖于语音的信噪比。然而，信噪比和使用设备异常并没有直接关系，在未出现异常时，信噪比也往往会比较低。因此，寻找一种有效的使用设备异常语音感知质量测量方法是十分必要的。通常的ITU-T P.563算法，旨在电话语音中，无参考源情况下对语音质量进行评价。该算法虽然能够提供较为准确的音频质量评估得分，但是对测试语音有着诸多限制：不仅需要满足VAD最小长度为3秒，最大信号长度为20秒的要求，还要满足最小语音VAD率为25％，最大语音VAD率为75％的要求。这种要求显然是不适合以口语测试被背景的要求的。此外，由于ITU-T P.563在评估语音质量时，需要计算51个表征参数(如LLR，WSS，LPC Curtness，Skewness等等)，各个步骤非常复杂，在考试语音超过一定的时长后，计算时间上变得不可接受。且该步骤的最终结果为通过线性回归映射到MOS打分上(1-5)得到，当其中某些特征出现奇异时，其结果往往会变得无法控制。

本发明的实施例，通过远讲信号预处理后的有限带宽语音信号f_n，通常可以用它的时域包络和载波信号来表示：

f_n＝e_ncosφ_n，

其中：

在上式中，是信号f_n的Hilbert变换，e_n为时域包络，而φ_n为瞬时相位。通常情况下，时域包络中移除了语音的载波结构，而只描述其包络幅度的波动情况。它能够清晰地反映声门激励产生的调制成分信息以及在更低频率上由人的声道产生的调制成分信息。在使用设备异常所导致的远讲或者背景噪声过大的情况下，该包络通常微弱或缺失。在心理生理学中，时域调制变换函数(TMTF)是一个被广泛接受的概念，它用来刻画人类对不同距离所产生激励信号时域包络的敏感性。因而，采用该表述结构可以更好得刻画使用设备异常与语音感知的关系。

如附图4所示，通过对预处理后的语音信号f_n进行Hilbert变换后，利用上述式子计算得到语音的包络e_n，再将其按照同样的帧长128毫秒，帧移20毫秒进行分帧。对各帧包络信号加hanning窗，得到对应第m帧的时域包络信号e_m，n。之后，进行RFFT(实序列傅里叶)变换，得到第m帧频域包络分帧信号c_m，k，k代表谱带序号。这里，之所以和音频分类步骤不同，采用更长的窗，其目的是为了获得更合适的频域分辨率。

c_m，k＝|Γ{e_m，n}|

人类对于特定调制频率区域内的谱成分信息比其他频率更易受到影响。基于上述情况，这里将这种与失真有关的频率区域设定在30Hz-50Hz范围内。之所以选择这一范围的原因如下：首先，由于人类发声系统机械运动的速度在2Hz-30Hz范围内；其次，人的调制检测呈现出截止频率约为50Hz的低通特性。如果用F_D表示上述与失真有关的调制频率区域，那么测试语音第m帧的感知失真测度λ_m可以定义为：

d_{m} = \underset{F_{D}}{&Integral;} \frac{c_{m, k}^{2}}{c_{m, 0}^{2}} df

λ_m＝-log[1+d_m]

其中d_m是频域归一化的调制谱能量。接下来，借助语音质量能够由负的失真程度来估计的想法，得到对数尺度下的各帧的质量指标λ_m。之后，需要对其在语音的全部时间帧上进行累加，以获得与主观MOS评分相对应的客观评估结果。在算法中，语音质量评估结果是通过对调制能量谱中具有较高直流分量，且超过一定门限的帧使用L₃范数得到的，其值Q的计算公式如下：

Q = {[\frac{1}{T_{s}} \underset{P_{m} > P_{TH}}{Σ} λ_{m}^{3}]}^{\frac{1}{3}}

其中，P_m＝logc_m，0，是调制能量谱的直流分量，P_TH是用于确定能够听到的帧的门限，该值根据经验进行设定，而T_s则代表满足该门限的帧个数。经过上式处理后，就可以得到估计出的语音客观质量Q。

之后，对于本非介入式语音质量评估步骤的判别结果，将MOS值大于等于2的语音，视为测试正常语音。反之，则视为使用设备异常语音。

以上对本发明语音输入设备使用异常的检测方法进行了详细说明。根据本发明的另一个方面，还提供了一种语音输入设备使用异常的检测系统。该系统包括：语音输入单元，用于在测试阶段，收集语音测试数据；信号预处理单元，与语音输入单元相连接，用于对每条语音测试数据对应的语音测试信号进行前端预处理，得到预处理后的增强语音测试信号；特征提取单元，与信号预处理单元相连接，用于对预处理后的增强语音测试信号进行远讲信号特征提取，远讲信号特征包括以下特征中的一种或多种：LPC残差特征，频谱低、高阶矩统计量特征，能量高阶统计量特征，子带能量特征；设备异常粗测单元，与特征提取单元相连接，用于将从增强语音测试信号提取的远讲信号特征输入使用设备异常的音频分类模型，对语音测试数据进行远讲模式分类，远讲模式包括：背景语音、疑似正常语音和疑似远讲语音。

此外，在模型训练阶段，本发明语音输入设备使用异常的检测系统还包括模型训练单元。其中，语音输入单元，还用于在训练阶段收集语音训练数据，每条语音训练数据，进行所属为正常语音、背景声语音、或远讲语音的类别标注；信号预处理单元，还用于对每条语音训练数据对应的语音训练信号进行前端预处理，得到预处理后的增强语音训练信号；特征提取单元，还用于对预处理后的增强语音训练信号进行远讲信号特征提取；模型训练单元，与特征提取模块相连接，用于结合语音训练数据的类别标注及其对应的增强语音训练信号的远讲信号特征，离线训练使用设备异常的音频分类模型。

优选地，本发明语音输入设备使用异常的检测系统还包括：设备异常细测单元，与设备异常粗测单元相连接，用于对于判别类别为远讲语音、以及类别为正常且置信度小于一定阀值的语音，送入语音质量评估模块进行MOS值打分；打分大于等于一定阀值的语音作为正常语音，小于一定阀值的语音作为使用设备异常语音。

其中，设备异常细测单元包括：Hilbert变换分帧子单元，与设备异常粗测单元相连接，用于将经过预处理后的该部分语音通过Hilbert变换，得到语音信号的时域包络，并进行分帧；频域变换映射子单元，与Hilbert变换分帧子单元相连接，用于对每帧的时域语音信号通过加速的频域变换，映射到对应的频域中去；调制谱能量子单元，与频域变换映射子单元相连接，用于基于频谱平方商的积分，得到频域归一化的调制谱能量；质量指标子单元，与调制谱能量子单元相连接，用于通过对调制谱能量进行对数变化，得到对数尺度下各帧的质量指标；MOS值打分子单元，与质量指标子单元相连接，用于对在语音的全部时间帧上进行范数加权，以获得MOS值打分。

本实施例各设备的运行原理可参照方法实施例的相关说明，此处不再重述。为了更好的理解本系统，以下从具体场景下使用者的角度对本系统进行说明。在运行时，佩戴上耳麦之后，所有测试者首先会看到正确佩戴麦克风设备方法的示意图，如图5所示，并在耳麦中听到对应的语音提示。之后，测试者根据示意图调整耳麦设备的位置和自己的佩戴姿势。准备就绪后，测试者会朗读一段10秒的句子，并在波形滚动条中实时看到所朗读的波形。朗读结束后，系统对测试者是否在录制过程中出现了使用设备异常进行检测，给出检测结果。当结果正常时，测试者也会在耳麦中听到刚才所说语句的复述。在整个过程中，测试者可以通过滚动条改变耳麦的音量，但是麦克风输入设备的音量是无法改变的，这一特性也满足同一制式的需求。

在考试结束后，测试系统会再次调用本发明系统进行实际考试语音的使用设备异常检测。需要说明的是，本发明的特征由于已经做了时间归一化的操作，可以适用于各类型考试时长的口语测试。

对于本发明语音输入设备使用异常的检测系统，从系统内部来讲，实现整体流程如图1所示，椭圆形方框对应实施方式中的1-4步骤；图2是对步骤1，即单麦克风设备输入语音的信号预处理模块的工作流程具体阐述；图3是对步骤2、3中特征提取模块、模型训练单元和设备异常粗测单元工作流程的具体阐述；图4是对设备异常细测单元工作流程的具体阐述；图5是对本发明实施例语音输入设备使用异常的检测系统运行界面的具体阐述。具体来讲，该检测系统的工作流程包括：

1、如图2所示，首先对单麦克风设备输入语音进行前端预处理，其具体实施步骤如下：

1.1 在口语测试前，保证麦克风输入设备须满足上述硬件设备的三个要求，在硬件上达到口语测试的必要指标；

1.2 通过麦克风设备录制口语测试语音。录制时可以通过具体实施方式5中所述的口语设备测试平台和界面完成；

1.3 对录制得到的测试口语语音进行采样率估计，将其和目标采样率进行计算获得有利采样率比。按照该比值，通过升采样、低通滤波、降采样的步骤，将输入语音转采样到16k-16bit制式；

1.4 将转采样后的语音信号通过时域幅值归一化，使得语音的幅值和零漂处于同一基线。幅值归一化所采用的各项对齐指标基线只在语音的VAD段中获取；

1.5 将幅值归一化后的语音进行IRS滤波；

2、如图3所示，训练基于远讲语音信号特征进行音频分类的各项模型，该步骤是离线进行的，属于具体实施解决方案的准备阶段，其具体步骤如下：

2.1 收集、人工标注训练语音信号的类别，类别可采用疑似正常语音(0)、背景语音(1)、疑似远讲语音(2)三类。同时准备好采用前端预处理后的海量语音信号作为训练集；

2.2 基于远讲信号特征提取模块，通过对训练集各语音进行特征提取，得到LPC残差特征，频谱低、高阶矩统计量特征，能量的高阶矩统计量特征，时域远讲信号特征等四大类特征集，如图3中虚线方框所示。实施过程中，提取的各项特征需要进行规一化，如可以采用均值方差归一化等方法；

2.3 对以上四大类特征，通过特征选择等方法，得到局部最优的音频分类模型特征集。之后采用libsvm、lnknet等工具，训练音频分类器映射模型(如SVM、BP、GMM)，该模型具有将测试样本进行分类，使其映射到最似然的使用设备异常音频类别的功能；

3、如图3所示，对于实际测试中产生的语音，通过上述训练得到的音频分类器模型，得到具体的使用设备异常音频类别。

3.1 将实际测试语音通过和训练部分相同的预处理模块，得到前端预处理后的语音信号；之后通过相同的基于远讲信号特征提取模块，得到四大类特征集，并进行特征选择得到用于音频分类的特征集；

3.2 将该特征集通过上述训练得到的音频分类器模型，得到具体的使用设备异常音频类别及其置信度；

3.3 如果音频类别为背景语音，或者为疑似正常语音，且置信度大于0.9，则将该结果作为对该语音的最终类别属性判别；否则，将其通过下述步骤，进行基于使用设备异常的语音质量评估模块；

4、如图4所示，对上述步骤3中所述音频分类结果中未做最终故障属性判别的语音，进行输出，得到结果为MOS值的语音质量评估模块。

4.1 将经过预处理后的该部分语音f_n，通过实施例中的Hilbert变换，得到语音信号的时域包络e_n。对e_n进行分帧，得到分帧后信号e_m，n；

4.2 对每帧的包络信号进行加窗、FFT变换，映射到频域中去，得到c_m，n。变换时可根据实序列频域信号共轭对称的特点，采用节省一半运行时间的RFFT变换，并加入SSE指令集加速，将运行时间提升到标准FFT变换的1/4左右；

4.3 通过对实施例中所述的频谱平方商的积分，得到频域归一化的调制谱能量d_m；

4.4 借助语音质量能够由负的失真程度来估计的想法，通过对d_m进行对数变化，得到对数尺度下各帧的质量指标λ_m。之后，需要对其在语音的全部时间帧上进行范数加权，以获得与主观MOS评分相对应的客观评估结果；

4.5 对于机器自动预测的MOS值，将该得分小于2.0所对应的语音视为使用设备异常语音，该部分语音即为本发明所最终关注的异常部分。此时，对应图5的系统界面会自动弹出错误，要求测试者佩戴好耳麦，采用正常的使用方式进行测试。如果引擎报出错误次数大于3次，则系统界面会提示更换耳麦等方式，以排除由于纯硬件设备故障造成的情况。

本发明的方法和系统作为专家系统模拟人工听感，对出现使用设备异常的麦克风输入语音进行感知，适用于各类耳麦和环境。并给出具体的预警和建议措施，可以有效应用于计算机自动化口语测试及其他单麦克风录音任务中，给出的诊断结果和处理方法如下表所示：

表一本发明语音输入设备使用异常检测系统的诊断结果

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音输入设备使用异常的检测方法，其特征在于，包括：

步骤A，利用语音输入设备收集语音测试数据；

步骤B，对每条语音测试数据对应的语音测试信号进行前端预处理，得到预处理后的增强语音测试信号；

步骤C，对所述增强语音测试信号进行远讲信号特征提取，所述远讲信号特征包括以下特征中的一种或多种：线性预测系数LPC残差特征；频谱低、高阶矩统计量特征；能量高阶统计量特征；时域远讲特征，其中，所述时域远讲特征包括：VAD帧数量、语音能量过小的帧数、过零率和能量前后差分累计比例、信噪比；

步骤D，将从所述增强语音测试信号提取的远讲信号特征输入音频分类模型，对所述语音测试数据进行远讲模式分类，并依据该远讲模式分类结果实现语音输入设备使用异常的检测；所述远讲模式包括：背景语音、疑似正常语音和疑似远讲语音。

2.根据权利要求1所述的语音输入设备使用异常的检测方法，其特征在于，所述步骤A之前还包括：

步骤A′，利用语音输入单元收集语音训练数据，对每条语音训练数据进行所属为正常语音、背景声语音、或远讲语音的类别标注；

步骤B′，对每条语音训练数据对应的语音训练信号进行前端预处理，得到预处理后的增强语音训练信号；

步骤C′，对预处理后的所述增强语音训练信号进行远讲信号特征提取；

步骤D′，结合所述语音训练数据的类别标注及其对应的增强语音训练信号的远讲信号特征，离线训练用于检测使用设备异常的音频分类模型。

3.根据权利要求1所述的语音输入设备使用异常的检测方法，其特征在于，所述步骤D之后还包括：

步骤E，对于远讲模式分类结果中，判别类别为背景声语音，以及类别为疑似正常语音且置信度大于一定阀值的语音，将音频分类结果直接作为最终的判别结果；或

步骤F，对于判别类别为疑似远讲语音、以及类别为疑似正常语音且置信度小于一定阀值的语音进行MOS值打分；打分大于等于一定阀值的语音作为正常语音，小于一定阀值的语音作为使用设备异常语音。

4.根据权利要求3所述的语音输入设备使用异常的检测方法，其特征在于，所述步骤F中，对于判别类别为疑似远讲语音、以及类别为疑似正常语音且置信度小于一定阀值的语音进行MOS值打分包括：

步骤F1：将经过预处理后的该部分语音通过Hilbert变换，得到语音信号的时域包络，并进行分帧；

步骤F2：对每帧的时域语音信号通过加速的频域变换，映射到对应的频域中去；

步骤F3：基于频谱平方商的积分，得到频域归一化的调制谱能量；

步骤F4：通过对调制谱能量进行对数变化，得到对数尺度下各帧的质量指标；

步骤F5，对其在语音的全部时间帧上进行范数加权，以获得MOS值打分。

5.根据权利要求2所述的语音输入设备使用异常的检测方法，其特征在于，所述步骤B′和步骤B中，对语音信号进行前端预处理，得到预处理后的增强语音信号包括：

将时域语音信号进行减均值操作；

以有效语音段VAD语音为基准，将进行减均值操作后的语音信号幅值进行归一化；

对归一化后的语音信号幅值进行中间参照系IRS滤波。

6.根据权利要求5所述的语音输入设备使用异常的检测方法，其特征在于，所述将时域语音信号进行减均值操作的步骤之前还包括：

将所述语音输入设备采集的语音信号的采样频率调整至预设的标准采样频率。

7.根据权利要求6所述的语音输入设备使用异常的检测方法，其特征在于，所述步骤C′和步骤C中，所述LPC残差特征包括LPC残差峰值率、LPC残差峭度，其中，所述LPC残差峭度为语音数据的三阶或四阶统计量峭度。

8.根据权利要求2所述的语音输入设备使用异常的检测方法，其特征在于，所述步骤C′和步骤C中，所述低、高阶矩统计量特征包括：频谱倾斜度、子频带对应谱带能量的低阶矩特性、子频带谱带能量统计特征的时序高阶矩特征。

9.根据权利要求2所述的语音输入设备使用异常的检测方法，其特征在于，所述步骤C′和步骤C中，所述能量的高阶矩统计量特征表示话者由于距离麦克风远近的不同而导致的语音信号在能量上的变化。

10.根据权利要求2所述的语音输入设备使用异常的检测方法，其特征在于，所述步骤D′中，所述音频分类模型为混合高斯模型、神经网络模型、支持向量机模型。

11.一种语音输入设备使用异常的检测系统，其特征在于，包括：

语音输入单元，用于收集语音测试数据；

信号预处理单元，与所述语音输入单元相连接，用于对所述每条语音测试数据对应的语音测试信号进行前端预处理，得到预处理后的增强语音测试信号；

特征提取单元，与所述信号预处理单元相连接，用于对预处理后的所述增强语音测试信号进行远讲信号特征提取，所述远讲信号特征包括以下特征中的一种或多种：LPC残差特征，频谱低、高阶矩统计量特征，能量高阶统计量特征，子带能量特征；

设备异常粗测单元，与所述特征提取单元相连接，用于将从所述增强语音测试信号提取的远讲信号特征输入音频分类模型，对所述语音测试数据进行远讲模式分类，所述远讲模式包括：背景语音、疑似正常语音和疑似远讲语音。

12.根据权利要求11所述的语音输入设备使用异常的检测系统，其特征在于：

所述语音输入单元，还用于在训练阶段收集语音训练数据，每条语音训练数据，进行所属为正常语音、背景声语音、或远讲语音的类别标注；信号预处理单元，还用于对所述每条语音训练数据对应的语音训练信号进行前端预处理，得到预处理后的增强语音训练信号；特征提取单元，还用于对预处理后的所述增强语音训练信号进行所述远讲信号特征提取；

所述检测系统还包括：模型训练单元，与所述特征提取模块相连接，用于结合所述语音训练数据的类别标注及其对应的增强语音训练信号的远讲信号特征，离线训练用于检测使用设备异常的音频分类模型。

13.根据权利要求11所述的语音输入设备使用异常的检测系统，其特征在于，还包括：

设备异常细测单元，与所述设备异常粗测单元相连接，用于对于判别类别为疑似远讲语音、以及类别为疑似正常语音且置信度小于一定阀值的语音，进行MOS值打分；打分大于等于一定阀值的语音作为正常语音，小于一定阀值的语音作为使用设备异常语音。

14.根据权利要求13所述的语音输入设备使用异常的检测系统，其特征在于，所述设备异常细测单元包括：

Hilbert变换分帧子单元，与所述设备异常粗测单元相连接，用于将经过预处理后的该部分语音通过Hilbert变换，得到语音信号的时域包络，并进行分帧；

频域变换映射子单元，与所述Hilbert变换分帧子单元相连接，用于对每帧的时域语音信号通过加速的频域变换，映射到对应的频域中去；

调制谱能量子单元，与所述频域变换映射子单元相连接，用于基于频谱平方商的积分，得到频域归一化的调制谱能量；

质量指标子单元，与所述调制谱能量子单元相连接，用于通过对调制谱能量进行对数变化，得到对数尺度下各帧的质量指标；

MOS值打分子单元，与所述质量指标子单元相连接，用于对在语音的全部时间帧上进行范数加权，以获得MOS值打分。