CN105632512B

CN105632512B - 一种基于统计模型的双传感器语音增强方法与装置

Info

Publication number: CN105632512B
Application number: CN201610025390.7A
Authority: CN
Inventors: 张军; 陈鑫源; 潘伟锵; 宁更新; 冯义志; 余华; 季飞; 陈芳炯
Original assignee: South China University of Technology SCUT
Current assignee: Shenzhen Voxtech Co Ltd
Priority date: 2016-01-14
Filing date: 2016-01-14
Publication date: 2019-04-09
Anticipated expiration: 2036-01-14
Also published as: CN110070883B; CN110070880B; CN110085250B; CN110010149A; CN105632512A; CN110010149B; CN110070880A; CN110085250A; CN110070883A

Abstract

本发明公开了一种基于统计模型的双传感器语音增强方法与装置，该方法首先结合非气导传感器语音和气导传感器语音来构建当前用于分类的语音联合统计模型以及进行端点检测，通过联合统计模型的分类结果来计算最佳气导语音滤波器，对气导语音进行滤波增强，然后通过映射模型将非气导语音转换为具有气导特征的气导语音，并与滤波增强后的语音进行加权融合，以进一步提高语音的质量。本方法采用两级语音增强的结构方法，在气导语音因强噪声而滤波效果不好时，第二级语音增强将滤波语音与非气导语音的映射语音进行自适应加权融合，能在强噪声环境下获得更好的语音增强效果，该方法可广泛应用于视频通话、车载电话、多媒体教室、军事通信等多种场合。

Description

一种基于统计模型的双传感器语音增强方法与装置

技术领域

本发明涉及数字信号处理领域，特别涉及一种基于统计模型的双传感器语音增强方法与装置。

背景技术

通信是现代人与人之间进行交流的重要手段，而语音作为通信系统中最常见的形式，其质量直接影响了人们获取信息的准确性。语音在传播的过程中，难免受到各种各样环境噪声的干扰，其音质、可懂度都将明显下降，因此在实际应用中往往会利用语音增强技术对噪声环境下的语音进行处理。

语音增强技术能从噪声背景中提取有用的语音信号，是抑制、降低噪声干扰的基本手段。传统的语音增强对象是基于空气传导传感器(如麦克风等)采集的语音信号，根据处理方式的不同，常用的语音增强技术可以分为基于模型的方法和非基于模型的方法两类。非基于模型的增强方法有谱减法、滤波法、小波变换法等，它们通常假定噪声是相对平稳的，当噪声变化过快时，其增强效果并不能令人满意。基于模型的语音增强方法则首先对语音信号和噪声信号建立统计模型，然后通过模型获取干净语音的最小均方误差估计或最大后验概率估计。这类方法能够避免音乐噪声的产生，并能处理非平稳噪声。但由于上述的基于模型和非基于模型的方法均基于麦克风等空气传导语音传感器，其信号容易受环境中的声学噪声影响，特别是在强噪声环境下，系统性能会大幅度下降。

为解决强噪声对语音处理系统的影响，有别于传统的空气传导传感器，非空气传导的语音传感器利用说话人声带、颚骨等部位的振动来带动传感器中的簧片或者碳膜发生变化，改变其电阻值,使其两端的电压发生变化，从而将振动信号转化为电信号，即语音信号。由于空气中传导的声波无法使非空气传导传感器的簧片或者碳膜发生形变，因此非空气传导传感器不受空气传导声音的影响，具有很强的抗环境声学噪声干扰的能力。但因非空气传导传感器采集的是通过颚骨、肌肉、皮肤等的振动传播的语音，表现为发闷、含糊不清，其高频部分丢失严重，语音可懂度较差，制约了非空气传导技术的实际应用。

鉴于空气传导与非空气传导传感器的单独应用都存在一定的缺陷，近年来出现了一些结合两者优点的语音增强方法。这些方法利用空气传导传感器语音和非空气传导传感器语音的互补性，采用多传感器融合技术来实现语音增强的目的，通常能取得比单传感器语音增强系统更好的效果。但现有的空气传导传感器与非空气传导传感器结合的语音增强方法还存在以下不足：(1)空气传导传感器语音与非空气传导传感器语音通常独立地进行恢复处理，然后再将两者恢复后的语音进行融合，未能在空气传导传感器语音和非空气传导传感器语音的恢复过程中充分利用两者之间的互补性；(2)在多变的强噪音环境下，空气传导传感器语音纯语音段的统计特性会被严重干扰，增强语音的信噪比也会降低，导致融合后语音增强效果不明显。

发明内容

本发明针对现有的基于空气传导传感器语音、非空气传导传感器语音和两者融合的语音增强方法的缺点与不足，本发明提供了一种基于统计模型的双传感器语音增强方法，该方法首先利用空气传导传感器语音(简称气导语音)与非空气传导传感器语音(简称非气导语音)之间的互补性，通过建立用于分类的联合统计模型来计算最佳气导语音滤波器，对气导语音进行滤波增强，然后通过映射模型将非气导语音转换为具有气导特征的气导语音，并与滤波增强后的语音进行加权融合，以进一步提高语音的质量。本发明还同时提供了实现上述基于统计模型的双传感器语音增强方法的装置。与现有技术相比，本发明能在强噪声环境下获得更好的语音增强效果，增强后的语音在主观和客观评价上获得更高分数。本发明可以广泛应用于视频通话、车载电话、多媒体教室、军事通信等多种场合。

根据公开的实施例，本发明的第一个目的通过下述技术方案实现：

一种基于统计模型的双传感器语音增强方法，包括下列步骤：

步骤S1：同步采集干净的气导训练语音和非气导训练语音，建立用于分类的联合统计模型，并计算对应于每个分类的气导语音线性频谱统计模型；

步骤S2：利用步骤S1同步采集的气导训练语音和非气导训练语音，建立非气导语音到气导语音的映射模型；

步骤S3：同步采集气导检测语音和非气导检测语音，检测气导检测语音的端点，然后利用气导检测语音的纯噪声段建立气导噪声统计模型；

步骤S4：利用气导噪声统计模型修正步骤S1中的联合统计模型，并对气导检测语音帧进行分类，然后根据分类结果对应的气导语音线性频谱统计模型和气导噪声统计模型计算最佳气导语音滤波器，并对气导检测语音进行滤波增强；

步骤S5：根据步骤S2中得到的非气导语音到气导语音的映射模型，将非气导检测语音转换为气导的映射语音；

步骤S6：对步骤S5中得到的映射语音与步骤4得到的滤波增强语音进行加权融合，得到融合增强后的语音。

上述步骤S1中，用于分类的联合统计模型和对应于每个分类的气导语音线性频谱统计模型采用以下方法建立：

步骤S1.1：同步采集干净的气导训练语音和非气导训练语音并进行分帧，提取每帧语音的特征参数；

步骤S1.2：将步骤S1.1中气导训练语音和非气导训练语音的特征参数拼接得到干净的联合语音特征参数；

步骤S1.3：利用步骤S1.2得到的联合语音特征参数，训练用于分类的联合统计模型；

步骤S1.4：对所有用于训练的联合语音帧进行分类，计算属于每个分类的所有联合语音帧中气导语音线性频谱的统计参数，建立与每个分类相对应的气导语音线性频谱统计模型。

上述步骤S1.1中，气导训练语音和非气导训练语音的特征参数为梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)或线谱频率(LSF)。

上述步骤S1.3中用于分类的联合统计模型为多数据流混合高斯模型 (GMM)或多数据流隐马尔可夫模型(HMM)。

上述步骤S1.4中对应于每个分类的气导语音线性频谱统计模型表示为气导语音线性频谱的均值。

上述步骤S2中非气导语音到气导语音的映射模型，用以下具体步骤获得：

步骤S2.1：对步骤S1中同步采集的干净非气导训练语音和气导训练语音进行分帧，将非气导训练语音帧作为输入，同时刻的气导训练语音帧作为理想输出，送入初始化后的前馈神经网络；

步骤S2.2：根据最小均方误差准则，采用尺度共轭梯度算法训练前馈神经网络的权重系数，使得实际输出与理想输出之间的误差最小，得到非气导语音到气导语音的映射模型。

上述步骤S3中气导检测语音端点检测与气导噪声统计模型估计，包含以下步骤：

步骤S3.1：同步采集气导检测语音和非气导检测语音并分帧；

步骤S3.2：根据非气导检测语音帧的短时自相关函数R_w(k)和短时能量E_w，计算每帧非气导检测语音帧的短时平均过门限率C_w(n)：

C_w(n)＝{|sgn[R_w(k)-αT]-sgn[R_w(k-1)-αT]|+

|sgn[R_w(k)+αT]-sgn[R_w(k-1)+αT]|}w(n-k) (1)

其中sgn[·]为取符号运算，是调节因子，w(n)是窗函数，T是门限初值。当C_w(n)大于预设的门限值时，判断该帧为语音信号，否则为噪声。根据每帧的判决结果得到非气导检测语音信号的端点位置；

步骤S3.3：将步骤S3.2检测到的非气导检测语音信号端点对应的时刻作为气导检测语音的端点，提取气导检测语音中的纯噪声段；

步骤S3.4：计算气导检测语音中纯噪声段信号的线性频谱均值，保存该均值为气导噪声的统计模型参数。

上述步骤S4中联合统计模型的修正，具体包括以下步骤：

步骤S4.1a：将联合统计模型的参数转换到线性频谱域；

步骤S4.2a：按气导干净语音和气导噪声在线性频谱域是加性关系对联合统计模型中的气导语音数据流参数进行修正；

步骤S4.3a：将修正后的线性频谱域联合统计模型参数转换回原来的特征域，得到修正后的联合统计模型；

上述联合统计模型中的所述气导语音数据流参数为混合高斯模型或隐马尔科夫模型中高斯分量的均值和协方差。

上述步骤S4中最佳气导语音滤波器的计算，具体包括以下步骤：

步骤S4.1b：提取气导检测语音和非气导检测语音的联合特征参数，计算每一帧联合检测语音对应于各个分类的修正后联合统计模型的输出概率；

步骤S4.2b：根据上述输出概率计算联合统计模型中非气导检测语音数据流和气导检测语音数据流的权重参数；

步骤S4.3b：根据步骤4.2b得到的非气导检测语音数据流和气导检测语音数据流的权重更新联合统计模型中的权重参数，采用更新后的联合统计模型对气导检测语音帧进行分类，然后根据分类结果对应的气导语音线性频谱统计模型和气导噪声统计模型计算最佳气导语音滤波器。

上述步骤S4.2b中非气导检测语音数据流和气导检测语音数据流的权重参数，采用以下方法计算：

步骤S4.2.1：设置气导检测语音的初始权重为w₀，非气导检测语音的初始权重为1-w₀，迭代次数t＝0，计算Diff_t

其中M表示模型混合分量数，L为语音的帧数，p(j|z_l)与p(k|z_l)分别为第l 帧联合检测语音z_l属于联合统计模型中第j分类与第k分类的概率，为联合统计模型第k分类与第j分类统计参数的距离，为联合统计模型第k分类与第j分类的统计参数。

步骤S4.2.2：计算气导检测语音权重非气导检测语音权重θ₂(Diff_t)＝1-θ₁(Diff_t)，采用更新后的权重重新计算p(j|z_l)与p(k|z_l)，然后根据式(2)计算Diff_t+1；

步骤S4.2.3：若|Diff_t+1-Diff_t|＜ξ，ξ为预设的阈值，则停止更新权重，执行步骤S4.2.4，否则t＝t+1，转步骤S4.2.2；

步骤S4.2.4：利用Diff_T计算最佳权重θ₁(Diff_T)和θ₂(Diff_T)，其中T为停止更新时t的值。

上述步骤S4.3b中最佳气导语音滤波器，采用以下方法计算：

步骤S4.3.1：利用最佳权重θ₁(Diff_T)和θ₂(Diff_T)计算联合检测语音帧z_l属于当前修正的联合统计模型第m分类的概率p(m|z_l)；

步骤S4.3.2：采用下式计算最佳气导语音滤波器的频域增益函数：

其中K是联合统计模型第m分类的均值矢量维数，为联合统计模型第m分类对应的气导语音线性频谱均值矢量的第i个分量，为气导噪声统计模型第m分类对应的噪声线性频谱均值矢量的第i个分量。

上述步骤步骤S4.3.2中，最佳气导语音滤波器频域增益函数也可以采用下式计算：

上述步骤S6中的融合增强语音，采用以下步骤计算得到：

步骤S6.1：计算第m帧的滤波增强语音x_m的权重和第m帧的映射语音 y_m的权重

其中和分别为第m帧滤波增强语音x_m和映射语音y_m的幅度方差,SNR_m为第m帧滤波增强语音x_m的信噪比，α、β为预设的常数；

步骤S6.2：将滤波增强语音x_m与映射语音y_m加权叠加，得到融合增强语音：

根据公开的实施例，本发明的第二个目的通过下述技术方案实现：

一种基于统计模型的双传感器语音增强装置，包括下列模块：

语音接收模块，用于同步采集干净的气导训练语音和非气导训练语音；

语音统计模型训练模块，用于建立所述联合统计模型和气导语音线性频谱统计模型；

气导噪声统计模型估算模块，检测气导检测语音的端点，然后利用气导检测语音的纯噪声段建立气导噪声统计模型；；

气导检测语音滤波增强模块，用于利用所述气导噪声统计模型修正所述联合统计模型的统计参数，并对气导检测语音帧进行分类，然后结合分类结果所对应的气导语音线性频谱统计模型和气导噪声统计模型计算最佳气导语音滤波器，并对气导检测语音进行滤波增强，得到滤波增强语音；

语音映射模块，用于建立非气导语音到气导语音的映射模型，并根据所述非气导语音到气导语音的映射模型，将非气导检测语音转换为气导特征的映射语音；

语音融合增强模块，用于将所述气导特征的映射语音与所述滤波增强语音进行加权融合，得到融合增强后的语音。

上述基于模型的双传感器语音增强装置中，语音接收模块与语音统计模型训练模块、气导噪声统计模型估算模块、气导检测语音滤波增强模块、语音映射模块连接，语音统计模型训练模块与气导检测语音滤波增强模块连接，气导噪声统计模型估算模块与气导检测语音滤波增强模块连接，气导检测语音滤波增强模块与语音融合增强模块连接，语音映射模块与语音融合增强模块连接。

上述语音接收模块包括气导语音传感器和非气导语音传感器两个子模块，前者用于获取气导语音数据，后者用于获取非气导语音数据；语音统计模型训练模块包括联合统计模型子模块和气导语音线性频谱统计模型子模块，用于建立联合统计模型和气导语音线性频谱统计模型；气导噪声统计模型估算模块用于估计当前系统的环境噪声，对联合统计模型进行修正，同时参与滤波器系数的计算；气导检测语音滤波增强模块由联合统计模型修正子模块、联合检测语音分类识别子模块、最佳气导滤波器系数生成子模块和气导检测语音滤波子模块共同构成，其中联合统计模型修正子模块用于修正联合统计模型的统计参数，联合检测语音分类识别子模块对检测语音进行分类，将分类结果作用于最佳气导滤波器系数生成子模块，最佳气导滤波器系数生成子模块计算出滤波器参数，最后通过气导检测语音滤波子模块得到滤波增强的气导语音；语音映射模块用于将非气导检测语音映射为气导语音；语音融合增强模块包含自适应权重生成子模块和线性融合子模块，前者用于计算映射语音和滤波增强语音的权重，后者利用自适应权重生成子模块的结果将映射语音和滤波增强语音进行线性加权融合，得到融合增强语音。

上述各个子模块中，气导语音传感器与气导噪声统计模型估算模块、联合统计模型子模块、联合检测语音分类识别子模块和气导检测语音滤波子模块连接，非气导语音传感器与联合统计模型子模块、气导噪声统计模型估算模块、语音映射模块、联合检测语音分类识别子模块连接；联合统计模型子模块与气导语音线性频谱统计模型子模块、联合统计模型修正子模块连接，气导语音线性频谱统计模型训练模块与最佳气导滤波器系数生成子模块连接，参与滤波器系数的计算；

气导噪声模型估算模块与联合统计模型修正子模块、最佳气导滤波器系数生成子模块连接；联合统计模型修正子模块与最佳气导滤波器系数生成子模块、气导检测语音滤波子模块连接，联合检测语音分类识别子模块与最佳气导滤波器系数生成子模块连接，最佳气导滤波器系数生成子模块与气导检测语音滤波子模块连接；气导检测语音滤波子模块与自适应权重生成子模块、线性融合子模块连接；语音映射模块与自适应权重生成子模块、线性融合子模块连接；自适应权重生成模块与线性融合模块相连接。

本发明相对于现有技术具有如下的优点及效果：

1、本发明在气导语音增强过程中，结合非气导传感器语音和气导传感器语音来构建当前用于分类的语音统计模型以及进行端点检测，并据此构造最佳气导语音滤波器，提高了气导语音的增强效果，显著增加了整个系统的鲁棒性；

2、本发明采用了两级语音增强的结构方法，在气导语音因强噪声而滤波效果不好时，第二级语音增强将滤波语音与非气导语音的映射语音进行自适应加权融合，仍能取得好的语音增强效果；

3、本发明采用的空气传导传感器与非空气传导传感器之间没有距离限制，使用方便。

附图说明

图1是本发明实施例公开的基于统计模型的双传感器语音增强方法的流程步骤图；

图2为本发明实施例中训练语音统计模型的流程步骤图；

图3为本发明实施例中建立非气导语音到气导语音映射模型的流程步骤图；

图4为本发明实施例中建立气导噪声统计模型的流程步骤图；

图5为本发明实施例中修正联合统计模型的流程步骤图；

图6为本发明实施例中估算最佳气导语音滤波器的流程步骤图；

图7为本发明实施例中映射语音和滤波增强语音加权融合的流程步骤图；

图8为本发明实施例公开的基于统计模型的双传感器语音增强装置的结构框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一

本实施例公开了一种基于统计模型的双传感器语音增强方法，具体流程步骤参照附图1所示，可知该双传感器语音增强方法包括下列流程步骤：

步骤S1：同步采集干净的气导训练语音和非气导训练语音，建立用于分类的联合统计模型，并计算对应于每个分类的气导语音线性频谱统计模型，具体又可以分为以下几步，流程如图2所示：

上述实施例中，利用语音接收模块采集干净、同步的气导训练语音和非气导训练语音。对输入的干净训练语音进行分帧和预处理后做离散傅里叶变换，然后利用梅尔滤波器，提取两种训练语音的梅尔频率倒谱系数MFCC，作为联合统计模型的训练数据。

在另一些实施例中，提取的是气导训练语音和非气导训练语音的LPCC或 LSF系数。

上述实施例中，将气导训练语音的倒谱域特征矢量序列记为： S_N＝{s_N1,s_N2,...,s_Nn}，n为语音数据帧数，s_Nl为第l帧特征的列向量；非气导训练语音的倒谱域特征矢量序列记为：S_T＝{s_T1,s_T2,...,s_Tn}，帧数为n，s_Tl为第l帧特征的列向量。将第l帧气导训练语音和第l帧非气导训练语音的倒谱域特征参数进行拼接，得到第l帧倒谱域联合特征矢量为

步骤S1.3：利用步骤S1.2得到的联合语音特征参数，训练用于分类的倒谱域联合统计模型；

上述实施例中，采用多数据流混合高斯模型来拟合联合训练语音的概率分布，倒谱域联合统计模型的概率密度函数为：

其中s是语音数据流的序号，M是GMM中的混合分量数，θ_s是语音数据流所占权重，π_m是模型混合分量先验权重，和分别表示倒谱域联合统计模型第m分类中语音数据流s的均值矢量和方差矩阵，z^s为第s个数据流的特征矢量，是单高斯分布概率密度函数。令λ表示多数据流高斯混合模型的参数集，Z＝{z₁,z₂,...,z_n}表示训练用的倒谱域联合特征矢量集合，则倒谱域联合统计模型似然函数为：

利用最大期望算法(Expectation Maximization Algorithm)可以求出使得P(Z|λ)最大的模型参数集λ。

步骤S1.4：对用于训练的所有倒谱域联合语音帧进行分类，计算属于每个分类的所有联合语音帧中气导语音的线性频谱域统计参数，建立与每个分类相对应的气导语音线性频谱统计模型。

上述实施例中，多数据流混合高斯模型中的每个高斯分量代表一个分类，对于用于训练的所有倒谱域联合语音帧，计算每一帧倒谱域联合特征矢量z_l属于倒谱域联合统计模型第m分类的概率，公式如下：

其中表示第l帧语音中第s个语音数据流的倒谱域特征矢量。记下最大概率max{p(m|z_l)}所对应的模型混合分量(即分类)。

完成所有倒谱域联合语音帧的分类后，计算聚集在同一分类上的所有联合语音帧中气导语音的频谱均值作为与倒谱域联合统计模型相对应的气导语音线性频谱统计模型参数。

在另外一些实施例中，采用多数据流隐马尔科夫模型作为联合统计模型，并以多数据流隐马尔科夫模型中的每个高斯分量表示一个分类。

步骤S2：利用步骤S1同步采集的气导与非气导训练语音，建立非气导语音到气导语音的映射模型，具体又分为以下步骤，其流程如图3所示：

上述实施例中，首先对气导训练语音和非气导训练语音分帧，分别提取气导训练语音帧和非气导训练语音帧的线谱频率(LSF)参数，给定前馈神经网络的输入输出模式(L_T,L_N)，L_T表示非气导训练语音的LSF向量，作为前馈神经网络的输入，L_N表示气导训练语音的LSF向量，作为前馈神经网络的理想输出，并初始化前馈神经网络权值。

步骤S2.2：根据最小均方误差准则，采用尺度共轭梯度算法训练前馈神经网络的权重系数，使得实际输出与理想输出之间的误差最小，得到非气导语音到气导语音的映射模型；

上述实施例中，前馈神经网络第l层的神经元到第l+1层的第j个神经元的连接权值向量为：

其中为第l层的第i个神经元到第l+1层的第j个神经元的连接权值，N_l为第l层的神经元个数，为第l+1层的第j个神经元的阈值，由所有构成的前馈神经网络权重矢量如下：

其中M是神经网络层数，N为输出层神经元个数。记P为训练语音帧数，神经网络实际输出向量L^*与理想输出L之间的误差为：

采用尺度共轭梯度算法对前馈神经网络权重进行迭代，第k+1次迭代结果为：

w_k+1＝w_k+α_kP_k (14)

其中搜索方向P_k和步长α_k由以下公式给出：

其中E'(w_k)和E”(w_k)分别是E(w)的一阶导数和二阶导数，当E'(w_k)＝0即误差E(w)达到最小值时，获得最佳权重系数W_best。

步骤S3：同步采集气导检测语音和非气导检测语音并检测气导检测语音的端点，然后利用气导检测语音的纯噪声段建立频谱域气导噪声统计模型，具体采用以下步骤，其流程如图4所示：

步骤S3.1：同步采集气导检测语音和非气导检测语音并分帧；

C_w(n)＝{|sgn[R_w(k)-αT]-sgn[R_w(k-1)-αT]|+

|sgn[R_w(k)+αT]-sgn[R_w(k-1)+αT]|}w(n-k) (17)

步骤S3.4：计算气导检测语音中纯噪声段信号的线性频谱均值，保存该均值参数，建立频谱域气导噪声的统计模型。

步骤S4：利用气导噪声统计模型修正步骤S1中的联合统计模型，并对气导检测语音帧进行分类，然后根据分类结果对应的气导语音线性频谱统计模型和气导噪声统计模型计算最佳气导语音滤波器，并对气导检测语音进行滤波增强。

上述实施例中，首先采用模型补偿技术对联合统计模型中的气导检测语音数据流参数进行修正，具体包括以下步骤，其流程如图5所示：

步骤S4.1a：将梅尔倒谱域联合统计模型参数转换到线性频谱域。上述实施例中，首先采用离散余弦逆变换C^-1将梅尔倒谱域联合统计模型第m分类的均值和方差转换到对数域：其中和分别为对数域的均值和方差。再从对数域转换到线性频谱域：

其中为线性频谱域均值矢量的第i个分量，为线性频谱域方差矩阵第i行第j列的元素。

步骤S4.2a：按气导干净语音和气导噪声在线性频谱域是加性关系对联合统计模型中的气导语音数据流参数进行修正。上述实施例中，对气导语音数据流的参数进行如下修正：

其中g是气导检测语音的信噪比，分别是气导噪声线性频谱域的均值和方差，和分别为修正后气导语音数据流在线性频谱域的均值和方差。

步骤S4.3a：采用式(13)和式(14)的逆变换将步骤S4.2a修正后的线性频谱域联合模型统计参数转换回原来的特征域(倒谱域)，得到修正后的联合倒谱域统计模型。

修正联合统计模型后，可以得到每一帧联合特征检测矢量z_l属于联合统计模型第m分类的概率：

上述步骤S4中最佳气导语音滤波器的计算，具体包括以下步骤，其流程如图6所示：

步骤S4.1b：提取气导检测语音和非气导检测语音的联合特征参数，计算每一帧联合检测语音对应于各个分类的修正后联合统计模型的输出概率 p(m|z_l)；

步骤S4.2b：根据上述输出概率计算联合统计模型中非气导检测语音数据流和气导检测语音数据流的权重，可以采用以下步骤：

步骤S4.2.1：设置气导检测语音的初始权重为w₀，非气导检测语音的初始权重为1-w₀，迭代次数t＝0，计算Diff_t：

其中M表示模型混合分量数，L为语音的帧数，p(j|z_l)与p(k|z_l)分别为第l 帧联合检测语音z_l属于联合统计模型中第j分类与第k分类的概率，为联合统计模型第k分类与第j分类统计参数的距离，为联合统计模型第k分类与第j分类的均值。

步骤S4.2.2：计算气导检测语音权重非气导检测语音权重θ₂(Diff_t)＝1-θ₁(Diff_t)，采用更新后的权重重新计算p(j|z_l)与p(k|z_l)，然后根据式(23)计算Diff_t+1；

步骤S4.3b：利用步骤S4.2b得到的联合统计模型对气导检测语音帧进行分类，然后根据分类结果对应的气导语音线性频谱统计模型和气导噪声统计模型计算最佳气导语音滤波器，具体采用以下步骤：

其中，K是联合统计模型第m分类的均值矢量长度，为联合统计模型第m分类对应的气导语音线性频谱均值矢量的第i个值，为气导噪声统计模型第m分类对应的噪声线性频谱均值矢量的第i个值。

获得最佳气导语音滤波器的频域增益函数后，将气导检测语音转换到频域并保留相位信息，将其幅度谱缩放G(z_l)倍，然后转换回时域，得到滤波增强语音。

在另一些实施例中，为了提高运算效率，最佳气导语音滤波器增益函数采用下式计算：

步骤S6：对步骤S5中得到的映射语音与步骤4得到的滤波增强语音进行线性加权融合，得到融合增强后的语音，具体采用以下步骤，其流程如图7所示：

上述实施例中，根据步骤S3端点检测得到的语音信号起点时刻，截取滤波增强语音x_m中信号起点前的所有数据帧，求其平均功率作为噪声帧的功率计算第m帧的滤波增强语音x_m的权重和第m帧的映射语音y_m的权重

其中分别为第m帧滤波增强语音x_m和映射语音y_m的幅度方差,α、β为预设的常数，SNR_m为第m帧滤波增强语音x_m的信噪比：

其中是x_m的功率。

实施例二

本实施例二公开了一种基于模型的双传感器语音增强装置，由语音接收模块、语音统计模型训练模块、气导噪声统计模型估算模块、气导检测语音滤波增强模块、语音映射模块、语音融合增强模块共同组成，其结构如图2所示。

其中，语音接收模块，用于同步采集干净的气导训练语音和非气导训练语音；

其中，语音统计模型训练模块，用于建立所述联合统计模型和气导语音线性频谱统计模型；

其中，气导噪声统计模型估算模块，检测气导检测语音的端点，然后利用气导检测语音的纯噪声段建立气导噪声统计模型；；

其中，气导检测语音滤波增强模块，用于利用所述气导噪声统计模型修正所述联合统计模型的统计参数，并对气导检测语音帧进行分类，然后结合分类结果所对应的气导语音线性频谱统计模型和气导噪声统计模型计算最佳气导语音滤波器，并对气导检测语音进行滤波增强，得到滤波增强语音；

其中，语音映射模块，用于建立非气导语音到气导语音的映射模型，并根据所述非气导语音到气导语音的映射模型，将非气导检测语音转换为气导特征的映射语音；

其中，语音融合增强模块，用于将所述气导特征的映射语音与所述滤波增强语音进行加权融合，得到融合增强后的语音。

如附图8中所示，其中语音接收模块与语音统计模型训练模块、气导噪声统计模型估算模块、气导检测语音滤波增强模块、语音映射模块连接，语音统计模型训练模块与气导检测语音滤波增强模块连接，气导噪声统计模型估算模块与气导检测语音滤波增强模块连接，气导检测语音滤波增强模块与语音融合增强模块连接，语音映射模块与语音融合增强模块连接。

值得注意的是，上述装置实施例中，所包括的各个模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于统计模型的双传感器语音增强方法，其特征在于，包括下列步骤：

S1、同步采集干净的气导训练语音和非气导训练语音，建立用于分类的联合统计模型，并计算对应于每个分类的气导语音线性频谱统计模型；

S2、利用同步采集的所述气导训练语音和所述非气导训练语音，建立非气导语音到气导语音的映射模型；

S3、同步采集气导检测语音和非气导检测语音，检测气导检测语音的端点，然后利用气导检测语音的纯噪声段建立气导噪声统计模型；

S4、利用所述气导噪声统计模型修正所述联合统计模型，并对气导检测语音帧进行分类，然后根据分类结果对应的气导语音线性频谱统计模型和气导噪声统计模型计算最佳气导语音滤波器，并对气导检测语音进行滤波增强后得到滤波增强语音；

S5、根据所述非气导语音到气导语音的映射模型，将非气导检测语音转换为气导的映射语音；

S6、将所述气导的映射语音与所述滤波增强语音进行加权融合，得到融合增强后的语音。

2.根据权利要求1所述的一种基于统计模型的双传感器语音增强方法，其特征在于，

所述步骤S1中用于分类的联合统计模型和对应于每个分类的气导语音线性频谱统计模型采用以下子步骤建立：

S1.1、同步采集干净的气导训练语音和非气导训练语音并进行分帧，提取每帧语音的特征参数；

S1.2、将所述气导训练语音和非气导训练语音的特征参数拼接得到干净的联合语音特征参数；

S1.3、利用所述联合语音特征参数，训练用于分类的联合统计模型；

S1.4、对所有用于训练的联合语音帧进行分类，计算属于每个分类的所有联合语音帧中气导语音线性频谱的统计参数，建立与每个分类相对应的气导语音线性频谱统计模型。

3.根据权利要求1所述的一种基于统计模型的双传感器语音增强方法，其特征在于，

所述步骤S2中非气导语音到气导语音的映射模型，采用以下子步骤建立：

S2.1、对所述步骤S1中同步采集的干净非气导训练语音和气导训练语音进行分帧，将非气导训练语音帧作为输入，同时刻的气导训练语音帧作为理想输出，送入初始化后的前馈神经网络；

S2.2、根据最小均方误差准则，采用尺度共轭梯度算法训练前馈神经网络的权重系数，使得实际输出与理想输出之间的误差最小，得到非气导语音到气导语音的映射模型。

4.根据权利要求1所述的一种基于统计模型的双传感器语音增强方法，其特征在于，

所述步骤S3中气导检测语音端点检测与气导噪声统计模型估计具体包括以下子步骤：

S3.1、同步采集气导检测语音和非气导检测语音并分帧；

S3.2、根据非气导检测语音帧的短时自相关函数R_w(k)和短时能量E_w，计算每帧非气导检测语音帧的短时平均过门限率C_w(n)：

C_w(n)＝{|sgn[R_w(k)-αT]-sgn[R_w(k-1)-αT]|+

|sgn[R_w(k)+αT]-sgn[R_w(k-1)+αT]|}w(n-k) (1)

其中sgn[·]为取符号运算，是调节因子，w(n)是窗函数，T是门限初值，当C_w(n)大于预设的门限值时，判断该非气导检测语音帧为语音信号，否则为噪声，根据每帧的判决结果得到非气导检测语音信号的端点位置；

S3.3、将检测到的所述非气导检测语音信号端点对应的时刻作为气导检测语音的端点，提取气导检测语音中的纯噪声段；

S3.4、计算气导检测语音中纯噪声段信号的线性频谱均值，保存该均值为气导噪声的统计模型参数。

5.根据权利要求1所述的一种基于统计模型的双传感器语音增强方法，其特征在于，所述步骤S4中联合统计模型的修正具体包括以下子步骤：

S4.1a、将联合统计模型的参数转换到线性频谱域；

S4.2a、按气导干净语音和气导噪声在线性频谱域是加性关系对联合统计模型中的气导语音数据流参数进行修正；

S4.3a、将修正后的线性频谱域联合统计模型参数转换回原来的特征域，得到修正后的联合统计模型；

其中，上述联合统计模型中的所述气导语音数据流参数为混合高斯模型或隐马尔科夫模型中高斯分量的均值和协方差；

所述步骤S4中最佳气导语音滤波器的计算具体包括以下子步骤：

S4.1b、提取气导检测语音和非气导检测语音的联合特征参数，计算每一帧联合检测语音对应于各个分类的修正后联合统计模型的输出概率；

S4.2b、根据上述输出概率计算联合统计模型中非气导检测语音数据流和气导检测语音数据流的权重参数；

S4.3b、根据上述权重参数，采用更新后的联合统计模型对气导检测语音帧进行分类，然后根据分类结果对应的气导语音线性频谱统计模型和气导噪声统计模型计算最佳气导语音滤波器。

6.根据权利要求5所述的一种基于统计模型的双传感器语音增强方法，其特征在于，

所述步骤S4.2b中非气导检测语音数据流和气导检测语音数据流的权重参数采用以下方法计算：

S4.2.1、设置气导检测语音的初始权重为w₀，非气导检测语音的初始权重为1-w₀，迭代次数t＝0，计算Diff_t

其中M表示模型混合分量数，L为语音的帧数，p(j|z_l)与p(k|z_l)分别为第l帧联合检测语音z_l属于联合统计模型中第j分类与第k分类的概率，为联合统计模型第k分类与第j分类统计参数的距离，为联合统计模型第k分类与第j分类的统计参数；

S4.2.2、计算气导检测语音权重非气导检测语音权重θ₂(Diff_t)＝1-θ₁(Diff_t)，采用更新后的权重重新计算p(j|z_l)与p(k|z_l)，然后根据式(2)计算Diff_t+1；

S4.2.3、若|Diff_t+1-Diff_t|＜ξ，ξ为预设的阈值，则停止更新权重，执行步骤 S4.2.4，否则t＝t+1，转步骤S4.2.2；

S4.2.4、利用Diff_T计算最佳权重θ₁(Diff_T)和θ₂(Diff_T)，其中T为停止更新时t的值。

7.根据权利要求5所述的一种基于统计模型的双传感器语音增强方法，其特征在于，

所述步骤S4.3b中最佳气导语音滤波器采用以下方法计算：

S4.3.1、利用最佳权重θ₁(Diff_T)和θ₂(Diff_T)计算联合检测语音帧z_l属于当前修正的联合统计模型第m分类的概率p(m|zl)；

S4.3.2、采用式(3)或式(4)计算最佳气导语音滤波器的频域增益函数：

其中K是联合统计模型第m分类的均值矢量维数，为联合统计模型第m分类对应的气导语音线性频谱均值矢量的第i个分量，为气导噪声统计模型第m分类对应的噪声线性频谱均值矢量的第i个分量；

8.根据权利要求1所述的一种基于统计模型的双传感器语音增强方法，其特征在于，

所述步骤S6中加权融合得到融合后的增强语音采用以下方法计算：

S6.1、计算第m帧的滤波增强语音x_m的权重和第m帧的映射语音y_m的权重

其中和分别为第m帧滤波增强语音x_m和映射语音y_m的幅度方差，SNR_m为第m帧滤波增强语音x_m的信噪比，α、β为预设的常数；

S6.2、将滤波增强语音x_m与映射语音y_m加权叠加，得到融合增强语音：

9.根据权利要求2所述的一种基于统计模型的双传感器语音增强方法，其特征在于，

所述步骤S1.1中气导训练语音和非气导训练语音的特征参数为梅尔频率倒谱系数、线性预测倒谱系数或线谱频率；

所述步骤S1.3中用于分类的联合统计模型为多数据流混合高斯模型或多数据流隐马尔可夫模型；

所述步骤S1.4中对应于每个分类的气导语音线性频谱统计模型表示为气导语音线性频谱的均值。

10.一种基于统计模型的双传感器语音增强装置，其特征在于，包括下列模块：

语音统计模型训练模块，用于建立联合统计模型和气导语音线性频谱统计模型；

气导噪声统计模型估算模块，检测气导检测语音的端点，然后利用气导检测语音的纯噪声段建立气导噪声统计模型；