CN105448302B

CN105448302B - 一种环境自适应的语音混响消除方法和系统

Info

Publication number: CN105448302B
Application number: CN201510761023.9A
Authority: CN
Inventors: 卓鹏鹏; 李稀敏; 肖龙源
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2015-11-10
Filing date: 2015-11-10
Publication date: 2019-06-25
Anticipated expiration: 2035-11-10
Also published as: CN105448302A

Abstract

本发明公开一种环境自适应的语音混响消除方法和系统，该系统包括有混响模型训练装置、RT60获取装置以及音频处理装置；首先，考虑到RT60值的大小可以近似表征房间的混响量的大小及特殊的室内应用环境(RT60的值会在一个较小的范围内)，本发明中将RT60值按大小分成多个区间，使用区间内的语音特征来训练混响模型，使得数据训练的更加充分，混响模型更有针对性；其次，通过结合当前环境的RT60值所在区间和使用对应区间的混响模型进行解码的方法实现了对不同房间环境的自适应；再者，由于采用深度网络训练模型，在实际应用时就不需要估计混响分量，直接根据模型参数进行解码即可得到混响消除后的语音特征，减少了计算量。

Description

一种环境自适应的语音混响消除方法和系统

技术领域

本发明涉及语音混响消除领域技术，尤其是指一种环境自适应的语音混响消除方法和系统。

背景技术

在室内采集语音信号时，若声源与采集的麦克风距离较远，就会有混响。过大的混响会严重影响语音的清晰度和可懂度。在语音识别和说话人识别系统中，混响的出现将会使训练数据与测试数据不匹配影响系统的性能，严重时还可能导致系统无法正常工作。此时，一种有效的混响的消除方法就变得极其重要了。常用的混响消除算法大多是从语音中估计出混响分量，然后进行混响消除，然而这在实际中是很困难的。

文献[K.Lebart,2001]使用Polack混响统计模型的单麦克风混响消除系统。该混响消除系统根据混响时间来构造Polack混响统计模型，利用Polack混响统计模型估计出后期混响功率谱，最后采用谱减法去除后期混响，达到语音增强的效果。由于该技术要求已知混响时间先估计出后期混响后采用谱减法求解出没受污染部分的分量，实现混响消除。然而实际应用中很难直接得到准确的混响时间，这导致采用谱减法去除后期混响时常会引入一些人工噪声。在过估计时，会产生音乐噪声；欠估计时会有噪声残留。

文献[Marc Delcroix,2014]提供了WPE(Weighted Prediction Error)算法的混响消除方法。该方法采用线性滤波的方法进行混响消除。首先对语音进行短时傅里叶变换(Short-time Fourier Transform，STFT)；然后在频域通过迭代估计出一组最优的线性滤波器的参数；最后采用线性滤波器对STFT系数进行滤波，得到语音中消除混响后的STFT系数估计，实现对混响的消除。该算法在进行迭代估计时需要进行较多的运算，并且滤波器的长度需要人为设定。实际应用环境中，混响的影响并不是固定的，采用固定的滤波器长度将很难实现在不同环境下的稳定工作。

发明内容

有鉴于此，本发明针对现有技术存在之缺失，其主要目的是提供一种环境自适应的语音混响消除方法和系统，其能够对大多数的室内环境下的语音混响进行消除，并且能够迅速的适应室内环境的变化，实现对室内混响环境的自适应。

为实现上述目的，本发明采用如下之技术方案：

一种环境自适应的语音混响消除方法，包括有以下步骤：

步骤100：使用混响模型训练装置训练混响模型，并且将训练得到的混响模型存储于音频处理装置的第二存储器中；

步骤200：采用RT60获取装置获取当前环境下的RT60值，并且发送给音频处理装置；

步骤300：输入获取到的数字语音信号；

步骤400：使用音频处理装置中的第二特征提取模块提取输入语音的MFCC，具体步骤与混响模型训练装置中的特征提取一致；

步骤500：将原始的特征经过前5帧后4帧的扩展，形成320维数据，再将320维数据的每一维进行均值方差归一化处理；

步骤600：根据获取到的RT60值，读取第一存储器里对应的混响模型；

步骤700：根据输入的归一化MFCC特征及混响模型，通过混响模型的参数对输入的语音特征进行映射得到混响消除后的语音特征，也就是将提取的归一化MFCC特征作为输入，根据混响模型的参数得到不带混响的语音特征；

步骤800：输出混响消除后的语音特征，该输出可作为鲁棒性语音特征供语音识别或说话人识别使用。

作为一种优选方案，所述步骤100中包括有以下步骤：

步骤101：整理语料，混响语音采用在安静语音的基础上卷积加入房间脉冲响应获得；

步骤102：按所在的混响时间区间分别使用第一特征提取模块提取带混响的语音及安静语音的MFCC；

步骤103：将原始的特征经过前5帧后4帧的扩展，形成320维数据，再将320维数据的每一维进行均值方差归一化处理；

步骤104：构建编码器，编码器的形式采用DAE的形式，使用RBM堆叠的方式构建深度置信网络；

步骤105：训练编码器，分别训练各个混响时间区间内的语音特征，并得到对应的混响模型；

步骤106：将第二存储器中的所有混响模型及对应的一些参数存储到音频处理装置中的第二存储器里。

作为一种优选方案，所述步骤200中包括有以下步骤：

步骤201：使用RT60获取模块获取当前时刻的RT60估计值；

步骤202：使用存储器存储RT60获取模块测得的RT60值；

步骤203：使用算数平均模块，估计出当前时刻的RT60“真值”；

步骤204：采用第一无线接口向音频处理装置发送RT60的“真值”。

一种环境自适应的语音混响消除系统，包括有混响模型训练装置、RT60获取装置以及音频处理装置；该混响模型训练装置包括有第一特征提取模块、编码模块和模型存储器，该第一特征提取模块连接编码模块，该编码模块连接模型存储器；该RT60获取装置包括有RT60获取模块、第一存储器、算数平均模块和第一无线接口，该RT60获取模块连接第一存储器，该第一存储器连接算数平均模块，该算数平均模块连接第一无线接口；该音频处理装置包括有第二特征提取模块、解码模块、第二无线接口和第二存储器，该第二特征提取模块连接解码模块，该第二无线接口连接第二存储器，该第二存储器连接解码模块，前述第一无线接口无线连接第二无线接口，前述模型存储器连接第二存储器。

本发明与现有技术相比具有明显的优点和有益效果，具体而言，由上述技术方案可知：

首先，考虑到RT60值的大小可以近似表征房间的混响量的大小及特殊的室内应用环境(RT60的值会在一个较小的范围内)，本发明中将RT60值按大小分成多个区间，使用区间内的语音特征来训练混响模型，使得数据训练的更加充分，混响模型更有针对性；其次，通过结合当前环境的RT60值所在区间和使用对应区间的混响模型进行解码的方法实现了对不同房间环境的自适应；再者，由于采用深度网络训练模型，在实际应用时就不需要估计混响分量，直接根据模型参数进行解码即可得到混响消除后的语音特征，减少了计算量。

为更清楚地阐述本发明的结构特征和功效，下面结合附图与具体实施例来对本发明进行详细说明。

附图说明

图1是本发明之较佳实施例的系统框图；

图2是本发明之较佳实施例中RBM的结构示意图；

图3是本发明之较佳实施例中降噪自动编码器的结构示意图；

图4是本发明之较佳实施例中采用的网络结构图；

图5是本发明之较佳实施例中混响模型预训练和微调过程示意图；

图6是本发明之较佳实施例原理流程图；

图7是本发明之较佳实施例混响模型训练和RT60获取流程图。

附图标识说明：

10、混响模型训练装置 11、第一特征提取模块

12、编码模块 13、模型存储器

20、RT60获取装置 21、RT60获取模块

22、第一存储器 23、算术平均模块

24、第一无线接口 30、音频处理装置

31、第二特征提取模块 32、解码模块

33、第二无线接口 34、第二存储器

具体实施方式

本发明公开一种环境自适应的语音混响消除系统，该系统主要包括有混响模型训练装置10、RT60获取装置20和音频处理装置30。

如图1所示，其中，混响模型训练装置10主要用来训练语音的混响模型，RT60获取装置20主要用来获取当前环境下的RT60值(RT60被定义为室内声场达到稳定后，令声源停止发声自此刻起至声能密度衰变为60dB所用的时间)，音频处理装置30主要是对输入的语音进行混响消除并输出混响消除后的语音特征。特别的是，由于混响与所处的环境相关，而RT60值的大小能够大致的表征房间内的混响量。RT60越大，表示房间内的语音受混响的影响越大。本发明中使用不同RT60区间内的带混响语音采用降噪自动编码器(StackedDenoising Autoencoders, DAE)分别训练不同的混响模型(采用分区间的方法可以允许RT60值与真值之间存在一些误差，使用DAE是因为DAE学习输入信号的更加鲁棒的表达)，解码时根据当前的RT60值所在的区间，采用对应的混响模型参数进行解码，实现对混响环境的自适应。

下面是本发明的各个装置及工作原理的具体说明：

1.混响模型训练装置：

混响模型训练装置10用于训练混响模型，主要由第一特征提取模块11、编码模块12和模型存储器13组成，其中，第一特征提取模块11用于提取语音的特征并对特征作归一化处理，如MEL频域倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)、线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)、Gammatone频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)等。编码模块12采用DAE原理设计，用于训练语音的混响模型，DAE实现可以参考[Pascal Vincent，2010]和[Yong Xu，2014]及其中的参考文献。模型存储器13用于存储训练好的混响模型参数。该装置的具体工作流程如下：

(1)整理语料。由于室内环境是一个相对稳定的环境，混响时间的大小会处在一个相对较小的区间内。具体实施中，可以将混响时间0.2～1.9秒分成个等间隔的6个区间。将采集的语料按照不同的混响时间对应的区间进行归类，得到不同混响时间区间对应的语料，不带混响的语音单独归一类。在实际应用中可以采用在安静语音中加入房间脉冲响应的方法获得带不同混响时间的混响语音。

(2)训练混响模型。将整理好的语料按区间逐个训练对应的混响模型，由于深度神经网络需要大量的数据才能获得较好的参数，所以输入的语音数据要足够多，最好在100小时以上。具体流程如下：

1)按所在的混响时间区间分别使用特征提取模块提取带混响的语音及安静语音的特征(如MFCC、LPCC、GFCC等)并做归一化处理。可以是一种特征，也可以是多种特征的组合。在实际处理时，可以将原始的特征经过前后几帧的扩展，形成高维数据，再将高维数据的每一维进行归一化处理。

2)构建编码器。本发明中的编码器的形式采用DAE的形式，使用受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)，RBM是基于能量的生成性模型，由一个输入层和一个隐含层构成，层内无连接，层与层之间全连接。RBM是一个二分图，如图2所示，其中，v为可视层，h为隐含层。堆叠的方式构建深度置信网络如图3所示。对于RBM，当给定可视层v和隐含层h以及能量函数E(v,h；θ)时，联合概率分布P(v,h；θ)可以表示为：

其中，Z(θ)为分配函数，RBM的能量函数如下：

其中，D和F分别为可视层和隐含层对应的节点数，a_d和b_f分别为可视层和隐含层对应的偏移量，W_df为可视层d与隐含层f之间的权重，θ＝{W,a,b}为模型参数。

3)训练编码器。分别训练各个混响时间区间内的语音特征，并得到对应的混响模型。校正数据为安静语音对应的特征，输入数据为其中一个区间内的语音特征。首先，采用自下而上的非监督学习。从底层开始一层一层的往顶层训练分别得到各层参数。之后，自上而下的监督学习。通过校正数据去训练误差自上向下传输，对网络进行微调。基于第一步得到的各层参数进一步调整整个多层网络的参数，这一步是一个有监督训练过程。通过以上训练，我们得到一个区间内混响语音对应的模型。充分以上步骤，直到所有区间内的语音数据都训练结束，我们可以得到每个区间对应的混响模型。具体训练步骤如下：

①预训练。对RBM进行逐层训练，采用对比散度法将训练数据赋给显层v⁽⁰⁾，计算它使隐层神经元被开启的概率

其中，sigm(x)为激活函数。然后，从计算出的概率分布中抽取一个样本

h⁽⁰⁾～P(h⁽⁰⁾|v⁽⁰⁾) (5)

用h⁽⁰⁾重构显层

同样抽取显层的一个样本

v⁽¹⁾～P(v⁽¹⁾|h⁽⁰⁾) (7)

再次用显层神经元(重构后的)计算出隐层神经元被开启的概率

按下式更新权值

其中，λ为学习率。

②混响模型调优过程。当逐层训练完网络后，采用误差反向传播(Error BackPropagation,BP)算法，对网络参数进行微调。将调优后的混响模型存储在存储器中。

(3)将模型存储器13中的所有混响模型及对应的一些参数存储到音频处理装置30中的第二存储器34里。

以上过程均在线下完成，不会对应用中的系统带来大的运算量，对于音频处理装置30只要混响模型及对应的参数。

2.RT60获取装置：

由于RT60通常是未知的，所以要从混响语音中估计得到。但是这种方法很难可靠的估计出RT60。本发明中RT60的估计采用RT60获取装置20得到。RT60获取装置20主要由RT60获取模块21、第一存储器22、算术平均模块23和第一无线接口24组成。其中RT60获取模块21用于估计当前环境下的RT60值；第二存储器22用于存放获取到的RT60值；算术平均模块23用于估计当前环境下的RT60“真值”；第一无线接口24用于向音频处理装置30发送RT60的“真值”。该装置的具体工作流程如下：

(1)将RT60获取装置20和音频处理装置30安装在同一个房间中。这样可以是RT60获取装置20获取的RT60值尽可能接近当前环境的RT60真值。

(2)使用RT60获取模块21获取当前时刻的RT60估计值。具体的获取方法可以参见ISO 3382-1:2009中的说明。该RT60获取模块21能够每隔一段时间获取多个频率上的RT60估计值，并且可以将每次获取的RT60值存储到RT60获取装置20中的第一存储器22里。其中，间隔时间是可以人为设置的，由于室内是一个较为稳定的环境，因此并不需要一直去测量。

(3)使用第一存储器22存储RT60获取模块21测得的RT60值。可以是每次得到的RT60值都存储，用于后续研究房间内RT60的变化规律；也可以只存储最近的几个时刻测得的RT60值，用于估计RT60的“真值”。

(4)使用算数平均模块23，估计出当前时刻的RT60“真值”。实际应用中可以采用将最近的几个时刻获取的RT60值进行算术平均得到的值作为当前时刻的RT60“真值”。或者只将当前时刻获取的RT60值进行算术平均得到的值作为当前时刻的RT60“真值”。

(5)采用第一无线接口24向音频处理装置30发送RT60的“真值”。该第一无线接口24允许向音频处理装置30发送RT60值。发送过程是每隔一段时间发送一次，即获取到当前时刻的RT60“真值”后，就将该值通过第一无线接口24发送给音频处理装置30，并存储在音频处理装置30的第二存储器34里。

3.音频处理装置：

音频处理装置30用于对输入语音进行去混响处理，并且输出混响消除后的语音特征。主要由第二特征提取模块31、解码模块32、第二无线接口33和第二存储器34组成。其中，第二特征提取模块31用于对输入语音提取特征，并对特征做归一化处理。这里要强调的是，音频处理装置30的第二特征提取模块31要与混响模型训练装置10中的第一特征提取模块11一致。第二存储器34用于存储混响模型训练装置10训练得到的混响模型及接收到的RT60“真值”。第二无线接口33用于接收RT60获取装置20发送的RT60“真值”，也可以接收其他数据。解码模块32用于对输入特征根据相应的混响模型参数进行解码，并输出解码后的语音特征。该装置的具体工作流程如下：

(1)将音频处理装置30与RT60获取装置20安装在同一个房间。

(2)使用第二无线接口33先接收到RT60值，也可以事先写入一个RT60值并且确保第二存储器34里已经存储了所有的混响模型。若要先使用第二无线接口33接收RT60值，RT60获取装置20必须现处于工作状态。可以每当接收到一个RT60值时，就覆盖原来存储的RT60值这样要求RT60获取装置20一直处于工作状态；也可以连续的存储多个RT60值，当所存储的值达到一定数量后，要去判断所有的RT60之中属于哪个混响时间区间的概率最大，在之后的处理中就以该区间对应的混响模型作为该环境下的混响环境模型，这样RT60获取装置20就可以不用工作了。

(3)使用音频处理装置30中的第二特征提取模块31提取输入语音的特征(如MFCC、LPCC、GFCC等)并做归一化处理。可以是一种特征，也可以是多种特征的组合但必须与混响模型训练装置10中的第一特征提出模块11使用的方法一致。

(4)当第二存储器34里只存储最近的时刻接收到的RT60值，用这个RT60值代表从接收时刻到下一个接收时刻没室内环境的RT60“真值”时，调用第二存储器34里RT60值所处区间对应的混响模型。当采用连续的存储多个RT60值，当所存储的值达到一定数量后，去判断所有的RT60之中属于哪个混响时间区间的概率最大，在之后的处理中就以该区间对应的混响模型作为该环境下的混响环境模型的方法时，一开始也是调用第二存储器34里RT60值所处区间对应的混响模型，当获得该环境下的混响模型后，就直接调用该混响模型。

(5)根据输入的语音特征及混响模型，采用解码模块32进行解码并输出混响消除后的语音特征并输出特征。通过混响模型的参数对输入的语音特征进行映射得到混响消除后的语音特征。该输出可作为鲁棒性语音特征供语音识别或说话人识别使用。

本发明的原理如下：

首先通过混响模型训练装置10训练好各个RT60区间的混响模型，然后使用RT60获取装置20获取当前环境下的RT60值。最后通过RT60值选择对应的混响模型，并使用该模型对输入音频的特征进行解码，获得混响消除后的语音特征并输出。

由于混响与所处的环境相关，而RT60值的大小能够大致的表征房间内的混响量。RT60越大，表示房间内的语音受混响的影响越大。本发明中使用不同RT60区间内的带混响语音采用DAE分别训练不同的混响模型(采用分区间的方法可以允许RT60值与真值之间存在一些误差，使用DAE是因为DAE学习输入信号的更加鲁棒的表达)，解码时根据当前的RT60值所在的区间，采用对应的混响模型参数进行解码，实现对混响环境的自适应。

下面结合附图及优选实例对本发明做进一步说明：

本发明系统主要由混响模型训练装置10、RT60获取装置20和音频处理装置30三个部分组成。首先使用混响模型训练装置10训练混响模型，其次使用RT60获取装置20测量当前环境下的RT60值，最后使用音频处理装置30根据RT60值所在的区间对应的模型对输入语音进行混响消除。其中混响模型训练装置10在线下训练完成得到混响模型，RT60获取装置20和音频处理装置30安装在同一个房间中。具体各装置的工作流程如下：

步骤100：使用混响模型训练装置10训练混响模型，并且将训练得到的混响模型存储于音频处理装置30的第二存储器34中。

步骤200：采用RT60获取装置20获取当前环境下的RT60值，并且发送给音频处理装置30。

步骤300：输入获取到的数字语音信号。

步骤400：使用音频处理装置30中的第二特征提取模块31提取输入语音的MFCC，具体步骤与混响模型训练装置10中的特征提取一致。

步骤500：将原始的特征经过前5帧后4帧的扩展，形成320维数据，再将320维数据的每一维进行均值方差归一化处理。

步骤600：根据获取到的RT60值，读取第二存储器34里对应的混响模型。

步骤700：根据输入的归一化MFCC特征及混响模型，通过混响模型的参数对输入的语音特征进行映射得到混响消除后的语音特征，也就是将提取的归一化MFCC特征作为输入，根据混响模型的参数得到不带混响的语音特征。

由于混响与所处的环境相关，而RT60值的大小能够大致的表征房间内的混响量。RT60越大，表示房间内的语音受混响的影响越大。本发明中使用不同RT60区间内的带混响语音采用DAE分别训练不同的混响模型。下面结合图7具体说明步骤100和步骤200：

步骤101：整理语料。本实施例中，混响语音采用在安静语音的基础上卷积加入房间脉冲响应获得。将混响时间RT60值0.2s～1.9s分成如下表所示的6个区间。区间内每隔0.1s卷积加入混响时间和房间大小对应的房间脉冲响应。通过以上方法获得了各个区间对应的语音，具体划分如下：

步骤102：按所在的混响时间区间分别使用特征提取模块提取带混响的语音及安静语音的MFCC。MFCC提取步骤如下：

(1)将输入语音信号进行分帧、预加重、加汉明窗处理，之后进行短时傅里叶变换得到其频谱。其中帧长为20ms，帧移为10ms，预加重系数为0.9375。

(2)求出能量谱，并用P个MEL带通滤波器进行滤波；这时第k个滤波器的输出功率谱x'(k)。

(3)将每个滤波器的输出取对数，得到相应频带对应的对数功率谱；进行反离散余弦变换，得到L个MFCC系数，本例中L取16。MFCC系数为：

(4)将得到的MFCC特征作为静态特征，再将其做一阶差分，得到一阶动态特征。合并静态特征和一阶动态特征得到MFCC+ΔMFCC。

步骤103：将原始的特征经过前5帧后4帧的扩展，形成320维数据，再将320维数据的每一维进行均值方差归一化处理。均值方差归一化方法如下：

其中μ_n(k)为均值，σ_n(k)为方差。

步骤104：构建编码器。编码器的形式采用DAE的形式，使用RBM堆叠的方式构建深度置信网络。网络结构及各层的节点数如图4的右图所示。该网络包括一个输入层，五个隐含层和一个校正数据层组成，各层节点数依次为320×512×128×64×128×512×320。

步骤105：训练编码器。分别训练各个混响时间区间内的语音特征，并得到对应的混响模型。校正数据为安静语音对应的特征，输入数据为区间一内的语音特征。首先，采用自下而上的非监督学习。从底层开始一层一层的往顶层训练分别得到各层参数。之后，自上而下的监督学习。通过校正数据去训练误差自上向下传输，对网络进行微调。基于第一步得到的各层参数进一步调整整个多层网络的参数，这一步是一个有监督训练过程。通过以上训练，我们得到区间一内混响语音对应的模型。将输入数据改为区间二内的语音特征直到所有区间内的语音数据，重复以上训练步骤，直到训练好六个区间对应的混响模型步骤都训练结束，具体训练步骤如下：

(1)预训练。对RBM进行逐层训练如图5左图所示，采用对比散度法将训练数据赋给显层v⁽⁰⁾，计算它使隐层神经元被开启的概率

h⁽⁰⁾～P(h⁽⁰⁾|v⁽⁰⁾) (4)

用h⁽⁰⁾重构显层

同样抽取显层的一个样本

v⁽¹⁾～P(v⁽¹⁾|h⁽⁰⁾) (6)

按下式更新权值

其中，λ为学习率。

(2)混响模型调优过程，如图5右图所示。当逐层训练完网络后，以最小化交叉熵为目标，采用误差反向传播(Error Back Propagation，BP)算法，对网络参数进行微调。将调优后的混响模型存储在存储器中。

步骤106：将模型存储器13中的所有混响模型及对应的一些参数存储到音频处理装置30中的第二存储器34里。

步骤201：使用RT60获取模块21获取当前时刻的RT60估计值。具体的获取方法可以参见ISO 3382-1:2009中的说明。该RT60获取模块21每三个小时分别测量一次[200Hz、500Hz、1000Hz、3000Hz、5000Hz]5个频率上的混响时间。

步骤202：使用第一存储器22存储RT60获取模块21测得的RT60值。只存储最近的三个时刻测得的RT60值，用于估计RT60的“真值”当超过三个后将自动覆盖较早存储的那个值。

步骤203：使用算数平均模块23，估计出当前时刻的RT60“真值”。将最近的三个时刻获取的RT60值求其平均值得到的值作为当前时刻的RT60“真值”。

步骤204：采用第一无线接口24向音频处理装置30发送RT60的“真值”。该第一无线接口24允许向音频处理装置30发送RT60值。每隔三个小时发送一次，即获取到当前时刻的RT60“真值”后，就将该值通过第一无线接口24发送给音频处理装置30，并存储在音频处理装置30的第二存储器34里。

本发明的设计重点在于：首先，考虑到RT60值的大小可以近似表征房间的混响量的大小及特殊的室内应用环境(RT60的值会在一个较小的范围内)，本发明中将RT60值按大小分成多个区间，使用区间内的语音特征来训练混响模型，使得数据训练的更加充分，混响模型更有针对性；其次，通过结合当前环境的RT60值所在区间和使用对应区间的混响模型进行解码的方法实现了对不同房间环境的自适应；再者，由于采用深度网络训练模型，在实际应用时就不需要估计混响分量，直接根据模型参数进行解码即可得到混响消除后的语音特征，减少了计算量。

以上所述，仅是本发明的较佳实施例而已，并非对本发明的技术范围作任何限制，故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种环境自适应的语音混响消除方法，其特征在于：包括有以下步骤：

步骤100 ：使用混响模型训练装置训练混响模型，并且将训练得到混响模型的存储于音频处理装置的第二存储器中；

步骤200 ：采用RT60获取装置获取当前环境下的RT60值，并且发送给音频处理装置；

步骤300 ：输入获取到的数字语音信号；

步骤400 ：使用音频处理装置中的第二特征提取模块提取输入语音的MFCC，具体步骤与混响模型训练装置中的特征提取一致；

步骤500 ：将原始的特征经过前5帧后4帧的扩展，形成320维数据，再将320维数据的每一维进行均值方差归一化处理；

步骤600 ：根据获取到的RT60值，读取第二存储器里对应的混响模型；

步骤700 ：根据输入的归一化MFCC特征及混响模型，通过混响模型的参数对输入的语音特征进行映射得到混响消除后的语音特征，也就是将提取的归一化MFCC特征作为输入，根据混响模型的参数得到不带混响的语音特征；

步骤800 ：输出混响消除后的语音特征，该输出作为鲁棒性语音特征供语音识别或说话人识别使用。

2.根据权利要求1所述的一种环境自适应的语音混响消除方法，其特征在于：所述步骤100中包括有以下步骤：

步骤102 ：按所在的混响时间区间分别使用第一特征提取模块提取带混响的语音及安静语音的MFCC；

步骤103 ：将原始的特征经过前5帧后4帧的扩展，形成320维数据，再将320维数据的每一维进行均值方差归一化处理；

3.根据权利要求1所述的一种环境自适应的语音混响消除方法，其特征在于：所述步骤200中包括有以下步骤：

步骤201：使用RT60获取模块获取当前时刻的RT60估计值；

步骤202：使用第一存储器存储RT60获取模块测得的RT60值；

步骤204 ：采用第一无线接口向音频处理装置发送RT60的“真值”。

4.一种环境自适应的语音混响消除系统，其特征在于：包括有混响模型训练装置、RT60获取装置以及音频处理装置；该混响模型训练装置包括有第一特征提取模块、编码模块和模型存储器，该第一特征提取模块连接编码模块，该编码模块连接模型存储器；该RT60获取装置包括有RT60获取模块、第一存储器、算数平均模块和第一无线接口，该RT60获取模块连接第一存储器，该第一存储器连接算数平均模块，该算数平均模块连接第一无线接口；该音频处理装置包括有第二特征提取模块、解码模块、第二无线接口和第二存储器，该第二特征提取模块连接解码模块，该第二无线接口连接第二存储器，该第二存储器连接解码模块，前述第一无线接口无线连接第二无线接口，前述模型存储器连接第二存储器。