CN110070883B - 语音增强方法 - Google Patents
语音增强方法 Download PDFInfo
- Publication number
- CN110070883B CN110070883B CN201910296437.7A CN201910296437A CN110070883B CN 110070883 B CN110070883 B CN 110070883B CN 201910296437 A CN201910296437 A CN 201910296437A CN 110070883 B CN110070883 B CN 110070883B
- Authority
- CN
- China
- Prior art keywords
- voice
- air guide
- statistical model
- air
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Telephonic Communication Services (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
本发明公开一种语音增强方法,包括:计算第m帧的滤波增强语音xm的权重和第m帧的映射语音ym的权重通过以下公式将滤波增强语音xm与映射语音ym加权叠加,得到融合增强语音:其中滤波增强语音是对同步采集的气导检测语音和非气导检测语音中的气导检测语音进行增强滤波获得,映射语音是对非气导检测语音进行非气导语音到气导语音的转换获得。
Description
技术领域
本发明是申请人于2016年01月14日提出的名为“一种基于统计模型的双传感器语音增强方法与装置”、申请号为201610025390的专利申请的分案申请,本发明涉及数字信号处理领域,特别涉及一种语音增强方法。
背景技术
通信是现代人与人之间进行交流的重要手段,而语音作为通信系统中最常见的形式,其质量直接影响了人们获取信息的准确性。语音在传播的过程中,难免受到各种各样环境噪声的干扰,其音质、可懂度都将明显下降,因此在实际应用中往往会利用语音增强技术对噪声环境下的语音进行处理。
语音增强技术能从噪声背景中提取有用的语音信号,是抑制、降低噪声干扰的基本手段。传统的语音增强对象是基于空气传导传感器(如麦克风等)采集的语音信号,根据处理方式的不同,常用的语音增强技术可以分为基于模型的方法和非基于模型的方法两类。非基于模型的增强方法有谱减法、滤波法、小波变换法等,它们通常假定噪声是相对平稳的,当噪声变化过快时,其增强效果并不能令人满意。基于模型的语音增强方法则首先对语音信号和噪声信号建立统计模型,然后通过模型获取干净语音的最小均方误差估计或最大后验概率估计。这类方法能够避免音乐噪声的产生,并能处理非平稳噪声。但由于上述的基于模型和非基于模型的方法均基于麦克风等空气传导语音传感器,其信号容易受环境中的声学噪声影响,特别是在强噪声环境下,系统性能会大幅度下降。
为解决强噪声对语音处理系统的影响,有别于传统的空气传导传感器,非空气传导的语音传感器利用说话人声带、颚骨等部位的振动来带动传感器中的簧片或者碳膜发生变化,改变其电阻值,使其两端的电压发生变化,从而将振动信号转化为电信号,即语音信号。由于空气中传导的声波无法使非空气传导传感器的簧片或者碳膜发生形变,因此非空气传导传感器不受空气传导声音的影响,具有很强的抗环境声学噪声干扰的能力。但因非空气传导传感器采集的是通过颚骨、肌肉、皮肤等的振动传播的语音,表现为发闷、含糊不清,其高频部分丢失严重,语音可懂度较差,制约了非空气传导技术的实际应用。
鉴于空气传导与非空气传导传感器的单独应用都存在一定的缺陷,近年来出现了一些结合两者优点的语音增强方法。这些方法利用空气传导传感器语音和非空气传导传感器语音的互补性,采用多传感器融合技术来实现语音增强的目的,通常能取得比单传感器语音增强系统更好的效果。但现有的空气传导传感器与非空气传导传感器结合的语音增强方法还存在以下不足:(1)空气传导传感器语音与非空气传导传感器语音通常独立地进行恢复处理,然后再将两者恢复后的语音进行融合,未能在空气传导传感器语音和非空气传导传感器语音的恢复过程中充分利用两者之间的互补性;(2)在多变的强噪音环境下,空气传导传感器语音纯语音段的统计特性会被严重干扰,增强语音的信噪比也会降低,导致融合后语音增强效果不明显。
发明内容
本发明提供一种语音增强方法,包括:计算第m帧的滤波增强语音xm的权重和第m帧的映射语音ym的权重/>通过以下公式将滤波增强语音xm与映射语音ym加权叠加,得到融合增强语音:/>其中滤波增强语音是对同步采集的气导检测语音和非气导检测语音中的气导检测语音进行增强滤波获得,映射语音是对非气导检测语音进行非气导语音到气导语音的转换获得。
本发明相对于现有技术具有如下的优点及效果:
1、本发明在气导语音增强过程中,结合非气导传感器语音和气导传感器语音来构建当前用于分类的语音统计模型以及进行端点检测,并据此构造最佳气导语音滤波器,提高了气导语音的增强效果,显著增加了整个系统的鲁棒性;
2、本发明采用了两级语音增强的结构方法,在气导语音因强噪声而滤波效果不好时,第二级语音增强将滤波语音与非气导语音的映射语音进行自适应加权融合,仍能取得好的语音增强效果;
3、本发明采用的空气传导传感器与非空气传导传感器之间没有距离限制,使用方便。
附图说明
图1是本发明实施例公开的基于统计模型的双传感器语音增强方法的流程步骤图;
图2为本发明实施例中训练语音统计模型的流程步骤图;
图3为本发明实施例中建立非气导语音到气导语音映射模型的流程步骤图;
图4为本发明实施例中建立气导噪声统计模型的流程步骤图;
图5为本发明实施例中修正联合统计模型的流程步骤图;
图6为本发明实施例中估算最佳气导语音滤波器的流程步骤图;
图7为本发明实施例中映射语音和滤波增强语音加权融合的流程步骤图;
图8为本发明实施例公开的基于统计模型的双传感器语音增强装置的结构框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一
本实施例公开了一种基于统计模型的双传感器语音增强方法,具体流程步骤参照附图1所示,可知该双传感器语音增强方法包括下列流程步骤:
步骤S1:同步采集干净的气导训练语音和非气导训练语音,建立用于分类的联合统计模型,并计算对应于每个分类的气导语音线性频谱统计模型,具体又可以分为以下几步,流程如图2所示:
步骤S1.1:同步采集干净的气导训练语音和非气导训练语音并进行分帧,提取每帧语音的特征参数;
上述实施例中,利用语音接收模块采集干净、同步的气导训练语音和非气导训练语音。对输入的干净训练语音进行分帧和预处理后做离散傅里叶变换,然后利用梅尔滤波器,提取两种训练语音的梅尔频率倒谱系数MFCC,作为联合统计模型的训练数据。
在另一些实施例中,提取的是气导训练语音和非气导训练语音的LPCC或LSF系数。
步骤S1.2:将步骤S1.1中气导训练语音和非气导训练语音的特征参数拼接得到干净的联合语音特征参数;
上述实施例中,将气导训练语音的倒谱域特征矢量序列记为:SN={sN1,sN2,...,sNn},n为语音数据帧数,sNl为第l帧特征的列向量;非气导训练语音的倒谱域特征矢量序列记为:ST={sT1,sT2,…,sTn},帧数为n,sTl为第l帧特征的列向量。将第l帧气导训练语音和第l帧非气导训练语音的倒谱域特征参数进行拼接,得到第l帧倒谱域联合特征矢量为
步骤S1.3:利用步骤S1.2得到的联合语音特征参数,训练用于分类的倒谱域联合统计模型;
上述实施例中,采用多数据流混合高斯模型来拟合联合训练语音的概率分布,倒谱域联合统计模型的概率密度函数为:
其中s是语音数据流的序号,M是GMM中的混合分量数,θs是语音数据流所占权重,πm是模型混合分量先验权重, 和/>分别表示倒谱域联合统计模型第m分类中语音数据流s的均值矢量和方差矩阵,zs为第s个数据流的特征矢量,/>是单高斯分布概率密度函数。令λ表示多数据流高斯混合模型的参数集,Z={z1,z2,...,zn}表示训练用的倒谱域联合特征矢量集合,则倒谱域联合统计模型似然函数为:
利用最大期望算法(Expectation Maximization Algorithm)可以求出使得P(Z|λ)最大的模型参数集λ。
步骤S1.4:对用于训练的所有倒谱域联合语音帧进行分类,计算属于每个分类的所有联合语音帧中气导语音的线性频谱域统计参数,建立与每个分类相对应的气导语音线性频谱统计模型。
上述实施例中,多数据流混合高斯模型中的每个高斯分量代表一个分类,对于用于训练的所有倒谱域联合语音帧,计算每一帧倒谱域联合特征矢量zl属于倒谱域联合统计模型第m分类的概率,公式如下:
其中表示第l帧语音中第s个语音数据流的倒谱域特征矢量。记下最大概率max{p(m|zl)}所对应的模型混合分量(即分类)。
完成所有倒谱域联合语音帧的分类后,计算聚集在同一分类上的所有联合语音帧中气导语音的频谱均值作为与倒谱域联合统计模型相对应的气导语音线性频谱统计模型参数。
在另外一些实施例中,采用多数据流隐马尔科夫模型作为联合统计模型,并以多数据流隐马尔科夫模型中的每个高斯分量表示一个分类。
步骤S2:利用步骤S1同步采集的气导与非气导训练语音,建立非气导语音到气导语音的映射模型,具体又分为以下步骤,其流程如图3所示:
步骤S2.1:对步骤S1中同步采集的干净非气导训练语音和气导训练语音进行分帧,将非气导训练语音帧作为输入,同时刻的气导训练语音帧作为理想输出,送入初始化后的前馈神经网络;
上述实施例中,首先对气导训练语音和非气导训练语音分帧,分别提取气导训练语音帧和非气导训练语音帧的线谱频率(LSF)参数,给定前馈神经网络的输入输出模式(LT,LN),LT表示非气导训练语音的LSF向量,作为前馈神经网络的输入,LN表示气导训练语音的LSF向量,作为前馈神经网络的理想输出,并初始化前馈神经网络权值。
步骤S2.2:根据最小均方误差准则,采用尺度共轭梯度算法训练前馈神经网络的权重系数,使得实际输出与理想输出之间的误差最小,得到非气导语音到气导语音的映射模型;
上述实施例中,前馈神经网络第l层的神经元到第l+1层的第j个神经元的连接权值向量为:
其中为第l层的第i个神经元到第l+1层的第j个神经元的连接权值,Nl为第l层的神经元个数,/>为第l+1层的第j个神经元的阈值,由所有/>构成的前馈神经网络权重矢量如下:
其中M是神经网络层数,N为输出层神经元个数。记P为训练语音帧数,神经网络实际输出向量L*与理想输出L之间的误差为:
采用尺度共轭梯度算法对前馈神经网络权重进行迭代,第k+1次迭代结果为:
wk+1=wk+αkPk (14)
其中搜索方向Pk和步长αk由以下公式给出:
其中E'(wk)和E”(wk)分别是E(w)的一阶导数和二阶导数,当E'(wk)=0即误差E(w)达到最小值时,获得最佳权重系数Wbest。
步骤S3:同步采集气导检测语音和非气导检测语音并检测气导检测语音的端点,然后利用气导检测语音的纯噪声段建立频谱域气导噪声统计模型,具体采用以下步骤,其流程如图4所示:
步骤S3.1:同步采集气导检测语音和非气导检测语音并分帧;
步骤S3.2:根据非气导检测语音帧的短时自相关函数Rw(k)和短时能量Ew,计算每帧非气导检测语音帧的短时平均过门限率Cw(n):
Cw(n)={|sgn[Rw(k)-αT]-sgn[Rw(k-1)-αT]|+|sgn[Rw(k)+αT]-sgn[Rw(k-1)+αT]|}w(n-k) (17)
其中sgn[·]为取符号运算,是调节因子,w(n)是窗函数,T是门限初值。当Cw(n)大于预设的门限值时,判断该帧为语音信号,否则为噪声。根据每帧的判决结果得到非气导检测语音信号的端点位置;
步骤S3.3:将步骤S3.2检测到的非气导检测语音信号端点对应的时刻作为气导检测语音的端点,提取气导检测语音中的纯噪声段;
步骤S3.4:计算气导检测语音中纯噪声段信号的线性频谱均值,保存该均值参数,建立频谱域气导噪声的统计模型。
步骤S4:利用气导噪声统计模型修正步骤S1中的联合统计模型,并对气导检测语音帧进行分类,然后根据分类结果对应的气导语音线性频谱统计模型和气导噪声统计模型计算最佳气导语音滤波器,并对气导检测语音进行滤波增强。
上述实施例中,首先采用模型补偿技术对联合统计模型中的气导检测语音数据流参数进行修正,具体包括以下步骤,其流程如图5所示:
步骤S4.1a:将梅尔倒谱域联合统计模型参数转换到线性频谱域。上述实施例中,首先采用离散余弦逆变换C-1将梅尔倒谱域联合统计模型第m分类的均值和方差/>转换到对数域:/> 其中/>和/>分别为对数域的均值和方差。再从对数域转换到线性频谱域:
其中为线性频谱域均值矢量/>的第i个分量,/>为线性频谱域方差矩阵/>第i行第j列的元素。
步骤S4.2a:按气导干净语音和气导噪声在线性频谱域是加性关系对联合统计模型中的气导语音数据流参数进行修正。上述实施例中,对气导语音数据流的参数进行如下修正:
其中g是气导检测语音的信噪比,分别是气导噪声线性频谱域的均值和方差,/>和/>分别为修正后气导语音数据流在线性频谱域的均值和方差。
步骤S4.3a:采用式(13)和式(14)的逆变换将步骤S4.2a修正后的线性频谱域联合模型统计参数转换回原来的特征域(倒谱域),得到修正后的联合倒谱域统计模型。
修正联合统计模型后,可以得到每一帧联合特征检测矢量zl属于联合统计模型第m分类的概率:
上述步骤S4中最佳气导语音滤波器的计算,具体包括以下步骤,其流程如图6所示:
步骤S4.1b:提取气导检测语音和非气导检测语音的联合特征参数,计算每一帧联合检测语音对应于各个分类的修正后联合统计模型的输出概率p(m|zl);
步骤S4.2b:根据上述输出概率计算联合统计模型中非气导检测语音数据流和气导检测语音数据流的权重,可以采用以下步骤:
步骤S4.2.1:设置气导检测语音的初始权重为w0,非气导检测语音的初始权重为1-w0,迭代次数t=0,计算Difft:
其中M表示模型混合分量数,L为语音的帧数,p(j|zl)与p(k|zl)分别为第l帧联合检测语音zl属于联合统计模型中第j分类与第k分类的概率,为联合统计模型第k分类与第j分类统计参数的距离,/>为联合统计模型第k分类与第j分类的均值。
步骤S4.2.2:计算气导检测语音权重非气导检测语音权重θ2(Difft)=1-θ1(Difft),采用更新后的权重重新计算p(j|zl)与p(k|zl),然后根据式(23)计算Difft+1;
步骤S4.2.3:若|Difft+1-Difft|<ξ,ξ为预设的阈值,则停止更新权重,执行步骤S4.2.4,否则t=t+1,转步骤S4.2.2;
步骤S4.2.4:利用DiffT计算最佳权重θ1(DiffT)和θ2(DiffT),其中T为停止更新时t的值。
步骤S4.3b:利用步骤S4.2b得到的联合统计模型对气导检测语音帧进行分类,然后根据分类结果对应的气导语音线性频谱统计模型和气导噪声统计模型计算最佳气导语音滤波器,具体采用以下步骤:
步骤S4.3.1:利用最佳权重θ1(DiffT)和θ2(DiffT)计算联合检测语音帧zl属于当前修正的联合统计模型第m分类的概率p(m|zl);
步骤S4.3.2:采用下式计算最佳气导语音滤波器的频域增益函数:
其中,K是联合统计模型第m分类的均值矢量长度,为联合统计模型第m分类对应的气导语音线性频谱均值矢量/>的第i个值,/>为气导噪声统计模型第m分类对应的噪声线性频谱均值矢量/>的第i个值。
获得最佳气导语音滤波器的频域增益函数后,将气导检测语音转换到频域并保留相位信息,将其幅度谱缩放G(zl)倍,然后转换回时域,得到滤波增强语音。
在另一些实施例中,为了提高运算效率,最佳气导语音滤波器增益函数采用下式计算:
步骤S5:根据步骤S2中得到的非气导语音到气导语音的映射模型,将非气导检测语音转换为气导的映射语音;
步骤S6:对步骤S5中得到的映射语音与步骤4得到的滤波增强语音进行线性加权融合,得到融合增强后的语音,具体采用以下步骤,其流程如图7所示:
步骤S6.1:计算第m帧的滤波增强语音xm的权重和第m帧的映射语音ym的权重
上述实施例中,根据步骤S3端点检测得到的语音信号起点时刻,截取滤波增强语音xm中信号起点前的所有数据帧,求其平均功率作为噪声帧的功率计算第m帧的滤波增强语音xm的权重/>和第m帧的映射语音ym的权重/>
其中分别为第m帧滤波增强语音xm和映射语音ym的幅度方差,α、β为预设的常数,SNRm为第m帧滤波增强语音xm的信噪比:
其中是xm的功率。
步骤S6.2:将滤波增强语音xm与映射语音ym加权叠加,得到融合增强语音:
实施例二
本实施例二公开了一种基于模型的双传感器语音增强装置,由语音接收模块、语音统计模型训练模块、气导噪声统计模型估算模块、气导检测语音滤波增强模块、语音映射模块、语音融合增强模块共同组成,其结构如图2所示。
其中,语音接收模块,用于同步采集干净的气导训练语音和非气导训练语音;
其中,语音统计模型训练模块,用于建立所述联合统计模型和气导语音线性频谱统计模型;
其中,气导噪声统计模型估算模块,检测气导检测语音的端点,然后利用气导检测语音的纯噪声段建立气导噪声统计模型;;
其中,气导检测语音滤波增强模块,用于利用所述气导噪声统计模型修正所述联合统计模型的统计参数,并对气导检测语音帧进行分类,然后结合分类结果所对应的气导语音线性频谱统计模型和气导噪声统计模型计算最佳气导语音滤波器,并对气导检测语音进行滤波增强,得到滤波增强语音;
其中,语音映射模块,用于建立非气导语音到气导语音的映射模型,并根据所述非气导语音到气导语音的映射模型,将非气导检测语音转换为气导特征的映射语音;
其中,语音融合增强模块,用于将所述气导特征的映射语音与所述滤波增强语音进行加权融合,得到融合增强后的语音。
如附图8中所示,其中语音接收模块与语音统计模型训练模块、气导噪声统计模型估算模块、气导检测语音滤波增强模块、语音映射模块连接,语音统计模型训练模块与气导检测语音滤波增强模块连接,气导噪声统计模型估算模块与气导检测语音滤波增强模块连接,气导检测语音滤波增强模块与语音融合增强模块连接,语音映射模块与语音融合增强模块连接。
上述语音接收模块包括气导语音传感器和非气导语音传感器两个子模块,前者用于获取气导语音数据,后者用于获取非气导语音数据;语音统计模型训练模块包括联合统计模型子模块和气导语音线性频谱统计模型子模块,用于建立联合统计模型和气导语音线性频谱统计模型;气导噪声统计模型估算模块用于估计当前系统的环境噪声,对联合统计模型进行修正,同时参与滤波器系数的计算;气导检测语音滤波增强模块由联合统计模型修正子模块、联合检测语音分类识别子模块、最佳气导滤波器系数生成子模块和气导检测语音滤波子模块共同构成,其中联合统计模型修正子模块用于修正联合统计模型的统计参数,联合检测语音分类识别子模块对检测语音进行分类,将分类结果作用于最佳气导滤波器系数生成子模块,最佳气导滤波器系数生成子模块计算出滤波器参数,最后通过气导检测语音滤波子模块得到滤波增强的气导语音;语音映射模块用于将非气导检测语音映射为气导语音;语音融合增强模块包含自适应权重生成子模块和线性融合子模块,前者用于计算映射语音和滤波增强语音的权重,后者利用自适应权重生成子模块的结果将映射语音和滤波增强语音进行线性加权融合,得到融合增强语音。
上述各个子模块中,气导语音传感器与气导噪声统计模型估算模块、联合统计模型子模块、联合检测语音分类识别子模块和气导检测语音滤波子模块连接,非气导语音传感器与联合统计模型子模块、气导噪声统计模型估算模块、语音映射模块、联合检测语音分类识别子模块连接;联合统计模型子模块与气导语音线性频谱统计模型子模块、联合统计模型修正子模块连接,气导语音线性频谱统计模型训练模块与最佳气导滤波器系数生成子模块连接,参与滤波器系数的计算;
气导噪声模型估算模块与联合统计模型修正子模块、最佳气导滤波器系数生成子模块连接;联合统计模型修正子模块与最佳气导滤波器系数生成子模块、气导检测语音滤波子模块连接,联合检测语音分类识别子模块与最佳气导滤波器系数生成子模块连接,最佳气导滤波器系数生成子模块与气导检测语音滤波子模块连接;气导检测语音滤波子模块与自适应权重生成子模块、线性融合子模块连接;语音映射模块与自适应权重生成子模块、线性融合子模块连接;自适应权重生成模块与线性融合模块相连接。
值得注意的是,上述装置实施例中,所包括的各个模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种语音增强方法,其特征在于,包括:
同步采集气导检测语音和非气导检测语音,检测气导检测语音的端点,然后利用气导检测语音的纯噪声段建立气导噪声统计模型;
利用所述气导噪声统计模型修正联合统计模型,并对气导检测语音帧进行分类;
根据分类结果对应的气导语音线性频谱统计模型和气导噪声统计模型计算最佳气导语音滤波器;
利用所述最佳气导语音滤波器对气导检测语音进行滤波增强后得到滤波增强语音,
根据非气导语音到气导语音的映射模型,将非气导检测语音转换为气导的映射语音;
计算第帧的滤波增强语音/>的权重/>和第/>帧的映射语音/>的权重/>;
通过以下公式将滤波增强语音与映射语音/>加权叠加,得到融合增强语音:
;
其中,所述滤波增强语音是对同步采集的气导检测语音和非气导检测语音中的气导检测语音进行增强滤波获得,所述映射语音是对非气导检测语音进行非气导语音到气导语音的转换获得;所述联合统计模型和所述气导语音线性频谱统计模型由同步采集的干净的气导训练语音和非气导训练语音预先建立,所述联合统计模型为倒频域联合统计模型;所述映射模型由所述同步采集的干净的气导训练语音和非气导训练语音预先建立;
其中,将所述气导的映射语音与所述滤波增强语音进行加权融合的步骤之前,进一步包括:
根据对气导检测语音进行端点检测得到的语音信号起点时刻,截取滤波增强语音中信号起点前的所有数据帧,求平均功率作为噪声帧的功率;
信噪比通过以下公式计算:
其中是第/>帧滤波增强语音/>的功率。
2.根据权利要求1所述的方法,其特征在于,所述权重和/>通过以下公式计算:
;
;
其中,和/>分别为第/>帧滤波增强语音/>和映射语音/>的幅度方差,/>为第帧滤波增强语音/>的信噪比,/>、/>为预设的常数。
3.根据权利要求1所述的方法,其特征在于,所述同步采集气导检测语音和非气导检测语音,检测气导检测语音的端点,然后利用气导检测语音的纯噪声段建立气导噪声统计模型的步骤包括:
同步采集气导检测语音和非气导检测语音并分帧;
根据非气导检测语音帧的短时自相关函数和短时能量,计算每帧非气导检测语音帧的短时平均过门限率,当所述短时平均过门限率大于预设的门限值时,判断所述非气导检测语音帧为语音信号,否则为噪声;
根据每个所述非气导检测语音帧的判决结果得到非气导检测语音信号的端点位置;
将检测到的所述非气导检测语音信号端点对应的时刻作为气导检测语音的端点,提取气导检测语音中的纯噪声段;
计算气导检测语音中纯噪声段信号的线性频谱均值,保存该均值为气导噪声的统计模型参数。
4.根据权利要求3所述的方法,其特征在于,所述短时平均过门限率通过以下公式计算:
;
其中为取符号运算,/>为调节因子,/>为窗函数,/>为门限初值,为所述短时自相关函数,/>为所述短时能量,/>为所述短时平均过门限率。
5.根据权利要求1所述的方法,其特征在于,所述联合统计模型通过以下步骤进行修正:
将联合统计模型的参数转换到线性频谱域;
按气导干净语音和气导噪声在线性频谱域是加性关系对联合统计模型中的气导语音数据流参数进行修正;
将修正后的线性频谱域联合统计模型参数转换回原来的特征域,得到修正后的联合统计模型;
其中,所述联合统计模型中的所述气导语音数据流参数为混合高斯模型或隐马尔科夫模型中高斯分量的均值和协方差。
6.根据权利要求1所述的方法,其特征在于,所述根据分类结果对应的气导语音线性频谱统计模型和气导噪声统计模型计算最佳气导语音滤波器包括:
提取气导检测语音和非气导检测语音的联合特征参数,计算每一帧联合检测语音对应于各个分类的修正后联合统计模型的输出概率;
根据上述输出概率计算联合统计模型中非气导检测语音数据流和气导检测语音数据流的权重参数;
根据上述权重参数,采用更新后的联合统计模型对气导检测语音帧进行分类,然后根据分类结果对应的气导语音线性频谱统计模型和气导噪声统计模型计算最佳气导语音滤波器。
7.根据权利要求6所述的方法,其特征在于,所述非气导检测语音数据流和气导检测语音数据流的权重参数通过以下步骤计算:
设置气导检测语音的初始权重为,非气导检测语音的初始权重为/>,迭代次数,计算/>
其中表示模型混合分量数,/>为语音的帧数,/>与/>分别为第/>帧联合检测语音/>属于联合统计模型中第/>分类与第/>分类的概率,/>为联合统计模型第/>分类与第/>分类统计参数的距离,/>、/>为联合统计模型第/>分类与第/>分类的统计参数;
计算气导检测语音权重,非气导检测语音权重,采用更新后的权重重新计算/>与/>,然后重新计算;
若,/>为预设的阈值,则停止更新权重,执行下一步骤,否则/>,转回上一步骤;
利用计算最佳权重/>和/>,其中/>为停止更新时/>的值;
所述最佳气导语音滤波器通过以下步骤计算:
利用最佳权重和/>计算联合检测语音帧/>属于当前修正的联合统计模型第/>分类的概率/>;
采用以下公式中的一个计算最佳气导语音滤波器的频域增益函数:
;
;
其中是联合统计模型第/>分类的均值矢量维数,/>为联合统计模型第/>分类对应的气导语音线性频谱均值矢量/>的第/>个分量,/>为气导噪声统计模型第/>分类对应的噪声线性频谱均值矢量/>的第/>个分量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910296437.7A CN110070883B (zh) | 2016-01-14 | 2016-01-14 | 语音增强方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610025390.7A CN105632512B (zh) | 2016-01-14 | 2016-01-14 | 一种基于统计模型的双传感器语音增强方法与装置 |
CN201910296437.7A CN110070883B (zh) | 2016-01-14 | 2016-01-14 | 语音增强方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610025390.7A Division CN105632512B (zh) | 2016-01-14 | 2016-01-14 | 一种基于统计模型的双传感器语音增强方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110070883A CN110070883A (zh) | 2019-07-30 |
CN110070883B true CN110070883B (zh) | 2023-07-28 |
Family
ID=56047353
Family Applications (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910296437.7A Active CN110070883B (zh) | 2016-01-14 | 2016-01-14 | 语音增强方法 |
CN201610025390.7A Active CN105632512B (zh) | 2016-01-14 | 2016-01-14 | 一种基于统计模型的双传感器语音增强方法与装置 |
CN201910296425.4A Active CN110010149B (zh) | 2016-01-14 | 2016-01-14 | 基于统计模型的双传感器语音增强方法 |
CN201910296436.2A Active CN110085250B (zh) | 2016-01-14 | 2016-01-14 | 气导噪声统计模型的建立方法及应用方法 |
CN201910296427.3A Active CN110070880B (zh) | 2016-01-14 | 2016-01-14 | 用于分类的联合统计模型的建立方法及应用方法 |
Family Applications After (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610025390.7A Active CN105632512B (zh) | 2016-01-14 | 2016-01-14 | 一种基于统计模型的双传感器语音增强方法与装置 |
CN201910296425.4A Active CN110010149B (zh) | 2016-01-14 | 2016-01-14 | 基于统计模型的双传感器语音增强方法 |
CN201910296436.2A Active CN110085250B (zh) | 2016-01-14 | 2016-01-14 | 气导噪声统计模型的建立方法及应用方法 |
CN201910296427.3A Active CN110070880B (zh) | 2016-01-14 | 2016-01-14 | 用于分类的联合统计模型的建立方法及应用方法 |
Country Status (1)
Country | Link |
---|---|
CN (5) | CN110070883B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808662B (zh) * | 2016-09-07 | 2021-06-22 | 斑马智行网络(香港)有限公司 | 更新语音识别用的语法规则库的方法及装置 |
CN107886967B (zh) * | 2017-11-18 | 2018-11-13 | 中国人民解放军陆军工程大学 | 一种深度双向门递归神经网络的骨导语音增强方法 |
CN107993670B (zh) * | 2017-11-23 | 2021-01-19 | 华南理工大学 | 基于统计模型的麦克风阵列语音增强方法 |
CN109584894A (zh) * | 2018-12-20 | 2019-04-05 | 西京学院 | 一种基于雷达语音与麦克风语音相融合的语音增强方法 |
CN109767783B (zh) * | 2019-02-15 | 2021-02-02 | 深圳市汇顶科技股份有限公司 | 语音增强方法、装置、设备及存储介质 |
CN109767781A (zh) * | 2019-03-06 | 2019-05-17 | 哈尔滨工业大学(深圳) | 基于超高斯先验语音模型与深度学习的语音分离方法、系统及存储介质 |
CN110265056B (zh) * | 2019-06-11 | 2021-09-17 | 安克创新科技股份有限公司 | 音源的控制方法以及扬声设备、装置 |
CN110390945B (zh) * | 2019-07-25 | 2021-09-21 | 华南理工大学 | 一种双传感器语音增强方法及实现装置 |
CN110797039B (zh) * | 2019-08-15 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、终端及介质 |
CN111724796B (zh) * | 2020-06-22 | 2023-01-13 | 之江实验室 | 一种基于深度脉冲神经网络的乐器声音识别方法及系统 |
CN113178191A (zh) * | 2021-04-25 | 2021-07-27 | 平安科技(深圳)有限公司 | 基于联邦学习的语音表征模型训练方法、装置、设备及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1992015155A1 (en) * | 1991-02-19 | 1992-09-03 | Motorola, Inc. | Interference reduction system |
JP2001236089A (ja) * | 1999-12-17 | 2001-08-31 | Atr Interpreting Telecommunications Res Lab | 統計的言語モデル生成装置、音声認識装置、情報検索処理装置及びかな漢字変換装置 |
CN1750123A (zh) * | 2004-09-17 | 2006-03-22 | 微软公司 | 多传感器语音增强的方法和装置 |
CN101080765A (zh) * | 2005-05-09 | 2007-11-28 | 株式会社东芝 | 语音活动检测装置和方法 |
JP2008176155A (ja) * | 2007-01-19 | 2008-07-31 | Kddi Corp | 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体 |
CN101320566A (zh) * | 2008-06-30 | 2008-12-10 | 中国人民解放军第四军医大学 | 基于多带谱减法的非空气传导语音增强方法 |
CN102027536A (zh) * | 2008-05-14 | 2011-04-20 | 索尼爱立信移动通讯有限公司 | 响应于说话时在用户面部中感测到的振动对麦克风信号进行自适应滤波 |
CN103208291A (zh) * | 2013-03-08 | 2013-07-17 | 华南理工大学 | 一种可用于强噪声环境的语音增强方法及装置 |
CN103229238A (zh) * | 2010-11-24 | 2013-07-31 | 皇家飞利浦电子股份有限公司 | 用于产生音频信号的系统和方法 |
US9058820B1 (en) * | 2013-05-21 | 2015-06-16 | The Intellisis Corporation | Identifying speech portions of a sound model using various statistics thereof |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7283850B2 (en) * | 2004-10-12 | 2007-10-16 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
CN105224844B (zh) * | 2014-07-01 | 2020-01-24 | 腾讯科技(深圳)有限公司 | 验证方法、系统和装置 |
-
2016
- 2016-01-14 CN CN201910296437.7A patent/CN110070883B/zh active Active
- 2016-01-14 CN CN201610025390.7A patent/CN105632512B/zh active Active
- 2016-01-14 CN CN201910296425.4A patent/CN110010149B/zh active Active
- 2016-01-14 CN CN201910296436.2A patent/CN110085250B/zh active Active
- 2016-01-14 CN CN201910296427.3A patent/CN110070880B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1992015155A1 (en) * | 1991-02-19 | 1992-09-03 | Motorola, Inc. | Interference reduction system |
JP2001236089A (ja) * | 1999-12-17 | 2001-08-31 | Atr Interpreting Telecommunications Res Lab | 統計的言語モデル生成装置、音声認識装置、情報検索処理装置及びかな漢字変換装置 |
CN1750123A (zh) * | 2004-09-17 | 2006-03-22 | 微软公司 | 多传感器语音增强的方法和装置 |
CN101080765A (zh) * | 2005-05-09 | 2007-11-28 | 株式会社东芝 | 语音活动检测装置和方法 |
JP2008176155A (ja) * | 2007-01-19 | 2008-07-31 | Kddi Corp | 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体 |
CN102027536A (zh) * | 2008-05-14 | 2011-04-20 | 索尼爱立信移动通讯有限公司 | 响应于说话时在用户面部中感测到的振动对麦克风信号进行自适应滤波 |
CN101320566A (zh) * | 2008-06-30 | 2008-12-10 | 中国人民解放军第四军医大学 | 基于多带谱减法的非空气传导语音增强方法 |
CN103229238A (zh) * | 2010-11-24 | 2013-07-31 | 皇家飞利浦电子股份有限公司 | 用于产生音频信号的系统和方法 |
CN103208291A (zh) * | 2013-03-08 | 2013-07-17 | 华南理工大学 | 一种可用于强噪声环境的语音增强方法及装置 |
US9058820B1 (en) * | 2013-05-21 | 2015-06-16 | The Intellisis Corporation | Identifying speech portions of a sound model using various statistics thereof |
Non-Patent Citations (5)
Title |
---|
"Combining Standard and Throat Microphones for Robust Speech Recognition";Graciarena M.;《IEEE Signal Processing Letters》;20030331;第10卷(第3期);全文 * |
"Intelligibility Enhancement of Bone Conducted Speech by an Analysis-Synthesis Method";Rahman M. S;《IEEE International Midwest Symposium on》;20110831;全文 * |
"Multi-Sensory Microphones for Robust Speech Detection, Enhancement and Recognition";Zhang Zhengyou, Liu Zicheng;《ICASSP》;20041231;全文 * |
"基于多传感器的语音增强技术";牛颖莉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130115;全文 * |
"基于模型的多数据流语音增强技术";徐舫;《中国优秀硕士学位论文全文数据库 信息科技辑》;20151215;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN105632512B (zh) | 2019-04-09 |
CN110070880B (zh) | 2023-07-28 |
CN110085250B (zh) | 2023-07-28 |
CN110010149A (zh) | 2019-07-12 |
CN105632512A (zh) | 2016-06-01 |
CN110010149B (zh) | 2023-07-28 |
CN110070880A (zh) | 2019-07-30 |
CN110085250A (zh) | 2019-08-02 |
CN110070883A (zh) | 2019-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110070883B (zh) | 语音增强方法 | |
CN105513605B (zh) | 手机麦克风的语音增强系统和语音增强方法 | |
CN108172238B (zh) | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 | |
US11024324B2 (en) | Methods and devices for RNN-based noise reduction in real-time conferences | |
CN106971740B (zh) | 基于语音存在概率和相位估计的语音增强方法 | |
CN108831499A (zh) | 利用语音存在概率的语音增强方法 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
WO2020177372A1 (zh) | 基于超高斯先验语音模型与深度学习的语音分离方法、系统及存储介质 | |
WO2022027423A1 (zh) | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 | |
CN101853665A (zh) | 语音中噪声的消除方法 | |
Lv et al. | A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation | |
CN110390945B (zh) | 一种双传感器语音增强方法及实现装置 | |
Cui et al. | A study of variable-parameter Gaussian mixture hidden Markov modeling for noisy speech recognition | |
CN112185405B (zh) | 一种基于差分运算和联合字典学习的骨导语音增强方法 | |
CN111341351B (zh) | 基于自注意力机制的语音活动检测方法、装置及存储介质 | |
CN111341331A (zh) | 基于局部注意力机制的语音增强方法、装置及介质 | |
CN116106826A (zh) | 声源定位方法、相关装置和介质 | |
CN111429927B (zh) | 提升个性化合成语音质量的方法 | |
JP4517457B2 (ja) | 音声認識装置、及び音声認識方法 | |
Chen | Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering | |
CN108574911A (zh) | 一种无监督单传声器语音降噪方法及系统 | |
CN108573698B (zh) | 一种基于性别融合信息的语音降噪方法 | |
CN106971733A (zh) | 基于语音降噪的声纹识别的方法及系统以及智能终端 | |
Liu et al. | Masking based Spectral Feature Enhancement for Robust Automatic Speech Recognition | |
Krini et al. | Speech enhancement with partial signal reconstruction based on deep recurrent neural networks and pitch-specific codebooks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |