CN107993670B - 基于统计模型的麦克风阵列语音增强方法 - Google Patents

基于统计模型的麦克风阵列语音增强方法 Download PDF

Info

Publication number
CN107993670B
CN107993670B CN201711201341.5A CN201711201341A CN107993670B CN 107993670 B CN107993670 B CN 107993670B CN 201711201341 A CN201711201341 A CN 201711201341A CN 107993670 B CN107993670 B CN 107993670B
Authority
CN
China
Prior art keywords
model
voice
speech
noise
clean
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711201341.5A
Other languages
English (en)
Other versions
CN107993670A (zh
Inventor
张军
邓舒夏
宁更新
冯义志
季飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201711201341.5A priority Critical patent/CN107993670B/zh
Publication of CN107993670A publication Critical patent/CN107993670A/zh
Application granted granted Critical
Publication of CN107993670B publication Critical patent/CN107993670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了基于统计模型的麦克风阵列语音增强方法。该方法先建立用于语音帧分类的干净语音模型,并计算出对应于每个分类的干净语音线性频谱模型;将麦克风阵列接收的信号分为两条支路,主支路采用GSC的固定波束形成器对期望方向的信号进行增强,得到初步增强的语音yc,辅助支路通过GSC的阻塞矩阵和自适应抵消器后,得到噪声分量yn;从辅助支路的信号中估计噪声模型及噪声的线性频谱模型;对yc分帧,利用噪声模型和干净语音模型对每帧语音进行分类;根据分类结果,利用干净语音线性频谱模型和噪声的线性频谱模型构造最佳滤波器;用最佳滤波器对yc进行滤波,获得增强后的语音。本发明提高了输出语音的听觉质量,可在具有嘈杂背景的语音通信中应用。

Description

基于统计模型的麦克风阵列语音增强方法
技术领域
本发明涉及语音信号处理领域,特别是一种基于统计模型的麦克风阵列语音增强方法。
背景技术
在实际语音通信中,语音信号常会受到外界环境噪声的干扰,影响接收语音的质量(非干净语音)。语音增强技术是语音信号处理的一个重要分支,目的是从带噪语音中尽可能地提取纯净的原始语音,广泛应用于嘈杂环境下的语音通信、语音压缩编码和语音识别等领域。
常用的语音增强方法包括两大类,一类是基于单麦克风的语音增强方法,另一类是基于麦克风阵列的语音增强方法。常用的单麦克风语音增强方法有谱减法、维纳滤波法、MMSE、卡尔曼滤波、小波变换等,这类算法通过时域、频域、小波变换域等滤波来抑制噪声,但无法利用信号的空间域信息,因此当噪声较强时,单麦克风语音增强算法的重建语音质量不高。
基于麦克风阵列的语音增强方法的基本思想是将一组麦克风按一定的方式布置在空间不同的位置上,用其构成的传感器阵列接收空间的音频信号。由于麦克风阵列语音增强技术可以利用多路接收信号之间的空间相关性,在接收区域内可以检测、定位和追踪声源,增强指定方向的有用语音信号,抑制无用的干扰和噪声,因此与单麦克风相比,麦克风阵列具有更高的信号增益和更强的干扰抑制能力。现有的麦克风阵列语音增强技术可以大致分为固定波束形成法、自适应波束形成法和后置自适应滤波法三类,其中自适应波束形成法中,滤波器系数随着输入信号统计特性的变化而变化,可以使波束的零陷方向自动对准噪声方向,而注视方向上信号的频率响应固定不变,因此能有效抑制其它方向上的干扰噪声,在实际中得到了广泛的应用。
广义旁瓣相消器(GSC)是麦克风阵列自适应波束形成器的一种通用模型,它把受限的线性约束最小方差(LCMV)最优化问题转化为非约束最优化问题,主支路使用固定波束形成器增强期望方向的信号,辅助支路使用空间陷波器来阻塞期望方向上的信号,估计主支路的噪声,并通过自适应抵消器将辅助支路估计的噪声与主支路的噪声抵消,从而最小化系统干扰和噪声输出功率,实现对目标信号的增强。GSC提高了麦克风阵列在时变环境下的适应性,且结构简单,易于实现,广泛用于各种阵列信号处理中。但现有的GSC麦克风阵列语音增强技术还存在以下不足:(1)虽然GSC对空间相干的噪声具有较强的抑制能力,但是对空间非相干噪声的抑制能力不强,特别是在空间非相干的环境噪声与空间相干的噪声并存时,输出的增强语音存在的残余噪声较多;(2)GSC算法是针对一般输入信号设计的,没有利用语音信号的先验知识和针对语音信号的特点进行优化,因此重建语音的质量有待进一步提高。
发明内容
为了改善GSC算法的性能,本发明提供一种基于统计模型的麦克风阵列语音增强方法,该方法利用干净语音模型和从GSC辅助支路输出中估计的噪声模型构造最佳语音滤波器,来对GSC主支路信号进行增强。
本发明的目的至少通过如下技术方案之一实现。
本发明提供的基于统计模型的麦克风阵列语音增强方法,采用以下步骤对输入的语音信号进行增强:
步骤1:使用干净语音库建立用于语音帧分类的干净语音模型,并计算出对应于每个分类的干净语音线性频谱模型。上述干净语音库中的语音使用单麦克风进行采集。
步骤2:将麦克风阵列接收的信号分为两条支路,主支路采用GSC的固定波束形成器对期望方向的信号进行增强,得到初步增强的语音yc,辅助支路通过GSC的阻塞矩阵和自适应抵消器后,得到噪声分量yn
步骤3:从辅助支路的信号中估计噪声模型及噪声的线性频谱模型。
步骤4:对yc分帧,并利用噪声模型和干净语音模型对每帧语音进行分类。
步骤5:根据步骤4的分类结果,利用干净语音线性频谱模型和噪声的线性频谱模型构造最佳滤波器。
步骤6:用步骤5中得到的最佳滤波器对yc进行滤波,获得增强后的语音。
上述步骤1中,采用以下方法建立用于语音帧分类的干净语音模型和计算出对应于每个分类的干净语音线性频谱模型:
步骤1.1:将干净语音库中的语音进行分帧预处理后,提取每帧的语音特征参数;
步骤1.2:用步骤1.1得到的语音特征参数训练用于语音帧分类的干净语音模型;
步骤1.3:使用干净语音模型对所有用于训练的语音帧进行分类;
步骤1.4:计算属于每个分类的所有语音帧的线性频谱,建立与每个分类对应的干净语音线性频谱模型。
上述步骤1.1中的语音特征参数为梅尔频率倒谱系数(MFCC)。
上述步骤1.2中,干净语音模型采用GMM(高斯混合模型)或HMM(隐马尔可夫模型)。
上述步骤1.4中的干净语音线性频谱模型为干净语音线性频谱均值。
上述步骤3中,采用以下方法估计噪声的线性频谱均值:
步骤3.1:初始化M路非相干噪声的线性频谱均值Sin(ω)和自适应抵消器输出噪声的线性频谱均值Srn(ω),其中M为麦克风阵列的阵元数。
步骤3.2:采用下式估计噪声的线性频谱均值Sn(ω):
Figure BDA0001480037610000031
其中Wq为固定波束形成器的权值矩阵,
Figure BDA0001480037610000032
为Wq的转置,
Figure BDA0001480037610000033
Wa为自适应抵消器的权值矩阵,
Figure BDA0001480037610000034
为Wa2的转置,T为满秩矩阵且满足
Figure BDA0001480037610000035
其中B为阻塞矩阵,x为任意向量,y为Tx比Bx多出来的元素。
步骤3.3:采用下式更新Sin(ω)和Srn(ω):
S′in(ω)=αSb(ω)+(1-α)Sin(ω) (2)
S′rn(ω)=α′Yn(ω)+(1-α′)Srn(ω) (3)
其中S′in(ω)和S′rn(ω)分别为更新后的Sin(ω)和Srn(ω),Sb(ω)为麦克风阵列输入信号通过T后的输出信号,Yn(ω)为yn的频谱,α和α′为权重系数。
上述步骤3.3中,α采用下式计算:
Figure BDA0001480037610000036
其中β和γ为预设的常数,En为自适应抵消器输出信号的能量,Eb为自适应抵消器M-1路输入信号能量之和。
上述步骤3.3中,α′为预设的权重系数。
上述步骤3中,噪声模型与噪声的线性频谱模型均为噪声的线性频谱均值。
上述步骤4中,先采用模型补偿技术将噪声模型和干净语音模型合并为带噪语音模型,然后用带噪语音模型对每帧语音进行分类。
上述步骤5中,采用以下式构造最佳滤波器:
Figure BDA0001480037610000041
其中H(ω)为最佳滤波器的频率响应,Sc,i(ω)为第i个分类对应的干净语音线性频谱均值,wi为步骤4中当前语音帧对应于第i个分类的得分。
与现有技术相比,本发明的有益之处有:
1、本发明用基于统计模型的滤波器替换了GSC中带噪语音和噪声直接相减的操作,可以更充分地利用语音信号的先验知识,使输出语音更符合人类的听觉特性。
2、GSC中采用自适应抵消器来消除空间相干噪声,但自适应抵消器对空间非相干噪声抑制能力较弱,本发明在噪声估计时对非相干噪声进行了补偿,能有效地提高系统对非相干噪声的抑制能力,增强输出语音的质量。
说明书附图
图1为本发明实施例系统结构总框图。
图2为本发明实施例流程图。
具体实施方式
下面结合附图和实施例对本发明的具体实施步骤作进一步说明,但本发明的实施和保护范围不限于此,需指出的是,以下若有未特别详细说明之处,均是本领域技术人员可参照现有技术实现或理解的。
本发明实施例系统结构总框图如图1所示,由麦克风阵列接收模块、固定波束形成模块、阻塞矩阵模块、自适应抵消器模块、噪声估计模块、干净语音模型、最佳滤波器模块共同构成,其中麦克风阵列接收模块与固定波束形成模块、阻塞矩阵模块连接,用于接收语音信号;固定波束形成器模块和麦克风阵列接收模块、自适应抵消器模块、最佳滤波器模块连接,用于增强期望方向的信号;阻塞矩阵模块与麦克风阵列接收模块、自适应抵消器模块、噪声估计模块连接,用于阻塞期望方向的信号;自适应抵消器模块与阻塞矩阵模块、固定波束形成器模块、噪声估计模块连接,用于产生噪声抵消信号;噪声估计模块与阻塞矩阵模块、自适应抵消器模块、最佳滤波器模块连接,用于估计噪声模型及噪声的线性频谱模型;干净语音模型与最佳滤波器模块连接,用于存储干净语音模型及干净语音的线性频谱模型;最佳滤波器模块与干净语音模型、固定波束形成器模块、噪声估计模块连接,根据干净语音模型和噪声模型计算出当前语音帧的最佳滤波器系数,并对固定波束形成器模块的输出进行滤波。上述实施例中,麦克风阵列接收模块采用线性阵列结构,包含8个麦克风,均匀分布在直线上,各阵元各向同性。
本实例提供的基于统计模型的麦克风阵列语音增强方法的实施例,采用以下步骤对输入的语音进行增强,其流程如图2所示:
步骤1:使用干净语音库建立用于语音帧分类的干净语音模型,并计算出对应于每个分类的干净语音线性频谱模型。上述干净语音库中的语音使用单麦克风进行采集。
上述实施例中,系统使用前首先用干净语音库建立用于语音帧分类的干净语音模型及对应于每个分类的干净语音线性频谱模型,具体分为以下步骤:
步骤1.1:将干净语音库中的语音进行分帧预处理后,提取每帧的语音特征参数。
上述实施例中,对干净语音库中的语音样本进行预加重、分帧、加窗预处理后,对语音进行离散傅里叶变换,将其能量谱输入梅尔三角滤波器组,进行带通滤波后,取其对数并进行离散余弦变换,得到干净语音的梅尔频率倒谱系数(MFCC)。
步骤1.2:用步骤1.1得到的语音特征参数训练用于语音帧分类的干净语音模型。
上述实施例中,采用高斯混合模型(GMM)来对干净语音进行建模。将一帧时域训练语音xt转换为MFCC系数
Figure BDA0001480037610000051
则倒谱域干净语音GMM统计模型的概率密度函数为:
Figure BDA0001480037610000052
式中
Figure BDA0001480037610000053
为单高斯模型的概率密度函数,K表示GMM模型中高斯分量的数目,πk、μk和Σk分别代表第K个高斯分量的混合权重、均值和方差。令GMM模型参数集为λmfcc=(πkkk),用最大似然估计法来估计λmfcc,使GMM模型的似然函数最大。训练的倒谱域特征矢量集合为
Figure BDA0001480037610000054
则GMM模型的似然函数为:
Figure BDA0001480037610000055
上述实施例中,先使用训练序列对模型参数集进行初始值,再用最大期望算法(EM)直到似然函数收敛,可计算得到模型最佳参数集。
在另一些实施例中,干净语音模型采用隐马尔可夫模型(HMM)来实现。
步骤1.3:使用干净语音模型对所有用于训练的语音帧进行分类。
上述实施例中,干净语音GMM模型中的每个高斯分量代表一个分类。对所有用于训练的干净语音帧,计算每一帧特征矢量
Figure BDA0001480037610000061
属于干净语音倒谱域GMM模型中每个分类的概率为:
Figure BDA0001480037610000062
找到
Figure BDA0001480037610000063
输出概率最大的分类,记下语音帧xt与这个分类的映射关系。
步骤1.4:计算属于每个分类的所有语音帧的线性频谱,建立与每个分类对应的干净语音线性频谱模型。
上述实施例中,对第i个GMM分类,计算与它有映射关系的所有语音帧的线性频谱均值Sc,i(ω),作为与第i个分类对应的干净语音线性频谱统计模型。
步骤2:将麦克风阵列接收的信号分为两条支路,主支路采用GSC的固定波束形成器对期望方向的信号进行增强,得到初步增强的语音yc,辅助支路通过GSC的阻塞矩阵和自适应抵消器后,得到噪声分量yn
上述实施例中,均匀线性阵列阵元数为M=8,各阵元均为各向同性阵元,有1个期望信号和1个干扰信号从远场入射到阵列上,阵列接收信号可表示为:
Figure BDA0001480037610000064
式中x=[x1,…,xM]T表示阵列接收信号,N表示环境噪声,A表示阵列流形矩形,A=[a(θ0),…,a(θP)],a(θi)为各个入射信号导向矢量,
Figure BDA0001480037610000065
Figure BDA0001480037610000066
P为干扰信号个数,λ为声波波长,d为阵元间距,取
Figure BDA0001480037610000067
实施例中干扰信号个数取P=1,θ0为期望信号方向,θ1为干扰方向。
上述实施例中,将麦克风阵列接收的信号采用GSC算法得到初步增强的语音yc和噪声分量yn,具体又分为以下步骤:
步骤2.1:用广义互时间延迟估计方法来估计麦克风阵列各个阵元接收信号的时延。第m麦克风接收到的信号xm(n)为:
xm(n)=ams(t-τm)+em(n) (10)
其中s(n)为声源信号,e(n)为噪声,τm表示从声源到麦克风的传播时间,am为声波衰减系数。则第m麦克风与第l麦克风接收信号的互相关函数为:
Rml(τ)=Rss(τ-(τml)) (11)
其中Rss是声源信号s(n)的自相关函数,当Rml(τ)取最大值时,便可求得两个麦克风接收信号之间的时间延迟τ,τ=τml=τml。经过时间延迟补偿后,参考阵元接收的信号同步,再通过固定波束形成器的权重Wq,得到初步增强的语音yc(n)。
步骤2.2:将步骤2.1中延时补偿后的同步阵元信号输入阻塞矩阵,将指定方向的期望信号阻塞掉。其中阻塞矩阵B与约束矩阵C满足:
BHC=0 (12)
C取为期望信号方向矢量,C=a(θ0),θ0为期望信号方向角度,经延时补偿后θ0=0。上述实施例中,阻塞矩阵B选取Griffths和Jim提出的经典阻塞矩阵:
Figure BDA0001480037610000071
步骤2.3:初始化自适应抵消器的权值Wa,将阻塞矩阵的输出信号z(n)输入自适应抵消器,得到辅助支路输出yb(n)。将主支路和辅助支路相减,得到误差信号:
e(n)=yc(n)-yb(n) (14)
采用最小误差准则调节Wa,Wa更新公式为:
Wa(n+1)=Wa(n)+μe(n)z(n) (15)
步骤3:从辅助支路的信号中估计噪声模型及噪声的线性频谱模型。
上述实施例中,噪声模型与噪声的线性频谱模型相同,均为噪声的线性频谱均值,采用以下方法计算得到:
步骤3.1:初始化M路非相干噪声的线性频谱均值Sin(ω)和自适应抵消器输出噪声的线性频谱均值Srn(ω),其中M=8为麦克风阵列的阵元数。
步骤3.2:采用下式估计噪声的线性频谱均值Sn(ω):
Figure BDA0001480037610000081
其中Wq为固定波束形成器的权值,
Figure BDA0001480037610000082
为Wq的转置,
Figure BDA0001480037610000083
Wa为自适应抵消器的权值,
Figure BDA0001480037610000084
为Wa2的转置,T为满秩矩阵且满足
Figure BDA0001480037610000085
其中B为阻塞矩阵,x为任意向量,y为Tx比Bx多出来的元素。上述实施例中,T设置为:
Figure BDA0001480037610000086
步骤3.3:采用下式更新Sin(ω)和Srn(ω):
S′in(ω)=αSb(ω)+(1-α)Sin(ω) (18)
S′rn(ω)=α′Yn(ω)+(1-α′)Srn(ω) (19)
其中S′in(ω)和S′rn(ω)分别为更新后的Sin(ω)和Srn(ω),Sb(ω)为麦克风阵列输入信号通过T后的输出信号,Yn(ω)为yn的频谱,α采用下式计算:
Figure BDA0001480037610000087
其中β和γ为预设的常数,En为自适应抵消器输出信号的能量,Eb为自适应抵消器M-1路输入信号能量之和。α′为预设的权重系数。
步骤4:对yc分帧,并利用噪声模型和干净语音模型对每帧语音进行分类。上述实施例中,采用以下方法实现:
步骤4.1:采用Log-Add模型补偿技术将噪声模型和干净语音模型合并为带噪语音模型,具体方法如下:首先将干净语音GMM模型的倒谱域均值转换到线性频谱域,并与噪声的频谱均值相加,得到带噪语音的频谱均值。然后将上述带噪语音的频谱均值转换到倒谱域,得到带噪语音GMM模型的均值参数,带噪语音GMM模型的方差与干净语音GMM模型的方差相同。
步骤4.2:对yc分帧并提取每帧语音的MFCC特征参数,用步骤4.1得到的带噪语音模型对上述语音帧进行分类,计算出每一帧语音属于带噪语音统计模型中每个分类的概率。
步骤5:根据步骤4的分类结果,利用干净语音线性频谱模型和噪声的线性频谱模型构造最佳滤波器。
上述实施例中,采用以下式构造最佳滤波器:
Figure BDA0001480037610000091
其中H(ω)为最佳滤波器的频率响应,Sc,i(ω)为第i个分类对应的干净语音线性频谱均值,wi为步骤4中当前语音帧对应于第i个分类的得分。
步骤6:用步骤5中得到的最佳滤波器对yc进行滤波,获得增强后的语音。
与现有技术相比,本发明充分利用接收语音信号的先验知识,能针对空间相干与非相干噪声实时调整和优化滤波器参数,有效地提高输出语音的听觉质量。本发明可以广泛用于视频会议、车载通信、会场、多媒体教室等各种具有嘈杂背景的语音通信应用中。

Claims (10)

1.基于统计模型的麦克风阵列语音增强方法,其特征在于采用以下步骤对输入的语音信号进行增强:
步骤1:使用干净语音库建立用于语音帧分类的干净语音模型,并计算出对应于每个分类的干净语音线性频谱模型;所述干净语音库中的语音使用单麦克风进行采集;
步骤2:将麦克风阵列接收的信号分为两条支路,主支路采用GSC的固定波束形成器对期望方向的信号进行增强,得到初步增强的语音yc,辅助支路通过GSC的阻塞矩阵和自适应抵消器后,得到噪声分量yn
步骤3:从辅助支路的信号中估计噪声模型及噪声的线性频谱模型;
步骤4:对yc分帧,并利用噪声模型和干净语音模型对每帧语音进行分类;
步骤5:根据步骤4的分类结果,利用干净语音线性频谱模型和噪声的线性频谱模型构造最佳滤波器;
步骤6:用步骤5中得到的最佳滤波器对yc进行滤波,获得增强后的语音。
2.根据权利要求1所述的基于统计模型的麦克风阵列语音增强方法,其特征在于步骤1中,采用以下方法建立用于语音帧分类的干净语音模型和计算出对应于每个分类的干净语音线性频谱模型:
步骤1.1:将干净语音库中的语音进行分帧预处理后,提取每帧的语音特征参数;
步骤1.2:用步骤1.1得到的语音特征参数训练用于语音帧分类的干净语音模型;
步骤1.3:使用干净语音模型对所有用于训练的语音帧进行分类;
步骤1.4:计算属于每个分类的所有语音帧的线性频谱,建立与每个分类对应的干净语音线性频谱模型。
3.根据权利要求2所述的基于统计模型的麦克风阵列语音增强方法,其特征在于步骤1.1中的语音特征参数为梅尔频率倒谱系数。
4.根据权利要求2所述的基于统计模型的麦克风阵列语音增强方法,其特征在于步骤1.2中,干净语音模型采用GMM或HMM。
5.根据权利要求2所述的基于统计模型的麦克风阵列语音增强方法,其特征在于步骤1.4中的干净语音线性频谱模型为干净语音线性频谱均值。
6.根据权利要求1所述的基于统计模型的麦克风阵列语音增强方法,其特征在于步骤3还进一步采用以下方法估计噪声的线性频谱均值:
步骤3.1:初始化M路非相干噪声的线性频谱均值Sin(ω)和自适应抵消器输出噪声的线性频谱均值Srn(ω),其中M为麦克风阵列的阵元数;
步骤3.2:采用下式估计噪声的线性频谱均值Sn(ω):
Figure FDA0002754335460000021
其中Wq为固定波束形成器的权值矩阵,
Figure FDA0002754335460000022
为Wq的转置,
Figure FDA0002754335460000023
Wa为自适应抵消器的权值矩阵,
Figure FDA0002754335460000024
为Wa2的转置,T为满秩矩阵且满足
Figure FDA0002754335460000025
其中B为阻塞矩阵,x为任意向量,y为Tx比Bx多出来的元素;
步骤3.3:采用下式更新Sin(ω)和Srn(ω):
S′in(ω)=αSb(ω)+(1-α)Sin(ω) (2)
S′rn(ω)=α′Yn(ω)+(1-α′)Srn(ω) (3)
其中S′in(ω)和S′rn(ω)分别为更新后的Sin(ω)和Srn(ω),Sb(ω)为麦克风阵列输入信号通过T后的输出信号,Yn(ω)为yn的频谱,α和α′为权重系数。
7.根据权利要求6所述的基于统计模型的麦克风阵列语音增强方法,其特征在于上述步骤3.3中,α采用下式计算:
Figure FDA0002754335460000026
其中β和γ为预设的常数,En为自适应抵消器输出信号的能量,Eb为自适应抵消器M-1路输入信号能量之和;α′为预设的权重系数。
8.根据权利要求1所述的基于统计模型的麦克风阵列语音增强方法,其特征在于步骤3中,噪声模型与噪声的线性频谱模型均为噪声的线性频谱均值。
9.根据权利要求1所述的基于统计模型的麦克风阵列语音增强方法,其特征在于步骤4中,先采用模型补偿技术将噪声模型和干净语音模型合并为带噪语音模型,然后用带噪语音模型对每帧语音进行分类。
10.根据权利要求5所述的基于统计模型的麦克风阵列语音增强方法,其特征在于步骤5中,采用以下式构造最佳滤波器:
Figure FDA0002754335460000031
其中H(ω)为最佳滤波器的频率响应,Sc,i(ω)为第i个分类对应的干净语音线性频谱均值,wi为步骤4中当前语音帧对应于第i个分类的得分。
CN201711201341.5A 2017-11-23 2017-11-23 基于统计模型的麦克风阵列语音增强方法 Active CN107993670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711201341.5A CN107993670B (zh) 2017-11-23 2017-11-23 基于统计模型的麦克风阵列语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711201341.5A CN107993670B (zh) 2017-11-23 2017-11-23 基于统计模型的麦克风阵列语音增强方法

Publications (2)

Publication Number Publication Date
CN107993670A CN107993670A (zh) 2018-05-04
CN107993670B true CN107993670B (zh) 2021-01-19

Family

ID=62032304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711201341.5A Active CN107993670B (zh) 2017-11-23 2017-11-23 基于统计模型的麦克风阵列语音增强方法

Country Status (1)

Country Link
CN (1) CN107993670B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108899042A (zh) * 2018-06-25 2018-11-27 天津科技大学 一种基于移动平台的语音降噪方法
CN110797042B (zh) * 2018-08-03 2022-04-15 杭州海康威视数字技术股份有限公司 音频处理方法、装置及存储介质
CN109389991A (zh) * 2018-10-24 2019-02-26 中国科学院上海微系统与信息技术研究所 一种基于麦克风阵列的信号增强方法
CN109727605B (zh) * 2018-12-29 2020-06-12 苏州思必驰信息科技有限公司 处理声音信号的方法及系统
EP3683794B1 (en) * 2019-01-15 2021-07-28 Nokia Technologies Oy Audio processing
CN111696572B (zh) * 2019-03-13 2023-07-18 富士通株式会社 语音分离装置、方法及介质
CN109979469B (zh) * 2019-04-03 2021-04-23 北京小米智能科技有限公司 信号处理方法、设备及存储介质
CN110267160B (zh) * 2019-05-31 2020-09-22 潍坊歌尔电子有限公司 声音信号处理方法、装置及设备
CN112289335A (zh) * 2019-07-24 2021-01-29 阿里巴巴集团控股有限公司 语音信号的处理方法、装置及拾音设备
CN110517701B (zh) * 2019-07-25 2021-09-21 华南理工大学 一种麦克风阵列语音增强方法及实现装置
CN110827847B (zh) * 2019-11-27 2022-10-18 添津人工智能通用应用系统(天津)有限公司 低信噪比见长的麦克风阵列语音去噪增强方法
CN111063366A (zh) * 2019-12-26 2020-04-24 紫光展锐(重庆)科技有限公司 降低噪声的方法、装置、电子设备及可读存储介质
CN111954121B (zh) * 2020-08-21 2022-06-17 云知声智能科技股份有限公司 一种麦克风阵列定向拾音方法及系统
CN112331226B (zh) * 2020-09-29 2024-04-12 江苏清微智能科技有限公司 一种针对主动降噪系统的语音增强系统及方法
CN113223552B (zh) * 2021-04-28 2023-06-13 锐迪科微电子(上海)有限公司 语音增强方法、装置、设备、存储介质及程序
CN113884986B (zh) * 2021-12-03 2022-05-03 杭州兆华电子股份有限公司 波束聚焦增强的强冲击信号空时域联合检测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104835503A (zh) * 2015-05-06 2015-08-12 南京信息工程大学 一种改进gsc自适应语音增强方法
CN105206281A (zh) * 2015-09-14 2015-12-30 胡旻波 基于分布式麦克风阵列网络的语音增强方法
CN105632512A (zh) * 2016-01-14 2016-06-01 华南理工大学 一种基于统计模型的双传感器语音增强方法与装置
US20160275961A1 (en) * 2015-03-18 2016-09-22 Qualcomm Technologies International, Ltd. Structure for multi-microphone speech enhancement system
CN107017003A (zh) * 2017-06-02 2017-08-04 厦门大学 一种麦克风阵列远场语音增强装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7778425B2 (en) * 2003-12-24 2010-08-17 Nokia Corporation Method for generating noise references for generalized sidelobe canceling
US20100217590A1 (en) * 2009-02-24 2010-08-26 Broadcom Corporation Speaker localization system and method
GB201604295D0 (en) * 2016-03-14 2016-04-27 Univ Southampton Sound reproduction system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160275961A1 (en) * 2015-03-18 2016-09-22 Qualcomm Technologies International, Ltd. Structure for multi-microphone speech enhancement system
CN104835503A (zh) * 2015-05-06 2015-08-12 南京信息工程大学 一种改进gsc自适应语音增强方法
CN105206281A (zh) * 2015-09-14 2015-12-30 胡旻波 基于分布式麦克风阵列网络的语音增强方法
CN105632512A (zh) * 2016-01-14 2016-06-01 华南理工大学 一种基于统计模型的双传感器语音增强方法与装置
CN107017003A (zh) * 2017-06-02 2017-08-04 厦门大学 一种麦克风阵列远场语音增强装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Minimum Distortion Noise Reduction Algorithm;Jingdong Chen;《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》;20080331;全文 *
GSC-Based Spatial Voice Activity Detection for Enhanced;Michael W. Hoffman等;《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》;20010530;全文 *
复杂环境下语⾳增强⽅法研究;刘凤增;《中国优秀硕士学位论文数据库 信息科技辑》;20120715;全文 *
多通道语音增强算法研究;潘甲;《中国优秀硕士学位论文数据库 信息科技辑》;20171115;全文 *

Also Published As

Publication number Publication date
CN107993670A (zh) 2018-05-04

Similar Documents

Publication Publication Date Title
CN107993670B (zh) 基于统计模型的麦克风阵列语音增强方法
US10403299B2 (en) Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition
EP1658751B1 (en) Audio input system
KR101726737B1 (ko) 다채널 음원 분리 장치 및 그 방법
CN110085248B (zh) 个人通信中降噪和回波消除时的噪声估计
Gannot et al. Adaptive beamforming and postfiltering
CN109727604A (zh) 用于语音识别前端的频域回声消除方法及计算机储存介质
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
CN110517701B (zh) 一种麦克风阵列语音增强方法及实现装置
CN110148420A (zh) 一种适用于噪声环境下的语音识别方法
US20120322511A1 (en) De-noising method for multi-microphone audio equipment, in particular for a "hands-free" telephony system
Reindl et al. A stereophonic acoustic signal extraction scheme for noisy and reverberant environments
Nakatani et al. Dominance based integration of spatial and spectral features for speech enhancement
KR101720514B1 (ko) Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법
US20180308503A1 (en) Real-time single-channel speech enhancement in noisy and time-varying environments
Nesta et al. A flexible spatial blind source extraction framework for robust speech recognition in noisy environments
Nesta et al. Blind source extraction for robust speech recognition in multisource noisy environments
Maas et al. A two-channel acoustic front-end for robust automatic speech recognition in noisy and reverberant environments
Doclo et al. Multimicrophone noise reduction using recursive GSVD-based optimal filtering with ANC postprocessing stage
CN112530451A (zh) 基于去噪自编码器的语音增强方法
Spriet et al. Stochastic gradient-based implementation of spatially preprocessed speech distortion weighted multichannel Wiener filtering for noise reduction in hearing aids
CN111312275A (zh) 一种基于子带分解的在线声源分离增强系统
Wang et al. Hands-free speaker identification based on spectral subtraction using a multi-channel least mean square approach
Priyanka et al. Adaptive Beamforming Using Zelinski-TSNR Multichannel Postfilter for Speech Enhancement
Gomez et al. Robustness to speaker position in distant-talking automatic speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant