CN103903629B - 基于隐马尔科夫链模型的噪声估计方法和装置 - Google Patents

基于隐马尔科夫链模型的噪声估计方法和装置 Download PDF

Info

Publication number
CN103903629B
CN103903629B CN201210586423.7A CN201210586423A CN103903629B CN 103903629 B CN103903629 B CN 103903629B CN 201210586423 A CN201210586423 A CN 201210586423A CN 103903629 B CN103903629 B CN 103903629B
Authority
CN
China
Prior art keywords
voice
probability
noise
hmm
present frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210586423.7A
Other languages
English (en)
Other versions
CN103903629A (zh
Inventor
谢单辉
许云峰
王彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leadcore Technology Co Ltd
Original Assignee
Leadcore Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leadcore Technology Co Ltd filed Critical Leadcore Technology Co Ltd
Priority to CN201210586423.7A priority Critical patent/CN103903629B/zh
Publication of CN103903629A publication Critical patent/CN103903629A/zh
Application granted granted Critical
Publication of CN103903629B publication Critical patent/CN103903629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及语音通信领域,公开了一种基于隐马尔科夫链模型的噪声估计方法和装置。本发明中,根据预先建立的HMM,确定当前帧中语音存在的概率;并根据该语音存在的概率,计算平滑因子;接着根据平滑因子,计算当前帧中噪声的方差估计值。本发明利用隐马尔科夫链状态转移来确定语音存在的概率,并利用该概率去控制噪声更新的大小,从而在噪声抑制中能快速估计噪声的变化,可以准确估计快速变化的非稳态环境中的噪声,最终提升噪声抑制的性能。

Description

基于隐马尔科夫链模型的噪声估计方法和装置
技术领域
本发明涉及语音通信领域,特别涉及单麦克噪声抑制内的基于隐马尔科夫链模型的噪声估计方法和装置。
背景技术
单麦克噪声抑制算法通常采用短时频域衰减方法,流程图如图1所示。主要模块包括快速傅里叶变换(FFT)频域分解、噪声估计、计算先/后验信噪比、计算衰减因子、频域衰减、反傅里叶变换以及重叠相加。
图1中y,x,n分别表示时域带噪语音、干净语音和噪声信号,对应的大写字母则对应各自频谱,带帽子(^)的符号表示对应变量的估计值,f表示某个函数,下角标m,l,k分别代表帧序号、帧内时间序号和频点序号。ξk(m)和γk(m)分别表示先验信噪比和后验信噪比:
衰减因子Gk根据估计的先、后验信噪比的数值控制衰减程度:当信噪比都比较大的时候,就认为是语音,衰减因子Gk就接近于1,不衰减Yk;反之,当信噪比比较小的时候,就认为是噪声,衰减因子Gk就远远小于1,对Yk进行衰减。
从公式1不难看出,信噪比的大小是严重依赖于当前估计的噪声值。若当前估计不足,则使得信噪比偏大,可能导致噪声被当成语音保留;若估计过多,则使得信噪比偏小,可能导致语音被当成噪声衰减。
噪声估计通常有两种方法:一种是硬判决方法:通常采用平滑非语音时的带噪语音估计,采用话音激活检测器(Voice Active Detector,简称“VAD”)来区分语音和非语音,见公式2,μ为平滑系数0<μ<1。
采用VAD的噪声估计方法的主要缺陷:
1.VAD在低信噪比下准确率很低,尤其是在嘈杂的非稳态噪声环境下,容易将噪声误判为语音,导致噪声估计不足。
2.很难跟踪发生在语音间的噪声变化。
一种是软判决的方法:寻找一段时间窗口(一般取2~3s)内,最小的带噪语音|Yk|2值,作为噪声估计的基础,再通过一定的算法计算一个偏差值,将偏差值乘以最小值,作为当前帧的噪声估计。采用最小统计量的软判决方法主要的缺点是跟踪速度过慢,由于需要搜索2s左右时间窗口的最小值,导致存在较大的跟踪延时,无法快速跟踪噪声特性的变化。
发明内容
本发明的目的在于提供一种基于隐马尔科夫链模型的噪声估计方法和装置,使得在噪声抑制中能快速估计噪声的变化,准确估计快速变化的非稳态环境中的噪声,提升噪声抑制的性能。
为解决上述技术问题,本发明的实施方式提供了一种基于隐马尔科夫链模型的噪声估计方法,包含以下步骤:
根据预先建立的HMM,确定当前帧中语音存在的概率;其中,所述HMM的观测向量由至少一帧带噪语音的频谱组成;
根据所述语音存在的概率,计算平滑因子;其中,所述平滑因子与当前观测向量条件下当前帧中语音存在的概率成线性关系;
根据所述平滑因子、前一帧中噪声的方差估计值和当前帧带噪语音的功率谱,计算当前帧中噪声的方差估计值。
本发明的实施方式还提供了一种基于隐马尔科夫链模型的噪声估计装置,包含:语音存在概率计算模块、平滑因子计算模块、噪声估计模块;
所述语音存在概率计算模块用于根据预先建立的HMM,确定当前帧中语音存在的概率;其中,所述HMM的观测向量由至少一帧带噪语音的频谱组成;
所述平滑因子计算模块用于根据所述语音存在的概率,计算平滑因子;其中,所述平滑因子与当前观测向量条件下当前帧中语音存在的概率成线性关系;
所述噪声估计模块用于根据所述平滑因子、前一帧中噪声的方差估计值和当前帧带噪语音的功率谱,计算当前帧中噪声的方差估计值。
本发明实施方式相对于现有技术而言,根据预先建立的HMM,确定当前帧中语音存在的概率;并根据该语音存在的概率,计算平滑因子;接着根据平滑因子,计算当前帧中噪声的估计值。本发明利用隐马尔科夫链状态转移来确定语音存在的概率,并利用该概率去控制噪声更新的大小,从而在噪声抑制中能快速估计噪声的变化,可以准确估计快速变化的非稳态环境中的噪声,提升噪声抑制的性能。
另外,通过以下公式,根据所述语音存在的概率,计算平滑因子:
μN=μ+(1-μ)p(qm=H1m)
其中,μN为平滑因子;μ为固定常数,0<μ<1;p(qm=H1m)为当前观测向量Ψm条件下当前帧中语音存在的概率;H1为语音存在状态,Ψm={Yk(m),Yk(m-1),…,Yk(1)}为当前观测向量,m代表帧序号。
通过语音存在的概率控制噪声更新的大小,可以快速估计噪声的变化。
另外,通过以下公式,根据所述平滑因子μN、前一帧中噪声的方差估计值和当前帧带噪语音的功率谱|Yk(m)|2,计算当前帧中噪声的方差估计值
其中,k代表频点序号。
通过对每一帧带噪语音计算平滑因子,可以准确估计快速变化的非稳态环境中的噪声大小,从而提升噪声抑制的性能。
另外,所述当前观测向量条件下当前帧中语音存在的概率p(H1m)通过以下公式计算:
其中,Λk(m)为当前帧的似然比,p(Ψm|qm=H1)是当前帧包含语音时观测序列Ψm出现的条件概率,p(qm=H1)是当前帧包含语音的概率,p(Ψm|qm=H0)是当前帧不含语音时观测序列Ψm出现的条件概率,p(qm=H0)是当前帧不含语音的概率。
通过计算当前帧的似然比,可以简化语音存在的概率的计算,降低计算复杂度。
另外,所述HMM为两状态的一阶HMM;其中,所述HMM的两个状态为:语音存在时为状态H1,语音不存在时为状态H0
所述HMM的状态转移矩阵为:
其中,aij为状态转移概率:aij=p{qm=Hj|qm-1=Hi} i,j∈{0,1};
状态序列为{qm,qm-1…q1};下角标m代表帧序号;
所述aij根据噪声环境选择。
通过采用两状态的一阶HMM,使噪声估计更简单实用,从而可以进一步快速估计噪声的变化。
另外,所述当前帧的似然比Λk(m)通过以下公式计算:
其中,Λk(m-1)为前一帧的似然比;
ξk(m)和γk(m)分别为当前帧的先验信噪比和后验信噪比。
通过当前帧的先验信噪比和后验信噪比计算似然比,可以使语音存在概率更易于获取,从而可以进一步快速估计噪声的变化。
另外,所述当前帧的似然比Λk(m)通过以下公式计算:
其中,Λk(m-1)为前一帧的似然比;
ξk(m-i),γk(m-i),i=1,2,3,…,M,分别为前M帧的先验信噪比和后验信噪比;所述M为预设值。
通过多个观察向量,可以获得更为准确的语音存在概率,可以进一步准确地估计快速变化的非稳态环境中的噪声,从而提升噪声抑制的性能。
附图说明
图1是现有的频域噪声抑制算法的流程图;
图2是根据本发明第一实施方式的基于HMM的噪声估计方法的流程图;
图3是根据本发明第一实施方式的两状态一阶HMM的状态转移图;
图4是干净语音信号和0dB下带street噪声的语音信号的时域波形图;
图5是基于VAD判决方法和本发明第二实施方式的方法处理结果的语谱对比图;
图6是基于最小统计量方法和本发明第二实施方式的方法处理结果的语谱对比图;
图7是根据本发明第三实施方式的基于HMM的噪声估计装置的结构框图;
图8是是根据本发明第四实施方式的基于HMM的噪声估计装置的一种实现框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请各权利要求所要求保护的技术方案。
本发明的第一实施方式涉及一种基于隐马尔科夫链模型的噪声估计方法,具体流程如图2所示,包含以下步骤:
步骤201,根据预先建立的HMM,确定当前帧中语音存在的概率;其中,该HMM的观测向量由一帧带噪语音的频谱组成。
HMM建模广泛应用于语音识别中,是目前主流的语音识别算法,但考虑到识别率,其HMM往往比较复杂。而在噪声抑制中,考虑到简单实用性,需要简化HMM建模,因此,本实施方式中,采用一阶马尔科夫链模型。
HMM的两个状态为:语音存在时为状态H1,语音不存在时为状态H0
H1:Yk(m)=Xk(m)+Nk(m) (3)
H0:Yk(m)=Nk(m)
语音和噪声通常采用零均值的复高斯分布建模,此处省略了帧号m:
公式4中方差分别对应于当前频点k处的语音方差和噪声方差,即公式1中先验信噪比ξk的分子和分母。
状态间转移如图3所示,状态序列为{qm,qm-1...q1},根据图3,状态转移概率:p{qm=Hj|qm-1=Hi}=aiji,j∈{0,1} (5)
状态转移矩阵为:
其中,下角标m代表帧序号。
事实上,对于语音信号,若前一帧为语音信号,则当前帧继续为语音的概率也很大,因此,公式5的状态转移矩阵中可以取p{qm=H1|qm-1=H1}>p{qm=H1}。也就是说a11是通常取大于a00的值。增大a11会倾向于保存语音,但与此同时,噪声可能也会被保留。因此,这些参数需要根据噪声环境选择。例如在嘈杂环境中往往希望噪声抑制比较多,a11就取偏向0。而在安静环境下,为了避免过多的语音失真,从而需要保存语音更多点,a11就取偏向1。
步骤202,根据语音存在的概率,计算平滑因子;其中,平滑因子与当前观测向量条件下当前帧中语音存在的概率成线性关系。
可以通过以下公式,根据语音存在的概率,计算平滑因子μN
μN=μ+(1-μ)p(H1m)
其中,μ为固定常数,0<μ<1;p(H1m)为当前观测向量Ψm条件下当前帧中语音存在的概率;H1为语音存在状态,Ψm={Yk(m),Yk(m-1),…,Yk(1)}为当前观测向量,m代表帧序号。
条件概率p(H1m)可通过贝叶斯公式计算:
公式7中的似然比为:
其中,p(Ψm|H1)是当前帧包含语音时观测序列Ψm出现的条件概率,p(H1)是当前帧包含语音的概率,p(Ψm|H0)是当前帧不含语音时观测序列Ψm出现的条件概率,p(H0)是当前帧不含语音的概率。
为了表述方便,令αm(0)=p(qm=H0m),似然比为可以改写为:
由于HMM的观测向量由一帧带噪语音的频谱组成,根据上述马尔科夫链的转移矩阵,可以很容易的获得:
αm(0)={αm-1(0)a00m-1(1)a10}p(Yk(m)|qm=H0)
(9)
αm(1)={αm-1(0)a01m-1(1)a11}p(Yk(m)|qm=H1)
因此,似然比:
根据假设的复高斯模型,可以很容易获得:
(11)
公式11是基于单个观测向量Yk(m)的似然比,ξk(m)和γk(m)分别为当前帧的先验信噪比和后验信噪比,由于先验信噪比变化比较缓慢,实际在计算公式11时中往往采用前一帧的ξk(m-1),γk(m-1)近似来近似估计当前帧的信噪比ξk(m),γk(m)。
步骤203,根据平滑因子、前一帧中噪声的方差估计值和当前帧带噪语音的功率谱,计算当前帧中噪声的方差估计值。
可以通过以下公式,根据平滑因子μN、前一帧中噪声的方差估计值和当前帧带噪语音的功率谱|Yk(m)|2,计算当前帧中噪声的方差估计值
其中,k代表频点序号。
由上式可以看出,μN越大,在计算时,倾向越多;而(1-μN)越小,|Yk(m)|2参与计算的成分越少;而平滑因子μN与当前帧中语音存在的概率成正比,也就是说,当前帧中语音存在的概率越大,则更倾向于使用前一帧噪声的方差估计值,当前帧带噪语音的功率谱更新噪声越少;当前帧中语音存在的概率越小,则更倾向于采用当前帧带噪语音的功率谱更新噪声越多,从而快速、准确地更新噪声的变化。
上述μN的计算式,可以通过以下步骤推导得到:
根据上述假设,公式2的噪声估计就可以写成:
公式12中的μ为某个固定常数,0<μ<1。
假设根据当前观测向量Ψm={Yk(m),Yk(m-1),…,Yk(1)}的条件概率分别为p(qm=H1m)和p(qm=H0m),可通过期望的方式估计噪声:
公式13中μN=(μ+(1-μ)p(qm=H1m)),p(qm=H1m)=1-p(qm=H0m) (14)
与现有技术相比,本实施方式根据预先建立的HMM,确定当前帧中语音存在的概率p(H1m);并根据该语音存在的概率,计算平滑因子μN;接着根据平滑因子,计算当前帧中噪声的方差估计值本实施方式利用隐马尔科夫链状态转移来确定语音存在的概率,并利用该概率去控制噪声更新的大小,从而在噪声抑制中能快速估计噪声的变化,可以准确估计快速变化的非稳态环境中的噪声,提升噪声抑制的性能。
本发明的第二实施方式涉及一种基于隐马尔科夫链模型的噪声估计方法。第二实施方式与第一实施方式大致相同,主要区别之处在于:在第一实施方式中,在计算当前帧中的语音存在概率时,通过采用单个观测向量计算当前帧的似然比,计算语音存在的概率;而在本发明第二实施方式中,将单个观测向量延拓至多个观测向量,以获得更加准确的语音存在信息。
具体地说,当前帧的似然比Λk(m)通过以下公式计算:
其中,Λk(m-1)为前一帧的似然比;
ξk(m-i),γk(m-i)i=1,2,3,…,M,分别为前M帧的先验信噪比和后验信噪比;M为预设值。
也就是说,为了简化计算复杂度,假设这M个观测向量相互独立,可近似看成是M阶马尔科夫链,那么公式11可以转化为:
(15)
为了较好地评价本实施方式,使用0dB时的含street噪声做测试,如图4所示,4A是干净语音信号的时域波形图,4B是0dB下带street噪声信号的时域波形图。仿真中,采用256点的FFT,重叠率为37.5%,汉明hamming窗,状态转移矩阵采用观测向量数目M取2。仿真结果见图5和图6,图5是基于VAD判决方法(5A)和本实施方式方法(5B)处理结果的语谱对比图,图6是基于最小统计量方法(6A)和本实施方式的方法(6B)处理结果的语谱对比图。从图5和图6不难看出:
1.基于VAD判决方法在0dBstreet噪声下基本不更新,导致基本没有抑制噪声,如501所示。
2.基于最小统计方法在前面4s内基本也没有抑制噪声,如601所示。
3.本发明对噪声抑制非常明显,如502所示是进行噪声抑制之后得到的语音。相对的,语音失真会稍大些,对主观音质影响不大。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包含相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种基于隐马尔科夫链模型的噪声估计装置,如图7所示,包含:语音存在概率计算模块、平滑因子计算模块、噪声估计模块。
其中,语音存在概率计算模块用于根据预先建立的HMM,确定当前帧中语音存在的概率;其中,HMM的观测向量由至少一帧带噪语音的频谱组成。
该语音存在概率计算模块可以采用两状态的一阶HMM;其中,该HMM的两个状态为:语音存在时为状态H1,语音不存在时为状态H0
HMM的状态转移矩阵为:
其中,aij为状态转移概率:aij=p{qm=Hj|qm-1=Hi} i,j∈{0,1};
状态序列为{qm,qm-1…q1};下角标m代表帧序号;aij根据噪声环境选择,a11大于a00
平滑因子计算模块用于根据语音存在的概率,计算平滑因子;其中,平滑因子与当前观测向量条件下当前帧中语音存在的概率成线性关系。该平滑因子计算模块可以通过以下公式,根据语音存在的概率,计算平滑因子:
μN=(μ+(1-μ)p(qm=H1m))
其中,μN为平滑因子;μ为固定常数,0<μ<1;p(qm=H1m)为当前观测向量Ψm条件下当前帧中语音存在的概率;H1为语音存在状态,Ψm={Yk(m),Yk(m-1),…,Yk(1)}为当前观测向量,m代表帧序号。
语音存在概率计算模块进一步包含:似然比计算子模块,通过以下公式计算当前帧的似然比Λk(m):
其中,p(Ψm|qm=H1)是当前帧包含语音时观测序列Ψm出现的条件概率,p(qm=H1)是当前帧包含语音的概率,p(Ψm|qm=H0)是当前帧不含语音时观测序列Ψm出现的条件概率,p(qm=H0)是当前帧不含语音的概率。
根据马尔科夫链的转移矩阵,将Λk(m)用Λk(m-1)状态转移概率表示为:
根据假设的复高斯模型,可以很容易获得:
其中,ξk(m)和γk(m)分别为当前帧的先验信噪比和后验信噪比。因此,在单个观测向量时,根据当前帧的先验信噪比和后验信噪比,很容易计算似然比。在实际计算中,可以采用前一帧的ξk(m-1),γk(m-1)近似来近似估计当前帧的信噪比ξk(m),γk(m)。
语音存在概率计算模块则可以通过以下公式计算当前观测向量条件下当前帧中语音存在的概率p(H1m):
噪声估计模块用于根据平滑因子、前一帧中噪声的方差估计值和当前帧带噪语音的功率谱,计算当前帧中噪声的方差估计值。该噪声估计模块通过以下公式,根据平滑因子μN、前一帧中噪声的方差估计值和当前帧带噪语音的功率谱|Yk|2,计算当前帧中噪声的方差估计值
其中,k代表频点序号。
不难发现,本实施方式为与第一实施方式相对应的系统实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明第四实施方式涉及一种基于隐马尔科夫链模型的噪声估计装置。第四实施方式与第三实施方式大致相同,主要区别之处在于:在第三实施方式中,似然比计算子模块采用单个观测向量计算似然比。而在本发明第四实施方式中,似然比计算子模块采用多个观测向量计算似然比,以获得更加准确的语音存在信息。
具体地说,似然比计算子模块通过以下公式计算当前帧的似然比Λk(m):
其中,Λk(m-1)为前一帧的似然比;
ξk(m-i),γk(m-i)i=1,2,3,…,M,分别为前M帧的先验信噪比和后验信噪比;M为预设值。
如图8所示是结合本实施方式的整体噪声抑制结构示意图,在进行噪声估计时,采用HMM计算语音存在概率,结合多个观测向量(Multi-Observation,简称“MO”)共同确定语音存在概率,并利用该概率去控制噪声更新的大小,从而快速估计噪声的变化。
由于第二实施方式与本实施方式相互对应,因此本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效,在第二实施方式中所能达到的技术效果在本实施方式中也同样可以实现,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第二实施方式中。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (16)

1.一种基于隐马尔科夫链模型HMM的噪声估计方法,其特征在于,包含以下步骤:
根据预先建立的HMM,确定当前帧中语音存在的概率;其中,所述HMM的观测向量由至少一帧带噪语音的频谱组成;
根据所述语音存在的概率,计算平滑因子;其中,所述平滑因子与当前观测向量条件下当前帧中语音存在的概率成线性关系;
根据所述平滑因子、前一帧中噪声的方差估计值和当前帧带噪语音的功率谱,计算当前帧中噪声的方差估计值。
2.根据权利要求1所述的基于HMM的噪声估计方法,其特征在于,通过以下公式,根据所述语音存在的概率,计算平滑因子μN
μN=μ+(1-μ)p(qm=H1m)
其中,μ为固定常数,0<μ<1;p(qm=H1m)为当前观测向量Ψm条件下当前帧中语音存在的概率;H1为语音存在状态,Ψm={Yk(m),Yk(m-1),…,Yk(1)}为当前观测向量,m代表帧序号。
3.根据权利要求1所述的基于HMM的噪声估计方法,其特征在于,通过以下公式,根据所述平滑因子μN、前一帧中噪声的方差估计值和当前帧带噪语音的功率谱|Yk(m)|2,计算当前帧中噪声的方差估计值
&sigma; ^ N , k 2 ( m ) = &mu; N &sigma; ^ N , k 2 ( m - 1 ) + ( 1 - &mu; N ) | Y k ( m ) | 2
其中,k代表频点序号。
4.根据权利要求1至3任一项所述的基于HMM的噪声估计方法,其特征在于,所述当前观测向量条件下当前帧中语音存在的概率p(qm=H1m)通过以下公式计算:
p ( q m = H 1 | &Psi; m ) = &Lambda; k ( m ) 1 + &Lambda; k ( m )
其中,Λk(m)为当前帧的似然比, &Lambda; k ( m ) = p ( &Psi; m | q m = H 1 ) p ( q m = H 1 ) p ( &Psi; m | q m = H 0 ) p ( q m = H 0 ) ; p(Ψm|qm=H1)是当前帧包含语音时观测序列Ψm出现的条件概率,p(qm=H1)是当前帧包含语音的概率,p(Ψm|qm=H0)是当前帧不含语音时观测序列Ψm出现的条件概率,p(qm=H0)是当前帧不含语音的概率。
5.根据权利要求4所述的基于HMM的噪声估计方法,其特征在于,所述HMM为两状态的一阶HMM;其中,所述HMM的两个状态为:语音存在时为状态H1,语音不存在时为状态H0
所述HMM的状态转移矩阵为:
A = a 00 a 01 a 10 a 11
其中,aij为状态转移概率:aij=p{qm=Hj|qm-1=Hi} i,j∈{0,1};
状态序列为{qm,qm-1…q1};下角标m代表帧序号;
所述aij根据噪声环境选择。
6.根据权利要求5所述的基于HMM的噪声估计方法,其特征在于,所述a11大于所述a00
7.根据权利要求5所述的基于HMM的噪声估计方法,其特征在于,所述当前帧的似然比Λk(m)通过以下公式计算:
&Lambda; k ( m ) = a 01 + &Lambda; k ( m - 1 ) a 11 a 00 + &Lambda; k ( m - 1 ) a 10 &Lambda; k
其中,Λk(m-1)为前一帧的似然比;
&Lambda; k = 1 1 + &xi; k ( m ) exp { &xi; k ( m ) &gamma; k ( m ) 1 + &xi; k ( m ) } , ξk(m)和γk(m)分别为当前帧的先验信噪比和后验信噪比。
8.根据权利要求5所述的基于HMM的噪声估计方法,其特征在于,所述当前帧的似然比Λk(m)通过以下公式计算:
&Lambda; k ( m ) = a 01 + &Lambda; k ( m - 1 ) a 11 a 00 + &Lambda; k ( m - 1 ) a 10 &Lambda; &prime; k
其中,Λk(m-1)为前一帧的似然比;
&Lambda; &prime; k = &Pi; i = 0 M - 1 1 1 + &xi; k ( m - i ) exp { &xi; k ( m - i ) &gamma; k ( m - i ) 1 + &xi; k ( m - i ) } , ξk(m-i),γk(m-i),i=0,1,2,3,…,M,分别为前M帧的先验信噪比和后验信噪比;所述M为预设值。
9.一种基于HMM的噪声估计装置,其特征在于,包含:语音存在概率计算模块、平滑因子计算模块、噪声估计模块;
所述语音存在概率计算模块用于根据预先建立的HMM,确定当前帧中语音存在的概率;其中,所述HMM的观测向量由至少一帧带噪语音的频谱组成;
所述平滑因子计算模块用于根据所述语音存在的概率,计算平滑因子;其中,所述平滑因子与当前观测向量条件下当前帧中语音存在的概率成线性关系;
所述噪声估计模块用于根据所述平滑因子、前一帧中噪声的方差估计值和当前帧带噪语音的功率谱,计算当前帧中噪声的方差估计值。
10.根据权利要求9所述的基于HMM的噪声估计装置,其特征在于,所述平滑因子计算模块通过以下公式,根据所述语音存在的概率,计算平滑因子:
μN=μ+(1-μ)p(qm=H1m)
其中,μN为平滑因子;μ为固定常数,0<μ<1;p(qm=H1m)为当前观测向量Ψm条件下当前帧中语音存在的概率;H1为语音存在状态,Ψm={Yk(m),Yk(m-1),…,Yk(1)}为当前观测向量,m代表帧序号。
11.根据权利要求9所述的基于HMM的噪声估计装置,其特征在于,所述噪声估计模块通过以下公式,根据所述平滑因子μN、前一帧中噪声的方差估计值和当前帧带噪语音的功率谱|Yk(m)|2,计算当前帧中噪声的方差估计值
&sigma; ^ N , k 2 ( m ) = &mu; N &sigma; ^ N , k 2 ( m - 1 ) + ( 1 - &mu; N ) | Y k ( m ) | 2
其中,k代表频点序号。
12.根据权利要求9至11任一项所述的基于HMM的噪声估计装置,其特征在于,所述语音存在概率计算模块包含:似然比计算子模块,通过以下公式计算当前帧的似然比Λk(m):
&Lambda; k ( m ) = p ( &Psi; m | q m = H 1 ) p ( q m = H 1 ) p ( &Psi; m | q m = H 0 ) p ( q m = H 0 ) ;
其中,p(Ψm|qm=H1)是当前帧包含语音时观测序列Ψm出现的条件概率,p(qm=H1)是当前帧包含语音的概率,p(Ψm|qm=H0)是当前帧不含语音时观测序列Ψm出现的条件概率,p(qm=H0)是当前帧不含语音的概率;
所述语音存在概率计算模块通过以下公式计算所述当前观测向量条件下当前帧中语音存在的概率p(qm=H1m):
p ( q m = H 1 | &Psi; m ) = &Lambda; k ( m ) 1 + &Lambda; k ( m ) .
13.根据权利要求12所述的基于HMM的噪声估计装置,其特征在于,所述语音存在概率计算模块采用的HMM为两状态的一阶HMM;其中,所述HMM的两个状态为:语音存在时为状态H1,语音不存在时为状态H0
所述HMM的状态转移矩阵为:
A = a 00 a 01 a 10 a 11
其中,aij为状态转移概率:aij=p{qm=Hj|qm-1=Hi} i,j∈{0,1};
状态序列为{qm,qm-1…q1};下角标m代表帧序号;
所述aij根据噪声环境选择。
14.根据权利要求13所述的基于HMM的噪声估计方法,其特征在于,所述a11大于所述a00
15.根据权利要求13所述的基于HMM的噪声估计装置,其特征在于,所述似然比计算子模块通过以下公式计算所述当前帧的似然比Λk(m):
&Lambda; k ( m ) = a 01 + &Lambda; k ( m - 1 ) a 11 a 00 + &Lambda; k ( m - 1 ) a 10 &Lambda; k
其中,Λk(m-1)为前一帧的似然比;
&Lambda; k = 1 1 + &xi; k ( m ) exp { &xi; k ( m ) &gamma; k ( m ) 1 + &xi; k ( m ) } , ξk(m)和γk(m)分别为当前帧的先验信噪比和后验信噪比。
16.根据权利要求13所述的基于HMM的噪声估计装置,其特征在于,所述似然比计算子模块通过以下公式计算所述当前帧的似然比Λk(m):
&Lambda; k ( m ) = a 01 + &Lambda; k ( m - 1 ) a 11 a 00 + &Lambda; k ( m - 1 ) a 10 &Lambda; &prime; k
其中,Λk(m-1)为前一帧的似然比;
&Lambda; &prime; k = &Pi; i = 0 M - 1 1 1 + &xi; k ( m - i ) exp { &xi; k ( m - i ) &gamma; k ( m - i ) 1 + &xi; k ( m - i ) } , ξk(m-i),γk(m-i),i=1,2,3,…,M,分别为前M帧的先验信噪比和后验信噪比;所述M为预设值。
CN201210586423.7A 2012-12-28 2012-12-28 基于隐马尔科夫链模型的噪声估计方法和装置 Active CN103903629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210586423.7A CN103903629B (zh) 2012-12-28 2012-12-28 基于隐马尔科夫链模型的噪声估计方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210586423.7A CN103903629B (zh) 2012-12-28 2012-12-28 基于隐马尔科夫链模型的噪声估计方法和装置

Publications (2)

Publication Number Publication Date
CN103903629A CN103903629A (zh) 2014-07-02
CN103903629B true CN103903629B (zh) 2017-02-15

Family

ID=50994908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210586423.7A Active CN103903629B (zh) 2012-12-28 2012-12-28 基于隐马尔科夫链模型的噪声估计方法和装置

Country Status (1)

Country Link
CN (1) CN103903629B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200811A (zh) * 2014-08-08 2014-12-10 华迪计算机集团有限公司 对语音信号进行自适应谱减消噪处理的方法和装置
CN104269178A (zh) * 2014-08-08 2015-01-07 华迪计算机集团有限公司 对语音信号进行自适应谱减和小波包消噪处理的方法和装置
CN106571146B (zh) 2015-10-13 2019-10-15 阿里巴巴集团控股有限公司 噪音信号确定方法、语音去噪方法及装置
CN108848435B (zh) * 2018-09-28 2021-03-09 广州方硅信息技术有限公司 一种音频信号的处理方法和相关装置
CN111292761B (zh) * 2019-05-10 2023-04-14 展讯通信(天津)有限公司 语音增强方法及装置
CN110136738A (zh) * 2019-06-13 2019-08-16 苏州思必驰信息科技有限公司 噪声估计方法及装置
CN112187382B (zh) * 2020-08-24 2022-05-20 宁波大学 一种基于粘性隐马尔可夫模型的噪声功率估计方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1953050A (zh) * 2005-10-19 2007-04-25 株式会社东芝 用于确定语音/非语音的装置和方法
CN102473412A (zh) * 2009-07-21 2012-05-23 日本电信电话株式会社 语音信号区间估计装置与语音信号区间估计方法及其程序与记录介质
CN102543092A (zh) * 2010-12-29 2012-07-04 联芯科技有限公司 一种噪声估计方法及装置
CN102568491A (zh) * 2010-12-14 2012-07-11 联芯科技有限公司 噪声抑制方法及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1953050A (zh) * 2005-10-19 2007-04-25 株式会社东芝 用于确定语音/非语音的装置和方法
CN102473412A (zh) * 2009-07-21 2012-05-23 日本电信电话株式会社 语音信号区间估计装置与语音信号区间估计方法及其程序与记录介质
CN102568491A (zh) * 2010-12-14 2012-07-11 联芯科技有限公司 噪声抑制方法及设备
CN102543092A (zh) * 2010-12-29 2012-07-04 联芯科技有限公司 一种噪声估计方法及装置

Also Published As

Publication number Publication date
CN103903629A (zh) 2014-07-02

Similar Documents

Publication Publication Date Title
CN103903629B (zh) 基于隐马尔科夫链模型的噪声估计方法和装置
EP3584573B1 (en) Abnormal sound detection training device and method and program therefor
Mohammadiha et al. Supervised and unsupervised speech enhancement using nonnegative matrix factorization
JP5411936B2 (ja) 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体
Ide et al. Lagrangian data assimilation for point vortex systems
CN102576543B (zh) 多输入噪声抑制装置、多输入噪声抑制方法以及集成电路
US9245524B2 (en) Speech recognition device, speech recognition method, and computer readable medium
CN104685562A (zh) 用于从嘈杂输入信号中重构目标信号的方法和设备
McDermott et al. Discriminative training based on an integrated view of MPE and MMI in margin and error space
CN112578419B (zh) 一种基于gru网络和卡尔曼滤波的gps数据重构方法
CN107331386A (zh) 音频信号的端点检测方法、装置、处理系统及计算机设备
Grimm et al. Estimating the time-dependent contact rate of SIR and SEIR models in mathematical epidemiology using physics-informed neural networks
Astudillo et al. Computing MMSE estimates and residual uncertainty directly in the feature domain of ASR using STFT domain speech distortion models
CN108010536A (zh) 回声消除方法、装置、系统及存储介质
JP5348941B2 (ja) 携帯端末装置の移動状態を推定する方法及びシステム
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP4673828B2 (ja) 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
CN106297795A (zh) 语音识别方法及装置
CN113077812A (zh) 语音信号生成模型训练方法、回声消除方法和装置及设备
Aunsri et al. A novel adaptive resampling for sequential Bayesian filtering to improve frequency estimation of time-varying signals
Vielzeuf et al. Are E2E ASR models ready for an industrial usage?
Deng et al. Sparse HMM-based speech enhancement method for stationary and non-stationary noise environments
KR20150078831A (ko) 비음수 행렬 인수분해 및 기저 행렬 업데이트를 이용한 음향 개선 방법 및 시스템
CN106098080A (zh) 一种噪声环境下言语识别阈的确定方法及装置
Kao et al. Orthogonal gradient penalty for fast training of wasserstein gan based multi-task autoencoder toward robust speech recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140702

Assignee: Shanghai Li Ke Semiconductor Technology Co., Ltd.

Assignor: Leadcore Technology Co., Ltd.

Contract record no.: 2018990000159

Denomination of invention: Noise estimation method and device based on hidden Markov model

Granted publication date: 20170215

License type: Common License

Record date: 20180615