CN105845150B - 一种采用倒谱进行修正的语音增强方法及系统 - Google Patents
一种采用倒谱进行修正的语音增强方法及系统 Download PDFInfo
- Publication number
- CN105845150B CN105845150B CN201610160548.1A CN201610160548A CN105845150B CN 105845150 B CN105845150 B CN 105845150B CN 201610160548 A CN201610160548 A CN 201610160548A CN 105845150 B CN105845150 B CN 105845150B
- Authority
- CN
- China
- Prior art keywords
- cepstrum
- sound
- frequency domain
- modified
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012545 processing Methods 0.000 claims abstract description 44
- 239000004568 cement Substances 0.000 claims abstract description 26
- 238000001228 spectrum Methods 0.000 claims description 99
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 13
- 238000012937 correction Methods 0.000 claims description 11
- 238000013461 design Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 101001120757 Streptococcus pyogenes serotype M49 (strain NZ131) Oleate hydratase Proteins 0.000 claims 2
- 229940083712 aldosterone antagonist Drugs 0.000 claims 2
- 235000013399 edible fruits Nutrition 0.000 claims 2
- 238000012360 testing method Methods 0.000 claims 1
- 230000009467 reduction Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 230000008439 repair process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供一种采用倒谱进行修正的语音增强方法及系统。所述采用倒谱进行修正的语音增强方法包括:对输入的带噪语音信号进行分帧处理;计算当前帧信号的倒谱系数,根据当前帧信号的倒谱系数与设定的倒谱门限值判断得到当前帧是否存在浊音信号的浊音判断结果;根据所述浊音判断结果对噪声估计或语音增强进行修正补偿。这样可以在一定程度上回复信噪比较差时的语音谐波分量,使语音增强处理后信号更丰满,提高降噪后音质。
Description
技术领域
本发明涉及一种语音处理技术,特别是涉及一种采用倒谱进行修正的语音增强方法及系统。
背景技术
在实际进行语音传输时,语音信号很难避免来自外界噪声的干扰。这些噪声的存在使得原本纯净的语音信号受到不同程度、随机的污染。许多语音处理系统性能的急剧恶化很大程度上都是因为噪声降低了语音质量。语音增强正是为了减少背景噪声对语音信号处理的影响,从带噪语音中获得尽可能纯净的语音信号而发展起来的一种语音处理技术。语音增强通常包括噪声功率谱估计和语音增强两部分。目前国内外应用较广的噪声估计方法为MCRA (Minima Controlled Recursive Averaging,最小统计量控制递归平均)方法或基于其进行改进的算法,该方法在语音段和纯噪声段都进行噪声估计更新,可一定程度上跟踪非平稳噪声的噪声。MCRA方法采用递归平均进行噪声估计,平滑参数受语音存在概率控制,并由最小统计量控制语音存在概率。但该噪声跟踪算法存在一个问题,在语音持续时间较长或选择窗长较短的情况下,噪声功率谱会出现过估计现象。语音增强目前多采用最佳修正短时对数谱估计算法,它是结合了语音存在概率修正对数MMSE估计器,但是该算法无法避免噪声过估计导致的语音失真。由于分频率进行噪声估计,计算量较大,且频谱会有细条状能量集中带出现,因此采用子带方法进行语音增强处理。但是采用子带后,当某些子带信噪比较低时,会导致整个频带语音估计变弱或消失,使语音失真更严重。
鉴于此,如何找到在语音传输中更有效处理语音信号的语音增强方案就成了本领域技术人员亟待解决的问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种采用倒谱进行修正的语音增强方法及系统,用于解决现有技术中处理语音信号时导致的语音失真等问题。
为实现上述目的及其他相关目的,本发明提供一种采用倒谱进行修正的语音增强方法,所述采用倒谱进行修正的语音增强方法包括:对输入的带噪语音信号进行分帧处理;计算当前帧信号的倒谱系数,根据当前帧信号的倒谱系数与设定的倒谱门限值判断得到当前帧是否存在浊音信号的浊音判断结果,并将所述浊音判断结果加入到倒谱记录窗口中;所述倒谱记录窗口的长度为N,所述倒谱记录窗口记录当前帧及前N-1帧的浊音判断结果;将当前帧信号划分成K个频域子带,分别计算各频域子带功率,根据所有的所述频域子带功率得到频域子带功率谱P(k),k为频域子带索引;将所述频域子带功率谱P(k)作为噪声估计MCRA算法的输入,在长度为M的噪声估计子窗进行最小值跟踪计算,根据计算得到的最小值计算条件有音概率;根据所述倒谱记录窗口记录的浊音判断结果对所述条件有音概率进行修正得到先验条件有音概率;根据所述先验条件有音概率计算噪声谱N(k);根据所述频域子带功率谱P(k) 以及噪声谱N(k)对当前帧信号进行语音增强得到最终的输出信号。
可选地,计算噪声谱N(k)的具体实现方法包括:根据所述先验条件有音概率递归平均估计得到噪声谱N(k)。
可选地,根据所述倒谱记录窗口记录的浊音判断结果对所述条件有音概率进行修正的具体实现包括:根据所述倒谱记录窗口记录的浊音存在位置分布和浊音存在概率对所述条件有音概率进行修正。
本发明还提供一种采用倒谱进行修正的语音增强系统,所述采用倒谱进行修正的语音增强系统包括:信号分帧处理模块,用于对输入的带噪语音信号进行分帧处理;浊音概率统计模块,用于计算当前帧信号的倒谱系数,根据当前帧信号的倒谱系数与倒谱门限值判断得到当前帧是否存在浊音信号的的浊音判断结果,并将所述浊音判断结果加入到所述倒谱记录窗口中;所述倒谱记录窗口的长度为N,所述倒谱记录窗口记录当前帧及前N-1帧的浊音判断结果;噪声估计修正模块,用于将当前帧信号划分成K个频域子带,计算各频域子带功率,根据所有的所述频域子带功率得到频域子带功率谱P(k),k为频域子带索引;将所述频域子带功率谱P(k)作为噪声估计MCRA算法的输入,在长度为M的噪声估计子窗进行最小值跟踪计算,根据计算得到的最小值计算条件有音概率;根据所述倒谱记录窗口记录的浊音判断结果对所述条件有音概率进行修正得到先验条件有音概率;根据所述先验条件有音概率计算噪声谱N(k);语音增强处理模块,用于根据所述频域子带功率谱P(k)以及噪声谱N(k)对当前帧信号进行语音增强得到最终的输出信号。
可选地,计算噪声谱N(k)的具体实现方法包括:根据所述先验条件有音概率递归平均估计得到噪声谱N(k)。
可选地,根据所述倒谱记录窗口记录的浊音判断结果对所述条件有音概率进行修正的具体实现包括:根据所述倒谱记录窗口记录的浊音存在位置分布和浊音存在概率对所述条件有音概率进行修正。
本发明提供一种采用倒谱进行修正的语音增强方法,所述采用倒谱进行修正的语音增强方法包括:对输入的带噪语音信号进行分帧处理;计算当前帧信号的倒谱系数,根据当前帧信号的倒谱系数与倒谱门限值判断得到当前帧是否存在浊音信号的浊音判断结果,并将所述浊音判断结果加入到所述倒谱记录窗口中;所述倒谱记录窗口的长度为N,所述倒谱记录窗口记录当前帧及前N-1帧的浊音判断结果;将当前帧信号划分成K个频域子带,计算得到当前帧信号的各频域子带功率,根据所有的所述频域子带功率得到频域子带功率谱P(k),k 为频域子带索引;根据所述频域子带功率谱P(k)进行噪声估计,得到噪声谱N(k);根据所述频域子带功率谱P(k)以及噪声谱N(k)估算出先验有音概率;根据所述倒谱记录窗口记录的浊音判断结果对所述先验有音概率进行修正,并对修正过程进行频域加权;根据修正后的先验有音概率计算增益函数G(k),根据所述增益函数G(k)得到最终的输出信号。
可选地,估算出先验有音概率的具体实现包括:根据所述频域子带功率谱P(k)以及噪声谱N(k)进行先验信噪比估算;对先验信噪比的时域进行平滑处理;对先验信噪比的频域全局以及局部进行平滑处理;最后根据所述先验信噪比估算出所述先验有音概率。
可选地,计算噪声谱N(k)的具体实现方法包括:最小统计量控制递归平均方法。
可选地,根据所述倒谱记录窗口记录的浊音判断结果对所述先验有音概率进行修正的具体实现包括:根据所述倒谱记录窗口记录的浊音存在位置分布和浊音存在概率对所述先验有音概率进行修正。
本发明还提供一种采用倒谱进行修正的语音增强系统,所述采用倒谱进行修正的语音增强系统包括:信号分帧处理模块,用于对输入的带噪语音信号进行分帧处理;浊音概率统计模块,用于计算当前帧信号的倒谱系数,根据当前帧信号的倒谱系数与倒谱门限值判断得到当前帧的浊音判断结果,并将所述浊音判断结果加入到所述倒谱记录窗口中;所述倒谱记录窗口的长度为N,所述倒谱记录窗口记录当前帧及前N-1帧的浊音判断结果;噪声估计处理模块,用于将当前帧信号的划分成K个频域子带,计算得到各频域子带功率,根据所有的所述频域子带功率得到频域子带功率谱P(k),k为频域子带索引;根据所述频域子带功率谱P(k) 进行噪声估计,得到噪声谱N(k);语音增强修正模块,用于根据所述频域子带功率谱P(k)以及噪声谱N(k)估算出先验有音概率,对所述倒谱记录窗口记录的浊音判断结果进行频域加权后,对所述先验有音概率进行修正;根据修正后的先验有音概率计算增益函数G(k),根据所述增益函数G(k)得到最终的输出信号。
可选地,计算噪声谱N(k)的具体实现方法包括:最小统计量控制递归平均方法。
可选地,估算出先验有音概率的具体实现包括:根据所述频域子带功率谱P(k)以及噪声谱N(k)进行先验信噪比估算;对先验信噪比的时域进行平滑处理;对先验信噪比的频域全局以及局部进行平滑处理;最后根据所述先验信噪比估算出所述先验有音概率。
可选地,根据所述倒谱记录窗口记录的浊音判断结果对所述先验有音概率进行修正的具体实现包括:根据所述倒谱记录窗口记录的浊音存在位置分布和浊音存在概率对所述先验有音概率进行修正。
如上所述,本发明的一种采用倒谱进行修正的语音增强方法及系统,具有以下有益效果:通过对输入带噪语音信号进行倒谱估计,根据估计得到的倒谱系数判断是否存在浊音谐频信号。根据浊音判断结果对噪声估计或语音增强进行修正补偿。这样可以更好的保留语音信号,从而避免或减轻语音失真。
附图说明
图1显示为本发明的一种采用倒谱进行修正的语音增强方法的一实施例的流程示意图。
图2显 示为本发明的一种采用倒谱进行修正的语音增强方法的另一实施例的流程示意图。
图3显 示为本发明的一种采用倒谱进行修正的语音增强系统的一实施例的模块示意图。
图4显示为本发明的另一种采用倒谱进行修正的语音增强方法的一实施例的流程示意图。
图5显 示为本发明的另一种采用倒谱进行修正的语音增强方法的另一实施例的流程示意图。
图6显 示为本发明的另一种采用倒谱进行修正的语音增强系统的一实施例的模块示意图。
元件标号说明
1 采用倒谱进行修正的语音增强系统
11 浊音概率统计模块
12 信号分帧处理模块
13 噪声估计修正模块
14 语音增强处理模块
15 噪声估计处理模块
16 语音增强修正模块
S11~S14 步骤
S21~S24 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明提供一种采用倒谱进行修正的语音增强方法。在一个实施例中,如图1所示,所述采用倒谱进行修正的语音增强方法包括:
步骤S11,对输入的带噪语音信号进行分帧处理。
步骤S12,计算当前帧信号的倒谱系数,根据当前帧信号的倒谱系数与设定的倒谱门限值判断得到当前帧是否存在浊音信号的浊音判断结果,并将所述浊音判断结果加入到倒谱记录窗口中;所述倒谱记录窗口的长度为N,所述倒谱记录窗口记录当前帧及前N-1帧的浊音判断结果。
步骤S13,将当前帧信号划分成K个频域子带,分别计算各频域子带功率,根据所有的所述频域子带功率得到频域子带功率谱P(k),k为频域子带索引;将所述频域子带功率谱P(k) 作为噪声估计MCRA算法的输入,在长度为M的噪声估计子窗进行最小值跟踪计算,根据计算得到的最小值计算条件有音概率;根据所述倒谱记录窗口记录的浊音判断结果对所述条件有音概率进行修正得到先验条件有音概率;根据所述先验条件有音概率计算噪声谱N(k)。在一个实施例中,根据所述倒谱记录窗口记录的浊音判断结果对所述条件有音概率进行修正的具体实现包括:根据所述倒谱记录窗口记录的浊音存在位置分布和浊音存在概率对所述条件有音概率进行修正。在一个实施例中,计算噪声谱N(k)的具体实现方法包括:根据所述先验条件有音概率递归平均估计得到噪声谱N(k)。
步骤S14,根据所述频域子带功率谱P(k)以及噪声谱N(k)对当前帧信号进行语音增强得到最终的输出信号。
在一个实施例中,如图2示,所述采用倒谱进行修正的语音增强方法包括:
(1)采用经过分帧处理的原始输入带噪语音信号x计算倒谱系数c,c(q)= IFFT{ln(|X(k)|2),其中X为信号x的频域表示。IFFT(Inverse Fast Fourier Transform)为快速傅里叶逆变换。
(2)设置倒谱系数门限值cth为0.4(倒谱门限值),搜索倒谱系数的最大值c(qmax)与 cth进行比较。qmax=argmax{c(q)},其中q的搜索范围定为70Hz~300Hz。argmax表示寻找具有最大评分的参量。
如果c(qmax)>cth,判断该帧存在浊音信号,并记录于长度为N=25的子窗中,记Ix(n)=1,否则记Ix(n)=0,n为循环记录当前子窗序号。统计浊音存在概率,并结合子窗M、N判断浊音分布情况。
(3)将带噪语音信号划分为24个子带,计算子带信号频域功率谱P(k)。
(4)采用现有噪声估计算法MCRA算法进行噪声估计,对噪声谱频谱平滑后,在长度为M=3×4的子窗内进行最小值跟踪计算S(k),进而计算条件有音概率p。
(5)结合倒谱系数分析对子带2~21的条件有音概率p(k)进行修正(即对较高和较低频段不进行修正),记为pc(k)。
首先,判断当前帧的Ix值,若Ix为0,则pc=p;否则继续进行判断。
当前帧及前M-1帧中Ix为1的概率p1,如果p1<0.7,则pc=p;否则继续进行判断。
N帧长度的子窗中Ix为1的概率p2,如果p1<0.5,则pc=p;否则对p进行修正得到pc。此处简单分两段进行修正如下:
若p(k)<(pmax-0.2)
pc(k)=p(k)+(pmax-p(k))×0.8;
否则
pc(k)=p(k);
其中,pmax=max(p(k))。
(6)利用修正后有音概率pc替代修正前条件有音概率p递归平均估计噪声谱N(k)。
(7)利用估计噪声功率谱N(k)和输入子带功率谱P(k),采用现有语音增强算法MMSE (Minimum Mean Squared Erro,最小均方误差)估计器进行语音增强计算,得到子带增益 Gband,进行子带逆运算得到线性增益G。
(8)输出处理后频域信号Y(k)=G(k)X(k),进行IFFT运算即可得到时域输出信号y(最终的输出信号)。
本发明还提供一种采用倒谱进行修正的语音增强系统,所述采用倒谱进行修正的语音增强系统可以采用如上所述的采用倒谱进行修正的语音增强方法。在一个实施例中,如图3示,所述采用倒谱进行修正的语音增强系统1包括:
信号分帧处理模块11用于对输入的带噪语音信号进行分帧处理。
浊音概率统计模块12与信号分帧处理模块11相连,用于计算当前帧信号的倒谱系数,根据当前帧信号的倒谱系数与倒谱门限值判断得到当前帧是否存在浊音信号的的浊音判断结果,并将所述浊音判断结果加入到所述倒谱记录窗口中;所述倒谱记录窗口的长度为N,所述倒谱记录窗口记录当前帧及前N-1帧的浊音判断结果。
噪声估计修正模块13与浊音概率统计模块12及信号分帧处理模块11相连,用于将当前帧信号划分成K个频域子带,计算各频域子带功率,根据所有的所述频域子带功率得到频域子带功率谱P(k),k为频域子带索引;将所述频域子带功率谱P(k)作为噪声估计MCRA算法的输入,在长度为M的噪声估计子窗进行最小值跟踪计算,根据计算得到的最小值计算条件有音概率;根据所述倒谱记录窗口记录的浊音判断结果对所述条件有音概率进行修正得到先验条件有音概率;根据所述先验条件有音概率计算噪声谱N(k)。在一个实施例中,根据所述倒谱记录窗口记录的浊音判断结果对所述条件有音概率进行修正的具体实现包括:根据所述倒谱记录窗口记录的浊音存在位置分布和浊音存在概率对所述条件有音概率进行修正。在一个实施例中,计算噪声谱N(k)的具体实现方法包括:根据所述先验条件有音概率递归平均估计得到噪声谱N(k)。
语音增强处理模块14与噪声估计修正模块13相连,用于根据所述频域子带功率谱P(k) 以及噪声谱N(k)对当前帧信号进行语音增强得到最终的输出信号。
本发明提供一种采用倒谱进行修正的语音增强方法。在一个实施例中,如图4所示,所述采用倒谱进行修正的语音增强方法包括:
步骤S21,对输入的带噪语音信号进行分帧处理。
步骤S22,计算当前帧信号的倒谱系数,根据当前帧信号的倒谱系数与倒谱门限值判断得到当前帧是否存在浊音信号的的的浊音判断结果,并将所述浊音判断结果加入到所述倒谱记录窗口中;所述倒谱记录窗口的长度为N,所述倒谱记录窗口记录当前帧及前N-1帧的浊音判断结果。
步骤S23,将当前帧信号划分成K个频域子带,计算得到当前帧信号的各频域子带功率,根据所有的所述频域子带功率得到频域子带功率谱P(k),k为频域子带索引;根据所述频域子带功率谱P(k)进行噪声估计,得到噪声谱N(k)。在一个实施例中,计算噪声谱N(k)的具体实现方法包括:最小统计量控制递归平均方法。
步骤S24,根据所述频域子带功率谱P(k)以及噪声谱N(k)估算出先验有音概率;根据所述倒谱记录窗口记录的浊音判断结果对所述先验有音概率进行修正,并对修正过程进行频域加权;根据修正后的先验有音概率计算增益函数G(k),根据所述增益函数G(k)得到最终的输出信号。在一个实施例中,估算出先验有音概率的具体实现包括:根据所述频域子带功率谱 P(k)以及噪声谱N(k)进行先验信噪比估算;对先验信噪比的时域进行平滑处理;对先验信噪比的频域全局以及局部进行平滑处理;最后根据所述先验信噪比估算出所述先验有音概率。在一个实施例中,根据所述倒谱记录窗口记录的浊音判断结果对所述先验有音概率进行修正的具体实现包括:根据所述倒谱记录窗口记录的浊音存在位置分布和浊音存在概率对所述先验有音概率进行修正。
在一个实施例中,如图5所示,所述倒谱进行修正的语音增强方法包括:
(1)对带噪语音信号进行分帧处理,采用未进行子带合并前(即划分子带前)输入数据计算倒谱系数c。
(2)根据设置的门限cth,判断该帧是否为浊音信号,并将判断结果记录于长度为N=25 的子窗中,记为Ix(n)。统计浊音存在概率(即有音/无音概率),并进行频域加权。
(3)采用现有噪声估计算法MCRA估计噪声功率谱N(k),计算输入信号子带功率谱P(k)。
(4)采用现有语音增强算法MMSE进行语音增强运算。首先计算先验性噪比并进行时域平滑;接着通过局部和全局频域平滑估算先验有音概率p(k)。
(5)根据倒谱系数分析对子带2~21的先验有音概率p(k)进行修正,记为pc(k)。(因为未知环境噪声情况,因此此处不具体进行频域加权处理,仅对高频段和低频段先验有音概率不进行修正)。
(6)根据有音/无音概率计算子带增益Gband,进行子带逆运算得到线性增益G。
(7)输出处理后频域信号Y(k)=G(k)X(k),进行IFFT运算即可得到时域输出信号y(最终的输出信号)。
该方法中的对子带划分以及倒谱系数的处理和修正原理可以与前述实例中相同。
本发明还提供一种采用倒谱进行修正的语音增强系统,所述采用倒谱进行修正的语音增强系统可以采用如上所述的采用倒谱进行修正的语音增强方法。在一个实施例中,如图6示,所述采用倒谱进行修正的语音增强系统包括:
信号分帧处理模块11用于对输入的带噪语音信号进行分帧处理。
浊音概率统计模块12,用于计算当前帧信号的倒谱系数,根据当前帧信号的倒谱系数与倒谱门限值判断得到当前帧的浊音判断结果,并将所述浊音判断结果加入到所述倒谱记录窗口中;所述倒谱记录窗口的长度为N,所述倒谱记录窗口记录当前帧及前N-1帧的浊音判断结果。在一个实施例中,计算噪声谱N(k)的具体实现方法包括:最小统计量控制递归平均方法。
噪声估计处理模块15与浊音概率统计模块12及信号分帧处理模块11相连,用于将当前帧信号的划分成K个频域子带,计算得到各频域子带功率,根据所有的所述频域子带功率得到频域子带功率谱P(k),k为频域子带索引;根据所述频域子带功率谱P(k)进行噪声估计,得到噪声谱N(k)。
语音增强修正模块16与噪声估计处理模块15相连,用于根据所述频域子带功率谱P(k) 以及噪声谱N(k)估算出先验有音概率,对所述倒谱记录窗口记录的浊音判断结果进行频域加权后,对所述先验有音概率进行修正;根据修正后的先验有音概率计算增益函数G(k),根据所述增益函数G(k)得到最终的输出信号。在一个实施例中,估算出先验有音概率的具体实现包括:根据所述频域子带功率谱P(k)以及噪声谱N(k)进行先验信噪比估算;对先验信噪比的时域进行平滑处理;对先验信噪比的频域全局以及局部进行平滑处理;最后根据所述先验信噪比估算出所述先验有音概率。在一个实施例中,根据所述倒谱记录窗口记录的浊音判断结果对所述先验有音概率进行修正的具体实现包括:根据所述倒谱记录窗口记录的浊音存在位置分布和浊音存在概率对所述先验有音概率进行修正。
本发明的采用倒谱进行修正的语音增强方案中,还可以根据语音特征及人耳对语音的听觉感知特性,结合子带划分计算不同频的修正系数。如果知道应用环境噪声频率分布情况或噪声特点,可将噪声特性引入对不同频带的修正系数计算中。
综上所述,本发明一种采用倒谱进行修正的语音增强方法及系统通过采用倒谱系数对语音存在进行判断,根据判断结果对最终不同频带语音存在概率进行修正。这样可以在一定程度上回复信噪比较差时的语音谐波分量,使语音增强处理后信号更丰满,提高降噪后音质。不仅如此,采用本发明后,语音增强算法可选择较小的子窗长度,可更好的估计非平稳噪声,提高降噪效果。并且本发明方法增加的运算量很小,有利于实际应用。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (14)
1.一种采用倒谱进行修正的语音增强方法,其特征在于,所述采用倒谱进行修正的语音增强方法包括:
对输入的带噪语音信号进行分帧处理;
计算当前帧信号的倒谱系数,根据当前帧信号的倒谱系数与设定的倒谱门限值判断得到当前帧是否存在浊音信号的浊音判断结果,并将所述浊音判断结果加入到倒谱记录窗口中;所述倒谱记录窗口的长度为N,所述倒谱记录窗口记录当前帧及前N-1帧的浊音判断结果;
将当前帧信号划分成K个频域子带,分别计算各频域子带功率,根据所有的所述频域子带功率得到频域子带功率谱P(k),k为频域子带索引;将所述频域子带功率谱P(k)作为噪声估计MCRA算法的输入,在长度为M的噪声估计子窗进行最小值跟踪计算,根据计算得到的最小值计算条件有音概率;根据所述倒谱记录窗口记录的浊音判断结果对所述条件有音概率进行修正得到先验条件有音概率;根据所述先验条件有音概率计算噪声谱N(k);
根据所述频域子带功率谱P(k)以及噪声谱N(k)对当前帧信号进行语音增强得到最终的输出信号。
2.根据权利要求1所述的采用倒谱进行修正的语音增强方法,其特征在于:计算噪声谱N(k)的具体实现方法包括:根据所述先验条件有音概率递归平均估计得到噪声谱N(k)。
3.根据权利要求1所述的采用倒谱进行修正的语音增强方法,其特征在于:根据所述倒谱记录窗口记录的浊音判断结果对所述条件有音概率进行修正的具体实现包括:根据所述倒谱记录窗口记录的浊音存在位置分布和浊音存在概率对所述条件有音概率进行修正。
4.一种采用倒谱进行修正的语音增强系统,其特征在于:所述采用倒谱进行修正的语音增强系统包括:
信号分帧处理模块,用于对输入的带噪语音信号进行分帧处理;
浊音概率统计模块,用于计算当前帧信号的倒谱系数,根据当前帧信号的倒谱系数与倒谱门限值判断得到当前帧是否存在浊音信号的的浊音判断结果,并将所述浊音判断结果加入到所述倒谱记录窗口中;所述倒谱记录窗口的长度为N,所述倒谱记录窗口记录当前帧及前N-1帧的浊音判断结果;
噪声估计修正模块,用于将当前帧信号划分成K个频域子带,计算各频域子带功率,根据所有的所述频域子带功率得到频域子带功率谱P(k),k为频域子带索引;将所述频域子带功率谱P(k)作为噪声估计MCRA算法的输入,在长度为M的噪声估计子窗进行最小值跟踪计算,根据计算得到的最小值计算条件有音概率;根据所述倒谱记录窗口记录的浊音判断结果对所述条件有音概率进行修正得到先验条件有音概率;根据所述先验条件有音概率计算噪声谱N(k);
语音增强处理模块,用于根据所述频域子带功率谱P(k)以及噪声谱N(k)对当前帧信号进行语音增强得到最终的输出信号。
5.根据权利要求4所述的采用倒谱进行修正的语音增强系统,其特征在于:计算噪声谱N(k)的具体实现方法包括:根据所述先验条件有音概率递归平均估计得到噪声谱N(k)。
6.根据权利要求4所述的采用倒谱进行修正的语音增强系统,其特征在于:根据所述倒谱记录窗口记录的浊音判断结果对所述条件有音概率进行修正的具体实现包括:根据所述倒谱记录窗口记录的浊音存在位置分布和浊音存在概率对所述条件有音概率进行修正。
7.一种采用倒谱进行修正的语音增强方法,其特征在于:所述采用倒谱进行修正的语音增强方法包括:
对输入的带噪语音信号进行分帧处理;
计算当前帧信号的倒谱系数,根据当前帧信号的倒谱系数与倒谱门限值判断得到当前帧是否存在浊音信号的的的浊音判断结果,并将所述浊音判断结果加入到所述倒谱记录窗口中;所述倒谱记录窗口的长度为N,所述倒谱记录窗口记录当前帧及前N-1帧的浊音判断结果;
将当前帧信号划分成K个频域子带,计算得到当前帧信号的各频域子带功率,根据所有的所述频域子带功率得到频域子带功率谱P(k),k为频域子带索引;根据所述频域子带功率谱P(k)进行噪声估计,得到噪声谱N(k);
根据所述频域子带功率谱P(k)以及噪声谱N(k)估算出先验有音概率;根据所述倒谱记录窗口记录的浊音判断结果对所述先验有音概率进行修正,并对修正过程进行频域加权;根据修正后的先验有音概率计算增益函数G(k),根据所述增益函数G(k)得到最终的输出信号。
8.根据权利要求7所述的采用倒谱进行修正的语音增强方法,其特征在于:估算出先验有音概率的具体实现包括:根据所述频域子带功率谱P(k)以及噪声谱N(k)进行先验信噪比估算;对先验信噪比的时域进行平滑处理;对先验信噪比的频域全局以及局部进行平滑处理;最后根据所述先验信噪比估算出所述先验有音概率。
9.根据权利要求7所述的采用倒谱进行修正的语音增强方法,其特征在于:计算噪声谱N(k)的具体实现方法包括:最小统计量控制递归平均方法。
10.根据权利要求7所述的采用倒谱进行修正的语音增强方法,其特征在于:根据所述倒谱记录窗口记录的浊音判断结果对所述先验有音概率进行修正的具体实现包括:根据所述倒谱记录窗口记录的浊音存在位置分布和浊音存在概率对所述先验有音概率进行修正。
11.一种采用倒谱进行修正的语音增强系统,其特征在于:所述采用倒谱进行修正的语音增强系统包括:
信号分帧处理模块,用于对输入的带噪语音信号进行分帧处理;
浊音概率统计模块,用于计算当前帧信号的倒谱系数,根据当前帧信号的倒谱系数与倒谱门限值判断得到当前帧的浊音判断结果,并将所述浊音判断结果加入到所述倒谱记录窗口中;所述倒谱记录窗口的长度为N,所述倒谱记录窗口记录当前帧及前N-1帧的浊音判断结果;
噪声估计处理模块,用于将当前帧信号的划分成K个频域子带,计算得到各频域子带功率,根据所有的所述频域子带功率得到频域子带功率谱P(k),k为频域子带索引;根据所述频域子带功率谱P(k)进行噪声估计,得到噪声谱N(k);
语音增强修正模块,用于根据所述频域子带功率谱P(k)以及噪声谱N(k)估算出先验有音概率,对所述倒谱记录窗口记录的浊音判断结果进行频域加权后,对所述先验有音概率进行修正;根据修正后的先验有音概率计算增益函数G(k),根据所述增益函数G(k)得到最终的输出信号。
12.根据权利要求11所述的采用倒谱进行修正的语音增强系统,其特征在于:计算噪声谱N(k)的具体实现方法包括:最小统计量控制递归平均方法。
13.根据权利要求11所述的采用倒谱进行修正的语音增强系统,其特征在于:估算出先验有音概率的具体实现包括:根据所述频域子带功率谱P(k)以及噪声谱N(k)进行先验信噪比估算;对先验信噪比的时域进行平滑处理;对先验信噪比的频域全局以及局部进行平滑处理;最后根据所述先验信噪比估算出所述先验有音概率。
14.根据权利要求11所述的采用倒谱进行修正的语音增强系统,其特征在于:根据所述倒谱记录窗口记录的浊音判断结果对所述先验有音概率进行修正的具体实现包括:根据所述倒谱记录窗口记录的浊音存在位置分布和浊音存在概率对所述先验有音概率进行修正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610160548.1A CN105845150B (zh) | 2016-03-21 | 2016-03-21 | 一种采用倒谱进行修正的语音增强方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610160548.1A CN105845150B (zh) | 2016-03-21 | 2016-03-21 | 一种采用倒谱进行修正的语音增强方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105845150A CN105845150A (zh) | 2016-08-10 |
CN105845150B true CN105845150B (zh) | 2019-09-27 |
Family
ID=56587671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610160548.1A Active CN105845150B (zh) | 2016-03-21 | 2016-03-21 | 一种采用倒谱进行修正的语音增强方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105845150B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106653047A (zh) * | 2016-12-16 | 2017-05-10 | 广州视源电子科技股份有限公司 | 一种音频数据的自动增益控制方法与装置 |
EP3669356B1 (en) * | 2017-08-17 | 2024-07-03 | Cerence Operating Company | Low complexity detection of voiced speech and pitch estimation |
CN108962275B (zh) * | 2018-08-01 | 2021-06-15 | 电信科学技术研究院有限公司 | 一种音乐噪声抑制方法及装置 |
CN111477237B (zh) * | 2019-01-04 | 2022-01-07 | 北京京东尚科信息技术有限公司 | 音频降噪方法、装置和电子设备 |
CN111261197B (zh) * | 2020-01-13 | 2022-11-25 | 中航华东光电(上海)有限公司 | 一种复杂噪声场景下的实时语音段落追踪方法 |
CN112233688B (zh) * | 2020-09-24 | 2022-03-11 | 北京声智科技有限公司 | 音频降噪方法、装置、设备及介质 |
CN113241089B (zh) * | 2021-04-16 | 2024-02-23 | 维沃移动通信有限公司 | 语音信号增强方法、装置及电子设备 |
CN113973250B (zh) * | 2021-10-26 | 2023-12-08 | 恒玄科技(上海)股份有限公司 | 一种噪声抑制方法、装置及辅听耳机 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101976566B (zh) * | 2010-07-09 | 2012-05-02 | 瑞声声学科技(深圳)有限公司 | 语音增强方法及应用该方法的装置 |
JP2012058358A (ja) * | 2010-09-07 | 2012-03-22 | Sony Corp | 雑音抑圧装置、雑音抑圧方法およびプログラム |
CN103915103B (zh) * | 2014-04-15 | 2017-04-19 | 成都凌天科创信息技术有限责任公司 | 语音质量增强系统 |
-
2016
- 2016-03-21 CN CN201610160548.1A patent/CN105845150B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN105845150A (zh) | 2016-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105845150B (zh) | 一种采用倒谱进行修正的语音增强方法及系统 | |
CN108831499B (zh) | 利用语音存在概率的语音增强方法 | |
US8239196B1 (en) | System and method for multi-channel multi-feature speech/noise classification for noise suppression | |
CN105513605B (zh) | 手机麦克风的语音增强系统和语音增强方法 | |
CN103456310B (zh) | 一种基于谱估计的瞬态噪声抑制方法 | |
EP2151822B1 (en) | Apparatus and method for processing and audio signal for speech enhancement using a feature extraction | |
CN110739005B (zh) | 一种面向瞬态噪声抑制的实时语音增强方法 | |
Shin et al. | Voice activity detection based on conditional MAP criterion | |
CN109308904A (zh) | 一种阵列语音增强算法 | |
CN103578477B (zh) | 基于噪声估计的去噪方法和装置 | |
EP3118852B1 (en) | Method and device for detecting audio signal | |
US20150032445A1 (en) | Noise estimation apparatus, noise estimation method, noise estimation program, and recording medium | |
Gerkmann et al. | Empirical distributions of DFT-domain speech coefficients based on estimated speech variances | |
CN109817234A (zh) | 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 | |
Upadhyay et al. | An improved multi-band spectral subtraction algorithm for enhancing speech in various noise environments | |
CN105513614A (zh) | 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法 | |
CN111933165A (zh) | 突变噪声快速估计方法 | |
Ram et al. | Performance analysis of adaptive variational mode decomposition approach for speech enhancement | |
CN107045874A (zh) | 一种基于相关性的非线性语音增强方法 | |
CN112201269B (zh) | 基于改进噪声估计的mmse-lsa语音增强方法 | |
CN103971697B (zh) | 基于非局部均值滤波的语音增强方法 | |
Roy et al. | A noise PSD estimation algorithm using derivative-based high-pass filter in non-stationary noise conditions | |
Rao et al. | Speech enhancement using perceptual Wiener filter combined with unvoiced speech—A new Scheme | |
DENGabc et al. | Tiny Deep Convolution Recurrent Network for Online Speech Enhancement with Various Noise Types | |
An et al. | An adaptive β-order MMSE estimator for speech enhancement using super-Gaussian speech model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 350000 building, No. 89, software Avenue, Gulou District, Fujian, Fuzhou 18, China Patentee after: Ruixin Microelectronics Co., Ltd Address before: 350003 building, No. 89, software Avenue, Gulou District, Fujian, Fuzhou 18, China Patentee before: Fuzhou Rockchips Electronics Co.,Ltd. |
|
CP03 | Change of name, title or address |