CN114255777A - 实时语音去混响的混合方法及系统 - Google Patents
实时语音去混响的混合方法及系统 Download PDFInfo
- Publication number
- CN114255777A CN114255777A CN202111567537.2A CN202111567537A CN114255777A CN 114255777 A CN114255777 A CN 114255777A CN 202111567537 A CN202111567537 A CN 202111567537A CN 114255777 A CN114255777 A CN 114255777A
- Authority
- CN
- China
- Prior art keywords
- frequency domain
- signals
- voice
- dereverberation
- reverberation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000001228 spectrum Methods 0.000 claims abstract description 81
- 238000004364 calculation method Methods 0.000 claims abstract description 28
- 230000001629 suppression Effects 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 230000003595 spectral effect Effects 0.000 claims description 12
- 238000009432 framing Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 10
- 238000007499 fusion processing Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000011282 treatment Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及一种实时语音去混响的混合方法,包括获取多麦克风通道的语音原始信号,对其进行预处理,获得多麦克风通道的频域语音信号;针对多麦克风通道的频域语音信号在多个波束方向进行固定波束形成,得到多个波束输出频域信号;对输出频域信号进行信噪比加权,获得第一级去混响后的单通道频域语音信号,基于其计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数;基于频域相干系数估计当前帧的中晚期混响功率谱成分,结合混响功率谱成分,对中晚期混响成分进行抑制,获得混响抑制后的语音频谱,获得去混响后的时域语音信号。本发明达到了兼顾计算复杂度和去混响效果以及降低了对硬件资源的苛刻要求。
Description
技术领域
本发明涉及语音处理技术领域,尤其是指一种实时语音去混响的混合方法及系统。
背景技术
近年来,用户对实时会议中的语音质量提出了更多的要求。混响是影响语音清晰度、可懂度的关键因素,用户参会时所处环境的混响程度差异很大,有些做过良好声学处理的会议室的混响程度很低,但是另一些四面玻璃、未做特定声学处理的会议室的混响很重,给语音处理带来了极大挑战。目前去混响方法主要包括解卷积方法、加权线性预测滤波器方法、类似降噪原理的混响抑制方法以及基于深度学习的语音去混响方法等。以上方法中,解卷积方法、加权线性预测滤波器方法以及基于深度学习的语音去混响方法,三者均会由于计算量较大的问题,导致难以实时运行,尤其是在主芯片计算能力偏弱、资源紧张的会议拾音器设备中。相对而言,采用类似降噪原理的混响抑制方法计算量较小,其难点在于如何合理地构建模型,较为准确地估计并抑制语音中的混响成分。值得一提的是,市面上的会议拾音器设备一般采用麦克风阵列配置,阵列信号处理中的波束形成模块天然具备一定的混响抑制能力。
现有技术中专利号为CN201210201879.7的一种单通道语音去混响的方法和装置使用AR(自回归)模型或者MA(滑动平均)模型或者ARMA(自回归滑动平均)模型,从先前的若干帧信号中估计当前帧的中晚期混响成分的功率谱,然后通过谱减法加以去除。虽然模型中的系数可以通过Yule-Walker方程或者Burg算法求解,相比于其他类型的去混响方法,计算复杂度有一定下降,但是在强混响环境下,随着模型系数的增加,计算复杂度会不断上升,也难以应用到计算资源匮乏的会议硬件拾音器设备中。
现有技术中专利号为CN201510401640.8的一种语音数据的去混响方法及装置相当于是上述发明专利的简化版本,其仅使用当前帧之前的某一帧估计当前帧的中晚期混响成分,然后估计当前时刻的谱减增益系数,最后再对一定时间窗口内的谱减增益系数进行平均加权,得到最终的谱减增益系数。该方法与前一种方法相比做了很大的简化,计算复杂度显著下降,但是仅使用当前帧之前的单帧进行中晚期混响成分估计显然是不够的,对一定时间窗口内的谱减增益系数进行平均加权的处理方式也略显粗略。
因此,迫切需要提供一种能够在计算复杂度和去混响性能之间取得比较好的折中效果以及降低对硬件资源苛刻要求的去混响方法。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术存在的问题,提出一种实时语音去混响的混合方法及系统,其既显著降低了直接求解ARMA(自回归滑动平均)类似模型带来的计算量,又改善了中晚期混响成分估计的准确度,在计算复杂度和去混响性能之间取得了比较好的折中效果,从而达到了兼顾计算复杂度和去混响效果以及降低了对硬件资源的苛刻要求。
为解决上述技术问题,本发明提供一种实时语音去混响的混合方法,包括以下步骤:
S1:获取实时会议场景中的多个麦克风通道的语音原始信号,对所述语音原始信号进行加窗分帧和快速傅里叶变换预处理,获得多个麦克风通道的频域语音信号;
S2:针对多个麦克风通道的频域语音信号在多个波束方向进行固定波束形成,得到多个波束输出频域信号;
S3:对多个波束输出频域信号进行基于信噪比加权的波束融合处理,获得第一级去混响后的单通道频域语音信号,基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数;
S4:基于所述归一化频域相干系数估计当前帧的中晚期混响功率谱成分,结合当前帧的中晚期混响功率谱成分,对中晚期混响成分进行抑制,获得混响抑制后的语音频谱,对混响抑制后的语音频谱进行快速傅里叶逆变换,获得去混响后的时域语音信号。
在本发明的一个实施例中,针对多个麦克风通道的频域语音信号在多个波束方向进行固定波束形成,包括:
根据波束方向以及波束形成权重对多个麦克风通道的频域信号进行求和,得到多个波束输出频域信号其中,Xm(f),m=1,2,…,M表示每个麦克风的复数频谱,Wmb(f),b=1,2,…,B表示波束形成复权重,Yb(f),b=1,2,…,B表示波束形成的输出频域信号。
在本发明的一个实施例中,在S2中,其中波束方向的划分是预先设定的,对于均匀圆形阵列来说,波束方向选择每个mic的方向,对于均匀线阵来说,将前向180°的水平方位角均匀划分成若干波束范围。
在本发明的一个实施例中,在S3中,基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数,包括:
所述归一化频域相干系数的计算公式如下:
Yi P SD(f)=α2*Yi P SD(f)+(1-α2)*Yi(f)*conj(Yi(f)),i=P,…,P-Q+1
Yi C PSD(f)=α2*Yi C PSD(f)+(1-α2)*Yi(f)*conj(YP(f)),i=P-1,…,P-Q+1
其中,Yi(f)和Yi P SD(f)分别为第i帧的频谱和自功率谱,i=P,…,P-Q+1,Yi C PSD(f),i≠P为对第i帧和第P帧之间的互功率谱,Cohi(f),i≠P为第i帧和第P帧之间的归一化谱相干系数。
在本发明的一个实施例中,在S4中,估计当前帧的中晚期混响功率谱成分,包括:
在本发明的一个实施例中,在S4中,在计算得到中晚期混响功率谱后,对所述中晚期混响功率谱施加强约束,使得估计的混响功率谱不大于当前帧的瞬时自功率谱。
此外,本发明还提供一种实时语音去混响的混合系统,包括:
数据预处理模块,获取实时会议场景中的多个麦克风通道的语音原始信号,所述数据预处理模块用于对所述语音原始信号进行加窗分帧和快速傅里叶变换预处理,获得多个麦克风通道的频域语音信号;
固定波束形成模块,所述固定波束形成模块用于针对多个麦克风通道的频域语音信号在多个波束方向进行固定波束形成,得到多个波束输出频域信号;
波束融合模块,所述波束融合模块用于对多个波束输出频域信号进行基于信噪比加权的波束融合处理,获得第一级去混响后的单通道频域语音信号,基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数;
非线性去混响模块,所述非线性去混响模块用于基于所述归一化频域相干系数估计当前帧的中晚期混响功率谱成分,结合当前帧的中晚期混响功率谱成分,对中晚期混响成分进行抑制,获得混响抑制后的语音频谱,对混响抑制后的语音频谱进行快速傅里叶逆变换,获得去混响后的时域语音信号。
在本发明的一个实施例中,所述数据预处理模块包括:
傅里叶变换单元,所述傅里叶变换单元用于对加窗分帧处理后的语音原始信号进行快速傅里叶变换,将时域信号转换为频域信号。
在本发明的一个实施例中,所述波束融合模块包括:
归一化频域相干系数计算单元,所述归一化频域相干系数计算单元用于基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数。
在本发明的一个实施例中,所述非线性去混响模块包括:
中晚期混响功率谱计算单元,所述中晚期混响功率谱计算单元用于估计当前帧的中晚期混响功率谱成分。
本发明的上述技术方案相比现有技术具有以下优点:
本发明针对麦克风阵列会议拾音器设备,提供了一种实时语音去混响的混合方法,该混合方法首先在多个特定方向进行波束形成处理,获得第一级去混响后的多波束信号,然后对上述不同方向的输出进行信噪比加权,得到第一级去混响后的单通道信号,接着,利用当前帧之前一段时间窗口内的若干帧,估计当前帧的中晚期混响成分,最后进行谱减法或者维纳滤波处理,得到第二级去混响后的语音信号;其中第一级去混响处理后,中高频可以获得比较明显的去混响效果,在第二级单通道去混响阶段,通过计算当前帧与之前一段窗口内若干帧的频域归一化相干系数,并估计当前帧之前的某一帧对当前帧中晚期混响分量的贡献,既显著降低了直接求解ARMA(自回归滑动平均)类似模型带来的计算量,又改善了中晚期混响成分估计的准确度,在计算复杂度和去混响性能之间取得了比较好的折中效果,从而达到了兼顾计算复杂度和去混响效果以及降低了对硬件资源的苛刻要求。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明。
图1是本发明实时语音去混响的混合方法的流程示意图。
图2是本发明固定波束形成示意图。
图3是本发明多波束信噪比融合加权示意图。
图4是本发明混响成分估计示意图。
图5是本发明归一化频域相干系数计算示意图。
图6是本发明中晚期混响成分功率谱估计示意图。
图7是本发明实时语音去混响的混合系统的硬件结构示意图。
图8是本发明去混响前的语音频谱图。
图9是本发明去混响后的语音频谱图。
其中,附图标记说明如下:10、数据预处理模块;20、固定波束形成模块;30、波束融合模块;40、非线性去混响模块。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
实施例一
请参阅图1所示,本实施例提供一种实时语音去混响的混合方法,包括以下步骤:
S1:获取实时会议场景中的多个麦克风通道的语音原始信号,对所述语音原始信号进行加窗分帧和快速傅里叶变换预处理,获得多个麦克风通道的频域语音信号;
S2:针对多个麦克风通道的频域语音信号在多个波束方向进行固定波束形成,得到多个波束输出频域信号;
S3:对多个波束输出频域信号进行基于信噪比加权的波束融合处理,获得第一级去混响后的单通道频域语音信号,基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数;
S4:基于所述归一化频域相干系数估计当前帧的中晚期混响功率谱成分,结合当前帧的中晚期混响功率谱成分,对中晚期混响成分进行抑制,获得混响抑制后的语音频谱,对混响抑制后的语音频谱进行快速傅里叶逆变换,获得去混响后的时域语音信号。
在本发明公开的一种实时语音去混响的混合方法中,本发明针对麦克风阵列会议拾音器设备,提供了一种实时语音去混响的混合方法,该混合方法首先在多个特定方向进行波束形成处理,获得第一级去混响后的多波束信号,然后对上述不同方向的输出进行信噪比加权,得到第一级去混响后的单通道信号,接着,利用当前帧之前一段时间窗口内的若干帧,估计当前帧的中晚期混响成分,最后进行谱减法或者维纳滤波处理,得到第二级去混响后的语音信号;其中第一级去混响处理后,中高频可以获得比较明显的去混响效果,在第二级单通道去混响阶段,通过计算当前帧与之前一段窗口内若干帧的频域归一化相干系数,并估计当前帧之前的某一帧对当前帧中晚期混响分量的贡献,既显著降低了直接求解ARMA(自回归滑动平均)类似模型带来的计算量,又改善了中晚期混响成分估计的准确度,在计算复杂度和去混响性能之间取得了比较好的折中效果,从而达到了兼顾计算复杂度和去混响效果以及降低了对硬件资源的苛刻要求。
在本发明公开的一种实时语音去混响的混合方法中,对于上述实施方式的S1,在对所述语音原始信号进行加窗分帧和快速傅里叶变换预处理时,首先采用的窗函数可以选择汉明窗、汉宁窗、布莱克曼窗等,语音帧的范围一般为10~30毫秒,例如每帧时长可以采用10ms,16ms,20ms,30ms等,然后对每个麦克风通道的语音原始信号进行快速傅里叶变换,将时域信号转换为频域信号。
具体地,假定M元麦克风阵列,以第m号麦克风为例,其采集到的数字信号为xm(n)。窗函数序列定义为h(n),加窗、分帧,得到的时域数据为Xwm(n)=Xm(n)*h(n),对Xwm(n)进行快速傅里叶变换,得到对应的复数频谱为Xm(f)=fft(xwm(n)),m=1,2,…,M。
在本发明公开的一种实时语音去混响的混合方法中,对于上述实施方式的S2,可以参阅图2所示,图中,根据波束方向以及波束形成权重对多个麦克风通道的频域信号进行求和,得到多个波束输出频域信号其中,Xm(f),m=1,2,…,M表示每个麦克风的复数频谱,Wmb(f),b=1,2,…,B表示波束形成复权重,Yb(f),b=1,2,…,B表示波束形成的输出频域信号。
其中,上述波束方向的划分是预先设定的,对于均匀圆形阵列来说,波束方向可以选择每个mic的方向,对于均匀线阵来说,可以将前向180°的水平方位角均匀划分成若干波束范围。对于其他不规则阵列,可以根据应用场景需求指定特定的波束方向。另外,上述波束形成权重设计方法可以采用CBF(常规波束形成)、MVDR(最小方差无失真响应)、LCMV(线性约束最小方差)、SD(超指向性)以及差分波束形成等多种设计方案,例如波束形成采用下式计算:基于信噪比加权的多波束输出语音频谱的计算采用或者采用其中,φ(f)为任意麦克风通道原始输入信号频谱Xm(f)的相位谱。
在本发明公开的一种实时语音去混响的混合方法中,对于上述实施方式的S4,可以参阅图3所示,Yb(f),b=1,2,…,B表示每个波束方向的输出频谱,Yc(f)表示多波束融合后的输出频谱。波束融合可以采用以下两种方式实现,方式1:其中,|Yb(f)|表示Yb(f)的幅度谱,φ(f)表示任意麦克风通道原始输入信号频谱Xm(f)的相位谱;方式2:上述背景噪声功率谱和信噪比估计可以采用现有技术的MCRA(minimum controlled recursive averaging)方法,关于MCRA方法的具体内容,本发明在这里不做赘述。
上述假定估计的背景噪声功率谱为λb(f),语音功率谱为Yb(f),全带信噪比为gb,归一化后的信噪比为为了突出主要语音方向的波束信号,需要对nb进行如下处理:加权因子Wb初始化为更新方式为Wb=α1*Wb+(1-α1)*qb,
在本发明公开的一种实时语音去混响的混合方法中,对于上述实施方式的S4,可以参阅图4所示,以此图为例阐述估计当前帧的中晚期混响成分所需的历史帧信息。假定tp为当前帧,tp-1,tp-2,…,tp-R+1为早期混响所涉及的历史帧,tp-R+2,…,tp-Q+1为中晚期混响估计所涉及的历史帧。为了保持语音的饱满、充实,同时尽可能减少对语音清晰度的影响,一般将100ms以后的混响成分作为中晚期混响成分进行抑制。假定使用R帧覆盖直达声和早期混响成分,利用Q帧覆盖中晚期混响成分,通过调整R和Q值即可直接影响混响抑制的效果。
图5为归一化频域相干系数计算示意图。当前帧为第P帧,第P-1,P-2,…,P-Q+1帧是估计混响所需的历史帧,Yi(f)和Yi P SD(f)分别为第i帧的频谱和自功率谱,i=P,…,P-Q+1,Yi C PSD(f),i≠P为对第i帧和第P帧之间的互功率谱,Cohi(f),i≠P为第i帧和第P帧之间的归一化谱相干系数,以上统计量的计算方式如下:
Yi P SD(f)=α2*Yi P SD(f)+(1-α2)*Yi(f)*conj(Yi(f)),i=P,…,P-Q+1
Yi C PSD(f)=α2*Yi C PSD(f)+(1-α2)*Yi(f)*conj(YP(f)),i=P-1,…,P-Q+1
Cohi(f),i≠P在一定程度上衡量了历史帧和当前帧的频域相关性,基于语音的短时相关性假设,可以认为,归一化相关系数取值越大,对当前帧的混响成分贡献越大。
在本发明公开的一种实时语音去混响的混合方法中,对于上述实施方式的S4,图6为中晚期混响成分功率谱估计示意图。混响衰减因子Decay Factor简写为df,采用如下经验公式计算:相关系数(Coherent Coefficient)即计算得到的Cohi(f),i≠P。
当前帧的中晚期混响功率谱成分计算如下:
上式中,i=P-R+2,…,P-Q+1,对应图4中用于估计中晚期混响成分的历史帧。
对RP(f)施加强约束,使得估计的混响功率谱不大于当前帧的瞬时自功率谱,即
YP(f)=real(YP(f)*conj(YP(f)))
在本发明公开的一种实时语音去混响的混合方法中,对于上述实施方式的S4,后验和先验信号-混响比采用以下公式计算:η(f)=α4*η(f)+(1-α4)*max(ξ(f)-1,0)),其中,δ为避免“除零”的常数因子。
对Ydr(f)进行快速傅里叶逆变换,结合重叠相加法/重叠保留法即可获得去混响后的语音输出ydr(n)。
估计出中晚期混响功率谱之后,很多谱减法降噪或者维纳滤波降噪的技术方案均可以应用于计算去混响增益。
本发明针对麦克风阵列拾音器设备,采用了两级去混响措施,包括第一级的阵列波束形成去混响,第二级的单通道去混响。其中,第一级去混响得到的多波束融合输出信号,对中高频混响成分的抑制作用相对较强,对低频混响成分的抑制作用相对稍弱。第二级单通道去混响通过结合当前帧和先前若干帧之间的归一化频域相干系数以及混响衰减经验公式,简单有效地估计当前帧的中晚期混响功率谱成分并通过维纳滤波方式加以抑制,相比于其他技术方案,譬如加权预测误差方案、逆滤波方案等,在显著降低计算复杂度的同时,在不同的混响环境下可以取得相对较好混响抑制效果,而且不至于因为混响程度的增加使得计算复杂度呈指数上升趋势,从而便于落地到硬件计算资源相对匮乏的麦克风阵列会议拾音器设备。具体对比详见图8和图9。
实施例二
下面对本发明实施例二公开的一种实时语音去混响的混合系统进行介绍,下文描述的一种实时语音去混响的混合系统与上文描述的一种实时语音去混响的混合方法可相互对应参照。
请参阅图7所示,本发明实施例二公开了一种实时语音去混响的混合系统,包括:
数据预处理模块10,获取实时会议场景中的多个麦克风通道的语音原始信号,所述数据预处理模块10用于对所述语音原始信号进行加窗分帧和快速傅里叶变换预处理,获得多个麦克风通道的频域语音信号;
固定波束形成模块20,所述固定波束形成模块20用于针对多个麦克风通道的频域语音信号在多个波束方向进行固定波束形成,得到多个波束输出频域信号;
波束融合模块30,所述波束融合模块30用于对多个波束输出频域信号进行基于信噪比加权的波束融合处理,获得第一级去混响后的单通道频域语音信号,基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数;
非线性去混响模块40,所述非线性去混响模块40用于基于所述归一化频域相干系数估计当前帧的中晚期混响功率谱成分,结合当前帧的中晚期混响功率谱成分,对中晚期混响成分进行抑制,获得混响抑制后的语音频谱,对混响抑制后的语音频谱进行快速傅里叶逆变换,获得去混响后的时域语音信号。
在本发明公开的一种实时语音去混响的混合系统中,所述数据预处理模块10包括:
傅里叶变换单元,所述傅里叶变换单元用于对加窗分帧处理后的语音原始信号进行快速傅里叶变换,将时域信号转换为频域信号。
在本发明公开的一种实时语音去混响的混合系统中,所述波束融合模块30包括:
归一化频域相干系数计算单元,所述归一化频域相干系数计算单元用于基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数。
在本发明公开的一种实时语音去混响的混合系统中,所述非线性去混响模块40包括:
中晚期混响功率谱计算单元,所述中晚期混响功率谱计算单元用于估计当前帧的中晚期混响功率谱成分。
本实施例的实时语音去混响的混合系统用于实现前述的实时语音去混响的混合方法,因此该系统的具体实施方式可见前文中的实时语音去混响的混合方法的实施例部分,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
另外,由于本实施例的实时语音去混响的混合系统用于实现前述的实时语音去混响的混合方法,因此其作用与上述方法的作用相对应,这里不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种实时语音去混响的混合方法,其特征在于,包括以下步骤:
S1:获取实时会议场景中的多个麦克风通道的语音原始信号,对所述语音原始信号进行加窗分帧和快速傅里叶变换预处理,获得多个麦克风通道的频域语音信号;
S2:针对多个麦克风通道的频域语音信号在多个波束方向进行固定波束形成,得到多个波束输出频域信号;
S3:对多个波束输出频域信号进行基于信噪比加权的波束融合处理,获得第一级去混响后的单通道频域语音信号,基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数;
S4:基于所述归一化频域相干系数估计当前帧的中晚期混响功率谱成分,结合当前帧的中晚期混响功率谱成分,对中晚期混响成分进行抑制,获得混响抑制后的语音频谱,对混响抑制后的语音频谱进行快速傅里叶逆变换,获得去混响后的时域语音信号。
3.根据权利要求2所述的实时语音去混响的混合方法,其特征在于:在S2中,其中波束方向的划分是预先设定的,对于均匀圆形阵列来说,波束方向选择每个mic的方向,对于均匀线阵来说,将前向180°的水平方位角均匀划分成若干波束范围。
6.根据权利要求1所述的实时语音去混响的混合方法,其特征在于:在S4中,在计算得到中晚期混响功率谱后,对所述中晚期混响功率谱施加强约束,使得估计的混响功率谱不大于当前帧的瞬时自功率谱。
7.一种实时语音去混响的混合系统,其特征在于,包括:
数据预处理模块,获取实时会议场景中的多个麦克风通道的语音原始信号,所述数据预处理模块用于对所述语音原始信号进行加窗分帧和快速傅里叶变换预处理,获得多个麦克风通道的频域语音信号;
固定波束形成模块,所述固定波束形成模块用于针对多个麦克风通道的频域语音信号在多个波束方向进行固定波束形成,得到多个波束输出频域信号;
波束融合模块,所述波束融合模块用于对多个波束输出频域信号进行基于信噪比加权的波束融合处理,获得第一级去混响后的单通道频域语音信号,基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数;
非线性去混响模块,所述非线性去混响模块用于基于所述归一化频域相干系数估计当前帧的中晚期混响功率谱成分,结合当前帧的中晚期混响功率谱成分,对中晚期混响成分进行抑制,获得混响抑制后的语音频谱,对混响抑制后的语音频谱进行快速傅里叶逆变换,获得去混响后的时域语音信号。
8.根据权利要求7所述的实时语音去混响的混合系统,其特征在于:所述数据预处理模块包括:
傅里叶变换单元,所述傅里叶变换单元用于对加窗分帧处理后的语音原始信号进行快速傅里叶变换,将时域信号转换为频域信号。
9.根据权利要求7所述的实时语音去混响的混合系统,其特征在于:所述波束融合模块包括:
归一化频域相干系数计算单元,所述归一化频域相干系数计算单元用于基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数。
10.根据权利要求7所述的实时语音去混响的混合系统,其特征在于:所述非线性去混响模块包括:
中晚期混响功率谱计算单元,所述中晚期混响功率谱计算单元用于估计当前帧的中晚期混响功率谱成分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111567537.2A CN114255777A (zh) | 2021-12-20 | 2021-12-20 | 实时语音去混响的混合方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111567537.2A CN114255777A (zh) | 2021-12-20 | 2021-12-20 | 实时语音去混响的混合方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114255777A true CN114255777A (zh) | 2022-03-29 |
Family
ID=80793357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111567537.2A Pending CN114255777A (zh) | 2021-12-20 | 2021-12-20 | 实时语音去混响的混合方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114255777A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115831145A (zh) * | 2023-02-16 | 2023-03-21 | 之江实验室 | 一种双麦克风语音增强方法和系统 |
CN116580712A (zh) * | 2023-07-14 | 2023-08-11 | 深圳攀高医疗电子有限公司 | 一种语音处理方法、系统及腰部治疗仪 |
-
2021
- 2021-12-20 CN CN202111567537.2A patent/CN114255777A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115831145A (zh) * | 2023-02-16 | 2023-03-21 | 之江实验室 | 一种双麦克风语音增强方法和系统 |
CN116580712A (zh) * | 2023-07-14 | 2023-08-11 | 深圳攀高医疗电子有限公司 | 一种语音处理方法、系统及腰部治疗仪 |
CN116580712B (zh) * | 2023-07-14 | 2023-09-15 | 深圳攀高医疗电子有限公司 | 一种语音处理方法、系统及腰部治疗仪 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200374628A1 (en) | Robust Estimation of Sound Source Localization | |
CN108172235B (zh) | 基于维纳后置滤波的ls波束形成混响抑制方法 | |
CN107479030B (zh) | 基于分频和改进的广义互相关双耳时延估计方法 | |
CN108172231B (zh) | 一种基于卡尔曼滤波的去混响方法及系统 | |
JP5762956B2 (ja) | ヌル処理雑音除去を利用した雑音抑制を提供するシステム及び方法 | |
US8718290B2 (en) | Adaptive noise reduction using level cues | |
EP3190587B1 (en) | Noise estimation for use with noise reduction and echo cancellation in personal communication | |
US11373667B2 (en) | Real-time single-channel speech enhancement in noisy and time-varying environments | |
US20140025374A1 (en) | Speech enhancement to improve speech intelligibility and automatic speech recognition | |
US20100217590A1 (en) | Speaker localization system and method | |
US20120082322A1 (en) | Sound scene manipulation | |
CN108447496B (zh) | 一种基于麦克风阵列的语音增强方法及装置 | |
US20110096942A1 (en) | Noise suppression system and method | |
CN114255777A (zh) | 实时语音去混响的混合方法及系统 | |
Wang et al. | Noise power spectral density estimation using MaxNSR blocking matrix | |
AU2011334840A1 (en) | Apparatus and method for spatially selective sound acquisition by acoustic triangulation | |
EP3275208B1 (en) | Sub-band mixing of multiple microphones | |
EP2437517B1 (en) | Sound scene manipulation | |
US20200286501A1 (en) | Apparatus and a method for signal enhancement | |
Gößling et al. | RTF-steered binaural MVDR beamforming incorporating multiple external microphones | |
TWI465121B (zh) | 利用全方向麥克風改善通話的系統及方法 | |
WO2021055413A1 (en) | Enhancement of audio from remote audio sources | |
CN109243476B (zh) | 混响语音信号中后混响功率谱的自适应估计方法及装置 | |
Ji et al. | Coherence-Based Dual-Channel Noise Reduction Algorithm in a Complex Noisy Environment. | |
CN113948101A (zh) | 一种基于空间区分性检测的噪声抑制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: No. 229, Lingqiao Road, Haishu District, Ningbo, Zhejiang 315000 Applicant after: Suzhou Auditoryworks Co.,Ltd. Address before: 215000 unit 2-b504, creative industry park, 328 Xinghu street, Suzhou Industrial Park, Jiangsu Province Applicant before: Suzhou frog sound technology Co.,Ltd. |
|
CB02 | Change of applicant information |