CN109243476B - 混响语音信号中后混响功率谱的自适应估计方法及装置 - Google Patents

混响语音信号中后混响功率谱的自适应估计方法及装置 Download PDF

Info

Publication number
CN109243476B
CN109243476B CN201811216983.7A CN201811216983A CN109243476B CN 109243476 B CN109243476 B CN 109243476B CN 201811216983 A CN201811216983 A CN 201811216983A CN 109243476 B CN109243476 B CN 109243476B
Authority
CN
China
Prior art keywords
sub
band
frame
reverberation
power spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811216983.7A
Other languages
English (en)
Other versions
CN109243476A (zh
Inventor
梁民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telecommunications Science and Technology Research Institute Co Ltd
Original Assignee
Telecommunications Science and Technology Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telecommunications Science and Technology Research Institute Co Ltd filed Critical Telecommunications Science and Technology Research Institute Co Ltd
Priority to CN201811216983.7A priority Critical patent/CN109243476B/zh
Publication of CN109243476A publication Critical patent/CN109243476A/zh
Priority to PCT/CN2019/109285 priority patent/WO2020078210A1/zh
Application granted granted Critical
Publication of CN109243476B publication Critical patent/CN109243476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明提供了一种混响语音信号中后混响功率谱的自适应估计方法及装置,涉及语音信号处理领域。该混响语音信号中后混响功率谱的自适应估计方法,包括:获取麦克风拾取的混响语音信号的子带自功率谱的估计;获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量;根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计。上述方案,通过利用延时的线性预测DLP预测系数矢量来进行后混响子带自功率谱估计的获取,可以保证语音信号去混响的有效性,降低了去混响的难度,提高了去混响的效率。

Description

混响语音信号中后混响功率谱的自适应估计方法及装置
技术领域
本发明涉及语音信号处理领域,特别涉及一种混响语音信号中后混响功率谱的自适应估计方法及装置。
背景技术
在远场情况下,室内麦克风拾取的语音信号,由于不可避免地受到来自于室内墙壁、顶部天花板和其它障碍物反射信号的干扰,因而会发生线性奇变。这种奇变通常称之为混响,它将退化语音的保真度和可懂度,使得语音通信系统和语音自动识别系统的性能下降;并且,这种退化程度随着声源和麦克风间距离的增加而增大。混响通常由早期混响(即前混响,包含直达声成分)和后期混响(即后混响)组成,业已证明,前者实际上有益于改善语音的可懂度和噪声环境中的信噪比(Signal to Noise Ratio,SNR),而后者则加长了声源语音信号音素的长度,由此重叠屏蔽了其后续的音素,从而降低了语音的可懂度。
现有的语音信号去混响技术存在实际产品的成本高和结构设计困难、去混响性能受限或耗费较多的计算资源的问题。
发明内容
本发明实施例提供一种混响语音信号中后混响功率谱的自适应估计方法及装置,以解决现有的语音信号去混响技术存在实际产品的成本高和结构设计困难、去混响性能受限或耗费较多的计算资源,不能有效保证语音信号去混响的问题。
为了解决上述技术问题,本发明实施例提供一种混响语音信号中后混响功率谱的自适应估计方法,包括:
获取麦克风拾取的混响语音信号的子带自功率谱的估计;
获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量;
根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计。
可选地,当所述麦克风为单麦克风时,所述获取麦克风拾取的混响语音信号的子带自功率谱的估计,包括:
根据公式:
Figure BDA0001833791740000021
获取混响语音信号的子带自功率谱的估计;
其中,
Figure BDA0001833791740000022
为第t帧第k个子带的混响语音信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;
Figure BDA0001833791740000023
为第t-1帧第k个子带的混响语音信号的子带自功率谱的估计;X(t,k)为第t帧第k个子带的混响语音信号的子带谱;t为信号帧的时间索引,k为子带索引。
进一步地,所述获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量,包括:
根据公式:
Figure BDA0001833791740000024
获取DLP预测系数矢量;
其中,
Figure BDA0001833791740000025
为第t+1帧子带k上的DLP预测系数矢量;
Figure BDA0001833791740000026
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA0001833791740000027
Figure BDA0001833791740000028
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA0001833791740000029
Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA00018337917400000210
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且
Figure BDA0001833791740000031
为第t帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
进一步地,所述根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计,包括:
根据公式:
Figure BDA0001833791740000032
获取后混响子带自功率谱估计;
其中,
Figure BDA0001833791740000033
为后混响子带自功率谱估计;
Figure BDA0001833791740000034
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA0001833791740000035
Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA0001833791740000036
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;
Figure BDA0001833791740000037
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA0001833791740000038
Figure BDA0001833791740000039
为第t-τ-Ds帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
可选地,当所述麦克风为麦克风阵列时,所述获取麦克风拾取的混响语音信号的子带自功率谱的估计,包括:
获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计。
进一步地,所述获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱,包括:
根据公式:
Figure BDA00018337917400000310
获取混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
其中,Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;Xr(t,k)为第t帧第k个子带的第r个麦克风输出信号的子带谱;M为麦克风阵列的总个数;
Figure BDA0001833791740000041
t为信号帧的时间索引,k为子带索引。
进一步地,所述根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计,包括:
根据公式:
Figure BDA0001833791740000042
获取经空间滤波处理后的单声道输出信号的子带自功率谱的估计;
其中,
Figure BDA0001833791740000043
为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;
Figure BDA0001833791740000044
为第t-1帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;t为信号帧的时间索引,k为子带索引。
进一步地,所述获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量,包括:
根据公式:
Figure BDA0001833791740000045
获取用于所述混响语音信号经空间滤波处理后的单声道输出信号中后混响子带自功率谱估计的DLP预测系数矢量;
其中,
Figure BDA0001833791740000046
为第t+1帧子带k上的DLP预测系数矢量;
Figure BDA0001833791740000047
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA0001833791740000048
Figure BDA0001833791740000049
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA0001833791740000051
Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA0001833791740000052
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且
Figure BDA0001833791740000053
为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
进一步地,所述根据所述子带自功率谱的估计和DLP预测系数,获取后混响子带自功率谱估计,包括:
根据公式:
Figure BDA0001833791740000054
获取后混响子带自功率谱估计;
其中,
Figure BDA0001833791740000055
为后混响子带自功率谱估计;
Figure BDA0001833791740000056
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA0001833791740000057
Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA0001833791740000058
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;
Figure BDA0001833791740000059
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA00018337917400000510
Figure BDA00018337917400000511
为第t-τ-Ds帧第k个子带的空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
本发明实施例还提供一种混响语音信号中后混响功率谱的自适应估计装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其中,所述处理器执行所述计算机程序时实现以下步骤:
获取麦克风拾取的混响语音信号的子带自功率谱的估计;
获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量;
根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计。
可选地,当所述麦克风为单麦克风时,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:
Figure BDA0001833791740000061
获取混响语音信号的子带自功率谱的估计;
其中,
Figure BDA0001833791740000062
为第t帧第k个子带的混响语音信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;
Figure BDA0001833791740000063
为第t-1帧第k个子带的混响语音信号的子带自功率谱的估计;X(t,k)为第t帧第k个子带的混响语音信号的子带谱;t为信号帧的时间索引,k为子带索引。
进一步地,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:
Figure BDA0001833791740000064
获取DLP预测系数矢量;
其中,
Figure BDA0001833791740000065
为第t+1帧子带k上的DLP预测系数矢量;
Figure BDA0001833791740000066
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA0001833791740000067
Figure BDA0001833791740000068
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA0001833791740000069
Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA00018337917400000610
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且
Figure BDA00018337917400000611
为第t帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
进一步地,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:
Figure BDA0001833791740000071
获取后混响子带自功率谱估计;
其中,
Figure BDA0001833791740000072
为后混响子带自功率谱估计;
Figure BDA0001833791740000073
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA0001833791740000074
Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA0001833791740000075
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;
Figure BDA0001833791740000076
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA0001833791740000077
Figure BDA0001833791740000078
为第t-τ-Ds帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
可选地,当所述麦克风为麦克风阵列时,所述处理器执行所述计算机程序时实现以下步骤:
获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计。
进一步地,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:
Figure BDA0001833791740000079
获取混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
其中,Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;Xr(t,k)为第t帧第k个子带的第r个麦克风输出信号的子带谱;M为麦克风阵列的总个数;
Figure BDA0001833791740000081
t为信号帧的时间索引,k为子带索引。
进一步地,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:
Figure BDA0001833791740000082
获取经空间滤波处理后的单声道输出信号的子带自功率谱的估计;
其中,
Figure BDA0001833791740000083
为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;
Figure BDA0001833791740000084
为第t-1帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;t为信号帧的时间索引,k为子带索引。
进一步地,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:
Figure BDA0001833791740000085
获取用于所述混响语音信号经空间滤波处理后的单声道输出信号中后混响子带自功率谱估计的DLP预测系数矢量;
其中,
Figure BDA0001833791740000086
为第t+1帧子带k上的DLP预测系数矢量;
Figure BDA0001833791740000087
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA0001833791740000088
Figure BDA0001833791740000089
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA00018337917400000810
Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA00018337917400000811
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且
Figure BDA00018337917400000812
为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
进一步地,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:
Figure BDA0001833791740000091
获取后混响子带自功率谱估计;
其中,
Figure BDA0001833791740000092
为后混响子带自功率谱估计;
Figure BDA0001833791740000093
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA0001833791740000094
Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA0001833791740000095
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;
Figure BDA0001833791740000096
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA0001833791740000097
Figure BDA0001833791740000098
为第t-τ-Ds帧第k个子带的空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述的混响语音信号中后混响功率谱的自适应估计方法。
本发明实施例还提供一种混响语音信号中后混响功率谱的自适应估计装置,包括:
第一获取模块,用于获取麦克风拾取的混响语音信号的子带自功率谱的估计;
第二获取模块,用于获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量;
第三获取模块,用于根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计。
可选地,当所述麦克风为单麦克风时,所述第一获取模块,用于:
根据公式:
Figure BDA0001833791740000101
获取混响语音信号的子带自功率谱的估计;
其中,
Figure BDA0001833791740000102
为第t帧第k个子带的混响语音信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;
Figure BDA0001833791740000103
为第t-1帧第k个子带的混响语音信号的子带自功率谱的估计;X(t,k)为第t帧第k个子带的混响语音信号的子带谱;t为信号帧的时间索引,k为子带索引。
进一步地,所述第二获取模块,用于:
根据公式:
Figure BDA0001833791740000104
获取DLP预测系数矢量;
其中,
Figure BDA0001833791740000105
为第t+1帧子带k上的DLP预测系数矢量;
Figure BDA0001833791740000106
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA0001833791740000107
Figure BDA0001833791740000108
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA0001833791740000109
Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA00018337917400001010
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且
Figure BDA00018337917400001011
为第t帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
进一步地,所述第三获取模块,用于:
根据公式:
Figure BDA00018337917400001012
获取后混响子带自功率谱估计;
其中,
Figure BDA0001833791740000111
为后混响子带自功率谱估计;
Figure BDA0001833791740000112
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA0001833791740000113
Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA0001833791740000114
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;
Figure BDA0001833791740000115
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA0001833791740000116
Figure BDA0001833791740000117
为第t-τ-Ds帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
可选地,当所述麦克风为麦克风阵列时,所述第一获取模块,包括:
第一获取单元,用于获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
第二获取单元,用于根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计。
进一步地,所述第一获取单元,用于:
根据公式:
Figure BDA0001833791740000118
获取混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
其中,Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;Xr(t,k)为第t帧第k个子带的第r个麦克风输出信号的子带谱;M为麦克风阵列的总个数;
Figure BDA0001833791740000119
t为信号帧的时间索引,k为子带索引。
进一步地,所述第二获取单元,用于:
根据公式:
Figure BDA00018337917400001110
获取经空间滤波处理后的单声道输出信号的子带自功率谱的估计;
其中,
Figure BDA0001833791740000121
为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;
Figure BDA0001833791740000122
为第t-1帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;t为信号帧的时间索引,k为子带索引。
进一步地,所述第二获取模块,用于:
根据公式:
Figure BDA0001833791740000123
获取用于所述混响语音信号经空间滤波处理后的单声道输出信号中后混响子带自功率谱估计的DLP预测系数矢量;
其中,
Figure BDA0001833791740000124
为第t+1帧子带k上的DLP预测系数矢量;
Figure BDA0001833791740000125
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA0001833791740000126
Figure BDA0001833791740000127
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA0001833791740000128
Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA0001833791740000129
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且
Figure BDA00018337917400001210
为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
进一步地,所述第三获取模块,用于:
根据公式:
Figure BDA00018337917400001211
获取后混响子带自功率谱估计;
其中,
Figure BDA00018337917400001212
为后混响子带自功率谱估计;
Figure BDA00018337917400001213
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA0001833791740000131
wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA0001833791740000132
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;
Figure BDA0001833791740000133
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA0001833791740000134
Figure BDA0001833791740000135
为第t-τ-Ds帧第k个子带的空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
本发明的有益效果是:
上述方案,通过利用延时的线性预测DLP预测系数矢量来进行后混响子带自功率谱估计的获取,可以保证语音信号去混响的有效性,降低了去混响的难度,提高了去混响的效率。
附图说明
图1表示应用DLP来自适应估计后混响信号子带自功率谱的原理框图;
图2表示基于单麦克风的混响语音信号中后混响成分抑制方法的算法流程图;
图3表示基于麦克风阵列的混响语音信号中后混响成分抑制方法的原理框图;
图4表示基于麦克风阵列的混响语音信号中后混响成分抑制方法的算法流程图;
图5表示本发明实施例的混响语音信号中后混响功率谱的自适应估计方法的流程示意图;
图6表示本发明实施例的混响语音信号中后混响功率谱的自适应估计装置的模块示意图;
图7表示本发明实施例的混响语音信号中后混响功率谱的自适应估计装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
目前,语音信号去混响技术大致有三大类,第一类是采用麦克风阵列处理技术,该技术首先估计声源相对麦克风阵列的方位(Direction of Arrival,DOA),通过控制麦克风阵列的方向性来增强来自声源方向的直达信号成分,并减小和消除来自其它方向的声源反射信号成分,从而达到去混响的目的;为了获得令人满意的去混响效果,该技术通常需要大量数目的麦克风,以便阵列获得充分的方向性增益。第二类去混响技术则是在频域对后混响信号进行抑制处理的方法,该方法首先估计出工作环境的混响时间参数(RT60),并据此估计出后混响信号的功率谱,然后应用噪声抑制中的谱减法对后混响信号进行抑制处理;尽管该技术不涉及信号的相位信息而使其处理性能具有较好的鲁棒性,但由于目前尚缺乏关于工作环境中与频率关联的混响时间参数(RT60)的高精度实时估计算法,故该技术的去混响性能受限。第三类去混响技术则是基于逆滤波的思想,其目标是估计出引发混响的室内冲激响应(Room Impulse Response,RIR)的逆滤波器,用其对混响语音信号进行滤波处理以恢复源信号;在声源到麦克风的室内传递函数(Room Transfer Function,RTF)已知的情况下,用RTF的逆滤波器可以从观测的混响信号中精确地恢复出其源信号;业已证明:在麦克风数目大于已激活的声源数目、并且每个声源到每个麦克风的RTF不存在共同的零点的条件下,上述功能的逆滤波器解是存在的。然而在实际应用中,RTF(或其等效的逆滤波器)是时变的、未知的,需要从已获的观测数据中估计出。为此,大量学者致力于该领域的探索和研究,提出了许多方法,最为引人注目的便是基于延时的线性预测(Delayed LinearPrediction,DLP)的后混响抑制技术,该技术能有效地抑制后混响成分而未明显地损伤语音的短时相关性,但它要求DLP的滤波器阶数很高(滤波器通常有数千个系数),因而需要很长的观测数据,由此导致该技术具有很高的计算负荷,难以在商用的数字信号处理器(Digital Signal Processor,DSP)芯片上实时实现。此外,人们还提出将时变语音信号源模型与多声道线性预测相结合来进行去混响的方法,该方法可以基于较短的观测数据有效地抑制后混响,而且对前混响也有抑制的效果;但它固有的计算复杂度致使其无法在实际中应用。最近,人们将基于DLP的去混响技术拓展到处理时变语音信号的场景,提出了一种称之为方差归一化延时的线性预测(NDLP)去混响技术,NDLP的频域实现即为著名的加权预测误差(Weighted Prediction Error,WPE)去混响算法;尽管WPE性能具有较好的鲁棒性,但它涉及一个高阶观测数据相关矩阵的伪逆运算,因而在商用DSP上实现时通常耗费较多的计算资源。
第一类基于麦克风阵列处理的去混响技术,其性能受限于阵列的麦克风数目,要获得令人满意的去混响结果,势必需要大量的麦克风,这便导致实际产品的成本提高和结构设计的困难增加。第二类在频域对后混响信号进行抑制处理的去混响技术需要首先估计出工作环境的混响时间参数(RT60),但由于目前尚缺乏关于工作环境中与频率关联的混响时间参数(RT60)的高精度实时估计算法,故该技术的去混响性能受限。第三类基于逆滤波思想的去混响技术中能实际应用的WPE方法涉及一个高阶观测数据相关矩阵的伪逆运算,因而在商用DSP上实现时通常耗费较多的计算资源。
本发明将DLP的思想拓展到子带功率谱域,提出一种关于后混响自功率谱的低复杂度、实时在线自适应估计方法,根据这一后混响自功率谱的估计和观测信号的子带谱,应用决策-引导(Decision-Directed,DD)递归平滑技术,来计算先验SNR,并据此计算抑制后混响成分的子带增益函数,用之来修正观测信号子带谱,从而达到抑制后混响成分的目的。
本发明针对现有的语音信号去混响技术存在实际产品的成本高和结构设计困难、去混响性能受限或耗费较多的计算资源,不能有效保证语音信号去混响的问题,提供一种混响语音信号中后混响功率谱的自适应估计方法及装置。
下面对本发明实施例的实现原理进行说明如下。
本发明实施例中,首先从单声道(即单麦克风)场景出发,给出一种基于单麦克风的后混响成分的抑制方法,然后推广到麦克风阵列应用场景。
一、基于单麦克风的混响语音信号中后混响成分的抑制方法
设有声源到麦克风的室内冲激响应为h(n),声源信号为s(n),麦克风获取的混响语音信号为x(n),那么x(n)可用下述数学公式一来表述:
公式一、
Figure BDA0001833791740000161
其中,R为室内冲击响应的长度,Dc为前混响和后混响区分的临界点,searly(n)为包含直达声源信号的前混响信号,slate(n)为后混响信号,searly(n)和slate(n)分别由下式定义:
公式二、
Figure BDA0001833791740000162
公式三、
Figure BDA0001833791740000163
应用分析滤波器组(Analysis Filter Bank,AFB)对公式一两边进行子带变换(短时傅里叶变换可以看作是子带变换的一种特例)可得:
公式四、
Figure BDA0001833791740000164
其中X(t,k)、S(t,k)、H(t,k)、Searly(t,k)和Slate(t,k)分别为数字信号x(n)、s(n)、h(n)、searly(n)和slate(n)的子带变换,
Figure BDA0001833791740000165
N为子带变换的信号帧长度,t为信号帧的时间索引,k为子带索引,n为数字信号的样本时间索引。
假设,相邻帧子带信号间的自相关性较低,那么子带谱信号X(t,k)对应的子带自功率谱可表述为:
公式五、
Figure BDA0001833791740000166
Figure BDA0001833791740000171
其中,PX(t,k)、
Figure BDA0001833791740000172
和PS(t,k)分别为子带信号X(t,k)、Searly(t,k)、Slate(t,k)和S(t,k)所对应的子带自功率谱,E{·}为统计平均算子。
采用延时的线性预测(DLP)表述法,公式五可以表示成:
公式六、
Figure BDA0001833791740000173
其中Wτ(t,k)为第t帧第k个子带上DLP的第τ个非负的系数,τ=0,1,2,...,Q-1;Q=Rs-Ds为DLP的系数个数,
Figure BDA0001833791740000174
为后混响子带自功率谱的估计。
公式六表明:在子带功率谱域,采用DLP技术可以预测估计出后混响信号的子带自功率谱,其预测估计的残差便是与后混响信号不相关的有用的前混响信号的子带自功率谱,因而一定是非负的。为将这一约束条件集成到DLP的预测系数求解中,我们来定义代价函数
Figure BDA0001833791740000175
和惩罚函数
Figure BDA0001833791740000176
分别为:
公式七、
Figure BDA0001833791740000177
公式八、
Figure BDA0001833791740000178
其中,Ek(t)用公式九表示为:
公式九、
Figure BDA0001833791740000179
Figure BDA00018337917400001710
用公式十表示为:
公式十、
Figure BDA00018337917400001711
Figure BDA00018337917400001712
Figure BDA00018337917400001713
用公式十一表示为:
公式十一、
Figure BDA00018337917400001714
那么,最优的预测系数矢量
Figure BDA00018337917400001715
则是使下述准则函数
Figure BDA00018337917400001716
达到最小化的解,即:
公式十二、
Figure BDA0001833791740000181
其中,
Figure BDA0001833791740000182
由公式十三定义:
公式十三、
Figure BDA0001833791740000183
这里的β为正常数。
根据公式七、八和十三得到:
公式十四、
Figure BDA0001833791740000184
Figure BDA0001833791740000185
从而求解最佳的DLP预测系数矢量
Figure BDA0001833791740000186
的NLMS自适应算法可由公式十五表示:
公式十五、
Figure BDA0001833791740000187
Figure BDA0001833791740000188
其中,μ和β为正常数,且0<μ(1+β)<2,Ek(t)为公式九定义的预测误差。
应用DLP来自适应估计后混响信号子带自功率谱的原理框图如图1所示。在实际工程实现上,观测信号子带自功率谱的估计可以用公式十六的时间递归平滑技术来计算,即:
公式十六、
Figure BDA0001833791740000189
这里0<λ<1为预设的平滑常数。那么,后混响信号子带自功率谱的估计为:
公式十七、
Figure BDA00018337917400001810
既然自适应滤波器可获得DLP系数矢量,根据公式十七我们即可获得后混响信号子带自功率谱的估计,那么应用谱减法技术来进行后混响信号的抑制便是很自然的事;为此,我们分别用公式十八和公式十九定义子带先验信噪比ξ(t,k)和后验信噪比η(t,k)如下:
公式十八、
Figure BDA0001833791740000191
公式十九、
Figure BDA0001833791740000192
那么,应用DD技术按下述递归公式来计算先验信噪比的估计
Figure BDA0001833791740000193
即:
公式二十、
Figure BDA0001833791740000194
其中,
Figure BDA0001833791740000195
为后验信噪比η(t,k)的估计,α为预设的平滑系数。
相应地,根据Wiener滤波理论,我们可得后混响信号抑制的子带增益函数G(t,k)用公式二十一表示为:
公式二十一、
Figure BDA0001833791740000196
用公式二十一计算的抑制增益来修正观测信号的子带谱,即获得前混响信号子带谱的一个有效估计为:
公式二十二、
Figure BDA0001833791740000197
应用合成滤波器组(Synthesis Filter bank,SFB)将
Figure BDA0001833791740000198
从子带域变换回时域语音信号
Figure BDA0001833791740000199
输出给后续相关处理系统。
注意到公式二十中第一项可以等效为:
公式二十三、
Figure BDA00018337917400001910
将公式二十三代入公式二十可得:
公式二十四、
Figure BDA00018337917400001911
上述方案,首先提出了一种基于单麦克风的混响语音信号中后混响成分抑制的子带域方法,具体表述为:在子带功率谱域,提出了一种带约束的NLMS自适应算法,用来学习更新DLP滤波器系数矢量,并据此获得后混响信号的子带自功率谱估计;根据后混响信号的子带功率谱估计和麦克风观测信号子带谱,应用DD技术来计算相应的先验信噪比估计值,进而求得用于后混响抑制的子带增益函数;用该子带增益函数来修正麦克风观测信号子带谱,从而获得目标信号的子带谱。
综上所述,基于单麦克风的混响语音信号中后混响成分抑制方法的算法流程图如图2所示,具体实现过程为:
首先,初始化算法相关的参数和变量,设置信号帧序号t=0;读取第t帧麦克风拾取的观测数据,并应用AFB对读取的第t帧观测数据进行子带变换,获取相应的子带谱X(t,k);根据公式九和公式十五至十七估计后混响信号子带自功率谱;根据公式二十四和公式二十一计算用于后混响信号抑制的子带抑制增益函数G(t,k);根据公式二十二计算目标信号的子带谱估计,并用SFB将目标子带谱变换为时域的目标语音信号并予以输出;判断处理过程是否结束,在处理过程未结束时,执行t=t+1,然后依次执行上述步骤,直到处理过程结束,结束处理流程。
二、基于麦克风阵列的混响语音信号中后混响成分的抑制方法
设室内有一个声源和一个由M个麦克风组成的阵列,记第m个麦克风拾取的观测语音信号为xm(n),m=1,2,...,M。那么,首先对麦克风阵列输入信号进行空间滤波预处理,然后对预处理的单声道输出信号,应用上面叙述中提出的方法对其中后混响成分进行抑制处理,从而获得增强处理后的子带谱
Figure BDA0001833791740000201
首先,应用AFB对M个麦克风阵列的时域输入数字信号{xm(n),m=1,2,...,M}进行子带变换,相应地获得M个子带信号,它们分别记为Xm(t,k),m=1,2,...,M,这里t为信号帧时间索引,k为子带索引。不失一般性,假设第r个麦克风为参考麦克风,那么以参考麦克风子带信号的相位为基准,将其它所有麦克风子带信号的相位与之做同步处理,则得:
公式二十五、
Figure BDA0001833791740000211
对公式二十五定义的M个声道的子带信号作如下的空间平均处理,便获得空间滤波单声道输出的子带信号Y(t,k),即:
公式二十六、
Figure BDA0001833791740000212
公式二十五和公式二十六实际上是传统的“延时-相加”波束赋型器在子带域的一种实现形式,业已证明这种空间处理器具有因不同声道间空间相关性所引发的信号畸变的缺陷。为此,我们对公式二十五定义的M个声道的子带信号作如下的空间处理,便获得空间滤波单声道输出的子带信号Z(t,k)为:
公式二十七、
Figure BDA0001833791740000213
事实上,公式二十五和公式二十七在子带域定义的这种波束赋型器,其方向模式(directivity pattern)等同于传统的“延时-相加”波束赋型器,但由于公式二十七式中采用了麦克风接收信号的功率谱空间平均,而不是像公式二十六式中所采用(复数)频谱的空间平均,因而避免了“延时-相加”波束赋型器的空间相关性所引发的信号畸变的缺陷。
应用上面介绍的基于单麦克风混响语音信号中后混响成分抑制方法,对上述波束赋型器输出的子带信号Z(t,k)进行处理,便可获得去混响的目标子带信号
Figure BDA0001833791740000214
再应用SFB对目标子带信号进行子带反变换,即得时域目标信号
Figure BDA0001833791740000215
基于麦克风阵列的混响语音信号中后混响成分抑制方法的原理框图如图3所示,其中,子带自功率谱计算器按下述公式二十八估计空间滤波器输出子带信号Z(t,k)的自功率谱:
公式二十八、
Figure BDA0001833791740000216
而基于DLP后混响子带自功率谱估计器计算出子带信号Z(t,k)中的后混响子带自功率谱估计为:
公式二十九、
Figure BDA0001833791740000217
其中,
Figure BDA0001833791740000221
为子带k上的DLP自适应滤波器的系数矢量,其自适应更新由下述的约束型NLMS算法确定:
公式三十、
Figure BDA0001833791740000222
公式三十一、
Figure BDA0001833791740000223
公式三十二、
Figure BDA0001833791740000224
其中,0<μ(1+β)<2。
根据
Figure BDA0001833791740000225
和Z(t,k),后混响抑制的子带增益函数计算器模块将给出G(t,k)如下:
公式三十三、
Figure BDA0001833791740000226
其中,先验SNR的估计
Figure BDA0001833791740000227
由下式递归平滑求得:
公式三十四、
Figure BDA0001833791740000228
这里,0<α<1为预设的平滑系数,后验SNR的估计
Figure BDA0001833791740000229
为:
公式三十五、
Figure BDA00018337917400002210
用G(t,k)修正Z(t,k)的如下的目标子带信号的估计为:
公式三十六、
Figure BDA00018337917400002211
应用SFB将目标子带信号变换为时域目标语音信号
Figure BDA00018337917400002212
上述方案为应用于麦克风阵列的后处理,提出的一种基于麦克风阵列的混响语音信号中后混响成分抑制的子带域方法。该方法首先在子带域,对麦克风阵列获取的观测信号子带谱,定义一种新的波束赋型器对其做空间预处理器,从而降低子带谱的偏差;然后对空间预处理器的输出子带谱信号应用基于单麦克风的情况中提出的方法进行后处理,因而获得最终的目标语音信号,从而完成去混响的任务;此种在子带域上实现的新型波束赋型器,其方向模式等同于传统的“延时-相加”波束赋型器,并降低了子带谱信号的偏差,但它克服了传统的“延时-相加”波束赋型器因不同声道间的空间相关性而引发的信号畸变的缺陷,从而确保基于单麦克风所提的方法用作麦克风阵列后处理器的运行环境。
基于麦克风阵列的混响语音信号中后混响成分抑制方法的算法流程图如图4所示,其具体实现过程为:
首先,初始化算法相关的参数和变量,设置信号帧序号t=0;读取第t帧M组麦克风拾取的观测数据,并应用AFB对读取的第t帧观测数据进行子带变换,获取M组相应的子带谱;根据公式二十五和公式二十七对M组麦克风信号子带谱进行相位同步和空间滤波处理,获取子带谱Z(t,k);根据公式二十八至三十五计算用于后混响信号抑制的子带抑制增益函数G(t,k);根据公式三十六计算目标信号的子带谱估计,并用SFB将目标子带谱变换为时域的目标语音信号并予以输出;判断处理过程是否结束,在处理过程未结束时,执行t=t+1,然后依次执行上述步骤,直到处理过程结束,结束处理流程。
下面对本发明实施例的具体实现过程说明如下。
如图5所示,本发明实施例提供一种混响语音信号中后混响功率谱的自适应估计方法,包括:
步骤51,获取麦克风拾取的混响语音信号的子带自功率谱的估计;
步骤52,获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量;
步骤53,根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计。
一、当所述麦克风为单麦克风时
具体地,所述步骤51的实现方式为:
根据上述的公式十六:
Figure BDA0001833791740000231
获取混响语音信号的子带自功率谱的估计;
其中,
Figure BDA0001833791740000241
为第t帧第k个子带的混响语音信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;
Figure BDA0001833791740000242
为第t-1帧第k个子带的混响语音信号的子带自功率谱的估计;X(t,k)为第t帧第k个子带的混响语音信号的子带谱;t为信号帧的时间索引,k为子带索引。
具体地,所述步骤52的实现方式为:
根据上述的公式十五:
Figure BDA0001833791740000243
获取DLP预测系数矢量;
其中,
Figure BDA0001833791740000244
为第t+1帧子带k上的DLP预测系数矢量;
Figure BDA0001833791740000245
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA0001833791740000246
Figure BDA0001833791740000247
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA0001833791740000248
Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA0001833791740000249
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且
Figure BDA00018337917400002410
为第t帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
具体地,所述步骤53的实现过程为:
根据上述的公式十七:
Figure BDA00018337917400002411
获取后混响子带自功率谱估计;
其中,
Figure BDA00018337917400002412
为后混响子带自功率谱估计;
Figure BDA00018337917400002413
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA0001833791740000251
Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA0001833791740000252
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;
Figure BDA0001833791740000253
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA0001833791740000254
Figure BDA0001833791740000255
为第t-τ-Ds帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
二、当所述麦克风为麦克风阵列时,
具体地,所述步骤51的实现方式为:
获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计。
进一步地,所述获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱,包括:
根据上述的公式二十七:
Figure BDA0001833791740000256
获取混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
其中,Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;Xr(t,k)为第t帧第k个子带的第r个麦克风输出信号的子带谱;M为麦克风阵列的总个数;
Figure BDA0001833791740000257
t为信号帧的时间索引,k为子带索引。
进一步地,所述根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计,包括:
根据上述的公式二十八:
Figure BDA0001833791740000261
获取经空间滤波处理后的单声道输出信号的子带自功率谱的估计;
其中,
Figure BDA0001833791740000262
为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;
Figure BDA0001833791740000263
为第t-1帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;t为信号帧的时间索引,k为子带索引。
具体地,所述步骤52的实现方式为:
根据上述的公式三十二:
Figure BDA0001833791740000264
获取用于所述混响语音信号经空间滤波处理后的单声道输出信号中后混响子带自功率谱估计的DLP预测系数矢量;
其中,
Figure BDA0001833791740000265
为第t+1帧子带k上的DLP预测系数矢量;
Figure BDA0001833791740000266
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA0001833791740000267
Figure BDA0001833791740000268
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA0001833791740000269
Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA00018337917400002610
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且
Figure BDA00018337917400002611
为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
具体地,所述步骤53的实现过程为:
根据上述的公式二十九:
Figure BDA0001833791740000271
获取后混响子带自功率谱估计;
其中,
Figure BDA0001833791740000272
为后混响子带自功率谱估计;
Figure BDA0001833791740000273
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA0001833791740000274
Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA0001833791740000275
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;
Figure BDA0001833791740000276
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA0001833791740000277
Figure BDA0001833791740000278
为第t-τ-Ds帧第k个子带的空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
需要说明的是,本发明提出的这种混响语音信号中后混响功率谱的自适应估计方法,降低了去混响的难度,提高了去混响的效率,与现有传统方法相比,它具有更好的鲁棒性、更低的算法复杂度,便于在实际中实时在线实现。
如图6所示,本发明实施例还提供一种混响语音信号中后混响功率谱的自适应估计装置,包括:
第一获取模块61,用于获取麦克风拾取的混响语音信号的子带自功率谱的估计;
第二获取模块62,用于获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量;
第三获取模块63,用于根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计。
可选地,当所述麦克风为单麦克风时,所述第一获取模块61,用于:
根据公式:
Figure BDA0001833791740000279
获取混响语音信号的子带自功率谱的估计;
其中,
Figure BDA0001833791740000281
为第t帧第k个子带的混响语音信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;
Figure BDA0001833791740000282
为第t-1帧第k个子带的混响语音信号的子带自功率谱的估计;X(t,k)为第t帧第k个子带的混响语音信号的子带谱;t为信号帧的时间索引,k为子带索引。
进一步地,所述第二获取模块62,用于:
根据公式:
Figure BDA0001833791740000283
获取DLP预测系数矢量;
其中,
Figure BDA0001833791740000284
为第t+1帧子带k上的DLP预测系数矢量;
Figure BDA0001833791740000285
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA0001833791740000286
Figure BDA0001833791740000287
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA0001833791740000288
Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA0001833791740000289
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且
Figure BDA00018337917400002810
为第t帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
进一步地,所述第三获取模块63,用于:
根据公式:
Figure BDA00018337917400002811
获取后混响子带自功率谱估计;
其中,
Figure BDA00018337917400002812
为后混响子带自功率谱估计;
Figure BDA00018337917400002813
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA00018337917400002814
Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA0001833791740000291
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;
Figure BDA0001833791740000292
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA0001833791740000293
Figure BDA0001833791740000294
为第t-τ-Ds帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
可选地,当所述麦克风为麦克风阵列时,所述第一获取模块61,包括:
第一获取单元,用于获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
第二获取单元,用于根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计。
进一步地,所述第一获取单元,用于:
根据公式:
Figure BDA0001833791740000295
获取混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
其中,Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;Xr(t,k)为第t帧第k个子带的第r个麦克风输出信号的子带谱;M为麦克风阵列的总个数;
Figure BDA0001833791740000296
t为信号帧的时间索引,k为子带索引。
进一步地,所述第二获取单元,用于:
根据公式:
Figure BDA0001833791740000297
获取经空间滤波处理后的单声道输出信号的子带自功率谱的估计;
其中,
Figure BDA0001833791740000298
为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;
Figure BDA0001833791740000299
为第t-1帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;t为信号帧的时间索引,k为子带索引。
进一步地,所述第二获取模块62,用于:
根据公式:
Figure BDA0001833791740000301
获取用于所述混响语音信号经空间滤波处理后的单声道输出信号中后混响子带自功率谱估计的DLP预测系数矢量;
其中,
Figure BDA0001833791740000302
为第t+1帧子带k上的DLP预测系数矢量;
Figure BDA0001833791740000303
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA0001833791740000304
Figure BDA0001833791740000305
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA0001833791740000306
Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA0001833791740000307
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且
Figure BDA0001833791740000308
为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
进一步地,所述第三获取模块63,用于:
根据公式:
Figure BDA0001833791740000309
获取后混响子带自功率谱估计;
其中,
Figure BDA00018337917400003010
为后混响子带自功率谱估计;
Figure BDA00018337917400003011
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA00018337917400003012
Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA00018337917400003013
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;
Figure BDA0001833791740000311
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA0001833791740000312
Figure BDA0001833791740000313
为第t-τ-Ds帧第k个子带的空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
需要说明的是,该装置的实施例是与上述方法实施例一一对应的装置,上述方法实施例中所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
如图7所示,本发明实施例还提供一种混响语音信号中后混响功率谱的自适应估计装置,包括存储器71、处理器72及存储在所述存储器71上并可在所述处理器上运行的计算机程序,且所述存储器71通过总线接口73与所述处理器72连接;其中,所述处理器72执行所述计算机程序时实现以下步骤:
获取麦克风拾取的混响语音信号的子带自功率谱的估计;
获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量;
根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计。
可选地,当所述麦克风为单麦克风时,所述处理器72执行所述计算机程序时实现以下步骤:
根据公式:
Figure BDA0001833791740000314
获取混响语音信号的子带自功率谱的估计;
其中,
Figure BDA0001833791740000315
为第t帧第k个子带的混响语音信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;
Figure BDA0001833791740000316
为第t-1帧第k个子带的混响语音信号的子带自功率谱的估计;X(t,k)为第t帧第k个子带的混响语音信号的子带谱;t为信号帧的时间索引,k为子带索引。
进一步地,所述处理器72执行所述计算机程序时实现以下步骤:
根据公式:
Figure BDA0001833791740000321
获取DLP预测系数矢量;
其中,
Figure BDA0001833791740000322
为第t+1帧子带k上的DLP预测系数矢量;
Figure BDA0001833791740000323
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA0001833791740000324
Figure BDA0001833791740000325
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA0001833791740000326
Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA0001833791740000327
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且
Figure BDA0001833791740000328
为第t帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
进一步地,所述处理器72执行所述计算机程序时实现以下步骤:
根据公式:
Figure BDA0001833791740000329
获取后混响子带自功率谱估计;
其中,
Figure BDA00018337917400003210
为后混响子带自功率谱估计;
Figure BDA00018337917400003211
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA00018337917400003212
Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA00018337917400003213
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;
Figure BDA00018337917400003214
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA00018337917400003215
Figure BDA0001833791740000331
为第t-τ-Ds帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
可选地,当所述麦克风为麦克风阵列时,所述处理器72执行所述计算机程序时实现以下步骤:
获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计。
进一步地,所述处理器72执行所述计算机程序时实现以下步骤:
根据公式:
Figure BDA0001833791740000332
获取混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
其中,Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;Xr(t,k)为第t帧第k个子带的第r个麦克风输出信号的子带谱;M为麦克风阵列的总个数;
Figure BDA0001833791740000333
t为信号帧的时间索引,k为子带索引。
进一步地,所述处理器72执行所述计算机程序时实现以下步骤:
根据公式:
Figure BDA0001833791740000334
获取经空间滤波处理后的单声道输出信号的子带自功率谱的估计;
其中,
Figure BDA0001833791740000335
为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;
Figure BDA0001833791740000336
为第t-1帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;t为信号帧的时间索引,k为子带索引。
进一步地,所述处理器72执行所述计算机程序时实现以下步骤:
根据公式:
Figure BDA0001833791740000341
获取用于所述混响语音信号经空间滤波处理后的单声道输出信号中后混响子带自功率谱估计的DLP预测系数矢量;
其中,
Figure BDA0001833791740000342
为第t+1帧子带k上的DLP预测系数矢量;
Figure BDA0001833791740000343
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA0001833791740000344
Figure BDA0001833791740000345
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA0001833791740000346
Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA0001833791740000347
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且
Figure BDA0001833791740000348
为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
进一步地,所述处理器72执行所述计算机程序时实现以下步骤:
根据公式:
Figure BDA0001833791740000349
获取后混响子带自功率谱估计;
其中,
Figure BDA00018337917400003410
为后混响子带自功率谱估计;
Figure BDA00018337917400003411
为第t帧子带k上的DLP预测系数矢量,且
Figure BDA00018337917400003412
Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds
Figure BDA00018337917400003413
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;
Figure BDA00018337917400003414
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure BDA00018337917400003415
Figure BDA0001833791740000351
为第t-τ-Ds帧第k个子带的空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的混响语音信号中后混响功率谱的自适应估计方法。
以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述的原理前提下还可以作出若干改进和润饰,这些改进和润饰也在本发明的保护范围内。

Claims (22)

1.一种混响语音信号中后混响功率谱的自适应估计方法,其特征在于,包括:
获取麦克风拾取的混响语音信号的子带自功率谱的估计;
获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量;
根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计;
其中,所述获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量,包括:
根据公式:
Figure FDA0003060644480000011
获取DLP预测系数矢量;
其中,
Figure FDA0003060644480000012
为第t+1帧子带k上的DLP预测系数矢量;
Figure FDA0003060644480000013
为第t帧子带k上的DLP预测系数矢量,且
Figure FDA0003060644480000014
Figure FDA0003060644480000015
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure FDA0003060644480000016
Q为DLP的系数个数,且Q=Rs-Ds
Figure FDA0003060644480000017
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且
Figure FDA0003060644480000018
Figure FDA0003060644480000019
Figure FDA00030606444800000110
为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符;其中,在麦克风为单麦克风时,
Figure FDA00030606444800000111
Figure FDA00030606444800000112
表示,
Figure FDA0003060644480000021
Figure FDA0003060644480000022
表示,
Figure FDA0003060644480000023
为第t帧第k个子带的混响语音信号的子带自功率谱的估计;在麦克风为麦克风阵列时,
Figure FDA0003060644480000024
Figure FDA0003060644480000025
表示,
Figure FDA0003060644480000026
Figure FDA0003060644480000027
表示,
Figure FDA0003060644480000028
为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计。
2.根据权利要求1所述的混响语音信号中后混响功率谱的自适应估计方法,其特征在于,当所述麦克风为单麦克风时,所述获取麦克风拾取的混响语音信号的子带自功率谱的估计,包括:
根据公式:
Figure FDA0003060644480000029
获取混响语音信号的子带自功率谱的估计;
其中,
Figure FDA00030606444800000210
为第t帧第k个子带的混响语音信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;
Figure FDA00030606444800000211
为第t-1帧第k个子带的混响语音信号的子带自功率谱的估计;X(t,k)为第t帧第k个子带的混响语音信号的子带谱;t为信号帧的时间索引,k为子带索引。
3.根据权利要求2所述的混响语音信号中后混响功率谱的自适应估计方法,其特征在于,所述根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计,包括:
根据公式:
Figure FDA00030606444800000212
获取后混响子带自功率谱估计;
其中,
Figure FDA00030606444800000213
为后混响子带自功率谱估计;
Figure FDA00030606444800000214
为第t帧子带k上的DLP预测系数矢量,且
Figure FDA00030606444800000215
Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,…,Q-1,Q为DLP的系数个数,且Q=Rs-Ds
Figure FDA00030606444800000216
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;
Figure FDA00030606444800000217
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure FDA00030606444800000218
Figure FDA0003060644480000031
为第t-τ-Ds帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
4.根据权利要求1所述的混响语音信号中后混响功率谱的自适应估计方法,其特征在于,当所述麦克风为麦克风阵列时,所述获取麦克风拾取的混响语音信号的子带自功率谱的估计,包括:
获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计。
5.根据权利要求4所述的混响语音信号中后混响功率谱的自适应估计方法,其特征在于,所述获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱,包括:
根据公式:
Figure FDA0003060644480000032
获取混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
其中,Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;Xr(t,k)为第t帧第k个子带的第r个麦克风输出信号的子带谱;M为麦克风阵列的总个数;
Figure FDA0003060644480000033
t为信号帧的时间索引,k为子带索引。
6.根据权利要求4所述的混响语音信号中后混响功率谱的自适应估计方法,其特征在于,所述根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计,包括:
根据公式:
Figure FDA0003060644480000034
获取经空间滤波处理后的单声道输出信号的子带自功率谱的估计;
其中,
Figure FDA0003060644480000035
为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;
Figure FDA0003060644480000041
为第t-1帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;t为信号帧的时间索引,k为子带索引。
7.根据权利要求4所述的混响语音信号中后混响功率谱的自适应估计方法,其特征在于,所述根据所述子带自功率谱的估计和DLP预测系数,获取后混响子带自功率谱估计,包括:
根据公式:
Figure FDA0003060644480000042
获取后混响子带自功率谱估计;
其中,
Figure FDA0003060644480000043
为后混响子带自功率谱估计;
Figure FDA0003060644480000044
为第t帧子带k上的DLP预测系数矢量,且
Figure FDA0003060644480000045
Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,…,Q-1,Q为DLP的系数个数,且Q=Rs-Ds
Figure FDA0003060644480000046
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;
Figure FDA0003060644480000047
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure FDA0003060644480000048
Figure FDA0003060644480000049
为第t-τ-Ds帧第k个子带的空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
8.一种混响语音信号中后混响功率谱的自适应估计装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
获取麦克风拾取的混响语音信号的子带自功率谱的估计;
获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量;
根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计;
其中,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:
Figure FDA0003060644480000051
获取DLP预测系数矢量;
其中,
Figure FDA0003060644480000052
为第t+1帧子带k上的DLP预测系数矢量;
Figure FDA0003060644480000053
为第t帧子带k上的DLP预测系数矢量,且
Figure FDA0003060644480000054
Figure FDA0003060644480000055
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure FDA0003060644480000056
Q为DLP的系数个数,且Q=Rs-Ds
Figure FDA0003060644480000057
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且
Figure FDA0003060644480000058
Figure FDA0003060644480000059
Figure FDA00030606444800000510
为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符;其中,在麦克风为单麦克风时,
Figure FDA00030606444800000511
Figure FDA00030606444800000512
表示,
Figure FDA00030606444800000513
Figure FDA00030606444800000514
表示,
Figure FDA00030606444800000515
为第t帧第k个子带的混响语音信号的子带自功率谱的估计;在麦克风为麦克风阵列时,
Figure FDA00030606444800000516
Figure FDA00030606444800000517
表示,
Figure FDA00030606444800000518
Figure FDA00030606444800000519
表示,
Figure FDA00030606444800000520
为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计。
9.根据权利要求8所述的混响语音信号中后混响功率谱的自适应估计装置,其特征在于,当所述麦克风为单麦克风时,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:
Figure FDA00030606444800000521
获取混响语音信号的子带自功率谱的估计;
其中,
Figure FDA0003060644480000061
为第t帧第k个子带的混响语音信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;
Figure FDA0003060644480000062
为第t-1帧第k个子带的混响语音信号的子带自功率谱的估计;X(t,k)为第t帧第k个子带的混响语音信号的子带谱;t为信号帧的时间索引,k为子带索引。
10.根据权利要求9所述的混响语音信号中后混响功率谱的自适应估计装置,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:
Figure FDA0003060644480000063
获取后混响子带自功率谱估计;
其中,
Figure FDA0003060644480000064
为后混响子带自功率谱估计;
Figure FDA0003060644480000065
为第t帧子带k上的DLP预测系数矢量,且
Figure FDA0003060644480000066
Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,…,Q-1,Q为DLP的系数个数,且Q=Rs-Ds
Figure FDA0003060644480000067
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;
Figure FDA0003060644480000068
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure FDA0003060644480000069
Figure FDA00030606444800000610
Figure FDA00030606444800000611
为第t-τ-Ds帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
11.根据权利要求8所述的混响语音信号中后混响功率谱的自适应估计装置,其特征在于,当所述麦克风为麦克风阵列时,所述处理器执行所述计算机程序时实现以下步骤:
获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计。
12.根据权利要求11所述的混响语音信号中后混响功率谱的自适应估计装置,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:
Figure FDA0003060644480000071
获取混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
其中,Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;Xr(t,k)为第t帧第k个子带的第r个麦克风输出信号的子带谱;M为麦克风阵列的总个数;
Figure FDA0003060644480000072
t为信号帧的时间索引,k为子带索引。
13.根据权利要求11所述的混响语音信号中后混响功率谱的自适应估计装置,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:
Figure FDA0003060644480000073
获取经空间滤波处理后的单声道输出信号的子带自功率谱的估计;
其中,
Figure FDA0003060644480000074
为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;
Figure FDA0003060644480000075
为第t-1帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;t为信号帧的时间索引,k为子带索引。
14.根据权利要求11所述的混响语音信号中后混响功率谱的自适应估计装置,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:
Figure FDA0003060644480000076
获取后混响子带自功率谱估计;
其中,
Figure FDA0003060644480000077
为后混响子带自功率谱估计;
Figure FDA0003060644480000078
为第t帧子带k上的DLP预测系数矢量,且
Figure FDA0003060644480000079
Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,…,Q-1,Q为DLP的系数个数,且Q=Rs-Ds
Figure FDA00030606444800000710
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;
Figure FDA0003060644480000081
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure FDA0003060644480000082
Figure FDA0003060644480000083
为第t-τ-Ds帧第k个子带的空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的混响语音信号中后混响功率谱的自适应估计方法。
16.一种混响语音信号中后混响功率谱的自适应估计装置,其特征在于,包括:
第一获取模块,用于获取麦克风拾取的混响语音信号的子带自功率谱的估计;
第二获取模块,用于获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量;
第三获取模块,用于根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计;
其中,所述第二获取模块,用于:
根据公式:
Figure FDA0003060644480000084
获取DLP预测系数矢量;
其中,
Figure FDA0003060644480000085
为第t+1帧子带k上的DLP预测系数矢量;
Figure FDA0003060644480000086
为第t帧子带k上的DLP预测系数矢量,且
Figure FDA0003060644480000087
Figure FDA0003060644480000088
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure FDA0003060644480000089
Q为DLP的系数个数,且Q=Rs-Ds
Figure FDA0003060644480000091
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且
Figure FDA0003060644480000092
Figure FDA0003060644480000093
Figure FDA0003060644480000094
为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符;其中,在麦克风为单麦克风时,
Figure FDA0003060644480000095
Figure FDA0003060644480000096
表示,
Figure FDA0003060644480000097
Figure FDA0003060644480000098
表示,
Figure FDA0003060644480000099
为第t帧第k个子带的混响语音信号的子带自功率谱的估计;在麦克风为麦克风阵列时,
Figure FDA00030606444800000910
Figure FDA00030606444800000911
表示,
Figure FDA00030606444800000912
Figure FDA00030606444800000913
表示,
Figure FDA00030606444800000914
为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计。
17.根据权利要求16所述的混响语音信号中后混响功率谱的自适应估计装置,其特征在于,当所述麦克风为单麦克风时,所述第一获取模块,用于:
根据公式:
Figure FDA00030606444800000915
获取混响语音信号的子带自功率谱的估计;
其中,
Figure FDA00030606444800000916
为第t帧第k个子带的混响语音信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;
Figure FDA00030606444800000917
为第t-1帧第k个子带的混响语音信号的子带自功率谱的估计;X(t,k)为第t帧第k个子带的混响语音信号的子带谱;t为信号帧的时间索引,k为子带索引。
18.根据权利要求17所述的混响语音信号中后混响功率谱的自适应估计装置,其特征在于,所述第三获取模块,用于:
根据公式:
Figure FDA00030606444800000918
获取后混响子带自功率谱估计;
其中,
Figure FDA00030606444800000919
为后混响子带自功率谱估计;
Figure FDA00030606444800000920
为第t帧子带k上的DLP预测系数矢量,且
Figure FDA00030606444800000921
Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,…,Q-1,Q为DLP的系数个数,且Q=Rs-Ds
Figure FDA0003060644480000101
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;
Figure FDA0003060644480000102
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure FDA0003060644480000103
Figure FDA0003060644480000104
为第t-τ-Ds帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
19.根据权利要求16所述的混响语音信号中后混响功率谱的自适应估计装置,其特征在于,当所述麦克风为麦克风阵列时,所述第一获取模块,包括:
第一获取单元,用于获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
第二获取单元,用于根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计。
20.根据权利要求19所述的混响语音信号中后混响功率谱的自适应估计装置,其特征在于,所述第一获取单元,用于:
根据公式:
Figure FDA0003060644480000105
获取混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
其中,Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;Xr(t,k)为第t帧第k个子带的第r个麦克风输出信号的子带谱;M为麦克风阵列的总个数;
Figure FDA0003060644480000106
t为信号帧的时间索引,k为子带索引。
21.根据权利要求19所述的混响语音信号中后混响功率谱的自适应估计装置,其特征在于,所述第二获取单元,用于:
根据公式:
Figure FDA0003060644480000107
获取经空间滤波处理后的单声道输出信号的子带自功率谱的估计;
其中,
Figure FDA0003060644480000111
为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;
Figure FDA0003060644480000112
为第t-1帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;t为信号帧的时间索引,k为子带索引。
22.根据权利要求19所述的混响语音信号中后混响功率谱的自适应估计装置,其特征在于,所述第三获取模块,用于:
根据公式:
Figure FDA0003060644480000113
获取后混响子带自功率谱估计;
其中,
Figure FDA0003060644480000114
为后混响子带自功率谱估计;
Figure FDA0003060644480000115
为第t帧子带k上的DLP预测系数矢量,且
Figure FDA0003060644480000116
Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,…,Q-1,Q为DLP的系数个数,且Q=Rs-Ds
Figure FDA0003060644480000117
R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;
Figure FDA0003060644480000118
为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,
Figure FDA0003060644480000119
Figure FDA00030606444800001110
为第t-τ-Ds帧第k个子带的空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
CN201811216983.7A 2018-10-18 2018-10-18 混响语音信号中后混响功率谱的自适应估计方法及装置 Active CN109243476B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811216983.7A CN109243476B (zh) 2018-10-18 2018-10-18 混响语音信号中后混响功率谱的自适应估计方法及装置
PCT/CN2019/109285 WO2020078210A1 (zh) 2018-10-18 2019-09-30 混响语音信号中后混响功率谱的自适应估计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811216983.7A CN109243476B (zh) 2018-10-18 2018-10-18 混响语音信号中后混响功率谱的自适应估计方法及装置

Publications (2)

Publication Number Publication Date
CN109243476A CN109243476A (zh) 2019-01-18
CN109243476B true CN109243476B (zh) 2021-09-03

Family

ID=65052489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811216983.7A Active CN109243476B (zh) 2018-10-18 2018-10-18 混响语音信号中后混响功率谱的自适应估计方法及装置

Country Status (2)

Country Link
CN (1) CN109243476B (zh)
WO (1) WO2020078210A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109243476B (zh) * 2018-10-18 2021-09-03 电信科学技术研究院有限公司 混响语音信号中后混响功率谱的自适应估计方法及装置
CN111489760B (zh) * 2020-04-01 2023-05-16 腾讯科技(深圳)有限公司 语音信号去混响处理方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1523573A (zh) * 2003-09-12 2004-08-25 中国科学院声学研究所 一种采用后置滤波器的多通道语音增强方法
CN101908341A (zh) * 2010-08-05 2010-12-08 浙江工业大学 一种适用于嵌入式系统实现的基于g.729算法的语音编码优化方法
JP4705893B2 (ja) * 2006-08-10 2011-06-22 Okiセミコンダクタ株式会社 エコーキャンセラ

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3009121B1 (fr) * 2013-07-23 2017-06-02 Arkamys Procede de suppression de la reverberation tardive d'un signal sonore
CN103440869B (zh) * 2013-09-03 2017-01-18 大连理工大学 一种音频混响的抑制装置及其抑制方法
CN104658543A (zh) * 2013-11-20 2015-05-27 大连佑嘉软件科技有限公司 一种室内混响消除的方法
CN108172231B (zh) * 2017-12-07 2021-07-30 中国科学院声学研究所 一种基于卡尔曼滤波的去混响方法及系统
CN108154885A (zh) * 2017-12-15 2018-06-12 重庆邮电大学 一种使用qr-rls算法对多通道语音信号去混响方法
CN109243476B (zh) * 2018-10-18 2021-09-03 电信科学技术研究院有限公司 混响语音信号中后混响功率谱的自适应估计方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1523573A (zh) * 2003-09-12 2004-08-25 中国科学院声学研究所 一种采用后置滤波器的多通道语音增强方法
JP4705893B2 (ja) * 2006-08-10 2011-06-22 Okiセミコンダクタ株式会社 エコーキャンセラ
CN101908341A (zh) * 2010-08-05 2010-12-08 浙江工业大学 一种适用于嵌入式系统实现的基于g.729算法的语音编码优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Speech Dereverberation Based on Variance-Normalized Delayed Linear Prediction;Tomohiro Nakatani等;《IEEE TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCESSING》;20100930;第18卷(第7期);摘要,第Ⅰ节第12段,第Ⅳ节,附图3 *
Suppression of Late Reverberation Effect on Speech Signal Using Long-Term Multiple-step Linear Prediction;Keisuke Kinoshita等;《IEEE TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCESSING》;20090531;第17卷(第4期);摘要,第Ⅱ-IV节 *

Also Published As

Publication number Publication date
CN109243476A (zh) 2019-01-18
WO2020078210A1 (zh) 2020-04-23

Similar Documents

Publication Publication Date Title
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
CN110100457B (zh) 基于噪声时变环境的加权预测误差的在线去混响算法
Kinoshita et al. Neural Network-Based Spectrum Estimation for Online WPE Dereverberation.
US8467538B2 (en) Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium
CN111415676B (zh) 一种基于分离矩阵初始化频点选择的盲源分离方法及系统
Gannot et al. Subspace methods for multimicrophone speech dereverberation
US8848933B2 (en) Signal enhancement device, method thereof, program, and recording medium
CN109979476B (zh) 一种语音去混响的方法及装置
CN102739886B (zh) 基于回声频谱估计和语音存在概率的立体声回声抵消方法
US11373667B2 (en) Real-time single-channel speech enhancement in noisy and time-varying environments
WO2015165539A1 (en) Signal processing apparatus, method and computer program for dereverberating a number of input audio signals
Wang et al. Mask weighted STFT ratios for relative transfer function estimation and its application to robust ASR
CN111312275A (zh) 一种基于子带分解的在线声源分离增强系统
CN109243476B (zh) 混响语音信号中后混响功率谱的自适应估计方法及装置
Doclo et al. Multimicrophone noise reduction using recursive GSVD-based optimal filtering with ANC postprocessing stage
Habets et al. Dereverberation
CN114255777A (zh) 实时语音去混响的混合方法及系统
Kinoshita et al. Multi-step linear prediction based speech dereverberation in noisy reverberant environment.
US20230306980A1 (en) Method and System for Audio Signal Enhancement with Reduced Latency
CN114220453B (zh) 基于频域卷积传递函数的多通道非负矩阵分解方法及系统
CN113160842A (zh) 一种基于mclp的语音去混响方法及系统
Aprilyanti et al. Suppression of noise and late reverberation based on blind signal extraction and Wiener filtering
Kim et al. Online speech dereverberation using RLS-WPE based on a full spatial correlation matrix integrated in a speech enhancement system
CN113870884B (zh) 单麦克风噪声抑制方法和装置
Ali et al. MWF-based speech dereverberation with a local microphone array and an external microphone

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant