CN102084667B - 回响去除装置、回响去除方法、回响去除程序、以及记录介质 - Google Patents

回响去除装置、回响去除方法、回响去除程序、以及记录介质 Download PDF

Info

Publication number
CN102084667B
CN102084667B CN200980106824.4A CN200980106824A CN102084667B CN 102084667 B CN102084667 B CN 102084667B CN 200980106824 A CN200980106824 A CN 200980106824A CN 102084667 B CN102084667 B CN 102084667B
Authority
CN
China
Prior art keywords
signal
frequency
mentioned
removal
echoes
Prior art date
Application number
CN200980106824.4A
Other languages
English (en)
Other versions
CN102084667A (zh
Inventor
中谷智广
吉冈拓也
木下庆介
三好正人
Original Assignee
日本电信电话株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP052175/08 priority Critical
Priority to JP2008052175 priority
Application filed by 日本电信电话株式会社 filed Critical 日本电信电话株式会社
Priority to PCT/JP2009/054231 priority patent/WO2009110578A1/ja
Publication of CN102084667A publication Critical patent/CN102084667A/zh
Application granted granted Critical
Publication of CN102084667B publication Critical patent/CN102084667B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Abstract

在声源模型存储单元存储将从声源发出的音频信号作为概率密度函数来表示的声源模型。接收音频信号而得到的观测信号被变换为与多个频域的各自对应的按频率观测信号。然后,基于用于表示音频信号、观测信号以及回响去除滤波器的关系的回响模型和声源模型,利用各按频率观测信号来估计与各频带对应的回响去除滤波器。对各按频率观测信号应用各回响去除滤波器,从而求出与各频带对应的按频率目标信号,并将其合并。

Description

回响去除装置、回响去除方法、回响去除程序、以及记录介质

技术领域

[0001] 本发明涉及从所观测的观测信号去除回响信号的回响去除装置、回响去除方法、回响去除程序、以及记录介质。

背景技术

[0002] 在以下说明中,将从声源发出的信号设为音频(audio)信号,有回响的房间发出音频信号,并通过多个接收部件(例如麦克风)接收而得到的信号设为观测信号。观测信号是对音频信号叠加了回响信号的信号。因此,从观测信号提取原来的音频信号的性质变得困难,且声音的清晰度也降低。相对于此,回响去除处理从观测信号除去所叠加的回响信号,从而容易提取音频信号原来的性质,并能够恢复声音的清晰度。这是有关通过作为其他各种音频信号处理系统的要素技术来使用,从而提高该系统整体的性能的技术。将回响去除处理作为要素技术能够有助于提高性能的音频信号处理系统例如有以下系统。

[0003] (I)将回响信号去除作为前处理来使用的声音识别系统

[0004] (2)通过回响信号去除提高声音的清晰度的电视会议系统等通信系统

[0005] (3)通过去除在讲演的录音中所包含的回响信号,从而提高录音的声音的清晰度的再现系统

[0006] (4)通过去除回响信号,从而提高听取容易度的助听器

[0007] (5)响应于人发出的声音,从而对机器传递命令的机器控制接口、以及机械和人之间的对话装置

[0008] (6)接收音频内容时包括回响信号,改善所接收的音频信号的音质的后期制作(postproduction)系统

[0009] (7)去除或附加音乐内容的回响信号,从而进行音乐内容的音频控制的音频效果器(effecter)。

[0010] 图1表示以往的回响去除装置100的功能结构例(以下,称为“现有技术I”)。回响去除装置100包括估计单元104、去除单元106、声源模型存储单元108。在声源模型存储单元108,通过有限状态机使不包括回响信号的音频信号的短时间区间的波形模型化,并存储通过信号的自相关函数表现各状态的波形的特征的声源模型。此外,基于在时域对观测信号应用了回响去除滤波器的运算和上述声源模型,定义表现了从观测信号去除回响的信号(理想的目标信号)的似然性(likelihood)的最佳化函数。该最佳化函数涉及为将回响去除滤波器系数和声源模型的状态时系列作为参数,通过提供更加合适的滤波器系数和状态时系列,取得更大的值的函数。

[0011] 以下的说明中,将输入的时域的观测信号设为Xt(1)、…、X,)、…、Xt(Q)。其中,X的右下方的下标“t”表示离散时刻的指示符,右上的q(q= 1、…、Q)表示接收部件(例如“麦克风”)的指示符。以下,将指示符为q的麦克风表示为第q信道的麦克风。这在下面也相同。[0012] 若输入观测信号xtW,则估计单元104使用该观测信号Xtw和上述最佳化函数,估计回响去除滤波器。具体地说,估计单元104通过求出使上述最佳化函数的值最大的参数,从而估计回响去除滤波器。去除单元106通过对估计的回响去除滤波器卷积观测信号,从而输出从观测信号去除了回响信号的信号。该信号被称为目标信号。

[0013] 图2表示以往的回响去除装置200的功能结构例(以下,称为“现有技术2”)。回响去除装置200包括用于将观测信号分割为U个频带的分割单元202、每个该频带的存储单元204u(u = O、…、U-1)、每个该频带的去除单元206u、合并单元208。

[0014] 分割单元202通过对观测信号进行子带分割,从而求出对U个频带的每一个分割的子带信号。该被分割的子带信号是时域的信号。此外,在子带分割时,有时进行下采样(downsample)(模型的间隔剔除)。在以下的说明中,将子带信号设为x’n, uw。其中,将η设为下采样后的采样的指示符,将u设为频带的指示符(u = 0、…、U-1)。以下,说明通过第q信道的麦克风接收的观测信号XtW的第u个频带的子带信号X’ n,u(q)。

[0015] 如上所述,在U个频带的每一个,设置去除单元206u(u = O、…、U-1)、存储单元204u。在存储单元204u存储回响去除滤波器。回响去除滤波器基于最小二乘法,预先决定回响去除滤波器的系数,使得利用从预先测定的声源至各麦克风的室内传达函数,在依次应用了该室内传达函数、分割单元202的子带分割处理、去除单元206u的回响去除处理、合并单元208的合并处理的各处理时得到的系统整体的输入输出函数尽量成为单位脉冲(impulse)函数。

[0016] 去除单元206u通过对子带信号X,n,uw叠加回响去除滤波器,从子带信号去除回响信号。将从子带信号去除了回响信号的每个频带的子带信号设为按频率目标信号s\u。然后,合并单元208合并按频率目标信号sn,:(u = O、…、U-1),从而求出目标信号St'

[0017] 回响去除装置100、200的细节记载在非专利文献1、2、3中。

`[0018] (非专利文献 I)T.Nakatani, B.H.Juang, T.Hikichi, T.Yoshioka, K.Kinoshita,M.Delcroix,and Μ.Miyoshi,“Study on speech dereverberation with autocorrelationcodebook, ^Proc.1EEE International Conference on Acoustics, Speech, and SignalProcessing

[0019] (ICASSP-2007),vol.1, pp.193-196,April 2007.[0020] (非专利文献 2)T.Nakatani, B.H.Juang, Τ.Yoshioka, K.Kinoshita, Μ.Miyoshi,“Importance of energy and spectral features in Gaussian source model for speechdereverberation, ” WASPAA-2007, 2007

[0021] (非专利文献 3)N.D.Gaubitch, M.R.P.Thomas, P.A.Naylor, “SubbandMethod for Multichannel Least Squares Equalization of Room TransferFunctions,,,Proc, IEEE Workshop on Applications of Signal Processing to Audioand Acoustics(WASPAA-2007),pp.14-17,2007.发明内容

[0022] 在上述现有技术I的回响去除装置100中,为了通过最佳的方法来利用音频信号的时变性特征,需要计算非常大尺寸的协方差矩阵,以进行上述最佳化函数的值的最大化。因此,最佳化函数的值的最大化需要庞大的计算时间。说明协方差矩阵的尺寸变大的理由。有关在现有技术I中处理的观测信号的协方差矩阵H(r)通过以下的式(I)来表示。

[0023] = (1)

1..[0024] 另外,在以下的说明中,协方差矩阵H(r)表示有关在现有技术I中处理的观测信号的协方差矩阵。其中,若设通过2个麦克风接收I个音频信号,则Xw = [xV/1),…,xVk'xV/2),…,厂」2)],x_t(1)是由x/1)的长度N的短时间帧构成的列向量xV/1) = [xt(1),Xt+1(1),…,Xtt/1)]1,且设Xt(1)、Xt(2)分别设为通过第I信道、第2信道的麦克风接收的观测信号。T表示矩阵、向量的转置。K是预测滤波器(估计的回响去除滤波器)的长度。此外,rt是有关由音频信号的短时间帧构成的列向量s_t = [st, st+1,…,St^1]1的协方差矩阵^ = E{s_ts_tT},Ε{.}表示期待值函数。一般由于!.,不是已知的,因此基于在声源模型存储单元108中存储的声源模型,由估计单元104求出的估计值来代替。

[0025] 一般,预测滤波器长度K理论上至少必须与室内脉冲响应长度相同。从而,协方差矩阵H(r)的尺寸变得非常大。另一方面,若假设音频信号为恒定信号,则由于上述的协方差矩阵可近似为自相关矩阵,因此能够使用快速傅立叶变换等快速的计算方法,但若对声音信号等时变信号使用该假设,则存在回响去除的计算精度变差的问题。这样,为了在回响去除装置100中进行高精度的回响去除需要非常庞大的计算时间,此外为了快速地进行回响去除,存在音频信号是时变信号的情况下回响去除的精度变差的问题。

[0026] 此外,在上述现有技术2的回响去除装置200中,必须预先估计回响去除滤波器(室内传达函数的反滤波器),需要预先求出室内传达函数。而且,利用室内传达函数的反滤波器进行回响去除的处 理方法,若对室内传达函数的误差非常敏感而且在某种程度以上的误差包含在室内传达函数内的情况下,则存在通过回响去除处理反而音频信号的失真增大的问题。而且,室内传达函数对声源的位置和室温的变化敏感,在声源的位置和室温事先无法正确确定的情况下,不能决定正确的室内传达函数。这样,在回响去除装置200中,需要预先准备高精度的室内传达函数,而且,在一个条件下求出的室内传达函数只能在非常有限的条件下用于回响去除。

[0027] 因此,本发明如下进行回响去除。在存储单元存储用于将音频信号作为概率密度函数来表现的声源模型。接收音频信号而获得的观测信号被变换为与多个频带的各自对应的按频率观测信号。然后,基于用于表示各频带中的音频信号、观测信号、回响去除滤波器之间关系的回响模型和声源模型,利用各按频率观测信号估计与各频带对应的回响去除滤波器。对各按频率观测信号应用各回响去除滤波器,从而求出与各频带对应的按频率目标信号,并合并各按频率目标信号。

附图说明

[0028] 图1是表示了现有技术I的回响去除装置的功能结构例的方框图。

[0029] 图2是表示了现有技术2的回响去除或者的功能结构例的方框图。

[0030] 图3是表示了实施例1的回响去除装置的功能结构例的方框图。

[0031] 图4是表示了实施例1的回响去除装置的主要处理的流程图。

[0032] 图5是表示了实施例2的回响去除装置的功能结构例的方框图。

[0033] 图6是表示了实施例2的回响去除装置的主要处理的流程图。[0034] 图7是表示了实施例3的回响去除装置的功能结构例的方框图。

[0035] 图8是表示了实施例4的回响去除装置的功能结构例的方框图。

[0036] 图9是表示实验结果的图。

[0037] 图1OA是表示利用一个麦克风基于实施例4证实了回响去除的效果的实验中的观测信号的声谱的图。

[0038] 图1OB是表示利用一个麦克风基于实施例4证实了回响去除的效果的实验结果的声谱的图。

具体实施方式

[0039] 以下,表示用于实施发明的最佳方式。另外,对具有相同功能的结构单元和进行相同处理的过程附加相同标号,并省略重复说明。

[0040] 实施例1

[0041] 图3表示实施例1的回响去除装置300的方框图,图4表示回响去除装置300的主要处理的流程。如图3所示,实施例1的回响去除装置300包括对U个频带的每一个分割观测信号的分割单元302、声源模型存储单元304、每个频带的估计单元306u(u = O、…、U-1)、每个频带的去除单元308u、合并单元310。

[0042] 分割单元302对每个频带分割观测信号,并减少观测信号的采样数,从而输出按频率观测信号。该实施例1 的分割单元302对观测信号时间偏移并应用短时间分析窗,并变换为频域从而分割给每个频带。

[0043] 在声源模型存储单元304存储对每个频带表现按频率观测信号的特征的声源模型。

[0044] 对每个频带设置估计单元306u,估计单元306u基于与声源模型相关联定义的观测信号的最佳化函数,从按频率观测信号估计回响去除滤波器。

[0045] 对每个频带设置去除单元308u,利用按频率观测信号和回响去除滤波器,对每个频带求出按频率目标信号。该实施例1的去除单元308u通过将回响去除滤波器卷积在所述按频率观测信号,从而求出按频率目标信号。

[0046] 合并单元310通过合并按频率目标信号,从而输出后述的目标信号。该实施例1的合并单元310合并按频率目标信号,并变换为将全部频带汇总为一个的时域信号,从而输出后述的目标信号。

[0047] 首先,说明音频信号St和观测信号xtW的关系。假设从声源至各麦克风的室内传递函数不具有共通零点,将最接近声源的麦克风设为q = I (第I信道的麦克风)。音频信号和观测信号的关系可以如下式(11)那样表示。此外,细节记载在“M.Miyoshi,“EstimatingAR parameter-sets for I inear-recurrent signals in convolutive mixtures,,,Proc.1CA-2003, pp.585-589,2003.”。

[0048] x「) = Xit^l +h]0st ( 11 )

q=\ r=l

[0049] h0(1)是从声源至q = I的麦克风的室内脉冲响应的第一抽头(tap)值,c τ ω称为预测系数,是在估计单元306u估计的回响去除滤波器的系数,τ是离散时间的指示符,如上述那样,K是预测滤波器长度(在现有技术I中估计的回响去除滤波器的尺寸)。[0050] 其中,若忽略音频信号的增益,则右边的第2项h^St是音频信号St的固定倍数的信号,因此能够将该信号看做应估计的音频信号St。由此,式(11)可以改写成以下式(12)。

[0051 ] X:') =ΣΣ c^x1-1 +si ( 12 )

[0052] 在式(12)中,当前的观测信号xtW从过去的观测信号的时间序列Χΐ_τω预测,音频信号St看做预测的残差信号。另外,作为式(12)的前提,假设第I信道的麦克风(q =I)最接近声源,但在不满足该条件的情况下,也同样可以利用式(12),表示观测信号和音频信号的关系。即,通过对第I信道的麦克风(q= D以外的麦克风的观测信号导入充分的延迟,从而能够假设来自声源的声音最初到达的麦克风设为第I信道的麦克风(q = 1),能够将第I信道的麦克风作为最接近声源的麦克风来处理。因此,例如,若将导入麦克风q的延迟时间设为dW抽头,则保留式(12)的表示,考虑为对q= I以外的预测系数{c,,c2W,…,C,)}的第一个开始对(^)抽头代入固定值0,从而能够将观测信号与音频信号之间的关系表示为与上述(12)相同。

[0053] 若对分割单元302输入观测信号XtW,则对每个频带分割观测信号,并减少观测信号的采样数,从而输出按频率观测信号(步骤S2)。然后,实施例1的分割单元302对观测信号时间偏移并应用短时间分析窗,并变换为频域,从而对每个频带分割。例如,分割单元302进行短时间傅立叶变换。以下,设为分割单元302进行短时间内傅立叶变换,从而具体说明。

[0054] 接着,将上述式(12) —般化,考虑以下的式(12’)。

[0055] =ΣΣ + (12,)

[0056] 这里,d是对用于预测当前的观测信号的过去的观测信号导入延迟的常数。在设d= I时,与式(12)相同。另一方面,在设d> I时,上述式(12’)不能严格表示观测信号和音频信号的关系。这是因为,从当前的时刻t追溯到过去,由来于d抽头的音频信号的信号不包含在上述式(12’ )的右边的过去的信号序列中,因此由来于该时间区间的音频信号而包含在当前的观测信号中的回响信号不能通过过去的观测信号的线性结合来表示。“由来于该时间区间的音频信号而包含在当前的观测信号中的回响信号”对应于与室内脉冲响应的最初的d抽头相当的初始反射音。从而,假设在上述式(12’)中,在残差信号中除了音频信号以外包含该初始反射音。为了明确该事实将残差信号记述为s广。另外,在该说明书中,记号A广表示在记号A的正上方附加了记号~的组合字符。

[0057] <对于频率信号的卷积运算>

[0058] 接着,说明对频域信号进行相当于上述式(12’ )的右边第I项中包含的时域中的卷积的运算的计算方法。首先,将在时域对某音频信号Xt卷积了滤波器长度为K的某回响去除滤波器ct而得到的信号设为yt。在时刻t0开始的yt通过窗函数以时间窗切出了短时间帧的信号,能够通过z变换区域可以表示为式(13)那样。

[0059] Wn (y (z) zt0) = Wn (c(z).x(z)zt0) (13)

[0060] 其中,设y (z) =c(z).χ(ζ),“.”表示卷积,WO设为相当于时域中的长度N的窗函数的函数。WN(c(z))从c(z)中的-N+1次获取O次的项,并与窗的形状成比例地变更各系数,并去除窗外的项。Zttl是将在时刻t0开始的短时间帧移动至窗函数中的时间偏移操作。

[0061] 而且,将从时刻t中的滤波器系数Ct切出长度M的帧表示为

Figure CN102084667BD00081

设W/0表示长度M的短时间分析窗(方形窗)。贝IJ,明显成为C(Z) =Σ τοτΜ,Μ(ζ)ζ-τΜ0上述式(13)能够改写为如下。

Figure CN102084667BD00082

[0065] 其中,式(14)中的Σ τοτΜ,Μ(ζ)ζ—τΜ对应于c⑴(参照式(13)),式(16)中的

Xt0-M+1- τ Μ, M+N-l

(ζ)对应于X(Z)(参照式(13))。

[0066] 此外,设Kk = <Κ/Μ>, <Κ/Μ>表示Κ/Μ以上的最小的整数。Kk成为在估计单元306u估计的回响去除滤波器的滤波器长度(抽头数)。在式(15)中,在窗函数的自变量中包含的项中,通过去除窗外的项,导出式(16)。式(16)中的“cTM, M(z) XttlHMt1 (ζ) ”表示在时域中的从滤波器系数c τ的第τ M抽头切出了长度M的帧、在时域的观测信号Xt的时刻tO-Μ+Ι- τ M时间点开始切出了长度Μ+Ν-1的帧、在ζ域将它们相乘。ζ域中的乘法相当于卷积运算,因此表示上述观测信号Xt和滤波器系数Ct的各帧的时域中的卷积运算。此外,cTM, Μ(ζ)的帧长度是M,XttlHm(Z)的帧长度是Μ+Ν-1,因此在短时间傅立叶变换的点数(频带的数)U为U ^ 2Μ+Ν-2时,时域的卷积通过短时间傅立叶变换域的积严格表示,其中,利用在音频信号处理中屡次使用的近似。即,短时间分析窗中包含的信号和滤波器的卷积在该滤波器的长度M与短时间分析窗N相比充分短时,在短时间傅立叶变换域,能够通过该信号和滤波器的积来近似。若利用该近似,则式(16)可以在ζ域的单位圆上(相当于短时间傅立叶变换域)改写为以下的式(17)。

[0067]

Figure CN102084667BD00083

[0068] 若使用短时间傅立叶变换表示,则式(17)成为以下的式(18)那样。

[0069]

Figure CN102084667BD00084

[0070] 其中,η和τ是短时间帧的指示符,Yn、Cn、Xn分别表示作为元素而具有从对应于y(z)、C(Z)、X(Z)的时域信号通过时间窗切出的信号的短时间傅立叶变换后的各频带的值的矢量,diag(X)是作为对焦分量而具有矢量X的分量的对角矩阵。另外,在本说明书中,如下表示短时间傅立叶变换。其中,t,表示帧τ的最初的采样的离散时间指示符。

Figure CN102084667BD00085

[0072] Xr = [Xr,0 Xra...XuJt (20)

[0073] 通过式(18),时域的卷积运算能够作为按频率观测信号的每个频带的卷积运算来计算。在式(17)中,M是相当于帧偏移的值,因此在该近似计算中,帧偏移M需要与窗函数WnQ的窗长度N相比充分小的值。[0074] 以上〈补充说明:对于频率信号的卷积运算 > 结束。

[0075] 在对上述式(12’ )的两边使用式(16),例如实施短时间傅立叶变换,从而得到以下的式(22)。

Figure CN102084667BD00091

[0077]式(22)等价于式(22a)。

Figure CN102084667BD00092

[0079] 其中,D对应于式(12’ )的延迟d,是通过帧数表示对频率信号中的过去的观测信号导入的延迟的量。相邻的帧的频率信号在时域相互具有重叠。因此,帧η的观测信号(式(22)的左边Χηω)中包含的音频信号的一部分还包含在与其正前的帧对应的观测信号中。从而,在式(22)中,若利用包括正前的帧的过去的观测信号预测Χη(1),则也能够预测音频信号的一部分。观测信号的可预测的部分不包含在残差信号中,因此音频信号的一部分通过回响去除而被去除。为了防止上述情况,在利用频率信号的本发明中,如式(22)所示,在预测当前的观测信号时不应用正前的帧的观测信号,而只使用某程度的延迟D以上分离的过去的观测信号。另外在满足d = DM时,上述式(12’)和式(22) —致。在以下的说明中,将式(22)作为用于表示观测信号和音频信号的关系的式来说明本实施方式。在式(22)中,Xn(q)相当于与在第q信道的麦克风接收的时域信号有关的短时间傅立叶变换。短时间傅立叶变换遵照式(19)、(20)。其中,η表示帧号。此外,频带u(u = 0、…、U_l)中的按频率观测信号表示为Xn,uW。为了求出该Xn,UW,分割单元302每M采样,时间偏移并应用短时间分析窗,并变换为频域。由此,得到对每个频带分割的按频率观测信号Xn,uW。

[0080] 此外,将在后面叙述细节的估计单元306u估计用于从按频率观测信号Xn, uw去除回响的回响去除滤波器。若得到作为该回响去除滤波器的系数的预测系数C, ω,则能够如下估计目标信号(包括初始反射音的音频信号)S\。

Figure CN102084667BD00093

[0082] 式(23)按照频带对于S: = [Sn^ Sn,I’…,Smu^ri的各元素,还能够表示为以下的式(24)那样。

Figure CN102084667BD00094

[0084] 这里若利用式(25)-(28),则式(24)还能够表示为式(29)那样。

Figure CN102084667BD00095
Figure CN102084667BD00101

[0090] 其中T表示矢量和矩阵的转置。在本实施例中,将Cu称为第U个频带的回响去除滤波器。另外,式(29)中的Bn_D,uCuT相当于将在每个信道卷积了 Bn_D,u和CUT而得到的信号,关于全部q进行了加法运算的信号。在估计单元306u估计回响去除滤波器Cu,去除单元308u基于式(29)去除回响信号。

[0091] 此外,若将Oih设为全部元素为O的D-1维的行矢量,则回响去除滤波器Wu还能够定义为以下那样。

[0092] Wu = [I,Oim, Cu(2),...,0,0η,CU(Q)]

[0093] 此时,通过去除单元308u基于以下式去除回响信号。

Figure CN102084667BD00102

[0097] 如上那样,若估计单元306u能够估计回响去除滤波器Cu或Wu,则去除单元308u基于式(29)或式(30),能够去除回响信号。接着,在说明回响去除滤波器的估计之前,说明声源模型。

[0098] 在声源模型存储单元304存储对每个频带表示了按频率观测信号的特征的声源模型。

[0099] 该实施例的声源模型将音频信号能够取的值的倾向通过概率分布来表示。此外,基于该概率分布定义最佳化函数。关于有效的声源模型例如时变正规分布,且如下定义所求的按频率信号S:的概率密度函数。

[0100] P (Sn^) = N (Sn^ ;0, ψη) (31)

[0101] ψη e Ωψ (32)

[0102] 其中,N(S: ;0, Ψη)是平均为O且声源模型的协方差矩阵Ψη = E(S:(S:rT)的多维复数正态分布,#„按每个短时间帧η取不同的值,或是相同的值。在以下的说明中,Ψη称为模型协方差矩阵,假设模型协方差矩阵#„是每个短时间帧η取不同的值的对角矩阵。此外,表示复数共轭。01¥表示包括Ψ η可取的全部值的集合(即,$„的参数空间)。若设Vn,u2 = E(SmiTSmiTw)表示Ψ n的第u个对角元素,则由于^是对角矩阵,因此概率分布函数能够在各频带独立而成为

[0103] p(Sn u~)=N(Sn,:;0,Vn,u2) (33)

[0104] 每个频带的估计单元306u基于与声源模型关联定义的观测信号的最佳化函数,从按频率观测信号估计回响去除滤波器(步骤S4)。具体说明回响去除滤波器的估计的细节。

[0105] 如上述式(25)所示,回响去除滤波器Cu通过由与全部的麦克风有关的观测信号的预测系数Cuw构成的矢量来表示。预测系数Cuw是频域预测系数。Vu2表示模型协方差矩阵的第U对角元素的时间序列,并设Vu2= 此外,设eu= {CU、VU2}表示估计参数的集合。而且,将全部频带的估计参数全体的集合表示为Θ = { Θ (I,θ I»…,θ U-J °此外,如下那样,作为每个频带的最佳化函数定义对数似然函数Lu( Θ u),作为全频带的最佳化函数定义对数似然函数L ( Θ )。

Figure CN102084667BD00111

[0110] 通过估计使式(35)的左边最大化的参数,从而能够求出回响去除滤波器的预测系数Cuw。式(35)的最大化能够通过以下的最佳算法来实现。

[0111] 1.关于全部频带U,将初始值例如以下的式(37)那样定义。

[0112]

Figure CN102084667BD00112

[0113] 2.重复以下的2个式直到收敛。

[0114] 2-1.关于全部频带U,固定Cn, UW,从而更新模型协方差矩阵Ψη,使得最佳化函数L( Θ )最大化。

[0115]

Figure CN102084667BD00113

[0116] 2-2.固定Ψη,从而关于全部频带U,更新回响去除滤波器Cu,使得最佳化函数Lu( Θ u)最大化。

[0117]

Figure CN102084667BD00114

[0118] 其中,在上述算法的表示中,将参数A的值更新为B的操作表示为“A —B”。此外,“ + ”表示摩尔-彭罗斯(Moore-Penrose)的虚拟反转逆矩阵。另外,在上述算法中需要计算的有关观测信号的协方差矩阵H’ (¥n,u2)成为如以下的式(40)那样。

[0119]

Figure CN102084667BD00115

[0120] 基于该最佳化算法,根据最终得到的Cu构成回响去除滤波器。去除单元308u基于式(29)或式(30),将该回响去除滤波器Cu或Wu卷积在按频率观测信号Xn, uw,从而从Xn,u(q)去除回响信号,求出按频率目标信号Sn,:(步骤S12)。

[0121] 此外,合并单元310合并每个频带的按频率信号Sn,:,并变换为时域,从而输出目标信号S广(步骤S14)。具体地说,能够使用用于将短时间傅立叶变换的帧的时间序列变换为时域信号的一般方法。即,对各帧Π,对S1T= [Sn;, Sn,λ…,Sn,^]适用短时间傅立叶反变换,得到各帧的时间信号,并对各帧的信号进行重叠加法运算(overlap-added),从而得到目标信号S广。帧τ的短时间傅立叶反变换通过式(40a)来表示。重叠加法运算通过对应用短时间傅立叶反变换而得到的各帧的时间信号应用任意的时间窗,并以在分割单元利用的相同的帧偏移宽度M对信号进行加法运算而实现。具体的计算式通过式(40b)来表示。其中,Wt1表示长度为N的时间窗,floor (a)表示a以下的最大的整数。

Figure CN102084667BD00121

[0124] 说明该实施例1的回响去除装置300的效果。根据该回响去除装置300的观测信号xtW(q=l,…,Q),将回响去除处理作为各频带的运算而能够近似计算。每M采样时间偏移并应用长度N的短时间分析窗,从而进行对频域信号的变换,从而能够缩短各频带的回响去除滤波器的长度。此外,能够缩小回响去除滤波器的估计所需的协方差矩阵的尺寸。若说明该理由,一般,回响去除滤波器的尺寸与用于求出该回响去除滤波器的协方差矩阵的尺寸相等。此外,由于每M采样,一边时间偏移一边(适用长度N的短时间分析窗)切取N采样量,从而进行频域变换处理,因此与现有技术I比较,卷积的回响去除滤波器的尺寸也变小。从而协方差矩阵的尺寸也变小。这从式(I)、式(40)也能够明白,即,若比较式(I)所示的协方差矩阵H(r)的尺寸和式(40)所示的协方差矩阵H’ (¥n,u2)的尺寸,则现有技术I的协方差矩阵H(r)的尺寸依赖于预测滤波器长度(室内脉冲响应长度)K。但是,在本实施例1中使用的协方差矩阵H’(Ψη,U2)依赖于Κκ( 即,〈Κ/Μ〉)。这是因为,如式(35)所示,构成协方差矩阵H’ (¥n,u2)的Bn_D,uw的元素的数量(抽头数)是Kk-D个。从而,与现有技术I相比,能够理解在本实施例1中使用的协方差矩阵的尺寸能够变小。在回响去除滤波器的估计中,除了需要协方差矩阵的计算,还需要其逆矩阵的计算。有关上述计算的计算成本占据回响去除处理整体的计算成本的大部分。而且,该两者的计算成本能够通过缩小协方差矩阵的尺寸而缩小。如上所述,在本实施例中,能够大幅削减回响去除处理整体的计算成本。

[0125] 实施例2

[0126] 在实施例1中,在各频带,通过对观测信号卷积回响去除滤波器,从而实现回响去除。一方面已知,估计回响信号并求出观测信号的能量和回响信号的能量之差即差信号方法比实施例1的回响去除方法能够实现不容易受到回响去除滤波器的估计误差的影响的回响去除。例如,记载在“k.Kinoshita, T.Nakatani, and M.Miyoshi, “Spectralsubtraction steered by mult1-step forward linear prediction for single channelspeech dereverberation, ” Proc.1CASSP-2206,vol.1,pp.817-820,May, 2006.”。在本实施例2中应用该想法。

[0127] 说明实施例2的回响去除装置400。图5表示回响去除装置400的功能结构例,图6表示主要处理的流程。回响去除装置400与回响去除装置300相比,不同之处在于去除单元308u被去除单元407u代替。去除单元407u由每个频带的回响信号生成部件408u、每个频带的按回响信号频率的功率生成部件410u、每个频带的按观测信号频率的功率生成部件412u、每个频带的减法运算部件414u构成。

[0128] 若通过分割单元302,观测信号被分割为每个频带(步骤S22),通过估计单元306u,估计每个频带的回响去除滤波器(步骤S4),则回响信号生成部件408u利用回响去除滤波器和按频率观测信号Xn,UW,生成按频率回响信号Rn,u。(步骤S22)。具体地说,例如通过以下的式(41)求出按频率回响信号Rn,u。

Figure CN102084667BD00131

[0130] 按回响信号频率的功率生成部件410u求出按频率回响信号Rn,u的按频率功率I Rn,u|2 (步骤S24)。另一方面,按观测信号频率的功率生成部件412u例如求出通过第I信道的麦克风接收的按频率观测信号的按频率功率IX⑴n,u 12 (步骤S26)。然后,减法运算部件414u通过计算按频率回响信号的按频率功率和按频率观测信号的按频率功率之差,从而求出差信号I X(1)n,u 12-1 Rn,u 12,并基于用于计算该差信号的按频率观测信号Xa)n,u和该差信号,求出按频率目标信号(步骤S28)。例如基于以下的式来求出按频率目标信号Sn,

[0131]

Figure CN102084667BD00132

[0133] 其中,设max {Α,B}是选择A、B中的大的函数,Gtl是Gtl > 0,且决定用于通过功率减法运算来抑制信号的能量的下限的地面系数(flooring coefficient)。此外,合并单元416将该按频率目标信号变换为时域,从而求出目标信号s广(步骤S30)。

[0134] 该回响去除装置400即使通过实施例1的回响去除装置300而在回响去除滤波器中包含估计误差也能够进行音质的劣化少的回响去除。

[0135] 此外,现有技术的回响去除处理只能在时域工作。但是,在实施例1、2中说明的回响去除装置300、400能够在频域工作,因此能够与盲声源分离(blind source separation)和维纳滤波器(Wiener filter)等在频域工作的其他多个有用的声音增强技术进行组合。

[0136] 实施例3

[0137] 图7表示实施例3的回响去除装置500的功能结构例。若说明与实施例1的回响去除装置300的主要不同点则如下:(I)相对于回响去除装置300的分割单元302通过一边时间偏移时域的观测信号一般变换为频域从而分割给频带,回响去除装置500的分割单元502通过子带分割而分割给频带;(2)回响去除装置300的去除单元、合并单元的处理在频域进行,相对于此,本实施例的回响去除装置500的去除单元、合并单元的处理在时域进行。

[0138] 将子带分割的信号设为子带信号,将子带的数量设为V,将子带的指示符设为ν(ν = 0、…、V-1)。估计单元506v对各子带信号估计回响去除滤波器,去除单元508v对各子带信号去除回响。通过合并单元510进行合并从而求出目标信号St'分割单元502的子带分割处理、合并单元510的合并处理记载在“M.R.Portnoff, “Implementationof the digital phase vocoder using the fast Fourier transform,” IEEE Trans.ASSP,vol.24,N0.3,pp.243-248,1976.(以下称为“非专利文献 A”。) ” 和 “ J.P.Reilly,M.Wilbur, M.Seibert,and N.Ahmadvand, “The complex subband decomposition and itsapplication to the decimation of large adaptive filtering problems,,’IEEE Trans.Signal Processing, vol.50, n0.11, pp.2730-2743, Nov.2002” 等。以下的说明中,利用非专利文献A的技术进行说明。在该非专利文献A中,记载了后述的式(50)。此外,主要的处理的流程与图4相同,因此省略。

[0139] 首先,说明音频信号与观测信号的关系。分割单元502对观测信号进行子带分割,分割给V个频带的每一个(子带)。若该分割根据非专利文献A的定义通过式来表示则成为以下的式(50)那样。

[0140]

Figure CN102084667BD00141

[0141] 其中,在各子带中,将应用观测信号的频率偏移和低通滤波器而得到的信号的采样指示符设为t (与被子带处理的之前的观测信号的离散时刻)相同,将与通过第q信道的麦克风接收的观测信号有关的第v(v = O、…、V-1)个子带的第t个采样设为Xt, νω。e^vi/v是与第v个子带对应的频率偏移运算符,h,是长度为2Nh+l的低通滤波器的系数。此外,若将式(50)应用于上述式(12’ )的两边则得到以下的式。

Figure CN102084667BD00142

[0143] 其中式(51)的右边的St, 7是对包含初始反射音的音频信号应用分割处理而得到的信号。在本实施例中将st,7作为应求出的目标信号来处理。此外,分割单元502进行子带分割并对各子带信号进行下采样。例如将对通过第I信道的麦克风接收的观测信号xt,v(l)和音频信号st,7的各时间序列以Y个采样间隔进行了下采样(采样的间隔剔除(thinning out))的信号的采样的指示符表示为b,将下采样后得到的子带信号表示为xb,;(q)或sb,。将与下采样的信号的采样指示符b对应的、下采样之前的信号的采样指示符设为tb。则,能够表示为以下的式(52)那样。

Figure CN102084667BD00143

[0145] 另一方面,由于h,是低通滤波器因此在以该低通滤波器的截止频率的2倍以上的采样频率进行下采样的情况下,能够通过上采样高精度地恢复到下采样之前的信号。该上采样例如以以下的步骤进行。

[0146] 步骤1.在下采样后的信号的各采样之间,插入Y-1个“O”。

[0147] 步骤2.应用低通滤波器。

[0148] 在步骤2.中一般使用有限长度脉冲响应滤波器。这表示通过上采样恢复的信号能够通过下采样后的信号的线性组合来表示。

[0149] 若使用该关系则式(52)的右边的记载χΛ_τ,νω能够如以下的式(53)那样表示。

[0150]

Figure CN102084667BD00144

[0151] β T,k相当于与上采样中的低通滤波器的系数对应而决定的系数,1¾相当于用于上采样的低通滤波器的滤波的延迟,Vk1+!相当于用于上采样的低通滤波器的滤波器长度。若将式(53)代入式(52)进行整理,则得到以下的式(54)。

[0152]

Figure CN102084667BD00151

[0153] 其中,a k,vw表示在将式(53)代入式(52)而整理时,成为x,b_k,vW的项的系数。d’表示基于α,,νω的滤波的延迟,K’表示基于cik,νω的滤波的滤波器长度。基于式(52)、

(53)以及间隔副除间隔Y的关系,能够决定为d’ d/ y ~k0> Kj K/ y +kj0在d’ > I时,式(54)表示在对个子带信号以ak,,)作为预测系数(在估计单元506v估计的回响去除滤波器的系数)从过去的观测信号预测了当前的观测信号时,残差信号成为包括初始反射音的音频信号的关系。在以下的说明中,将式(54)作为表示各子带信号中的观测信号和音频信号的关系的式进行处理。

[0154]这里,定义式(55)-(58)。

[0155]

Figure CN102084667BD00152

[0159] 此时,式(54)能够表示为式(59)那样。

[0160]

Figure CN102084667BD00153

[0161] 在实施例3中,将αν设为对于第V个子带信号的回响去除滤波器,去除单元508v基于上述式(59)进行回响信号的去除。另外,若将Od,设为全部元素为O的d’-l维的行向量,则回响去除滤波器wv还能够表示为以下的式(60)那样。

[0162]

Figure CN102084667BD00154

[0167] 接着,说明估计单元506v的回响去除滤波器的估计方法。在该实施例的声源模型存储单元504中存储的声源模型与实施例1、2相同,通过概率分布来表示音频信号可取的倾向,基于此来定义最佳化函数。作为有效的声源模型,例如时变正规分布。在以下的说明中,作为最简单的声源模型,导入在各子带间信号独立的模型。此外,假设各子带信号是频谱平坦,且只有信号的能量随时间变化的时变白色正态过程。

[0168] 与上述式(31)、(32) —样,定义参数空间,如下变更。此时,可以如下那样定义Sb、=[1。~’,1广’,…,Ιν-’ ]τ的概率密度函数。

[0169] p(Sb~’)=N(sb~’;0,Wb’) (31,)

[0170] e Ωψ, (32,)

[0171] 其中,N(S)T’ ;0, )表示平均为0且声源模型的协方差矩阵Ψ,’ =E(S广(CM*1)的多维复数正态分布,Wb’可以每采样b取不同的值,或者取相同的值。在以下的说明中,将称为模型协方差矩阵,假设模型协方差矩阵Ψ/是每个采样取不同的值的对角矩阵。Ω ψ’表示Ψ,’可取的全部值的集合(B卩,Ψ,’的参数空间)。Vb,/2 =E(sb,v、(sb,r’)*)是$)3’的第V个对角元素。由于Wb’是对角矩阵,因此概率密度函数能够对各子带独立地成为P (sb,) = N(sb,v^> ;0,Vb/ 2)。Vv’ 2表示模型协方差矩阵的第V对角元素的时间序列,表示为Ψ v’2= {Vb,v’2}。此外,设θν= {αν,ψν’2}表示有关子带V的估计参数的集合。而且,将全部子带的全部估计参数的集合表示为Θ’ = Ptl,θ1;…,0V_J。此外,如下那样,作为每个频带的最佳化函数定义对数似然函数Lv(0v),作为全频带的最佳化函数定义对数似然函数L’( Θ ’)。

[0172]

Figure CN102084667BD00161

[0173]

Figure CN102084667BD00162

[0174] 基于式(59)和式(31,),可以将式(63)表示为式(64)那样。

[0175] L

Figure CN102084667BD00163

[0176] 通过估计使式(64)最大化的参数,能够得到回响去除滤波器的系数的估计值。式(64)的最大化可通过以下的最佳化算法来实现。

[0177] 1.关于全部的子带V,如以下式(65)那样决定初始值。

[0178] = O (65)'

[0179] 2.重复以下的2个式直到收敛。

[0180] 2-1.关于全部的子带V,固定ab,v(<1),从而更新模型协方差矩阵Ψ,’,使得最佳化函数L’( Θ ’)最大化。

[0181]

Figure CN102084667BD00164

[0182] 2-2.固定Wb’,从而关于全部子带V,更新回响去除滤波器系数αν,使得最佳化函数1^(0)最大化。

[0183]

Figure CN102084667BD00165

[0184] 基于最终得到的αν,估计单元506ν构成回响去除滤波器,去除单元50&通过上述式该回响去除滤波器基于上述式(59)或(61)去除回响信号,从而求出按频率目标信号sb,r。此外,合并单元510通过与将按频率目标信号Sb,上采样处理一同合并各子带信号,从而求出目标信号S广。

[0185] 如以上说明那样,在子带处理中,将观测信号分割为每个子带的时域信号后,以Y个间隔进行下采样,从而能够使各频带的时域信号的采样频率成为I/Y。

[0186] 在本实施例中,对各频带的时域信号分别进行回响去除处理,并将它们进行合并,从而实现全频域的回响去除。对于时域信号,若比较进行下采样的情况和不进行的情况,则进行下采样的情况能够将用于回响去除滤波器的估计的协方差矩阵的尺寸变小。这是因为协方差矩阵的尺寸由回响去除滤波器的滤波器长度决定,与房间的脉冲响应的抽头数对应地决定回响去除滤波器的滤波器长度K,且物理上,在采样频率越小则相同时间长度的脉冲响应成为越少抽头数。换言之,通过以Y个间隔进行下采样,回响去除滤波器的滤波器长度K’( = K/Y+10,从而比现有技术的回响去除滤波器的滤波器长度K小。

[0187] 若回响去除滤波器的滤波器长度变小,则如上所述,可以将在回响去除滤波器估计时使用的协方差矩阵的尺寸变小,因此能够削减回响去除滤波器的估计处理的计算成本。

[0188] 此外,在该下采样以低通滤波器的截止频率的2倍以上的采样频率进行的情况下,通过与该下采样处理一并进行的子带分割处理求得的子带信号具有通过上采样能够高精度地恢复的性质。从而,即使在合并单元510的合并处理时进行上采样,目标信号也不会变差。

[0189] 实施例4

[0190] 图8表示实施例4的回响去除装置600的功能结构例。回响去除装置600与回响去除装置500相比,不同点在于去除单元508v被去除单元607v代替。通过该代替,与回响去除装置500相比,能够进行不容易受到回响去除滤波器的估计误差的影响的回响去除。理由如在实施例2中说明那样。去除单元607一寸应于在实施例2中说明的去除单元407v。去除单元607v包括每个频带的回响信号生成部件608v、每个频带的按回响信号频率的功率生成部件610v、每个频带的按观测信号频率的功率生成部件612v、每个频带的减法运算部件 614v。

[0191] 回响信号生成部件608v利用回响去除滤波器αν和观测信号xt,νω,求出按频率回响信号rb,v。具体来说通过以下的式(70)求出。

[0192] rb,v = Fb_d’,v.a vT (70)

[0193] 此外,按回响信号频率的功率生成部件610ν求出按频率回响信号的按频率功率|rb, J20此外,按观测信号频率的功率生成部件612ν,求出通过第I信道的麦克风接收的观测信号xb,va)的按频率功率|xb,va)l2。然后,减法运算部件614V通过计算按频率回响信号的按频率功率和按频率观测信号的按频率功率之差,从而求出差信号I Xb, v(1) 12-1 rb, v 12,并基于用于该差信号的计算的按频率观测信号xb,v(1)和该差信号,求出按频率目标信号(步骤S28)。例如,通过以下的式求出按频率目标信号sb,:’。

Figure CN102084667BD00171

[0196] 其中,设max {A,B}是选择A和B中较大一方的函数,Gtl是Gtl > 0,且决定用于通过功率减法运算来抑制信号的能量的下限的地面系数(flooring coefficient)。

[0197] 此外,通过合并单元510合并每个按频率目标信号sb, v’~(V = 0,…,V-1),并作为目标信号s:来输出。

[0198] 通过回响去除装置600那样的结构,与回响去除装置500相比,不大受回响去除滤波器的估计误差的影响就能够进行回响信号的去除。[0199] 实施例5

[0200] 在实施例1~4中说明的回响去除装置300~600中,以事先得到全部的信号的成批处理为前提而构成。作为实施例5,还可以对通过麦克风接收的观测信号依次进行回响信号的去除。例如,通过估计单元估计的回响去除滤波器以预先决定的时间间隔被估计、更新。在该更新时,通过对该时刻之前得到的观测信号的全部或一部分应用上述最佳化算法,从而估计回响去除滤波器。与该估计一同,回响去除装置300的估计单元306u(参照图3)、回响去除装置400的回响信号生成部件408u(参照图5)、回响去除装置的估计单元506v (参照图7)、回响去除装置600的回响信号生成部件608v(参照图8)可以对应于对在各时刻依次得到的观测信号,将其之前得到的最新的回响去除滤波器适用于该时刻的观测信号的结构。通过该依次处理,能够进行更正确的回响信号的去除。

[0201][声源模型的具体例]

[0202] 以下,关于实施例1至实施例5的声源模型的具体例,表示集合Ωψ、Ωψ’的例来进行说明。主要说明实施例1、2、5。对于实施例3、4,由于通过对以下的说明中的各标号进行以下的替换就能够构成具体例,因此省略说明。

[0203] Ω ψ — Ω ψ,

[0204] Ψα — Ψν,

[0205] ¥n,u— ¥b,v’

[0206] Xn,,)—Xb,vW’

[0207] Sn,:— Sb,:,

[0208] Bn,u-Fb,v

[0209] D — d,

[0210] Cu — av

[0211] in— ib

[0212]式(38)—式(66)

[0213]式(39)—式(67)

[0214] 306u— 506v

[0215] (I)作为第一个具体例,设集合Ωψ是由任意的正定对角矩阵构成的集合。这表示Ψη,U2可以取任意正值。此时在上述最佳化算法中,式(38)的更新式可以置换为在全部频带中单独计算的以下的更新式(80)。另外,关于式(39)的更新式没有变更。

[0216] C Βη^/ί) PC — Α都Φ* (_

[0217] (2)说明第2个具体例。与非专利文献I中记载的技术相同,说明通过有限状态机将音频信号的波形模型化的情况。此时,集合01¥成为由有限个正定对角矩阵构成的集合。各矩阵成为与对应于观测信号的短时间信号的频域信号可取的各个有限个状态的对应的协方差矩阵。这些有限个矩阵可以基于对事先在不包括回响的环境中接收的音频信号的频域信号或其协方差矩阵进行聚类(clustering)等方法来构成。此外,将有限个矩阵的数量设为Z,将指示符设为i (i = 1,…,Z),将与状态i对应的协方差矩阵设为Ψ (i)。

[0218] 据此,在上述重复算法中应估计的参数代替协方差矩阵而成为指示符的值。以下,将时刻η的状态设为in,将与状态1„对应的协方差矩阵设为Ψ (in),协方差矩阵Ψ (in)的对角元素设为Vu2 (in)。各时刻的声源模型的状态in并不是在每个频带决定的值,是对全部频带决定一个的值。因此,基于对数似然函数决定的最佳化函数,对全部频带,可以如下的式(81)那样定义。

Figure CN102084667BD00191

[0220] 其中,设估计参数Θ = {C,I}由in的时间序列I = U1, V..}和各频带的预测系数C= {C0,C1, -,CuJ构成。基于该最佳化函数,在所述最佳化算法中,式(38)的更新式可以置换为关于全部频带的以下的更新式(82)。另外,对式(39)的更新式不进行变更。

[0221]

Figure CN102084667BD00192

[0222] 通过从式(38)至式(82)的置换,估计单元306u能够更正确地进行回响去除滤波器的估计。

[0223] (3)说明第3个具体例。通过将在(2)中说明的状态1„假设为概率变量,从而能够构成基于更精密的声源模型的最佳化函数。作为一例,说明状态in通过一次马尔科夫过程就能够模型化的情况。通过马尔科夫过程的假设,能够成为P (I) =P(I)IInP(InIv1)0声源模型的参数是对于任意的状态1、j的P α)、P (i I j)以及各状态的协方差矩阵ψ (Ϊ),这些参数和在不包括回响的环境接收的音频信号一并可以事先准备。此时用于去除回响信号的最佳化函数成为以下的式那样。

[0224]

Figure CN102084667BD00193

[0225] 式(83)的最佳化函数中的估计参数Θ与通过有限状态机定义的估计参数相同。式(83)的最佳化函数在上述最佳化算法中,通过以下的更新式仅置换式(38)的状态的更新式,能够各易最大化。

[0226]

Figure CN102084667BD00194

[0227] 另外,上述式(84)的最大化通过利用公知技术的动态规划(dynamicprograming),能够有效计算。

[0228] 在实施例1~5的说明中,假设了在导出观测信号、音频信号的关系的上述式(12’ )中在不同的麦克风之间室内传递函数不具有共通零点,此外假设麦克风的数量需要是2个以上。但是,在本发明中构成的基于实施例1至5的回响去除方法中实验确认了即使在这些假设不成立的情况下也能够实现良好的回响去除。

[0229] 说明利用一个麦克风基于实施例4证实了回响去除装置的效果的实验结果。成为对象的声音是由一名女性发出的5个单词的发音序列构成的声音信号。观测信号通过卷积在有回响的房间测定的I个信道室内脉冲响应而合成。回响时间(RT60)为0.5秒。图10表示观测信号(图10A)和适用本实施例而得到的信号(图10B)的频谱。在图中只显示最初的2个单词。通过图10,能够确认有效地抑制了回响。[0230] 从而,本发明还能够应用于麦克风的数量为Q = I的情况或在麦克风之间室内传递函数具有共通零点的情况。此外,在上述现有技术I的情况下,假设离声源最近的麦克风作为第I信道的麦克风而已知,但实验确认在本发明的技术的情况下,不需要离声源最近的麦克风是已知的假设。

[0231] 此外,在以上叙述中,实施例1~5的分割单元的处理利用了短时间傅立叶变换、子带分割。作为对其他频域分割的方法,只要减少观测信号的采样数,也可以使用小波变换(wavelet transform)或离散余弦变换等。此外,即使这些变换是频带之间的信号并不无关的变换,也能够近似忽略相关,从而能够得到同样的效果。

[0232] 此外,为了回响去除滤波器Cu、^7的最佳化,还可以使用在自适应滤波器中常常使用的依次估计算法而代替计算上述式(39) (Cu的估计时)、上述式(67) ( α ν的估计时)。作为这样的最佳化方法,已知现有技术的LMS(Least Mean Square)法、RLS(RecursiveLeast Squares)法、最速下降法(steepest descent method)、共辄梯度法(conjugategradient method)等。由此,能够大幅减少一次重复所需的计算量。从而,以少量计算成本在实时内能够至少进行一次以上的重复估计。因此,即使使用比较廉价的DSP(DigitalSignal Processor)也能够实现实时处理。仅通过一次重复不一定得到精度高的回响去除滤波器,但随着时间经过能够逐渐改善估计精度。

[0233] <硬件结构>

[0234] 在本实施例中说明的通过程序起作用的回响去除装置具有CPU (CentralProcessing Unit)、输入单元、输出单元、辅助存储装置、RAM(随机存取存储器)、R0M(只读存储器)以及总线(都未图示)。

[0235] CPU按照读取的各种程序执行各种运算处理。辅助存储装置例如是硬盘、MO (Magneto-Optical disc)、半导体存储器等,RAM 是 SRAM (Static Random AccessMemory)、DRAM (Dynamic R·andom Access Memory)等。此外,总线可通信地连接 CPU、输入单元、输出单元、辅助存储装置、RAM以及ROM。

[0236] <硬件和软件的协作>

[0237] 本实施例的回响去除装置在上述那样的硬件中读取规定的程序,CPU通过执行程序来构筑。以下,说明这样构筑的各装置的功能结构。

[0238] 回响去除装置的输入单元、输出单元是基于读取规定程序的CPU的控制而驱动的LAN卡、调制解调器等通信装置。分割单元、估计单元、处理单元是通过规定的程序被CPU读取并执行而构筑的运算单元。声源模型存储单元起到上述辅助存储装置的功能。

[0239][实验结果]

[0240] 说明证实了本实施例的回响去除装置的效果的实验结果。在该实验中,比较在实施例I中说明的回响去除装置300和在现有技术中说明的回响去除装置100。成为对象的声音是由5个单词的发音序列构成的声音信号,由男性和女性各一名发出的共计2种发音序列构成。观测信号是通过卷积在有回响的房间测定的2个信道室内脉冲响应而合成,回响时间(RT60)为0.5秒。回响去除对各发音序列进行,其性能利用回响去除后的信号的对数倒频谱失真(cepstrum distortion,以下简记为“⑶”)和回响去除处理的实时性(realtime factor,以下简记为“RTF”)而评价回响去除性能。⑶如下定义。[0242] 其中,ck~和ck是各自评价的声音信号和纯声音信号的对数倒频谱系数,设D =12。通过该评价尺度,能够关于能量时间模式和频谱包络两者,评价信号中包含的失真。RTF设为(回响去除处理所需时间)/(观测信号的时间)。用于实验的回响去除法都在Linux计算机上通过MATLAB程序涉及语言来实现。采样化频率设为8kHz,短时间分析窗长度N设为 256。

[0243] 图9表示以图表表示的实验结果,纵轴表示CD,横轴(对数显示)表示RTF。关于回响去除装置300 (实施例1),通过虚线来表示,表示帧偏移M的值为256、128、64、32、16、8的情况下的RTF、⑶的关系。关于回响去除装置100 (现有技术I),附加X标志。观测信号通过虚线来表示,⑶的值约为4.1。

[0244] 从图9可知,回响去除装置100中,相对于RTF90,⑶约为2.4。相对于此,在回响去除装置300中例如M = 64的情况下,即使⑶为大致与现有技术相等的约2.4,RTF约为

2.5。通过该结果,应该能够理解回响去除装置300比回响去除装置100理想。此外,还可以理解在回响去除装置300中,随着RTF增加,⑶减少。

[0245] 发明效果

[0246] 根据本发明,观测信号被变换为与多个频带的各自对应的按频率观测信号,利用各按频率观测信号来估计与各频带对应的回响去除滤波器。与各频带对应的回响去除滤波器的阶数(order)比直接利用了观测信号的情况下的回响去除滤波器的维数少。相应于此,协方差矩阵的尺寸变小,因此能够减少估计回响去除滤波器的计算成本。此外,由于利用各按频率观测信号来估计回响去除滤波器,因此无需预先知道室内传递函数。

Claims (6)

1.一种回响去除装置,对接收从声源发出的音频信号而得到的观测信号应用回响去除滤波器,从而从该观测信号去除回响信号,所述回响去除装置包括: 声源模型存储单元,存储通过基于平均为O且在频带间不具有相关的时变复数正态分布模型来表不音频信号的声源模型; 分割单元,将上述观测信号变换为与多个频带的各自对应的按频率观测信号; 估计单元,基于各频带中的用于表示音频信号和观测信号以及回响去除滤波器的关系的回响模型和上述声源模型,利用各上述按频率观测信号,求出与各上述频带对应的回响去除滤波器; 去除单元,对各上述按频率观测信号应用通过上述估计单元得到的上述回响去除滤波器,从而求出与各上述频带对应的按频率目标信号;以及 合并单元,合并各上述按频率目标信号。
2.如权利要求1所述的回响去除装置,其中, 上述回响模型是将当前的观测信号作为将具有规定的延迟的过去的观测信号应用回响去除滤波器而得到的信号和音频信号加法运算而得到的信号来表示的自回归模型。
3.如权利要求1或2所述的回响去除装置,其中, 上述估计单元估计上述按频率目标信号的方差,并利用通过该被估计的按频率目标信号的方差而被标准化的各上述按频率观测信号的协方差矩阵而估计上述回响去除滤波器。
4.一种回响去除方法,对接收从声源发出的音频信号而得到的观测信号应用回响去除滤波器,从而从该观测信号去除回响信号, 在声源模型存储单元中存储通过基于平均为O且在频带间不具有相关的时变复数正态分布模型来表示音频信号的声源模型, 所述回响去除方法包括: 分割步骤,将上述观测信号变换为与多个频带的各自对应的按频率观测信号; 估计步骤,基于在各频带中的用于表示音频信号和观测信号以及回响去除滤波器的关系的回响模型和上述声源模型,利用各上述按频率观测信号,求出与各上述频带对应的回响去除滤波器; 去除步骤,对各上述按频率观测信号应用通过上述估计步骤得到的上述回响去除滤波器,求出与各上述频带对应的按频率目标信号;以及 合并步骤,合并各上述按频率目标信号。
5.如权利要求4所述的回响去除方法,其中, 上述回响模型是将当前的观测信号作为对具有规定的延迟的过去的观测信号应用回响去除滤波器而得到的信号加法运算音频信号而得到的信号来表示的自回归模型。
6.如权利要求4或5所述的回响去除方法,其中, 上述估计步骤估计上述按频率目标信号的方差,并利用通过该被估计的按频率目标信号的方差而被标准化的各上述按频率观测信号的协方差矩阵而估计上述回响去除滤波器。
CN200980106824.4A 2008-03-03 2009-02-27 回响去除装置、回响去除方法、回响去除程序、以及记录介质 CN102084667B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP052175/08 2008-03-03
JP2008052175 2008-03-03
PCT/JP2009/054231 WO2009110578A1 (ja) 2008-03-03 2009-02-27 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体

Publications (2)

Publication Number Publication Date
CN102084667A CN102084667A (zh) 2011-06-01
CN102084667B true CN102084667B (zh) 2014-01-29

Family

ID=41056130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980106824.4A CN102084667B (zh) 2008-03-03 2009-02-27 回响去除装置、回响去除方法、回响去除程序、以及记录介质

Country Status (4)

Country Link
US (1) US8467538B2 (zh)
JP (1) JP5227393B2 (zh)
CN (1) CN102084667B (zh)
WO (1) WO2009110578A1 (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007130026A1 (en) * 2006-05-01 2007-11-15 Nippon Telegraph And Telephone Corporation Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics
US8582781B2 (en) * 2009-01-20 2013-11-12 Koplar Interactive Systems International, L.L.C. Echo modulation methods and systems
US9037458B2 (en) 2011-02-23 2015-05-19 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation
JP5699844B2 (ja) * 2011-07-28 2015-04-15 富士通株式会社 残響抑制装置および残響抑制方法並びに残響抑制プログラム
JP5915281B2 (ja) 2012-03-14 2016-05-11 ヤマハ株式会社 音響処理装置
CN102592606B (zh) * 2012-03-23 2013-07-31 福建师范大学福清分校 一种补偿小空间听音声环境的均衡信号处理方法
US8886526B2 (en) * 2012-05-04 2014-11-11 Sony Computer Entertainment Inc. Source separation using independent component analysis with mixed multi-variate probability density function
JP6036141B2 (ja) * 2012-10-11 2016-11-30 ヤマハ株式会社 音響処理装置
CN103033815B (zh) * 2012-12-19 2014-11-05 中国科学院声学研究所 基于混响协方差矩阵的距离扩展目标的检测方法和装置
EP2962299B1 (en) 2013-02-28 2018-10-31 Nokia Technologies OY Audio signal analysis
US9729967B2 (en) * 2013-03-08 2017-08-08 Board Of Trustees Of Northern Illinois University Feedback canceling system and method
EP2984650B1 (en) * 2013-04-10 2017-05-03 Dolby Laboratories Licensing Corporation Audio data dereverberation
US9997170B2 (en) 2014-10-07 2018-06-12 Samsung Electronics Co., Ltd. Electronic device and reverberation removal method therefor
US9390723B1 (en) * 2014-12-11 2016-07-12 Amazon Technologies, Inc. Efficient dereverberation in networked audio systems
DE102015201073A1 (de) * 2015-01-22 2016-07-28 Sivantos Pte. Ltd. Verfahren und Vorrichtung zur Rauschunterdrückung basierend auf Inter-Subband-Korrelation
EP3320311B1 (en) * 2015-07-06 2019-10-09 Dolby Laboratories Licensing Corporation Estimation of reverberant energy component from active audio source
US10446171B2 (en) 2016-12-23 2019-10-15 Synaptics Incorporated Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments
WO2018119467A1 (en) * 2016-12-23 2018-06-28 Synaptics Incorporated Multiple input multiple output (mimo) audio signal processing for speech de-reverberation
DE102017200597B4 (de) * 2017-01-16 2020-03-26 Sivantos Pte. Ltd. Verfahren zum Betrieb eines Hörsystems und Hörsystem
JP6677662B2 (ja) 2017-02-14 2020-04-08 株式会社東芝 音響処理装置、音響処理方法およびプログラム
CN108533246A (zh) * 2017-03-02 2018-09-14 通用电气公司 超声探测装置和方法
CN106919108B (zh) * 2017-03-23 2019-02-01 南京富岛信息工程有限公司 一种红外热轴音频通道信号测量方法
US10762914B2 (en) 2018-03-01 2020-09-01 Google Llc Adaptive multichannel dereverberation for automatic speech recognition
JP2020076874A (ja) * 2018-11-08 2020-05-21 日本電信電話株式会社 最適化装置、最適化方法、およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774562A (en) * 1996-03-25 1998-06-30 Nippon Telegraph And Telephone Corp. Method and apparatus for dereverberation

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3649847B2 (ja) * 1996-03-25 2005-05-18 日本電信電話株式会社 Reverberation removal method and apparatus
US7035790B2 (en) * 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
JP4098647B2 (ja) 2003-03-06 2008-06-11 日本電信電話株式会社 音響信号の残響除去方法、装置、及び音響信号の残響除去プログラム、そのプログラムを記録した記録媒体
JP4486527B2 (ja) * 2005-03-07 2010-06-23 日本電信電話株式会社 音響信号分析装置およびその方法、プログラム、記録媒体
WO2007130026A1 (en) * 2006-05-01 2007-11-15 Nippon Telegraph And Telephone Corporation Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774562A (en) * 1996-03-25 1998-06-30 Nippon Telegraph And Telephone Corp. Method and apparatus for dereverberation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JP特开2004-274234A 2004.09.30
JP特开2006-243676A 2006.09.14

Also Published As

Publication number Publication date
US20110002473A1 (en) 2011-01-06
JP5227393B2 (ja) 2013-07-03
US8467538B2 (en) 2013-06-18
WO2009110578A1 (ja) 2009-09-11
CN102084667A (zh) 2011-06-01
JPWO2009110578A1 (ja) 2011-07-14

Similar Documents

Publication Publication Date Title
Ishii et al. Reverberant speech recognition based on denoising autoencoder.
Acero Acoustical and environmental robustness in automatic speech recognition
Blandin et al. Multi-source TDOA estimation in reverberant audio using angular spectra and clustering
Li et al. An overview of noise-robust automatic speech recognition
Gannot et al. Subspace methods for multimicrophone speech dereverberation
JP4783377B2 (ja) Partial complex modulation filter bank
US6405229B1 (en) Digital filters
RU2507678C2 (ru) Эффективная фильтрация банком комплексно-модулированных фильтров
Luo et al. Dual-path rnn: efficient long sequence modeling for time-domain single-channel speech separation
EP1918910B1 (en) Model-based enhancement of speech signals
CN101091209B (zh) 抑制噪声的方法及装置
US7158933B2 (en) Multi-channel speech enhancement system and method based on psychoacoustic masking effects
CN101183527B (zh) 用于对高频信号进行编码和解码的方法和设备
EP2530840B1 (en) Efficient sub-band adaptive FIR-filtering
CN103000174B (zh) 语音识别系统中基于快速噪声估计的特征补偿方法
US5924065A (en) Environmently compensated speech processing
JP4394832B2 (ja) 多重非相関化法を用いた未知の混在ソースの分離
Delcroix et al. Precise dereverberation using multichannel linear prediction
EP0970462B1 (en) Recognition system
Nakatani et al. Harmonicity-based blind dereverberation for single-channel speech signals
US8271277B2 (en) Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium
Venkataramani et al. End-to-end source separation with adaptive front-ends
EP0831461A2 (en) Scheme for model adaptation in pattern recognition based on taylor expansion
JP4316583B2 (ja) Feature amount correction apparatus, feature amount correction method, and feature amount correction program
CN100543842C (zh) 基于多统计模型和最小均方误差实现背景噪声抑制的方法

Legal Events

Date Code Title Description
PB01 Publication
C06 Publication
SE01 Entry into force of request for substantive examination
C10 Entry into substantive examination
GR01 Patent grant
C14 Grant of patent or utility model