CN101030383A

CN101030383A - 声源分离装置、方法和程序

Info

Publication number: CN101030383A
Application number: CNA2007100024006A
Authority: CN
Inventors: 户上真人; 天野明雄; 住吉贵志
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2006-03-02
Filing date: 2007-01-15
Publication date: 2007-09-05
Also published as: US20070223731A1; JP2007235646A

Abstract

传统的独立分量分析存在声源数量超过麦克风数量时性能变差的问题。传统的l1范最小化方法假设除声源以外不存在噪声，在存在语音以外的噪声比如回声和混响的环境中存在性能变差的问题。除了采用l1范最小化方法分离声音的时候用作费用函数的l1范以外，本发明还将噪声分量的功率当作费用函数。在这种l1范最小化方法中，在语音与时间方向无关的假设下定义费用函数。但是，在本发明中，在语音与时间方向有关的假设下定义费用函数，并且因为其结构，很容易选择与时间方向有关的解。

Description

声源分离装置、方法和程序

优先权要求

本申请要求2006年3月2日递交的第JP 2006-055696号日本申请的优先权，在这里将其内容引入作为参考。

技术领域

本发明涉及一种声源分离装置，当多个声源位于不同位置时，该装置用两个或更多的麦克风对声源的声音进行分离，还涉及这种声源分离方法，以及让计算机执行该方法的程序。

背景技术

众所周知，基于独立分量分析的声源分析方法是用于分离多个声源中每一个声源的声音的一种技术(例如，见A.Hyvaerinen，J.Karhunen和E.Oja的“Independent component analysis”，John Wiley &Sons，2001)。独立分量分析是这样一种声源分离技术，它充分利用在声源之间声源的源信号是独立的这一事实。在独立分量分析中，根据声源数量使用维数等于麦克风数量的线性滤波器。当声源的数量小于麦克风的数量时，能够完全恢复源信号。当声源数量小于麦克风数量时，基于独立分量分析的声源分离技术是一种有效的技术。

在声源分离技术中，当声源数量超过麦克风数量时，可以使用l1范最小化方法，该方法利用了语音功率谱的概率分布接近拉普拉斯分布而不是高斯分布这一事实。(例如，见P.Bofill和M.Zibulevsky的“Blind separation of more sources than mixtures using sparsity of theirshort-time Fourier transform”，Proc.ICA2000，第87～92页，2000/06)。

发明内容

独立分量分析存在的问题是当声源数量超过麦克风数量时性能会变差。因为独立分量分析中使用的滤波器系数的维数等于麦克风的数量，因此，对滤波器的约束的数量必须小于或等于麦克风的数量。当声源数量小于麦克风的数量时，即使只强调某一个声源而抑制所有其它声源，由于约束的数量最多为麦克风的数量，所以能够产生满足约束条件的滤波器。但是，当声源的数量超过麦克风的数量时，由于限制的数量超过麦克风的数量，就不能够产生满足约束条件的滤波器，利用产生的滤波器不能获得充分分离的信号。l1范最小化方法的问题是，由于它假设不存在声源以外的噪声，因此在存在语音以外的噪声比如回声和混响的环境下性能就会变差。

本发明用于声源分离的装置或执行它的程序可以包括：A/D转换单元，用于将模拟信号转换为数字信号，该模拟信号来自至少包括两个或更多个麦克风的麦克风阵列；频带分割单元，用于对所述数字信号进行频带分割；误差最小解计算单元，对于每个频带，该误差最小解计算单元从具有零值的声源数量超过麦克风元件的数量的矢量中，为同样的多个元件中具有零值的多个矢量的每一个，输出这样一个解，该解在事先根据所述矢量和导引矢量计算出来的估计信号与输入信号之间的误差最小；最优模型计算部件，对于每个频带，从具有零值的一组声源中的误差最小解之中，选择这样一个解，该解使得lp范数与所述误差的加权和最小；以及信号合成单元，用于将所选解转换成时域信号。

根据本发明，即使在声源数量超过麦克风数量，并且出现一些具有高S/N的背景噪声、回声和混响的环境里，也能够分离出每个声源的声音。结果是，能够在免提转换(hands-free conversation)等等中用容易听到的声音进行交谈。

附图说明

图1说明本发明的硬件配置；

图2是本发明的软件框图；以及

图3是本发明的处理流程图。

具体实施方式

第一实施例

图1说明这个实施例的硬件配置。这个实施例中包括的全部计算是在中央处理单元1里执行的。存储装置2是由例如RAM构成的工作存储器，在计算期间使用的所有变量可以放在一个或多个存储装置2中。在计算期间使用的数据和程序保存在由例如ROM构成的存储装置3中。麦克风阵列4包括至少两个或更多的麦克风元件。各个麦克风元件测量模拟声压值。假设麦克风元件的数量是M。

A/D转换器将模拟信号转换为数字信号(采样)，并且能够同步地对M个或更多通道的信号采样。将麦克风阵列4中获取的每个麦克风元件的模拟声压值发送到A/D转换器5。预先设置好要分离的声音数量，并保存在存储装置2或3中。把要分离的声音数量表示为N。当N更大时，由于处理量变大，因此设置适合中央处理单元1处理能力的值。

图2示出了这个实施例的软件框图。在本发明中，除了分离声音的时候由l1范最小化方法作为费用函数使用的l1范外，分离出来的声音中包含的噪声分量的功率也作为费用值加以考虑。图2中的最优模型选择部件205输出噪声信号功率与l1范数的加权和最小的解。在l1范最小化方法中，费用函数是在语音与时间方向无关的假设之下定义的。但是，在本发明中，费用函数却是在声音与时间方向有关，并且倾向于选择具有与时间方向结构有关的解这种假设之下定义的。

对应的单元是在中央处理单元1中执行的。A/D转换单元201为每个通道将模拟声压值转换为数字数据。A/D转换器5中转换成数字数据是按预先设置的采样率时序进行的。例如，当采样率是11025Hz时，转换成数字数据是按每秒11025次等间隔进行的。转换出来的数字数据为x(t，j)，其中t是数字化时间。当A/D转换器5在t＝0时刻开始A/D转换时，每进行一次采样，t加1。j是麦克风元件的编号。例如，将第0个麦克风元件的第100个采样数据表示为x(100，0)。为每次采样将x(t，j)的内容写入RAM 2的指定区域。作为一种可选择的方法，将采样数据暂时保存在A/D转换器5中的缓冲器里，每次将一定量的数据堆入缓冲器，可以将这些数据传送到RAM 2的指定区域。把RAM 2中要写入x(t，j)的内容的区域定义为x(t，j)。

频带分割单元(band splitting unit)202对t＝τ×frame_shift到t＝τ×frame_shift+frame_size的数据进行傅里叶变换或者小波分析，变换为频带分割信号。针对从j＝1到j＝M的每个麦克风元件转换成频带分割信号。用下面的表达式(1)描述转换后的频带分割信号，作为具有对应麦克风元件的信号的矢量。

X(f，τ) (1)

f是表示频带分割号的下标。

人声和音乐这种声音很少具有大幅度值，它们是有很多零值的稀疏信号。因此，语音信号能够用零值概率高的拉普拉斯分布，而不是高斯分布来近似。将语音信号近似为拉普拉斯分布时，可以将对数似然看作在正负之间对l1范数的符号进行反转。可以将混杂有回声、混响和背景噪声的噪声信号近似为高斯分布。因此，可以将输入信号中包含的噪声信号的对数似然看作输入信号和语音信号之间平方误差符号的反转。从MAP估计的角度看要寻找最可能的解(最大似然解)，因为将噪声信号的对数似然与语音信号的对数似然之和取最大的解作为最大似然解，因此可以将输入信号与l1范数平方误差的加权和最小的信号当做最大似然解。但是，由于很难找到这样的解，所以有必要通过一些近似寻找解。例如，在l1范最小化方法中，输入的信号没有误差，找出l1范数的加权和最小的信号作为解。但是，在存在回声、混响和背景噪声的环境里，由于不能假设输入信号没有误差，因此这样的近似成为粗略近似，导致分离能力下降。

因此，在本发明中，在输入信号中存在误差的假设下，输入信号与l1范数的平方误差的加权和最小是近似的。如前所述，人声和音乐这种声音是很少有大幅度值的稀疏信号。简而言之，将它们看作经常具有近似零幅度(“零值”)的信号。因此，对于每个时刻和频率，假设只有比麦克风数量少的声源具有非零的幅度值。l1范数随着具有零值的元件数量增加而变小，随着具有零值的元件数量减少而变大。因此，可以将它看作稀疏度度量(见Noboru Murata的“IntroductoryIndependent Component Analysis”，Tokyo Electricians’UniversityPublications Service，第215～216页，2004/07)。

因此，当具有零值的声源的数量等于麦克风数量时，将l1范数近似为固定值。如果声源数量为N(具有零值的N维复矢量)时应用这个近似，可以给出相对于输入信号具有最小误差的解。

误差最小解计算单元203根据表达式(2)进行计算。

{\hat{S}}_{L} (f, τ) = \underset{s (f, τ) &Element; L - dimensionalsparseset}{\arg \min} {| X (f, τ) - A (f) S (f, τ) |}^{2} . . . (2)

为L维稀疏集(L-dimensional sparse set)的每一个计算出误差最小解。L维稀疏集是具有L个零值元素的一个N维复矢量。计算出的具有最小误差的解是L维稀疏集之中每个声源信号的最大似然解。具有最小误差的解是一个N维复矢量。对应元素是对应声源的源信号的估计值。A(f)是M×N复矩阵，在它的列中具有从对应声源位置到麦克风元件的声音传播(导引矢量)。例如，A(f)的第一列是从第一个声源到麦克风阵列的导引矢量。A(f)由图2的方向搜索部件209计算并输出。图2中的误差最小解计算单元203为L从1到M的每个L计算误差最小解。当L＝M时，计算出多个误差最小解，在这种情况下全部多个解都是作为L＝M的误差最小解输出的。在这个例子中，对于元素数量等于具有零值的声源数量的N维复矢量中的每一个，已经找到误差最小解。但是，由于没有约束到声源的数量，因此对于元素数量等于具有零值的元件的数量的N维矢量中的每一个，都可以找到一个解。但是，即使不等于具有零值的元件的数量，如果等于声源数量，那么由于可以将l1范数近似为固定值，具有零值的声源的数量，也足以找到误差最小解。

也可以应用表达式(3)而不用上述表达式(2)。

{\hat{S}}_{L, j} (f, τ) = \underset{s (f, τ) &Element; Ω_{L, j}}{\arg \min} {| X (f, τ) - A (f) S (f, τ) |}^{2}

error_L，j(f，τ)＝‖X(f，τ)-A(f)S(f，τ‖²

j_{\min} = \underset{j}{\arg \min} Σ_{m = - k}^{k} γ (m) {error}_{L, j} (f, τ + m)

{\hat{S}}_{L} (f, τ) = {\hat{S}}_{{L, j}_{\min}} (f, τ)

(3)

ΩL，j是L维稀疏集之中相同元素的值是零的一个N维复矢量集。语音功率在时间方向上具有正相关。因此，在给定τ具有大值的声源，即使在τ±k中也可能具有大值。这意味着可以将误差项τ方向上较小的滑动平均看作更加接近真解的解。换句话说，对于每个模型ΩL，j，通过将误差项的滑动平均作为新的误差项，能够找到更加接近真解的解。γ(m)是滑动平均的权。通过这种结构，容易选择和时间方向有关的解。使用滑动平均找到误差最小解时，对于除零值声源数量之外元件数量相等的每个N维复矢量，必须计算出误差最小解。这是因为即使声源数量是相等的，如果元件数量不同，也由于在时间方向具有正相关而不能进行近似。

图2中的lp范计算单元204根据通过每个L维稀疏集计算出来的误差最小解，利用下面的表达式计算lp范数：

l_{p, L} (f, τ) = {(Σ_{i = 1}^{N} {| {\hat{S}}_{L, i} (f, τ) |}^{p})}^{\frac{1}{p}} . . . (4)

{\hat{S}}_{L, i} (f, τ) . . . (5)

{\hat{S}}_{L} (f, τ) . . . (6)

表达式(5)是表达式(6)的第i个元素。

变量p是预先设置的在0到1之间的参数。lp范数是表达式(6)稀疏程度的度量(见Noboru Murata的“Introductory IndependentComponent Analysis”，Tokyo Electricians’University PublicationsService，第215～216页，2004/07)，并且在表达式(6)中有较多元素接近零时较小。由于语音是稀疏的，因此当表达式(4)的值较小时，可以认为表达式(6)更接近真解。简而言之，选择真解时可以将表达式(4)用作选择标准。

表达式(4)的lp范的计算值可以由滑动平均代替，就象误差最小解的计算一样：

avg - l_{p, L} (f, τ) = Σ_{m = - k}^{k} γ (m) {(Σ_{i = 1}^{N} {| {\hat{S}}_{L, j \min i} (f, τ + m)}^{p})}^{\frac{1}{p}} . . . (7)

由于语音功率在时间方向上具有正相关，因此通过用滑动平均代替它，能够找到接近真解的解。语音功率在时间方向上只是略有变化。因此，可以将在某一帧具有大幅度值的声源看作在与这一帧相邻的帧中也具有大幅度值。图2中的最优模型选择部件205为相应L维稀疏集的每一个找出所找到的误差最小解的最优解；

L_{\min} = \underset{L}{\arg \min,} α {| | X (f, τ) - A (f) S (f, τ) | |}^{2} + l_{p, L} (f, τ) . . . (8)

\hat{S} (f, τ) = {\hat{S}}_{L}_{\min} (f, τ) . . . (9)

表达式(8)和表达式(9)输出解，使得误差项与lp范项的加权平均值最小。这个解是后验概率最大解。为了找到最优解，同误差最小解和l1范最小解一样，表达式(8)和表达式(9)可以用滑动平均值代替：

L_{\min} = \underset{L}{\arg \min}, α {error}_{L} (f, τ) + avg - l_{p, L} (f, τ)

\hat{S} (f, τ) = {\hat{S}}_{L}_{\min} (f, τ)

(10)

按照常规方法，在对应于最优模型选择部件205的处理过程中，没有选择从L＝2，……，M的解，而L＝1是最优解。这个方法存在产生噪声的问题。在L＝1的解中，对于每个f和τ，除一个声源外，所有值都为零。在有些时候，除一个声源外，可能存在所有值都接近零的解。满足这一条件时，L＝1的解变成最优解，但不是总能满足条件。如果总是假设L＝1，那么当两个或更多的声源具有大值时，就找不到解并会产生音乐噪声(musical noise)。为了从为每个L维稀疏集找到的误差最小解中找到最优解，该最优模型选择部件205确定对于L从1到M哪个稀疏集是最优的，并且即使两个或更多声源的值比零大也能找到解，从而抑制音乐噪声的出现。

图2中的信号合成单元206为每个频带进行最优解的计算

\hat{S} (f, τ) . . . (11)

通过逆傅里叶变换或者逆小波变换返回到时域信号表达式(12)。

\hat{S} (f, τ) . . . (12)

通过这样做，能够获得每个声源的时域信号估计。图2中的声源定位部件207根据表达式(13)计算声源的方向。

dir (f, τ) = \underset{θ &Element; Ω}{\arg \max} {| {a_{θ}}^{*} (f, τ) X (f, τ) |}^{2} . . . (13)

Ω是声源的搜索范围，是预先在ROM 3中设置好的。

a_θ(f，τ) (14)

表达式(14)是从声源方向θ到麦克风阵列的导引矢量，并且它的大小是归一化到1的。当源信号是s(f，τ)时，在麦克风阵列中观察到来自声源方向θ的声音，用表达式(15)来表示：

X_θ(f，τ)＝s(f，τ)a_θ(f，τ) (15)

表达式(13)中包括的所有声源的Ω事先保存在ROM 3中。图2中的方向功率计算部件208用表达式(16)计算每个方向上的声源功率。

P (θ) = \underset{f}{Σ} Σ_{τ = 0}^{K} δ (θ = dir (f, τ)) \log {| {a_{θ}}^{*} (f, τ) X (f, τ) |}^{2} . . . (16)

δ是这样一个函数，只有当变量的等式成立时才为1，不成立时为零。图2中的方向搜索部件209搜索峰值P(θ)来计算声源的方向，输出M×N导引矢量矩阵A(f)，该矩阵的列中具有声源方向的导引矢量。峰值搜索按降序排列P(θ)，可以计算N个高阶声源方向，或者当P(θ)超出前后方向时(当它变为最大值时)，计算N个高阶声源方向。误差最小解计算单元203在表达式(2)中将该信息用作A(f)，来寻找误差最小解。方向搜索部件209搜索A(f)来自动估计声音方向，即使声音方向是未知的，从而能够使声源分离。

图3示出了这个实施例的处理流程。输入的语音是在各个麦克风元件中以声压值接收的。将各个麦克风元件的声压值转换为数字数据。frame_size的频带分割处理是在对每个frame_shift的数据进行偏移的时候进行的(S1)。获得的频带分割信号中只有τ＝1，……，k被用来估计声源方向，并计算导引矢量矩阵A(f)(S2)。

将A(f)用于搜索τ＝1，……的频带分割信号的真解。所得最优解是合成的，以获得每个声源的信号估计(S3)。在(S3)中合成的每个声源的信号估计是输出信号。这个输出信号是为每个声源分离出声音的信号，并且产生容易理解每个声源的说话内容的声音。

Claims

1.一种声源分离装置，包括：

A/D转换单元，用于将模拟信号转换为数字信号，该模拟信号来自具有M个麦克风的麦克风阵列，其中M个麦克风包括至少两个麦克风；

频带分割单元，用于对所述数字信号进行频带分割，以转换为频域输入；

误差最小解计算单元，对于每个频带，该误差最小解计算单元具有超过所述数量M的声源的矢量，具有从1到等于所述数量M的声源的矢量，并且该误差最小解计算单元输出解集，该解集在根据声源1到M的所述矢量和预定导引矢量计算出来的估计信号和所述频域输入之间具有最小误差；

最优模型计算部件，用于为所述误差最小解集之中的每个频带选择频域解，该频域解具有最小的lp范数与所述误差的加权和；以及

信号合成单元，用于将所选频域解转换到时域。

2.根据权利要求1所述的声源分离装置，

其中所述导引矢量是通过进行源定位获得的。

3.根据权利要求1所述的声源分离装置，

其中所述误差最小解计算单元为所述多个矢量中的每一个计算最小误差解，这些矢量的零值声源数量相等，并且零值元素数量相等，以及

其中所述最优模型计算部件，从输出的所述误差最小解集之中选择解，该解具有所述误差的滑动平均值与lp范的所述滑动平均值的加权和。

4.根据权利要求3所述的声源分离装置，

其中所述误差最小解计算单元为所述多个矢量中的每一个计算具有最小误差的解，这些矢量的零值声源数量相等，零值元件数量相等，以及

其中所述最优模型计算部件从输出的所述误差最小解集之中选择解，该解具有最小的所述误差的滑动平均值与lp范的滑动平均值的加权和。

5.一种声源分离程序，包括以下步骤：

将模拟信号转换为数字信号，该模拟信号来自包含M个麦克风的麦克风阵列，其中M大于等于2；

将所述数字信号频带分割到频域；

对于每个频带分割，从其中超过麦克风元件数量的声源具有零值的矢量中，并且对于声源元件数量在1和M之间的每个矢量，输出解集，该解集在根据所述矢量和导引矢量计算出的信号估计和所述频域信号之间具有最小误差；

对于每个频带分割，并且从误差最小解集之中，选择lp范数值与所述误差的加权和最小的解；以及

将选择出来的所述解转换到时域。

6.一种用于声源分离的方法，包括：

在M个麦克风处接收模拟声音输入；

将来自至少两个声源的所述模拟声音输入转换为数字声音输入；

将所述数字声音输入从时域转换到频域；

产生第一解集，该解集使得来自声源1到M中活动的那些的声音的估计的误差最小；

根据所述第一解集估计活动声源的数量，以产生最优分离解集，该最优分离解集最接近收到的所述模拟声音输入的每个声源；以及

将所述最优分离解集转换到时域。