CN1897113A

CN1897113A - 音频信号分离设备及其方法

Info

Publication number: CN1897113A
Application number: CNA2006100887415A
Authority: CN
Inventors: 广江厚夫; 山田敬一
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-06-03
Filing date: 2006-06-05
Publication date: 2007-01-17
Anticipated expiration: 2026-06-05
Also published as: US20060277035A1; CN1897113B; KR20060126391A; KR101241683B1; US7809146B2; JP2006337851A

Abstract

当使用独立分量分析来分离混合在音频信号中的多个信号中的每个时，能够以高准确度解决置换问题，而无需利用关于原始信号的知识或关于麦克风位置的信息等。短时傅立叶变换部件从时域内的观察信号生成观察信号的频谱图。信号分离部件将观察信号的频谱图分离成各个信号的频谱图，以生成分离信号的频谱图。置换问题解决部件从分离信号的频谱图的基本上全体，计算与置换度相对应的尺度，例如通过使用多维概率密度函数计算的Kullback－Leiblar信息量、或者多维峰度。基于该尺度，在通道之间交换在分离信号的频谱图的每个频率格的信号，以解决置换问题。

Description

音频信号分离设备及其方法

技术领域

本发明涉一种音频信号分离设备及其方法，其通过独立分量分析(ICA)来使混合在音频信号中的多个信号互相分离。

背景技术

在信号处理领域，已经注意了独立分量分析方法，其中当多个原始信号通过未知系数而线性地混合时，分离并且恢复原始信号。如果将该独立分量分析应用于音频信号，例如，可以通过多个麦克风观察由多个讲话者同时说出的语音，然后可以针对各个讲话者而分离所观察的语音，或者将其分离成噪声和语音。

参考图1，现在将描述这样的情况，即，通过使用时间-频率域内的独立分量分析，从混合了多个信号的音频信号分离各个信号。时间-频率域内的独立分量分析是这样一种方法，其中通过短时傅里叶变换，将由多个麦克风观察的信号变换成时间-频率域内的信号(频谱图)，并且在时间-频率域内进行分离(参见非专利文献1：由Noboru Murata编写的“Guide/Independent ComponentAnalysis”，Tokyo Denki University Press)。

假定存在由n个声源生成并且相互独立的n个原始信号s₁到s_n，并且假定以这些信号作为其元素的向量。由麦克风观察的观察信号每个是多个原始信号的混合。假定x₁到x_n是由n个麦克风观察的信号，并且x是以这些观察信号作为其元素的向量。图2A示出了观察信号x的示例，其中麦克风的数目n为二，即，通道数为二。接下来，对观察信号x执行短时傅里叶变换，以获得时间-频率域内的观察信号X。在X的元素是X_k(ω，t)的情况下，X_k(ω，t)是复数。通过色彩阴影(color shading)来表达X_k(ω，t)的绝对值|X_k(ω，t)|的图形被称作频谱图。图2B示出了观察信号X的频谱图的示例。在该图中，t表示帧号(1≤t≤T)，并且ω表示频率格(frequency bin)号(1≤ω≤M)。随后，将信号X的每个频率格乘以分离矩阵W(ω)，以获得分离信号Y’。图2C示出了分离信号Y’的频谱图的示例。

根据如上所述的时间-频率域内的独立分量分析，对每个频率格执行信号分离处理。没有考虑频率格相互之间的关系。因此，虽然成功地完成了分离，但是分离目标(separation destination)经常不一致。例如，不一致的分离目标表现为这样的现象，即，由s₁引起的信号表现为Y₁，其中ω＝1，而由s₂引起的信号表现为Y₁，其中ω＝2。该现象也被称作置换(permutation)。

通过针对每个频率格相互交换信号的后处理来解决该置换问题，以便一致地重新布置分离目标。图2D示出了解决了置换问题的分离信号Y的频谱图的示例。最后，分离信号Y受到傅里叶逆变换，以获得如图2E所示的时域内的分离信号Y。

发明内容

为了解决如上所述的置换问题，在后处理中执行交换。在后处理中，首先，通过针对每个频率格的分离，准备如图2C所示的频谱图。然后根据某参考而执行通道之间的分离信号的交换，从而获得如图2D所示的另一频谱图。用于交换的参考可以利用(a)包络之间的相似性(参见先前提到的非专利文献1)，(b)所估计的声源方向(参见专利文献1：日本已公开专利申请公布No.2004-145172)，(c)前述项目(a)和(b)的组合，或(d)神经网络(参见专利文献2：日本已公开专利申请公布No.2004-126198)。

然而，对于上述项目(a)，在某些情况下，根据频率格，包络之间的差异是不清楚的。这样的情况可能导致信号的错误交换。一旦发生错误交换，则对于每个后续频率格，分离目标都将是错误的。对于项目(b)，存在估计方向的准确性问题，此外，需要关于麦克风的位置和方向以及其间的间隔的信息。至于组合项目(a)和(b)两者的项目(C)，虽然改善了交换准确性，但是如同前述项目(b)一样，需要关于麦克风位置的信息。项目(d)必须预先构造神经网络，需要一些关于原始信号的知识。

因此，在过去，没有方法能够以良好的准确性解决置换问题，而无需利用关于原始信号的知识或利用关于麦克风位置的信息等。

本发明是鉴于如上所述的情形而提出的。期望提供一种音频分离设备及其方法，当通过使用独立分量分析来分离混合在音频信号中的多个信号中的每个时，其能够以高准确度解决置换问题，而无需利用关于原始信号的知识或关于麦克风位置的信息等。

根据本发明的实施例，提供了一种音频信号分离设备，其通过使用独立分量分析，从多个通道的观察信号分离在时域内混合在该观察信号中的多个信号中的每个，从而生成分离信号，该音频信号分离设备包括：变换装置，用于将时域内的观察信号变换到时间-频率域中，以生成观察信号的频谱图；分离装置，用于从观察信号的频谱图生成分离信号的频谱图；以及置换问题解决装置，用于解决分离信号的频谱图中的置换问题，其中置换问题解决装置基本上整个的(substantial whole)分离信号的频谱图，计算与置换度相对应的尺度(scale)，并且根据算出的尺度，在通道之间交换在分离信号的频谱图的每个频率格的信号，以解决置换问题。

另外，根据本发明的实施例，提供了一种音频信号分离方法，其用于通过使用独立分量分析，从多个通道的观察信号分离在时域内混合在该观察信号中的多个信号中的每个，从而生成分离信号，该音频信号分离方法包括：变换步骤，将时域内的观察信号变换到时间-频率域中，以生成观察信号的频谱图；分离步骤，从观察信号的频谱图生成分离信号的频谱图；以及置换问题解决步骤，解决分离信号的频谱图中的置换问题，其中在置换问题解决步骤中，从基本上整个的分离信号的频谱图体，计算与置换度相对应的尺度，并且根据算出的尺度，在通道之间交换在分离信号的频谱图的每个频率格的信号，以解决置换问题。

根据该音频信号分离设备及其方法，当通过使用独立分量分析来分离混合在音频信号中的多个信号中的每个时，能够以高准确度解决置换问题，而无需利用关于原始信号的知识或关于麦克风位置的信息等。

附图说明

图1是说明过去采用的时间-频率域内的独立分量分析的概要的图；

图2A到2E示出了观察信号及其频谱图，以及分离信号、其频谱图、及其在解决置换问题之后的其它频谱图；

图3示出了根据本实施例的频谱图的示例；

图4示出了每个通道的熵H(Yk)和所有通道的同时熵H(Y)之间的关系，其中假定通道数＝2；

图5A到5D示出了在随机选择的频率格交换信号的情况下的频谱图的状态，其中假定通道数＝2；

图6A和6B是示出交换信号的频率格的数目(横轴)与KL信息量(纵轴)之间的关系的图，其中假定通道数＝2；

图7A和7B是示出交换信号的频率格的数目(横轴)与KL信息量(纵轴)之间的关系的图，其中假定通道数＝2；

图8是示出交换信号的频率格的数目(横轴)与KL信息量(纵轴)之间的关系的图，其中假定通道数＝2；

图9A到9D示出了在随机选择的频率格交换信号的情况下的频谱图的状态，其中假定通道数＝3；

图10A和10B是示出交换信号的频率格的数目(横轴)与KL信息量(纵轴)之间的关系的图，其中假定通道数＝3；

图11A和11B是示出交换信号的频率格的数目(横轴)与KL信息量(纵轴)之间的关系的图，其中假定通道数＝3；

图12是示出交换信号的频率格的数目(横轴)与KL信息量(纵轴)之间的关系的图，其中假定通道数＝3；

图13A和13B是示出交换信号的频率格的数目(横轴)与KL信息量(纵轴)之间的关系的图，其中假定通道数＝2并且f(x)＝exp(-|x|)；

图14A和14B是示出交换信号的频率格的数目(横轴)与总峰度(纵轴)之间的关系的图，其中假定通道数为2和3；

图15是根据本实施例的音频信号分离设备的示意性配置的图；

图16是说明音频信号分离设备的处理的概要的流程图；

图17是具体说明置换问题解决处理的示例的流程图；

图18示出了根据现有方法执行分离处理的结果；

图19示出了根据本实施例的方法解决关于图18中的频谱图的置换问题的结果；

图20A和20B示出了在约33％的频率格交换信号的情况下的频谱图，其中假定通道数＝2；

图21示出了根据本实施例的方法解决关于图20中的频谱图的置换问题的结果；

图22A和22B示出了在约50％的频率格交换信号的情况下的频谱图，其中假定通道数＝2；

图23示出了根据本实施例的方法解决关于图22中的频谱图的置换问题的结果；

图24A和24B示出了在约33％的频率格交换信号的情况下的频谱图，其中假定通道数＝3；

图25示出了根据本实施例的方法解决关于图24中的频谱图的置换问题的结果；

图26A和26B示出了在所有频率格交换信号的情况下的频谱图，其中假定通道数＝3；

图27示出了根据本实施例的方法解决关于图26中的频谱图的置换问题的结果；

图28A和28B示出了在约66％的频率格交换信号的情况下的频谱图，其中假定通道数＝4；

图29A和29B示出了根据本实施例的方法解决关于图28中的频谱图的置换问题的结果；

图30A和30B示出了在所有频率格交换信号的情况下的频谱图，其中假定通道数＝4；

图31A和31B示出了根据本实施例的方法解决关于图30中的频谱图的置换问题的结果；

图32是具体说明置换问题解决处理的另一个示例的流程图；

图33是具体说明使用基因算法的置换问题解决处理的示例的流程图；

图34示出了根据基因算法的染色体的示例；

图35A到35C示出了根据基因算法的交叉(cross-over)的示例；

图36示出了根据基因算法的突变的示例；

图37示出了根据基因算法的染色体内部的交换的示例；

图38是具体说明选择操作的示例的流程图；以及

图39A和39B是示出在选择操作中使用的存活概率函数的示例的图。

具体实施方式

现在将参考附图具体描述应用了本发明的实施例。在该实施例中，本发明应用于音频信号分离设备，其通过使用独立分量分析，从音频信号分离混合在该音频信号中的多个信号的每个信号。特别地，在根据本实施例的音频信号分离设备中，计算通过使用多维概率密度函数而计算的Kullback-Leiblar信息量(以下被称为“KL信息量”)，或者从所有频谱图(或基本上所有频谱图)计算多维峰度(kurtosis)，作为测量置换度的尺度。对于每个频率格，交换信号，以便最小化置换度。

图3示出了根据本实施例的频谱图的示例。图3示出了通道k的频谱图Y_k(1≤k≤n)。在本描述中，从在帧号t(1≤t≤T)的频谱图Y_k的一部分切割的向量被称为向量Y_k(t)，并且从在频率格号ω(1≤ω≤M)指定的频谱图Y_k的这一部分切割的向量被称为向量Y_k(ω)。频谱图Y_k的元素每个用Y_k(ω，t)表达。具有Y₁(ω)到Y_n(ω)作为其自己的元素的向量被称为向量Y(ω)。具有Y₁到Y_n作为其自己的元素的向量被称为向量Y。这些向量Y、Y(ω)、Y_k(t)和Y_k(ω)在下面用表达式(1)到(4)表达。

Y = [\begin{matrix} Y_{1} \\ \cdot \\ \cdot \\ \cdot \\ Y_{n} \end{matrix}] - - - (1)

Y (ω) = [\begin{matrix} Y_{1} (ω) \\ \cdot \\ \cdot \\ \cdot \\ Y_{n} (ω) \end{matrix}] - - - (2)

Y_{k} (t) = [\begin{matrix} Y_{k} (1, t) \\ \cdot \\ \cdot \\ \cdot \\ Y_{k} (M, t) \end{matrix}] - - - (3)

Y_k(ω)＝[Y_k(ω，1)…Y_k(ω，T)] ........(4)

在下面，首先要描述的要点将是通过使用多维概率密度函数计算的KL信息量，并且可以利用多维峰度，作为测量置换度的尺度。接下来，将描述根据本实施例的音频信号分离设备的具体配置。

(通过使用多维概率密度函数计算的KL信息量)

KL信息量是表达多个信号之间的独立性的尺度，并且由下面表达式(5)来定义。在表达式(5)中，H(Y_k)是从通道k的频谱图Y_k计算的熵，并且H(Y)是从所有通道的频谱图Y计算的同时熵。在通道数＝2的情况下，H(Y_k)和H(Y)之间的关系将在图4中示出。

I (Y) = Σ_{k = 1}^{n} H (Y_{k}) - H (Y) - - - (5)

= Σ_{k = 1}^{n} E_{t} [- \log P_{Yk} (Y_{k} (t)) - \log | \det (P) | - H (Y^{'}) - - - (6)

= Σ_{k = 1}^{n} E_{t} [- \log P_{Yk} (Y_{k} (t))] - const - - - (7)

因为从所有频谱图计算由表达式(5)定义的KL信息量，所以KL信息量的值根据在频谱图中是否发生置换而变化。下面将对此进行更详细的描述。

假定其中紧接在分离之后发生置换的频谱图是Y’，并且解决置换问题之后的另一频谱图是Y。表达解决置换问题的操作(即，在相同频率格的通道之间交换信号的操作)的矩阵被表达为P。由此导出Y＝PY’。因此，可以求解如上所述的表达式(5)以变成表达式(6)。表达式(6)的第一项基于定义熵的方程式。其第二和第三项基于从Y＝PY′导出的H(Y)＝Log|det(P)|+H(Y’)的关系。由于矩阵P仅仅是单位矩阵中行的替换，因此给出det(P)＝±1。当求解置换问题时，可以将H(Y’)视为常数。因此，可以求解如上所述的表达式(6)以变成表达式(7)。KL信息量的大小由所有通道的熵H(Y_k)的总和确定，并且不取决于所有通道的同时熵H(Y)。

为了获得通道k的熵H(Y_k)，将通过从频谱图Y_k切割在帧号t指定的部分而获得的向量Y_k(t)代入作为Y_k的概率密度函数(PDF)的P_Yk()，从而获得该向量的事件概率。通过用总时间平均事件概率的负对数来计算H(Y_k)。Et[]表达时间方向上的平均值。

当将Y_k(t)代入P_Yk()以获得事件概率时，不必使用Y_k(t)的所有元素。例如，可以通过下面表达式(8)计算每个频率格(每个ω)的能量D(ω)，并且可以仅仅使用与具有较高能量的L个频率格相对应的那些元素。

D (ω) = Σ_{k = 1}^{n} Σ_{t = 1}^{T} {| Y_{k} (ω, t) |}^{2} - - - (8)

在KL信息量的大小和置换度之间存在特定关系。根据概率密度函数P_Yk()的设置，可以将没有发生置换的情况设置为KL信息量的最大或最小值。

频谱图Y_k的概率密度函数的示例将由下面表达式(9)定义。也就是，将被代入到采取标量值作为参数的任意非负函数f()中的Y_k(t)的L-N范数用作概率密度函数。注意，通过对向量元素的绝对值的n次方进行求和，并且通过最后计算其n次方根，获得L-N范数，如下面表达式(10)所示。在表达式(9)中，h是常数，通过其将在-∞到+∞的范围内积分的P_Yk(Y_k(t))的每个参数调整到1，或者换句话说，将事件概率的总和调整到1。然而，为了解决置换问题，仅仅KL信息量的大小是重要的，因此，h可以是任何值，只要该值为正即可。在下面，假定h＝1。

P_Yk(Y_k(t))＝hf(‖Y_k(t)‖_N) ......(9)

{| | Y_{k} (t) | |}_{N} = {(Σ_{ω = 1}^{M} {| Y_{k} (ω, t) |}^{N})}^{\frac{1}{N}} - - - (10)

上面表达式(9)中的函数f()可以采用各种函数。其f()和logP_Yk(Y_k(t))的示例将由下面表达式(11)到(20)表达。使用表达式(15)中的f(x)＝1/|x|^m的P_Yk(Y_k(t))由于其积分值发散而不匹配概率密度函数的特性。然而，引述使用f(x)＝1/|x|^m的P_Yk(Y_k(t))作为概率密度函数的示例是因为可以计算其熵。

f (x) = \frac{1}{\cosh^{l} ({Kx}^{m})} - - - (11)

{\log P}_{Yk} (Y_{k} (t)) = - l \log \cosh (K {(Σ_{ω = 1}^{M} {| Y_{k} (ω, t) |}^{N})}^{\frac{m}{N}}) - - - (12)

f(x)＝exp(-K|x|^m) ......(13)

\log P_{Yk} (Y_{k} (t)) = - K {(Σ_{ω = 1}^{M} {| Y_{k} (ω, t) |}^{N})}^{\frac{m}{N}} - - - (14)

f (x) = \frac{1}{{| x |}^{m}} - - - (15)

{\log P}_{Yk} (Y_{k} (t)) = - \frac{m}{N} \log (Σ_{ω = 1}^{m} {| Y_{k} (ω, t) |}^{N}) - - - (16)

f(x)＝exp(-tanh(Kx^m)) ......(17)

{\log P}_{Yk} (Y_{k} (t)) = - \tanh (K {(Σ_{ω = 1}^{M} {| Y_{k} (ω, t) |}^{N})}^{\frac{m}{N}}) - - - (18)

f(x)＝exp(-cosh(Kx^m)) ......(19)

{\log P}_{Yk} (Y_{k} (t)) = - \cosh (K {(Σ_{ω = 1}^{M} {| Y_{k} (ω, t) |}^{N})}^{\frac{m}{N}}) - - - (20)

在下文中，实验证明，只有当没有发生置换时，KL信息量被最大化或最小化。在该实验中，在没有涉及置换的两个频谱图中，人工地引起置换。绘制置换度和KL信息量之间的关系，以确认只有当没有发生置换时，KL数量被最大化或最小化。

首先将描述假定通道数＝2的情况。

在该实验中，首先，从在网站(“http：//www.kecl.ntt.co.jp/icl/signal/mukai/demo/hscma2005/)上提供的文件“s1.wav”和“s2.wav”采样40,000个样本(采样频率16kHz)。对该时域内的信号执行短时傅里叶变换(窗口长度＝512并且偏移宽度＝128)。这样，生成其中没有发生置换的两个频谱图(频率格数＝257并且帧数＝497)。从这两个频谱图，根据特定参考选择一个频率格，并且交换在该频率格的信号，以人工引起置换。作为用于选择频率格的参考，尝试四种方式：(a)频率格具有大能量；(b)从ω＝1选择频率格；以及(c和d)随机选择频率格。在这些方式的任一种中，曾被选择的那些频率格被排除选择。

图5A到5D示出了随机选择频率格并且交换信号的情况下的频谱图的状态。在图5A到5D中，在原始频率格的0％(0个频率)、33％(85个频率)、67％(171个频率)和100％(257个频率)交换信号。在100％的频率格的信号交换相当于整个频谱图的交换，并且不引起置换。

每当交换在频率格的信号时，计算KL信息量。绘制受到交换的频率的数目(横轴)和KL信息量(纵轴)之间的关系。绘制结果在图6到8中示出。特性曲线是凸还是凹根据f()和N的值而不同。在任何情况下，KL信息量在特性曲线的两端取最小值(在特性曲线是凸曲线的情况下)或最大值(在特性曲线是凹曲线的情况下)，即，在没有发生置换的状态中。也就是，在实验上证明了KL信息量能够成为测量置换度的尺度。

下面表1示出了图6到8中没有示出的关于函数的结果。在该表1中，符号“∩”表示凸曲线(在两端具有最小值)，并且“∪”表示凹曲线(在两端具有最大值)。项“常数”表示获得常数值而与置换度无关。空列均表示计算发散，并且不能算出值。

表1

如果使用凸函数，则可以通过交换在频率格的信号使得KL信息量减小来解决置换问题。否则，如果使用凹函数，则可以通过交换在频率格的信号使得KL信息量增加来解决置换问题。

KL信息量的特性曲线是凸还是凹取决于f()是否具有超高斯分布或次高斯分布，其中f()被认为是基本的概率密度函数。术语“超高斯”表示一种分布，其与正规(高斯)分布相比在平均值附近更急剧，并且在外围更平滑(具有更宽边缘(skirt))。另一方面，“次高斯分布”表示另一种分布，其在平均值附近更平滑，并且在外围具有更窄的边缘。

接下来将描述假定通道数＝3的情况。

同样，在该实验中，首先，从在网站(″http：//www.kecl.ntt.co.jp/icl/signal/mukai/demo/hscma2005/)上提供的文件“s1.wav”、“s2.wav”和“s3.wav”采样40,000个样本(采样频率16kHz)。对该时域内的信号执行短时傅里叶变换(窗口长度＝512并且偏移宽度＝128)。这样，生成其中没有发生置换的三个频谱图(频率格数＝257并且帧数＝497)。从这三个频谱图，根据前面描述的参考(a)到(d)，选择一个频率格。交换在该频率格的信号，以人工引起置换。

图9A到9D示出了在随机选择频率格并且交换信号的情况下的频谱图的状态。在图9A到9D中，在原始频率格的0％(0个频率)、33％(85个频率)、67％(171个频率)和100％(257个频率)交换信号。由于假定通道数＝3，因此即使当在100％的频率格交换信号时，也发生置换。

每当交换在频率格的信号时，计算KL信息量。绘制受到交换的频率的数目(横轴)和KL信息量(纵轴)之间的关系。在图10到12中示出了绘制结果。特性曲线是凸还是凹根据f()和N的值而不同。在任何情况下，KL信息量在特性曲线的左端取最小值(在特性曲线是凸曲线的情况下)或最大值(在特性曲线是凹曲线的情况下)，即，在没有发生置换的状态中。也就是，在实验上证明了KL信息量能够成为测量置换度的尺度。

例如，在上面，已经对使用基于L-N范数的多维概率密度函数的情况进行了描述。然而，可以使用其它多维概率密度函数。

例如，在上面表达式(9)中，被代入到f()中的值可以从L-N范数变成Mahalanobis距离(Y_k(t)^H∑_k ^-1Y_k(t))的平方根)。因而，获得下面表达式(21)。由表达式(21)给出的概率密度函数被称为椭圆分布。在本实施例中，可以使用基于该椭圆分布的概率密度函数。在表达式(21)中，Y_k(t)^H是Y_k(t)的哈密特(Hermitian)转置(用共轭复数替换元素，并且转置向量或矩阵)。此外，∑_k是Y_k(t)的方差-协方差矩阵，并且由下面表达式(22)计算。

P_{Yk} (Y_{k} (t)) = hf (\sqrt{Y_{k} {(t)}^{H} Σ_{k}^{- 1} Y_{k} (t)}) - - - (21)

Σ_{k} = E_{t} [Y_{k} (t) Y_{k} {(t)}^{H}] = \frac{1}{T - 1} Y_{k} Y_{k}^{H} - - - (22)

如果假定通道数＝2并且f(x)＝exp(-|x|)，则图13A示出了交换信号的频率格的数目(横轴)和KL信息量(纵轴)之间的关系。特性曲线是凸还是凹根据f()而确定。在使用L-N范数的情况下，其趋势与N＝2的趋势相同。然而，可以通过乘以方差-协方差矩阵∑_k的逆矩阵，获得不取决于每个频率格的能量但却在基本上中心处最大化(或最小化)的平滑特性曲线。如图6到8所示，KL信息量的特性曲线具有局部倒转，例如，基本上凸的特性曲线包括尽管置换度增加但KL信息量减少的部分。存在这些局部倒转成为引起置换问题解决失败的因素的可能性。然而，如果通过使用椭圆分布来计算KL信息量，则该可能性低。

如果每当交换在频率格的信号时都计算方差-协方差矩阵，则将花费时间。因此，可以仅仅使用方差-协方差矩阵的对角元素。在这种情况下，获得基本上具有与图13B所示相同的特性的特性曲线。

在本实施例中，可以使用基于Copula模型的概率密度函数，作为此外的另一个多维概率密度函数。在包括于本申请人先前提出的日本专利申请No.2005-18822的说明书和附图中描述了基于Copula模型的多维概率密度函数。

(多维峰度)

峰度也被称作四阶累积量，并且用作测量信号分布不同于正规分布的程度的尺度。

由下面表达式(23)定义多维量的峰度(由于使用频率格数＝M的频谱图，因此维数为M)。当向量Y_k(t)的分布是正规分布(多元正态分布)时，峰度是0；当向量Y_k(t)的分布是超高斯分布时，为正值；或当向量Y_k(t)的分布是次高斯分布时，为负值。

κ (Y_{k}) = \frac{E_{t} [{(Y_{k} {(t)}^{H} Σ_{k}^{- 1} Y_{k} (t))}^{2}]}{M (M + 2)} - 1 - - - (23)

现在假定，没有发生置换的频谱图是不同于正规分布的其它分布。一般而言，不连续的声音(如语音)往往容易具有超高斯分布。连续声音(如音乐波)往往容易具有次高斯分布。另一方面，当发生置换时，混合多个信号，使得其分布近似于正规分布。也就是，当计算每个通道的峰度时，随着置换度增大，峰度变得更接近于零。因此，如由下面表达式(24)表达的各个通道的峰度的绝对值的总和(以下将被称为“总峰度”)可以用作测量置换度的尺度。注意，随着置换度减小，总峰度增大。

κ (Y) = Σ_{k = 1}^{n} | κ (Y_{k}) | - - - (24)

对于从前述文件“s1.wav”和“s2.wav”获得的两个频谱图，根据前述参考(a)到(d)而选择一个频率格。每当交换在选定频率格的信号时，计算总峰度。此时，绘制交换信号的频率格的数目(横轴)和总峰度(纵轴)之间的关系。在图14A中示出了绘制结果。此外，对于从前述文件“s1.wav”、“s2.wav”和“s3.wav”获得的三个频谱图，根据前述参考(a)到(d)而选择一个频率格。每当交换在选定频率的信号时，计算总峰度。此时，绘制交换信号的频率格的数目(横轴)和总峰度(纵轴)之间的关系。在图14B中示出了绘制结果。在任何情况下，在没有发生置换的状态中(例如，在图14A中的两端和在图14B的左端)，总峰度取最大值。因此，如果使用总峰度作为测量置换度的尺度，则可以通过在通道之间交换信号使得总峰度增大来解决置换问题。

如同使用椭圆分布的情况一样，在使用峰度的情况下，可以仅仅使用方差-协方差矩阵的对角元素来代替计算方差-协方差矩阵的所有元素。

此外，不一定必须使用Y_k(t)的所有元素。例如，可以根据前述表达式(8)计算每个频率格(每个ω)的能量D(ω)，并且仅仅可以使用与具有较高能量的L个频率格相对应的那些元素。

(音频信号分离设备的具体配置)

上面描述是针对这样的要点而作出的，即可以使用通过使用多维概率密度函数计算的KL信息量、以及多维峰度作为测量置换度的尺度。以下，将描述根据本实施例的音频信号分离设备的具体配置。

图15示出了根据本实施例的音频信号分离设备的示意性配置。在该音频信号分离设备1中，n个麦克风10₁到10_n观察从n个声源生成的独立声音。A/D(模拟/数字)转换部件11转换声音的信号，以获得观察信号。短时傅里叶变换部件12对观察信号执行短时傅里叶变换，以生成观察信号的频谱图。信号分离部件13针对每个频率格，对观察信号的频谱图执行分离过程，以生成分离信号的频谱图。

重定比例部件14执行使分离信号的频谱图的每个频率格对齐比例的处理。如果在分离处理之前对观察信号进行了规格化处理(平均或发散调整)，则重定比例部件14执行恢复处理。对于发生置换的分离信号的频谱图，置换问题解决部件15基于通过使用多维概率密度函数计算的KL信息量、或者多维峰度，针对每个频率格交换信号，从而解决置换问题。傅里叶逆变换部件16对解决了置换问题的分离信号的频谱图执行傅里叶逆变换，从而生成时域内的分离信号。D/A转换部件17对时域内的分离信号执行D/A转换，并且n个扬声器18₁到18_n分别再现独立的声音。

音频信号分离设备1被配置成通过n个扬声器18₁到18_n再现声音。然而，分离信号可以被输出并经受语音识别。在这种情况下，可以适当地省略傅里叶逆变换。

现在将参考图16所示的流程图描述由音频信号分离设备执行的处理的概要。首先在步骤S1，通过麦克风观察音频信号。在步骤S2，对观察信号执行短时傅里叶变换，以生成频谱图。在下一步骤S3，对于观察信号的频谱图，针对每个频率格执行分离处理，从而生成分离信号的频谱图。现有的独立分量分析方法如扩展informax方法、FastICA、JADE等适用于该分离处理。

在步骤S3获得的分离信号中已经发生置换，并且各个频率格的比例相互不同。因此，在步骤S4，执行重定比例处理，以在频率格之间对齐比例。在该步骤中，执行用于恢复已经通过规格化处理而改变的原始平均值和原始标准差的处理。在后续步骤S5，对于发生了置换的分离信号的频谱图，基于通过使用多维概率密度函数计算的KL信息量，或者基于多维峰度，针对每个频率格交换信号，以解决置换问题。后面将描述该步骤S5的细节。在后续步骤S6，对解决了置换问题的分离信号的频谱图执行傅里叶逆变换，从而生成时域内的分离信号。在步骤S7，通过扬声器再现分离信号。

现在将参考图17描述上述步骤S5中的置换问题解决处理的细节。在通道数为n的情况下，对于每个频率格，存在n！个排列组合。如果频率格的数目为M，则组合的总数变成巨大数(n！)^M。因此，实际上不能验证所有组合，因此，在图17的流程图中，以n！×M的数量级搜索接近的最优组合。

首先在步骤S11，生成包括多个频率格号的排列。换句话说，在频率格的数目为M的情况下，生成这样的排列，其中1到M的号码各自出现一次。在后续处理中，是沿着该排列选择频率格。从以下排列中选择一个用作该排列：(a)以从ω＝1到ω＝M的次序布置的排列，(b)以从ω＝M到ω＝1的次序布置的排列，(c)以从具有最大能量的频率格开始的次序布置的排列，以及(d)随机布置的排列。通过根据前述表达式(8)获得每个频率格的能量，并且按照降序对所获得的能量进行排序，可以生成排列(c)。以下，以这种方式生成的排列被表达为[bin(1)，...bin(M)]。

接下来，在步骤S12，生成包括多个通道号的所有排列。这些排列表示在其间针对每个频率格交换信号的通道的组合。在通道数目为n的情况下，存在n！个组合。如果所生成的排列被表达为[a₁，...a_k，...a_n]，则a_k表示“交换之后的通道k的信号与交换之前的通道a_k的信号相同”。例如，如果假定n＝2，则存在两个排列[1，2]和[2，1]，其分别表示“没有东西被替换”和“通道1和2被交换”。在假定n＝3的情况下，存在六个排列[1，2，3]直至[3，2，1]。例如，六个排列的[2，1，3]表示“通道1和2被交换，而通道3保持不动”。在下面，这些排列由参量p(1)、p(2)、...、p(n！)表达。注意，p(1)表示[1，2，...，n]，即，“没有通道被替换”。

在后续步骤S13，用Y’代替Y。Y是用于存储交换在频率格的信号之后的频谱图的参量。Y’表示紧接在分离之后发生置换的频谱图。

步骤S14到S24构成后面描述的、重复多次的外循环。后面还将描述该外循环的含义。步骤S15到S23构成与频率格有关的循环。在该循环中，根据在步骤S11生成的排列([bin(1)，...，bin(M)])而选择频率格。在通道之间交换在选定频率格的信号。在后续步骤，重复使用在第ω频率格的信号。因此，在步骤S16，将在第ω频率格的信号存储为参量Y_tmp。Y_tmp是具有与Y(ω)相同大小的矩阵，即，包括n个行向量Y_tmp1到Y_tmpn的矩阵。步骤S17到S20构成关于通道号的排列的循环。该循环是针对在步骤S12获得的n！个排列(p(1)，p(2)，...，p(n！))的周期，并且根据每个排列，在通道之间交换在频率格的信号。

具体地说，在步骤S18，根据p(j)，用通过对Y_tmp执行交换而获得的结果替代Y(ω)例如，在假定n＝3并且p(j)＝[2，1，3]的情况下，获得Y₁(ω)＝Y_tmp2，Y₂(ω)＝Y_tmp1，以及Y₃(ω)＝Y_tmp3。

在后续步骤S19，计算整个Y的KL信息量或多维峰度。此时，不仅使用Y(ω)，还使用整个Y(或基本上整个Y)。因此，即使在特定频率格发生错误的交换，也不存在引起所有后续频率格中的错误交换的风险。

针对所有通道号排列，执行步骤S18和S19的处理，以计算KL信息量或多维峰度。在步骤S21，获得与其最大或最小值相对应的索引。如果所获得的索引是j’，则与j’相对应的交换组合p(j’)很可能是解决第ω频率格的置换问题的交换方法。因此，在步骤S22，根据p(j’)，用通过对Y_tmp执行交换而获得的结果替代Y(ω)。对所有频率格执行从步骤S16到步骤S22的处理。

如果不仅一次而且两次或三次地执行从步骤S15到步骤S23的处理，则可以在更高的程度上解决置换问题。更具体地说，在执行一次处理之后，可能剩有没有解决置换问题的频率格。然而，在执行两次或更多次处理之后，可以解决该置换问题。因此，在步骤S15到S23之外进行循环。该外循环的重复次数可以是固定的(例如，三次)，或者该外循环可以循环直至在步骤S22发生了置换的频率格的数目，即，给出j’≠1的频率格的数目变成常数(例如，10)或更小，或者变成常数比率(例如，5％)或更低。

在退出外循环之后的阶段，将解决了置换问题的频谱图存储为参量Y。

参考上述流程图，已经描述了保持使用包括多个频率格号并且在步骤S11生成的排列。然而，可以将该步骤S11移到外循环中。因此，每当重复外循环时，可以使用不同的排列。例如，在第一周期中，可以使用“以从具有最大能量的频率格开始的次序布置”的频率格排列。在第二周期中，可以使用“以从ω＝1到ω＝M的次序布置”的频率排列。

(解决置换问题的结果的具体示例)

现在将描述解决置换问题的结果的具体示例。在下面，根据前述表达式(9)，计算KL信息量，其中假定在基于L-N范数的多维概率密度函数中f(x)＝1/|x|^m并且L＝1。基于该KL信息量，解决置换问题。所使用的观察信号的采样频率是16kHz。在短时傅里叶变换中，以偏移宽度128使用具有窗口长度512的Hanning窗(频率格的数目为257)。此外，重复三次图17所示的流程图中的外循环。包括多个频率格号并且在图15中的步骤S11生成的排列是以从具有最大能量的频率格开始的次序布置的频率格排列。

首先，从在网站(“http：//www.ism.ac.jp/shiro/research/blindsep.html)上提供的文件“X_rsm2.wav”(采样频率16kHz)的顶部开始采样40,000个样本。根据现有的独立分量分析方法，例如，根据具有预白化的扩展infomax方法，对这些样本执行分离处理。图18示出了其结果(对应于Y’)。从图18可以看出，发生置换，如在由箭头表示的频率格的频带。

根据本实施例的方法，对该频谱图执行置换问题解决处理。图19示出了其结果(对应于Y)。从图19可以看出，基本上解决了置换问题。注意，Y₁是与“一、二、三、四”的语音相对应的频谱图。Y₂是与音乐相对应的频谱图。

接下来将描述根据本实施例的方法对人工产生的置换执行置换问题解决处理的结果。

首先，将在假定通道数＝2的情况下引述两个示例。

图20A示出了所引起的、在图5A所示的频谱图的大约33％的频率格发生的置换。发生置换的、图20A中的频率格在图20B中用黑线表达。在总共514(257×2)个频率格之中，发生置换的频率格的数目在Y₁和Y₂的每个中是84，即，总共168个(32.68％)。根据本实施例的方法，对图20A所示的频谱图执行置换问题解决处理。图21示出了其结果。在图21所示的频谱图中，发生置换的频率格的数目是零，从而完美地解决了置换问题。

类似地，图22A和22B示出了所引起的、在两个频谱图的大约50％的频率格发生的置换。在总共514个频率格之中，发生置换的频率格的数目在Y₁和Y₂的每个中是128，即，总共256(49.81％)。根据本实施例的方法，对图22A所示的频谱图执行置换问题解决处理。图23示出了其结果。在图23所示的频谱图中，发生置换的频率格的数目是零，从而完美地解决了置换问题。

接下来，将在假定通道数＝3的情况下引述两个示例。

图24A和24B示出了所引起的、在图9A所示的频谱图的大约33％的频率格发生的置换。在总共711(257×3)个频率格之中，发生置换的频率格的数目在Y₁中是71，在Y₂中是72，并且在Y₃中是71，即，总共214(27.76％)。根据本实施例的方法，对图24A所示的频谱图执行置换问题解决处理。图25示出了其结果。在图25所示的频谱图中，发生置换的频率格的数目是零，从而完美地解决了置换问题。

类似地，图26A和26B示出了所引起的、在三个频谱图的所有频率格发生的置换。在总共711个频率格之中，发生置换的频率格的数目在Y₁中是134，在Y₂中是154，并且在Y₃中是149，即，总共437(56.68％)。根据本实施例的方法，对图26A所示的频谱图执行置换问题解决处理。图27示出了其结果。在图27所示的频谱图中，发生置换的频率格的数目是零，从而完美地解决了置换问题。

最后，将描述通道数＝4的情况。

将从在相同网站上公布的文件“s4.wav”获得的频谱图添加到图9A所示的频谱图。图28A和28B示出了所引起的、在频谱图的大约66％的频率格发生的置换。在总共1028(257×4)个频率格之中，发生置换的频率格的数目在Y₁中是132，在Y₂中是136，在Y₃中是134，并且在Y₄中是144，即，总共546(53.11％)。根据本实施例的方法，对图28A所示的频谱图执行置换问题解决处理。图29A示出了其结果。发生置换的频率格如图29B所示用黑线表达。在图29A所示的频谱图中，发生置换的频率格的数目在Y₂中是1，在Y₃中是1，并且在Y₄中是2，即，总共四个(0.39％)。因此，极大地解决了置换问题。

类似地，图30A和30B示出了所引起的、在四个频谱图的所有频率格发生的置换。在总共1028个频率格之中，发生置换的频率格的数目在Y₁中是171，在Y₂中是187，在Y₃中是177，并且在Y₄中是178，即，总共713(69.36％)。根据本实施例的方法，对图30A所示的频谱图执行置换问题解决处理。图31A和31B示出了其结果。在图30A所示的频谱图中，发生置换的频率格的数目在Y₁中是1，在Y₂中是2，并且在Y₄中是1，即，总共4(0.39％)。因此，极大地解决了置换问题。

如上所述，根据本实施例中的音频信号分离设备1，可以通过使用独立分量分析，从音频信号分离混合在该音频信号中的多个信号中的每一个。另外，通过使用多维概率密度函数计算的KL信息量、或者多维峰度可以用作测量置换度的尺度。可以以高准确度解决分离信号之间的置换问题，而无需使用关于原始信号的特性，麦克风的位置等的信息。

(第一变型)

在图17示出了其算法的置换问题解决处理中，需要数量级为n！M的计算量。因此，随着通道数n增大，处理时间延长。因此，通过如下所述确定针对每个通道交换在频率格的信号的方法，可以将计算量限制到n²M的数量级。现在将参考图32描述置换问题解决处理的细节。

首先在步骤S31，生成包括多个频率格号的排列[bin(1)，...bin(M)]。在步骤S32，用Y’代替Y。Y是用来存储交换在频率格的信号之后的频谱图的参量。Y’表示紧接在分离之后发生置换的频谱图。

步骤S33到S47构成第一外循环。重复该循环，以提高置换问题的解决程度。步骤S34到S46构成第一通道循环。在步骤S35到S45，确定对于第k通道的频谱图交换在频率格的信号的方法。如果对于n-1个通道，确定了交换在频率格的信号的方法，则自动确定对于剩余一个通道交换信号的方法。因此，该循环只须处理通道1到(n-1)。

步骤S35到S45构成第二外循环。同样重复该循环，以提高置换问题的解决程度。在步骤S36到S44，确定对于第k个通道的频谱图交换在频率格的信号的方法。为此，将用来存储处理结果的参量设置为Y_tmp，并且代入Y_k作为初始值。步骤S37到S44构成关于频率格的循环。在该循环中，根据排列[bin(1)，...bin(M)](在步骤S31生成，并且在选定第ω频率格的信号与另一通道j(j＝k，k+1，...n)的信号交换)，选择频率格，从而找出交换信号的方法，其最大化或最小化通道k的熵H(Y_k)或者最大化峰度(以下被称为“优化熵或峰度”)。对于通道1到(K-1)，已经解决了置换问题，因此不必交换在该频率格的信号。

步骤S38到S41构成第二通道循环。在该循环中，在按照从k到n的次序选择通道j的情况下在频率格的通道j的信号与在该频率格的通道k的信号交换。计算在交换之后的熵或峰度。更具体地说，在步骤S39，在第ω频率格的通道j的信号Y_j(ω)与在第ω频率格的Y_tmp的信号Y_tmp(ω)相互交换。在步骤S40，将Y_tmp的熵或峰度代入到Score(j)中。针对通道k到n中的每个获得Score(j)。然后，在步骤S42，获得与所获得的分数(Score)的最大或最小值相对应的索引。在所获得的索引是j’的情况下，对应于j’的交换很可能是解决在第ω频率格的置换问题的交换方法。因此，在步骤S43，相互交换在第ω频率格的通道k的信号Y_k(ω)和在第ω频率格的通道j’的信号Y_j’(ω)，并且将在第ω频率格的通道j′的信号Y_j’(ω)代入到第ω频率格的Y_tmp的的信号Y_tmp(ω)中。如果对所有频率格执行步骤S38到S43的该处理，则优化了通道k的熵或峰度，并且解决了置换问题。如果对所有通道进一步执行该处理，则解决所有通道上的置换问题。

(第二变型)

如上所述，在图17示出了其算法的置换问题解决处理中，需要数量级为n！M的计算量。因此，随着通道数n增加，处理时间延长。因此，通过如下所述使用基因算法，可以减小计算量。在该方法中，使用替代行([1，3，2]等)作为基因，以及使用包括多个替代行的行作为染色体。另外，使用通过使用多维概率密度函数计算的KL信息量、或者多维峰度作为测量每个染色体的优越性的尺度。将参考图33描述该置换问题解决处理的细节。

首先，在步骤S51，生成任意数目的染色体作为初始总体(population)，每个染色体包括随机生成的替代行。图34示出了染色体的形式。因此，垂直布置并且在数目上与频率格相对应的、各自用于每个频率格的替代行用作染色体。

在下一步骤S52，确定是否满足终止条件。终止条件可以是步骤S53到S55的处理的预定重复次数、或者总体的收敛，即，最佳解保持不变。如果不满足终止条件，则处理进入步骤S53。

在后续步骤S53，对总体应用交叉(crossing-over)。交叉是从总体选择两个或更多个染色体，并且在这些染色体之间交换基因(替代行)。重复该交叉任意次数。交叉包括多个变体，例如，如图35A所示的单点交叉、如图35B所示的双点交叉、以及图35C所示的多点交叉。可以使用任一变体。可选地，可以随机选择ω，并且可以交换第ω替代行。代替随机选择ω，可以根据与图17中的步骤S11相同的参考来确定ω。

在后续步骤S54，基于特定概率，对新染色体或先前染色体应用突变(mutation)或染色体内部的交换。如图36所示，突变是指任意地提取一个染色体，并且用另一染色体替换在任意位置的基因(替代行)。另一方面，如图37所示，染色体内部的交换是指在一个基因的内部相互交换替代行。通过这样应用突变或染色体内部的交换，甚至可以生成不能仅仅通过交叉而生成的染色体。

在后续步骤S55，从这样生成的染色体中进行选择，以确定下一代的总体。后面将描述该选择处理的细节。在完成选择处理之后，处理返回到步骤S52。重复步骤S53到S55的处理，直至满足终止条件。

现在将参考图38的流程图，描述如上所述的在步骤S5的选择处理的细节。

首先在步骤S61，采用参量S作为保留到下一代中的单独元素(染色体)的集合。代入空集作为初始值。

步骤S62到S69构成关于单独元素的循环。在该循环中，对通过在诸如交叉、突变或染色体内部的交换的操作而生成的新染色体(必要时，还有先前染色体)中的每个执行步骤S63到S68的处理。

在步骤S63，获得与第k染色体相对应的频谱图。也就是，对分离处理之后的频谱图Y’的每个频率格应用由第k染色体表达的交换方法，以生成新的频谱图。在步骤S64，对于所生成的频谱图，计算KL信息量和峰度。

在后续步骤S65，根据KL信息量或峰度的值，计算单独元素的存活概率。在使用峰度的情况下，随着峰度值增大，置换度减小。因此，通过使用如图39A所示的凹函数，计算存活概率，使得当该值增加时，存活概率增加。否则，在使用KL信息量的情况下，对于在前述表1中用符号″∪″表达的概率密度函数，使用如图39A所示的函数来计算存活概率。对于在表1中用符号“∩”表达的概率密度函数，使用如图39B所示的函数来计算存活概率。

在计算存活概率之后，在步骤S66到S68，基于存活概率的值而确定是否应当保留每个基因。更具体地说，在步骤S66，生成0和1之间的值，作为随机数。在步骤S67，确定存活概率的值是否大于随机数的值。如果存活概率的值不大于随机数的值，则删除对应的单独元素。否则，如果存活概率的值大于随机数的值，则将对应的单独元素保留到下一代中。从而，在步骤S68，将该单独元素添加到集合S中。

对每个单独元素执行步骤S63到S68的处理，以生成用于下一代的单独元素。此后，在步骤S70，限制单独元素的数目。也就是，仅仅保留按照从最大存活概率开始的次序的较高L个单独元素。

上面描述了本发明的实施例。然而，本发明不局限于上述实施例，而是可以对其进行各种修改，而不背离本发明的主题内容的范围。

本领域的技术人员应当理解，根据设计要求和其它因素，可以进行各种修改、组合、子组合以及变更，只要它们在所附权利要求或其等价物的范围之内即可。

本发明包含与2005年6月3日在日本专利局提交的日本专利申请JP2005-164463相关的主题内容，在此将其全文引作参考。

Claims

1.一种音频信号分离设备，其通过使用独立分量分析，从多个通道的观察信号分离在时域内混合在该观察信号中的多个信号中的每个，从而生成分离信号，该音频信号分离设备包括：

变换装置，用于将时域内的观察信号变换到时间-频率域中，以生成观察信号的频谱图；

分离装置，用于从观察信号的频谱图生成分离信号的频谱图；以及

置换问题解决装置，用于解决分离信号的频谱图中的置换问题，

其中置换问题解决装置从基本上整个的分离信号的频谱图，计算与置换度相对应的尺度，并且根据算出的尺度，在通道之间交换在分离信号的频谱图的每个频率格的信号，以解决置换问题。

2.根据权利要求1所述的音频信号分离设备，其中与置换度相对应的尺度是通过使用多维概率密度函数计算的Kullback-Leiblar信息量、或者多维峰度。

3.根据权利要求2所述的音频信号分离设备，其中多维概率密度函数基于L-N范数或椭圆分布。

4.一种音频信号分离方法，用于通过使用独立分量分析，从多个通道的观察信号分离在时域内混合在该观察信号中的多个信号中的每个，从而生成分离信号，该音频信号分离方法包括：

变换步骤，将时域内的观察信号变换到时间-频率域中，以生成观察信号的频谱图；

分离步骤，从观察信号的频谱图生成分离信号的频谱图；以及

置换问题解决步骤，解决分离信号的频谱图中的置换问题，

其中在置换问题解决步骤中，从基本上整个的分离信号的频谱图，计算与置换度相对应的尺度，并且根据算出的尺度，在通道之间交换在分离信号的频谱图的每个频率格的信号，以解决置换问题。

5.一种音频信号分离设备，其通过使用独立分量分析，从多个通道的观察信号分离在时域内混合在该观察信号中的多个信号中的每个，从而生成分离信号，该音频信号分离设备包括：

变换部件，其将时域内的观察信号变换到时间-频率域中，以生成观察信号的频谱图；

分离部件，其从观察信号的频谱图生成分离信号的频谱图；以及

置换问题解决部件，其解决分离信号的频谱图中的置换问题，

其中置换问题解决部件从基本上整个的分离信号的频谱图，计算与置换度相对应的尺度，并且根据算出的尺度，在通道之间交换在分离信号的频谱图的每个频率格的信号，以解决置换问题。