CN1573920A

CN1573920A - 使用独立分量分析算法分离音乐与语音的装置与方法

Info

Publication number: CN1573920A
Application number: CNA2004100465518A
Authority: CN
Inventors: 赵南翊; 崔埈源; 具亨一
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2003-06-02
Filing date: 2004-06-02
Publication date: 2005-02-02
Anticipated expiration: 2024-06-02
Also published as: US7122732B2; JP2004361957A; CN100587805C; TW200514039A; JP4481729B2; US20050056140A1; TWI287789B; KR100555499B1; KR20040103683A

Abstract

提供了一种使用对于二维前向网络的独立分量分析方法的分离音乐与语音的装置与方法。该分离音乐与语音的装置通过使用所述独立分量分析方法可以在较短的收敛时间内从混合信号中分离语音信号与音乐信号，其中每个信号都可以被独立地录制，所述独立分量分析方法根据传感器录制位置的差异来估计信号混合处理。由此，用户可以容易地从其自己的密致盘(CD)、数字视频盘(DVD)、或音频磁带、或FM无线电中选择伴奏，并且实时地聆听质量被改进的音乐。相应地，用户可以只是倾听音乐伴奏或者与之一起唱。另外，该方法在数字信号处理器(DSP)芯片、微处理器等等之中易于实现。

Description

使用独立分量分析算法分离音乐与语音的装置与方法

技术领域

本发明涉及一种歌曲伴奏装置与方法，更具体地，涉及一种从音乐与语音信号的混合信号中消除语音信号的歌曲伴奏装置与方法。

背景技术

具有卡拉OK功能的歌曲伴奏装置被广泛应用于歌唱和/或娱乐。歌曲伴奏装置一般输出(例如演奏)人们可以随之一起唱的歌曲伴奏。可替换地，人们可以只欣赏音乐而不一起唱。此处所使用的名词“歌曲伴奏”指没有语音伴随的音乐。在此类歌曲伴奏装置中，一般使用存储器来存储用户所选择的歌曲伴奏。因此，对于给定的歌曲伴奏装置，歌曲伴奏的数目可能受限于该存储器的容量。另外，此类歌曲伴奏装置一般较昂贵。

对于只输出歌曲伴奏的密致盘(CD)播放器、数字视频盘(DVD)播放器、以及磁带播放器可以容易地实现卡拉OK功能。类似地，如果从FM音频广播输出消除了语音从而只有歌曲伴奏输出，则也可以容易地实现卡拉OK功能。用户可以播放其所喜爱的无线电台。

从CD播放器、DVD播放器、磁带播放器、以及FM无线电输出的声学信号包含音乐与语音信号的混合信号。用来从该混合信号中消除语音信号的技术还远未完善。从混合信号中消除语音信号的一般方法包括将声学信号转换到频域，并去除语音信号所在的特定频带。到频域的转换一般使用快速傅立叶(FFT)或者子频带过滤来完成。在1994年12月20日提交的美国专利5375188中公开了一种使用这种频率转换从混合信号中消除语音信号的方法。

然而，因为某些音乐信号分量被包含在与语音信号一样的频带中，其在几kHZ的范围内，当去除这些频带时将丢失一些音乐信号，由此降低了输出伴奏的质量。为了减少混合信号中音乐信号的损失，人们已经试图检测语音信号的音调频率(pitch frequency)，并且只去除该音调的频域。但是，由于音乐信号的影响而不容易检测语音信号的音调，所以这种方法并不十分可靠。

发明内容

本发明提供了一种通过使用对于二维前向网络的独立分量分析方法、在较短的收敛时间内从音乐与语音信号的混合信号中分离音乐与语音信号的装置。该装置根据传感器录制位置的差异来估计信号混合处理。

本发明提供了一种通过使用对于二维前向网络的独立分量分析算法、在较短的收敛时间内从音乐与语音信号的混合信号中分离音乐与语音信号的方法。该方法根据传感器录制位置的差异来估计信号混合处理。

根据本发明的一方面，提供了一种用于从混合信号中分离音乐与语音的装置，包括：独立分量分析器，音乐信号选择器，滤波器，以及转接器。

所述独立分量分析器用来接收包含音乐与语音分量的第一过滤后信号与第二过滤后信号，并且输出当前第一系数、当前第二系数、当前第三系数、以及当前第四系数，这些系数使用独立分量分析方法来确定。

所述音乐信号选择器用来作为对所述第二系数的最高有效位与所述第三系数的最高有效位的响应输出转接器控制信号。

所述滤波器用来接收表示可听音响信号的R声道信号与L声道信号，并输出第一过滤后信号与第二过滤后信号

所述转接器用来作为对所述转接器控制信号的响应选择性地输出所述第一过滤后信号或第二过滤后信号。

所述滤波器还包括：第一乘法器，用来将所述R声道信号乘以所述第一系数，并输出第一乘积信号；第二乘法器，用来将所述R声道信号乘以所述第二系数，并输出第二乘积信号；第三乘法器，用来将所述L声道信号乘以所述第三系数，并输出第三乘积信号；第四乘法器，用来将所述L声道信号乘以所述第四系数，并输出第四乘积信号；第一加法器，用来将所述第一乘积信号与所述第三乘积信号相加，以确定所述第一过滤后信号；以及第二加法器，用来将所述第二乘积信号与所述第四乘积信号相加，以确定所述第二过滤后信号。

所述独立分量分析器根据以下公式确定所述当前第一系数、当前第二系数、当前第三系数、以及当前第四系数：

W_n＝W_n-1+(I-2tanh(u)u^T)W_n-1

其中，W_n为包含当前第一系数、当前第二系数、当前第三系数、以及当前第四系数的2×2矩阵，W_n-1为包含先前第一系数、先前第二系数、先前第三系数、以及先前第四系数的2×2矩阵，I为2×2单位矩阵，u为包含所述第一过滤后信号与第二过滤后信号的2×1列矩阵，u^T为行矩阵，u^T为列矩阵u的转置。

所述当前第一系数、当前第二系数、当前第三系数、以及当前第四系数分别为W_n11、W_n21、W_n12、与W_n22，所述先前第一系数、先前第二系数、先前第三系数、以及先前第四系数分别为W_n-111、W_n-121、W_n-112、与W_n-122，并且所述第一过滤后信号与第二过滤后信号分别为u1与u2。

所述R声道信号与L声道信号可以无区别地互换。

所述R声道信号与L声道信号为从包括CD播放器、DVD播放器、磁带播放器、以及FM无线电广播接收器的音响系统输出的二声道立体声数字信号。

根据本发明的另一方面，提供了一种用于从混合信号中分离音乐与语音的方法，包括以下步骤：(a)在独立分量分析器处，接收包含音乐与语音分量的第一过滤后信号与第二过滤后信号，并且输出当前第一系数、当前第二系数、当前第三系数、以及当前第四系数；(b)作为对所述第二系数的最高有效位与所述第三系数的最高有效位的响应输出转接器控制信号；(c)接收表示可听音响信号的R声道信号与L声道信号，并输出第一过滤后信号与第二过滤后信号；以及(d)作为对所述转接器控制信号的响应选择性地输出所述第一过滤后信号或第二过滤后信号。

在步骤(c)中，进一步包括以下步骤：(i)通过将所述R声道信号乘以所述第一系数，生成第一乘积信号；(ii)通过将所述R声道信号乘以所述第二系数，生成第二乘积信号；(iii)通过将所述L声道信号乘以所述第三系数，生成第三乘积信号；(iv)通过将所述L声道信号乘以所述第四系数，生成第四乘积信号；(v)通过将所述第一乘积信号与所述第三乘积信号相加，生成所述第一过滤后信号；以及(vi)通过将所述第二乘积信号与所述第四乘积信号相加，生成所述第二过滤后信号。

W_n＝W_n-1+(I-2tanh(u)u^T)W_n-1

所述R声道信号与L声道信号可以无区别地互换。

附图说明

结合附图，从以下描述中可以更详细地理解本发明的优选实施方式，其中：

图1为根据本发明优选实施方式的、用于分离音乐与语音的装置的方框图；以及

图2为根据本发明优选实施方式的、独立分量分析方法的流程图。

具体实施方式

下面将参照附图更全面地描述本发明的优选实施方式，在附图中显示了本发明的优选实施方式。然而，本发明可以用不同形式实施，并且不应该被理解为局限于此处所列出的实施方式。提供这些实施方式只是为了使本公开彻底、完整，并且向本领域技术人员完整阐述本发明的范围。

参照图1，其显示了根据本发明优选实施方式的、用来分离音乐与语音的装置100的方框图。装置100包括独立分量分析器110、音乐信号选择器120、滤波器130、以及转接器140。

独立分量分析器110接收第一输出信号MAS1与第二输出信号MAS2，其中每个都包含音乐信号与语音信号。独立分量分析器110输出当前系数W_n11、当前第二系数W_n21、当前第三系数W_n12、以及当前第四系数W_n22。这些当前系数使用独立分量分析方法来计算。下标n表示独立分量分析方法的当前迭代次数。

如下详细所述，该独立分量方法将混合的声学信号分离为分离的语音信号与音乐信号。语音信号与音乐信号之间的无关性被最大化。即，语音信号与音乐信号被恢复到其被混合前的原始状态。该混合信号可以从(例如)一个或更多个传感器获得。

音乐信号选择器120输出转接器控制信号，其具有第一逻辑状态(例如低逻辑状态)与第二逻辑状态(例如高逻辑状态)。作为对第二系数W_n21的最高有效位的第二逻辑状态的响应，输出第一逻辑状态。作为对第三系数W_n12的最高有效位的第二逻辑状态的响应，输出第二逻辑状态。第二系数W_n21与第三系数W_n12的最高有效位具有表示负值或正值的符号。当这些最高有效位处于第二逻辑状态时，第二系数W_n21与第三系数W_n12具有负值。此处第一输出信号MAS1与第二输出信号MAS2位经过消除的音乐信号。

滤波器130接收R声道信号RAS与L声道信号LAS，其中每个都表示可听音响信号。第一乘法器131将R声道信号RAS乘以当前系数W_n11并输出第一乘法结果。第三乘法器135将L声道信号LAS乘以当前第三系数W_n12并输出第三乘法结果。第一乘法结果与第三乘法结果由第一加法器138相加，以生成第一输出信号MAS1。

第二乘法器133将R声道信号RAS乘以当前第二系数W_n21并输出第二乘法结果。第四乘法器137将L声道信号LAS乘以当前第四系数W_n12并输出第四乘法结果。第二乘法结果与第四乘法结果由第二加法器139相加，以生成第二输出信号MAS2。

R声道信号RAS与L声道信号LAS可以是从诸如密致盘(CD)播放器、数字视频盘(DVD)播放器、音频磁带播放器、FM接收器等音响系统输出的二声道数字信号。如果R声道信号RAS与L声道信号LAS的值互换将产生同样的输出。即，R声道信号RAS与L声道信号LAS的值可以互换而没有任何后果。

响应于转接器控制信号的逻辑状态，转接器140输出第一输出信号MAS1或第二输出信号MAS2。如上所述，第一与第二输出信号MAS1与MAS2为没有语音信号的音乐信号(即，歌曲伴奏)。例如，用户可以通过扬声器聆听音乐伴奏。

参照图2，其中显示了根据本发明优选实施方式的独立分量分析方法200的流程图。该流程图显示了对于二维前向网络的独立分量分析方法200，如图1所示。该独立分量分析方法200可以由图1的独立分量分析器110来完成。

图2的独立分量分析方法200控制图1的当前第一系数W_n11、当前第二系数W_n21、当前第三系数W_n12、以及当前第四系数W_n22。该独立分量分析方法200被实现为包含图1的输出信号MAS1与MAS2的矩阵u的非线性函数(tanh(u))，如以下公式(1)所示。如上所述，输出信号MAS1与MAS2包括音乐信号与语音信号

W_n＝W_n-1+(I-2tanh(u)u^T)W_n-1， ......(1)

W_n为包含当前四个系数(即W_n11、W_n21、W_n12、与W_n22)的2×2矩阵，W_n-1为包含先前四个系数(即W_n-111、W_n-121、W_n-112、与W_n-122)的2×2矩阵，I为2×2单位矩阵，u为包含输出信号的2×1列矩阵，u^T为行矩阵，其为列矩阵u的转置。

在公式(1)中，当W_n表示为包含当前四个系数W_n11、W_n21、W_n12、与W_n22的2×2矩阵时，就确立了下面的表达式(2)。类似地，在公式(1)中，当W_n-1表示为包含包含先前四个系数W_n-111、W_n-121、W_n-112、与W_n-122的2×2矩阵时，就确立了下面的表达式(3)。因为I为2×2单位矩阵，所以确立下面的表达式(4)。因为u为包含输出两个信号MAS1与MAS2的2×1列矩阵，所以确立下面的表达式(5)。因为u^T为行矩阵，其为列矩阵u的转置，所以确立下面的表达式(6)。根据表达式(2)与表达式(5)，当前第一系数W_n11、当前第二系数W_n21、当前第三系数W_n12、以及当前第四系数W_n22为构成矩阵W_n的元素。第一输出信号MAS1与第二输出信号MAS2分别为构成矩阵u的u1与u2。

[\begin{matrix} W_{n} 11 & W_{n} 12 \\ W_{n} 21 & W_{n 22} \end{matrix}] . . . . . . (2)

[\begin{matrix} W_{n - 1} 11 & W_{n - 1} 12 \\ W_{n - 1} 21 & W_{n - 1} 22 \end{matrix}] . . . . . . . . . (3)

[\begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix}] . . . . . . (4)

[\begin{matrix} u 1 \\ u 2 \end{matrix}] = [\begin{matrix} MAS 1 \\ MAS 2 \end{matrix}] . . . . . . (5)

[u1 u2]＝[MAS1 MAS2]......(6)

当开通用于分离音乐与语音的装置100，图1的独立分量分析器110在步骤S211复位该装置。在步骤S213，例如当n＝1时，在复位时识别初始状态。并且，在步骤S215，接收四个系数W_o11、W_o21、W_o12、与W_o22，这些系数在步骤S215预先被设置为初始值。另外，在步骤S217，独立分量分析器110接收公式(1)的I与u。

接着，在步骤S219，图1的独立分量分析器110计算以上的公式(1)，并且在步骤S221，输出当前4个系数W_n11、W_n21、W_n12、与W_n22。在步骤S223，确定独立分量分析器110是否被关断。如果在步骤S223确定独立分量分析器110未被关闭，则在步骤S225独立分量分析器110将n加1，然后再次进行S215到S221的步骤。

图2的独立分量分析方法200以较短收敛时间进行。因此，当图1的用于分离音乐与语音的装置100被安装在音响系统上并且通过该独立分量分析方法200所估计的纯粹的音乐信号(即没有语音信号)从扬声器输出时，用户可以实时地聆听质量被改进的纯粹的音乐信号。

如上所述，根据本发明优选实施方式的图1的用于分离音乐与语音的装置100包括独立分量分析器110，其接收的包含音乐信号与声音信号的输出信号MAS1与MAS2，并输出使用所述独立分量分析方法所计算的当前第一系数W_n11、当前第二系数W_n21、当前第三系数W_n12、以及当前第四系数W_n22，从而根据第一、第二、第三、以及第四系数(即分别为W_n11、W_n21、W_n12、W_n22)处理当前输入声学信号RAS与LAS。结果，从混合信号中估计出音乐信号与语音信号，并且可以确定纯粹的音乐信号。

通过使用所述独立分量分析方法，根据本发明优选实施方式的图1的用于分离音乐与语音的装置100可以以较短的收敛时间从混合信号中分离出音乐信号与语音信号。可以分离地录制混合信号的音乐信号与语音信号。图2的独立分量分析方法200根据传感器的录制位置的差异来估计信号混合处理。由此，用户可以轻易地从其自己的CD、DVD、或音频磁带、或FM无线电中选择伴奏音乐，并且实时聆听质量被改进的音乐。用户可以只是倾听音乐伴奏或者与之一起唱(即加上其自己的歌词)。另外，因为用于分离音乐与语音的独立分量分析方法200相对较简单，并且进行该独立分量分析方法200所需的时间一般不长，所以该方法可以轻易地实现于数字信号处理器(DSP)芯片、微处理器等等之中。

虽然参照附图描述了一些示范性实施方式，但应该理解本发明并不局限于这些实施方式的精确形式，本领域技术人员可以在不脱离本发明原理与范围的前提下进行各种修改与变动。所有这些修改与变动都包括在权利要求所限定的范围之内。

Claims

1.一种用于从混合信号中分离音乐与语音的装置，包括：

独立分量分析器，用来接收包含音乐与语音分量的第一过滤后信号与第二过滤后信号，并且输出当前第一系数、当前第二系数、当前第三系数、以及当前第四系数；

音乐信号选择器，用来作为对所述第二系数的最高有效位与所述第三系数的最高有效位的响应，输出转接器控制信号；

滤波器，用来接收表示可听音响信号的R声道信号与L声道信号，并输出第一过滤后信号与第二过滤后信号；以及

转接器，用来作为对所述转接器控制信号的响应，选择性地输出所述第一过滤后信号或第二过滤后信号。

2.如权利要求1所述的装置，其中所述滤波器包括：

第一乘法器，用来将所述R声道信号乘以所述第一系数，并输出第一乘积信号；

第二乘法器，用来将所述R声道信号乘以所述第二系数，并输出第二乘积信号；

第三乘法器，用来将所述L声道信号乘以所述第三系数，并输出第三乘积信号；

第四乘法器，用来将所述L声道信号乘以所述第四系数，并输出第四乘积信号；

第一加法器，用来将所述第一乘积信号与所述第三乘积信号相加，以确定所述第一过滤后信号；以及

第二加法器，用来将所述第二乘积信号与所述第四乘积信号相加，以确定所述第二过滤后信号。

3.如权利要求1所述的装置，其中所述独立分量分析器根据以下公式确定所述当前第一系数、当前第二系数、当前第三系数、以及当前第四系数：

W_n＝W_n-1+(I-2tanh(u)u^T)W_n-1，

4.如权利要求3所述的装置，其中所述当前第一系数、当前第二系数、当前第三系数、以及当前第四系数分别为W_n11、W_n21、W_n12、与W_n22，所述先前第一系数、先前第二系数、先前第三系数、以及先前第四系数分别为W_n-111、W_n-121、W_n-112、与W_n-122，并且所述第一过滤后信号与第二过滤后信号分别为u1与u2。

5.如权利要求1所述的装置，其中所述R声道信号与L声道信号可以无区别地互换。

6.如权利要求1所述的装置，其中所述R声道信号与L声道信号为从音响系统输出的二声道立体声数字信号。

7.如权利要求6所述的装置，其中所述音响系统为以下之一：密致盘播放器、数字视频盘播放器、磁带播放器、以及FM接收器。

8.一种用于从混合信号中分离音乐与语音的方法，包括以下步骤：

(a)在独立分量分析器处，接收包含音乐与语音分量的第一过滤后信号与第二过滤后信号，并且输出当前第一系数、当前第二系数、当前第三系数、以及当前第四系数；

(b)作为对所述第二系数的最高有效位与所述第三系数的最高有效位的响应，生成转接器控制信号；

(c)接收表示可听音响信号的R声道信号与L声道信号，并输出第一过滤后信号与第二过滤后信号；以及

(d)作为对所述转接器控制信号的响应，选择性地输出所述第一过滤后信号或第二过滤后信号。

9.如权利要求8所述的方法，其中，在步骤(c)中，进一步包括以下步骤：

(i)通过将所述R声道信号乘以所述第一系数，生成第一乘积信号；

(ii)通过将所述R声道信号乘以所述第二系数，生成第二乘积信号；

(iii)通过将所述L声道信号乘以所述第三系数，生成第三乘积信号；

(iv)通过将所述L声道信号乘以所述第四系数，生成第四乘积信号；

(v)通过将所述第一乘积信号与所述第三乘积信号相加，生成所述第一过滤后信号；以及

(vi)通过将所述第二乘积信号与所述第四乘积信号相加，生成所述第二过滤后信号。

10.如权利要求8所述的方法，其中，所述独立分量分析器根据以下公式确定所述当前第一系数、当前第二系数、当前第三系数、以及当前第四系数：

W_n＝W_n-1+(I-2tanh(u)u^T)W_n-1

11.如权利要求10所述的方法，其中，所述当前第一系数、当前第二系数、当前第三系数、以及当前第四系数分别为W_n11、W_n21、W_n12、与W_n22，所述先前第一系数、先前第二系数、先前第三系数、以及先前第四系数分别为W_n-111、W_n-121、W_n-112、与W_n-122，并且所述第一过滤后信号与第二过滤后信号分别为u1与u2。

12.如权利要求8所述的方法，其中所述R声道信号与L声道信号可以无区别地互换。

13.如权利要求8所述的方法，其中所述R声道信号与L声道信号为从音响系统输出的二声道立体声数字信号。

14.如权利要求13所述的方法，其中所述音响系统为以下之一：密致盘播放器、数字视频盘播放器、磁带播放器、以及FM接收器。