CN100356445C

CN100356445C - 分离声源信号的方法和装置及用来检测间距的方法和装置

Info

Publication number: CN100356445C
Application number: CNB2005100093191A
Authority: CN
Inventors: 近藤哲二郎; 有光哲彦; 一木洋; 岛淳一
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-02-20
Filing date: 2005-02-18
Publication date: 2007-12-19
Anticipated expiration: 2025-02-18
Also published as: DE602005006331T2; EP1566796B1; DE602005006412T2; DE602005007219D1; DE602005006331D1; EP1566796A8; EP1755111B1; US20050195990A1; CN1658283A; KR20060042966A; EP1755112B1; EP1755111A1; KR101122838B1; EP1566796A2; EP1566796A9; EP1755112A1; DE602005006412D1; US8073145B2; EP1566796A3

Abstract

一种声源信号分离方法包括以下步骤，增强输入音频信号中的一个目标声源信号，该输入音频信号来自多个声源的混合声音信号，并且由多个声音拾取装置拾取，检测输入音频信号中目标声源信号的间距，并且根据检测的间距和声源信号增强步骤中增强的声源信号从输入音频信号中分离出目标声源信号。

Description

分离声源信号的方法和装置及用来检测间距的方法和装置

技术领域

本发明涉及用来分离声源信号的方法和装置及用来检测声源信号间距的方法和装置。本发明具体涉及从来自具有立体声传声道的多个声源的音频信号当中分离出一个音频信号的方法和装置，以及用来检测音频信号间距的方法和装置。

背景技术

从多个声源信号的混合物当中分离一个目标声源信号的技术是公知的。例如图26所示，由三个人SPA，SPB和SPC发出的语音被一个声电转换装置例如是左、右立体声传声道MCL和MCR按音频信号拾取，并且从拾取的音频信号当中分离出一个目标人的音频信号。

例如日本待审专利申请公开2001-222289号的一种公知的声源信号分离技术，其中公开了一种音频信号分离电路和采用这种音频信号分离电路的麦克风。按照所述技术，将各自包含多个相互独立的线性声源信号的线性和的多个混合信号分割装帧，并且在每帧的基础上将反转混合矩阵彼此相乘，矩阵能尽量减少被与零滞后时间有关的分离电路所分离的多个信号的相关性。如此从混合信号中分离出原始语音信号。

日本待审专利申请公开7-28492号公开了一种估算目标声源的声源信号估算装置。

要确定目标声源的间距分离出声源信号。作为一种检测间距的技术，日本待审专利申请公开2000-181499号公开了一种音频信号分析方法，一种音频信号分析装置，一种音频信号处理方法，和一种音频信号处理装置。按照其所公开的内容，对各自具有预定持续时间的输入信号逐帧切片，对每帧执行频率分析，并在所得的各帧频率分析的基础上执行谐波分量评估。谐波分量评估是在所得的各帧频率的分析中按帧间的振幅差执行的。用谐波分量评估的结果检测出输入信号的间距。

为了分离多个声源信号需要有超过声源数量的麦克风。在研究中实际要使用多个麦克风。例如日本待审专利申请公开2001-222289号中所述，用两个麦克风从三个以上声源中分离出一个声源信号是困难的。日本待审专利申请公开7-28492号公开了一种用多个麦克风(麦克风矩阵)从一个目标声源提取音频信号的技术。按照其中所述的技术，需要多于声源的多个麦克风才能从多个声源信号的混合信号中分离出一个目标声源信号。

按照公知技术，在诸如摄像机等移动音频-视频(AV)设备中使用的立体声麦克风难以分离出三个以上声源信号。

如果目标声源的间距是在分离声源信号之前确定的，为了分离声源信号就需要适当执行间距检测。

发明内容

本发明的目的是提供一种声源信号分离装置，一种声源信号分离方法，一种间距检测装置，和一种间距检测方法，用少量声音拾取设备例如是立体声麦克风从多个声源拾取音频信号(通常是声音信号)，并且分离出一个目标声源的音频信号。

按照本发明的第一方面，一种声源信号分离装置包括用来增强输入音频信号中的一个目标声源信号的声源信号增强单元，输入信号是来自多个声源的混合声音信号，并且是由多个声音拾取装置拾取的，用来检测输入音频信号中目标声源信号的间距的一个间距检测器，以及根据检测到的间距和被声源信号增强单元增强的声源信号从输入音频信号中分离出目标声源信号的声源信号分离单元。

声源信号分离单元主要包括从声源信号增强单元输出的信号中分离出目标声源信号的滤波器，以及根据间距检测器检测的信息输出滤波器的滤波器系数的一个滤波器系数输出单元。

滤波器系数输出单元主要输出滤波器的滤波器系数特征频率特性，该频率特性使得频率为间距检测器检测到的间距频率的整数倍的频率分量能够通过滤波器。

滤波器系数输出单元主要包括用来存储对应着多个间距的滤波器系数的存储器，并且对应着间距检测器检测到的间距从存储器中读取并输出一个滤波器系数。

声源信号分离装置还包括高频区处理单元，在来自声源信号增强单元的一个辅音带内处理输出信号，和一个滤波器排，在来自声源信号增强单元的一个辅音带内提取输出信号，将辅音带内的输出信号传送到高频域处理单元，在来自声源信号增强单元的辅音带外提取输出信号，将辅音带外的输出信号传送到滤波器，并且在来自声源信号增强单元的一个元音带内提取输出信号，将元音带内的输出信号传送到间距检测器。

多个声音拾取装置主要包括左立体声麦克风和右立体声麦克风。

声源信号增强单元用声音传播延迟、也就是从目标声源到各自多个声音拾取装置的各个声音传播延迟之间的时间差校正音频信号，并且叠加来自多个声音拾取装置的经校正的音频信号，以便仅仅增强来自目标声源的音频信号。间距检测器主要以目标声源信号间距的两个波长为单位来检测声源信号的间距。

声源信号分离单元主要包括根据间距检测器检测到的信息来产生基本波形的基本波形产生单元，采用来自声源信号增强单元的输出信号的稳定部分，该稳定部分总体上具有相同或大致相同的连续重复间距，以及一个基本波形替代单元，用基本波形产生单元产生的重复的基本波形替代基于输入音频信号的至少一部分信号。

间距检测器主要以目标声源信号间距的两个波长为单位来检测声源信号的间距。多个声音拾取装置主要包括左立体声麦克风和右立体声麦克风。声源信号增强单元用声音传播延迟、也就是从目标声源到各自多个声音拾取装置的各个声音传播延迟之间的时间差校正音频信号，并且叠加来自多个声音拾取装置的经校正的音频信号，以便仅仅增强来自目标声源的音频信号。基本波形产生单元以间距的两个波长为单位在目标声源信号的稳定部分对目标声源信号取平均值，该稳定部分总体上具有相同或大致相同的连续重复间距。

按照本发明的第二方面，一种声源信号分离方法包括以下步骤，增强输入音频信号中的一个目标声源信号，该输入音频信号来自多个声源的混合声音信号，并且由多个声音拾取装置拾取，检测输入音频信号中目标声源信号的间距，并且根据检测的间距和声源信号增强步骤中增强的声源信号从输入音频信号中分离出目标声源信号。

按照第三方面，一种间距检测器包括用来在输入音频信号中增强一个目标声源信号的声源信号增强单元，输入音频信号是来自多个声源并且由多个声音拾取装置拾取的混合声音信号，一个周期检测器以输出信号间距的两个波长为检测单位检测声源信号周期单元的输出信号的两个波长周期，和一个连续性确定单元，它响应由周期检测器检测的两个波长周期的变化，确定相同或大致相同的间距是否是连续重复的，根据确定结果输出间距信息。

多个声音拾取装置主要包括左立体声麦克风和右立体声麦克风。声源信号增强单元用声音传播延迟、也就是从目标声源到各自多个声音拾取装置的各个声音传播延迟之间的时间差校正音频信号，并且叠加来自多个声音拾取装置的经校正的音频信号，以便仅仅增强来自目标声源的音频信号。

按照本发明的第四方面，一种间距检测方法包括以下步骤，增强输入音频信号中的一个目标声源信号，该输入音频信号来自多个声源的混合声音信号，并且由多个声音拾取装置拾取，以输出信号的间距的两个波长周期为检测单位检测在声源信号周期步骤中获得的输出信号的两个波长周期，并且响应在周期检测步骤中检测的两个波长周期的变化，确定相同的间距是否是连续重复的，根据确定结果输出间距信息。

按照本发明的第五方面，一种声源信号分离装置包括一个间距检测器，以目标声源信号的间距的二倍波长为检测单位检测输入音频信号中一个目标声源信号的间距，该输入音频信号是来自多个声源的混合声音信号，和一个声源信号分离单元，根据检测到的间距分离目标声源信号。

按照本发明的第六方面，一种声源信号分离方法包括以下步骤，以目标声源信号的间距的二倍波长为检测单位检测输入音频信号中一个目标声源信号的间距，该输入音频信号是来自多个声源的混合声音信号，并且根据检测到的间距分离目标声源信号。

附图简介

图1是按照本发明一个实施例的声源信号分离装置的框图；

图2是本发明一个实施例的间距检测器的框图；

图3是本发明一个实施例的延迟校正和求和单元的框图；

图4表示一种音频信号波形，用来说明本发明实施例中延迟和求和单元的操作；

图5是按照本发明一个实施例中音频信号沿时间轴的波形图；

图6表示图5中音频信号沿频率轴的频谱；

图7表示音频信号沿时间轴的波形，其中的间距频率大约为650Hz；

图8表示图7中音频信号沿频率轴的频谱；

图9表示音烦信号沿时间轴的波形，其中的间距频率大约为580Hz；

图10表示图9中音频信号沿频率轴的频谱；

图11A-11D表示一种音频信号波形，用来说明为何按照两个波长为检测单位来执行间距检测的理由；

图12的流程图表示按照本发明一个实施例的间距检测程序；

图13的波形图表示音频信号波形的最大峰值和最小峰值；

图14列出了每个间距检测单位获得的信息，间距检测单位是两个波长；

图15表示一个分离滤波器的频率特性，它具有用分离系数发生器产生的滤波器系数；

图16表示由分离系数发生器产生的滤波器系数；

图17的框图表示按照本发明一个实施例的声源信号分离装置；

图18表示沿时间轴在一个扩展区域内采用的滤波器系数的一个稳定部分；

图19表示沿时间轴的一个具体信号波形；

图20的框图表示按照本发明实施例的另一种声源信号分离装置；

图21A-21C表示稳定性确定区域和发言人确定之间的关系；

图22的框图表示声源信号分离装置；

图23的波形图表示由基本波形发生器产生的基本波形；

图24的波形图表示由基本波形替代单元替代的重复的基本波形；

图25的流程图表示按照本发明一个实施例的一种声源信号分离方法；以及

图26表示具体的一例立体声麦克风，声源有三个人。

具体实施方式

以下要参照附图解释本发明的实施例。

图1表示本发明一个实施例的声源信号分离装置的结构。

如图1所示，一个输入端子11接收由麦克风拾取的一个音频信号，也就是由立体声麦克风拾取的立体声音频信号。音频信号被传送到间距检测器12和用作声源信号增强单元来增强目标声源信号的一个延迟校正加法器13。间距检测器12的一个输出被提供给声源信号分离器19中的一个分离系数发生器14，而延迟校正加法器13的一个输出根据需要通过在中频到低频带内输出一个频率分量的(低通)滤波器20A被提供给声源信号分离器19中的一个滤波器计算电路15。滤波器计算电路15分离出所需目标声音。每当间距检测器12所检测的间距被更新时，作为分离系数输出装置的分离系数发生器14就响应检测的间距产生一个滤波器系数，并将产生的滤波器系数提供给滤波器计算电路15。延迟校正加法器13的输出也根据需要通过使得高频分量能够通过的一个(高通)滤波器20B传送到一个高频域处理器17。高频域处理器17处理诸如辅音等不稳定波形信号。滤波器计算电路15的输出和高频域处理器17的输出由一个加法器16相加，然后从输出端子18输出作为分量的波形输出信号的相加结果。

在这种声源信号分离装置中，间距检测器12检测音频信号稳定部分的间距(高度)，稳定部分中相同或大致相同的间距例如元音是连续的。间距检测器12输出检测的间距，并根据需要输出指示这一稳定部分的信息(例如是代表稳定部分持续时间的沿时间轴的坐标信息)。延迟校正加法器13作为声源信号增强装置增强一个目标声源信号。延迟校正加法器13按照从各个声源到各自多个麦克风(对于立体音响系统的情况是两个麦克风)的传播延迟时间差给信号加上一个时间延迟，并且对延迟的校正信号求和。来自目标声源的信号由此被增强，而来自其它声源的信号被衰减。以下要详细描述这一过程。分离系数发生器14按照间距检测器12检测到的间距产生滤波器系数，从目标声源中分离出信号。以下还要详细描述分离系数发生器14。滤波器计算电路15用分离系数发生器14产生的滤波器系数对延迟校正加法器13输出(必要时通过滤波器20A)的信号执行滤波处理，从目标声源中分离出声源信号。高频域处理器17对来自延迟校正加法器13(必要时通过高通滤波器20B)的输出例如是包括辅音的不稳定波形执行预定的处理。高频域处理器17的输出被提供给加法器16。加法器16将滤波器计算电路15的输出与高频域处理器17的输出相加，向输出端子18输出目标声源的分离输出信号。

图2表示间距检测器12的结构。对应着图1中立体音响音频输入11的一个输入端子21接收由立体声麦克风拾取的立体音响音频输入信号。音频信号通过允许间距稳定重复的元音带通过的低通滤波器(LPF)22被提供给延迟校正加法器23。如下所述，延迟校正加法器23对音频信号执行方向性控制处理，增强来自目标声源的信号。延迟校正加法器23的输出通过峰值检测器24和最大值检测器25提供给最大到最大值间距检测器26，检测峰值在过零点之间的最大值。最大到最大值间距检测器26的输出被提供给连续性确定器27。从端子28输出一个典型间距输出，并且从端子29输出代表稳定部分持续时间的一个坐标(时间)输出。

以下要参照图3描述图1中延迟校正加法器13和图2中延迟校正加法器23的基本结构。如图3所示，来自左麦克风MCL和右麦克风MCR的信号被分别提供给各自由缓冲存储器构成并且能延迟左、右立体音响音频信号的延迟电路32L和32R。在图2的延迟校正加法器23中，左、右立体音响音频信号通过允许元音带通过的低通滤波器22提供给延迟电路32L和32R。来自延迟电路32L和32R的延迟信号由加法器34相加，相加后从端子35输出作为延迟校正求和信号。来自延迟电路32L和32R的延迟信号根据需要接受减法器36的减法处理，所得的差从输出端子37输出作为延迟校正差分信号。

具有图3所示结构的延迟校正加法器增强来自目标声音的音频信号，在衰减其它信号分量的同时提取该音频信号。如图3所示，相对于立体声麦克风MCL和MCR布置有左声源SL，中央声源SC，右声源SR。右声源SR被设定为目标声源。在右声源SR发出声音时，与靠近右声源SR的麦克风MCR相比，由于声音在空气中的传播延迟，远离右声源SR的麦克风MCL拾取该声音有一个延迟时间τ。延迟电路32L的延迟量被设置在比延迟电路32R的延迟量延长一个时间τ。如图4所示，来自延迟电路32L和32R的延迟校正输出信号相对于来自右声源SR的目标声音形成较高的相关系数(更加同相)。对于其它声音的相关系数被降低(更加异相)。如果将中央声源SC设定为目标声源，从中央声源SC发出的声音挥同时被麦克风MCL和MCR拾取(不会有任何延迟时间)。延迟电路32L和延迟电路32R的延迟时间被设置在彼此相等，中央声源SC的目标声音的相关系数被提高，而其它信号的相关系数被降低。调节延迟电路32L和延迟电路32R各自的延迟量就能仅仅提高目标声源的声音的相关系数。

加法器34将来自延迟电路32L和延迟电路32R的延迟输出信号相加，仅仅增强具有较高相关系数的音频信号。在具有重复波形的元音部分，相位对齐段被相加而得以增强，而相位不对齐段被衰减。这样，仅有目标声音被增强的信号从输出端子35上输出。当减法器36对来自延迟电路32L和32R的延迟输出信号执行减法运算时，相位对齐段被彼此相减，仅有来自目标声源的声音被衰减。仅有目标声源被衰减的这一信号从输出端子37上输出。

以下要说明相关系数。上述的延迟校正波形出现较高程度的波形匹配，而相位没有对齐的其它波形出现较低程度的波形匹配。代表波形匹配程度的相关系数“cor”是用公式(1)确定的：

cor = {1 / (n - 1) S_{1} S_{2}} Σ_{i = 1}^{n} ({m 1}_{i} - \overset{&OverBar;}{m} 1) ({m 2}_{i} - \overset{&OverBar;}{m} 2) . . . (1)

S_{1}^{2} = {1 / (n - 1)} Σ_{i = 1}^{n} {({m 1}_{i} - \overset{&OverBar;}{m} 1)}^{2}

S_{2}^{2} = {1 / (n - 1)} Σ_{i = 1}^{n} {({m 2}_{i} - \overset{&OverBar;}{m} 2)}^{2}

和

m1和m2代表平均值

m1和m2是麦克风MCL和MCR的时间采样，S1和S2是标准偏差。公式(1)确定了n对采样(m1₁，m2₁)，(m1₂，m2₂)，...，(m1_n，m2_n)的相关系数。

以下要说明间距检测器12的间距检测操作。图2表示间距检测器12的结构。如图5所示，来自麦克风MCL的信号是目标音频信号和其它音频信号的混合物。如图5所示，实线波形代表实际获得的信号波形，而虚线波形代表目标声音的信号波形。即便是通过延迟校正和求和处理来执行方向性控制处理以增强目标声音，仍然存在其它声音。目标声音和其它声音是共存的。如图5所示，用虚线代表的目标声音的信号波形是规则的，振幅的方向变化很小(等级方向)，而实线代表的混合信号波形在等级方向上有变化。混合信号波形与目标声音波形相比在等级方向上没有相关性，但是混合信号和目标声音在时间方向上的峰值间隔是匹配的。

如果按频谱绘制图5的信号波形，就得到图6的曲线。音频信号含有基本频率Fx的谐波。基波信号Fx所对应的间距代表声音的高度，也可以被视为间距烦率。如果将图5的波形图中两个相邻峰值之间的间隔作为一个周期Tx(一个波长λx)，基波信号Fx就等于周期Tx的倒数，即Fx＝1/Tx。如图6所示，峰值出现在二倍于间距频率Fx的频率2Fx处，并且峰值通常出现在频率Fx的整倍数处。

实际信号波形含有这样的波形，其波长比对应着相邻峰值间隔之间持续时间的间距周期Tx(间距波长λx)要长。特别是如图6的频谱图中所示，具有二倍于间距周期Tx的间距周期Ty(＝2Tx)的一个分量也就是频率Fy(＝Fx/2)即间距频率Fx一半的那一分量比较强。普通音频信号中的1/2间距频率Fy(＝Fx/2)的那一分量也比较强。例如在图7和8中所示大约650Hz的间距频率Fx的音频信号和图9和10中所示大约580Hz的间距频率Fx的音频信号中很容易识别出一半频率Fy的分量。图7和9表示沿时间轴的音频信号，而图8和 0表示音频信号沿频率轴的频谱。

图11A-11D表示具有间距频率Fx的分量如何与具有间距频率Fx一半的间距频率Fy的分量合成。图11A表示具有间距频率Fx的基本波形(例如是正弦波)，而图11B表示频率Fy为间距频率Fx一半的基本波形。如果如图11C所示将这两个分量合成，每两个波长就会有一次变化。例如图11D中所示，类似的波形按每两个波长重复。如果将两个相邻峰值之间的间隔设定为周期，变化是交替出现的，难以实现稳定的间距检测。

按照本发明的一个实施例，在间距检测中采用二倍于峰值之间周期Tx(间距波长λx)的一个周期Ty为单位。如果按每两个波长检测峰值，间距检测就是在具有类似形状的各个峰值上执行的，误差趋于变小。即使将开始间距检测的定时偏移一个波长，统计的结果仍是相同的。波长的其它整数倍例如是四倍波长，六倍波长，八倍波长...，也可以用作峰值检测间隔。然而，如果按每四个波长检测峰值，误差等级会降低。四个波长的缺点是需要增加采样数量。

以下要参照图12说明间距检测操作。如图12所示，在步S41输λ立体音响音频信号。在步S42对输入信号低通滤波。在步S43按延迟校正和求和运算执行方向性处理。这些步骤对应着图2中来自输入端子21(输入端子11)的输入，LPF22的处理，以及延迟校正加法器23的处理。

在步S44由峰值检测器24检测最大峰值。在这一步确定图13的波形图中用字母X代表的局部峰值。图中表示了正峰值(最大峰值)和负峰值(最小峰值)。在本实施例中采用正峰值(最大峰值)。正峰值是通过检测信号波形采样值的变化率在时间轴上从增大到减小的那一点来确定的。例如可以用采样号代表信号波形的各个采样点的坐标(位置)。例如用d(n)代表采样点“n”上的采样值(采样号“n”)，而“th”代表连续采样值之间在时间轴上的差值门限，并且满足以下公式(2)：

d(n)-d(n-1)＞th，并且d(n+1)-d(n)＜-th ...(2)

其中的点“n”是最大峰值点，而点“n”上的采样值就是最大峰值。

在步S45，图2的最大值检测器25检测过零点之间在步S44中确定并具有正值的最大峰值的最大值。具体地说，最大值检测器25确定出现在信号波形的采样值从负变正的一个过零点到信号波形的采样值从正变负的下一个过零点的范围内的最大峰值当中最大的一个。记录下过零点之间最大峰值的最大值的坐标(即采样点和采样号的位置)。

在步S46，最大到最大值间距检测器26检测在步S45中测得的最大峰值的第一最大值和第二最大值之间的间隔，也就是每两个最大值的间距(等于两个波长)。换句话说，间距检测是按每两个波长执行的。用间距检测装置检测周期Ty(＝2Tx)。测得的周期Ty(或频率Fy＝1/Ty)被用于替代原始间距周期Tx(或原始间距频率Fx)。如果用采样号代表信号波形采样点的坐标，就可以用采样号(采样号之间的差)代表在间距检测中确定的周期Ty。假定用max1代表第一最大值的坐标(采样号)，而max3代表第三最大值的坐标，并且满足以下公式(3)：

Ty＝max3-max1 ... (3)

步S47和后续步骤对应着由连续性确定器27执行的处理。在步S47，将间距检测间隔单位前、后的间距彼此比较。在这种情况下可以从Ty/2确定间距周期Tx。或是仍然使用在间距检测步骤中测得的周期Ty。确定一个间距检测单位与下一个间距检测单位的比例“r”。例如可以采用两个波长的周期Ty，并且用Ty(n)代表当前间距检测单位“n”的两个波长周期，还用以下公式(4)代表间距比例r(也就是周期Ty的比例)：

r(n)＝Ty(n)/Ty(n-1) ... (4)

图14的表中列出了对图5的信号波形执行间距检测步骤的结果。如图14所示，从第一间距检测单位连续检测两个波长周期。测得的周期表示为Ty(1)，Ty(2)，Ty(3)，...。表中列出了在用采样号代表的各个间距检测单位中测得的具有两个波长的周期Ty，比例“r”，以及下文所要讨论的连续性确定标志。

在步S48，根据步S47所确定的数据确定具有稳定间距的比例“r”(周期Ty的比例)的一个稳定部分。在步S48中要确定比例“r”的变化率的绝对值|Δr|(＝|1-r|)是否小于一个预定门限th-r。如果确定|Δr|小于该门限th-r(即是)，程序就进到步S49。设置连续性确定标志(置1)，或是将用来对具有稳定间距的稳定部分计数的一个计数器增值。如果在步S48中确定比例“ r”的变化率的绝对值|Δr|是大于或等于该门限th-r(即否)，程序就进到步S50。连续性确定标志被复位(置0)。预定的门限th_r例如是0.05。如图14所示，在测得的检测单位是Ty(2)时，比例“r”是1.00，而绝对值|Δr|是0。标志也就是1。在测得的检测单位是Ty(3)时，比例“ r”是0.97，绝对值|Δr|是0.03，而标志是1。在测得的检测单位是Ty(n)时，比例“r”是0.7，绝对值|Δr|是0.3，而标志是0。

在步S51，要确定测得的间距(或测得的周期Ty)有没有连续性。如果在步S49中设置的连续性确定标志被连续计数五次以上，就确定存在连续性。由此就确定测得的间距(或周期Ty)是有效的。例如图14中所示，标志从周期Ty(2)到周期Ty(6)一直保持为1，测得的间距是有效的。这时就输出一个典型间距，例如是周期Ty(2)到Ty(6)的间距的一个平均值。

如果在步S51确定存在连续性(即是)，程序就进到步S52。就输出在时间轴上始终重复相同或大致相同间距的那一稳定部分的坐标(时间)。在步S53，输出典型间距(稳定部分内周期Ty的平均值)，并且结束处理。如果在步S51中确定没有测得连续性(即否)，就结束处理。反复执行图12中所示的处理，对输入信号波形连续执行间距检测。

总之，有关的立体声麦克风至少要处理两个声源。为了分离出目标人员发出的声音而检测混合信号波形中稳定部分例如是元音的间距。在这种情况下，声音的高度和人的性别并不重要。如果波形不是混合的，就保持其等级方向上的变化，并且波形的周期随自相关改变。对于混合信号的情况，不保持等级方向上的变化。然而要保持时间轴上的间距。按照本发明的实施例，按照两个波长周期检测间距，而不是检测峰值到峰值周期。这样就能可靠并精确地执行间距检测。以便于执行声音分离处理。

以下要说明图1中声源信号分离装置的操作。

图1的间距检测器12可以按照两个波长周期检测间距。本发明不仅限于这种间距检测器。间距检测器12能按照一个波长周期，四个波长周期，或更长的波长周期检测间距。

间距检测器12按照间距检测单位确定间距，并且在相同或大致相同的间距始终重复的各个连续时间段或稳定部分中确定坐标(采样号)。采用图1的立体声麦克风的声音信号发生器根据这些信息片段分离来自至少两个声源的信号波形。

由间距检测器12测得的间距被传送到分离系数发生器14。分离系数发生器14为分离目标声音的滤波器计算电路15产生滤波器系数(分离系数)。分离系数发生器14按照带通滤波器系数产生公式(5)用间距检测器12获得的典型间距作为基本频率产生滤波器系数：

h [i] = Σ_{n = 0}^{m} Σ_{f = Lo [n]}^{Hi [n]} Σ_{i = 0}^{FIRLEN} \cos (2 * Pi / f / FS * (i - HLFLEN)) . . . (5)

其中h[i]代表抽头位置“ i”的滤波器系数，FIRLEN是滤波器抽头编号，HLFLEN是(FIRLEN-1)/2，Pi代表圆周率π，m代表谐波数，而FS代表采样频率。采样频率FS对于48Hz是4800。Lo[n]和Hi[n]代表谐波频率的带宽，其中的Lo[n]用于较高频率，而Hi[n]用于较低频率。可以采用任何带宽，但主要是根据分离性能来确定的。如果最大频率是max_freq而基本频率是f[1]，谐波“m”的整数可以是max_freq/f[1]。如果m＝0，就适合f[0]＝f[1]/2。基本频率可以是f[0]。

图15表示采用由分离系数发生器14产生的滤波器系数的滤波器计算电路15的频率特性。具有图15中频率特性的滤波器是所谓的梳状带通滤波器。在这种滤波器中，抽头越多，波谷和波峰就越陡峭。带宽越窄，各个波谷区域就越宽，并且分离的概率越高。在图16中沿着抽头轴线按抽头位置表示了按照公式(5)产生的带通滤波器系数。为了提高分离性能，需要对窗口函数进行选择。

滤波器计算电路15处理中频区和低频区。滤波器计算电路15采用分离系数发生器14产生的滤波器系数模仿一个具有乘法和求和功能的FIR滤波器，分离出测得的间距中所含的目标声音及其低频分量。

诸如辅音等不稳定波形被输入到高频区处理器17。由于元音和辅音的发音机制是不同的，音频信号被划分成高频区和中频及低频区。如果在不同频带内处理分布在中频及低频区内的元音和分布在高频区内的辅音，就易于确定稳定性。周期性振动发声腱所产生的元音是一种稳定信号。辅音是发声腱不振动的摩擦声或爆破声。辅音的波形趋向于随机波形。如果在元音部分含有随机波形，该随机分量就是噪声，对间距检测有不利影响。对于相同的采样数量，高频信号的波形受损严重，因为其重复性比低频信号要差，间距检测会出错。为此，为了确定稳定性以提高确定的准确性，音频信号被划分成高频区和中频到低频区。

高频区处理器17消除由摩擦声或爆破声等辅音造成的平常不会出现在目标声源的稳定部分即元音部分中的高频随机部分。

在语音中，在元音部分很少出现高级辅音。即使从多个声源的声音的元音部分分离出一个目标声音，如果元音部分中含有随机高频波，分离的声音会不同于原始目标声音。高频区处理器17降低对稳定元音部分中高频波的增益，使得高频波不会被提供给加法器16。所得的输出就会比较接近原始目标声音。

滤波器计算电路15的输出和高频区处理器17的输出被加法器16相加。从输出端子18输出目标声音的分离波形输出信号。

以下要说明立体声麦克风和声源之间的关系。尽管没有具体规定立体声麦克风之间的距离，但对于便携式系统通常是落在数厘米到数十厘米的范围内。例如，安装在集成了VCR(录像机)的照相机等移动装置上的立体声麦克风被用来拾取声音。作为声源的人按三个扇区(中央和左、右)定位，各自覆盖数十度范围。按照这样的布置，无论个人位于哪个扇区内都能分离出目标声音。立体声麦克风之间的空间越宽，考虑到声音到立体声麦克风的传播，分段的扇区就越多。扇区增多意味着装置难以携带。反之，立体声麦克风空间越窄，扇区数量就越少(例如是三个扇区)，但是装置易于携带。

图1中间距检测器12的LPF22和图1中的滤波器20A和20B可以集成在一个滤波器排中。按照这种布置，图2的延迟校正加法器23由图1中的延迟校正加法器13共享，而延迟校正加法器13的输出被传送到滤波器排，在那里被划分成用于间距检测的低频区，用于分离滤波器的中频到低频区，以及用于高频区处理的高频区。

图17的框图表示采用这种滤波器排73的声源信号分离装置。

如图17所示，输入端子71接收由立体声麦克风拾取的立体音响音频信号，并且传送给用作声源信号增强装置的延迟校正加法器72来增强目标声源信号。延迟校正加法器72的结构可以和参照图3所述的结构相同。延迟校正加法器72的输出被提供给滤波器排73。用于划分频带的滤波器排73包括输出高频分量的高通滤波器，输出中频分量的低通滤波器，以及输出低频分量的低通滤波器。高频分量属于辅音带，中频到低频分量属于辅音带外的频带。低频分量属于中频带以下的频带。被滤波器排73划分的频带内的信号之外的低频信号通过一个稳定性确定器74传送到间距检测器75。中频到低频带内的信号被传送到滤波器计算电路77，而高频信号被传送到高频区处理器79。

参照图2所述的间距检测器12包括低通滤波器，用来输出延迟校正加法器72中的低频分量，图17中的稳定性确定器74，和间距检测器75。图2的延迟校正加法器23被移到了LPF22前面，并且对应着图17的延迟校正加法器72。如上所述，图17的稳定性确定器74确定一个稳定性持续时间，在此时间内相同或大致相同的间距在百分之几以下的误差范围内连续重复。如果稳定性持续时间持续到预定的时间周期(例如，如果连续性确定标志每两个波长检测单位重复五次以上)，就确定间距为有效，并且从间距检测器75输出这些间距的典型间距。

声源信号分离器191中的分离系数发生器76按照公式(5)产生滤波器计算电路77的滤波器系数(分离系数)。分离系数发生器76与图1的分离系数发生器14基本上相同。产生的滤波器系数被提供给声源信号分离器191中的滤波器计算电路77。滤波器计算电路77从滤波器排73接收中频到低频分量。和图1的滤波器接收电路15一样，滤波器计算电路77分离出来自目标声源的音频信号。与图1中的高频区处理器17相同的一个高频区处理器79对辅音等不稳定波形执行处理。滤波器计算电路77的输出和高频区处理器79的输出由一个加法器78相加，然后从一个输出端子80输出所得的和作为分离的波形输出。

按照本实施例是在稳定部分中检测间距。单人讲话的语音通常会扩展到时间轴上混合波形的稳定性确定部分的范围。每当检测间距时产生分离滤波器系数。仅仅对稳定性确定区域采用滤波器不能算作有效的处理。最好是在稳定性确定区域附近采用滤波器系数，在时间方向上增强分离性能。

图18表示在元音中测得的两个稳定性确定区域。用LA代表第一稳定性确定区域而RB代表第二稳定性确定区域。两个稳定性确定区域的滤波器系数是彼此不同的。稳定性确定区域LA的滤波器系数在时间轴上被作用于稳定性确定区域RA前、后的区域，而稳定性确定区域RB的滤波器系数在时间上被作用于稳定性确定区域RB前、后的区域。稳定性确定区域前、后的区域可以事先按统计学确定。例如，如果测得一个高频间距，该区域的时间长度就可以设置得较长或较短。如果测得一个低频间距，该区域的时间长度就可以设置得较短或较长。

图19表示时间轴上的实际信号波形。图19的上部(A)表示滤波之前的波形。在带箭头线所代表的范围Rp内检测到基本频率即一个稳定性确定区域和一个典型间距。图19的下部(B)表示通过相对于该间距产生的带通滤波器滤波后的波形。在带箭头线所代表的扩展范围Rq内采用相同的系数。

如果间距频率的所有谐波分量都经过滤波器来改善分离目标声音的分离性能，目标声音以外的声音就不会衰减。采用统计数据可以从求和运算中排除某些谐波频带。

以下要参照图20描述本发明的另一实施例。图20的声源信号分离装置在图17的声源信号分离装置以外还包括一个发言人确定器82和一个区域指示器83。作为分离系数输出装置的声源信号分离装置包括声源信号分离器192中的一个系数存储器和系数选择单元86，替代图17中声源信号分离器191中的分离系数发生器76。

图20的系数存储器和系数选择单元86作为分离系数输出装置，在存储器中存储响应若干间距事先产生的分离滤波器系数，并且响应测得的间距读出分离滤波器系数。例如可以将间距值划分成多个区，为各个区的典型值事先产生分离滤波器系数，用于各区的分离滤波器系数被事先存储在存储器中，并且从存储器中读出对应着落在间距检测中测得的间距范围内的分离滤波器系数。这样，声源信号分离装置就不必通过计算为各个测得的间距产生分离滤波器系数。代之以访问存储器，声源信号分离装置就能快速获取分离滤波器系数。处理速度可以加快。

在发言人确定中，从多个人(声源)当中识别出目标人员的语音。发言人确定器82采用通过LPF81获得的信号波形。通过LPF81获得的低频信号是落在间距检测中由滤波器排73提供的同一低频带内的信号。在发言人确定中，根据图1和3中延迟校正加法器13的输出和按照公式(1)解释的相关系数cor确定相关性，从而确定目标人员有没有说话。具体如图21A所示，可以根据作为稳定持续时间的整个稳定性确定区域的相关值门限来执行发言人确定。如图21B所示，可以将稳定性确定区域划分成小段，并且确定在预定门限以上出现各个相关值的概率来执行发言人确定。如图21C所示，可以按重叠方式将稳定性确定区域划分成多段，并且确定在预定门限以上出现各个相关值的概率来执行发言人确定。按波形的数据特性的相关性进行计算就能确定相关性。在延迟校正附加处理中调节延迟量，对多个声源(人员)的各个方向采用发言人确定，就能识别出发言人。

发言人确定器82的输出被传送到稳定性确定器74和区域指示器83。只要能确定稳定区域，稳定性确定器74就能得到时间轴坐标，并且将坐标数据传送给区域指示器83。一旦确定了发言人，区域指示器83就执行按一定持续时间扩展稳定性确定区域的程序，并且将扩展的稳定性确定区域的定时提供给缓冲器84和85进行区域调节。缓冲器84处在声源信号分离器192的滤波器排73和滤波器计算电路77之间，而缓冲器85处在滤波器排73和高频区处理器79之间。对于被区域指示器83确定为处在稳定性确定区域之外的时间段(区域)要降低增益。为了调节增益制备好和滤波器计算电路77相同的抽头，将中央抽头之外的其它抽头被设置在零，而中央抽头被设置在除1以外的一个系数。为了设置1/10，只需将只要抽头设置为系数0.1。

图20中声源信号分离装置的其余部分与图17的声源信号分离装置的结构相同。相同的元件用相同的标号表示，并在此省略有关的说明。

总之，有关的立体声麦克风至少要处理两个声源。为了分离出目标人员发出的声音而检测混合信号波形中稳定部分例如是元音的间距。在这种情况下，声音的高度和人的性别并不重要。确定带通系数(分离滤波器系数)是为了获得目标声源相对于间距的传送特性。相对于目标声音沿频率轴处在峰值以外的声音由此被衰减。采用系数存储器不需要计算系数。

图22表示按照本发明一个实施例的另一种声源信号分离装置。

如图22所示，输入端子110接收由麦克风拾取的音频信号，也就是由立体声麦克风拾取的立体音响音频信号。音频信号随之被传送到间距检测器12和延迟校正加法器13来增强目标声源信号。延迟校正加法器13的输出被传送到同在一个声源信号分离器190中的基本波形发生器140和基本波形替代单元150。基本波形发生器140根据间距检测器12测得的间距产生基本波形。基本波形从基本波形发生器140传送到基本波形替代单元150，用基本波形替代来自延迟校正加法器13的音频信号的至少一部分(例如是下述的一个稳定部分)。所得的信号作为分离的波形输出从输出端子160上输出。

在这种声源信号分离装置中，间距检测器12和延迟校正加法器13与图1中各自的对应部分保持不变。用相同的标号代表相同的元件，并在此省略了有关的说明。

图22的间距检测器12能按照两个波长间距来检测间距。本发明不仅限于这种间距检测器。例如可以采用按照一个波长周期或偶数波长周期例如是四个波长周期来检测间距的间距检测器。间距检测中采用的波长数量越多，需要处理的采样数量就越多，而出现误差的可能性变小。这种间距检测器不仅可以在图22的声源信号分离装置中使用，还可以在通过检测间距来分离声源信号的各种声源信号分离装置中使用。

基本波形发生器140根据间距检测器12测得的稳定部分的间距产生基本波形。用波长等于间距波长整数倍的波形作为基本波形。在本实施例中采用二倍于间距波长的波长。基本波形替代单元150用由基本波形发生器140产生的基本波形的重复波形替代来自延迟校正加法器13(或来自立体音响音频输入11)的音频信号的稳定部分。基本波形替代单元150向输出端子160输出分离的波形输出信号，仅有来自目标声源的音频信号被增强。

以下要说明图22的声源信号分离装置的操作。

间距检测器12按每个间距检测单位检测间距，并确定相同或大致相同的间距始终重复的一个持续时间，或是音频信号中稳定部分的坐标(采样号)。图1的声源信号分离装置采用立体声麦克风根据这些信息片段分离至少两个声源的信号波形。

如上所述，对各个麦克风的声源执行延迟校正处理来实现相位匹配，并且将相位校正信号合成以增强目标声音。其余信号被衰减。稳定部分的信号波形按等于间距检测单位的周期相加。由此产生稳定部分的基本波形。

如上参照图3所述，图22的延迟校正加法器13执行延迟校正处理，消除从目标声源到麦克风的传播时间延迟之间的差，并且相加并输出所得的信号。基本波形发生器140按照来自间距检测器12的信息处理延迟校正加法器13的输出信号波形，产生基本波形。具体地说，基本波形发生器140按等于间距检测单位的周期将间距时间段或稳定部分内的信号波形相加，从而产生基本波形。图23中用实线代表的波形“a”表示由此产生的一例基本波形。如图5所示各自等于两个波长的六个波形(周期Ty(1)-Ty(6))被相加并取平均值。图23中用虚线代表的波形“b”代表原始目标声音。如图23所示，基本波形“a”是按等于两个波长的周期将间距时间段或稳定部分中的信号波形相加而产生的。基本波形“ a”近似于原始目标声音的波形“b”。目标声音被保持或增强是因为目标声音在相加时没有相位移。换句话说，带相位移的相加会受到衰减。为此要按两个波长的单位执行间距检测，而基本波形也是按两个波长的单位产生的。这是因为在产生的基本波形中保持了周期Ty比间距周期Tx要长的那一分量。

基本波形替代单元150用基本波形发生器140产生的重复的基本波形替代延迟校正加法器13的输出信号波形内的间距时间段或稳定部分。图24中用实线代表的波形“a”表示由基本波形替代单元150替代的重复的基本波形。图24中用虚线代表的波形“b”表示原始目标声音的参考波形。

基本波形替代单元150的间距时间段或稳定部分被基本波形替代的输出波形信号从输出端子160上输出，作为分离出的目标声音的输出波形信号。

图25的示意性流程图表示这种声源信号分离装置的操作。如图25所示，在步S61按两个波长为检测单位执行间距检测。在步S62中确定能否识别到连续性。如果在步S62中确定没有连续性(即否)，程序就返回步S61。如果在步S62中确定存在连续性(即是)，程序就进到步S63。在步S63输入间距检测中获得的各个间距检测单位的起点和终点坐标。在步S64按各个间距检测单位将信号波形相加并取平均值。在步S65替代基本波形。

立体声麦克风和声源(人)之间的关系和前述实施例一样，在此省略有关的说明。

总之，有关的立体声麦克风至少要处理两个声源。为了分离出目标人员发出的声音而检测混合信号波形中稳定时间段例如是元音的间距。在这种情况下，声音的高度和人的性别并不重要。如果前一间距和后一间距之间的误差很小，就确定存在连续性。稳定部分被相加并取平均值。所得的波形被作为基本波形。用基本波形替代原始波形。随着更多替代波形被相加，混合波形被衰减。仅有目标声音被增强后得到分离。

本发明并不仅限于所述实施例。不仅可以按两个波长的周期执行间距检测，还可以按四个波长的周期检测。然而，如果将间距检测周期设置在四个以上波长，需要处理的采样数量就会增加。为此要考虑这些因素来设置间距检测周期。间距检测器的结构不仅可以应用于所述的声源信号分离装置，还可以在通过检测间距来分离声源信号的各种声源信号分离装置中使用。无需脱离本发明的范围还能对所述实施例进行各种各样的修改。

本申请包含的主题涉及到2004年2月20日在JPO递交的日本专利申请JP 2004-045237号和JP2004-045238号的内容，其全文可供参考。

Claims

1.一种声源信号分离装置，包括：

用来增强输入音频信号中的一个目标声源信号的声源信号增强单元，输入信号是来自多个声源的混合声音信号，并且是由多个声音拾取装置拾取的；

用来检测输入音频信号中目标声源信号的间距的间距检测器；以及

根据测得的间距和被声源信号增强单元增强的声源信号从输入音频信号中分离出目标声源信号的声源信号分离单元，

其中，所述声源信号分离单元包括：从声源信号增强单元输出的信号中分离出目标声源信号的滤波器；以及根据间距检测器测得的信息输出滤波器的滤波器系数的一个滤波器系数输出单元，并且

所述声源信号增强单元用声音传播延迟、也就是从目标声源到各自多个声音拾取装置的各个声音传播延迟之间的时间差校正音频信号，并且叠加来自多个声音拾取装置的经校正的音频信号，以便仅仅增强来自目标声源的音频信号。

2.按照权利要求1的声源信号分离装置，其特征是滤波器系数输出单元输出滤波器的滤波器系数特征频率特性，该频率特性使得频率为间距检测器检测到的间距频率的整数倍的频率分量能够通过滤波器。

3.按照权利要求2的声源信号分离装置，其特征是滤波器系数输出单元包括用来存储对应着多个间距的滤波器系数的存储器，并且对应着间距检测器检测到的间距从存储器中读取并输出一个滤波器系数。

4.按照权利要求1的声源信号分离装置，其特征是声源信号分离装置还包括：

高频区处理装置，在来自声源信号增强单元的一个辅音带内处理输出信号；以及

滤波器排，在来自声源信号增强单元的辅音带内提取输出信号，将辅音带内的输出信号传送到高频域处理单元，在来自声源信号增强单元的辅音带外提取输出信号，将辅音带外的输出信号传送到滤波器，并且在来自声源信号增强单元的一个元音带内提取输出信号，将元音带内的输出信号传送到间距检测器。

5.按照权利要求1的声源信号分离装置，其特征是多个声音拾取装置包括左立体声麦克风和右立体声麦克风。

6.按照权利要求1的声源信号分离装置，其特征是间距检测器以目标声源信号间距的两个波长为检测单位来检测声源信号的间距。

7.按照权利要求1的声源信号分离装置，其特征是声源信号分离单元包括：

根据间距检测器检测到的信息来产生基本波形的基本波形产生单元，采用来自声源信号增强单元的输出信号的稳定部分，该稳定部分总体上具有相同或大致相同的连续重复间距；以及

一个基本波形替代单元，用基本波形产生单元产生的重复的基本波形替代基于输入音频信号的至少一部分信号。

8.一种声源信号分离方法，包括以下步骤：

增强输入音频信号中的一个目标声源信号，该输入音频信号来自多个声源的混合声音信号，并且由多个声音拾取装置拾取；

检测输入音频信号中目标声源信号的间距；并且

根据检测的间距和声源信号增强步骤中增强的声源信号从输入音频信号中分离出目标声源信号，

其中，从增强的信号中分离出目标声源信号；以及根据间距检测而测得的信息输出滤波器的滤波器系数，并且

用声音传播延迟、也就是从目标声源到各自多个声音拾取装置的各个声音传播延迟之间的时间差校正音频信号，并且叠加来自多个声音拾取装置的经校正的音频信号，以便仅仅增强来自目标声源的音频信号。

9.一种声源信号分离方法，包括以下步骤：

以目标声源信号的间距的二倍波长为检测单位检测输入音频信号中一个目标声源信号的间距，该输入音频信号是来自多个声源的混合声音信号；并且

根据检测到的间距分离目标声源信号。