CN1707610B

CN1707610B - 对两个谐波信号的共同起源的确定

Info

Publication number: CN1707610B
Application number: CN 200510077850
Authority: CN
Inventors: 弗兰克·茹布兰; 马丁·黑克曼
Original assignee: Honda Research Institute Europe GmbH
Current assignee: Honda Research Institute Europe GmbH
Priority date: 2004-06-04
Filing date: 2005-06-03
Publication date: 2012-02-15
Anticipated expiration: 2025-06-03
Also published as: CN1707610A; DE602004008592T2; DE602004008592D1

Abstract

对两个谐波信号的共同起源的确定。提出了一种用于确定证据值(39)的方法，所述证据值捕获两个带通信号(14、15)是否是共同基频的谐波，其中信号(14)可以是基频。该方法以基本的带通滤波器(12、13)所覆盖的频率的谐波关系和对正弦信号的重要点的距离的估计(32，33)为基础，所述重要点例如是信号的过零点(21、22)或最大值(23)或最小值(24)或过阈值点(25、26)。对这些重要点的距离的估计(32、33)执行所研究的两个谐波(14、15)之间的自动同步，以补偿在语音信号的情况下由声道引起的取决于频率的延迟。

Description

对两个谐波信号的共同起源的确定

技术领域

本发明涉及一种用于确定两个频率分量是否源于一个共同基频的技术。此技术例如可以用于根据单声道记录中的声学声源的基本基频来分离声学声源。然而本发明并不限于声学领域，还可以应用于诸如源于压力传感器的信号的其他信号。

背景技术

当进行声学记录时经常同时存在多个声源。这些可能是不同的语音信号、噪声(例如风扇的噪声)或类似的信号。为了对信号进行进一步分析，首先必须分离这些互相干扰的信号。常见的应用是语音识别或声学场景分析。公知地，在人类的听觉系统中可以根据谐波信号的基频来分离谐波信号(参见A.Bregman，Auditory Scene Analysis，MIT出版社，1990年)。因此，值得注意的是语音信号通常包含许多有声段，从而包含许多谐波段。

在常规方法中，通过带通滤波器将输入信号分成不同的频带，并在后面的阶段针对各个频带在各个时间瞬间计算该频带源于给定基频的范围0和1中的证据值(evidence value)(可以将简单的一元判断理解为使用二元证据值)。通过这样做，可以获得利用以下轴对信号的三维描述：基频、频带、以及时间。在人类听觉系统中也可以找到这类表示(参见G.Langner，H.Schulze，M.Sams，and P.Heil，The topographicrepresentation of periodicity pitch in the auditory cortex.Proc.of the NATO Adv.Study Inst.on Comp.Hearing，pages 91-97，1998)。根据这些预先计算的证据值可以形成具有共同基频的频带组。因此在每组中只存在发自一个基频因此属于一个声源的谐波。这样可以实现对声源的分离。

对声源的分离中关键步骤是确定两个谐波是否发自一个基频从而发自一个单声源。在通常的现有技术中，通过自相关函数来实现该处理(参见G.Hu and D.Wang.Monaural speech segregation based on pitchtracking and amplitude，IEEE Trans.On Nerual Networks，2004)。针对每个频带确定自相关，处于谐波关系的频率在滞后域具有共同的峰。因此，峰也在与谐波频率对应的滞后处和该滞后的倍数处出现。

解决声源分离的生物学原理也是已知的(参见B.Moore，AnIntroduction to the Psychology of Hearing，Fifth Edition，AcademicPress，2003)。

发明内容

考虑到前述情况，本发明的一个目的是提出一种用于分离信号(如声音)源的更有效的技术。

本发明的另一目的是提供一种用于确定两个谐波是否发自一个基频以及两个频带是否源于一个单(如声音)源的有效方法。

本发明以称为锁相(即与输入信号的相位同步)的技术来替代根据现有技术的对自相关函数的使用。

本发明提出使用所研究的信号的过零点来获得与相位的同步。这里，可以仅仅使用从负到正的过零点或者从正到负的过零点，也可以使用这二者。原则上，也可以使用正弦曲线的其他点，如最大值或最小值或与常数值的交点。

根据本发明的第一方面，提出了一种确定证据值的方法，所述证据值用于捕获两个带通信号是否是共同基频的谐波的度量。该方法基于基本带通滤波器覆盖的频率的谐波关系以及对正弦信号的重要点(significant point)(例如信号的过零点或最大值或最小值或过阈值点)的距离的估计，其中，对这些重要点的距离的估计执行所述两个带通信号之间的自动同步，以补偿在语音信号的情况下由于声道(vocaltract)而引入的取决于频率的延迟。

特别地，可以通过范围在0到1的非线性函数将测量出的距离映射

到证据值。

此外，可以将所有信号与所有可能是基频的信号和所有基频的所有可能的谐波进行比较。

根据本发明的另一方面，提出了一种用于抑制两个信号之间的错误对应的方法。该方法包含以下步骤，如果发现还可以产生与其它谐波对应的对应谐波，则产生禁止信号，其中，较低的基频以及该较低的基频的对应谐波禁止较高的基频(例如，关系f₀，4f₀抑制f₀’＝2f₀，2f₀’＝4f₀)。

根据本发明的另一方面，提出了一种方法，该方法使得谐波的证据值从与主基频是谐波关系的非主基频移至主基频及对应的谐波。

根据本发明的另一方面，提出了一种通过沿频率轴应用墨西哥帽形滤波器(Mexican hat filter)来抑制相邻的带通滤波器通道之间的串扰的方法。

此外，根据本发明，提供了一种适于当在计算设备上运行时实施上述方法的计算机软件产品。

最后，本发明旨在使用上述方法以根据单声道记录中的声学声源的基本基频来分离声学声源。

附图说明

根据上述本发明的各个方面并且根据下面结合附图的详细说明，本发明的进一步优点和可能的应用对于本领域技术人员是显而易见的。这里，

图1表示根据本发明如何得到从输入信号滤波的两个频带，

图2表示对于本发明的频带的重要点，

图3是根据本发明的用于确定两个频率分量是否源于一个共同的基频的流程图，以及

图4是根据本发明的确定两个谐波信号的共同起源的证据值的系统的框图。

具体实施方式

图1表示从输入信号11滤波的两个频带14、15，其中本发明对这两个频带14、15是否源于相同的基频进行确定。这里，频带14也可以包含所述基频。然而实际的基频不必在比较中出现，因为比较也可以仅在谐波信号中间进行。该特性也使得能够进行不包含基频的信号中的比较，正如对一些语音信号就是这种情况。

当确定两个信号14、15是否发自一个单源时，仅仅对处于谐波关系的滤波频带进行比较。因此，预先知道这两个信号可能具有的谐波阶，从而当对这两个信号14、15是否源自相同的基频进行计算时，下面的三个参数是已知的，其中信号14可以包含基频：

-f₀，这是比较所根据的基频，

-f_x＝(x+1)×f₀，这是第一信号14的频率，第一信号14可能是基频的第x谐波，以及

-f_y＝(y+1)×f₀，这是第二信号15的频率，第二信号15可能是基频的第y谐波。

将输入信号11(例如是声音信号)供给两个带通滤波器12、13。各带通滤波器12、13分别仅透过频率f_x和f_y周围的优选小频带内的频率。得到的信号是待检测的呈谐波关系的两个滤波频带14、15。

实际上，本发明的称为锁相的技术旨在与输入信号的相位同步。这通过对滤波频带14、15的重要点之间的距离进行估计来实现。

图2例示出本发明可能的重要点，例如信号14、15从负值到正值的过零点21和/或从正值到负值的过零点22，局部最大值23和/或局部最小值24，以及信号14、15与常数c从低值到高值的交点25和/或相反的交点26。

根据本发明，对所研究的两个滤波频带14、15中的重要点(例如过零点)是否同步进行比较。这可以通过对例如两个待测试滤波频带14、15中的过零点之间的距离进行测量来实现。这样做时考虑到过零点对于较高谐波比对于基频更靠近在一起。

图2表示对于不同频率的过零点距离T_zc0和T_zc2。认为频率为f₀和f₂＝3f₀的两个信号分别为基波和对应的第二谐波。信号f₂的过零点距离 T_zc2比信号f₀的过零点距离T_zc0小三倍。

下面参考图3和4说明根据本发明如何确定两个信号是否仅仅发自一个单源。

如图3所示，在第一步骤中对输入信号11进行滤波(31)以产生待检测的两个频带14、15。

在第二步骤中，针对这两个信号14、15测量重要点的距离(32、33)。因此，应该考虑的连续重要点的数量是重要的参数。因为信号14、15的频率不同，所以针对各个信号来调整点的数量。通过考虑所述频带可能的谐波阶，根据以下公式得到频带f_x＝(x+1)f₀的点的数量N_x：

N_x＝N₀(x+1)

其中

-N₀和N_x分别是频带f₀和对其测量距离的频带f_x＝(x+1)f₀的重要点的数量，并且

-x是频带f_x针对基频带f₀的可能的谐波阶。

在第三步骤中，通过计算测量出的距离34、35的差37来比较测量出的距离34、35(36)。如果计算出的差37小于给定阈值，则认为两个频带14、15是相同基频的谐波，其中，频带14也可以是该基频。

在第四步骤中，例如通过高斯函数将计算出的差37映射到38范围为0到1的证据值39，证据值39反映两个频带14、15是否是相同基频的谐波的事实。

图4描述根据本发明的用于确定两个谐波信号的共同起源的证据值的系统。该框图示出了用于选择性地将输入信号滤波成多个频带的滤波器组(bank)41。从滤波器组41的输出选择42两个谐波信号：较低谐波14f_x＝(x+1)f₀和较高谐波15f_y＝(y+1)f₀。

将各个经滤波的谐波14、15分别供给过零点检测器43、44以及积分器45、46。使用过零点检测器43、44与要测量的重要点是过零点的事实相关。本发明的其它实施例包括适于跟踪其它重要点(例如局部最大值23，局部最小值24，和/或信号14、15从较低值到较高值与常数c的交点25和/或从较高值到较低值与常数c的交点26)的检测器。

使检测到的过零点43、44通过积分器45、46来测量各自的N_x和N_y个重要点的距离。比较器47对积分器45、46输出的测量值进行比较。然后非线性函数48根据所述比较47产生证据值39。非线性函数48例如是将比较47映射到范围在0到1中的证据值39的高斯函数。

下面描述本发明的实施例，其中要测量的重要点是过零点。

提出了使用基本基频的期望距离作为测量的基础。对于两个频带14、15，对我们根据所研究信号的谐波阶而预期的数量个过零点之间的距离进行测量(例如，对于2f₀，从一过零点开始到隔一个过零点的距离)。对研究的两个滤波器频带14、15比较这些过零点的距离。

根据对两个过零点测量值的差来确定两个信号14、15是否发自相同基频。如果该差接近零(即在给定的较低阈值以下)，则认为它们发自相同的基频，因此证据值高。如果该差大(与较高阈值相比)，则它们不太可能源于相同基频，因此证据值低。

例如可以用范围在0到1的非线性函数(例如高斯函数)将距离映射到证据值。由于基频和对应谐波的共同起源是声门(glottal)激励信号，因此基频和它的谐波是同步的。声道的影响干扰该同步，所述声道根据当前清晰度引起取决于频率的延迟。因为对过零点的差进行跟踪执行对所研究两个谐波的自动同步，所以其使得能够自适应地消除该延迟。

当基本的基频发生变化并且由于基本的基频和谐波的频率都以同样的方式发生变化从而谐波频率也发生变化(因此不会影响过零点的相对距离)时，也可以检测两个信号14、15的对应性。在前述的针对基频、滤波频带以及时间的三维空间中标记计算出的证据值。对于每个所研究的信号，将最后计算出的证据值加到三维空间中的基频轴上的估计的基本基频的位置、以及频带轴上的对应于该信号的频带的位置。

所得到的证据值向我们提供了对这两个信号在基频的一个周期内的关系的测量。为了在基频的下一周期对该证据值进行计算，我们开始于基频上一周期使用的最后过零点。

在常规方法中，当使用自相关时，自相关中的峰宽度取决于信号的频率，因此对信号的谐波关系进行估计的基础也取决于信号的频率。低频信号具有宽的峰，因此测量很粗略。本发明算法具有如下优点：测量的分辨率仅取决于采样点的距离，从而仅取决于采样率。对于所有频率，该精度与使用自相关时一样高或更高。因此，与自相关方法相比，本发明的算法能够分辨出两个信号14、15并非发自一个共同的基频而只是凑巧接近谐波关系。

在比较期间，对实际的基频15和可能的谐波14、15进行同样处理。这意味着一方面执行基频与其可能的谐波之间的比较，另一方面仅仅执行一个基频的多个可能谐波之间的比较。当仅仅使用滤波频带的比较时，以用于分解信号的带通滤波器的中心频率来使可能的基频值离散化。但这并不限制本发明算法的适用性，因为将信号分量指定到不同的源也是基于频带的。此外，可以通过使用过零点的差的实际值来实现对基频的更精确估计。

本发明的算法的应用的高频界限是由使用的采样率确定的。如果过零点彼此过于接近(所研究信号的频率与采样率相比过高)，则无法再计算有意义的证据值。过零点的最小距离的实际值也取决于输入信号中的噪声。当仅使用正到负的过零点或负到正的过零点时的合理值是4个采样，这使得高频界限是采样频率的五分之一。

通过还将某范围(例如50-1000Hz)内的所有可能基频与作为彼此的所有谐波的所有谐波(受采样率限制)进行比较，可以获得一个给定信号发自给定基频的多个暗示。为了抵消这种激励效果，并且因为谐波只能发自一个基频，所以提出了禁止处理。如果识别出谐波4f₀发自f₀，则可能的基频f₀’＝2f₀接收到禁止输入(例如，该禁止输入是激励输入的相反数)。通过这样做，认为频率最低的基频是最可能的基频。

在对可能谐波的所有组合进行比较之后，可以通过对所有频带的证据值进行合计来确定给定时间瞬间的主基频。当确定了主基频时，在第二禁止阶段，将与主基频呈谐波关系的非主基频的所有证据值移至主基频和对应谐波。这些非主基频的错误证据值是主基频与非主基频之间的谐波关系的结果，这导致不能通过对过零点的距离测量来区别它们和真正的基频。

当使用带通滤波器来分解输入信号时，谐波在中心频率最接近该谐波频率的滤波器中产生响应，但由于滤波器的选择性有限，在邻近的滤波器中也产生较弱的响应。为抑制这种串扰，提出了以对邻近带通信号的包络进行滤波的方式来沿着频率轴应用墨西哥帽形滤波器。必须将该滤波器的中央峰选择为宽于1，从而不干扰谐波频率的变化，由此不干扰谐波的主响应从一个滤波器通道到另一个滤波器通道的转移。

Claims

1.一种用于确定证据值(39)的方法，所述证据值是表示两个带通信号是否是公共基频的谐波的度量，其中

——该方法对带通滤波器(12、13)所覆盖的频率的谐波关系和正弦信号的重要点的距离(32、33)进行估计，所述重要点是信号的过零点(21、22)或最大值(23)或最小值(24)或过阈值点(25、26)，并且

——对这些重要点的距离的估计执行所述两个带通信号之间的自动同步，以补偿任何取决于频率的延迟。

2.根据权利要求1所述的方法，

其特征在于，

通过范围在0到1的非线性函数将估计的距离(34、35)映射到(38)证据值(39)。

3.根据权利要求1或2所述的方法，

其特征在于，

将所有的信号与所有可能是基频的信号以及所述基频的所有可能的谐波进行比较。

4.根据权利要求1或2所述的方法，

该方法包括以下步骤：

——如果发现还可以产生与其它谐波对应的对应谐波则产生禁止信号，

其中，较低的基频以及该较低的基频的对应谐波禁止较高的基频。

5.根据权利要求1或2所述方法，该方法还包括以下步骤：将所述谐波的证据值从与主基频呈谐波关系的非主基频移至主基频和对应谐波。

6.根据权利要求1或2所述的方法，该方法还包括以下步骤：通过沿频率轴应用墨西哥帽形滤波器来抑制相邻的带通滤波器通道之间的串扰的方法。

7.一种用于确定证据值(39)的计算装置，所述证据值是两个带通信号(14、15)是否是公共基频的谐波的度量，该计算装置包括：

——用于估计带通滤波器(12、13)所覆盖的频率的谐波关系的装置(47、47)，以及，

——用于估计正弦信号的重要点的距离(32、33)的装置(43、44，45、46)，所述重要点是信号的过零点(21、22)或最大值(23)或最小值(24)或过阈值点(25、26)，

其中，对这些重要点的距离的估计执行所研究的两个谐波之间的自动同步以补偿任何取决于频率的延迟。

8.根据权利要求7所述的计算装置，

其特征在于所述计算装置还包括，

用于通过范围在0到1的非线性函数将估计的距离(34、35)映射到证据值(39)的装置(48)。

9.根据权利要求7或8所述的计算装置，

其特征在于，

用于将所有信号与所有是可能基频的信号以及所述基频的所有可能的谐波进行比较的装置。

10.将根据权利要求1至6中的任一项所述的方法用于根据单声道记录中的声学声源的基频对该声学声源进行分离。

11.将根据权利要求1至6中的任一项所述的方法用于将噪声与单源分离。

12.将根据权利要求1至6中的任一项所述的方法用于对信号中普遍存在的源于不同源的信号分量进行分离。