CN101558397A - 用于产生分离的信号的系统和方法 - Google Patents

用于产生分离的信号的系统和方法 Download PDF

Info

Publication number
CN101558397A
CN101558397A CNA200780013583XA CN200780013583A CN101558397A CN 101558397 A CN101558397 A CN 101558397A CN A200780013583X A CNA200780013583X A CN A200780013583XA CN 200780013583 A CN200780013583 A CN 200780013583A CN 101558397 A CN101558397 A CN 101558397A
Authority
CN
China
Prior art keywords
signal
frequency domain
frequency
group
secondary signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA200780013583XA
Other languages
English (en)
Inventor
詹国梁
埃里克·维瑟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Softmax Inc
Original Assignee
Softmax Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Softmax Inc filed Critical Softmax Inc
Publication of CN101558397A publication Critical patent/CN101558397A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及盲源分离。更明确地说,其涉及使用频域处理的盲源分离。

Description

用于产生分离的信号的系统和方法
相关申请案的交叉参考
本申请案主张基于2006年3月1日申请的第60/777,900号美国临时专利申请案以及2006年3月1日申请的第60/777,920号美国临时专利申请案的优先权,所述两个临时专利申请案均全文以引用的方式并入本文中。
技术领域
本发明涉及盲源分离。更明确地说,其涉及使用频域处理对信号进行的盲源分离。
背景技术
可使用盲源分离(BSS)方法来分离声音混合物,所述方法可包括时域或频域方法。时域方法可实现较好的分离性能,但可导致比可比较的频域方法多的计算。并且,由于在时域方法中,每个滤波器分接头调适取决于所有其它分接头,所以收敛可能较缓慢,倾向于局部最小值,且因此可能会在很大程度上取决于良好的初始化。
因此,需要可导致改进的信号分离同时缩短计算时间和/或改进解收敛的装置和方法。
发明内容
在一些实施例中,本发明涉及一种信号分离方法,其包含:接收一组频域第一信号,其中每一频域第一信号包括对应于多个频率的频域第一信号元素,且其中所述组频域第一信号包括多个信号源;将所述组频域第一信号分离为一组频域第二信号,其中所述组频域第二信号包括对应于所述多个频率的各个频率的一组分离频域第二信号元素,且其中每一频域第二信号元素被指派得到一识别符,所述识别符指示所述组频域第二信号中的哪一者包含频域第二信号元素;以及对对应于至少一个频率的识别符进行重排序以改进频域第二信号的相干性以产生一组频域第三信号。
所述分离所述组频域第一信号可包含盲源分离方法。所述盲源分离方法可应用于对应于各个频率的频域第一信号元素。所述相干性可包含反映不同频率下信号的共同活动性的函数。改进频域第二信号的相干性可包含优化频域第二信号的相干性。改进频域第二信号的相干性可包含改进一对邻近的频域第二信号元素的相干性。对识别符进行重排序可包含对对应于多个频率的识别符进行重排序。对识别符进行重排序可进一步包含对识别符从所述多个频率的低频率到所述多个频率的高频率依次进行重排序。对识别符进行重排序可包含对对应于多个频率的识别符进行重排序。对识别符进行重排序可进一步包含改进非重叠对的频域第二信号元素之间的相干性。改进频域第二信号的相干性可包含优化对应于第一频率子集的频域第二信号元素的相干性,和优化对应于第二频率子集的频域第二信号元素的相干性,其中第二频率子集大于第一频率子集,且其中第二频率子集包括第一频率子集。在一些实施例中,本文揭示的方法可进一步包含变换一组时域输入信号以产生所述组频域第一信号。时域输入信号可以是声音信号混合物。声音信号混合物可包含语音信号。在一些实施例中,本文揭示的方法可进一步包含逆变换所述组频域第三信号中的一频域第三信号以产生所需信号。
在一些实施例中,本发明涉及一种信号分离方法,其包含:接收一组频域第一信号,其中每一频域第一信号包括对应于多个频率的频域第一信号元素,且其中所述组频域第一信号包括多个信号源;使用包括学习规则的独立向量分析(IVA)方法将所述组频域第一信号分离为一组频域第二信号;以及将一个或一个以上约束应用于所述学习规则。
所述一个或一个以上约束可从所述组频域第二信号中导出。将一个或一个以上约束应用于所述学习规则可减小收敛在局部最小值或最大值上的可能性。本文揭示的方法可进一步包括接收第二组频域第一信号,以及使用受约束信号分离方法分离所述第二组频域第一信号。所述一个或一个以上约束可包含几何约束。几何约束可包含估计到达方向信息,且其中通过使用已知传感器位置利用直方图和/或其它统计技术计算输出信号次能带来估计到达方向信息。所述一个或一个以上约束可包含关于信号的频谱或能量特征的信息。所述信号可选自频域第一信号、所需输出信号和非所需输出信号。所述一个或一个以上约束可包含非导出约束。
在一些实施例中,本发明涉及一种用于分离信号的系统,所述系统包括:接收器,其接收一组时域输入信号;变换器模块,其将所述组时域输入信号变换成一组频域第一信号,其中每一频域第一信号包括对应于多个频率的频域第一信号元素,且其中所述组频域第一信号包括多个信号源;频域信号分离器模块,其将所述组频域第一信号分离为一组频域第二信号,其中所述组频域第二信号包括对应于所述多个频率的各个频率的一组分离频域第二信号元素,且其中每一频域第二信号元素被指派得到一识别符,所述识别符指示所述组频域第二信号中的哪一者包含频域第二信号元素;以及重排序模块,其对对应于至少一个频率的识别符进行重排序以改进频域第二信号的相干性以产生一组频域第三信号。
所述频域信号分离器模块可通过使用独立分量分析方法和/或独立向量分析方法来分离所述组频域第一信号。所述重排序模块可包含:初始参数子模块,其通过确定对应频率来确定待重排序的第一频域第二信号元素;相干性改进子模块,其改进对应于预定频率的频域第二信号元素与对应于邻近于预定频率的频率的频域第二信号元素的相干性;以及频率前进子模块,其确定待重排序的后续频域第二信号元素,其中频率前进子模块将后续频域第二信号元素确定为对应于一频率的频域第二信号元素,所述频率邻近于对应于最近重排序的频域第二信号元素的频率。
重排序模块可包含:初始参数子模块,其通过确定对应频率来确定待重排序的第一频域第二信号元素;相干性改进子模块,其改进对应于预定频率的频域第二信号元素与对应于邻近于预定频率的频率的频域第二信号元素的相关性;以及频率前进子模块,其确定待重排序的后续频域第二信号元素,其中频率前进子模块将后续频域第二信号元素确定为先前未由相干性改进子模块分析的频域第二信号元素。重排序模块可包含:初始参数子模块,其将一群组的重排序元素的初始状态确定为对应于至少一个频率的第一频域第二信号元素;相干性改进子模块,其改进所述群组的重排序元素内的频域第二信号元素的相干性;以及频率前进子模块,其确定待添加到所述群组的重排序元素的频域第二信号元素。本文描述的系统可包含逆变换器模块,其对所述组频域第三信号的频域第三信号进行逆变换以产生所需信号。所述系统可包含手持机和/或电话。
在一些实施例中,本发明涉及一种用于分离信号的系统,所述系统包含:接收器,其接收一组时域输入信号;变换器模块,其将所述组时域输入信号变换成一组频域第一信号,其中每一频域第一信号包括对应于多个频率的频域第一信号元素,且其中所述组频域第一信号包括多个信号源;频域信号分离器模块,其使用包括学习规则的独立向量分析(IVA)方法将所述组频域第一信号分离为一组频域第二信号;以及约束强加器模块,其将一个或一个以上约束强加于所述学习规则。
本文描述的系统可进一步包含约束导出器模块,其从所述组频域第二信号中导出所述一个或一个以上约束。所述一个或一个以上约束可包含几何约束。几何约束可包含估计到达方向信息。通过使用已知传感器位置利用直方图和/或其它统计技术计算输出信号次能带来估计到达方向信息。所述一个或一个以上约束可包含非导出约束。所述一个或一个以上约束可包含关于频域信号分离器模块中的信号的频谱或能量特征的信息。本文描述的系统可包含手持机和/或电话。
附图说明
图1是包含先验约束的信号分离系统的一个实施例的说明。
图2是包含用于将先验约束应用于学习规则的模块的信号分离系统的一个实施例的说明。
图3是信号分离系统的一个实施例的说明。
图4是信号分离过程的一个实施例的流程图。
图5是信号分离系统的一个实施例的说明。
图6是示范性声音场景的示意图。
图7展示使用应用于图6说明的实例的现有技术过程进行IVA输出的到达方向直方图。
图8展示使用如本文所描述应用于图6说明的实例的信号分离过程进行IVA输出的到达方向直方图。
图9是应用于图6说明的实例的不同过程的空间滤波器特征的说明。
图10是信号分离过程的一个实施例的说明。
图11是分离过程的一个实施例的流程图。
图12是用于信号分离过程的一个实施例的排列表的说明。
图13A和13B是对用于信号分离过程的一实施例的排列表进行重排序的说明。
图14是用于对用于信号分离过程的一实施例的排列表进行重排序的过程的流程图。
图15A和15B是对用于信号分离过程的一实施例的排列表进行重排序的说明。
图16是用于对用于信号分离过程的排列表进行重排序的过程的一个实施例的流程图。
图17是对用于信号分离过程的排列表进行重排序的一个实施例的说明。
图18是用于对用于信号分离过程的排列表进行重排序的过程的一个实施例的流程图。
图19A到19C是对用于信号分离过程的排列表进行重排序的一个实施例的说明。
图20是用于对用于信号分离过程的排列表进行重排序的过程的一个实施例的流程图。
图21是用于对用于信号分离过程的排列表进行重排序的过程的一个实施例的流程图。
具体实施方式
独立向量分析(IVA)已用于信号分离方法和系统中。IVA方法可在频域中实施,使得时域信号混合物首先变换到频域中。信号分离方法可接着应用于信号混合物的每一频率分量以便分离输出信号混合物。与IVA相关联的学习规则可主张与任何给定频率相关联的分离的输出信号元素为独立的,同时频率间可存在相关。因此,IVA方法可包括完全自适应的滤波器。然而,此类方法可能倾向于收敛在局部最小值和最大值上。此外,虽然可为输出信号内的次能带提供学习规则,但其可能不足以针对正确来源适当地识别所有信号元素。
在一些实施例中,本发明涉及改进包括独立向量分析(IVA)步骤和/或模块的方法和系统。在一些实施例中,本文揭示的方法和系统通过(例如)减小收敛在局部最小值或最大值上的可能性和/或改进速度和/或稳健性来改进性能。
在一些实施例中,本发明涉及包括应用于信号分离过程的约束的方法和/或系统。所述约束可应用于信号分离过程的学习规则。学习规则可以有规律的时间间隔来修改。所述约束可先验地已知或导出,且可包含几何约束。所述约束可减小信号分离过程收敛到局部最小值或最大值的可能性。
在一些实施例中,本发明涉及将对应于不同频率的分离的源元素重指派到不同的输出源,以便改进指派到每一源的不同频率的源元素之间的相干性。此重指派可包括线性、自底向上或自顶向下技术以便识别(例如)最佳重指派。
输入信号
在一些实施例中,本发明涉及用于分离信号的方法或系统。所述信号可以是两个或两个以上信号。所述信号可以是声音信号。或者,所述信号可以是生物医学、频谱、数据或其它数据源信号。
所述信号可从一个、两个或两个以上麦克风产生。麦克风可安装在例如手持机或无线移动手持机等语音附件或语音装置上。麦克风可经定位以从多个声音源接收声音信号,所述声音源可包含目标源(例如,人类发言者)。麦克风可使用转换器技术将声音信号转换为电信号。
本文描述的方法或系统可用以将语音信号与(例如)背景噪声分离。将了解,所揭示的系统可有利地用于多种多样的声音产品上。
包括约束的频域信号分离
在一些实施例中,本发明涉及包括在频域中执行的信号分离和对信号分离强加约束的方法和/或系统。所述约束可从先前由信号分离产生的分离的数据中导出。所述约束可基于先前分离经验而先验地已知。在一个实施例中,所述约束可包括几何约束,或关于源的频谱特性的约束。另外,所述约束可通过学习规则来应用。虽然在一些实施例中,系统和装置可包括将时域信号变换为频谱输入信号,但在其它实施例中,所述变换过程不是所述系统和装置的一部分。
在一些实施例中,系统和装置包含将至少一个分离的频域信号逆变换为至少一个时域信号,但在其它实施例中,系统和装置并不包含此操作。在一些实施例中,信号分离包括盲源分离。在一些实施例中,信号分离包括独立向量分析(IVA)或独立分量分析(ICA)。
参看图1,系统10提供一种用于分离信号的过程和系统。例如麦克风12和麦克风16等多个麦克风接收信号。尽管仅展示两个麦克风,但将了解,在额外实施例中可包含不同数目的麦克风。麦克风12和16可用以将声音信号(未图示)分别转换为电信号14和18。
在一些实施例中,电信号14和18是时域信号。电信号14和18可分别取样到取样窗口集20和22中。取样窗口集20和22的每一取样窗口可(例如)在约8kHz下获取且延续约200个时间取样单位。将了解,可使用其它取样窗口长度和取样速率,其可取决于特定应用和时域信号的类型。
接着可分别通过快速傅里叶变换(FFT)过程24和26对取样窗口集20和22的每一取样窗口执行FFT。以此方式,每一FFT过程24和26产生用作对信号分离过程28的输入的频域信息。
信号分离过程28可有利地是盲信号分离过程,例如ICA(独立分量分析)过程,或另一分离过程。信号分离过程28可试图将输出频域数据分离为独立的信号源。独立的信号源可包含两个信号源,如图1所示,或更多信号源。更明确地说,输出数据放置到频段(frequency bin)中并临时存储在分离的频段数据29中。将了解,可使用产生某种频率相依次能带结构的比如子波滤波器组(wavelet filterbank)的其它次能带变换。
分离的频段数据29可输入到快速傅里叶逆变换(IFFT)过程35中。分离的频段数据29的每一分离的分量可接着通过IFFT过程35变换以对应于时域输出,例如时域输出37和39。在一些情况下,将存在两个以上时域输出。所述时域输出中的一者可以是源信号的估计值,且所述输出中的一者或一者以上可以是一个或一个以上噪声信号的估计值。在一些情况下,并非分离的频段数据29的所有分离的分量均通过IFFT过程35变换。举例来说,仅对应于源信号的分离的分量可通过IFFT过程35变换。
信号分离过程28可使用学习规则27将频域输入分离为分离的源指派。有利的是,学习规则27可被约束以通过将额外项添加到滤波器学习规则来改进分离性能。通过约束学习规则27,可启用更有效且稳健的分离过程。学习规则27可由先验约束31约束。这些先验约束31可与(例如)预期源位置或位置范围、预期分离信号频谱特征或另一预期信号质量有关。在特定实例中,如果已知一源处于特定位置,则学习规则27可被先验约束以查明所述源处于受限制的位置范围内。以此方式,可更快速且正确地识别源。将了解,其它先验约束31可用于使学习规则更有效。举例来说,先验约束31可与(例如)噪声信号的预期位置或频谱特征有关。先验约束可包含由用户指定的信号频谱约束。举例来说,在例如雷达和声纳等一些应用中,激励信号的良好估计通常是可用的。
学习规则27还可被导出的约束30约束。这些导出的约束30使用分离的频段数据29来调节或设定学习规则27中分离信号的目标特性。举例来说,如果分离的频段数据29指示源处于特定位置范围中,那么导出的约束30可经设定以将学习规则27的“视界”限于所述位置,或至少限于导出的位置周围的大体区域。此位置信息可包含(例如)到达方向(DOA)信息。导出的约束30还可能能够根据实际操作条件来调适默认的先验约束31。应注意,导出的约束30在以“在运行中”方式收敛到部分分离的解时被获得和调适,这与在滤波器学习过程开始之前可用的先验约束31相反。在一些实施例中,导出的约束30和先验约束31均应用于学习规则27。在其它实施例中,仅导出的约束30应用于学习规则27。在另外其它实施例中,仅先验约束31应用于学习规则27。另外,先验约束31可经配置以影响导出的约束30,且/或导出的约束30可经配置以影响先验约束31。举例来说,先验约束31可影响导出的约束30的初始条件。
在一些实施例中,本发明涉及一种分离系统50,如图2中所说明。信号分离模块54可从对应于图2中的输入信道51和52的一个或一个以上输入信道接收输入信号。信号分离模块54可以是盲信号分离过程,其可包括独立分量分析(ICA)过程,但可使用其它过程。
信号分离模块54可影响学习规则58且可受学习规则58影响。学习规则58可包含用于约束学习规则58的操作的一个或一个以上受约束项60。这些一个或一个以上受约束项60可包含方向性矩阵,或可包含零点射束和几何信息。受约束项60可具有默认设置,或可包含先验约束62。先验约束62可包含关于(例如)通过(例如)装置或系统的另一方面获得的源位置、源能量或源的频谱信息的信息。受约束项60还可包含导出的约束64,如下文进一步描述。
学习规则58还可包括加权因数61,其可乘以所述一个或一个以上受约束项60且可用于将BSS优化目标与先验约束62和导出的约束64的实行进行折衷。相对于BSS目标用于所述一个或一个以上受约束项60的加权因数61也可经预设或经调节以实现更可靠、更快速和更优的分离。将了解,可根据操作条件来调适加权因数。还将了解,一些约束可以是固定且不可调适的,而其它约束是既定应调适的默认起点。可通过导出的约束64来调适加权因数,如下文进一步描述。
在操作期间,信号分离模块54可产生根据指派的信号源而组织于频段中的分离的频段输出数据56。分离的频段输出数据56的分离分量可包含分离的频段的源分量59。在一个实施例中,分离的频段的源分量59可输出到IFFT过程,其中产生分离时域源信号。在另一实施例中,仅频域分离权数被发送通过IFFT,且时域混合物信号以所获得的时域分离滤波器来滤波。
分离的频段输出数据56还可用于确定一个或一个以上导出的约束64。这些导出的约束64通常是几何或位置信息,但还可包含频谱或能量信息。还可根据预期特征69或来自总体系统的另一部分的信息来动态地调节导出的约束64。举例来说,无线手持机可具有无线电设备,所述无线电设备可提供可用于进一步调节或设定导出的约束64的信息。隐含地使用导出的约束64以辅助通过学习规则58中的受约束加权因数61来正确地对分离的频段输出数据56进行排序66。
举例来说,相位关系可用于确定到达方向(DOA)信息,且在确定这些相位关系的过程中,可产生指示一些输出数据更适当地与不同源相关联的信息。作为特定实例,可观察到邻近频段之间的明显相差,其一般对于语音信号将是非预期的。在此情况下,相位不连续性可指示输出数据中的某一频率范围已被误指派,且因此针对所述频段范围的输出应通过使用加权的受约束学习项来重配置,(例如)以使频段到频段的相变最小化。特定BSS输出中显现的DOA的选择可通过某一受监督的方法来确定,即在曲线图中作为BSS输出DOA的函数来评估被部分求解的分离;或者以不受监督的方式来确定DOA的选择。举例来说,卡尔曼滤波器可通过使用从低频率开始朝向高频率的相位信息以及频段间的DOA波动的典型变化来估计特定BSS输出中的平均DOA。DOA相移一旦超过典型的频段间变化统计上显著且不太可能的量,发生此强DOA移位的频段便可能标记分离源之间的频段范围的排列事件。至此由从低频段开始的卡尔曼滤波器提供的DOA估计值可用作导出的DOA约束参数以迫使针对此BSS输出的剩余高频率DOA与BSS输出的低频率分离部分对准。
在一些实施例中,本发明涉及一种分离系统100,如图3中所说明。系统100包含信号分离模块106,其从一个或一个以上输入信道(例如,输入信道102和104)接收频率数据,并产生产生分离的频段输出数据109。所述产生分离的频段输出数据109使一组频段110与特定独立信号源112相关联。每一频段具有输出数据114,其表示用于相关联样本窗口的复合频率数据。输出数据114可由导出过程使用以导出导出的约束121,例如用于一个或一个以上源的到达方向(DOA)信息。举例来说,用于源1的DOA可通过分析输出数据D1-1,D1-2,D1-3到D1-n来确定。导出过程可在一组输出数据上求DOA信息的平均值以更准确地定位源,且可监视频段之间相位信息的异乎寻常地大的变化,这可指示一些输出数据已被误指派。将了解,其它滤波和选择过程可用于确定DOA信息。
所监视的相位事件还可用于重配置分离的频段输出数据109中的输出数据。举例来说,可观察到邻近频段之间的明显相差,其一般对于语音信号将是非预期的。在此情况下,相位不连续性可指示一些输出数据已被误指派,且因此针对所述频段的输出应经重配置,(例如)以使频段到频段的相变最小化。将了解,可导出可用于辅助重配置输出数据的其它信息。如所说明,所监视的相位事件可用于调节学习规则以调节信号分离过程来校正误指派。在替代方案中,所监视的相位事件可由重排序过程使用以对一个或一个以上频段内的BSS输出数据进行重排序。
导出的约束121可用于界定几何约束123,几何约束123可使得学习规则125能更有效和稳健地分离信号。举例来说,用于一个或一个以上源的导出的DOA信息可用于将学习规则集中于特定几何或位置解。几何约束123还可包含默认条件或其它先验约束127。例如,如果麦克风具有与目标源的固定关系,或可通过装置的其它方面来动态地调节,则这些先验约束127可以是静态的。
在一些实施例中,本发明涉及一种分离过程150,如图4中所说明。在过程150的步骤152处,在滚动窗口中获取声音信号。在过程150的步骤154处,快速傅里叶变换(FFT)应用于时域滚动窗口以产生频域数据。在过程150的步骤156处,将所得频域数据(也称为FFT数据)用作对信号分离过程的信道输入。先验约束155可用于使信号分离过程更加有效和稳健。这些先验约束155可以是静态的或通过总体系统的另一方面来调节。在过程150的步骤158处,来自信号分离过程的输出提供分离的BSS输出数据,其是根据信号源而分离的。在过程150的步骤161处,可分析分离的输出数据以调节过程的步骤。举例来说,分离的输出数据可用于调节用于分离过程的学习规则中的可调适约束或加权因数。还可分析输出数据以提供可用于对频段中的输出数据的源指派进行重排序或校正的信息。在过程150的步骤163处,可通过IFFT来处理频域数据。在过程150的步骤165处,IFFT可接着产生分离的时域信号。或者,仅频域分离权数可被发送通过IFFT,且时域混合物信号可用所获得的时域分离滤波器来滤波。
多变量激活函数和几何约束
在一些实施例中,本文描述的方法和/或系统的约束包含几何约束,且所述约束可强加于与IVA方法相关联的学习规则。可使用任何过程或方法来导出约束,并将约束应用于信号分离过程或方法。然而,以下用一个特定数学公式作为实例。
在频域中,复数ICA涉及为每一频率ω找到离析矩阵W(ω),使得反混合输出Y(ω,l)=W(ω)X(ω,l),其中X(ω,l)=[X1(ω,l),...,XM(ω,l)]T(时间窗口l,混合物数目M)是时域混合物x(t)的DFT,是相互独立的。W(ω)的更新规则由下式给定
Figure A20078001358300161
等式1,
其中Y(ω,l)=[Y1(ω,l),...,YM(ω,l)]T,<>表示时间l=1,...,L中的平均算子,且μ是学习速率。传统的Infomax激活函数由
Figure A20078001358300162
Figure A20078001358300163
给定,其连同更新规则(1)一起暗示独立地针对每一频段对ICA问题求解,从而导致排列问题。然而,通过假定所关注的信号具有可通过多维先验建模的频域中的某一相依性,原始相依源可使用此先验提取作为一群组。因此,获得多变量激活函数
Figure A20078001358300164
等式2,
其中分母中的项涉及所有频率上的分离的源频谱功率。应注意,此处使用的多变量激活函数是从一般统计分布导出的更一般学习规则的特殊情况。参看2006年3月1日,金(Kim),T.,李(Lee),T.-W.的美国专利申请案“用于盲源信号分离的系统和方法(Systems and Methods for Blind Source Signal Separation)”,以及金(Kim),T.,埃尔托夫特(Eltoft),T.,李(Lee),T.-W的“独立向量分析(IVA):ICA扩展到多变量分量”,2006年3月第6届ICA和BSS会议会报,第165-172页,两个文献均全文以引用的方式并入本文中。通过以最小失真原理设计的缩放矩阵对W的缩放模糊性进行解析。
如等式(2)中多变量激活函数的使用通过在滤波器学习过程期间在各个频段滤波器权数之间引入明确相依性来避免排列问题。实际上,滤波器权数的此同时连接的调适引入类似于在时域算法中已观察到的对初始滤波器条件的增加的收敛相依性。因此,此处使用几何约束来克服这些实际限制。
任何几何约束均可应用于本文的方法和/或系统。此外,本文描述的先验约束或导出的约束可仅包含几何约束,包含几何约束连同其它约束,或可不包含任何几何约束。
几何约束可用于将特定输出信道的空间响应约束于特定定向并将零点射束放置在其它定向中。这是线性约束的自适应性射束成形、尤其是一般化旁瓣抑制器(GSC)的基本共同概念。此处提出的思想是将调整项添加到独立向量分析(2006年3月1日的IVA,见金等人的美国专利申请案“用于盲源信号分离的系统和方法”)成本函数,所述函数支持其通过将空间零点放置在干扰源方向上而集中于特定源方向的目标。提出以下调整项
J(ω)=α(ω)||W(ω)*D(ω,θest)-C(ω)||2                    等式3,
其中MxM矩阵C(ω)由下式给定
C ( ω ) = C 1 ( ω ) 0 0 . . . 0 C 2 ( ω ) 0 . . . 0 0 . . . . . . . . . . . . . . . . . .
方向性矩阵D(ω,θest)的列由向量dj组成
dj=exp(-i*cos(θestj)*pos*ω/c)                               等式4,
其中pos=[p1 p2 ... PM]T是传感器位置,c是声音在空气中的速度,i是-1的平方根。
θestjs是R<=M源的源到达方向(DOA)估计值,其可从先验知识获得或需要用以下方式迭代地确定。先前已展示使用离析矩阵W的反转形式,可用下式估计分离输出Yj的DOA
θj,mn(ω)=arc cos(c*arg([W-1]nj(ω)/[W-1]mj(ω))/(ω*||pm-pn||))    等式5,
其中θj,mn(ω)是源j相对于传感器对m和n的DOA,pm和pn分别是麦克风m和n的位置,且c=340m/s是声音传播速度。(见穆凯,R.、萨瓦达,H.,阿拉奇,S.,牧野,S.,(Mukai,R.,Sawada,H.,Araki,S.,Makino,S.)“针对许多语音信号的频域盲源分离”(Frequency domain blind source separation for many speech signals),会议记录,ICA 2004,第461-469页,2004年,其全文以引用的方式并入本文中)。当使用若干麦克风对时,可通过根据等式(5)描绘所有麦克风对和选定次能带中的频率上的θj,mn(ω)的直方图(见,例如图7)来计算特定IVA输出Yj的DOAθestj。平均值θestj于是是所得直方图(θj,N(θj))的最大值或重心(∑θj-0...180N(θj)*θj)/∑θj=0...180N(θj),其中N(θj)是角度θj处DOA估计值的数目。来自所述直方图的可靠DOA估计值可仅在若干迭代之后出现平均源方向时在稍后学习阶段中变得可用。等式(5)中的估计值是基于对于距麦克风阵列的源距离超过((2~4)*D2/λ有效的远场模型,其中D是所考虑的最大阵列维数,且λ是所考虑的最短波长。
可通过使用更新规则使目标(3)最小化
ΔWconstr(ω)~=(dJ/dW)(ω)=μ*α(ω)*2*(W(ω)*D(ω,θ)-C(ω))D(ω,θ)H    等式6,
其中α是调谐参数。当更新等式(6)添加到IVA更新等式(1)以确定受约束的IVA权数更新ΔW(ω)时,调谐α允许依据声音场景的空间可分离性和其它考虑来适当地实行调整约束(3)。
如果源R的数目等于混合物M的数目,则所需射束图案的选择设定为
C(ω)=diag(W(ω)*D(ω,θ)),
因此从干扰定向中使源无效,同时将射束强度保留到由每一迭代时受约束的IVA算法确定的所需定向中。如果R<M,则未被识别DOA的W的第k行将需要C(ω)中对应行的零条目,因此在此输出信道中所有源均被无效且仅剩下背景噪声。或者,如果R<M,则可首先使用PCA执行维数缩减,且接着对缩减的维数子空间执行IVA。缩减的维数约束梯度为
ΔWconstr(ω)=μ*α(ω)*2*(W(ω)Wr(ω)D(ω,θ)-C(ω))*(Wr(ω)*D(ω,θ))H
其中C(ω)=diag(W(ω)Wr(ω)D(ω,θ)),且其中Wr表示R*M PCA维数缩减矩阵。
由于可采用射束成形技术且语音通常是宽带信号,所以可确保针对临界频率范围获得良好性能。如果等式(5)的基础远场模型无效,则可能将对射束图案进行近场校正。还可将两个或两个以上麦克风之间的距离选择成足够小(小于最高频率的波长的一半),因此避免空间假频。在此情况下,不可能在非常低的频率下实行细射束。
图5展示基于与几何约束组合的IVA以避免局部最小值和加速收敛的一个系统的概观。多个输入混合物(X1、X2...XM)180输入到自适应过程185中。自适应过程185包括IVA过程187和几何约束过程189两者。例如源或(作为另一实例)噪声的先验知识191可有助于几何约束189。作为替代或补充,导出的信息(下文进一步详细解释)可有助于几何约束189。自适应过程185调适离析矩阵W 193。离析矩阵W(ω)193接收多个输入混合物(X1、X2...XM)180,并将输入混合物180转换为多个分离的信号(Y1、Y2...YM)195。多个分离的信号(Y1、Y2...YM)195可包含一个或一个以上源信号。可通过使用离析矩阵W(ω)的反转形式迭代地计算部分分离的信号的频率次能带来导出导出的约束。
图6说明3个扬声器和4个麦克风的声音场景的方法。源1、源2和源3分别距麦克风阵列130cm、130cm和160cm。麦克风阵列包含四个麦克风,其定位在一直线上,使得麦克风定位成距邻近麦克风4cm远。源1、源2和源3分别定位成与沿着麦克风的线的轴成70°、95°和135°。
在图7中,展示使用学习规则(1)和激活函数(2)针对每一IVA分离输出的[0-4kHz]带中所有频率上麦克风对(1,2)、(2,3)和(3,4)的利用等式(5)估计的DOA的直方图。IVA输出1和2分别对应于源1和2(比较图6),使得直方图在大约70°和95°处达到峰值,其对应于源1和2的位置。IVA输出3和4不展现出类似尖锐的峰值,借此指示在输出3和4中未感知出界定的DOA。未受约束的IVA算法因此未能分离源3且因此收敛为局部最小值。
另一方面,图8展示对应于以约束的IVA(更新等式(1)和(4),α=0.1)的收敛解初始化的IVA离析解(更新规则(1),激活函数(2))的所有麦克风对和频率上的来自等式(5)的DOA估计值的直方图。与图7相反,IVA输出3清楚地对应于源3,因为直方图的峰值位于大约135°。因此,通过使用受约束的IVA规则来执行盲源分离,避免收敛成局部最小值,且所有3个原始源与已记录的混合信号分离。
表1说明可使用受约束方法获得较好的最终信号干扰比(SIR)。通过α的不同值来评估不同的受约束IVA方法。首字母缩略词解释如下:IVA=具有使用函数(1)的更新规则(1)的IVA;conIVA=使用由(1)添加到(5)组成以用于α的不同设定的更新规则的受约束IVA;IVAopt=以利用conIVA(α=0.1)获得的最终解初始化的IVA。
  SIR(dB)   源1   源2   源3
  记录   -4.72   -9.26   -7.02
  IVA   18.98   10.10   5.35
  convIVA(α=2)   2.13   -3.78   2.63
  conIVA(α=0.1)   16.39   10.04   12.76
  IVAopt   19.85   10.73   12.97
表1
为了说明实行几何约束的物理影响,图9展示使用受约束IVA(更新规则(1)添加到等式(5)和激活函数(2))在ω=2kHz下获得的分离的输出射束图案|W*d(θ)|:零点射束放置在DOA 76、96、134度处,且使用α(等式5)实行约束的不同积极性允许调节所得零点射束的深度(虚线针对α=2;虚点线针对α=0.1)。实线对应于用使用α=0.1从受约束IVA获得的收敛滤波器来初始化的未受约束IVA(更新规则(1)和函数(2))的最佳解。可看出,调谐α允许以选定角度来调节射束图案的深度和宽度,且因此是初始化BSS解或将其导引成特定解的直接手段。
频域信号分离和重排序处理
在一些实施例中,本发明涉及包括在频域中执行的信号分离和重指派分离的信号的源指派的系统和/或装置。重排序可包括重指派对应于特定频率和/或特定频率群组的信号数据内的指派。将了解,术语“重排序”、“重指派”和“重排列”可同义使用。在一些实施例中,重排序可包括如本文描述的自顶向下、自底向上或线性过程。虽然在一些实施例中,系统和装置可包括将时域信号变换为频谱输入信号,但在其它实施例中,变换不是系统和装置的一部分。在一些实施例中,系统和装置包括将至少一个分离的频域信号逆变换为至少一个时域信号,但在其它实施例中,其并非如此。在一些实施例中,信号分离包括盲源分离。在一些实施例中,信号分离包括独立向量分析(IVA)或独立分量分析(ICA)。
虽然本文描述特定重排序方法,但将了解,可使用任何重排序过程。另外,将了解,在考虑对应于特定频率和/或特定频率群组的数据的重排序时,重排序的指派在继续进行到另一频率和/或频率群组之前不需要是固定的。
如图10中说明的系统500提供一种用于分离信号的过程和系统,并作为如图1中说明的系统10而开始。多个麦克风(例如,麦克风12和麦克风16)接收信号。麦克风12和16以及由麦克风12和16产生的声音信号14和18的特性如系统10中所描述。如上文针对系统10所描述,时域电信号14和18可分别取样到取样窗口集20和22中。
如针对系统10所描述,接着可分别通过FFT过程24和26对取样窗口集20和22的每一取样窗口执行快速傅里叶变换(FFT)。以此方式,每一FFT过程24和26产生用作对信号分离过程28的输入的频域信息。
信号分离过程28可有利地是盲信号分离过程,例如ICA(独立分量分析)过程或另一分离过程。信号分离过程28可试图将输出频域数据分离为独立的信号源。独立的信号源可包含两个信号源,如图10所示,或更多信号源。
更明确地说,将输出数据放置到频段中并临时存储在排列表532中。排列表532保持分离的频域数据。然而,信号分离过程28通常未能将特定输出数据元素正确地指派到正确的信号源。通常,频段具有用于每一预期独立源的数据输出元素,所述数据输出元素通常也是所使用的麦克风的数目。举例来说,一装置可具有3个麦克风,因此每一频段将具有3个输出数据元素。为了正确地分离信号,输出数据的每一者应与正确信号源相关联。在一些情况下,输出数据可能会不正确地与信号源相关联。频率数据的此误指派通常称为排列问题,且导致失真、分离失败或其它不合需要的效果。因此,系统500可包括用于在排列表532中对每一频段的输出数据进行排序的重排序过程530。排列表532因此经重排序而包括多个分离的分量,每一分量包括多个数据点,每一数据点对应于指派到分量的频段的信号分离结果。
一旦已对排列表532进行适当排序,就将经校正的频域数据传递到快速傅里叶逆变换过程(IFFT)35。经重排序的排列表的每一分离的分量可接着通过IFFT过程35变换以对应于时域输出,例如时域输出37和39。在一些情况下,将存在两个以上时域输出。所述时域输出中的一者可以是源信号的估计值,且输出中的一者或一者以上可以是一个或一个以上噪声信号的估计值。在一些情况下,并非分离的频段数据29的所有分离的分量均通过IFFT过程35进行变换。举例来说,仅对应于源信号的分离的分量可通过IFFT过程35进行变换。
在一些实施例中,本发明涉及如图11中所说明的分离过程550。在过程550的步骤552处,在滚动窗口中获取声音信号。在过程550的步骤554处,将快速傅里叶变换(FFT)应用于时域滚动窗口以产生频域数据。在过程550的步骤556处,将所得频域数据(也称为FFT数据)用作对信号分离过程的信道输入。在过程550的步骤558处,可产生排列表,其根据独立源来安排频段内的信号分离过程的输出。在过程550的步骤561处,应用于排列表的过程可对频段内的输出数据进行重排序,使得在每一频段内,源的指派可经重排序以与来自信号分离过程的数据输出对应。在过程550的步骤563处,频域重排序数据可由IFFT进行处理。在过程550的步骤565处,IFFT可接着产生分离的时域信号。或者,可仅将频域分离权数发送通过IFFT,且可用所获得的时域分离滤波器来滤波时域混合物信号。
图12中说明排列表的实例。排列表600包含独立信号源602的标识和可用频段604的指示。通常,信号源的数目将与系统中麦克风的数目相关。举例来说,如果一装置具有三个麦克风,则其可能能够识别多达三个独立的源。频段604的数目可取决于所执行的快速傅里叶变换的类型以及FFT取样区块和取样窗口中数据点的数目。每一频段(例如,频段608)包含一组输出数据,例如输出609和输出610。每一输出包含表示所有取样窗口的一组复值数据。举例来说,频段608具有复数输出609和610,且输出609具有表示前三个取样窗口的“FREQ3”频率内容的复值数据Q1、Q2、Q3。举例来说,如果在一周期期间取240个取样窗口,则每一输出(例如,输出109)将具有240个复值,其中每一值表示一个取样窗口的一个频段中的数据元素。
为了改进排列重排序结果,可能需要取样数据的最小指定长度。举例来说,已发现三秒的时域数据提供合乎需要的分离结果。如果在8kHz下取样,且如果取样窗口设定在200点,那么每一取样窗口的长度约为25ms。取样窗口可重叠,因此额外取样窗口可用于消耗三秒的时间。举例来说,如果每一取样窗口重叠约100点,那么约240个取样窗口将消耗三秒的时间。将了解,可调节总体时间长度、取样窗口的数目、重叠、窗口的长度和取样速率。
表625展示具有列举在一个轴上的源和列举在另一轴上的频段的排列表。频段中的每一输出已被指派得到字母A、B或N。出于论述的目的,字母A、B和N表示来自相应信号源的信号。以此方式,完全分离的信号将使所有“A”与源的一者对准,所有“B”与另一源对准,且所有“N”与另一源相关联。然而,将了解,实际上所述理想状况不可能发生,且某种误指派通常是可接受的。然而,使用本文论述的重排序过程观察到改进的清楚性和分离效率。
现在参看图13A,说明一种用于对排列表进行重排序的系统。系统650具有带有源(例如,源652和源654)的排列表。排列表展示信号分离过程已指派相应频段内分离的输出数据,其中每一输出指派到特定源。如字母标签所说明,分离过程未能将特定源准确地与许多频段中的正确输出数据相关联。因此,可有利地应用重排序过程。重排序系统650是以预定频段(例如,频段656)开始的线性方法。在所述线性方法中,重排列选定频段中的输出,直到全局成本函数最小化为止。更明确地说,每一频段的输出被重排序成所有可用组合,且对于每一排列,为每一源计算成本函数。
在系统650中,起初将频段1排列为A-B-N。由于说明三个源,所以可在频段内排列六种不同排列。依次应用这些可用排列658。对于每一排列,为每一源计算成本值。举例来说,当频率一设定为A-N-B时,接着为源一652计算成本,且为源二654计算成本,并且为源s计算成本。此成本函数可以是全局相关特征665。将了解,可使用其它类型的成本函数,或可使用其它类型的算法来确定最佳配合。依据比较,选择具有最佳配合的排列。如系统650中所说明,选择具有最佳配合的排列B-A-N。
因此,将排列B-A-N固定到频率一中,且系统650接着重排列频率2,如图13B中的方框657所示。再次,用线性方法重排列频段内的输出,为每一源计算成本函数,且接着选择具有最低总体成本函数或最佳配合的排列。如图13B中所说明,排列B-A-N具有针对f2的最佳配合。因此,B-A-N将固定到f2中,且线性方法将继续进行到f3。此过程继续直到已完成所有频率为止。将了解,可使用多遍。
在一些实施例中,本发明涉及一种用于重排列排列表的过程,如图14所示。过程700开始于步骤702处,其中将使频段内的输出相关联的表提供到信号源。在过程700的步骤704处,选择频段中的一者。在一个实例中,频段可以是第一频段,但可使用其它选择开始频段的方式。在过程700的步骤706处,在频段内将输出指派重排列,且在过程700的步骤708处,针对每一源计算全局成本函数。在过程700的步骤712处,经核实已尝试了所有可能的排列。如果尚未尝试所有可能的排列组合,那么过程700通过重复步骤706、708和712而继续。否则,过程700继续进行步骤715,其中将具有最佳总体ft的排列固定为针对所述频段的输出指派。步骤715可包括比较在步骤708中计算的所得全局成本函数。在过程700的步骤717处,经核实已测试和固定了所有频段。如果尚未测试所有频段,那么过程700可通过重复步骤704、706、708、712、715和717而继续。否则,过程700继续进行步骤719,其中将IFFT应用于重排序的频域数据。在过程700的步骤723处,产生时域信号。
在一些实施例中,本发明涉及多群组重排序系统,如图15A所示。重排序系统750具有沿着一个轴指派的多个源和沿着另一轴指派的频段。选择一个群组的频段,如方框752中所展示。不同于如先前所论述对单一频段操作,系统750一致地对多个频段操作。更明确地说,多个频段752起初具有组合A-A、B-N和N-B。出于重排列的目的,将频段1和2中的输出作为单个元素一致地处理。以此方式,如替代排列756所示,有六个不同排列可用。依次测试替代排列中的每一者,且针对每一源(例如,源754)计算成本函数。将全局相关或成本函数758应用于每一排列,且选择提供最佳配合的排列。一旦选定,就将最佳配合排列插入到表中。如图15A所示,排列B-N、A-A和N-B已提供最佳配合。因此,将所述排列插入到f1和f2中,如图15B所示。
过程750接着选择另一群组的频段761。如所说明,此群组可与前一群组重叠。还将了解,可使用任何选择群组的方式。过程750如先前所论述而继续进行。举例来说,将f2和f3作为单个元素而一致地处理,且因此选择排列756展示有六个替代排列可用。尝试所述排列中的每一者,且针对每一排列计算全局成本函数。选择具有最佳相关的排列,且接着将所述排列插入到排列表中。频段群组继续前进直到已使用所有频率为止。将了解,可使用多遍。还将了解,多个群组过程750可与单组过程700组合以提供多遍重排序。举例来说,第一遍可使用单组重排序,且接着可用多组重排序进行一遍或一遍以上。还将了解,多组重排序可在一组中使用2个或另一数目的频段。
在一些实施例中,本发明涉及一种用于对排列表进行重排列的过程,如图16所示。过程775开始于步骤777,其中将使频段内的输出相关联的表提供到信号源。在过程775的步骤779处,一起选择若干频段作为一群组。在所论述的实例中,组成群组的频段的数目为2,但可选择不同数目的频段。在过程775的步骤779处,可一致地重排列输出排列。在过程775的步骤783处,针对每一排列,可为每一源计算全局成本函数。在过程775的步骤785处,可确定是否已测试所有排列,这对于3个信号源将是六种不同的可用排列。如果尚未测试所有排列,那么过程775重复步骤781、783和785。否则,过程775继续进行步骤787,在步骤787处,确定最佳配合的排列。步骤787可包括比较所有全局成本函数,和识别与最小全局成本相关联的最佳配合的排列。在过程775的步骤789处,可确定是否已测试所有频率群组。如果尚未测试所有频率群组,那么过程775通过重复步骤779、781、783、785、787和789而前进到下一频率区块。此前进可以是一次单个频段,或可根据不同调度表进行。一旦已对所有频率重排序,就可用多群组过程或另一重排序过程进行其它遍。在过程775的步骤791处,可将IFFT应用于经重排序的输出,且在过程775的步骤793处,可产生分离的时域信号。
在一些实施例中,本发明涉及一种用于对排列表进行重排列的自底向上系统,如图17所示。重排序过程800使频段与源802相关联。在使用方法800时,将频段分组为如线803所示的若干对。举例来说,频段f1和f2为一对,频段f3和f4为一对,且频段f5和f6为一对。对于每一对,所述对的一个成员是固定的,而用于所述对的另一成员的输出被重排列。举例来说,取表示频段f1和f2的对803。频段f2是固定的,因此组805中的第二元素固定为A-N-B。在所述对的第二成员同定的情况下,所述对的第一成员(f1)被重排列,且针对每一重排列在每一群组内计算成本函数。接着选择并固定具有最佳配合的输出的排列。以此方式,将组805排列为AA、NN和BB。方法800将频段的每一者组成对,并在第一层804中针对每一对产生最佳配合排列。第二层801中所得组的每一者(例如,组805)同样被组成对而成为群组,且所述对的第二成员的输出值是固定的,而所述对的第一成员的输出值被重排列。举例来说,层3 806中的第一组展示输出AA、BB和NN是固定的,且接着将所述对(805)的第一成员的输出重排列以识别最佳配合。一旦发现最佳配合,就产生新的组合的组。以类似的方式,将层3 806中的组组成对而成为群组,且过程继续产生层4 808中的组。最后,所述组被组成对且组合以产生最终输出810。
在一些实施例中,本发明涉及一种用于对排列表进行重排列的自底向上过程,如图18所示。过程850在步骤852处开始,其中将使频段内的输出相关联的表提供到信号源。在过程850的步骤854处,选择所述组中的两组,并将其在同一层中组成对。对于第一选择,每一组可对应于各个频段,而在较高层中每一组可对应于频段群组。在过程850的步骤856处,对输出或元素进行重排列。更明确地说,如步骤857中所示,所述组中的一组的值是固定的,而所述对的其它成员的值被重排列。在过程850的步骤859处,在每一群组内计算成本函数。在过程850的步骤861处,确定是否已尝试所有排列。如果尚未尝试所有排列,那么过程850通过重复步骤856、857和859而继续。否则,过程850在步骤863处继续,其中使用最佳排列的值在固定的下一层处产生组。在过程850的步骤865处,确定所述群组是否是当前层中的最后群组。如果其不是,那么过程850通过重复步骤854、856、857、859、861、863和865而继续。否则,过程850在步骤868处继续,其中确定是否继续进行到下一层。过程850可继续通过多个层,从而产生具有越来越多的频段的组。对于每次过程850继续进行到下一层,重复步骤854、856、857、859、861、863、865和868。一旦已到达最后层,过程850就在步骤871处继续,其中将IFFT应用于输出数据。在过程850的步骤873处,可产生时域信号。
在一些实施例中,本发明涉及一种用于对排列表进行重排列的系统,如图19A到19C所示。排序过程900使源列举在一个轴上,同时使频段列举在另一轴上,如图19A所示。在方法900中,选择初始的两个频率(比如频率902和904)以供比较。更明确地说,中心频率902的值是固定的,且频率904的输出值经重排列,直到池(pool)901中的频段的成本函数最小化为止。以此方式,频段904的输出经重排列,直到找到与输出902的最佳配合为止。在说明中,输出902被选择为频段的中心频率,而频率904是四分之一频率。将了解,可使用其它机制来选择初始两个频率。选择第三频率(其也是四分之一频率906)以添加到下一池。频率902和904的值已固定,且频段906的输出经重排列直到找到最佳配合为止,且接着将最佳配合值插入到池907中。以类似方式,接下来应用1/8频率908,而频率902、904和906在池中是固定的。以此方式,频段908的频率输出经重排列直到找到最佳配合为止,且将最佳配合值插入到频率池909中,如图19B所示。方法900继续添加其它1/8频率,且接着前进到1/16频率(且如果有的话,前进到1/32频率、1/64频率等)直到如方框915所示整个池被填满为止,如图19C所示。将了解,可使用其它对频率比较进行选择和排序的过程。
在一些实施例中,本发明涉及一种用于对排列表进行重排列的过程,如图20所示。过程950开始于步骤952处,其中将使频段内的输出相关联的表提供到信号源。在过程950的步骤954处,选择开始频段并将其添加到重排序池。在一个实例中,过程950包含步骤955,其中将开始频率选择为中心。在过程950的步骤957处,选择另一频段,其可以是二分之一频率,之后是四分之一频率,之后是1/8频率等(958)。在过程950的步骤961处,在选定频段中对输出的源指派进行重排列,且在过程950的步骤963处,针对每一排列在池内计算成本函数。在过程950的步骤967处,确定是否已尝试所有排列。如果尚未尝试所有排列,那么过程950通过重复步骤961、963和965而继续。否则,过程950在步骤967处继续,其中将具有最佳配合的排列添加到重排序池。在过程950的步骤969处,确定是否所有频率已被添加到重排序池。如果尚未添加所有频率,那么过程950通过重复步骤957、961、963、965、967和969而继续。否则过程950在步骤972处继续,其中将经重排序池发送到IFFT。过程950可在步骤973处继续,其中产生时域信号。
在一些实施例中,本发明涉及一种用于对排列表进行重排列的过程,如图21所示。过程975开始于步骤977处,其中可在滚动窗口中获取声音信号。在过程975的步骤979处,可将FFT应用于窗口,且在过程975的步骤981处,将FFT结果用作对信号分离过程的输入。在过程975的步骤983处,产生根据源排列频段内的输出的表。可如985处所示对表重排序。更明确地说,可如方框986中所示应用自顶向下过程,可如方框987中所示应用自底向上过程,可如方框988中所示应用线性单组,且/或可如方框989中所示应用线性多组。先前已论述重排序过程中的每一者的细节,因此将不详细叙述。过程975在步骤992处继续,其中确定是否将进行另一遍重排序。如果是,则过程975在方框985处重复。可能需要(例如)执行多个线性单组过程988,或多个线性多组989。将了解,可使用单组和多组线性过程的不同组合。在另一实例中,可首先应用自顶向下986或自底向上987过程,且接着应用线性过程。然而,将了解,自顶向下986和自底向上987过程通常是相互排斥的,且通常在使用线性过程之后不应用自顶向下986或自底向上987过程。如果在步骤992处将不执行额外遍重排序,则过程975在步骤994处继续,其中将IFFT应用于经重排序的频域数据。在过程975的步骤996处,产生分离的时域信号。
在以上段落中,已提及基于所有源上“全局相关”成本函数的所得和来评估频段(例如图13A中的656,或如图15A中的方框752的频段群组)的给定排列(当所述排列被选择时)。此和称为“大全局相关成本函数”。参看图12,此全局相关成本函数在一个源(比如源2)内测量随着取样窗口随时间朝前滚动频率间的相干性。当来自一个频率的复值Q(方框609)与来自另一频率的复值Q共同激活时,这两个频率将具有高相关性且称为是相干的。一组频率上的全局相关成本函数可以是组内所有频率对上的相干性测量的和。其也可以是组内所有频率三元组上的相干性测量的和。将了解,反映频率间的相干性的任何形式的成本函数可由过程700、775、850和950使用以确定频段或频段群组的最佳配合排列。举例来说,(金泰秀(Taesu Kim)、哈盖·阿提亚斯(Hagai Attias)、李秀英(Soo-Young Lee)和李德元(Te-Won Lee),的“利用较高阶频率相依性的盲源分离(Blind source separation exploiting higher-order frequency dependencies)”,IEEE学报,《语音音频处理》(Speech Audio Processing),2006年,第1期,第14卷,其全文以引用的方式并入本文中)中描述的独立向量分析成本函数可用于测量用于排列优化的相干性。应注意,全局相关成本函数不需要在源内的所有频率上界定。成本函数可应用于任何组的频率。此组可以指图12中的源内的所有频率604。此组还可以是如方框805的两个频率的群组,或如方框806的四个频率的群组,或类似物。
假设在频域中将输入信号表示为X(ω,l)。此处,X(ω,l)=[X1(ω,l),...,XM(ω,l)]T是复值向量,其中每一元素表示M个信道的每一输入,ω表示频率且1是窗口指数。在信号分离之后,将输出表示为Y(ω,l)=[Y1(ω,l),...,YN(ω,l)]T,这意味着存在N个输出信道。
在一个实施例中,频率群组ωa的相干函数是
K n ( ω a ) = - Σ l Σ ω ∈ ω a | Y n ( ω , l ) | 2 等式7,
两个频率群组ωa、ωb的相干函数是
K n ( ω a , ω b ) = - Σ l Σ ω ∈ { ω a , ω b } | Y n ( ω , l ) | 2 等式8,
频率群组ωa的大相干函数正是所有输出信道上的相干函数的和。
K(ωa)=∑nKna)                                            等式9,
全局相干函数是
Kn=Kna),ωa={1,2,Λ,Ω}                              等式10,
其中Ω是频段的总数,且
大全局相干函数是
K=∑nKn                                                      等式11。
在另一实施例中,针对一个输出信道n的两个频率ω1、ω2之间的相关函数界定为
Cn1,ω2)=-∑l|Yn1,l)|·|Yn2,l)|                  等式12,
两个频率群组ωa、ωb之间的相关成本函数是
C n ( ω a , ω b ) = Σ ω 1 ∈ ω a Σ ω 2 ∈ ω b C n ( ω 1 , ω 2 ) 等式13,
且两个频率群组ωa、ωb的针对所有输出信道的大全局相关是
C(ωa,ωb)=∑nCna,ωb)                                  等式14
当两个群组每一者含有整个组的频率时,相关函数变成一个信道的全局相关。
Cn=Cna,ωb),ωa=ωb={1,2,Λ,Ω}                            等式15,
且所有输出信道和所有频率的大全局相关是
C=∑nCn                                等式16
用于频率排列校正的线性方法,在所述线性方法中,可扫描越过频率,且对于每一频率,向量Y(ω,l)的元素经排列以优化K或C。当我们扫描通过频率时,我们可将g相邻频率排列在一起以优化K或C。线性方法的伪码是:
1)for g=1 to gmax do
2)forω=1 to Ω-g
3)ωg=[ω,...,ω+g-1]
4)将Y(ωg,l)排列在一起以优化K(或C)
5)end for
6)end for
用于频率排列校正的自底向上方法可包含排列一对相邻频率ωa={ω1,ω2}以优化K({ω1,ω2})或C(ω1,ω2)。可针对其它对重复此过程。接下来,可排列一对ωa,ωb的相邻对以优化K({ωa,ωb})或C({ωa,ωb)。可针对对的其它对重复此过程。接下来,排列一对的一对的相邻对以优化其K或C。重复此过程,直到不可形成一对的一对的...更多对为止。
伪码给定如下:
1)g=2
2)while g/2<Ωdo
3)forω=1 to Ω step g do
4)ωa={ω,...ω+g/2-1},ωb={ω+g/2,...ω+g-1}
5)将Y(ωb,l)排列在一起以优化K({ωa,ωb})(或C({ωa,ωb}))
6)end for
7)g=2g
8)end while
自顶向下方法可以仅具有中心频率的池开始,接着一次将一个四分之一频率添加到池。新添加的频率可针对池中的频率群组ωa经排列以优化K(ωa)或C(ωa)。伪码给定如下:
1)g=(Ω-1)/2,ωa={g}
2)while g>1 do
3)forω=g/2 to Ω-1 step g do
4)add ω to ωa
5)排列Y(ω,l)以优化K(ωa)或C(ωa)
6)end while
装置
本文的任何方法或过程均可并入到装置中。过程的步骤可包含为装置的模块或子模块。在一些实施例中,装置是语音装置。语音装置可以是手持机、无线移动手持机或电话。装置可包含一个或一个以上麦克风。装置可包含麦克风阵列。
装置还可以是医疗装置。举例来说,装置可用于分离EKG或EEG数据。
本文描述的方法、过程或系统可用于实时处理数据或可用于后处理数据。
在一些实施例中,本发明涉及含有用以执行本文描述的过程或方法的模块的软件或计算机。计算机可包括存储器、处理器和/或显示器。计算机可连接到本文描述的另一装置,例如手持机。
将了解,本发明的实施例包含本文描述的过程,所述过程中的步骤已被省略、添加或重排列。

Claims (39)

1.一种信号分离方法,其包括:
接收一组频域第一信号,
其中每一频域第一信号包括对应于多个频率的频域第一信号元素,且
其中所述组频域第一信号包括多个信号源;
将所述组频域第一信号分离为一组频域第二信号,
其中所述组频域第二信号包括对应于所述多个频率中的各个频率的一组分离频域第二信号元素,且
其中向每一频域第二信号元素指派一识别符,所述识别符指示所述组频域第二信号中的哪一者包含所述频域第二信号元素;以及
对对应于至少一个频率的所述识别符进行重排序以改进所述频域第二信号的相干性以产生一组频域第三信号。
2.根据权利要求1所述的方法,其中所述分离所述组频域第一信号包括盲源分离方法。
3.根据权利要求2所述的方法,其中将所述盲源分离方法应用于对应于各个频率的所述频域第一信号元素。
4.根据权利要求1所述的方法,其中所述相干性包括反映不同频率下的信号的共同活动性的函数。
5.根据权利要求1所述的方法,其中所述改进所述频域第二信号的所述相干性包括优化所述频域第二信号的所述相干性。
6.根据权利要求1所述的方法,其中所述改进所述频域第二信号的所述相干性包括改进一对邻近的频域第二信号元素的所述相干性。
7.根据权利要求6所述的方法,其中所述对所述识别符进行重排序包括对对应于多个频率的所述识别符进行重排序,且其中所述对所述识别符进行重排序进一步包括对所述识别符从所述多个频率中的低频率到所述多个频率中的高频率依次进行重排序。
8.根据权利要求6所述的方法,对所述识别符进行重排序包括对对应于多个频率的所述识别符进行重排序,且其中所述对所述识别符进行重排序进一步包括改进非重叠对的频域第二信号元素之间的所述相干性。
9.根据权利要求1所述的方法,其中所述改进所述频域第二信号元素的所述相干性包括:
优化对应于第一频率子集的频域第二信号元素的所述相干性;以及
优化对应于第二频率子集的频域第二信号元素的所述相干性,
其中所述第二频率子集大于所述第一频率子集,且
其中所述第二频率子集包括所述第一频率子集。
10.根据权利要求1所述的方法,其进一步包括变换一组时域输入信号以产生所述组频域第一信号。
11.根据权利要求9所述的方法,其中所述时域输入信号是声音信号混合物。
12.根据权利要求10所述的方法,其中所述声音信号混合物包括语音信号。
13.根据权利要求1所述的方法,其进一步包括逆变换所述组频域第三信号中的一频域第三信号以产生所需信号。
14.一种信号分离方法,其包括:
接收一组频域第一信号,
其中每一频域第一信号包括对应于多个频率的频域第一信号元素,且
其中所述组频域第一信号包括多个信号源;
使用包括学习规则的独立向量分析(IVA)方法将所述组频域第一信号分离为一组频域第二信号;以及
将一个或一个以上约束应用于所述学习规则。
15.根据权利要求14所述的方法,其中从所述组频域第二信号中导出所述一个或一个以上约束。
16.根据权利要求14所述的方法,其中所述将一个或一个以上约束应用于所述学习规则减小收敛在局部最小值或最大值上的可能性。
17.根据权利要求14所述的方法,其进一步包括接收第二组频域第一信号,以及使用所述受约束信号分离方法来分离所述第二组频域第一信号。
18.根据权利要求14所述的方法,其中所述一个或一个以上约束包括几何约束。
19.根据权利要求18所述的方法,其中所述几何约束包括估计到达方向信息,且其中通过使用已知传感器位置根据直方图和/或其它统计技术计算输出信号次能带来估计所述到达方向信息。
20.根据权利要求14所述的方法,其中所述一个或一个以上约束包括关于信号的频谱或能量特征的信息。
21.根据权利要求20所述的方法,其中所述信号选自频域第一信号、所需输出信号和非所需输出信号。
22.根据权利要求14所述的方法,其中所述一个或一个以上约束包括非导出约束。
23.一种用于分离信号的系统,其包括:
接收器,其接收一组时域输入信号;
变换器模块,其将所述组时域输入信号变换成一组频域第一信号,
其中每一频域第一信号包括对应于多个频率的频域第一信号元素,且
其中所述组频域第一信号包括多个信号源;
频域信号分离器模块,其将所述组频域第一信号分离为一组频域第二信号,
其中所述组频域第二信号包括对应于所述多个频率中的各个频率的一组分离频域第二信号元素,且
其中每一频域第二信号元素被指派一识别符,所述识别符指示所述组频域第二信号中的哪一者包含所述频域第二信号元素,以及
重排序模块,其对对应于至少一个频率的所述识别符进行重排序以改进所述频域第二信号的相干性以产生一组频域第三信号。
24.根据权利要求23所述的系统,其中所述频域信号分离器模块通过使用独立分量分析方法和/或独立向量分析方法来分离所述组频域第一信号。
25.根据权利要求23所述的系统,其中所述重排序模块包括:
初始参数子模块,其通过确定所述对应频率来确定待重排序的所述第一频域第二信号元素;
相干性改进子模块,其改进对应于预定频率的频域第二信号元素与对应于邻近于所述预定频率的频率的频域第二信号元素的所述相干性;以及
频率前进子模块,其确定待重排序的后续频域第二信号元素,其中所述频率前进子模块将后续频域第二信号元素确定为对应于一频率的频域第二信号元素,所述频率邻近于对应于最近重排序的频域第二信号元素的频率。
26.根据权利要求23所述的系统,其中所述重排序模块包括:
初始参数子模块,其通过确定所述对应频率来确定待重排序的所述第一频域第二信号元素;
相干性改进子模块,其改进对应于预定频率的频域第二信号元素与对应于邻近于所述预定频率的频率的频域第二信号元素的所述相干性;以及
频率前进子模块,其确定待重排序的后续频域第二信号元素,其中所述频率前进子模块将后续频域第二信号元素确定为所述相干性改进子模块先前未分析的频域第二信号元素。
27.根据权利要求23所述的系统,其中所述重排序模块包括:
初始参数子模块,其将一群组的重排序元素的初始状态确定为对应于至少一个频率的第一频域第二信号元素;
相干性改进子模块,其改进所述群组的重排序元素内的频域第二信号元素的所述相干性;以及
频率前进子模块,其确定待添加到所述群组的重排序元素的频域第二信号元素。
28.根据权利要求23所述的系统,其进一步包括逆变换器模块,所述逆变换器模块对所述组频域第三信号中的一频域第三信号进行逆变换以产生所需信号。
29.根据权利要求27所述的系统,其中所述系统包括手持机。
30.根据权利要求27所述的系统,其中所述系统包括电话。
31.一种用于分离信号的系统,其包括:
接收器,其接收一组时域输入信号;
变换器模块,其将所述组时域输入信号变换成一组频域第一信号,
其中每一频域第一信号包括对应于多个频率的频域第一信号元素,且
其中所述组频域第一信号包括多个信号源;
频域信号分离器模块,其使用包括学习规则的独立向量分析(IVA)方法将所述组频域第一信号分离为一组频域第二信号;以及
约束强加器模块,其将一个或一个以上约束强加于所述学习规则。
32.根据权利要求31所述的系统,其进一步包括约束导出器模块,所述约束导出器模块从所述组频域第二信号中导出所述一个或一个以上约束。
33.根据权利要求31所述的系统,其中所述一个或一个以上约束包括几何约束。
34.根据权利要求33所述的系统,其中所述几何约束包括估计到达方向信息。
35.根据权利要求34所述的系统,其中通过使用已知传感器位置根据直方图和/或其它统计技术计算输出信号次能带来估计所述到达方向信息。
36.根据权利要求31所述的系统,其中所述一个或一个以上约束包括非导出约束。
37.根据权利要求31所述的系统,其中所述一个或一个以上约束包括关于所述频域信号分离器模块中的信号的频谱或能量特征的信息。
38.根据权利要求31所述的系统,其中所述系统包括手持机。
39.根据权利要求31所述的系统,其中所述系统包括电话。
CNA200780013583XA 2006-03-01 2007-02-27 用于产生分离的信号的系统和方法 Pending CN101558397A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US77790006P 2006-03-01 2006-03-01
US60/777,900 2006-03-01
US60/777,920 2006-03-01

Publications (1)

Publication Number Publication Date
CN101558397A true CN101558397A (zh) 2009-10-14

Family

ID=41175637

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA200780013583XA Pending CN101558397A (zh) 2006-03-01 2007-02-27 用于产生分离的信号的系统和方法

Country Status (1)

Country Link
CN (1) CN101558397A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104662605A (zh) * 2012-07-25 2015-05-27 株式会社尼康 信号处理装置、拍摄装置及程序
CN106126479A (zh) * 2016-07-07 2016-11-16 重庆邮电大学 基于遗传变异优化的二阶振荡粒子群盲源分离方法
CN109270497A (zh) * 2018-10-28 2019-01-25 西南电子技术研究所(中国电子科技集团公司第十研究所) 雷达脉冲信号的多维参数预分选方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104662605A (zh) * 2012-07-25 2015-05-27 株式会社尼康 信号处理装置、拍摄装置及程序
CN106126479A (zh) * 2016-07-07 2016-11-16 重庆邮电大学 基于遗传变异优化的二阶振荡粒子群盲源分离方法
CN106126479B (zh) * 2016-07-07 2019-04-12 重庆邮电大学 基于遗传变异优化的二阶振荡粒子群盲源分离方法
CN109270497A (zh) * 2018-10-28 2019-01-25 西南电子技术研究所(中国电子科技集团公司第十研究所) 雷达脉冲信号的多维参数预分选方法

Similar Documents

Publication Publication Date Title
US8898056B2 (en) System and method for generating a separated signal by reordering frequency components
Wang et al. A region-growing permutation alignment approach in frequency-domain blind source separation of speech mixtures
US8521477B2 (en) Method for separating blind signal and apparatus for performing the same
Wang et al. Combining superdirective beamforming and frequency-domain blind source separation for highly reverberant signals
US20040175006A1 (en) Microphone array, method and apparatus for forming constant directivity beams using the same, and method and apparatus for estimating acoustic source direction using the same
EP2068308A2 (en) Signal separation method, signal separation device, and signal separation program
CN103854660B (zh) 一种基于独立成分分析的四麦克语音增强方法
CN110045322B (zh) 一种基于高分辨测向语图智能识别的短波自动测向方法
US11588531B2 (en) Signal estimation apparatus, signal estimation method and program recording medium
CN112929962A (zh) 定位方法、装置、计算机设备和存储介质
CN111965591A (zh) 一种基于四阶累积量矢量化dft的测向估计方法
CN101558397A (zh) 用于产生分离的信号的系统和方法
CN101295018B (zh) 一种实波束形成器的实现方法
US20070046538A1 (en) Wireless network apparatus and adaptive digital beamforming method thereof
CN111007457A (zh) 一种基于块稀疏贝叶斯模型的辐射源直接定位方法
CN114269014A (zh) 基于域自适应网络的大规模mimo动态环境指纹定位方法
Ayllón et al. An evolutionary algorithm to optimize the microphone array configuration for speech acquisition in vehicles
CN101309101A (zh) 无线信号接收系统的阵列综合测向方法
CN112649786A (zh) 一种基于虚拟阵元的宽带信号超分辨测向方法及装置
CN114609581B (zh) 一种比较扫描方向矢量投影极大值的阵列超分辨测向方法
CN113254856B (zh) 一种用于单快拍非圆信号的doa估计方法
CN114371442B (zh) 一种基于DenseBlock的U-net神经网络的水下DOA估计方法
Na et al. Kernel and spectral methods for solving the permutation problem in frequency domain BSS
CN111865375B (zh) 一种针对频分双工系统的多传播路径三维波束成形方法
Osako et al. Fast convergence blind source separation based on frequency subband interpolation by null beamforming

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20091014