CN100392723C - 在稳定性约束下使用独立分量分析的语音处理系统和方法 - Google Patents

在稳定性约束下使用独立分量分析的语音处理系统和方法 Download PDF

Info

Publication number
CN100392723C
CN100392723C CNB2003801096815A CN200380109681A CN100392723C CN 100392723 C CN100392723 C CN 100392723C CN B2003801096815 A CNB2003801096815 A CN B2003801096815A CN 200380109681 A CN200380109681 A CN 200380109681A CN 100392723 C CN100392723 C CN 100392723C
Authority
CN
China
Prior art keywords
signal
component analysis
independent component
noise
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2003801096815A
Other languages
English (en)
Other versions
CN1748250A (zh
Inventor
埃里克·维瑟
李泰远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Softmax Inc
Original Assignee
Softmax Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Softmax Inc filed Critical Softmax Inc
Publication of CN1748250A publication Critical patent/CN1748250A/zh
Application granted granted Critical
Publication of CN100392723C publication Critical patent/CN100392723C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

公开了一种用于将音频信号的混合物分离成期望音频信号(430)(例如,语音)和噪音信号(440)的系统和方法。设置麦克风(310,320)使其接收混合音频信号,并且独立分量分析(ICA)使用稳定性约束,处理(212)声音混合物。ICA过程(508)使用期望语音信号的预定特征,识别和分离目标声音信号(430)。用学习规则来使滤波器系数适应,并稳定滤波器权重更新动态,从而协助收敛到稳定的分离ICA信号结果。可以使用后处理(214)和预处理(220、230)技术和信息,对分离的信号进行辅助处理,以进一步降低噪音影响。设计所提出的系统,并且该系统很容易地实现在音频通信硬件环境中的DSP单元或CPU上实现。

Description

在稳定性约束下使用独立分量分析的语音处理系统和方法
发明领域
本发明涉及音频信号处理系统和方法,尤其涉及在声音环境中提高语音质量的系统和方法。
技术背景
在日常通信的很多区域中,尤其是在那些存在大量噪音的区域中,语音信号处理是非常重要的。现实世界中的噪音来自多种来源,包括明显的单源噪音,它们在现实世界中转换为具有回声和混响(reverberation)的多种声音。除非进行分离和隔离,否则很难从背景噪音中提取出想要的声音。背景噪音包括普通环境产生的多种噪音信号、其他人的背景谈话产生的信号以及从这些信号中的每一种信号中产生的回声、反射和混响。对于用户经常在噪音环境中谈话的通信,所希望的是,将用户的语音信号从背景噪音中分离出来。诸如蜂窝电话、免提电话、头戴式耳机、助听器、无绳电话、电话会议、CB电台、对讲机、计算机电话应用、计算机和汽车语音指挥应用以及其他免持应用、内部通信联络系统、麦克风系统等语音通信手段可以利用语音信号处理,从而将想要的语音信号从背景噪音中分离出来。
过去已经研究出很多种将想要的声音信号从背景噪音信号中分离出来的方法。现有技术噪音滤波器将具有预定特征的信号识别为白噪声信号,然后从输入信号中减去这些信号。虽然这些方法对于实时处理声音信号是足够简单和快速的,但却不容易适应不同的声音环境,并且会导致待分辨语音信号的明显恶化。噪音特征的预定假设可能涵盖过广,也可能涵盖不足。结果,这些方法可能会将个人语音的某些部分视为“噪音”,并因此将其从输出语音信号中除去,同时,这些方法可能会将背景噪音的某些部分,例如音乐或谈话,视为非噪音,并因此将其包含在输出语音信号中。
最近开发的其他方法,例如独立分量分析(“ICA”),提供相对准确和灵活的方法,用于将背景噪音从语音信号中分离出来。例如,PCT公开WO 00/41441公开了使用特定ICA技术来处理输入音频信号从而降低输出音频信号中的噪音。ICA是一种用于分离混合源信号(分量)的技术,其中,假设这些信号是相互独立的。在其简化形式中,独立分量分析将权重的“去混合(un-mixing)”矩阵应用在混合信号上,例如,将该矩阵乘以混合信号,从而产生分离的信号。给这些权重分配初始值,然后调整它们,使这些信号的相关熵最大,从而将信息冗余度最小化。重复权重调整和熵增加过程,直到将这些信号的信息冗余度减小到最小。由于该技术不需要各信号源的有关信息,所以被称为“盲源分离”法(BSS)。盲分离问题指的是将来自多个独立源的混合信号进行分离的思想。
Tony Bell在美国专利No.5706402中最早讨论了ICA,这引起了更深入的研究。现在有很多不同的ICA技术或算法。可以在ICA相关图书和参考资料中找到对使用最广泛的算法和技术进行的总结,例如,Te-Won Lee编著的、波士顿的Kluwer Academic Publishers出版的《Independent Component Analysis:Theory and Applications》(1998年9月)、Hyvarinen等编著的、Wiley-Interscience出版的《IndependentComponentAnalysis》第一版(2001年5月18日)、Mark Girolami在《Perspectives in Neural Computing》中的“Self-Organizing NeuralNetworks:Independent Component Analysis and Blind SourceSeparation”(Springer Verlag,September 1999)以及Mark Girolami(编辑)在《Perspectives in Neural Computing》中的“Advances inIndependent Component Analysis”(Springer Verlag August 2000)。Simon Haykin编著的、新泽西的Prentice-Hall出版的《Adaptive FilterTheory》第三版(1996)中公开了奇异值分解(Singular valuedecomposition)算法。
过去已研究出很多常用的ICA算法以优化它们的性能,包括对只在10年前存在的算法进行过重大修改的算法。例如,通常不以其专利形式使用A.J.Bell和TJ Sejnowski的《Neural Computation》7:1129-1159(1995)和Bell,A.J.的美国专利No.5706402中描述的工作成果。相反,为了优化性能,该算法经历了多个不同实体的数次再创造。一种这样的改变包括使用Amari,Cichocki,Yang(1996)描述的“自然梯度”。其他常用的ICA算法包括计算诸如累积量之类的高阶统计量的方法(Cardoso,1992;Comon,1994;Hyvaerinen and Oja,1997)。
但是,很多公知的ICA算法不能有效地分离在中记录的信号,真实环境本来就包括回声,例如由于房屋反射而导致的回声。应当强调的是,迄今为止的方法只限于分离由源信号的线性平稳(stationary)混合所导致的信号。直接路径信号及其回声信号相加所导致的现象被称为混响,是仿真语音增强和识别系统中的主要问题。现在,ICA算法需要包括能够分离那些延时和回声信号的长滤波器,这样排除了有效的实时使用。
图1示出了现有技术ICA信号分离系统100的一个实施例。在这种现有技术系统中,作为神经网络的滤波器网络用于从输入该滤波器网络的任何数量的混合信号中分辨出单个信号。如图1所示,系统100包括两个输入信道110和120,它们接收输入信号X1和X2。对于信号X1,应用ICA直接滤波器W1和ICA交叉滤波器C2;对于信号X2,应用ICA直接滤波器W2和ICA交叉滤波器C1。直接滤波器W1和W2为直接调整而通信。交叉滤波器为反馈滤波器,将它们各自的滤波信号与由直接滤波器所滤波的信号进行合并。在ICA滤波器收敛之后,所产生的输出信号U1和U2表示分离的信号。
Torkkola等的美国专利No.5675659提出了用于对延时和滤波的信号源进行盲分离的方法和装置。Torkkola提出了一种将分离输出的熵最大化的ICA系统,但使用的是去混合滤波器,而不是如在Bell专利中的静态系数。然而,当存在具有时变输入能量的输入信号(如语音信号)时,Torkkola中所述的用于计算相关熵和调整交叉滤波器权重的ICA计算,在数学上是不稳定的,并且将混响效应引入到分离的输出信号中。因此,所提出的滤波方案无法实现真实语音信号的稳定和感知上可接受的盲源分离。
典型的ICA实现还面临其他障碍,如需要很强的计算能力,以重复计算信号的相关熵和调整滤波器的权重。很多ICA实现还需要多轮反馈滤波器以及滤波器的直接关联。结果,难以实时地完成语音的ICA滤波和使用大量的麦克风来分离大量的混合源信号。在源源自在空间上为局部化的位置的情况下,可用数量合理的滤波器抽头和录音麦克风来计算去混合滤波器系数。然而,如果源信号分布在空间中,如源自振动的背景噪音、风声或背景谈话,那么在麦克风位置处记录的信号从多个不同的方向发射,需要非常长和复杂的滤波器结构或大量的麦克风。由于任何现实系统的处理能力和硬件复杂度都有局限性,所以附加的处理方法必须对所讨论的ICA滤波器结构进行补充,从而为实时语音信号增强提供一种健全的方法。这种系统的计算复杂度应该与诸如蜂窝电话、个人数字助理(PDA)、音频监控设备、电台等小消费设备的处理能力兼容。
所需要的是一种简单的语音处理方法,该方法能够实时地从背景噪音中分离语音信号,并且不需要很强的计算能力,但仍能产生相对准确的结果并能灵活地适应不同的环境。
发明内容
本发明涉及语音处理系统和方法,可用于在噪音环境中识别和分离诸如至少一个语音信号的期望音频信号。该语音处理在诸如无线移动电话、头戴式耳机或蜂窝电话的具有至少两个麦克风的设备上进行。至少两个麦克风位于该设备的外壳上,用于接收来自目标的有用信号,例如来自说话者的语音。设置麦克风使其接收目标用户的语音,但也收到噪音、来自其他源的语音、混响、回声和其他不希望的声音信号。至少两个麦克风接收音频信号,其包括期望目标语音和其他不希望声音信息的混合物。使用改进的ICA(独立分量分析)处理,处理来自麦克风的混合信号。该语音处理使用预定的语音特征,以协助识别语音信号。这样,该语音处理产生来自目标用户的期望语音信号以及噪音信号。可以使用噪音信号进一步滤波和处理所期望的语音信号。
本发明的一个方案涉及一种语音分离系统,其包括:至少两个输入信号信道,各包括一个音频信号或音频信号的组合;两个改进的独立分量分析交叉滤波器。通过交叉滤波器对这两个信道的输入信号进行滤波,所述交叉滤波器优选为具有非线性有界函数的无限冲激响应滤波器。非线有界性函数是具有预定最大值和最小值的非线性函数,这些值可以快速计算出来,例如sign函数,其根据输入值,返回正值或负值,作为输出。在信号的重复反馈之后,产生两个信道的输出信号,一个信道主要包含期望的音频信号,另一个信道主要包含噪音信号。
本发明的一个方案涉及将音频信号分离为期望语音信号和噪音信号的系统和方法。从至少两个信道接收输入信号,所述输入信号是期望语音信号和噪音信号的组合。使用相同数量的独立分量分析交叉滤波器。来自第一信道的信号被第一交叉滤波器滤波,并且与来自第二信道的信号合并,从而在第二信道上形成增强的信号。第二信道上的增强信号被第二交叉滤波器滤波,并且与来自第一信道的信号合并,从而在第一信道上形成增强信号。第一信道上的增强信号可以被第一交叉滤波器进一步滤波。重复滤波和合并过程,以降低这两个信道信号之间的信息冗余。所产生的两个信道的输出信号表示一个主要是语音信号的信道和一个主要是非语音信号的信道。可以执行其他语音增强方法,例如谱减、维纳滤波、去噪声和语音特征提取,以进一步提高语音质量。
本发明的另一个方案涉及在反馈滤波方案的设计中包括稳定单元。在一个稳定示例中,设计滤波器权重适应规则,使得权重适应动态与反馈结构的总体稳定要求一致。与以前方法不同的是,总体系统性能不仅仅指向分离输出的期望熵最大化,而是还考虑稳定性约束,从而达到更实际的目的。将该目的描述为稳定性约束下的最大概似原则更好。最大概似估计中的这些稳定性约束对应于源信号的时间特征进行建模。在熵最大化方法中,假定信号源为i.i.d(独立同分布)随机变量。但是,诸如声音和语音信号的真实信号不是随机信号,而是在时间上相关,在频率上平滑。这导致相应的原始ICA滤波器系数学习规则。
在另一个稳定示例中,由于该学习规则直接取决于所记录的输入幅度,所以通过自适应比例因子来按比例减少输入信道,以限制滤波器权重适应速度。根据递归方程确定比例因子,并且比例因子是信道输入能量的函数。因此,它与随后的ICA滤波器操作的熵最大化无关。此外,ICA滤波器结构的自适应特性暗示:如果滤波器系数调整得太快或表现出振荡行为,则分离输出信号包含混响干扰。因此,必须在时域和频域中将学到的滤波器权重进行平滑处理,以避免混响效应。由于该平滑处理操作降低了滤波器学习过程的速度,所以该增强的语音清晰度设计方面对总体系统性能具有额外的稳定影响。
为了提高空间分布背景噪音的盲源分离的性能,可以对ICA计算的输入和输出分别进行预处理或后处理,所述空间分布背景噪音可能是由于对计算资源和麦克风数量的限制所造成的。例如,由于语音活动检测和自适应维纳滤波只使用所处理信息相关的时间信息或谱信息,所以本发明的另一个实施例设想包括这些方法,由此补充ICA滤波单元。
本发明的最后一个方案涉及该滤波器反馈结构的计算精度和计算能力问题。在有限位精度计算环境中(通常16位或32位),滤波操作会出现滤波器系数量化误差。这些通常导致恶化的收敛性能和总体系统稳定性。可以通过限制交叉滤波器长度和通过改变原始反馈结构,控制量化影响,所以后处理的ICA输出改为反馈到ICA滤波器结构中。需要强调的是,在有限精度环境中按比例降低输入能量,不仅从稳定性的观点来看是必要的,而且也是由于计算数值的有限范围。尽管有限精度环境中的性能是可靠的和可调整的,但是所提出的语音处理方案应该优选在浮点精度环境中实现。最后,通过适当地选择滤波器长度和调整滤波器系数更新频率,完成在计算约束下的实现。该ICA滤波器结构的计算复杂度真正是后面这些变量的直接函数。
在附图中示出其他方案和实施例,在“详细说明”部分中对其进行说明,由权利要求的保护范围对其进行定义。
附图简述
图1示出现有技术ICA信号分离系统的框图;
图2是根据本发明的语音分离系统的一个实施例的框图;
图3是根据本发明的改进ICA处理子模块的一个实施例的框图;
图4是根据本发明的改进的ICA语音分离过程的一个实施例的框图;
图5是根据本发明的语音处理方法的流程图;
图6是根据本发明的语音去噪过程的流程图;
图7是根据本发明的语音特征提取过程的流程图;
图8是示出根据本发明的语音处理过程的组合示例的表;
图9是具有根据本发明的语音分离系统的蜂窝电话的一个实施例的框图;
图10是具有语音分离系统的蜂窝电话的另一个实施例的框图。
对优选实施例的详细说明
下面结合附图,说明语音分离系统的优选实施例。为了通过有限的计算能力实现实时处理,该系统使用具有简单和易计算的有界函数的交叉滤波器的改进ICA处理子模块。与传统方法相比,该简化的ICA方法降低了对计算能力的要求并且成功地从非语音信号中分离语音信号。
语音分离系统综述
图2示出语音分离系统200的一个实施例。系统200包括:语音增强模块210;可选的语音去噪模块220;可选的语音特征提取模块230。语音增强模块210包括:改进ICA处理子模块212和可选的后处理子模块214。改进ICA处理子模块212使用简化和改进的ICA处理,以便用相对低的计算能力实现实时的语音分离。在不需要实时语音分离的应用中,改进的ICA处理可进一步降低对计算能力的要求。如同在这里使用的那样,术语“ICA”和“BSS”可以互换,并且是指用于直接地或间接地通过近似将交互信息的数学表示最小化或最大化的方法,包括基于时域和频域的去相关方法,例如延时去相关或任何其他的基于二阶或高阶统计的去相关方法。
这里使用的“模块”或“子模块”可以指任何包括软件、硬件或固件形式的计算机指令的方法、装置、设备、单元或计算机可读数据存储介质。应当理解的是,可以将多个模块或系统合并成一个模块或系统,也可以将一个模块或系统分离成多个模块或系统,以执行相同的功能。在关于蜂窝电话应用的优选实施例中,将改进的ICA处理子模块212自身或与其他模块结合起来,嵌入到位于蜂窝电话中的微处理器芯片中。当以软件或其他计算机可执行的指令实现时,本发明的单元实际上就是执行必要任务的代码段,例如例程、程序、对象、部件、数据结构等。程序或代码段可以存储在处理器可读介质中,或由包含在载波中的计算机数据信号通过传输介质或通信链路传输。“处理器可读介质”可以包括任何能够存储或传送信息的介质,包括挥发性、非挥发性、可移动和不可移动介质。处理器可读介质的示例包括可用于存储期望信息并可被访问的电路、半导体存储器件、ROM、闪存、可擦除ROM(EROM)、软盘或其他磁存储介质、CD-ROM/DVD或其他光存储介质、硬盘、光纤介质、射频(RF)链路或任何其他介质。计算机数据信号可以包括任何能够通过诸如电子网络信道、光纤、空气、电磁波、RF链路等传输介质传播的信号。代码段可以通过诸如互联网、内联网等计算机网络下载。在任何情况下,本发明不应被视为受限于这些实施例。
语音分离系统200包括一个或多个语音增强模块210、语音去噪模块220和语音特征提取模块230的各种组合。语音分离系统200还包括下面说明的一个或多个语音识别模块(未显示)。每个模块都可以自身作为一个独立系统使用,或者作为一个更大系统的一部分使用。如下所述,该语音分离系统优选集成在电子设备中,后者接受语音输入,从而控制某些功能,或相反要求从背景噪音中分离期望的噪音。很多应用需要增强干净的期望声音或将干净的期望声音从来自多个方向的背景声音中分离出来。这样的应用包括诸如在电子或计算设备中的人机接口,它们集成了诸如语音识别和检测、语音增强和分离、语音激励控制等能力。由于本发明的语音分离系统需要较低的计算能力,所以它适用于只提供有限处理能力的设备。
改进的ICA处理
图3示出改进的ICA或BSS处理子模块212的一个实施例300。分别从信道310和320接收输入信号X1和X2。通常情况下,每个信号来自至少一个麦克风,但应当认识到的是,也可以使用其他源。将交叉滤波器W1和W2应用到每个输入信号上,从而产生信道330的分离信号U1和信道340的分离信号U2。信道330(语音信道)主要包含期望信号,信道340(噪音信道)主要包含噪音信号。应当理解的是,尽管使用了术语“语音信道”和“噪音信道”,但术语“语音”和“噪音”根据预期是可以互换的,例如,某一语音和/或噪音相比其他语音/或噪音来说可能是所希望的。此外,可以使用该方法,分离来自两个以上源的混合噪音信号。
在改进的ICA处理过程中优选使用无限冲激响应滤波器。无限冲激响应滤波器的输出信号,作为输入信号的至少一部分,反馈到该滤波器中。有限冲激响应滤波器的输出信号不作为输入而反馈。交叉滤波器W21和W12可以具有在时间上稀疏分布的系数,以捕获长周期的时延。在最简化的形式中,交叉滤波器W21和W12是每个滤波器只有一个滤波器系数的增益系数,例如,输出信号和反馈输入信号之间的时延增益系数和用于放大输入信号的幅度增益系数。在其他形式中,交叉滤波器可以各有数十个、数百个或数千个滤波器系数。如下所述,后处理子模块、去噪模块或语音特征提取模块可以进一步处理输出信号U1和U2
尽管可以明确地得到ICA学习规则以实现盲源分离,但是它在声音环境中的语音处理的具体实现可以导致滤波器方案的不稳定行为。为了确保该系统的稳定性,W12的适应动态以及类似地W21首先必须稳定。这样的系统的增益裕度通常很低,这意味着:输入增益的增加,例如遇到非平稳语音信号,会导致不稳定并因此导致权重系数的指数增长。由于语音信号通常表现为具有零均值的稀疏分布,所以,sign函数会在时间上频繁地振荡,并导致不稳定行为。最后,由于快速收敛需要较大的学习参数,所以稳定性和性能之间有一个内在的折衷,因为输入增益大会使得该系统更不稳定。已知的学习规则不仅导致不稳定,而且还容易由于非线性sign函数而振荡,尤其是在接近稳定性极限时,从而导致滤波输出信号Y1[t]和Y2[t]的混响。为了解决这些问题,需要稳定W21和W12的适应规则。如果这些滤波器系数的学习规则稳定,广泛的分析和经验研究已经表明,系统在BIBO(有界输入有界输出)中是稳定的。这样,整个处理方案的最终相应目标是在稳定性约束下将噪音语音信号进行盲源分离。
因此,确保稳定性的主要办法是适当地调整输入,如图3所示。在该框架中,比例因子sc_fact是根据进入的输入信号特征来适应的。例如,如果输入太高,这将导致sc_fact的增加,从而降低输入幅度。在性能和稳定性之间有一个折衷。将输入按比例缩小sc_fact,降低SNR,这导致分离性能的降低。这样,应该仅仅将输入调整到确保稳定性所需要的度。可以通过运行一个滤波器结构,实现交叉滤波器的附加稳定,该滤波器结构考虑到了在每个采样时权重系数中的短期波动,由此避免相关的混响。可将该适应规则滤波器视为时域平滑。可以在频域中执行进一步的滤波平滑,从而增强收敛的分离滤波器在相邻频率段上的相干性。通过将K抽头滤波器零抽头(zero tapping)到长度L,然后用增强时间支持将该滤波器进行傅立叶变换,随后进行傅立叶反变换,可以方便地完成这一点。由于有效地用矩形时域窗口对该滤波器进行了窗口处理,它被频域中的sinc函数进行了相应地平滑。该频域滤波平滑可以以固定时间间隔完成,从而周期性地将适应的滤波器系数重新初始化为一个相干解。
下面的等式为可用于每个大小为t、时间变量为k的时间采样窗口的非线性有界函数的示例。
U 1 ( t ) = X 1 ( t ) + W 12 ( t ) ⊗ X 2 ( t ) (等式1)
U 2 ( t ) = X 2 ( t ) + W 21 ( t ) ⊗ X 1 ( t ) (等式2)
Y1=sign(U1)            (等式3)
Y2=sign(U2)                (等式4)
ΔW12k=-f(Y1)×U2[t-k]     (等式5)
ΔW21k=-f(Y2)×U1[t-k]     (等式6)
函数f(x)是非线性有界函数,即具有预定最大值和预定最小值的非线性函数。f(x)优选是一个根据变量x的符号而快速达到最大值或最小值的非线性有界函数。例如,上面的等式3和等式4使用sign函数作为简单的有界函数。Sign函数f(x)根据x为正或负,值为1或-1。示例性的非线性有界函数包括、但不限于:
f ( x ) = sign ( x ) = 1 x > 0 - 1 x ≤ 0 (等式7)
f ( x ) = tanh ( x ) = e x - e - x e x + e - x (等式8)
f ( x ) = simple ( x ) = 1 x ≥ ϵ x / ϵ - ϵ > x > ϵ - 1 x ≤ ϵ (等式9)
这些规则假设可得到浮点精度用于执行必要的计算。尽管优选采用浮点精度,也可以采用定点运算,尤其当它应用于具有最小计算处理能力的设备时。虽然采用定点运算的能力,但是收敛到最佳ICA解更困难。ICA算法真正基于必须取消干扰源的原则。由于定点运算在有些情况下的某些错误,当减去几乎相等的数字(或者加上非常不同的数字)时,ICA算法可能会表现出小于最佳收敛特性。
可能影响分离性能的另一因素是滤波器系数量化误差效应。由于有限的滤波器系数分辨率,滤波器系数的适应会在特定点产生逐渐的附加分离改善,由此产生确定收敛属性的考虑。量化误差效应取决于很多因素,但主要是滤波器长度和所使用的位分辨率(bitresolution)的函数。前述的调整缩放问题在防止数值溢出的有限精度计算中也是必须的。由于该滤波过程中涉及的卷积可能潜在地增加到高于可得到分辨率范围的数值,所以比例因子必须确保滤波器输入足够地小,以防止这一情况的发生。
多信道改进ICA处理
改进的ICA处理子模块212接收来自至少两个诸如麦克风的音频输入信道的输入信号。可以增加音频输入信道的数量,超过两个信道的最小值。当输入信道的数量增加时,语音分离质量可以得到改善,通常达到输入信道数量等于音频信号源数量的点。例如,如果输入音频信号源包括:一个说话者、一个背景说话者、一个背景音乐源以及远方道路噪音和风噪音产生的一个普通背景噪音,那么四信道语音分离系统通常会比两信道系统的性能好。当然,使用的输入信道越多,就需要越多的滤波器和越强的计算能力。
改进的ICA处理子模块和过程可用于分离超过两个信道的输入信号。例如,在蜂窝电话应用中,一个信道可以主要包括期望的语音信号,另一个信道主要包括来自一个噪音源的噪音信号,再一个信道主要包括来自另一噪音源的噪音信号。例如,在多用户环境中,一个信道可以主要包括来自一个目标用户的语音,而另一个信道可以主要包括来自另一个不同目标用户的语音,第三个信道可以包括噪音,用于进一步处理这两个语音信道。应当认识到,也可以使用附加的语音或目标信道。
尽管有些应用只涉及一个期望语音信号源,但是在其他应用中,可能会有多个期望语音信号源。例如,电话会议应用或音频监控应用要求从背景噪音中分离出多个说话者的语音信号以及将它们相互分离开来。改进的ICA过程不仅可用于从背景噪音中将一个语音信号源分离出来,而且还可以将一个说话者的语音信号从另一个说话者的语音信号中分离出来。
辅助处理
为了提高本发明方法和系统在功效和健壮性方面的性能,可以将各种辅助处理技术应用到输入和输出信号上,并且以不同的度。对这里所述的方法和系统进行补充的预处理技术以及后处理技术显然会提高应用到音频混合上的盲源分离技术的性能。例如,利用不希望的输出或未分离的输入,后处理技术可用来改善期望信号的质量。同样,通过改善混合情形的修整以对这里所述的方法和系统进行补充,预处理技术或信息可以增强应用在音频混合上的盲源分离技术的性能。
改进的ICA处理将声音信号分离为至少两个信道,例如,一个用于噪音信号的信道(噪音信道)和一个用于期望语音信号的信道(语音信道)。如图4所示,信道430是语音信道,信道440是噪音信道。很可能的情况是,语音信道包含不希望水平的噪音信号,而噪音信道仍包含一些语音信号。例如,如果有两个以上的重要声源并只有两个麦克风,或者,如果两个麦克风相距很近而声源隔离较远,那么,改进的ICA处理可能不总是足以单独地从噪音中分离期望的语音。因此,处理后的信号需要进行后处理,以去除剩余水平的背景噪音和/或进一步提高语音信号的质量。例如,通过经单或多信道语音增强算法,反馈分离的ICA输出,从而实现这点。可以使用维纳滤波器,为那些被长时间支持的背景噪音所恶化的信号实现较好的SNR,其中所述维纳滤波器具有通过用语音活动检测器检测到的非语音时间间隔估算出来的噪音频谱。此外,有界函数只是相关熵计算的简单近似,不总是能够完全降低信号的信息冗余度。因此,在使用改进的ICA处理分离信号之后,可以执行后处理,以进一步提高语音信号的质量。
可以丢弃分离的噪音信号信道,但也可以将它用作其他目的。如果合理地假设语音信道中的剩余噪音信号具有与噪音信道中的噪音信号相似的信号特征,那么在后处理单元中,应该滤掉期望语音信道中其特征与噪音信道信号特征相似的信号。例如,可以使用谱减技术执行后处理。识别噪音信道中的信号特征。与基于噪音特征预定假设的现有技术噪音滤波器相比,后处理更灵活,因为它分析特定环境的噪音特征,并除去表示特定环境的噪音信号。因此在噪音消除时不大可能涵盖过广或涵盖不足。也可以使用诸如维纳滤波和卡尔曼滤波等其他滤波技术执行后处理。由于该ICA滤波器解将仅仅收敛于真实解的极限环,所以滤波器系数会继续适应,而不会导致更好的分离性能。已经观察到一些系数漂移到它们的分辨率极限。因此,通过如图4所示的IIR反馈结构,反馈包含期望说话者信号的ICA输出的后处理版本,所以克服了收敛极限环,并且稳定了ICA算法。该过程的有益副作用是收敛明显加速。
可以与语音增强一起使用诸如去噪、语音特征提取等其他处理,以进一步提高语音信号的质量。语音识别应用可以利用通过语音增强过程分离的语音信号。语音信号与噪音基本分离时,基于诸如隐性马尔可夫模型链、神经网络学习和支持向量机等方法的语音识别引擎可以以更高的准确度工作。
现在参考图5,其示出语音处理的流程图。例如,方法500可用于语音设备,例如便携无线移动电话、头戴电话或免持汽车套件。应当认识到,方法500可用于其他语音设备,并且可用DSP处理器、通用计算处理器、微处理器、门阵列或其他计算设备来实现。在使用中,方法500接收形式为声音信号502的听觉信号。声音信号502可以来自很多源,并且可以包括来自目标用户的语音、来自附近其他人的语音、噪音、混响、回声、反射声和其他不希望的声音。尽管所示的方法500用于识别和分离单一目标语音信号,但应当理解的是,可以修改方法500,来识别和分离另外的目标声音信号。
此外,改变的预处理技术或信息可用于提高或促进混合声音信号的处理和分离,例如利用先验知识、将偏离信息或输入信号中的特征和条件最大化、提高混合情况的调整等。例如,由于分离的ICA声音信道的输出次序通常是无法预先得知的,所以附加的信道选择阶段510以重复的方式,基于关于期望说话者的先验知识501,处理分离信道的内容。用于识别期望说话者语音特征的标准504可以基于、但不限于空间和时间特征、能量、音量、频率内容、过零率或与分离过程并行计算的与扬声器相关和不相关的语音识别值。例如,可以将标准504配置为:响应诸如特定命令等受约束词汇,例如“唤醒”。在另一个例子中,语音设备可以对从特定位置或方向发射的声音信号做出响应,例如汽车中前面司机的位置。这样,免持汽车套件可以被配置为:只对来自该司机的语音做出响应,而忽略来自乘客或无线电设备的声音。或者,通过调制或操纵输入信号的特征,例如,通过空间、时间、能量、频谱等来调制和操纵,可以改进混合情景的条件。
在一些语音设备上,一直根据到语音源、背景噪音或相对于其他麦克风的预定距离来放置麦克风,或使之自身具有某些特征,来调整输入信号,例如,方向麦克风。如模块506所示,可以将两个麦克风隔离分开,并且放置在语音设备的外壳上。例如,通常调整头戴电话,使得麦克风在离说话者的嘴大约1英寸内,说话者的声音通常是离麦克风最近的声音源。同样,手持无线电话的麦克风、头戴式耳机或翻领麦克风通常离目标说话者的嘴为合理的已知距离。由于从麦克风到目标源的距离是已知的,所以可以将该距离用作识别目标语音信号的特征。此外,应当认识到,可以使用多个特征。例如,过程510可以只选择来自两英寸之内、频率分量显示为男性声音的声音信号。在使用两个麦克风设置的情况下,将麦克风靠近预期说话者的嘴部。这种设置允许隔离期望说话者的声音信号进入分离的ICA信道中,从而期可以将只包含噪音的剩余分离输出信道用作噪音参考,用于随后对望说话者信道进行后处理。
在使用两个以上麦克风的录音场合中,以与前面所解释的两信道情景相似的方式,用N*(N-1)个ICA交叉滤波器,将两信道ICA算法扩展到N信道(麦克风)算法。后者与[ad2]中所示的信道选择程序一起用于源定位目的,以从N个录音信道中选择最佳的两个信道组合,然后以两信道ICA算法对其进行处理,以分离出期望的说话者。为此,使用从N信道ICA分离所得的各种信息以及学习到的ICA交叉滤波器系数,所述信息如同从记录输入到分离输出源的相对能量改变,但不限于此。
分开的麦克风各收到一个信号,其是期望目标声音与多种噪音和混响源的混合。在ICA处理508中,接收混合的声音信号507和509,进行分离。在用识别处理510识别出目标语音信号之后,ICA处理508将混合声音分离为期望语音信号和噪音信号。该ICA处理可以使用噪音信号,例如,通过使用噪音信号进一步改进和设置加权因子,以进一步处理512语音信号。此外,附加滤波或处理514也可以使用噪音信号,以进一步从语音信号中除去噪音内容,如下面进一步说明的那样。
去噪
图6是去噪过程的一个实施例的流程图。在蜂窝电话应用中,最好使用去噪声来分离在空间上不固定的噪音源,例如来自所有方向的风噪音。去噪技术也可用于除去具有固定频率的噪音信号。该过程从开始模块600,进行到模块610。在模块610中,该过程接收到批语音信号x。该过程进行到模块620,其中系统计算源系数s,优选采用下面的公式:
s i = Σ j w ij * x j (公式10)
在上面的公式中,wij表示ICA权重矩阵。可以在去噪过程中使用美国专利5706402中说明的ICA方法或美国专利6424960中说明的ICA方法。然后,该过程进行到模块630、模块640或模块650。模块630、640和650表示其他实施例。在模块630中,该过程根据信号si的功率,选择多个重要源系数。在模块640中,该过程将最大概似收缩函数应用在计算出的源系数上,从而消除不重要的系数。在模块650中,该过程用各时间采样t的一个基函数,滤波语音信号x。
该过程从模块630、640或650进行到模块660,其中该过程重建语音信号,优选使用下面的公式:
x new = Σ j a ij * s j , shrinked (公式11)
在上面的公式中,aij表示通过用加权因子滤波输入信号而产生的训练信号。这样,去噪过程消除噪音,并产生重建的语音信号xnew。当可获得关于噪音源的信息时,可得到良好的去噪结果。如同上面结合改进的ICA处理所说明的那样,去噪过程可以利用噪音信道中的信号特征,以将噪音从语音信道中的信号中除去。该处理从模块660进行到结束模块670。
语音特征提取
图7示出使用ICA的语音特征提取过程的一个实施例。该过程从开始模块700进行到模块710,在那里,该过程接收语音信号x。如图下面结合图9所说明的那样,语音信号x可以是输入语音信号、通过语音增强处理的信号、通过去噪处理的信号或通过语音增强和去噪处理的信号。
参考图7,该过程从模块710进行到模块720,其中该过程使用公式10所示的公式sij,new=W*xij,计算源系数。然后,该过程进行到模块730,其中将收到的语音信号分解为基函数。该过程从模块730进行到模块740,其中将计算出的源系数用作特征向量。例如,所计算出的系数sij,new或2logsij,new用于计算特征向量。然后,该过程进行到结束模块750。
提取出的语音特征可用于识别语音或从其他音频信号中区分可识别的语音。可以单独使用提取出的语音特征或将其与倒谱特征(MFCC)一起使用。提取出的语音特征可用于识别说话者,例如,从多个说话者的语音信号中识别出个体说话者,或将语音信号识别为属于特定的类,例如来自男性或女性说话者的语音。分类算法也可以使用所提取出的特征,来检测语音信号。例如,可以使用最大概似计算,来确定所述信号为真人语音信号的可能性。
提取出的语音特征也可用于文字转语音的应用中,该应用产生文字的计算机读物。文字转语音系统使用一个巨大的语音信号数据库。一个挑战是获取良好的音素表示数据库。现有技术系统使用倒谱特征,以将语音数据分成音素数据库。通过将语音信号分解为基函数,改进的语音特征提取方法可以更好地将语音分为音素段并因此产生更好的数据库,从而实现文字转语音系统的更好语音质量。
在语音特征提取过程的一个实施例中,对于所有语音信号使用一个基函数集合,从而识别语音。在另一个实施例中,对于每个说话者使用一个基函数集合,从而识别每个说话者。对于诸如电话会议的多个说话者的应用,这可能尤其有利。在另一个实施例中,对于一类说话者使用一个基函数集合,以识别每一类。例如,对于男性说话者使用一个基函数集合,对于女性说话者使用另一个基函数集合。美国专利6424960说明了用ICA混合模型来识别不同类的声音。这样的模型可用于识别不同说话者或不同性别的说话者的语音信号。
语音识别
语音识别应用可以利用由改进的ICA过程分离的语音信号。通过将语音信号与噪音基本分离,语音识别应用可以以更高的准确度工作。诸如隐性马尔可夫模型、神经网络学习和支持向量机等方法可用于语音识别应用。如上所述,在两个麦克风的设置中,改进的ICA处理将输入信号分离为期望语音信号和一些噪音信号的语音信道,以及噪音信号和一些语音信号的噪音信道。
为了在噪音环境中改进语音识别的准确度,优选具有准确的噪音参考信号,以根据该噪音参考信号,将噪音与语音信号进行分离。例如,使用语音谱减,从主要是语音信号的信道中除去具有噪音参考信号特征的信号。因此,在针对非常嘈杂环境的优选语音识别系统中,该系统接收信号的语音信道和噪音信道,并且识别噪音参考信号。
处理组合
已经与语音增强处理一起,说明了语音特征提取、去噪和语音识别过程的一些实施例。值得注意的是,并不是所有过程都需要一起使用。图8是表800,列出了语音增强、去噪和语音特征提取过程的一些典型组合。表800的左列列出了信号的类型,右列列出了处理相应类型信号的优选过程。
在行810所示的配置中,首先使用语音增强对输入信号进行处理,然后使用语音去噪进行处理,然后再使用语音特征提取进行处理。当输入信号包含重噪音和竞争源时,这三个过程的组合运转良好。重噪音是指来自多个信源的相对低幅度噪音信号,例如在大街上,各种类型的噪音来自不同方向,但没有某一种类型的噪音是特别大声的。竞争源是指来自一个或几个与期望语音信号竞争的源的高幅度信号,例如,当司机通过汽车电话说话时,汽车收音机调到高音量。在行820所示的另一种配置中,首先使用语音增强处理输入信号,然后使用语音特征提取处理。省略了语音去噪过程。当原始信号包含竞争源而不包含重噪音时,语音增强和语音特征提取过程的组合工作良好。
在行830所示的又一种配置中,首先用语音去噪处理输入信号,然后用语音特征提取处理。这里省略了语音增强。当输入信号包含重噪音而不包含竞争源时,语音去噪和语音特征提取过程的组合工作良好。在行840所示的再一种配置中,对于输入信号,只执行语音特征提取。对于不包含重噪音或竞争源的相对干净的语音来说,该过程就足以达到良好效果了。当然,表800只是列出了一些示例,也可以使用其他实施例。例如,可以不管信号类型,将语音增强、语音去噪和语音特征提取全部用于处理信号。
蜂窝电话应用
图9示出蜂窝电话设备的一个实施例。蜂窝电话设备900包括:两个麦克风910和920,用于记录声音信号;以及一个语音分离系统200,用于处理所记录的信号,以从背景噪音中分离期望的语音信号。语音分离系统200至少包括一个改进的ICA处理子模块,其将交叉滤波器应用在所记录的信号上,以产生信道930和940上的分离信号。然后,发射机950将分离的期望语音信号发射给诸如有线电话或其他蜂窝电话等音频信号接收设备。
可以丢弃分离出的噪音信号,但也可以将其用作其他目的。分离出的噪音信号可用于相应地确定环境特征和调整蜂窝电话参数。例如,噪音信号可用于确定说话者环境的噪音水平。然后,如果说话者处在噪音水平高的环境中,则蜂窝电话增加麦克风的音量。如上所述,也可将噪音信号用作参考信号,以进一步从分离的语音信号中除去剩余的噪音。
为便于说明,在图9中省略了其他蜂窝电话部分,例如电池、显示面板等。为便于说明,也省略了涉及模数转换、调制或实现FDMA(频分复用)、TDMA(时分复用)或CDMA(码分多址)等的蜂窝电话信号处理步骤。
尽管图9示出了两个麦克风,但也可以使用两个以上的麦克风。现有制造技术可以生产出硬币、针头大小或更小的麦克风,可以将多个麦克风设置在设备900上。
在一个实施例中,蜂窝电话中执行的传统回声消除过程被ICA过程所替换,例如改进的ICA子模块执行的过程。
由于音频信号源通常相互分开,所以优选将麦克风设置在蜂窝电话上,并在声音上分开。例如,可以将一个麦克风设置在蜂窝电话的正面,而将另一个麦克风设置在蜂窝电话的背面。可以将一个麦克风设置在蜂窝电话的顶部或左侧附近,而将另一个麦克风设置在蜂窝电话的底部或右侧附近。可以将两个麦克风设置在蜂窝电话头戴式耳机的不同位置。在一个实施例中,两个麦克风设置在头戴式耳机上,并且另两个麦克风设置在蜂窝电话手持单元上。因此,两个麦克风可以记录用户的话音,而不管用户是使用手持单元还是使用头戴式耳机。
尽管作为示例说明了具有改进的ICA处理的蜂窝电话,但是其他的语音通信介质,例如家电的语音控制、有线电话、免持电话、无绳电话、电话会议、CB电台、对讲机、计算机电话应用、计算机和汽车语音识别应用、监视设备、内部通信联络系统等,也可以利用改进的ICA处理,以将期望的语音信号从其他信号中分离开来。
图10示出蜂窝电话设备的另一个实施例。蜂窝电话设备1000包括两个信道1010和1020,用于接收来自诸如其他蜂窝电话的其他通信设备的声音信号。信道1010和1020接收用两个麦克风记录的相同对话的声音信号。可使用两个以上的接收单元来接收两个以上信道的输入信号。设备1000还包括语音分离系统200,用于处理接收信号,从而将期望语音信号从背景噪音中分离开来。然后,放大器1030将分离出的期望语音信号进行放大,从而到达蜂窝电话用户的耳朵。通过将语音分离系统200设置在接收蜂窝电话上,即使发射蜂窝电话没有语音分离系统200,接收蜂窝电话的用户也可以听到高质量的语音。然而,这需要接收由发射蜂窝电话上的两个麦克风记录的两个信道的会话信号。
为了便于说明,图10省略了其他蜂窝电话部件,例如电池、显示面板等。为了便于说明,还省略了涉及数模转换、解调或实现FDMA(频分复用)、TDMA(时分复用)、CDMA(码分多址)等的蜂窝电话信号处理步骤。
这里说明了本发明的某些方面、优点和新颖特征。当然,应当理解的是,所有这些方面、优点或特征不必包含在本发明的任何一个特定实施例中。这里讨论的实施例只是本发明的示例,还可以进行增加、修改和调整。例如,尽管公式7、8和9给出了非线性有界函数的例子,但非线性有界函数不限于这些例子,而是可以包括任何具有预定最大值和最小值的非线性函数。因此,本发明的保护范围应该由后面的权利要求书进行定义。
参考文献
Hyvaerinen,A.,Karhunen,J,Oja,E.Independent componentanalysis.John Wiley&Sons,Inc.2001
Te-Won Lee,Independent Component Analysis:Theory andApplications,Kluwer Academic Publishers,Boston,September 1998
Mark Girolami,Self-Organizing Neural Networks:IndependentComponent Analysis and Blind Source Separation.In Perspectives inNeural Computing,Springer Verlag,September 1999
Mark Girolami(Editor),Advances in Independent ComponentAnalysis.In Perspectives in Neural Computing,,Springer Verlag,August2000
Simon Haykin,Adaptive Filter Theory,Third Edition,Prentice-Hall(NJ),1996.
Bell,A.,Sejnowski,T.,Neural Computation 7:1129-1159,1995
Amari,S.,Cichocki,A.,Yang,H.,A New Learning Algorithm forBlind Signal Separation,In:Advances in Neural Information ProcessingSystems 8,Editors D.
Touretzky,M.Mozer,and M.Hasselmo,pp.757-763,MIT Press,Cambridge MA,1996.
Cardoso,J.-F.,Iterative techniques for blind source separation usingonly fourth order cumulants In Proc.EUSIPCO,pages739-742,1992.
Comon,P.,Independent component analysis,a new concept?SignalProcessing,36(3):287-314,April 1994.
Hyvaerinen,A.and Oja,E,A fast  fixed-point algorithm forindependent component analysis.Neural Computation,9,pp.1483-1492,1997

Claims (55)

1.一种在声音环境中分离期望语音信号的方法,包括:
接收多个输入信号,所述输入信号是响应于所述期望语音信号和其他声音信号而产生的;
在稳定性约束下使用独立分量分析或盲源分离法,处理所接收到的输入信号;以及
将所接收到的输入信号分离成一个或多个期望音频输出信号和一个或多个输出噪音信号。
2.根据权利要求1所述的方法,其中,所述期望音频信号中的一个是所述期望语音信号。
3.根据权利要求1所述的方法,其中,所述独立分量分析或盲源分离法包括通过近似将交互信息的数学表示最小化。
4.根据权利要求1所述的方法,还包括通过协调独立分量分析滤波器的适应来稳定所述独立分量分析处理的步骤。
5.根据权利要求1所述的方法,还包括通过使用自适应比例因子调整所接收的输入信号以约束权重适应速度、来稳定所述独立分量分析处理的步骤。
6.根据权利要求1所述的方法,还包括:
通过滤波器学习过程产生滤波器权重;以及
通过在时域和频域中过滤学到的滤波器权重以避免混响效果来稳定所述独立分量分析处理。
7.根据权利要求1所述的方法,其中,将预处理技术应用在至少一个所接收的输入信号上,和将后处理技术应用在至少一个分离的输出信号上。
8.根据权利要求1所述的方法,还包括预处理所接收的输入信号。
9.根据权利要求8所述的方法,还包括对于被应用在所述输入信号上的混合情景的调整进行改进。
10.根据权利要求2所述的方法,还包括利用所述期望语音信号的特征信息来识别包含所述分离期望语音信号的输出信道。
11.根据权利要求10所述的方法,其中,所述特征信息是空间、频谱或时间信息。
12.根据权利要求1所述的方法,其中,通过采用后处理技术,利用选自一个或多个所述噪音信号和一个或多个所述输入信号中的至少一个处理信号来提高所述期望语音信号的质量。
13.根据权利要求12所述的方法,其中,利用至少一个处理信号包括使用所述噪音信号。
14.根据权利要求13所述的方法,其中,所述使用噪音信号包括使用所述噪音信号来估计噪音滤波器的噪音频谱。
15.根据权利要求1所述的方法,还包括:
将至少两个麦克风分开;以及
在每个相应麦克风处产生所述输入信号之一。
16.根据权利要求15所述的方法,其中,分开至少第一和第二麦克风包括将所述麦克风分开1毫米与1米之间的距离。
17.根据权利要求15所述的方法,其中,所述分开至少第一和第二麦克风包括将所述麦克风在电话听筒、头戴式耳机或免持套件上分开。
18.根据权利要求15所述的方法,其中,所述独立分量分析法包括:
通过涉及将非线性有界sign函数应用到所述一个或多个噪音信号的递归学习规则,使连接到第一输出信道和第二输入信道的第一自适应独立分量分析滤波器适应;
通过涉及将非线性有界sign函数应用到一个或多个期望语音信号信道的递归学习规则,使连接到第一输入信道和第二输出信道的第二自适应独立分量分析滤波器适应;
其中,重复应用所述第一滤波器和所述第二滤波器,以产生所述期望的语音信号。
19.根据权利要求18所述的方法,,还包括:
分开至少第一和第二麦克风;
在每个相应麦克风处产生所述输入信号之一;
由所述第一自适应独立分量分析滤波器递归滤波所述一个或多个期望的音频输出信号,以获得递归滤波的语音信号;
由所述第二自适应独立分量分析滤波器递归滤波所述一个或多个噪音输出信号,以获得递归滤波的噪音信号;
将所述递归滤波的语音信号添加到来自所述第二麦克风的输入信号,从而产生所述噪音输出信号;以及
将所述递归滤波的噪音信号添加到来自所述第一麦克风的输入信号,从而产生一个或多个期望的音频输出信号。
20.根据权利要求19所述的方法,其中,通过根据递归方程计算出的作为输入信号能量函数的自适应比例因子,反向地按比例调节所接收的输入信号。
21.根据权利要求18所述的方法,还包括:
通过在时间上平滑所述第一自适应独立分量分析滤波器的系数,稳定使所述第一自适应独立分量分析交滤波器适应的递归学习规则,以及
通过在时间上平滑所述第二自适应独立分量分析滤波器的系数,稳定使所述第二自适应独立分量分析滤波器适应的递归学习规则。
22.根据权利要求18所述的方法,其中,在频域中过滤所述第一自适应独立分量分析交叉滤波器的滤波器权重,并且其中,在频域中过滤所述第二自适应独立分量分析交叉滤波器的滤波器权重。
23.根据权利要求18所述的方法,还包括对所述期望语音信号进行后处理,其包括语音活动检测,并且其中,不将所述后处理的输出反馈给所述输入信号。
24.根据权利要求18所述的方法,其中,在一个定点精度环境中实现所述独立分量分析法,其中,所述独立分量分析法还包括:
在每个采样点应用所述自适应独立分量分析交叉滤波器,
在所述采样点的倍数处,更新滤波器系数,以及
根据可用的计算能力,使可变尺寸的滤波器长度适应。
25.根据权利要求18所述的方法,还包括根据所述一个或多个噪音信号,将谱减应用于所述一个或多个期望的音频输出信号。
26.根据权利要求18所述的方法,还包括使用所述噪音信号,对所述期望语音信号进行后处理,后处理模块根据所述一个或多个噪音信号,将维纳滤波应用于所述期望语音信号。
27.根据权利要求18所述的方法,还包括从第三信道接收第三组音频输入信号,并使用第三滤波器,将非线性有界函数应用于输入信号。
28.根据权利要求1所述的方法,其中,所述独立分量分析或盲源分离法包括通过近似将交互信息的数学表示最大化。
29.根据权利要求1所述的方法,其中,所述独立分量分析或盲源分离法包括直接或间接地通过近似来调制交互信息的数学表示。
30.一种语音设备,包括:
至少两个分开的麦克风,构成用来接收声音信号,所述麦克风与语音源相距期望的距离;以及
连接到所述麦克风的独立分量分析或盲源分离处理器,
所述处理器执行以下步骤,包括:
接收来自所述两个麦克风的声音信号,
在稳定性约束下分离所述语音信号,以使其进入至少一个期望语音信号线和至少一个噪音信号线。
31.根据权利要求30所述的语音设备,还包括连接到所述噪音线和所述期望语音信号线的后处理滤波器。
32.根据权利要求30所述的语音设备,其中,所述麦克风分开1毫米至1米。
33.根据权利要求30所述的语音设备,其中所述处理器执行步骤还包括对在每个麦克风处接收的声音信号进行预处理。
34.根据权利要求30所述的语音设备,其中,所述设备包含具有至少两个面的设备外壳,所述麦克风之一位于所述设备外壳的一面,而另一个麦克风位于所述设备外壳的另一面。
35.根据权利要求30所述的语音设备,其中,将所述语音设备构成为无线电话。
36.根据权利要求30所述的语音设备,其中,将所述语音设备构成为免持汽车套件。
37.根据权利要求30所述的语音设备,其中,将所述语音设备构成为头戴式耳机。
38.根据权利要求30所述的语音设备,其中,将所述语音设备构成为个人数据助理。
39.根据权利要求30所述的语音设备,其中,将所述语音设备构成为手持条形码扫描设备。
40.一种用于在声音环境中分离期望语音信号的系统,包括:
多个输入信道,各接收一个或多个声音信号;
至少一个独立分量分析或盲源分离滤波器,其中,所述滤波器在稳定性约束下,将收到的信号分离为一个或多个期望音频信号和一个或多个噪音信号;以及
多个输出信道,传输所分离的信号。
41.根据权利要求40所述的系统,其中,所述期望音频信号为所述一个或多个声音信号中接收到的语音信号。
42.根据权利要求40所述的系统,其中,所述滤波器通过近似直接地或间接地调整交互信息的数学表示。
43.根据权利要求40所述的系统,其中,所述独立分量分析滤波器通过协调独立分量分析权重适应动态,来稳定所述独立分量分析处理。
44.根据权利要求40所述的系统,其中,所述独立分量分析滤波器通过使用自适应比例因子调整独立分量分析或盲源分离输入以约束权重适应速度,来稳定所述独立分量分析处理。
45.根据权利要求40所述的系统,其中,所述独立分量分析滤波器包括通过学习过程获得的滤波器权重,所述独立分量分析滤波器通过在时域和频域中过滤该学到的滤波器权重,以避免混响效果,来稳定所述独立分量分析处理。
46.根据权利要求40所述的系统,还包括一个或多个辅助处理滤波器,其应用于所述一个或多个声音信号和/或分离的信号。
47.根据权利要求46所述的系统,其中,所述辅助处理滤波器包括一个或多个预处理滤波器。
48.根据权利要求46所述的系统,其中,所述辅助处理滤波器包括一个或多个后处理滤波器。
49.根据权利要求40所述的系统,还包括一个或多个连接到所述多个输入信道的麦克风。
50.根据权利要求49所述的系统,包括两个或多个麦克风,各分开1毫米与1米之间的距离。
51.根据权利要求40所述的系统,其中,在手持设备上构造所述系统。
52.根据权利要求40所述的系统,其中,所述独立分量分析或盲源分离滤波器包括:
连接到第一输出信道和第二输入信道的第一自适应独立分量分析滤波器,通过涉及将非线性有界sign函数应用到所述一个或多个噪音信号的递归学习规则,使所述第一滤波器适应;
连接到第一输出信道和第二输入信道的第二自适应独立分量分析滤波器,通过涉及将非线性有界sign函数应用到所述期望语音信号的递归学习规则,使所述第二滤波器适应;
其中,重复应用所述第一滤波器和所述第二滤波器,以产生所述期望的语音信号。
53.一种用于分离语音信号的系统,包括:
一组信号发生器,设置每个信号发生器使其产生表示所述语音信号与其他声音信号的混合的混合信号;
处理器,配置成接收每一个所述混合信号;
所述处理器执行一种方法,还包括:
在稳定性约束下使用独立分量分析或盲源分离,处理所述混合信号组;以及
将所述混合信号分离成所述语音信号和至少一个噪音信号;
以及
语音激活单元,用于接收所述语音信号。
54.根据权利要求53所述的系统,其中,将所述信号发生器构成为声换能器。
55.根据权利要求54所述的系统,其中,所述声换能器是构成为接收人类语音频率范围内的声音信号的麦克风。
CNB2003801096815A 2002-12-11 2003-12-11 在稳定性约束下使用独立分量分析的语音处理系统和方法 Expired - Fee Related CN100392723C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US43269102P 2002-12-11 2002-12-11
US60/432,691 2002-12-11
US60/502,253 2003-09-12

Publications (2)

Publication Number Publication Date
CN1748250A CN1748250A (zh) 2006-03-15
CN100392723C true CN100392723C (zh) 2008-06-04

Family

ID=36167000

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2003801096815A Expired - Fee Related CN100392723C (zh) 2002-12-11 2003-12-11 在稳定性约束下使用独立分量分析的语音处理系统和方法

Country Status (2)

Country Link
CN (1) CN100392723C (zh)
IL (1) IL169587A0 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101800919A (zh) * 2009-01-16 2010-08-11 三洋电机株式会社 音响信号处理装置及再现装置

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101471970B (zh) * 2007-12-27 2012-05-23 深圳富泰宏精密工业有限公司 便携式电子装置
JP5375400B2 (ja) * 2009-07-22 2013-12-25 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
JP2011191668A (ja) * 2010-03-16 2011-09-29 Sony Corp 音声処理装置、音声処理方法およびプログラム
KR101658908B1 (ko) * 2010-05-17 2016-09-30 삼성전자주식회사 휴대용 단말기에서 통화 음질을 개선하기 위한 장치 및 방법
US9099096B2 (en) * 2012-05-04 2015-08-04 Sony Computer Entertainment Inc. Source separation by independent component analysis with moving constraint
US20130294611A1 (en) * 2012-05-04 2013-11-07 Sony Computer Entertainment Inc. Source separation by independent component analysis in conjuction with optimization of acoustic echo cancellation
CN103413555B (zh) * 2013-08-16 2016-02-24 辽宁工业大学 一种小孔径阵列麦克风语音增强方法
GB2523984B (en) * 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
CN105100338B (zh) * 2014-05-23 2018-08-10 联想(北京)有限公司 降低噪声的方法和装置
CN105848062B (zh) * 2015-01-12 2018-01-05 芋头科技(杭州)有限公司 多声道的数字麦克风
US9601131B2 (en) * 2015-06-25 2017-03-21 Htc Corporation Sound processing device and method
WO2017056288A1 (ja) * 2015-10-01 2017-04-06 三菱電機株式会社 音響信号処理装置、音響処理方法、監視装置および監視方法
US9691413B2 (en) * 2015-10-06 2017-06-27 Microsoft Technology Licensing, Llc Identifying sound from a source of interest based on multiple audio feeds
US10097919B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Music service selection
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10499150B2 (en) * 2016-07-05 2019-12-03 Knowles Electronics, Llc Microphone assembly with digital feedback loop
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
WO2018136144A1 (en) * 2017-01-18 2018-07-26 Hrl Laboratories, Llc Cognitive signal processor for simultaneous denoising and blind source separation
CN106898361B (zh) * 2017-03-16 2020-05-26 杭州电子科技大学 基于反馈变分模式分解的单通道盲源分离方法
JP6472824B2 (ja) * 2017-03-21 2019-02-20 株式会社東芝 信号処理装置、信号処理方法および音声の対応づけ提示装置
JPWO2018207483A1 (ja) * 2017-05-11 2020-01-23 シャープ株式会社 情報処理装置、電子機器、制御方法、および制御プログラム
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
CN108597531B (zh) * 2018-03-28 2021-05-28 南京大学 一种通过多声源活动检测来改进双通道盲信号分离的方法
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
DE102019200956A1 (de) * 2019-01-25 2020-07-30 Sonova Ag Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen
CN110164468B (zh) * 2019-04-25 2022-01-28 上海大学 一种基于双麦克风的语音增强方法及装置
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
CN112749641A (zh) * 2020-12-29 2021-05-04 青岛申众教育咨询有限公司 适用于儿童语言教学场景的数据采集方法、服务器及系统
CN114040308B (zh) * 2021-11-17 2023-06-30 郑州航空工业管理学院 一种基于情感增益的皮肤听声助听装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5383164A (en) * 1993-06-10 1995-01-17 The Salk Institute For Biological Studies Adaptive system for broadband multisignal discrimination in a channel with reverberation
US5706404A (en) * 1993-03-03 1998-01-06 U.S. Philips Corporation Neural network using inhomogeneities in a medium as neurons and transmitting input signals in an unchannelled wave pattern through the medium
US5770841A (en) * 1995-09-29 1998-06-23 United Parcel Service Of America, Inc. System and method for reading package information
US5999567A (en) * 1996-10-31 1999-12-07 Motorola, Inc. Method for recovering a source signal from a composite signal and apparatus therefor
US6002776A (en) * 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
EP1006652A2 (en) * 1998-12-01 2000-06-07 Siemens Corporate Research, Inc. An estimator of independent sources from degenerate mixtures
US6167417A (en) * 1998-04-08 2000-12-26 Sarnoff Corporation Convolutive blind source separation using a multiple decorrelation method

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5706404A (en) * 1993-03-03 1998-01-06 U.S. Philips Corporation Neural network using inhomogeneities in a medium as neurons and transmitting input signals in an unchannelled wave pattern through the medium
US5383164A (en) * 1993-06-10 1995-01-17 The Salk Institute For Biological Studies Adaptive system for broadband multisignal discrimination in a channel with reverberation
US6002776A (en) * 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US5770841A (en) * 1995-09-29 1998-06-23 United Parcel Service Of America, Inc. System and method for reading package information
US5999567A (en) * 1996-10-31 1999-12-07 Motorola, Inc. Method for recovering a source signal from a composite signal and apparatus therefor
US6167417A (en) * 1998-04-08 2000-12-26 Sarnoff Corporation Convolutive blind source separation using a multiple decorrelation method
EP1006652A2 (en) * 1998-12-01 2000-06-07 Siemens Corporate Research, Inc. An estimator of independent sources from degenerate mixtures

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Stability Analysis of Learning Algorithms for Blind SourceSeparation. AMARI,CHEN,CICHOCKI.NEURAL NETWORKS LETTER,Vol.10 No.8. 1997
Stability Analysis of Learning Algorithms for Blind SourceSeparation. AMARI,CHEN,CICHOCKI.NEURAL NETWORKS LETTER,Vol.10 No.8. 1997 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101800919A (zh) * 2009-01-16 2010-08-11 三洋电机株式会社 音响信号处理装置及再现装置

Also Published As

Publication number Publication date
IL169587A0 (en) 2009-02-11
CN1748250A (zh) 2006-03-15

Similar Documents

Publication Publication Date Title
CN100392723C (zh) 在稳定性约束下使用独立分量分析的语音处理系统和方法
US7383178B2 (en) System and method for speech processing using independent component analysis under stability constraints
US7366662B2 (en) Separation of target acoustic signals in a multi-transducer arrangement
Naylor et al. Speech dereverberation
Hänsler et al. Acoustic echo and noise control: a practical approach
US7890321B2 (en) Noise reduction device, program and method
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
US20110058676A1 (en) Systems, methods, apparatus, and computer-readable media for dereverberation of multichannel signal
US20140025374A1 (en) Speech enhancement to improve speech intelligibility and automatic speech recognition
CN102347028A (zh) 双麦克风语音增强装置及方法
CN101976565A (zh) 基于双麦克风语音增强装置及方法
CN110383798A (zh) 声学信号处理装置、声学信号处理方法和免提通话装置
CN110047478B (zh) 基于空间特征补偿的多通道语音识别声学建模方法及装置
JP2000250576A (ja) 音声認識システムにおいて特徴を抽出する方法
González et al. MMSE-based missing-feature reconstruction with temporal modeling for robust speech recognition
CN111312275B (zh) 一种基于子带分解的在线声源分离增强系统
López-Espejo et al. Dual-channel spectral weighting for robust speech recognition in mobile devices
Girin et al. Audio source separation into the wild
Huemmer et al. A new uncertainty decoding scheme for DNN-HMM hybrid systems with multichannel speech enhancement
GB2480084A (en) An adaptive speech processing system
Martın-Donas et al. A postfiltering approach for dual-microphone smartphones
Krueger et al. Bayesian Feature Enhancement for ASR of Noisy Reverberant Real-World Data.
Kamarudin et al. Sequential parameterizing affine projection (spap) windowing length for acoustic echo cancellation on speech accents identification
Choi et al. Blind separation of delayed and superimposed acoustic sources: learning algorithms and experimental study
Kolossa et al. Missing feature speech recognition in a meeting situation with maximum SNR beamforming

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee