CN101842834B

CN101842834B - 包括语音信号处理在内的生成多声道信号的设备和方法

Info

Publication number: CN101842834B
Application number: CN2008801112350A
Authority: CN
Inventors: 克里斯丁·乌勒; 奥利弗·赫尔穆特; 于尔根·赫勒; 哈拉尔德·波普; 索尔斯滕·克斯特纳
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2007-10-12
Filing date: 2008-10-01
Publication date: 2012-08-08
Anticipated expiration: 2028-10-01
Also published as: KR101100610B1; MX2010003854A; JP5149968B2; KR20100065372A; BRPI0816638A2; US20100232619A1; RU2461144C2; RU2010112890A; WO2009049773A1; US8731209B2; DE102007048973A1; DE502008003378D1; CA2700911A1; AU2008314183B2; ES2364888T3; EP2206113A1; BRPI0816638B1; AU2008314183A1; CA2700911C; JP2011501486A

Abstract

为了生成包括多于多个输入声道的多个输出声道的多声道信号，将混音器用于对输入信号上混音，以形成至少直接声道信号和至少环境声道信号。提供了语音检测器(18)来检测输入信号、直接声道信号或环境声道信号出现语音部分的片段。基于该检测，信号修改器(20)修改输入信号或环境声道信号，以衰减环境声道信号中的语音部分，而以较低的程度衰减或根本不衰减直接声道信号中的这种语音部分。然后，扬声器信号输出装置(22)将直接声道信号和环境声道信号映射到与所限定的再现方案相关联的扬声器信号，该再现方案例如5.1方案。

Description

包括语音信号处理在内的生成多声道信号的设备和方法

技术领域

本发明涉及音频信号处理领域，并且具体地，涉及从较少的输入声道(例如，如一个(单声道)声道或两个(立体声)输入声道)生成若干输出声道。

背景技术

多声道音频材料正变得越来越受欢迎。这使得很多最终用户同时拥有了多声道再现系统。这主要归功于以下事实：DVD正变得日益流行，因此很多DVD的用户同时拥有5.1多声道设备。这种再现系统通常由三个典型地布置在用户前方的扬声器(L(左)、C(中)和R(右))、两个布置在用户后面的扬声器(Ls和Rs)以及典型地也被称为低频音效声道或低音炮的一个LFE声道组成。图5b和5c示出了这种声道场景。虽然为了用户可以接收到可能的最佳收听体验，应该如图10和11所示，关于用户放置扬声器L、C、R、Ls和Rs，但是LFE声道(在图5b和5c中未示出)的位置不是那么有决定性，因为耳朵不能在这么低的频率下进行定位，并且由于LTE声道的尺寸较大，从而可以将LFE声道布置在不会妨碍的任何位置。

与图5a示意性示出的两声道再现的典型立体声再现相比，这种多声道系统呈现出了若干优势。

即使在最佳的中央收听位置之外，由于中间声道而使得也被称为“前像”的前方收听体验的稳定性得到提高。该结果是更大的“甜点”，“甜点”表示最佳收听位置。

此外，由于两个后置扬声器Ls和Rs，向收听者提供了“钻入”声音的场景的改进体验。

然而，有大量用户拥有的音频材料或通常可用的音频材料，这些音频材料仅作为立体声材料存在，即仅包括两个声道，称之为左声道和右声道。压缩盘是用于这类立体声部件的典型声音载体。

ITU推荐使用5.1多声道音频设备来播放这类立体声材料的两种选择。

第一种选择是使用多声道再现系统的左扬声器和右扬声器来播放左声道和右声道。然而，该方案的劣势在于没有使用已经存在的多个扬声器，这指的是没有有利地使用存在的中央扬声器和两个后置扬声器。

另一种选择是将两个声道转变成多声道信号。这可以在再现期间或通过特殊的预处理来完成，这有利地使用了示例性地呈现的5.1再现系统的所有六个扬声器，并从而在以无差错的方式将两个声道上混音到五个或六个声道时，产生改进的收听体验。

只有这时，即没有上混音差错时，与第一方案相比，使用多声道系统的所有扬声器的第二种选择才是有利的。当不能以无差错的方式生成用于后置扬声器的信号(也称为环境信号)时，这种类型的上混音差错可能特别令人不安。

基于关键词“直接环境概念”，已知执行这种所谓的上混音处理的一种方式。通过3个前置声道再现直接声源，使得用户感觉如同在原始两声道版本中相同的位置处一样。图5中使用不同的鼓乐器来示意性地示出了原始的两声道版本。

图5b示出了该概念的上混音版本，其中，通过三个前置扬声器L、C和R再现了所有原始的声源(即，鼓乐器)，其中，由两个后方的扬声器另外输出专门的环境信号。因此，将术语“直接声源”用来描述仅从并且直接从离散声源而来的音调，该离散声源例如鼓乐器或其它乐器，或者一般地，如图5中使用鼓乐器示例性地示出的特殊声音对象。在这样的直接声源中，没有其它例如由墙面反射造成的附加音调。在该场景中，图5b中的两个后方的扬声器Ls、Rs所输出的声音信号仅由环境信号组成，环境信号可以呈现，也可以不呈现在原始的录音中。这种类型的环境信号不属于单个声源，但对再现录音的房间音响效果作出了贡献，并从而导致收听者的所谓“钻入”体验。

图5c中示出了另一个被称为“带内”概念的备选概念。将每一种类型的声音(即，直接声源和环境类型的音调)都围绕着收听者放置。如图5c中示例性地示出的，音调的位置独立于其特性(直接声源和环境类型的音调)，并且仅取决于算法的特定设计。从而，在图5c中通过上混音算法确定了将两个乐器1100和1102相对于收听者侧向放置，而将两个乐器1104和1106放置在用户前方。其结果是两个后方的扬声器Ls、Rs此时也包含了两个乐器1100和1102的一部分，并且不再如图5b中的情况一样仅是环境类型的音调，在图5b中的情况中，同样的乐器都放置在用户的前方。

专业出版物“C.Avendano and J.M.Jot：“Ambience Extraction andSynthesis from Stereo Signals for Multichannel Audio Upmix”，IEEEInternational Conference on Acoustics，Speech and Signal Processing，ICASSP 02，Orlando，Fl，May 2002”公开了识别并提取立体声音频信号中的环境信息的频域技术。该概念基于对声道间相关性和非线性映射函数的计算，该非线性映射函数允许确定立体声信号中主要由环境分量组成的时频区域。随后，环境信号被合成并用于存储多声道再现系统的后方声道或“环绕”声道Ls、Rs(图10和11)。

在专业出版物“R.Irwan and Ronald M.Aarts：“A method to convertstereo to multi-channel sound”，The proceedings of the AES 19^thInternational Conference，Schloss Elmau，Germany，June 21-24，pages139-143，2001”中，呈现了一种用于将立体声信号转变成多声道信号的方法。使用了互相关技术来计算环绕声道的信号。使用主要分量分析(PCA)来计算指示主要信号的方向的向量。然后，将该向量从两声道表示映射到三声道表示，以生成三个前置声道。

所有已知的技术尝试了不同方式从原始的立体声信号中提取环境信号，或甚至从噪声或其它信息合成环境信号，其中，可以使用不在立体声信号中的信息来合成环境信号。然而，最后，都是关于从立体声信号提取信息和/或馈入到以明确的形式呈现的再现场景信息中，因为典型地，只有两声道立体声信号和可能的附加信息和/或元信息可用。

随后，将详细阐述其它在没有控制参数的情况下进行操作的已知上混音方法。这种类型的上混音方法也被称为盲上混音方法。

多数这种从单声道生成所谓伪立体声信号(即，1至2上混音)的技术都不是信号自适应的。这意味着这些技术将总是以相同的方式处理单声道信号，而不管该单声道信号中包含了哪些内容。示例性地通过一对所谓的互补梳状滤波器来处理一声道输入信号(如M.Schroeder，“An artificial stereophonic effect obtained from using a singlesignal”，JAES，1957.Another overview of systems of this kind can befound in C.Faller，“Pseudo stereophony revisited”，Proceedings of theAES 118^thConvention，2005所描述的)，这种类型的系统频繁使用单滤波结构和/或时间延迟来进行操作，以对生成的信号进行去相关。

此外，存在使用非负矩阵分解的环境信号提取技术，具体地在1至N上混音的背景下，其中N大于2。这里，示例性地通过短时傅立叶变换的方式来计算输入信号的时频分布(TFD)。通过被称为非负矩阵分解的数字优化方法，导出直接信号分量的TFD的估计值。通过计算输入信号的TFD与直接信号的TFD的估计值之差，确定环境信号的TFD的估计值。使用输入信号的相位谱图来执行环境信号的时间信号的再合成或合成。可选地，为了提高所生成的多声道信号的收听体验，执行附加的后处理。C.Uhle，A.Walther，O.Hellmuth and J.Herre在“Ambience separation from mono recordings using non-negative matrixfactorization”，Proceedings of the AES 30^thConference 2007中详细描述了这种方法。

存在不同的技术用于对立体声录音进行上混音。一项技术是使用矩阵解码器。在关键词Dolby Pro Logic II，DTS Neo：6orHarmanKardon/Lexicon Logic 7下矩阵解码器是已知的，并被包含在当今出售的几乎每一个音频/视频接收机中。作为这些方法所预期的功能的副产品，这些方法同样能够执行盲上混音。这些解码器使用声道间差与信号自适应控制机制来生成多声道输出信号。

如已经讨论的，将Avendano和Jot所描述的频域技术用于识别和提取立体声音频信号中的环境信息。这种方法基于对声道间相干系数和非线性映射函数的计算，从而使得能够确定主要由环境信号分量组成的时频区域。然后，环境信号被合成并用于供给多声道再现系统的环绕声道。

直接/环境上混音处理的一个组成是提取被馈送至到两个后置声道Ls、Rs的环境信号。在直接/环境上混音处理的背景下，为了某一个信号能够被用作环境时间信号，对这个信号有着特定的要求。一个先决条件是，为了使收听者能够安全地将直接声源定位在前方，直接声源的相关部分不应该是可听到的。当音频信号包含语音或者一个或若干个可区分的说话者时，这将是特别重要的。相反，当没有定位在收听者的前方时，由一群人生成的语音信号对收听者来说不一定是令人不安的。

如果特定数目的语音分量要由后置声道来再现，这将导致收听者或少数说话者的位置从前方放置到后方，或距离用户特定的距离或者甚至在用户的后方，这导致了非常令人不安的声音体验。具体地，在音频和视频材料同时呈现的情况下(例如，如在电影院中)，这样的体验是特别令人不安的。

针对电影的音调信号的(音轨)一个基本先决条件是收听体验与图像所生成的体验相一致。因此，关于定位的可听到的提示不应该与关于定位的可视的提示相违背。因此，当可以在屏幕上看到说话者时，也应该将相应的语音放到用户的前方。

同样的情况适用于所有其它的音频信号，即，没有必要局限于同时呈现音频信号和视频信号的情况。例如，其它这种类型的音频信号是广播信号或有声书。收听者习惯于前置声道所生成的语音，并且当突然的语音从后置声道而来时，很可能转身以恢复其常规的体验。

为了改进环境信号的质量，德国专利申请DE 102006017280.9-55建议：在环境信号的能量中没有较大损失的情况下，使曾经提取到的环境信号受到瞬变检测，并产生瞬变抑制。这里，为了由没有瞬变、然而具有大致相同的能量的对应信号来替换包括瞬变在内的区域，执行信号替换。

AES会议论文“Descriptor-based spatialization”，J.Monceaux，F.Pachet et al.，May 28-31，2005，Barcelona，Spain公开了基于描述符的空间化，其中，通过仅将中央声道切换到静音，基于所提取的描述符对检测到的语音进行衰减。这里，使用了语音提取器。使用动作和瞬变次数来平滑输出信号的修改。从而，可以从电影中提取没有语音的多声道音轨。当在原始的立体声下混音信号中呈现出特定的立体声混响特性时，这导致上混音工具将该混响分布到除中央声道之外的所有声道，从而使得混响能够被听到。为了防止这种情况发生，针对L、R、Ls和Rs执行动态电平控制，以衰减语音的混响。

发明内容

本发明的目的是提供一种用于生成包括多个输出声道的多声道信号的概念，这一概念一方面是灵活的，另一方面提供了高质量的产品。

这个目的是通过根据权利要求1的用于生成多声道信号的设备、根据权利要求23的用于生成多声道信号的方法或根据权利要求24的计算机程序产品来实现的。

本发明基于以下发现：为了使后置声道摆脱语音分量，对后置声道(即，环境声道)中的语音分量进行抑制。将具有一个或若干声道的输入信号进行上混音，以提供直接信号声道以及提供环境信号声道，或者根据实现，提供已修改的环境信号声道。提供了一种语音检测器，用于搜索输入信号、直接声道或环境声道中的语音分量，其中，这种类型的语音分量可以示例性地出现在时间和/或频率部分或者还在正交分解的分量中。提供了一种信号修改器，用来修改上混音器所生成的直接信号或输入信号的副本，以便抑制其中的语音信号分量，而在包括语音信号分量的对应部分中，直接信号分量以较低的程度衰减或根本不衰减。然后，使用已修改的环境声道信号来生成用于对应的扬声器的扬声器信号。

然而，当已经修改了输入信号之后，直接使用上混音器生成的环境信号，因为在其中已经对语音分量进行了抑制，因为潜在的音频信号的确也具有已抑制的语音分量。然而在这种情况下，当上混音处理还生成直接声道时，仅在环境声道中而不是明确需要语音分量的直接声道中，基于未修改的输入信号而不是基于已修改的输入信号来计算该直接声道，以获得要选择性抑制的语音分量。

这防止了在后置声道或环境信号声道中发生语音分量的再现，否则将会使收听者困扰或混乱。由此可见，本发明确保了将对话或收听者能够听懂(即，具有语音典型的谱特性)的其它语音放在收听者的前方。

同样的要求也适用于带内概念，在带内概念中，同样期望不将直接信号放在后置声道中，而是如图5c所示放在收听者前方以及可能在收听者的侧面，而不是在收听者的后方，在图5c中，将直接信号分量(还有环境信号分量)全部放在收听者的前方。

根据本发明，执行取决于信号的处理，以消除或抑制后置声道或环境声道中的语音分量。这里，执行两个基本的步骤，即，检测语音的出现和抑制语音，其中，检测语音的出现可以在输入信号中、在直接声道中或在环境声道中执行，以及其中，抑制语音可以直接在环境声道中执行，或者间接在之后将被用于生成环境声道的输入信号中执行，其中，已修改的输入信号不用于生成直接声道。

因此，本发明实现了：当从具有较少声道的音频信号生成多声道环绕信号时，声道包含了语音分量，确保了所产生的用于后置声道(从用户的角度)的信号包括最小量的语音，以保留用户前方的原始音像(前像)。当后置声道再现特定量的语音分量时，应该将说话者的位置放置在前方区域之外的收听者和前置扬声器之间的任何位置，或在极端的情况下，甚至在收听者的后方。这可能产生非常令人不安的声音体验，特别是当音频信号与视频信号同时呈现时，例如在电影的情况下。从而，许多多声道电影音轨很难在后置声道中包含任何语音分量。根据本发明，在适当时检测并抑制语音信号分量。

附图说明

随后将参考附图详细地描述本发明的优选实施例，其中：

图1示出了本发明的实施例的框图；

图2示出了分析信号的时/频片段与用于讨论“对应片段”的环境声道或输入信号的关联；

图3示出了根据本发明的优选实施例的环境信号修改；

图4示出了根据本发明的另一个实施例的语音检测器与环境信号修改器之间的协作；

图5a示出了包括直接源(鼓乐器)和漫射分量的立体声再现场景；

图5b示出了多声道再现场景，其中，所有的直接声源由前置声道再现，漫射分量由所有的声道再现，该场景也被称为直接环境概念；

图5c示出了多声道再现场景，其中，离散声源还可以至少部分地由后置声道再现，以及其中，环境声道不由后置扬声器再现或者再现的程度比图5b中的小；

图6a示出了包括环境声道中的语音检测和环境声道的修改的另一个实施例；

图6b示出了包括输入信号中的语音检测和环境声道的修改的实施例；

图6c示出了包括输入信号中的语音检测和输入信号的修改的实施例；

图6d示出了包括输入信号中的语音检测和环境信号的修改的另一个实施例，该修改具体调到语音；

图7示出了基于带通信号/子带信号的逐频段的放大因子计算的实施例；以及

图8示出了图7中的放大计算块的详细示意图。

具体实施方式

图1示出了用于生成多声道信号10的设备的框图，如图1所示，该设备包括左声道L、右声道R、中央声道C、LFE声道、左后声道LS和右后声道RS。然而，应该指出的是，本发明同样适合除了在这里所选择的5.1表示之外的任何表示，例如，7.1表示或者甚至在这里仅有左声道、右声道和中央声道生成的3.0表示。如图1所示的示例性地包括6个声道的多声道信号10是根据包括多个输入声道的输入信号12或“x”生成的，当输入立体声下混音时，输入声道的数目等于或大于1，并且示例性地等于2。然而，输出声道的数目通常大于输入声道的数目。

图1中示出的设备包括上混音器14，用于对输入信号12进行上混音，以生成至少直接信号声道15和环境信号声道16或者可能的已修改的环境信号声道16’。此外，提供了语音检测器18，语音检测器18实现用于将输入信号12用作在18a处提供的分析信号，或使用在18b处提供的直接信号声道15，或使用另外的信号，该另外的信号在时间/频率出现方面或在其与语音分量有关的特性方面与输入信号12相似。语音检测器检测输入信号、直接声道或示例性地在18c处示出的环境声道的片段，该片段中存在语音部分。该语音部分可以是显著的语音部分，即，示例性地为语音特性是根据特定的定性或定量测量所获得的语音部分，该特定的定性测量和定量测量超过也被称为语音检测阈值的阈值。

就定量测量而言，使用数字值来量化语音特性，并且将该数字值与阈值相比较。就定性测量而言，每片段地作出决定，其中，可相对于一个或若干决定准则来作出决定。示例性地，这种决定准则可以是：可以以某种方式对不同的定量特性在彼此间进行比较/进行加权或处理，以达成是/否的决定。

图1中示出的设备附加地包括信号修改器20，信号修改器20被实现为修改如以20a所示的原始输入信号，或者被实现为修改环境声道16。当对环境声道16进行修改时，信号修改器20输出已修改的环境声道21，而当对输入信号20a进行修改时，向上混音器14输出已修改的输出信号20b，然后上混音器14例如通过已经针对直接声道15使用的相同上混音处理，生成已修改的环境声道16’。如果由于已修改的输入信号20b，该上混音处理还导致直接声道，可以消除该直接声道，因为根据本发明，将已经从未修改的输入信号12(没有语音抑制)而不是已修改的输入信号20b获得的直接声道用作直接声道。

信号修改器实现为修改至少一个环境声道或输入信号的片段，其中，这些片段示例性地可以是时间或频率片段或正交分解的部分。具体地，修改与语音检测器已检测到的片段相对应的片段，使得信号修改器如上所述地生成已修改的环境声道21或已修改的输入信号20b，在已修改的环境声道21或已修改的输入信号20b中，语音部分被衰减或消除，其中，在直接声道的对应片段中，语音部分已经以较低的程度衰减，或者可选地，根本不衰减。

此外，图1中示出的设备包括扬声器信号输出装置22，用于在再现场景(例如，如图1中示例性示出的5.1场景)中输出扬声器信号，其中，然而7.1场景、3.0或者其它的或甚至更高的场景也是可能的。具体地，使用至少一个直接声道和至少一个已修改的环境声道来生成用于再现场景的扬声器信号，其中，已修改的环境声道可以如21所示地源自信号修改器20，或者如16′所示地源自上混音器14。

当示例性地提供两个已修改的环境声道21时，可以将这两个已修改的环境声道直接馈送至两个扬声器信号Ls、Rs中，而仅将直接声道馈送至三个前置扬声器L、R、C中，以使得可以在环境信号分量与直接信号分量之间进行彻底的划分。这样，直接信号分量将全部在用户的前方，而环境信号分量将全部在用户的后方。备选地，还可以典型地以较小的百分比将环境信号分量引入到前置声道中，以得到如图5b所示的直接/环境场景，其中，环境信号不仅由环绕声道生成，而且还由前置扬声器(例如，如L、C、R)生成。

然而，当优选为带内场景时，环境信号分量主要还将由前置扬声器(例如，如L、C、R)输出，然而，其中还可以至少部分地将直接信号分量馈送至两个后置扬声器Ls、Rs中。为了能够将图5c中的两个直接信号源1100和1102放置在所指示的位置处，源1100在扬声器L中的部分将粗略地和扬声器Ls中的一样大，以根据典型的全景化(panning)规则将源1100放置在L与Ls的中间。根据实现，扬声器信号输出装置22可以使得馈送至输入侧的声道直接通过，或者可以例如通过带内概念或直接/环境概念来映射环境声道和直接声道，以便将声道分布到各个扬声器，并最终将来自各个声道的部分加起来生成实际的扬声器信号。

图2在顶部中示出了分析信号的时/频分布，并在底部中示出了环境声道或输入信号的时/频分布。具体地，沿着水平轴绘制时间，并沿着垂直轴绘制频率。这意味着，在图2中，对于每一个信号15，有在分析信号和环境声道/输入信号中都具有相同数目的时/频片(tile)或时/频片段。这意味着，例如当语音检测器18检测部分22中的语音信号时，信号修改器20将以某种方法处理环境声道/输入信号中的片段，例如，如衰减、彻底消除或由不包括语音特性的合成信号来替换该片段。应该指出的是，在本发明中，该分布不需要像图2中示出的那样有选择性。相反，时间检测可能已经提供了令人满意的效果，其中，将分析信号的特定时间片段(示例性地，从第二个2到第二个2.1)检测为包含语音信号，以便接着处理环境声道或输入信号中也在第二个2与第二个2.1之间的片段，以获得语音抑制。

备选地，还可以通过例如主要分量分析来执行正交分解，在这种情况下，将在环境声道或输入信号中、以及在分析信号中均使用相同的分量分布。在环境声道或输入信号中，对分析信号中已被检测作为语音分量的特定分量进行衰减或者彻底抑制或消除。根据实现，在分析信号中检测片段，该片段不必在分析信号中进行处理，也可能在另外的信号中进行处理。

图3示出了语音检测器协同环境声道修改器的实现，语音检测器仅提供时间信息，即，当看图2时，仅以宽带的方式识别第一、第二、第三、第四或第五时间间隔，并将该信息经由控制线18d(如1)传送到环境声道修改器20。同步工作或以缓存的方式工作的语音检测器18和环境声道修改器20一道获得语音信号或要被修改的信号中要被衰减的语音分量，示例性地，该信号可以是信号12或信号16，然而，确定的是这种对应片段的衰减将不会发生或仅较少程度地发生在直接声道中。根据实现，还可以通过在不考虑语音分量的情况下进行操作的上混音器14来完成，例如，以矩阵方法或以其它不执行特殊的语音处理的方法。然后，将通过这种方式获得的直接信号馈送到输出装置22，而没有进一步处理，而关于语音抑制来处理环境信号。

备选地，当信号修改器使输入信号遭受语音抑制时，上混音器14可以在某种意义上操作两次，以在一方面基于原始输入信号提取直接声道分量，而且还基于已修改的输入信号20b提取已修改的环境声道16’。然而，在使用相应的其它输入信号的情况下，相同的上混音算法可能出现两次，其中，语音分量在一个输入信号中衰减了，而在另一个输入信号中没有衰减。

根据实现，环境声道修改器呈现出了宽带衰减的功能或高通滤波的功能，随后将对此进行说明。

随后，将参考图6a、6b、6c和6d来说明本发明设备的不同实现。

在图6a中，从输入信号x提取环境信号a，这一提取是上混音器14的一部分功能。检测语音在环境信号中的出现。将检测的结果d用在环境声道修改器20中计算已修改的环境信号，在已修改的环境信号中语音部分被抑制了。

图6b示出的配置与图6a的不同之处在于：将输入信号而不是环境信号馈送至语音检测器18作为分析信号18a。具体地，与图6a的配置相类似地计算已修改的环境声道信号a_s，然而，检测输入信号中的语音。这可以通过以下事实来解释：在输入信号x中，语音分量通常比在环境信号a中更容易被发现。从而，通过图6b示出的配置可以实现改进的可靠性。

在图6c中，从已经遭受到语音信号抑制的输入信号版本x_s中提取语音已修改的环境信号a_s。典型地，由于与在所提取的环境信号中相比，x中的语音分量更加显著，因此可以以比图6a中更安全且更持久的方式来抑制语音分量。与图6a中的配置相比，图6c中示出的配置的缺点在于：根据提取方法的类型，语音抑制和环境提取处理的潜在伪象可能恶化。然而，在图6c中，仅使用环境声道提取器14的功能来从已修改的音频信号中提取环境声道。然而，直接声道不是从已修改的音频信号x_s(20b)中提取的，而是基于原始输入信号(12)提取的。

在图6d示出的配置中，上混音器从输入信号x中提取环境信号a。检测输入信号x中的语音出现。此外，语音分析器30计算附加地对环境声道修改器20的功能进行控制的附加辅助信息e。这些辅助信息是直接根据输入信号计算的，并且可以是语音分量在时/频表示中的位置，示例性地，以图2中的谱图的形式示出，或者这些辅助信息可以是将在下面更详细地描述的其它附加信息。

下面对语音检测器18的功能进行详细描述。语音检测的目的是分析音频信号的混合，以估计语音存在的可能性。输入信号可以是由多个不同类型的音频信号聚集而成的信号，示例性地，音频信号包括音乐信号、噪声信号或从电影中可知的特殊音效。检测语音的一种方式是使用模式识别系统。模式识别是指分析原始数据，并基于已在原始数据中显式的模式类别来执行特定处理。具体地，术语“模式”描述了将在同等类别(种类)的目标的测量之间发现的根本的相似性。模式识别系统的基本操作是检测，即，使用变换器记录数据、预处理、提取特征以及分类，其中，这些基本操作可以以所指示的顺序来执行。

通常，使用麦克风作为用于语音检测系统的传感器。准备工作可以是A/D变换、重采样或减噪。提取特征是指根据测量计算每一个目标的特有特征。选择特征，以使得特征在同一种类的目标中是类似的，即，以便能够实现较好的种类内的致密性，以及使得针对不同种类的目标特征是不同的，由此能够获得种类间的可分性。第三个要求是相对于噪声、环境条件以及与人的感知无关的输入信号的转换，特征应该是鲁棒的。可以将提取特性划分成两个阶段。第一阶段是计算特征，第二阶段是将该特征投影或转换到大致正交的基底上，以最小化特性向量之间的相关，并通过不使用低能量的元素来降低特征的维度。

分类是基于所提取的特征和已训练的分类器来决定是否存在语音的过程。给出了下列等式

Ω_XY＝{(x₁，y₁)，...，(x_l，y_l)}，

y∈Y＝{1，...，c}

在以上等式中，定义了训练向量Ω_xy的量，x_i指的是特征向量以及Y指的是种类集合。这意味着对于基本的语音检测，Y有两个值，即{语音，非语音}。

在训练阶段，根据所指定的数据计算特征x_y，即知道它们属于哪一个种类y的音频信号。在完成训练后，分类器获悉了所有种类的特征。

在应用分类器的阶段，如同训练阶段中一样，根据未知数据计算并投影特征，并且基于训练中所获悉的与种类的特征有关的知识，分类器对该特征进行分类。

下面将详细描述语音抑制的特定实现，示例性地，该特定实现可以由信号修改器20来执行。从而，可以采用不同的方法来抑制音频信号中的语音。存在不为语音放大和减噪的领域所已知的方法用于通信应用。最初，使用语音放大方法来放大语音和背景噪声的混合中的语音。可以对这种方法进行修改，以产生如针对本发明所执行的相反效果，即抑制语音。

存在针对语音放大和减噪的解决方法，该方法根据对包含在时/频系数中的噪声度的估计值来衰减或放大时/频表示的系数。在不知道与背景噪声有关的附加信息(例如，先验信息或特定噪声传感器所测量到的信息)时，示例性地使用特定的最小统计法来从噪声滋生的测量中获得时/频表示。噪声抑制规则使用所估计的噪声值计算衰减因子。该原理已知为短时频谱衰减或频谱加权为人所知，示例性地，从G.Schmid，“Single-channel noise suppression based on spectralweighting”，Eurasip Newsletter 2004可知道该原理。减谱、Wiener滤波和Ephraim-Malah算法是根据短时谱衰减(STSA)原理进行操作的信号处理方法。STSA方法的更一般的表达产生信号子空间方法，信号子空间方法也被称为降维方法，并在P.Hansen and S.Jensen，“Fir filterrepresentation of reduced-rank noise reduction”，IEEE TSP，1998中进行了描述。

原则上，利用与其已知用法的相反的使用方式，可以使用所有放大语音或抑制非语音分量的方法来抑制语音和/或放大非语音。语音方法或噪声抑制的一般模型是以下事实：输入信号是期望的信号(语音)和背景噪声(非语音)的混合。例如，通过在基于STSA的方法中倒置衰减因子或者通过交换对期望信号和背景噪声的定义来实现对语音的抑制。

然而，关于上混音的上下文，语音抑制中的重要要求在于：将产生的音频信号感知为高音频质量的音频信号。本领域技术人员知道，语音改进方法和降噪方法将可听到的伪象引入了输出信号中。已知这种伪象的示例是音乐噪声或音乐音调，并且由于对噪声底的易出错的估计和变化的子带衰减因子而产生。

备选地，还可以使用盲源分离方法来将语音信号部分从环境信号中分离，以及随后对语音信号部分和环境信号进行单独处理。

然而，对于生成高质量音频信号的特殊要求来说，随后详细描述的特定方法是优选的，这是因为这些特定方法明显好于其它方法。一种方法是如图3中20所指示的宽带衰减。音频信号在语音所在的时间间隔中衰减。特殊的放大因子在-12dB到-3dB的范围内，优选的衰减是在6dB处。因为其它信号分量/部分也会被抑制，所以可以假定音频信号能量中的全部损耗都清楚地感知到。然而，已经发现效果并不会令人不安，这是因为在语音序列开始时，不管怎样，用户总是特别地集中在前置扬声器L、C、R上，这样当用户集中在语音信号上时，他或她将体验不到后置声道或环境信号中的能量减少。由于另外的典型效果，即，音频信号的电平由于语音开始而都将增大，这尤其令人鼓舞。通过将衰减引入到-12dB到3dB之间的范围内，该衰减不会被体验为令人不安的。相反，用户将发现这令人愉悦得多，这是因为由于对后置声道中的语音分量的抑制，对于用户而言，实现了将语音分量独占地放置在前置声道中的效果。

图3中20还示出一种备选方法，高通滤波。在语音所在之处对音频信号进行高通滤波，其中，截止频率在600Hz到3000Hz之间的范围内。关于本发明，这一针对截止频率的设置是由语音的信号特性产生的。语音信号的长期功率谱集中在2.5kHz以下的范围内。浊音的基频的优选范围在75Hz到330Hz之间的范围内。对于成年男性，产生60Hz到250Hz之间的范围。针对男性说话者的均值在120Hz处，而针对女性说话者的均值在215Hz处。由于声道中的共振，特定信号频率被放大。频谱中对应的峰值也被称为共振峰频率，或简单地称为共振峰。典型地，在3500Hz以下大约有3个显著的共振峰。由此可见，语音呈现出1/F的特性，即，频谱能量随着频率增大而降低。从而，为了本发明，可以通过包括了所指示的截止频率范围在内的高通滤波来对语音分量进行滤波。

另一个优选的实现是参考图4示出的正弦信号建模。在第一步骤40中，检测语音的基波，其中，该检测可以在语音检测器18中或者在如图6中e所示的语音分析器30中执行。之后，在步骤41中，执行分析以找出属于基波的谐波。这一功能可以在语音检测器/语音分析器中执行，或者甚至可以在环境信号修改器中已经执行。随后，如42所示，基于逐块转换来计算针对环境信号的谱图。随后，在步骤43中通过衰减谱图中的基波和谐波来执行实际的语音抑制。在步骤44中，对基波和谐波已被衰减或消除的已修改的环境信号进行再转换，以获得已修改的环境信号或已修改的输入信号。

该正弦信号建模经常用于音调合成、音频编码、源分离、音调处理和噪声抑制。这里，将信号表示为幅度和频率时变的正弦波构成的集合。通过识别和修改部分音调(即，基波及其谐波)来处理浊音信号分量。

如41处所示，通过部分音调发现器来识别部分音调。典型地，在时/频域执行部分音调发现。如42处所示，通过短时傅立叶变换完成谱图。在谱图的每一个谱中检测局部最大值，并通过相邻谱的局部最大值确定轨迹。对基频进行估计可以支持峰值选取处理，对基频的估计是在40处执行的。然后，可以从轨迹中获得正弦信号表示。应该指出的是，还可以改变步骤40、41和42之间的顺序，以使得在图6d的语音分析器30中执行的转换42首先发生。

已经建议了获得正弦信号表示的不同开发。在D.Andersen and M.Clements，“Audio signal noise reduction using multi-resolution sinusoidalmodeling”，Proceedings of ICASSP 1999中示出了用于减噪的多解处理方法。在J.Jensen and J.Hansen，“Speech enhancement using aconstrained iterative sinusoidal model”，IEEE TSAP 2001中已经呈现了用于获得正弦表示的迭代过程。

使用正弦信号表示，通过放大正弦分量获得改进的语音信号。然而，本发明的语音抑制旨在实现相反的目标，即，针对包括浊音在内的语音段抑制部分音调，部分音调包括基波及其谐波。典型地，高能量的语音分量具有音调的特性。因此，对于元音，语音在60-75dB的电平处，而对于辅音，大约要低20-30dB。激发周期脉冲类型的信号是针对浊音(元音)的。激发信号通过声腔进行滤波。由此可见，浊音段的几乎所有能量都集中在基波及其谐波中。当抑制这些部分音调时，显著地抑制了语音分量。

在图7和8中示出了另一种实现语音抑制的方式。图7和8解释了短时谱衰减或谱加权的基本原理。首先，估计背景噪声的功率密度谱。所示出的方法使用所谓的低层次特征来估计包含在时/频片(tile)中的语音量，低级特征是对信号在特定频率段中的“语音相似性”的测量。低级特征是与解释其重要性和计算复杂度有关的低层次的特征。

如在图7中70处所示，使用滤波器组或短时傅立叶变换将音频信号分解成很多个频段。然后，如71a和71b所示例性示出的，从这种类型的低层次特征中计算针对所有子频段的时变的放大因子，以与子频段信号所包含的语音量成比例地对子频段信号进行衰减。适当的低层次特征是谱平坦度测量(SFM)和4-Hz调制能量(4HzME)。SFM测量音频信号的音度，并且对于某一个频段，是由该频段的所有谱值的几何均值与该频段中谱成分的算术均值之商来产生的。4HzME源自语音在大致4Hz处具有特性能量调制峰值这一事实，4Hz与说话者的音节的平均速率相对应。

图8示出了图7中的放大计算块71a和71b的详细示意。基于子频段x_i计算多个不同的低层次特征，即LLF1，...，LLFn。然后，在合并器80中合并这些特征，以获得针对子频段的放大因子g_i。

应该指出的是，根据实现，不是必然需要使用低层次特征，而是可以使用任何特征，例如能量特征等，然后根据图8中的实现在合并器中合并这些特征，以获得定量的放大因子g_i，从而能够可变地衰减每一个频段(在任何时间点处)以实现语音抑制。

根据环境，本发明的方法可以利用硬件或软件来实现。该实现可以是在数字存储介质上，特别是在具有可被电子读出的控制信号的盘或CD上，数字存储介质可以与可编程计算机系统协同以执行本发明的方法。总而言之，本发明因此也包括计算机程序产品，计算机程序产品具有存储在机器可读载体上的程序代码，当计算机程序产品在计算机上运行时，程序代码执行本发明的方法。换言之，因此可以将本发明实现为计算机程序，该计算机程序程序代码，当计算机程序在计算机上运行时，程序代码执行本方法。

Claims

1.一种用于生成多声道信号(10)的设备，所述多声道信号(10)包括多个输出声道信号，所述多个输出声道信号的数目比输入信号(12)的多个输入声道信号的数目多，所述多个输入声道信号的数目等于或大于1，所述设备包括：

上混音器(14)，用于对包括语音部分的输入信号进行上混音，以提供至少直接声道信号以及包括语音部分的至少环境声道信号；

语音检测器(18)，用于检测所述输入信号、所述直接声道信号或所述环境声道信号中出现语音部分的片段；以及

信号修改器(20)，用于修改所述环境声道信号中与已被所述语音检测器(18)检测到的片段相对应的片段，以获得已修改的环境声道信号，在已修改的环境声道信号中语音部分被衰减或消除，所述直接声道信号中的片段以较低的程度衰减或根本不衰减；以及

扬声器信号输出装置(22)，用于使用所述直接声道信号和所述已修改的环境声道信号来输出再现方案中的扬声器信号，所述扬声器信号是所述输出声道信号。

2.根据权利要求1所述的设备，其中，所述扬声器信号输出装置(22)被实现为按照直接/环境方案进行操作，在所述直接/环境方案中，将每一个直接声道信号映射到其自身的扬声器，并将每一个环境声道信号映射到其自身的扬声器，所述扬声器信号输出装置(22)被实现为仅将所述环境声道信号而不是所述直接声道信号映射到针对所述再现方案中收听者后方的扬声器的扬声器信号。

3.根据权利要求1所述的设备，其中，所述扬声器信号输出装置(22)被实现为根据带内方案进行操作，在所述带内方案中，根据每一个直接声道信号的位置，将每一个直接声道信号映射到一个或数个扬声器，并且其中，所述扬声器信号输出装置(22)被实现为把被确定用于扬声器的所述环境声道信号和所述直接声道信号或者所述环境声道信号或所述直接声道信号的一部分相加，以获得针对所述扬声器的扬声器信号。

4.根据权利要求1所述的设备，其中，所述扬声器信号输出装置被实现为给在所述再现方案中能够被放置在收听者前方的至少三个声道提供扬声器信号，以及生成在所述再现方案中能够被放置在所述收听者后方的至少两个声道。

5.根据权利要求1所述的设备，

其中，所述语音检测器(18)被实现为在时间上以逐块的方式进行操作，以及以频率选择性的方式逐频段地分析每一个时间块，来检测针对时间块的频段，以及

其中，所述信号修改器(20)被实现为修改所述环境声道信号的这种时间块中与已被所述语音检测器(18)检测到的频段相对应的频段。

6.根据权利要求1所述的设备，

其中，所述信号修改器被实现为衰减所述环境声道信号，或者所述环境声道信号中在已被所述语音检测器(18)检测到的时间间隔中的部分，以及

其中，所述上混音器(14)和所述扬声器信号输出装置(22)被实现为生成所述直接声道信号，使得同一时间间隔以较低的程度衰减或根本不衰减，以使得所述直接声道信号包括当再现时能够比所述已修改的环境声道信号中的语音分量更强地被感知到的语音分量。

7.依照权利要求1所述的设备，其中，所述信号修改器(20)被实现为：在所述语音检测器(18)已经检测到存在语音部分的时间间隔时，对所述环境声道信号进行高通滤波，所述高通滤波的截止频率在400Hz到3,500Hz之间。

8.根据权利要求1所述的设备，

其中，所述语音检测器(18)被实现为检测语音信号分量在时间上的出现，以及

其中，所述信号修改器(20)被实现为找出所述语音信号分量的基频，以及

选择性地衰减(43)所述环境声道信号在所述基频和谐波处的音调，以获得已修改的环境声道信号。

9.根据权利要求1所述的设备，

其中，所述语音检测器(18)被实现为找出每一频段的语音内容的测量，以及

其中，所述信号修改器(20)被实现为根据所述测量通过衰减因子来衰减(72a、72b)所述环境声道信号的对应频段，较高的测量导致较高的衰减因子，以及较低的测量导致较低的衰减因子。

10.根据权利要求9所述的设备，其中，所述信号修改器(20)包括：

时频域变换器(70)，用于将所述环境声道信号变换为谱表示；

衰减器(72a、72b)，用于频率选择性地对所述谱表示进行可变衰减；以及

频时域变换器(73)，用于将可变衰减后的谱表示变换到时域，以获得已修改的环境声道信号。

11.根据权利要求9所述的设备，其中，所述语音检测器(18)包括：

时频域变换器(42)，用于提供分析信号的谱表示；

用于计算所述分析信号的每频段的一个或数个特征(71a、71b)的装置；以及

用于基于所述每频段的一个或数个特征的组合来计算语音内容的测量的装置(80)。

12.根据权利要求11所述的设备，其中，所述信号修改器(20)被实现为计算谱平坦度测量(SFM)或4Hz调制能量(4HzME)作为特征。

13.根据权利要求1所述的设备，其中，所述语音检测器(18)被实现为分析所述环境声道信号(18c)，以及其中，所述信号修改器(20)被实现为修改所述环境声道信号(16)。

14.根据权利要求1所述的设备，其中，所述语音检测器(18)被实现为分析所述输入信号(18a)，以及其中，所述信号修改器(20)被实现为基于来自所述语音检测器(18)的控制信息(18d)修改所述环境声道信号(16)。

15.根据权利要求1所述的设备，其中，所述语音检测器(18)被实现为分析所述输入信号(18a)，以及其中，所述信号修改器(20)被实现为基于来自所述语音检测器(18)的控制信息(18d)修改所述输入信号，以及其中，所述上混音器(14)包括环境声道提取器，所述环境声道提取器被实现为基于已修改的输入信号找出已修改的环境声道信号(16’)，所述上混音器(14)还被实现为基于在所述信号修改器(20)的输入处的输入信号(12)来找出所述直接声道信号(15)。

16.根据权利要求1所述的设备，

其中，所述语音检测器(18)被实现为分析所述输入信号(18a)，其中，还提供了语音分析器(30)来对所述输入信号进行语音分析，以及

其中，所述信号修改器(20)被实现为基于来自所述语音检测器(18)的控制信息(18d)和基于来自所述语音分析器(30)的语音分析信息来修改所述环境声道信号(16)。

17.根据权利要求1所述的设备，其中，将所述上混音器(14)实现为矩阵解码器。

18.根据权利要求1所述的设备，其中，将所述上混音器(14)实现为盲上混音器，所述盲上混音器仅基于所述输入信号(12)，而在没有另外发送的上混音信息的情况下，生成所述直接声道信号(15)、所述环境声道信号(16)。

19.根据权利要求1所述的设备，

其中，所述上混音器(14)被实现为对输入信号(12)执行统计分析，以生成直接声道信号(15)、所述环境声道信号(16)。

20.根据权利要求1所述的设备，其中，所述输入信号是包括一个声道的单声道信号，以及其中，所述多声道信号(10)包括两个或更多声道信号。

21.根据权利要求1所述的设备，其中，所述上混音器(14)被实现为获得包括两个立体声声道信号的立体声信号作为输入信号，以及其中，所述上混音器(14)还被实现为基于所述立体声声道信号的互相关计算来实现所述环境声道信号(16)。

22.一种用于生成多声道信号(10)的方法，所述多声道信号(10)包括多个输出声道信号，所述多个输出声道信号的数目比输入信号(12)的多个输入声道信号的数目多，所述多个输入声道信号的数目大于或等于1，所述方法包括以下步骤：

对包括语音部分的输入信号进行上混音(14)，以提供至少直接声道信号以及包括语音部分的的至少环境声道信号；

检测(18)所述输入信号、所述直接声道信号或所述环境声道信号中出现语音部分的片段；以及

修改(20)所述环境声道信号中与在检测(18)步骤中已经检测到的片段相对应的片段，以获得已修改的环境声道信号，在已修改的环境声道信号中语音部分被衰减或消除，所述直接声道信号中的片段以较低的程度衰减或根本不衰减；以及

使用所述直接声道信号和所述已修改的环境声道信号来输出(22)再现方案中的扬声器信号，所述扬声器信号是所述输出声道信号。