CN101536085A - 用于从音频信号中产生环境信号的设备和方法,用于从音频信号中导出多声道音频信号的设备和方法以及计算机程序 - Google Patents

用于从音频信号中产生环境信号的设备和方法,用于从音频信号中导出多声道音频信号的设备和方法以及计算机程序 Download PDF

Info

Publication number
CN101536085A
CN101536085A CNA2007800348291A CN200780034829A CN101536085A CN 101536085 A CN101536085 A CN 101536085A CN A2007800348291 A CNA2007800348291 A CN A2007800348291A CN 200780034829 A CN200780034829 A CN 200780034829A CN 101536085 A CN101536085 A CN 101536085A
Authority
CN
China
Prior art keywords
signal
expression
equipment
matrix
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007800348291A
Other languages
English (en)
Other versions
CN101536085B (zh
Inventor
克里斯丁·乌勒
于尔根·赫勒
安德烈亚斯·沃尔瑟
奥利弗·赫尔穆特
克里斯蒂安·詹森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN101536085A publication Critical patent/CN101536085A/zh
Application granted granted Critical
Publication of CN101536085B publication Critical patent/CN101536085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)

Abstract

本发明提供了一种用于从音频信号中产生环境信号的设备,包括通过对音频信号的表示进行有损压缩,以获得描述压缩音频信号的音频信号压缩表示的装置。所述用于产生环境信号的设备还包括用于计算音频信号的压缩表示与音频信号的表示之间的差值以获得差别表示的装置。所述设备还包括使用差别表示来提供环境信号的装置。本发明提供了一种用于从音频信号中导出多声道音频信号的设备,包括:用于从音频信号中产生环境信号的设备;用于提供音频信号作为前置扬声器信号的设备以及用于提供环境信号作为后置扬声器信号的设备。

Description

用于从音频信号中产生环境信号的设备和方法,用于从音频信号中导出多声道音频信号的设备和方法以及计算机程序
技术领域
本发明总的涉及用于从音频信号中产生环境信号的设备和方法,涉及从音频信号中导出多声道音频信号的设备和方法,以及涉及计算机程序。具体地,本发明涉及用于根据音频信号来计算环境信号的方法和概念,以对单声道音频信号进行上混(upmix)从而在多声道系统上回放。
背景技术
下面将讨论本发明的根本动机。目前,在用户家庭环境中,多声道音频素材也越来越普及。其主要的原因是DVD介质上的电影通常提供5.1多声道声音。由于这个原因,即使家庭用户也常常安装能够重现多声道音频信号的音频回放系统。
例如,一种对应的设置可以由以下组成:三个布置在前方的扬声器(示例性地标记为L、C和R)、两个布置在收听者的后方或对着收听者背后的扬声器(标记为LS和RS),以及一个低频音效声道(也被称为LFE)。布置在前方的三个扬声器(L、C、R)以下也被称为前置扬声器。布置在后方并在收听者背后的扬声器(LS、RS)以下也称之为后置扬声器。
此外,应该注意到,为了方便起见,以下的细节和解释是针对5.1系统。当然,只要对以下的细节做很小的修改,也可以应用到其它多声道系统中。
与双声道立体声重现相比,多声道系统(如5.1多声道音频系统)提供了几个公知的优势。以如下优势为例:
-优势1:即使在或不在最优(中心)收听位置,都能改进前置图像的稳定性。通过中心声道扩大了“甜点(sweet spot)”。术语“甜点”指的是(收听者)可以感知到最优声音印象的收听位置区域。
-优势2:建立对音乐厅印象或体验的更佳近似。通过后方声道扬声器或后置声道扬声器,获得对“包围”和空间感的增强体验。
然而,仍存在大量遗留的仅由两个(“立体声”)音频声道组成的音频内容(如在致密光盘上)。甚至还有CD和/或DVD上的非常老的录音、老的电影和电视连续剧出售,这些CD和/或DVD仅提供单声道质量和/或仅通过一个声道的“单声道”音频信号的方式来提供。
因此,对于通过5.1多声道设置来对单声道的遗留音频素材进行回放,存在以下选项:
-选项1:通过中心声道或通过中心扬声器来重现或回放单声道,以获得真实的单声道源。
-选项2:在L和R扬声器上(即在左前置扬声器和右前置扬声器上)重现或回放单声道信号。这种方法产生的仿真单声道源具有比真实的单声道源更广的感知的源宽度,然而在收听者没有坐在甜点时,具有朝向最接近收听者的扬声器的趋向。
如果只有双声道回放系统可用,也可使用这种方法,并且该方法不使用扩展的扬声器设置(如使用具有5或者6个扬声器的扬声器设置)。C扬声器或中心扬声器,LS扬声器或左后置扬声器,RS扬声器或右后置扬声器以及LFE扬声器或低频音效声道扬声器保持不使用。
-选项3:可以采用一种方法,使用5.1扬声器的所有扬声器(即5.1多声道系统中使用的所有6个扬声器)将单声道信号的声道转换为多声道信号。按照这种方式,多声道信号受益于先前讨论的多声道设置的优势。这种方法实时使用或“动态”使用或通过预处理的方式使用,并被称为上混处理或“上混”。
对于音频质量或声音质量,选项3提供了超过选项1和选项2的优势。然而,尤其对于产生用于馈送至后置扬声器的信号,所需要的信号处理并不明显。
在文献中,针对上混方法或上混处理描述了两种不同的概念。这些概念是“直射/环境(Direct/Ambient)概念”和“在乐队中(In-the-band)概念”。以下将对所提到的这两个概念进行描述。
直射/环境概念
“直射声源”是通过3个前置声道来重现或回放的,使得在与原始的双声道版本相同的位置对其进行感知。此处使用术语“直射声源”来描述完全并直接来自一个分立声源(例如乐器)的声音,其仅展现很小另外的声音或不展现任何另外的声音,例如由于墙壁的反射而产生的声音。
在此场景中,馈送至后置扬声器的声音或噪声应当仅由似环境声音或似环境噪声(在原始的录音中可能出现或也可能未出现)组成。似环境声音或似环境噪声不与单个声源或噪声源相关联,而对录音的声学环境(室内声学)的重现或回放或收听者的所谓的“包围感”做出贡献。似环境声音或似环境噪声还是现场表演中来自观众的声音或噪声(如掌声),或出于艺术目而添加的环境声音或环境噪声(如录音噪声、鸟鸣、蟋蟀的鸣叫声)。
为了示意,图7表示了(音频录音的)原始双声道版本。图8表示了使用直射/环境概念上混后的演奏。
在乐队中概念
根据环绕的概念(通常称为“在乐队中概念”),每个声音或噪声(直射声音和环境噪声)可以被完全和/或任意地围绕收听者而放置。噪声或声音的位置独立于其属性(直射声音、直射噪声、环境声音或环境噪声),而仅依赖于算法的特定设计及其参数设置。
图9表示了环绕概念。
概括而言,图7、8和9示出几种回放概念。此处,图7、8和9描述了收听者感知到声音来源于何处(如阴影区域)。图7描述了立体声回放期间的声学感知。图8描述了使用直射/环境概念的声学感知和/或声音定位。图9描述了使用环绕概念的声音感知和/或声音定位
以下部分给出了现有技术领域中关于对单声道或双声道信号进行上混以形成多声道版本的概述。文献教导了几种用于对单声道信号和多声道信号进行上混的方法。
非信号自适应方法
大多数产生所谓“伪立体声”信号的方法是非信号自适应的。这意味着它们以同样的方式来处理任何单声道信号,而不论其内容为何。这些系统通常使用简单的滤波器结构和/或时延来操作,以对所产生的信号进行解相关。例如,在[1]中可以找到对这样的系统的全面讨论。
信号适应性方法
在当前出售的几乎每一个音频/视频接收机中都包含矩阵解码器(如[2]中描述的Dolby Pro Logic II解码器、例如[3]中描述的DTSNEO:6解码器、例如[4]中描述的Harman Kardon/Lexicon Logic 7解码器)。作为其实际或期望功能的副产品,这些矩阵解码器能够执行盲上混。
所提到的解码器使用声道间差和信号自适应控制机制,以创建多声道输出信号。
用于多声道音频上混的从立体声信号的环境提取和合成
Avendano和Jot提出了一种频域技术,用于识别和提取立体声音频信号中的环境信息。(参见[5])。
该方法计算声道间相干系数和非线性映射函数的计算,所述非线性映射函数允许确定主要由双声道信号中的环境分量或环境部分组成的时频区域。然后,合成环境信号并用于提供多声道回放系统的环绕声道。
将立体声转换为多声道声音的方法
Irwan和Aarts示出了一种将来自立体声表示的信号转换为多声道表示的方法(参见[6])。使用互相关技术来计算围绕声道的信号。使用主要分量分析(PCA)来计算指示主信号方向的矢量。然后将该矢量从两声道表示映射到三声道表示以产生三个前置声道。
基于环境的上混
Soulodre示出了一种从立体声信号产生多声道信号的系统(参见[7])。信号被分解为所谓的“单源流”和“环境流”。基于这些流,所谓的“美学引擎”合成多声道输出。然而,没有给出关于该分解步骤和合成步骤的进一步的技术细节。
基于空间提示的伪立体声
Faller在[1]中描述了准信号自适应的伪立体声处理。该方法使用单信号和相同信号的给定立体声录音。从立体声信号中提取另外的空间信息或空间提示并用于将单声道信号转换为立体声信号。
发明内容
本发明的目的在于提供一种从音频信号中产生环境信号的概念以及从音频信号中导出多声道音频信号的概念,该概念实现了在单声道信号中没有任何预先信息的情况下,从单声道信号产生环境信号,使得环境信号传达出特别好的听觉印象。
这个目的是通过根据权利要求1所述的用于从音频信号中产生环境信号的设备、根据权利要求20、27或28所述的用于从音频信号中导出多声道音频信号的设备、根据权利要求25所述的用于从音频信号中产生环境信号的方法、根据权利要求26、29或30所述的用于从音频信号中导出多声道音频信号的方法以及根据权利要求31所述的计算机程序来实现的。
本发明提供一种用于从音频信号中产生环境信号的设备,包括通过对音频信号的表示进行有损压缩,以获得描述压缩音频信号的音频信号的压缩表示的装置。该用于产生环境信号的设备还包括用于计算音频信号的压缩表示和音频信号的表示之间的差值以获得差别表示(discrimination representation)的装置。该用于产生环境信号的设备还包括使用差别表示来提供环境信号的装置。
本发明的关键思想在于,通过确定音频信号的压缩表示和音频信号的原始表示之间的差值,可以以特别有效的方式从音频信号中产生环境信号,其中所述音频信号的压缩表示是通过对音频信号的原始表示进行有损压缩来产生的。这就是说,已经表明,在使用有损压缩时,原始音频信号与由原始音频信号通过有损压缩获得的有损压缩的音频信号之间的差值实质上描述了环境信号(即例如,似噪音信号或似环境信号或不可定位的信号)。
换言之,在执行有损压缩时,音频信号的压缩表示实质上包括可定位的声音事件或直射声音事件。这是基于以下事实:可定位声音事件特别常常表现出尤其高的能量以及尤其特有的波形。因此,优选地对可定位信号进行有损压缩处理,以使得压缩后的表示实质上包括具有高能量或特有波形的可定位信号。
然而,在有损压缩中,不可定位的环境信号典型地不会展现出任何尤其特有的波形,与可定位信号相比,其压缩后的表示在较小程度上表示了不可定位的环境信号。因此,已经认识到,音频信号的有损压缩方式的表示与音频信号的原始表示之间的差值实质上描述了音频信号的不可定位部分。此外,已经认识到,使用音频信号的有损压缩方式的表示与音频信号的原始表示之间的差值作为环境信号能够产生特别好的听觉印象。
换言之,已经认识到,音频信号的有损压缩典型地没有或仅在非常小的程度上包含音频信号的环境信号部分,因此,特别地,音频信号的原始表示和音频信号的有损压缩方式的表示之间的差值很好地近似于音频信号的环境信号部分。因此,权利要求1所限定的本发明的概念适于从音频信号中对环境信号部分进行盲提取。
本发明概念特别的优势在于,甚至可以在不存在任何额外辅助信息的情况下,从单声道信号中提取环境信号。此外,本发明的概念由算法上较为简单的步骤组成,即执行有损压缩,并计算音频信号的有损压缩方式的表示和音频信号的原始表示之间的差值。此外,本发明方法的优势在于,未将任何合成音频效果引入环境信号。因此,环境信号可以没有在用于产生环境信号的传统方法的情况下可能出现的混响。此外,应该注意,以本发明方式产生的环境信号典型地不再具有任何如有损压缩情况下可能干扰听觉印象的高能量部分,这样的高能量部分包含在音频信号的有损压缩方式的表示中,因此在音频信号的有损压缩方式的表示和原始表示之间的差值中不出现或很少出现。
换言之,根据本发明,环境信号正好包含那些在有损压缩情况下被认为对信息内容的表示不必要的部分。然而,该信息正好表示了背景噪声。
因此,本发明的概念使用有损压缩,实现了可定位信息与背景噪声的可靠分离,其中将作为被有损压缩抑制和/或去除的背景噪声用作环境信号。
本发明还提供了一种用于从音频信号中导出多声道音频信号的设备,所述多音频信号包括前置扬声器信号和后置扬声器信号。这里,用于导出多声道音频信号的设备包括如上所述的用于从音频信号中产生环境信号的设备。该用于产生环境信号的设备被配置为接收音频信号的表示。所述用于导出多声道音频信号的设备还包括:用于提供该音频信号或从该音频信号中导出的音频信号作为前置扬声器信号的设备;以及后置扬声器信号提供设备,用于提供由用于产生环境信号的设备所提供的环境信号或从该环境信号中导出的信号作为后置扬声器信号。换言之,所述用于导出多声道音频信号的设备使用由用于产生环境信号的设备所产生的环境信号作为后置扬声器信号,而所述用于导出多声道音频信号的设备还使用原始音频信号作为前置扬声器信号或作为前置扬声器信号的基础。因此,作为一个整体而言,所述用于导出多声道音频信号的设备能够基于单个原始音频信号来产生多声道音频信号中的前置扬声器信号和后置扬声器信号。因此,原始音频信号用于提供前置扬声器信号(或甚至直接表示前置扬声器信号),而原始音频信号的有损压缩方式的表示和原始音频信号的表示之间的差值用于产生后置扬声器信号(或甚至直接表示后置扬声器信号)。
此外,当考虑到其功能时,本发明提供与本发明设备相对应的方法。
本发明还提供了实现本发明方法的计算机程序。
另外,优选地,本发明的特别有利的实施例由所附权利要求限定。
附图说明
以下将结合附图对本发明的优选实施例进行讨论,在附图中:
图1是根据本发明的实施例的用于从音频信号中产生环境信号的本发明的设备的方框图;
图2是根据本发明的实施例的用于从音频信号中产生环境信号的本发明的设备的方框图;
图3是根据本发明的实施例的用于从音频信号中产生环境信号的本发明的设备的详细方框图;
图4a是通过两个矩阵的乘积来对矩阵进行近似表示的典型表示;
图4b是矩阵X的示意性表示;
图5是根据本发明的实施例的用于从音频信号中导出多声道音频信号的本发明的设备的方框图;
图6是根据本发明的实施例的用于从音频信号中创建环境信号的本发明的方法的流程图;
图7是在立体声回放概念中的听觉印象的示意性表示;
图8是在直射/环境概念中的听觉印象的示意性表示;以及
图9是在围绕概念中的听觉印象的示意性表示。
具体实施方式
图1示出了根据本发明的实施例的用于从音频信号中产生环境信号的本发明的设备的方框图。
根据图1的设备其整体标记为100。设备100用于接收以基本上任意选择的表示方式所表示的音频信号。换言之,设备100接收音频信号的表示。设备100包括用于对音频信号或音频信号表示进行有损压缩的装置110。装置110被配置为接收音频信号表示108。装置110从音频信号的(原始)表示108中产生音频信号的有损压缩方式的表示112。
设备100还包括用于计算音频信号的有损压缩方式的音频信号表示112和(原始)表示108之间的差值的装置120。因此,装置120被配置为接收音频信号的有损压缩方式的表示112,此外还接收音频信号的(原始)表示108。基于音频信号的(原始)表示108和音频信号的有损压缩方式的表示112,装置120计算差别表示122,该差别表示122描述了音频信号的(原始)表示108与音频信号的有损压缩方式的表示112之间的差值。
设备100还包括用于使用差别表示122和/或基于差别表示122和/或作为差别表示122的函数来提供环境信号132的装置130。
基于以上对设备100的结构描述,以下简要描述设备100的操作。设备100接收音频信号的表示108。装置110产生音频信号的有损压缩方式的表示112。装置120计算差别表示122,该差别表示122描述了音频信号的表示108与音频信号的有损压缩方式的表示112之间的差值,和/或是上述差值的函数。换言之,差别表示122描述了由表示108所描述的(原始)音频信号中被用于有损压缩的装置110去除和/或不在音频信号的有损压缩方式的表示112中回放的信号部分。典型地,由于正是那些展现出不规则曲线的信号部分被装置110去除和/或不在音频信号的有损压缩方式的表示112中回放,因此,差别表示122正好描述了那些具有不规则曲线或不规则能量分布的信号部分,即例如似噪声信号部分。典型地,由于对于收听者特别重要的直射部分和/或“可定位信号部分”将由前置扬声器(而不由“后置”扬声器)回放,因此,考虑到这一点,差别表示122适应于音频回放的要求。因而,以实质上未受损的方式,将原始音频信号中的直射部分和/或可定位部分包含在音频信号的有损压缩方式的表示112中,并因此如期望的那样,在差别表示122中实质上抑制了这些部分。另一方面,在音频信号的有损压缩方式的表示112中,减少了具有不规则分布的能量和/或很弱可定位性的信息部分。其原因在于,在如用于有损压缩的装置110所执行的有损压缩中,将具有规则分布的能量和/或具有高能量的信息携带至音频信号的有损压缩方式的表示112,而以衰减的形式或仅以微弱的程度将(原始)音频信号中具有不规则分布的能量和/或低能量的部分携带至音频信号的有损压缩方式的表示112。因此,通过在有损压缩情况下对音频信号中具有不规则能量分布的信号部分和/或具有低能量的信号部分进行衰减,差别表示112仍然包括相对较大部分的低能量信号部分和/或具有不规则分布的能量的信号部分。正是这些由差别表示122所描述的能量不是非常充足的信号部分和/或具有不规则分布的能量的信号部分在回放(通过后置扬声器)中表示了产生特别好和令人愉快的听觉印象的信息。
总而言之,在差别表示122中,抑制或衰减了具有规则分布的能量的信号部分(即例如可定位信号)。相反,在差别表示122中,不抑制和衰减具有不规则分布的能量的信号部分(如不可定位的信号)。因此,在差别表示中,与具有规则分布的能量的信号部分相比,加强或强调了具有不规则分布的能量的信号部分。因此,差别表示特别适于作为环境信号。
换言之,在优选实施例中,通过有损压缩,任何在时频表示中重复出现的内容都得到了很好的近似。
例如,这里规则的能量分布指的是在时频表示中产生重现图案的能量分布或在时频表示中产生能量局部集中的能量分布。例如,不规则的能量分布是时频表示中不产生任何重现图案,也不产生能量局部集中的能量分布。
换言之,在优选实施例中,环境信号实质上包括具有非结构化的能量分布的信号部分(例如在时频分布中非结构化),而音频信号的有损压缩方式的表示实质上包括具有结构化的能量分布的信号部分(例如,在如上所述的时频表示中结构化)。
因此,基于差别表示122来提供环境信号的装置130提供了特别适于人类收听者的期望的环境信号。
例如,用于有损压缩的装置110也可以是MP3音频压缩器、MP4音频压缩器、ELP音频压缩器或SPR音频压缩器。
以下参照图2和3,更详细地描述了本发明的实施例。出于这个目的,图2示出了根据本发明的实施例的用于从音频信号中产生环境信号的本发明的设备的方框图。此外,图3示出了根据本发明的实施例的用于从音频信号中产生环境信号的本发明的设备的详细方框图。根据图2的设备其整体标记为200,根据图3的设备其整体标记为300。
例如,设备200用于接收以时间表示x[n]的形式出现的输入信号208。典型地,输入信号208描述音频信号。
装置200包括时频分布提供器210。时频分布提供器210被配置为从以时间表示x[n]的形式出现的输入信号208中产生时频分布(TFD)。应该注意到,时频分布提供器210是可选的。这就是说,时频表示的表示212也可用作设备200的输入信号,使得在这种情况下可以省略从作为时间信号出现的输入信号208(x[n])至时频分布的表示212的转换。
还应该注意到,例如,时频分布的表示212可以以时频分布矩阵的形式出现。还应该注意到,例如,以下将更详细解释的矩阵X(ω,k)或矩阵|X(ω,k)|可以用作时频分布的表示212。
装置200还包括近似装置220,被配置为接收时频分布的表示212,并产生时频表示212的近似表示222,与表示212相比,近似表示222典型地经过了有损压缩。换言之,用于近似的装置220例如使用数值优化方法(以下将更详细地进行描述)来形成时频分布212的近似或近似表示222。然而,假定所述近似使得时频分布的(原始)表示212(是音频信号的原始表示)与时频分布的近似表示222之间产生偏差。在本发明的一个实施例中,时频分布的原始表示212和近似表示222之间的差值基于以下事实:用于近似的装置220优选地被配置为执行有损近似,其中展现出规则能量分布和/或携带较大信号能量的信号部分优选被携带至近似表示中,而与具有规则分布的能量和/或较大信号能量的信号部分相比,在近似表示222中衰减或抑制了展现出相对不规则分布的能量和/或相对较低的信号能量的信号部分。
设备200还包括差值确定器230,被配置为接收时频分布的原始表示212以及时频表示的近似表示222,以基于原始表示212和近似表示222之间的差值来产生差别表示232,差别表示232实质上描述了原始表示212和近似表示222之间的差值,和/或是原始表示212和近似表示222之间的差值的函数。以下将解释与差别表示232的计算相关的细节。
设备200还包括重新合成装置240。重新合成装置240被配置为接收差别表示232,以基于差别表示232来产生重新合成的信号242。例如,重新合成装置可以被配置为将以时频分布形式出现的差别表示232转换为时间信号242。
还应该注意到,重新合成装置240是可选的,如果需要对差别表示232(例如以时频分布的形式出现)进行直接重新处理,则可以省略重新合成装置240。
装置200还包括可选装置250,用于组装多声道音频信号和/或后处理。例如,装置250被配置为从用于重新合成的装置240接收重新合成的信号242,并根据重新合成的信号242来产生多个环境信号252、254(也表示为a1[n]、...、ak[n])。
以下将更详细地解释多个环境信号252、254的产生。
总而言之,已经表明,本发明实质上关注环境信号的计算。图2的方框图用于提供根据本发明的实施例的本发明的概念、本发明的设备和本发明的方法的简要概述。本发明的概念可以简短概括如下:
在用于确定时频分布的(可选)装置210中(可选地)计算输入信号208(x[n])的时频分布212(TFD)。以下将对该计算进行更详细的解释。例如,使用数值近似方法(以下将进行更详细的描述)来计算输入信号208(x[n])的时频分布212(TFD)的近似220。例如,可在用于近似的装置220中执行该计算。通过计算输入信号208(x[n])的时频分布212(TFD)及其近似212之间的区别或差值(例如在用于计算差值的装置230中),能够获得对环境信号的时频分布(TFD)的估计232。基于此,执行环境信号的时间信号242的重新合成(例如在可选的重新合成装置240中)。以下将对重新合成进行更详细的解释。此外,可选地使用后处理(例如在用于组装多声道音频信号和/或用于后处理的可选装置250中实现),以改进导出的多声道信号(例如包括环境信号252、254)的听觉印象。以下还将对该可选的后处理进行更详细的解释。
以下将对与图2的情况下所示的各个处理步骤相关的细节进行解释。在这样做的过程中,还参考图3,图3示出了用于从音频信号中产生环境信号的本发明的设备的更详细的方框图。
例如,根据图3的设备300被配置为接收以时间连续输入信号x(t)的形式或以时间离散输入信号x[n]的形式出现的输入信号308。此外,输入信号308与设备200的输入信号208相对应。
设备300还包括时间信号至时频分布转换器310。时间信号至时频分布转换器310被配置为接收输入信号308并提供时频分布(TFD)的表示312。此外,时频分布(TFD)的表示312实质上与设备200中时频分布的表示212相对应。还应该注意到,以下也将该时频分布表示为X(ω,k)。
还应该注意到,时频分布X(ω,k)还可以是设备300的输入信号,即可以省略设备310。设备300还(可选地)包括幅度-相位分离器314。当时频分布312可以采用复数(不是纯粹的实数)值时,优选使用幅度-相位分离器314。在这种情况下,幅度-相位分离器314优选地被配置为基于时频分布312来提供时频分布312的幅度表示316以及时频分布312的相位表示318。此外,时频分布312的幅度表示也标记为|X(ω,k)|。应该注意到,时频分布312的幅度表示316可以替代设备200中的表示212。
还应该注意到,对时频分布312的相位表示318的使用是可选的。还应该主意到,在一些情况下,时频分布312的相位表示318也标记为φ(ω,k)。
还假定时频分布312的幅度表示316以矩阵的形式出现。
设备300还包括矩阵近似器320,被配置为通过两个矩阵的W、H(以下将描述)的乘积来近似时频分布312的幅度表示316。矩阵近似器320实质上与设备200中使用的用于近似的装置220相对应。因此,矩阵近似器320接收时频分布312的幅度表示316,并提供幅度表示316的近似322。在一些情况下,近似322也标记为
Figure A200780034829D00231
(ω,k)。此外,近似322与图2中的近似表示222相对应。
设备300还包括接收幅度表示316和近似322的差值形成器330。此外,差值形成器330提供差别表示332,差别表示332实质上与以下描述的表示|A(ω,k)|相对应。此外,应该注意到,差别表示332还实质上与设备200中的差别表示232相对应。
设备300还包括相位添加器334,相位添加器334接收差别表示332和相位表示318,并因此将相位表示318所描述的相位添加到差别表示332的元素中。因此,相位添加器334提供了具有相位的差别表示336,差别表示336也标记为A(ω,k)。应该注意到,相位添加器可以被认为是可选的,因此,例如,如果省略了相位添加器,则可以使用具有相位的差别表示336来替代差别表示332。还应该注意到,根据每一种具体情况,差别表示332和具有相位的差别表示336都可以与差别表示232相对应。
设备300还包括(可选的)时频分布至时间信号转换器340。(可选的)时频分布至时间信号转换器340被配置为接收具有相位的差别表示336(可选地:差别表示332),并提供形成环境信号的时域表示(或时间信号表示)的时间信号342(也标记为a(t)或a[n])。
还应该注意到,时频分布至时间信号转换器340实质上与根据图2的重新合成装置240相对应。此外,由时频分布至时间信号转换器340提供的信号342实质上与设备200中所示的信号242相对应。
输入信号的时频分布
以下描述计算输入信号的时频分布(TFD),即例如表示212、312的方式。时频分布(TFD)是时间信号(即例如输入信号208或输入信号308)对时间和频率的表示和/或示意。在时频分布的多种公式表示中(例如使用滤波器组或离散余弦变换(DCT)),短时傅里叶变换(STFT)是一种用于计算时频分布的灵活且计算效率较高的方法。将短时傅里叶变换(STFT)X(ω,k)计算为离散时间信号x[n](即例如,输入信号208、308)的加窗数据段的傅里叶变换序列,其中ω是频率箱或频率索引,k是时间索引。因此,以下为真:
X ( ω , k ) = Σ n = - ∞ ∞ x [ n ] w [ n - m ] e - jωn - - - ( 1 )
这里,w[n]表示窗函数。索引m与帧索引(或时间索引)k的关系是窗长度和相邻窗重叠量的函数。
如果时频分布(TFD)是复数值(例如在使用短时傅里叶变换(STFT)的情况下),则在优选实施例中,可以使用时频分布(TFD)的系数的绝对值来进行进一步的计算。该时频分布(TFD)的系数的绝对值和/或幅度也标记为|X(ω,k)|。在这种情况下,在重新合成阶段存储相位信息φ(ω,k)=∠X(ω,k)以待后用。应该注意到,在设备300中,幅度表示|X(ω,k)|标记为316。相位信息φ(ω,k)标记为318。
应该注意到,X(ω,k)表示通过例如STFT获得的各个傅里叶系数(一般地:时频分布的各个系数)。相反,X(ω,k)表示包含多个系数(ω,k)的矩阵。例如,对于ω’=1、2、...、n以及k’=k1、k1+1、...、k1+m-1,矩阵X(ω,k1)包含系数X(ω’,k’)。这里,n是矩阵X(ω,k1)的第一维(例如多个行),m是矩阵X(ω,k1)的第二维。因此,对于矩阵X(ω,k1)中的元素Xi,j,以下为真:
Xi,j=X(ω=ωi,k=k1+j-1)
这里,以下为真:
1≤j≤n
以及
1≤i≤m
此外,在图4b中示出了所述的环境。
换言之,矩阵X(ω,k1)包括多个时频分布值X(ω,k1)。
还应该注意到,以下除非另外表示,否则矩阵幅度(标记为|X|)的计算表示逐元素的幅度形成。
时频分布(TFD)的近似
在本发明的情况下,根据实施例,使用数值优化方法来计算输入信号的时频分布的近似。以下描述时间频率分布的近似以及数值优化方法。
在将近似的误差最小化的数值优化方法的帮助下,导出矩阵X(ω,k)的近似
Figure A200780034829D00251
(ω,k)。这里,最小化是指具有不超过50%,优选地不超过20%的相对误差的最小化。此外,最小化可以是确定绝对或局部的最小值。
此外,在距离函数或散度函数(divergence function)的帮助下测量近似误差。距离和散度之间的差异与数学性质有关,并基于以下事实:在对于两个矩阵A、B之间的距离以下为真:
d(A,B)=d(B,A)
的意义上,距离是对称的。与之相反,散度是非对称的。
应该注意到,例如,可以通过近似装置220或矩阵近似器320来进行以下描述的时频分布或时频分布矩阵X(ω,k)的近似。
还应该注意到,对于近似的计算,非负矩阵分解(NMF)是一种适合的方法。
非负矩阵分解(NMF)
以下描述非负矩阵分解。非负矩阵分解(NMF)是一种将具有非负元素的矩阵V∈Rnxm近似为两个矩阵W∈Rnxr和H∈Rrxm的乘积的近似。这里,针对矩阵W的元素Wi,k和矩阵H的元素Hi,k,以下为真:
Wi,k≥0;以及
Hi,k≥0。
换言之,确定矩阵W和H,使得以下为真:
V≈WH
逐元素的对此进行表达,以下为真:
V i , k ≈ ( WH ) i , k = Σ a = 1 r W i , a H a , k - - - ( 2 )
如果分解的秩r满足以下条件
(n+m)r<nm
则乘积WH是V的数据压缩后的表示(参见[8])。等式(2)的直观解释如下:矩阵V∈Rnxm近似为列矢量wi和行矢量hi的r个外积之和,其中以下为真:i∈[1,r],wi∈Rnx1以及 h &OverBar; i = R 1 xm . 在图4a中以简单的示例表示了所描述的主题。换言之,图4a示出了具有分解秩r=2的非负矩阵分解(NMF)的示意性示例。
通过解决对测量近似误差的代价函数c=f(V,WH)进行最小化的优化问题来计算因子W和H。换言之,代价函数c测量近似的误差,即矩阵V和WH之间的距离(和/或散度)。两个矩阵A和B之间的合适距离测量是以其逐元素差值表示的Frobenius范数DF(A,B)(等式3):
D F ( A , B ) = | | A - B | | F 2 = &Sigma; i , k ( A i , k - B i , k ) 2 - - - ( 3 )
Frobenius范数对于不相关的高斯分布数据是理想的(参见[9])。换言之,在优选实施例中,计算代价函数c,其中以下为真:
c = D F ( X ( &omega; , k ) , X ^ ( &omega; , k ) )
换言之,将近似
Figure A200780034829D00266
计算为两个矩阵W和H的乘积,其中:
X ^ ( &omega; , k ) = WH .
其它已知的误差函数是广义Kullback-Leibler散度(GKLD)(等式4)。广义Kullback-Leibler散度(GKLD)与泊松分布(参见[9])或指数分布更加相关,因此甚至更适于音乐音频信号的量或幅度谱的近似。两个矩阵A和B之间的广义Kullback-Leibler散度的定义如下:
D GKL ( A , B ) = &Sigma; i , j ( A ij log A ij B ij - A ij + B ij ) - - - ( 4 )
此外,Aij和Bij分别是矩阵A和B的项或矩阵元素。
换言之,可以如下选择代价函数c:
c = D GKL ( X , X ^ = WH )
以下描述如何确定近似矩阵W和H中的项。通过应用以下更新规则和/或迭代规则,称为梯度下降的简单数值优化技术迭代地逼近代价函数f(x)的局部(或全局)最小值:
X &LeftArrow; X + &alpha; &CenterDot; &dtri; f ( x ) - - - ( 5 )
其中,α为步长,
Figure A200780034829D00274
为代价函数的梯度。
为了使用根据等式(3)的代价函数来解决根据等式(2)的优化问题,通过以下等式给出了加性更新规则或迭代规则:
Hik←Hik+α·[(WTV)ik-(WTWH)ik]       (6)
Wik←Wik+α·[(VHT)ik-(WHHT)ik]       (7)
在本发明的算法的情况下,在一个实施例中以下为真:
V=X(ω,k)
还应该注意到,Lee和Seung已经发现或识别出了根据等式(8)和(9)的乘性更新规则或迭代规则(参见[10])。此外,Lee和Seung已示出了乘性更新规则与梯度下降方法及其收敛的关系。该乘性更新规则如下:
H ik &LeftArrow; H ik ( W T V ) ik ( W T WH ) ik - - - ( 8 )
W ik &LeftArrow; W ik ( VH T ) ik ( WHH T ) ik - - - ( 9 )
再一次地,在一个优选的实施例中,以下为真:
V=X(ω,k)
梯度下降方法的速度和鲁棒性极大地依赖于步长或步宽α的正确选择。乘性更新规则相对于梯度下降方法的一个主要优势在于其独立于步长或步宽的选择。该过程和方法易于实现、计算效率较高并能够保证找到代价函数的局部最小值。
环境分离的情况下的非负矩阵分解(NMF)
在本方法的情况下,非负矩阵分解(NMF)用于计算输入音频信号x[n]的量或幅度谱图|X(ω,k)|的近似。与之相关地,应该注意到,通过执行逐元素的幅度形成,从矩阵X(ω,k)中导出幅度谱图1X(ω,k)|。换言之,对于|X(ω,k)|中具有索引i,j的、标记为|X(ω,k)|ij的元素,以下为真:
|X(ω,k)|ij=|X(ω,k)ij|
这里,X(ω,k)ij表示矩阵X(ω,k)中具有索引i和j的元素。此外,|.|表示幅度形成操作。
|X|的非负矩阵分解(NMF)产生了因子W和H。在优选实施例中,根据信号长度和信号内容,所述近似需要在40和100之间的较大分解秩r来表示充分数量的直射声音或直射噪声。
总而言之,已经示出,通过上述非负矩阵分解,实质上实现了时频分布的近似表示,例如在根据图2的设备200中其标记为222,或此外,在根据图3的设备300中标记为322或
Figure A200780034829D00281
通过计算时频分布X的量或者幅度表示|X|与其近似WH之间的差值,基本上导出了环境信号的量或幅度谱图1A|,如等式(10)所表示:
|A|=|X|-WH                       (10)
然而,如以下将进行解释的,在优选实施例中,不直接考虑根据等式10的结果。这就是说,对于上述对代价函数进行最小化的近似,等式(10)的应用产生了具有负值元素和正值元素的量或幅度谱图|A|。然而,在量或幅度谱图|A|优选仅包括正值元素的一个实施例中,优选地采用处理差值|X|-WH中的负值元素的方法。
几种方法可以用于处理负元素。用于处理负元素的一种简单方法在于:将负值乘以0到-1之间的因子β(β=0、...、-1)。换言之:-1≤β≤0。这里,β=0对应于半波整流,β=-1对应于全波整流。
以下等式给出了用于计算环境信号的幅度谱图或幅值谱图|A|的一般公式表示:
|A|ik=βik·(|X|-WH)ik            (11)
其中
&beta; ik = &gamma; , if ( WH ) ik > | X | ik + 1 , otherwise - - - ( 12 )
其中,γ∈[-1,0]是常数。
应该注意到,在以上等式中,|A|ik表示幅度谱图或幅值谱图|A|中具有索引i和k的矩阵元素。此外,(|X|-WH)ik表示时频分布的幅度谱图或幅值谱图1X|与相关联的近似 WH = X ^ 之间的差值中具有索引i和k的矩阵元素。
此外,(WH)ik表示近似 WH = X ^ 中具有索引i和k的矩阵元素。|X|ik是量或幅度谱图|X|中具有索引i和k的矩阵元素。因此,从等式(11)和(12)中可以看出,在优选实施例中,逐元素地确定因子βik和/或对差值(|X|-WH)中项的整流。
以下描述用于确定环境信号的量或幅度谱图|A|的可选方法。根据以下等式首先确定环境信号的量或幅度谱图1A|:
Figure A200780034829D00294
其中
Figure A200780034829D00295
,并随后在所确定的矩阵|A|中进行负元素的全波整流,从而获得简单的可选方法。这里,与包含在环境信号中的直射信号相比,参数
Figure A200780034829D0029113412QIETU
有利于设置和/或控制环境信号的量。
应该注意到,与参考等式(11)和(12)所描述的过程相反,在对矩阵|A|的计算中,最后描述的过程涉及以下效果:大量直射声音或直射噪声在环境信号中出现。因此,典型地,在等式(11)和(12)的情况下描述的过程是优选的。
此外,存在用于确定矩阵|A|的第三可选过程,将在随后对其进行描述。该第三可选方法在于,在代价函数中加入边界约束或边界条件以影响以下项中的负值元素的量或值:
|A|=|X|-WH
换言之,正确选择与代价函数相关的边界约束或边界条件可以用于实现例如在差值|A|=|X|-WH中出现尽可能少的负值(可选地:尽可能少的正值)。
换言之,对用于确定矩阵W和H中的项的优化方法进行适配,以使得所述差值优选地包括正值和/或相对较少的负值(或反之)。
新的代价函数
c=f(|X|,WH)
可以用如下公式表示:
c = &Sigma; i , k ( | X | i , k - ( WH ) i , k ) 2 - &Element; &Sigma; i , k ( | X | i , k - ( WH ) i , k ) - - - ( 13 )
这里,ε是确定边界约束或边界条件对总代价(或代价函数c的总值)的影响的常数。通过在等式(5)中插入微分运算符
Figure A200780034829D00302
(根据公式14)和微分运算符
Figure A200780034829D00303
导出梯度下降的更新规则和/或迭代规则。对于微分运算符
Figure A200780034829D00304
Figure A200780034829D00305
以下为真:
&PartialD; c &PartialD; H = [ ( W T | X | ) i , k - ( W T WH ) ik - &Element; &Sigma; i W i , k ] - - - ( 14 )
&PartialD; c &PartialD; W = [ ( | X | H T ) i , k - ( WHH T ) ik - &Element; &Sigma; k H i , k ] - - - ( 15 )
此外,应该注意到,因为易于实现并提供良好的结果,关于等式(11)和(12)所描述的过程是优选的。
总而言之,已经示出了,例如通过本发明优选实施例中的差值确定装置230或差值形成器330,可以执行上述对矩阵|A|的确定,针对该确定描述了三种不同的方法。
时间信号的重建
以下描述如何从环境信号的幅度表示|A(ω,k)|(也标记为332)中获得具有相位信息的表示A(ω,k)(也标记为336)。
使用输入信号308(也标记为x(t),x[n])的时频分布(TFD)X的相位
Figure A200780034829D00311
来计算环境信号的复数谱图A(ω,k)。
A(ω,k)=|A(ω,k)|·[cos(φ(ω,k))+j·sin(φ(ω,k))]   (16)
这里,例如,φ是角度值的矩阵。换言之,将时频分布(TFD)X的相位信息或角度信息逐元素添加到量或幅度表示|A|。换言之,例如通过与幅度为1的相应复数相乘,将具有行索引i和列索引j的项或矩阵元素Xi,j的相位信息添加至具有行索引i和列索引j的项或矩阵项Ai,j。总的结果是具有相位信息的环境信号的表示A(ω,k)(标记为336)。
然后,通过对A(ω,k)进行计算时频分布(TFD)的反过程,从具有相位信息的表示A(ω,k)中(可选地)导出环境信号a[n](或环境信号的时间离散表示,或环境信号的时间连续表示)。这就是说,例如通过反短时傅里叶变换来处理具有相位信息的表示A(ω,k),该反短时傅里叶变换使用重叠相加的方案,当应用至X(ω,k)时,产生时间信号x[n]。
此外,将所描述的过程应用于各具有几秒长度的重叠段。使用Hann窗对这些段进行加窗,以确保相邻段之间的平滑过渡。
还应该注意到,例如,可以在用于重新合成的装置240或时频分布至时间信号转换器340中执行最后描述的用于导出环境信号的时间表示a[n]的过程。
多声道音频信号的组装
通过将环境信号馈送至后置声道(即例如至少左后置声道或右后置声道,或左后置声道和右后置声道),获得了5.0信号或5.0音频信号(即例如,包括左后置声道、前置中心声道以及右前置声道、左后置声道和右后置声道的音频信号)。在优选实施例中,前置声道(即例如左前置声道、中心声道和/或右前置声道)回放原始信号。这里,例如,增益参数和/或响度参数确保了在使用另外的中心声道时获得总能量(或实质上保持不变)。
此外,应该注意到,可以在任何多声道系统和多声道音频回放系统中使用所描述的用于产生环境信号的概念。例如,可以在7.0系统中(例如,在具有三个前置扬声器、两个侧面扬声器和两个后置扬声器的系统中)使用本发明的概念。因而,例如,可以将环境信号提供给一个或两个侧面扬声器和/或一个或两个后置扬声器。
可选地,在分离环境信号之后(或在产生环境信号后),可以执行另外的处理,以获得高感知质量的多声道音频信号。当从单个声道来组装多声道音频信号时,需要保留前置图像,同时增加对空间感的印象。例如,这是通过将几毫秒的延迟引入或添加到环境信号和/或通过将抑制环境信号中的瞬变部分来实现的。此外,对馈送至后置扬声器或后方扬声器的信号相互之间和/或相对于馈送至前置扬声器的信号进行解相关是有利的。
瞬变信号抑制和/或峰值抑制或沉降操作
将用于检测瞬变信号(和/或峰值或沉降操作(settling operation))并用于处理瞬变信号的算法适于各种音频信号处理应用中,以用于数字音频效果(参见[11,12])和用于上混(参见[13])。
上混的情况下的瞬变信号的抑制意在保持前置图像。当在环境信号中出现瞬变噪声或瞬变声音时,(如通过收听者)不会将产生这些瞬变信号的源定位在前方。这是不期望的效果:“直射声源”显得比在原始信号中更宽(或更加扩展),或者甚至更糟糕地,“直射声源”被感知为位于收听者后方的独立“直射声源”。
后置声道或后方声道的信号解相关
在文献中,术语“解相关”描述了这样一种过程:对输入信号进行处理,以使得(两个或更多)输出信号展现出不同的波形但听起来和输入信号一样(参见[14])。例如,如果由一对扬声器同时回放或呈现两个相似、相干的宽带噪声信号,则将感知到紧凑的听觉事件(参见[15])。减小两个声道信号的相关性将声源或噪声源的感知带宽或扩展增加到感知到两个分离的源。通常通过相关系数Rxy来表达两个居中的信号x和y(即均值为0的信号)的相关性,如等式(17)所描述的:
R xy = lim l = &infin; &Sigma; k = - l l x ( k ) y * ( k ) &Sigma; k = - l l | x ( k ) | 2 &Sigma; k = - l l | y ( k ) | 2 - - - ( 17 )
这里,y*(k)表示与y(k)复共轭的数。由于相关系数不独立于信号x和y之间小的延迟,因此通过或使用声道间相关Γ(参见[15])或通过声道间相干(参见[16])(等式(18)),定义了两个居中的信号x和y之间的相似度的其他度量。在等式(18)中,如下定义声道间相关或声道间相干Γ:
&Gamma; = max &tau; | r xy ( &tau; ) | - - - ( 18 )
这里,根据等式(19)来定义归一化互相关rxy
r xy ( &tau; ) = lim l &RightArrow; &infin; &Sigma; k = - l l x ( k ) y * ( k + &tau; ) &Sigma; k = - l l | x ( k ) | 2 &Sigma; k = - l l | y ( k ) | 2 - - - ( 19 )
解相关处理的示例是自然混响和几种信号处理器(效果提升器(flanger)、合唱、移相器、合成混响)。
在[17]中描述了音频信号处理领域中的一种先前的解相关的方法。这里,通过对输入信号与输入信号的延迟版本求和来产生两个输出声道信号,其中在一个声道中反转了延迟声道的相位。
其它方法通过卷积来产生解相关信号。通过将输入信号与根据给定值彼此相关的一对脉冲响应进行卷积,产生具有给定或指定相关性度量的一对输出信号(参见[14])。
通过使用时变全通滤波器(即针对相邻的时间帧,在其中计算新的随机相位响应的全通滤波器)来获得动态(即时变)的解相关(参见[18]、[11])。
在[18]中描述了子带方法,其中在各个频率段中的相关性反复改变的。
在这里描述的本发明的方法的情况下,将解相关应用于环境信号。在5.1的设置中(即例如,在具有六个扬声器的设置中)(然而也在具有至少两个扬声器的其他设置中),需要将最终被馈送至两个后置或后方声道的环境信号相对于彼此解相关至特定程度。
本发明的方法的期望特性是声场扩散(或噪声场扩散、或声场的展宽或噪声场的展宽)和包围感。
以下参见图5,图5描述了用于从音频信号中导出多声道音频信号的设备,所述多声道音频信号包括前置扬声器信号和后置扬声器信号。根据图5的用于导出多声道音频信号的设备其整体标记为500。设备500接收音频信号508或音频信号的表示508。设备500包括用于产生环境信号的设备510,其中,设备510接收音频信号508或音频信号的表示508。设备510提供环境信号512。应该注意到,在优选实施例中,设备510是根据图1的设备100。在另外的优选实施例中,设备510是根据图2的设备200。在另外的优选实施例中,设备510是根据图3的设备300。
还将可能以时域表示(或时间信号表示)和/或时频表示的形式出现的环境信号512馈送至后处理装置520。后处理装置520是可选的,例如,可以包括被配置为减少或去除环境信号512中出现的瞬变信号的脉冲减少器。这里,瞬变信号是高能量信号部分,可以展现出比给定的最大可允许边缘陡度更大的边缘陡度。此外,瞬变事件还可以是环境信号512中的信号峰值,其幅度超过特定的给定最大幅度。
此外,后处理装置520可以(可选地)包括对环境信号512进行延迟的延迟器或延迟装置。因此,后处理装置520提供后处理的环境信号522,例如与(原始的)环境信号512相比,后处理的环境信号522中减少或去除了瞬变信号,和/或与(原始的)环境信号512相比,延迟了后处理的环境信号522。
如果省略了后处理装置520,则信号522可以与信号512相同。
设备500还(可选地)包括组合器530。例如,如果包括了组合器,则组合器520提供后处理的环境信号522与原始音频信号508的(可选地后处理的)版本组合而形成的后置扬声器信号532。
如果省略可选的组合器530,则信号532可以与信号522相同。设备500还(可选地)包括解相关器540,解相关器540接收后置扬声器信号532并基于此来提供至少两个解相关后的后置扬声器信号542、544。例如,第一后置扬声器信号542可以表示用于左后置扬声器的后置扬声器信号。例如,第二后置扬声器信号544可以表示用于右后置扬声器的后置扬声器信号。
例如,在最简单的情况下(例如,如果省略了后处理装置520、组合器530和解相关器540),将设备510产生的环境信号512用作第一后置扬声器信号542和/或用作第二后置扬声器信号544。一般地,可以认为,考虑到后处理装置520、组合器530和/或解相关器540,考虑将设备510产生的环境信号512用于产生第一后置扬声器信号542和/或用于产生第二后置扬声器信号544。
因此,本发明明确地包括将设备510产生的环境信号512用作第一后置扬声器信号542和/或用作第二后置扬声器信号544。
类似地,本发明还明确地包括将设备510产生的环境信号512用于产生第一后置扬声器信号542和/或用于产生第二后置扬声器信号544。
可选地,该设备还可以另外被配置为产生第一前置扬声器信号、第二前置扬声器信号和/或第三前置扬声器信号。例如,出于这个目的,将(原始)音频信号508馈送至后处理装置550。例如,后处理装置550被配置为接收和处理音频信号508,并产生后处理的音频信号552,例如将后处理的音频信号552(可选地)馈送至组合器530。如果省略后处理装置,则信号542可以与信号508相同。此外,信号552形成前置扬声器信号。
在优选实施例中,设备500包括信号分离器560,被配置为接收前置扬声器信号552并基于此来产生第一前置扬声器信号562、第二前置扬声器信号564和/或第三前置扬声器信号566。例如,第一前置扬声器信号562可以是位于左前方的扬声器的扬声器信号。例如,第二前置扬声器信号564可以是位于右前方的扬声器的扬声器信号。例如,第三前置扬声器信号566可以是位于前方中心的扬声器的扬声器信号。
此外,图6示出了根据本发明的实施例的本发明的方法的流程图。根据图6的方法其整体标记为600。方法600包括第一步骤610。第一步骤610包括音频信号(或音频信号的表示)的有损压缩,以获得音频信号的有损压缩方式的表示。方法600的第二步骤620包括计算音频信号的压缩的表示和音频信号的表示之间的差值,以获得差别表示。
第三步骤630包括使用差别表示来提供环境信号。因此,作为一个整体,方法600能够从音频信号中产生环境信号。
应该注意到,可以通过上述本发明的设备所执行的步骤来对根据图6的本发明的方法600进行补充。因此,例如,可以修改和/或补充方法,以完成根据图2的设备100的功能、根据图2的设备200的功能、根据图3的设备300的功能和/或根据图5的设备500的功能。
换言之,可以以硬件或软件来实现本发明的设备和本发明的方法。可以在数字存储介质,如具有电子可读控制信号的软盘、CD、DVD或闪存存储器上进行该实现,所述电子可读控制信号与执行相应方法的可编程计算机系统协作。一般地,因此,本发明还在于具有程序代码的计算机程序产品,所述程序代码存储在机器可读载体上,当计算机程序产品在计算机上运行时,所述程序代码用于执行本发明的方法。换言之,因此,本发明可以被实现为具有程序代码的计算机程序,当计算机程序在计算机上运行时,所述程序代码用于执行本方法。
方法概述
总而言之,可以认为,从输入信号中产生环境信号并将其馈送至后置声道。这里,使用了标题“直射/环境概念”下描述的概念。本发明的精髓涉及环境信号的计算,其中图2示出了可用于获得环境信号的处理的方框图。
总而言之,本发明示出了以下内容:
如标题“输入信号的时频分布”下讨论的,计算输入信号的时频分布(TFD)。如“时频分布的近似”部分中描述的,使用数值优化方法来计算输入信号的时频分布(TFD)的近似。通过计算输入信号的时频分布(TFD)与其近似之间的区别或差值,获得环境信号的时频分布(TFD)的估计。该估计也被标记为|A|和/或A。此外,在标题“时间信号的重建”下的部分中解释了环境信号的时间信号的重新合成。此外,如在标题“多声道音频信号的组装”下所描述的,可以(可选地)使用后处理来增强所导出的多声道信号的听觉印象。
总结
总而言之,可以认为,本发明描述了用于从单声道音频信号(或从一个单声道音频信号)中分离出环境信号的方法和概念。所导出的环境信号展现出高音频质量。它包括了源自环境的声音元素或噪声元素,即混响、听众噪声以及环境噪声或周围噪声。环境信号中直射声音或直射噪声的量或音量非常低或甚至趋于零。
以下通过简化的方式来描述所述方法成功的原因:
一般地,与环境噪声或环境声音的时频分布(TFD)相比,直射声音或直射噪声的时频分布(TFD)更稀疏或更不密集。这就是说,与环境噪声或环境声音的能量相比,直射声音或直射噪声的能量更集中更少的箱或矩阵项中。因此,所述近似对直射噪声或直射声音进行检测,而不检测(或仅在非常小的程度上检测)环境噪声或环境声音。可选地,可以认为,与环境噪声或环境声音相比,所述近似在更大程度上检测直射噪声或直射声音。因此,输入信号的时频分布(TFD)与其近似之间的区别或差值是在输入信号中出现的所有环境噪声和/或环境声音的时频分布(TFD)的良好表示。
然而,本发明包括根据单声道信号或双声道信号来计算多声道信号(或一个多声道信号)的方法。因此,所述方法和概念的使用实现了在多声道系统中以维持多信号呈现的优点的方式来进行传统录音的演奏。
此外,应该注意到,在本发明的方法中,在优选实施例中,未使用人工音频效果,对声音和/或音频信号的处理仅涉及包围感和空间感。没有对原始声音或原始噪声进行音质润色。维持了音频信号的作者所想要的听觉印象。
因此,可以认为,所描述的本发明的方法和概念克服了已知方法和概念的实质缺点。应该注意到,在介绍中描述的信号自适应方法通过计算双声道输入信号的声道间差来计算后置声道信号(即后置扬声器的信号)。因此,当输入信号的两个声道相同时(即当输入信号是双重单声道信号时)或当两个声道的信号几乎相同时,这些方法不能根据选项3来从输入信号中产生多声道信号。
在标题“基于空间提示的伪立体声”下描述的方法总是要求同样内容的多声道版本或操作员手动产生空间提示。因此,当没有相同输入信号的多声道版本可用时,不能以具有实时能力的方式或自动地采用使用所提到的已知方法。
相反,没有关于信号的任何预先信息的情况下,这里描述的本发明的方法和概念能够从单声道信号中产生环境信号。此外,没有使用合成的音频对象或音频效果(如混响)。
以下,对于根据本发明的实施例的本发明的概念的应用,描述了特别有利的参数选择。
换言之,以下描述用于单声道上混应用的环境分离方法的最优参数设置。此外,给出了该参数的最小值和最大值,虽然该最大值和最小值可以起作用,但是在音频质量和/或所需处理负载方面没有带来最优结果。
这里,FFT大小参数(nfft)描述了要处理多少个频带。换言之,FFT大小参数指示存在多少个可区别的频率ω1到ωn。因此,FFT大小参数也是矩阵X(ω,k)的第一维有多大(例如矩阵的行数)的度量。换言之,在优选实施例中,FFT大小参数描述了矩阵X(ω,k)的行(或列)的数目。因此,例如,FFT大小参数对应于值n。此外,值FFT大小还描述有多少个样本用于计算矩阵X中的单个项Xi,j。换言之,使用输入信号的时间表示的nfft个样本,以基于此来计算nfft个不同频率ω1到ωnfft的nfft个频谱系数。因此,基于nfft个样本来计算矩阵X(ω,k)的列。
然后,将定义输入信号的预期样本的窗移动由跳(hop)参数来定义的样本数目。然后通过傅里叶变换将由移动后的窗所定义的输入信号的nfft个样本映射到nfft个频谱系数,所述频谱系数定义了矩阵X的下一列。
可以示例性地认为,通过输入信号中具有索引1到nfft的样本的傅里叶变换,可以形成矩阵X的第一列。通过输入信号中具有索引1+hop到nfft+hop的样本的傅里叶变换,可以形成矩阵X的第二列。
段长度参数指示对多长一段信号帧的谱图进行分解。换言之,段长度参数描述了计算矩阵X中的项所考虑的输入音频信号的持续时间有多长。因此,可以认为,矩阵X描述了在等于段长度参数(segLen)的时间段内的输入时间信号。
分解秩参数描述非负矩阵分解的分解秩,即参数r。换言之,分解秩参数指示了第一近似矩阵W的维数和第二近似矩阵H的维数有多大。
下面的表给出了这些参数的优选值:
 
参数 描述 单位 最小值 最大值 最优值  
FFT大小(nfft)  FFT的信号帧的大小          样本 1024 4096 2048或4096
跳大小(hop) FFT的跳大小 样本 1 nfft 0.125*nfft或0.20.25*nfft          
段长度(segLen) 对其谱图进行分解的信号帧的大小       1 输入信号的长度   2-4
分解秩 NMF的分解秩 10 谱图的列数       40...100
作为另一参数,还确定针对NMF的计算使用哪一个误差度量c。当处理量或幅度谱图时,优选使用Kullback-Leibler散度。当处理具有取对数的谱图值(SPL)或能量谱图值时,可以使用其它距离度量。
此外,应该注意到,以上描述了优选值的范围。应该注意到,使用本发明的方法,FFT大小可在从128到65,536的范围内。跳大小可在FFT大小的1/64和整个FFT大小之间。典型地,段长度至少等于0.1秒。
作为简要概括,可以认为,本发明包括用于从音频信号中计算环境信号的新概念或方法。所导出的环境信号特别有利于对音乐音频信号进行上混以在多声道系统上回放。与其它方法相比,所描述的本发明的概念或方法的优势在于,她能够在不使用合成音频效果的情况下处理单声道信号。
此外,应该注意到,本发明还可用于简单系统中。可以想到这样的系统,其中只有一个前置扬声器和一个后置扬声器存在和/或有效。例如,在这种情况下,可以在前置扬声器上回放原始音频信号。可以在后置扬声器上回放从原始音频信号中导出的环境信号。换言之,可以仅在前置扬声器上将原始单声道音频信号作为单声道信号来回放,而将从原始音频信号中导出的环境信号作为单个后置声道来回放。
然而,在本发明的实施例中,如果存在几个声道,则可以对其进行分别处理。换言之,考虑将原始音频信号的第一声道用于产生第一环境信号,原始音频信号的第二声道用于产生第二环境信号。然后,例如在第一前置扬声器(如左前置扬声器)上回放原始音频信号的第一声道,例如在第二前置扬声器(如右前置扬声器)上回放原始音频信号的第二声道。此外,例如,在第一后置扬声器(如左后置扬声器)上回放第一环境信号,而例如在第二后置扬声器(如右后置扬声器)上回放第二环境信号。
因此,本发明还包括以所描述的方式从两个前置扬声器信号中产生两个后置扬声器信号。
在另外的实施例中,原始音频信号包括三个声道,例如左前置声道、前置中心声道和右前置声道。因此,从原始音频信号的第一声道(例如左前置声道)中获得第一环境信号。从原始音频信号的第二声道(例如前置中心声道)中获得第二环境信号。从原始音频信号的第三声道(例如右前置声道)中(可选地)获得第三环境信号。
然后,将这些环境信号中的两个(例如第一环境信号和第二环境信号)组合(例如通过加权或不加权求和来进行混合或组合)以获得第一环境扬声器信号,将其馈送至第一环境扬声器(如左后置扬声器)。
可选地,此外,将两个另外的环境信号(例如第二环境信号和第三环境信号)组合以获得馈送至第二环境扬声器(如右后置扬声器)的第二环境扬声器信号。
因此,通过环境信号的第一组合来形成第一环境扬声器信号,其中每个环境信号是从原始多声道音频信号的一个声道中来形成的,而通过环境信号的第二组合来形成第二环境扬声器信号。第一组合优选地包括至少两个环境信号,第二组合优选地包括至少两个环境信号。此外,优选地,第一组合与第二组合不同,然而,其中,优选地第一组合和第二组合使用公共的环境信号。
此外,应该注意到,例如如果使用包括侧面扬声器的扬声器布置,则还可将以本发明的方式产生的环境信号馈送至侧面扬声器。因此,在7.1扬声器布置的使用中,可以将环境信号馈送至左侧扬声器。此外,还可将环境信号馈送至右侧扬声器,其中,优选地,馈送至左侧扬声器的环境信号与馈送至右侧扬声器的环境信号不同。
因此,本发明作为一个整体,实现了从单声道信号中特别好地提取环境信号。
参考文献
[1]C.Faller,Pseudostereophony Revisited,Presented at the 118thConvention of the AES,Barcelona,Spain,2005.
[2]R.Dressler,“Dolby Surround Prologic2Decoder-Principles ofoperation”,Tech.Rep.,Dolby Laboratories,http://www.dolby.com/assets/pdf/techlibrary/208 Dolby Surround ProLogic Decoder.pdf,2000.
[3]DTS Technical Stuff,“An overview of DTS NEo:6 multi-channel”,DTS,
http://www.dts.com/media/uploads/pdfs/DTS%20Neo6%20Overview.pdf
[4]Harman Kardon Technical Staff,“Logic 7 explained”,HarmanKardon,
http://manuals.harman.com/HK/Technology%20Articles/logic7-TechShee t.Ddf.
[5]C.Avendano and J.M.Jot,“Ambience Extraction and Synthesis fromStereo Signals for Multi-channel Audio Upmix”,Proc.of IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICAS SP),Orlando,Fl,May 2002.
[6]R.Irwan and R.M.Aarts,“A method to convert stereo tomulti-channel sound”,Presented at the AES 19th InternationalConference,Schloss Elmau,Germany,June 21-24,pages 139-143,2001.
[7]G.Soulodre,“Ambience-Based Upmixing”,Workshop Spatial Codingof Surround Sound:A Progress Report,Presented at the 117th AESconvention,San Francisco,CA,USA,2004.
[8]D.Lee and H.Seung,“Learning the parts of objects by Non-negativeMatrix Factorization”,In Letters To Nature,1999.
[9]A.Cichocki,R.Zdunek,and S.Amari,“New algorithms forNon-negative Matrix Factorization in applications to Blind SourceSeparation”.In Proc.of IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2006.
[10]D.Lee and H.Seung,“Algorithms for Non-negative MatrixFactorization”.In Proceedings of NIPS,2001.
[11]C.Duxbury,M.Davies,M.Sandler,“Separation of transientinformation in musical audio using multiresolution analysis techniques”,in Proceedings of DAFX-01,2001.
[12]M.Goodwin and C.Avendano,“Enhancement of Audio SignalsUsing Transient Detection and Modification”,Presented at the 117th AESconvention,San Francisco,CA,USA,2004.
[13]A.Walther,C.Janssen,J.Herre,and O.Hellmuth“Transientsuppression in ambience-like signals”Patent FPL-Fallnummer:06F47242-IIS.
[14]G.Kendall,“The decorrelation of audio signals and its impact onspatialimagery”,Computer Music Journal,19:4,1995.
[15]C.Faller and F.Baumgarte,“Binaural Cue Coding-Part 2:Schemesand Applications”,IEEE TSAP,2003.
[16]C.Faller,“Parametric coding of spatial audio”,Phd thesis,2004.
[17]M.Schroeder,“An artificial stereophonic effect obtained from usinga single signal”,JAES6:74,1957.
[18]G.Potard and I.Burnett,“Decorrelation techniques for the renderingof apparent sound source width in 3D audio displays”,in Proceedings ofDAFX-04,2004.

Claims (31)

1.用于从音频信号(108;208;308;508)中产生环境信号(132;230、242、252、254;332、336、342;512)的设备(100;200;300;510),包括:
用于对音频信号的表示(308;312;316;x(t);x[n];X(ω,k))进行有损压缩以获得音频信号的压缩的表示(312;222;322;
Figure A200780034829C0002103135QIETU
(ω,k))的装置(110;220;320);
用于计算音频信号的压缩的表示(112;222;322;
Figure A200780034829C0002103135QIETU
(ω,k))和音频信号的表示(308;212;316;X(ω,k))之间的差值,以获得差别表示(122;232;332、336;|A(ω,k)|)的装置(122;230;330);以及
用于使用所述差别表示来提供环境信号(132;242、252、254;336、342;a(t)、a[n])的装置(130、240、340)。
2.根据权利要求1所述的设备(100;200;300;510),其中,用于有损压缩的装置(110;220;320)被配置为对描述音频信号(208;308;x(t);x[m])的谱图的频谱表示(212;312;|X|)进行压缩,以获得音频信号的压缩的频谱表示作为压缩的表示(112;222;322;
Figure A200780034829C0002103135QIETU
)。
3.根据权利要求2所述的设备(100;200;300;510),其中,用于有损压缩的装置(110;220;320)被配置用于:使用描述音频信号的谱图的时频分布矩阵(|X|)作为音频信号(108;208;308;x(t);x[n])的频谱表示(108;212;316;|X|),以及
通过第一近似矩阵(W)和第二近似矩阵(H)的乘积(WH)来近似时频分布矩阵(|X|)。
4.根据权利要求3所述的设备(100;200;300;510),其中,用于有损压缩的装置(110;220;320)被配置用于:使用描述音频信号的谱图的实值时频分布矩阵(|X|)作为音频信号(108;208;308;x(t);x[n])的频谱表示(108;212;316;|X|)。
5.根据权利要求4所述的设备(100;200;300;510),其中,用于有损压缩的装置(110;220;320)被配置用于:使用时频分布矩阵(|X|)作为音频信号(108;208;308;x(t);x[n])的频谱表示(108;212;316;|X|),针对多个时间间隔,所述时频分布矩阵(|X|)中的项(X)描述了音频信号在多个频率域(ω)中的幅度或能量。
6.根据权利要求3至5中任意一项所述的设备(100;200;300;510),其中,用于有损压缩的装置(110;220;320)被配置用于:使用仅包括非负或仅包括非正项的时频分布矩阵(|X|)作为音频信号(108;208;308;x(t);x[n])的频谱表示(108;212;316)。
7.根据权利要求3至6中任意一项所述的设备(100;200;300;510),其中,用于有损压缩的装置(110;220;320)被配置用于:通过第一近似矩阵(W)和第二近似矩阵(H)的乘积(WH)来近似时频分布矩阵(|X|),
使得第一近似矩阵(W)和第二近似矩阵(H)仅具有非负项或仅具有非正项,或者
使得第一近似矩阵(W)仅具有非负项,第二近似矩阵(H)仅具有非正项,或者
使得第一近似矩阵(W)仅具有非正项,第二近似矩阵(H)仅具有非负项。
8.根据权利要求3至7中任意一项所述的设备(100;200;300;510),其中,用于有损压缩的装置(110;220;320)被配置用于:通过评估代价函数(c)来确定第一近似矩阵(W)中的项与第二近似矩阵(H)中的项,所述代价函数(c)包括对一方面时频分布矩阵(|X|)与另一方面第一近似矩阵(W)和第二近似矩阵(H)的乘积(WH)之间的差值的定量描述。
9.根据权利要求8所述的设备(100;200;300;510),其中,用于有损压缩的装置(110;220;320)被配置用于:使用确定代价函数(c)的极值的方法,或使用对代价函数(c)的极值进行近似的方法来确定第一近似矩阵(W)和第二近似矩阵(H)中的项。
10.根据权利要求8或9所述的设备(100;200;300;510),其中,所述代价函数(c)被选择为使得代价函数(c)包括以下部分:所述部分取决于一方面时频分布矩阵中的项(|X|ij)与另一方面第一近似矩阵(W)和第二近似矩阵(H)的乘积(WH)中的项((WH)ij)之间的差值的符号。
11.根据权利要求8、9或10所述的设备(100;200;300;510),其中,用于有损压缩的装置中的代价函数(c)或边界条件被选择为使得在一方面时频分布矩阵中的项(|X|ij)与另一方面第一近似矩阵(W)和第二近似矩阵(H)的乘积(WH)中的项((WH)ij)之间的差值中,具有第一符号的值与具有其反转符号的值相比优选出现。
12.根据权利要求8至11中任意一项所述的设备(100;200;300、510),其中,所述代价函数(c)被配置用于:确定在一方面时频分布矩阵(|X|)与另一方面第一近似矩阵(W)和第二近似矩阵(H)的乘积(WH)之间的逐元素差值的Frobenius范数。
13.根据权利要求8至11中任意一项所述的设备(100;200;300、510),其中,所述代价函数(c)被配置用于:确定在一方面时频分布矩阵(|X|)与另一方面第一近似矩阵(W)和第二近似矩阵(H)的乘积(WH)之间的逐元素差值的广义Kullback-Leibler散度。
14.根据权利要求3至13中任意一项所述的设备(100;200;300、510),其中,所述时频分布矩阵(|X|)包括相关联的第一矩阵维度n和相关联的第二矩阵维度m;
其中,第一近似矩阵(W)包括相关联的第一矩阵维度n和相关联的第二矩阵维度r;
其中,第二近似矩阵(H)包括相关联的第一矩阵维度r和相关联的第二矩阵维度m;以及
其中,以下为真:
(n+m)r<nm。
15.根据权利要求3至14中任意一项所述的设备(100;200;300、510),其中,用于计算差值的装置(120;230;330)被配置用于:导出近似误差矩阵(|A|),使得所述近似误差矩阵(|A|)中的项(A)是一方面时频分布矩阵(|X|)中的元素和另一方面第一近似矩阵(W)和第二近似矩阵(H)的乘积(WH)中的元素((WH)ij)之间的差值的函数;
其中,所述近似误差矩阵(|A|)形成差别表示(122;232;332)。
16.根据权利要求15所述的设备(100;200;300;510),其中,用于计算差值的装置(120;230;330)被配置用于:在计算近似误差矩阵(|A|)中的给定项(|A|ij)时,确定一方面时频分布矩阵(|X|)中与给定项(|A|ij)相关联的项(|X|ij)与另一方面第一近似矩阵(W)和第二近似矩阵(H)的乘积(WH)中与给定项(|X|ij)相关联的项((WH)ij)之间的差值,并通过根据所述差值的符号对所述差值进行加权,将近似误差矩阵(|A|)中的给定项(|A|ij)计算为所述差值的函数。
17.根据权利要求15所述的设备(100;200;300;510),其中,用于计算差值的装置(120;230;330)被配置用于:在计算近似误差矩阵(|A|)中的给定项(|A|ij)时,确定一方面时频分布矩阵(|X|)中与给定项(|A|ij)相关联的项(|X|ij)与另一方面第一近似矩阵(W)和第二近似矩阵(H)的乘积(WH)中使用加权因子(ξ)进行加权的项((WH)ij)之间的差值,其中,所述加权因子(ξ)不等于与给定项(|A|ij)相关联的加权因子,以及
将近似误差矩阵(|A|)中的给定项(|A|ij)确定为所述差值的幅度。
18.根据权利要求3至17中任意一项所述的设备(100;200;300;510),其中,用于计算音频信号(108;208;308)的压缩的表示(112;222;322;)与音频信号的表示(108;212;316;|X|)之间的差值的装置(120;230;330)被配置用于使用实值量度量(|A|)来描述所述差值;以及
其中,用于提供环境信号(132;242;336;352、254;342)的装置(130;240;334)被配置用于:将从音频信号的表示(108;212;312)中导出的相位值(φ)分配给由实值量度量(|A|)所描述的、音频信号的压缩的表示与音频信号的表示之间的差值,以获得环境信号。
19.根据权利要求18所述的设备(100;200;300;510),其中,用于提供的装置(130;240;334)被配置用于:将在时频分布矩阵(X)中获得的相位值(φ)分配给由实值量度量(|A|)所描述的差值。
20.用于从音频信号(508)中导出多声道音频信号的设备(500),所述多声道音频信号包括前置扬声器信号(562、564、566)和后置扬声器信号(542、544),所述设备(500)包括:
根据权利要求1至19中任意一项所述的用于从音频信号(508)中产生环境信号(512)的设备(100;200;300;510),
其中,用于产生环境信号(512)的设备(510)被配置用于接收音频信号(508);
用于提供音频信号(508)或从所述音频信号(508)中导出的信号作为前置扬声器信号(563、564、566)的设备(550,560);以及
后置扬声器信号提供设备(520、530、540),用于提供由用于产生环境信号(512)的设备(510)提供的环境信号(512)或从所述环境信号(512)中导出的信号作为后置扬声器信号(542、544)。
21.根据权利要求20所述的设备(500),其中,后置扬声器信号提供设备(520、530、540)被配置用于:产生后置扬声器信号(542、544),使得与前置扬声器信号(562、564、566)相比,所述后置扬声器信号延迟1毫秒至50毫秒的范围内。
22.根据权利要求20或21所述的设备(500),其中,后置扬声器信号提供设备(520、530、540)被配置用于:衰减后置扬声器信号(542、544)中类似脉冲的信号部分,或从后置扬声器信号(542、544)中去除类似脉冲的信号部分。
23.根据权利要求20至22中任意一项所述的设备(500),其中,后置扬声器信号提供设备(520、530、540)被配置用于:基于由用于产生环境信号(512)的设备(510)提供的环境信号,提供第一后置扬声器的第一后置扬声器信号(542)以及第二后置扬声器的第二后置扬声器信号(544)。
24.根据权利要求23所述的设备(500),其中,后置扬声器信号提供设备(520、530、540)被配置用于:基于环境信号(512)来提供第一后置扬声器信号(542)和第二后置扬声器信号(544),使得第一后置扬声器信号和第二后置扬声器信号相互之间至少部分解相关。
25.用于从音频信号(108;208;308)中产生环境信号(132;242;252;254;336;342)的方法(600),包括:
对音频信号的表示(108;212;316)进行有损压缩(610),以获得音频信号的压缩的表示(112;222;322);
计算(620)音频信号的压缩的表示与音频信号的表示之间的差值(122;232;332),以获得差别表示(122;232;332);以及
使用差别表示来提供(630)环境信号。
26.用于从音频信号中导出多声道音频信号的方法,所述多声道音频信号包括前置扬声器信号和后置扬声器信号,所述方法包括:
根据权利要求25来从音频信号中产生环境信号;
提供音频信号或由其导出的信号作为前置扬声器信号;以及
提供环境信号或由其导出的信号作为后置扬声器信号。
27.用于从音频信号(508)中导出多声道音频信号的设备(500),所述多声道音频信号包括前置扬声器信号(562、564、566)和后置扬声器信号(542、544),所述设备(500)包括:
用于从音频信号(508)中产生环境信号(512)的设备(100;200;300;510),
其中,用于从音频信号(108;208;308;508)中产生环境信号(132;230、242、252、254;332、336、342;512)的设备(100;200;300;510)包括:
用于对音频信号的表示(308;312;316;x(t);x[n];X(ω,k))进行有损压缩以获得音频信号的压缩的表示(312;222;322;(ω,k))的装置(110;220;320);以及
用于计算音频信号的压缩的表示(112;222;322;(ω,k))和音频信号的表示(308;212;316;X(ω,k))之间的差值,以获得差别表示(122;232;332,336;|A(ω,k)|)的装置(122;230;330),
描述音频信号的表示与音频信号的压缩的表示之间的差值,以及
描述音频信号中那些在有损压缩方式的表示中未回放的部分,以及
其中,用于有损压缩的装置被配置为使得展现能量的规则分布的信号部分或携带大信号能量的信号部分优选地包括在压缩的表示中;
其中,所述差别表示形成环境信号,
用于提供音频信号(508)或从音频信号(508)中导出的信号作为前置扬声器信号(563、564、566)的设备(550、560);以及
后置扬声器信号提供设备(520、530、540),用于提供由用于产生环境信号(512)的设备(510)提供的环境信号(512)或从所述环境信号(512)中导出的信号作为后置扬声器信号(542、544)。
28.用于从音频信号(508)中导出多声道音频信号的设备(500),所述多声道音频信号包括前置扬声器信号(562、564、566)和后置扬声器信号(542、544),所述设备(500)包括:
用于从音频信号(508)中产生环境信号(512)的设备(100;200;300;510),
其中,用于从音频信号(108;208;308;508)中产生环境信号(132;230、242、252、254;332、336、342;512)的设备(100;200;300;510)包括:
用于对音频信号的表示(308;312;316;x(t);x[n];X(ω,k))进行有损压缩以获得音频信号的压缩的表示(312;222;322;(ω,k))的装置(110;220;320);以及
用于计算音频信号的压缩的表示(112;222;322;(ω,k))和音频信号的表示(308;212;316;X(ω,k))之间的差值,以获得差别表示(122;232;332,336;|A(ω,k)|)的装置(122;230;330),
描述音频信号的表示与音频信号的压缩的表示之间的差值,以及
描述音频信号中那些在有损压缩方式的表示中未回放的部分,以及
用于使用所述差别表示来提供环境信号(132;242、252、254;336、342;a(t)、a[n])的装置(130、240、340),
其中,用于有损压缩的装置被配置为使得展现能量的规则分布的信号部分或携带大信号能量的信号部分优选地包括在压缩的表示中;
其中,用于产生环境信号(512)的设备(510)被配置用于接收音频信号(508);
用于提供音频信号(508)或从所述音频信号(508)中导出的信号作为前置扬声器信号(563、564、566)的设备(550,560);以及
后置扬声器信号提供设备(520、530、540),用于提供由用于产生环境信号(512)的设备(510)提供的环境信号(512)或从所述环境信号(512)中导出的信号作为后置扬声器信号(542、544)。
29.用于从音频信号中导出多声道音频信号的方法,所述多声道音频信号包括前置扬声器信号和后置扬声器信号,所述方法包括:
从音频信号中产生环境信号,其中,从音频信号中产生环境信号包括:
对音频信号的表示(108;212;316)进行有损压缩(610),以获得音频信号的压缩的表示(112;222;322);以及
计算(620)音频信号的压缩的表示与音频信号的表示之间的差值(122;232;332),以获得形成环境信号的差别表示(122;232;332),
其中,所述差别表示描述了音频信号的表示与音频信号的压缩的表示之间的差值,以及
其中,所述差别表示描述了音频信号中那些在有损压缩方式的表示中未回放的部分,以及
其中,执行有损压缩,使得展现能量的规则分布的信号部分或携带大信号能量的信号部分优选地包括在压缩的表示中;
提供音频信号或由其导出的信号作为前置扬声器信号;以及
提供环境信号或由其导出的信号作为后置扬声器信号。
30.用于从音频信号中导出多声道音频信号的方法,所述多声道音频信号包括前置扬声器信号和后置扬声器信号,所述方法包括:
从音频信号中产生环境信号,其中,从音频信号中产生环境信号包括:
对音频信号的表示(108;212;316)进行有损压缩(610),以获得音频信号的压缩的表示(112;222;322);
计算(620)音频信号的压缩的表示与音频信号的表示之间的差值(122;232;332),以获得差别表示(122;232;332);以及
使用差别表示来提供(630)环境信号
其中,所述差别表示描述了音频信号的表示与音频信号的压缩的表示之间的差值,以及
其中,所述差别表示描述了音频信号中那些在有损压缩方式的表示中未回放的部分,以及
其中,执行有损压缩,使得展现能量的规则分布的信号部分或携带大信号能量的信号部分优选地包括在压缩的表示中;
提供音频信号或由其导出的信号作为前置扬声器信号;以及
提供环境信号或由其导出的信号作为后置扬声器信号。
31.计算机程序,当所述计算机程序在计算机上运行时,执行根据权利要求25或26或29或30所述的方法。
CN2007800348291A 2006-10-24 2007-10-23 用于从音频信号中产生环境信号的设备和方法和用于从音频信号中导出多声道音频信号的设备和方法 Active CN101536085B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102006050068.7 2006-10-24
DE102006050068A DE102006050068B4 (de) 2006-10-24 2006-10-24 Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
PCT/EP2007/009197 WO2008049587A1 (en) 2006-10-24 2007-10-23 Apparatus and method for generating an ambient signal from an audio signal, apparatus and method for deriving a multi-channel audio signal from an audio signal and computer program

Publications (2)

Publication Number Publication Date
CN101536085A true CN101536085A (zh) 2009-09-16
CN101536085B CN101536085B (zh) 2012-01-25

Family

ID=38988087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800348291A Active CN101536085B (zh) 2006-10-24 2007-10-23 用于从音频信号中产生环境信号的设备和方法和用于从音频信号中导出多声道音频信号的设备和方法

Country Status (13)

Country Link
US (1) US8346565B2 (zh)
EP (2) EP1997102B1 (zh)
JP (1) JP5048777B2 (zh)
KR (1) KR101090565B1 (zh)
CN (1) CN101536085B (zh)
AU (1) AU2007308413B2 (zh)
CA (1) CA2664163C (zh)
DE (1) DE102006050068B4 (zh)
ES (2) ES2461191T3 (zh)
HK (2) HK1122391A1 (zh)
PL (2) PL1997102T3 (zh)
TW (1) TWI352971B (zh)
WO (1) WO2008049587A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104240711A (zh) * 2013-06-18 2014-12-24 杜比实验室特许公司 自适应音频内容生成
CN105230044A (zh) * 2013-03-20 2016-01-06 诺基亚技术有限公司 空间音频装置
CN105766002A (zh) * 2013-11-14 2016-07-13 弗劳恩霍夫应用研究促进协会 用于对区域的声场数据进行压缩和解压缩的方法和装置
CN109597342A (zh) * 2019-01-16 2019-04-09 郑州轻工业学院 一种动态组网智能辨识的采砂船监测装置及方法

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2097895A4 (en) 2006-12-27 2013-11-13 Korea Electronics Telecomm DEVICE AND METHOD FOR ENCODING AND DECODING MULTI-OBJECT AUDIO SIGNAL WITH DIFFERENT CHANNELS WITH INFORMATION BIT RATE CONVERSION
US20080228470A1 (en) * 2007-02-21 2008-09-18 Atsuo Hiroe Signal separating device, signal separating method, and computer program
US20100250260A1 (en) * 2007-11-06 2010-09-30 Lasse Laaksonen Encoder
KR101238239B1 (ko) * 2007-11-06 2013-03-04 노키아 코포레이션 인코더
EP2220646A1 (en) * 2007-11-06 2010-08-25 Nokia Corporation Audio coding apparatus and method thereof
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
CN102246543B (zh) 2008-12-11 2014-06-18 弗兰霍菲尔运输应用研究公司 产生多信道音频信号的装置
US8781818B2 (en) * 2008-12-23 2014-07-15 Koninklijke Philips N.V. Speech capturing and speech rendering
JP5730881B2 (ja) * 2009-10-09 2015-06-10 ディーティーエス・インコーポレイテッドDTS,Inc. 録音の適応的ダイナミックレンジ強化
WO2011060816A1 (en) * 2009-11-18 2011-05-26 Nokia Corporation Data processing
WO2011090437A1 (en) * 2010-01-19 2011-07-28 Nanyang Technological University A system and method for processing an input signal to produce 3d audio effects
TWI444989B (zh) * 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
US9313598B2 (en) 2010-03-02 2016-04-12 Nokia Technologies Oy Method and apparatus for stereo to five channel upmix
US9219972B2 (en) * 2010-11-19 2015-12-22 Nokia Technologies Oy Efficient audio coding having reduced bit rate for ambient signals and decoding using same
US20120316886A1 (en) * 2011-06-08 2012-12-13 Ramin Pishehvar Sparse coding using object exttraction
EP2544465A1 (en) 2011-07-05 2013-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral weights generator
US9532157B2 (en) 2011-12-23 2016-12-27 Nokia Technologies Oy Audio processing for mono signals
BR112015005456B1 (pt) 2012-09-12 2022-03-29 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Aparelho e método para fornecer capacidades melhoradas de downmix guiado para áudio 3d
CA2903900C (en) * 2013-03-05 2018-06-05 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for multichannel direct-ambient decomposition for audio signal processing
EP2830336A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Renderer controlled spatial upmix
JP6242489B2 (ja) * 2013-07-29 2017-12-06 ドルビー ラボラトリーズ ライセンシング コーポレイション 脱相関器における過渡信号についての時間的アーチファクトを軽減するシステムおよび方法
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
US10002622B2 (en) * 2013-11-20 2018-06-19 Adobe Systems Incorporated Irregular pattern identification using landmark based convolution
WO2015123658A1 (en) 2014-02-14 2015-08-20 Sonic Blocks, Inc. Modular quick-connect a/v system and methods thereof
BR112017001382B1 (pt) * 2014-07-22 2022-02-08 Huawei Technologies Co., Ltd Aparelho e método para manipular um sinal de áudio de entrada
EP2980789A1 (en) * 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
US9576583B1 (en) * 2014-12-01 2017-02-21 Cedar Audio Ltd Restoring audio signals with mask and latent variables
CN107112979B (zh) * 2014-12-03 2020-11-06 瑞内特有限公司 具有在高解析音频的前响应频率下的群延迟的非线性滤波器
JP6519959B2 (ja) * 2017-03-22 2019-05-29 カシオ計算機株式会社 操作処理装置、再生装置、操作処理方法およびプログラム
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
CN117953905A (zh) * 2018-12-07 2024-04-30 弗劳恩霍夫应用研究促进协会 从包括至少一个声道的信号产生声场描述的装置、方法
US11579838B2 (en) 2020-11-26 2023-02-14 Verses, Inc. Method for playing audio source using user interaction and a music application using the same
KR102331274B1 (ko) * 2020-11-26 2021-12-01 주식회사 버시스 사용자의 인터랙션을 이용한 오디오 소스 재생 방법 및 이를 이용한 음악 어플리케이션
US11432078B1 (en) 2021-03-09 2022-08-30 Listen and Be Heard LLC Method and system for customized amplification of auditory signals providing enhanced karaoke experience for hearing-deficient users
US11575998B2 (en) 2021-03-09 2023-02-07 Listen and Be Heard LLC Method and system for customized amplification of auditory signals based on switching of tuning profiles

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE467332B (sv) 1990-06-21 1992-06-29 Ericsson Telefon Ab L M Foerfarande foer effektreglering i ett digitalt mobiltelefonisystem
UA51671C2 (uk) 1995-09-02 2002-12-16 Нью Транзд'Юсез Лімітед Акустичний пристрій
TW411723B (en) * 1996-11-15 2000-11-11 Koninkl Philips Electronics Nv A mono-stereo conversion device, an audio reproduction system using such a device and a mono-stereo conversion method
US6229453B1 (en) 1998-01-26 2001-05-08 Halliburton Energy Services, Inc. Method to transmit downhole video up standard wireline cable using digital data compression techniques
US7076071B2 (en) * 2000-06-12 2006-07-11 Robert A. Katz Process for enhancing the existing ambience, imaging, depth, clarity and spaciousness of sound recordings
JP3960932B2 (ja) * 2002-03-08 2007-08-15 日本電信電話株式会社 ディジタル信号符号化方法、復号化方法、符号化装置、復号化装置及びディジタル信号符号化プログラム、復号化プログラム
US7257231B1 (en) * 2002-06-04 2007-08-14 Creative Technology Ltd. Stream segregation for stereo signals
JP2005004119A (ja) * 2003-06-16 2005-01-06 Victor Co Of Japan Ltd 音響信号符号化装置及び音響信号復号化装置
US7738881B2 (en) 2003-07-22 2010-06-15 Microsoft Corporation Systems for determining the approximate location of a device from ambient signals
US7672834B2 (en) * 2003-07-23 2010-03-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting and temporally relating components in non-stationary signals
US7412380B1 (en) * 2003-12-17 2008-08-12 Creative Technology Ltd. Ambience extraction and modification for enhancement and upmix of audio signals
CN1677491A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
JP3916087B2 (ja) * 2004-06-29 2007-05-16 ソニー株式会社 疑似ステレオ化装置
US7876909B2 (en) * 2004-07-13 2011-01-25 Waves Audio Ltd. Efficient filter for artificial ambience
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
CA2595625A1 (en) * 2005-01-24 2006-07-27 Thx, Ltd. Ambient and direct surround sound system
JP5191886B2 (ja) * 2005-06-03 2013-05-08 ドルビー ラボラトリーズ ライセンシング コーポレイション サイド情報を有するチャンネルの再構成
US7965848B2 (en) * 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
US9088855B2 (en) * 2006-05-17 2015-07-21 Creative Technology Ltd Vector-space methods for primary-ambient decomposition of stereo audio signals

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105230044A (zh) * 2013-03-20 2016-01-06 诺基亚技术有限公司 空间音频装置
CN104240711A (zh) * 2013-06-18 2014-12-24 杜比实验室特许公司 自适应音频内容生成
CN105766002A (zh) * 2013-11-14 2016-07-13 弗劳恩霍夫应用研究促进协会 用于对区域的声场数据进行压缩和解压缩的方法和装置
CN109597342A (zh) * 2019-01-16 2019-04-09 郑州轻工业学院 一种动态组网智能辨识的采砂船监测装置及方法
CN109597342B (zh) * 2019-01-16 2020-10-20 郑州轻工业学院 一种动态组网智能辨识的采砂船监测装置及方法

Also Published As

Publication number Publication date
HK1176156A1 (zh) 2013-07-19
CA2664163A1 (en) 2008-05-02
TWI352971B (en) 2011-11-21
KR20090042856A (ko) 2009-04-30
DE102006050068B4 (de) 2010-11-11
EP2500900A1 (en) 2012-09-19
JP5048777B2 (ja) 2012-10-17
PL1997102T3 (pl) 2012-11-30
AU2007308413B2 (en) 2010-08-26
WO2008049587A1 (en) 2008-05-02
EP1997102A1 (en) 2008-12-03
EP2500900B1 (en) 2014-04-02
US8346565B2 (en) 2013-01-01
ES2391308T3 (es) 2012-11-23
CA2664163C (en) 2013-07-16
ES2461191T3 (es) 2014-05-19
AU2007308413A1 (en) 2008-05-02
JP2010507943A (ja) 2010-03-11
HK1122391A1 (en) 2009-05-15
PL2500900T3 (pl) 2014-08-29
DE102006050068A1 (de) 2008-06-19
WO2008049587A8 (en) 2009-04-09
EP1997102B1 (en) 2012-07-25
CN101536085B (zh) 2012-01-25
US20100030563A1 (en) 2010-02-04
TW200837718A (en) 2008-09-16
KR101090565B1 (ko) 2011-12-08

Similar Documents

Publication Publication Date Title
CN101536085B (zh) 用于从音频信号中产生环境信号的设备和方法和用于从音频信号中导出多声道音频信号的设备和方法
US11621006B2 (en) Parametric joint-coding of audio sources
CN101410889B (zh) 对作为听觉事件的函数的空间音频编码参数进行控制
RU2568926C2 (ru) Устройство и способ извлечения прямого сигнала/сигнала окружения из сигнала понижающего микширования и пространственной параметрической информации
EP1706865B1 (en) Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US8107631B2 (en) Correlation-based method for ambience extraction from two-channel audio signals
Avendano et al. A frequency-domain approach to multichannel upmix
CN102348158B (zh) 用于确定空间输出多声道音频信号的装置
EP2671222B1 (en) Determining the inter-channel time difference of a multi-channel audio signal
CN101816191B (zh) 用于提取环境信号的装置和方法
CN101981811B (zh) 音频信号的自适应主体-环境分解
CN102892070A (zh) 多声道下混对象编码的增强编码和参数表示
TW201234871A (en) Apparatus and method for decomposing an input signal using a downmixer
EP2489036B1 (en) Method, apparatus and computer program for processing multi-channel audio signals
Kraft et al. Low-complexity stereo signal decomposition and source separation for application in stereo to 3D upmixing
Cheng Spatial squeezing techniques for low bit-rate multichannel audio coding
Jiang et al. Multi-channel audio compression method based on ITU-T G. 719 codec
WO2017188141A1 (ja) オーディオ信号処理装置、オーディオ信号処理方法、およびオーディオ信号処理プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant