CN102257563A - 使用相位值平滑对下混频音频信号进行上混频的装置、方法和计算机程序 - Google Patents
使用相位值平滑对下混频音频信号进行上混频的装置、方法和计算机程序 Download PDFInfo
- Publication number
- CN102257563A CN102257563A CN2010800035956A CN201080003595A CN102257563A CN 102257563 A CN102257563 A CN 102257563A CN 2010800035956 A CN2010800035956 A CN 2010800035956A CN 201080003595 A CN201080003595 A CN 201080003595A CN 102257563 A CN102257563 A CN 102257563A
- Authority
- CN
- China
- Prior art keywords
- phase
- smooth
- level
- uppermixing
- phase value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 100
- 238000009499 grossing Methods 0.000 title claims description 49
- 238000000034 method Methods 0.000 title claims description 47
- 238000004590 computer program Methods 0.000 title claims description 17
- 230000008859 change Effects 0.000 claims abstract description 42
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 claims description 8
- 230000005502 phase rule Effects 0.000 claims 2
- 230000006978 adaptation Effects 0.000 claims 1
- 230000000576 supplementary effect Effects 0.000 description 47
- 239000011159 matrix material Substances 0.000 description 31
- 238000005070 sampling Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 22
- 210000005069 ears Anatomy 0.000 description 21
- 230000014509 gene expression Effects 0.000 description 20
- 238000012545 processing Methods 0.000 description 15
- 230000005540 biological transmission Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000011002 quantification Methods 0.000 description 12
- 238000013139 quantization Methods 0.000 description 11
- 230000003595 spectral effect Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 102100026561 Filamin-A Human genes 0.000 description 4
- 101000913549 Homo sapiens Filamin-A Proteins 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000009849 deactivation Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 235000019580 granularity Nutrition 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 208000007138 otopalatodigital syndrome type 1 Diseases 0.000 description 2
- 230000010363 phase shift Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 101100259947 Homo sapiens TBATA gene Proteins 0.000 description 1
- 230000018199 S phase Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Abstract
一种用于将描述一个或多个下混频音频声道的下混频音频信号上混频成描述多个上混频音频声道的上混频音频信号的装置包括:上混频器和参数确定器。上混频器被配置为应用时变上混频参数来对下混频音频信号进行上混频,以便获得上混频音频信号,其中时变上混频参数包括时变平滑的相位值。参数确定器被配置为基于量化上混频参数输入信息,来获得一个或多个时间平滑的上混频参数以供上混频器使用。参数确定器被配置为使用相位改变限制算法将前一平滑的相位值的缩放版本与输入相位信息的缩放版本相组合,以基于前一平滑的相位值和输入相位信息来确定当前平滑的相位值。
Description
技术领域
根据本发明的实施例涉及一种用于对下混频音频信号进行上混频的装置、方法和计算机程序。
根据本发明的一些实施例涉及参数多声道音频编码的自适应相位参数平滑。
背景技术
下面将描述本发明的背景。参数音频编码领域中的新近发展发表了将多声道音频(例如,5.1)信号联合编码成一个(或一个以上)下混频声道加辅助信息流的技术。这些技术被称为双耳提示编码(Binaural CueCoding)、参数立体声、及MPEG环绕等等。
许多出版物描述了所谓的“双耳提示编码”参数多声道编码方法,例如见参考文献[1][2][3][4][5]。
“参数立体声」”是一种基于传输的单声道信号加参数辅助信息的双声道立体声信号的参数编码的相关技术,例如见参考文献[6][7]。
“MPEG环绕”是参数多声道编码的ISO标准,例如见参考文献[8]。
上面提及的技术是基于将压缩形式的人类空间听觉的相关感知提示以及相关联的单声道或立体声下混频信号传输至接收器。典型的提示可以是声道间级差(ILD)、声道间相关或相干(ICC)、以及声道间时间差(ITD)、声道间相位差(IPD)、及总相位差(OPD)。
这些参数在一些情况中以适合于人类听觉分辨率的频率与时间分辨率来传输。
对该传输而言,典型地对这些参数进行量化(或在一些情况中甚至必须被量化),其中经常(尤其是对低比特率情境)使用相当粗略的量化。
时间上的更新间隔由编码器根据信号特性确定。这意味着,并非对下混频信号的每个采样都传输参数。换言之,在一些情况中,描述上面提及的提示的参数的传输速率(或传输频率,或更新速率)可以小于音频采样(或诸组音频采样)的传输速率(或传输频率,或更新速率)。
代替传输声道间相位差(IPD)及总相位差(OPD),仅传输声道间相位差(IPD)并估计解码器中总相位差(OPD)也是可能的。
由于解码器在一些情况中可能必须以无隙方式随时间将参数连续应用于例如每个采样(或音频采样),因此可能需要在解码器侧处得到中间参数,典型地是通过过去与当前参数集的间的内插。
然而,一些传统内插方法导致不良的音频质量。
下面参考图7将描述通用双耳提示编码方案。图7示出了双耳提示编码传输系统800的示意框图,该双耳提示编码传输系统800包含双耳提示编码编码器810及双耳提示编码解码器820。双耳提示编码编码器810可以例如接收多个音频信号812a、812b及812c。进一步地,双耳提示编码编码器810被配置为利用下混频器814来对音频输入信号812a-812c进行下混频以获得下混频信号816,该下混频信号816例如可以是和信号且可被用“AS”或“X”表示。进一步地,双耳提示编码编码器810被配置为利用分析器818来分析音频输入信号812a-812c以获得辅助信息信号819(“SI”)。和信号816及辅助信息信号819自双耳提示编码编码器810传输至双耳提示编码解码器820。双耳提示编码解码器820可被配置为基于和信号816及声道间提示824合成多声道音频输出信号,该多声道音频输入信号例如包含音频声道y1、y2,...yN。为此目的,双耳提示编码解码器820可以包含双耳提示编码合成器822,该双耳提示编码合成器822接收和信号816及声道间提示824并提供音频信号y1、y2,...yN。
双耳提示编码解码器820进一步包含辅助信息处理器826,该辅助信息处理器826被配置为接收辅助信息819,以及可选地接收使用者输入827。该辅助信息处理器826被配置为基于辅助信息819和可选使用者输入827来提供声道间提示824。
总之,对音频输入信号进行分析且下混频。和信号与辅助信息被传输至解码器。声道间提示是由辅助信息及本地使用者输入来产生的。双耳提示编码合成产生多声道音频输出信号。
至于详情请参考C.Faller与F.Baumgarte所著文章“Binaural CueCoding Part II:Schemes and applications,″(出版于:2003年11月第11卷语音与音频处理的IEEE学报)。
然而,已得知的是,如果辅助信息被粗略量化或分辨率不足,许多传统双耳提示编码解码器提供质量劣化的多声道输出音频信号。
鉴于此问题,需要一种将下混频音频信号上混频成上混频的音频信号的改进构思,这在描述上混频信号不同声道中之间的相位关系的辅助信息以相对低分辨率被量化的情况下,减少了听觉印象的降级。
发明内容
根据本发明的实施例建立一种用于将描述了一个或一个以上下混频音频声道的下混频音频信号上混频成描述了多个上混频音频声道的上混频音频信号的装置。该装置包含上混频器,该上混频器被配置为应用时变上混频参数来对下混频信号进行上混频,以便获得上混频音频信号。该时变上混频参数包含时变平滑的相位值。该装置进一步包含参数确定器,该参数确定器被配置为基于量化的上混频参数输入信息来获得一个或一个以上时间平滑的上混频参数,以由该上混频器使用。该参数确定器被配置为利用相位改变限制算法,来将前一平滑的相位值的缩放版本与输入相位信息的缩放版本相组合,以基于该前一平滑的相位值及该输入相位信息来确定当前平滑的相位值。
根据本发明的该实施例是基于下述发现:上混频信号中的可听伪像可以通过利用相位改变限制算法来将前一平滑的相位值的缩放版本与输入相位信息的缩放版本相组合来减少或甚至避免,因为结合相位改变限制算法考虑前一平滑的相位值允许将平滑的相位值的不连续性保持适度地小。后续平滑的相位值的间(例如,前一平滑的相位值与当前平滑的相位值)不连续性的减小相应地有助于避免(或保持足够小)应用了后续相位值(例如,前一平滑的相位值与当前平滑的相位值)的音频信号的部分之间的过渡的可听频率变化。
综上所述,本发明建立参数多声道音频编码的自适应相位处理的一般性概念。根据本发明的实施例通过减少由粗略量化或快速改变相位参数而引起的输出信号中的伪像取代其它技术。
在优选实施例中,参数确定器被配置为将前一平滑的相位值的缩放版本与输入相位信息的缩放版本相组合,使得当前平滑的相位值在第一角度区域与一第二角度区域中的较小角度区域中,其中第一角度区域沿着数学正方向从前一平滑的相位值所定义的第一开始方向延伸至相位输入信息所定义的第一结束方向,其中第二角度区域沿着数学正方向从输入相位信息所定义的一第二开始方向延伸至前一平滑的相位值所定义的第二结束方向。因此,在本发明的一些实施例中,由相位值的递归(无限脉冲响应型)平滑而引入的相位变化保持尽可能小。因此,可听伪像保持尽可能小。例如,装置可以被配置为确保当前平滑的相位值置于两角度范围中的较小角度范围中,其中该两角度范围中的第一角度范围覆盖大于180°及其中该角度范围中的第二角度范围覆盖小于180°,两个角度范围共同覆盖360°。因此,相位改变限制算法确保了前一平滑化的相位值与当前平滑的相位值之间的相位差小于180°,优选地甚至小于90°。这有助于保持可听伪像尽可能小。
在优选实施例中,参数确定器被配置为根据相位输入信息与前一平滑的相位值之间的差值,从多个不同组合规则中选择组合规则,并利用选定的组合规则来确定该当前平滑的相位值。因此,可以实现的是选择适当的组合规则,这确保了前一平滑化相位值与当前平滑的相位值之间的相位改变小于预定阈值、或更概括而言足够地小或尽可能小。因此,本发明装置胜过类似具有固定组合规则的类似装置。
在优选实施例中,参数确定器被配置为如果相位输入信息与前一平滑的相位值之间的差值在-π与+π的范围内,则选择基本组合规则,否则选择一个或一个以上不同的相位适应组合规则。基本组合规则定义了相位输入信息的缩放版本与前一平滑化相位值的缩放版本的线性组合,而无需恒定被加数。一个或一个以上相位适应组合规则考虑了恒定相位适应被加数,定义了输入相位信息的缩放版本与前一平滑的相位值的缩放版本线性组合。因此,可以执行前一平滑的相位值与输入相位信息的有利且易于实施的线性组合,其中如果前一平滑的相位值与输入相位信息之间的差值取相对大的值(大于π或小于-π),则可以选择性地应用附加的被加数。因此,前一平滑的相位值与输入相位信息之间的差值大的问题情况可用特定适宜的相位适应组合规则来处理,该特定适宜的相位适应组合规则允许保持后续平滑的相位值之间的相位改变足够小。
在优选实施例中,该参数确定器包含平滑控制器,其中该平滑控制器被配置为,在平滑的相位量与对应的输入相位量之间的差值大于预定阈值的情况下,选择性地禁用相位值平滑功能。因此,如果存在较大的输入相位信息改变,则可以禁用相位值平滑功能。典型地,输入相位信息的极大改变表示的是,确实期望执行非平滑的相位改变,因为输入相位信息的相当大的改变(显著大于量化步骤)通常与音频信号内的特定声音事件有关。因此,在大部分情况下改进听觉印象的对相位值的平滑在此特定情况中是有害的。因此,该听觉印象甚至可以通过选择性地禁用相位值平滑功能来改进。
在优选实施例中,平滑控制器被配置为对两个平滑的相位值之间的差值进行评估作为该平滑的相位量,并且对与这两个平滑的相位值相对应的两个输入相位值之间的差值进行评估,作为对应的输入相位量。已经发现,在一些情况中,与多声道音频信号的不同(上混频)声道相关联的相位值之间的差值是判定应当启用还是禁用相位值平滑功能的特别有意义的量。
在优选实施例中,上混频器被配置为,如果平滑化功能(或相位值平滑功能)被启用,则对于指定时间部分应用由不同平滑的相位值定义的不同时间上平滑的相位旋转,来获得具有声道间相位差的上混频音频声道的信号,并且如果平滑功能(或相位值平滑功能)被禁用,则应用由不同非平滑相位值定义的时间上非平滑的相位旋转,来获得具有声道间相位差的不同上混频音频声道的信号。在此情况中,参数确定器包含平滑控制器,平滑控制器被配置为,如果平滑的相位值之间的差值与非平滑的声道间相位差值存在差异且该差异超过预定阈值,则选择性地禁用相位值平滑功能,平滑的相位值被应用于获得不同上混频音频声道的信号,非平滑的声道间相位差值由所述装置接收或由所述装置从接收到的信息中导出。已经发现,如果声道间相位差值被评估为用于激活和去激活相位值平滑功能的准则,则相位值平滑功能的选择性去激活就提高听觉印象而言是特别有用的。
在优选实施例中,参数确定器被配置为,根据平滑的相位值与对应的输入相位值之间的当前差值,来调整滤波器时间常数,以确定平滑相位值序列。通过调整滤波器时间常数可以实现的是,非常大的输入相位值改变获得足够小的稳定时间(settling time),而对输入相位值的较低或中等改变保持充分良好的平滑特性。此功能带来了特别的好处,因为输入相位值的相当小的(或至多中等规模的)改变通常是由量化粒度引起。换言之,由量化粒度引起的输入相位值的逐步改变可以造成有效的平滑操作。在这种情况中,平滑功能特别有利,其中,相对长的滤波器时间常数带来良好结果。相反,显著大于量化步骤的非常大的输入相位值改变典型地对应于期望的较大相位值改变。在此情况中,相对短的滤波器时间常数带来良好结果。因此,通过根据平滑的相位值与对应的输入相位值之间的当前差值,来调整滤波器时间常数可达到的是,输入相位值的有意较大改变造成平滑的相位值的快速改变,而取量化步骤的规模的输入相位值的相对小的改变造成平滑相位值的相对慢且平滑的过渡。因此,对于期望相位值的有意、较大改变以及对于期望相位值的较小改变(然而可以由一个量化步骤引起该输入相位值的改变)皆达到良好的听觉印象。
在优选实施例中,参数确定器被配置为根据平滑声道间相位差与非平滑声道相位差之间的差值,来调整滤波器时间常数以确定平滑相位值序列,平滑声道间相位差由与上混频音频信号的不同声道相关联的两个平滑的相位值之间的差值来定义,非平滑声道相位差由非平滑声道间相位差信息来定义。已经发现,选择性地调整滤波器时间常数的构想可以有利地结合声道间相位差的处理来使用。
在优选实施例中,用于上混频的装置被配置为根据从音频比特流中提取的信息,选择性地启用或禁用相位值平滑功能。已经发现,听觉印象的改进可以通过在音频编码器的控制下提供选择性启用或禁用音频解码器内的相位值平滑功能的可能性来获得。
根据本发明的实施例建立一种实施上面所讨论用于将下混频音频信号上混频成上混频音频信号的装置的功能的方法。所述方法基于与所讨论装置的相同构想。
此外,根据本发明的实施例建立一种用于执行所述方法的计算机程序。
附图说明
参考附图随后将描述根据本发明的实施例,在附图中:
图1示出了根据本发明实施例的用于对下混频音频信号进行上混频的装置示意框图;
图2a和2b示出了根据本发明另一实施例的用于对下混频音频信号进行上混频的装置的示意框图;
图3示出了总相位差OPD1、OPD2和声道间相位差IPD的示意图;
图4a和4b示出了相位改变限制算法的第一种情况的相位关系的图示;
图5a和5b示出了相位改变限制算法的第二种情况的相位关系的图示;
图6示出了根据本发明实施例的用于将下混频音频信号上混频成上混频音频信号的方法的流程图;
图7示出了表示通用双耳提示编码方案的示意框图。
具体实施方式
1.根据图1的实施例
图1示出了根据本发明实施例的用于对下混频音频信号进行上混频的装置100的示意框图。装置100被配置为接收对一个或一个以上下混频音频声道加以描述的下混频音频信号110,并且提供对多个上混频音频声道加以描述的上混频音频信号120。装置100包含上混频器130,该上混频器130被配置为应用时变上混频参数来对下混频音频信号进行上混频,以便获得上混频的音频信号120。装置100还包含参数确定器140,该参数确定器140被配置为接收量化的上混频参数输入信息142。参数确定器140被配置为基于量化的上混频参数输入信息142来获得一个或一个以上时间上平滑的上混频参数144以供上混频器130使用。
参数确定器140被配置为利用相位改变限制算法146,将前一平滑的相位值的缩放版本与包括在量化的上混频参数输入信息142中的输入相位信息142a的缩放版本相组合,以基于前一平滑的相位值和该输入相位信息142来确定当前平滑的相位值144a。该当前平滑的相位值144a包括在时变平滑的上混频参数144中。
下面将说明有关装置100的功能的一些细节。下混频音频信号110例如以复值集合序列的形式被输入至上混频器130中,该复值集合序列表示时频域(描述在由此处未示出的编码器确定的更新速率下的交叠与非交叠频带或频率子带)中的下混频音频信号。上混频器130被配置为根据时变、平滑的上混频参数来将下混频音频信号110的多个声道线性组合,及/或将下混频音频信号110的声道与辅助信号(例如,去相关信号)线性组合(其中该辅助信号可以从下混频音频信号110的当前音频声道、下混频音频信号110的一个或一个以上其它音频声道、或下混频音频信号110的音频声道的组合中获得)。因此,上混频器130可以使用时变平滑的上混频参数144,基于下混频音频信号110来判定在产生上混频音频信号120(或其声道)中所使用的幅度缩放和/或相位旋转(或时间延迟)。
参数确定器140典型地被配置为以等于(或在一些情况中高于)量化的上混频参数输入信息142所描述的辅助信息的更新速率来提供时变、平滑的上混频参数144。参数确定器140可以被配置为避免(或至少减小)由量化的上混频参数输入信息142的粗略(比特率节省)量化而引起的伪像。为此目的,参数确定器140可以对例如描述声道间相位差的相位信息应用平滑。该对包括在量化的上混频参数输入信息142中的输入相位信息142a的平滑是利用相位改变限制算法143来执行的,使得避免了会造成可听伪像的相位的较大且突然的改变(或至少被限制到可容忍的程度)。
优选地,通过将前一平滑的相位值与输入相位信息142a的值相结合来执行平滑,使得当前平滑化的相位值依赖于前一平滑的相位值和输入相位信息142a的当前值。如此,可以利用简单结构的平滑算法来获得特定的平滑过渡。换言之,有限脉冲响应平滑的缺点可以通过提供考虑了前一平滑化相位值的无限脉冲响应型平滑来避免。
可选地,参数确定器140可以包含附加的内插功能,如果量化的上混频参数输入信息142以相对长的时间间隔来传输(例如,每组下混频音频信号110的频谱值不到一次),则该内插功能是有利的。
总之,装置100允许基于量化的上混频参数输入信息142提供时变平滑的相位值144a,使得时变平滑的相位值144a非常适合于利用上混频器130从下混频音频信号中导出上混频音频信号120。
利用上面讨论构思来提供平滑的相位值144减小了(或甚至消除)可听伪像,其中对前一平滑的相位值的考虑与相位改变限制结合。因此,实现上混频音频信号120的良好听觉效果。
2.根据图2的实施例
2.1.图2的实施例的概述
参考图2a和2b将描述有关用于对音频信号进行上混频的装置的结构和操作的进一步细节。图2a和2b示出了根据本发明另一实施例的用于对下混频音频信号进行混频的装置200的详细示意性框图。
装置200可以被视作用于基于下混频音频信号210和辅助信息SI产生多声道(例如,5.1)音频信号的解码器。装置200实现了关于装置100而描述的功能。
装置200可以例如服务对根据所谓的“双耳提示编码”、所谓的“参数立体声”或所谓的“MPEG环绕”而编码的多声道音频信号。自然地,装置200可以类似地用于对根据其它利用空间提示的系统而编码的多声道音频信号进行上混频。
为简明起见,装置200被描述为对单一声道下混频音频信号执行一上混频成为双声道信号。然而,这里说明的构想易于扩展至下混频音频信号包含一个以上声道的情况,且也易于扩展至上混频音频信号包含两个以上声道的情况。
2.2.图2实施例的输入信号与输入时序
装置200被配置为接收下混频音频信号210及辅助信息212。此外,装置200被配置为提供包含例如多个声道的上混频音频信号214。
下混频音频信号210例如可以是由编码器(例如,图7所示的BCC编码器810)产生的和信号。例如,下混频音频信号210可以例如以复值频率分解的形式在时频域中表示。例如,音频信号的多个频率子带(可以交叠或非交叠)的音频内容可以用对应的复值表示。对于指定频带,下混频音频信号可以由对考虑了后续(交叠与非交叠)时间间隔的频率子带中的音频内容加以描述的复值序列来表示。后续时间间隔的后续复值可以在装置100(其可以是多声道音频信号解码器的部分)或耦接至装置100的附加装置中例如利用滤波器组(例如,QMF滤波器组)、快速傅立叶变换或其它同等物来获得。然而,本文所予以描述的下混频音频信号210的表示通常不等同于用于从多声道音频信号编码器传输至多声道音频信号解码器或装置100的下混频信号的表示。因此,下混频音频信号210可以由复值集合或向量组成的流来表示。
下面假定,下混频音频信号210的后续时间间隔用整数值索引k标示。还假定的是,装置200在下混频音频信号210的每一间隔k及每一声道接收一个复值集合或向量。因此,在时间索引k描述的每一个音频采样更新间隔内接收一个采样(复值集合或向量)。
换言之,下混频音频信号210的音频采样(“AS”)由装置210接收,使得单一音频采样AS与每个音频采样更新间隔k相关联。
装置200还接收对上混频参数加以描述的辅助信息。例如,辅助信息212可以描述下列上混频参数中的一个或多个:声道间级差(ILD)、声道间相关(或相干)(ICC)、声道间时间差(ITD)、声道间相位差(IPD)、及总相位差(OPD)。典型地,辅助信息212包含ILD参数及参数ICC、ITD、IPD、OPD中的至少一个。然而,为了节省频宽,在一些实施例中辅助信息212在下混频音频信号210的每倍数音频采样更新间隔k内仅朝装置200传输或由装置200接收一次(或单一辅助信息集合的传输可以在时间上覆盖多个音频采样更新间隔k)。因此,在一些情况中,对于多个音频采样更新间隔k仅有一个辅助信息参数集合。然而,在其它情况中,对于每个音频采样更新间隔k可以有一组辅助信息参数。
辅助信息更新的间隔以索引n表示,其中仅为简单起见,下面将假定,用整数值索引k表示的下混频音频信号210的后续时间间隔等于更新辅助信息SI212的时间间隔,使得关系k=n成立。然而,如果在下混频音频信号210的每多个后续时间间隔k内仅执行一次辅助信息SI212更新,则例如可以在后续输入相位信息值αn或后续平滑的相位值之间执行内插。
例如,辅助信息可以以音频采样更新间隔k=4、k=8及k=16被传输至装置200(或由装置200接收)。相反,在音频采样更新间隔之间不向装置200传输(或由装置200接收)辅助信息212。因此,辅助信息212的更新间隔可以随时间变化,因为编码器可以例如仅在当需要时(例如,当解码器认识到辅助信息的改变大于预定值时)才确定提供辅助信息更新。例如,装置200在音频采样更新间隔k=4接收到的辅助信息可以与音频采样更新间隔k=3、4、5相关联。类似地,装置200在音频采样更新间隔k=8接收到的辅助信息可以与音频采样更新间隔k=6、7、8、9、10相关联,以此类推。然而,不同关联自然是可能的,且针对辅助信息的更新间隔自然地也可以大于或小于所讨论的间隔。
2.3.图2实施例的输出信号与输出时序
然而,装置200服务于在复值频率组成中提供上混频音频信号。例如,装置200可以被配置为提供上混频音频信号214,使得该上混频音频信号包含与下混频音频信号210相同的音频采样更新间隔或音频信号更新速率。换言之,对于下混频音频信号210的每一采样(或音频采样更新间隔k),在一些实施例中产生上混频音频信号214的采样。
2.4.上混频
下面将详细描述对于每一音频采样间隔k如何获得用于对下混频音频信号210进行上混频的上混频参数的更新,即便在一些实施例中解码器输入辅助信息212仅可以以较大更新间隔来更新。下面,将说明对单个子带的处理,但是此构思自然地可以扩展至多个子带。
装置200可以包含上混频器230作为关键组件,该上混频器230被配置为作为复值线性组合器进行操作。上混频器230被配置为接收与音频采样更新间隔k相关联的下混频音频信号210(例如,表示特定频带)的采样x(t)或x(k)。信号x(t)或x(k)有时也表示为“干信号”。另外,上混频器230被配置为接收表示下混频音频信号的去相关版本的采样q(t)或q(k)。
此外,装置200包含去相关器(例如,延迟器或混响器)240,去相关器240被配置为接收下混频音频信号的采样x(k)并基于此下混频音频信号的采样x(k)提供下混频音频信号(用x(k)表示)的去相关版本的采样q(k)。下混频音频信号(采样x(k))的去相关版本(采样q(k))可以被表示为“湿信号”。
上混频器230包含例如矩阵向量乘法器232,该矩阵向量乘法器232被配置为执行“干信号”(用x(k)表示)与“湿信号”(用q(k)表示)的实值(或在一些情况中,多个值)线性组合,以获得第一上混频声道信号(用采样y1(k)表示)与第二上混频声道信号(用采样y2(k)表示)。矩阵向量乘法器232可以例如被配置为执行下列矩阵向量乘法来获得上混频声道信号的采样y1(k)与y2(k):
矩阵向量乘法器232或复值线性组合器230还可以包含相位调整器233,该相位调整器233被配置为调整表示上混频声道信号的采样y1(k)与y2(k)的相位。例如,相位调整器233可以被配置为获得相位调整的第一上混频声道信号,该相位调整的第一上混频信号根据下式由采样表示
因此,上混频音频信号214(其采样用与表示)是由复值线性组合器230基于干信号与湿信号利用时变上混频参数而获得的。时变平滑的相位值用于确定上混频音频信号与的相位(或声道间相位差)。例如,相位调整器232可以被配置为应用时变平滑的相位值。然而,备选地,时变平滑的相位值可能已被矩阵向量乘法器232使用(或甚至在矩阵H的项的产生中)。在此情况中,可以完全忽略相位调整器233。
2.5上混频参数的更新
如由上述方程式可见,期望在每一音频采样更新间隔k内更新上混频参数矩阵H(k)与上混频声道相位值α1(k)、α2(k)。在每一音频采样更新间隔k内更新上混频参数矩阵带来该上混频参数矩阵始终良好适应于实际声学环境的优点。因为上混频参数矩阵的改变分布于多个音频采样更新间隔上,即使仅在音频采样的每倍数更新间隔k内更新一次辅助信息212,在每一音频采样更新间隔k内更新上混频参数矩阵也允许保持后续音频采样间隔k之间的上混频参数矩阵H(或其项)的逐步改变较小。同样,期望平滑化由对辅助信息SI212的量化而引起的上混频参数矩阵H的任何改变。类似地,期望频繁地更新上混频声道相位值α1(k)与α2(k),以便至少在连续音频信号期间避免所述上混频声道相位值的逐步改变。再者,期望在时间上平滑上混频声道相位值以便减小或避免可能由对辅助信息SI212的量化而引起的伪像。
装置200包含辅助信息处理单元250,该辅助信息处理单元250被配置为基于辅助信息212提供时变上混频参数262,例如,矩阵H(k)的项Hij(k)与上混频声道相位值α1(k)、α2(k)。辅助信息处理单元250例如被配置为在每一音频采样更新间隔k内提供更新的上混频参数组,即使仅在音频采样的每倍数更新间隔k内更新一次辅助信息212。然而,在一些实施例中辅助信息处理单元250可以被配置为不经常提供更新的时变平滑上混频参数组,例如辅助信息SI 212的每次更新仅提供一次。
辅助信息处理单元250包含上混频参数输入信息确定器252,该上混频参数输入信息确定器252被配置为接收辅助信息212并基于此辅助信息212而获得一个或多个上混频参数(例如,以上混频参数的幅值序列254和上混频参数的相位值序列256的形式),一个或多个上混频参数可以被视作上混频参数输入信息(包含例如,输入幅度信息254及输入相位信息256)。例如,上混频参数输入信息确定器252可以组合多个提示(例如,ILD、ICC、ITD、IPD、OPD)来获得上混频参数输入信息254、256或可以单独评估提示中的一个或多个。上混频参数输入信息确定器252被配置为以输入幅值(也表示为输入幅度信息)序列254和分离的输入相位值(也表示为输入相位信息)序列256的形式来描述上混频参数。输入相位值序列256的元素可被视作输入相位信息αn。序列254的输入幅值可以例如代表复数的绝对值,及序列256的输入相位值可以例如代表该复数的角度值(或相位值)(例如相对于实部虚部正交坐标系中的实部轴而测量的)。
因此,上混频参数输入信息确定器252可以提供上混频参数的输入幅值序列254和上混频参数的输入相位值序列256。上混频参数输入信息确定器252可以被配置为从辅助信息集合中获得完整的上混频参数集合(例如,矩阵H的完整矩阵元素集合和相位值α1、α2的完整集合)。辅助信息集合212与输入上混频参数集合254、256之间存在关联。因此,上混频参数输入信息确定器252可以被配置为在每一上混频参数更新间隔内更新一次序列254、256的输入上混频参数,即每次更新该辅助信息集合时更新一次。
辅助信息处理单元还包含参数平滑器(有时也被简单表示为“参数确定器”)260,该参数平滑器260将在下面详细说明。参数平滑器260被配置为接收上混频参数(或矩阵元素)的(实数值)输入幅值序列254与上混频参数(或矩阵元素)的(实数值)输入相位值序列256,上混频参数(或矩阵元素)的(实数值)输入相位值序列256可以被视作输入相位信息αn。此外,参数平滑器被配置为基于对序列254与序列256的平滑来提供时变平滑的上混频参数序列262。
参数平滑器260包含幅值平滑器270与相位值平滑器272。
类似地,相位值平滑器272可以被配置为接收序列256并基于序列256提供上混频参数(或矩阵值)的时变平滑的相位值序列276。相位值平滑器272可以例如被配置为执行平滑化算法,这将在下面被详细讨论。
在一些实施例中,幅值平滑器270和相位值平滑器被配置为分开或独立地执行幅值平滑和相位值平滑。因此,序列254的幅值并不影响相位值平滑,且序列256的相位值并不影响幅值平滑。然而,假定的是,量值平滑器270与相位值平滑器272以时间同步方式进行操作,使得序列274、276包含上混频参数的对应的成对的平滑幅值和平滑相位值。
通常,参数平滑器260分别用作不同的上混频参数或矩阵元素。因此,参数平滑器260可以针对每一上混频参数(出自多个上混频参数)或矩阵H的矩阵元素接收一个幅值序列254。类似地,参数平滑器260可以接收输入相位值αn序列256供每一上混频音频声道的相位调整。
2.6有关参数平滑的细节
下面将说明有关本发明的一实施例的细节,该实施例减小了解码器中由IPD/OPD的量化和/或OPD的估计而引擎的相位处理伪像。为了简明起见,下面描述仅限为自一个至两个声道的上混频,并不限制可应用相同技术的自m至n个声道的上混频的一般情况。
解码器的例如自一个至两个声道的上混频过程由向量与上混频矩阵H的矩阵乘法来执行,该向量包括被称为干信号的下混频信号x(也用x(k)表示)和被称为湿信号的下混频信号q(也用q(k)表示)的去相关版本。湿信号q由通过去相关滤波器240馈送下混频信号x而产生。上混频信号y是包含输出的第一及第二声道的向量(例如,y1(k)与y2(k))。所有信号x、q、y在幅值频率分解(例如,时频域表示)中是可用的。
此矩阵运算是针对每一频带的所有子带采样(或至少针对一些频带的一些子带采样)而执行(例如,单独地)。例如,矩阵运算可根据下列方程式来执行:
上混频矩阵H的系数是从空间提示(典型地,ILD和ICC)中导出,获得基本上对于每一声道基于ICC执行干信号与湿信号混合的实值矩阵元素,并依ILD确定调整两个输出声道的输出级。
对于空间提示(例如,ILD、ICC、ITD、IPD和/或OPD)的传输,期望在编码器中量化一些或所有类型的参数。特别地对于低比特率情形,经常期望(或甚至必需)利用相当粗略的量化来减少传输的数据量。然而,对于特定类型的信号,粗略量化可以导致可听伪像。为了减小这些伪像,平滑操作可以应用于上混频矩阵H的元素来平滑引起伪像的相邻量化器步骤之间的过渡。
该平滑例如可由对矩阵元素的简单低通滤波来执行:
此平滑例如可由幅值平滑器270来执行,其中当前输入幅度信息Hn(例如,由上混频参数输入信息确定器252提供并且用254表示)可以与前一平滑的幅值(或幅度矩阵)相组合,以便获得当前平滑的幅值(或幅度矩阵)
因为平滑可以对信号部分有一负面影响,其中空间参数快速改变,平滑可以由从编码器传输的附加辅助信息来控制。
下面将详细描述相位值的应用和确定。如果使用IPD和/或OPD,则可以将附加的相移应用于输出信号(例如,采样y1(k)和y2(k)定义的信号)。IPD描述两个声道(例如,由采样定义的相位调整后的第一上混频声道信号与采样定义的相位调整后的第二上混频声道信号)之间的相位差,而OPD描述一个声道与下混频之间的相位差。
下面参考图3将简要阐述IPD与OPD的定义,图3示出了下混频信号与多个声道信号之间相位关系的示意图。现在参考图3,下混频信号(或其频谱系数x(k))的相位由第一指针310表示。相位调整后的第一上混频声道信号(或其一频谱系数)的相位由第二指针320表示。下混频信号(或其频谱值或系数)与相位调整后的第一上混频声道信号(或其频谱系数)之间的相位差用OPD1来表示。相位调整后的第二上混频声道信号(或其频谱系数)由第三指针330表示。下混频信号(或其频谱系数)与相位调整后的第二上混频声道信号(或其频谱系数)之间的相位差用OPD2来表示。相位调整后的第一上混频声道信号(或其频谱系数)与相位调整后的第二上混频声道信号(或其频谱系数)之间的相位差用IPD表示。
为重构原始信号的相位属性(基于干信号提供具有适当相位的相位调整后的第一上混频声道信号与相位调整后的第二上混频声道信号),应知晓这两个声道的OPD。通常,IPD连同OPD一起传输(第二OPD接着可由此计算)。为减少传输的数据量,利用包含在下混频信号中的相位信息连同传输的ILD和IPD,在解码器中仅传输IPD并估计OPD也是可能的。此处理可例如由上混频参数输入信息确定器252来执行。
解码器(例如,装置200)中的相位重构是根据下列方程式由输出子带信号(例如,由频谱系数y1(k)、y2(k)所描述的信号)的复旋转来执行:
在上面方程式中,角度α1与α2等于两个声道的OPD(或,例如,平滑的OPD)。
如上所述,参数(例如,ILD参数和/或ICC参数)的粗略量化会导致可听伪像,这也适用于IPD和OPD的量化。如上所述的平滑操作被应用于上混频矩阵Hn的元素,它仅减少由ILD与ICC的量化而引起的伪像,而那些由相位参数的量化而引起的伪像并不受影响。
此外,额外的伪像可由上述被应用于每一输出声道的时变相位旋转而引入。已经发现,如果相移角度α1与α2随时间快速波动,则应用的旋转角度可以导致瞬时信号频率的短漏失或改变。
这两个问题可通过将上述平滑方法的修改版本应用于角度α1和α2而显著减少。因为在此情况中,平滑滤波器被应用于环绕每个2π的角度,优选地通过所谓的展开(unwrapping)来修改平滑滤波器。因此,根据下列算法来计算平滑的相位值该算法通常规定对相位改变的限制:
述用于计算当前平滑的相位值的方程式或算法,可以看出的是,如果,值αn与之间的差值小于或等于π(上述方程式的“否则”的情况),当前平滑的相位值是通过当前输入相位信息αn与前一平滑的相位值的加权线性组合来获得,而无需额外被加数。假定δ是0与1之间的参数,该参数确定(或表示)平滑过程的时间常数,当前平滑的相位值在值αn与之间。例如,如果δ=0.5,则的值是αn与的平均值(算术平均值)。
然而,如果αn与之间的差值大于π,则满足上述方程式的第一种情况(行)。在此情况中,当前平滑的相位值是由αn与的线性组合来获得的,考虑了恒定相位修改项-2πδ。因此,可实现保持与之间的差值足够小。在图4a中示出了这种情况的示例,其中相位由第一指针410指示,相位αn由第二指针412指示,相位由第三指针414指示。
同样,应当实现的是,与之间的角度差保持足够小。在两种情况中,相位值所定义的方向是两个角度区域中的较小区域,其中两各角度区域中的第一区域通过将指针410、450以数学正(逆时针)方向朝指针412、452旋转而覆盖,其中第二角度区域将通过将指针412、452以数学正(逆时针)方向朝指标410、450旋转而覆盖。
然而,如果得知相位值αn与之间的差值小于-π,则利用上述方程式的第二种情况(行)来获得的值。相位值是通过αn与的线性组合来获得的,具有常数相位适应项2πδ。在图5a和5b中说明此种 小于-π情况的示例。
2.7平滑构思的可选扩展
下面将讨论上面所讨论相位值平滑构思的一些可选扩展。至于其它参数(例如,ILD、ICC、ITD),在需要旋转角度快速改变的情况下可能有信号,例如,如果原始信号(例如编码器处理的信号)的IPD快速改变。对于此类信号,相位值平滑器272执行的平滑将(在一些情况中)对输出质量有负面影响且不应该被应用于此类情况中。为了避免由频带编码器针对每一信号处理频带控制平滑所需要的可能的比特率开销,在解码器中(例如,在装置200中)可以利用自适应平滑控制(例如,利用平滑控制器来实现):生成的IPD(即两个平滑角度之间的差值,例如,计算角度α1(k)与α2(k)之间的差值)且与传输的IPD(例如,输入相位信息αn描述的声道间相位差)比较。如果差值大于特定阈值,则平滑可以被禁用,且(例如,相位调整器233)可以使用未处理的角度(例如,由输入相位信息描述且由上混频参数输入信息确定器提供的角度αn),否则低通滤波的角度(例如,相位值平滑器272提供的平滑相位值)可以(例如,通过相位调整器233)应用于输出信号。
在(可选的)高级版本中,相位值平滑器272应用的算法可以利用可变滤波器时间常数来扩展,该可变滤波器时间常数是基于处理后的IPD与未处理IPD之间的当前差值来修改。例如,参数δ的值(其确定滤波器时间常数)可以根据当前平滑的相位值与当前输入相位值αn之间的差值或根据前一平滑的相位值与当前输入相位值αn之间的差值来调整。
此外在一些实施例中,在自适应平滑控制无法给出最佳结果的关键信号情况下,在比特流(表示下混频音频信号210和辅助信息212)中传输(可选地)单个比特,以完全启用或禁用编码器对所有频带的平滑。
3.结论
综上所述,已经描述了参数化多声道音频编码的自适应相位处理的一般性概念。根据本发明的实施例通过减小由对相位参数的粗略量化或快速改变而引起的输出信号中的伪像来取代其它技术。
4.方法
根据本发明的实施例包含一种将描述一或多个下混频音频声道的下混频音频信号上混频成描述多个上混频音频声道的上混频音频信号的方法。图6示出了这种方法的流程图,其整体用700来表示。
方法700包含步骤710:利用相位改变限制算法将前一平滑的相位值的缩放版本与当前相位输入信息的缩放版本相组合,以基于前一平滑的相位值和输入相位信息,来确定当前平滑化的相位值。
方法700也包含步骤720:应用时变上混频参数来对下混频音频信号进行上混频,以便获得上混频的音频信号,其中时变上混频参数包含时间平滑的相位值。
自然地,方法700可以由本文就发明装置而予以描述的特征与功能当中的任一项来补充。
5.实现备选方案
尽管在装置的上下文中描述了一些方面,然而应清楚,这些方面也可以表示对相应方法的描述,其中,模块或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也可以表示对相应设备的相应模块或条目或特征的描述。一些或所有方法步骤可由(或利用)硬件装置来执行,例如,微处理器、可编程计算机或电子电路。在一些实施例中,某一个或多个最重要方法步骤可以由这样的装置来执行
根据特定的实现需要,本发明的实施例可以以硬件或软件的形式实现。可以使用数字存储介质来执行这种实现,所述数字存储介质例如是上面存储有电可读控制信号的软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存,所述电可读控制信号与可编程计算机系统协作(或能够与可编程计算机系统协作),以执行相应的方法。因此,所述数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括数据载体,所述数据载体具有电可读控制信号,所述电可读控制信号可以与可编程计算机系统协作,以执行本文描述的方法之一。
通常,本发明的实施例可以被实现为具有程序代码的计算机程序产品,所述程序代码用于在所述计算机程序产品在计算机上运行时执行上述方法之一。程序代码例如可以存储在机器可读载体上。
其他实施例包括用于执行本文中描述的方法之一的计算机程序,所述计算机程序存储在机器可读载体上。
换言之,本发明的方法的实施例因此是一种具有程序代码的计算机程序,所述程序代码用于在计算机程序在计算机上运行时执行本文描述的方法之一。
本发明方法的另一实施例因此是一种数据载体(或数字存储介质,或计算机可读介质),包括记录在该数据载体上的计算机程序,所述计算机程序用于执行本文描述的方法之一。
因此本发明的方法的另一实施例是一种数据流或信号序列,所述数据流或信号序列表示用于执行本文描述的方法之一的计算机程序。所述数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)来传递。
另一实施例包括一种处理装置,例如计算机或可编程逻辑装置,所述处理装置被配置为适于执行本文描述的方法之一。
另一实施例包括一种上面安装有计算机程序的计算机,所述计算机程序用于执行本文描述的方法之一。
在一些实施例中,可以使用可编程逻辑装置(例如,现场可编程门阵列)来执行本文描述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作,以执行本文描述的方法之一。通常,方法优选地由任何硬件设备来执行。
上述实施例仅用于说明本发明的原理。应理解,对于本领域技术人员来说,本文描述的布置和细节的修改和变化是显而易见的。因此,本发明仅由非待审专利权利要求来限制,而不由本文中通过描述和说明实施例而提供的特定细节来限制。
参考文献
[1]C.Faller and F.Baumgarte,″Efficient representation of spatialaudio using perceptual parameterization″,IEEE WASPAA,Mohonk,NY,October 2001
[2]F.Baumgarte and C.Faller,″Estimation of auditory spatial cues forbinaural cue coding″,ICASSP,Orlando,FL,May 2002
[3]C.Faller and F.Baumgarte,″Binaural cue coding:a novel andefficient representation of spatial audio,″ICASSP,Orlando,FL,May 2002
[4]C.Faller and F.Baumgarte,″Binaural cue coding applied to audiocompression with flexible rendering″,AES 113th Convention,LosAngeles,Preprint 5686,October 2002
[5]C.Faller and F.Baumgarte,″Binaural Cue Coding-Part II:Schemes and applications,″IEEE Trans,on Speech and Audio Proc.,vol.11,no.6,Nov.2003
[6]J.Breebaart,S.van de Par,A.Kohlrausch,E.Schuijers,″High-Quality Parametric Spatial Audio Coding at Low Bitrates″,AES 116th Convention,Berlin,Preprint 6072,May 2004
[7]E.Schuijers,J.Breebaart,H.Purnhagen,J.Engdegard,″LowComplexity Parametric Stereo Coding″,AES 116th Convention,Berlin,Preprint 6073,May 2004
[8]ISO/IEC JTC 1/SC 29/WG 11,23003-1,MPEG Surround
[9]J.Blauert,Spatial Hearing:The Psychophysics of Human SoundLocalization,The MIT Press,Cambridge,MA,revised edition1997。
Claims (13)
1.一种用于将描述一个或多个下混频音频声道的下混频音频信号(110;210)上混频成描述多个上混频音频声道的上混频音频信号(120;214)的装置(100;200),所述装置(100;200)包括:
上混频器(130;230),被配置为应用时变上混频参数(114;262)来对下混频音频信号进行上混频,以便获得上混频音频信号,其中时变上混频参数包括时变平滑的相位值(144a;270);
参数确定器(140;250),其中所述参数确定器被配置为基于量化的上混频参数输入信息(142;212),来获得一个或多个时间平滑的上混频参数(αn)以供上混频器(130;230)使用,
6.如权利要求1至5中任一项所述的装置(100;200),其中参数确定器(140;250)包括平滑控制器,
其中平滑控制器被配置为在平滑的相位量与对应的输入相位量(αn)之间的差值大于预定阈值的情况下,选择性地禁用相位值平滑功能。
7.如权利要求6所述的装置(100;200),其中平滑控制器被配置为评估两个平滑的相位值(α1、α2)之间的差值作为平滑的相位量,以及评估与两个平滑的相位值(α1、α2)相对应的两个输入相位值(256)之间的差值作为对应的输入相位量。
8.如权利要求1至7中任一项所述的装置(100;200),其中上混频器(130;230)被配置为,在平滑功能被启用的情况下,在给定时间部分内,应用由不同的平滑的相位值(α1、α2)所定义的不同的时间平滑的相位旋转(α1、α2),来获得具有声道间相位差的不同上混频音频声道的信号以及在平滑功能被禁用的情况下,应用由不同的非平滑的相位值所定义的时间非平滑的相位旋转(256),来获得具有声道间相位差的不同上混频音频声道的信号;
其中参数确定器(140;250)包括平滑控制器;以及
11.如权利要求1至10中任一项所述的装置(100;200),其中用于上混频的所述装置被配置为,根据从音频比特流中提取的信息来选择性地启用和禁用相位值平滑功能。
12.一种用于将描述一个或多个下混频音频声道的下混频音频信号上混频成描述多个上混频音频声道的上混频音频信号的方法(700),所述方法包括:
使用相位改变限制算法将前一平滑的相位值的缩放版本与当前相位输入信息的缩放版本相组合(710),以基于前一平滑的相位值和输入相位信息来确定当前时间平滑的相位值;以及
应用(720)时变上混频参数来对下混频音频信号进行上混频,以便获得上混频音频信号,其中时变上混频参数包括时间平滑的相位值。
13.一种计算机程序,当所述计算机程序运行在计算机上时用于执行权利要求12所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310120468.XA CN103325374B (zh) | 2009-04-08 | 2010-04-01 | 使用相位值平滑对下混频音频信号进行上混频的装置、方法和计算机程序 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16760709P | 2009-04-08 | 2009-04-08 | |
US61/167,607 | 2009-04-08 | ||
PCT/EP2010/054448 WO2010115850A1 (en) | 2009-04-08 | 2010-04-01 | Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310120468.XA Division CN103325374B (zh) | 2009-04-08 | 2010-04-01 | 使用相位值平滑对下混频音频信号进行上混频的装置、方法和计算机程序 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102257563A true CN102257563A (zh) | 2011-11-23 |
CN102257563B CN102257563B (zh) | 2013-09-25 |
Family
ID=42335156
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310120468.XA Active CN103325374B (zh) | 2009-04-08 | 2010-04-01 | 使用相位值平滑对下混频音频信号进行上混频的装置、方法和计算机程序 |
CN2010800035956A Active CN102257563B (zh) | 2009-04-08 | 2010-04-01 | 使用相位值平滑对下混频音频信号进行上混频的装置和方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310120468.XA Active CN103325374B (zh) | 2009-04-08 | 2010-04-01 | 使用相位值平滑对下混频音频信号进行上混频的装置、方法和计算机程序 |
Country Status (20)
Country | Link |
---|---|
US (6) | US9053700B2 (zh) |
EP (2) | EP2405425B1 (zh) |
JP (1) | JP5358691B2 (zh) |
KR (1) | KR101356972B1 (zh) |
CN (2) | CN103325374B (zh) |
AR (1) | AR076238A1 (zh) |
AU (1) | AU2010233863B2 (zh) |
BR (1) | BRPI1004215B1 (zh) |
CA (1) | CA2746524C (zh) |
CO (1) | CO6501150A2 (zh) |
ES (2) | ES2452569T3 (zh) |
HK (2) | HK1163915A1 (zh) |
MX (1) | MX2011006248A (zh) |
MY (1) | MY160545A (zh) |
PL (2) | PL2405425T3 (zh) |
RU (1) | RU2550525C2 (zh) |
SG (1) | SG174117A1 (zh) |
TW (1) | TWI420512B (zh) |
WO (1) | WO2010115850A1 (zh) |
ZA (1) | ZA201103703B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109844858A (zh) * | 2016-10-31 | 2019-06-04 | 高通股份有限公司 | 多个音频信号的解码 |
CN110419079A (zh) * | 2016-11-08 | 2019-11-05 | 弗劳恩霍夫应用研究促进协会 | 用于下混频至少两声道的下混频器和方法以及多声道编码器和多声道解码器 |
CN111886879A (zh) * | 2018-04-04 | 2020-11-03 | 哈曼国际工业有限公司 | 用于模拟自然空间变化的动态音频上混器参数 |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8666752B2 (en) * | 2009-03-18 | 2014-03-04 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding and decoding multi-channel signal |
KR20110022252A (ko) * | 2009-08-27 | 2011-03-07 | 삼성전자주식회사 | 스테레오 오디오의 부호화, 복호화 방법 및 장치 |
WO2011039668A1 (en) * | 2009-09-29 | 2011-04-07 | Koninklijke Philips Electronics N.V. | Apparatus for mixing a digital audio |
US9424852B2 (en) | 2011-02-02 | 2016-08-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Determining the inter-channel time difference of a multi-channel audio signal |
ITTO20120067A1 (it) * | 2012-01-26 | 2013-07-27 | Inst Rundfunktechnik Gmbh | Method and apparatus for conversion of a multi-channel audio signal into a two-channel audio signal. |
ES2571742T3 (es) | 2012-04-05 | 2016-05-26 | Huawei Tech Co Ltd | Método de determinación de un parámetro de codificación para una señal de audio multicanal y un codificador de audio multicanal |
MY172161A (en) | 2013-01-29 | 2019-11-15 | Fraunhofer Ges Forschung | Apparatus and method for generating a frequency enhanced signal using shaping of the enhancement signal |
TWI546799B (zh) | 2013-04-05 | 2016-08-21 | 杜比國際公司 | 音頻編碼器及解碼器 |
EP2830334A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals |
EP2830335A3 (en) | 2013-07-22 | 2015-02-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method, and computer program for mapping first and second input channels to at least one output channel |
EP2830051A3 (en) | 2013-07-22 | 2015-03-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals |
JP6449877B2 (ja) * | 2013-07-22 | 2019-01-09 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダ、レンダリングされたオーディオ信号を使用する方法、コンピュータ・プログラムおよび符号化オーディオ表現 |
CN105531761B (zh) * | 2013-09-12 | 2019-04-30 | 杜比国际公司 | 音频解码系统和音频编码系统 |
EP3044877B1 (en) | 2013-09-12 | 2021-03-31 | Dolby Laboratories Licensing Corporation | System aspects of an audio codec |
EP2854133A1 (en) | 2013-09-27 | 2015-04-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Generation of a downmix signal |
EP3061089B1 (en) | 2013-10-21 | 2018-01-17 | Dolby International AB | Parametric reconstruction of audio signals |
BR112016008426B1 (pt) * | 2013-10-21 | 2022-09-27 | Dolby International Ab | Método para reconstrução de uma pluralidade de sinais de áudio, sistema de decodificação de áudio, método para codificação de uma pluralidade de sinais de áudio, sistema de codificação de áudio, e mídia legível por computador |
CN104681029B (zh) * | 2013-11-29 | 2018-06-05 | 华为技术有限公司 | 立体声相位参数的编码方法及装置 |
CN111816194B (zh) | 2014-10-31 | 2024-08-09 | 杜比国际公司 | 多通道音频信号的参数编码和解码 |
US10176813B2 (en) | 2015-04-17 | 2019-01-08 | Dolby Laboratories Licensing Corporation | Audio encoding and rendering with discontinuity compensation |
KR102517583B1 (ko) | 2015-06-26 | 2023-04-03 | 칸도우 랩스 에스에이 | 고속 통신 시스템 |
CN110114826B (zh) * | 2016-11-08 | 2023-09-05 | 弗劳恩霍夫应用研究促进协会 | 使用相位补偿对多声道信号进行下混合或上混合的装置和方法 |
US10366695B2 (en) | 2017-01-19 | 2019-07-30 | Qualcomm Incorporated | Inter-channel phase difference parameter modification |
CN111684772B (zh) | 2017-12-28 | 2023-06-16 | 康杜实验室公司 | 同步切换多输入解调比较器 |
CN108770120B (zh) * | 2018-05-25 | 2021-03-23 | 上海乘讯信息科技有限公司 | 一种智能通道状态灯 |
EP3671741A1 (en) | 2018-12-21 | 2020-06-24 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Audio processor and method for generating a frequency-enhanced audio signal using pulse processing |
EP3726730B1 (en) * | 2019-04-17 | 2021-08-25 | Goodix Technology (HK) Company Limited | Peak current limiter |
CN110491366B (zh) * | 2019-07-02 | 2021-11-09 | 招联消费金融有限公司 | 音频平滑处理方法、装置、计算机设备和存储介质 |
WO2022074202A2 (en) * | 2020-10-09 | 2022-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method, or computer program for processing an encoded audio scene using a parameter smoothing |
BR112023006291A2 (pt) * | 2020-10-09 | 2023-05-09 | Fraunhofer Ges Forschung | Dispositivo, método ou programa de computador para processar uma cena de áudio codificada usando uma conversão de parâmetro |
US11533576B2 (en) * | 2021-03-29 | 2022-12-20 | Cae Inc. | Method and system for limiting spatial interference fluctuations between audio signals |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1647155A (zh) * | 2002-04-22 | 2005-07-27 | 皇家飞利浦电子股份有限公司 | 空间声频的参数表示 |
WO2005069274A1 (en) * | 2004-01-20 | 2005-07-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
CN1926607A (zh) * | 2004-03-01 | 2007-03-07 | 杜比实验室特许公司 | 多信道音频编码 |
EP2169666A1 (en) * | 2008-09-25 | 2010-03-31 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6737572B1 (en) * | 1999-05-20 | 2004-05-18 | Alto Research, Llc | Voice controlled electronic musical instrument |
US7222070B1 (en) * | 1999-09-22 | 2007-05-22 | Texas Instruments Incorporated | Hybrid speech coding and system |
JP2004519736A (ja) | 2001-04-09 | 2004-07-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 位相スメアリング及び位相デスメアリングフィルタを有するadpcm音声コーディングシステム |
WO2003090209A1 (en) * | 2002-04-22 | 2003-10-30 | Nokia Corporation | Method and device for obtaining parameters for parametric speech coding of frames |
US7903824B2 (en) * | 2005-01-10 | 2011-03-08 | Agere Systems Inc. | Compact side information for parametric coding of spatial audio |
US7751572B2 (en) | 2005-04-15 | 2010-07-06 | Dolby International Ab | Adaptive residual audio coding |
US20070055510A1 (en) * | 2005-07-19 | 2007-03-08 | Johannes Hilpert | Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding |
CA2637722C (en) | 2006-02-07 | 2012-06-05 | Lg Electronics Inc. | Apparatus and method for encoding/decoding signal |
CN101379552B (zh) * | 2006-02-07 | 2013-06-19 | Lg电子株式会社 | 用于编码/解码信号的装置和方法 |
RU2343563C1 (ru) * | 2007-05-21 | 2009-01-10 | Федеральное государственное унитарное предприятие "ПЕНЗЕНСКИЙ НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ ЭЛЕКТРОТЕХНИЧЕСКИЙ ИНСТИТУТ" (ФГУП "ПНИЭИ") | Способ передачи и приема закодированной речи |
ATE500588T1 (de) * | 2008-01-04 | 2011-03-15 | Dolby Sweden Ab | Audiokodierer und -dekodierer |
US8258849B2 (en) | 2008-09-25 | 2012-09-04 | Lg Electronics Inc. | Method and an apparatus for processing a signal |
KR101108061B1 (ko) * | 2008-09-25 | 2012-01-25 | 엘지전자 주식회사 | 신호 처리 방법 및 이의 장치 |
-
2010
- 2010-04-01 MX MX2011006248A patent/MX2011006248A/es active IP Right Grant
- 2010-04-01 EP EP11183975.9A patent/EP2405425B1/en active Active
- 2010-04-01 RU RU2011123124/08A patent/RU2550525C2/ru not_active Application Discontinuation
- 2010-04-01 PL PL11183975T patent/PL2405425T3/pl unknown
- 2010-04-01 PL PL10716780T patent/PL2394268T3/pl unknown
- 2010-04-01 CA CA2746524A patent/CA2746524C/en active Active
- 2010-04-01 MY MYPI2011002809A patent/MY160545A/en unknown
- 2010-04-01 WO PCT/EP2010/054448 patent/WO2010115850A1/en active Application Filing
- 2010-04-01 ES ES10716780.1T patent/ES2452569T3/es active Active
- 2010-04-01 CN CN201310120468.XA patent/CN103325374B/zh active Active
- 2010-04-01 BR BRPI1004215-6A patent/BRPI1004215B1/pt active IP Right Grant
- 2010-04-01 SG SG2011044419A patent/SG174117A1/en unknown
- 2010-04-01 EP EP10716780.1A patent/EP2394268B1/en active Active
- 2010-04-01 CN CN2010800035956A patent/CN102257563B/zh active Active
- 2010-04-01 KR KR1020117013619A patent/KR101356972B1/ko active IP Right Grant
- 2010-04-01 ES ES11183975.9T patent/ES2511390T3/es active Active
- 2010-04-01 JP JP2011541522A patent/JP5358691B2/ja active Active
- 2010-04-01 AU AU2010233863A patent/AU2010233863B2/en active Active
- 2010-04-07 TW TW099110718A patent/TWI420512B/zh active
- 2010-04-08 AR ARP100101185A patent/AR076238A1/es active IP Right Grant
-
2011
- 2011-05-20 ZA ZA2011/03703A patent/ZA201103703B/en unknown
- 2011-05-27 CO CO11065844A patent/CO6501150A2/es active IP Right Grant
- 2011-06-02 US US13/151,412 patent/US9053700B2/en active Active
-
2012
- 2012-05-14 HK HK12104684.9A patent/HK1163915A1/xx unknown
- 2012-07-10 HK HK12106712.0A patent/HK1166174A1/zh unknown
-
2015
- 2015-01-20 US US14/600,122 patent/US9734832B2/en active Active
-
2017
- 2017-06-29 US US15/636,808 patent/US10056087B2/en active Active
-
2018
- 2018-08-20 US US16/104,990 patent/US10580418B2/en active Active
-
2020
- 2020-01-30 US US16/776,621 patent/US11430453B2/en active Active
-
2022
- 2022-07-20 US US17/868,881 patent/US20220358939A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1647155A (zh) * | 2002-04-22 | 2005-07-27 | 皇家飞利浦电子股份有限公司 | 空间声频的参数表示 |
WO2005069274A1 (en) * | 2004-01-20 | 2005-07-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
CN1926607A (zh) * | 2004-03-01 | 2007-03-07 | 杜比实验室特许公司 | 多信道音频编码 |
EP2169666A1 (en) * | 2008-09-25 | 2010-03-31 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
Non-Patent Citations (1)
Title |
---|
JUNGHOE KIM ET.AL: "Enhanced Stereo Coding with phase parameters for MPEG Unified Speech and Audio Coding", 《AES 127TH CONVENTION》, 12 October 2009 (2009-10-12), pages 1 - 7 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109844858A (zh) * | 2016-10-31 | 2019-06-04 | 高通股份有限公司 | 多个音频信号的解码 |
CN109844858B (zh) * | 2016-10-31 | 2023-06-02 | 高通股份有限公司 | 多个音频信号的解码 |
CN110419079A (zh) * | 2016-11-08 | 2019-11-05 | 弗劳恩霍夫应用研究促进协会 | 用于下混频至少两声道的下混频器和方法以及多声道编码器和多声道解码器 |
US11670307B2 (en) | 2016-11-08 | 2023-06-06 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Downmixer and method for downmixing at least two channels and multichannel encoder and multichannel decoder |
CN110419079B (zh) * | 2016-11-08 | 2023-06-27 | 弗劳恩霍夫应用研究促进协会 | 用于下混频至少两声道的下混频器和方法以及多声道编码器和多声道解码器 |
CN111886879A (zh) * | 2018-04-04 | 2020-11-03 | 哈曼国际工业有限公司 | 用于模拟自然空间变化的动态音频上混器参数 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102257563B (zh) | 使用相位值平滑对下混频音频信号进行上混频的装置和方法 | |
RU2520329C2 (ru) | Усовершенствованное стереофоническое кодирование на основе комбинации адаптивно выбираемого левого/правого или среднего/побочного стереофонического кодирования и параметрического стереофонического кодирования | |
US20080040103A1 (en) | Temporal envelope shaping for spatial audio coding using frequency domain wiener filtering | |
CN112614496A (zh) | 用于编码的音频编码器及用于解码的音频解码器 | |
US10096325B2 (en) | Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases by comparing a downmix channel matrix eigenvalues to a threshold | |
EP2169666B1 (en) | A method and an apparatus for processing a signal | |
EP3405950B1 (en) | Stereo audio coding with ild-based normalisation prior to mid/side decision | |
CN110998721B (zh) | 用于使用宽频带滤波器生成的填充信号对已编码的多声道信号进行编码或解码的装置 | |
CN108369810A (zh) | 用于对多声道音频信号进行编码的自适应声道缩减处理 | |
CN104704557A (zh) | 用于在空间音频对象编码中适配音频信息的设备和方法 | |
KR20090122143A (ko) | 오디오 신호 처리 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |