CN104837107B - 音频通道空间转换 - Google Patents

音频通道空间转换 Download PDF

Info

Publication number
CN104837107B
CN104837107B CN201510122915.4A CN201510122915A CN104837107B CN 104837107 B CN104837107 B CN 104837107B CN 201510122915 A CN201510122915 A CN 201510122915A CN 104837107 B CN104837107 B CN 104837107B
Authority
CN
China
Prior art keywords
input
channel
audio input
signal
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510122915.4A
Other languages
English (en)
Other versions
CN104837107A (zh
Inventor
M·F·戴维斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN104837107A publication Critical patent/CN104837107A/zh
Application granted granted Critical
Publication of CN104837107B publication Critical patent/CN104837107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)

Abstract

本发明涉及音频通道空间转换。从M个音频输入通道导出N个音频输出通道,所述M个音频输入通道被转换至所述N个音频输出通道,所述M个音频输入通道中的每一个与一空间方向相关联,所述N个音频输出通道中的每一个与一空间方向相关联,其中M和N全部是正整数,M是3或更大,并且N是3或更大。其中,所述M个音频输入通道中的一个或多个与不同于与所述N个音频输出通道中的任一个相关联的空间方向的空间方向相关联,并且所述M个音频输入通道中的所述一个或多个中的至少一个被映射到所述N个输出通道中的至少三个输出通道的对应集合。所述至少三个输出通道的集合与连续空间方向相关联。

Description

音频通道空间转换
本申请是申请号为200980151223.5、申请日为2009年12月16日、发明名称为“音频通道空间转换”的发明专利申请的分案申请。
相关申请的交叉引用
本申请要求在2008年12月18日提交的美国专利临时申请No.61/138823的优先权,在此并入其全部内容作为参考。
技术领域
本发明涉及音频信号处理。更特别地,本发明涉及将表示声场的多个音频输入通道转换成表示同一声场的一个或多个音频输出通道,其中,各通道是表示从某方向到达的音频的单个音频流。
背景技术
虽然人只有两个耳朵,但是我们依赖于诸如头相关传递函数(HRTF)和头移动的多个局部提示作为三维实体收听声音。因此,完全保真声音再现需要完全3D声场的保持和再现或者至少其知觉提示。不幸的是,声音记录技术不面向3D声场的捕获、不面向声音的2D平面的捕获,甚至不面向声音的1D线的捕获。当前的声音记录技术严格地面向音频的零维度、离散通道的捕获、保存和呈现。
自从爱迪生的声音记录的原创发明以来对于提高保真度的大多数努力着眼于改善他的原始模拟调制沟槽圆柱/盘介质的缺点。这些缺点包含有限的、不均匀的频率响应、噪声、失真、变音、颤振、速度精度、磨损、灰尘和复制产生损失。虽然存在多个零星的对于孤立的改善的尝试(包含电子放大、带记录、噪声减少和成本高于一些汽车的记录播放器),但是,个体通道质量的传统问题没有被最终解决,直到卓越的总体数字记录的开发,特别是音频光盘的引入。从那里起,除了进一步将数字记录的质量扩展到24位/96kHz采样的一些努力之外,音频再现研究的主要努力着眼于主要通过使用知觉编码器减少保持个别通道质量所需要的数据量以及增加空间保真度。后一种问题是本文件的主题。
提高空间保真度的努力沿两个前沿进展:尝试传输全声场的知觉提示,以及尝试传输对于实际原声场的近似。使用前一种方法的系统的例子包含双耳记录和基于二扬声器的虚拟环绕声系统。这些系统表现大量的不幸的缺点,特别是在沿一些方向将声音可靠地局部化以及需要使用头戴听筒或固定的单个收听者位置方面。
为了向多个收听者呈现空间声音,不管是在客厅还是在诸如电影院的商业场所,唯一可行的替代方案已尝试近似实际原声场。考虑到声音记录的离散通道本质,目前为止的大多数的努力涉及可被认为是保守的通道的数量的增加就不令人惊讶了。代表性系统包含早期50年代的盘形单声道三扬声器胶片声带、常规的立体声、60年代的四声道系统、70mm胶片上的五通道离散磁性声带、70年代的使用矩阵的Dolby环绕声、90年代的AC-35.1通道声音以及最近的Surround-EX6.1通道声音。“Dolby”、“Pro Logic”和“Surround EX”是Dolby Laboratories Licensing Corporation的商标。或多或少地,与单声道呈现相比,这些系统提供增强的空间呈现。但是,混合大量的通道在内容产生器上导致更多的时间和更大的成本代价,并且,得到的感觉典型地是数个散射、离散通道中的一个而不是连续的声场。在美国专利4799260中描述了Dolby Pro Logic解码的各方面,在此加入其全部内容作为参考。在“Digital Audio Compression Standard(AC-3,E-AC-3),Revision B,AdvancedTelevision Systems Committee,14June 2005中阐述了AC-3的细节。
当声场被表征时,原则上解码器能够对于任何输出扬声器导出最佳信号馈送。这里,被提供给这种解码器的通道将被不同地称为“主要的”、“被传送的”和“被输入的”通道,并且,具有不与输入通道中的一个的位置对应的位置的任何输出通道将被称为“中间”通道。输出通道也可具有与输入通道的位置一致的位置。
发明内容
编码或下混合
根据本发明的编码或下混合方面,一种用于将M个音频输入通道转换至N个音频输出通道的方法,所述M个音频输入通道中的每一个与一空间方向相关联,所述N个音频输出通道中的每一个与一空间方向相关联,其中M和N全部是正整数,M是3或更大,并且N是3或更大,该方法包括从所述M个音频输入通道导出所述N个音频输出通道,其中所述M个音频输入通道中的一个或多个与不同于与所述N个音频输出通道中的任一个相关联的空间方向的空间方向相关联,所述M个音频输入通道中的所述一个或多个中的至少一个被映射到所述N个输出通道中的至少三个输出通道的对应集合。该至少三个输出通道的集合可与连续空间方向相关联。N可是5或更大,并且所述导出可将所述M个音频输入通道中的所述一个或多个中的所述至少一个映射到所述N个输出通道中的三个、四个或五个输出通道的对应集合。所述N个输出通道中的至少三个、四个或五个输出通道的集合可与连续空间方向相关联。
在具体实施例中,M可至少为6,N可至少为5,并且M个音频输入通道可分别和与和N个音频输出通道相关联的五个空间方向对应的五个空间方向、以及不与所述N个音频输出通道相关联的至少一个空间方向相关联。
所述N个音频输出通道中的每一个可与公共平面中的空间方向相关联。M个音频输入通道的相关联空间方向中的至少一个可位于与所述N个音频输出通道相关联的平面上方或者位于所述平面下方。M个音频输入通道的相关联空间方向中的至少一些可相对于基准空间方向改变距离。
在具体实施例中,与N个音频输出通道相关联的空间方向可包括左、中心、右、左环绕和右环绕。与M个音频输入通道相关联的空间方向可包括左、中心、右、左环绕、右环绕、抬高的左前部、抬高的中前部、抬高的右前部、抬高的左环绕、抬高的中心环绕和抬高的右环绕。与M个音频输入通道相关联的空间方向可进一步包括抬高的顶部。
解码或上混合
根据本发明的解码或上混合方面,一种用于将N个音频输入通道转换至M个音频输出通道的方法,所述N个音频输入通道中的每一个与一空间方向相关联,所述M个音频输出通道中的每一个与一空间方向相关联,其中M和N全部是正整数,N是3或更大,并且M是1或更大,该方法包括从所述N个音频输入通道导出所述M个音频输出通道,其中所述M个音频输出通道中的一个或多个与不同于与所述N个音频输入通道中的任一个相关联的空间方向的空间方向相关联,所述M个音频输出通道中的所述一个或多个中的至少一个被从所述N个输入通道中的至少三个输入通道的对应集合导出。可至少部分地通过近似所述N个输入通道中的至少三个输入通道的互相关性,从所述N个输入通道中的所述至少三个输入通道的对应集合导出所述M个音频输出通道中的所述一个或多个中的至少一个。近似所述互相关性可包括计算所述N个输入通道中的所述至少三个输入通道中的每一对的公共能量。任何所述对的公共能量可具有最小值。导出的M个音频输出通道的幅值可基于所述N个输入通道中的所述至少三个输入通道的任一对的公共能量的最低估计幅值。当所述N个输入通道中的所述至少三个输入通道的任一对的公共能量为零时,导出的M个音频输出通道的幅值可被取为零。
可从共享N个输入通道中的公共对的各组N个输入通道导出多个被导出的M个音频输出通道,其中计算公共能量可包括补偿N个输入通道的被共享的公共对的公共能量。
所述近似可包括按层级顺序处理多个被导出的M个音频通道,使得每个导出的音频通道可根据由中导出该音频通道的输入通道的数量分级,最大的输入通道的数量具有最高的等级,该近似根据多个被导出的M个音频通道的层级顺序依次处理多个被导出的M个音频通道。
计算公共能量可进一步包括补偿与具有较高层级等级的被导出的音频通道有关的N个输入通道的被共享的公共对的公共能量。
所述N个输入通道中的至少三个输入通道的集合可与连续空间方向相关联。
N可是5或更大,并且所述导出可将所述M个音频输入通道中的所述一个或多个中的所述至少一个映射到所述N个输入通道中的三个、四个或五个输入通道的对应集合。所述N个输入通道中的至少三个、四个或五个输入通道的集合可与连续空间方向相关联。
在具体实施例中,M可至少为6,N可为5,并且至少六个输出音频输入通道可分别和与和N个音频输入通道相关联的五个空间方向相对应的五个空间方向、以及不与所述N个音频输入通道相关联的至少一个空间方向相关联。
所述N个音频输入通道中的每一个可与公共平面中的空间方向相关联。M个音频输入通道的相关联空间方向中的至少一个可位于与所述N个音频输出通道相关联的平面上方或者位于所述平面下方。M个音频输入通道的相关联空间方向中的至少一些可相对于基准空间方向改变距离。
在具体实施例中,与N个音频输出通道相关联的空间方向可包括左、中心、右、左环绕和右环绕。与M个音频输出通道相关联的空间方向可包括左、中心、右、左环绕、右环绕、抬高的左前部、抬高的中前部、抬高的右前部、抬高的左环绕、抬高的中心环绕和抬高的右环绕。与N个音频输入通道相关联的空间方向可进一步包括抬高的顶部。
根据本发明的其他方面的第一方面,一种用于将M个音频输入信号转换至N个音频输出信号的方法,所述M个音频输入信号中的每一个与一方向相关联,所述N个音频输出信号中的每一个与一方向相关联,其中N大于M,M为2或更大,并且N是等于3或更大的正整数,该方法包括提供M:N可变矩阵,将M个音频输入信号施加到所述可变矩阵,从所述可变矩阵导出所述N个音频输出信号,并且响应于输入信号控制所述可变矩阵以使得当输入信号高度相关时由输出信号产生的声场在输入信号的标称前进主方向上具有紧凑声音图像,该图像随着相关性降低而从紧凑向宽扩散,并且随着相关性继续降低至高度不相关而逐渐拆分成多个紧凑声音图像,所述多个紧凑声音图像中的每一个位于与一输入图像相关联的方向上。
根据本发明的其他方面的此第一方面,该可变矩阵可响应于(1)输入信号的相对电平以及(2)输入信号的互相关性的度量而被控制。在该情况下,对于具有在由最大值和基准值限定边界的第一范围中的值的输入信号的互相关性的度量,声场可在所述互相关性的度量为所述最大值时具有紧凑声音图像,并且可在所述互相关性的度量为所述基准值时具有宽扩散的图像,并且对于具有在由所述基准值和最小值限定边界的第二范围中的值的输入信号的互相关性的度量,声场可在所述互相关性的度量为所述基准值时具有宽扩散的图像,并且可在所述互相关性的度量为所述最小值时具有多个紧凑声音图像,所述多个紧凑声音图像中的每一个位于与一输入图像相关联的方向上。
根据本发明的其他方面的另外方面,一种用于将M个音频输入信号转换至N个音频输出信号的方法,所述M个音频输入信号中的每一个与一方向相关联,所述N个音频输出信号中的每一个与一方向相关联,其中N大于M,M为3或更大,该方法包括提供多个m:n可变矩阵,其中m是M的子集并且n是N的子集,给所述多个可变矩阵中的每一个施加所述M个音频输入信号的对应子集,从所述多个可变矩阵中的每一个导出所述N个音频输出信号的对应子集,响应于被施加给所述多个可变矩阵中的每一个的所述输入信号的子集控制该可变矩阵,以使得当被施加给该可变矩阵的所述输入信号的子集高度相关时由从该可变矩阵导出的输出信号的对应子集产生的声场在所述输入信号的所述子集的标称前进主方向上具有紧凑声音图像,该图像随着相关性降低而从紧凑向宽扩散,并且随着相关性继续降低至高度不相关而逐渐拆分成多个紧凑声音图像,所述多个紧凑声音图像中的每一个位于与被施加给该可变矩阵的一输入图像相关联的方向上,并且从N个音频输出通道的子集导出所述N个音频输出信号。
根据本发明的其他方面的此另外方面,可变矩阵还可响应于补偿接收相同输入信号的一个或多个其他可变矩阵的影响的信息被控制。此外,从N个音频输出通道的子集导出所述N个音频输出信号还可包括补偿产生相同输出信号的多个可变矩阵。根据本发明的其他方面的这样的另外方面,多个可变矩阵中的每一个可响应于(a)被施加到该可变矩阵的输入信号的相对电平以及(b)输入信号的互相关性的度量而被控制。
根据本发明的其他方面的还另外方面,一种用于将M个音频输入信号转换至N个音频输出信号的方法,所述M个音频输入信号中的每一个与一方向相关联,所述N个音频输出信号中的每一个与一方向相关联,其中N大于M,并且M为3或更大,该方法包括提供响应于控制矩阵系数或控制矩阵输出的缩放因子的M:N可变矩阵,将所述M个音频输入信号施加到所述可变矩阵,提供多个m:n可变矩阵缩放因子生成器,其中m是M的子集并且n是N的子集,向所述多个可变矩阵缩放因子生成器中的每一个施加所述M个音频输入信号的对应子集,从所述多个可变矩阵缩放因子生成器中的每一个导出用于所述N个音频输出信号的对应子集的可变矩阵缩放因子的集合,响应于被施加给所述多个可变矩阵缩放因子生成器中的每一个的输入信号的子集控制该可变矩阵缩放因子生成器,使得当由该可变矩阵缩放因子生成器生成的缩放因子被施加给所述M:N可变矩阵时,由所产生的输出信号的相应子集生成的声场在产生所述被施加的缩放因子的所述输入信号的子集高度相关时在所述输入信号的所述子集的标称前进主方向上具有紧凑声音图像,该图像随着相关性降低而从紧凑向宽扩散,并且随着相关性继续降低至高度不相关而逐渐拆分成多个紧凑声音图像,所述多个紧凑声音图像中的每一个位于与产生被施加的缩放因子的一输入图像相关联的方向上,并且从所述可变矩阵导出所述N个音频输出图像。
根据本发明的其他方面的此还另外方面,可变矩阵缩放因子生成器还可响应于补偿接收相同输入信号的一个或多个其他可变矩阵缩放因子生成器的影响的信息被控制。此外,从所述可变矩阵导出所述N个音频输出信号可包括补偿产生用于相同输出信号的缩放因子的多个可变矩阵缩放因子生成器。根据本发明的其他方面的这样的另外方面,多个可变矩阵缩放因子生成器中的每一个可响应于(a)被施加到该可变矩阵缩放因子生成器的输入信号的相对电平以及(b)输入信号的互相关性的度量而被控制。
如文中使用的,“通道”是代表从一方向(考虑到较近或较远的虚拟或投影通道,例如方位角、高度以及可选地距离)到达的音频或者与其相关联的单个音频流。
根据本发明,代表声场的M个音频输入通道被转换成代表同一声场的N个音频输出通道,其中每一通道是代表从一方向到达的音频的单个音频流,M和N都是正整数,并且M至少为2并且N至少为3,并且N大于M。生成输入通道的一个或多个集合,每个集合具有一个或多个输出通道。每个集合通常与两个或更多个空间相邻输入通道相关联,并且通过确定该两个或更多个输入通道的相关性的度量以及该两个或更多个输入通道的电平相互关系的度量,来生成一集合中的每个输出通道。互相关性的度量优选地是零时间偏移互相关性的度量,其是公共能量电平与输入信号能量电平的几何平均值的比。公共能量电平优选地是被平滑化或平均化的公共能量电平,并且输入信号能量电平是被平滑化的或被平均化的输入信号能量电平。
在本发明的一个方面,输出通道的多个集合可与多于两个的输入通道相关联,并且一种处理可根据层级顺序确定与输出通道的每个集合相关联的输入通道的相关性,使得每个集合或多个集合根据与其的输出通道或多个输出通道相关联的输入通道的数量被分级,最大的输入通道的数量具有最高的等级,并且该处理根据多个集合的层级顺序依次处理所述多个集合。此外,根据本发明的一个方面,该处理考虑了处理更高阶集合的结果。
本发明的某些重放或解码方面假设代表从一方面给到达的音频的M个音频输入通道中的每一个由每个源方向(即,源方向被假定主要映射到最近的一个或多个输入通道)的被动矩阵最近邻居幅值扫调编码生成,而不需要附加的侧链信息(侧链或辅助信息的使用是可选的),使得其可与现有混合技术、控制台和格式相容。尽管这样的源信号可通过明确采用被动编码矩阵来生成,但是大多数常规记录技术本质上可生成这样的源信号(因此,构成“有效编码矩阵”)。本发明的某些重放或解码方面还与诸如可通过5个真实方向麦克风得到的自然记录源信号大大相容,这是因为考虑到一些可能的延时,从中间方向到达的声音趋向于主要映射到最近的麦克风(在水平阵列中,具体映射到最近的麦克风对)。
根据本发明的各方面的解码器或解码处理可被实现为耦合的处理模块或模块化函数(下文“模块”或“解码模块”)的网格,每一解码模块被用于典型地由与解码模块相关联的最近空间邻近输入通道中的两个或更多个通道,生成一个或多个输出通道(或者可替换地,控制可用于生成一个或多个输出通道的信号)。输出通道典型地代表在与特定解码模块相关联的最近空间邻近输入通道中的音频信号的相对比例。如下文更详细解释的,解码模块在模块共享输入的意义上相互松散地耦合,并且存在解码模块的层级体系。模块被根据与它们相关联的输入通道的数量分层级地排序(具有最高数量的相关联输入通道的一个或多个模块的等级最高)。监控器或监控函数管理模块,以使得公共输入信号在模块之间或之中被相等地共享,并且较高等级的解码器模块可可影响较低等级的模块。
每个解码器模块可实际上包括矩阵,从而其可直接生成输出信号,或者每个解码器模块可生成控制信号,该控制信号与由其它解码器模块生成的控制信号一起被用于改变可变矩阵的系数或者固定矩阵的输入或者输出的缩放因子,以便生成所有输出信号。
解码器模块模拟人耳的工作以尝试提供听觉明晰的再现。解码器模块和模块函数作为其的一个方面的根据本发明的信号转换可被应用于宽带信号,或者被应用于多频带处理器的各频带,并且依赖于实现,可每个样本执行一次或者样本的每个块执行一次。多频带实施例可采用滤波器组,诸如离散临界带滤波器组或具有与相关联解码器相容的频带结构的滤波器组,或变换配置,诸如FFT(快速傅立叶变换)或MDCT(修改的离散余弦变换)线性滤波器组。
本发明的另一方面是接收N个输出通道的扬声器的量可通过对虚拟成像的明智依赖被减小至合乎实际的量,该虚拟成像是在空间中的除扬声器所在位置之外的位置处产生被感觉到的声音图像。尽管虚拟成像的最普遍使用是在两个扬声器之间的图像的立体声再现中,但是,通过在通道之间扫调单声道信号,如作为本发明的一个方面被设想的虚拟成像可包括幻觉投影图像的呈现,其提供了超出房间的墙壁之外或者在房间的墙壁内部的听觉引向。虚拟成像不被认为是用于具有稀疏数量的通道的成组表现的可行技术,因为其需要收听者距两个扬声器等距或基本等距。例如,在电影院中,左前部和右前部扬声器间隔过远以至于不能使得大部分观众获得中央图像的有用幻觉成像,因此考虑到中心通道作为大部分对话的来源的重要性,作为替代,使用物理中心扬声器。
因为扬声器的密度增加,对于大部分观众,至少在扫调平滑的程度上,在任何扬声器对之间的虚拟成像可行的点将被达到;通过足够的扬声器,扬声器之间的间隙因而不再被察觉到。
信号分布
如上所述,互相关性的度量确定模块中的主导(公共信号分量)与非主导(非公共信号分量)能量的比,以及模块的输出通道之中的非主导信号分量的扩散程度。可通过考虑对于二输入模块的情况在不同条件下对于模块的输出通道的信号分布,更好地理解这一点。除非另外指出,文中所阐述的原理直接延伸到较高等级的模块。
信号分布所遇到的问题是常常存在过少的信息以至于不能恢复原信号幅值分布,该信息远少于信号本身。可利用的基本信息是在各模块输入处的信号电平以及被平均化的输入信号的交叉乘积、公共能量电平。零时间偏移互相关性是公共能量电平相对于输入信号能量电平的几何平均值的比。
互相关性的重要性在于其用作所有输入共用的信号的净幅值的度量。如果存在被扫调至模块的输入之间的任何地方的单个信号(“内部”和“中间”信号),所有输入将具有相同波形(虽然可能具有不同幅值),并且在这些条件下,相关性将为1.0。在另一个极端情况,如果所有输入信号都是独立的,这意味着不存在公共信号分量,相关性将为0。在0和1.0中间的相关性的值可被认为对应于在输入处的一些单个的、公共信号分量和独立信号分量的中间平衡电平。因此,任何输入信号条件可被分成公共信号、“主导”信号和在减去公共信号的贡献之后剩余的输入信号分量,包括“所有其余”信号分量(“非主导”或残余信号能量)。如上所说,公共或“主导”信号幅值不一定比残余或非主导信号电平响亮。
例如,考虑被映射到单个Lt/Rt(左总体和右总体)对的成弧形的五个通道(L(左)、MidL(中间左侧)、C(中心)、MidR(中间右侧)、R(右侧))的情况,希望在该单个Lt/Rt对中恢复原始的五个通道。如果所有五个通道具有等幅值的独立信号,然后Lt和Rt的幅值将相等,具有对应于在0和1之间的互相关性的中间值的公共能量的中间值(由于Lt和Rt是非独立的信号)。可在不利用来自MidL和MidR的信号的情况下通过合适地选择L、C和R的电平而实现相同的电平。因此,二输入、五输出模块可能仅馈送对应于主导方向的输出通道(在此情况下,C),以及对应于在从Lt和Rt输入去除C能量之后的输入信号残余的输出通道(L,R),而没有向MidL和MidR输出通道供给信号。这种结果是不希望的,不必要地关闭通道几乎总是一个坏的选择,这是因为信号条件中的小的扰动将造成“关闭”通道在开通和关闭之间反复,导致烦人的颤动声音(“颤动”是通道快速开通和关闭),当“关闭”通道被隔离地收听时尤其如此。
因此,当对于给定的一组模块输入信号值存在多种可能的输出信号分布时,从个体通道质量的角度考虑的守恒方法是与信号条件一致地在模块的输出通道中尽可能均匀地扩散非主导信号分量。本发明的一个方面根据三路拆分、而不是“主导”对比“非主导”两路拆分在服从信号条件的情况下均匀地扩散可用信号能量。优选地,三路拆分包含主导(公共)信号分量、填充(均匀扩散)信号分量、和输入信号分量残余。不幸的是,仅存在足以进行两路拆分(主导信号分量和所有其它信号分量)的信息。文中描述了一种用于实现三路拆分的合适方法,其中对于高于特定值的相关值,两路拆分采用主导和扩散非主导信号分量;对于低于该值的相关值,两路拆分采用扩散的非主导信号分量和残余。公共信号在“主导”和“均匀扩散”之间被分开。“均匀扩散”分量包括“主导”和“残余”信号分量两者。因此,“扩散”包含公共(相关)和残余(不相关)信号分量的混合。
在处理之前,对于给定模块的给定输入/输出通道配置,对应于接收相同信号幅值的所有输出通道计算相关值。该相关值可被称为“random_xcor”值。对于单个、居中导出的中间输出通道和两个输入通道,random_xcor值可计算为0.333。对于三个相等地扩散的中间通道以及两个输入通道,random_xcor值可计算为0.483。尽管已发现这样的时间值提供了令人满意的结果,但是它们不是关键的。例如,分别为大约0.3和0.5的值可用。换句话说,对于具有M个输入和N个输出模块,存在可被认为代表所有N个输出中的相等能量的特定的M个输入的相关度。这可通过将M个输入考虑它们好像已使用接收N个相等能量的独立信号的被动N到M矩阵被导出来得出,但是当然,可通过其它手段导出实际输出。此阈值相关值是“random_xcor”,并且其可代表两个操作区之间的分割线。
然后,在处理期间,如果模块的互相关值大于或等于random_xcor值,则其被缩放到1.0至0的范围:
scaled_xcor=(相关值-random_xcor)/(1-random_xcor)
“scaled_xcor”值代表高于均匀扩散电平的主导信号的量。所有剩下的可被均匀分布到模块的其它输出通道。
但是,存在附加的应被考虑的因子,即当输入信号的标称前进主方向变得越来越多地偏离中心时,如果维持对于所有输出通道的相等分布,则扩散能量的量应被逐渐减少,或者可替换地,扩散能量的量应被维持,但是分布到输出通道的能量应相对于主导能量的“偏心度”而被减少——换句话说,沿输出通道的能量渐缩。在后一种情况下,需要附加的处理复杂度以维持输出功率等于输入功率。应注意,文中对于“功率”的一些引用从严格的观点看指的是“能量”。对“功率”的引用在文献中被普遍使用。
另一方面,如果当前相关值小于random_xcor值,则主导能量被认为是0,均匀扩散的能量被逐渐减小,并且残余信号(所有剩下的)被允许在输入处累积。在相关值=0时,不存在内部信号,仅有直接映射到输出通道的独立的输入信号。
本发明的此方面的操作可被如下地进一步解释:
a)当实际相关值大于random_xcor时,存在足够的能量,使得认为存在将在两个相邻输出之间被引导(扫调)(或者,当然,如果其方向恰好与一个输出重合,则被提供给该个输出)的主导信号;从输入中减去分配给该主导信号的能量以得到在所有输出之间(优选地均匀地)分布的残余。
b)当实际相关值正好为random_xcor时,输入能量(可被认为全部是残余)在所有输出之中均匀地分布(这是random_xcor的定义)。
c)当实际相关值小于random_xcor时,不存在对于主导信号足够的公共能量,从而输入的能量被按依赖于重要程度的比例在输出之中分布。这就好像将相关部分作为残余处理以在所有输出中均匀分布,并且将不相关部分就好像要被发送给对应于输入的方向的输出的多个主导信号。在相关值为0的极端情况下,每个输入仅被馈送到一个输出位置(通常为多个输出中的一个输出,但是其可是两个输出之间的扫调位置)。
因此,在完全相关到零相关之间存在连续性,在完全相关的情况下,根据输入的相对能量单个信号在两个输出之间被扫调,通过random_xcor,输入在所有输出之中均匀地分布,在零相关的情况下,M个输入被独立地馈送给M个输出位置。
相互作用补偿
如上文所述,根据本发明的一个方面的通道转换可被认为涉及“模块”的网格。由于多个模块可共享给定的输入通道,因此在模块之间可存在相互作用,并且除非采取一些补偿,否则该相互作用可能使性能劣化。尽管通常不能根据信号将“去往”的模块而在输入处对信号进行分离,但是估计信号被每个连接的模块所使用的量可改进得到的相关性和方向估计,得到改进的总体性能。
如上所述,存在两种模块相互作用:涉及处于共同的或较低的层级水平的模块(即具有相似数量的输入或较少输入的模块)的模块相互作用,该模块被称为“邻居”,以及涉及与给定模块相比处于较高层级水平(具有较多输入)但是共享一个或多个公共输入的模块的模块相互作用,这种模块被称为“高等级邻居”。
考虑在共同层级水平的第一邻居补偿。为了理解由邻居相互作用造成的问题,考虑具有相同的L/R(左和右)输入信号的隔离的两输入模块。这对应于在输入之间的中途的单个主导(公共)信号。公共能量为A2,并且相关值为1.0。假设第二二输入模块,具有在其的L/R输入处的公共信号B、公共能量B2,以及也具有相关值1.0。如果这两个模块连接在公共输入处,则在该输入处的信号将是A+B。假设信号A和B是独立的,则然后AB的平均乘积将为0,从而第一模块的公共能量将为A(A+B)=A2+AB=A2,并且第二模块的公共能量将为B(A+B)=B2+AB=B2。因此,公共能量未受相邻模块影响,只要它们处理独立信号即可。这通常是正确的假设。如果信号不是独立的,是相同的或者至少基本共享公共信号分量,则该系统将以与人耳的响应一致的方式进行反应——即公共输入将较大,导致得到的音频图像被朝公共输入牵引。在此情况下,由于公共输入比任何外部输入多信号幅值(A+B),各模块的L/R输入幅值比偏移,这使得方向估计偏向公共输入。在该情况下,两个模块的相关值现在稍小于1.0,这是因为在成对输入处的波形是不同的。由于相关值确定非主导信号分量的扩散程度以及主导(公共信号分量)与非主导(非公共信号分量)能量的比,未被补偿的公共输入信号使得各模块的非公共信号分布扩散。
为了进行补偿,估计可归因于各模块的各输入的“公共输入电平”的度量,然后,每个模块被告知在各模块输入处的相同层级水平的所有相邻电平的这样的公共输入电平能量的总量。文中描述了计算可归因于模块的各输入的公共输入电平的度量的两种方式:一种方式基于模块的输入的公共能量(在下一段中描述),另一种方式更精确但是需要更大的计算资源,其基于模块的内部输出的总能量(下文结合图6A的布置进行描述)。
根据计算可归因于模块的各输入的公共输入电平的度量的第一方式,模块的输入信号的分析不能使得直接求出在各输入处的公共输入电平,仅求出总公共能量的一部分,其是公共输入能量电平的几何平均值。由于在各输入处的公共输入能量电平不能超过该输入处的总能量电平,该总能量电平被测量并且已知,因此将总公共能量乘以因子以得到与观测的输入电平成比例的估计的公共输入电平,随后进行量化。一旦对于网格中的所有模块计算了公共输入电平的总体(不管公共输入电平的度量是基于第一计算方式还是基于第二计算方式)、各模块被告知在各输入处的所有相邻模块的总的公共输入电平,被称为模块的在其各输入处的“邻居电平”的量。模块然后从在其各输入处的输入电平中减去邻居电平以得到经补偿的输入电平,其被用于计算相关性和方向(输入信号的标称前进主方向)。
对于上述例子,相邻电平最初为0,从而由于公共输入具有比任一端部输入更多的信号,因此第一模块在该输入处要求超过A2的公共输入功率电平,并且第二模块在同一输入处要求超过B2的公共输入电平。由于这两个要求都多于在该电平的可用能量,因此该要求被分别限制为A2和B2。由于不存在与该公共输入连接的其它模块,因此各公共输入电平对应于领域模块的邻居电平。因此,由第一模块看到的经补偿的输入功率电平为
(A2+B2)-B2=A2
并且,由第二模块看到的经补偿的输入功率电平为
(A2+B2)-A2=B2.
但是,这些正好是将在模块被隔离的情况下被看到的电平。因此,得到的相关值将为1.0,并且如所希望的,在合适的幅值下,主导方向将在中心。然而,被恢复的信号本身将不被完全隔离——第一模块的输出将具有一些B信号分量,并且反之依然,但是这是矩阵系统的局限性,并且如果在多频带基础上执行该处理,则混合的信号分量将处于相似频率,稍微未决地呈现它们之间的区别。在更复杂的情况下,补偿通常将不那么精确,但是通过该系统的体验可了解到在实践中,该补偿减轻了相邻模块相互作用的大部分影响。
在已经建立了用于邻居电平补偿的原理和信号的情况下,到高等级邻居电平补偿的扩展是相当简单明了的。这应用于其中处于不同层级水平的两个或更多个模块共享多于一个的公共输入通道的情况。例如,可存在与二输入模块共享两个输入的三输入模块。所有三个输入共用的信号分量也将是二输入模块的两个输入共用的,并且在未补偿的情况下,将被各模块在不同的位置呈现。更一般地,可存在所有三个输入共用的信号分量,以及仅二输入模块的输入共用的第二分量,需要它们的影响被尽可能多地分隔开以便进行输出声场的正确呈现。因此,如上述的公共输入电平所具体表现的,在二输入计算可被适当地执行之前,三输入公共信号应被从输入中减去。实际上,在进行低等级计算之前,高等级公共信号元素不仅应被从低等级模块的输入电平中减去,而且还应从其的被观测的公共能量电平的度量中减去。这不同于处于相同层级水平的模块的公共输入电平的影响,该影响不影响相邻模块的公共能量电平的度量。因此,高等级邻居电平应被与相同等级邻居电平分开考虑和采用。在高等级邻居电平已向下传递给层级较低的模块的同时,低等级模块的剩余公共电平也应在层级体系中被向上传递,这是因为如上所述,低等级模块如同普通邻居那样对高等级模块起作用。一些量是互相依存的并且难以同时求出。为了避免执行复杂的联立求解资源密集计算,可将先前计算的值传递给相关模块。在不同层级水平的模块公共输入电平的潜在相互依赖性可利用如上所述的先前的值被解决,或者从最高层级水平到最低层级水平以重复序列(即,环路)执行计算。可替换地,尽管包含并非微不足道的计算开销,但是联立方程求解也是可能的。
尽管所述的相互作用补偿技术仅提供了用于复杂信号分布的近似正确值,但是它们被认为对未能考虑模块相互作用的网格布置进行了改进。
附图说明
图1A是示意性地示出按测试布置的方式的理想化编码和/或解码布置的顶视平面图,该测试布置使用房间墙壁周围的16通道水平阵列、在水平阵列之上设置成圆形的6通道阵列和单个天花板(顶部)通道。
图1B是示意性示出使用房间墙壁周围的16通道水平阵列、在该水平阵列之上设置成圆形的6个通道阵列和单个天花板(顶部)通道的理想化的替代性编码和/或解码布置的顶视平面图。
图2是提供实现图1A的解码例子的通过中心监控器操作的多个模块的多频带变换实施例的概观的功能框图。
图2′是提供实现图1B的解码例子的通过中心监控器操作的多个模块的多频带变换实施例的概观的功能框图。
图3是可用于理解诸如图2和2′的监控器201的监控器或图2′可确定端点缩放因子的方式的功能框图。
图4A~4C示出根据本发明的一个方面的模块的功能框图。
图5是表示由成三角形关系的输入通道馈送的三输入模块、三个内部输出通道和主导方向的假想布置的示意图。该视图可用于理解主导信号分量的分布。
图6A和图6B是分别示出用于(1)响应各输入处的总能量产生模块的各输入的总估计能量和(2)响应输入信号的交叉相关性的度量产生模块的端点中的每一个的多余端点能量缩放因子分量的一个适当的布置的功能框图。
图7是示出图4C的“求和和/或取较大者”块367的优选功能的功能框图。
图8是本发明的一个方面响应交叉相关性的度量产生缩放因子分量的方式的理想化表现。
图9A和图9B到图16A和图16B是示出输入信号条件的各种例子得出的模块的输出缩放因子的理想化呈现的一系列视图。
具体实施方式
为了测试本发明的各方面,部署这样一种布置,该布置在具有四个墙壁的房间的各墙壁上具有5个扬声器(每个拐角处各有一个扬声器,在各拐角之间具有均匀分隔开的三个扬声器)、考虑到公共的拐角扬声器共16个扬声器的水平阵列,加上以约45度的垂直角度在位于中心的收听者之上的6个扬声器的环,加上单个在正上方的扬声器(共23个扬声器),加上亚低音扬声器/LFE(低频率效果)通道(总共24个扬声器),所有的扬声器被对于24通道回放设置的个人计算机馈送。虽然通过当前的用语,该系统可被称为23.1通道系统,但是,为了简单,这里将被称为24通道系统。
图1A是示意性地按上述的试验布置的方式的理想化解码布置的顶视平面图。该图还呈现了23.1源通道被下混合到6.1通道的理想化编码布置,该6.1通道由如在一般使用的系统中标准的5.1通道(左、右、左环绕、右环绕和LFE)、加上一个附加的通道(顶部通道)构成。
返回图1A的描述,作为解码或上混合布置,五个宽范围水平输入通道被示出在外部圆上的正方形1′、3′、5′、9′和13′。垂直或顶部通道被示为在中心的虚线正方形23′,该垂直或顶部通道可通过相关或产生的回响从五个宽范围输入导出或者作为第六通道(如上面以及图2那样)被单独供给。二十三个宽范围输入通道被示为填充数字的圆1~23。十六个输出通道的外部圆处于水平面上,六个输出通道的内部圆为水平面之上四十五度。输出通道23处于一个或更多个收听者正上方。五个二输入解码模块由围绕该外部圆的、连接在各对的水平输入通道之间的括号24-28勾画。五个附加的二输入垂直解码模块被连接垂直通道与水平输入中的每一个的括号29~33勾画。如输出通道21和输入通道9、13和23之间的箭头所示,从三输入解码模块34导出作为抬高的中心后部通道的输出通道21。因此,三输入模块34的层级比其的二输入较低等级相邻模块27、32和33高一个等级(LEVEL)。在本例子中,各模块与相应的一对或三个最接近的空间相邻输入通道相关。本例子中的各模块具有至少三个相同等级的邻居。例如,模块25、28、29是模块24的邻居。
虽然图1A所示的解码模块以不同方式具有三个、四个或五个输出通道,但是,解码模块可具有任何合理的数量的输出通道。输出通道可位于两个或更多个输入通道中间或者处于与输入通道相同的位置。因此,在图1A例子中,输入通道地点(LOCATION)中的每一个也是输出通道。两个或三个解码模块共享各输入通道。
虽然图1A的布置使用五个模块(24~28)(各具有两个输入)和五个输入(1′、3′、5′、9′和13′)以导出代表房间的四个墙壁周围的地点的十六个水平输出(1~16),但是,可以通过最少三个输入和三个模块(各具有两个输入,每个模块与另一个模块共享一个输入)获得类似的结果。
通过使用每个模块具有按圆弧或线的方式的多个输出通道的多个模块(诸如图1A、图1B、图2和图2′的例子),在小于零的相关性被解码为指示向后方向的现有技术解码器中所遇到的解码模糊可被避免。
以下结合图1B的描述来描述图1A的编码/解码布置的替代方案。
虽然输入和输出通道可由它们的物理位置或者至少它们的方向表征,但是,用矩阵表征它们是有用的,原因是它提供了良好限定的信号关系。各矩阵元素(行i,列j)是使输入通道i与输出通道j相关的传递函数。矩阵元素通常是带符号的乘法系数,但也可包含相位或延迟项(原理上,任何过滤器),并且可以是频率的函数(在离散频率方面,在各频率处为不同矩阵)。在向固定矩阵的输出施加的动态缩放因子的情况下,这是简单明了的,但是,它还通过对于各矩阵元素或者对于比简单缩放因子复杂的矩阵元素具有单独的缩放因子而适于可变矩阵,其中,矩阵元素自身是变量(例如可变延迟)。
在将物理位置映射到矩阵元素时存在一定的灵活性;原理上,本发明的各方面的实施例可处理输入通道向任何数量的输出通道的映射以及相反的映射,但是,最一般的情况是假定仅通过简单缩放因子将信号映射到最接近的输出通道,为了节省功率,该简单缩放因子的平方和为1.0。常常通过正弦/余弦扫调(panning)函数完成这种映射。
例如,对于两个输入通道和它们之间的线上的三个内部输出通道加上与输入位置一致的两个端点输出通道(即,M:N模块,其中,M为2并且N为5),可以假定跨度表示90度的圆弧(正弦或余弦从0变为1或者从1变为0的范围),使得各通道以90度/4间隔=22.5度分隔开,从而给出(cos(角度),sin(角度))的通道矩阵系数:
Lout coeffs=cos(0),sin(0)=(1,0)
MidLout coeffs=cos(22.5),sin(22.5)=(.92,.38)
Cout coeffs=cos(45),sin(45)=(.71,.71)
MidRout coeffs=cos(67.5,sin(67.5)=(.38,.92)
Rout coeffs=cos(90),sin(90)=(0,1)
因此,对于具有固定系数和由各矩阵输出处的缩放因子控制的变量增益的矩阵的情况,在五个输出通道中的每一个处输出的信号为(这里,“SF”是用于由下标标识的特定输出的缩放因子):
Lout=Lt(SFL)
MidLout=((.92)Lt+(.38)Rt))(SFMidL)
Cout=((.45)Lt+(.45)Rt))(SFC)
MidRout=((.38)Lt+(.92)Lt))(SFMidR)
Rout=Rt(SFR)
一般地,给定输入通道的阵列,可以在概念上通过直线将最接近的输入相结合,从而表示潜在的解码器模块。(它们是“潜在的”,因为如果不存在需要从模块导出的输出通道,那么不需要该模块)。对于典型的布置,可从二输入模块导出两个输入通道之间的线上的任何输出通道(如果源和传送通道处于公共的平面中,那么任何一个源出现于至多两个输入通道中,在这种情况下使用多于两个的输入没有好处)。处于输入通道的相同位置的输出通道是可能多于一个的模块的端点通道。不处于线上或与输入处于同一位置(例如,在由三个输入通道形成的三角形的内部或外部)的输出通道需要具有多于两个的输入的模块。
当公共信号占据多于两个的输入通道时,具有多于两个的输入的解码模块是有用的。例如,这在源通道和输入通道不在平面中时会出现:源通道可映射到多于两个的输入通道。这在将24个通道(16个水平环通道、6个抬高的环通道,1个垂直通道,加上LFE)映射到6.1通道(包含复合的垂直或顶部通道)的图1A的例子中出现。在这种情况下,抬高的环中的中心后通道不在两个源通道之间的直达线中,它处于由Ls(13)、Rs(9)和顶部(23)通道形成的三角形的中间,因此,需要三输入模块以提取它。将抬高的通道映射到水平阵列的一种方式是将它们中的每一个映射到多于两个的输入通道。这允许将图1A例子的24个通道映射到常规的5.1通道阵列。在该替代方案中,多个三输入模块可提取抬高的通道,并且,剩余信号分量可被二输入模块处理,以提供通道的主水平环。在下文进一步结合图1B和图2′描述这种替代方案。
一般地,不需要检查输入通道之间的信号公共性的所有可能组合。对于平面通道阵列(例如,表示水平排列方向的通道),执行空间相邻通道的成对类似性比较通常就够了。对于在罩盖或球表面中布置的通道,信号公共性可扩展到三个或更多个通道。也可使用信号公共性的使用和检测以传输常规的信号信息。例如,垂直或顶部信号分量可通过映射到水平五通道阵列的所有五个全范围通道而被呈现。在下文进一步结合图1B和图2′描述这种替代方案。
关于哪些输入通道组合连同默认输入/输出映射矩阵一起分析公共性的决定仅需在配置转换器或转换器函数时对于每个输入/输出通道转换器或转换器函数布置进行一次。“初始映射”(在处理之前)导出使输入/输出通道配置与通道的空间取向相关的被动“主”矩阵。作为一种替代方案,本发明的处理器或处理部分可产生时变缩放因子,每个输入通道一个,其修正否则将是简单的、被动矩阵的输入信号电平或矩阵系数本身。如下所述,缩放因子继而从(a)主导、(b)均匀散布(填充)和(c)剩余(端点)信号分量导出。
主矩阵对于配置诸如图1A和1B的例子中示出的并且下文结合图2和2’进一步描述的模块的布置是有用的。通过检查主矩阵,例如可推断出需要多少解码器模块、它们如何连接、各具有多少输入和输出通道、以及与各模块的输入和输出相关的矩阵系数。这些系数可从主矩阵取得;除非输入通道也是输出通道(即,端点),否则仅需要非零值。
每个模块优选地具有“局部”矩阵,其是主矩阵的可应用于特定模块的部分。在如图1A和2的例子的多模块布置的情况下,模块可为了产生如下文结合图2、2’以及4A~4C描述的用于控制主矩阵的缩放因子(或矩阵系数)或者为了产生输出信号的子集而使用局部矩阵,该输出信号由中心处理器(诸如结合图2和2’描述的监控器)组合。在后一种情况下,这种监控器以这样的方式补偿具有公共输出信号的模块所产生的相同输出信号的多个版本,该方式类似于图2和2’的监控器201确定最终缩放因子以替换由对于相同输出通道产生初步缩放因子的模块产生的初步缩放因子。
在产生除输出信号之外的缩放因子的多个模块的情况下,这样的模块可经由监控器从主矩阵连续获得与自身有关的矩阵信息,而不是具有局部矩阵。但是,如果模块具有其自身的局部矩阵,则需要较少的计算开销。在单个、孤立模块的情况下,该模块具有局部矩阵,其是唯一需要的矩阵(实际上,该局部矩阵是主矩阵),并且局部矩阵被用于产生输出信号。
除非另外指示,否则参照模块产生缩放因子的替换方案描述本发明的具有多个模块的实施例。
在模块的局部矩阵中仅具有一个非零系数(系数为1.0,由于系数的平方和为1.0)的任何解码模块输出通道是端点通道。具有一个以上的非零系数的输出通道是内部输出通道。考虑一个简单的示例。如果输出通道O1和O2两者被从输入通道I1和输出通道I2导出(但是具有不同的系数值),然后尤其需要在I1和I2之间连接的用于产生输出O1和O2的二输入模块。在更复杂的情况下,如果存在5个输入和16个输出,并且一个解码器模块具有输入I1和I2并且馈送输出O1和O2,则:
O1=A I1+B I2+0 I3+0 I4+0 I5
(应注意,输入通道I3、I4或I5没有贡献),以及
O2=C I1+D I2+0 I3+0 I4+0 I5
(应注意,输入通道I3、I4或I5没有贡献)
然后,解码器可具有两个输入(I1和I2),两个输出、以及使它们相关的缩放因子为:
O1=A I1+B I2,和
O2=C I1+D I2.
在单个、孤立模块的情况下,主矩阵或局部矩阵可具有用于提供不只乘法的功能的矩阵元素。例如,如上所述,矩阵元素可包括过滤器函数(例如相位或延迟项)和/或作为频率的函数的过滤器。可应用的过滤的一个示例是可呈现幻觉投影图像的纯延迟的矩阵。实际上,这样的主矩阵或局部矩阵可例如被分成两个功能,一个采用导出系数来导出输出通道,并且第二个应用过滤器功能。
图2是提供实施图1A的例子的多频带变换实施例的概观的功能框图。图2’是提供实施图1B的例子的多频带变换实施例的概观的功能框图。其与图2的不同之处在于图2的模块中的若干个模块(即,模块29-34)接收不同的输入集合(这样的模块由数字29’-34指示;图2’还具有附加模块、模块35’)。除了在一些模块输入中的区别之外,,图2和2’相同,并且相应的元件使用相同的附图标记。在图2和2’两者中,例如具有多个交织音频信号通道的PCM音频输入被施加到包括去交织器的监控器或监控函数201(下文“监控器201”),该去交织器恢复由被交织的输入承载的六个音频信号通道(1’,3’,5’,9’,13’和23’)中的每一个的分离流,并且将每一个应用于时域-频域变换或变换函数(下文“前馈变换”)。可替换地,音频通道可被在分离流中接收,在此情况下不需要去交织器。
如上所述,根据本发明的信号转换可应用于宽带信号,或应用于多频带处理器中的每个频带,该多频带处理器可采用滤波器组(例如离散临界频带滤波器组或具有与相关联的解码器相容的频带结构的滤波器组),或变换配置(诸如FFT(快速傅立叶变换)或MDCT(修改的离散余弦变换)线性滤波器)。图2、2’、4A~4C以及其它附图在多频带变换配置的上下文中被描述。
图1A、1B、2、2’以及其它附图中为了简化而未示出的是可选的LFE输入通道(图1A和2中的潜在第七输入通道,以及图1B和2’中的潜在第六输入通道)和输出通道(图1A和2中的潜在第24个输出通道)。LFE通道通常可以与其它输入和输出通道相同的方式、但是以固定为“1”的其自身的缩放因子以及也固定为“1”的其自身的矩阵系数,被处理。在源通道不具有LFE但是输出通道具有LFE(例如,2.5:1上混合)的情况下,可使用应用于通道的和的低通滤波器(例如,转折频率为120Hz的五阶Butterworth滤波器)导出LFE通道,或者为了避免通道相加时消除,可采用通道的相位相关的和。在输入具有LFE通道但是输出没有的情况下,可将LFE通道添加到输出通道的一个或多个中。
继续图2和2’的描述,模块24-34(图2’中的24-28以及29”至35’)以图1A和1B所示的方式接收六个输入1’,3’,5’,9’,13’以及23’中的合适的输入。每个模块产生如图1A和1B中所示对于与其相关联的音频输出通道中的每个被输出的初步缩放因子(“PSF”)。因此,例如,模块24接收输入1’和3’,并且产生初步缩放因子输出PSF1、PSF2和PSF3。可替换地,如上所述,每个模块可对于与其相关联的音频输出通道中的每一个产生初步的一组音频输出。如下文进一步描述的,每个模块还可与监控器201通信。如果有的话,从监控器201向各个模块发送的信息可包括邻居等级信息以及高等级的邻居等级信息。从各模块发送到监控器的信息可包括可归因于模块的输入中的每一个的输出内部的总估计能量。模块可被认为是图2和2’的整体系统的控制信号产生部的一部分。
诸如图2和2’的监控器201的监控器可执行多种不同的功能。监控器可例如确定是否多于一个的模块在使用,并且如果否,则监控器不需要执行与邻居等级有关的任何功能。在初始化期间,监控器可告知该模块或各模块其具有的输入和输出的数量、使它们相关的矩阵系数以及信号的采样率。如已经提及的,可读取交织PCM样本的块并且将它们去交织为分离通道。其可例如响应于指示源信号被限制幅值以及限制程度的附加信息,应用时域中的非限制操作。如果系统以多频带模式操作,则其可将开窗法和滤波器组(例如,FFT、MDCT等)应用于每个通道(从而多个模块不执行显著增加处理开销的冗余变换),并且将变换值的流传递至每个模块以便处理。每个模块向监控器传递回缩放因子的二维阵列:一个缩放因子用于各输出通道的各子频带中的所有变换分段(当在多频带变换配置中时,否则,每个输出通道一个缩放因子),或者可替换地,输出信号的二维阵列:用于每个输出通道的各子频带的复变换分段的全体(ensemble)(当在多频带变换配置中时,否则,每个输出通道一个输出信号)。监控器可平滑化缩放因子,并且将它们应用于信号路径矩阵化(矩阵203,下文所述)以获得(在多频带变换配置中)输出通道复谱。可替换地,当模块产生输出信号时,监控器可导出输出通道(在多频带变换配置中,输出通道复谱),补偿产生相同输出信号的局部矩阵。然后可对于每个输出通道执行逆变换加上开窗和叠加(在MDCT的情况下),将输出样品交织以形成复合多通道输出流(或可选地,可省略交织以便提供多个输出流),并且将其发送到输出文件、声卡或其它最终目的地。
尽管各种功能可如文中所述地由一个监控器执行或者由多个监控器,本领域普通技术人员将认识到,这些功能中的不同的一个或全部可在模块自身中执行而不是由全部或一些模块共用的监控器执行。例如,如果仅存在单个、孤立模块,在模块功能和监控器功能之间不需要区分。尽管在多模块的情况下,公共监控器可通过消除或减少冗余处理任务减少所需要的总处理功率,但是公共监控器的消除或其的简化允许模块容易地彼此相加,例如以升级到更多的输入通道。
返回图2和2’的描述,六个输入1’、3’、5’、9’、13’和23’还被应用于可变矩阵或可变矩阵化函数203(下文“矩阵203”)。矩阵203可被认为是图2和2’的系统的信号路径的一部分。矩阵203还作为输入从监控器201接收用于图1A和1B例子的23个输出通道中的每一个的最终缩放因子SF1到SF23的集合。最终缩放因子可被认为作为图2和2’的系统的控制信号部的输出。如下文进一步描述的,监控器201优选地作为对于该矩阵的最终缩放因子传递用于每个“内部”输出通道的初步缩放因子,但是监控器响应于其从模块接收到的信息确定用于每个端点输出通道的最终缩放因子。“内部”输出通道在每个模块的两个或更多个“端点”输出通道中间。可替换地,如果模块产生输出信号而不是缩放因子,则不需要矩阵203;监控器本身产生输出信号。
在图1A和1B例子中,假设端点输出通道与输入通道地点重合,但是如另外进一步描述地,它们不必须重合。因此,输出通道2、4、6-8、10-12、14-16、17、18、19、20、21和22是内部输出通道。内部输出通道21在三个输入通道(输入通道9’、13’和23’)中间或者被它们支撑(bracket),而其他内部通道均在两个输入通道中间(或被它们支撑)。由于对于在模块之间或之中被共享的这些端点输出通道(即,输出通道1、3、5、9、13和23)存在多个初步缩放因子,监控器20从缩放因子SF1到SF23之中确定最终端点缩放因子(SF1、SF3等)。最终内部输出缩放因子(SF2、SF4、SF6等)与初步缩放因子相同。
图1A和2的布置的缺陷为多个输入源通道被映射到6.1通道(5.1通道加上顶部抬高通道),呈现与现有5.1通道水平平面阵列系统(诸如Dolby Digital胶片声带中或者在DVD上使用的那些(“Dolby”和“Dolby Digital”是Dolby Laboratories LicensingCorporation的商标))不相容的下混合。
如上所述,一种将抬高的通道映射到水平平面阵列的方式是将它们中的每一个映射到两个以上的输入通道。例如,允许图1B离子的24个原始源通道被映射到常规5.1通道阵列(见下文表A,其中附图标记1至23指的是图1B中的方向)。在这样的变型中,多个两个以上输入模块(图1B中未示出)可提取“距离变化的”面内(在由标准5.1通道阵列建立的收听区域外部或内部)或面外(高于该平面——“抬高的”或者低于该通道——“降低的”)通道,并且剩余信号分量可由二输入模块处理以提取水平通道。“距离变化的”通道可被馈送给放置在房间内部的实际扬声器以提供可变距离呈现;以及可被投影到收听空间的内部或外部作为虚拟内部或外部通道。垂直或顶部信号分量可通过例如映射到水平的五通道阵列的全部五个通道来被呈现。因此,5.1声道下混合可通过常规5.1通道解码器播放,而根据图1B和2B的例子的解码器可恢复对于原始24个通道的近似或者一些其它所希望的输出通道配置。
因此,根据图1B和2’的例子的替换方案以及如表A所示,每个标准水平源通道被映射到5.1通道下混合的一个或两个下混合通道,而其他源通道均被映射到5.1通道下混合的两个以上的通道。因此,对于图1A和1B例子的23.1通道源布置,各个通道可被如下地映射:
表A
在表A中,Lf是左前部,Cf是中前部,Rf是右前部,Ls是左环绕,Rs是右环绕,Lf-E是抬高的左前部,Cf-E是抬高的中前部,Rf-E是抬高的右前部,Rs-E是抬高的右环绕,Cs-e是抬高的中心环绕,并且Top-E是抬高的顶部。加权因子(矩阵系数)可在每个组中均相等,或者它们可被单独地选择。例如,被映射到三个输出通道的各源通道可被以外部列出的两个通道的功率的两倍映射到中间列出的通道。抬高的Lf可被以0.5的矩阵系数(功率0.25)映射到Lf和LS,并且以0.7071的系数(功率0.5)映射到Cf。映射到四个或五个输出通道的映射可被以相等的矩阵系数执行。遵循通常的矩阵化实践,用于各源通道的矩阵系数的集合可被选择以平方和为1.0。
可替换地,包括基于源通道互相关性的动态功率保存下混合的更精细的下混合布置可被提供并且在本发明的范围内。
应注意,在图1A的示例中,23.1到6.1通道的下混合涉及将除一个以外的所有源通道映射到仅两个下混通道。在这样的布置中,仅Cs-Elevated通道被映射到三个下混通道(Ls+Rs+Top)。
为了提取已被映射到多个下混通道的通道,需要识别两个或更多个下混通道中的公共信号元素的量。用于此操作的常用技术(即使在上混合以外的应用中)是互相关。如上文提到的,互相关性的度量优选地是零时间偏移互相关性的度量,其是公共功率电平与输入信号功率电平的几何平均数的比。公共功率电平优选地是被平滑化的或被平均化的公共功率电平,并且输入信号电平是被平滑化的或者被平均化的输入信号功率电平。在此上下文中,两个信号S1和S2的互相关性可被表示为:
Xcor=|S1*S2|/Sqrt(|S1*S1|*|S2*S2|),
其中,竖线指示平均或被平滑化的值。三个或更多个信号的相关更加复杂,但是在文中在标题“公共功率的高阶计算”下描述了用于计算三个信号的互相关性的技术。对于下混合到5.1通道,在表A中示出源通道可映射到多达5个下混通道,使得需要从相似数量的通道导出互相关值,即高达5阶互相关。
不是尝试执行可能计算密集精确求解,根据本发明的一个方面的近似互相关技术仅使用如上述Xcor方程中所述的二阶互相关。
近似互相关技术涉及计算所涉及的每对节点的公共功率(被定义为上述Xcor方程的分子)。对于信号S1、S2和S3的3阶相关,这可以是|S1*S2|、|S2*S3|和|S1*S3|。对于4阶相关,公共功率项将是|S1*S2|、|S1*S3|、|S1*S4|、|S2*S3|、|S2*S4|和|S3*S4|。5阶的情况类似,总共需要十个这样的项。对水平通道进行解码已经需要这些交叉功率计算(实际上,对于从5.1的上混合,5个)中的许多计算,从而对于高达15阶的相关,需要总共十个被平滑化的交叉乘积,其中的5个已被计算,并且另外5个是5阶计算所需要的。此总共10个成对计算还用于所有4阶相关。
如果任何成对交叉功率值为0,则这意味着在所讨论的两个节点之间不存在公共信号,因此不存在对于所有N(N=3,4或5)个节点公共的信号,因此来自从所讨论的输出通道的输出为零。否则,如果成对交叉功率值都不为0,则由两个节点Node(i)和Noid(j)的交叉功率值指示的公共信号的量可通过假设所观测的交叉功率从对于所考虑的所有节点是公共的信号获得而被计算。如果源通道幅值为A,则然后在节点Node(i)和Noid(j)处的幅值由对应的下混矩阵系数Mi和Mj给出,为AMi和AMj。因此,这些节点之间的公共功率X==|Si*Sj|=|AMi*AMj|。因此,从一对节点i和j的交叉功率的所希望的输出幅值的估计为:
A(估计)=Sqrt(X/Mi*Mj)
通过考虑与给定输出通道相关联的节点的所有对的A的估计值,A的实际值可不大于最小估计值。如果对应于最小估计值的节点对不是其它输出所共有的,则然后最小估计值被取为A的值。
如果存在被映射到所讨论的两个节点的其它输出通道,则然后不存在区分它们的足够信息(在此技术中),因此假设在所讨论的输出通道之间有相等的信号分布,并且所有其它输出通道被映射到所讨论的两个节点。
为了解决此问题,可在程序初始化期间计算可被称为“传递矩阵”的矩阵、从原始编码(下混)矩阵导出的将输入节点i与输入节点j相关的方矩阵,其中传递矩阵在i行j列的值等于具有公共输出通道的所有编码矩阵交叉乘积的和。例如,假设编码源通道1以矩阵值(.7071,.7071)映射到下混通道1和2,并且假设源通道17均以矩阵值.577映射到下混通道1、2和3(注意,.577*.577=.3333,从而矩阵值的平方和为1.0,如所希望的)。然后,传递矩阵在元素1、2处为(.7071*.7071+.577*.577)=.5+.33=0.83。因此,传递矩阵的各元素为由节点对导出的总输出功率的度量。如果在导出通道17的输出电平时,发现涉及节点1和2的下混合的A2的最小交叉功率估计,则然后可分配给输出通道17的A的量为:
输出功率=A2*(.577*.577)/0.83=0.4A2
从估计的输出幅值与输入节点处的幅值的比,可得到用于所讨论的输出通道的最终缩放因子。
如此文件中别处解释的,可按层级顺序执行输出电平的导出,从由最大数量(在图1B的例子中为5个)的通道导出的输出通道开始,然后是由4个通道导出的输出通道,等等。
在计算了给定节点的输出电平之后,在继续进行下一节点输出计算之前,从与给定节点相关联的功率电平减去每个编码通道到输出的功率贡献。
互相关近似技术的一个缺陷是可能有比最初呈现的信号多的信号被馈送给输出通道。但是,假设输出通道的局部阵列将具有正确的总功率,则将更多信号馈送给由三个或更多个编码输入导出的输出通道中的听觉错误后果是微小的,因为贡献通道紧邻输出通道并且人耳将难以区分到被导出的输出通道的额外信号。如果被编码的5.1通道节目在未解码的情况下被播放,则已被映射到5.1通道中的三个或更多个的通道将被从对应的5.1通道扬声器阵列再现,并且作为稍微变宽的源被收听者听到,这应该不是令人讨厌的。
盲上混合(blind upmixing)
刚刚描述的解码过程可可选地被从任何已有的、甚至未被如刚刚描述地那样具体编码的5.1通道源馈送。可将这样的解码称为“盲上混合”。希望这样的布置产生令人感兴趣的、感觉愉悦的结果,并且其合理地利用导出的输出通道。不幸的是,以下情况是普遍的,即商用5.1通道电影声带在成对的通道之间具有很少的公共信号元素,并且在三个或更多个通道的组合之中公共信号元素更少。在这样的情况下,刚刚描述的上混合器产生极少的用于任何被导出的输出通道的输出,这是不希望的。在此情况下,可提供盲上混合模式,在该模式中,输入通道信号被修改或扩增,以使得当从其导出输出通道的输入通道中的至少一个具有信号输入时,在导出的输出通道中提供至少一些信号输出。
根据本发明的各方面,未扩增的解码寻找
(a)从其导出输出通道的所有输入通道之间的相关性,以及
(b)在从其导出输出通道的输入通道中的每一个处的显著信号电平。
如果在所涉及的输入通道之中存在低的成对相关性,或者在所涉及的输入通道中的任一个处存在低信号电平,然后所导出的通道得到很少的信号或者没有得到信号。每个贡献输入通道实质上对于所导出的通道是否得到信号具有否决权。
为了执行还未被以文中描述的方式编码的通道的盲上混合,可按如下方式导出通道,即当在某些信号条件下所导出的信号将为零时,具有一些信号。这可例如通过修改上述条件两者来实现。关于第一条件,这可通过关于相关值设定较低的限值来完成。例如,限值可以是基于文中别处描述的“随机等分布”相关值的最小值。然后,为了满足条件(b),可简单地求得从其导出输出通道的输入通道的信号功率的加权平均值,其中权重可能是输入通道的矩阵系数。这样的加权技术的采用不是关键的。确保在从其导出被导出通道的输入通道中的任何一个具有一些信号时该被导出通道具有一些信号的其它方式可被采用。
图3是可用于理解诸如图2和2’的监控器201可确定端点缩放因子的方式的功能框图。监控器不对共享输入的模块的所有输出进行求和以获得端点缩放因子。相反,其例如在组合器301中加性地组合来自共享输入(诸如输入9’)的各模块的该输入的总的估计内部能量,该输入由图2和2’的模块26和27共享。此总和代表由所有连接的模块的内部输出主张的输入处的总能量电平。然后诸如在组合器303中,从在共享该输入的模块(在此例子中,模块26或模块27)中的任何一个的该输入(例如,如下文所描述的,图4B的平滑化器325或327的输出)处的被平滑化的输入能量电平中减去该总和。这足以在公共输入处选择模块的平滑化输入中的任何一个,即使由于各模块调整相互独立地调整它们的时间常数而使得电平可能在模块之间稍有不同。在组合器303的输出处的差是在该输入处的所希望的输出信号能量电平,该能量电平不允许低于零。通过在除法器305中将所希望的输出信号电平除以在该输入处的被平滑化的输入电平,并且在块307中执行平方根计算,获得用于该输出的最终缩放因子(在此例子中,SF9)。应注意,监控器对于各这样的被共享的输入导出单个最终缩放因子,而不管多少个模块共享该输入。下文结合图6A描述用于确定可归因于模块的输入中的每一个的内部输出的总估计能量的布置。
由于与幅值(一阶量)相反,电平为能量电平(二阶量),在除法运算之后,应用平方根运算以便获得最终缩放因子(缩放因子与一阶量有关)。内部电平的相加以及从总输入电平相减均在纯能量的意义下进行,这是因为不同模块内部的内部输出被假设为是独立的(不相关的)。如果此假设在例外情况下是不正确的,则计算可得到更多的输入处的残余信号,多于输入处应该具有的残余信号,这可能在再现声场中导致微小的空间失真(例如,其它附近内部图像朝向输入的微小牵引),但是在相同情况下,人耳可能类似地反应。内部输出通道缩放因子(诸如模块26的PSF6到PSF8)被监控器作为最终缩放因子传递(它们未被修改)。为了简化起见,图3仅示出端点最终缩放因子中的一个的产生。其它端点最终缩放因子可被以类似方式导出。
返回图2和2’的描述,如上所述,在可变矩阵203中,可变性可能是复杂的(所有系数可变)或者是简单的(系数成组地改变,诸如被应用于固定矩阵的输入或输出)。尽管任一方法可被采用以产生基本相同的结果,但是一种较简单的方法、即用于每个输出的可变增益(每个输出的增益由缩放因子控制)所跟随的固定矩阵已被发现产生令人满意的结果,并且在文中所述的实施例中被采用。尽管各矩阵系数可变的可变矩阵是可用的,但是其具有如下的缺点:具有更多变量并且需要更多计算功率。
在最终缩放因子被应用于可变矩阵203之前,监控器201还执行可选的最终缩放因子的时域平滑化。在可变矩阵系统中,输出通道永不被“关闭”,系数被布置成加强一些信号并且消除另外的信号。但是,如本发明的实施例中所描述的,固定矩阵、可变增益系统打开和关闭通道,并且更易受不希望的“颤动”伪像影响。尽管存在下文所描述的两级平滑化(例如,平滑器319/325等),这仍可能发生。例如,当缩放因子接近于零时,由于仅从“小”到“没有”以及相反情况仅需要小的改变,转变为0以及从0转变可能导致听觉颤动。
由监控器201执行的可选的平滑化优选地对具有可变时间常数的输出缩放因子进行平滑化,该可变时间常数依赖于新导出的瞬时缩放因子值和被平滑化的缩放因子的运行值之间的绝对差值的大小(“abs-diff”)。例如,如果abs-diff大于0.4(并且,当然<=1.0),则应用很少的平滑化或者不应用平滑化;对于在0.2和0.4之间的abs-diff应用附加的少量平滑化;并且对于低于0.2的值,时间常数是abs-diff的连续反函数。尽管这些值不是关键的,但是它们已被发现减少了听觉颤动伪像。任选地,在模块的多频带版本中,缩放因子平滑器时间常数也可按如下所述的图4A的频率平滑器413、415和417的方式随频率以及时间缩放。
如上所述,可变矩阵203优选地为在矩阵输出处具有可变缩放因子(增益)的固定编码矩阵。各矩阵输出通道可具有作为用于该通道的编码下混系数的(固定)矩阵系数,对于该通道已经存在具有离散输入的编码器(而不是将源通道直接混合到下混矩阵,这样避免了对于离散编码器的需求)。对于各输出通道,该系数优选地平方和为1.0。一旦已知输出通道在哪里(如上文关于“主”矩阵讨论的),则矩阵系数被固定;而控制各通道的输出增益的缩放因子是动态的。
如下文所解释的,在初始能量和公共能量在分段等级被计算之后,包括被应用于图2的模块24-34(图2’的24-28以及29’-35’)的频域变换分段的输入可被每个模块分组为频域子带。因此,对于每个频率子带,存在一个初步缩放因子(图2和2’中的PSF)和最终缩放因子(图2和2’中的SF)。由矩阵203产生的频域输出通道1-23均包括一组变换分段(变换分段的子带大小的组由同一缩放因子处理)。该组频域变换分段被频域-时域变换或变换函数205(下文“逆变换”)分别转换成一组PCM输出通道1-23,该频域-时域变换或变换函数205可以是监控器201的功能,但是为了清楚期间被分离地示出。监控器201可对得到的PCM通道1-23进行交织以提供单个交织PCM输出流,或者保留PCM输出通道为分离流。
图4A-4C示出根据本发明的一个方面的模块的功能框图。该模块从监控器(诸如图2和2’的监控器201)接收两个或更多个输入信号流。各输入包括复值频域变换分段的全体。输入1到m中的每一个被应用于计算各分段的能量的函数或设备(例如,用于输入1的函数或设备401,以及用于输入m的函数或设备403),该能量是各变换分段的实数值和虚数值的平方的总和(仅示出两个输入1和m的路径以便简化附图)。各输入还可应用于计算跨模块的输入通道的各分段的公共能量的函数或设备405。在FFT实施例的情况下,这可通过求输入样本的交叉乘积(例如,在两个输入L和R的情况下,复L分段值与复R分段值的复共轭的复乘积的实部)来计算。使用实数值的实施例仅需要对各输入的实数值进行互乘。对于两个以上的输入,可采用下文所述的特殊互乘技术,即如果所有符号相同,则乘积为正号,否则其为负号并且以可能的正结果的数量(总是两个:或者是全正或者是全负)与可能的负结果的数量的比被缩放。
公共能量的成对计算
例如,假设输入通道对A/B包含随同各个、不相关信号Y和Z的公共信号X:
A=0.707X+Y
B=0.707X+Z
其中,缩放因子提供了到最近输入通道的功率保存映射。
由于X和Y不相关,
因此:
即,由于X和Y不相关,输入通道中的总能量A为信号X和Y的能量的和。
类似地,
由于X、Y和Z不相关,因此A和B的被平均的交叉乘积为:
因此,在输出信号由可能也包含独立的、不相关的信号的两个相邻输入通道相等地共享的情况下,被平均的信号的交叉乘积等于各通道中的公共信号分量的能量。如果公共信号未被相等地共享,即其偏向一个输入,则被平均的交叉乘积将是A和B中的公共分量的能量之间的几何平均,从其可通过利用通道幅值的比的平方根进行规格化导出各个通道公共能量估计。如下所述在随后的平滑化级计算实际时间均值。
公共能量的高阶计算
上文提供了用于近似具有三个或更多个输入的解码模块的公共能量的技术。这里提供了另一种导出具有三个或更多个输入的解码模块的公共能量的技术。这可通过形成所有输入信号的平均化交叉乘积来实现。类似地执行输入的成对处理难以区分各对输入之间的分离输出信号与对于所有输入公共的信号。
例如,考虑由不相关信号W、Y、Z和公共信号X构成的三个输入通道A、B和C:
A=X+W
B=X+Y
C=X+Z
如果计算平均化交叉乘积,则如在二阶计算中那样,包含W、Y和Z的组合的所有项抵消,留下X3的均值:
不幸的是,如果X是零平均值时间函数,如所希望的,然后其立方的平均值为0。不同于对X2(其对于X的任何非零值都是正的)进行平均,X3的符号与X相同,从而正的和负的贡献将趋向于抵消。很明显,这对于对应于奇数个模块输入的X的任何奇次幂都是适用的,但是大于2的偶数指数也将导致错误结果;例如,具有分量的四个输入(X,X,-X,-X)将具有与(X,X,X,X)相同的乘积/均值。
可通过采用平均乘积技术的变型来解决此问题。在被平均化之前,通过求得乘积的绝对值来丢弃每个乘积的符号。检查乘积的各项的符号。如果它们都相同,则将乘积的绝对值施加给平均器。如果任一符号与其它符号不同,则对乘积的绝对值的负值进行平均化。由于可能相同符号的组合的数量可能与可能不同符号的组合的数量不同,因此由相同符号组合与不同符号组合的比构成的加权因子被应用于被取负的绝对值乘积以进行补偿。例如,三输入模块在八种可能性中具有两种使符号相同的方式,而留有六种使得符号不同的方式,得到缩放因子2/6=1/3。当且仅当存在解码模块的所有输入共有的信号分量时,此补偿使得积分或求和乘积在正方向上增长。
但是,为了使得不同阶的模块的平均值可比较,它们必须具有相同的纬度。常规的二阶相关包含二输入乘法以及由此具有能量或功率的纬度的量的平均值。因此,在更高阶相关中要被平均化的项必须也被修改以具有功率的纬度。对于k阶相关,各个乘积绝对值因此必须在被平均之前被乘方至2/k次方。
当然,不管阶次如何,如果需要的话,模块的各个输入能量可作为相应输入信号的平方的平均值被计算,而不需要首先乘方至k次幂,并然后减小到2阶量。
返回图4A的描述,各块的变换分段输出可由各函数或设备407、409和411分组成子频带。例如,子频带可近似人耳的临界频带。图4A-4C的模块的实施例的剩余部分在各频带上单独且独立地操作。为了简化附图,仅示出在一个子频带上的操作。
来自块407、409和411的各子频带被分别施加到频率平滑器或者频率平滑化函数413、415和417(下文“频率平滑器”)。频率平滑器的用途在下文被解释。来自频率平滑器的各经频率平滑化的子频带被分别施加到可选的提供时域平滑化的“快”平滑器或平滑化函数419、421和423(下文“快平滑器”)。尽管是优选的,但是当快平滑器的时间常数接近于产生输入分段的前馈变换(例如,图2和2’中的监控器201中的前馈变换)的块长度时间时,快平滑器可被省略。快平滑器相对于接收快平滑器的各输出的“慢”变化时间常数平滑器或平滑器函数425、427和429(下文“慢平滑器”)是“快”的。快和慢平滑器时间常数的例子在下文被给出。
因此,不管快平滑化由前馈变化的固有操作提供还是由快平滑器提供,两级平滑化操作是优选的,其中第二、较慢级是可变的。但是,单级平滑化可提供可接受的结果。
慢平滑器的时间常数优选地在模块内彼此同步。这可例如通过向各慢平滑器施加相同的控制信息并且通过将各慢平滑器配置为相同方式响应于被施加的控制信息来实现。用于控制慢平滑器的信息的导出在下文给出。
优选地,各对平滑器以如图4A和4B所示的对419/425、421/427和423/429的方式串联,其中快平滑器向慢平滑器馈送。串联布置具有如下这样的优点,即第二级对在该对的输入处的短的快速信号尖峰有抵抗力。但是,通过平行地配置该对平滑器可获得类似的结果。例如,在平行布置中,串联布置中的第二级的对短的快速信号尖峰的抵抗力可在时间常数控制器的逻辑中被处理。
两级平滑器的每一级可由诸如RC低通滤波器(模拟实施例中)或等同的一阶低通滤波器(数字实施例中)的单极点低通滤波器(“泄漏积分器”)实现。例如,在数字实施例中,一阶滤波器均可被实现为“双二次滤波器”、一般的二阶滤波器,其中一些系数被设定为0以使得该滤波器用作一阶滤波器。可替换地,这两个平滑器可被组合成单个二阶双二次滤波器,但是如果第二(可变)级与第一(固定)级分离,则计算第二(可变)级的系数值更加简单。
应注意,在图4A、4B和4C的实施例中,除非通过求平方根需要幅值之外,所有信号电平被表达为能量(平方)电平。平滑化被应用于被施加的信号的能量电平,进行平滑器RMS感测而不是平均值感测(平均值感测平滑器被馈送线性幅值)。由于施加给平滑器的信号是平方电平,因此平滑器比平均值平滑器更迅速地对信号电平的突然增加做出反应,这是因为增加由平方函数放大。
两级平滑器因此提供了各输入通道的能量的各子频带的时间平均值(第一通道的由慢平滑器425提供,并且第m通道的由慢平滑器427提供),以及输入通道的公共能量的各子频带的平均值(由慢平滑器429提供)。
慢平滑器(425,427,429)的输出的平均能量分别被施加到组合器431、433和435,其中(1)从各输入通道的被平滑化的能量电平中减去邻居能量电平(如果有的化)(例如来自图2和2’的监控器201),以及(2)从各慢平滑器的平均能量输出中减去高等级邻居能量电平(如果有的化)(例如来自图2和2’的监控器201)。例如,各模块接收单元3’(图1A,2和2’)具有两个相邻模块,并且接收补偿这两个相邻模块的影响的邻居能量电平信息。但是,这些模块都不是“高等级”的模块(即,共享输入通道3’的所有模块都是二输入模块)。相反,模块28(图1A,2和2’)是高等级模块共享其输入中的一个输入的模块的例子。因此,例如,在模块28中,来自慢平滑器的对于输入13’的平均能量输出接收高等级的邻居电平补偿。
得到的模块的各输入的各子频带的“受邻居补偿的”能量电平被施加到函数或设备437,其计算这些能量电平的标称前进主方向。方向指示可作为被能量加权的输入的向量和被计算。对于二输入模块,这简化为被平滑化和邻居补偿的输入信号能量电平的L/R比。
例如,假定其中对于两个输入的情况通道的位置被给定为代表x、y坐标的2-ples的平面环绕阵列。处于中心的收听者被假定处于(0,0)。在规格化的空间坐标中,左前通道位于(1,1)。右前通道位于(-1,1)。如果左输入幅值(Lt)为4并且右输入幅值(Rt)为3,则然后使用这些幅值作为加权因子,标称前进主方向为:
(4*(1,1)+3*(-1,1))/(4+3)=(0.143,1),
或者在连接左和右的水平线上中心稍微向左。
可替换地,一旦定义了主矩阵,空间方向可被以矩阵坐标而不是物理坐标表达。在此情况下,被规格化以使得平方和为1的输入幅值是方向的有效矩阵坐标。在上述例子中,左和右电平为4和3,其被规格化为0.8和0.6。因此,“方向”为(0.8,0.6)。换句话说,标称前进主方向是受邻居补偿的、平滑化的输入能量电平的平方根的以平方和为1被规格化的版本。块337产生指示空间方向的与该模块的输入相同数量的输出(在此示例中,2)。
被施加给方向确定函数或设备337的模块的各输入的各子频带的受邻居补偿的、平滑化的能量电平还被施加给函数或设备339,该函数或设备339计算受邻居补偿的互相关(“neighor-compensated_xcor”)。如果有的话,块339还从慢可变平滑器329接收对于各子频带的模块的输入的被平均化的公共能量作为输入,该公共能量已在组合器335中被高等级邻居能量电平补偿。在块339中计算受邻居补偿的互相关性,作为被模块的各输入通道的受邻居补偿的、平滑化的能量电平的乘积的开第M次方除的被高等级补偿的、平滑化的共同能量,其中M是输入的数量,以导出在1.0到-1.0的范围内的实际数学相关值。优选地,从0到-1.0的值被取为0。neighor-compensated_xcor提供了在缺少其它模块的情况下存在的互相关性的估计。
来自块339的neighor-compensated_xcor然后被施加到加权设备或函数341,其以受邻居补偿的方向信息对neighor-compensated_xcor进行加权以产生被方向加权、被邻居加权的互相关性(“direction-weighted_xcor”)。权重在标称前进主方向偏离居中状况时增加。换句话说,不相等的输入幅值(以及因此能量)导致direction-weighted_xcor按比例增加。direction-weighted_xcor提供了图像压缩性的估计。因此,在具有例如左L和右R输入的二输入模块的情况下,权重在该方向朝左或右偏离中心时增加(即,权重在以相同角度偏离中心的任何方向上相同)。例如,在二输入模块的情况下,neighor-compensated_xcor被以L/R或R/L比加权,从而不均匀的信号分布促使direction-weighted_xcor逼近1.0。对于这样的二输入模块,
when R>=L.
direction-weighted_xcor=(1-((1-neighbor-compensated_xcor)*(L/R)),
and
when R<L,
direction-weighted_xcor=(1-((1-neighbor-compensated_xcor)*(R/L))
可替换地,可按其它方式获得加权的互相关性(WgtXcor)。例如
假设A=(|L*L|-|R*R|)/(|L*L|+|R*R|)(被规格化的输入功率差)(其中,“|…|,”指示平均化),以及
假设B=2*|L*R|/(|L*L|+|R*R|)(被规格化的输入互功率)(其中,“|…|,”指示平均化)。
然后,可使用
WgtXcor=A+B,
或者,使用平方和:
WgtXcor=Sqrt(A*A+B*B).
在任一情况下,随着L或R接近0,WgtXcor接近1,而不管|L*R|的值如何。
对于具有多于两个的输入的模块,从neighor-compensated_xcor计算direction-weighted_xcor需要例如用在1.0和0之间改变的“均匀度”度量来替换上述的比L/R或R/L。例如,为了计算任何数量的输入的均匀度度量,以总输入功率对输入信号电平进行规格化,得到在能量(平方)意义上总和为1.0的被规格化的输入电平。将各被规格化的输入电平除以在阵列中居中的信号的被相似地规格化的输入电平。因此,例如,对于其中一个输入具有0电平的三输入模块,均匀度度量为0,并且direction-weighted_xcor等于1。(在该情况下,信号在三输入模块的边界上,在其输入中的两个输入之间的线上,并且二输入模块(层级较低)确定标称主方向在该线上的何处,以及输出信号应沿该线扩展多宽)。
返回图4B的描述,通过将direction-weighted_xcor施加到函数或设备443对direction-weighted_xcor进一步加权,该函数或设备443应用“random_xcor”以产生“effective_xcor”。effective_xcor提供了输入信号的分布形状的估计。
random_xcor是由平均输入能量的平方根除的输入大小的平均化交叉乘积。可通过假设输出通道最初为模块输入通道、并且计算从具有独立但是电平相等的信号的、被被动下混合的那些通道得到的xcor的值,来计算random_xcor的值。根据此方法,对于具有两个输入的三输出模块的情况,random_xcor计算为0.333,并且对于具有两个输入的五输出模块(三个内部输出),random_xcor计算为0.483。random_xcor值仅需要对于每个模块被计算一次。尽管这样的random_xcor值已被发现提供了令人满意的结果,但是该值不是关键的,并且系统设计人员可随意决定采用其它值。如下所述,random_xcor的值的改变影响信号分布系统的操作的两个状况(regime)之间的分割线。分割线的精确位置不是关键的。
通过函数或设备343执行的random_xcor加权可被认为是direction-weighted_xcor值的重规格化,从而得到effective_xcor:
effective_xcor=(direction-weighted_xcor-random_xcor)/
(1-random_xcor),if direction-weighted_xcor>=random_xcor,
effective_xcor=0 otherwise
random_xcor加权加速了在direction-weighted_xcor减小到1.0以下时direction-weighted_xcor的降低,从而当direction-weighted_xcor等于random_xcor时,effective_xcor为0。由于模块的输出代表沿圆弧或线的方向,小于0的effective_xcor的值被作为等于0对待。
用于控制慢平滑器325、327和329的信息被从未受邻居补偿的、被慢和快平滑化的输入通道的能量以及被慢和快平滑化的输入通道的公共能量导出。特别地,函数或设备345响应于被快平滑化的输入通道的能量以及被快平滑化的输入通道的公共能量,计算快的未受邻居补偿的互相关性。函数或设备347响应于被快平滑化的输入通道能量,计算快的未受邻居补偿的方向(比或向量,如上文结合块337的描述讨论的)。函数或设备349响应于被慢平滑化的输入通道的能量以及被慢平滑化的输入通道的公共能量,计算慢的未受邻居补偿的互相关性。函数或设备351响应于被慢平滑化的输入通道能量,计算慢的未受邻居补偿的方向(比或向量,如上文讨论的)。快的未受邻居补偿的互相关性、快的未受邻居补偿的方向、慢的未受邻居补偿的互相关性和慢的未受邻居补偿的方向连同来自块341的direction-weighted_xcor被施加到设备或函数353(下文“调整时间常数”),该设备或函数353提供用于控制可变慢平滑器325、327和329以调整它们的时间常数的信息。优选地,向各可变慢缓冲器提供相同的控制信息。不同于被馈送给比较快度量与慢度量的时间常数选择框的其它量,优选地使用direction-weighted_xcor而不参考任何快值,从而如果direction-weighted_xcor的绝对值大于阈值,则其可使得调整时间常数353选择较快的时间常数。下文阐述“调整时间常数”353的操作规则。
一般地,在动态音频系统中,希望尽可能地使用慢时间常数,停留在静态值,以使再现声场的听觉分裂最小,直至在音频信号中出现“新事件”,在此情况下希望控制信号迅速改变为新的静态值,然后保持该值直到出现另一“新事件”。典型地,音频处理系统将幅值的变化与“新事件”等同起来。但是,当涉及交叉乘积或者互相关时,新情况和幅值不总是等同:新的事件可能导致互相关性减小。通过感测与模块的操作有关的参数、即互相关性和方向的度量的变化,模块的时间常数可加速并且迅速呈现所希望的新控制状态。
不适当的动态行为的后果包括图像漂移、颤动(通道快速开和关)、泵激(电平的不自然改变),以及在多频带实施例中,连续变频(在逐个频带基础上的颤动和泵激)。这些结果中的一些结果对于隔离通道的质量尤其关键。
诸如图1A和2以及图1B和2’的那些实施例的实施例采用解码模块的网格。这种配置导致两类动态问题:模块间动态和模块内动态。另外,实施音频处理的若干种方式(例如宽带、使用FFT或MDCT线性滤波器组的多频带、或离散滤波器组、临界频带或其它)均需要其自身动态行为优化。
各模块中的基本解码处理依赖于输入信号的能量比的度量以及输入信号的互相关性的度量(特别地,上文所述的方向加权相关性(direction-weighted_xcor);图4B中的块341的输出),它们共同控制模块的输出之中的信号分布。这样的基本量的导出需要平滑化,其在时域中需要计算这些量的瞬时值的时间加权平均值。所需要的时间常数的范围非常大:对于时间条件中的快速瞬态变化非常短(例如,1毫秒),到对于低相关值的非常长(例如,150毫秒),其中瞬时变化可能比实际平均值大得多。
在模拟方面,实现可变时间常数行为的常用方法是使用“加速”二极管。当瞬时电平以阈值量超过平均电平时,二极管导通,导致更短的有效时间常数。这种技术的缺陷是否则稳态的输入中的瞬时峰值导致被平滑化电平的大的变化,其然后非常缓慢地衰减,提供否则具有很小听觉后果的隔离峰值的不自然加重。
结合图4A~4C的实施例描述的校正计算使得加速二极管(或者它们的DSP等同物)的使用有疑问。例如,特定模块中的所有平滑器优选地具有被同步的时间常数,从而它们的被平滑化的电平可比较。因此,全局(统调)时间常数开关结构是优选的。另外,信号条件中的迅速变化不一定与公共能量电平的增加相关联。对于此电平使用加速二极管可能产生有偏倚的、不准确的相关性估计。因此,本发明的各方面的实施例优选地使用两级平滑化,而不使用二极管等同物加速。相关性和方向的估计可至少从平滑器的第一级和第二级导出,以设定第二级的时间常数。
对于各对平滑器(例如,319/325),第一级、固定快速级的时间常数可被设为固定值,例如1毫秒。第二级、可变缓慢级的时间常数可以例如在10毫秒(快)、30毫秒(中等)和150毫秒(慢)之中选择。尽管已发现这样的时间常数提供了令人满意的结果,但是它们的值不是关键的,并且系统设计人员可随意采用其它值。另外,第二级时间常数值可连续改变而不是离散的。时间常数的选择不仅可基于上述信号条件,而且可基于使用“快标记”的滞后机构,其被用于一旦遇到真正的快速转变,确保系统保持在快速模式下,避免了中等时间常数的使用,直到信号条件重新使能慢时间常数。这可帮助确保快速适合于新的信号条件。
对于两个输入的情况,选择使用三种可能的第二级时间常数中的哪一个可通过“调整时间常数”353可根据以下规则实现:
如果direction-weighted_xcor的绝对值小于第一基准值(例如,0.5),并且快non-neighbor-compensated_xcor和慢non-neighbor-compensated_xcor之间的绝对差小于同一第一基准值,并且快和慢方向比(均具有+1到-1的范围)之间的绝对差小于同一第一基准值,然后慢第二级时间常数被使用,并且快速标记被设为True,使得随后能够选择中等时间常数。
否则,如果快速标记为True,快non-neighbor-compensated_xcor和慢non-neighbor-compensated_xcor之间的绝对差大于第一基准值并且小于第二基准值(例如,0.75),快和慢暂时L/R比的绝对差大于第一基准值并且小于第二基准值,并且direction-weighted_xcor的绝对值大于第一基准值并且小于第二基准值,然后选择中等第二级时间常数。
否则,使用快第二级时间常数,并且快速权项被设为False,禁止随后使用中等时间常数,直到再次选择慢时间常数。
换句话说,当所有三个条件都小于第一基准值时选择慢时间常数,当所有条件都在第一基准值和第二基准值之间并且先前条件为慢时间常数时选择中等时间常数,并且当任一条件大于第二基准值时选择快时间常数。
尽管已发现刚刚描述的规则和基准值提供了令人满意的结果,但是它们不是关键的,并且系统设计人员可随意采用该规则的变型以及考虑快和慢互相关性以及快和慢方向的其它规则。例如,更简单但同样有效的是,使用二极管加速式处理,但是利用统调操作以使得如果模块中的任何平滑器处于快模式,所有其它平滑器也被切断到快模式。还希望对于时间常数确定和信号分布使用分离的平滑器,用于时间常数确定的平滑器被维持固定时间常数,而仅信号分布时间常数改变。
由于即使在快模式中被平滑化的信号电平仍需要若干毫秒来适应,因此可在系统中嵌入延时以允许控制信号在将它们施加到信号路径之前适应。在宽带实施例中,此延时可被实现为信号路径中的离散延时(例如,5毫秒)。在多频带(变换)版本中,延时是块处理的自然结果,并且如果在该块的信号路径矩阵化之前执行块的分析,则不需要明确的延时。
本发明的各方面的多频带实施例可使用与宽带版本相同的时间常数和规则,只是平滑器的采样率可被设定由块大小(例如,块速率)除的信号采样率,从而平滑器中时使用的系数可被适当地调整。
对于低于400Hz的频率,在多频带实施例中,时间常数优选地与频率逆向缩放。在宽频带版本中,由于在不同频率处不存在分离的平滑器,这是不可能的,因此作为部分补偿,可将缓和带通/预加重滤波器应用于控制路径的输入信号,以加重中间和上部-中间频率。此滤波器例如可具有转折频率在200Hz的二极点高通特性、加上转折频率在8000Hz的2极点低通特性、加上从400Hz到800Hz施加6dB的提升并且从1600Hz到3200Hz施加另一个6dB的提升的预加重网络。尽管已发现这样的滤波器是合适的,但是滤波器特性不是关键的,并且系统设计人员可随意采用其它参数。
除了时域平滑化之外,本发明的各方面的多频带版本优选地还采用如上文结合图4A描述的频率平滑化(频率平滑器413、415和417)。对于每个块,未受邻居补偿的能量电平可在被应用于随后的上文所述的时域处理之前通过滑动频率窗被平均化,被调整以近似1/3倍频程(临界频带)带宽。由于基于变换的滤波器组具有本质上线性的频率分辨率,因此此窗的宽度(以变换系数的数量表示)随着频率增加而增加,并且通常在低频(低于大约400Hz)仅有一个变换系数宽。因此,被应用于多频带处理的总平滑化在低频更多地依赖于时域平滑化,并且在较高频率更多地依赖于频域平滑化,其中快速时间响应可能有时更加必要。
转到图4C的描述,,可通过分别计算“主导”缩放因子分量、“填充”缩放因子分量和“多余端点能量”缩放因子分量的设备或函数455、457和459、各规格化器和规格化函数361、362和365以及获得主导和填充缩放因子分量的最大值和/或填充和多余端点能量缩放因子分量的加性组合的设备或函数367的组合,产生最终影响主导/填充/端点信号分布的初步缩放因子(在图2和2’中作为PSF示出)。如果模块为多个模块之一,初步缩放因子可被发送给诸如图2和2’的监控器201的监控器。初步缩放因子可均具有从0到1的范围。
主导缩放因子分量分量
除了effective_xcor之外,设备或函数355(“计算主导缩放因子分量”355)接收来自块337的受邻居补偿的方向信息以及来自局部矩阵369的关于局部矩阵系数的信息,从而可确定N个最近的输出通道(其中N等于输入的数量),它们可被应用于加权和以得到标称前进主方向坐标,并且将“主导”缩放因子分量应用于它们以得到主导坐标。如果标称前进主方向恰好与输出方向重合,则块355的输出是一个缩放因子分量(每子频带),否则,为多个缩放因子分量(每子频带的每个输入一个),该多个缩放因子分量支撑标称前进主方向,并且在功率保存的意义上被以合适比例应用以便将主导信号扫调或映射到正确的虚拟位置(例如,对于N=2,两个被分配的主导通道缩放因子分量的平方和应为effective_xcor)。
对于二输入模块,所有输出通道成成一直线或圆弧,从而存在自然排序(从“左”到“右”),并且哪些通道彼此相邻显得更加清楚。对于上文所述的具有两个输入通道和五个输出通道的带有所示的sin/cos系数的假定情况,标称前进主方向可被假设为(0.8,0.6),在中间左侧ML通道(.92,.38)和中心C通道(.71,.71)之间。这可通过找到这样的两个连续通道来实现,其中L系数大于标称前进主方向L坐标的,并且在其右侧的通道具有小于主导L坐标的L系数。
在恒定功率的意义上,主导缩放因子分量被分配给两个最近的通道。为此,对两个方程和两个未知量的系统进行求解,该未知量为主导方向的左侧的通道的主导分量缩放因子分量(SFL),以及标称前进主方向的右侧的对应缩放因子分量(SFR)(对于SFL和SFR对这些方程求解)。
first_dominant_coord=SFL*左通道矩阵值1+SFR*右通道矩阵值1
second_dominant_coord=SFL*左通道矩阵值2+SFR*右通道矩阵值2
应注意,左通道和右通道指的是支撑标称前进主方向的通道,而不是模块的L和R输入通道。
解是被规格化以使平方和为1.0的各通道的反主导电平计算,并且被用作主导分布缩放因子分量(SFL,SFR),每个用于另一通道。换句话说,对于具有坐标C、D的信号的具有系数A、B的输出通道的反主导值为AD-BC的绝对值。对于所考虑的数字例子:
Antidom(ML channel)=abs(.92*.6-.38*.8)=.248
Antidom(C channel)=abs(.71*.6-.71*.8)=.142
(其中,“abs”指示求绝对值)
将后两个数字规格化为平方和为1.0分别得到值.8678和.4969。因此,将这些值切换到相对的通道,主导缩放因子分量为(应注意,在方向加权之前,主导缩放因子的值为effective_xcor的平方根):
ML dom sf=.4969*sqrt(effective_xcor)
C dom sf=.8678*sqrt(effective_xcor)
(与MidLout相比,主导信号更接近Cout)。
通过考虑在标称前进主方向恰好正好指向两个被选择的通道之一的情况下将发生什么,可更好地理解被规格化的一个通道的反主导分量作为另一通道的主导缩放因子分量的使用。假设一个通道的系数为[A,B],而另一个通道的系数为[C,D],并且标称前进主方向的坐标为[A,B](指向第一通道),然后:
Antidom(firsr chan)=abs(AB-BA)
Antidom(second chan)=abs(CB-DA)
应注意,第一反主导值为0。当这两个反主导值被规格化以使平方和为1.0时,第二反主导值为1。当被切换时,第一通道接收主导缩放因子分量1.0(乘以effective_xcor的平方根),而第二通道接收到0.0,如希望的。
当此方法被延伸到具有多于两个的输入的模块时,当通道成一直线或圆弧时不再出现自然边界。再一次,例如,通过在邻居补偿之后获得输入幅值,并且将它们规格化以使平方和为1,图4B的块337计算标称前进主方向坐标。例如,图4B的块455然后识别可被应用于加权和以产生主导坐标的N个最近通道(当N=输入数量时)。(应注意,距离或接近度可作为坐标差的平方和被计算,就好像它们为(x,y,z)空间坐标似的)。因此,不总是拾取N个最近通道,这是因为它们必须被加权求和以产生标称前进主方向。
例如,假设具有如图5所示的由成三角形关系的通道Ls、Rs和Top(顶)馈送的三输入模块。假定存在共同较靠近三角形的底部的三个内部输出通道,分别具有模块本地矩阵系数[.71,.69,.01],[.70,.70,.01],和[.69..71,.01]。假定标称前进主方向稍微低于该三角形的中心,具有坐标[.6,.6,.53]。(应注意,三角形的中心的坐标为[.5,.5,.707])。这三个距标称前进主方向最近的通道是在底部的三个内部通道,但是它们不能使用在0和1之间的缩放因子求和得到主导坐标,因此作为替代,从底部和顶部端点通道之中选择两个以分布该主导信号,并且求解对于三个加权因子的三个方程以便完成主导计算,并且前进至填充和端点计算。
在图1A和2的例子中,仅存在一个三输入模块,并且其被用于仅导出一个内部通道,这样简化了计算。
填充因子分量
除了effective_xcor之外,设备或函数356(“计算填充因子分量”)还接收random_xcor、来自块341的direction-weight_xcor、“EQUIAMPL”(“EQUIAMPL”在下文被定义和解释),以及关于来自局部矩阵的局部矩阵系数的信息(在相同填充因子分量未被施加到所有输出的情况下,如下文结合图14B描述的)。块457的输出是用于各模块输出的缩放因子分量(每个子频带)。
如上所述,当direction-weight_xcor小于或等于random_xcor时,effective_xcor为零。当direction-weight_xcor>=random_xcor时,用于所有输出通道的填充缩放因子分量为:
填充缩放因子分量=sqrt(1-effective_xcor)*EQUIAMPL
因此,当direction-weight_xcor=random_xcor时,effective_xcor为零,从而(1-effective_xcor)为1.0,因此填充幅值缩放因子分量等于EQUIAMPL(在该条件下,确保输出功率=输入功率)。这是填充缩放因子分量达到的最大值。
当weight_xcor小于random_xcor时,主导缩放因子分量为0,并且随着direction-weight_xcor接近0,填充缩放因子分量被减小为0:
填充缩放因子分量=sqrt(direction-weight_xcor/random_xcor)*
EQUIAMPL
因此,在direction-weight_xcor=random_xcor的边界处,填充缩放因子分量再次等于EQUIAMPL,确保与针对direction-weight_xcor大于random_xcor的情况的上述方程的结果的连续性。
不仅random_xcor的值、而且“EQUIAMPL”的值与每个解码器模块相关联,“EQUIAMPL”的值是在信号被平等分布从而功率被保存的情况下所有缩放因子应该具有的缩放因子值,即:
EQUIAMPL=square_root_of(解码器模块输入通道的数量/解码
器模块输出通道的数量)
例如,对于具有三个输出的二输入模块:
EQUIAMPL=sqrt(2/3)=.8165
其中,“sqrt()”指的是“square_root_of()”。
对于具有四个输出的二输入模块:
EQUIAMPL=sqrt(2/4)=.7071
对于具有五个输出的二输入模块:
EQUIAMPL=sqrt(2/5)=.6325
尽管已经发现这样的EQUIAMPL值提供了令人满意的结果,但是该值不是关键的,并且系统设计人员可随意采用其它值。EQUIAMPL的值的改变相对于对于“主导”条件(输入信号的最大条件)以及对于“全部端点”条件(输入信号的最小相关性)的输出通道的电平,影响对于“填充”条件(输入信号的中间相关性)的输出通道的电平。
端点缩放因子分量
除了neighbor-compensated_xcor(来自块439,图4B)之外,设备或函数359(“计算多余端点能量缩放因子分量”)接收各个第一个到第m个输入的被平滑化的未受邻居补偿的能量(来自块325和325),以及可选地接收关于来自局部矩阵的局部矩阵系数的信息(如下文进一步描述的,在端点输出中的任一个或两者不与输入重合,并且模块向具有最接近输入方向的方向的两个输出施加多余端点能量的情况下)。如下文解释的,如果方向与输入方向重合,则块359的输出是各端点输出的缩放因子分量,否则为两个缩放因子分量,对于最接近终端的输出中的每一个有一个缩放因子分量。
但是,块359所产生的多余端点能量缩放因子分量不是唯一的“端点”缩放因子分量。存在端点缩放因子分量的三种其它来源(在单个、估计模块的情况下有两个来源):
首先,在特定模块的初步缩放因子计算中,端点是块355(以及规格化器361)得到的主导信号缩放因子分量的可能的候选。
其次,在图4C的块357(以及规格化器363)的“填充”计算中,端点连同所有内部通道一起被看作可能的填充候选。任何非零填充缩放因子分量可被应用于所有输出,甚至端点和选择的主导输出。
第三,如果存在多个模块的网格,则如上文结合图2、2’和3描述的,监控器(诸如图2和2’例子的监控器201)执行“端点”通道的最终的、第四分配。
为了使得块459计算“多余端点能量”缩放因子分量,在所有内部输出处的总能量被反映回模块的输入,基于neighbor-compensated_xcor来估计内部输出的能量中的多少是由各输入贡献的(“输入’n’处的内部能量”),并且该能量被用于计算与输入重合的各模块输出(即端点)处的多余端点能量缩放因子分量。
为了提供诸如图2和2’的监控器201的监控器计算邻居电平和高等级邻居电平所需的信息,也需要将内部能量反映回输入。图6A和6B示出了一种计算模块的各输入处的内部能量贡献并且确定各端点输出的过剩端点缩放因子分量的方式。
图6A和6B是分别在模块(诸如图2的模块24-34中的任一个以及图2’的模块24-28和29’-35’中的任一个)中示出一种合适的布置,该布置用于(1)响应于在输入1到m中的每一个处的总能量,生成用于模块的输入1到m中的每一个的总估计内部能量,以及(2)响应于neighbor-compensate_xcor(见图4B,块439的输出),生成用于模块的各端点的多余端点能量缩放因子分量。用于模块的各输入的总估计内部能量(图6A)在多模块布置的情况下被监控器需要,并且在任何情况下被模块自身需要以生成多余端点能量缩放因子分量。
连同其它信息一起使用在图4C的块455和457导出的缩放因子分量,图6A的布置计算各内部输出(但是没有其端点输出)处的总估计能量。使用计算出的内部输出电平,将各输出电平乘以使输出与各输入相关的矩阵系数[“m”个输入,“m”个乘法器],这样提供了该输出对于该输出的能量贡献。对于各输入,将所有内部输出通道的所有能量贡献求和以获得该输入的总内部能量贡献。各输入的总内部能量贡献被报告给监控器,并且被模块使用以计算各端点输出的多余端点能量缩放因子分量。
详细参照图6A,各模块输入的被平滑化的总能量电平(优选地,未受邻居补偿)被施加给一组乘法器,对于模块的各内部输出一个乘法器。为了简化表示,图6A示出两个输入“1”和“m”以及两个内部输出“X”和“Z”。各模块输入的被平滑化的总能量电平乘以使特定输入与模块的内部输出中的一个(模块的局部矩阵的)矩阵系数(应注意,矩阵系数是它们自身的逆,因为矩阵系数的平方和等于1)。对于输入和内部输出的每个组合执行此操作。因此,如图6A所示,输入1处的被平滑化的总能量电平(可例如在图4B的慢平滑器425的输出处获得)被施加给乘法器601,该乘法器601将该能量电平乘以使内部输出X与输入1相关的矩阵系数,提供了在输出X处的被缩放的输出能量电平分量X1。类似地,乘法器603、605和607提供了被缩放的能量电平分量Xm、Z1和Zm
根据neighbor-compensated_xcor在组合器611和613中以幅值/功率的方式对各内部输出的能量电平分量(例如,X1和Xm;Z1和Zm)求和。如果如neighbor-compensated_xcor为1.0所指示的,组合器的输入同相,则它们的线性幅值相加。如果如neighbor-compensated_xcor为0所指示的,它们不相关,则它们的能量电平相加。如果互相关性在0和1之间,该和部分地为幅值和并且部分地为功率和。为了对各组合器的输入适当地求和,计算幅值和以及功率和两者,并且分别以如neighbor-compensated_xcor和(1-如neighbor-compensated_xcor)加权。为了获得加权和,在求加权和之前,或者取得功率和的平方根以获得等效幅值,或者对线性幅值和求平方以获得其功率电平。例如,在采用后一种方法(功率的加权和)的情况下,如果幅值级别为3和4并且如neighbor-compensated_xcor1.0为,则幅值和为3+4=7,或者功率电平49,并且功率能量和为9+16=25。因此,加权和为0.7*49+(1-0.7)*25=41.8(功率能量电平),或者求平方根,6.47。
在乘法器613和615中将求和结果(X1+Xm;Z1+Zm)乘以输出X和Z中的每一个的缩放因子分量,以产生各内部输出处的总能量电平,其可被标识为X’和Z’。用于各内部输出的缩放因子分量被从块467(图4C)获得。应注意,来自块459(图4C)的“多余端点能量缩放因子分量”不影响内部输出,并且不被包含在图6A布置所执行的计算中。
在各内部输出处的总能量电平X’和Z’中的每一个通过乘以使该特定输出与各模块输入相关的(模块的局部矩阵的)矩阵系数被反映回对应的一个模块输入。对于内部输出和输入的每一组合进行此操作。因此,如图6A所示,内部输出X处的总能量电平X’被施加到乘法器617,乘法器617将该能量电平乘以使内部输出X与输入1相关的矩阵系数(如上所述,该矩阵系数与其逆相同),提供了输入1处的被缩放的能量电平分量X1’。
应注意,当以诸如矩阵系数的一阶值对诸如总能量电平X’的二阶值加权时,需要二阶权重。这等同于求能量的平方根以获得幅值,将幅值乘以该矩阵系数并且对结果求平方以重新得到能量值。
类似地,乘法器619、621和623提供了被缩放的能量电平分量Xm’、Z1’和Zm’。根据neighbor-compensated_xcor在组合器625和627中以上文结合组合器611和613描述的幅值/功率的方式对与各输出有关的能量分量(例如,X1’和Xm’;Z1’和Zm’)求和。组合器625和627的输出分别代表对于输入1和m的总估计内部能量。在多模块网格的情况下,此信息被发送给诸如图2和2’的监控器201的监控器,从而该监控器可计算邻居电平。监控器从与每一输入连接的所有模块请求该输入的所有总内部能量贡献,并且然后告知每个模块,对于其输入中的每一个,所有其它总内部能量贡献的和是来自与该输入连接的所有其它模块。此结果是该模块的该输入的邻居电平。下文进一步描述邻居电平信息的生成。
由输入1和m中的每一个贡献的总估计内部能量也被模块需要以便计算用于各端点输出的多余端点能量缩放因子分量。图6B示出了如何计算这样的缩放因子分量信息。为了简化表示,仅示出对于一个端点的缩放因子分量信息的计算,应理解,对于各端点输出执行类似的计算。在此例子中,在组合器或组合函数629中,从诸如输入1的输入的被平滑化的总输入能量中减去由同一输入、输入1贡献的总估计内部能量(例如在图4B的慢平滑器425的输出处获得相同的输出1处的被平滑化的总能量电平,其被应用于乘法器601)。在除法器或除法函数631中将该减法结果除以用于同一输入1的被平滑化的总能量电平。在求平方根设备或求平方根函数633中求取除法结果的平方根。应注意,除法器或除法函数631的运算(以及文中所述的其它除法器的运算)应包括对于零分母的检测。在该情况下,商可被设为0。
如果仅存在单个孤立模块,则通过已经确定主导、填充和多余端点能量缩放因子,确定端点初步缩放因子分量。
因此,包括端点的所有输出通道被分配缩放因子,并且可进一步使用它们以执行信号路径矩阵化。但是,如果存在多个模块的网格,每一模块已向馈送该模块的每一输入分配端点缩放因子,因此与一个以上的模块连接的各输入具有多个缩放因子分配,每一个来自一个连接的模块。在此情况下,监控器(诸如图2和2’例子的监控器201)执行“端点”通道的最终的、第四分配,如上文结合图2、2’和3描述的,该监控器确定使由各个模块做出的所有缩放因子分配无效的最终端点缩放因子作为端点缩放因子。
在实际布置中,不一定实际存在对应于端点位置的输出通道方向,虽然情况常常如此。如果不存在物理端点通道,但是在端点之外存在至少一个物理通道,则将端点能量扫调到距端部最近的物理通道,就好像其是主导信号分量似地。在水平阵列中,优选地使用恒定能量分布(两个缩放因子的平方和为1.0),存在两个距端点位置最近的通道。换句话说,当声音方向不对应于实际声音通道的位置时,即使该方向是端点信号,优选地将其扫调至最近的可用实际通道对,这是因为如果声音被缓慢移动,则其从一个输出通道突然跳至另一个输出通道。因而,当不存在物理端点声音通道时,除非在该端点之外不存在物理通道(在该情况下不存在除扫调至距端点位置最近的一个声音通道之外的选择),否则将端点信号扫调至距该端点位置最近的一个声音通道是不适当的。
另一种实现这样的扫描的方式是诸如图2和2’的监控器201的监控器基于各输入还具有对应的输出通道(即,各对应输入和输出重合,表示相同位置)的假设生成“最终”缩放因子。然后,在不存在直接对应于输入通道的实际输出通道的情况下,诸如图2或2’的可变矩阵203的输出矩阵可将输出通道映射到一个或多个合适的输出通道。
如上所述,“计算缩放因子分量”设备或函数455、457和459中的每一个的输出被施加到相应的规格化设备或函数461、463和465.这样的规格化器是希望的,因为由块455、457和459计算的缩放因子分量基于受邻居补偿的电平,而最后的信号路径矩阵化(在多模块的情况下在主矩阵中,或者在孤立模块的情况下在局部矩阵中)涉及不受邻居补偿的电平(被施加到矩阵的输入信号未受邻居补偿)。典型地,通过规格化器减小缩放因子分量的值。
一种合适的实施规格化器的方法如下。各规格化器接收对于模块的各输入的受邻居补偿被平滑化的输入能量(来自组合器331和333),模块的各输入的未受邻居补偿的被平滑化的输入能量(如来自块325和327)、来自局部矩阵的局部矩阵系数信息、以及块355、357和359各自的输出。各规则化器计算各输出通道的所希望的输出以及用于各输出通道的实际输出电平,假设缩放因子为1。然后将计算出的各输出通道的希望的输出除以各输出通道的所计算的实际输出电平,并且对商求平方根以提供用于施加到“求和和/或取较大者”367的潜在的初步缩放因子。考虑以下例子。
假设二输入模块的被平滑化的、未受邻居补偿的输入能量水平为6和8,并且假设对应的受邻居补偿的能量电平为3和4。还假设中心内部输出通道具有矩阵系数=(.71,.71),或者被平方:(0.5,0.5)。如果模块选择用于此通道的初始缩放因子(基于受邻居补偿的电平)5.0,或被平方=0.25,然后此通道的所希望的输出电平(为了简化起见假设纯能量求和以及使用被邻居校正的电平)为:
.25*(3*.5+4*.5)=0.875.
由于实际输入水平为6和8时,如果上述缩放因子(被平方)0.25被用于最后信号路径路程的矩阵化,则输出电平为:
.25*(6*.5+8*.5)=1.75
而不是所希望的输出电平0.875。规格化器调整缩放因子以在使用未受邻居补偿的电平时获得希望的输出电平。
假设SF=1,实际输出=(6*.5+8*.5)=7.
(希望的输出电平)/(假定SF=1的实际输出)=0.875/7.5=0.125=被求平方的最终缩放因子。
用于该输出通道的最终缩放因子=sqrt(0.125)=0.354,而不是最初计算的值0.5。
“求和和/或取最大者”367优选地每一子频带对各输出通道的对应的填充和端点缩放因子分量求和,并且每一子频带选择各输出通道的主导和填充缩放因子分量的较大值。处于其优选形式的“求和和/或取较大者”块367的功能可被如图7所示地表征。即,主导缩放因子分量和填充缩放因子分量被施加到设备或函数701,该设备或函数701选择各输出的缩放因子分量的较大值(“取较大者”701),并且将它们施加到加性组合器或组合函数703,该加性组合器或组合函数703对来自较大值701的缩放因子分量与各输出的多余端点能量缩放因子求和。可替换地,当“求和和/或取最大者”467:(1)在区域1和区域2两者中求和,(2)得到区域1和区域2两者中的较大值,或者(3)选择区域1中的最大值并且在区域2中求和,可获得可接受的结果。
图8是本发明的一个方面响应于互相关性的度量生成缩放因子分量的方式的理想化的呈现。该图尤其对于参考图9A和9B至图16A到16B例子是有用的。如上所述,缩放因子分量的生成可被认为具有两个操作区域或区段(regime):第一区域、区域1以及第二区域、区域B,该区域1被“所有主导”以及“均匀填充”限定界限,其中可用缩放因子分量为主导和混合苏缩放因子,并且该区域2被“均匀填充”以及“所有端点”限定界限,其中可用缩放因子分量为填充和多余端点能量缩放因子分量的组合。“所有主导”边界条件在direction_xcor为1时出现。区域1(主导+填充)从该边界延伸到direction-weight_xcor等于random_xcor的点、“均匀填充条件”。“所有端点”边界条件在direction-weighted_xcor为0时出现。区域2(填充+端点)从“均匀填充”边界条件延伸到“所有端点”边界条件。“均匀填充”边界点可被认为在区域1或区域2中。如下文所述,精确的边界点不是关键的。
如图8中所示,随着主导缩放因子分量的值减小,填充缩放因子分量的值增大,在主导缩放因子分量达到零值时达到最大值,在这一点随着填充缩放因子分量的值下降,多余端点能量缩放因子分量的值增大。在被施加到接收模块的输入信号的合适矩阵时,结果是这样的输出信号分布,即该输出信号分布在输入信号高度相关时提供了紧凑声音图像,随着相关性降低该图像从紧凑扩散(加宽)到宽,并且随着相关性继续降低到高度不相关,从宽逐渐拆分或向外弯曲成多个声音图像,每个声音图像处于一端点。
尽管希望对于完全相关的情况存在单个空间紧凑的声音图像(在输入信号的标称前进主方向上),以及对于全不相关的情况存在多个空间紧凑声音图像(每一个位于一端点),这些极端情况之间的空间扩散声音图像可被以与如图8所示的方式不同的方式实现。这不是关键的,例如,填充缩放因子分量值对于random_xcor=direction-weighted_xcor达到最大值,而不是如图所示地三个缩放因子分量的值线性改变。本发明还可设想了图8的关系(以及在图的下面表述的方程式)的修改以及互相关性的合适度量和缩放因子值之间的其他关系,对于互相关性的度量从高度相关到高度不相关,该关系能够产生紧凑主导到宽的扩散以使紧凑端点信号分布紧凑。例如,不是通过采用如上所述的双区域方法获得紧凑主导到宽的扩散以使端点信号分布紧凑,而通过数学方法(例如采用基于伪逆的方程求解)来获得这样的结果。
输出缩放因子例子
一系列理想化表示(图9A和9B至图16A和16B)示出了对于各种输入信号条件的例子的模块的输出缩放因子。为了简化起见,假设单个、孤立模块,从而其对于可变矩阵产生的缩放因子为最终缩放因子。模块和相关联的可变矩阵具有两个输入通道(诸如左L和右R),该两个输入通道与两个端点输出通道(也可被指定为L和R)重合。在这一系列例子中,存在三个内部输出通道(诸如左中部Lm,中心C和右中部Rm)。
“全部主导”、“混合主导和填充”、“均匀填充”、“混合填充和端点”以及“全部端点”的含义结合图9A和9B至图16A和16B的例子被进一步说明。在每一对附图(例如,图9A和9B)中,“A”图示出两个输入(左L和右R)的能量电平,“B”图示出用于五个输出(左L、左中部Lm、中心C、右中部Rm和左R)的缩放因子。附图没有按比例绘制。
在图9A中,被示出为两个垂直箭头的输入能量电平相同。另外,direction-weighted_xcor(和effective_xcor)两者都为1.0(完全相关)。在此例子中,仅存在一个非零缩放因子,如在图9B中作为C处的单个垂直箭头被示出,其被施加到中心内部通道C输出,导致空间紧凑的主导信号。在此例子中,输出被定于中心(L/R=1),并且因而恰好与中心内部输出通道C重合。如果不存在重合的输出通道,则主导信号被以合适的比例施加到最近的输出通道,以便将主导信号扫调至它们之间的正确的虚拟位置。如果例如不存在中心输出通道C,左中部Lm和右中部Rm输出通道将具有非零缩放因子,使得主导信号被相等地施加到Lm和Rm输出。在此完全相关(全部主导信号)的情况下,不存在填充信号分量以及端点信号分量。因此,由块467(图4C)产生的初步缩放因子与由块361产生的经规格化的主导缩放因子分量相同。
在图10A中,输入能量电平相等,但是direction-weighted_xcor小于1.0并且大于random_xcor。因此,缩放因子分量为区域1——混合主导和填充的缩放因子分量。规格化的主导缩放因子分量(来自块361)和规格化的填充缩放因子分量(来自块363)之中的较大值被施加到各输出通道(通过块367),从而如图10B所示,主导缩放因子位于相同中心输出通道C,但是较小,而填充缩放因子在其他输出通道(L、LM、RM和R(包括端点L和R))中的每一个处出现。
在图11A中,输入能量电平保持相等,但是direction-weighted_xcor=random_xcor。因此,图11B中所示,缩放因子为区域1和2之间的边界条件——均匀填充条件的缩放因子,在该条件下不存在主导以及端点缩放因子,仅有在各输出处具有相同值的填充缩放因子(因此“均匀填充”),如各输出处的相同箭头所指示。在此例子中填充缩放因子水平达到它们的最高值。如下文所讨论的,填充缩放因子可取决于输入信号条件被不均匀地应用,诸如以锥形方式应用。
在图12A中,输入能量电平保持相等,但是direction-weighted_xcor小于random_xcor并且大于0(区域2)。因此,如图12B所示,存在填充和端点缩放因子,而不存在主导缩放因子。
在图13A中,输入能量电平保持相等,但是direction-weighted_xcor为0。因此,如图13B中所示,缩放因子为全端点边界区域的缩放因子。不存在内部输出缩放因子,仅有端点缩放因子。
在图9A/B到13A/B的例子中,由于两个输入的能量电平相等,因此direction-weighted_xcor(诸如由图4B的块441产生)与neighbor-compensated_xcor(诸如由图4B的块439产生)相同。但是,在图14A中,输入能量电平不相等(L大于R)。尽管在此例子中neighbor-compensated_xcor等于random_xcor,但是图14B中示出的得到的缩放因子不是如图11A和11B的例子中那样的被均匀施加给所有通道的填充缩放因子。相反,不相等的输入能量电平导致direction-weighted_xcor的比例增加(与标称前进主方向离开其中心位置的程度成正比),从而其变得大于neighbor-compensated_xcor,由此使得缩放因子被朝全部主导(如图8中所示)更多地加权。这是希望的结果,因为强L-或R-加权信号不应具有宽的宽度;它们应具有在L或R通道端点附近的紧凑宽度。图14B中所示的得到的输出为位于距L输出比距R输出更近的位置的非零主导缩放因子(在此情况下,受邻居补偿的方向信息恰好将主导分量精确定位在左中部LM位置),减小了缩放因子幅值,并且没有端点缩放因子(方向加权将操作推到图8的区域1(混合主导和填充))。
对于对应于图14B的缩放因子的5个输出,输出可被表示为:
Lout=Lt(SFL)
MidLout=((.92)Lt+(.38)Rt))(SFMidL)
Cout=((.45)Lt+(.45)Rt))(SFC)
MidRout=((.38)Lt+(.92)Lt))(SFMidR)
Rout=Rt(SFR).
因此,在图14B的例子中,即使用于除MidLout之外的四个输出中的每一个的缩放因子(SF)相等(填充),但是由于Lt大于Rt而使得对应的信号输出不相等(导致更多信号朝左侧输出),以及Mid Left处的主导输出大于缩放因子指示。由于标称前进主方向与MidLeft输出通道重合,Lt与Rt的比与对于MidLeft输出通道的矩阵系数相同,即0.92到0.38。假设它们是Lt和Rt的实际幅值。为了计算输出电平,将这些电平乘以相应的矩阵系数、相加并且以对应的缩放因子缩放:
输出幅值(output_channel_sub_i)
=sf(i)*(Lt_Coeff(i)*Lt+Rt_Coeff(i)*Rt)
尽管优选地考虑幅值和能量相加之间的混合(如在与图6A有关的计算中那样),但是,在此例子中,交叉相关性非常高(大的主导缩放因子),并且可执行普通的求和:
Lout=0.1*(1*0.92+0*0.38)=0.092
MidLout=0.9*(0.92*0.92+0.38*0.38)=0.900
Cout=0.1*(0.71*0.92+0.71*0.38)=0.092
MidRout=0.1*(0.38*0.92+0.92*0.38)=0.070
Rout=0.1*(0*0.92+1*0.38)=0.038
因此,此示例说明由于Lt大于Rt,因而用于那些输出的缩放因子相等,在Lout、Cout、MidRout和Rout处的信号输出也不相等。
如图10B、11B、12B和14B的例子中所示的,填充缩放因子可被相等地分配给输出通道。可替换地,填充缩放因子分量不是均匀的,而是可作为主导(相关)和/或端点(不相关)输入信号分量的函数(或等同地,作为direction-weighted_xcor值的函数)按一些方式随位置改变。对于direction-weighted_xcor的适当高的值,填充缩放因子分量幅值可凸起地弯曲,使得在缩放标称前进主方向附近的输出通道接收比远离该方向的通道所接收的信号电平多的信号电平。对于direction-weighted_xcor=random_xcor,填充缩放因子分量幅值可平坦化为均匀分布,并且对于direction-weighted_xcor<random_xcor,幅值可凹入地弯曲,有助于在端点方向附近的通道。
图15B和16B中阐述了这样的弯曲的填充缩放因子幅值的例子。图15B输出来自输入(图15A)的结果,与如上所述的图10A中相同。图16B输出来自输入(图16A)的结果,其与如上所述图12B中的情况一样。
模块和监控器之间的通信
关于邻居电平和高等级邻居电平
多个模块布置(诸如图1A和2的例子以及图1B和2’的例子)中的各模块需要两种机制以便支持它与监控器(诸如图2和2’的监控器201)之间的通信:
(a)调用和报告监控器所需的信息,以计算邻居电平和高等级邻居电平(如果有的话)。监控器所需的信息是如例如由图6A的布置所产生的可归因于模块的各输入的总估计内部能量。
(b)接收和应用来自监控器的邻居电平(如果有的话)以及高等级邻居电平(如果有的话)。在图4B的例子中,在各组合器431和433中从各输出的被平滑化的能量电平减去该邻居电平,并且在各组合器431、433和435中从各输入的被平滑化的能量电平以及跨通道的公共能量减去该高等级邻居电平(如果有的话)。
一旦监控器知道每个模块的每个输入的全部总估计内部能量贡献的产生器:
(1)其确定各输入的总估计内部能量贡献(从与该输入连接的所有模块求和)是否超过在该输入处的总的可得信号电平。如果该和值超过总的可得信号电平,则监控器将由与该输入连接的各模块报告的报告内部能量中的每一个向后缩放,从而它们求和为该总的输入电平。
(2)其将在各输入处的邻居电平告知各模块,作为该输入的所有其他内部能量贡献的总和(如果有的话)。
高等级(HO)邻居电平为共享较低电平模块的输入的一个或多个高等级模块的邻居电平。邻居电平的上述计算仅涉及具有相同层级(所有三输入模块(如果有的话)、然后所有二输入模块等)的特定输入处的模块。模块的HO-邻居电平为在该输入处的所有高等级模块的所有邻居电平的总和(即,在二输入模块的输入处的HO邻居电平为共享二输入模块的节点的所有第三、第四和高等级模块(如果有的话)的总和)。一旦模块知道在其特定一个输入处的HO邻居电平是多少,其从该输出的总输入能量电平减去它们以及相同层级邻居电平,以得到在该输入节点处的受邻居补偿的电平。这在图4B中示出,分别在组合器431和433中从可变慢平滑器425和427的输出减去对于输入1和输入m的邻居电平,并且分别在组合器431、433和435中从可变慢平滑器425、427和429减去对于输入1、输入m的高等级邻居电平和公共能量。
邻居电平和HO邻居电平对于补偿的使用之间的一个区别在于HO邻居电平也被用于补偿跨输入通道的公共能量(例如,通过在组合器435中的HO邻居电平的减法实现)。此区别的基本原理为模块的公共电平不受相同层级的相邻模块影响,但是其可被共享模块的所有输入的高等级模块影响。
例如,假设输入通道Ls(左环绕)、Rs(右环绕)和Top,具有在它们之间的三角形的中部的内部输出通道(抬高的环后部),加上在Ls和Rs之间的线上的内部输出通道(主水平环后部),前一种输出通道需要三输入模块来恢复对于全部三个输入是公共的信号。然后,后一种输出通道位于两个输入(Ls和Rs)之间的线上,需要二输入模块。但是,二输入模块观察到的总公共信号电平包括三输入模块的不属于后一种输出通道的公共元素,从而从二输入模块的公共能量减去HO邻居电平的成对乘积的平方根以确定多少公共能量仅由其内部通道(提及的后一种通道)提供。因此,在图4B中,被平滑化的公共能量电平(来自块429)以从中减去导出的HO公共电平,以得到受邻居补偿的公共能量电平(从组合器435),其被模块使用以计算(在块439中)neighbor-compensated_xcor。
本发明及其各方面可被以模拟电路实现,或者更可能实现为在数字信号处理器、编程通用数字计算机和/或专用数字计算机中执行的软件函数。模拟和数字信号流之间的接口可被在合适的硬件中执行,和/或在软件和/或固件中作为函数执行。尽管本发明及其各方面可涉及模拟或数字信号,但是在实际应用中,大部分或全部处理函数可能在数字域中针对数字信号流执行,在数字信号流中音频信号由样本代表。
应理解,本发明及其各个方面的其他变型和修改的实施对于本领域技术人员是清楚的,并且本发明不限于文中所述的这些具体实施例。因此可想到,本发明涵盖落在文中公开和以权利要求保护的基本底层原理的实际精神和范围内的任何以及所有修改、变型或等同物。

Claims (9)

1.一种用于将N个音频输入通道转换至M个音频输出通道的方法,所述N个音频输入通道中的每一个与一空间方向相关联,所述M个音频输出通道中的每一个与一空间方向相关联,其中M和N全部是正整数,N是3或更大,并且M是1或更大,所述方法包括:
从所述N个音频输入通道导出所述M个音频输出通道,其中所述M个音频输出通道中的一个或多个与不同于与所述N个音频输入通道中的任一个相关联的空间方向的空间方向相关联,所述M个音频输出通道中的所述一个或多个中的至少一个被从所述N个音频输入通道中的至少三个音频输入通道的对应集合导出,其中,至少部分地通过近似所述N个音频输入通道中的所述至少三个音频输入通道的互相关,从所述N个音频输入通道中的所述至少三个音频输入通道的对应集合导出所述M个音频输出通道中的所述一个或多个中的至少一个,所述互相关的值具有设定的较低的限值;以及
提供盲上混合模式,在所述盲上混合模式中,音频输入通道信号被扩增以使得在从其导出被导出的音频输出通道的音频输入通道中的至少一个具有信号输入时在该被导出的音频输出通道中提供至少一些信号输出,其中通道的盲上混合是通过对于所述互相关的值设定较低的限值并且获取从其导出该被导出的音频输出通道的音频输入通道的信号功率的加权平均值来执行的。
2.根据权利要求1所述的方法,其中,近似所述互相关包括计算所述N个音频输入通道中的所述至少三个音频输入通道中的每一对的公共能量,并且其中,任何所述对的公共能量具有最小值。
3.根据权利要求2所述的方法,其中,所述最小值是基于随机等分布相关值的。
4.根据权利要求1所述的方法,其中,从其导出该被导出的音频输出通道的音频输入通道中的各个音频输入通道的权重是该音频输入通道的矩阵系数。
5.一种用于将N个音频输入通道转换至M个音频输出通道的设备,所述N个音频输入通道中的每一个与一空间方向相关联,所述M个音频输出通道中的每一个与一空间方向相关联,其中M和N全部是正整数,N是3或更大,并且M是1或更大,所述设备包括:
用于从所述N个音频输入通道导出所述M个音频输出通道的装置,其中所述M个音频输出通道中的一个或多个与不同于与所述N个音频输入通道中的任一个相关联的空间方向的空间方向相关联,所述M个音频输出通道中的所述一个或多个中的至少一个被从所述N个音频输入通道中的所述至少三个音频输入通道的对应集合导出,其中,至少部分地通过近似所述N个音频输入通道中的至少三个音频输入通道的互相关,从所述N个音频输入通道中的所述至少三个音频输入通道的对应集合导出所述M个音频输出通道中的所述一个或多个中的至少一个,所述互相关的值具有设定的较低的限值;以及
用于提供盲上混合模式的装置,在所述盲上混合模式中,音频输入通道信号被扩增以使得在从其导出被导出的音频输出通道的音频输入通道中的至少一个具有信号输入时在该被导出的音频输出通道中提供至少一些信号输出,其中通道的盲上混合是通过对于所述互相关的值设定较低的限值并且获取从其导出该被导出的音频输出通道的音频输入通道的信号功率的加权平均值来执行的。
6.根据权利要求5所述的设备,其中,近似所述互相关包括计算所述N个音频输入通道中的所述至少三个音频输入通道中的每一对的公共能量,并且其中,任何所述对的公共能量具有最小值。
7.根据权利要求6所述的设备,其中,所述最小值是基于随机等分布相关值的。
8.根据权利要求5所述的设备,其中,从其导出该被导出的音频输出通道的音频输入通道中的各个音频输入通道的权重是该音频输入通道的矩阵系数。
9.一种用于将N个音频输入通道转换至M个音频输出通道的设备,所述N个音频输入通道中的每一个与一空间方向相关联,所述M个音频输出通道中的每一个与一空间方向相关联,其中M和N全部是正整数,N是3或更大,并且M是1或更大,所述设备包括:
至少一个处理器;以及
至少一个有形存储装置,该有形存储装置上存储有计算机指令,该计算机指令在被执行时使得所述至少一个处理器被配置用于:
从所述N个音频输入通道导出所述M个音频输出通道,其中所述M个音频输出通道中的一个或多个与不同于与所述N个音频输入通道中的任一个相关联的空间方向的空间方向相关联,所述M个音频输出通道中的所述一个或多个中的至少一个被从所述N个音频输入通道中的至少三个音频输入通道的对应集合导出,其中,至少部分地通过近似所述N个音频输入通道中的所述至少三个音频输入通道的互相关,从所述N个音频输入通道中的所述至少三个音频输入通道的对应集合导出所述M个音频输出通道中的所述一个或多个中的至少一个,所述互相关的值具有设定的较低的限值;以及
提供盲上混合模式,在所述盲上混合模式中,音频输入通道信号被扩增以使得在从其导出被导出的音频输出通道的音频输入通道中的至少一个具有信号输入时在该被导出的音频输出通道中提供至少一些信号输出,其中通道的盲上混合是通过对于所述互相关的值设定较低的限值并且获取从其导出该被导出的音频输出通道的音频输入通道的信号功率的加权平均值来执行的。
CN201510122915.4A 2008-12-18 2009-12-16 音频通道空间转换 Active CN104837107B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13882308P 2008-12-18 2008-12-18
US61/138,823 2008-12-18
CN200980151223.5A CN102273233B (zh) 2008-12-18 2009-12-16 音频通道空间转换

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN200980151223.5A Division CN102273233B (zh) 2008-12-18 2009-12-16 音频通道空间转换

Publications (2)

Publication Number Publication Date
CN104837107A CN104837107A (zh) 2015-08-12
CN104837107B true CN104837107B (zh) 2017-05-10

Family

ID=41796414

Family Applications (2)

Application Number Title Priority Date Filing Date
CN200980151223.5A Active CN102273233B (zh) 2008-12-18 2009-12-16 音频通道空间转换
CN201510122915.4A Active CN104837107B (zh) 2008-12-18 2009-12-16 音频通道空间转换

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN200980151223.5A Active CN102273233B (zh) 2008-12-18 2009-12-16 音频通道空间转换

Country Status (5)

Country Link
US (7) US9628934B2 (zh)
EP (2) EP2398257B1 (zh)
CN (2) CN102273233B (zh)
HK (2) HK1164603A1 (zh)
WO (1) WO2010080451A1 (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010131431A1 (ja) * 2009-05-11 2010-11-18 パナソニック株式会社 音響再生装置
US20120093323A1 (en) * 2010-10-14 2012-04-19 Samsung Electronics Co., Ltd. Audio system and method of down mixing audio signals using the same
EP2727380B1 (en) 2011-07-01 2020-03-11 Dolby Laboratories Licensing Corporation Upmixing object based audio
EP2645749B1 (en) * 2012-03-30 2020-02-19 Samsung Electronics Co., Ltd. Audio apparatus and method of converting audio signal thereof
KR102062906B1 (ko) * 2012-03-30 2020-02-11 삼성전자주식회사 오디오 장치 및 이의 오디오 신호 변환 방법
EP2904817A4 (en) * 2012-10-01 2016-06-15 Nokia Technologies Oy APPARATUS AND METHOD FOR REPRODUCING RECORDED AUDIO DATA WITH CORRECT SPACE ORIENTATION
EP2733964A1 (en) * 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Segment-wise adjustment of spatial audio signal to different playback loudspeaker setup
US9465317B2 (en) 2013-02-25 2016-10-11 Ricoh Company, Ltd. Nozzle insertion member, powder container, and image forming apparatus
WO2014157975A1 (ko) 2013-03-29 2014-10-02 삼성전자 주식회사 오디오 장치 및 이의 오디오 제공 방법
EP2830332A3 (en) 2013-07-22 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration
CN104703092A (zh) * 2013-12-09 2015-06-10 国民技术股份有限公司 音频信号的传输方法、装置、移动终端及音频通信系统
CA2953674C (en) * 2014-06-26 2019-06-18 Samsung Electronics Co. Ltd. Method and device for rendering acoustic signal, and computer-readable recording medium
US10327067B2 (en) * 2015-05-08 2019-06-18 Samsung Electronics Co., Ltd. Three-dimensional sound reproduction method and device
CN105407443B (zh) 2015-10-29 2018-02-13 小米科技有限责任公司 录音方法及装置
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
US11277705B2 (en) 2017-05-15 2022-03-15 Dolby Laboratories Licensing Corporation Methods, systems and apparatus for conversion of spatial audio format(s) to speaker signals
US11004457B2 (en) * 2017-10-18 2021-05-11 Htc Corporation Sound reproducing method, apparatus and non-transitory computer readable storage medium thereof
GB201718341D0 (en) 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
GB2572650A (en) 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
US10728689B2 (en) * 2018-12-13 2020-07-28 Qualcomm Incorporated Soundfield modeling for efficient encoding and/or retrieval
EP3900373A4 (en) * 2018-12-18 2022-08-10 Intel Corporation DISPLAY-BASED AUDIO DIVISION IN MULTIMEDIA ENVIRONMENTS
CN110995324B (zh) * 2019-12-16 2021-09-28 Tcl移动通信科技(宁波)有限公司 蓝牙通信方法、装置、存储介质及终端设备
WO2022124620A1 (en) * 2020-12-08 2022-06-16 Samsung Electronics Co., Ltd. Method and system to render n-channel audio on m number of output speakers based on preserving audio-intensities of n-channel audio in real-time

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1524399A (zh) * 2001-02-07 2004-08-25 ʵ 声道转换
CN1672464A (zh) * 2002-08-07 2005-09-21 杜比实验室特许公司 音频声道空间转换
CN1961611A (zh) * 2004-06-04 2007-05-09 松下电器产业株式会社 音响信号处理装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4799260A (en) 1985-03-07 1989-01-17 Dolby Laboratories Licensing Corporation Variable matrix decoder
AUPP272598A0 (en) 1998-03-31 1998-04-23 Lake Dsp Pty Limited Wavelet conversion of 3-d audio signals
US7660424B2 (en) * 2001-02-07 2010-02-09 Dolby Laboratories Licensing Corporation Audio channel spatial translation
US7391869B2 (en) * 2002-05-03 2008-06-24 Harman International Industries, Incorporated Base management systems
US7706544B2 (en) 2002-11-21 2010-04-27 Fraunhofer-Geselleschaft Zur Forderung Der Angewandten Forschung E.V. Audio reproduction system and method for reproducing an audio signal
US7336793B2 (en) 2003-05-08 2008-02-26 Harman International Industries, Incorporated Loudspeaker system for virtual sound synthesis
MX2007015118A (es) * 2005-06-03 2008-02-14 Dolby Lab Licensing Corp Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion.
DE102005057406A1 (de) * 2005-11-30 2007-06-06 Valenzuela, Carlos Alberto, Dr.-Ing. Verfahren zur Aufnahme einer Tonquelle mit zeitlich variabler Richtcharakteristik und zur Wiedergabe sowie System zur Durchführung des Verfahrens

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1524399A (zh) * 2001-02-07 2004-08-25 ʵ 声道转换
CN1672464A (zh) * 2002-08-07 2005-09-21 杜比实验室特许公司 音频声道空间转换
CN1961611A (zh) * 2004-06-04 2007-05-09 松下电器产业株式会社 音响信号处理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Novel Very Low Bit Rate Multi-Channel Audio Coding Scheme using Accurate Temporal Envelope Coding and Signal Synthesis Tools;Chandresh Dubey;《Audio Engineering Society, 121st Convention》;20061005;第1-9页 *

Also Published As

Publication number Publication date
US11395085B2 (en) 2022-07-19
CN102273233B (zh) 2015-04-15
HK1164603A1 (zh) 2012-09-21
US20170289721A1 (en) 2017-10-05
US20230007419A1 (en) 2023-01-05
US20190297445A1 (en) 2019-09-26
US9628934B2 (en) 2017-04-18
HK1214062A1 (zh) 2016-07-15
WO2010080451A1 (en) 2010-07-15
CN102273233A (zh) 2011-12-07
EP2398257A2 (en) 2011-12-21
EP2380365A1 (en) 2011-10-26
US10887715B2 (en) 2021-01-05
US20190124460A1 (en) 2019-04-25
US20110249819A1 (en) 2011-10-13
US10104488B2 (en) 2018-10-16
US10469970B2 (en) 2019-11-05
CN104837107A (zh) 2015-08-12
US20240098438A1 (en) 2024-03-21
US20210235212A1 (en) 2021-07-29
US11805379B2 (en) 2023-10-31
EP2398257B1 (en) 2017-05-10
EP2398257A3 (en) 2012-03-21

Similar Documents

Publication Publication Date Title
CN104837107B (zh) 音频通道空间转换
TWI451772B (zh) 中央聲道音訊呈現技術
US7660424B2 (en) Audio channel spatial translation
CA2494454C (en) Audio channel spatial translation
US7003467B1 (en) Method of decoding two-channel matrix encoded audio to reconstruct multichannel audio
US7231054B1 (en) Method and apparatus for three-dimensional audio display
CN108141692B (zh) 用于基于对象的音频的低音管理系统和方法
CN111131970B (zh) 过滤音频信号的音频信号处理装置和方法
US11373662B2 (en) Audio system height channel up-mixing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1214062

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1214062

Country of ref document: HK