CN110326310B - 串扰消除的动态均衡 - Google Patents
串扰消除的动态均衡 Download PDFInfo
- Publication number
- CN110326310B CN110326310B CN201880012042.3A CN201880012042A CN110326310B CN 110326310 B CN110326310 B CN 110326310B CN 201880012042 A CN201880012042 A CN 201880012042A CN 110326310 B CN110326310 B CN 110326310B
- Authority
- CN
- China
- Prior art keywords
- crosstalk
- signal
- binaural
- pair
- loudspeaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/12—Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
- H04R3/14—Cross-over networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
Abstract
可以接收和解码旨在于第一音频再现系统上再现的第一回放流呈现以及变换参数。第二回放流呈现可以旨在于耳机上再现。可以将所述变换参数应用于中间回放流呈现,以获得所述第二回放流呈现。所述中间回放流呈现可以是所述第一回放流呈现、所述第一回放流呈现的向下混合或所述第一回放流呈现的向上混合。可以通过用串扰消除算法处理所述第二回放流呈现来获得经串扰消除的信号。可以通过动态均衡或增益级来处理所述经串扰消除的信号,其中,均衡或增益的量可以取决于所述第一回放流呈现或所述第二回放流呈现的水平。
Description
相关申请的交叉引用
本申请要求于2017年1月13日提交的第62/446,165号美国临时专利申请以及于2017年11月30日提交的题为“DYNAMIC EQUALIZATION FOR CROSS-TALK CANCELLATION(串扰消除的动态均衡)”的第62/592,906号美国临时专利申请的优先权权益,这些美国临时专利申请通过引用以其全文并入本文。
技术领域
本公开涉及音频处理领域,包括用于处理沉浸式音频内容的方法和系统。
背景技术
杜比全景声(Dolby Atmos)系统提供了音频对象格式系统。例如,在诸如杜比全景声格式等格式中,沉浸式音频内容可以由动态对象(例如,具有时变元数据的对象信号)和静态对象构成,所述静态对象也被称为由一个或多个命名通道(例如,左前环绕、中间环绕、后顶环绕等)构成的层(bed)。本公开涉及音频处理领域,包括用于处理沉浸式音频内容的方法和系统。
动态对象的时变元数据可以描述每个对象的一种或多种属性,诸如:
-作为时间的函数的对象的位置,例如在方位角和仰角或笛卡尔坐标方面;
-语义标签,诸如音乐、音效或对话;
-表明将如何在扩音器上渲染对象的信息的空间渲染属性,诸如空间区域掩码、捕捉标记(snap flag)或对象大小;
-表明将如何在耳机上渲染对象的信息的空间渲染属性,诸如靠近收听者(“近”)、远离收听者(“远”)的对象的双耳模拟或根本不需要双耳模拟(“绕开”)。
当例如在杜比全景声内容中同时使用大量对象时,传输和渲染众多元素可能会有挑战,尤其是在以电池电力运行的移动装置上。
发明内容
本文公开了各种音频处理方法。一些方法可以涉及从数据流中解码回放流呈现(presentation)。例如,这种方法可以涉及解码被配置用于在第一音频再现系统上再现的第一回放流呈现以及解码适于将中间回放流变换为第二回放流呈现的变换参数。所述第二回放流呈现可以被配置用于在耳机上再现。所述中间回放流呈现可以是所述第一回放流呈现、所述第一回放流呈现的向下混合(down-mix)和/或所述第一回放流呈现的向上混合(up-mix)。
所述方法可以涉及将所述变换参数应用于所述中间回放流呈现以获得所述第二回放流呈现,以及通过串扰消除算法来处理所述第二回放流呈现以获得经串扰消除的信号。一些方法可以涉及通过动态均衡或增益级来处理所述经串扰消除的信号,其中,均衡或增益的量取决于所述第一回放流呈现或所述第二回放流呈现的水平(level),以产生所述经串扰消除的信号的经修改版本。所述方法可以涉及输出所述经串扰消除的信号的所述经修改版本。
在一些示例中,所述串扰消除算法可以至少部分地基于扩音器数据。所述扩音器数据可以包括扩音器位置数据。根据一些实施方式,所述动态均衡或增益的量可以至少部分地基于声学环境数据。在一些实施方式中,所述声学环境数据可以包括表示预期收听位置处的直达与混响之比的数据。在一些示例中,所述动态均衡或增益可以是频率相关的。根据一些实施方式,所述声学环境数据可以是频率相关的。一些这种方法可以涉及在耳机上回放所述经串扰消除的信号的所述经修改版本。
一些替代性方法可以涉及虚拟渲染基于通道或基于对象的音频。一些这种方法可以涉及接收一个或多个输入音频信号和与所述输入音频信号中的至少一个输入音频信号的预期位置相对应的数据,以及针对所述一个或多个输入信号的每个输入信号生成双耳信号对。所述双耳信号对可以基于所述输入信号的预期位置。一些这种方法可以涉及对所述双耳信号对应用串扰消除过程以获得经串扰消除的信号对,以及测量所述经串扰消除的信号对的水平。这种方法可以涉及测量所述输入音频信号的水平,以及响应于所述经串扰消除的信号对的经测量水平和所述输入音频的经测量水平而对所述经串扰消除的信号对应用动态均衡或增益以产生所述经串扰消除的信号的经修改版本。一些方法可以涉及输出所述经串扰消除的信号的所述经修改版本。
在一些示例中,所述动态均衡或增益可以至少部分地基于时间或频率的函数。在一些实例中,所述水平估计可以至少部分地基于对跨通道或对象的水平进行求和。根据一些实施方式,水平可以至少部分地基于能量、功率、响度和/或振幅。可以在变换域或滤波器组(filterbank)域中实施所述处理的至少一部分。
根据一些示例,所述串扰消除算法可以至少部分地基于扩音器数据。在一些实施方式中,所述扩音器数据可以包括扩音器位置数据。根据一些示例,所述动态均衡或增益的量可以至少部分地基于声学环境数据。所述声学环境数据可以包括表示预期收听位置处的直达与混响之比的数据。在一些示例中,所述动态均衡、所述增益和/或所述声学环境数据可以是频率相关的。
一些方法可以涉及对所述双耳信号对或所述经串扰消除的信号对求和以产生经求和的双耳信号对。根据一些这种示例,可以对所述经求和的双耳信号对应用所述串扰消除过程。
可以通过一个或多个装置根据存储在一个或多个非暂态介质上的指令(例如,软件)来执行本文所描述的方法中的一些或所有方法。这种非暂态介质可以包括诸如本文所描述的那些装置等存储器装置,包括但不限于随机存取存储器(RAM)装置、只读存储器(ROM)装置等。因此,可以在其上存储有软件的一个或多个非暂态介质中实施本公开中所描述的主题的各个创新方面。例如所述软件可以包括用于控制至少一个装置来处理音频数据的指令。例如所述软件可以由如本文所公开的那些控制系统等控制系统的一个或多个部件来执行。
根据一些示例,所述软件可以包括用于控制一个或多个装置执行方法的指令。所述方法可以涉及从数据流中解码回放流呈现。例如,一些方法可以涉及解码被配置用于在第一音频再现系统上再现的第一回放流呈现,以及解码适于将中间回放流变换为第二回放流呈现的变换参数。所述第二回放流呈现可以被配置用于在耳机上再现。所述中间回放流呈现可以是所述第一回放流呈现、所述第一回放流呈现的向下混合和/或所述第一回放流呈现的向上混合。
所述方法可以涉及将所述变换参数应用于所述中间回放流呈现以获得所述第二回放流呈现,以及通过串扰消除算法来处理所述第二回放流呈现以获得经串扰消除的信号。一些方法可以涉及通过动态均衡或增益级来处理所述经串扰消除的信号,其中,均衡或增益的量取决于所述第一回放流呈现或所述第二回放流呈现的水平,以产生所述经串扰消除的信号的经修改版本。所述方法可以涉及输出所述经串扰消除的信号的所述经修改版本。
在一些示例中,所述串扰消除算法可以至少部分地基于扩音器数据。所述扩音器数据可以包括扩音器位置数据。根据一些实施方式,所述动态均衡或增益的量可以至少部分地基于声学环境数据。在一些实施方式中,所述声学环境数据可以包括表示预期收听位置处的直达与混响之比的数据。在一些示例中,所述动态均衡或增益可以是频率相关的。根据一些实施方式,所述声学环境数据可以是频率相关的。一些这种方法可以涉及在耳机上回放所述经串扰消除的信号的所述经修改版本。
根据一些替代性实施方式,所述软件可以包括用于控制一个或多个装置执行替代性方法的指令。所述方法可以涉及虚拟渲染基于通道或基于对象的音频。一些这种方法可以涉及接收一个或多个输入音频信号和与所述输入音频信号中的至少一个输入音频信号的预期位置相对应的数据,以及针对所述一个或多个输入信号的每个输入信号生成双耳信号对。所述双耳信号对可以基于所述输入信号的预期位置。
一些这种方法可以涉及对所述双耳信号对应用串扰消除过程以获得经串扰消除的信号对,以及测量所述经串扰消除的信号对的水平。这种方法可以涉及测量所述输入音频信号的水平,以及响应于所述经串扰消除的信号对的经测量水平和所述输入音频的经测量水平而对所述经串扰消除的信号对应用动态均衡或增益以产生所述经串扰消除的信号的经修改版本。一些方法可以涉及输出所述经串扰消除的信号的所述经修改版本。
在一些示例中,所述动态均衡或增益可以至少部分地基于时间或频率的函数。在一些实例中,所述水平估计可以至少部分地基于对跨通道或对象的水平进行求和。根据一些实施方式,水平可以至少部分地基于能量、功率、响度和/或振幅。可以在变换域或滤波器组域中实施所述处理的至少一部分。
根据一些示例,所述串扰消除算法可以至少部分地基于扩音器数据。在一些实施方式中,所述扩音器数据可以包括扩音器位置数据。根据一些示例,所述动态均衡或增益的量可以至少部分地基于声学环境数据。所述声学环境数据可以包括表示预期收听位置处的直达与混响之比的数据。在一些示例中,所述动态均衡、所述增益和/或所述声学环境数据可以是频率相关的。
一些方法可以涉及对所述双耳信号对或所述经串扰消除的信号对求和以产生经求和的双耳信号对。根据一些这种示例,可以对所述经求和的双耳信号对应用所述串扰消除过程。
本公开的至少一些方面可以经由设备来实施。例如,一个或多个装置可以被配置用于至少部分地执行本文所公开的方法。在一些实施方式中,设备可以包括接口系统和控制系统。所述接口系统可以包括一个或多个网络接口、所述控制系统与存储器系统之间的一个或多个接口、所述控制系统与另一装置之间的一个或多个接口和/或一个或多个外部装置接口。所述控制系统可以包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑装置、分立栅极或晶体管逻辑或分立硬件部件中的至少一个。
所述控制系统可以被配置用于至少部分地执行本文所公开的方法。在一些实施方式中,所述控制系统可以被配置用于解码经由所述接口系统接收的第一回放流呈现,所述第一回放流呈现被配置用于在第一音频再现系统上再现。所述控制系统可以被配置用于解码经由所述接口系统接收的变换参数。所述变换参数可以适于将中间回放流变换为被配置用于在耳机上再现的第二回放流呈现。所述中间回放流呈现可以是所述第一回放流呈现、所述第一回放流呈现的向下混合和/或所述第一回放流呈现的向上混合。
在一些实施方式中,所述控制系统可以被配置用于将所述变换参数应用于所述中间回放流呈现以获得所述第二回放流呈现,以及通过串扰消除算法来处理所述第二回放流呈现以获得经串扰消除的信号。所述控制系统可以被配置用于通过动态均衡或增益级来处理所述经串扰消除的信号,其中,均衡或增益的量可以取决于所述第一回放流呈现或所述第二回放流呈现的水平,以产生所述经串扰消除的信号的经修改版本。所述控制系统可以被配置用于经由所述接口系统输出所述经串扰消除的信号的经修改版本。
根据一些示例,所述串扰消除算法可以至少部分地基于扩音器数据。在一些实施方式中,所述扩音器数据可以包括扩音器位置数据。根据一些示例,所述动态均衡或增益的量可以至少部分地基于声学环境数据。所述声学环境数据可以包括表示预期收听位置处的直达与混响之比的数据。在一些示例中,所述动态均衡、所述增益和/或所述声学环境数据可以是频率相关的。
根据一些实施方式,所述设备(或包括设备的系统)可以包括耳机。在一些这种实施方式中,所述控制系统可以进一步被配置用于在所述耳机上回放所述经串扰消除的信号的所述经修改版本。
本文公开了替代性设备实施方式。在一些实施方式中,设备可以包括接口系统和控制系统。根据一些实施方式,所述控制系统可以被配置用于接收一个或多个输入音频信号和与所述输入音频信号中的至少一个输入音频信号的预期位置相对应的数据,以及针对所述一个或多个输入信号的每个输入信号生成双耳信号对。所述双耳信号对可以基于所述输入信号的预期位置。
所述控制系统可以被配置用于对所述双耳信号对应用串扰消除过程以获得经串扰消除的信号对、测量所述经串扰消除的信号对的水平以及测量所述输入音频信号的水平。在一些示例中,所述控制系统可以被配置用于响应于所述经串扰消除的信号对的经测量水平和所述输入音频的经测量水平而对所述经串扰消除的信号对应用动态均衡或增益,以产生所述经串扰消除的信号的经修改版本。所述控制系统可以被配置用于经由所述接口系统输出所述经串扰消除的信号的经修改版本。
在一些实施方式中,所述动态均衡或增益可以至少部分地基于时间或频率的函数。在一些实例中,所述水平估计可以至少部分地基于对跨通道或对象的水平进行求和。根据一些实施方式,水平可以至少部分地基于能量、功率、响度和/或振幅。可以在变换域或滤波器组域中实施所述处理的至少一部分。
根据一些示例,所述串扰消除算法可以至少部分地基于扩音器数据。在一些实施方式中,所述扩音器数据可以包括扩音器位置数据。根据一些示例,所述动态均衡或增益的量可以至少部分地基于声学环境数据。所述声学环境数据可以包括表示预期收听位置处的直达与混响之比的数据。在一些示例中,所述动态均衡、所述增益和/或所述声学环境数据可以是频率相关的。
根据一些实施方式,所述控制系统可以进一步被配置用于对所述双耳信号对或所述经串扰消除的信号对求和,以产生经求和的双耳信号对。在一些这种实施方式中,可以对所述经求和的双耳信号对应用所述串扰消除过程。
在以下附图和说明中阐述了本说明书所描述的主题的一个或多个实施方式的细节。其他特征、方面和优点将在说明书、附图和权利要求中变得更明显。注意,以下附图的相对尺寸可能不是按比例来绘制的。
附图说明
图1示意性地图示了根据一个示例的处理用于耳机再现的扩音器呈现的系数w的产生。
图2示意性地图示了根据一个示例的用于重构无回声信号的系数W(WE)和来自核心解码器输出的一个早期反射(具有另外的体(bulk)延迟级)。
图3示意性地图示了根据一个示例的使用用于重构无回声信号的系数W(WF)和来自核心解码器输出的FDN输入信号的过程。
图4示意性地图示了根据一个示例的处理用于耳机和扩音器的无回声呈现的系数w的产生和处理。
图5图示了串扰消除器的设计的示例,所述串扰消除器基于从扩音器到收听者耳朵的音频传输模型。
图6示出了坐在沙发上的三个收听者的示例。
图7图示了根据一个示例的用于在多个串扰消除器之间平移(pan)从音频对象生成的双耳信号的系统。
图8是根据一个实施例的图示在多个串扰消除器之间平移双耳信号的方法的流程图。
图9示出了收听者前方的三个扬声器对的示例。
图10是根据一个实施例的描绘了应用于单个对象o的均衡过程的图示。
图11是根据一个示例的图示了对单一对象执行均衡过程的方法的流程图。
图12是根据一个示例的通过相同的串扰消除器对多个对象输入同时应用均衡过程的系统的框图。
图13图示了根据一个示例的沉浸式立体声解码器的示意图。
图14图示了根据一个示例的对动态均衡级的示意性概述。
图15图示了根据一个示例的对渲染器的示意性概述。
图16是示出可以被配置为执行本文所公开方法中的至少一些方法的设备的部件的示例的框图。
图17是根据一个示例的方法的概述框的流程图。
图18是根据一个示例的方法的概述框的流程图。
具体实施方式
以下说明涉及出于描述本公开的一些创新性方面的目的的某些实施方式以及可以实施这些创新性方面的上下文的示例。然而,可以以各种不同的方式来应用本文的教导内容。此外,可以在各种硬件、软件、固件等中实施所描述的实施例。例如可以至少部分地在设备、包括多于一个装置的系统、方法、计算机程序产品等中体现本申请的方面。因此,本申请的方面可以采用硬件实施例、软件实施例(包括固件、常驻软件、微代码等)和/或组合软件方面和硬件方面的实施例的形式。这种实施例在本文可以以各种方式被称为例如“电路”、“模块”、“级”或“引擎”。本申请的一些方面可以采用在一个或多个非暂态介质中实施的计算机程序产品的形式,所述非暂态介质具有在其上实施的计算机可读程序代码。这种非暂态介质可以例如包括硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、便携式致密盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述各项的任何合适的组合。因此,本公开的教导内容不旨在限制附图中示出和/或本文所描述的实施方式,而是具有广泛的适用性。
杜比已经开发了用于呈现变换的方法,所述方法可以用于高效传输和解码耳机的沉浸式音频。可以通过跨编码器和解码器拆分渲染过程来实现编码效率和解码复杂度的降低,而不是依赖于解码器来渲染所有对象。在一些示例中,可以将所有渲染(用于耳机和立体声扩音器回放)应用于编码器中,同时通过核心编码器来编码立体声扩音器呈现。所得的比特流可以伴随有允许将立体声扩音器呈现变换为双耳耳机呈现的参数数据。解码器可以被配置为从单个比特流中输出立体声扩音器呈现、双耳耳机呈现或以上两种呈现。
图1至图4图示了用于将沉浸式音频递送到耳机上的双端系统的各个示例。在杜比AC-4的上下文下,此双端方法被称为AC-4“沉浸式立体声”。
与基于传输对象的单端方法相比,双端方法的一些益处包括:
-编码效率:不同于必须编码多个对象,此方法传输具有另外的参数的立体声信号,以将立体声信号转换成耳机呈现。
-解码器复杂度:在编码器中应用每个单独对象的双耳渲染过程,这会显著降低解码器复杂度。
-扩音器兼容性:可以通过扩音器来重现立体声信号。
-终端用户声学环境模拟:将声学环境模拟(反馈延迟网络或图3和图4中的FDN)应用于终端用户装置,并且因此可以根据模拟的环境类型以及对象距离来完全定制声学环境模拟。
根据一些示例,提供了一种编码具有一个或多个音频分量的输入音频流的方法,其中,每个音频分量与空间定位相关联,所述方法包括以下步骤:获得所述输入音频流的第一回放流呈现,所述第一回放流呈现是旨在于第一音频再现系统上再现的一组M1信号;获得所述输入音频流的第二回放流呈现,所述第二回放流呈现是旨在于第二音频再现系统上再现的一组M2信号;确定适于将中间回放流呈现变换为所述第二回放流呈现的近似呈现的一组变换参数,其中,所述中间回放流呈现是所述第一回放流呈现、所述第一回放流呈现的向下混合以及所述第一回放流呈现的向上混合之一,其中,通过最小化所述第二回放流呈现的近似呈现与所述第二回放流呈现之间的差异的度量来确定变换参数;以及对所述第一回放流呈现和所述一组变换参数进行编码以传输至解码器。
根据一些实施方式,提供了一种从数据流中解码回放流呈现的方法,所述方法包括以下步骤:接收和解码第一回放流呈现,所述第一回放流呈现是旨在于第一音频再现系统上再现的一组M1信号;接收和解码适于将中间回放流呈现变换为第二回放流呈现的近似呈现的一组变换参数,所述第二回放流呈现是旨在于第二音频再现系统上再现的一组M2信号,其中,中间回放流呈现是所述第一回访流呈现、所述第一回放流呈现的向下混合以及所述第一回放流程序的向上混合之一,其中,变换参数确保了所述第二回放流呈现的近似呈现与所述第二回放流呈现之间的差异的度量被最小化;以及将变换参数应用于所述中间回放流呈现以产生所述第二回放流呈现的近似呈现。
在一些实施例中,所述第一音频再现系统可以包括固定空间定位处的一系列扬声器并且所述第二音频再现系统可以包括邻近收听者耳朵的一组耳机。所述第一回放流呈现或第二回放流呈现可以是回声或无回声双耳呈现。
优选地,变换参数是时变参数和频率相关参数。
优选地,通过最小化以下之间的差异的度量来确定变换参数:应用于第一回放流呈现和第二回放流呈现的变换参数的结果。
根据另一实施方式,提供了一种用于将音频通道或音频对象编码为数据流的方法,所述方法包括以下步骤:接收N个输入音频通道或对象;通过形成N个输入音频通道或对象的组合来计算一组M信号,其中,M≤N,所述一组M信号旨在于第一音频再现系统上再现;计算一组时变变换参数W,所述时变变换参数将旨在于第一音频再现系统上再现的所述一组M信号变换为第二音频再现系统上的近似再现,所述近似再现近似于通过在第二再现系统上再现N个输入音频通道或对象所产生的任何空间化效果;以及将M个信号和变换参数W组合成数据流以传输至解码器。
在一些实施例中,变换参数形成M1×M2增益矩阵,所述增益矩阵可以直接应用于第一回放流呈现以形成第二回放流呈现的所述近似呈现。在一些实施例中,M1等于M2,即第一呈现和第二呈现具有相同数量的通道。在具体情况下,第一呈现和第二呈现均为立体声呈现,即M1=M2=2。
本领域技术人员将理解的是,在编码器中编码的第一呈现流可以是多通道扩音器呈现,例如环绕扩音器呈现或沉浸式(3D)扩音器呈现,诸如5.1、7.1、5.1.2、5.1.4、7.1.2或7.1.4呈现。在这种情况下,为了避免或最小化计算复杂度的增加,根据本发明的一个实施例,确定一组变换参数的步骤可以包括将第一回放流呈现向下混合为具有较少通道的中间呈现。
在具体示例中,中间呈现为双通道呈现。在这种情况下,变换参数因此适于将中间双通道呈现变换为第二回放流呈现。第一回放流呈现可以是环绕扩音器呈现或沉浸式扩音器呈现。
耳机再现的立体声内容,包括无回声双耳渲染
在此实施方式中,用另外的数据对旨在用于扩音器回放的立体声信号进行编码以增强所述扩音器信号在耳机上的回放。给定一组输入对象或通道xi[n],通常借助于表示对象i对扬声器s的增益的振幅平移增益gi,s生成一组扩音器信号zs[n]:
zs[n]=∑igi,sxi[n] 等式编号(1)
对于基于通道的内容,振幅平移增益gi,s通常是恒定的,而对于基于对象的内容,其中,对象的预期位置由时变对象元数据提供,因此增益将是时变的。
根据以下等式,所述经修改的信号与原始输入信号xi[n]的双耳呈现紧密匹配:
yl[n]=∑ixi[n]*hl,i[n] 等式编号(4)
yr[n]=∑ixi[n]*hr,i[n] 等式编号(5)
可以通过最小化期望双耳呈现与实际双耳呈现之间的L2范数E找到系数w:
W=arg min(E) 等式编号(7)
可以通过闭合形式解法、梯度下降方法或任何其他合适的迭代方法来获得最小化误差E的解以便最小化误差函数。作为这种解的一个示例,可以用矩阵符号来编写各种渲染步骤:
Y=XH 等式编号(8)
Z=XG 等式编号(9)
此矩阵符号基于含有被表示为一列的N个样本的单通道帧:
并且矩阵作为多个通道的组合i={1,...,I},每个通道由矩阵中的一个列向量表示:
然后通过以下等式给出使E最小化的W的解:
W=(G*X*XG+∈I)-1G*X*XH 等式编号(13)
其中,(*)是复共轭转置运算符,I是单位矩阵,并且∈是正则化常数。此解与基于增益的方法的不同之处在于,信号是通过将矩阵而非标量W应用于信号Z而生成的,包括具有交叉项的选项(例如,例如从Z中的第一信号(部分地)重构的的第二信号)。
理想地,为每个时间/频率块(tile)确定系数w,以最小化每个时间/频率块中的误差E。
在上述章节中,采用了最小均方误差标准(L2范数)来确定矩阵系数。不失一般性地,可以类似地使用用于计算矩阵系数的其他众所周知的标准或方法来代替或增强最小均方误差原理。例如,可以使用高阶误差项或通过最小化L1范数(例如,最小绝对偏差标准)来计算矩阵系数。此外,可以采用各种方法,包括非负因式分解或优化技术、非参数估计量、最大似然估计量等。另外,可以使用迭代或梯度下降过程、插值方法、启发式方法、动态编程、机器学习、模糊优化、模拟退火法或闭合形式解法来计算矩阵系数,并且可以使用合成分析(analysis-by-synthesis)技术。最后但同样重要的是,矩阵系数估计可能会受到各种方式的约束,例如通过限制值的范围、正则化项、能量保存要求的叠加等。
在实际情况中,HRIR或BRIR hl,i、hr,i将涉及频率相关的延迟和/或相移。因此,系数w可以是复数值,其中虚分量基本上不同于零。
图1中示出了处理此实施例的实施方式的一种形式。由混合复合正交镜像滤波器(HCQMF)分析库42将音频内容41处理成子带信号。随后,将HRIR 44应用43于滤波器组输出以生成双耳信号Y。并行地,输入被渲染45用于扩音器回放,从而产生扩音器信号Z。另外,根据扩音器及双耳信号Y和Z计算46系数(或权重)w并使其包括在核心编码器比特流48中。可以使用不同的核心编码器,诸如MPEG-1层1、层2和层3,例如如在以下期刊中所公开的:Brandenburg,K.和Bosi,M.(1997).“Overview of MPEG audio:Current and futurestandards for low bit-rate audio coding(MPEG音频概述:低比特率音频编码的当前和未来标准)”.Journal of the Audio Engineering Society(音频工程学会期刊),45(1/2),4-21或Riedmiller,J.,Mehta,S.,Tsingos,N.和Boon,P.(2015).“Immersive andPersonalized Audio:A Practical System for Enabling Interchange,Distribution,and Delivery of Next-Generation Audio Experiences(沉浸式和个性化音频:用于实现下一代音频体验互换、分配和递送的实用系统)”Motion Imaging Journal(运动成像期刊),SMPTE,124(5),1-23,所述文献通过引用并入本文。如果核心编码器不能使用子带信号作为输入,则可以使用混合复数正交镜像滤波器(HCQMF)合成滤波器组47首先将子带信号转换到时域。
在解码侧,如果解码器被配置用于耳机回放,则在HCQMF合成51和再现52之前提取49系数并且将其应用50于核心解码器信号。如果核心编码器在HCQMF域中不产生信号,则可能需要如图1所指示的可选的HCQMF分析滤波器组54。总之,由核心编码器编码的信号旨在用于扩音器回放,同时在编码器中确定扩音器到双耳系数,并且将其应用于解码器中。解码器可以进一步配备有用户覆盖功能,使得在耳机回放模式中,用户可以选择在耳机上回放传统扩音器信号而不是经双耳处理后的信号。在这种情况下,解码器会忽略权重。最后,当解码器被配置用于扩音器回放时,可以忽略权重,并且可以直接或在向上混合或向下混合之后在扩音器再现系统上回放核心解码器信号,以匹配扩音器再现系统的布局。
显然,前面段落中所描述的方法不限于使用正交镜像滤波器组;因为同样可以使用诸如短期窗口离散傅立叶变换等其他滤波器组结构或变换。
与传统方法相比,此方案具有各种益处。这些益处可以包括:1)解码器复杂度仅略高于普通立体声回放的复杂度,因为解码器中的附加部分仅由比特流信息控制的简单(时间相关的和频率相关的)矩阵构成。2)所述方法适于基于通道和基于对象的内容,并且不依赖于内容中存在的对象或通道数量。3)HRTF变成编码器调整参数,即在不用考虑解码器兼容性的情况下,可以在任何时间对HRTF进行修改、改进、改变或调整。在场中存在的解码器的情况下,仍然可以对HRTF进行优化或自定义,而无需修改解码器侧的处理级。4)与多通道或基于对象的内容所需要的比特率相比,所述比特率非常低,因为只有少数扩音器信号(通常是一个或两个)需要利用系数w的附加(低速率)数据从编码器传送至解码器。5)可以在扩音器和耳机上如实地再现相同的比特流。6)可以以可伸缩的方式构建比特流;在具体的服务背景下,如果保证端点仅使用扩音器,则在不会对传统扩音器呈现产生影响的情况下可以从比特流中除去变换系数w。7)将继续按预期运行对扩音器呈现操作的高级编解码器功能,诸如响度管理、对话增强等(当在扩音器上回放时)。8)可以通过系数w的缩放来独立于扩音器回放的响度地处理双耳呈现的响度。9)使用耳机的收听者可以选择收听双耳立体声呈现或传统立体声呈现,而不是被迫收听一个或另一个。
具有早期反射的延伸
通常希望在双耳渲染中包括由于地板、墙壁或天花板的存在而产生的一个或多个早期反射(early reflection),以增加双耳呈现的真实性。如果反射具有镜面性质,则可以将其解释为其自身内的双耳呈现,其中,相应的HRIR包括表面吸收效应、延迟增加以及由于从声源到耳鼓膜的增加的声学路径长度而导致的较低的总体水平。
可以利用诸如图2中所图示的布置等经修改布置来捕获这些性质,图2中的布置是对图1中的布置的修改。在编码器64中,确定系数W,用于(1)重构来自扩音器呈现的无回声双耳呈现(系数WY)以及(2)重构来自扩音器呈现的反射的双耳呈现(系数WE)。在这种情况下,无回声双耳呈现由双耳渲染HRIRs Ha确定,由此产生无回声双耳信号对Y,同时早期反射由HRIRs He确定,由此产生早期反射信号对E。为了允许对立体声混合中的早期反射的参数重构,重要的是,要从编码器中的HRIRs He中去除由于早期反射的较长路径长度引起的延迟,并且将此特定延迟应用到解码器中。
通过将系数W(WY;WE)应用于扩音器信号,解码器将生成无回声信号对和早期反射信号对。随后通过延迟级68来处理早期反射,以模拟早期反射的较长路径长度。框68的延迟参数可以包括在编码器比特流中或者可以是用户定义的参数或者可以取决于经模拟的声学环境或者可以取决于收听者所处的实际声学环境。
具有后期混响的延伸
为了在双耳呈现中包括后期混响模拟,可以采用如反馈延迟网络(FDN)等后期混响算法。FDN将一个或多个对象和或通道作为输入,并且(在双耳混响器的情况下)产生两个后期混响信号。在传统算法中,解码器输出(或其向下混合)可以用作对FDN的输入。此方法具有明显的缺点。在许多使用情况中,可能期望基于每个对象来调整后期混响量。例如,如果后期混响量减少,则对话清晰度会有所改善。
在替代性实施例中,可以以与根据立体声混合构建无回声或早期反射双耳呈现的方式相同的方式来提供对混响量的每对象或每通道控制。
如图3中所图示的,可以对先前的布置进行各种修改以适应进一步的后期混响。在编码器81中,计算82FDN输入信号F,其可以是输入的加权组合。这些权重可以取决于内容,例如作为在内容创建期间手动标记或通过媒体智能算法自动分类的结果。FDN输入信号本身被权重估计单元83丢弃,但是允许根据扩音器呈现估计、重构或近似FDN输入信号的系数数据WF包括85在比特流中。在解码器86中,FDN输入信号被重构88、由FDN本身进行处理并且包括89在用于收听者91的双耳输出信号中。
另外,FDN可以被构建使得允许多个(两个或更多个)输入,使得在FDN输出处保持输入信号的空间质量。在这种情况下,允许根据扩音器呈现估计每个FDN输入信号的系数数据包括在比特流中。
在这种情况下,可能希望相对于FDN输入对对象和或通道的空间定位进行控制。
在一些情况下,出于单独的目的(例如,未特别旨在应用于基本信号以生成FDN输入信号的参数),可以响应于数据流中存在参数而生成后期混响模拟(例如,FDN)输入信号。例如,在一个示例性对话增强系统中,通过将对话增强参数应用于一组基本信号而由所述基本信号重构对话信号。然后增强(例如,放大)对话信号并且将其混合回到基本信号中(因此,相对于基本信号的其余分量来放大对话分量)。如上文所描述的,通常希望构建FDN输入信号,使得其不含有对话分量。因此,在已经可用对话增强参数的系统中,能够通过首先根据基本信号和对话增强参数重构对话信号并且然后从基本信号中减去(例如,消除)对话信号来重构期望的无对话(或者至少对话减少的)FDN输入信号。在这种系统中,可能不需要用于根据基本信号重构FDN输入信号的专用参数(因为可以可替代地使用对话增强参数),并且因此可以将其排除,从而导致在不损失功能性的情况下降低所需参数数据速率。
组合早期反射和后期混响
尽管在前面的章节中独立地表示了具有(多个)早期反射和后期混响的无回声呈现的延伸,但是组合也是可能的。例如,系统可以包括:1)用于根据扩音器呈现确定无回声呈现的系数WY;2)用于根据扩音器呈现确定一定数量的早期反射的另外的系数WE;3)用于根据扩音器呈现确定一个或多个后期混响输入信号从而允许基于每个对象对后期混响量进行控制的另外的系数WF。
作为第一呈现的无回声渲染
尽管将扩音器呈现用作要由核心编码器编码的第一呈现具有提供与无法解释或处理变换数据w的解码器的向后兼容性的优点,但是第一呈现不限于用于扩音器回放的呈现。图4示出了用于对音频内容105进行编码和解码以在耳机130或扩音器140上再现的方法的示意性概述。编码器101获取输入音频内容105并且由HCQMF滤波器组106来处理这些信号。随后,通过HRIR卷积元件109基于HRIR/HRTF数据库104生成无回声呈现Y。另外,通过计算和应用扩音器平移矩阵G的元件108产生扩音器呈现Z。此外,元件107产生FDN输入混合F。
使用HCQMF合成滤波器组110将无回声信号Y可选地转换到时域,并且通过核心编码器111进行编码。变换估计框114计算允许根据无回声呈现Y重构FDN输入信号F的参数WF(112)以及用于根据无回声呈现Y重构扩音器呈现Z的参数WZ(113)。参数112和参数113两者都包括在核心编码器比特流中。可替代地或另外地,尽管未在图4中示出,但是变换估计框可以计算允许根据无回声呈现Y重构早期反射信号E的参数WE。
解码器具有通过旨在用于耳机收听130的解码器模式102以及旨在用于扩音器回放140的解码器模式103可视化的两种操作模式。在耳机回放的情况下,核心解码器115对无回声呈现Y进行解码并且对变换参数WF进行解码。随后,通过矩阵化框116将变换参数WF应用于无回声呈现Y,以产生经估计的FDN输入信号,随后通过FDN 117对所述经估计的FDN输入信号进行处理以产生后期混响信号。用加法器150接着用HCQMF合成滤波器组118将此后期混响信号与无回声呈现Y进行混合,以产生耳机呈现130。如果参数WE也存在,则解码器可以将这些参数应用于无回声呈现Y,以产生经估计的早期反射信号,随后通过延迟对所述经估计的早期反射信号进行处理并使其与无回声呈现Y混合。
在扩音器回放的情况下,解码器在模式103中运行,其中,核心解码器115对无回声呈现Y以及参数WZ进行解码。随后,矩阵化级116将参数WZ应用于无回声呈现Y,以产生对扩音器呈现Z的估计或近似。最后,通过HCQMF合成滤波器组118将信号转换为时域并且通过扩音器140产生所述信号。
最后,应当注意,在没有确定且传输参数WZ的情况下,可以可选地操作图4的系统。在此操作模式中,根据无回声呈现Y生成扩音器呈现Z是不可能的。然而,因为参数WE和/或WF被确定并被传输,所以可以根据无回声呈现生成包括早期反射和/或后期混响分量的耳机呈现。
串扰消除
图1至图4的系统和杜比AC-4沉浸式立体声系统可以产生立体声扩音器和双耳耳机呈现两者。根据一些实施方式,立体声扩音器呈现可以旨在用于在高质量(HiFi)扩音器设置上回放,其中,扩音器理想地放置在相对于收听者位置大约+/-30至45度的方位角处。这种扩音器布局允许对象和层在左扩音器与右扩音器之间的水平弧(horizontal arc)上再现。因此,在这种呈现中本质上不存在正面/后面和高度尺寸。此外,如果在电视或移动装置(如手机、平板电脑或膝上型电脑)上再现音频,则扩音器的方位角可以小于30度,这会进一步降低再现呈现的空间范围。克服小方位角覆盖的技术是采用串扰消除的概念。在以下公开物中讨论了这种渲染的理论和历史:Gardner,W.,“3-D Audio Using Loudspeakers(使用扩音器的三维音频)”,Kluwer Academic(克鲁尔学术出版社),1998。图5图示了设计串扰消除器的示例,所述串扰消除器基于从扩音器到收听者耳朵的音频传输模型。信号SL和SR表示从左扩音器和右扩音器发出的信号,并且信号eL和eR表示到达收听者的左耳和右耳的信号。yL、yR表示到串扰消除级(XTC,C)的输入信号。每个耳朵信号eL、eR被建模为左扩音器信号和右扩音器信号的总和,通过建模从每个扬声器到那个耳朵的声学传输的单独的线性时间不变传递函数H对每个扩音器信号进行滤波。通常使用选作关于收听者的假定扬声器放置的函数的头部相关传递函数(HRTF)对这四个传递函数进行建模。串扰消除级被设计成使得到达耳鼓膜的信号eL、eR等于或接近输入信号yL、yR。
可以以矩阵等式形式来书写图5中所描绘的模型,如下:
等式14反映了在一个特定频率下信号之间的关系,并且意指适于感兴趣的整个频率范围,并且同样适于随后的相关等式。如等式15中所示出的,可以通过逆变矩阵H来实现串扰消除器矩阵C:
给定左右双耳信号bL和bR,将扬声器信号sL和sR计算为双耳信号乘以串扰消除器矩阵:
将等式16代入等式14,并且注意到C=H-1得到:
e=HCb=b 等式编号(17)
换言之,通过对双耳信号应用串扰消除器来生成扬声器信号会在收听者的耳朵处产生与双耳信号相等的信号。这假设在于,矩阵H对从扬声器至收听者耳朵的音频的物理声学传输进行了完美建模。实际上,情况可能并非如此,并且因此通常将近似于等式17。然而,在实践中,此近似通常足够接近,使得收听者将能基本感知双耳信号b所预期的空间印象。
通常通过应用双耳渲染滤波器BL和BR从单耳音频对象信号o中合成双耳信号b:
渲染滤波器对B经常由选择用于给予从空间中相对于收听者的相关位置传出的对象信号o的印象的HRTF对给出。在等式形式中,此关系可以表示为:
B=HRTF{pos(o)} 等式编号(19)
在以上等式19中,pos(o)表示对象信号o在3D空间中相对于收听者的期望位置。可以在笛卡尔坐标(x,y,z)或如极坐标系等任何其他等效坐标系中表示此位置。也可以使此位置随时间变化,以便模拟对象通过空间的移动。函数HRTF{}意在表示可按位置寻址的一组HRTF。实验室中存在从人类受试者测量的许多这种组,诸如CIPIC数据库,其是针对众多不同受试者的高空间分辨率HRTF测量的公共域数据库。可替代地,所述组可以包括如球形头模型(spherical head model)等参数模型。在实际实施方式中,用于构建串扰消除器的HRTF通常选自用于生成双耳信号的相同组,但是对此不做要求。
在许多应用中,同时渲染空间中各个位置处的多个对象。在这种情况下,双耳信号由对象信号与所应用的与对象信号相关的HRTF之和给出:
利用此多对象双耳信号,以下等式给出了生成扬声器信号的整个渲染链:
在许多应用中,对象信号oi由多通道信号的各个通道给出,诸如包括左、中间、右、左环绕和右环绕的5.1信号。在这种情况下,可以选择与每个对象相关联的HRTF以对应于与每个通道相关联的固定的扬声器位置。以此方式,可以在一组立体声扩音器上虚拟化5.1环绕系统。在其他应用中,对象可以是允许在3D空间中的任何地方自由移动的声源。在下一代空间音频格式的情况下,等式8中的所述一组对象可以由自由移动对象和固定通道构成。
虚拟空间音频渲染处理器的一个缺点在于,效果高度依赖于在设计串扰消除器时假设收听者坐在相对于扬声器的最佳位置。现在将参考图6至图12描述一些可替代的串扰消除方法。
实施例意在解决关于以下事实的已知虚拟音频呈现过程的一般限制:效果高度依赖于在设计串扰消除器时假设收听者位于相对于扬声器的位置。如果收听者不在此最佳收听位置(所谓的“最佳听音位置(sweet spot)”),则串扰消除效果可能会受部分或全部损害,并且收听者不会感知到双耳信号所预期的空间印象。对于多位收听者来说这尤其成问题,在这种情况下,收听者中只有一位能够有效占据最佳听音位置。例如,如图6中所描绘的,沙发上坐有三位收听者,而三位收听者中只有中间的收听者202可能会完全享受到由扬声器204和206回放的虚拟空间渲染的益处,因为只有该收听者处于串扰消除器的最佳听音位置。因此,实施例涉及改进最佳位置之外的收听者的体验,同时保持或尽可能地增强最佳位置处的收听者的体验。
标记200示出了创建如利用串扰消除器生成的最佳听音位置202。应当注意,对由等式16描述的双耳信号应用串扰消除器以及对由等式18和等式20描述的对象信号应用双耳滤波器可以被直接实施为频域中的矩阵乘法。然而,可以通过利用以各种拓扑布置的适当FIR(有限脉冲响应)滤波器或IIR(无限脉冲响应)滤波器进行卷积在时域中实现等效应用。实施例包括所有这些变化。
在空间音频再现中,可以通过利用多于两个扬声器将最佳听音位置202扩展至多于一个收听者。这最经常通过与5.1环绕系统一样用多于两个扬声器来环绕更大的最佳听音位置来实现。在这种系统中,例如,旨在从(多个)收听者后方收听到的声音是由物理上位于其后方的扬声器产生的,并且如此,所有收听者都将感知到这些声音是从后方传来的。另一方面,在立体声扬声器上存在虚拟空间渲染的情况下,来自后方的音频感知会受到用于生成双耳信号的HRTF的控制,并且将仅由最佳听音位置202处的收听者正确感知到。最佳听音位置以外的收听者可能会感知到音频是从其前方的立体声扬声器传出的。即使环绕系统有其益处,但是安装这种环绕系统对许多消费者来说并不实际。在某些情况下,消费者可能更喜欢使所有扬声器保持位于收听环境的前方,通常与电视显示器并置。在其他情况下,空间或装备的可用性可能会受到限制。
实施例涉及以如下方式结合虚拟空间渲染使用多个扬声器对:组合为最佳听音位置以外的收听者使用多于两个扬声器以及以允许所有使用的扬声器对基本上并置的方式维持或增强最佳听音位置内的收听者的体验的益处,尽管这种并置是不需要的。通过在多个串扰消除器之间平移根据每个音频对象生成的双耳信号,将虚拟空间渲染方法扩展至多个扩音器对。串扰消除器之间的平移受到与每个音频对象相关联的位置的控制,即用于选择与每个对象相关联的双耳滤波器对的相同的位置。多个串扰消除器被设计成用于并馈送至相应的多个扬声器对,每个扬声器对具有相对于预期收听位置不同的物理位置和/或取向。
如上文所描述的,利用多对象双耳信号,通过等式21的求和表达式给出生成扬声器信号的整个渲染链。可以通过以下将等式21延伸至M对扬声器来描述所述表达式:
在上述等式22中,变量具有以下赋值:
oi=N个对象中第i个对象的音频信号
Bi=由Bi=HRTF{pos(oi)}给出的第i个对象的双耳滤波器对
αij=进入第j个串扰消除器的第i个对象的平移系数
Cj=第j个扬声器对的串扰消除器矩阵
sj=发送至第j个扬声器对的立体声扬声器信号
使用将对象的可能时变位置作为输入的平移函数计算与每个对象i相关联的M个平移系数:
等式22和23由图7中所描绘的框图等效表示。图7图示了根据一个示例的用于在多个串扰消除器之间平移根据音频对象生成的双耳信号的系统。图8是根据一个实施例的图示在多个串扰消除器之间平移双耳信号的方法的流程图。如标记300和标记400中所示出的,对于N个对象信号中的每个信号oi,首先应用选作对象位置pos(oi)的函数的双耳滤波器对Bi以生成双耳信号(步骤402)。同时,平移函数基于对象位置pos(oi)计算M个平移系数ail...aiM(步骤404)。使每个平移系数分别乘以双耳信号,产生M个经缩放的双耳信号(步骤406)。对于M个串扰消除器中的每个串扰消除器Cj,对所有N个对象中的第j个经缩放的双耳信号进行求和(步骤408)。然后,由串扰消除器来处理此经求和的信号,以生成第j个扬声器信号对sj,通过第j个扩音器对回放所述第j个扩音器信号对(步骤410)。应当注意,并非要将图8中所图示步骤的顺序严格固定于所示出顺序,并且可以以不同于过程400的顺序的顺序在其他步骤之前或之后执行所图示步骤或动作中的一些步骤或动作。
为了将多个扩音器对的益处延伸至最佳听音位置外的收听者,平移函数以帮助将对象的期望物理位置(如混音器或内容创建器所预期的)传达给这些收听者的方式将对象信号分配给扬声器对。例如,如果要从头顶收听对象,则平移器会将对象平移至最有效地再现所有收听者的高度感的扬声器对。如果要从侧面收听对象,则平移器会将对象平移至最有效地再现所有收听者的宽度感的扬声器对。更一般地,平移函数将每个对象的期望空间位置与每个扬声器对的空间再现能力进行比较,以便计算最佳的平移系数组。
通常,任何实际数量的扬声器对可以用在任何适当的阵列中。在典型的实施方式中,可以在阵列中利用所有并置在收听者前方的三个扬声器对,如图9中所示出的。如标记500中所示出的,收听者502位于相对于扬声器阵列504的位置。所述阵列包括在相对于阵列的轴线的特定方向投射声音的多个驱动器。例如,如图9中所示出的,第一驱动器对506指向朝向收听者的正面(正面激发(firing)驱动器)、第二对508指向侧面(侧面激发驱动器)并且第三对510指向上方(上方激发驱动器)。这些对被标记为正面506、侧面508和高处510,并且每个对分别与串扰消除器CF、CS和CH相关联。
对于与每个扬声器对相关联的串扰消除器的生成以及每个音频对象的双耳滤波器,利用参数球形头模型HRTF。在实施例中,可以生成如在名称为“Surround SoundVirtualizer and Method with Dynamic Range Compression(具有动态范围压缩的环绕声虚拟器和方法)”的美国专利申请号13/132,570(公开号US 2011/0243338)中所描述的这种参数球形头模型HRTF,所述美国专利申请通过引用并入本文。通常,这些HRTF仅取决于对象相对于收听者的中间平面的角度。如图9中所示出的,此中间平面处的角度被定义为零度,其中,左侧角度定义为负并且右侧角度定义为正。
对于图9中所示出的扬声器布局,假设所有三个扬声器对的扬声器角度θC是相同的,并且因此所有三个对的串扰消除器矩阵C相同。如果每对大致不在相同的位置处,则可以对每对设置不同的角度。使HRTFL{θ}和HRTFR{θ}定义与角度θ处的音频源相关联的左参数HRTF滤波器和右参数HRTF滤波器,以下等式给出了如等式15中定义的串扰消除器矩阵的四个元素:
HLL=HRTFL{-θC} 等式编号(24a)
HLR=HRTFR{-θC} 等式编号(24b)
HRL=HRTFL{-θC} 等式编号(24c)
HRR=HRTFR{θC} 等式编号(24d)
与每个音频对象信号oi相关联的是在笛卡尔坐标{xi yi zi}中给出的可能的时变位置。由于在优选实施例中采用的参数HRTF不含有任何高度提示,因此在根据HRTF函数计算双耳滤波器对时仅利用对象位置的x坐标和y坐标。将这些{xi yi}坐标变换为等效的半径和角度{ri θi},其中,将半径归一化为介于零与一之间。在实施例中,参数HRTF不取决于与收听者的距离,并且因此将半径结合到对左双耳滤波器和右双耳滤波器的计算中,如下:
当半径为零时,双耳滤波器在所有频率上简单一致,并且收听者在两只耳朵处相等地听到对象信号。这对应于当对象位置恰好位于收听者头部内的情况。当半径为一时,滤波器等于在角度θi处所限定的参数HRTF。取半径项的平方根会使滤波器的此插值偏向HRTF,从而更好地保留空间信息。注意,需要进行此计算,因为参数HRTF模型不包含距离提示。不同的HRTF组可以包含这种提示,在这种情况下,由等式25a和25b描述的插值将是非必要的。
对于每个对象,根据相对于每个消除器的取向的对象位置{xi yi zi}计算三个串扰消除器中的每个串扰消除器的平移系数。向上激发扬声器对510意在用于通过从天花板或收听环境的其他上表面反射声音而从上方传送声音。因此,其相关平移系数与高度坐标zi成比例。正面激发对和侧面激发对的平移系数受到从{xi yi}坐标得到的对象角度θi的控制。当θi的绝对值小于30度时,将对象完全平移至正面对506。当θi的绝对值介于30度与90度之间时,将对象在正面对506与侧面对508之间平移;并且当θi的绝对值大于90度时,将对象完全平移至侧面对508。利用此平移算法,处于最佳听音位置502的收听者接收到所有三个串扰消除器的益处。另外,使用向上激发对增加对高度的感知,并且侧面激发对为混合至侧面和后面的对象增加了扩散元素,从而可以增强感知包络。对最佳听音位置外的收听者而言,消除器失去了其很多有效性,但是这些收听者仍然可从向上激发对中感知到高度以及从正面到侧面平移中感知到直达声音与扩散声音之间的变化。
如标记400中所示出的,所述方法的实施例涉及使用平移函数基于对象位置来计算平移系数(步骤404)。使αiF、αiS和αiH表示进入正面、侧面和高处串扰消除器的第i个对象的平移系数,以下等式给出了用于计算这些平移系数的算法:
如果abs(θi)<30,则
αiS=0 等式编号(26c)
否则,如果abs(θi)<90,则
否则,
αiF=0 等式编号(26f)
应当注意,以上算法在平移时保持每个对象信号的功率。可以将此功率保持表达为:
在实施例中,可以将使用平移和交叉关联的虚拟器方法和系统应用于含有动态对象信号和固定通道信号的混合的下一代空间音频格式。这种系统可以对应于如在2012年4月20日提交的名称为“System and Method for Adaptive Audio Signal Generation,Coding and Rendering(用于自适应音频信号生成、编码和渲染的系统和方法)”的审中的美国临时专利申请61/636,429中所描述的空间音频系统,所述美国临时专利申请通过引用并入本文并且附于如附录2中。在使用环绕声阵列的实施方式中,可以通过向每个通道分配固定的空间位置利用以上算法来处理固定通道信号。在由左、右、中间、左环绕、右环绕、左高和右高构成的七通道信号的情况下,可以假设以下{rθz}坐标:
左:{1,-30,0}
右:{1,30,0}
中间:{1,0,0}
左环绕:{1,-90,0}
右环绕:{1,90,0}
左高{1,-30,1}
右高{1,30,1}
如图9中所示出的,优选的扬声器布局也可以含有单个离散的中心扬声器。在这种情况下,中心通道可以直接路由至中心扬声器,而不是由图8的电路来处理。在由优选实施例渲染纯粹基于通道的遗留(legacy)信号的情况下,系统400中的所有元素在时间上是恒定的,因为每个对象位置是静态的。在这种情况下,所有这些元素可以在系统启动时预先计算一次。另外,可以将双耳滤波器、平移系数和串扰消除器预先组合成用于每个固定对象的M对固定滤波器。
尽管已经描述了关于具有正面/侧面/向上激发驱动器的并置驱动器阵列的实施例,但是任何实际数量的其他实施例也是可能的。例如,可以排除侧面的扬声器对,仅留下面向正面和面向上面的扬声器。而且,可以用放置在面向正面的对上方的天花板附近的扬声器对代替向上激发对,并且使所述向上激发对直接指向收听者。还可以将此配置扩展至从底部至顶部间隔开的多个扬声器对,例如沿屏幕的侧面。
虚拟渲染的均衡
实施例还涉及对根据应用于被虚拟化的单声道音频信号的串扰消除器滤波器和双耳滤波器两者计算的串扰消除器的改进的均衡。结果是为最佳听音位置外的收听者改进了音色并且减小了在从标准渲染切换至虚拟渲染时的音色移位。
如上文所陈述的,在某些实施方式中,虚拟渲染效果通常高度依赖于在设计串扰消除器时假设收听者坐在相对于扬声器的位置。例如,如果收听者未坐在正确的最佳听音位置,则串扰消除效果可能会受到部分或全部损害。在这种情况下,收听者不能完全感知到双耳信号所预期的空间印象。另外,最佳听音位置外的收听者可能会经常抱怨所产生的音频的音色不自然。
为了利用音色解决此问题,已经提出了等式15中的串扰消除器的各种均衡,目的是使所有收听者的双耳信号b的感知音色更自然,而不管其位置如何。可以根据以下等式将这种均衡添加到对扬声器信号的计算:
s=ECb 等式编号(27)
在以上等式27中,E是应用于左扬声器信号和右扬声器信号两者的单个均衡滤波器。为了检验这种均衡,可以将等式15重新整理成以下形式:
其中,
如果假设将收听者对称地置于两个扬声器之间,则ITFL=ITFR并且EQFL=EQFR,并且等式19可简化为:
基于串扰消除器的此公式,可以使用几个均衡滤波器E。例如,在双耳信号是单声道(mono)(左信号和右信号相等)的情况下,可以使用以下滤波器:
对于双耳信号的两个通道在统计上独立的情况,可替代的滤波器可以表达为:
这种均衡可以提供关于双耳信号b的感知音色的益处。然而,双耳信号b通常通过应用双耳渲染滤波器BL和BR从单通道音频对象信号o中合成:
渲染滤波器对B经常由选择用于给予从空间中相对于收听者的相关位置传出的对象信号o的印象的HRTF对给出。在等式形式中,此关系可以表示为:
B=HRTF{pos(o)} 等式编号(33)
在等式33中,pos(o)表示对象信号o在3D空间中相对于收听者的期望位置。此位置可以用笛卡尔坐标(x,y,z)或如极坐标等任何其他等效坐标系来表示。也可以使此位置随时间变化,以便模拟对象穿过空间的移动。函数HRTF{}意在表示可按位置寻址的一组HRTF。实验室中存在从人类受试者测量的许多这种组,如CIPIC数据库。可替代地,所述组可以包括参数模型,如前文提到的球形头模型。在实际实施方式中,用于构建串扰消除器的HRTF通常选自用于生成双耳信号的相同组,但是对此不作要求。
根据以下等式,将等式32代入等式27得出根据对象信号计算出的均衡扬声器信号:
s=ECBo 等式编号(34)
在许多虚拟空间渲染系统中,用户能够采用等式34从音频信号o的标准渲染切换至双耳化的(bunauralized)串扰消除渲染。在这种情况下,音色移位可以是应用串扰消除器C和双耳化滤波器B引起的,并且收听者可能会感知到这种移位的不自然。如等式30和31所例示的,仅由串扰消除器计算的均衡滤波器E不能消除此音色移位,因为其没有考虑到双耳化滤波器。实施例涉及消除或减少此音色移位的均衡滤波器。
应当注意,对由等式27描述的双耳信号应用均衡滤波器和串扰消除器以及对由等式32描述的对象信号应用双耳滤波器可以直接实施为频域中的矩阵乘法。然而,可以通过利用以各种拓扑布置的适当FIR(有限脉冲响应)滤波器或IIR(无限脉冲响应)滤波器进行卷积在时域中实现等效应用。实施例一般适于所有这种变化。
为了设计改进的均衡滤波器,有用的是,将等式21扩展为其左扬声器信号和右扬声器信号分量:
其中,
RL=(EQFL)(BL-BRITFR) 等式编号(35b)
RR=(EQFR)(BR-BLITFL) 等式编号(35c)
在以上等式中,扬声器信号可以表示为左渲染滤波器RL和右渲染滤波器RR,然后是应用于对象信号o的均衡E。如在等式35b和35c中所见的,这些渲染滤波器中的每个渲染滤波器都是串扰消除器C和双耳滤波器B两者的函数。过程计算作为这两个渲染滤波器RL和RR的函数的均衡滤波器E,其目标是实现自然音色,无论收听者相对于扬声器的位置如何,以及在没有虚拟化的情况下渲染音频信号时实现基本相同的音色。
以任何特定频率,将对象信号混合到左扬声器信号和右扬声器信号中一般可以表示为
在以上等式36中,αL和αR是混合系数,其可以随频率变化。因此,可以通过等式36来描述将对象信号混合到左扬声器信号和右扬声器信号中以进行非虚拟渲染的方式。实验已经发现,可以通过左扬声器信号和右扬声器信号的组合功率对对象信号o的感知音色或频谱平衡进行良好建模。这保持在两个扩音器周围的宽阔收听区域内。根据等式36,非虚拟化扬声器信号的组合功率由以下等式给出:
PNV=(|αL|2+|αR|2)|o|2 等式编号(37)
根据等式26,虚拟化扬声器信号的组合功率由以下等式给出:
PV=|E|2(|RL|2+|RR|2)|o|2 等式编号(38)
可以通过设置ΡV=PNV并且求解E来找到最佳均衡滤波器Eopt:
等式39中的均衡滤波器Eopt为虚拟化渲染提供了在宽阔的收听区域内一致并且与非虚拟化渲染音色基本相同的音色。可以看出,在此示例中,计算作为渲染滤波器RL和RR的函数的Eopt,所述渲染滤波器进而是串扰消除器C和双耳化滤波器B的函数。
在许多情况下,将对象信号混合到左扬声器和右扬声器中以进行非虚拟渲染将遵循功率保持平移定律,这意味着以下等式40的等效性适于所有频率。
|αL|2+|αR|2=1 等式编号(40)
在这种情况下,将均衡滤波器简化为:
利用此滤波器,左扬声器信号和右扬声器信号的功率谱之和等于对象信号的功率谱。
图10是根据一个实施例的描绘了应用于单个对象o的均衡过程的图示。图11是根据一个示例的图示了对单一对象执行均衡过程的方法的流程图。如标记700中所示出的,首先计算作为对象的可能时变位置的函数的双耳滤波器对B(步骤702),并且然后将其应用于对象信号以生成立体声双耳信号(步骤704)。接下来,如步骤706中所示出的,对双耳信号应用串扰消除器C以生成预均衡的立体声信号。最后,应用均衡滤波器E以生成立体声扩音器信号s(步骤708)。可以计算作为串扰消除器C和双耳滤波器对B的函数的均衡滤波器。如果对象位置是随时间变化的,则双耳滤波器将随时间变化,这意味着均衡滤波器E也将随时间变化。应当注意,图11中所图示的步骤顺序并非严格地固定于所示出的序列。例如,可以在串扰消除器过程706之前或之后应用均衡器滤波器过程708。还应当注意,如图10中所示出的,实线601意在描绘音频信号流,而虚线603意在表示参数流,其中,参数是与HRTF函数相关联的参数。
在许多应用中,同时渲染放置在空间中的各个可能时变位置处的多个音频对象信号。在这种情况下,双耳信号由对象信号与所应用的与对象信号相关的HRTF之和给出:
利用此多对象双耳信号,以下等式给出了生成扬声器信号的包括创造性的均衡的整个渲染链:
与单一对象的等式34相比,已将均衡滤波器移到了串扰消除器之前。通过此做法,可以从总和中抽出对所有分量对象信号常见的串扰。另一方面,每个均衡滤波器Ei对于每个对象是唯一的,因为它取决于每个对象的双耳滤波器Bi。
图12是根据一个示例的通过相同的串扰消除器对多个对象输入同时应用均衡过程的系统的方框标记800。在许多应用中,对象信号oi由多通道信号的各个通道给出,诸如包括左、中间、右、左环绕和右环绕的5.1信号。在这种情况下,可以选择与每个对象相关联的HRTF,以对应于与每个通道相关联的固定的扬声器位置。以此方式,可以在一组立体声扩音器上虚拟化5.1环绕系统。在其他应用中,对象可以是允许在3D空间中的任何地方自由移动的声源。在下一代空间音频格式的情况下,等式43中的所述一组对象可以由自由移动对象和固定通道二者构成。
当在移动装置上再现AC-4沉浸式立体声时,可以以各种方式采用串扰消除。然而,在没有某些预防措施并且未克服AC-4解码器和串扰消除器的简单级联限制的情况下,终端用户收听者体验可能是次优的(sub-optimal)。
当前串扰消除器具有与AC-4沉浸式立体声环境中的应用相关的许多潜在限制:
1)在不应用均衡处理的情况下,串扰消除器的感知音色可能会发生改变,从而产生与原始艺术意向不同的有色的(colored)声音或音色移位。
2)均衡滤波器的确切细节或频率响应可以取决于对象位置。例如,上文所描述的一些实施方式公开了每个输入(对象或层)都采用并且取决于对象元数据的改进的均衡过程。然而,那些实施方式没有具体指明呈现(例如,对象的混合)是如何采用这种过程的。
3)即使在每个对象的基础上采用上文所概述的改进后的均衡方法,内容中存在的某些对象也可能会遭受严重的音色移位。具体地,即使独立地均衡每个对象或输入,相互关联的对象或层(例如,以创建幻像(phantom image))也可能会受到梳状滤波器(像消除和共振)的影响。可能会发生这些影响,因为均衡滤波器可能不会将对象间关系(相关性)考虑到其优化过程中。
4)在AC-4沉浸式立体声环境中,如果在解码器中操作串扰消除器,则无法采用每个对象的串扰消除均衡滤波器。在双端方法期间,只有呈现(双耳或立体声)是可访问的。
5)串扰消除算法通常会忽略再现环境的影响(例如,存在反射和后期混响)。反射的存在可能会显著改变感知音色,尤其是因为串扰消除算法倾向于增加如由扩音器再现的某些频率范围内的声学功率。
一些公开的实施方式可以克服上文所列限制中的一种或多种限制。一些这种实施方式扩展了先前公开的音频解码器,例如AC-4沉浸式立体声解码器。一些实施方式可以包括以下特征中的一项或多项:
1)在一些示例中,解码器可以包括对可用于沉浸式立体声解码器(立体声或双耳)的呈现之一操作的静态串扰消除滤波器(矩阵);
2)在采用双耳呈现作为串扰消除的输入的情况下,可以禁用AC-4沉浸式立体声解码器中的声学房间(room)模拟算法;
3)一些实施方式可以包括动态均衡过程,以改进将两种呈现(双耳或立体声)之一用作目标曲线的音色。
图13图示了根据一个示例的沉浸式立体声解码器的示意图。图13图示了将输入比特流1300解码为立体声扩音器呈现Z的核心解码器1305。经由呈现变换框1315使用变换数据W可选地(并且优选地)将此呈现变换为无回声双耳呈现Y。随后,通过可以取决于扩音器数据的串扰消除过程1320(在图13中标记为XTC)对信号Y进行处理。串扰消除过程1320输出串扰消除立体声信号V。随后,可以可选地取决于环境数据的动态均衡过程1325(在图13中标记为DEQ)可以处理信号V,以确定立体声输出扩音器信号S。如果在变换域或滤波器组域中应用串扰消除过程和/或动态均衡过程(例如,经由图13中所示出的可选的半频带正交镜像滤波器或(H)CQMF过程1310),则最后一步可以是逆变换或合成滤波器组(H)CQMF 1330,以将信号转换为时域表示。在下文描述其示例的一些实施方式中,DEQ过程可以接收信号Z或信号Y以计算目标曲线。
在一些实施例中,串扰消除方法可以涉及处理变换域或滤波器组域中的信号。可以对这些信号的一个或多个子带应用所述过程。为了简化符号,并且在不失一般性的情况下,将省略子带索引。
立体声或双耳信号yl、yr进入串扰消除和动态均衡处理级的级联,产生立体声输出扩音器信号对sl、sr。假设所述过程可在基于以下等式的矩阵符号中实现:
在等式44中,c11-c22表示串扰矩阵的系数。矩阵G和C分别表示动态均衡(DEQ)过程和串扰消除(XTC)过程。在时域实施方式中,或者在具有有限数量的子带的滤波器组实施方式中,这些矩阵可以是用于实现频率相关处理的卷积矩阵。
串扰消除器输出端处的经串扰消除的信号和动态均衡算法的输入由vl、vr表示,并且在一些示例中,其可以基于以下等式来确定:
在一些示例中,一个或多个目标信号xl、xr可以可用于动态均衡算法以计算G。动态均衡矩阵可以是每个子带中的标量g。
根据一些实施方式,可以通过将声学路径从扩音器逆变到耳鼓膜来获得串扰消除矩阵(例如,通过图5中图示的路径):
在等式46中,hll、hlr、hlr和hrr对应于图5中所示出和上文所描述的HLL、HLR、HRL和HRR。因此,C可以表达为如下:
C=(HTH+∈I)-1HT 等式编号47
在等式47中,HT表示对矩阵H的厄米特(Hermitian)矩阵转置操作,I表示单位矩阵,并且ε表示正则化项,当矩阵H具有低秩时,所述正则化项可能是有用的。正则化项ε可以是矩阵范数的一小部分;换言之,与矩阵H中的元素相比,ε可能较小。矩阵H以及因此矩阵C将取决于扩音器的位置(方位角)。此外,只要扩音器位置是静态的,矩阵C通常将是在时间上恒定的,而由于HRTFs hij中的频率相关性,矩阵C的效果通常将会随频率而变化。
动态均衡
动态均衡(DEQ)算法的一些示例基于(运行)目标信号(xl,xr)的能量估计和串扰消除(XTC)级(vl,vr)的输出,例如如下:
在等式48中,G是表示DEQ的矩阵。在此示例中,标量g可以是基于水平、功率、响度和/或能量估计器算子∑(.)的,例如如下:
矩阵G或标量g可以被设计成用于确保立体声扩音器输出信号sl、sr(例如,动态均衡级的输出)具有与目标信号(xl,xr)的能量相等或(更)接近的能量,例如如下:
图14图示了根据一个示例的对动态均衡级的示意性概述。根据此示例,立体声经串扰消除的信号V(vl,vr)和目标信号X(xl,xr)分别由水平估计器1405和1410进行处理,并且随后通过增益估计器1415来计算动态均衡增益G并将其应用于信号V(vl,vr)以计算立体声输出扩音器信号S(sl,sr)。
在一些实施例中,用于获得的水平、功率、响度和/或能量估计器操作可以基于信号对xl、xr的相应水平估计或者基于信号对yl、yr的水平估计而不是直接分析信号对vl、vr。用于从信号对yl、yr获得的方法的一个示例将是测量信号对yl、yr的协方差矩阵:
在上述表达式中,(*)表示复共轭算子。然后,可以将信号对vl、vr的协方差矩阵估计为:
在一个实施例中,基于以下等式来确定动态均衡增益G:
在此示例中,均衡的强度或均衡值可以基于参数α。例如,当α=0时,可以实现完全均衡,而当α=∞时(例如,当g=1时),可以实现无均衡。当实现无均衡时,可以将参数α解释为由收听者在再现环境中接收到的直接能量与混响能量之比。换言之,无回声环境将对应于α=∞,并且将采用无均衡(g=1),因为串扰消除模型固有地假设无回声环境。另一方面,在回声环境中,由于反射和后期混响增加,收听者将感知到增加的音色移位量,并且因此应当采用更强的均衡(例如,α的有限值)。因此参数α是环境相关的,并且也可以是频率相关的。发现效果良好的α值的一些示例处于但不限于0.5到5.0的范围内。
在另一实施例中,g可以基于:
参数β可以允许应用无均衡(β=0)与完全均衡(β=1)范围内的值。β的值可以是频率相关的(例如,作为频率的函数执行不同量的均衡)。例如,β的值可以是0.1、0.5或0.9。
在另一实施例中,可以基于以下来确定基于声学现象的部分均衡。对于此技术,对于消声信号路径:
在此,C表示串扰消除矩阵、H表示扬声器与耳鼓膜之间的声学路径,并且G表示动态均衡(DEQ)增益。在一些示例中,存在再现系统的声学环境可以由两个扬声器信号来激励。声能可以被估计为等于如果进一步假设HGC=GHC=G,则可以看到耳鼓膜水平处的能量等于:
等式编号58至60中的参数α表示与直达声音相关的房间反射和后期混响量。换言之,在等式编号58中,α是直达与混响(direct-to-reverberant)之比的倒数。此比通常取决于收听者距离、房间大小、房间声学性质和频率。当存在边界条件时,可以基于以下等式来确定动态EQ增益:
在一些示例中,对于近场收听,等式编号58至60的参数α的值可以在0.1到0.3的范围内,并且对于远场收听(例如,在超出临界距离的距离处收听),其可以大于+1。
可以简化等式编号59以假设耳鼓膜水平处的所需能量等于双耳信号耳机信号的所需能量,并且因此:
可以基于声学环境数据确定动态均衡增益(作为时间和频率的函数),所述声学环境数据可以对应于以下各项中的一项或多项:
·收听者与(多个)扩音器之间的距离;
·收听者位置处的直达与后期混响(direct-to-reverberant)之比(的估计);
·回放环境的房间声学性质;
·回放环境的房间大小;
·声学环境的声学吸声数据。
在诸如起居室、办公空间等回声环境中,传播距离每增加一倍由扩音器发出的直达声音的电平(level)通常会降低约6dB。除了这种直达声音之外,由于墙壁、天花板、地板和家具对声音的有限吸收,收听者位置处的声压还将包括早期反射和后期混响。这些早期反射和后期混响的能量通常会在环境中更均匀地分布。此外,由于声学吸收通常是频率相关的,因此后期混响的频谱分布通常不同于扩音器所发出的频谱分布。因此,根据扩音器与收听者之间的频率和距离,直接能量与后期能量可能有很大不同。涉及根据声学环境计算动态均衡增益的实施例可以至少部分地基于直接能量与后期能量之比。对于典型使用手持装置的情况,可以测量、估计或假设此比具有固定值。
在AC-4沉浸式立体声的环境中,可以选择立体声扩音器呈现(z)或双耳耳机呈现(y)作为动态均衡级的目标信号(x)。
作为目标的双耳耳机呈现
双耳耳机呈现(y)可以包括影响感知方位角的耳间定位提示(如耳间时间和/或耳间水平差异)以及影响感知高度的频谱提示(峰值和凹口)。如果将动态均衡过程实施为两个通道共有的标量g,则应当保留耳间定位提示。此外,如果均衡每个频带中的经串扰消除的信号v以具有与双耳呈现信号y相同的能量,则y中存在的高度提示应当保持在立体声输出扩音器信号s中。当在扩音器上(例如,在移动装置上)再现所得信号s时,信号将通过从扬声器到耳鼓膜的声学路径被修改。
作为目标的立体声扩音器呈现
可以减少对逆HRTF滤波器T的需求的替代方案采用扩音器呈现作为目标信号。在那种情况下,均衡信号应当没有任何峰值和凹口,并且定位可以依赖于由从扩音器到耳鼓膜的声学路径引起的频谱提示。然而,感知呈现中可能会丢失任何前方/后方或高度提示。尽管如此,这可能是可接受的折衷结果,因为前方/后方和高度提示通常无法与串扰消除算法良好配合。
音频渲染器
除了在AC-4沉浸式立体声的环境中使用动态均衡概念之外,可以在采用串扰消除的音频渲染器中采用动态均衡。
图15图示了根据一个示例的对渲染器的示意性概述。在此实施方式中,可以通过HRTF来处理(渲染)音频内容1505(其可以是基于通道或基于对象的)并且经由HRTF渲染以及求和过程1510对所述音频内容进行求和,以创建双耳立体声信号Y,例如如下:
yi=∑jxj*hij, 等式编号62
在等式62中,xj表示具有索引j的输入信号(层或对象),hij表示对象j和输出信号i的HRTF并且*表示卷积算子。
随后,可以通过串扰消除矩阵C(框1515)来处理双耳信号对Y(yl,yr),以计算经串扰消除的信号对V。如前文所描述的,串扰消除矩阵C取决于扩音器的位置(方位角)。随后,可以通过动态均衡(DEQ)级1520来处理立体声信号V,以产生立体声扩音器输出信号对S。
可以从V和X的水平估计中得到由动态均衡级1520施加的增益G,在此示例中,分别通过水平估计器1525和1530来计算V和X的水平估计。水平估计可以涉及在适当的情况下对通道进行求和。根据一个这种示例,求和可以如下:
换言之,不是将呈现(渲染)用作目标信号,而是可以用内容本身(通道、对象和/或层)来计算目标水平。在此示例中,通过增益计算器1535来计算所得增益G。例如,可以使用结合等式编号44至62所描述的方法中的任何方法来计算增益,并且根据所采用的方法,所述增益可以取决于声学环境信息。
图16是示出可以被配置为执行本文所公开方法中的至少一些方法的设备的部件的示例的框图。在一些示例中,设备1605可以是移动装置。根据一些实施方式,设备1605可以是被配置为为再现环境提供音频处理的装置,在一些示例中,所述再现环境是家庭再现环境。根据一些示例,设备1605可以是被配置为经由网络接口与服务器通信的客户端装置。可以经由硬件、经由存储在非暂态介质上的软件、经由固件和/或通过其组合来实施设备1605的部件。图16以及本文所公开的其他附图中所示出的部件的类型和数量仅是通过示例的方式来示出的。可替代的实施方式可以包括更多、更少和/或不同的部件。
在此示例中,设备1605包括接口系统1610和控制系统1615。接口系统1610可以包括一个或多个网络接口、控制系统1615与存储器系统之间的一个或多个接口和/或一个或多个外部装置接口(诸如一个或多个通用串行总线(USB)接口)。在一些实施方式中,接口系统1610可以包括用户接口系统。用户接口系统可以被配置为接收来自用户的输入。在一些实施方式中,用户接口系统可以被配置为向用户提供反馈。例如,用户接口系统可以包括具有相应触摸系统和/或手势检测系统的一个或多个显示器。在一些示例中,用户接口系统可以包括一个或多个扬声器。根据一些示例,用户接口系统可以包括用于提供触觉反馈的设备,诸如电机、振动器等。控制系统1615可以例如包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑装置、分立栅极或晶体管逻辑和/或分立硬件部件。
在一些示例中,可以在单一装置中实施设备1605。然而,在一些实施方式中,可以在多于一个装置中实施设备1605。在一些这种实施方式中,控制系统1615的功能可以包括在多于一个装置中。在一些示例中,设备1605可以是另一装置的部件。
图17是根据一个示例的方法的概述框的流程图。在一些实例中,可以通过图16的设备或通过本文所公开的另一种类型的设备来执行所述方法。在一些示例中,可以经由存储在一个或多个非暂态介质上的软件来实施方法1700的框。与本文所描述的其他方法一样,不必以所指示的顺序来执行方法1700的框。而且,这种方法可以包括比所示出和/或所描述的框更多或更少的框。
在此实施方式中,框1705涉及对第一回放流呈现进行解码。在此示例中,第一回放流呈现被配置为在第一音频再现系统上再现。
根据此示例,框1710涉及对适于将中间回放流变换为第二回放流呈现的一组变换参数进行解码。在一些实施方式中,可以经由接口来接收第一回放流呈现和所述一组变换参数,所述接口可以是上文参考图16所描述的接口系统1610的一部分。在此示例中,第二回放流呈现被配置为在耳机上再现。中间回放流呈现可以是第一回放流呈现、第一回放流呈现的向下混合和/或第一回放流呈现的向上混合。
在此实施方式中,框1715涉及将变换参数应用于中间回放流呈现,以获得第二回放流呈现。在此示例中,框1720涉及通过串扰消除算法来处理第二回放流呈现,以获得经串扰消除的信号。串扰消除算法可以至少部分地基于扩音器数据。例如,扩音器数据可以包括扩音器位置数据。
根据此示例,框1725涉及根据动态均衡或增益过程来处理经串扰消除的信号,所述动态均衡或增益过程在本文可以称为“动态均衡或增益级”,其中,均衡或增益的量取决于第一回放流呈现或第二回放流呈现的水平。在一些实施方式中,动态均衡或增益可以是频率相关的。在一些示例中,动态均衡或增益的量可以至少部分地基于声学环境数据。在一些示例中,声学环境数据可以是频率相关的。根据一些实施方式,声学环境数据可以包括表示预期收听位置处的直达与混响之比的数据。
在此示例中,框1725的输出是经串扰消除的信号的经修改版本。在此,框1730涉及输出经串扰消除的信号的经修改版本。例如,框1730可以涉及经由接口系统输出经串扰消除的信号的经修改版本。一些实施方式可以涉及在耳机上回放经串扰消除的信号的经修改版本。
图18是根据一个示例的方法的概述框的流程图。在一些实例中,可以通过图16的设备或通过本文所公开的另一种类型的设备来执行所述方法。在一些示例中,可以经由存储在一个或多个非暂态介质上的软件来实施方法1800的框。与本文所描述的其他方法一样,不必以所指示的顺序来执行方法1800的框。而且,这种方法可以包括比所示出和/或所描述的框更多或更少的框。
根据此示例,方法1800涉及虚拟渲染基于通道或基于对象的音频。在一些示例中,可以在变换域或滤波器组域中实施方法1800的处理的至少一部分。
在此实施方式中,框1805涉及接收多个输入音频信号和与至少一些输入音频信号的预期位置相对应的数据。例如,框1805可以涉及经由接口系统接收输入音频信号和数据。
在此,框1810涉及为所述多个输入信号中的每个输入信号生成双耳信号对。在此示例中,双耳信号对是基于输入信号的预期位置。在此实施方式中,可选框1815涉及对双耳对进行求和。
根据此示例,框1820涉及对双耳信号对应用串扰消除过程,以获得经串扰消除的信号对。串扰消除过程可以涉及应用至少部分地基于扩音器数据的串扰消除算法。
在此,框1825涉及测量(或估计)经串扰消除的信号对的水平。根据此实施方式,框1830涉及测量(或估计)输入音频信号的水平。在一些示例中,水平估计可以至少部分地基于对跨通道或对象的水平进行求和。在一些实施方式中,水平估计可以至少部分地基于能量、功率、响度或振幅中的一个或多个。
在此实施方式中,框1835涉及响应于经串扰消除的信号对的经测量水平和输入音频的经测量水平而对经串扰消除的信号对应用动态均衡或增益。动态均衡或增益可以至少部分地基于时间或频率的函数。根据一些示例,所述动态均衡或增益的量可以至少部分地基于声学环境数据。在一些实例中,声学环境数据可以包括表示预期收听位置处的直达与混响之比的数据。在一些示例中,声学环境数据可以是频率相关的。
在此示例中,框1835的输出是经串扰消除的信号的经修改版本。在此,框1840涉及输出经串扰消除的信号的经修改版本。例如,框1830可以涉及经由接口系统输出经串扰消除的信号的经修改版本。一些实施方式可以涉及在耳机上回放经串扰消除的信号的经修改版本。
本领域普通技术人员能够很容易地明白对本公开中所描述实施方式的各种修改。在不脱离本公开范围的情况下,可以将本文所限定的一般原理应用于其他实施方式。因此,本权利要求并不旨在局限于本文所示出的实施方式,而是符合与本公开内容、本文所公开的原理和新颖特征一致的最宽范围。
Claims (25)
1.一种用于虚拟渲染基于通道或基于对象的音频的方法,所述方法包括:
接收至少一个输入音频信号以及与所述输入音频信号中的至少一个的预期位置相对应的数据;
针对所述输入音频信号中的所述至少一个的每个输入音频信号生成双耳信号对,所述双耳信号对基于所述输入音频信号中的所述至少一个的相对应的预期位置;
对所述双耳信号对应用串扰消除过程,以获得经串扰消除的信号对;
测量所述经串扰消除的信号对的水平,以获得所述经串扰消除的信号对的所测量的水平;
测量所述输入音频信号的水平,以获得所述输入音频信号的所测量的水平;
响应于所述经串扰消除的信号对的所测量的水平和所述输入音频信号的所测量的水平而对所述经串扰消除的信号对应用动态均衡或增益,以确定所述经串扰消除的信号对的经修改版本;以及
输出所述经串扰消除的信号对的所述经修改版本。
2.如权利要求1所述的方法,其中,所述动态均衡或增益基于时间或频率的函数。
3.如权利要求1所述的方法,其中,所述测量所述经串扰消除的信号对的水平以及所述测量所述输入音频信号的水平中的至少一个或多个基于跨通道或对象的水平。
4.如权利要求3所述的方法,其中,所述水平基于能量、功率、响度或振幅中的一个或多个。
5.如权利要求1所述的方法,其中,在变换域或滤波器组域中实施所述串扰消除过程的至少一部分。
6.如权利要求1所述的方法,其中,所述串扰消除过程基于扩音器数据。
7.如权利要求6所述的方法,其中,所述扩音器数据包括扩音器位置数据。
8.如权利要求1所述的方法,其中,动态均衡或增益的量基于声学环境数据。
9.如权利要求8所述的方法,其中,所述声学环境数据包括表示所述预期位置处的直达与混响之比的数据。
10.如权利要求8所述的方法,其中,所述声学环境数据是频率相关的。
11.如权利要求1所述的方法,其中,所述动态均衡或增益是频率相关的。
12.如权利要求1所述的方法,进一步包括将所述双耳信号对相加在一起以产生经求和的双耳信号对,其中,对所述经求和的双耳信号对应用所述串扰消除过程。
13.一种其上存储有计算机程序的计算机可读介质,所述计算机程序由处理器执行以实施如权利要求1至12中任一项所述的方法。
14.一种用于虚拟渲染基于通道或基于对象的音频的设备,包括:
接收器,被配置为接收至少一个输入音频信号以及与所述输入音频信号中的至少一个的预期位置相对应的数据;
第一处理单元,被配置为针对所述输入音频信号中的所述至少一个的每个输入音频信号生成双耳信号对,所述双耳信号对基于所述输入音频信号中的所述至少一个的相对应的预期位置;
第二处理单元,被配置为对所述双耳信号对应用串扰消除过程,以获得经串扰消除的信号对;
第三处理单元,被配置为测量所述经串扰消除的信号对的水平;
第四处理单元,被配置为测量所述输入音频信号的水平,以获得所述输入音频信号的所测量的水平;
第五处理单元,被配置为响应于所述经串扰消除的信号对的所测量的水平和所述输入音频信号的所测量的水平而对所述经串扰消除的信号对应用动态均衡或增益,以确定所述经串扰消除的信号对的经修改版本;以及
输出单元,被配置为输出所述经串扰消除的信号对的所述经修改版本。
15.如权利要求14所述的设备,其中,所述动态均衡或增益基于时间或频率的函数。
16.如权利要求14所述的设备,其中,所述测量所述经串扰消除的信号对的水平以及所述测量所述输入音频信号的水平中的至少一个基于跨通道或对象的水平。
17.如权利要求16所述的设备,其中,所述水平基于能量、功率、响度或振幅中的一个或多个。
18.如权利要求14所述的设备,其中,在变换域或滤波器组域中实施所述串扰消除过程的至少一部分。
19.如权利要求14所述的设备,其中,所述串扰消除过程基于扩音器数据。
20.如权利要求19所述的设备,其中,所述扩音器数据包括扩音器位置数据。
21.如权利要求14所述的设备,其中,动态均衡或增益的量基于声学环境数据。
22.如权利要求21所述的设备,其中,所述声学环境数据包括表示所述预期位置处的直达与混响之比的数据。
23.如权利要求21所述的设备,其中,所述声学环境数据是频率相关的。
24.如权利要求14所述的设备,其中,所述动态均衡或增益是频率相关的。
25.如权利要求14所述的设备,进一步包括第六处理单元,所述第六处理单元被配置为将所述双耳信号对相加在一起以产生经求和的双耳信号对,其中,对所述经求和的双耳信号对应用所述串扰消除过程。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762446165P | 2017-01-13 | 2017-01-13 | |
US62/446,165 | 2017-01-13 | ||
US201762592906P | 2017-11-30 | 2017-11-30 | |
US62/592,906 | 2017-11-30 | ||
PCT/US2018/013085 WO2018132417A1 (en) | 2017-01-13 | 2018-01-10 | Dynamic equalization for cross-talk cancellation |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110326310A CN110326310A (zh) | 2019-10-11 |
CN110326310B true CN110326310B (zh) | 2020-12-29 |
Family
ID=61054571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880012042.3A Active CN110326310B (zh) | 2017-01-13 | 2018-01-10 | 串扰消除的动态均衡 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10764709B2 (zh) |
EP (1) | EP3569000B1 (zh) |
CN (1) | CN110326310B (zh) |
WO (1) | WO2018132417A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2563635A (en) * | 2017-06-21 | 2018-12-26 | Nokia Technologies Oy | Recording and rendering audio signals |
TWI703557B (zh) * | 2017-10-18 | 2020-09-01 | 宏達國際電子股份有限公司 | 聲音播放裝置、方法及非暫態儲存媒體 |
EP3487188B1 (en) | 2017-11-21 | 2021-08-18 | Dolby Laboratories Licensing Corporation | Methods, apparatus and systems for asymmetric speaker processing |
GB2587357A (en) * | 2019-09-24 | 2021-03-31 | Nokia Technologies Oy | Audio processing |
WO2022133128A1 (en) * | 2020-12-17 | 2022-06-23 | Dolby Laboratories Licensing Corporation | Binaural signal post-processing |
US11601776B2 (en) * | 2020-12-18 | 2023-03-07 | Qualcomm Incorporated | Smart hybrid rendering for augmented reality/virtual reality audio |
WO2023156002A1 (en) * | 2022-02-18 | 2023-08-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for reducing spectral distortion in a system for reproducing virtual acoustics via loudspeakers |
US20230421951A1 (en) * | 2022-06-23 | 2023-12-28 | Cirrus Logic International Semiconductor Ltd. | Acoustic crosstalk cancellation |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6668061B1 (en) * | 1998-11-18 | 2003-12-23 | Jonathan S. Abel | Crosstalk canceler |
CN101098396A (zh) * | 2006-06-29 | 2008-01-02 | 上海高清数字科技产业有限公司 | 用于消除信号中干扰的方法和设备 |
CN102404673A (zh) * | 2011-11-24 | 2012-04-04 | 苏州上声电子有限公司 | 数字化扬声器系统通道均衡与声场控制方法和装置 |
US8320592B2 (en) * | 2005-12-22 | 2012-11-27 | Samsung Electronics Co., Ltd. | Apparatus and method of reproducing virtual sound of two channels based on listener's position |
CN202981962U (zh) * | 2013-01-11 | 2013-06-12 | 广州市三好计算机科技有限公司 | 一种言语功能检测处理系统 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR940011504B1 (ko) | 1991-12-07 | 1994-12-19 | 삼성전자주식회사 | 2채널 음장재생 장치 및 방법 |
US6009178A (en) | 1996-09-16 | 1999-12-28 | Aureal Semiconductor, Inc. | Method and apparatus for crosstalk cancellation |
US6078669A (en) | 1997-07-14 | 2000-06-20 | Euphonics, Incorporated | Audio spatial localization apparatus and methods |
FI113147B (fi) | 2000-09-29 | 2004-02-27 | Nokia Corp | Menetelmä ja signaalinkäsittelylaite stereosignaalien muuntamiseksi kuulokekuuntelua varten |
TWI230024B (en) | 2001-12-18 | 2005-03-21 | Dolby Lab Licensing Corp | Method and audio apparatus for improving spatial perception of multiple sound channels when reproduced by two loudspeakers |
FI118370B (fi) | 2002-11-22 | 2007-10-15 | Nokia Corp | Stereolaajennusverkon ulostulon ekvalisointi |
US7330112B1 (en) | 2003-09-09 | 2008-02-12 | Emigh Aaron T | Location-aware services |
US9445213B2 (en) | 2008-06-10 | 2016-09-13 | Qualcomm Incorporated | Systems and methods for providing surround sound using speakers and headphones |
UA101542C2 (ru) | 2008-12-15 | 2013-04-10 | Долби Лабораторис Лайсензин Корпорейшн | Виртуализатор окружающего звука с динамическим сжатием диапазона и способ |
TR201815799T4 (tr) | 2011-01-05 | 2018-11-21 | Anheuser Busch Inbev Sa | Bir audio sistemi ve onun operasyonunun yöntemi. |
TWI603632B (zh) | 2011-07-01 | 2017-10-21 | 杜比實驗室特許公司 | 用於適應性音頻信號的產生、譯碼與呈現之系統與方法 |
JP5897219B2 (ja) | 2012-08-31 | 2016-03-30 | ドルビー ラボラトリーズ ライセンシング コーポレイション | オブジェクト・ベースのオーディオの仮想レンダリング |
WO2015089468A2 (en) * | 2013-12-13 | 2015-06-18 | Wu Tsai-Yi | Apparatus and method for sound stage enhancement |
AU2016311335B2 (en) | 2015-08-25 | 2021-02-18 | Dolby International Ab | Audio encoding and decoding using presentation transform parameters |
JP6797187B2 (ja) | 2015-08-25 | 2020-12-09 | ドルビー ラボラトリーズ ライセンシング コーポレイション | オーディオ・デコーダおよびデコード方法 |
KR20240028560A (ko) | 2016-01-27 | 2024-03-05 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 음향 환경 시뮬레이션 |
-
2018
- 2018-01-10 CN CN201880012042.3A patent/CN110326310B/zh active Active
- 2018-01-10 US US16/477,870 patent/US10764709B2/en active Active
- 2018-01-10 WO PCT/US2018/013085 patent/WO2018132417A1/en unknown
- 2018-01-10 EP EP18701888.2A patent/EP3569000B1/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6668061B1 (en) * | 1998-11-18 | 2003-12-23 | Jonathan S. Abel | Crosstalk canceler |
US8320592B2 (en) * | 2005-12-22 | 2012-11-27 | Samsung Electronics Co., Ltd. | Apparatus and method of reproducing virtual sound of two channels based on listener's position |
CN101098396A (zh) * | 2006-06-29 | 2008-01-02 | 上海高清数字科技产业有限公司 | 用于消除信号中干扰的方法和设备 |
CN102404673A (zh) * | 2011-11-24 | 2012-04-04 | 苏州上声电子有限公司 | 数字化扬声器系统通道均衡与声场控制方法和装置 |
CN202981962U (zh) * | 2013-01-11 | 2013-06-12 | 广州市三好计算机科技有限公司 | 一种言语功能检测处理系统 |
Also Published As
Publication number | Publication date |
---|---|
EP3569000A1 (en) | 2019-11-20 |
US20190373398A1 (en) | 2019-12-05 |
US10764709B2 (en) | 2020-09-01 |
CN110326310A (zh) | 2019-10-11 |
EP3569000B1 (en) | 2023-03-29 |
WO2018132417A1 (en) | 2018-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110326310B (zh) | 串扰消除的动态均衡 | |
US11798567B2 (en) | Audio encoding and decoding using presentation transform parameters | |
JP4944902B2 (ja) | バイノーラルオーディオ信号の復号制御 | |
US8265284B2 (en) | Method and apparatus for generating a binaural audio signal | |
KR102517867B1 (ko) | 오디오 디코더 및 디코딩 방법 | |
Jot et al. | Rendering spatial sound for interoperable experiences in the audio metaverse | |
JP2014506416A (ja) | オーディオ空間化および環境シミュレーション | |
AU2014295309A1 (en) | Apparatus, method, and computer program for mapping first and second input channels to at least one output channel | |
EP4085660A1 (en) | Method for providing a spatialized soundfield | |
WO2021069793A1 (en) | Spatial audio representation and rendering | |
Lee et al. | Scalable multiband binaural renderer for MPEG-H 3D audio | |
Pelzer et al. | 3D reproduction of room acoustics using a hybrid system of combined crosstalk cancellation and ambisonics playback | |
KR20190060464A (ko) | 오디오 신호 처리 방법 및 장치 | |
EA042232B1 (ru) | Кодирование и декодирование звука с использованием параметров преобразования представления |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |