CN106797525B

CN106797525B - 用于生成和回放音频信号的方法和设备

Info

Publication number: CN106797525B
Application number: CN201580053026.5A
Authority: CN
Inventors: 赵炫; 金善民; 朴在夏; 孙尚模
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-08-13
Filing date: 2015-08-13
Publication date: 2019-05-28
Anticipated expiration: 2035-08-13
Also published as: EP3197182A1; US20170251323A1; EP3197182A4; US10349197B2; KR20160020377A; CN106797525A; EP3197182B1; WO2016024847A1

Abstract

根据实施方式的方面，音频生成方法包括：通过至少一个麦克风接收音频信号；基于所接收的音频信号生成与至少一个麦克风中的每一个对应的输入声道信号；基于输入声道信号生成虚拟输入声道信号；生成包括输入声道信号和虚拟输入声道信号的再现位置的附加信息；以及发送附加信息和包括输入声道信号和虚拟输入声道信号的多声道音频信号。根据另一实施方式的方面，音频再现方法包括：接收多声道音频信号和包括多声道音频信号的再现位置的附加信息；获取用户的位置信息；基于所接收的附加信息对所接收的多声道音频信号声道分离；基于所接收的附加信息和所获取的用户的位置信息对经声道分离的多声道音频信号进行渲染；以及再现经渲染的多声道音频信号。

Description

用于生成和回放音频信号的方法和设备

技术领域

本发明涉及生成和再现音频信号的方法和装置，更具体地，涉及通过采集音频信号和降低所采集的音频信号的相干性而具有改善的渲染性能的方法和装置。

本发明还涉及通过降低计算量来降低负荷同时通过基于音频信号的实时信息执行渲染来改善渲染性能的方法和装置。

背景技术

为了生成音频信号，需要通过麦克风捕获音频信号的过程。近来，由于技术的发展，捕获设备逐渐地趋向于小型化，以及使用具有移动设备的捕获设备的必要性增加。

然而，捕获设备的小型化导致麦克风之间的距离的逐渐减小，因而增加输入声道之间的相干性。在该情况下，在渲染期间，用于再现在头戴式耳机中的声音外化(externalization)程度恶化，并且声像的定位性能恶化。

因此，需要在不考虑捕获和渲染形状因子的情况下减小系统负荷和改善音频信号再现性能的技术。

发明内容

技术问题

如上所述，使用小型化捕获设备的音频生成方法的问题在于：由于输入信号之间的相干性高，再现性能恶化。

另外，对于头戴式耳机(headphone)渲染，应使用长阶数(long-taps)滤波器来模拟回声，因此计算量增加。

另外，在立体声音频再现环境中，需要用户的头部位置信息来定位声像。

本发明的目的在于解决现有技术的上述问题以减少信号相干性，以及通过反映用户的实时头部位置信息来改善渲染性能。

技术方案

本发明用于实现该目的的代表性特征如下。

根据实施方式的方面，音频生成方法包括：通过至少一个麦克风接收音频信号；基于所接收的音频信号生成与至少一个麦克风中的每一个相对应的输入声道信号；基于输入声道信号生成虚拟输入声道信号；生成包括输入声道信号和虚拟输入声道信号的再现位置的附加信息；以及发送附加信息和包括输入声道信号和虚拟输入声道信号的多声道音频信号。

该方法还可包括对多声道音频信号进行声道分离，其中，所述声道分离包括：基于多声道音频信号中所包括的声道信号之间的相干性以及基于附加信息对声道进行分离。

所述发送还可包括发送对象音频信号。

附加信息还可包括对象音频信号的再现位置信息。

至少一个麦克风可附接到具有驱动力的设备上。

根据另一实施方式的方面，音频再现方法包括：接收多声道音频信号和附加信息，附加信息包括多声道音频信号的再现位置；获取用户的位置信息；基于所接收的附加信息对所接收的多声道音频信号进行声道分离；基于所接收的附加信息和所获取的用户的位置信息对经声道分离的多声道音频信号进行渲染；以及再现经渲染的多声道音频信号。

声道分离可包括基于多声道音频信号中所包括的声道信号之间的相干性以及基于附加信息对声道进行分离。

该方法还可包括：基于所接收的多声道音频信号生成虚拟输入声道信号。

接收还可包括接收对象音频信号。

附加信息还可包括对象音频信号的再现位置信息。

多声道音频信号的渲染可包括：对于预定参考时间之前的时间，基于头部相关脉冲响应(HRIR，head related impulse response)渲染多声道音频信号；以及对于预定参考时间之后的时间，基于双耳房间脉冲响应(BRIR，binaural room impulse response)渲染多声道音频信号。

头部相关传递函数(HRTF，head related transfer function)可基于所获的用户的位置信息确定。

用户的位置信息可基于用户输入确定。

用户的位置信息可基于所测量的用户的头部位置确定。

用户的位置信息可基于用户的头部运动速度和头部运动速度测量传感器的延迟确定。

用户的头部运动速度包括头部角速度和头部移动速度中的至少一个。

根据另一实施方式的方面，音频生成装置包括：配置成接收音频信号的至少一个麦克风；配置成基于所接收的音频信号生成与至少一个麦克风中的每一个相对应的输入声道信号的输入声道信号生成器；配置成基于输入声道信号生成虚拟输入声道信号的虚拟输入声道信号生成器；配置成生成附加信息的附加信息生成器，附加信息包括输入声道信号和虚拟输入声道信号的再现位置；以及配置成发送多声道音频信号和附加信息的发送器，多声道音频信号包括输入声道信号和虚拟输入声道信号。

根据另一实施方式的方面，音频再现装置包括：配置成接收多声道音频信号和附加信息的接收器，附加信息包括多声道音频信号的再现位置；配置成获取用户的位置信息的位置信息获取器；配置成基于所接收的附加信息对所接收的多声道音频信号进行声道分离的声道分离器；配置成基于所接收的附加信息和所获取的用户的位置信息对经声道分离的多声道音频信号进行渲染的渲染器；以及配置成再现经渲染的多声道音频信号的再现器。

根据另一实施方式的方面，提供了用于执行上述方法的程序以及上面记录有用于执行上述方法的程序的非暂时性计算机可读记录介质。

根据另一实施方式的方面，还提供了另一方法、另一系统以及上面记录有用于执行方法的计算机程序的非暂时性计算机可读记录介质。

发明的有益效果

根据本发明，可通过降低信号相干性以及反映用户的实时头部位置信息来改善渲染性能，而与捕获设备和渲染设备的形状因子等无关。

附图说明

图1是根据本发明实施方式用于生成和再现音频信号的系统的概括图。

图2A和图2B示出根据本发明实施方式音频生成装置中的输入声道之间的相干性增加的现象以及对渲染性能的影响，其中，图2A示出根据本发明实施方式音频生成装置中的输入声道信号之间的相干性增加的现象，图2B示出根据本发明实施方式当音频再现装置中输入声道信号之间的相干性高时渲染性能恶化的现象。

图3是根据本发明实施方式用于生成和再现音频信号的系统的框图。

图4A和图4B示出根据本发明实施方式的虚拟输入声道音频信号生成器的操作，其中，图4A示出根据本发明实施方式的音频再现装置中所捕获的音频信号，图4B示出根据本发明实施方式包括虚拟输入声道信号的音频信号。

图5是根据本发明实施方式的声道分离器的详细框图。

图6是根据本发明实施方式虚拟输入声道信号生成器和声道分离器集成的配置的框图。

图7是根据本发明另一实施方式虚拟输入声道信号生成器和声道分离器集成的配置的框图。

图8A和图8B示出根据本发明实施方式生成音频的方法的流程图和再现音频的方法的流程图，其中，图8A示出根据本发明实施方式生成音频的方法的流程图，图8B示出根据本发明实施方式再现音频的方法的流程图。

图9A和图9B示出根据本发明另一实施方式生成音频的方法的流程图和再现音频的方法的流程图，其中，图9A示出根据本发明另一实施方式生成音频的方法的流程图，图9B示出根据本发明另一实施方式再现音频的方法的流程图。

图10A和图10B示出根据本发明另一实施方式生成音频的方法的流程图和再现音频的方法的流程图。

图10A示出根据本发明另一实施方式生成音频的方法的流程图。

图10B示出根据本发明另一实施方式再现音频的方法的流程图。

图11A和图11B示出能够在360°水平范围中再现音频信号的音频再现系统。

图11A示出头戴式显示器(HMD，Head Mounded Display)系统的实施方式。

图11B示出家庭影院系统(HTS，Home Theater System)的实施方式。

图12示出根据本发明实施方式的三维(3D)音频再现装置中的3D音频渲染器的示意性配置。

图13是用于描述根据本发明实施方式以低计算量使声音外化的渲染方法的框图。

图14示出根据本发明实施方式表示传递函数应用单元的具体操作的公式。

图15是根据本发明实施方式用于渲染多个声道输入和多个对象输入的设备的框图。

图16是根据本发明实施方式其中声道分离器和渲染器集成的配置的框图。

图17是根据本发明另一实施方式声道分离器和渲染器集成的配置的框图。

图18是根据本发明实施方式包括布局转换器的渲染器的框图。

图19示出根据本发明实施方式基于用户头部位置信息的输出声道布局中的变化。

图19A示出在用户的头部位置信息反映之前的输入和输出声道位置。

图19B示出在输出声道的位置通过反映用户的头部位置信息而改变之后的输入和输出声道位置。

图20和图21示出根据本发明实施方式补偿捕获设备或用于追踪用户的头部的设备的延迟的方法。

具体实施方式

以下将描述的本发明的详细说明参考附图，附图中示出了可实现本发明的具体实施方式。对这些实施方式进行详细描述以使得本领域普通技术人员可执行本发明。应理解，本发明各实施方式互相不同，但是不必是相互排斥的。

例如，在不脱离本发明的精神和范围的情况下，从一个实施方式到另一实施方式，说明书中描述的具体形状、结构和特性可发生改变并被实施。另外，应理解，在不脱离本发明的精神和范围的情况下，还可改变每个实施方式中的各组件的位置或布置。因此，以下的详细说明不是以限制的意义给出，而应理解，本发明的范围包括权利要求所要求保护的范围和所有等同范围。

在附图中，相同的参考标记在多个方面表示相同的元件。另外，省略与描述无关的部分以清楚地描述本发明，并且在说明书通篇中，相同的参考标记表示相同的元件。

在下文中，将参照附图详细描述本发明的实施方式，以使得本发明所属领域的普通技术人员可容易地实现本发明。然而，本发明可实施成许多不同的形式，并且本发明不应解释为局限于本文所阐述的实施方式。

当描述某一部件“连接到”另一部件时，应理解，某一部件可“直接地”连接到另一部件，或通过处于中间的另一部件“电力地”连接到另一部件。另外，除非存在不同的公开内容，否则当某一部件“包括”某一组件时，这表示该部件还可包括另一组件而不是排除另一组件。

在下文中，参照附图详细描述本发明。

图1是根据本发明实施方式用于生成和再现音频信号的系统的概括图。如图1所示，根据本发明实施方式，用于生成和再现音频信号的系统包括音频生成装置100、音频再现装置300和网络200。

根据音频信号的流动的一般说明，当构成音频信号的声音生成时，音频信号通过麦克风发送到混合器，并且通过功率放大器输出到扬声器。替代地，可添加通过效果器对音频信号调制的过程，或者将生成的音频信号存储在存储器中或再现存储在存储器中的音频信号的过程。

根据声音的来源，声音的类型主要分为声学声音和电学声音。声学声音(诸如，人类的语音或声学仪器声音)需要有将其声源转换成电信号的过程，其中，声学声音通过麦克风转换成电信号。

图1的音频生成装置100是用于执行从预定声源生成音频信号的所有过程的设备。

音频信号的声源的典型示例是通过使用麦克风所记录的音频信号。麦克风的基本原理对应于用于将能量形式从声能转换到电能的换能器。麦克风通过将空气的物理、机械运动转换成电信号来生成电压，并且麦克风根据转换方案分为碳麦克风、晶体麦克风、电动麦克风、电容麦克风等。为了记录声音，主要使用电容麦克风。

全向麦克风对所有入射角具有相同灵敏度，但是定向麦克风根据输入音频信号的入射角在灵敏度方面具有差异，并且该灵敏度方面的差异依靠麦克风的独特极性模式确定。根据频率，虽然单向麦克风最灵敏地响应来自同样距离的前部(0°)的声音输入，但是几乎不能检测到来自后部的声音输入。然而，双向麦克风对来自前部(0°)和后部(180°)的信号输入最敏感，而几乎不能检测到来自两侧(90°和270°)的声音输入。

在该情况下，当记录音频信号时，可记录具有二维(2D)或3D空间特征的音频信号。

音频信号的声源的另一示例是通过使用数字声源生成设备(诸如，音乐设备数字接口(MIDI))所生成的音频信号。MIDI接口配备在计算设备中，并且起连接计算设备与仪器的作用。换言之，当计算设备将待生成的信号发送到MIDI接口时，MIDI接口将根据预定规则对齐的信号发送到电子仪器以生成音频信号。该采集声源的过程称为捕获。

通过捕获过程采集的音频信号由音频编码器编码成比特流。除常规声道音频信号之外，MPEG-H音频编解码器标准还限定了对象音频信号和高阶高保真立体声(HOA)信号。

对象是指构成声音场景的每个声源，例如，是指形成音乐或者构成电影的音频声音的对话、效果和背景音乐(BGM)中的每一个的每种仪器。

声道音频信号包括与包含所有对象的声音场景有关的信息，因此，通过输出声道(扬声器)再现包括所有对象的声音场景。然而，对象信号在对象单元基础上存储、发送和再现信号，因此，再现器可通过对象渲染独立地再现每个对象。

当应用面向对象的信号处理和编码技术时，可根据情况提取和重新配置构成声音场景的对象中的每一个。作为音乐的音频声音的示例，常见音乐内容通过单独记录形成音乐的每个仪器以及通过混合过程适当地对每个仪器的轨道进行混合来获得。如果每个仪器的轨道配置为对象，则用户可独立地控制每个对象(仪器)，因此，用户可调整具体对象(仪器)的声音大小以及改变对象(仪器)的空间位置。

以电影的音频声音作为示例，电影具有在多个国家再现的可能性，音效和BGM与国家无关，但是对话需要以用户期望的语言再现。因此，配音成多种国家的语言(诸如，韩语，日语和英语)的对话音频声音可作为对象被处理并包括在音频信号中。在该情况下，当用户选择韩语作为用户期望的语言时，选择与韩语对应的对象并且将其包括在音频信号中，以使得再现韩语对话。

MPEG-H标准限定HOA为新的输入信号；并且根据HOA，在通过麦克风获取音频信号并且再次再现音频信号的一系列过程中，声音场景可通过使用专用麦克风和代表麦克风的特殊存储方法、以与现有声道或对象音频信号不同的形式来呈现。

如上文描述所捕获的音频信号由音频信号编码器编码，并且以比特流的形式被发送。如上所述，编码器的最终输出数据的形式是比特流，因此，解码器的输入也是比特流形式。

音频再现装置300接收通过网络200发送的比特流，并且通过对所接收的比特流解码来恢复声道音频信号、对象音频信号和HOA。

所恢复的音频信号可输出为混合有多个输出声道的多声道音频信号，其中，多个输入声道通过所述多个输出声道经由渲染再现。在该情况下，当输出声道的数量小于输入声道的数量时，输入声道向下混合以满足输出声道的数量。

立体声音频是指另外具有空间信息的音频，该空间信息通过不仅再现声音的音高和音调还通过再现方向和距离感而允许用户感受临场感，以及允许没有位于声音被生成的空间中的用户识别方向感、距离感和空间感。

在下文描述中，音频信号的输出声道可以指输出音频的扬声器的数量。输出声道的数量越多，输出音频的扬声器的数量越多。根据实施方式，立体声音频再现装置300可将多声道音频输入信号渲染和混合到待再现的输出声道，以使得具有大量输入声道的多声道音频输入信号在具有少量输出声道的环境中输出和再现。在该情况下，多声道音频输入信号可包括能够输出升高的声音(elevated sound)的声道。

能够输出升高的声音的声道可以指这样的声道，所述声道能够通过位于用户头部上的扬声器输出音频信号，以使得用户可感受到升高的感觉。水平声道可以指能够通过位于对用户水平的平面上的扬声器来输出音频信号的声道。

具有少量输出声道的上述环境可以指音频可通过布置在水平面上的、不包括能够输出升高的声音的输出声道的扬声器输出的环境。

另外，在下文描述中，水平声道可以指包括音频信号的声道，该音频信号可通过布置在水平面上的扬声器输出。头顶声道(overhead channel)可以指包括这样的音频信号的声道，所述音频信号可通过布置在升高的地方而不是水平面上的并且能够输出升高的声音的扬声器输出。

网络200起到连接音频生成装置100和音频再现装置300的作用。换言之，网络200是指用于提供可供发送和接收数据的连接路径的通信网络。根据本发明实施方式的网络200可不考虑通信方面(诸如，有线通信和无线通信)进行配置，并且可单独地或组合地通过局域网(LAN)、城域网(MAN)和广域网(WAN)来配置。

网络200是压缩数据通信网络，该压缩数据通信网络使得图1中示出的网络组件实体能够彼此流畅地通信，以及网络200可包括有线互联网、无线互联网、移动无线通信网络、电话网络和有线/无线电视通信网络中的至少一些。

生成音频信号的过程的第一步是捕获音频信号。音频信号的捕获包括采集在2D或3D空间中具有处于整个360°方位范围内的空间位置信息的音频信号。

音频信号捕获环境可主要地分为工作室环境和使用具有相对小型形状因子的捕获设备的环境。在工作室环境中生成的音频内容的示例如下。

最常规的音频信号捕获系统是用于通过工作室环境中的麦克风记录声源并且对所记录的声源进行混合以生成音频内容的系统。替代地，通过使用安装在室内环境中的各种地方(诸如，舞台)的麦克风捕获的声源可在工作室中进行混合以生成内容。具体地，该方法通常应用于传统的音乐记录。在过去，使用立体声输出的双轨道记录方法而不执行后期混合制作；但是近来，使用多轨道(声道)记录方法来执行后期混合制作或多声道(5.1声道等)环绕混合。

替代地，存在对图像数据(诸如，电影、广播、广告、游戏或动画)施予声音的音频后期制作工作。在以电影作为代表示例的情况下，存在音乐、对话和音效工作，以及用于对音乐、对话和音效进行最终混合的最终混合工作。

在工作室环境下捕获的音频内容在音质方面最佳，但是工作室环境仅在有限的环境和有限的时间内可用，并且需要大量的安装和维护成本。

随着集成电路技术的发展和3D音频技术的发展，音频捕获设备的形状因子倾向于小型化。近来，已使用具有数十厘米尺寸的音频捕获形状因子，并且还已研发具有几厘米尺寸的音频捕获形状因子。20cm尺寸的形状因子通常用于通过头戴式耳机等双耳渲染和再现音频内容。具有较小尺寸形状因子的捕获设备可通过使用定向麦克风来实现。

由于音频信号捕获设备的形状因子的尺寸小，所以增强了可携带性，并且用户容易拿取，因此可增加音频信号捕获设备的可用性。代表性地，捕获音频信号然后链接到便携式设备以对所捕获的音频信号进行混合、编辑和再现的操作是可能的。

然而，当形状因子的尺寸小时，音频信号捕获设备的可用性很好，但是麦克风之间的距离很短，因此，捕获信号输入对不同麦克风之间的相干性增加。

图2A和图2B示出根据本发明实施方式音频生成装置中的输入信道之间相干性增加的现象以及对渲染性能的影响。

图2A示出根据本发明实施方式音频生成装置中的输入声道信号之间的相干性增加的现象。

图2A的实施方式假设双麦克风即双输入声道的情况。

根据声像的位置与用于接收声像的麦克风的位置之间的关系，通过麦克风接收的音频信号具有独特的信号特征。因此，当音频信号是通过多个麦克风接收时，可通过分析通过麦克风中的每一个所接收的音频信号的时间延迟、相位和频率特性来检测声像的位置(距离、方位角和仰角)。

然而，即使当音频信号是通过多个麦克风被接收时，如果麦克风之间的距离很短，通过相应麦克风接收的音频信号的特性也会变得相似。因此，由于通过相应麦克风接收的音频信号(换言之，输入声道信号)的特性相似，因此输入声道信号之间的相干性(coherence)增加。

该现象随着麦克风之间的距离变短而更严重，从而更加加剧输入声道信号之间的相干性。另外，当输入声道信号之间的相干性高时，渲染性能恶化，从而影响再现性能。

图2B示出根据本发明实施方式当音频再现装置中的输入声道信号之间的相干性高时渲染性能恶化的现象。

在以头戴式耳机作为示例的情况下，当用户通过使用头戴式耳机等收听音频信号时，如果声像集中在头部内侧，即如果声音内化现象发生，那么当用户长时间收听音频信号时可能感到疲劳。因此，在使用头戴式耳机等的收听环境中，通过使用双耳房间传递函数(BRTF，binaural room transfer function)渲染的声像的外化是重要的技术问题。在该情况下，BRTF是频率域中的术语并且表示为时间域中的双耳房间脉冲响应(BRIR，binauralroom impulse response)。

然而，当输入声道信号之间的相干性高时，渲染性能恶化，因此，在使用头戴式耳机的收听环境中声音外化效果降低。

在以常规收听环境而不是头戴式耳机作为示例的情况下，为了供用户通过使用家庭影院系统(HTS)等收听音频信号，将声像定位在合适的位置是重要的技术问题。因此，输入信号根据输入声道与输出声道之间的关系而平移，并且声像通过使用头部相关传递函数(HRTF，head related transfer function)进行渲染来定位。在该情况下，HRTF也是频率域内的术语，并且表示为时间域内的头部相关脉冲响应(HRIR，head related impulseresponse)。

然而，当输入声道信号之间的相干性高时，渲染性能恶化，因此难以将声像定位在合适的位置处。

因此，为了防止渲染性能根据输入声道信号之间的相干性增大而恶化，需要降低输入声道信号之间的相干性的过程。

在图3中公开的实施方式中，用于生成和再现音频信号的系统300包括虚拟输入声道音频信号生成器310、声道分离器330和渲染器350。

虚拟输入声道音频信号生成器310通过使用经由N个麦克风输入的N个实际输入声道音频信号来生成N个虚拟输入声道音频信号。

在该情况下，可生成的虚拟输入声道布局可根据音频信号获取器的形状因子而变化。根据本发明实施方式，待生成的虚拟输入声道布局可由用户手动设置。根据本发明另一实施方式，待生成的虚拟输入声道布局可基于根据捕获设备的形状因子的实际输入声道布局来确定，并且可参考存储在存储器中的数据库。

如果实际输入声道布局与虚拟声道布局相同，则虚拟声道信号可以由实际输入声道信号代替。从虚拟输入声道音频信号生成器310输出的信号是包括N个虚拟输入声道音频信号的M个输入声道音频信号，其中，M是大于N的整数。

声道分离器330将从虚拟输入声道音频信号生成器发送来的M个输入声道音频信号进行声道分离。为了声道分离，执行通过对每个频带信号处理来计算相干性的过程以及降低具有高相干性的信号的高相干性的过程。声道分离将在下文进行更详细地描述。

渲染器350包括滤波单元(未示出)和平移单元(未示出)。

为了针对每个输出声道平移输入音频信号，平移单元计算和应用将应用于每个频带和每个声道的平移系数。音频信号上的平移是指对将应用于每个输出声道的信号的大小进行控制，以将声源渲染到两个输出声道之间的具体位置处。平移系数可由术语“平移增益”代替。

平移单元可根据添加到最近声道(add to the closest channel)方法对头顶声道信号的低频信号进行渲染，并且根据多声道平移(multi-channel panning)方法对高频信号进行渲染。根据多声道平移方法，将为待渲染到每个声道信号的声道区别设置的增益值应用于多声道音频信号中的每个声道的信号，因此，多声道音频信号中的每个声道的信号可渲染到至少一个水平声道中。已应用增益值的声道的信号可通过混合而添加，从而输出最终信号。

由于低频信号具有强烈的衍射性能，所以即使当根据多声道平移方法多声道音频信号的每个声道仅渲染到一个声道而不是渲染到若干声道中的每一个时，当用户收听最终输出信号时，最终输出信号也可能具有与通过将多声道音频信号的声道渲染到若干声道所获得的输出信号的音质相似的音质。因此，根据实施方式的再现立体声音频的音频再现装置300可根据添加到最近声道的方法通过渲染低频信号来防止音质恶化，其中，根据若干声道混合到一个输出声道可能发生该音质恶化。换言之，当若干声道没有成为一个声道时，根据声道信号之间的干扰，音质可能因放大或截止而恶化，因而可通过将一个声道混合到一个输出声道来防止音质的恶化。

根据添加到最近声道的方法，多声道音频信号的每个声道可渲染到待再现的声道之中的最近声道，而不是分别地渲染到若干声道。

滤波单元可根据位置校正经解码的音频信号的音调等，以及通过使用HRTF滤波器过滤输入音频信号。

滤波单元可根据频率通过不同的方法渲染已通过HRTF滤波器的头顶声道，其中，HRTF滤波器用于头顶声道的3D渲染。

不仅通过简单的路径差异，诸如，两耳之间的声级差(耳间声级差，ILD)和两耳之间的音频到达时间差(耳间时间差，ITD)，而且通过其中复杂化的路径特征(诸如，在头部表面上衍射和从耳廓反射)根据声音到达方向而发生变化的现象，HRTF滤波器使用户能够识别立体声音频。HRTF滤波器可通过改变音频信号的音质来处理包含在头顶声道中的音频信号，以使得立体声音频可被识别。

在下文中，将参照图4A至图7更详细地描述虚拟输入声道音频信号生成器310、声道分离器330和渲染器350的操作。

图4A和图4B示出根据本发明实施方式的虚拟输入声道音频信号生成器的操作。

根据图4A中公开的实施方式，音频生成装置通过使用四个麦克风来捕获音频信号，所述四个麦克风离中心具有相同的距离并且互相之间具有90°的角度。因此，在图4A公开的实施方式中，输入声道的数量N为4。在该情况下，所使用的麦克风是具有心形图案的定向麦克风，并且心形麦克风具有以下特征：侧部灵敏度相比于前部灵敏度降低了6分贝并且后部灵敏度几乎为0。

由于四个麦克风离中心具有相同的距离以及互相之间具有90°的角度，所以在该环境中捕获的四个声道输入音频信号的波束图案如图4A所示。

图4B示出五个输入声道音频信号，该输入声道音频信号包括基于图4A的所捕获的四个输入声道音频信号生成的虚拟麦克风信号(即，虚拟输入声道音频信号)。换言之，在图4B公开的实施方式中，虚拟输入声道的数量M为5。

根据图4B公开的实施方式，虚拟麦克风信号是通过对由四个麦克风所捕获的四个声道输入信号进行加权求和来生成。在该情况下，待应用于加权和(weighted sum)的权重基于输入声道的布局和再现布局来确定。

如图4A所示，作为具有波束图案的四个输入声道信号的加权和的结果，前右声道(M＝1)、环绕右声道(M＝2)、环绕左声道(M＝3)、前左声道(M＝4)和中央声道(M＝5)可配置为满足如图4B所示的5.1声道布局(低音扬声器声道未显示)。

图5是根据本发明实施方式的声道分离器的具体框图。

根据图5中公开的实施方式的声道分离器500包括归一化能量(normalizedenergy)获取器510、能量指数(EI)获取器520、EI应用单元530以及增益应用单元540和550。

归一化能量获取器510接收M个输入声道信号X₁(f),X₂(f),…,X_M(f)，并且获取对于每个输入声道信号的每个频带的归一化能量E{X₁(f)},E{X₂(f)},…,E{X_M(f)}。在该情况下，每个输入声道信号的归一化能量E{X_i(f)}由公式1确定。

换言之，每个输入声道信号的归一化能量E{X_i(f)}对应于第i个输入声道信号在对应频带中占用的能量与在所有输入声道信号中占用的能量的比率。

EI获取器520通过计算用于每个声道、用于每个频带的能量来获取在所有声道之中具有最大能量的声道的指数。在该情况下，能量指数EI由公式2确定。

EI(f)＝N/(N-1)×[1-max(E{X_1(f)}，E{X_2(f)}，...，E{X_M(f)})] (2)

EI应用单元530基于预定阈值生成M个高度相干的声道信号和M个不相干的信号。分别地，增益应用单元540将从EI应用单元530接收的高度相干的信号乘以增益Ei，以及增益应用单元550将从EI应用单元接收的不相干的信号乘以增益(1-Ei)。

此后，将已反映增益的M个高度相干的声道信号和M个不相干的信号相加以降低声道相干性，从而改善渲染性能。

图6是根据本发明实施方式虚拟输入声道信号生成器和声道分离器是集成的配置的框图。

图6是用于描述针对两个不同输入信号使用中央信号分离技术来分离三个位置的声像的方法的框图。

具体地，图6中公开的实施方式是由左(FL)输入声道信号和右(FR)输入声道信号生成虚拟中央(C)输入声道信号以及对左输入声道信号、中央输入声道信号和右输入声道信号进行声道分离的实施方式。参照图6，声像分离器600包括域转换器610和620、相干系数获取器630、中央信号获取器640、逆域转换器650、信号减法器660和661。

即使声音是由相同的声源生成，所采集的信号也可能根据麦克风的位置而发生改变。通常，由于用于生成语音信号的声源(诸如，歌手或广播员)位于舞台中央处，所以基于由位于舞台中央处的声源生成的语音信号而生成的立体声信号包括相同的左信号和右信号。然而，当声源没有位于舞台中央处时，即使对于由相同的声源生成的信号，由于到达两个麦克风的声音的强度和到达时间之间存在差异，所以由麦克风采集的信号彼此不同，因此，左立体声信号和右立体声信号互也彼此不同。

在本说明书中，除了语音信号之外，还将立体声信号中共同包括的一个信号限定为中央信号，以及通过从立体声信号中减去中央信号所获得的信号称为环境立体声信号(环境左信号和环境右信号)。

域转换器610和620接收立体声信号L和R。域转换器610和620转换所接收的立体声信号的域。域转换器610和620通过使用诸如快速傅里叶变换(FFT)的算法将立体声信号转换到时间-频率域的立体声信号。时间-频率域用来表示时间和频率两方面的变化。信号可根据时间和频率值分为多个帧，并且每个帧中的信号可由每个时隙中的频率子带值表示。

相干系数获取器630通过使用由域转换器610和620转换到时间-频率域的立体声信号来计算相干系数。相干系数获取器630计算第一系数和第二系数，并且通过使用第一系数和第二系数来计算相干系数，其中，第一系数指示立体声信号之间的相干性，第二系数指示两个信号之间的相似性。

两个信号之间的相干性是指两个信号的相干程度，并且时间-频率域中的第一系数可由公式3表示。

其中，n表示时间值，即时隙值，以及k表示频带值。公式3的分母是用于将第一系数归一化的因子。第一系数具有大于或等于0且小于或等于1的实数值。

在公式3中，可如公式4中通过使用期望函数来获得。

其中，X_i和X_j表示由时间-频率域中的复数表示的立体声信号，以及表示X_j的共轭复数。

期望函数是用来通过考虑信号的过去值来获得当前信号平均值的概率统计函数。因此，当X_i与的乘积应用于期望函数时，通过考虑两个过去信号X_i和X_j之间的相干性的统计值来获得两个当前信号X_i和X_j之间的相干性。由于公式4需要大量的计算量，所以可通过使用公式5获得公式4的近似值。

在公式5中，第一项是指紧接在当前帧之前的帧(即，具有第(n-1)个时隙值和第k个频带值的帧)中的立体声信号的相干性。换言之，公式5是指当考虑当前帧中的信号的相干性时考虑在当前帧之前的过去帧中的信号的相干性；并且这可通过以下来实现：使用概率统计函数来预测当前立体声信号之间的相干性以作为基于统计的概率、以及预测过去立体声信号之间的相干性。

在公式5中，常量1-λ和λ在各项中分别相乘，并且这些常量分别用于将恒定权重赋予过去平均值和当前值。赋予第一项的常量1-λ的值大表示当前信号极大地受过去信号的影响。

相干系数获取器630通过使用公式4或公式5获得公式3。相干系数获取器630通过使用公式3来计算指示两个信号之间的相干性的第一系数。

相干系数获取器630计算指示两个信号之间的相似性的第二系数。第二系数指示两个信号之间的相似性，并且时间-频率域中的第二系数可由公式6表示。

其中，n表示时间值，即时隙值；以及k表示频带值。公式6的分母是用于将第二系数归一化的因子。第二系数具有大于或等于0且小于或等于1的实数值。

在公式6中，Ψ_ij(n，k)可由公式7表示。

与公式4或公式5中当获得第一系数时通过使用概率统计函数考虑过去信号值不同，在公式7中，当获得Ψ_ij(n,k)时不考虑过去信号值。换言之，当考虑两个信号之间的相似性时，相干系数获取器630仅考虑当前帧中的两个信号之间的相似性。

相干系数获取器630通过使用公式7来获得公式6，并且通过使用公式6获得第二系数。

在音频工程学会杂志(Journal of Audio Engineering Society)的2004年7月/8月第7/8期第52卷的作者为Carlos Avendano的“A frequency-domain approach tomultichannel upmix”中，公开了通过使用公式3来获得两个信号之间的相干性以及通过使用公式6来获得两个信号之间的相似性。

相干系数获取器630通过使用第一系数和第二系数获得相干系数Δ。相干系数Δ通过使用公式8来获得。

Δ(n，k)＝φ(n，k)ψ(n，k) (8)

如公式8所示，本发明中的相干系数是通过考虑两个信号之间的相似性和相干性两者所获得的值。由于第一系数和第二系数均是大于或等于0且小于或等于1的实数，所以相干系数也具有大于或等于0且小于或等于1的实数值。

相干系数获取器630获得相干系数，并将所获得的相干系数发送到中央信号获取器640。中央信号获取器640通过使用相干系数和立体声信号从立体声信号中提取中央信号。中央信号获取器640通过获得立体声信号的算术平均值以及将算术平均值乘以相干系数来生成中央信号。由中央信号获取器640获得的中央信号可由公式9表示。

其中，X₁(n，k)和X₂(n，k)分别表示具有时间值n和频率值k的帧中的左信号和右信号。

中央信号获取器640将如公式9中所生成的中央信号发送到逆域转换器650。逆域转换器650通过使用诸如反向FFT(IFFT)的算法将时间-频率域中生成的中央信号转换成时间域中的中央信号。逆域转换器650将转换到时间域中的中央信号发送到信号减法器660和661中。

信号减法器660和661获得时间域中立体声信号与中央信号之间的差异。信号减法器660和661通过从左信号中减去中央信号来获得环境左信号，并且通过从右信号中减去中央信号来生成环境右信号。

如上所述，根据本发明实施方式，相干系数获取器630在考虑两个信号之间的过去相干性的情况下获得指示当前时间点处左信号与右信号之间的相干性的第一系数，并且获得指示当前时间点处左信号与右信号之间的相似性的第二系数。另外，根据本发明实施方式，相干系数获取器630通过使用第一系数和第二系数两者来生成相干系数，并且中央信号获取器640通过使用相干系数从立体声信号中提取中央信号。另外，根据本发明实施方式，由于相干系数是在时间-频率域中而不是时间域中获得，因此与仅根据时间相比较，根据时间和频率两者可更准确地获得相干系数。

当输入声道的数量大于两个声道时，输入声道信号可绑定在双声道基础上；以及可对输入声道信号多次应用中央声道信号分离技术；或者可对输入声道向下混合，然后对经向下混合的输入声道应用中央声道分离技术以执行将声道分离到多个位置上。

参照图7，声像分离器700包括域转换器710和720、相干系数获取器730、中央信号获取器740、逆域转换器750、信号减法器760和761、平移指数获取器770、增益指数获取器780和环境信号分离器790。

图7中公开的实施方式假设针对两个不同的输入信号执行到N个不同声像位置的声像分离。除了图6中示出的实施方式之外，在图7示出的实施方式中，当输入声道的数量大于两个声道时，输入声道信号也可在双声道基础上进行界定；以及可对输入声道信号多次应用中央声道信号分离技术；或者还可对输入声道向下混合，然后可对向下混合的输入声道应用中央声道分离技术以执行到多个位置的声道分离。

从立体声信号L和R中获取中央信号的过程与图6中公开的实施方式中的过程相同。

平移指数获取器770获取用于将双声道环境信号分离成2×N声道环境信号以提取中央信号的平移指数Pan_Index_ij(n，k)。平移指数由公式10确定。

其中，由公式3和公式4确定，以及Pan_Index_ij(n，k)具有介于-1与1之间的范围。

增益指数获取器780通过将平移指数代入到预定增益表来获取待应用到第I个位置的声像的每个增益指数Δ₁(n，k)。增益指数由公式11确定。

环境信号分离器790基于L和R环境信号的频率域信号以及基于增益指数来获取第I个位置处的环境信号。待应用于环境信号的增益以及在第I个位置处获取的L和R环境信号由公式12和13确定，以及λ_G是遗忘因子(forgetting factor)并具有在0与1之间的值。

Gain_I(n，k)＝(1-λ_G)Δ_I(n-1，k)+λ_GΔ_I(n，k) (12)

其中，X_IL(n，k)和X_IR(n，k)表示在第I个位置处的频率域的L和R环境信号，频率域L环境信号和R环境信号已进行声音-图像-分离，并且最终分别从L和R环境信号中获取。

将以如上所述方式获取的2×N环境信号发送到逆域转换器750，以及逆域转换器750通过使用诸如IFFT的算法将中央信号和2×N环境信号转换成时间域中的中央信号和2×N环境信号。作为逆域转换的结果，可获取在时间域中分成2×N+1声道的时间域信号。

虽然仅参照图6和图7描述了两个输入声道(即，立体声输入)的情况，但是相同的算法可应用于更多输入声道数量的情况。

图8A和图8B示出根据本发明实施方式生成音频的方法的流程图和再现音频的方法的流程图。图8A和图8B中公开的实施方式假设通过音频再现装置来执行生成虚拟声道和对声像进行声道分离的上述过程。

图8A是根据本发明实施方式生成音频的方法的流程图。

根据图8A中公开的实施方式，音频生成装置100在操作810a中从N个麦克风接收输入音频信号，并且在操作820a中生成与从相应麦克风接收的信号相对应的N个输入声道信号。

由于虚拟声道生成和声像分离是由音频再现装置300执行，所以音频生成装置100在操作830a中将所生成的N个声道音频信号和与N个声道音频信号有关的信息发送到音频再现装置300中。在该情况下，音频信号和与音频信号有关的信息基于合适的编解码器编码成比特流并且被发送，并且与音频信号有关的信息可配置为由编解码器限定的元数据且被编码成比特流。

如果编解码器支持对象音频信号，则音频信号可包括对象音频信号。在本文中，与N个声道音频信号有关的信息可包括与每个声道信号将再现的位置有关的信息，并且在该情况下，与每个声道信号将再现的位置有关的信息可沿时间变化。

例如，当鸟鸣声实现为对象音频信号时，鸟鸣声将再现的位置沿着鸟移动的路径变化，因此，将再现声道信号的位置沿时间变化。

图8B是根据本发明实施方式再现音频的方法的流程图。

根据图8B中公开的实施方式，音频再现装置300在操作840b中接收其中编码有N个音频信号和与N个声道音频信号有关的信息的比特流，并且通过使用在编码时使用的编解码器对相应的比特流解码。

在操作850b中，音频再现装置300基于经解码的N个声道音频信号和对象音频信号生成M个虚拟声道信号。M是大于N的整数，并且M个虚拟声道信号可通过对N个声道信号进行加权求和来生成。在该情况下，待应用于加权和的权重基于输入声道的布局和再现布局确定。

生成虚拟声道的详细方法已参照图5进行了描述，因此省略其详细描述。

随着生成的虚拟声道的数量更多，声道相干性可能更高，或者当声道信号之间的相干性由于原始声道邻近于彼此而很高时，再现性能可能恶化。因此，在操作860b中，音频再现装置300执行声道分离以降低信号之间的相干性。

对声像进行声道分离的详细方法已参照图5进行了描述，因此省略其详细描述。

在操作870b中，音频再现装置300通过使用声像已进行声道分离的信号来执行渲染。音频渲染是将输入音频信号转换成输出音频信号以使得输入音频信号可根据输出系统再现的过程，并且如果输入声道的数量与输出声道的数量不相同，则音频渲染包括向上混合过程或向下混合过程。以下参照图12等描述渲染方法。

图9A和图9B示出根据本发明另一实施方式生成音频的方法的流程图和再现音频的方法的流程图。图9A和图9B中公开的实施方式假设通过音频生成装置来执行生成虚拟声道和对声像进行声道分离的上述过程。

图9A是根据本发明另一实施方式生成音频的方法的流程图。

根据图9A中公开的实施方式，音频生成装置100在操作910a中从N个麦克风接收输入音频信号，以及在操作920a中生成与从相应麦克风中接收的信号相对应的N个输入声道信号。

音频生成装置100在操作930a中基于N个声道音频信号和对象音频信号生成M个虚拟声道音频信号。M是大于N的整数，并且M个虚拟声道音频信号可通过对N个声道音频信号进行加权求和来生成。在该情况下，待应用于加权和的权重基于输入声道的布局和再现布局来确定。

随着生成虚拟声道的数量更多，声道相干性可能更高，或者当声道信号之间的相干性由于原始声道邻近于彼此而很高时，再现性能可能恶化。因此，音频生成装置100在操作940a中执行声道分离以降低信号之间的相干性。

音频生成装置100在操作950a中将生成的M个声道音频信号和与M个声道音频信号有关的信息发送到音频再现装置300。在该情况下，音频信号和与音频信号有关的信息基于合适的编解码器编码成比特流并被发送，并且与音频信号有关的信息可配置为由编解码器限定的元数据并编码成比特流。

如果编解码器支持对象音频信号，则音频信号可包括对象音频信号。在本文中，与M个声道音频信号有关的信息可包括与每个信号将再现的位置有关的信息，并且在该情况下，与每个声道信号将再现的位置有关的信息可能沿时间变化。

例如，当鸟鸣声实现为对象音频信号时，鸟鸣声将再现的位置沿着鸟移动的路径变化，因此，声道信号将再现的位置沿时间变化。

图9B是根据本发明另一实施方式的再现音频的方法的流程图。

根据图9B中公开的实施方式，音频再现装置300在操作960b中接收编码有M个声道音频信号和与M个声道音频信号有关的信息的比特流，并且通过使用在编码中使用的编解码器对相应的比特流解码。

音频再现装置300在操作970b中通过使用经解码的M个声道信号执行渲染。音频渲染是将输入音频信号转换成输出音频信号以使得输入音频信号可根据输出系统再现的过程；并且如果输入声道的数量与输出声道的数量不相同时，则音频渲染包括向上混合过程或向下混合过程。以下参照图12等描述渲染方法。

图10A和图10B示出根据本发明另一实施方式生成音频的方法的流程图和再现音频的方法的流程图。图10A和图10B中公开的实施方式假设通过音频生成装置来执行生成虚拟声道的过程以及通过音频再现装置来执行对声像进行声道分离的过程。

图10A是根据本发明另一实施方式生成音频的方法的流程图。

根据图10A中公开的实施方式，音频生成装置100在操作1010a中从N个麦克风接收输入音频信号，以及在操作1020a中生成与从相应麦克风接收的信号相对应的N个输入声道信号。

音频生成装置100在操作1030a中基于N个声道音频信号和对象信号生成M个虚拟声道信号。M是大于N的整数，并且可通过对N个声道音频信号进行加权求和生成M个虚拟声道信号。在该情况下，待应用于加权和的权重是基于输入声道的布局和再现布局确定。

音频生成装置100在操作1040a中将生成的M个声道音频信号和与M个声道音频信号有关的信息发送到音频再现装置300。在该情况下，音频信号和与音频信号有关的信息基于合适的编解码器编码成比特流并被发送，并且与音频信号有关的信息可配置为由编解码器限定的元数据且编码成比特流。

如果编解码器支持对象音频信号，则音频信号可包括对象音频信号。在本文中，与M个声道音频信号有关的信息可包括与每个声道信号将再现的位置有关的信息，并且在该情况下，与每个声道信号将再现的位置有关的信息可能沿时间变化。

图10B是根据本发明另一实施方式再现音频的方法的流程图。

根据图10B中公开的实施方式，音频再现装置300在操作1050b中接收编码有M个声道音频信号和与M个声道音频信号有关的信息的比特流，并且通过使用在编码中使用的编解码器对相应的比特流解码。

随着生成虚拟声道的数量更多，声道相干性可能更高，或者当声道信号之间的相干性由于原始声道邻近于彼此而很高时，再现性能可能恶化。因此，音频再现装置300在操作1060b中执行声道分离以降低信号之间的相干性。

再现装置300在操作1070b中通过使用声像已进行声道分离的声像执行渲染。音频渲染是将输入音频信号转换成输出音频信号以使得输入音频信号可根据输出系统再现的过程；并且如果输入声道的数量与输出声道的数量不相同，则音频渲染包括向上混合(up-mixing)过程或向下混合(down-mixing)过程。以下参照图13和其他描述渲染方法。

图11A和图11B示出能够在360°范围内水平再现音频信号的音频再现系统。

随着技术发展和3D内容方面的需求增大，对于能够再现3D内容的设备和系统的需求增加。3D内容可包括与3D空间有关的所有信息。用户可在垂直方向上识别空间感的范围是有限的，但是用户可利用相同的灵敏度在360°的整个范围内在水平方向识别空间感。

因此，近来发展的3D内容再现系统具有这样的环境，在所述环境中，水平生成的3D图像和音频内容可在360°范围内再现。

图11A示出头戴式显示器(HMD)。HMD是指头部配戴类型的显示设备。HMD通常用来实现虚拟现实(VR，virtual reality)或增强现实(AR，augmented reality)。

VR是人工生成特定环境或情况以使得用户与实际环绕的情况和环境交互的技术。AR是将虚拟对象与用户用肉眼识别的现实重叠以使得用户观看虚拟对象和现实的技术。由于AR将具有附加信息的虚拟世界与现实世界实时混合以使得用户观看单个图像，所以AR还被称为混合现实(MR，mixed reality)。

为了实现VR和AR，使用围绕人体等穿戴的可穿戴设备，以及该设备的代表性系统是HMD。

HMD具有定位在接近用户眼睛处的显示器，因此，当图像通过使用HMD显示时，用户可感受比较高的沉浸感。另外，可用小型设备来实现大屏幕，并且可再现3D或4D内容。

在本文中，图像信号通过围绕头部佩戴的HMD来再现，以及音频信号可通过HMD中配备的头戴式耳机或分开的头戴式耳机来再现。替代地，图像信号通过HMD再现，以及音频信号可通过常规音频再现系统再现。

HMD可配置成其中包括控制器和显示器的集成类型，或配置有单独的移动终端(诸如，智能手机)以使得移动终端作为显示器、控制器等进行操作。

图11B示出家庭影院系统(Home Theater System(HTS))。

HTS是用于在家以高图像质量实现图像和以高音质实现音频以使得用户可以真实感欣赏电影的系统，并且由于HTS包括用于实现大屏幕的图像显示器和用于高音质的环绕音频系统，所以HTS对应于安装在家的最常用的多声道音频输出系统。

存在用于音频输出系统的各种多声道标准，诸如22.2声道、7.1声道和5.1声道，但是作为家影院标准供应最多的输出声道的布局是5.1声道或5.0声道，所述5.1声道或5.0声道包括中央声道、左声道、右声道、环绕左声道和环绕右声道以及根据情况另外包括低音扬声器声道。

为了再现3D内容，可应用控制距离和方向的技术。当内容再现距离很短时，以广角显示相对窄的区域的内容；以及当内容再现距离很长时，显示相对宽的区域的内容。替代地，改变内容再现方向，可显示与经改变的方向相对应的区域的内容。

音频信号可根据待显示的图像内容的再现距离和方向进行控制，并且当内容再现距离比以前更短时，音频内容的容量(增益)增加；而当内容再现距离比以前更长时，音频内容的容量(增益)减少。替代地，当内容再现方向改变时，音频可基于所改变的方向进行渲染以再现与变化的再现角度相对应的音频内容。

在该情况下，内容再现距离和再现方向可基于用户输入来确定，或基于用户的运动(具体地，头部的移动和旋转)来确定。

图12示出根据本发明实施方式3D音频再现装置中的3D音频渲染器1200的示意性配置。

为了再现3D立体声音频，声像应通过立体声音频渲染定位在3D空间中。如参照图3所描述的那样，立体声音频渲染器包括滤波和平移操作。

为了针对每个输出声道平移输入音频信号，平移操作包括针对每个频带和每个声道计算和应用待运的平移系数。为了将声源渲染到两个输出声道之间的具体位置，音频信号上的平移是指控制待应用于每个输出声道的信号的大小。

滤波包括根据位置校正经解码的音频信号的音调等，以及通过使用HRTF滤波器或BRTF滤波器对输入音频信号滤波。

3D音频渲染器1200接收包括声道音频信号和对象音频信号中的至少一个的输入音频信号1210，并且将包括经渲染的声道音频信号和对象音频信号中的至少一个的输出音频信号1250发送到输出单元。在本文中，可作为输入另外接收单独的附加信息1230，并且附加信息可包括输入音频信号的每次再现位置信息、每个对象的语言信息等。

当与用户的头部运动有关的信息已知时，附加信息中可另外包括基于用户的头部运动的头部位置、头部旋转角度等。替代地，附加信息中可另外包括经校正的输入音频信号的每次再现位置信息，其中，所述校正的输入音频信号已经反映了基于用户的头部运动的头部位置、头部旋转角度等。

图13是用于描述根据本发明实施方式利用低的计算量使声音外化的渲染方法的框图。

如上所述，当用户通过头戴式耳机或耳机收听音频内容时，存在声音内化现象，即在用户的头部内识别声像。该现象降低音频的空间感和真实感，并且甚至影响声像定位性能。为了解决这种声音内化现象，应用使声像集中在头部外的声音外化方案。

对于声音外化，通过使用BRTF经由信号处理来模拟回声分量，其中，BRTF是HRTF的延伸概念。然而，用于声音外化的BRIR被用来模拟有限脉冲响应(FIR，finite impulseresponse)滤波器形式的回声，因此，通常使用多阶的滤波器阶数。

对于BRIR，使用与用于每个输入声道的左耳/右耳相对应的长阶数BRIR滤波系数。因此，对于实时声音外化，需要与“声道的数量×双耳房间滤波系数×2”对应的滤波系数，并且在该情况下，计算量通常与声道的数量和双耳房间滤波系数成比例。

因此，当在22.2声道等情况中输入声道的数量大时，当单独支持对象输入声道时等，换言之，当输入声道的数量大时，用于声音外化的计算量增加。因此，需要即使在BRIR滤波系数增大时也会防止由于计算量的增大而导致性能降低的有效计算方法。

根据本发明实施方式，渲染器1300的输入可以是经解码的对象音频信号和声道音频信号中的至少一个，以及输出可以是经渲染的对象音频信号和声道音频信号中的至少一个。

根据本发明实施方式，在图13中公开的渲染器1300包括域转换器1310、HRTF选择器1320、传递函数应用单元1330和1340以及逆域转换器1350和1360。图13中公开的本发明实施方式假设对象音频信号是通过应用低计算量的BRTF来进行渲染。

域转换器1310执行与图6和图7中的域转换器的操作相似的操作，并且转换输入第一对象信号的域。域转换器1310通过使用诸如FFT的算法将立体声信号转换成时间-频率域中的立体声信号。时间-频率域用来表示时间和频率两个方面的变化。信号可根据时间和频率值分为多个帧，并且每个帧中的信号可由每个时隙中的频率子带值表示。

HRTF选择器1320将基于用户的头部运动从通过附加信息输入的HRTF数据库中选出的实时HRTF传送到传递函数应用单元1330和1340。

当用户收听头部外的真实声源时，如果发生头部运动，则声源和两耳的相对位置发生改变，相应地传输特性发生变化。因此，选择与用户在具体时间点处的头部运动和位置相对应的方向的HRTF，即，“实时HRTF”。

表1示出根据实时头部运动的HRTF指数表。

水平用户头部运动角度(度)	90°声像的HRTF目标角度(度)
		0	90
30	60
		60	30
90	0
		120	-30
150	-60
		180	-90
210	-120
		240	-150
270	-180
		300	-210

表1

在可连接到实时头部运动的声音外化方法中，声像将被渲染的位置和用户的头部运动可能得到补偿和外化。根据本发明实施方式，可作为附加信息接收用户的头部运动位置信息；而根据本发明另一实施方式，可作为附加信息接收用户的头部运动位置信息和声像将被渲染的位置两者。

表1示出当期望执行声音外化渲染以使得声像在具有90°水平左方位角和0°仰角的位置处再现时、在用户的头部已经旋转时所校正的HRTF。如上所述，当待反映到输入附加信息的HRTF预先存储为带有指数的表格时，有可能进行实时头部运动校正。

另外，即使对于不同于如上所述的头戴式耳机渲染的情况中，针对音调校正所可采集的HRTF可根据情况用于立体声音频渲染。

在该情况下，HRTF数据库可预先具有通过将用于每个再现位置的HRIR域转换到频率域中的HRIR所获得的值，或者HRTF数据库可通过诸如主成分分析(PCA，principalcomponent analysis)或零极点建模(pole-zero modeling)的方法来建模和获取以减少数据大小。

由于图13中公开的实施方式是用于将一个输入声道信号或一个对象信号渲染到两个头戴式耳机输出声道(左声道和右声道)的渲染器，因此需要两个传递函数应用单元1330和1340。传递函数应用单元1330和1340将传递函数应用至从域转换器1310接收的音频信号，并且还包括HRTF应用单元1331和1341以及BRTF应用单元1332和1342。

由于用于左输出声道的传递函数应用单元1330的操作与用于右输出声道的传递函数应用单元1340的操作相同，因此基于用于左输出声道的传递函数应用单元1330进行描述。

传递函数应用单元1330的HRTF应用单元1331将已从HRTF选择器1320发送出的左输出声道的实时HRTF应用到从域转换器1310接收的音频信号。传递函数应用单元1330的BRTF应用单元1332应用左输出声道的BRTF。在该情况下，BRTF用作固定值而不是实时变化值。由于空间特性应用于与回声分量对应的BRTF，所以与沿时间的改变相比，回声的长度和滤波器阶数的数量会更多地影响渲染性能。

由HRTF应用单元1331应用的左输出声道的实时HRTF与通过域转换到频率域中所获得的值(早期HRTF)对应、与在原始HRTF之中在预定参考时间之前的时间响应(早期HRIR)对应。另外，由BRTF应用单元1332应用的左输出声道的BRTF与通过域转换到频率域中所获得的值(后期BRTF)对应、与在原始BRTF之中在预定参考时间之后的时间响应(后期BRIR)对应。

换言之，由传递函数应用单元1330应用的传递函数是通过域转换到频率域中所获得的传递函数、是在预定参考时间之前已应用HRIR和在预定参考时间之后已应用BRIR的脉冲响应。

通过信号加法器1333将已由HRTF应用单元1331应用有实时HRTF的音频信号和已由BRTF应用单元1332应用有BRTF的音频信号相加并且发送到逆域转换器1350中。

逆域转换器1350通过将已转换成频率域中的信号再次转换成时间域中的信号来生成左声道输出信号。

用于右输出声道的传递函数应用单元1340、用于右输出声道的信号加法器1343和用于右输出声道的逆域转换器1360的操作与用于左输出声道的那些单元的操作相同，因此省略其详细描述。

通过集成HRIR和BRIR所获得的脉冲响应对应于长阶数滤波器，并且考虑到块卷积，可如图14所示执行通过在预定参考时间之前的实时HRTF的数据更新来反映位置沿时间改变的声音外化方案，其中，在块卷积中通过将长阶数滤波器系数划分成多个块来应用卷积。块卷积是用于对具有长序列的信号进行有效卷积处理的操作方法，并且块卷积与重叠相加(OLA，overlap add)方法对应。

图14示出根据本发明实施方式在传递函数应用单元1400中用于低计算量声音外化的BRIR-HRIR渲染的详细操作方法。

1410表示BRIR-HRIR集成滤波器系数F，第一列中的箭头指示实时HRTF的反映，以及一列具有N个元素。换言之，1410的第一列1411(F(1),F(2),…,F(N))对应于已反映了实时HRTF的滤波器系数，以及第二列1412(F(N+1),F(N+2),…,F(2N))和下一列对应于已反映了用于渲染回声的BRTF的滤波器系数。

1420表示频率域内的输入，换言之，信号X通过域转换器1310域转换到频率域内。输入信号1420的第一列1421(X(1),X(2),…,X(N))对应于当前时间处的频率输入样本，以及第二列1422(X(N+1),X(N+2),…,X(2N))和下一列对应于在当前时间之前已经输入的数据。

如上所述配置的滤波器系数1410和输入1420进行逐列相乘(1430)。即，滤波器系数的第一列1411乘以输入的第一列1421(1431,F(1)X(1),F(2)X(2),…,F(N)X(N))，以及滤波器系数的第二列1412乘以输入的第二列1422(1432,F(N+1)X(N+1),F(N+2)X(N+2),…,F(2N)X(2N))。当逐列乘积操作完成时，各行的因子相加以生成频率域中的N个输出信号1440。换言之，N个输出信号的第n个样本是∑F(iN+n)X(iN+n)。

由于用于右输出声道的传递函数应用单元1340的操作与用于左输出声道的传递函数应用单元1330的操作相同，所以它的详细描述。

图15是根据本发明实施方式用于渲染多个声道输入和多个对象输入的装置1500的框图。

在图13中，已经假设渲染一个对象输入的情况。如果假设输入N个声道音频信号和M个对象音频信号，则图13可扩展至图15。然而，即使在图15中，由于对左输出声道的处理与对右输出声道的处理相同，因此仅以用于左输出声道的渲染设备为基础进行描述。

当输入N个声道音频信号和M个对象音频信号时，域转换器1510通过使用诸如FFT的算法将每个输入信号转换成时间-频率中的立体声信号。时间-频率域用来表示时间和频率两方面的变化。信号可根据时间和频率值分为多个帧，并且每个帧中的信号可由每个时隙中的频率子带值表示。

在图15的实施方式中，省略与HRTF选择器和附加信息有关的内容，但是该内容可如图13中的那样来实现，即基于输入附加信息选择HRTF，其中，对于声道音频信号，可基于用户的头部运动和位置选择HRTF，而对于对象音频信号，除了用户的头部运动和位置之外，还可另外考虑对象音频信号的再现位置。

传递函数应用单元1530将对应传递函数应用到(N+M)个经域转换的输入信号中的每一个。在该情况下，对于与(N+M)个输入信号中的每一个对应的传递函数，HRTF应用单元1531_1至1531_M可在预定参考时间之前应用独特的HRTF(早期HRTF)，以及BRTF应用单元1533可在预定参考时间之后应用相同的BRTF(后期BRTF)。

在如上所述的该实施例中，与对(N+M)个输入信号中的所有应用不同的传递函数相比较，减少了计算量，并且头戴式耳机渲染性能的实际恶化不会大量发生。

通过信号加法器1534将已由传递函数应用单元1530应用相应传递函数的(N+M)个输入信号相加并且发送到逆域转换器1550中。逆域转换器1550通过将已转换成频率域中的信号再次转换成时间域中的信号来生成左声道输出信号。

用于右输出声道的传递函数应用单元和用于右输出声道的逆域转换器的操作与用于左输出声道的那些单元的操作相同，因此省略它们的详细描述。

图16示出图6和图13的集成，以及图16中公开的实施方式将通过从具有两个输入声道(N＝2)的音频信号中分离中央声道来生成左右环境声道，然后对经分离的中央声道和所生成的左右环境声道(M＝3)进行BRIR-HRIR渲染。

在该情况下，取代通过使用与输入信号的数量(N＝2)相同的传递函数，通过使用与经声道分离的信号的数量(M＝3)相同的HRTF可更清楚地渲染声像。

尽管在图16中公开的实施方式中，仅有中央声道与左右输入声道分离，但是本实施方式不受此限制，并且对本领域普通技术人员显而易见的是，可生成更多数量的虚拟声道以及可对生成的虚拟声道中的每一个进行渲染。

图17示出图6中所示的声道分离器和渲染器的集成，以及图17中公开的实施方式将通过从具有两个输入声道(N＝2)的音频信号中分离中央声道来生成左右环境声道，然后对分离的中央声道和生成的左右环境声道(M＝3)进行平移。在该情况下，平移增益基于每个输入声道和输出声道的布局来确定。

虽然在图17中公开的实施方式中，仅有中央声道与左右输入声道分离，但是本实施方式不受此限制，并且对本领域普通技术人员显而易见的是，可生成更多数量的虚拟声道以及可对生成的虚拟声道中的每一个进行渲染。

在该情况下，如上文参照图12等所描述，如果为3D音频渲染所需，则可通过使用HRTF(未示出)另外执行音调校正滤波。另外，如果输出声道的数量与输入(虚拟)声道的数量不相同，则可另外包括向上混合器或向下混合器(未示出)。

根据图18中公开的实施方式，除用于将输入声道信号转换成输出声道信号的输入输出信号转换器1810之外，渲染器1800还包括布局转换器1830。

布局转换器1830接收与L输出扬声器的安装位置等信息有关的输出扬声器布局信息以及接收用户的头部位置信息。布局转换器1830基于用户的头部位置信息转换输出扬声器的布局。

例如，假设两个输出扬声器的安装位置是左右15°(即，+15°和-15°)以及用户向右转动头部10°(即，+10°)。在该情况下，输出扬声器的布局应分别从原始+15°和-15°改变到+25°和-5°。

输入输出信号转换器1810从布局转换器中接收转换的输出声道布局信息，并且基于所接收的输出声道布局信息转换(渲染)输入输出信号。在该情况下，根据图18中所示的实施方式，由于输入声道的数量M为5以及输出声道的数量L为2，因此输入输出信号转换器包括向下混合过程。

在图19中，根据图18中公开的实施方式假设输入声道的数量M为5，输出声道的数量L为2，两个输出扬声器的安装位置是左右15°(即，+15°和-15°)，以及用户向右转动头部10°(即，+10°)。

图19A示出在用户的头部位置信息反映之前的输入和输出声道位置。输入声道的数量M为5，以及输入声道包括中央声道(0)、右声道(+30)、左声道(-30)、环绕右声道(+110)和环绕左声道(-110)。输出声道的数量L为2，以及输出扬声器位于左右15°，即，+15°和-15°。

图19B示出在输出声道的位置通过反映用户的头部位置信息而改变之后的输入和输出声道位置。输入声道的位置不改变，以及输出声道的改变后的位置是+25°和-5°。

在该情况下，左右输出声道信号由公式14确定。

y_L＝a×x_-30+(1-a)×x₀

y_R＝b×x₀+(1-b)×x₊₃₀ (14)

其中，a和b是基于输入声道与输出声道之间的距离或方位角差异所确定的比例常数。

图20示出补偿用户头部追踪延迟的方法。用户头部追踪延迟基于用户的头部运动和头部追踪传感器的延迟确定。

在图20中，当用户逆时针方向旋转头部时，即使用户实际上旋转头部1，由于传感器的延迟，头部追踪传感器可感测方向2作为用户的头部方向。

在该情况下，头部角速度根据用户的头部移动速度计算，以及补偿角度Φ被补偿或位置通过所计算的头部角速度乘以头部追踪传感器的延迟dt补偿到1。插入角度或位置可基于补偿角度或位置确定，以及音频信号可基于插入角度或位置进行渲染。考虑如公式15的补偿角度进行了布置。

补偿角度Φ＝头部角速度x头部追踪传感器延迟dt (15)

当使用该方法时，可对由于传感器延迟而可能发生的角度或位置不匹配进行补偿。

当计算速度时，可使用速度感传器，以及当使用加速度计时，速度可通过将加速度沿时间集成获得。在图21的实施方式中，对于已由用户设置或在3D坐标轴上的虚拟扬声器的位置，角度可包括头部移动角度(滚动、俯仰和偏航(roll,pitch,and yaw))。

图21示出当渲染由附接于移动对象的设备所捕获的音频信号时补偿捕获设备和用户头部追踪设备的延迟的方法。

根据本发明实施方式，当通过将捕获设备附接到移动对象(诸如，无人机或车辆)来执行捕获时，捕获设备的实时位置信息(位置、角度、速度、角速度等)可配置为元数据并且连同捕获音频信号发送到渲染设备。

根据本发明另一实施方式，捕获设备可从与控制器(诸如，操纵杆或智能手机摇控)附接的独立设备中接收位置信息命令，以及通过反映所接收的位置信息来改变捕获设备的位置。在该情况下，捕获设备的元数据可包括独立设备的位置信息。

延迟可发生在多个设备和传感器中的每一个中。在本文中，延迟可包括从控制器的命令到捕获设备的传感器的响应的时间延迟以及头部追踪传感器的延迟。在该情况下，可通过与图20中公开的实施方式相似的方法执行补偿。

补偿角度由公式16确定。

补偿角度Φ＝捕获设备速度x捕获传感器延迟(dt_c)-头部角速度x头部

追踪传感器延迟dt_h (16)

在可连接到头部运动的上述渲染方法中使用的滤波器的长度会影响最终输出信号的延迟。当渲染滤波器的长度过长时，输出音频信号的声像不能跟随头部移动速度，因此声像可能不会根据头部运动准确地被找到位置且可能因此变模糊，或者图像与声像之间的位置信息可能不匹配，从而减少真实感。

由于调整最终输出信号的延迟的方法，可调整待使用的整个滤波器的长度，或者当使用长阶数的滤波器时，可调整待用于块卷积的独立块的长度N。

确定用于声像渲染的滤波器长度应设计为使得即使当头部运动在声像渲染之后改变也可维持声像的位置，因此，最大延迟应设计为使得考虑用户的头部移动方向和速度时可维持声像的位置。在该情况下，应确定所设计的最大延迟以便不超过音频信号的总输入/输出延迟。

例如，当音频信号的总输入/输出延迟由应用声像渲染滤波器之后的延迟确定时，用户头部追踪设备的头部位置估算延迟及其他算法延迟、待应用于声像渲染滤波器的延迟由公式17至19确定。

设计的最大延迟>音频信号的总输入/输出延迟 (17)

音频信号的总输入/输出延迟＝声像渲染滤波器应用的延迟+头部

追踪设备的头部位置估算延迟+其他算法延迟 (18)

声像渲染滤波器应用的延迟<设计的最大延迟-头部追踪设备的头

部位置估算延迟-其他算法延迟 (19)

例如，当设计者选择的最大延迟为100ms时，头部追踪设备的头部位置估算延迟为40ms，以及另一算法延迟为10ms，声像渲染滤波器的长度应确定为使得应用声像渲染滤波器之后的延迟不超过50ms。

根据本发明的上述实施方式可实现为计算机指令，该计算机指令可由各种计算机组件执行并且记录在非暂时性计算机可读记录介质上。非暂时性计算机可读记录介质可包括程序命令、数据文件、数据结构或它们的组合。记录在非暂时性计算机可读记录介质上的程序命令可专门设计和构造成用于本发明，或者可以为计算机软件领域的普通技术人员公知和可用。非暂时性计算机可读介质的示例包括诸如硬盘、软盘或磁带的磁介质；诸如光盘-只读存储器(CD-ROM)或数字多用途光盘(DVD)的光学介质；诸如软光盘的磁光介质；以及专门配置成存储和执行程序命令的硬件设备(例如，ROM、RAM或闪存存储器)。程序命令的示例包括可由使用解释器的计算机执行的高级语言代码以及由编码器制作的机器语言代码。硬件设备可变换成用于执行根据本发明的过程的一个或多个软件模块，反之软件模块可变换成用于执行根据本发明的过程的一个或多个硬件设备。

虽然参照诸如特定组件、限制性实施方式的特定特征和附图对本发明进行了描述，但是提供这些仅是帮助大体地理解本发明，并且本发明不局限于这些实施方式，以及本发明所属领域的普通技术人员可根据本公开进行各种校正和修改。

因此，本发明的精神不应由上述实施方式限定，并且不仅以下权利要求而且权利要求的所有等同或等效改变范围属于本发明的精神的范畴。

Claims

1.一种音频生成方法，包括：

通过至少一个麦克风接收音频信号；

基于所接收的音频信号生成与所述至少一个麦克风相对应的至少一个输入声道信号；

基于所述至少一个输入声道信号生成至少一个虚拟输入声道信号；

生成包括所述至少一个虚拟输入声道信号的再现位置的附加信息；

对所述至少一个虚拟输入声道信号进行声道分离，以降低所述至少一个虚拟输入声道信号中所包括的信号之间的相干性；以及

发送基于所述至少一个虚拟输入声道信号获得的多声道音频信号以及所述附加信息。

2.根据权利要求1所述的方法，其中，所述声道分离包括：基于所述至少一个虚拟输入声道信号中所包括的声道信号之间的相干性对声道进行分离。

3.根据权利要求1所述的方法，其中，发送所述附加信息和所述多声道音频信号还包括：发送对象音频信号。

4.根据权利要求3所述的方法，其中，所述附加信息还包括所述对象音频信号的再现位置信息。

5.根据权利要求1所述的方法，其中，所述至少一个麦克风附接至具有驱动力的设备。

6.一种音频再现方法，包括：

接收多声道音频信号和包括所述多声道音频信号的再现位置的附加信息；

获取用户的位置信息；基于所接收的附加信息对所接收的多声道音频信号进行声道分离，以降低所接收的多声道音频信号中所包括的信号之间的相干性；

基于所接收的附加信息和所获取的用户的位置信息对经声道分离的多声道音频信号进行渲染；以及

再现经渲染的多声道音频信号。

7.根据权利要求6所述的方法，其中，对所接收的多声道音频信号进行声道分离包括：基于所述多声道音频信号中所包括的声道信号之间的相干性以及基于所述附加信息对声道进行分离。

8.根据权利要求6所述的方法，其中，接收所述多声道音频信号和所述附加信息还包括：接收对象音频信号。

9.根据权利要求8所述的方法，其中，所述附加信息还包括所述对象音频信号的再现位置信息。

10.根据权利要求6所述的方法，其中，对所述多声道音频信号进行渲染包括：

对于预定参考时间之前的时间，基于头部相关脉冲响应(HRIR)渲染所述多声道音频信号；以及

对于所述预定参考时间之后的时间，基于双耳房间脉冲响应(BRIR)渲染所述多声道音频信号。

11.根据权利要求10所述的方法，其中，基于所获取的用户的位置信息确定头部相关传递函数(HRTF)。

12.根据权利要求6所述的方法，其中，所述用户的位置信息基于用户输入来确定。

13.根据权利要求6所述的方法，其中，所述用户的位置信息基于测量的用户头部位置来确定。

14.根据权利要求13所述的方法，其中，所述用户的位置信息基于所述用户的头部运动速度和头部运动速度测量传感器的延迟来确定。

15.根据权利要求14所述的方法，其中，所述用户的头部运动速度包括头部角速度和头部移动速度中的至少一个。

16.一种音频生成装置，包括：

至少一个麦克风，配置成接收音频信号；

输入声道信号生成器，配置成基于所接收的音频信号生成与所述至少一个麦克风对应的至少一个输入声道信号；

虚拟输入声道信号生成器，配置成基于所述至少一个输入声道信号生成至少一个虚拟输入声道信号；

附加信息生成器，配置成生成包括所述至少一个虚拟输入声道信号的再现位置的附加信息；

声道分离器，配置成对所述至少一个虚拟输入声道信号进行声道分离，以降低所述至少一个虚拟输入声道信号中所包括的信号之间的相干性；以及

发送器，配置成发送基于所述至少一个虚拟输入声道信号获得的多声道音频信号以及所述附加信息。

17.根据权利要求16所述的装置，其中，所述声道分离器还配置成基于所述至少一个虚拟输入声道信号中所包括的声道信号之间的相干性对声道进行分离。

18.一种音频再现装置，包括：

接收器，配置成接收多声道音频信号和包括所述多声道音频信号的再现位置的附加信息；

位置信息获取器，配置成获取用户的位置信息；

声道分离器，配置成基于所接收的附加信息对所接收的多声道音频信号进行声道分离，以降低所接收的多声道音频信号中所包括的信号之间的相干性；

渲染器，配置成基于所接收的附加信息和所获取的用户的位置信息对经声道分离的多声道音频信号进行渲染；以及

再现器，配置成再现经渲染的多声道音频信号。

19.根据权利要求18所述的音频再现装置，其中，所述声道分离器配置成基于所述多声道音频信号中所包括的声道信号之间的相干性以及基于所述附加信息对声道进行分离。

20.一种非暂时性计算机可读记录介质，上面记录有用于执行根据权利要求1或6中任一项所述的方法的计算机程序。