CN112438053A

CN112438053A - 通过多个近场换能器渲染双耳音频

Info

Publication number: CN112438053A
Application number: CN201980048450.9A
Authority: CN
Inventors: M·F·戴维斯; N·R·廷哥斯; C·P·布朗
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2018-07-23
Filing date: 2019-07-23
Publication date: 2021-03-02
Anticipated expiration: 2039-07-23
Also published as: US20240284104A1; US11924619B2; CN116170723A; US11445299B2; WO2020023482A1; CN116193325A; CN112438053B; EP3827599A1; CN116170722A; US20230074817A1; US20210297781A1

Abstract

一种渲染音频的装置和方法。基于音频的感知位置信息，在幅度加权的基础上将双耳信号分割成前双耳信号和后双耳信号。以此方式，改善了双耳信号的前后差异。

Description

通过多个近场换能器渲染双耳音频

相关申请的交叉引用

本申请要求均于2018年7月23日提交的美国临时专利申请号62/702,001和欧洲专利申请号18184900.1的优先权权益，并且所述专利申请通过引用并入本文。

背景技术

本发明涉及音频处理，并且具体涉及用于多个扬声器的双耳音频处理。

除非本文另外指出，否则本节中描述的方法对于本申请中的权利要求而言不是现有技术，并且不由于包含在本节中而被承认是现有技术。

头部跟踪(head tracking或headtracking)通常是指跟踪用户的头部的位姿(例如，位置和定向)以调整对系统的输入或系统的输出。对于音频而言，头部跟踪是指根据收听者的头部定向/位置来改变音频信号。

双耳音频通常是指以考虑自然的耳朵间距和收听者的耳朵与头部的头影效应(head shadow)的方式录制或回放的音频。收听者因此感知到声音起源于一个或多个空间位置。双耳音频可以通过使用放置在仿真头部的两个耳朵位置处的两个麦克风来录制。双耳音频可以通过使用头部相关传递函数(HRTF，head-related transfer function)或双耳房间脉冲响应(BRIR，binaural room impulse response)从非双耳录制的音频进行渲染得到。双耳音频可以使用耳机来回放。双耳音频通常包括左通道(由左耳机输出)和右通道(由右耳机输出)。双耳音频与立体声的不同之处在于，立体声音频可能涉及扬声器之间的扬声器串扰。如果要从扬声器输出双耳音频，则通常期望执行串扰消除；在美国申请公开号2015/0245157中描述了示例。

四双耳(Quad binaural)通常是指已录制为四对双耳(例如，四个方向中的每个方向的左通道和右通道：北方在0度，东方在90度，南方在180度，并且西方在270度)的双耳。在回放期间，如果收听者面朝这四个方向之一，则对从该方向录制的双耳信号进行回放。如果收听者面朝两个方向之间，则所回放的信号是从这两个方向录制的两个信号的混合。

双耳音频通常从头戴式设备或其他头戴式系统输出。许多出版物描述了头戴式音频系统(该头戴式音频系统以各种方式不同于标准音频头戴式设备)。示例包括美国专利号5,661,812；美国专利号6,356,644；美国专利号6,801,627；美国专利号8,767,968；美国申请公开号2014/0153765；美国申请公开号2017/0153866；美国申请公开号2004/0032964；美国申请公开号2007/0098198；国际申请公开号WO 2005053354 A1；欧洲申请公开号EP1143766 A1；以及日本申请JP 2009141879 A。

国际申请公开号WO 2017223110 A1的图13及相关描述讨论了将两个通道双耳信号上混(upmix)为四个通道：前双耳信号和后双耳信号两者的左通道和右通道。随着收听者的头部的定向改变，前信号和后信号被重新混合以转换回两个通道双耳信号来进行输出。

许多头戴式设备包括用于虚拟现实(VR)或增强现实(AR)的视觉显示元件。示例包括Oculus Go^TM头戴式设备和Microsoft Hololens^TM头戴式设备。

许多出版物描述了针对双耳音频的信号处理特征。示例包括美国申请公开号2014/0334637；美国申请公开号2011/0211702；美国申请公开号2010/0246832；美国申请公开号2006/0083394；以及美国申请公开号2004/0062401。

最后，美国申请公开号2009/0097666讨论了扬声器阵列系统中的近场效应。

发明内容

许多双耳音频系统存在的一个问题是，收听者通常很难感知双耳输出的前后差异。

考虑到以上问题和解决方案的缺乏，本文描述的实施例涉及将双耳信号分割成多个双耳信号以由多个扬声器(例如，前扬声器对和后扬声器对)进行输出。

根据实施例，一种渲染音频的方法包括：接收空间音频信号，其中，该空间音频信号包括用于渲染音频的位置信息。该方法进一步包括处理空间音频信号，以基于位置信息确定多个权重。该方法进一步包括渲染空间音频信号以形成多个经渲染信号，其中，根据多个权重对多个经渲染信号进行幅度加权，并且其中，多个经渲染信号包括根据多个权重进行幅度加权的多个双耳信号。

渲染空间音频信号以形成多个经渲染信号可以进一步包括：渲染空间音频信号以生成中间经渲染信号；以及根据多个权重对中间信号进行加权以生成多个经渲染信号。

多个权重可以对应于施加于位置信息的前后视角。

渲染空间音频信号以形成多个经渲染信号可以对应于：根据多个权重在幅度加权的基础上分割空间音频信号。

空间音频信号可以包括多个音频对象，其中，多个音频对象中的每个音频对象与位置信息的相应位置相关联。处理空间音频信号可以包括处理多个音频对象以提取位置信息。多个权重可以对应于多个音频对象中的每个音频对象的相应位置。

多个经渲染信号中的每个经渲染信号可以是包括左通道和右通道的双耳信号。

多个经渲染信号可以包括前信号和后信号，其中，前信号包括左前通道和右前通道，并且其中，后信号包括左后通道和右后通道。

多个经渲染信号可以包括前信号、后信号和另一个信号，其中，前信号包括左前通道和右前通道，其中，后信号包括左后通道和右后通道，并且其中，另一个信号是不成对的通道。

该方法可以进一步包括从多个扬声器输出多个经渲染信号。

该方法可以进一步包括：将多个经渲染信号组合为联合经渲染信号；生成将联合经渲染信号与多个经渲染信号关联的元数据；以及将联合经渲染信号和元数据提供给扬声器系统。

该方法可以进一步包括：由扬声器系统使用元数据从联合经渲染信号生成多个经渲染信号；以及从多个扬声器输出多个经渲染信号。

该方法可以进一步包括：生成头部跟踪数据；基于头部跟踪数据，计算前延迟、第一前组滤波器参数、第二前组滤波器参数、后延迟、第一后组滤波器参数和第二后组滤波器参数。针对包括第一通道信号和第二通道信号的前双耳信号，该方法可以进一步包括：通过将前延迟和第一前组滤波器参数施加于第一通道信号来生成第一经修改的通道信号；以及通过将第二前组滤波器参数施加于第二通道信号来生成第二经修改的通道信号。针对包括第三通道信号和第四通道信号的后双耳信号，该方法可以进一步包括：通过将第二后组滤波器参数施加于第三通道信号来生成第三经修改的通道信号；以及通过将后延迟和第一后组滤波器参数施加于第四通道信号来生成第四经修改的通道信号。该方法可以进一步包括：从第一前扬声器输出第一经修改的通道信号；从第二前扬声器输出第二经修改的通道信号；从第一后扬声器输出第三经修改的通道信号；以及从第二后扬声器输出第四经修改的通道信号。

根据实施例，一种非暂态计算机可读介质可以存储计算机程序，该计算机程序在由处理器执行时控制装置执行包括本文所描述的方法步骤中的一个或多个方法步骤的处理。

根据实施例，一种用于渲染音频的装置包括处理器和存储器。处理器被配置为接收空间音频信号，其中，空间音频信号包括用于渲染音频的位置信息。处理器被配置为处理空间音频信号，以基于位置信息确定多个权重。处理器被配置为渲染空间音频信号以形成多个经渲染信号，其中，根据多个权重对多个经渲染信号进行幅度加权，并且其中，多个经渲染信号包括根据多个权重进行幅度加权的多个双耳信号。

该装置可以进一步包括左前扬声器、右前扬声器、左后扬声器和右后扬声器。左前扬声器被配置为输出多个双耳信号中的前双耳信号的左通道。右前扬声器被配置为输出前双耳信号的右通道。左后扬声器被配置为输出多个双耳信号中的后双耳信号的左通道。右后扬声器被配置为输出后双耳信号的右通道。多个权重对应于施加于左前扬声器和左后扬声器以及施加于右前扬声器和右后扬声器的前后视角。

该装置可以进一步包括安装结构，该安装结构被适配用于将左前扬声器、左后扬声器、右前扬声器和右后扬声器定位在收听者的头部周围。

处理器被配置为渲染空间音频信号以形成多个经渲染信号可以包括：处理器渲染空间音频信号以生成中间经渲染信号，并且根据多个权重对中间信号进行加权以生成多个经渲染信号。

处理器被配置为渲染空间音频信号以形成多个经渲染信号可以包括：处理器根据多个权重在幅度加权的基础上分割空间音频信号。

当空间音频信号包括多个音频对象时，处理器可以被配置为处理多个音频对象以提取位置信息，其中，多个音频对象中的每个音频对象与位置信息的相应位置相关联，并且其中，多个权重对应于多个音频对象中的每个音频对象的相应位置。

该装置可以包括与以上关于该方法所描述的那些细节类似的进一步的细节。

以下详细的描述和附图提供了对各个实施方式的性质和优点的进一步的理解。

附图说明

图1是音频处理系统100的框图。

图2A是渲染系统200的框图。

图2B是渲染系统250的框图。

图3是渲染音频的方法300的流程图。

图4是渲染系统400的框图。

图5是扬声器系统500的框图。

图6A是扬声器系统600的俯视图。

图6B是扬声器系统600的右侧视图。

图7A是扬声器系统700的俯视图。

图7B是扬声器系统700的右侧视图。

图8A是渲染系统802的框图。

图8B是渲染系统852的框图。

图9是扬声器系统904的框图。

图10是实施头部跟踪的扬声器系统1004的框图。

图11是前头部跟踪系统1052(参见图10)的框图。

具体实施方式

本文描述了用于双耳音频处理的技术。在以下描述中，出于解释的目的，阐述了许多示例和具体细节以便提供对本发明的透彻理解。然而，对于本领域技术人员而言将显而易见的是，由权利要求限定的本发明可以单独地或与以下描述的其他特征组合地包括这些示例中的特征中的一些或全部特征，并且可以进一步包括本文所描述的特征和概念的修改和等同物。

在以下描述中，详细描述了各种方法、过程和流程。尽管可能以一定的顺序描述了特定步骤，但是这种顺序主要是为了方便和清楚。特定步骤可以重复一次以上，可以在其他步骤之前或之后发生(即使这些步骤另外以另一种顺序描述)，并且可以与其他步骤并行发生。仅在第一步骤必须在第二步骤开始之前完成的情况下，才需要第二步骤跟随第一步骤。当从上下文中不清楚时，将明确指出这种情况。

在本文档中，使用术语“和”、“或”以及“和/或”。这种术语应被理解为具有包含性含义。例如，“A和B”至少可以意指以下含义：“A和B两者”、“至少A和B两者”。作为另一个示例，“A或B”至少可以意指以下含义：“至少A”、“至少B”、“A和B两者”、“至少A和B两者”。作为另一个示例，“A和/或B”至少可以意指以下含义：“A和B”、“A或B”。当旨在异或时，这将明确指出(例如，“要么A要么B”、“A和B中的至多一个”)。

图1是音频处理系统100的框图。音频处理系统100包括渲染系统102和扬声器系统104。渲染系统102接收空间音频信号110并渲染空间音频信号110以生成多个经渲染信号120a、…、120n(统称为渲染信号120)。扬声器系统104接收经渲染信号120并生成听觉输出130a、…、130m(统称为听觉输出130)。(当经渲染信号120是双耳信号时，听觉输出130中的每个听觉输出对应于经渲染信号120中的一个经渲染信号的两个通道，因此m是n的两倍。)

通常，空间音频信号110包括位置信息，并且渲染系统102在生成经渲染信号120时使用位置信息，以使收听者感知到音频如同起源于由位置信息所指示的各种位置。空间音频信号110可以包括音频对象，例如Dolby Atmos^TM系统或DTS:X^TM系统中的音频对象。空间音频信号110可以包括B格式的信号(例如，使用四个分量通道：代表声压的W、代表前减后声压梯度的X、代表左减右的Y以及代表上减下的Z)，例如Ambisonics^TM系统中的信号。空间音频信号110可以是环绕声音信号，例如5.1通道立体声信号或7.1通道立体声信号。针对通道信号(例如5.1通道)，每个通道可以被分配到限定的位置，并且可以被称为底层通道(bedchannel)。例如，可以将左底层通道提供给左扬声器等。

根据实施例，渲染系统102生成与各自具有左通道和右通道的前双耳信号和后双耳信号相对应的经渲染信号120；并且扬声器系统104包括分别输出左前通道、右前通道、左后通道和右后通道的四个扬声器。在下文中提供了渲染系统102和扬声器系统104的进一步的细节。

图2A是渲染系统200的框图。渲染系统200可以用作渲染系统102(参见图1)。渲染系统200包括权重计算器202和多个渲染器204a、…、204n(统称为渲染器204)。权重计算器202接收空间音频信号110并基于空间音频信号110中的位置信息计算多个权重210。权重210对应于施加于位置信息的前后视角。渲染器204使用权重210来渲染空间音频信号110以生成经渲染信号120。通常，渲染器204使用权重210来执行对经渲染信号120的幅度加权。实际上，渲染器204在生成经渲染信号120时使用权重210在幅度加权的基础上分割空间信号110。

例如，渲染系统200的实施例包括两个渲染器204(例如，前渲染器和后渲染器)，这两个渲染器分别渲染前双耳信号和后双耳信号(共同形成经渲染信号120)。当特定对象的位置信息指示声音仅在前方时，针对该特定对象，被提供给前渲染器的权重120可以是1.0，并且被提供给后渲染器的权重可以是0.0。当位置信息指示声音仅在后方时，针对该特定对象，被提供给前渲染器的权重120可以是0.0，并且被提供给后渲染器的权重可以是1.0。当位置信息指示声音正好在前方与后方中间时，针对该特定对象，被提供给前渲染器的权重120可以是0.5，并且被提供给后渲染器的权重可以是0.5。当位置信息是前方与后方之间的其他位置时，针对该特定对象，可以类似地在前渲染器与后渲染器之间分派权重120。权重120可以以能量保持的方式进行分派；例如，当位置信息指示声音正好在前方与后方中间时，针对该特定对象，被提供给前渲染器的权重120可以是1/sqrt(2)，并且被提供给后渲染器的权重可以是的1/sqrt(2)。

图2B是渲染系统250的框图。渲染系统250可以用作渲染系统102(参见图1)。渲染系统250包括权重计算器252、渲染器254和多个权重模块256a、…、256n(统称为权重模块256)。类似于权重计算器202(参见图2A)，权重计算器252接收空间音频信号110并基于空间音频信号110中的位置信息计算多个权重260。渲染器254渲染空间音频信号110以生成中间经渲染信号262。当空间音频信号110包括要同时输出的多个音频对象(或多个通道)时，渲染器254可以例如通过分配处理时间份额来同时处理每个音频对象(或通道)。权重模块256(在每个对象或每个通道的基础上)将权重260施加于中间经渲染信号262，以生成经渲染信号120。类似于渲染系统200(参见图2A)，权重260对应于施加于位置信息的前后视角，并且权重模块256使用权重260来执行对中间经渲染信号262的幅度加权。

例如，渲染系统250的实施例包括两个权重模块256(例如，前权重模块和后权重模块)，这两个权重模块分别以类似于上文关于权重计算器202(参见图2A)所描述的方式生成前双耳信号和后双耳信号(共同形成经渲染信号120)。

使用笛卡尔坐标来计算权重(图2A中的210或图2B中的260)的示例如下。给定位于头部(假设头部为(0,0,0))周围的归一化方向V(x，y，z)(其中，x值、y值、z值在范围[-1,1]内)的音频对象，并假设y轴线的正方向为前方向，则可以将前权重W1＝0.5+0.5*cos(y)用于对发送到前扬声器对的双耳信号进行加权，并且可以将后权重W2＝sqrt(1-W1*W1)用于后扬声器对。在Dolby Atmos^TM呈现的情况(对象的在[0,1]范围内的y坐标对应于前/后比)下，可以使用W1＝cos(y*pi/2)和W2＝sin(y*pi/2)。

继续该示例，进一步假设在左前、右前、左后和右后布置了四个扬声器。渲染器254(参见图2B)使用左头部相关传递函数(HRTF)和右HRTF对音频对象信号(例如110)进行卷积，以生成左中间经渲染信号(例如262)和右中间经渲染信号。权重模块256将前权重W1(例如260)施加于左中间经渲染信号，以生成用于左前扬声器的经渲染信号(例如120a)；将前权重W1施加于右中间经渲染信号，以生成用于右前扬声器的经渲染信号；将后权重W2施加于左中间经渲染信号，以生成用于左后扬声器的经渲染信号；并且将后权重W2施加于右中间经渲染信号，以生成用于右后扬声器的经渲染信号。

针对第二音频对象继续该示例，渲染器254针对第二音频对象的信号生成左中间经渲染信号和右中间经渲染信号。权重模块256施加如上所述的前权重W1和后权重W2，以生成用于扬声器的现在包括两个音频对象的加权音频的经渲染信号。

对于B格式的信号(例如，一阶Ambisonics^TM或更高阶的Ambisonics^TM)，渲染系统(例如，图2B的渲染系统250)可以生成虚拟麦克风图案/波束(例如，心形)以首先获得可以双耳渲染并发送到前扬声器对和后扬声器对的前信号和后信号。在这种情况下，加权通过该虚拟‘波束成形’过程来实现。

对于多对扬声器，可以使用类似的方法，在该方法中，可以使用指向每个近场扬声器的方向的余弦波瓣来获得适合每个双耳对的不同输入信号或权重。通常，以类似于可以在传统的声音扬声器系统上解码更高阶的Ambisonics^TM流的方式，随着扬声器对的数量增加，将使用更高阶的波瓣。

例如，考虑在左前、右前、左后和右后布置的四个扬声器。进一步，考虑空间音频信号110是具有M个基础信号(例如，4个基础信号w、x、y、z)的B格式信号。渲染器254(参见图2B)接收这M个基础信号并执行双耳渲染，以产生2M个中间经渲染信号(例如，针对这4个基础信号中的每个基础信号的左经渲染信号和右经渲染信号的2×4矩阵)。权重模块256实施大小为2M x 4的权重矩阵W，以生成到两个扬声器对的四个输出信号。实际上，权重矩阵W执行‘波束成形’，并起到与先前段落中讨论的音频对象示例中的权重相同的作用。

综上所述，对于音频对象情况和B格式情况两者，将输入信号渲染成双耳的仅需要对每个对象(或声场基础信号)进行一次；用于生成扬声器输出的矩阵化/波束成形是附加的矩阵化/线性组合操作。

图3是渲染音频的方法300的流程图。方法300可以由音频处理系统100(参见图1)、由渲染系统102(参见图2)等来执行。方法300可以通过由一个或多个硬件设备存储或执行的一个或多个计算机程序来实施。

在302处，接收空间音频信号。空间音频信号包括用于渲染音频的位置信息。例如，渲染系统200(参见图2A)或渲染系统250(参见图2B)可以接收空间音频信号110。

在304处，处理空间音频信号，以基于位置信息来确定多个权重。例如，权重计算器202(参见图2A)可以基于空间音频信号110中的位置信息来确定权重210。作为另一示例，权重计算器252(参见图2B)可以基于空间音频信号110中的位置信息来确定权重260。

在306处，渲染空间音频信号以形成多个经渲染信号。根据权重对经渲染信号进行幅度加权。经渲染信号可以包括根据权重进行幅度加权的多个双耳信号。如上所讨论的，一般而言，这些权重可以明显地基于对象的x、y、z位置，因此系统可以对每个对象进行双耳化并然后将双耳化的对象经适当地加权后发送到不同的扬声器对。可替代地，这些权重可以隐含地是波束成形图案的一部分。然后，获得了多个输入信号，可以对该多个输入信号分别进行双耳化并发送到其适当的扬声器对。

例如，渲染器204(参见图2A)可以渲染空间音频信号110以形成经渲染信号120。针对特定音频对象，渲染器204中的每一个渲染器可以在生成经渲染信号120中的每一个渲染器的相对应的一个经渲染信号时使用权重210中的相应的一个权重来执行幅度加权。渲染器204中的一个或多个渲染器可以是双耳渲染器。根据实施例，渲染器204包括前双耳渲染器和后双耳渲染器，并且经渲染信号120包括通过渲染一个或多个音频对象而产生的前双耳信号和后双耳信号，前双耳信号和后双耳信号已经基于施加于位置信息的前后视角，根据权重210进行了幅度加权。

作为另一示例，渲染器254(参见图2B)渲染空间音频信号110以形成中间经渲染信号262，权重模块256向中间经渲染信号262施加权重260以形成经渲染信号120。渲染器254可以是双耳渲染器，并且权重模块256可以使用权重260将前后视角施加于中间经渲染信号262来生成前双耳信号和后双耳信号。

在308处，多个扬声器输出经渲染信号。例如，扬声器系统104(参见图1)可以输出经渲染信号120作为听觉输出130。

图4是渲染系统400的框图。渲染系统400包括用于实施渲染系统200(参见图2A)或渲染系统250(参见图2B)的功能的硬件细节。渲染系统400可以例如通过执行一个或多个计算机程序来实施方法300(参见图3)。渲染系统400包括处理器402、存储器404、输入/输出接口406以及输入/输出接口408。总线410连接这些部件。渲染系统400可以包括(为了简洁起见)未示出的其他部件。

处理器402通常控制渲染系统400的操作。处理器402可以执行一个或多个计算机程序以便实施包括权重计算器202和渲染器204的渲染系统200(参见图2A)的功能。同样地，处理器402可以实施包括权重计算器252、渲染器254和权重模块256的渲染系统250(参见图2B)的功能。处理器402可以包括可编程逻辑设备或数字信号处理器，或者可以作为可编程逻辑设备或数字信号处理器的部件。

存储器404通常存储由处理器402对其进行操作的数据，例如图2A至图2B中所示的信号的数字表示(例如空间音频信号110、位置信息、权重210或260、中间经渲染信号262和经渲染信号120)。存储器404还可以存储由处理器402执行的任何计算机程序。存储器404可以包括易失性部件或非易失性部件。

输入/输出接口406和408通常将渲染系统400与其他部件进行接口连接。输入/输出接口406将渲染系统400与空间音频信号110的提供者进行接口连接。如果空间音频信号110在本地存储，则输入/输出接口406可以与该本地部件通信。如果空间音频信号110是从远程部件接收到的，则输入/输出接口406可以经由有线连接或无线连接与该远程部件通信。

输入/输出接口408将渲染系统400与扬声器系统104(参见图1)进行接口连接以提供经渲染信号120。如果扬声器系统104和渲染系统102(参见图1)是单一设备的部件，则输入/输出接口408提供部件之间的物理互连。如果扬声器系统104是与渲染系统102分开的设备，则输入/输出接口408可以提供用于进行有线连接或无线连接(例如，IEEE 802.15.1连接)的接口。

图5是扬声器系统500的框图。扬声器系统500包括用于实施扬声器系统104(参见图1)的功能的硬件细节。扬声器系统500可以例如通过执行一个或多个计算机程序来实施方法300(参见图3)中的308。扬声器系统500包括处理器502、存储器504、输入/输出接口506、输入/输出接口508以及多个扬声器510(示出了4个扬声器510a、510b、510c和510d)。(可替代地，例如，当渲染系统102和扬声器系统104是单一设备的部件时，扬声器系统500的简化版本可以省略处理器502和存储器504。)总线512连接处理器502、存储器504、输入/输出接口506以及输入/输出接口508。扬声器系统500可以包括(为了简洁起见)未示出的其他部件。

处理器502通常例如通过执行一个或多个计算机程序来控制扬声器系统500的操作。处理器502可以包括可编程逻辑设备或数字信号处理器，或者可以作为可编程逻辑设备或数字信号处理器的部件。

存储器504通常存储由处理器502对其进行操作的数据，例如经渲染信号120的数字表示。存储器504还可以存储由处理器502执行的任何计算机程序。存储器504可以包括易失性部件或非易失性部件。

输入/输出接口506将扬声器系统500与渲染系统102(参见图1)进行接口连接以接收经渲染信号120。输入/输出接口506可以提供用于进行有线连接或无线连接(例如，IEEE802.15.1连接)的接口。根据实施例，经渲染信号120包括前双耳信号和后双耳信号。

输入/输出接口508将扬声器510与扬声器系统500的其他部件进行接口连接。

扬声器510通常输出与经渲染信号120相对应的听觉信号130(示出了4个听觉信号130a、130b、130c和130d)。根据实施例，经渲染信号120包括前双耳信号和后双耳信号；扬声器510a输出前双耳信号的左通道，扬声器510b输出前双耳信号的右通道，扬声器510c输出后双耳信号的左通道，并且扬声器510d输出后双耳信号的右通道。

由于已经基于施加于空间信号110中的位置信息的前后视角对经渲染信号120进行了加权(如以上关于渲染系统102所讨论的)，因此扬声器510a至510b输出加权的前双耳信号的左通道和右通道，并且扬声器510c至510d输出加权的后双耳信号的左通道和右通道。以此方式，音频处理系统100(参见图1)改善了由收听者感知到的前后差异。

图6A是扬声器系统600的俯视图。扬声器系统600对应于扬声器系统104(参见图1)或扬声器系统500(参见图5)的具体实施方式。扬声器系统600包括安装结构602，该安装结构将扬声器510a、510b、510c和510d定位在收听者的头部周围。扬声器510a、510b、510c和510d的臂在45度、135度、225度和315度(相对于收听者的头部的中心，以收听者的前方为0度)处间隔90度定位；扬声器本身可以各自朝向收听者的左耳或右耳成角度。扬声器510a、510b、510c和510d通常靠近收听者的头部(例如，距其6英寸)定位。扬声器510a、510b、510c和510d通常是低功率的，例如在1到10瓦之间。在给定接近头部和低功率的情况下，扬声器510a、510b、510c和510d的输出被认为是近场输出。近场输出在扬声器的左侧和右侧之间的串扰干扰可忽略不计，因此在一些情况下可以省略串扰消除。另外，扬声器510a、510b、510c和510d不会使收听者的耳朵不清楚，这允许收听者也能听到环境声音并使扬声器系统600适合于增强现实应用。

图6B是扬声器系统600(参见图6A)的右侧视图，示出了安装结构602、扬声器510b和扬声器510d。当头盔式结构602放置在收听者的头部上时，扬声器510b和510d与收听者的右耳水平对齐。头盔式结构602可以包括结实的帽盖(cap)区域、帽带(strap)等，以使佩戴者易于固定和使用，并且舒适地佩戴。

扬声器系统600中的扬声器的配置可以根据需要进行变化。例如，扬声器的角度间隔可以被调整为大于或小于90度。作为另一示例，前扬声器的角度可以是除45度和315度之外的度数(例如30度和330度)。作为又一示例，后扬声器的角度可以变化为除135度和225度之外的度数(例如145度和235度)。

扬声器系统600中的扬声器的高度也可以变化。例如，扬声器的高度可以基于图6B所示的高度增加或降低。

扬声器系统600中的扬声器的数量也可以变化。例如，可以在前扬声器510a与510b之间添加中央扬声器。由于该中央扬声器输出不成对的通道，因此其相对应的渲染器204(参见图2A)不是双耳渲染器。

关于图7A至图7B讨论了变化扬声器的数量的另一种选项。

图7A是扬声器系统700的俯视图。扬声器系统700对应于扬声器系统104(参见图1)或扬声器系统500(参见图5)的具体实施方式。扬声器系统700包括头盔式结构702以及扬声器710a、710b、710c、710d、710e和710f(统称为扬声器710)。头盔式结构702以类似于定位扬声器510a、510b、510c和510d(参见图6A)的方式定位扬声器710a、710b、710c、710d。头盔式结构702将扬声器710e定位在临近收听者的左耳(例如，在270度处)，并且将扬声器710f定位在临近收听者的右耳(例如，在90度处)。

图7B是扬声器系统700(参见图7A)的右侧视图，示出了头盔式结构702以及扬声器710b、710d和710f。

扬声器710的配置、位置、角度、数量和高度可以根据需要进行变化，类似于关于扬声器600(参见图6A至图6B)所讨论的选项。

视觉显示器选项

实施例可以包括视觉显示器以提供视觉VR或AR方面。例如，扬声器系统600(参见图6A至图6B)可以在头盔式结构602的前方添加护目镜或显示屏形式的视觉显示系统。在这样的实施例中，前扬声器510a和510b可以被附接到视觉显示系统的前侧。

与上述其他选项一样，扬声器的配置、位置、角度、数量和高度可以根据需要进行变化。

元数据和双耳编码选项

作为将单独的经渲染信号从渲染系统发送到扬声器系统(例如，如图1至图2和图4至图5所示)的替代方案，渲染系统可以利用侧链元数据将经渲染信号120组合为组合的经渲染信号；扬声器系统使用侧链元数据将组合的经渲染信号解组合为单独的经渲染信号120。参考图8至图9提供了进一步的细节。

图8A是渲染系统802的框图。渲染系统802类似于渲染系统200(参见图2A，包括权重计算器202和渲染器204)，其中添加了信号组合器840。信号组合器840组合经渲染信号120以形成组合的信号820，并且生成描述如何已组合经渲染信号120的元数据822。

该组合的过程也可以称为上混或者形成联合信号。根据实施例，元数据822包括在各个频带(例如，在正交镜像滤波器(QMF)子频带的基础上)中的左通道和右通道的前后幅度比。

渲染系统802可以由与以上关于渲染系统400(参见图4)所描述的那些部件类似的部件来实施。

图8B是渲染系统852的框图。渲染系统802类似于渲染系统250(参见图2B，包括权重计算器252、渲染器254和权重模块256)，其中添加了信号组合器890。信号组合器890组合经渲染信号120以形成组合的信号870，并且生成描述如何已组合经渲染信号120的元数据872。信号组合器890和渲染系统852在其他方面类似于信号组合器840和渲染系统802(参见图8A)。

图9是扬声器系统904的框图。扬声器系统904类似于扬声器系统104(参见图1，包括如图5所示的扬声器510)，其中添加了信号提取器940。信号提取器940接收组合的信号820和元数据822(参见图8A)，并使用元数据822从组合的信号820生成经渲染信号120。然后，扬声器系统904从其扬声器输出经渲染信号120作为听觉输出130，如以上所讨论的。

扬声器系统904可以由与以上关于扬声器系统500(参见图5)所描述的那些部件类似的部件来实施。

头部跟踪选项

如以上所提及的，音频处理系统100(参见图1)可以包括头部跟踪。

图10是实施头部跟踪的扬声器系统1004的框图。扬声器系统1004包括传感器1050、前头部跟踪系统1052、后头部跟踪系统1054、左前扬声器1010a、右前扬声器1010b、左后扬声器1010c和右后扬声器1010d。扬声器系统1004接收两个经渲染信号120(参见例如图2A或图2B)，这两个经渲染信号被称为前双耳信号120a和后双耳信号120b；每个包括左通道和右通道。扬声器系统1004生成四个听觉输出130，这四个听觉输出被称为左前听觉输出130a、右前听觉输出130b、左后听觉输出130c和右后听觉输出130d。

传感器1050检测扬声器系统1004的定向，并生成与检测到的定向相对应的头部跟踪数据1060。传感器1050可以是加速度计、陀螺仪、磁力计、红外传感器、相机、射频链路或允许头部跟踪的任何其他类型的传感器。传感器1050可以是多轴传感器。传感器1050可以是生成头部跟踪数据1060的多个传感器(例如，一个传感器生成方位角数据，另一个传感器生成高度数据等)之一。

前头部跟踪系统1052根据头部跟踪数据1060修改前双耳信号120a，以生成经修改的前双耳信号120a’。通常，经修改的前双耳信号120a’对应于前双耳信号120a，但是被修改使得收听者根据扬声器系统1004的改变后的定向感知前双耳信号120a。

后头部跟踪系统1054根据头部跟踪数据1060修改后双耳信号120b，以生成经修改的后双耳信号120b’。通常，经修改的后双耳信号120b’对应于后双耳信号120b，但是被修改使得收听者根据扬声器系统1004的改变后的定向感知后双耳信号120b。

参考图11提供了前头部跟踪系统1052和后头部跟踪系统1054的进一步的细节。

左前扬声器1010a输出经修改的前双耳信号120a’的左通道作为左前听觉输出130a。右前扬声器1010b输出经修改的前双耳信号120a’的右通道作为右前听觉输出130b。左后扬声器1010c输出经修改的后双耳信号120b’的左通道作为左后听觉输出130c。右后扬声器1010d输出经修改的后双耳信号120b’的右通道作为右后听觉输出130d。

与上述其他实施例一样，扬声器系统1004中的扬声器的配置、位置、角度、数量和高度可以根据需要进行变化。

图11是前头部跟踪系统1052(参见图10)的框图。前头部跟踪系统1052包括计算块1102、延迟块1104、延迟块1106、滤波器块1108和滤波器块1110。前头部跟踪系统1052接收头部跟踪数据1060、左输入信号L 1122和右输入信号R 1124作为输入。(信号1122和1124对应于前双耳信号120a的左通道和右通道。)前头部跟踪系统1052生成左输出信号L’1132和右输出信号R’1134作为输出。(信号1132和1134对应于经修改的前双耳信号120a’的左通道和右通道。)

计算块1102基于头部跟踪数据1060生成延迟和滤波器参数，将延迟提供给延迟块1104和1106，并且将滤波器参数提供给滤波器块1108和1110。滤波器系数可以根据布朗-杜达模型(Brown-Duda model)(参见C.P.Brown和R.O.Duda,“An efficient HRTF model for3-D sound[3-D声音的高效HRTF模型]”,WASPAA’97(1997IEEE ASSP Workshop onApplications of Signal Processing to Audio and Acoustics,Mohonk MountainHouse,New Paltz,NY[1997年IEEE学会关于对音频及声学进行信号处理的应用专题研讨会,纽约新帕尔茨莫宏克山庄],1997年10月))来计算，并且延迟值可以根据伍德沃思近似值(Woodworth approximation)(参见R.S.Woodworth和G.Schlosberg,ExperimentalPsychology[实验心理学],第349-361页(Holt,Rinehart和Winston,NY,1962[霍尔特、莱因哈特和温斯顿,纽约,1962]))或任何相对应的耳间水平和时间差的系统来计算。

延迟块1104向左输入信号L 1122施加适当的延迟，并且延迟块1106向右输入信号R 1124施加适当的延迟。例如，向左转向延迟块1104提供延迟D1，并且向延迟块1106提供零延迟。类似地，向右转向延迟块1104提供零延迟，并且向延迟块1106提供延迟D2。

滤波器块1108对来自延迟块1104的经延迟信号施加适当的滤波，并且滤波器块1110对来自延迟块1106的经延迟信号施加适当的滤波。取决于头部跟踪数据1060，适当的滤波将是同侧滤波(用于“较近”耳朵)或者对侧滤波(用于“较远”耳朵)。例如，对于向左转，滤波器块1108施加对侧滤波器，并且滤波器块1110施加同侧滤波器。类似地，对于向右转，滤波器块1108施加同侧滤波器，并且滤波器块1110施加对侧滤波器。

后头部跟踪系统1054可以以与前头部跟踪系统1052类似的方式来实施。区别包括对后双耳信号120b进行操作(而不是对前双耳信号120a进行操作)，以及将头部跟踪数据1060从前头部跟踪系统1052所使用的头部跟踪数据进行反转。例如，当头部跟踪数据1060指示向左转30度(+30度)时，前头部跟踪系统1052使用(+30度)来进行其处理，并且后头部跟踪系统1054将头部跟踪数据1060反转为(-30度)来进行其处理。另一个区别是用于后头部跟踪系统的延迟和滤波器系数与用于前头部跟踪系统的延迟和滤波器系数略微不同。在任何情况下，前头部跟踪系统1052和后头部跟踪系统1054可以共享计算块1102。

头部跟踪操作的细节可以在其他方面类似于国际申请公开号WO 2017223110 A1中描述的那些细节。

实施方式细节

实施例可以以硬件、存储在计算机可读介质上的可执行模块或二者的组合(例如，可编程逻辑阵列)来实施。除非另有说明，否则由实施例执行的步骤不必固有地与任何特定计算机或其他装置相关，尽管它们在某些实施例中可能是相关的。具体地，各种通用机器可以与根据本文的教导编写的程序一起使用，或可以更方便地构建更专业的装置(例如，集成电路)以执行所需的方法步骤。因此，实施例可以在一个或多个可编程计算机系统上执行的一个或多个计算机程序中实施，一个或多个可编程计算机系统各自包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性的存储器和/或存储元件)、至少一个输入设备或端口以及至少一个输出设备或端口。程序代码被应用于输入数据以执行本文所描述的功能并生成输出信息。输出信息以已知的方式应用于一个或多个输出设备。

每个这种计算机程序优选地存储在或被下载到可由通用或专用可编程计算机读取的存储介质或设备(例如，固态存储器或介质、或者磁性或光学介质)，以用于在计算机系统读取存储介质或设备时配置并操作计算机以执行本文所描述的流程。本发明的系统还可以被认为是实施为配置有计算机程序的计算机可读存储介质，其中，这样配置的存储介质使计算机系统以特定且预定义的方式操作以执行本文所描述的功能。(软件本身和无形或暂态信号在它们是不可申请专利的主题的意义上被排除。)

以上描述示出了本发明的各个实施例以及可以如何实施本发明的方面的示例。以上示例和实施例不应被认为是仅有的实施例，而是被呈现以说明由所附权利要求限定的本发明的灵活性和优点。基于以上公开和所附权利要求，其他布置、实施例、实施方式和等同物对于本领域技术人员将是显而易见的，并且可以在不脱离由权利要求限定的本发明的精神和范围的情况下采用。

Claims

1.一种渲染音频的方法，所述方法包括：

接收空间音频信号，其中，所述空间音频信号包括用于渲染音频的位置信息；

处理所述空间音频信号，以基于所述位置信息确定多个权重；以及

渲染所述空间音频信号以形成多个经渲染信号，其中，根据所述多个权重对所述多个经渲染信号进行幅度加权，并且其中，所述多个经渲染信号包括根据所述多个权重进行幅度加权的多个双耳信号。

2.如权利要求1所述的方法，其中，渲染所述空间音频信号以形成所述多个经渲染信号包括：

渲染所述空间音频信号以生成中间经渲染信号；以及

根据所述多个权重对所述中间信号进行加权，以生成所述多个经渲染信号。

3.如权利要求1至2中任一项所述的方法，其中，所述多个权重对应于施加于所述位置信息的前后视角。

4.如权利要求1至3中任一项所述的方法，其中，渲染所述空间音频信号以形成所述多个经渲染信号对应于：根据所述多个权重，在幅度加权的基础上分割所述空间音频信号。

5.如权利要求1至4中任一项所述的方法，其中，所述空间音频信号包括多个音频对象，其中，所述多个音频对象中的每个音频对象与所述位置信息的相应位置相关联；

其中，处理所述空间音频信号包括处理所述多个音频对象以提取所述位置信息；并且

其中，所述多个权重对应于所述多个音频对象中的每个音频对象的相应位置。

6.如权利要求1至5中任一项所述的方法，其中，所述多个经渲染信号中的每个经渲染信号是包括左通道和右通道的双耳信号。

7.如权利要求1至6中任一项所述的方法，其中，所述多个经渲染信号包括前信号和后信号，其中，所述前信号包括左前通道和右前通道，并且其中，所述后信号包括左后通道和右后通道。

8.如权利要求1至6中任一项所述的方法，其中，所述多个经渲染信号包括前信号、后信号和另一个信号，其中，所述前信号包括左前通道和右前通道，其中，所述后信号包括左后通道和右后通道，并且其中，所述另一个信号是不成对的通道。

9.如权利要求1至8中任一项所述的方法，进一步包括：

从多个扬声器输出所述多个经渲染信号。

10.如权利要求1至9中任一项所述的方法，进一步包括：

将所述多个经渲染信号组合为联合经渲染信号；

生成将所述联合经渲染信号与所述多个经渲染信号关联的元数据；以及

将所述联合经渲染信号和所述元数据提供给扬声器系统。

11.如权利要求10所述的方法，进一步包括：

由所述扬声器系统使用所述元数据从所述联合经渲染信号生成所述多个经渲染信号；以及

从多个扬声器输出所述多个经渲染信号。

12.如权利要求1至11中任一项所述的方法，进一步包括：

生成头部跟踪数据；

基于所述头部跟踪数据，计算前延迟、第一前组滤波器参数、第二前组滤波器参数、后延迟、第一后组滤波器参数和第二后组滤波器参数；

针对包括第一通道信号和第二通道信号的前双耳信号：

通过将所述前延迟和所述第一前组滤波器参数施加于所述第一通道信号来生成第一经修改的通道信号；

通过将所述第二前组滤波器参数施加于所述第二通道信号来生成第二经修改的通道信号；

针对包括第三通道信号和第四通道信号的后双耳信号：

通过将所述第二后组滤波器参数施加于所述第三通道信号来生成第三经修改的通道信号；

通过将所述后延迟和所述第一后组滤波器参数施加于所述第四通道信号来生成第四经修改的通道信号；

从第一前扬声器输出所述第一经修改的通道信号；

从第二前扬声器输出所述第二经修改的通道信号；

从第一后扬声器输出所述第三经修改的通道信号；以及

从第二后扬声器输出所述第四经修改的通道信号。

13.一种非暂态计算机可读介质，所述非暂态计算机可读介质存储计算机程序，所述计算机程序在由处理器执行时控制装置执行包括如权利要求1至12中任一项所述的方法的处理。

14.一种用于渲染音频的装置，所述装置包括：

处理器；以及

存储器，

其中，所述处理器被配置为接收空间音频信号，其中，所述空间音频信号包括用于渲染音频的位置信息，

其中，所述处理器被配置为处理所述空间音频信号，以基于所述位置信息确定多个权重，并且

其中，所述处理器被配置为渲染所述空间音频信号以形成多个经渲染信号，其中，根据所述多个权重对所述多个经渲染信号进行幅度加权，并且其中，所述多个经渲染信号包括根据所述多个权重进行幅度加权的多个双耳信号。

15.如权利要求14所述的装置，进一步包括：

左前扬声器，所述左前扬声器被配置为输出所述多个双耳信号中的前双耳信号的左通道；

右前扬声器，所述右前扬声器被配置为输出所述前双耳信号的右通道；

左后扬声器，所述左后扬声器被配置为输出所述多个双耳信号中的后双耳信号的左通道；以及

右后扬声器，所述右后扬声器被配置为输出所述后双耳信号的右通道，

其中，所述多个权重对应于施加于所述左前扬声器和所述左后扬声器以及施加于所述右前扬声器和所述右后扬声器的前后视角。

16.如权利要求15所述的装置，进一步包括：

安装结构，所述安装结构被适配于将所述左前扬声器、所述左后扬声器、所述右前扬声器和所述右后扬声器定位在收听者的头部周围。

17.如权利要求14至16中任一项所述的装置，其中，所述处理器被配置为渲染所述空间音频信号以形成所述多个经渲染信号包括：

其中，所述处理器被配置为渲染所述空间音频信号以生成中间经渲染信号；并且

其中，所述处理器被配置为根据所述多个权重对所述中间信号进行加权，以生成所述多个经渲染信号。

18.如权利要求14至17中任一项所述的装置，其中，所述多个权重对应于施加于所述位置信息的前后视角。

19.如权利要求14至18中任一项所述的装置，其中，所述处理器被配置为渲染所述空间音频信号以形成所述多个经渲染信号对应于：所述处理器被配置为根据所述多个权重在幅度加权的基础上分割所述空间音频信号。

20.如权利要求14至19中任一项所述的装置，其中，所述空间音频信号包括多个音频对象，其中，所述多个音频对象中的每个音频对象与所述位置信息的相应位置相关联；

其中，所述处理器被配置为处理所述空间音频信号包括：其中，所述处理器被配置为处理所述多个音频对象以提取所述位置信息；并且