CN116615919A

CN116615919A - 双耳信号的后处理

Info

Publication number: CN116615919A
Application number: CN202180085410.9A
Authority: CN
Inventors: D·J·布莱巴特; G·琴加莱; C·P·布朗
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2020-12-17
Filing date: 2021-12-16
Publication date: 2023-08-18

Abstract

一种音频处理方法包括：对双耳信号执行空间分析，以估计表征所述双耳信号的双耳滤波器的电平差和相位差；使用所估计的电平差和相位差对所述双耳音频信号执行对象提取，以生成左/右主分量信号和左/右残余分量信号。系统可以使用不同的对象处理参数对左/右主分量和左/右残余分量进行不同的处理，例如，进行重新定位、均衡、压缩、上混、声道重新映射或存储，以便生成处理后的双耳信号，从而提供改进的聆听体验。重新定位可以基于头部跟踪传感器数据。

Description

双耳信号的后处理

相关申请的交叉引用

本申请要求于2021年3月2日提交的美国临时专利申请号63/155,471以及于2020年12月17日提交的西班牙专利申请号P202031265的优先权权益，这两个专利申请通过引用并入本文。

技术领域

本公开涉及音频处理，并且具体地涉及双耳音频信号的后处理。

背景技术

除非本文另外指示，否则本节中描述的方法不是本申请中的权利要求的现有技术，并且并不由于包含在本节中而被承认是现有技术。

音频源分离通常是指从音频混音中提取特定分量，以便分离或操纵存在于其他声音混合中的对象的电平、位置或其他属性。源分离方法可以基于代数推导、使用机器学习等进行。在提取之后，可以应用一些操纵，然后可能是将所分离的分量与背景音频进行混合。同样对于立体声或多声道音频，存在许多关于如何分离或操纵特定空间位置处的存在于混音中的对象的模型。这些模型基于线性实值混合模型，例如，假设用于提取或操纵的感兴趣对象通过线性的频率不相关增益而存在于混音信号中。换言之，对于对象信号x_i(其中，i为对象索引)和混音信号s_j，所假设的模型使用未知的线性增益g_ij，如等式(1)所示：

双耳音频内容(例如，用于在头戴式耳机上播放的立体声信号)正变得广泛可用。双耳音频的源包括渲染的双耳音频和捕获的双耳音频。

渲染的双耳音频通常是指通过计算生成的音频。例如，基于对象的音频(比如Dolby Atmos^TM音频)可以通过使用头部相关传递函数(HRTF)为头戴式耳机进行渲染，所述传递函数引入耳间时间差(ITD)和耳间电平差(ILD)、以及发生在人耳内的反射。如果操作得当，则感知的对象位置可以被操纵到听者周围的任何地方。另外，可以添加房间反射和后期混响以创建一种感知距离感。具有双耳渲染器以将声源对象定位在听者周围的一种产品是Dolby Atmos Production Suite^TM(DAPS)系统。

捕获的双耳音频通常是指通过捕获耳朵处的麦克风信号而生成的音频。捕获双耳音频的一种方式是将麦克风放置在仿真头的耳朵处。另一种方式通过无线入耳式耳机市场的强劲增长得以实现；因为入耳式耳机也可能包含麦克风(例如，用于打电话)，因此捕获双耳音频对消费者来说变得很容易。

对于渲染的双耳音频和捕获的双耳音频两者，通常期望进行某种形式的后处理。这种后处理的示例包括：对场景进行重新定向或旋转以补偿头部移动；重新平衡特定对象相对于背景的电平，例如，增强语音或对话的电平、衰减背景声音和房间混响等；对混音内的或仅在特定方向上(比如在听者前面)的特定对象进行均衡或动态范围处理；等等。

发明内容

用于音频后处理的现有系统存在许多问题。一个问题是许多现有的信号分解(decomposition)和上混(upmixing)过程都使用线性增益。尽管线性增益对于如立体声音频等基于声道的信号效果尚好，但它们对于双耳音频的效果并不好，因为双耳音频具有频率相关的电平差和时间差。需要对于双耳音频效果尚好的改进的上混过程。

尽管存在用于重新定向或旋转双耳信号的方法，但这些方法通常操作用于执行由于在完整混音或仅相干元素上发生旋转而导致的相对变化。需要将双耳渲染的对象从混音中分离出来，并基于不同的对象执行不同的处理。

实施例涉及一种用于从双耳再现(rendition)或双耳捕获(capture)中提取和处理一个或多个对象的方法。所述方法的重点在于：(1)对渲染期间使用的或存在于捕获中的HRTF属性进行估计；(2)基于对所估计的HRTF属性的估计进行源分离；以及(3)对所分离的源中的一个或多个进行处理。

根据实施例，一种计算机实施的音频处理方法包括：对双耳信号执行信号变换，所述信号变换包括将双耳信号从第一信号域变换到第二信号域；以及生成变换后的双耳信号，其中，第一信号域为时域，并且第二信号域为频域。所述方法进一步包括对变换后的双耳信号执行空间分析，其中，执行空间分析包括生成估计渲染参数，并且其中，估计渲染参数包括电平差和相位差。所述方法进一步包括使用估计渲染参数的至少第一子集从变换后的双耳信号中提取估计对象，其中，提取估计对象包括生成左主分量信号、右主分量信号、左残余分量信号和右残余分量信号。所述方法进一步包括使用估计渲染参数的至少第二子集对估计对象执行对象处理，其中，执行对象处理包括基于左主分量信号、右主分量信号、左残余分量信号和右残余分量信号来生成处理信号。

因此，由于系统能够对双耳信号应用不同的频率相关的电平差和时间差，因此听者体验得到了改善。

生成处理信号可以包括：使用第一组对象处理参数，从左主分量信号和右主分量信号生成左主处理信号和右主处理信号；以及使用第二组对象处理参数，从左残余分量信号和右残余分量信号生成左残余处理信号和右残余处理信号。第二组对象处理参数不同于第一组对象处理参数。以这种方式，主分量可以以与残余分量不同的方式进行处理。

根据另一实施例，一种装置包括处理器。所述处理器被配置为控制所述装置以实施本文所描述的方法中的一种或多种方法。所述装置可以另外包括与本文所描述的方法中的一种或多种方法的细节类似的细节。

根据另一个实施例，一种非暂态计算机可读介质存储计算机程序，所述计算机程序在由处理器执行时控制装置以执行包括本文所描述的方法中的一种或多种方法的处理。

以下详细描述和附图提供了对各个实施方式的性质和优点的进一步理解。

附图说明

图1是音频处理系统100的框图。

图2是对象处理系统208的框图。

图3A和图3B图示了与重新渲染有关的对象处理系统108(参见图1)的实施例。

图4是对象处理系统408的框图。

图5是对象处理系统508的框图。

图6是根据实施例的用于实施本文描述的特征和过程的设备架构600。

图7是音频处理方法700的流程图。

具体实施方式

本文描述了与音频处理有关的技术。在以下描述中，出于解释的目的，阐述了许多示例和具体细节以便提供对本公开的透彻理解。然而，对于本领域技术人员显而易见的是，如由权利要求限定的本公开可以单独地或与以下描述的其他特征组合地包括这些示例中的一些或全部特征，并且可以进一步包括本文所描述的特征和概念的修改和等同物。

在以下描述中，详细描述了各种方法、过程和程序。虽然可能以某个顺序描述了特定步骤，但这种顺序主要是为了方便和清楚。特定步骤可以重复执行一次以上，可以在其他步骤之前或之后发生，即使这些步骤另外以另一种顺序描述，并且可以与其他步骤并行发生。仅当必须在开始第二步骤之前完成第一步骤时，才需要在第一步骤之后进行第二步骤。当从上下文中不清楚时，将具体指出这种情况。

在本文档中，使用术语“和”、“或”以及“和/或”。这种术语应被理解为具有包含性含义。例如，“A和B”至少可以意指以下含义：“A和B两者”、“至少A和B两者”。作为另一个示例，“A或B”至少可以意指以下含义：“至少A”、“至少B”、“A和B两者”、“至少A和B两者”。作为另一个示例，“A和/或B”至少可以意指以下含义：“A和B”、“A或B”。当打算使用异或时，这将明确指出，例如，“要么A要么B”、“A和B中的至多一个”等。

本文档描述了与如块、元件、部件、电路等结构相关联的各种处理功能。通常，这些结构可以通过由受到一个或多个计算机程序控制的处理器来实施。

1.双耳后处理系统

如下文更详细讨论的，实施例描述了一种方法，所述方法用于从双耳混合中提取一个或多个分量，并且另外用于估计所述一个或多个分量的位置或渲染参数，所述参数(1)与频率相关并且(2)包括相对时间差。这使得实现以下各项中的一项或多项：在双耳再现或捕获中准确地操纵一个或多个对象的位置；在双耳再现或捕获中对一个或多个对象进行处理，其中，所述处理取决于每个对象的估计位置；以及源分离，其包括从双耳再现或捕获中估计每个源的位置。

图1是音频处理系统100的框图。音频处理系统100可以通过由一个或多个处理器执行的一个或多个计算机程序来实施。处理器可以是实施音频处理系统100的功能的设备(比如头戴式耳麦、头戴式耳机、移动电话、膝上型计算机等)的部件。音频处理系统100包括信号变换系统102、空间分析系统104、对象提取系统106和对象处理系统108。音频处理系统100可以包括(为了简洁)未详细讨论的其他部件和功能。通常，在音频处理系统100中，首先由信号变换系统102使用时频变换来处理双耳信号。随后，空间分析系统104估计渲染参数(例如，双耳渲染参数)，所述渲染参数包括应用于一个或多个对象的电平差和时间差。随后，这一个或多个对象由对象提取系统106进行提取和/或由对象处理系统108进行处理。以下段落提供了每个部件的更多细节。

信号变换系统102接收双耳信号120，对双耳信号120执行信号变换，并生成变换后的双耳信号122。信号变换包括将双耳信号120从第一信号域变换到第二信号域。第一信号域可以为时域，并且第二信号域可以为频域。信号变换可以是多种时频变换之一，包括如快速傅立叶变换(FFT)或离散傅立叶变换(DFT)等傅立叶变换、正交镜像滤波器(QMF)变换、复数QMF(CQMF)变换、混合CQMF(HCQMF)变换等。信号变换可能产生复值信号。

通常，信号变换系统102对双耳信号120提供一些时频分离，从而产生变换后的双耳信号122。例如，信号变换系统102可以变换双耳信号120的块或帧，例如，10到100ms的块，比如20ms的块。变换后的双耳信号122于是对应于双耳信号120的每个变换块的一组时频片(time-frequency tiles)。时频片的数量取决于由信号变换系统102实施的频带的数量。例如，信号变换系统102可以由具有10到100个频带(比如20个频带)的滤波器组来实施，在这种情况下，变换后的双耳信号122具有一样数量的时频片。

空间分析系统104接收变换后的双耳信号122，对变换后的双耳信号122执行空间分析，并生成多个估计渲染参数124。通常，估计渲染参数124对应于头部相关传递函数(HRTF)、头部相关脉冲响应(HRIR)、双耳房间脉冲响应(BRIR)等的参数。估计渲染参数124包括：如下文更详细讨论的多个电平差——参数h；以及如下文更详细讨论的多个相位差——参数φ。

对象提取系统106接收变换后的双耳信号122以及估计渲染参数124，使用估计渲染参数124对变换后的双耳信号122执行对象提取，并生成多个估计对象126。通常，对象提取系统106为变换后的双耳信号122的每个时频片生成一个对象。例如，对于100个时频片，估计对象的数量为100。

每个估计对象可以表示为一个主分量信号(下文表示为x)和一个残余分量信号(下文表示为d)。主分量信号可以包括左主分量信号x_l和右主分量信号x_r；残余分量信号可以包括左残余分量信号d_l和右残余分量信号d_r。于是，对于每个时频片，估计对象126包括四个分量信号。

对象处理系统108接收估计对象126和估计渲染参数124，使用估计渲染参数124对估计对象126执行对象处理，并生成处理信号128。对象处理系统108使用的估计渲染参数124的子集可以不同于对象提取系统106所使用的估计渲染参数的子集。对象处理系统108可以实施多个不同的对象处理过程，如下文进一步详述的。

2.空间分析和对象提取

如由空间分析系统104和对象提取系统106所实施的那样，音频处理系统100可以执行多个计算作为执行空间分析和对象提取的一部分。这些计算可以包括HRTF估计、相位展开、对象估计、对象分离和相位对齐中的一项或多项。

2.1HRTF估计

在下文中，假设信号存在于子带和时间帧中，使用提供复值信号的时频变换(例如，DFT、CQMF、HCQMF等)。在每个时频片内，假设可以对复值双耳信号对(l[n]，r[n)(其中，n为频率或时间索引)进行建模，如等式(2a-2b)所示：

复数相位角φ_l和φ_r表示由HRTF在窄子带内引入的相移；h_l和h_r表示应用于主分量信号x的HRTF的大小；并且d_l、d_r是两个未知的残余信号。在大多数情况下，关注的点不在于HRTF的绝对相位φ_l和φ_r；而是，可以使用耳间相位差(IPD)φ。将IPDφ推向右声道信号，信号模型可以用等式(3a-3b)表示：

l[n]＝h_lx[n]+d_l[n](3a)

r[n]＝h_rx[n]e^-jφ+d_r[n](3b)

类似地，可能最感兴趣的是对头影效应(例如，耳间电平差ILD)的估计，因此可以使用实值头影衰减h来编写模型，如等式(4a-4b)所示：

l[n]＝x[n]+d_l[n](4a)

r[n]＝hx[n]e^-jφ+d_r[n](4b)

假设残余信号的内积的期望值为零，如等式(5)所示：

<d_l d_r ^*>＝0(5)

另外，假设信号x与任何一个残余信号的内积的期望值也是零，如等式(6)所示：

<xd_l ^*>＝<xd_r ^*>＝0(6)

最后，还需要这两个残余信号具有相等的能量，如等式(7)所示：

<d_l d_l ^*>＝<d_r d_r ^*>＝<dd^*>(7)

然后，根据等式(8)直接获得相对IPD相位角φ：

φ＝∠<lr^*>(8)

换言之，每个时频片的相位差被计算为变换后的双耳信号(例如，图1中的122)的左分量l与变换后的双耳信号的右分量r^*的内积的相位角。

然后，通过应用相对相位角创建修改后的右声道信号r，如等式(9)所示：

r′[n]＝r[n]e^+jφ＝hx[n]+d_r[n]e^+jφ(9)

根据加权组合从l[n]和r′[n]估计主分量如等式(10)所示：

在等式(10)中，插入符号或帽子符号^表示估计值，并且权重w′r可以根据等式(11)进行计算：

w′_r＝W_re^-jφ(11)

可以根据等式(12)来表述代价函数E_x：

E_x′＝||x-w_l(x+d_l)-w′_r(hx+d_re^+jφ)||²(12)

将偏导数和/>设置为零得出等式(13a-13b)：

然后，可以写出等式(14a-14c)：

<l l^*>＝<x x^*>+<d d^*>(14a)

<r′r′^*>＝<x x^*>h²+<d d^*>(14b)

<(l+r′)(l+r′)^*>＝<m m^*>＝<x x^*>(1+h)²+2<d d^*>＝<x x^*>(1+2h+h²)+2<d d^*>(14c)

代入得到等式(15a-15i)：

<d d^*>＝<l l^*>-<x x^*>＝<r′r′^*>-<x x^*>h²(15a)

h²(<m m^*>-<l l^*>-<r′r′^*>)+2h(<l l^*>-<r′r′^*>)-<m m^*>+<l l^*>+《r′r′^*>＝0(15d)

h²A+hB+C＝0(15e)

A＝<m m^*>-<l l^*>-<r′ r′^*>(15f)

B＝2((l l^*>-<r′r′^*>)(15g)

C＝-<m m^*>+<l l^*>+《r′r′^*>(15h)

D＝B²-4AC(15i)

然后，等式(15a-15i)给出存在于HRTF中的电平差h的解，如等式(16)所示：

换言之，每个时频片的电平差是根据基于变换后的双耳信号的左分量、变换后的双耳信号的右分量、以及相位差的二次方程来计算的。变换后的双耳信号的左分量的示例是图1中的122的左分量，并且在表达式A、B和C中由变量l和l^*表示。变换后的双耳信号的右分量的示例是122的右分量，并且在表达式A、B和C中由变量r′和r′^*表示。相位差的示例是估计渲染参数124的相位差信息，并且在等式(8)中由IPD相位角φ表示，其被用于根据等式(9)计算r′。

作为具体的示例，空间分析系统104(参见图1)可以通过使用等式(1-16)对变换后的双耳信号122进行操作来估计HRTF，特别是使用等式(8)生成IPD相位角φ并使用等式(16)生成电平差h，作为生成估计渲染参数124的一部分。

2.2相位展开

在前一部分中，根据等式(8)，所估计的IPDφ始终被包裹在两pi的区间内。为了准确地确定给定对象的位置，需要展开相位。通常，展开是指在给定由包裹的IPD指示的多个可能位置的情况下使用相邻频带来确定最可能的位置。为了展开相位，可以采用各种策略：基于证据的展开和基于模型的展开。

2.2.1基于证据的展开

对于基于证据的相位展开，可以使用来自相邻频带的信息来推导对展开的IPD的最佳估计。假设具有3个相邻子带b-1、b和b+1的IPD估计值，表示为φ_b-1，φ_b，φ_b+1。然后，通过等式(17)给出频带b的展开相位候选

根据等式(18)，每个候选都具有相关联的ITD/>

在等式(18)中，f_b表示频带b的中心频率。还具有了每个频带中主分量的总能量的估计值，其通过等式(19)给出：

因此，可以根据等式(20)对频带b的互相关函数(表示为R_b(τ))进行建模，所述互相关函数作为该频带中主分量x_b的ITD^τ的函数：

现在可以针对每个展开的IPD候选积累相邻频带v间的能量，并取最大值作为以单个ITD占据整个频带上的大部分能量的估计值，如等式(21)：

换言之，所述系统能够执行以下操作：在每个频带中估计左主分量信号和右主分量信号的总能量；基于每个频带计算互相关；以及基于互相关、根据相邻频带间的能量为每个频带选择适当的相位差。

2.2.2基于模型的展开

对于基于模型的展开，在例如根据等式(16)给定头影参数h的估计的情况下，可以使用简单的HRTF模型(例如，球状头部模型)来找到在给定频带b中h值的情况下的最佳值。换言之，找到与给定头影大小的大小相匹配的最佳展开相位。这种展开可以在给定模型和各个频带中h的值的情况下通过计算来执行。换言之，系统根据给定频带的应用于头部相关传递函数的电平差从多个候选相位差中为所述给定频带选择适当的相位差。

作为具体的示例，对于两种类型的展开，空间分析系统104(参见图1)可以执行相位展开，作为生成估计渲染参数124的一部分。

2.3主要对象估计

在根据等式(15a)、(15b)和(16)对<x x^*>、<d d^*>和h进行估计之后，可以计算权重w_l、w′_r。另请参见等式(10-11)。将上文的等式(13a-13b)作为等式(22a-22b)进行重复：

然后，可以根据等式(23a-23b)计算权重w_l、w′b_r：

作为具体的示例，空间分析系统104(参见图1)可以通过生成权重来执行主要对象估计，作为生成估计渲染参数124的一部分。

2.4主要对象与残余对象的分离

系统可以估计两个双耳信号对：一对用于渲染的主分量，而另一对用于残余分量。渲染的主分量对可以表示为等式(24a-24b)：

在等式(24a-24b)中，信号l_x[n]对应于左主分量信号(例如，图2中的220)，并且信号r_x[n]对应于右主分量信号(例如，图2中的222)。等式(24a-24b)可以由上混矩阵M表示，如等式(25)所示：

残余信号l_d[n]和r_d[n]可以根据等式(26)进行估计：

在等式(26)中，信号l_d[n]对应于左残余分量信号(例如，图2中的224)，并且信号r_d[n]对应于右残余分量信号(例如，图2中的226)。

完美的重建要求给出了D的表达式，如等式(27)所示：

D＝I-M(27)

在等式(27)中，I对应于单位矩阵。

作为具体的示例，对象提取系统106(参见图1)可以执行主要对象估计，作为生成估计对象126的一部分。然后可以将估计对象126例如作为分量信号220、222、224和226(参见图2)提供给对象处理系统(例如，图1中的108、图2中的208等)。

2.5整体相位对齐

到目前为止，所有相位对齐都被应用到右声道和右声道预测系数，参见例如等式(9)。为了得到更平衡的分布，一种策略是按照等式m＝l+r将所提取的主分量和残余分量的相位与下混m对齐。然后，要应用于这两个预测系数的相移θ将如等式(28)所示：

然后使用相移θ对等式(10)和(23a-23b)的权重等式进行修改，以便根据等式(29a-29b)给出信号的最终预测系数：

w_l，θ＝w_le^+jθ(29a)

w_r，θ＝w_re^jθ＝w′_re^+jφe^+jθ(29b)

这使得对等式(25)进行修改，得到等式(30)：

因此，子混音提取矩阵M不会随θ而改变，但用于计算的预测系数的确取决于θ，如等式(31)所示：

最后，对的重新渲染由等式(32)给出：

作为具体的示例，空间分析系统104(参见图1)可以执行整体相位对齐的一部分(其为生成权重的一部分)作为生成估计渲染参数124的一部分，并且对象提取系统106可以执行整体相位对齐的一部分作为生成估计对象126的一部分。

3.对象处理

如上文所述的，对象处理系统108可以实施多个不同的对象处理过程。这些对象处理过程包括重新定位、电平调整、均衡、动态范围调整、咝声消除、多频带压缩、沉浸感提升、环绕感提升、上混、转换、声道重新映射、存储和归档中的一者或多者。重新定位通常是指在感知的音频场景中使一个或多个已识别对象进行移动，例如，通过调整经处理的双耳信号中左分量信号和右分量信号的HRTF参数。电平调整通常是指调整感知的音频场景中一个或多个已识别对象的电平。均衡通常是指通过应用频率相关增益来调整一个或多个已识别对象的音色。动态范围调整通常是指将一个或多个已识别对象的响度调整为落在定义的响度范围内，例如，调整话语声音使得近处的说话者不会被认为声太大而远处的说话者不会被认为声太轻。咝声消除(De-essing)通常是指减少咝声(sibilance)，例如，降低听者对如“s”、“sh”、“x”、“ch”、“t”、“th”等刺耳辅音的感知。多频带压缩通常是指对一个或多个已识别对象的不同频带应用不同的响度调整，例如，以降低噪声频带的响度和响度范围并提高话语频带的响度。沉浸感提升通常是指调整一个或多个已识别对象的参数以匹配如视频信号等其他感官信息，例如，将移动的声音与移动的3维视频像素集相匹配、调整干/湿平衡使得回声与感知的视觉房间尺寸相对应等。环绕感提升通常是指调整一个或多个已识别对象的位置，以增强声音源自听者周围的感知。上混、转换和声道重新映射通常是指将一种类型的声道布置改变为另一种类型的声道布置。上混通常是指增加音频信号的声道数量，例如，将2声道信号(比如双耳音频)上混为12声道信号(比如7.1.4声道环绕声)。转换通常是指减少音频信号的声道数量，例如，将6声道信号(比如5.1声道环绕声)转换为2声道信号(比如立体声音频)。声道重新映射通常是指包括上混和转换两者的操作。存储和归档通常是指将双耳信号存储为具有相关联元数据的一个或多个提取对象、以及一个双耳残余信号。

可以使用各种音频处理系统和工具来执行对象处理过程。这种音频处理系统的示例包括Dolby Atmos Production Suite^TM(DAPS)系统、Dolby Volume^TM系统、Dolby MediaEnhance^TM系统、Dolby^TM移动捕获音频处理系统等。

下图提供了音频处理系统100的各种实施例中的对象处理的更多细节。

图2是对象处理系统208的框图。对象处理系统208可以用作对象处理系统108(参见图1)。

对象处理系统208接收左主分量信号220、右主分量信号222、左残余分量信号224、右残余分量信号226、第一组对象处理参数230、第二组对象处理参数232、以及估计渲染参数124(参见图1)。分量信号220、222、224和226是对应于估计对象126(参见图1)的分量信号。估计渲染参数124包括由空间分析系统104(参见图1)计算的电平差和相位差。

对象处理系统208使用对象处理参数230以便从左主分量信号220和右主分量信号222生成左主处理信号240和右主处理信号242。对象处理系统208使用对象处理参数232以便从左残余分量信号224和右残余分量信号226生成左残余处理信号244和右残余处理信号246。处理信号240、242、244和246对应于处理信号128(参见图1)。对象处理系统208可以执行直接馈送处理，例如，仅从左(或右)主(或残余)分量信号生成左(或右)主(或残余)处理信号。对象处理系统208可以执行交叉馈送处理，例如，从左和右主(或残余)分量信号两者生成左(或右)主(或残余)处理信号。

在生成处理信号240、242、244和246中的一个或多个时，对象处理系统208可以使用估计渲染参数124中的一个或多个电平差和一个或多个相位差，这取决于所执行处理的特定类型。作为一个示例，重新定位使用电平差中的至少一些(例如，全部)，并使用相位差中的至少一些(例如，全部)。作为另一个示例，电平调整使用电平差中的至少一些(例如，全部)，而不使用相位差的全部(例如，绝不使用相位差)。作为另一个示例，重新定位不使用电平差的全部(例如，绝不使用电平差)，而使用相位差中的至少一些(例如，低频，比如低于1.5kHz的频率)。仅使用低频是可接受的，因为高于这些频率的声道间相位差对感知源的位置没有太大作用，但是改变相位会导致可听伪影。因此，仅调整低频相位差而使高频相位差保持不变可能是音频质量与感知位置之间更好的权衡。

对象处理参数230和232使得对象处理系统208能够使用一组参数来处理主分量信号220和222，并使用另一组参数来处理残余分量信号224和226。这允许在执行上文讨论的不同对象处理过程时对主分量和残余分量进行不同的处理。例如，在进行重新定位时，主分量可以如对象处理参数230所确定的那样进行重新定位，其中，对象处理参数232使得残余分量不变。作为另一个示例，在进行多频带压缩时，可以使用对象处理参数230来压缩主分量的频带，并且可以使用不同的对象处理参数232来压缩残余分量的频带。

对象处理系统208可以包括用于执行附加处理步骤的附加部件。一个附加部件是逆变换系统。逆变换系统对处理信号240、242、244和246执行逆变换以生成时域中的处理信号。逆变换是由信号变换系统102(参见图1)执行的变换的逆过程。

另一个附加部件是时域处理系统。一些音频处理技术在时域中效果尚好，比如延迟效果、回声效果、混响效果、音调转换和音色修改。在逆变换系统之后实施时域处理系统使得对象处理系统208能够对处理信号执行时域处理，以生成修改后的时域信号。

对象处理系统208的细节在其他方面可以类似于对象处理系统108的细节。

图3A至图3B图示了与重新渲染有关的对象处理系统108(参见图1)的实施例。图3A是可以用作对象处理系统108的对象处理系统308的框图。对象处理系统308接收左主分量信号320、右主分量信号322、左残余分量信号324、右残余分量信号326和传感器数据330。分量信号320、322、324和326是对应于估计对象126(参见图1)的分量信号。传感器数据330对应于由位于如头戴式耳麦、头戴式耳机、入耳式耳机、麦克风等设备中的传感器(比如陀螺仪或其他类型的头部跟踪传感器)生成的数据。

对象处理系统308使用传感器数据330以便基于左主分量信号320和右主分量信号322生成左主处理信号340和右主处理信号342。对象处理系统308从传感器数据330生成左残余处理信号344和右残余处理信号346，而无需进行修改。对象处理系统308可以以与对象处理系统208(参见图2)类似的方式来使用直接馈送处理或交叉馈送处理。对象处理系统308可以使用双耳平移来生成主处理信号340和342。换言之，主分量信号320和322被视为应用双耳平移的对象，并且残余分量信号324和326中的扩散声音不变。

替代性地，对象处理系统308可以从左主分量信号320和右主分量信号322生成单耳对象，并且可以使用传感器数据330对单耳对象执行双耳平移。对象处理系统308可以使用相位对齐的下混来生成单耳对象。

此外，随着头部跟踪系统成为高端入耳式耳机和头戴式耳机产品的共同特征，可以实时了解听者的取向并相应地旋转场景，例如，在虚拟现实、增强现实或其他沉浸式媒体应用中进行。然而，除非有基于对象的呈现可供使用，否则在渲染的双耳呈现上，旋转方法的有效性和质量是有限的。为了解决这一问题，对象提取系统106(参见图1)对主分量进行分离并估计其位置，并且对象处理系统308将主分量视为对象并应用双耳平移，而同时不触及残余分量中的扩散声音。这实现以下应用。

一个应用是对象处理系统308根据听者的视角旋转音频场景，同时使对象传达的定位保持准确，而不损害残余对象中通过环境传达的音频场景中的空间感。

另一个应用是对象处理系统308补偿在使用双耳入耳式耳机或麦克风进行录音时发生的不想要的头部旋转。头部旋转可以从主分量的位置推断出来。例如，如果假设主分量应该保持静止，则可以补偿每个检测到的位置变化。头部旋转还可以通过与音频录制同步地获取头部跟踪数据推断出来。

图3B是可以用作对象处理系统108(参见图1)的对象处理系统358的框图。对象处理系统358接收左主分量信号370、右主分量信号372、左残余分量信号374、右残余分量信号376和配置信息380。分量信号370、372、374和376是对应于估计对象126(参见图1)的分量信号。配置信息380对应于用于上混、转换或声道重新映射的声道布局。

对象处理系统358使用配置信息380来生成多声道输出信号390。多声道输出信号390则与如配置信息380中指定的特定声道布局相对应。例如，当配置信息380指定上混到5.1声道环绕声时，对象处理系统执行上混以从分量信号370、372、374和376生成5.1声道环绕声声道信号的六个声道。

更具体地，如果希望保留双耳录音的空间特性，则通过扬声器布局播放所述录音会带来一些挑战。通常的解决方案涉及串扰消除，并且往往只对扬声器前面非常小的收听区域有效。通过使用主分量与残余分量的分离并推断主分量的位置，对象处理系统358能够将主分量视为其相关联位置随时间变化的动态对象，所述动态对象可以被准确地渲染到各种扬声器布局。对象处理系统358可以使用2到N声道上混器来处理扩散分量，以形成沉浸式的基于声道的音床(bed)；由主分量产生的动态对象和由残余分量产生的基于声道的音床一起带来原始双耳录音在任一组扬声器上的沉浸式呈现。用于生成扩散内容的上混的示例系统可以如以下文献所述，在所述文献中，扩散内容去相关并根据正交矩阵进行分布：MarkVinton、David McGrath、Charles Robinson和Phillip Brown，“Next GenerationSurround Decoding and Upmixing for Consumer and Professional Applications[用于消费者和专业应用的下一代环绕声解码和上混]”，第57届国际会议：音频娱乐技术的未来——电影、电视和互联网(2015年3月)。

与许多现有系统相比，这种时频分解的优势在于重新平移可以因对象而异，而不是随着头部的移动而旋转整个声场。另外，在许多现有系统中，信号中会添加额外的耳间时间延迟(ITD)，这可能导致比本来更大的延迟。与这些现有系统相比，对象处理系统358有助于克服这些问题。

图4是可以用作对象处理系统108(参见图1)的对象处理系统408的框图。对象处理系统408接收左主分量信号420、右主分量信号422、左残余分量信号424、右残余分量信号426和配置信息430。分量信号420、422、424和426是对应于估计对象126(参见图1)的分量信号。配置信息430对应于用于语音改进处理的配置设置。

对象处理系统408使用配置信息430以便基于左主分量信号420和右主分量信号422生成左主处理信号440和右主处理信号442。对象处理系统408从配置信息430生成左残余处理信号444和右残余处理信号446，而无需进行修改。对象处理系统408可以以与对象处理系统208(参见图2)类似的方式来使用直接馈送处理或交叉馈送处理。对象处理系统408可以使用由配置信息430提供的手动语音改进处理参数，或者配置信息430可以对应于由语音改进处理系统进行的自动处理的设置，所述系统比如是在国际申请公开号WO 2020/014517中描述的系统。换言之，主分量信号420和422被视为应用语音改进处理的对象，并且残余分量信号424和426中的扩散声音不变。

更具体地说，如播客和视频日志等语音内容的双耳录音通常包含伴随语音而存在的上下文环境声音，比如人群噪声、自然声音、城市噪声等。通常期望在不影响背景声音的情况下提高语音质量，例如，提高其电平、音调和动态范围。分离成主分量和残余分量允许对象处理系统408执行独立处理；可以基于配置信息430对主分量应用电平调整、均衡、咝音降低和动态范围调整。在处理之后，对象处理系统408将信号重新组合成处理信号440、442、444和446，以形成增强的双耳呈现。

图5是可以用作对象处理系统108(参见图1)的对象处理系统508的框图。对象处理系统508接收左主分量信号520、右主分量信号522、左残余分量信号524、右残余分量信号526和配置信息530。分量信号520、522、524和526是对应于估计对象126(参见图1)的分量信号。配置信息530对应于用于电平调整处理的配置设置。

对象处理系统508使用配置信息530中的第一组电平调整值以便基于左主分量信号520和右主分量信号522生成左主处理信号540和右主处理信号542。对象处理系统508使用配置信息530中的第二组电平调整值以便基于左残余分量信号520和右残余分量信号522生成左残余处理信号540和右残余处理信号542。对象处理系统508可以以与对象处理系统208(参见图2)类似的方式来使用直接馈送处理或交叉馈送处理。

更具体地，在混响环境(比如大型室内空间、具有反射表面的房间等)中进行的录音可能包含大量的混响，尤其是当感兴趣的声源未靠近麦克风时。过度的混响会降低声源的可理解性。在双耳录音中，混响和环境声音(例如，来自自然界或机械装置的非定位噪声)在左右声道中往往是不相关的，因此在应用分解之后主要保留在残余信号中。该特性允许对象处理系统508通过控制主分量和残余分量的相对电平以及然后将其求和成修改的双耳信号来控制录音中的环境量(例如，感知到的混响量)。修改的双耳信号则具有例如更少的残余以增强可理解性，或者具有更小的主分量以增强感知的沉浸感。

按照配置信息530设置的主分量和残余分量之间的期望平衡可以例如通过控制音量控制器或“平衡”旋钮来手动定义，或者可以基于对所述分量的相对电平的分析及其电平之间的期望平衡的定义来自动获得。在一个实施例中，这种分析是对整个录音中的主分量和残余分量的均方根(RMS)水平进行比较。在另一个实施例中，分析是随时间推移自适应完成的，并且主信号和残余信号的相对电平以时变方式相应地调整。对于语音内容，所述过程之前可以进行如语音活动检测等内容分析，以便以不同的方式修改语音部分或非语音部分期间主分量和残余分量的相对平衡。

4.硬件和软件细节

以下段落描述了与以上讨论的双耳后处理相关的各种硬件和软件细节。

图6是根据实施例的用于实施本文描述的特征和过程的设备架构600。可以在包括但不限于以下项的任何电子设备中实施架构600：台式计算机、消费类音频/视频(AV)设备、无线电广播设备、移动设备(例如智能手机、平板计算机、笔记本计算机、可穿戴设备等)。在示出的示例实施例中，架构600用于膝上型计算机并且包括(多个)处理器601、外围设备接口602、音频子系统603、扬声器604、麦克风605、传感器606(例如，加速度计、陀螺仪、气压计、磁力计、相机等)、位置处理器607(例如GNSS接收器等)、无线通信子系统608(例如Wi-Fi、蓝牙、蜂窝等)、以及(多个)I/O子系统609，所述I/O子系统包括触摸控制器610和其他输入控制器611、触摸表面612和其他输入/控制设备613。也可以使用具有更多或更少部件的其他架构来实施所公开的实施例。

存储器接口414耦合到处理器601、外围设备接口602和存储器615(例如闪存、RAM、ROM等)。存储器615存储有计算机程序指令和数据，包括但不限于：操作系统指令616、通信指令617、GUI指令618、传感器处理指令619、电话指令620、电子消息传输指令621、web浏览指令622、音频处理指令623、GNSS/导航指令624和应用程序/数据625。音频处理指令623包括用于执行本文所描述的音频处理的指令。

根据实施例，架构600可以对应于实施音频处理系统100(参见图1)的计算机系统(比如膝上型计算机)、本文描述的对象处理系统(例如，图2中的208、图3A中的308、图3B中的358、图4中的408、图5中的508等)中的一个或多个等等。

根据实施例，架构600可以对应于多个设备；多个设备可以经由如IEEE 802.15.1标准连接等有线或无线连接进行通信。例如，架构600可以对应于实施(多个)处理器601的计算机系统或移动电话和实施音频子系统603(比如扬声器)的头戴式耳麦；传感器606中的一个或多个，比如陀螺仪或其他头部跟踪传感器；等等。作为另一个示例，架构600可以对应于实施(多个)处理器601的计算机系统或移动电话和实施音频子系统603(比如麦克风和扬声器等)的入耳式耳机。

图7是音频处理方法700的流程图。方法700可以由具有图6的架构600的部件的设备(例如，膝上型计算机、移动电话等)来执行，以便例如通过执行一个或多个计算机程序来实施音频处理系统100(参见图1)、本文描述的对象处理系统(例如，图2中的208、图3A中的308、图3B中的358、图4中的408、图5中的508等)中的一个或多个等的功能。

在702处，对双耳信号执行信号变换。执行信号变换包括将双耳信号从第一信号域变换到第二信号域以及生成变换后的双耳信号。第一信号域可以为时域，并且第二信号域可以为频域。例如，信号变换系统102(参见图1)可以变换双耳信号120以生成变换后的双耳信号122。

在704处，对变换后的双耳信号执行空间分析。执行空间分析包括生成估计渲染参数，其中，估计渲染参数包括电平差和相位差。例如，空间分析系统104(参见图1)对变换后的双耳信号122执行空间分析以生成估计渲染参数124。

在706处，使用估计渲染参数的至少第一子集从变换后的双耳信号中提取估计对象。提取估计对象包括生成左主分量信号、右主分量信号、左残余分量信号和右残余分量信号。例如，对象提取系统106(参见图1)可以使用估计渲染参数124中的一个或多个来对变换后的双耳信号122执行对象提取，以生成估计对象126。估计对象126可以对应于分量信号，比如左主分量信号220、右主分量信号222、左残余分量信号224、右残余分量信号226(参见图2)、图3的分量信号320、322、324和326等。

在708处，使用多个估计渲染参数的至少第二子集对估计对象执行对象处理。执行对象处理包括基于左主分量信号、右主分量信号、左残余分量信号和右残余分量信号来生成处理信号。例如，对象处理系统108(参见图1)可以使用估计渲染参数124中的一个或多个对估计对象126执行对象处理，以生成处理信号128。作为另一个示例，处理系统208(参见图2)可以使用估计渲染参数124中的一个或多个以及对象处理参数230和232来对分量信号220、222、224和226执行对象处理。

方法700可以包括与如本文所描述的音频处理系统100、对象处理系统108、208、308中的一个或多个等的其他功能相对应的附加步骤。例如，方法700可以包括接收传感器数据、头部跟踪数据等以及基于传感器数据或头部跟踪数据来执行处理。作为另一个示例，对象处理(参见708)可以包括使用一组处理参数来处理主分量以及使用另一组处理参数来处理残余分量。作为另一个示例，方法700可以包括执行逆变换、对经逆变换的信号执行时域处理等。

实施细节

实施例可以在硬件、存储在计算机可读介质上的可执行模块或两者的组合(例如可编程逻辑阵列等)中实施。除非另有说明，否则由实施例执行的步骤不需要固有地与任何特定计算机或其他装置相关，尽管其可能在某些实施例中相关。具体地，各种通用机器可以与根据本文的传授内容编写的程序一起使用，或可以更方便地构建更专业的装置(例如，集成电路等)以执行所需的方法步骤。因此，实施例可以在一个或多个可编程计算机系统上执行的一个或多个计算机程序中实施，所述一个或多个可编程计算机系统各自包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性的存储器和/或存储元件)、至少一个输入设备或端口以及至少一个输出设备或端口。程序代码应用于输入数据以执行本文所描述的功能并生成输出信息。输出信息以已知的方式应用于一个或多个输出设备。

每个这种计算机程序优选地存储在或下载到可由通用或专用可编程计算机读取的存储介质或设备(例如，固态存储器或介质、磁性或光学介质等)，以用于在计算机系统读取存储介质或设备时配置并操作计算机以执行本文描述的程序。本发明的系统还可以被认为是实施为配置有计算机程序的计算机可读存储介质，其中，这样配置的存储介质使计算机系统以具体且预定义的方式操作以执行本文所描述的功能。软件本身和无形或暂态信号在它们是不可申请专利的主题的意义上被排除。

本文所描述的系统的各方面可以在适当的基于计算机的声音处理网络环境中实施，以便处理数字或数字化音频文件。自适应音频系统的部分可以包括一个或多个网络，所述网络包括任何期望数量的独立机器，所述机器包括用于缓冲和路由在计算机之间传输的数据的一个或多个路由器(未示出)。这种网络可以在各种不同的网络协议上构建，并且可以是因特网、广域网(WAN)、局域网(LAN)或其任何组合。

一个或多个部件、块、过程或其他功能部件可以通过控制系统的基于处理器的计算设备的执行的计算机程序来实施。还应当注意，可以使用硬件、固件和/或体现在各种机器可读或计算机可读介质中的数据和/或指令的任何数量的组合，从行为、寄存器传输、逻辑部件和/或其他特性的角度描述本文公开的各种功能。可以体现这种格式化数据和/或指令的计算机可读介质包括但不限于各种形式的物理、非暂态、非易失性存储介质，如光、磁或半导体存储介质。

以上描述说明了本公开的各个实施例以及可以如何实施本公开的各方面的示例。以上示例和实施例不应被认为是仅有的实施例，而是被呈现以说明由所附权利要求限定的本公开的灵活性和优点。基于以上公开和所附权利要求，其他布置、实施例、实施方式和等同物对于本领域技术人员将是显而易见的，并且可以在不脱离由权利要求限定的本公开的精神和范围的情况下采用。

Claims

1.一种计算机实施的音频处理方法，所述方法包括：

对双耳信号执行信号变换，其中，执行所述信号变换包括：

将所述双耳信号从第一信号域变换到第二信号域；以及

生成变换后的双耳信号，其中，所述第一信号域为时域，并且所述第二信号域为频域；

对所述变换后的双耳信号执行空间分析，其中，执行所述空间分析包括生成多个估计渲染参数，其中，所述多个估计渲染参数包括多个电平差和多个相位差；

使用所述多个估计渲染参数的至少第一子集从所述变换后的双耳信号中提取多个估计对象，其中，提取所述多个估计对象包括生成左主分量信号、右主分量信号、左残余分量信号和右残余分量信号；以及

使用所述多个估计渲染参数的至少第二子集对所述多个估计对象执行对象处理，其中，执行所述对象处理包括基于所述左主分量信号、所述右主分量信号、所述左残余分量信号和所述右残余分量信号来生成处理信号。

2.如权利要求1所述的方法，其中，所述对象处理包括重新定位、电平调整、均衡、动态范围调整、咝声消除、多频带压缩、沉浸感提升、环绕感提升、上混、转换、声道重新映射、存储和归档中的至少一者。

3.如权利要求1所述的方法，其中，生成所述处理信号包括：

使用第一组对象处理参数，从所述左主分量信号和所述右主分量信号生成左主处理信号和右主处理信号；以及

使用第二组对象处理参数，从所述左残余分量信号和所述右残余分量信号生成左残余处理信号和右残余处理信号，其中，所述第二组对象处理参数不同于所述第一组对象处理参数。

4.如权利要求1所述的方法，进一步包括：

接收来自传感器的传感器数据，其中，所述传感器是头戴式耳麦、头戴式耳机、入耳式耳机和麦克风中的至少一者的部件，

其中，执行所述对象处理包括基于所述传感器数据生成所述处理信号。

5.如权利要求1所述的方法，其中，执行所述对象处理包括：

基于传感器数据对所述左主分量信号和所述右主分量信号应用双耳平移，其中，应用所述双耳平移包括生成左主处理信号和右主处理信号；以及

从所述左残余分量信号和所述右残余分量信号生成左残余处理信号和右残余处理信号，而无需应用所述双耳平移。

6.如权利要求1所述的方法，其中，执行所述对象处理包括：

从所述左主分量信号和所述右主分量信号生成单耳对象；

基于传感器数据对所述单耳对象应用双耳平移；以及

7.如权利要求1所述的方法，其中，执行所述对象处理包括：

从所述左主分量信号、所述右主分量信号、所述左残余分量信号和所述右残余分量信号生成多声道输出信号，

其中，所述多声道输出信号包括至少一个左声道和至少一个右声道，其中，所述至少一个左声道包括左前声道、左侧声道、左后声道和左高置声道中的至少一者，并且其中，所述至少一个右声道包括右前声道、右侧声道、右后声道和右高置声道中的至少一者。

8.如权利要求1所述的方法，其中，执行所述对象处理包括：

对所述左主分量信号和所述右主分量信号执行语音改进处理，其中，应用所述语音改进包括生成左主处理信号和右主处理信号；以及

从所述左残余分量信号生成左残余处理信号并从所述右残余分量信号生成右残余处理信号，而无需应用所述语音改进处理。

9.如权利要求1所述的方法，其中，生成所述处理信号包括：

使用第一电平调整值对所述左主分量信号和所述右主分量信号应用电平调整，其中，应用所述电平调整包括生成左主处理信号和右主处理信号；以及

使用第二电平调整值对所述左残余分量信号和所述右残余分量信号应用电平调整，其中，应用所述电平调整包括生成左残余处理信号和右残余处理信号，并且其中，所述第二电平调整值不同于所述第一电平调整值。

10.如权利要求1至9中任一项所述的方法，其中，所述信号变换是时频变换，并且其中，所述变换后的双耳信号包括在给定时间段内变换的多个时频片；

其中，所述空间分析是对所述多个时频片中的每一个时频片执行的；并且

其中，所述多个时频片中的给定时频片与所述多个估计渲染参数的给定子集相关联。

11.如权利要求1至10中任一项所述的方法，其中，所述多个估计渲染参数与头部相关传递函数、头部相关脉冲响应和双耳房间脉冲响应中的至少一者相对应。

12.如权利要求1至11中任一项所述的方法，其中，所述多个相位差是多个展开相位差，其中，所述多个展开相位差是通过执行基于证据的展开和基于模型的展开中的至少一者而进行展开的。

13.如权利要求12所述的方法，其中，执行所述基于证据的展开包括：

在每个频带中，估计所述左主分量信号和所述右主分量信号的总能量；

基于每个频带计算互相关；以及

基于所述互相关、根据相邻频带间的能量从多个候选相位差中选择所述多个展开相位差。

14.如权利要求12所述的方法，其中，执行所述基于模型的展开包括：

根据给定频带的应用于头部相关传递函数的电平差，从多个候选相位差中选择所述多个展开相位差。

15.如权利要求1至14中任一项所述的方法，其中，对于所述第二信号域中的给定索引，所述多个相位差中的给定相位差被计算为所述变换后的双耳信号的左分量与所述变换后的双耳信号的右分量的内积的相位角。

16.如权利要求1至15中任一项所述的方法，其中，所述多个电平差中的给定电平差是根据基于所述变换后的双耳信号的左分量、所述变换后的双耳信号的右分量和所述多个相位差中的给定相位差的二次方程来计算的。

17.如权利要求1至16之一所述的方法，进一步包括：

对所述左主处理信号、所述右主处理信号、所述左残余处理信号和所述右残余处理信号执行信号逆变换以生成处理信号，其中，所述处理信号处于所述第一信号域中。

18.如权利要求1至17之一所述的方法，进一步包括：

对所述处理信号执行时域处理，其中，执行时域处理包括生成修改后的时域信号。

19.一种非暂态计算机可读介质，所述非暂态计算机可读介质存储计算机程序，所述计算机程序在由处理器执行时控制装置以执行包括如权利要求1至18中任一项所述的方法的处理。

20.一种用于音频处理的装置，所述装置包括：

处理器，其中，所述处理器被配置为控制所述装置执行包括如权利要求1至18中任一项所述的方法的处理。