CN113170271B

CN113170271B - 用于处理立体声信号的方法和装置

Info

Publication number: CN113170271B
Application number: CN201980081388.3A
Authority: CN
Inventors: 庞立昀; 丰斯·阿德里安森; 李松; 罗曼·施利珀
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2023-02-03
Anticipated expiration: 2039-01-25
Also published as: CN113170271A; WO2020151837A1; EP3895451A1; US11750995B2; US20210352425A1; EP3895451B1

Abstract

本发明涉及一种用于处理立体声信号的方法，所述方法包括：通过对所述立体声信号进行上混，获得中心声道信号；通过将一个或多个峰值滤波器和一个或多个陷波滤波器应用于所述中心声道信号，生成滤波后的中心声道信号；根据所述滤波后的中心声道信号生成双声道信号。

Description

用于处理立体声信号的方法和装置

技术领域

本发明涉及音频信号处理和重放领域。更具体地，本发明涉及一种用于处理立体声信号的方法和用于处理立体声信号的装置。本发明还涉及一种计算机可读存储介质。

背景技术

三维(three-dimensional，3D)音频效果是由立体声扬声器、环绕声扬声器、扬声器阵列或耳机产生的一组空间音效。音频效果的产生通常涉及在三维空间中的选定位置虚拟放置声源，包括在听众后面、上面或下面。

3D音频处理可以涉及使用头相关传递函数的声波的空域卷积。具体地，声波可以转换(例如，使用头相关传递函数或HRTF滤波器和/或串扰消除技术)，以模拟从3D空间中的一点发出的自然声波。因此，听众可以感知如同来自不同3D位置的不同声音，即使这些声音可能仅由两个扬声器产生。

头相关传递函数(head-related transfer function，HRTF)和双声道房间脉冲响应(binaural room impulse response，BRIR)对于通过耳机生成沉浸式3D音频信号都很重要。沉浸式3D音频信号提供了空间音频线索，人类依靠这些线索在空间中定位声音：耳间电平差(interaural level difference，ILD)、耳间时间差(interaural time difference，ITD)和光谱线索。但是，HRTF或BRIR高度依赖于单独的解剖结构，高分辨率的HRTF或BRIR测量是耗时的。通常，非单独的HRTF或合成的BRIR应用于双声道渲染器。

研究表明，使用非单独的HRTF生成的模拟定向声音存在前后混淆的问题，该问题是静态双声道渲染中由于耳间线索模糊而引起的。此外，模拟声源的外化可以减少，特别是对于正中面中的虚拟声源。通过HRTF/BRIR的单独测量、个性化HRTF/BRIR以及使用头部跟踪设备结合源或听众的移动的动态渲染，可以改进定位和外化。但是，在许多商业应用中，双声道渲染既不能使用单独的HRIR，也不能使用高质量的头部跟踪设备。

发明内容

本发明的主要技术领域是耳机上的双声道音频重放。本发明的一个目的是改善单声道或立体声信号在正中面中的定位和外化。这改进了耳机上呈现的虚拟声源的外化和定位。

上述和其它目的通过独立权利要求请求保护的主题实现。其它实现方式从从属权利要求、说明书和附图中是显而易见的。

本发明的第一方面提供了一种用于处理立体声信号的方法，该方法包括：通过对立体声信号进行上混，获得中心声道信号；通过将一个或多个峰值滤波器和一个或多个陷波滤波器应用于中心声道信号，生成滤波后的中心声道信号；根据滤波后的中心声道信号生成双声道信号。

在一个实施例中，该方法还包括获得立体声信号。

第一方面提供的用于处理立体声信号的方法可以实现立体声信号在正中面中的良好定位和外化。

立体声声音，或者更常见的立体声，是一种声音重放方法，使人产生多方向听得见的错觉。这通常是通过两个或多个扬声器(或立体声耳机)的配置使用两个或多个独立的音频通道来实现的，以便给人一种从不同方向听到声音的印象，如在自然听觉中。

立体声信号可以包含来自左右声场的同步方向信息。通常，立体声信号包括至少两个通道，一个用于左场，一个用于右场。

在一个示例中，立体声信号可以通过接收器获得。例如，接收器可以通过有线或无线通信信道从另一设备或另一系统获得立体声信号。

在另一个示例中，立体声信号可以使用处理器和至少两个麦克风获得。至少两个麦克风用于记录从声源获得的信息，处理器用于处理麦克风记录的这些信息，以获得立体声信号。

从最一般的意义上讲，上混与下混相反。这是指上混是一个可以使用一定数量的音频通道并将它们转换为更大数量的音频通道的过程。例如，上混可以将2通道转换为5.1通道。上混通常用于更好地将传统的双通道的单声道、立体声或环绕编码内容集成到5.1通道程序中。通过正确地进行选择，上混通过帮助旧版内容和帮助创建新的5.1通道材料，进一步加快了向5.1的转变。

在一个示例中，音频信号处理装置包括第一滤波器，用于至少在一个频带内从左声道信号中分离出信号分量。信号分量由第二滤波器从右声道信号中分离出来。滤波器的输出信号分别与右声道信号和左声道信号进行比较。根据给定标准，将滤波器的滤波器参数调整到比较信号之间具有最大相关性的值。中心声道信号是根据滤波器调整推导出来的。这可以通过组合滤波器的输出信号来实现。以这种方式，获得由相关的左声道信号分量和右声道信号分量形成的中心声道信号，使得立体声图像几乎不受中心声道信号的添加干扰，而虚拟源在立体声图像中的感知位置变得不那么依赖于听众相对于左扬声器和右扬声器的位置。

在第一方面的一种实现方式中，该方法还包括：通过对立体声信号进行上混而获得侧声道信号；根据第一头相关传递函数处理侧声道信号，以获得处理后的侧声道信号；根据第二头相关传递函数处理滤波后的中心声道信号，以获得处理后的中心声道信号；所述根据滤波后的中心声道信号生成双声道信号包括：根据处理后的侧声道信号和处理后的中心声道信号生成双声道信号。

在一个示例中，在一个上混过程中，对立体声信号进行上混以获得侧声道信号，并对立体声信号进行上混以获得中心声道信号。

在一个示例中，用于处理侧声道信号的头相关传递函数(head related transferfunction，HRTF)和用于处理中心声道信号的HRTF是相同的HRTF。

在另一个示例中，用于处理侧声道信号的HRTF和用于处理中心声道信号的HRTF不同。

在第一方面的一种实现方式中，该方法还包括：通过对立体声信号进行上混而获得左声道信号和右声道信号；根据两对头相关传递函数处理左声道信号和右声道信号，以获得处理后的左声道信号和处理后的右声道信号；根据一对头相关传递函数处理滤波后的中心声道信号，以获得处理后的中心声道信号；其中，所述根据滤波后的中心声道信号生成双声道信号包括：根据处理后的左声道信号和处理后的中心声道信号生成双声道信号的左信号，根据处理后的右声道信号和处理后的中心声道信号生成双声道信号的右信号。

在一个示例中，在一个上混过程中，对立体声信号进行上混以获得左声道信号、右声道信号，并对立体声信号进行上混以获得中心声道信号。

在另一个示例中，用于处理左声道信号、右声道信号的HRTF和用于处理中心声道信号的HRTF不同。

在第一方面的一种实现方式中，该方法还包括：使用一个或多个去相关滤波器对侧声道信号和中心声道信号进行滤波，以获得去相关侧信号和去相关中心信号；根据去相关侧信号和去相关中心信号获得反射信号。

在一个示例中，一个去相关滤波器用于对侧声道信号和中心声道信号进行滤波。

在另一个示例中，用于对侧声道信号进行滤波的去相关滤波器和用于对中心声道信号进行滤波的去相关滤波器是相同的。

在另一个示例中，用于对侧声道信号进行滤波的去相关滤波器和用于对中心声道信号进行滤波的去相关滤波器是不同的滤波器。

在第一方面的一种实现方式中，该方法还包括：使用一个或多个去相关滤波器对左声道信号、右声道信号和中心声道信号进行滤波，以获得去相关左信号、去相关右信号和去相关中心信号；根据去相关左信号、去相关右信号和去相关中心信号获得反射信号。

在一个示例中，一个去相关滤波器用于对左声道信号、右声道信号和中心声道信号进行滤波。

在另一个示例中，用于对左声道信号和右声道信号进行滤波的去相关滤波器和用于对中心声道信号进行滤波的去相关滤波器是相同的。

在另一个示例中，用于对左声道信号、右声道信号进行滤波的去相关滤波器和用于对中心声道信号进行滤波的去相关滤波器是不同的滤波器。

在一个示例中，用于对左声道信号进行滤波的去相关滤波器和用于对右声道信号进行滤波的去相关滤波器是相同的。

在一个示例中，用于对左声道信号进行滤波的去相关滤波器和用于对右声道信号进行滤波的去相关滤波器不同。

在第一方面的一种实现方式中，该方法还包括：获得初始音频信号；使用以下方法中的一种或任何组合分解初始音频信号：环境相位估计、主成分分析或最小二乘分析，以获得立体声信号。

在第一方面的一种实现方式中，该方法还包括：获得初始音频信号；使用以下方法中的一种或任何组合分解初始音频信号：环境相位估计、主成分分析或最小二乘分析，以获得立体声信号和环境信号；通过对立体声信号进行上混而获得左声道信号和右声道信号；将环境信号与左声道信号相加，以获得左和信号；将环境信号与右声道信号相加，以获得右和信号；根据两对头相关传递函数处理左和信号和右和信号，以获得处理后的左声道信号和处理后的右声道信号；根据一对头相关传递函数处理滤波后的中心声道信号，以获得处理后的中心声道信号；其中，所述根据滤波后的中心声道信号生成双声道信号包括：根据处理后的左声道信号和处理后的中心声道信号生成双声道信号的左信号，根据处理后的右声道信号和处理后的中心声道信号生成双声道信号的右信号。

在一个示例中，在一个上混过程中，对立体声信号进行上混以获得左声道信号和右声道信号，并对立体声信号进行上混以获得中心声道信号。

在另一个示例中，用于处理左声道信号和右声道信号的HRTF和用于处理中心声道信号的HRTF不同。

在另一个示例中，用于对左声道信号和右声道信号进行滤波的去相关滤波器和用于对中心声道信号进行滤波的去相关滤波器是不同的滤波器。

在一个示例中，用于对左声道信号进行滤波的去相关滤波器和用于对右声道信号进行滤波的去相关滤波器是不同的滤波器。

在第一方面的一种实现方式中，该方法还包括：通过对立体声信号进行上混而获得左声道信号和右声道信号；将立体声信号与局部混响卷积，以获得卷积立体声信号；将卷积立体声信号与左声道信号相加，以获得左和信号；将卷积立体声信号与右声道信号相加，以获得右和信号；根据两对头相关传递函数处理左和信号和右和信号，以获得处理后的左声道信号和处理后的右声道信号；根据一对头相关传递函数处理滤波后的中心声道信号，以获得处理后的中心声道信号；其中，根据滤波后的中心声道信号生成双声道信号包括：根据处理后的左声道信号和处理后的中心声道信号生成双声道信号的左信号，根据处理后的右声道信号和处理后的中心声道信号生成双声道信号的右信号。

在另一个示例中，用于对左声道信号、右声道信号进行滤波的去相关滤波器和用于对中心声道信号进行滤波的去相关滤波器是相同的。

在第一方面的一种实现方式中，该方法还包括：通过对立体声信号进行上混而获得左声道信号和右声道信号；将立体声信号与局部混响卷积，以获得卷积立体声信号；根据两对头相关传递函数处理左声道信号和右声道信号，以获得处理后的左声道信号和处理后的右声道信号；根据一对头相关传递函数处理滤波后的中心声道信号以获得处理后的中心声道信号；其中，所述根据滤波后的中心声道信号生成双声道信号包括：根据处理后的左声道信号、卷积立体声信号和处理后的中心声道信号生成双声道信号的左信号，根据处理后的右声道信号、卷积立体声信号和处理后的中心声道信号生成双声道信号的右信号。

在另一个示例中，用于处理左声道信号和右声道信号的HRTF和用于处理中心声道信号的HRTF是不同的函数。

在第一方面的一种实现方式中，一个或多个峰值滤波器包括以4kHz为中心并具有1/3倍频程带宽的第一峰值滤波器，和以13kHz以上频率为中心并具有1/4倍频程带宽的第二峰值滤波器；其中，一个或多个陷波滤波器包括：以4kHz与8kHz之间的频率为中心并具有1倍频程带宽的陷波滤波器。

在一个示例中，陷波滤波器的典型中心频率为7kHz，第二峰值滤波器的典型中心频率为13kHz。

在第一方面的一种实现方式中，一个或多个峰值滤波器包括以1kHz为中心并具有1/3倍频程带宽的第一峰值滤波器，和以10kHz与12kHz之间的频率为中心并具有1/4倍频程带宽的第二峰值滤波器；一个或多个陷波滤波器包括：以9kHz为中心并具有1/4倍频程带宽的第一陷波滤波器，和以16kHz为中心并具有1/4倍频程带宽的第二陷波滤波器。

在一个示例中，第二峰值滤波器的典型中心频率为11kHz。

本发明的第二方面提供了一种用于处理立体声信号的装置，该装置包括处理电路，用于：

通过对立体声信号进行上混，获得中心声道信号；

通过将一个或多个峰值滤波器和一个或多个陷波滤波器应用于中心声道信号，获得滤波后的中心声道信号；

根据滤波后的中心声道信号生成双声道信号。

处理电路可以包括硬件和软件。硬件可以包括模拟电路或数字电路，或模拟电路和数字电路两者。在一个实施例中，处理电路包括一个或多个处理器以及与一个或多个处理器连接的非易失性存储器。非易失性存储器可以携带可执行程序代码，当一个或多个处理器执行可执行程序代码时，使装置执行本文描述的操作或方法。

本发明中描述的滤波器可以通过硬件、软件，或硬件和软件的组合实现。

在第二方面的一种实现方式中，处理电路还用于通过对立体声信号进行上混而获得侧声道信号；

根据第一头相关传递函数处理侧声道信号，以获得处理后的侧声道信号；

根据第二头相关传递函数处理滤波后的中心声道信号，以获得处理后的中心声道信号；

其中，双声道信号是基于处理后的侧声道信号和处理后的中心声道信号生成的。

在第二方面的一种实现方式中，处理电路还用于通过对立体声信号进行上混而获得左声道信号和右声道信号；

根据两对头相关传递函数处理左声道信号和右声道信号，以获得处理后的左声道信号和处理后的右声道信号；

根据一对头相关传递函数处理滤波后的中心声道信号，以获得处理后的中心声道信号；

其中，双声道信号的左信号根据处理后的左声道信号和处理后的中心声道信号生成，

双声道信号的右信号根据处理后的右声道信号和处理后的中心声道信号生成。

在第二方面的一种实现方式中，处理电路还用于：

对侧声道信号和中心声道信号进行滤波，以获得去相关侧信号和去相关中心信号；

根据去相关侧信号和去相关中心信号获得反射信号。

在第二方面的一种实现方式中，处理电路还用于：

对左声道信号、右声道信号和中心声道信号进行滤波，以获得去相关左信号、去相关右信号和去相关中心信号；

根据去相关左信号、去相关右信号和去相关中心信号获得反射信号。

在第二方面的一种实现方式中，处理电路用于获得初始音频信号，并使用以下方法中的一种或任何组合对初始音频信号进行分解：环境相位估计、主成分分析或最小二乘分析，以获得立体声信号。

在第二方面的一种实现方式中，处理电路用于获得初始音频信号，并使用以下方法中的一种或任何组合分解初始音频信号：环境相位估计、主成分分析或最小二乘分析，以获得立体声信号和环境信号；

通过对立体声信号进行上混而获得左声道信号和右声道信号；

将环境信号与左声道信号相加，以获得左和信号，

将环境信号与右声道信号相加，以获得右和信号；

根据两对头相关传递函数处理左和信号和右和信号，以获得处理后的左声道信号和处理后的右声道信号，并根据一对头相关传递函数处理滤波后的中心声道信号，以获得处理后的中心声道信号；

根据处理后的左声道信号和处理后的中心声道信号生成双声道信号的左信号，并根据处理后的右声道信号和处理后的中心声道信号生成双声道信号的右信号。

在第二方面的一种实现方式中，处理电路还用于：

在第二方面的一种实现形式中，处理电路还用于通过对立体声信号进行上混而获得左声道信号和右声道信号；

将立体声信号与局部混响卷积，以获得卷积立体声信号；

将卷积立体声信号与左声道信号相加，以获得左和信号，将卷积立体声信号与右声道信号相加，以获得右和信号；

根据处理后的左声道信号和处理后的中心声道信号生成双声道信号的左信号，

根据处理后的右声道信号和处理后的中心声道信号生成双声道信号的右信号。

在第二方面的一种实现方式中，处理电路还用于：

将立体声信号与局部混响卷积，以获得卷积立体声信号；

根据处理后的左声道信号、卷积立体声信号和处理后的中心声道信号生成双声道信号的左信号，根据处理后的右声道信号、卷积立体声信号和处理后的中心声道信号生成双声道信号的右信号。

在第二方面的一种实现方式中，处理电路还用于：

在第二方面的一种实现方式中，一个或多个峰值滤波器包括以4kHz为中心并具有1/3倍频程带宽的第一峰值滤波器，和以13kHz以上频率为中心并具有1/4倍频程带宽的第二峰值滤波器；其中，一个或多个陷波滤波器包括：

以4kHz与8kHz之间的频率为中心并具有1倍频程带宽的陷波滤波器。

在第二方面的一种实现方式中，一个或多个峰值滤波器包括以1kHz为中心并具有1/3倍频程带宽的第一峰值滤波器，和以10kHz与12kHz之间的频率为中心并具有1/4倍频程带宽的第二峰值滤波器；其中，一个或多个陷波滤波器包括：

以9kHz为中心并具有1/4倍频程带宽的第一陷波滤波器，和以16kHz为中心并具有1/4倍频程带宽的第二陷波滤波器。

本发明的第三方面提供了一种用于处理立体声信号的装置，该装置包括：上混单元，用于通过对立体声信号进行上混获得中心声道信号；一个或多个峰值滤波器和一个或多个陷波滤波器，用于对中心声道信号进行滤波以获得滤波后的中心声道信号；双声道信号生成单元，用于根据滤波后的中心声道信号生成双声道信号。

在一个实施例中，该装置包括立体声信号获取单元，用于获取立体声信号。

在第三方面的一种实现方式中，上混单元还用于通过对立体声信号进行上混获得侧声道信号；装置还包括头相关传递函数(head related transfer function，HRTF)单元，HRTF单元用于根据第一头相关传递函数处理侧声道信号，以获得处理后的侧声道信号；HRTF单元还用于根据第二头相关传递函数，对滤波后的中心声道信号进行处理，以获得处理后的中心声道信号；双声道信号生成单元用于根据处理后的侧声道信号和处理后的中心声道信号生成双声道信号。

在第三方面的一种实现方式中，上混单元还用于通过对立体声信号进行上混而获得左声道信号和右声道信号；装置还包括头相关传递函数(head related transferfunction，HRTF)单元，HRTF单元用于根据两对头相关传递函数处理左声道信号和右声道信号，以获得处理后的左声道信号和处理后的右声道信号；HRTF单元还用于根据一对头相关传递函数处理滤波后的中心声道信号，以获得处理后的中心声道信号；双声道信号生成单元用于根据处理后的左声道信号和处理后的中心声道信号生成双声道信号的左信号，双声道信号生成单元用于根据处理后的右声道信号和处理后的中心声道信号生成双声道信号的右信号。

在第三方面的一种实现方式中，该装置还包括：一个或多个去相关滤波器，用于对侧声道信号和中心声道信号进行滤波，以获得去相关侧信号和去相关中心信号；反射获取单元，用于根据去相关侧信号和去相关中心信号获得反射信号。

在第三方面的一种实现方式中，该装置还包括：一个或多个去相关滤波器，用于对左声道信号、右声道信号和中心声道信号进行滤波，以获得去相关左信号、去相关右信号和去相关中心信号；反射获取单元，用于根据去相关左信号、去相关右信号和去相关中心信号获得反射信号。

在第三方面的一种实现方式中，立体声信号获取单元用于获得初始音频信号，并使用以下方法中的一种或任何组合对初始音频信号进行分解：环境相位估计、主成分分析或最小二乘，以获得立体声信号。

在第三方面的一种实现方式中，立体声信号获取单元用于获得初始音频信号，并使用以下方法中的一种或任何组合分解初始音频信号：环境相位估计、主成分分析或最小二乘分析，以获得立体声信号和环境信号；

上混单元还用于对立体声信号进行上混而获得左声道信号和右声道信号；该装置还包括头相关传递函数(head related transfer function，HRTF)单元，HRTF单元用于将环境信号与左声道信号相加，以获得左和信号，将环境信号与右声道信号相加，以获得右和信号；HRTF单元还用于根据两对头相关传递函数处理左和信号和右和信号，以获得处理后的左声道信号和处理后的右声道信号，HRTF单元还用于根据一对头相关传递函数处理滤波后的中心声道信号，以获得处理后的中心声道信号；其中，双声道信号生成单元用于根据处理后的左声道信号和处理后的中心声道信号生成双声道信号的左信号，根据处理后的右声道信号和处理后的中心声道信号生成双声道信号的右信号。

在第三方面的一种实现方式中，上混单元还用于对立体声信号进行上混而获得左声道信号和右声道信号；该装置还包括卷积单元，卷积单元用于将立体声信号与局部混响卷积，以获得卷积立体声信号；该装置还包括头相关传递函数(head related transferfunction，HRTF)单元，HRTF单元用于将卷积立体声信号与左声道信号相加，以获得左和信号，将卷积立体声信号与右声道信号相加，以获得右和信号；HRTF单元还用于根据两对头相关传递函数处理左和信号和右和信号，以获得处理后的左声道信号和处理后的右声道信号，HRTF单元还用于根据一对头相关传递函数处理滤波后的中心声道信号，以获得处理后的中心声道信号；其中，双声道信号生成单元用于根据处理后的左声道信号和处理后的中心声道信号生成双声道信号的左信号，根据处理后的右声道信号和处理后的中心声道信号生成双声道信号的右信号。

在第三方面的一种实现方式中，上混单元还用于对立体声信号进行上混而获得左声道信号和右声道信号；该装置还包括卷积单元，卷积单元用于将立体声信号与局部混响卷积，以获得卷积立体声信号；该装置还包括头相关传递函数HRTF单元，HRTF单元用于根据两对头相关传递函数处理左声道信号和右声道信号，以获得处理后的左声道信号和处理后的右声道信号；HRTF单元还用于根据一对头相关传递函数处理滤波后的中心声道信号，以获得处理后的中心声道信号；其中，双声道信号生成单元用于根据处理后的左声道信号、卷积立体声信号和处理后的中心声道信号生成双声道信号的左信号，根据处理后的右声道信号、卷积立体声信号和处理后的中心声道信号生成双声道信号的右信号。

在第三方面的一种实现方式中，一个或多个峰值滤波器包括以4kHz为中心并具有1/3倍频程带宽的第一峰值滤波器和以13kHz以上的频率为中心并具有1/4倍频程带宽的第二峰值滤波器；一个或多个陷波滤波器包括以4kHz与8kHz之间的频率为中心并具有1倍频程带宽的陷波滤波器。

在第三方面的一种实现方式中，一个或多个峰值滤波器包括以1kHz为中心并具有1/3倍频程带宽的第一峰值滤波器，和以10kHz与12kHz之间的频率为中心并具有1/4倍频程带宽的第二峰值滤波器，并且一个或多个陷波滤波器包括以9kHz为中心并具有1/4倍频程带宽的第一陷波滤波器和以16kHz为中心并具有1/4倍频程带宽的第二陷波滤波器。

根据本发明第一方面的方法可以由根据本发明第二方面或第三方面的装置执行。根据本发明第一方面的方法的进一步特征直接由根据本发明第二方面或第三方面的装置的功能性及其不同的实现方式实现。

本发明第四方面涉及一种存储程序代码的计算机可读存储介质。程序代码包括用于执行第一方面或其实现方式之一的方法的指令。

本发明可以通过硬件和/或软件实现。

附图说明

为了更清楚地说明本发明实施例的技术特征，下面对用于描述实施例的附图进行简要介绍。以下描述中的附图仅仅是本发明的一些实施例，但在不脱离权利要求中限定的本发明的范围的情况下，可以对这些实施例进行修改。

图1示出了一个关于声音空间被划分为水平面、正中面和正面这三个面的示例。

图2为一个实施例提供的使用外化和定位增强方法的双声道渲染方法的示意图。

图3为一个实施例提供的使用外化和定位增强方法的双声道渲染方法的另一示意图。

图4为一个实施例提供的模拟虚拟声源的通用方法的框图。

图5为一个实施例提供的使用外化和定位增强方法的双声道渲染方法的另一示意图。

图6示出了前（左图）和后（右图）声源的峰值陷波滤波器的幅度谱的示例。

图7示出了渲染系统中的前视和后视方向的示例。

图8示出了位于水平面上的声源在不同方位角（θ）上的增益因子的示例。

图9为一个实施例提供的对输入音频信号去相关的方法的示意图。

图10为一个实施例提供的增强单声道信号外化的方法的示意图。

图11为一个实施例提供的增强单声道信号外化的方法的另一示意图。

图12为一个实施例提供的增强单声道信号外化的方法的另一示意图。

图13为一个实施例提供的增强立体声信号外化的方法的示意图。

图14为一个实施例提供的增强立体声信号外化的方法的另一示意图。

图15为一个实施例提供的增强立体声信号外化的方法的另一示意图。

图16为一个实施例提供的增强立体声信号外化的方法的另一示意图。

图17为一个实施例提供的增强立体声信号外化的方法的另一示意图。

图18为一个实施例提供的增强立体声信号外化的方法的另一示意图。

图19为一个实施例提供的用于处理立体声信号的方法的示意图。

图20为一个实施例提供的用于处理立体声信号的装置的示意图。

图21为一个实施例提供的用于处理立体声信号的设备的示意图。

在图中，相同的附图标记用于相同或功能等同效的特征。

具体实施方式

在下面的描述中，参考附图，这些附图构成本发明的一部分，并通过说明的方式示出了本发明可以适用的具体方面。应理解，本发明可以适用其它方面，并且可以在不脱离本发明的范围的情况下进行结构或逻辑改变。因此，以下详细描述不应以限制性的意义来理解，因为本发明的范围由所附权利要求书限定。

例如，将理解，与所描述的方法相关的公开内容通常也适用于执行该方法的对应的设备或系统，反之亦然。例如，如果描述了特定的方法步骤，则对应的设备可以包括执行所描述的方法步骤的单元，即使在附图中没有明确描述或示出这样的单元。

此外，在以下详细描述以及权利要求中，描述了具有相互连接或交换信号的功能块或处理单元的实施例。应理解，本发明还涵盖了包括附加功能块或处理单元的实施例，例如前或后滤波单元和/或前或后放大单元，这些功能块或处理单元布置在下面描述的实施例的功能块或处理单元之间。

最后，应理解，除非特别说明，否则本文描述的各种示例性方面的特征可以彼此组合。

声道是传输信息的途径，该信息在本文中为声音信息。例如，从物理上讲，声道可以是你对着说话的管子，或者从麦克风到耳机的电线，或者放大器或计算机内部电子元件之间的连接。

当录制在磁带上时，磁道是声道内容的物理归属。在技术允许的情况下，可以有尽可能多的平行磁道，但对于日常用途，有1个、2个或4个。两个磁道可以用于一个或两个播放方向上的两个独立单声道信号，或者一个方向上的立体声信号。四个磁道(例如盒式磁带录音机)被组织成两个一组工作，用于每个方向的立体声信号；单声道信号被记录在一个磁道(与左立体声声道相同的磁道)上，或同时记录在两个磁道上(取决于磁带录音机或单声道信号源连接到录音机的方式)。

单声道声音信号不包含任何方向信息。在一个示例中，沿着铁路站台可以有几个扬声器，机场周围可以有数百个扬声器，但信号仍然是单声道。方向信息不能简单地通过向两个“立体声”声道发送单声道信号来生成。但是，方向的错觉可以通过将单声道信号从一个声道平移到另一个声道而从单声道信号中产生。

立体声声音信号可以包含来自左右声场的同步方向信息。因此，至少需要两个声道，一个用于左场，一个用于右场。左声道由指向左场的单声道麦克风馈送，右声道由指向右场的第二个单声道麦克风馈送(还会发现立体声麦克风将两个定向单声道麦克风内置在一个部件中)。在一个示例中，四声道立体声使用四个声道，环绕立体声除了左和右之外，至少有附加的声道用于前后方向。公共和家庭影院立体声系统可以有更多的声道，将声场划分为更窄的扇区。

重要的是，通过将非单独的HRTF/BRIR应用于双声道渲染系统，可以提高外化和定位精度。

在一个示例中，声音空间被划分为三个特定的面：水平面、正中面和正面，如图1所示。这三个面彼此垂直，并在原点相交。这种顺时针球面坐标系在一些文献中也被称为头相关坐标系，其中，声源的方向矢量与水平面之间的夹角用仰角

表示，其中

，方向矢量的水平投影与前方之间的夹角用方位角θ表示，其中-180°<θ≤180°。听音对象正前方的声源在方位角和仰角上对应于0°。

在另一个示例中，设计了一些基于峰值和陷波滤波器的调整滤波器，以提高正中面中的声音定位。

表1

表1列出了前声源、上声源和后声源的峰值和陷波滤波器的位置。在该方法中，峰值和陷波滤波器的设计基于HRTF本身的特点和一些心理声学实验。由于HRTF中已经包含了峰值和陷波的一些信息，因此在某种程度上就像扩大了光谱差异，这会引入着色问题。此外，不同方位角应用相同的增益因子会引入定位问题。

在另一个示例中，输入信号由带通滤波器组划分为5个子带，并用于强调或取消强调每个带，以获得最大的定位能力。但是，这种方法需要用户微调所有带通滤波器的增益，这不是很实用。此外，子带的带宽是固定的，没有讨论带宽的选择。一些心理声学实验表明，滤波器的带宽在增强声源定位方面也起着重要作用。一些方法用于通过光谱调整来最小化混淆锥(cone-of-confusion)，该光谱调整模拟在前后定位(具有大突出角)中表现出良好性能的对象的HRTF特征。一种方法类似于在一些特殊频率中强调或取消强调幅度。但是，这种方法需要单独的HRTF测量，这是不实际的。这些方法可以增加HRTF的峰值分量或陷波分量，以扩大混淆方向的光谱差异。但是，在这些方法中，当仅渲染前声源或后声源时，渲染的前声源和后声源之间的较大光谱差异不能保证更好的定位。这些方法仅适用于水平面。此外，可能会导致方向丢失和音质不良。

在另一个示例中，公开了一种增强单声道音频信号外化的方法。如图2所示，单声道音频信号首先由一对建模的HRTF滤波，然后对滤波信号进行去相关，以增强声音图像的空间感。设计了基于图像源方法的混响器来模拟混响。最后，根据CIPIC数据库中0°时的平均HRTF，设计了一对陷波滤波器，以增强声音定位。在本示例中，去相关器应用于直接部分，因此前声源的定位精度会降低(在处理过程中，直接反射和早期反射之间没有区别)。陷波滤波器基于测量的HRTF，并应用于双声道渲染信号。用户的HRTF与所使用的模型之间的任何不匹配都将导致质量较差。

在一对虚拟立体声信号(例如，位于–30°和30°)的情况下，生成的幻象信号(0°)很难被视为外化。提出了一些将立体声信号上混到中心信号(即中心声道信号)和侧信号的方法。在这些方法中，中心信号和两个侧信号可以被视为三个虚拟声源。公开了一种将立体声信号上混到虚拟环绕声以增强渲染信号的空间感的方法。但是，渲染声源在正中面中的外化和定位并没有得到增强。本发明一个实施例的目的是进一步增强基于上混信号的外化。

图19为一个实施例提供的用于处理立体声信号的方法的示意图。该方法包括：

S11：获得立体声信号。

在另一个示例中，立体声信号可以根据处理器和至少两个麦克风获得。至少两个麦克风用于记录从声源获得的信息，处理器用于处理麦克风记录的这些信息，以获得立体声信号。

在一个实施例中，获取立体声信号包括：获得初始音频信号；并使用以下方法中的一种或任何组合对初始音频信号进行分解：环境相位估计、主成分分析或最小二乘分析，以获得立体声信号。

S12：通过对立体声信号进行上混而获得中心声道信号。

从最一般的意义上讲，上混与下混相反。这是指上混是将一组音频通道转换为一组新的音频通道的过程，这组新的音频通道相对于初始组包括了更多的音频通道。例如，上混可以将2通道转换为5.1通道。上混通常用于更好地将传统的双通道的单声道、立体声或环绕编码内容集成到5.1通道节目中。通过正确地进行选择，上混通过帮助旧版内容和帮助创建新的5.1通道材料，进一步加快了向5.1的转变。

在一个示例中，将立体声信号上混到多声道信号中的策略是基于预测或猜测如果音响工程师正在进行多声道混合，她或他将以何种方式进行。例如，在直接/环境方法中，现场录音中在场地后面录制的环境信号可以发送到环绕混音的后声道，以实现听众沉浸在声场中的效果。或者，在演播室混音的情况下，多通道混响单元可以通过为前后通道分配不同的混响水平来创建这种效果。此外，中心声道的可用性可以帮助工程师通过在三个通道而不是两个通道中平移乐器，为离轴收听创建更稳定的正面图像。公开了一系列用于提取和操作立体声信号中的信息的技术。立体声记录中的每个信号通过计算其短时傅里叶变换(short-time fourier transform，STFT)来分析，以获得其时频表示，然后使用各种度量比较这个新域中的两个信号。然后，根据特定度量推导出一个或多个映射或变换函数，并用于修改输入信号的STFT。

在另一个示例中，在立体声混音中，一个特色歌手或独奏者被平移到中心是很常见的。音响工程师做混音的目的是创造出独奏者在舞台中心的听觉印象。但是，在双扬声器重放设置中，听众需要精确地定位在扬声器之间(最佳位置)，以感知预期的听觉图像。如果听众靠近其中一个扬声器，则感知将被优先效应破坏，图像将向扬声器的方向塌陷。由于这个原因(以及其它原因)，电影院使用了包含对话的中心声道，这样坐在房间两边的观众仍然可以将对话与屏幕上的图像联系起来。事实上，大多数流行的家庭多通道格式，如5.1环绕(5.1Surround)，现在都包括一个中心声道来处理这个问题。如果音响工程师可以选择使用中心声道，他或她可能会将独奏者或对话专门平移(发送)到这个声道。此外，对离轴听众来说，不仅中心平移信号会塌陷。主要向一侧(远离听众)平移的源可能看起来向另一侧(更靠近听众)平移。音响工程师也可以通过在三个声道之间平移来避免这种情况，例如，在中心声道和左前声道之间平移左半球空间位置的所有源，在中心声道和右前声道之间平移位置向右的所有源。

S13：生成滤波后的中心声道信号。

通过将一个或多个峰值滤波器和一个或多个陷波滤波器应用于中心声道信号，生成滤波后的中心声道信号。

在一个实施例中，一个或多个峰值滤波器和一个或多个陷波滤波器包括：以4kHz和8kHz之间的频率为中心并具有1倍频程带宽的陷波滤波器，以4kHz为中心并具有1/3倍频程带宽的第一峰值滤波器，和以13kHz以上的频率为中心并具有1/4倍频程带宽的第二峰值滤波器。

在一个实施例中，一个或多个峰值滤波器和一个或多个陷波滤波器包括：以9kHz为中心并具有1/4倍频程带宽的第一陷波滤波器，以16kHz为中心并具有1/4倍频程带宽的第二陷波滤波器，以1kHz为中心并具有1/3倍频程带宽的第一峰值滤波器，和以10kHz和12kHz之间的频率为中心并具有1/4倍频程带宽的第二峰值滤波器。

在一个示例中，第二峰值滤波器的典型中心频率为11kHz。

在一个示例中，滤波过程可以根据以下公式进行：

输入信号：s(t)

峰值和陷波滤波器：p(t)。

这个公式是时域中的卷积，

t表示时间，τ是一个变量，应从-∞到∞进行积分。dτ表示变量τ的无穷小量。

*表示卷积。

输入信号s(t)可以是单声道信号或中心声道信号。

S14：根据滤波后的中心声道信号生成双声道信号。

用于处理立体声信号的方法改进了立体声信号在正中面中的定位和外化。

在一个实施例中，该方法还包括：通过对立体声信号进行上混而获得侧声道信号；根据第一头相关传递函数处理侧声道信号，以获得处理后的侧声道信号；根据第二头相关传递函数处理滤波后的中心声道信号，以获得处理后的中心声道信号；所述根据滤波后的中心声道信号生成双声道信号包括：根据处理后的侧声道信号和处理后的中心声道信号生成双声道信号。

在一个实施例中，根据以下公式执行头相关传递函数卷积：

hrir_i(t)＝IFFT{HRTF_i(f)}

s(t)表示输入到该过程的信号，*表示卷积，s(t)是输入信号，d_i(t)是该过程的输出信号。

t表示时间，τ是一个变量，应从-∞到∞进行积分。dτ表示变量τ的无穷小量。IFFT是反傅里叶变换。

i∈{left,right}是指符号“i”可以表示左或右。例如，hrir_i(t)是指hrir_left(t)或hrir_right(t)。

在一个实施例中，该方法还包括：通过对立体声信号进行上混而获得左声道信号和右声道信号；根据两对头相关传递函数处理左声道信号和右声道信号，以获得处理后的左声道信号和处理后的右声道信号；根据一对头相关传递函数处理滤波后的中心声道信号以获得处理后的中心声道信号；所述根据滤波后的中心声道信号生成双声道信号包括：根据处理后的左声道信号和处理后的中心声道信号生成双声道信号的左信号，根据处理后的右声道信号和处理后的中心声道信号生成双声道信号的右信号。

在一个实施例中，该方法还包括：使用一个或多个去相关滤波器对侧声道信号和中心声道信号进行滤波，以获得去相关侧信号和去相关中心信号；根据去相关侧信号和去相关中心信号获得反射信号。

在一个示例中，根据以下公式(定义了去相关滤波器的示例)生成去相关信号：

s(f_i,t)＝IFFT{FFT{s(t)}×C(f_i,f)}}，其中i＝1、2、3……24

其中，τ_i是随机的，f_i是中心频率，系数C(f_i,f)表示临界带滤波器组。FFT是指傅里叶变换，将信号从时域变换到频域。IFFT是反傅里叶变换，将信号从频域变换到时域。f是指频率。f_i是中心频率。t是时间。

是指s(f_i,t)的和，即s(f₁,t)+s(f₂,t)+s(f₃,t)+s(f₄,t)…s(f₂₄,t)。

在听力学和精神声学中，临界带的概念描述了由内耳中的听觉器官耳蜗创造的“听觉滤波器”的频率带宽。

在一个实施例中，该方法还包括：使用一个或多个去相关滤波器对左声道信号、右声道信号和中心声道信号进行滤波，以获得去相关左信号、去相关右信号和去相关中心信号；根据去相关左信号、去相关右信号和去相关中心信号获得反射信号。

在一个实施例中，沿着x-、y-和z-坐标{x_i,y_i,z_i}的第i个顺序图像源的位置可以表示为：

其中，{x_s,y_s,z_s}和{x_r,y_r,z_r}分别是声源和房间的坐标。

每个图像源和听众之间的角度

可以计算为：

早期反射的衰减为：

早期反射可以计算为(N是早期反射的数量)：

t是时间，

分别是方位角和仰角。*表示时域中的卷积。

在一个实施例中，获得立体声信号包括：获得初始音频信号；使用以下方法中的一种或任何组合分解初始音频信号：环境相位估计、主成分分析或最小二乘分析，以获得立体声信号和环境信号；其中，该方法还包括：通过对立体声信号进行上混而获得左声道信号和右声道信号；将环境信号与左声道信号相加，以获得左和信号；将环境信号与右声道信号相加，以获得右和信号；根据两对头相关传递函数处理左和信号和右和信号，以获得处理后的左声道信号和处理后的右声道信号；根据一对头相关传递函数处理滤波后的中心声道信号以获得处理后的中心声道信号；所述根据滤波后的中心声道信号生成双声道信号包括：根据处理后的左声道信号和处理后的中心声道信号生成双声道信号的左信号，根据处理后的右声道信号和处理后的中心声道信号生成双声道信号的右信号。

在一个实施例中，该方法还包括：通过对立体声信号进行上混而获得左声道信号和右声道信号；将立体声信号与局部混响卷积，以获得卷积立体声信号；将卷积立体声信号与左声道信号相加，以获得左和信号；将卷积立体声信号与右声道信号相加，以获得右和信号；根据两对头相关传递函数处理左和信号和右和信号，以获得处理后的左声道信号和处理后的右声道信号；根据一对头相关传递函数处理滤波后的中心声道信号以获得处理后的中心声道信号；所述根据滤波后的中心声道信号生成双声道信号包括：根据处理后的左声道信号和处理后的中心声道信号生成双声道信号的左信号，根据处理后的右声道信号和处理后的中心声道信号生成双声道信号的右信号。

在一个实施例中，该方法还包括：通过对立体声信号进行上混而获得左声道信号和右声道信号；将立体声信号与局部混响卷积，以获得卷积立体声信号；根据两对头相关传递函数处理左声道信号和右声道信号，以获得处理后的左声道信号和处理后的右声道信号；根据一对头相关传递函数处理滤波后的中心声道信号以获得处理后的中心声道信号；所述根据滤波后的中心声道信号生成双声道信号包括：根据处理后的左声道信号、卷积立体声信号和处理后的中心声道信号生成双声道信号的左信号，根据处理后的右声道信号、卷积立体声信号和处理后的中心声道信号生成双声道信号的右信号。

在一个实施例中，晚期混响，例如，通过与房间内合成的或记录在房间中的晚期混响(h_late,left(t),h_late,right(t))卷积而计算的晚期混响，根据以下公式执行：

这是一个时域中的卷积公式。t表示时间。*表示时域中的卷积。t表示时间，τ是一个变量，应从-∞到∞进行积分。dτ表示变量τ的无穷小量。s(t)是时域中的输入信号。

在一个实施例中，双声道信号是直接声音、早期反射和晚期混响的总和：

Left＝d_left(t)+e_left(t)+l_left(t)

Right＝d_right(t)+e_right(t)+l_right(t)

图20为一个实施例提供的用于处理立体声信号的装置的示意图。该装置包括：立体声信号获取单元，用于获取立体声信号；上混单元，用于通过对立体声信号进行上混获得中心声道信号；一个或多个峰值滤波器和一个或多个陷波滤波器，用于对中心声道信号进行滤波以获得滤波后的中心声道信号；双声道信号生成单元(204)，用于根据滤波后的中心声道信号生成双声道信号。

在一个实施例中，上混单元还用于通过处理立体声信号进行上混而获得侧声道信号；该装置还包括头相关传递函数(head related transfer function，HRTF)单元，HRTF单元用于根据第一头相关传递函数处理侧声道信号，以获得处理后的侧声道信号；HRTF单元还用于根据第二头相关传递函数，处理滤波后的中心声道信号，以获得处理后的中心声道信号；双声道信号生成单元用于根据处理后的侧声道信号和处理后的中心声道信号生成双声道信号。

在一个实施例中，上混单元还用于通过对立体声信号进行上混而获得左声道信号和右声道信号；该装置还包括头相关传递函数(head related transfer function，HRTF)单元，HRTF单元用于根据两对头相关传递函数处理左声道信号和右声道信号，以获得处理后的左声道信号和处理后的右声道信号；HRTF单元还用于根据一对头相关传递函数处理滤波后的中心声道信号，以获得处理后的中心声道信号；双声道信号生成单元用于根据处理后的左声道信号和处理后的中心声道信号生成双声道信号的左信号，

双声道信号生成单元用于根据处理后的右声道信号和处理后的中心声道信号生成双声道信号的右信号。

在一个实施例中，该装置还包括：

一个或多个去相关滤波器，用于对侧声道信号和中心声道信号进行滤波，以获得去相关侧信号和去相关中心信号；

反射获取单元，用于根据去相关侧信号和去相关中心信号获得反射信号。

在一个实施例中，该装置还包括：

一个或多个去相关滤波器，用于对左声道信号、右声道信号和中心声道信号进行滤波，以获得去相关左信号、去相关右信号和去相关中心信号；

反射获取单元，用于根据去相关左信号、去相关右信号和去相关中心信号获得反射信号。

在一个实施例中，立体声信号获取单元用于获得初始音频信号，并使用以下方法中的一种或任何组合对初始音频信号进行分解：环境相位估计、主成分分析或最小二乘分析，以获得立体声信号。

在一个实施例中，立体声信号获取单元用于获得初始音频信号，并使用以下方法中的一种或任何组合分解初始音频信号：环境相位估计、主成分分析或最小二乘分析，以获得立体声信号和环境信号；

上混单元还用于对立体声信号进行上混而获得左声道信号和右声道信号；

该装置还包括头相关传递函数(head related transfer function，HRTF)单元，HRTF单元用于将环境信号与左声道信号相加，以获得左和信号，

将环境信号与右声道信号相加，以获得右和信号；

HRTF单元还用于根据两对头相关传递函数处理左和信号和右和信号，以获得处理后的左声道信号和处理后的右声道信号，HRTF单元还用于根据一对头相关传递函数处理滤波后的中心声道信号，以获得处理后的中心声道信号；

其中，双声道信号生成单元用于根据处理后的左声道信号和处理后的中心声道信号生成双声道信号的左信号，根据处理后的右声道信号和处理后的中心声道信号生成双声道信号的右信号。

在一个实施例中，该装置还包括：

在一个实施例中，上混单元还用于通过对立体声信号进行上混而获得左声道信号和右声道信号；

该装置还包括卷积单元，卷积单元用于将立体声信号与局部混响卷积，以获得卷积立体声信号；

该装置还包括头相关传递函数(head related transfer function，HRTF)单元，HRTF单元用于将卷积立体声信号与左声道信号相加，以获得左和信号，将卷积立体声信号与右声道信号相加，以获得右和信号；

其中，双声道信号生成单元用于根据处理后的左声道信号和处理后的中心声道信号生成双声道信号的左信号，

在一个实施例中，该装置还包括：

该装置还包括头相关传递函数(head related transfer function，HRTF)单元，HRTF单元用于根据两对头相关传递函数处理左声道信号和右声道信号，以获得处理后的左声道信号和处理后的右声道信号；

HRTF单元还用于根据一对头相关传递函数处理滤波后的中心声道信号，以获得处理后的中心声道信号；

其中，双声道信号生成单元用于根据处理后的左声道信号、卷积立体声信号和处理后的中心声道信号生成双声道信号的左信号，根据处理后的右声道信号、卷积立体声信号和处理后的中心声道信号生成双声道信号的右信号。

在一个实施例中，该装置还包括：

在一个实施例中，一个或多个峰值滤波器和一个或多个陷波滤波器包括：

以4kHz与8kHz之间的频率为中心并具有1倍频程带宽的陷波滤波器；以4kHz为中心并具有1/3倍频程带宽的第一峰值滤波器，和以13kHz以上的频率为中心并具有1/4倍频程带宽的第二峰值滤波器。

以9kHz为中心并具有1/4倍频程带宽的第一陷波滤波器，和以16kHz为中心并具有1/4倍频程带宽的第二陷波滤波器；以1kHz为中心并具有1/3倍频程带宽的第一峰值滤波器，和以10与12kHz之间的频率为中心并具有1/4倍频程带宽的第二峰值滤波器。

本发明实施例(例如，根据图19中公开的实施例)提供的方法可以由本发明实施例提供的装置200执行。本发明实施例提供的方法的进一步特征直接由本发明实施例提供的装置200的功能及其不同的实现方式实现。

图21为一个实施例提供的用于处理立体声信号的设备30的示意图。设备30包括处理器31和存储程序代码的计算机可读存储介质32。该程序代码包括用于执行用于处理立体声信号的方法的实施例或其实现方式之一的指令。

在一个示例中，如图2所示，增强了外化，减少了双声道渲染声源的前后混淆。在本实施例中，输入信号21可以是单声道干信号、单声道湿信号、立体声干信号或立体声湿信号等。在通过使用本文公开的方法(使用外化和定位增强方法22的双声道渲染)处理输入信号之后，生成针对左耳和右耳的一对双声道信号23，然后通过耳机播放。

在一个示例中，声场可以分为三个部分：直接部分221、早期反射部分222和晚期混响部分223。直接声音部分221对于声源定位是必不可少的；早期反射部分222仍然是方向相关的，它提供空间信息，并且对于声源的外化的感知是重要的。晚期混响部分223向听众提供房间信息，并且不再依赖于声源和听众的位置。这三个部分应单独模拟(见图3)。要在自由场中生成虚拟声源，不需要模拟早期反射和晚期混响。相比之下，需要早期反射和晚期混响来模拟混响虚拟声源(带有房间信息)。

图4示出了模拟虚拟声源的一般方法的框图。直接声音部分221通过一对HRTF对输入信号进行滤波来模拟。有几种方法可以模拟早期反射部分222，例如图像源方法或射线跟踪方法。图像源方法通常用于3D音频的实时渲染。为了模拟早期反射部分222，应估计或预定义一些先决条件，即，声源和听众的位置以及房间的几何形状。晚期混响部分223可以通过使用人工混响器(例如，基于反馈延迟网络)或测量或合成的晚期混响等来实现。

本发明的实施例改进了双声道渲染声源的外化并减少了前后混淆。与传统方法(例如，参考图4描述的方法)相比，在单声道声源的情况下，直接声音和早期反射分别通过峰值和陷波滤波器和去相关滤波器进行附加处理。在立体声信号的情况下，提取的幻象中心信号通过峰值和陷波滤波器附加滤波，并与侧信号一起模拟直接声音部分。通过对幻象中心信号和侧信号进行去相关，并应用房间几何方法(例如图像源法)，模拟早期反射。此外，对于增强现实(augmented reality，AR)应用，原始信号中的环境声音被当前房间中的混响所取代。

在一个实施例中，图5示出了在立体声信号场景的情况下本发明实施例提供的信号处理方案。输入信号51被分解(例如，在框52中，使用上混方法)为中心信号53和一个或多个侧信号56。峰值和陷波滤波器54应用于中心信号53(即中心声道信号)的直接声音部分(直接部分221)。峰值和陷波滤波器54可以包括(或等效于)一个或多个峰值滤波器和一个或多个陷波滤波器的滤波器链。去相关滤波器57应用于中心信号53和一个或多个侧信号，以便模拟中心信号53和一个或多个侧信号56的早期反射(早期反射部分222)。中心信号53(在通过峰值和陷波滤波器54之后)和一个或多个侧信号56各自用HRTF 55滤波以生成直接声音部分221。通过对中心信号53和侧信号56进行去相关(57)，并应用房间几何方法(例如图像源方法58)，模拟早期反射。晚期混响部分223可以使用人工混响器(例如反馈延迟网络)，或使用测量的或合成的晚期混响部分来模拟。渲染过程可以在移动设备中执行。

在一个示例中，根据心理声学实验，可以观察到一些特殊的频率分量与正中面声源定位的主观印象相关。实验结果可以总结为：(1)正面定位是由1倍频程陷波提示的，其截止频率较低，在4kHz和8kHz之间，能量增加到13kHz以上。(2)通过1/4倍频程峰值滤波器的7kHz与9kHz之间的声源被视为位于上方的声音。(3)由10kHz至12kHz之间的峰值滤波器滤波的声源被视为位于后面的声音。“方向频带”表明500Hz和4kHz与正面定位有关，1kHz和8kHz分别与后感知和上感知有关。

在一个示例中，基于心理声学实验，设计了一种峰值陷波滤波器，以放大方向频带信息，从而提高声源定位精度，减少前声源和后声源的前后混淆。峰值和陷波滤波器的详细信息如下：以7kHz为中心并具有1倍频程带宽的陷波滤波器、以4kHz为中心并具有1/3倍频程带宽的峰值滤波器和以14kHz为中心并具有1/4倍频程带宽的峰值滤波器用于正面声源；以1kHz为中心并具有1/3倍频程带宽的峰值滤波器、以9kHz为中心并具有1/4倍频程带宽的陷波滤波器、以11kHz为中心并具有1/4倍频程带宽的峰值滤波器和以16kHz为中心并具有1/4倍频程带宽的陷波滤波器用于后声源。音频质量和定位性能都高度依赖于峰值和陷波滤波器中的增益因子。例如，可以应用+/–10dB的增益因子来实现声音音色着色和声音定位精度之间的权衡。图6示出了分别为前(左图)和后(右图)声源设计的峰值陷波滤波器的幅度谱的示例。

峰值和陷波滤波器仅应用于前区域和后区域的声源，该声源在渲染系统中前视和后视方向周围的水平和正中面中定义在–20°和20°之间(见图7)。图7示出了前区域和后区域。

在侧向声源的情况下，滤波器的增益因子应设置为零。为了避免正面声源和侧向声源之间的跳跃，需要考虑方位角和仰角相关的增益因子。前区域和后区域的增益因子

和

表示为：

其中

其中，θ和

分别表示方位角和仰角。

和

分别表示前声源和后声源的峰值和陷波滤波器中的增益因子。例如，参数a、b、c和d分别为：为–0.1081、–0.1081、0.0054和3.1623。图8示出了位于水平面上(仰角

)的声源在不同方位角(θ)上的增益因子的示例。

虽然上述峰值和陷波滤波器被考虑用于前声源和后声源，以减少前后混淆，但需要说明的是，峰值和陷波滤波器也可以设计用于位于头部上方的虚拟声源，以减少上下混淆。

模拟早期反射的去相关滤波器具有增加双声道混响线索的效果，即临界频带中两个耳信号之间的耳间电平差(interaural-level difference，ILD)和耳间相干(interaural coherence，IC)的波动，并进一步改善耳机上3D音频重放的感知外化。

输入音频信号可以通过使用一对静态或动态FIR全通滤波器进行去相关(见图9，左图)。但是，该方法的一个缺点是，由于滤波器中的相位变化，无法保证均匀的幅度谱。为了避免这个问题，公开了一种基于滤波器组的去相关方法。在该方法中，通过应用等效矩形频带(equivalent rectangular band，ERB)滤波器组，将输入音频信号分为24个临界频带。在每个频带中应用随机延迟(见图9，右图)。之后，每个频带中的音频信号相加。

这对时变去相关滤波器(随机相位FIR滤波器或基于滤波器组的去相关滤波器)用于早期反射，以改善虚拟声源上的感知外化和空间感，特别是对于前声源和后声源(基于我们的实验)。

实施例1

在不使用房间信息的情况下渲染单声道干声源。

图10示出了在不使用房间信息的情况下增强单声道干信号外化的实施例。单声道输入信号101通过峰值和陷波滤波器54滤波，该滤波器取决于声源的方位角和仰角。滤波后的信号进一步通过所需方位角和仰角的一对HRTF 55滤波，以模拟虚拟声源。对于动态双声道渲染系统(双声道渲染与头部跟踪设备耦合)，峰值和陷波滤波器的HRTF和增益因子应作为模拟虚拟声源和听众头部之间的相对位置的函数而实时更改。

实施例2

使用附加的房间信息渲染单声道干声源。

实施例1(图10)旨在模拟自由场中的虚拟声源(在不使用房间信息的情况下)。图11示出了使用附加的房间信息增强单声道干信号外化的方法的示例。直接声音部分221可以与实施例1中相同，即输入信号101通过峰值和陷波滤波器54滤波，并进一步通过一对HRTF55滤波。为了模拟早期反射，应估计或预定义一些特征，例如声源和听众的位置以及房间的几何形状。在本实施例中，单声道输入信号101首先通过应用一对去相关滤波器57进行去相关。然后，例如通过图像源方法58，去相关的左信号和右信号被用于生成早期反射部分222。晚期混响可以使用基于反馈延迟网络的人工混响器来测量或合成晚期混响。直接声音221、早期反射222和晚期混响223相加，以产生左耳信号231和右耳信号232。耳信号231和232可以由耳机呈现。

实施例3

使用本地房间信息为AR应用程序渲染单声道湿声源。

图12示出了使用附加的本地房间信息增强单声道湿信号外化的方法的示例。该湿输入信号101包含与本地房间(例如会议室、卧室等)的声学不一致的原始环境声音123(例如机场的噪音、教堂的强混响等)。因此，用户接收到的单声道湿输入信号101使用环境相位估计(ambient phase estimation，APE)方法、主成分分析(principal componentanalysis，PCA)或最小二乘(least squares，LS)方法等分解为主要声音和环境声音。提取的主要声音被认为是干信号122，并且环境信号被丢弃。主要声音信号通过峰值和陷波滤波器54滤波，并进一步通过一对HRTF 55滤波，以模拟虚拟声源的直接部分221。为了模拟早期反射，通过应用一对去相关滤波器57来对主要声音进行去相关，然后使用图像源方法58等来处理去相关左信号和右信号。晚期混响可以使用基于反馈延迟网络的人工混响器来测量或合成晚期混响59。用于模拟晚期混响部分223的房间声学参数(例如，混响时间和混合时间)可以与本地房间中的房间声学参数一致。最后，对于左耳信号231和右耳信号232，直接声音(直接部分221)、早期反射(早期反射部分222)和晚期混响(晚期混响部分223)相加，并通过耳机播放。

实施例4

在不使用房间信息的情况下渲染立体声干声源。

图13示出了在不使用房间信息的情况下增强立体声干信号外化的方法的示例。立体声干信号131上混132到中心(即中心声道)和侧(左声道和右声道)信号。中心信号通过峰值和陷波滤波器54滤波，并进一步由一对中心HRTF 55(例如，在0°处的HRTF)滤波。侧(左和右)信号通过两对侧向HRTF 133(例如，在+/–30°(虚拟扬声器的位置)处的HRTF)滤波。

实施例5

使用附加的房间信息渲染立体声干声源。

图14示出了使用附加的房间信息增强立体声干信号外化的方法的示例。立体声干信号131上混132到中心信号和侧(左和右)信号。中心信号通过峰值和陷波滤波器54滤波，并进一步通过一对中心HRTF 55(例如在0°处的HRTF)滤波。侧(左和右)信号通过两对侧向HRTF 133(例如，在+/–30°(虚拟扬声器的位置)处的HRTF)滤波。这三个声道中的信号通过去相关滤波器57滤波，并使用图像源方法58等进一步处理以模拟早期反射。为此，需要一个简单的房间模型，例如，房间的宽度、长度、高度，听众的位置和声源。晚期混响可以使用基于反馈延迟网络的人工混响器来测量或合成晚期混响59。在图14中，输入立体声信号直接用于生成晚期混响。也可以使用上混信号(中心信号和侧信号)来创建晚期混响。

实施例6

在不使用房间信息的情况下渲染立体声湿声源。

图15示出了在不使用房间信息的情况下增强立体声湿信号外化的方法的示例。来自立体声湿信号151的主要信号和环境信号使用APE方法、PCA或LS方法等提取152。提取的主要声音被视为干信号。然后，主要声音上混132到左信号、右信号和中心信号。中心信号通过峰值和陷波滤波器54滤波，并进一步通过一对中心HRTF 55(例如在0°处的HRTF)滤波，产生左耳中心信号和右耳中心信号。侧(左和右)信号和环境声音相加，并通过两对侧向HRTF133(例如，在+/–30°(虚拟扬声器的位置)处的HRTF)滤波，产生左耳“侧加环境(side plusambient)”信号和右耳“侧加环境”信号。左耳中心信号和左耳“侧加环境”信号相加以产生左耳信号231。类似地，右耳中心信号和右耳“侧加环境”信号相加以产生右耳信号232。最后，左耳信号231和右耳信号232可以通过耳机播放。

实施例7

使用附加的房间信息渲染立体声湿声源。

图16示出了使用附加的房间信息增强立体声湿信号外化的方法的示例。首先将一对立体声信号151分解152为主要部分和环境部分。主要部分(主要声音)上混132到中心声道信号、侧(左和右)声道信号。中心声道信号通过峰值和陷波滤波器54滤波，并进一步通过一对中心HRTF 55(例如在0°处的HRTF)滤波。对于左耳和右耳，环境声音和侧声道信号相加，并通过两对侧HRTF 133(例如，在+/–30°处的HRTF)进一步滤波。对于左耳和右耳，三个上混信号(左信号、右信号和中心信号)去相关57，并使用图像源方法58进一步处理以模拟早期反射。此外，人工混响器，测量的或合成的晚期混响59用于模拟这三个(左、右和中心)虚拟声源的晚期混响部分223。与图14类似，提取的干立体声信号直接用于创建图16中的晚期混响。也可以使用上混信号(中心信号和侧信号)来创建晚期混响。最后，左耳信号和右耳信号相加并通过耳机播放。

实施例8

使用本地房间信息为AR应用程序渲染立体声湿声源。

图17示出了使用房间信息为AR应用程序增强立体声湿信号外化的方法的示例。在本实施例中，环境声音被局部混响取代。首先将一对立体声信号151分解152为主要部分和环境部分。提取的环境声音被丢弃。只有主要声音(干立体声信号)被进一步处理到虚拟化。主要部分上混132到中心声道信号、侧(左和右)声道信号。中心声道信号通过峰值和陷波滤波器54滤波，以减少前后混淆，并进一步通过一对中心HRTF 55(例如，在0°处的HRTF)滤波。主要声音与测量的或合成的局部晚期混响171卷积，并添加到侧信号中。这些信号通过两对侧HRTF 133(例如，在+/–30°处的HRTF)进一步滤波，以创建直接部分和晚期混响部分。对于左耳和右耳，三个上混信号(左信号、右信号和中心信号)去相关57，并使用图像源方法58进一步处理以模拟早期反射。将所得左耳信号贡献相加以生成左耳信号231。类似地，将所得右耳信号贡献相加以生成右耳信号232。最后，左耳信号231和右耳信号232可以通过耳机播放。

另一种选择是直接将模拟混响部分添加到左耳信号和右耳信号中，而不是将合成的混响部分添加到侧信号中，如图18所示。

本发明实施例的应用包括使用多个扬声器的任何声音重放系统或环绕声系统。

特别地，本发明的实施例可以应用于

-电视扬声器系统，

-汽车娱乐系统，

-电话会议系统，和/或

-家庭影院系统，

其中，需要一个或多个听众的个人收听环境。

以上描述仅为本发明的实现方式，本发明的保护范围不限于此。本领域技术人员可以容易地进行任何变化或替换。本申请的保护范围由所附权利要求书限定。

Claims

1.一种用于处理立体声信号的方法，其特征在于，所述方法包括：

通过对所述立体声信号进行上混，获得中心声道信号(S12)；

通过将一个或多个峰值滤波器和一个或多个陷波滤波器应用于所述中心声道信号，生成滤波后的中心声道信号(S13)；

根据所述滤波后的中心声道信号生成双声道信号(S14)；

其中，所述一个或多个峰值滤波器包括以4kHz为中心并具有1/3倍频程带宽的第一峰值滤波器，和以13kHz以上的频率为中心并具有1/4倍频程带宽的第二峰值滤波器；所述一个或多个陷波滤波器包括以4kHz与8kHz之间的频率为中心并具有1倍频程带宽的陷波滤波器；或者，

所述一个或多个峰值滤波器包括以1kHz为中心并具有1/3倍频程带宽的第一峰值滤波器，和以10kHz与12kHz之间的频率为中心并具有1/4倍频程带宽的第二峰值滤波器；所述一个或多个陷波滤波器包括以9kHz为中心并具有1/4倍频程带宽的第一陷波滤波器，和以16kHz为中心并具有1/4倍频程带宽的第二陷波滤波器。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过对所述立体声信号进行上混而获得侧声道信号；

根据第一头相关传递函数处理所述侧声道信号，以获得处理后的侧声道信号；

根据第二头相关传递函数处理所述滤波后的中心声道信号，以获得处理后的中心声道信号；

其中，所述根据所述滤波后的中心声道信号生成双声道信号包括：

根据所述处理后的侧声道信号和所述处理后的中心声道信号生成所述双声道信号。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过对所述立体声信号进行上混而获得左声道信号和右声道信号；

根据两对头相关传递函数处理所述左声道信号和所述右声道信号，以获得处理后的左声道信号和处理后的右声道信号；

根据一对头相关传递函数处理所述滤波后的中心声道信号，以获得处理后的中心声道信号；

根据所述处理后的左声道信号和所述处理后的中心声道信号生成所述双声道信号的左信号；

根据所述处理后的右声道信号和所述处理后的中心声道信号生成所述双声道信号的右信号。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

使用一个或多个去相关滤波器对所述侧声道信号和所述中心声道信号进行滤波，以获得去相关侧信号和去相关中心信号；

根据所述去相关侧信号和所述去相关中心信号获得反射信号。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

使用一个或多个去相关滤波器对所述左声道信号、所述右声道信号和所述中心声道信号进行滤波，以获得去相关左信号、去相关右信号和去相关中心信号；

根据所述去相关左信号、所述去相关右信号和所述去相关中心信号获得反射信号。

6.根据上述权利要求中任一项所述的方法，其特征在于，所述方法还包括：

获得初始音频信号；

使用以下方法中的一种或任何组合分解所述初始音频信号：环境相位估计、主成分分析或最小二乘分析，以获得所述立体声信号。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获得初始音频信号；

使用以下方法中的一种或任何组合分解所述初始音频信号：环境相位估计、主成分分析或最小二乘分析，以获得所述立体声信号和环境信号；

将所述环境信号与所述左声道信号相加，以获得左和信号；

将所述环境信号与所述右声道信号相加，以获得右和信号；

根据两对头相关传递函数处理所述左和信号和所述右和信号，以获得处理后的左声道信号和处理后的右声道信号；

根据所述处理后的左声道信号和所述处理后的中心声道信号生成所述双声道信号的左信号，

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述立体声信号与局部混响卷积，以获得卷积立体声信号；

将所述卷积立体声信号与所述左声道信号相加，以获得左和信号；

将所述卷积立体声信号与所述右声道信号相加，以获得右和信号；

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述处理后的左声道信号、所述卷积立体声信号和所述处理后的中心声道信号生成所述双声道信号的左信号，

根据所述处理后的右声道信号、所述卷积立体声信号和所述处理后的中心声道信号生成所述双声道信号的右信号。

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

13.一种用于处理立体声信号的装置，其特征在于，所述装置包括处理电路，用于：

通过对所述立体声信号进行上混，获得中心声道信号；

通过将一个或多个峰值滤波器和一个或多个陷波滤波器应用于所述中心声道信号，获得滤波后的中心声道信号；

根据所述滤波后的中心声道信号生成双声道信号；

所述一个或多个峰值滤波器包括以1kHz为中心并具有1/3倍频程带宽的第一峰值滤波器，和以10kHz与12kHz之间的频率为中心并具有1/4倍频程带宽的第二峰值滤波器；所述一个或多个陷波滤波器包括以9kHz为中心并具有1/4倍频程带宽的第一陷波滤波器，和以14kHz为中心并具有1/4倍频程带宽的第二陷波滤波器。

14.根据权利要求13所述的装置，其特征在于，所述处理电路还用于通过对所述立体声信号进行上混而获得侧声道信号；

其中，所述双声道信号是基于所述处理后的侧声道信号和所述处理后的中心声道信号生成的。

15.根据权利要求13所述的装置，其特征在于，所述处理电路还用于通过对所述立体声信号进行上混而获得左声道信号和右声道信号；

其中，所述双声道信号的左信号根据所述处理后的左声道信号和所述处理后的中心声道信号生成，所述双声道信号的右信号根据所述处理后的右声道信号和所述处理后的中心声道信号生成。

16.根据权利要求14所述的装置，其特征在于，所述处理电路还用于：

对所述侧声道信号和所述中心声道信号进行滤波，以获得去相关侧信号和去相关中心信号；

17.根据权利要求15所述的装置，其特征在于，所述处理电路还用于：

对所述左声道信号、所述右声道信号和所述中心声道信号进行滤波，以获得去相关左信号、去相关右信号和去相关中心信号；

18.根据权利要求13至15中任一项所述的装置，其特征在于，所述处理电路用于使用以下方法中的一种或任何组合获得初始音频信号，并分解所述初始音频信号：环境相位估计、主成分分析或最小二乘分析，以获得立体声信号。

19.根据权利要求13所述的装置，其特征在于，所述处理电路用于获得初始音频信号，并使用以下方法中的一种或任何组合分解所述初始音频信号：环境相位估计、主成分分析或最小二乘分析，以获得所述立体声信号和环境信号；

将所述环境信号与所述左声道信号相加，以获得左和信号，

将所述环境信号与所述右声道信号相加，以获得右和信号；

20.根据权利要求19所述的装置，其特征在于，所述处理电路还用于：

21.根据权利要求13所述的装置，其特征在于，所述处理电路还用于通过对所述立体声信号进行上混而获得左声道信号和右声道信号；

22.根据权利要求21所述的装置，其特征在于，所述处理电路还用于：

23.根据权利要求13所述的装置，其特征在于，所述处理电路还用于通过对所述立体声信号进行上混而获得左声道信号和右声道信号；

根据所述处理后的左声道信号、所述卷积立体声信号和所述处理后的中心声道信号生成所述双声道信号的左信号；

24.根据权利要求23所述的装置，其特征在于，所述处理电路还用于：

25.一种计算机可读存储介质(32)，其特征在于，所述计算机可读存储介质(32)存储程序代码，当计算机执行所述程序代码时，使计算机执行根据权利要求1至12中任一项所述的方法。