CN105684466A

CN105684466A - 立体声再现方法和设备

Info

Publication number: CN105684466A
Application number: CN201480058551.1A
Authority: CN
Inventors: 田相培; 金善民; 赵炫
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2013-10-25
Filing date: 2014-10-27
Publication date: 2016-06-15
Anticipated expiration: 2034-10-27
Also published as: US20160269845A1; EP3664475A1; EP3035711A4; JP6660982B2; EP3664475B1; US10645513B2; EP3833054A1; US20200260204A1; CN105684466B; PL3833054T3; JP6382965B2; PL3664475T3; CN107734445B; JP2018201224A; KR102231755B1; MX2016004750A; US11051119B2; WO2015060696A1; EP3833054B1; MX355499B

Abstract

公开了一种立体声再现方法，所述方法包括：获取多声道音频信号；根据多声道音频信号的声道信息和频率将信号渲染到将被再现的声道；对渲染后的信号进行混合。

Description

立体声再现方法和设备

技术领域

一个或更多个示例性实施例涉及一种三维(3D)声音再现方法和设备，更具体地讲，涉及一种多声道音频信号再现设备和方法。

背景技术

随着视频和音频处理技术的发展，高清晰度、高质量的内容的产量已增加。过去要求高清晰度、高质量的内容的用户期望逼真的图像和声音，因此，已进行广泛的研究来提供3D图像和3D声音。

通过在水平面上的不同位置布置多个扬声器并通过这些扬声器输出相同的声音信号或不同的声音信号，3D声音技术使用户能够感受到空间。然而，真实的声音可能从水平面的不同位置产生，也可能在不同的高度产生。因此，需要通过布置在水平面上的扬声器来再现在不同的高度产生的声音信号的技术。

发明内容

技术方案

一个或更多个示例性实施例包括一种能够在水平面布局环境中再现多声道音频信号的3D声音再现方法和设备，其中，多声道音频信号包括高度声音信号。

有益效果

根据以上示例性实施例中的一个或更多个，3D声音再现设备可通过布置在水平面上的扬声器来再现声音信号的高度分量，使得用户能够感受到高度。

根据以上示例性实施例中的一个或更多个，当多声道音频信号在声道数量少的环境中被再现时，3D声音再现设备可避免音调改变或者避免声音消失。

附图说明

图1和图2是根据示例性实施例的3D声音再现设备的框图；

图3是根据示例性实施例的3D声音再现方法的流程图；

图4是根据示例性实施例的针对包括鼓掌信号的音频信号的3D声音再现方法的流程图；

图5是根据示例性实施例的3D渲染器的框图；

图6是根据示例性实施例的混合经渲染的音频信号的方法的流程图；

图7是根据示例性实施例的根据频率来混合经渲染的音频信号的方法的流程图；

图8是根据示例性实施例的根据频率来混合经渲染的音频信号的示例的示图；

图9和图10是根据示例性实施例的3D声音再现设备的框图。

最佳实施方式

根据一个或更多个示例性实施例，一种三维声音再现方法包括：获取多声道音频信号；根据多声道音频信号的声道信息和频率将信号渲染到将被再现的声道；对渲染后的信号进行混合。

三维声音再现方法还可包括：从多声道音频信号中分离出掌声信号，其中，渲染步骤包括：根据二维渲染方法对掌声信号进行渲染，或者针对掌声信号的每个声道将掌声信号渲染到布置在水平面上的输出声道中的最近声道。

混合的步骤可包括：根据能量提升法对渲染后的掌声信号进行混合。

从多声道音频信号中分离出掌声信号的步骤可包括：基于从以下项中选择的至少一项来确定多声道音频信号中是否包括掌声信号：多声道音频信号中是否存在非声调宽带信号，非声调宽度信号的电平是否针对每个声道相似，短区间的脉冲是否重复，以及声道间相关性是否低；根据确定结果来分离出掌声信号。

渲染的步骤可包括：基于声道信息将多声道音频信号分离为水平声道信号和头顶声道信号；将头顶声道信号分离为低频信号和高频信号；针对低频信号中的每个声道，将低频信号渲染到布置在水平面上的输出声道中的最近声道；根据三维渲染方法对高频信号进行渲染；根据二维渲染方法对水平声道信号进行渲染。

混合的步骤可包括：根据声道信息和频率来确定将被应用于渲染后的信号的增益；将确定的增益应用于渲染后的信号，并对渲染后的信号进行混合。

混合的步骤可包括：基于渲染后的信号的功率值对渲染后的信号进行混合，使得渲染后的信号的功率值被保持。

混合的步骤可包括：基于渲染后的信号的功率值，针对每个预定区间对渲染后的信号进行混合；在渲染后的信号中分离出低频信号；基于先前区间中的渲染信号的功率值来混合低频信号。

根据一个或更多个示例性实施例，一种三维再现设备包括：渲染器，获取多声道音频信号，并根据多声道音频信号的声道信息和频率将信号渲染到将被再现的声道；混合器，对渲染后的信号进行混合。

具体实施方式

现在将具体参照在附图中示出其示例的示例性实施例，在附图中，相同的标号始终指示相似的元件。在这方面，本示例性实施例可具有不同形式，不应被解释为限于在此阐述的描述。相应地，仅在下面通过参照附图来描述示例性实施例以解释本说明书的各方面。

关于在此使用的术语，在考虑示例性实施例中的功能的情况下尽可能地选择最广泛使用的术语；然而，这些术语可根据本领域技术人员的意图、判例或新技术的出现而改变。在此使用的一些术语可由申请人任意选择。在这种情况下，这些术语将在下面被具体定义。相应地，应基于其独特含义和本构思的整体语境来理解在此使用的特定术语。

还将理解的是，当在此使用术语“包括”、“包含”和“具有”时，除非另有定义，否则所述术语说明所列举的元素的存在，但不排除其他元素的存在或添加。此外，在此使用的术语“单元”和“模块”表示用于处理至少一种功能或操作的单元，其中，所述单元可由硬件、软件或者硬件和软件的组合实现。

下面将参照附图来具体描述示例性实施例，使得本领域普通技术人员可容易地实现本发明构思。然而，本发明构思可以以许多不同方式实现，并不应被视为限于在此阐述的示例性实施例。此外，将在附图中省略与示例性实施例的描述无关的部分以清楚地描述示例性实施例，在整个说明书中相似的标号将表示相似的元件。

以下，将参照附图描述本发明的示例性实施例。

图1和图2是根据示例性实施例的3D声音再现设备100和200的框图。

根据示例性实施例的3D声音再现设备100可通过将被再现的声道输出缩混的多声道音频信号。

3D声音是指通过再现方向感或距离感以及音高和音调来使听众能够感受到临场感，并具有使不位于产生声源的空间中的听众感受到方向、感受到距离并感受到空间的空间信息的声音。

在下面的描述中，音频信号的声道可以是通过其输出声音的多个扬声器。随着声道的数量增加，扬声器的数量会增加。根据示例性实施例的3D声音再现设备100可将多声道音频信号渲染为将被再现的声道并对渲染后的信号进行混合，使得声道数量多的多声道音频信号在声道数量少的环境中被输出和再现。此时，多声道音频信号可包括能够输出高度声音的声道。

能够输出高度声音的声道可以是能够通过位于听众的头上方的扬声器来输出声音信号，以使听众感受到高度的声道。水平声道可以是能够通过位于与听众平行的平面上的扬声器来输出声音信号的声道。

声道的数量少的环境可以是不包括能够输出高度声音的声道并可通过根据水平声道布置在水平面上的扬声器来输出声音的环境。

此外，在下面的描述中，水平声道可以是包括可通过布置在水平面上的扬声器输出的音频信号的声道。头顶声道可以是包括可通过布置在某个高度而不是水平面上并能够输出高度声音的扬声器输出的音频信号的声道。

参照图1，根据示例性实施例的3D声音再现设备100可包括渲染器110和混合器120。

根据示例性实施例的3D声音再现设备100可对多声道音频信号进行渲染和混合，并通过将再现的声道来输出渲染后的多声道音频信号。例如，多声道音频信号是22.2声道信号，而将再现的声道可以是5.1或7.1声道。3D声音再现设备100可通过确定与多声道音频信号的各个声道相应的声道来执行渲染，对与将再现的声道相应的各个声道的信号进行组合，对渲染后的音频信号进行混合，并输出最终信号。

渲染器110可根据声道和频率对多声道音频信号进行渲染。渲染器110可对多声道音频信号的头顶声道信号和水平声道信号执行3D渲染和2D渲染。

渲染器110可根据频率通过使用不同的方法对通过头相关传输滤波器(HRTF)的头顶声道进行渲染，以对头顶声道进行3D渲染。HRTF滤波器可通过关于复杂路径的特性根据声音到达方向而改变的现象来使听众能够识别出3D声音。关于复杂路径的特性包括从头表面的衍射和从耳廓的反射以及简单路径差(诸如，双耳之间的水平(level)差和双耳之间的声音信号的到达时间差)。HRTF滤波器可通过改变音频信号的声音质量来处理包括在头顶声道中的音频信号，以使听众能够识别到3D声音。

渲染器110可通过使用添加到最近声道法对头顶声道信号之中的低频信号进行渲染，并可通过使用多声道平移(panning)法对高频信号进行渲染。根据多声道平移法，当声道信号被渲染时，可通过将被不同地设置的增益值应用于多声道音频信号的声道信号来对至少一个水平声道进行渲染。增益值被应用于的声道信号可被混合并作为最终信号被输出。

低频信号具有强衍射特性。因此，即使当仅对一个声道执行渲染而不是在根据多声道平移法将多声道音频信号的声道划分为多个声道之后执行渲染时，也可向听众提供相似的声音质量。因此，根据示例性实施例的3D声音再现设备100可通过使用添加到最近声道法来对低频信号进行渲染，因而避免当多个声道被混合为一个输出声道时声音质量降低。也就是说，如果多个声道被混合为一个输出声道，则声音质量可根据声道信号之间的干扰而提高或降低，导致声音质量的降低。因此，通过将一个声道混合为一个输出声道可避免声音质量降低。

根据添加到最近声道法，多声道音频信号的声道可被渲染到将再现的声道中的最近声道，而不是被渲染到多个声道。

此外，通过根据频率以不同方法执行渲染，3D声音再现设备100可拓宽最佳听音位置而不降低声音质量。也就是说，通过根据添加到最近声道法来渲染具有强衍射特性的低频信号，能够避免当多个声道被混合为一个输出声道时声音质量降低。最佳听音位置可以是使听众能够最优地听到不失真的3D声音的预定范围。随着最佳听音位置变宽，听众可最优地听到不失真的3D声音。当听众不位于最佳听音位置时，听众会听到声音质量或声像失真的声音。

将参照图4或图5来具体描述根据频率使用不同的平移法的渲染。

混合器120可通过经过渲染器110来组合与水平声道相应的声道的信号来输出最终信号。混合器120可对针对每个预定区间的声道的信号进行混合。例如，混合器120可对针对每一帧的声道的信号进行混合。

根据示例性实施例的混合器120可基于被渲染到将被再现的声道的信号的功率值来混合信号。换言之，混合器120可基于被渲染到将被再现的声道的信号的功率值，确定最终信号的幅度或将被应用于最终信号的增益。

参照图2，根据示例性实施例的3D声音再现设备200可包括声音分析单元210、渲染器220、混合器230和输出单元240。图2中的3D声音再现设备200、渲染器220和混合器230与图1中的3D声音再现设备100、渲染器110和混合器120相应，因此省略对其的冗余描述。

声音分析单元210可通过分析多声道音频信号来选择渲染模式，并从多声道音频信号中分离出一些信号。声音分析单元210可包括渲染模式选择单元211和渲染信号分离单元212。

渲染模式选择单元211可针对每个预定区间确定多声道音频信号中是否存在许多瞬态信号。瞬态信号的示例可包括掌声、雨声等。在下面的描述中，包括许多瞬态信号(诸如，掌声或雨声)的音频信号将被称为掌声信号。

根据示例性实施例的3D声音再现设备200可分离出掌声信号，并根据掌声信号的特性来执行声道渲染和混合。

渲染模式选择单元211可根据多声道音频信号中是否包括掌声信号来选择普通模式和掌声模式之一。渲染器220可根据由渲染模式选择单元211选择的模式来执行渲染。也就是说，渲染器220可根据选择的模式对掌声信号进行渲染。

当多声道音频信号中不包括掌声信号时，渲染模式选择单元211可选择普通模式。在普通模式下，可由3D渲染器221对头顶声道信号进行渲染，并由2D渲染器222对水平声道信号进行渲染。也就是说，可在不考虑掌声信号的情况下执行渲染。

当多信道音频信号中包括掌声信号时，渲染模式选择单元211可选择掌声模式。在掌声模式下，掌声信号可被分离出，并可对分离出的掌声信号执行渲染。

渲染模块选择单元211可通过使用包括在多声道音频信号中或者从另一装置被单独地接收到的掌声比特信息，针对每个预定区间确定多声道音频信号中是否包括掌声信号。根据基于MPEG的编解码器，掌声比特信息可包括bsTsEnable或bsTempShapeEnableChannel标志信息，渲染模式选择单元211可根据上述标志信息来选择渲染模式。

此外，渲染模式选择单元211可基于将被确定的预定区间中的多声道音频信号的特性来选择渲染模式。也就是说，渲染模式选择单元211可根据预定区间中的多声道音频信号的特性是否具有包括掌声信号的音频信号的特性来选择渲染模式。

渲染模式选择单元211可基于下列条件中的至少一个条件来确定多声道音频信号中是否包括掌声信号：多声道音频信号中是否存在对于多个输入声道而言没有声调的(tonal)宽带信号，针对每个声道而言宽带信号的电平是否相似，短区间的脉冲是否重复，以及声道间相关性是否低。

当确定当前区间中的多声道音频信号中包括掌声信号时，渲染模式选择单元211可选择掌声模式。

当渲染模式选择单元211选择掌声模式时，渲染信号分离单元212可从一般音频信号中分离出包括在多声道音频信号中的掌声信号。

当基于MPEGUSAC的bsTsdEnable标志被使用时，可根据标志信息来如同在水平声道信号中那样执行2D渲染，而不考虑相应的声道的高度。此外，头顶信号可被假定为水平声道信号，并根据标志信息被混合。也就是说，渲染信号分离单元212可根据标志信息从预定区间的多声道音频信号中分离出掌声信号，并可如同在水平声道信号中那样对分离出的掌声信号进行2D渲染。

在不使用标志的情况下，渲染信号分离单元212可分析声道之间的信号，并分离出掌声信号分量。从头顶信号中分离出的掌声信号可被2D渲染，除了掌声信号以外的信号可被3D渲染。

渲染器220可包括3D渲染器221和2D渲染器222，其中，3D渲染器221根据3D渲染方法对头顶信号进行渲染，2D渲染器222根据2D渲染方法对水平声道信号或掌声信号进行渲染。

3D渲染器221可根据频率按照不同的方法对头顶信号进行渲染。3D渲染器221可通过使用添加到最近声道法对低频信号进行渲染，并可通过使用3D渲染方法对高频信号进行渲染。在下文中，3D渲染方法可以是对头顶信号进行渲染的方法，并可包括多声道平移法。

2D渲染器222可通过使用从以下方法中选择出的至少一种方法来执行渲染：对水平声道信号或掌声信号进行2D渲染的方法，添加到最近声道法，以及能量提升法。在下文中，2D渲染方法可以是对水平声道信号进行渲染的方法，并可包括缩混等式或矢量基幅度平移(VBAP)法。

3D渲染器221和2D渲染器222可通过矩阵变换被简化。3D渲染器221可通过由输入声道、输出声道和频率的函数定义的3D缩混矩阵来执行缩混。2D渲染器222可通过由输入声道、输出声道和频率的函数定义的2D缩混矩阵来执行缩混。也就是说，3D缩混矩阵或2D缩混矩阵可通过包括能够根据输入声道、输出声道或频率而被确定的系数来对输入的多声道音频信号进行缩混。

当渲染被执行时，针对每个频率的声音信号的幅度部分比声音信号的相位部分更重要。因此，3D渲染器221和2D渲染器222可通过使用包括能够根据每个频率值而被确定的系数的缩混矩阵来执行渲染，因而降低渲染的计算量。通过缩混矩阵而被渲染的信号可根据混合器230的功率保持模块而被混合，并被输出为最终信号。

混合器230可针对每个声道计算渲染后的信号，并输出最终信号。根据示例性实施例的混合器230可基于包括在各个声道中的信号的功率值对渲染后的信号进行混合。因此，根据示例性实施例的3D声音再现设备200可通过基于渲染后的信号的功率值对渲染后的信号进行混合来降低音调失真。音调失真可由频率加强或偏移导致。

输出单元240可通过扬声器最终输出混合器230的输出信号。此时，输出单元240可根据混合后的信号的声道，通过不同的扬声器来输出声音信号。

图3是根据示例性实施例的3D声音再现方法的流程图。

参照图3，在操作S301，3D声音再现设备100可根据声道信息和频率对多声道音频信号进行渲染。3D声音再现设备100可根据声道信息来执行3D渲染或2D渲染，并可在考虑低频信号的特征的情况下对低频信号进行渲染。

在操作S303，3D声音再现设备100可通过混合在操作S301中渲染的信号来产生最终信号。3D声音再现设备100可通过确定将输出多声道音频信号的各个声道的信号的声道来执行渲染，通过对渲染后的信号进行相加或执行算术运算来执行混合，并产生最终信号。

图4是根据示例性实施例的针对包括鼓掌信号的音频信号的3D声音再现方法。

参照图4，在操作S401，3D声音再现设备200可针对每个预定区间对多声道音频信号进行分析，以确定多声道音频信号中是否包括掌声信号。

在操作S403，3D声音再现设备200可针对每个预定区间(例如，一帧)确定输入的多声道音频信号中是否包括掌声信号。3D声音再现设备200可通过分析将被确定的预定区间的标志信息或多声道音频信号，针对每个预定区间确定输入的多媒体音频信号中是否包括掌声信号。由于3D声音再现设备200对从头顶信号或水平声道信号中分离出的掌声信号进行处理，因此能够在掌声信号被混合时降低音调失真。

在操作S405，当确定输入的多声道音频信号中包括掌声信号时，3D声音再现设备200可分离出掌声信号。在操作S407，3D声音再现设备200可对掌声信号和水平声道信号进行2D渲染。

可根据缩混等式或VBAP法对水平声道信号进行2D渲染。

当根据添加到最近声道法包括高度声音的声道被投影在水平面上时，可将掌声信号渲染到最近声道，或者可根据2D渲染方法对掌声进行渲染并随后根据能量提升法对掌声进行混合。

在根据2D渲染方法或3D渲染方法进行渲染之后对掌声信号进行混合的情况下，由于混合信号中的瞬态分量的数量增加而会发生白化现象，或者声像会由于声道之间的互相关的增加而变窄。因此，为了避免发生白化现象或声像变窄，3D声音再现设备200可根据被用于对低频信号进行3D渲染的添加到最近声道法或能量提升法对掌声信号进行渲染和混合。

能量提升法是当声道的音频信号被混合为单个声道时增加水平声道信号的能量，以避免音调由于瞬态周期的改变而白化的混合方法。能量提升法与混合渲染后的掌声信号的方法相关。

可基于下面的等式1来执行根据能量提升法来混合掌声信号的方法。

[等式1]

\begin{matrix} y_{o u t} [l, k] = \frac{\sqrt{Σ_{&ForAll; i n} {(ω_{i n, o u t} x_{i n} [l, k])}^{2}}}{| x_{i n = o u t} [l, k] |} & x_{i n = o u t} [l, k] \end{matrix}

(在频域中处理)

w_in,out是缩混增益。多声道音频信号中的各个声道被渲染到将被再现的声道。当掌声信号被混合时，缩混增益可针对每个声道被应用于掌声信号。缩混增益可根据各个声道被渲染到的声道而被预先确定为预定值。x_in＝_out[l,k]表示与输出布局相应地渲染的掌声信号，并表示任何掌声信号。l是用于标识声音信号的预定区间的值，k是频率。x_in＝_out[l,k]/|lx_in＝_out[l,k]|是输入的掌声信号的相位值，等式1的方根内的值可以是与同一输出声道相应的掌声信号的功率(即，能量值之和)。

参照等式1，将被再现的每个声道的增益可被修改多达缩混增益被应用于被渲染到输出布局的一个声道的多个掌声信号所得到的值的功率值。因此，掌声信号的幅度可增加能量值之和的程度，由相位差引起的白化现象可被避免。

在操作S409，当确定输入的多声道音频信号中不包括掌声信号时，3D声音再现设备200可对水平声道信号进行2D渲染。

在操作S411，3D声音再现设备200可通过使用HRTF滤波器对头顶声道信号进行滤波，以提供3D声音信号。当头顶声道信号是频域信号或滤波器组样点时，由于HRTF滤波器是仅用于提供光谱的相对权重的滤波器，因此可通过简单的乘法来执行HRTF滤波。

在操作S413，3D声音再现设备200可将头顶声道信号分离为高频信号和低频信号。例如，当声音信号具有1kHz或更低的频率时，3D声音再现设备200可将声音信号分离为低频信号。由于在声学特性方面低频分量的衍射强，因此可通过使用添加到最近声道法对低频分量进行渲染。

在操作S415，3D声音再现设备200可通过使用3D渲染方法对高频信号进行渲染。3D渲染方法可包括多声道平移法。多声道平移法可表示多声道音频信号的声道信号被分配给将被再现的声道。此时，平移系数被应用于的声道信号可被分配到将被再现的声道。在高频信号的情况下，信号可被分配到环绕声道，以提供耳间声强差(ILD)随着高度增加而降低的特性。此外，声音信号的方向可通过与前声道成排的声道的数量来定位。

在操作S417，3D声音再现设备200可通过使用添加到最近声道法对低频信号进行渲染。如果许多信号(即，多声道音频信号的多个声道信号)与一个声道混合，则因为声音质量由于不同的相位而偏移或放大，所以声音质量会降低。根据添加到最近声道法，当声道被投影在声道水平面上时，如下面的表1所示，3D声音再现设备200可将声道映射到最近声道以避免发生声音质量降低。

[表1]

输入声道(22.2)	输出声道(5.1)
		上前左(TFL)	前左(FL)
上前右(TFR)	前右(FR)
		上环绕左(TSL)	环绕左(SL)
上环绕右(TSR)	环绕右(SR)
		上后左(TBL)	环绕左(SL)
上后右(TBR)	环绕右(SR)
		上前中(TFC)	前中(FC)
上后中(TBC)	环绕(SL&SR)
		上帝之声(VOG)	前&环绕(FL,FR,SL,SR)

参照表1，通过平移针对声像位置的系数，头顶声道中存在的多个近声道中的诸如TBC和VOG的声道可被分布到5.1声道。

如表1所示的映射关系仅仅是示例性的，并不限于以上示例。声道可不同地被映射。

当多声道音频信号是频率信号或滤波器组信号时，与低频相应的槽或带可根据添加到最近声道法被渲染，与高频相应的槽或带可根据多声道平移法被渲染。槽或带可指示频域中的基于预定单元的信号区间。

在操作S419，3D声音再现设备100可基于功率值对被渲染到各个声道的信号进行渲染。此时，3D声音再现设备100可在频域中对信号进行渲染。将参照图6和图7更具体地描述基于功率值来混合被渲染到各个声道的信号的方法。

在操作S421，3D声音再现设备100可将混合后的信号输出为最终信号。

图5是根据示例性实施例的3D渲染器500的框图。图5的3D渲染器500与图2的3D渲染器221相应，因此，省略其冗余描述。

参照图5，3D渲染器500可包括HRTF滤波器510、低通滤波器(LPF)520、高通滤波器(HPF)530、添加到最近声道540和多声道平移550。

HRTF滤波器510可对多声道音频信号中的头顶声道信号执行HRTF滤波。

LPF520可从HRTF滤波后的头顶声道中分离出低频分量。

HPF530可从HRTF滤波后的头顶声道中滤波出高频分量。

当头顶声道信号的低频分量被投影到声道水平面上时，添加到最近声道540可被渲染到最近声道。

多声道平移550可根据多声道平移法对头顶声道信号的高频分量进行渲染。

图6是根据示例性实施例的混合经渲染的音频信号的方法的流程图。图6的操作S601至S605与图4的操作S419相应，因此省略对其的冗余描述。

参照图6，在操作S601，3D声音再现设备100可获得渲染后的音频信号。

在操作S603，3D声音再现设备100可针对每个声道获取渲染后的音频信号的功率值。在操作S605，3D声音再现设备100可针对每个声道基于获取的功率值来混合渲染后的音频信号，并产生最终信号。

图7是根据示例性实施例的根据频率来混合经渲染的音频信号的方法的流程图。由于图7的操作S701和S703分别与图6的操作S601和S603相应，因此省略对其的冗余描述。

参照图7，在操作S701，3D声音再现设备100可获取渲染后的音频信号。

在操作S703，3D声音再现设备100可根据功率保持模块，针对每个声道获取渲染后的音频信号的功率值。在操作S705，3D声音再现设备100可基于获取的功率值来混合渲染后的音频信号。可通过获取针对每个声道的渲染后的信号的平方和来获取针对每个声道的渲染后的信号的功率值。

[等式2]

\begin{matrix} y_{o u t} [l, k] = \frac{\sqrt{Σ_{&ForAll; i n} {(x_{i n, o u t} [l, k])}^{2}}}{| x_{o u t} [l, k] |} & x_{o u t} [l, k] \end{matrix}

其中，(在频域中处理)

x_in,out是被渲染到任何声道的音频信号。x_out是被渲染到任何声道的信号的总和。I是多声道音频信号的当前区间。k是频率。y_out是根据功率保持模块被混合的信号。

根据功率保持模块，可执行混合，使得基于被渲染到各个声道的信号的功率值最终混合的信号的功率被保持在混合之前的功率上。因此，根据功率保持模块，能够避免当混合后的信号被添加到渲染后的信号时，声音信号由于相长干涉或相消干涉而失真。

参照等式2，3D声音再现设备100可通过将渲染到各个声道的信号的功率值应用于被渲染到各个声道的信号的总和的相位来混合渲染后的信号。

当在操作S701获取的信号是时域时，获取的信号可被转换为时域信号，并随后根据等式2被混合。此时，时域声音信号可根据频率或滤波器组模式被转换为频域信号。

然而，当3D声音再现设备100针对每个预定区间应用功率保持模块时，针对每个预定区间来估计各个信号的功率值。在低频信号的情况下，与波长相比，能够估计功率值的区间不足。因此，针对每个预定区间估计的功率值可改变，可在功率保持模块被应用于的区间之间的接口处出现不连续部分。另一方面，在高频信号的情况下，与波长相比，能够估计功率值的区间充足。因此，不太可能将在区间之间的接口处出现不连续部分。也就是说，可根据能够估计功率值的区间与波长相比是否充足来应用下面将描述的单级平滑。

在操作S707，3D声音再现设备100可确定在操作S705混合的信号中是否存在与低频信号相应的部分。在操作S709至S711，当确定混合后的信号中存在与低频信号相应的部分时，3D声音再现设备100可通过使用下面的等式3的单级平滑，去除在功率保持模块被应用于的区间之间的接口处出现的不连续部分。

[等式3]

(在频域中处理)，其中：

x_{o u t} [l, k] = Σ_{&ForAll; i n} x_{i n, o u t} [l, k],

P_out[l，k]＝(1-γ)P_out[l-1，k]+γ|x_out[l，k]|²，

P_{i n} [l, k] = (1 - γ) P_{i n} [l - 1, k] + {γΣ}_{&ForAll; i n} | x_{i n, o u t} [l, k] |^{2}

可基于先前部分的P_out和当前部分的混合后的信号的功率值的总和来获取P_out。

可基于先前部分的P_in和当前部分的渲染后的信号的功率值的总和来获取P_in。

根据可应用于先前部分的P_out或P_in的γ，先前部分的功率值可被应用于等式3。随着低频信号的波长更长或者低频信号的频率更低，γ可被确定为具有更小值。

为了去除不连续部分，根据示例性实施例的3D声音再现设备100可基于在先前区间中渲染的信号的功率值或通过将渲染后的信号相加而获得的信号，调整混合后的信号的增益。

此外，以与等式3相似的方式，可通过执行等式4的处理来去除连续部分，从而基于先前部分的输出信号的增益来获取输出信号的增益。

[等式4]

(在频域中处理)，其中，

x_{o u t} [l, k] = Σ_{&ForAll; i n} x_{i n, o u t} [l, k],

G_out[l，k]＝(1-γ)G_out[l-1，k]+γ|x_out[l，k]|，

G_{i n} [l, k] = (1 - γ) G_{i n} [l - 1, k] + {γΣ}_{&ForAll; i n} | x_{i n, o u t} [l, k] |

为了去除不连续部分，根据示例性实施例的3D声音再现设备100可基于被应用于在先前部分中渲染的信号或通过将渲染后的信号相加而获得的信号的增益来调整混合的信号的增益。

图8是根据示例性实施例的根据频率来混合渲染后的音频信号的示例的示图。

参照图8，在渲染后的音频信号801和802在混合过程中被相加的信号803中，由于渲染后的信号801和802之间的相位差，渲染后的音频信号801和802会随着信号803的幅度变大而声音变响。

因此，通过使用功率保持模块，根据示例性实施例的3D声音再现设备100可基于渲染后的音频信号801和802的功率值来确定信号803的增益。

作为根据功率保持模块的混合后的信号的信号804被调整为幅度与渲染后的音频信号801和802的幅度相似，但当功率保持模块针对每个预定区间被使用时，不连续部分会被包括在每个区间中。

因此，根据示例性实施例的3D声音再现设备100可通过参照先前区间的功率值来根据单级平滑法对混合后的信号执行平滑处理而获得最终信号805。

图9和图10是根据示例性实施例的3D声音再现设备900和1000的框图。

参照图9，3D声音再现设备900可包括3D渲染器910、2D渲染器920、权重应用单元930和混合器940。图9的3D渲染器910、2D渲染器920和混合器940分别与图2的3D渲染器221、2D渲染器222和混合器230相应，因此省略对其的冗余描述。

3D渲染器910可对多声道音频信号中的头顶声道信号进行渲染。

2D渲染器920可对多声道音频信号中的水平声道信号进行渲染。

权重应用单元930是用于当声道布局与能够由3D渲染器910渲染的布局中的将被再现的信号的声道布局不匹配时，根据将被再现的声道布局来输出多声道音频信号的元件。将被再现的声道的布局可表示用于输出将被再现的声道信号的扬声器的布置信息。

当2D渲染器920根据VBAP法执行渲染时，即使在任意布局声道环境中，也能够对水平声道信号进行渲染。根据VBAP方法，3D声音再现设备900可通过仅使用简单的基于矢量的计算来获得任意扬声器环境中的平移系数，并对多声道音频信号进行渲染。因此，可根据与任意再现声道布局由3D渲染器910渲染的布局的相似度来确定权重。例如，当3D渲染器910对5.1声道再现环境中的多声道音频信号进行渲染时，可根据将被渲染的任意布局声道环境在布局上与5.1声道再现环境有多少不同来确定权重。

3D权重应用单元930可将确定的权重应用于由3D渲染器910和2D渲染器920渲染的信号。

参照图10，3D声音再现设备1000可包括3D渲染器1010、2D渲染器1020和混合器1030。图9的3D渲染器1010、2D渲染器1020和混合器1030分别与图2的3D渲染器221、2D渲染器222和混合器230相应，因此省略对其的冗余描述。

3D渲染器1010可通过使用与可渲染的布局中将被渲染的声道的布局最为相似的布局来执行渲染。2D渲染器1020可通过针对每个声道重新排布到将被输出的信号的声道布局来对由3D渲染器1010渲染的信号进行渲染。

例如，当3D渲染器1010对5.1声道再现环境中的多声道音频信号进行渲染时，2D渲染器1020可通过使用VBAP方法根据将被渲染的任意布局声道环境来进行重新排布(repanning)，对3D渲染后的信号进行渲染。

如上所述，根据以上示例性实施例中的一个或更多个，3D声音再现设备可通过布置在水平面上的扬声器来再现声音信号的高度分量，使得用户能够感受到高度。

根据以上示例性实施例中的一个或更多个，当在声道的数量少的环境中再现多声道音频信号时，3D声音再现设备可避免音调改变或者避免声音消失。

此外，其他示例性实施例也可通过介质(例如，计算机可读介质)中/上的计算机可读代码/指令来实现，以控制至少一个处理元件实现任何上述示例性实施例。介质可与允许计算机可读代码的存储和/或传输的任何介质相应。利用包括记录介质(诸如，磁存储介质(例如，ROM、软盘、硬盘等)和光记录介质(例如，CD-ROM或DVD))和传输介质(诸如，互联网传输介质)的介质的示例，计算机可读代码可以以各种方式在介质上被记录/传输。因此，介质可以是根据一个或更多个示例性实施例的包括或携带信号或信息的这样定义和可测量的结构，诸如，携带比特流的装置。介质还可以是分布式网络，使得计算机可读代码以分布式方式被存储/传输和执行。此外，处理元件可包括处理器或计算机处理器，处理元件可分布和/或包括在单个装置中。

应理解的是，在此描述的示例性实施例应仅以描述性含义被考虑，而不是为了限制的目的。对于每个示例性实施例中的特征或方面的描述通常应被考虑为可用于其他示例性实施例中的其他类似特征或方面。虽然已参照附图描述了一个或更多个示例性实施例，但本领域普通技术人员将理解的是，在不脱离由权利要求限定的精神和范围的情况下，可做出形式和细节上的各种改变。

权利要求书(按照条约第19条的修改)

1.一种音频信号渲染方法，包括：

从多个输入声道接收将被转换为多个输出声道的多声道信号；

通过多声道信号的特性来确定用于高度感渲染的渲染类型；

根据确定的渲染类型对包括在所述多个输入声道中的至少一个头顶输入声道进行渲染，以经由多个输出声道提供具有高度感的声像。

2.如权利要求1所述的音频信号渲染方法，其中，多声道信号的特性是从包括在比特流中的参数被获取的。

3.如权利要求1所述的音频信号渲染方法，其中，多声道信号的特性包括关于多声道信号是否与掌声信号相应的信息。

4.如权利要求1所述的音频信号渲染方法，其中，多声道信号的特性包括带宽和多声道信号的相关性。

5.如权利要求1所述的音频信号渲染方法，其中，渲染的步骤包括：

当多声道信号与掌声信号相应时，通过二维(2D)渲染对至少一个头顶输入声道进行渲染；

当多声道信号与掌声信号不相应时，通过三维(3D)渲染对至少一个头顶输入声道进行渲染。

6.如权利要求1所述的音频信号渲染方法，还包括：

对包括在所述多个输入声道中的至少一个水平输入声道进行渲染；

将所述至少一个头顶输入声道的渲染结果与所述至少一个水平输入声道的渲染结果进行混合。

7.如权利要求6所述的音频信号渲染方法，其中，混合的步骤包括：基于渲染后的信号的功率值对渲染后的信号进行混合，使得渲染后的信号的功率值被保持。

8.一种存储有用于执行权利要求1至7中的任何一个的方法的程序的非暂时性计算机可读记录介质。

9.一种音频信号渲染设备，包括：

接收器，从多个输入声道接收将被转换为多个输出声道的多声道信号；

第一渲染器，通过多声道信号的特性来确定用于高度感渲染的渲染类型，根据确定的渲染类型对包括在所述多个输入声道中的至少一个头顶输入声道进行渲染，以经由所述多个输出声道提供具有高度感的声像。

10.如权利要求9所述的音频信号渲染设备，其中，多声道信号的特性是从包括在比特流中的参数被获取的。

11.如权利要求9所述的音频信号渲染设备，其中，多声道信号的特性包括关于多声道信号是否与掌声信号相应的信息。

12.如权利要求9所述的音频信号渲染设备，其中，多声道信号的特性包括带宽和多声道信号的相关性。

13.如权利要求9所述的音频信号渲染设备，其中，当多声道信号与掌声信号相应时，第一渲染器通过二维(2D)渲染对至少一个头顶输入声道进行渲染，当多声道信号与掌声信号不相应时，第一渲染器通过三维(3D)渲染对至少一个头顶输入声道进行渲染。

14.如权利要求9所述的音频信号渲染设备，还包括：

第二渲染器，对包括在所述多个输入声道中的至少一个水平输入声道进行渲染；

混合器，将所述至少一个头顶输入声道的渲染结果与所述至少一个水平输入声道的渲染结果进行混合。

15.如权利要求14所述的音频信号渲染设备，其中，混合器基于渲染后的信号的功率值对渲染后的信号进行彼此混合，使得渲染后的信号的功率值被保持。

Claims

1.一种三维声音再现方法，包括：

获取多声道音频信号；

根据多声道音频信号的声道信息和频率将信号渲染到将被再现的声道；

对渲染后的信号进行混合。

2.如权利要求1所述的三维声音再现方法，还包括：从多声道音频信号中分离出掌声信号，

其中，渲染的步骤包括：根据二维渲染方法对掌声信号进行渲染，或者针对掌声信号的每个声道将掌声信号渲染到布置在水平面上的输出声道中的最近声道。

3.如权利要求2所述的三维声音再现方法，其中，混合的步骤包括：根据能量提升法对渲染后的掌声信号进行混合。

4.如权利要求2所述的三维声音再现方法，其中，从多声道音频信号中分离出掌声信号的步骤包括：

基于从以下项中选择的至少一项来确定多声道音频信号中是否包括掌声信号：多声道音频信号中是否存在非声调宽带信号，针对每个声道非声调宽带信号的电平是否相似，短区间的脉冲是否重复，以及声道间相关性是否低；

根据确定结果来分离出掌声信号。

5.如权利要求1所述的三维声音再现方法，其中，渲染的步骤包括：

基于声道信息将多声道音频信号分离为水平声道信号和头顶声道信号；

将头顶声道信号分离为低频信号和高频信号；

针对低频信号中的每个声道，将低频信号渲染到布置在水平面上的输出声道中的最近声道；

根据三维渲染方法对高频信号进行渲染；

根据二维渲染方法对水平声道信号进行渲染。

6.如权利要求1所述的三维声音再现方法，其中，混合的步骤包括：

根据声道信息和频率来确定将被应用于渲染后的信号的增益；

将确定的增益应用于渲染后的信号，并对渲染后的信号进行混合。

7.如权利要求1所述的三维声音再现方法，其中，混合的步骤包括：基于渲染后的信号的功率值对渲染后的信号进行混合，使得渲染后的信号的功率值被保持。

8.如权利要求7所述的三维声音再现方法，其中，混合的步骤包括：

基于渲染后的信号的功率值，针对每个预定区间对渲染后的信号进行混合；

在渲染后的信号中分离出低频信号；

基于先前区间中的渲染信号的功率值来混合低频信号。

9.一种三维再现设备，包括：

渲染器，获取多声道音频信号，并根据多声道音频信号的声道信息和频率将信号渲染到将被再现的声道；

混合器，对渲染后的信号进行混合。

10.如权利要求9所述的三维声音再现设备，还包括：声音分析单元，从多声道音频信号中分离出掌声信号，

其中，渲染器根据二维渲染方法对掌声信号进行渲染，或者针对掌声信号的每个声道将掌声信号渲染到布置在水平面上的输出声道中的最近声道。

11.如权利要求10所述的三维声音再现设备，其中，混合器根据能量提升法对渲染后的掌声信号进行混合。

12.如权利要求10所述的三维声音再现设备，其中，声音分析单元基于从以下项中选择的至少一项来确定多声道音频信号中是否包括掌声信号：多声道音频信号中是否存在非声调宽带信号，针对每个声道非声调宽度信号的电平是否相似，短区间的脉冲是否重复，以及声道间相关性是否低。

13.如权利要求9所述的三维声音再现设备，其中，渲染器基于声道信息将多声道音频信号分离为水平声道信号和头顶声道信号，将头顶声道信号分离为低频信号和高频信号，针对低频信号中的每个声道将低频信号渲染到布置在水平面上的输出声道中的最近声道，根据三维渲染方法对高频信号进行渲染，并根据二维渲染方法对水平声道信号进行渲染。

14.如权利要求9所述的三维声音再现设备，其中，混合器根据声道信息和频率来确定将被应用于渲染后的信号的增益，将确定的增益应用于渲染后的信号，并对渲染后的信号进行混合。

15.如权利要求9所述的三维声音再现设备，其中，混合器基于渲染后的信号的功率值对渲染后的信号进行混合，使得渲染后的信号的功率值被保持。