CN109996166A

CN109996166A - 声音处理装置和方法、以及程序

Info

Publication number: CN109996166A
Application number: CN201910011603.4A
Authority: CN
Inventors: 辻实; 知念徹
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-01-16
Filing date: 2015-01-06
Publication date: 2019-07-09
Anticipated expiration: 2035-01-06
Also published as: KR102356246B1; JP6586885B2; AU2023203570A1; BR122022004083B1; US20230254657A1; EP3675527A1; JP6721096B2; BR112016015971A2; BR112016015971B1; EP3675527B1; JP2020156108A; AU2019202472B2; AU2021221392A1; JP2020017978A; CN105900456A; RU2682864C1; EP3096539B1; US20190253825A1; US20210021951A1; EP4340397A2

Abstract

本技术涉及一种能够实现自由度更高的音频再现的音频处理装置、用于其的方法、以及用于其的程序。输入单元接收作为声源的对象的声音的假定收听位置的输入，并且输出指示所述假定收听位置的假定收听位置信息。位置信息校正单元基于所述假定收听位置信息来校正每个对象的位置信息，以获得校正位置信息。增益/频率特性校正单元基于所述位置信息和所述校正位置信息来对对象的波形信号进行增益校正和频率特性校正。空间声学特性添加单元基于所述对象的所述位置信息和所述假定收听位置信息来进一步将空间声学特性添加至由所述增益校正和所述频率特性校正产生的波形信号。本技术可应用于音频处理装置。

Description

声音处理装置和方法、以及程序

本申请是申请日2015年1月6日，申请号201580004043.X，发明名称为“声音处理装置和方法、以及程序”的分案申请。

技术领域

本技术涉及一种音频处理装置、用于其的方法、以及用于其的程序，并且更加具体地，涉及一种能够实现自由度更高的音频再现的音频处理装置、用于其的方法、以及用于其的程序。

背景技术

音频内容，诸如，在光盘(CD)和数字通用光盘(DVD)中的音频内容以及通过网络分配的音频内容，通常由基于信道的音频组成。

按照内容创建者在两个信道或者5.1信道(下文也称为ch)上适当地混合多个声音源(诸如，歌声和乐器的声音)的方式来获得基于信道的音频内容。用户通过使用2ch或者5.1ch扬声器系统或者通过使用耳机来再现内容。

然而，存在无数种用户的扬声器布置等情况，并且可能不一定使由内容创建者预计的声音定位再现。

另外，基于对象的音频技术近年来正受到关注。在基于对象的音频中，基于对象的声音的波形信号和元数据，来使为再现系统渲染的信号再现，该元数据表示由对象相对于作为参照的收听点的位置指示的对象的定位信息。基于对象的音频因此具有使声音定位相对再现的特性，如同内容创建者所预计的一样。

例如，在基于对象的音频中，使用诸如矢量基幅值相移(VBAP)等技术，从对象的波形信号在与在再现侧的相应扬声器相关联的信道上生成再现信号(例如，参照非专利文件1)。

在VBAP中，目标声音图像的定位位置由朝在定位位置周围的两个或者三个扬声器延伸的矢量的线性和表示。将在线性和中相应矢量所乘的系数用作待从相应扬声器输出的波形信号的增益进行增益控制，从而将声音图像定位在目标位置处。

引用列表

非专利文档

非专利文件1：Ville Pulkki,“Virtual Sound Source Positioning Using VectorBase Amplitude Panning”,Journal of AES,vol.45,no.6,pp.456-466,1997

发明内容

本发明所要解决的问题

然而，在上述基于信道的音频和基于对象的音频两者中，声音的定位由内容创建者确定，并且用户仅仅可以听到所提供内容的声音。例如，在内容再现侧，无法提供按照在收听点从现场音乐俱乐部中的后座移动到前座时听到声音的方式的再现。

如上所述，利用上述技术，并不能认为可以实现自由度足够高的音频再现。

本技术鉴于上述情况而被实现，并且本技术能够实现自由度增加的音频再现。

问题的解决方案

根据本技术的一个方面的音频处理装置包括：位置信息校正单元，该位置信息校正单元配置为计算校正位置信息，该校正位置信息指示声源相对于听到来自声源的声音的收听位置的位置，该计算基于指示声源的位置的位置信息和指示收听位置的收听位置信息；以及生成单元，该生成单元配置为基于声源的波形信号和校正位置信息来生成使将在收听位置处听到的来自声源的声音再现的再现信号。

位置信息校正单元可以配置为基于指示声源的修改后的位置的修改位置信息和收听位置信息来计算校正位置信息。

音频处理装置可以进一步设置有校正单元，该校正单元配置为根据从收听位置到声源的距离来对波形信号进行增益校正和频率特性校正中的至少一个。

音频处理装置可以进一步设置有空间声学特性添加单元，该空间声学特性添加单元配置为基于收听位置信息和修改后的位置信息来将空间声学特性添加至波形信号。

空间声学特性添加单元可以配置为将初期反射和混响特性中的至少一个作为空间声学特性添加至波形信号。

音频处理装置可以进一步设置有空间声学特性添加单元，该空间声学特性添加单元配置为基于收听位置信息和位置信息来将空间声学特性添加至波形信号。

音频处理装置可以进一步设置有卷积处理器，该卷积处理器配置为对由生成单元生成的在两个或者多个信道上的再现信号进行卷积处理，以生成在两个信道上的再现信号。

根据本技术的一个方面的音频处理方法或者程序包括以下步骤：计算校正位置信息，该校正位置信息指示声源相对于听到来自声源的声音的收听位置的位置，该计算基于指示声源的位置的位置信息和指示收听位置的收听位置信息；以及基于声源的波形信号和校正位置信息来生成使将在收听位置处听到的来自声源的声音再现的再现信号。

在本技术的一个方面中，基于指示声源的位置的位置信息和指示收听位置的收听位置信息来计算校正位置信息，该校正位置信息指示声源相对于听到来自声源的声音的收听位置的位置；以及基于声源的波形信号和校正位置信息来生成使将在收听位置处听到的来自声源的声音再现的再现信号。

本发明的效果

根据本技术的一个方面，实现了自由度增加的音频再现。

本文所提及的效果并不一定限于此处所提及的效果，而可以是在本公开中所提及的任何效果。

附图说明

图1是图示了音频处理装置的配置的示意图。

图2是阐释了假定收听位置和校正位置信息的图表。

图3是示出了在频率特性校正中的频率特性的图表。

图4是阐释了VBAP的示意图。

图5是阐释了再现信号生成处理的流程图。

图6是图示了音频处理装置的配置的示意图。

图7是阐释了再现信号生成处理的流程图。

图8是图示了计算机的示例配置的示意图。

具体实施方式

下面将参照附图来描述应用了本技术的实施例。

<第一实施例>

<音频处理装置的示例配置>

本技术涉及一种用于将来自声源对象的声音波形信号在再现侧再现音频使在某个收听位置听到的技术。

图1是图示了根据应用了本技术的音频处理装置的实施例的示例配置的示意图。

音频处理装置11包括输入单元21、位置信息校正单元22、增益/频率特性校正单元23、空间声学特性添加单元24、渲染处理器25、和卷积处理器26。

将多个对象的波形信号和波形信号的元数据作为待再现内容的音频信息提供给音频处理装置11。

要注意的是，对象的波形信号指的是用于使作为声源的对象所发出的声音再现的音频信号。

另外，对象的波形信号的元数据指的是对象的位置，即，指示对象的声音的定位位置的位置信息。位置信息是指示对象相对于标准收听位置的位置信息，该标准收听位置是预定参照点。

例如，物体的位置信息可以由球面坐标(即，关于在中心处于标准收听位置的球形表面上的位置的方位角、俯仰角和半径)表示，或者可以由原点在标准收听位置处的正交坐标系的坐标表示。

下面将描述使用球面坐标表示相应对象位置信息的示例。具体地，第n个(其中，n＝1、2、3、…)对象OB_n的位置信息由关于在中心处于标准收听位置的球形表面上的对象OB_n的方位角A_n、俯仰角E_n、和半径R_n表示。要注意的是，例如，方位角A_n和俯仰角E_n的单位是度，并且，例如，半径R_n的单位是米。

在下文中，对象OB_n的位置信息也将由(An,En,Rn)表示。另外，第n个对象OB_n的波形信号也将由波形信号W_n[t]表示。

由此，例如，第一个对象OB₁的波形信号和位置将分别由W₁[t]和(A₁,E₁,R₁)表示，并且第二个对象OB₂的波形信号和位置信息将分别由W₂[t]和(A₂,E₂,R₂)表示。在下文中，为了方便阐释，在假设将对象OB₁和对象OB₂这两个对象的波形信号和位置信息提供给音频处理装置11的情况下，继续进行描述。

输入单元21由鼠标、按钮、触控面板等构成，并且在由用户操作时，输出与操作相关联的信号。例如，输入单元21接收用户输入的假定收听位置，并且将指示用户输入的假定收听位置的假定收听位置信息提供给位置信息校正单元22和空间声学特性添加单元24。

要注意的是，假定收听位置是构成在待再现的虚拟声场中的内容的声音的收听位置。因此，假定听音位置，可以说是表示距离修改(校正)所得的预定标准收听位置的位置。

位置信息校正单元22基于由输入单元21提供的假定收听位置信息来校正相应对象的外部提供的位置信息，并且将产生的校正位置信息提供给增益/频率特性校正单元23和渲染处理器25。校正位置信息是指示对象相对于假定收听位置(即，对象的声音定位位置)的位置的信息。

增益/频率特性校正单元23基于由位置信息校正单元22提供的校正位置信息和外部提供的位置信息，来进行对象的外部提供的波形信号的增益校正和频率特性校正，并且将产生的波形信号提供给空间声学特性添加单元24。

空间声学特性添加单元24基于由输入单元21提供的假定收听位置信息和对象的外部提供的位置信息，来将空间声学特性添加至由增益/频率特性校正单元23提供的波形信号，并且将产生的波形信号提供给渲染处理器25。

渲染处理器25基于由位置信息校正单元22提供的校正位置信息，来对由空间声学特性添加单元24提供的波形信号进行映射，以生成在M个信道上的再现信号，M是2或者更多。由此，在M个信道上的再现信号是通过相应对象的波形信号而生成。渲染处理器25将在M个信道上的生成的再现信号提供给卷积处理器26。

由此获得的在M个信道上的再现信号是用于使从相应对象输出的声音再现的音频信号，该音频信号待由M个虚拟扬声器(M个信道的扬声器)再现并且在待再现的虚拟声场中的假定收听位置处被听到。

卷积处理器26对由渲染处理器25提供的在M个信道上的再现信号进行卷积处理，以生成2个信道的再现信号，并且输出生成的再现信号。具体地，在该示例中，在再现侧的扬声器的数量是两个，并且卷积处理器26生成并且输出待由扬声器再现的再现信号。

<再现信号的生成>

接下来，将更加详细地描述由在图1中示出的音频处理装置11生成的再现信号。

如上面所提及的，此处将详细描述将对象OB₁和对象OB2这两个对象的波形信号和位置信息提供给音频处理装置11的示例。

为了使内容再现，用户操作输入单元21来输入假定收听位置，该假定收听位置是针对来自在渲染中的相应对象的声音定位的参照点。

在本文中，输入从标准收听位置在左右方向上的移动距离X和在前后方向上的移动距离Y作为假定收听位置，并且假定收听位置由(X,Y)表示。例如，移动距离X和移动距离Y的单元是米。

具体地，在原点处于标准收听位置的xyz坐标系中，在水平方向上的x轴方向和y轴方向、在高度方向上的z轴方向、从标准收听位置到假定收听位置的在x轴方向上的距离X、以及从标准收听位置到假定收听位置的在y轴方向上的距离Y由用户输入。由此，指示相对于标准收听位置的由输入距离X和Y表示的位置的信息是假定收听位置信息(X,Y)。要注意的是，xyz坐标系是正交坐标系。

虽然为了方便阐释，在本文中描述了假定收听位置在xy平面上的示例，但是可选择地允许用户指定在假定收听位置的z轴方向上的高度。在这种情况下，从标准收听位置到假定收听位置的在x轴方向上的距离X、在y轴方向上的距离Y、以及在z轴方向上的距离Z由用户指定，这些距离构成了假定收听位置信息(X,Y,Z)。此外，虽然上面阐释了假定收听位置由用户输入，但是假定收听位置信息可以从外部获取或者可以由用户预设等。

当假定收听位置信息(X,Y)由此获得时，位置信息校正单元22然后基于假定收听位置来计算指示相应对象位置的校正位置信息。

如图2所示，例如，假设提供了预定对象OB11的波形信号和位置信息，并且假定收听位置LP11由用户指定。在图2中，横向方向、深度方向和垂直方向分别表示x轴方向、y轴方向和z轴方向。

在该示例中，xyz坐标系的原点O是标准收听位置。此处，当对象OB11是第n个对象时，指示相对于标准收听位置的对象OB11位置的位置信息是(A_n,E_n,R_n)

具体地，位置信息(A_n,E_n,R_n)的方位角A_n表示在连接原点O和对象OB11的线与y轴之间在xy平面上的角度。位置信息(A_n,E_n,R_n)的俯仰角E_n表示在连接原点O和对象OB11的线与xy平面之间的角度，并且位置信息(A_n,E_n,R_n)的半径R_n表示从原点O到对象OB11的距离。

现在假设从原点O到假定收听位置LP11的在x轴方向上的距离X和在y轴方向上的距离Y作为指示假定收听位置LP11的假定收听位置信息而输入。

在这种情况下，位置信息校正单元22计算校正位置信息(A_n',E_n',R_n')，该校正位置信息(A_n',E_n',R_n')指示对象OB11相对于假定收听位置LP11的位置，即，基于假定收听位置LP11的对象OB11的位置以假定收听位置信息(X,Y)和位置信息(A_n,E_n,R_n)为基础。

要注意的是，在校正位置信息(A_n',E_n',R_n')中的A_n'、E_n'、和R_n'分别表示与位置信息(A_n,E_n,R_n)的A_n、E_n、R_n对应的方位角、俯仰角和半径。

具体地，针对第一对象OB₁，位置信息校正单元22基于对象OB₁的位置信息(A₁,E₁,R₁)和假定收听位置信息(X,Y)来计算以下表达式(1)至(3)，以获得校正位置信息(A₁',E₁',R₁')。

[数学公式1]

[数学公式2]

[数学公式3]

具体地，通过表达式(1)获得方位角A₁'，通过表达式(2)获得俯仰角E₁'，并且通过表达式(3)获得半径R₁'。

具体地，针对第二对象OB₂，位置信息校正单元22基于对象OB₂的位置信息(A₂,E₂,R₂)和假定收听位置信息(X,Y)来计算以下表达式(4)至(6)，以获得校正位置信息(A₂',E₂',R₂')。

[数学公式4]

[数学公式5]

[数学公式6]

具体地，通过表达式(4)获得方位角A₂'，通过表达式(5)获得俯仰角E₂'，并且通过表达式(6)获得半径R₂'。

随后，增益/频率特性校正单元23基于指示相应对象相对于假定收听位置的位置的校正位置信息和指示相应对象相对于标准收听位置的位置的位置信息，来对对象的波形信号进行增益校正和频率特性校正。

例如，增益/频率特性校正单元23通过使用校正位置信息的半径R₁'和半径R₂'以及位置信息的半径R₁和半径R₂，来为对象OB₁和对象OB₂计算以下表达式(7)和(8)，以确定相应对象的增益校正量G₁和增益校正量G₂。

[数学公式7]

[数学公式8]

具体地，通过表达式(7)获得对象OB₁的波形信号W₁[t]的增益校正量G₁，并且通过表达式(8)获得对象OB₂的波形信号W₂[t]的增益校正量G₂。在该示例中，校正位置信息所指示的半径与位置信息所指示的半径之比是增益校正量，并且通过使用增益校正量来进行根据从对象到假定收听位置的距离的音量校正。

增益/频率特性校正单元23进一步计算以下表达式(9)至(10)，以对相应对象的波形信号进行根据校正位置信息所指示的半径的频率特性校正和根据增益校正量的增益校正。

[数学公式9]

[数学公式10]

具体地，通过表达式(9)的计算来对对象OB₁的波形信号W₁[t]进行频率特性校正和增益校正，从而获得波形信号W₁'[t]。同样地，通过表达式(10)的计算来对对象OB₂的波形信号W₂[t]进行频率特性校正和增益校正，从而获得波形信号W₂'[t]。在该示例中，通过滤波来进行波形信号的频率特性的校正。

在表达式(9)和(10)中，h_l(其中，l＝0、1、…、L)表示每次与波形信号W_n[t-l]相乘以进行滤波的系数。

当L＝2并且系数h₀、h₁和h₂由以下表达式(11)至(13)表示时，例如，依赖从对象到假定听音位置的距离而被再现的来自对象的声音的高频分量被虚拟声场(虚拟音频再现空间)的墙壁和天花板衰减的特性可以被再现。

[数学公式11]

h₀＝(1.0-h₁)/2……(11)

[数学公式12]

[数学公式13]

h₂＝(1.0-h₁)/2……(13)

在表达式(12)中，R_n表示由对象OB_n(其中，n＝1、2)的位置信息(A_n,E_n,R_n)指示的半径R_n，并且R_n'表示由对象OB_n(其中，n＝1、2)的校正位置信息(A_n',E_n',R_n')指示的半径R_n'。

按照这种方式，由于通过使用表达式(11)至(13)表示的系数计算得到表达式(9)和(10)，进行在图3中示出的频率特性的滤波。在图3中，水平轴表示归一化频率，并且垂直轴表示振幅，即，波形信号的衰减量。

在图3中，线C11示出了频率特性，其中，R_n'≤R_n。在这种情况下，从对象到假定收听位置的距离等于或者小于从对象到标准收听位置的距离。具体地，假定收听位置处于比标准收听位置更接近对象的位置，或者标准收听位置和假定收听位置与对象的距离相同。在这种情况下，由此不会使波形信号的频率分量特别衰减。

曲线C12示出了频率特性，其中，R_n'＝R_n+5。在这种情况下，由于假定收听位置比标准收听位置距离对象稍微远一些，所以波形信号的高频分量略微衰减。

曲线C13示出了频率特性，其中，R_n'≥R_n+10。在这种情况下，由于假定收听位置比标准收听位置距离对象远很多，波形信号的高频分量大大衰减。

由于根据从对象到假定收听位置的距离进行了增益校正和频率特性校正并且使上面所描述的对象的波形信号的高频分量衰减，所以可以再现因为用户的收听位置的变化而产生的频率特性和音量的变化。

在通过增益/频率特性校正单元23进行的增益校正和频率特性校正并且由此获得相应对象的波形信号W_n'[t]之后，通过空间声学特性添加单元24将空间声学特性添加至波形信号W_n'[t]。例如，将初期反射、混响特性等作为空间声学特性添加至波形信号。

具体地，为了将初期反射和混响特性添加至波形信号，将多点式延迟处理、梳状滤波处理和全通滤波处理结合起来以实现初期反射和混响特性的添加。

具体地，空间声学特性添加单元24基于通过对象的位置信息和假定收听位置信息而确定的延迟量和增益量，来对每个波形信号进行多点式延迟处理，并且将产生的信号添加至初始波形信号，以将初期反射添加至波形信号。

另外，空间声学特性添加单元24基于通过对象的位置信息和假定收听位置信息而确定的延迟量和增益量，来对波形信号进行梳状滤波处理。空间声学特性添加单元24基于通过对象的位置信息和假定收听位置信息而确定的延迟量和增益量，来对由于梳状滤波处理所产生的波形信号进行全通滤波处理，以获得用于添加混响特性的信号。

最后，空间声学特性添加单元24添加由于初期反射的添加所产生的波形信号以及用于添加混响特性的信号，以获得具有添加有初期反射和混响特性的波形信号，并且将获得的波形信号输出至渲染处理器25。

通过使用根据上述的每个对象的位置信息和假定收听位置信息而确定的参数将空间声学特性添加至波形信号以允许对由于用户的收听位置的变化而产生的空间声学变化进行再现。

针对对象的位置信息和假定收听位置信息的每个组合，可以将参数(诸如，用在多点式延迟处理、梳状滤波处理、全通滤波处理等中的延迟量和增益量)预先保存在表格中。

例如，在这种情况下，空间声学特性添加单元24预先保存在表格中，在该表格中，将由位置信息指示的每个位置与一组参数(诸如，针对每个假定收听位置的延迟量)相关联。空间声学特性添加单元24然后从表格读出由对象的位置信息和假定收听位置信息确定的一组参数，并且使用参数来将空间声学特性添加至波形信号。

要注意的是，可以按照表格的形式来保存用于添加空间声学特性的该组参数或者可以按照函数等的形式来保存该组参数。在使用函数来获得参数的情况下，例如，空间声学特性添加单元24将位置信息和假定收听位置信息带入预先保存的函数中，以计算待用于添加空间声学特性的参数。

在为上述相应对象获得添加有空间声学特性的波形信号之后，渲染处理器25进行波形信号至M个相应信道的映射，以生成在M个信道上的再现信号。换言之，进行渲染。

具体地，例如，渲染处理器25基于校正位置信息通过VBAP获得在M个信道中的每一个上的每个对象的波形信号的增益量。渲染处理器25然后进行针对每个信道添加与VBAP所获得的增益量相乘的每个对象的波形信号的处理，以生成相应信道的再现信号。

此处，将参照图4来描述VBAP。

如图4所示，例如，假设用户U11听到从三个扬声器SP1至SP3输出的在三个信道上的音频。在该示例中，用户U11的头部的位置是与假定收听位置对应的位置LP21。

在由扬声器SP1至SP3围绕的球形表面上的三角形TR11称为网格，并且VBAP允许将声音图像定位在网格内的某个位置处。

现在假设，使用指示在相应信道上输出音频的三个扬声器SP1至SP3的位置的信息来将声音图像定位在声音图像位置VSP1处。要注意的是，声音图像位置VSP1与对象OB_n的位置对应，更具体地，与校正位置信息(A_n',E_n',R_n')所指示的对象OB_n的位置对应。

例如，在原点处于用户U11的头部的位置(即，位置LP21)的三维坐标系中，通过使用从位置LP21(原点)开始的三维矢量p来表示声音图像位置VSP1。

另外，当从位置LP21(原点)开始并且朝相应扬声器SP1至SP3的位置延伸的三维矢量由矢量l₁至l₃表示时，矢量p可以由以下表达式(14)所表示的矢量l₁至l₃的线性和表示。

[数学公式14]

p＝g₁l₁+g₂l₂+g₃l₃……(14)

计算在表达式(14)中与矢量l₁至l₃相乘的系数g₁至g₃，并且将该系数g₁至g₃分别设置为待从扬声器SP1至SP3输出的音频的增益量，即，波形信号的增益量，这允许将声音图像定位在声音图像位置VSP1处。

具体地，基于由三个扬声器SP1至SP3构成的三角形网格的逆矩阵L₁₂₃ ^-1和指示对象OB_n的位置的矢量p，通过计算以下表达式(15)来获得作为增益量的系数g₁至系数g₃。

[数学公式15]

在表达式(15)中，作为矢量p的元素的R_n'sinA_n'cosE_n'、R_n'cosA_n'cosE_n'、和R_n'sinE_n'表示声音图像位置VSP1，即，分别是在指示对象OB_n的位置的x'y'z'坐标系上的x'坐标、y'坐标、和z'坐标。

例如，x'y'z'坐标系是正交坐标系，该正交坐标系具有分别与在图2中示出的并且原点在与假定收听位置对应的位置处的xyz坐标系的x轴、y轴、和z轴平行的x'轴、y'轴、和z'轴。可以通过指示对象OB_n的位置的校正位置信息(A_n',E_n',R_n')来获得矢量p的元素。

此外，在表达式(15)中的l₁₁、l₁₂和l₁₃分别是通过将朝网格的第一扬声器的矢量l₁分解为x'轴、y'轴、和z'轴的分量而获得的x'分量、y'分量、和z'分量的值，并且与第一扬声器的x'坐标、y'坐标、和z'坐标对应。

同样地，l₂₁、l₂₂、和l₂₃分别是通过将朝网格的第二扬声器的矢量l₂分解为x'轴、y'轴、和z'轴的分量而获得的x'分量、y'分量、和z'分量的值。此外，l₃₁、l₃₂、和l₃₃分别是通过将朝网格的第三扬声器的矢量l₃分解为x'轴、y'轴、和z'轴的分量而获得的x'分量、y'分量、和z'分量的值。

按照控制声音图像的定位位置的方式，通过使用三个扬声器SP1至SP3的相对位置来获得系数g₁至g₃的技术具体称为三维VBAP。在这种情况下，再现信号的信道的数量M是三个或者更多。

由于在M个信道上的再现信号由渲染处理器25生成，所以与相应信道相关联的虚拟扬声器的数量是M个。在这种情况下，针对每个对象OB_n，为分别与M个扬声器相关联的M个信道中的每一个计算波形信号的增益量。

在该示例中，将每一个都是由M个虚拟扬声器构成的多个网格放置在虚拟音频再现空间中。与构成包括有对象OB_n的网格的三个扬声器相关联的三个信道的增益量是通过前述表达式(15)而获得的值。相反，与M-3个剩余的扬声器相关联的M-3个信道的增益量是0。

在如上面所描述的生成在M个信道上的再现信号之后，渲染处理器25将产生的再现信号提供给卷积处理器26。

利用以这种方式获得的在M个信道上的再现信号，可以按照更为实际的方式，使在期望假定收听位置处听到来自对象的声音的方式再现。尽管在本文中描述了通过VBAP生成在M个信道上的再现信号的示例，但是也可以通过其它任何技术来生成在M个信道上的再现信号。

在M个信道上的再现信号是用于通过M信道扬声器系统使声音再现的信号，并且音频处理装置11进一步将在M个信道上的再现信号转换为在两个信道上的再现信号并且输出产生的再现信号。换言之，将在M个信道上的再现信号缩混为在两个信道上的再现信号。

例如，卷积处理器26对由渲染处理器25提供的在M个信道上的再现信号进行作为卷积处理的BRIR(双耳室内脉冲响应)处理以生成在两个信道上的再现信号，并且输出产生的再现信号。

要注意的是，对再现信号进行的卷积处理并不限于BRIR处理，而是可以是能够获得在两个信道上的再现信号的任何处理。

当将在两个信道上的再现信号输出至耳机时，可以预先提供保存了从各个对象位置到假定收听位置的脉冲响应的表格。在这种情况下，使用与假定收听位置到对象的位置相关联的脉冲响应来通过BRIR处理将相应对象的波形信号结合，这允许再现在期望假定收听位置处听到从相应对象输出的声音的方式。

然而，对于该方法，必须保存与大量点(位置)相关联的脉冲响应。此外，当对象的数量较大时，必须进行对应于对象数量的多次BRIR处理，这增加了处理负荷。

由此，在音频处理装置11中，通过使用来自M个虚拟信道的对用户(听众)的耳朵的脉冲响应，通过BRIR处理将由渲染处理器25映射至M个虚拟信道的扬声器的再现信号(波形信号)缩混为在两个信道上的再现信号。在这种情况下，仅仅需要保存对听众的耳朵的来自M个信道的相应扬声器的脉冲响应，并且甚至当存在大量对象时，BRIR处理的次数也只针对M个信道，这减少了处理负荷。

<再现信号生成过程的阐释>

随后，将阐释上述音频处理装置11的处理流程。具体地，将参照图5的流程图来阐释音频处理装置11所进行的再现信号生成过程。

在步骤S11中，输入单元21接收假定收听位置的输入。当用户已经操作输入单元21输入假定收听位置时，输入单元21将指示假定收听位置的假定收听位置信息提供给位置信息校正单元22和空间声学特性添加单元24。

在步骤S12中，位置信息校正单元22基于由输入单元21提供的假定收听位置信息和相应对象的外部提供的位置信息来计算校正位置信息(A_n',E_n',R_n')，并且将产生的校正位置信息提供给增益/频率特性校正单元23和渲染处理器25。例如，计算上述表达式(1)至(3)或者(4)至(6)，从而获得相应对象的校正位置信息。

在步骤S13中，增益/频率特性校正单元23基于由位置信息校正单元22提供的校正位置信息和外部提供的位置信息，来进行对象的外部提供的波形信号的增益校正和频率特性校正。

例如，计算上述表达式(9)和(10)，从而获得相应对象的波形信号W_n'[t]。增益/频率特性校正单元23将获得的相应对象的波形信号W_n'[t]提供给空间声学特性添加单元24。

在步骤S14中，空间声学特性添加单元24基于由输入单元21提供的假定收听位置信息和对象的外部提供的位置信息，来将空间声学特性添加至由增益/频率特性校正单元23提供的波形信号，并且将产生的波形信号提供给渲染处理器25。例如，将初期反射、混响特性等作为空间声学特性添加至波形信号。

在步骤S15中，渲染处理器25基于由位置信息校正单元22提供的校正位置信息来对由空间声学特性添加单元24提供的波形信号进行映射，以生成在M个信道上的再现信号，并且将生成的再现信号提供给卷积处理器26。例如，尽管在步骤S15的过程中通过VBAP生成了再现信号，但是可以通过其它任何技术来生成在M个信道上的再现信号。

在步骤S16中，卷积处理器26对由渲染处理器25提供的在M个信道上的再现信号进行卷积处理，以生成在2个信道上的再现信号，并且输出生成的再现信号。例如，进行上述BRIR处理，作为卷积处理。

当在两个信道上的再现信号被生成并且输出时，终止再现信号生成过程。

如上面所描述的，音频处理装置11基于假定收听位置信息来计算校正位置信息，并且基于获得的校正位置信息和假定收听位置信息来进行相应对象的波形信号的频率特性校正和添加空间声学特性校正。

结果，可以按照实际的方式来再现在任何假定收听位置听到从相应对象位置输出的声音的方式。这允许用户在内容的再现中根据用户的喜好来自由地指定声音收听位置，这实现了自由度更高的音频再现。

<第二实施例>

<音频处理装置的示例配置>

尽管上面已经阐释了用户可以指定任何假定收听位置的示例，但是不仅可以将收听位置改变(修改)为任何位置，还可以将相应对象的位置改变(修改)为任何位置。

在这种情况下，例如，音频处理装置11如图6所示配置。在图6中，与在图1中的部分对应的部分由相同的附图标记标明，并且视情况，将不重复对其的说明。

在图6中所示的音频处理装置11包括输入单元21、位置信息校正单元22、增益/频率特性校正单元23、空间声学特性添加单元24、渲染处理器25、和卷积处理器26，类似于图1中的音频处理装置。

然而，利用在图6中示出的音频处理装置11，输入单元21由用户操作，并且除了假定收听位置之外，也输入指示由于修改(变化)产生的相应对象的位置的修改位置。输入单元21将由用户输入的指示每个对象的修改位置的修改位置信息提供给位置信息校正单元22和空间声学特性添加单元24。

例如，修改位置信息是相对于标准收听位置而修改的包括对象OB_n的方位角A_n、俯仰角E_n、和半径R_n的信息，类似于位置信息。要注意的是，修改位置信息可以是指示对象的相对于对象在修改(改变)前的位置的修改(改变)位置的信息。

位置信息校正单元22也基于由输入单元21提供的假定收听位置信息和修改位置信息来计算校正位置信息，并且将产生的校正位置信息提供给增益/频率特性校正单元23和渲染处理器25。例如，在修改位置信息是指示相对于初始对象位置的位置信息的情况下，基于假定收听位置信息、位置信息、和修改位置信息来计算校正位置信息。

空间声学特性添加单元24基于由输入单元21提供的假定收听位置信息和修改位置信息，来将空间声学特性添加至由增益/频率特性校正单元23提供的波形信号，并且将产生的波形信号提供至渲染处理器25。

例如，上面已经描述了在图1中示出的音频处理装置11的空间声学特性添加单元24预先保存在表格中，在该表格中，将由位置信息指示的每个位置与针对每条假定收听位置信息的一组参数相关联。

相反，在图6中所示的音频处理装置11的空间声学特性添加单元24预先保存在表格中，在该表格中，将由修改位置信息指示的每个位置与针对每条假定收听位置信息的一组参数相关联。空间声学特性添加单元24然后从针对每个对象的表格读出通过由输入单元21提供的假定收听位置信息和修改位置信息而确定的一组参数，并且使用参数来进行多点式延迟处理、梳状滤波处理、全通滤波处理等并且将空间声学特性添加至波形信号。

<再现信号生成处理的阐释>

接下来，将参照图7的流程图来阐释由在图6中示出的音频处理装置11进行的再现信号生成处理。由于步骤S41的处理与在图5中的步骤S11的处理相同，所以将不会重复对其的阐释。

在步骤S42中，输入单元21接收相应对象的修改位置的输入。当用户已经操作输入单元21输入相应对象的修改位置时，输入单元21将指示修改位置的修改位置信息提供给位置信息校正单元22和空间声学特性添加单元24。

在步骤S43中，位置信息校正单元22基于由输入单元21提供的假定收听位置信息和修改位置信息来计算校正位置信息(A_n',E_n',R_n')，并且将产生的校正位置信息提供给增益/频率特性校正单元23和渲染处理器25。

在这种情况下，例如，在上述表达式(1)至(3)的计算中，位置信息的方位角、俯仰角、和半径由修改位置信息的方位角、俯仰角、和半径替代，并且获得校正位置信息。此外，在表达式(4)至(6)的计算中，位置信息由修改位置信息替代。

在获得修改位置信息之后，进行步骤S44的处理，这与在图5中的步骤S13的处理相同，由此将不会重复对其的阐释。

在步骤S45中，空间声学特性添加单元24基于由输入单元21提供的假定收听位置信息和修改位置信息，来将空间声学特性添加至由增益/频率特性校正单元23提供的波形信号，并且将产生的波形信号提供给渲染处理器25。

在将空间声学特性添加至波形信号之后，进行步骤S46和S47的处理并且终止再现信号生成处理，这与在图5中的步骤S15和S16的处理相同，由此将不会重复对其的阐释。

如上面所描述的，音频处理装置11基于假定收听位置信息和修改位置信息来计算校正位置信息，并且基于获得的校正位置信息、假定收听位置信息、和修改位置信息来进行相应对象的波形信号的频率特性校正和添加空间声学特性校正。

结果，可以按照实际的方式来再现在任何假定收听位置听到从任何对象位置输出的声音的方式。这允许用户在内容的再现中根据用户的喜好不仅自由地指定声音收听位置，还自由地指定相应对象的位置，这实现了自由度更高的音频再现。

例如，音频处理装置11允许再现在用户已经改变分量(歌声、乐器的声音等)或者其设置时听到声音的方式。因此，用户可以自由地移动分量(诸如，与相应对象相关联的乐器声音和歌声及其布置)，以利用与他/她的喜好匹配的布置和声音源的分量来欣赏音乐和声音。

此外，同样地，在图6中所示的音频处理装置11中，类似于在图1中所示的音频处理装置11，一旦生成在M个信道上的再现信号，将该在M个信道上的再现信号转换(缩混)为在两个信道上的再现信号，从而可以减少处理负荷。

上述一系列处理可以由硬件或者软件进行。当上述一系列处理由软件进行时，在计算机中安装构成软件的程序。要注意的是，计算机的示例包括：嵌入专用硬件中的计算机、以及能够通过安装各种程序来执行各种功能的通用计算机。

图8是示出了根据程序进行上述一系列处理的计算机的硬件的示例结构的框图。

在计算机中，中央处理单元(CPU)501、只读存储器(ROM)502、和随机存取存储器(RAM)503通过总线504彼此连接。

输入/输出接口505进一步连接至总线504。输入单元506、输出单元507、记录单元508、通信单元509和驱动器510连接至输入/输出接口505。

输入单元506包括键盘、鼠标、麦克风、图像传感器等。输出单元507包括显示器、扬声器等。记录单元508是硬盘、非易失存储器等。通信单元509是网络接口等。驱动器510驱动可移动介质511，诸如，磁盘、光盘、磁光盘、或者半导体存储器。

在具有上述结构的计算机中，例如，CPU 501经由输入/输出接口505和总线504将记录在记录单元508中的程序加载到RAM 503中，并且执行程序，从而进行上述一系列处理。

例如，可以将待由计算机(CPU 501)执行的程序记录在作为封装介质等的可移动介质511上，并且从其提供该程序。可替代地，可以经由有线或者无线传输介质，诸如，局域网、互联网、或者数字卫星广播来提供程序。

在计算机中，可以通过将可移动介质511安装在驱动器510上，经由输入/输出接口505，将程序安装在记录单元508中。可替代地，可以经由有线或者无线传输介质，通过通信单元509来接收程序，并且将该程序安装在记录单元508中。仍然可替代地，可以预先将程序安装在ROM 502或者记录单元508中。

待由计算机执行的程序可以是用于按照与在本说明书中所描述的顺序一致的时间顺序来执行处理的程序、或者用于并行地执行处理或者在必要时(诸如，响应于呼叫)执行处理的程序。

此外，本技术的实施例并不限于上述实施例，而是可以在没有脱离本技术的范围的情况下，对其做出各种修改。

例如，本技术可以配置为云计算，在该云计算中，一种功能经由网络由多个装置共享并且被协同处理。

另外，在上述流程图中阐释的步骤可以由一个装置进行，并且也可以在多个装置之间被共享。

此外，当在一个步骤中包括多个处理时，在该步骤中包括的处理由一个装置进行并且也可以在多个装置之间被共享。

在本文中所提及的效果仅仅是示例性的，而不是限制性的，并且也可以产生其它效果。

此外，本技术可以具有以下配置。

(1)

一种音频处理装置，其包括：位置信息校正单元，所述位置信息校正单元配置为计算校正位置信息，所述校正位置信息指示声源相对于听到来自所述声源的声音的收听位置的位置，所述计算基于指示所述声源的位置的位置信息和指示所述收听位置的收听位置信息；以及生成单元，所述生成单元配置为基于所述声源的波形信号和所述校正位置信息来生成使将在所述收听位置处听到的来自所述声源的声音再现的再现信号。

(2)

根据(1)所述的音频处理装置，其中，所述位置信息校正单元基于指示所述声源的修改后的位置的修改位置信息和所述收听位置信息来计算所述校正位置信息。

(3)

根据(1)或者(2)所述的音频处理装置，其进一步包括校正单元，所述校正单元配置为根据从所述收听位置到所述声源的距离来对所述波形信号进行增益校正和频率特性校正中的至少一个。

(4)

根据(2)所述的音频处理装置，其进一步包括空间声学特性添加单元，所述空间声学特性添加单元配置为基于所述收听位置信息和所述修改位置信息来将空间声学特性添加至所述波形信号。

(5)

根据(4)所述的音频处理装置，其中，空间声学特性添加单元将初期反射和混响特性中的至少一个作为所述空间声学特性添加至所述波形信号。

(6)

根据(1)所述的音频处理装置，其进一步包括空间声学特性添加单元，所述空间声学特性添加单元配置为基于所述收听位置信息和所述位置信息来将空间声学特性添加至所述波形信号。

(7)

根据(1)至(6)中任一项所述的音频处理装置，其进一步包括卷积处理器，所述卷积处理器配置为对由所述生成单元生成的在两个或者多个信道上的所述再现信号进行卷积处理，以生成在两个信道上的再现信号。

(8)

一种音频处理方法，其包括以下步骤：计算校正位置信息，所述校正位置信息指示声源相对于听到来自声源的声音的收听位置的位置，所述计算基于指示所述声源的所述位置的位置信息和指示所述收听位置的收听位置信息；以及基于所述声源的波形信号和所述校正位置信息来生成使将在所述收听位置处听到的来自所述声源的声音再现的再现信号。

(9)

一种程序，其使计算机执行包括以下步骤的处理：计算校正位置信息，所述校正位置信息指示声源相对于听到来自所述声源的声音的收听位置的位置，所述计算基于指示所述声源的所述位置的位置信息和指示所述收听位置的收听位置信息；以及基于所述声源的波形信号和所述校正位置信息来生成使将在所述收听位置处听到的来自所述声源的声音再现的再现信号。

附图标记列表：

11 音频处理装置

21 输入单元

22 位置信息校正单元

23 增益/频率特性校正单元

24 空间声学特性添加单元

25 渲染处理器

26 卷积处理器。

Claims

1.一种音频处理装置，其包括：

位置信息校正单元，所述位置信息校正单元配置为计算校正位置信息，所述校正位置信息指示声源相对于听到来自所述声源的声音的收听位置的位置，所述计算基于指示所述声源的所述位置的位置信息和指示所述收听位置的收听位置信息，其中，所述声源的所述位置由球面坐标表示并且所述收听位置由xyz坐标表示；以及

生成单元，所述生成单元配置为基于所述声源的波形信号和所述校正位置信息使用VBAP来生成使将在所述收听位置处听到的来自所述声源的声音再现的再现信号。

2.根据权利要求1所述的音频处理装置，其中，

所述位置信息校正单元基于指示所述声源的修改后的位置的修改位置信息和所述收听位置信息来计算所述校正位置信息。

3.根据权利要求1所述的音频处理装置，其进一步包括：

校正单元，所述校正单元配置为根据从所述声源到所述收听位置的距离来对所述波形信号进行增益校正和频率特性校正中的至少一个。

4.根据权利要求2所述的音频处理装置，其进一步包括：

空间声学特性添加单元，所述空间声学特性添加单元配置为基于所述收听位置信息和所述修改位置信息来将空间声学特性添加至所述波形信号。

5.根据权利要求4所述的音频处理装置，其中，

所述空间声学特性添加单元将初期反射和混响特性中的至少一个作为所述空间声学特性添加至所述波形信号。

6.根据权利要求1所述的音频处理装置，其进一步包括：

空间声学特性添加单元，所述空间声学特性添加单元配置为基于所述收听位置信息和所述位置信息来将空间声学特性添加至所述波形信号。

7.根据权利要求1所述的音频处理装置，其进一步包括：

卷积处理器，所述卷积处理器配置为对由所述生成单元生成的在两个或者多个信道上的所述再现信号进行卷积处理，以生成两个信道上的再现信号。

8.一种音频处理方法，其包括以下步骤：

计算校正位置信息，所述校正位置信息指示声源相对于听到来自所述声源的声音的收听位置的位置，所述计算基于指示所述声源的所述位置的位置信息和指示所述收听位置的收听位置信息，其中，所述声源的所述位置由球面坐标表示并且所述收听位置由xyz坐标表示；以及

基于所述声源的波形信号和所述校正位置信息使用VBAP来生成使将在所述收听位置处听到的来自所述声源的声音再现的再现信号。