CN105898669A

CN105898669A - 一种声音对象的编码方法

Info

Publication number: CN105898669A
Application number: CN201610158782.0A
Authority: CN
Inventors: 潘兴德; 吴超刚
Original assignee: NANJING QINGJIN INFORMATION TECHNOLOGY Co Ltd
Current assignee: Panorama Sound Beijing Intelligent Technology Co ltd
Priority date: 2016-03-18
Filing date: 2016-03-18
Publication date: 2016-08-24
Anticipated expiration: 2036-03-18
Also published as: CN105898669B

Abstract

本发明公开了一种声音对象的编码方法，包括：获取声场空间的声音对象；以声场空间水平切面中心、与录音师双耳连线中心等高的位置为原点建立三维坐标系；将声音对象的位置轨迹以帧为单位划分，每帧分为若干块；确定声音对象第i块的位置坐标为（x(i)，y(i)，z(i)）；确定声音对象的作用区域为（φ，θ，γ），其中φ为声音对象和原点连线在xoy平面上的投影与x轴的夹角、范围[0，2π)，θ为声音对象和原点连线与z轴的夹角，γ是锥面张开大小的、定义为锥面母线和中轴线的夹角，范围[0，π/2]。本发明提供的声音对象的编码方法，将声音对象的坐标（x、y、z）和有效作用区域（φ，θ，γ）统一到一个坐标系统，实现更高效率的空间表示和更好的声场效果。

Description

一种声音对象的编码方法

技术领域

本发明涉及声音编码技术领域，具体涉及一种声音对象的编码方法。

背景技术

随着计算能力和网络的快速发展，在电影、电视、音乐、游戏、虚拟现实和网络视频等应用领域，能表现真实三维声场的音频录制、缩混编辑、编码、解码、渲染和回放技术，有着重要的应用价值。“全景声”是对三维声场的形象描述。

目前，MPEG推出了MPEG H的三维声编码技术，Dolby公司推出了Atmos全景声编码技术，都在传统多声道信号编码的基础上，提出了声音对象编码的概念。其中，Dolby Atmos采用直接记录声音对象的三维运动轨迹的方式，对声音对象的三维坐标(x、y、z)进行编码，并且对声音对象的渲染和回放方式，划分为9个矩形区域。MPEG H则不直接对声音对象编码，而是采用参数立体声的编码技术，将多个声音混合成一个单声道信号，并对每个声音对象的空间感知信息(相位、强度和相关性)编码；在解码时，先解码单声道和信号，再利用声音对象的空间感知信息，恢复出每个声音对象。

在高质量应用场合，如电影等领域，Dolby Atmos能够获得比MPEG H更高的声音质量。但是Dolby Atmos的空间坐标体系、坐标表示方法、声音对象坐标编码方法、声音对象分区表示方法都存在编码效率低、声音表现力差和声音制作不方便等局限。

DolbyAtmos在描述声场时，将坐标原点定于前方左侧屏幕扬声器高度位置，从原点到右墙为X轴，从原点到后墙为Y轴，从原点到房顶为Z轴；同时，将房间划分为左侧屏幕扬声器区域、中间屏幕扬声器区域、右侧屏幕扬声器区域、左墙扬声器区域、右墙扬声器区域、后墙左侧扬声器区域、后墙右侧扬声器区域、左房顶扬声器区域和右房顶扬声器区域等九个区域。以如上的位置坐标和区域划分来编码声音对象。

DolbyAtmos的坐标原点定义和区域是分离的，对点声源、面声源和扩散声源等声音对象的表达效率不高。另外，Dolby Atmos的扬声器区域和实际声音对象的有效作用区域不是等价关系，后者是实际物理声场的更准确描述。

从声音编码效率的角度看，一般来说在表达完整的信息的前提下力争用更少的码流，从而达到更高的编码效率。现有的坐标定义方法是用一个固定的比特数来对坐标进行编码，比如DolbyAtmos就是将位置坐标的映射到单位立方体中，得到一个范围在[0,1]的小数，然后用12比特来储存这个无符号小数。这样编码的结果是无论位置坐标是否变化都要用12比特来存储，从而产生了大量的码流的浪费。实际上，声音对象的位置大多变化缓慢，在相邻帧或相邻块之间的位置坐标数据间存在较大冗余。

从声音表现力来看，现有的空间区域划分都是采用的固定划分的方式，例如DolbyAtmos将空间划分为左侧屏幕扬声器区域、中间屏幕扬声器区域、右侧屏幕扬声器区域、左墙扬声器区域、右墙扬声器区域、后墙左侧扬声器区域、后墙右侧扬声器区域、左房顶扬声器区域和右房顶扬声器区域等九个区域。这样对于声音对象的定位就缺乏弹性，可选择的余地较少，从而使声音表现不够灵活。

发明内容

发明目的：针对现有技术的不足，本发明提供一种声音对象的编码方法，实现更高效率的空间表示和更好的声场效果。

技术方案：本发明所述的声音对象的编码方法，包括：

获取声场空间的声音对象；

以声场空间水平切面中心、与录音师双耳连线中心等高的位置为原点建立三维坐标系；

将声音对象的位置轨迹以帧为单位划分，每帧分为若干块；

确定声音对象第i块的位置坐标为(x(i)，y(i)，z(i))；

位置坐标(x，y，z)映射为(pID，Ax，Ay，Az)，pID为象限标识符，Ax、Ay、Az为位置坐标的绝对值。

所述声音对象的作用区域为(φ，θ，γ)，其中为声音对象和原点连线在xoy平面上的投影与x轴的夹角、范围[0，2π)，θ为声音对象和原点连线与z轴的夹角，γ是描述锥面张开大小的、定义为锥面母线和中轴线的夹角，范围[0，π/2]。

进一步完善上述技术方案，所述声场空间采用归一化坐标，位置坐标绝对值Ax、Ay、Az的取值范围为[0，1]。

进一步地，所述象限标识符pID与(x，y，z)的符号位信息(signb(x)，signb(y)，signb(z))相对应，其中signb(x)是取符号位运算signb(x)＝0，当x>＝0；signb(x)＝1，当x<0。

进一步地，所述声音对象采用1024样本为一帧，每帧分为4块或2块。

有益效果：与现有技术相比，本发明的优点：本发明提供的一种声场空间的坐标定义方法，并引入了声音对象有效作用区域，并用锥形表示，将声音对象的坐标(x、y、z)和有效作用区域(φ，θ，γ)统一到一个坐标系统，实现更高效率的空间表示和更好的声场效果，点源可以仅用三维坐标值表示，面源不仅需要三维坐标值，还需要区域信息,更有效的表示点源声音对象、面源声音对象,实现更高效率的空间表示和更好的声场效果，更加完善的三维声场；编码效率高、声音表现力好且声音制作方便。

而本发明提出了一种新的划分方式，以对象与原点的连线为中轴来得到一个圆锥，圆锥的张角可调，圆锥所笼罩的区域就是对象的有效作用区域。现有的区域划分是从扬声器的角度出发对扬声器的分布进行区域划分，而本发明是从对象的角度出发划分出对象的有效作用区域，有利于录音师定义自己理想的有效作用区域，而在进行对象呈现时可以根据实际声场的扬声器布置和所采用的呈现算法来灵活地决定扬声器的取舍，这样形成的区域划分将使得对声音对象的重建更加具有表现力。

从声音的制作的角度来看，通过灵活的定义了声音对象的位置以及声场空间的区域划分，在声音制作的环节上能够方便地在传统的3D立体声基础上随意添加声音对象，使得无论录音还是声音制作的环节都充满了灵活性。

附图说明

图1为本发明的扬声器的区域划分示意图。

具体实施方式

下面结合附图对本发明技术方案进行详细说明。

实施例1：以一个立方体来描述声场空间为例，典型应用是扬声器布置于立方体的边界面。声音对象的空间坐标定义：将坐标原点定义为水平切面的中心、高度与录音师监听时耳朵齐平的位置，并令x轴指向右侧(墙)，y轴指向前方(通常为屏幕)，z轴垂直指向上方(房顶)。

对声场空间采用归一化坐标表示，x轴、y轴和z轴的最大绝对坐标值为1，z轴较短一侧为地面，其归一化绝对坐标值为a(a<1)，则此声场空间的8个坐标为：

(1，1，1)——表示区域前方右上角；

(-1，1，1)——表示区域前方左上角；

(1，1，-a)——表示区域前方右下角；

(-1，1，-a)——表示区域前方左下角；

(1，-1，1)——表示区域后方右上角；

(-1，-1，1)——表示区域后方左上角；

(1，-1，-a)——表示区域后方右下角；

(-1，-1，-a)——表示区域后方左下角。

声音对象的位置轨迹编码以帧为单位划分，每帧进一步分为若干块。为和压缩编码兼容，采用1024个样本为一帧：48kHz采样频率时，每个块为256个样本，时间间隔为5.3ms；96kHz采样频率时，每个块为512个样本,时间间隔为5.3ms。第i块的某一声音对象的位置坐标表示为(x(i)，y(i)，z(i))，i＝1、2、3、4。声音对象的位置坐标(x，y，z)可以映射为用四个量(pID，Ax，Ay，Az)来描述，即象限标识符pID和位置坐标的绝对值Ax、Ay、Az(取值范围为[0，1])。

声音对象的象限标识符pID是对坐标(x，y，z)的象限位置的描述，与(x，y，z)的符号位信息(signb(x)，signb(y)，signb(z))相对应，其中signb(x)是取符号位运算

signb(x)＝0，当x>＝0；

signb(x)＝1，当x<0；

象限标识符可取如下值：

表1象限标识符pID表

pID索引	符号位
		0	(0，0，0)
1	(0，0，1)
		2	(0，1，0)
3	(0，1，1)
		4	(1，0，0)
5	(1，0，1)
		6	(1，1，0)
7	(1，1，1)

每帧的第一个块为参考块，对该块的声音对象空间位置信息采用直接编码；后续的块为预测块，对该块的声音对象空间位置信息采用差分编码。

第一个块直接对(pID，Ax，Ay，Az)编码，pID用三个比特，如表1所示；Ax、Ay、Az在范围[0，1]内编码为10比特的无符号数Dx、Dy、Dz，，它们满足的映射关系为：

A x = \frac{D x}{2^{10} - 1}, 0 \leq D x \leq (2^10 - 1);

A y = \frac{D y}{2^{10} - 1}, 0 \leq D y \leq (2^10 - 1);

A z = \frac{D z}{2^{10} - 1}, 0 \leq D z \leq (2^10 - 1);

后续块做差分编码，即对当前块与前一块的坐标值的差值(Δx，Δy，Δz)进行编码，其中，Δx是当前块和前一块x轴坐标的差分值，Δy是当前块和前一块y轴坐标的差分值，Δz是当前块和前一块z轴坐标的差分值；满足如下关系：

x(k)＝x(k-1)+Δx,-2≤Δx≤2；

y(k)＝y(k-1)+Δy,-2≤Δy≤2；

z(k)＝z(k-1)+Δz,-2≤Δz≤2；

与前述过程类似，差值(Δx，Δy，Δz)也被映射为用四个量(pID，|Δx|，|Δy|，|Δz|)来描述。pID是(Δx，Δy，Δz)的象限标识符，|Δx|、|Δy|和|Δz|分别对应Δx、Δy、Δz的绝对值，取值范围为[0，2]。pID用三个比特，如表1所示，|Δx|、|Δy|和|Δz|可映射为11比特的无符号数Dx、Dy和Dz，它们满足的映射关系为：

| Δ x | = \frac{D x}{2^{10} - 1}, 0 \leq D x \leq (2^11 - 1);

| Δ y | = \frac{D y}{2^{10} - 1}, 0 \leq D y \leq (2^11 - 1);

| Δ z | = \frac{D z}{2^{10} - 1}, 0 \leq D z \leq (2^11 - 1);

而对于无符号数Dx、Dy和Dz采用DIF(n)编码方法，DIF(n)编码的编码过程为：首先比较待编码的无符号位置坐标DIFdata(DIFdata为Dx，Dy，Dz中的任意值)和(2^n-1)的大小，如果小于(2^n-1)，则用n个比特储存它；否则将n个比特全部置1，然后紧跟2n个比特；以此类推直至(2^(kn)-1)>DIFdata(k为正整数)。以DIF(4)编码为例，对无符号数Dx、Dy和Dz采用DIF(4)编码时，可能出现的k值为1、2和3，具体码流结构如下：

声音对象的差分编码过程中，要给坐标值的差分留足够的空间，以便于使得它的储存精度足够和第一个块中位置坐标的储存精度一致。于是有如下公式：

\frac{R}{2^{10}} > \frac{L}{2^{n}};

其中R为房间的半边长，L为相邻两个块中对象的位移，n为储存差分值所用的比特数。

对于一个10m见方的房间，首先选取4比特来储存这个差分值，那么它最多能够储存的值为：

\frac{5}{2^{10}} > \frac{L}{2^{4}};

于是解得L<0.0781，那么此时声音对象的最大速度为：

\frac{L}{0.0053} \times 3.6 = 53 k m / h;

在实际录音当中，对于大多数声音对象，其时速大多低于53km/h，采用4个比特储存就够了，这个效率非常高。至于高速运动的声音对象，即速度大于53km/h，可扩展为8比特储存。此时即便快如飞机(假设100m/s)，也有：L＝100×0.0053＝0.53(m)；L为相邻两个块的距离，此时由于L/2^8<5/2^10，可见8个比特完全能够容纳。

而当房间扩大到100米时，由10比特储存，其精度为50/2^10，此时储存残差的精度更是足够的。下表定义了不同比特和房间尺寸时能够存储的最大声像速度：

表2不同情况下能够储存的对象速度

	10m	100m
			4比特	53km/h	530km/h
8比特	848km/h	8480km/h
			12比特	13568km/h	135680km/h

在一个三维区域内，对于声音对象的重构，有一些区域内的声音对象作用显著，而另一些声音对象可能毫无作用。从这个角度来看，对于某一特定的声音对象，对其作用区域进行划分，只使用区域内一部分声音对象，从而可以使得计算模型和混音操作更简单。典型的声音对象除了点声源，还有面声源(可以理解为距离很远的点声源)和扩散声源(可以是很距离的扩散式声源，如爆炸声等)，声音对象有效作用区域是用于描述面声源的。该有效作用区域实际是为录音师在录音监听时提供的，录音师将自己理想的有效作用区域以元数据的方式提供给编码器，再由编码器按所述的方式写入到码流中。因在解码端只能拿到解码三维坐标值，因此，编码时可用解码三维坐标值确定有效作用区域，以使编码前的有效作用区域和解码后的作用区域一致。实际上，在一定的精度内，编码前的三维坐标值和解码后的三维坐标值非常接近，其差即三维坐标值的量化误差。

划分方法见图1，当声音对象的方位确定时，以原点和声音对象连线为轴，展开一个圆椎，原点是圆锥的顶点。此时圆锥所笼罩的扬声器便是有效扬声器。

对于这种划分，为了方便表达，采用极坐标的形式，用三个参数来表示这个划分，(φ，θ，γ)。其中(φ，θ)组成了声音对象的方位角，φ为对象和原点连线在xoy平面上的投影与x轴的夹角，范围[0，2π)，θ为对象和原点连线与z轴的夹角。而第三个参数γ是用来描述锥面张开大小的，定义为锥面母线和中轴线的夹角，范围[0，π/2]。由此，整个锥面就被确定下来，随之三维空间的区域划分就完成了。

对于(φ，θ)，前面已经定义了对象的位置，声音对象的位置坐标表示为(x，y，z)，于是很容易求得。

以上声音对象编码的伪代码：

以上方法给出了三维声场的声音对象在录音制作、编码、解码和渲染回放时的坐标定义、运动轨迹、作用区域等表示方法。在三维声编码时，除了声音对象轨迹和作用区域等信息编码外，还需要对声音对象的波形做编码。

考虑到声音对象彼此的独立性，高质量的声音对象波形可采用独立的编码方式，包括各种已知的无损编码和有损音频编码技术，如APE、FLAC、MP3、AAC、AVS等。在对带宽要求很高的低码率场合，亦可采用参数编码的方式，将多个声音对象混合成一个和声道，并采用参数编码方法，来有效表示多个声音对象。此类的参数编码方法包括SAC(Spatial Audio Coding)、BBC(Binaural Cue Coding)、MPEG Surround等。

因声音波形编码的方法较为成熟，在此不作赘述。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上作出各种变化。

Claims

1.一种声音对象的编码方法，其特征在于，包括：

获取声场空间的声音对象；

将声音对象的位置轨迹以帧为单位划分，每帧分为若干块；

确定声音对象第i块的位置坐标为（x(i)，y(i)，z(i)）；

位置坐标（x，y，z）映射为（pID，Ax，Ay，Az），pID为象限标识符，Ax、Ay、Az为位置坐标的绝对值。

2.根据权利要求1所述声音对象的编码方法，其特征在于：所述声音对象的作用区域为（φ，θ，γ），其中φ为声音对象和原点连线在xoy平面上的投影与x轴的夹角、范围[0，2π)，θ为声音对象和原点连线与z轴的夹角，γ是描述锥面张开大小的，定义为锥面母线和中轴线的夹角，范围[0，π/2]。

3.根据权利要求1所述声音对象的编码方法，其特征在于：所述声场空间采用归一化坐标，位置坐标绝对值Ax、Ay、Az的取值范围为[0，1]。

4.根据权利要求3所述声音对象的编码方法，其特征在于：所述象限标识符pID与（x，y，z）的符号位信息(signb(x)，signb (y)，signb (z))相对应，其中signb (x)是取符号位运算signb (x)=0，当x>=0；signb (x)=1，当x<0。

5.根据权利要求1所述声音对象的编码方法，其特征在于：所述声音对象采用1024样本为一帧，每帧分为4块或2块。