CN105895106B - 一种全景声编码方法 - Google Patents

一种全景声编码方法 Download PDF

Info

Publication number
CN105895106B
CN105895106B CN201610159117.3A CN201610159117A CN105895106B CN 105895106 B CN105895106 B CN 105895106B CN 201610159117 A CN201610159117 A CN 201610159117A CN 105895106 B CN105895106 B CN 105895106B
Authority
CN
China
Prior art keywords
sound
block
bits
sound object
dimensional coordinate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610159117.3A
Other languages
English (en)
Other versions
CN105895106A (zh
Inventor
潘兴德
吴超刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panorama Sound Beijing Intelligent Technology Co ltd
Original Assignee
NANJING QINGJIN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING QINGJIN INFORMATION TECHNOLOGY Co Ltd filed Critical NANJING QINGJIN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201610159117.3A priority Critical patent/CN105895106B/zh
Publication of CN105895106A publication Critical patent/CN105895106A/zh
Application granted granted Critical
Publication of CN105895106B publication Critical patent/CN105895106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种全景声编码方法,获取声场空间的声音对象;以声场空间水平切面中心与录音师双耳连线中心等高的位置为原点建立三维坐标系,确定声音对象的三维坐标值;声音对象的位置轨迹以帧为单位,每帧包括若干个块,每帧的第一个块为参考块、后续块为预测块,确定声音对象第i块的位置坐标为(xi,yi,zi);对参考块的三维坐标值进行直接编码,对预测块的三维坐标值进行差分编码。本发明提供的全景声编码方法,在录音制作、编码、解码和渲染回放时的坐标定义、运动轨迹和作用区域表示方法,编码效率高、声音表现力好且声音制作方便。

Description

一种全景声编码方法
技术领域
本发明涉及声音编码技术领域,具体涉及一种全景声编码方法。
背景技术
随着计算能力和网络的快速发展,在电影、电视、音乐、游戏、虚拟现实和网络视频等应用领域,能表现真实三维声场的音频录制、缩混编辑、编码、解码、渲染和回放技术,有着重要的应用价值。“全景声”是对三维声场的形象描述。
目前,MPEG推出了MPEG H的三维声编码技术,Dolby公司推出了Atmos全景声编码技术,都在传统多声道信号编码的基础上,提出了声音对象编码的概念。其中,Dolby Atmos采用直接记录声音对象的三维运动轨迹的方式,对声音对象的三维坐标(x、y、z)进行编码,并且对声音对象的渲染和回放方式,划分为9个矩形区域。MPEG H则不直接对声音对象编码,而是采用参数立体声的编码技术,将多个声音混合成一个单声道信号,并对每个声音对象的空间感知信息(相位、强度和相关性)编码;在解码时,先解码单声道和信号,再利用声音对象的空间感知信息,恢复出每个声音对象。
在高质量应用场合,如电影等领域,Dolby Atmos能够获得比MPEG H更高的声音质量。但是Dolby Atmos的空间坐标体系、坐标表示方法、声音对象坐标编码方法、声音对象分区表示方法都存在编码效率低、声音表现力差和声音制作不方便等局限。
Dolby Atmos在描述声场时,将坐标原点定于前方左侧屏幕扬声器高度位置,从原点到右墙为X轴,从原点到后墙为Y轴,从原点到房顶为Z轴;同时,将房间划分为左侧屏幕扬声器区域、中间屏幕扬声器区域、右侧屏幕扬声器区域、左墙扬声器区域、右墙扬声器区域、后墙左侧扬声器区域、后墙右侧扬声器区域、左房顶扬声器区域和右房顶扬声器区域等九个区域。以如上的位置坐标和区域划分来编码声音对象。
Dolby Atmos的坐标原点定义和区域是分离的,对点声源、面声源和扩散声源等声音对象的表达效率不高。另外,Dolby Atmos的扬声器区域和实际声音对象的有效作用区域不是等价关系,后者是实际物理声场的更准确描述。
从声音编码效率的角度看,一般来说在表达完整的信息的前提下力争用更少的码流,从而达到更高的编码效率。现有的坐标定义方法是用一个固定的比特数来对坐标进行编码,比如Dolby Atmos就是将位置坐标的映射到单位立方体中,得到一个范围在[0,1]的小数,然后用12比特来储存这个无符号小数。这样编码的结果是无论位置坐标是否变化都要用12比特来存储,从而产生了大量的码流的浪费。实际上,声音对象的位置大多变化缓慢,在相邻帧或相邻块之间的位置坐标数据间存在较大冗余。
从声音表现力来看,现有的空间区域划分都是采用的固定划分的方式,例如DolbyAtmos将空间划分为左侧屏幕扬声器区域、中间屏幕扬声器区域、右侧屏幕扬声器区域、左墙扬声器区域、右墙扬声器区域、后墙左侧扬声器区域、后墙右侧扬声器区域、左房顶扬声器区域和右房顶扬声器区域等九个区域。这样对于声音对象的定位就缺乏弹性,可选择的余地较少,从而使声音表现不够灵活。
发明内容
发明目的:针对现有技术的不足,本发明提供一种全景声编码方法,编码效率高,声音表现力好。
技术方案:本发明所述的全景声编码和处理方法,包括:
获取声场空间的声音对象;
以声场空间水平切面中心、与录音师双耳连线中心等高的位置为原点建立三维坐标系,确定声音对象的三维坐标值;
声音对象的位置轨迹以帧为单位,每帧包括若干个块,每帧的第一个块为参考块、后续块为预测块;
对参考块的三维坐标值进行直接编码,对预测块的三维坐标值进行差分编码。
进一步完善上述技术方案,所述声音对象每个块的三维坐标值为(xi,yi,zi),(xi,yi,zi)映射为(pIDi,Axi,Ayi,Azi),pIDi为象限标识符,Axi、Ayi、Azi为位置坐标的绝对值。
进一步地,所述参考块对(pIDi,Axi,Ayi,Azi)直接编码成(pIDj,Dxj,Dyj,Dzi),pIDj采用3比特,Axi、Ayi、Azi在范围[0,1]内编码为N(4<=N<=16)比特的无符号数Dxj、Dyj、Dzi,映射关系为:Axi=Dxj/(2^N-1),0<=Dxj<=(2^N-1);Ayi=Dyj/(2^N-1),0<=Dyj<=(2^N-1);Azi=Dzi/(2^N-1),0<=Dzi<=(2^N-1)。
进一步地,所述预测块对当前块与前一块的坐标值差值(Δxk,Δyk,Δzk)进行编码,其中,Δxk是当前块与前一块x轴坐标的差分值,Δyk是当前块与前一块y轴坐标的差分值,Δzk是当前块与前一块z轴坐标的差分值,且差值(Δxk,Δyk,Δzk)被映射为(pIDk,|Δxk|,|Δyk|,|Δzk|),其中pIDk是Δxk,Δyk,Δzk的象限标识符,|Δxk|、|Δyk|、|Δzk|分别对应Δxk、Δyk、Δzk的绝对值,|Δxk|、|Δyk|、|Δzk|在[0,2]内编码为N+1比特的无符号数Dxk、Dyk、Dzk,映射关系为:|Δxk|=Dxk/(2^N-1),0<=Dxk<=(2^(N+1)-1);|Δyk|=Dyk/(2^N-1),0<=Dyk<=(2^(N+1)-1);|Δzk|=Dz/(2^N-1),0<=Dzk<=(2^(N+1)-1)。
进一步地,所述参考块对(pIDi,Axi,Ayi,Azi)直接编码成(pIDj,Dxj,Dyj,Dzi),pIDj采用3比特,Axi、Ayi、Azi在范围[0,1]内编码为N(4<=N<=16)比特的无符号数Dxj、Dyj、Dzi;所述预测块对当前块与前一块的坐标值差值(Δxk,Δyk,Δzk)进行编码,其中,Δxk是当前块与前一块x轴坐标的差分值,Δyk是当前块与前一块y轴坐标的差分值,Δzk是当前块与前一块z轴坐标的差分值,且差值(Δxk,Δyk,Δzk)被映射为(pIDk,|Δxk|,|Δyk|,|Δzk|),其中pIDk是Δxk,Δyk,Δzk的象限标识符,|Δxk|、|Δyk|、|Δzk|分别对应Δxk、Δyk、Δzk的绝对值,|Δxk|、|Δyk|、|Δzk|在[0,2]内编码为N+1比特的无符号数Dxk、Dyk、Dzk
进一步地,所述无符号数Dxk、Dyk、Dzk采用DIF(n)编码方法:取Dxk、Dyk、Dzk中的任意值为无符号位置坐标DIFdata与(2^n-1)的大小相比较,如果小于(2^n-1),则用n比特储存它;否则将n比特全部置1,然后紧跟2n比特;以此类推,直至(2^(kn)-1)>DIFdata(k为正整数)。
进一步地,采用4比特或8比特或12比特存储所述无符号位置坐标DIFdata。
进一步地,根据编码前或解码后的声音对象三维坐标值确定声音对象的有效作用区域(φ,θ,γ),其中φ为声音对象和原点连线在xoy平面上的投影与x轴的夹角、范围[0,2π),θ为声音对象和原点连线与z轴的夹角,γ是描述锥面张开大小的,定义为锥面母线和中轴线的夹角,范围[0,π/2]。
有益效果:与现有技术相比,本发明的优点:本发明在传统多声道立体声声场的基础上,引入了声音对象的三维声技术,提供了三维声场的声音对象在录音制作、编码、解码和渲染回放时的坐标定义、运动轨迹和作用区域表示方法,编码效率高、声音表现力好且声音制作方便。
本发明采用了差分编码的方法,这种编码方式保证了对于大多数声音对象都能用较少的比特进行编码,比如对移动时速不高于53km/h的低速对象都能只用4个比特进行编码,大大节约了码流空间。而对于少数高速对象,用DIF(n)方式对其进行拓展,也能完成编码。对于低速对象这种编码大大节约了码流空间,而对高速对象,虽然将会使用更多的比特数,但是考虑到大多数对象是低速对象,总体来说是提高了编码效率。
而本发明提出了一种新的划分方式,以对象与原点的连线为中轴来得到一个圆锥,圆锥的张角可调,圆锥所笼罩的区域就是对象的有效作用区域。现有的区域划分是从扬声器的角度出发对扬声器的分布进行区域划分,而本发明是从对象的角度出发划分出对象的有效作用区域,有利于录音师定义自己理想的有效作用区域,而在进行对象呈现时可以根据实际声场的扬声器布置和所采用的呈现算法来灵活地决定扬声器的取舍,这样形成的区域划分将使得对声音对象的重建更加具有表现力。
从声音的制作的角度来看,通过灵活的定义了声音对象的位置以及声场空间的区域划分,在声音制作的环节上能够方便地在传统的3D立体声基础上随意添加声音对象,使得无论录音还是声音制作的环节都充满了灵活性。
附图说明
图1为本发明的扬声器的区域划分示意图。
具体实施方式
下面结合附图对本发明技术方案进行详细说明。
实施例1:以一个立方体来描述声场空间为例,典型应用是扬声器布置于立方体的边界面。声音对象的空间坐标定义:将坐标原点定义为水平切面的中心、高度与录音师监听时耳朵齐平的位置,并令x轴指向右侧(墙),y轴指向前方(通常为屏幕),z轴垂直指向上方(房顶)。
对声场空间采用归一化坐标表示,x轴、y轴和z轴的最大绝对坐标值为1,z轴较短一侧为地面,其归一化绝对坐标值为a(a<1),则此声场空间的8个坐标为:
(1,1,1)——表示区域前方右上角;
(-1,1,1)——表示区域前方左上角;
(1,1,-a)——表示区域前方右下角;
(-1,1,-a)——表示区域前方左下角;
(1,-1,1)——表示区域后方右上角;
(-1,-1,1)——表示区域后方左上角;
(1,-1,-a)——表示区域后方右下角;
(-1,-1,-a)——表示区域后方左下角。
声音对象的位置轨迹编码以帧为单位划分,每帧进一步分为若干块。为和压缩编码兼容,采用1024个样本为一帧:48kHz采样频率时,每个块为256个样本,时间间隔为5.3ms;96kHz采样频率时,每个块为512个样本,时间间隔为5.3ms。第i块的某一声音对象的位置坐标表示为(x(i),y(i),z(i)),i=1、2、3、4。声音对象的位置坐标(x,y,z)可以映射为用四个量(pID,Ax,Ay,Az)来描述,即象限标识符pID和位置坐标的绝对值Ax、Ay、Az(取值范围为[0,1])。
声音对象的象限标识符pID是对坐标(x,y,z)的象限位置的描述,与(x,y,z)的符号位信息(signb(x),signb(y),signb(z))相对应,其中signb(x)是取符号位运算
signb(x)=0当x>=0;
signb(x)=1当x<0;
象限标识符可取如下值:
表1象限标识符pID表
pID索引 符号位
0 (0,0,0)
1 (0,0,1)
2 (0,1,0)
3 (0,1,1)
4 (1,0,0)
5 (1,0,1)
6 (1,1,0)
7 (1,1,1)
每帧的第一个块为参考块,对该块的声音对象空间位置信息采用直接编码;后续的块为预测块,对该块的声音对象空间位置信息采用差分编码。
第一个块直接对(pID,Ax,Ay,Az)编码,pID用三个比特,如表1所示;Ax、Ay、Az在范围[0,1]内编码为10比特的无符号数Dx、Dy、Dz,,它们满足的映射关系为:
Figure GDA0002128724900000051
Figure GDA0002128724900000052
Figure GDA0002128724900000053
后续块做差分编码,即对当前块与前一块的坐标值的差值(Δx,Δy,Δz)进行编码,其中,Δx是当前块和前一块x轴坐标的差分值,Δy是当前块和前一块y轴坐标的差分值,Δz是当前块和前一块z轴坐标的差分值;满足如下关系:
x(k)=x(k-1)+Δx,-2≤Δx≤2;
y(k)=y(k-1)+Δy,-2≤Δy≤2;
z(k)=z(k-1)+Δz,-2≤Δz≤2;
与前述过程类似,差值(Δx,Δy,Δz)也被映射为用四个量(pID,|Δx|,|Δy|,|Δz|)来描述。pID是(Δx,Δy,Δz)的象限标识符,|Δx|、|Δy|和|Δz|分别对应Δx、Δy、Δz的绝对值,取值范围为[0,2]。pID用三个比特,如表1所示,|Δx|、|Δy|和|Δz|可映射为11比特的无符号数Dx、Dy和Dz,它们满足的映射关系为:
Figure GDA0002128724900000062
而对于无符号数Dx、Dy和Dz采用DIF(n)编码方法,DIF(n)编码的编码过程为:首先比较待编码的无符号位置坐标DIFdata(DIFdata为Dx,Dy,Dz中的任意值)和(2^n-1)的大小,如果小于(2^n-1),则用n个比特储存它;否则将n个比特全部置1,然后紧跟2n个比特;以此类推,直至(2^(kn)-1)>DIFdata(k为正整数)。以DIF(4)编码为例,对无符号数Dx、Dy和Dz采用DIF(4)编码时,可能出现的k值为1、2和3,具体码流结构如下:
Figure GDA0002128724900000064
声音对象的差分编码过程中,要给坐标值的差分留足够的空间,以便于使得它的储存精度足够和第一个块中位置坐标的储存精度一致。于是有如下公式:
Figure GDA0002128724900000065
其中R为房间的半边长,L为相邻两个块中对象的位移,n为储存差分值所用的比特数。
对于一个10m见方的房间,首先选取4比特来储存这个差分值,那么它最多能够储存的值为:
Figure GDA0002128724900000066
于是解得L<0.0781,那么此时声音对象的最大速度为:
Figure GDA0002128724900000071
在实际录音当中,对于大多数声音对象,其时速大多低于53km/h,采用4个比特储存就够了,这个效率非常高。至于高速运动的声音对象,即速度大于53km/h,可扩展为8比特储存。此时即便快如飞机(假设100m/s),也有:L=100×0.0053=0.53(m);L为相邻两个块的距离,此时由于L/2^8<5/2^10,可见8个比特完全能够容纳。
而当房间扩大到100米时,由10比特储存,其精度为50/2^10,此时储存残差的精度更是足够的。下表定义了不同比特和房间尺寸时能够存储的最大声像速度:
表2不同情况下能够储存的对象速度
10m 100m
4比特 53km/h 530km/h
8比特 848km/h 8480km/h
12比特 13568km/h 135680km/h
在一个三维区域内,对于声音对象的重构,有一些区域内的声音对象作用显著,而另一些声音对象可能毫无作用。从这个角度来看,对于某一特定的声音对象,对其作用区域进行划分,只使用区域内一部分声音对象,从而可以使得计算模型和混音操作更简单。典型的声音对象除了点声源,还有面声源(可以理解为距离很远的点声源)和扩散声源(可以是扩散式声源,如爆炸声等),声音对象有效作用区域是用于描述面声源的。该有效作用区域实际是为录音师在录音监听时提供的,录音师将自己理想的有效作用区域以元数据的方式提供给编码器,再由编码器按所述的方式写入到码流中。因在解码端只能拿到解码三维坐标值,因此,编码时可用解码三维坐标值确定有效作用区域,以使编码前的有效作用区域和解码后的作用区域一致。实际上,在一定的精度内,编码前的三维坐标值和解码后的三维坐标值非常接近,其差即三维坐标值的量化误差。
划分方法见图1,当声音对象的方位确定时,以原点和声音对象连线为轴,展开一个圆锥,原点是圆锥的顶点。此时圆锥所笼罩的扬声器便是有效扬声器。
对于这种划分,为了方便表达,采用极坐标的形式,用三个参数来表示这个划分,(φ,θ,γ)。其中(φ,θ)组成了声音对象的方位角,φ为对象和原点连线在xoy平面上的投影与x轴的夹角,范围[0,2π),θ为对象和原点连线与z轴的夹角。而第三个参数γ是用来描述锥面张开大小的,定义为锥面母线和中轴线的夹角,范围[0,π/2]。由此,整个锥面就被确定下来,随之三维空间的区域划分就完成了。
对于(φ,θ),前面已经定义了对象的位置,声音对象的位置坐标表示为(x,y,z),于是很容易求得。
以上声音对象编码的伪代码:
以上方法给出了三维声场的声音对象在录音制作、编码、解码和渲染回放时的坐标定义、运动轨迹、作用区域等表示方法。在三维声编码时,除了声音对象轨迹和作用区域等信息编码外,还需要对声音对象的波形做编码。
考虑到声音对象彼此的独立性,高质量的声音对象波形可采用独立的编码方式,包括各种已知的无损编码和有损音频编码技术,如APE、FLAC、MP3、AAC、AVS等。在对带宽要求很高的低码率场合,亦可采用参数编码的方式,将多个声音对象混合成一个和声道,并采用参数编码方法,来有效表示多个声音对象。此类的参数编码方法包括SAC(Spatial AudioCoding)、BBC(Binaural Cue Coding)、MPEG Surround等。
因声音波形编码的方法较为成熟,在此不作赘述。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上作出各种变化。

Claims (7)

1.一种全景声编码方法,其特征在于,包括:
获取声场空间的声音对象;
以声场空间水平切面中心、与录音师双耳连线中心等高的位置为原点建立三维坐标系,确定声音对象的三维坐标值;
声音对象的位置轨迹以帧为单位,每帧包括若干个块,每帧的第一个块为参考块、后续块为预测块,确定声音对象第i块的位置坐标为(xi,yi,zi);
对参考块的三维坐标值进行直接编码,对预测块的三维坐标值进行差分编码。
2.根据权利要求1所述的全景声编码方法,其特征在于:所述声音对象第i块的三维坐标值(xi,yi,zi)映射为(pIDi,Axi,Ayi,Azi),pIDi为象限标识符,Axi、Ayi、Azi为位置坐标的绝对值。
3.根据权利要求2所述的全景声编码方法,其特征在于:所述参考块的三维坐标值(pIDi,Axi,Ayi,Azi)直接编码成(pIDj,Dxj,Dyj,Dzi),pIDj采用3比特,Axi、Ayi、Azi在范围[0,1]内编码为N比特的无符号数Dxj、Dyj、Dzi,4<=N<=16,映射关系为:Axi=Dxj/(2^N-1),0<=Dxj<=(2^N-1);Ayi=Dyj/(2^N-1),0<=Dyj<=(2^N-1);Azi=Dzi/(2^N-1),0<=Dzi<=(2^N-1)。
4.根据权利要求3所述的全景声编码方法,其特征在于:所述预测块对当前块与前一块的坐标值差值(ΔxkΔykΔzk)进行编码,其中,Δxk是当前块与前一块x轴坐标的差分值,Δyk是当前块与前一块y轴坐标的差分值,Δzk是当前块与前一块z轴坐标的差分值,且差值(ΔxkΔykΔzk)被映射为(pIDk,|Δxk|,|Δyk|,|Δzk|),其中pIDkΔxkΔykΔzk的象限标识符,|Δxk|、|Δyk|、|Δzk|分别对应ΔxkΔykΔzk的绝对值,|Δxk|、|Δyk|、|Δzk|在[0,2]内编码为N+1比特的无符号数Dxk、Dyk、Dzk,映射关系为:|Δxk|=Dxk/(2^N-1),0<=Dxk<=(2^(N+1)-1);|Δyk|=Dyk/(2^N-1),0<=Dyk<=(2^(N+1)-1);|Δzk|=Dz/(2^N-1),0<=Dzk<=(2^(N+1)-1)。
5.根据权利要求4所述的全景声编码方法,其特征在于:所述无符号数Dxk、Dyk、Dzk采用DIF(n)编码方法:取Dxk、Dyk、Dzk中的任意一个的值无符号位置坐标DIFdata与(2^n-1)的大小相比较,如果小于(2^n-1),则用n比特储存它;否则将n比特全部置1,然后紧跟2n比特;以此类推,直至(2^(kn)-1)>DIFdata,k为正整数。
6.根据权利要求5所述的全景声编码方法,其特征在于:采用4比特或8比特或12比特存储所述无符号位置坐标DIFdata。
7.根据权利要求1所述的全景声编码方法,其特征在于:根据编码前或解码后的声音对象三维坐标值确定声音对象的有效作用区域(φ,θ,γ),其中φ为声音对象和原点连线在xoy平面上的投影与x轴的夹角、范围[0,2π),θ为声音对象和原点连线与z轴的夹角,γ是描述锥面张开大小的,定义为锥面母线和中轴线的夹角,范围[0,π/2]。
CN201610159117.3A 2016-03-18 2016-03-18 一种全景声编码方法 Active CN105895106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610159117.3A CN105895106B (zh) 2016-03-18 2016-03-18 一种全景声编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610159117.3A CN105895106B (zh) 2016-03-18 2016-03-18 一种全景声编码方法

Publications (2)

Publication Number Publication Date
CN105895106A CN105895106A (zh) 2016-08-24
CN105895106B true CN105895106B (zh) 2020-01-24

Family

ID=57014373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610159117.3A Active CN105895106B (zh) 2016-03-18 2016-03-18 一种全景声编码方法

Country Status (1)

Country Link
CN (1) CN105895106B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1661924A (zh) * 2004-02-26 2005-08-31 Lg电子有限公司 音频编解码系统和使用该音频编解码系统的编码方法
EP1936813A1 (en) * 2006-12-19 2008-06-25 Deutsche Thomson OHG Method and apparatus for reducing miscorrection in an extended Chase decoder
CN102656628A (zh) * 2009-10-15 2012-09-05 法国电信公司 优化的低吞吐量参数编码/解码
CN104205790A (zh) * 2012-03-23 2014-12-10 杜比实验室特许公司 2d或3d会议场景中的讲话者的部署
CN104363555A (zh) * 2014-09-30 2015-02-18 武汉大学深圳研究院 一种5.1多声道声源方向重建方法与装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1661924A (zh) * 2004-02-26 2005-08-31 Lg电子有限公司 音频编解码系统和使用该音频编解码系统的编码方法
EP1936813A1 (en) * 2006-12-19 2008-06-25 Deutsche Thomson OHG Method and apparatus for reducing miscorrection in an extended Chase decoder
CN102656628A (zh) * 2009-10-15 2012-09-05 法国电信公司 优化的低吞吐量参数编码/解码
CN104205790A (zh) * 2012-03-23 2014-12-10 杜比实验室特许公司 2d或3d会议场景中的讲话者的部署
CN104363555A (zh) * 2014-09-30 2015-02-18 武汉大学深圳研究院 一种5.1多声道声源方向重建方法与装置

Also Published As

Publication number Publication date
CN105895106A (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
US10674262B2 (en) Merging audio signals with spatial metadata
EP3646619B1 (en) Mixed-order ambisonics (moa) audio data for computer-mediated reality systems
TWI595785B (zh) 用於螢幕相關音訊物件再對映之裝置及方法
CN106714074B (zh) 用于回放更高阶立体混响音频信号的方法和设备
JP6055576B2 (ja) 任意のスピーカー・レイアウトへのオーディオ・オブジェクトのパン
TWI611706B (zh) 將虛擬揚聲器映射至實體揚聲器
TWI686794B (zh) 以保真立體音響格式所編碼聲訊訊號為l個揚聲器在已知位置之解碼方法和裝置以及電腦可讀式儲存媒體
CN105898669B (zh) 一种声音对象的编码方法
KR20170106063A (ko) 오디오 신호 처리 방법 및 장치
CN109410912B (zh) 音频处理的方法、装置、电子设备及计算机可读存储介质
BR112021011170A2 (pt) Aparelho e método para reproduzir uma fonte sonora espacialmente estendida ou aparelho e método para gerar um fluxo de bits a partir de uma fonte sonora espacialmente estendida
JP2002505058A (ja) 空間形成されたオーディオの再生
Rana et al. Towards generating ambisonics using audio-visual cue for virtual reality
US10728689B2 (en) Soundfield modeling for efficient encoding and/or retrieval
CN106796796A (zh) 以信号表示用于高阶立体混响音频数据的可缩放译码的声道
CN104363555A (zh) 一种5.1多声道声源方向重建方法与装置
TW202105164A (zh) 用於低頻率效應之音訊呈現
JP2018110366A (ja) 3dサウンド映像音響機器
CN105895108B (zh) 一种全景声处理方法
CN114630145A (zh) 一种多媒体数据合成方法、设备及存储介质
CN105895106B (zh) 一种全景声编码方法
WO2021180310A1 (en) Representation and rendering of audio objects
CN108206022A (zh) 利用aes/ebu信道传输三维声信号的编解码器及其编解码方法
KR20240021911A (ko) 3차원 오디오 신호를 인코딩하기 위한 방법 및 장치, 인코더 및 시스템
KR20240001226A (ko) 3차원 오디오 신호 코딩 방법, 장치, 및 인코더

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 210000 stone city, Gulou District, Nanjing, Jiangsu

Patentee after: WAVARTS TECHNOLOGIES CO.,LTD.

Address before: 210000 stone city, Gulou District, Nanjing, Jiangsu

Patentee before: NANJING QINGJIN INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220413

Address after: 101399 room 1001, building 1, No. 8, jinmayuan Third Street, Gaoliying Town, Shunyi District, Beijing

Patentee after: Beijing panoramic sound information technology Co.,Ltd.

Address before: 210000 stone city, Gulou District, Nanjing, Jiangsu

Patentee before: WAVARTS TECHNOLOGIES CO.,LTD.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221213

Address after: 100041 8th Floor, Zhongguancun Science Fiction Industry Entrepreneurship Center, Building 2, Shougang Park, No. 68, Jinanqiao, Shijingshan District, Beijing

Patentee after: Panorama Sound (Beijing) Intelligent Technology Co.,Ltd.

Address before: 101399 room 1001, building 1, No. 8, jinmayuan Third Street, Gaoliying Town, Shunyi District, Beijing

Patentee before: Beijing panoramic sound information technology Co.,Ltd.