CN109448741B - 一种3d音频编码、解码方法及装置 - Google Patents
一种3d音频编码、解码方法及装置 Download PDFInfo
- Publication number
- CN109448741B CN109448741B CN201811395574.8A CN201811395574A CN109448741B CN 109448741 B CN109448741 B CN 109448741B CN 201811395574 A CN201811395574 A CN 201811395574A CN 109448741 B CN109448741 B CN 109448741B
- Authority
- CN
- China
- Prior art keywords
- code stream
- signal
- sound channel
- coding
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 238000012856 packing Methods 0.000 claims abstract description 12
- 230000005236 sound signal Effects 0.000 claims description 39
- 238000001228 spectrum Methods 0.000 claims description 27
- 230000001953 sensory effect Effects 0.000 claims description 22
- 230000003595 spectral effect Effects 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 8
- 238000009877 rendering Methods 0.000 claims description 8
- 238000013139 quantization Methods 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 238000007667 floating Methods 0.000 claims description 5
- 230000001052 transient effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 33
- 238000010586 diagram Methods 0.000 description 25
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
Abstract
本发明公开了一种3D音频编码、解码方法及装置,所述3D音频编码方法包括S110、输入声道信号、目标信号和元数据;S120、通过声道核心编码器对所述声道信号进行编码,获得声道码流;S130、通过目标编码器对所述目标信号进行编码,获得目标码流;S140、通过元数据编码器对所述元数据进行编码,获得元数据码流;S150、按照3D音频数据结构将所述声道码流、所述目标码流和所述元数据码流进行帧格式打包,输出3D音频码流。本发明能够实现3D音频码流的高效编解码。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种3D音频编码、解码方法及装置。
背景技术
随着未来超高清电视等应用的发展,对于音频的要求也进一步提高,以便获得身临其境的(沉浸式)听觉效果,为此输入音频信号的声道数明显增多(例如5.1.4、7.1.4和22.2等),此外还包括独立的目标音频信号,以及声道和目标信号相关的一些数据信息(元数据),针对这些信息进行高效压缩产生3D音频码流,以便于有效地传输和存储等。
以往的DRA编码是对声道信号的编码,不包括如增强编码工具,如带宽扩展BWE(BandWidth Extension)等,而且不能高效编码3D声道音频信号(没有更好地利用声道间的相关性),例如3层22.2声道情况。另外也不支持编码目标音频信号,同时也不支持编码元数据信息。
CDR(China Digital Radio,中国数字调频广播)编码,只能完成单声道、立体声和5.1声道编码,它是在DRA基础上增加了SBR(Spectral Band Replication)编码工具,不支持编码3D音频信号,如22.2三层声道信号。
当前的3D音频编码标准,如MPEG-H 3D音频编码、Dolby AC-4和Aruo等都有不同的编码系统且采用不同的技术模块构成,但其产生的3D音频码流效率低下,同样也无法高效实现3D音频码流的解码。
发明内容
本发明针对现有技术中存在的问题,提供了一种3D音频编码、解码方法及装置,能够实现3D音频码流的高效编解码。
本发明就上述技术问题而提出的技术方案如下:
一方面,本发明提供一种3D音频编码方法,包括:
S110、输入声道信号、目标信号和元数据;
S120、通过声道核心编码器对所述声道信号进行编码,获得声道码流;
S130、通过目标编码器对所述目标信号进行编码,获得目标码流;
S140、通过元数据编码器对所述元数据进行编码,获得元数据码流;
S150、按照3D音频数据结构将所述声道码流、所述目标码流和所述元数据码流进行帧格式打包,输出3D音频码流;
其中,所述3D音频数据结构包括依次排列的帧头信息、声道编码信息、目标编码信息以及元数据编码信息;或者,所述3D音频数据结构包括依次排列的帧头信息、声道编码信息、与声道信号相关的元数据编码信息、目标编码信息以及与目标信号相关的元数据编码信息;
所述声道码流的数据结构包括依次排列的帧头信息、中间层声道编码信息、中间层声道BWE信息的控制信息、中间层声道BWE信息、其他层声道编码信息、其他层声道BWE信息的控制信息以及其他层声道BWE信息;或者,所述声道码流的数据结构包括依次排列的帧头信息、声道编码信息、声道BWE信息的控制信息以及声道BWE信息;
所述目标码流的数据结构包括依次排列的帧头信息、目标编码信息、目标BWE信息的控制信息以及目标BWE信息;
所述元数据码流的数据结构包括依次排列的元数据控制信息以及元数据编码信息。
另一方面,本发明提供一种3D音频解码方法,包括:
S210、输入3D音频码流,并将所述3D音频码流拆分为声道码流、目标码流和元数据码流;
S220、通过声道核心解码器对所述声道码流进行解码,获得声道信号;
S230、通过目标解码器对所述目标码流进行解码,获得目标信号;
S240、通过元数据解码器对所述元数据码流进行解码,获得元数据;
S250、根据所述元数据对所述声道信号和所述目标信号进行渲染,根据用户交互信息将渲染后的信号输出至相应终端进行播放;
其中,所述3D音频码流的数据结构包括依次排列的帧头信息、声道编码信息、目标编码信息以及元数据编码信息;或者,所述3D音频数据结构包括依次排列的帧头信息、声道编码信息、与声道信号相关的元数据编码信息、目标编码信息以及与目标信号相关的元数据编码信息;
所述声道码流的数据结构包括依次排列的帧头信息、中间层声道编码信息、中间层声道BWE信息的控制信息、中间层声道BWE信息、其他层声道编码信息、其他层声道BWE信息的控制信息以及其他层声道BWE信息;或者,所述声道码流的数据结构包括依次排列的帧头信息、声道编码信息、声道BWE信息的控制信息以及声道BWE信息;
所述目标码流的数据结构包括依次排列的帧头信息、目标编码信息、目标BWE信息的控制信息以及目标BWE信息;
所述元数据码流的数据结构包括依次排列的元数据控制信息以及元数据编码信息。
另一方面,本发明提供一种3D音频编码装置,能够实现上述3D音频编码方法的所有流程,所述3D音频编码装置包括:
第一输入模块,用于输入声道信号、目标信号和元数据;
声道核心编码器,用于采用声道核心编码算法对所述声道信号进行编码,获得声道码流;
目标编码器,用于对所述目标信号进行编码,获得目标码流;
元数据编码器,用于对所述元数据进行编码,获得元数据码流;以及,
输出模块,用于按照3D音频数据结构将所述声道码流、所述目标码流和所述元数据码流进行帧格式打包,输出所述3D音频码流;
其中,所述3D音频数据结构包括依次排列的帧头信息、声道编码信息、目标编码信息以及元数据编码信息;或者,所述3D音频数据结构包括依次排列的帧头信息、声道编码信息、与声道信号相关的元数据编码信息、目标编码信息以及与目标信号相关的元数据编码信息;
所述声道码流的数据结构包括依次排列的帧头信息、中间层声道编码信息、中间层声道BWE信息的控制信息、中间层声道BWE信息、其他层声道编码信息、其他层声道BWE信息的控制信息以及其他层声道BWE信息;或者,所述声道码流的数据结构包括依次排列的帧头信息、声道编码信息、声道BWE信息的控制信息以及声道BWE信息;
所述目标码流的数据结构包括依次排列的帧头信息、目标编码信息、目标BWE信息的控制信息以及目标BWE信息;
所述元数据码流的数据结构包括依次排列的元数据控制信息以及元数据编码信息。
另一方面,本发明提供一种3D音频解码装置,能够实现上述3D音频解码方法的所有流程,所述3D音频解码装置包括:
第二输入模块,用于输入3D音频码流,并将所述3D音频码流拆分为声道码流、目标码流和元数据码流;
声道核心解码器,用于对所述声道码流进行解码,获得声道信号;
目标解码器,用于对所述目标码流进行解码,获得目标信号;
元数据解码器,用于对所述元数据码流进行解码,获得元数据;以及,
渲染器,用于根据所述元数据对所述声道信号和所述目标信号进行渲染,根据用户交互信息将渲染后的信号输出至相应终端进行播放;
其中,所述3D音频码流的数据结构包括依次排列的帧头信息、声道编码信息、目标编码信息以及元数据编码信息;或者,所述3D音频数据结构包括依次排列的帧头信息、声道编码信息、与声道信号相关的元数据编码信息、目标编码信息以及与目标信号相关的元数据编码信息;
所述声道码流的数据结构包括依次排列的帧头信息、中间层声道编码信息、中间层声道BWE信息的控制信息、中间层声道BWE信息、其他层声道编码信息、其他层声道BWE信息的控制信息以及其他层声道BWE信息;或者,所述声道码流的数据结构包括依次排列的帧头信息、声道编码信息、声道BWE信息的控制信息以及声道BWE信息;
所述目标码流的数据结构包括依次排列的帧头信息、目标编码信息、目标BWE信息的控制信息以及目标BWE信息;
所述元数据码流的数据结构包括依次排列的元数据控制信息以及元数据编码信息。
本发明实施例提供的技术方案带来的有益效果是:
编码时,对于输入的声道信号、目标信号和元数据,采用声道核心编码器对声道信号进行编码,采用目标编码器对目标信号进行编码,采用元数据编码器对元数据进行编码,并将编码后的声道码流、目标码流和元数据码流组合成3D音频码流,实现3D音频码流的高效编码;解码时,将输入的3D音频码流拆分为声道码流、目标码流和元数据码流,通过声道核心解码器对声道码流进行解码,通过目标解码器对目标码流进行解码,通过元数据解码器对元数据码流进行解码,对声道信号、目标信号和元数据进行渲染处理,实现3D音频码流的高效解码。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的3D音频编码方法的流程示意图;
图2是本发明实施例一提供的3D音频编码方法的原理图;
图3是本发明实施例一提供的3D音频编码方法中声道核心编码器的工作原理图;
图4是本发明实施例一提供的3D音频编码方法中重建高频细节的一种拉伸示意图;
图5是本发明实施例一提供的3D音频编码方法中重建高频细节的另一种拉伸示意图;
图6是本发明实施例一提供的3D音频编码方法中模板形状库中的第一模板示意图;
图7是本发明实施例一提供的3D音频编码方法中模板形状库中的第二模板示意图;
图8是本发明实施例一提供的3D音频编码方法中模板形状库中的第三模板示意图;
图9是本发明实施例一提供的3D音频编码方法中模板形状库中的第四模板示意图;
图10是本发明实施例一提供的3D音频编码方法中模板形状库中的第五模板示意图;
图11是本发明实施例一提供的3D音频编码方法中模板形状库中的第六模板示意图;
图12是本发明实施例一提供的3D音频编码方法中模板形状库中的第七模板示意图;
图13是本发明实施例一提供的3D音频编码方法中模板形状库中的第八模板示意图;
图14是本发明实施例一提供的3D音频编码方法中声道码流的一种数据结构示意图;
图15是本发明实施例一提供的3D音频编码方法中声道码流的另一种数据结构示意图;
图16是本发明实施例一提供的3D音频编码方法中3D音频码流的一种数据结构示意图;
图17是本发明实施例一提供的3D音频编码方法中3D音频码流的另一种数据结构示意图;
图18是本发明实施例一提供的3D音频编码方法中目标码流的一种数据结构示意图;
图19是本发明实施例一提供的3D音频编码方法中目标码流的另一种数据结构示意图;
图20是本发明实施例一提供的3D音频编码方法中元数据码流的数据结构示意图;
图21是本发明实施例一提供的3D音频编码方法的具体原理图;
图22是本发明实施例一提供的3D音频编码方法中声道核心编码器的具体工作原理图;
图23是本发明实施例二提供的3D音频解码方法的流程示意图;
图24是本发明实施例二提供的3D音频解码方法的原理图;
图25是本发明实施例二提供的3D音频解码方法中声道核心解码器的工作原理图;
图26是本发明实施例二提供的3D音频解码方法的具体原理图;
图27是本发明实施例二提供的3D音频解码方法中声道核心解码器的具体工作原理图;
图28是本发明实施例三提供的3D音频编码装置的结构示意图;
图29是本发明实施例四提供的3D音频解码装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本发明实施例提供了一种3D音频编码方法,参见图1,该方法包括如下步骤:
S110、输入声道信号、目标信号和元数据;
S120、通过声道核心编码器对所述声道信号进行编码,获得声道码流;
S130、通过目标编码器对所述目标信号进行编码,获得目标码流;
S140、通过元数据编码器对所述元数据进行编码,获得元数据码流;
S150、按照3D音频数据结构将所述声道码流、所述目标码流和所述元数据码流进行帧格式打包,输出3D音频码流。
需要说明的是,3D音频编码的输入包括传统的声道信号、目标信号(或称为对象音频信号)以及相关的元数据。其中,元数据是指一些描述声道信号及目标信号的参数,例如目标信号的空间位置、有无、运动轨迹、类型以及响度等。如图2所示,声道信号(如立体声、5.1、7.1、10.1或22.2等)通过声道核心编码器进行压缩形成声道码流,元数据通过元数据编码器形成元数据码流;目标信号通过目标编码器生成目标码流,最后三个码流组合成最终的3D音频码流。
所述步骤S120具体包括:
S121、将输入的声道信号划分为LFE声道信号、独立声道信号和声道对信号;
S122、对所述LFE声道信号进行2倍下采样,并采用感觉音频编码进行压缩,获得LFE声道码流;
S123、对所述独立声道信号进行编码,获得独立声道码流;
S124、对所述声道对信号进行编码,获得声道对码流;
S125、按照声道编码数据结构对所述LFE声道码流、所述独立声道码流和所述声道对码流进行帧格式打包,输出所述声道码流。
需要说明的是,如图3所示,声道信号包括多声道音频信号,即进入LFE(lowfrequency enhancement,低频增强)声道的LFE声道信号、进入独立声道的独立声道信号以及进入声道对的声道对信号。其中,LFE声道信号首先进行2倍下采样,然后直接采用某种感觉音频编码进行压缩,输出LFE声道码流。对于独立声道信号和声道对信号需根据某些参数如编码码率要求(或声音质量要求)进行不同的编码处理。
在一个优选地实施方式中,所述步骤S123具体包括:
对所述独立声道信号中的低频部分进行波形编码,对独立声道信号中的高频部分进行波形参数混合编码,获得独立声道码流;
所述步骤S124具体包括:
对所述声道对信号中的低频部分进行波形编码,对声道对信号中的高频部分进行波形参数混合编码,获得声道对码流。
在本实施方式中,独立声道信号和声道对信号的编码过程如下:
(1)将2048个PCM样本点输入到32带CQMF分析模块,输出为32个子带,每个子带由64个CQMF样本点,表示为:
x[k][n]k=0,1,...,31n=0,1,...,63
(2)根据编码比特率等信息将x[k][n]分成低频LF-CQMF表示为xlf[k][n]和高频HF-CQMF表示为xhf[k][n],其中:
xlf[k][n]k=0,1,...,K-1n=0,1,...,63
xhf[k][n]k=K,K+1,...,31n=0,1,...,63
其中K的选择是根据编码比特率等信息决定,当编码比特率高时,K可以大一些,当编码比特率小时,K可以小一些。
(3)将xlf[k][n]输入到LF-CQMF合成模块,输出低频时域信号。
(4)将xhf[k][n]先调制到低频再输入到HF-CQMF合成模块,输出高频时域信号。
(5)对低频时域信号输入到低频编码模块编码,得到低频编码码流。该低频编码模块可以是现在任一波形编码方法,比如DRA、AAC、MP3等。
(6)对高频时域信号输入到高频编码模块编码,得到高频编码码流。该高频编码模块可以是现在任一波形参数编码方法,比如HILN、MELP、ACELP、TCX、ACELP和TCX混合编码等。
(7)将低频编码码流和高频编码码流复用。
在另一个优选地实施方式中,所述步骤S123具体包括:
S131、获取所述独立声道信号的编码码率要求,若编码码率要求高,则执行步骤S132,若编码码率要求低或中等,则执行步骤S133;
S132、对所述独立声道信号进行感觉音频编码,获得所述独立声道码流;
S133、对所述独立声道信号中的高频部分进行带宽扩展编码,获得带宽扩展参数和高频编码信息;对所述独立声道信号中的低频部分进行感觉音频编码,获得低频编码信息;将所述带宽扩展参数、高频编码信息和所述低频编码信息作为所述独立声道码流。
需要说明的是,在对独立声道信号编码时,如图3所示,根据某些参数如编码码率要求(或声音质量要求)确定是否开启声道核心编码器中的带宽扩展编码功能。一般在编码码率要求较高时不开启,直接对独立声道信号进行2倍下采样后,采用某种感觉音频编码进行压缩,输出独立声道码流;当编码码率要求中低时开启,首先对独立声道信号的高频部分进行带宽扩展编码,获得带宽扩展参数和高频编码信息,再对独立声道信号的低频部分进行某种感觉音频编码,获得低频编码信息,其中,带宽扩展参数、高频编码信息和低频编码信息作为独立声道码流输出。
进一步地,所述步骤S124具体包括:
S141、判断所述声道对信号是否与其他声道对信号具有相关性;若是,则对具有相关性的声道对信号进行去相关处理,并执行步骤S142,若否,则执行步骤S142;
S142、获取所述声道对信号的编码码率要求,若编码码率要求低,则执行步骤S143,若编码码率要求中等,则执行步骤S144,若编码码率要求高,则执行步骤S145;
S143、对所述声道对信号进行参数立体声编码,获得立体声参数和下混的单声道信号;对所述单声道信号中的高频部分进行带宽扩展编码,获得对带宽扩展参数和高频编码信息;对所述单声道信号中的低频部分进行感觉音频编码,获得低频编码信息;将所述立体声参数、所述带宽扩展参数、所述高频编码信息和所述低频编码信息作为所述声道对码流;
S144、对所述声道对信号中的高频部分进行带宽扩展编码,获得带宽扩展参数和高频编码信息;对所述声道对信号中的低频部分进行感觉音频编码,获得低频编码信息;将所述带宽扩展参数、高频编码信息和所述低频编码信息作为所述声道对码流;
S145、对所述声道对信号进行感觉音频编码,获得所述声道对码流。
需要说明的是,在对声道对信号(立体声信号)进行编码时,如图3所示,先判断该声道对是否可以与其他声道对构成4声道组(或更高声道组),即判断声道对之间的相关性,如果可以构成4声道组(或更高声道组),则需开启声道核心编码器中的多声道去相关功能,对4声道组(或更高声道组)进行多声道去相关处理,降低声道间的相关性,处理后仍然为4个(或更多)声道,且仍为声道对的方式,同时处理后输出控制信息;否则不开启多声道去相关功能。
根据某些参数如编码码率要求对声道信号进行不同的编码。若编码码率要求很低,则开启声道核心编码器中的参数立体编码功能和声道对宽带扩展编码功能,先对声道对信号进行参数立体声编码,获得一个下混的单声道信号并输出立体声参数,再对下混的单声道信号中的高频部分进行带宽扩展编码,获得高频编码信息并输出带宽扩展参数,进而对下混的单声道信号中的低频部分进行某种感觉音频编码,获得低频编码信息,输出高频编码信息和低频编码信息,并与输出的立体声参数和带宽扩展参数一起作为声道对码流。
若编码码率要求中等,则关闭参数立体编码功能,并开启声道对宽带扩展编码功能,先对声道信号中的高频部分进行带宽扩展编码,获得高频编码信息并输出带宽扩展参数,进而对声道信号中的低频部分进行某种感觉音频编码,获得低频编码信息,输出高频编码信息和低频编码信息,并与输出的带宽扩展参数一起作为声道对码流。
若编码码率要求较高(或声音质量较高),则关闭参数立体编码功能和声道对宽带扩展编码功能,直接对声道对信号进行某种感觉音频编码,输出声道对码流。
进一步地,所述带宽扩展编码中高频弦信号的生成方法包括:
对输入的单声道音频信号利用复正交镜像滤波器组进行复正交分析滤波,获得多个等带宽的子带信号;
对获得的每个子带信号进行复数线性预测分析滤波,得到各子带的残差信号,求得预测系数,并依次完成所有高频子带残差信号与低频子带残差信号的对应关系,将子带残差拷贝参数编码并输出;
量化编码预测系数并输出。
进一步地,所述依次完成所有高频子带残差信号与低频子带残差信号的对应关系,将子带残差拷贝参数编码并输出,具体包括:
分析每个高频子带的残差信号,从低频子带残差信号中选择最佳的一个低频子带,并将以此得到的所有低频子带的子带号编码并输出;
或者,对连续一组高频子带残差信号,从低频子带残差信号中选择最佳的一组连续的低频子带,并将以此得到的多组低频子带的起始子带号和终止子带号编码并输出。
需要说明的是,本实施例的带宽扩展编码中高频弦信号的生成方法对高频子带进行CLPC分析并传输预测系数,保证高频包络的精确性,从而可改善音频信号高频部分的声音质量。
进一步地,所述带宽扩展编码中高频细节的产生方法包括:
确定输入的单声道音频信号中解码时所要复制的低频部分的带宽和重建高频部分的带宽,若重建高频部分的带宽大于所要复制的低频部分的带宽,或者所述高频部分具有弦信号,则将重建高频部分的带宽与所要复制的低频部分的带宽的比值作为所述拉伸因子并输出;
根据输入的单声道音频信号的瞬态特性进行时频栅格划分,计算每个栅格的谱包络,并从预设的模板形状库中找到与所述谱包络最相似的形状,将所述形状在所述模板形状库中的标号编码并输出。
需要说明的是,一般高频细节谱系数的产生都是从低频部分拷贝过来,然后进行滤波或者谱包络形状调整,最后再进行增益调整(重建本高频部分的总能量)。通常所要拷贝而选取的低频部分带宽(或者谱线数)和替换的目标高频部分细节的带宽(或谱线数)一样。
但是,当音频编码码率较低时,低频编码部分(通常采用感觉音频编码,如AAC、DRA等)频率较低(核编码器编码的音频低频部分偏低),带宽扩展技术BWE要编码的高频部分较多(宽)时,可能出现低频部分连续拷贝两次及以上情况,这时重建的高频频谱系数的细节通常与原始高频部分频谱系数的细节出现较大偏差,从而影响高频重建效果,最终降低整体主观声音质量。
而对于强谐波类音频信号,这类音频信号除了基频信号外还存在丰富的高次谐波成分(泛音),使得整个音频信号听起来更丰满、平滑和明亮等(音色)。对于这一类信号BWE编解码,由于高频含有大量的弦信号,都通过独立弦信号编码则需要大量的编码信息,这在低码率编码时无法保证;因此从低频如何拷贝到高频来重建高频细节就非常重要。简单的拷贝通常无法保证低频谱线中的基音及低次谐波正好替换原音频信号高频部分的高次谐波,从而改变音色带来高频失真。
因此为了避免解码时高频重建效果受影响,在编码时定义一个拉伸因子α=BWH/BWL,其中,所要拷贝的低频部分的带宽为BWL,重建高频部分的带宽为BWH。在解码时,即重建高频细节时,对于高频部分较多的情况,如图4所示,通过一次复制及拉伸处理即可获得高频部分谱系数的细节。对于强谐波类音频信号,由于高次谐波通常都在低频部分基频和低次谐波的整倍频位置,因此在选择好低频部分后,拷贝到高频来替换原始高频细节时通过拉伸因子α使得拷贝后的基频(当存在时)和低次谐波正好落在高次谐波上(或附近),如图5所示,这样既保留高频部分的主要高次谐波,又无需对很多独立弦信号编码,从而获得较好的高频重建效果,减少低码率时高频信号失真。其中,频谱带宽(或者谱系数)的拉伸方法可以采用频域插值方法或以α倍重采样等方法实现。
另外,在带宽扩展编解码算法中,SBR技术在高频信号细节的重建时通过低频部分拷贝得到,低频部分通过简单的2阶滤波得到,由于没有考虑所替换的高频部分内容,这种方法得到的高频细节包络形状或者与低频部分相同,或者滤波后接近白噪声的平坦频谱。另外AMR-WB+则通过高频部分的LPC(线性预测)方式获得高频部分的谱包络,但是LPC的计算占用一定的运算复杂度,同时预测系数的编码需要占用较多的比特率(由于BWE技术一般应用于低码率音频编码,此时LPC系数编码所占用的比特率就有可能造成低频部比特率不足而造成低频量化失真过大,影响整体主观声音质量)。
因此,本实施例提出了一种通用高频谱包络模板形状库来模拟高频部分的谱包络,这种方法比简单直接搬移低频部分(拷贝)获得高频部分细节的方法得到更准确的谱包络。在低码率情况下,与LPC方法比较可以用较少的信息描述高频谱包络;同时也可以在码率增加时通过较大的模板形状库提供与LPC相当或更好的高频谱包络还原。
具体的,在编码时,首先根据信号瞬态特性进行时频栅格划分,然后计算每个栅格的谱包络,并在模板形状库中找到与谱包络最相似的形状,并将模板形状库中该形状的标号编码为包络参数。
其中,高频部分谱包络模板形状库的构造可以通过在划分的时频栅格上进行多种算法来实现,例如:(1)简单几何图形构造、(2)对高频部分包络进行拟合(线性等其他方法)、(3)矢量量化、或者(4)LPC预测滤波得到包络。然后通过统计分类处理得到N种(通常N是2的整数幂,即N=2^M,M为整数)常规的谱包络形状,并对形状进行标号,便于检索和编码传输。另外,模板形状库可以设计成分层的方式,层越深,谱包络越精细,这样便于不同音频编码码率采用不同层来描述当前帧的高频谱包络,获得码率自适应的最佳高频谱包络还原。按照几何图形构造模板形状库的一个简单实施例:包括8个模板,如图6图13所示,其可以用3比特来编码。该8个模板也可以分成2层,其中第一次为3个模板(一条线段),第二层5个模板(两条线段),第一层以粗略的方式表示高频谱包络;第二层给出更精细的高频谱包络形状。
进一步地,所述步骤S125具体包括:
按照声道编码数据结构对所述LFE声道码流、所述独立声道码流和所述声道对码流进行帧格式打包,输出所述声道码流;
所述声道码流的数据结构包括依次排列的帧头信息、中间层声道编码信息、中间层声道BWE信息的控制信息、中间层声道BWE信息、其他层声道编码信息、其他层声道BWE信息的控制信息以及其他层声道BWE信息;或者,所述声道码流的数据结构包括依次排列的帧头信息、声道编码信息、声道BWE信息的控制信息以及声道BWE信息。
需要说明的是,声道码流存在两种结构,第一种结构如图14所示,前面是中间层声道编码信息和中间层BWE(BandWidth Extension,扩带扩展),后面是其他层(上层和底层)声道编码信息和其他层声道BWE。这种结构可以适用于与传统2D音频编码数据结构兼容,例如在3D音频中声道信号为5.1.4时,中间层5.1的编码放在前面,可以与传统的5.1编码兼容,即传统2D音频解码器可以解码出5.1声道。需要注意的是在这种结构中自适应多声道去相关功能不能启用,否则会破坏兼容性。第二种结构如图15所示,前面是声道编码信息,后面是各个声道BWE。
进一步地,所述步骤S130具体包括:
检测输入的目标信号是否需要参考相关元数据来进行编码;
若是,则当相关元数据指示本帧目标信号有信号时,采用声道核心编码算法将所述目标信号作为所述声道信号中的独立声道信号进行编码,获得所述目标码流;
若否,则采用声道核心编码算法将所述目标信号作为所述声道信号中的独立声道信号进行编码,获得所述目标码流。
需要说明的是,如图2所示,对于不需要元数据输入的目标信号,直接采用目标编码器对目标信号进行编码。此时目标编码器直接采用声道核心编码算法进行编码,其编码方法与声道核心编码器对声道信号中的独立声道信号进行编码的方法一致,在此不再详细赘述。
当目标信号需要相关元数据共同作为输入进入目标编码器时,目标编码器可以通过对声道核心编码算法进行修改来实现编码。例如当元数据指示目标信号的有无(时间参数描述,或者每帧1bit指示,‘1’表示本帧有信号;‘0’表示本帧目标信号静音),当本帧有信号时采用独立声道信号的声道核心编码处理方式进行编码;否则不编码。
此外,当多个目标信号直接存在相关性,可以将多个目标信号组成一组,首先对这组目标信号进行去相关处理,然后对处理后的信号再作为声道信号采用声道核心编码方法进行压缩编码。
进一步地,所述步骤S140具体包括:
当输入的元数据为浮点表示时,根据元数据部分的编码码率要求进行不同精度的量化,并对量化的整数参数进行熵编码,获得所述元数据码流。
需要说明的是,当输入的元数据信号为浮点表示,如目标信号的空间位置时,需要根据元数据部分的码率要求进行不同精度的量化,对量化的整数参数再进行熵编码,去除冗余信息,其中熵编码包括Huffman编码、算术编码等。
进一步地,在所述步骤S150中,所述3D音频数据结构包括依次排列的帧头信息、声道编码信息、目标编码信息以及元数据编码信息;或者,所述3D音频数据结构包括依次排列的帧头信息、声道编码信息、与声道信号相关的元数据编码信息、目标编码信息以及与目标信号相关的元数据编码信息。
需要说明的是,3D音频码流具有两种数据结构。一种结构如图16所示,先是帧头信息,包含了整个3D音频的基本信息(或者部分目标音频的基本信息也可以移到目标编码信息的帧头中),之后是声道信号编码信息,接着是目标信号编码信息,最后是元数据编码信息。另一种结构如图17所示,将元数据分割成两部分,分别放在声道信号编码信息和目标信号编码信息之后,这种方式使得整个数据结构更加清晰,但会增加几个字节冗余。
另外,所述目标码流的数据结构包括依次排列的帧头信息、目标编码信息、目标BWE信息的控制信息以及目标BWE信息。
需要说明的是,当输入的目标信号仅仅含有单个目标时,单目标编码的数据结构如图18所示,其中帧头信息包含有目标信号的基本信息,当码率较低时,单个目标的BWE开启,单个目标信号编码数据部分包含有当前目标信号的低频部分的压缩信息,单个目标BWE含有高频部分的参数信息,之间的辅助信息给出了单目标BWE信息的控制信息。当码率较高时仅仅包含帧头信息和单个目标信号的编码数据(此时是对单个目标的全频带进行编码)。
当输入的目标信号包括多个目标时,多目标编码的数据结构和单目标编码的数据结构类似,如图19所示,帧头信息包括本帧目标信号的基本信息,当码率较高时,BWE信息不存在,这时帧头信息后的多个目标信号核心编码信息包含了多个目标的全频带编码,可以是每个目标分别编码的信息前后顺序排列,也可以是部分相关目标信号联合编码后作为一个整体和其他单个目标编码的信息顺序排列。如果码率较低时,BWE编码启动,则多个目标信号核心编码信息仅仅包含了目标信号的低频部分压缩信息,高频部分通过对各个目标的高频BWE编码后放在后面,之间的控制信息说明了BWE部分类型和长度等。
所述元数据码流的数据结构包括依次排列的元数据控制信息以及元数据编码信息。
需要说明的是,元数据码流的数据结构如图20所示,开始为元数据控制信息,说明了原始类型和长度,之后为元数据编码信息。
下面以DRA-3D音频编码为例对本发明实施例提供的3D音频编码方法进行详细说明。
如图21所示,输入声道信号、目标信号和元数据,其中输入的声道信号通过DRA-3D编码器中的DRA+V2核心编码器进行压缩,产生声道码流;目标信号通过DRA-3D编码器中的DRA+V2目标编码器进行压缩,形成目标码流;元数据通过DRA+V2元数据编码器压缩成元数据码流,最后三个码流信息通过DRA-3D复用器打包成DRA-3D码流。
其中,如图22所示,DRA+V2核心编码器对声道信号进行编码的具体步骤如下:
将所输入的声道信号划分为LFE(低频效果声道)声道、独立单声道和声道对;
对LFE声道首先进行2倍下采样,然后进行DRA编码,输出LFE声道编码信息;
对独立声道,根据编码码率等参数要求,确定是否开启带宽扩展编码功能,如果码率较高,则不开启,直接进行DRA编码,输出本声道的编码信息;如果码率较低,则开启带宽扩展编码功能,则对本声道的高频部分采用NELA-BWE编码,低频部分采用DRA编码,输出低频和高频的编码信息;
对立体声(或声道对)输入信号,首先对于输入的所有声道对进行NLEA自适应多声道去相关处理,输出处理后的声道对,并输出自适应多声道处理参数;同时对这些声道对进行MCR(Maximum Correlation Rotation,最大相关度旋转)参数立体声编码(如果MCR编码功能开启),并输出MCR参数信息以及下混的声道;对于下混的声道分别用NELA-BWE编码高频,DRA编码低频,并输出低高频编码信息;
将以上步骤输出的各种参数和编码信息按照3D音频声道编码的数据结构(如图15所示)进行打包。
另外,DRA+V2目标编码器直接使用DRA+V2声道编码器对每个目标信号进行编码,DRA+V2元数据编码器使用Huffman进行熵编码。最后,按照3D音频数据结构(如图16所示)将声道码流、目标码流和元数据码流进行帧格式打包,输出3D音频码流。
一个更具体的实例是对5.1.4(中间层为5.1声道和4个上层声道)+4目标音频在384kbps总码率下的编码情况,编码过程如下:
(1)首先进行码率分配,4个目标音频给予24kbps*4=96kbps;元数据给予12kbps;5.1.4声道信号给予276kbps;
(2)对于5.1.4码率分配有三种方式
a)固定码率分配:根据声道信号的总码率,每个声道的码率为总码率乘以一个系数,所有系数之和为1;
b)自适应码率分配:根据各个声道的心理声学模型所计算的掩蔽门限,从总码率中自适应分配,信号复杂的声道获得更多的码率;
c)混合码率分配;在自适应分配的基础上,对不同声道给予不同的加权系数,例如中央声道C一般认为比LS&RS更重要,中间层L&R要比上层声道TopL&TopR更重要等等;
(3)对5(L C R LS RS).1(LFE).4(TopL,TopR,TopLS,TopRS)声道信号进行分组;
(4)“.1”的LFE声道作为单独一个低频声道,进行DRA编码;
(5)C(中间层的中央声道)声道也作为一个独立全频带声道,低频部分进行NELA-BWE编码,高频部分进行DRA编码;
(6)声道对可以是:L&R、LS&RS、TopL&TopR、TopLS&TopRS、L&TopL、R&TopR、LS&TopLS、RS&TopRS,编码时根据各声道对间的相关性,选取相关性最大的作为一个声道对;然后根据之间的相关性,对两个声道对进行组合形成4声道组,例如L&R和TopL&TopR作为一个4声道组,LS&Rs与TopLS&TopRS作为另外一个4声道组;
(7)对以上2个4声道组进行NELA自适应多声道去相关处理,输出4个声道对;
(8)对(4)或(5)的声道对高频部分进行NLEA-BWE编码(在384kbps码率时不开启MCR参数立体声编码),对声道对低频部分进行DRA编码;
(9)对4个目标音频信号分别按照独立声道来编码,即对目标音频的高频部分进行NLEA-BWE编码和低频部分进行DRA编码;
(10)对元数据码率进行Huffman编码;
(11)将以上的所有编码信息按照图16的帧格式进行复用,形成DRA-3D音频码流。
本发明实施例对于输入的声道信号、目标信号和元数据,采用声道核心编码器对声道信号进行编码,采用目标编码器对目标信号进行编码,采用元数据编码器对元数据进行编码,并将编码后的声道码流、目标码流和元数据码流组合成3D音频码流,实现3D音频码流的高效编码。
实施例二
本发明实施例提供了一种3D音频解码方法,参见图23,该方法包括如下步骤:
S210、输入3D音频码流,并将所述3D音频码流拆分为声道码流、目标码流和元数据码流;
S220、通过声道核心解码器对所述声道码流进行解码,获得声道信号;
S230、通过目标解码器对所述目标码流进行解码,获得目标信号;
S240、通过元数据解码器对所述元数据码流进行解码,获得元数据;
S250、根据所述元数据对所述声道信号和所述目标信号进行渲染,根据用户交互信息将渲染后的信号输出至相应终端进行播放;
其中,所述3D音频码流的数据结构包括依次排列的帧头信息、声道编码信息、目标编码信息以及元数据编码信息;或者,所述3D音频码流的数据结构包括依次排列的帧头信息、声道编码信息、与声道信号相关的元数据编码信息、目标编码信息以及与目标信号相关的元数据编码信息;
所述声道码流的数据结构包括依次排列的帧头信息、中间层声道编码信息、中间层声道BWE信息的控制信息、中间层声道BWE信息、其他层声道编码信息、其他层声道BWE信息的控制信息以及其他层声道BWE信息;或者,所述声道码流的数据结构包括依次排列的帧头信息、声道编码信息、声道BWE信息的控制信息以及声道BWE信息;
所述目标码流的数据结构包括依次排列的帧头信息、目标编码信息、目标BWE信息的控制信息以及目标BWE信息;
所述元数据码流的数据结构包括依次排列的元数据控制信息以及元数据编码信息。
需要说明的是,3D音频码流拆分(解复用)成声道信号码流、目标码流和元数据码流。如图24所示,声道码流通过声道核心解码器进行解码输出声道信号,目标码流通过目标解码器进行解码(其中可能会用到部分元数据)得到目标信号,元数据码流通过元数据解码器进行解码得到元数据,最后声道信号、目标信号和相关的元数根据用户交互信息在渲染器/混合器处理后输出给扬声器或耳机播放。
进一步地,所述步骤S220具体包括:
S221、将所述声道码流拆分为LFE声道码流、独立声道码流和声道对码流;
S222、对所述LFE声道码流进行感觉音频解码,并进行2倍上采样,获得LFE声道信号;
S223、对所述独立声道码流进行解码,获得独立声道信号;
S224、对所述声道对码流进行解码,获得声道对信号;
S225、将所述LFE声道信号、所述独立声道信号和所述声道对信号作为所述声道信号输出。
需要说明的是,声道码流的解码分为独立声道解码、声道对解码和LFE声道解码。其中,LFE声道解码是对LFE声道码流先进行一种感觉音频解码,获得LFE低频信号,然后直接进行2倍上采样得到LFE声道信号,如图25所示。声道对解码是对声道对码流进行解码,独立声道解码是对独立声道码流进行解码,解码获得的LFE声道信号、独立声道信号和声道对信号构成多声道音频信号,即声道信号输出。
在一个优选地实施方式中,所述步骤S223具体包括:
对所述独立声道码流中的低频码流进行波形解码,对所述独立声道码流中的高频码流进行波形参数解码,获得独立声道信号;
所述步骤S224具体包括:
对所述声道对码流中的低频码流进行波形解码,对所述声道对码流中的高频码流进行波形参数解码,获得声道对信号。
需要说明的是,在本实施方式中,解码的过程如下:(1)将码流解复用成低频编码码流和高频编码码流。
(2)将低频编码码流输入到低频解码模块,得到低频时域信号。解码方法和编码方法对应,即任一波形解码,如感应音频解码。
(3)将高频编码码流输入的高频解码模块,得到高频时域信号。解码方法和编码方法对应,即任一波形参数解码。
(4)将低频时域信号输入到LF-CQMF分析模块,得到低频CQMF样本xlf[k][n]。
(5)将高频时域信号输入到HF-CQMF分析模块,然后调制到高频,得到高频CQMF样本xhf[k][n]。
(6)将低频CQMF样本xlf[k][n]和高频CQMF样本xhf[k][n]合并成全频带CQMF样本x[k][n]。
(7)将全频带CQMF样本x[k][n]输入到CQMF合成模块,得到全频带时域样本。
在另一个优选地实施方式中,所述步骤S223具体包括:
S231、检测所述独立声道码流中是否具有带宽扩展参数,若是,则执行步骤S232,若否,则执行步骤S233;
S232、对所述独立声道码流的低频码流进行感觉音频解码,获得低频信号;根据所述带宽扩展参数对所述独立声道码流的高频码流进行带宽扩展解码,获得高频信号;将所述低频信号和所述高频信号作为所述独立声道信号;
S233、对所述独立声道码流进行感觉音频解码,获得所述独立声道信号;
所述步骤S24具体包括:
S241、检测所述声道对码流中是否具有立体声参数和带宽扩展参数;若具有立体声参数和带宽扩展参数,则执行步骤S242,若只具有带宽扩展参数,则执行步骤S243,若不具有立体声参数和带宽扩展参数,则执行步骤S244;
S242、对所述声道对码流的低频码流进行感觉音频解码,获得低频信号;根据所述带宽扩展参数对所述声道对码流的高频码流进行带宽扩展解码,获得高频信号;根据所述立体声参数对所述高频信号和所述低频信号进行参数立体声解码,获得全频带音频信号;
S243、对所述声道对码流的低频码流进行感觉音频解码,获得低频信号;根据所述带宽扩展参数对所述声道对码流的高频码流进行带宽扩展解码,获得高频信号;将所述低频信号和所述高频信号作为全频带音频信号;
S244、对所述声道对码流进行感觉音频解码,获得全频带音频信号;
S245、检测所述声道核心解码器中的自适应多声道解码功能是否开启;若是,则对所述全频带音频信号进行自适应多声道解码,获得所述声道对信号,若否,则将所述全频带音频信号作为所述声道对信号。
需要说明的是,独立声道码流有两种解码方式,如图25所示,若独立声道码流中具有带宽扩展参数,则声道核心解码器中的带宽扩展解码功能开启,先对独立声道码流的低频码流进行感觉音频解码,获得低频信号,再对独立声道码流的高频码流进行带宽扩展解码,获得高频信号,实现独立声道解码;若独立声道码流中不具有带宽扩展参数,则声道核心解码器中的带宽扩展解码功能关闭,直接对独立声道码流进行感觉音频解码,从而实现独立声道解码。
声道对码流有三种解码方式,如图25所示,若声道对码流中具有立体声参数和带宽扩展参数,则声道核心解码器中的带宽扩展解码功能和参数立体声解码功能开启,先用感觉音频解码获得一个下混的低频信号,再用带宽扩展解码获得高频信号,最后利用参数立体声解获得全频带音频信号;若声道对码流中只具有带宽扩展参数,则声道核心解码器中的带宽扩展解码功能开启且参数立体声解码功能关闭,先用感觉音频解码获得低频信号,再用带宽扩展解码获得高频信号;若声道对码流中不具有立体声参数和带宽扩展参数,则声道核心解码器中的带宽扩展解码功能和参数立体声解码功能关闭,直接利用感觉音频解码获得全频带音频信号。最后,将全频带音频信号输入到具有自适应多声道解码功能的模块,若自适应多声道解码功能关闭,则全频带音频信号无损经过这个模块;若自适应多声道解码功能开启,则对全频带音频信号进行自适应多声道解码,获得声道对信号。
进一步地,所述带宽扩展解码中高频弦信号的生成方法包括:
对解码得到的低频信号进行复正交滤波器组分析滤波,获得低频子带信号;
对所述低频子带信号进行复线性预测分析滤波,获得低频子带残差信号;
解码并逆量化预测系数;
利用解码得到的子带残差拷贝参数,将低频子带残差信号复制到高频子带残差信号,然后依据预测系数进行高频子带的线性预测合成滤波,得到高频子带细节信号;所述预测系数和所述子带残差拷贝参数是带宽扩展编码中高频弦信号生成时输出的参数;
通过高频包络调整高频子带细节信号,输出高频子带信号。
需要说明的是,本实施例的带宽扩展解码中高频弦信号的生成方法用低频子带信号中最适合的低频残差信号代替高频子带残差信号来激励高频子带的线性预测合成滤波,能够得到较好的高频弦信号,从而可改善音频信号高频部分的声音质量。
进一步地,所述带宽扩展解码中高频细节的生成方法包括:
根据拉伸因子对所要拷贝的低频部分进行拷贝和拉伸,获得高频细节频谱系数;
从预设的模板形状库中找到形状编号所对应的谱包络模板,通过所述谱包络模板对所述高频细节频谱系数进行包络调整,获得高频细节信号;所述拉伸因子和所述形状编号是带宽扩展编码中高频细节生成时输出的参数。
需要说明的是,在解码时,首先根据包络参数,即形状标号从模板形状库中找到相应的谱包络模板,然后从低频频谱拷贝到高频部分,并去相关处理(得到频谱平坦的信号)和归一化处理(去掉增益),最后通过谱包络模板对谱系数进行包络调整,从而重建音频信号的高频部分细节。
进一步地,所述步骤S230具体包括:
检测所述目标码流是否需要参考相关元数据进行解码;
若是,则当相关元数据指示有音频时,将所述目标码流作为所述声道码流中的独立声道码流进行解码,获得所述目标信号;
若否,则将所述目标码流作为所述声道码流中的独立声道码流进行解码,获得所述目标信号。
需要说明的是,如图24所示,当不需要元数据时,一种简单的目标码流的解码方法是对每个音频目标直接当作一个独立声道进行解码。当需要元数据时,利用目标音频相关的元数据,对独立声道的解码方法进行简单修改而完成目标码流的解码。例如,元数据表示当前目标音频的有无指示,如果有本帧音频采用独立声道的解码方式进行解码,在此不再详细赘述;如果无,则直接用一帧静音(0值的PCM)。
此外还存在更复杂的目标码流解码情况,即如果目标码流中某些目标音频信号之间存在相关性,则在编码端可以利用这几个目标的相关性进行压缩,在解码端需要对这几个目标进行联合解码。
在步骤S240中,当元数据为浮点表示时,如目标信号的空间位置,在编码端应首先进行量化,以整数形式表示,并对整数的元数据进行熵编码(如Huffman编码)。同样在解码端应该对元数据码流进行相应解码恢复各个元数据参数,供目标码流解码及混合器/渲染器使用。
进一步地,在所述步骤S250中,如图24所示,混合器/渲染器输入声道信号、目标信号和元数据,同时可以输入用户信息(如当前扬声器的配置等)。混合器/渲染器可以使用VBAP(Vector Base Amplitude Panning)等算法将声道信号和目标信号渲染到实际播放的扬声器(按照用户给定的配置或标准配置),获得较好的3D声场重建,也可以通过HRTF(HeadRelated Transfer Function)等算法经声道信号和目标信号渲染到耳机来重建3D声场。
下面以DRA-3D音频解码为例对本发明实施例提供的3D音频解码方法进行详细说明。
如图26所示,输入信号为DRA-3D码流,在拆分得到三种码流后,声道码流通过DRA+V2(DRA2.0版本)核心解码器处理得到声道信号;目标码流通过DRA+V2目标解码器处理得到目标信号;元数据码流通过DRA+V2元数据解码器处理得到元数据。最后根据用户交互信息并通过DRA-3D渲染器/混合器将渲染处理(采用标准的VBAP和HRTF技术)得到输出信号,一种直接给扬声器进行播放,一种馈送到耳机进行播放。
其中,如图27所示,DRA+V2核心解码器的具体工作原理如下:
对DRA-3D声道码流解码,通过拆分其声道信息部分获得各个独立声道码流、声道对码流、四声道对码流及LFE声道码流;
对LFE声道码流进行DRA解码,然后2倍上采样,输出LFE声道PCM信号;
对独立声道码流进行DRA解码,如果启用了带宽扩展功能,则继续NELA-BWE解码独立声道码流的高频部分,输出独立声道PCM信号;
对声道对码流进行DRA解码,如果没有启用声道对带宽扩展功能(通常为高码率或高质量情况),直接输出声道对PCM信号;如果启用声道对带宽扩展功能,但没有启用参数立体声功能(通常为中等码率情况),则在声道对码流进行DRA解码后进行声道对NELA-BWE解码得到声道对PCM信号;如果启用了声道对带宽扩展功能,同时启用了参数立体声功能(通常为低码率情况),则在对下混的单声道低频部分进行DRA解码,然后通过声道对NELA-BWE解码得到下混的单声道全频带信号,再通过MCR(Maximum Correlation Rotation,最大相关度旋转)解码得到声道对PCM信号,最后判断是否开启了NELA自适应多声道解码功能,如果没有开启,直接输出声道对PCM信号,如果开启则通过两个声道对进行NELA自适应多声道解码输出4声道PCM信号(或两个声道对信号)。
其中,DRA+V2目标解码器直接使用DRA+V2声道解码器对目标码流进行解码。DRA+V2元数据解码器对元数据码流使用Huffman解码。
一个更具体的实例是对5.1.4(中间层为5.1声道和4个上层声道)+4目标音频在384kbps总码率下的解码情况,并在标准配置的5.1.4扬声器环境下播放,解码过程如下:
(1)对3D码流进行拆分,得到5.1.4声道码流、4个目标音频码流和元数据码流;
(2)对元数据码率进行Huffman解码得到原始的元数据信息;
(3)对5(L C R LS RS).1(LFE).4(TopL,TopR,TopLS,TopRS)中的LFE进行DRA解码,并2倍上采样,输出LFE声道PCM信号;
(4)对5(L C R LS RS).1(LFE).4(TopL,TopR,TopLS,TopRS)中的C声道进行DRA+V2独立声道解码得到C声道PCM信号;
(5)对5(L C R LS RS).1(LFE).4(TopL,TopR,TopLS,TopRS)中的L、R、LS、RS和TopL、TopR、TopLS、TopRS进行DRA+V2声道对解码,即对四个声道对L&R、LS&RS、TopL&TopR、TopLS&TopRS解码,得到L、R、LS、RS、TopL、TopR、TopLS和TopRS声道的PCM信号;
(6)分别对4个目标音频码流进行独立声道DRA+V2解码,得到4个目标音频PCM信号;
(7)在DRA混合/渲染器中,将4个目标信号根据其相关的元数据信息采用VBAP算法渲染到5.1.4声道,然后将4个目标渲染的信号混到原来的5.1.4声道中;
(8)最后将5.1.4声道音频PCM信号馈送到标准的5.1.4扬声器系统播放。
其中,若要通过耳机播放,则可以在步骤(7)后对5.1.4声道(根据每个声道的空间位置)使用HRTF(或者带房间混响BRIR,Binaural Room Impulse Response)进行处理得到双耳信号,通过耳机播放;另外还可以在步骤(6)之后分别将5.1.4声道和目标进行HRTF(或BRIR)处理,得到双耳信号,通过而耳机播放。
本发明实施例将输入的3D音频码流拆分为声道码流、目标码流和元数据码流,通过声道核心解码器对声道码流进行解码,通过目标解码器对目标码流进行解码,通过元数据解码器对元数据码流进行解码,对声道信号、目标信号和元数据进行渲染处理,实现3D音频码流的高效解码。
实施例三
本发明实施例提供了一种3D音频编码装置,能够实现上述实施例一的3D音频编码方法的所有流程,参见图28,所述3D音频编码装置包括:
第一输入模块301,用于输入声道信号、目标信号和元数据;
声道核心编码器302,用于采用声道核心编码算法对所述声道信号进行编码,获得声道码流;
目标编码器303,用于对所述目标信号进行编码,获得目标码流;
元数据编码器304,用于对所述元数据进行编码,获得元数据码流;以及,
输出模块305,用于按照3D音频数据结构将所述声道码流、所述目标码流和所述元数据码流进行帧格式打包,输出所述3D音频码流;
其中,所述3D音频码流的数据结构包括依次排列的帧头信息、声道编码信息、目标编码信息以及元数据编码信息;或者,所述3D音频码流的数据结构包括依次排列的帧头信息、声道编码信息、与声道信号相关的元数据编码信息、目标编码信息以及与目标信号相关的元数据编码信息;
所述声道码流的数据结构包括依次排列的帧头信息、中间层声道编码信息、中间层声道BWE信息的控制信息、中间层声道BWE信息、其他层声道编码信息、其他层声道BWE信息的控制信息以及其他层声道BWE信息;或者,所述声道码流的数据结构包括依次排列的帧头信息、声道编码信息、声道BWE信息的控制信息以及声道BWE信息;
所述目标码流的数据结构包括依次排列的帧头信息、目标编码信息、目标BWE信息的控制信息以及目标BWE信息;
所述元数据码流的数据结构包括依次排列的元数据控制信息以及元数据编码信息。
本发明实施例对于输入的声道信号、目标信号和元数据,采用声道核心编码器对声道信号进行编码,采用目标编码器对目标信号进行编码,采用元数据编码器对元数据进行编码,并将编码后的声道码流、目标码流和元数据码流组合成3D音频码流,实现3D音频码流的高效编码。
实施例四
本发明实施例提供了一种3D音频解码装置,能够实现上述实施例二的3D音频解码方法的所有流程,参见图29,所述3D音频解码装置包括:
第二输入模块401,用于输入3D音频码流,并将所述3D音频码流拆分为声道码流、目标码流和元数据码流;
声道核心解码器402,用于对所述声道码流进行解码,获得声道信号;
目标解码器403,用于对所述目标码流进行解码,获得目标信号;
元数据解码器404,用于对所述元数据码流进行解码,获得元数据;以及,
渲染器405,用于根据所述元数据对所述声道信号和所述目标信号进行渲染,根据用户交互信息将渲染后的信号输出至相应终端进行播放;
其中,所述3D音频码流的数据结构包括依次排列的帧头信息、声道编码信息、目标编码信息以及元数据编码信息;或者,所述3D音频码流的数据结构包括依次排列的帧头信息、声道编码信息、与声道信号相关的元数据编码信息、目标编码信息以及与目标信号相关的元数据编码信息;
所述声道码流的数据结构包括依次排列的帧头信息、中间层声道编码信息、中间层声道BWE信息的控制信息、中间层声道BWE信息、其他层声道编码信息、其他层声道BWE信息的控制信息以及其他层声道BWE信息;或者,所述声道码流的数据结构包括依次排列的帧头信息、声道编码信息、声道BWE信息的控制信息以及声道BWE信息;
所述目标码流的数据结构包括依次排列的帧头信息、目标编码信息、目标BWE信息的控制信息以及目标BWE信息;
所述元数据码流的数据结构包括依次排列的元数据控制信息以及元数据编码信息。
本发明实施例将输入的3D音频码流拆分为声道码流、目标码流和元数据码流,通过声道核心解码器对声道码流进行解码,通过目标解码器对目标码流进行解码,通过元数据解码器对元数据码流进行解码,对声道信号、目标信号和元数据进行渲染处理,实现3D音频码流的高效解码。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种3D音频编码方法,其特征在于,包括如下步骤:
S110、输入声道信号、目标信号和元数据;
S120、通过声道核心编码器对所述声道信号进行编码,获得声道码流;
S130、通过目标编码器对所述目标信号进行编码,获得目标码流;
S140、通过元数据编码器对所述元数据进行编码,获得元数据码流;
S150、按照3D音频数据结构将所述声道码流、所述目标码流和所述元数据码流进行帧格式打包,输出3D音频码流;
其中,所述3D音频数据结构包括依次排列的帧头信息、声道编码信息、目标编码信息以及元数据编码信息;或者,所述3D音频数据结构包括依次排列的帧头信息、声道编码信息、与声道信号相关的元数据编码信息、目标编码信息以及与目标信号相关的元数据编码信息;
所述声道码流的数据结构包括依次排列的帧头信息、中间层声道编码信息、中间层声道BWE信息的控制信息、中间层声道BWE信息、其他层声道编码信息、其他层声道BWE信息的控制信息以及其他层声道BWE信息;或者,所述声道码流的数据结构包括依次排列的帧头信息、声道编码信息、声道BWE信息的控制信息以及声道BWE信息;
所述目标码流的数据结构包括依次排列的帧头信息、目标编码信息、目标BWE信息的控制信息以及目标BWE信息;
所述元数据码流的数据结构包括依次排列的元数据控制信息以及元数据编码信息;
其中,所述步骤S120具体包括:
S121、将输入的声道信号划分为LFE声道信号、独立声道信号和声道对信号;
S122、对所述LFE声道信号进行2倍下采样,并采用感觉音频编码进行压缩,获得LFE声道码流;
S123、对所述独立声道信号进行编码,获得独立声道码流;
S124、对所述声道对信号进行编码,获得声道对码流;
S125、按照声道编码数据结构对所述LFE声道码流、所述独立声道码流和所述声道对码流进行帧格式打包,输出所述声道码流;
所述步骤S130具体包括:
检测输入的目标信号是否需要参考相关元数据来进行编码;
若是,则当相关元数据指示本帧目标信号有信号时,采用声道核心编码算法将所述目标信号作为所述声道信号中的独立声道信号进行编码,获得所述目标码流;
若否,则采用声道核心编码算法将所述目标信号作为所述声道信号中的独立声道信号进行编码,获得所述目标码流;
所述步骤S140具体包括:
当输入的元数据为浮点表示时,根据元数据部分的编码码率要求进行不同精度的量化,并对量化的整数参数进行熵编码,获得所述元数据码流。
2.如权利要求1所述的3D音频编码方法,其特征在于,所述步骤S123具体包括:
对所述独立声道信号中的低频部分进行波形编码,对独立声道信号中的高频部分进行波形参数混合编码,获得独立声道码流;
所述步骤S124具体包括:
对所述声道对信号中的低频部分进行波形编码,对声道对信号中的高频部分进行波形参数混合编码,获得声道对码流。
3.如权利要求1所述的3D音频编码方法,其特征在于,所述步骤S123具体包括:
S131、获取所述独立声道信号的编码码率要求,若编码码率要求高,则执行步骤S132,若编码码率要求低或中等,则执行步骤S133;
S132、对所述独立声道信号进行感觉音频编码,获得所述独立声道码流;
S133、对所述独立声道信号中的高频部分进行带宽扩展编码,获得带宽扩展参数和高频编码信息;对所述独立声道信号中的低频部分进行感觉音频编码,获得低频编码信息;将所述带宽扩展参数、高频编码信息和所述低频编码信息作为所述独立声道码流;
所述步骤S124具体包括:
S141、判断所述声道对信号是否与其他声道对信号具有相关性;若是,则对具有相关性的声道对信号进行去相关处理,并执行步骤S142,若否,则执行步骤S142;
S142、获取所述声道对信号的编码码率要求,若编码码率要求低,则执行步骤S143,若编码码率要求中等,则执行步骤S144,若编码码率要求高,则执行步骤S145;
S143、对所述声道对信号进行参数立体声编码,获得立体声参数和下混的单声道信号;对所述单声道信号中的高频部分进行带宽扩展编码,获得对带宽扩展参数和高频编码信息;对所述单声道信号中的低频部分进行感觉音频编码,获得低频编码信息;将所述立体声参数、所述带宽扩展参数、所述高频编码信息和所述低频编码信息作为所述声道对码流;
S144、对所述声道对信号中的高频部分进行带宽扩展编码,获得带宽扩展参数和高频编码信息;对所述声道对信号中的低频部分进行感觉音频编码,获得低频编码信息;将所述带宽扩展参数、高频编码信息和所述低频编码信息作为所述声道对码流;
S145、对所述声道对信号进行感觉音频编码,获得所述声道对码流。
4.如权利要求3所述的3D音频编码方法,其特征在于,所述带宽扩展编码中高频弦信号的生成方法包括:
对输入的单声道音频信号利用复正交镜像滤波器组进行复正交分析滤波,获得多个等带宽的子带信号;
对获得的每个子带信号进行复数线性预测分析滤波,得到各子带的残差信号,求得预测系数,并依次完成所有高频子带残差信号与低频子带残差信号的对应关系,将子带残差拷贝参数编码并输出;
量化编码预测系数并输出。
5.如权利要求3或4所述的3D音频编码方法,其特征在于,所述带宽扩展编码中高频细节的产生方法包括:
确定输入的单声道音频信号中解码时所要复制的低频部分的带宽和重建高频部分的带宽,若重建高频部分的带宽大于所要复制的低频部分的带宽,或者所述高频部分具有弦信号,则将重建高频部分的带宽与所要复制的低频部分的带宽的比值作为拉伸因子并输出;
根据输入的单声道音频信号的瞬态特性进行时频栅格划分,计算每个栅格的谱包络,并从预设的模板形状库中找到与所述谱包络最相似的形状,将所述形状在所述模板形状库中的标号编码并输出。
6.一种3D音频解码方法,其特征在于,包括如下步骤:
S210、输入3D音频码流,并将所述3D音频码流拆分为声道码流、目标码流和元数据码流;
S220、通过声道核心解码器对所述声道码流进行解码,获得声道信号;
S230、通过目标解码器对所述目标码流进行解码,获得目标信号;
S240、通过元数据解码器对所述元数据码流进行解码,获得元数据;
S250、根据所述元数据对所述声道信号和所述目标信号进行渲染,根据用户交互信息将渲染后的信号输出至相应终端进行播放;
其中,所述3D音频码流的数据结构包括依次排列的帧头信息、声道编码信息、目标编码信息以及元数据编码信息;或者,所述3D音频码流的数据结构包括依次排列的帧头信息、声道编码信息、与声道信号相关的元数据编码信息、目标编码信息以及与目标信号相关的元数据编码信息;
所述声道码流的数据结构包括依次排列的帧头信息、中间层声道编码信息、中间层声道BWE信息的控制信息、中间层声道BWE信息、其他层声道编码信息、其他层声道BWE信息的控制信息以及其他层声道BWE信息;或者,所述声道码流的数据结构包括依次排列的帧头信息、声道编码信息、声道BWE信息的控制信息以及声道BWE信息;
所述目标码流的数据结构包括依次排列的帧头信息、目标编码信息、目标BWE信息的控制信息以及目标BWE信息;
所述元数据码流的数据结构包括依次排列的元数据控制信息以及元数据编码信息;
其中,所述步骤S220具体包括:
S221、将所述声道码流拆分为LFE声道码流、独立声道码流和声道对码流;
S222、对所述LFE声道码流进行感觉音频解码,并进行2倍上采样,获得LFE声道信号;
S223、对所述独立声道码流进行解码,获得独立声道信号;
S224、对所述声道对码流进行解码,获得声道对信号;
S225、将所述LFE声道信号、所述独立声道信号和所述声道对信号作为所述声道信号输出;
所述步骤S230具体包括:
检测所述目标码流是否需要参考相关元数据进行解码;
若是,则当相关元数据指示有音频时,将所述目标码流作为所述声道码流中的独立声道码流进行解码,获得所述目标信号;
若否,则将所述目标码流作为所述声道码流中的独立声道码流进行解码,获得所述目标信号。
7.如权利要求6所述的3D音频解码方法,其特征在于,所述步骤S223具体包括:
对所述独立声道码流中的低频码流进行波形解码,对所述独立声道码流中的高频码流进行波形参数解码,获得独立声道信号;
所述步骤S224具体包括:
对所述声道对码流中的低频码流进行波形解码,对所述声道对码流中的高频码流进行波形参数解码,获得声道对信号。
8.如权利要求6所述的3D音频解码方法,其特征在于,所述步骤S223具体包括:
S231、检测所述独立声道码流中是否具有带宽扩展参数,若是,则执行步骤S232,若否,则执行步骤S233;
S232、对所述独立声道码流的低频码流进行感觉音频解码,获得低频信号;根据所述带宽扩展参数对所述独立声道码流的高频码流进行带宽扩展解码,获得高频信号;将所述低频信号和所述高频信号作为所述独立声道信号;
S233、对所述独立声道码流进行感觉音频解码,获得所述独立声道信号;
所述步骤S224具体包括:
S241、检测所述声道对码流中是否具有立体声参数和带宽扩展参数;若具有立体声参数和带宽扩展参数,则执行步骤S242,若只具有带宽扩展参数,则执行步骤S243,若不具有立体声参数和带宽扩展参数,则执行步骤S244;
S242、对所述声道对码流的低频码流进行感觉音频解码,获得低频信号;根据所述带宽扩展参数对所述声道对码流的高频码流进行带宽扩展解码,获得高频信号;根据所述立体声参数对所述高频信号和所述低频信号进行参数立体声解码,获得全频带音频信号;
S243、对所述声道对码流的低频码流进行感觉音频解码,获得低频信号;根据所述带宽扩展参数对所述声道对码流的高频码流进行带宽扩展解码,获得高频信号;将所述低频信号和所述高频信号作为全频带音频信号;
S244、对所述声道对码流进行感觉音频解码,获得全频带音频信号;
S245、检测所述声道核心解码器中的自适应多声道解码功能是否开启;若是,则对所述全频带音频信号进行自适应多声道解码,获得所述声道对信号,若否,则将所述全频带音频信号作为所述声道对信号。
9.如权利要求8所述的3D音频解码方法,其特征在于,所述带宽扩展解码中高频弦信号的生成方法包括:
对解码得到的低频信号进行复正交滤波器组分析滤波,获得低频子带信号;
对所述低频子带信号进行复线性预测分析滤波,获得低频子带残差信号;
解码并逆量化预测系数;
利用解码得到的子带残差拷贝参数,将低频子带残差信号复制到高频子带残差信号,然后依据预测系数进行高频子带的线性预测合成滤波,得到高频子带细节信号;所述预测系数和所述子带残差拷贝参数是带宽扩展编码中高频弦信号生成时输出的参数;
通过高频包络调整高频子带细节信号,输出高频子带信号。
10.如权利要求8或9所述的3D音频解码方法,其特征在于,所述带宽扩展解码中高频细节的生成方法包括:
根据拉伸因子对所要拷贝的低频部分进行拷贝和拉伸,获得高频细节频谱系数;
从预设的模板形状库中找到形状编号所对应的谱包络模板,通过所述谱包络模板对所述高频细节频谱系数进行包络调整,获得高频细节信号;所述拉伸因子和所述形状编号是带宽扩展编码中高频细节生成时输出的参数。
11.一种实现如权利要求1至5任一项所述的3D音频编码方法的3D音频编码装置,其特征在于,所述3D音频编码装置包括:
第一输入模块,用于输入声道信号、目标信号和元数据;
声道核心编码器,用于采用声道核心编码算法对所述声道信号进行编码,获得声道码流;
目标编码器,用于对所述目标信号进行编码,获得目标码流;
元数据编码器,用于对所述元数据进行编码,获得元数据码流;以及,
输出模块,用于按照3D音频数据结构将所述声道码流、所述目标码流和所述元数据码流进行帧格式打包,输出所述3D音频码流;
其中,所述3D音频数据结构包括依次排列的帧头信息、声道编码信息、目标编码信息以及元数据编码信息;或者,所述3D音频数据结构包括依次排列的帧头信息、声道编码信息、与声道信号相关的元数据编码信息、目标编码信息以及与目标信号相关的元数据编码信息;
所述声道码流的数据结构包括依次排列的帧头信息、中间层声道编码信息、中间层声道BWE信息的控制信息、中间层声道BWE信息、其他层声道编码信息、其他层声道BWE信息的控制信息以及其他层声道BWE信息;或者,所述声道码流的数据结构包括依次排列的帧头信息、声道编码信息、声道BWE信息的控制信息以及声道BWE信息;
所述目标码流的数据结构包括依次排列的帧头信息、目标编码信息、目标BWE信息的控制信息以及目标BWE信息;
所述元数据码流的数据结构包括依次排列的元数据控制信息以及元数据编码信息;
其中,所述声道核心编码器进一步用于:将输入的声道信号划分为LFE声道信号、独立声道信号和声道对信号;对所述LFE声道信号进行2倍下采样,并采用感觉音频编码进行压缩,获得LFE声道码流;对所述独立声道信号进行编码,获得独立声道码流;对所述声道对信号进行编码,获得声道对码流;按照声道编码数据结构对所述LFE声道码流、所述独立声道码流和所述声道对码流进行帧格式打包,输出所述声道码流;
所述目标编码器进一步用于:检测输入的目标信号是否需要参考相关元数据来进行编码;若是,则当相关元数据指示本帧目标信号有信号时,采用声道核心编码算法将所述目标信号作为所述声道信号中的独立声道信号进行编码,获得所述目标码流;若否,则采用声道核心编码算法将所述目标信号作为所述声道信号中的独立声道信号进行编码,获得所述目标码流;
所述元数据编码器进一步用于:当输入的元数据为浮点表示时,根据元数据部分的编码码率要求进行不同精度的量化,并对量化的整数参数进行熵编码,获得所述元数据码流。
12.一种实现如权利要求6至10任一项所述的3D音频解码方法的3D音频解码装置,其特征在于,所述3D音频解码装置包括:
第二输入模块,用于输入3D音频码流,并将所述3D音频码流拆分为声道码流、目标码流和元数据码流;
声道核心解码器,用于对所述声道码流进行解码,获得声道信号;
目标解码器,用于对所述目标码流进行解码,获得目标信号;
元数据解码器,用于对所述元数据码流进行解码,获得元数据;以及,
渲染器,用于根据所述元数据对所述声道信号和所述目标信号进行渲染,根据用户交互信息将渲染后的信号输出至相应终端进行播放;
其中,所述3D音频码流的数据结构包括依次排列的帧头信息、声道编码信息、目标编码信息以及元数据编码信息;或者,所述3D音频码流的数据结构包括依次排列的帧头信息、声道编码信息、与声道信号相关的元数据编码信息、目标编码信息以及与目标信号相关的元数据编码信息;
所述声道码流的数据结构包括依次排列的帧头信息、中间层声道编码信息、中间层声道BWE信息的控制信息、中间层声道BWE信息、其他层声道编码信息、其他层声道BWE信息的控制信息以及其他层声道BWE信息;或者,所述声道码流的数据结构包括依次排列的帧头信息、声道编码信息、声道BWE信息的控制信息以及声道BWE信息;
所述目标码流的数据结构包括依次排列的帧头信息、目标编码信息、目标BWE信息的控制信息以及目标BWE信息;
所述元数据码流的数据结构包括依次排列的元数据控制信息以及元数据编码信息;
其中,所述声道核心解码器进一步用于:将所述声道码流拆分为LFE声道码流、独立声道码流和声道对码流;对所述LFE声道码流进行感觉音频解码,并进行2倍上采样,获得LFE声道信号;对所述独立声道码流进行解码,获得独立声道信号;对所述声道对码流进行解码,获得声道对信号;将所述LFE声道信号、所述独立声道信号和所述声道对信号作为所述声道信号输出;
所述目标解码器进一步用于:检测所述目标码流是否需要参考相关元数据进行解码;若是,则当相关元数据指示有音频时,将所述目标码流作为所述声道码流中的独立声道码流进行解码,获得所述目标信号;若否,则将所述目标码流作为所述声道码流中的独立声道码流进行解码,获得所述目标信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811395574.8A CN109448741B (zh) | 2018-11-22 | 2018-11-22 | 一种3d音频编码、解码方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811395574.8A CN109448741B (zh) | 2018-11-22 | 2018-11-22 | 一种3d音频编码、解码方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109448741A CN109448741A (zh) | 2019-03-08 |
CN109448741B true CN109448741B (zh) | 2021-05-11 |
Family
ID=65553431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811395574.8A Active CN109448741B (zh) | 2018-11-22 | 2018-11-22 | 一种3d音频编码、解码方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109448741B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113192521B (zh) * | 2020-01-13 | 2024-07-05 | 华为技术有限公司 | 一种音频编解码方法和音频编解码设备 |
CN111768793B (zh) * | 2020-07-11 | 2023-09-01 | 北京百瑞互联技术有限公司 | 一种lc3音频编码器编码优化方法、系统、存储介质 |
CA3187342A1 (en) * | 2020-07-30 | 2022-02-03 | Guillaume Fuchs | Apparatus, method and computer program for encoding an audio signal or for decoding an encoded audio scene |
CN113411663B (zh) * | 2021-04-30 | 2023-02-21 | 成都东方盛行电子有限责任公司 | 一种用于非编工程中的音乐节拍提取方法 |
CN115497485B (zh) * | 2021-06-18 | 2024-10-18 | 华为技术有限公司 | 三维音频信号编码方法、装置、编码器和系统 |
WO2023077284A1 (zh) * | 2021-11-02 | 2023-05-11 | 北京小米移动软件有限公司 | 一种信号编解码方法、装置、用户设备、网络侧设备及存储介质 |
CN117831546A (zh) * | 2022-09-29 | 2024-04-05 | 抖音视界有限公司 | 编码、解码方法、编码器、解码器、电子设备和存储介质 |
WO2024168556A1 (zh) * | 2023-02-14 | 2024-08-22 | 北京小米移动软件有限公司 | 音频处理方法、装置 |
CN116830193A (zh) * | 2023-04-11 | 2023-09-29 | 北京小米移动软件有限公司 | 音频码流信号处理方法、装置、电子设备和存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100546233C (zh) * | 2003-04-30 | 2009-09-30 | 诺基亚公司 | 用于支持多声道音频扩展的方法和设备 |
KR100636145B1 (ko) * | 2004-06-04 | 2006-10-18 | 삼성전자주식회사 | 확장된 고해상도 오디오 신호 부호화 및 복호화 장치 |
CN101202042A (zh) * | 2006-12-14 | 2008-06-18 | 中兴通讯股份有限公司 | 可扩展的数字音频编码框架及其扩展方法 |
SG191771A1 (en) * | 2010-12-29 | 2013-08-30 | Samsung Electronics Co Ltd | Apparatus and method for encoding/decoding for high-frequency bandwidth extension |
KR101742136B1 (ko) * | 2011-03-18 | 2017-05-31 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 콘텐츠를 표현하는 비트스트림의 프레임들 내의 프레임 요소 배치 |
EP2830045A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
KR102243395B1 (ko) * | 2013-09-05 | 2021-04-22 | 한국전자통신연구원 | 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치 |
CN105280190B (zh) * | 2015-09-16 | 2018-11-23 | 深圳广晟信源技术有限公司 | 带宽扩展编码和解码方法以及装置 |
-
2018
- 2018-11-22 CN CN201811395574.8A patent/CN109448741B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109448741A (zh) | 2019-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109448741B (zh) | 一种3d音频编码、解码方法及装置 | |
JP7228607B2 (ja) | 全帯域ギャップ充填を備えた周波数ドメインプロセッサと時間ドメインプロセッサとを使用するオーディオ符号器及び復号器 | |
KR102083200B1 (ko) | 스펙트럼-도메인 리샘플링을 사용하여 멀티-채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법 | |
US9361896B2 (en) | Temporal and spatial shaping of multi-channel audio signal | |
CN103474077B (zh) | 音频信号译码器、提供上混信号表示型态的方法 | |
CN101151658B (zh) | 多声道音频编码和解码方法、编码器和解码器 | |
CN109509478B (zh) | 音频处理装置 | |
TWI550598B (zh) | 使用聯合編碼殘餘信號之音訊編碼器、音訊解碼器、方法及電腦程式 | |
JP7261807B2 (ja) | ハイブリッドエンコーダ/デコーダ空間解析を使用する音響シーンエンコーダ、音響シーンデコーダおよびその方法 | |
CN105378832B (zh) | 解码器、编码器、解码方法、编码方法和存储介质 | |
MX2007009887A (es) | Esquema de codificador/descodificador de multicanal casi transparente o transparente. | |
CN105766002A (zh) | 用于对区域的声场数据进行压缩和解压缩的方法和装置 | |
KR20150073180A (ko) | 후방 호환성 다중 해상도 공간적 오디오 오브젝트 코딩을 위한 인코더, 디코더 및 방법 | |
RU2804032C1 (ru) | Устройство обработки звуковых сигналов для кодирования стереофонического сигнала в сигнал битового потока и способ декодирования сигнала битового потока в стереофонический сигнал, осуществляемый с использованием устройства обработки звуковых сигналов | |
CN105336334B (zh) | 多声道声音信号编码方法、解码方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |