CN101582262A - 一种空间音频参数帧间预测编解码方法 - Google Patents

一种空间音频参数帧间预测编解码方法 Download PDF

Info

Publication number
CN101582262A
CN101582262A CNA2009100627322A CN200910062732A CN101582262A CN 101582262 A CN101582262 A CN 101582262A CN A2009100627322 A CNA2009100627322 A CN A2009100627322A CN 200910062732 A CN200910062732 A CN 200910062732A CN 101582262 A CN101582262 A CN 101582262A
Authority
CN
China
Prior art keywords
frame
spatial audio
audio parameter
subband
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2009100627322A
Other languages
English (en)
Other versions
CN101582262B (zh
Inventor
胡瑞敏
周成
杭波
王晓晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN2009100627322A priority Critical patent/CN101582262B/zh
Publication of CN101582262A publication Critical patent/CN101582262A/zh
Application granted granted Critical
Publication of CN101582262B publication Critical patent/CN101582262B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了基于贝叶斯梯度模型的空间音频参数帧间预测技术方案。编码过程:对输入的多声道音频信号的帧信号分子带提取空间音频参数;根据空间音频参数帧间差值的统计分布特性和前一帧或多帧的空间音频参数对当前帧的空间音频参数作出预测,得到当前帧的空间音频参数预测系数和空间音频参数预测残差;对当前帧的空间音频参数预测残差进行编码得到编码码流。解码过程:从编码码流中解码得到帧信号的空间音频参数预测残差;用之前重建得到的一帧或多帧空间音频参数及当前帧的空间音频参数预测残差,得到空间音频参数预测系数,然后重建得到当前帧的空间音频参数。本发明考虑了空间音频参数的时域相关性,可有效降低编码码率。

Description

一种空间音频参数帧间预测编解码方法
技术领域
本发明属于音频技术领域,特别是涉及一种空间音频参数帧间预测编解码方法。
背景技术
空间音频编码的理论基础是人耳空间听觉的生理声学和心理声学。1983年Blauert等对人耳的单声源和多声源空间定位给出了数学物理模型及实验分析,定义了耳间时间差ITD、耳间强度差ILD以及耳间相关度IC等空间线索参数。其中,ITD和ILD分别表示同一声源发出的声音到达左、右耳的时间差和强度差,通过这两个参数可以定位声源的位置,IC是左、右耳入声相似度的测度,可以确定声像的宽度。2001年Faller和Baumgarte等提出双耳线索编码方法(BCC,Binaural Cue Coding),将立体声信号下混为单声道信号交由传统编码器编码,同时对由输入信号中提取的空间音频参数单独编码,解码时根据单声道信号和空间音频参数共同重建立体声信号。
基于音频对象在空间的移动是一个连续过程,表征音频对象空间方位的音频空间音频参数在时域上存在相关性。针对音频空间音频参数的时域相关特性,当前主流空间音频编码算法EAAC+采用了一种差分哈夫曼编码算法,对本帧和前一帧的空间音频参数差值作哈夫曼编码,目的是为了缩小空间音频参数编码数值动态范围,降低空间音频编码码率。这种差分编码处理的效果实际上等同于将前一帧的空间音频参数作为当前帧的预测值,然后对误差进行编码。这种算法仅仅只是考虑了相邻两帧之间的相关性,忽略了相邻几帧之间的相关性可能更强,从利用空间音频参数的短时平稳性的角度考虑,有提升的空间。
发明内容
本发明提出基于贝叶斯梯度模型的空间音频参数帧间预测编解码方法来消除编码冗余,利用前一帧或多帧来预测下一帧信号,然后对实际值和预测值的差(即空间音频参数预测误差)进行编解码。
本发明提供的空间音频参数帧间预测编码方法包含以下步骤:
步骤1.1,对输入的多声道音频信号的帧信号分子带提取空间音频参数;
步骤1.2,根据空间音频参数帧间差值的统计分布特性和前一帧或多帧的空间音频参数对当前帧的空间音频参数作出预测,得到当前帧的空间音频参数预测系数和空间音频参数预测残差,具体实现过程如下,
(1)设每帧信号分K个子带,第m帧的K个子带的空间音频参数记为Sm1,Sm2,…SmK,K≥2;设第m帧之前第M帧第K个子带的空间音频参数记为S(m-M)K,第m帧前M帧的所有子带的空间音频参数则为
S(m-M)1,S(m-M)2,…S(m-M)K,S(m-M+1)1,S(m-M+1)2,…S(m-M+1)K,…S(m-1)1,S(m-1)2,…S(m-1)K,M≥1;
设第m帧的第i个子带的空间音频参数帧间差值 D i m , m + 1 = S ( m + 1 ) i - S mi , 设空间音频参数的取值范围为-f到f,则Di m,m+1可能的取值范围为-2f到2f,这4f+1个差值的概率分布为P{(Di m,m+1)j},j=1,2...4f+1;
(2)预测方式如下,
设事件Bmi j对应于第m帧的第i个子带的空间音频参数从-f到f一共2f+1种取值,则Bmi j,j=1,2...2f+1互斥且构成一个完全事件,P(Bmi j),j=1,2...2f+1为事件Bmi j发生的概率,在无任何先验知识的情况下P(Bmi j)的初始值为 P ( B 1 i 1 ) = P ( B 1 i 2 ) . . . = P ( B 1 i 2 f + 1 ) = 1 / 2 f + 1 ;
设定事件A为伴随事件Bmi j,j=1,2...2f+1发生而出现,由第m帧各子带的空间音频参数取值得到第m+1帧各子带的空间音频参数取值可能,则由第i个子带m帧空间音频参数取值Smi得到第m+1帧各空间音频参数取值概率为 P ( A / B mi j ) = P { ( D i m , m + 1 ) j - S mi + f } , j = 1,2 . . . 2 f + 1 ;
在已知事件Bmi j的概率P(Bmi j)和事件Bmi j发生条件下事件A的概率P(A/Bmi j)的情况下,运用贝叶斯定理得到在事件A发生条件下第m+1帧事件B(m+1)i j的发生概率为 P ( B ( m + 1 ) i j / A ) = P ( B mi j ) P ( A / B mi j ) Σ n = 1 2 f + 1 P ( B mi n ) P ( A / B mi n ) , j = 1,2 . . . 2 f + 1 ;
预测时初始化 B ( m - K ) i j = 1 2 f + 1 , j = 1,2 . . . 2 f + 1 , 然后将第m帧之前M帧的所有子带的空间音频参数
S(m-M)1,S(m-M)2,…S(m-M)K,S(m-M+1)1,S(m-M+1)2,…S(m-M+1)K,…S(m-1)1,S(m-1)2,…S(m-1)K依次代入 P ( A / B qi j ) = P { ( D i q , q + 1 ) j - S qi + f } , j = 1,2 . . . 2 f + 1 ,
P ( B ( q + 1 ) i j / A ) P ( B qi j ) P ( A / B qi j ) Σ n = 1 2 f + 1 P ( B qi n ) P ( A / B qi n ) , j = 1,2 . . . 2 f + 1
其中m-K≤q≤m-1;
最终得到事件A发生条件下Bmi j的发生概率P(Bmi j/A),j=1,2...2f+1,以P(Bmi j/A),j=1,2...2f+1最大的值作为对第m帧的第i个子带的空间音频参数预测系数Smi^;
设当前帧为第m帧,根据第m帧的第i子带的空间音频参数Smi和空间音频参数预测系数Smi^,计算当前帧的第i子带的空间音频参数预测残差 δ mi = S mi - S mi ^ , i取1~K;
步骤1.3,对当前帧的空间音频参数预测残差进行编码得到编码码流。
本发明还提供了相应空间音频参数帧间预测解码方法,包含以下步骤:
步骤2.1,从编码码流中解码得到帧信号的空间音频参数预测残差;
步骤2.2,用之前重建得到的一帧或多帧空间音频参数及步骤2.1所得当前帧的空间音频参数预测残差,重建得到当前帧的空间音频参数,具体实现过程如下,
设当前帧为第m帧,第m帧的空间音频参数预测残差记为δm1,δm2,....δmK,当前帧的K个子带的空间音频参数记为Sm1,Sm2,…SmK,之前解码得到的M帧K个子带的空间音频参数记为
S(m-M)1,S(m-M)2,…S(m-M)K,S(m-M+1)1,S(m-M+1)2,…S(m-M+1)K,…S(m-1)1,S(m-1)2,…S(m-1)K,K≥2,M≥1;
根据空间音频参数帧间差值的统计分布特性和之前M帧的第i子带的空间音频参数,初始化事件 B ( m - K ) i j = 1 2 f + 1 , j = 1,2 . . . 2 f + 1 , 然后将当前帧之前M帧的K个子带的空间音频参数
S(m-M)1,S(m-M)2,…S(m-M)K,S(m-M+1)1,S(m-M+1)2,…S(m-M+1)K,…S(m-1)1,S(m-1)2,…S(m-1)K依次代入 P ( A / B qi j ) = P { ( D i q , q + 1 ) j - S qi + f } , j = 1,2 . . . 2 f + 1 ,
P ( B ( q + 1 ) i j / A ) P ( B qi j ) P ( A / B qi j ) Σ n = 1 2 f + 1 P ( B qi n ) P ( A / B qi n ) , j = 1,2 . . . 2 f + 1
其中m-K≤q≤m-1;
最终得到事件A发生条件下Bmi j的发生概率P(Bmi j/A),j=1,2...2f+1,以P(Bmi j/A),j=1,2...2f+1最大的值作为对当前帧的第i子带的空间音频参数预测系数Smi^,i取1~K;
根据当前帧的第i子带的空间音频参数预测残差δmi和空间音频参数预测系数Smi^,得到当前帧的第i子带的空间音频参数 S mi = S mi ^ + δ mi .
本发明提供了一种基于贝叶斯梯度模型的空间音频参数帧间预测方案,通过在编码端对空间音频参数的预测,将预测残差放入编码码流;解码端用预测残差来重建空间音频参数。本发明利用了空间音频参数的时域相关性以降低编码码率;同时贝叶斯预测方式能够根据条件的变化自适应调整预测系数,因而其预测误差更小。
附图说明
图1本发明的空间音频参数预测原理图;
图2本发明的空间音频参数重建原理图;
图3本发明实施例的装置结构图;
图4本发明实施例的空间音频参数帧间差值的统计分布图。
具体实施方式
本发明提供的基于贝叶斯梯度模型的空间音频参数帧间预测技术方案实现构架如下,
参见图1,编码过程:
步骤1.1,对输入的多声道音频信号的帧信号分子带提取空间音频参数;
步骤1.2,根据空间音频参数帧间差值的统计分布特性和前一帧或多帧的空间音频参数对当前帧的空间音频参数作出预测,得到当前帧的空间音频参数预测系数和空间音频参数预测残差;
步骤1.3,对当前帧的空间音频参数预测残差进行编码得到编码码流。
参见图2,解码过程:
步骤2.1,从编码码流中解码得到帧信号的空间音频参数预测残差;
步骤2.2,用之前重建得到的一帧或多帧空间音频参数及步骤2.1所得当前帧的空间音频参数预测残差,得到空间音频参数预测系数,然后重建得到当前帧的空间音频参数。
编码和解码中的空间音频参数预测,都运用贝叶斯定理实现,以达到利用空间音频参数的时域相关性的效果。
以下提供本发明技术方案详细说明,以便实施参考。
步骤1.1具体实施时,可以首先将当前帧信号由时域变换到频域,然后将所得的频域上的当前帧信号划分为K个子带并计算每个子带的空间音频参数,由此得出当前帧的K个子带的空间音频参数。
该模块所提取的空间音频参数可以是ILD、ITD、IC等。划分子带的数目可根据需要设定为一个或多个,建议采用现有音频技术中的Bark带划分规则分为24个子带。
步骤1.2具体实施时,根据空间音频参数帧间差值的统计分布特性(参见图4)和前一帧或多帧的空间音频参数对当前帧的空间音频参数作出预测。得到当前帧的空间音频参数预测系数;再通过对比预测结果与步骤1.1所得实际的当前帧的空间音频参数,得到对当前帧的空间音频参数预测残差。
所述得到当前帧的空间音频参数预测系数和空间音频参数预测残差,具体实现过程如下,
设当前帧的K个子带的空间音频参数记为Sm1,Sm2,…SmK,之前第M帧的第K个子带的空间音频参数记为S(m-M)K,其中K≥2,M≥1;M=1时就是只取前一帧参与预测的情况,根据实验结果,建议实施时M取3~5,因为取3~5帧预测时效果较好。
那么第m帧前M帧的所有子带的空间音频参数则为
S(m-M)1,S(m-M)2,…S(m-M)K,S(m-M+1)1,S(m-M+1)2,…S(m-M+1)K,…S(m-1)1,S(m-1)2,…S(m-1)K
贝叶斯推理是条件概率推理,根据变化的先验条件得到后验发生概率,用于研究主观概率估计的认知加工过程规律,广泛适用于指导判断决策。本发明根据空间音频参数帧间差值的统计分布特性,与不断变化的空间音频参数真实值一起作为先验条件来影响空间音频参数各预测值的后验发生概率,建立一种贝叶斯梯度模型来对空间音频参数的变化趋势做出判断,进而对空间音频参数作出预测。
设第m帧的第i个子带的空间音频参数帧间差值 D i m , m + 1 = S ( m + 1 ) i - S mi , 设空间音频参数的取值范围为-f到f,则Di m,m+1可能的取值范围为-2f到2f,这4f+1个差值的概率分布为P{(Di m,m+1)j},j=1,2...4f+1。参见图4,空间音频参数在时域上存在以下相关特性:相对于当前帧空间音频参数的下一帧来说,有向本帧趋近的趋势,即认为下一帧空间音频参数相对本帧空间音频参数的差值的概率分布向左右两个方向呈对称梯度下滑的趋势。
空间音频参数预测方式如下:
a设事件Bmi j对应于第m帧的第i个子带的空间音频参数从-f到f一共2f+1种取值,则Bmi j,j=1,2...2f+1互斥且构成一个完全事件,P(Bmi j),j=1,2...2f+1为事件Bmi j发生的概率,在无任何先验知识的情况下P(Bmi j)的初始值为 P ( B 1 i 1 ) = P ( B 1 i 2 ) . . . = P ( B 1 i 2 f + 1 ) = 1 / 2 f + 1 ;
b设定事件A为伴随事件Bmi j,j=1,2...2f+1发生而出现,由第m帧各子带的空间音频参数取值得到第m+1帧各子带的空间音频参数取值可能,则由第i个子带m帧空间音频参数取值Smi得到第m+1帧各空间音频参数取值概率为 P ( A / B mi j ) = P { ( D i m , m + 1 ) j - S mi + f } , j = 1,2 . . . 2 f + 1 ;
c在已知事件Bmi j的概率P(Bmi j)和事件Bmi j发生条件下事件A的概率P(A/Bmi j)的情况下,运用贝叶斯定理得到在事件A发生条件下第m+1帧事件B(m+1)i j的发生概率为 P ( B ( m + 1 ) i j / A ) = P ( B mi j ) P ( A / B mi j ) Σ n = 1 2 f + 1 P ( B mi n ) P ( A / B mi n ) , j = 1,2 . . . 2 f + 1 ;
d预测时初始化 B ( m - K ) i j = 1 2 f + 1 , j = 1,2 . . . 2 f + 1 , 然后将第m帧之前M帧的所有子带的空间音频参数
S(m-M)1,S(m-M)2,…S(m-M)K,S(m-M+1)1,S(m-M+1)2,…S(m-M+1)K,…S(m-1)1,S(m-1)2,…S(m-1)K依次代入 P ( A / B qi j ) = P { ( D i q , q + 1 ) j - S qi + f } , j = 1,2 . . . 2 f + 1 ,
P ( B ( q + 1 ) i j / A ) P ( B qi j ) P ( A / B qi j ) Σ n = 1 2 f + 1 P ( B qi n ) P ( A / B qi n ) , j = 1,2 . . . 2 f + 1
其中m-K≤q≤m-1;与第m帧的第i个子带的空间音频参数帧间差值Di m,m+1类似,Di q,q+1表示第q帧的第i个子带的空间音频参数帧间差值;
最终得到事件A发生条件下Bmi j的发生概率P(Bmi j/A),j=1,2...2f+1,以P(Bmi j/A),j=1,2...2f+1最大的值作为对第m帧的第i个子带的空间音频参数预测系数Smi^;
由于音频编解码都是逐帧进行同样处理,因此可以直接设当前帧为第m帧,根据第m帧的第i子带的空间音频参数Smi和空间音频参数预测系数Smi^,计算当前帧的第i子带的空间音频参数预测残差 δ mi = S mi - S mi ^ , i取1~K;
步骤1.3具体实施时,将步骤1.2所得的空间音频参数预测残差进行编码得到编码码流,可采用现有的哈夫曼无损编码方法。
以上过程所得编码码流就是本发明所提供解码方法的处理对象,解码过程与编码过程相逆。
步骤2.1具体实施时,对于正在进行重建处理的当前帧(相应标记为第m帧)而言,所需的就是从编码码流中得到的当前帧的空间音频参数预测残差δmi,其中i为对当前帧划分的子带数,且1≤i≤K。解码方式与步骤1.3所用方式相应即可。
(2)空间音频参数重建模块,用于使用之前解码得到的多帧空间音频参数及空间音频参数解码模块所得当前帧的预测残差,重建得到当前帧的空间音频参数;
步骤2.2具体实施时,根据步骤2.1得到当前帧的空间音频参数预测残差δ1,δ2,....δk,将待解的当前帧的K个子带的空间音频参数记为δm1,δm2,....δmK,之前解码得到的M帧K个子带的空间音频参数记为
S(m-M)1,S(m-M)2,…S(m-M)K,S(m-M+1)1,S(m-M+1)2,…S(m-M+1)K,…S(m-1)1,S(m-1)2,…S(m-1)K,其中K≥2,M≥1。
根据空间音频参数帧间差值的统计分布特性和之前M帧的第i子带的空间音频参数S(m-M)1,S(m-M)2,…S(m-M)K,S(m-M+1)1,S(m-M+1)2,…S(m-M+1)K,…S(m-1)1,S(m-1)2,…S(m-1)K,参见图3,同样使用步骤1.2的空间音频参数预测手段得到当前帧空间音频参数预测系数Smi^,i取1~K;具体就是初始化事件 B ( m - K ) i j = 1 2 f + 1 , j = 1,2 . . . 2 f + 1 , 然后将当前帧之前M帧的K个子带的空间音频参数
S(m-M)1,S(m-M)2,…S(m-M)K,S(m-M+1)1,S(m-M+1)2,…S(m-M+1)K,…S(m-1)1,S(m-1)2,…S(m-1)K依次代入 P ( A / B qi j ) = P { ( D i q , q + 1 ) j - S qi + f } , j = 1,2 . . . 2 f + 1 ,
P ( B ( q + 1 ) i j / A ) P ( B qi j ) P ( A / B qi j ) Σ n = 1 2 f + 1 P ( B qi n ) P ( A / B qi n ) , j = 1,2 . . . 2 f + 1
其中m-K≤q≤m-1
最终得到事件A发生条件下Bmi j的发生概率P(Bmi j/A),j=1,2...2f+1,以P(Bmi j/A),j=1,2...2f+1最大的值作为对当前帧的第i子带的空间音频参数预测系数Smi^。
最后根据步骤2.1所得当前帧的第i子带的空间音频参数预测残差δmi,及空间音频参数预测系数Smi^,即可得到当前帧的第i子带的空间音频参数 S mi = S mi ^ + δ mi .
具体实施时,可以采用计算机软件技术实现以上步骤的自动执行,也可以按照音频技术领域习惯构建编解码器,以硬件装置形式提供实施应用。凡符合本发明所提供技术方案精神的情况,包括等同替换方案,都应当在本发明所要求保护范围内。
参见附图3的装置结构,编码端设置空间音频参数提取模块、空间音频参数预测模块、空间音频参数编码模块分别用于实现步骤1.1、1.2、1.3,编码端设置空间音频参数解码模块、空间音频参数重建模块分别用于实现步骤2.1、2.2。各模块之间连接主要是信息传递的连接:空间音频参数提取模块的输出连接空间音频参数预测模块的输入,空间音频参数提取模块所得当前帧的多个子带的空间音频参数通过该连接输入到空间音频参数预测模块;空间音频参数预测模块的输出连接空间音频参数编码模块的输入,空间音频参数预测模块所得当前帧的预测残差通过该连接输入到空间音频参数编码模块。空间音频参数编码模块的输出提供到空间音频参数解码模块的输入,即基于贝叶斯梯度模型的空间音频参数帧间预测编码装置所得编码码流输入到基于贝叶斯梯度模型的空间音频参数帧间预测解码装置。空间音频参数解码模块的输出连接空间音频参数重建模块的输入,空间音频参数解码模块所得当前帧的空间音频参数的预测残差通过该连接输入到空间音频参数重建模块;空间音频参数重建模块输出所得空间音频重建参数。
本发明实施例用以上结构实现了基于贝叶斯梯度模型的空间音频参数帧间预测编解码过程,提供以下步骤详细说明以供参考:
编码端:
(1)由空间音频参数提取模块提取当前帧的ILD。首先将当前帧信号经FFT变换由时域变换到频域,然后将所得的频域上的当前帧信号按Bark带划分规则划分为24个子带并计算每个子带的ILD,设所得的当前帧的24个子带的空间音频参数为Sm1,Sm2,…Sm24
当前帧的ILD计算方法如下:
S mi = 101 g I iL I iR , i ∈ [ 1,24 ]
其中IiL和IiR分别为当前帧的第i子带上左声道与右声道能量值,且
I iL = Σ n = 1 N i [ s L ( n ) ] 2 , I iR = Σ n = 1 N I [ s R ( n ) ] 2
其中sL(n)和sR(n)分别为当前帧第i个子带上左声道和右声道的频谱上的第n条谱线,Ni为第i个子带上的谱线总数。
(2)本实施例采用前三帧来预测当前帧,即M=3。因此在实际编码时第1~3帧不预测,将空间音频参数提取模块中所得的当前帧的24个子带的ILD序列Sm1,Sm2,…Sm24,以及前三帧的24个子带的ILD序列
S(m-3)1,S(m-3)2,…S(m-M)24,S(m-2)1,S(m-21)2,…S(m-2)24,S(m-1)1,S(m-1)2,…S(m-1)24送入空间音频参数预测模块内计算得到当前帧的第i子带的ILD预测系数Smi^(i∈[1,24])。
然后根据当前帧的第i子带的ILD值Smi和ILD预测系数Smi^,计算当前帧的第i子带的ILD预测残差 δ mi = S mi - S mi ^ .
(3)由空间音频参数编码模块对空间音频参数预测模块所得当前帧的ILD预测残差δmi(i∈[1,24])进行哈夫曼无损编码得到编码码流。
解码端:
(1)由空间音频参数解码模块从编码码流中得到当前帧的第i子带的ILD预测残差δmi,且i∈[1,24]。
(2)将前三帧解码得到的24个子带的ILD序列
S(m-3)1,S(m-3)2,…S(m-M)24,S(m-2)1,S(m-21)2,…S(m-2)24,S(m-1)1,S(m-1)2,…S(m-1)24送入空间音频参数重建模块内计算得到当前帧空间音频参数预测系数Smi^(i∈[1,24]),根据当前帧的第i子带的空间音频参数预测残差δmi和空间音频参数预测系数Smi^,得到当前帧的第i子带的空间音频参数 S mi = S mi ^ + δ mi . 同样的,实际解码时第1~3帧不预测。

Claims (2)

1.一种空间音频参数帧间预测编码方法,其特征在于:包含以下步骤,
步骤1.1,对输入的多声道音频信号的帧信号分子带提取空间音频参数;
步骤1.2,根据空间音频参数帧间差值的统计分布特性和前一帧或多帧的空间音频参数对当前帧的空间音频参数作出预测,得到当前帧的空间音频参数预测系数和空间音频参数预测残差,具体实现过程如下,
(1)设每帧信号分K个子带,第m帧的K个子带的空间音频参数记为Sm1,Sm2,…SmK,K≥2;设第m帧之前第M帧第K个子带的空间音频参数记为S(m-M)K,第m帧前M帧的所有子带的空间音频参数则为
S(m-M)1,S(m-M)2,…S(m-M)K,S(m-M+1)1,S(m-M+1)2,…S(m-M+1)K,…S(m-1)1,S(m-1)2,…S(m-1)K,M≥1;
设第m帧的第i个子带的空间音频参数帧间差值 D i m , m + 1 = S ( m + 1 ) i - S mi , 设空间音频参数的取值范围为-f到f,则Di m,m+1可能的取值范围为-2f到2f,这4f+1个差值的概率分布为 P { ( D i m , m + 1 ) j } , j = 1,2 . . . 4 f + 1 ;
(2)预测方式如下,
设事件Bmi j对应于第m帧的第i个子带的空间音频参数从-f到f一共2f+1种取值,则Bmi j,j=1,2...2f+1互斥且构成一个完全事件,P(Bmi j),j=1,2...2f+1为事件Bmi j发生的概率,在无任何先验知识的情况下P(Bmi j)的初始值为 P ( B 1 i 1 ) = P ( B 1 i 2 ) . . . = P ( B 1 i 2 f + 1 ) = 1 / 2 f + 1 ;
设定事件A为伴随事件Bmi j,j=1,2...2f+1发生而出现,由第m帧各子带的空间音频参数取值得到第m+1帧各子带的空间音频参数取值可能,则由第i个子带m帧空间音频参数取值Smi得到第m+1帧各空间音频参数取值概率为 P ( A / B mi j ) = P { ( D i m , m + 1 ) j - S mi + f } , j = 1,2 . . . , f + 1 ;
在已知事件Bmi j的概率P(Bmi j)和事件Bmi j发生条件下事件A的概率P(A/Bmi j)的情况下,运用贝叶斯定理得到在事件A发生条件下第m+1帧事件B(m+1)i j的发生概率为 P ( B ( m + 1 ) i j / A ) = P ( B mi j ) P ( A / B mi j ) Σ n = 1 2 f + 1 P ( B mi n ) P ( A / B mi n ) , j = 1,2 . . . 2 f + 1 ;
预测时初始化 B ( m - K ) i j = 1 2 f + 1 , j = 1,2 . . . 2 f + 1 , 然后将第m帧之前M帧的所有子带的空间音频参数
S(m-M)1,S(m-M)2,…S(m-M)K,S(m-M+1)1,S(m-M+1)2,…S(m-M+1)K,…S(m-1)1,S(m-1)2,…S(m-1)K依次代入 P ( A / B qi j ) = P { ( D i q , q + 1 ) j - S qi + f } , j = 1,2 . . . 2 f + 1 ,
P ( B ( q + 1 ) i j / A ) = P ( B qi j ) P ( A / B qi j ) Σ n = 1 2 f + 1 P ( B qi n ) P ( A / B qi n ) , j = 1,2 . . . 2 f + 1
其中m-K≤q≤m-1;
最终得到事件A发生条件下Bmi j的发生概率P(Bmi j/A),j=1,2...2f+1,以P(Bmi j/A),j=1,2...2f+1最大的值作为对第m帧的第i个子带的空间音频参数预测系数
设当前帧为第m帧,根据第m帧的第i子带的空间音频参数Smi和空间音频参数预测系数计算当前帧的第i子带的空间音频参数预测残差 δ mi = S mi - S mi ^ , i取1~K;
步骤1.3,对当前帧的空间音频参数预测残差进行编码得到编码码流。
2.一种与权利要求1所述空间音频参数帧间预测编码方法相应的空间音频参数帧间预测解码方法,其特征在于:包含以下步骤,
步骤2.1,从编码码流中解码得到帧信号的空间音频参数预测残差;
步骤2.2,用之前重建得到的一帧或多帧空间音频参数及步骤2.1所得当前帧的空间音频参数预测残差,重建得到当前帧的空间音频参数,具体实现过程如下,
设当前帧为第m帧,第m帧的空间音频参数预测残差记为δm1,δm2,....δmK,当前帧的K个子带的空间音频参数记为Sm1,Sm2,…SmK,之前解码得到的M帧K个子带的空间音频参数记为
S(m-M)1,S(m-M)2,…S(m-M)K,S(m-M+1)1,S(m-M+1)2,…S(m-M+1)K,…S(m-1)1,S(m-1)2,…S(m-1)K,K≥2,M≥1;
根据空间音频参数帧间差值的统计分布特性和之前M帧的第i子带的空间音频参数,初始化事件 B ( m - K ) i j = 1 2 f + 1 , j = 1,2 . . . 2 f + 1 , 然后将当前帧之前M帧的K个子带的空间音频参数
S(m-M)1,S(m-M)2,…S(m-M)K,S(m-M+1)1,S(m-M+1)2,…S(m-M+1)K,…S(m-1)1,S(m-1)2,…S(m-1)K依次代入 P ( A / B qi j ) = P { ( D i q , q + 1 ) j - S qi + f } , j = 1,2 . . . 2 f + 1 ,
P ( B ( q + 1 ) i j / A ) = P ( B qi j ) P ( A / B qi j ) Σ n = 1 2 f + 1 P ( B qi n ) P ( A / B qi n ) , j = 1,2 . . . 2 f + 1
其中m-K≤q≤m-1
最终得到事件A发生条件下Bmi j的发生概率P(Bmi j/A),j=1,2...2f+1,以P(Bmi j/A),j=1,2...2f+1最大的值作为对当前帧的第i子带的空间音频参数预测系数
Figure A2009100627320004C4
i取1~K;
根据当前帧的第i子带的空间音频参数预测残差δmi和空间音频参数预测系数得到当前帧的第i子带的空间音频参数 S mi = S mi ^ + δ mi .
CN2009100627322A 2009-06-16 2009-06-16 一种空间音频参数帧间预测编解码方法 Expired - Fee Related CN101582262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100627322A CN101582262B (zh) 2009-06-16 2009-06-16 一种空间音频参数帧间预测编解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100627322A CN101582262B (zh) 2009-06-16 2009-06-16 一种空间音频参数帧间预测编解码方法

Publications (2)

Publication Number Publication Date
CN101582262A true CN101582262A (zh) 2009-11-18
CN101582262B CN101582262B (zh) 2011-12-28

Family

ID=41364385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100627322A Expired - Fee Related CN101582262B (zh) 2009-06-16 2009-06-16 一种空间音频参数帧间预测编解码方法

Country Status (1)

Country Link
CN (1) CN101582262B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105336335A (zh) * 2014-07-25 2016-02-17 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
CN105593931A (zh) * 2013-07-22 2016-05-18 弗劳恩霍夫应用研究促进协会 使用联合编码残余信号的音频编码器、音频解码器、方法及计算机程序
CN105900169A (zh) * 2014-01-09 2016-08-24 杜比实验室特许公司 音频内容的空间误差度量
CN108417219A (zh) * 2018-02-22 2018-08-17 武汉大学 一种适应于流媒体的音频对象编解码方法
CN108550369A (zh) * 2018-04-14 2018-09-18 全景声科技南京有限公司 一种可变长度的全景声信号编解码方法
CN110534120A (zh) * 2019-08-31 2019-12-03 刘秀萍 一种移动网络环境下的环绕声误码修复方法
US11133014B2 (en) * 2016-08-10 2021-09-28 Huawei Technologies Co., Ltd. Multi-channel signal encoding method and encoder

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149925B (zh) * 2007-11-06 2011-02-16 武汉大学 一种用于参数立体声编码的空间参数选取方法
CN101159136A (zh) * 2007-11-13 2008-04-09 中国传媒大学 一种低比特率音乐信号编码方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105593931A (zh) * 2013-07-22 2016-05-18 弗劳恩霍夫应用研究促进协会 使用联合编码残余信号的音频编码器、音频解码器、方法及计算机程序
US11657826B2 (en) 2013-07-22 2023-05-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
CN105593931B (zh) * 2013-07-22 2019-12-27 弗劳恩霍夫应用研究促进协会 使用联合编码残余信号的音频编码器、音频解码器、方法及计算机可读介质
US10741188B2 (en) 2013-07-22 2020-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
US10770080B2 (en) 2013-07-22 2020-09-08 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
CN105900169A (zh) * 2014-01-09 2016-08-24 杜比实验室特许公司 音频内容的空间误差度量
US10492014B2 (en) 2014-01-09 2019-11-26 Dolby Laboratories Licensing Corporation Spatial error metrics of audio content
CN105900169B (zh) * 2014-01-09 2020-01-03 杜比实验室特许公司 音频内容的空间误差度量
CN105336335A (zh) * 2014-07-25 2016-02-17 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
CN105336335B (zh) * 2014-07-25 2020-12-08 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
US11133014B2 (en) * 2016-08-10 2021-09-28 Huawei Technologies Co., Ltd. Multi-channel signal encoding method and encoder
US11935548B2 (en) 2016-08-10 2024-03-19 Huawei Technologies Co., Ltd. Multi-channel signal encoding method and encoder
CN108417219A (zh) * 2018-02-22 2018-08-17 武汉大学 一种适应于流媒体的音频对象编解码方法
CN108550369A (zh) * 2018-04-14 2018-09-18 全景声科技南京有限公司 一种可变长度的全景声信号编解码方法
CN110534120A (zh) * 2019-08-31 2019-12-03 刘秀萍 一种移动网络环境下的环绕声误码修复方法

Also Published As

Publication number Publication date
CN101582262B (zh) 2011-12-28

Similar Documents

Publication Publication Date Title
CN101582262B (zh) 一种空间音频参数帧间预测编解码方法
JP7443307B2 (ja) サイドゲインおよび残余ゲインを使用してマルチチャネル信号を符号化または復号するための装置および方法
CN101120615B (zh) 多声道编码器和解码器以及相应的编码和解码方法
CN101036183B (zh) 用于立体声兼容的多声道音频编码/解码的方法和设备
KR20200100061A (ko) 상이한 시간/주파수 해상도를 사용하여 지향성 오디오 코딩 파라미터를 인코딩 또는 디코딩 하기 위한 장치 및 방법
CN101836250B (zh) 用于处理信号的方法及装置
CN105405445B (zh) 一种基于声道间传递函数的参数立体声编码、解码方法
RU2016105613A (ru) Аудиокодер, аудиодекодер и связанные способы с использованием двухканальной обработки в инфраструктуре интеллектуального заполнения интервалов отсутствия сигнала
NZ599981A (en) Decoding of multichannel audio encoded bit streams using adaptive hybrid transformation
ES2547232T3 (es) Método y aparato para procesar una señal
CN104541326A (zh) 一种设备和方法,用于处理音频信号
CN101002261A (zh) 使用虚拟源位置信息编码和解码多声道音频信号的方法和装置
CN106373583B (zh) 基于理想软阈值掩模irm的多音频对象编、解码方法
CN101149925B (zh) 一种用于参数立体声编码的空间参数选取方法
EP1393303A1 (en) Inter-channel signal redundancy removal in perceptual audio coding
CN104240712A (zh) 一种三维音频多声道分组聚类编码方法及系统
CN101673549B (zh) 一种移动音源空间音频参数预测编解码方法及系统
CN102714036B (zh) 语音编码装置和语音编码方法
CN101308655B (zh) 一种音频编解码方法与装置
CN101313355B (zh) 编码/解码多声道音频信号的方法和装置
CN109300480B (zh) 立体声信号的编解码方法和编解码装置
CN102428512A (zh) 下混装置、编码装置以及其方法
CN106104678A (zh) 从两个或多个基本信号导出多通道信号
CN102243876B (zh) 预测残差信号的量化编码方法及装置
CN101521013B (zh) 空间音频参数双向帧间预测编解码装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111228

Termination date: 20150616

EXPY Termination of patent right or utility model