CN103928030A - 基于子带空间关注测度的可分级音频编码系统及方法 - Google Patents

基于子带空间关注测度的可分级音频编码系统及方法 Download PDF

Info

Publication number
CN103928030A
CN103928030A CN201410181636.0A CN201410181636A CN103928030A CN 103928030 A CN103928030 A CN 103928030A CN 201410181636 A CN201410181636 A CN 201410181636A CN 103928030 A CN103928030 A CN 103928030A
Authority
CN
China
Prior art keywords
subband
module
gained
sub
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410181636.0A
Other languages
English (en)
Other versions
CN103928030B (zh
Inventor
胡瑞敏
高丽
杨玉红
王晓晨
涂卫平
高戈
董石
王松
李登实
张茂胜
杨乘
姜林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201410181636.0A priority Critical patent/CN103928030B/zh
Publication of CN103928030A publication Critical patent/CN103928030A/zh
Application granted granted Critical
Publication of CN103928030B publication Critical patent/CN103928030B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供一种基于子带空间关注测度的可分级音频编码系统及方法,包括基于能量、频率和空间信息综合计算各子带的子带重要性测度并排序,根据综合测度的排序结果进行比特分配、残差量化编码,对子带排序编号的编码结果和残差量化编码都加入码流。本发明根据能量、频率和空间信息作为子带优先级分配策略,相比单纯利用能量或频率作为感知测度具有更明显的指导意义。

Description

基于子带空间关注测度的可分级音频编码系统及方法
技术领域
本发明涉及音频编码技术领域,尤其涉及一种基于子带空间关注测度的可分级音频编码系统及方法。
背景技术
现有的可分级编码方法中主要根据高能量和低频率成分优先的准则作为可分级子带重要性测度划分的依据。然而,简单通过能量或频率成分的高低并不能确定最重要的声音对象所在的子带。在频域子带中,能量高的子带或低频子带并不一定对应着最重要的声音对象所在的子带。除了能量和频率以外,空间位置信息也可用于确定重点的声音对象。点声源或类似点声源通常具有明确的空间位置信息,往往是需要重点关注的声音对象,而环境声或噪声等声源,往往不具备明确的空间位置信息,在分级编码中可以分配更少的优先级。现有的双声道可分级编码方法,在确定下混声道子带重要性测度时,单纯以下混声道的子带能量或频率成分来确定子带分级编码的优先级,由于下混声道中缺失声道间的相关性以及声源的空间位置信息等,如果仅仅根据下混声道的能量或频率的高低来确定最重要声源对应的子带,这样或多或少会导致编码一些重要的具有高关注的或具有明确位置信息的声源时带来质量的损失。因此,若能提供一种分级音频编码方法结合声源的空间位置信息来确定频域子带的重要性,重点关注声音信号中需要重点编码的声音对象,从而提高具有明确位置的、具有高关注的重要声音的编码质量,对音频编码领域具有重要实际意义。
发明内容
本发明的目的是提供一种基于子带空间关注测度的可分级音频编码系统及方法,使得频率子带重要性测度更加反映双声道信号中需要重点关注和编码的声音对象。
为达到上述目的,本发明提供一种基于子带空间关注测度的可分级音频编码系统,包括以下模块:
预处理模块,用于对双声道输入信号进行预处理,得到两个声道的当前帧的音频信号sl和sr并做三路输出,一路输出给核心编码器模块,一路输出给残差提取模块,一路输出给时频变换模块;
核心编码器模块,用于对从预处理模块输入的音频信号sl和sr进行编码,编码结果分作两路,其中一路作为码流的一部分输出给解码端;一路解码得到两个声道的重构信号输出给残差提取模块;
残差提取模块,用于根据从预处理模块输入的音频信号sl和sr和从核心编码器模块输入的重构信号得到两个声道的残差信号el和er对残差信号el和er进行时频变换得到两个声道的残差频谱系数efl和efr,下混为和声道sum和差声道diff,对sum和diff进行频谱子带划分,将所得和声道和差声道各个子带的频谱系数sum(i)和diff(i)分两路输出,一路输出给残差量化编码模块,一路输出给比特分配模块,i取值1,2,…,N,子带数N>1;
时频变换模块,用于对从预处理模块输入的音频信号sl和sr进行时频变换,得到频谱系数xl和xr,输出给子带划分模块;
子带划分模块,用于对时频变换模块输入的频谱系数xl和xr进行子带划分,得到两个声道的子带频谱系数xl(i)和xr(i),输出给基于空间关注的子带重要性测度模块;
基于空间关注的子带重要性测度模块,用于根据从子带划分模块输入的两个声道的子带频谱系数xl(i)和xr(i),基于能量、频率和空间信息综合计算各子带的子带重要性测度npi,按照子带重要性从高到低对N个子带进行排序,记子带i的排序所得编号为pSi,得到最后的子带排序编号PSi={pS1,pS2,...,pS(N-1),pSN}并做两路输出,一路输出给子带测度编码模块,一路输出给比特分配模块;
子带测度编码模块,用于对从基于空间关注的子带重要性测度模块输入的子带排序编号PSi={pS1,pS2,...,pS(N-1),pSN}进行熵编码,将编码结果作为码流的一部分输出给解码端;
比特分配模块,用于根据从残差提取模块输入的频谱系数sum(i)和diff(i),按照从基于空间关注的子带重要性测度模块输入的排序后的子带编号P={p1,p2,...,p(N-1),pN}对每个子带进行比特数的分配,将分配的比特数输出给残差量化编码模块;
残差量化编码模块,用于按照从基于空间关注的子带重要性测度模块输入的排序后的子带编号P={p1,p2,...,p(N-1),pN},以子带重要性测度由大到小的顺序依次取一个子带,对从残差提取模块输入的该子带的频谱系数sum(i)和diff(i),按比特分配模块所得该子带分配的比特数进行球型矢量量化编码,直到编码器给定传输码率下可用的所有编码比特数用完,将编码结果作为码流的一部分输出给解码端。
而且,所述基于空间关注的子带重要性测度模块包括方位感知测度模块、距离感知测度模块、能量感知测度模块、频率感知测度模块和子带空间关注模块,
方位感知测度模块,用于根据子带划分模块所得两个声道的各个子带的频谱系数xl(i)和xr(i),计算出各个子带的声道间强度差ILi和IRi分别表示第i个子带左声道和右声道的能量和;将当前帧各个子带的声道间强度差与上一帧的相应子带的声道间强度差计算差值,按照差值绝对值从大到小的顺序对子带进行排序,记子带i的排序所得编号为pSi,得到所有子带排序的编号PSi={pS1,pS2,...,pS(N-1),pSN}并输出给子带空间关注模块;
距离感知测度模块,用于根据子带划分模块所得两个声道的各个子带的频谱系数xl(i)和xr(i),计算出各个子带的频率依赖相关性变量变量变量 表示xl(i)的复共轭,〈·〉表示跨时均值;将当前帧各个子带的频率依赖相关性系数与上一帧相应子带的频率依赖相关性系数计算差值,按照差值绝对值从大到小的顺序对N个子带进行排序,记子带i的排序所得编号为pRi,得到所有子带排序的编号PRi={pR1,pR2,...,pR(N-1),pRN}并输出给子带空间关注模块;
能量感知测度模块,用于根据子带划分模块所得两个声道的各个子带的频谱系数xl(i)和xr(i),计算出各个子带的能量和Ii=ILi+IRi,按照能量从高到低的顺序对N个子带进行排序,记子带i的排序所得编号为pIi,得到所有子带排序的编号PIi={pI1,pI2,...,pI(N-1),pIN}并输出给子带空间关注模块;
频率感知测度模块,用于根据子带划分模块所得两个声道的各个子带的频谱系数xl(i)和xr(i),计算各个子带基于人耳对频率成分的感知敏感度,按照感知敏感性从高到低的顺序对子带进行排序,记子带i的排序所得编号为pFi,得到所有子带排序的编号PFi={pF1,pF2,...,pF(N-1),pFN}输出给子带空间关注模块;
子带空间关注模块,用于对方位感知测度模块、距离感知测度模块、能量感知测度模块、频率感知测度模块所得结果,进行加权求和得到最终的子带重要性测度npi=λ1pSi2pRi3pIi4pFi,根据加权求和结果从低到高对N个子带进行排序,得到最后的子带排序编号P={p1,p2,...,p(N-1),pN},做两路输出,一路输出给子带测度编码模块;一路输出给比特分配模块;其中,λ1、λ2、λ3、λ4分别为方位感知测度、距离感知测度、能量感知测度、频率感知测度的相应权值。
本发明还提供一种基于子带空间关注测度的可分级音频编码方法,包括以下步骤:
步骤1,对双声道输入信号进行预处理,得到两个声道的当前帧的音频信号sl和sr
步骤2,对步骤1所得音频信号sl和sr进行编码,编码结果分作两路,其中一路作为码流的一部分输出给解码端,一路解码得到两个声道的重构信号
步骤3,根据步骤1所得音频信号sl和sr和步骤2所得重构信号得到两个声道的残差信号el和er对残差信号el和er进行时频变换得到两个声道的残差频谱系数efl和efr,下混为和声道sum和差声道diff,对sum和diff进行频谱子带划分,得到和声道和差声道各个子带的频谱系数sum(i)和diff(i),i取值1,2,…,N,子带数N>1;
步骤4,由步骤1所得音频信号sl和sr,进行时频变换得到频谱系数xl和xr
步骤5,对步骤4所得频谱系数xl和xr进行子带划分,得到两个声道的子带频谱系数xl(i)和xr(i);
步骤6,根据步骤5所得两个声道的子带频谱系数xl(i)和xr(i),基于能量、频率和空间信息综合计算各子带的子带重要性测度npi,按照子带重要性从高到低对N个子带进行排序,记子带i的排序所得编号为pSi,得到最后的子带排序编号PSi={pS1,pS2,...,pS(N-1),pSN}
步骤7,对步骤6所得子带排序编号PSi={pS1,pS2,...,pS(N-1),pSN}进行熵编码,将编码结果作为码流的一部分输出给解码端;
步骤8,根据步骤3所得频谱系数sum(i)和diff(i),按照步骤6所得排序后的子带编号P={p1,p2,...,p(N-1),pN}对每个子带进行比特数的分配;
步骤9,按照步骤6所得排序后的子带编号P={p1,p2,...,p(N-1),pN},以子带重要性测度由大到小的顺序依次取一个子带,对步骤3所得频谱系数sum(i)和diff(i),按步骤8所得分配的比特数进行球型矢量量化编码,直到编码器给定传输码率下可用的所有编码比特数用完,将编码结果作为码流的一部分输出给解码端。
而且,步骤6进一步包括以下子步骤,
步骤6.1,根据步骤5所得两个声道的各个子带的频谱系数xl(i)和xr(i),计算出各个子带的声道间强度差ILi和IRi分别表示第i个子带左声道和右声道的能量和;将当前帧各个子带的声道间强度差与上一帧的相应子带的声道间强度差计算差值,按照差值绝对值从大到小的顺序对子带进行排序,记子带i的排序所得编号为pSi,得到所有子带排序的编号PSi={pS1,pS2,...,pS(N-1),pSN};
步骤6.2,根据步骤5所得两个声道的各个子带的频谱系数xl(i)和xr(i),计算出各个子带的频率依赖相关性 R i = | G lr ( i ) | 2 G rr ( i ) G ll ( i ) , 变量 G lr ( i ) = ⟨ x l * ( i ) x r ( i ) ⟩ , 变量 G ll ( i ) = ⟨ | x l ( i ) | 2 ⟩ , 变量 表示xl(i)的复共轭,〈·〉表示跨时均值;将当前帧各个子带的频率依赖相关性系数与上一帧相应子带的频率依赖相关性系数计算差值,按照差值绝对值从大到小的顺序对N个子带进行排序,记子带i的排序所得编号为pRi,得到所有子带排序的编号PRi={pR1,pR2,...,pR(N-1),pRN};
步骤6.3,根据步骤5所得两个声道的各个子带的频谱系数xl(i)和xr(i),计算出各个子带的能量和Ii=ILi+IRi,按照能量从高到低的顺序对N个子带进行排序,记子带i的排序所得编号为pIi,得到所有子带排序的编号PIi={pI1,pI2,...,pI(N-1),pIN};
步骤6.4,根据步骤5所得两个声道的各个子带的频谱系数xl(i)和xr(i),计算各个子带基于人耳对频率成分的感知敏感度,按照感知敏感性从高到低的顺序对子带进行排序,记子带i的排序所得编号为pFi,得到所有子带排序的编号PFi={pF1,pF2,...,pF(N-1),pFN};
步骤6.5,对步骤6.1、步骤6.2、步骤6.3、步骤6.4所得结果,进行加权求和得到最终的子带重要性测度npi=λ1pSi2pRi3pIi4pFi,根据加权求和结果从低到高对N个子带进行排序,得到最后的子带排序编号P={p1,p2,...,p(N-1),pN};其中,λ1、λ2、λ3、λ4分别为方位感知测度、距离感知测度、能量感知测度、频率感知测度的相应权值。
本发明针对现有双声道可分级音频编码中对于子带重要性测度主要依据高能量或低频率优先而缺乏对声音对象空间位置信息考虑,导致编码一些重要的具有高关注的或具有明确位置信息的声源时带来质量损失的问题,提供了一种基于空间关注子带重要性测度的可分级音频编码系统及方法,使得频率子带重要性测度更加反映双声道信号中需要重点关注和编码的声音对象。根据能量、频率和空间信息作为子带优先级分配策略,相比单纯利用能量或频率作为感知测度具有更明显的指导意义。
附图说明
图1是本发明实施例提供的可分级音频编码系统的原理框图。
图2是本发明实施例中基于空间关注的子带重要性测度模块的原理框图。
具体实施方式
下面结合附图和实施例详细对本发明提供的基于子带空间关注测度的可分级音频编码系统进行详细描述。
具体实施是,本发明所提供系统可采用计算机软件模块化技术实现。参见图1,实施例所提供系统包括:
预处理模块:对双声道输入信号进行预处理,得到两个声道的当前帧的音频信号,做三路输出:一路输出给核心编码器模块;一路输出给残差提取模块;一路输出给时频变换模块。
实施例中,预处理模块对输入信号(即音频原始信号1000)进行预处理,而预处理一般具体包括高通滤波、分帧处理,将输入信号(1000)送入高通滤波器,滤除50Hz以下的低频信号;以20ms为一帧读取采样数据作为当前帧数据;输出信号为两个声道的当前帧的音频信号sl和sr(即预处理后信号1001),下标l表示左声道,下标r表示右声道。
核心编码器模块:本模块输入为预处理后的信号,采用现有技术中通用的两声道核心编码方法对预处理后的信号进行编码,编码结果分作两路,其中一路作为码流复用的一部分输出给解码端;一路解码后得到各个声道的重构信号输出给残差提取模块。
实施例中,核心编码器模块对经过预处理过后的信号(1001)进行核心编码器编码,核心编码器以现有技术中TVC/ACELP(变换矢量编码/代数码本激励线性预测编码)混合编码的方式编码,编码结果一路作为核心层码流作为码流复用的一部分输出到解码端,一路进行解码得到两个声道的重构信号(即解码后重构信号1002)。
残差提取模块:预处理后的两个声道信号和解码重构后的两个声道信号作为本模块的输入,得到两个声道的残差信号,对两个声道的残差信号进行时频变换、变换后的频域信号再进行子带的划分,得到残差信号子带频谱系数,两个声道的残差频谱系数可以采用现有技术中通用的下混方法下混为一个和声道和一个差声道,对和声道和差声道进行子带划分,得到两个残差声道的各个子带的频谱系数。将得到的和声道和差声道的各个子带的频谱系数分两路输出:一路输出给残差量化编码模块;一路输出给比特分配模块。本领域技术人员可预先自行设定子带数N,N>1。
实施例中,残差提取模块对预处理模块输出结果sl和sr(1001)与核心编码器模块的输出结果(1002)分别作差得到残差信号el和er对el和er进行FFT变换,得到两个声道的残差频谱系数efl和efr,下混为和声道sum和差声道diff,对sum和diff进行频谱子带划分,实施例将整个频谱均匀划分为N=16个子带,得到sum(i)和diff(i)(即频域子带残差信号1003),i取值1,2,…,N。
时频变换模块:预处理后的两个声道的信号作为本模块的输入,进行现有技术中通用的时频变换,得到预处理后的频域的音频信号,输出给子带划分模块。
实施例中,时频变换模块对预处理模块的输出结果sl和sr(1001),进行FFT变换,得到每一帧各自256个频谱系数xl和xr(即频域原始信号1005)。
子带划分模块:时频变换模块得到的预处理后的频域的音频信号作为本模块的输入,采用现有技术中通用的子带划分方法,得到两个声道的子带频谱系数,输出给基于空间关注的子带重要性测度模块。
实施例中,子带划分模块对时频变换模块得到的频谱系数xl和xr(1005),进行子带划分,实施例将整个频谱均匀划分为N=16个子带,每个子带16个频谱系数,得到两个声道的子带频谱系数xl(i)和xr(i)(即频域子带信号1006),i取值1,2,…,N,N>1。
基于空间关注的子带重要性测度模块:子带划分模块得到的两个声道的子带频谱系数作为本模块的输入,利用两个声道的子带频谱系数,基于能量、频率和空间(方位和距离)信息,计算子带重要性测度,将排序好的子带编号做两路输出,一路输出给子带测度编码模块;一路输出给比特分配模块。参见图2,实施例中,基于空间关注的子带重要性测度模块又进一步包括以下模块:方位感知测度模块、距离感知测度模块、能量感知测度模块、频率感知测度模块和子带空间关注模块;
方位感知测度模块:子带划分模块得到的两个声道的子带频谱系数作为本模块的输入,利用两个声道的子带频谱系数,基于空间信息计算子带测度:包括对每个子带,计算当前帧两个声道的声道间强度差异,与上一帧相应子带的声道间强度差异计算差值,按照差值绝对值从大到小的顺序对子带进行排序,将排序好的子带编号输出给子带空间关注模块。
实施例中,方位感知测度模块对子带划分模块得到的两个声道的各个子带的频谱系数xl(i)和xr(i)(1006),计算出各个子带的声道间强度差其中,i取值1~16,ILi和IRi分别表示第i个子带左声道和右声道的能量和。分别将当前帧各个子带的声道间强度差与上一帧的相应子带的声道间强度差计算差值,按照差值绝对值从大到小的顺序对16个子带进行排序,记子带i的排序所得编号为pSi,得到所有子带排序的编号PSi={pS1,pS2,...,pS(N-1),pSN}(即基于方位感知测度得到的子带重要性排序结果1008)。
距离感知测度模块:子带划分模块得到的两个声道的子带频谱系数作为本模块的输入,利用两个声道的子带频谱系数,基于双声道频率依赖相关性计算子带测度;对每个子带,计算两个声道的频率依赖相关性系数,与上一帧的相应子带的频率依赖相关性系数计算差值,按照差值绝对值从大到小的顺序对子带进行排序,将排序好的子带编号输出给子带空间关注模块。
实施例中,距离感知测度模块对子带划分模块得到的子带频谱系数xl(i)和xr(i)(1006),计算出各个子带的频率依赖相关性变量变量变量 表示xl(i)的复共轭,〈·〉表示跨时均值,将当前帧各个子带的频率依赖相关性系数与上一帧相应子带的频率依赖相关性系数计算差值,按照差值绝对值从大到小的顺序对N个子带进行排序,记子带i的排序所得编号为pRi,得到所有子带排序的编号PRi={pR1,pR2,...,pR(N-1),pRN}(即基于距离感知测度得到的子带重要性排序结果1009)。
能量感知测度模块:子带划分模块得到的两个声道的子带频谱系数作为本模块的输入,利用两个声道的子带频谱系数,基于能量计算子带重要性,对每个子带,计算两个声道的能量和,按照能量从高到低的顺序对子带进行排序,将排序好的子带编号输出给子带空间关注模块。
实施例中,能量感知测度模块对子带划分模块得到的各个子带的频谱系数xl(i)和xr(i)(1006),计算出各个子带的能量和Ii=ILi+IRi,按照能量从高到低的顺序对N个子带进行排序,记子带i的排序所得编号为pIi,得到所有子带排序的编号PIi={pI1,pI2,...,pI(N-1),pIN}(即基于能量感知测度得到的子带重要性排序结果1010)。
频率感知测度模块:子带划分模块得到的两个声道的子带频谱系数作为本模块的输入,基于人耳对频率成分的感知敏感度确定子带重要性,可按照感知敏感性从高到低的顺序对子带进行排序,将排序好的子带编号输出给子带空间关注模块。具体实施时,可以采用现有技术中依据掩蔽阈值或JND恰可感知差异等计算感知敏感性。由于划分子带时一般按照频率从低到高的顺序排序,比如子带编号从1到16就对应着从低频子带到高频子带,因此也可以采用划分子带时的子带编号i代表感知敏感性,直接将划分子带时的子带编号i作为感知敏感度重要性编号直接输出。
实施例中,频率感知测度模块依据频率从低到高对N个子带进行排序,每个子带的子带编号即为该子带的排序编号,记子带i的排序所得编号为pFi,得到所有子带排序的编号PFi={pF1,pF2,...,pF(N-1),pFN}(即基于频率感知测度得到的子带重要性排序结果1011)。
子带空间关注模块:本模块的输入来自方位感知测度模块、距离感知测度模块、能量感知测度模块和频率感知测度模块得到的各自的子带重要性测度排序结果,对这些排序结果进行加权求和,得到最后的基于空间关注的子带重要性排序结果,做两路输出,一路输出给子带测度编码模块;一路输出给比特分配模块。
实施例中,对方位感知测度模块、距离感知测度模块、能量感知测度模块、频率感知测度模块得到的排序后的子带编号结果,分别对每个子带的四项编号进行加权求和得到最终的子带重要性测度npi=λ1pSi2pRi3pIi4pFi,根据加权求和结果从高到低对N个子带进行排序,得到最后的子带排序编号P={p1,p2,...,p(N-1),pN}(即子带重要性排序结果1007)。其中,λ1、λ2、λ3、λ4分别为方位感知测度、距离感知测度、能量感知测度、频率感知测度的相应权值,本领域技术人员可自行预先设定取值,实施例中取λ1=λ2=λ3=λ4=1/4。
子带测度编码模块:基于空间关注的子带重要性测度模块得到的排序好的子带编号作为本模块的输入,对排序好的子带编号进行现有技术中通用的熵编码,将编码结果作为码流的一部分输出给解码端,具体可将编码结果输出作为增强层码流的一部分进行码流复用输出给解码端。
实施例对子带重要性测度模块所得子带排序编号P={p1,p2,...,p(N-1),pN}(即子带重要性排序结果1007)进行熵编码,实施例采用现有技术中的差分Huffman编码,得到编码结果。
比特分配模块:本模块的输入包括两个部分:残差提取模块得到的两个声道的残差子带频谱系数作为本模块的一个输入;基于空间关注的子带重要性测度模块得到的排序好的子带编号作为本模块的另一个输入。按照子带重要性测度的排序结果对每个子带进行比特数的分配,将分配的比特数输出给残差量化编码模块,具体实施时比特分配方法可以采用现有技术通用的子带量化方法中的比特分配方法。
实施例根据残差提取模块得到的两个声道的残差子带频谱系数sum(i)和diff(i)(1003),按照由基于空间关注的子带重要性测度模块得到的排序后的子带编号P={p1,p2,...,p(N-1),pN}(1007),每个子带进行比特数的分配,得到两个残差声道的每个子带分配的编码比特数(即分配的比特数1004)。
残差量化编码模块:本模块的输入包括三个部分:残差提取模块得到的两个残差声道的子带频谱系数作为本模块的一个输入;比特分配模块得到的两个残差声道的每个子带分配的编码比特数作为本模块的第二个输入;基于空间关注的子带重要性测度模块得到的排序后的子带编号作为第三个输入。根据每个子带分配的比特数对残差信号的子带频谱系数采用通用的编码器进行量化编码,将编码结果作为码流的一部分输出给解码端,具体可将编码结果作为增强层码流的一部分码流复用输出给解码端。
对残差提取模块得到的两个残差声道的各个子带的频谱系数sum(i)和diff(i)(1003),按照由基于空间关注的子带重要性测度模块得到的排序后的子带编号P={p1,p2,...,p(N-1),pN}(1007),确定测度最大的子带,根据比特分配模块得到的该子带分配的比特数对该子带进行球型矢量量化编码。量化完这个子带后,提取子带重要性测度第二大的子带根据相应分配的比特数进行量化,依次类推,直到编码器给定传输码率下可用的所有编码比特数用完。
本发明提供了相应的基于子带空间关注测度的可分级音频编码方法,可采用软件方式实现子带运行流程。具体步骤与系统工作原理一致,包括:
步骤1,对双声道输入信号进行预处理,得到两个声道的当前帧的音频信号sl和sr
步骤2,对步骤1所得音频信号sl和sr进行编码,编码结果分作两路,其中一路作为码流的一部分输出给解码端,一路解码得到两个声道的重构信号
步骤3,根据步骤1所得音频信号sl和sr和步骤2所得重构信号得到两个声道的残差信号el和er对残差信号el和er进行时频变换得到两个声道的残差频谱系数efl和efr,下混为和声道sum和差声道diff,对sum和diff进行频谱子带划分,得到和声道和差声道各个子带的频谱系数sum(i)和diff(i),i取值1,2,…,N,子带数N>1;
步骤4,由步骤1所得音频信号sl和sr,进行时频变换得到频谱系数xl和xr
步骤5,对步骤4所得频谱系数xl和xr进行子带划分,得到两个声道的子带频谱系数xl(i)和xr(i);
步骤6,根据步骤5所得两个声道的子带频谱系数xl(i)和xr(i),基于能量、频率和空间信息综合计算各子带的子带重要性测度npi,从低到高对N个子带进行排序,记子带i的排序所得编号为pSi,得到最后的子带排序编号PSi={pS1,pS2,...,pS(N-1),pSN}
步骤7,对步骤6所得子带排序编号PSi={pS1,pS2,...,pS(N-1),pSN}进行熵编码,将编码结果作为码流的一部分输出给解码端;
步骤8,根据步骤3所得频谱系数sum(i)和diff(i),按照步骤6所得排序后的子带编号P={p1,p2,...,p(N-1),pN}对每个子带进行比特数的分配;
步骤9,按照步骤6所得排序后的子带编号P={p1,p2,...,p(N-1),pN},以子带重要性测度由大到小的顺序依次取一个子带,对步骤3所得频谱系数sum(i)和diff(i),按步骤8所得分配的比特数进行球型矢量量化编码,直到编码器给定传输码率下可用的所有编码比特数用完,将编码结果作为码流的一部分输出给解码端。
其中步骤6,进一步包括以下步骤:
步骤6.1,根据步骤5所得两个声道的各个子带的频谱系数xl(i)和xr(i),计算出各个子带的声道间强度差ILi和IRi分别表示第i个子带左声道和右声道的能量和;将当前帧各个子带的声道间强度差与上一帧的相应子带的声道间强度差计算差值,按照差值绝对值从大到小的顺序对子带进行排序,记子带i的排序所得编号为pSi,得到所有子带排序的编号PSi={pS1,pS2,...,pS(N-1),pSN};
步骤6.2,根据步骤5所得两个声道的各个子带的频谱系数xl(i)和xr(i),计算出各个子带的频率依赖相关性 R i = | G lr ( i ) | 2 G rr ( i ) G ll ( i ) , 变量 G lr ( i ) = ⟨ x l * ( i ) x r ( i ) ⟩ , 变量 G ll ( i ) = ⟨ | x l ( i ) | 2 ⟩ , 变量 表示xl(i)的复共轭,〈·〉表示跨时均值;将当前帧各个子带的频率依赖相关性系数与上一帧相应子带的频率依赖相关性系数计算差值,按照差值绝对值从大到小的顺序对N个子带进行排序,记子带i的排序所得编号为pRi,得到所有子带排序的编号PRi={pR1,pR2,...,pR(N-1),pRN};
步骤6.3,根据步骤5所得两个声道的各个子带的频谱系数xl(i)和xr(i),计算出各个子带的能量和Ii=ILi+IRi,按照能量从高到低的顺序对N个子带进行排序,记子带i的排序所得编号为pIi,得到所有子带排序的编号PIi={pI1,pI2,...,pI(N-1),pIN};
步骤6.4,根据步骤5所得两个声道的各个子带的频谱系数xl(i)和xr(i),计算各个子带基于人耳对频率成分的感知敏感度,按照感知敏感性从高到低的顺序对子带进行排序,记子带i的排序所得编号为pFi,得到所有子带排序的编号PFi={pF1,pF2,...,pF(N-1),pFN};
步骤6.5,对步骤6.1、步骤6.2、步骤6.3、步骤6.4所得结果,进行加权求和得到最终的子带重要性测度npi=λ1pSi2pRi3pIi4pFi,根据加权求和结果从低到高对N个子带进行排序,得到最后的子带排序编号P={p1,p2,...,p(N-1),pN};其中,λ1、λ2、λ3、λ4分别为方位感知测度、距离感知测度、能量感知测度、频率感知测度的相应权值。
具体实施时,步骤6.1、6.2、6.3和6.4可并列进行。
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案,都落入本发明的保护范围。

Claims (4)

1.一种基于子带空间关注测度的可分级音频编码系统,其特征在于,包括以下模块:
预处理模块,用于对双声道输入信号进行预处理,得到两个声道的当前帧的音频信号sl和sr并做三路输出,一路输出给核心编码器模块,一路输出给残差提取模块,一路输出给时频变换模块;
核心编码器模块,用于对从预处理模块输入的音频信号sl和sr进行编码,编码结果分作两路,其中一路作为码流的一部分输出给解码端;一路解码得到两个声道的重构信号输出给残差提取模块;
残差提取模块,用于根据从预处理模块输入的音频信号sl和sr和从核心编码器模块输入的重构信号得到两个声道的残差信号el和er对残差信号el和er进行时频变换得到两个声道的残差频谱系数efl和efr,下混为和声道sum和差声道diff,对sum和diff进行频谱子带划分,将所得和声道和差声道各个子带的频谱系数sum(i)和diff(i)分两路输出,一路输出给残差量化编码模块,一路输出给比特分配模块,i取值1,2,…,N,子带数N>1;
时频变换模块,用于对从预处理模块输入的音频信号sl和sr进行时频变换,得到频谱系数xl和xr,输出给子带划分模块;
子带划分模块,用于对时频变换模块输入的频谱系数xl和xr进行子带划分,得到两个声道的子带频谱系数xl(i)和xr(i),输出给基于空间关注的子带重要性测度模块;
基于空间关注的子带重要性测度模块,用于根据从子带划分模块输入的两个声道的子带频谱系数xl(i)和xr(i),基于能量、频率和空间信息综合计算各子带的子带重要性测度npi,按照子带重要性从高到低对N个子带进行排序,记子带i的排序所得编号为pSi,得到最后的子带排序编号PSi={pS1,pS2,...,pS(N-1),pSN}并做两路输出,一路输出给子带测度编码模块,一路输出给比特分配模块;
子带测度编码模块,用于对从基于空间关注的子带重要性测度模块输入的子带排序编号PSi={pS1,pS2,...,pS(N-1),pSN}进行熵编码,将编码结果作为码流的一部分输出给解码端;
比特分配模块,用于根据从残差提取模块输入的频谱系数sum(i)和diff(i),按照从基于空间关注的子带重要性测度模块输入的排序后的子带编号P={p1,p2,...,p(N-1),pN}对每个子带进行比特数的分配,将分配的比特数输出给残差量化编码模块;
残差量化编码模块,用于按照从基于空间关注的子带重要性测度模块输入的排序后的子带编号P={p1,p2,...,p(N-1),pN},以子带重要性测度由大到小的顺序依次取一个子带,对从残差提取模块输入的该子带的频谱系数sum(i)和diff(i),按比特分配模块所得该子带分配的比特数进行球型矢量量化编码,直到编码器给定传输码率下可用的所有编码比特数用完,将编码结果作为码流的一部分输出给解码端。
2.根据权利要求1所述基于子带空间关注测度的可分级音频编码系统,其特征在于:所述基于空间关注的子带重要性测度模块包括方位感知测度模块、距离感知测度模块、能量感知测度模块、频率感知测度模块和子带空间关注模块,
方位感知测度模块,用于根据子带划分模块所得两个声道的各个子带的频谱系数xl(i)和xr(i),计算出各个子带的声道间强度差ILi和IRi分别表示第i个子带左声道和右声道的能量和;将当前帧各个子带的声道间强度差与上一帧的相应子带的声道间强度差计算差值,按照差值绝对值从大到小的顺序对子带进行排序,记子带i的排序所得编号为pSi,得到所有子带排序的编号PSi={pS1,pS2,...,pS(N-1),pSN}并输出给子带空间关注模块;
距离感知测度模块,用于根据子带划分模块所得两个声道的各个子带的频谱系数xl(i)和xr(i),计算出各个子带的频率依赖相关性变量变量变量 表示xl(i)的复共轭,〈·〉表示跨时均值;将当前帧各个子带的频率依赖相关性系数与上一帧相应子带的频率依赖相关性系数计算差值,按照差值绝对值从大到小的顺序对N个子带进行排序,记子带i的排序所得编号为pRi,得到所有子带排序的编号PRi={pR1,pR2,...,pR(N-1),pRN}并输出给子带空间关注模块;
能量感知测度模块,用于根据子带划分模块所得两个声道的各个子带的频谱系数xl(i)和xr(i),计算出各个子带的能量和Ii=ILi+IRi,按照能量从高到低的顺序对N个子带进行排序,记子带i的排序所得编号为pIi,得到所有子带排序的编号PIi={pI1,pI2,...,pI(N-1),pIN}并输出给子带空间关注模块;
频率感知测度模块,用于根据子带划分模块所得两个声道的各个子带的频谱系数xl(i)和xr(i),计算各个子带基于人耳对频率成分的感知敏感度,按照感知敏感性从高到低的顺序对子带进行排序,记子带i的排序所得编号为pFi,得到所有子带排序的编号PFi={pF1,pF2,...,pF(N-1),pFN}输出给子带空间关注模块;
子带空间关注模块,用于对方位感知测度模块、距离感知测度模块、能量感知测度模块、频率感知测度模块所得结果,进行加权求和得到最终的子带重要性测度npi=λ1pSi2pRi3pIi4pFi,根据加权求和结果从低到高对N个子带进行排序,得到最后的子带排序编号P={p1,p2,...,p(N-1),pN},做两路输出,一路输出给子带测度编码模块;一路输出给比特分配模块;其中,λ1、λ2、λ3、λ4分别为方位感知测度、距离感知测度、能量感知测度、频率感知测度的相应权值。
3.一种基于子带空间关注测度的可分级音频编码方法,其特征在于,包括以下步骤:
步骤1,对双声道输入信号进行预处理,得到两个声道的当前帧的音频信号sl和sr
步骤2,对步骤1所得音频信号sl和sr进行编码,编码结果分作两路,其中一路作为码流的一部分输出给解码端,一路解码得到两个声道的重构信号
步骤3,根据步骤1所得音频信号sl和sr和步骤2所得重构信号得到两个声道的残差信号el和er对残差信号el和er进行时频变换得到两个声道的残差频谱系数efl和efr,下混为和声道sum和差声道diff,对sum和diff进行频谱子带划分,得到和声道和差声道各个子带的频谱系数sum(i)和diff(i),i取值1,2,…,N,子带数N>1;
步骤4,由步骤1所得音频信号sl和sr,进行时频变换得到频谱系数xl和xr
步骤5,对步骤4所得频谱系数xl和xr进行子带划分,得到两个声道的子带频谱系数xl(i)和xr(i);
步骤6,根据步骤5所得两个声道的子带频谱系数xl(i)和xr(i),基于能量、频率和空间信息综合计算各子带的子带重要性测度npi,按照子带重要性从高到低对N个子带进行排序,记子带i的排序所得编号为pSi,得到最后的子带排序编号PSi={pS1,pS2,...,pS(N-1),pSN}
步骤7,对步骤6所得子带排序编号PSi={pS1,pS2,...,pS(N-1),pSN}进行熵编码,将编码结果作为码流的一部分输出给解码端;
步骤8,根据步骤3所得频谱系数sum(i)和diff(i),按照步骤6所得排序后的子带编号P={p1,p2,...,p(N-1),pN}对每个子带进行比特数的分配;
步骤9,按照步骤6所得排序后的子带编号P={p1,p2,...,p(N-1),pN},以子带重要性测度由大到小的顺序依次取一个子带,对步骤3所得频谱系数sum(i)和diff(i),按步骤8所得分配的比特数进行球型矢量量化编码,直到编码器给定传输码率下可用的所有编码比特数用完,将编码结果作为码流的一部分输出给解码端。
4.根据权利要求3述基于子带空间关注测度的可分级音频编码方法,其特征在于:步骤6进一步包括以下子步骤,
步骤6.1,根据步骤5所得两个声道的各个子带的频谱系数xl(i)和xr(i),计算出各个子带的声道间强度差ILi和IRi分别表示第i个子带左声道和右声道的能量和;将当前帧各个子带的声道间强度差与上一帧的相应子带的声道间强度差计算差值,按照差值绝对值从大到小的顺序对子带进行排序,记子带i的排序所得编号为pSi,得到所有子带排序的编号PSi={pS1,pS2,...,pS(N-1),pSN};
步骤6.2,根据步骤5所得两个声道的各个子带的频谱系数xl(i)和xr(i),计算出各个子带的频率依赖相关性 R i = | G lr ( i ) | 2 G rr ( i ) G ll ( i ) , 变量 G lr ( i ) = ⟨ x l * ( i ) x r ( i ) ⟩ , 变量 G ll ( i ) = ⟨ | x l ( i ) | 2 ⟩ , 变量 表示xl(i)的复共轭,〈·〉表示跨时均值;将当前帧各个子带的频率依赖相关性系数与上一帧相应子带的频率依赖相关性系数计算差值,按照差值绝对值从大到小的顺序对N个子带进行排序,记子带i的排序所得编号为pRi,得到所有子带排序的编号PRi={pR1,pR2,...,pR(N-1),pRN};
步骤6.3,根据步骤5所得两个声道的各个子带的频谱系数xl(i)和xr(i),计算出各个子带的能量和Ii=ILi+IRi,按照能量从高到低的顺序对N个子带进行排序,记子带i的排序所得编号为pIi,得到所有子带排序的编号PIi={pI1,pI2,...,pI(N-1),pIN};
步骤6.4,根据步骤5所得两个声道的各个子带的频谱系数xl(i)和xr(i),计算各个子带基于人耳对频率成分的感知敏感度,按照感知敏感性从高到低的顺序对子带进行排序,记子带i的排序所得编号为pFi,得到所有子带排序的编号PFi={pF1,pF2,...,pF(N-1),pFN};
步骤6.5,对步骤6.1、步骤6.2、步骤6.3、步骤6.4所得结果,进行加权求和得到最终的子带重要性测度npi=λ1pSi2pRi3pIi4pFi,根据加权求和结果从低到高对N个子带进行排序,得到最后的子带排序编号P={p1,p2,...,p(N-1),pN};其中,λ1、λ2、λ3、λ4分别为方位感知测度、距离感知测度、能量感知测度、频率感知测度的相应权值。
CN201410181636.0A 2014-04-30 2014-04-30 基于子带空间关注测度的可分级音频编码系统及方法 Expired - Fee Related CN103928030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410181636.0A CN103928030B (zh) 2014-04-30 2014-04-30 基于子带空间关注测度的可分级音频编码系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410181636.0A CN103928030B (zh) 2014-04-30 2014-04-30 基于子带空间关注测度的可分级音频编码系统及方法

Publications (2)

Publication Number Publication Date
CN103928030A true CN103928030A (zh) 2014-07-16
CN103928030B CN103928030B (zh) 2017-03-15

Family

ID=51146228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410181636.0A Expired - Fee Related CN103928030B (zh) 2014-04-30 2014-04-30 基于子带空间关注测度的可分级音频编码系统及方法

Country Status (1)

Country Link
CN (1) CN103928030B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104240712A (zh) * 2014-09-30 2014-12-24 武汉大学深圳研究院 一种三维音频多声道分组聚类编码方法及系统
CN106023999A (zh) * 2016-07-11 2016-10-12 武汉大学 用于提高三维音频空间参数压缩率的编解码方法及系统
CN108417219A (zh) * 2018-02-22 2018-08-17 武汉大学 一种适应于流媒体的音频对象编解码方法
CN108886650A (zh) * 2016-01-18 2018-11-23 云加速360公司 用于音频再现的子带空间和串扰消除
GB2575305A (en) * 2018-07-05 2020-01-08 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
CN110739000A (zh) * 2019-10-14 2020-01-31 武汉大学 一种适应于个性化交互系统的音频对象编码方法
WO2020043935A1 (en) 2018-08-31 2020-03-05 Nokia Technologies Oy Spatial parameter signalling
US10721564B2 (en) 2016-01-18 2020-07-21 Boomcloud 360, Inc. Subband spatial and crosstalk cancellation for audio reporoduction
US10764704B2 (en) 2018-03-22 2020-09-01 Boomcloud 360, Inc. Multi-channel subband spatial processing for loudspeakers
CN111881090A (zh) * 2020-07-27 2020-11-03 山东女子学院 一种音乐片段提取方法及设备
US10841728B1 (en) 2019-10-10 2020-11-17 Boomcloud 360, Inc. Multi-channel crosstalk processing
WO2021218558A1 (zh) * 2020-04-30 2021-11-04 华为技术有限公司 音频信号的比特分配方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101217037A (zh) * 2007-01-05 2008-07-09 华为技术有限公司 对音频信号的编码速率进行源控的方法和系统
CN101950562A (zh) * 2010-11-03 2011-01-19 武汉大学 基于音频关注度的分级编码方法及系统
CN102074243A (zh) * 2010-12-28 2011-05-25 武汉大学 一种基于比特平面的感知音频分级编码系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101217037A (zh) * 2007-01-05 2008-07-09 华为技术有限公司 对音频信号的编码速率进行源控的方法和系统
CN101950562A (zh) * 2010-11-03 2011-01-19 武汉大学 基于音频关注度的分级编码方法及系统
CN102074243A (zh) * 2010-12-28 2011-05-25 武汉大学 一种基于比特平面的感知音频分级编码系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周成: "《博士学位论文》", 30 December 2012 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104240712B (zh) * 2014-09-30 2018-02-02 武汉大学深圳研究院 一种三维音频多声道分组聚类编码方法及系统
CN104240712A (zh) * 2014-09-30 2014-12-24 武汉大学深圳研究院 一种三维音频多声道分组聚类编码方法及系统
US10721564B2 (en) 2016-01-18 2020-07-21 Boomcloud 360, Inc. Subband spatial and crosstalk cancellation for audio reporoduction
CN108886650A (zh) * 2016-01-18 2018-11-23 云加速360公司 用于音频再现的子带空间和串扰消除
CN108886650B (zh) * 2016-01-18 2020-11-03 云加速360公司 用于音频再现的子带空间和串扰消除
CN106023999A (zh) * 2016-07-11 2016-10-12 武汉大学 用于提高三维音频空间参数压缩率的编解码方法及系统
CN106023999B (zh) * 2016-07-11 2019-06-11 武汉大学 用于提高三维音频空间参数压缩率的编解码方法及系统
CN108417219A (zh) * 2018-02-22 2018-08-17 武汉大学 一种适应于流媒体的音频对象编解码方法
US10764704B2 (en) 2018-03-22 2020-09-01 Boomcloud 360, Inc. Multi-channel subband spatial processing for loudspeakers
GB2575305A (en) * 2018-07-05 2020-01-08 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
US11676612B2 (en) 2018-07-05 2023-06-13 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
WO2020043935A1 (en) 2018-08-31 2020-03-05 Nokia Technologies Oy Spatial parameter signalling
CN112970062A (zh) * 2018-08-31 2021-06-15 诺基亚技术有限公司 空间参数信令
US10841728B1 (en) 2019-10-10 2020-11-17 Boomcloud 360, Inc. Multi-channel crosstalk processing
US11284213B2 (en) 2019-10-10 2022-03-22 Boomcloud 360 Inc. Multi-channel crosstalk processing
CN110739000A (zh) * 2019-10-14 2020-01-31 武汉大学 一种适应于个性化交互系统的音频对象编码方法
CN110739000B (zh) * 2019-10-14 2022-02-01 武汉大学 一种适应于个性化交互系统的音频对象编码方法
WO2021218558A1 (zh) * 2020-04-30 2021-11-04 华为技术有限公司 音频信号的比特分配方法和装置
TWI773286B (zh) * 2020-04-30 2022-08-01 大陸商華為技術有限公司 音頻訊號的比特分配方法和裝置
US11900950B2 (en) 2020-04-30 2024-02-13 Huawei Technologies Co., Ltd. Bit allocation method and apparatus for audio signal
CN111881090A (zh) * 2020-07-27 2020-11-03 山东女子学院 一种音乐片段提取方法及设备

Also Published As

Publication number Publication date
CN103928030B (zh) 2017-03-15

Similar Documents

Publication Publication Date Title
CN103928030A (zh) 基于子带空间关注测度的可分级音频编码系统及方法
CN100546233C (zh) 用于支持多声道音频扩展的方法和设备
CN1748443B (zh) 多声道音频扩展支持
CN101443842B (zh) 信息信号编码
CN101583994B (zh) 对音频和/或语音信号进行编码和/或解码的方法和设备
CN101276587B (zh) 声音编码装置及其方法和声音解码装置及其方法
CN101484936B (zh) 音频解码
CN105247613A (zh) 音频处理系统
CN108694955B (zh) 多声道信号的编解码方法和编解码器
CN101149925B (zh) 一种用于参数立体声编码的空间参数选取方法
CN105103225A (zh) 立体声音频编码器和解码器
CN102016982B (zh) 结合装置、远程通信系统以及结合方法
CN1822508B (zh) 对数字信号进行编码和解码的方法和设备
JP7280306B2 (ja) 改良されたミッド/サイド決定を持つ包括的なildを持つmdct m/sステレオのための装置および方法
CN100571043C (zh) 一种空间参数立体声编解码方法及其装置
CN105164749B (zh) 多声道音频的混合编码
CN102737647A (zh) 双声道音频音质增强编解码方法及装置
CN103262158A (zh) 对解码的多声道音频信号或立体声信号进行后处理的装置和方法
CN103534753A (zh) 用于信道间差估计的方法和空间音频编码装置
CN110462733B (zh) 多声道信号的编解码方法和编解码器
US9830919B2 (en) Acoustic signal coding apparatus, acoustic signal decoding apparatus, terminal apparatus, base station apparatus, acoustic signal coding method, and acoustic signal decoding method
CN102243876B (zh) 预测残差信号的量化编码方法及装置
CN101800050B (zh) 基于感知自适应比特分配的音频精细分级编码方法及系统
CN102074243B (zh) 一种基于比特平面的感知音频分级编码系统及方法
CN101950562A (zh) 基于音频关注度的分级编码方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170315

Termination date: 20190430