CN102074243B - 一种基于比特平面的感知音频分级编码系统及方法 - Google Patents
一种基于比特平面的感知音频分级编码系统及方法 Download PDFInfo
- Publication number
- CN102074243B CN102074243B CN201010608697A CN201010608697A CN102074243B CN 102074243 B CN102074243 B CN 102074243B CN 201010608697 A CN201010608697 A CN 201010608697A CN 201010608697 A CN201010608697 A CN 201010608697A CN 102074243 B CN102074243 B CN 102074243B
- Authority
- CN
- China
- Prior art keywords
- subband
- module
- perception
- signal
- bit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及音频编码技术领域,尤其涉及一种基于比特平面的感知音频分级编码系统及方法。本发明针对中低码率条件下码率限制的需求,设计了一种三层的分级编码方法,第一层为核心编码层,第二层为第一增强层,第三层为第二增强层,其中分级编码增强层包括残差提取模块、子带划分模块、基于比特平面感知测度计算模块、比特分配模块、矢量量化模块。本发明根据平均比特平面作为子带的优先级的可分级码率分配策略,相比能量作为感知重要度具有更明显的指导意义。
Description
技术领域
本发明涉及音频编码技术领域,尤其涉及一种基于比特平面的感知音频分级编码系统及方法。
背景技术
在实际网络应用中,不同的客户终端具有不同的带宽限制和需求,如在安防监控系统中,由于采用不同的监控终端与网络系统提供不同的服务质量,异构的安防监控网络导致网络带宽波动频繁,因此采取固定的码率模式无法为客户不同的需求提供最优的码流。目前的接入方法包括电话线调制解调器、线缆调制解调器、综合业务数字网、各种类型的数字用户和光缆等,不同的接口用户具有不同的码率,如果只按低码率压缩,所有用户都只能接收到低质量的实时音频,这对具有高带宽的用户很浪费。如果按高码率压缩,尽管音频的质量有了很大的提高,但低带宽的用户无法接收实时音频信息。
可分级编码技术是解决这一问题的有效手段,它将码流划分为一个核心层及多个增强层,其中核心层保证信号的最低重建质量,增强层则通过提高信噪比或者扩展频带的方式渐次改善重建质量。接收到的增强层数越多,解码音质越高。分级编码只需要提供一个唯一的码流,不需要为不同网络和客户端提供不同的码流,网络设备和客户端可以通过直接截短码流的方式实现码率的平滑切换,适应不同网络的带宽波动,满足不同客户端的应用需求。传统的可分级编码通常针对人耳感知特性,依据子带信号能量或信掩比等特征作为码率分配策略的依据,边信息码率耗费大。本方法主要是依据最大比特平面作为人耳的感知重要性测度准则指导增强层的编码,在码率有限的情况下,以最大比特平面作为测度准则可以减少边信息码率,从而为谱系数的量化带来更大的增益,因此在中低码率条件下能提高了分级音频编码的主观听觉效果。
发明内容
针对上述存在的技术问题,本发明的目的是提供一种基于比特平面的感知音频分级编码系统及方法,提高分级音频编码的主观听觉效果。
为达到上述目的,本发明采用如下的技术方案:
一种基于比特平面的感知音频分级编码系统:
预处理模块:对输入信号进行预处理,其输入为音频原始信号,输出为预处理后的信号,预处理后的信号做两路输出:一路输出给核心编码器模块;一路输出给分级编码增强层中的残差提取模块;
核心编码器模块:本模块输入为预处理后的信号,采用通用的核心编码方法对预处理后的信号进行编码,编码后作两路输出:其中一路作为码流的一部分输出给解码端;一路解码后得到解码重构信号输出给残差提取模块;
残差提取模块:预处理后的信号和解码重构后的信号作为本模块的输入,得到残差信号,输出给子带划分模块;
子带划分模块:残差提取模块得到的残差信号作为本模块的输入,首先对残差信号进行感知加权域的滤波处理,然后经过时频变换,变换后的频域信号再进行子带的划分,得到频域子带残差信号,一路输出给基于比特平面的感知信息计算模块;另一路输出给矢量量化模块;
基于比特平面的感知信息计算模块:频域子带残差信号作为本模块的输入,计算每个子带基于比特平面的感知测度,然后对感知测度值按照从大到小的顺序进行排列和熵编码,作为增强层码流的一部分;另一路将排序好的子带编号和感知测度输出给比特分配模块;所述基于比特平面的感知信息计算模块通过计算每个子带的绝对平均值,对子带绝对平均值求取其最大比特平面,以最大比特平面为依据计算感知测度;计算公式如下:
比特分配模块:排序好的子带编号和子带感知测度作为本模块的输入,按照排序结果和感知测度对每个子带进行比特数的分配,将分配的比特数输出给矢量量化模块;
矢量量化模块:分配的比特数作为本模块的输入,根据子带分配的比特数进行矢量量化,作为增强层码流的一部分输出给解码端。
一种基于比特平面的感知音频分级编码方法:
①输入音频信号首先通过预处理,输入信号可以是单声道或多声道信号,所述预处理包括高通滤波、分帧处理,得到预处理后的音频信号s(n);
④根据③所得进行子带的划分的结果,计算子带绝对幅度平均值的最大比特平面和计算感知重测度并对感知测度值进行按照从大到小的顺序进行排列;
⑤依据④中的排序结果对子带绝对幅度平均值的最大比特平面进行熵编码;
⑥按照④中的排序结果指导矢量量化;
⑦判断用于编码的比特数是否用尽,是则结束编码,否则返回⑥继续量化。
所述步骤④进一步包括以下步骤:
子带信号绝对值求和步骤:对每一个子带当中的谱系数先求其绝对值,然后求得子带谱系数的绝对平均值;
平均值的最大比特平面数计算步骤:将所有子带的绝对平均值表现在比特平面上,求得每个子带绝对幅度平均值的最大比特平面数;
感知测度计算步骤:对每个子带的感知测度按照如下公式进行计算:
感知测度排序步骤:对所有子带的感知测度信息按照从大到小的顺序进行排序。
本发明具有以下优点和积极效果:
本发明根据平均比特平面作为子带的优先级的可分级码率分配策略,相比能量作为感知测度具有更明显的指导意义。
附图说明
图1是本发明提供的基于比特平面的感知音频分级编码系统的框架示意图。
图2是本发明提供的基于比特平面的感知音频分级编码方法的子带划分示意图。
图3是本发明中基于比特平面的感知测度计算的流程图。
图4是本发明提供的基于比特平面的感知音频分级编码方法在实际应用中的框图。
1000-音频原始信号,1001-预处理后信号,1002-解码后重构信号,1003-残差信号,1004-频域子带残差信号,1005-子带感知测度,1006-分配的比特数;
2000-音频原始信号,2001-预处理后信号,2002-解码后重构信号,2003-残差信号,2004-频域子带残差信号,2005-子带感知测度,2006-分配的比特数。
具体实施方式
本发明针对中低码率条件下码率限制的需求,设计了一种三层的分级编码方法,第一层为核心编码层,第二层为第一增强层,第三层为第二增强层,其中分级编码增强层包括残差提取模块、子带划分模块、基于比特平面感知测度计算模块、比特分配模块、矢量量化模块,下面详细对本发明提供的基于比特平面的感知音频分级编码系统详细描述,该系统包括:
预处理模块:对输入信号进行预处理,其输入为音频原始信号,输出为预处理后的信号,预处理后的信号做两路输出:一路输出给核心编码器模块;一路输出给分级编码增强层(如图2虚线框所示)中的残差提取模块;
核心编码器模块:本模块输入为预处理后的信号,采用一般的通用核心编码方法对预处理后的信号进行编码,编码后作两路输出:其中一路作为码流的一部分输出给解码端;一路解码后得到解码重构信号输出给残差提取模块;
残差提取模块:预处理后的信号和解码重构后的信号作为本模块的输入,得到残差信号,输出给子带划分模块;
子带划分模块:残差提取模块得到的残差信号作为本模块的输入,首先对残差信号进行感知加权域的滤波处理,然后经过时频变换,变换后的频域信号再进行子带的划分,得到频域子带残差信号,一路输出感知测度计算模块;另一路输出给矢量量化模块。
基于比特平面的感知信息计算模块:频域子带残差信号作为本模块的输入,计算每个子带基于比特平面的感知测度,然后对感知测度值按照从大到小的顺序进行排列和熵编码,作为增强层码流的一部分;另一路将排序好的子带编号和感知测度输出给比特分配模块。
比特分配模块:排序好的子带编号和子带感知测度作为本模块的输入,按照排序结果和感知测度对每个子带进行比特数的分配,将分配的比特数输出给矢量量化模块。
矢量量化模块:分配的比特数作为本模块的输入,根据子带分配的比特数进行矢量量化,作为增强层码流的一部分输出给解码端。
本发明提供的基于比特平面的感知音频分级编码方法具体步骤包括:
步骤1:对输入信号1000进行预处理,而预处理具体包括高通滤波、感知加权等过程,输出信号为预处理后信号s(n)1001;将输入信号1000送入高通滤波器,滤除直流噪声;将高通滤波后的信号送入感知加权滤波器。
步骤4:计算n个子带中每个子带的感知测度,并根据感知测度大小从大到小进行排序,提取感知测度最大的子带;图2提供了一个子带排序的示意图,具体实施方式包括以下子步骤:
(1)计算子带信号绝对值求和
对于每一个子带,先求子带当中每个谱系数的绝对值,然后求得子带谱系数的绝对平均值。
(2)计算平均值的最大比特平面数
将子带的绝对平均值转换为二进制数,从最高有效位到最低有效位,得到子带绝对平均值的最大比特平面数。
(3)子带感知测度计算;
本方法感知测度的计算方法是依据子带的平均比特平面数的计算结果,利用如下公式计算感知测度信息:
(4)感知测度排序
对所有子带的感知测度信息按照从大到小的顺序进行排序。
步骤5:对上述子带的绝对平均值的最大比特平面进行差分的Huffman编码。
步骤6:根据步骤4获得的感知测度最大的子带,首先对该子带进行量化编码,当量化完后提取感知测度次高的子带,对其进行量化编码,接下来依次类推。
步骤7:判断用于编码的比特数是否用尽,如果用尽则结束编码,如果未用尽则返回步骤5继续量化。
下面进一步以具体实例结合附图4对本发明作进一步说明:
步骤101:对输入信号(2000)进行预处理,而预处理具体包括高通滤波、感知加权和时频变换三个过程,输出信号为s(n)(2001);将输入信号(2000)送入高通滤波器,滤除50HZ以下的低频信号;将高通滤波后的信号送入感知加权滤波器WLB(z),同时γ′1,γ′2以及γ′3(0<γ′1,γ′2,γ′3<1)三个系数也相应调整以缓和量化噪声谱:
步骤103:对步骤101的输出结果s(n)(2001)与步骤102的输出结果作差得到残差信号e(n)对e(n)(2003)进行MDCT变换,对MDCT变换后的频域信号进行频谱子带划分,此处假设将整个频谱均匀划分为16个子带。图2为均匀划分为8个子带的示意图,横轴表示子带频域划分范围,纵轴表示频域能量幅值,其中低频核心层编码是本发明的基础,不在本发明考虑范围内。根据残差计算出来的子带在图中分别用数字“1”到“8”标示,其中子带1、子带2、子带3和子带4是低频音频子带,子带5、子带6、子带7和子带8是高频音频子带,16个子带的划分与8个子带划分同理。
步骤104:计算16个子带的每个子带的感知测度,并根据感知测度大小从大到小顺序将子带进行排序,提取感知测度最大的子带,具体实施方式为:
(1)定义Xi为子带中的谱系数绝对值,即Xi=|Yi|,用如下公式求得绝对平均值:
(2)定义Lk为第k个子带的平均比特平面,Xi为子带的频谱系数,用如下公式计算每个子带感知测度:
Lk=log2subk k=1,2......16
(3)定义ip(k)为第k个子带的感知测度,sk为第k个子带的感知加权值,用如下公式计算感知测度:
(4)根据上式计算所得的每个子带的感知测度,对各子带统一进行感知测度的大小的排序,提取感知测度最大的子带,送入步骤105进行量化/编码。
步骤105:将子带的平均比特平面数进行差分Huffman编码传入解码端。
步骤106:根据步骤104获得的感知测度最大的子带,对该子带进行球型矢量量化编码,量化完这个子带后,提取感知测度第二大的子带进行量化,依次类推。
步骤107:判断用于编码的比特数是否用尽,如果用尽则结束编码,否则返回步骤104继续量化。
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案,都落入本发明的保护范围。
Claims (2)
1.一种基于比特平面的感知音频分级编码系统,其特征在于:
预处理模块:对输入信号进行预处理,其输入为音频原始信号,输出为预处理后的信号,预处理后的信号做两路输出:一路输出给核心编码器模块;一路输出给分级编码增强层中的残差提取模块;
核心编码器模块:本模块输入为预处理后的信号,采用通用的核心编码方法对预处理后的信号进行编码,编码后作两路输出:其中一路作为码流的一部分输出给解码端;一路解码后得到解码重构信号输出给残差提取模块;
残差提取模块:预处理后的信号和解码重构后的信号作为本模块的输入,得到残差信号,输出给子带划分模块;
子带划分模块:残差提取模块得到的残差信号作为本模块的输入,首先对残差信号进行感知加权域的滤波处理,然后经过时频变换,变换后的频域信号再进行子带的划分,得到频域子带残差信号,一路输出给基于比特平面的感知信息计算模块;另一路输出给矢量量化模块;
基于比特平面的感知信息计算模块:频域子带残差信号作为本模块的输入,计算每个子带基于比特平面的感知测度,然后对感知测度值按照从大到小的顺序进行排列和熵编码,作为增强层码流的一部分;另一路将排序好的子带编号和感知测度输出给比特分配模块;所述基于比特平面的感知信息计算模块通过计算每个子带的绝对平均值,对子带绝对平均值求取其最大比特平面,以最大比特平面为依据计算感知测度;计算公式如下:
比特分配模块:排序好的子带编号和子带感知测度作为本模块的输入,按照排序结果和感知测度对每个子带进行比特数的分配,将分配的比特数输出给矢量量化模块;
矢量量化模块:分配的比特数作为本模块的输入,根据子带分配的比特数进行矢量量化,作为增强层码流的一部分输出给解码端。
2.一种基于比特平面的感知音频分级编码方法,其特征在于,包括以下步骤:
①输入音频信号首先通过预处理,输入音频信号是单声道或多声道信号,所述预处理包括高通滤波、分帧处理,得到预处理后的音频信号s(n);
④根据③所得进行子带的划分的结果,计算子带绝对幅度平均值的最大比特平面和计算感知测度并对感知测度值进行按照从大到小的顺序进行排列;
⑤依据④中的排序结果对子带绝对幅度平均值的最大比特平面进行熵编码;
⑥按照④中的排序结果指导矢量量化;
⑦判断用于编码的比特数是否用尽,是则结束编码,否则返回⑥继续量化;所述步骤④进一步包括以下步骤:
子带信号绝对值求和步骤:对每一个子带当中的谱系数先求其绝对值,然后求得子带谱系数的绝对平均值;
平均值的最大比特平面数计算步骤:将所有子带的绝对平均值表现在比特平面上,求得每个子带绝对幅度平均值的最大比特平面数;
感知测度计算步骤:对每个子带的感知测度按照如下公式进行计算:
感知测度排序步骤:对所有子带的感知测度信息按照从大到小的顺序进行排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010608697A CN102074243B (zh) | 2010-12-28 | 2010-12-28 | 一种基于比特平面的感知音频分级编码系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010608697A CN102074243B (zh) | 2010-12-28 | 2010-12-28 | 一种基于比特平面的感知音频分级编码系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102074243A CN102074243A (zh) | 2011-05-25 |
CN102074243B true CN102074243B (zh) | 2012-09-05 |
Family
ID=44032761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010608697A Expired - Fee Related CN102074243B (zh) | 2010-12-28 | 2010-12-28 | 一种基于比特平面的感知音频分级编码系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102074243B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013149671A1 (en) | 2012-04-05 | 2013-10-10 | Huawei Technologies Co., Ltd. | Multi-channel audio encoder and method for encoding a multi-channel audio signal |
CN103928030B (zh) * | 2014-04-30 | 2017-03-15 | 武汉大学 | 基于子带空间关注测度的可分级音频编码系统及方法 |
CN104240712B (zh) * | 2014-09-30 | 2018-02-02 | 武汉大学深圳研究院 | 一种三维音频多声道分组聚类编码方法及系统 |
CN113314131B (zh) * | 2021-05-07 | 2022-08-09 | 武汉大学 | 一种基于两级滤波的多步音频对象编解码方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1681213A (zh) * | 2004-03-10 | 2005-10-12 | 三星电子株式会社 | 无损音频编码/解码方法和装置 |
CN1890711A (zh) * | 2003-10-10 | 2007-01-03 | 新加坡科技研究局 | 将数字信号编码成可扩缩比特流的方法和对可扩缩比特流解码的方法 |
CN1945695A (zh) * | 2005-10-04 | 2007-04-11 | 三星电子株式会社 | 对音频信号编码/解码的方法和设备 |
US7283966B2 (en) * | 2002-03-07 | 2007-10-16 | Microsoft Corporation | Scalable audio communications utilizing rate-distortion based end-to-end bit allocation |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100793287B1 (ko) * | 2006-01-26 | 2008-01-10 | 주식회사 코아로직 | 비트율 조절이 가능한 오디오 복호화 장치 및 그 방법 |
-
2010
- 2010-12-28 CN CN201010608697A patent/CN102074243B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7283966B2 (en) * | 2002-03-07 | 2007-10-16 | Microsoft Corporation | Scalable audio communications utilizing rate-distortion based end-to-end bit allocation |
CN1890711A (zh) * | 2003-10-10 | 2007-01-03 | 新加坡科技研究局 | 将数字信号编码成可扩缩比特流的方法和对可扩缩比特流解码的方法 |
CN1681213A (zh) * | 2004-03-10 | 2005-10-12 | 三星电子株式会社 | 无损音频编码/解码方法和装置 |
CN1945695A (zh) * | 2005-10-04 | 2007-04-11 | 三星电子株式会社 | 对音频信号编码/解码的方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN102074243A (zh) | 2011-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6518361B2 (ja) | オーディオ/音声符号化方法およびオーディオ/音声符号化装置 | |
CN1890711B (zh) | 将数字信号编码成可扩缩比特流的方法和对可扩缩比特流解码的方法 | |
CN101115051B (zh) | 音频信号处理方法、系统以及音频信号收发装置 | |
CN103928030B (zh) | 基于子带空间关注测度的可分级音频编码系统及方法 | |
US20070067166A1 (en) | Method and device of multi-resolution vector quantilization for audio encoding and decoding | |
JP7280306B2 (ja) | 改良されたミッド/サイド決定を持つ包括的なildを持つmdct m/sステレオのための装置および方法 | |
KR20080049085A (ko) | 음성 부호화 장치 및 음성 부호화 방법 | |
US9530422B2 (en) | Bitstream syntax for spatial voice coding | |
JP6600054B2 (ja) | 方法、符号化器、復号化器、及び移動体機器 | |
CN1918630B (zh) | 量化信息信号的方法和设备 | |
CN102074243B (zh) | 一种基于比特平面的感知音频分级编码系统及方法 | |
CN101950562A (zh) | 基于音频关注度的分级编码方法及系统 | |
CN101800050B (zh) | 基于感知自适应比特分配的音频精细分级编码方法及系统 | |
KR20050004596A (ko) | 계층적인 대역폭 구조를 갖는 음성 압축 및 복원 장치와그 방법 | |
JP5308519B2 (ja) | 改善されたオーディオ符号化のマルチモード方式 | |
CN103165134B (zh) | 音频信号高频参数编解码装置 | |
CN105957533B (zh) | 语音压缩方法、语音解压方法及音频编码器、音频解码器 | |
JP2011008250A (ja) | ビット率拡張音声符号化及び復号化装置とその方法 | |
JP2003233397A (ja) | オーディオ符号化装置、オーディオ符号化プログラム及びオーディオ符号化データ伝送装置 | |
CN103503065A (zh) | 用于衰减低精确度重构的信号区域的方法和解码器 | |
CN104380377A (zh) | 用于可缩放低复杂度编码/解码的方法和装置 | |
CN101833953B (zh) | 降低多描述编解码冗余度的方法和装置 | |
CN1202513C (zh) | 音频编码、译码方法和装置及其应用 | |
KR20130047630A (ko) | 통신 시스템에서 신호 부호화 장치 및 방법 | |
CN104681032A (zh) | 一种语音通信方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120905 Termination date: 20211228 |
|
CF01 | Termination of patent right due to non-payment of annual fee |