CN101065796A - 利用声道间冗余进行编/解码的方法及装置 - Google Patents

利用声道间冗余进行编/解码的方法及装置 Download PDF

Info

Publication number
CN101065796A
CN101065796A CN200480044452.4A CN200480044452A CN101065796A CN 101065796 A CN101065796 A CN 101065796A CN 200480044452 A CN200480044452 A CN 200480044452A CN 101065796 A CN101065796 A CN 101065796A
Authority
CN
China
Prior art keywords
sound channel
integer
klt
module
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200480044452.4A
Other languages
English (en)
Inventor
潘兴德
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING E-WORLD TECHNOLOGY CO LTD
Original Assignee
BEIJING E-WORLD TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING E-WORLD TECHNOLOGY CO LTD filed Critical BEIJING E-WORLD TECHNOLOGY CO LTD
Publication of CN101065796A publication Critical patent/CN101065796A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种利用声道间冗余进行编/解码的方法及装置,其中所述的编码方法包括:将线性PCM信号通过修正离散余弦变换模块变换到频域,并由心理声学模块计算尺度因子带的掩蔽阈值;量化器根据尺度因子带的掩蔽阈值量化本区域的频域系数,得到各声道的整数系数;矩阵变换模块对所述的声道的整数系数进行矩阵变换,并将变换后的声道对整数系数经过熵编码和码流复用模块输出;本发明还提供了相应的装置及对应于编码的解码方法和装置。本发明对于有损编码,提高了音频信号编码效率;对于无损编码,去除了声道信号间的统计冗余,达到信号压缩的目的。本发明对于任何立体声和多声道音频编解码器,均可提高编解码的效率和质量。

Description

利用声道间冗余进行编 /解码的方法及装置 技术领域
本发明涉及音频编解码技术领域, 具体地说, 涉及一种利用声道间冗余 进行编 I解码的方法及装置。 背景技术
为得到高保真的数字音频信号, 需对数字音频信号进行音频编码或音频 压缩以便于存储和传输。 对音频信号进行编码的目的是用尽可能少的比特数 实现音频信号的透明表示, 例如原始输入的音频信号与经编码后输出的音频 信号之间几乎没有差别。
在二十世纪八十年代初, CD的出现体现了用数字表示音频信号的诸多优 点, 例如高保真度、 大动态范围和强鲁棒性。 然而, 这些优点都是以很高的 数据速率为代价的。 例如 CD质量的立体声信号的数字化所要求的采样率为 44. 1kHz, 且每个采样值需用 16 比特进行均匀量化, 这样, 没有经过压缩的 数据速率就达到了 1. 41Mb/s, 如此高的数据速率给数据的传输和存储带来极 大的不便, 特别是在多媒体应用和无线传输应用的场合下, 更是受到带宽和 成本的限制。 为了保持高质量的音频信号, 因此要求新的网络和无线多媒体 数字音频系统必须降低数据的速率, 且同时不损害音频的质量。 针对上述问 题, 目前已提出了多种既能得到很高压缩比又能产生高保真的音频信号的音 频压缩技术, 典型的有国际标准化组织 IS0/ IEC的 MPEG- 1/-2/- 4技术、 杜比 公司的 AC-2/AC-3技术、 索尼公司的 ATRAC/MiniDi sc/SDDS技术以及朗讯科 技的 PAC/EPAC/MPAC技术等。 下面选择 MPEG- 2 A AC技术、 杜比公司的 AC - 3 技术进行具体的说明。
图 1给出了 MPEG- 2 AAC编码器的方框图 , 该编码器包括增益控制器 101、 修正离散预先变换(MDCT )模块 102、 时域噪声整形模块 103、 强度 /耦合模 块 104、 心理声学模型、 二阶后向自适应预测器 105、 和 /差立体声模块 106、 比特分配和量化编码模块 107以及比特流复用模块 108 ,其中比特分配和量化 编码模块 107进一步包括压缩比 /失真处理控制器、 尺度因子模块、 非均匀量 化器和熵编码模块。
音频信号经过增益控制器 101后进入修正离散余弦变换模块 102 ,根据不 同的信号进行时频变换, 然后通过时域噪声整形模块 103对修正离散余弦变 换模块 102输出的频谱系数进行处理, 时域噪声整形技术是在频域上对频谱 系数进行线性预测分析, 然后依据上述分析控制量化噪声在时域上的形状, 以此达到控制预回声的目的。
强度 /耦合模块 104用于对信号强度的立体声编码, 由于对于高频段 (大 于 2kHz ) 的信号, 听觉的方向感与有关信号强度的变化(信号包络)有关, 而与信号的波形无关, 即恒包络信号对听觉方向感无影响, 因此可利用这一 特点以及多声道间的相关信息 , 将若干声道合成一个共同声道进行编码。
二阶后向自适应预测器 105用于消除稳态信号的冗余, 提高编码效率。 和差立体声 (M/S )模块 106用于操作声道对, 声道对是指诸如双声道信 号或多声道信号中的左右声道或左右环绕声道的两个声道。 M/S模块 106利用 声道对中两个声道之间的相关性以达到减少码率和提高编码效率的效果。
比特分配和量化编码模块 107是通过一个嵌套循环过程实现的, 其中非 均匀量化器进行的是有损编码, 而熵编码模块进行的是无损编码, 这样可以 去除冗余和减少相关。 嵌套循环包括内层循环和外层循环, 其中内层循环调 整非均匀量化器的步长直到所提供的比特用完, 外层循环则利用量化噪声与 掩蔽阈值的比来估计信号的编码质量。 最后经过编码的信号通过比特流复用 模块 108形成编码的音频流输出。
在釆样率可伸缩的情况下, 输入信号同时进行四频段多相位滤波器组 ( PQF )产生四个等带宽的频带, 每个频带利用 MDCT产生 256个频谱系数, 总共有 1024个。 在每个频带内都使用增益控制器 101。 而在解码器中可以忽 略高频的 PQF频带得到低采样率信号。
图 2给出了对应的 MPEG- 2 AAC解码器的方框示意图。 该解码器包括比特 流解复用模块 201、 无损解码模块 202、 逆量化器 203、 尺度因子模块 204、 和 /差立体声 (M/S )模块 205、 预测模块 206、 强度 /耦合模块 207、 时域噪声 整形模块 208、 逆修正离散余弦变换模块 ( IMDCT ) 209和增益控制模块 210。 编码的音频流经过比特流解复用模块 201 进行解复用, 得到相应的数据流和 控制流。 上述信号通过无损解码模块 202 的解码后, 得到尺度因子的整数表 示和信号谱的量化值。 逆量化器 203是一组通过压扩函数实现的非均匀量化 器组, 用于将整数量化值转换为重建谱。 由于编码器中的尺度因子模块是将 当前尺度因子与前一尺度因子进行差分, 然后将差分值采用 Huffman编码, 因此解码器中的尺度因子模块 204进行 Huffman解码可得到相应的差分值, 再恢复出真实的尺度因子。 M/S模块 205在边信息的控制下将和 /差声道转换 成左右声道。 由于在编码器中采用二阶后向自适应预测器 105 消除稳态信号 的冗余并提高编码效率, 因此在解码器中通过预测模块 206 进行预测解码。 强度 /耦合模块 207 在边信息的控制下进行强度 /耦合解码, 然后输出到时域 噪声整形模块 208 中进行时域噪声整形解码, 最后通过逆修正离散余弦变换 模块 209进行频率-时间变换。 对于采样频率可伸缩的情况, 可通过增益控制模块 210 忽略高频的 PQF 频带, 以得到低采样率信号。
与 MPEG AAC类似, 杜比 AC_3编码器也采用声道间强度鵪合方法提高多 声道信号编码效率。
但是, 已有的立体声编码技术, 包括和 /差立体声技术和强度耦合立体声 技术, 都存在一定的缺陷。 例如, 在和 /差立体声编码中, 编码端对和、 差声 道信号分别量化, 则在解码端获得的 L/R左右声道信号的噪声是和、 差声道 量化噪声的叠加, 导致质量劣化。 在强度耦合编码中, 若量化精度较低, 或 分辨率不够, 都会严重影响解码音频信号的主观质量。
Dai Yang在博士论文《Higli Fidel i ty.MuU ichannel Audio Compress i 011》 中, 提出了在滤波之后和量化之前用 KLT ( Karhunen-Loeve Transform )变换 去除声道冗余的方法。 由于 KLT变换是最小均方误差准则下的最佳变换, 因 此, 在这个意义下, 采用 KLT变换可以最大限度的去除声道间的冗余。 但是, 该方法却引入了一个现有技术难以解决的问题: 如何利用现有的心理声学模 型技术有效的量化解冗的声道系数, 如果无法解决这个问题, 则该方法没有 实际应用意义。
针对以上问题, 国际申请号为 PCT/IB02/01595 (申请日 2002年 5月 8 曰) 的国际专利申请提出了在对大于 1 个声道的音频信号编码时, 对多个声 道量化后的系数采用整数离散余弦变换(INT DCT )的方法, 去除声道间冗余。 该方法是针对目前多声道编码方法的不足提出的, 但并没有解决双声道立体 声编码效率问题。 并且, 该专利申请所述方法所采用整数离散余弦变换的方 法,并不是量化系数声道间冗佘去除的最优解决方法(考虑到信源的时变性)。 同时, 该方法也不可避免的增加了编码、 解码的计算复杂度。 发明内容
本发明的目的在于, 针对现有技术的不足, 提出一种利用声道间冗余进 行编解码的方法及装置, 以解决现有技术中的任何立体声和多声道音频编解 码器中, 立体声编解码效率低和质量差的问题。
为实现上述目的,本发胡提供一种利用声道间冗余进行编码的方法, 包括 以下步 :
步骤 1、 将线性 PCM ( Pulse Code Modulat ion, 脉冲编码调制 )信号变换 到频域, 并计算尺度因子带的掩蔽阔值;
步骤 2、 才 据尺度因子带的掩蔽阈值量化本区域的频域系数, 得到各声道 的整数系数;
步骤 3、 将所述的整数系数按照编码增益最大的原则进行组织, 获得时频 特定区域的声道对 /组;
步骤 4、对所述的声道对量化后的整数系数进行矩阵变换, 并将变换后的 声道对 /组整数系数经过熵编码和码流复用输出。
其中, 所述的步骤 4 中, 对所述的声道对量化后的整数系数进行矩阵变 换采用最优变换方式, 所述的最优变换方式为在确定数量的整数变换、 KLT变 换和 KLT 的近似变换中, 选择编码增益最大的一种变换, 用于对确定区域的 量化后的整数系数进行编码。
本发明还提供一种利用声道间冗余进行编码的装置, 包括心理声学模块、 修正离散余弦变换模块、 量化器, 熵编码和码流复用模块, 矩阵变换模块, 其中, 所述的矩阵变换模块用于将从量化器输出的各声道的整数系数按照编 码增益最大的原则进行组织, 获得时频特定区域的声道对 /组, 对所述的声道 对 /组量化后的整数系数进行矩阵变换, 并将变换后的声道对 /组整数系数输 出到熵编码和码流复用模块; 所述的心理声学模块用于根据人耳听觉特性计 算当前帧信号的掩蔽曲线, 根据掩蔽曲线计算特定时频区域的掩蔽阈值, 用 于指导对当前帧信号的量化; 所述的修正离散余弦变换模块, 用于将线性 PCM ( Pulse Code Modulat ion, 脉冲编码调制)信号变换到频域; 所述的量化器, 用于将从修正离散余弦变换模块输出的频域系根据特定时频区域的掩蔽阔 值, 量化本区域的频域系数。
本发明还提供一种利用声道间冗余进行解码的方法, 包括以下步骤: 步骤 1、 将经过码流解复用和熵解码的整数系数进行逆矩阵变换, 得到整 数量化系数;
步骤 2、 将整数量化系数进行反量化处理, 恢复频域系数;
步骤 3、 将频域系数进行逆修正离散余弦变换, 得到线性 PCM信号。
其中, 所述的步骤 1 中进行逆矩阵变换采用最优变换方式, 所述的最优 变换方式为在确定数量的整数变换方式、 KLT变换方式和 KLT的近似变换方式 中, 通过边信息中的矩阵变换代号而确定的一种用于恢复编码时的整数量化 系数的逆矩阵变换方式。
本发明还提供一种利用声道间冗余进行解码的装置, 其特征在于, 包括 码流解复用和熵解码模块、 逆量化器、 逆修正离散余弦变换模块和逆矩阵变 换模块, 其中, 所述的逆矩阵变换模块用于将从码流解复用和熵解码模块输 出的整数系数进行逆矩阵变换, 得到整数量化系数; 所述的码流解复用和熵 解码模块用于将输入的压缩比特流解复用和熵解码, 得到整数系数; 所述的 逆量化器用于将从逆矩阵变换模块输出的整数量化系数进行反量化处理, 恢 复频域系数; 所述的逆修正离散余弦变换模块用于将从逆量化器输出的频域 系数进行逆修正离散余弦变换, 得到线性 PCM信号。
本发明在编码和解码时采用最优的变换方法, 即可以通过对量化后的多 声道系数进行无损去冗余处理; 又可以用于无损双声道和多声道编码 ( Loss less Stereo and Mul t ichannel Audio Coding )„ 在有损编码中, 对 于经过变换(如 MDCT变换、 QMF子带滤波和小波变换等)、 频域处理(如预测 编码、 噪声整形和和差立体声编码等)和量化后的谱系数(包括变换系数和 滤波得到的子带信号), 进一步提高了音频信号编码效率; 在无损编码中, 同 样可以采用本发明, 去除声道信号(如时域 PCM样本、 子带样本和频域系数) 间的统计冗余, 达到信号压缩的目的, 对于任何立体声和多声道音频编解码 器, 提高了立体声编解码效率和质量。 附图说明
图 1为现有技术中的 MPEG- 2 AAC编码器的原理框图;
图 2为现有技术中的 MPEG- 2 AAC解码器的原理框图;
图 3为本发明的编码器的原理框图;
图 4为本发明的解码器的原理框图。 具体实施方式
以下结合附图和具体的实施例对本发明进行详细的说明。
一种利用声道间冗余进行编码的方法, 包括以下步驟:
步骤 1、 将线性 PCM信号变换到频域, 并计算尺度因子带的掩蔽阔值; 步骤 2、 根据尺度因子带的掩蔽阈值量化本区域的频域系数, 得到各声道 的整数系数; 步骤 3、 将所述的整数系数按照编码增益最大的原则进行组织, 获得时频 特定区域的声道对 /組;
步骤 4、 对所述的声道对 /组量化后的整数系数进行矩阵变换, 并将变换 后的声道对 /组整数系数经过熵编码和码流复用输出。
由于无论是有损编码, 还是无损编码, 本发明所处理的声道系数(包括 时域、 频域和子带。 为了方便叙述, 以下将带处理时域样本、 子带样本和频 域系数统称为 "系数 "。)都是整数形式, 并且处理方式基本相同。 因此, 在 下面的叙述中, 不在区分 "有损编码" 和 "无损编码"。
具体地, 将上述方法结合装置进行详细的说明。 利用声道间冗余进行编 码的装置原理框图如图 3所示, 线性 PCM信号被分别输入到修正离散余弦变 换模块 301和心理声学模型 305 ,修正离散余弦变换模块 301将 PCM信号变换 到频域, 和 MPEG AAC中一样, 修正离散余弦变换窗函数和块长可以根据信号 特征进行切换, 以保证足够的时间-频率分辨率, 并有效的去除声道内时域冗 余。 心理声学模型 305 用于根据人耳听觉特性计算当前帧信号的掩蔽曲线, 根据掩蔽曲线可以计算特定时频区域的掩蔽阈值, 用于指导对当前帧信号的 量化。
经过修正离散余弦变换模块 301 处理后得到的频域系数被送入量化器 302中, 量化器由一組子量化器组成,每个子量化器分别^ ^据特定时频区域的 掩蔽阈值, 量化本区域的频域系数, 通常将该区域称为尺度因子带。 量化器 有一个比特分配机制控制各子量化器能够利用的比特数, 使得量化当前帧的 频域系数所花费的比特数不超过所允许的比特限额, 并使量化失真最小。 这 里所述的比特分配策略可以采用一般的常用策略, 如 MPEG AAC的码率控制方 法。 这里所述的量化器可以采用标量量化器和矢量量化器, 如 MPEG AAC的非 线性标量量化器, 以及 MPEG TwinVQ的矢量量化器。
量化后, 整数系数被送到矩阵变换模块 303。矩阵变换模块 303将量化后 得到的各声道的整数系数按照编码增益最大的原则进行组织, 获得时频特定 区域的声道对 /组。 并且, 不同时频区域(对于时域样本为时间段、 对于频域 系数为频率段, 对于子带样本为时频区域) 的声道对 /组可以不同。 在编码器 选择声道对的过程中, 典型的, 由于左声道(L )和右声道(R ) 的相关性较 高, 以及左环绕声道(LS )和右环绕声道(RS ) 的相关性较高, 经常会获得 L/R对和 LS/RS对, 当采用多种声道对组织方式时, 声道对组织信息需要作为 控制信息编码。 在按照声道组的组织方式时, 经常出现下面的声道組: 左声 道 /右声道 /中央声道、 左前声道 /右前声道 /左中声道 /右中声道 /中央声道、 左环绕 /右环绕 /后环绕等等。
对于 "声道对 /组" 中的量化后的整数系数采样 "最优变换" 的方法去除 声道间冗余。
所谓最优变换, 是指在确定数量的整数变换、 KLT 变换、 以及任何用于 近似 LT变换的变换中选择其一, 其编码增益为最大。在选择 KLT变换和 KLT 变换的近似变换进行编码时, 采用 LIFTING算法, 实现整数系数到整数系数 的变换。
所谓编码增益最大, 是指在特定的质量下, 在编码特定的信号时, 所用 的比特数最少。
所谓整数变换, 是指变换矩阵 的各系数均为整数的变换, 并且, 存在 逆矩阵 (各系数均为整数), 使得 其中 I为单位阵。 例如, 当采用声道对时, 用 Z和 ?表示声道对的两个声道整数系数(这 里, 和 7?表示编码中可能出现的任何声道, 而不应被仅仅理解为 "左声道,, 和 "右声道"), £和 为量化后的整数系数, ^和 为整数变换后得到的整数 系数, 对于每个声道对, 在一定的分辨率尺度内 (如采用所谓的 "尺度因子 带")对声道对整数系数采用如下整数变换:
使得^ 编码所用的比特数少于 ^'编码所用的比特数。
当采用声道组时, 方法和声道对方式类似。
所谓 KLT 变换, 是指一个信号适应矩阵, 该矩阵的行向量是多声道系数 协方差矩阵的特征向量。由于 KLT变换矩阵是正交阵,因此可以分解成 GIVENS 矩阵, 并采用 LIFTING算法近似计算, 可以获得整数结果。
当采用 KLT变换时, 编码时, 根据时域信号计算信号的协方差矩阵 Φ 。 根据 Φ , 计算正交矩阵 Q。 其中, 协方差矩阵 Φ 和正交矩阵 Q的计算方法 在信号处理和线性代数书籍中有介绍, 如《数字信号处理: 理论、 算法与实 现》, 清华大学出版社, 胡广书编著, 1997。
为了实现整数系数到整数系数的无损变换, KLT 变换需要采用所谓的 LIFTING算法近似实现。 这里所述的 LIFTING算法, 可以参考相关的文献, 如 "Factor ing Wavelet Transforms into Lift ing Steps " ( I. Daubechies, W. Sweldens, Tech. Rep. , Bel l Labora tories, Lucent Technologies, 1996 )。
这里, 仅以声道对为例说明 KLT变换矩阵的计算和其 LIFTING算法。
如前所设, 假定分析区域中
L{n), R(n), 0≤n≤N ( 2 )
其中: £和 为量化后的整数系数; N为分析区域的大小
其协方差矩阵
CLL CLR
Φχ = ( 3 )
1 w Λ Λ
其中: C 、 CRRR为协方差系数 t
对应的 KLT变换正交矩阵 Q
( 4 )
正交矩阵0恰好为一个 GIVENS旋转矩阵, 因此, 可以分解成以下形式 根据 LIFTING 算法, 每次变换后, 系数可以进行取整操作, 并且不影响系统 的完全可逆。在采用声道組编码时, KLT变换矩阵和 LIFTING算法和声道对方 法相似。
所谓 KLT 变换的近似变换, 是指在一定的前提下 (如信源统计特性、 计 算复杂度)用于近似 KLT变换的变换方法。 由于 KLT变换是均方差意义下的 最优变换, 但计算量和边带信息较大, 因此, 可以采用其他变换方法近似 KLT 变换, 以减少计算量和 /或边带信息, 如 DFT (离散傅立叶变换)、 DCT (离散 余弦变换)、 DST (离散正弦变换)等。
在采用 KLT 变换的近似变换时, 为了保证整数到整数的无损变换, 也需 要采用 LIFTING算法进行变换, 计算过程和 KLT的 LIFTING算法相同。
所谓最优变换, 是指在确定数量的整数变换、 KLT变换(LIFTING实现) 和 KLT的近似变换( LIFTING实现)中, 选择编码增益最大的变换, 用于对确 定区域进行编码。
在具体编码装置中, 矩阵变换模块中包括确定数量的整数变换单元、 KLT 变换单元和 KLT 的近似变换单元, 上述的矩阵变换方式包括选择确定数量的 整数变换方式、 KLT变换方式和 KLT的近似变换方式(如 DFT、 DCT、 DST等)。 比如可以选择 M个整数变换方式, 设代号为 4、 Α2 其中 为不小于
1的整数; 设 KLT变换的代号为 A"; KLT的近似变换方式(如 DFT、 DCT、 DST 等) 的代号为 其中 N为大于 2的整数。 并设不同变换方式所对 座的编码增益为 (1≤ ≤N ), 设置一个判断开关模块, 使编码器自适应的选 择编码增益最大的变换方式, 最大程度的消除编码信号的声道间冗余。 对应 的变换方式的代号以及其他的必要信息作为边信息写入压缩比特流, 以控制 解码器准确解码。
对于每个声道对, 可以按照如下的方法处理, 以降低编码所需要的比特 数。
例如, 我们可以选择三个变换方式, 代号分别为 Α、 . 其中 4和 A 是两种整数变换方式, 是 KLT变换方式。 其中
其中, 0的取值如式(4 )和(5 ) 所示。 其中, 当采用变换 4时, 声道 对中量化后整数系数不做任何处理; 当采用变换 4时, 声道对的第一个声道 的量化后整数系数不变, 而变换得到的第二个声道的整数系数为原第一个声 道的量化后整数系数减原第二个声道的量化后整数系数的差; 当采用变换 A 时, 则采用 KLT 变换实现声道系数间的冗余消除, 此时, 除了要编码变换方 式的代号外, 还需要将 (9值编码。
采用变换矩阵的判断开关 306 可以用于在矩阵变换模块中的确定数量的 整数变换单元或 KLT变换单元或 KLT的近似变换单元中选择最优的变换方式, 并将选择的最优的变换方式的代号做为边信息进行编码。
考虑到边信息所占带宽的限制, 在对声道对组织方式和矩阵变换序号等 控制信息编码时, 可以按照尺度因子带为单位, 选择所采用的矩阵变换类型, 并将所选择的矩阵变换序号进行编码。 当 0 且 > 时, 采用变换方式 A, 即声道对内系数不做任何变换。 当 O 且 O 时, 则采用整数变换方 式 其他情况,则釆用变换方式 4。 并将选择的变换方式 A、 A还是 Λ做为 边信息写入压缩比特流, 以控制解码器准确解码。
经过变换后, 整数系数被送到熵编码和码流复用模块 304。 在熵编码和码 流复用模块 304 , 通过有效的熵编码可以最大限度的去除整数系数的统计冗 余, 然后, 将熵编码结果和其他控制信息一起复用为压缩比特流, 并输出到 传输信道或存储介质。 这里, 熵编码可以采用 Huffman编码、 游程编码和算 术编码等编码方法。
本发明还公开了一种利用声道间冗余进行解码方法和装置,所述的装置如 图 4所示, 包括码流解复用和嫡解码模块、 逆矩阵变换模块、 逆量化器和逆 修正离散余弦变换模块, 所述的方法包括如下步骤:
步骤 1、 压缩比特流经过码流解复用和熵解码模块的解复用和熵解码, 得 到整数系数和用于判断是利用哪一种逆矩阵变换方式的边信息; 步驟 2、 所述的整数系数经过逆矩阵变换模块进行逆矩阵变换, 得到逆矩 阵变换后的整数量化系数;
步骤 3、 所述的逆矩阵变换后的整数量化系数在逆量化器进行反量化处 理, 恢复频域系数;
步骤 4、所述的频域系数经过逆修正离散余弦变换模块进行逆修正离散余 弦变换, 得到线性 PCM信号。
其中,所述的步骤 2中进行逆矩阵变换是通过从步驟 1得到的边信息中的 变换方式代号而确定是采用上述变换方式中的哪一种。
当矩阵变换模块利用式(1 )进行整数变换时, 可以采用如下整数变换恢 复整数量化系数
( 7 )
BA = I
其中: 和 是经过解复用和熵解码得到的整数系数; i和&为通过整数变换而恢复出的整数系数。
当采用 KLT变换方式时, 包括以下步驟:
步驟 la、 从码流中获取协方差矩阵或相应的参数(如式(4 ) 中的 步骤 lb、 根据所述的协方差矩阵或相应的参数计算 KLT变换矩阵; 步骤 lc、 对所述的〖LT变换矩阵, 利用 LIFTING算法, 恢复声道对整数 量化系数。
当釆用 KLT的近似变换方式时, 对这些近似变换方式利用 LIFTING算法 计算其整数近似恢复声道对整数量化系数。
在解码端, 当压缩比特流被解复用和熵解码 401后,得到整数系数和用于 判断是利用哪一种逆矩阵变换方式的边信息, 将整数系数送入逆矩阵变换模 块 402。 在本实施例中, 当选择式(6 )的三种矩阵变换方式进行矩阵变换时, 其对应的逆矩阵变换为
( 8 )
逆矩阵变换模块 402根据从 401得到的边信息选择是利用哪一种逆矩阵 变换方式用于恢复编码时的整数量化系数。
逆矩阵变换获得的整数量化系数被送入反量化模块 403,进行反向量化处 理。恢复的频域系数被送入逆修正离散余弦变换 404 ,获得线性 PCM音频信号。
逆矩阵变换模块包括整数变换单元、 KLT变换单元和 KLT的近似变换单元, 其中, 由边信息中的矩阵变换代号来选择是利用哪一种逆矩阵变换方式用于 对从码流解复用和熵解码模块输出的整数系数进行逆矩阵变换, 并将变换后 的整数量化系数输出到逆量化器。 述的技术方案; 因此, 尽管本说明书参照上述的各个实施例对本发明已进行 了详细的说明, 但是, 本领域的普通技术人员应当理解, 仍然可以对本发明 进行修改或者等同替换; 而一切不脱离本发明的精神和范围的技术方案及其 改进, 其均应涵盖在本发明的权利要求范围当中。

Claims (11)

  1. 权利要求书
    1、 一种利用声道间冗余进行编码的方法, 其特征在于, 包括以下步骤: 步驟 1、 将线性 PCM信号变换到频域, 并计算尺度因子带的掩蔽阈值; 步骤 2、 ^据尺度因子带的掩蔽阈值量化本区域的频域系数, 得到各声道 的整数系数; 步骤 3、 将所述的整数系数按照编码增益最大的原则进行组织, 获得时频 特定区域的声道对 /組; 步骤 4、 对所述的声道对 /组量化后的整数系数进行矩阵变换, 并将变换 后的声道对 /组整数系数经过熵编码和码流复用输出。
  2. 2、根据权利要求 1所述的利用声道间冗余进行编码的方法,其特征在于, 所述的步骤 4中, 对所述的声道对 /组量化后的整数系数进行矩阵变换方式为 在确定数量的整数变换、 KLT变换和 KLT的近似变换中, 选择的编码增益最大 的一种变换, 用于对确定区域的量化后的整数系数进行编码。
    3、根据权利要求 2所述的利用声道间冗余进行编码的方法,其特征在于, 所述的对声道对 /组量化后的整数系数进行整数变换的过程为:
    和 为量化后的整数系数; 和 为整数变换后得到的整数系数;
    A =
    1 0
    数均为整数, 使得 n, 其中 / - , 为单位阵。
    0 1 4、根据权利要求 2所述的利用声道间冗余进行编码的方法,其特征在于, 所迷的 KLT的近似变换为 FFT或 DCT或 DST, 采用 LIFTING算法进行变换。
    5、根据权利要求 2所述的利用声道间冗余进行编码的方法,其特征在于, 所述的 KLT变换的 KLT变换正交矩阵 Q为:
    其中, 协方差矩阵 表示为: Φχ =
    其中
    1 w Λ
    C =ZW(«)
    N «=0
    L{n), R{n), 0≤n≤N
    6、 根据权利要求 2或 3或 4或 5所述的利用声道间冗余进行编码的方 法,其特征在于, 当选择确定数量的整数变换、 KLT变换和 KLT的近似变换时, 将对应的该变换的代号作为边信息进行编码。
  3. 7、 根据权利要求 2或 5所述的利用声道间冗余进行编码的方法, 其特 征在于, 当选择所述的 KLT 变换时, 将协方差矩阵或相应的参数作为边信息 进行编码。
  4. 8、 一种利用声道间冗余进行编码的装置, 包括心理声学模块、 修正离 散余弦变换模块、 量化器, 熵编码和码流复用模块, 其特征在于, 还包括矩 阵变换模块, 其中,
    所述的矩阵变换模块用于将从量化器输出的各声道的整数系数按照编 码增益最大的原则进行组织, 获得尺度因子带的声道对 /组, 对所述的声道对 /組进行矩阵变换, 并将变换后的声道对 /组整数系数输出到熵编码和码流复 用模块;
    所述的心理声学模块用于根据人耳听觉特性计算当前帧信号的掩蔽曲 线, 根据掩蔽曲线计算尺度因子带的掩蔽阈值, 所述的尺度因子带的掩蔽闹 值用于指导对当前帧信号的量化;
    所述的修正离散余弦变换模块, 用于将线性 PCM信号变换到频域; 所述的量化器, 用于将从修正离散余弦变换模块输出的频域系根据特定 时频区域的掩蔽阈值, 量化本区域的频域系数。
  5. 9、 根据权利要求 8 所述的利用声道间冗余进行编码的装置, 其特征在 于, 所述的矩阵变换模块包括整数变换单元、 KLT变换单元和 KLT的近似变换 单元, 其中, 整数变换单元、 KLT变换单元和 KLT的近似变换单元分别用于对 所述的声道对进行矩阵变换, 并将变换后的声道对整数系数输出到熵编码和 码流复用模块。
    10、 根据权利要求 9所述的利用声道间冗余进行编码的装置, 其特征在 于, 该装置还包括判断开关模块, 用于在矩阵变.换模块中的整数变换单元或 KLT变换单元或 KLT的近似变换单元中选择最优变换方式,并将控制信息编码。
  6. 11、一种利用声道间冗余进行解码的方法, 其特征在于, 包括以下步骤: 步骤 1、 将从码流解复用和熵解码得到的整数系数进行逆矩阵变换, 得 到整数量化系数;
    步骤 2、 将整数量化系数进行反量化处理, 恢复频域系数;
    步骤 3、 将频域系数进行逆修正离散余弦变换, 得到线性 PCM信号。
  7. 12、根据权利要求 11所述的利用声道间冗余进行解码的方法,其特征在 于, 所述的步骤 1中进行逆矩阵变换方式为在确定数量的整数变换方式、 KLT 变换方式和 KLT 的近似变换方式中, 通过从码流解复用和熵解码得到的边信 息中的变换方式代号而确定的一种用于恢复编码时的整数量化系数的逆矩阵 变换方式。
  8. 13、 根据权利要求 12 所述的利用声道间冗余进行解码的方法, 其特征 在于, 所述逆矩阵变换釆用整数变换方式时, 直接用整数变换恢复出变换前 的声道对 /组整数量化系数。
    14、 根据权利要求 12 所述的利用声道间冗余进行解码的方法, 其特征 在于, 所述逆矩阵变换采用 KLT变换方式时, 包括以下步驟:
    步骤 la、 从码流中获得协方差矩阵或其相应的参数;
    步驟 lb、 根据所述的协方差矩阵或相应的参数计算 KLT变换矩阵; 步驟 lc、 对所述的 KLT变换矩阵, 利用 LIFTING算法, 恢复声道对整数 量化系数。
  9. 15、 根据权利要求 12 所述的利用声道间冗余进行解码的方法, 其特征 在于, 所述逆矩阵变换采用 KLT的近似变换方式时, 对这些近似变换方式利 用 LIFTING算法, 恢复声道对 /组整数量化系数。
  10. 16、 一种利用声道间冗余进行解码的装置, 其特征在于, 包括码流解复 用和熵解码模块、 逆量化器和逆修正离散余弦变换模块, 其特征在于, 包括: 逆矩阵变换模块, 其中,
    所述的逆矩阵变换模块用于将从码流解复用和熵解码模块输出的整数 系数进行逆矩阵变换, 得到整数量化系数;
    所述的码流解复用和熵解码模块用于将输入的压缩比特流解复用和熵 解码, 得到整数系数; ― 所述的逆量化器用于将从逆矩阵变换模块输出的整数量化系数进行反 量化处理, 恢复频域系数;
    所述的逆修正离散余弦变换模块用于将从逆量化器输出的频域系数进 行逆修正离散余弦变换, 得到线性 PCM信号。
  11. 17、 根据权利要求 16所述的利用声道间冗余进行解码的装置, 其特征 在于, 所述的逆矩阵变换模块包括整数变换单元、 KLT变换单元和 KLT的近似 变换单元, 其中, 由从所述码流解复用和熵解码模块得到的边信息中的矩阵 变换代号确定所述整数变换单元、 KLT变换单元或 KLT的近似变换单元用于对 从所述码流解复用和熵解码模块输出的整数系数进行逆矩阵变换, 并将变换 后的整数量化系数输出到逆量化器。
CN200480044452.4A 2004-11-24 2004-11-24 利用声道间冗余进行编/解码的方法及装置 Pending CN101065796A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2004/001349 WO2006056100A1 (fr) 2004-11-24 2004-11-24 Procede et dispositif de codage/decodage utilisant la redondance des signaux intra-canal

Publications (1)

Publication Number Publication Date
CN101065796A true CN101065796A (zh) 2007-10-31

Family

ID=36497722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200480044452.4A Pending CN101065796A (zh) 2004-11-24 2004-11-24 利用声道间冗余进行编/解码的方法及装置

Country Status (2)

Country Link
CN (1) CN101065796A (zh)
WO (1) WO2006056100A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102171752B (zh) * 2008-10-10 2013-05-08 日本电信电话株式会社 编码方法、编码装置、解码方法、解码装置
CN104144279A (zh) * 2013-05-08 2014-11-12 联发科技股份有限公司 处理图像/视频数据的方法及装置
CN112166609A (zh) * 2018-06-08 2021-01-01 株式会社Kt 用于处理视频信号的方法和设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833953B (zh) * 2009-03-12 2012-04-04 华为终端有限公司 降低多描述编解码冗余度的方法和装置
CN104616657A (zh) * 2015-01-13 2015-05-13 中国电子科技集团公司第三十二研究所 高级音频编码系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6345125B2 (en) * 1998-02-25 2002-02-05 Lucent Technologies Inc. Multiple description transform coding using optimal transforms of arbitrary dimension
US6934676B2 (en) * 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
CN1461112A (zh) * 2003-07-04 2003-12-10 北京阜国数字技术有限公司 一种基于极小化全局噪声掩蔽比准则和熵编码的量化的音频编码方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102171752B (zh) * 2008-10-10 2013-05-08 日本电信电话株式会社 编码方法、编码装置、解码方法、解码装置
CN104144279A (zh) * 2013-05-08 2014-11-12 联发科技股份有限公司 处理图像/视频数据的方法及装置
CN104144279B (zh) * 2013-05-08 2017-08-18 联发科技股份有限公司 处理图像/视频数据的方法及装置
CN107257493A (zh) * 2013-05-08 2017-10-17 联发科技股份有限公司 处理图像/视频数据的方法及装置
CN112166609A (zh) * 2018-06-08 2021-01-01 株式会社Kt 用于处理视频信号的方法和设备
US12003772B2 (en) 2018-06-08 2024-06-04 Kt Corporation Method and apparatus for encoding/decoding residual data based on a plurality of transformations

Also Published As

Publication number Publication date
WO2006056100A1 (fr) 2006-06-01

Similar Documents

Publication Publication Date Title
JP5395917B2 (ja) 多チャンネルデジタル音声符号化装置および方法
JP5705964B2 (ja) オーディオエンコーダ、オーディオデコーダ、及び複素数予測を使用したマルチチャンネルオーディオ信号処理方法
JP2908270B2 (ja) 適応的符号化システム
JP2012163969A5 (zh)
US6092041A (en) System and method of encoding and decoding a layered bitstream by re-applying psychoacoustic analysis in the decoder
EP1852851A1 (en) An enhanced audio encoding/decoding device and method
EP1393303B1 (en) Inter-channel signal redundancy removal in perceptual audio coding
CN100364235C (zh) 多声道数字音频编码设备及其方法
EP2850613B1 (en) Efficient encoding and decoding of multi-channel audio signal with multiple substreams
JP2013528824A (ja) オーディオまたはビデオエンコーダ、オーディオまたはビデオデコーダ、及び予測方向可変の予測を使用したマルチチャンネルオーディオまたはビデオ信号処理方法
JP4925671B2 (ja) デジタル信号の符号化/復号化方法及びその装置並びに記録媒体
JP4685165B2 (ja) 仮想音源位置情報に基づいたチャネル間レベル差量子化及び逆量子化方法
CN1677490A (zh) 一种增强音频编解码装置及方法
CN1677491A (zh) 一种增强音频编解码装置及方法
CN1252678C (zh) 可缩放的立体声音频编码/解码方法及装置
EP1175030A2 (en) Method and system for multichannel perceptual audio coding using the cascaded discrete cosine transform or modified discrete cosine transform
US20080234846A1 (en) Transform domain transcoding and decoding of audio data using integer-reversible modulated lapped transforms
CN1677492A (zh) 一种增强音频编解码装置及方法
KR20040086880A (ko) 디지털 데이터의 부호화/복호화 방법 및 장치
CN101065796A (zh) 利用声道间冗余进行编/解码的方法及装置
JP4062971B2 (ja) オーディオ信号符号化方法
WO2005096508A1 (fr) Equipement de codage et de decodage audio ameliore, procede associe
MX2007001969A (es) Ensamble de guia de fruta de carriles multiples que tiene extremos de reborde integrales para un extractor de jugo y metodos relacionados.
CN105336334B (zh) 多声道声音信号编码方法、解码方法及装置
KR100349329B1 (ko) 엠펙-2 고품질 오디오 처리 알고리즘의 병렬 처리 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20071031