JP5069909B2 - ブロック系列化に基づくオーディオコーディング - Google Patents

ブロック系列化に基づくオーディオコーディング Download PDF

Info

Publication number
JP5069909B2
JP5069909B2 JP2006551239A JP2006551239A JP5069909B2 JP 5069909 B2 JP5069909 B2 JP 5069909B2 JP 2006551239 A JP2006551239 A JP 2006551239A JP 2006551239 A JP2006551239 A JP 2006551239A JP 5069909 B2 JP5069909 B2 JP 5069909B2
Authority
JP
Japan
Prior art keywords
groups
group
blocks
block
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006551239A
Other languages
English (en)
Other versions
JP2007523366A (ja
JP2007523366A5 (ja
Inventor
フェラーズ、マシュー・コンラッド
ヴィントン、マーク・スチュアート
バウアー、クラウス
デービッドソン、グラント・アレン
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2007523366A publication Critical patent/JP2007523366A/ja
Publication of JP2007523366A5 publication Critical patent/JP2007523366A5/ja
Application granted granted Critical
Publication of JP5069909B2 publication Critical patent/JP5069909B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Road Signs Or Road Markings (AREA)

Description

本発明は、符号化処理を少なくとも一つのオーディオ情報ストリームへ施すような型のディジタルオーディオエンコーダであって、そのオーディオ情報ストリームは少なくとも一つのフレームへセグメント化された少なくとも一つのオーディオチャンネルを表しており、各々のフレームはディジタルオーディオ情報の少なくとも一つのブロックを含む、ディジタルオーディオエンコーダの動作の最適化に関する。更に詳しくは、本発明はフレームへ施されるコーディング処理を最適化する方式でフレームに配置されたオーディオ情報のブロックをグループ化〔系列化〕することに関する。
多くのオーディオ処理システムはオーディオ情報のストリームをフレームへ分割し、そのフレームを特定の時間区間におけるオーディオ情報の一部を表すシーケンシャルなデータのブロックへ更に分割することによって動作する何らかの型の信号処理がストリーム中の各ブロックに施される。各ブロックへ知覚符号化処理を施すオーディオ処理システムの二つの例は、アドバンスドオーディオコーダー(AAC)規格(これはISO/IEC13818−7、「MPEG−2アドバンスドオーディオコーディング(AAC)」国際規格1997;ISO/IEC JTC1/SC29,「Information technology―very low bitrate audio−visual coding」及びISO/IEC IS−14496(パート3、オーディオ)、1996に記載されている)に適合するシステムと、アドバンスドテレビジョンシステム協会(ATSC)のA/52A文書(表題「Revision A to Digital Audio Compression(AC3)規格」(2001年8月20日発行)に適合する所謂AC−3システムである。
多くのオーディオ処理系においてブロックに適用される信号処理の一形態は知覚コーディング形式であり、これはブロックにおけるオーディオ情報の解析を実行して、そのスペクトル成分の表現を得て、スペクトル成分の知覚マスキング効果を予測し、そのスペクトル成分を結果的な量子化雑音が不可聴になる若しくはその可聴性を可能な限り低くする方式で量子化して、この量子化されたスペクトル成分の表現を送信又は記録可能なエンコード化信号へ構成する。量子化されたスペクトル成分からオーディオ情報のブロックを回復するために必要な制御パラメータのセットもエンコード化信号中に構成される。
スペクトル解析は様々な手法で実行可能であるが、時間域―周波数域変換が一般的である。オーディオ情報のブロックの周波数域表現への変換においては、オーディオ情報のスペクトル成分がベクトル系列〔シーケンス〕表現れ、その各ベクトルは各々のブロックについてのスペクトル成分を表。ベクトルの成分は周波数域係数であり、各ベクトル成分の添字〔インデックス〕は特定の周波数区間に対応する。各変換係数により表されている周波数区間の幅は一定又は可変である。離散フーリエ変換(DFT)又は離散コサイン変換(DCT)などのフーリエ型変換により生成された変換係数によって表される周波数区間の幅は一定である。ウェーブレット又はウェーブレットパケット変換により生成された変換係数によって表される周波数区間の幅は可変であって、通例は周波数の増大に伴って大きくなる。例えば、A.Akansu,R.Hadded,”Multiresolution Signal Decomposition,Transforms,Subbands,Wavelets”(Academic Press社(サンジェゴ)1992年刊)を参照されたい。
知覚エンコード化信号からオーディオ情報のブロックを回復するのに利用できる信号処理の一形式は、エンコード化信号から制御パラメータのセット及び量子化スペクトル成分の表現を得て、そのパラメータのセットを使ってオーディオ情報のブロックへ統合するためのスペクトル成分を導出する。その統合はエンコード化信号の生成に用いた解析に対して相補的である。周波数域−時間域変換を用いる統合は一般的である。
多くのコーディング用途において、エンコード化信号の送信又は記録に利用可能な帯域幅又は空間は制限されており、この制限は量子化スペクトル成分を表現するのに使用可能なデータ量に厳しい制約を課している。制御パラメータのセットを伝達するのに必要なデータは、量子化スペクトル成分を表現するのに使用可能なデータ量を更に低減するオーバーヘッドである。
いくつかのコーディングシステムでは、1組の制御パラメータを用いてオーディオ情報の各ブロックをエンコードする。この種のコーディングシステムにおけるオーバーヘッドを低減するための一つの既知の手法では、エンコード化信号からオーディオ情報の複数のブロックを回復するために1組のみの制御パラメータを必要とする方式で符号化処理を制御する。仮に符号化処理を10個のブロックが1組の制御パラメータを共有するように制御するならば、例えばこれらのパラメータについてのオーバーヘッドは90パーセント低減する。残念ながら、オーディオ信号は定常的ではないので、フレームにおけるオーディオ情報の全てのブロックについての符号化処理効率は、制御パラメータがあまりに多くのブロックにより共有される場合には、最適とならないことがある。かくして要請されるのは、制御パラメータを伝えるのに必要なオーバーヘッドを低減するように当該処理制御することによって信号処理効率を最適化する手法である。
本発明によれば、フレームに配列されたオーディオ情報のブロックは少なくとも一つのセット即ちグループにグループ化〔系列化され、各ブロックが各々のグループ内にあるようにされる。各グループは一つのフレーム内の単独のブロックか、又は2以上のブロックのセットから構成されて、グループにおける各ブロックに施される処理は、少なくとも一つの制御パラメータ共通のセット、例えばスケール因子のセットを用いる。本発明はブロックの系列化を制御して信号処理能力を最適化することを目的としている。
コーディングシステムにおいては、例えばオーディオ情報のブロックからなるオーディオ情報のストリームは複数のフレーム内に配置され、ここで各フレームがブロックの少なくとも一つのグループを有している。少なくとも一つの符号化パラメータの1セットが、各グループ内の全てのブロックについてのオーディオ情報をエンコードするために用いられる。ブロックは符号化性能の何らかの指標を最適化するように系列化される。例えば、本発明の様々な特徴を組み込む符号化システムは、ブロックの系列化を制御して、信号エラー(これは、各ブロックがそれ自身の符号化パラメータのセットを使ってエンコード化されている参照信号についてのエンコード化信号の歪と比較した、フレーム中の各グループについて共有符号化パラメータを用いるフレーム内のエンコード化オーディオ情報の歪を表す)を最小化する。
本発明の様々な特徴及びその好ましい実施例は以下の説明及び添付図面の参照によってより良く理解されよう。尚、各図において同様な参照符号は同様な構成要素を示す。以下の説明及び図面の内容は例示としてのみ記載されたものであって、本発明の範囲に対する限定を表すものと解すべきではない。
本発明の実施形態
A.序論
図1はオーディオコーディングシステムを示し、ここではエンコーダ10が経路5からオーディオ信号の少なくとも一つのチャンネルを表すオーディオ情報の少なくとも一つのストリームを受け取る。エンコーダ10はオーディオ情報のストリームを処理して、経路15に沿って送信又は記録可能なエンコード化信号を生成する。このエンコード化信号はその後デコーダ20により受け取られ、このデコーダ20はエンコード化信号を処理して経路25に沿って、経路5から受け取られたオーディオ情報の複製を生成する。複製のコンテンツは原オーディオ情報と同一ではないかもしれない。エンコーダ10が可逆符号化法を用いてエンコード化信号を生成するならば、デコーダ20は原理的には原オーディオ情報ストリームと同一の複製を回復することができる。エンコーダ10が例えば知覚コーディングなどの非可逆符号化技術を用いるならば、回復された複製のコンテンツは一般に原ストリームのコンテンツと同一ではないが、知覚的には原コンテンツとは区別できないであろう。
エンコーダ10は、少なくとも一つの処理制御パラメータの1セットに応答する符号化処理を用いて各ブロックにおけるオーディオ情報をエンコードする。例えば、符号化処理は各ブロックにおける時間域情報を周波数域変換係数へ変換し、該変換係数を少なくとも一つの浮動小数点仮数が浮動小数点指数に関連付けられる浮動小数点形式表し、この浮動小数点指数を用いて仮数のスケーリング及び量子化を制御する。この基本的な試みは多くのオーディオコーディングシステムで用いられており、これは既に述べて以下の節で詳細に説明するAC−3及びAACシステムを含む。しかしながら、スケール因子及びそれらの制御パラメータとしての使用は本発明の教示如何に適用されるかについての単なる一例であることに留意されたい。
一般に、各浮動小数点変換係数の値は、各係数仮数がそれ自身の指数に関連しているならば、各仮数を正規化できる可能性がより高くなるので、所与のビット数により一層に正確に表すことができるが、幾つかの係数の仮数が指数を共有するならば、所与のビット数で一つのブロックについての変換係数のセット全体をより正確に表すことができる可能性がある。正確さを増大させること可能であるのは、共有は指数のエンコードに必要なビット数を低減し、より高い精度で仮数を表すためにより多くのビット数を用いることを可能とするからである。幾つかの仮数はもはや正規されていないこともありうるが、変換係数の値が同様であるならば、より高い制度は少なくとも幾つかの仮数のより正確な表現をもたらしうる。仮数の間で指数が共有される仕方はブロックごとに適応されてもよいし、共有構成は不であってもよい。指数共有構成が不変であるならば、各指数及びその関連する、ヒトの聴覚系の臨界帯に相応する周波数サブバンドを規定するように指数を共有することが一般的である。この方式では、各変換係数で表される周波数区間が一定であるならば、低周波数についてよりも高周波数についてより多数の仮数が指数を共有する。
一つのブロック内の仮数の間の浮動小数点指数共有の概念は、二つ又はそれよりも多くのブロックにおける仮数の間の指数共有へ拡張できる。指数共有はエンコード化信号において指数を伝達するのに必要なビット数を低減するので、より高い精度で仮数を表すために追加的なビット利用可能になる。ブロックにおける変換係数値の類似性に依存して、内部ブロック指数共有は、仮数が表現される正確さを増減し得る。
ここまでの説明は浮動小数点指数の共有による変換係数値の浮動小数点表示の精度における代償について言及した。精度における同様な代償は符号化処理、例えば係数仮数の量子化を制御するために知覚モデルを利用する知覚コーディングなどを制御するために用いるパラメータのブロック共有について生じる。AC−3及びAACシステムに用いられる符号化処理は、例えば変換係数の浮動小数点指数を用いて変換係数仮数の量子化のためのビット割当を制御する。ブロック間の指数の共有は指数を表すのに必要なビットを低減し、これはエンコード化仮数を表すのにより多くのビットを用いることを可能とする。幾つかの例では2つのブロックの間の指数共有はエンコード化された仮数の値を表す精度を減少させる。他の例では、2つのブロック間の指数の共有は仮数の精度を増大させる。2つのブロックの間の指数の共有が仮数の精度を増大させるなら、3つ又はそれ以上のブロックの間の共有は精度に更なる増加を与えることがありうる
本発明の様々な態様は、グループの数及びブロックのグループの間のグループ境界をエンコード化信号の歪みを最小化するように最適化することにより、オーディオエンコーダにおいて実装できる。エンコード化信号のフレームを表すのに用いられビットの総数と、グループ構成を最適化するために用いられ技法の計算の複雑さとの一方又は両方と、最小化す度合いの間でトレードオフがなされてもよい。一つの実施においては、これは平均二乗誤差エネルギー指標を最小化することにより達成される。
B.背景
以下の説明は本発明の様々な態様をフレームに構成されたオーディオ情報のブロックのグループの処理を最適化するオーディオコーディングシステムに組み込みうる仕方を説明する。最適化はまず最小化問題として表される。この数枠組みは種々の程度の計算の複雑さを有し、且つ種々の程度の最適化を与える幾つかの実装を開発するために用いられる。
1.数的最小化問題としてのグループ選択
グループは、フレーム内の可変な数のグループを許すことにより最適化処理における自由度を与える。最適グループ構成を計算する目的で、グループの数および各グループ内のブロックの数はフレームからフレームへ変化しうるものとする。更に、グループは単独のブロックからなるか、又は全てが単独のフレーム内にある複数のブロックからなるとする。実行すべき最適化は、少なくとも一つの制約条件が与えられたもとで、フレーム内のブロックのグループ化を最適化することである。これらの制約条件は、用によって変化してもよく、エンコード化信号の忠実性のような信号処理結果の優秀さの最大化として表現されてもよいし、或いはエンコード化信号歪のような逆処理結果〔不都合な処理結果〕の最小化として表現されてもよい。例えば、オーディオコーダーは、エンコード化信号の所与のデータレートについての歪みを最小化することを要求する制約条件を持ってもよく、或いはエンコード化信号データレートをエンコード化信号歪みのレベルに対してトレードオフすることを要求する制約条件を持っていてもよい。一方、解析/検出/分類システムは計算の複雑さに対して解析、検出又は分類の精度をトレードオフすることを要求する制約条件を持ってもよい。信号歪みの指標を以下に説明するが、これらは使用し得る幅広い多様な品質指標の単なる例である。以下に説明する技法は、比較を逆にし、高い、低いまたは最大、最小のような相対量に対する言及を逆にすることにより、たとえばエンコード化信号の忠実性などの信号処理の優秀さの指標とともに用いてもよい。
本発明はオーディオ情報の時間領域及び周波数領域表示の使用において互いに相違がある少なくとも三つの戦略の任意の一つに従って実施できることが予測される。第1戦略では、時間領域情報を解析して時間領域情報を運ぶブロックのグループの処理を最適化する。第2の戦略では、周波数領域情報を解析して時間領域情報を運ぶブロックのグループの処理を最適化する。第3の戦略では、周波数領域情報を解析して周波数領域情報を運ぶブロックのグループの処理を最適化する。第3の計画による様々な実施について以下に説明する。
オーディオ情報を送信又は記録のために符号化する本発明の実施においては、以下の説明のために用語「歪み」及び「サイドコスト(Side cost)」を定義することが有益である。
用語「歪み」は、グループに属する一つ又は複数のブロックにおける周波数領域変換係数の関数であり、グループの空間から負でない実数の空間にへのマッピングである。零の歪みは、ちょうど個のグループを包含するフレームへ割り当てられ、ここでNはフレームにおけるブロックの数である。この場合、二つ又はそれ以上のブロック間の制御パラメータの共有はない。
用語「サイドコスト」は、負ではない整数のセットから負ではない実数のセットマップする離散関数である。以下の説明では、サイドコストとは、引数の正の線形関数とする。ここではp−1に等しく、pはフレーム内のグループの数である。フレーム内のグループ数がに等しいならば、零のサイドコストがフレームに割り当てられる。
歪みを計算する二つの手法を以下に説明する。一つの手法は、「帯域化(banded)」に基づいて、K個の周波数帯の各々について歪みを計算し、ここで各周波数帯域は、隣接する少なくとも一つはそれ以上の周波数領域変換係数のセットである。第二の手法は、その周波数帯域全跨る帯域方向におけるブロック全体について単一の歪みを計算する。以下の説明のためには更に幾つかの用語を定義することが有益である。
用語「帯域化された歪み(banded distortion)」とは次元Kの複数の値のベクトルであり、低周波数から高周波数へ添字を付してある。このベクトルにおけるK個の成分の各々はブロック内の一つはそれ以上の変換係数の各セットについての歪値を表す。
用語「ブロック歪」とはブロックについての歪値を表すスカラー値である。
用語「前置エコー歪み」とはスカラー値であって、何らかの最小可知差異(JND:Just Noticeable Difference)広帯域参照エネルギ閾域に対する所謂前置エコー歪みのレベルを表し、ここでJND参照エネルギ閾域を下回る歪みは重要ではないとみなされる。
用語「時間支持(time support)」とは変換係数の単独のブロックに対応する時間領域サンプルの拡がりである。修正離散コサイン変換(MDCT)Princen et al.,”Subband/Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation,”ICASSP 1987 CONF. PROC.,1987年5月、2161−64頁に記載されている)については、変換係数に対するどんな修正この変換により課される時間領域におけるセグメント間の50%の重畳のため、変換係数の二つの連続的ブロックから回復される情報に影響を及ぼす。このMDCTについての時間支持は係数の最初に影響されたブロックのみに対応する時間セグメントである。
用語「ジョイントチャンネルコーディング」はコーディング手法であり、これによりオーディオ情報の二つはそれ以上のチャンネルがエンコーダにて何らかの仕方で組み合わされて、デコーダにて別個のチャンネルへ分離される。デコーダにより得られた別個のチャンネルは同一ではないこともあり、或いはさらに知覚的には原チャンネルから識別できないこともある。ジョイントチャンネルコーディングは両方のチャンネルの間の相互情報(mutual information)活用することによりコーディング効率を高めるのに用いられる。
前置エコー歪み(pre-echo distortion)は、変換の時間支持が前置マスキング時間区間(pre-masking time interval)よりも長い変換オーディオコーディングシステムについて時間領域スキングに関して考慮される。前置マスキング時間区間に関する更なる情報は次の文献から得られるであろう:Zwicker et al.,”Psychoacoustics−Fact and Models,” Springer−Verlag,ベルリン、1990年。以下に説明する最適化技術は、時間支持が前置マスキング区間よりも小さいと想定しよって歪みの客観的指標のみが考慮される
本発明は、歪みの客観的指標とは対照的、主観的又は知覚的な歪みの指標に基づいて最適化を実行する選択を除外するものではない。特に、知覚コーダーについて時間支持が最適長よりも長いならば、歪みの平均二乗誤差は他の客観的指標は可聴歪みのレベルを正確には反映しないので、客観的指標を用いることにより得られるグループ構成とは異なるブロックグループ構成を選択できる。
最適化処理は様々な方式で設計され得る。一つの方式は1からまで値pを逐次反復し、ここでpはフレーム内のグループの数であり、pの各値について、閾値Tよりも高くな当該フレーム内の全てのブロックの歪みの合計を有するグループ構成を同定する。これら同定された構成では、以下に説明する三つの手法の一つを用いてグループの最適構成を選択してもよい。これに代えて、pの値は他何らかの手法により決定してもよく、例えば、ジョイントチャンネルコーディングについてのブロックの数を適応的に選択することによりコーディング利得を最適化する2チャンネル符号化処理によってもよい。の場合、pの共通の値は各チャンネルについてのpの個々の値から導かれる。二つのチャンネルについてpの共通の値が与えられているならば、最適グループ構成は両方のチャンネルについて連携して計算されうる
フレーム内のブロックのグループ構成は周波数依存であってもよいが、これエンコード化信号が周波数帯域がどのようにグループされているかを特定するように追加的な情報を伝えることを必要とする。本発明の様々な態様は、共通グループ化情報を有する諸帯域を、ここに開示した広帯域実施の個別インスタンス化と考えることにより多帯域の実施へ適用され得る。
2.歪み指標としてのエラーエネルギー
「歪み」の意味は最適化を推進する量の用語として規定されているが、この歪みは、オーディオエンコーダにおけるブロックの最適グループ化を見出す処理により用いることができるものにまだ関係付けられていない。ここで必要とされるのは、最適化処理を最適解へ向わせることができるエンコード化信号品質指標である。最適化はブロックのグループにおける各ブロックについての制御パラメータの共通セットを用いるように指向されているので、エンコード化信号品質指標は、各ブロックに適用され、且つグループ内の全てのブロックについての単独の代表的な値は複合的指標へ容易に組み合わせることができる何かに基づくべきである
以下に説明する複合的指標(a composite measure)を得るための一つの手法は、問題の値について有用な平均が計算できるものとして、グループ内の諸ブロックについての何らかの値の平均を計算することである。残念ながら、オーディオ符号化において利用可能な全ての値が複数の値から有用な平均を計算するために使用できるわけではない。不適切な値の一例は変換係数についての離散フーリエ変換(DFT)の位相成分である。というのは、これらの相成分の平均はいかなる意味のる値与えないためである。複合指標を得るためのもう一つの手法はグループ内の全てのブロックについての何らかの値の最大値を選択することである。何れの場合においても、複合指標は参照値として用いられ、エンコード化信号品質指標は、この参照値とグループ内の各ブロックについての値との間の距離に対して逆の関係にある。換言すれば、フレームについてのエンコード化信号品質指標参照値とフレーム内の全てのグループの各グループについての適切な値との間の誤差の逆数として規定できる。
上述のエンコード化信号品質指標は、この指標を最小化する処理を実行することにより最適化を推進するように用いることができる。
他のパラメータは様々なコーディングシステム又は他の用途に関係しうる。一つの例は所謂中間/側部(mid/side)コーディングに関連するパラメータである。中間/側部コーディング一般的なジョイントチャンネルコーディング技法であり、ここでは「中間(mid)」チャンネルが左右のチャンネルの合計であり、「側部(side)」チャンネルは左チャンネルと右チャンネルとの間の差である。本発明の様々な特徴を組み込むコーディングシステムの実施は、ブロックを跨中間/側部コーディングパラメータの共有を制御するために、エネルギーレベルに代わってチャンネル間相関を使用し得る。一般に、ブロックをグループにグループ、グループ内のブロックの間符号化制御パラメータを共有して、制御情報をデコーダへ送る任意のオーディオエンコーダがブロックについての最適なグループ化構成を決定することができる本発明から裨益できる。本発明によって与えられた利点がなければ、ビットの最適でない割り当てが可聴な量子化歪みの全体的な増加をもたらしてしまう。というのは、ビットは符号化スペクトル係数から変えられて、様々なスペクトル係数の間最適には割り当てられないことがありうるためである。
3.ベクトルエネルギ対スカラーエネルギ
本発明の実施は最適化処理を推進するために帯域化歪はブロック歪値の何れを用いてもよい。帯域歪みを用いるかブロック歪を用いるかは、一つのブロックから次のブロックへの帯域エネルギの変動に大幅に依存する以下の定義が与えられる。
はブロックmにおける全エネルギについてのスカラーエネルギ値 (1a)
m,jはブロックmにおける帯域jについての帯域エネルギを表すベクトル成分 (1b)
エンコードされる信号メモリがなく(memoryless)μ( m,j m+1,j)=0であれば(ここでK個の周波数帯域について0≦≦K−1であり、μ隣接するブロック間の相互情報の度合いの指標である)、スカラーエネルギー指標u 用いるシステムは、帯域エネルギー測度 m,jをを用いるシステムと同じくらいよく機能する。Jayant et al.,”Digital Coding of Waveforms”(Prentice−Hall、ニュージャージー,1984年)を参照されたい。換言すれば、相続くブロックがスペクトルエネルギレベルにおいてほとんど類似性を持たないならば、スカラーエネルギ指標として帯域エネルギ同じくらいよく機能する。一方、以下に説明するように、相続くブロックスペクトルエネルギレベルに高い度合いの類似性を持つならば、スカラーエネルギーは、エンコーディング能力に深刻な不利益を課すことなく、パラメータが2つはそれ以上のブロックに共通であってもよいか否かを示す満足のいく指標を与えないことがありうる
本発明は特定の指標を用いることには限定されない。対数エネルギ及び他の信号属性に基づく歪みの指標も様々な用途において適切でありうる
同様のスペクトルコンテツ〔スペクトル内容〕を持つ、即ち、μ( m,j m+1,j)>0であるブロック移行についても、依然として特定の帯域エネルギ m,j
Figure 0005069909
となる或いは零に近い小さな値に等しいことがありうる。この結果は、広帯域ベースでは、隣接し合うブロックの間の全体的なエネルギの比較は、個々の周波数帯域におけるブロックの間の差が見落とされることがあるということを示している。多くの信号について、エネルギのスカラー測度は歪みを正確に最小化するには不充分である。これは広範なオーディオ信号について言えることなので、以下に説明する本発明の実施では、スカラーブロックエネルギ に代えて帯域ごとにしたエネルギ値V=( i,0,・・・, i.K−1)のベクトルを用いて最適なグループ分け構成同定する。
4.制約条件の特定
本発明を採用する応用に基づいて考慮すべき多くの条件がある。以下に説明する本発明の実施はオーディオ符号化方式である。従って、関連する制約条件はオーディオ情報の符号化に関連するパラメータである。例えば、サイドコスト条件はグループ内の全てのブロックに対して共通である制御パラメータを送る必要性から生じる。より高いサイドコストは各ブロックについてのよりみで信号を符号化することを可能とするが、サイドコストにおける増大は、一定数のビットを各フレームに割り当てなければならないのであれば、フレーム内の全てのブロックについての全歪みを増大させることがある。本発明の特定の実施を他のものにも増して有利なものとする実施の複雑さに対して課される制約条件もありうる
5.問題陳述の導入
以下はオーディオ符号化方式における歪みを最適にするための数問題定義である。
この特定の問題定義において歪みは、ブロックグループ化の候補におけるフレームについてのスペクトル係数と、各ブロックがそれ自身のグループの中にあるフレームにおける個々のブロックスペクトル係数エネルギとの間のエラーエネルギの測度である。
個の帯域化されたエネルギベクトルV i,0≦i<Nの順序集合を仮定し、ここで各ベクトルは正の実数成分を有次元Kである、即ちV=( i,0,・・・, i.K−1)とする。記号は帯域化されたエネルギ値のベクトルを表し、ここでベクトルの各成分は、変換係数の本質的には任意の所望の帯域に対しうる。正の整数の任意の順序集合0= <...< =Nについて、I=[ −1,s ],∀,0<m≦pとして間〔区間〕定義できる。記号s は各ブロックにおける最初のブロックのブロック指数〔インデックス〕を表し、mがグループ指数〔インデックス〕である。値 =Nは間隔Iについての終点を定義する目的のみのために次のフレームの最初のブロックに対する指数〔インデックス〕として考えることができる。エネルギベクトルの集合の分割P( ,...,s )を次のように定義することができる。
P(S)=(G,...,Gp−1), (3)
ここでSはベクトル( ,...,s )であり、
Gm={V|i∈I) (4)
である。記号Gmはグループ内のブロックを代表する。
幾つかの歪みの指標を本発明の様々な実施に用いてもよい。平均最大歪指標M’は以下のように定義される。
Figure 0005069909
平均歪みAは以下のように定義される。
Figure 0005069909
みの最大差M’’は以下のように定義される。
Figure 0005069909
分割P(S)= ,...,s )についてのサイドコスト関数は(p−1)cに等しいと定義され、ここでcは正の実数の定数である。
歪みについて二つの追加的な関数が次のように定義される。
M*(S)=M(S)+Dist{(p−1)c} (13)
A*(S)=A(S)+Dist{(p−1)c} (14)
ここでM(S)はM’(S)でもM’’(S)でもよく、
Dist{}はサイドコストを歪みと同じ単位で表すマッピングである。
M(S)についての関数は最適解を見出すのに用いられ検索アルゴリズムに従って選択することができる。これは下記で論じる。Dist{}関数はサイドコストをM(S)及びA(S)と互換な値へマップするために用いられる。いくつかの符号化方式では、サイドコストから歪への適切なマッピングは、
Dist{C}=6.02dB・C
であり、ここでCはビットで表したサイドコストである。
最適化は次の数的問題として定式化される。即ち、正の整数成分( ,・・・, )を持つベクトルSを、関係0= <...< =N (但し、1≦p≦N)を満たす正の整数 ,..., の可能な全ての選択について特定の歪関数M(S),M*(S),A(S)はA*(S)を最小にするように決定する。
あるいはまた、最適化は閾値を使う数値的問題として定式化されてもよい。即ち、pのあらゆる整数値(但し、1≦p≦N)について、関係0=s <s <...<s =Nを満たすベクトルS=(s ,s ,・・・,s )を、所望の歪関数M(S),M*(S),A(S)又はA*(S)の値が仮定閾値Tを下回るように決定する。これらのベクトルから、pについての最小値をベクトルSを見つける。この手法に対する代替は、1からNへのpの増加する値にわたって逐次反復し、閾値制約条件を満たす最初のベクトルSを選択することである。この手法について以下に一層詳細に説明する。
6.多チャンネル系についての付加的な考察
AC−3システムで用いられるチャンネルカップリングのような統合〔ジョイント〕ステレオ/多チャンネルコーディング法、及びAACシステムで用いられる中間/側部ステレオコーディング−は強度ステレオコーディングを採用するステレオは多チャンネルコーディングシステムのためには、全てのチャンネルのオーディオ情報を特定のコーディングシステムについて適切な短いブロックモードエンコードして、全てのチャンネルにおけるオーディオ情報が同数のグループ及び同じグループ分け構成を持つようにするべきである。この制約は、サイドコストの主要な源であるスケール因子が統合的にエンコードされるチャンネルのうちの一つについてのみ与えられるために適用される。このことはスケール因子の1セットが全てのチャンネルへ適用されるので、全てのチャンネルが同一のグループ構成を持つことを意味している。
最適化は、多チャンネルコーディングシステムにおける少なくとも三つの手法の何れかで実行できる。即ち、その一つの手法は「統合チャンネル最適化」と称されており、チャンネルを横断して、帯域ごとだろうと広帯域だろうと全ての誤差エネルギー〔エラーエネルギー〕を加算することにより、単一パスで、グループの数及びグループの境界の統合的な最適化により実行される。
もう一つの手法は「入れ子式ループチャンネル最適化」と称されており、外側ループが全てのチャンネルについての最適なグループ数を計算する入れ子式ループ処理として実施される統合チャンネル最適化としてなされる。例えば、統合ステレオコーディングモードにおける両方のチャンネルを考慮すると、内側ループは所与のグループについて理想的なグループ構成の最適化を実行する。このアプローチ対して課される主要な制約条件内側ループで実行される処理が全ての統合的にコーディングされるチャンネルについて同一の値pを用いるということである。
更にもう一つの手法は「個別チャンネル最適化」と称されており、全ての他のチャンネルから独立し各々のチャンネルについてのグループ構成を最適化することにより実行される。pの一意的な値又一意的なグループ化構成によりフレーム内のいずれかのチャンネルエンコードするために統合チャンネルコーディング技法を用いることはない
7.制約された最適化を実行する方法
本発明は基本的に任意の所望の方法を用いて最適解を検索しうる。ここで三通りの方法を説明する。
「全数検索法」は計集約的であるが、常に最適解を発見する。一つのアプローチは、全ての可能なグループ数および各グループ数についての全ての可能なグループ化構成とを計算し;各グループ数についての最小歪を持つグループ化構成を特定;最小歪を有する構成を選択することにより最適なグループ数を決定する。これに代えて、グループ数についての最小歪を閾値と比較して、その閾値を下回る歪み指標を有する最初のグループ化構成が見つかった後に検索を終了することもできる。この代替的な実施は、許容可能な解を見出すための検索の計算上の複雑を低減するが、最適な解を見つけることは保証できない。
「Greedy−Merge〔貪欲な併合〕法」は全数検索法ほど計算集約的ではなく、最適なグループ化構成を見つけることは保証できないが、通常は最適構成と同じ若しくはほぼ同じくらい良い構成を見つける。この手法によれば、隣接するブロックどうしはサイドコストを考慮しながら逐次反復的にグループに組み合わされる
「高速最適法(Fast Optimal Method)は上述した他の二つの手法の複雑さの中間である計算上の複雑さを持つ。この逐次反復法は、の反復において計算された歪計算に基づいて特定のグループ化構成を考慮することを回避する。全数検索法と同様に、全てのグループ化構成を考慮するが、一部の構成の考慮は先行する計算に鑑みてその後の反復工程から除外することができる。
8.サイドコストに影響するパラメータ
好ましくは本発明の実施は最適なグループ化構成を検索する際、サイドコストにおける変化を考慮する。
AACシステムについてのサイドコストの主要な成分はスケール因子値を表すのに必要な情報である。スケール因子はグループ内の全てのブロックに跨って共有されるので、AACエンコーダにおける新たなグループの追加は、追加的なスケール因子を表すのに必要な追加的情報の量だけサイドコストを増大させる。AACエンコーダにおける本発明の実施がサイドコストにおける変化を考慮するのであれば、この考慮は推定を用いねばならない。というのは、スケール因子値はレート歪みループ計算が完了する後までは知ることができ該レート‐歪みループ計算はグループ化構成確立された後に実行せねばならないためである。AACシステムにおけるスケール因子は非常に可変であり、それらの値は、入れ子式のレート/歪みループにおいて決定されるスペクトル係数の量子化分解能に密接に関係している。AACにおけるスケール因子エントロピーコード化もされこれはさらに、そのサイドコストの非決定論的な質に寄与する。
ーディオ情報をエンコードするのに用いられる特定のエンコード処理に依存して、サイドコストの他の形態も可能である。例えばAC−3システムにおいては、チャンネル結合座標は、共通のエネルギ値による座標のグループ化に有利な方式でブロックに跨って共有できる。
本発明の様々な特徴はAC−3システムにおける処理に適用可能であり、該処理はエンコード化信号における変換係数指数を運ぶのに用いられる「指数コーディング戦略」を選択する。AC−3指数は、所与の指数を共有する全てのスペクトルラインについてのパワースペクトル密度値の最大として採るので、最適化処理は、AACにおいて用いられる平均二乗誤差基準に代えて、最大誤差基準を用いて機能できる。AC−3システムにおいては、サイドコストは、先行するブロックからの指数を使用しない新たな各ブロックについての指数を運ぶために必要とされる情報量である。指数コーディング戦略は係数がどのように周波数に亘って指数を共有するかについても決定し、指数戦略グループ化構成に依存するならばサイドコストに影響する。AC−3システムにおける指数のサイドコストを推定するのに必要な処理は、AACシステムにおけるスケール因子についての推定を与えるために必要な処理よりも複雑さが少ない。というのは、指数値は心理音響モデルの一部としてのエンコーディング処理において早期に計算されるためである。
C.検索方法の詳細な説明
1.全数検索法
全数検索法はグループ化構成の数及び試験されるグループの数を制限するために閾値を用いる。この技術は、pの実際の値を設定するために閾値に専ら頼ることにより単純化できる。これは閾値を0.と1.0との間の或る数に設定し、グループの可能な数に亘って逐次反復することにより実行できる。最適なグループ構成及び結果的な歪関数p=1について、そしてTに対する各比較についてpを一つずつ増加させて計算される結果的な歪はTに対して比較され、歪関数がT未満となるpの最初の値が最適なグループ数として選択される。経験的に閾値Tの値を設定することにより、広範な異なる入力信号について短いウィンドウフレームの大きなサンプリングに跨るpのガウス分布を達成することが可能である。このガウス分布は広範な入力信号に亘ってpのより高いより低い平均値を可能とするようにTの値を設定することによりシフトされてもよい。この処理は図2のフローチャートに示されており、これはグループの最適数を見つけるための外側ループにおける処理を示す。内側ループについての好適な処理は図3A及び図3Bに示されており、以下に説明する。関数M(S),M*(S),A(S)及びA*(S)を含め本明細書に説明した任意の歪関数を用いてよい。
側ループの逐次反復により決定したpの所与の値について、内側ループが平均二乗誤差歪の最小量を達成する最適グループ化構成S=(s ,s ,...,s )を計算する。10未満程度の小さな値Nについては、Nブロックに跨るp個のグループを仕切る全ての可能な方法を包含する1組の表エントリーを構築することが可能である。各表エントリーの長さは、7個うちから同時に(p−1)個を選ぶ組み合わせの数であり、以下「7のうちp−1」として示す。定義されないp=0と、各グループがちょうど一つのブロックを包含する無歪解を与えるp=Nとを除くpの全ての値について別個の表エントリーがある。0<p<Nについては、表の好ましい実施は、表におけるビットフィールドTABとしてのS={s ,..., についての分割値(partition values)格納し、内側組み合わせループにおける処理がTABビットフィールド値をマスクして、各 についての絶対的な値に達する。0<p<Nについてのビットフィールドの分割値は以下の通りである。
〔表1の第1列は「グループ境界の数(p−1)」を表し、第2列は「表の長さ(7のうちp−1)」を表し、第3列は「s ,s ,...,s p−1 の組み合わせ(ビットフィールドの形)」を表す。〕
Figure 0005069909
表1.N=8についての系列化の全ての可能な組み合わせ
表の各エントリー即ち行は、0<p<N,N=8の異なる値pに対応する。この表は図3A及び図3Bの論理フロー図(図2に示す処理の内側ループ)に示したような反復処理に用いてもよい。この内側ループは全ての可能なグループ構成その数はのうちp−1)にわたって逐次反復される。フロー図における表記TAB[p,r]に示すように、外側ループにより与えられたp値は表の行にインデックスを付しており、値rは特定のグループ分けの組み合わせについてのビットフィールドのインデックスである
各々の内側ループ反復工程について、図3Aに示すよう平均歪量A(S)か、はこれに代えて、図3Bに示すような最大歪差M’’(S)をそれぞれ式10は12に従って計算される。全てのブロック及び帯域に跨る全歪が合計され、単独のスカラー値ASA はMSA られる。
全数検索法を様々な歪指標をいうる。例えば、上述した実施例はL1ノルムを用いるが、代替的に、L2ノルムはL無限大ノルム指標を用いてもよい。下記の文献を参照されたい:R.M.Gray,A.Buzo,A.H.Gray,J.,”Distortion Measures for Speech Processing,”IEEE Transactions on Acoustics,Speech,and Signal Processing,Vol.ASSP−28,No.4,1980年8月。
2.高速最適法
高速最適法は式7で定義した平均最大歪M’(S)を用いる。この手法は、全ての可能な解を通じた全数検索をする必要なく、最適グループ化構成を得る。従って、上述した全数検索法のよう計算集約的ではない。
a)定義
分割P( ,...,p)は、p個のグループから構成されているならば、レベルpの分割と称する。グループの次元dは、そのグループにおけるブロックの数である。1よりも大きい次元を有するグループを正のグループと称する。式4に示したグループGの定義はG=G(sm−1,sm−1+1....、 )と書き換えられる。
b)数学的準備
d>3の次元を持つグループは、ちょうど一つの共通のブロックを持つ二つのサブグループへ分割することができる。例えば、G=G(sm−1,sm−1+1....,s )であるならば、このグループGは二つのサブグループ即ちGma=G(sm−1,sm−1+1....m−1+k)及びGmb(sm−1+k,..,s)へ分割することができ、その両方は指数sm−1+kを持つブロックを包含している。定義により、これら二つのサブグループは同一の分割の一部にはなりえない。グループを二つの正の重畳するサブグループへ分割する手法は、与えられたグループを二つはそれ以上の正の重畳するサブグループへ分割する手法一般化することができる。
上述の式6で定義された歪指標J’(m)は常に以下の条件を満足する。
J’(m)J’(ma)+J’(mb) (15)
ここでGma及びGmb はグループG の重畳するサブグループである。これはJm, ≧max(J’ma,j,Jmb,j)が全ての,1≦≦kについて真であることを示すことにより証明できる。この関係を式6で示されたJ’(m)の定義に挿入することにより、表式15における関係が見い出されることがわかるであろう
c)コア処理の説明
高速最適法の基礎をなす原理を理解するために、まず、レベルpの分割を定義する全てのベクトル ..., についてM’(S)=M’(s,..,s)を最小化するレベルpの所与の分割 を想定する。スペクトル係数の特定の値とは独立、レベルp−1の分割を定義する全てのベクトルS=(s,...,s)についてM’(s,..,s)を最小化するレベルp−1の唯一の分割Pp−1ではありえないレベルp−1の分割Fが存在する。換言すれば、これらの分割Fの一つが、レベルp−1の分割を定義する全てのベクトルSについてM’(S)を最小化するならば、レベルp−1の分割を定義する全てのベクトルSについてM’’(S)を最小化する他の分割も少なくとも一つは存在する。これら分割Fについて、X(p,P)で示されるサブセットX(p,P)を定義でき、これは以下に詳述するように最適解を見出すのに必要な処理の一部から排除できるレベルpにおける特定の分割を包含する。このサブセットX(p,P)は以下のように定義できる。
(1)レベルp−1の分割Fがn個の正のグループを有し、0<m<nとしてこの分割のm個の正のグループがそれぞれ同一の次元の他の正のグループに置き換えることができ、置換後は、分割Fは重畳グループを持たないレベルp−1の分割Gへ変換されるとする。分割Pの正のグループ、分割Gの正のグループのサブセットであるが、分割Fの正のグループのサブセットではない場合、FはX(p,P)に属している。
(2)レベルp−1の分割Fがn個の正のグループを有し、0<m≦nとしてFの正のグループは二つはそれ以上の正のグループへ分割できるとする
更にこれら正のグループの少なくとも一つは、同一の次元を有するグループと置換して、分割Fを重畳グループを有さないレベルp−1の有効な分割Gへ変換するとする。分割Pの正のグループが分割Gの正のグループのサブセットであるが分割Fの正のグループのサブセットではないのであれば、関係15に従ってFはX(p,P)に属する。
構成により、セット〔集合〕X(p、P)はレベルp−1の全ての分割のセットとは同一になりえないことを指摘しておくことは有益であろう。
d)一般化した場合(N任意)
高速最適法はフレームのN個のブロックをp=N個のグループに分割することにより開始されて、平均最大歪関数M’(S)はM*(S)を計算する。この分割はPで示される。この方法はN個のブロックをg=N−1個のグループへ分割する全てのN−1個の可能な仕方について平均最大歪関数を計算する。これらN−1個の分割のうち平均最大歪関数を最小化する特定の分割はPN−1で示される。セットX(N−1、PN−1)に属する分割は上述のように特定される。この方法は次いで、N個のブロックをセットX(N−1,P N−1 )に属さないg=N−1個のグループへ分割する全ての可能な仕方について平均最大歪関数を計算する。平均最大歪関数を最小化する分割はPN−2で示される。高速最適法は、この処理をp=N−2,...,について逐次反復し、各レベルにおけるセットX(p,P )を用いて分割P p−1 を見出し、可能な解として解析される分割の数を低減させる。
高速最適法は、分割P,....,Pのうちから、平均最大歪関数M’(S)はM*(S)を最小化る分割Pを見つけ出すことにより終了する。
e)例
以下の例は高速最適法の説明を助けると共に可能な態様の特徴を記載するものである。この例では、各フレームが六つのブロックを含んでいる、即ちN=6である。或る分割を上述のセットX(p,P)へ加えるべきか否かの判断に必要な処理を単純化するために、制御表のセットを用いてもよい。この例のために表のセット即ち表2A乃至2Cを示す。
これらの表における表記D(a,b)は特定の分割(partition)同定するために用いられている。分割は一つは複数のブロックのグループからなり、それに含まれる正のグループにより一意的に特定できる。例えば、六ブロックの分割が四つグループからなり、その第1のグループブロック1及び2を包含し、第2のグループブロック3及び4を包含し、第3のグループブロック5を包含し、第4のグループブロック6を包含していることは、(1,2)(3,4)(5)(6)として表現することができ、表にはD(1,2)+D(3,4)として示されている。
各表は、レベルpにおける特定の分割P を処理するときに、レベルp−1における特定の分割がセットX(p,P)に属するか否かを判断するために用いられる情報を与える。表2Aは、例えば、表の上行に示される各レベル5分割について、レベル4における分割がセットX(5,P)に属するか否かを判断するための情報を与える。図2Aの上行は、例えば、五つのグループからなる分割を列記する。全ての分割が列記されているわけではない。この例では五つのグループを含む全ての分割は、D(1,2),D(2,3),D(3,4),D(4,5)及びD(5,6)である。表の上行には分割D(1,2),D(2,3)及びD(3,4)のみが示してある。欠けている分割D(4,5)及びD(5,6)は、それぞれ分割D(2,3)及びD(1,2)対称であって、これらから導出することができる。表2Aの左列は四つのグループからなる分割を示している。各表に示される記号”Y”及び”N”は、左側の列に示されるレベルp−1における分割、その列における表の上行に示される各Pについての更なる処理から除外されるべきか(”Y”)否か(”N”)を示す。例えば表2Aを参照すると、レベル5分割D(1,2)はレベル4分割D(2,3,4)についての行におけるエントリー”N”を有し、これは分割D(2,3,4)がセットX(5,D(1,2))に属し、更なる処理から除外されるべきであることを示す。レベル5分割D(2,3)はレベル4分割D(2,3,4)についての行における”Y”エントリーを有し、これはそのレベル4分割がセットX(5,D(2,3)に属さないことを示す。
この例においては高速最適法を実施する処理がフレームの六つのブロックを六つのグループへ分割して、平均最大歪を計算する。この文割はPとして示される。
理は六つのブロックを五つのグループへ分割する全ての五つの可能な仕方について平均最大歪を計算する。該五つの分割のうち平均最大歪を最小化する分割はPとして示される。
理は表2Aを参照して、一番上エントリーが分割Pグループ化構成を特定する列を選択する。処理は六つのブロックを、選択された列にYのエントリーを有する四つのグループへ分割する全ての可能な仕方について最大平均歪を計算する。この平均最大歪を最小化する分割はPとして示される。
理は表2Bを用いて、一番上のエントリーが分割Pグループ化構成を特定する列を選択する。処理は、六つのブロックを、選択されたれ列に”Y”のエントリーを有する三つのグループへ分割する全ての可能な仕方について平均最大歪を計算する。平均最大歪を最小化する分割はPとして示される。
理は表2Cを用いて、一番上のエントリーが分割Pグループ化構成を特定する列を選択する。処理は、六つのブロックを、選択されたれ列に”Y”のエントリーを有するグループへ分割する全ての可能な仕方について平均最大歪を計算する。平均最大歪を最小化する分割はPとして示される。
処理は一つのグループから構成される分割についての平均最大歪を計算する。この分割はPとして示される。
割P1,....,P6のなかから最小の平均最大歪を有する分割Pを特定する。この分割Pは最適なグループ化構成を与える。
Figure 0005069909
表2A.p=5についての高速最適グループ消去表
Figure 0005069909
表2B.p=4についての高速最適グループ消去表
Figure 0005069909
表2C.p=3についての高速最適グループ消去表

3.Greedy Merge〔貪欲な併合〕の説明
Greedy Merge法はフレーム内の諸ブロックをグループへ分割する単純化された技法を与える。Greedy Merge法は最適なグループ化構成が見つかることは保証しないが、この方法により与えられる計算上の複雑の低減、殆どの実際的な用途については、最適性における低下がありうること以上に望ましい。
Greedy Merge法には、上述したものを含めて広範な歪測定関数を用いてもよい。好ましい実施は式11に示される関数を用いる。
図4は好適なGreedy Merge法のフローダイアグラムであり、以下のように機能する。帯域化されたエネルギベクトルVを各ブロックiについて計算する。各々が一つのブロックを有するN個のグループのセットを形成する。方法は次いで、グループの全てのN−1通りの隣接するを試験して、二つの隣接するグループgおよびg+1であって式11を最小化するものを見つける。式11からのJ”の最小値をqで示す。次に、この最小値qを歪閾値Tと比較する。最小値が閾値Tよりも大きければ、この方法は現在のグループ化構成を最適又は近似的に最適な構成と同定して終了する。最小値が閾値Tより小さければ、二つのグループg及びg+1は、それら二つのグループg及びg+1の帯域化されたエネルギベクトルを包含する新たなグループへ併合される。この方法は全ての隣接するグループの対についての歪値”が歪閾値Tを越えるか、或いは全てのブロックが一つのグループへ併合されるまで逐次反復される。
この方法四つのブロックのフレームについて機能する仕方の一例を図5に示す。この例では、四つのブロックは最初に各々が一つのブロックを有する四つのグループa,b,c及びdへ配置される。次いで、方法は式11を最小化する二つの隣接するグループを見つける。最初の繰り返し〔反復工程〕では、方法は、歪閾値Tよりも小さい歪指標J”をもつ、式11を最小化するグループb及びcを見つける。従って、方法はグループb及びcを併合して新たなグループにし、三つグループa,bc及びdを得る。二回目の繰り返しでは、方法は、式11を最小化する二つの隣接するグループa及びbcを見出し、このグループの対についての歪指標J”が閾値Tよりも小さいことを見つける。グループa及びbcが併合された新たなグループにされ、全部で二つのグループabc及びdとなる。三回目の繰り返しでは、方法は残りのグループ対のみについての歪指標J”が歪閾値Tよりも大きいことを見出す。従って、方法は最終的な二つのグループabc及びdを最適又は近似的に最適なグループ化構成として残して終了する。
Greedy Merge法の計算の複雑さの実際の程度は、閾値を越える前に本方法を逐次反復せねばならない回数に依存しているが、反復の回数は1と(1/2)・(N−1)との間に制限される。
D.実施
本発明の様々な態様を組み込むデバイスは、コンピュータ又は、汎用コンピュータに見られるのと同様なコンポーネント結合されたディジタル信号プロセッサ(DSP)回路系のようなより特化したコンポーネントを含む他の何らかのデバイスにより実行されるソフトウェアを含む多様な仕方で実装されうる。図6はデバイス70の概略的ブロック図であり、これは本発明の態様を実施するために用いることができる。DSP72はコンピューティング資源を与える。RAM73は、処理のためにDSP72によって用いられるシステムランダムアクセスメモリ(RAM)である。ROM74は、例えばリードオンリーメモリ(ROM)などの何らかの形の固定記憶装置を示し、デバイス70を動作させるのために、また場合によっては本発明の様々な態様を実行するために必要なプログラムを記憶する。I/Oコントロール75は通信チャンネル76,77により信号を送受信するインターフェース回路系を示す。図示の実施例においては、全ての主要なシステムコンポーネントはバス71へ接続、このバスはつ以上の物理的又は論理的バスを表すが、バスのアーキテクチュアは本発明の実施には要求されない。
汎用コンピュータシステムにより実施される実施例において、付加的なコンポーネントが、キーボ−ド又はマウス及びディスプレイなどのデバイスへのインターフェースをもつため、また磁気テープ又はディスク或いは光媒体などの記憶媒体を有する記憶デバイスを制御するために含められる。記憶媒体はオペレーティングシステム、ユーティリテイ及びアプリケーションのための命令のプログラムを記録するのに用いてもよく、また本発明の様々な態様を実施するプログラムを含んでもよい。
本発明の様々な態様を実施するのに必要な機能は、個別の論理コンポーネント、集積回路、少なくとも一つのASIC及び/又はプログラム制御プロセッサを含む広範な方式で実現されるコンポーネントにより実行することができる。これらのコンポーネントを実現する方式は本発明には重要ではない。
本発明のソフトウェアの実施は、超音波から紫外線周波数までを含むスペクトルを通じてのベースバンド又は変調通信経路などの様々な機械読み取り可能媒体により担持されてもよく、或いは磁気的なテープ、カード又はディスク、光学的なカード又はディス及び紙を含む媒体上の読み取り可能なマーキングを含む基本的に任意の記録技術を用いて情報を保持する記憶媒体により担持されてもよい
図1は本発明の様々な特徴を組み込むことができるオーディオコーディングシステムのブロック図である。 図2は一つのフレーム内のブロックのグループの最適数を見出すための逐次反復プロセスにおける外側ループのフローチャートである。 図3Aは一つのフレーム内のブロックの最なグループ化を見出すための逐次反復プロセスにおける内側ループのフローチャートである。 図3Bは一つのフレーム内のブロックの最なグループ化を見出すための逐次反復プロセスにおける内側ループのフローチャートである。 図4はGreedy Merge処理のフローチャートである。 図5は四つのブロックへ適用されるGreedy Merge処理の一例を示す概念的なブロックダイアグラムである。 図6は本発明の様々な態様を実施するために使用できる機構の概略的なブロック図である。

Claims (33)

  1. フレームに配置されたオーディオ情報のブロックの処理のための方法であって、各ブロックはオーディオ情報の各時間間隔を表すコンテンツを有し、この方法は、
    (a)オーディオ情報のブロックを伝送する入力信号を受け取る段階と、
    (b)少なくとも二つ以上の特性値を獲得する段階であって、ここで、
    (1)各フレームにおける前記ブロックのグループの複数のセットにおける各セットは関連する特性値を有し、
    (2)各グループは少なくとも一つのブロックを有し、
    (3)グループの各セットは各フレームにおける全てのブロックを含むと共に、各セットにおける一つよりも多くのグループに含まれるブロックはなく、
    (4)前記特性値は、各グループに関連する少なくとも一つの制御パラメータに従って各グループにおける各ブロックをエンコード化することにより獲得可能なエンコード化出力信号の忠実性を表すところの、
    段階と、
    (c)二つ以上のコスト値を得る段階であって、各コスト値はブロックのグループの一つのセットに提携しており、前記コスト値は関連する前記制御パラメータに従って前記提携セット内の前記ブロックをエンコード化するのに必要な資源の量を表す段階と、
    )前記特性値を解析して、選択されたセットに関連する特性値および前記選択されたセットと提携したコスト値から得られるエンコード化性能値が閾値よりも高くなるような、最小数のグループを有する選択されたグループのセットを特定する段階と、
    )少なくとも一つの制御パラメータの関連するセットに従ってグループの前記選択されたセットにおけるブロックの各グループをエンコード化してエンコード化出力信号を生成する段階であって、このエンコード化出力信号は、前記入力信号のコンテンツを表、且つ前記選択されたセットにおける各グループについての関連する制御パラメータを表す段階とを含む方法。
  2. 請求項1の方法において、前記ブロックはオーディオ情報の時間域サンプルを含む方法。
  3. 請求項1の方法において、前記ブロックはオーディオ情報の周波数域係数を含む方法。
  4. 請求項1乃至3の何れか一項の方法において、前記グループの少なくとも一対のブロックは、互いに隣接又は互いに重畳する時間間隔におけるオーディオ情報を表すコンテンツを有する一つよりも多くのブロックを有する方法。
  5. 請求項1乃至4の何れか一項の方法において、前記解析は、前記選択されたセットについての候補ではない少なくとも一つのセットを決定するための反復処理の少なくとも一回の反復を実行すると共に、後続の反復処理においては前記少なくとも一つのセットの解析を除外する方法。
  6. 請求項1乃至4の何れか一項の方法において、前記選択されたセットは反復処理により同定され、この処理は、
    グループの初期セットにおけるグループの対についての第2のエンコード化性能値を決定する段階と、
    最も高い第2のエンコード化性能値が前記閾値より高ければ、前記最も高い第2のエンコード化性能値を有するグループ対を統合して、グループの変更されたセットを形成すると共に、このグループの変更セットにおけるグループの諸対についての第2のエンコード化性能値を決定する段階と、
    前記グループの変更セットに前記閾値よりも大きな第2のエンコード化性能値を有すグループ対がなくなるまで前記統合を繰り返し、前記変更セットを前記選択されたセットとする段階とを含む方法。
  7. 請求項1乃至4の何れか一項の方法において、各フレームはNに等しいブロック数を有すると共に、前記特性値の析は
    はフレーム内のブロックのグループ数であるとして、1からNまでの値pについて逐次反復し
    pの各値について、前記閾値よりも高いエンコード化性能値を有するグループの少なくとも幾つかのセットを特定し、
    グループの少なくとも幾つかの特定されたセットを解析し、解析されたグループのセット内のエンコード化性能値を最大化するグループの選択されたセットを決定することを含む方法。
  8. 請求項1乃至7の方法において、各フレーム内の各ブロックはスペクトル係数を含みグループの特定のセットについてのエンコード化性能値は、グループの前記特定のセットについての当該フレームにおけるスペクトル係数と各ブロックが単独でそれ自身のグループをなす場合の当該フレームにおけるスペクトル係数との間のエラーエネルギー値を表す方法。
  9. 請求項1乃至8の何れか一項の方法において、前記エンコード化性能値は、ブロックからなる各フレームを表すために使えるビットの全数に応じて決められる方法。
  10. 請求項1の方法において、前記コスト値はエンコード化信号における前記制御パラメータのセットを表すのに必要なデータの量に対応する方法。
  11. 請求項1の方法において、前記コスト値はオーディオ情報のブロックをエンコード化するのに必要なコンピュータ資源の量に対応する方法。
  12. フレームに配置されたオーディオ情報のブロックを処理する装置であって、各ブロックはオーディオ情報の各時間間隔を表すコンテンツを有し、この装置は、
    オーディオ情報のブロックを伝送する入力信号を受け取る手段と、
    少なくとも二つ以上の特性値を獲得する手段であって、
    (1)各フレームにおける前記ブロックのグループの複数のセットにおける各セットは関連する特性値を有し、
    (2)各グループは少なくとも一つのブロックを有し、
    (3)グループの各セットは各フレームにおける全てのブロックを含むと共に、各セットにおける一つよりも多くのグループに含まれるブロックはなく、
    (4)前記特性値は、少なくとも一つの制御パラメータの関連するセットに従って各グループにおける各ブロックを処理することにより獲得可能なエンコード化出力信号の忠実性を表す
    ところの手段と、
    (c)二つ以上のコスト値を得る手段であって、各コスト値はブロックのグループの一つのセットに提携しており、前記コスト値は前記制御パラメータの関連セットに従って前記提携セットにおける前記ブロックを処理するのに必要な資源の量を表す手段と、
    (d)前記特性値を解析して、選択されたセットに関連する特性値および前記選択されたセットと提携したコスト値から得られるエンコード化性能値が閾値よりも高くなるような、最小数のグループを有する選択されたグループのセットを特定する解析手段と、
    少なくとも一つの制御パラメータの関連するセットに従ってグループの前記選択されたセットにおけるブロックの各グループをエンコード化して出力信号を生成し、この出力信号は、前記入力信号のコンテンツを表す出力信号を生成し、且つ前記選択されたセットにおける各グループについての制御パラメータの関連するセットを表す手段とを備える装置。
  13. 請求項12の装置において、前記ブロックはオーディオ情報の時間域サンプルを含む装置。
  14. 請求項12の装置において、前記ブロックはオーディオ情報の周波数域係数を含む装置。
  15. 請求項12乃至14の何れか一項の装置において、前記グループの少なくとも一対のブロックは、互いに隣接又は互いに重畳する時間間隔におけるオーディオ情報を表すコンテンツを有する一つよりも多くのブロックを有する装置。
  16. 請求項12乃至15の何れか一項の装置において、前記解析手段は、前記選択されたセットについての候補ではない少なくとも一つのセットを決定するための反復処理の少なくとも一回の反復を実行すると共に、後続の反復処理においては前記少なくとも一つのセットの解析を除外する装置。
  17. 請求項12乃至15の何れか一項の装置において、前記解析手段が実行する解析は、
    グループの初期セットにおけるグループの対についての第2のエンコード化性能値を決定し、
    最も高い第2のエンコード化性能値が前記閾値より高ければ、前記最も高い第2のエンコード化性能値を有するグループ対を統合して、グループの変更されたセットを形成すると共に、このグループの変更セットにおけるグループの諸対についての第2のエンコード化性能値を決定し、
    前記グループの変更セットに前記閾値よりも大きな第2のエンコード化性能値を有すグループ対がなくなるまで前記統合を繰り返し、前記変更セットを前記選択されたセットとすることである
    装置。
  18. 請求項12乃至15の何れか一項の装置において、各フレームはNに等しいブロック数を有すると共に、前記特性値を解析する前記解析手段は、
    はフレーム内のブロックのグループの数であるとして、1からNまでの値pについて逐次反復させる手段と、
    pの各値について、前記閾値よりも高いエンコード化性能値を有するグループの少なくとも幾つかのセットを特定する手段と、
    グループの少なくとも幾つかの特定されたセットを解析し、解析されたグループのセット内のエンコード化性能値を最大化するグループの選択されたセットを決定する手段とを含む装置。
  19. 請求項12の装置において、各フレーム内の各ブロックはスペクトル係数を含みグループの特定のセットについてのエンコード化性能値は、グループの前記特定のセットについての当該フレームにおけるスペクトル係数と各ブロックが単独でそれ自身のグループをなす場合の当該フレームにおけるスペクトル係数との間のエラーエネルギー値を表す装置。
  20. 請求項12乃至19の何れか一項の装置において、前記エンコード化性能値は、ブロックからなる各フレームを表すのに使えるビットの全数に応じて決められる装置。
  21. 請求項12の装置において、前記コスト値はエンコード化信号における前記制御パラメータのセットを表すのに必要なデータの量に対応する装置。
  22. 請求項12の装置において、前記コスト値は前記オーディオ情報のブロックを処理するのに必要なコンピュータ資源の量に対応する装置
  23. フレームに配置されたオーディオ情報のブロックを処理する方法をデバイスに実させるためのプログラムを保持するコンピュータ読み取り可能な記録媒体であって、各ブロックはオーディオ情報の各時間間隔を表すコンテンツを有し、前記方法は、
    (a)オーディオ情報のブロックを伝送する入力信号を受け取る段階と、
    (b)少なくとも二つ以上の特性値を獲得する段階であって
    (1)各フレームにおける前記ブロックのグループの複数のセットにおける各セットは関連する特性値を有し、
    (2)各グループは少なくとも一つのブロックを有し、
    (3)グループの各セットは各フレームにおける全てのブロックを含むと共に、各セットにおける一つよりも多くのグループに含まれるブロックはなく、
    (4)前記特性値は、少なくとも一つの制御パラメータの関連するセットに従って各グループにおける各ブロックをエンコード化することにより獲得可能なエンコード化出力信号の忠実性を表す
    ところの段階と、
    (c)二つ以上のコスト値を得る段階であって、各コスト値はブロックのグループの一つのセットに提携しており、前記コスト値は前記制御パラメータの関連セットに従って前記提携セットにおける前記ブロックを処理するのに必要な資源の量を表す段階と、
    (d)前記特性値を解析して、選択されたセットに関連する特性値および前記選択されたセットと提携したコスト値から得られるエンコード化性能値が閾値よりも高くなるような、最小数のグループを有する選択されたグループのセットを特定する段階と、
    )少なくとも一つの制御パラメータの関連するセットに従ってグループの前記選択されたセットにおけるブロックの各グループをエンコード化して出力信号を生成し、この出力信号は、前記入力信号のコンテンツを表す出力信号を生成し、且つ前記選択されたセットにおける各グループについての制御パラメータの関連するセットを表す段階とを含む媒体。
  24. 請求項23のコンピュータ読み取り可能な記録媒体において、前記ブロックはオーディオ情報の時間域サンプルを含むコンピュータ読み取り可能な記録媒体。
  25. 請求項23のコンピュータ読み取り可能な記録媒体において、前記ブロックはオーディオ情報の周波数域係数を含むコンピュータ読み取り可能な記録媒体。
  26. 請求項23乃至25のコンピュータ読み取り可能な記録媒体において、前記グループの少なくとも一対のブロックは、互いに隣接又は互いに重畳する時間間隔におけるオーディオ情報を表すコンテンツを有する一つよりも多くのブロックを有するコンピュータ読み取り可能な記録媒体。
  27. 請求項23乃至26の何れか一項のコンピュータ読み取り可能な記録媒体において、
    前記解析は、前記選択されたセットについての候補ではない少なくとも一つのセットを決定するための反復処理の少なくとも一回の反復を実行すると共に、後続の反復処理においては前記少なくとも一つのセットの解析を除外するコンピュータ読み取り可能な記録媒体。
  28. 請求項23乃至26の何れか一項のコンピュータ読み取り可能な記録媒体において、
    前記選択されたセットは反復処理により同定され、この反復処理は、
    グループの初期セットにおけるグループの対についての第2のエンコード化性能値を決定する段階と、
    最も高い第2のエンコード化性能値が前記閾値より高ければ、前記最も高い第2のエンコード化処理性能値を有するグループ対を統合して、グループの変更されたセットを形成すると共に、このグループの変更セットにおけるグループの諸対についての第2のエンコード化処理性能値を決定する段階と、
    前記グループの変更セットに前記閾値よりも大きな第2のエンコード化性能値を有すグループ対がなくなるまで前記統合を繰り返し、前記変更セットを前記選択セットとする段階とを含むコンピュータ読み取り可能な記録媒体。
  29. 請求項23乃至26の何れか一項のコンピュータ読み取り可能な記録媒体において、
    各フレームはNに等しいブロック数を有すると共に、前記特性値の析は
    はフレーム内のブロックのグループ数であるとして、1からNまでの値pについて逐次反復し
    pの各値について、前記閾値よりも高いエンコード化性能値を有するグループの少なくとも幾つかのセットを特定
    グループの少なくとも幾つかの特定されたセットを解析し、解析されたグループのセット内のエンコード化性能値を最大化するグループの選択されたセットを決定することを含むコンピュータ読み取り可能な記録媒体。
  30. 請求項23乃至29の何れか一項のコンピュータ読み取り可能な記録媒体において、
    求項12の装置において、各フレーム内の各ブロックはスペクトル係数を含みグループの特定のセットについてのエンコード化性能値は、グループの前記特定のセットについての当該フレームにおけるスペクトル係数と各ブロックが単独でそれ自身のグループをなす場合の当該フレームにおけるスペクトル係数との間のエラーエネルギー値を表すコンピュータ読み取り可能な記録媒体。
  31. 請求項23乃至30の何れか一項のコンピュータ読み取り可能な記録媒体において、前記エンコード化性能値は、ブロックからなる各フレームを表すのに使えるビットの全数に応じて決められる、コンピュータ読み取り可能な記録媒体。
  32. 請求項23のコンピュータ読み取り可能な記録媒体において、前記コスト値はエンコード化信号における前記制御パラメータのセットを表すのに必要なデータの量に対応するコンピュータ読み取り可能な記録媒体。
  33. 請求項23のコンピュータ読み取り可能な記録媒体において、前記コスト値は前記オーディオ情報のブロックをエンコード化するのに必要なコンピュータ資源の量に対応するコンピュータ読み取り可能な記録媒体。
JP2006551239A 2004-01-20 2005-01-19 ブロック系列化に基づくオーディオコーディング Expired - Fee Related JP5069909B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US53798404P 2004-01-20 2004-01-20
US60/537,984 2004-01-20
PCT/US2005/001715 WO2005071667A1 (en) 2004-01-20 2005-01-19 Audio coding based on block grouping

Publications (3)

Publication Number Publication Date
JP2007523366A JP2007523366A (ja) 2007-08-16
JP2007523366A5 JP2007523366A5 (ja) 2012-03-29
JP5069909B2 true JP5069909B2 (ja) 2012-11-07

Family

ID=34807152

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006551239A Expired - Fee Related JP5069909B2 (ja) 2004-01-20 2005-01-19 ブロック系列化に基づくオーディオコーディング

Country Status (16)

Country Link
US (1) US7840410B2 (ja)
EP (1) EP1706866B1 (ja)
JP (1) JP5069909B2 (ja)
KR (1) KR20060131798A (ja)
CN (1) CN1910656B (ja)
AT (1) ATE389932T1 (ja)
AU (1) AU2005207596A1 (ja)
CA (1) CA2552881A1 (ja)
DE (1) DE602005005441T2 (ja)
DK (1) DK1706866T3 (ja)
ES (1) ES2299998T3 (ja)
HK (1) HK1091024A1 (ja)
IL (1) IL176483A0 (ja)
PL (1) PL1706866T3 (ja)
TW (1) TW200534602A (ja)
WO (1) WO2005071667A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8154554B1 (en) 2006-07-28 2012-04-10 Nvidia Corporation Unified assembly instruction set for graphics processing
US8396119B1 (en) * 2009-09-30 2013-03-12 Ambarella, Inc. Data sample compression and decompression using randomized quantization bins
PL3998606T3 (pl) * 2009-10-21 2023-03-06 Dolby International Ab Nadrpóbkowanie w połączonym banku filtrów modułu transpozycji
JP2013050663A (ja) * 2011-08-31 2013-03-14 Nippon Hoso Kyokai <Nhk> 多チャネル音響符号化装置およびそのプログラム
CN103544957B (zh) 2012-07-13 2017-04-12 华为技术有限公司 音频信号的比特分配的方法和装置
US10141004B2 (en) * 2013-08-28 2018-11-27 Dolby Laboratories Licensing Corporation Hybrid waveform-coded and parametric-coded speech enhancement
EP2993665A1 (en) * 2014-09-02 2016-03-09 Thomson Licensing Method and apparatus for coding or decoding subband configuration data for subband groups
WO2016040885A1 (en) * 2014-09-12 2016-03-17 Audience, Inc. Systems and methods for restoration of speech components
EP3332557B1 (en) 2015-08-07 2019-06-19 Dolby Laboratories Licensing Corporation Processing object-based audio signals
WO2020077046A1 (en) * 2018-10-10 2020-04-16 Accusonus, Inc. Method and system for processing audio stems

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5109417A (en) * 1989-01-27 1992-04-28 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
BR9204799A (pt) 1991-03-29 1993-07-13 Sony Corp Processo de codificacao para um sinal digital
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US6300888B1 (en) * 1998-12-14 2001-10-09 Microsoft Corporation Entrophy code mode switching for frequency-domain audio coding
JP3739959B2 (ja) * 1999-03-23 2006-01-25 株式会社リコー デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP2001154698A (ja) * 1999-11-29 2001-06-08 Victor Co Of Japan Ltd オーディオ符号化装置及びその方法
JP3597750B2 (ja) * 2000-04-11 2004-12-08 松下電器産業株式会社 グループ化方法及びグループ化装置
JP4635400B2 (ja) * 2001-09-27 2011-02-23 パナソニック株式会社 オーディオ信号符号化方法
CN1288622C (zh) * 2001-11-02 2006-12-06 松下电器产业株式会社 编码设备和解码设备
JP3984468B2 (ja) * 2001-12-14 2007-10-03 松下電器産業株式会社 符号化装置、復号化装置及び符号化方法
JP4272897B2 (ja) * 2002-01-30 2009-06-03 パナソニック株式会社 符号化装置、復号化装置およびその方法
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
US20030215013A1 (en) * 2002-04-10 2003-11-20 Budnikov Dmitry N. Audio encoder with adaptive short window grouping
JP2003338998A (ja) * 2002-05-22 2003-11-28 Casio Comput Co Ltd 画像保存システム、及び画像保存装置
JP4062971B2 (ja) * 2002-05-27 2008-03-19 松下電器産業株式会社 オーディオ信号符号化方法
US7283968B2 (en) * 2003-09-29 2007-10-16 Sony Corporation Method for grouping short windows in audio encoding
JP2005165056A (ja) * 2003-12-03 2005-06-23 Canon Inc オーディオ信号符号化装置及び方法

Also Published As

Publication number Publication date
DK1706866T3 (da) 2008-06-09
JP2007523366A (ja) 2007-08-16
IL176483A0 (en) 2006-10-05
EP1706866B1 (en) 2008-03-19
DE602005005441T2 (de) 2009-04-23
AU2005207596A1 (en) 2005-08-04
ATE389932T1 (de) 2008-04-15
ES2299998T3 (es) 2008-06-01
US20080133246A1 (en) 2008-06-05
CN1910656A (zh) 2007-02-07
TW200534602A (en) 2005-10-16
HK1091024A1 (en) 2007-01-05
CA2552881A1 (en) 2005-08-04
WO2005071667A1 (en) 2005-08-04
CN1910656B (zh) 2010-11-03
DE602005005441D1 (de) 2008-04-30
US7840410B2 (en) 2010-11-23
KR20060131798A (ko) 2006-12-20
PL1706866T3 (pl) 2008-10-31
EP1706866A1 (en) 2006-10-04

Similar Documents

Publication Publication Date Title
JP5069909B2 (ja) ブロック系列化に基づくオーディオコーディング
JP2007523366A5 (ja)
KR101343267B1 (ko) 주파수 세그먼트화를 이용한 오디오 코딩 및 디코딩을 위한 방법 및 장치
US8428943B2 (en) Quantization matrices for digital audio
KR101330362B1 (ko) 오디오 인코딩 방법, 오디오 디코딩 방법 및 오디오 인코더 디바이스
JP4643019B2 (ja) 合成フィルタ雑音伸長の補償を持つ知覚音声コーダの量子化
JP2906646B2 (ja) 音声帯域分割符号化装置
US8032371B2 (en) Determining scale factor values in encoding audio data with AAC
TW201729181A (zh) 產生高頻雜訊的方法
PL208346B1 (pl) Sposób przesyłania współczynników skalowania percepcyjnego kodera akustycznego przy użyciu kraty w systemach transformacji i kodowania fonii
JP2001053617A (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP2000276197A (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
CN109313908A (zh) 用于对音频信号进行编码的音频编码器、用于对音频信号进行编码的方法以及考虑上频带中的检测到的尖峰频谱区域的计算机程序
US7613609B2 (en) Apparatus and method for encoding a multi-channel signal and a program pertaining thereto
JP2842276B2 (ja) 広帯域信号符号化装置
JP5799824B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
MXPA06008224A (es) Codificacion de audio basada en el agrupamiento de bloques
Hu et al. An efficient low complexity encoder for MPEG advanced audio coding
Bauer et al. Multidimensional optimization of MPEG-4 AAC encoding
JP2003108192A (ja) オーディオ信号符号化方法
JP2000206990A (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP2000276198A (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110329

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110629

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110706

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110728

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110804

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110829

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110929

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20111018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111108

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20120207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120807

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120820

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150824

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees