JP2007523366A

JP2007523366A - ブロック系列化に基づくオーディオコーディング

Info

Publication number: JP2007523366A
Application number: JP2006551239A
Authority: JP
Inventors: フェラーズ、マシュー・コンラッド; ヴィントン、マーク・スチュアート; バウアー、クラウス; デービッドソン、グラント・アレン
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2004-01-20
Filing date: 2005-01-19
Publication date: 2007-08-16
Anticipated expiration: 2025-01-19
Also published as: DK1706866T3; IL176483A0; EP1706866B1; DE602005005441T2; AU2005207596A1; ATE389932T1; JP5069909B2; ES2299998T3; US20080133246A1; CN1910656A; TW200534602A; HK1091024A1; CA2552881A1; WO2005071667A1; CN1910656B; DE602005005441D1; US7840410B2; KR20060131798A; PL1706866T3; EP1706866A1

Abstract

オーディオ情報のブロックはグループ内に配列され、これはエンコーディング制御パラメータをを共有して、エンコード化信号における制御パラメータを伝送するのに必要な側情報量を低減させる。エンコード化オーディオ情報の歪を低減する系列化形態は、最適解又は近似的最適解を検索する幾つかの手法の何れかにより決定される。その手法は全数検索、高速最適検索、及びＧｒｅｅｄＭｅｒｇｅ法を含み、検索技法にエンコード化信号のビットレート及び／又は検索技術の計算の複雑さに対する歪の低減を相殺させることを可能とする。
【選択図】図１

Description

本発明は、以下のような形式のディジタルオーディオエンコーダの操作、即ち符号化処理を少なくとも一つのオーディオ情報ストリームへ施し、そのオーディオ情報ストリームは少なくとも一つのフレームへセグメント化された少なくとも一つのオーディオチャンネルを表しており、各々のフレームはディジタルオーディオ情報の少なくとも一つのブロックからなる操作の最適化に関する。更に詳しくは、本発明はフレームへ施されるコーディング処理を最適化する方式でフレームに配置されたオーディオ情報のブロック系列化に関する。

様々なオーディオ処理システムはオーディオ情報のストリームをフレームへ分割し、そのフレームを特定の時間間隔におけるオーディオ情報の一部を表す連続的なデータのブロックへ更に分割するように操作される。各ブロックへ知覚符号化処理を施すオーディオ処理システムの二つの例は、アドバンスドオーディオコーダー（ＡＡＣ）規則（これはＩＳＯ／ＩＥＣ１３８１８−７に説明されている）、「ＭＰＥＧ−２アドバンスドオーディオコーディング（ＡＡＣ）」国際規格１９９７；ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９，「Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ―ｖｅｒｙｌｏｗｂｉｔｒａｔｅａｕｄｉｏ−ｖｉｓｕａｌｃｏｄｉｎｇ」及びＩＳＯ／ＩＥＣＩＳ−１４４９６（パート３、オーディオ）、１９９６に適合するシステムと、アドバンスドテレビジョンシステム協会（ＡＴＳＣ）のＡ／５２Ａ文書（表題「ＲｅｖｉｓｉｏｎＡｔｏＤｉｇｉｔａｌＡｕｄｉｏＣｏｍｐｒｅｓｓｉｏｎ（ＡＣ３）規則」（２００１年８月２０日発行）に適合する所謂ＡＣ−３システムである。

多くのオーディオ処理系においてブロックに適用される信号処理の一形態は知覚コーディング形式であり、これはブロックにおけるオーディオ情報の解析を実行して、そのスペクトル成分表示を得て、スペクトル成分の知覚マスキング効果を予測し、そのスペクトル成分を合成量子化雑音が不可聴若しくはその可聴性を可能な限り低くする方式で量子化して、この量子化されたスペクトル成分表示を送信又は記録可能なエンコード化信号へ構成する。量子化されたスペクトル成分からオーディオ情報のブロックを回復するために必要な制御パラメータのセットもエンコード化信号へ構成される。

スペクトル解析は様々な手法で実行可能であるが、時間域―周波数域変換が一般的である。オーディオ情報のブロックの周波数域表示への変換においては、オーディオ情報のスペクトル成分がベクトル系列で示されており、その各ベクトルは各々のブロックについてのスペクトル成分を表している。ベクトルの成分は周波数域係数であり、各ベクトル成分の添字は特定の周波数区間に対応する。各変換係数により表されている周波数区間の幅は一定又は可変である。離散フーリエ変換（ＤＦＴ）又は離散コサイン変換（ＤＣＴ）などのフーリエ型変換により生成された変換係数によって表される周波数区間の幅は一定である。ウェーブレット又はウェーブレットパケット変換により生成された変換係数によって表される周波数区間の幅は可変であって、通例は周波数の増大に伴って大きくなる。例えば、Ａ．Ａｋａｎｓｕ，Ｒ．Ｈａｄｄｅｄ，”ＭｕｌｔｉｒｅｓｏｌｕｔｉｏｎＳｉｇｎａｌＤｅｃｏｍｐｏｓｉｔｉｏｎ，Ｔｒａｎｓｆｏｒｍｓ，Ｓｕｂｂａｎｄｓ，Ｗａｖｅｌｅｔｓ”（ＡｃａｄｅｍｉｃＰｒｅｓｓ社（サンジェゴ）１９９２年刊）を参照されたい。

知覚エンコード化信号からオーディオ情報のブロックを回復するのに利用できる信号処理の一形式は、エンコード化信号から制御パラメータのセット及び量子化スペクトル成分表示を得て、そのパラメータのセットからオーディオ情報のブロックへ統合するためのスペクトル成分を導出する。その統合はエンコード化信号の生成に用いた解析に対する補完である。周波数域−時間域変換を用いる統合は一般的である。

多くのコーディング用途において、エンコード化信号の送信又は記録に利用可能な帯域幅又は空間は制限されており、この制限は量子化スペクトル成分の表示に使用可能なデータ量に厳しい制約を課している。制御パラメータのセットを回復するのに必要なデータは、量子化スペクトル成分の表示に使用可能なデータ量を更に低減するオーバーヘッドである。

或るコーディング系では、１組の制御パラメータを用いてオーディオ情報の各ブロックをエンコードする。この種のコーディング系におけるオーバーヘッドを低減するための一つの公知の手法では、エンコード化信号からオーディオ情報の複数のブロックを回復するために１組のみの制御パラメータを必要とする方式で符号化処理を制御する。仮に符号化処理を１０個のブロックが１組の制御パラメータを共有するように制御するならば、例えばこれらのパラメータについてのオーバーヘッドは９０パーセント低減する。残念ながら、オーディオ信号は不変ではないので、フレームにおけるオーディオ情報の全てのブロックについての符号化処理効率は、制御パラメータが多くのブロックにより共有されたとしても、最適条件とはなり得ない。かくして要請されるのは、制御パラメータを伝えるのに必要なオーバーヘッドを低減するように処理する制御によって信号処理効率を最適化する手法である。

本発明によれば、フレームに配列されたオーディオ情報のブロックは少なくとも一つのセット即ちグループに系列化され、ここでは各ブロックが各々のグループ内にあるようにされる。各グループは一つのフレーム内の単独のブロックか、又は２以上のブロックのセットから構成されて、グループにおける各ブロックに施される処理は、少なくとも一つの制御パラメータ共通のセット、例えばスケール因子のセットを用いる。本発明はブロックの系列化を制御して信号処理能力を最適化することを目的としている。

コーディング系においては、例えばオーディオ情報のブロックからなるオーディオ情報のストリームは複数のフレーム内に配置され、ここでは各フレームがブロックの少なくとも一つのグループを有している。少なくとも一つの符号化パラメータの１セットが、各グループ内の全てのブロックについてのオーディオ情報をエンッコードするために用いられる。ブロックは符号化性能の何らかの指標を最適化するように系列化される。例えば、本発明の様々な特徴を組み込む符号化方式は、ブロックの系列化を制御して、信号エラー（これは、各ブロックがそれ自身の符号化パラメータのセットを有する参照信号についてのエンコード化信号の歪と比較した各グループについての共有符号化パラメータを用いるフレーム内のエンコード化オーディオ情報の歪を表す）を最小化する。

本発明の様々な特徴及びその好ましい実施例は以下の説明及び添付図面の参照によってより良く理解されよう。尚、各図において同様な参照符号は同様な構成要素を示す。以下の説明及び図面の内容は例示としてのみ記載されたものであって、本発明の目的における限定を表すものと解すべきではないことに留意されたい。

本発明の実施形態

Ａ．序論
図１はオーディオコーディング系を示し、ここではエンコーダ１０が経路５からオーディオ信号の少なくとも一つのチャンネルを表すオーディオ情報の少なくとも一つのストリームを受け取る。エンコーダ１０はオーディオ情報のストリームを処理して、経路１５に沿って送信又は記録可能なエンコード化信号を生成する。このエンコード化信号は続いてデコーダ２０により受け取られ、このデコーダ２０はエンコード化信号を処理して経路２５に沿って、経路５から受け取られたオーディオ情報の複製を生成する。複製のコンテンツは原オーディオ情報と同一ではないかもしれない。エンコーダ１０が可逆符号化法を用いてエンコード化信号を生成するならば、デコーダ２０は原理的には原オーディオ情報ストリームと同一の複製を回復することができる。エンコーダ１０が例えば知覚コーディングなどの非可逆符号化技術を用いるならば、回復された複製のコンテンツは一般に原ストリームのコンテンツと同一ではないが、知覚的には原コンテンツとは区別できないであろう。

エンコーダ１０は、少なくとも一つの処理制御パラメータの１セットに応答して符号化処理を用いて各ブロックにおけるオーディオ情報をエンコードする。例えば、符号化処理は各ブロックにおける時間域情報を周波数域変換係数へ変換し、これは浮動小数点形式の変換係数を表し、ここでは少なくとも一つの浮動小数点仮数が浮動小数点指数に関係しており、この浮動小数点指数を用いて仮数のスケーリング及び量子化を制御する。この基本的な試みは多くのオーディオコーディング系で用いられており、これは既に述べて以下の節で詳細に説明するＡＣ−３及びＡＡＣ系を含む。しかしながら、スケール因子及びそれらの制御パラメータとしての使用は本発明の教示を如何に適用されるかについての単なる一例であることに留意されたい。

一般に、各浮動小数点変換係数の値は、各係数仮数がそれ自身の指数に関連しているならば、むしろ各仮数を規格化できるので、所定のビット数により一層に正確に表すことができるが、幾つかの係数の仮数が指数を共有するならば、所定のビット数で一つのブロックについての変換係数の全てのセットより正確に表すことができる。正確さを増大させることは可能である。というのは、共有は指数のエンコードに必要なビット数を低減し、高い精度で仮数を表すために多くのビット数を用いることを可能とするためである。幾つかの仮数はもはや規格化できないが、変換係数の値が同様であるならば、高い制度は少なくとも幾つかの仮数のより正確な表示をもたらす。仮数の間で指数が共有されている方式は、ブロックからブロックへ適合するか、共有は位置が不変になる。指数共有配置が不変であるならば、各指数及びその関連する指数は、ヒトの聴覚系の臨界帯に相応する周波数帯域を規定する方式で指数を共有することが一般的である。この計画では、各変換係数で表される周波数間隔が一定であるならば、低周波数についてよりも高周波数について大きな数の仮数が指数を共有する。

一つのブロック内の仮数の間の浮動小数点指数共有の概念は、二つ又はそれよりも多くのブロックにおける仮数の間の間の指数共有へ拡張できる。指数共有はエンコード化信号における指数を伝達するのに必要なビット数を低減できるので、高い精度で仮数を表すために付加的なビットを利用可能である。ブロックにおける変換係数値の類似性に依存して、内部ブロック指数共有は、仮数の表示により正確さを増減し得る。

ここまでの説明は浮動小数点指数の共有による変換係数値の浮動小数点表示の精度における相殺について言及した。精度における同様な相殺は符号化処理、例えば係数仮数の量子化を制御するために用いる知覚モデルを利用する知覚コーディングなどを制御するために用いるパラメータの内部ブロック共有について生じる。ＡＣ−３及びＡＡＣ系に用いられる符号化処理は、例えば変換係数の浮動小数点指数を用いて変換係数仮数の量子化のためのビット割当を制御する。ブロック間の指数の共有は指数を表すのに必要なビットを低減し、これはエンコード化仮数を表すのに用いるべきより多くのビットを可能とする。幾つかの例では２つのブロックの間の指数共有はエンコード化された仮数の値を表す精度を減少させる。他の例では、２つのブロック間の指数の共有は仮数の精度を増大させる。２つのブロックの間の指数の共有が仮数の精度を増大させるなら、３つ又はそれ以上のブロックの間の共有は制度に更なる増加を与える。

本発明の様々な態様は、グループの数及びブロックのグループの間のブロック境界をエンコード化信号の歪みを最小化するように最適化することにより、オーディオエンコーダに採用できる。相殺は最小化の度合いと、エンコード化信号のフレームを表すのに用いられたいビットの総数と、グループ配置を最適化するために用いられた技法の計算の複雑さとの一方又は両方を最小化す度合いの間でなされる。一つの実施においては、これは平均二乗誤差の大きさを最小化することにより達成される。

Ｂ．背景
以下の説明は本発明の様々な態様をフレーム内のオーディオ情報のブロックのグループの処理を最適化するオーディオコーディング系に組み込んだ方式で説明する。最適化は数的最小化問題としての第１の表現である。この数的枠組みは幾つかの計算の複雑さの程度の差異を有し、且つ最適化の異なる程度を与える何らかの実施を開発するために用いられる。

１．数的最小化問題としてのグループ選択
グループは、フレーム内のグループ内の変数を許すことにより最適化処理における自由度を与える。最適系列化形態を計算する目的で、各ブロックにおけるグループの数とブロックの数はフレームからフレームへ変化するとみなす。更に、グループは単独のブロックからなるか、又は全てが単独のフレーム内にある多数のブロックからなるとする。実行すべき最適化は、少なくとも一つの条件が与えられたフレーム内のブロックの系列化を最適化することである。これらの条件は、一つの用途と他の用途との間で変化し、信号処理における長所を最大化するように表現して、エンコード化信号の忠実性をもたらすか、或いはエンコード化信号歪をもたらす逆処理の最小化として表現される。例えば、オーディオコーダーは、エンコード化信号の所定のデータ率についての歪みを最小化する条件を持ってもよく、或いはエンコーダ信号データ率をエンコード化信号歪みのレベルに対して相殺する一方、解析／検出／系列系が計算の複雑さに対して解析、検出又は系列化の精度を相殺する必要がある条件を持ってもよい。信号歪みの指標を以下に説明するが、これらは使用し得る品位の指標の広範な変動の単なる例示である。以下に説明する技法は信号処理の長所、エンコード化信号の忠実性などの指標を用いることができ、これは例えば高低即ち最大最小などの相対量に対する逆比較及び反対参照による。

本発明はオーディオ情報の時間領域及び周波数領域表示の使用において互いに変動する少なくとも三つの計画の任意の一つに従って実施できることが予測される。最初の計画では、時間領域情報を解析して時間領域情報を運ぶブロックのグループの処理を最適化する。第２の計画では、周波数領域を解析して時間領域情報を運ぶブロックのグループの処理を最適化する。第３の計画では、周波数領域情報を解析して周波数領域情報を運ぶブロックのグループの処理を最適化する。第３の計画による様々な実施について以下に説明する。

オーディオ情報を送信又は記録のために符号化する本発明の実施においては、以下の説明について用語「歪み」及び「サイドコスト（Ｓｉｄｅｃｏｓｔ）」を定義することが有益である。

用語「歪み」は、グループに属する一つ又は複数のブロックにおける周波数領域変換係数の関数であり、負でない実数の空間に対するグループの空間からのマッピングである。零の歪みは、まさにＮグループを包含するフレームへ割り当てられており、ここでＮはフレームにおけるブロックの数である。この場合、二つ又はそれ以上のブロック間の制御パラメータの共有はない。

用語「サイドコスト」は、負ではない整数のセットから負ではない実数のセットをマップする離散関数である。以下の説明でサイドコストとは、引数χの正の線形関数とする。ここでχはｐ−１に等しく、且つｐはフレーム内のグループの数である。フレーム内のグループ数が零に等しいならば、零のサイドコストがフレームに割り当てられる。

歪みを計算する二つの手法を以下に説明する。一つの手法はｋ周波数帯の各々についての「帯域化」に基づく歪みを計算し、ここで各周波数帯域は、隣接する少なくとも一つ叉はそれ以上の周波数領域変換係数のセットである。第二の手法は、その周波数帯域の全てを跨る帯域方向における全ブロックについての信号歪みを計算する。以下の説明のためには更に幾つかの用語を定義することが有益である。

用語「帯域歪み」とは次元Ｋのベクトルの値であり、低周波数から高周波数へ添字を付してある。ベクトルにおけるＫ成分の各々はブロック内の一つ叉はそれ以上の変換係数の各セットについての歪値を表す。

用語「ブロック歪」とはブロックについての歪値を表すスカラー値である。

用語「前置エコー歪み」とはスカラー値であって、或る識別（ＪＮＤ：ＪｕｓｔＮｏｔｉｃｅａｂｌｅＤｉｆｆｅｒｅｎｃｅ）広帯域参照エネルギ閾域に対する所謂前置エコー歪みのレベルを表し、ここでＪＮＤ参照エネルギ閾域を下回る歪みは、さして重要ではないとみなされる。

用語「時間支持（ｔｉｍｅｓｕｐｐｏｒｔ）」とは変換係数の単独のブロックに対応する時間領域サンプルの拡がりである。修正離散コサイン変換（ＭＤＣＴ）については、Ｐｒｉｎｃｅｎｅｔａｌ．，”Ｓｕｂｂａｎｄ／ＴｒａｎｓｆｏｒｍＣｏｄｉｎｇＵｓｉｎｇＦｉｌｔｅｒＢａｎｋＤｅｓｉｇｎｓＢａｓｅｄｏｎＴｉｍｅＤｏｍａｉｎＡｌｉａｓｉｎｇＣａｎｃｅｌｌａｔｉｏｎ，”ＩＣＡＳＳＰ１９８７ＣＯＮＦ．ＰＲＯＣ．，１９８７年５月、２１６１−６４頁に記載されており、変換係数に対する何らかの修正は、変換により課される時間領域における区画の５０％の重畳に起因する変換係数の二つの連続的ブロックから回復される情報に影響を及ぼす。このＭＤＣＴについての時間支持は係数の最初に影響されたブロックのみに対応する時間区画である。

用語「ジョイントチャンネルコーディング」はコーディング手法であり、これによりオーディオ情報の二つ叉はそれ以上のチャンネルがエンコーダにて或る形態で組み合わされて、デコーダにて別個のチャンネルへ分離される。デコーダにより得られた別個のチャンネルは同一ではないか、或いは知覚的には原チャンネルから識別できない。ジョイントチャンネルコーディングは両方のチャンネルの間の相互情報を有効に引き出すことによりコーディング効率を高めるのに用いられる。

前置エコー歪みは、変換の時間支持が前置マスキング時間間隔よりも長い変換オーディオコーディング系について時間領域ナスキングに関して考慮される。前置マスキング時間間隔に関する更なる情報は次の文献から得られるであろう：Ｚｗｉｃｋｅｒｅｔａｌ．，”Ｐｓｙｃｈｏａｃｏｕｓｔｉｃｓ−ＦａｃｔａｎｄＭｏｄｅｌｓ，” Ｓｐｒｉｎｇｅｒ−Ｖｅｒｌａｇ，ベルリン、１９９０年。以下に説明する最適化技術は、時間支持が前置マスキング間隔よりも小さく、ひいては、歪みの客観的測定のみが考慮されている。

本発明は、歪みの客観的測定とは対照的に、主観的な測定即ち知覚的な歪みに基づいて最適化を実行する選択を除外するものではない。特に、知覚コーダーについて時間支持が最適長よりも長いならば、歪みの平均二乗誤差叉は他の客観的測定は可聴歪みのレベルを正確には反映しないので、客観的測定を用いることにより得られる系列化形態とは異なるブロック系列化形態を選択できる。

好適処理は様々な方式で設計し得る。一つの方式は１乃至Ｎの値ｐを繰り返し、ここでｐはフレームにおけるグループの数であり、ｐの各値についての識別子は、閾値Ｔよりも高くはないフレームにおける全てのブロックの歪みの合計を有するグループの形態である。これら識別された形態の中では、医かに説明する三つの手法の一つを用いてグループの最適形態を選択するように用いられる。これに代えて、ｐの値は幾つかの他の手法により決定してもよく、例えば、ジョイントチャンネルコーディングについてのブロックの数を適合させて選択することにより、コーディング利得を最適化する２チャンネル符号化処理によってもよい。この場合、ｐの共通の値は各チャンネルについてのｐの個々の値から導かれる。二つのチャンネルについてｐの共通の値が与えられているならば、最適グループ形態は両方のチャンネルについて連携して計算されるであろう。

フレーム内のブロックのグループ形態は周波数依存であるが、この要請はエンコード化信号が周波数帯域を如何に系列化すべきかを特定するように付加的な情報を伝えるエンコード化信号を必要とする。本発明の様々な態様は、ここに開示した広帯域実施の個別インスタンス化としての共通系列化情報を有する帯域を考慮することにより多帯域の実施へ適用し得る。

２．歪み測定としてのエラーエネルギー
「歪み」の意味は最適化を推進する量の用語として規定されているが、この歪みは、およそオーディオエンコーダにおけるブロックの最適系列化を見出す処理により用いることがができるものに関しているのではない。ここで必要とされるのは、最適化処理を最適解へ向わせることができるエンコード化信号品位の測定である。最適化はブロックのグループにおける各ブロックについての制御パラメータの共通セットを用いるように指向されているので、エンコード化信号品位の測定は、各ブロックに適用されるものに基づかねばならず、且つグループにおける全てのブロックについての単独の代表的な値叉は複合的な測定へ容易に組み合わせることができねばならない。

以下に説明する複合的測定を得るための一つの手法は、問題の値について計算できる有用な平均が与えられたグループにおけるブロックについての何らかの値の平均を計算する。残念ながら、オーディオ符号化に利用可能な全ての値が複数の値から有用な平均を計算するために使用できるわけではない。不適切な値の一例は変換係数についての離散フーリエ変換（ＤＦＴ）相成分である。というのは、これらの相成分の平均は何らかの意味の或る値を与えないためである。複合測定を得るための他の手法はグループにおける全てのブロックについての何らかの値の最大値を選択することである。何れの場合においても、複合測定は参照値として用いられており、エンコード化信号品位の測定は、この参照値とグループ内の各ブロックについての値との間の距離に対して反比例する。換言すれば、フレームについてのエンコード化信号品位の測定は参照値とフレーム内の全てのグループの各グループについての適切な値との間の誤差の逆数として規定できる。

上述のエンコード化信号品位の測定は、この測定を最小化する処理を実行することにより最適化を推進するように用いることができる。

他のパラメータは様々なコーディング系叉は他の用途に関係する。一つの例は所謂中間／側部（ｍｉｄ／ｓｉｄｅ）コーディングに関連するパラメータであり、これは共通のジョイントチャンネル技法を用い、ここでは「中間（ｍｉｄ）」チャンネルが左右のチャンネルの合計であり、「側部（ｓｉｄｅ）」チャンネルは左チャンネルと右チャンネルとの間の差である。本発明の様々な特徴を組み込むコーディング系の実施は、ブロックを跨る中間／側部コーディングパラメータの共有を制御するエネルギーレベルに代わる内部チャンネル相互関係を使用し得る。一般に、ブロックをグループに系列化する任意のオーディオエンコーダが、グループ内のブロックの間の符号化制御パラメータを共有して、制御情報をデコーダへ送ることは本発明の利点であり、これはブロックについての最適な系列化構成を決定することができる。本発明によって与えられた利点がなければ、ビットの次善策の割り当てが可聴な量子化歪みの全体的な増加をもたらしてしまう。というのは、ビットは符号化スペクトル係数から変えられて、様々なスペクトル係数の間に最適には割り当てられないためである。

３．ベクトルエネルギ対スカラーエネルギ
本発明の実施は最適化処理を推進するために帯域化歪叉はブロック歪値の何れを用いてもよい。帯域歪みを用いるか、一つのブロックから次のブロックへの帯域エネルギの変動における大きな拡がりに依存するブロック歪みを用いるかによって、以下の定義が与えられる。

Ｕ_ｍはブロックｍにおける全エネルギについてのスカラーエネルギ値（１ａ）
Ｖ_ｍ，ｊはブロックｍにおける帯域ｊについての帯域エネルギを表すベクトル成分（１ｂ）
エンコードされる信号のメモリ損失がμ（Ｖ_ｍ，ｊ，Ｖ_{ｍ＋１，ｊ}）＝０，ここでＫ周波数帯域について０≦Ｊ≦Ｋ−１であり、μ隣接するブロック間の相互情報の度合いの測度であり、スカラーエネルギ測定Ｕ_ｍに用いるシステムは、帯域エネルギ測度Ｖ_ｍ，ｊをを用いるシステムと共に働く。Ｊａｙａｎｔｅｔａｌ．，”ＤｉｇｉｔａｌＣｏｄｉｎｇｏｆＷａｖｅｆｏｒｍｓ”（Ｐｒｅｎｔｉｃｅ−Ｈａｌｌ、ニュージャージー，１９８４年）を参照されたい。換言すれば、連続的なブロックがスペクトルエネルギレベルにおいて僅かな類似性を持つならば、スカラーエネルギは帯域エネルギと共に指標として働く。一方、以下に説明するように、連続的なブロックはスペクトルエネルギレベルに高い度合いの類似性を持つならば、エンコーディング能力に深刻な不利益を課すことなく、スカラーエネルギは、パラメータが２つ叉はそれ以上のブロックに共通化か否かを示す指標を与えない。

本発明は特定の指標を用いることには限定されない。対数エネルギ及び他の信号特性に基づく歪みの指標も様々な用途に適合する。

スペクトルコンテツと同様、即ち、μ（Ｖ_ｍ，ｊ，Ｖ_{ｍ＋１，ｊ}）＞０であるブロック移行についても、依然として次式を満たすように特定の帯域エネルギ値Ｖ_ｍ，ｊが可能である。

或いは零に近い小さな値に等しい。この結果は、広帯域に基づいて、隣接し合うブロックの間の全エネルギの比較は、個々の周波数帯域におけるブロックの間の差が見落とされるということである。多くの信号について、エネルギのスカラー測度は歪みを正確に最小化するには不充分である。これは広範なオーディオ信号について言えることなので、以下に説明する本発明の実施では、スカラーブロックエネルギ値Ｕ_ｍに代えて帯域エネルギ値Ｖ_ｍ＝（Ｖ_ｉ，０，・・・，Ｖ_{ｉ．Ｋ−１}）のベクトルを用いて最適系列化形態を識別する。

４．条件の同一性
本発明を採用する本願に基づいて考慮すべき幾つかの条件がある。以下に説明する本発明の実施はオーディオ符号化方式である。従って、関連する条件はオーディオ情報の符号化に関連するパラメータである。例えば、サイドコスト条件はグループ内の全てのブロックに対して共通である制御パラメータを送る必要性から生じる。高いサイドコストは各ブロックについての低歪で符号化される信号を可能とするが、サイドコストにおける増大は、一定数のビットを各フレームに割り当てなければならないのであれば、フレーム内の全ての[ブロックについての全歪みを増大させる。本発明の特定の実施を他のものにも増して有利なものとする実施の複雑さも課されている。

５．問題記述の導入
以下はオーディオ符号化方式における歪みを最適にするための数的問題定義である。

この特定の問題定義において歪みは、ブロック系列化の候補におけるフレームについてのスペクトル係数と、各ブロックがそれ自身のグループの中にあるフレームにおける個々のブロックスペクトル係数エネルギとの間の誤エネルギの測度である。

Ｎ帯域エネルギベクトルの順序集合Ｖ_ｉ，０≦ｉ＜Ｎを仮定し、ここで各ベクトルは正の実数成分を有する次元Ｋ、即ちＶ_ｉ＝（Ｖ_ｉ，０，・・・，Ｖ_{ｉ．Ｋ−１}）とする。符号Ｖ_ｉは帯域エネルギ値のベクトルを表し、ここでベクトルの各成分は、変換係数の所望の帯域に基本的に対応する。正の整数の任意の順序集合０＝Ｓ_０＜Ｓ_１＜．．．＜Ｓ_ｐ＝Ｎについて、Ｉ_ｍ＝［Ｓ_ｍ−１、Ｓ_ｍ］，∀_ｍ，０＜ｍ≦ｐとしての間隔Ｉ_ｍを規定できる。符号Ｓ_ｍは各ブロックにおける最初のブロックの指標を表し、ｍがグループの指標である。値Ｓ_ｐ＝Ｎは間隔Ｉ_ｍについての終点を規定する目的のみのために次のフレームの第１のブロックに対する指標として考えることができる。エネルギベクトルの集合の分割Ｐ（Ｓ_０，．．．Ｓ_ｐ）を次のように規定することができる。

Ｐ（Ｓ）＝（Ｇ_０，．．．，Ｇ_ｐ−１），（３）
ここでＳはベクトル（Ｓ_０，．．．Ｓ_ｐ）であり、
Ｇｍ＝｛Ｖ_ｉ｜ｉ∈Ｉ_ｍ）（４）
符号Ｇｍはグループにおけるブロックを代表する。

幾つかの歪みの指標を本発明の様々な実施に用いてもよい。平均最大歪指標Ｍ’は以下のように規定される。

平均歪みＡは以下のように規定される。

歪みＭ’’’の最大差以下のように規定される。

分割Ｐ（Ｓ）＝（（Ｓ_０，．．．Ｓ_ｐ）についてのサイドコスト関数は（ｐ−１）ｃに等しいと規定され、ここでｃは正の実数の定数である。

歪みについて二つの付加的な関数が次のように規定される。

Ｍ＊（Ｓ）＝Ｍ（Ｓ）＋Ｄｉｓｔ｛（ｐ−１）ｃ｝（１３）
Ａ＊（Ｓ）＝Ａ（Ｓ）＋Ｄｉｓｔ｛（ｐ−１）ｃ｝（１４）
ここでＭ（Ｓ）はＭ’（Ｓ）でもＭ’’（Ｓ）でもよく、
Ｄｉｓｔ｛｝は歪みとしての同じ単位におけるサイドコストを表すマッピングである。

Ｍ（Ｓ）についての関数は最適解を見出すのに用いられた検索アルゴリズムに従って選択することができる。Ｄｉｓｔ｛｝関数はサイドコストをＭ（Ｓ）及びＡ（Ｓ）と可換な値へマップするために用いられる。或る符号化方式では、サイドコストから歪への適切なマッピングは、
Ｄｉｓｔ｛Ｃ｝＝６．０２ｄＢ・Ｃ
であり、ここでＣはビットで表したサイドコストである。

最適化は次の数的問題により定式化される。即ち、正の整数成分（Ｓ０，Ｓ１，・・・，ＳＰ）を持つベクトルＳを規定し、これは、関係０＝Ｓ０＜Ｓ１＜．．．＜Ｓｐ＝Ｎ（但し、１≦ｐ≦Ｎ）を満たす正の整数Ｓ０，Ｓ１，．．．，Ｓｐの可能な全ての選択についての特定の歪関数Ｍ（Ｓ），Ｍ＊（Ｓ），Ａ（Ｓ）叉はＡ＊（Ｓ）が仮定閾値Ｔを下回るとものとする。これらのベクトルから、ｐについての最小値をベクトルＳを見つける。Ｓについての変数ｐは所望の歪関数を最小化するベクトルＳを見出すように１乃至Ｎの範囲から選択できる。この手法について以下に一層詳細に説明する。

６．多チャンネル系についての付加的な考察
ＡＣ−３系で用いられるチャンネルカップリングのような統合ステレオ／多チャンネルコーディング法、及びＡＡＣ系で用いられる中間／側部ステレオコーディング−叉は強度ステレオコーディングを採用するステレオ叉は多チャンネルコーディング系のためには、全てのチャンネルのオーディオ情報を特定のコーディング系について適宜な短いブロックモードへエンコードして、全てのチャンネルにおけるオーディオ情報が同数のグループ及び同様な系列化形態を持つようにせねばならない。この制約は、サイドコストの主要な源であるスケール因子が統合エンコードチャンネルの一つについてのみ与えられるために適用される。このことはスケール因子の１セットが全てのチャンネルへ適用されるので、全てのチャンネルが同一の系列化形態を持つことを意味している。

最適化は、多チャンネルコーディング系における少なくとも三つの手法の何れかで実行できる。即ち、その一つの手法は「統合チャンネル最適化」と称されており、チャンネルに亘る帯域叉は広帯域の全ての誤差エネルギを加算することにより、単独の経路におけるグループの数及びグループの境界の統合最適化により実行される。

他の手法は「入れ子式ループチャンネル最適化」と称されており、外側ループが全てのチャンネルについてのグループの最適数を計算する入れ子式ループ処理として実施される統合チャンネル最適化としてなされる。統合ステレオエンコーディングモードにおける両方のチャンネルを考慮すると、例えば、内側ループは所定のグループについての理想的系列化形態の最適化を実行する。この試みに課される原理的な制約は内側ループで実行される処理が全ての統合コードチャンネルについて同一の値ｐを用いることである。

更に他の手法は「個別チャンネル最適化」と称されており、全ての他のチャンネルから独立した各々のチャンネルについての系列化形態を最適化することにより実行される。非統合チャンネル子^ディング技法は特有値ｐ叉は特有系列化形態によりフレーム内の任意のチャンネルにおけるエンコードに用いることができる。

７．強制最適化を実行する方法
本発明は基本的に任意の所望の方法を用いて最適解を検索する。ここで三通りの方法を説明する。「全数検索法」は集中的な計算であるが、常に最適解を発見する。一つの試みは、全ての可能な数のグループについての歪と、グループの各数についての全ての可能な系列化形態とを計算し、；系列化形態をグループの各数についての最小歪を特定することにより、；最小歪を有する形態を選択することによりグループの最適数を決定する。これに代えて、グループの各数についての最小歪を閾値と比較して、その閾値を下回る程度のひずみを有する最初の系列化形態が見つかった後に検索を終了する。この代替的な実施は、許容可能な解を見出す検索の複雑な計算を低減するが、最適な解を見つけることは保証できない。

「Ｇｒｅｅｄｙ−Ｍｅｒｇｅ法」は全数検索法のような集中的計算ではなく、最適系列化形態を見つけることは保証できないが、通常は最適形態と殆ど同じ若しくはほぼ同じ形態を見つける。この手法によれば、隣接するブロックはサイドコストを考慮しながら繰り返しグループ化される。

「高速最適化法」は複雑な計算であり、その複雑さは上述した他の二つの手法の中間である。この反復法は、初期の反復において計算された歪計算に基づいて特定の系列化形態を考慮することを回避する。全数検索法と同様に、全てのグループ形態を考慮するが、或る形態の考慮は先行する計算の観点で連続的な反復から除外することができる。

８．サイドコストに影響するパラメータ
好ましくは本発明の実施は最適な系列化形態を検索するようにサイドコストにおける変更を考慮する。

ＡＡＣ系についてのサイドコストの主要な成分はスケール因子値を表すのに必要な情報である。スケール因子は全てのブロックに跨って共有されているので、ＡＡＣエンコーダの新たなグループの追加は、付加的なスケール因子を表すのに必要な付加的情報の量によりサイドコストを増大する。ＡＡＣエンコーダにおける本発明の実施がサイドコストにおける変化を考慮しないのであれば、この考慮は評価を用いねばならない。というのは、スケール因子値はレート歪みが完了する後までは知ることができないので、系列化形態が達成された後に実行せねばならないためである。ＡＡＣ径におけるスケール因子は非常に可変であり、それらの値はスペクトル係数の量子化解に密接に関係しており、そのスペクトル係数は入れ子式レート／歪みループにより決定する。ＡＡＣにおけるスケール因子もエントロピーコード化であって、そのサイドコストの本質的な非決定性に更に寄与する。

サイドコストの他の形態はオーディオ情報を考慮するのに用いられる特定のエンコード処理に依存して可能である。ＡＣ−３系においては、例えばチャンネル結合座標は、共通のエネルギ値による座標の系列化に有利な方式でブロックに跨って共有できる。

本発明の様々な特徴はＡＣ−３系における処理に適用可能であり、これはエンコード化信号における変換係数指数を運ぶのに用いられる「指数コーディング計画」を選択する。ＡＣ−３成分は、所定の指数を共有する全てのスペクトルラインについてのパワースペクトル密度値を採るので、最適化処理は、ＡＡＣに用いられる平均二乗誤差に代えて、最大誤差基準を用いて操作できる。ＡＣ−３系においては、サイドコストは、先行するブロックからの指数を最使用しない新たな各ブロックについての指数を運ぶ必要がある情報量である。指数コーディング計画は如何なる係数が周波数に亘って指数を共有するかについても決定し、指数計画が系列化形態に依存するならばサイドコストに影響する。ＡＣ−３系における指数のサイドコストを評価するのに必要な処理は、ＡＡＣ系におけるスケール因子についての評価を与えるために必要な処理よりも複雑さが少ない。というのは、指数値は心理的音響モデルの一部としてのエンコーディング処理において早期に計算されるためである。

Ｃ．検索方法の詳細な説明
１．全数検索法
全数検索法は系列化形態の数及び試験されるグループの数を制限する閾値を用いる。この技術は、実際の値ｐを設定する閾値に専ら頼ることにより単純化できる。これは０．９と１．０との間の或る数に対して閾値を設定し、且つグループｐの可能な数に亘って反復することにより実行できる。最適なグループ形態及び合成歪関数はｐ＝１について計算して、各比較対象Ｔに対してｐを一つずつ増加させる。合成歪はＴに対して比較され、歪関数がＴ未満のｐの五つの値がグループの最適数として選択される。経験的に閾値Ｔの値を設定することにより、異なる入力信号の広い変化について短いウィンドウフレームの大きなサンプリングに跨るガウス分布を達成することが可能である。このガウス分布は入力信号の大きな変化に亘ってｐの高い叉は低い平均値を可能とするようにＴの値を設定することによりシフトする。この処理は図２のフローチャートに示されており、これはグループの最適数を見つけるための外側ループにおける処理を示す。内側ループについても最適な処理は図３Ａ及び図３Ｂに示されており、以下に説明する。本明細書に説明した任意の歪関数は関数Ｍ（Ｓ），Ｍ＊（Ｓ），Ａ（Ｓ）及びＡ＊（Ｓ）を含めて用いてもよい。

ｐの所定の値については、外側ループの反復により決定したように、内側ループが最適系列化形態Ｓ＝（Ｓ_０，Ｓ_１，．．．，Ｓ_ｐ）を計算し、これが平均二乗誤差歪の最小量を達成する。１０未満程度の小さな値Ｎについては、Ｎブロックに跨るｐグループを仕切る全ての可能な方法を包含する１組の表入力を構築することが可能である。各表入力欄の長さは、一回に７の選択（ｐ−１）の組み合わせであり、以下「７選択ｐ−１」として示す。不定であるｐ＝０と、各グループがただ一つのブロックを包含する無歪解を与えるｐ＝Ｎとを除くｐの全ての値について個別の表入力がある。０＜ｐ＜Ｎについては、表の好ましい実施は、表ＴＡＢにおけるビットフィールドとしてのＳ＝（Ｓ_０，Ｓ_１，．．．，Ｓ_ｐ）についての分割値を包含し、内側連結ループがＴＡＢビットフィールド値を掩蔽して、各Ｓ_ｍについての絶対値に達する。０＜ｐ＜Ｎについてのビットフィールドの分割値は以下の通りである。

表１．Ｎ＝８についての系列化の全ての可能な組み合わせ
表の各記入事項即ち行は、０＜ｐ＜Ｎ，Ｎ＝８の異なる値ｐに対応する。この表は図３Ａ及び図３Ｂの論理フロー図（図２に示す処理の内側フロー）に示したような反復処理に用いてもよい。この内側ループは全ての可能なグループ形態（７選択ｐ−１）について繰り返される。フロー図における表記ＴＡＢ［ｐ，ｒ］に示すように、外側ループにより与えられたｐ値は表の行にインデックスを付しており、値ｒは特定の系列化組み合わせについてのビットフィールドを示す。

各々の内側ループ反復について、図３Ａに示すように平均歪量Ａ（Ｓ）か、叉はこれに代えて、図３Ｂに示す最大歪差Ｍ’’（Ｓ）をそれぞれ式１０叉は１２に従って計算する。全てのブロック及び帯域に跨る全歪は単独のスカラー値Ａ_ＳＡＢ叉はＭ_ＳＡＢを得るように加算する。

全数検索法を様々な歪測定に用いてもよい。例えば、上述した実施例はＬ１ノルムを用いるが、代替的に、Ｌ２ノルム叉はＬ無限大ノルム量を用いてもよい。下記の文献を参照されたい：Ｍ．Ｇｒａｙ，Ａ．Ｂｕｚｏ，Ａ．Ｈ．Ｇｒａｙ，ＪＲ．，”ＤｉｓｔｏｒｔｉｏｎＭｅａｓｕｒｅｓｆｏｒＳｐｅｅｃｈＰｒｏｃｅｓｓｉｎｇ，”ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．ＡＳＳＰ−２８，Ｎｏ．４，１９８０年８月。
２．高速最適法
高速最適法は式７で定義した平均最大歪Ｍ’（Ｓ）を用いる。この手法は、全ての可能な解についての全数検索をすることなく、最適系列化形態を得る。従って、上述した全数検索法のような集中計算ではない。

ａ）定義
分割Ｐ（Ｓ_０，．．．，Ｓｐ）は、ｐグループから構成されているならば、レベルｐの分割と称する。グループの次元ｄは、そのグループにおけるブロックの数である。１よりも大きい次元を有するグループを正のグループと称する。式４に示したグループＧ_ｍの定義はＧ_ｍ＝Ｇ（ｓ_ｍ−１，ｓ_ｍ−１＋１．．．．、Ｓ_ｍ）と書き換える。

ｂ）数学的準備
ｄ＞３の次元を持つグループは、共通の一つのみのブロックを持つ二つのサブグループへ分割することができる。例えば、Ｇ_ｍ＝Ｇ（ｓ_ｍ−１，ｓ_ｍ−１＋１．．．．、Ｓ_ｍ）であるならば、このグループＧ_ｍは二つのサブグループ即ちＧ_ｍａ＝Ｇ（ｓ_ｍ−１，ｓ_ｍ−１＋１．．．．、ｓ_ｍ−１＋ｋ）及びＧ_ｍｂ（ｓ_ｍ−１＋ｋ，．．，ｓ_ｍ）へ分割することができ、その両方は指数ｓ_ｍ−１＋ｋを持つブロックを包含している。定義により、これら二つのサブグループは同一の分割の一部にはならない。グループを二つの正の重畳するサブグループへ分割する手法は、与えられたグループを二つ叉はそれ以上の重畳するサブグループへ分割する手法として一般化することができる。

上述の式６で規定された歪量Ｊ’（ｍ）は常に以下の条件を満足する。

Ｊ’（ｍ）≦Ｊ’（ｍａ）＋Ｊ’（ｍｂ）（１５）
ここでＧ_ｍａ及びＧ_ｍｂはサブグループ即ちＧ_ｍの重畳するサブグループである。これはＪ_ｍ，ｉ≧ｍａｘ（Ｊ’_ｍａ，ｊ，Ｊ_ｍｂ，ｊ）が全てのＪ，１≦Ｊ≦ｋについて真であることを示すことにより証明できる。この関係を式６で示されたＪ’（ｍ）の定義に挿入することにより、表式１５における関係が見い出される。

ｃ）コア処理の説明
高速最適法の基礎をなす原理は、先ず所定の分割Ｐ_ｐを仮定することにより理解される。このＰ_ｐは全てのベクトルＳ_１、．．．，Ｓ_ｐについてＭ’（Ｓ）＝Ｍ’（ｓ_１，．．，ｓ_ｐ）を最小化するレベルｐの所定の分割である。レベルｐ−１の分割Ｆが存在し、これはスペクトル係数の特定の値から独立しており、レベルｐ−１の分割を規定する全てのベクトルＳ＝（ｓ_１，．．．，ｓ_ｐ）についてＭ’（ｓ_１，．．，ｓ_ｐ）を最小化するレベルｐ−１の固有の分割Ｐ_ｐ−１ではない。換言すれば、これらの分割Ｆ、即ちレベルｐ−１の分割を規定する全てのベクトルＳについてＭ’（Ｓ）を最小化する分割Ｆが一つ存在するならば、レベルｐ−１の分割を規定する全てのベクトルＳについてＭ’’（Ｓ）を最小化する他の分割も少なくとも一つは存在する。これら分割Ｆについて、Ｘ（ｐ，Ｐ）で示されるサブセットＸ（ｐ，Ｐ）を規定でき、これは以下に詳述するように最適解を見出すのに必要な処理から排除できるレベルｐにおける特定の分割を包含する。このサブセットＸ（ｐ，Ｐ）は以下のように規定できる。

（１）正のｎグループを有するレベルｐ−１の分割Ｆ及びｍ，但し０＜ｍ＜ｎを仮定し、この分割の正のグループがそれぞれ同一の次元の他の正のグループに置き換えることができ、置換後は、分割Ｆは重畳グループを持たないレベルｐ−１の分割Ｇへ変換される。分割Ｐの正のグループは、分割Ｇの正のグループのサブセットであるが、分割Ｆのサブセットではなく、ＦはＸ（ｐ，Ｐ）に属している。

（２）正のｎグループを有するレベルｐ−１の分割Ｆ及びｍ，但し０＜ｍ≦ｎを仮定し、Ｆの正のグループは二つ叉はそれ以上の正のグループへ分割できる。

更にこれら正のグループの少なくとも一つは、同一の次元を有するグループと置換して、分割Ｆを重畳グループを有さないレベルｐ−１の有効な分割Ｇへ変換される。分割Ｐの正のグループが分割Ｇの正のグループのサブセットであるが分割Ｆのサブセットではないのであれば、関係１５に従ってＦはＸ（ｐ，Ｐ）に属する。

構成的に、セットＸ（ｐ、Ｐ）はレベルｐ−１の全ての分割のセットとは同一にならないことを指摘しておくことは有益であろう。

ｄ）一般化の場合（Ｎ任意）
高速最適化法はフレームのＮブロックをｐ＝Ｎグループに分割することにより開始されて、平均最大歪関数Ｍ’（Ｓ）叉はＭ＊（Ｓ）を計算する。この分割はＰ_Ｎで示される。この方法は全てのＮ−１について、Ｎブロックをｇ＝Ｎ−１グループへ分割することが可能な方式で平均最大歪関数を計算する。平均最大歪関数を最小化するＮ−１分割から外れる特定の分割はＰ_Ｎ−１で示される。セットＸ（Ｎ−１、Ｐ_Ｎ−１）に属する分割は上述のように特定される。この方法は、Ｎブロックをｇ＝Ｎ−１グループへ分割するが、セットＸ（Ｎ−１、Ｐ_Ｎ−１）には属さない全ての可能な方式で平均最大歪関数を計算する。平均最大歪関数を最小化する分割はＰ_Ｎ−２で示される。高速最適法は、この処理をｐ＝Ｎ−２，．．．，２について反復し、各レベルにおけるセットＸ（ｐ，Ｐ）を用いて、可能な解として解析される分割の数を低減させる。

高速最適化法は、分割Ｐ_１，．．．．，Ｐ_Ｎのうちから、平均最大歪関数Ｍ’（Ｓ）叉はＭ＊（Ｓ）を最小化させる分割Ｐを見つけ出すことにより終了する。

ｅ）例
以下の例は高速最適化法の説明を助けると共に可能な態様の特徴を記載するものである。この例では、各フレームが六つのブロック即ちＮ＝６を含んでいる。或る分割を上述のセットＸ（ｐ，Ｐ_ｐ）へ加えるべきか否かの判断に必要な処理を単純化するために、制御表のセットを用いてもよい。この例のために表のセット即ち表２Ａ乃至２Ｃを示す。

これらの表における表記Ｄ（ａ，ｂ）は特定の分割を識別するために用いられている。分割は一つ叉は複数のブロックからなり、それに含まれる正のグループにより識別できる。例えば、六つの分割が四つグループからなり、その第１のグループはブロック１及び２を包含し、第２のグループはブロック３及び４を包含し、第３のグループはブロック５を包含し、第４のグループはブロック６を包含していることは、（１，２）（３，４）（５）（６）として表現することができ、表にはＤ（１，２）＋Ｄ（３，４）として示されている。

各表は、レベルｐにおける特定の分割Ｐｐを処理するときに、特定の分割がレベルｐ−１においてセットＸ（ｐ，Ｐ_ｐ）に属するか否かを判断するために用いられる情報を与える。表２Ａは、例えば、表の上行に示される各レベル５分割について、レベル４における分割がセットＸ（５，Ｐ_５）に属するか否かを判断するための情報を与える。図２Ａの上行は、例えば、五つのグループからなる分割を列記する。全ての分割が列記されているわけではない。この例では五つのグループを含む全ての分割は、Ｄ（１，２），Ｄ（２，３），Ｄ（３，４），Ｄ（４，５）及びＤ（５，６）である。表の上行には分割Ｄ（１，２），Ｄ（２，３）及びＤ（３，４）のみが示してある。欠けている分割Ｄ（４，５）及びＤ（５，６）は、それぞれＤ（２，３）及びＤ（１，２）に対称であって、これらから導出することができる。表２Ａの左列は四つのグループからなる。各表に示される符号”Ｙ”及び”Ｎ”は、（”Ｙ”）又は（”Ｎ”）であることを示し、左列に示されるレベルｐ−１における分割は、その列における表の上行に示される各Ｐ_ｐについての更なる処理から除外されることを示す。表２Ａを参照すると、例えばレベル５分割Ｄ（１，２）はレベル４分割Ｄ（２，３，４）についての行における入力”Ｎ”を有し、これは分割Ｄ（２，３，４）がセットＸ（５，Ｄ（１，２））に属し、更なる処理から除外されることを示す。レベル５分割Ｄ（２，３）はレベル４分割Ｄ（２，３，４）についての行における”Ｙ”項目を有し、これはそのレベル４分割がセットＸ（５，Ｄ（２，３）に属さないことを示す。

この例においては第１の最適法を実施する処理がフレームの六つのブロックを六つのグループへ分割して、平均最大歪を計算する。この文割はＰ_６として示される。

この処理は六つのブロックを五つのグループへ分割する全ての五つの可能な方式について平均最大歪を計算する。平均最大歪を最小化する五つの分割についての分割はＰ_５として示される。

この処理は表２Ａを参照して、最初の項目が分割Ｐ_５の系列化形態を特定する列を選択する。この処理は六つのブロックを、選択された列にＹ項目を有する四つのグループへ分割する全ての可能な手法について方式について最大平均歪を計算する。この平均最大歪を最小化する分割はＰ_４として示される。

この処理は表２Ｂを用いて、最初の項目が分割Ｐ_４の分割形態を特定する列を選択する。この処理は、六つのブロックを、選択されたれ列に”Ｙ”項目を有する三つのグループへ分割する全ての可能な手法について平均最大歪を計算する。この平均最大歪を最小化する分割はＰ_３として示される。

この処理は表２Ｃを用いて、最初の項目が分割Ｐ_３の分割形態を特定する列を選択する。この処理は、六つのブロックを、選択されたれ列に”Ｙ”項目を有するグループへ分割する全ての可能な手法について平均最大歪を計算する。この平均最大歪を最小化する分割はＰ_２として示される。

処理は一つのグループを構成する平均最大歪を計算する。この分割はＰ_１として示される。

最小平均最大歪を有する分割Ｐ１，．．．．，Ｐ６のなかから分割Ｐを特定する。この分割Ｐは最適分離形態を与える。

表２Ａ．ｐ＝５についての高速最適グループ消去表

表２Ｂ．ｐ＝４についての高速最適グループ消去表

表２Ｃ．ｐ＝３についての高速最適グループ消去表
３．ＧｒｅｅｄｙＭｅｒｇｅの説明
ＧｒｅｅｄｙＭｅｒｇｅ法はフレームにおけるグループをブロックをグループへ分割する単純化された技法を与える。ＧｒｅｅｄｙＭｅｒｇｅ法は最適系列化形態が見つかることは保障しないが、この方法によれば複雑な計算の低減が与えられるので、殆どの実際的な用途については、最適化のための可能な低減よりも望ましい。

ＧｒｅｅｄｙＭｅｒｇｅ法には、上述したものを含めて広範な歪測定関数を用いてもよい。好ましい実施は式１１に示される関数を用いる。

図４は最適なＧｒｅｅｄｙＭｅｒｇｅ法のフローダイアグラムであり、以下のように操作される。帯域エネルギベクトルＶ_ｉを各ブロックｉについて計算する。各々が一つのブロックを有するＮグループのセットを形成する。この方法をグループの全てのＮ−１隣接対について試みて、二つの隣接するグループｇと、式１１を最小化するｇ＋１とを見つける。式１１からの最小値Ｊ”をｑで示す。次に、この最小値ｑを歪閾値Ｔと比較する。最小値が閾値Ｔよりも大きければ、この方法は現在の系列化形態を最適又は近似的に最適な形態と同定して終了する。最小値が閾値Ｔより小さければ、二つのグループｇ及びｇ＋１は、二つのグループｇ及びｇ＋１の帯域エネルギベクトルを包含する新たなグループへ併合される。この方法は全ての隣接するグループの対についての歪値ｊ”が歪閾値Ｔを越えるか、或いは全てのブロックが一つのグループへ併合されるまで繰り返される。

この方法を四つのブロックのフレームに操作した一例を図５に示す。この例では、四つのブロックは最初に各々が一つのブロックを有する四つのグループａ，ｂ，ｃ及びｄへ配置される。次いで、この方法は式１１を最小化するグループｂ及びｃを見つける。最初の繰り返しでは、この方法は、歪閾値Ｔよりも小さい歪値Ｊ”により式１１を最小化するグループｂ及びｃを見つける。従って、この方法はグループｂ及びｃを三つｎグループａ，ｂｃ及びｄを得るように新たなグループへ併合する。二回目の繰り返しでは、この方法は、式１１を最小化する二つの隣接するグループａ及びｂｃと、このグループの対についての歪値Ｊ”が閾値Ｔよりも小さいことを見つける。グループａ及びｂｃが二つのグループａｂｃ及びｄの総計を与える新たなグループへ併合される。三回目の繰り返しでは、この方法は残りのグループ対のみについて歪閾値Ｔよりも大きな歪値Ｊ”を見つける。従って、この方法は最後の二つのグループａｂｃ及びｄを最適又は近似的に最適系列化形態として残して終了する。

ＧｒｅｅｄｙＭｅｒｇｅ法の計算の複雑さの実際の程度は、閾値を越える前に反復せねばならない方法の回数に依存しているが、反復の回数は１と（１Ｎ／２）・（Ｎ−１）との間に規定される。

Ｄ．実施
本発明の様々な態様を採用するデバイスは、コンピュータ又は、汎用コンピュータに見られるのと同様な部品へ接続されたディジタル信号プロセッサ（ＤＳＰ）回路系により実行される。図６はデバイス７０の概略的ブロック図であり、これは本発明の態様を実施するために用いることができる。ＤＳＰ７２はコンピュータ資源を与える。ＲＡＭ７３は、処理のためにＤＳＰ７２で用いられるシステムランダムアクセスメモリ（ＲＡＭ）である。ＲＯＭ７４は、例えばリードオンリーメモリ（ＲＯＭ）などの固定記憶形態を示し、デバイス７０の操作に必要なプログラムを記憶し、場合によっては本発明の様々な態様を実行する。Ｉ／Ｏコントロール７５は交信チャンネル７６，７７の方式により信号を送受信するインターフェース回路系を示す。図示の実施例においては、全ての主要なシステム部品はバス７１へ接続され、このバスは一つ以上の物理的又は論理的バスを表すが、バスのアーキテクチュアは本発明の実施には要求されない。

汎用コンピュータシステムにより実施される実施例において、付加的な部品は、キーボ−ド又はマウス及びディスプレイなどのデバイスをインターフェースするため、また磁気テープ又はディスク或いは光媒体などの記憶媒体を有する記憶デバイスを制御するためのものを含む。記憶媒体はオペレーティングシステム、ユーティリテイ及びアプリケーションのための指令のプログラムを記録するのに用いてもよく、また本発明の様々な態様を実施するプログラムを含んでもよい。

本発明の様々な態様を実施するのに必要な機能は、個別の論理部品、集積回路、少なくとも一つのＡＳＩＣｓ及び／又はプログラム制御プロセッサを含む広範な方式で実現される部品により実行することができる。これらの部品を実現する方式は本発明には重要ではない。

本発明のソフトウェアの実施は、超音波から紫外線域までを含むスペクトルを通じてのベースバンド又は変調通信経路などの様々な機械的読み取り媒体により実行でき、或いは磁気テープ、カード、ディスク、光学カード又はディスなどを含む基本的に記録技術を用いて情報を保持する記憶媒体、及び紙を含む媒体上の読み取り可能なマーキングにより実行できる。

図１は本発明の様々な特徴を採用できるオーディオコーディング系のブロック図である。図２は一つのフレーム内のブロックのグループの最適数を決定するための反復プロセスにおける外側ループのフローチャートである。図３Ａは一つのフレーム内のブロックのグループの最適系列化を決定するための反復プロセスにおける内側ループのフローチャートである。図３Ｂは一つのフレーム内のブロックのグループの最適系列化を決定するための反復プロセスにおける内側ループのフローチャートである。図４はＧｒｅｅｄｙＭｅｒｇｅ処理のフローチャートである。図５は四つのブロックへ適用されるＧｒｅｅｄｙＭｅｒｇｅ処理の一例を示す知覚ブロックダイアグラムである。図６は本発明の様々な態様を実施するために使用できる機構の概略的なブロック図である。

Claims

フレームに配置されたオーディオ情報のブロックを処理する方法であって、各ブロックはオーディオ情報の各時間間隔を表すコンテンツを有し、この方法は、
（ａ）オーディオ情報のブロックを伝送する入力信号を受け取る段階と、
（ｂ）少なくとも二つ以上の特性値を獲得する段階であって、
（１）各フレームにおける前記ブロックのグループの複数のセットにおける各セットは関連する特性値を有し、
（２）各グループは少なくとも一つのブロックを有し、
（３）グループの各セットは各フレームにおける全てのブロックを含むと共に、各セットにおける一つよりも多くのグループに含まれるブロックはなく、
（４）前記特性値は、少なくとも一つの制御パラメータの関連するセットに従って各グループにおける各ブロックを処理することにより獲得可能な優位性を表す段階と、
（ｃ）前記特性値を解析して、最小数のグループを有する選択されたグループのセットを特定し、前記関連する特性値の少なくとも一部から得られた処理性能の特性を閾値よりも高くする段階と、
（ｄ）少なくとも一つの制御パラメータの関連するセットに従ってグループの前記選択されたセットにおけるブロックの各グループを処理して出力信号を生成し、この出力信号は、前記入力信号のコンテンツを表す出力信号を生成し、且つ前記選択されたセットにおける各グループについての制御パラメータの関連するセットを表す段階とを含む方法。
請求項１の方法において、前記ブロックはオーディオ情報の時間域サンプルを含む方法。
請求項１の方法において、前記ブロックはオーディオ情報の周波数域係数を含む方法。
請求項１の方法において、前記グループの少なくとも一対のブロックは、互いに隣接又は互いに重畳する時間間隔におけるオーディオ情報を表すコンテンツを有する一つよりも多くのブロックを有する方法。
請求項１の方法において、
二つ以上のコスト値を得て、各コスト値はブロックのグループのセットに提携しており、前記コスト値は前記制御パラメータの関連セットに従って前記提携セットにおける前記ブロックを処理するのに必要な資源の量を表し、
前記処理能力値は前記選択されたセットに提携する前記コスト値の一部から得られる方法。
請求項１又は５の方法において、前記解析は、前記選択されたセットについての候補ではない少なくとも一つのセットを決定するための反復処理の少なくとも一回の反復を実行すると共に、後続の反復処理においては前記少なくとも一つのセットの解析を除外する方法。
請求項１又は５の方法において、前記選択されたセットは反復処理により同定され、この処理は、
グループの初期セットにおけるグループの対についての第２の処理性能値を決定する段階と、
最も高い第２の処理能力値を有する前記グループ対を統合して、閾値よりも大きな前記最も高い第２の処理能力値を与えるグループの変更されたセットを形成すると共に、このグループの変更セットにおけるグループ対についての第２の処理能力値を決定する段階と、
前記グループの変更セットには、前記閾値よりも大きな第２の処理能力値を有すグループ対がなくなるまで前記統合を繰り返し、前記変更セットを前記選択セットとする段階とを含む方法。
請求項５の方法において、前記コスト値はエンコード化信号における前記制御パラメータのセットを表すのに必要なデータの量に対応する方法。
請求項５の方法において、前記コスト値は前記オーディオ情報のブロックを処理するのに必要なコンピュータ資源の量に対応する方法。
フレームに配置されたオーディオ情報のブロックを処理する装置であって、各ブロックはオーディオ情報の各時間間隔を表すコンテンツを有し、この方法は、
オーディオ情報のブロックを伝送する入力信号を受け取る手段と、
少なくとも二つ以上の特性値を獲得する手段であって、
（１）各フレームにおける前記ブロックのグループの複数のセットにおける各セットは関連する特性値を有し、
（２）各グループは少なくとも一つのブロックを有し、
（３）グループの各セットは各フレームにおける全てのブロックを含むと共に、各セットにおける一つよりも多くのグループに含まれるブロックはなく、
（４）前記特性値は、少なくとも一つの制御パラメータの関連するセットに従って各グループにおける各ブロックを処理することにより獲得可能な優位性を表すようにする手段と、
前記特性値を解析して、最小数のグループを有する選択されたグループのセットを特定し、前記関連する特性値の少なくとも一部から得られた処理性能の特性を閾値よりも高くする解析手段と、
少なくとも一つの制御パラメータの関連するセットに従ってグループの前記選択されたセットにおけるブロックの各グループを処理して出力信号を生成し、この出力信号は、前記入力信号のコンテンツを表す出力信号を生成し、且つ前記選択されたセットにおける各グループについての制御パラメータの関連するセットを表す手段とを備える装置。
請求項１０の装置において、前記ブロックはオーディオ情報の時間域サンプルを含む装置。
請求項１０の装置において、前記ブロックはオーディオ情報の周波数域係数を含む装置。
請求項１０の装置において、前記グループの少なくとも一対のブロックは、互いに隣接又は互いに重畳する時間間隔におけるオーディオ情報を表すコンテンツを有する一つよりも多くのブロックを有する装置。
請求項１０の装置において、
二つ以上のコスト値を得る手段を備え、各コスト値はブロックのグループのセットに提携しており、前記コスト値は前記制御パラメータの関連セットに従って前記提携セットにおける前記ブロックを処理するのに必要な資源の量を表すことにより、
前記処理能力値は前記選択されたセットに提携する前記コスト値の一部から得られる装置。
請求項１０又は１４の装置において、前記解析手段は、前記選択されたセットについての候補ではない少なくとも一つのセットを決定するための反復処理の少なくとも一回の反復を実行すると共に、後続の反復処理においては前記少なくとも一つのセットの解析を除外する装置。
請求項１０又は１４の装置において、前記解析手段が実行する解析は、
グループの初期セットにおけるグループの対についての第２の処理性能値を決定し、
最も高い第２の処理能力値を有する前記グループ対を統合して、閾値よりも大きな前記最も高い第２の処理能力値を与えるグループの変更されたセットを形成すると共に、このグループの変更セットにおけるグループ対についての第２の処理能力値を決定し、
前記グループの変更セットには、前記閾値よりも大きな第２の処理能力値を有すグループ対がなくなるまで前記統合を繰り返し、前記変更セットを前記選択セットとすることである装置。
請求項１４の装置において、前記コスト値はエンコード化信号における前記制御パラメータのセットを表すのに必要なデータの量に対応する装置。
請求項１４の装置において、前記コスト値は前記オーディオ情報のブロックを処理するのに必要なコンピュータ資源の量に対応する装置
フレームに配置されたオーディオ情報のブロックを処理する方法を実行するデバイスにより実行される指令のプログラムを保持する媒体であって、各ブロックはオーディオ情報の各時間間隔を表すコンテンツを有し、前記方法は、
（ａ）オーディオ情報のブロックを伝送する入力信号を受け取る段階と、
（ｂ）少なくとも二つ以上の特性値を獲得する段階であり、
（１）各フレームにおける前記ブロックのグループの複数のセットにおける各セットは関連する特性値を有し、
（２）各グループは少なくとも一つのブロックを有し、
（３）グループの各セットは各フレームにおける全てのブロックを含むと共に、各セットにおける一つよりも多くのグループに含まれるブロックはなく、
（４）前記特性値は、少なくとも一つの制御パラメータの関連するセットに従って各グループにおける各ブロックを処理することにより獲得可能な優位性を表す段階と、
（ｃ）前記特性値を解析して、最小数のグループを有する選択されたグループのセットを特定し、前記関連する特性値の少なくとも一部から得られた処理性能の特性を閾値よりも高くする段階と、
（ｄ）少なくとも一つの制御パラメータの関連するセットに従ってグループの前記選択されたセットにおけるブロックの各グループを処理して出力信号を生成し、この出力信号は、前記入力信号のコンテンツを表す出力信号を生成し、且つ前記選択されたセットにおける各グループについての制御パラメータの関連するセットを表す段階とを含む媒体。
請求項１９の媒体において、前記ブロックはオーディオ情報の時間域サンプルを含む媒体。
請求項１９の媒体において、前記ブロックはオーディオ情報の周波数域係数を含む媒体。
請求項１９の媒体において、前記グループの少なくとも一対のブロックは、互いに隣接又は互いに重畳する時間間隔におけるオーディオ情報を表すコンテンツを有する一つよりも多くのブロックを有する媒体。
請求項１９の媒体において、
二つ以上のコスト値を得て、各コスト値はブロックのグループのセットに提携しており、前記コスト値は前記制御パラメータの関連セットに従って前記提携セットにおける前記ブロックを処理するのに必要な資源の量を表し、
前記処理能力値は前記選択されたセットに提携する前記コスト値の一部から得られる媒体。
請求項１９又は２３の媒体において、前記解析は、前記選択されたセットについての候補ではない少なくとも一つのセットを決定するための反復処理の少なくとも一回の反復を実行すると共に、後続の反復処理においては前記少なくとも一つのセットの解析を除外する媒体。
請求項１９又は２３の媒体において、前記選択されたセットは反復処理により同定され、この処理は、
グループの初期セットにおけるグループの対についての第２の処理性能値を決定する段階と、
最も高い第２の処理能力値を有する前記グループ対を統合して、閾値よりも大きな前記最も高い第２の処理能力値を与えるグループの変更されたセットを形成すると共に、このグループの変更セットにおけるグループ対についての第２の処理能力値を決定する段階と、
前記グループの変更セットには、前記閾値よりも大きな第２の処理能力値を有すグループ対がなくなるまで前記統合を繰り返し、前記変更セットを前記選択セットとする段階とを含む媒体。
請求項２３の媒体において、前記コスト値はエンコード化信号における前記制御パラメータのセットを表すのに必要なデータの量に対応する媒体。
請求項２３の媒体において、前記コスト値は前記オーディオ情報のブロックを処理するのに必要なコンピュータ資源の量に対応する媒体。