JP5162588B2

JP5162588B2 - 音声符号化システム

Info

Publication number: JP5162588B2
Application number: JP2009524877A
Authority: JP
Inventors: ヨウ、ユリ
Original assignee: デジタルライズテクノロジーシーオー．，エルティーディー．
Priority date: 2006-08-18
Filing date: 2007-08-17
Publication date: 2013-03-13
Anticipated expiration: 2027-08-17
Also published as: JP2010501090A; EP2054881A4; KR20090041439A; KR101401224B1; US20070124141A1; KR101161921B1; DE602007010160D1; JP2010501089A; KR20090042972A; ATE486347T1; EP2054881B1; EP2054883A4; ATE486346T1; JP5162589B2; EP2054883B1; DE602007010158D1; KR20120032039A; WO2008022564A1; KR101168473B1; EP2054883A1

Description

［関連出願のクロスリファレンス］
本願は、２００６年８月１８日提出の米国仮特許出願６０／８２２，７６０号、名称"Variable-Resolution Filtering"（‘７６０出願）の権利を主張した、２００６年１１月１２日提出の米国特許出願第１１／５５８，９１７号、名称"Variable-Resolution Processing of Frame-Based Data"（‘９１７出願）の一部継続出願であり、２００４年９月１７日提出の米国仮特許出願第６０／６１０，６７４号、名称"Apparatus and Methods for Multichannel Digital Audio Coding"の権利を主張した、２００５年１月４日提出の米国特許出願第１１／０２９，７２２号、名称"Apparatus and Methods for Multichannel Digital Audio Coding"（‘７２２出願）の一部継続出願であり、さらに前記‘７６０出願の権利を直接的に主張している。前記各出願は、この参照により、その全内容が記載されたものとして本明細書に包含される。

［技術分野］
本発明は、音声信号を符号化するためのシステム、方法、及び技術に関する。

音声信号を符号化するための多種多様な技術が存在している。しかしながら、性能、品質、及び圧縮の向上が継続的に求められている。

本発明は、数ある技術の中でも、トランジェントフレーム内で可変分解能を使用し、量子化データの大きさに基づいて可変長コードブックセグメントを生成する総合的な音声符号化技術を提供することにより、前記の要求に対処する。

このように、一つの態様において、本発明は、音声信号を符号化するためのシステム、方法、及び技術に関する。サンプル音声信号を、いくつかのフレームに分割し、採取する。前記フレームの一つの内部におけるトランジェントの位置を識別し、前記トランジェントを含むフレームの異なる部分について異なる分解能でフィルタリングするなどの、多分解能フィルタバンク分析をフレームデータに行うことによって、変換データサンプルを生成する。心理音響モデルに基づいて可変数のビットを用いて前記変換データサンプルを量子化することにより量子化データを生成し、前記量子化データの大きさに基づいて量子化データを可変長セグメントにグループ化する。コードブックを各可変長セグメントに割り当て、かかる可変長セグメントを設定するために割り当てられたコードブックを用いて各可変長セグメントの量子化データを符号化する。

上述の構成によって、多くの場合は音声データのより正確な符号化と、より少ないビット数を用いたかかるデータの表示とが同時に実現可能となる。

上述の概要は、本発明の特定の一態様を簡単に説明したに過ぎない。クレーム及び好適な実施形態に関する下記の詳述を、添付の図面とともに参照することにより、本発明のより完全な理解を得ることができる。

図１は、本発明の代表的な実施形態に係る、音声信号符号化のブロック図である。図２は、本発明の代表的な実施形態に係る、コードブックセグメント及び対応するコードブックの初期セットを識別する処理を示したフローチャートである。図３は、本発明の代表的な実施形態において、対応するコードブックが識別されたコードブックセグメントに分割された量子化インデックスのシーケンスの一例を示す図である。図４は、本発明の代表的な実施形態において、図３に示すセグメント化からセグメントを削除後、量子化インデックスがコードブックセグメントにセグメント化された結果を示す。図５は、量子化セグメントが直接的に量子化ユニットに対応する従来の量子化インデックスセグメント化の結果を示す。図６は、量子化インデックスが効率的な方法でグループ化される、本発明の代表的な実施形態に係る量子化インデックスセグメント化の結果を示す。

本発明は、例えばシーケンス格納や送信などのための、音声信号を符号化するためのシステム、方法、及び技術に関する。本発明が使用され得るアプリケーションとしては、デジタルオーディオ放送、デジタルテレビ（衛星、地上波及び／またはケーブル放送）、ホームシアター、デジタルシアター、レーザービデオディスクプレイヤー、インターネット及びパーソナルオーディオプレイヤーのコンテントストリーミングが挙げられるが、これに限定されない。

図１は、本発明の代表的な実施形態に係る音声信号符号化システム１０のブロック図である。代表的な副実施形態では、図１に示す個々のセクションやコンポーネントは、下記に記述するように、すべてコンピュータ実行可能コードで実施される。ただし、別の実施形態では、かかるセクションあるいはコンポーネントのいずれか、もしくは全てが、ここで論じられる以外の方法で実施されてもよい。

初めに、原音声信号の時間サンプルに対応するパルス符号変調（ＰＣＭ）信号１２は、フレームセグメント化セクション１４に入力される。ここで、原音声信号は、一般的には複数のチャンネル、例えば一般のステレオ用左右チャンネル、またはサラウンドサウンド用の５〜７つの標準チャンネルと１つの低周波数効果（ＬＦＥ）チャンネルから構成される。ＬＦＥチャンネルは、一般的に限られた帯域幅（例えば、１２０Ｈｚ未満）であり、標準チャンネルよりも音量（volume）が大きい。この明細書全体において、所定チャンネルの構成はｘ．ｙで表され、ｘは標準チャンネル数、ｙはＬＦＥチャンネル数を表す。このように、一般のステレオは２．０、また一般的な従来型サラウンドサウンドは５．１、６．１または７．１で表される。

本発明の好適な実施形態では、少なくとも２４ビットの精度で、６４．３までのチャンネル構成と、４４．１キロヘルツ（ｋＨｚ）や４８ｋＨｚなど、８ｋＨｚから１９２ｋＨｚまでのサンプル周波数とをサポートする。概して、特段の指定がない限り、各チャンネルは他チャンネルから独立して処理される。

ＰＣＭ信号１２は、外部ソースからシステム１０へ入力されてもよいし、または、例えば原音声信号をサンプリングすることによって、前記システム１０により内部で生成されてもよい。

フレームセグメント化セクション１４では、各チャンネル用のＰＣＭサンプル１２は、時間領域において一連の連続したフレームに分割される。ここで、本発明の技術において、フレームが処理のための基準データ単位とみなされる。好ましくは、各フレームは各種フレームサイズの比較的小さい組から選択された一定数のサンプルを有し、ある特定の時間間隔用の選択されたフレームサイズは、例えばサンプリング率やフレーム間に許容される遅延量などに応じて決まる。さらに好ましくは、各フレームは１２８個、２５６個、５１２個、または１，０２４個のサンプルを含み、遅延減少が重要となる場合を除いて、フレームは長い方が好まれる。以下に記載するほぼ全ての例について、各フレームは、１，０２４個のサンプルで構成されるものとする。ただし、かかる例は本発明を限定するものと解釈されるべきではない。

フレームセグメント化セクション１４から出力されたデータサンプルの各フレームは、トランジェント分析セクション１６に入力される。トランジェント分析セクション１６はＰＣＭサンプルの入力フレームが信号トランジェントを含んでいるかを判断する。信号トランジェントとは、好ましくは、信号エネルギーの突然かつ急激な増加（アタック）または減少と定義される。このような検出にもとづいて、各フレームが、トランジェントフレーム（すなわち、トランジェントを含むフレーム）もしくは準定常フレーム（すなわち、トランジェントを含まないフレーム）に分類される。さらにトランジェント分析セクション１６は、各トランジェント信号の位置及び持続時間を識別し、次にその情報を用いて「トランジェントセグメント」を識別する。前記‘７２２出願に記載したトランジェント検出技術のいずれかなど、公知のトランジェント検出方法であればどれでも使用できる。

ここで言う「トランジェントセグメント」とは、同一または類似した統計的特性を持つ信号の部分を指す。このように、準定常フレームは、一般的には単独のトランジェントセグメントからなり、トランジェントフレームは、通常は２〜３つのトランジェントセグメントからなる。例えば、１つのフレーム内にトランジェントのアタックまたは減少のいずれかが生じた場合、このトランジェントフレームは通常は２つのトランジェントセグメントを持つことになり、１つは増加または減少前のフレーム部分をカバーし、もう１つは増加または減少後のフレーム部分をカバーする。１つのトランジェントフレーム内に増加及び減少の両方が生じた場合、通常は３つのトランジェントセグメントが存在することになり、それぞれ、増加と減少によってセグメント化されたフレーム部分をカバーする。その後、フレーム式データ及びトランジェント検出情報がフィルタバンク１８に提供される。

可変分解能分析フィルタバンク１８は、各チャンネル音声の音声ＰＣＭサンプルをサブバンド信号へと分解するが、前記サブバンドの性質は用いられる変換技術に応じて決まる。その際、フィルタバンク１８では、数ある中からいずれの変換技術を使用してもよいが、好適な実施形態では、前記変換はユニタリー変換や正弦変換である。さらに好適には、前記‘７２２出願に詳しく記載されているように、フィルタバンク１８は離散コサイン変換（ＤＣＴ）もしくは変形離散コサイン変換（ＭＤＣＴ）を用いる。ここに記載する例のほとんどでは、ＭＤＣＴを用いるものとする。従って、好適な実施形態では、サブバンド信号は、各ＭＤＣＴブロックに対して、サブバンドの異なる周波数にそれぞれ対応する多数のサブバンドサンプルを構成する。さらに、変換のユニタリー性のため、サブバンドサンプルの数はＭＤＣＴで処理される時間領域サンプルの数と等しくなる。

さらに、好適な実施形態では、フィルタバンク１８の時間・周波数分解能は、トランジェント分析セクション１６から受領したトランジェント検出結果に基づいて制御される。さらに好ましくは、フィルタバンク１８は、前記‘９１７出願に記載の技術を用いる。

一般的に言うと、その技術は、各準定常フレームをカバーする単一の長い変換ブロック及び各トランジェントフレームをカバーする複数で同一の短い変換ブロックを使用する。代表的な例において、フレームサイズは１，０２４個のサンプル分で、各準定常フレームは単一のプライマリーブロック（１，０２４個のサンプル）から構成され、各トランジェントフレームは８つのプライマリーブロック（１２８個のサンプルをそれぞれ有する）から構成されると考えられる。境界効果を防ぐため、ＭＤＣＴブロックはプライマリーブロックよりも大きく、さらに好適には、プライマリーブロックの２倍である。その場合、長いＭＤＣＴブロックは２，０４８個のサンプルから構成され、短いＭＤＣＴブロックは２５６個のサンプルから構成される。

ＭＤＣＴ適用前に、個々のフィルタの周波数応答を整形することを目的として、各ＭＤＣＴブロックにウィンドウ関数が適用される。準定常フレームには単一の長いＭＤＣＴブロックのみが使用されるため単一のウィンドウ関数が用いられるが、ただし、その特定の形状は隣接するフレームで用いられるウィンドウ関数によることが好ましく、それにより完全再構成条件を満たす。一方、従来の技術とは違って、好適な実施形態の技術では、単一のトランジェントフレーム内で異なるウィンドウ関数を用いる。より好ましくは、そのようなウィンドウ関数は、フレーム内で単一の変換（例えば、ＭＤＣＴ）ブロックサイズを使用しつつ、トランジェントフレーム内で少なくとも２段階の分解能を提供できるように選択される。

その結果、例えば、トランジェント信号付近ではより高い時間領域分解能（周波数領域分解能が低下することを代償とする）を得ることができ、トランジェントフレームのその他の部分（すなわち、より定常な部分）ではより高い周波数領域分解能（時間領域分解能が低下することを代償とする）を得ることができる。さらに、前記利点は概して、変換ブロックの大きさを一定に保つことによって、処理構造を複雑化することなく、達成できる。

好適な実施形態では、従来のウィンドウ関数に加え、下記の新しい「ブリーフ（brief、簡潔な）」ウィンドウ関数WIN＿SHORT＿BRIEF2BRIEFが導入される。

ここで、Ｓは短いプライマリーブロックサイズ（例えば、１２８個のサンプル）、Ｂはブリーフブロックサイズ（例えば、Ｂ＝３２）を表す。前記‘９１７出願に詳しく記載するように、完全再構成条件を満たすため、追加のトランジションウィンドウ関数も使用することが好ましい。

なお、前記‘９１７出願にも詳しく記載されるように、他の特定の形式の「ブリーフ」ウィンドウ関数を代わりに用いてもよい。しかしながら、本発明の好適な実施形態では、使用される「ブリーフ」ウィンドウ関数が、トランジェントフレームの他の部分（例えば、より定常な部分）に用いられる他のウィンドウ関数と比較して、変換ブロックのより小さな部分により多くのエネルギーを集中させる。実際、ある実施形態では、多くの関数値が０で、これによって中央のサンプル値、すなわちサンプル値のプライマリーブロックが保存される。

再結合クロスオーバーセクション２０においては、カレントチャンネルのカレントフレーム用のサブバンドサンプルは、同サブバンドに対応する同トランジェントセグメント内でサンプルをグループ化するよう、再配置されることが好ましい。長いＭＤＣＴを含むフレーム（すなわち、準定常フレーム）では、サブバンドサンプルは、周波数が上昇する順序で、例えば、サブバンド０からサブバンド１０２３への順序で、すでに配置されている。ＭＤＣＴのサブバンドサンプルは自然順序で配置されているため、再結合クロスオーバーは長いＭＤＣＴを含むフレームには適用されない。

しかしながら、フレームが１フレーム当たりのブロック数（nNumBlocksPerFrm）が短いＭＤＣＴブロック（すなわち、トランジェントフレーム）で構成されている場合、各短いＭＤＣＴ用サブバンドサンプルは、周波数が上昇する順序で、例えば、サブバンド０からサブバンド１２７への順序、で配置される。そのようなサブバンドサンプルのグループは時間順序で配置されているため、０から１０２３までのサブバンドサンプルの自然順序が形成される。

再結合クロスオーバーセクション２０では、再結合クロスオーバーがこれらサブバンドサンプルに適用されるが、これは各トランジェントセグメント内に同じ周波数をもつサンプルを配置し、続いて周波数が上昇する順序にそれらを配置することによってである。これにより、変換に必要なビットの数を低減するという結果が得られることが多い。

３つのトランジェントセグメントと８つの短いＭＤＣＴブロックを有するフレームの自然順序の一例は、下記の通りである。

自然順序におけるサブバンドサンプルの線形シーケンスは［０…１０２３］である。再結合クロスオーバー適用後の対応するデータ配列は下記の通りである。

再結合クロスオーバー順序におけるサブバンドサンプルの線形シーケンスは
［０，２，４，…，…２５４，１，３，５，…，２５５，２５６，２５９，３０２，…，６３７，…］である。

ここで用いられるように、「臨界帯域」とは、人間の耳の周波数分解能、すなわち、その中で人間の耳が異なる周波数を区別できないような帯域幅Δfを指す。帯域幅Δfは、周波数fと共に上昇し、fとΔfとの関係は、ほぼ級数的である。各臨界帯域は、フィルタバンクの隣接するサブバンドサンプルの数として表すことができる。例えば、短い（１２８個のサンプルの）ＭＤＣＴの臨界帯域は、一般的に最低周波数で４個のサブバンドサンプルという幅から最高周波数で４２個のサブバンドサンプルという幅までとなる。

心理音響モデル３２は、人間の耳のノイズマスキング閾を提供する。心理音響モデル３２の根底にある基本概念は、人間の聴覚システムには閾があるということである。これらの値（マスキング閾）未満では、音声信号を聞き取ることができない。従って、情報のこの部分をデコーダに伝送する必要はない。心理音響モデル３２の目的は、これらの閾値を提供することである。

既存の一般的な心理音響モデル、例えばＭＰＧＥからの二つの心理音響モデルを使用することができる。本発明の好適な実施形態では、心理音響モデル３２は、各量子化ユニットのマスク閾（下記に定義する）を出力する。

任意の和／差エンコーダ２２では、特定の結合チャンネル符号化技術が使用される。好ましくは、エンコーダ２２は、左／右チャンネル対のサブバンドサンプルを、次のように和／差チャンネル対に変換する。
和チャンネル＝０．５ * （左チャンネル＋右チャンネル）
差チャンネル＝０．５ * （左チャンネル−右チャンネル）
従って、復号中は、左／右チャンネルにおけるサブバンドサンプルの再構成は次の通りとなる。
左チャンネル＝和チャンネル＋差チャンネル
右チャンネル＝和チャンネル−差チャンネル
任意の結合強度エンコーダ２４は、人間の耳の高周波数における音像定位特性を利用して、結合チャンネルの高周波数成分を符号化する。心理音響モデルは、高周波数における空間音像に対する人間の耳の感覚が、左／右音声信号の相対的な強さによって大部分が限定され、それぞれの周波数成分によってはそれほど限定されないことを示している。これは、結合強度符号化の理論的な基礎である。以下は結合強度符号化用の簡単な技術である。

２つ以上のチャンネルが結合されるためには、対応するサブバンドサンプルがチャンネルを越えて足し合わされ、その合計が元のソースチャンネルの一つ（たとえば、左チャンネル）のサブバンドサンプルと取って代わり、それが結合サブバンドサンプルと称される。その後、各量子化ユニットでは、元のソースチャンネルのパワーと一致するようパワーが調整され、各チャンネルの各量子化ユニットのスケール係数が保持される。最後に、各チャンネル内の量子化ユニットの、パワーが調整された結合サブバンドサンプルとスケーリング係数とのみが保持され、伝送される。例えば、Ｅｓがソースチャンネルの結合量子化ユニットのパワーで、Ｅｊが結合チャンネルの結合量子化ユニットのパワーの場合、スケール係数は下記のように算出することができる。

グローバルビット割当セクション３４は、多数のビットを各量子化ユニットに割り当てる。ここで、「量子化ユニット」は、周波数領域の臨界帯域によって、かつ、時間領域のトランジェントセグメントによって境界を定められたサブバンドサンプルの四角形から構成されることが好ましい。この四角形内の全てのサブバンドサンプルは、同じ量子化ユニットに属する。

これらサンプルのシリアル番号は、本発明の好適な実施形態では２種類のサブバンドサンプル配列順序（すなわち、自然順序及びクロスオーバー順序）があるので、例えば異なっていてもよいが、しかし、同一グループのサブバンドサンプルを表すことが好ましい。一例では、第一の量子化ユニットは、サブバンドサンプル０，１，２，３，１２８，１２９，１３０及び１３１から構成される。しかしながら、第一の量子化ユニットのサブバンドサンプルのシリアル番号は、０，１，２，３，４，５，６及び７となる。異なるシリアル番号を持つ２つのグループは、同一のサブバンドサンプルを表している。

量子化ノイズパワーをそれぞれのマスキング閾値以下にまで低減するために、グローバルビット割当セクション３４は、各フレームに対して利用可能な全てのビットを当該フレーム内の量子化ユニットに分配する。好ましくは、各量子化ユニットの量子化ノイズパワーと、前記量子化ユニットに割り当てられたビット数は、量子化ユニットの量子化ステップサイズを調整することにより制御される。

様々な既存のビット割当技術中で、例えば注水など、いずれの技術を用いてもよい。注水技術では、（１）ＮＭＲ（ノイズ対マスク比）が最も高い量子化ユニットを識別し、（２）その量子化ユニットに割り当てられた量子化ステップサイズを減少させて量子化ノイズを低減させ、そして（３）全ての量子化ユニットのＮＭＲが1未満（もしくは予め定められた他の閾）となるか、もしくはカレントフレームに与えられているビットがなくなるまで、前述の２つのステップが繰り返される。

量子化セクション２６では、サブバンドサンプルを量子化するが、この量子化は、好適には上述のように、グローバルビット割当器３４によって設けられた均等な量子化ステップサイズを用いて、各量子化ユニットのサンプルを直接的に量子化することによる。ただし、他の量子化技術を代用してもよく、それにはグローバルビット割当セクション３４への対応する調整を伴う。

コードブックセレクタ３６は、量子化インデックスの局所統計的特性によって量子化インデックスをグループ化またはセグメント化し、コードブックライブラリからコードブックを選択して量子化インデックスの各グループに割り当てる。本発明の好適な実施形態では、セグメント化とコードブックの選択がほぼ同時に行われる。

本発明の好適な実施形態では、量子化インデックスエンコーダ２８（下記に追加詳細を記載）は、コードブックセレクタ３６がセグメントごとに選択したコードブックを用いることにより、量子化インデックスにハフマン符号化を実施する。より好ましくは、各チャンネルのサブバンドサンプル量子化インデックスに対してもハフマン符号化を実施する。さらに好ましくは、サブバンドサンプル量子化インデックスについてハフマン符号化を行うために、２グループのコードブック（一つは準定常フレーム用、もう一つはトランジェントフレーム用）を用いるが、その際にコードブックの各グループは９つのハフマンコードブックからなる。従って、好適な実施形態では、任意のフレームの量子化インデックスの符号化を実施するために、９つまでのハフマンコードブックを用いることができる。かかるコードブックの特性は、好適には下記の通りである。

他のタイプのエントロピーコーディング（演算符号等）は、本発明の別の実施形態で実施される。しかし本例では、ハフマン符号化が用いられるものとする。ここで使用される「ハフマン」符号化とは、想定されたシンボル出現確率を用いるプレフィックス２進コードを含むものであって、コーディング技術が元来のハフマンアルゴリズムと同一であるか否かに関わらず、あまり一般的でないソースシンボルよりも短いビット列を使用することによって、より一般的なソースシンボルを用いて表現するものである。

量子化インデックスエンコーダ２８で行われると予測された符号化を鑑み、本発明の好適な実施形態におけるコードブックセレクタ３６の目標は、各チャンネルの分類インデックスのセグメントを選択し、それぞれのセグメントにあてはまるコードブックを決定することである。第一段階は、トランジェント分析セクション１６で識別されたフレームタイプ（準定常またはトランジェント）に基づいて、使用すべきコードブックのグループを識別することである。前記特定のコードブックとセグメントは、下記の方法によって選択されることが好ましい。

従来の音声信号処理アルゴリズムでは、エントロピーコードブックの適用範囲は量子化ユニットと同じであるため、エントロピーコードブックは量子化ユニット内の最大量子化インデックスによって決定される。従って、さらなる最適化の余地はない。

一方、本発明の好適な実施形態において、コードブックの選択では、量子化ユニットの境界は無視され、その代わり、適切なコードブックと、そのコードブックが適用されるセグメントとが同時に選択される。さらに好ましくは、量子化インデックスは、その局所統計的特性に応じてセグメントに分割される。コードブックの適用範囲は、これらセグメントの境界によって画定される。図２のフロー図を参照しながら、コードブックセグメントと対応するコードブックとを識別する一技術例を説明する。

初めにステップ８２では、コードブックセグメントと対応するコードブックとの初期セットが選択される。このステップは、多種多様な方法、例えばクラスタリング技法を用いたり、量子化インデックスを所定サイズのコードブックに収容される連続した区間内で単純にグループ化したりすることによって実施され得る。後者については、適用可能なコードブック（例えば、９つの異なるコードブック）のグループの中で主な違いは、収容できる最大量子化インデックスである。従って、コードブックの選択においては、第一に、検討中の量子化インデックスの全部の量を収容できるコードブックを選択する必要がある。従って、ステップ８２の一つのアプローチのとして、最初の量子化インデックスを収容する最小のコードブックから開始し、さらに大きなコードブックが必要となったり、さらに小さなコードブックを用いることが可能となるまでそれを使用し続けたりすることである。

いずれにしても、このステップ８２の結果により、コードブックセグメントの最初のシーケンスと、対応するコードブックとが提供される。図３は、１０１〜１１３のセグメントを含む一例を示している。ここでは、各コードセグメント１０１〜１１３は、垂直方向の高さによって表された、割り当てられたコードブック内に、水平方向の長さによって示された長さを持つ。

次にステップ８３では、コードブックセグメントは、必要に応じて結合され、また好ましくは、量子化インデックスの大きさに基づいて結合される。その際、コードブックセグメントは好適には任意の境界を持つことが可能であり、それらの境界の位置は通常デコーダに伝送される必要がある。従って、ステップ８２後のコードブックセグメント数が多すぎる場合は、規定の基準８５を満たすまで小さなコードブックセグメントのいくつかを削除することが好ましい。

好適な実施形態では、削除方法は、小さいコードブックセグメント（たとえば、最短のコードブックセグメント）を、その検討中のコードブックセグメントの左右側で、最小のコードブックインデックス（最小のコードブックに対応）を持つコードブックセグメントと結合させることである。図４は、図３に示されるコードブックセグメント化にステップ８３を適用した一結果例を提示している。この場合、セグメント１０２はセグメント１０１及び１０３（同一のコードブックを使用）と結合されてセグメント１２１を提供し、セグメント１０４及び１０６はセグメント１０５と結合されてセグメント１２２を提供し、セグメント１１０及び１１１はセグメント１０９と結合されてセグメント１２５を提供し、セグメント１１３はセグメント１１２と結合されてセグメント１２６を提供する。コードブックインデックスが０の場合（例えば、セグメント１０８）、量子化インデックスを伝送する必要がないので、そのような孤立したコードブックセグメントは削除（reject）されないことが好ましい。従って、本例では、コードブックセグメント１０８は削除（reject）されない
図２に示すように、ステップ８３は、最終基準８５を満たすまで繰り返し適用されることが望ましい。最終基準は、特定の実施形態に応じて、例えばセグメントの総数は規定最大数を超えない、各セグメントは最小限の長さを持つ、及び／または参照されるコードブックの総数は規定最大数を超えない等であればよい。この反復プロセスでは、次に削除するセグメントの選択は、例えば、最短既存セグメント、最小量でコードブックインデックスが増加する可能性のあるセグメント、ビット数における最初の予測増加、または得られる正味の利得（例えば、セグメントの長さとそのコードブックインデックスにおける必須増加率との関数）等、多種多様な基準に基づいて実施されてもよい。

この技術の利点は、図５に示すような従来のセグメント化と、図６に示すような本発明によるセグメント化とを比較することによって、理解することができる。図５では、量子化インデックスは、１５１〜１５４までの４つの量子化セグメントに分割され、右側の対応する境界１６１〜１６３を有する。従来のアプローチに基づいて、量子化セグメント１５１〜１５４は、量子化ユニットと直接的に対応している。本例では、最大量子化インデックス１７１は、量子化ユニット１５４に属している。従って、量子化ユニット１５４には大きいコードブック（例えば、コードブックｃ）が選択される必要がある。量子化ユニット１５４の量子化インデックスのほとんどは小さいので、賢い選択とは言えない。

一方、本発明の技術が適用される場合、同じ量子化インデックスが、上記の技術を用いることによってコードブックセグメント１８１〜１８４にセグメント化される。その結果、最大量子化インデックス１７１は、コードブックセグメント１８３（このコードブックセグメント１８３には、その中のその他の量子化インデックスの大きさに基づいて、既にコードブックセグメントｃが割り当てられている）内の量子化インデックスとグループ化される。この量子化インデックス１７１は、なおも同じサイズのコードブック（例えば、コードブックｃ）を必要とするが、このコードブックを他の大きな量子化インデックスと共有する。すなわち、この大きなコードブックは、このコードブックセグメント１８３の量子化インデックスの統計的特性と対応する。さらに、コードブックセグメント１８４内の全ての量子化インデックスは小さいため、そのセグメントにはより小さいコードブック（例えば、コードブックａ）が選択される。すなわち、コードブックをセグメント内の量子化インデックスの統計的特性と対応させるのである。このコードブックの選択技術により、多くの場合、量子化インデックスの伝送に用いられるビットの数を低減できることが容易に理解されよう。

しかしながら上述のように、本技術の使用に関連していくらかの「追加コスト」がかかる。従来技術では、通常は、コードブックインデックスのサイド情報のみを復号器に伝送すればよい。なぜなら、その適用範囲が量子化ユニットと同一であるからである。しかしながら本発明の技術では、概して、コードブックインデックスのサイド情報を伝送するだけでなく、デコーダの適用範囲も伝送する必要がある。なぜなら、前記適用範囲と量子化ユニットが通常は、独立しているからである。この問題に対処するため、ある実施形態では、そのような「追加コスト」が補償されない場合、本技術を従来型アプローチにデフォルトする（すなわち、単純に量子化ユニットを量子化セグメントとして使用する）。ただし、このような事態は生じたとしてもごくまれであろう。上述のように、この問題に対処する一つのアプローチは、許容される統計的特性の条件下において、できる限り大きなコードブックセグメントに分割することである。

コードブックセレクタ３６による処理が完了した際、好ましくは、セグメント数、各セグメントの長さ（各コードブックの適用範囲）、それぞれのセグメントに選択されたコードブックインデックスがマルチプレクサ４５に提供され、ビットストリームに含まれる。

量子化インデックスエンコーダ２８は、前記セグメントと、コードブックセレクタ３６によって選択された対応するコードブックとを用いることにより、量子化インデックスを圧縮符号化する。コードブックHuffDec18＿256x1及びコードブックHuffDec27＿256x1（コードブックインデックス９に対応）内の最大量子化インデックス、すなわち２５５はＥＳＣＡＰＥを表す。量子化インデックスは二つのコードテーブルの最大範囲を超える可能性があることから、かかる大きなインデックスは、「ｑ」が以下のように表される、再帰的符号化によって符号化される。
q = m * 255 + r
ここで、ｍはｑの商であり、ｒはｑの剰余である。剰余ｒは、コードブックインデックス９に対応するハフマンコードブックを用いて符号化され、商ｑは直接ビットストリームに組み込まれる。ハフマンコードブックは、好ましくは商ｑを組み込むために使用されるビットの数を符号化するために用いられる。

コードブックHuffDec18＿256x1及びコードブックHuffDec27＿256x1はミッドトレッド型ではないため、絶対値が伝送されたときは、その絶対値記号(the sign)を表すための追加ビットが伝送される。コードブックインデックス１から８までに対応するコードブックはミッドトレッド型であるため、ハフマン復号化後に量子化インデックスの絶対値記号(the sign)を再構成するためのオフセットが追加される。

マルチプレクサ４５は、上述の全ての追加情報や任意のユーザー定義補助情報も含め、全てのハフマンコードを単一のビットストリーム６０に組み込む。加えて、エラーコードは、音声データのカレントフレームに挿入されることが好ましい。エンコーダ１０が全ての音声データを組み込んだ後、ラストワード（３２ビット）の全ての空きビットが「１」に設定されるとさらに好ましい。デコーダ側では、全ての空きビットが１と等しいわけではない場合、カレントフレームにエラーが宣言され、エラー処理手続きが開始される。

本発明の好適な実施形態では、補助データはエラー検出コードの後ろに配置されているため、デコーダはコードエラー検出終了後に停止して次の音声フレームを待機することが可能である。言い換えると、補助データは復号に何ら影響を与えず、またデコーダによって処理される必要もない。その結果、補助データの定義及び理解はユーザーによってすべてが決定可能となり、これにより相当な自由度がユーザーにもたらされる。

各フレームの出力構造は、好適には下記の通りである。

各標準チャンネルのデータ構造は、好適には下記の通りである。

各LFEチャンネルのデータ構造は、好適には下記の通りである。

システム環境
一般的に、特に明示される場合を除いて、ここに記述した全てのシステム、方法、及び技術は、一つ以上のプログラム可能な汎用のコンピュータデバイスを用いて実行可能である。そのようなデバイスは、通常、例えば共通バスを経由して相互に接続する次のコンポーネントを少なくともいくつか含んでいる。例えば、一つ以上の中央処理装置（ＣＰＵ）；リードオンリーメモリ（ＲＯＭ）；ランダムアクセスメモリ（ＲＡＭ）；（例えば、シリアルポート、パラレルポート、ＵＳＢ接続、またはファイヤーワイヤー接続等のハードワイヤード接続を使用、もしくはブルートゥースまたは８０２．１１プロコトル等の無線プロコトルを使用して）他のデバイスと接続する入力／出力ソフトウェア及び回路；（例えば、イーサネットカードのようなハードワイヤード接続を使用、もしくは符号分割多重アクセス（ＣＤＭＡ）、ＧＳＭ（Global system for mobile communication）、ブルートゥース、８０２．１１プロコトル、またはその他のセルラー式システムあるいは非セルラー式システム等の無線プロトコルを使用して）一つ以上のネットワークと接続するためのソフトウェア及び回路であって、本発明の多くの実施形態において、前記ネットワークは、インターネットあるいは他のネットワークを接続する；ディスプレイ（ブラウン管ディスプレイ、液晶ディスプレイ、有機発光ディスプレイ、高分子発光ディスプレイ、または他の薄膜ディスプレイ等）；他の出力デバイス（一つ以上のスピーカー、ヘッドフォンセット及びプリンタなど）；一つ以上の入力デバイス（マウス、タッチパッド、タブレット、タッチセンサー式ディスプレイ、またはその他ポインティングデバイス、キーボード、キーパッド、マイク及びスキャナー等）；大容量記憶装置（ハードディスクドライブ等）；リアルタイムクロック；リムーバブル記憶読取／書込デバイス（ＲＡＭ、磁気ディスク、磁気テープ、光磁気ディスク、光ディスク等の読取／書込用のデバイス）；及びモデム（例えば、ファックスの送信またはダイアルアップ接続によるインターネットやその他コンピュータネットワークの接続用のモデム）を含んでいる。操作時には、かかる汎用コンピュータで実行される範囲において、上記の方法及び機能を実行する処理ステップが、一般的に初めは大容量記憶装置（例えば、ハードディスク）に記憶され、ＲＡＭにダウンロードされ、ＲＡＭから取り出されてＣＰＵにより実行される。しかしながら、場合によっては、前記処理ステップは初めからＲＡＭまたはＲＯＭに記憶されている。

本発明の実施において使用されるのに適したデバイスは、ベンダー各社から入手されたものでもよい。様々な実施形態において、サイズやタスクの複雑さに応じて多様なデバイスが用いられる。適切なデバイスとしては、独立型、ネットワークに配線で接続、またはワイヤレスで接続されている、メインフレームコンピュータ、マルチプロセッサコンピュータ、ワークステーション、パーソナルコンピュータ、ＰＤＡなどのより小型のコンピュータ、無線電話、もしくはその他の機器やデバイス等がある。

さらに、プログラム可能な汎用のデバイスを上述したが、別の実施形態では一つ以上の専用プロセッサ、またはコンピュータが代わりに（もしくは追加で）使用される。一般的に、特に明示される場合を除いて、上記いずれの機能も、ソフトウェア、ハードウェア、ファームウェア、もしくはこれらの任意の組み合わせることによって実施されることが可能であるが、特定の実施は、公知の工学的トレードオフに基づいて選択される。より具体的には、上記機能が固定、所定、あるいは論理的な方法によって実施される場合、プログラミング（例えば、ソフトウェアまたはファームウェア）や、ロジックコンポーネント（ハードウェア）の適切な構成、あるいは前記２つの組み合わせにより達成することができるが、これは当業者であれば容易に理解されるであろう。

本発明はまた、本発明の方法及び機能を実行するプログラム命令が記憶された機械読取可能な記録媒体にも関すると理解されるべきである。そのような記録媒体の例としては、磁気ディスク、磁気テープ、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ等の光学的読取可能な記録媒体、あるいはＰＣＭＣＩＡカード、各種メモリカード、ＵＳＢメモリデバイス等の半導体メモリなどがある。いずれの場合にも、記録媒体はミニチュアディスクドライブまたは小型ディスク、ディスケット、カセット、カートリッジ、カード、スティック等の携帯型アイテムの形をとるか、もしくはコンピュータまたはその他デバイスに設けられたハードディスクドライブ、ＲＯＭやＲＡＭ等の比較的大きな、もしくは固定式アイテムの形を取り得る。

先の記載では、主に電子計算機及びデバイスに重点を置いている。しかしながら、その他コンピュータや他種デバイス、例えば電子的、光学的、生物学的、及び化学的な処理の任意の組み合わせを使用したデバイス等を代わりに使用してもよいと理解されるべきである。

追加的な考察
本発明のいくつかの異なる実施形態が上述され、各実施形態は特定の特徴を有するものとして記載されている。しかしながら、いずれか一つの実施形態の説明に関連して記載された特徴は、当該実施形態に限定されるものではなく、他の実施形態においても多様な組み合わせで含まれ、および／または構成されてもよいことは、当業者によって理解されるであろう。

同様に、上記説明において、機能は特定のモジュールまたはコンポーネントに属するものとみなされている場合がある。しかしながら、機能は、一般的には異なるモジュールまたはコンポーネントに必要に応じて再分配され、場合によっては、特定のモジュールまたはコンポーネントを不要としたり、及び／または、新たなモジュールまたはコンポーネントの追加を必要としたりする。機能の正確な分配は、好ましくは本発明の特定の実施形態を参照しながら公知の工学的トレードオフにより行われることは、当業者によって理解されるであろう。

このように、本発明は、例示的実施形態及び添付図面に関して詳しく記載されているが、本発明の精神及び範囲から逸脱することなく、本発明を多様に調整及び変更し得ることは当業者には明らかであろう。従って、本発明は、図面に示され、上記に記載された実施形態そのものに限定されるものではない。むしろ、本発明の精神から逸脱しないそれら全ての変形は、添付の請求の範囲によってのみ限定される本発明の範囲内に入るものとみなされる。

Claims

音声信号を符号化する方法であって、
（ａ）フレームに分割されたサンプル音声信号を取得するステップと、
（ｂ）前記フレームの一つに存在するトランジェントの位置を識別するステップと、
（ｃ）前記フレームデータに多分解能フィルタバンク分析を行うことによって変換データサンプルを生成するステップであって、前記トランジェントを含む前記フレームの一つにおける異なる部分については異なる分解能でフィルタリングすることを含むステップと、
（ｄ）心理音響モデルに基づいて可変数のビットを用いて前記変換データサンプルを量子化することにより量子化データを生成するステップと、
（ｅ）前記量子化データの大きさに基づいて前記量子化データを可変長セグメントにグループ化するステップと、
（ｆ）コードブックを前記可変長セグメントの各々に割り当てるステップと、
（ｇ）前記可変長セグメントを設定するために割り当てられた前記コードブックを用いて前記可変長セグメントの各々の前記量子化データを符号化するステップとを含み、
前記変換データサンプルは、（ｉ）二つの異なるチャンネルの対応するデータ値の和と、（ｉｉ）二つの異なるチャンネルのデータ値の差とのうちの、少なくとも一つを含み、
前記トランジェントを含む前記フレームの一つに対するフィルタリングは、
同じ大きさの隣接する複数の変換ブロックの各々にフィルタバンクを適用することと、
前記トランジェントを含む前記変換ブロックの一つに対して、前記トランジェントを含まない前記変換ブロックとは異なるウィンドウ関数を適用することと、
を含むことを特徴とする方法。
前記変換データサンプルの少なくとも一部は、結合強度符号化されている、請求項１に記載の方法。
前記変換データサンプルは、変形離散コサイン変換を行うことによって生成される、請求項１に記載の方法。
前記ステップ(ｇ)における符号化は、検出されたトランジェント信号を含まないフレーム用の９つのコードブックを含む第一のコードブックグループと、検出されたトランジェント信号を含むフレーム用の９つのコードブックを含む第二のコードブックグループとを使用するハフマン符号化を含む、請求項１に記載の方法。
前記ステップ(ｅ)は、量子化データの短いセグメントを隣接したセグメントに結合する反復技法を含む、請求項１に記載の方法。
前記量子化データは、複数の量子化ユニットの各々の中の各サンプルに固定数のビットを割り当てることにより生成され、異なる量子化ユニットはサンプルごとのビットの数が異なり、かつ、前記可変長セグメントは前記量子化ユニットから独立している、請求項１に記載の方法。
前記ステップ(ｅ)と前記ステップ(ｆ)は同時に行われる、請求項１に記載の方法。
音声信号符号化のためのコンピュータ実行可能なプログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記プログラムは、
（ａ）フレームに分割されたサンプル音声信号を取得するステップと、
（ｂ）前記フレームの一つに存在するトランジェントの位置を識別するステップと、
（ｃ）前記フレームデータに多分解能フィルタバンク分析を行うことによって変換データサンプルを生成するステップであって、当該ステップは、前記トランジェントを含む前記フレームの一つにおける異なる部分については異なる分解能でフィルタリングすることを含むステップと、
（ｄ）心理音響モデルに基づいて可変数のビットを用いて前記変換データサンプルを量子化することによって量子化データを生成するステップと、
（ｅ）前記量子化データの大きさに基づいて前記量子化データを可変長セグメントにグループ化するステップと、
（ｆ）コードブックを前記可変長セグメントの各々に割り当てるステップと、
（ｇ）前記可変長セグメントを設定するために割り当てられた前記コードブックを用いて前記可変長セグメントの各々の前記量子化データを符号化するステップとを前記コンピュータに実行させるためのプログラムを含み、
前記変換データサンプルは、（ｉ）二つの異なるチャンネルの対応するデータ値の和と、（ｉｉ）二つの異なるチャンネルのデータ値の差とのうちの、少なくとも一つを含み、
前記トランジェントを含む前記フレームの一つに対するフィルタリングは、
同じ大きさの隣接する複数の変換ブロックの各々にフィルタバンクを適用することと、
前記トランジェントを含む前記変換ブロックの一つに対して、前記トランジェントを含まない前記変換ブロックとは異なるウィンドウ関数を適用することと、
を含むことを特徴とするコンピュータ読み取り可能な記録媒体。
前記変換データサンプルの少なくとも一部は、結合強度符号化されている、請求項８に記載のコンピュータ読み取り可能な記録媒体。
前記変換データサンプルは、変形離散コサイン変換を行うことによって生成される、請求項８に記載のコンピュータ読み取り可能な記録媒体。
前記ステップ（ｇ）における符号化は、検出されたトランジェント信号を含まないフレーム用の９つのコードブックを含む第一のコードブックグループと、検出されたトランジェント信号を含むフレーム用の９つのコードブックを含む第二のコードブックグループとを使用するハフマン符号化を含む、請求項８に記載のコンピュータ読み取り可能な記録媒体。
前記ステップ(ｅ)は、量子化データの短いセグメントを隣接したセグメントに結合する反復技法を含む、請求項８に記載のコンピュータ読み取り可能な記録媒体。
前記量子化データは、複数の量子化ユニットの各々の中の各サンプルに固定数のビットを割り当てることにより生成され、異なる量子化ユニットはサンプルごとのビットの数が異なり、かつ、前記可変長セグメントは前記量子化ユニットから独立している、請求項８に記載のコンピュータ読み取り可能な記録媒体。
前記ステップ(ｅ)と前記ステップ(ｆ)は同時に実行される、請求項８に記載のコンピュータ読み取り可能な記録媒体。