JP3168012B2

JP3168012B2 - 音声信号をコード化、操作及びデコード化する方法及び装置

Info

Publication number: JP3168012B2
Application number: JP51629697A
Authority: JP
Inventors: セラーリオ，ルカ; フエスタ，ミケーレ; ミユラー，イオルク，マーチン; セレーノ，ダニエーレ
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 1995-10-27
Filing date: 1996-10-25
Publication date: 2001-05-21
Anticipated expiration: 2016-10-25
Also published as: DE69603743T2; ATE183346T1; IT1281001B1; US6108626A; ES2135931T3; ITTO950869A0; DE69603743D1; ITTO950869A1; EP0857375B1; EP0857375A1; WO1997015983A1; JPH10512423A

Description

【発明の詳細な説明】本発明は、デジタルコード化された音声信号を処理及
び伝送するためのシステムに係り、特に、特定の信号内
容（例えばスピーチ信号、ミュジック信号、雑音など）
に依存することなく音声信号（すなわち20Hzから20kHz
までのバンドの信号）をコード化、操作及びデコード化
するための方法及び装置に関する。

これらの信号は総称音声信号とも称され、これらの信
号のコード化−デコード化は総称コード化及びデコード
化とも称される。

限定するものではないが、好ましくは、この方法及び
装置は音声−映像（マルチメディア）信号の音声成分を
コード化、操作及びデコード化するのに適用される。

音声−映像が通信、コンピューター及びTV/フィルム
産業に拡大して適用されつつあることは知られている。
従って、このような拡大適用から生じる新たな期待や要
求を考慮した音声−映像コード化方法が研究されつつあ
る。特に、新しい方法では対話、高圧縮及び／又は広い
アクセスが可能でなければならず、さらに、急速に発展
する技術を利用するために、本方法は高度な柔軟性と拡
張性を備えておかねばならない。

内容ベースの対話性は、音声−映像シーン（scene）
においてユーザーが有意味な対象（オブジェクト）と対
話及び操作する能力を含む。現在は、対話はコンピュー
ターグラフィックス、すなわち合成内容に限定される。
これに対して新しい音声−映像アプリケーションは、通
常又はハイブリッドの自然／合成の音声−映像対象とも
デマンド対話することが期待されている。記憶装置及び
伝送バンドを効率的に使用するのに高い圧縮が要求さ
れ、圧縮効率の改善は高品質、低ビットレートのアプリ
ケーションを可能にするには重要である。広いアクセス
性とは、音声−映像データが記憶及び伝送メディアの広
範囲に亘って利用できることを意味し、移動通信の急速
な発展の観点からみて、アプリケーションへのアクセス
はワイヤレスネットワークを介して利用できるべきであ
り、このことはエラーを起こしやすい環境でかつ低ビッ
トレートでの有効な動作において必要であることを意味
する。

音声成分の処理に関する限りでは、許容される値の組
内でコード化パラメーターのみを変えることにより、ビ
ットレート、遅延、品質、バンド、チャンネルエラー頑
強性などのようなエンコーダーの主要特性を変える装備
が、柔軟性の要求の中に含まれる。このような柔軟性に
より、異なる要求を伴う種々雑多な用途において総称コ
ーダー−デコーダーの使用が可能となる。総称コーダー
−デコーダーが利用可能になると、将来のデジタルシス
テムでは異なるソースから発生された音声データの変換
が容易になり、ネッノワークインターフェースが簡単に
なり、異なる規格間のトランスコード化における品質低
下を抑える。このことは、将来のユニバーサル・モバイ
ル・テレコミニュケーション・システム（UMTS）たる異
なる（移動又は固定）ネットワーク間での音声データの
変換が増大することを考慮すると、非常に重要となる。
ユーザーの特定の要求をサービスが満たすことができる
ように、又は、設備及びサービス提供者がシステム条件
に依存せずにサービスを最適化できるように、総称コー
ダーはコーダー−デコーダーパラメーターを変更できる
べきでもある。さらに、コーダーは音声データの変換の
前に構成フェーズのアプリケーションをサポートすべき
である。このようなフェーズでは、コーダー−デコーダ
ーはユーザー及びシステムにより決められたサービス要
求に依存して構成される。

そのような種類の総称コーダーは当該技術においては
知られていない。「埋込コード化」として一般に知られ
ている幾つかのコード化技術により、エンコーダー特性
を変えることなくビットレートを下げられる。換言すれ
ば、エンコーダーは固定アルゴリズムに従って動作し、
コード化された信号は、情報の一部が喪失できる又は伝
送経路に沿って抑制できるように構成される。なお、少
なくとも本質的な情報が受け取られると、たとえ品質が
或程度劣化しても、デコーダーは信号をデコードでき
る。例として、埋込ADPCM（Adaptive Differential pul
se Code Modulation）コード化がITU−Ｔ標準G.726に開
示されており、埋込CELP（Coder Excited Linear Predi
ction）コード化がUS−Ａ−5353373に開示されている。
両者とも、非常に制限された数のリダクションステップ
のみ可能であって、バンド幅への介入はできず、明らか
に異なるコード化技術を組み込むことは出来ない。

ドキュメント・グローブコム'90:IEEEグローバル・テ
レコミニュケーションズ・コンファレンス＆エキシビシ
ョン、’通信：未来との接続’（Cat.No.90CH2827−
４）、San Diego、CA、1990年12月２−５日、ISBN ０
−87942−632−２、ニューヨーク、NY、USA、頁523−52
7、Vol.1、コンド他：「ATMネットワーク上でのパケッ
トスピーチに対する可変レート埋込ADPCMコード化法（V
ariable Rate Embedded ADPCM Coding Scheme for Pack
et Speech on ATM Networks）」に開示された埋込コー
ダー（スピーチコード化のみのための）においては、 − 入力信号セグメントの特性がどうであれ、コアー情
報（信号の最重要部分）及びエンハンス情報をコード化
するために１つのコード化アルゴリズム（ADPCM）のみ
が使用される。すなわち、許される唯一の柔軟性は、異
なる信号部分（サイレンス、音声セグメント、無声セグ
メントなど）に割り当てられたビットレートに関係し、
いずれにしても、ビットレートステップの数が制限され
ることが予想され、 − スピーチ以外の音声信号をコード化するための規定
は為されておらず、該ドキュメントにおいて他の信号に
対する説明は全く取るに足らないものであり、 − 信号の性質及び／又はユーザーとシステムの要求に
依存してコード化ビットストリームのバンド幅及びビッ
トレートに介入することは開示又は示唆されておらず、
コード化信号の操作の可能性についても開示又は示唆さ
れてない。

EP−Ａ−0206352が示すコード化装置では、たとえ個
々の要素が異なる量子化特性を有していても、同じアル
ゴリズム（ADPCM）に従って動作できる個々の要素に信
号が送られる。よって、この場合にも、異なる音声信号
に対して、又はコアー／エンナンス情報に対して異なる
コード化技術を選択する可能性は無い。ドキュメントD2
も、エンコード化されたビットストリームを操作する可
能性を開示又は示唆していない。

US−Ａ−4464783に開示されたコード化装置では、前
にコード化されたサンプルブロックに対して有為な差が
存在するか否かに依存して、特定パラメータについての
情報がコード化信号内に含まれるか又は含まれない。そ
のため、より多くのビットが他の情報に割り当てられ得
る。いずれにしても、固定レート伝送が参照される。

従って、本発明の目的は、コード化側では埋込コード
化が行われて、少なくとも「コアー」情報が受信された
と仮定するとデコード化はまた可能であり、コーダー出
力及び伝送経路に沿ってビットレート及びバンド幅の両
方において実際のスカラビリティを可能にし（「スカラ
ビリティ」は、大抵連続的な方法で多くの微細ステップ
にてビットレート又はバンド幅を減少させる可能性を意
味する。）、異なる信号に対して異なるコード化技術の
使用を可能にし、そしてコード化パラメータの操作を可
能にする方法及び装置を提供することである。

この課題は、新しい請求の範囲第１項及び第32項の主
要部により解決される。好まし実施態様は、従属クレー
ムの主題である。

特に、本発明の方法及び装置はオブジェクト向きパラ
ダイムに基づいている。すなわち、総称音声入力信号は
基本音声オブジェクトの結合として考えられ、基本オブ
ジェクトはマクロオブジェクトにグループ化でき、該マ
クロオブジェクトは他の情報（例えばビデオ情報）にリ
ンクでき且つ独立に操作できる。コード化されているオ
ブジェクトのタイプに依存して、最適なコード化技術、
及びシステム条件と矛盾しない最適なビットレート及び
／又はバンド幅が選択できる。コーダーからテコーダー
への伝送経路に沿って、個々のマクロオブジェクトにつ
いての又は単に個々のオブジェクトについてのビットス
トリームの操作が可能であり、それにより異なるシステ
ム条件に対処してユーザーがシーンなどと相互作用でき
るようにすることが可能である。

本発明は好適実施態様についての以下の説明からより
よく理解されるであろうし、この実施態様は限定的でな
い例として与えられたものであり、添付図面に示されて
いる。

図１は本発明による装置の略ブロック図であり、図２はエンコーダーのブロック図であり、図３はエンコーダー内のコード化装置からビットスト
リーム構成装置への接続を示す詳細ブロック図であり、図４はビットストリームの構成を示し、図５はデコーダーのブロック図である。

本発明による装置を説明する前に、音声信号に適用さ
れるオブジェクト向きコード化について考察をする。オ
ブジェクト向きコード化技術は、顔、椅子、背景などを
「オブジェクト」として認識しやすいこと故にビデオコ
ード化において既に研究されてきている。このように、
オブジェクト向きコード化の一般原理は既知であり、文
献において広く開示されているので、ここで開示する必
要はないであろう（例えば、「アプリケーションによる
オブジェクト向き設計（Object−oriented design with
applications）」、The Benjamin/Cummings Publishin
g Company Inc.、Redwood City、米国、1991年）。この
技術は、「オブジェクト」がそんなに明白でない音声コ
ード化の分野ではそれほど利用されていない。総称音声
信号は、一般には異なる持続時間である後続の時間イン
ターバル（フレーム）の連結として考えられる。これら
のフレームの一つを音声「シーン（scene）」と仮定で
きる。１つのフレームにおいて、幾つかの音声信号があ
り、それらは分離、連結又はスーパーインポーズさえ可
能である。典型的な例では、幾つかの異なる話し手、異
なる家、事務所又は交通の雑音、背景の快いミュージッ
ク、幾つかの信号音などが含まれ得る。異なる種類の信
号は異なるクラスとして考えることができ、音声信号の
ローカル特性をより良く利用すべくこれらのクラスはさ
らにサブクラスに分割でき、とりわけ以下の事項を達成
する。

− 最良の再生品質で最高の圧縮比。

− 各個別信号を分離及び変更する最高の柔軟性。

オブジェクト向きパラダイムの用語を用いれば、クラ
スのことを以後「抽象クラス（abstract classes）」と
も称し、サブクラスのことを「具体クラス（concrete c
lasses）」とも称する。具体クラスを特定するパラメー
タの組が「オブジェクト」を構成する。

特に、オブジェクト向きアプローチを取ることの理由
は、以下の幾つかの基本的特徴に基づいている。

− 音声エンコーダーサブシステムにおいて変化を促進
すべく音声コード化用の共通フレームワークを作り且つ
新しいモジュールを作る可能性。

− 各クラムに対する特定モデルの使用に基づいたコー
ド化技術の最適化の可能性。

− 音声オブジェクトを独立に操作する可能性。

最後の考察は、音声サービスと共に新しい機能性、特
に対話に関する機能性を考慮する場合には特に興味深
い。これらは例えば、所与のメッセージの早プレイバッ
クする可能性、又は一人の話者のレベルを上げて他の人
を背後に置く可能性などを含み得る。

可能な分類の概略は次の通りである。

− トークスパート（talkspurt）：このクラスは、人
々が話すときに作り出される信号を含む。すなわち、音
声コード化のための主要な抽象クラスを表すことができ
るが、それのみを表すのではない。

− サイレンス（silence）：このクラスは、それ自身
が沈黙した単一のオブジェクトのみを含むことができ
る。すなわち、幾つかの他の音声信号と共に音声信号を
本質的に再生でき、伝送のためにかなりの量のビットを
節約できる。

− ノイズ（noise）：このクラスは、バックグラウン
ドノイズと称され且つ人間によって発生されたものでは
ない全ての信号を含む。一般にこれらの信号は少量の情
報しか伝えず、それらを表すには非常に粗っぽいモデル
が使用できる。

− ミュージック（music）：これは１つの非常に広い
抽象クラスから成るか、又は所与の楽器ソースに特別に
当てられた幾つかのクラスから成り得る。

− トーン（tones）：このクラスは純粋な正弦波信号
を占める。このクラスに属する単一オブジェクトは、そ
れらの適当な組合せと共に、例えば伝送ネットワークで
遭遇する全ての信号音声を表すことができる。

具体クラスに関しては、まずトークスパートについて
一つの可能性は、単一具体クラスをサウンド又は音素の
可能な各タイプと（又は２以上のサウンドの可能な各シ
ーケンスとでさえ）関連付けられる。このアイデアか
ら、カスケード状の音声学的認識器及び音声合成器とし
て音声コーダー−デコーダーが実現できる。このよう
に、非常に多くの異なる具体クラスが必要となり、一般
にそれらは言語に依存する。さらに、トークスパートの
音声学的分類は非常に難しい。より簡単なアプローチと
しては、より小さい組の具体クラスを定めることであ
り、それらの各々が類似サウンドの組に対応するように
する。しかしながら、ここに記載の好適実施態様では、
幾つかの音響特性に従う音声の特定セグメントをモデル
化するようにした具体クラスが導入される。この場合に
は、トークスパートの分類は音声学的分類に直接関係し
ないが、具体クラスの組は非常に小さい。この目的のた
めに、有声及び無声音セグメントへのトークスパートの
周知の分類、及び共鳴音及び非共鳴音の作成への有声音
セグメントの分類を用いることができる。特に、次の具
体クラスが考えられる。

− 着手（onset）：共鳴有声音セグメントの最初の部
分 − 定常状態（steady−state）：共鳴有声音セグメン
トの中間部分 − 衰退（decay）：共鳴有声音セグメントの最終部分 − 周期的（periodic）：非共鳴音セグメント − 非周期的（aperiodic）：無声音セグメントこれらのクラスは短いボーズをも含み、これらポーズ
は例えば破裂者における音の活性セグメントの一部であ
ることが予想される。

ノイズの場合には、具体クラスは定常状態又は一時ノ
イズにより表すことができ、ミュージックの場合には、
具体クラスは異なる種類の楽器又は合成音により作られ
た音により表すことができ、またもし単一の抽象クラス
が考慮されているならば、音の異なるフェーズ（アタッ
ク、衰退・・・）により表される。

個々の具体クラス（すなわちオブジェクト）のパラメ
ータの組は転送される。本発明では、１つのソース（又
は音声−映像伝送の場合にはビデオのような他の情報と
の１リンク）に関係した基本オブジェクトがマクロオブ
ジェクトにグループ化でき、これらマクロオブジェクト
は独立に操作できる。

別のアプローチは、一つの特定ソース信号を抽象クラ
ス（例えばスピーチ信号及びミュージック信号）として
考えることである。このことは幾つかの共通具体クラス
（例えばサイレンス）を有することを意味し、その結
果、同じモデルが１より多いクラスにおいて採用され
る。このことはまた幾つかの場合においてトークスパー
トとミュージックを分離するサイレンス期間のように、
トークスパートとミュージックを区別するのに利用でき
る情報は無く、特定信号に対する任意のクラス特定を行
わなければならないことを意味する。しかしながら、以
降の必要なときには提案した第１の分類法が参照され
る。

図１に示されるように本発明による装置は以下のもの
により概略示される。

− 総称音声信号の複数のソースAS1...ASn（ここで
「総称」とは上述のように人間により知覚できる信号、
すなわち０から約20kHzまでのバンドの信号を意味す
る。）。

− 音声エンコーダーAC。これは特定の入力音声信号に
合ったオブジェクト向き埋込コード化を行い、伝送経路
１（伝送ライン、ラジオチャンネル・・・）に送られ且
つ好都合に組織化されたビットストリーム内に個々のオ
ブジェクトを導入する。

− クラス−サブクラス認識器CR。これはコード化され
るべき音声信号の抽象クラスと具体クラスを特定し、分
類の結果を接続２を介して音声エンコーダーACに供給
し、それによりエンコーダーは最適なソースモデル（す
なわち最適アルゴリズム）を適用できる。

− 伝送経路に沿って配置された１以上のビットストリ
ーム操作装置BMU。この装置は、エンコーダーACにより
作られたビットストリーム又は先行の操作装置BMUから
来るビットストリームを受け取り、ユーザーやシステム
の要求に対処すべくビットストリームレベルで個々のマ
クロオブジェクトを操作する。ここでは簡単のため一つ
の操作装置のみ示す。

− 可変レート制御装置VRCU。これはエンコーダーから
の出力にてビットレートを決め、エンコーダーACの出力
ビットストリームの編成及び／又は接続３により示され
ているように装置BMU内でのビットストリーム操作を制
御する。このことは、それぞれ接続４、５を介してユー
ザー装置US及び／又はシステム管理装置SYにより供給さ
れるユーザー又はシステム要求に関する情報を用いるこ
とにより行われる。

− 音声デコーダーAD。

用途に依存してソースAS1...ASnはユーザー装置USの
一部とさえできることに留意せよ。

エンコーダーACは、特定の具体クラスを表し且つコー
ド化信号を放出するのに用いられる最適パラメーターを
エンコードしなければならない。このコード化信号の放
出は、特定の音声シーン内容及び／又は考慮している特
定のサブクラスに依存した可変ビットレートにて行われ
るか、又は固定ビットレートで行われる。固定ビットレ
ートは予め決められ得るし、又はVRCUにより特定でき
る。上述のように、エンコーダーACは埋込コード化を行
う。既知のように、このことは出力ビットレート及び関
連の品質に対して幾つかの可能な出力層が与えれること
を意味する。低（基本）層、複数の中間層及びトータル
層が特定できる。基本層は最小の情報を含み、これは以
降において「コア情報（core information）」と称し、
出力信号をデコードするのに必要である。トータル層は
伝送され得る情報の全体を含み、コード化信号の最大ビ
ットレート、最高品質及び最大バンド幅を生じる。中間
層は基本層からトータル層への連続ステップによりコー
ド化信号のビットレート及び品質を向上させる。各ステ
ップで導入される情報を、「エンハンス情報」と称す
る。デコード化側にて又は伝送経路に沿って、１以上の
前記ステップに対応したビットストリームの部分が抽出
できる。ここに記載した例では、最大ビットレートは64
kbit/sと仮定され、音声信号の全バンド（20kHz）に対
応する。スピーチやミュージックに対する基本層は4kHz
バンド幅を有し、約6kbit/sのビットレート（ミュージ
ックに対する実際のビットレート、及びスピーチに対す
る平均レート）に対応できる。中間層は各々が1.5−2kb
it/sのステップに対応できる。

重要な特徴は、規格化された任意の音声コード化アル
ゴリズムを含めて異なるアルゴリズムに従ってエンコー
ダーACが動作できることである。現存する規格が用いら
れるならば、作られるビットストリームはコア層を形成
し、もしチャンネル容量がより高いビットレート又はよ
り広いバンド幅を可能にするならば、本発明はコード化
信号の更新を行う。デコード化側では、基本層のみを用
いることにより標準デコード化アルゴリズムとの協同操
作性がなお保証される。しかし、チャンネル容量全体が
使用されるならば、再生信号の対応する更新が得られ
る。

ACの構造は図２に関して後ほど詳細に説明される。

クラス／サブクラス認識器CRは最適認識器とすること
ができ、シーン上にどのオブジェクトがスーパーインポ
ーズされているかを特定し、クラスに依存した最良の方
法により（すなわち最適モデルを用いて）扱える異なる
信号を与える。このことによりシステムが非常に柔軟に
なる。というのは、この場合には、受信器が再生したい
オブジェクトを受信器が決めることができ、かつそれら
をどのように混成するかをさえ決めることができるから
である。しかしながら、好ましくはより簡単な解決策が
採用でき、これは今日の技術で実行でき、所与の音声シ
ーンにおいてCRは最も可能性の高いものとして一度に１
つのクラスを特定し、よって、音声シーンを満たす特定
信号に用いられるべき１つの特定モデルを割り当てる。
さらに、ソース（例えばスピーチ／ミュージック）の性
質に関する幾つかの情報が、接続６を介してユーザーに
より与えられ、各特定ソースに対するオブジェクト認識
手順を簡単化するのに用いることができる。

一般的には、認識器CRは信号処理装置であり、これ
は、信号レベルを分析することによりトークスパート
（又は一般に活性信号）、サイレンス及びノイズを区別
し（すなわちスピーチの場合の所謂音声活性検出器の機
能に対応した仕事を行う）；信号のスペストル分析を行
うことによりスピーチ、ミュージック（又は異なるミュ
ージック楽器）及びトーンを認識し；スピーチの場合に
着手、定常状態及び衰退を識別し且つ周期的セグメント
と非周期的セグメントを識別すべき有声／無声分類を行
うことによりトークスパートの具体クラスを認識する。
スペクトル情報及び予測利得の分析により、周期的又は
非周期的無声信号の認識が可能となり、着手、定常状態
及び衰退間の区別が、スペクトル情報に従って行われ得
るか又は最初のセグメントを着手とし最後のセグメント
を衰退として単にラベリングすることにより行われる。

ビットストリーム操作装置BMUは提案したアーキテク
チャーのうちの重要要素の一つであり、そのビットスト
リームレベルにて動作することにより非常に種々の機能
が実現できる。装置BMUが存在するお陰で達成できる主
要な結果の一つは、エンコーダーの構成を変えること無
く、サービスのランタイム品質を変更する可能性であ
る。このランタイム品質はビットレートに厳密に相関す
る。装置BMUの主要なタスクを以下に示す。

− 特定チャンネル容量に適合させるため、又はユーザ
ー要求に合わせるために、出力ビットストリームのテー
タレートを低減すること（スカラビリティ）。

− そのビットストリームで動作することにより、任意
のマクロ−オブジェクト、又は特定オブジェクトの固有
パラメーターを変更すること。このことにより、例えば
異なる音声オブジェクトのレベル、バンド幅又は品質を
変更でき、又はトーン特性又は韻律素特性までも変えら
れる（多重コンカレントオブジェクト操作）。

後ほどBMUの動作についてより詳細に説明する。

上記した可変レート制御装置VRCUは、エンコーダーAC
から出力ビットレートを制御する主要タスクを有する。
別法として又は追加として、ビットレート制御はBMUを
介しても実現できる。このために、情報VRCUはユーザー
装置USから受信し、システム管理装置SYは、ユーザーが
望むサービスの品質、及びシステムがその時に与えるこ
とができるサービスの品質を一般に表すことが出来る。
移動通信管理に用いられる傾向にある可変レート制御装
置の実施態様は、欧州特許出願EP−Ａ−0627827に記載
されている。その例では、ユーザー装置及びシステム管
理装置SYにより与えられる情報は、ソースビットレー
ト、ソースにより放出される信号に関する冗長性、及び
チャンネルのビットレートに関係する。当業者ならば、
上記特許出願に開示された原理を異なる種類の音声信号
伝送に適用するのに問題はない。

ここで図２を参照すると、明瞭に説明するためにクラ
ス認識器CRが再度示されている。ライン７−1...7−ｎ
を介してソースAS1...ASnから来るデジタル信号は、各
々がＮサンプル（例えば256）から成るフレームに編成
されており、マルチプレクサーMXUにより受信され、例
えば１ソース当たり１フレームが一度に下流に送られ
る。これらの信号は、CRで該信号を適当に分析できるべ
く入力サンプリング周波数f_s0（接続7A）に関する情報
と関連しており、CRに該情報が送られる。マルチプレク
サーMXUはアップサンプリング装置のようにも動作し、
入力サンプリング周波数f_s0を内部サンプリング周波数f
_s1に変換する。例えば、内部サンプリング周波数f_s1は
２のべき乗でf_s0よりすぐ上である（例えばf_s0が16から
32kHzでれば、f_s1は32kHz。f_s0が32から48kHzの間にあ
れば、信号は64kHzまでアップサンプリングされ
る。）。この適応の利点は、次に行うサブバンドへの分
割が入力サンプリング周波数に依存しないことである。
入力信号サンプリング周波数が８、16又は32kHzのとき
にはアップサンプリングは出来ない。

幾つかの特定用途では（例えば音声編集、多話者用
途、ビデオオブジェクトとリンクした音声オブジェクト
・・・）、ソース識別をコード化するビットグループ
が、ビットクトリーム構成装置BCUにより出力ストリー
ム内に導入される。BCUは後ほど説明する。もしマクロ
オブジェクトの集合がそこで実行されるなら、上記識別
に関する情報は接続８を介してMXUから、又はCRからBCU
に与えられる。しかしながら、以下の説明では各ソース
は独立にエンコードされるものと仮定する。

マルチプレクサーMXUから出て行く音声信号のフレー
ムｓ（ｎ）は第１フィルターバンクFB1に送られ、低バ
ンドｌ（ｎ）及び高バンドｈ（ｎ）に入力信号が分解さ
れ、それぞれ接続９、10に送られる。例えば、狭バンド
又は広バンドスピーチ圧縮法のどちらが望まれるかに依
存して、低バンドｌ（ｎ）は０から4kHz又は8kHzのどち
らかまでのレンジのスピーチバンドから成り得る。記載
されたエンコーダーの基本的な実施態様では、ユーザー
は信号内容についての幾つかの情報をクラス認識器に与
えて、クラス／サブクラス認識が低及び高バンドの信号
に対して別々に実行できることが仮定される。このこと
は明らかに認識器の構造を簡単にする。

低バンド信号ｌ（ｎ）は線形予測分析装置LPAに送ら
れ、該装置LPAにおいて短期及び長期予測係数が計算さ
れる。これら係数は接続11を介してビットストリーム構
成装置BCUに、及び実際のコード化アルゴリズムを実行
する装置LCC、LEC（後に説明）に送られる。LPAは分類
結果に依存して利用可能又は利用不可とされ得る。線形
予測技術は、バンド０−4kHz又は０−8kHzのスピーチ信
号に適用されるとき本質的に効率的になるが、線形依存
性は或ミュージック信号（本質的に低周波数）において
も存在し且つこれらの予測器を用いることにより除去で
きる。線形予測分析は、当該技術において知られている
いずれの方法によっても実行できる。

線形予測分析の結果として得られる残差信号ｒ（ｎ）
は別のフィルターバンクFB2に送られ、該フィルターバ
ンクFB2は、クラス／サブクラス情報に従って音声信号
をさらに分解しサブバンドの第１グループr₁（ｎ）...r
_M（ｎ）を発生する。利用可能なビットレートに依存し
て、全てのサブバンド又はその部分集合のみが量子化プ
ロセスで考慮される。この量子化プロセスは後ほど説明
する。

類似のフィルターバンクFB3は、これもクラス／サブ
クラス情報に従って高バンド信号ｈ（ｎ）を分解し、サ
ブバンドh₁（ｎ）...h_K（ｎ）の第２グループを発生す
る。

分解のタイプ（間隔の等しいサブバンドへの分解又は
臨界周波数バンドに適応した分解）が構成できる。さら
に、フィルターは、所定の（一定又は一定でない）バン
ド幅のサブバンドをサンプリング周波数に依存すること
なく発生するように構成可能である。基本的な実施態様
では、20kHzバンドは、各々1kHzバンド幅の20個のサブ
バンドに再分割される。最初の４つのサブバンドが低バ
ンドを形成する。

有利には、フィルターバンクFB2、FB3から出て行くフ
レームは、ブロックSF1...SF2により図示された夫々の
装置（バッファー）においてサブフレームにさらに再分
割される。サブフレームの長さ、したがってコード化遅
延は、ユーザー及びアプリケーションの要求に依存して
選択可能である。Ｎサンプルから成る１フレームをN/L
サンプルから成るＬサブフレームに再分割することは、
時間領域において信号をさらに分解することに対応し、
スピーチコード化技術では通常の操作であり、詳しく説
明する必要はないであろう。最初にサブバンドに再分割
し次にサブフレームに再分割することで、音声信号は、
時間軸上でN/Lサンプルに対応し且つ周波数軸上でF_kバ
ンド幅（フィルターバンク構成に依存）に対応した「時
間−周波数スロット」に分割される。

サブバンドr₁（ｎ）...r_M（ｎ）のサブフレームは、
コード化装置LCCの第１組に送られ、該装置LCCは、各サ
ブバンドに対して１つが割り当てられ、低バンド信号の
コアー情報を発生する。コアー情報は、接続12を介して
ビットストリーム構成装置BCUに送られる。LCC内の各装
置は複数のコード化アルゴリズムにより動作でき、適当
なアルゴリズムは、例えばユーザー及び／又はシステム
要求、及び／又は分類の結果に依存して選択できる。既
に存在する国際規格により定められた如何なるコード化
アルゴリズムでも使用可能である。もし４（又は８）kH
zバンド幅で動作し且つ線形予測分析にも対処する標準
コード化アルゴリズムが用いられるならば、装置LPAの
フィルターバンクFB2は作動されない。低バンド信号は
一般にスピーチ信号であり最も標準化されたスピーチコ
ーダーはバンド幅4kHz（時々8kHz）の信号に動作するこ
とを考慮すると、フィルターバンクFB2でさえ配置で
き、好ましくはLCCの下流に配置される。このことは、
標準コード化アルゴリズムを用いた総称コーダーの相互
操作性をより容易にする。この場合にはもちろんLCCは
単一の装置から成る。

有利には、スピーチコード化に採用されるアルゴリズ
ムは、分析による合成技術となる。

低バンド信号のコアーコード化のための専用コーダー
は、２つのイノベーションコードブックを用いた多重レ
ートCELPコーダーとすることができる。このコーダーで
は、現在のスピーチセグメントを表すのにより適したパ
ラメータの組が、分類の結果により決まり、可能なコー
ド化レートの部分集合が選択される。そして、合成によ
る分析ループでは、所望の品質を達成するのに要求され
る最小レートが、ローカルで合成された信号に幾つかの
オブジェクト手段を用いることにより決められる。最小
ビットレート（〜0.25kbit/s）は例えばバックグランド
ノイズ（抽象クラス「ノイズ」）のみの伝送に対応し、
最大ビットレート（約11kbit/s）は短期及び長期パラメ
ータの伝送及び両方のイノベーションコードブック（抽
象クラス「トークスパート」；具体クラス；「周期
的」）からの寄与の伝送に対応する。中間ビットレート
は、ノイズ及び短期パラメータ、短期及び長期パラメー
タ、短期パラメータ及び１イノベーション寄与等を伝送
することにより得られる。多重レートCELPコーダーにお
いて出力ビットレートが信号分類に依存して選択される
ことは当該技術においては知られている。

低バンドミュージック信号の場合に適用できるコード
化アルゴリズムは、ベクター量子化に基づき得る。形状
／利得ベクトル量子化器は、各時間−周波数スロットに
適用されるか、又はそれらの組合せに適用される。量子
化は各サブフレームにおいて２ステップで行われ、第１
ステップでは形状が量子化され、第２ステップでは利得
が量子化される。量子化は周波数領域又は時間領域のど
ちらかにおいて行われ得る。特定の時間−周波数スロッ
トを量子化せず、量子化された周囲のスロット（時間、
周波数、又は時間−周波数において）を考慮して補間す
ることができる。ベクトル量子化は全く従来技術である
から特に説明は必要ないであろう。ベクトル量子化が
（コーダーの所望の特徴である）複雑性スカラービリテ
ィを容易にサポートし、伝送されるべきどんなパラメー
タも夫々のコードブックの部分集合のみにおいて検索さ
れ得ることに留意されたい。よって、コーダー−デコー
ダーの複雑性と音声の品質は容易に取り決められる。さ
らに、ベクトル量子化はクラス／サブクラスのアプロー
チを容易にサポートし、特定のコードブック表が各音声
クラス／サブクラスに割り当てられ得る。

高バンドに属する信号のサブフレームはコード化装置
HCCの第２組に送られ、該コード化装置は高バンドのコ
アー情報を発生してその情報を接続13を介してBCUに送
る。コード化装置の組HCCも、夫々のサブバンドに対し
て好ましくはベクトル量子化に基づいた複数のコード化
アルゴリズムに従って動作できる。

明らかに、採用されたコアーアルゴリズムは、設定さ
れたコールにてデコーダーと通信しなければならない。

このコード化は、例えば所謂「同時マスク効果」に基
づいたモデルのような適当な知覚モデルをも用いること
ができる。該効果は、弱い信号（特に量子化ノイズ）が
近接周波数のより強い信号（特に音声信号中のトーン）
により聞こえなくなる現象のことである。知覚モデルを
使用すると、適当なマスク閾値を決めなければならず、
これは処理装置PMPにおいて個々のサブバンドから開始
するか又は高低バンドの音声信号のスペクトル分析によ
り行われる。前者の場合にはPMPはフィルターバンクFB
2、FB3の出力に接続され、後者の場合には図示されてい
るようにFB1の出力に接続される。知覚モデルに関する
情報（一般にはグローバルマスク閾値についての情報）
はPMPによりコード化装置の組LCC、HCC及び接続14を介
してビットストリーム構成装置BCUに送られる。信号を
サブバンドに分離するとき知覚モデルを考慮するなら
ば、上記情報はFB2及びFB3にも供給され得る。

コード化信号内に挿入されるべきコアー情報は、利用
可能ビットレートに依存して幾つかのサブバンドのみか
ら、信号及び／又は知覚モデルの性質への寄与を含み得
ることを指摘しておく。サブバンドがコアー情報に対し
て寄与しなければならないかの決定は、BCUにより行わ
れる。よって、BCUとLCC、HCC間の相互作用が行われ
る、簡単のため、図面にはコード化信号をBCUに伝える
接続12、13のみを示す。

コード化装置LCC及びHCCの後には、夫々第３及び第４
の組のコード化装置LEC、HECが続き、これらは同様に各
サブバンドに対する１装置から成り、コード化信号内に
挿入されるべきエンハンス情報を発生する。有利には、
第３及び第４組内のコード化装置はベクトル量子化技術
に従って動作し、例えばそれらはLCC、HCC内の夫々のコ
アーコード化装置の出力にて量子化エラーをコード化す
る。エンハンス情報はLEC、HECから夫々接続15、16を介
してBCUに送られる。LEC、HEC内の各装置は、予想され
るビットレートの増加に対するステップと同数のステー
ジから成る。本発明の好適実施態様では、７つのエンハ
ンスステージまでが１サブバンドに適用できる。またエ
ンハンスコード化については複数の異なるアルゴリズム
が可能であり、最後に適用されるアルゴリズムの組は構
成フェーズにおいてシグナリングされる。そのようなモ
デルが用いられるならば、所与のサブバンドに適用され
るアルゴリズムのタイプは、知覚モデルと共に具体クラ
スにも依存する。サブバンド内で使用されるコアーアル
ゴリズムのタイプもまた考慮され得る。利用できるビッ
トレート、信号の性質及び／又は知覚モデルに依存し
て、BCUは、どのサブバンドがエンハンスされるべきか
及びどのエンハンスステージが幾つ特定のサブバンドに
割り当てられるべきかを決める。よって、BCUとLEC、HE
C間の相互作用もまた与えられるが、簡単のため、図面
にはコード化信号をBCUに伝える接続15、16のみ示す。

ビットストリーム操作装置が興味あるビットストリー
ムの部分を抽出して操作できるように、線形予測分析パ
ラメータ、コード化信号、クラス／サブクラス情報は所
望ならばソース識別と共に、装置BCUによりマクロオブ
ジェクト数、サブバンド数、サブバンドに対するエンハ
ンスステージ数に関する適当なサービス情報（オーバー
ヘッド）に関連付けられ、埋込ビットストリーム内に組
み込まれる。コアー及びエンハンス情報はビットパケッ
ト内に編成され、各パケットはサブバンド及びそのサブ
バンドに対するコード化ステージ（コアー又はエンハン
ス）に関連付けられる。装置BCUは本質的にマルチプレ
クサーと制御ロジックから成り、制御ロジックは、どの
サブバンドがコアーコード化に対して考えられるか及び
もしあれば幾つのエンハンスステージがそれらサブバン
ドの各々に適用されるべきかを決めるのに必要な操作を
行う。

実際、前述の数値例を考慮すると、コード化ステージ
の全てを全サブバンドに適用することは出来ないことは
明らかである。このことは、現在予想される64kbit/sよ
りもずっと大きなビットレートでの伝送ライン、高度に
洗練された分類案の適用、及びコード化装置により作ら
れたビットレートを大きく低下できる知覚モデルを必要
とする。よって、少なくともコアーコード化が実行され
るサブバンド、及びこれら「活性」サブバンドに適用さ
れるべきエンハンスステージ数のBCUによる選択につい
て適当な戦略が考えられるべきである。適当な戦略は以
下の通りとできる。

第１ステップは、所望の出力ビットレートから始めて
出力信号に対するバンド幅を決めることである。例え
ば、所定の閾値ビットレートに割り当てられ得るバンド
幅はアプリオリに設定され、２つの連続閾値間の間のビ
ットレート値に対しては出力バンド幅は線形補間により
決められて最も近い整数値に丸められる。適する関連バ
ンド幅／閾値ビットレートは、16kbit/sまでのビットレ
ートに対しては4kHz、24kbit/sのビットレートに対して
は8kHz、64kbit/sのビットレートに対しては20kHzとで
きる。一旦バンド幅（よってサブバンド数）が決められ
ると、バンド内の信号のエネルギーレベルが所与の閾値
を越えると仮定するなら、コアーコード化ステージが適
用される。この閾値は固定か又は知覚モデルに依存する
こともできる。もしビットレートがコアーステージを全
サブステージに適用することを不可とするならば、閾値
は増加されて上記ステップが繰り返される。一般に、所
望の全サブバンドにコアーステージを適用することは常
に可能である。コアーステージを割り当てた後、ビット
レートがエンハンスステージの挿入を許容しているか否
かを調べる。その調査の初期ステップとして、エンハン
スステージの最大数が各サブバンドに対して割り当て得
る。割り当てられたビットレートが利用可能なビットレ
ートを越えるならば、幾つかのエンハンスステージが使
用不可とされる。このために、各サブバンドにおいて、
前のステージに対して各ステージにより与えられる信号
−ノイズ比の増加が決められ、最小の増加を与えるステ
ージが、それらが属するバンドに依存せず、使用不可と
される。

信号−ノイズ比の増加に代えて、特定ステージをイネ
ーブルするか否かの決定は上述のように同時マスクモデ
ルを利用できる。すなわち、この場合、マスク閾値より
低いノイズを有するエンハンスステージがまず使用不可
とされ、それからマスク閾値を越えたマスク閾値がより
小さいステージが使用不可とされる。

エンハンスコード化ステージを選択する両方の戦略
は、各ステージにより与えられる品質向上の評価に実質
的に基づいている。

もし微分信号−ノイズ比が用いられサブバンドへの分
離が常にコアーコード化前に行なわれると仮定するなら
ば、サブバンドのコード化装置とビットストリーム操作
装置の間の接続は図３に示されるようにできる。ここ
で、ECa...ECpはエンハンスコード化装置内でのコアー
コード化装置及び異なるステージをそれぞれ示し、これ
らはLCC、HCC及びLEC、HEC（図２）の組内の考慮中のサ
ブバンドに割り当てられる。BCL、BCMはそれぞれ制御ロ
ジック及びBCUのマルチプレクサーを示す。BCLはコアー
コード化装置CCの入力信号ｘ（ｎ）を受信し、その信号
のエネルギーを計算し、もしサブバンドがコアー情報に
寄与しなければならないならばCC（接続17）をイネーブ
ルする。エンハンスコード化ステージの選択のため、第
１エンハンスステージの入力にて減算器SUaはコアーコ
ード化装置CCの入力信号ｘ（ｎ）と該装置自身内で利用
可能な再構成信号を受信し、量子化エラーε_ａ（ｎ）
＝Σ（x_i−_ｉ）を計算する。ここでx_iはサブフレーム
内での総称サンプルである。信号ｘ（ｎ）及び量子化エ
ラーε_ａはBCLに与えられ、BCLは通常の関係式Σ（x_i）
²/Σx_i−_ｉ）^２に従ってコアーコード化ステージの出
力にて信号−ノイズ比を計算する。量子化エラーε_ａも
またコード化装置ECaに送られ、該コード化装置は、適
当なエンハンスコード化アルゴリズムをε_ａに適用し、
再構成された量子化エラーと共に接続15a（又は16a）上に第１ステージエンハンス
情報ブロックを発生する。再構成された量子化エラー
は、BCLに送られて（但し図３中の該当する配線は図示
せず）、第１エンハンスステージの出力にて信号−ノイ
ズ比が計算され、そのステージにより与えられる増分Δ
SNRが計算され、また、第２ステージの減算器SUbに送ら
れて新しい量子化エラーε_ｂが発生される。同じ編成が
残りのステージにおいても繰り返される。最後のステー
ジのコード化装置ECpの出力では、量子化エラーの前回
値ε_p+1が計算されてBCLに与えられる。考慮しているバ
ンド及び他のバンド（二重線矢19により全体として図示
された接続を介して与えられる）の各ステージの後の信
号−ノイズ比の増分ΔSNR故に、該バンドがエンハンス
情報に寄与しなければならないならば、BCLは１以上の
線18a...18p上に信号を送り出し、該信号は、対応する
コード化装置ECa...ECpをイネーブルしてそのエンハン
ス情報ブロックを出力15a...15p（16a...16p）上に転送
させる。接続17、18a...18pに存在する信号と類似のイ
ネーブル信号は、他のサブバンドのコード化装置に送ら
れる。矢印19は、他のバンドの装置に導く接続をも示
す。さらなる接続20は、ビットストリームのオーバーヘ
ッド内に挿入すべきサービス情報をBCLからBCMに送る。
BLMから経路１への情報の転送は、後に説明するよう
に、異なる方法で行われ得る。

BCUの出力でのビットストリーム編成は、複数のソー
スの場合、よって複数のマクロオブジェクトの場合につ
いて図４に示される。ストリームはオーバーヘッドビッ
トOVH0のグループを含み、これに続くのは第１、第2...
フレームのマクロオブジェクトに関するビットストリー
ムOB11...OB1x,OB21...である。上述のように、マクロ
オブジェクトは、特定のソースに関する又はフレーム中
の他の情報とのリンクに関する全コード化ビットを含
む。オーバーヘッドビットOVH0は、いくつかのマクロオ
ブジェクトがビットストリーム内に含まれるのかを識別
し、入出力サンプリング周波数の情報をも含む。入力サ
ンプリング周波数は、オブジェクトをエンコードすると
き用いられるサンプリング周波数である。出力サンプリ
ング周波数は、受信器端にて使用されるべきサンプリン
グ周波数である。ビットOVH0は接続セットアップでのみ
送られねばならないことに留意せよ。各マクロオブジェ
クトでは、OB11に対して示されているように、オーバー
ヘッドビットOVH1の第１グループはオブジェクト分類
（抽象及び具体クラス）の情報を含む。オーバーヘッド
ビットOVH2の第２グループは、実際に利用されているサ
ブバンド（すなわち少なくともコアー情報が伝送される
サブバンド）の数を示す。ビットOVH2に続くのは、コア
ービットストリームCBである。よって、OVH1、OVH2及び
CBは共に基本層を形成する。

コアービットの後、オーバーヘッドビットOVH3の第３
グループは、各サブバンドに適用されるエンハンスコー
ド化ステージの数を示す。オーバーヘッドビットOVH3に
続くのは、エンハンスビットEB1...ERyである。

コアー及びエンハンスビットストリームCB、EB内で
は、ビットパケットは異なる方法で配列され得る。特
に、サブバンドによる配列又はランクによる配列が可能
である。コアー情報に対してはランクはエネルギーレベ
ルとリンクされ、エンハンス情報に対してはランクは、
コード化アルゴリズムの適用を決めるためのステージに
おいて評価される（例えば知覚モデルからの）パラメー
タとリンクされる。もちろん二番目の解決策は、サブバ
ンド識別についての情報をパケット内に導入する必要ゆ
えにオーバーヘッドにおける増加をもたらす。

ビットストリーム操作装置BMU（図１）については、
個々のマクロオブジェクト又はオブジェクト内の幾つか
のパラメータ（レベル、ヒッチ...）の値を変えること
により、又はビットレートをスケーリングすることによ
り、経路１に沿って伝送されるビットストリームを操作
できる。

スケーリングに関する限り、BMUの動作は、ビットス
トリーム構成装置BCUにより採用されるビットパケット
配列により影響される。

サブバンド配列が採用されるならば、ビットストリー
ム操作装置は、エンコーダーACで用いられるアルゴリズ
ムと同様のアルゴリズムを用いてコード化サブバンド数
を決め、考慮されるべきコアー情報の無いバンドに関係
した全パケットを放棄する。このようにして得られたビ
ットレートがなお要求されたビットレートを越えるなら
ば、さらなるステージが除去される。すなわち、放棄さ
れるべきステージが割り当てられた唯一のステージでな
いと仮定すると、最上位バンドから開始して各バンドに
対して１パケットを放棄するという選択が可能である。
ひとたび全バンドが調べられた後は、コード化ステージ
がなお割り当てられている最高バンドから再度開始して
新しいサイクルが実行される。要求されるビットレート
が得られるまで、又は全てのバンドに対してコアーステ
ージのみが割り当てられるまで、該手順が続けられる。
もしコアーステージのみの割り当てによってもビットレ
ートが所望のビットレートを越えるならば、コアーステ
ージも最上位バンドから開始して除去される。

逆にランク配列が採用されるならば、除去は即刻であ
る。上述のように、ランク配列はより大きなオーバーヘ
ッドをもたらす。すなわち、コード化フェーズの間所与
のビットレートに対して割り当て出来るステージ数が低
減される。なお、ビットストリームを構築するためエン
コーダーにて採用されるのと同じルールが、ビットスト
リーム操作装置においてステージを放棄するのに採用で
きる。従って、その操作は品質の違いを生じさせない。

上記操作は単一マクロオブジェクトに関する。なおビ
ットストリーム操作装置BMU（図１）は、個々のオブジ
ェクトのビットストリームに作用することにより全ての
コード化パラメータを変更できる。例えば、多重コンカ
レント音声マクロオブジェクトが伝送されているとき、
一般に関連データストリームは、伝えられる実際の情報
に依存して異なるビットレートを有し得る。一つの単純
な操作特徴は、各マクロオブジェクトのレベルを変更す
る可能性、又は１話者の音声のオブジェクト要素（ヒッ
チ、スペクトルなど）を変更する可能性、１楽器のミュ
ージックモデルを変更する可能性などである。別の可能
性は、所与のビットレート（例えば最大ビットレート）
での幾つかの基本ストリームから該所与のビットレート
での単一ストリームを作ることである。この操作は、ビ
ットストリーム操作装置において、各行がバンドに関連
し各列がマクロオブジェクトに関連した２つの表を作る
ことを必要とする。第１表は各バンド及び各マクロオブ
ジェクトに割り当てられたステージ数（又はビットスト
リームにより抽出された他の情報）を含み、第２の表は
それぞれのエネルギーレベルを含む。ビットレート低減
手順は、サブバンド配列の場合に上記考えられたものと
類似しているが、違いは、周波数を減少させるためでは
なくエネルギーを増加させるためにサブバンドが調べら
れることである。このようにして、支配的マクロオブジ
ェクトはより大きなレートを得て、全体の品質は、全マ
クロオブジェクトを同じビットレートに割り当てること
により達成可能な品質よりも良くなる。

オブジェクト操作は個々のフレームに係わることがで
きることにも留意せよ。このことは例えばもし何らかの
音声オブジェクトが一映像オブジェクトにリンクされる
ならば、複雑なオブジェクトの音声−映像ズームを有す
る可能性が存在することを意味する。

図５を参照すると、デコーダーが示されている。デコ
ーダーの全てのブロックは、接続のセットアップにおい
てコーダーの対応ブロックの構成についての情報を受信
し、相補的操作を正確に行う。構成情報は接続21を介し
て受信又はビットストリーム分解装置BDUにて受信す
る。該装置BDUはBCUに対して相補的なタスクを有する。
簡単のため、このような情報をデコーダーブロックに分
配する手段は図示されていない。受信装置BDUは、多く
の場合BMUにより操作されるストリームを、１で示され
た伝送経路から受信し、クラスを分離し、実際のコード
化信号から情報を識別し、これらの情報を接続22、23に
それぞれ与える。コード化信号ストリームは低バンド及
び高バンドストリームに分解され、接続24、25を介して
夫々のエンハンスデコーダーLED、HEDに送られる。コー
ダーLEC、HECに類似のデコーダーLED、HEDは、各々が１
サブバンドに関連した一組の装置から成り、LEC、HEC内
のステージと同数のステージを含む。異なるサブバンド
に対する個々のステージは、コーダー内の対応ステージ
がイネーブルされたか否かに依存せずに作動される。こ
のイネーブルは、オーバーヘッドOVH1−OVH3（図４）に
含まれる情報に基づいてBDUにより制御される。各装置
は、コード化側に適用されるコード化アルゴリズムと相
補的なデコード化アルゴリズムを実行する。個々のオブ
ジェクトをデコード化するために、デコーダーLED、HED
はまたクラス−サブクラス情報を必要とする。

エンハンスデコーダーは再構成量子化エラーE
_Li（ｎ）（ｉ＝1...M）,E_hj（ｊ＝1...K）を夫々のコア
ーデコーダーLCD、HCDに送り、デコーダーは、低バンド
のサブバンドに対する再構成残差信号_ｉ（ｎ）、及び
高バンドのサブバンドに対して再構成信号_ｊ（ｎ）を
与える。エンパンスについては、クラス情報が用いられ
る。サブバンドの再構成信号は、FB2、FB3（図２）とは
相補的な合成フィルターバンクFB4、FB5に送られ、残差
信号（ｎ）及び高バンド信号（ｎ）を再構成する。
線形予測合成装置LPSにおける残差信号の線形予測合成
の後、元の信号のバンド全体が合成フィルターバンクFB
6（FB1と相補的）により再構成される。該合成フィルタ
ーバンクFB6は、接続26、27を介してこれら２つのバン
ドの再構成信号（ｎ）、（ｎ）を受信する。必要な
らば、FB6から出てくる信号は、ダウンサンプリング装
置DSにおいてダウンサンプリングされ、ブロックUS′で
略示されたユーザーに出力装置OUを介して送られ、該装
置OUは、ソース識別を再構成ストリームと関連づけ、も
し必要ならば異なるデコード化マクロオブジェクトを異
なるユーザーに送る。ダウンサンプリングのため、所望
の出力サンプリング周波数f_OSについての情報がユーザ
ーにより与えられる。

もし例えばビットストリームがエラーの起こりやすい
環境で伝送されるならば、音声オブジェクトに基づくア
プローチは、音声デコーダーにおいてエラー隠蔽技術を
効率的にサポートすること、すなわち、特定のエラー隠
蔽アルゴリズムが各々の抽象／具体クラスの組合せに対
して適用できることにも留意された。

上記説明は限定的でない例により単に与えられてお
り、改変及び変更は本発明の範囲を逸脱することなく可
能であることは明白である。

───────────────────────────────────────────────────── フロントページの続き (73)特許権者 999999999 ローベルト・ボツシユ・ゲゼルシヤフト・ミツト・ベシユレンクテル・ハフツングドイツ連邦共和国デー−70469 シユトツトガルト、ヴエルナーシユトラーセ１ (72)発明者セラーリオ，ルカイタリー国アイ−10137 トリノ、ヴイア・インデユーノ２ (72)発明者フエスタ，ミケーレイタリー国アイ−10137 トリノ、ヴイア・フイラデルフイア 128／１ (72)発明者ミユラー，イオルク，マーチンドイツ連邦共和国デー−71409 シユヴアイクハイム、レルヒエンシユトラーセ 18／１ (72)発明者セレーノ，ダニエーレイタリー国アイ−10151 トリノ、ヴイア・イセルニア７／エー (56)参考文献特開昭57−183143（ＪＰ，Ａ) ＭｉｃｈｅａｅｌＨ．；“ＯＢＪＥＣＴ−ＯＲＩＥＮＴＥＤＡＮＡＬＹＳＩＳＳＹＮＴＨＥＳＩＳＣＯＤＩＮＧＢＡＳＥＤＯＮＭＯＶＩＮＧＴＷＯ−ＤＩＭＥＮＳＩＯＮＡＬＯＢＪＥＣＴＳ”ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ：ＩＭＡＧＥＣＯＭＭＵＮＩＣＡＴＩＯＮ，Ｖｏｌ．３，Ｎｏ. １（91．１．16受入）ｐ．409−428 ＫａｚｕｈｉｒｏＫ．，ＭａｓａｓｈｉＯ．；“ＶＡＲＩＡＢＬＥＲＡＴＥＥＭＢＥＤＤＥＤＡＤＰＣＭＣＯＤＩＮＧＦＯＲＰＡＣＫＥＴＳＰＥＥＣＨＯＮＡＴＭＮＥＴＷＯＲＫＳ” 1990 ＩＥＥＥＧＬＯＢＥＣＯＭ，ＶＯＬ．１（91．６．４受入）ｐ．523−527 「マルチメディア符号化の国際標準」，丸善株式会社発行第４刷, （平成５．４．15）ｐ．180−185 (58)調査した分野(Int.Cl.⁷，ＤＢ名) H04B 1/16 H03M 7/30 G10L 9/14 - 9/18

Claims

(57)【特許請求の範囲】

【請求項１】デジタル化音声信号を処理する方法であっ
て、少なくともコード化フェーズとデコード化フェーズを含
み、（ア）前記コード化フェーズでは、所定数のサンプルか
ら成る一連のフレームに編成された処理されるべき信号
を、独立にコード化し得る複数の周波数バンドに分離
し、少なくとも前記周波数バンドから選択したバンド中
の信号に関する情報を含めてコード化信号を発生させ、
その際、該コード化は、コード化信号が基本層、トータ
ル層及び複数の中間層から成るように埋込コード化技術
により行ない、前記基本層は、デコード化に必要な最少
量の情報（「コアー情報」）を含み且つ最小ビットレー
トに対応し、前記トータル層は、コード化情報の全体を
含み且つ最大ビットレートに対応し、前記中間層は、コ
アー情報だけでは表すことができない夫々の信号部分を
コード化する夫々の情報ブロック（「エンハンス情
報」）によりコード化信号に寄与し、且つ、基本層から
トータル層へ連続ステップによりコード化信号のビット
レートを増加させ、前記基本層は、第１コード化ステッ
プで発生させ、エンハンス情報の各ブロックは、夫々の
第２コード化ステップで発生させ、そして（イ）前記デコード化フェーズでは、コード化信号に含
まれる異なる周波数バンド内に関する情報を独立にデコ
ード化し、その際、両方のエンハンス情報ブロックとコ
アー情報がデコード化されるべき周波数バンドに対し
て、コード化信号に１組の第１デコード化ステップ及び
第２デコード化ステップを施し、該第１デコード化ステ
ップの数はそのバンドに対して実行された第２コード化
ステップの数と同じであり、各第１デコード化ステップ
おいて１つのエンハンス情報ブロックをデコード化し、
前記第２デコード化ステップではコアー情報をデコード
化し、一方、コアー情報のみがデコード化されるべき周
波数バンドに対しては、コード化信号に第２デコード化
ステップのみを施し；また、該デコード化フェーズで
は、異なるバンドに関するデコード化信号を再結合して
元の信号のバンド幅特性に対応したバンド幅特性を有す
る再構成信号を作る、上記デジタル化音声信号を処理する方法において、（ｉ）前記コード化フェーズでは、２ステージ分類を行
って、所与のフレーム中のコード化されるべき各音声信
号を、複数の抽象クラスのうちの一つ及び前記一つの抽
象クラスにおける複数の具体クラスのうちの一つに割り
当て、ここで、前記具体クラスは、信号部分の特性と関
係し且つフレーム中に存在する基本的な音声オブジェク
トを識別し、前記抽象クラスは、音声信号の性質に関係
し且つ基本的な音声オブジェクトの結合から得られるマ
クロオブジェクトを識別すること、（ii）複数の第１コード化アルゴリズムから選択した第
１コード化アルゴリズムにより所与の音声オブジェクト
に対して前記第１コード化ステップを実行し、複数の第
２コード化アルゴリズムから選択した夫々の第２コード
化アルゴリズムにより前記所与の音声オブジェクトに対
して第２コード化ステップを実行し、その際、前記複数
の第１及び第２コード化アルゴリズムそれぞれからの前
記選択は、少なくとも前記２ステージ分類の結果に依存
し；また、コード化フェーズでは、各オブジェクトに対
して、オブジェクトビットストリーム及びマクロオブジ
ェクトビットストリームを発生し、その際、前記オブジ
ェクトビットストリームは、そのフレーム中の音声信号
と同じ具体クラスに関する全情報を含み、前記マクロオ
ブジェクトビットストリームは、同じ抽象クラス又は異
なる抽象クラスにおける異なるオブジェクトのビットス
トリームを結合し、そのビットレート及びバンド幅特性
は、前記第１及び第２アルゴリズムに対して為された選
択、及びユーザー装置（US）からコード化デバイス（A
C）に送られる構成情報、及び／又は伝送システム（S
Y）からコード化デバイスに送られる制御情報に依存す
ること、（iii）上記方法は、前記コード化フェーズとデコード
化フェーズの間にて、前記コード化フェーズで発生させ
たビットストリームを操作するフェーズをさらに含み、
コード化ビットストリームに含まれる抽象及び具体クラ
スに関する情報並びに前記構成及び制御情報に基づい
て、コード化ビットストリームをスケーリングするこ
と、及び（iv）前記デコード化フェーズでは、コード化フェーズ
で選択した第２アルゴリズムに相補的な夫々のアルゴリ
ズムにより各第１デコード化ステップを実行し、そのス
テップでデコード化されるべきエンハンス情報ブロック
を発生し、また、第１コード化ステップで選択した第１
アルゴリズムに相補的なアルゴリズムにより第２デコー
ド化ステップを実行し；その際、前記第１及び第２デコ
ード化アルゴリズムの各々は、抽象及び具体クラスを備
えた情報及び／又はセットアップフェーズで与えられた
構成情報に基づいて、前記第２及び第１コード化アルゴ
リズム夫々の一つと各々相補的な複数の第１及び第２デ
コード化アルゴリズムから選択すること、を特徴とする上記デジタル化音声信号を処理する方法。
【請求項２】第１及び第２アルゴリズムは異なるバンド
に対して独立に選択されることを特徴とする請求の範囲
第１項記載の方法。
【請求項３】第２コード化アルゴリズムは、第１コード
化アルゴリズムの適用の結果として得られる量子化エラ
ーをコード化することを特徴とする請求の範囲第１項又
は第２項記載の方法。
【請求項４】第１アルゴリズムは、少なくともより低い
周波数バンドの組の信号に対する線形予測分析コード化
アルゴリズム、並びにより高い周波数バンドの信号及び
線形予測が用いられない信号に対する形状／利得ベクト
ル量子コード化アルゴリズムを含むことを特徴とする請
求の範囲第１項乃至第３項のいずれか１項に記載の方
法。
【請求項５】第２アルゴリズムは形状／利得ベクトル量
子コード化アルゴリズムを含むことを特徴とする請求の
範囲第１項乃至第４項のいずれか１項に記載の方法。
【請求項６】第１及び第２アルゴリズムの選択は、ユー
ザー装置（US）からコード化デバイス（AC）へ送られる
構成情報及び／又は伝送システム（SY）からコード化デ
バイスに送られる制御情報に依存して実行されることを
特徴とする請求の範囲第１項乃至第５項のいずれか１項
に記載の方法。
【請求項７】コード化の前に各フレームは複数のサブフ
レームに分割され、前記サブフレームの長さは、コード
化の複数の遅延値が得られるように、複数の値の長さか
ら選択できることを特徴とする請求の範囲第１項乃至第
６項のいずれか１項に記載の方法。
【請求項８】前記周波数バンドは、コード化されるべき
信号のサンプリング周波数とは独立に所定のバンド幅を
有することを特徴とする請求の範囲第１項乃至第７項の
いずれか１項に記載の方法。
【請求項９】コード化されるべき信号は８から64kHzま
での任意の入力サンプリング周波数でサンプリングさ
れ、コード化前に、それは入力サンプリング周波数より
すぐ上の２のべき乗である内部サンプリング周波数まで
アップサンプリングされ、また、アップサンプリングは
８、16及び32kHzの入力サンプリング周波数に対しては
機能しないことを特徴とする請求の範囲第１項乃至第８
項のいずれか１項に記載の方法。
【請求項１０】スピーチ信号処理のために、コード化フ
ェーズは、（Ａ）周波数バンドの組全体に対して、標準とされるス
ピーチコード化アルゴリズムを第１コード化アルゴリズ
ムとして選択するステップ、（Ｂ）標準とされるアルゴリズムをスピーチ信号に実行
することにより発生されるコアー情報を有する基本層を
構築するステップ、及び（Ｃ）標準とされるコード化信号に対して更新されたコ
ード化信号を得るように、前記中間層の一つ又はトータ
ル層に対応するコード化信号を構築するステップ、を含み、また、デコード化フェーズは、ａ）基本層のみをデコード化するステップ、又はｂ）デコード化アルゴリズムの可用性及び／又はデコー
ド化信号に対して得られるべき品質に依存して、コード
化信号全体をデコード化するステップ、を含むことを特徴とする請求の範囲第１項乃至第９項の
いずれか１項に記載の方法。
【請求項１１】少なくとも第１コード化ステップを実行
すべき周波数バンドの選択、第２コード化ステップをも
実行すべきバンドの選択、及び所与の周波数バンドに対
する第２コード化ステップの数が、コード化信号に求め
られるバンド幅及びビットレートに基づき且つユーザー
装置（US）及びシステム（SY）の要求に従って決めら
れ、その際、コード化信号は、コード化される信号のバ
ンド幅及びサンプリング周波数とは独立にフレームごと
に利用されることを特徴とする請求の範囲第１項乃至第
10項のいずれか１項に記載の方法。
【請求項１２】第１コード化ステップを実行すべき周波
数バンドの選択は、ａ）利用可能なビットレートについてコード化信号に割
り当て可能な総バンド幅を決める操作、ｂ）前記バンド幅に含まれる各バンドに関連するエネル
ギーを決め、前記エネルギーをそれぞれの第１エネルギ
ー閾値と比較する操作、ｃ）エネルギーが夫々の閾値を越える全てのバンドに対
してコアー情報の挿入をイネーブルする操作、により実行されることを特徴とする請求の範囲第１項乃
至第11項のいずれか１項に記載の方法。
【請求項１３】前記閾値は定数閾値であることを特徴と
する請求の範囲第12項記載の方法。
【請求項１４】前記閾値は知覚モデルを用いて決められ
た閾値であることを特徴とする請求の範囲第12項記載の
方法。
【請求項１５】前記第２コード化ステップが適用される
バンドの選択、及び所与のバンドに対する第２コード化
ステップ数の決定は、ｄ）各バンドに対して第２コード化ステップ全てを適用
する操作、ｅ）前回のステップに対する、又は同じバンド内での第
１コード化ステップに対する、各第２ステップにより与
えられる信号品質の向上を決める操作、ｆ）最高の品質向上をもたらす第２コード化ステップに
より与えられるエンハンス情報ブロックをコード化信号
に挿入することを、利用可能なビットレートが完全に使
用されるまでイネーブルする操作、を含むことを特徴とする請求の範囲第１項乃至第14項の
いずれか１項に記載の方法。
【請求項１６】品質向上の前記評価が知覚モデルを用い
て行われることを特徴とする請求の範囲第15項記載の方
法。
【請求項１７】前記音声信号がマルチメディア信号の音
声成分であることを特徴とする請求の範囲第１項乃至第
16項のいずれか１項に記載の方法。
【請求項１８】コード化されるべき音声信号に対し前記
２ステージ分類が実行され、所与のフレーム内の信号が
複数の抽象クラスのうちの一つ及び前記一つの抽象クラ
スにおける複数の具体クラスのうちの一つに割り当てら
れ、その際、前記分類は、周波数バンド内への前記分離
のため、第１コード化アルゴリズム及び場合によっては
第２コード化アルゴリズムが適用される周波数バンドの
前記選択のため、及び所与の周波数バンドに対する第２
コード化ステップの数の決定のための制御パラメータと
して使用されることを特徴とする請求の範囲第１項乃至
第17項のいずれか１項に記載の方法。
【請求項１９】前記２ステージ分類が自動的に行われる
ことを特徴とする請求の範囲第１項乃至第18項のいずれ
か１項に記載の方法。
【請求項２０】前記第２ステージ分類が、ユーザー装置
（US）から送られる情報により行われることを特徴とす
る請求の範囲第１項乃至第18項のいずれか１項に記載の
方法。
【請求項２１】前記オブジェクトビットストリームは、
個々のコード化ステップにより作られたビットパケット
により構成され、前記マクロオブジェクトビットストリ
ーム（OB11...OB21）は、オーバーヘッドビットの第１
グループ（OVH1,OVH2）、コアー情報のパケット、及び
第２コード化ステップが実行されたならばオーバーヘッ
ドビットの第２グループ（OVH3）を含み、該オーバーヘ
ッドビットの第１グループは、分類結果及び少なくとも
第１コード化ステップが実行された周波数バンドに関す
る情報を含み、該オーバーヘッドビットの第２グループ
は、少なくとも第１コード化ステップが実行された異な
る周波数バンドに対して実行されたコード化ステップの
数及びエンハンス情報ブロックのパケットに関する情報
を含むこと、また、フレーム内でコード化された異なる
マクロオブジェクトのビットストリーム（OB11...OB2
1）が順に転送され、該転送の前に構成フェーズが行わ
れ、該構成フェーズではオーバーヘッドビットの別のグ
ループ（OVH0）が転送され、該グループはデコーダー
（AD）の構成に必要なサービス情報全てを含むことを特
徴とする請求の範囲第１項乃至第20項のいずれか１項に
記載の方法。
【請求項２２】マクロオブジェクトビットストリーム内
のビットパケットはランクにより配列され、該ランク
は、パケットがコアー情報に属する場合には異なるバン
ドのエネルギー値に関係し、パケットがエンハンス情報
に属する場合には品質の向上に関係することを特徴とす
る請求の範囲第21項記載の方法。
【請求項２３】さらにビットストリーム操作フェーズを
含み、該フェーズは、コード化信号のビットレート及び
バンド幅のステップ状のスケーリングのために、コーダ
ー（AC）とデコーダー（AD）間の伝送経路（１）に沿っ
て１又は複数の場所にて実行され、各スケーリングステ
ップは、１つのエンハンス情報ブロックの抑制、又はエ
ンハンス情報ブロックがコード化信号に存在しない場合
は周波数バンドのコアー情報の抑制に対応することを特
徴とする請求の範囲第１項乃至第22項のいずれか１項に
記載の方法。
【請求項２４】前記ビットストリーム操作フェーズは、
デコーダー（AD）の上流の１又は複数の配置にて実行さ
れ、コード化信号のビットレート又はバンド幅のステッ
プ状のスケーリングを与え、各スケーリングステップ
は、１エンハンス情報ブロックの抑制、又はコード化信
号内にエンハンス情報ブロックが存在しないときは周波
数バンドのコアー情報の抑制に対応することを特徴とす
る請求の範囲第１項乃至第23項のいずれか１項に記載の
方法。
【請求項２５】前記スケーリングが、 a1）フレームにおいて所望のビットレートに対する該又
は各々のマクロオブジェクトに割り当て可能なバンド幅
を決めるステップ、 b1）前記バンド幅を越える周波数バンドに関するビット
パケットを除去するステップ、 c1）残差ビットレートが所望のビットレートを越えるな
らば、所望のビットレートが達成されるか又はコアー情
報のみが残されるまで、最高周波数を有するバンドから
開始して、各バンドに対するエンハンス情報の１ブロッ
クを除去し、必要なら該除去は周期的に繰り返されるス
テップ、 d1）ステップc1）の終わりでの残差ビットレートがなお
所望のビットレートを越えるならば、最高周波数バンド
から開始して、１以上の周波数バンドのコアーパケット
を除去するステップ、を含むことを特徴とする、請求の範囲第22項及び第23項
に記載の方法。
【請求項２６】前記スケーリングが、 a2）フレームにおいて所望のビットレートに対する該又
は各々のマクロオブジェクトに割り当て可能な総バンド
幅を決めるステップ、 b2）前記バンド幅を越える周波数バンドに関するビット
パケットを除去するステップ、 c2）残差ビットレートが所望のビットレートを越えるな
らば、所望のビットレートが達成されるか又はコアー情
報のみが残されるまで、最低ランクを有するパケットか
ら開始して、エンハンス情報の１パケットを一度に除去
するステップ、 d2）ステップc2）の終わりでの残差ビットレートがなお
所望のビットレートを越えるならば、最低ランクバンド
から開始して、１以上の周波数バンドのコアー情報を除
去するステップ、を含むことを特徴とする、請求の範囲第24項及び第25項
に記載の方法。
【請求項２７】前記ビットストリーム操作フェーズは、
個々のマクロオブジェクトにおける所定のコード化パラ
メータの値を変えるステップを含むことを特徴とする請
求の範囲第24項乃至第26項のいずれか１項に記載の方
法。
【請求項２８】前記ビットストリーム操作フェーズは、
異なるビットレート及び／又はバンド幅を異なるマクロ
オブジェクトに割り当てるように、複数のコンカレント
マクロオブジェクト上に同時に実行されることを特徴と
する請求の範囲第24項乃至第27項のいずれか１項に記載
の方法。
【請求項２９】前記ビットストリーム操作フェーズは、
ビットレート全体が所定のビットレートを越える複数の
コンカレントマクロオブジェクトからの寄与を含んで、
所定のビットレートにて単一ビットストリームを構築す
るステップを含むことを特徴とする請求の範囲第28項記
載の方法。
【請求項３０】前記ビットストリーム操作フェーズは、
個々のアクロオブジェクト上にレベル操作を実行するス
テップを含み、また、個々のマクロオブジェクトに割り
当てられた異なるビットレート及び／又はバンド幅はそ
のレベル操作を基にして選択されることを特徴とする請
求の範囲第28項又は第29項記載の方法。
【請求項３１】前記ビットストリーム操作フェーズは個
別に選択されたフレーム上で実行されることを特徴とす
る請求の範囲第24項乃至第30項のいずれか１項に記載の
方法。
【請求項３２】デジタル音声信号を処理する装置であっ
て、エンコーダー（AC）、デコーダー（AD）及び少なくとも
１つのビットストリーム操作装置（BMU）を含み、（ア）前記エンコーダー（AC）は、所与のバンド幅特性
を有するコード化すべき音声信号のサンプルフレームを
受信するよう構成され、フィルタリング手段（FB1,FB2,
FB3）、コード化装置（LCC,HCC,LEC,HEC）及び結合手段
（BCU）を含み、前記フィルタリング手段（FB1,FB2,FB3）は、前記コー
ド化すべき音声信号を複数の周波数バンドに分離し、前記コード化手段（LCC,HCC,LEC,HEC）は、各々の周波
数バンドに関連してそのバンドの信号の埋込コード化を
行い、各バンドに対して第１コード化装置（LCC,HCC）
と第２コード化装置（LEC,HEC）の組から成り、前記第
１コード化装置（LCC,HCC）は、周波数バンドのうち少
なくとも選択されたバンドに対してイネーブルされて夫
々のバンドに対するコアー情報を各フレームにて発生
し、前記第２コード化装置（LEC,HEC）は、そのバンド
に対する一連のエンハンス情報ブロックを発生し、前記
コアー情報は信号のデコード化に必要な最小量の情報で
あり、前記結合手段（BCU）は、異なる周波数バンドのコード
化信号を単一の埋込コード化信号に結合し、前記埋込コ
ード化信号は、基本層、トータル層及び複数の中間層か
ら成り、前記基本層は、前記選択された周波数バンドの
コアー情報を含み且つ最小ビットレートに対応し、前記
トータル層は、コード化情報の全体を含み且つ最大ビッ
トレートに対応し、前記中間層は、夫々のエンハンス情
報ブロックによりコード化信号に寄与し且つ基本層から
トータル層への連続ステップによりコード化信号のビッ
トレートを増加させ、（イ）前記デコーダー（AD）は、デコード化装置（LED,
HED,LCD,HCD）及び合成フィルター手段（FB4,FB5,FB6）
を含み、前記デコード化装置（LED,HED,LCD,HCD）は、異なる周
波数バンドのコード化信号を独立にデコード化し、各周
波数バンドに対して１組の第１デコード化装置（LED,HE
D）と第２デコード化装置（LCD,HCD）から成り、前記第
１デコード化装置（LED,HED）は、前記第２コード化装
置の組（LEC,HEC）と１対１に対応し、各々エンハンス
情報ブロックをデコード化し、前記第２デコード化装置
（LCD,HCD）は、コアー情報をデコード化し、前記合成フィルター手段（FB4,FB5,FB6）は、異なる周
波数バンドのデコード化信号を再結合し、元の音声信号
のバンド幅特性に対応するバンド幅特性を有するデコー
ド化信号を再構成し、（ウ）前記ビットストリーム操作装置（BMU）は、前記
デコーダー（AD）の上流に位置し、個々のマクロオブジ
ェクト及び／又はオブジェクトに関するコード化信号の
ビットレート又はバンド幅のスケーリングを行う、上記デジタル音声信号を処理する装置において、（ｉ）第１コード化装置（LCC,HCC）及び各第２コード
化装置（LEC,HEC）は、複数の第１及び第２コード化ア
ルゴリズムから選択された第１及び第２コード化アルゴ
リズムそれぞれをコード化される信号に適用するように
構成可能であり、また、各第１デコード化装置（LEC,HE
D）及び第２デコード化装置（LCD,HCD）は、第２及び第
１コード化装置（LEC,HEC,LCC,HCC）によりそれぞれ適
用される第２及び第１コード化アルゴリズムに対して夫
々相補的な第１又は第２デコード化アルゴリズムをデコ
ード化さる信号に適用するように構成可能であること、
及び（ii）上記デジタル音声信号を処理する装置が、コード
化されるべき音声信号を２ステージ分類するための分類
装置（CR）をさらに含み、所与のフレーム中の信号は、
前記２ステージ分類により複数の抽象クラスのうちの一
つ、及び前記一つの抽象クラスにおける複数の具体クラ
スのうちの一つに割り当てられ、前記具体クラスは、信
号部分の特性に関係し且つフレーム中に存在する基本的
な音声オブジェクトを識別し、前記抽象クラスは、音声
信号の性質に関係し且つ基本的な音声オブジェクトの結
合から得られるマクロオブジェクトを識別し、また、前
記分類装置（CR）は、周波数バンド内への前記分離のた
めの、選択された第１及び第２コード化装置（LCC,HCC,
LEC,HEC）のイネーブル化のための、及び各コード化装
置に適切なコード化アルゴリズムの選択のための制御パ
ラメータとして分類に関する情報をフィルタリング手段
（FB1...FB3）及び前記第１及び第２コード化装置（LC
C,HCC,LEC,HEC）に与え、またコード化ビットストリー
ムへの挿入のための制御パラメータとして分類に関する
情報を前記結合手段（BCU）に与えること、を特徴とする上記デジタル音声信号を処理する装置。
【請求項３３】前記エンコーダー（AC）は８から64kHz
までの任意の入力サンプリング周波数にてサンプリング
された信号を受信し、さらに入力サンプリング周波数よ
りすぐ大きい２のべき乗である内部サンプリング周波数
にて前記信号をアップサンプリングするための手段（MX
U）を含み、前記アップサンプリング手段（MXU）は８、
16及び32kHzの入力サンプリング周波数に対して作動し
ないことを特徴とする請求の範囲第32項記載の装置。
【請求項３４】エンコーダー（AC）内の前記フィルター
手段（FB1...FB3）は、コード化されるべき信号のサン
プリング周波数とは独立に所定のバンド幅の周波数バン
ドを発生するように構成できることを特徴とする請求の
範囲第32項又は第33項記載の装置。
【請求項３５】エンコーダー（AC）は、各フレームを複
数のサブフレームに分割するための手段（SF1,SF2）を
含み、該サブフレームの持続時間はフレーム持続時間の
約数であり、そして、フレームを分割するための手段（SF1,SF2）は、複数の
持続時間値から選択可能な持続時間のサブフレームを発
生してコード化遅延の複数の可能な値を得られるように
構成可能であることを特徴とする請求の範囲第32項乃至
第34項のいずれか１項に記載の装置。
【請求項３６】各バンドの第１及び第２コード化装置
（LCC,HCC,LEC,HEC）は、その他のバンドのコード化装
置とは独立に構成可能であることを特徴とする請求の範
囲第32項乃至第35項のいずれか１項に記載の装置。
【請求項３７】第１コード化装置（LCC,HCC）は、線形
予測分析コード化アルゴリズムを少なくともより低い周
波数バンドの組の信号に対して適用し、且つ、形状／利
得ベクトル量子コード化アルゴリズムをより高い周波数
バンドの信号及び線形予測が用いられない信号に対して
適用するように構成可能であることを特徴とする請求の
範囲第32項乃至第36項のいずれか１項に記載の装置。
【請求項３８】周波数バンドと関連する第２コード化装
置（LEC,HEC）は、第１コード化アルゴリズムを同一周
波数バンド内の信号に適用した結果得られる量子化エラ
ーをコード化することを特徴とする請求の範囲第32項乃
至第37項のいずれか１項に記載の装置。
【請求項３９】第２コード化装置（LEC,HEC）は、形状
／利得ベクトル量子コード化アルゴリズムを全ての周波
数バンドに適用するように構成可能であることを特徴と
する請求の範囲第32項乃至第38項のいずれか１項に記載
の装置。
【請求項４０】第１及び第２コード化装置（LCC,HCC,LE
C,HEC）は、コード化信号に求められるバンド幅及びビ
ットレートに依存し、ユーザー（US）及び伝送システム
（SY）の要求に依存し、コード化されるべき信号のバン
ド幅及びサンプリング周波数に依存せず、フレームごと
にイネーブルされ且つ構成されることを特徴とする請求
の範囲第32項乃至第39項のいずれか１項に記載の装置。
【請求項４１】スピーチ信号処理において、（ア）第１コード化装置（LCC）は、標準として定めら
れたスピーチコード化アルゴリズムを周波数バンドの全
体の組に適用するように構成され、（イ）前記結合手段（BCU）は、標準として定められた
アルゴリズムの適用により発生された情報を有する基本
層を構築し且つ前記中間層の一つ又はトータル層に対応
するコード化信号を構築するように構成され、それによ
り標準として定められたコード化信号に対して更新され
たコード化信号を得、また、デコード化装置（LED,HED,LCD,HCD）は、デコー
ド化アルゴリズムの可用性及び／又はデコード化信号に
対して達成されるべき品質に依存して、基本層のみか又
はコード化信号の全体をデコード化するように構成され
る、ことを特徴とする請求の範囲第32項乃至第40項のいずれ
か１項に記載の装置。
【請求項４２】前記第１及び第２コード化装置（LCC,HC
C,LEC,HEC）のイネーブル化は前記結合手段（BCU）によ
り制御されることを特徴とする請求の範囲第32項乃至第
41項のいずれか１項に記載の装置。
【請求項４３】第１コード化装置（LCC,HCC）のイネー
ブル化のために、前記結合手段（BCU）は、異なる周波
数バンド内の信号のエネルギーを評価する手段（BCL）
であって、エネルギーが所定の閾値を越えるバンドと関
連する第１コード化装置（LCC,HCC）のみをイネーブル
する該手段（BCL）を含むことを特徴とする請求の範囲
第32項乃至第43項のいずれか１項に記載の装置。
【請求項４４】前記閾値は、処理装置（PMP）により知
覚モデルを用いることで計算されることを特徴とする請
求の範囲第43項記載の装置。
【請求項４５】第２コード化装置（LEC,HEC）のイネー
ブル化のために、前記結合手段（BCU）は、すぐ前の第
２コード化装置（LEC,HEC）又は同じバンドと関連する
第１コード化装置（LCC,HCC）の出力での品質に対し
て、各第２コード化装置（LEC,HEC）の出力でのコード
化信号の品質の向上を評価する手段（BCL）を含み、最
高の品質向上を与える第２コード化装置のみがイネーブ
ルされることを特徴とする請求の範囲第32項乃至第44項
のいずれか１項に記載の装置。
【請求項４６】品質向上のための前記手段（BCL）は、
前記処理装置（PMP）により与えられる資格モデルに関
する情報を利用することを特徴とする請求の範囲第44項
及び第45項に記載の装置。
【請求項４７】前記結合手段（BCU）は、個々のコード
化装置（LCC,HCC,LEC,HEC）により作られ且つ１フレー
ム内の単一音声信号に対する所与の具体クラスに関する
全情報を含んだビットパケットをオブジェクトビットス
トリームに結合し、且つ、前記フレーム内の前記音声信
号の異なるオブジェクトのビットストリームをマクロオ
ブジェクトビットストリーム（OB11...OB21）に結合す
るように構成され、該マクロオブジェクトビットストリームは、分類結果及
び少なくとも第１コード化装置（LCC,HCC）がイネーブ
ルされる周波数バンドについての情報を含んだオーバー
ヘッドビットの第１グループ（OVH1,OVH2）；コアー情
報のパセット；及び第２コード化装置（LEC,HEC）がイ
ネーブル化されているならば、異なる周波数バンドに対
してイネーブル化されたコード化装置の数及びエンハン
ス情報ブロックのパケットに関する情報を含んだオーバ
ーヘッドビットの第２グループ（OVH3）から成り、また、前記結合手段（BCU）は、通信のセットアップフ
ェーズ中ではコーダー（AD）と同様にデコーダー（AD）
を構成するのに必要な全てのサービス情報を転送し、且
つ、通信中ではフレーム中にコード化された異なるマク
ロオブジェクトのビットストリームを順に転送するよう
に構成される、ことを特徴とする請求の範囲第32項乃至第46項のいずれ
か１項に記載の装置。
【請求項４８】結合手段（BCU）は、マクロオブジェク
トビットストリーム（OB11...OB21）内のビットストリ
ームを周波数バンドの順に最低周波数バンドから開始し
て伝送するように構成されることを特徴とする請求の範
囲第47項記載の装置。
【請求項４９】結合手段（BCU）は、マクロオブジェク
トビットストリーム（OB11...OB21）内のビットパケッ
トをランクの順に最高ランクのビットパケットから開始
して伝送するように構成され、該ランクは、パケットが
コアー情報に属する場合には異なるバンドのエネルギー
値に関係し、パケットがエンハンス情報に属する場合に
は品質向上の実体に関係することを特徴とする請求の範
囲第48項記載の装置。
【請求項５０】前記操作装置（BMU）は、ビットレート
又はバンド幅のステップ状スケーリングを実行するよう
に構成され、これは、第２コード化装置（LEC,HEC）に
より与えられるパケットから開始して各スケーリングス
テップにてビットパケットを抑制すること、及び第２コ
ード化装置（LEC,HEC）により与えられるパケットがビ
ットストリーム内に存在しないときは第１コード化装置
（LCC,HCC）により与えられるパケットで続けることに
より行われることを特徴とする請求の範囲第32項乃至第
49項のいずれか１項に記載の装置。
【請求項５１】前記ビットストリーム操作装置（BMU）
は、個別に選択されたフレーム内の個々のオブジェクト
又はマクロオブジェクトのビットストリームを操作する
ように構成されることを特徴とする請求の範囲第50項記
載の装置。
【請求項５２】前記スケーリングのために、前記ビット
ストリーム操作装置（BMU）は、（ア）フレーム内にて所望のビットレートに対する該又
は各々のマクロオブジェクトに割り当て可能なバンド幅
を決め、（イ）前記バンド幅を越えて存在する周波数バンドに関
するビットパケットを除去し、（ウ）所望のビットレートが達成されるか又はコアー情
報のみが残されるまで、保持されてきた周波数バンドの
各々に対する第２コード化装置（LEC,HEC）により与え
られる１つのビットパケットを、最高周波数のバンドか
ら開始して除去し、該除去は必要ならば周期的に繰り返
し、（エ）１以上の周波数バンドに対して第１コード化装置
（LCC,HCC）により与えられるビットパケットを最高周
波数バンドから開始して除去する、ように構成されることを特徴とする請求の範囲第50項乃
至第51項のいずれか１項に記載の装置。
【請求項５３】前記スケーリングのために、前記ビット
ストリーム操作装置（BMU）は、（ア）フレーム内で所望のビットレートに対する該又は
各々のマクロオブジェクトに割り当て可能なバンド幅を
決め、（イ）前記バンド幅を越えて存在する周波数バンドに関
するビットパケットを除去し、（ウ）第２コード化装置（LEC,HEC）により与えられる
ビットパケットを最低ランクのパケットから開始して除
去し、（エ）１以上の周波数バンドに対して第１コード化装置
（LCC,HCC）により与えられるビットパケットを最低エ
ネルギーバンドから開始して除去する、ように構成されることを特徴とする請求の範囲第50項乃
至第52項のいずれか１項に記載の装置。
【請求項５４】前記ビットストリーム操作装置（BMU）
は、個々のマクロオブジェクト内の所定のコード化パラ
メータの値を変えるように構成されることを特徴とする
請求の範囲第50項乃至第53項のいずれか１項に記載の装
置。
【請求項５５】前記ビットストリーム操作装置（BMU）
は、全体のビットレートが所定のビットレートを越える
複数のコンカレントマクロオブジェクトからの寄与を含
めて所定のビットレートにて単一ビットストリームを構
築するように、構成されることを特徴とする請求の範囲
第50項乃至第54項のいずれか１項に記載の装置。
【請求項５６】前記ビットストリーム操作装置（BMU）
は、単一ビットストリームを構築する前に個々のマクロ
オブジェクトのレベルを操作し且つ操作されたレベルに
基づいて個々のマクロオブジェクトの寄与に対するビッ
トレート及び／又はバンド幅を選択するように、構成さ
れることを特徴とする請求の範囲第55項記載の装置。