JP5792821B2

JP5792821B2 - ビットストリーム・ドメインにおけるコード化オーディオフレームのレベルを推定する装置及び方法

Info

Publication number: JP5792821B2
Application number: JP2013532195A
Authority: JP
Inventors: ラルフ・ガイゲル; マルクス・シュネル; マンフレッド・ルツキィ; マルコ・ディアトシュク
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2010-10-07
Filing date: 2011-10-06
Publication date: 2015-10-14
Anticipated expiration: 2031-10-06
Also published as: CA2813898C; KR101412115B1; EP2625687A1; CN103250206A; TWI489449B; TW201222530A; AU2011311543B2; RU2013120547A; AR083368A1; CN103250206B; HK1188327A1; ES2600313T3; CA2813898A1; AU2011311543A1; KR20130112893A; BR112013008462B1; RU2553084C2; US20130226596A1; MX2013003803A; WO2012045816A1

Description

本発明はオーディオ処理に関し、具体的には、ビットストリーム・ドメインにおける符号化されたオーディオ信号のレベルを推定するための装置及び方法に関する。

オーディオ処理は多様な進歩を遂げ、オーディオデータ信号を如何にして効率的に符号化しかつ復号するかということが多くの研究の主題となっている。効率的な符号化は、例えばＭＰＥＧＡＡＣ（ＭＰＥＧ＝動画専門家グループ、ＡＡＣ＝アドバンスト・オーディオ・コーディング）によって提供される。

ＭＰＥＧＡＡＣによれば、オーディオ信号のスペクトル値は、スケールファクタ、量子化及びコードブック、具体的にはハフマンコードブックを使用して符号化される。

ハフマン符号化が実行される前に、エンコーダは、符号化されるべき複数のスペクトル係数を異なるセクションにグループ化する。スペクトル係数の各セクションについて、エンコーダは、ハフマン符号化のためのハフマンコードブックを選ぶ。ＭＰＥＧＡＡＣはスペクトルデータを符号化するための１１の異なるスペクトル・ハフマン・コードブックを提供しており、エンコーダはそこからそのセクションのスペクトル係数の符号化に最も適するコードブックを選択する。エンコーダは、そのセクションのスペクトル係数のハフマン符号化に使用されたコードブックを識別するコードブック識別子をサイド情報としてデコーダへ与える。

デコーダ側では、デコーダは受信したサイド情報を分析して、あるセクションのスペクトル値の符号化に使用されているのは複数のスペクトル・ハフマン・コードブックのうちのどれであるかを決定する。デコーダは、デコーダによって復号されるべきセクションのスペクトル係数を符号化するために使用されたハフマンコードブックに関するサイド情報に基づいてハフマン復号を実行する。

ハフマン復号の後、デコーダにおいて複数の量子化されたスペクトル値が得られる。その後、デコーダは、エンコーダによって実行されていることのある非一様量子化を反転するために逆量子化を実行することがある。これにより、デコーダにおいて、逆量子化されたスペクトル値が得られる。

しかしながら、逆量子化されたスペクトル値は、まだスケーリングされていないことがある。導出されたスケーリングされていないスペクトル値はスケールファクタバンドにグループ化されていて、各スケールファクタバンドは共通のスケールファクタを有する。各スケールファクタバンドのスケールファクタは、デコーダでサイド情報として利用でき、エンコーダにより与えられている。この情報を用いて、デコーダは、スケールファクタバンドのスケーリングされていないスペクトル値にそれらのスケールファクタを掛ける。これにより、スケーリングされたスペクトル値が得られる。

次に、この最新技術によるスペクトル値の符号化及び復号について、図７−図１０を参照して説明する。

図７は、最新技術によるエンコーダを示す。エンコーダは、符号化されるオーディオ信号ＡＳを時間領域から周波数領域へ変換するためのＴ／Ｆフィルタバンク７１０を備えており、周波数領域オーディオ信号を得る。その周波数領域オーディオ信号は、スケールファクタを決定するためにスケールファクタユニット７２０へ供給される。スケールファクタユニット７２０は、周波数領域オーディオ信号のスペクトル係数を幾つかのグループに分割するように適合化されている。スペクトル係数のそれらのグループはスケールファクタバンドと呼ばれ、それぞれ１つのスケールファクタを共有する。スケールファクタは、それぞれのスケールファクタバンドにおける全てのスペクトル係数の振幅を変更するために使用される利得値を表す。さらに、スケールファクタユニット７２０は、周波数領域オーディオ信号のスケーリングされていないスペクトル係数を生成して出力するようにも適合化されている。

さらに、図７におけるエンコーダは、スケールファクタユニット７２０から出力されたスケーリングされていないスペクトル係数を量子化するための量子化器を備えている。量子化器７３０は非一様量子化器とすることができる。

量子化の後、量子化されたスケーリングされていないオーディオ信号スペクトルは、ハフマン符号化のためにハフマンエンコーダ７４０へ供給される。ハフマン符号化は、オーディオ信号の量子化スペクトルの冗長性を低減するために使用される。複数のスケーリングされていない量子化スペクトル係数は、セクションにグループ化される。ＭＰＥＧ−ＡＡＣでは１１のコードブックが提供されるが、１つのセクションのスペクトル係数は全て同じハフマンコードブックによって符号化される。

エンコーダは、可能な１１のハフマンコードブックの中から、該当するセクションのスペクトル係数の符号化に特に適する１つを選ぶ。このため、エンコーダによる特定のセクションのためのハフマンコードブックの選択は、その特定のセクションのスペクトル値に依存する。ハフマン符号化されたスペクトル係数は、その後、サイド情報と共にデコーダへ送信することができる。そのサイド情報は、例えばスペクトル係数のセクションを符号化するために使用されたハフマンコードブック、特定のスケールファクタバンドに使用されたスケールファクタなどに関する情報を含む。

２つ又は４つのスペクトル係数が、セクションのスペクトル係数をハフマン符号化するために使用されたハフマンコードブックのコードワードによって符号化される。エンコーダは、符号化されたスペクトル係数を表すコードワードを、セクションのスペクトル係数を符号化するために使用されたハフマンコードブックに関する情報だけでなく、セクションの長さを含むサイド情報もいっしょにデコーダへ送信する。

ＭＰＥＧＡＡＣでは、オーディオ信号のスペクトルデータを符号化するために１１のスペクトル・ハフマン・コードブックが提供される。異なるスペクトル・ハフマン・コードブックは、そのコードブックインデックス（１から１１までの間の値）によって識別することができる。ハフマンコードブックのディメンションは、考察されるハフマンコードブックのあるコードワードによって幾つのスペクトル係数が符号化されるかを示す。ＭＰＥＧＡＡＣにおいて、ハフマンコードブックのディメンションは２又は４の何れかであり、１つのコードワードが２つ又は４つのオーディオ信号スペクトル値を符号化することを示す。

しかしながら、異なるハフマンコードブックは、他の特性に関しても相違している。例えば、ハフマンコードブックによって符号化できるスペクトル係数の最大絶対値はコードブック毎に変わり、例えば１、２、４、７、１２又はそれ以上とできる。さらに、考察されるハフマンコードブックは符号付きの値を符号化するように適合化される場合もあれば、されない場合もある。

ハフマン符号化を用いて、スペクトル係数は異なる長さのコードワードによって符号化される。ＭＰＥＧＡＡＣは、最大絶対値１を有する２つの異なるハフマンコードブック、最大絶対値２を有する２つの異なるハフマンコードブック、最大絶対値４を有する２つの異なるハフマンコードブック、最大絶対値７を有する２つの異なるハフマンコードブック及び最大絶対値１２を有する２つの異なるハフマンコードブックを提供し、各ハフマンコードブックは別個の確率分布関数を表す。ハフマンエンコーダは常に、スペクトル係数の符号化に最も適合するハフマンコードブックを選ぶ。

図８は最新技術によるデコーダを示す。ハフマン符号化されたスペクトル値は、ハフマンデコーダ７５０によって受信される。フマンデコーダ７５０は、サイド情報として、スペクトル値の各セクションについてスペクトル値を符号化するために使用されたハフマンコードブックに関する情報も受信する。ハフマンデコーダ７５０は次に、ハフマン復号を実行してスケーリングされていない量子化スペクトル値を得る。そのスケーリングされていない量子化スペクトル値は逆量子化器７６０へ供給される。逆量子化器は逆量子化を実行してスケーリングされていない逆量子化スペクトル値を得る。そのスケーリングされていない逆量子化スペクトル値はスケーラ７７０へ供給される。スケーラ７７０は、各スケールファクタバンドのサイド情報としてスケールファクタも受信する。スケーラ７７０は、受信したスケールファクタに基づいて、スケーリングされていない逆量子化スペクトル値をスケーリングし、スケーリングされた逆量子化スペクトル値を得る。次に、Ｆ／Ｔフィルタバンク７８０が、時間領域オーディオ信号のサンプル値を得るために、周波数領域オーディオ信号のスケーリングされた逆量子化スペクトル値を周波数領域から時間領域へ変換する。

図９は図７のエンコーダとは異なる最新技術によるエンコーダを示す。図９のエンコーダは、エンコーダ側ＴＮＳユニット（ＴＮＳ＝時間領域雑音整形）をさらに備えている点で図７のエンコーダとは異なる。時間領域雑音整形は、オーディオ信号のスペクトルデータ部分に対し濾波プロセスを実行することによって、量子化雑音の時間形状を制御するように使用できる。エンコーダ側ＴＮＳユニット７１５は、符号化されるべき周波数領域オーディオ信号のスペクトル係数について線形予測コーディング（ＬＰＣ）の計算を実行することを決定する。ＬＰＣ計算の結果として得られるものは、とりわけ、ＰＡＲＣＯＲ係数とも称される反射係数である。時間領域雑音整形は、同じくＬＰＣ計算によって導出される予測利得が所定のしきい値を超えていなければ使用されない。しかし、予測利得がしきい値を上回れば時間領域雑音整形が使用される。エンコーダ側ＴＮＳユニットは、所定のしきい値より小さい全ての反射係数を除去する。残りの反射係数は線形予測係数に変換され、このエンコーダ内で雑音整形フィルタ係数として使用される。エンコーダ側ＴＮＳユニットは次に、ＴＮＳが使用されるスペクトル係数に対してフィルタ演算を実行し、オーディオ信号の処理されたスペクトル係数を得る。ＴＮＳ情報を示すサイド情報、例えば反射係数（ＰＡＲＣＯＲ係数）はデコーダへ送信される。

図１０は図８に示されているデコーダとは相違する最新技術によるデコーダを示す。図１０のデコーダは、デコーダ側ＴＮＳユニット７７５をさらに備えている限りにおいて図８に示されているデコーダとは相違する。デコーダ側ＴＮＳユニットはオーディオ信号のスケーリングされた逆量子化スペクトルを受信し、ＴＮＳ情報、例えば反射係数（ＰＡＲＣＯＲ係数）を示す情報も受信する。デコーダ側ＴＮＳユニット７７５は、オーディオ信号の逆量子化スペクトルを処理して、オーディオ信号の処理された逆量子化スペクトルを得る。

複数のアプリケーションにとって、符号化されたオーディオ信号のレベル、例えばエネルギー、振幅又はラウドネスを決定又は推定することは重要である。これは、テレビ会議システムについて特にいえる。数人の参加者が異なるロケーションに存在するテレビ会議は、多地点制御装置（ＭＣＵ）によって処理される。多地点制御装置の目的は、オーディオデータがコード化されたフォーマットで与えられる様々な入力ストリーム及び出力ストリームをミキシングすることにある。

この最新技術によれば、入力ストリームは全てＭＣＵにおいて復号され、次いで、復号されたオーディオデータは、出力ストリームへ混合される最も支配的なストリームを識別するためにさらに分析される。これは、この最新技術によれば、後に最も支配的なストリーム、例えば最も高いレベルを示すストリーム、例えば最大量のエネルギーを示すストリームを識別するために、入力ストリームのさらなる分析用に全ての入力ストリームがハフマン復号され、逆量子化され、かつスケーリングされることを意味する。１つのスケールファクタバンドのレベル、例えばエネルギー、を推定するためのこの最新技術による手法は、全てのスペクトル値についてハフマン復号及び逆量子化を行い、かつ全ての逆量子化されたスペクトル値の二乗を合計することによってエネルギーを計算することであると思われる。

本発明の目的は、符号化されたオーディオ信号のレベル推定について改良された概念を提供することにある。本発明のこの目的は、請求項１に記載の装置、請求項１４、１６，１７及び１８に記載の方法、並びに請求項１９に記載のコンピュータプログラムによって達成される。

符号化されたオーディオ信号のレベルを推定するための装置が提供される。本装置は、複数のコードブックについて１つのコードブックを識別されたコードブックとして決定するためのコードブック決定器を備えている。符号化されたオーディオ信号は、その識別されたコードブックを用いて符号化されている。本装置はさらに、識別されたコードブックに関連づけられたレベル値を導出レベル値として導出するように構成された推定ユニットを備えている。さらに、その推定ユニットは符号化されたオーディオ信号のレベル推定値を、導出レベル値を用いて推定するように適合化されている。

ある実施形態において、導出レベル値は導出されたエネルギー値とすることができ、その場合、レベル推定のための装置はエネルギー推定をレベル推定として実行するように適合化することができる。別の実施形態において、導出レベル値は導出された振幅値とすることができ、その場合、レベル推定のための装置は振幅推定をレベル推定として実行するように適合化することができる。さらなる実施形態において、導出レベル値は導出されたラウドネス値とすることができ、その場合、レベル推定のための装置はラウドネス推定をレベル推定として実行するように適合化することができる。

本発明は、全ての復号ステップの複雑さを減らすために、レベル、例えばエネルギー、振幅又はラウドネスは、最も支配的なストリームを識別するためのビットストリームパラメータから直接に推定できる、という発見に基づいている。レベル推定、例えばエネルギー推定、振幅推定又はラウドネス推定はビットストリーム情報、例えばビットストリームエレメントに基づくことができる。ビットストリームエレメントは、ハフマンコードブック、スケールファクタ及び、例えばＴＮＳフィルタ係数を含む。これらのビットストリームエレメントは、調和したＡＡＣ−ＥＬＤストリーム（ＡＡＣ−ＥＬＤ：アドバンスト・オーディオ・コーディング−強化低遅延）のレベルを推定するために使用できる。したがって、本発明によれば、オーディオビットストリームを完全に復号する必要はなく、代わりに、オーディオ信号の符号化に使用されたコードブックの決定に基づいてレベル推定値が与えられ、その識別されたコードブックに関連づけられたレベル値が導出され、そしてこのレベル値を用いてオーディオ信号のレベル推定値が推定される。

ある実施形態において、推定ユニットはスケーリングユニットを備えている。そのスケーリングユニットは、符号化されたオーディオ信号に関するスケールファクタ、又は符号化されたオーディオ信号の一部分に関するスケールファクタを導出スケールファクタとして導出するように適合化することができる。そのスケーリングユニットは、スケーリングされたレベル値、例えばスケーリングされたエネルギー、振幅又はラウドネス値を、導出スケールファクタ及び導出レベル値に基づいて得るように適合化することができる。さらに、推定ユニットはオーディオ信号のレベル推定値を、スケーリングユニットで得られたスケーリングされたレベル値を用いて推定するように適合化することができる。この実施形態によれば、レベル推定値は、オーディオ信号を符号化するために使用されたコードブックに関する情報、識別されたコードブックに関連づけられたレベル値及びスケールファクタに基づいて与えられる。

ある実施形態では、導出レベル値はエネルギー値であり、その場合、スケーリングユニットは、導出エネルギー値に導出スケールファクタの二乗を掛けることによりスケーリングされたエネルギー値を得るように、導出スケールファクタを導出エネルギー値に適用するように適合化することができる。これにより、導出スケールファクタは導出エネルギーに適用され、その方法はＭＰＥＧ−２ＡＡＣによるデコーダにおいてスケーリングされていない逆量子化スペクトル係数にスケールファクタが適用されるのに類似しているが、スペクトル係数を復号する必要はない。

別の実施形態では、導出レベル値は振幅値であり、その場合、スケーリングユニットは、導出振幅値に導出スケールファクタを掛けることによりスケーリングされた振幅値を得るように、導出スケールファクタを導出振幅値に適用するように適合化することができる。

さらなる実施形態では、導出レベル値はラウドネス値であり、その場合、スケーリングユニットは、導出ラウドネス値に導出スケールファクタの三乗を掛けることによりスケーリングされたラウドネス値を得るように、導出スケールファクタを導出ラウドネス値に適用するように適合化することができる。ラウドネスの計算には、（３／２）乗を掛ける等の別の方法がある。概して、導出レベル値がラウドネス値である場合、スケールファクタはラウドネス領域へ変換されなければならない。

別の実施形態において、推定ユニットは、ある特定のレベル値を導出レベル値として用いてオーディオ信号のレベル推定値を推定するように構成されている。したがって、この場合の推定ユニットは、具体的には、レベル推定をその特定の種類のレベル値に基づいて実行するように構成されている。

ある実施形態では、導出レベル値は導出エネルギー値であり、その場合、推定ユニットは、導出エネルギー値としてコードブックエネルギー値を用いて、エネルギー推定値をオーディオ信号のレベル推定値として推定するように構成されている。コードブックエネルギー値とは、識別されたコードブックの全コードワードの確率加重エネルギー和平均値の和を示す。各確率加重和平均値は、識別されたコードブックのコードワードの確率加重エネルギー和値の、そのコードブックに関連づけられたディメンション値に対する割合を示す。各確率加重エネルギー和値は、識別されたコードブックの考察されたコードワードのエネルギー和値と、識別されたコードブックの考察されたコードワードに関連づけられた確率値との積を示す。各エネルギー和値は、識別されたコードブックのコードワードのエネルギー値列の数値を示す。各エネルギー値列は、そのコードブックの各コードワードに関する、コードワードの数値列の逆量子化された数値の列の各値の二乗値を示す。コードワードの各数値列は、コードブックのコードワードによって符号化された数値の列である。

さらなる実施形態では、推定ユニットはさらにレベル値導出器を備えている。レベル値導出器は、導出レベル値を、識別されたコードブックに関連づけられたレベル値をメモリにおいて検索することにより導出するように適合化されている。別の実施形態では、レベル値導出器は、識別されたコードブックに関連づけられたレベル値をローカルデータベースに要求するように適合化されている。さらに別の実施形態では、レベル値導出器は、識別されたコードブックに関連づけられたレベル値をリモートコンピュータに要求するように適合化されている。

別の実施形態では、本装置はさらに、コードブックに関連づけられたレベル値を示す複数のコードブック・レベル・メモリ値を内部に格納しているメモリ又はデータベースを備えており、複数のコードブックの各々は、各々に関連づけられ、かつ前記メモリ又はデータベースに格納されたコードブック・レベル・メモリ値をもっている。その場合、レベル値導出器は識別されたコードブックに関連づけられたレベル値を導出するように構成されており、それは識別されたコードブックに関連づけられたコードブック・レベル・メモリ値を前記メモリ又はデータベースから導出することによってなされる。

ある実施形態では、前記メモリ又はデータベースは、その内部にコードブック・レベル・メモリ値として複数のコードブック・エネルギー・メモリ値を格納している。各コードブック・エネルギー・メモリ値は、識別されたコードブックの全てのコードワードの確率加重エネルギー和平均値の合計を示す。各エネルギー和値は、識別されたコードブックのコードワードのエネルギー値列の数値を示す。さらに、各エネルギー値列は、そのコードブックの各コードワードに関する、コードワードの数値列の逆量子化された数値の列の各値の二乗値を示す。各数値列は、コードブックのコードワードによって格納された数値列である。この実施形態は、ある特定のコードブックに関連づけられている複数のコードブック・エネルギー・メモリ値を内部に格納している、メモリ又はデータベースを提供し、この場合、格納されたコードブック・エネルギー・メモリ値は、エネルギー推定に使用されることに特に適する特別な特性を有する。

別の実施形態では、前記メモリ又はデータベースは、その内部に、コードブック・レベル・メモリ値として複数の振幅値を格納している。さらの別の実施形態では、前記メモリ又はデータベースは、その内部に、コードブック・レベル・メモリ値として複数のラウドネス値を格納している。

別の実施形態では、推定ユニットはさらに予測フィルタ調整器を備えている。予測フィルタ調整器は１つ又は複数の予測フィルタ係数を導出予測フィルタ係数として導出するように適合化されている。予測フィルタ係数は、符号化されたオーディオ信号又は符号化されたオーディオ信号の一部分に関連している。予測フィルタ調整器はさらに、導出予測フィルタ係数及び導出レベル値に基づいて、予測フィルタ調整されたレベル値を取得するようにも適合化されている。さらに、推定ユニットはオーディオ信号のレベル推定値を、予測フィルタ調整されたレベル値を用いて推定するように適合化されている。

別の実施形態によれば、テレビ会議システムにおける複数の参加者に関してバック・データ・ストリームを発生するための装置が提供される。本装置は、複数の参加者から、オーディオ信号を含む複数の参加者データストリームを受信するための受信機インタフェースを備えている。さらに、バック・データ・ストリームを発生するための本装置は、これまでに述べた実施形態のうちの１つによる符号化されたオーディオ信号のレベルを推定するための装置を備えている。このレベル推定のための装置は、各参加者データストリーム毎のレベル推定を、データストリームを完全に復号することなく実行するように調整されている。さらに、バック・データ・ストリームを発生するための本装置は、レベル推定に基づいて、参加者データストリームがバック・データ・ストリームへ含まれるべきか否かを決定するための決定器を備えている。さらに、バック・データ・ストリームを発生するための本装置は、バック・データ・ストリームに含まれるべき参加者データストリームのみを混合し、含まれないと決定された参加者データストリームを含まないためのミキサを備えている。バック・データ・ストリームを発生するための本装置は、バック・データ・ストリームに含まれないと決定された参加者データストリームを完全には復号しないように構成されている。ある実施形態では、前記決定器は、考察される参加者データストリームのレベル推定がしきい値を下回る場合、考察される参加者データストリームはバック・データ・ストリームに含まれないことを決定するように適合化されている。さらなる実施形態では、前記決定器は、バック・データ・ストリームに含まれる唯一のデータストリームが、特定のスケールファクタバンドに関する全ての参加者データストリームのレベル推定のうちで最も高いレベル推定値を有するデータストリームであると決定するように適合化されている。

ある実施形態では、あるコードブックに関連づけられたレベル値を発生するための方法が提供される。本方法は、
コードブックの各コードワードについて、コードブックのコードワードに関連づけられた数値列を決定すること、
コードブックの各コードワードについての逆量子化された数値列を、コードブックの各コードワードについてのコードワードの前記数値列の数値へ逆量子化器を適用することにより決定すること、
コードブックの各コードワードについてのレベル値列を、コードブックの各コードワードについてコードワードの逆量子化された前記数値列の各値を二乗することにより計算すること、
コードブックの各コードワードについてのレベル和値を、コードブックの各コードワードの前記レベル値列の値を合計することにより計算すること、
コードブックの各コードワードについての確率加重レベル和値を、コードブックの各コードワードについて、コードワードの前記レベル和値にコードワードに関連づけられた確率値を掛けることにより決定すること、
コードブックの各コードワードについての確率加重レベル和平均値を、コードブックの各コードワードについて、コードワードの前記確率加重レベル和値をコードブックに関連づけられたディメンション値で除算することにより決定すること、及び
コードブックのレベル値を、全てのコードワードの前記確率加重レベル和平均値を合計することにより計算することを含む。

図面を参照して、好適な実施形態について説明する。

図１はある実施形態によるレベル推定のための装置を示す。図２はある実施形態による推定ユニットを示す。図３は別の実施形態による推定ユニットを示す。図４Ｂとともにレベル値を発生するための方法を示す。図４Ａとともにレベル値を発生するための方法を示す。図５は予測フィルタ調整器を備えているさらなる実施形態による推定ユニットを示す。図６はバック・データ・ストリームを発生するための装置を示す。図７は最新技術によるエンコーダを示す。図８は最新技術によるデコーダを示す。図９は最新技術による別のエンコーダを示す。図１０は最新技術によるさらなるデコーダを示す。

図１はある実施形態による装置を示す。本装置はコードブック決定器１１０と推定ユニット１２０を備えている。コードブック決定器１１０は複数のコードブックから１つのコードブックを識別されたコードブックとして決定するように適合化されており、オーディオ信号はその識別されたコードブックを用いて符号化されている。推定ユニット１２０は、識別されたコードブックに関連づけられたレベル値、例えばエネルギー値、振幅値又はラウドネス値を導出レベル値として導出するように適合化されている。さらに、推定ユニット１２０は、オーディオ信号のレベル推定値、例えばエネルギー推定値、振幅推定値又はラウドネス推定値を導出レベル値を用いて推定するように適合化されている。例えば、コードブック決定器１１０は、オーディオ信号を符号化するためにエンコーダにより使用されたコードブックを、符号化されたオーディオ信号と共に送信されたサイド情報を受信することによって決定することができる。具体的には、そのサイド情報は、オーディオ信号の考察されるセクションを符号化するために使用されたコードブックを識別する情報を含むことができる。このような情報は、例えば、エンコーダからデコーダへ、オーディオ信号の考察されるセクションを符号化するために使用されたハフマンコードブックを識別する数字として送信することができる。

図２はある実施形態による推定ユニットを示す。その推定ユニットは、レベル値導出器２１０とスケーリングユニット２２０を備えている。そのレベル値導出器は、識別されたコードブック、即ちエンコーダによりスペクトルデータを符号化するために使用されたコードブック、に関連づけられたレベル値を導出するように適合化されている。そのレベル値の導出は、メモリ内でそのレベル値を検索すること、ローカルデータベースからのそのレベル値を要求すること、又はリモートコンピュータからのそのレベル値を要求することによってなされる。ある実施形態において、レベル値導出器が検索又は要求するそのレベル値は、識別されたコードブックを用いて符号化されたスケーリングされていない符号化スペクトル値の平均レベルを示す平均レベル値とすることができる。

この場合、導出レベル値は実際のスペクトル値から計算されず、代わりに、使用されたコードブックにのみ依存する平均レベル値が使用される。先に説明したように、エンコーダは、一般に、オーディオ信号のセクションのそれぞれのスペクトルデータを符号化するために最も適した複数のコードブックからコードブックを選択するように適合化されている。コードブックは、例えば符号化できる最大絶対値に関して相違することから、ハフマンコードブックにより符号化される平均値はコードブック毎に異なり、また、それ故に、個々のコードブックにより符号化された符号化スペクトル係数の平均レベル値もコードブック毎に異なる。

したがって、ある実施形態によれば、個々のハフマンコードブックを使用してオーディオ信号のスペクトル係数を符号化するための平均レベル値はハフマンコードブック毎に決定することができ、かつ、例えば、メモリ、データベース又はリモートコンピュータに格納することができる。よってレベル値導出器は、識別されたコードブックに関連づけられた導出レベル値を得るには、単に、スペクトルデータの符号化に使用された識別されたコードブックに関連づけられたレベル値を検索するか又は要求するだけでよい。

しかしながら、ＭＰＥＧＡＡＣの場合がそうであるように、ハフマンコードブックはしばしばスケーリングされていないスペクトル値を符号化するために使用されることを考慮しなければならない。よって、レベル推定の実行に際しては、スケーリングを考慮すべきである。したがって、図２の推定ユニットはスケーリングユニット２２０も備えている。そのスケーリングユニットは、符号化されたオーディオ信号に関するスケールファクタ又は符号化されたオーディオ信号の一部分に関するスケールファクタを、導出スケールファクタとして導出するように適合化されている。例えば、デコーダに関して、スケーリングユニット２２０はスケールファクタバンド毎に１つのスケールファクタを決定する。例えば、スケーリングユニット２２０は、スケールファクタバンドのスケールファクタに関する情報を、エンコーダからデコーダへ送信されるサイド情報を受信することによって受信してもよい。スケーリングユニット２２０は、スケーリングされたレベル値を、スケールファクタ及び導出レベル値に基づいて決定するようにさらに適合化されている。

一実施形態では導出レベル値が導出エネルギー値であり、その場合、スケーリングユニットは、導出スケールファクタを導出エネルギー値に適用し、導出エネルギー値に導出スケールファクタの二乗を掛けることによりスケーリングされたレベル値を得るように適合化されている。

別の実施形態では導出レベル値が導出振幅値であり、その場合、スケーリングユニットは、導出スケールファクタを導出振幅値に適用し、導出振幅値に導出スケールファクタを掛けることによりスケーリングされたレベル値を得るように適合化されている。

さらに別の実施形態では導出レベル値が導出ラウドネス値であり、その場合、スケーリングユニット（２２０）は、導出スケールファクタを導出ラウドネス値に適用し、導出ラウドネス値に導出スケールファクタの三乗を掛けることによりスケーリングされたレベル値を得るように適合化されている。ラウドネスの計算には、（３／２）乗を掛ける等の代替方法が存在する。一般に、導出レベル値がラウドネス値である場合、スケールファクタはラウドネス領域へ変換されなければならない。

これらの実施形態は、エネルギー値がオーディオ信号のスペクトル係数の二乗に基づいて決定されること、振幅値がオーディオ信号のスペクトル係数の絶対値に基づいて決定されること、及びラウドネス値がオーディオ信号のラウドネス領域へ変換されているスペクトル係数に基づいて決定されること、を考慮に入れている。

その推定ユニットは、オーディオ信号のレベル推定値を、スケーリングされたレベル値を用いて推定するように適合化されている。図２の実施形態では、推定ユニットは、スケーリングされたレベル値をレベル推定値として出力するように適合化されており、この場合はスケーリングされたレベル値の後処理は行われない。しかし、図３の実施形態に示されているように、推定ユニットは後処理を行うように適合化することもできる。したがって、図３の推定ユニットは、レベル推定値を推定するために１又は複数のスケーリングされたレベル値を後処理するためのポストプロセッサ２３０を備えている。例えば、推定ユニットのレベル推定値は、ポストプロセッサ２３０が複数のスケーリングされたレベル値の平均値を決定することによって決定することができる。この平均値は、推定ユニットがレベル推定値として出力することができる。

提示している実施形態とは対照的に、最新技術による手法は、例えば１つのスケールファクタバンドのエネルギーを推定する場合、全てのスペクトル値についてハフマン復号及び逆量子化を行い、かつ全ての逆量子化されたスペクトル値の二乗を合計することによってエネルギーを計算することであると思われる。

しかしながら、提案している実施形態では、最新技術によるこの複雑な計算プロセスが、スケールファクタ及び使用されたコードブックのみに依存して実際の量子化された値に依存しない平均レベルの推定に置き換えられる。

本発明の実施形態は、ハフマンコードブックは専用の統計に従って最適なコーディングを提供するように設計される、という事実を採用している。これは、コードブックがデータの確率に従って設計されていることを意味する。そのデータとは、例えばＡＡＣ−ＥＬＤ（ＡＡＣ−ＥＬＤ＝アドバンスト・オーディオ・コーディング−強化低遅延）、即ちスペクトル線、である。このプロセスを逆にして、コードブックに従ってデータの確率を得ることができる。コードブック内部の各データエントリ（インデックス）の確率は、コードワードの長さによって与えられる。例えば、
ｐ（インデックス）＝２＾−長さ（コードワード）
即ち、
ｐ（インデックス）＝２^{-長さ(コードワード)}
である。ここで、ｐ（インデックス）はコードブック内部のデータエントリ（インデックス）の確率である。

これに基づけば、期待レベルは事前に計算し、かつ次の方法で格納することができる。即ち、各インデックスは整数値（ｘ）、例えばスペクトル線、の列を表す。但し、列の長さはコードブックの大きさに依存し、例えばＡＡＣ−ＥＬＤでは２又は４である。

図４Ａ及び図４Ｂは、ある実施形態による、コードブックに関連づけられたレベル値、例えばエネルギー値、振幅値又はラウドネス値を発生する方法を示す。

本方法は、コードブックの各コードワードについて、コードブックのコードワードに関連づけられた数値列を決定すること（ステップ４１０）を含んでいる。先に説明したように、コードブックは、数値列、例えば２つ又は４つの数値による列を、そのコードブックのコードワードにより符号化する。そのコードブックは、数値列の複数個を符号化するために複数のコードブックを備えている。決定される数値列は、そのコードブックの考察されるコードワードにより符号化される数値列である。ステップ４１０は、そのコードブックの各コードワードについて実行される。例えば、そのコードブックが８１個のコードワードを含んでいれば、ステップ４１０において８１の数値列が決定される。

ステップ４２０では、そのコードブックの各コードワードについて逆量子化された数値列が決定される。逆量子化された数値列の決定は、そのコードブックの各コードワードについて、コードワードの数値列の数値へ逆量子化器を適用することにより行われる。先に説明したように、エンコーダは、一般に、オーディオ信号のスペクトル値の符号化に際して量子化を使用することができる。その量子化は、例えば非線形量子化である。その結果、この量子化はデコーダ側で反転されなければならない。

この後、ステップ４３０では、そのコードブックの各コードワードについてレベル値列が決定される。

もし、そのコードブックのレベル値としてエネルギー値が発生されるのであれば、各コードワードについてエネルギー値列が決定され、かつそのコードブックの各コードワードについて、逆量子化された数値列の各値の二乗が計算される。

もし、コードブックのレベル値として振幅値が発生されるのであれば、各コードワードについて振幅値列が決定され、かつそのコードブックの各コードワードについて、逆量子化された数値列の各値の絶対値が計算される。

もし、コードブックのレベル値としてラウドネス値が発生されるのであれば、各コードワードについてラウドネス値列が決定され、かつそのコードブックの各コードワードについて、逆量子化された数値列の各値の三乗が計算される。ラウドネスの計算には、（３／２）乗を掛ける等の代替方法が存在する。一般に、コードブックのレベル値としてラウドネス値が発生される場合、逆量子化された数値列の値はラウドネス領域へ変換されなければならない。

続いて、ステップ４４０では、コードブックの各コードワードのレベル和値が計算される。レベル和値の計算は、コードブックの各コードワードについてレベル値列の値を合計することによりなされる。

次に、ステップ４５０では、そのコードブックの各コードワードについて確率加重レベル和値が決定される。その確率加重レベル和値の決定は、そのコードブックの各コードワードについて、コードワードのレベル和値にそのコードワードに関連づけられた確率値を掛けることによりなされる。この場合、数値列、例えばスペクトル係数列には、他のスペクトル係数列ほど頻繁には現われないものがあることを考慮する。コードワードに関連づけられた確率値はこのことを考慮する。そのような確率値はコードワードの長さから導出することができる。それは、ハフマン符号化が使用される場合、現われる可能性の高いコードワードはより短い長さを有するコードワードを用いて符号化され、現われる可能性の高くない他のコードワードはより長い長さを有するコードワードを用いて符号化されるからである。

ステップ４６０では、コードブックの各コードワードについて、確率加重レベル和平均値が決定される。確率加重レベル和平均値の決定は、そのコードブックの各コードワードについて、コードワードの確率加重レベル和値をそのコードブックに関連づけられたディメンション値で割り算することによりなされる。ディメンション値は、そのコードブックのコードワードによって符号化されるスペクトル値の数を示す。この場合、決定される確率加重レベル和平均値は、コードワードによって符号化されるスペクトル係数のレベル値（確率加重されたレベル値）を表す。

次に、ステップ４７０では、そのコードブックのレベル値が、全てのコードワードの確率加重レベル和平均値を合計することにより計算される。

レベル値のこのような発生は、１つのコードブックにつき一度しか実行してはならないことに留意すべきである。コードブックのレベル値が決定されれば、この値は、例えばこれまでに述べた実施形態によるレベル推定のための装置によって、簡単に検索でき、かつ使用できる。

以下、ある実施形態による、コードブックに関連づけられたエネルギー値を発生するための方法を提示する。所定のコードブックによってコード化されたデータのエネルギーの期待値の推定に際し、下記の諸ステップは、そのコードブックの各インデックスにつき一度しか実行してはならない。
Ａ）その列（例えば、ＡＡＣ−ＥＬＤ：ｘ＾（４／３））の整数値へ逆量子化を適用する。
Ｂ）Ａ）の列の各値を二乗してエネルギーを計算する。
Ｃ）Ｂ）の列の和を作る。
Ｄ）Ｃ）にインデックスの所定の確率を掛ける。
Ｅ）そのコードブックのディメンションで除算して、スペクトル線当たりの期待エネルギーを求める。

最後に、Ｅ）により計算された全ての値は、その完全なコードブックの期待エネルギーを得るために合計しなければならない。

これらのステップの出力がテーブルに格納された後は、推定されたエネルギー値は、そのコードブックのインデックスに基づいて、即ちどのコードブックが使用されるかに依存して、簡単に検索することができる。実際のスペクトル値はこの推定のためにハフマン復号される必要はない。

完全なオーディオフレームのスペクトルデータの全体エネルギーを推定するためには、スケールファクタが考慮されなければならない。スケールファクタは、ビットストリームから、さほどの複雑さなしに抽出することができる。スケールファクタは、期待エネルギーに適用される前に、例えば使用されるスケールファクタの二乗を計算することにより修正することができる。その後、期待エネルギーに、使用されるスケールファクタの二乗が掛けられる。

上述の実施形態によれば、各スケールファクタバンドのスペクトルレベルは、ハフマン符号化されたスペクトル値を復号することなく推定することができる。レベルの推定値は、低レベル、例えば低電力を有するストリームを識別するために使用することができる。低レベルを有するストリームは後続のミキシングプロセスに関連がない。したがって、そのようなストリームの完全な復号を回避できる。

ある実施形態によれば、レベル推定のための装置は、コードブックに関連づけられるレベル値を示す複数のコードブック・レベル・メモリ値を内部に格納しているメモリ又はデータベースをさらに備えており、前記複数のコードブックの各々は、各々に関連づけられ、かつ前記メモリ又はデータベースに格納されたコードブック・レベル・メモリ値を有する。さらに、レベル値導出器は、識別されたコードブックに関連づけられたコードブック・レベル・メモリ値を前記メモリ又はデータベースから引き出すことによって、識別されたコードブックに関連づけられたレベル値を導出するように構成されている。

上述の実施形態によって推定されたレベルは、コーデックにおいて例えばＡＡＣ−ＥＬＤＴＮＳ（時間領域雑音整形）フィルタリングのために、予測フィルタリング等の予測としてのさらなる処理ステップが適用されれば変わりうる。この場合、予測の係数はビットストリーム内のものとして、例えばＴＮＳではＰＡＲＣＯＲ係数として送信される。

図５は、推定ユニットがさらに予測フィルタ調整器２４０を備えている実施形態を示す。予測フィルタ調整器は、符号化されたオーディオ信号又はその一部分に関連する、１又は複数の予測フィルタ係数を導出予測フィルタ係数として導出するように適合化されている。さらに、予測フィルタ調整器は、導出予測フィルタ係数及び導出レベル値に基づいて、予測フィルタ調整されたレベル値を得るように適合化されている。さらに、この推定ユニットはオーディオ信号のレベル推定値を、予測フィルタ調整されたレベル値を用いて推定するように適合化されている。

ある実施形態において、ＴＮＳのためのＰＡＲＣＯＲ係数は、予測フィルタ係数として使用される。フィルタリングプロセスの予測利得は、これらの係数から極めて効率的な方法で決定することができる。ＴＮＳに関して、予測利得は、次の式に従って計算することができる。その式とは、すなわち、利得＝1/prod(1-parcor.^2)である。

例えば、３つのＰＡＲＣＯＲ係数、例えば、parcor₁、parcor₂及びparcor₃を考慮しなければならないとすると、利得は、式：

に従って計算することができる。

ｎ個のＰＡＲＣＯＲ係数、parcor₁、ｐarcor₂、…、parcor_nの場合は、次の式が適用される：

これは、フィルタリングを介するオーディオ信号の増幅は、フィルタリング演算自体を適用することなく推定できることを意味する。

上述の実施形態のうちの１つによるレベル推定のための装置は、テレビ会議システム、例えば多地点制御装置（ＭＣＵ）に使用することができる。

図６は、ある実施形態によるテレビ会議システムにおいて、複数の参加者に対してバック・データ・ストリームを発生するための装置を示す。本装置は、複数の参加者データストリームｐ１、ｐ２、…、ｐｎを受信するための受信機インタフェース６１０を備えている。参加者データストリームｐ１、ｐ２、…、ｐｎは複数の参加者からのオーディオ信号を含む。さらに、バック・データ・ストリームを発生するための本装置は、これまでに述べた実施形態のうちの１つによる符号化されたオーディオ信号のレベルを推定するための装置６２０を備えている。レベル推定のための装置６２０は、各参加者データストリームについてのレベル推定を、データストリームを完全に復号することなく実行するように調整されている。図６に示されているように、レベル推定のための装置は、オーディオ・データ・ストリームｐ１、ｐ２、…、ｐｎを受信し、受信したオーディオ信号を含むオーディオ・データ・ストリームｐ１、ｐ２、…、ｐｎの各々についてレベル推定を実行する。装置６２０は、オーディオ・データ・ストリームｐ１、ｐ２、…、ｐｎに関連するレベル推定値ｅｅ₁、ｅｅ₂、…、ｅｅ_nを決定器６３０へ送出する。決定器６３０は、各参加者データストリームのレベル推定に基づいて、参加者データストリームがバック・データ・ストリームへ含まれるべきか否かを決定するように適合化されている。次に、決定器６３０は、各参加者データストリームについて、参加者データストリームｐ１、ｐ２、…、ｐｎがバック・データ・ストリームに含まれるか否かに関する決定ｄｅｃ₁、ｄｅｃ₂、…、ｄｅｃ_nをミキサ６４０へ送出する。ミキサ６４０も参加者データストリームｐ１、ｐ２、…、ｐｎを受信するようにも適合化されている。決定ｄｅｃ₁、ｄｅｃ₂、…、ｄｅｃ_nに基づいて、ミキサ６４０は、バック・データ・ストリームに含まれるべき参加者データストリームのみをミキシングし、含まれないと決定された参加者データストリームを包含しない。

バック・データ・ストリームを発生するための本装置は、バック・データ・ストリームに含まれないと決定された参加者データストリームを完全には復号しないように構成されている。

ある実施形態において、決定器６３０は、考察される参加者データストリームのレベル推定がしきい値を下回る場合、その参加者データストリームはバック・データ・ストリームに含まれないことを決定するように適合化されている。

ある実施形態において、バック・データ・ストリームを発生するための装置は、参加者データストリームがバック・データ・ストリームに含まれるべきか否かをフレーム毎に決定するように適合化されている。例えば、各オーディオフレームについてその参加者データストリームがバック・データ・ストリームに含まれるべきか否かが決定されて、その参加者データストリームのそのオーディオフレーム全体がバック・データ・ストリームに含まれるべきか否かが決定される。

ある代替実施形態において、バック・データ・ストリームを発生するための装置は、参加者データストリームがバック・データ・ストリームに含まれるべきか否かをスケールファクタバンドに基づいて決定するように適合化されている。例えば、あるオーディオフレームの異なるスケールファクタバンドに関し、あるスケールファクタバンドがバック・データ・ストリームに含まれるかどうかの決定はスケールファクタバンドによって異なることがある。

さらなる実施形態においては、決定器６３０は、バック・データ・ストリームに含まれるデータストリームが、特定のスケールファクタバンドに関して、全ての参加者データストリームのレベル推定値のうちで最も高いレベル推定値を有するデータストリームだけであると決定するように適合化されている。

別の実施形態においては、決定器６３０は、バック・データ・ストリームに含まれデータストリームが、特定のスケールファクタバンドに関して、全ての参加者データストリームのレベル推定値のうちで最も高い２つのレベル推定値を有するデータストリームの２つだけであると決定するように適合化されている。

ある代替実施形態においては、図６におけるレベル推定のための装置６２０は、複数のオーディオ信号のそれぞれに１つずつのレベル推定値を推定する単一のレベル推定用装置ではなく、ｎ個からなる複数のレベル推定値用装置を備え、各レベル推定用装置がｎ個のオーディオ信号ストリームのうちの１つについて１つのレベル推定値を与えるものである。

レベル推定のための装置は、他の様々なアプリケーションに適用することもできる。ある実施形態では、バッファ管理のための装置が提供される。バッファ管理のための装置は、あるバッファのバッファ・オーディオ・データにアクセス・バッファ・オーディオ・データとしてアクセスするためのバッファ・アクセス・ユニットを備えている。その場合、バッファ・オーディオ・データは符号化されたオーディオ信号を含んでいる。さらに、バッファ管理のための装置は、これまでに述べた実施形態のうちの１つによる符号化されたオーディオ信号のレベルを推定するための装置を備えている。さらに、バッファ管理のための装置は、アクセス・バッファ・オーディオ・データがバッファから削除されるべきか否かを、符号化されたオーディオ信号のレベル推定値に基づいて決定するための決定器を備えている。

このようなバッファ管理のための装置は、ジッタバッファを管理するために特に有益であり、例えばＶｏＩＰ（ボイス・オーバー・インターネット・プロトコル）に使用される。ある実施形態によるバッファ管理のための装置は、重要なオーディオフレームをバッファ内に保つように適合化されており、かつバッファがバッファ超過の危険性が存在する状態にあるときは、さほど重要でないフレームをバッファから削除するように適合化されている。例えば、バッファのオーディオ・データ・コンテンツ全体が調べられる場合があり、その場合は、バッファ管理のための装置は、レベル推定に基づいて、オーディオ・データ・コンテンツ（バッファ・オーディオ・データ）をバッファから削除すべきか否かを決定する。

ある実施形態において、入力データを格納するための装置は、オーディオデータが格納されるか放棄されるかをフレーム毎に決定するように適合化され、例えば、各オーディオフレームについて、そのオーディオフレーム全体が格納されるか放棄されるかが決定される。

幾つかの態様を装置の面から述べてきたが、これらの態様は対応する方法についての説明も表すことは明らかである。その際、１つのブロック又はデバイスは１つの方法ステップ又はある方法ステップの１つの特徴に対応する。同様に、方法ステップの面から述べられている態様は、対応する装置の対応するブロック又はアイテム又は特徴についての説明も表す。

所定の実装要件によって、本発明の実施形態は、ハードウェア又はソフトウェアにおいて実装することができる。その実装はデジタル記憶媒体を用いて実行することができる。そのようなデジタル記憶媒体は、例えばフロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ又はフラッシュメモリであり、個々の方法が実行されるようにプログラム可能コンピュータシステムと共働する（又は共働できる）電子的に読取り可能な制御信号を格納している。

本発明によるいくつかの実施形態は非一時的データキャリアを含み、そのデータキャリアは、本明細書に記述されている方法のうちの１つが実行されるようにプログラム可能コンピュータシステムと共働できる電子的に読取り可能な制御信号を有する。

一般に、本発明の実施形態は、プログラムコードを有するコンピュータ・プログラム製品として実装することができる。そのプログラムコードは、そのコンピュータ・プログラム製品がコンピュータ上で作動するときに本明細書に記述されている方法の１つを実行する働きをする。そのプログラムコードは、例えば、機械読取り可能キャリアに格納できる。

他の実施形態は、機械読取り可能キャリアに格納され、本明細書に記述されている方法のうちの１つを実行するためのコンピュータプログラムを含む。

言い替えれば、本発明の一実施形態は、それ故、コンピュータプログラムであり、このコンピュータプログラムがコンピュータ上で実行されるときに本明細書に記述されている方法の１つを実行するためのプログラムコードを有する。

本発明的方法のさらなる実施形態は、それ故、データキャリア（又は、デジタル記憶媒体又はコンピュータ読取り可能媒体）であり、本明細書に記述されている方法の１つを実行するためのコンピュータプログラムを記録してもつ。

本発明的方法のさらなる実施形態は、それ故、データストリーム又は信号列であり、本明細書に記述されている方法の１つを実行するためのコンピュータプログラムを表す。そのデータストリーム又は信号列は、例えば、データ通信接続、例えばインターネットを介して伝送されるように構成できる。

さらなる実施形態は、処理手段、例えばコンピュータ又はプログラマブル論理デバイスを含み、本明細書に記述されている方法の１つを実行するように構成又は適合化されている。

さらなる実施形態は、本明細書に記述されている方法の１つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。

いくつかの実施形態では、プログラマブル論理デバイス（例えば、フィールド・プログラマブル・ゲート・アレイ）は、本明細書に記述されている方法の機能のうちの幾つか又は全てを実行するために使用できる。いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイは、本明細書に記述されている方法の１つを実行するためにマイクロプロセッサと共働できる。一般に、これらの方法は、好ましくは任意のハードウェア装置によって実行される。

これまでに述べた実施形態は本発明の原理を例示するものにすぎない。理解すべきは、本明細書に記述されている装置及びその詳細の修正及び変形が他の当業者にとって明らかであるということである。よって、意図するところは、添付の特許請求の範囲によってのみ限定され、本明細書における実施形態の記述及び説明により示された具体的な詳細によっては限定されないということである。

Claims

符号化されたオーディオ信号のレベルを推定するための装置であって、
複数のコードブックから１つのコードブックを識別されたコードブックとして決定するためのコードブック決定器（１１０）であって、前記オーディオ信号は前記識別されたコードブックを用いて符号化されているコードブック決定器（１１０）と、
前記識別されたコードブックに関連づけられたレベル値を導出レベル値として導出するように構成され、かつ前記導出レベル値を用いて前記オーディオ信号のレベル推定値を推定するように構成された推定ユニット（１２０）と、
を備えた装置。
前記推定ユニット（１２０）はスケーリングユニット（２２０）を備え、
前記スケーリングユニット（２２０）は、前記符号化されたオーディオ信号に関連したスケールファクタ又は前記符号化されたオーディオ信号の一部分に関連したスケールファクタを導出スケールファクタとして導出するように適合化されており、
前記スケーリングユニット（２２０）は、前記導出スケールファクタ及び前記導出レベル値に基づいて、スケーリングされたレベル値を得るように適合化されており、
かつ、前記推定ユニット（１２０）は、前記スケーリングされたレベル値を用いて前記オーディオ信号のレベル推定値を推定するように適合化されている請求項１に記載の装置。
前記導出レベル値は導出エネルギー値であり、かつ前記スケーリングユニット（２２０）は、スケーリングされたレベル値を得るために、導出エネルギー値に前記導出スケールファクタの二乗を掛けることによって前記導出エネルギー値に前記導出スケールファクタを適用するように適合化されているか、
前記導出レベル値は導出振幅値であり、かつ前記スケーリングユニット（２２０）は、スケーリングされたレベル値を得るために、導出振幅値に前記導出スケールファクタを掛けることによって前記導出振幅値に前記導出スケールファクタを適用するように適合化されているか、又は、
前記導出レベル値は導出ラウドネス値であり、かつ前記スケーリングユニット（２２０）は、前記導出スケールファクタをラウドネス領域へ変換するように、かつスケーリングされたレベル値を得るために、前記導出ラウドネス値に前記変換された導出スケールファクタを適用するように適合化されている請求項２に記載の装置。
前記推定ユニット（１２０）は、前記オーディオ信号のレベル推定値を、前記識別されたコードブックの全てのコードワードの確率加重レベル和平均値の合計を示すコードブックのレベル値を用いて推定するように構成されている請求項１から３のいずれか一項に記載の装置。
ここで、
前記確率加重レベル和平均値の各々は、前記識別されたコードブックのコードワードの確率加重レベル和値の、前記コードブックに関連づけられたディメンション値に対する割合を示し、
前記確率加重レベル和値の各々は、前記識別されたコードブックの考察されるコードワードのレベル和値と、前記識別されたコードブックの前記考察されるコードワードに関連づけられた確率値との積を示し、
前記レベル和値の各々は、前記識別されたコードブックのコードワードのレベル値列の数値を示し、
前記レベル値列の各々は、前記コードブックのレベル値がエネルギー値である場合は前記コードブックの各コードワードに関するコードワードの数値列の逆量子化数値列の各値の二乗値を示し、前記コードブックのレベル値が振幅値である場合は前記コードブックの各コードワードに関するコードワードの数値列の逆量子化数値列の各値の絶対値を示し、前記コードブックのレベル値がラウドネス値である場合は前記コードブックの各コードワードに関するコードワードの数値列の逆量子化数値列の各値のラウドネス領域へ変換されている値を示し、かつ、
前記数値列の各々は、前記コードブックのコードワードにより符号化された数値列である。
前記推定ユニット（１２０）はさらにレベル値導出器（２１０）を備え、
前記レベル値導出器（２１０）は、
前記識別されたコードブックに関連づけられた前記レベル値をメモリにおいて検索することによって前記導出レベル値を導出するように適合化されているか、
前記識別されたコードブックに関連づけられた前記レベル値をローカルデータベースに要求するように適合化されているか、又は、
前記識別されたコードブックに関連づけられた前記レベル値をリモートコンピュータに要求するように適合化されている請求項１から４のいずれか一項に記載の装置。
コードブックに関連づけられたレベル値を示す複数のコードブック・レベル・メモリ値を内部に格納しているメモリ又はデータベースをさらに備え、複数のコードブックの各々は、各々に関連づけられ、かつ前記メモリ又はデータベースに格納されたコードブック・レベル・メモリ値を有し、かつ、
前記レベル値導出器（２１０）は、前記識別されたコードブックに関連づけられたコードブック・レベル・メモリ値を前記メモリ又はデータベースから導出することによって、前記識別されたコードブックに関連づけられた前記レベル値を前記導出レベル値として導出するように構成されている請求項５に記載の装置。
前記メモリ又はデータベースは、前記複数のコードブック・レベル・メモリ値を内部に格納しており、
前記コードブック・レベル・メモリ値の各々は、そのコードブック・レベル・メモリ値が関連づけられた関連するコードブックの全てのコードワードの確率加重レベル和平均値の合計を示し、
前記確率加重レベル和平均値の各々は、前記関連するコードブックのコードワードの確率加重レベル和値の、前記関連するコードブックに関連づけられたディメンション値に対する割合を示し、
前記確率加重レベル和値の各々は、前記関連するコードブックの考察されるコードワードのレベル和値と、前記関連するコードブックの前記考察されるコードワードに関連づけられた確率値との積を示し、
前記レベル和値の各々は、前記関連するコードブックのコードワードのレベル値列の数値を示し、
前記レベル値列の各々は、前記コードブックのレベルメモリ値がエネルギー値である場合は前記関連するコードブックの各コードワードに関するコードワードの数値列の逆量子化数値列の各値の二乗値を示し、前記コードブックのレベルメモリ値が振幅値である場合は前記関連するコードブックの各コードワードに関するコードワードの数値列の逆量子化数値列の各値の絶対値を示し、前記コードブックのレベルメモリ値がラウドネス値である場合は前記関連するコードブックの各コードワードに関するコードワードの数値列の逆量子化数値列の各値のラウドネス領域へ変換されている値を示し、かつ、
前記数値列の各々は、前記関連するコードブックのコードワードにより符号化された数値列である請求項６に記載の装置。
前記推定ユニット（１２０）はさらに、予測フィルタ調整器を備え、
前記予測フィルタ調整器（２４０）は、前記符号化されたオーディオ信号に関連する１又は複数の予測フィルタ係数、又は前記符号化されたオーディオ信号の一部分に関連する１又は複数の予測フィルタ係数を、導出予測フィルタ係数として導出するように適合化されており、
前記予測フィルタ調整器（２４０）は、前記導出予測フィルタ係数及び前記導出レベル値に基づいて予測フィルタ調整されたレベル値を得るように適合化されており、
かつ、前記推定ユニット（１２０）は、前記予測フィルタ調整されたレベル値を用いて前記オーディオ信号のレベル推定値を推定するように適合化されている請求項１から７のいずれか一項に記載の装置。
入力データから出力データストリームを発生するための装置であって、
符号化されたオーディオ信号を含む前記入力データを受信するための受信機インタフェース（６１０）と、
前記符号化されたオーディオ信号のレベルを推定するための請求項１から８のいずれか一項に記載の装置（６２０）と、
前記符号化されたオーディオ信号の一部分が前記出力データストリームに含まれるべきか否かを、前記出力データストリームの前記部分に関する前記レベル推定値に基づいて決定するための決定器（６３０）と、
を備えている装置。
該装置はさらに、ミキサを備え、
該装置は、テレビ会議システムにおける複数の参加者について、バック・データ・ストリームを出力データストリームとして発生するように適合化されており、
前記受信機インタフェース（６１０）は、前記複数の参加者から、オーディオ信号を含む複数の参加者データストリームを受信するように適合化されており、
前記決定器は、各参加者データストリームの前記レベル推定値に基づいて、参加者データストリームが前記バック・データ・ストリームに含まれるべきか否かを決定するように適合化されており、
前記ミキサは、前記バック・データ・ストリームに含まれるべき参加者データストリームのみをミキシングし、かつ含まれないと決定された参加者データストリームを包含しないものである請求項９に記載の装置。
前記決定器（６３０）は、考察される参加者データストリームの前記レベル推定値がしきい値を下回る場合、前記考察される参加者データストリームは前記バック・データ・ストリームに含まれないように決定するように適合化されている請求項１０に記載の装置。
前記決定器（６３０）は、前記バック・データ・ストリームに含まれる唯一のデータストリームが、特定のスケールファクタバンドに関する全ての参加者データストリームの前記レベル推定値のうちで最も高いレベル推定値を有するデータストリームであると決定するように適合化されている請求項１０に記載の装置。
バッファ管理のための装置であって、
あるバッファのバッファ・オーディオ・データにアクセス・バッファ・オーディオ・データとしてアクセスするためのバッファ・アクセス・ユニットであって、前記バッファ・オーディオ・データは符号化されたオーディオ信号を含むバッファ・アクセス・ユニットと、
前記符号化されたオーディオ信号のレベルを推定するための請求項１から１２のいずれか一項に記載の装置と、
前記符号化されたオーディオ信号の前記レベル推定値に基づいて、前記アクセス・バッファ・オーディオ・データが前記バッファから削除されるべきか否かを決定するための決定器と、
を備えている装置。
コードブックに関連づけられたコードブックレベル値を発生するための方法であって、
前記コードブックの各コードワードについて、前記コードブックのコードワードに関連づけられた数値列を決定することと、
前記コードブックの各コードワードについて逆量子化数値列を、前記コードブックの各コードワードについてコードワードの前記数値列の数値へ逆量子化器を適用することにより決定することと、
前記コードブックの各コードワードのレベル値列を、コードブックレベル値としてエネルギー値が発生される場合には前記コードブックの各コードワードについてコードワードの前記逆量子化数値列の各値の二乗を計算することにより決定し、又は、コードブックレベル値として振幅値が発生される場合には前記コードブックの各コードワードについてコードワードの前記逆量子化数値列の各値の絶対値を計算することにより決定し、又はコードブックレベル値としてラウドネス値が決定される場合には前記コードブックの各コードワードについてコードワードの前記逆量子化数値列の各値をラウドネス領域へ変換することにより決定することと、
前記コードブックの各コードワードについてのレベル和値を、前記コードブックの各コードワードの前記レベル値列の値を合計することにより計算することと、
前記コードブックの各コードワードについての確率加重レベル和値を、前記コードブックの各コードワードについて、前記コードワードの前記レベル和値に前記コードワードに関連づけられた確率値を掛けることにより決定することと、
前記コードブックの各コードワードについての確率加重レベル和平均値を、前記コードブックの各コードワードについて、コードワードの前記確率加重レベル和値を前記コードブックに関連づけられるディメンション値で除算することにより決定することと、
前記コードブックレベル値を、全てのコードワードの確率加重レベル和平均値を合計することにより計算することを含む方法。
前記コードワードに関連づけられた前記確率値は、式：
２^{-(長さ(コードワード))}
に従って計算される請求項１４に記載の方法。
ここで、長さ（コードワード）は前記コードワードの長さを示す。
符号化されたオーディオ信号のレベルを推定するための方法であって、
複数のコードブックから１つのコードブックを、前記オーディオ信号を符号化するのに用いられたコードブック、すなわち識別されたコードブックとして決定することと、
前記識別されたコードブックに関連づけられたレベル値を導出することと、
前記レベル値を用いて前記オーディオ信号のレベル推定値を推定することを含む方法。
入力データから出力データストリームを発生するための方法であって、
符号化されたオーディオ信号を含む前記入力データを受信することと、
複数のコードブックから１つのコードブックを、前記オーディオ信号を符号化するのに用いられたコードブック、すなわち識別されたコードブックとして決定することと、
前記識別されたコードブックに関連づけられたレベル値を導出することと、
前記レベル値を用いて前記オーディオ信号のレベル推定値を推定することと、
前記符号化されたオーディオ信号の一部分が前記出力データストリームに含まれるべきか否かを、前記符号化されたオーディオ信号の前記一部分に関する前記レベル推定値に基づいて決定することを含む方法。
符号化されたオーディオ信号を含む入力データをバッファに格納するための方法であって、
前記符号化されたオーディオ信号を含む前記入力データを受信することと、
複数のコードブックから１つのコードブックを、前記オーディオ信号を符号化するのに用いられたコードブック、すなわち識別されたコードブックとして決定することと、
前記識別されたコードブックに関連づけられたレベル値を導出することと、
前記レベル値を用いて前記オーディオ信号のレベル推定値を推定することと、
前記符号化されたオーディオ信号の一部分が前記バッファに格納されるべきか否かを、前記符号化されたオーディオ信号の前記一部分に関する前記レベル推定値に基づいて決定することを含む方法。
コンピュータ又は信号プロセッサに請求項１４から１８のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。