JP6160072B2

JP6160072B2 - オーディオ信号符号化装置および方法、オーディオ信号伝送システムおよび方法、オーディオ信号復号装置

Info

Publication number: JP6160072B2
Application number: JP2012267142A
Authority: JP
Inventors: 太郎外川; 千里石川; 洋平岸; 猛大谷; 鈴木　政直; 政直鈴木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-12-06
Filing date: 2012-12-06
Publication date: 2017-07-12
Anticipated expiration: 2032-12-06
Also published as: CN103854656B; US9424830B2; EP2741287A1; JP2014115316A; CN103854656A; US20140161269A1; EP2741287B1

Description

本明細書で議論される実施態様は、オーディオ信号符号化、復号、伝送技術に関するものである。

モバイル向けのマルチメディア放送では低ビットレートが求められており、音声などのオーディオ信号について、人の聴覚特性を考慮し、例えば知覚可能な音だけを符号化して送る符号化が行なわれている。

符号化を行う従来技術として、次のような技術が知られている（例えば特許文献１）。音声符号化装置は、次のものを備える。複数のフレームに分割された入力音声信号データを一時記憶する入力データメモリを備える。各フレームごとに周波数分割したデータとする周波数分割フィルタバンクを備える。量子化ステップ幅を計算すべきフレームを中に挟む前後のｉ個のフレームを受け該当するフレームのスペクトラム解析の結果とマスキングの効果を含む人間の聴覚特性とを用いて量子化ステップ幅を計算する心理聴覚分析部を備える。周波数分割フィルタバンクの出力を心理聴覚分析部の示す量子化ステップ幅で量子化する量子化器を備える。そして、量子化器の量子化したデータを多重化する多重化器を備える。また、心理聴覚分析部は、フレームの周波数解析を行うスペクトラム計算器と、マスキングカーブを求めるマスキングカーブ予測器と、量子化ステップ幅を求める量子化ステップ幅予測器を含む。

また、他の従来技術として、次のような技術が知られている（例えば特許文献２）。音楽等のオーディオ信号の場合、圧縮により省略される信号成分（マスキー）は、以前マスカーであったものが減衰したものが多い。そこで、伸長したオーディオ信号に残響を付与することにより、以前はマスカーであったが、今はマスキーとなっている信号成分を今の信号に取り込み、擬似的に原音のオーディオ信号を復元する。人間の聴覚マスキング特性は、周波数によって異なる。そこで、オーディオ信号を複数の周波数帯域の部分帯域信号に分割し、各周波数帯域のマスキング特性に合わせた特性の残響を付与する。

さらに、次のような技術も知られている（例えば特許文献３）。エンコーダでは、オーディオ信号が、エコーの無い信号部分と、オーディオ信号に関連する残響場についての情報とに分割され、好ましくは、残響時間及び残響振幅のようなほんの僅かなパラメータを用いる表現によって分割される。その後、エコーの無い信号が、オーディオコーデックを使用して符号化される。デコーダでは、エコーの無い信号部分が、オーディオコーデックを使用して復元される。

特開平９−３２１６２８号公報特開２００７−２７１６８６号公報特表２００８−５０３７９３号公報

これらの従来技術では、更なる低ビットレート化の要請に対して不十分であった。
本発明の一態様によれば、オーディオ信号符号化あるいはオーディオ信号復号において、更なる低ビットレート化を目的とする。

本発明の一態様によれば、オーティオ信号符号化装置において、オーディオ信号の量子化を行う量子化器、オーディオ信号で表されている音の再生によって再生環境で生じる音の残響が音に及ぼす残響マスキングの特性を取得する残響マスキング特性取得部、及び量子化器の量子化ステップ幅を残響マスキングの特性に基づいて制御する制御部を備えるものを提供する。

本発明の一態様によれば、更なる低ビットレート化が可能となるという効果を奏する。

入力オーディオ信号の符号化において、入力オーディオ信号の音質を向上させるために一般的に考えられる符号化装置の構成例を示す図である。図１の構成による符号化装置の作用効果を説明する模式図である。第１の実施形態である符号化装置のブロック図である。図３の構成を有する第１の実施形態である符号化装置における残響特性３０９の説明図である。残響なしと残響ありの場合における図３の符号化装置による符号化動作を説明する図である。第２の実施形態であるオーディオ符号化装置のブロック図である。残響特性記憶部６１２に記憶されるデータの構成例を示す図である。図６の残響マスキング算出部６０２のブロック図である。残響マスキングの特性として残響が音に及ぼす周波数マスキングを用いる場合のマスキング算出の例を示す説明図である。残響マスキングの特性として残響が音に及ぼす継時マスキングを用いる場合のマスキング算出の例を示す説明図である。図６のマスキング合成部６０３のブロック図である。最大値算出部１１０１の動作説明図である。図６の構成を有する第２の実施形態のオーディオ符号化装置の機能をソフトウェア処理によって実現する装置の制御動作を示すフローチャートである。第３の実施形態であるオーディオ信号伝送システムのブロック図である。図１４の残響特性推定部１４０７のブロック図である。図１５の構成として示される残響特性推定部１４０７の機能をソフトウェア処理によって実現する装置の制御動作を示すフローチャートである。再生環境の残響特性１４０８を事前送付する処理を行う場合の符号化装置１４０１と復号再生装置１４０２の制御処理を示すフローチャートである。再生環境の残響特性１４０８を定期的に送付する処理を行う場合の符号化装置１４０１と復号再生装置１４０２の制御処理を示すフローチャートである。

以下、図面を参照しながら本発明の実施形態について詳細に説明する。
各実施形態について説明する前に、一般的に考えられる技術について説明する。
図１は、入力オーディオ信号の符号化において、入力オーディオ信号の音質を向上させるために一般的に考えられる符号化装置の構成例を示す図である。

離散信号として入力した入力音は、修正離散コサイン変換（ＭＤＣＴ：ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）部１０１において、周波数領域の信号に変換される。この周波数領域の各周波数成分信号は、量子化部１０２においてそれぞれ量子化される。各周波数成分信号毎に量子化された各量子化データは、多重化部１０３によって、符号化ビット列に多重化され、出力データとして出力される。

聴覚マスキング算出部１０３は、入力音の一定時間長のフレーム毎に周波数解析を行う。聴覚マスキング算出部１０３は、その計算結果と人間の聴覚特性であるマスキング効果とを考慮してマスキングカーブを求め、そのマスキングカーブから各量子化データの量子化ステップ幅を求め、量子化部１０２に通知する。量子化部１０２は、聴覚マスキング算出部１０３から通知された量子化ステップ幅で、修正離散コサイン変換部１０１から出力される周波数領域の各周波数信号成分を量子化する。

図２は、図１の構成による符号化装置の作用効果を説明する模式図である。
いま例えば、図１の入力音が模式的に、図２のＳ１、Ｓ２、Ｓ３、Ｓ４として示される音源周波数信号成分を持っているとする。この場合、人間は、例えば音源Ｓ２の電力値に対して、２０１で示されるマスキングカーブ（周波数特性）を有する。つまり人間は、入力音中に音源Ｓ２が存在するときに、図２のマスキングカーブ２０１よりも電力値が小さいマスキング範囲２０２内の各周波数電力成分は、聞こえにくくなる。すなわち、マスキングされる。

従って、この部分はもともと聞こえにくいため、図２において、マスキング範囲２０２内に電力値が入る音源Ｓ１および音源Ｓ３の各周波数信号成分に細かい量子化ステップ幅を割り当てて量子化しても、無駄である。一方、図２において、マスキング範囲２０２よりも電力値が上回る音源Ｓ２とＳ４については、人間は良く聞き分けることができるため、細かい量子化ステップ幅を与えるのが望ましい。

そこで、図２の符号化装置では、聴覚マスキング算出部１０３が、入力音を周波数分析することにより、図２のマスキングカーブ２０１を算出する。そして、聴覚マスキング算出部１０３は、電力値がマスキングカーブ２０１よりも小さくなる範囲に入ると予測される周波数信号成分については、その量子化ステップ幅を粗くする。一方、聴覚マスキング算出部１０３は、電力値がマスキングカーブ２０１よりも大きくなる範囲に入ると予測される周波数信号成分については、その量子化ステップ幅を細かくする。

このようにして、図１の構成を有する符号化装置では、細かく聞き分ける必要がない周波数信号成分については量子化ステップ幅を粗くして符号化ビット数を減らすことによって、符号化効率を向上させている。

このような符号化装置において、入力音について例えば、サンプリング周波数が４８ｋＨｚ（キロヘルツ）、ステレオ音声、符号化方式がＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）方式である場合を考える。この場合、ビットレートが例えば１２８ｋｂｐｓ（キロビット／秒）のＣＤ（ＣｏｎｐａｃｔＤｉｓｋ）音質であれば、図１の構成を有する符号化装置を用いることにより、符号化効率は向上すると考えられる。しかし、例えば９６ｋｂｐｓ以下のストリーミング音質、あるいは携帯電話の通話音質程度の低ビットレート条件になると、符号化された音声の音質が劣化してしまうという課題がある。従って、このような低ビットレート条件であっても、音質を落とさずに符号化ビット数を削減することが必要となる。

図３は、第１の実施形態である符号化装置のブロック図である。
図３において、量子化器３０１は、オーディオ信号の量子化を行う。より具体的には例えば、周波数分割部３０５がオーディオ信号を複数の周波数帯域の部分信号に分割し、量子化器３０１は複数の部分信号を各々量子化し、さらに多重化器３０６が、量子化器３０１によって量子化された複数の部分信号を多重化する。

次に、図３において、残響マスキング特性取得部３０２は、オーディオ信号で表されている音の再生によって再生環境で生じる音の残響が音に及ぼす残響マスキングの特性３０７を取得する。この残響マスキング特性取得部３０２は例えば、残響マスキングの特性３０７として、残響が音に及ぼす周波数マスキングの特性を取得する。あるいは、残響マスキング特性取得部３０２は例えば、残響マスキングの特性３０７として、残響が音に及ぼす継時マスキングの特性を取得する。また、残響マスキング特性取得部３０２は例えば、オーディオ信号と、再生環境の残響特性３０９と、予め用意されている人の聴覚心理モデルとを用いて残響マスキングの特性３０７を算出する。このとき、残響マスキング特性取得部３０２は例えば、残響特性３０９として、再生環境毎に予め用意されている残響特性から選択されたものを用いて残響マスキングの特性３０７を算出する。さらにこのとき、残響マスキング特性取得部３０２は、再生環境に対応する残響特性の選択情報を受け取ることにより、再生環境に対応する残響特性３０９を選択する。また、残響マスキング特性取得部３０２は例えば、残響特性３０９として、再生環境で収音した音と、その音を収音したときに再生環境で発せられていた音とに基づいた再生環境における残響特性の推定結果である残響特性を入力して、残響マスキングの特性３０７を算出する。

図３において、制御部３０３は、量子化器３０１の量子化ステップ幅３０８を、残響マスキングの特性３０７に基づいて制御する。この制御部３０３は例えば、残響マスキングの特性３０７に基づき、オーディオ信号で表されている音の大きさが残響によってマスクされる大きさである場合には、残響によってマスクされない大きさである場合よりも量子化ステップ幅３０８を広げる制御を行う。

上記構成に加えて更に、聴覚マスキング特性取得部３０４は、人の聴覚特性がオーディオ信号で表されている音に及ぼす聴覚マスキングの特性を取得する。そして、制御部３０３は、量子化器３０１の量子化ステップ幅３０８を、更に、聴覚マスキングの特性にも基づいて制御する。より具体的には、残響マスキング特性取得部３０２が、残響マスキングの特性３０７として、残響によってマスクされる音の大きさの周波数特性を取得し、聴覚マスキング特性取得部３０４が、聴覚マスキングの特性３１０として、人の聴覚特性によってマスクされる音の大きさの周波数特性を取得する。そして、制御部３０３は、残響マスキングの特性３０７の周波数特性と聴覚マスキングの特性３１０の周波数特性とにおいて、周波数毎に大きい方の特性を選択して得られる合成マスキング特性に基づいて量子化器３０１の量子化ステップ幅３０８を制御する。

図４は、図３の構成を有する第１の実施形態である符号化装置における残響特性３０９の説明図である。
送信側４０１において、入力音（図１のオーディオ信号に対応する）が符号化装置４０３にて符号化され、その結果得られた符号化データ４０５（図１の出力データに対応する）が、再生側４０２の再生装置４０４に伝送され、その再生装置４０４にて復号されて再生される。ここで、再生装置４０４がスピーカからユーザに対して放音を行うときの再生環境では、一般に直接音４０６に加えて、残響４０７が生じる。

第１の実施形態では、この再生環境における残響４０７の特性を残響特性３０９として、図３の構成を有する符号化装置４０３に与える。図３の構成を有する符号化装置４０３では、制御部３０３が、残響マスキング特性取得部３０２が残響特性３０９に基づいて取得した残響マスキングの特性３０７に基づいて、量子化器３０１の量子化ステップ幅３０８を制御する。より具体的には、制御部３０３は、残響マスキングの特性３０７の周波数特性と聴覚マスキング特性取得部３０４が取得した聴覚マスキングの特性３１０の周波数特性とにおいて、周波数毎に大きい方の特性を選択して得られる合成マスキング特性を生成する。制御部３０３は、この合成マスキング特性に基づいて量子化器３０１の量子化ステップ幅３０８を制御する。これにより、符号化装置４０３では、残響に埋もれる周波数はなるべく符号化されないように符号化データ４０５が出力される制御が実施される。

図５は、残響なしと残響ありの場合における図３の符号化装置による符号化動作を説明する図である。
図５（ａ）に示される残響なしの場合には、例えばオーディオ信号に２つの音源Ｐ１、Ｐ２が含まれている場合、聴覚マスキングの範囲は、それぞれの音源Ｐ１、Ｐ２に対して、５０１および５０２で示される各範囲となる。この場合、音源Ｐ１、Ｐ２とも、それぞれの電力値は、聴覚マスキングの範囲の上に出るため、図３の制御部３０３は、聴覚マスキングの特性に基づいて、音源Ｐ１、Ｐ２に対応するそれぞれの周波数信号成分に対して、量子化ステップ幅３０８として細かい値を割り当てる必要がある。

一方、残響ありの場合には、図４で説明したように、ユーザは、直接音４０６に加えて残響４０７の影響も受け、聴覚マスキングに加えて残響マスキングも受けることになる。
そこで、図３の制御部３０３は、聴覚マスキングの特性３１０に基づく聴覚マスキングの範囲５０１、５０２のほかに、残響マスキングの特性３０７に基づく残響マスキングの範囲５０３も考慮して各周波数信号成分の量子化ステップ幅３０８を制御する。具体的には、図５（ｂ）に示される残響ありの場合で、残響マスキングの範囲５０３が聴覚マスキングの範囲５０１、５０２を全体的に包含するような場合を考える。すなわち、図４に示されるように、再生環境において残響４０７がかなり大きい場合である。そして、音源Ｐ２の周波数信号成分において、聴覚マスキングの範囲５０１、５０２の電力値よりも、残響マスキングの範囲５０３の電力値のほうが大きく、かつ音源Ｐ２の電力値が残響マスキングの範囲５０３内に入るような場合を考える。この場合には、図３の制御部３０３は、聴覚マスキングの特性３１０と残響マスキングの特性３０７に基づいて、音源Ｐ２に対応する周波数信号成分の量子化ステップ幅３０８を粗くする。

この結果、聴覚マスキングの特性３１０よりも残響マスキングの特性３０７のほうが大きい場合に、残響に埋もれる周波数はなるべく符号化されないように符号化が行われる。これにより、図３の第１の実施形態の符号化装置では、図１で説明した聴覚マスキングの特性のみに基づいて制御を行う一般的な構成の符号化装置に比べて、残響によりマスクされない音響成分のみを符号化することにより、符号化効率を改善することが可能となる。そして、低ビットレートにおける音質を向上させることが可能となる。

実験によれば、入力音が発話音声で、再生環境が残響が大きい室内等である条件で、マスクされる周波数帯域の割合が、聴覚マスキングのみの場合は入力音の全周波数帯域の７％程度であったのが、残響マスキングも考慮することにより２４％程度になった。これにより、上述の条件において、第１の実施形態の符号化装置では、符号化効率を聴覚マスキングのみを考慮した符号化装置に対して、約３倍改善することが可能となった。

第１の実施形態によれば、更なる低ビットレートを実現でき、特に、残響がある場合において、同一Ｓ／Ｎを実現するために必要なビットレートを低くできるところに効果がある。第１の実施形態によれば、残響成分を積極的に符号化して再生側で付加するものではなく、再生側で発生する残響に埋もれる部分は符号化しないものである。

図６は、第２の実施形態であるオーディオ符号化装置のブロック図である。このオーディオ符号化装置は、入力された再生環境の種類（広い部屋、狭い部屋、浴室など）から再生環境の残響特性を選択し、残響マスキングを利用して入力信号の符号化効率を向上するオーディオ符号化装置である。この第２の実施形態の構成は、例えばマルチメディア放送機器のＬＳＩ（大規模集積回路）への利用が考えられる。

図６において、修正離散コサイン変換（ＭＤＣＴ：ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）部６０５は、入力信号（図３のオーディオ信号に対応する）を、一定時間長のフレーム単位ごとの周波数信号成分に分割する。ＭＤＣＴは、フレーム単位で入力信号を切り出す窓データを半分ずつ重複させながら周波数変換を行う重複直交変換手法で、複数個の入力信号からその１／２個の周波数信号成分の係数列を出力することで変換後のデータ量を削減する、公知の周波数分割手法である。

残響特性記憶部６１２（図３の残響マスキング特性取得部３０２の一部に対応する）は、複数の再生環境の種類ごとに、複数の残響特性を記憶する。残響特性は、再生環境における残響（図４の４０７に対応する）のインパルス応答である。

残響特性選択部６１１（図３の残響マスキング特性取得部３０２の一部に対応する）は、残響特性記憶部６１２から、入力された再生環境の種類６１３に対応する残響特性６０９を読み出す。そして、残響特性選択部６１１は、その残響特性６０９を、残響マスキング算出部６０２（図３の残響マスキング特性取得部３０２の一部に対応する）に与える。

残響マスキング算出部６０２は、入力信号と、再生環境の残響特性６０９と、予め用意されている人の聴覚心理モデルとを用いて残響マスキングの特性６０７を算出する。

聴覚マスキング算出部６０４（図３の聴覚マスキング特性取得部３０４に対応する）は、入力信号から聴覚マスキング閾値（順向、逆向マスキング）である聴覚マスキングの特性６１０を算出する。この聴覚マスキング算出部６０４は例えば、入力信号として、一定長の複数のフレームを受け各フレームごとに周波数解析を行うスペクトラム計算部を具備する。聴覚マスキング算出部６０４はさらに、スペクトラム計算部の計算結果と人間の聴覚特性であるマスキング効果とを考慮して聴覚マスキングの特性６１０であるマスキングカーブを求めるマスキングカーブ予測部を具備する。（例えば特許文献１に記載を参照）

マスキング合成部６０３（図３の制御部３０３に対応する）は、残響マスキングの特性６０７の周波数特性と聴覚マスキングの特性６１０の周波数特性とにおいて、周波数毎に大きい方の特性を選択して得られる合成マスキング特性に基づいて量子化器６０１の量子化ステップ幅６０８を制御する。

量子化器６０１は、ＭＤＣＴ部６０５から出力される複数の周波数帯域の部分信号を、各周波数帯域に対応してマスキング合成部６０３から入力される対応する量子化ステップ幅６０８に対応する量子化ビット数で量子化を行う。具体的には、入力信号の周波数成分が合成マスキング特性の閾値に比較して大きい場合は量子化ビット数が大きく（量子化ステップ幅が細かく）され、入力信号の周波数成分が合成マスキング特性の閾値に比較して小さい場合は量子化ビット数小さく（量子化ステップ幅が粗く）される。

多重化器６０６は、量子化器６０１によって量子化された複数の周波数成分の部分信号のデータを、符号化ビット列に多重化する。
図６の第２の実施形態のオーディオ符号化装置の動作について、以下に説明する。

まず、複数の残響特性（インパルス応答）を事前に図６の残響特性記憶部６１２に記録する。図７は、残響特性記憶部６１２に記憶されるデータの構成例を示す図である。再生環境の種類と対応づけて残響特性を記録する。残響特性は、再生環境の種類に対応する典型的な室内インパルス応答の測定結果を用いる。

図６の残響特性選択部６１１は、再生環境の種類６１３を取得する。例えば、符号化装置に種類選択用ボタンを設け、再生環境に合わせてユーザが事前に種類を選択する。残響特性選択部６１１は、残響特性記憶部６１２を参照し、取得した再生環境の種類６１３に対応する残響特性６０９を出力する。

図８は、図６の残響マスキング算出部６０２のブロック図である。
残響信号生成部８０１は、下記数１式に基づいて、図６の残響特性選択部６１１から出力される残響特性６０９である残響環境のインパルス応答８０４を用いて、入力信号８０５から残響信号８０６を生成する公知のＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ：有限インパルス応答）フィルタである。

上記数１式において、ｘ（ｔ）は入力信号８０５、ｒ（ｔ）は残響信号８０６、ｈ（ｔ）は残響環境のインパルス応答８０４、ＴＨは、残響の開始時刻（例えば１００ｍｓ（ミリ秒））である。

時間−周波数変換部８０２は、残響信号８０６に対応する残響スペクトル８０７を求める。具体的には、時間−周波数変換部８０２は例えば、高速フーリエ変換（ＦＦＴ：ＦarｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）計算または離散コサイン変換（ＤＣＴ：ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）計算を実行する。ＦＦＴ計算を実行する場合には、下記数２式の演算が実行される。

上記数２式において、ｒ（ｔ）は残響信号８０６、Ｒ（ｊ）は残響スペクトル８０７、ｎは高速フーリエ変換を実行する残響信号８０６の分析離散時間長（例えば５１２点）、ｊは周波数ビン（周波数軸上の信号ポイント）である。

マスキング算出部８０３は、聴覚心理モデル８０８を用いて残響スペクトル８０７からマスキング閾値を求め、残響マスキング閾値８０９として出力する。この残響マスキング閾値８０９は、図６において、残響マスキングの特性６０７として残響マスキング算出部６０２からマスキング合成部６０３に与えられる。

図９は、図６の残響マスキングの特性６０７として残響が音に及ぼす周波数マスキングを用いる場合のマスキング算出の例を示す説明図である。図９（ａ）、（ｂ）、または（ｃ）において、横軸は残響スペクトル８０７の周波数、縦軸は各残響スペクトル８０７の電力［ｄｂ（デシベル）］である。

まず、図８のマスキング算出部８０３は、図９で破線の特性カーブとして示される残響スペクトル８０７の特性において、電力ピーク９０１を推定する。図９（ａ）では２つの電力ピーク９０１が推定される。これら２つの電力ピーク９０１の各周波数をＡ、Ｂとする。

次に、図８のマスキング算出部８０３は、各電力ピーク９０１によるマスキング閾値を算出する。電力ピーク９０１の周波数Ａ、Ｂが決まればマスキング範囲が決まるような周波数マスキングモデルが知られており、例えば文献「聴覚と音響心理」（コロナ社、ｐ．１１１−１１２）に記載の周波数マスキング量を用いることができる。一般に、聴覚心理モデル８０８に基づけば、次のような特性がある。図９（ａ）に示される電力ピーク９０１において、例えば図９（ａ）の周波数Ａを有する電力ピーク９０１のようにその周波数が低ければ、電力ピーク９０１を頂上としてその両側に下降するマスキングカーブ９０２Ａの傾斜は急峻になる。この結果、周波数Ａの周囲でマスキングされる周波数範囲は狭くなる。また、例えば図９（ａ）の周波数Ｂを有する電力ピーク９０１のようにその周波数が高ければ、電力ピーク９０１を頂上としてその両側に下降するマスキングカーブ９０２Ｂの傾斜は緩やかになる。この結果、周波数Ｂの周囲でマスキングされる周波数範囲は広くなる。マスキング算出部８０３は、このような周波数特性を聴覚心理モデル８０８として入力し、各周波数ＡおよびＢの電力ピーク９０１毎に、周波数方向の対数値（デシベル値）例えば図９（ｂ）の一点鎖線の三角特性に示されるようなマスキングカーブ９０２Ａ、９０２Ｂを算出する。

最後に、図８のマスキング算出部８０３は、図９（ａ）の残響スペクトル８０７の特性カーブと図９（ｂ）のマスキング閾値のマスキングカーブ９０２Ａ、９０２Ｂとで、周波数ビンごとに、最大となる方を選択する。これにより、マスキング算出部８０３は、マスキング閾値を統合し、その統合結果を残響マスキング閾値８０９として出力する。図９（ｃ）の例では、太実線の特性カーブとして残響マスキング閾値８０９が得られる。

図１０は、図６の残響マスキングの特性６０７として残響が音に及ぼす継時マスキングを用いる場合のマスキング算出の例を示す説明図である。図１０（ａ）または（ｂ）において、横軸は時間、縦軸は各周波数帯域（周波数ビン）の残響信号８０６の周波数信号成分の各時間における電力［ｄｂ（デシベル）］である。図１０（ａ）または（ｂ）はそれぞれ、図８の時間−周波数変換部８０２から出力される任意の一つの周波数帯域（周波数ビン）における周波数信号成分の時間変化を示すものである。

まず、図８のマスキング算出部８０３は、各周波数帯域の残響信号８０６の周波数信号成分１００１の時間変化において、時間軸方向の電力ピーク１００２を推定する。図１０（ａ）では２つの電力ピーク１００２が推定される。これら２つの電力ピーク１００１の各時間をａ，ｂとする。

次に、図８のマスキング算出部８０３は、各電力ピーク１００２によるマスキング閾値を算出する。電力ピーク１００２の時間ａ，ｂが決まれば各時間ａ，ｂを境として順向（各時間ａ，ｂに後続する時間方向）および逆向（各時間ａ，ｂに先行する時間方向）のマスキング範囲を決めることができる。この結果、マスキング算出部８０３は、各時間ａおよびｂの電力ピーク１００２毎に、時間方向の対数値（デジベル値）で例えば図１０（ａ）の一点鎖線の三角特性に示されるようなマスキングカーブ１００３ａ、１００３ｂを算出する。順向の各マスキング範囲は一般に電力ピーク１００２の時間以後約１００ミリ秒付近まで、逆向のマスキング範囲は一般に電力ピーク１００２の時間以前約２０ミリ秒付近までである。マスキング算出部８０３は、各時間ａおよびｂの電力ピーク１００２毎に、上記順向および逆向の時間特性を聴覚心理モデル８０８として入力する。マスキング算出部８０３は、この時間特性に基づき、各電力ピーク１００２から順向および逆向の各方向に時間が遠ざかるに従ってマスキング量が指数関数的に減少するマスキングカーブを算出する。

最後に、図８のマスキング算出部８０３は、周波数帯域毎に、図１０（ａ）の残響信号の周波数信号成分１００１と図１０（ａ）のマスキング閾値のマスキングカーブ１００３Ａ、１００３Ｂとで、離散時間毎に最大となる方を選択する。これにより、マスキング算出部８０３は、周波数帯域毎に、マスキング閾値を統合し、その統合結果をその周波数帯域の残響マスキング閾値８０９として出力する。図１０（ｂ）の例では、太実線の特性カーブとして残響マスキング閾値８０９が得られる。

以上、図８の構成を有する図６の残響マスキング算出部６０２が出力する残響マスキングの特性６０７（残響マスキング閾値８０９）の具体例として、２つの手法について説明した。一つは、残響スペクトル８０７上の電力ピーク９０１を中心として周波数方向のマスキングを行う周波数マスキング（図９）の手法である。もう一つは、残響信号８０６の各周波数信号成分の時間軸方向の電力ピーク１００２を中心として順向および逆向のマスキングを行う継時マスキング（図１０）の手法である。

残響マスキングの特性６０７（残響マスキング閾値８０９）を得るためのこれらのマスキング手法としては、そのどちらか一方が適用されてもよいし、両方が適用されてもよい。

図１１は、図６のマスキング合成部６０３のブロック図である。マスキング合成部６０３は、最大値算出部１１０１を備える。最大値算出部１１０１は、図６の残響マスキング算出部６０２から残響マスキングの特性６０７として、残響マスキング閾値８０９（図８参照）を入力する。また、最大値算出部１１０１は、図６の聴覚マスキング算出部６０４から聴覚マスキングの特性６１０として、聴覚マスキング閾値１１０２を入力する。そして、最大値算出部１１０１は、周波数帯域（周波数ビン）毎に、残響マスキング閾値８０９と聴覚マスキング閾値１１０２とで、電力値が大きい方の値を選択し、合成マスキング閾値１１０３（合成マスキング特性）を算出する。

図１２は、最大値算出部１１０１の動作説明図である。図１２（ａ）において、周波数軸上の各周波数帯域（周波数ビン）毎に、残響マスキング閾値８０９と聴覚マスキング閾値１１０２の電力値が比較される。この結果、図１２（ｂ）に示されるように、最大値が合成マスキング閾値１１０３として算出される。

なお、各周波数帯域（周波数ビン）毎に、残響マスキング閾値８０９と聴覚マスキング閾値１１０２の電力値の最大値ではなく、残響マスキング閾値８０９と聴覚マスキング閾値１１０２の各対数電力値（デシベル値）が位相に応じた重み付けをされて合計され、その結果が合成マスキング閾値１１０３として算出されてもよい。

このようにして、第２の実施形態では、入力信号と残響の両方にマスクされて聞こえなくなる周波数範囲を算出することが可能となり、この合成マスキング閾値１１０３（合成マスキング特性）を用いることにより、さらに効率的な符号化が可能となる。

図１３は、図６の構成を有する第２の実施形態のオーディオ符号化装置の機能をソフトウェア処理によって実現する装置の制御動作を示すフローチャートである。この制御動作は、オーディオ符号化装置を実現する特には図示しないプロセッサが、特には図示しないメモリに記憶された制御プログラムを実行する動作として実現される。

まず、入力された再生環境の種類６１３（図６）が取得される（ステップＳ１３０１）。
次に、図６の残響特性記憶部６１２から、入力された再生環境の種類６１３に対応する残響特性６０９のインパルス応答が選択されて読み出される（ステップＳ１３０２）。

以上のステップＳ１３０１およびＳ１３０２の処理は、図６の残響特性選択部６１１に対応する。

次に、入力信号が取得される（ステップＳ１３０３）。
そして、聴覚マスキング閾値１１０２（図１１）が算出される（ステップＳ１３０４）。

以上のステップＳ１３０３およびＳ１３０４の処理は、図６の聴覚マスキング算出部６０４に対応する。

また、ステップＳ１３０２で得られた残響特性６０９のインパルス応答とステップＳ１３０３で得られた入力信号と、予め用意されている人の聴覚心理モデルとを用いて残響マスキング閾値８０９（図８）が算出される（ステップＳ１３０５）。ここでの算出処理は、図８から図１０で説明したものと同様である。

以上のステップＳ１３０３およびＳ１３０５の処理は、図６および図８の残響マスキング算出部６０２に対応する。

次に、聴覚マスキング閾値１１０２と残響マスキング閾値８０９が合成され、合成マスキング閾値１１０３（図１１）が算出される（ステップＳ１３０６）。ここでの合成処理は、図１１および図１２で説明したものと同様である。
このステップＳ１３０６の処理は、図６のマスキング合成部６０３に対応する。

次に、合成マスキング閾値１１０３を用いて、入力信号が量子化される（ステップＳ１３０７）。具体的には、入力信号の周波数成分が合成マスキング閾値１１０３に比較して大きい場合は量子化ビット数が大きく（量子化ステップ幅が細かく）され、入力信号の周波数成分が合成マスキング特性の閾値に比較して小さい場合は量子化ビット数小さく（量子化ステップ幅が粗く）される。

このステップＳ１３０７の処理は、図６のマスキング合成部６０３の一部の機能と量子化器６０１に対応する。

次に、ステップＳ１３０７で量子化された複数の周波数成分の部分信号のデータが、符号化ビット列に多重化される（ステップＳ１３０８）。

そして、生成された符号化ビット列が出力される（ステップＳ１３０９）。
以上のステップＳ１３０８およびＳ１３０９の処理は、図６の多重化器６０６に対応する。

第２の実施形態によれば、第１の実施形態の場合と同様に、更なる低ビットレート化が可能となる。また、オーディオ符号化装置内の残響特性記憶部６１２に残響特性６０９を記憶させることにより、符号化装置１４０１残響特性を外部から与えなくても再生環境の種類６１３を指定するだけで、残響マスキングの特性６０７を得ることが可能となる。

図１４は、第３の実施形態であるオーディオ信号伝送システムのブロック図である。
このシステムは、復号再生装置１４０２における再生環境の残響特性１４０８を推定し、それを符号化装置１４０１に通知することにより、残響マスキングを利用して入力信号の符号化効率を向上するオーディオ信号伝送システムである。例えば、マルチメディア放送機器および受信端末への利用が考えられる。

まず、符号化装置１４０１を構成する量子化器６０１、残響マスキング算出部６０２、マスキング合成部６０３、聴覚マスキング算出部６０４、ＭＤＣＴ部６０５、および多重化器６０６の構成および機能は、第２の実施形態に係る図６に示されたものと同様である。

符号化装置１４０１内の多重化器６０６から出力された符号化ビット列１４０３は、復号再生装置１４０２において、復号部１４０４で受信される。

復号部１４０４は、符号化ビット列１４０３として符号化装置１４０１から送られてくる量子化されたオーディオ信号（入力信号）を復号する。復号方式としては、例えばＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）方式を採用することができる。

放音部１４０５は、復号されたオーディオ信号の音を含む音を再生環境で放音する。具体的には例えば、放音部１４０５は、オーティオ信号を増幅する増幅器と、増幅されたオーディオ信号を放音するスピーカを備える。

収音部１４０６は、放音部１４０５により放音された音を再生環境で収音する。具体的には例えば、収音部１４０６は、放音された音を収音するマイクと、マイクから出力された音声信号を増幅する増幅器と、増幅器から出力された音声信号をデジタル信号に変換するアナログ−デジタル変換器を備える。

残響特性推定部（推定部）１４０７は、収音部１４０６により収音された音と放音部１４０５により放音された音とに基づいて再生環境の残響特性１４０８を推定する。再生環境の残響特性１４０８は、例えば再生環境における残響（図４の４０７に対応する）のインパルス応答である。

残響特性送信部１４０９は、残響特性推定部１４０７により推定された再生環境の残響特性１４０８を、符号化装置１４０１へ送信する。
これに対して、符号化装置１４０１内の残響特性受信部１４１０は、復号再生装置１４０２から送られてきた再生環境の残響特性１４０８を受信し、残響マスキング算出部６０２に転送する。

符号化装置１４０１内の残響マスキング算出部６０２は、入力信号と、復号再生装置１４０２側から通知された再生環境の残響特性１４０８と、予め用意されている人の聴覚心理モデルとを用いて残響マスキングの特性６０７を算出する。図６に示した第２の実施形態では、残響マスキング算出部６０２は、残響特性選択部６１１が入力された再生環境の種類６１３に対応して残響特性記憶部６１２から読み出した再生環境の残響特性６０９を用いて残響マスキングの特性６０７を算出する。これに対して、図１４に示される第３の実施形態では、復号再生装置１４０２にて推定された再生環境の残響特性１４０８を直接受信して残響マスキングの特性６０７を算出することができる。これにより、再生環境によりマッチした正確な残響マスキングの特性６０７を算出することが可能となり、符号化ビット列１４０３の圧縮効率をより高めて、更なる低ビットレート化が可能となる。

図１５は、図１４の残響特性推定部１４０７のブロック図である。
残響特性推定部１４０７は、図１４の復号部１４０４で復号されたデータ１５０１と、放音部１４０５内のスピーカ１５０２で放音された直接音１５０４、残響１５０５を収音部１４０６内のマイク１５０３で収音した音を入力して動作する適応フィルタ１５０６を備える。適応フィルタ１５０６は、マイク１５０３からの音に自身の適応処理により出力した誤差信号１５０７を加算する動作を繰り返して、再生環境のインパルス応答を推定する。そして、適応処理が終了したフィルタ特性にインパルスが入力されることにより、インパルス応答としての再生環境の残響特性１４０８を得る。

なお、特性が既知のマイク１５０３を使って、適応フィルタ１５０６は、マイク１５０３の既知特性を差し引いて再生環境の残響特性１４０８を推定するように動作してもよい。

このように、第３の実施形態では、残響特性推定部１４０７が、放音部１４０５により放音された音が収音部１４０６に至るまでの伝達特性を適応フィルタ１５０６を用いて求めることで、再生環境の残響特性１４０８を精度良く推定することが可能となる。

図１６は、図１５の構成として示される残響特性推定部１４０７の機能をソフトウェア処理によって実現する装置の制御動作を示すフローチャートである。この制御動作は、復号再生装置１４０２を実現する特には図示しないプロセッサが、特には図示しないメモリに記憶された制御プログラムを実行する動作として実現される。

まず、図１４の復号部１４０４から、復号されたデータ１５０１（図１５）が取得される（ステップＳ１６０１）。

次に、復号されたデータ１５０１がスピーカ１５０２（図１５）から放音される（ステップＳ１６０２）。

次に、再生環境に配置されたマイク１５０３で、音が収音される（ステップＳ１６０３）。

次に、適応フィルタ１５０６を用いて、復号されたデータ１５０１とマイク１５０３からの収音信号から、再生環境のインパルス応答が推定される（ステップＳ１６０４）。

適応処理が終了したフィルタ特性にインパルスが入力されることにより、インパルス応答としての再生環境の残響特性１４０８が出力される（ステップＳ１６０５）。

図１４に示した第３の実施形態の構成において、残響特性推定部１４０７は、オーディオ信号の復号開始時に、予め用意されている試験音を放音部１４０５から放音させて、それを収音部１４０６から収音して再生環境の残響特性１４０８を推定するように動作できる。試験音は、符号化装置１４０１から送信されてもよいし、復号再生装置１４０２自身が生成してもよい。残響特性送信部１４０９は、オーディオ信号の復号開始時に残響特性推定部１４０７が推定した再生環境の残響特性１４０８を符号化装置１４０１へ送信する。これに対して、符号化装置１４０１内の残響マスキング算出部６０２は、残響特性受信部１４１０がオーディオ信号の復号開始時に受信した再生環境の残響特性１４０８に基づいて残響マスキングの特性６０７を取得する。

図１７は、このように再生環境の残響特性１４０８を事前送付する処理を行う場合の符号化装置１４０１と復号再生装置１４０２の制御処理を示すフローチャートである。この制御処理は、ステップＳ１７０１からＳ１７０４までの処理は、復号再生装置１４０２を実現する特には図示しないプロセッサが、特には図示しないメモリに記憶された制御プログラムを実行する動作として実現される。また、ステップＳ１７１１からＳ１７１４までの処理は、符号化装置１４０１を実現する特には図示しないプロセッサが、特には図示しないメモリに記憶された制御プログラムを実行する動作として実現される。

まず、図１４の復号再生装置１４０２が復号処理を開始すると、復号再生装置１４０２側で、開始後例えば１分間、再生環境残響特性６０９を推定する処理が実施される（ステップＳ１７０１）。ここでは、予め用意されている試験音が放音部１４０５から放音させられ、それが収音部１４０６から収音されて再生環境の残響特性１４０８が推定される。試験音は、符号化装置１４０１から送信されてもよいし、復号再生装置１４０２自身が生成してもよい。

次に、ステップＳ１７０１で推定された再生環境の残響特性１４０８が、図１４の符号化装置１４０１へ送信される（ステップＳ１７０２）。

これに対して、符号化装置１４０１側では、再生環境の残響特性１４０８が受信される（ステップＳ１７１１）。これにより、前述した合成マスキング特性を生成して量子化ステップ幅を制御する処理が実行され、符号化効率の最適化が図られる。

その後、符号化装置１４０１において、入力信号を取得し（ステップＳ１７１２）、符号化ビット列１４０３を生成し（ステップＳ１７１３）、その符号化ビット列１４０３を復号再生装置１４０２側に送信（ステップＳ１７１４）する処理が、繰り返し実行開始される。

復号再生装置１４０２側では、符号化装置１４０１側から符号化ビット列１４０３が送られてくると、その符号化ビット列１４０３を受信、復号し（ステップＳ１７０３）、その結果得られる復号信号を再生、放音（ステップＳ１７０４）する処理が繰り返し実行される。

以上の再生環境の残響特性１４０８の事前送付処理により、ユーザが使用する再生環境にマッチしたオーディオ信号の伝送を行うことが可能となる。

一方、上述の事前送付処理ではなく、残響特性推定部１４０７は、所定時間毎に復号部１４０４が復号しているオーディオ信号の再生音を放音部１４０５から放音させて、それを収音部１４０６から収音して再生環境の残響特性１４０８を推定するように動作できる。所定時間毎とは、例えば３０分毎である。残響特性送信部１４０９は、残響特性推定部１４０７が上記推定処理を行う度に、推定された再生環境の残響特性１４０８を符号化装置１４０１へ送信する。これに対して、符号化装置１４０１内の残響マスキング算出部６０２は、残響特性受信部１４１０が再生環境の残響特性１４０８を受信する度に残響マスキングの特性６０７の取得を行う。マスキング合成部６０３は、残響マスキング算出部６０２が残響マスキングの特性６０７を取得する度に、量子化ステップ幅の制御を更新する。

図１８は、このように再生環境の残響特性１４０８を定期的に送付する処理を行う場合の符号化装置１４０１と復号再生装置１４０２の制御処理を示すフローチャートである。この制御処理は、ステップＳ１８０１からＳ１８０５までの処理は、復号再生装置１４０２を実現する特には図示しないプロセッサが、特には図示しないメモリに記憶された制御プログラムを実行する動作として実現される。また、ステップＳ１８１１からＳ１８１４までの処理は、符号化装置１４０１を実現する特には図示しないプロセッサが、特には図示しないメモリに記憶された制御プログラムを実行する動作として実現される。

図１４の復号再生装置１４０２が復号処理を開始すると、復号再生装置１４０２側で、前回の残響推定から例えば３０分以上が経過したか否かが判定される（ステップＳ１８０１）。

前回の残響推定から例えば３０分以上が経過しておらずステップＳ１８０１の判定がＮＯならば、ステップＳ１８０４に移行して通常の復号処理が実施される。

前回の残響推定から例えば３０分以上が経過しステップＳ１８０１の判定がＹＥＳになると、再生環境残響特性６０９を推定する処理が実施される（ステップＳ１８０２）。ここでは、符号化装置１４０１から送信された符号化ビット列１４０３に基づいて復号部１４０４において復号が行われているオーディオ信号の復号音が放音部１４０５から放音させられ、それが収音部１４０６から収音されて再生環境の残響特性１４０８が推定される。

次に、ステップＳ１８０２で推定された再生環境の残響特性１４０８が、図１４の符号化装置１４０１へ送信される（ステップＳ１８０３）。

符号化装置１４０１側では、入力信号を取得し（ステップＳ１８１１）、符号化ビット列１４０３を生成し（ステップＳ１８１３）、その符号化ビット列１４０３を復号再生装置１４０２側に送信（ステップＳ１８１４）する処理が、繰り返し実行開始されている。この繰返し処理の中で、復号再生装置１４０２側から再生環境の残響特性１４０８が送信されてきた場合には、その再生環境の残響特性１４０８を受信する処理が実行される（ステップＳ１８１２）。これにより、前述した合成マスキング特性を生成して量子化ステップ幅を制御する処理が更新実行される。

復号再生装置１４０２側では、符号化装置１４０１側から符号化ビット列１４０３が送られてくると、その符号化ビット列１４０３を受信、復号し（ステップＳ１８０４）、その結果得られる復号信号を再生、放音（ステップＳ１８０５）する処理が繰り返し実行される。

以上の再生環境の残響特性１４０８の定期的な送付処理により、ユーザが使用する再生環境が時間経過とともに変化しても、その変化に符号化効率の最適化を追従させることが可能となる。

以上の第１〜第３の実施形態に関して、更に以下の付記を開示する。
（付記１）
オーディオ信号の量子化を行う量子化器、
前記オーディオ信号で表されている音の再生によって再生環境で生じる前記音の残響が前記音に及ぼす残響マスキングの特性を取得する残響マスキング特性取得部、及び
前記量子化器の量子化ステップ幅を前記残響マスキングの特性に基づいて制御する制御部、
を備えることを特徴とするオーディオ信号符号化装置。
（付記２）
前記制御部は、前記残響マスキングの特性に基づき、前記オーディオ信号で表されている音の大きさが前記残響によってマスクされる大きさである場合には、前記残響によってマスクされない大きさである場合よりも量子化ステップ幅を広げる制御を行うことを特徴とする付記１に記載のオーディオ信号符号化装置。
（付記３）
前記残響マスキング特性取得部は、前記残響マスキングの特性として、前記残響が前記音に及ぼす周波数マスキングの特性を取得することを特徴とする付記１又は２に記載のオーディオ信号符号化装置。
（付記４）
前記残響マスキング特性取得部は、前記残響マスキングの特性として、前記残響が前記音に及ぼす継時マスキングの特性を取得することを特徴とする付記１から３のうちのいずれか一項に記載のオーディオ信号符号化装置。
（付記５）
人の聴覚特性が前記オーディオ信号で表されている音に及ぼす聴覚マスキングの特性を取得する聴覚マスキング特性取得部を更に備え、
前記制御部は、前記量子化器の量子化ステップ幅を、更に、前記聴覚マスキングの特性にも基づいて制御する、
ことを特徴とする付記１から４のうちのいずれか一項に記載のオーディオ信号符号化装置。
（付記６）
前記残響マスキング特性取得部は、前記残響マスキングの特性として、前記残響によってマスクされる音の大きさの周波数特性を取得し、
前記聴覚マスキング特性取得部は、前記聴覚マスキングの特性として、人の聴覚特性によってマスクされる音の大きさの周波数特性を取得し、
前記制御部は、前記残響マスキングの特性である周波数特性と前記聴覚マスキングの特性である周波数特性とにおいて周波数毎に大きい方の特性を選択して得られる合成マスキング特性に基づいて前記量子化器の量子化ステップ幅を制御することを特徴とする付記５に記載のオーディオ信号符号化装置。
（付記７）
前記オーディオ信号を複数の周波数帯域の部分信号に分割する周波数分割部を更に備え、
前記量子化器は、前記複数の部分信号を各々量子化し、
前記量子化器によって量子化された複数の部分信号を多重化する多重化器を更に備える、
ことを特徴とする付記１から６のうちのいずれか一項に記載のオーディオ信号符号化装置。
（付記８）
前記残響マスキング特性取得部は、前記オーディオ信号と、前記再生環境の残響特性と、予め用意されている人の聴覚心理モデルとを用いて前記残響マスキングの特性を算出することを特徴とする付記１から７のうちのいずれか一項に記載のオーディオ信号符号化装置。
（付記９）
前記残響マスキング特性取得部は、前記残響特性として、再生環境毎に予め用意されている残響特性から選択されたものを用いて前記残響マスキングの特性を算出することを特徴とする付記８に記載のオーディオ信号符号化装置。
（付記１０）
前記残響マスキング特性取得部は、前記再生環境に対応する残響特性の選択情報を受け取ることにより、前記再生環境に対応する残響特性を選択することを特徴とする付記９に記載のオーディオ信号符号化装置。
（付記１１）
前記残響マスキング特性取得部は、前記残響特性として、前記再生環境で収音した音と、該音を収音したときに前記再生環境で発せられていた音とに基づいた前記再生環境における残響特性の推定結果を用いて前記残響マスキングの特性を算出することを特徴とする付記８に記載のオーディオ信号符号化装置。
（付記１２）
オーディオ信号を符号化する符号化装置、及び
前記符号化装置により符号化されたオーディオ信号を復号して該オーディオ信号で表されている音を再生環境で再生する復号再生装置、
を備え、
前記符号化装置は、
オーディオ信号の量子化を行う量子化器、
前記量子化されたオーディオ信号を前記復号再生装置へ送信するオーディオ信号送信部、
前記オーディオ信号で表されている音の再生によって前記再生環境で生じる前記音の残響が前記音に及ぼす残響マスキングの特性を、前記オーディオ信号と、前記再生環境の残響特性と、予め用意されている人の聴覚心理モデルとを用いて算出して取得する残響マスキング特性取得部、
前記再生環境の残響特性を、前記復号再生装置から受信する残響特性受信部、及び
前記量子化器の量子化ステップ幅を前記残響マスキングの特性に基づいて制御する制御部、
を備え、
前記復号再生装置は、
前記符号化装置から送られてくる、前記量子化されたオーディオ信号を復号する復号部、
前記復号されたオーディオ信号の音を含む音を前記再生環境で放音する放音部、
前記放音部により放音された音を前記再生環境で収音する収音部、
前記収音部により収音された音と前記放音部により放音された音とに基づいて前記再生環境の残響特性を推定する推定部、及び
前記推定部により推定された前記再生環境の残響特性を前記符号化装置へ送信する残響特性送信部、
を備える、
ことを特徴とするオーディオ信号伝送システム。
（付記１３）
前記推定部は、前記放音部により放音された音が前記収音部に至るまでの伝達特性を求めることによって、前記再生環境の残響特性を推定することを特徴とする付記１２に記載のオーディオ信号伝送システム。
（付記１４）
前記放音部は、予め用意されている試験音を放音し、
前記推定部は、前記試験音を用いて前記再生環境の残響特性を推定する、
ことを特徴とする付記１２又は１３に記載のオーディオ信号伝送システム。
（付記１５）
前記放音部は、前記復号部により復号されたオーディオ信号で表されている音を放音し、
前記推定部は、前記復号部により復号されたオーディオ信号で表されている音を用いて前記再生環境の残響特性を推定する、
ことを特徴とする付記１２又は１３に記載のオーディオ信号伝送システム。
（付記１６）
前記推定部は、前記オーディオ信号の復号開始時に前記再生環境の残響特性の推定を行い、
前記送信部は、前記オーディオ信号の復号開始時に前記推定部が推定した前記再生環境の残響特性を前記符号化装置へ送信し、
前記残響マスキング特性取得部は、前記残響特性受信部が前記オーディオ信号の復号開始時に受信した前記再生環境の残響特性に基づいて前記残響マスキングの特性を取得する、
ことを特徴とする付記１４又は１５に記載のオーディオ信号伝送システム。
（付記１７）
前記推定部は、所定時間毎に前記再生環境の残響特性の推定を行い、
前記送信部は、前記推定部が前記再生環境の残響特性の推定を行う度に、推定された前記再生環境の残響特性を前記符号化装置へ送信し、
前記残響マスキング特性取得部は、前記残響特性受信部が前記再生環境の残響特性を受信する度に前記残響マスキングの特性の取得を行い、
前記制御部は、前記残響マスキング特性取得部が前記残響マスキングの特性を取得する度に、前記量子化ステップ幅の制御を更新する、
ことを特徴とする付記１５に記載のオーディオ信号伝送システム。
（付記１８）
オーディオ信号の量子化を行い、
前記オーディオ信号で表されている音の再生によって再生環境で生じる前記音の残響が前記音に及ぼす残響マスキングの特性を取得し、
前記量子化器の量子化ステップ幅を前記残響マスキングの特性に基づいて制御する、
ことを備えることを特徴とするオーディオ信号符号化方法。
（付記１９）
オーディオ信号を符号化する符号化装置において、
前記符号化装置により符号化されたオーディオ信号を復号して該オーディオ信号で表されている音を再生環境で再生する復号再生装置から前記再生環境の残響特性を受信し、
前記オーディオ信号で表されている音の再生によって前記再生環境で生じる前記音の残響が前記音に及ぼす残響マスキングの特性を、前記オーディオ信号と、前記受信した再生環境の残響特性と、予め用意されている人の聴覚心理モデルとを用いて算出して取得し、
量子化器の量子化ステップ幅を前記残響マスキングの特性に基づいて制御し、
前記量子化ステップ幅が制御された量子化器を用いて前記オーディオ信号の量子化を行い、
前記量子化されたオーディオ信号を前記復号再生装置へ送信する、
ことを備え、
前記復号再生装置において、
前記符号化装置から送られてくる、前記量子化されたオーディオ信号を復号し、
前記復号されたオーディオ信号の音を含む音を前記再生環境で放音し、
前記放音された音を前記再生環境で収音し、
前記収音された音と前記放音された音とに基づいて前記再生環境の残響特性を推定し、
前記推定された前記再生環境の残響特性を前記符号化装置へ送信する、
ことを備える、
ことを特徴とするオーディオ信号伝送方法。
（付記２０）
符号化装置から送られてくる、量子化されたオーディオ信号を復号する復号部、
前記復号されたオーディオ信号の音を含む音を再生環境で放音する放音部、
前記放音部により放音された音を前記再生環境で収音する収音部、
前記収音部により収音された音と前記放音部により放音された音とに基づいて前記再生環境の残響特性を推定する推定部、及び
前記推定部により推定された前記再生環境の残響特性を前記符号化装置へ送信する残響特性送信部、
を備えることを特徴とするオーディオ信号復号装置。
（付記２１）
符号化装置から送られてくる、量子化されたオーディオ信号を復号し、
前記復号されたオーディオ信号の音を含む音を再生環境で放音し、
前記放音された音を前記再生環境で収音し、
前記収音された音と前記放音された音とに基づいて前記再生環境の残響特性を推定し、
前記推定された前記再生環境の残響特性を前記符号化装置へ送信する、
ことを備えることを特徴とするオーディオ信号復号方法。

１０１、６０５修正離散コサイン変換（ＭＤＣＴ：ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）部
１０２量子化部
１０３多重化部
１０４、６０４聴覚マスキング算出部
２０１マスキングカーブ
２０２マスキング範囲
３０１、６０１量子化器
３０２残響マスキング特性取得部
３０３制御部
３０４聴覚マスキング特性取得部
３０５周波数分割部
３０６、６０６多重化器
３０７、６０７残響マスキングの特性
３０８、６０８量子化ステップ幅
３０９、６０９残響特性
３１０、６１０聴覚マスキングの特性
４０１送信側
４０２受信側
４０３、１４０１符号化装置
４０４再生装置
４０５符号化データ
４０６、１５０４直接音
４０７、１５０５残響
５０１、５０２聴覚マスキングの範囲
５０３残響マスキングの範囲
６０２残響マスキング算出部
６０３マスキング合成部
６０４聴覚マスキング算出部
６１１残響特性選択部
６１２残響特性記憶部
６１３再生環境の種類
８０１残響信号生成部
８０２時間−周波数変換部
８０３マスキング算出部
８０４残響環境のインパルス応答
８０５入力信号
８０６残響信号
８０７残響スペクトル
８０８聴覚心理モデル
８０９残響マスキング閾値
９０１、１００２電力ピーク
９０２Ａ、９０２Ｂ、１００３ａ、１００３ｂマスキングカーブ
１００１残響信号の周波数成分
１１０１最大値算出部
１１０２聴覚マスキング閾値
１１０３合成マスキング閾値
１４０２復号再生装置
１４０３符号化ビット列
１４０４復号部
１４０５放音部
１４０６収音部
１４０７残響特性推定部
１４０８再生環境の残響特性
１４０９残響特性送信部
１４１０残響特性受信部
１５０１復号されたデータ
１５０２スピーカ
１５０３マイク
１５０６適応フィルタ
１５０７誤差信号

Claims

オーディオ信号の量子化を行う量子化器、
前記オーディオ信号で表されている音の再生によって再生環境で生じる前記音の残響が前記音に及ぼす残響マスキングの特性を、前記再生環境で放音された音が収音部に至るまでの伝達特性を用いて推定する残響マスキング特性取得部、及び
前記量子化器の量子化ステップ幅を前記残響マスキングの特性に基づいて制御する制御部、
を備えることを特徴とするオーディオ信号符号化装置。
前記制御部は、前記残響マスキングの特性に基づき、前記オーディオ信号で表されている音の大きさが前記残響によってマスクされる大きさである場合には、前記残響によってマスクされない大きさである場合よりも量子化ステップ幅を広げる制御を行うことを特徴とする請求項１に記載のオーディオ信号符号化装置。
前記残響マスキング特性取得部は、前記残響マスキングの特性として、前記残響が前記音に及ぼす周波数マスキングの特性を取得することを特徴とする請求項１又は２に記載のオーディオ信号符号化装置。
前記残響マスキング特性取得部は、前記残響マスキングの特性として、前記残響が前記音に及ぼす継時マスキングの特性を取得することを特徴とする請求項１から３のうちのいずれか一項に記載のオーディオ信号符号化装置。
人の聴覚特性が前記オーディオ信号で表されている音に及ぼす聴覚マスキングの特性を取得する聴覚マスキング特性取得部を更に備え、
前記制御部は、前記量子化器の量子化ステップ幅を、更に、前記聴覚マスキングの特性にも基づいて制御する、
ことを特徴とする請求項１から４のうちのいずれか一項に記載のオーディオ信号符号化装置。
前記残響マスキング特性取得部は、前記残響マスキングの特性として、前記残響によってマスクされる音の大きさの周波数特性を取得し、
前記聴覚マスキング特性取得部は、前記聴覚マスキングの特性として、人の聴覚特性によってマスクされる音の大きさの周波数特性を取得し、
前記制御部は、前記残響マスキングの特性である周波数特性と前記聴覚マスキングの特性である周波数特性とにおいて周波数毎に大きい方の特性を選択して得られる合成マスキング特性に基づいて前記量子化器の量子化ステップ幅を制御することを特徴とする請求項５に記載のオーディオ信号符号化装置。
オーディオ信号を符号化する符号化装置、及び
前記符号化装置により符号化されたオーディオ信号を復号して該オーディオ信号で表されている音を再生環境で再生する復号再生装置、
を備え、
前記符号化装置は、
オーディオ信号の量子化を行う量子化器、
前記量子化されたオーディオ信号を前記復号再生装置へ送信するオーディオ信号送信部、
前記オーディオ信号で表されている音の再生によって前記再生環境で生じる前記音の残響が前記音に及ぼす残響マスキングの特性を、前記オーディオ信号と、前記再生環境で放音された音が収音部に至るまでの伝達特性を用いて推定する残響特性と、予め用意されている人の聴覚心理モデルとを用いて算出して取得する残響マスキング特性取得部、
前記再生環境の残響特性を、前記復号再生装置から受信する残響特性受信部、及び
前記量子化器の量子化ステップ幅を前記残響マスキングの特性に基づいて制御する制御部、
を備え、
前記復号再生装置は、
前記符号化装置から送られてくる、前記量子化されたオーディオ信号を復号する復号部、
前記復号されたオーディオ信号の音を含む音を前記再生環境で放音する放音部、
前記放音部により放音された音を前記再生環境で収音する収音部、
前記収音部により収音された音と前記放音部により放音された音とに基づいて前記再生環境の残響特性を推定する推定部、及び
前記推定部により推定された前記再生環境の残響特性を前記符号化装置へ送信する残響特性送信部、
を備える、
ことを特徴とするオーディオ信号伝送システム。
オーディオ信号の量子化を行い、
前記オーディオ信号で表されている音の再生によって再生環境で生じる前記音の残響が前記音に及ぼす残響マスキングの特性を、前記再生環境で放音された音が収音部に至るまでの伝達特性を用いて推定し、
前記量子化器の量子化ステップ幅を前記残響マスキングの特性に基づいて制御する、
ことを備えることを特徴とするオーディオ信号符号化方法。
オーディオ信号を符号化する符号化装置において、
前記符号化装置により符号化されたオーディオ信号を復号して該オーディオ信号で表されている音を再生環境で再生する復号再生装置から前記再生環境の残響特性を受信し、
前記オーディオ信号で表されている音の再生によって前記再生環境で生じる前記音の残響が前記音に及ぼす残響マスキングの特性を、前記オーディオ信号と、前記再生環境で放音された音が収音部に至るまでの伝達特性を用いて推定する残響特性と、予め用意されている人の聴覚心理モデルとを用いて算出して取得し、
量子化器の量子化ステップ幅を前記残響マスキングの特性に基づいて制御し、
前記量子化ステップ幅が制御された量子化器を用いて前記オーディオ信号の量子化を行い、
前記量子化されたオーディオ信号を前記復号再生装置へ送信する、
ことを備え、
前記復号再生装置において、
前記符号化装置から送られてくる、前記量子化されたオーディオ信号を復号し、
前記復号されたオーディオ信号の音を含む音を前記再生環境で放音し、
前記放音された音を前記再生環境で収音し、
前記収音された音と前記放音された音とに基づいて前記再生環境の残響特性を推定し、
前記推定された前記再生環境の残響特性を前記符号化装置へ送信する、
ことを備える、
ことを特徴とするオーディオ信号伝送方法。
符号化装置から送られてくる、量子化されたオーディオ信号を復号する復号部、
前記復号されたオーディオ信号の音を含む音を再生環境で放音する放音部、
前記放音部により放音された音を前記再生環境で収音する収音部、
前記収音部により収音された音と前記放音部により放音された音とに基づいて前記再生環境の残響特性を、前記再生環境で放音された音が収音部に至るまでの伝達特性を用いて推定する推定部、及び
前記推定部により推定された前記再生環境の残響特性を前記符号化装置へ送信する残響特性送信部、
を備えることを特徴とするオーディオ信号復号装置。