JP2005148539A

JP2005148539A - オーディオ信号符号化装置およびオーディオ信号符号化方法

Info

Publication number: JP2005148539A
Application number: JP2003387890A
Authority: JP
Inventors: Akira Usami; 陽宇佐見
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2003-11-18
Filing date: 2003-11-18
Publication date: 2005-06-09

Abstract

【課題】知覚され難い時間軸上の変化によって区切られたブロックの包絡線情報のビット数が増大し、知覚上重要な情報の符号化に必要なビット数が減少し、再生オーディオ信号の知覚品質が劣化するという課題があった。
【解決手段】包絡線情報Ｅ１を算出するブロックに包含される信号成分が、時間軸上に後続又は先行するブロックに包含される信号成分へ及ぼす、前向マスキング又は逆向マスキングのマスキングレベルを算出し、ブロックに包含されるセグメント信号レベルがマスキングレベルより小さく、時間軸上に連続する２つ以上のブロックを結合し、包絡線情報のビット数の増大を抑えるマスキングレベル算出手段２５とブロック境界修正手段２６を備える。
【選択図】図２

Description

本発明は、オーディオ信号の周波数帯域を削除し、削除された周波数帯域の包絡線情報を符号化信号に重畳して伝送又は記憶するオーディオ信号の符号化装置および符号化方法に関するものである。

デジタルオーディオの分野では、人間の可聴帯域（例えば、２０ｋＨｚ以下）をカバーするように周波数帯域を制限してコンパクトディスク（ＣＤ）などの記録媒体に記録したり、或いは衛星デジタル放送などの伝送経路を通じて伝送している。

その一方で、ＣＤに比べて１０分の１以下の低いビットレートで、高品位の音質で伝送又は記憶を可能にする様々なオーディオ信号符号化技術が多く使われている。これらのオーディオ信号の符号化技術には、例えばミニディスク（ＭＤ）に採用されているＡＴＲＡＣ（ＡｄａｐｔｉｖｅＴｒａｎｓｆｏｒｍＡｃｏｕｓｔｉｃＣｏｄｉｎｇ）方式や、衛星デジタル放送で採用されているＩＳＯ（ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ）のＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）で規格化されているＭＰＥＧ２−ＡＡＣなどの各種方式がある。

これらのオーディオ信号符号化技術では、時間軸上のオーディオ信号を複数のサンプルでまとめた符号化フレームを単位として、周波数軸上の成分を表すサブバンド信号や、スペクトルに変換される。周波数軸上の成分への変換には、ＱＭＦ（ＱｕａｄｒａｔｕｒｅＭｉｒｒｏｒＦｉｌｔｅｒ）などの帯域分割フィルタといったフィルタバンクや、ＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＴｒａｎｓｆｏｒｍ）などの周波数変換といった変換プロセスが利用される。

以下に説明するオーディオ信号の符号化処理では、ＭＤＣＴなどの周波数変換を利用して時間軸上のオーディオ信号を、周波数軸上のスペクトルに変換する場合について説明する。

上記の周波数変換により変換されるスペクトルは、複数のスペクトルをまとめた正規化帯域毎に正規化及び量子化が施される。スペクトルは、正規化帯域毎のスペクトル振幅を表すスケールファクタで正規化される。更に、正規化されたスペクトルは、所望のビットレートになるように、正規化帯域毎に割り当てられる量子化ビット数で量子化される。量子化ビット数は、最小可聴しきい値や、マスキングなどの人間の聴覚心理特性に基づいて、聴感上知覚されない、もしくは知覚され難い量子化雑音レベルを許容して割り当てられる。量子化されたスペクトルは、符号化された後に、スケールファクタや量子化ビット数などの符号化情報と多重化され、符号化信号として伝送又は記憶される。このようにして、人間の聴覚特性を利用することは、ビットレートの大幅な低減をもたらす。

上記のオーディオ信号の符号化処理によって、伝送又は記憶された符号化信号は、復号化処理において符号化処理の逆の手順を施され、再生オーディオ信号に復元されて出力される。

以下の説明では、上記の一連の処理によって入力されるオーディオ信号から符号化信号を生成するオーディオ信号の符号化処理をコア符号化処理と呼び、コア符号化処理を施す処理ブロックをコア符号化手段と呼ぶ。更に、コア符号化処理の逆の手順を施して、符号化信号から再生オーディオ信号を復元し出力する復号化処理をコア復号化処理と呼び、コア復号化処理を施す処理ブロックをコア復号化手段と呼ぶ。

しかしながら、更に低いビットレートで上記のコア符号化処理を施した場合には、生成され伝送又は記憶される符号化信号にコア復号化処理を施して出力される再生オーディオ信号の音質劣化が知覚される。このことは、低いビットレートという要求に対して行われるコア符号化処理によって、削減される情報量が聴感上知覚され易い部分に及ぶためである。特に、周波数帯域が制限されて、高音域のスペクトルが欠損されることが多い。これは、低音域のスペクトルの欠損よりも、高音域のスペクトルの欠損のほうが聴感上知覚され難いことによる。

そこで、低いビットレートでコア符号化処理を施すことにより欠損する高音域のスペクトルを、復号化時にコア復号化処理とは別に、擬似的に再現することによって、出力する再生オーディオ信号の周波数帯域を拡張して、音質を改善する幾つかの方法が提案されている。

第１の方法は、符号化信号にコア復号化処理を施して復元される復号オーディオ信号の周波数軸上のスペクトル又はサブバンド信号を分析し、コア符号化処理により欠損される周波数帯域のスペクトルの包絡線や分布、振幅などを推定する。同時に、欠損される周波数帯域のスペクトルを持つランダムノイズなどの付加信号を生成し、推定したスペクトルの包絡線や分布、振幅などに基づいて、生成した付加信号のスペクトルの包絡線や分布、振幅などを調整する。この付加信号を、変換プロセス又はフィルタバンクによって復号オーディオ信号に合成して再生オーディオ信号を出力する（例えば、非特許文献１参照）。

第２の方法は、符号化時にコア符号化処理とは別に、入力されるオーディオ信号の周波数軸上のスペクトル又はサブバンド信号を分析し、コア符号化処理により欠損される周波数帯域のスペクトルの包絡線や分布、振幅などを求め、これらをコア符号化処理により生成される符号化信号に多重化して伝送又は記憶する。復号化時には、欠損される周波数帯域のスペクトルを持つ付加信号を生成すると伴に、符号化信号に多重化されるスペクトルの包絡線や分布、振幅などを抽出して再現し、これらに基づいて付加信号のスペクトルの包絡線や分布、振幅などを調整する（例えば、特許文献１又は非特許文献２参照）。

更に、上記の２つの方法を併せて利用する場合もある。

上記のようにして、コア復号化処理を施して復元される復号オーディオ信号に含まれない周波数帯域のスペクトルを持つ付加信号を生成し、復号オーディオ信号と付加信号とを合成することにより、低いビットレートで再生オーディオ信号の周波数帯域を拡張し、知覚品質を大幅に改善することができる。

以下の説明では、上記の第２の方法により、入力されるオーディオ信号を分析し、削除される周波数帯域のスペクトルの包絡線情報を求め、符号化信号に多重化して伝送又は記憶するオーディオ信号符号化装置について説明する。

図８は、オーディオ信号符号化装置の構成を示すブロック図である。

図８において、１は入力オーディオ信号Ｘ１の周波数帯域を削除するダウンサンプリングフィルタである。２は、周波数帯域が削除された信号Ｘ２にコア符号化処理を施して第１の符号化信号Ｓ２を生成し出力するコア符号化手段である。３は、入力オーディオ信号から周波数軸上のサブバンド信号Ｓｂ１を生成する分析フィルタである。６は、サブバンド信号Ｓｂ１から、削除される周波数帯域のサブバンド信号の包絡線情報Ｅ１を算出し、符号化した符号化包絡線情報Ｅ２を生成し出力する包絡選情報算出手段である。５は、第１の符号化信号Ｓ２に、符号化包絡線情報Ｅ２を多重化して、符号化信号Ｓ１を生成し出力するマルチプレクサである。

図９は、図８のオーディオ信号符号化装置により生成される符号化信号Ｓ１を入力し、再生オーディオ信号Ｙ１を出力するオーディオ信号復号化装置の構成を示すブロック図である。

図９において、９１は入力される符号化信号Ｓ１から、図８のオーディオ信号符号化装置により周波数帯域が削除された第１の符号化信号Ｓ２と、符号化包絡線情報Ｅ２を分離して出力するデマルチプレクサである。９２は、第１の符号化信号Ｓ２にコア復号化処理を施して、時間軸上の復号オーディオ信号Ｙ２を生成し出力するコア復号化手段である。９３は、復号オーディオ信号Ｙ２から周波数軸上のサブバンド信号Ｓｂ２を生成し出力する分析フィルタである。９４は、サブバンド信号Ｓｂ２に基づいて、削除された周波数帯域のスペクトルを持つ付加サブバンド信号Ｓｂ３を生成し出力する付加信号生成手段である。９５は、符号化包絡線情報Ｅ２から削除された周波数帯域のサブバンド信号の包絡線情報Ｅ１を復元する包絡線情報復号化手段である。９６は、包絡線情報Ｅ１に基づいて、削除された周波数帯域のスペクトルを持つ付加サブバンド信号Ｓｂ３の包絡線を調整した付加サブバンド信号Ｓｂ４を出力する包絡線調整手段である。９７は、サブバンド信号Ｓｂ２と、包絡線調整手段９６により包絡線を調整された付加サブバンド信号Ｓｂ４を合成して、再生オーディオ信号Ｙ１を生成し出力する合成フィルタである。

図１０は、図９のオーディオ信号復号化装置において、分析フィルタ９３から出力されるサブバンド信号Ｓｂ２と、包絡線調整手段９６から出力される付加サブバンド信号Ｓｂ４と、合成フィルタ９７から出力される再生オーディオ信号Ｙ１の周波数スペクトルを示す説明図である。尚、図１０のスペクトルを示す説明図の横軸は周波数を、縦軸はスペクトルの振幅を其々表す。

図１０において、（１０Ａ）は、コア復号化手段９２により生成された復号オーディオ信号Ｙ２を分析フィルタ９３で分析し出力されるサブバンド信号Ｓｂ２のスペクトルである。加えて、（１０Ａ）に示すサブバンド信号Ｓｂ２のスペクトルにおいて、図８のオーディオ信号符号化処理でｆ１より上の周波数帯域が削除されるために、帯域の上限はｆ１となる。（１０Ｂ）は、包絡線調整手段９６から出力される付加サブバンド信号Ｓｂ４のスペクトルである。サブバンド信号Ｓｂ４は、付加信号生成手段から出力される付加サブバンド信号Ｓｂ３の包絡線を包絡線情報Ｅ１に基づいて調整されたサブバンド信号であって、付加サブバンド信号Ｓｂ３は、分析フィルタ９３から出力されるサブバンド信号Ｓｂ２に基づいて生成されるサブバンド信号である。ここで、例えば付加サブバンド信号Ｓｂ３は、サブバンド信号Ｓｂ２のｆ１より低い周波数帯域のサブバンド信号の一部をｆ１より高い周波数帯域に複製して生成される。これにより、（１０Ｂ）に示すようにの付加サブバンド信号Ｓｂ４は、ｆ１からｆ２の帯域に分布するスペクトルを持つ。（１０Ｃ）は、合成フィルタ９７から出力される再生オーディオ信号Ｙ１のスペクトルである。（１０Ｃ）に示すように、再生オーディオ信号Ｙ１のスペクトルは、帯域の上限がｆ２に拡張される。これにより、帯域の上限がｆ１の復号オーディオ信号Ｙ２に対して、付加サブバンド信号Ｓｂ４が合成されて出力される再生オーディオ信号Ｙ１を聴取した場合には、聴感上の知覚品質が大幅に改善される。或いは、上記のような帯域の拡張方法を利用することにより、高品位な音質を保ちながら、より低いビットレートでの符号化を行うことができる。

図１１は、図８のオーディオ信号符号化装置において、分析フィルタ３により生成されたサブバンド信号Ｓｂ１から、ダウンサンプリングフィルタ１により削除される周波数帯域のサブバンド信号の包絡線情報Ｅ１を算出し、符号化包絡線情報Ｅ２を生成し出力する包絡線情報算出手段６の構成を更に詳しく示すブロック図である。

図１１において、２１は、分析フィルタ３により生成されたサブバンド信号Ｓｂ１の中の、ダウンサンプルフィルタ１によって削除される周波数帯域のサブバンド信号から時間軸上に等間隔のセグメントのセグメント信号レベルＳＬを生成するセグメント信号レベル算出手段である。ここで例えば、セグメント信号レベルＳＬは、セグメントの時間間隔における、削除される周波数帯域のサブバンド信号の自乗和で求められる。すなわち、セグメントの信号レベルＳＬは、削除される周波数帯域のスペクトルを持つ信号成分に対するセグメントの時間間隔のエネルギーを表す。２２は、セグメント信号レベルＳＬの時間軸上の急峻な変化を検出し、任意の数のセグメントを包含するブロックのブロック境界を設定するブロック境界検出手段であって、ブロック境界情報Ｂ１を出力する。２３は、ブロック境界情報Ｂ１に基づいて、ブロックに包含されるセグメント信号レベルＳＬから、ブロック毎のブロック包絡線情報Ｅ１を算出するブロック包絡線情報算出手段である。ここで例えば、ブロック包絡線情報Ｅ１は、削除される周波数帯域に亘って、ブロックに包含される時間軸上に並ぶセグメントの、同一の周波数ｆ（ｆは、削除される周波数帯域に包含される任意の周波数）に対するセグメント信号レベルＳＬの平均値によって算出される。このようにして、セグメント信号レベルの変化が緩やかなセグメントをまとめたブロック毎に包絡線情報を算出することにより、包絡線情報の伝送又は記憶に必要なビット数が削減できる。逆に、セグメント信号レベルの急峻な変化をもたらすセグメントが同一のブロックに包含されると、ブロック毎に算出される包絡線情報は元のセグメントの包絡線と大きく異なることになり、復号化時に音質の著しい変化を起こし、知覚品質が大きく劣化する。このため、ブロック境界の設定は知覚品質の劣化を抑えるように、セグメント信号レベルの変化に対応した精緻なブロック境界の設定が望まれる。２４は、ブロック毎の包絡線情報Ｅ１をコア符号化手段２の符号化フレームに対応する時間間隔でまとめて符号化し、符号化包絡線情報Ｅ２を生成し出力する包絡線情報符号化手段である。ここで例えば、包絡線情報Ｅ１は、時間軸又は周波数軸の差分値に変換する差分符号化や、高効率な符号テーブルによるハフマン符号化が施されて、包絡線情報の伝送又は記憶に必要なビット数が削減される。

図１２は、セグメント信号レベルＳＬと、ブロック境界検出手段２２により設定されるブロックの境界を表す説明図である。尚、図１２のセグメント信号レベルとブロック境界を表す説明図の横軸は時間を、縦軸はセグメント信号レベルの大きさを表す。以下の説明では、コア符号化手段２の符号化フレームに対応する時間間隔に包含されるセグメントの数を１６個とし、其々のセグメント信号レベルＳＬのインデックスをｉ（０＜＝ｉ＜１６）で表し、時間軸上でｉはｉ−１に後続するものとする。

図１２において、１６個のセグメント信号レベルＳＬ（ｉ）（０＜＝ｉ＜１６）が時間軸に並び、ブロック境界検出手段２２によって検出されるセグメント信号レベルＳＬ（ｉ）の時間軸上の急峻な変化に基づいて、Ａ，Ｂ，Ｃ，Ｄの４つのブロックに区切るブロック境界が設定されている。ブロックＡはＳＬ（ｉ）（０＜＝ｉ＜６）の６個のセグメントを、ブロックＢはＳＬ（ｉ）（６＜＝ｉ＜８）の２個のセグメントを、ブロックＣはＳＬ（ｉ）（８＜＝ｉ＜１２）の４個のセグメントを、ブロックＤはＳＬ（ｉ）（１２＜＝ｉ＜１６）の４個のセグメントを包含する。ここで例えば、セグメント信号レベルの時間軸の急峻な変化は、隣接する２つのセグメントの間で求められるセグメント信号レベルの変化量Ｄ（ｉ）（１＜＝ｉ＜１６）と、予め定められるしきい値ＴＨＲとの比較により検出され、時間軸上の急峻な変化として検出される２つのセグメントの間にブロック境界が設定される。加えて、セグメント信号レベルの変化量は、例えば、信号レベルの差の絶対値又は比に基づいて算出される。

図１３は、セグメント信号レベルの変化量Ｄ（ｉ）と、予め定められるしきい値ＴＨＲを表す説明図である。尚、図１２のセグメント信号レベルの変化量を表す説明図の横軸は時間を、縦軸はセグメント信号レベルの変化量の大きさを表す。

図１３において、セグメント信号レベルの変化量Ｄ（ｉ）は、隣接する２つのセグメント間のセグメント信号レベルＳＬ（ｉ）の差の絶対値であって、Ｄ（ｉ）＝｜ＳＬ（ｉ）−ＳＬ（ｉ−１）｜で算出される場合を示す。ここで、ｉ＝６，８，１２のセグメントにおいてセグメント信号レベルの変化量Ｄ（ｉ）（ｉ＝６，８，１２）は、予め定められるしきい値ＴＨＲより大きい。これによって、ブロック境界検出手段２２によって、図９に示される通りに、ｉ＝５とｉ＝６のセグメントの間と、ｉ＝７とｉ＝８のセグメントの間と、ｉ＝１１とｉ＝１２のセグメントの間にブロック境界が設定され、Ａ，Ｂ，Ｃ，Ｄの４つのブロックに区切られる。
特表２００１−５２１６４８号公報（第１図）シュルツ著「ノイズ代入によるオーディオ符号化の改良（ＩｍｐｒｏｖｉｎｇＡｕｄｉｏＣｏｄｅｃｓｂｙＮｏｉｓｅＳｕｂｓｔｉｔｕｔｉｏｎ）」ＪＡＥＳ誌、１９９６年、第４４巻、第７／８号マーチン、他共著「スペクトルバンド複製によるオーディオ符号化における新たなアプローチ（ＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ，ａｎｏｖｅｌａｐｐｒｏａｃｈｉｎａｕｄｉｏｃｏｄｉｎｇ）」ＡＥＳ、２００２年、ドイツ、ミュンヘン会議、論文第５５５３号

解決しようとする問題点は、入力オーディオ信号の周波数帯域を削除した信号から符号化信号を生成すると伴に、削除された周波数帯域の包絡線情報を前記符号化信号に多重化し、伝送又は記憶するオーディオ信号符号化装置において、知覚され難い時間軸上の変化によって区切られたブロックの包絡線情報のビット数が増大し、知覚上重要な情報の符号化に必要なビット数が減少して再生オーディオ信号の知覚品質が劣化する点である。

本発明は、包絡線情報を算出するブロックに包含される信号成分が、時間軸上に後続又は先行するブロックに包含される信号成分へ及ぼす、前向性マスキング又は後向性マスキングのマスキングレベルを算出し、ブロックに包含されるセグメント信号レベルがマスキングレベルより小さく、時間軸上に連続する２つ以上のブロックを結合することを最も主要な特徴とする。

本発明のオーディオ信号符号化装置および符号化方法は、包絡線情報を算出するブロックに包含される信号成分が、時間軸上に後続又は先行するブロックに包含される信号成分へ及ぼす、前向性マスキング又は後向性マスキングのマスキングレベルを算出し、ブロックに包含されるセグメント信号レベルがマスキングレベルより小さく、時間軸上に連続する２つ以上のブロックを結合することができるので、知覚され難い時間軸上の変化によって区切られたブロックの包絡線情報のビット数が増大することを抑え、知覚上重要な情報の符号化に必要なビット数への減少を防ぎ、再生オーディオ信号の知覚品質を向上することができるという利点がある。

以下に、本発明を実施するための形態について、図面を参照しながら説明する。

（実施の形態１）
図１は、本発明の実施の形態１におけるオーディオ信号符号化装置の構成を示すブロック図である。

図１において、１は入力オーディオ信号Ｘ１の周波数帯域を削除するダウンサンプリングフィルタである。２は、周波数帯域が削除された信号Ｘ２にコア符号化処理を施して第１の符号化信号Ｓ２を生成し出力するコア符号化手段である。３は、入力オーディオ信号から周波数軸上のサブバンド信号Ｓｂ１を生成する分析フィルタである。４は、サブバンド信号Ｓｂ１から、削除される周波数帯域のサブバンド信号の包絡線情報Ｅ１を算出し、符号化した符号化包絡線情報Ｅ２を生成し出力する包絡選情報算出手段である。５は、第１の符号化信号Ｓ２に、符号化包絡線情報Ｅ２を多重化して、符号化信号Ｓ１を生成し出力するマルチプレクサである。

図１のオーディオ信号符号化装置によって、入力オーディオ信号Ｘ１から生成される符号化信号Ｓ１は、図９に示すオーディオ信号復号化装置によって復号化処理が施されることによって、再生オーディオ信号Ｙ１として出力される。

図２は、図１のオーディオ信号符号化装置において、分析フィルタ３により生成されたサブバンド信号Ｓｂ１から、ダウンサンプリングフィルタ１により削除される周波数帯域のサブバンド信号の包絡線情報Ｅ１を算出し、符号化包絡線情報Ｅ２を生成し出力する包絡線情報算出手段４の構成を更に詳しく示すブロック図である。

図２において、２１〜２４は、図８と同様であるので説明を省略する。２５は、ブロックに包含される信号成分が、時間軸上に後続又は先行するブロックに包含される信号成分へ及ぼす、前向性マスキング又は後向性マスキングのマスキングレベルを算出するマスキングレベル算出手段である。前向性マスキングは、時間軸上で先行する音の後続する音へのマスキングを表し、５０ミリ秒から２００ミリ秒程度の範囲で影響を及ぼす。後向性マスキングは、時間軸上で後続する音の先行する音へのマスキングを表し、２０ミリ秒程度の範囲で影響を及ぼす。すなわち、前向性マスキングは後向性マスキングよりも影響を及ぼす範囲が長い。これによって、前向性マスキング又は後向性マスキングの影響を受けた音は聴感上知覚され難くなる。ここで例えば、マスキングレベルは、マスキングの影響を及ぼすセグメント信号レベルＳＬの大きさと、時間軸上に後続又は先行するマスキングの影響を受けるセグメントとの時間間隔とに基づいて、セグメント時間間隔毎の前向性マスキング又は後向性マスキングのマスキングレベルとして算出する。２６は、ブロックに包含されるセグメント信号レベルが同一のセグメント信号レベルによって及ぼされるマスキングレベルより小さく、時間軸上に連続する２つ以上のブロックを結合するようにブロック境界を修正し、ブロック境界情報Ｂ２を出力するブロック境界修正手段である。

図３は、セグメント信号レベルＳＬと、ブロック境界検出手段２２により設定されるブロックの境界を表す説明図である。尚、図３のセグメント信号レベルとブロック境界を表す説明図の横軸は時間を、縦軸はセグメント信号レベルの大きさを表す。

図３において、１６個のセグメント信号レベルＳＬ（ｉ）（０＜＝ｉ＜１６）をＡ，Ｂ，Ｃ，Ｄの４つのブロックに区切るブロック境界の設定方法は、図１２と同様であるので説明は省略する。更に、図３において、破線で描かれているマスキングレベルＭＬは、ブロックＢに包含されるセグメント信号レベルＳＬ（６）が時間軸上に後続又は先行するセグメント時間間隔へ及ぼす前向性マスキング又は後向性マスキングのマスキングレベルを表す。同様にして、全てのセグメント信号レベルＳＬ（ｉ）についてマスキングレベルが算出されるが、図３では、説明を簡単にするために、セグメント信号レベルＳＬ（６）が及ぼす前向性マスキング又は後向性マスキングのマスキングレベルのみを表す。図３において、ブロックＣとブロックＤに包含されるセグメント信号レベルＳＬ（ｉ）（８＜＝ｉ＜１６）は、何れも同一のセグメント信号レベルＳＬ（６）によって及ぼされるマスキングレベルＭＬより小さいことを表す。このことは、ブロックＡとブロックＢに包含されるセグメント信号レベルがセグメント信号レベルＳＬ（６）による前向性マスキングの効果により知覚され難くなることを示す。

図４は、セグメント信号レベルＳＬと、ブロック境界修正手段２６により修正されるブロック境界と、マスキングレベル算出手段２５により算出される前向性マスキング又は後向性マスキングのマスキングレベルを表す説明図である。尚、図４のブロックの境界を表す説明図の横軸は時間を、縦軸はセグメントの信号レベルを其々表す。セグメント信号レベルＳＬ（ｉ）、ブロックＡ、ブロックＢと、マスキングレベルＭＬは図３と同様である。

図４において、ブロックＥは、ＳＬ（ｉ）（８＜＝ｉ＜１６）のセグメントを包含する。図３において、ブロックＣはＳＬ（ｉ）（８＜＝ｉ＜１２）の４個のセグメントを、ブロックＤはＳＬ（ｉ）（１２＜＝ｉ＜１６）の４個のセグメントを包含する。しかしながら、ブロックＣおよびブロックＤに包含されるセグメント信号レベルＳＬ（ｉ）（８＜＝ｉ＜１６）は、同一のセグメント信号レベルＳＬ（６）によって及ぼされるマスキングレベルＭＬよりも小さい。このことは、ブロックＣとブロックＤに包含されるセグメント信号レベルがセグメント信号レベルＳＬ（６）による前向性マスキングの効果により知覚され難くなることを示す。ブロック境界修正手段２６は、ブロックに包含されるセグメント信号レベルがマスキングレベルより小さい、時間軸上に連続するブロックＣとブロックＤを結合し、ブロックＥとするようにブロック境界を修正する。ゆえに、マスキングレベルより小さく知覚され難いセグメント信号レベルＳＬ（ｉ）（８＜＝ｉ＜１６）の８個のセグメントは同一のブロックＥに包含されることになる。これによって、図３でＡ，Ｂ，Ｃ，Ｄの４つに分割されるブロックの数が、図４ではＡ，Ｂ，Ｅの３つに削減できる。このことは、前向性マスキング又は後向性マスキングの効果により、知覚品質を保ちながら、包絡線情報の伝送又は記憶に必要なビット数が削減できることを意味する。或いは、知覚され難い時間軸上の変化によって区切られたブロックの包絡線情報の伝送又は記憶に必要なビット数が増大するのを抑え、知覚上重要な情報への符号化に必要なビット数の減少を防ぎ、再生オーディオ信号の知覚品質を向上することができることを意味する。

上記の説明において、マスキングレベル算出手段２５における前向性マスキング又は後向性マスキングのマスキングレベルＭＬの算出は、全てのセグメント信号レベルＳＬに対して行わないで、予め定められたしきい値を超えるセグメント信号レベルＳＬに対して行うようにしてもよい。或いは、セグメント信号レベルＳＬの大きい順から、予め定められた個数のセグメント信号レベルＳＬに対して行うようにしてもよい。そして、ブロック境界修正手段２６は、マスキングレベル算出手段２５によって算出される前向性マスキング又は後向性マスキングのマスキングレベルＭＬに基づいて、ブロックの境界を修正する。これによって、マスキングレベル算出手段２５と、ブロック境界修正手段２６において、各ブロックの処理に必要な実行時間又は実行ステップ数を削減することができる。

更に、上記の実施の形態１の説明におけるオーディオ信号符号化装置の各構成ブロックの処理は、ソフトウェアプログラムによってコンピュータ又は、デジタルシグナルプロセッサ（ＤＳＰ）上で実現することも可能である。

（実施の形態２）
図５は、本発明の実施の形態２における分析フィルタ３により生成されたサブバンド信号Ｓｂ１から、ダウンサンプリングフィルタ１により削除される周波数帯域のサブバンド信号の包絡線情報Ｅ１を算出し、符号化包絡線情報Ｅ２を生成し出力する包絡選情報算出手段４の構成を更に詳しく示すブロック図である。

図５において、２１〜２５は、図２と同様であるので説明を省略する。５１は、ブロックに包含されるセグメント信号レベルが異なるセグメント信号レベルによって及ぼされるマスキングレベルより小さく、時間軸上に連続する２つ以上のブロックを結合するようにブロック境界を修正し、ブロック境界情報Ｂ２を出力するブロック境界修正手段である。

図６は、セグメント信号レベルＳＬと、ブロック境界検出手段５１により設定されるブロックの境界を表す説明図である。尚、図６のセグメント信号レベルとブロック境界を表す説明図の横軸は時間を、縦軸はセグメント信号レベルの大きさを表す。

図６において、１６個のセグメント信号レベルＳＬ（ｉ）（０＜＝ｉ＜１６）をＡ２，Ｂ２，Ｃ２，Ｄ２，Ｅ２の５つのブロックに区切るブロック境界の設定方法は、図１２と同様であるので説明は省略する。更に、図６において、破線で描かれているマスキングレベルＭＬ１は、ブロックＢ２に包含されるセグメント信号レベルＳＬ（６）が時間軸上に後続又は先行するセグメント時間間隔へ及ぼす前向性マスキングのマスキングレベルを表す。加えて、破線で描かれているマスキングレベルＭＬ２は、ブロックＥ２に包含されるセグメント信号レベルＳＬ（１４）が時間軸上に後続又は先行するセグメント時間間隔へ及ぼす後向性マスキングのマスキングレベルを表す。同様にして、全てのセグメント信号レベルＳＬ（ｉ）についてマスキングレベルが算出されるが、図６では、説明を簡単にするために、セグメント信号レベルＳＬ（６）と、セグメント信号レベルＳＬ（１４）が及ぼす前向性マスキング又は後向性マスキングのマスキングレベルを表す。図６において、ブロックＣ２に包含されるセグメント信号レベルＳＬ（ｉ）（８＜＝ｉ＜１２）は、セグメント信号レベルＳＬ（６）によって及ぼされるマスキングレベルＭＬ１より小さいことを表す。このことは、ブロックＣ２に包含されるセグメント信号レベルがセグメント信号レベルＳＬ（６）による前向性マスキングの効果により知覚され難くなることを示す。しかしながら、ブロックＤ２に包含されるセグメント信号レベルＳＬ（１３）は、セグメント信号レベルＳＬ（６）によって及ぼされるマスキングレベルＭＬ１より大きいことを表す。その一方で、セグメント信号レベルＳＬ（１３）は、セグメント信号レベルＳＬ（１４）によって及ぼされるマスキングレベルＭＬ２より小さいことを表す。このことは、セグメント信号レベルＳＬ（１３）がセグメント信号レベルＳＬ（１４）による後向性マスキングの効果により知覚され難くなることを示す。

図７は、セグメント信号レベルＳＬと、ブロック境界修正手段５１により修正されるブロック境界と、マスキングレベル算出手段２５により算出される前向性マスキング又は後向性マスキングのマスキングレベルを表す説明図である。尚、図７のブロックの境界を表す説明図の横軸は時間を、縦軸はセグメントの信号レベルを其々表す。セグメント信号レベルＳＬ（ｉ）、ブロックＡ２、ブロックＢ２、ブロックＥ２と、マスキングレベルＭＬ１、ＭＬ２は図６と同様である。

図７において、ブロックＦ２は、ＳＬ（ｉ）（８＜＝ｉ＜１４）のセグメントを包含する。図６において、ブロックＣ２はＳＬ（ｉ）（８＜＝ｉ＜１２）の４個のセグメントを、ブロックＤ２はＳＬ（ｉ）（１２＜＝ｉ＜１４）の２個のセグメントを包含する。しかしながら、ブロックＣ２およびブロックＤ２に包含されるセグメント信号レベルＳＬ（ｉ）（８＜＝ｉ＜１３）は、セグメント信号レベルＳＬ（６）によって及ぼされるマスキングレベルＭＬ１よりも小さい。加えて、ブロックＤ２に包含されるセグメント信号レベルＳＬ（１３）は、セグメント信号レベルＳＬ（１）によって及ぼされるマスキングレベルＭＬ２よりも小さい。このことは、ブロックＣ２とブロックＤ２に包含されるセグメント信号レベルがセグメント信号レベルＳＬ（６）による前向性マスキングと、セグメント信号レベルＳＬ（１４）による後向性マスキングの効果により知覚され難くなることを示す。ブロック境界修正手段５１は、ブロックに包含されるセグメント信号レベルがマスキングレベルより小さい、時間軸上に連続するブロックＣ２とブロックＤ２を結合し、ブロックＦ２とするようにブロック境界を修正する。ゆえに、マスキングレベルより小さく知覚され難いセグメント信号レベルＳＬ（ｉ）（８＜＝ｉ＜１４）の６個のセグメントは同一のブロックＦ２に包含されることになる。これによって、図６でＡ２，Ｂ２，Ｃ２，Ｄ２，Ｅ２の５つに分割されるブロックの数が、図７ではＡ２，Ｂ２，Ｅ２，Ｆ２の４つに削減できる。このことは、前向性マスキング又は後向性マスキングの効果により、知覚品質を保ちながら、包絡線情報の伝送又は記憶に必要なビット数が削減できることを意味する。或いは、知覚され難い時間軸上の変化によって区切られたブロックの包絡線情報の伝送又は記憶に必要なビット数が増大するのを抑え、知覚上重要な情報への符号化に必要なビット数の減少を防ぎ、再生オーディオ信号の知覚品質を向上することができることを意味する。

上記の説明において、マスキングレベル算出手段２５における前向性マスキング又は後向性マスキングのマスキングレベルＭＬの算出は、全てのセグメント信号レベルＳＬに対して行わないで、予め定められたしきい値を超えるセグメント信号レベルＳＬに対して行うようにしてもよい。或いは、セグメント信号レベルＳＬの大きい順から、予め定められた個数のセグメント信号レベルＳＬに対して行うようにしてもよい。そして、ブロック境界修正手段５１は、マスキングレベル算出手段２５によって算出される前向性マスキング又は後向性マスキングのマスキングレベルＭＬに基づいて、ブロックの境界を修正する。これによって、マスキングレベル算出手段２５と、ブロック境界修正手段５１において、各ブロックの処理に必要な実行時間又は実行ステップ数を削減することができる。

更に、上記の実施の形態２の説明におけるオーディオ信号符号化装置の各構成ブロックの処理は、ソフトウェアプログラムによってコンピュータ又は、デジタルシグナルプロセッサ（ＤＳＰ）上で実現することも可能である。

本発明のオーディオ信号符号化装置および符号化方法は、包絡線情報を算出するブロックに包含される信号成分が、時間軸上に後続又は先行するブロックに包含される信号成分へ及ぼす、前向性マスキング又は後向性マスキングのマスキングレベルを算出し、ブロックに包含されるセグメント信号レベルがマスキングレベルより小さく、時間軸上に連続する２つ以上のブロックを結合することによって、知覚され難い時間軸上の変化によって区切られたブロックの包絡線情報の伝送又は記憶に必要なビット数が増大するのを抑え、知覚上重要な情報への符号化に必要なビット数の減少を防ぎ、再生オーディオ信号の知覚品質を向上することができ、低いビットレートで高品質なオーディオ信号の伝送又は記憶する用途に適用できる。

本発明の実施の形態１におけるオーディオ信号符号化装置の構成ブロック図同実施の形態１におけるオーディオ信号符号化装置の包絡選情報算出手段の構成ブロック図同実施の形態１におけるセグメント信号レベルとブロック境界の説明図同実施の形態１におけるセグメント信号レベルとブロック境界とマスキングレベルの説明図同実施の形態２におけるオーディオ信号符号化装置の包絡選情報算出手段の構成ブロック図同実施の形態２におけるセグメント信号レベルとブロック境界の説明図同実施の形態２におけるセグメント信号レベルとブロック境界とマスキングレベルの説明図従来のオーディオ信号符号化装置の構成ブロック図オーディオ信号復号化装置の構成ブロック図サブバンド信号と付加サブバンド信号と再生オーディオ信号のスペクトルを示す説明図従来のオーディオ信号符号化装置における包絡選情報算出手段の構成ブロック図セグメント信号レベルとブロック境界の説明図セグメント信号レベルの変化量としきい値の説明図

符号の説明

１ダウンサンプリングフィルタ
２コア符号化手段
３，９３分析フィルタ
４，６包絡線情報算出手段
５マルチプレクサ
２１セグメント信号レベル算出手段
２２ブロック境界検出手段
２３ブロック包絡線情報算出手段
２４包絡線情報符号化手段
２５マスキングレベル算出手段
２６，５１ブロック境界修正手段
９１デマルチプレクサ
９２コア復号化手段
９４付加信号生成手段
９５包絡線情報復号化手段
９６包絡線調整手段
９７合成フィルタ

Claims

入力オーディオ信号の周波数帯域を削除した信号から符号化信号を生成すると伴に、前記削除された周波数帯域の包絡線情報を前記符号化信号に多重化し、伝送又は記憶するオーディオ信号符号化装置において、
前記入力オーディオ信号から周波数軸上のサブバンド信号を生成する分析フィルタバンクと、
前記削除される周波数帯域の前記サブバンド信号から時間軸上で等間隔のセグメントのセグメント信号レベルを生成し、前記セグメント信号レベルの時間軸上の急峻な変化を検出し、任意の数の前記セグメントを包含するブロックのブロック境界を設定し、前記ブロックに包含される信号成分が、時間軸上に後続又は先行する前記ブロックに包含される信号成分へ及ぼす、前向性マスキング又は後向性マスキングのマスキングレベルを算出し、前記ブロックに包含される前記セグメント信号レベルが前記マスキングレベルより小さく、時間軸上に連続する２つ以上の前記ブロックを結合し、ブロック毎の前記包絡線情報を算出する包絡線情報算出手段とを備えることを特徴とするオーディオ信号符号化装置。
前記包絡線情報算出手段は、任意の１つの信号成分によって及ぼされる前記マスキングレベルに対して、前記ブロックに包含される前記セグメント信号レベルが前記マスキングレベルより小さい、時間軸上に連続する２つ以上のブロックを結合することを特徴とする請求項１に記載のオーディオ信号符号化装置。
前記包絡線情報算出手段は、任意の異なる２つ以上の信号成分によって及ぼされる前記マスキングレベルを合成したマスキングレベルに対して、前記ブロックに包含される前記セグメント信号レベルが前記合成したマスキングレベルより小さい、時間軸上に連続する２つ以上のブロックを結合することを特徴とする請求項１に記載のオーディオ信号符号化装置。
入力オーディオ信号の周波数帯域を削除した信号から符号化信号を生成すると伴に、前記削除された周波数帯域の包絡線情報を前記符号化信号に多重化し、伝送又は記憶するオーディオ信号符号化方法において、
前記入力オーディオ信号から周波数軸上のサブバンド信号を生成するステップと、
前記削除される周波数帯域の前記サブバンド信号から時間軸上で等間隔のセグメントのセグメント信号レベルを生成し、前記セグメント信号レベルの時間軸上の急峻な変化を検出し、任意の数の前記セグメントを包含するブロックのブロック境界を設定し、前記ブロックに包含される信号成分が、時間軸上に後続又は先行する前記ブロックに包含される信号成分へ及ぼす、前向性マスキング又は後向性マスキングのマスキングレベルを算出し、前記ブロックに包含される前記セグメント信号レベルが前記マスキングレベルより小さく、時間軸上に連続する２つ以上の前記ブロックを結合し、ブロック毎の前記包絡線情報を算出するステップとを備えることを特徴とするオーディオ信号符号化方法。
前記ブロック毎の前記包絡線情報を算出するステップは、任意の１つの信号成分によって及ぼされる前記マスキングレベルに対して、前記ブロックに包含される前記セグメント信号レベルが前記マスキングレベルより小さい、時間軸上に連続する２つ以上のブロックを結合することを特徴とする請求項４に記載のオーディオ信号符号化方法。
前記ブロック毎の前記包絡線情報を算出するステップは、任意の異なる２つ以上の信号成分によって及ぼされる前記マスキングレベルを合成したマスキングレベルに対して、前記ブロックに包含される前記セグメント信号レベルが前記合成したマスキングレベルより小さい、時間軸上に連続する２つ以上のブロックを結合することを特徴とする請求項４に記載のオーディオ信号符号化方法。