JP2005148539A - オーディオ信号符号化装置およびオーディオ信号符号化方法 - Google Patents
オーディオ信号符号化装置およびオーディオ信号符号化方法 Download PDFInfo
- Publication number
- JP2005148539A JP2005148539A JP2003387890A JP2003387890A JP2005148539A JP 2005148539 A JP2005148539 A JP 2005148539A JP 2003387890 A JP2003387890 A JP 2003387890A JP 2003387890 A JP2003387890 A JP 2003387890A JP 2005148539 A JP2005148539 A JP 2005148539A
- Authority
- JP
- Japan
- Prior art keywords
- block
- signal
- masking
- level
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】知覚され難い時間軸上の変化によって区切られたブロックの包絡線情報のビット数が増大し、知覚上重要な情報の符号化に必要なビット数が減少し、再生オーディオ信号の知覚品質が劣化するという課題があった。
【解決手段】包絡線情報E1を算出するブロックに包含される信号成分が、時間軸上に後続又は先行するブロックに包含される信号成分へ及ぼす、前向マスキング又は逆向マスキングのマスキングレベルを算出し、ブロックに包含されるセグメント信号レベルがマスキングレベルより小さく、時間軸上に連続する2つ以上のブロックを結合し、包絡線情報のビット数の増大を抑えるマスキングレベル算出手段25とブロック境界修正手段26を備える。
【選択図】図2
【解決手段】包絡線情報E1を算出するブロックに包含される信号成分が、時間軸上に後続又は先行するブロックに包含される信号成分へ及ぼす、前向マスキング又は逆向マスキングのマスキングレベルを算出し、ブロックに包含されるセグメント信号レベルがマスキングレベルより小さく、時間軸上に連続する2つ以上のブロックを結合し、包絡線情報のビット数の増大を抑えるマスキングレベル算出手段25とブロック境界修正手段26を備える。
【選択図】図2
Description
本発明は、オーディオ信号の周波数帯域を削除し、削除された周波数帯域の包絡線情報を符号化信号に重畳して伝送又は記憶するオーディオ信号の符号化装置および符号化方法に関するものである。
デジタルオーディオの分野では、人間の可聴帯域(例えば、20kHz以下)をカバーするように周波数帯域を制限してコンパクトディスク(CD)などの記録媒体に記録したり、或いは衛星デジタル放送などの伝送経路を通じて伝送している。
その一方で、CDに比べて10分の1以下の低いビットレートで、高品位の音質で伝送又は記憶を可能にする様々なオーディオ信号符号化技術が多く使われている。これらのオーディオ信号の符号化技術には、例えばミニディスク(MD)に採用されているATRAC(Adaptive Transform Acoustic Coding)方式や、衛星デジタル放送で採用されているISO(International Organization for Standardization)のMPEG(Moving Picture Experts Group)で規格化されているMPEG2−AACなどの各種方式がある。
これらのオーディオ信号符号化技術では、時間軸上のオーディオ信号を複数のサンプルでまとめた符号化フレームを単位として、周波数軸上の成分を表すサブバンド信号や、スペクトルに変換される。周波数軸上の成分への変換には、QMF(Quadrature Mirror Filter)などの帯域分割フィルタといったフィルタバンクや、MDCT(Modified Discrete Transform)などの周波数変換といった変換プロセスが利用される。
以下に説明するオーディオ信号の符号化処理では、MDCTなどの周波数変換を利用して時間軸上のオーディオ信号を、周波数軸上のスペクトルに変換する場合について説明する。
上記の周波数変換により変換されるスペクトルは、複数のスペクトルをまとめた正規化帯域毎に正規化及び量子化が施される。スペクトルは、正規化帯域毎のスペクトル振幅を表すスケールファクタで正規化される。更に、正規化されたスペクトルは、所望のビットレートになるように、正規化帯域毎に割り当てられる量子化ビット数で量子化される。量子化ビット数は、最小可聴しきい値や、マスキングなどの人間の聴覚心理特性に基づいて、聴感上知覚されない、もしくは知覚され難い量子化雑音レベルを許容して割り当てられる。量子化されたスペクトルは、符号化された後に、スケールファクタや量子化ビット数などの符号化情報と多重化され、符号化信号として伝送又は記憶される。このようにして、人間の聴覚特性を利用することは、ビットレートの大幅な低減をもたらす。
上記のオーディオ信号の符号化処理によって、伝送又は記憶された符号化信号は、復号化処理において符号化処理の逆の手順を施され、再生オーディオ信号に復元されて出力される。
以下の説明では、上記の一連の処理によって入力されるオーディオ信号から符号化信号を生成するオーディオ信号の符号化処理をコア符号化処理と呼び、コア符号化処理を施す処理ブロックをコア符号化手段と呼ぶ。更に、コア符号化処理の逆の手順を施して、符号化信号から再生オーディオ信号を復元し出力する復号化処理をコア復号化処理と呼び、コア復号化処理を施す処理ブロックをコア復号化手段と呼ぶ。
しかしながら、更に低いビットレートで上記のコア符号化処理を施した場合には、生成され伝送又は記憶される符号化信号にコア復号化処理を施して出力される再生オーディオ信号の音質劣化が知覚される。このことは、低いビットレートという要求に対して行われるコア符号化処理によって、削減される情報量が聴感上知覚され易い部分に及ぶためである。特に、周波数帯域が制限されて、高音域のスペクトルが欠損されることが多い。これは、低音域のスペクトルの欠損よりも、高音域のスペクトルの欠損のほうが聴感上知覚され難いことによる。
そこで、低いビットレートでコア符号化処理を施すことにより欠損する高音域のスペクトルを、復号化時にコア復号化処理とは別に、擬似的に再現することによって、出力する再生オーディオ信号の周波数帯域を拡張して、音質を改善する幾つかの方法が提案されている。
第1の方法は、符号化信号にコア復号化処理を施して復元される復号オーディオ信号の周波数軸上のスペクトル又はサブバンド信号を分析し、コア符号化処理により欠損される周波数帯域のスペクトルの包絡線や分布、振幅などを推定する。同時に、欠損される周波数帯域のスペクトルを持つランダムノイズなどの付加信号を生成し、推定したスペクトルの包絡線や分布、振幅などに基づいて、生成した付加信号のスペクトルの包絡線や分布、振幅などを調整する。この付加信号を、変換プロセス又はフィルタバンクによって復号オーディオ信号に合成して再生オーディオ信号を出力する(例えば、非特許文献1参照)。
第2の方法は、符号化時にコア符号化処理とは別に、入力されるオーディオ信号の周波数軸上のスペクトル又はサブバンド信号を分析し、コア符号化処理により欠損される周波数帯域のスペクトルの包絡線や分布、振幅などを求め、これらをコア符号化処理により生成される符号化信号に多重化して伝送又は記憶する。復号化時には、欠損される周波数帯域のスペクトルを持つ付加信号を生成すると伴に、符号化信号に多重化されるスペクトルの包絡線や分布、振幅などを抽出して再現し、これらに基づいて付加信号のスペクトルの包絡線や分布、振幅などを調整する(例えば、特許文献1又は非特許文献2参照)。
更に、上記の2つの方法を併せて利用する場合もある。
上記のようにして、コア復号化処理を施して復元される復号オーディオ信号に含まれない周波数帯域のスペクトルを持つ付加信号を生成し、復号オーディオ信号と付加信号とを合成することにより、低いビットレートで再生オーディオ信号の周波数帯域を拡張し、知覚品質を大幅に改善することができる。
以下の説明では、上記の第2の方法により、入力されるオーディオ信号を分析し、削除される周波数帯域のスペクトルの包絡線情報を求め、符号化信号に多重化して伝送又は記憶するオーディオ信号符号化装置について説明する。
図8は、オーディオ信号符号化装置の構成を示すブロック図である。
図8において、1は入力オーディオ信号X1の周波数帯域を削除するダウンサンプリングフィルタである。2は、周波数帯域が削除された信号X2にコア符号化処理を施して第1の符号化信号S2を生成し出力するコア符号化手段である。3は、入力オーディオ信号から周波数軸上のサブバンド信号Sb1を生成する分析フィルタである。6は、サブバンド信号Sb1から、削除される周波数帯域のサブバンド信号の包絡線情報E1を算出し、符号化した符号化包絡線情報E2を生成し出力する包絡選情報算出手段である。5は、第1の符号化信号S2に、符号化包絡線情報E2を多重化して、符号化信号S1を生成し出力するマルチプレクサである。
図9は、図8のオーディオ信号符号化装置により生成される符号化信号S1を入力し、再生オーディオ信号Y1を出力するオーディオ信号復号化装置の構成を示すブロック図である。
図9において、91は入力される符号化信号S1から、図8のオーディオ信号符号化装置により周波数帯域が削除された第1の符号化信号S2と、符号化包絡線情報E2を分離して出力するデマルチプレクサである。92は、第1の符号化信号S2にコア復号化処理を施して、時間軸上の復号オーディオ信号Y2を生成し出力するコア復号化手段である。93は、復号オーディオ信号Y2から周波数軸上のサブバンド信号Sb2を生成し出力する分析フィルタである。94は、サブバンド信号Sb2に基づいて、削除された周波数帯域のスペクトルを持つ付加サブバンド信号Sb3を生成し出力する付加信号生成手段である。95は、符号化包絡線情報E2から削除された周波数帯域のサブバンド信号の包絡線情報E1を復元する包絡線情報復号化手段である。96は、包絡線情報E1に基づいて、削除された周波数帯域のスペクトルを持つ付加サブバンド信号Sb3の包絡線を調整した付加サブバンド信号Sb4を出力する包絡線調整手段である。97は、サブバンド信号Sb2と、包絡線調整手段96により包絡線を調整された付加サブバンド信号Sb4を合成して、再生オーディオ信号Y1を生成し出力する合成フィルタである。
図10は、図9のオーディオ信号復号化装置において、分析フィルタ93から出力されるサブバンド信号Sb2と、包絡線調整手段96から出力される付加サブバンド信号Sb4と、合成フィルタ97から出力される再生オーディオ信号Y1の周波数スペクトルを示す説明図である。尚、図10のスペクトルを示す説明図の横軸は周波数を、縦軸はスペクトルの振幅を其々表す。
図10において、(10A)は、コア復号化手段92により生成された復号オーディオ信号Y2を分析フィルタ93で分析し出力されるサブバンド信号Sb2のスペクトルである。加えて、(10A)に示すサブバンド信号Sb2のスペクトルにおいて、図8のオーディオ信号符号化処理でf1より上の周波数帯域が削除されるために、帯域の上限はf1となる。(10B)は、包絡線調整手段96から出力される付加サブバンド信号Sb4のスペクトルである。サブバンド信号Sb4は、付加信号生成手段から出力される付加サブバンド信号Sb3の包絡線を包絡線情報E1に基づいて調整されたサブバンド信号であって、付加サブバンド信号Sb3は、分析フィルタ93から出力されるサブバンド信号Sb2に基づいて生成されるサブバンド信号である。ここで、例えば付加サブバンド信号Sb3は、サブバンド信号Sb2のf1より低い周波数帯域のサブバンド信号の一部をf1より高い周波数帯域に複製して生成される。これにより、(10B)に示すようにの付加サブバンド信号Sb4は、f1からf2の帯域に分布するスペクトルを持つ。(10C)は、合成フィルタ97から出力される再生オーディオ信号Y1のスペクトルである。(10C)に示すように、再生オーディオ信号Y1のスペクトルは、帯域の上限がf2に拡張される。これにより、帯域の上限がf1の復号オーディオ信号Y2に対して、付加サブバンド信号Sb4が合成されて出力される再生オーディオ信号Y1を聴取した場合には、聴感上の知覚品質が大幅に改善される。或いは、上記のような帯域の拡張方法を利用することにより、高品位な音質を保ちながら、より低いビットレートでの符号化を行うことができる。
図11は、図8のオーディオ信号符号化装置において、分析フィルタ3により生成されたサブバンド信号Sb1から、ダウンサンプリングフィルタ1により削除される周波数帯域のサブバンド信号の包絡線情報E1を算出し、符号化包絡線情報E2を生成し出力する包絡線情報算出手段6の構成を更に詳しく示すブロック図である。
図11において、21は、分析フィルタ3により生成されたサブバンド信号Sb1の中の、ダウンサンプルフィルタ1によって削除される周波数帯域のサブバンド信号から時間軸上に等間隔のセグメントのセグメント信号レベルSLを生成するセグメント信号レベル算出手段である。ここで例えば、セグメント信号レベルSLは、セグメントの時間間隔における、削除される周波数帯域のサブバンド信号の自乗和で求められる。すなわち、セグメントの信号レベルSLは、削除される周波数帯域のスペクトルを持つ信号成分に対するセグメントの時間間隔のエネルギーを表す。22は、セグメント信号レベルSLの時間軸上の急峻な変化を検出し、任意の数のセグメントを包含するブロックのブロック境界を設定するブロック境界検出手段であって、ブロック境界情報B1を出力する。23は、ブロック境界情報B1に基づいて、ブロックに包含されるセグメント信号レベルSLから、ブロック毎のブロック包絡線情報E1を算出するブロック包絡線情報算出手段である。ここで例えば、ブロック包絡線情報E1は、削除される周波数帯域に亘って、ブロックに包含される時間軸上に並ぶセグメントの、同一の周波数f(fは、削除される周波数帯域に包含される任意の周波数)に対するセグメント信号レベルSLの平均値によって算出される。このようにして、セグメント信号レベルの変化が緩やかなセグメントをまとめたブロック毎に包絡線情報を算出することにより、包絡線情報の伝送又は記憶に必要なビット数が削減できる。逆に、セグメント信号レベルの急峻な変化をもたらすセグメントが同一のブロックに包含されると、ブロック毎に算出される包絡線情報は元のセグメントの包絡線と大きく異なることになり、復号化時に音質の著しい変化を起こし、知覚品質が大きく劣化する。このため、ブロック境界の設定は知覚品質の劣化を抑えるように、セグメント信号レベルの変化に対応した精緻なブロック境界の設定が望まれる。24は、ブロック毎の包絡線情報E1をコア符号化手段2の符号化フレームに対応する時間間隔でまとめて符号化し、符号化包絡線情報E2を生成し出力する包絡線情報符号化手段である。ここで例えば、包絡線情報E1は、時間軸又は周波数軸の差分値に変換する差分符号化や、高効率な符号テーブルによるハフマン符号化が施されて、包絡線情報の伝送又は記憶に必要なビット数が削減される。
図12は、セグメント信号レベルSLと、ブロック境界検出手段22により設定されるブロックの境界を表す説明図である。尚、図12のセグメント信号レベルとブロック境界を表す説明図の横軸は時間を、縦軸はセグメント信号レベルの大きさを表す。以下の説明では、コア符号化手段2の符号化フレームに対応する時間間隔に包含されるセグメントの数を16個とし、其々のセグメント信号レベルSLのインデックスをi(0<=i<16)で表し、時間軸上でiはi−1に後続するものとする。
図12において、16個のセグメント信号レベルSL(i)(0<=i<16)が時間軸に並び、ブロック境界検出手段22によって検出されるセグメント信号レベルSL(i)の時間軸上の急峻な変化に基づいて、A,B,C,Dの4つのブロックに区切るブロック境界が設定されている。ブロックAはSL(i)(0<=i<6)の6個のセグメントを、ブロックBはSL(i)(6<=i<8)の2個のセグメントを、ブロックCはSL(i)(8<=i<12)の4個のセグメントを、ブロックDはSL(i)(12<=i<16)の4個のセグメントを包含する。ここで例えば、セグメント信号レベルの時間軸の急峻な変化は、隣接する2つのセグメントの間で求められるセグメント信号レベルの変化量D(i)(1<=i<16)と、予め定められるしきい値THRとの比較により検出され、時間軸上の急峻な変化として検出される2つのセグメントの間にブロック境界が設定される。加えて、セグメント信号レベルの変化量は、例えば、信号レベルの差の絶対値又は比に基づいて算出される。
図13は、セグメント信号レベルの変化量D(i)と、予め定められるしきい値THRを表す説明図である。尚、図12のセグメント信号レベルの変化量を表す説明図の横軸は時間を、縦軸はセグメント信号レベルの変化量の大きさを表す。
図13において、セグメント信号レベルの変化量D(i)は、隣接する2つのセグメント間のセグメント信号レベルSL(i)の差の絶対値であって、D(i)=|SL(i)−SL(i−1)|で算出される場合を示す。ここで、i=6,8,12のセグメントにおいてセグメント信号レベルの変化量D(i)(i=6,8,12)は、予め定められるしきい値THRより大きい。これによって、ブロック境界検出手段22によって、図9に示される通りに、i=5とi=6のセグメントの間と、i=7とi=8のセグメントの間と、i=11とi=12のセグメントの間にブロック境界が設定され、A,B,C,Dの4つのブロックに区切られる。
特表2001−521648号公報(第1図)
シュルツ著「ノイズ代入によるオーディオ符号化の改良(Improving Audio Codecs by Noise Substitution)」JAES誌、1996年、第44巻、第7/8号
マーチン、他共著「スペクトルバンド複製によるオーディオ符号化における新たなアプローチ(Spectral Band Replication,a novel approach in audio coding)」AES、2002年、ドイツ、ミュンヘン会議、論文第5553号
解決しようとする問題点は、入力オーディオ信号の周波数帯域を削除した信号から符号化信号を生成すると伴に、削除された周波数帯域の包絡線情報を前記符号化信号に多重化し、伝送又は記憶するオーディオ信号符号化装置において、知覚され難い時間軸上の変化によって区切られたブロックの包絡線情報のビット数が増大し、知覚上重要な情報の符号化に必要なビット数が減少して再生オーディオ信号の知覚品質が劣化する点である。
本発明は、包絡線情報を算出するブロックに包含される信号成分が、時間軸上に後続又は先行するブロックに包含される信号成分へ及ぼす、前向性マスキング又は後向性マスキングのマスキングレベルを算出し、ブロックに包含されるセグメント信号レベルがマスキングレベルより小さく、時間軸上に連続する2つ以上のブロックを結合することを最も主要な特徴とする。
本発明のオーディオ信号符号化装置および符号化方法は、包絡線情報を算出するブロックに包含される信号成分が、時間軸上に後続又は先行するブロックに包含される信号成分へ及ぼす、前向性マスキング又は後向性マスキングのマスキングレベルを算出し、ブロックに包含されるセグメント信号レベルがマスキングレベルより小さく、時間軸上に連続する2つ以上のブロックを結合することができるので、知覚され難い時間軸上の変化によって区切られたブロックの包絡線情報のビット数が増大することを抑え、知覚上重要な情報の符号化に必要なビット数への減少を防ぎ、再生オーディオ信号の知覚品質を向上することができるという利点がある。
以下に、本発明を実施するための形態について、図面を参照しながら説明する。
(実施の形態1)
図1は、本発明の実施の形態1におけるオーディオ信号符号化装置の構成を示すブロック図である。
図1は、本発明の実施の形態1におけるオーディオ信号符号化装置の構成を示すブロック図である。
図1において、1は入力オーディオ信号X1の周波数帯域を削除するダウンサンプリングフィルタである。2は、周波数帯域が削除された信号X2にコア符号化処理を施して第1の符号化信号S2を生成し出力するコア符号化手段である。3は、入力オーディオ信号から周波数軸上のサブバンド信号Sb1を生成する分析フィルタである。4は、サブバンド信号Sb1から、削除される周波数帯域のサブバンド信号の包絡線情報E1を算出し、符号化した符号化包絡線情報E2を生成し出力する包絡選情報算出手段である。5は、第1の符号化信号S2に、符号化包絡線情報E2を多重化して、符号化信号S1を生成し出力するマルチプレクサである。
図1のオーディオ信号符号化装置によって、入力オーディオ信号X1から生成される符号化信号S1は、図9に示すオーディオ信号復号化装置によって復号化処理が施されることによって、再生オーディオ信号Y1として出力される。
図2は、図1のオーディオ信号符号化装置において、分析フィルタ3により生成されたサブバンド信号Sb1から、ダウンサンプリングフィルタ1により削除される周波数帯域のサブバンド信号の包絡線情報E1を算出し、符号化包絡線情報E2を生成し出力する包絡線情報算出手段4の構成を更に詳しく示すブロック図である。
図2において、21〜24は、図8と同様であるので説明を省略する。25は、ブロックに包含される信号成分が、時間軸上に後続又は先行するブロックに包含される信号成分へ及ぼす、前向性マスキング又は後向性マスキングのマスキングレベルを算出するマスキングレベル算出手段である。前向性マスキングは、時間軸上で先行する音の後続する音へのマスキングを表し、50ミリ秒から200ミリ秒程度の範囲で影響を及ぼす。後向性マスキングは、時間軸上で後続する音の先行する音へのマスキングを表し、20ミリ秒程度の範囲で影響を及ぼす。すなわち、前向性マスキングは後向性マスキングよりも影響を及ぼす範囲が長い。これによって、前向性マスキング又は後向性マスキングの影響を受けた音は聴感上知覚され難くなる。ここで例えば、マスキングレベルは、マスキングの影響を及ぼすセグメント信号レベルSLの大きさと、時間軸上に後続又は先行するマスキングの影響を受けるセグメントとの時間間隔とに基づいて、セグメント時間間隔毎の前向性マスキング又は後向性マスキングのマスキングレベルとして算出する。26は、ブロックに包含されるセグメント信号レベルが同一のセグメント信号レベルによって及ぼされるマスキングレベルより小さく、時間軸上に連続する2つ以上のブロックを結合するようにブロック境界を修正し、ブロック境界情報B2を出力するブロック境界修正手段である。
図3は、セグメント信号レベルSLと、ブロック境界検出手段22により設定されるブロックの境界を表す説明図である。尚、図3のセグメント信号レベルとブロック境界を表す説明図の横軸は時間を、縦軸はセグメント信号レベルの大きさを表す。
図3において、16個のセグメント信号レベルSL(i)(0<=i<16)をA,B,C,Dの4つのブロックに区切るブロック境界の設定方法は、図12と同様であるので説明は省略する。更に、図3において、破線で描かれているマスキングレベルMLは、ブロックBに包含されるセグメント信号レベルSL(6)が時間軸上に後続又は先行するセグメント時間間隔へ及ぼす前向性マスキング又は後向性マスキングのマスキングレベルを表す。同様にして、全てのセグメント信号レベルSL(i)についてマスキングレベルが算出されるが、図3では、説明を簡単にするために、セグメント信号レベルSL(6)が及ぼす前向性マスキング又は後向性マスキングのマスキングレベルのみを表す。図3において、ブロックCとブロックDに包含されるセグメント信号レベルSL(i)(8<=i<16)は、何れも同一のセグメント信号レベルSL(6)によって及ぼされるマスキングレベルMLより小さいことを表す。このことは、ブロックAとブロックBに包含されるセグメント信号レベルがセグメント信号レベルSL(6)による前向性マスキングの効果により知覚され難くなることを示す。
図4は、セグメント信号レベルSLと、ブロック境界修正手段26により修正されるブロック境界と、マスキングレベル算出手段25により算出される前向性マスキング又は後向性マスキングのマスキングレベルを表す説明図である。尚、図4のブロックの境界を表す説明図の横軸は時間を、縦軸はセグメントの信号レベルを其々表す。セグメント信号レベルSL(i)、ブロックA、ブロックBと、マスキングレベルMLは図3と同様である。
図4において、ブロックEは、SL(i)(8<=i<16)のセグメントを包含する。図3において、ブロックCはSL(i)(8<=i<12)の4個のセグメントを、ブロックDはSL(i)(12<=i<16)の4個のセグメントを包含する。しかしながら、ブロックCおよびブロックDに包含されるセグメント信号レベルSL(i)(8<=i<16)は、同一のセグメント信号レベルSL(6)によって及ぼされるマスキングレベルMLよりも小さい。このことは、ブロックCとブロックDに包含されるセグメント信号レベルがセグメント信号レベルSL(6)による前向性マスキングの効果により知覚され難くなることを示す。ブロック境界修正手段26は、ブロックに包含されるセグメント信号レベルがマスキングレベルより小さい、時間軸上に連続するブロックCとブロックDを結合し、ブロックEとするようにブロック境界を修正する。ゆえに、マスキングレベルより小さく知覚され難いセグメント信号レベルSL(i)(8<=i<16)の8個のセグメントは同一のブロックEに包含されることになる。これによって、図3でA,B,C,Dの4つに分割されるブロックの数が、図4ではA,B,Eの3つに削減できる。このことは、前向性マスキング又は後向性マスキングの効果により、知覚品質を保ちながら、包絡線情報の伝送又は記憶に必要なビット数が削減できることを意味する。或いは、知覚され難い時間軸上の変化によって区切られたブロックの包絡線情報の伝送又は記憶に必要なビット数が増大するのを抑え、知覚上重要な情報への符号化に必要なビット数の減少を防ぎ、再生オーディオ信号の知覚品質を向上することができることを意味する。
上記の説明において、マスキングレベル算出手段25における前向性マスキング又は後向性マスキングのマスキングレベルMLの算出は、全てのセグメント信号レベルSLに対して行わないで、予め定められたしきい値を超えるセグメント信号レベルSLに対して行うようにしてもよい。或いは、セグメント信号レベルSLの大きい順から、予め定められた個数のセグメント信号レベルSLに対して行うようにしてもよい。そして、ブロック境界修正手段26は、マスキングレベル算出手段25によって算出される前向性マスキング又は後向性マスキングのマスキングレベルMLに基づいて、ブロックの境界を修正する。これによって、マスキングレベル算出手段25と、ブロック境界修正手段26において、各ブロックの処理に必要な実行時間又は実行ステップ数を削減することができる。
更に、上記の実施の形態1の説明におけるオーディオ信号符号化装置の各構成ブロックの処理は、ソフトウェアプログラムによってコンピュータ又は、デジタルシグナルプロセッサ(DSP)上で実現することも可能である。
(実施の形態2)
図5は、本発明の実施の形態2における分析フィルタ3により生成されたサブバンド信号Sb1から、ダウンサンプリングフィルタ1により削除される周波数帯域のサブバンド信号の包絡線情報E1を算出し、符号化包絡線情報E2を生成し出力する包絡選情報算出手段4の構成を更に詳しく示すブロック図である。
図5は、本発明の実施の形態2における分析フィルタ3により生成されたサブバンド信号Sb1から、ダウンサンプリングフィルタ1により削除される周波数帯域のサブバンド信号の包絡線情報E1を算出し、符号化包絡線情報E2を生成し出力する包絡選情報算出手段4の構成を更に詳しく示すブロック図である。
図5において、21〜25は、図2と同様であるので説明を省略する。51は、ブロックに包含されるセグメント信号レベルが異なるセグメント信号レベルによって及ぼされるマスキングレベルより小さく、時間軸上に連続する2つ以上のブロックを結合するようにブロック境界を修正し、ブロック境界情報B2を出力するブロック境界修正手段である。
図6は、セグメント信号レベルSLと、ブロック境界検出手段51により設定されるブロックの境界を表す説明図である。尚、図6のセグメント信号レベルとブロック境界を表す説明図の横軸は時間を、縦軸はセグメント信号レベルの大きさを表す。
図6において、16個のセグメント信号レベルSL(i)(0<=i<16)をA2,B2,C2,D2,E2の5つのブロックに区切るブロック境界の設定方法は、図12と同様であるので説明は省略する。更に、図6において、破線で描かれているマスキングレベルML1は、ブロックB2に包含されるセグメント信号レベルSL(6)が時間軸上に後続又は先行するセグメント時間間隔へ及ぼす前向性マスキングのマスキングレベルを表す。加えて、破線で描かれているマスキングレベルML2は、ブロックE2に包含されるセグメント信号レベルSL(14)が時間軸上に後続又は先行するセグメント時間間隔へ及ぼす後向性マスキングのマスキングレベルを表す。同様にして、全てのセグメント信号レベルSL(i)についてマスキングレベルが算出されるが、図6では、説明を簡単にするために、セグメント信号レベルSL(6)と、セグメント信号レベルSL(14)が及ぼす前向性マスキング又は後向性マスキングのマスキングレベルを表す。図6において、ブロックC2に包含されるセグメント信号レベルSL(i)(8<=i<12)は、セグメント信号レベルSL(6)によって及ぼされるマスキングレベルML1より小さいことを表す。このことは、ブロックC2に包含されるセグメント信号レベルがセグメント信号レベルSL(6)による前向性マスキングの効果により知覚され難くなることを示す。しかしながら、ブロックD2に包含されるセグメント信号レベルSL(13)は、セグメント信号レベルSL(6)によって及ぼされるマスキングレベルML1より大きいことを表す。その一方で、セグメント信号レベルSL(13)は、セグメント信号レベルSL(14)によって及ぼされるマスキングレベルML2より小さいことを表す。このことは、セグメント信号レベルSL(13)がセグメント信号レベルSL(14)による後向性マスキングの効果により知覚され難くなることを示す。
図7は、セグメント信号レベルSLと、ブロック境界修正手段51により修正されるブロック境界と、マスキングレベル算出手段25により算出される前向性マスキング又は後向性マスキングのマスキングレベルを表す説明図である。尚、図7のブロックの境界を表す説明図の横軸は時間を、縦軸はセグメントの信号レベルを其々表す。セグメント信号レベルSL(i)、ブロックA2、ブロックB2、ブロックE2と、マスキングレベルML1、ML2は図6と同様である。
図7において、ブロックF2は、SL(i)(8<=i<14)のセグメントを包含する。図6において、ブロックC2はSL(i)(8<=i<12)の4個のセグメントを、ブロックD2はSL(i)(12<=i<14)の2個のセグメントを包含する。しかしながら、ブロックC2およびブロックD2に包含されるセグメント信号レベルSL(i)(8<=i<13)は、セグメント信号レベルSL(6)によって及ぼされるマスキングレベルML1よりも小さい。加えて、ブロックD2に包含されるセグメント信号レベルSL(13)は、セグメント信号レベルSL(1)によって及ぼされるマスキングレベルML2よりも小さい。このことは、ブロックC2とブロックD2に包含されるセグメント信号レベルがセグメント信号レベルSL(6)による前向性マスキングと、セグメント信号レベルSL(14)による後向性マスキングの効果により知覚され難くなることを示す。ブロック境界修正手段51は、ブロックに包含されるセグメント信号レベルがマスキングレベルより小さい、時間軸上に連続するブロックC2とブロックD2を結合し、ブロックF2とするようにブロック境界を修正する。ゆえに、マスキングレベルより小さく知覚され難いセグメント信号レベルSL(i)(8<=i<14)の6個のセグメントは同一のブロックF2に包含されることになる。これによって、図6でA2,B2,C2,D2,E2の5つに分割されるブロックの数が、図7ではA2,B2,E2,F2の4つに削減できる。このことは、前向性マスキング又は後向性マスキングの効果により、知覚品質を保ちながら、包絡線情報の伝送又は記憶に必要なビット数が削減できることを意味する。或いは、知覚され難い時間軸上の変化によって区切られたブロックの包絡線情報の伝送又は記憶に必要なビット数が増大するのを抑え、知覚上重要な情報への符号化に必要なビット数の減少を防ぎ、再生オーディオ信号の知覚品質を向上することができることを意味する。
上記の説明において、マスキングレベル算出手段25における前向性マスキング又は後向性マスキングのマスキングレベルMLの算出は、全てのセグメント信号レベルSLに対して行わないで、予め定められたしきい値を超えるセグメント信号レベルSLに対して行うようにしてもよい。或いは、セグメント信号レベルSLの大きい順から、予め定められた個数のセグメント信号レベルSLに対して行うようにしてもよい。そして、ブロック境界修正手段51は、マスキングレベル算出手段25によって算出される前向性マスキング又は後向性マスキングのマスキングレベルMLに基づいて、ブロックの境界を修正する。これによって、マスキングレベル算出手段25と、ブロック境界修正手段51において、各ブロックの処理に必要な実行時間又は実行ステップ数を削減することができる。
更に、上記の実施の形態2の説明におけるオーディオ信号符号化装置の各構成ブロックの処理は、ソフトウェアプログラムによってコンピュータ又は、デジタルシグナルプロセッサ(DSP)上で実現することも可能である。
本発明のオーディオ信号符号化装置および符号化方法は、包絡線情報を算出するブロックに包含される信号成分が、時間軸上に後続又は先行するブロックに包含される信号成分へ及ぼす、前向性マスキング又は後向性マスキングのマスキングレベルを算出し、ブロックに包含されるセグメント信号レベルがマスキングレベルより小さく、時間軸上に連続する2つ以上のブロックを結合することによって、知覚され難い時間軸上の変化によって区切られたブロックの包絡線情報の伝送又は記憶に必要なビット数が増大するのを抑え、知覚上重要な情報への符号化に必要なビット数の減少を防ぎ、再生オーディオ信号の知覚品質を向上することができ、低いビットレートで高品質なオーディオ信号の伝送又は記憶する用途に適用できる。
1 ダウンサンプリングフィルタ
2 コア符号化手段
3,93 分析フィルタ
4,6 包絡線情報算出手段
5 マルチプレクサ
21 セグメント信号レベル算出手段
22 ブロック境界検出手段
23 ブロック包絡線情報算出手段
24 包絡線情報符号化手段
25 マスキングレベル算出手段
26,51 ブロック境界修正手段
91 デマルチプレクサ
92 コア復号化手段
94 付加信号生成手段
95 包絡線情報復号化手段
96 包絡線調整手段
97 合成フィルタ
2 コア符号化手段
3,93 分析フィルタ
4,6 包絡線情報算出手段
5 マルチプレクサ
21 セグメント信号レベル算出手段
22 ブロック境界検出手段
23 ブロック包絡線情報算出手段
24 包絡線情報符号化手段
25 マスキングレベル算出手段
26,51 ブロック境界修正手段
91 デマルチプレクサ
92 コア復号化手段
94 付加信号生成手段
95 包絡線情報復号化手段
96 包絡線調整手段
97 合成フィルタ
Claims (6)
- 入力オーディオ信号の周波数帯域を削除した信号から符号化信号を生成すると伴に、前記削除された周波数帯域の包絡線情報を前記符号化信号に多重化し、伝送又は記憶するオーディオ信号符号化装置において、
前記入力オーディオ信号から周波数軸上のサブバンド信号を生成する分析フィルタバンクと、
前記削除される周波数帯域の前記サブバンド信号から時間軸上で等間隔のセグメントのセグメント信号レベルを生成し、前記セグメント信号レベルの時間軸上の急峻な変化を検出し、任意の数の前記セグメントを包含するブロックのブロック境界を設定し、前記ブロックに包含される信号成分が、時間軸上に後続又は先行する前記ブロックに包含される信号成分へ及ぼす、前向性マスキング又は後向性マスキングのマスキングレベルを算出し、前記ブロックに包含される前記セグメント信号レベルが前記マスキングレベルより小さく、時間軸上に連続する2つ以上の前記ブロックを結合し、ブロック毎の前記包絡線情報を算出する包絡線情報算出手段とを備えることを特徴とするオーディオ信号符号化装置。 - 前記包絡線情報算出手段は、任意の1つの信号成分によって及ぼされる前記マスキングレベルに対して、前記ブロックに包含される前記セグメント信号レベルが前記マスキングレベルより小さい、時間軸上に連続する2つ以上のブロックを結合することを特徴とする請求項1に記載のオーディオ信号符号化装置。
- 前記包絡線情報算出手段は、任意の異なる2つ以上の信号成分によって及ぼされる前記マスキングレベルを合成したマスキングレベルに対して、前記ブロックに包含される前記セグメント信号レベルが前記合成したマスキングレベルより小さい、時間軸上に連続する2つ以上のブロックを結合することを特徴とする請求項1に記載のオーディオ信号符号化装置。
- 入力オーディオ信号の周波数帯域を削除した信号から符号化信号を生成すると伴に、前記削除された周波数帯域の包絡線情報を前記符号化信号に多重化し、伝送又は記憶するオーディオ信号符号化方法において、
前記入力オーディオ信号から周波数軸上のサブバンド信号を生成するステップと、
前記削除される周波数帯域の前記サブバンド信号から時間軸上で等間隔のセグメントのセグメント信号レベルを生成し、前記セグメント信号レベルの時間軸上の急峻な変化を検出し、任意の数の前記セグメントを包含するブロックのブロック境界を設定し、前記ブロックに包含される信号成分が、時間軸上に後続又は先行する前記ブロックに包含される信号成分へ及ぼす、前向性マスキング又は後向性マスキングのマスキングレベルを算出し、前記ブロックに包含される前記セグメント信号レベルが前記マスキングレベルより小さく、時間軸上に連続する2つ以上の前記ブロックを結合し、ブロック毎の前記包絡線情報を算出するステップとを備えることを特徴とするオーディオ信号符号化方法。 - 前記ブロック毎の前記包絡線情報を算出するステップは、任意の1つの信号成分によって及ぼされる前記マスキングレベルに対して、前記ブロックに包含される前記セグメント信号レベルが前記マスキングレベルより小さい、時間軸上に連続する2つ以上のブロックを結合することを特徴とする請求項4に記載のオーディオ信号符号化方法。
- 前記ブロック毎の前記包絡線情報を算出するステップは、任意の異なる2つ以上の信号成分によって及ぼされる前記マスキングレベルを合成したマスキングレベルに対して、前記ブロックに包含される前記セグメント信号レベルが前記合成したマスキングレベルより小さい、時間軸上に連続する2つ以上のブロックを結合することを特徴とする請求項4に記載のオーディオ信号符号化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003387890A JP2005148539A (ja) | 2003-11-18 | 2003-11-18 | オーディオ信号符号化装置およびオーディオ信号符号化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003387890A JP2005148539A (ja) | 2003-11-18 | 2003-11-18 | オーディオ信号符号化装置およびオーディオ信号符号化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005148539A true JP2005148539A (ja) | 2005-06-09 |
Family
ID=34695117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003387890A Pending JP2005148539A (ja) | 2003-11-18 | 2003-11-18 | オーディオ信号符号化装置およびオーディオ信号符号化方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005148539A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008146183A1 (en) * | 2007-05-29 | 2008-12-04 | Nxp B.V. | Device and method to reduce power consumption |
US8364474B2 (en) | 2005-12-26 | 2013-01-29 | Sony Corporation | Signal encoding device and signal encoding method, signal decoding device and signal decoding method, program, and recording medium |
-
2003
- 2003-11-18 JP JP2003387890A patent/JP2005148539A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8364474B2 (en) | 2005-12-26 | 2013-01-29 | Sony Corporation | Signal encoding device and signal encoding method, signal decoding device and signal decoding method, program, and recording medium |
WO2008146183A1 (en) * | 2007-05-29 | 2008-12-04 | Nxp B.V. | Device and method to reduce power consumption |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101221918B1 (ko) | 신호 처리 방법 및 장치 | |
KR102057015B1 (ko) | 신호 처리 장치 및 방법, 및 프로그램 | |
JP4876574B2 (ja) | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 | |
US6446037B1 (en) | Scalable coding method for high quality audio | |
JP3579047B2 (ja) | オーディオ復号装置と復号方法およびプログラム | |
JP4899359B2 (ja) | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 | |
JP5942358B2 (ja) | 符号化装置および方法、復号装置および方法、並びにプログラム | |
RU2612584C2 (ru) | Управление фазовой когерентностью для гармонических сигналов в перцепционных аудиокодеках | |
KR20030046463A (ko) | 디코딩된 음향신호의 디코딩에 관한 에러 은폐 | |
JP2009116371A (ja) | 符号化装置および復号化装置 | |
JP2011059714A (ja) | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 | |
JP2006126826A (ja) | オーディオ信号符号化/復号化方法及びその装置 | |
US7466245B2 (en) | Digital signal processing apparatus, digital signal processing method, digital signal processing program, digital signal reproduction apparatus and digital signal reproduction method | |
JP4308229B2 (ja) | 符号化装置および復号化装置 | |
JP2004199075A (ja) | ビット率調節可能なステレオオーディオ符号化・復号化方法及びその装置 | |
JP4973397B2 (ja) | 符号化装置および符号化方法、ならびに復号化装置および復号化方法 | |
JP2005148539A (ja) | オーディオ信号符号化装置およびオーディオ信号符号化方法 | |
JP2007178529A (ja) | 符号化オーディオ信号再生装置及び符号化オーディオ信号再生方法 | |
JP6439843B2 (ja) | 信号処理装置および方法、並びにプログラム | |
JP2005004119A (ja) | 音響信号符号化装置及び音響信号復号化装置 | |
JP6210338B2 (ja) | 信号処理装置および方法、並びにプログラム | |
JP2008033211A (ja) | 付加信号生成装置、信号変換された信号の復元装置、付加信号生成方法、信号変換された信号の復元方法および付加信号生成プログラム | |
KR20100062063A (ko) | 오디오 신호 디코딩 방법, 이를 적용한 오디오 디코더, 기록매체 및 av 기기 | |
JP5569476B2 (ja) | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 |