JP5010197B2 - 音声符号化装置 - Google Patents

音声符号化装置 Download PDF

Info

Publication number
JP5010197B2
JP5010197B2 JP2006203417A JP2006203417A JP5010197B2 JP 5010197 B2 JP5010197 B2 JP 5010197B2 JP 2006203417 A JP2006203417 A JP 2006203417A JP 2006203417 A JP2006203417 A JP 2006203417A JP 5010197 B2 JP5010197 B2 JP 5010197B2
Authority
JP
Japan
Prior art keywords
scale factor
frequency spectrum
factor band
unit
sfb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006203417A
Other languages
English (en)
Other versions
JP2008032823A (ja
Inventor
将高 長田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006203417A priority Critical patent/JP5010197B2/ja
Publication of JP2008032823A publication Critical patent/JP2008032823A/ja
Application granted granted Critical
Publication of JP5010197B2 publication Critical patent/JP5010197B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声符号化装置に係り、特に、セクショニング処理に関する。
AAC(Advanced Audio Coding)方式などによって圧縮された音声信号をハフマン符号化する際、音声信号を周波数変換、例えば、MDCT変換(Modified Discrete Cosine Transform、修正離散コサイン変換)して得られた周波数スペクトルであるMDCT係数を量子化して、得られた量子化スペクトルを符号化する。この符号化の際、スケールファクターバンド(以後、sfbと称する。)と称される周波数帯域毎に発生符号量が少ないハフマンテーブルを選択し、選択されたテーブルを参照して符号化する。
そして、符号化された量子化スペクトルに加えて、選択されたテーブルを示す情報を符号化された音声信号であるビットストリームに含ませる。なお、ハフマンテーブルは、量子化スペクトルの最大値に応じて複数個用意されており、量子化スペクトルの最大値がより小さければ、より小さいテーブルを選択することで、効率的な符号化を行う。
また、セクションと呼ばれる隣り合う複数のsfbで同一のハフマンテーブルを選択する、セクショニング処理が知られている。セクショニング処理によると、選択されたテーブルを示す情報を隣り合うsfbで共通化することができ、上記ビットストリームに含まれるテーブルを示す情報の削減が可能である。この情報の削減により、量子化スペクトルにより多くのビットを割り当てることができ、符号化された音声の音質の向上を図ることができる。
セクショニングは、スペクトルの量子化の前で行うことも、量子化の後で行うことも知られている。量子化の前で行うには、例えば、sfb毎に周波数変換して得られたスペクトルの最大値を求め、求められた最大値が大きいsfbを所定個選択し、それらの選択されたsfb毎に適切なハフマンテーブルを選択する。そして、選択されたsfbの近隣のsfbは、選択されたsfbと同一のセクションとする処理が知られている(例えば、特許文献1参照。)。
セクショニングをスペクトルの量子化の後に行うには、例えば、sfb毎に所定のテーブルを参照してハフマンテーブルを選択し、その選択の後、隣り合うsfbが同一のハフマンテーブルを用いることによって上記ビットストリームに含まれるテーブルを示す情報の削減が可能であれば、それらの隣り合うsfbを同一のセクションとする処理が知られている(例えば、特許文献2参照。)。
特開2002−91498号公報(第1頁、図1、図3) 特開2003−233397号公報(第1頁、図2)
しかしながら、上述した特許文献1に開示されている方法では、セクションの数が音声信号に依存せずに決定されるため、その音声信号に適したセクショニングが困難である問題点があった。音声信号のスペクトルが近い周波数帯域のsfbに集中して分布する場合、この問題点は顕著である。
また、上述した特許文献2に開示されている方法では、所定のテーブルを参照してハフマンテーブルを選択するため、音声信号に適したハフマンテーブルが選択されない可能性がある問題点があった。また、符号化された音声信号であるビットストリームを作成し、そのビット長が所定の値でない場合、スペクトルの量子化の段階に戻って処理を繰り返す必要がある。そこで、処理量が過大になる可能性がある問題点があった。
本発明は上記問題点を解決するためになされたもので、音声信号に適したセクショニングを少ない処理量で行う音声符号化装置を提供することを目的とする。
上記目的を達成するために、本発明の音声符号化装置は、音声信号を所定のスケールファクターバンドに分類された周波数スペクトルに変換し、前記スケールファクターバンド毎にそのスケールファクターバンドに分類された周波数スペクトルの代表値に依存して複数のハフマンテーブルの中のいずれかのハフマンテーブルを選択し、前記スケールファクターバンドに分類された周波数スペクトルを前記選択されたハフマンテーブルを参照して符号化し、その符号化された周波数スペクトルと、前記参照されたハフマンテーブルを識別する符号とを含む符号化された音声信号を作成する符号化手段を有し、前記符号化手段は、隣り合う前記スケールファクターバンドに分類された周波数スペクトルの代表値の比率が第1の値より大きく第2の値より小さい範囲内(ただし、0<第1の値<1、かつ1<第2の値)である場合、それらのスケールファクターバンドに同一の前記ハフマンテーブルを選択することを特徴とする。
また、本発明の音声符号化装置は、音声信号を所定のスケールファクターバンドに分類された周波数スペクトルに変換し、前記スケールファクターバンド毎にそのスケールファクターバンドに分類された周波数スペクトルの代表値に依存して複数のハフマンテーブルの中のいずれかのハフマンテーブルを選択し、前記スケールファクターバンドに分類された周波数スペクトルを前記選択されたハフマンテーブルを参照して符号化し、その符号化された周波数スペクトルと、前記参照されたハフマンテーブルを識別する符号とを含む符号化された音声信号を作成する符号化手段を有し、前記符号化手段は、第1の前記スケールファクターバンドに分類された周波数スペクトルの代表値が小さく、その第1のスケールファクターバンドの低周波数側に隣り合う第2の前記スケールファクターバンドに分類された周波数スペクトルの代表値と、その第1のスケールファクターバンドの高周波数側に隣り合う第3の前記スケールファクターバンドに分類された周波数スペクトルの代表値とが前記第1のスケールファクターバンドの代表値より大きい場合、前記第1、前記第2及び前記第3のスケールファクターバンドに同一の前記ハフマンテーブルを選択することを特徴とする。
本発明によれば、音声信号に適したセクショニングを少ない処理量で行う音声符号化装置を提供することができる。
以下に、本発明による音声符号化装置の実施の形態を、図面を参照して説明する。
(第1の実施形態)
図1は、本発明の第1の実施形態に係る音声符号化装置の構成を示すブロック図である。この音声符号化装置は、装置全体の制御をする制御部11と、音声信号記憶部21と、時間/周波数変換部31と、心理聴覚解析部32と、スケールファクター乗算部33と、セクショニング部34と、量子化ループ処理部41と、フォーマッタ部51と、符号化音声信号記憶部52とからなる。
量子化ループ処理部41は、量子化部42と、ハフマン符号化部43と、発生符号量カウント部44とからなる。
上記のように構成された、本発明の第1の実施形態に係る音声符号化装置の各部の動作を図1を参照して説明する。
音声信号記憶部21には、PCM(Pulse Code Modulation)方式でデジタル信号に変換された音声信号が記憶される。
時間/周波数変換部31は、音声信号記憶部21に記憶された音声信号を読み込んで、時間/周波数変換し、周波数スペクトルを作成して送信する。時間/周波数変換として、MDCT方式が用いられる。そして、周波数スペクトルとして、MDCT係数が作成される。なお、時間/周波数変換は、MDCT方式に限られるものではない。
心理聴覚解析部32には、マスキング効果特性を含む心理聴覚モデルが記憶される。そして、心理聴覚解析部32は、時間/周波数変換部31によって作成されたMDCT係数を受信し、記憶された心理聴覚モデルによってマスキング効果を適用した許容量子化歪み量を、受信されたMDCT係数のsfb毎に算出して送信する。また、レート制御情報を算出して送信する。
なお、心理聴覚解析部32は、これらの算出に際し、音声信号記憶部21に記憶された音声信号を読み込んで、時間/周波数変換部31とは異なる方式の時間/周波数変換、例えば、FFT(Fast Fourier Transform)方式の変換を行い、その変換によって得られた周波数スペクトルを用いても良い。この異なる変換を用いる方法によれば、時間/周波数変換部31及び心理聴覚解析部32によって2つの時間/周波数変換がされることによる処理量の増加が発生するが、これらの処理部にとって適切な変換を独立して選択することができる。
スケールファクター乗算部33は、心理聴覚解析部32によって算出されたsfb毎の許容量子化歪み量を受信し、その歪み量からsfb毎にスケールファクターを算出する。そして、時間/周波数変換部31によって作成されたMDCT係数を受信し、そのMDCT係数にsfb毎に算出されたスケールファクターを乗算して、積のMDCT係数を送信する。
セクショニング部34は、スケールファクター乗算部33によって作成されたMDCT係数を受信し、セクションニング、即ち、2以上の隣り合うsfbを、同じセクションとする。そして、受信されたMDCT係数と、決定されたセクショニングを示す情報とを送信する。なお、あるsfbが無音である、即ち、そのsfbにMDCT係数が存在しない場合、セクショニング部34は、その旨を送信する。そして、そのsfbをセクショニングの対象としない。なぜなら、そのsfbは、ハフマンテーブルによる符号化の対象ではないからである。
量子化ループ処理部41は、量子化部42の動作と、ハフマン符号化部43の動作と、発生符号量カウント部44の動作とを繰り返す。そして、ハフマン符号化部43によって選択されたハフマンテーブルの情報と、そのハフマンテーブルを用いて符号化された符号と、心理聴覚解析部32から送信されたレート制御情報とを記憶する。
量子化部42は、セクショニング部34によって送信されたMDCT係数をsfb単位で非均一に量子化して、量子化されたMDCT係数を送信する。即ち、MDCT係数を除する際の除数である量子化ステップは、sfbに依存する。なお、あるsfbが無音である場合、量子化部42は、そのsfbを量子化の対象としない。
ハフマン符号化部43には、ハフマンテーブルが記憶される。そして、ハフマン符号化部43は、量子化部42によって送信された量子化されたMDCT係数を受信し、セクショニング部34によって作られたセクション毎、またはsfb毎に、適切なハフマンテーブルを選択して用いて符号化し、符号を量子化ループ処理部41内に記憶させ、また、送信する。また、無音であるsfbに関しては、ハフマンテーブルを使用しない符号化を行う。また、ハフマン符号化部43は、用いられたハフマンテーブルを量子化ループ処理部41内に記憶させる。
発生符号量カウント部44は、ハフマン符号化部43によって符号化された符号の符号量、即ちビット数を計測し、各sfb毎のビット数を累積しつつ、量子化ループ処理部41内に記憶させる。この際、ハフマン符号化部43によって量子化ループ処理部41内に記憶されたハフマン符号化部43によって選択されたハフマンテーブルを識別する符号のビット数を併せて計測し、記憶させる。
更に、発生符号量カウント部44は、心理聴覚解析部32から送信されたレート制御情報を量子化ループ処理部41内に記憶させ、その情報によって識別される各sfb毎に用いられたスケールファクターを示す符号のビット数を併せて計測し、記憶させる。これらを識別するビットは、符号化された音声信号であるビットストリームに含まれるからである。
フォーマッタ部51は、量子化ループ処理部41内に記憶された、ハフマン符号化部43によって選択されたハフマンテーブルを識別する情報と、そのハフマンテーブルを用いて符号化された符号と、心理聴覚解析部32から送信されたレート制御情報を識別する情報とを読み込んで、符号化された音声信号であるビットストリームを所定の形式で作成し、符号化音声信号記憶部52に記憶させる。
以下、本実施形態に係る音声符号化装置のセクショニング部34によって行われるセクショニングの動作の詳細を説明する。
セクショニング部34は、スケールファクター乗算部33によって送信されたMDCT係数を受信する。ここで、受信されたMDCT係数の一例を図2に示す。ここで、横軸は周波数であり、縦軸は、そのMDCT係数の振幅値、即ち大きさである。図2は、MDCT係数が、sfbに分割されていることを併せて示す。また、各sfb毎に最大の振幅であるMDCT係数の振幅を太線で示す。なお、図2には、各sfbの周波数帯域の幅は一定であり、各sfb毎に一定数のMDCT係数が含まれるように記載されているが、これらは、一例であって、本実施形態に何ら限定を加えるものではない。
セクショニング部34は、第1の方法及び第2の方法によってセクショニングを行う。まず、第1の方法を説明する。セクショニング部34は、各sfbに含まれるMDCT係数の中から最大値である係数を抽出する。図3は、各sfbから最大値であるMDCT係数が抽出された状態を示す。ここで、横軸はsfbであり、縦軸は、そのsfb毎のMDCT係数の最大の振幅値である。
ここで、各sfbで抽出されたMDCT係数の最大値をmax_quant[sfb]とする。そして、隣り合うsfbのMDCT係数の最大値の比が所定の範囲内である場合、セクショニング部34は、それらのsfbを同一セクションであると決定する。
最大値の比が所定の範囲内であるか否かの判断は、例えば、以下の不等式1が成り立つか否かによる。
SEC_TH1<(max_quant[sfb+1]/ max_quant[sfb])< SEC_TH2 (不等式1)
なお、0<SEC_TH1<1 かつ 1< SEC_TH2 である。
ここで、SEC_TH1と、SEC_TH2とを乗算した積は1としても良い。例えば、SEC_TH1は1/2、SEC_TH2は2である。これらの値により、上記隣り合うsfbのMDCT係数の最大値の比が2倍以内であるか否かを判断することができる。
このように、互いに隣り合うsfbのMDCT係数の最大値の比が所定の範囲内であるか否かによってセクショニングを行うことにより、セクショニング部34は、図4に例示するように、sfb0〜sfb2が1つのセクションであり、sfb3とsfb4とが1つのセクションであり、そして、sfb5〜sfb7が1つのセクションであると決定する。
また、上記不等式1は、SEC_TH1を大きく、また、SEC_TH2を小さくする程、隣り合うsfbのMDCT係数の最大値が同じであっても成り立ち難くなる。即ち、同一のセクションと決定し難くなる、言い換えると、それらのsfb毎に独立してハフマンテーブルを選択するとの判断を行い易くなる。
なお、装置が作成する符号化された音声信号であるビットストリームのビット数が多いことが許容される場合、sfb毎に略独立してハフマンテーブルを選択することによって、いずれのsfbにおいても適切なハフマンテーブルを選択しても良い。そして、その選択のために、上述のように、不等式1を成り立ち難くすることが有効である。
なお、上記不等式1が成り立つ場合、同一のセクションとする処理によると、セクションの数は、音声信号記憶部21に記憶された音声信号に依存して変化し、一定ではない。即ち、不等式1が成り立つか否かの容易な判断によって、音声信号に依存した優れたセクショニングが行われる。
第2の方法による場合、セクショニング部34は、MDCT係数の最大値が比較的小さいsfbを、そのsfbに隣り合うMDCT係数の最大値が比較的大きいsfbと同一セクションとする。即ち、MDCT係数の最大値が比較的小さいsfbを、MDCT係数の最大値が比較的大きいsfbに適した比較的大きいハフマンテーブルを用いるセクションに加える。
即ち、図5は、あるsfb(図5では、sfb1。)のMDCT係数の最大値が比較的小さいために、比較的小さいハフマンテーブルが選択され、そのsfbの両隣のsfb(図5では、sfb0及びsfb2。)のMDCT係数の最大値が比較的大きいために、比較的大きいハフマンテーブルが選択されている状況の一例を示す。ここで、sfb2〜sfb4は、セクショニング部34によって上記第1の方法に従い1つのセクションとされている。
この状況で、セクショニング部34は、上記比較的大きい最大値が所定の閾値以上の場合、図6に示すように、上記sfb及びそのsfbの両隣のsfb(図6では、sfb0〜sfb4。)を1つのセクションにする。そして、このセクションには、上記両隣のsfbに適したハフマンテーブルが選択される。
このようにすることで、上記sfb(図6では、sfb1。)に含まれるMDCT係数は、それらの係数の最大値と対比すると過大なハフマンテーブルによって符号化されることになる。しかし、セクションの数を2つ減少させた、即ち、符号化された音声信号であるビットストリームから、ハフマンテーブルを識別する情報を2セット削減することができ、上記ビットストリームのビット長の削減が可能となる。
ここで、上記両隣のsfbのMDCT係数の最大値の比率が略等しく、それらのsfbのために選択されていたハフマンテーブルが同一であると予想される場合、特に、上記効果は顕著である。しかし、それらのために選択されていたハフマンテーブルが同一であると予想される場合に限ることはない。それらのハフマンテーブルが異なる場合、セクショニング部34は、新たに選択されたハフマンテーブルによって発生する符号化された符号量の増加量と、ハフマンテーブルを識別する情報を2セット削減したことによる符号量の削減量とから、または、これらの量の予想値によって、セクショニングを行うか否かを決定する。
第1の方法及び/または第2の方法は、1回のみ行われると限るものではない。即ち、セクショニングを1回行うことによって、セクションの数を充分に減らすことができない場合、セクショニング部34は、セクショニングの動作を繰り返して行うことにより、セクションの数を減らすことができる。この繰り返しは、任意の回数に渡って行って良いことは言うまでもない。
ここで、セクショニング部34は、第1の方法にあっては、SEC_TH1にi回目に用いた値より小さい値を設定し、また、SEC_TH2によりi回目に用いた値より大きい値を設定して、i+1回目以降のセクショニングを行う。また、第2の方法にあっては、上記閾値をi回目に用いた値より小さい値を設定して、i+1回目以降のセクショニングを行う。ここで、iは、1以上の整数である。
なお、上記の説明では、セクショニング部34は、各sfbに含まれるMDCT係数の中から最大値である係数を抽出するとしたが、これに限るものではない。MDCT係数を代表する値であれば良く、例えば、各sfbに含まれるMDCT係数の平均値を算出し、上記最大値に代えて、算出された平均値を用いても良い。
平均値を用いると、sfbに多くのMDCT係数が含まれ、それらの係数の値に大きな差がない場合、わずかの差によって最大とされた値に強く依存せずにハフマンテーブルを選択することになる。この選択により、音質が優れた符号化された音声信号が作成され、また、符号化された音声信号ビットストリームのビット長の削減が可能となる。
次に、制御部11による音声信号符号化の制御動作を説明する。図7は、制御部11による音声信号符号化の制御動作を示すフローチャートである。
制御部11は、音声信号符号化の制御動作を開始し(ステップS11a)、音声信号記憶部21に記憶された所定量の音声信号を読み込み、音声符号化装置の各部を制御して、以下の動作を行わせる。
即ち、制御部11は、時間/周波数変換部31を制御して、上記フレームからMDCT係数を算出させる(ステップS11b)。そして、心理聴覚解析部32を制御して、上記MDCT係数から許容量子化歪み量と、レート制御情報とを算出させ、スケールファクター乗算部33を制御して、上記許容量子化歪み量からスケールファクターを算出させ、上記MDCT係数と、乗算させる(ステップS11c)。そして、セクショニング部34を制御して、乗算されたMDCT係数からセクショニングを行わせる(ステップS11d)。
次に、制御部11は、量子化ループ処理部41を制御して、量子化のループをさせる。即ち、量子化部42を制御して、スケールファクターが乗算されたMDCT係数を量子化させる(ステップS11e)。そして、ハフマン符号化部43を制御して、セクショニング結果に従ってハフマンテーブルを選択させて、量子化されたMDCT係数をハフマン符号化させる。そして、符号と、符号量と、選択されたハフマンテーブルを記憶させる(ステップS11f)。
そして、制御部11は、発生符号量カウント部44を制御して、発生した全ての符号量を計測させ、その符号量が所定のビット長以内であるか否かを判断させる(ステップS11g)。そして、所定のビット長以内であった場合、フォーマッタ部51を制御して、符号化された音声信号を所定のビットストリーム形式に整えさせ、符号化音声信号記憶部52に記憶させ、(ステップS11h)、動作を終了する(ステップS11i)。
一方、所定のビット長以内でなかった場合、制御部11は、ステップS11eの量子化部42を制御して量子化を行うステップに戻って、動作させる。この際、より大きい量子化ステップによって量子化をさせる。
(第2の実施形態)
図8は、本発明の第2の実施形態に係る音声符号化装置の構成を示すブロック図である。この第2の実施形態に係る音声符号化装置で、第1の実施形態に係る音声符号化装置と同じ部分には、同じ符号を付して説明を省略する。この第2の実施形態に係る音声符号化装置は、装置全体の制御をする制御部11と、音声信号記憶部21と、時間/周波数変換部31と、心理聴覚解析部32と、スケールファクター乗算部33と、量子化ループ処理部41と、フォーマッタ部51と、符号化音声信号記憶部52とからなる。
量子化ループ処理部41は、量子化部42と、セクショニング部34と、ハフマン符号化部43と、発生符号量カウント部44とからなる。
そして、第2の実施形態に係る音声符号化装置と、第1の実施形態に係る音声符号化装置との相違点は、以下の点である。即ち、セクショニング部34は、第1の実施形態では、スケールファクター乗算部33によって作成されたMDCT係数に基づいて、セクションニングを行ったのに対し、第2の実施形態では、量子化ループ処理部41内に置かれ、量子化部42によって量子化されたMDCT係数に基づいて、セクションニングを行うことである。
これに伴い、第2の実施形態では、スケールファクター乗算部33によって作成されたMDCT係数は、量子化部42に送られ、セクショニング部34によって送信されたMDCT係数と、セクショニングを示す情報とは、ハフマン符号化部43が受信する。また、スケールファクター乗算部33は、あるsfbが無音である場合、その旨をセクショニング部34に送信する。
次に、第2の実施形態に係る音声符号化装置の制御部11による音声信号符号化の制御動作を説明する。図9は、制御部11による音声信号符号化の制御動作を示すフローチャートである。この第2の実施形態に係る制御動作で、第1の実施形態に係る制御動作と同じ動作ステップには、同じ符号を付して説明を省略する。
この第2の実施形態に係る制御動作と、第1の実施形態に係る制御動作との相違点は、以下の点である。即ち、第1の実施形態においては、ステップS11dのセクショニング部34を制御してセクショニングを行わせる制御動作は、ステップS11cのスケールファクターの決定、その乗算の動作と、ステップS11eの量子化の動作の間に置かれたのに対し、第2の実施形態においては、ステップS11eの量子化の動作と、ステップS11fのハフマン符号化、発生符号記憶の動作との間に置かれることである。
これによって、ステップS11dのセクショニングを行わせる動作は、ステップS11gの発生された全ての符号量が所定のビット長以内であるか否かを判断させる動作によって、所定のビット長以内でないと判断された場合、繰り返し行われることになる。そこで、繰り返し行われる際に、制御部11は、量子化部42を制御して、より大きい量子化ステップによって量子化をさせることに加えて、または、代えて、上述したように、セクショニング部34を制御して、一層セクションの数を減らさせても良い。
(その他の実施形態)
上記の実施形態では、入力される音声信号は、音声信号記憶部21に記憶されるとした。これは、符号化される全ての音声信号が記憶されるとしても良い。また、例えば、マイクロフォン(図示せず)によって入力されたアナログ信号がPCM方式でデジタル信号に変換され、音声信号記憶部21に記憶される動作と、符号化の動作が並行して行われても良い。
また、符号化された音声信号は、符号化音声信号記憶部52に記憶されるとした。これは、符号化された全ての音声信号が記憶されるとしても良い。また、符号化の動作と、例えば、符号化された信号が通信回線を介して送信される動作とが並行して行われても良い。この動作が並行して行われる場合、符号化された音声信号であるビットストリームの許容される大きさは、上記送信のビットレートの速さに対応することは、言うまでもない。
本発明の実施形態に係る音声符号化装置は、プログラムを利用して動作するコンピュータであっても良い。また、本発明は、音声信号を符号化するあらゆる装置に適用することが当然に可能である。また、上記の実施形態で説明した要素を適宜組み合わせても良い。本発明は以上の構成に限定されるものではなく、種々の変形が可能である。
本発明の第1の実施形態に係る音声符号化装置の構成を示すブロック図。 本発明の実施形態に係るスケールファクターを乗算したMDCT係数の一例を示す図。 本発明の実施形態に係るsfb毎のスケールファクターを乗算したMDCT係数の最大値の一例を示す図。 本発明の実施形態に係るセクショニング結果の一例を示す図(その1)。 本発明の実施形態に係るセクショニング結果の一例を示す図(その2)。 本発明の実施形態に係るセクショニング結果の一例を示す図(その3)。 本発明の第1の実施形態に係る制御部の音声符号化を制御する動作を示すフローチャート。 本発明の第2の実施形態に係る音声符号化装置の構成を示すブロック図。 本発明の第2の実施形態に係る制御部の音声符号化を制御する動作を示すフローチャート。
符号の説明
11 制御部
31 時間/周波数変換部
32 心理聴覚解析部
33 スケールファクター乗算部
34 セクショニング部
41 量子化ループ処理部
42 量子化部
43 ハフマン符号化部
44 発生符号量カウント部
51 フォーマッタ部

Claims (5)

  1. 音声信号を所定のスケールファクターバンドに分類された周波数スペクトルに変換し、前記スケールファクターバンド毎にそのスケールファクターバンドに分類された周波数スペクトルの代表値に依存して複数のハフマンテーブルの中のいずれかのハフマンテーブルを選択し、前記スケールファクターバンドに分類された周波数スペクトルを前記選択されたハフマンテーブルを参照して符号化し、その符号化された周波数スペクトルと、前記参照されたハフマンテーブルを識別する符号とを含む符号化された音声信号を作成する符号化手段を有し、
    前記符号化手段は、隣り合う前記スケールファクターバンドに分類された周波数スペクトルの代表値の比率が第1の値より大きく第2の値より小さい範囲内(ただし、0<第1の値<1、かつ1<第2の値)である場合、それらのスケールファクターバンドに同一の前記ハフマンテーブルを選択する
    ことを特徴とする音声符号化装置。
  2. 音声信号を所定のスケールファクターバンドに分類された周波数スペクトルに変換し、前記スケールファクターバンド毎にそのスケールファクターバンドに分類された周波数スペクトルの代表値に依存して複数のハフマンテーブルの中のいずれかのハフマンテーブルを選択し、前記スケールファクターバンドに分類された周波数スペクトルを前記選択されたハフマンテーブルを参照して符号化し、その符号化された周波数スペクトルと、前記参照されたハフマンテーブルを識別する符号とを含む符号化された音声信号を作成する符号化手段を有し、
    前記符号化手段は、第1の前記スケールファクターバンドに分類された周波数スペクトルの代表値が小さく、その第1のスケールファクターバンドの低周波数側に隣り合う第2の前記スケールファクターバンドに分類された周波数スペクトルの代表値と、その第1のスケールファクターバンドの高周波数側に隣り合う第3の前記スケールファクターバンドに分類された周波数スペクトルの代表値とが前記第1のスケールファクターバンドの代表値より大きい場合、前記第1、前記第2及び前記第3のスケールファクターバンドに同一の前記ハフマンテーブルを選択する
    ことを特徴とする音声符号化装置。
  3. 前記符号化手段は、前記音声信号を前記所定のスケールファクターバンドに分類された周波数スペクトルに変換する際、そのスケールファクターバンドに依存する量子化ステップによって量子化された周波数スペクトルに変換する
    ことを特徴とする請求項1または請求項2に記載の音声符号化装置。
  4. 前記符号化手段は、前記音声信号を前記所定のスケールファクターバンドに分類された周波数スペクトルに変換する際、そのスケールファクターバンドに依存したスケールファクターが乗算された周波数スペクトルに変換する
    ことを特徴とする請求項1または請求項2に記載の音声符号化装置。
  5. 前記スケールファクターバンドに分類された周波数スペクトルの代表値は、前記スケールファクターバンドに分類された周波数スペクトルの最大値または平均値である
    ことを特徴とする請求項1または請求項2に記載の音声符号化装置。
JP2006203417A 2006-07-26 2006-07-26 音声符号化装置 Expired - Fee Related JP5010197B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006203417A JP5010197B2 (ja) 2006-07-26 2006-07-26 音声符号化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006203417A JP5010197B2 (ja) 2006-07-26 2006-07-26 音声符号化装置

Publications (2)

Publication Number Publication Date
JP2008032823A JP2008032823A (ja) 2008-02-14
JP5010197B2 true JP5010197B2 (ja) 2012-08-29

Family

ID=39122344

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006203417A Expired - Fee Related JP5010197B2 (ja) 2006-07-26 2006-07-26 音声符号化装置

Country Status (1)

Country Link
JP (1) JP5010197B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5304504B2 (ja) * 2009-07-17 2013-10-02 ソニー株式会社 信号符号化装置、信号復号装置、信号処理システム、これらにおける処理方法およびプログラム
US9881625B2 (en) 2011-04-20 2018-01-30 Panasonic Intellectual Property Corporation Of America Device and method for execution of huffman coding
JP6410599B2 (ja) * 2014-12-26 2018-10-24 日置電機株式会社 測定データ処理装置および測定データ処理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3323175B2 (ja) * 1999-04-20 2002-09-09 松下電器産業株式会社 符号化装置
JP2001188563A (ja) * 2000-01-05 2001-07-10 Matsushita Electric Ind Co Ltd オーディオ符号化のための効果的なセクション化法
JP2002091498A (ja) * 2000-09-19 2002-03-27 Victor Co Of Japan Ltd オーディオ信号符号化装置
JP2003233397A (ja) * 2002-02-12 2003-08-22 Victor Co Of Japan Ltd オーディオ符号化装置、オーディオ符号化プログラム及びオーディオ符号化データ伝送装置

Also Published As

Publication number Publication date
JP2008032823A (ja) 2008-02-14

Similar Documents

Publication Publication Date Title
US11355129B2 (en) Energy lossless-encoding method and apparatus, audio encoding method and apparatus, energy lossless-decoding method and apparatus, and audio decoding method and apparatus
KR100547113B1 (ko) 오디오 데이터 인코딩 장치 및 방법
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
JP4413257B2 (ja) マルチチャネル信号を処理する装置および方法
KR101019678B1 (ko) 저비트율 오디오 코딩
JP2016505168A (ja) 音声信号復号化または符号化の時間領域レベル調整
US6915255B2 (en) Apparatus, method, and computer program product for encoding audio signal
KR100813193B1 (ko) 정보 신호의 양자화 방법 및 장치
US8606567B2 (en) Signal encoding apparatus, signal decoding apparatus, signal processing system, signal encoding process method, signal decoding process method, and program
KR102512359B1 (ko) 에너지 무손실 부호화방법 및 장치, 신호 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 신호 복호화방법 및 장치
JP4008244B2 (ja) 符号化装置および復号化装置
US11335355B2 (en) Estimating noise of an audio signal in the log2-domain
JP5010197B2 (ja) 音声符号化装置
KR20060114002A (ko) 오디오 부호화
KR101301245B1 (ko) 스펙트럼 계수의 서브대역 할당 방법 및 장치
JPWO2006008817A1 (ja) オーディオ符号化装置及びオーディオ符号化方法
JP2003233397A (ja) オーディオ符号化装置、オーディオ符号化プログラム及びオーディオ符号化データ伝送装置
JP4822816B2 (ja) オーディオ信号符号化装置および方法
JP4116628B2 (ja) オーディオ符号化方法およびオーディオ符号化装置
JP2008139781A (ja) 音声符号化方法および装置
JP5724338B2 (ja) 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
JP2001148632A (ja) 符号化装置、符号化方法、及びその記録媒体
JP2002311997A (ja) オーディオ信号符号化装置
MXPA06009933A (en) Device and method for processing a multi-channel signal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090630

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120508

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120601

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150608

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees