JP4563881B2 - オーディオ符号化装置及びプログラム - Google Patents

オーディオ符号化装置及びプログラム Download PDF

Info

Publication number
JP4563881B2
JP4563881B2 JP2005186907A JP2005186907A JP4563881B2 JP 4563881 B2 JP4563881 B2 JP 4563881B2 JP 2005186907 A JP2005186907 A JP 2005186907A JP 2005186907 A JP2005186907 A JP 2005186907A JP 4563881 B2 JP4563881 B2 JP 4563881B2
Authority
JP
Japan
Prior art keywords
encoding
information
encoded data
audio
bit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005186907A
Other languages
English (en)
Other versions
JP2007004056A (ja
Inventor
智康 小森
寛之 世木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2005186907A priority Critical patent/JP4563881B2/ja
Publication of JP2007004056A publication Critical patent/JP2007004056A/ja
Application granted granted Critical
Publication of JP4563881B2 publication Critical patent/JP4563881B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、オーディオ符号化技術に関し、特に、デコーダに備えたビットリザーバを有効に活用する技術に関する。
オーディオ符号化技術の一つとして、国際標準機関であるISO/IEC JTS1/SC29/WG11により標準化されたISO/IEC13818(MPEG−2)がある(非特許文献1を参照)。このオーディオ符号化技術は、符号化されたビットストリーム(圧縮データ)の解釈とその復号処理について規定しているものである。エンコーダ(符号化装置)は、このISO/IEC13818(MPEG−2)の標準規格によるAAC(Advanced Audio Coding) Syntaxに従って、AACストリームを作成した場合に、デコーダに備えたビットリザーバと呼ばれるビット蓄積器(以下、ビットリザーバという。)の機能を利用することにより、グループ化した音声フレームのデータ列を、平均データ長よりも長く設定して送信することができる。
デコーダに備えたビットリザーバが、平均データ長よりも短い音声フレームのデータ列を受信した場合、このビットリザーバの入力バッファには、平均データ長と実際に受信したデータ長との間の差分だけ余裕が生じることになる。この余裕が生じた入力バッファを、次のグループに属する音声フレームのために使用することができる。
ところで、ISO/IEC13818(MPEG−2)の標準規格に従ったオーディオ符号化装置が開示されている。例えば、音声フレームの周波数領域全体にわたってエナジー情報及びエントロピー情報を計算し、これらの情報に基づいて、ステレオ信号を出力するLRモードと、ステレオ信号の和差信号を出力するMSモードとを切り替え、ビット配分を行うオーディオ符号化装置が開示されている(特許文献1を参照)。このオーディオ符号化装置によれば、エナジー情報及びエントロピー情報を利用して量子化精度情報を決定するから、符号化のための計算量を減少し、符号化による音質を改善することができる。
また、時間領域の音声フレームの信号を周波数領域の信号に変換し、複数の帯域毎に周波数係数を分割し、周波数係数におけるゲインまたは量子化値をステップ状に制御するオーディオ符号化装置が開示されている(特許文献2を参照)。このオーディオ符号化装置によれば、音声フレームの信号の符号化音質を改善すると共に、符号化のための計算量を減らすことができる。
"情報技術−映画及び関連オーディオ情報の共通符号化 第7部:適応オーディオ符号化(AAC)",国際規格,ISO/IEC13818−7,2003年 特開2002−268694号公報 特開2003−271199号公報
しかしながら、前述の特許文献1及び2の技術は、デコーダに備えたビットリザーバを有効に活用するための符号化技術に言及していない。また、ISO/IEC13818(MPEG−2)の標準規格には、ビットリザーバの使用手法に関する明確な規定が存在しない。一般に、ビットリザーバは、オーディオ符号化装置がショートブロックの音声フレーム等多くの量子化ビットを割当てる場合に使用される。つまり、ビットリザーバは、消極的な目的のために使用されていた。また、音声フレーム単位でビット調整が行われた場合には、量子化精度が音声フレーム間で大きく異なってしまう。このため、結果として量子化ノイズとなり、符号化音質が劣化することになる。
ビットリザーバは、デコーダが所定のビットレートでデコード処理を行うことができるように、最大限に有効活用されることが望ましい。これを実現するためには、オーディオ符号化装置が、ビットリザーバを最大限に有効活用できるような音声符号化情報を生成し、送信する必要がある。例えば、オーディオ符号化装置は、ビットリザーバに蓄積されるデータがその最大データ蓄積容量を超えることなく、例えば限りなくその容量に近くなるように、音声符号化情報を生成し、送信する必要がある。つまり、このような音声符号化情報を生成及び送信することができる場合には、ビットリザーバは有効に活用されていることになる。
そこで、本発明は、前記課題を解決するためになされたものであり、その目的は、デコーダに備えたビットリザーバを、所定の目的に合わせて有効に活用することが可能なオーディオ符号化装置及びプログラムを提供することにある。
本発明による符号化装置は、音声情報を符号化パラメータを用いて符号化し、音声符号化情報として出力し、復号装置に備えたビットリザーバに前記音声符号化情報を蓄積させる符号化装置において、符号化方式に従って音声情報をグループ化して出力するグループ化手段と、前記グループ化された音声情報を入力し、複数の符号化パラメータを用いてそれぞれ符号化し、該複数の符号化データを出力すると共に、該複数の符号化データに対応した、符号化ビット長を含む複数のパラメータ情報を出力する符号化手段と、前記複数のパラメータ情報を入力し、該パラメータ情報に基づいて、動的計画法により、前記ビットリザーバにおける音声符号化情報の蓄積状況を含む評価値を計算し、該評価値に基づいて、所定の目標パラメータを満たす符号化データを選択するための情報を生成し、符号化データ選択情報として出力する動的計画手段と、前記符号化手段から複数の符号化データを、動的計画手段から符号化データ選択情報をそれぞれ入力し、前記複数の符号化データの中から一つの符号化データを選択し、該選択した符号化データをグループ毎に接続し、音声符号化情報として出力する選択接続手段と、を備えたことを特徴とする。これにより、目標パラメータを満たすようにビットリザーバを使用することができる。例えば、目標パラメータを、ビットリザーバにおける音声符号化情報の蓄積量が増加しないように設定した場合には、ビットリザーバにおける音声符号化情報の蓄積量は増加しなくなる。また、目標パラメータを、音声符号化情報からNullデータをできる限り削減するように設定した場合には、音声符号化情報からNullデータを削減することができる。
また、本発明による符号化装置は、前記符号化手段が、符号化パラメータを用いて符号化を行う符号化段を、前記複数の符号化パラメータの数分有し、または、複数の符号化パラメータを用いてそれぞれ符号化を行う単一の符号化段を有し、前記複数の符号化段を有する場合は、複数の符号化データを並列に出力すると共に、複数のパラメータ情報を並列に出力し、前記単一の符号化段を有する場合は、複数の符号化データを時系列に出力すると共に、複数のパラメータ情報を時系列に出力する、ことを特徴とする。
また、本発明による符号化装置は、前記選択接続手段が、選択した符号化データをグループ毎に接続する際に、Nullデータを接続し、音声符号化情報として出力する、ことを特徴とする。
また、本発明による符号化装置は、前記動的計画手段が、動的計画法により、符号化データ毎に、前記グループ化手段が音声情報をグループ化する場合のグループにおける前グループから現在グループへの遷移状態、前記符号化手段が複数の符号化パラメータを用いてそれぞれ符号化する場合の符号化の評価を示すスコア値、及び、ビットリザーバにおける音声符号化情報の蓄積状況の評価を示すビットリザーバ値を含む仮説情報を複数保持し、該複数の仮説情報の中から、所定の目標パラメータを満たす仮説情報を決定し、前記グループ毎に決定した仮説情報に基づいて、符号化データを選択するための情報を生成し、符号化データ選択情報として出力する、ことを特徴とする。また、ビットリザーバに蓄積される音声符号化情報の蓄積設定値に基づいて、前記保持する仮説情報の数を減少させるのが好適である。
また、本発明による他の符号化装置は、前記グループ化手段及び符号化手段の代わりに、符号化データ蓄積手段を備え、該符号化データ蓄積手段が、予め符号化した複数の符号化データを蓄積し、該複数の符号化データを前記選択接続手段に出力すると共に、該複数の符号化データに対応した、符号化ビット長を含む複数のパラメータ情報を前記動的計画手段に出力する、ことを特徴とする。
また、前記符号化手段または符号化データ蓄積手段により行われる符号化を、変換符号化とするのが好適である。ここで、変換符号化には、ISO/IEC13818(MPEG−2)の標準規格によるAAC符号化やmp−3、Dolby AC−3における符号化を含む。
また、本発明による符号化プログラムは、音声情報を符号化パラメータを用いて符号化し、音声符号化情報として出力し、復号装置に備えたビットリザーバに前記音声符号化情報を蓄積させる符号化装置が実行する符号化プログラムであって、前記符号化装置を構成するコンピュータに、符号化方式に従って音声情報をグループ化して出力するグループ化処理と、前記グループ化された音声情報を入力し、複数の符号化パラメータを用いてそれぞれ符号化し、該複数の符号化データを出力すると共に、該複数の符号化データに対応した、符号化ビット長を含む複数のパラメータ情報を出力する符号化処理と、前記複数のパラメータ情報を入力し、該パラメータ情報に基づいて、動的計画法により、前記ビットリザーバにおける音声符号化情報の蓄積状況を含む評価値を計算し、該評価値に基づいて、所定の目的パラメータを満たす符号化データを選択するための情報を生成し、符号化データ選択情報として出力する動的計画処理と、前記複数の符号化データ及び符号化データ選択情報をそれぞれ入力し、前記複数の符号化データの中から一つの符号化データを選択し、該選択した符号化データをグループ毎に接続し、音声符号化情報として出力する選択接続処理と、を実行させることを特徴とする。
本発明によれば、目標パラメータを満たすようにビットリザーバを使用することができるから、所定の目的に合わせたビットリザーバの有効活用を実現することができる。
以下、本発明の実施の形態について図面を用いて詳細に説明する。
図1は、本発明の実施の形態によるオーディオ符号化装置(エンコーダ)の第1構成例を示すブロック図である。このオーディオ符号化装置100は、グループ化手段1、オーディオ符号化手段2、選択接続手段3及び動的計画手段4を備えている。また、復号装置(デコーダ)200は、ビットリザーバ5を備えている。オーディオ符号化装置100は、音声情報を入力し、グループ化した音声サンプルに符号化を施し、フレーム毎にビットストリームを接続し、音声符号化情報として出力する。デコーダ200は、オーディオ符号化装置100から音声符号化情報を入力し、ビットリザーバ5のバッファに蓄積され、デコーダ処理を行う。
例えば、ISO/IEC13818(MPEG−2)の標準規格によるAACのデコーダ規格によれば、ビットリザーバ5に蓄積されるデータ容量の上限値は、チャンネル毎に6144ビットである。デコーダ200におけるデコードの効率からすると、ビットリザーバ5は、この上限値を超えることのない当該上限値に限りなく近いデータ量が蓄積されるように使用されるのが望ましい。この場合、オーディオ符号化装置100は、ビットリザーバ5を前記条件で好適に使用するように、音声符号化情報を出力する必要がある。本発明は、この点に着目し、所定の目標パラメータに従ってビットリザーバ5を使用できるように、音声符号化情報を生成することを特徴とする。
図1を参照して、グループ化手段1は、音声情報(オーディオ情報)を入力し、複数の音声サンプルをグループ単位に分け、グループ化音声サンプルを出力する。例えば、衛生アナログ放送Aモードのオーディオ符号化方式の場合は、サンプリング周波数を32kHzとした準瞬時圧伸符号化と呼ばれる方式により、14ビットの直線量子化値が10ビットに準瞬時圧伸される。この準瞬時圧伸のときに、1ms毎の最大値を用いて5種類のレンジの中から使用するレンジが決定され、量子化精度が変更される。この例では、1ms単位の320音声サンプルを1グループとして扱うから、グループ化手段1は、グループ単位に320音声サンプルを出力する。また、例えば、ISO/IEC13818(MPEG−2)の標準規格によるAAC符号化方式の場合は、2048音声サンプルを1グループとして扱うから、グループ化手段1は、グループ単位に2048音声サンプルを出力する。この場合、2048音声サンプルは1音声フレームであり、オーディオ符号化手段2は、1ADTS(Audio Data Transport Stream)フレームとして扱う。
尚、グループ化手段1は、アナログ信号の音声情報を入力する場合、アナログ信号をデジタル信号に変換するAD変換手段を備えているものとする。また、グループ化手段1は、複数の音声サンプルを1グループとし、グループ単位にグループ化音声サンプルを出力する。また、オーディオ符号化手段2がISO/IEC13818(MPEG−2)の標準規格によるAAC符号化方式により符号化を行う場合は、50%のオーバーラップを必要とするから、グループ化手段1は、2048音声サンプルのうちの1024音声サンプルを重複させて出力する。
オーディオ符号化手段2は、グループ化手段1からグループ化音声サンプルを入力し、音声符号化を行い、ビットストリームを選択接続手段3に出力し、パラメータ情報を動的計画手段4に出力する。ここで、パラメータ情報には、オーディオ符号化のための使用ビット数情報(符号化ビットデータ長)を示すビット情報や、スケールファクター値等の量子化精度情報を含む。
図2は、図1に示したオーディオ符号化手段2の構成例を示す図である。このオーディオ符号化手段2は、前述のAAC符号化方式により符号化を行う場合の例であり、3式の音声コーディック21〜23を備えている。音声コーディック21〜23は、グループ化手段1からグループ化音声サンプルを入力し、AAC符号化を行う。そして、音声コーディック21は、ビットストリームA及びパラメータ情報Aを出力し、音声コーディック22は、ビットストリームB及びパラメータ情報Bを出力し、音声コーディック23は、ビットストリームC及びパラメータ情報Cを出力する。この場合、音声コーディック21〜23は、それぞれ異なる符号化パラメータによりAAC符号化を行うから、異なるビットストリームA〜C及びパラメータ情報A〜Cを出力する。
尚、オーディオ符号化手段2は、図2に示したように、3式の音声コーディック21〜23を並列に並べて構成されているが、1式の音声コーディックのみにより構成されるようにしてもよい。この場合、1式の音声コーディックは、グループ化音声サンプルを入力し、この1つのグループ化音声サンプルに対して、複数のビットストリーム(列)A〜C及びパラメータ情報(列)A〜Cを出力する。また、図2に示したオーディオ符号化手段2は、3式の音声コーディック21〜23により構成され、3つのビットストリームA〜C及び3つのパラメータ情報A〜Cを出力するようにしたが、少なくとも2式の音声コーディックにより構成され、2つのビットストリーム及び2つのパラメータ情報を出力することができればよい。
図3は、図2に示した音声コーディック21の構成例を示す図であり、ISO/IEC13818(MPEG−2)の標準規格によるAACエンコーダの構成例から一部分を抜粋し、変更を加えたものである。図2に示した音声コーディック22,23も同様に構成される。この音声コーディック21は、聴覚モデル手段23、フィルターバンク手段24、スケールファクター手段25、量子化器26、ノイズレスコーディング手段27及びマルチプレクサ28を備えている。音声コーディック21は、グループ化音声サンプルを入力し、当該音声サンプルを周波数領域の信号に変換し、符号化に使用できる量子化ビット数の範囲内で、量子化ビット数を所定周波数領域毎の信号にそれぞれ割り振り、当該信号を量子化し、ビットストリームを出力する。
聴覚モデル手段23は、グループ化音声サンプルを入力し、当該音声サンプルに対する量子化雑音のマスキングパターンを計算する。つまり、音声サンプルの聴覚的なマスキングスレッシュホールドを計算する。具体的には、フィルターバンク手段24によるDCT(離散コサイン変換:Discrete Cosine Transform)の分析位置と一致するように、音声サンプルをFFT(高速フーリエ変換:Fast Fourier Transform)を用いて分析し、音声サンプルをマスキングできる最大のノイズ量(スレッシュホールド)を計算し、所定周波数帯域毎のSignal to Mask比やスレッシュホールド値を含む制御情報を出力する。また、ロング、スタート、ストップ、ショートのブロックタイプのうちのどのブロックタイプを選択するかを示す制御情報も出力する。
フィルターバンク手段24は、聴覚モデル手段23からの制御情報に基づいて、FFTまたはDCT等の変換により、時間領域の音声サンプルを周波数領域の信号に変換する。また、この周波数領域の信号の係数(周波数係数)をまとめて所定周波数帯域の係数とし、複数の所定周波数帯域(バンド)のDCT係数を出力する。つまり、フィルターバンク手段24は、グループ化音声サンプルを複数の所定周波数帯域に分割する。
スケールファクター手段25は、フィルターバンク手段24から所定周波数帯域毎のDCT係数を入力し、聴覚モデル手段23からの制御情報に基づいて、DCT係数を変換するためのゲインを表現するスケールファクター値を生成する。
量子化器26は、スケールファクター手段25から、所定周波数帯域毎のDCT係数及びスケールファクター値を入力し、聴覚モデル手段23からの制御情報に基づいて、DCT係数を量子化値に変換する。ここで、DCT係数をK、量子化値をR、スケールファクター値をS、ゲインをGとすると、K=R×Gとなる。この式により、量子化値を求める。
ノイズレスコーディング手段27は、量子化手段104からスケールファクター値、量子化値を入力し、聴覚モデル手段23からの制御情報に基づいて、ハフマン符号語等に変換し、符号化データを出力する。また、変換の際に使用した所定周波数帯域毎の量子化ビット数をスケールファクター手段25及び量子化器26にフィードバックする。
マルチプレクサ28は、ノイズレスコーディング手段27から符号化データを入力し、当該符号化データをフレームに組み込み、ビットストリームAとして出力する。ここで、マルチプレクサ28は、Nullデータを含まないビットストリームAを生成して出力する。また、Nullデータを含むビットストリームAを生成する場合には、後段の選択接続手段3において、ビットストリームAから容易にNullデータを分離できるように、そのような構造のビットストリームAを生成して出力する。この場合、マルチプレクサ28は、Nullデータを分離するための情報をビットストリームAと共に出力するようにしてもよい。
また、スケールファクター手段25は、スケールファクター値を含む量子化精度情報をパラメータ情報Aの一部として出力し、ノイズレスコーディング手段27は、符号化ビットデータ長を含むビット情報をパラメータ情報Aの一部として出力する。
この場合、音声コーディック21は、ビット情報及び量子化精度情報を含むパラメータ情報Aを出力するようにしたが、ビット情報のみから成るパラメータ情報Aを出力するようにしてもよい。
尚、聴覚モデル手段23、フィルターバンク手段24、スケールファクター手段25、量子化器26、ノイズレスコーディング手段27及びマルチプレクサ28の詳細な機能については、前述の非特許文献1(ISO/IEC13818−7(MPEG−2))に記載されているので、参照されたい。
ここで、ISO/IEC13818(MPEG−2)の標準規格によるAACエンコーダと図3に示した音声コーディック21との相違点は以下のとおりである。
(1)AACエンコーダは、グループ化されていない音声信号を入力するのに対し、音声コーディック21は、符号化方式に見合うようにその種類に従ってグループ化された音声サンプルを入力する。
(2)AACエンコーダは、ビットストリームのみを出力するのに対し、音声コーディック21は、ビットストリームに加えて、ビット情報及び量子化精度情報を出力する。
(3)AACエンコーダ及び音声コーディック21は、Nullデータを含むビットストリーム、またはNullデータを含まないビットストリームを出力する点で共通する。しかし、音声コーディック21が出力するビットストリームにNullデータを含む場合には、ビットストリームは、容易にNullデータを分離できる構造になっている。この場合、ビットストリームに加えてNullデータを分離するための情報も出力される場合がある。
図4は、図1に示した選択接続手段3の構成例を示す図である。この選択接続手段3は、ビットストリームマルチプレクサ31及びNullストリーム発生手段32を備えている。選択接続手段3は、オーディオ符号化手段2からビットストリームA〜Cを、動的計画手段4からビットストリーム選択情報をそれぞれ入力し、ビットストリーム選択情報に基づいて、複数のビットストリームA〜Cのうちの一つのビットストリームを選択し、前フレームのビットストリーム(一つ手前のグループにおいて、ビットストリーム選択情報に基づいて選択したビットストリーム)に接続し、音声符号化情報として出力する。つまり、グループ化手段1によりグループ化された音声情報を1フレームとして、選択接続手段3は、フレーム単位にビットストリームA〜Cを順次入力する。そして、ビットストリーム選択情報に基づいて、1フレームについて、ビットストリームA〜Cのうちの一つのビットストリームを選択する。これをフレーム毎に繰り返し、音声符号化情報として出力する。つまり、選択接続手段3により出力される音声符号化情報は、ビットストリームA〜Cのうちのいずれか一つのビットストリームがフレーム毎に接続された一連の情報である。また、この音声符号化情報は、所定の目標パラメータに従ってデコーダ200のビットリザーバ5を使用できるように生成された情報でもある。これは、動的計画手段4からのビットストリーム選択情報により実現されるからである。詳細については後述する。
選択接続手段3の動作について具体的に説明する。ビットストリームマルチプレクサ31は、オーディオ符号化手段2からビットストリームA〜Cを、動的計画手段4からビットストリーム選択情報を、Nullストリーム発生手段32からNullストリームをそれぞれ入力し、ビットストリーム選択情報に基づいて、複数のビットストリームA〜Cのうちの一つのビットストリームを選択し、前フレームのビットストリームに接続する。この場合、全体のビットレートを調整するために、必要に応じてNullストリームを前フレームのビットストリームに接続する。このようにして、ビットストリームマルチプレクサ31は、適正なストリームを音声符号化情報として出力することができる。例えば、ビットストリームマルチプレクサ31は、Nullストリームを接続することにより、ADTSストリームを音声符号化情報として出力する。これにより、図1に示したデコーダ200として既存のAACデコーダを使用することができる。つまり、ビットストリームマルチプレクサ31は、既存のAACデコーダが入力して処理可能なストリームを、音声符号化情報として出力することができる。
尚、図4に示した選択接続手段3は、複数のビットストリームA〜Cの列を入力する構成になっているが、複数のビットストリームA〜Cを一連のビットストリームとして時系列に入力するようにしてもよい。この場合、選択接続手段3は、時系列に入力される一連のビットストリームにおいて、同じフレームNoのIDを有するビットストリームA〜Cをそれぞれ切り出し、ビットストリーム選択情報に基づいて、切り出した複数のビットストリームA〜Cのうちの一つのビットストリームを選択し、フレーム毎にビットストリームを接続する。
また、図4に示した選択接続手段3は、Nullストリーム発生手段32を備えているが、Nullストリーム発生手段32を備えることなくビットストリームマルチプレクサ31のみで構成されるようにしてもよい。この場合、選択接続手段3は、全体のビットレートを調整するために、必要に応じて入力したビットストリームA〜CからNullデータを切り出し、前フレームのビットストリームに接続する。
図5は、図1に示した動的計画手段4の構成例を示す図である。この動的計画手段4は、DP(Dynamic Programming)マッチング計算手段41を備えており、オーディオ符号化手段2からパラメータ情報A〜Cを、図示しない目標パラメータ設定手段から目標パラメータをそれぞれ入力し、動的計画法を用いてビットストリーム選択情報を計算し、当該計算結果を選択接続手段3に出力する。DPマッチング計算手段41は、動的計画法を用いてビットストリーム選択情報を決定するために、グループ化手段1によるグループ化はフレーム単位であるとして、nフレーム毎にビットストリーム選択情報を決定する。具体的には、DPマッチング計算手段41は、異なるビットレートまたは異なる符号化パラメータにより符号化が行われたビットストリームに対し(図2の例では、3式の音声コーディック21〜23が存在するため、nフレームのビットストリームから成る音声符号化情報を生成するために、3×nのビットストリームが対象となる)、所定の評価コストを計算し、当該評価コストが目標パラメータに従って最適になるビットストリーム選択情報を動的に決定するアルゴリズムを具備する。これらの機能は、前記アルゴリズムを記述したプログラムをCPUに実行させることにより実現される。
図6は、図5に示したDPマッチング計算手段41の処理を説明する図である。以下、動的計画法によるビットストリーム選択情報の決定手法について説明する。図6において、ak,bk,ckは、それぞれ最大3個の仮説が立てられる事象である。ここで、kは、0〜nであり、時系列のフレーム番号を示す。(1)に示すakは、ビットストリームAにおけるフレームkに対応する事象であり、(2)に示すbkは、ビットストリームBにおけるフレームkに対応する事象であり、(3)に示すckは、ビットストリームCにおけるフレームkに対応する事象である。各事象ak,bk,ckは、最大3個の仮説毎に、前の状態、スコア加算値及びビットリザーバ加算値の情報を保持する。また、DPマッチング計算手段41は、オーディオ符号化手段2から入力したパラメータ情報A〜Cのうちのそれぞれのビット情報に基づいて、(1)のビットストリームAのコストとなるスコアを「+1」、(2)のビットストリームBのスコアを「0」、(3)のビットストリームCのスコアを「−2」に決定する。例えば、入力したビット情報に基づいて、ビットレートがやや高いと判断した場合は「+1」に、普通であると判断した場合は「0」に、低いと判断した場合は「−2」に決定する。ここで、スコアの値は、ビットストリームに含まれるNullデータの量が少ない場合はプラスに、Nullデータの量が多い場合はマイナスに、それぞれ相対的に決定される。
また、DPマッチング計算手段41は、ビット情報に基づいて、入力した目標パラメータから得た目標ビットレート及び目標ビット数により、ビットリザーバ5においてどの程度のビットが使用されるか、またはどの程度のビットの余裕ができるかについて決定する。例えば、DPマッチング計算手段41は、(1)のビットストリームAのa0の事象について、入力したビット情報に基づいてビットレートを認識し、「+6000」ビットが使用されることを決定する。同様に、(2)のビットストリームBのb0の事象について、入力したビット情報に基づいてビットレートを認識し、「+3000」ビットが使用されることを決定し、(3)のビットストリームCのc0の事象について、入力したビット情報に基づいてビットレートを認識し、「−1000」ビットが使用される(1000ビットの余裕ができる)ことを決定する。このようにして、第n番目のフレームまでの、使用されるビット量または余裕ができるビット量を決定する。
また、DPマッチング計算手段41は、前記決定した(1)〜(3)毎のスコアと、(1)〜(3)及びフレーム毎のビット量とを用いて、各事象ak,bk,ckにおけるそれぞれの仮説について、「前の状態」を決定すると共に、「スコア加算値」及び「ビットリザーバ加算値」を計算し、これらの情報を保持する。例えば、事象a1では、「仮説1」について、「前の状態」を(1)に決定し、前の状態(1)の事象a0が保持するスコア加算値「+1」に「スコア+1」を加えた「スコア加算値+2」、及び、前の状態(1)が保持するビットリザーバ加算値「+6000」に自らの事象のビット量「+2000」を加えた「ビットリザーバ加算値+8000」を計算し、保持する。同様に、「仮説2」「仮説3」についても計算し、「前の状態」「スコア加算値」及び「ビットリザーバ加算値」を保持する。尚、事象a0では、「スコア加算値+1」「ビットリザーバ加算値+6000」を保持する。このように、DPマッチング計算手段41は、各事象ak,bk,ckについて計算を行い、「前の状態」「スコア加算値」「ビットリザーバ加算値」をそれぞれ保持する。
そして、DPマッチング計算手段41は、最終の事象an,bn,cnのそれぞれの仮説における「スコア加算値」「ビットリザーバ加算値」を参照し、図示しない目標パラメータ設定手段から入力した目標パラメータに基づいて、これらの仮説の中から目標パラメータを満たす一つの仮説を決定する。そして、この決定した仮説の「前の状態」の情報を用いて事象を逆検索し、最適な接続パスを確定する。例えば、目標パラメータが「コストが良い」「ビットリザーバの加算値が0に近い」の場合、最終の事象an,bn,cnのそれぞれの仮説の「スコア加算値」「ビットリザーバ加算値」を参照し、これらの目標パラメータを満足する仮説を決定する。その仮説における「前の状態」が(3)のときは、事象cn−1を逆検索する。同様に、事象cn−1の仮説の中から目標パラメータを満たす一つの仮説を決定する。図6を参照して、さらに進んで、事象a2を逆検索したとすると、この事象a2の仮説1〜9の「スコア加算値」「ビットリザーバ加算値」を参照し、これらの目標パラメータを満足する仮説5を決定する。ここでは、事象a2の仮説5を決定したとする。この場合、その「前の状態」が(2)であるから、事象b1を逆検索する。このようにして、最後のフレームから最初のフレームに向けて仮説の決定と逆検索を行うことにより、b0,b1,a2,・・・,cn−1,anを最適な接続パスとして確定する。
DPマッチング計算手段41は、確定した最適な接続パスであるb0,b1,a2,・・・,cn−1,anをビットストリーム選択情報として選択接続手段3に出力する。選択接続手段3は、このビットストリーム選択情報に基づいて、0番目のフレームはビットストリームBを、1番目のフレームはビットストリームBを、2番目のフレームはビットストリームAを、・・・、n−1番目のフレームはビットストリームCを、n番目のフレームはビットストリームAをそれぞれ選択し、これらのビットストリームを接続し、音声符号化情報として出力する。
このようにして、動的計画手段4は、動的計画法によりビットストリーム選択情報を決定するが、所定の条件の下で仮説数を減らすことにより、処理負荷を少なくすることができる。図7は、図6において、所定の条件により仮説数を減らした場合のビットストリーム選択情報の決定手法を説明する図である。ISO/IEC13818(MPEG−2)の標準規格によるAACのデコーダ規格によれば、図1に示したビットリザーバ5に蓄積されるデータの上限値は、チャンネル毎に6144ビットである。したがって、ビットリザーバ加算値が+6144を超えた場合、その仮説を対象から外す。この場合、仮説の番号は繰り上げる。図7を参照して、事象a1の仮説1、事象b1の仮説1、事象a2の仮説1,2,4,7のビットリザーバ加算値が+6144を超えているから、これらの仮説が削除され、残りの仮説の番号は繰り上がっている。
また、ビットリザーバ5に蓄積されるデータの上限値を6144ビットとした場合、この上限値から平均ビットレートを減算した値をマイナスの値とし、このマイナスの値を下限値とすることができる。例えば、平均ビットレートが1500bit/フレームとすると、−4644ビットを下限値とすることができる。つまり、上限値の処理と同じように、ビットリザーバ加算値が−4644を超えた場合、その仮説を対象から外す。このように、動的計画手段4は、所定の条件に照らして仮説を削除し、削除後の仮説の中から目標パラメータを満たす仮説を決定する。これにより、処理負荷を少なくし、計算コストを下げることができる。
尚、図6及び図7に示した例では、スコア加算値を計算するためのスコアを、ビット情報に基づいてそれぞれ+1,0,−2としたが、予め定義するようにしてもよく、他の条件により決定するようにしてもよい。また、この値に限定されるものでもない。例えば、前と異なる状態((1)〜(3))に遷移した場合を考慮したり、その他の条件を考慮したりして、スコアを適宜決定するようにしてもよい。
また、図6及び図7に示した例では、1フレーム毎に「スコア加算値」「ビットリザーバ加算値」のコスト計算を行うようにしたが、複数フレーム群を接続する場合には、複数フレーム群毎にコスト計算を行うようにしてもよい。この場合、フレーム毎の計算よりも計算量を減らすことができ、より長いビットストリームに対して、本発明を適用することができる。
次に、本発明の実施の形態によるオーディオ符号化装置の第2の構成例について、図8を用いて説明する。このオーディオ符号化装置101は、オーディオ符号化情報蓄積手段6、選択接続手段3及び動的計画手段4を備えている。図1に示したオーディオ符号化装置100の第1構成例と比較すると、本オーディオ符号化装置101は、第1構成例のグループ化手段1及びオーディオ符号化手段2の代わりに、オーディオ符号化情報蓄積手段6を備えている点で相違する。尚、図8において、図1と共通する部分には図1と同一の符号を付し、その詳しい説明は省略する。
オーディオ符号化情報蓄積手段6は、異なるビットレートまたは異なる符号化パラメータにより符号化が行われたビットストリームを蓄積する。例えば、ADTS形式で複数のビットレートのAAC符号化された同一コンテンツのビットストリーム(第1構成例のビットストリームA〜Cに相当)を、既存のハードディスク等に蓄積する。また、選択接続手段3及び動的計画手段4により、オーディオ符号化装置101は、既存のAACデコーダで復号することが可能なAACストリーム(音声符号化情報)を出力することができる。
以上のように、本発明の実施の形態によるオーディオ符号化装置100,101によれば、動的計画手段4が、パラメータ情報に基づいて、動的計画法により、目標パラメータを満たすビットストリーム選択情報を決定し、選択接続手段3が、ビットストリーム選択情報により、複数のビットストリームのうちの一つのビットストリームを選択し、前フレームのビットストリームに接続し、音声符号化情報として出力するようにした。これにより、デコーダ200に備えたビットリザーバ5が、目標パラメータに従って使用されるから、ビットリザーバ5を有効に活用することができる。この場合、例えば、動的計画手段4が、目標パラメータに従ってNullデータの少ないビットストリームを選択するように、ビットストリーム選択情報を決定することができるから、選択接続手段3は、符号化及び復号に関係しない無駄なNullデータを、音声符号化情報から削減することができる。
従来は、ビットリザーバ5の使用法が明確に規定されていないため、音声符号化情報に無駄なNullデータが増えてしまうという問題があった。ビットリザーバ5を有効に活用しないでNullデータを減らした場合は、フレーム単位でビット調整を行うことから、フレーム間で量子化精度が異なってしまう。このため、結果として量子化ノイズを発生させ、符号化音質の劣化を生じていた。本発明の実施の形態によれば、このような問題を解決することができる。すなわち、ビットリザーバ5を有効に活用しながら、無駄なNullデータを削減できるから、符号化音質を向上させることができる。
また、本発明の実施の形態によるオーディオ符号化装置100,101によれば、動的計画手段4が、複数のフレームを連続して評価し、ビットストリーム選択情報を決定するようにした。これにより、選択接続手段3は、最適なビット割当てのビットストリームを選択し、接続することができる。また、動的計画手段4において、「スコア加算値」「ビットリザーバ加算値」の評価対象を変更することにより、選択接続手段3が、音声情報の音源毎に有効なビットストリームを選択し、接続することができる。
以上、実施の形態を挙げて本発明を説明したが、本発明は上記実施の形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、上記実施の形態では、符号化方式をAACによるものとしたが、mp3やAC−3等の他の符号化方式にも本発明を適用することができる。一般に、符号化には、サブバンド符号化と変換符号化があり、AACやmp3等による符号化は変換符号化に含まれる。
尚、上記オーディオ符号化装置100,101は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、キーボード等の入力装置、データを表示する表示装置、及び外部の装置と通信するためのインターフェースを備えたコンピュータ装置によってそれぞれ構成されるようにしてもよい。この場合、オーディオ符号化装置100に備えたグループ化手段1、オーディオ符号化手段2、選択接続手段3及び動的計画手段4の各機能、並びに、オーディオ符号化装置101に備えたオーディオ符号化情報蓄積手段6、選択接続手段3及び動的計画手段4の各機能は、当該機能を記述したプログラムをCPUに実行させることにより実現される。また、これらのプログラムは、磁気ディスク(フロッピィーディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもできる。
本発明の実施の形態によるオーディオ符号化装置の第1構成例を示すシステム図である。 オーディオ符号化手段の構成例を示す図である。 音声コーディックの構成例を示す図である。 選択接続手段の構成例を示す図である。 動的計画手段の構成例示す図である。 動的計画法によるビットストリーム選択情報の決定手法を説明する図である。 図6において、条件により仮説数を減らした場合の決定手法を説明する図である。 本発明の実施の形態によるオーディオ符号化装置の第2構成例を示すシステム図である。
符号の説明
1 グループ化手段
2 オーディオ符号化手段
3 選択接続手段
4 動的計画手段
5 ビットリザーバ
6 オーディオ符号化情報蓄積手段
21〜22 音声コーディック
23 聴覚モデル手段
24 フィルターバンク手段
25 スケールファクター手段
26 量子化器
27 ノイズレスコーディング手段
28 マルチプレクサ
31 ビットストリームマルチプレクサ
32 Nullストリーム発生手段
41 DPマッチング計算手段
100,101 オーディオ符号化装置
200 デコーダ

Claims (8)

  1. 音声情報を任意の符号化パラメータを用いて符号化し、音声符号化情報として出力し、復号装置に備えたビットリザーバに前記音声符号化情報を蓄積させる符号化装置において、
    符号化方式に従って音声情報をグループ化して出力するグループ化手段と、
    前記グループ化された音声情報を入力し、複数の符号化パラメータを用いてそれぞれ符号化し、音声符号化情報の一部となる複数の符号化データを出力すると共に、該複数の符号化データに対応した、符号化ビット長を含む複数のパラメータ情報を出力する符号化手段と、
    前記複数のパラメータ情報を入力し、該パラメータ情報に基づいて、動的計画法により、前記ビットリザーバにおける音声符号化情報の蓄積状況を含む評価値を計算し、該評価値に基づいて、所定の目標パラメータを満たす符号化データを選択するための情報を生成し、符号化データ選択情報として出力する動的計画手段と、
    前記符号化手段から複数の符号化データを、動的計画手段から符号化データ選択情報をそれぞれ入力し、前記複数の符号化データの中から一つの符号化データを選択し、該選択した符号化データをグループ毎に接続し、音声符号化情報として出力する選択接続手段と、
    を備えたことを特徴とする符号化装置。
  2. 請求項1に記載の符号化装置において、
    前記符号化手段は、
    符号化パラメータを用いて符号化を行う符号化段を、前記複数の符号化パラメータの数分有し、または、複数の符号化パラメータを用いてそれぞれ符号化を行う単一の符号化段を有し、
    前記複数の符号化段を有する場合は、複数の符号化データを並列に出力すると共に、複数のパラメータ情報を並列に出力し、
    前記単一の符号化段を有する場合は、複数の符号化データを時系列に出力すると共に、複数のパラメータ情報を時系列に出力する、
    ことを特徴とする符号化装置。
  3. 請求項1に記載の符号化装置において、
    前記選択接続手段は、
    選択した符号化データをグループ毎に接続する際に、Nullデータを接続し、音声符号化情報として出力する、
    ことを特徴とする符号化装置。
  4. 請求項1に記載の符号化装置において、
    前記動的計画手段は、
    動的計画法により、符号化データ毎に、前記グループ化手段が音声情報をグループ化する場合のグループにおける前グループから現在グループへの遷移状態、前記符号化手段が複数の符号化パラメータを用いてそれぞれ符号化する場合の符号化の評価を示すスコア値、及び、ビットリザーバにおける音声符号化情報の蓄積状況の評価を示すビットリザーバ値を含む仮説情報を複数保持し、該複数の仮説情報の中から、所定の目標パラメータを満たす仮説情報を決定し、前記グループ毎に決定した仮説情報に基づいて、符号化データを選択するための情報を生成し、符号化データ選択情報として出力する、
    ことを特徴とする符号化装置。
  5. 請求項4に記載の符号化装置において、
    前記動的計画手段は、
    ビットリザーバに蓄積される音声符号化情報の蓄積設定値に基づいて、前記保持する仮説情報の数を減少させる、
    ことを特徴とする符号化装置。
  6. 請求項1に記載の符号化装置において、
    前記グループ化手段及び符号化手段の代わりに、符号化データ蓄積手段を備え、
    該符号化データ蓄積手段は、
    予め符号化した複数の符号化データを蓄積し、該複数の符号化データを前記選択接続手段に出力すると共に、該複数の符号化データに対応した、符号化ビット長を含む複数のパラメータ情報を前記動的計画手段に出力する、
    ことを特徴とする符号化装置。
  7. 請求項1から6までのいずれか一項に記載の符号化装置において、
    請求項1の符号化手段または請求項6の符号化データ蓄積手段により行われる符号化を、変換符号化とする、
    ことを特徴とする符号化装置。
  8. 音声情報を符号化パラメータを用いて符号化し、音声符号化情報として出力し、復号装置に備えたビットリザーバに前記音声符号化情報を蓄積させる符号化装置が実行する符号化プログラムであって、
    前記符号化装置を構成するコンピュータに、
    符号化方式に従って音声情報をグループ化して出力するグループ化処理と、
    前記グループ化された音声情報を入力し、複数の符号化パラメータを用いてそれぞれ符号化し、該複数の符号化データを出力すると共に、該複数の符号化データに対応した、符号化ビット長を含む複数のパラメータ情報を出力する符号化処理と、
    前記複数のパラメータ情報を入力し、該パラメータ情報に基づいて、動的計画法により、前記ビットリザーバにおける音声符号化情報の蓄積状況を含む評価値を計算し、該評価値に基づいて、所定の目標パラメータを満たす符号化データを選択するための情報を生成し、符号化データ選択情報として出力する動的計画処理と、
    前記複数の符号化データ及び符号化データ選択情報をそれぞれ入力し、前記複数の符号化データの中から一つの符号化データを選択し、該選択した符号化データをグループ毎に接続し、音声符号化情報として出力する選択接続処理と、
    を実行させる符号化プログラム。
JP2005186907A 2005-06-27 2005-06-27 オーディオ符号化装置及びプログラム Expired - Fee Related JP4563881B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005186907A JP4563881B2 (ja) 2005-06-27 2005-06-27 オーディオ符号化装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005186907A JP4563881B2 (ja) 2005-06-27 2005-06-27 オーディオ符号化装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2007004056A JP2007004056A (ja) 2007-01-11
JP4563881B2 true JP4563881B2 (ja) 2010-10-13

Family

ID=37689716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005186907A Expired - Fee Related JP4563881B2 (ja) 2005-06-27 2005-06-27 オーディオ符号化装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4563881B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5857978B2 (ja) * 2013-01-29 2016-02-10 富士ゼロックス株式会社 符号化装置、復号装置、符号化・復号システム、及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014696A (ja) * 2000-06-29 2002-01-18 Matsushita Electric Ind Co Ltd 制御装置及び制御方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014696A (ja) * 2000-06-29 2002-01-18 Matsushita Electric Ind Co Ltd 制御装置及び制御方法

Also Published As

Publication number Publication date
JP2007004056A (ja) 2007-01-11

Similar Documents

Publication Publication Date Title
RU2455709C2 (ru) Способ и устройство для обработки аудиосигнала
US7599840B2 (en) Selectively using multiple entropy models in adaptive coding and decoding
US7693709B2 (en) Reordering coefficients for waveform coding or decoding
US20020049586A1 (en) Audio encoder, audio decoder, and broadcasting system
KR101975066B1 (ko) 신호 처리 장치 및 방법, 및 컴퓨터 판독가능 기록 매체
CN101518083B (zh) 通过使用带宽扩展和立体声编码对音频信号编码和/或解码的方法和系统
US20070016415A1 (en) Prediction of spectral coefficients in waveform coding and decoding
EP2795617B1 (en) Audio encoders and methods with parallel architecture
US20080228476A1 (en) Entropy coding by adapting coding between level and run length/level modes
JP4800379B2 (ja) 最大ビットレートを保証する情報の無損失符号化
US8665945B2 (en) Encoding method, decoding method, encoding device, decoding device, program, and recording medium
WO2005036527A1 (ja) スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法
JP3824607B2 (ja) 時間−周波数相関性を利用した改善されたオーディオ符号化及び/または復号化方法とその装置
KR20140026279A (ko) 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법
CN1677492A (zh) 一种增强音频编解码装置及方法
JP6334564B2 (ja) 低複雑度の調性適応音声信号量子化
JP4563881B2 (ja) オーディオ符号化装置及びプログラム
JP5734519B2 (ja) 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
JP2005004119A (ja) 音響信号符号化装置及び音響信号復号化装置
KR20080092823A (ko) 부호화/복호화 장치 및 방법
KR100926366B1 (ko) 코드북 결정 방법, 오디오 신호의 부호화 방법 및 장치
KR20140037118A (ko) 오디오 신호 처리방법, 오디오 부호화장치, 오디오 복호화장치, 및 이를 채용하는 단말기
JP4775026B2 (ja) 符号本選択方法及び符号本選択装置
JPWO2013146895A1 (ja) 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070514

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100618

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100706

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100729

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130806

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140806

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees