JP2006072269A - 音声符号化装置、通信端末装置、基地局装置および音声符号化方法 - Google Patents
音声符号化装置、通信端末装置、基地局装置および音声符号化方法 Download PDFInfo
- Publication number
- JP2006072269A JP2006072269A JP2004259035A JP2004259035A JP2006072269A JP 2006072269 A JP2006072269 A JP 2006072269A JP 2004259035 A JP2004259035 A JP 2004259035A JP 2004259035 A JP2004259035 A JP 2004259035A JP 2006072269 A JP2006072269 A JP 2006072269A
- Authority
- JP
- Japan
- Prior art keywords
- encoding
- channel
- speech
- audio signal
- stereo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】 ステレオ音声信号をCELP符号化する場合に、遅延の発生を抑制しつつ符号化効率を改善できる音声符号化装置等を提供すること。
【解決手段】 適応符号帳101は、合成フィルタ112で使用された過去の駆動音源を記憶しており、歪み最小化部107から指示されたインデックスF1に対応する適応符号帳ラグに従って、記憶している駆動音源から1サブフレーム分の音源ベクトルを生成する。固定符号帳103は、所定形状の音源ベクトルを複数個予め記憶しており、歪み最小化部107から指示されたインデックスF1に対応する音源ベクトルを、固定符号帳ベクトルとして乗算器104へ出力する。加算器105は、乗算器102から出力される適応符号帳ベクトルと乗算器104から出力される固定符号帳ベクトルとを加算し、加算後の音源ベクトルを駆動音源として第1チャネル符号化部110−1と第2チャネル符号化部110−2に出力する。
【選択図】 図1
【解決手段】 適応符号帳101は、合成フィルタ112で使用された過去の駆動音源を記憶しており、歪み最小化部107から指示されたインデックスF1に対応する適応符号帳ラグに従って、記憶している駆動音源から1サブフレーム分の音源ベクトルを生成する。固定符号帳103は、所定形状の音源ベクトルを複数個予め記憶しており、歪み最小化部107から指示されたインデックスF1に対応する音源ベクトルを、固定符号帳ベクトルとして乗算器104へ出力する。加算器105は、乗算器102から出力される適応符号帳ベクトルと乗算器104から出力される固定符号帳ベクトルとを加算し、加算後の音源ベクトルを駆動音源として第1チャネル符号化部110−1と第2チャネル符号化部110−2に出力する。
【選択図】 図1
Description
本発明は、ステレオ音声信号に対しCELP(Code Excited Linear Prediction)方式による符号化(以下、CELP符号化という)を行う音声符号化装置、通信端末装置、基地局装置および音声符号化方法に関する。
携帯電話機による通話のように、移動体通信システムにおける音声通信では、現在モノラル方式による通信(モノラル通信)が主流である。しかし、今後、第4世代の移動体通信システムのように、伝送レートのさらなる高ビットレート化が進めば、複数チャネルを伝送するだけの帯域を確保できるようになるため、音声信号に対してステレオ方式による通信(ステレオ通信)が普及することが期待される。
例えば、音楽をHDD(ハードディスク)搭載の携帯オーディオプレーヤに記録し、このプレーヤにステレオ用のイヤホンやヘッドフォン等を装着してステレオ音楽を楽しむユーザが増えている現状を考えると、将来、携帯電話機と音楽プレーヤとが結合し、ステレオ用のイヤホンやヘッドフォン等の装備を利用しつつ、ステレオ通信によって通話を行うライフスタイルが一般的になることが予想される。また、最近普及しつつあるTV会議等の環境において、臨場感ある会話を可能とするため、やはりステレオ通信による通話が行われるようになることが予想される。
ところで、移動体通信システムでは、システムリソースの消費を抑えるため、入力信号を符号化して低ビットレート化を図ることが一般的である。例えば、非特許文献1には、ステレオ信号に対し符号化を施す技術が記載されている。これは、第1チャネルと第2チャネルとを有するステレオ方式のオーディオ信号を符号化する技術である。また、非特許文献1に開示の技術では、変換符号化(MDCT)を行ってオーディオ信号を時間軸上の表現から周波数軸上の表現に変換し、さらにマスキング等の人間の聴覚特性を利用して、オーディオ信号を符号化する。
ISO/IEC 13818-7:1997 (MPEG-2 Advanced Audio Coding, AAC)
ISO/IEC 13818-7:1997 (MPEG-2 Advanced Audio Coding, AAC)
しかしながら、オーディオ信号を符号化する非特許文献1に開示の技術をステレオ音声信号に対して適用すると、以下の問題が生じる。すなわち、非特許文献1に開示の技術は、1フレームのサンプル数を1024サンプルとしており、これを時間換算すると、標本化周波数が48kHzの場合は1フレーム長21.3msとなり、標本化周波数が32kHzの場合は1フレーム長32msとなる。これらのフレーム長は、アルゴリズム上避けられない符号化遅延となる。特に、符号化のビット数を少なくするために標本化周波数を低くしようとすると、この符号化遅延は増大することとなる。また、非特許文献1に開示の技術では、MDCTにおいてフレーム間のオーバーラップが生じるため、現フレームの処理がその前後のフレームの処理にもまたがることから、このフレーム間のオーバーラップに起因する遅延も発生する。さらに、非特許文献1に開示の技術では、符号化ビットをフレーム間で有効に使うためのbit reservoirという機構を採用しており、この機構を作動させることによってもさらなる遅延が発生する。これらの遅延は、双方向通信において、リアルタイム性の劣化という問題を生じさせる。
また、非特許文献1に開示の技術では、フレーム長が長いため、音声を符号化した場合に音声の時間的変化に追随し難い、という問題もある。
さらに、非特許文献1に開示の技術では、符号化効率がオーディオ信号に対して最適化されているため、音声信号を符号化する場合には、発声の特徴を有効活用するCELP方式よりも符号化効率が概して低くなることから、ビットレートが低くなるにしたがって、通信時の音質が劣化し易い、という問題がある。
そこで、ステレオ音声信号に対しても符号化効率の高いCELP符号化を行うことが望ましいが、従来のCELP方式では、ステレオ音声信号の特徴に適応していないため、ステレオ音声信号についての符号化効率は必ずしも高いとは言えない。
本発明はかかる点に鑑みてなされたものであり、ステレオ音声信号をCELP符号化する場合に、遅延の発生を抑制しつつ符号化効率を改善できる音声符号化装置、通信端末装置、基地局装置および音声符号化方法を提供することを目的とする。
本発明に係る音声符号化装置は、ステレオ音声信号をCELP方式で符号化する音声符号化装置であって、前記ステレオ音声信号の第1チャネルを符号化する第1の符号化手段と、前記ステレオ音声信号の第2チャネルを符号化する第2の符号化手段と、を具備し、前記第1および第2の符号化手段は、固定符号帳を共有する構成を採る。
本発明によれば、ステレオ音声信号の複数のチャネルを共通の固定符号帳を用いてCELP符号化するため、遅延の発生を抑制するとともに、その符号化効率を改善することができる。
CELP方式は、人間の発声機構を声帯と声道とに分け、これら2つの発声機構から生成される成分すなわち音源成分とスペクトル包絡成分とをそれぞれ異なる方法によりモデル化し、これらのモデルのパラメータを符号化する音声符号化方式である。一方で、ステレオ方式は、共通の音源に対して、2つ以上の独立したマイクロフォン等を用いて録音を行い、再生時においても同様に2つ以上の独立したスピーカを用いて、立体感のある音を再現する方式である。したがって、ステレオ信号を構成する複数のチャネルは、別の信号であるものの、基となる音源が共通するため、CELP符号化に際して音源成分となる音源符号帳を共用できると考えられる。本発明は、この点に着目して完成されたものである。以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係る音声符号化装置100の主要な構成を示すブロック図である。
図1は、本発明の実施の形態1に係る音声符号化装置100の主要な構成を示すブロック図である。
この音声符号化装置100は、適応符号帳101、乗算器102、固定符号帳103、乗算器104、加算器105、ゲイン符号帳106、歪み最小化部107、第1チャネル符号化部110−1、および第2チャネル符号化部110−2を備える。
なお、第1チャネル符号化部110−1および第2チャネル符号化部110−2は、同様の構成であるため、同一の符号110を付し、この符号の後ろにハイフンに続けて第1チャネルおよび第2チャネルの別を示す枝番を付している。また、内部構成についても同様に、同一の構成については同一の符号を付し、この符号の後ろにハイフンに続けて第1チャネルおよび第2チャネルの別を示す枝番を付して示す。しかしながら、以下では、枝番を有する構成要素の動作や機能について、その枝番を省略して総括的に説明する場合がある。
適応符号帳101は、後述する合成フィルタ112で使用された過去の駆動音源を記憶しており、歪み最小化部107から指示されたインデックスF1に対応する適応符号帳ラグにしたがって、記憶している駆動音源から1サブフレーム分の音源ベクトルを生成する。この音源ベクトルは、適応符号帳ベクトルとして乗算器102へ出力される。なお、適応符号帳101は、有声音のように周期性の強い成分を表現するために使われ、一方で固定符号帳103は、白色雑音のように周期性の弱い成分を表現するために使われる。
乗算器102は、ゲイン符号帳106から出力される適応符号帳ゲインを、適応符号帳101から出力される適応符号帳ベクトルに乗じ、加算器105へ出力する。
固定符号帳103は、所定形状の音源ベクトルを複数個予め記憶しており、歪み最小化部107から指示されたインデックスF1に対応する音源ベクトルを、固定符号帳ベクトルとして乗算器104へ出力する。
乗算器104は、ゲイン符号帳106から出力される固定符号帳ゲインを、固定符号帳103から出力される固定符号帳ベクトルに乗じ、加算器105へ出力する。
加算器105は、乗算器102から出力される適応符号帳ベクトルと、乗算器104から出力される固定符号帳ベクトルとを加算し、加算後の音源ベクトルを駆動音源として第1チャネル符号化部110−1と第2チャネル符号化部110−2とにそれぞれ出力する。
ゲイン符号帳106は、歪み最小化部107からの指示F1にしたがって、適応符号帳101から出力される適応符号帳ベクトル用のゲイン(適応符号帳ゲイン)、および固定符号帳103から出力される固定符号帳ベクトル用のゲイン(固定符号帳ゲイン)を生成し、それぞれ乗算器102、104へ出力する。
歪み最小化部107は、第1チャネル符号化部110−1と第2チャネル符号化部110−2とから出力される符号化歪み(合成音声信号)が最小となるような、適応符号帳101、固定符号帳103およびゲイン符号帳106のインデックスをサブフレームごとに算出し、これらのインデックスを符号化パラメータS3として音声符号化装置100の外部に出力する。より詳細には、適応符号帳101および固定符号帳103に基づいて合成信号を生成し、この信号の符号化歪みを算出する一連の処理は、閉ループ(帰還ループ)となっており、歪み最小化部107は、各符号帳に指示するインデックスを1サブフレーム内において様々に変化させることによって各符号帳を探索し、最終的に得られる、符号化歪みを最小化する各符号帳のインデックスを出力する。なお、符号化歪みが最小となる駆動音源は、サブフレームごとに適応符号帳101へフィードバックされる。適応符号帳101は、このフィードバックにより、記憶している駆動音源を更新する。
第1チャネル符号化部110−1と第2チャネル符号化部110−2とはそれぞれ、線形予測分析・量子化部111、合成フィルタ112、加算器113および聴覚重み付きフィルタ114を具備する。また、第1チャネル符号化部110−1と第2チャネル符号化部110−2とはそれぞれ、図示しないマイクロフォン等によって生成されたステレオ音声信号における右左いずれかのチャネルについてCELP符号化を行う。
線形予測分析・量子化部111は、入力されるステレオ音声信号の第1チャネルまたは第2チャネルに対して線形予測分析を施し、スペクトル包絡情報であるLPCパラメータ(LPC係数)を算出する。そして、線形予測分析・量子化部111は、そのLPCパラメータを量子化して得られる量子化LPCパラメータを合成フィルタ112へ出力する。
合成フィルタ112は、線形予測分析・量子化部111から入力される量子化LPCパラメータをフィルタ係数とし、適応符号帳101と固定符号帳103とで生成される音源ベクトルを駆動音源としたフィルタ関数(合成フィルタ)を用いて合成信号を生成する。そして、合成フィルタ112は、生成した合成信号を加算器113へ出力する。
加算器113は、ステレオ音声信号の第1チャネルまたは第2チャネルから合成フィルタ112で生成される合成信号を減算することによって誤差信号を算出し、この誤差信号を聴覚重み付きフィルタ114へ出力する。なお、この誤差信号が符号化歪みに相当する。
聴覚重み付きフィルタ114は、加算器113から入力される符号化歪みに対して聴感的な重み付けを施して、その符号化歪み(合成音声信号)S1、S2を歪み最小化部107へ出力する。
図2は、上記の歪み最小化部107内部の主要な構成を示すブロック図である。
この歪み最小化部107は、乗算器121−1、121−2、加算器122および歪み最小値判定部123を備える。
乗算器121−1、121−2はそれぞれ、図示しない重み係数符号帳から入力される各チャネル用の重み係数を、チャネル符号化部110−1、110−2から入力される各チャネルの符号化歪みS1、S2に乗じて、それらの乗算結果を加算器122へ出力する。なお、各チャネル用の重み係数は、重要視されるチャネルほど大きな値に設定される。
加算器122は、乗算器121−1、121−2から入力される乗算結果を加算して、その加算結果を歪み最小値判定部123に入力する。
歪み最小値判定部123は、加算器122から乗算結果が入力されるたびに、適応符号帳101、固定符号帳103およびゲイン符号帳106に対して、次のインデックスF1を出力する。また、歪み最小値判定部123は、加算器122から入力される乗算結果を時系列で蓄積して、最後のインデックスF1についての乗算結果が加算器122から入力されたときに、蓄積している乗算結果の中から最小値を判定し、その最小値を符号化パラメータS3として外部に出力したり適応符号帳101の駆動音源を更新するフィードバック情報として出力したりする。
次いで、音声符号化装置100の動作、特に歪み最小化部107においてステレオ音声信号の符号化歪みを最小化する符号化パラメータS3が選択され出力されるまでの信号処理の流れについて説明する。
歪み最小化部107は、フレームを構成するサブフレーム毎に符号化歪みを最小化するように、符号化パラメータS3を決定する。ここで、サブフレーム毎の符号化歪みDは、第1チャネルの符号化歪みと第2チャネルの符号化歪みとの総和を用いて下記(式1)のように表わされる。
このとき、各チャネルの符号化歪みは次の(式2)(式3)で表わされる。
続いて、歪み最小化部107は、(式1)のDを最小化するように適応符号帳101の音源ベクトルpのインデックスを算出し、次に固定符号帳103の音源ベクトルcのインデックスを算出する。このあと、歪み最小化部107は、Dを最小化するようにgpおよびgcの同時最適化を行う。
具体的には、歪み最小化部107は、適応符号帳101の中から第1チャネルと第2チャネルとに最適な共通の音源ベクトルを算出するために、適応符号帳101に予め登録されている全ての符号ベクトルを用いて、音声合成を行なう。そして、歪み最小化部107は、第1チャネルと第2チャネルとについて、合成フィルタ112による合成信号と音声信号との歪みを最小化する適応符号帳101の符号ベクトルをステレオ音声信号の現フレームの適応音源ベクトルとして選択する。
ここで、符号化歪みをEとすると、上述した内容は下記(式4)で示されるEが最小となるように適応音源ベクトルpのインデックスを算出することと同義である。
そして、歪み最小化部107は、固定符号帳103の中から、第1チャネルと第2チャネルとに最適な共通の音源を算出するために、固定符号帳103に登録されているすべての符号ベクトルを用いて、音声合成を行なう。なお、この音声合成において使用される適応音源ベクトルは、先に算出した最適な適応音源ベクトルである。具体低には、歪み最小化部107は、第1チャネルと第2チャネルとについて、合成フィルタ112による合成信号と音声信号との歪みを最小化する固定符号帳103の符号ベクトルをステレオ音声信号の現フレームの固定音源として選択する。
ここで、符号化歪みをE’で表すと、上述した内容は下記(式5)に示されるE’を最小化するように固定音源ベクトルcのインデックスを算出することと同義である。
最後に、歪み最小化部107は、ゲイン符号帳106に出力させる適応音源ゲインと固定音源ゲインとを算出する。これは、上記の各式において、符号化歪みDを最小化するように適応音源ゲインgpおよび固定音源ゲインgcを算出することに相当する。
なお、上記の式において、重み係数wch−1、wch−2は、いずれのチャネルの符号化歪みを重要視するかに応じて調節される。例えば、第1チャネルに対する歪みをdch−1、第2チャネルに対する歪みをdch−2とすれば、全体の符号化歪みDは、上記の(式1)で表される。
例えば、wch−1=1、wch−2=2とすれば、
dch−1=1.5、dch−2=1.5の場合、D=4.5となり、
dch−1=1、dch−2=2の場合、D=5となり、
dch−1=2、dch−2=1の場合、D=4となる。
例えば、wch−1=1、wch−2=2とすれば、
dch−1=1.5、dch−2=1.5の場合、D=4.5となり、
dch−1=1、dch−2=2の場合、D=5となり、
dch−1=2、dch−2=1の場合、D=4となる。
したがって、dch−1とdch−2とを重み付け加算することなく単純和としてDを求める場合は、D=3となって結果は同じであるのに対し、重み付けを行った場合は、dch−1=2、dch−2=1とした方が全体の歪みDは小さくなる。このように、どちらのチャネルの歪みを重要視するかを、重み付け係数によって設定することができる。
このように、本実施の形態によれば、ステレオ音声信号のCELP符号化において、その第1チャネルと第2チャネルとについて適応符号帳101と固定符号帳103とが共用されるため、音声符号化装置100の構成を簡素化できるとともに、ステレオ音声信号の音質を劣化させることなく符号化効率を改善することができる。
また、本実施の形態によれば、ステレオ音声信号のCELP符号化において、その第1チャネルと第2チャネルとについて適応符号帳101と固定符号帳103とが共用されるため、歪み最小化部107による符号化歪みを最小化する符号化パラメータの探索に要する時間を短縮することができる。
なお、本実施の形態では、ステレオ音声信号が2つのチャネルで構成される場合を例にとって説明したが、ステレオ音声信号を構成するチャネル数はさらに多くても良い。
(実施の形態2)
本発明に係る実施の形態2では、ステレオ音声信号のCELP符号化において、その第1チャネルと第2チャネルとについて固定符号帳103のみが共用される点で、実施の形態1と相違する。
本発明に係る実施の形態2では、ステレオ音声信号のCELP符号化において、その第1チャネルと第2チャネルとについて固定符号帳103のみが共用される点で、実施の形態1と相違する。
ここで、3GPP規格のTS26.190 V5.1.0(2001-12)に開示されているAMR−WB方式の符号化の主要なパラメータのビット数を以下に示す。なお、これらのビット数は、23.85kbit/sの符号化レートで符号化する場合の1フレーム(20ms)すなわち合計477bitの内訳を示したものである。
適応符号帳インデックス: 30bit
固定符号帳インデックス: 352bit
ゲイン: 28bit
スペクトルパラメータ: 46bit
適応符号帳インデックス: 30bit
固定符号帳インデックス: 352bit
ゲイン: 28bit
スペクトルパラメータ: 46bit
このように、固定符号帳インデックスに対して割り当てられるビット数は、適応符号帳インデックスに対して割り当てられるビット数と比べて極めて多い。そこで、本実施の形態では、適応符号帳を利用した符号化において、適応符号帳に割り当てられるビット数が少ないことに着目して、適応符号帳をステレオ音声信号のチャネルごとに設置する。
図3は、本実施の形態に係る音声符号化装置200の主要な構成を示すブロック図である。この音声符号化装置200は、実施の形態1で示した音声符号化装置100において、適応符号帳101と同様の動作を行う第1チャネル用適応符号帳201−1および第2チャネル用適応符号長201−2、ならびに乗算器102と同様の動作の行う乗算器202−1、202−2を、ステレオ音声信号の第1チャネルと第2チャネルとについてそれぞれ設置したものである。したがって、音声符号化装置200は、その構成が実施の形態1に示した音声符号化装置100と近似しており、同一の構成要素には同一の符号を付して、その説明を省略する。
次いで、音声符号化装置200の動作、特に歪み最小化部107においてステレオ音声信号の符号化歪みを最小化する符号化パラメータS3が選択され出力されるまでの信号処理の流れについて説明する。
歪み最小化部107は、フレームを構成するサブフレーム毎に符号化歪みを最小化するように、符号化パラメータS3を選択する。サブフレーム毎の符号化歪みDは、2つのチャネルの符号化歪みの総和を用いて、下記(式6)のように表わされる。
このとき、各チャネルの符号化歪みは次の(式7)(式8)で表わされる。
続いて、歪み最小化部107は、(式6)のDを最小化するように第1チャネル用適応符号帳201−1および第2チャネル用適応符号帳201−2の音源ベクトルpとインデックスとを算出し、次に固定音源ベクトルcのインデックスを算出する。そして、歪み最小化部107は、Dを最小化するように3つのゲインの同時最適化を行う。
具体的には、歪み最小化部107は、第1チャネル用適応符号帳201−1の中から、第1チャネルおよび第2チャネルそれぞれに最適な適応音源を算出するために、適応符号帳201−1に登録されているすべての符号ベクトルを用いて、音声合成を行なう。また、歪み最小化部107は、第2チャネル用適応符号帳201−2に対しても同様の処理を行う。
続いて、歪み最小化部107は、第1チャネルと第2チャネルとについて、合成フィルタ112による合成信号と音声信号との歪みを最小化する第1チャネル用適応符号帳201−1と第2チャネル適応符号帳201−2との符号ベクトルをステレオ音声信号の現フレームの適応音源ベクトルとして選択する。
ここで、符号化歪みをEで表すと、上述した内容は、下記(式9)に示されるEが最小となるように、適応音源ベクトルpのインデックスを求めることと同義である。
続いて、歪み最小化部107は、固定符号帳203の中から、第1チャネルおよび第2チャネルに最適な共通の音源を算出するために、固定符号帳203に登録されているすべての符号ベクトルを用いて、音声合成を行なう。なお、この音声合成に使用される適応符号ベクトルは、先に算出した最適な適応符号ベクトルである。そして、歪み最小化部107は、合成フィルタ112による合成信号と音声信号との歪みを最小化する固定符号帳203の符号ベクトルを、ステレオ音声信号の現フレームの固定音源として選択する。
ここで、符号化歪みをE’とすると、上述した内容は、下記(式10)で示されるE’が最小となるように、固定音源ベクトルcのインデックスを算出することと同義である。
最後に、歪み最小化部107は、適応音源ゲインおよび固定音源ゲインを算出する。これは、符号化歪みをDで表すと、このDを最小化するように第1チャネルの適応音源ゲイン、第2チャネルの適応音源ゲインおよび固定音源ゲインを算出することと同義である。
このように、本実施の形態によれば、固定符号帳インデックスに対して割り当てられるビット数が適応符号帳インデックスに対して割り当てられるビット数と比べて極めて多いことから、ステレオ音声信号のCELP符号化において、複数のチャネルについて固定符号帳のみを共用するとしても、音声符号化装置200の構成を簡素化できるとともに、ステレオ音声信号の音質を劣化させることなく符号化効率を改善することができる。
(実施の形態3)
図4は、本発明の実施の形態3に係る音声符号化装置300の主要な構成を示すブロック図である。
図4は、本発明の実施の形態3に係る音声符号化装置300の主要な構成を示すブロック図である。
この音声符号化装置300は、ステレオ符号化部100、選択部301、切り替え部302、加算器303およびモノラル符号化部310を備える。なお、ステレオ符号化部100は、実施の形態1で示した音声符号化装置100と同様の構成であるため、同一の符号を付している。また、モノラル符号化部310は、音声符号化装置100と同様の機能を発揮する構成要素を多く具備するため、そのような構成要素については、同一の符号を付して、その説明を省略する。
音声符号化装置300は、モノラル符号化とステレオ符号化という2系統の符号化方式を選択することができる構成となっている。ここで、モノラル符号化とは、入力されたステレオ音声信号をモノラル信号に変換した後に符号化することを指し、ステレオ符号化とは、入力されたステレオ音声信号をそのままチャンネルごとに符号化することを指している。モノラル符号化は、加算器303およびモノラル符号化部310が担当し、ステレオ符号化は、ステレオ符号化部100が担当する。
選択部301は、音声符号化装置300の外部からの情報、例えばビットレート(伝送レート)情報や音質情報等にしたがって、入力ステレオ音声信号をモノラル符号化するかステレオ符号化するかを選択する。選択方法は、以下の2通りである。
第1の選択方法は、音声符号化装置300のユーザの要求に応じて符号化方式が選択される方法である。この第1の選択方法によれば、ユーザが音質を優先する場合にはステレオ符号化が選択され、一方でユーザがコストを優先する場合にはモノラル符号化が選択されることになる。
第2の選択方法は、通信システムから要求される伝送ビットレート等にしたがって、符号化方式が選択される方法である。この第2の選択方法によれば、通信システムから要求される伝送ビットレートが低い場合にはモノラル符号化が選択され、一方で伝送ビットレートが高い場合にはステレオ符号化が選択されることになる。なお、音源の特性によっては、第1チャネルと第2チャネルとの相関性が非常に高い場合があり、そのような場合には、符号化方式としてモノラル符号化を選択しても音質上あまり問題がないと考えられることから、符号化効率を一層高めるため、モノラル符号化が選択されることになる。
加算器303は、ステレオ音声信号の第1チャネルおよび第2チャネルの和信号をフレーム単位で算出することにより、ステレオ音声信号をモノラル音声信号に変換し、このモノラル音声信号をモノラル符号化部310に出力する。
モノラル符号化部310は、このモノラル音声信号に対しCELP符号化を行う。具体的には、モノラル符号化部310は、フレームを構成するサブフレーム毎に符号化歪みを最小化するように、内包する適応符号帳101および固定符号帳103のインデックス、ならびにゲイン符号帳106のゲインを選択する。ここで、モノラル符号化部310によって算出されるサブフレーム毎の符号化歪みDmonoは、下記(式11)のように表される。
また、モノラル符号化部310において、歪み最小化部107は、Dmonoを最小化するように適応音源ベクトルpのインデックスを算出し、次に固定音源ベクトルcのインデックスを算出する。そして、この歪み最小化部107は、Dmonoを最小化するように適応音源ゲインおよび固定音源ゲインの同時最適化を行う。
具体的には、モノラル符号化部310において、歪み最小化部107は、適応符号帳101の中から、モノラル信号に最適な適応音源を算出するために、適応符号帳101に登録されているすべての符号ベクトルを用いて、音声合成を行なう。そして、モノラル符号化部310において、歪み最小化部107は、合成フィルタ112による合成信号とモノラル信号との歪みを最小化する適応符号帳101の符号ベクトルをモノラル信号の現フレームの適応音源として選択する。
ここで、符号化歪みをEで表すと、上述した内容は、下記(式12)で示すEを最小化するように、適応音源ベクトルpのインデックスを算出することと同義である。
続いて、モノラル符号化部310において、歪み最小化部107は、固定符号帳103の中から、モノラル信号に最適な共通の音源を選択するために、固定符号帳103に登録されているすべての符号ベクトルを用いて、音声合成を行なう。なお、この音声合成に使用される適応音源ベクトルは、先に算出した最適な適応音源ベクトルである。
続いて、モノラル符号化部310において、歪み最小化部107は、合成フィルタ112による合成信号とモノラル信号との歪みを最小化する固定符号帳103の符号ベクトルを入力音声の現フレームの固定音源として選択する。
ここで、符号化歪みをE’で表すと、上述した内容は、下記(式13)で示すE’を最小化するように、固定音源ベクトルcのインデックスを算出することと同義である。
最後に、モノラル符号化部310において、歪み最小化部107は、適応音源ゲインおよび固定音源ゲインを算出する。これは、符号化歪みをDで表すと、(式11)に示すDmonoを最小化するように適応音源ゲインgpおよび固定音源ゲインgcを算出することと同義である。
このように、本実施の形態によれば、ステレオ音声信号をモノラル符号化するモノラル符号化部310と、ステレオ音声信号をステレオ符号化するステレオ符号化部100と、の2系統の符号化方式を適宜選択できるため、要求音質やビットレートを考慮して、最も効率的な符号化方式を選択することができる。
なお、本実施の形態では、ステレオ符号化部100として、実施の形態1で示した音声符号化装置100を使う場合を例にとって説明したが、ステレオ符号化部100として、実施の形態2で示した音声符号化装置200を用いても良い。
(実施の形態4)
図5は、本発明の実施の形態4に係る音声符号化装置400の主要な構成を示すブロック図である。なお、この音声符号化装置400は、実施の形態3で示したステレオ符号化部100およびモノラル符号化部310を内部に備えているため、これらの構成には同一の符号を付すこととする。
図5は、本発明の実施の形態4に係る音声符号化装置400の主要な構成を示すブロック図である。なお、この音声符号化装置400は、実施の形態3で示したステレオ符号化部100およびモノラル符号化部310を内部に備えているため、これらの構成には同一の符号を付すこととする。
音声符号化装置400は、ステレオ符号化部100、モノラル符号化部310、ダウンサンプリング部401−1、401−2、局部デコーダ402、加算器403、アップサンプリング部404および加算器405、406を備える。
なお、ステレオ符号化部100として、実施の形態3と同様、音声符号化装置100または音声符号化装置200を用いることができる。
本実施の形態に係る音声符号化装置400は、入力されるステレオ音声信号を周波数帯域によってモノラル符号化するかステレオ符号化するか判定する。例えば、ユーザがステレオ感を感じる傾向は、低周波帯域(低域)の信号において顕著という特性があるため、低域のステレオ音声信号に対してはステレオ符号化を選択し、高域のステレオ音声信号に対してはモノラル符号化を選択する。これにより、ユーザの主観品質においてステレオ感を損なわずに符号化を行うことができるため、符号化効率を高めることができる。
音声符号化装置400は、第1チャネルおよび第2チャネルのステレオ音声信号を符号化する際に、このステレオ音声信号の周波数帯域に応じてステレオ符号化またはモノラル符号化を使い分けて符号化する。具体的には、ステレオ音声信号の低域部分に対しては実施の形態1で示したステレオ符号化を行い、その高域部分に対しては実施の形態3で示したモノラル符号化を行なう。
本実施の形態では、ステレオ符号化を行なうのはステレオ音声信号の低域部分であるので、ダウンサンプリング部401−1、401−2は、ステレオ音声信号をダウンサンプリングし、必要な帯域成分の信号のみを抽出する。そして、ステレオ符号化部100は、ダウンサンプリング部401によって抽出された信号に対してステレオ符号化を行なう。
局部デコーダ402は、ステレオ符号化部100によってステレオ符号化された信号を復号する。そして、加算器403は、局部デコーダ402によって復号された信号から和信号を算出してモノラル信号を生成し、続いてアップサンプリング部404は、加算器403によって生成されたモノラル信号に対してアップサンプリングを行なう。
また一方で、加算器406は、ステレオ音声信号を構成する第1チャネルと第2チャネルとの和信号を算出してモノラル信号を生成する。加算器405は、アップサンプリング部404によってアップサンプリングされたモノラル信号と、加算器406によって生成されたモノラル信号と、の差分を算出する。そして、モノラル符号化部310は、加算器405によって算出されたモノラル信号の差分をモノラル符号化する。
ここで例えば、ダウンサンプリング部401が標本化周波数48kHzで標本化された左右2つのチャネルのステレオ音声信号を標本化周波数1/2(24kHz)にダウンサンプリングすると、ステレオ音声信号の帯域は12kHz以下となる。本実施の形態では、ダウンサンプリング部401によってダウンサンプリングされたステレオ音声信号に対してステレオ符号化部100がステレオ符号化を行った後、そのステレオ音声信号を局部デコーダ402がデコードしてPCM(Pulse Code Modulation)信号に戻す。続いて、加算器403がこのPCM信号の2つのチャネルの和信号(モノラル信号)を生成し、生成されたモノラル信号をアップサンプリング部404が48kHzにアップサンプリングする。なお、アップサンプリング部404によってアップサンプリングされても、モノラル信号の帯域は12kHz以下のままである。続いて、加算器405が、加算器406によって生成されたステレオ音声信号における2つのチャネルの和信号(モノラル信号)と、アップサンプリング部404によってアップサンプリングされたモノラル信号と、の差分を算出する。なお、この差分の信号の帯域は、12kHzから24kHzである。そして、モノラル符号化部310が、この差分信号に対してモノラル符号化を行う。
このように、本実施の形態によれば、ステレオ音声信号について音質にあまり影響しない帯域を選択してモノラル符号化するため、ステレオ音声信号の音質の劣化を抑制しつつその符号化効率を改善することができる。
以上、本発明に係る実施の形態1〜4について説明した。
本発明に係る音声符号化装置は、上記の実施の形態1〜4に限定されず、種々変更して実施することが可能である。
本発明に係る音声符号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することも可能であり、これにより上記と同様の作用効果を有する通信端末装置および基地局装置を提供することができる。
なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されていても良いし、一部または全てを含むように1チップ化されていても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてあり得る。
本発明に係る音声符号化装置および音声符号化方法は、ステレオ音声信号をCELP符号化する場合に、遅延の発生を抑制しつつ符号化効率を改善するという効果を有し、移動体通信システムにおける通信端末装置、基地局装置等の用途に適用できる。
100、200、300、400 音声符号化装置
101 適応符号帳
103、203 固定符号帳
106 ゲイン符号帳
110−1、210−1 第1チャネル符号化部
110−2、210−2 第2チャネル符号化部
107 歪み最小化部
201−1 第1チャネル用適応符号帳
201−2 第2チャネル用適応符号帳
101 適応符号帳
103、203 固定符号帳
106 ゲイン符号帳
110−1、210−1 第1チャネル符号化部
110−2、210−2 第2チャネル符号化部
107 歪み最小化部
201−1 第1チャネル用適応符号帳
201−2 第2チャネル用適応符号帳
Claims (9)
- ステレオ音声信号をCELP方式で符号化する音声符号化装置であって、
前記ステレオ音声信号の第1チャネルを符号化する第1の符号化手段と、
前記ステレオ音声信号の第2チャネルを符号化する第2の符号化手段と、
を具備し、
前記第1および第2の符号化手段は、固定符号帳を共有する、
ことを特徴とする音声符号化装置。 - 前記第1および第2の符号化手段は、さらに適応符号帳も共有する、
ことを特徴とする請求項1記載の音声符号化装置。 - 前記第1および第2の符号化手段で生成される信号の符号化歪みの和を求め、この和が最小となる前記第1および第2の符号化手段の前記固定符号帳および適応符号帳のインデックスをフィードバックする歪み最小化手段、
をさらに具備することを特徴とする請求項1記載の音声符号化装置。 - 前記歪み最小化手段は、
前記第1および第2の符号化手段で生成される信号を重み付け加算して前記符号化歪みの和を求める、
ことを特徴とする請求項1記載の音声符号化装置。 - 前記ステレオ音声信号の全チャネルを加算してモノラル音声信号を生成し、このモノラル音声信号を符号化する第1モノラル符号化手段をさらに具備し、
前記第1および第2の符号化手段で生成される信号または前記第1モノラル符号化手段で生成される信号のいずれか一方を切り替えて出力する、
ことを特徴とする請求項1記載の音声符号化装置。 - 前記ステレオ音声信号における所定の周波数未満の低域成分の全チャネルを加算してモノラル音声信号を生成し、このモノラル音声信号を符号化する第2モノラル符号化手段、をさらに具備することを特徴とする請求項1記載の音声符号化装置。
- 請求項1から請求項6のいずれかに記載の音声符号化装置を具備することを特徴とする通信端末装置。
- 請求項1から請求項6のいずれかに記載の音声符号化装置を具備することを特徴とする基地局装置。
- ステレオ音声信号をCELP方式で符号化する音声符号化方法であって、
前記ステレオ音声信号の第1チャネルを符号化する第1の符号化ステップと、
前記ステレオ音声信号の第2チャネルを符号化する第2の符号化ステップと、
を具備し、
前記第1および第2の符号化ステップにおいて、共通の固定符号帳を使用する、
ことを特徴とする音声符号化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004259035A JP2006072269A (ja) | 2004-09-06 | 2004-09-06 | 音声符号化装置、通信端末装置、基地局装置および音声符号化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004259035A JP2006072269A (ja) | 2004-09-06 | 2004-09-06 | 音声符号化装置、通信端末装置、基地局装置および音声符号化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006072269A true JP2006072269A (ja) | 2006-03-16 |
Family
ID=36152931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004259035A Withdrawn JP2006072269A (ja) | 2004-09-06 | 2004-09-06 | 音声符号化装置、通信端末装置、基地局装置および音声符号化方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006072269A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010166425A (ja) * | 2009-01-16 | 2010-07-29 | Nec Corp | 多地点会議システム、サーバ装置、音声ミキシング装置、及び多地点会議サービス提供方法 |
JP2010166424A (ja) * | 2009-01-16 | 2010-07-29 | Nec Corp | 多地点会議システム、サーバ装置、音声ミキシング装置、及び多地点会議サービス提供方法 |
-
2004
- 2004-09-06 JP JP2004259035A patent/JP2006072269A/ja not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010166425A (ja) * | 2009-01-16 | 2010-07-29 | Nec Corp | 多地点会議システム、サーバ装置、音声ミキシング装置、及び多地点会議サービス提供方法 |
JP2010166424A (ja) * | 2009-01-16 | 2010-07-29 | Nec Corp | 多地点会議システム、サーバ装置、音声ミキシング装置、及び多地点会議サービス提供方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7983904B2 (en) | Scalable decoding apparatus and scalable encoding apparatus | |
JP5413839B2 (ja) | 符号化装置および復号装置 | |
JP4850827B2 (ja) | 音声符号化装置および音声符号化方法 | |
JP5753540B2 (ja) | ステレオ信号符号化装置、ステレオ信号復号装置、ステレオ信号符号化方法及びステレオ信号復号方法 | |
EP1801783B1 (en) | Scalable encoding device, scalable decoding device, and method thereof | |
JP4606418B2 (ja) | スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法 | |
US20120134511A1 (en) | Multichannel audio coder and decoder | |
US7848932B2 (en) | Stereo encoding apparatus, stereo decoding apparatus, and their methods | |
JP4555299B2 (ja) | スケーラブル符号化装置およびスケーラブル符号化方法 | |
WO2006070757A1 (ja) | 音声符号化装置および音声符号化方法 | |
US8036390B2 (en) | Scalable encoding device and scalable encoding method | |
US20100121632A1 (en) | Stereo audio encoding device, stereo audio decoding device, and their method | |
JP4842147B2 (ja) | スケーラブル符号化装置およびスケーラブル符号化方法 | |
JP4948401B2 (ja) | スケーラブル符号化装置およびスケーラブル符号化方法 | |
US20100121633A1 (en) | Stereo audio encoding device and stereo audio encoding method | |
JPWO2008090970A1 (ja) | ステレオ符号化装置、ステレオ復号装置、およびこれらの方法 | |
JP2006072269A (ja) | 音声符号化装置、通信端末装置、基地局装置および音声符号化方法 | |
JP4373693B2 (ja) | 音響信号の階層符号化方法および階層復号化方法 | |
JP5774490B2 (ja) | 符号化装置、復号装置およびこれらの方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070905 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20090615 |