JP2006072269A

JP2006072269A - 音声符号化装置、通信端末装置、基地局装置および音声符号化方法

Info

Publication number: JP2006072269A
Application number: JP2004259035A
Authority: JP
Inventors: Michiyo Goto; 道代後藤; Koji Yoshida; 幸司吉田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2004-09-06
Filing date: 2004-09-06
Publication date: 2006-03-16

Abstract

【課題】ステレオ音声信号をＣＥＬＰ符号化する場合に、遅延の発生を抑制しつつ符号化効率を改善できる音声符号化装置等を提供すること。
【解決手段】適応符号帳１０１は、合成フィルタ１１２で使用された過去の駆動音源を記憶しており、歪み最小化部１０７から指示されたインデックスＦ１に対応する適応符号帳ラグに従って、記憶している駆動音源から１サブフレーム分の音源ベクトルを生成する。固定符号帳１０３は、所定形状の音源ベクトルを複数個予め記憶しており、歪み最小化部１０７から指示されたインデックスＦ１に対応する音源ベクトルを、固定符号帳ベクトルとして乗算器１０４へ出力する。加算器１０５は、乗算器１０２から出力される適応符号帳ベクトルと乗算器１０４から出力される固定符号帳ベクトルとを加算し、加算後の音源ベクトルを駆動音源として第１チャネル符号化部１１０−１と第２チャネル符号化部１１０−２に出力する。
【選択図】図１

Description

本発明は、ステレオ音声信号に対しＣＥＬＰ（Code Excited Linear Prediction）方式による符号化（以下、ＣＥＬＰ符号化という）を行う音声符号化装置、通信端末装置、基地局装置および音声符号化方法に関する。

携帯電話機による通話のように、移動体通信システムにおける音声通信では、現在モノラル方式による通信（モノラル通信）が主流である。しかし、今後、第４世代の移動体通信システムのように、伝送レートのさらなる高ビットレート化が進めば、複数チャネルを伝送するだけの帯域を確保できるようになるため、音声信号に対してステレオ方式による通信（ステレオ通信）が普及することが期待される。

例えば、音楽をＨＤＤ（ハードディスク）搭載の携帯オーディオプレーヤに記録し、このプレーヤにステレオ用のイヤホンやヘッドフォン等を装着してステレオ音楽を楽しむユーザが増えている現状を考えると、将来、携帯電話機と音楽プレーヤとが結合し、ステレオ用のイヤホンやヘッドフォン等の装備を利用しつつ、ステレオ通信によって通話を行うライフスタイルが一般的になることが予想される。また、最近普及しつつあるＴＶ会議等の環境において、臨場感ある会話を可能とするため、やはりステレオ通信による通話が行われるようになることが予想される。

ところで、移動体通信システムでは、システムリソースの消費を抑えるため、入力信号を符号化して低ビットレート化を図ることが一般的である。例えば、非特許文献１には、ステレオ信号に対し符号化を施す技術が記載されている。これは、第１チャネルと第２チャネルとを有するステレオ方式のオーディオ信号を符号化する技術である。また、非特許文献１に開示の技術では、変換符号化（ＭＤＣＴ）を行ってオーディオ信号を時間軸上の表現から周波数軸上の表現に変換し、さらにマスキング等の人間の聴覚特性を利用して、オーディオ信号を符号化する。
ISO/IEC 13818-7:1997 (MPEG-2 Advanced Audio Coding, AAC)

しかしながら、オーディオ信号を符号化する非特許文献１に開示の技術をステレオ音声信号に対して適用すると、以下の問題が生じる。すなわち、非特許文献１に開示の技術は、１フレームのサンプル数を１０２４サンプルとしており、これを時間換算すると、標本化周波数が４８ｋＨｚの場合は１フレーム長２１．３ｍｓとなり、標本化周波数が３２ｋＨｚの場合は１フレーム長３２ｍｓとなる。これらのフレーム長は、アルゴリズム上避けられない符号化遅延となる。特に、符号化のビット数を少なくするために標本化周波数を低くしようとすると、この符号化遅延は増大することとなる。また、非特許文献１に開示の技術では、ＭＤＣＴにおいてフレーム間のオーバーラップが生じるため、現フレームの処理がその前後のフレームの処理にもまたがることから、このフレーム間のオーバーラップに起因する遅延も発生する。さらに、非特許文献１に開示の技術では、符号化ビットをフレーム間で有効に使うためのbit reservoirという機構を採用しており、この機構を作動させることによってもさらなる遅延が発生する。これらの遅延は、双方向通信において、リアルタイム性の劣化という問題を生じさせる。

また、非特許文献１に開示の技術では、フレーム長が長いため、音声を符号化した場合に音声の時間的変化に追随し難い、という問題もある。

さらに、非特許文献１に開示の技術では、符号化効率がオーディオ信号に対して最適化されているため、音声信号を符号化する場合には、発声の特徴を有効活用するＣＥＬＰ方式よりも符号化効率が概して低くなることから、ビットレートが低くなるにしたがって、通信時の音質が劣化し易い、という問題がある。

そこで、ステレオ音声信号に対しても符号化効率の高いＣＥＬＰ符号化を行うことが望ましいが、従来のＣＥＬＰ方式では、ステレオ音声信号の特徴に適応していないため、ステレオ音声信号についての符号化効率は必ずしも高いとは言えない。

本発明はかかる点に鑑みてなされたものであり、ステレオ音声信号をＣＥＬＰ符号化する場合に、遅延の発生を抑制しつつ符号化効率を改善できる音声符号化装置、通信端末装置、基地局装置および音声符号化方法を提供することを目的とする。

本発明に係る音声符号化装置は、ステレオ音声信号をＣＥＬＰ方式で符号化する音声符号化装置であって、前記ステレオ音声信号の第１チャネルを符号化する第１の符号化手段と、前記ステレオ音声信号の第２チャネルを符号化する第２の符号化手段と、を具備し、前記第１および第２の符号化手段は、固定符号帳を共有する構成を採る。

本発明によれば、ステレオ音声信号の複数のチャネルを共通の固定符号帳を用いてＣＥＬＰ符号化するため、遅延の発生を抑制するとともに、その符号化効率を改善することができる。

ＣＥＬＰ方式は、人間の発声機構を声帯と声道とに分け、これら２つの発声機構から生成される成分すなわち音源成分とスペクトル包絡成分とをそれぞれ異なる方法によりモデル化し、これらのモデルのパラメータを符号化する音声符号化方式である。一方で、ステレオ方式は、共通の音源に対して、２つ以上の独立したマイクロフォン等を用いて録音を行い、再生時においても同様に２つ以上の独立したスピーカを用いて、立体感のある音を再現する方式である。したがって、ステレオ信号を構成する複数のチャネルは、別の信号であるものの、基となる音源が共通するため、ＣＥＬＰ符号化に際して音源成分となる音源符号帳を共用できると考えられる。本発明は、この点に着目して完成されたものである。以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。

（実施の形態１）
図１は、本発明の実施の形態１に係る音声符号化装置１００の主要な構成を示すブロック図である。

この音声符号化装置１００は、適応符号帳１０１、乗算器１０２、固定符号帳１０３、乗算器１０４、加算器１０５、ゲイン符号帳１０６、歪み最小化部１０７、第１チャネル符号化部１１０−１、および第２チャネル符号化部１１０−２を備える。

なお、第１チャネル符号化部１１０−１および第２チャネル符号化部１１０−２は、同様の構成であるため、同一の符号１１０を付し、この符号の後ろにハイフンに続けて第１チャネルおよび第２チャネルの別を示す枝番を付している。また、内部構成についても同様に、同一の構成については同一の符号を付し、この符号の後ろにハイフンに続けて第１チャネルおよび第２チャネルの別を示す枝番を付して示す。しかしながら、以下では、枝番を有する構成要素の動作や機能について、その枝番を省略して総括的に説明する場合がある。

適応符号帳１０１は、後述する合成フィルタ１１２で使用された過去の駆動音源を記憶しており、歪み最小化部１０７から指示されたインデックスＦ１に対応する適応符号帳ラグにしたがって、記憶している駆動音源から１サブフレーム分の音源ベクトルを生成する。この音源ベクトルは、適応符号帳ベクトルとして乗算器１０２へ出力される。なお、適応符号帳１０１は、有声音のように周期性の強い成分を表現するために使われ、一方で固定符号帳１０３は、白色雑音のように周期性の弱い成分を表現するために使われる。

乗算器１０２は、ゲイン符号帳１０６から出力される適応符号帳ゲインを、適応符号帳１０１から出力される適応符号帳ベクトルに乗じ、加算器１０５へ出力する。

固定符号帳１０３は、所定形状の音源ベクトルを複数個予め記憶しており、歪み最小化部１０７から指示されたインデックスＦ１に対応する音源ベクトルを、固定符号帳ベクトルとして乗算器１０４へ出力する。

乗算器１０４は、ゲイン符号帳１０６から出力される固定符号帳ゲインを、固定符号帳１０３から出力される固定符号帳ベクトルに乗じ、加算器１０５へ出力する。

加算器１０５は、乗算器１０２から出力される適応符号帳ベクトルと、乗算器１０４から出力される固定符号帳ベクトルとを加算し、加算後の音源ベクトルを駆動音源として第１チャネル符号化部１１０−１と第２チャネル符号化部１１０−２とにそれぞれ出力する。

ゲイン符号帳１０６は、歪み最小化部１０７からの指示Ｆ１にしたがって、適応符号帳１０１から出力される適応符号帳ベクトル用のゲイン（適応符号帳ゲイン）、および固定符号帳１０３から出力される固定符号帳ベクトル用のゲイン（固定符号帳ゲイン）を生成し、それぞれ乗算器１０２、１０４へ出力する。

歪み最小化部１０７は、第１チャネル符号化部１１０−１と第２チャネル符号化部１１０−２とから出力される符号化歪み（合成音声信号）が最小となるような、適応符号帳１０１、固定符号帳１０３およびゲイン符号帳１０６のインデックスをサブフレームごとに算出し、これらのインデックスを符号化パラメータＳ３として音声符号化装置１００の外部に出力する。より詳細には、適応符号帳１０１および固定符号帳１０３に基づいて合成信号を生成し、この信号の符号化歪みを算出する一連の処理は、閉ループ（帰還ループ）となっており、歪み最小化部１０７は、各符号帳に指示するインデックスを１サブフレーム内において様々に変化させることによって各符号帳を探索し、最終的に得られる、符号化歪みを最小化する各符号帳のインデックスを出力する。なお、符号化歪みが最小となる駆動音源は、サブフレームごとに適応符号帳１０１へフィードバックされる。適応符号帳１０１は、このフィードバックにより、記憶している駆動音源を更新する。

第１チャネル符号化部１１０−１と第２チャネル符号化部１１０−２とはそれぞれ、線形予測分析・量子化部１１１、合成フィルタ１１２、加算器１１３および聴覚重み付きフィルタ１１４を具備する。また、第１チャネル符号化部１１０−１と第２チャネル符号化部１１０−２とはそれぞれ、図示しないマイクロフォン等によって生成されたステレオ音声信号における右左いずれかのチャネルについてＣＥＬＰ符号化を行う。

線形予測分析・量子化部１１１は、入力されるステレオ音声信号の第１チャネルまたは第２チャネルに対して線形予測分析を施し、スペクトル包絡情報であるＬＰＣパラメータ（ＬＰＣ係数）を算出する。そして、線形予測分析・量子化部１１１は、そのＬＰＣパラメータを量子化して得られる量子化ＬＰＣパラメータを合成フィルタ１１２へ出力する。

合成フィルタ１１２は、線形予測分析・量子化部１１１から入力される量子化ＬＰＣパラメータをフィルタ係数とし、適応符号帳１０１と固定符号帳１０３とで生成される音源ベクトルを駆動音源としたフィルタ関数（合成フィルタ）を用いて合成信号を生成する。そして、合成フィルタ１１２は、生成した合成信号を加算器１１３へ出力する。

加算器１１３は、ステレオ音声信号の第１チャネルまたは第２チャネルから合成フィルタ１１２で生成される合成信号を減算することによって誤差信号を算出し、この誤差信号を聴覚重み付きフィルタ１１４へ出力する。なお、この誤差信号が符号化歪みに相当する。

聴覚重み付きフィルタ１１４は、加算器１１３から入力される符号化歪みに対して聴感的な重み付けを施して、その符号化歪み（合成音声信号）Ｓ１、Ｓ２を歪み最小化部１０７へ出力する。

図２は、上記の歪み最小化部１０７内部の主要な構成を示すブロック図である。

この歪み最小化部１０７は、乗算器１２１−１、１２１−２、加算器１２２および歪み最小値判定部１２３を備える。

乗算器１２１−１、１２１−２はそれぞれ、図示しない重み係数符号帳から入力される各チャネル用の重み係数を、チャネル符号化部１１０−１、１１０−２から入力される各チャネルの符号化歪みＳ１、Ｓ２に乗じて、それらの乗算結果を加算器１２２へ出力する。なお、各チャネル用の重み係数は、重要視されるチャネルほど大きな値に設定される。

加算器１２２は、乗算器１２１−１、１２１−２から入力される乗算結果を加算して、その加算結果を歪み最小値判定部１２３に入力する。

歪み最小値判定部１２３は、加算器１２２から乗算結果が入力されるたびに、適応符号帳１０１、固定符号帳１０３およびゲイン符号帳１０６に対して、次のインデックスＦ１を出力する。また、歪み最小値判定部１２３は、加算器１２２から入力される乗算結果を時系列で蓄積して、最後のインデックスＦ１についての乗算結果が加算器１２２から入力されたときに、蓄積している乗算結果の中から最小値を判定し、その最小値を符号化パラメータＳ３として外部に出力したり適応符号帳１０１の駆動音源を更新するフィードバック情報として出力したりする。

次いで、音声符号化装置１００の動作、特に歪み最小化部１０７においてステレオ音声信号の符号化歪みを最小化する符号化パラメータＳ３が選択され出力されるまでの信号処理の流れについて説明する。

歪み最小化部１０７は、フレームを構成するサブフレーム毎に符号化歪みを最小化するように、符号化パラメータＳ３を決定する。ここで、サブフレーム毎の符号化歪みＤは、第１チャネルの符号化歪みと第２チャネルの符号化歪みとの総和を用いて下記（式１）のように表わされる。

このとき、各チャネルの符号化歪みは次の（式２）（式３）で表わされる。

続いて、歪み最小化部１０７は、（式１）のＤを最小化するように適応符号帳１０１の音源ベクトルｐのインデックスを算出し、次に固定符号帳１０３の音源ベクトルｃのインデックスを算出する。このあと、歪み最小化部１０７は、Ｄを最小化するようにｇ_ｐおよびｇ_ｃの同時最適化を行う。

具体的には、歪み最小化部１０７は、適応符号帳１０１の中から第１チャネルと第２チャネルとに最適な共通の音源ベクトルを算出するために、適応符号帳１０１に予め登録されている全ての符号ベクトルを用いて、音声合成を行なう。そして、歪み最小化部１０７は、第１チャネルと第２チャネルとについて、合成フィルタ１１２による合成信号と音声信号との歪みを最小化する適応符号帳１０１の符号ベクトルをステレオ音声信号の現フレームの適応音源ベクトルとして選択する。

ここで、符号化歪みをＥとすると、上述した内容は下記（式４）で示されるＥが最小となるように適応音源ベクトルｐのインデックスを算出することと同義である。

そして、歪み最小化部１０７は、固定符号帳１０３の中から、第１チャネルと第２チャネルとに最適な共通の音源を算出するために、固定符号帳１０３に登録されているすべての符号ベクトルを用いて、音声合成を行なう。なお、この音声合成において使用される適応音源ベクトルは、先に算出した最適な適応音源ベクトルである。具体低には、歪み最小化部１０７は、第１チャネルと第２チャネルとについて、合成フィルタ１１２による合成信号と音声信号との歪みを最小化する固定符号帳１０３の符号ベクトルをステレオ音声信号の現フレームの固定音源として選択する。

ここで、符号化歪みをＥ’で表すと、上述した内容は下記（式５）に示されるＥ’を最小化するように固定音源ベクトルｃのインデックスを算出することと同義である。

最後に、歪み最小化部１０７は、ゲイン符号帳１０６に出力させる適応音源ゲインと固定音源ゲインとを算出する。これは、上記の各式において、符号化歪みＤを最小化するように適応音源ゲインｇ_ｐおよび固定音源ゲインｇ_ｃを算出することに相当する。

なお、上記の式において、重み係数ｗ_ｃｈ−１、ｗ_ｃｈ−２は、いずれのチャネルの符号化歪みを重要視するかに応じて調節される。例えば、第１チャネルに対する歪みをｄ_ｃｈ−１、第２チャネルに対する歪みをｄ_ｃｈ−２とすれば、全体の符号化歪みＤは、上記の（式１）で表される。
例えば、ｗ_ｃｈ−１＝１、ｗ_ｃｈ−２＝２とすれば、
ｄ_ｃｈ−１＝１．５、ｄ_ｃｈ−２＝１．５の場合、Ｄ＝４．５となり、
ｄ_ｃｈ−１＝１、ｄ_ｃｈ−２＝２の場合、Ｄ＝５となり、
ｄ_ｃｈ−１＝２、ｄ_ｃｈ−２＝１の場合、Ｄ＝４となる。

したがって、ｄ_ｃｈ−１とｄ_ｃｈ−２とを重み付け加算することなく単純和としてＤを求める場合は、Ｄ＝３となって結果は同じであるのに対し、重み付けを行った場合は、ｄ_ｃｈ−１＝２、ｄ_ｃｈ−２＝１とした方が全体の歪みＤは小さくなる。このように、どちらのチャネルの歪みを重要視するかを、重み付け係数によって設定することができる。

このように、本実施の形態によれば、ステレオ音声信号のＣＥＬＰ符号化において、その第１チャネルと第２チャネルとについて適応符号帳１０１と固定符号帳１０３とが共用されるため、音声符号化装置１００の構成を簡素化できるとともに、ステレオ音声信号の音質を劣化させることなく符号化効率を改善することができる。

また、本実施の形態によれば、ステレオ音声信号のＣＥＬＰ符号化において、その第１チャネルと第２チャネルとについて適応符号帳１０１と固定符号帳１０３とが共用されるため、歪み最小化部１０７による符号化歪みを最小化する符号化パラメータの探索に要する時間を短縮することができる。

なお、本実施の形態では、ステレオ音声信号が２つのチャネルで構成される場合を例にとって説明したが、ステレオ音声信号を構成するチャネル数はさらに多くても良い。

（実施の形態２）
本発明に係る実施の形態２では、ステレオ音声信号のＣＥＬＰ符号化において、その第１チャネルと第２チャネルとについて固定符号帳１０３のみが共用される点で、実施の形態１と相違する。

ここで、３ＧＰＰ規格のTS26.190 V5.1.0(2001-12)に開示されているＡＭＲ−ＷＢ方式の符号化の主要なパラメータのビット数を以下に示す。なお、これらのビット数は、２３．８５ｋｂｉｔ／ｓの符号化レートで符号化する場合の１フレーム（２０ｍｓ）すなわち合計４７７ｂｉｔの内訳を示したものである。
適応符号帳インデックス：３０ｂｉｔ
固定符号帳インデックス：３５２ｂｉｔ
ゲイン：２８ｂｉｔ
スペクトルパラメータ：４６ｂｉｔ

このように、固定符号帳インデックスに対して割り当てられるビット数は、適応符号帳インデックスに対して割り当てられるビット数と比べて極めて多い。そこで、本実施の形態では、適応符号帳を利用した符号化において、適応符号帳に割り当てられるビット数が少ないことに着目して、適応符号帳をステレオ音声信号のチャネルごとに設置する。

図３は、本実施の形態に係る音声符号化装置２００の主要な構成を示すブロック図である。この音声符号化装置２００は、実施の形態１で示した音声符号化装置１００において、適応符号帳１０１と同様の動作を行う第１チャネル用適応符号帳２０１−１および第２チャネル用適応符号長２０１−２、ならびに乗算器１０２と同様の動作の行う乗算器２０２−１、２０２−２を、ステレオ音声信号の第１チャネルと第２チャネルとについてそれぞれ設置したものである。したがって、音声符号化装置２００は、その構成が実施の形態１に示した音声符号化装置１００と近似しており、同一の構成要素には同一の符号を付して、その説明を省略する。

次いで、音声符号化装置２００の動作、特に歪み最小化部１０７においてステレオ音声信号の符号化歪みを最小化する符号化パラメータＳ３が選択され出力されるまでの信号処理の流れについて説明する。

歪み最小化部１０７は、フレームを構成するサブフレーム毎に符号化歪みを最小化するように、符号化パラメータＳ３を選択する。サブフレーム毎の符号化歪みＤは、２つのチャネルの符号化歪みの総和を用いて、下記（式６）のように表わされる。

このとき、各チャネルの符号化歪みは次の（式７）（式８）で表わされる。

続いて、歪み最小化部１０７は、（式６）のＤを最小化するように第１チャネル用適応符号帳２０１−１および第２チャネル用適応符号帳２０１−２の音源ベクトルｐとインデックスとを算出し、次に固定音源ベクトルｃのインデックスを算出する。そして、歪み最小化部１０７は、Ｄを最小化するように３つのゲインの同時最適化を行う。

具体的には、歪み最小化部１０７は、第１チャネル用適応符号帳２０１−１の中から、第１チャネルおよび第２チャネルそれぞれに最適な適応音源を算出するために、適応符号帳２０１−１に登録されているすべての符号ベクトルを用いて、音声合成を行なう。また、歪み最小化部１０７は、第２チャネル用適応符号帳２０１−２に対しても同様の処理を行う。

続いて、歪み最小化部１０７は、第１チャネルと第２チャネルとについて、合成フィルタ１１２による合成信号と音声信号との歪みを最小化する第１チャネル用適応符号帳２０１−１と第２チャネル適応符号帳２０１−２との符号ベクトルをステレオ音声信号の現フレームの適応音源ベクトルとして選択する。

ここで、符号化歪みをＥで表すと、上述した内容は、下記（式９）に示されるＥが最小となるように、適応音源ベクトルｐのインデックスを求めることと同義である。

続いて、歪み最小化部１０７は、固定符号帳２０３の中から、第１チャネルおよび第２チャネルに最適な共通の音源を算出するために、固定符号帳２０３に登録されているすべての符号ベクトルを用いて、音声合成を行なう。なお、この音声合成に使用される適応符号ベクトルは、先に算出した最適な適応符号ベクトルである。そして、歪み最小化部１０７は、合成フィルタ１１２による合成信号と音声信号との歪みを最小化する固定符号帳２０３の符号ベクトルを、ステレオ音声信号の現フレームの固定音源として選択する。

ここで、符号化歪みをＥ’とすると、上述した内容は、下記（式１０）で示されるＥ’が最小となるように、固定音源ベクトルｃのインデックスを算出することと同義である。

最後に、歪み最小化部１０７は、適応音源ゲインおよび固定音源ゲインを算出する。これは、符号化歪みをＤで表すと、このＤを最小化するように第１チャネルの適応音源ゲイン、第２チャネルの適応音源ゲインおよび固定音源ゲインを算出することと同義である。

このように、本実施の形態によれば、固定符号帳インデックスに対して割り当てられるビット数が適応符号帳インデックスに対して割り当てられるビット数と比べて極めて多いことから、ステレオ音声信号のＣＥＬＰ符号化において、複数のチャネルについて固定符号帳のみを共用するとしても、音声符号化装置２００の構成を簡素化できるとともに、ステレオ音声信号の音質を劣化させることなく符号化効率を改善することができる。

（実施の形態３）
図４は、本発明の実施の形態３に係る音声符号化装置３００の主要な構成を示すブロック図である。

この音声符号化装置３００は、ステレオ符号化部１００、選択部３０１、切り替え部３０２、加算器３０３およびモノラル符号化部３１０を備える。なお、ステレオ符号化部１００は、実施の形態１で示した音声符号化装置１００と同様の構成であるため、同一の符号を付している。また、モノラル符号化部３１０は、音声符号化装置１００と同様の機能を発揮する構成要素を多く具備するため、そのような構成要素については、同一の符号を付して、その説明を省略する。

音声符号化装置３００は、モノラル符号化とステレオ符号化という２系統の符号化方式を選択することができる構成となっている。ここで、モノラル符号化とは、入力されたステレオ音声信号をモノラル信号に変換した後に符号化することを指し、ステレオ符号化とは、入力されたステレオ音声信号をそのままチャンネルごとに符号化することを指している。モノラル符号化は、加算器３０３およびモノラル符号化部３１０が担当し、ステレオ符号化は、ステレオ符号化部１００が担当する。

選択部３０１は、音声符号化装置３００の外部からの情報、例えばビットレート（伝送レート）情報や音質情報等にしたがって、入力ステレオ音声信号をモノラル符号化するかステレオ符号化するかを選択する。選択方法は、以下の２通りである。

第１の選択方法は、音声符号化装置３００のユーザの要求に応じて符号化方式が選択される方法である。この第１の選択方法によれば、ユーザが音質を優先する場合にはステレオ符号化が選択され、一方でユーザがコストを優先する場合にはモノラル符号化が選択されることになる。

第２の選択方法は、通信システムから要求される伝送ビットレート等にしたがって、符号化方式が選択される方法である。この第２の選択方法によれば、通信システムから要求される伝送ビットレートが低い場合にはモノラル符号化が選択され、一方で伝送ビットレートが高い場合にはステレオ符号化が選択されることになる。なお、音源の特性によっては、第１チャネルと第２チャネルとの相関性が非常に高い場合があり、そのような場合には、符号化方式としてモノラル符号化を選択しても音質上あまり問題がないと考えられることから、符号化効率を一層高めるため、モノラル符号化が選択されることになる。

加算器３０３は、ステレオ音声信号の第１チャネルおよび第２チャネルの和信号をフレーム単位で算出することにより、ステレオ音声信号をモノラル音声信号に変換し、このモノラル音声信号をモノラル符号化部３１０に出力する。

モノラル符号化部３１０は、このモノラル音声信号に対しＣＥＬＰ符号化を行う。具体的には、モノラル符号化部３１０は、フレームを構成するサブフレーム毎に符号化歪みを最小化するように、内包する適応符号帳１０１および固定符号帳１０３のインデックス、ならびにゲイン符号帳１０６のゲインを選択する。ここで、モノラル符号化部３１０によって算出されるサブフレーム毎の符号化歪みＤ_ｍｏｎｏは、下記（式１１）のように表される。

また、モノラル符号化部３１０において、歪み最小化部１０７は、Ｄ_ｍｏｎｏを最小化するように適応音源ベクトルｐのインデックスを算出し、次に固定音源ベクトルｃのインデックスを算出する。そして、この歪み最小化部１０７は、Ｄ_ｍｏｎｏを最小化するように適応音源ゲインおよび固定音源ゲインの同時最適化を行う。

具体的には、モノラル符号化部３１０において、歪み最小化部１０７は、適応符号帳１０１の中から、モノラル信号に最適な適応音源を算出するために、適応符号帳１０１に登録されているすべての符号ベクトルを用いて、音声合成を行なう。そして、モノラル符号化部３１０において、歪み最小化部１０７は、合成フィルタ１１２による合成信号とモノラル信号との歪みを最小化する適応符号帳１０１の符号ベクトルをモノラル信号の現フレームの適応音源として選択する。

ここで、符号化歪みをＥで表すと、上述した内容は、下記（式１２）で示すＥを最小化するように、適応音源ベクトルｐのインデックスを算出することと同義である。

続いて、モノラル符号化部３１０において、歪み最小化部１０７は、固定符号帳１０３の中から、モノラル信号に最適な共通の音源を選択するために、固定符号帳１０３に登録されているすべての符号ベクトルを用いて、音声合成を行なう。なお、この音声合成に使用される適応音源ベクトルは、先に算出した最適な適応音源ベクトルである。

続いて、モノラル符号化部３１０において、歪み最小化部１０７は、合成フィルタ１１２による合成信号とモノラル信号との歪みを最小化する固定符号帳１０３の符号ベクトルを入力音声の現フレームの固定音源として選択する。

ここで、符号化歪みをＥ’で表すと、上述した内容は、下記（式１３）で示すＥ’を最小化するように、固定音源ベクトルｃのインデックスを算出することと同義である。

最後に、モノラル符号化部３１０において、歪み最小化部１０７は、適応音源ゲインおよび固定音源ゲインを算出する。これは、符号化歪みをＤで表すと、（式１１）に示すＤ_ｍｏｎｏを最小化するように適応音源ゲインｇ_ｐおよび固定音源ゲインｇ_ｃを算出することと同義である。

このように、本実施の形態によれば、ステレオ音声信号をモノラル符号化するモノラル符号化部３１０と、ステレオ音声信号をステレオ符号化するステレオ符号化部１００と、の２系統の符号化方式を適宜選択できるため、要求音質やビットレートを考慮して、最も効率的な符号化方式を選択することができる。

なお、本実施の形態では、ステレオ符号化部１００として、実施の形態１で示した音声符号化装置１００を使う場合を例にとって説明したが、ステレオ符号化部１００として、実施の形態２で示した音声符号化装置２００を用いても良い。

（実施の形態４）
図５は、本発明の実施の形態４に係る音声符号化装置４００の主要な構成を示すブロック図である。なお、この音声符号化装置４００は、実施の形態３で示したステレオ符号化部１００およびモノラル符号化部３１０を内部に備えているため、これらの構成には同一の符号を付すこととする。

音声符号化装置４００は、ステレオ符号化部１００、モノラル符号化部３１０、ダウンサンプリング部４０１−１、４０１−２、局部デコーダ４０２、加算器４０３、アップサンプリング部４０４および加算器４０５、４０６を備える。

なお、ステレオ符号化部１００として、実施の形態３と同様、音声符号化装置１００または音声符号化装置２００を用いることができる。

本実施の形態に係る音声符号化装置４００は、入力されるステレオ音声信号を周波数帯域によってモノラル符号化するかステレオ符号化するか判定する。例えば、ユーザがステレオ感を感じる傾向は、低周波帯域（低域）の信号において顕著という特性があるため、低域のステレオ音声信号に対してはステレオ符号化を選択し、高域のステレオ音声信号に対してはモノラル符号化を選択する。これにより、ユーザの主観品質においてステレオ感を損なわずに符号化を行うことができるため、符号化効率を高めることができる。

音声符号化装置４００は、第１チャネルおよび第２チャネルのステレオ音声信号を符号化する際に、このステレオ音声信号の周波数帯域に応じてステレオ符号化またはモノラル符号化を使い分けて符号化する。具体的には、ステレオ音声信号の低域部分に対しては実施の形態１で示したステレオ符号化を行い、その高域部分に対しては実施の形態３で示したモノラル符号化を行なう。

本実施の形態では、ステレオ符号化を行なうのはステレオ音声信号の低域部分であるので、ダウンサンプリング部４０１−１、４０１−２は、ステレオ音声信号をダウンサンプリングし、必要な帯域成分の信号のみを抽出する。そして、ステレオ符号化部１００は、ダウンサンプリング部４０１によって抽出された信号に対してステレオ符号化を行なう。

局部デコーダ４０２は、ステレオ符号化部１００によってステレオ符号化された信号を復号する。そして、加算器４０３は、局部デコーダ４０２によって復号された信号から和信号を算出してモノラル信号を生成し、続いてアップサンプリング部４０４は、加算器４０３によって生成されたモノラル信号に対してアップサンプリングを行なう。

また一方で、加算器４０６は、ステレオ音声信号を構成する第１チャネルと第２チャネルとの和信号を算出してモノラル信号を生成する。加算器４０５は、アップサンプリング部４０４によってアップサンプリングされたモノラル信号と、加算器４０６によって生成されたモノラル信号と、の差分を算出する。そして、モノラル符号化部３１０は、加算器４０５によって算出されたモノラル信号の差分をモノラル符号化する。

ここで例えば、ダウンサンプリング部４０１が標本化周波数４８ｋＨｚで標本化された左右２つのチャネルのステレオ音声信号を標本化周波数１／２（２４ｋＨｚ）にダウンサンプリングすると、ステレオ音声信号の帯域は１２ｋＨｚ以下となる。本実施の形態では、ダウンサンプリング部４０１によってダウンサンプリングされたステレオ音声信号に対してステレオ符号化部１００がステレオ符号化を行った後、そのステレオ音声信号を局部デコーダ４０２がデコードしてＰＣＭ（Pulse Code Modulation）信号に戻す。続いて、加算器４０３がこのＰＣＭ信号の２つのチャネルの和信号（モノラル信号）を生成し、生成されたモノラル信号をアップサンプリング部４０４が４８ｋＨｚにアップサンプリングする。なお、アップサンプリング部４０４によってアップサンプリングされても、モノラル信号の帯域は１２ｋＨｚ以下のままである。続いて、加算器４０５が、加算器４０６によって生成されたステレオ音声信号における２つのチャネルの和信号（モノラル信号）と、アップサンプリング部４０４によってアップサンプリングされたモノラル信号と、の差分を算出する。なお、この差分の信号の帯域は、１２ｋＨｚから２４ｋＨｚである。そして、モノラル符号化部３１０が、この差分信号に対してモノラル符号化を行う。

このように、本実施の形態によれば、ステレオ音声信号について音質にあまり影響しない帯域を選択してモノラル符号化するため、ステレオ音声信号の音質の劣化を抑制しつつその符号化効率を改善することができる。

以上、本発明に係る実施の形態１〜４について説明した。

本発明に係る音声符号化装置は、上記の実施の形態１〜４に限定されず、種々変更して実施することが可能である。

本発明に係る音声符号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することも可能であり、これにより上記と同様の作用効果を有する通信端末装置および基地局装置を提供することができる。

なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。

また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されていても良いし、一部または全てを含むように１チップ化されていても良い。

また、ここではＬＳＩとしたが、集積度の違いによって、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩ等と呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラム化することが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

さらに、半導体技術の進歩または派生する別技術により、ＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてあり得る。

本発明に係る音声符号化装置および音声符号化方法は、ステレオ音声信号をＣＥＬＰ符号化する場合に、遅延の発生を抑制しつつ符号化効率を改善するという効果を有し、移動体通信システムにおける通信端末装置、基地局装置等の用途に適用できる。

実施の形態１に係る音声符号化装置の主要な構成を示すブロック図実施の形態１に係る歪み最小化部の主要な構成を示すブロック図実施の形態２に係る音声符号化装置の主要な構成を示すブロック図実施の形態３に係る音声符号化装置の主要な構成を示すブロック図実施の形態４に係る音声符号化装置の主要な構成を示すブロック図

符号の説明

１００、２００、３００、４００音声符号化装置
１０１適応符号帳
１０３、２０３固定符号帳
１０６ゲイン符号帳
１１０−１、２１０−１第１チャネル符号化部
１１０−２、２１０−２第２チャネル符号化部
１０７歪み最小化部
２０１−１第１チャネル用適応符号帳
２０１−２第２チャネル用適応符号帳

Claims

ステレオ音声信号をＣＥＬＰ方式で符号化する音声符号化装置であって、
前記ステレオ音声信号の第１チャネルを符号化する第１の符号化手段と、
前記ステレオ音声信号の第２チャネルを符号化する第２の符号化手段と、
を具備し、
前記第１および第２の符号化手段は、固定符号帳を共有する、
ことを特徴とする音声符号化装置。
前記第１および第２の符号化手段は、さらに適応符号帳も共有する、
ことを特徴とする請求項１記載の音声符号化装置。
前記第１および第２の符号化手段で生成される信号の符号化歪みの和を求め、この和が最小となる前記第１および第２の符号化手段の前記固定符号帳および適応符号帳のインデックスをフィードバックする歪み最小化手段、
をさらに具備することを特徴とする請求項１記載の音声符号化装置。
前記歪み最小化手段は、
前記第１および第２の符号化手段で生成される信号を重み付け加算して前記符号化歪みの和を求める、
ことを特徴とする請求項１記載の音声符号化装置。
前記ステレオ音声信号の全チャネルを加算してモノラル音声信号を生成し、このモノラル音声信号を符号化する第１モノラル符号化手段をさらに具備し、
前記第１および第２の符号化手段で生成される信号または前記第１モノラル符号化手段で生成される信号のいずれか一方を切り替えて出力する、
ことを特徴とする請求項１記載の音声符号化装置。
前記ステレオ音声信号における所定の周波数未満の低域成分の全チャネルを加算してモノラル音声信号を生成し、このモノラル音声信号を符号化する第２モノラル符号化手段、をさらに具備することを特徴とする請求項１記載の音声符号化装置。
請求項１から請求項６のいずれかに記載の音声符号化装置を具備することを特徴とする通信端末装置。
請求項１から請求項６のいずれかに記載の音声符号化装置を具備することを特徴とする基地局装置。
ステレオ音声信号をＣＥＬＰ方式で符号化する音声符号化方法であって、
前記ステレオ音声信号の第１チャネルを符号化する第１の符号化ステップと、
前記ステレオ音声信号の第２チャネルを符号化する第２の符号化ステップと、
を具備し、
前記第１および第２の符号化ステップにおいて、共通の固定符号帳を使用する、
ことを特徴とする音声符号化方法。