JP5241509B2

JP5241509B2 - 適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法

Info

Publication number: JP5241509B2
Application number: JP2008549377A
Authority: JP
Inventors: 薫佐藤; 利幸森井
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2006-12-15
Filing date: 2007-12-14
Publication date: 2013-07-17
Anticipated expiration: 2027-12-14
Also published as: EP2101319B1; JPWO2008072735A1; US20100082337A1; EP2101319A1; EP2101319A4; US8200483B2; WO2008072735A1

Description

本発明は、ＣＥＬＰ（Code Excited Linear Prediction）方式の音声符号化において適応音源のベクトル量子化を行う適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法に関し、特にインターネット通信に代表されるパケット通信システムや、移動通信システム等の分野で、音声信号の伝送を行う音声符号化・復号装置に用いられる適応音源のベクトル量子化を行う適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法に関する。

ディジタル無線通信や、インターネット通信に代表されるパケット通信、あるいは音声蓄積などの分野においては、電波などの伝送路容量や記憶媒体の有効利用を図るため、音声信号の符号化・復号技術が不可欠である。特に、ＣＥＬＰ方式の音声符号化・復号技術が主流の技術となっている（例えば、非特許文献１参照）。

ＣＥＬＰ方式の音声符号化装置は、予め記憶された音声モデルに基づいて入力音声を符号化する。具体的には、ＣＥＬＰ方式の音声符号化装置は、ディジタル化された音声信号を１０〜２０ｍｓ程度の一定時間間隔のフレームに区切り、各フレーム内の音声信号に対して線形予測分析を行い線形予測係数（ＬＰＣ：Linear Prediction Coefficient）と線形予測残差ベクトルを求め、線形予測係数および線形予測残差ベクトルをそれぞれ個別に符号化する。ＣＥＬＰ方式の音声符号化／復号装置において、線形予測残差ベクトルは、過去に生成された駆動音源信号を格納している適応音源符号帳と、固定の形状のベクトル（固定コードベクトル）を特定数個格納している固定符号帳を用いて、符号化／復号される。そのうち、適応音源符号帳は、線形予測残差ベクトルが有する周期的成分を表現するために用いられる一方、固定符号帳は、線形予測残差ベクトルのうち適応音源符号帳では表現できない非周期的成分を表現するために用いられる。

なお、線形予測残差ベクトルの符号化／復号処理においては、フレームをさらに短い時間単位(５ｍｓ〜１０ｍｓ程度)に分割したサブフレーム単位で行われるのが一般的である。非特許文献２に記載されているＩＴＵ−Ｔ勧告Ｇ．７２９では、フレームを２つのサブフレームに分割し、２つのサブフレーム各々に対し適応音源符号帳を用いてピッチ周期を探索することにより適応音源のベクトル量子化を行う。このような、サブフレーム単位の適応音源ベクトル量子化方法は、フレーム単位の適応音源ベクトル量子化方法よりも適応音源ベクトル量子化方法の計算量を低減することができる。
M.R.Schroeder、B.S.Atal著、「IEEE proc. ICASSP」、１９８５、「Code Excited Linear Prediction: High Quality Speech at Low Bit Rate」、ｐ．９３７−９４０ "ITU-T Recommendation G.729", ITU-T, 1996/3, pp.17-19

しかしながら、上記のような各サブフレーム単位で適応音源ベクトル量子化を行う装置において各サブフレームのピッチ周期探索処理に用いられる情報量は、例えば、１フレームが２サブフレームに分割された場合、１つのサブフレームでの適応音源ベクトル量子化に用いられる情報量は、全体の情報量の半分となる。そのため、適応音源ベクトル量子化に用いられる全体の情報量が減少すると、各サブフレームに用いられる情報量はさらに減少し、各サブフレームのピッチ周期探索の範囲が減少し、適応音源ベクトル量子化の量子
化精度が劣化してしまうという問題が生じる。例えば、適応音源符号帳に割り振られる情報量が８ビットである場合、探索するピッチ周期として２５６通りの候補が存在するが、この８ビットの情報量を２つのサブフレームに均等に配分する場合、１つのサブフレームにおいて４ビットの情報量を用いてピッチ周期探索を行うこととなる。従って、各サブフレームにおいて探索するピッチ周期の候補は１６通りとなり、ピッチ周期を表現するバリエーションが乏しくなる。一方、ＣＥＬＰ音声符号化装置において、適応音源ベクトル量子化以外の処理はサブフレーム単位で行い、フレーム単位の処理は適応音源ベクトル量子化処理に限定すれば、適応音源ベクトル量子化による計算量の増加は容認できる程度に収まる。

本発明の目的は、サブフレーム単位で線形予測符号化を行うＣＥＬＰ音声符号化において、計算量の増加を抑えつつ、ピッチ周期探索の範囲を拡大し、適応音源ベクトル量子化の量子化精度を向上することができる適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法を提供することである。

本発明は、ｎ長のフレームを複数のｍ長のサブフレームに分割して線形予測分析を行い（ｎ、ｍは整数、ｎはｍの整数倍）、ｍ長の線形予測残差ベクトルおよび線形予測係数を生成するＣＥＬＰ音声符号化に用いられる適応音源ベクトル量子化装置であって、適応音源符号帳の中から、ｎ長の適応音源ベクトルを切り出す適応音源ベクトル生成手段と、前記複数のサブフレームの前記線形予測残差ベクトルを加算してｎ長のターゲットベクトルを構成するターゲットベクトル構成手段と、前記各サブフレームの前記線形予測係数を用いてｍ×ｍ行列のインパルス応答行列を生成する合成フィルタと、前記複数のｍ×ｍ行列のインパルス応答行列を用いて、ｎ×ｎ行列のインパルス応答行列を構成するインパルス応答行列構成手段と、前記ｎ長の適応音源ベクトルと、前記ｎ長のターゲットベクトルと、前記ｎ×ｎ行列のインパルス応答行列とを用いて、ピッチ周期の各候補に対し、適応音源ベクトル量子化の評価尺度を算出する評価尺度算出手段と、前記ピッチ周期の各候補に対応する評価尺度を比較し、前記評価尺度を最大とするピッチ周期を量子化結果として求める評価尺度比較手段と、を具備する構成を採る。

本発明は、ＣＥＬＰ音声符号化においてフレームを複数のサブフレームに分割し線形予測分析を行って得られた、符号化情報を復号するＣＥＬＰ音声復号に用いられる適応音源ベクトル逆量子化装置であって、前記ＣＥＬＰ音声符号化において前記フレーム単位の適応音源ベクトル量子化を行い得られた、ピッチ周期を記憶する記憶手段と、前記各サブフレームにおいて、前記ピッチ周期を切り出し位置として用い、適応音源符号帳の中からｎ長の適応音源ベクトルを切り出す適応音源ベクトル生成手段と、を具備する構成を採る。

本発明は、ｎ長のフレームを複数のｍ長のサブフレームに分割して線形予測分析を行い（ｎ、ｍは整数、ｎはｍの整数倍）、ｍ長の線形予測残差ベクトルおよび線形予測係数を生成するＣＥＬＰ音声符号化に用いられる適応音源ベクトル量子化方法であって、適応音源符号帳の中から、ｎ長の適応音源ベクトルを切り出すステップと、前記複数のサブフレームの前記線形予測残差ベクトルを加算してｎ長のターゲットベクトルを構成するステップと、前記各サブフレームの前記線形予測係数を用いてｍ×ｍ行列のインパルス応答行列を生成するステップと、前記複数のｍ×ｍ行列のインパルス応答行列を用いて、ｎ×ｎ行列のインパルス応答行列を構成するステップと、前記ｎ長の適応音源ベクトルと、前記ｎ長のターゲットベクトルと、前記ｎ×ｎ行列のインパルス応答行列とを用いて、ピッチ周期の各候補に対し、適応音源ベクトル量子化の評価尺度を算出するステップと、前記ピッチ周期の各候補に対応する評価尺度を比較し、前記評価尺度を最大とするピッチ周期を量子化結果として求めるステップと、を有するようにする。

本発明によれば、サブフレーム単位で線形予測符号化を行うＣＥＬＰ音声符号化において生成されたサブフレーム単位の線形予測係数および線形予測残差ベクトルを用いて、フレーム単位のターゲットベクトル、適応音源ベクトル、およびインパルス応答行列を構成しフレーム単位での適応音源ベクトル量子化を行うため、計算量の増加を抑えつつ、ピッチ周期探索の範囲を拡大し、適応音源ベクトル量子化の量子化精度さらにはＣＥＬＰ音声符号化品質を向上することができる。

本発明の一実施の形態では、適応音源ベクトル量子化装置を含むＣＥＬＰ音声符号化装置において、１６ｋＨｚの音声信号を構成する各フレームをそれぞれ２つのサブフレームに分割し、各サブフレームに対し線形予測分析を行ってサブフレーム毎の線形予測係数および線形予測残差ベクトルを求める場合を例にとる。各サブフレームに対し各々ピッチ周期探索を行って適応音源ベクトルの量子化を行う従来の適応音源ベクトル量子化装置とは異なって、本実施の形態に係る適応音源ベクトル量子化装置は、２つのサブフレームを１つのフレームに纏め、８ビットの情報量を用いてピッチ周期探索を行う。

以下、本発明の一実施の形態について、添付図面を参照して詳細に説明する。

（一実施の形態）
図１は、本発明の一実施の形態に係る適応音源ベクトル量子化装置１００の主要な構成を示すブロック図である。

図１において、適応音源ベクトル量子化装置１００は、ピッチ周期指示部１０１、適応音源符号帳１０２、探索用適応音源ベクトル生成部１０３、合成フィルタ１０４、探索用インパルス応答行列生成部１０５、探索用ターゲットベクトル生成部１０６、評価尺度算出部１０７、評価尺度比較部１０８を備え、サブフレーム毎のサブフレームインデックス、線形予測係数、およびターゲットベクトルが入力される。そのうち、サブフレームインデックスは、本実施の形態に係る適応音源ベクトル量子化装置１００を含むＣＥＬＰ音声符号化装置において得られた各サブフレームがフレーム内において何番目のサブフレームであるかを表す。また、線形予測係数およびターゲットベクトルは、ＣＥＬＰ音声符号化装置において各サブフレームに対し線形予測分析を行って求められたサブフレーム毎の線形予測係数および線形予測残差（励振信号）ベクトルを表す。線形予測係数としては、ＬＰＣパラメータ、もしくは、ＬＰＣパラメータと一対一で相互変換可能な周波数領域のパラメータであるＬＳＦ（Line Spectral Frequency）パラメータ、ＬＳＰ（Line Spectral
Pairs）パラメータなどを用いる。

ピッチ周期指示部１０１は、サブフレーム毎に入力されるサブフレームインデックスに基づき、予め設定されているピッチ周期探索範囲内のピッチ周期を探索用適応音源ベクトル生成部１０３へ順次指示する。

適応音源符号帳１０２は、駆動音源を格納するバッファを内蔵しており、フレーム単位でのピッチ周期探索が終了する度に、評価尺度比較部１０８からフィードバックされるピ
ッチ周期インデックスＩＤＸを用いて駆動音源を更新する。

探索用適応音源ベクトル生成部１０３は、ピッチ周期指示部１０１から指示されるピッチ周期を有する適応音源ベクトルを適応音源符号帳１０２からフレーム長ｎだけ切り出し、ピッチ周期探索用の適応音源ベクトル（以下、探索用適応音源ベクトルと略す）として評価尺度算出部１０７に出力する。

合成フィルタ１０４は、サブフレーム毎に入力される線形予測係数を用いて合成フィルタを構成し、サブフレーム毎に入力されるサブフレームインデックスに基づき合成フィルタのインパルス応答行列を生成して探索用インパルス応答行列生成部１０５に出力する。

探索用インパルス応答行列生成部１０５は、合成フィルタ１０４から入力されるサブフレーム毎のインパルス応答行列を用いて、サブフレーム毎に入力されるサブフレームインデックスに基づき、フレーム毎のインパルス応答行列を生成し、探索用インパルス応答行列として評価尺度算出部１０７に出力する。

探索用ターゲットベクトル生成部１０６は、サブフレーム毎に入力されるターゲットベクトルを用いて、フレーム毎のターゲットベクトルを生成し、探索用ターゲットベクトルとして評価尺度算出部１０７に出力する。

評価尺度算出部１０７は、探索用適応音源ベクトル生成部１０３から入力される探索用適応音源ベクトル、探索用インパルス応答行列生成部１０５から入力される探索用インパルス応答行列、および探索用ターゲットベクトル生成部１０６から入力される探索用ターゲットベクトルを用いて、サブフレーム毎に入力されるサブフレームインデックスに基づきピッチ周期探索用の評価尺度を算出して評価尺度比較部１０８に出力する。

評価尺度比較部１０８は、評価尺度算出部１０７から入力される評価尺度が最大となる時のピッチ周期を求め、求められたピッチ周期を示すインデックスＩＤＸを外部へ出力するとともに適応音源符号帳１０２にフィードバックする。

適応音源ベクトル量子化装置１００の各部は、以下の動作を行う。

ピッチ周期指示部１０１は、サブフレーム毎に入力されるサブフレームインデックスが第１サブフレームを示す場合、予め設定されているピッチ周期探索範囲内のピッチ周期Ｔ＿ｉｎｔを探索用適応音源ベクトル生成部１０３へ順次指示する。ここで、ピッチ周期探索範囲内のピッチ周期の候補は、各サブフレームの適応音源ベクトル量子化に用いられる情報量の総和値により決まる。例えば、２つのサブフレームの適応音源ベクトル量子化に用いられる情報量が４ビットである場合、その総和値は８（＝４＋４）ビットとなり、ピッチ周期探索範囲内のピッチ周期の候補は「３２」から「２８７」までの２５６通りある。ここで、「３２」から「２８７」はピッチ周期を示すインデックスを示す。ピッチ周期指示部１０１は、サブフレーム毎に入力されるサブフレームインデックスが第１サブフレームを示す場合、ピッチ周期Ｔ＿ｉｎｔ（Ｔ＿ｉｎｔ＝３２、３３、…、２８７）を探索用適応音源ベクトル生成部１０３へ順次指示し、サブフレームインデックスが第２サブフレームを示す場合、探索用適応音源ベクトル生成部１０３へピッチ周期の指示を行わない。

適応音源符号帳１０２は、駆動音源を格納するバッファを内蔵しており、フレーム単位でピッチ周期探索が終了する度に、評価尺度比較部１０８からフィードバックされるインデックスＩＤＸが示すピッチ周期を有する適応音源ベクトルを用いて駆動音源を更新する。

探索用適応音源ベクトル生成部１０３は、ピッチ周期指示部１０１から指示されるピッチ周期Ｔ＿ｉｎｔを有する適応音源ベクトルを適応音源符号帳１０２からフレーム長ｎだけ切り出し、探索用適応音源ベクトルＰ（Ｔ＿ｉｎｔ）として評価尺度算出部１０７に出力する。例えば、適応音源符号帳１０２がｅｘｃ（０），ｅｘｃ（１），…，ｅｘｃ（ｅ−１）で表されるようにｅの長さを持つベクトルからなる場合、探索用適応音源ベクトル生成部１０３において生成される適応音源ベクトルＰ（Ｔ＿ｉｎｔ）は、下記の式（１）で表される。

図２は、適応音源符号帳１０２が備える駆動音源を示す図である。

図２において、ｅは駆動音源１２１の長さを表し、ｎは探索用適応音源ベクトルＰ（Ｔ＿ｉｎｔ）の長さを示し、Ｔ＿ｉｎｔはピッチ周期指示部１０１から指示されるピッチ周期を示す。図２に示すように、探索用適応音源ベクトル生成部１０３は、駆動音源１２１（適応音源符号帳１０２）の末尾（ｅの位置）からＴ＿ｉｎｔだけ離れた位置を起点とし、ここから末尾ｅの方向へフレーム長ｎの部分１２２を切り出し、探索用適応音源ベクトルＰ（Ｔ＿ｉｎｔ）を生成する。ここで、Ｔ＿ｉｎｔの値がｎより小さい場合、探索用適応音源ベクトル生成部１０３は、切り出した区間をフレーム長になるまで反復して充足させると良い。なお、探索用適応音源ベクトル生成部１０３は、上記の式（１）で表される切り出し処理を、ピッチ周期指示部１０１から与えられる「３２」から「２８７」までの２５６通りのＴ＿ｉｎｔに対し繰り返す。

合成フィルタ１０４は、サブフレーム毎に入力される線形予測係数を用いて合成フィルタを構成する。そして、合成フィルタ１０４は、サブフレーム毎に入力されるサブフレームインデックスが第１サブフレームを示す場合には、下記の式（２）で表されるインパルス応答行列を生成する一方、サブフレームインデックスが第２サブフレームを示す場合には、下記の式（３）で表されるインパルス応答行列を生成して探索用インパルス応答行列生成部１０５に出力する。

式（２）に示すように、サブフレームインデックスが第１サブフレームを示す場合のインパルス応答行列Ｈは、フレーム長ｎだけ求められる。また、式（３）に示すように、サブフレームインデックスが第２サブフレームを示す場合のインパルス応答行列Ｈ＿ａｈｅａｄは、サブフレーム長ｍだけ求められる。

探索用インパルス応答行列生成部１０５は、合成フィルタ１０４が第１サブフレームおよび第２サブフレームの間で遷移するという点を考慮し、合成フィルタ１０４から入力されるインパルス応答行列ＨおよびＨ＿ａｈｅａｄの要素を抜き出して下記の式（４）で表される探索用インパルス応答行列Ｈ＿ｎｅｗを生成し、評価尺度算出部１０７に出力する。

探索用ターゲットベクトル生成部１０６は、サブフレーム毎に入力されるサブフレームインデックスが第１サブフレームを示す場合には、入力されるＸ１＝［ｘ（０）ｘ（１） … ｘ（ｍ−１）］で表されるターゲットベクトルを記憶する。そして、サブフレーム毎に入力されるサブフレームインデックスが第２サブフレームを示す場合には、探索用ターゲットベクトル生成部１０６は、入力されるＸ２＝［ｘ（ｍ）ｘ（ｍ＋１） … ｘ（ｎ−１）］で表されるターゲットベクトルと、記憶しているターゲットベクトルＸ１とを加算し、下記の式（５）で示される探索用ターゲットベクトルを生成して評価尺度算出部１０７に出力する。

評価尺度算出部１０７は、探索用適応音源ベクトル生成部１０３から入力される適応音源ベクトルＰ（Ｔ＿ｉｎｔ）、探索用インパルス応答行列生成部１０５から入力される探索用インパルス応答行列Ｈ＿ｎｅｗ、および探索用ターゲットベクトル生成部１０６から入力されるターゲットベクトルＸを用いて、下記の式（６）に従いピッチ周期探索用の評価尺度Ｄｉｓｔ（Ｔ＿ｉｎｔ）を算出し評価尺度比較部１０８に出力する。下記の式（６
）に示すように、評価尺度算出部１０７は、探索用インパルス応答行列生成部１０５で生成された探索用インパルス応答行列Ｈ＿ｎｅｗと、探索用適応音源ベクトル生成部１０３で生成された探索用適応音源ベクトルＰ（Ｔ＿ｉｎｔ）とを畳み込んで得られる再生ベクトルと、探索用ターゲットベクトル生成部１０６で生成された探索用ターゲットベクトルとの二乗誤差を評価尺度として求める。なお、評価尺度算出部１０７において評価尺度Ｄｉｓｔ（Ｔ＿ｉｎｔ）を算出する際は、下記の式（６）中の探索用インパルス応答行列Ｈ＿ｎｅｗの代わりに、探索用インパルス応答行列Ｈ＿ｎｅｗと、ＣＥＬＰ音声符号化装置に含まれる聴覚重み付けフィルタのインパルス応答行列Ｗとを乗算して得られる行列Ｈ’＿ｎｅｗ（＝Ｈ＿ｎｅｗ×Ｗ）を用いることが一般的である。ただし、以下の説明では、Ｈ＿ｎｅｗとＨ’＿ｎｅｗを区別せずＨ＿ｎｅｗと記載することとする。

評価尺度比較部１０８は、評価尺度算出部１０７から入力される、例えば、２５６通りの評価尺度Ｄｉｓｔ（Ｔ＿ｉｎｔ）に対し比較を行い、そのうち最大の評価尺度Ｄｉｓｔ（Ｔ＿ｉｎｔ）に対応するピッチ周期Ｔ＿ｉｎｔ’を求める。評価尺度比較部１０８は、求められたピッチ周期Ｔ＿ｉｎｔ’を示すインデックスＩＤＸを外部へ出力するとともに適応音源符号帳１０２に出力する。

適応音源ベクトル量子化装置１００を含むＣＥＬＰ音声符号化装置は、評価尺度比較部１０８において生成されたピッチ周期インデックスＩＤＸを含む音声符号化情報を、本実施の形態に係る適応音源ベクトル逆量子化装置を含むＣＥＬＰ復号装置に送信する。ＣＥＬＰ復号装置は、受信した音声符号化情報を復号しピッチ周期インテックスＩＤＸを得て、本実施の形態に係る適応音源ベクトル逆量子化装置へ入力する。なお、ＣＥＬＰ復号装置における音声復号処理も、ＣＥＬＰ音声符号化装置における音声符号化処理と同様にサブフレーム単位で行われ、ＣＥＬＰ復号装置はサブフレームインデックスを本実施の形態に係る適応音源ベクトル逆量子化装置へ入力する。

図３は、本実施の形態に係る適応音源ベクトル逆量子化装置２００の主要な構成を示すブロック図である。

図３において、適応音源ベクトル逆量子化装置２００は、ピッチ周期判定部２０１、ピッチ周期記憶部２０２、適応音源符号帳２０３、および適応音源ベクトル生成部２０４を備え、ＣＥＬＰ音声復号装置において生成されたサブフレームインデックスおよびピッチ周期インデックスＩＤＸが入力される。

ピッチ周期判定部２０１は、サブフレームインデックスが第１サブフレームを示す場合は、入力されるピッチ周期インデックスＩＤＸに対応するピッチ周期Ｔ＿ｉｎｔ’をピッチ周期記憶部２０２、適応音源符号帳２０３、および適応音源ベクトル生成部２０４に出力する。ピッチ周期判定部２０１は、サブフレームインデックスが第２サブフレームを示す場合は、ピッチ周期記憶部２０２に記憶されているピッチ周期Ｔ＿ｉｎｔ’を読み出して適応音源符号帳２０３および適応音源ベクトル生成部２０４に出力する。

ピッチ周期記憶部２０２は、ピッチ周期判定部２０１から入力される第１サブフレームのピッチ周期Ｔ＿ｉｎｔ’を記憶し、第２サブフレームの処理においてピッチ周期判定部２０１により読み出される。

適応音源符号帳２０３は、適応音源ベクトル量子化装置１００の適応音源符号帳１０２が備える駆動音源と同様な駆動音源を格納するバッファを内蔵しており、サブフレーム毎の適応音源復号処理が終わる度に、ピッチ周期判定部２０１から入力されるピッチ周期Ｔ＿ｉｎｔ’を有する適応音源ベクトルを用いて駆動音源を更新する。

適応音源ベクトル生成部２０４は、ピッチ周期判定部２０１から入力されるピッチ周期Ｔ＿ｉｎｔ’を有する適応音源ベクトルＰ’（Ｔ＿ｉｎｔ’）を適応音源符号帳２０３からサブフレーム長ｍだけ切り出し、サブフレーム毎の適応音源ベクトルとして出力する。適応音源ベクトル生成部２０４において生成される適応音源ベクトルＰ’（Ｔ＿ｉｎｔ’）は、下記の式（７）で表される。

このように、本実施の形態によれば、サブフレーム単位で線形予測符号化を行うＣＥＬＰ音声符号化において、適応音源ベクトル量子化装置は、サブフレーム単位の線形予測係数および線形予測残差ベクトルを用いて、フレーム単位のターゲットベクトル、適応音源ベクトル、およびインパルス応答行列を構成しフレーム単位での適応音源ベクトル量子化を行う。このため、計算量の増加を抑えつつ、ピッチ周期探索の範囲を拡大し、適応音源ベクトル量子化精度さらにはＣＥＬＰ音声符号化品質を向上することができる。

なお、本実施の形態では、探索用インパルス応答行列生成部１０５は、上記の式（４）で表される探索用インパルス応答行列を求める場合を例にとって説明したが、本発明はこれに限定されず、下記の式（８）で表される探索用インパルス応答行列を求めても良く、さらには、上記の式（６）および式（８）を用いず、第１サブフレームおよび第２サブフレームの間での合成フィルタ１０４の遷移に応じて正確な探索用インパルス応答行列を求めても良い。ただし、正確な探索用インパルス応答行列を求める場合、計算量は増加する。

また、本実施の形態では、評価尺度算出部１０７は、フレーム長ｎの長さを持つ探索用ターゲットベクトルＸおよび探索用適応音源ベクトルＰ（Ｔ＿ｉｎｔ）、ｎ×ｎ行列である探索用インパルス応答行列Ｈ＿ｎｅｗを用いて上記の式（６）に従って評価尺度Ｄｉｓ
ｔ（Ｔ＿ｉｎｔ）を求める場合を例にとって説明したが、本発明はこれに限定されず、評価尺度算出部１０７は、ｍ≦ｒ＜ｎを満たす定数ｒを予め設定し、探索用ターゲットベクトルＸのｒ次までの要素、探索用適応音源ベクトルＰ（Ｔ＿ｉｎｔ）のｒ次までの要素、探索用インパルス応答行列Ｈ＿ｎｅｗのｒ×ｒまでの要素を抜き出して定数ｒの長さを持つ探索用ターゲットベクトルＸおよび探索用適応音源ベクトルＰ（Ｔ＿ｉｎｔ）、ｒ×ｒ行列である探索用インパルス応答行列Ｈ＿ｎｅｗを新たに構成し、評価尺度Ｄｉｓｔ（Ｔ＿ｉｎｔ）を求めても良い。

また、本実施の形態では、線形予測残差ベクトルを入力とし、適応音源符号帳を用いて線形予測残差ベクトルのピッチ周期を探索する場合を例にとって説明したが、本発明はこれに限定されず、音声信号そのものを入力とし、音声信号そのもののピッチ周期を直接探索しても良い。

また、本実施の形態では、ピッチ周期の候補として「３２」から「２８７」までの２５６通りを例にとって説明したが、本発明はこれに限定されず、他の範囲をピッチ周期の候補としても良い。

また、本実施の形態では、適応音源ベクトル量子化装置１００を含むＣＥＬＰ音声符号化装置において１つのフレームを２つのサブフレームに分割して各々のサブフレームに対し線形予測分析を行うことを前提として説明したが、本発明はこれに限定されず、ＣＥＬＰ方式の音声符号化装置において、１つのフレームを３つ以上のサブフレームに分割して各々のサブフレームに対し線形予測分析を行うことを前提としても良い。また、各サブフレームをさらに２つのサブサブフレームに分割して各々のサブサブフレームにおいて線形予測分析を行うことを前提として、本発明を適用することも可能である。具体的には、ＣＥＬＰ音声符号化装置において、１つのフレームを２つのサブフレームに分割し、更に各サブフレームを２つのサブサブフレームに分割し、各々のサブフレームに対し線形予測分析を行い線形予測係数および線形予測残差が求められた場合、適応音源ベクトル量子化装置１００においては、４つのサブサブフレームを用いて２つのサブフレームを構成し、また、２つのサブフレームを用いて１つのフレームを構成し、得られたフレームに対しピッチ周期探索を行えば良い。

本発明に係る適応音源ベクトル量子化装置および適応音源ベクトル逆量子化装置は、音声伝送を行う移動体通信システムにおける通信端末装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置を提供することができる。

なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係る適応音源ベクトル量子化方法および適応音源ベクトル逆量子化方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る適応音源ベクトル量子化装置および適応音源ベクトル逆量子化装置と同様の機能を実現することができる。

また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されても良いし、一部または全てを含むように１チップ化されても良い。

また、ここではＬＳＩとしたが、集積度の違いによって、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩ等と呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサ
で実現しても良い。ＬＳＩ製造後に、プログラム化することが可能なＦＰＧＡ（Fｉeld Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

さらに、半導体技術の進歩または派生する別技術により、ＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。

２００６年１２月１５日出願の特願２００６−３３８３４２の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

本発明に係る適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法は、音声符号化および音声復号等の用途に適用することができる。

本発明の一実施の形態に係る適応音源ベクトル量子化装置の主要な構成を示すブロック図本発明の一実施の形態に係る適応音源符号帳が備える駆動音源を示す図本発明の一実施の形態に係る適応音源ベクトル逆量子化装置の主要な構成を示すブロック図

Claims

ｎ長のフレームを複数のｍ長のサブフレームに分割して線形予測分析を行い（ｎ、ｍは整数、ｎはｍの整数倍）、ｍ長の線形予測残差ベクトルおよび線形予測係数を生成するＣＥＬＰ音声符号化に用いられる適応音源ベクトル量子化装置であって、
適応音源符号帳の中から、ｎ長の適応音源ベクトルを切り出す適応音源ベクトル生成手段と、
前記複数のサブフレームの前記線形予測残差ベクトルを加算してｎ長のターゲットベクトルを構成するターゲットベクトル構成手段と、
前記各サブフレームの前記線形予測係数を用いてｍ×ｍ行列のインパルス応答行列を生成する合成フィルタと、
前記複数のｍ×ｍ行列のインパルス応答行列を用いて、ｎ×ｎ行列のインパルス応答行列を構成するインパルス応答行列構成手段と、
前記ｎ長の適応音源ベクトルと、前記ｎ長のターゲットベクトルと、前記ｎ×ｎ行列のインパルス応答行列とを用いて、ピッチ周期の各候補に対し、適応音源ベクトル量子化の評価尺度を算出する評価尺度算出手段と、
前記ピッチ周期の各候補に対応する評価尺度を比較し、前記評価尺度を最大とするピッチ周期を量子化結果として求める評価尺度比較手段と、
を具備する適応音源ベクトル量子化装置。
請求項１記載の適応音源ベクトル量子化装置を具備するＣＥＬＰ音声符号化装置。
請求項２記載のＣＥＬＰ音声符号化装置から出力された符号化情報を復号するＣＥＬＰ音声復号に用いられる適応音源ベクトル逆量子化装置であって、
前記ＣＥＬＰ音声符号化装置において前記フレーム単位の適応音源ベクトル量子化を行い得られた、前記ピッチ周期を記憶する記憶手段と、
前記適応音源符号帳と、
前記各サブフレームにおいて、前記ピッチ周期を切り出し位置として用い、前記適応音源符号帳の中から前記ＣＥＬＰ音声符号化装置で用いたサブフレーム長であるｍ長の適応音源ベクトルを切り出す適応音源ベクトル生成手段と、
を具備する適応音源ベクトル逆量子化装置。
請求項３記載の適応音源ベクトル逆量子化装置を具備するＣＥＬＰ音声復号装置。
ｎ長のフレームを複数のｍ長のサブフレームに分割して線形予測分析を行い（ｎ、ｍは整数、ｎはｍの整数倍）、ｍ長の線形予測残差ベクトルおよび線形予測係数を生成するＣＥＬＰ音声符号化に用いられる適応音源ベクトル量子化方法であって、
適応音源符号帳の中から、ｎ長の適応音源ベクトルを切り出すステップと、
前記複数のサブフレームの前記線形予測残差ベクトルを加算してｎ長のターゲットベクトルを構成するステップと、
前記各サブフレームの前記線形予測係数を用いてｍ×ｍ行列のインパルス応答行列を生成するステップと、
前記複数のｍ×ｍ行列のインパルス応答行列を用いて、ｎ×ｎ行列のインパルス応答行列を構成するステップと、
前記ｎ長の適応音源ベクトルと、前記ｎ長のターゲットベクトルと、前記ｎ×ｎ行列のインパルス応答行列とを用いて、ピッチ周期の各候補に対し、適応音源ベクトル量子化の評価尺度を算出するステップと、
前記ピッチ周期の各候補に対応する評価尺度を比較し、前記評価尺度を最大とするピッチ周期を量子化結果として求めるステップと、
を有する適応音源ベクトル量子化方法。