JP2005062410A

JP2005062410A - 音声信号の符号化方法

Info

Publication number: JP2005062410A
Application number: JP2003291546A
Authority: JP
Inventors: Naka Omuro; 仲大室; Takeshi Mori; 岳至森; Yuusuke Hiwazaki; 祐介日和▲崎▼; Sachiko Kurihara; 祥子栗原; Akitoshi Kataoka; 章俊片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-08-11
Filing date: 2003-08-11
Publication date: 2005-03-10

Abstract

【課題】サンプルずれが生じず、遅延が少ない音声信号の符号化方法を提供する。
【解決手段】入力信号に分析窓を掛けて線形予測パラメータを生成し、適応符号ベクトルと固定符号ベクトルとこれらに乗ずる重みから駆動音源ベクトルを作成し、パラメータから聴覚重み付けフィルタ係数と聴覚重み付け合成フィルタ係数を生成し、駆動音源ベクトルを合成フィルタで合成した信号と聴覚重み付けフィルタを介した入力信号の歪みを計算し、最適な適応符号と固定符号と重み符号を検索する符号化方法において、フレーム処理以外の音声信号の先読み処理を行わないで、適応符号ベクトルと固定符号ベクトルを生成する過程において入力フレームと符号化処理フレームの区間を一致させ、線形予測分析の分析窓には、左右非対称の分析窓を用い、聴覚重み付けフィルタをＦＩＲフィルタの形式で表現した際に、各聴覚重み付けフィルタ係数の値が１未満になるようにする。
【選択図】図３

Description

この発明は、音声、音楽などの音響信号（以下、総称して「音声信号」という。）の、スペクトル包絡特性を表すフィルタを音源ベクトルで駆動して音声信号を合成する予測符号化により、音声信号系列を聴覚的なノイズ感が少なく、少ない情報量でディジタル符号化する高能率音声符号化方法に関する。

音声または音楽信号をVoice over IP技術を利用して送信したり、音声または音楽蓄積サービスで記憶媒体を効率的に利用するために、高能率音声符号化方法が用いられる。現在、音声を高能率に符号化する方法として、原音声をフレームと呼ばれる５ms〜40ms程度の一定時間間隔の区間に分割し、その１フレームの音声を、周波数スペクトルの包絡特性を表す線形フィルタと、そのフィルタを駆動するための駆動音源信号との２つの情報に分離し、それぞれを符号化する手法が用いられている。このとき、１フレーム区間を、更に短い時間間隔のサブフレームに分けて符号化する場合もある。この手法において、駆動音源信号を符号化する方法として、音声のピッチ周波数（基本周波数）に対応すると考えられる周期成分と、それ以外の成分に分離して符号化する方法が知られている。この駆動音源情報の符号化法の例として、符号駆動線形予測符号化(Code-Excited Linear Prediction: CELP)がある。上記技術の詳細については、非特許文献１に記載されている。

また、CELP方式の改良で、駆動音源信号の生成方法として、高さが１のパルスを、フレーム内に数本、例えば、40サンプルのフレームまたはサブフレームに対して、４本、適当な位置に立てることによって、音声のピッチ周波数に対応する周期成分以外の固定符号ベクトルを生成するACELP方式や、隣接するサンプル位置に１対となる高さが異なる２本のパルス配置をすることによって、同じく固定符号ベクトルを生成するDual-Pulse CS-CELP方式が実用化されている。ACELPの詳細は、非特許文献２に、Dual-Pulse CS-CELP方式の詳細は、非特許文献３に記載されている。
M.R.Schroeder and B.S. Atal, "Code-Excited Linear Prediction(CELP): High Quality Speech at Very Low Bit Rates",IEEE Proc. ICASSP-85, pp.937-940,1985 R.Salami, C.Laflamme, and J-P. Adoul, "8-kbit/s ACELP Coding of Speech with 10ms Speech-Frame: a Candidate for CCITT Standardization", IEEE Proc. ICASSP-94, pp.II-97-100, 1994 H. Ohmuro, J.Ikeda, T.Moriya, A.Kataoka, S.Hayashi and K.Mano, "Dual-Pulse CS-CELP: A Toll-Quality Low-Complexity Speech Corder at 7.8kbit/s", IEEE Proc. ICASSP-96, pp.558-561, 1996

これらの方法は、一般に電話帯域と呼ばれる3.4kHz帯域でサンプリング周波数が８kHzの音声信号に適用した場合に、大きな効果を発揮する。より臨場感の高い通信を行うためには、例えば周波数帯域が７kHzでサンプリング周波数が16kHzの広帯域音声を符号化して送信することが望ましいが、そのまま適用しても、演算量が多くなるわりに十分な性能を発揮できないことが多い。
この問題に対して、帯域を分割して符号化をする方法が知られており、図１に示すように、例えば、16kHzサンプリングの入力音声信号を、ＱＭＦフィルタなどの帯域分割フィルタ1-1を用いて、０〜４kHz帯域と４〜８kHz帯域に対応する、８kHzサンプリングの２つの信号に分割して、高域符号化部1-2と低域符号化部1-3を用いて符号化し、符号送出部1-4より伝送路または記憶媒体に出力する。この際、低域（０〜４kHz帯域）信号に前記の符号化方式を適用することができる。
帯域分割して符号化した信号を受信して復号する場合には、図２に示すように、伝送路または記憶媒体からの信号を符号受信部2-4で受信し、高域復号部2-2と低域復号部2-3により高域、低域それぞれ復号した後、帯域結合フィルタ2-1で２つの８kHzサンプリング信号を１つの16kHzサンプリング信号に戻して再生する。

図１および図２の構成で低域符号化部1-3および低域復号部2-3に前記CELP系方式を適用する場合に問題となるのは、遅延やサンプルずれである。一般にCELP系符号化では、入力信号の先読みと呼ばれる処理を行い、復号ではポストフィルタと呼ばれる波形整形のための後処理が用いられる。これらの処理によって、符号化、復号された音声信号は符号化ビットレートに比して良好な品質で再生されるが、高域と低域に分けて符号化を行い、高域と低域に異なる符号化方式を適用すると、高域と低域でサンプルずれが生じ、帯域結合フィルタ2-1で出力信号を生成しても、正しい信号波形が再現されないという問題が発生する。また、先読みは符号化処理遅延につながり、双方向で通話を行うと会話がしずらくなるという問題も発生する。

図２（ａ）は信号の周波数帯域は電話帯域であるが、より歪みの少ない再生信号を得るために、最初にベース符号化部1-10で入力信号の符号化を行い、ベース復号部1-20で符号化された入力信号を再生し、減算器からの再生信号と入力信号の差分信号をさらに拡張符号化部1-30で二段階に符号化する実施例である。このような構成は、一般にスケーラブル符号化と呼ばれる。信号を再生する場合には、図２（ｂ）に示すように、ベース復号部2-20と拡張復号化部2-30によりベース部分と拡張部分をそれぞれ復号した後、加算器2-10により加え合わせることによって、高品質な音声信号が再生される。ベース復号部出力のみを再生して拡張復号部出力を破棄しても、一定の品質は確保される。このような適用例でも、ベース符号化部と拡張符号化部に異なる符号化方式を用いる場合、遅延やサンプルずれは大きな支障となるうえ、そもそもこのような二段階符号化では、ベース復号後の信号にポストフィルタをかけることは、適切ではない。

入力信号を蓄積する入力バッファと、
入力信号に分析窓を掛けて線形予測分析を行い線形予測パラメータを出力する手段と、
線形予測パラメータをベクトル量子化して符号化する手段と、
過去のフレームの駆動音源ベクトルをコピーして適応符号ベクトルを生成する適応符号帳と、
隣接する２サンプル点に、あらかじめ蓄えられた対となるパルスパタンの内から１つを選択して配置して、固定符号ベクトルを生成する固定符号帳と、
適応符号ベクトルと固定符号ベクトルに乗ずる重みを生成する重み符号帳と、
適応符号ベクトルと、固定符号ベクトルと、重み符号帳より出力される重みから駆動音源ベクトルを作成する手段と、
線形予測パラメータから聴覚重み付けフィルタ係数を作成し、入力信号にかける聴覚重み付けフィルタ手段と、
聴覚重み付けフィルタ係数と量子化された線形予測パラメータから聴覚重み付け合成フィルタ係数を生成する手段と、
駆動音源ベクトルを聴覚重み付け合成フィルタで合成した信号と聴覚重み付けフィルタ手段により聴覚重み付けされた入力信号の歪みを計算する手段と、
最適な、適応符号と固定符号と重み符号を検索する符号帳検索制御部を具備し、
音声信号を符号系列で表現する音声符号化方法において、
フレーム処理以外の音声信号の先読み処理を行わないで、
前記適応符号ベクトルと固定符号ベクトルを生成する検索過程において入力フレームと符号化処理フレームの区間を一致させ、
前記線形予測分析の分析窓には、左右非対称の分析窓を用い、
前記聴覚重み付けフィルタをＦＩＲフィルタの形式で表現した際に、各聴覚重み付けフィルタ係数の値が１未満になるようにして、
復号器で再生される音声信号の聴覚的なノイズ感を低減することと、入力音声信号とのサンプルずれをおこさないことを両立する
音声の符号化方法を用いることによって、上記課題が解決される。
さらに、
サンプリング周波数が16kHz以上の音声信号を、帯域分割フィルタで複数の音声信号に分割し、
低域に相当する音声信号に上記音声符号化方法を適用し、
他の周波数域に相当する音声信号には、異なる方式の音声符号化方法を適用する、
ことによって、高品質で広帯域の音声符号化を実現することができる。
また、
入力音声信号に、上記音声符号化方法を適用した後、
上記音声符号化方法に対応する復号方法により生成された信号と、入力信号との差分信号に、異なる方式の音声符号化方法を適用することにより、
上記音声符号化方法による符号のみでも、
後段の異なる符号化方法による符号との組み合わせによっても、
音声を再生することが可能な、利便性の高いスケーラブル音声符号化方法を実現できる。

本発明では、符号化部での先読みなし、復号部でのポストフィルタもなしの条件で、ITU-T G.726(ADPCM)以上で、ITU-T G.711（μ-law PCM）の品質にも迫る符号化、復号方法を実現した。なお、本発明は、入力信号を帯域分割して低域信号の符号化に利用することを、ひとつの適用例としているが、単独でより遅延の少ない符号化方法として利用したり、異なる符号化方法と組み合わせて一体動作する一般的な符号化方法としての適用にも効果がある。

本発明は、コンピュータプログラムとして実行することが最良の形態であるが、ディジタルシグナルプロセッサ(DSP)上のソフトウェアとして実装したり、ＬＳＩなどハードウェア化して実現することも可能である。

図３に低域符号化部の構成例を示す。
帯域分割された音声信号の低域は、入力バッファ3-1に入力される。バッファは、フレーム長に相当する信号を一時的に蓄積して、以後の処理をベクトルとして処理するためのものである。ここでは一例として、フレーム長を10ミリ秒とする。
図４に、本発明における入力バッファの構成例を、図５に、一般的なCELP法における入力バッファの構成例を示す。
図５に示すように、通常は線形予測分析部3-2の分析精度を上げるために、先読みバッファを設け、入力フレームと実際の処理フレームの位置を変えるのが普通である。この場合、分析精度は上がるけれども、先読みバッファ長に相当する時間だけ、処理遅延が生じる。一方、本実施例での入力バッファは、図４に示すように、先読みバッファを設けず、入力バッファ（入力フレーム）と処理バッファ（処理フレーム）を同一にしている。しかし、線形予測分析窓長が短くなると分析精度が落ちるため、図４では過去の信号バッファを図５よりも長くとっている。
線形予測分析部3-2では、図４の線形予測分析位置に分析窓を掛けて線形予測分析を行う。一般に図５の構成の場合、左右対称のハミング窓を用いることが多いが、図４に左右対称のハミング窓を掛けると、線形予測分析で重みの大きい位置と、処理フレームの位置のずれが大きくなってしまい、分析精度が低下する。

図６に、本発明における線形予測分析窓の例を示す。
図６の窓の形状は、-160サンプル（位置）から40サンプル（位置）までは窓長400点のハミング窓の左半分を、41サンプルから80サンプルまでは窓長80点のハミング窓の右半分を適用した場合である。図６はフレーム長が10ミリ秒の場合の例であるが、フレーム長が10ミリ秒と異なる場合は、フレーム長に対応するサンプル数に合わせて、長短２つのハミング窓を作成して、半分ずつをつなぎ合わせればよい。また、図７のように、41サンプルから80サンプルまでは窓長160点のハミング窓の右半分（80点）を、さらに40点で打ち切ってつなぎ合わせるという窓でもよいし、ハミング窓ではなく、ハニング窓やその他一般に用いられる分析窓を同様に左右非対称にする方法をとってもよい。
聴覚重み付けフィルタ3-5は、線形予測分析部3-2の出力である。線形予測パラメータを使って、復号された音声の符号化ノイズ（量子化歪み）が聴覚的にマスクされるようなフィルタを作り、入力バッファ出力にかける。Ｎ次で線形予測分析を行ったときの線形予測係数をa₁,a₂,・・・,a_Nとすると、聴覚重みフィルタは、次のように設計できる。

ここで、γ₁ ，γ₂は聴覚重み付けパラメータで、
０≦γ₂＜γ₁≦１（２）
とする。具体的な数値例としては、例えば、γ₁ は0.9〜1.0、γ₂は0.6〜0.7程度、Ｎは10〜12程度を用いることができる。なお、γ₁ とγ₂の値の差が大きいほど聴覚重みは強くかかるが、あまり強くかけすぎると不自然な再生音になりやすい。γ₁ ＝γ₂の場合は、聴覚重みフィルタを用いないことと同じである。
また、式（１）は、ＦＩＲフィルタの形式で表現することができ、実用上は、有限タップ長のＦＩＲフィルタで近似して利用することができる。

本発明の目的は、２つ以上の異なる符号化方法を組み合わせて利用する際に、サンプルずれをおこさずに高品質な音声を再生することにあるが、サンプルずれが発生しないことを保証するためには、式（１）をＦＩＲフィルタの形式

で表現した際に、ｗ'_i ＜１，ｉ＝1,2,・・・,Mである必要がある。
線形予測パラメータ符号化部3-3は、線形予測分析部3-2の出力である線形予測パラメータを決められたビット数で量子化して符号化する。符号化方法は、例えば、線形予測係数あるいは線形予測係数を線スペクトル対(Line Spectral Pairs；LSP)と呼ばれる線形予測パラメータに変換し、多段ベクトル量子化を用いることができる。また、Ｎ次元ベクトルであるパラメータを、より小さい次元のベクトルに分割する、スプリットベクトル量子化法を用いることができる。一例として、Ｎ＝10で、量子化ビット数が30ビット／フレームの場合、多段ベクトル量子化の一段目を10次元のベクトル量子化で５ビットを割り当て、二段目を２次元ずつ５つのベクトルに分割し、それぞれ５ビットずつで符号化することができる。
線形予測パラメータは、フレーム間で相関が高いことが知られており、フレーム間相関を利用して高能率に符号化する方法を適用してもよい。フレーム間相関を利用して高能率に符号化する方法の詳細は、例えば、文献“大室，守谷，間野，三樹、「移動平均型フレーム間予測を用いるＬＳＰパラメータのベクトル量子化」、電子情報通信学会論文誌、Vol.J77-A, No.3, pp.303-313,1994”に記載されている。ただし、Voice over IPを利用して通信を行う場合には、フレーム間相関を利用して符号化すると、パケットロスが発生した場合に品質劣化が大きくなるため、フレーム間相関を利用しないほうが良い場合もある。

線形予測パラメータ復号部3-4は、線形予測パラメータの量子化値を得る。
合成フィルタ係数生成部3-6では、線形予測パラメータ復号部3-4の出力である量子化された線形予測パラメータと、線形予測分析部3-2の出力である量子化されていない線形予測パラメータから聴覚重み付けを考慮した合成フィルタ係数を計算する。量子化された線形予測係数をq_i，ｉ＝1,2,・・・,N、聴覚重み付けフィルタ係数が式（１）で表現されているとすると、聴覚重み付けを考慮した合成フィルタは、

で表すことができる、式（４）は、ＦＩＲフィルタの形式で表現することができる。

このとき、ＦＩＲフィルタのタップ長Ｌは、無限に必要であるが、後述のように、駆動音源ベクトルを探索する際の合成フィルタとして利用する際には、フレーム長またはサブフレーム長に対応する駆動音源ベクトル長だけあればよい。なお、聴覚重み付けとして有限タップ長のＦＩＲフィルタで近似した式（３）を用いる場合の聴覚重み付けを考慮した合成フィルタは、

となり、やはり同じくＦＩＲフィルタの形式で表現することができる。

図８に、駆動音源生成部3-7の構成例を示す。
図８のように、駆動音源生成部は、適応符号帳8-1、固定符号帳8-2、重み符号帳8-3を有し、駆動音源符号により示される各符号によって以下のように動作する。

図９は、適応符号帳8-1の動作イメージである。ここでは、フレームを５つのサブフレームに分割して、駆動音源ベクトルはサブフレーム単位で符号化する例を示す。例えば、サンプリングレートが８kHzの場合、フレームを10msとすると、フレームのサンプル数は80点、サブフレームのサンプル数は16点である。なお、サブフレーム数が４のときは20点、サブフレーム数が２のときは40点である。適応符号帳は過去の駆動音源ベクトルのバッファを有し、ピッチ長に対応する時間だけ過去の位置から、駆動音源波形を現在のサブフレームにコピーする。サブフレーム長がピッチ長よりも短い場合は、単純にコピーするだけでよい。ピッチ長が非整数サンプル値の場合は、アップサンプリングをしてコピーをする。サブフレーム長がピッチ長よりも長い場合は、ピッチ長の波形を繰り返して並べる必要がある。

図１０に、固定符号帳8-2の動作例を示す。
図１０は、サブフレーム長が16点で、ピッチ長よりも短い場合の例である。16点のサンプル位置を、図のように例えば２つのチャネル（グループ）に分け、チャネル１から１箇所、チャネル２から１箇所の隣接するサンプル点の組を選び、パルス形状Ａ〜Ｄのうちの１つを、選んだサンプル点に配置する。チャネル１とチャネル２に配置するパルス形状は、それぞれ別のものであってもよい。それぞれのチャネルの正負の符号を乗じた後、加算されて固定符号ベクトルとなる。なお、パルス形状Ａ〜Ｄの具体的な数値例を挙げると、
Ａ：｛ 0.9701425, -0.2425356｝
Ｂ：｛-0.2425356, 0.9701425｝
Ｃ：｛ 0.7071068, 0.7071068｝
Ｄ：｛ 0.7071068, -0.7071068｝
が利用できる。上記例は小数点以下７桁まで記載しているが、実用上は小数点以下１〜３
桁程度で十分である。サブフレーム長が16点より長い場合は、チャネル１，２のサンプル位置を同様の規則で延長してもよいし、チャネル数を３以上に増やしてもよい。なお、上記パルス形状Ａ〜Ｄはいずれもパワーが１になるように正規化されている。最適なパルス形状と配置するサンプル位置を探索する過程において、処理量を削減するために予備選択と呼ばれる方法で探索範囲を制限する手法を用いる場合には、パルス形状のパワーは正規化されているほうがよい品質が得られる。予備選択手法を利用しない場合には、実際の音声波形の分析（これを学習という）によって最適なパルス形状を求め、パワーを正規化しないほうが、理論的には最適となる。

重み符号帳8-3からは、適応符号ベクトル、固定符号ベクトルそれぞれに乗算される重みが出力される。このとき、適応符号ベクトルに乗ずる重みと、固定符号ベクトルに乗ずる重みには一定の相関があることから、両重みを２次元のベクトルとみなしたベクトル量子化の手法を利用することによって、符号化能率を上げることができる。
合成フィルタ3-8では、駆動音源ベクトルを聴覚重み付け合成フィルタに通した信号を生成し、歪み計算部3-9において、聴覚重み付けフィルタ3-5からの出力信号をもとに入力音声に聴覚重み付けされた信号との歪みが計算される。

符号帳検索制御部3-10では、歪み計算部3-9で計算された歪みが最小となるような駆動音源符号が検索される。最適な駆動音源符号を検索する際に、すべての組み合わせの中から最適な符号を選択することが望ましいが、実際には処理量の観点から、適応符号帳、固定符号帳、重み符号帳の順に最適な符号を順に検索することが多い。さらに、各符号帳の検索の際にも、処理量を削減する目的で、予備選択や選択範囲の限定などの手法が用いられる。例えば、適応符号帳の検索の際には、入力信号をピッチ分析して得られたピッチ周期の周辺のみを検索したり、固定符号帳の検索の際には、チャネル毎にパルス形状と配置位置の候補を最初に絞った後に、チャネル１，２を組み合わせた際の最適な各パルス形状と配置位置を一組に決定したり、重み符号帳の検索では、適応符号ベクトルに乗ずる重みが大きいときは固定符号ベクトルに乗ずる重みも大きく、逆に適応符号ベクトルに乗ずる重みが小さいときは、固定符号ベクトルに乗ずる重みも小さい傾向にあることから、まず固定符号ベクトルがないものとして適応符号ベクトルに乗ずる重みのあたりをつけ、適応符号ベクトルに乗ずる重みがその近傍である重みベクトルの範囲で最終的に検索するなどして、探索範囲を限定することが多い。これらの探索範囲の限定は、音声信号の性質を利用しており、探索範囲の限定によって増加する歪みはほとんどないか、わずかである。
次にマルチプレクサ3-11では、線形予測パラメータ符号と駆動音源信号を対応させて出力する。

本実施例に基づいて、実際に音声符号化装置、復号装置を設計し、音声品質を試験した。諸元を表１に、５段階評価による主観評価試験結果を表２に示す。

この結果、15.5kbit／sで設計した本発明による再生音声の品質は、ITU-T G.726方式よりも高く、ITU-T G.711にもせまる品質が実現されていることが確認された。

従来の帯域分割による符号化装置の構成例及び帯域分割による符号化に対応する復号装置の構成例を示す図。従来の二段構成のスケーラブル符号化装置の構成例及び二段構成のスケーラブル符号化に対する復号装置の構成例を示す図。本発明の低域符号化部の構成例を示す図。本発明における入力バッファ例を示す図。一般的なＣＥＬＰ法における入力バッファ例を示す図。本発明における線形予測分析窓の例１を示す図。本発明における線形予測分析窓の例２を示す図。本発明における駆動音源生成部の構成例を示す図。適応符号帳の動作例を示す図。固定符号帳の動作例を示す図。

符号の説明

3-1・・・入力バッファ、3-2・・・線形予測分析部、3-3・・・線形予測パラメータ符号化部、3-4・・・線形予測パラメータ復号部、3-5・・・聴覚重み付けフィルタ、3-6・・・合成フィルタ係数生成部、3-7・・・駆動音源生成部、3-8・・・合成フィルタ、3-9・・・歪み計算部、3-10・・・符号帳検索制御部、3-11・・・マルチプレクサ

Claims

入力信号を蓄積するバッファと、
入力信号に分析窓を掛けて線形予測分析を行い線形予測パラメータを出力する手段と、
線形予測パラメータをベクトル量子化して符号化する手段と、
過去のフレームの駆動音源ベクトルをコピーして適応符号ベクトルを生成する適応符号帳と、
隣接する２サンプル点に、あらかじめ蓄積された対となるパルスパタンのうちから１つを選択して配置して、固定符号ベクトルを生成する固定符号帳と、
適応符号ベクトルと固定符号ベクトルに乗ずる重みを生成する符号帳と、
適応符号ベクトルと、固定符号ベクトルと、重み符号帳より出力される重みから駆動音源ベクトルを作成する手段と、
線形予測パラメータから聴覚重み付けフィルタ係数を作成し、入力信号にかける聴覚重み付けフィルタ手段と、
聴覚重み付けフィルタ係数と量子化された線形予測パラメータから聴覚重み付け合成フィルタ係数を生成する手段と、
駆動音源ベクトルを聴覚重み付け合成フィルタで合成した信号と聴覚重み付けフィルタ手段で聴覚重み付けされた入力信号の歪みを計算する手段と、
最適な、適応符号と固定符号と重み符号を検索する符号帳検索制御部を具備し、
音声信号を符号系列で符号化する音声信号の符号化方法において、
フレーム処理以外の音声信号の先読み処理を行わないで、
前記適応符号ベクトルと固定符号ベクトルを生成する過程において入力フレームと符号化処理フレームの区間を一致させ、
前記線形予測分析の分析窓には、左右非対称の分析窓を用い、
前記聴覚重み付けフィルタをＦＩＲフィルタの形式で表現した際に、各聴覚重み付けフィルタ係数の値が１未満になるようにして、
復号器で再生される音声信号の聴覚的なノイズ感を低減することと、入力音声信号とのサンプルずれをおこさないことを両立する、
ことを特徴とする、音声信号の符号化方法。
16kHz以上のサンプリング周波数でサンプリングした音声信号を、帯域分割フィルタで複数の音声信号に分割し、
低域に相当する音声信号に請求項１に記載の音声信号の符号化方法を適用し、
他の周波数域に相当する音声信号には、請求項１に記載の音声信号の符号化方法とは異なる方式の音声の符号化方法を適用する、
ことを特徴とする、帯域分割音声信号の符号化方法。
入力音声信号に、請求項１に記載の音声信号の符号化方法を適用した後、
請求項１に記載の音声信号の符号化方法に対応する復号方法により生成された信号と、入力信号との差分信号に、請求項１に記載の音声信号の符号化方法とは異なる方式の音声符号化方法を適用して、
請求項１に記載の音声信号の符号化方法による符号のみでも、
請求項１に記載の音声信号の符号化方法による符号と、後段の異なる符号化方法による符号の組み合わせによっても、
音声を再生することが可能なスケーラブル音声信号の符号化方法。
フレーム長が１０ミリ秒、サブフレーム長が２ミリ秒であり、
線形予測分析をする際の非対称窓は、長さの異なる２つのハミング窓をそれぞれ半分に切ってつなぎ合わせた形状とし、
固定符号ベクトルを生成するためのパルスパタンは、長さと極性の異なる２本のパルスの組からなるパタンと、長さと極性が同一の２本のパルスの組からなるパタンと、長さが同一で極性の異なる２本のパルスの組からなるパタンから構成され、
各パルスパタンのパワーが同一になるように正規化されている、
ことを特徴とする請求項１乃至３のいずれか１項に記載の音声信号の符号化方法。