JP2005062410A - 音声信号の符号化方法 - Google Patents
音声信号の符号化方法 Download PDFInfo
- Publication number
- JP2005062410A JP2005062410A JP2003291546A JP2003291546A JP2005062410A JP 2005062410 A JP2005062410 A JP 2005062410A JP 2003291546 A JP2003291546 A JP 2003291546A JP 2003291546 A JP2003291546 A JP 2003291546A JP 2005062410 A JP2005062410 A JP 2005062410A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- audio signal
- vector
- encoding
- encoding method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【解決手段】入力信号に分析窓を掛けて線形予測パラメータを生成し、適応符号ベクトルと固定符号ベクトルとこれらに乗ずる重みから駆動音源ベクトルを作成し、パラメータから聴覚重み付けフィルタ係数と聴覚重み付け合成フィルタ係数を生成し、駆動音源ベクトルを合成フィルタで合成した信号と聴覚重み付けフィルタを介した入力信号の歪みを計算し、最適な適応符号と固定符号と重み符号を検索する符号化方法において、フレーム処理以外の音声信号の先読み処理を行わないで、適応符号ベクトルと固定符号ベクトルを生成する過程において入力フレームと符号化処理フレームの区間を一致させ、線形予測分析の分析窓には、左右非対称の分析窓を用い、聴覚重み付けフィルタをFIRフィルタの形式で表現した際に、各聴覚重み付けフィルタ係数の値が1未満になるようにする。
【選択図】図3
Description
M.R.Schroeder and B.S. Atal, "Code-Excited Linear Prediction(CELP): High Quality Speech at Very Low Bit Rates",IEEE Proc. ICASSP-85, pp.937-940,1985 R.Salami, C.Laflamme, and J-P. Adoul, "8-kbit/s ACELP Coding of Speech with 10ms Speech-Frame: a Candidate for CCITT Standardization", IEEE Proc. ICASSP-94, pp.II-97-100, 1994 H. Ohmuro, J.Ikeda, T.Moriya, A.Kataoka, S.Hayashi and K.Mano, "Dual-Pulse CS-CELP: A Toll-Quality Low-Complexity Speech Corder at 7.8kbit/s", IEEE Proc. ICASSP-96, pp.558-561, 1996
この問題に対して、帯域を分割して符号化をする方法が知られており、図1に示すように、例えば、16kHzサンプリングの入力音声信号を、QMFフィルタなどの帯域分割フィルタ1-1を用いて、0〜4kHz帯域と4〜8kHz帯域に対応する、8kHzサンプリングの2つの信号に分割して、高域符号化部1-2と低域符号化部1-3を用いて符号化し、符号送出部1-4より伝送路または記憶媒体に出力する。この際、低域(0〜4kHz帯域)信号に前記の符号化方式を適用することができる。
帯域分割して符号化した信号を受信して復号する場合には、図2に示すように、伝送路または記憶媒体からの信号を符号受信部2-4で受信し、高域復号部2-2と低域復号部2-3により高域、低域それぞれ復号した後、帯域結合フィルタ2-1で2つの8kHzサンプリング信号を1つの16kHzサンプリング信号に戻して再生する。
入力信号に分析窓を掛けて線形予測分析を行い線形予測パラメータを出力する手段と、
線形予測パラメータをベクトル量子化して符号化する手段と、
過去のフレームの駆動音源ベクトルをコピーして適応符号ベクトルを生成する適応符号帳と、
隣接する2サンプル点に、あらかじめ蓄えられた対となるパルスパタンの内から1つを選択して配置して、固定符号ベクトルを生成する固定符号帳と、
適応符号ベクトルと固定符号ベクトルに乗ずる重みを生成する重み符号帳と、
適応符号ベクトルと、固定符号ベクトルと、重み符号帳より出力される重みから駆動音源ベクトルを作成する手段と、
線形予測パラメータから聴覚重み付けフィルタ係数を作成し、入力信号にかける聴覚重み付けフィルタ手段と、
聴覚重み付けフィルタ係数と量子化された線形予測パラメータから聴覚重み付け合成フィルタ係数を生成する手段と、
駆動音源ベクトルを聴覚重み付け合成フィルタで合成した信号と聴覚重み付けフィルタ手段により聴覚重み付けされた入力信号の歪みを計算する手段と、
最適な、適応符号と固定符号と重み符号を検索する符号帳検索制御部を具備し、
音声信号を符号系列で表現する音声符号化方法において、
フレーム処理以外の音声信号の先読み処理を行わないで、
前記適応符号ベクトルと固定符号ベクトルを生成する検索過程において入力フレームと符号化処理フレームの区間を一致させ、
前記線形予測分析の分析窓には、左右非対称の分析窓を用い、
前記聴覚重み付けフィルタをFIRフィルタの形式で表現した際に、各聴覚重み付けフィルタ係数の値が1未満になるようにして、
復号器で再生される音声信号の聴覚的なノイズ感を低減することと、入力音声信号とのサンプルずれをおこさないことを両立する
音声の符号化方法を用いることによって、上記課題が解決される。
さらに、
サンプリング周波数が16kHz以上の音声信号を、帯域分割フィルタで複数の音声信号に分割し、
低域に相当する音声信号に上記音声符号化方法を適用し、
他の周波数域に相当する音声信号には、異なる方式の音声符号化方法を適用する、
ことによって、高品質で広帯域の音声符号化を実現することができる。
また、
入力音声信号に、上記音声符号化方法を適用した後、
上記音声符号化方法に対応する復号方法により生成された信号と、入力信号との差分信号に、異なる方式の音声符号化方法を適用することにより、
上記音声符号化方法による符号のみでも、
後段の異なる符号化方法による符号との組み合わせによっても、
音声を再生することが可能な、利便性の高いスケーラブル音声符号化方法を実現できる。
帯域分割された音声信号の低域は、入力バッファ3-1に入力される。バッファは、フレーム長に相当する信号を一時的に蓄積して、以後の処理をベクトルとして処理するためのものである。ここでは一例として、フレーム長を10ミリ秒とする。
図4に、本発明における入力バッファの構成例を、図5に、一般的なCELP法における入力バッファの構成例を示す。
図5に示すように、通常は線形予測分析部3-2の分析精度を上げるために、先読みバッファを設け、入力フレームと実際の処理フレームの位置を変えるのが普通である。この場合、分析精度は上がるけれども、先読みバッファ長に相当する時間だけ、処理遅延が生じる。一方、本実施例での入力バッファは、図4に示すように、先読みバッファを設けず、入力バッファ(入力フレーム)と処理バッファ(処理フレーム)を同一にしている。しかし、線形予測分析窓長が短くなると分析精度が落ちるため、図4では過去の信号バッファを図5よりも長くとっている。
線形予測分析部3-2では、図4の線形予測分析位置に分析窓を掛けて線形予測分析を行う。一般に図5の構成の場合、左右対称のハミング窓を用いることが多いが、図4に左右対称のハミング窓を掛けると、線形予測分析で重みの大きい位置と、処理フレームの位置のずれが大きくなってしまい、分析精度が低下する。
図6の窓の形状は、-160サンプル(位置)から40サンプル(位置)までは窓長400点のハミング窓の左半分を、41サンプルから80サンプルまでは窓長80点のハミング窓の右半分を適用した場合である。図6はフレーム長が10ミリ秒の場合の例であるが、フレーム長が10ミリ秒と異なる場合は、フレーム長に対応するサンプル数に合わせて、長短2つのハミング窓を作成して、半分ずつをつなぎ合わせればよい。また、図7のように、41サンプルから80サンプルまでは窓長160点のハミング窓の右半分(80点)を、さらに40点で打ち切ってつなぎ合わせるという窓でもよいし、ハミング窓ではなく、ハニング窓やその他一般に用いられる分析窓を同様に左右非対称にする方法をとってもよい。
聴覚重み付けフィルタ3-5は、線形予測分析部3-2の出力である。線形予測パラメータを使って、復号された音声の符号化ノイズ(量子化歪み)が聴覚的にマスクされるようなフィルタを作り、入力バッファ出力にかける。N次で線形予測分析を行ったときの線形予測係数をa1,a2,・・・,aNとすると、聴覚重みフィルタは、次のように設計できる。
0≦γ2<γ1≦1 (2)
とする。具体的な数値例としては、例えば、γ1 は0.9〜1.0、γ2 は0.6〜0.7程度、Nは10〜12程度を用いることができる。なお、γ1 とγ2 の値の差が大きいほど聴覚重みは強くかかるが、あまり強くかけすぎると不自然な再生音になりやすい。γ1 =γ2 の場合は、聴覚重みフィルタを用いないことと同じである。
また、式(1)は、FIRフィルタの形式で表現することができ、実用上は、有限タップ長のFIRフィルタで近似して利用することができる。
線形予測パラメータ符号化部3-3は、線形予測分析部3-2の出力である線形予測パラメータを決められたビット数で量子化して符号化する。符号化方法は、例えば、線形予測係数あるいは線形予測係数を線スペクトル対(Line Spectral Pairs;LSP)と呼ばれる線形予測パラメータに変換し、多段ベクトル量子化を用いることができる。また、N次元ベクトルであるパラメータを、より小さい次元のベクトルに分割する、スプリットベクトル量子化法を用いることができる。一例として、N=10で、量子化ビット数が30ビット/フレームの場合、多段ベクトル量子化の一段目を10次元のベクトル量子化で5ビットを割り当て、二段目を2次元ずつ5つのベクトルに分割し、それぞれ5ビットずつで符号化することができる。
線形予測パラメータは、フレーム間で相関が高いことが知られており、フレーム間相関を利用して高能率に符号化する方法を適用してもよい。フレーム間相関を利用して高能率に符号化する方法の詳細は、例えば、文献“大室,守谷,間野,三樹、「移動平均型フレーム間予測を用いるLSPパラメータのベクトル量子化」、電子情報通信学会論文誌、Vol.J77-A, No.3, pp.303-313,1994”に記載されている。ただし、Voice over IPを利用して通信を行う場合には、フレーム間相関を利用して符号化すると、パケットロスが発生した場合に品質劣化が大きくなるため、フレーム間相関を利用しないほうが良い場合もある。
合成フィルタ係数生成部3-6では、線形予測パラメータ復号部3-4の出力である量子化された線形予測パラメータと、線形予測分析部3-2の出力である量子化されていない線形予測パラメータから聴覚重み付けを考慮した合成フィルタ係数を計算する。量子化された線形予測係数をqi,i=1,2,・・・,N、聴覚重み付けフィルタ係数が式(1)で表現されているとすると、聴覚重み付けを考慮した合成フィルタは、
図8のように、駆動音源生成部は、適応符号帳8-1、固定符号帳8-2、重み符号帳8-3を有し、駆動音源符号により示される各符号によって以下のように動作する。
図10は、サブフレーム長が16点で、ピッチ長よりも短い場合の例である。16点のサンプル位置を、図のように例えば2つのチャネル(グループ)に分け、チャネル1から1箇所、チャネル2から1箇所の隣接するサンプル点の組を選び、パルス形状A〜Dのうちの1つを、選んだサンプル点に配置する。チャネル1とチャネル2に配置するパルス形状は、それぞれ別のものであってもよい。それぞれのチャネルの正負の符号を乗じた後、加算されて固定符号ベクトルとなる。なお、パルス形状A〜Dの具体的な数値例を挙げると、
A:{ 0.9701425, -0.2425356}
B:{-0.2425356, 0.9701425}
C:{ 0.7071068, 0.7071068}
D:{ 0.7071068, -0.7071068}
が利用できる。上記例は小数点以下7桁まで記載しているが、実用上は小数点以下1〜3
桁程度で十分である。サブフレーム長が16点より長い場合は、チャネル1,2のサンプル位置を同様の規則で延長してもよいし、チャネル数を3以上に増やしてもよい。なお、上記パルス形状A〜Dはいずれもパワーが1になるように正規化されている。最適なパルス形状と配置するサンプル位置を探索する過程において、処理量を削減するために予備選択と呼ばれる方法で探索範囲を制限する手法を用いる場合には、パルス形状のパワーは正規化されているほうがよい品質が得られる。予備選択手法を利用しない場合には、実際の音声波形の分析(これを学習という)によって最適なパルス形状を求め、パワーを正規化しないほうが、理論的には最適となる。
合成フィルタ3-8では、駆動音源ベクトルを聴覚重み付け合成フィルタに通した信号を生成し、歪み計算部3-9において、聴覚重み付けフィルタ3-5からの出力信号をもとに入力音声に聴覚重み付けされた信号との歪みが計算される。
次にマルチプレクサ3-11では、線形予測パラメータ符号と駆動音源信号を対応させて出力する。
Claims (4)
- 入力信号を蓄積するバッファと、
入力信号に分析窓を掛けて線形予測分析を行い線形予測パラメータを出力する手段と、
線形予測パラメータをベクトル量子化して符号化する手段と、
過去のフレームの駆動音源ベクトルをコピーして適応符号ベクトルを生成する適応符号帳と、
隣接する2サンプル点に、あらかじめ蓄積された対となるパルスパタンのうちから1つを選択して配置して、固定符号ベクトルを生成する固定符号帳と、
適応符号ベクトルと固定符号ベクトルに乗ずる重みを生成する符号帳と、
適応符号ベクトルと、固定符号ベクトルと、重み符号帳より出力される重みから駆動音源ベクトルを作成する手段と、
線形予測パラメータから聴覚重み付けフィルタ係数を作成し、入力信号にかける聴覚重み付けフィルタ手段と、
聴覚重み付けフィルタ係数と量子化された線形予測パラメータから聴覚重み付け合成フィルタ係数を生成する手段と、
駆動音源ベクトルを聴覚重み付け合成フィルタで合成した信号と聴覚重み付けフィルタ手段で聴覚重み付けされた入力信号の歪みを計算する手段と、
最適な、適応符号と固定符号と重み符号を検索する符号帳検索制御部を具備し、
音声信号を符号系列で符号化する音声信号の符号化方法において、
フレーム処理以外の音声信号の先読み処理を行わないで、
前記適応符号ベクトルと固定符号ベクトルを生成する過程において入力フレームと符号化処理フレームの区間を一致させ、
前記線形予測分析の分析窓には、左右非対称の分析窓を用い、
前記聴覚重み付けフィルタをFIRフィルタの形式で表現した際に、各聴覚重み付けフィルタ係数の値が1未満になるようにして、
復号器で再生される音声信号の聴覚的なノイズ感を低減することと、入力音声信号とのサンプルずれをおこさないことを両立する、
ことを特徴とする、音声信号の符号化方法。 - 16kHz以上のサンプリング周波数でサンプリングした音声信号を、帯域分割フィルタで複数の音声信号に分割し、
低域に相当する音声信号に請求項1に記載の音声信号の符号化方法を適用し、
他の周波数域に相当する音声信号には、請求項1に記載の音声信号の符号化方法とは異なる方式の音声の符号化方法を適用する、
ことを特徴とする、帯域分割音声信号の符号化方法。 - 入力音声信号に、請求項1に記載の音声信号の符号化方法を適用した後、
請求項1に記載の音声信号の符号化方法に対応する復号方法により生成された信号と、入力信号との差分信号に、請求項1に記載の音声信号の符号化方法とは異なる方式の音声符号化方法を適用して、
請求項1に記載の音声信号の符号化方法による符号のみでも、
請求項1に記載の音声信号の符号化方法による符号と、後段の異なる符号化方法による符号の組み合わせによっても、
音声を再生することが可能なスケーラブル音声信号の符号化方法。 - フレーム長が10ミリ秒、サブフレーム長が2ミリ秒であり、
線形予測分析をする際の非対称窓は、長さの異なる2つのハミング窓をそれぞれ半分に切ってつなぎ合わせた形状とし、
固定符号ベクトルを生成するためのパルスパタンは、長さと極性の異なる2本のパルスの組からなるパタンと、長さと極性が同一の2本のパルスの組からなるパタンと、長さが同一で極性の異なる2本のパルスの組からなるパタンから構成され、
各パルスパタンのパワーが同一になるように正規化されている、
ことを特徴とする請求項1乃至3のいずれか1項に記載の音声信号の符号化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003291546A JP2005062410A (ja) | 2003-08-11 | 2003-08-11 | 音声信号の符号化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003291546A JP2005062410A (ja) | 2003-08-11 | 2003-08-11 | 音声信号の符号化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005062410A true JP2005062410A (ja) | 2005-03-10 |
Family
ID=34369199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003291546A Pending JP2005062410A (ja) | 2003-08-11 | 2003-08-11 | 音声信号の符号化方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005062410A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007037361A1 (ja) * | 2005-09-30 | 2007-04-05 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置および音声符号化方法 |
WO2010103854A3 (ja) * | 2009-03-13 | 2011-03-03 | パナソニック株式会社 | 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法 |
-
2003
- 2003-08-11 JP JP2003291546A patent/JP2005062410A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007037361A1 (ja) * | 2005-09-30 | 2007-04-05 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置および音声符号化方法 |
US8396717B2 (en) | 2005-09-30 | 2013-03-12 | Panasonic Corporation | Speech encoding apparatus and speech encoding method |
WO2010103854A3 (ja) * | 2009-03-13 | 2011-03-03 | パナソニック株式会社 | 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113223540B (zh) | 在声音信号编码器和解码器中使用的方法、设备和存储器 | |
US9972325B2 (en) | System and method for mixed codebook excitation for speech coding | |
CN101180676A (zh) | 用于谱包络表示的向量量化的方法和设备 | |
JPH0353300A (ja) | 音声符号化装置 | |
WO2001020595A1 (en) | Voice encoder/decoder | |
JP4008607B2 (ja) | 音声符号化/復号化方法 | |
JP3582589B2 (ja) | 音声符号化装置及び音声復号化装置 | |
JP3558031B2 (ja) | 音声復号化装置 | |
JP3531780B2 (ja) | 音声符号化方法および復号化方法 | |
JP3353852B2 (ja) | 音声の符号化方法 | |
JP3583945B2 (ja) | 音声符号化方法 | |
JP2005062410A (ja) | 音声信号の符号化方法 | |
KR100554164B1 (ko) | 서로 다른 celp 방식의 음성 코덱 간의 상호부호화장치 및 그 방법 | |
JP2004348120A (ja) | 音声符号化装置、音声復号化装置及びこれらの方法 | |
JP2002073097A (ja) | Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法 | |
JP2001142499A (ja) | 音声符号化装置ならびに音声復号化装置 | |
JP2002221998A (ja) | 音響パラメータ符号化、復号化方法、装置及びプログラム、音声符号化、復号化方法、装置及びプログラム | |
JP3468862B2 (ja) | 音声符号化装置 | |
JP3024467B2 (ja) | 音声符号化装置 | |
JP3192051B2 (ja) | 音声符号化装置 | |
JP4007730B2 (ja) | 音声符号化装置、音声符号化方法および音声符号化アルゴリズムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3199128B2 (ja) | 音声の符号化方法 | |
JPH02160300A (ja) | 音声符号化方式 | |
JP3144244B2 (ja) | 音声符号化装置 | |
JPH10232697A (ja) | 音声符号化方法および復号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050719 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20050719 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080229 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080304 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080701 |