JP4005359B2 - 音声符号化及び音声復号化装置 - Google Patents
音声符号化及び音声復号化装置 Download PDFInfo
- Publication number
- JP4005359B2 JP4005359B2 JP2001524094A JP2001524094A JP4005359B2 JP 4005359 B2 JP4005359 B2 JP 4005359B2 JP 2001524094 A JP2001524094 A JP 2001524094A JP 2001524094 A JP2001524094 A JP 2001524094A JP 4005359 B2 JP4005359 B2 JP 4005359B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- codebook
- pulse
- pitch lag
- algebraic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
- G10L19/107—Sparse pulse excitation, e.g. by using algebraic codebook
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0007—Codebook element generation
- G10L2019/0008—Algebraic codebooks
Description
本発明は4kbit/s以下の低ビットレートで音声を符号化/復号化する音声符号化及び音声復号化装置に係わり、特に、A−b−S(Analysis−by−Synthesis)型ベクトル量子化を用いて低ビットレートで音声を符号化/復号化する音声符号化及び音声復号化装置に関する。CELP(Code Excited Linear Predictive Coding:符号駆動線形予測符号化)に代表されるA−b−S型の音声符号化方式は、デジタル移動体通信、企業内通信システムなどにおいて、音声品質を保ちつつ高い情報圧縮効率を実現する方式として期待されている。
背景技術
現在、ディジタル移動体通信や企業内通信システムなどの分野では、電話帯域(0.3〜3.4kHz)の音声を4kbit/s程度の伝送レートで符号化することが望まれている。このような要求に対し、CELP(Code Excited Linear Prediction:符号駆動線形予測)と呼ばれる方式が有望視されている。CELPの詳細については、例えば、「M.R.Schroeder,and B.S.Atal“Code−Excited Linear Prediction(CELP):High−Quality Speech at Very Low Bit Rates”Proc.ICASSP’85,25.1.1,pp937−940,1985」に開示されている。CELPは、人間の声道特性を表す線形予測係数(LPC係数)、音声のピッチ成分と雑音成分とからなる音源信号を表わすパラメータを効率良く伝送することを特徴とする。
図15にCELPの原理図を示す。CELPでは人間の声道を次式
で表されるLPC合成フィルタH(z)で近似し、H(z)への入力(音源信号)が、(1)音声の周期性を表すピッチ周期成分と、(2)ランダム性を表す雑音成分とに分離できると仮定する。CELPは、入力音声信号をそのまま復号器側へ伝送するのではなく、LPC合成フィルタのフィルタ係数及び励起信号のピッチ周期成分と雑音成分を抽出し、これらを量子化して得られる量子化インデックスを伝送することにより、高い情報圧縮を実現している。
図15において、音声信号を所定速度でサンプリングしたとき、1フレーム当り所定サンプル数(=N)の入力信号Xがフレーム単位でLPC分析部1に入力する。サンプリング速度を8kHz、1フレーム期間を10msecとすれば、1フレームは80サンプルである。
LPC分析部1は、人間の声道を式(1)で表される全極型フィルタと見なし、このフィルタの係数αi(i=1,・・・,p)を求める。ここで、pはフィルタ次数である。一般に、電話帯域音声の場合はpとして10〜12の値が用いられる。LPC係数αi(i=1,・・・,p)はLPC係数量子化部2でスカラー量子化やベクトル量子化などにより量子化された後、量子化インデックスが復号器側へ伝送される。図16は量子化方法説明図であり、量子化テーブル2aにはインデックス番号1〜nに対応させて多数の量子化LPC係数の組が記憶されている。距離演算部2bは次式
d=W・Σi{αq(i)−αi}2 (i=1〜p)
により距離を演算する。そして、qを1〜nまで変化させた時、最小距離インデックス検出部2cは距離dが最小となるqを求め、インデックスqを復号器側へ伝送する。この場合、聴覚重み付き合成フィルタ3を構成するLPC合成フィルタは次式
となる。
次に音源信号の量子化を行う。CELPでは音源信号をピッチ周期成分と雑音成分の2つに分け、ピッチ周期成分の量子化には過去の音源信号系列を格納した適応符号帳4を用い、雑音成分の量子化には代数符号帳や雑音符号帳などを用いる。以下では、音源符号帳として適応符号帳4と代数符号帳5の2つを使用する典型的なCELP型の音声符号化方式について説明する。
適応符号帳4は、インデックス1〜Lに対応して順次1ピッチ(1サンプル)遅延したNサンプル分の音源信号(周期性信号という)を出力するようになっている。図17はL=147、1フレーム80サンプル(N=80)とした場合の適応符号帳4の構成図であり、最新の227サンプルのピッチ周期成分を記憶するバッファBFで構成され、インデックス1により1〜80サンプルよりなる周期性信号が特定され、インデックス2により2〜81サンプルよりなる周期性信号が特定され、・・・インデックス147により147〜227サンプルよりなる周期性信号が特定される。
適応符号帳探索は以下の手順で行う。まず、現フレームからの遅れを表すピッチラグLを初期値L0(例えば20)に設定する。次に、遅れLに相当する過去の周期性信号(適応符号ベクトル)PLを適応符号帳4から取り出す。すなわち、インデックスLが示す適応符号ベクトルPLを取り出し、このPLを聴覚重み付き合成フィルタ3に入力して得られる出力APLを求める。ここで、Aは聴覚重み付けフィルタW(z)とLPC合成フィルタHq(z)の従属接続により構成される聴覚重み付き合成フィルタ3のインパルス応答である。
聴覚重み付けフィルタとしては任意のフィルタが使用可能であるが、例えば次式
で示す特性を有するフィルタを用いることができる。ここで、g1、g2は重み付けフィルタの特性を調整するパラメータである。
演算部6は入力音声とAPLの誤差電力ELを次式
により求める。ここで、βはピッチゲインである。
適応符号帳出力の重み付き合成出力をAPLとし、APLの自己相関をRpp、APLと入力信号Xの相互相関をRxpとすると、式(4)の誤差電力が最小となるピッチラグLoptにおける適応符号ベクトルPLは、次式で
表される。ただし、Tは転置を意味する。従って、誤差電力評価部7は(5)式を満足するピッチラグLoptを求める。また、最適ピッチゲインβoptは次
で与えられる。ラグLの探索範囲は任意であるが、入力信号のサンプリング周波数が8kHzの場合には、ラグの範囲を20〜147にすることができる。
次に代数符号帳5を用いて音源信号に含まれる雑音成分を量子化する。代数符号帳5は、振幅が1又は−1の複数のパルスから構成される。例として、フレーム長が40サンプルの場合のパルス位置を図18に示す。代数符号帳5は、1フレームを構成するN(=40)サンプル点を複数のパルス系統グループ1〜4に分割し、各パルス系統グループから1つのサンプル点を取り出してなる全組み合わせについて、各サンプル点で+1あるいは−1のパルスを有するパルス性信号を雑音成分として順次出力する。この例では、基本的に1フレームあたり4本のパルスが配置される。図19は各パルス系統グループ1〜4に割り当てたサンプル点の説明図であり、
(1)パルス系統グループ1には8個のサンプル点0、5、10,15,20,25,30,35が割り当てられ、
(2)パルス系統グループ2には8個のサンプル点1、6、11,16,21,26,31,36が割り当てられ、
(3)パルス系統グループ3には8個のサンプル点2、7、12,17,22,27,32,37が割り当てられ、
(4)パルス系統グループ4には16個のサンプル点3,4,8,9,13,14,18,19,23,24,28,29,33,34,38,39が割り当てられている。
パルス系統グループ1〜3のサンプル点を表現するために3ビット、パルスの正負を表現するのに1bit、トータル4bitが必要であり、又、パルス系統グループ4のサンプル点を表現するために4bit、パルスの正負を表現するのに1bit、トータル5bit必要である。従って、図18のパルス配置を有する雑音符号帳5から出力するパルス性信号を特定するために17bitが必要になり、パルス性信号の種類は217(=24×24×24×25)存在する。
以下では、上記の例について代数符号帳探索を説明する。図18に示すように各パルス系統のパルス位置は限定されており、代数符号帳探索では各パルス系統のパルス位置の組み合わせの中から、再生領域で入力音声との誤差電力が最も小さくなるパルスの組み合わせを決定する。すなわち、適応符号帳探索で求めた最適ピッチゲインβoptとし、適応符号帳出力PLに該ゲインβoptを乗算して加算器8に入力する。これと同時に代数符号帳5より順次パルス性信号を加算器に8に入力し、加算器出力を重み付き合成フィルタ3に入力して得られる再生信号と入力信号Xとの差が最小となるパルス性信号を特定する
具体的には、まず入力信号Xから適応符号帳探索で求めた最適な適応符号帳出力PL、最適ピッチゲインβoptから次式により代数符号帳探索のためのターゲットベクトルX′を生成する。
この例では、パルスの位置と振幅(正負)を前述のように17bitで表現するため、その組合わせは2の17乗通り存在する。ここで、k通り目の代数符号出力ベクトルをCkとすると、代数符号帳探索では次式
の評価関数誤差電力Dを最小とする符号ベクトルCkを求める。ここでγは代数符号帳ゲインである。式(8)を最小化することは、次式
を最大とするCk、すなわちkを探すことと等価であり、誤差電力評価部7は以下に従ってkを探索する。
ここで、Φ=ATA、d=X′TAとおくと、次式
のように表される。インパルス応答Aの要素をa(0),a(1),・・・・,a(N−1)とし、ターゲット信号X′の要素をx′(0),x′(1),・・・,x′(N−1)とすると、dは次式で表される。ただし、Nはフレーム長とする。
また、Φの要素φ(i,j)は次式で表される。
尚、d(n)及びφ(i,j)は代数符号帳探索の前に計算される。
ここで、代数符号帳5の出力ベクトルCkに含まれるパルス本数をNpとすると、式(10)の分子項Qkは次式
で表される。ここで、Sk(i)はCkのi番目のパルス系統におけるパルス振幅(+1又は−1)であり、mk(i)はそのパルス位置を表す。また、式(10)の分母項Ekは次式で求められる。
ここで、式(13)のQk、式(14)のEkを用いて探索を行うことも可能であるが、探索にかかる処理量を削減するため、以下に述べる手順によりQkと
(n)]の2つの部分に分解する。次に、次式
によりΦにd(n)の符号情報を含める。式(14〕の第2項の定数2を除去するために、次式
でΦの主対角成分をスケーリングする。したがって、分子項Qkは、次式
のように簡略化される。また、分母項Ekは、次式
のように簡略化される。従って、各パルスの位置を変えながら式(17)、(18)により分子項Qk′と分母項Ek′を計算し、D″=Qk′2/Ek′が最大となるパルス位置を決定することにより代数符号帳の出力を得ることができる。
次に、ゲインβopt,γoptの量子化を行う。ゲインの量子化方法は任意であり、スカラー量子化やベクトル量子化などの方法を用いることができる。例えば、LPC係数量子化部2と同様の方法で、β、γを量子化してゲインの量子化インデックスを復号器に伝送するようにする。
以上より、出力情報選択部9は、(1)LPC係数の量子化インデックス、(2)ピッチラグLopt、(3)代数符号帳インデックス(パルス性信号特定データ)、(4)ゲインの量子化インデックスを復号器に伝送する。
又、現フレームでのすべての探索処理、量子化処理が終了した後、次フレームの入力信号を処理する前に、適応符号帳4の状態更新を行う。状態更新では、適応符号帳内の最も古い(最も過去の)フレームの音源信号をフレーム長分だけ廃棄し、現フレームで求めた最新の音源信号をフレーム長だけ格納する。尚、適応符号帳4の初期状態はゼロ状態、すなわち、すべてのサンプルの振幅が0の状態とする。
以上説明した通り、CELP方式は音声の生成過程をモデル化し、そのモデルの特徴パラメータを量子化して伝送することにより、音声を効率良く圧縮することができる。
さて、CELP(およびその改良を含む)は、8〜16kbit/s程度のbitレートで高品質な再生音声を実現できることが知られている。中でも、ITU−T勧告G.729(CS−ACELP)は、8kbit/sの低ビットレート条件で、32kbit/sのADPCMと同等の音質を実現することができる。ところが、通信回線の有効利用の観点から、近年では4kbit/s以下の超低ビットレートで高品質な再生音声を実現することが求められている。
ビットレートを削減する最も簡単は方法は、符号化の単位であるフレーム長を長くしてベクトル量子化効率を高めることである。CS−ACELPのフレーム長は5msec(40サンプル)であり、前述のように、音源信号の雑音成分を1フレーム当たり17bitでベクトル量子化する。ここでフレーム長をCS−ACELPの2倍の10msec(=80サンプル)とし、1フレーム当たりの代数符号帳に割り当てる量子化ビット数を17bitとする場合を考える。
10msecのフレームに4本のパルスを立てる場合のパルス配置の例を図20に示す。図20において、第1〜第3パルス系統のパルス(サンプル点及び極性)はそれぞれ5bitで表され、第4パルス系統のパルスは6bitで表され、代数符号帳インデックスを表現するには21bit必要となる。すなわち、代数符号帳を用いる場合、単純にフレーム長を2倍の10msecにしても、1フレーム当たりのパルス本数を減らさなければ、パルスの立つ位置が増えた分だけパルスの組み合わせが増えるため量子化ビット数も増加してしまう。
この例の場合、代数符号帳インデックスのビット数を17bitにするには例えば図21に示すようにパルスの本数を減らすしか方法がない。ところが、本発明者等の実験によれば、1フレーム当たりのパルス本数を3本以下にすると、再生音声の品質が急激に劣化する。この現象は定性的にも容易に理解できる。つまり、フレーム帳が5msecの場合に1フレーム当たり4本のパルスを立てると(図18)、10msecではパルス8本存在する。これに対し、フレーム帳が10msecの場合に1フレーム当たり3本のパルスを立てると(図21)、当然10msecでは3本しかパルスが存在しない。このため、代数符号帳で表すべき音源信号の雑音性を十分に表現しきれず、再生音声の品質が劣化する。
以上より、ビットレート削減のためにフレーム長を長くしても、1フレーム当たりのパルス本数を減らさなければビットレートを削減することはできない。しかし、パルスの本数を減らすと再生音声の品質が大幅に劣化してしまう。従って、単純にフレーム長を長くしてベクトル量子化効率を高めるという方法では、4kbit/sのビットレートで高品質な再生音声を実現することは困難であった。
以上から本発明の目的は、ビットレートを削減でき、かつ、高品質な音声の再生を可能にすることである。
発明の開示
CELPにおいて符号器は、(1)LPC係数の量子化インデックス、(2)適応符号帳のピッチラグLopt、(3)代数符号帳インデックス(パルス性信号特定データ)、(4)ゲインの量子化インデックスを復号器に伝送する。この場合、ピッチラグを伝送するために8bit必要であるから、もし、ピッチラグを送らないで良ければ、その分、代数符号帳インデックスを表現するためのビット数を多くできる。すなわち、代数符号帳より出力するパルス性信号に含めるパルス本数を増大でき、高品質の音声符号の伝送及び高品質の再生が可能になる。一般に、音声の定常部ではピッチ周期はゆっくりと変化することが知られており、定常部では現フレームのピッチラグを過去(例えば直前)のフレームにおけるピッチラグと同じであるとみなしても再生音声品質はほとんど劣化しない。
そこで、本発明では、現フレームの入力信号から求めたピッチラグを用いる符号化モード1と、過去フレームの入力信号から求めたピッチラグを用いる符号化モード2を用意し、符号化モード1においてパルス本数が少ない第1の代数符号帳を使用し、符号化モード2においてパルス本数が第1の符号帳より多い第2の代数符号帳を使用する。符号化に際して、符号器はフレーム毎に符号化モード1と符号化モード2それぞれにより符号化し、入力信号をより正確に再生できるモードで符号化した符号を復号碁に伝送する。このようにすれば、ビットレートを削減でき、かつ、高品質な音声の再生が可能になる。
又、現フレームの入力信号から求めたピッチラグを用いる符号化モード1と、過去フレームの入力信号から求めたピッチラグを用いる符号化モード2を用意し、符号化モード1においてパルス本数が少ない第1の代数符号帳を使用し、符号化モード2においてパルス本数が第1の符号帳より多い第2の代数符号帳を使用する。符号化に際して、入力信号の性質、例えば、入力信号の周期性に基づいて最適なモードを決定し、該決定されたモードに基づいて符号化する。このようにすれば、ビットレートを削減でき、かつ、高品質な音声の再生が可能になる。
発明を実施するための最良の形態
(A)本発明の概略
(a)第1の特徴
本発明は、現フレームのピッチラグとして現フレームの入力信号から求めたピッチラグを用いる第1の符号化モード(モード0)と、過去の例えば1フレーム前の入力信号から求めたピッチラグを用いる第2の符号化モード(モード1)を用意し、モード0ではパルス本数が少ない代数符号帳を使用し、モード1ではパルス本数がモード0の代数符号帳より多い代数符号帳を使用する。いずれのモードで符号化するかは、忠実に音声を再現できるかにより決定する。モード1ではパルス本数が増加するためモード0に比べ音声信号の雑音成分を忠実に表現できる。
図1は本発明の第1の概略説明図である。入力信号ベクトルxをLPC分析部11へ入力しLPC係数α(i)(n=1,...,p)を求める。pはLPC分析次数である。ここで、xの次元数はフレームを構成するサンプル数Nと同じとする。また、以下では特に断らない限りベクトルの次元数はNとする。LPC係数α(i)はLPC係数量子化部12において量子化され、量子化済みLPC係数αq(i)(n=1,...,p)が求められる。声道特性を表すLPC合成フィルタ13はαq(i)により構成され、その伝達関数は次式
で表される。
モード0で動作する第1の符号部14は、適応符号帳(適応符号帳0)14aと代数構造符号帳(代数符号帳0)14bと、ゲイン乗算器14c,14dと加算器14eを備えている。又、モード1で動作する第2の符号部15は、適応符号帳(適応符号帳1)15aと代数構造符号帳(代数符号帳1)15bと、ゲイン乗算器15c,15dと加算器15eを備えている。
適応符号帳14a,15aは、図17で説明したように過去における最新のlサンプルのピッチ周期成分を記憶するバッファで構成されている。適応符号帳14a,15aの内容は同じであり、N=80サンプル、n=227とすれば、ピッチラグ=1により1〜80サンプルよりなる音源信号(周期性信号)が特定され、ピッチラグ=2により2〜81サンプルよりなる周期性信号が特定され、・・・ピッチラグ147により147〜227サンプルよりなる周期性信号が特定される。
第1の符号部14における代数構造符号帳14bのパルス配置は図2に示すようになっている。すなわち、代数構造符号帳14bは、1フレームを構成するN(=80)サンプル点を3つのパルス系統グループ0〜2に分割し、各パルス系統グループから1つのサンプル点を取り出してなる全組み合わせについて、各サンプル点で正極性あるいは負極性のパルスを有するパルス性信号を雑音成分として順次出力するようになっている。パルス系統グループ0,1それぞれにおけるパルス位置とパルスの極性を表現するために5ビット、パルス系統グループ2におけるパルス位置とパルスの極性を表現するために6ビット必要となり、トータル17ビットがパルス性信号を特定するために必要になり、その組み合わせ数mは217通りである。
第2の符号部15における代数構造符号帳15bのパルス配置は図3に示すようになっている。すなわち、代数構造符号帳15bは、1フレームを構成するN(=80)サンプル点を5つのパルス系統グループ0〜4に分割し、各パルス系統グループから1つのサンプル点を取り出してなる全組み合わせについて、各サンプル点で正極性あるいは負極性のパルスを有するパルス性信号を雑音成分として順次出力するようになっている。全パルス系統グループ0〜4におけるパルス位置とパルスの極性を表現するために5ビット必要となり、トータル25ビットがパルス性信号を特定するために必要になり、その組み合わせ数mは225通りである。
第1の符号部14は通常のCELPと同様の構成であり、符号帳探索もCELPと同様にして行う。つまり、第1適応符号帳14aにおける所定の範囲(例えば20〜147)でピッチラグLを変化させ、各ピッチラグにおける適応符号帳出力P0(L)をモード切換部16を介してLPC合成フィルタ13に入力し、演算部17はLPC合成フィルタ出力と入力信号xとの誤差電力を算出し、誤差電力評価部18は誤差電力が最小となる最適ピッチラグLagと最適ピッチゲインβ0を求める。次に、ピッチラグLagが示す適応符号帳出力にゲインβ0を乗算した信号と代数符号帳14bから出力するパルス性信号C0(i)(i=0,...,m−1)を合成して得られる信号をモード切換部16を介してLPC合成フィルタ13に入力し、演算部17はLPC合成フィルタ出力と入力信号xとの誤差電力を算出し、誤差電力評価部18は誤差電力が最小となるパルス性信号を特定するインデックスI0と最適代数符号帳ゲインγ0を決定する。ここで、m=217は代数符号帳14bのサイズ(パルスの組み合わせの総数)を表す。
第1の符号部14による最適符号帳探索及び代数符号帳探索が終了すれば、第2の符号部15はモード1の処理を開始する。モード1は適応符号帳探索を行わない点でモード0と異なる。一般に、音声の定常部ではピッチ周期はゆっくりと変化することが知られており、定常部では現フレームのピッチラグを過去のフレーム(例えば1つ前のフレーム)のピッチラグと同じとしても再生音声品質はほとんど劣化しない。かかる場合、ピッチラグを復号器に送る必要がないため、ピッチラグを符号化するに必要なビット数(例えば8ビット)余裕が発生する。そこで、この8ビットを代数符号帳インデックスを表現するために使用する。このようにすれば、代数符号帳15bのパルス配置を図3に示すようにでき、パルス性信号のパルス本数を増加できる。CELPでは代数符号帳(又は雑音符号帳等)の伝送ビット数を多くすると、より複雑な音源信号を表現可能となり再生音声品質が向上する。
以上より、第2の符号部15は適応符号帳探索を行わず、過去のフレーム(例えば前フレーム)で求めた最適ピッチラグlag_oldを現フレームの最適ラグとみなし、その時の最適ピッチゲインβ1を求める。ついで、第2の符号部15は第1の符号部14における代数符号帳探索と同様に代数符号帳15bを用いて代数符号帳探索を行い、誤差電力が最小となるパルス性信号を特定する最適インデックスI1と最適ゲインγ1を決定する。
第1、第2の符号部14、15における探索処理が終了すれば、モード0で決定した最適符号帳14aの出力ベクトルP0(Lag)と、代数符号帳14bの出力ベクトルC0(I0)とからモード0の音源信号ベクトル
e0=β0・P0(Lag)+γ0・C0(I0)
を求める。同様にしてモード1で決定した適応符号帳の出力ベクトルP1(Lag_old)、代数符号帳15bの出力ベクトルC1(I1)からモード1の音源信号ベクトル
e1=β1・P1(Lag_old)+γ1・C1(I1)
を求める。誤差電力評価部18は音源信号ベクトルe0,e1と入力信号との間の各誤差電力を計算する。モード判定部19は、誤差電力評価部18から入力される誤差電力を比較し、誤差電力の小さい方を最終的に使用するモードと判定し、出力情報選択部20は、モード情報、LPC量子化インデックス、ピッチラグ、使用するモードの代数符号帳インデックス及びゲイン量子化インデックスを選択して復号器に伝送する。
現フレームの全ての探索処理、量子化処理が終了した後、次フレームの入力信号を処理する前に適応符号帳の状態更新を行う。状態更新では、適応符号帳内の最も古い(最も過去の)フレームの音源信号をフレーム長分だけ廃棄し、現フレームで求めた最新の音源信号ex(音源信号e0またはe1)を格納する。尚、適応符号帳の初期状態はゼロ状態とする。
上記の説明では全モード(モード0、モード1)の適応符号帳探索/代数符号帳探索を実行した後に最終的に使用するモードを決定したが、探索前に入力信号の性質を調べ、その性質に応じてどちらのモードを採用するかを決定し、採用した一方のモードで適応符号帳探索/代数符号帳探索を実行して符号化するように構成することもできる。また、上記の説明では2つの適応符号帳を用いて説明したが、2つの適応符号帳には全く同じ過去の音源信号が格納されているので、1つの適応符号帳で実現してもよい。
(b)第2の特徴
図4は本発明の第2の概略説明図であり、図1と同一部分には同一符号を付している。異なる点は、第2の符号部15の構成である。
第2の符号部15の代数符号帳15bとして、(1)第1の代数構造符号帳15b1と(2)該第1の代数構造符号帳15b1よりパルス本数が多い第2の代数構造符号帳15b2を設ける。第1の代数構造符号帳15b1は図3に示すパルス配置を備え、1フレームを構成するN(=80)サンプル点を複数(=5)のパルス系統グループに分割し、各パルス系統グループから1個づつ取り出したサンプル点で正極性あるいは負極性のパルスを有するパルス性信号を順次出力する。一方、第2の代数構造符号帳15b2は、図5に示すように、1フレーム期間より短い期間に含まれるM(=55)サンプル点を第1の代数構造符号帳15b1より多い数(=6)のパルス系統グループに分割し、各パルス系統グループから1個づつ取り出したサンプル点で正極性あるいは負極性のパルスを有するパルス性信号を順次出力する。
過去のフレーム(例えば1フレーム前)の入力信号から求めたピッチラグLag oldの値を現フレームのピッチラグとして用いるモード1において、代数符号帳切り替え部15fは過去のピッチラグLag oldの値がMより大きければ第1の代数構造符号帳15b1から出力するパルス性信号を選択し、M以下では第2の代数構造符号帳15b2から出力するパルス性信号を選択する。
第2の代数符号帳15b2は第1の代数符号帳15b1に比べ狭い範囲にパルスを配置しているため、ピッチ周期化部15gは第2の代数符号帳15b2のパルス性信号パターンを繰り返して出力するピッチ周期化処理を行う。
以上説明の通り、本発明によれば、(1)従来のCELPモード(モード0)に加えて、(2)過去のピッチラグを用いることによりピッチラグを伝送するための情報量を削除し、その分、代数符号帳の情報量を増加したモード(モード1)を備えることにより、有声部などの音声の定常部で高品質な再生音声品質を得ることができる。また、モード0とモード1を入力信号の性質に応じて切り替えることにより、様々な性質の入力音声に対して高品質な再生音声品質を得ることができる。
(B)音声符号化装置の第1実施例
図6は本発明の音声符号化装置の第1実施例の構成図であり、モード0とモード1の2つのモードからなる音声符号器の構成を有している。
はじめにモード0とモード1に共通なLPC分析部11、LPC係数量子化部12について説明する。入力信号は5〜10msec程度の一定長のフレームに分割され、フレーム単位で符号化処理が行われる。ここでは、1フレームはNサンプリングであるとする。まず、LPC分析部(線形予測分析部)11は、1フレームNサンプルの入力信号xからLPC係数α={α(1),α(2),...,α(p)}を求める。ここで、LPC分析数をpとする。
次に、LPC係数量子化部12は、LPC係数αを量子化し、LPC量子化インデックスIndex_LPCとLPC係数の逆量子化値(量子化されたLPC係数)αq={αq(1),αq(2),...,αq(P)}を求める。LPC係数の量子化方法は任意であり、スカラー量子化やベクトル量子化等の方法を用いることができる。また、LPC係数を直接量子化せずに、一旦kパラメータ(反射係数)やLSP(線スペクトル対)等の量子化特性・補間特性の優れた別のパラメータに変換してから量子化してもよい。聴覚重み付き合成フィルタ13を構成するLPC合成フィルタ13aの伝達関数H(z)は次式
で与えられる。聴覚重み付けフィルタ13bとしては任意のものが使用可能であるが、(3)式で示すフィルタを用いることができる。
モード0に従って動作する第1の符号部14は通常のCELPと同じ構成であり、適応符号帳14a、代数符号帳14b、ゲイン乗算部14c,14d、加算器14e及びゲイン量子化部14hを備え、(1)最適ピッチラグLag、(2)代数符号帳インデックスindex_C0、(3)ゲインインデックスindex_g0を求める。モード0における適応符号帳14aの探索法及び代数符号帳14bの探索法は(A)の本発明の概略の項で説明した方法と同じである。
なお、代数符号帳14bは、フレーム長が10msec(80サンプル)の場合、図2に示すようにパルス本数3本のパルス配置構成を有している。従って、代数符号帳14bの出力C0(n)(n=0,...,N−1)は、次式
で与えられる。ここで、siはパルス系統iのパルスの極性(+1又は−1)、miはパルス系統iのパルス位置であり、δ(0)=1である。(21)式の右辺第1項はパルス系統0においてパルス位置m0にパルスs0を配置することを意味し、右辺第2項はパルス系統1においてパルス位置m1にパルスs1を配置することを意味し、右辺第3項はパルス系統2においてパルス位置m2にパルスs2を配置することを意味する。代数符号帳探索に際して、(21)式のパルス性信号を順次出力して最適のパルス性信号を探索する。
ゲイン量子化器14hはピッチゲイン及び代数符号帳ゲインを量子化する。量子化方法は任意であり、スカラー量子化やベクトル量子化などを用いることができる。モード0で決定された適応符号帳14aの出力をP0、代数符号帳14bの出力をC0とし、量子化されたピッチゲインをβ0、代数符号帳14bの量子化されたゲインをγ0とすると、モード0の最適な音源ベクトルe0は次式
で与えられる。音源ベクトルe0を重み付けフィルタ13bに入力し、その出力をLPC合成フィルタ13aに入力し重み付き合成出力syn0を作成する。モード0の誤差電力評価部18は、入力信号xとLPC合成フィルタ出力syn0との間の誤差電力err0を算出してモード判定部19に入力する。
モード1に従って動作する第2の符号部15は、適応符号帳探索を行わず、過去のフレームで探索した最適ピッチラグを現フレームの最適ピッチラグとして用いる。つまり、適応符号帳15aでは探索処理を行わず、過去のフレーム(例えば前フレーム)で求めた最適ピッチラグLag_oldを現フレームの最適ラグとして最適ピッチゲインβ1を求める。最適ピッチゲインは式(6)で算出できる。以上のように、モード1ではピッチラグを復号器に伝送する必要がないから、該ピッチラグ伝送に必要なビット数(例えば1フレーム当たり8bit)を代数符号帳インデックスの量子化に割り当てることができる。これにより、モード0では代数符号帳インデックスを17bitで表現しなければならないが、モード1では25(=17+8)bitで代数符号帳インデックスを表現することができる。従って、代数符号帳15bのパルス配置を図3に示すように1フレーム長が10msec(80サンプル)の場合、パルス本数を5本にできる。従って、代数符号帳15bの出力C1(n)(n=0,...,N−1)は、次式
で表される。代数符号帳15bの探索に際しては、(23)式で表現されるC1(n)を順次出力することにより代数符号帳インデックスIndex_C1、ゲインインデックスIndex_g1を求める。代数符号帳15bの探索法は(A)の本発明の概略の項で説明した方法と同じである。
モード1で決定された適応符号帳15aの出力をP1、代数符号帳15bの出力をC1とし、量子化されたピッチゲインをβ1、代数符号帳15bの量子化されたゲインをγ1とすると、モード1の最適な音源ベクトルe1は次式
で求められる。この音源ベクトルe1を重み付けフィルタ13b′に入力し、その出力をLPC合成フィルタ13a′に入力し、重み付き合成出力syn1を作成する。誤差電力評価部18′は、入力信号xと重み付き合成出力syn1との間の誤差電力err1を算出してモード判定部19に入力する。
モード判定部19はerr0とerr1を比較し、誤差電力が小さい方を最終的に使用モードと判定する。出力情報選択部20は、err0<err1であればモード情報を0にし、err0>err1であればモード情報を1にし、err0=err1であれば予め決められたモード(0又は1)を選択する。また、出力情報選択部20は、使用モードに基づいて、ピッチラグLag opt、代数符号帳インデックスIndex_C、ゲインインデックスIndex_gを選択し、これらにモード情報及びLPCインデックス情報を加えて最終的な符号化データ(伝送情報)を作成して伝送する。
現フレームの全ての探索処理、量子化処理が終了した後、次フレームの入力信号を処理する前に適応符号帳の状態更新を行う。状態更新では、適応符号帳内の最も古い(最も過去の)フレームの音源信号を廃棄し、現フレームで求めた最新の音源信号(上記e0またはe1)を格納する。尚、適応符号帳の初期状態はゼロ状態、すなわち、全てのサンプルの振幅が0の状態とする。
図6の実施例では、2つの適応符号帳14a,15aを用いて説明したが、2つの適応符号帳には全く同じ過去の音源信号が格納されているので、1つの適応符号帳で実現してもよい。又、図6の実施例では、重み付けフィルタ、LPC合成フィルタ、誤差電力評価部をそれぞれ2つ用いたが、それぞれを共通化して1つとすることもできる。
以上第1実施例によれば、(1)従来のCELPモード(モード0)と、(2)過去のピッチラグを用いることによりピッチラグ情報を削減し、削減分代数符号帳の情報量を増加させるモード(モード1)とを備えることにより、無声部や過渡部などの非定常部では従来のCELPと同じ符号化処理を行い、有声部などの音声の定常部に対しては、モード1により音源信号を精密に符号化することにより高品質な再生品質を得ることができる。
(C)音声符号化装置の第2実施例
図7は音声符号化装置の第2実施例の構成図であり、図6の第1実施例と同一部分には同一符号を付している。第1実施例では、各モードにおいて適応符号帳探索/代数符号帳探索を実行し、誤差が小さい方のモードを最終的に使用するモードと判定し、該モードで求めたピッチラグLag_opt、代数符号帳インデックスIndex_C、ゲインインデックスIndex_gを選択して復号器に伝送した。しかし、第2実施例では、探索前に入力信号の性質を調べ、その性質に応じてどちらのモードを採用するかを決定し、採用した一方のモードで適応符号帳探索/代数符号帳探索を実行して符号化する。第2実施例において第1実施例と異なる点は、
(1)モード判定部31を設け、符号帳探索前に入力信号xの性質を調べ、その性質に応じてどちらのモードを採用するかを決定する点、
(2)モード出力選択部32を設け、採用されたモードに応じた符号部14,15の出力を選択して重み付けフィルタ13bに入力する点、
(3)重み付けフィルタ(W(z))13b、LPC合成フィルタ(H(z))13a、誤差電力評価部18を各モードに共通に設けている点、
(4)出力情報選択部20がモード判定部31から入力するモード情報に基づいて復号器に送出する情報を選択して送出する点、
である。
モード判定部31は入力信号ベクトルxが入力すると、入力信号xの性質を調べ、該性質に応じてモード0とモード1のどちらを採用するかを示すモード情報を生成する。モード0が最適と判定すれば、モード情報は0となり、モード1が最適と判定すればモード情報は1となる。この判定結果に基づいて、モード出力選択部32は第1の符号部14あるいは第2の符号部15の出力を選択する。モード判定の方法としては、開ループラグの変化を検出する方法を用いることができる。図8は入力信号の性質に基づいて採用するモードを判定する処理フローである。まず、入力信号x(n)(n=0,...,N−1)を用いて次式
により自己相関関数R(k)(k=20〜143)を求める(ステップ101)。ここでNは1フレームを構成するサンプル数である。
ついで、自己相関関数R(k)が最大となる時のラグkを求める(ステップ102)。自己相関関数R(k)が最大となる時のラグkを開ループラグと称し、Lで表す。また、前フレームで同様にして求めた開ループラグをL_oldと記す。しかる後、前フレームの開ループラグL_oldと現フレームの開ループラグLの差(L_old−L)を求め(ステップ103)、(L_old−L)が予め決めた閾値よりも大きければ、入力音声の周期性は大きく変化したと見なしモード情報を0に設定する。一方、(L old−L)が閾値よりも小さければ、入力音声の周期性は前フレームに比べてか変化していないと見なしモード情報を1に設定する(ステップ104)。以後、フレーム毎に上記処理を繰り返す。尚、モード判定終了後は、次フレームでのモード判定のために、現フレームで求めた開ループラグLをL_oldとして保持しておく。
モード出力選択部32は、モード情報が0であれば端子0を選択し、モード情報が1であれば端子1を選択する。従って、第1実施例のように、同一フレームで2つのモードが同時に動作することはない。
モード判定部31によりモード0が設定されると、第1の符号部14は適応符号帳14a及び代数符号帳14bの探索を行った後、ゲイン量子化器14hでピッチゲインβ0と代数符号帳ゲインγ0の量子化を実行する。この時、モード1に応じた第2の符号部は動作しない。
一方、モード判定部31によりモード1が設定されると、第2の符号部15は適応符号帳探索を行わず、過去のフレーム(例えば前フレーム)で求めた最適ピッチラグlag_oldを現フレームの最適ラグともみなし、その時の最適ピッチゲインβ1を求める。ついで、第2の符号部15は代数符号帳15bを用いて代数符号帳探索を行い、誤差電力が最小となるパルス性信号を特定する最適インデックスI1、と最適ゲインγ1を決定する。ついで、ゲイン量子化器15hはピッチゲインβ1と代数符号帳ゲインγ1の量子化を実行する。この時、モード0側の第1の符号部14は動作しない。
第2実施例によれば、符号帳探索前に入力信号の性質に基づいて、いずれのモードで符号化するか決定し、該モードで符号化して出力するため、第1実施例のように2つのモードで符号化して良い方を選択する必要がないため、処理量を削減でき、高速処理が可能である。
(D)音声符号化装置の3実施例
図9は音声符号化装置の第3実施例の構成図であり、図6の第1実施例と同一部分には同一符号を付している。第1実施例と異なる点は、
(1)第2の符号部15の代数符号帳15bとして、第1の代数構造符号帳15b1と第2の代数構造符号帳15b2を設け、第1の代数構造符号帳15b1は図10(b)に示すパルス配置構成を備え、第2の代数構造符号帳15b2は図10(c)に示すパルス配置構成を備えている点、
(2)代数符号帳切り替え部15fを設け、モード1における過去のピッチラグの値Lag_oldが閾値Thより大きければ第1の代数構造符号帳15b1から出力する雑音成分であるパルス性信号を選択し、閾値以下では第2の代数構造符号帳15b2から出力するパルス性信号を選択する点、
(3)第2の代数符号帳15b2は第1の代数符号帳15b1に比べ狭い範囲(サンプル点0〜55)にパルスを配置しているためピッチ周期化部15gを設け、該ピッチ周期化部15gにより第2の代数符号帳15b2から出力するパルス性信号を繰り返して発生して1フレーム分のパルス性信号を出力する点である。
モード0において、第1の符号部14は第1実施例と全く同じ処理により最適ピッチラグLag、代数符号帳インデックスIndex_C0、ゲインインデックスIndex_g0を求める。
又、モード1において、第2の符号部15は第1実施例と同じく適応符号帳15aの探索を行わず、過去のフレーム(例えば前フレーム)で決定した最適ピッチラグLag_oldを現フレームの最適ピッチラグとして使用する。最適ピッチゲインは式(6)で算出される。又、第2の符号部15は代数符号帳探索に際して、ピッチラグLag_oldの値に応じて第1の代数符号帳15b1を使用するか、第2の代数符号帳15b2を使用するか決定して探索を行う。
以下ではフレーム長が10msec、N=80サンプルの場合におけるモード0、モード1の代数符号帳探索について説明する。
(1)モード0
モード0で使用する代数符号帳14bのパルス配置構成例を図10(a)に示す。このパルス配置例は、パルス本数が3本で量子化ビット数が17bitの場合である。(21)式で示すC0(n)(n=0,...,N−1)を順次出力し、従来と同様の代数符号帳探索を行う。(21)式において、siはパルス系統iのパルス極性(+1又は−1)であり、miはパルス系統iのパルス位置である。又、δ(0)=1である。
(2)モード1
モード1では過去のピッチラグLag_oldを用いるので、ピッチラグに量子化ビットを割り当てる必要がない。このため、代数符号帳15b1,15b2に代数符号帳14bよりも多くのビット数を割り当てることが可能である。モード0のピッチラグの量子化ビット数を1フレーム当たり8bitとすると、代数符号帳15b1,15b2の量子化ビット数として25bit(=17+8)を割り当てることが可能である。
25bitで1フレームに5本のパルスを立てる場合のパルス配置例が図10(b)である。第1の代数構造符号帳15b1はこのパルス配置構成を備え、各パルス系統グループから1個づつ取り出したサンプル点で正極性あるいは負極性のパルスを有するパルス性信号を順次出力する。又、25bitで1フレームより短い期間に6本のパルスを立てる場合のパルス配置例が図10(c)である。第2の代数構造符号帳15b2はこのパルス配置構成を備え、各パルス系統グループから1個づつ取り出したサンプル点で正極性あるいは負極性のパルスを有するパルス性信号を順次出力する。
図10(b)のパルス配置構成は、図10(a)に比べて1フレーム当たりのパルス本数が2本多くなっている。又、図10(c)のパルス配置構成は、狭い範囲(サンプル点0〜55)にパルスを配置するが、図10(a)に比べてパルス本数が3本多くなっている。このため、モード1では、モード0の場合より音源信号を精密に符号化することが可能である。又、第2の代数構造符号帳15b2は第1の代数符号帳15b1に比べ狭い範囲(サンプル点0〜55)にパルスを配置しているが、パルス本数は多い。このため、第2の代数符号帳15b2の方が第1の代数符号帳15b1より音源信号を精密に符号化することが可能である。従って、モード1において入力信号xの周期性が短ければ、第2の代数構造符号帳15b2を使用して雑音成分であるパルス性信号を発生し、長ければ第1の代数構造符号帳15b2を使用して雑音成分であるパルス性信号を発生する。
以上より、モード1では、過去のピッチラグLag_oldがあらかじめ決めた閾値Th(例えば55)よりも大きいければ、次式
により第1の代数符号帳15b1の出力C1(n)を求め、順次出力することにより代数符号帳インデックスIndex_C1、ゲインインデックスIndex_g1を求める。
一方、過去のピッチラグLag oldが閾値Th(例えば55)以下であれば、第2の代数符号帳15b2を使用して探索を行う。第2の代数符号帳15b2の探索方法は、既述の代数符号帳探索と同様でよいが、探索処理の前にインパルス応答をピッチ周期化する必要がある。聴覚重み付き合成フィルタ13のインパルス応答を a(n)(n=0,...,79)とすると、代数符号帳15b2を探索する前に次式
によりピッチ周期化されたインパルス応答a′(n)(n=0,...,79)を求める。この場合、ピッチ周期化方法としては単純なくり返しだけでなく、先頭のLag_old個のサンプルを一定の割合で減衰又は増幅して繰り返してもよい。
第2の代数符号帳15b2の探索はインパルス応答として上記a′(n)を用いて行う。ただし、代数符号帳15b2の探索によって得られる出力は0〜Th(=55)サンプル目までしかパルスが存在しないので、ピッチ周期化部15gは次式
で示すピッチ周期化処理により残りのサンプル(この例では24サンプル)を生成する。図11はピッチ周期化部15gによるピッチ周期化の概念図であり、(1)はピッチ周期化前の雑音成分であるパルス性信号、(2)はピッチ周期化後のパルス性信号である。ピッチ周期化後のパルス性信号は、ピッチ周期化前のピッチラグLag_old分の雑音成分Aを繰り返す(コピーする)ことにより得られる。また、ピッチ周期化の方法として単純な繰り返しだけでなく、先頭のLag_old個のサンプルを一定の割合で減衰又は増幅して繰り返してもよい。
(c)代数符号帳切替
代数符号帳切り替え部15fは、過去のピッチラグLag oldの値が閾値Thよりも大きければスイッチSwを端子Saに接続し、第1の代数符号帳15b1から出力するパルス性信号をゲイン乗算器15dに入力し、ゲイン乗算器15dは入力信号に代数符号帳ゲインγ1を乗算する。また、代数符号帳切り替え部15fは、過去のピッチラグLag_oldが閾値Thよりも小さければスイッチSwを端子Sbに接続し、ピッチ周期化部15gでピッチ周期化された第2の代数符号帳15b2から出力するパルス性信号をゲイン乗算器15dに入力し、ゲイン乗算器15dは入力信号に代数符号帳ゲインγ1を乗算する。
以上、第3実施例を説明したが、本実施例で示した量子化ビット数、パルス配置は一例であり、様々な量子化ビット数及びパルス配置例が可能である。また、本実施例では符号化モード数を2として説明したが、モード数を3又はそれ以上としもよい。
また、上記の説明では2つの適応符号帳を用いて説明したが、2つの適応符号帳には全く同じ過去の音源信号が格納されるので、1つの適応符号帳で実現してもよい。
また、本実施例では、重み付けフィルタ、LPC合成フィルタ、誤差電力評価部をそれぞれ2つ用いたが、共通化して1つとし、各フィルタへの入力を切り替えて実現してもよい。
以上、第3実施例によれば過去のピッチラグの値に応じてパルス本数、パルス配置を適応的に切り替えることにより、従来の音声符号化方式に比べ音源信号を精密に符号化することができ、高品質な再生音声品質を得ることができる。
(E)音声符号化装置の第4実施例
図12は音声符号化装置の第4実施例の構成図であり、探索前に入力信号の性質を調べ、その性質に応じてモード0、1のどちらのモードを採用するかを決定し、採用した一方のモードで適応符号帳探索/代数符号帳探索を実行して符号化する。第4実施例において第3実施例と異なる点は、
(1)モード判定部31を設け、符号帳探索前に入力信号xの性質を調べ、その性質に応じてどちらのモードを採用するかを決定する点、
(2)モード出力選択部32を設け、採用されたモードに応じた符号部14,15の出力を選択して聴覚重み付き合成フィルタ13に入力する点、
(3)重み付けフィルタ(W(z))13b、LPC合成フィルタ(H(z))13a、誤差電力評価部18を各モードに共通に設けている点、
(4)出力情報選択部20がモード判定部31から入力するモード情報に基づいて復号器に送出する情報を選択して送出する点、
である。モード判定部31のモード判定処理は図8の処理と同じである。
第4実施例によれば、符号帳探索前に入力信号の性質に基づいて、いずれのモードで符号化するか決定し、該モードで符号化して出力するため、第3実施例のように2つのモードで符号化し、良い方を選択する必要がないため、処理量を削減でき、高速処理が可能である。
(F)復号化装置の第1実施例
図13は音声復号化装置の第1実施例の構成図であり、音声符号化装置(第1実施例、第2実施例)から送られてくる符号情報を復号して音声信号を再生するものである。
LPC逆量子化部51は音声符号化装置よりLPC量子化インデックスIndex_LPCを受信すれば逆量子化されたLPC係数αq(i)(i=1,2,...,q)を出力する。pはLPC分析次数である。LPC合成フィルタ52はLPC係数αq(i)を用いて次式
で示す伝達特性を有するフィルタとなる。第1の復号部53は音声符号化装置における第1の符号部14に対応するもので、適応符号帳53a、代数符号帳53b、ゲイン乗算部53c,53d、加算器53eを有している。代数符号帳53bは図2のパルス配置構成を有している。第2の復号部54は音声符号化装置における第2の符号部15に対応するもので、適応符号帳54a、代数符号帳54b、ゲイン乗算部54c,54d、加算器54eを有している。代数符号帳54bは図3のパルス配置構成を有している。
受信した現フレームのモード情報が0であれば、すなわち音声符号化装置においてモード0が選択されると、第1の復号部の適応符号帳53aにピッチラグLagが入力し、適応符号帳53aより該ピッチタグLagに対応する80サンプル分のピッチ周期成分(適応符号帳ベクトル)P0が出力する。また、第1の復号部の代数符号帳53bに代数符号帳インデックスIndex_Cが入力し、対応する雑音成分(代数符号帳ベクトル)C0が出力する。代数符号帳ベクトルC0は(21)式により生成される。更に、ゲイン逆量子化部55にゲインインデックスIndex_gが入力し、ゲイン逆量子化部55よりピッチゲインの逆量子化値β0と代数符号帳ゲインの逆量子化値γ0が乗算器53c、53dに入力する。この結果、次式
で与えられるモード0の音源信号e0が加算器53eより出力する。
一方、現フレームのモード情報が1であれぱ、すなわち音声符号化装置においてモード1が選択されると、前フレームのピッチラグLag_oldが第2の復号部54の適応符号帳54aに入力し、適応符号帳54aより該ピッチタグLag_oldに対応する80サンプル分のピッチ周期成分(適応符号帳ベクトル)P1が出力する。また、第2の復号部54の代数符号帳54bに代数符号帳インデックスIndex_Cが入力し、対応する雑音成分(代数符号帳ベクトル)C1(n)が(25)式により生成される。更に、ゲイン逆量子化部55にゲインインデックスIndex_gが入力し、ゲイン逆量子化部55よりピッチゲインの逆量子化値β1と代数符号帳ゲインの逆量子化値γ1が乗算器54c、54dに入力する。この結果、次式
で与えられるモード1の音源信号e1が加算器54eより出力する。
モード切替器56は、モード情報に応じてスイッチSw2を切替える。すなわち、モード情報が0であればSw2を端子0に接続し、これによりe0が音源信号exとなる。また、モード情報が1であれば、スイッチSw2を端子1に接続し、e1が音源信号exとなる。この音源信号exは適応符号帳53a,54aに入力しその内容を更新する。すなわち、適応符号帳内の最も古いフレームの音源信号を廃棄し、現フレームで求めた最新の音源信号exを格納する。
又、音源信号exはLPC量子化係数αq(i)で構成されたLPC合成フィルタ52に入力し、LPC合成フィルタ52はLPC合成出力yを出力する。このLPC合成出力yを再生音声として出力してもよいが、更に音質を高めるためにポストフィルタ57に通すことが望ましい。ポストフィルタ57の構成は任意であるが、例えば伝達関数が次式
のポストフィルタを用いることができる。ここで、ω1、ω2、μ1はポストフィルタの特性を調整するパラメータであり、その値は任意であるが、例えばω1=0.5、ω2=0.8、μ=0.5といった値を用いることができる。
尚、実施例では2つの適応符号帳を用いて説明したが、2つの適応符号帳には全く同じ音源信号が格納されるので、1つの適応符号帳で実現してもよい。
以上本実施例によれば過去のピッチラグの値に応じてパルス本数、パルス配置を適応的に切替えることにより、従来の音声復号化装置に比べて高品質な再生音声品質を得ることができる。
(G)復号化装置の第2実施例
図14は音声復号化装置の第2実施例の構成図であり、音声符号化装置(第3実施例、第4実施例)から送られてくる符号情報を復号して音声信号を再生するもので、図13の第1実施例と同一部分には同一符号を付している。第1実施例と異なる点は、
(1)代数符号帳54bとして、第1の代数構造符号帳54b1と第2の代数構造符号帳54b2を設け、第1の代数構造符号帳54b1は図10(b)に示すパルス配置構成を備え、第2の代数構造符号帳54b2は図10(c)に示すパルス配置構成を備えている点、
(2)代数符号帳切り替え部54fを設け、モード1における過去のピッチラグの値Lag_oldが閾値Thより大きければ第1の代数構造符号帳54b1から出力する雑音成分であるパルス性信号を選択し、閾値以下では第2の代数構造符号帳54b2から出力するパルス性信号を選択する点、
(3)第2の代数符号帳54b2は第1の代数符号帳54b1に比べ狭い範囲(サンプル点0〜55)にパルスを配置しているためピッチ周期化部54gを設け、該ピッチ周期化部54gにより第2の代数符号帳54b2から出力する雑音成分(パルス性信号)を繰り返して発生して1フレーム分のパルス性信号を出力する点である。
モード情報が0であれば第1実施例の復号処理と全く同じ復号処理が行われる。一方、モード情報が1であれば、前フレームのピッチラグLag_oldが予め決めた閾値Th(例えば55)よりも大きいければ、代数符号帳インデックスIndex_Cが第1の代数符号帳54b1に入力し、符号帳出力C1(n)が(25)式により生成される。また、ピッチラグLag_oldが閾値Thよりも小さいければ、代数符号帳インデックスIndex_Cが第2の代数符号帳54b2に入力し、C1(n)が(27)式により生成される。以後、第1実施例と同じ復号処理が行われ、ポストフィルタ57より再生音声信号が出力する。
以上本実施例によれば、過去のピッチラグの値に応じてパルス本数、パルス配置を適応的に切替えることにより、従来の音声復号方式に比べて高品質な再生音声品質を得ることができる。
(H)効果
本発明によれば、(1)従来のCELPモード(モード0)と、(2)過去のピッチラグを用いることにより適応符号帳に要するピッチラグ情報を削減し、代数符号帳の情報量を増加させるモード(モード1)とを備えることにより、無声部や過渡部などの非定常部では従来のCELPと同じ符号化処理を行い、有声部などの音声の定常部に対しては、モード1により音源信号を精密に符号化することにより高品質な再生音声品質を得ることができる。
【図面の簡単な説明】
図1は本発明の第1の概略説明図である。
図2は代数符号帳0のパルス配置例である。
図3は代数符号帳1のパルス配置例である。
図4は本発明の第2の概略説明図である。
図5は代数符号帳2のパルス配置例である。
図6は符号化装置の第1実施例の構成図である。
図7は符号化装置の第2実施例の構成図である。
図8はモード判定部の処理手順である。
図9は符号化装置の第3実施例の構成図である。
図10は第3実施例で使用する各代数符号帳のパルス配置例である。
図11はピッチ周期化の概念図である。
図12は符号化装置の第4実施例の構成図である。
図13は復号化装置の第1実施例の構成図である。
図14は復号化装置の第2実施例の構成図である。
図15はCELPの原理図である。
図16は量子化方法説明図である。
図17は適応符号帳の説明図である。
図18は代数符号帳のパルス配置例である。
図19は各パルス系統グループに割り当てたサンプル点の説明図である。
図20は10msecのフレームに4本のパルスを立てる場合の例である。
図21は10msecのフレームに3本のパルスを立てる場合の例である。
Claims (14)
- 適応符号帳及び代数符号帳を用いて音声信号を符号化する音声符号化装置において、
音声信号を所定速度でサンプリングした入力信号を一定サンプル数(=N)のフレーム単位で線形予測分析して得られる線形予測係数を用いて構成される合成フィルタ、
過去Lサンプル分の音声信号のピッチ周期成分を保存し、順次、1ピッチ遅延したNサンプル分の周期性信号を出力するための適応符号帳、
1フレームを構成するNサンプル点を複数のパルス系統グループに分割し、各パルス系統グループから1つのサンプル点を取り出してなる全組み合わせについて、各サンプル点で正極性あるいは負極性のパルスを有するパルス性信号を雑音成分として順次出力するための代数構造符号帳、
適応符号帳から順次出力する周期性信号により前記合成フィルタを駆動して得られる信号と前記入力信号との差が最小となる周期性信号を特定するピッチラグ(第1ピッチラグ)を現フレームのピッチラグとし、あるいは、過去のフレームにおいて求めてあるピッチラグ(第2ピッチラグ)を現フレームのピッチラグとするピッチラグ決定部、
前記決定したピッチラグにより特定される周期性信号と代数構造符号帳から順次出力するパルス性信号とで前記合成フィルタを駆動して得られる信号と前記入力信号との差が最小となるパルス性信号を決定するパルス性信号決定部、
前記ピッチラグ、前記パルス性信号を特定するデータ、前記線形予測係数を音声符号として出力する手段、
を備え、前記ピッチラグ決定部は、入力信号の性質に応じて前記第1ピッチラグあるいは第2ピッチラグを現フレームのピッチラグとするか決定することを特徴とする音声符号化装置。 - 前記ピッチラグ決定部は、
現フレームの入力信号と自己相関値が最大となる過去の入力信号との時間差を求め、該時間差にもとづいて入力信号の周期性を判断し、周期性が大きければ第2ピッチラグを現フレームのピッチラグとし、周期性が小さければ第1ピッチラグを現フレームのピッチラグとして選択することを特徴とする請求項1記載の音声符号化装置。 - 適応符号帳及び代数符号帳を用いて音声信号を符号化する音声符号化装置において、
音声信号を所定速度でサンプリングした入力信号を一定サンプル数(=N)のフレーム単位で線形予測分析して得られる線形予測係数を用いて構成される合成フィルタ、
過去Lサンプル分の音声信号のピッチ周期成分を保存し、順次、1ピッチ遅延したNサンプル分の周期性信号を出力するための適応符号帳、
1フレームを構成するNサンプル点を複数のパルス系統グループに分割し、各パルス系統グループから1つのサンプル点を取り出してなる全組み合わせについて、各サンプル点で正極性あるいは負極性のパルスを有するパルス性信号を雑音成分として順次出力するための代数構造符号帳、
適応符号帳から順次出力する周期性信号により前記合成フィルタを駆動して得られる信号と前記入力信号との差が最小となる周期性信号を特定するピッチラグ(第1ピッチラグ)を現フレームのピッチラグとし、あるいは、過去のフレームにおいて求めてあるピッチラグ(第2ピッチラグ)を現フレームのピッチラグとするピッチラグ決定部、
前記決定したピッチラグにより特定される周期性信号と代数構造符号帳から順次出力するパルス性信号とで前記合成フィルタを駆動して得られる信号と前記入力信号との差が最小となるパルス性信号を決定するパルス性信号決定部、
前記ピッチラグ、前記パルス性信号を特定するデータ、前記線形予測係数を音声符号として出力する手段、
を備え、前記ピッチラグ決定部は、第1ピッチラグを使用した時の前記合成フィルタ出力信号と入力信号との差、第2ピッチラグを使用した時の前記合成フィルタ出力と入力信号との差を比較し、差が小さいほうのピッチラグを現フレームのピッチラグとすることを特徴とする音声符号化装置。 - 前記符号出力手段は、第1ピッチラグを現フレームのピッチラグとするときは該第1ピッチラグを出力し、第2ピッチラグを現フレームのピッチラグとするときはその旨を示すデータを出力し、
前記代数構造符号帳は、第1ピッチラグを現フレームのピッチラグとするときに使用する第1の代数構造符号帳と、第2ピッチラグを現フレームのピッチラグとするときに使用する第2の代数構造符号帳を備え、
第2の代数構造符号帳は第1の代数構造符号帳に比べて、パルス系統グループ数を多くしたこと、
を特徴とする請求項1乃至3記載の音声符号化装置。 - 前記第2の代数構造符号帳は、
1フレームを構成するNサンプル点を複数のパルス系統グループに分割し、各パルス系統グループから1つのサンプル点を取り出してなる全組み合わせについて、各サンプル点で正極性あるいは負極性のパルスを有するパルス性信号を雑音成分として順次出力するための第3の代数構造符号帳と、
1フレーム期間より短い期間に含まれるN ′サンプル点を、第3の代数構造符号帳より多いパルス系統グループに分割し、各パルス系統グループから1つのサンプル点を取り出してなる全組み合わせについて、各サンプル点で正極性あるいは負極性のパルスを有するパルス性信号を雑音成分として順次出力するための第4の代数構造符号帳を備え、
前記パルス性信号決定部は、前記第2のピッチラグの値が設定値Mより大きいとき第3の代数構造符号帳を使用し、第2のピッチラグの値が設定値M以下のとき第4の代数構造符号帳を使用する、
ことを特徴とする請求項4記載の音声符号化装置。 - 適応符号帳及び代数符号帳を用いて音声信号を符号化する音声符号化方法において、
音声信号を所定速度でサンプリングした入力信号を一定サンプル数(=N)のフレーム単位で線形予測分析して線形予測係数を求め、該線形予測係数を用いて合成フィルタを構成し、
過去Lサンプル分の音声信号のピッチ周期成分を保存し、1ピッチ遅延したNサンプル分の周期性信号を順次出力するための適応符号帳を設けると共に、
1フレームを構成するNサンプル点を複数のパルス系統グループに分割し、各パルス系統グループから1つのサンプル点を取り出してなる全組み合わせについて、各サンプル点で正極性あるいは負極性のパルスを有するパルス性信号を雑音成分として順次出力するための第1の代数構造符号帳と、第1の代数構造符号帳より多いパルス系統グループに分割し、各パルス系統グループから1つのサンプル点を取り出してなる全組み合わせについて、各サンプル点で正極性あるいは負極性のパルスを有するパルス性信号を順次出力するための第2の代数構造符号帳を設け、
適応符号帳より順次1ピッチ遅延して得られるNサンプル分の周期性信号で前記合成フィルタを駆動して得られる信号と前記入力信号との差が最小となる周期性信号を特定するピッチラグを現フレームのピッチラグとし、該ピッチラグにより特定される周期性信号と第1の代数構造符号帳から順次出力するパルス性信号とで前記合成フィルタを駆動して得られる信号と前記入力信号との差(第1の差)が最小となるパルス性信号を特定し、
過去のフレームにおいて求めてあるピッチラグを現フレームのピッチラグとし、該ピッチラグにより特定される周期性信号と第2の代数構造符号帳から順次出力するパルス性信号とで前記合成フィルタを駆動して得られる信号と前記入力信号との差(第2の差)が最小となるパルス性信号を特定し、
前記第1、第2の差のうち小さい方のピッチラグ及び前記パルス性信号を特定するデータ、前記線形予測係数を音声符号として出力する、
ことを特徴とする音声符号化方法。 - 前記第2の代数構造符号帳として、
1フレームを構成するNサンプル点を複数のパルス系統グループに分割し、各パルス系統グループから1つのサンプル点を取り出してなる全組み合わせについて、各サンプル点で正極性あるいは負極性のパルスを有するパルス性信号を雑音成分として順次出力するための第3の代数構造符号帳と、1フレーム期間より短い期間に含まれるN ′サンプル点を、第3の代数構造符号帳より多いパルス系統グループに分割し、各パルス系統グループから1つのサンプル点を取り出してなる全組み合わせについて、各サンプル点で正極性あるいは負極性のパルスを有するパルス性信号を雑音成分として順次出力するための第4の代数構造符号帳を設け、
過去のフレームで求めた前記ピッチラグが設定値Mより大きいとき第3の代数構造符号帳を使用し、第2のピッチラグが設定値M以下のとき第4の代数構造符号帳を使用して、前記合成フィルタから出力する再生信号と前記入力信号との第2の差が最小となるパルス性信号を特定する、
ことを特徴とする請求項6記載の音声符号化方法。 - 適応符号帳及び代数符号帳を用いて音声信号を符号化する音声符号化方法において、
音声信号を所定速度でサンプリングした入力信号を一定サンプル数(=N)のフレーム単位で線形予測分析して線形予測係数を求め、該線形予測係数を用いて合成フィルタを構成し、
過去Lサンプル分の音声信号のピッチ周期成分を保存し、1ピッチ遅延したNサンプル分の周期性信号を順次出力するための適応符号帳を設けると共に、
1フレームを構成するNサンプル点を複数のパルス系統グループに分割し、各パルス系統グループから1つのサンプル点を取り出してなる全組み合わせについて、各サンプル点で正極性あるいは負極性のパルスを有するパルス性信号を雑音成分として順次出力する第1の代数構造符号帳と、第1の代数構造符号帳に比べパルス系統グループ数を多くした第2の代数構造符号帳を設け、
(1) 入力信号の周期性が低ければ、
適応符号帳より1ピッチ順次遅延して得られるNサンプル分の周期性信号で前記合成フィルタを駆動して得られる信号と前記入力信号との差が最小となる周期性信号を特定するピッチラグを求め、
該ピッチラグにより特定される周期性信号と第1の代数構造符号帳から順次出力するパルス性信号とで前記合成フィルタを駆動して得られる信号と前記入力信号との差が最小となるパルス性信号を特定し、
前記ピッチラグ、前記パルス性信号を特定するデータ、前記線形予測係数を音声符号として出力し、
(2) 入力信号の周期性が高ければ、
過去のフレームにおいて求めてあるピッチラグを現フレームのピッチラグとし、
該ピッチラグにより特定される周期性信号と第2の代数構造符号帳から順次出力するパルス性信号とで前記合成フィルタを駆動して得られる信号と前記入力信号との差が最小となるパルス性信号を特定し、
ピッチラグは過去のピッチラグと同じである旨を示すデータ、前記パルス性信号を特定するデータ、前記線形予測係数を音声符号として出力する、
ことを特徴とする音声符号化方法。 - 前記第2の代数構造符号帳として、
1フレームを構成するNサンプル点を複数のパルス系統グループに分割し、各パルス系統グループから1つのサンプル点を取り出してなる全組み合わせについて、各サンプル点で正極性あるいは負極性のパルスを有するパルス性信号を雑音成分として順次出力するための第3の代数構造符号帳と、1フレーム期間より短い期間に含まれるN ′サンプル点を、第3の代数構造符号帳より多いパルス系統グループに分割し、各パルス系統グループから1つのサンプル点を取り出してなる全組み合わせについて、各サンプル点で正極性あるいは負極性のパルスを有するパルス性信号を雑音成分として順次出力するための第4の代数構造符号帳を設け、
過去のフレームで求めた前記ピッチラグが設定値Mより大きいとき第3の代数構造符号帳を使用し、第2のピッチラグが設定値M以下のとき第4の代数構造符号帳を使用して、前記合成フィルタから出力する再生信号と前記入力信号との差が最小となるパルス性信号を特定する、
ことを特徴とする請求項8記載の音声符号化方法。 - 入力信号を一定長のフレームに分割し、フレーム単位で入力信号を線形予測分析して得られる線形予測係数から構成される合成フィルタを有し、適応符号帳から出力される周期性信号と、代数構造符号帳から出力されるパルス性信号とにより前記合成フィルタを駆動して再生信号を生成し、入力信号と前記再生信号との誤差が最小となるように符号化する音声符号化方法において、
現フレームの入力信号から求めたピッチラグを用いる符号化モード1と、過去のフレームの入力信号から求めたピッチラグを用いる符号化モード2を用意し、
符号化モード1と符号化モード2により符号化した場合、入力信号をより精密に符号化できるモードをフレーム毎に決定し、
該決定されたモードに基づいて符号化する、
ことを特徴とする音声符号化方法。 - 入力信号を一定長のフレームに分割し、フレーム単位で入力信号を線形予測分析して得られる線形予測係数から構成される合成フィルタを有し、適応符号帳から出力される周期性信号と、代数構造符号帳から出力されるパルス性信号とにより前記合成フィルタを駆動して再生信号を生成し、入力信号と前記再生信号との誤差が最小となるように符号化する音声符号化方法において、
現フレームの入力信号から求めたピッチラグを用いる符号化モード1と、過去のフレームの入力信号から求めたピッチラグを用いる符号化モード2を用意し、
入力信号の性質に応じて最適なモードを決定し、
該決定されたモードに基づいて符号化する、
ことを特徴とする音声符号化方法。 - 適応符号帳及び代数符号帳を用いて音声信号を復号化する音声復号化装置において、
符号化装置より受信した線形予測係数を用いて構成される合成フィルタ、
復号した過去Lサンプル分の音声信号のピッチ周期成分を保存すると共に、符号化装置より受信したピッチラグあるいはピッチラグは過去と同じであるという情報より求まるピッチラグが示す周期性信号を出力する適応符号帳、
受信したパルス性信号特定データが示すパルス性信号を雑音成分として出力する代数構造符号帳、
適応符号帳から出力する周期性信号と代数符号帳から出力するパルス性信号を合成して前記合成フィルタに入力し、該合成フィルタより再生信号を出力する手段、
を備えたことを特徴とする音声復号化装置。 - 前記代数構造符号帳は、第1の代数構造符号帳と、第1の代数構造符号帳に比べてパルス系統グループ数を多くした第2の代数構造符号帳を備え、
符号化装置よりピッチラグを受信すれば前記第1の代数構造符号帳より前記受信したパルス性信号特定データが示すパルス性信号を出力し、
符号化装置よりピッチラグは過去と同じであるという情報を受信すれば前記第2の代数構造符号帳より前記受信したパルス性信号特定データが示すパルス性信号を出力すること、
を特徴とする請求項13記載の音声復号化装置。 - 前記第2の代数構造符号帳は、
1フレームを構成するNサンプル点を複数のパルス系統グループに分割し、各パルス系統グループから1つのサンプル点を取り出してなる全組み合わせについて、各サンプル点で正極性あるいは負極性のパルスを有するパルス性信号を雑音成分として順次出力する第3の代数構造符号帳と、
1フレーム周期より短い周期に含まれるN ′サンプル点を、第3の代数構造符号帳より多いパルス系統グループに分割し、各パルス系統グループから1つのサンプル点を取り出してなる全組み合わせについて、各サンプル点で正極性あるいは負極性のパルスを有するパルス性信号を雑音成分として順次出力する第4の代数構造符号帳を備え、
符号化装置より、ピッチラグが過去と同じであるという情報を受信した場合、該ピッチラグが設定値Mより大きいとき第3の代数構造符号帳より前記受信したパルス性信号特定データが示すパルス性信号を出力し、該ピッチラグが設定値M以下のとき第4の代数構造符号帳より前記受信したパルス性信号特定データが示すパルス性信号を出力すること、
を特徴とする請求項13記載の音声復号化装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP1999/004991 WO2001020595A1 (en) | 1999-09-14 | 1999-09-14 | Voice encoder/decoder |
Publications (1)
Publication Number | Publication Date |
---|---|
JP4005359B2 true JP4005359B2 (ja) | 2007-11-07 |
Family
ID=14236705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001524094A Expired - Fee Related JP4005359B2 (ja) | 1999-09-14 | 1999-09-14 | 音声符号化及び音声復号化装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6594626B2 (ja) |
EP (1) | EP1221694B1 (ja) |
JP (1) | JP4005359B2 (ja) |
DE (1) | DE69932460T2 (ja) |
WO (1) | WO2001020595A1 (ja) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7457415B2 (en) | 1998-08-20 | 2008-11-25 | Akikaze Technologies, Llc | Secure information distribution system utilizing information segment scrambling |
US6934677B2 (en) | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
US7240001B2 (en) * | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
AU2003214182A1 (en) * | 2002-03-12 | 2003-09-29 | Dilithium Networks Pty Limited | Method for adaptive codebook pitch-lag computation in audio transcoders |
JP4676140B2 (ja) * | 2002-09-04 | 2011-04-27 | マイクロソフト コーポレーション | オーディオの量子化および逆量子化 |
US7299190B2 (en) * | 2002-09-04 | 2007-11-20 | Microsoft Corporation | Quantization and inverse quantization for audio |
US7502743B2 (en) * | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
KR100463417B1 (ko) * | 2002-10-10 | 2004-12-23 | 한국전자통신연구원 | 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치 |
JP2004157381A (ja) * | 2002-11-07 | 2004-06-03 | Hitachi Kokusai Electric Inc | 音声符号化装置及び方法 |
KR100465316B1 (ko) * | 2002-11-18 | 2005-01-13 | 한국전자통신연구원 | 음성 부호화기 및 이를 이용한 음성 부호화 방법 |
US7698132B2 (en) * | 2002-12-17 | 2010-04-13 | Qualcomm Incorporated | Sub-sampled excitation waveform codebooks |
TWI225637B (en) * | 2003-06-09 | 2004-12-21 | Ali Corp | Method for calculation a pitch period estimation of speech signals with variable step size |
WO2005020210A2 (en) * | 2003-08-26 | 2005-03-03 | Sarnoff Corporation | Method and apparatus for adaptive variable bit rate audio encoding |
US20050091047A1 (en) * | 2003-10-27 | 2005-04-28 | Gibbs Jonathan A. | Method and apparatus for network communication |
JP4789430B2 (ja) | 2004-06-25 | 2011-10-12 | パナソニック株式会社 | 音声符号化装置、音声復号化装置、およびこれらの方法 |
CN101873267B (zh) | 2004-08-30 | 2012-10-24 | 高通股份有限公司 | 用于语音ip传输的自适应去抖动缓冲器 |
US8085678B2 (en) | 2004-10-13 | 2011-12-27 | Qualcomm Incorporated | Media (voice) playback (de-jitter) buffer adjustments based on air interface |
US8155965B2 (en) | 2005-03-11 | 2012-04-10 | Qualcomm Incorporated | Time warping frames inside the vocoder by modifying the residual |
US8355907B2 (en) | 2005-03-11 | 2013-01-15 | Qualcomm Incorporated | Method and apparatus for phase matching frames in vocoders |
US7539612B2 (en) * | 2005-07-15 | 2009-05-26 | Microsoft Corporation | Coding and decoding scale factor information |
US8306827B2 (en) * | 2006-03-10 | 2012-11-06 | Panasonic Corporation | Coding device and coding method with high layer coding based on lower layer coding results |
US8712766B2 (en) * | 2006-05-16 | 2014-04-29 | Motorola Mobility Llc | Method and system for coding an information signal using closed loop adaptive bit allocation |
JPWO2008001866A1 (ja) * | 2006-06-29 | 2009-11-26 | パナソニック株式会社 | 音声符号化装置及び音声符号化方法 |
US8364492B2 (en) * | 2006-07-13 | 2013-01-29 | Nec Corporation | Apparatus, method and program for giving warning in connection with inputting of unvoiced speech |
CN101226744B (zh) * | 2007-01-19 | 2011-04-13 | 华为技术有限公司 | 语音解码器中实现语音解码的方法及装置 |
JP5264913B2 (ja) * | 2007-09-11 | 2013-08-14 | ヴォイスエイジ・コーポレーション | 話声およびオーディオの符号化における、代数符号帳の高速検索のための方法および装置 |
CN100578619C (zh) * | 2007-11-05 | 2010-01-06 | 华为技术有限公司 | 编码方法和编码器 |
CN101981612B (zh) * | 2008-09-26 | 2012-06-27 | 松下电器产业株式会社 | 声音分析装置以及声音分析方法 |
CN101931414B (zh) | 2009-06-19 | 2013-04-24 | 华为技术有限公司 | 脉冲编码方法及装置、脉冲解码方法及装置 |
WO2012008330A1 (ja) * | 2010-07-16 | 2012-01-19 | 日本電信電話株式会社 | 符号化装置、復号装置、これらの方法、プログラム及び記録媒体 |
CN102623012B (zh) * | 2011-01-26 | 2014-08-20 | 华为技术有限公司 | 矢量联合编解码方法及编解码器 |
US9230554B2 (en) | 2011-02-16 | 2016-01-05 | Nippon Telegraph And Telephone Corporation | Encoding method for acquiring codes corresponding to prediction residuals, decoding method for decoding codes corresponding to noise or pulse sequence, encoder, decoder, program, and recording medium |
CN104321814B (zh) * | 2012-05-23 | 2018-10-09 | 日本电信电话株式会社 | 频域基音周期分析方法和频域基音周期分析装置 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2940005B2 (ja) * | 1989-07-20 | 1999-08-25 | 日本電気株式会社 | 音声符号化装置 |
EP0443548B1 (en) * | 1990-02-22 | 2003-07-23 | Nec Corporation | Speech coder |
US5701392A (en) * | 1990-02-23 | 1997-12-23 | Universite De Sherbrooke | Depth-first algebraic-codebook search for fast coding of speech |
US5754976A (en) * | 1990-02-23 | 1998-05-19 | Universite De Sherbrooke | Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech |
US5396576A (en) * | 1991-05-22 | 1995-03-07 | Nippon Telegraph And Telephone Corporation | Speech coding and decoding methods using adaptive and random code books |
JP2538450B2 (ja) | 1991-07-08 | 1996-09-25 | 日本電信電話株式会社 | 音声の励振信号符号化・復号化方法 |
JPH05167457A (ja) * | 1991-12-19 | 1993-07-02 | Matsushita Electric Ind Co Ltd | 音声符号化装置 |
JP2774003B2 (ja) * | 1991-12-24 | 1998-07-09 | 沖電気工業株式会社 | コード励振線形予測符号化装置 |
US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
JP3057907B2 (ja) * | 1992-06-16 | 2000-07-04 | 松下電器産業株式会社 | 音声符号化装置 |
DE69328450T2 (de) * | 1992-06-29 | 2001-01-18 | Nippon Telegraph & Telephone | Verfahren und Vorrichtung zur Sprachkodierung |
JP2779886B2 (ja) * | 1992-10-05 | 1998-07-23 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
JP3230782B2 (ja) | 1993-08-17 | 2001-11-19 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
JP3199142B2 (ja) | 1993-09-22 | 2001-08-13 | 日本電信電話株式会社 | 音声の励振信号符号化方法および装置 |
EP0657874B1 (en) * | 1993-12-10 | 2001-03-14 | Nec Corporation | Voice coder and a method for searching codebooks |
US5684920A (en) * | 1994-03-17 | 1997-11-04 | Nippon Telegraph And Telephone | Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein |
FR2729245B1 (fr) * | 1995-01-06 | 1997-04-11 | Lamblin Claude | Procede de codage de parole a prediction lineaire et excitation par codes algebriques |
JP3235703B2 (ja) * | 1995-03-10 | 2001-12-04 | 日本電信電話株式会社 | ディジタルフィルタのフィルタ係数決定方法 |
JP3471542B2 (ja) * | 1996-10-31 | 2003-12-02 | 日本電気株式会社 | 音声符号化装置 |
JP3174742B2 (ja) * | 1997-02-19 | 2001-06-11 | 松下電器産業株式会社 | Celp型音声復号化装置及びcelp型音声復号化方法 |
CN1170268C (zh) * | 1996-11-07 | 2004-10-06 | 松下电器产业株式会社 | 声音编码或解码装置及方法 |
US6345246B1 (en) * | 1997-02-05 | 2002-02-05 | Nippon Telegraph And Telephone Corporation | Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates |
US6073092A (en) * | 1997-06-26 | 2000-06-06 | Telogy Networks, Inc. | Method for speech coding based on a code excited linear prediction (CELP) model |
US6014618A (en) * | 1998-08-06 | 2000-01-11 | Dsp Software Engineering, Inc. | LPAS speech coder using vector quantized, multi-codebook, multi-tap pitch predictor and optimized ternary source excitation codebook derivation |
US6330533B2 (en) * | 1998-08-24 | 2001-12-11 | Conexant Systems, Inc. | Speech encoder adaptively applying pitch preprocessing with warping of target signal |
US6295520B1 (en) * | 1999-03-15 | 2001-09-25 | Tritech Microelectronics Ltd. | Multi-pulse synthesis simplification in analysis-by-synthesis coders |
-
1999
- 1999-09-14 DE DE69932460T patent/DE69932460T2/de not_active Expired - Lifetime
- 1999-09-14 WO PCT/JP1999/004991 patent/WO2001020595A1/ja active IP Right Grant
- 1999-09-14 EP EP99943314A patent/EP1221694B1/en not_active Expired - Lifetime
- 1999-09-14 JP JP2001524094A patent/JP4005359B2/ja not_active Expired - Fee Related
-
2002
- 2002-01-08 US US10/046,125 patent/US6594626B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1221694B1 (en) | 2006-07-19 |
DE69932460T2 (de) | 2007-02-08 |
EP1221694A1 (en) | 2002-07-10 |
US6594626B2 (en) | 2003-07-15 |
WO2001020595A1 (en) | 2001-03-22 |
US20020111800A1 (en) | 2002-08-15 |
DE69932460D1 (de) | 2006-08-31 |
EP1221694A4 (en) | 2005-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4005359B2 (ja) | 音声符号化及び音声復号化装置 | |
US6260009B1 (en) | CELP-based to CELP-based vocoder packet translation | |
EP1224662B1 (en) | Variable bit-rate celp coding of speech with phonetic classification | |
JPH10187197A (ja) | 音声符号化方法及び該方法を実施する装置 | |
JP3446764B2 (ja) | 音声合成システム及び音声合成サーバ | |
US9972325B2 (en) | System and method for mixed codebook excitation for speech coding | |
JPH0990995A (ja) | 音声符号化装置 | |
JP3268360B2 (ja) | 改良されたロングターム予測器を有するデジタル音声コーダ | |
JP2000155597A (ja) | デジタル音声符号器において使用するための音声符号化方法 | |
JP3582589B2 (ja) | 音声符号化装置及び音声復号化装置 | |
JPH05265496A (ja) | 複数のコードブックを有する音声符号化方法 | |
JP2003044099A (ja) | ピッチ周期探索範囲設定装置及びピッチ周期探索装置 | |
JP3916934B2 (ja) | 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置 | |
JP3232701B2 (ja) | 音声符号化方法 | |
JP3490325B2 (ja) | 音声信号符号化方法、復号方法およびその符号化器、復号器 | |
JP2004348120A (ja) | 音声符号化装置、音声復号化装置及びこれらの方法 | |
JP3319396B2 (ja) | 音声符号化装置ならびに音声符号化復号化装置 | |
JPH08234795A (ja) | 音声符号化装置 | |
JP3552201B2 (ja) | 音声符号化方法および装置 | |
JP2002073097A (ja) | Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法 | |
JP3192051B2 (ja) | 音声符号化装置 | |
JP3284874B2 (ja) | 音声符号化装置 | |
JP3350340B2 (ja) | 音声符号化方法および音声復号化方法 | |
JP3071800B2 (ja) | 適応ポストフィルタ | |
JPH08160996A (ja) | 音声符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040309 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061017 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070821 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070823 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100831 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110831 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120831 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120831 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130831 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |