JP4690356B2 - ボコーダの動作方法 - Google Patents

ボコーダの動作方法 Download PDF

Info

Publication number
JP4690356B2
JP4690356B2 JP2007074674A JP2007074674A JP4690356B2 JP 4690356 B2 JP4690356 B2 JP 4690356B2 JP 2007074674 A JP2007074674 A JP 2007074674A JP 2007074674 A JP2007074674 A JP 2007074674A JP 4690356 B2 JP4690356 B2 JP 4690356B2
Authority
JP
Japan
Prior art keywords
subframe
fixed codebook
vocoder
bits
pulse train
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007074674A
Other languages
English (en)
Other versions
JP2007226252A (ja
Inventor
エリツィン エンジン
チャールズ レッキオン マイケル
Original Assignee
アルカテル−ルーセント ユーエスエー インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルカテル−ルーセント ユーエスエー インコーポレーテッド filed Critical アルカテル−ルーセント ユーエスエー インコーポレーテッド
Publication of JP2007226252A publication Critical patent/JP2007226252A/ja
Application granted granted Critical
Publication of JP4690356B2 publication Critical patent/JP4690356B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • H03M7/42Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code using table look-up for the coding or decoding process, e.g. using read-only memory
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

本発明は、ボコーダに関し、特に、ボコーダによって生成される固定コードブック応答の表現に関する。
図1および図2に、従来技術による符号励振線形予測(CELP)ボコーダの送信および受信ユニットを示す。図1において、送信ユニットは第1ボコーダ1である。第1ボコーダ1は、線形予測符号化(LPC)フィルタ2を有する。LPCフィルタ2は、ジャンクション(接合点)4を介して知覚加重フィルタ3に接続される。知覚加重フィルタ3は、誤差最小化フィルタ5に接続される。誤差最小化フィルタ5は、第1適応コードブック6および第1固定コードブック7に接続される。第1適応コードブック6は、第1適応コードブック利得ユニット8に接続される。第1固定コードブック7は、第1固定コードブック利得ユニット9に接続される。第1適応コードブック利得ユニット8および第1固定コードブック利得ユニット9の出力はジャンクション10で接続される。ジャンクション10はジャンクション4に接続される。
一般に、第1ボコーダ1は、ディジタル音声入力の時間セグメントを順次分析する。各時間セグメントを信号フレームという。ボコーダ1は、各信号フレームを特徴づけるパラメータを推定する。これらのパラメータは、ビットパターンで表され、1つのビットフレームにまとめられる。ビットフレームは、それが表す信号フレームよりも高速に送信されることが可能であり、より少ないメモリに記憶することが可能である。
次に、図1を参照して、公知のIS127 EVRC CDMA型符号器(ボコーダ1)の動作の一般的な説明を行う。ボコーダ1の動作についてさらに詳細には、ディジタル音声符号化に関する教科書に記載されている。ボコーダ1はマルチレートボコーダであり、毎秒8キロビット(kbps)に対応するフルレートの動作と、4kbpsに対応するハーフレートの動作がある。ディジタル音声入力は、20msecの信号フレームに分割される。各信号フレームはさらに、約6.6msecの第1、第2、および第3のサブフレームに分割される。
ボコーダ1がフルレートで動作するとき、信号フレームはLPCフィルタ2を通る。LPCフィルタ2は、信号フレーム全体を特徴づけるLPCパラメータを抽出し、そのLPCパラメータを、28ビットのLPCビットの形で出力する。信号フレームは、LPCフィルタを出て、ジャンクション4、知覚加重フィルタ3、および誤差最小化フィルタ5を通る。知覚加重フィルタ3および誤差最小化フィルタ5は、信号フレームからパラメータビットを抽出しないが、この信号フレームを後の処理のために準備する。
次に、信号フレームは、第1適応コードブック6に入力される。第1適応コードブック6は、フレーム全体のピッチを推定し、フレーム全体のピッチを特徴づける7ビットのACBビットを出力する。次に、第1適応コードブック利得ユニット8が、第1サブフレーム、第2サブフレーム、および第3サブフレームの適応コードブック利得を推定する。3ビットのACBGビットが、第1サブフレームの適応コードブック利得を推定する。さらに3ビットのACBGビットが、第2サブフレームの適応コードブック利得を推定する。さらに3ビットのACBGビットが、第3サブフレームの適応コードブック利得を推定する。
次に、信号は、ジャンクション10、ジャンクション4、知覚加重フィルタ3、および誤差最小化フィルタ5を通り、第1固定コードブック7に入力される。第1固定コードブック7は、第1サブフレーム、第2サブフレーム、および第3サブフレームのランダムな無声音特性を推定する。35ビットのFCBビットが、第1サブフレームの固定コードブック応答を表す。さらに35ビットのFCBビットが、第2サブフレームの固定コードブック応答を表す。さらに35ビットのFCBビットが、第3サブフレームの固定コードブック応答を表す。
次に、第1固定コードブック利得ユニット9が、第1サブフレーム、第2サブフレーム、および第3サブフレームの固定コードブック利得を推定する。5ビットのFCBGビットが、第1サブフレームの固定コードブック利得を推定する。さらに5ビットのFCBGビットが、第2サブフレームの固定コードブック利得を推定する。さらに5ビットのFCBGビットが、第3サブフレームの固定コードブック利得を推定する。
この時点で、すべてのビットパターン(LPC、ACB、ACBG、FCB、FCBG)がビットフレームにまとめられる。このビットフレーム(信号フレームを表す)は完全であり、合成のために第2ボコーダ11に送信するか、または、後で取り出すためにメモリに記憶することが可能である。上記のプロセスは、ディジタル音声入力の各信号フレームについて順次繰り返される。
図2に、ビットフレームを合成する第2ボコーダ11の復号セクションを示す。第2ボコーダ11は、第2適応コードブック12、第2固定コードブック13、第2適応コードブック利得ユニット14、第2固定コードブック利得ユニット15、および合成フィルタ16を有する。第2ボコーダ11は、LPCビット、ACBGビット、ACBビット、FCBビット、およびFCBGビットを受信する。これらのビットは、第2ボコーダ11によって、当業者に周知のように、もとの信号フレームの推定値を再構成するために使用される。
上記のようなさまざまなパラメータに割り当てられるビットフレーム内のビット位置の総数は、8kbpsのフルレートで動作するボコーダ1(IS127 EVRC CDMA符号器)に関係する。要約すると、ビットフレームは、28ビットのLPCビット、7ビットのACBビット、3+3+3=9ビットのACBGビット、35+35+35=105ビットのFCBビット、および5+5+5=15ビットのFCBGビットを含む。従って、ビットフレーム内の全ビット数は164ビットとなる。
上記のように、ボコーダ1はマルチレートボコーダであり、ボコーダ1のハーフレートは4kbpsである。ボコーダ1がハーフレートで動作するとき、リアルタイムで、到来するディジタル音声入力に依然として追随しながら、サイズが164ビットのビットフレームを送信することはもはや不可能である。その代わりに、フレームサイズを縮小して約80ビット位置にしなければならない。
ボコーダ1(IS127 EVRC CDMA符号器)がハーフレート(4kpbs)で動作するとき、ビット位置は次のように割り当てられる。
LPCビット: 22
ACBビット: 7
ACBGビット: 3+3+3=9
FCBビット: 10+10+10=30
FCBGビット: 4+4+4=12
従って、ビットフレーム内の全ビット数は80ビットとなる。わかるように、FCBビットが、ビットフレームのサイズ縮小の支配的な負担を被っている。
本発明は固定コードブックに関係するため、ボコーダ1における固定コードブック計算の動作について簡単にまとめる。フルレート(8kbps)では、フレームの固定コードブック応答を表すために割り当てられる105ビット位置が、3個のサブフレームのそれぞれに8個の推定パルスを入れることができる。図形的にこれを図3に示す。
図3において、第1信号ライン17は、推定のために固定コードブック7に入力される第2残差信号を表す。第1サブフレーム18は53個のサンプル点に分割され、第2サブフレーム19も53個のサンプル点に分割され、第3サブフレーム20は54個のサンプル点に分割される。
信号ライン17上の第2残差信号の特性を最もよく推定するために、正負のパルス21が、サンプル点のうちの選択点に配置される。例えば、第2信号ライン22は、第1信号ラインの第2残差信号を推定する際の、パルス21の極性(正負)および配置を例示する。配置および極性は、サブフレーム18、19、20のそれぞれに対するFCBビットによって特徴づけられるデータである。すなわち、各サブフレームに対して、固定コードブック7は、第1信号ライン17の第2残差信号を表すために8〜10個のパルス21の最良の配置を推定し、そのサブフレームに対するFCBビットは、パルス21の配置および極性を指定する。
第2ボコーダ11がFCBビットを受信すると、第1信号ライン17の第2残差信号の推定を行うために、正負のパルス21の配置に基づいてエンベロープ(包絡)23を数学的に構成することができる。図形的には、これは第3信号ライン24に例示される。もちろん、各サブフレームのFCBGビットが、それぞれのサブフレーム内のエンベロープ23の山および谷の振幅に影響を及ぼし、エンベロープ23の山および谷の振幅が第2残差信号内の実際の山および谷の平均振幅に一致するようにされる。
ボコーダ1がフルレート(8kbps)で動作するとき、固定コードブック応答に割り当てられる、ビットフレーム内の105ビット位置は、第2信号ライン22および第3信号ライン24によって例示されるように、サブフレームあたり8個のパルスの位置および極性を表すことができる。ボコーダ1がハーフレート(4kbps)で動作するとき、固定コードブック応答に割り当てられる、フレーム内の30ビット位置は、サブフレームあたり3個のパルスの位置および極性しか表すことができない。
第4信号25は、ボコーダ1がハーフレートで動作するときの正負のパルス21’の配置と、パルス21’の配置に従って数学的に構成されるエンベロープ23’を例示する。明らかにわかるように、ハーフレート動作中に得られるエンベロープ23’は、第1信号ライン17の第2残差信号を近似していないし、またほとんど同様に、ボコーダ1がフルレートで動作するときに得られるエンベロープ23をも近似していない。
観察されるように、第1ボコーダ1および第2ボコーダ11は、ビットフレームの送信中に中ないし高ビットレート(例えば、4.8kbps〜16kbps)を使用するときには、十分な再生品質でディジタル音声を処理する。しかし、ビットレートが(ハーフレートに対応する4kbpsのレートのように)4.8kbpsを下回ると、合成される音声の品質は大幅に悪化する。この悪い品質は主に、図3の第4信号ライン25によって例示されるように、サブフレームの固定コードブック応答の不正確な表現によるものである。
不正確な表現は、すべてのサブフレームの固定コードブック応答を表すためにビットフレーム内に割り当てられるビット数が制限されている(例えば30ビット)結果である。ビットレートが低いときにビットフレームサイズを増大させることはできないため、従来技術では、ビットフレーム内のビット位置の数が制限された状態で、信号フレーム(またはサブフレーム)の固定コードブック応答をより正確に表現することができるボコーダ、およびそのようなボコーダの動作方法が必要とされている。
本発明によるボコーダは、信号フレームまたはサブフレームの残差信号と比較するためのパルス列の複数のエントリを有する固定コードブックを有する。固定コードブックのエントリは、符号化される信号フレームまたはサブフレームに合わせて設定される。ノイズ信号が、送信ボコーダに記憶される。符号化中、ノイズ信号は、信号フレームまたはサブフレームを特徴づける決定されたパラメータに依存するフィルタリングにより整形(シェーピング)される。整形されたノイズ信号をしきい値フィルタに通してパルス列を得る。固定コードブック応答は、パルス列のうち、信号フレームまたはサブフレームの残差信号に最もよく一致する部分(すなわちエントリ)として選択される。この部分のインデックス付けされた位置が、ビットフレーム内に含まれる固定コードブックビットとして指定される。同一のノイズ信号が、復号ボコーダにも記憶される。同じアクティブフィルタリングおよびしきい値フィルタリングをこの同一のノイズ信号に適用して同じパルス列を得る。従って、ビットフレームの固定コードブックビットは、合成中に使用される固定コードブック応答を表すパルス列の正しい部分をインデックス付けすることになる。
図4に、本発明による送信側の第1ボコーダ50を示す。ボコーダ50は、LPCフィルタ2、知覚加重フィルタ3、誤差最小化フィルタ5、第1適応コードブック6、第1適応コードブック利得ユニット8、および第1固定コードブック利得ユニット9を有する。特に注目すべきなのは、本発明による、第1固定コードブック整形ユニット51と、改良された第1固定コードブック52である。第1固定コードブック整形ユニット51は、第1固定コードブック52に接続され、LPCビット、ACBビット、およびACBGビットを含む入力を受け取る。
第1ボコーダ50の動作方法は、固定コードブック応答推定に関連するところを除いては、上記の方法に対応する。第1サブフレーム18が推定されているとき、3個のパルス21’の最良の配置を決定する代わりに、第2残差信号(信号ライン17)は、複数の可能パルス列と比較され、第2残差信号に最もよく一致するのはどのパルス列であるかが決定される。
図形的には、この比較は図5に示される。与えられたサブフレームの固定コードブック応答を表すために10ビット位置が割り当てられるため、第1固定コードブック52は、第2残差信号と比較するために1024(210=1024)個の可能なパルス列を有することになる。比較が行われ、最良一致列が決定されると、最良一致列のアドレスがそのサブフレームに対するFCBビットとみなされる。これについてさらに詳細に以下で説明する。
1,024個だけの相異なるパルス列が第1固定コードブック52によって比較されるため、これらの列を注意深く選択し、できるだけ近い一致が見出されるようにすることが重要である。本発明によれば、与えられたサブフレームの固定コードブック応答は、そのサブフレームを特徴づけるLPCビット、ACBビット、およびACBGビットとの対応関係を有することが発見された。この発見に基づいて、本発明は、サブフレームの固定コードブック応答の推定の前に、第1固定コードブック52の可能な列を生成する第1固定コードブック整形ユニット51を実現する。
次に、第1固定コードブック整形ユニット51の動作について、図6および図7を参照して説明する。第1固定コードブック整形ユニット51は、信号ライン53上に例示するような、一様分布ランダムノイズf(n)を記憶している。このランダムノイズf(n)(例えば、ガウス分布ランダムノイズ)は、平坦なスペクトルを有する。ランダムノイズf(n)は、線形予測(LP)加重フィルタ54およびピッチ先鋭化フィルタ55に通される。フィルタ54および55はアクティブフィルタである。すなわち、信号に対するこれらの作用は入力により制御される。フィルタ54および55は、ランダムノイズf(n)を修正して、信号ライン56上に例示するような出力信号fs(n)を生成する。出力信号fs(n)は、低減されたピークを有する。すなわち、ランダムノイズf(n)は、LPCフィルタ2、第1適応コードブック6、および第1適応コードブック利得ユニット8によって決定されるパラメータに従って、フィルタ54および55によりスペクトル整形されている。
LP加重フィルタ54およびピッチ先鋭化フィルタ55の動作は、LPCビット、ACBビット、およびACBGビットに関連する式によって支配される。式は、図6に示されている。A(z)は、LPCフィルタ2の出力を表す。gaは、量子化されたACB利得である。Pは、ピッチ遅延(適応コードブック6により決定される)である。本質的に、LP加重フィルタ54は、γ1倍およびγ2倍に極を広げる(ブロードニング)。
LP加重フィルタ54およびピッチ先鋭化フィルタ55は、広く使用されているフィルタである。これらのフィルタの式および動作特性は既知である。しかし、本発明に開示されるような組合せでLP加重フィルタ54およびピッチ先鋭化フィルタ55を使用することはこれまで知られていない。LP加重フィルタ54およびピッチ先鋭化フィルタ55についてさらに詳細には、この問題に関する教科書、例えば、W. B. Kleijn et al., "Speech Coding and Synthesis", Elsevier Press, 1995, pp.89-90、に記載されている。
ピッチ先鋭化フィルタ55の出力fs(n)は、非線形しきい値フィルタ57を通され、信号ライン58上に例示するような、パルス列P(n)を得る。しきい値フィルタ57は、調整可能な上方しきい値および下方しきい値を有する。これらのしきい値の間に信号fs(n)が現れるとすべて0に等しくセットされる。所定期間上方しきい値より上に信号fs(n)が現れると正パルス21’’となり、同様に、所定期間下方しきい値より下に信号fs(n)が現れると負パルス21’’となる。
パルス21’’のまばらさは、しきい値フィルタ57の上方および下方しきい値の設定によって制御することができる。例えば、これらのしきい値が互いに近い(すなわち、0に近い)場合、多くのパルス21’’がパルス列P(n)に現れる。これらのしきい値が比較的遠く離れている(すなわち、0から遠く離れている)場合、非常に少ないパルス21’’がパルス列P(n)に現れることになる。本発明によれば、まばらさは、約85%〜93%の範囲に設定するのが好ましい。すなわち、サンプルのうちの85%〜90%を0に等しくし、サブフレームあたり4〜7個程度のパルスを残すのが好ましい。
本発明が、図3に例示したように、サブフレームあたり53〜54個のサンプル固定コードブック整形ユニット51に記憶されているランダムノイズf(n)は54+1024=1078サンプルの間継続し、6.7msecのサブフレームでは、これは約133msecの継続時間となる。可能な固定コードブック応答は、パルス列P(n)の上をシフトされる、幅54サンプルのウィンドウ(ベクトルともいう)によって決定される。
ウィンドウのゼロの位置を参照符号60で示す。ウィンドウ60の直上のパルス列は、第1固定コードブック52(図5参照)によって、インデックス付けされたエントリ(0)により表される。第1のシフトされたウィンドウの配置を参照符号61で示す。ウィンドウ61の直上のパルス列は、第1固定コードブック52によって、インデックス付けされたエントリ(1)により表される。第2のシフトされたウィンドウの配置を参照符号62で示す。ウィンドウ62の直上のパルス列は、第1固定コードブック52によって、インデックス付けされたエントリ(2)により表される。このウィンドウシフトプロセスは、インデックス付けされたエントリ(1023)を表す最後のシフトされたウィンドウ63が第1固定コードブック52によって決定されるまで繰り返される。
2156サンプル期間のランダムノイズf(n)を有することも可能である。この場合、ウィンドウ(ベクトル)は、2サンプルの増分でシフトされ、固定コードブックの1,024個の可能な列を得る。実際、ランダムノイズの継続時間を延長し、ウィンドウの増分ステップを増大させることによって、このパターンをさらに続けることが可能である。
第1サブフレーム18に対する固定コードブック応答は、第1サブフレームの第2残差信号に最も良く一致するパルス列であると決定される。このエントリのインデックス(これは、パルス列P(n)に沿ってウィンドウの位置をシフトさせた個数に等しい)は、第1サブフレーム18に対するFCBビットとなる。次に、第1固定コードブック52の新たなパルス列を形成し、第2サブフレーム19の固定コードブック応答が決定される。次に、再び第1固定コードブック52の新たなパルス列を形成し、第3サブフレーム20の固定コードブック応答が決定される。
なお、本発明の変形例として、第1固定コードブック52の新たなパルス列を単に周期的に決定することも可能である。例えば、新たなパルス列は、新たなパルス列を、新たなサブフレームごとに(これはつまり本発明の好ましい実施例である)ではなく、新たな信号フレームごとにのみ形成することも可能である。あるいは、1つおきの信号フレームごとに、新たなエントリを形成することなども可能である。固定コードブックのパルス列の再形成を信号フレームごとや1つおきの信号フレームごとに制限することにより、関連する計算は簡略化される。さらに、固定コードブックのパルス列の再使用は、固定コードブック応答を推定する際に通常は十分な精度である。音声は、関連する短時間に大幅に変動することはあまりないからである。
図8に、受信側の第2ボコーダ64の復号セクションを示す。第2ボコーダ64は、第2適応コードブック12、第2適応コードブック利得ユニット14、第2固定コードブック利得ユニット15、および合成フィルタ16を有する。特に注目すべきなのは、本発明による、第2固定コードブック整形ユニット65と、改良された第2固定コードブック66である。
第2固定コードブック整形ユニット65の動作は、第1ボコーダ50の第1固定コードブック整形ユニット51と同一である。第2固定コードブック整形ユニット65内には、図7の信号ライン53上に例示される、ランダムノイズf(n)と同一のコピーが記憶される。第2固定コードブック整形ユニット65は、同一のアクティブフィルタ54および55を有するとともに、第1固定コードブック整形ユニット51内のしきい値フィルタ57の上方および下方しきい値に等しく設定された上方および下方しきい値を有する同一のしきい値フィルタ57を有する。従って、第2固定コードブック整形ユニット65は、前に第1固定コードブック整形ユニット51で生成されたパルス列P(n)と同一の、図7の信号ライン58上に示した、1,078サンプルのサンプル期間を有するパルス列P(n)を生成することができる。
パルス列P(n)が生成されると、第2固定コードブック66は、パルス列P(n)に沿って、FCBビットによって表されるインデックスに等しい位置の個数だけ、長さ54サンプルのウィンドウをシフトすることにより、固定コードブック応答を決定することができる。パルス列P(n)のうち、シフトされたウィンドウの直上にある部分は、第1ボコーダ50によって決定された固定コードブック応答の正しい推定値である。第2ボコーダによる信号フレームの合成のその他のすべての点については、図2に示した従来技術の復号ボコーダ11と同様である。
なお、第2残差信号を推定するために利用可能な、第1固定コードブック52内のパルス列エントリは、それぞれ、4〜7個程度のパルスを含むことが可能である。これは、従来技術においては第2残差信号のサブフレーム推定値あたり3個のパルスであったことよりも大幅な改善である。この改善により、再生される音声の品質における顕著な改善が実現される。
第1固定コードブック52において列あたり4〜7個のパルスを配置することを可能にする本発明の重要な1つの特徴は、パルス列P(n)(これからエントリがとられる)が、モデル化される信号の他の決定されたパラメータに従って構成されることである。本発明によれば、LPCパラメータ、ACBパラメータ、およびACBGパラメータのような他の決定されたパラメータは、予想される固定コードブック応答とある相関関係を有する。従って、これらのパラメータを用いて、制限されたサイズの固定コードブックに利用可能なパルス列を整形することが可能であり、これにより、可能なパルス列は、分析を行うときに第2残差信号に一致する可能性が比較的高くなる。
仮に、4〜7個のパルスのパルス列が単にランダムに生成される場合には、制限されたサイズの固定コードブック(1024個の可能な列)は、連続変化する第2残差信号の大多数に一致する適当なパルス列を提供するには統計的に不十分である。すなわち、1024個の可能なパルス列のそれぞれが、列に沿ってランダムに位置する4〜7個のパルスを有する場合、固定コードブックによって決定される、第2残差信号への最良一致パルス列の一致は悪くなる可能性が高く、そのフレームまたはサブフレームに対して再生される音声は不正確になる。
なお、注意すべき点であるが、第2ボコーダ64は、第1固定コードブック52によって使用されるパルス列P(n)を再構成するために、別のデータを受信する必要はないという点で有利である。パルス列P(n)の再構成に用いられるLPCビット、ACBビット、およびACBGビットは、音声信号を再構成するために第2ボコーダ64によって既に必要とされているため、別のデータはビットフレームに含まれない。
以上の説明および図面では、サブフレーム内のサンプル点に位置するパルスに関して説明している。直ちに明らかなように、このような説明は、数学的演算および数式の単なる図形的表現である。この図形的表現は、従来技術と本発明との相違点の説明を単純化するものである。実際には、固定コードブック52および66、ならびに固定コードブック整形ユニット51および65は、図形的表現の基礎となる数学的演算および数式を処理する。
また、以上の記載では、本発明の第1固定コードブック整形ユニット51および第2固定コードブック整形ユニット65は、第1固定コードブック52および第2固定コードブック66とは別個のコンポーネントとして説明した。別個としての説明は、本発明の説明を単純化するためである。実際には、固定コードブック整形ユニットおよび固定コードブックは、単一の物理コンポーネントに組み込むことが可能である。さらに、その他の点でも、ボコーダ50および64内の「ブラックボックス」コンポーネントを組み合わせて、1つの物理コンポーネントが、例示したいくつかの「ブラックボックス」コンポーネントの作業や動作を実行することが可能である。例えば、加重フィルタ54をピッチ先鋭化フィルタ55およびしきい値フィルタ57と組み合わせて単一のコンポーネントを形成し、説明のために別個に例示した動作を実行することが可能である。
比較の目的で、従来技術としてIS127 EVRC CDMA符号器について説明したが、認識されるように、本発明は、ボコーダで使用されるコンポーネントやボコーダの動作にかかわらず、任意のボコーダの性能を改善するために使用可能である。さらに、本発明は、低ビットレートで動作するときに、ボコーダの性能を改善する際に特に有用であるが、認識されるように、本発明は中ないし高ビットレートで動作するボコーダの推定値精度を改善するためにも使用可能である。
上記の説明で用いた特定の値は本発明を限定するものと解釈してはならない。これらの特定の値は、単に、本発明の一実施例の完全な理解を容易にするためのものである。認識されるように、本発明は、実施例で特に用いた以外の値で動作するボコーダにも有益である。例えば、信号フレームの継続時間は20msecより長いことも短いことも可能である。信号フレームのサブフレームの数は3個より多いことも少ないことも可能であり、全くサブフレームがないことも可能である。1つのサブフレームにおいて、53または54以外の任意の個数のサンプルをとることが可能である。
以上述べたごとく、本発明によれば、ビットフレーム内のビット位置の数が制限された状態で、信号フレーム(またはサブフレーム)の固定コードブック応答をより正確に表現することができるボコーダ、およびそのようなボコーダの動作方法が実現される。
従来技術による送信ボコーダの図である。 従来技術によるボコーダの復号セクションの図である。 従来技術による固定コードブック応答に関連するさまざまな信号の図である。 本発明による送信ボコーダの図である。 固定コードブック応答を決定するために第2残差信号をさまざまなパルス列と比較する図である。 可能な固定コードブック応答のうちから選択するために使用される固定コードブック整形ユニットの図である。 固定コードブック整形ユニットに関連するさまざまな信号の図である。 本発明によるボコーダの復号セクションの図である。
符号の説明
1 第1ボコーダ
2 線形予測符号化(LPC)フィルタ
3 知覚加重フィルタ
4 ジャンクション(接合点)
5 誤差最小化フィルタ
6 第1適応コードブック
7 第1固定コードブック
8 第1適応コードブック利得ユニット
9 第1固定コードブック利得ユニット
10 ジャンクション
11 第2ボコーダ
12 第2適応コードブック
13 第2固定コードブック
14 第2適応コードブック利得ユニット
15 第2固定コードブック利得ユニット
16 合成フィルタ
17 第1信号ライン
18 第1サブフレーム
19 第2サブフレーム
20 第3サブフレーム
21 パルス
22 第2信号ライン
23 エンベロープ
24 第3信号ライン
25 第4信号ライン
50 第1ボコーダ
51 第1固定コードブック整形ユニット
52 第1固定コードブック
53 信号ライン
54 線形予測(LP)加重フィルタ
55 ピッチ先鋭化フィルタ
56 信号ライン
57 非線形しきい値フィルタ
58 信号ライン
60 ウィンドウ
61 ウィンドウ
62 ウィンドウ
63 ウィンドウ
64 第2ボコーダ
65 第2固定コードブック整形ユニット
66 第2固定コードブック

Claims (7)

  1. ボコーダを動作させる方法であって、
    該ボコーダによって処理するビットフレームをサブフレーム毎に受信するステップであって、各サブフレームが残差信号を有する、ステップ、
    該ボコーダ内に記憶されたランダムノイズ信号から、所与のサブフレームに対して固定コードブック応答を推定するために複数のパルス列を生成するステップであって、該ノイズ信号が、該所与のサブフレームを特徴づける線形予測符号化(LPC)ビット、適応コードブック(ACB)ビット及び適応コードブック利得(ACBG)ビットに基づいて整形されて該複数のパルス列を生成する、ステップ、
    該パルス列各々を該所与のサブフレームの該残差信号と比較するステップ、及び
    該所与のサブフレームの残差信号に最もよく一致するパルス列を、該所与のサブフレームに対して推定される該固定コードブック応答として選択するステップ
    からなり、
    該ノイズ信号から所与のパルス列を生成することがさらに、
    整形されたノイズ出力信号を生成するように、該ノイズ信号を第1の線形予測器(LP)加重フィルタ及び第2のピッチ先鋭化フィルタを通過させて該ノイズ信号をスペクトル整形する通過ステップ、及び
    該整形されたノイズ出力信号を第3のしきい値フィルタを通過させて所与のパルス列に到達させる通過ステップ
    からなり、
    該所与のパルス列における正及び負パルスのまばらさが該しきい値フィルタの上限及び下限しきい値によって調整される、方法。
  2. 請求項1記載の方法において、前記固定コードブック応答を推定するために複数のパルス列を生成するステップが、さらに、各所与のサブフレームに対する新たなパルス列を形成するステップを含む方法。
  3. 請求項1記載の方法において、該所与のサブフレームが該ビットフレームの最初のサブフレームであり、該方法がさらに、各サブフレームの固定コードブック応答を推定するために、該生成されたパルス列を該ビットフレームの残りのサブフレーム全てに対して再利用するステップからなる方法。
  4. 請求項1記載の方法において、前記固定コードブック応答を推定するために複数のパルス列を生成するステップが、さらに、該ボコーダによって処理されるべき新たな各ビットフレームに対してのみ新たなパルス列を形成するステップを含む方法。
  5. 請求項記載の方法において、該LP加重フィルタ及びピッチ先鋭化フィルタが、該所与のサブフレームを特徴づける該LCPビット、ACBビット及びACBGビットに基づいている方法。
  6. 請求項1記載の方法において、所与のパルス列が複数のゼロエントリ及び複数のパルスエントリを含み、所与のパルス列におけるパルスのまばらさを反映するパルスエントリに対するゼロエントリの割合が85から93パーセントの範囲である方法、
  7. 請求項1記載の方法において、所与のパルス列が1サブフレームあたり4から7パルスを含む方法。
JP2007074674A 1999-04-28 2007-03-22 ボコーダの動作方法 Expired - Fee Related JP4690356B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/300314 1999-04-28
US09/300,314 US6449313B1 (en) 1999-04-28 1999-04-28 Shaped fixed codebook search for celp speech coding

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2000123010A Division JP2001034300A (ja) 1999-04-28 2000-04-24 ボコーダの動作方法

Publications (2)

Publication Number Publication Date
JP2007226252A JP2007226252A (ja) 2007-09-06
JP4690356B2 true JP4690356B2 (ja) 2011-06-01

Family

ID=23158589

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2000123010A Abandoned JP2001034300A (ja) 1999-04-28 2000-04-24 ボコーダの動作方法
JP2007074674A Expired - Fee Related JP4690356B2 (ja) 1999-04-28 2007-03-22 ボコーダの動作方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2000123010A Abandoned JP2001034300A (ja) 1999-04-28 2000-04-24 ボコーダの動作方法

Country Status (9)

Country Link
US (1) US6449313B1 (ja)
EP (1) EP1049073B1 (ja)
JP (2) JP2001034300A (ja)
KR (1) KR100713566B1 (ja)
CN (1) CN1271925A (ja)
AU (1) AU2893900A (ja)
BR (1) BR0009621A (ja)
CA (1) CA2305972A1 (ja)
DE (1) DE60016305T2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6574593B1 (en) * 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding
US7752039B2 (en) * 2004-11-03 2010-07-06 Nokia Corporation Method and device for low bit rate speech coding
US20070136054A1 (en) * 2005-12-08 2007-06-14 Hyun Woo Kim Apparatus and method of searching for fixed codebook in speech codecs based on CELP
JP5188990B2 (ja) * 2006-02-22 2013-04-24 フランス・テレコム Celp技術における、デジタルオーディオ信号の改善された符号化/復号化
US8004436B2 (en) * 2008-10-09 2011-08-23 Analog Devices, Inc. Dithering technique for reducing digital interference
KR101847213B1 (ko) * 2010-09-28 2018-04-11 한국전자통신연구원 쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치
US9972325B2 (en) * 2012-02-17 2018-05-15 Huawei Technologies Co., Ltd. System and method for mixed codebook excitation for speech coding
US9728200B2 (en) 2013-01-29 2017-08-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
US9620134B2 (en) 2013-10-10 2017-04-11 Qualcomm Incorporated Gain shape estimation for improved tracking of high-band temporal characteristics
US10083708B2 (en) 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
US10614816B2 (en) * 2013-10-11 2020-04-07 Qualcomm Incorporated Systems and methods of communicating redundant frame information
US9384746B2 (en) 2013-10-14 2016-07-05 Qualcomm Incorporated Systems and methods of energy-scaled signal processing
US10163447B2 (en) 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0511799A (ja) * 1991-07-08 1993-01-22 Fujitsu Ltd 音声符号化方式
JPH05158497A (ja) * 1991-12-06 1993-06-25 Fujitsu Ltd 音声伝送方式
JPH06130994A (ja) * 1992-10-15 1994-05-13 Hitachi Ltd 音声符号化方法
JPH06214599A (ja) * 1992-11-02 1994-08-05 Hughes Aircraft Co コードブック励起直線予測探索ループにおいて使用するための適応ピッチパルス強調装置および方法
JPH08146998A (ja) * 1994-11-22 1996-06-07 Oki Electric Ind Co Ltd コード励振線形予測符号化器及び復号器
WO1999012156A1 (en) * 1997-09-02 1999-03-11 Telefonaktiebolaget Lm Ericsson (Publ) Reducing sparseness in coded speech signals

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694519A (en) * 1992-02-18 1997-12-02 Lucent Technologies, Inc. Tunable post-filter for tandem coders
JP2576690B2 (ja) * 1993-03-11 1997-01-29 日本電気株式会社 ディジタル携帯電話機
EP0654909A4 (en) * 1993-06-10 1997-09-10 Oki Electric Ind Co Ltd PREDICTIVE LINEAR ENCODER-ENCODER WITH CODES EXCITATION.
KR100419545B1 (ko) * 1994-10-06 2004-06-04 코닌클리케 필립스 일렉트로닉스 엔.브이. 다른코딩원리들을이용한전송시스템
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
US6249758B1 (en) * 1998-06-30 2001-06-19 Nortel Networks Limited Apparatus and method for coding speech signals by making use of voice/unvoiced characteristics of the speech signals

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0511799A (ja) * 1991-07-08 1993-01-22 Fujitsu Ltd 音声符号化方式
JPH05158497A (ja) * 1991-12-06 1993-06-25 Fujitsu Ltd 音声伝送方式
JPH06130994A (ja) * 1992-10-15 1994-05-13 Hitachi Ltd 音声符号化方法
JPH06214599A (ja) * 1992-11-02 1994-08-05 Hughes Aircraft Co コードブック励起直線予測探索ループにおいて使用するための適応ピッチパルス強調装置および方法
JPH08146998A (ja) * 1994-11-22 1996-06-07 Oki Electric Ind Co Ltd コード励振線形予測符号化器及び復号器
WO1999012156A1 (en) * 1997-09-02 1999-03-11 Telefonaktiebolaget Lm Ericsson (Publ) Reducing sparseness in coded speech signals
JP2001515230A (ja) * 1997-09-02 2001-09-18 テレフォンアクチーボラゲット エル エム エリクソン(パブル) コード化音声信号のスパースネス低減法

Also Published As

Publication number Publication date
US6449313B1 (en) 2002-09-10
KR100713566B1 (ko) 2007-05-03
BR0009621A (pt) 2002-04-23
EP1049073A3 (en) 2003-03-26
CN1271925A (zh) 2000-11-01
KR20000077100A (ko) 2000-12-26
CA2305972A1 (en) 2000-10-28
EP1049073A2 (en) 2000-11-02
AU2893900A (en) 2000-11-02
EP1049073B1 (en) 2004-12-01
DE60016305D1 (de) 2005-01-05
JP2001034300A (ja) 2001-02-09
JP2007226252A (ja) 2007-09-06
DE60016305T2 (de) 2005-11-24

Similar Documents

Publication Publication Date Title
JP4690356B2 (ja) ボコーダの動作方法
US7778827B2 (en) Method and device for gain quantization in variable bit rate wideband speech coding
US7280959B2 (en) Indexing pulse positions and signs in algebraic codebooks for coding of wideband signals
DE69928288T2 (de) Kodierung periodischer sprache
JP4658596B2 (ja) 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置
ES2380962T3 (es) Procedimiento y aparato para codificación de baja tasa de transmisión de bits de habla sorda de alto rendimiento
US20050108005A1 (en) Method and device for adaptive bandwidth pitch search in coding wideband signals
JP3602593B2 (ja) 音声エンコーダ及び音声デコーダ、並びに音声符号化方法及び音声復号化方法
McCree et al. A 1.7 kb/s MELP coder with improved analysis and quantization
JP4874464B2 (ja) 遷移音声フレームのマルチパルス補間的符号化
JP3558031B2 (ja) 音声復号化装置
JP3531780B2 (ja) 音声符号化方法および復号化方法
JPH0782360B2 (ja) 音声分析合成方法
US7133823B2 (en) System for an adaptive excitation pattern for speech coding
US7472056B2 (en) Transcoder for speech codecs of different CELP type and method therefor
WO2002023536A2 (en) Formant emphasis in celp speech coding
JP3552201B2 (ja) 音声符号化方法および装置
JP3984048B2 (ja) 音声/音響信号の符号化方法及び電子装置
JP4179232B2 (ja) 音声符号化装置及び音声復号装置
JP3984021B2 (ja) 音声/音響信号の符号化方法及び電子装置
JPH06130994A (ja) 音声符号化方法
JP2658438B2 (ja) 音声符号化方法とその装置
JPH10232697A (ja) 音声符号化方法および復号化方法
JPH02160300A (ja) 音声符号化方式
KR100389898B1 (ko) 음성부호화에 있어서 선스펙트럼쌍 계수의 양자화 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100201

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100430

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100510

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100510

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110126

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110217

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140225

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees