JP3268360B2 - 改良されたロングターム予測器を有するデジタル音声コーダ - Google Patents

改良されたロングターム予測器を有するデジタル音声コーダ

Info

Publication number
JP3268360B2
JP3268360B2 JP50964190A JP50964190A JP3268360B2 JP 3268360 B2 JP3268360 B2 JP 3268360B2 JP 50964190 A JP50964190 A JP 50964190A JP 50964190 A JP50964190 A JP 50964190A JP 3268360 B2 JP3268360 B2 JP 3268360B2
Authority
JP
Japan
Prior art keywords
vector
samples
speech
filter
circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP50964190A
Other languages
English (en)
Other versions
JPH04502675A (ja
Inventor
アラン ジャーソン・イラ
エイ ジャシウク・マーク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Solutions Inc
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=23590969&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP3268360(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Motorola Solutions Inc, Motorola Inc filed Critical Motorola Solutions Inc
Publication of JPH04502675A publication Critical patent/JPH04502675A/ja
Application granted granted Critical
Publication of JP3268360B2 publication Critical patent/JP3268360B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)
  • Analogue/Digital Conversion (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Near-Field Transmission Systems (AREA)

Description

【発明の詳細な説明】 発明の背景 この発明は、1988年6月28日に出願され今は放棄され
ている、米国出願番号第07/212,455号の一部継続出願で
ある、1989年9月1日に出願されかつ今は放棄されてい
る、米国出願番号第07/402,206号の継続出願である。
コード励起リニア予測(code−excited linear pre
diction:CELP)は低いビットレース、すなわち、4.8〜
9.6キロビット/秒(kbps)における高品質の合成音声
を生成できる可能性を有する音声コーディング技術であ
る。このクラスの音声符号化は、またベクトル励起リニ
ア予測または推計符号化(stochastic coding)として
知られているが、数多くの音声通信および音声合成の用
途に最もよく用いられる。CELPは音声品質、データレー
ト、大きさおよびコストが重要な要素であるデジタル音
声暗号化およびデジタル無線電話通信システムに特に適
用可能であることが分っている。
「符号励起(code−excited)」またはベクトル励起
(vector−excited)」という用語は音声コーダのため
の励起シーケンスがベクトル量子化されている、すなわ
ち単一のコード語(codeword)が励起サンプルのシーケ
ンス、ベクトルを表すのに用いられるという事実からき
ている。このようにして、毎サンプルにつき1ビットよ
り小さなデータレートが励起シーケンスを符号化するた
めに可能となる。記憶された励起符号ベクトルは一般に
独立のランダムなホワイトガウスシーケンスからなる。
コードブックからの1つのコードベクトルはN個の励起
サンプルの各ブロックを表すのに用いられる。各々の記
憶されたコードベクトルはコード語、すなわちコードベ
クトルメモリのロケーションのアドレスによって表され
る。受信機において音声フレームを再構成するために通
信チャネルを介して音声シンセサイザに引き続き送られ
るのはこのコード語である。エム・アール・シュローダ
およびビー・エス・アタルによる、「コード励起リニア
予測(CELP)、非常に低いビットレートにおける高品質
音声」、音響に関するIEEE国際会議紀要、音声および信
号処理(ICASSP)、第3巻、PP.937−40、1985年3月、
をCELPのより詳細な説明のために参照。
CELP音声コーダにおいては、コードブックからの励起
コードベクトルは入力音声信号の特性を作る2個の時間
変動リニアフィルタに印加される。第1のフィルタはそ
のフィードバックループにロングターム予測器を含み、
これは有声音(voiced speech)のピッチの周期性を導
入するために使用される、長い遅延、すなわち、2〜15
ミリセカンドを有している。第2のフィルタはそのフィ
ードバックループにショートターム予測器を含み、これ
はスペクトル的なエンベロープまたはフォーマット構造
を導入するために使用される、短い遅延、すなわち、2
ミリセカンドより短い遅延、を有している。音声の各フ
レームに対して、音声コーダはそれぞれの個々のコード
ベクトルをフィルタに印加して再構成された音声信号を
発生し、元の入力音声信号を該再構成された信号と比較
してエラー信号を発生する。このエラー信号は次に人間
の聴覚に基づく応答を有する重み付けフィルタを通すこ
とにより重み付けされる。最適の励起信号は現在のフレ
ームに対して最小のエネルギを有する重み付けエラー信
号を生成するコードベクトルを選択することにより決定
される。最適のコードベクトルに対するコード語は次に
通信チャネルによって送信される。
CELP音声合成器においては、チャネルから受信された
コード語は励起ベクトルのコードブックをアドレスする
ために使用される。単一のコードベクトルは次にゲイン
ファクタによって乗算され、ロングタームおよびショー
トタームフィルタによってろ波され再構成された音声ベ
クトルを得る。ゲインファクタおよび予測器パラメータ
はまた該チャネルから得られる。より良好な品質の合成
信号は合成器によって使用される実際のパラメータが解
析段において使用され、従って量子化誤差を最小化する
ことにより発生できることが分っている。従って、より
高い品質の音声を生成するためにCELP音声解析段におい
てこれらの合成パラメータを使用することはアナリシス
・バイ・シンセシス音声コーディングと称されている。
ショートターム予測器は次の式に従って、直前の出力
サンプルs(n−i)のリニアな組み合わせにより現在
の出力サンプルs(n)を予測しようと試みる。
s(n)=α1s(n−1)+α2s(n−2) +…+αps(n−p)+e(n) この式で、pはショートターム予測器の次数(orde
r)であり、e(n)は予測残差(prediction residua
l)、すなわち、p個の先のサンプルの重み付けされた
和によって表すことのできないs(n)の部分、であ
る。予測器の次数pは典型的には、8キロヘルツ(KH
z)のサンプリングレートを仮定すると、8〜12の範囲
にわたっている。この式における重みα12は予
測器係数と呼ばれている。ショートターム予測器係数は
伝統的なリニア予測コーディング(LPC)技術を用いて
音声信号から決定される。ショートタームフィルタの出
力応答はz変換表現で次のように表される。
ショートタームフイルタパラメータのその他の説明に
関しては、「低ビットレートにおける音声の予測的コー
ディング」と題する、IEEE紀要、通信、COM−30、pp.60
0−14、1982年4月、ビー・エス・アタルによる論文を
参照。
これに対し、ロングタームフィルタはずっと長い期間
にわたり延在する先行サンプルから次の出力サンプルを
予測しなければならない。予測器において単一の過去の
サンプルのみが使用されれば、予測器は単一タップ予測
器である。典型的には、1〜3タップが使用される。単
一タップ、ロングターム予測器を導入したロングターム
フィルタのための出力応答はZ変換表示で次のように与
えられる。
この出力応答はフィルタの遅延またはラグLおよびフ
ィルタ係数βのみの関数であることに注意を要する。有
声音に対しては、ラグLは典型的には音声のピッチ期
間、あるいはその倍数である。8KHzのサンプリングレー
トにおいては、ラグLの適切な範囲は16と143の間であ
り、これは500Hzから56Hzの間のピッチレンジに対応す
る。
ロングターム予測器のラグLおよびロングターム予測
器の係数βは開ループまたは閉ループ構成のいずれかか
ら決定できる。開ループ構成を用いると、ラグLおよび
係数βは入力信号(またはその残差)から直接計算され
る。閉ループ構成では、ラグL、および係数βはロング
タームフィルタの過去の出力を表す符号化データおよび
入力音声信号からフレームレートで計算される。符号化
データを使用する場合における、ロングターム予測器の
ラグ決定は合成器において存在する実際のロングターム
フィルタの状態に基づいている。従って、閉ループ構成
が開ループ方法よりもより良好な性能を与えるが、それ
はピッチフィルタそれ自体がエラー信号の最適化に貢献
するからである。さらに、単一タップの予測器は閉ルー
プ構成で非常に良好に作動する。
閉ループ構成を使用すると、ロングタームフィルタの
出力応答b(n)はロングタームフィルタからの過去の
出力サンプルのみから、かつ次の式による現在の入力音
声サンプルs(n)から決定される。
b(n)=s(n)+βb(n−L) この技術はフレーム長Nより大きなピッチラグLに対
し、すなわち、L≧Nの場合に、直接的であるが、これ
は項b(n−L)は常にすべてのサンプル番号n,0≦n
≦N−1に対し過去のサンプルを表すからである。さら
に、L>Nの場合、励起ゲインファクタγおよびロング
ターム予測器係数βはラグLおよびコード語iの与えら
れた値に対し同時に最適化することができる。この組み
合わされた最適化技術は音声品質の注目すべき改善をも
たらすことが発見されている。
しかしながら、もしロングターム予測器のフレーム長
Nより小さなラグLを収容しなければならない場合に
は、閉ループ手法は不都合である。この問題は高いピッ
チの女性の声の場合に容易に起こり得る。たとえば250H
zのピッチ周波数に対応する女性の音声は4ミリセカン
ド(msec)に等しいロングターム予測器ラグLを必要と
する。8KHzのサンプリングレートにおける250Hzのピッ
チは32サンプルのロングターム予測器のラグLに対応す
る。しかしながら、4ミリセカンドより小さなフレーム
長Nを用いることは望ましくなく、これはCELP励起ベク
トルはより長いフレーム長が用いられる場合により効率
的に符号化できるからである。従って、8KHzのサンプリ
ングレートにおける7.5ミリセカンドのフレーム長時間
を用いると、フレーム長Nは60サンプルに等しくなるで
あろう。これはフレームの次の60サンプルを予測するた
めに32の過去のサンプルのみが利用できることを意味す
る。従って、もしロングターム予測器のラグLがフレー
ム長Nより小さければ、必要とされるNサンプルの内の
Lの過去のサンプルのみが規定される。
フレーム長Nより小さなピッチラグLの問題に対処す
るため従来技術においていくつかの別の手法がとられて
いる。ロングターム予測器のラグLおよび係数βを組み
合わせて最適化する試みにおいて、第1の手法はなんら
の励起信号も存在しないと仮定して方程式を直接解くよ
う試みることである。この手法は「規則的なパルス励起
−音声の有効かつ効率的な多重パルス符号化」、クルー
ン他、音響、音声および信号処理に関するIEEE紀要、AS
SP−34巻、第5号、1986年10月、pp.1054−1063の論文
に説明されている。しかしながら、この手法に従うと、
単一のパラメータβにおける非線形方程式を解かなけれ
ばならない。βにおける2次方程式または3次方程式の
解を解かなければならない。βにおける2または3次方
程式の解は計算機的に実際的でない。その上、利得ファ
クタγと係数βとを一緒にして最適化することはこの手
法では依然として不可能である。
ロングターム予測器遅延Lをフレーム長Nより大きい
ものと限定することによる、第2の解法は、シングハル
およびアタルにより提案された論文「低いビットレート
における多重パルスLPCコーダの性能の改善」、音響、
音声、および信号処理に関するIEEE国際会議の紀要、第
1巻、1984年3月19−21日、pp.1.3.1−1.3.4において
提案されている。ピッチラグLに対するこの人工的な制
約はしばしばピッチ情報を正確に表さない。従って、こ
の手法を用いると音声品質が高いピッチの音声に対し劣
化する。
第3の解法はフレーム長Nの大きさを低減することで
ある。より短いフレーム長により、ロングターム予測器
のラグLは常に過去のサンプルから決定することができ
る。しかしながら、この手法は厳しいビットレートのペ
ナルティを被る。より短いフレーム長では、より大きな
数のロングターム予測器パラメータおよび励起ベクトル
を符号化しなければならず、かつ従ってチャネルのビッ
トレートは余分のコーディングを収容するためにより大
きくなければならない。
第2の問題は高いピッチの話者に対して存在する。コ
ーダにおいて使用されるサンプリングレートは単一タッ
プのピッチ予測器の性能に対し上限を設ける。たとえ
ば、もしピッチ周波数が実際には485Hzであれば、最も
近いラグ値は16でありこれは500Hzに対応する。これは
音声品質を劣化させる基本ピッチ周波数に対し15Hzのエ
ラーを生ずる結果となる。このエラーは該ピッチ周波数
の高調波に対し増倍されさらに劣化を引き起こす。
従って、ロングターム予測器のラグLを決定するため
の改良された方法を提供する必要性が存在する。最適の
解法は高いピッチの音声のコーディングに対し計算機的
な複雑性および音声品質の双方に向けられなければなら
ない。
発明の概要 従って、本発明の一般的な目的は、低いビットレート
において高い品質の音声を生成する改良されたデジタル
音声コーディング技術を提供することにある。
本発明のより特定的な目的は、閉ループ手法を用いた
ロングターム予測器のパラメータを決定するための方法
を提供することにある。
本発明の他の目的は、ロングターム予測器のラグパラ
メータLが非整数である場合にロングターム予測器の出
力応答を決定するための改良された方法を提供すること
にある。
本発明のさらに他の目的は、最適の励起コードベクト
ルのためのコードブックサーチの間に利得ファクタγお
よびロングターム予測器係数βの組み合わされた最適化
を許容する改良されたCELP音声コーダを提供することに
ある。
本発明の新規な見地によれば、パラメータLの分解能
(resolution)はLが整数でない値をとることを許容す
ることにより増大される。これはロングターム予測器の
状態の補間されたサンプルを提供するために補間フィル
タを使用することにより達成される。閉ループ構成にお
いては、ロングターム予測器の状態の将来のサンプルは
補間フィルタにとって利用できない。この問題はロング
ターム予測器の状態を補間フィルタによる使用のために
将来にわたってピッチ同期的に延長することにより回避
される。次のフレームに対する実際の励起サンプルが利
用できるようになると、ロングターム予測器の状態が
(ピッチ同期的に延長されたサンプルに基づくものに置
き代わる)実際の励起サンプルを反映するために更新さ
れる。たとえば、補間は各々の存在するサンプルの間の
1つのサンプルを補間するために使用でき従ってLの分
解能をサンプルの半分に倍加する。3または4のよう
な、より高い補間ファクタもまた選択でき、これはLの
分解能を1つのサンプルの3分の1または4分の1に増
加するであろう。
図面の簡単な説明 新規であると信じられる本発明の特徴は特に添付の請
求の範囲に記載されている。本発明は、そのさらに他の
目的および利点とともに、添付の図面を取り入れて以下
の説明を参照することにより最もよく理解でき、そのい
くつかの図面においては同様の参照数字は同様の要素を
表わし、かつ各図面において、 第1図は、本発明とともに使用するためのロングター
ムフィルタの位置を示す、コード励起リニア予測音声コ
ーダの一般的なブロック図であり、 第2A図は、第1図のロングタームフィルタの1実施例
を示す詳細なブロック図であり、フィルタのラグLが整
数である場合のロングターム予測器の応答を示してお
り、 第2B図は、第2A図におけるロングターム予測器の動作
を説明するために用いることができるシフトレジスタを
示す概略図であり、 第2C図は、第1図のロングタームフィルタの他の実施
例を示す詳細なブロック図であり、フィルタのラグLが
整数である場合のロングターム予測器の応答を示してお
り、 第3図は、第2A図のロングタームフィルタにより達成
される動作を説明する詳細なフローチャートであり、 第4図は、本発明に従って使用するための音声合成器
の一般的なブロック図であり、 第5図は、第1図のロングタームフィルタの詳細なブ
ロック図であり、本発明に従いサブサンプルの分解能の
ロングターム予測器応答を示しており、 第6A図および第6B図は、第5図のロングタームフィル
タにより行われる動作を説明する詳細なフローチャート
であり、そして 第7図は、第4図における音声合成器のショートター
ムフィルタおよびD/Aコンバータを相互結合するための
ピッチポストフイルタを示す詳細なブロック図である。
好ましい実施例の詳細な説明 次に第1図を参照すると、本発明に係わるロングター
ムフィルタを利用するコード励起リニア予測音声コーダ
100の一般的なブロック図が示されている。分析される
べき音響入力信号はマイクロホン102において音声コー
ダ100に印加される。典型的には音声信号である、入力
信号は次にフィルタ104に印加される。フィルタ104は一
般的にはバンドパスフィルタ特性を示す。しかしなが
ら、もし音声の帯域幅がすでに適切であれば、フィルタ
104は直接的なワイヤ接続であってもよい。
フィルタ104からのアナログ音声信号は次に一続きの
Nパルスのサンプルに変換され、かつ各パルスサンプル
の振幅は次に、技術上知られているように、アナログ−
デジタル(A/D)コンバータ108においてデジタル符号に
より表される。サンプリングレートはサンプルクロック
SCにより決定され、これは好ましい実施例においては8.
0kHzのレートを呈する。サンプルクロックSCはクロック
112によってフレームクロックFCとともに発生される。
A/D108のデジタル出力は、入力音声ベクトルs(n)
として表されるが、次に係数アナライザ110に印加され
る。この入力音声ベクトルs(n)は別々のフレーム、
すなわち、その長さがフレームクロックFCによって決定
される、時間のブロック、において反復的に得られる。
好ましい実施例においては、入力音声ベクトルs
(n)、0≦n≦N−1、はN=60サンプルを含む7.5
ミリセカンドのフレームを表し、この場合各サンプルは
デジタルコードの12〜16ビットによって表される。この
実施例においては、音声の各ブロックに際し、一組のリ
ニア予測コーディング(LPC)パラメータがオープンル
ープ構成の係数アナライザ110によって生成される。シ
ョトターム予測器パラメータα、ロングターム予測器
係数β、公称ロングターム予測器ラグパラメータL、重
み付けフィルタパラメータWFP、および励起利得ファク
タγ(後に説明する最善の励起コード語Iとともに)は
マルチプレクサ150に印加されかつ音声合成器による使
用のためチャネルによって送られる。この実施例のため
にこれらのパラメータを発生する代表的な方法について
は、ビー・エス・アタルによる、1982年4月、pp.600−
14、COM−30巻、IEEE通信紀要、「低いビットレートに
おける音声の予測コーディング」と題する論文を参照。
入力音声ベクトルs(n)はまた減算器130にも印加さ
れ、その機能は後に説明する。
コードブックROM120は一組のM個の励起ベクトルu
i(n)を含み、ここで1≦i≦Mであり、各々N個の
サンプルから成り、この場合0≦n≦N−1である。コ
ードブックROM120は好ましくはここに参照のため導入さ
れる、米国特許第4,817,157号に述べられたようにして
実施される。コードブックROM120は一組の励起コード語
iの内の特定の1つに応じてこれらの擬似ランダム励起
ベクトルを発生する。M個の励起ベクトルの各々は一続
きのランダムなホワイトガウスサンプルから成るが、他
の形式の励起ベクトルも本発明とともに使用することが
できる。もし励起信号が60サンプルの各々に対しサンプ
ルごとに0.2ビットのレートで符号化されたならば、可
能な励起ベクトルに対応する4096のコード語iがある。
各々の個々の励起ベクトルui(n)に対し、再構成さ
れた音声ベクトルs´(n)が入力音声ベクトルs
(n)に対する比較のために発生される。利得ブロック
122には、フレームに対する内容である、励起利得ファ
クタγにより励起ベクトルui(n)を尺度変更(scal
e)する。励起利得ファクタγは係数アナライザ110によ
ってあらかじめ計算されかつ第1図に示されるようにす
べての励起ベクトルを解析するために使用され、あるい
は最善の励起コード語Iのサーチと組み合わせて最適化
されかつコードブックサーチコントローラ140により発
生される。
尺度変更された励起信号γui(n)は次に再構成され
た音声ベクトルs´(n)を発生するためにロングタ
ームフィルタ124およびショートタームフィルタ126によ
りろ波される。フィルタ124は音声の周期性を導入する
ためにロングターム予測器パラメータβおよびLを利用
し、かつフィルタ126は上に述べたように、スペクトル
的なエンベロープを導入するためにショートターム予測
器パラメータαを利用する。ロングタームフィルタ12
4は以下の図面において詳細に説明する。ブロック124お
よび126は実際にはそれぞれのフィードバック経路にロ
ングターム予測器およびショートターム予測器を含む再
帰(recursive)フィルタである。
i番目の励起コードベクトルに対する再構成された音
声ベクトルs´(n)は入力音声ベクトルs(n)の
同じブロックとこれら2つの信号を減算器130において
減算することにより比較される。差分ベクトルei(n)
は音声の元のおよび再構成されたブロックの間の差を表
す。差分ベクトルは係数アナライザ110によって発生さ
れる重み付けフィルタのパラメータWTPを利用して、重
み付けフィルタ132により知覚的に重み付けされる。代
表的な重み付けフィルタの伝達関数に対する先の参照物
を参照されたい。知覚的な重み付けはエラーが知覚的に
人間の耳にとってより重要な周波数を強調し、かつ他の
周波数を減衰させる。
エネルギ計算機134は重み付け差分ベクトルe´
(n)のエネルギを計算し、かつこのエラー信号Ei
コードブックサーチコントローラ140に印加する。該サ
ーチコントローラは現在の励起ベクトルui(n)に対す
るi番目のエラー信号を先のエラー信号に対して比較し
最小のエラーを生成する励起ベクトルを決定する。最小
のエラーを有するi番目の励起ベクトルのコードは次に
チャネルによって最善の励起コードIとして出力され
る。あるいは、サーチコントローラ140は、あらかじめ
規定されたエラーしきい値に合致するような、何等かの
所定の基準を有するエラー信号を提供する特定のコード
語を決定することができる。
第1図は、コード励起リニア予測音声コーダに対する
本発明の1実施例を示す。この実施例においては、ロン
グタームフィルタのパラメータLおよびβは係数アナラ
イザ110によってオープンループ構成で決定される。あ
るいは、ロングタームフィルタのパラメータは先に述べ
たシングハルおよびアタルの参照文献に述べられている
ように閉ループ構成で決定することができる。一般に、
音声コーダの性能は閉ループ構成で決定されるロングタ
ームフィルタのパラメータを使用することにより改善さ
れる。本発明に係わるロングターム予測器の新規な構造
はフレーム長Nより小さなラグLに対するこれらのパラ
メータの閉ループ決定の使用に大いに便宜を与える。
第2A図は、第1図のロングタームフィルタ124の1実
施例を示し、この場合Lは整数に限定されている。第1
図は尺度変更された励起ベクトルγui(n)が利得ブロ
ック122からロングタームフィルタ124へ入力されるもの
として示されているが、第2A図においては説明の目的で
代表的な入力音声ベクトルs(n)が使用されている。
従って、入力音声ベクトルs(n)のN個のサンプルの
フレームが加算器210に印加される。加算器210の出力は
ロングタームフィルタ124のための出力ベクトルb
(n)を生成する。出力ベクトルb(n)はロングター
ム予測器の遅延ブロック230にフィードバックされる。
公称ロングターム予測器ラグパラメータLもまた遅延ブ
ロック230に入力される。ロングターム予測器遅延ブロ
ックは出力ベクトルq(n)をロングターム予測器の乗
算器ブロック220に提供し、これはロングターム予測器
の係数βによりロングターム予測器の応答を尺度変更す
る。尺度変更された出力βq(n)は次に再帰フィルタ
のフィードバックループを完成させるために加算器210
に印加される。
ロングタームフィルタ124の出力応答Hn(z)はZ変
換表示で次のように定義される。
この場合、nはN個のサンプルを含むフレームのサン
プル数を表し、0≦n≦N−1であり、βはフィルタ係
数を表し、Lはロングターム予測器の公称ラグまたは遅
延を表し、かつ は(n+L)/Lより小さいかまたは等しい最も近い整数
を表す。ロングターム予測器の遅延 はサンプル数nの関数として変化する。従って、本発明
によれば、実際のロングターム予測器の遅延はkLにな
り、この場合Lは基本的なまたは公称のロングターム予
測器のラグであり、かつkはサンプル数nの関数として
組み{1,2,3,4,...}から選択された整数である。従っ
て、ロングタームフィルタの出力応答b(n)は公称ロ
ングターム予測器のラグパラメータLおよびフレームの
始めに存在するフィルタ状態FSの関数である。このステ
ートメントはピッチラグLがフレーム長Nより小さい問
題の場合に対してさえ、Lのすべての値に対して当ては
まる。
ロングターム予測器の遅延ブロック230の機能は将来
のサンプルを予測するために現在の入力サンプルを記憶
することである。第2B図は、シフトレジスタの単純化し
た図であり、これは第2A図のロングターム予測器遅延ブ
ロック230の動作を理解する上で有用であろう。n=l
(エル)のようなサンプル数l(エル)に対し、現在の
出力サンプルb(n)がシフトレジスタの入力に印加さ
れ、これは第2B図の右側に示されている。次のサンプル
n=l+1に対しては、先のサンプルb(n)は左にシ
フトレジスタの中にシフトされる。このサンプルは今や
最初の過去のサンプルb(n−1)となる。次のサンプ
ルn=l+2に対しては、b(n)の他のサンプルがレ
ジスタ中にシフトされ、かつ元のサンプルが再び左にシ
フトされて第2の過去のサンプルb(n−2)になる。
L個のサンプルがシフトされた後、元のサンプルはLの
回数左にシフトされており従ってそれはb(n−L)と
して表すことができる。
上に述べたように、ラグLは典型的には有声音のピッ
チ期間またはその倍数であろう。もしラグLが少なくと
もフレーム長Nと同じぐらい長ければ、十分な数の過去
のサンプルが音声の次のフレームを予測するためにシフ
ト入力されかつ記憶されている。L=Nかつn=N−1
の極端な場合でも、b(n−L)はb(−1)であり、
これは真に過去のサンプルである。従って、サンプルb
(n−L)は出力サンプルq(n)としてシフトレジス
タから出力されるであろう。
しかしながら、もしロングターム予測器のラグパラメ
ータLがフレーム長Nより短ければ、不十分な数のサン
プルが次のフレームの開始までにシフトレジスタ中にシ
フト入力される。250Hzのピッチ期間の上の例を用いる
と、ピッチラグLは32に等しくなる。従って、L=32か
つN=60の場合、かつk=N−1=59の場合、b(n−
L)は通常b(27)となり、これは60サンプルのフレー
ムの始めに関して将来のサンプルを表す。言い換えれ
ば、完全なロングターム予測器応答を提供するためには
不十分な過去のサンプルが格納されていることになる。
予測器パラメータの閉ループ解析が達成できるようにフ
レームの始めにおいて完全なロングターム予測器の応答
が必要である。その場合本発明によれば、同じ記憶され
たサンプルb(n−L)、0≦n≦L、が繰り返されそ
れによりロングターム予測器の出力応答は常に現在のフ
レームの開始に先立ちロングターム予測器の遅延ブロッ
クに入力されたサンプルの関数である。第2B図に関して
は、ロングターム予測器の遅延ブロック230の構造を変
更することを示す、他のkLサンプルの記憶のためにシフ
トレジスタが延長されている。従って、該シフトレジス
タが新しいサンプルb(n)で満たされるから、kはb
(n−kL)がフレームの開始に先立ちシフトレジスタ中
に存在するサンプルを表すように選択されなければなら
ない。L=32およびN=60の先の例を用いると、出力サ
ンプルq(32)はサンプルq(0)の繰り返しであり、
これはb(0−L)=b(32−2L)またはb(−32)で
ある。
従って、ロングターム予測器遅延ブロック230の出力
応答q(n)は、 q(n)=b(n−kL) に対応し、ここで0≦n≦N−1であり、kは(n−k
L)が負になるように選択された最も小さな整数であ
る。より特定的にはもしs(n)のNサンプルのフレー
ムがロングターム予測器フィルタ124に入力されると、
各サンプル番号nはj≦n≦N+j−1であり、ここで
jはNサンプルのフレームの最初のサンプルに対するイ
ンデックスである。従って、変数kは(n−kL)が常に
jより小さくなるように変化する。このことはロングタ
ーム予測器が出力応答を予測するために該フレームの開
始に先立ち利用できるサンプルのみを利用することを保
証する。
第2A図のロングタームフィルタ124の動作を第3図の
フローチャートに従って説明する。ステップ350におい
てスタートすると、サンプル番号nはステップ351にお
いて0に初期化される。公称ロングターム予測器ラグパ
ラメータLおよびロングターム予測器係数βはステップ
352において係数アナライザ110から入力される。ステッ
プ353において、サンプル数または番号nがテストされ
全フレームが出力されたかを見る。もしn≧Nであれ
ば、動作はステップ361において終了する。もしすべて
のサンプルがまだ計算されておらなければ、ステップ35
4において信号サンプルs(n)が入力される。ステッ
プ355において、ロングターム予測器遅延ブロック230の
出力応答が次の式に従って計算される。
ここで、 は(n+L)/Lより小さいかまたは等しい最も近い整数
を表す。たとえば、もしn=56かつL=32であれば、 となり、これは Lまたは2Lとなる。ステップ356において、ロングター
ムフィルタの出力応答b(n)は次の式に従って計算さ
れる。
b(n)=βq(n)+s(n) これは乗算器220および加算器210の機能を表す。ステ
ップ357において、b(n−2)およびb(n−LMAX
の間のすべてのレジスタのロケーションに対して、シフ
トレジスタのサンプルが左に1ポジションシフトされ、
ここでLMAXは割り当て可能な最大のロングターム予測器
ラグを表す。好ましい実施例においては、LMAXは143に
等しい。ステップ358において、出力サンプルb(n)
がシフトレジスタの最初のロケーションb(n−1)に
入力される。ステップ359はろ波されたサンプルb
(n)を出力する。サンプル数nは次にステップ360に
おいて増分され、かつ次にステップ353においてテスト
される。すべてのNサンプルが計算されたとき、処理は
ステップ361において終了する。
第2C図は本発明を導入したロングタームフィルタの別
の実施例である。フィルタ124´は第2A図の再帰(recur
sive)フィルタ構成のフィードフォワード反転版であ
る。入力ベクトルs(n)は減算器240およびロングタ
ーム予測器遅延ブロック260の双方に印加される。遅延
されたベクトルq(n)は乗算器250に出力され、該乗
算器250はロングターム予測器係数βによって該ベクト
ルを尺度変更する。デジタルフィルタ124´の出力応答H
n(z)はz変換表示で次のように与えられる。
この式において、nはNのサンプルを含むフレームの
サンプル番号を表し、0≦n≦N−1であり、βはロン
グタームフイルタの係数を表し、Lはロングターム予測
器の公称ラグまたは遅延を表し、そして は(n+L)/Lより小さいかまたはこれに等しい最も近
い整数を表す。フィルタ124´の出力信号b(n)はま
た入力信号s(n)に関し次のように規定できる。
この場合、0≦n≦N−1である。当業者に理解でき
るように、ロングターム予測器の構造は再びロングター
ム予測器のラグLがフレーム長Nより小さい場合に該ロ
ングターム予測器の同じ記憶されたサンプルを繰り返し
出力するように変更されている。
次に第5図を参照すると、第1図のロングタームフィ
ルタ124の好ましい実施例が示されており、これはラグ
パラメータLに対するサブサンプルの分解能を許容す
る。入力音声ベクトルs(n)のNサンプルのフレーム
が加算器510に印加される。加算器510の出力はロングタ
ームフィルタ124に対する出力ベクトルb(n)を生成
する。出力ベクトルb(n)はロングターム予測器の遅
延されたベクトル発生器ブロック530にフィードバック
される。公称ロングターム予測器ラグパラメータLもま
た遅延ベクトル発生器ブロック530に入力される。ロン
グターム予測器ラグパラメータLは非整数有理数の値を
取り得る。好ましい実施例はLが2分の1の倍数である
値を取ることを許容する。本発明のサブサンプル分解能
ロングターム予測器の別の構成は3分の1または4分の
1あるいは任意の他の有理分数の倍数である値を許容す
ることができる。
好ましい実施例においては、遅延ベクトル発生器530
はb(n)の過去のサンプルを保持するメモリを含む。
さらに、b(n)の補間されたサンプルもまた遅延ベク
トル発生器530で計算されかつそのメモリ内に格納され
る。好ましい実施例においては、遅延ベクトル発生器53
0に含まれるロングターム予測器の状態(state)はb
(n)の各々の記憶されたサンプルに対し2つのサンプ
ルを有している。1つのサンプルはb(n)に対するも
のでありかつ他のサンプルは2つの連続するb(n)の
サンプルの間の補間されたサンプルを表す。このように
して、b(n)のサンプルは整数の遅延またはハーフサ
ンプルの遅延の倍数に対応する遅延ベクトル発生器530
から得ることができる。この補間は、1983年に、プレン
ティス・ホール・ルービン・ドナリーにより出版され
た、アール・クロチーアおよびエル・ラビナーによる
「多重レート・デジタル信号処理」に述べられている補
間有限インパルス応答フィルタを用いて行われる。ベク
トル遅延発生器530の動作は第6A図および第6B図のフロ
ーチャートに関連してさらに詳細に説明される。
遅延ベクトル発生器530はロングターム乗算器ブロッ
ク520に出力ベクトルq(n)を提供し、該ロングター
ム乗算器ブロック520はロングターム予測器係数βによ
りロングターム予測器応答を尺度変更する。尺度変更さ
れた出力βq(n)は次に加算器510に印加され第5図
における再帰フィルタ124のフィードバックループを完
成する。
第6A図および第6B図を参照すると、第5図のロングタ
ームフィルタにより行われる動作を詳細に説明するため
の詳細フローチャートが示されている。本発明の好まし
い実施例によれば、ロングターム予測器メモリの分解能
はNポイントのシーケンスb(n)を、2Nポイントのベ
クトルex(i)にマッピングすることにより拡張され
る。ex(i)の負のインデックスされたサンプルはロン
グタームフィルタ出力b(n)、励起、または拡張分解
能ロングタームヒストリの拡張された分解能の過去の値
を含む。該マッピング処理はそれが印加される各時間ご
とに、ロングターム予測器メモリの一時的な分解能を倍
加する。ここでは簡単化のために単一段のマッピングが
説明されているが、付加的な段も本発明の他の実施例に
おいては実施することができる。
第6A図におけるステップ602のスタートに入ると、フ
ローチャートはステップ604に進み、そこでL、βおよ
びs(n)が入力される。ステップ608において、ベク
トルq(n)が次の式に従って構成される。
この式において は(n+L)/Lより小さいかまたは等しい最も近い整数
を表し、かつLはロングターム予測器ラグである。有声
音に対しては、ロングターム予測器ラグLはピッチ期間
またはピッチ期間の倍数である。Lは整数または好まし
い実施例においてはその少数部分が0.5である実数であ
る。Lの少数部分が0.5である場合、Lはサンプルの半
分の実効分解能を有する。
ステップ610において、ロングタームフィルタのベク
トルb(n)は次の式によって計算される。
b(n)=βq(n)+s(n) 但し、0≦n≦N−1 ステップ612において、ロングタームフィルタのベク
トルb(n)が出力される。ステップ614において、拡
張された分解能の状態ex(n)が更新されq(n)の補
間値が発生されかつ遅延ベクトル発生器530のメモリ内
に格納される。ステップ614は第6B図により詳細に示さ
れている。次に、ステップ616において処理は完了しか
つ停止する。
第6B図のステップ622におけるスタートに入ると、フ
ローチャートはステップ624に進み、そこでこのサブフ
レームにおいて計算されるべきex(i)におけるサンプ
ルが0に合わせられ、すなわちi=−M,−M+2,...,2N
−1に対しex(i)=0とされ、ここでMは2M+1次の
フィルタのために奇数に選択される。たとえば、フィル
タの次数が39であれば、Mは19である。もちろんMは単
純化のために奇数であるとして選択されているが、Mは
また偶数でもよい。ステップ626において、i=0,
2,...,2(N−1)に対するex(i)の1つおきのサン
プルが次の式に従いb(n)のサンプルで初期化され
る。
ex(2i)=b(i) 但し、i=0,1,...,N−1. 従って、i=0,2,...,2(N−1)に対するex(i)
はその偶数の指数に対しマッピングされた現在のサブフ
レームに対する出力ベクトルb(n)を保持し、一方i
=1,3,...,2(N−1)+1に対するexd(i)の奇数の
指数は0で初期化されている。
ステップ628において、0に初期化されたex(i)の
補間されたサンプルがそのようなFIRフィルタの次数が
上に述べたように2M+1であると仮定して、対称、ゼロ
位相シフトフィルタを使用し、FIR補間により再構成さ
れる。FIRフィルタの係数はa(j)であり、ここでj
=−M,−M+2,...,M−1,Mおよびa(j)=a(−j)
である。FIRフィルタのタップに向けられた偶数サンプ
ルのみがサンプル再構成において使用されるが、それは
奇数サンプルは0にセットされているからである。その
結果、2M+1サンプルの代わりにM+1サンプルが実際
に重み付けられかつ各々の再構成されたサンプルのため
に加算される。FIR補間は次の式に従って行われる。
再構成されるべき最初のサンプルはex(−M)であ
り、期待するようにex(1)ではないことに注意を要す
る。これは、指数−M,−M+2,...,−1における補間さ
れたサンプルは現在のフレームにおける励起の評価を用
いて先のフレームにおいて再構成されたからであり、そ
れは実際の励起サンプルはその時規定されていなかった
からである。現在のフレームにおいてこれらのサンプル
は知られており(我々はb(n)を有している)、かつ
従ってi=−M,−M+,...,−1に対するex(i)のサ
ンプルは今や再び再構成され、フィルタのタップは実際
のかつ評価されていない値b(n)に向けられている。
上の式においてiの最大の値は2(N−1)−Mであ
る。これは、i=2N−M,2N−M+2,...,2(N−1)+
1に対し、ex(i)の(M+1)/2の奇数サンプルが依
然として再構成されるべきであることを意味する。しか
しながら、指数(index)iのこれらの値に対し、補間
フィルタのより上のタップはまだ規定されていない励起
の将来のサンプルを指示している。これらの指数に対す
るex(i)の値を計算するためには、i=2N,2N+
2,...,2N+Mに対するex(i)の将来の状態がステップ
630において評価することにより拡張される。
ex(i)=λex(i−2L) 但し、i=2N,2N+2,...,2N+M−1 この機構において使用されるべき2Lの最小値は2M+1
である。この束縛は次のように規定することにより解放
できる。
ex(i)=λex(F(i−2L)) 但し、i=2N,2N+2,...,2N+M−1 この場合、奇数に等しいi−2Lに対し、F(i−2L)
は次式で与えられる。
また、偶数に等しいi−2Lに対するF(i−2L)は次
式により与えられる。
パラメータλ、すなわちヒストリ拡張スケールファク
タは、ピッチ予測器係数である、βに等しくセットする
ことができ、あるいは1にセットされる。
励起ヒストリがこのように拡張されると、ステップ63
2において、現行の拡張されたレゾリューションのサブ
フレームの最後の(M+1)/2のゼロサンプルは次式を
用いて計算される。
これらのサンプルは、i=2N,2N+2,...,2N+M−1
に対するex(i)のための実際の励起サンプルが一旦利
用可能になると、次のサブフレームで再計算されるであ
ろう。
従って、n=0,N−1に対し、b(n)がベクトルex
(i)にマッピングされ、ここでi=0,2,...,2(N−
1)である。失われたゼロ化サンプルはFIR補間フィル
タを用いて再構成されている。FIR補間は失われたサン
プルにのみ適用されることに注意を要する。これはex
(i)の偶数の指数に格納されている、知られたサンプ
ルに何等のひずみも無用に導入されないことを保証す
る。失われたサンプルのみを処理する付加的な利点は補
間に関連する計算が半分になることである。
ステップ634において、最後にロングターム予測器ヒ
ストリが2Nポイントにより拡張されたレゾリューション
励起ベクトルex(i)の内容をシフトダウンすることに
より更新される。
ex(i)=ex(i+2N) 但し、i=2Max_L,−1 ここで、Max_Lは用いられる最大のロングターム予測
器遅延である。次に、ステップ636において、処理は完
了しかつ停止する。
次に第4図を参照すると、音声合成器(speech synt
hesizor)のブロック図が本発明のロングタームフィル
タを用いて図示されている。シンセサイザ400はデマル
チプレクサ450を介し、チヤネルから受信したショート
ターム予測器パラメータα、ロングターム予測器パラ
メータβおよびL、励起利得ファクタγおよびコード語
Iを得る。コード語IはコードブックROM420に印加され
励起ベクトルのコードブックをアドレスする。コードブ
ックROM420は好ましくは、ここに参照のため導入され
る、米国特許第4,817,157号に述べられているようにし
て実施される。単一の励起ベクトルuI(n)が次にブロ
ック422において利得ファクタγにより乗算され、ロン
グターム予測器フィルタ424およびショートターム予測
器フィルタ426によりろ波され再構成された音声ベクト
ルs´(n)を得る。再構成された音声のフレームを
表す、このベクトルは次にアナログ−デジタル(A/D)
コンバータ408に印加され再構成されたアナログ信号を
生成し、これは次にフィルタ404によりエイリアシング
を低減するために低域ろ波され、かつスピーカ402のよ
うな出力変換器に印加される。従って、このCELPシンセ
サイザは第1図のCELPアナライザと同じコードブック、
利得ブロック、ロングタームフィルタ、およびショート
タームフィルタを用いる。
第7図は、第4図における音声シンセサイザのショー
トタームフィルタ426およびD/Aコンバータ408を相互結
合するためのピッチポストフィルタの詳細なブロック図
である。ピッチポストフィルタは音声品質をフィルタ42
4および426により導入されるノイズを除去することによ
り増大する。Nサンプルの再構成された音声ベクトルs
´(n)のフレームが加算器710に印加される。加算
器710の出力はピッチポストフィルタのための出力ベク
トルs´´(n)を生成する。出力ベクトルs´´
(n)はピッチポストフィルタの遅延サンプル発生器ブ
ロック630にフィードバックされる。公称(nominal)ロ
ングターム予測器ラグパラメータLもまた遅延サンプル
発生器ブロック730に入力される。Lは本発明に対して
は非整数値をとることができる。もしLが非整数であれ
ば、補間FIRフィルタが使用され必要とされる分数的サ
ンプル遅延を発生する。遅延サンプル発生器730は出力
ベクトルq(n)を乗算器ブロック720に提供し、該乗
算器ブロック720はピッチポストフィルタ応答をロング
ターム予測器係数βの関数である係数Rによって尺度変
更する。尺度変更された出力Rq(n)は次に加算器710
に印加され第7図のピッチポストフィルタのフィードバ
ックループを完成する。
本発明に係わるロングターム予測器応答を利用する際
に、励起利得ファクタγおよびロングターム予測器係数
βは閉ループ構成におけるLのすべての値に対し同時に
最適化することができる。この結合された最適化技術は
L<Nの値に対しては今までは実際的ではなかったが、
それは結合最適化方程式が単一パラメータβにおいて非
線形となるからであった。本発明はロングターム予測器
の構造を変更しリニアな結合最適化方程式を許容する。
さらに、本発明はロングターム予測器ラグが1サンプル
より良好な分解能を持つことを許容し、それによりその
性能を増強する。
さらに、コードブックサーチ手順がさらに単純化され
るが、それはロングタームフィルタのゼロ状態応答がフ
レーム長より小さなラグに対しゼロになるからである。
この付加的な特徴は当業者がロングタームフィルタの効
果をコードブックサーチ手順から除去することを許容す
る。従って、実際の実施上の利点および低いビットレー
トを維持しながらすべてのピッチレートに対しより高い
品質の音声を提供できるCELP音声コーダが示された。
本発明の特定の実施例が示されかつ説明されたが、そ
の広い見地における本発明から離れることなくさらに別
の変更および改良を行うことができる。例えば、任意の
形式の音声コーディング(例えば、RELP、マルチパル
ス、RPE、LPC、その他)をここに述べたサブサンプル分
解能ロングターム予測器ろ波技術とともに用いることが
できる。さらに、サブサンプル分解能のロングターム予
測器構造の付加的な等価構成を上に述べたものと同じ計
算を行うように構成することができる。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジャシウク・マーク エイ アメリカ合衆国イリノイ州 60646、シ カゴ、ノース・ハイアワサ・アベニュー 6611 (56)参考文献 特開 昭60−93500(JP,A) 特開 昭64−13200(JP,A) 特開 昭64−40899(JP,A) 特開 昭64−54497(JP,A) 特開 平2−293800(JP,A) 欧州特許出願公開392126(EP,A 1) (58)調査した分野(Int.Cl.7,DB名) G10L 19/00 - 19/14 H03M 7/30 H04B 14/04

Claims (16)

    (57)【特許請求の範囲】
  1. 【請求項1】音声を再構成する方法であって: コード語Iと遅延パラメータLを含む音声パラメータの
    組を通信チャネルから受信する段階であって、前記遅延
    パラメータLは音声ピッチ周期を表現するための値をと
    ることが可能であり、該値は整数および非整数の値を含
    む所定の範囲内にあるところの段階; 前記コード語Iに応じて、コードブック・メモリから複
    数のサンプルを有する励起ベクトルを選択する段階; 少なくとも前記遅延パラメータLと、格納されたフィル
    タ状態サンプルとに基づいて前記励起ベクトルを濾波す
    る段階;および フィルタ出力ベクトルを処理して再構成された音声を生
    成する段階; から構成され、前記励起ベクトルを濾波する段階は: 非整数の遅延パラメータLを利用して、格納されたフィ
    ルタ状態サンプルを補間することによって補間フィルタ
    状態サンプルを計算する段階であって、前記補間フィル
    タ状態サンプルの数は、前記遅延パラメータの分解能に
    依存して定められるところの段階;および 前記励起ベクトルと前記補間フィルタ状態サンプルとを
    結合して、複数のフィルタ出力サンプルを有するフィル
    タ出力ベクトルを形成する段階; から構成されることを特徴とする方法。
  2. 【請求項2】前記励起ベクトルを濾波する段階は、整数
    である遅延パラメータLに対して、前記励起ベクトルと
    前記格納されたフィルタ状態サンプルとを結合してフィ
    ルタ出力サンプルを形成する段階から構成されることを
    特徴とする請求項1記載の方法。
  3. 【請求項3】前記励起ベクトルを濾波する段階は、さら
    に、前記フィルタ出力サンプルを所定のサンプル数だけ
    シフトさせることによって、前記格納されたフィルタ状
    態サンプルを更新するか階段から構成されることを特徴
    とする請求項1記載の方法。
  4. 【請求項4】さらに、 前記再構成された音声をアナログ音声信号に変換する段
    階;および 前記アナログ音声信号を知覚可能なオーディオ出力に変
    換する段階; から構成されることを特徴とする請求項1記載の方法。
  5. 【請求項5】音声を再構成する装置であって: コード語Iと遅延パラメータLを含む音声パラメータの
    組を通信チャネルから受信する受信回路であって、前記
    遅延パラメータLは音声ピッチ周期を表現するための値
    をとることが可能であり、該値は整数および非整数の値
    を含む所定の範囲内にあるところの受信回路; 前記コード語Iに応じて、コードブック・メモリから複
    数のサンプルを有する励起ベクトルを選択する生成回
    路; 少なくとも前記遅延パラメータLと、格納されたフィル
    タ状態サンプルとに基づいて前記励起ベクトルを濾波す
    るフィルタ回路;および フィルタ出力ベクトルを処理して再構成された音声を生
    成する処理回路; から構成され、前記フィルタ回路は: 非整数の遅延パラメータLを利用して、格納されたフィ
    ルタ状態サンプルを補間することによって補間フィルタ
    状態サンプルを計算する演算回路であって、前記補間フ
    ィルタ状態サンプルの数は、前記遅延パラメータの分解
    能に依存して定められるところの演算回路;および 前記励起ベクトルと前記補間フィルタ状態サンプルとを
    結合して、複数のフィルタ出力サンプルを有するフィル
    タ出力ベクトルを形成する結合回路; から構成されることを特徴とする装置。
  6. 【請求項6】前記結合回路は、さらに、整数である遅延
    パラメータLに対して、前記励起ベクトルと前記格納さ
    れたフィルタ状態サンプルとを結合してフィルタ出力サ
    ンプルを形成する回路から構成されることを特徴とする
    請求項5記載の装置。
  7. 【請求項7】前記励起ベクトルを濾波する段階は、さら
    に、前記フィルタ出力サンプルを所定のサンプル数だけ
    シフトさせることによって、前記格納されたフィルタ状
    態サンプルを更新する更新回路から構成されることを特
    徴とする請求項5記載の装置。
  8. 【請求項8】さらに、 前記再構成され他音声をアナログ音声信号に変換する音
    声変換回路;および 前記アナログ音声信号を知覚可能なオーディオ出力に変
    換する変換回路; から構成されることを特徴とする請求項5記載の装置。
  9. 【請求項9】音声を再構成する方法であって: コード語Iと遅延パラメータLを含む音声パラメータの
    組を通信チャネルから受信する段階であって、前記遅延
    パラメータLは音声ピッチ周期を表現するための値をと
    ることが可能であり、該値は整数および非整数の値を含
    む所定の範囲内にあるところの段階; 前記コード語Iに応じて、コードブック・メモリから複
    数のサンプルを有する励起ベクトルを選択する段階; 少なくとも前記遅延パラメータと、格納されたフィルタ
    状態サンプルの組と、格納され補間されたフィルタ状態
    サンプルの組の少なくとも1つに基づいて前記励起ベク
    トルを濾波する段階;および フィルタ出力ベクトルを処理して再構成された音声を生
    成する段階; から構成され、前記励起ベクトルを濾波する段階は: 前記遅延パラメータが整数であるか否かに応じて、前記
    格納されたフィルタ状態サンプル、または格納され補間
    されたフィルタ状態サンプルの一方を選択する段階;お
    よび 前記励起ベクトルと選択されたフィルタ状態サンプルと
    を結合して、複数のフィルタ出力サンプルを有するフィ
    ルタ出力ベクトルを形成する段階; から構成されることを特徴とする方法。
  10. 【請求項10】さらに、 前記再構成された音声をアナログ音声信号に変換する段
    階;および 前記アナログ音声信号を知覚可能なオーディオ出力に変
    換する段階; から構成されることを特徴とする請求項9記載の方法。
  11. 【請求項11】音声を再構成する装置であって: コード語Iと遅延パラメータLを含む音声パラメータの
    組を通信チャネルから受信する受信回路であって、前記
    遅延パラメータLは音声ピッチ周期を表現するための値
    をとることが可能であり、該値は整数および非整数の値
    を含む所定の範囲内にあるところの受信回路; 前記コード語Iに応じて、コードブック・メモリから複
    数のサンプルを有する励起ベクトルを選択する回路; 少なくとも前記遅延パラメータと、格納されたフィルタ
    状態サンプルの組と、格納され補間されたフィルタ状態
    サンプルの組の少なくとも1つに基づいて前記励起ベク
    トルを濾波するフィルタ回路;および フィルタ出力ベクトルを処理して再構成された音声を生
    成する処理回路; から構成され、前記フィルタ回路は: 前記遅延パラメータが整数であるか否かに応じて、前記
    格納されたフィルタ状態サンプル、または格納され補間
    されたフィルタ状態サンプルの一方を選択する選択回
    路;および 前記励起ベクトルと選択されたフィルタ状態サンプルと
    を結合して、複数のフィルタ出力サンプルを有するフィ
    ルタ出力ベクトルを形成する結合回路; から構成されることを特徴とする装置。
  12. 【請求項12】さらに、 前記再構成された音声をアナログ音声信号に変換する音
    声変換回路;および 前記アナログ音声信号を知覚可能なオーディオ出力に変
    換する変換回路; から構成されることを特徴とする請求項11記載の装置。
  13. 【請求項13】通信チャネルで伝送するために音声を音
    声パラメータの組に符号化する方法であって、当該方法
    は: 音声信号を複数回サンプルして現在の音声ベクトルを構
    成する複数のサンプルを求める段階; 前記現在の音声ベクトルの音声ピッチ周期に関する遅延
    パラメータLを求める段階であって、前記遅延パラメー
    タLは音声ピッチ周期を表現するための値をとることが
    可能であり、該値は整数および非整数の値を含む所定の
    範囲内にあるところの段階; 前記現在の音声ベクトルに最適なコード語Iを決定する
    ために励起ベクトルを検索する段階;および 前記現在の音声ベクトルに対して選択されたコード語I
    および遅延パラメータLを所定の音声パラメータと共に
    通信チャネルで伝送する段階; から構成され、前記励起ベクトルを検索する段階は: 対応するコード語に応じて励起ベクトルを選択する段
    階; 励起ベクトルを濾波する段階; フィルタ出力ベクトルを処理して再構成された音声ベク
    トルを与える段階; 前記再構成された音声ベクトルと前記現在の音声ベクト
    ルとを比較してそれらの差異を求める段階;および 前記差異を最小にする励起ベクトルのコード語Iを選択
    する段階; 前記現在の音声ベクトルに関し、前記選択されたコード
    語Iおよび遅延パラメータLを選択された音声パラメー
    タとともに前記通信チャネル上で伝送する段階; から構成され、前記励起ベクトルを濾波する段階は: 非整数の遅延パラメータLを利用して、格納されたフィ
    ルタ状態サンプルを補間することによって補間フィルタ
    状態サンプルを計算する段階であって、前記補間フィル
    タ状態サンプルの数は、前記遅延パラメータの分解能に
    依存して定められるところの段階;および 前記励起ベクトルと、前記補間フィルタ状態サンプルと
    を結合して、複数のフィルタ出力サンプルを有するフィ
    ルタ出力ベクトルを形成する段階; から構成されることを特徴とする方法。
  14. 【請求項14】通信チャネルで伝送するために音声を音
    声パラメータの組に符号化する装置であって、当該装置
    は: 音声信号を複数回サンプルして現在の音声ベクトルを構
    成する複数のサンプルを求めるサンプル回路; 前記現在の音声ベクトルの音声ピッチ周期に関する遅延
    パラメータLを求める回路であって、前記遅延パラメー
    タLは音声ピッチ周期を表現するための値をとることが
    可能であり、該値は整数および非整数の値を含む所定の
    範囲内にあるところの回路; 前記現在の音声ベクトルに最適なコード語Iを決定する
    ために励起ベクトルを検索する検索回路;および 前記現在の音声ベクトルに対して選択されたコード語I
    および遅延パラメータLを所定の音声パラメータと共に
    通信チャネルで伝送する伝送回路; から構成され、前記検索回路は: 対応するコード語に応じて励起ベクトルを選択する回
    路; 励起ベクトルを濾波するフィルタ回路; フィルタ出力ベクトルを処理して再構成された音声ベク
    トルを与える処理回路; 前記再構成された音声ベクトルと前記現在の音声ベクト
    ルとを比較してそれらの差異を求める比較回路;および 前記差異を最小にする励起ベクトルのコード語Iを選択
    する選択回路; 前記現在の音声ベクトルに関し、前記選択されたコード
    語Iおよび遅延パラメータLを選択された音声パラメー
    タとともに前記通信チャネル上で伝送する伝送回路; から構成され、前記励起ベクトルを濾波するフィルタ回
    路は: 非整数の遅延パラメータLを利用して、格納されたフィ
    ルタ状態サンプルを補間することによって補間フィルタ
    状態サンプルを計算する演算回路であって、前記補間フ
    ィルタ状態サンプルの数は、前記遅延パラメータの分解
    能に依存して定められるところの演算回路;および 前記励起ベクトルと、前記補間フィルタ状態サンプルと
    を結合して、複数のフィルタ出力サンプルを有するフィ
    ルタ出力ベクトルを形成する結合回路; から構成されることを特徴とする装置。
  15. 【請求項15】通信チャネルで伝送するために音声を音
    声パラメータの組に符号化する方法であって、当該方法
    は: 音声信号を複数回サンプルして現在の音声ベクトルを構
    成する複数のサンプルを求める段階; 前記現在の音声ベクトルの音声ピッチ周期に関する遅延
    パラメータLを求める段階であって、前記遅延パラメー
    タLは音声ピッチ周期を表現するための値をとることが
    可能であり、該値は整数および非整数の値を含む所定の
    範囲内にあるところの段階; 前記現在の音声ベクトルに最適なコード語Iを決定する
    ために励起ベクトルを検索する段階;および 前記現在の音声ベクトルに対して選択されたコード語I
    および遅延パラメータLを所定の音声パラメータと共に
    通信チャネルで伝送する段階; から構成され、前記励起ベクトルを検索する段階は: 対応するコード語に応じて励起ベクトルを選択する段
    階; 少なくとも前記遅延パラメータLと、格納されたフィル
    タ状態サンプルの組と、格納され補間されたフィルタ状
    態サンプルの組の少なくとも1つに基づいて励起ベクト
    ルを濾波する段階; フィルタ出力ベクトルを処理して再構成された音声ベク
    トルを与える段階; 前記再構成された音声ベクトルと前記現在の音声ベクト
    ルとを比較してそれらの差異を求める段階;および 前記差異を最小にする励起ベクトルのコード語Iを選択
    する段階; から構成され、前記励起ベクトルを濾波する段階は: 前記遅延パラメータが整数であるか否かに応じて、前記
    格納されたフィルタ状態サンプル、または格納され補間
    されたフィルタ状態サンプルの一方を選択する段階;お
    よび 前記励起ベクトルと、前記選択されたフィルタ状態サン
    プルとを結合して、複数のフィルタ出力サンプルを有す
    るフィルタ出力ベクトルを形成する段階; から構成されることを特徴とする方法。
  16. 【請求項16】通信チャネルで伝送するために音声を音
    声パラメータの組に符号化する装置であって、当該装置
    は: 音声信号を複数回サンプルして現在の音声ベクトルを構
    成する複数のサンプルを求めるサンプル回路; 前記現在の音声ベクトルの音声ピッチ周期に関する遅延
    パラメータLを求める回路であって、前記遅延パラメー
    タLは音声ピッチ周期を表現するための値をとることが
    可能であり、該値は整数および非整数の値を含む所定の
    範囲内にあるところの回路; 前記現在の音声ベクトルに最適なコード語Iを決定する
    ために励起ベクトルを検索する検索回路;および 前記現在の音声ベクトルに対して選択されたコード語I
    および遅延パラメータLを所定の音声パラメータと共に
    通信チャネルで伝送する伝送回路; から構成され、前記検索回路は: 対応するコード語に応じて励起ベクトルを選択する回
    路; 少なくとも前記遅延パラメータLと、格納されたフィル
    タ状態サンプルの組と、格納され補間されたフィルタ状
    態サンプルの組の少なくとも1つに基づいて励起ベクト
    ルを濾波するフィルタ回路; フィルタ出力ベクトルを処理して再構成された音声ベク
    トルを与える処理回路; 前記再構成された音声ベクトルと前記現在の音声ベクト
    ルとを比較してそれらの差異を求める比較回路;および 前記差異を最小にする励起ベクトルのコード語Iを選択
    する選択回路; から構成され、前記フィルタ回路は: 前記遅延パラメータが整数であるか否かに応じて、格納
    されたフィルタ状態サンプル、または格納され補間され
    たフィルタ状態サンプルの一方を選択する選択回路;お
    よび 前記励起ベクトルと、前記選択されたフィルタ状態サン
    プルとを結合して、複数のフィルタ出力サンプルを有す
    るフィルタ出力ベクトルを形成する結合回路; から構成されることを特徴とする装置。
JP50964190A 1989-09-01 1990-06-25 改良されたロングターム予測器を有するデジタル音声コーダ Expired - Lifetime JP3268360B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US40220689A 1989-09-01 1989-09-01
US402,206 1989-09-01

Publications (2)

Publication Number Publication Date
JPH04502675A JPH04502675A (ja) 1992-05-14
JP3268360B2 true JP3268360B2 (ja) 2002-03-25

Family

ID=23590969

Family Applications (1)

Application Number Title Priority Date Filing Date
JP50964190A Expired - Lifetime JP3268360B2 (ja) 1989-09-01 1990-06-25 改良されたロングターム予測器を有するデジタル音声コーダ

Country Status (12)

Country Link
EP (1) EP0450064B2 (ja)
JP (1) JP3268360B2 (ja)
CN (1) CN1026274C (ja)
AT (1) ATE191987T1 (ja)
AU (1) AU634795B2 (ja)
CA (1) CA2037899C (ja)
DE (1) DE69033510T3 (ja)
DK (1) DK0450064T4 (ja)
ES (1) ES2145737T5 (ja)
MX (1) MX167644B (ja)
SG (1) SG47028A1 (ja)
WO (1) WO1991003790A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
FR2702590B1 (fr) * 1993-03-12 1995-04-28 Dominique Massaloux Dispositif de codage et de décodage numériques de la parole, procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP, et procédé d'analyse LTP.
FI96248C (fi) 1993-05-06 1996-05-27 Nokia Mobile Phones Ltd Menetelmä pitkän aikavälin synteesisuodattimen toteuttamiseksi sekä synteesisuodatin puhekoodereihin
DE4421853A1 (de) * 1994-06-22 1996-01-04 Philips Patentverwaltung Mobilfunkendgerät
GB9408037D0 (en) * 1994-04-22 1994-06-15 Philips Electronics Uk Ltd Analogue signal coder
JP2970407B2 (ja) * 1994-06-21 1999-11-02 日本電気株式会社 音声の励振信号符号化装置
FR2729247A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
FR2729244B1 (fr) * 1995-01-06 1997-03-28 Matra Communication Procede de codage de parole a analyse par synthese
US5708757A (en) * 1996-04-22 1998-01-13 France Telecom Method of determining parameters of a pitch synthesis filter in a speech coder, and speech coder implementing such method
JP4857467B2 (ja) * 2001-01-25 2012-01-18 ソニー株式会社 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP4857468B2 (ja) * 2001-01-25 2012-01-18 ソニー株式会社 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
GB2466674B (en) 2009-01-06 2013-11-13 Skype Speech coding
EP2761616A4 (en) * 2011-10-18 2015-06-24 Ericsson Telefon Ab L M IMPROVED METHOD AND DEVICE FOR AN ADAPTIVE MULTIRATE CODEC
FR3015754A1 (fr) * 2013-12-20 2015-06-26 Orange Re-echantillonnage d'un signal audio cadence a une frequence d'echantillonnage variable selon la trame

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL168669C (nl) * 1974-09-16 1982-04-16 Philips Nv Interpolerend digitaal filter met ingangsbuffer.
US4080660A (en) * 1975-07-11 1978-03-21 James Nickolas Constant Digital signal time scale inversion
US4020332A (en) * 1975-09-24 1977-04-26 Bell Telephone Laboratories, Incorporated Interpolation-decimation circuit for increasing or decreasing digital sampling frequency
NL8105801A (nl) * 1981-12-23 1983-07-18 Philips Nv Recursief digitaal filter.
US4573135A (en) * 1983-04-25 1986-02-25 Rca Corporation Digital lowpass filter having controllable gain
JPS60116000A (ja) * 1983-11-28 1985-06-22 ケイディディ株式会社 音声符号化装置
JPS63214032A (ja) * 1987-03-02 1988-09-06 Fujitsu Ltd 符号化伝送装置
JPS63249200A (ja) * 1987-04-06 1988-10-17 日本電信電話株式会社 ベクトル量子化方式
JPH01177227A (ja) * 1988-01-05 1989-07-13 Toshiba Corp 音声コーデック

Also Published As

Publication number Publication date
SG47028A1 (en) 1998-03-20
WO1991003790A1 (en) 1991-03-21
CA2037899A1 (en) 1991-03-02
DE69033510T2 (de) 2000-11-23
AU634795B2 (en) 1993-03-04
ES2145737T5 (es) 2007-03-01
DK0450064T3 (da) 2000-10-02
CN1050633A (zh) 1991-04-10
DE69033510D1 (de) 2000-05-25
JPH04502675A (ja) 1992-05-14
CN1026274C (zh) 1994-10-19
EP0450064B2 (en) 2006-08-09
AU5952590A (en) 1991-04-08
EP0450064A4 (en) 1995-04-05
DE69033510T3 (de) 2007-06-06
MX167644B (es) 1993-03-31
DK0450064T4 (da) 2006-09-04
EP0450064A1 (en) 1991-10-09
ATE191987T1 (de) 2000-05-15
EP0450064B1 (en) 2000-04-19
CA2037899C (en) 1996-09-17
ES2145737T3 (es) 2000-07-16

Similar Documents

Publication Publication Date Title
US5359696A (en) Digital speech coder having improved sub-sample resolution long-term predictor
JP3268360B2 (ja) 改良されたロングターム予測器を有するデジタル音声コーダ
JP2523031B2 (ja) 改良されたベクトル励起源を有するデジタル音声コ―ダ
JP4005359B2 (ja) 音声符号化及び音声復号化装置
US5903866A (en) Waveform interpolation speech coding using splines
JP4662673B2 (ja) 広帯域音声及びオーディオ信号復号器における利得平滑化
JP5400701B2 (ja) 音声符号化のための方法と装置
RU2679228C2 (ru) Передискретизация звукового сигнала для кодирования/декодирования с малой задержкой
EP0575511A4 (ja)
US5924061A (en) Efficient decomposition in noise and periodic signal waveforms in waveform interpolation
CN100593195C (zh) 在语音编码系统中对增益信息进行编码的方法和装置
JP3095133B2 (ja) 音響信号符号化方法
JP3168238B2 (ja) 再構成音声信号の周期性を増大させる方法および装置
JP2003044099A (ja) ピッチ周期探索範囲設定装置及びピッチ周期探索装置
JP3232701B2 (ja) 音声符号化方法
JP3192051B2 (ja) 音声符号化装置
JP3192999B2 (ja) 音声符号化方法および音声符号化方法
JP4007730B2 (ja) 音声符号化装置、音声符号化方法および音声符号化アルゴリズムを記録したコンピュータ読み取り可能な記録媒体
KR950001437B1 (ko) 음성부호화방법
JP3284874B2 (ja) 音声符号化装置
KR100318336B1 (ko) G.723.1 mp-mlq 코드북 검색 시간 단축 방법.
Kao Thesis Report
GB2352949A (en) Speech coder for communications unit
Eng Pitch Modelling for Speech Coding at 4.8 kbitsls
JP2000305598A (ja) 適応ポストフィルタ

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080118

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090118

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090118

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100118

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 9

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 9