JP2002524760A - スピーチコーディングのための適用基準 - Google Patents

スピーチコーディングのための適用基準

Info

Publication number
JP2002524760A
JP2002524760A JP2000568079A JP2000568079A JP2002524760A JP 2002524760 A JP2002524760 A JP 2002524760A JP 2000568079 A JP2000568079 A JP 2000568079A JP 2000568079 A JP2000568079 A JP 2000568079A JP 2002524760 A JP2002524760 A JP 2002524760A
Authority
JP
Japan
Prior art keywords
speech signal
determining
original speech
signal
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000568079A
Other languages
English (en)
Other versions
JP3483853B2 (ja
Inventor
エリック エクデン,
ロアール ハーゲン,
Original Assignee
テレフォンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=22510960&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2002524760(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by テレフォンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフォンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2002524760A publication Critical patent/JP2002524760A/ja
Application granted granted Critical
Publication of JP3483853B2 publication Critical patent/JP3483853B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0003Backward prediction of gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/935Mixed voiced class; Transitions

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

(57)【要約】 元のスピーチ信号から、元のスピーチ信号の近似値を再構成することができる複数のパラメータ(gaQ、gfQ)を作成するに際して、元のスピーチ信号に基づいて元の信号を表現することを意図した別の信号を作成する。元のスピーチ信号と別の信号との間の第1と第2の相違に基づいて少なくとも1つのパラメータを決定する(69,71)。第1の相違は元のスピーチ信号に対応する波形と前記別の信号に対応する波形の相違であり、前記第2の相違は前記元のスピーチ信号から得られたエネルギーパラメータと前記別の信号に対応するエネルギーパラメータとの相違である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】
本発明は一般的にはスピーチコーディングに関するものであり、より具体的に
は、ノイズ状の、低ビットレート信号を取り込むための改善されたコーディング
基準に関するものである。
【0002】
【発明の技術背景】
最も新しいスピーチコーダは、何らかの形のモデルに基づいて符号化されたス
ピーチ信号を作成するものである。モデルのパラメータと信号は量子化されて、
それらを記述する情報はチャネルを介して送信される。セルラー電話への適用に
おいて支配的なコーダのモデルは符号励起線形予測手法(CELP)である。
【0003】 図1に従来のCELPデコーダを示す。符号化されたスピーチが典型的には1
0のオーダである全ポール合成フィルタを通して供給される励起信号によって作
成される。励起信号は、対応するコード表から取り出される2つの信号caとc
fの合計として得られ(一方は固定、他方は適用型である)、次に適当なゲイン
係数gaとgfを掛ける。コードブック信号は典型的には5msの長さで(サブ
フレーム1つ)、合成フィルターは典型的には20msごとに(1フレームで)
更新される。CELPモデルに関連するパラメータは、合成フィルタ係数、コー
ドブックの内容及びゲイン係数である。
【0004】 図2には、従来のCELPエンコーダが示されている。CELPデコーダ(図
1)のレプリカを用いてサブフレーム毎のコード信号候補を作成する。21で符
号化された信号は符号化されていない(デジタル化された)信号と比較されて、
符号化プロセスを制御するために重み付けられた誤差信号が使用される。合成フ
ィルタは線形予測(LP)を使用して決定される。この従来の符号化手順は合成
による線形予測分析(LPAS)とよばれる。
【0005】 上の記載からわかるように、LPASコーダは重み付けられたスピーチ領域で
波形マッチングを使用する。つまり、誤差信号は重み付けフィルタによってフィ
ルタ処理される。このことは以下に示す2乗誤差基準を最小化するものとして表
現される:
【数1】 ここで、Sは符号化されていないスピーチサンプルのサブフレームを有するベク
トル、SWはSに重み付けフィルタWを掛けたもの、caとcfはそれぞれ適用
及び固定コードブックからの符号ベクトル、Wは重み付けフィルタ処理を行うマ
トリックス、Hは合成フィルタ処理を行うマトリックス、CSWは符号化された
信号に重み付けフィルタWを掛けたものである。従来は、式1に記載された基準
を最小化する符号化処理は以下のステップに従って行われている:
【表1】
【0006】 上記の波形マッチング手順は、少なくとも8kb/s程度以上のビットレート
であれば良く機能することが知られている。しかし、ビットレートを下げると、
音声のないスピーチや背景ノイズのような非周期的なノイズ状の信号については
波形マッチングの能力に問題がある。音声を有するスピーチ部分については、波
形マッチング基準はそれでもよく機能するが、ノイズ状の信号に対する波形マッ
チング能力が劣るために、符号化された信号のレベルが低くなりすぎ(スワーリ
ングとして知られている)不愉快な変化を伴うものになることが多い。
【0007】 ノイズ状の信号に関しては、関連技術の分野では、信号のスペクトル特性をマ
ッチさせることで良好な信号レベル(ゲイン)の一致が得られることが知られて
いる。線形予測合成フィルタは信号のスペクトル特性を与えるので、式1に代え
て用いることができる基準は以下のようになる:
【数2】 ここで、ESは符号化されていないスピーチ信号のエネルギー、ECSは符号化信
号CS=H・(ga・ca+gf・cf)のエネルギーである。式1が波形マッ
チングを表すのに対して、式2は、エネルギーマッチングを表すものである。こ
の基準もまた重み付けフィルタWを導入して重み付けスピーチに使用することが
できる。式2では、基準を式1と同じ領域にするだけのために平方根を求める処
理が含まれていることに注意されたい;このことは必須ではなく要件ではない。
これ以外にも、DE=|ES−ECS|のような別のエネルギーマッチング基準も考
えられる。
【0008】 上記の基準は残余に関して以下のように表現することもできる:
【数3】 ここで、Erは、合成フィルタの逆(H-1)によってフィルタ処理Sして得られ
る残余信号rのエネルギーであり、Exは、x=ga・ca+gf・cfで表さ
れる励起信号のエネルギーである。
【0009】 上記の異なる基準は、音声のないスピーチと背景ノイズとに異なる符号化モー
ド(例えばエネルギーマッチング)を使用する従来のマルチモード符号化で使用
されている。これらのモードでは、式2と3に示したエネルギーマッチング基準
を使用している。この方法の欠点は、例えば、音声のあるスピーチには波形マッ
チングモード(式1)を選択し、音声のないスピーチと背景ノイズのようなノイ
ズ状信号に対してはエネルギーマッチングモード(式2と3)を選択するように
モードを決定しなければならないことである。モードの決定はデリケートであり
、間違えると耳障りなアーチファクトが発生する。また、モード間の符号化手法
の激しい変化によって望ましくない音が発生する。
【0010】 従って、低いビットレートにおいて、上述のようなマルチモード符号化の欠点
を解決することができる、ノイズ状信号の改善された符号化手法を提供すること
が望まれる。 本発明は、波形マッチングとエネルギーマッチング基準を好ましい形で組み合
わせて、マルチモード符号化の欠点を排除して、低ビットレートのノイズ状信号
を符号化することができる。
【0011】 [発明の詳細な説明] 本発明は波形マッチング基準とエネルギーマッチング基準を1つの基準DWE
統合したものである。波形マッチングとエネルギーマッチングのバランスは重み
付け係数を用いて穏やかかつ適用的に調整する:
【数4】 ここで、KとLは波形マッチング変形DWとエネルギーマッチング変形DEとの間
の相対的な重み付けを決定する重み付け係数である。重み付け係数KとLは、以
下のように、それぞれ1−αとαで表現することができる:
【数5】 ここで、αは0と1の間の値をとる、当該基準において波形マッチング部分DW
とエネルギーマッチング部分DEとの間のバランス係数である。αの値は、好ま
しくは、その時点のスピーチセグメントα=α(ν)、νは音声標識、における
音声レベルまたは周期性の関数である。α(v)関数の例の基本的なスケッチを
図3に示す。低い音声レベルaではα=d、bより上の音声レベルではα=cで
あり、αは音声レベルaとbとの間では、αはdからcに漸減する。
【0012】 1つの特定の形式においては、式5の基準は以下のように表すことができる:
【数6】 ここで、ESWは信号SWのエネルギー、ECSWは信号CSWのエネルギーである。
【0013】 上記の式6またはその変形がCELPコーダの全符号化プロセスに好適に使用
可能であるが、上記の式をゲイン量子化の部分(上述のエンコードにおけるステ
ップ4)のみに使用したときに顕著な効果が見られる。ここでの記載は式6で表
される基準のゲイン量子化への適用について詳述するが、同様にcaとcfコー
ドブックの検索にも使用することができる。
【0014】 式6のECSWは以下のように表すこともできることに留意すれば、
【数7】 式6を以下のように表現することができる:
【数8】 式1を用いて以下のように変形することができる。
【数9】
【0015】 例えば上述の式1とステップ1−3によって符号ベクトルcaとcfを決定し
たら、次には対応する量子化ゲインの値を見つけなければならない。ベクトル量
子化のためには、これらの量子化ゲインの値は、ベクトル量子化装置のコードブ
ックの値によって与えられる。コードブックは複数のエントリーを含んでおり、
各エントリーは一組の量子化ゲインの値gaQとgfQを有する。
【0016】 ベクトル量子化コードブックからすべての量子化されたゲインの値gaQとg
Qを式9に代入して、結果として得られるCSWの値を式8に代入し、式8にお
いてDWEが取ることのできる値をすべて算出する。最も小さなDWEの値を与える
ベクトル量子化器のコードブックのゲインの値の組を、量子化されたゲインの値
として選択する。
【0017】 新しい符号化器では、ゲインの値または少なくとも固定コードブックのゲイン
の値を得るために予測的量子化が行われる。検索の前に予測を行うので、この結
果は式9に直接組み込まれる。コードブックのゲインの値を式9に代入する代わ
りに、予測されたゲインの値を掛けたコードブックのゲイン値を式9に代入する
。こうして得られたそれぞれのCSWを次に、上述の式8に代入する。
【0018】 ゲイン係数の量子化のためには、最適ゲインを直接量子化する単純な基準がし
ばしば使用される。当該基準とは:
【数10】 であり、ここでDSGQはスカラーゲイン量子化基準、gOPTは従来はステップ2ま
たは3によって定める(gaOPTまたはgfOPT)最適ゲイン、gはgaまたはg
fスカラー量子化器のコードブックから得られる量子化されたゲイン値である。
SGQの値を最小にする量子化ゲインの値を選択する。
【0019】 ゲイン係数を量子化する際には、ノイズ状のスピーチセグメントでは適用コー
ドブックは通常大きな役割を果たさないので、必要ならエネルギーマッチングの
項は固定コードブックゲインのためだけに使用するのが好ましい。従って、新し
い基準Dg/Qを固定コードブックゲインに使用するのに対して、式10の基準を
適用コードブックゲインの量子化に使用することができる:
【数11】 ここで、gfOPTは上述のステップ3によって定めた最適gfの値、gaQは式1
0によって定めた量子化適用コードブックゲインの値である。gfスカラー量子
化器のコードブックからのすべての量子化ゲイン値を式11にgfとして代入し
、Dg/Qの値を最小にする量子化ゲイン値を選択する。
【0020】 新しい基準の下で良好な性能を得るためにはバランス係数αの使用が肝要であ
る。既に述べたように、αは好ましくは音声レベルの関数である。適用コードブ
ックの符号化ゲインは音声レベルの良い指標の例である。音声レベルを決定する
例には以下のものが含まれる:
【数12】
【数13】 ここで、vvはベクトル量子化の音声レベル測定値、vsはスカラー量子化のため
の音声レベル測定値、rは上述のように規定された残余信号である。
【0021】 音声レベルは式12と13を使用して残余領域で決定されるので、音声レベル
は例えば式12と13のrにSWを代入して式12と13のga・caにW・H
を掛けて、重み付けスピーチ領域で決定することができる。
【0022】 νの値がローカルに変動することを避けるために、νの値にはα領域でマッピ
ングする前にフィルタ処理しても良い。例えば、その時点での値とその前のサブ
フレーム4つ分の値に対するメジアンフィルタは以下のようになる:
【数14】 ここで、ν-1、ν-2、ν-3、ν-4は直前の4つのフレームのνの値である。
【0023】 図4に示した関数は、音声インディケータvmからバランス係数αのマッピン
グの例を示すものである。この関数は数学的には以下のように表すことができる
【数15】 αの最大値は1よりも小さいことは、完全なエネルギーマッチングは決して発生
せず、基準には常に波形マッチングの部分がいくらか含まれることを意味するこ
とに留意する必要がある(式5参照)。
【0024】 スピーチの開始において、信号のエネルギーが急激に大きくなると、適用コー
ドブックは関連する信号を有していないことに起因して、適用コードブック符号
化のゲインが小さすぎることがしばしば起きる。しかし、開始時には波形マッチ
ングは重要であり、従ってオンセットが検出されたらαの値は強制的にゼロにさ
れる。最適固定コードブックゲインに基づく簡単な開始検出は以下のようなもの
である:
【数16】 ここで、gfOPT-1は、直前のサブフレームに対して上記のステップ3によって
決定された最適固定コードブックのゲイン値である。
【0025】 直前のサブフレームにおいてαの値がゼロであった場合には、αの値の増加に
制限を加えることが望ましい場合がある。これは、前の値がゼロであればαの値
を適当な数、例えば2.0、で単に割ることによって実現できる。この手法によ
って、純粋な波形マッチングからよりエネルギーマッチングを取り込んだものへ
の移行に伴うアーチファクツを排除することができる。
【0026】 同様に、式15と16を使用してバランス係数αを決定したら、例えば、前の
サブフレームのαの値と平均することによって、フィルタ処理することが望まし
い。
【0027】 上述のように、式6は(従って式8と9も)、適用及び固定コードブックベク
トルcaとcfを選択するために使用することができる。適用コードブックベク
トルcaはまだわかっていないので、式12と13の音声測定を行うことができ
ず、従って式15のバランスファクタαを計算することもできない。従って、式
8と9を固定及び適用コードブック検索に使用するために、経験的手法またはく
り返し演算によってバランス係数αは所望のノイズ状信号が得られるような値に
決定するのが望ましい。バランス係数αを経験的手法によって決定したら、上述
のステップ1−4に従って、ただし、式8と9の基準を使用して、固定及び適用
コードブック検索を行うことができる。別な方法としては、経験的な手法で決定
したαの値を用いてステップ2でcaとgaの値を決定した後、ステップ3の固
定コードブック検索で使用すべき式8におけるαの値を決定するために適宜式1
2−15を使用することができる。
【0028】 図5は、本発明に基づくCELPスピーチエンコーダの一部を例示した模式図
である。図5に示したエンコーダ部分には、符号化されていないスピーチ信号を
受信するための、固定及び適用コードブック61と62と接続された入力部を有
する基準制御器51と、ゲイン量子化コードブック50,54および60が含ま
れる。基準制御器51は、図2に示したCELPエンコーダデザインに関連する
すべての従来の処理を行うことができ、これには上述の式1−3と10で表され
る従来の基準を実施すること、および、上述のステップ1−4で表される従来の
処理を行うことが含まれる。
【0029】 上述のような従来の処理に加えて、基準制御器51はさらに上述の式4−9と
11−16で表される処理を行うことが可能である。基準制御器51は音声決定
装置53に上述のステップ2で決定されたcaの値とステップ1−4を実行して
得られたgaOPTの値(またはスカラー量子化を行った場合にはgaQ)を与える
。基準制御器はさらに符号化されていないスピーチ信号に対して逆合成フィルタ
-1を適用して残余信号rを決定し、これもまた音声決定装置53に入力する。
【0030】 音声決定装置53は上述の入力を受けて式12(ベクトル量子化の場合)また
は式13(スカラー量子化の場合)に従って音声レベルインディケータvを決定
する。音声レベルインディケータvをフィルタ55の入力部に与えられ、そこで
音声レベルインディケータvに対して(たとえば前述のメジアンフィルタ処理の
ような)フィルタ処理を行い、フィルタ処理された音声レベルインディケータv f を出力する。メジアンフィルタの場合には、フィルタ55は、図示したように
、直前のサブフレームの音声レベルインディケータを記憶するための記憶部56
を有する。
【0031】 フィルタ55からのフィルタ処理された音声レベルインディケータvfは、バ
ランス係数決定装置57に入力される。バランス係数決定装置57は、バランス
ファクタαを決定するために、例えば上述の式15(vmは図5に示したvfの具
体的な例である)と図4に示したような方法でフィルタ処理された音声レベルイ
ンディケータvfを使用する。基準制御器51は、バランス係数決定装置57に
その時点のサブフレームに関するgfOPTの値を入力して、この値は、式16で
使用するためにバランス係数決定装置57の記憶手段58に記憶される。バラン
ス係数決定装置はまた、サブフレームごと(あるいは少なくともαの値がゼロで
あるとき)のαの値を記憶する記憶手段59を具備して、前のサブフレームでの
αの値がゼロであったら、バランス係数決定装置57がαの値の増大を制限する
ことができるようにする。
【0032】 基準制御装置51が合成フィルタ係数を求め、コードブックベクトルと関連す
る量子化ゲイン値を決定するために所望の基準を適用すると、これらのパラメー
タを表す情報が基準制御装置の52の位置から出力されて通信チャネルを介して
送信される。
【0033】 図5はまた、適用コードブックゲイン値gaと固定コードブックゲイン値gf
のためのベクトル量子化器のコードブック50と対応するスカラー量子化器のコ
ードブック54と60を示す。上述のように、ベクトルコードブック50は複数
のエントリーを有しており、各エントリーは一組の量子化ゲイン値gaQとgfQ を含む。スカラー量子化コードブック54と60はそれぞれ1つのエントリーご
とに1つの量子化ゲイン値を有する。
【0034】 図6は、図5に示したエンコーダ部分の例の(上で詳細に述べた)処理をフロ
ー図で示すものである。63で符号化されていないスピーチの新しいサブフレー
ムを受信すると、64で所望の基準の下で上記のステップ1−4を実施して、c
a、gaとgfを決定する。次に65で、音声測定値vが決定され、66でバラ
ンス係数αが決定される。次に、67で、波形マッチングとエネルギーマッチン
グに基づいてゲイン係数量子化DWEを定義するためにバランス係数が使用される
。68でベクトル量子化を行う場合には、波形マッチング/エネルギーマッチン
グ組み合わせ基準DWEを使用して69で両方のゲイン係数を量子化するために使
用される。スカラー量子化を使用する場合には、70で式10のDSGQを使用し
て適用コードブックゲインgaを量子化し、71で式11の波形マッチング/エ
ネルギーマッチング基準Dg/Qを使って固定コードブックゲインgfを量子化す
る。ゲイン係数を量子化した後、次のサブフレームが63で待機している。
【0035】 図7は、本発明に基づくスピーチエンコーダを具備する通信システムの例を示
すブロック図である。図7では、本発明に基づくエンコーダ72が、通信チャネ
ル75を介して無線装置74と通信する無線装置73に設けられている。エンコ
ーダ72は符号化されていないスピーチ信号を受信し、チャネル75に、無線装
置74に具備された従来型のデコーダ76(例えば、図1において示したもの)
が元のスピーチ信号を再生することができる情報を送信する。一例として、図7
に示した無線装置73と74は、セルラー電話機であり、チャネル75はセルラ
ー電話ネットワークの通信チャネルで有っても良い。本発明に係るスピーチエン
コーダ72の他の適用例は非常に多く、明らかなものである。
【0036】 当業者には、本発明に基づくスピーチエンコーダが、例えば、適切にプログラ
ムされたデジタル信号処理装置(DSP)やその他の処理装置に単独であるいは
外部のサポートロジックと組み合わせて取り入れることができることは明らかで
ある。
【0037】 本発明に係る新しいスピーチコーディング基準は波形マッチングとエネルギー
マッチングを柔軟に組み合わせる。従って、一つ以上のものを使用する必要はな
く、適切に組み合わせられた基準を適用することができる。基準となるモードの
選択を誤る問題は回避される。基準の適用的な性質によって波形マッチングとエ
ネルギーマッチングのバランスを円滑に調整することが可能になる。従って、基
準を急激に変更することによるアーチファクツが抑制される。
【0038】 新しい基準においてもある種の波形マッチングは常に維持することができる。
ノイズバーストのような音圧レベルの大きな完全に不適当な信号が発生する問題
は従って回避される。
【0039】 本発明の実施例について詳細に述べたが、これらは発明の範囲を制限するもの
ではなく、本発明は多くの実施形態で実現することができる。
【図面の簡単な説明】
【図1】 従来のCELPデコーダを示す概念図である。
【図2】 従来のCELPエンコーダを示す概念図である。
【図3】 本発明に基づくバランス係数を示すグラフである。
【図4】 図3に示したバランス係数の特定の例を示したグラフである。
【図5】 本発明に基づくCELPエンコーダの一例の関連部分を示す概念
図である。
【図6】 図5に示したCELPエンコーダの作動の一例を示す流れ図であ
る。
【図7】 本発明に基づく通信システムを示す概念図である。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,UG,ZW),E A(AM,AZ,BY,KG,KZ,MD,RU,TJ ,TM),AE,AL,AM,AT,AU,AZ,BA ,BB,BG,BR,BY,CA,CH,CN,CR, CU,CZ,DE,DK,EE,ES,FI,GB,G D,GE,GH,GM,HR,HU,ID,IL,IN ,IS,JP,KE,KG,KP,KR,KZ,LC, LK,LR,LS,LT,LU,LV,MD,MG,M K,MN,MW,MX,NO,NZ,PL,PT,RO ,RU,SD,SE,SG,SI,SK,SL,TJ, TM,TR,TT,UA,UG,UZ,VN,YU,Z A,ZW Fターム(参考) 5D045 CA01 5J064 AA01 BA13 BB01 BB03 BC01 BC08 BC12 BC16 BC25 BD00

Claims (27)

    【特許請求の範囲】
  1. 【請求項1】 元のスピーチ信号から、元のスピーチ信号を再構成すること
    ができる複数のパラメータを作成する方法であって、 元のスピーチ信号に応じて元のスピーチ信号を表すことを意図した別の信号を
    作成し、 元のスピーチ信号に関連した波形と前記別の信号に関連した波形との第1の相
    違を決定し、 元のスピーチ信号から得られたエネルギーパラメータと前記別の信号から得ら
    れたエネルギーパラメータとの第2の相違を決定し、 前記第1と第2の相違を使用して、元のスピーチ信号の近似値を再構成するこ
    とができるパラメータを少なくとも1つ決定することを含む方法。
  2. 【請求項2】 前記使用するステップは第1と第2の相違に対して少なくと
    も1つのパラメータの決定に関する相対的な重要性を対応付ける請求項1に記載
    の方法。
  3. 【請求項3】 前記対応付けるステップは第1と第2の相違の相対的な重要
    度を示すバランス係数を算出することを含む請求項2に記載の方法。
  4. 【請求項4】 第1と第2の相違にそれぞれ対応する第1と第2の重み付け
    係数を決定するためにバランス係数を使用し、前記第1と第2の相違を使用する
    ステップは第1と第2の相違に第1と第2の重み付け係数をそれぞれ掛けること
    を含む請求項3に記載の方法。
  5. 【請求項5】 前記バランス係数を使用して第1と第2の重み付け係数を決
    定するステップが、重み付け係数の一方を選択的にゼロにすることを含む請求項
    4に記載された方法。
  6. 【請求項6】 前記重み付け係数の一方を選択的にゼロにするステップは、
    元のスピーチ信号におけるスピーチの開始を検出し、スピーチの開始に対応して
    第2の重み付け係数をゼロにすることを含む請求項5に記載の方法。
  7. 【請求項7】 前記バランス係数を算出するステップは、既に算出されたバ
    ランス係数を少なくとも1つ使用してバランス係数を算出する請求項3に記載の
    方法。
  8. 【請求項8】 前記予め算出されたバランス係数に基づいてバランス係数を
    算出するステップは、所定の大きさの既に算出されたバランス係数に応じてバラ
    ンス係数の大きさを制限することを含む請求項7に記載の方法。
  9. 【請求項9】 前記バランス係数を算出するステップは、元のスピーチ信号
    に対応する音声レベルを決定し、当該音声レベルの関数としてバランス係数を算
    出する請求項3に記載の方法。
  10. 【請求項10】 前記音声レベルを決定するステップは、音声レベルにフィ
    ルタ処理を行ってフィルタ処理された音声レベルを求め、前記算出するステップ
    はフィルタ処理された音声レベルの関数としてバランス係数を算出する請求項9
    に記載の方法。
  11. 【請求項11】 前記フィルタ処理を行うステップは、メジアンフィルタ処
    理を行うことを含み、フィルタ処理を行った音声レベルと元のスピーチ信号に関
    連する既に決定済みの音声レベルとを含む音声レベルのグループからメジアンフ
    ィルタ処理を行うことを含む請求項10に記載の方法。
  12. 【請求項12】 前記対応付けるステップは、それぞれ第1及び第2の相違
    に対応する第1と第2の重み付け係数を決定し、元のスピーチに対応する音声レ
    ベルを決定し、音声レベルの関数として重み付け係数を決定することを含む請求
    項2に記載の方法。
  13. 【請求項13】 音声レベルの関数として第1と第2の重み付け係数を決定
    する前記ステップは、第1の音声レベルに対応して第1の重み付け係数を第2の
    重み付け係数よりも大きくし、第1の音声レベルよりも低い第2音声レベルに対
    応して第2の重み付け係数を第1の重み付け係数よりも大きくする請求項12に
    記載の方法。
  14. 【請求項14】 前記使用するステップは符号励起線形予測スピーチ符号化
    方法に基づいて元のスピーチ信号を再構成する量子化されたゲイン値を決定する
    ために第1と第2の相違を使用する請求項1に記載の方法。
  15. 【請求項15】 元のスピーチ信号を受信するための入力部と、 元のスピーチ信号の近似値を再構成することができるパラメータをあらわす情
    報を提供するための出力部と、 前記入力部と出力部の間に設けられて、元のスピーチ信号に応じて元のスピー
    チ信号を表現することを意図した別のスピーチ信号を作成する制御装置であって
    、前記制御装置はさらに元のスピーチ信号と別の信号との間の第1と第2の相違
    に基づいて少なくとも1つのパラメータを決定し、前記第1の相違は元のスピー
    チ信号に対応する波形と別の信号に対応する波形との相違であり、第2の相違は
    元のスピーチ信号と別の信号のエネルギーパラメータの相違であるスピーチエン
    コード装置。
  16. 【請求項16】 前記少なくとも1つのパラメータの決定における第1と第
    2の相違の相対的な重要性を示すバランス係数を算出するバランス係数決定装置
    を具備し、当該バランス係数決定装置は、前記制御装置に接続された出力部を有
    して、当該制御装置が前記少なくとも1つのパラメータを決定するために使用す
    るように制御装置にバランス係数を供給する請求項15に記載の装置。
  17. 【請求項17】 元のスピーチ信号の音声レベルを決定するために前記入力
    部に接続された音声レベル決定装置を具備し、当該音声レベル決定装置は前記バ
    ランス係数決定装置の入力部に接続された出力部を有してバランス係数決定装置
    に対して音声レベルを供給し、前記バランス係数決定装置は当該音声レベル情報
    に基づいてバランス係数を決定することができる請求項16に記載の装置。
  18. 【請求項18】 前記音声レベル決定装置の出力部と前記バランス係数決定
    装置の入力部に接続されたフィルタを具備して、前記音声レベル決定装置から音
    声レベルを受信して当該バランス係数決定装置にフィルタ処理された音声レベル
    を提供する請求項17に記載の装置。
  19. 【請求項19】 前記フィルタはメジアンフィルタである請求項18に記載
    の装置。
  20. 【請求項20】 前記制御装置は前記バランス係数に対応して第1と第2の
    相違に関する第1と第2の重み付け係数を決定する請求項16に記載の装置。
  21. 【請求項21】 前記制御装置は、前記少なくとも1つのパラメータを決定
    するに際して、第1と第2の相違にそれぞれ第1と第2の重み付け係数を掛ける
    請求項20に記載の装置。
  22. 【請求項22】 前記制御装置は元のスピーチ信号でスピーチが開始された
    ときは第2の相違をゼロとする請求項21に記載の方法。
  23. 【請求項23】 前記バランス係数決定装置がすでに算出されたバランス係
    数を少なくとも1つ使用してバランス係数を算出するものである請求項16に記
    載の装置。
  24. 【請求項24】 前記バランス係数決定装置が既に計算したバランス係数が
    所定の値であったときはバランス係数の値を制限する請求項23に記載の装置。
  25. 【請求項25】 前記スピーチエンコード装置が符号励起線形予測スピーチ
    エンコーダを有し、前記少なくとも1つのパラメータが量子化されたゲイン値で
    ある請求項15に記載の装置。
  26. 【請求項26】 使用者の入力刺激を受ける入力部と、 通信チャネルに出力信号を送出して、通信チャネルを介して受信機に送信させ
    る出力部と、 入力部が前記無線装置の入力と接続され出力部が前記無線装置の出力と接続さ
    れ、スピーチエンコード装置の入力部は該無線装置の入力部から元のスピーチ信
    号を受け、該スピーチエンコード装置の出力部は前記無線装置の出力部に受信機
    において元のスピーチ信号の近似値を再構成することができるパラメータを示す
    情報を供給し、該スピーチエンコード装置はその入力部と出力部とに接続されて
    元のスピーチ信号に対応して元のスピーチ信号を表すことを意図した別の信号を
    与える制御装置を具備し、該制御装置はさらにパラメータのうちの少なくとも1
    つを元のスピーチ信号と別の信号との差に基づいて第1と第2の相違を決定し、
    前記第1の相違は元のスピーチ信号波形と別の信号波形との相違であり、第2の
    相違は元のスピーチ信号から得られたエネルギーパラメータと別の信号から得ら
    れたエネルギーパラメータの相違である通信システムで使用する無線装置。
  27. 【請求項27】 前記無線装置はセルラー電話の一部を構成する請求項26
    に記載の装置。
JP2000568079A 1998-09-01 1999-08-06 スピーチコーディングのための適用基準 Expired - Lifetime JP3483853B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/144,961 1998-09-01
US09/144,961 US6192335B1 (en) 1998-09-01 1998-09-01 Adaptive combining of multi-mode coding for voiced speech and noise-like signals
PCT/SE1999/001350 WO2000013174A1 (en) 1998-09-01 1999-08-06 An adaptive criterion for speech coding

Publications (2)

Publication Number Publication Date
JP2002524760A true JP2002524760A (ja) 2002-08-06
JP3483853B2 JP3483853B2 (ja) 2004-01-06

Family

ID=22510960

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000568079A Expired - Lifetime JP3483853B2 (ja) 1998-09-01 1999-08-06 スピーチコーディングのための適用基準

Country Status (15)

Country Link
US (1) US6192335B1 (ja)
EP (1) EP1114414B1 (ja)
JP (1) JP3483853B2 (ja)
KR (1) KR100421648B1 (ja)
CN (1) CN1192357C (ja)
AR (1) AR027812A1 (ja)
AU (1) AU774998B2 (ja)
BR (1) BR9913292B1 (ja)
CA (1) CA2342353C (ja)
DE (1) DE69906330T2 (ja)
MY (1) MY123316A (ja)
RU (1) RU2223555C2 (ja)
TW (1) TW440812B (ja)
WO (1) WO2000013174A1 (ja)
ZA (1) ZA200101666B (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0005515D0 (en) * 2000-03-08 2000-04-26 Univ Glasgow Improved vector quantization of images
WO2001084536A1 (de) 2000-04-28 2001-11-08 Deutsche Telekom Ag Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector)
DE10026904A1 (de) * 2000-04-28 2002-01-03 Deutsche Telekom Ag Verfahren zur Berechnung des die Lautstärke mitbestimmenden Verstärkungsfaktors für ein codiert übertragenes Sprachsignal
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
DE10124420C1 (de) * 2001-05-18 2002-11-28 Siemens Ag Verfahren zur Codierung und zur Übertragung von Sprachsignalen
FR2867649A1 (fr) * 2003-12-10 2005-09-16 France Telecom Procede de codage multiple optimise
CN100358534C (zh) * 2005-11-21 2008-01-02 北京百林康源生物技术有限责任公司 错位双链寡核苷酸在制备治疗禽流感病毒感染的药物中的应用
US8532984B2 (en) 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
DK2102619T3 (en) * 2006-10-24 2017-05-15 Voiceage Corp METHOD AND DEVICE FOR CODING TRANSITION FRAMEWORK IN SPEECH SIGNALS
CN101192411B (zh) * 2007-12-27 2010-06-02 北京中星微电子有限公司 大距离麦克风阵列噪声消除的方法和噪声消除系统
JP5425067B2 (ja) * 2008-06-27 2014-02-26 パナソニック株式会社 音響信号復号装置および音響信号復号装置におけるバランス調整方法
JP5701299B2 (ja) * 2009-09-02 2015-04-15 アップル インコーポレイテッド コードワードのインデックスを送信する方法及び装置
JP6073215B2 (ja) * 2010-04-14 2017-02-01 ヴォイスエイジ・コーポレーション Celp符号器および復号器で使用するための柔軟で拡張性のある複合革新コードブック
EP3058568B1 (en) 2013-10-18 2021-01-13 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
SG11201603041YA (en) 2013-10-18 2016-05-30 Fraunhofer Ges Forschung Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969193A (en) * 1985-08-29 1990-11-06 Scott Instruments Corporation Method and apparatus for generating a signal transformation and the use thereof in signal processing
US5060269A (en) 1989-05-18 1991-10-22 General Electric Company Hybrid switched multi-pulse/stochastic speech coding technique
US5255339A (en) 1991-07-19 1993-10-19 Motorola, Inc. Low bit rate vocoder means and method
US5657418A (en) 1991-09-05 1997-08-12 Motorola, Inc. Provision of speech coder gain information using multiple coding modes
WO1994025959A1 (en) 1993-04-29 1994-11-10 Unisearch Limited Use of an auditory model to improve quality or lower the bit rate of speech synthesis systems
DE69430872T2 (de) * 1993-12-16 2003-02-20 Voice Compression Technologies System und verfahren zur sprachkompression
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
US5602959A (en) * 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
FR2729247A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
FR2729244B1 (fr) * 1995-01-06 1997-03-28 Matra Communication Procede de codage de parole a analyse par synthese
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
AU696092B2 (en) * 1995-01-12 1998-09-03 Digital Voice Systems, Inc. Estimation of excitation parameters
US5649051A (en) * 1995-06-01 1997-07-15 Rothweiler; Joseph Harvey Constant data rate speech encoder for limited bandwidth path
US5668925A (en) * 1995-06-01 1997-09-16 Martin Marietta Corporation Low data rate speech encoder with mixed excitation
FR2739995B1 (fr) 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
US5819224A (en) * 1996-04-01 1998-10-06 The Victoria University Of Manchester Split matrix quantization
JPH10105195A (ja) * 1996-09-27 1998-04-24 Sony Corp ピッチ検出方法、音声信号符号化方法および装置
US6148282A (en) 1997-01-02 2000-11-14 Texas Instruments Incorporated Multimodal code-excited linear prediction (CELP) coder and method using peakiness measure

Also Published As

Publication number Publication date
AU774998B2 (en) 2004-07-15
BR9913292B1 (pt) 2013-04-09
BR9913292A (pt) 2001-09-25
TW440812B (en) 2001-06-16
US6192335B1 (en) 2001-02-20
RU2223555C2 (ru) 2004-02-10
JP3483853B2 (ja) 2004-01-06
DE69906330D1 (de) 2003-04-30
CN1325529A (zh) 2001-12-05
MY123316A (en) 2006-05-31
EP1114414B1 (en) 2003-03-26
CN1192357C (zh) 2005-03-09
AR027812A1 (es) 2003-04-16
KR20010073069A (ko) 2001-07-31
CA2342353C (en) 2009-10-20
WO2000013174A1 (en) 2000-03-09
DE69906330T2 (de) 2003-11-27
AU5888799A (en) 2000-03-21
EP1114414A1 (en) 2001-07-11
CA2342353A1 (en) 2000-03-09
KR100421648B1 (ko) 2004-03-11
ZA200101666B (en) 2001-09-25

Similar Documents

Publication Publication Date Title
JP3481390B2 (ja) 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法
RU2764287C1 (ru) Способ и система для кодирования левого и правого каналов стереофонического звукового сигнала с выбором между моделями двух и четырех подкадров в зависимости от битового бюджета
JP3566652B2 (ja) 広帯域信号の効率的な符号化のための聴覚重み付け装置および方法
JP4390803B2 (ja) 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置
JP3653826B2 (ja) 音声復号化方法及び装置
US7020605B2 (en) Speech coding system with time-domain noise attenuation
JP4662673B2 (ja) 広帯域音声及びオーディオ信号復号器における利得平滑化
KR100304682B1 (ko) 음성 코더용 고속 여기 코딩
JP2002524760A (ja) スピーチコーディングのための適用基準
KR20070118170A (ko) 스펙트럼 엔벨로프 표현의 벡터 양자화를 위한 방법 및장치
JP2002533963A (ja) 符号化通信信号の性能改良のための符号化された改良特性
KR20020077389A (ko) 광대역 신호의 코딩을 위한 대수적 코드북에서의 펄스위치 및 부호의 인덱싱
JP2004310088A (ja) 半レート・ボコーダ
JP4040126B2 (ja) 音声復号化方法および装置
JP2645465B2 (ja) 低遅延低ビツトレート音声コーダ
JP2000516356A (ja) 可変ビットレート音声送信システム
JP3684751B2 (ja) 信号符号化方法及び装置
JP6626123B2 (ja) オーディオ信号を符号化するためのオーディオエンコーダー及び方法
JPH11184498A (ja) 音声符号化/復号化方法
JP6173304B2 (ja) Celpコーダにおける変換領域コードブック装置
JP3490325B2 (ja) 音声信号符号化方法、復号方法およびその符号化器、復号器
JPH0786952A (ja) 音声の予測符号化方法
JP4230550B2 (ja) 音声符号化方法及び装置、並びに音声復号化方法及び装置
JPH041800A (ja) 音声帯域信号符号化方法
JPH07334195A (ja) サブフレーム長可変音声符号化装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
R150 Certificate of patent or registration of utility model

Ref document number: 3483853

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081017

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091017

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091017

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101017

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101017

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111017

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121017

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131017

Year of fee payment: 10

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term