JP2010160507A - 分散音声認識プロセスにおけるエラーの軽減方法および装置 - Google Patents

分散音声認識プロセスにおけるエラーの軽減方法および装置 Download PDF

Info

Publication number
JP2010160507A
JP2010160507A JP2010043960A JP2010043960A JP2010160507A JP 2010160507 A JP2010160507 A JP 2010160507A JP 2010043960 A JP2010043960 A JP 2010043960A JP 2010043960 A JP2010043960 A JP 2010043960A JP 2010160507 A JP2010160507 A JP 2010160507A
Authority
JP
Japan
Prior art keywords
speech recognition
vector
vectors
recognition parameters
replaced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010043960A
Other languages
English (en)
Inventor
David John Benjamin Pearce
デビッド・ジョン・ベンジャミン・ピアース
Jon Alastair Gibbs
ジョン・アラスター・ギブス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions UK Ltd
Original Assignee
Motorola Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Ltd filed Critical Motorola Ltd
Publication of JP2010160507A publication Critical patent/JP2010160507A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Abstract

【課題】分散音声認識プロセスにおいてエラーを緩和する手段を提供する。
【解決手段】特定されたベクトル・グループ内の一つまたはそれ以上の音声認識パラメータが、この特定されたベクトル・グループの後に受信されたベクトルからの一つまたはそれ以上の音声認識パラメータを参照することによって判定された各置換パラメータによって置換される際に、音声認識プロセスにおいて待ち時間(latency)を許容する可能性が有利に利用される。
【選択図】図2

Description

本発明は、分散音声認識プロセスにおいてエラーを緩和する方法に関する。また、本発明は、分散音声認識プロセスにおいてエラーを緩和する装置に関する。本発明は、無線通信リンク上で送信される際に音声認識パラメータに影響を及ぼす送信エラーを緩和することに適するが、それに限定されるものではない。
音声認識(speech recognition)は、音声からの音,単語の一部,単語または語句を自動的に認識するためのプロセスである。このようなプロセスは、スイッチ,キーボード,マウスなどより一般的に利用されるツールを用いる他に、あるいは用いる代わりに、人間と機械との間のインタフェースとして利用できる。また音声認識プロセスは、発声通信またはメッセージから自動的に情報を取り出すためにも利用できる。
自動音声認識を提供するために、さまざまな方法が開発され、現在も改善されつつある。ある方法は、対応する学習戦略(heuristic strategies)とともに幅広い知識に基づき、また他の方法は統計モデルを採用する。
典型的な音声認識プロセスでは、処理すべき音声は、例えば毎秒50〜100回など、サンプリング・タイムフレーム中に複数回サンプリングされる。サンプリングされた値は、音声認識パラメータを与えるアルゴリズムを利用して処理される。例えば、一つの種類の音声認識パラメータは、メル・ケプストラム係数(mel cepstral coefficient)として知られる係数からなる。このような音声認識パラメータは、アレイ(array)として知られるベクトルの形式に配列され、アレイはある次数で配列されたパラメータのグループまたはセット(群または集合)として考えることができる。サンプリング・プロセスは、さらなるサンプリング・タイムフレームのために反復される。典型的なフォーマットでは、各サンプリング・タイムフレーム毎に一つのベクトルが生成される。
上記のパラメータ化およびベクトル化は、音声認識プロセスのいわゆるフロントエンド動作を構成する。ベクトルに配列された上記の音声認識パラメータ、音声認識プロセスのいわゆるバックエンド動作において、音声認識手法に従って解析される。フロントエンド処理およびバックエンド処理が同じ位置であるいは同じデバイスで実行される音声認識プロセスでは、フロントバックからバックエンドに至る間に音声認識パラメータに導入されるエラーの尤度は最小限である。
しかし、分散音声認識プロセス(distributed speech recognition process)として知られるプロセスでは、音声認識プロセスのフロントエンド部分はバックエンド部分から離れて実行される。第1位置において、音声はサンプリングされ、パラメータ化され、音声認識パラメータはベクトルに配列される。音声認識パラメータは量子化された後、例えば、確立された通信システムの通信リンク上で、第2位置に送信される。多くの場合、第1位置は遠隔端末であり、第2位置は中央処理局である。受信された音声認識パラメータは、第2位置にて音声認識手法に従って解析される。
多くの種類の通信システムにおける多くの種類の通信リンクは、分散音声認識プロセス用として検討できる。一例として、従来の有線通信システム、例えば、一般電話交換網(PSTN)がある。別の例としては、無線通信システム、例えば、TETRAがある。別の例としては、セルラ無線通信システムがある。適用可能なセルラ通信システムの一例として、GSM(global system for mobile communications)システムがあり、別の例としては、現在標準化が進んでいるUMTS(Universal Mobile Telecommunications System)などのシステムがある。
任意の通信システムにおいて任意の通信リンクを用いることにより、この通信リンク上で第1位置から第2位置に送信される音声認識パラメータにエラーが生じる可能性が生まれる。
送信情報のある部分におけるエラーの存在が検出可能となるように、通信システムにおいてエラー検出手法を提供することが知られている。周知の手法の一つに、循環冗長符号化(cyclic redundancy coding)がある。
エラーの存在が検出されると、送信される情報の種類に応じて異なる緩和手法(mitigating techniques)が採用される。異なる形態の情報に適用されるエラー緩和の手法は、パラメータが受ける特殊な音声認識手法に起因して、音声認識パラメータにおけるエラーを緩和することに最適ではない。そのため分散音声認識プロセスにおいてエラーを緩和する手段を提供することが望ましい。
本発明は、上記のような送信エラーの影響を緩和するための手段を提供する。
本発明の一態様に従って、請求項1において請求されるような、分散音声認識システムにおいてエラーを緩和する方法が提供される。
本発明の別の態様に従って、請求項13において請求されるような、分散音声認識システムにおいてエラーを緩和する装置が提供される。
本発明のさらなる態様は、従属請求項に請求される通りである。
本発明は、分散音声認識プロセスの性質,ここで用いられる音声認識パラメータの特性および音声認識パラメータが配列されるベクトルに特に適している、エラーを緩和するための手段を提供する。
具体的には、本発明の一態様に従って、特定されたベクトル・グループ内の一つまたはそれ以上の音声認識パラメータが、この特定されたベクトル・グループの後に受信されたベクトルからの一つまたはそれ以上の音声認識パラメータを参照することによって判定された各置換パラメータによって置換される際に、音声認識プロセスにおいて待ち時間(latency)を許容する可能性が有利に利用される。
さらに、本発明の別の態様に従って、どの音声認識パラメータを置換すべきかの判定は、エラーなしに受信されたベクトルから、前記特定されたベクトル・グループ内の各音声認識パラメータについて予測値を予測して、各予測値に対して所定の閾値の外にある前記特定されたベクトル・グループ内の音声認識パラメータを置換することによって実施され、その効果は、音声認識ベクトル内の異なるパラメータ間のエラーにおける独立した関係を有利に利用することである。
さらなる特定の利点については、以下の説明および図面から明らかになろう。
本発明の一実施例のサンプリング・タイムフレームに対応するベクトルで配列された音声認識パラメータの模式図である。 本発明の一実施例のプロセス・フローチャートである。 本発明の一実施例の連続的に受信されたベクトルの模式図である。

以下で説明する一例としての実施例では、音声認識パラメータは、図1に模式的に示すように、サンプリング・タイムフレームに対応するベクトルで配列される。
処理される音声信号110の一部を図1に示す。音声信号100は、実際には、さらに複雑なサンプル値のシーケンスからなるので、大幅に簡略化された形式で示されている。
図1において、第1サンプリング・タイムフレーム121,第2サンプリング・タイムフレーム122,第3サンプリング・タイムフレーム123および第4サンプリング・タイムフレーム124が示されている、サンプリング・タイムフレームは、図1に示すように音声信号上に重畳される。下記の実施例では、毎秒100個のサンプリング・タイムフレームが存在する。音声信号は、各サンプリング・タイムフレームの最中に反復的にサンプリングされる。
下記の実施例では、音声認識プロセスは、全部で14個の音声認識パラメータが採用されるプロセスである。最初の12個のパラメータは、最初の12個のスタティック・メル・ケプストラム係数(static mel cepstral coefficients)、すなわち、
Figure 2010160507
であり、ここでmはサンプリング・タイムフレーム番号を表す。13番目に用いられる音声認識パラメータは、ゼロ番目のケプストラム係数、すなわち、c0(m)である。14番目に用いられる音声認識パラメータは、対数エネルギ項(logarithmic energy term)、すなわち、log[E(m)]である。これらの係数の詳細および音声認識プロセスにおける用途については当技術分野で周知であり、ここではさらに詳しい説明を要しない。また、本発明はケプストラム係数以外の音声認識パラメータの他の選択または方式の場合と同様に、音声認識パラメータを形成する他のケプストラム係数の組合せでも実行できることに留意されたい。
各サンプリング・タイムフレーム毎の14個のパラメータは、図1に示すように、アレイともいう対応するベクトルに配列、あるいはフォーマットされる。ベクトル131はサンプリング・タイムフレーム121に対応し、ベクトル132はサンプリング・タイムフレーム122に対応し、ベクトル133はサンプリング・タイムフレーム123に対応し、ベクトル134はサンプリング・タイムフレーム124に対応する。このようなベクトルは一般に次式のように表すことができる。
Figure 2010160507
音声認識パラメータは、第1位置から第2位置に送信される前に処理される。下記の実施例では、これは次のようにして実行される。ベクトル131からのパラメータは量子化される。これは、ベクトルをスプリット・ベクトル量子化器(split vector quantizer)で直接量子化することによって実施される。係数はペアにグループ化され、各ペアは、該ペアについてあらかじめ決められたベクトル量子化(VQ:vector quantization)コードブックを利用して量子化される。それによって得られるインデクス値のセットは、音声フレームを表すために用いられる。各ペアについて用いられるコードブック・サイズとともに、フロントエンド・パラメータ毎の係数ペアリングを以下の表1に示す。
Figure 2010160507
最も近いVQ重心(centroid)は、インデクスを判定するために加重ユークリッド距離(weighted Euclidian distance)を利用して求められる
Figure 2010160507
ここで、qj i,i+1は、コードブックQi,i+1におけるj番目のコードベクトルを表し、Ni,i+1はコードブックのサイズであり、Wi,i+1はコードブックQi,i+1について適用される(大体は単位行列(identity))加重マトリクスであり、idxi,i+1(m)はベクトル[yi(m),yi+1(m)]Tを表すために選択されたコードブック・インデクスを表す。
次に、生成されるインデクスは44ビットの形式で表される。これら44ビットは、図1の参照番号141に示されるように、ビット・ストリーム・フレーム150の最初の44スロットに入れられる。次のベクトル、すなわち、ベクトル132について生成された対応する44ビットは、図1の参照番号142に示されるように、ビット・ストリーム・フレーム150の次の44スロットに入れられる。ビット・ストリーム・フレーム150の残りのビットは、図1の参照番号146に示されるように、循環冗長符号の4ビットからなり、このビットの値は、ビット・ストリーム・フレーム150の88個の前置ビット全体について、周知な方法でエラー検出を行うように判定される。同様に、ベクトル133から与えられる44ビットは、図1の参照番号143に示されるように、第2ビット・ストリーム・フレーム155の最初の44スロットに入れられる。また、次のベクトル、すなわち、ベクトル134について生成された対応する44ビットは、図1の参照番号144に示されるように、ビット・ストリーム・フレーム155の次の44スロットに入れられる。ビット・ストリーム・フレーム155の残りのビットは、図1の参照番号148に示されるように、循環冗長符号の4ビットからなる。この配列は、以降のベクトルについて反復される。2つのベクトルからのビット・データが一つの合成ビット・ストリーム・フレームにて配列されるところの上記のビット・ストリーム・フレームのフォーマットは一例に過ぎない。例えば、各ベクトルのデータは、それ自体のエラー検出ビットを含む一つのビット・ストリーム・フレームで配列してもよい。同様に、ビット・ストリーム・フレーム毎のスロットの数は一例に過ぎない。
混乱を避けるため、上記のビット・ストリーム・フレームは、データが第1位置から第2位置に送信されるところの通信システムの通信リンク上でビット・ストリーム・データを送信する際に用いられる送信フレーム、例えば、本明細書で説明される実施例にて採用される通信システムであるGSMセルラ無線通信システムの時分割多元接続(TDMA)タイムフレーム、と混同すべきでないことを指摘しておく。この例では、第1位置は遠隔ユーザ局からなり、第2位置、すなわち、受信側位置は、例えば、セルラ通信システムの基地局に配置できる集中処理局(centralized processing station)からなる。従って、本明細書で説明する実施例では、音声認識パラメータは、無線通信リンク上で第1位置から第2位置に送信される。ただし、第1位置および第2位置の性質は、検討対象の通信システムの種類と、そこにおける分散音声認識プロセスの構成とに依存することを理解されたい。
ビット・ストリーム・フレームは、第2位置にて受信された後に、第2位置にて送信フォーマットから再構築される。
以上説明したのは、分散音声認識プロセスであって、音声認識パラメータは、サンプリング・タイムフレームに対応するベクトルで配列され、第1位置から送信された前記音声認識パラメータは、第2位置にて受信される分散音声認識プロセスである。第1実施例によれば、このような音声認識プロセスにおいてエラーを緩和する方法は、図2のプロセス・フローチャートに示される。図2を参照して、機能ボックス210は、送信エラーが発生した一つまたはそれ以上のベクトルからなるグループを特定する段階を示す。本実施例では、エラー検出は、既知の循環冗長符号方法を利用して、146,148など4循環冗長符号化ビットを、各ビット・ストリーム・フレーム150,155の内容と比較することによって実行される。本例では、これは送信エラーが発生した任意の一つのビット・ストリーム・フレームを特定する。従って、本例では、特定されたベクトル・グループは2つのベクトル、すなわち、一つのビット・ストリーム・フレームからのベクトルのペアからなる。別の例において、エラー検出手段を有する各ビット・ストリーム・フレームが一つのベクトルしか収容していない場合、特定されたベクトル・グループは一つのベクトルとなる。なお、このような特定グループに収容されるベクトルの数を判定する厳密な形式および技術的な理由は、ベクトルのビット・ストリーム内でのさまざまな配列の仕方や、さらにはその上にエラー検出方法がどのようにして課せられるのかに依存することを理解されたい。特に、本実施例で採用される循環冗長符号化以外のエラー検出方法は、特定されるグループ内で異なる数のベクトルを与えることも可能である。また、任意のビット・ストリーム配列において、いかにしてエラー情報を処理するかの副次的な設計選択は、特定されるグループにおけるベクトルの数を決定する上で役割を果たすことがある。例えば、本実施例を参照して、たとえエラー検出手段がより狭い範囲のエラー検出が能力的に可能であったとしても、処理電力を節約する理由から、ビット・ストリーム・フレームのバッチがエラーを含むかどうかのみを考慮することも可能である。
音声認識パラメータは、上記のベクトル量子化手順の逆手順を実行することによって、ビット・ストリーム・フレームから取り出される。さらに具体的には、インデクスはビット・ストリームから抽出され、これらのインデクスを利用して、ベクトルは以下の形式で再構築される。
Figure 2010160507

機能ボックス220は、本実施例の次の段階、すなわち、特定されたベクトル・グループ内の一つまたはそれ以上の音声認識パラメータを置換する段階を示す。本実施例では、異なる処理段階の順序は、一つまたはそれ以上の音声認識パラメータを置換する前に、全ての受信音声認識パラメータがビット・ストリーム・フレームから取り出され、一時的に格納されるように実行される。ただし、一つまたはそれ以上の音声認識パラメータは、新たに導入される置換パラメータを含む音声認識パラメータをビット・ストリーム・フォーマットから実際に物理的に取り出す前に、ビット・ストリーム情報を対応する形式で変更することによって置換することも可能である。
置換音声認識パラメータの判定の仕方についての以下の説明では、図1を参照してベクトル131〜134と、その後連続的に受信されるさらに6つのベクトル135〜140とを示す図3を参照する。本実施例では、特定されたベクトル・グループにおける一つまたはそれ以上の音声認識パラメータは、特定されたベクトル・グループ以降に受信されたベクトルからの一つまたはそれ以上の音声認識パラメータを参照して判定された各置換パラメータによって置換される。従って、本実施例では、ビット・ストリーム・フレーム155についてエラーが検出され、そのためベクトル133,134からなるグループが特定されると、ベクトル133,134内の一つまたはそれ以上の音声認識ベクトルは、ベクトル135〜140のうちの一つから、あるいはベクトル140以降に受信した図3には図示されていないベクトルからの一つまたはそれ以上の音声認識パラメータを参照して判定された各置換パラメータによって置換される。なお、このような後続ベクトルを参照した判定は、131,132などの先行ベクトル、あるいは図示していない他のベクトルへの参照も判定プロセスに含まれるという可能性を除外するものではないことを留意されたい。
特定されたベクトル・グループ以降に受信されたベクトルを参照することは、音声認識について特に効果的に実行できる方法を提供する。なぜならば、バックエンド音声認識装置(back-end speech recognizer)からより良好な性能を提供するために待ち時間を有利に利用できるためである。このような方法を適用することは、バックエンドに出力する前に、受信ベクトルをバッファに一時的に格納することを伴う。特定されたベクトル・グループの後に受信されたベクトルは、置換値を算出するために用いられる。従って、バックエンドに利用可能なエラー緩和されたベクトルが形成されるまでの間の待ち時間が増加してしまう。特にバックエンド認識装置が集中サーバの一部である場合には、このようなエラー緩和方法によって生じる一時的な待ち時間の変動を克服するのに十分な演算能力を有するバックエンド認識装置にとって、通常この待ち時間は問題にならない。
さらに具体的には、本実施例において、グループの各ベクトルの全ての音声認識パラメータは、全ベクトル(whole vectors)を置換することによって置換され、各置換済みの全ベクトルは、置換されるベクトルに対して受信順序が最も近い、エラーのない先行ベクトルまたは後続ベクトルのいずれかのコピーによって置換される。上記の送信モードおよびエラー検出モードについて、特定されたベクトル・グループは連続したベクトルのペアからなるので、前記ペアの第1ベクトルはエラーのない先行ベクトルの第2ベクトルによって置換され、前記ペアの第2ベクトルはエラーのない後続ベクトルの第1ベクトルによって置換される。この場合、例えば、ベクトル135,136がエラーを有するベクトルのペアであると特定されると、ベクトル135の全体はベクトル134のコピーによって置換され、ベクトル136の全体はベクトル137のコピーによって置換されるが、ただしこのとき、ベクトル134,137は、それ自体が送信エラーが発生したことが特定されたペアの一部ではないものとする。例えば、ベクトル133,134のペア自体が実際にエラーを有するベクトルのペアであるならば、両ベクトル135,136は、それ以降の適正であることが判明している最初のベクトルであるベクトル137のコピーによって置換される。なぜならば、それより前の最も近い適正であることが判明しているベクトルであるベクトル132よりも、ベクトル137は各ベクトルに対し受信順序がより近いためである。後者の場合、ベクトル133,134の両方は、適正であることが判明しているベクトルのうち受信順序が最も近いベクトルであるベクトル132のコピーによって置換される。
適正であることが判明している受信ベクトルの以前または以降のコピーを単純に利用するのではなく、全ベクトルが置換される本実施例の別の様式では、各置換された全ベクトルは、補間手法によって判定されたベクトルによって置換される。当業者であれば、検討対象の特定の音声認識プロセスの条件に応じて適切な補間手法を選ぶことができよう。採用できる補間方法の例には以下のものがある:

(i)線形補間(linear interpolation) − この方法では、各パラメータについて、エラーを含むことが判明しているベクトルの前後の一つまたはそれ以上のベクトルからとられた値は、その間の直線等式(straight line equation)を定める定数(constant)および勾配(gradient)を求めるために用いられる。エラーを有するベクトル内の各パラメータを置換するために用いられる補間値は、これらの線の等式を利用して算出される。

(ii)逆方向予測(backwards prediction) − この方法では、エラーを含むことが判明しているベクトル以降の一つまたはそれ以上のエラーのないベクトルをとる。各パラメータについて、置換値は、ベクトル・シーケンス内のこれらのベクトル要素の加重和(weighted sum)から生成され、この方法は予測(prediction)として知られる。加重は、エラーのない音声からのベクトルのパラメータに対してトレーニング(training)を行うことによりあらかじめ定められる。

(iii)曲線の当てはめ(curve fitting) − この方法では、エラーを含む
ことが判明しているベクトルの前後の一つまたはそれ以上のベクトルをとる。この方法は線形補間と似ているが、直線に当てはめるのではなく、良好なパラメータに基づく曲線を利用し、また各パラメータについて置換値を生成するための曲線の等式を利用することによって、当てはめが行われる。

上記の実施例において、音声認識パラメータは、全ベクトルを置換することによって置換される。ただし、以下で説明するような本発明のさらなる実施例では、ベクトル内の全ての音声認識パラメータが必ずしも置換されるわけではない。
以下で説明する実施例では、どの音声認識パラメータを置換すべきかの判定は、エラーなしに受信されたベクトルから、前記特定されたベクトル・グループ内の各音声認識パラメータについて予測値を予測し、各予測値に対して所定の閾値の外にある特定されたベクトル・グループ内の音声認識パラメータを置換することによって行われる。
ここで、ベクトル133,134がエラーを有するベクトルのペアであると特定される場合について考える。ベクトル133の音声認識パラメータc1(3),c2(3),...,c12(3),c0(3)およびlog[E(3)]のそれぞれについて、またベクトル134の音声認識パラメータc1(4),c2(4),...,c12(4),c0(4)およびlog[E(4)]のそれぞれについて、予測値(predicted value)が判定される。予測値は、任意の適切な予測方法によって判定される。例えば、線形補間,逆方向予測および曲線当てはめなど、全ベクトルについて上で説明した予測手法は、個別の音声認識パラメータに適用できる。個別の音声認識パラメータに適用されると、他のベクトル内の対応する位置のパラメータは、例えば、c1(3)の予測値を計算する場合に用いられ、対応する位置の音声認識パラメータc1(1),c1(2),c1(5),c1(6)などの値が用いられる。
従って、本実施例において、音声認識ベクトル内の異なるパラメータ間の独立した関係が有利に利用される。
予測値に対する所定の閾値が採用される。この閾値レベルは、検討対象の特定のプロセスの条件に応じて設定される。この閾値は、検討対象のプロセスあるいは他のプロセス内で得られた経験や、トライアルもしくはシミュレーションなどに基づいて経時的に変更できる。また、閾値レベルは、継続フィードバックに基づいて自動的に変更できる。例えば、特定されるエラーのレベルに応じて変更できる。また、閾値レベルは予測値の関数でもよい。また、閾値レベルは、どの音声認識パラメータであるのか、すなわち、パラメータがc1(m)であるのか、c2(m)であるのか、c3(m)であるのかなどに応じて変更でき、これは特定の音声認識パラメータが他のパラメータに比べて音声認識プロセスの成功にとってより重要であるような音声認識プロセスに本発明を適用する場合に、特に有利である。実際、これは本例の場合であって、ここで音声認識プロセスは、c10(m),c11(m),c12(m)などの高次数のメル・ケプストラム係数よりも、c3(m),c4(m),c5(m)などの中間次数のメル・ケプストラム係数に対してより敏感である。
本実施例の一様式では、前記特定されたベクトル・グループ内の指定された数以上の音声認識パラメータが各所定の閾値の外にある場合、前記特定されたベクトル・グループの全ての音声認識パラメータは置換される。この場合、ベクトル133,134内に収容される任意の28個の音声認識パラメータから5個以上の音声認識パラメータが各所定の閾値の外にある場合、ベクトル133,134の全ての音声認識パラメータは置換される。指定される数の選択は、検討対象の特定の音声認識プロセスの条件に応じて行われる。このように全ベクトルを置換することにより、音声認識パラメータが上記の閾値のレベル内に入ったとしても、エラーである可能性のある音声認識パラメータを排除するという有利な傾向が得られる。
本実施例では、音声認識パラメータは、どの音声認識パラメータを置換すべきかを判定する段階において用いられる各予測値によって置換される。これは、これらの値がすでに判定済みであるという点で効率的である。
本実施例の別の様式では、各予測値に対して所定の閾値内である音声認識パラメータは、基準ベクトルのセットと比較され、前記基準ベクトルのセットから最良一致ベクトル(best match vector)を求め、また各予測値に対して所定の閾値の外にある音声認識パラメータは、前記最良一致ベクトルからの対応する音声認識パラメータによって置換される。
ここでも、ベクトル133,134がエラーを有するベクトルのペアとして特定される場合を考える。さらに、閾値範囲外であると判定される2つのベクトルからの唯一の音声認識パラメータがベクトル133からのc1(3)であると考える。このとき、相関手法を利用することにより、ベクトル133の残りの部分と基準ベクトルのセットの間の最も近い適合(closest fit)が判定される。
基準ベクトルのセット内で、基準ベクトルの数およびその内容は、検討対象の特定の音声認識プロセスの条件に応じて選択される。これらの選択は、必要な処理レベルと比較した、エラー訂正の精度と感度との間のトレードオフを伴う。閾値外パラメータを斟酌した後のベクトルの残りの部分に対して、どの基準ベクトルが最良適合を表すのかを判定するための条件も、検討対象の特定の音声認識プロセスの条件に応じて実施される。ユークリッド距離の算出など、既知の相関手法が採用される。これらの手法をいかにして本方法に適用するのかは、閾値内のベクトル要素のみが距離の計算に含まれるようにする。
本実施例の別の様式では、一つまたはそれ以上の近傍ベクトルからの音声認識ベクトルは基準ベクトルのセットと比較され、複数の連続した基準ベクトルに対する最良一致が選択される。ここでも、ベクトル133,134がエラーを有するベクトルのペアとして特定され、さらに閾値範囲外であると判定される2つのベクトルからの唯一の音声認識パラメータがベクトル133からのc1(3)であると想定する。ベクトル133の残りの部分(すなわち、音声認識パラメータc2(3),c3(3),...,c12(3),c0(3)およびlog[E(3)])と、周囲のベクトル132,134の全体は、3つの連続した基準ベクトルの基準グループに対して一括して比較される。
上記の実施例では、送信エラーが発生した一つまたはそれ以上の前記ベクトルからなるグループを特定する段階は、既知の循環冗長符号方法を利用して、146,148などの4循環冗長符号化ビットを、各ビット・ストリーム・フレーム150,155の内容と比較することからなる。ただし、本発明のさらなる実施例では、送信エラーが発生した一つまたはそれ以上の前記ベクトルからなるグループを特定する段階は、音声認識パラメータ自体の評価を含むことができる。これは、循環冗長符号化などの従来の方法とともに、実行される追加のセーフティ・ネット的な手法としてでもよく、あるいは循環冗長符号化などの従来の方法の代わりに利用でき、その場合、これがエラー・ベクトル・グループを特定する唯一の方法となる。
このようなさらなる実施例のうちの第1実施例では、音声認識パラメータについて各予測値が判定される。これは、どの音声認識パラメータを置換すべきかを判定する実施例について先に説明したのと同じ方法のうちの任意の一つで行うことができるが、エラーを特定する唯一の手段としてこれを実行すると、もちろんのことだが、補間関数に対する入力の意味以外では、エラーなしに受信したベクトルのみが予測計算において用いられるという上記の詳細を含めることが不可能になる。予測値に対する一つまたはそれ以上の閾値レベルが判定される。これも、どの音声認識パラメータを置換すべきかを判定する実施例について上で説明した同じ方法のうちの任意の方法で実施される。ただし、一般的に、ここで用いられる閾値は前に説明した場合で用いられる閾値よりも大きい。また、一つまたはそれ以上の閾値レベルが判定されることを留意されたい。例えば、2つの閾値レベルを判定する場合には、一方が可能性の高いエラーに対応でき、他方はエラーの外側機会(outside chance)に対応できる。次に、送信エラーが発生したとみなされるベクトル・グループは、前記一つまたはそれ以上の閾値レベルそれぞれの外にあるベクトル・グループ内の音声認識パラメータの数に関する加重解析(weighted analysis)に応答して特定される。例えば、この場合、加重解析とは、可能性の高いエラー閾値を超える場合に、スコア5が割当てられ、エラー閾値の外側機会を越える場合に、スコア1が割当てられ、ベクトル・グループは、全スコアが6またはそれ以上である場合に、送信エラーが発生したものとして特定される。これは、採用できる加重解析方式の一例に過ぎず、上記の方式よりもさらに複雑な方式を含む特定の方式の選択は、検討対象の特定の分散音声認識プロセスの条件に応じて利用できる。
このようなさらなる実施例のうち第2実施例は、ベクトル・グループ内の異なるベクトルからの対応する音声認識パラメータ間の差を判定する段階を含む。例えば、ベクトル133,134を参照して、c1(3)とc1(4)との間の差が計算され、c2(3)とc2(4)との間の差が計算され、c3(3)とc3(4)との間の差が計算され、以下同様である。送信エラーが発生したとみなされるベクトル・グループは、所定の閾値レベルの外にある前記差の数に関する解析に応答して特定される。適切な所定の閾値レベルが設定され、またどの音声認識パラメータを置換すべきかを判定する前記実施例についてすでに説明したのと同じ任意の方法を利用して、経時的に変更できる。この場合、2つまたはそれ以上の前記計算された差が閾値レベルの外にある場合に、ベクトル・グループは送信エラーが発生したと特定される。閾値レベルの外であることが必要な数についてのこの選択は一例に過ぎず、一般に検討対象の特定の分散音声認識プロセスの条件に応じて選ばれる。さらなる任意の態様を実施例に適用でき、ここでベクトル量子化プロセスの一部として、音声認識パラメータは、表1で説明したように、ペアにグループ化される。この場合、あるコードブック・インデクス内のいずれかの音声認識パラメータの差が閾値外であるならば、コードブック・インデクスはエラーありの受信として分類される。すなわち、表1を参照して、c3差またはc4差のいずれかが閾値外であるならば、コードブック・インデクスQ2,3はエラーありの受信として分類される。ベクトル・グループ内の7からの任意の数、例えば2以上のコードブック・インデクスがエラーありの受信として分類されると、このベクトル・グループは送信エラーが発生したと特定される。明らかに、閾値レベルを選択し、また閾値レベルの外でなければならない差の数を選択する際に、トレードオフ事項は検討対象の特定の分散音声認識プロセスの条件に応じて評価される。
上記の実施例の場合、上記のデータ処理段階は、モトローラ社のDSP56xxx(商標)ファミリーのデバイスから選択されるデバイスなど、プログラマブル・デジタル信号処理デバイスによって実行される。あるいは、特定用途向け集積回路(ASIC)を採用できる。他の可能性も存在する。例えば、無線受信機と、バックエンド音声認識プロセッサの一部をなすコンピュータ・システムとの間をインタフェースするインタフェース・ユニットを利用できる。

Claims (22)

  1. 分散音声認識プロセスにおいてエラーを緩和する方法であって、前記分散音声認識プロセスでは、音声認識パラメータがサンプリング・タイムフレームに対応するベクトルで配列され、第1位置から送信された前記音声認識パラメータが第2位置にて受信され、当該方法は:
    送信エラーが発生した一つまたはそれ以上の前記ベクトルからなるグループを特定する段階;および
    前記特定されたベクトル・グループ内の一つまたはそれ以上の音声認識パラメータを置換する段階;
    によって構成され、
    前記グループの各ベクトルの全ての音声認識パラメータは、全ベクトルを置換することによって置換され、各置換された全ベクトルは、前記置換されるベクトルに対して受信順序が最も近い、エラーなしに受信された、異なる特定のサンプリング・タイムフレームに対応する、先行の異なるベクトルまたは後続の異なるベクトルのいずれかのコピーによって置換されることを特徴とする方法。
  2. 前記特定されたベクトル・グループ内の前記一つまたはそれ以上の音声認識パラメータは、前記特定されたベクトル・グループの後に受信されたベクトルからの一つまたはそれ以上の音声認識パラメータを参照して判定される置換パラメータによって置換されることを特徴とする請求項1記載の方法。
  3. 送信モードおよびエラー検出モードでは、前記特定されたグループが連続したベクトルのペアからなり、前記ペアのうち第1ベクトルは、エラーのない先行ベクトルの第2ベクトルによって置換され、前記ペアのうち第2ベクトルは、エラーのない後続ベクトルの第1ベクトルによって置換されることを特徴とする請求項1または2記載の方法。
  4. どの音声認識パラメータを置換すべきかの判定は、エラーなしに受信したベクトルから、前記特定されたベクトル・グループ内の各音声認識パラメータについて予測値を予測し、各予測値に対して所定の閾値の外にある前記特定されたベクトル・グループ内の音声認識パラメータを置換することによって実施されることを特徴とする請求項1または2記載の方法。
  5. 前記特定されたベクトル・グループ内の指定された数以上の音声認識パラメータが各所定の閾値の外にあるならば、前記特定されたベクトル・グループの全ての音声認識パラメータは置換されることを特徴とする請求項4記載の方法。
  6. 前記音声認識パラメータは、どの音声認識パラメータを置換すべきかを判定する前記段階において用いられる各予測値によって置換されることを特徴とする請求項4または5記載の方法。
  7. 各予測値に対して所定の閾値内にある音声認識パラメータは、基準ベクトルのセットと比較され、前記基準ベクトルのセットから最良一致ベクトルを求め、また各予測値に対して所定の閾値の外にある音声認識パラメータは、前記最良一致ベクトルからの対応する音声認識パラメータによって置換されることを特徴とする請求項4または5記載の方法。
  8. 一つまたはそれ以上の近傍ベクトルからの音声認識パラメータも前記基準ベクトルのセットと比較され、複数の連続した基準ベクトルに対する最良一致が選択されることを特徴とする請求項7記載の方法。
  9. 送信エラーが発生した一つまたはそれ以上の前記ベクトルからなるグループを特定する前記段階は、前記音声認識パラメータについて各予測値を予測して、前記予測値に対する一つまたはそれ以上の閾値レベルを判定し、前記一つまたはそれ以上の閾値レベルのそれぞれの外にあるベクトル・グループ内の音声認識パラメータの数に関する加重解析に応答して、送信エラーが発生したとしてベクトル・グループを特定する段階を含むことを特徴とする請求項1ないし8のいずれかに記載の方法。
  10. 送信エラーが発生した一つまたはそれ以上の前記ベクトルからなるグループを特定する前記段階は、ベクトル・グループ内の異なるベクトルからの対応する音声認識パラメータ間の差を判定し、所定の閾値の外にある前記差の数に関する解析に応答して、送信エラーが発生したベクトル・グループを特定する段階を含むことを特徴とする請求項1ないし請求項8のいずれかに記載の方法。
  11. 分散音声認識プロセスにおいてエラーを緩和する装置であって、前記分散音声認識プロセスは、サンプリング・タイムフレームに対応するベクトルで音声認識パラメータが配列されるプロセスであり、第1位置から送信された前記音声認識パラメータは第2位置にて受信され、当該装置は:
    送信エラーが発生した一つまたはそれ以上の前記ベクトルからなるグループを特定する手段;および
    前記特定されたベクトル・グループ内の一つまたはそれ以上の音声認識パラメータを置換する手段;
    によって構成され、
    前記グループの各ベクトルの全ての音声認識パラメータは、全ベクトルを置換することによって置換され、各置換された全ベクトルは、前記置換されるベクトルに対して受信順序が最も近い、エラーなしに受信された、異なる特定のサンプリング・タイムフレームに対応する、先行の異なるベクトルまたは後続の異なるベクトルのいずれかのコピーによって置換されることを特徴とする装置。
  12. 前記特定されたベクトル・グループ内の前記一つまたはそれ以上の音声認識パラメータは、前記特定されたベクトル・グループの後に受信されたベクトルからの一つまたはそれ以上の音声認識パラメータを参照して判定される各置換パラメータによって置換されることを特徴とする請求項11記載の装置。
  13. 送信モードおよびエラー検出モードでは、前記特定されたグループが連続したベクトルのペアからなり、前記ペアのうち第1ベクトルは、エラーのない先行ベクトルの第2ベクトルによって置換され、前記ペアのうち第2ベクトルは、エラーのない後続ベクトルの第1ベクトルによって置換されることを特徴とする請求項11または12記載の装置。
  14. どの音声認識パラメータを置換すべきかの判定は、エラーなしに受信したベクトルから、前記特定されたベクトル・グループ内の各音声認識パラメータについて予測値を予測し、各予測値に対して所定の閾値の外にある前記特定されたベクトル・グループ内の音声認識パラメータを置換することによって実施されることを特徴とする請求項11または12記載の装置。
  15. 前記特定されたベクトル・グループ内の指定された数以上の音声認識パラメータが各所定の閾値の外にあるならば、前記特定されたベクトル・グループの全ての音声認識パラメータは置換されることを特徴とする請求項14記載の装置。
  16. 前記音声認識パラメータは、どの音声認識パラメータを置換すべきかを判定する前記段階において用いられる各予測値によって置換されることを特徴とする請求項14または15記載の装置。
  17. 各予測値に対して所定の閾値内にある音声認識パラメータは、基準ベクトルのセットと比較され、前記基準ベクトルのセットから最良一致ベクトルを求め、また各予測値に対して所定の閾値の外にある音声認識パラメータは、前記最良一致ベクトルからの対応する音声認識パラメータによって置換されることを特徴とする請求項14または15記載の装置。
  18. 一つまたはそれ以上の近傍ベクトルからの音声認識パラメータも前記基準ベクトルのセットと比較され、複数の連続した基準ベクトルに対する最良一致が選択されることを特徴とする請求項17記載の装置。
  19. 送信エラーが発生した一つまたはそれ以上の前記ベクトルからなるグループを特定する前記手段は、前記音声認識パラメータについて各予測値を予測する手段と、前記予測値に対する一つまたはそれ以上の閾値レベルを判定する手段と、前記一つまたはそれ以上の閾値レベルのそれぞれの外にあるベクトル・グループ内の音声認識パラメータの数に関する加重解析に応答して、送信エラーが発生したとしてベクトル・グループを特定する手段とを含むことを特徴とする請求項記11ないし請求項18のいずれかに記載の装置。
  20. 送信エラーが発生した一つまたはそれ以上の前記ベクトルからなるグループを特定する前記手段は、ベクトル・グループ内の異なるベクトルからの対応する音声認識パラメータ間の差を判定する手段と、所定の閾値の外にある前記差の数に関する解析に応答して、送信エラーが発生したベクトル・グループを特定する手段とを含むことを特徴とする請求項11ないし請求項18のいずれかに記載の装置。
  21. 前記音声認識パラメータは、無線通信リンク上で前記第1位置から前記第2位置に送信されることを特徴とする請求項11ないし請求項20のいずれかに記載の装置。
  22. 前記音声認識パラメータは、無線通信リンク上で前記第1位置から前記第2位置に送信されることを特徴とする請求項1ないし請求項10のいずれかに記載の方法。
JP2010043960A 1998-11-13 2010-03-01 分散音声認識プロセスにおけるエラーの軽減方法および装置 Pending JP2010160507A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
GB9824894A GB2343777B (en) 1998-11-13 1998-11-13 Mitigating errors in a distributed speech recognition process

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2000583001A Division JP4510293B2 (ja) 1998-11-13 1999-11-12 分散音声認識プロセスにおけるエラーの軽減方法および装置

Publications (1)

Publication Number Publication Date
JP2010160507A true JP2010160507A (ja) 2010-07-22

Family

ID=10842390

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2000583001A Expired - Lifetime JP4510293B2 (ja) 1998-11-13 1999-11-12 分散音声認識プロセスにおけるエラーの軽減方法および装置
JP2010043952A Pending JP2010160506A (ja) 1998-11-13 2010-03-01 分散音声認識プロセスにおけるエラーの軽減方法および装置
JP2010043960A Pending JP2010160507A (ja) 1998-11-13 2010-03-01 分散音声認識プロセスにおけるエラーの軽減方法および装置

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2000583001A Expired - Lifetime JP4510293B2 (ja) 1998-11-13 1999-11-12 分散音声認識プロセスにおけるエラーの軽減方法および装置
JP2010043952A Pending JP2010160506A (ja) 1998-11-13 2010-03-01 分散音声認識プロセスにおけるエラーの軽減方法および装置

Country Status (12)

Country Link
US (1) US8050912B1 (ja)
EP (1) EP1131814B1 (ja)
JP (3) JP4510293B2 (ja)
CN (1) CN1162841C (ja)
AT (1) ATE290249T1 (ja)
AU (1) AU1385600A (ja)
CA (1) CA2350751C (ja)
DE (1) DE69923997T2 (ja)
ES (1) ES2242452T3 (ja)
GB (1) GB2343777B (ja)
WO (1) WO2000030072A1 (ja)
ZA (1) ZA200103387B (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2343777B (en) * 1998-11-13 2003-07-02 Motorola Ltd Mitigating errors in a distributed speech recognition process
DE19910236A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
EP1098297A1 (en) 1999-11-02 2001-05-09 BRITISH TELECOMMUNICATIONS public limited company Speech recognition
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US6665640B1 (en) 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
GB2363236B (en) * 2000-06-05 2002-06-12 Motorola Inc Method and apparatus for mitigating the effect of transmission errors in a distributed speech recognition process and system
FR2830970B1 (fr) * 2001-10-12 2004-01-30 France Telecom Procede et dispositif de synthese de trames de substitution, dans une succession de trames representant un signal de parole
CN104966513B (zh) * 2014-06-09 2018-09-04 腾讯科技(深圳)有限公司 语言命令处理方法和装置
US20160111090A1 (en) * 2014-10-16 2016-04-21 General Motors Llc Hybridized automatic speech recognition
US10074364B1 (en) * 2016-02-02 2018-09-11 Amazon Technologies, Inc. Sound profile generation based on speech recognition results exceeding a threshold
US11361769B2 (en) 2019-11-05 2022-06-14 International Business Machines Corporation Assessing accuracy of an input or request received by an artificial intelligence system

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0430200A (ja) * 1990-05-28 1992-02-03 Nec Corp 音声復号化方法
JPH07140998A (ja) * 1992-12-28 1995-06-02 Toshiba Corp 音声認識インターフェース
JPH07152787A (ja) * 1994-01-13 1995-06-16 Sony Corp 情報アクセスシステムおよび記録媒体
JPH10177468A (ja) * 1996-12-16 1998-06-30 Casio Comput Co Ltd 移動端末音声認識/データベース検索通信システム
JP4510293B2 (ja) * 1998-11-13 2010-07-21 モトローラ・リミテッド 分散音声認識プロセスにおけるエラーの軽減方法および装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5073940A (en) * 1989-11-24 1991-12-17 General Electric Company Method for protecting multi-pulse coders from fading and random pattern bit errors
DE4202140A1 (de) * 1992-01-27 1993-07-29 Thomson Brandt Gmbh Verfahren zur uebertragung digitaler audio-signale
DE69326431T2 (de) 1992-12-28 2000-02-03 Toshiba Kawasaki Kk Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist
US5903867A (en) 1993-11-30 1999-05-11 Sony Corporation Information access system and recording system
ZA948426B (en) * 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
US5884261A (en) * 1994-07-07 1999-03-16 Apple Computer, Inc. Method and apparatus for tone-sensitive acoustic modeling
FI944345A (fi) * 1994-09-19 1996-03-20 Nokia Telecommunications Oy Menetelmä virheellisten puhekehysten tunnistamiseksi puhetta välittävän tietoliikennejärjestelmän vastaanottimessa, sekä tietoliikennejärjestelmän vastaanotin
KR970011728B1 (ko) * 1994-12-21 1997-07-14 김광호 음향신호의 에러은닉방법 및 그 장치
FI950917A (fi) * 1995-02-28 1996-08-29 Nokia Telecommunications Oy Puhekoodausparametrien käsittely tietoliikennejärjestelmässä
US5991725A (en) * 1995-03-07 1999-11-23 Advanced Micro Devices, Inc. System and method for enhanced speech quality in voice storage and retrieval systems
US5699478A (en) * 1995-03-10 1997-12-16 Lucent Technologies Inc. Frame erasure compensation technique
US5636231A (en) * 1995-09-05 1997-06-03 Motorola, Inc. Method and apparatus for minimal redundancy error detection and correction of voice spectrum parameters
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5917835A (en) * 1996-04-12 1999-06-29 Progressive Networks, Inc. Error mitigation and correction in the delivery of on demand audio
US6157830A (en) * 1997-05-22 2000-12-05 Telefonaktiebolaget Lm Ericsson Speech quality measurement in mobile telecommunication networks based on radio link parameters
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6092039A (en) * 1997-10-31 2000-07-18 International Business Machines Corporation Symbiotic automatic speech recognition and vocoder
US6775652B1 (en) * 1998-06-30 2004-08-10 At&T Corp. Speech recognition over lossy transmission systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0430200A (ja) * 1990-05-28 1992-02-03 Nec Corp 音声復号化方法
JPH07140998A (ja) * 1992-12-28 1995-06-02 Toshiba Corp 音声認識インターフェース
JPH07152787A (ja) * 1994-01-13 1995-06-16 Sony Corp 情報アクセスシステムおよび記録媒体
JPH10177468A (ja) * 1996-12-16 1998-06-30 Casio Comput Co Ltd 移動端末音声認識/データベース検索通信システム
JP4510293B2 (ja) * 1998-11-13 2010-07-21 モトローラ・リミテッド 分散音声認識プロセスにおけるエラーの軽減方法および装置

Also Published As

Publication number Publication date
EP1131814B1 (en) 2005-03-02
JP2010160506A (ja) 2010-07-22
JP2002530704A (ja) 2002-09-17
AU1385600A (en) 2000-06-05
CN1326583A (zh) 2001-12-12
CN1162841C (zh) 2004-08-18
ES2242452T3 (es) 2005-11-01
GB2343777B (en) 2003-07-02
WO2000030072A1 (en) 2000-05-25
DE69923997D1 (de) 2005-04-07
GB9824894D0 (en) 1999-01-06
CA2350751C (en) 2008-12-16
US8050912B1 (en) 2011-11-01
GB2343777A (en) 2000-05-17
ATE290249T1 (de) 2005-03-15
ZA200103387B (en) 2002-06-26
CA2350751A1 (en) 2000-05-25
DE69923997T2 (de) 2006-04-06
EP1131814A1 (en) 2001-09-12
JP4510293B2 (ja) 2010-07-21

Similar Documents

Publication Publication Date Title
JP2010160507A (ja) 分散音声認識プロセスにおけるエラーの軽減方法および装置
EP1667112B1 (en) Apparatus, method and medium for coding an audio signal using correlation between frequency bands
US6885988B2 (en) Bit error concealment methods for speech coding
KR0168900B1 (ko) 전송채널 유도 에러의 마스킹을 위하여 보코더 데이타를 배열하는 방법 및 장치
JP2000357999A5 (ja)
US20100191531A1 (en) Quantizing feature vectors in decision-making applications
JPH11259100A (ja) 励起ベクトルの符号化方法
EP1129537B1 (en) Processing received data in a distributed speech recognition process
US7243066B2 (en) Method and apparatus for mitigating the effect of transmission errors in a distributed speech recognition process and system
AU2001283839A1 (en) Method and apparatus for mitigating the effect of transmission errors in a distributed speech recognition process and system
Ostrowski et al. Genetic annealing search for index assignment in vector quantization
JP3091828B2 (ja) ベクトル量子化装置
JP4520922B2 (ja) データ形式判別方法、装置、プログラム、および記録媒体
JP4332144B2 (ja) 波形データ形式判別方法、信号符号化方法、それらの方法を用いた装置、プログラム、および記録媒体
JP2001109496A (ja) 音声符号化装置及び音声符号化方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110302

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110602

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110902

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120523