JP2010160507A

JP2010160507A - 分散音声認識プロセスにおけるエラーの軽減方法および装置

Info

Publication number: JP2010160507A
Application number: JP2010043960A
Authority: JP
Inventors: David John Benjamin Pearce; デビッド・ジョン・ベンジャミン・ピアース; Jon Alastair Gibbs; ジョン・アラスター・ギブス
Original assignee: Motorola Ltd
Current assignee: Motorola Solutions UK Ltd
Priority date: 1998-11-13
Filing date: 2010-03-01
Publication date: 2010-07-22
Also published as: EP1131814B1; JP2010160506A; JP2002530704A; AU1385600A; CN1326583A; CN1162841C; ES2242452T3; GB2343777B; WO2000030072A1; DE69923997D1; GB9824894D0; CA2350751C; US8050912B1; GB2343777A; ATE290249T1; ZA200103387B; CA2350751A1; DE69923997T2; EP1131814A1; JP4510293B2

Abstract

【課題】分散音声認識プロセスにおいてエラーを緩和する手段を提供する。
【解決手段】特定されたベクトル・グループ内の一つまたはそれ以上の音声認識パラメータが、この特定されたベクトル・グループの後に受信されたベクトルからの一つまたはそれ以上の音声認識パラメータを参照することによって判定された各置換パラメータによって置換される際に、音声認識プロセスにおいて待ち時間(latency)を許容する可能性が有利に利用される。
【選択図】図２

Description

本発明は、分散音声認識プロセスにおいてエラーを緩和する方法に関する。また、本発明は、分散音声認識プロセスにおいてエラーを緩和する装置に関する。本発明は、無線通信リンク上で送信される際に音声認識パラメータに影響を及ぼす送信エラーを緩和することに適するが、それに限定されるものではない。

音声認識(speech recognition)は、音声からの音，単語の一部，単語または語句を自動的に認識するためのプロセスである。このようなプロセスは、スイッチ，キーボード，マウスなどより一般的に利用されるツールを用いる他に、あるいは用いる代わりに、人間と機械との間のインタフェースとして利用できる。また音声認識プロセスは、発声通信またはメッセージから自動的に情報を取り出すためにも利用できる。

自動音声認識を提供するために、さまざまな方法が開発され、現在も改善されつつある。ある方法は、対応する学習戦略(heuristic strategies)とともに幅広い知識に基づき、また他の方法は統計モデルを採用する。

典型的な音声認識プロセスでは、処理すべき音声は、例えば毎秒５０〜１００回など、サンプリング・タイムフレーム中に複数回サンプリングされる。サンプリングされた値は、音声認識パラメータを与えるアルゴリズムを利用して処理される。例えば、一つの種類の音声認識パラメータは、メル・ケプストラム係数(mel cepstral coefficient)として知られる係数からなる。このような音声認識パラメータは、アレイ(array)として知られるベクトルの形式に配列され、アレイはある次数で配列されたパラメータのグループまたはセット（群または集合）として考えることができる。サンプリング・プロセスは、さらなるサンプリング・タイムフレームのために反復される。典型的なフォーマットでは、各サンプリング・タイムフレーム毎に一つのベクトルが生成される。

上記のパラメータ化およびベクトル化は、音声認識プロセスのいわゆるフロントエンド動作を構成する。ベクトルに配列された上記の音声認識パラメータ、音声認識プロセスのいわゆるバックエンド動作において、音声認識手法に従って解析される。フロントエンド処理およびバックエンド処理が同じ位置であるいは同じデバイスで実行される音声認識プロセスでは、フロントバックからバックエンドに至る間に音声認識パラメータに導入されるエラーの尤度は最小限である。

しかし、分散音声認識プロセス(distributed speech recognition process)として知られるプロセスでは、音声認識プロセスのフロントエンド部分はバックエンド部分から離れて実行される。第１位置において、音声はサンプリングされ、パラメータ化され、音声認識パラメータはベクトルに配列される。音声認識パラメータは量子化された後、例えば、確立された通信システムの通信リンク上で、第２位置に送信される。多くの場合、第１位置は遠隔端末であり、第２位置は中央処理局である。受信された音声認識パラメータは、第２位置にて音声認識手法に従って解析される。

多くの種類の通信システムにおける多くの種類の通信リンクは、分散音声認識プロセス用として検討できる。一例として、従来の有線通信システム、例えば、一般電話交換網（ＰＳＴＮ）がある。別の例としては、無線通信システム、例えば、ＴＥＴＲＡがある。別の例としては、セルラ無線通信システムがある。適用可能なセルラ通信システムの一例として、ＧＳＭ(global system for mobile communications)システムがあり、別の例としては、現在標準化が進んでいるＵＭＴＳ(Universal Mobile Telecommunications System)などのシステムがある。

任意の通信システムにおいて任意の通信リンクを用いることにより、この通信リンク上で第１位置から第２位置に送信される音声認識パラメータにエラーが生じる可能性が生まれる。

送信情報のある部分におけるエラーの存在が検出可能となるように、通信システムにおいてエラー検出手法を提供することが知られている。周知の手法の一つに、循環冗長符号化(cyclic redundancy coding)がある。

エラーの存在が検出されると、送信される情報の種類に応じて異なる緩和手法(mitigating techniques)が採用される。異なる形態の情報に適用されるエラー緩和の手法は、パラメータが受ける特殊な音声認識手法に起因して、音声認識パラメータにおけるエラーを緩和することに最適ではない。そのため分散音声認識プロセスにおいてエラーを緩和する手段を提供することが望ましい。

本発明は、上記のような送信エラーの影響を緩和するための手段を提供する。

本発明の一態様に従って、請求項１において請求されるような、分散音声認識システムにおいてエラーを緩和する方法が提供される。

本発明の別の態様に従って、請求項１３において請求されるような、分散音声認識システムにおいてエラーを緩和する装置が提供される。

本発明のさらなる態様は、従属請求項に請求される通りである。

本発明は、分散音声認識プロセスの性質，ここで用いられる音声認識パラメータの特性および音声認識パラメータが配列されるベクトルに特に適している、エラーを緩和するための手段を提供する。

具体的には、本発明の一態様に従って、特定されたベクトル・グループ内の一つまたはそれ以上の音声認識パラメータが、この特定されたベクトル・グループの後に受信されたベクトルからの一つまたはそれ以上の音声認識パラメータを参照することによって判定された各置換パラメータによって置換される際に、音声認識プロセスにおいて待ち時間(latency)を許容する可能性が有利に利用される。

さらに、本発明の別の態様に従って、どの音声認識パラメータを置換すべきかの判定は、エラーなしに受信されたベクトルから、前記特定されたベクトル・グループ内の各音声認識パラメータについて予測値を予測して、各予測値に対して所定の閾値の外にある前記特定されたベクトル・グループ内の音声認識パラメータを置換することによって実施され、その効果は、音声認識ベクトル内の異なるパラメータ間のエラーにおける独立した関係を有利に利用することである。

さらなる特定の利点については、以下の説明および図面から明らかになろう。

本発明の一実施例のサンプリング・タイムフレームに対応するベクトルで配列された音声認識パラメータの模式図である。本発明の一実施例のプロセス・フローチャートである。本発明の一実施例の連続的に受信されたベクトルの模式図である。

以下で説明する一例としての実施例では、音声認識パラメータは、図１に模式的に示すように、サンプリング・タイムフレームに対応するベクトルで配列される。

処理される音声信号１１０の一部を図１に示す。音声信号１００は、実際には、さらに複雑なサンプル値のシーケンスからなるので、大幅に簡略化された形式で示されている。

図１において、第１サンプリング・タイムフレーム１２１，第２サンプリング・タイムフレーム１２２，第３サンプリング・タイムフレーム１２３および第４サンプリング・タイムフレーム１２４が示されている、サンプリング・タイムフレームは、図１に示すように音声信号上に重畳される。下記の実施例では、毎秒１００個のサンプリング・タイムフレームが存在する。音声信号は、各サンプリング・タイムフレームの最中に反復的にサンプリングされる。

下記の実施例では、音声認識プロセスは、全部で１４個の音声認識パラメータが採用されるプロセスである。最初の１２個のパラメータは、最初の１２個のスタティック・メル・ケプストラム係数(static mel cepstral coefficients)、すなわち、

であり、ここでｍはサンプリング・タイムフレーム番号を表す。１３番目に用いられる音声認識パラメータは、ゼロ番目のケプストラム係数、すなわち、ｃ₀（ｍ）である。１４番目に用いられる音声認識パラメータは、対数エネルギ項(logarithmic energy term)、すなわち、ｌｏｇ［Ｅ（ｍ）］である。これらの係数の詳細および音声認識プロセスにおける用途については当技術分野で周知であり、ここではさらに詳しい説明を要しない。また、本発明はケプストラム係数以外の音声認識パラメータの他の選択または方式の場合と同様に、音声認識パラメータを形成する他のケプストラム係数の組合せでも実行できることに留意されたい。

各サンプリング・タイムフレーム毎の１４個のパラメータは、図１に示すように、アレイともいう対応するベクトルに配列、あるいはフォーマットされる。ベクトル１３１はサンプリング・タイムフレーム１２１に対応し、ベクトル１３２はサンプリング・タイムフレーム１２２に対応し、ベクトル１３３はサンプリング・タイムフレーム１２３に対応し、ベクトル１３４はサンプリング・タイムフレーム１２４に対応する。このようなベクトルは一般に次式のように表すことができる。

音声認識パラメータは、第１位置から第２位置に送信される前に処理される。下記の実施例では、これは次のようにして実行される。ベクトル１３１からのパラメータは量子化される。これは、ベクトルをスプリット・ベクトル量子化器(split vector quantizer)で直接量子化することによって実施される。係数はペアにグループ化され、各ペアは、該ペアについてあらかじめ決められたベクトル量子化（ＶＱ：vector quantization）コードブックを利用して量子化される。それによって得られるインデクス値のセットは、音声フレームを表すために用いられる。各ペアについて用いられるコードブック・サイズとともに、フロントエンド・パラメータ毎の係数ペアリングを以下の表１に示す。

最も近いＶＱ重心(centroid)は、インデクスを判定するために加重ユークリッド距離(weighted Euclidian distance)を利用して求められる

ここで、ｑ_j ^i,i+1は、コードブックＱ^i,i+1におけるｊ番目のコードベクトルを表し、Ｎ^i,i+1はコードブックのサイズであり、Ｗ^i,i+1はコードブックＱ^i,i+1について適用される（大体は単位行列(identity)）加重マトリクスであり、ｉｄｘ^i,i+1（ｍ）はベクトル［ｙ_i（ｍ），ｙ_i+1（ｍ）］^Tを表すために選択されたコードブック・インデクスを表す。

次に、生成されるインデクスは４４ビットの形式で表される。これら４４ビットは、図１の参照番号１４１に示されるように、ビット・ストリーム・フレーム１５０の最初の４４スロットに入れられる。次のベクトル、すなわち、ベクトル１３２について生成された対応する４４ビットは、図１の参照番号１４２に示されるように、ビット・ストリーム・フレーム１５０の次の４４スロットに入れられる。ビット・ストリーム・フレーム１５０の残りのビットは、図１の参照番号１４６に示されるように、循環冗長符号の４ビットからなり、このビットの値は、ビット・ストリーム・フレーム１５０の８８個の前置ビット全体について、周知な方法でエラー検出を行うように判定される。同様に、ベクトル１３３から与えられる４４ビットは、図１の参照番号１４３に示されるように、第２ビット・ストリーム・フレーム１５５の最初の４４スロットに入れられる。また、次のベクトル、すなわち、ベクトル１３４について生成された対応する４４ビットは、図１の参照番号１４４に示されるように、ビット・ストリーム・フレーム１５５の次の４４スロットに入れられる。ビット・ストリーム・フレーム１５５の残りのビットは、図１の参照番号１４８に示されるように、循環冗長符号の４ビットからなる。この配列は、以降のベクトルについて反復される。２つのベクトルからのビット・データが一つの合成ビット・ストリーム・フレームにて配列されるところの上記のビット・ストリーム・フレームのフォーマットは一例に過ぎない。例えば、各ベクトルのデータは、それ自体のエラー検出ビットを含む一つのビット・ストリーム・フレームで配列してもよい。同様に、ビット・ストリーム・フレーム毎のスロットの数は一例に過ぎない。

混乱を避けるため、上記のビット・ストリーム・フレームは、データが第１位置から第２位置に送信されるところの通信システムの通信リンク上でビット・ストリーム・データを送信する際に用いられる送信フレーム、例えば、本明細書で説明される実施例にて採用される通信システムであるＧＳＭセルラ無線通信システムの時分割多元接続（ＴＤＭＡ）タイムフレーム、と混同すべきでないことを指摘しておく。この例では、第１位置は遠隔ユーザ局からなり、第２位置、すなわち、受信側位置は、例えば、セルラ通信システムの基地局に配置できる集中処理局(centralized processing station)からなる。従って、本明細書で説明する実施例では、音声認識パラメータは、無線通信リンク上で第１位置から第２位置に送信される。ただし、第１位置および第２位置の性質は、検討対象の通信システムの種類と、そこにおける分散音声認識プロセスの構成とに依存することを理解されたい。

ビット・ストリーム・フレームは、第２位置にて受信された後に、第２位置にて送信フォーマットから再構築される。

以上説明したのは、分散音声認識プロセスであって、音声認識パラメータは、サンプリング・タイムフレームに対応するベクトルで配列され、第１位置から送信された前記音声認識パラメータは、第２位置にて受信される分散音声認識プロセスである。第１実施例によれば、このような音声認識プロセスにおいてエラーを緩和する方法は、図２のプロセス・フローチャートに示される。図２を参照して、機能ボックス２１０は、送信エラーが発生した一つまたはそれ以上のベクトルからなるグループを特定する段階を示す。本実施例では、エラー検出は、既知の循環冗長符号方法を利用して、１４６，１４８など４循環冗長符号化ビットを、各ビット・ストリーム・フレーム１５０，１５５の内容と比較することによって実行される。本例では、これは送信エラーが発生した任意の一つのビット・ストリーム・フレームを特定する。従って、本例では、特定されたベクトル・グループは２つのベクトル、すなわち、一つのビット・ストリーム・フレームからのベクトルのペアからなる。別の例において、エラー検出手段を有する各ビット・ストリーム・フレームが一つのベクトルしか収容していない場合、特定されたベクトル・グループは一つのベクトルとなる。なお、このような特定グループに収容されるベクトルの数を判定する厳密な形式および技術的な理由は、ベクトルのビット・ストリーム内でのさまざまな配列の仕方や、さらにはその上にエラー検出方法がどのようにして課せられるのかに依存することを理解されたい。特に、本実施例で採用される循環冗長符号化以外のエラー検出方法は、特定されるグループ内で異なる数のベクトルを与えることも可能である。また、任意のビット・ストリーム配列において、いかにしてエラー情報を処理するかの副次的な設計選択は、特定されるグループにおけるベクトルの数を決定する上で役割を果たすことがある。例えば、本実施例を参照して、たとえエラー検出手段がより狭い範囲のエラー検出が能力的に可能であったとしても、処理電力を節約する理由から、ビット・ストリーム・フレームのバッチがエラーを含むかどうかのみを考慮することも可能である。

音声認識パラメータは、上記のベクトル量子化手順の逆手順を実行することによって、ビット・ストリーム・フレームから取り出される。さらに具体的には、インデクスはビット・ストリームから抽出され、これらのインデクスを利用して、ベクトルは以下の形式で再構築される。

機能ボックス２２０は、本実施例の次の段階、すなわち、特定されたベクトル・グループ内の一つまたはそれ以上の音声認識パラメータを置換する段階を示す。本実施例では、異なる処理段階の順序は、一つまたはそれ以上の音声認識パラメータを置換する前に、全ての受信音声認識パラメータがビット・ストリーム・フレームから取り出され、一時的に格納されるように実行される。ただし、一つまたはそれ以上の音声認識パラメータは、新たに導入される置換パラメータを含む音声認識パラメータをビット・ストリーム・フォーマットから実際に物理的に取り出す前に、ビット・ストリーム情報を対応する形式で変更することによって置換することも可能である。

置換音声認識パラメータの判定の仕方についての以下の説明では、図１を参照してベクトル１３１〜１３４と、その後連続的に受信されるさらに６つのベクトル１３５〜１４０とを示す図３を参照する。本実施例では、特定されたベクトル・グループにおける一つまたはそれ以上の音声認識パラメータは、特定されたベクトル・グループ以降に受信されたベクトルからの一つまたはそれ以上の音声認識パラメータを参照して判定された各置換パラメータによって置換される。従って、本実施例では、ビット・ストリーム・フレーム１５５についてエラーが検出され、そのためベクトル１３３，１３４からなるグループが特定されると、ベクトル１３３，１３４内の一つまたはそれ以上の音声認識ベクトルは、ベクトル１３５〜１４０のうちの一つから、あるいはベクトル１４０以降に受信した図３には図示されていないベクトルからの一つまたはそれ以上の音声認識パラメータを参照して判定された各置換パラメータによって置換される。なお、このような後続ベクトルを参照した判定は、１３１，１３２などの先行ベクトル、あるいは図示していない他のベクトルへの参照も判定プロセスに含まれるという可能性を除外するものではないことを留意されたい。

特定されたベクトル・グループ以降に受信されたベクトルを参照することは、音声認識について特に効果的に実行できる方法を提供する。なぜならば、バックエンド音声認識装置(back-end speech recognizer)からより良好な性能を提供するために待ち時間を有利に利用できるためである。このような方法を適用することは、バックエンドに出力する前に、受信ベクトルをバッファに一時的に格納することを伴う。特定されたベクトル・グループの後に受信されたベクトルは、置換値を算出するために用いられる。従って、バックエンドに利用可能なエラー緩和されたベクトルが形成されるまでの間の待ち時間が増加してしまう。特にバックエンド認識装置が集中サーバの一部である場合には、このようなエラー緩和方法によって生じる一時的な待ち時間の変動を克服するのに十分な演算能力を有するバックエンド認識装置にとって、通常この待ち時間は問題にならない。

さらに具体的には、本実施例において、グループの各ベクトルの全ての音声認識パラメータは、全ベクトル(whole vectors)を置換することによって置換され、各置換済みの全ベクトルは、置換されるベクトルに対して受信順序が最も近い、エラーのない先行ベクトルまたは後続ベクトルのいずれかのコピーによって置換される。上記の送信モードおよびエラー検出モードについて、特定されたベクトル・グループは連続したベクトルのペアからなるので、前記ペアの第１ベクトルはエラーのない先行ベクトルの第２ベクトルによって置換され、前記ペアの第２ベクトルはエラーのない後続ベクトルの第１ベクトルによって置換される。この場合、例えば、ベクトル１３５，１３６がエラーを有するベクトルのペアであると特定されると、ベクトル１３５の全体はベクトル１３４のコピーによって置換され、ベクトル１３６の全体はベクトル１３７のコピーによって置換されるが、ただしこのとき、ベクトル１３４，１３７は、それ自体が送信エラーが発生したことが特定されたペアの一部ではないものとする。例えば、ベクトル１３３，１３４のペア自体が実際にエラーを有するベクトルのペアであるならば、両ベクトル１３５，１３６は、それ以降の適正であることが判明している最初のベクトルであるベクトル１３７のコピーによって置換される。なぜならば、それより前の最も近い適正であることが判明しているベクトルであるベクトル１３２よりも、ベクトル１３７は各ベクトルに対し受信順序がより近いためである。後者の場合、ベクトル１３３，１３４の両方は、適正であることが判明しているベクトルのうち受信順序が最も近いベクトルであるベクトル１３２のコピーによって置換される。

適正であることが判明している受信ベクトルの以前または以降のコピーを単純に利用するのではなく、全ベクトルが置換される本実施例の別の様式では、各置換された全ベクトルは、補間手法によって判定されたベクトルによって置換される。当業者であれば、検討対象の特定の音声認識プロセスの条件に応じて適切な補間手法を選ぶことができよう。採用できる補間方法の例には以下のものがある：

（ｉ）線形補間(linear interpolation) − この方法では、各パラメータについて、エラーを含むことが判明しているベクトルの前後の一つまたはそれ以上のベクトルからとられた値は、その間の直線等式(straight line equation)を定める定数(constant)および勾配(gradient)を求めるために用いられる。エラーを有するベクトル内の各パラメータを置換するために用いられる補間値は、これらの線の等式を利用して算出される。

（ｉｉ）逆方向予測(backwards prediction) − この方法では、エラーを含むことが判明しているベクトル以降の一つまたはそれ以上のエラーのないベクトルをとる。各パラメータについて、置換値は、ベクトル・シーケンス内のこれらのベクトル要素の加重和(weighted sum)から生成され、この方法は予測(prediction)として知られる。加重は、エラーのない音声からのベクトルのパラメータに対してトレーニング(training)を行うことによりあらかじめ定められる。

（ｉｉｉ）曲線の当てはめ(curve fitting) − この方法では、エラーを含む
ことが判明しているベクトルの前後の一つまたはそれ以上のベクトルをとる。この方法は線形補間と似ているが、直線に当てはめるのではなく、良好なパラメータに基づく曲線を利用し、また各パラメータについて置換値を生成するための曲線の等式を利用することによって、当てはめが行われる。

上記の実施例において、音声認識パラメータは、全ベクトルを置換することによって置換される。ただし、以下で説明するような本発明のさらなる実施例では、ベクトル内の全ての音声認識パラメータが必ずしも置換されるわけではない。

以下で説明する実施例では、どの音声認識パラメータを置換すべきかの判定は、エラーなしに受信されたベクトルから、前記特定されたベクトル・グループ内の各音声認識パラメータについて予測値を予測し、各予測値に対して所定の閾値の外にある特定されたベクトル・グループ内の音声認識パラメータを置換することによって行われる。

ここで、ベクトル１３３，１３４がエラーを有するベクトルのペアであると特定される場合について考える。ベクトル１３３の音声認識パラメータｃ₁（３），ｃ₂（３），．．．，ｃ₁₂（３），ｃ₀（３）およびｌｏｇ［Ｅ（３）］のそれぞれについて、またベクトル１３４の音声認識パラメータｃ₁（４），ｃ₂（４），．．．，ｃ₁₂（４），ｃ₀（４）およびｌｏｇ［Ｅ（４）］のそれぞれについて、予測値(predicted value)が判定される。予測値は、任意の適切な予測方法によって判定される。例えば、線形補間，逆方向予測および曲線当てはめなど、全ベクトルについて上で説明した予測手法は、個別の音声認識パラメータに適用できる。個別の音声認識パラメータに適用されると、他のベクトル内の対応する位置のパラメータは、例えば、ｃ₁（３）の予測値を計算する場合に用いられ、対応する位置の音声認識パラメータｃ₁（１），ｃ₁（２），ｃ₁（５），ｃ₁（６）などの値が用いられる。

従って、本実施例において、音声認識ベクトル内の異なるパラメータ間の独立した関係が有利に利用される。

予測値に対する所定の閾値が採用される。この閾値レベルは、検討対象の特定のプロセスの条件に応じて設定される。この閾値は、検討対象のプロセスあるいは他のプロセス内で得られた経験や、トライアルもしくはシミュレーションなどに基づいて経時的に変更できる。また、閾値レベルは、継続フィードバックに基づいて自動的に変更できる。例えば、特定されるエラーのレベルに応じて変更できる。また、閾値レベルは予測値の関数でもよい。また、閾値レベルは、どの音声認識パラメータであるのか、すなわち、パラメータがｃ₁（ｍ）であるのか、ｃ₂（ｍ）であるのか、ｃ₃（ｍ）であるのかなどに応じて変更でき、これは特定の音声認識パラメータが他のパラメータに比べて音声認識プロセスの成功にとってより重要であるような音声認識プロセスに本発明を適用する場合に、特に有利である。実際、これは本例の場合であって、ここで音声認識プロセスは、ｃ₁₀（ｍ），ｃ₁₁（ｍ），ｃ₁₂（ｍ）などの高次数のメル・ケプストラム係数よりも、ｃ₃（ｍ），ｃ₄（ｍ），ｃ₅（ｍ）などの中間次数のメル・ケプストラム係数に対してより敏感である。

本実施例の一様式では、前記特定されたベクトル・グループ内の指定された数以上の音声認識パラメータが各所定の閾値の外にある場合、前記特定されたベクトル・グループの全ての音声認識パラメータは置換される。この場合、ベクトル１３３，１３４内に収容される任意の２８個の音声認識パラメータから５個以上の音声認識パラメータが各所定の閾値の外にある場合、ベクトル１３３，１３４の全ての音声認識パラメータは置換される。指定される数の選択は、検討対象の特定の音声認識プロセスの条件に応じて行われる。このように全ベクトルを置換することにより、音声認識パラメータが上記の閾値のレベル内に入ったとしても、エラーである可能性のある音声認識パラメータを排除するという有利な傾向が得られる。

本実施例では、音声認識パラメータは、どの音声認識パラメータを置換すべきかを判定する段階において用いられる各予測値によって置換される。これは、これらの値がすでに判定済みであるという点で効率的である。

本実施例の別の様式では、各予測値に対して所定の閾値内である音声認識パラメータは、基準ベクトルのセットと比較され、前記基準ベクトルのセットから最良一致ベクトル(best match vector)を求め、また各予測値に対して所定の閾値の外にある音声認識パラメータは、前記最良一致ベクトルからの対応する音声認識パラメータによって置換される。

ここでも、ベクトル１３３，１３４がエラーを有するベクトルのペアとして特定される場合を考える。さらに、閾値範囲外であると判定される２つのベクトルからの唯一の音声認識パラメータがベクトル１３３からのｃ₁（３）であると考える。このとき、相関手法を利用することにより、ベクトル１３３の残りの部分と基準ベクトルのセットの間の最も近い適合(closest fit)が判定される。

基準ベクトルのセット内で、基準ベクトルの数およびその内容は、検討対象の特定の音声認識プロセスの条件に応じて選択される。これらの選択は、必要な処理レベルと比較した、エラー訂正の精度と感度との間のトレードオフを伴う。閾値外パラメータを斟酌した後のベクトルの残りの部分に対して、どの基準ベクトルが最良適合を表すのかを判定するための条件も、検討対象の特定の音声認識プロセスの条件に応じて実施される。ユークリッド距離の算出など、既知の相関手法が採用される。これらの手法をいかにして本方法に適用するのかは、閾値内のベクトル要素のみが距離の計算に含まれるようにする。

本実施例の別の様式では、一つまたはそれ以上の近傍ベクトルからの音声認識ベクトルは基準ベクトルのセットと比較され、複数の連続した基準ベクトルに対する最良一致が選択される。ここでも、ベクトル１３３，１３４がエラーを有するベクトルのペアとして特定され、さらに閾値範囲外であると判定される２つのベクトルからの唯一の音声認識パラメータがベクトル１３３からのｃ₁（３）であると想定する。ベクトル１３３の残りの部分（すなわち、音声認識パラメータｃ₂（３），ｃ₃（３），．．．，ｃ₁₂（３），ｃ₀（３）およびｌｏｇ［Ｅ（３）］）と、周囲のベクトル１３２，１３４の全体は、３つの連続した基準ベクトルの基準グループに対して一括して比較される。

上記の実施例では、送信エラーが発生した一つまたはそれ以上の前記ベクトルからなるグループを特定する段階は、既知の循環冗長符号方法を利用して、１４６，１４８などの４循環冗長符号化ビットを、各ビット・ストリーム・フレーム１５０，１５５の内容と比較することからなる。ただし、本発明のさらなる実施例では、送信エラーが発生した一つまたはそれ以上の前記ベクトルからなるグループを特定する段階は、音声認識パラメータ自体の評価を含むことができる。これは、循環冗長符号化などの従来の方法とともに、実行される追加のセーフティ・ネット的な手法としてでもよく、あるいは循環冗長符号化などの従来の方法の代わりに利用でき、その場合、これがエラー・ベクトル・グループを特定する唯一の方法となる。

このようなさらなる実施例のうちの第１実施例では、音声認識パラメータについて各予測値が判定される。これは、どの音声認識パラメータを置換すべきかを判定する実施例について先に説明したのと同じ方法のうちの任意の一つで行うことができるが、エラーを特定する唯一の手段としてこれを実行すると、もちろんのことだが、補間関数に対する入力の意味以外では、エラーなしに受信したベクトルのみが予測計算において用いられるという上記の詳細を含めることが不可能になる。予測値に対する一つまたはそれ以上の閾値レベルが判定される。これも、どの音声認識パラメータを置換すべきかを判定する実施例について上で説明した同じ方法のうちの任意の方法で実施される。ただし、一般的に、ここで用いられる閾値は前に説明した場合で用いられる閾値よりも大きい。また、一つまたはそれ以上の閾値レベルが判定されることを留意されたい。例えば、２つの閾値レベルを判定する場合には、一方が可能性の高いエラーに対応でき、他方はエラーの外側機会(outside chance)に対応できる。次に、送信エラーが発生したとみなされるベクトル・グループは、前記一つまたはそれ以上の閾値レベルそれぞれの外にあるベクトル・グループ内の音声認識パラメータの数に関する加重解析(weighted analysis)に応答して特定される。例えば、この場合、加重解析とは、可能性の高いエラー閾値を超える場合に、スコア５が割当てられ、エラー閾値の外側機会を越える場合に、スコア１が割当てられ、ベクトル・グループは、全スコアが６またはそれ以上である場合に、送信エラーが発生したものとして特定される。これは、採用できる加重解析方式の一例に過ぎず、上記の方式よりもさらに複雑な方式を含む特定の方式の選択は、検討対象の特定の分散音声認識プロセスの条件に応じて利用できる。

このようなさらなる実施例のうち第２実施例は、ベクトル・グループ内の異なるベクトルからの対応する音声認識パラメータ間の差を判定する段階を含む。例えば、ベクトル１３３，１３４を参照して、ｃ₁（３）とｃ₁（４）との間の差が計算され、ｃ₂（３）とｃ₂（４）との間の差が計算され、ｃ₃（３）とｃ₃（４）との間の差が計算され、以下同様である。送信エラーが発生したとみなされるベクトル・グループは、所定の閾値レベルの外にある前記差の数に関する解析に応答して特定される。適切な所定の閾値レベルが設定され、またどの音声認識パラメータを置換すべきかを判定する前記実施例についてすでに説明したのと同じ任意の方法を利用して、経時的に変更できる。この場合、２つまたはそれ以上の前記計算された差が閾値レベルの外にある場合に、ベクトル・グループは送信エラーが発生したと特定される。閾値レベルの外であることが必要な数についてのこの選択は一例に過ぎず、一般に検討対象の特定の分散音声認識プロセスの条件に応じて選ばれる。さらなる任意の態様を実施例に適用でき、ここでベクトル量子化プロセスの一部として、音声認識パラメータは、表１で説明したように、ペアにグループ化される。この場合、あるコードブック・インデクス内のいずれかの音声認識パラメータの差が閾値外であるならば、コードブック・インデクスはエラーありの受信として分類される。すなわち、表１を参照して、ｃ₃差またはｃ₄差のいずれかが閾値外であるならば、コードブック・インデクスＱ^2,3はエラーありの受信として分類される。ベクトル・グループ内の７からの任意の数、例えば２以上のコードブック・インデクスがエラーありの受信として分類されると、このベクトル・グループは送信エラーが発生したと特定される。明らかに、閾値レベルを選択し、また閾値レベルの外でなければならない差の数を選択する際に、トレードオフ事項は検討対象の特定の分散音声認識プロセスの条件に応じて評価される。

上記の実施例の場合、上記のデータ処理段階は、モトローラ社のＤＳＰ５６ｘｘｘ（商標）ファミリーのデバイスから選択されるデバイスなど、プログラマブル・デジタル信号処理デバイスによって実行される。あるいは、特定用途向け集積回路（ＡＳＩＣ）を採用できる。他の可能性も存在する。例えば、無線受信機と、バックエンド音声認識プロセッサの一部をなすコンピュータ・システムとの間をインタフェースするインタフェース・ユニットを利用できる。

Claims

分散音声認識プロセスにおいてエラーを緩和する方法であって、前記分散音声認識プロセスでは、音声認識パラメータがサンプリング・タイムフレームに対応するベクトルで配列され、第１位置から送信された前記音声認識パラメータが第２位置にて受信され、当該方法は：
送信エラーが発生した一つまたはそれ以上の前記ベクトルからなるグループを特定する段階；および
前記特定されたベクトル・グループ内の一つまたはそれ以上の音声認識パラメータを置換する段階；
によって構成され、
前記グループの各ベクトルの全ての音声認識パラメータは、全ベクトルを置換することによって置換され、各置換された全ベクトルは、前記置換されるベクトルに対して受信順序が最も近い、エラーなしに受信された、異なる特定のサンプリング・タイムフレームに対応する、先行の異なるベクトルまたは後続の異なるベクトルのいずれかのコピーによって置換されることを特徴とする方法。
前記特定されたベクトル・グループ内の前記一つまたはそれ以上の音声認識パラメータは、前記特定されたベクトル・グループの後に受信されたベクトルからの一つまたはそれ以上の音声認識パラメータを参照して判定される置換パラメータによって置換されることを特徴とする請求項１記載の方法。
送信モードおよびエラー検出モードでは、前記特定されたグループが連続したベクトルのペアからなり、前記ペアのうち第１ベクトルは、エラーのない先行ベクトルの第２ベクトルによって置換され、前記ペアのうち第２ベクトルは、エラーのない後続ベクトルの第１ベクトルによって置換されることを特徴とする請求項１または２記載の方法。
どの音声認識パラメータを置換すべきかの判定は、エラーなしに受信したベクトルから、前記特定されたベクトル・グループ内の各音声認識パラメータについて予測値を予測し、各予測値に対して所定の閾値の外にある前記特定されたベクトル・グループ内の音声認識パラメータを置換することによって実施されることを特徴とする請求項１または２記載の方法。
前記特定されたベクトル・グループ内の指定された数以上の音声認識パラメータが各所定の閾値の外にあるならば、前記特定されたベクトル・グループの全ての音声認識パラメータは置換されることを特徴とする請求項４記載の方法。
前記音声認識パラメータは、どの音声認識パラメータを置換すべきかを判定する前記段階において用いられる各予測値によって置換されることを特徴とする請求項４または５記載の方法。
各予測値に対して所定の閾値内にある音声認識パラメータは、基準ベクトルのセットと比較され、前記基準ベクトルのセットから最良一致ベクトルを求め、また各予測値に対して所定の閾値の外にある音声認識パラメータは、前記最良一致ベクトルからの対応する音声認識パラメータによって置換されることを特徴とする請求項４または５記載の方法。
一つまたはそれ以上の近傍ベクトルからの音声認識パラメータも前記基準ベクトルのセットと比較され、複数の連続した基準ベクトルに対する最良一致が選択されることを特徴とする請求項７記載の方法。
送信エラーが発生した一つまたはそれ以上の前記ベクトルからなるグループを特定する前記段階は、前記音声認識パラメータについて各予測値を予測して、前記予測値に対する一つまたはそれ以上の閾値レベルを判定し、前記一つまたはそれ以上の閾値レベルのそれぞれの外にあるベクトル・グループ内の音声認識パラメータの数に関する加重解析に応答して、送信エラーが発生したとしてベクトル・グループを特定する段階を含むことを特徴とする請求項１ないし８のいずれかに記載の方法。
送信エラーが発生した一つまたはそれ以上の前記ベクトルからなるグループを特定する前記段階は、ベクトル・グループ内の異なるベクトルからの対応する音声認識パラメータ間の差を判定し、所定の閾値の外にある前記差の数に関する解析に応答して、送信エラーが発生したベクトル・グループを特定する段階を含むことを特徴とする請求項１ないし請求項８のいずれかに記載の方法。
分散音声認識プロセスにおいてエラーを緩和する装置であって、前記分散音声認識プロセスは、サンプリング・タイムフレームに対応するベクトルで音声認識パラメータが配列されるプロセスであり、第１位置から送信された前記音声認識パラメータは第２位置にて受信され、当該装置は：
送信エラーが発生した一つまたはそれ以上の前記ベクトルからなるグループを特定する手段；および
前記特定されたベクトル・グループ内の一つまたはそれ以上の音声認識パラメータを置換する手段；
によって構成され、
前記グループの各ベクトルの全ての音声認識パラメータは、全ベクトルを置換することによって置換され、各置換された全ベクトルは、前記置換されるベクトルに対して受信順序が最も近い、エラーなしに受信された、異なる特定のサンプリング・タイムフレームに対応する、先行の異なるベクトルまたは後続の異なるベクトルのいずれかのコピーによって置換されることを特徴とする装置。
前記特定されたベクトル・グループ内の前記一つまたはそれ以上の音声認識パラメータは、前記特定されたベクトル・グループの後に受信されたベクトルからの一つまたはそれ以上の音声認識パラメータを参照して判定される各置換パラメータによって置換されることを特徴とする請求項１１記載の装置。
送信モードおよびエラー検出モードでは、前記特定されたグループが連続したベクトルのペアからなり、前記ペアのうち第１ベクトルは、エラーのない先行ベクトルの第２ベクトルによって置換され、前記ペアのうち第２ベクトルは、エラーのない後続ベクトルの第１ベクトルによって置換されることを特徴とする請求項１１または１２記載の装置。
どの音声認識パラメータを置換すべきかの判定は、エラーなしに受信したベクトルから、前記特定されたベクトル・グループ内の各音声認識パラメータについて予測値を予測し、各予測値に対して所定の閾値の外にある前記特定されたベクトル・グループ内の音声認識パラメータを置換することによって実施されることを特徴とする請求項１１または１２記載の装置。
前記特定されたベクトル・グループ内の指定された数以上の音声認識パラメータが各所定の閾値の外にあるならば、前記特定されたベクトル・グループの全ての音声認識パラメータは置換されることを特徴とする請求項１４記載の装置。
前記音声認識パラメータは、どの音声認識パラメータを置換すべきかを判定する前記段階において用いられる各予測値によって置換されることを特徴とする請求項１４または１５記載の装置。
各予測値に対して所定の閾値内にある音声認識パラメータは、基準ベクトルのセットと比較され、前記基準ベクトルのセットから最良一致ベクトルを求め、また各予測値に対して所定の閾値の外にある音声認識パラメータは、前記最良一致ベクトルからの対応する音声認識パラメータによって置換されることを特徴とする請求項１４または１５記載の装置。
一つまたはそれ以上の近傍ベクトルからの音声認識パラメータも前記基準ベクトルのセットと比較され、複数の連続した基準ベクトルに対する最良一致が選択されることを特徴とする請求項１７記載の装置。
送信エラーが発生した一つまたはそれ以上の前記ベクトルからなるグループを特定する前記手段は、前記音声認識パラメータについて各予測値を予測する手段と、前記予測値に対する一つまたはそれ以上の閾値レベルを判定する手段と、前記一つまたはそれ以上の閾値レベルのそれぞれの外にあるベクトル・グループ内の音声認識パラメータの数に関する加重解析に応答して、送信エラーが発生したとしてベクトル・グループを特定する手段とを含むことを特徴とする請求項記１１ないし請求項１８のいずれかに記載の装置。
送信エラーが発生した一つまたはそれ以上の前記ベクトルからなるグループを特定する前記手段は、ベクトル・グループ内の異なるベクトルからの対応する音声認識パラメータ間の差を判定する手段と、所定の閾値の外にある前記差の数に関する解析に応答して、送信エラーが発生したベクトル・グループを特定する手段とを含むことを特徴とする請求項１１ないし請求項１８のいずれかに記載の装置。
前記音声認識パラメータは、無線通信リンク上で前記第１位置から前記第２位置に送信されることを特徴とする請求項１１ないし請求項２０のいずれかに記載の装置。
前記音声認識パラメータは、無線通信リンク上で前記第１位置から前記第２位置に送信されることを特徴とする請求項１ないし請求項１０のいずれかに記載の方法。