JP2003536108A

JP2003536108A - 分散型音声認識プロセス及びシステムにおける伝送エラーの影響を緩和する方法及び装置

Info

Publication number: JP2003536108A
Application number: JP2002502766A
Authority: JP
Inventors: ピアース，デーヴィッド・ジョン・ベンジャミン
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 2000-06-05
Filing date: 2001-06-05
Publication date: 2003-12-02
Anticipated expiration: 2021-06-05
Also published as: US20040039569A1; US7243066B2; CN1437745A; DE60122327D1; AU8383901A; AU2001283839B2; GB2363236B; JP5122716B2; ZA200208371B; CA2407791C; GB2363236A; DE60122327T2; EA004378B1; EP1292942A1; WO2001095311A1; ATE336778T1; EA200201298A1; GB0013528D0; EP1292942B1; ES2269443T3

Abstract

(57)【要約】分散型音声認識のための方法及び装置は、伝送エラーの影響を緩和するよう働く。本方法は、伝送エラーを受けた音声認識パラメータを識別するステップと、音声認識デコーダへ送られるべきデータを処理して、そのようなエラーを被ったいずれの音声認識パラメータがバックエンド処理から除外されることを保証するステップとを備える。伝送エラーを被った音声認識パラメータは、それらのパラメータを、音声認識デコーダにより異常及び／又は音声のようで無いとして拒絶されるように選択されるデータと置換することにより、バックエンド処理から除外される。

Description

【発明の詳細な説明】

【０００１】［発明の分野］本発明は、分散型音声認識システムにおいて伝送エラーの影響を緩和する方法
に関する。本発明はまた、分散型音声認識システムにおいて伝送エラーの影響を
緩和する装置に関する。本発明は、音声認識パラメータが無線通信リンクを介し
て送信されるとき音声認識パラメータに影響を与える伝送エラーの影響を緩和す
るのに適しているが、それに限定されるものではない。

【０００２】［発明の背景］音声認識は、発話からの音、単語の部分、単語、又は句を自動的に認識するプ
ロセスである。そのようなプロセスは、人と機械の間のインターフェースとして
、スイッチ、キーボード、マウス等々のようなより共通に使用のツールを用いる
ことに加えて、又はその代わりに、用いられることができる。また、音声認識プ
ロセスを用いて、情報を、ある話された通信又はメッセージから自動的に検索す
ることができる。

【０００３】自働音声認識のための様々な方法が発展してきており、そして依然改良されつ
つある。ある方法は発見的戦略を用いた拡張された知識に基づいており、他のも
のは統計モデルを採用している。

【０００４】典型的な音声認識プロセスにおいては、処理されるべき音声は、サンプリング
時間フレームの過程で、ある一定回数サンプリングされる。典型的なプロセスに
おいては、音声は、８−２０ＫＨｚの範囲でのあるレート（速度）でサンプリン
グされ得て、そして１秒当たり５０から１００サンプリング・フレームのオーダ
であり得る。サンプリングされた値は、アルゴリズムを用いて処理されて、音声
認識パラメータを与える。例えば、１つのタイプの音声認識パラメータは、メル
・ケプストラム係数（ｍｅｌｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔ）と
して知られている係数から成る。そのような音声認識パラメータは、ベクトルの
形式で配列され（これはまたアレイとして知られている。）、それは、ある程度
の順序で配列されたパラメータの複数のグループ又は複数の組と考えることがで
きる。サンプリング・プロセスは、更なるサンプリング・時間フレームに対して
繰り返される。典型的なフォーマットは、各サンプリング時間フレームの間に生
成される１つのベクトルのためである。

【０００５】上記のパラメータ化（ｐａｒａｍｅｔｅｒｉｓａｔｉｏｎ）及びベクトル形式
に置くことは、音声認識プロセスのフロントエンド演算（ｆｒｏｎｔ−ｅｎｄ
ｏｐｅｒａｔｉｏｎ）と呼ぶことができるものを構成する。次いで、ベクトルに
配列された前述の音声認識パラメータは、音声認識プロセスのバックエンド演算
（ｂａｃｋ−ｅｎｄｏｐｅｒａｔｉｏｎ）と呼ぶことができる演算の音声認識
技術に従って分析される。フロントエンド・プロセス及びバックエンド・プロセ
スが同じ位置で又は同じ装置で実行される音声認識プロセスにおいては、フロン
トエンドからバックエンドへ通される際に、音声認識パラメータに導入されるエ
ラーの尤度は最小である。

【０００６】しかしながら、分散型音声認識プロセスとして知られているプロセスにおいて
、音声認識プロセスのフロントエンド部分は、バックエンド部分から遠く離れて
実行される。音声が、サンプリングされ、そしてパラメータ化され、そして音声
認識パラメータが、ベクトルに第１の位置で配列される。音声認識パラメータは
、量子化され、次いで、例えば、確立された通信システムの通信リンクを介して
第２の位置に送信される。多くの場合、第１の位置は、遠隔の端末であろうし、
そして第２の位置は、中央処理ステーションであろう。次いで、受信された音声
認識パラメータは、音声認識技術に従って第２の位置で分析される。

【０００７】多くのタイプの通信システムにおける多くのタイプの通信リンクは、分散型音
声認識プロセスにおける使用のためと考えることができる。一例は、従来の無線
通信システム、例えば公衆交換電話ネットワークである。別の例は、無線通信シ
ステム、例えばＴＥＴＲＡである。別の例は、セルラ無線通信システムである。
適用可能なセルラ通信システムの一例は、移動通信システム用グローバル（ＧＳ
Ｍ）システムであり、そして別の例は、現在標準化中である汎用移動通信システ
ム（ＵＭＴＳ）のようなシステムである。

【０００８】任意の通信システムにおける任意の通信リンクの使用は、音声認識パラメータ
が第１の位置から第２の位置へ通信リンクを介して送信されるときエラーがその
音声認識パラメータに導入されるであろう可能性を起こす。

【０００９】通信システムにおいてエラー検出技術を設け、それにより送信される情報の所
与の部分にエラーが存在することは検出可能であることは知られている。１つの
周知の技術は、巡回冗長コーディングである。

【００１０】エラーの存在が検出されるとき、異なる緩和技術を採用して、エラーの影響を
、送信された情報の性質に従って低減する。他の形式の情報の送信中に生じるエ
ラーの影響を低減する技術は、分散型音声認識プロセスにおける伝送エラーの影
響を低減するのに必ずしも適応されていない。これは、パラメータが受けている
特化された音声認識技術のためであり、従って、分散型音声認識プロセスにおい
て伝送エラーの影響を緩和する手段を提供することが望ましい。

【００１１】［発明の概要］本発明は、分散型音声認識プロセスにおいて伝送エラーの影響を低減する手段
を提供する。本発明の一局面に従って、請求項１に記載されるように、分散型音声認識シス
テムにおいて伝送エラーの影響を緩和する方法が提供される。本発明の別の局面に従って、請求項８に記載されるように、分散型音声認識シ
ステムにおいて伝送エラーの影響を緩和する装置が提供される。

【００１２】ある実施形態において、バックエンド・デコーダに送られるべきデータは、エ
ラーを被ったと識別された少なくとも１つの音声認識パラメータを、音声認識デ
コーダにより異常として拒絶されるように選択されたデータと置換することによ
り処理される。そのような実施形態は、バックエンド・コードを変える必要性を回避しながら
、音声認識バックエンド・デコーダの動作に依拠する伝送エラーの影響を緩和す
る手段を提供する。分散型音声認識プロセスにおいて伝送エラーの影響を低減する代替技術は、受
信されたパラメータの中のエラーを検出し、そしてエラーが検出されたとき音声
認識バックエンド・デコーダに信号で知らせるようにする。しかしながら、これ
は、そのような信号に基づいて動作するよう適合されるべきバックエンドを必要
とするであろう。実際に、これは、バックエンド・コードを変える必要性をもた
らすであろう。

【００１３】本発明の更なる局面が、従属請求項に記載されている。本発明は、分散型音声認識プロセスにおいて伝送エラーの影響を緩和する。追
加の特別な利点は、以下の記載及び図面から明らかである。

【００１４】［発明の実施形態の説明］図１は、本発明の一実施形態において使用の分散型音声認識用装置を概略的に
示す。その装置は一般的に、図２を特に参照して以下により詳細に説明されるよ
うにサンプリングされた音声信号に基づいて音声認識パラメータを発生するフロ
ントエンド処理手段１を備える。フロントエンド処理手段１の出力は送信手段２
に接続されている。なお、その送信手段２は、音声認識パラメータについて演算
処理し、且つそのパラメータを他の必要な情報と一緒に通信リンクを介して遠隔
の位置に送信するよう構成されている。本出願の導入部において述べたように、
多くのタイプの通信リンクを用いることができるが、しかし本発明は移動通信シ
ステムに用いられるであろうことを特に想定している。

【００１５】遠隔の位置で、通信ネットワークを介して送信された信号は受信手段３により
受信される。なお、その受信手段３は、送信されたデータを伝送エラー検出手段
４に伝達するよう構成され、その伝送エラー検出手段４は、それらが通信ネット
ワークを通る際に伝送エラーを被ったいずれの音声認識パラメータを識別するよ
う構成されている。伝送エラー検出手段４はデータ処理手段５に接続され、その
データ処理手段５は、いずれの音声認識パラメータと関連したデータを、伝送エ
ラーを被ったと識別されたいずれの音声認識パラメータと置換するよう構成され
ている。データ処理手段５は、バックエンド処理手段６に接続される。なお、そ
のバックエンド処理手段６は、受信された音声認識パラメータについて演算処理
して、分散型音声認識プロセスを完了するよう構成されているデコーダを備える
。

【００１６】分散型音声認識プロセスは、以下でより詳細に考察される。本発明の実施形態が適用される分散型音声認識プロセスにおいて、音声認識パ
ラメータは、図２に概略的に示されるようにサンプリング時間フレームに対応す
るベクトルに配列されている。

【００１７】処理されるべき音声信号１１０の一部分が図２に示されている。音声信号１１
０は、実際にはそれが非常に一層複雑な一連のサンプル値から成るので、非常に
単純化された形式で示されている。

【００１８】図２に、サンプリング時間フレームのうちの第１のサンプリング時間フレーム
１２１、第２のサンプリング時間フレーム１２２、第３のサンプリング時間フレ
ーム１２３及び第４のサンプリング時間フレーム１２４が示されているが、その
サンプリング時間フレームは、図２に示されるように、音声信号に課される。以
下で説明される実施形態においては、１秒当たり１００個のサンプリング時間フ
レームが存在する。音声信号は、各サンプリング時間フレームの過程で繰返しサ
ンプリングされる。

【００１９】以下で説明される実施形態においては、音声認識プロセスは、１４個の音声認
識パラメータの全部が採用されている音声認識プロセスである。これらのパラメ
ータの最初の１２個は、その最初の１２個の静的メル・ケプストラム係数、即ち
次式のとおりである。

【００２０】

【数１】ｃ（ｍ）＝［ｃ₁（ｍ），ｃ₂（ｍ），…，ｃ₁₂（ｍ）］^T

【００２１】ここで、ｍはサンプリング時間フレーム番号であることを示す。用いられた１
３番目の音声認識パラメータは、ゼロ番目のケプストラム係数、即ち、ｃ₀（ｍ
）である。用いられた１４番目の音声認識パラメータは、対数エネルギ項、即ち
ｌｏｇ［Ｅ（ｍ）］である。音声認識プロセスにおけるこれらの係数及びそれら
の使用の詳細は、当該技術において周知であり、そこで、ここでは更なる説明を
必要としない。更に、本発明は、音声認識パラメータを形成するケプストラム係
数の他の組み合わせを用いて、更にまたケプストラム係数以外の音声認識パラメ
ータの他の選定又はスキームを用いて、実行されることができる。

【００２２】各サンプリング時間フレームに対する１４番目の音声認識パラメータは、図２
に示されるように、対応するベクトル（これはまたアレイとして知られている。
）に配列され、又はフォーマットされる。ベクトル１３１はサンプリング時間フ
レーム１２１に対応し、ベクトル１３２はサンプリング時間フレーム１２２に対
応し、ベクトル１３３はサンプリング時間フレーム１２３に対応し、ベクトル１
３４はサンプリング時間フレーム１２４に対応する。１つのそのようなベクトル
は一般的に次式のように表される。

【００２３】

【数２】

【００２４】音声認識パラメータは、第１の位置から第２の位置に送信される前に処理され
る。以下に説明される実施形態において、これは次のように実行される。ベクト
ル１３１からのパラメータが量子化される。これは、ベクトルを分割型ベクトル
量子化器（ｓｐｌｉｔｖｅｃｔｏｒｑｕａｎｔｉｚｅｒ）を用いて直接量子
化することにより実行される。係数は対になるようグループ化され、そして各対
は、そのそれぞれの対に対して予め決定されたベクトル量子化（ＶＱ）コードブ
ックを用いて量子化される。次いで、その結果生じたインデックス値のセットを
用いて、音声フレームを表す。フロントエンド・パラメータによる係数を対にし
たものが、各対に対して用いられたコードブックの大きさと一緒に表１に示され
ている。

【００２５】

【表１】

【００２６】最も近いＶＱ重心が、重み付けされたユークリッド距離（Ｅｕｃｌｉｄｉａｎ
ｄｉｓｔａｎｃｅ）を用いて見つけられて、インデックスを決定する。即ち、

【００２７】

【数３】

【００２８】ここで、ｑ_j ^i,i+1はコードブックＱ^i,i+1におけるｊ番目のコードベクトル（
ｃｏｄｅｖｅｃｔｏｒ）を示し、Ｎ^i,i+1はコードブックの大きさであり、Ｗ^i,i ⁺¹ はコードブックＱ^i,i+1に対して適用されるべき（最大限の同一性（ｐｏｓｓ
ｉｂｌｙｉｄｅｎｔｉｔｙ））重みマトリクスであり、ｉｄｘ^i,i+1はベクト
ル

【００２９】

【数４】［ｙ_i（ｍ），ｙ_i+1（ｍ）］^T を表すため選定されたコードブック・インデックスを示す。

【００３０】次いで、生成されるインデックスは、４４ビットの形式で表される。これらの
４４ビットは、ビット・ストリーム・フレーム１５０の、図２における参照番号
１４１により示されるように、最初の４４スロットの中に置かれている。次のベ
クトル、即ちベクトル１３２に対して生成された対応の４４ビットは、ビット・
ストリーム・フレーム１５０の、図２における参照番号１４２により示されるよ
うに、次の４４スロットの中に置かれている。ビット・ストリーム・フレーム１
５０の残りのビットは、図２における参照番号１４６により示されるように、巡
回冗長コードの４ビットから成り、それら４ビットの値は、ビット・ストリーム
・フレーム１５０の８８個の先行ビットの全体に対して、エラー検出を既知の要
領で与えるように決定される。同様に、ベクトル１３３から与えられる４４ビッ
トは、第２のビット・ストリーム・フレーム１５５の、図２における参照番号１
４３により示されるように、最初の４４スロットの中に置かれている。また、次
のベクトル、即ちベクトル１３４に対して生成された対応の４４ビットは、ビッ
ト・ストリーム・フレーム１５５の、図２における参照番号１４４により示され
るように、次の４４スロットの中に置かれている。ビット・ストリーム・フレー
ム１５５の残りのビットは、図２における参照番号１４８により示されるように
、巡回冗長コードの４ビットから成る。この配列が、後続のベクトルに対して繰
り返される。ビット・ストリーム・フレームの前述のフォーマットにおいて２つ
のベクトルからのビット・データは、単一の組み合わされたビット・ストリーム
・フレームに配列されるが、この前述のフォーマットは、単に例示である。例え
ば、各ベクトルのデータは、代わりに、それ自身のエラー検出ビットを含む単一
のビット・ストリーム・フレームに配列されることができるであろう。同様に、
１ビット・ストリーム・フレーム当たりのスロット数は単なる例示である。前述
のベクトル圧縮技術は単なる例示であることに留意すべきである。

【００３１】いずれの混乱を避けるため、前述のビット・ストリーム・フレームは、データ
が第１の位置から第２の位置に伝送される通信システムの通信リンクを介するビ
ット・ストリーム・データの伝送に用いられる伝送フレーム、例えば、本明細書
で説明される実施形態において採用されている通信システムであるＧＳＭセルラ
無線通信システムの時分割多元接続（ＴＤＭＡ）時間フレームと混同されるべき
でないことを指摘しておく。本例においては、第１の位置は遠隔ユーザ局から成
り、そして第２の位置、即ち受信位置は、中央化された処理局から成り、その中
央化された処理局は、例えばセルラ通信システムの基地局に配置されることがで
きる。従って、本明細書で説明される実施形態においては、音声認識パラメータ
は、第１の位置と第２の位置との間で無線通信リンクを介して伝送される。しか
しながら、第１の位置及び第２の位置の性質は、想定している通信システムのタ
イプ、及びその中の分散型音声認識プロセスの構成に依存するであろう。

【００３２】ビット・ストリーム・フレームは、第２の位置で受信された後にその第２の位
置でそれらビット・ストリーム・フレームの送信フォーマットから再構成される
。こうして、分散型音声認識プロセスが上記で説明され、その分散型音声認識プ
ロセスにおいて音声認識パラメータが、サンプリング時間フレームに対応するベ
クトルに配列され、そして上記の音声認識パラメータは、第１の位置から送信さ
れて第２の位置で受信される。この実施形態に従ってそのような音声認識プロセ
スにおける伝送エラーの影響を低減する方法は、図３のプロセス・フロー・チャ
ート２００に示されている。図３を参照すると、機能ボックス２１０は、伝送エ
ラーを被った上記ベクトルの１つ又はそれより多くのベクトルを備えるグループ
を識別するステップを示す。この実施形態においては、エラー検出は、既知の巡
回冗長コード方法を用いて、１４６，１４８のような４つの巡回冗長コーディン
グ・ビットをそれぞれのビット・ストリーム・フレーム１５０，１５５と比較す
ることにより実行される。これは、この例においては、伝送エラーを被ったいず
れの単一のビット・ストリーム・フレームを識別するであろう。従って、この例
においては、識別されたグループのベクトルは、２つのベクトル、即ち、上記単
一のビット・ストリーム・フレームからの対のベクトルから成る。別の例におい
ては、エラー検出手段を有する各ビット・ストリーム・フレームが唯１つのベク
トルを含むとすれば、識別されたグループのベクトルは、単一のベクトルであろ
う。何個のベクトルがそのような識別されたグループ内にあるかを決定する正確
な形式及び技術的理由は、ベクトルがビット・ストリーム内に配列された様々な
方法、及び更にエラー検出方法がそれに加えて課された仕方に依存するであろう
ことが認められるべきである。特に、この実施形態で採用された巡回冗長コーデ
ィング以外のエラー検出方法は、識別されたグループに他の数のベクトルを与え
るであろう。また、いずれの所与のビット・ストリーム配列に対して、エラー情
報を処理する仕方の補助的設計選定がまた、識別されたグループにおけるベクト
ルの数を決定する役割を果たすことができる。例えば、この実施形態を参照して
、たとえエラー検出手段がエラーをより狭く検出することが物理的に出来たとし
ても、ビット・ストリーム・フレームのバッチがエラーを含むかどうかのみを考
慮することが、処理パワーを保存する理由のため判断されることができるであろ
う。

【００３３】音声認識パラメータは、前述のベクトル量子化手順の逆バージョンを実行する
ことによりビット・ストリーム・フレームから検索される。より詳細には、イン
デックスは、ビット・ストリームから抽出され、そしてこれらのインデックスを
用いて、ベクトルが、次の形式で再構成される。

【００３４】

【数５】

【００３５】機能ボックス２２０は、この実施形態の次のステップ、即ち以下でより詳細に
説明されるように、識別されたグループのベクトルの中の１つ又はそれより多い
音声認識パラメータを異常データと置換するステップを示す。この実施形態にお
いては、様々な処理ステップの順序は、１つ又はそれより多くの音声認識パラメ
ータを異常データと置換する前に、受信された音声認識パラメータの全てがビッ
ト・ストリーム・フレームから検索され、そして一時的に格納されるように実行
される。しかしながら、１つ又はそれより多くの音声認識パラメータは、もう一
つの選択肢として、新しく導入された置換音声認識パラメータを含む音声認識パ
ラメータをビット・ストリーム・フォーマットから実際に物理的に検索する前に
、ビット・ストリーム情報を対応する方法で変えることにより置換されることが
できるであろうことが注目される。

【００３６】当業者に周知であるように、バックエンド処理を実行するため用いられる音声
認識デコーダは典型的には、サンプリング時間フレームに対応する音声認識パラ
メータのベクトルが受信され、且つこれがそのフレームをデコーダのワード・モ
デルに対して比較するとき異常に高いコスト（ｃｏｓｔ）を与える場合、そのフ
レーム（即ちパラメータのベクトル）はデコーダにより拒絶されるように配列さ
れる。従って、典型的には、音声認識デコーダは、フレームと関連したスコア又
は確率をデフォルト値と置換するであろう。従来のバックエンド音声認識デコー
ダは一般的に、この能力を与えられて、フレームを拒絶して、雑音のバーストに
よりひどく歪まされるフレームに対処する。本発明においては、異常又は非音声
のようなフレームを拒絶するバックエンド音声認識デコーダのこの能力は、伝送
エラーの影響を緩和するため利用される。従って、このシステムは、伝送エラー
を処理するためバックエンド音声認識デコーダに適合することが不必要になり、
従ってバックエンド・コードを変える必要性を回避する利点を有する。同時に、
より能動的なエラー訂正技術を用いることにより音声認識プロセスに悪影響を及
ぼす機会が避けられる。

【００３７】前述したように、この実施形態においては、一旦ビット・ストリーム・フレー
ム１５０，１５５が伝送エラーを被ったことが識別されてしまうと、２つの関連
したベクトル１３１，１３２；１３３，１３４のいずれかにおける音声認識パラ
メータのうちの１つ又はそれより多くのものが伝送エラーを受けたことが知られ
る。この実施形態においては、識別されたグループの２つのベクトルにおける音
声認識パラメータの全てが、１組の事前計算された値により置換される。なお、
その１組の事前計算された値は、それらが自然の発話で生じるであろういずれの
ものから大きな距離離れており、従ってバックエンド・デコーダにより異常とし
て拒絶されるであろうように選択されたものである。従って、前述のように、バ
ックエンド・コーダ（バックエンド符号器）はデフォルト・スコアを代用し、そ
して誤ったデータが音声認識プロセスに影響を及ぼす機会を避ける。

【００３８】前述のベクトル量子化プロセスにおいて、ベクトル量子化器は、ケプストラム
・パラメータの対について演算処理する。このプロセスは、各ベクトル量子化器
が前述のベクトル認識プロセス中にケプストラム・パラメータのそれぞれの対に
対して復号されることができる有り得る値の範囲の境界を定める（ｂｏｕｎｄ）
。この実施形態においては、この事実を用いて、異常データを選択する。許可さ
れた範囲の外にあり且つ量子化器の重心の全てからあるスレッショルド距離より
大きく離れている、各ケプストラム・パラメータに対する代替値が決定される。
その結果、これは、これらの代替の事前計算された値を含むフレーム、即ちパラ
メータのベクトルの受け取りの際、バックエンド・デコーダは、非常に高いコス
トを登録し、そして前述のようにデフォルト・スコアを優先してこのフレームを
拒絶するであろう。

【００３９】この実施形態においては、各ビット・ストリーム・フレーム１５０，１５５は
２つのベクトルを含み、そしてエラー検出技術は、検出された伝送エラーがベク
トルの両方と関連付けされるようにする。従って、ケプストラム・パラメータに
対する計算された代替値は、そのビット・ストリーム・フレーム１５０，１５５
が伝送エラーを被ったことが決定されるとき両方のベクトルにおいて置換される
。しかしながら、前述したように、様々なエラー検出技術を用いる場合、１つの
ベクトルの中のケプストラム・パラメータを置換することのみが必要であり得て
、又は非常に多数のベクトルにおけるパラメータを置換することが必要になり得
る。

【００４０】前述の実施形態のケースにおいては、前述のデータ処理ステップは、モトロー
ラからのデバイスのＤＳＰ５６ｘｘｘ（登録商標）ファミリから選択されたデバ
イスのようなプログラム可能なディジタル信号処理デバイスにより実行される。
代替として、特定用途向け集積回路（ＡＳＩＣ）を用いることができる。他の可
能性も存在する。例えば、無線受信機と、バックエンド音声認識プロセッサの一
部を形成するコンピュータ・システムとの間をインターフェースするインターフ
ェース・ユニットを採用することができる。

【図面の簡単な説明】

【図１】図１は、本発明に従った分散型音声認識用装置の概略図である。

【図２】図２は、分散型音声認識プロセスで用いられるサンプリング時間フレームに対
応するベクトルに配列された音声認識パラメータの概略図である。

【図３】図３は、本発明の一実施形態のプロセス・フロー・チャートである。

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１４年５月２７日（２００２．５．２７）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】００１０

【補正方法】変更

【補正の内容】

【００１０】エラーの存在が検出されるとき、異なる緩和技術を採用して、エラーの影響を
、送信された情報の性質に従って低減する。他の形式の情報の送信中に生じるエ
ラーの影響を低減する技術は、分散型音声認識プロセスにおける伝送エラーの影
響を低減するのに必ずしも適応されていない。これは、パラメータが受けている
特化された音声認識技術のためであり、従って、分散型音声認識プロセスにおい
て伝送エラーの影響を緩和する手段を提供することが望ましい。公開された英国特許出願ＧＢ−Ａ−２３４３７７７の従来技術は、分散型音声
認識システムにおけるエラーの緩和に関する。その方法は、伝送エラーを被った
１つまたはそれより多いベクトルを備えるグループを識別する。一実施形態にお
いては、全体のベクトルは、置換されるベクトルに対して受け取り順序で最も近
いエラーの無い前のベクトル又はエラーの無い後続のベクトルのうちのいずれか
のコピーにより置換される。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ，ＴＲ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＭＺ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＧ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＢＺ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＤＺ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＭＺ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷＦターム(参考） 5D015 FF05 KK02 5J064 AA01 BA13 BB08 BD02 5K014 AA01 FA08

Claims

【特許請求の範囲】

【請求項１】分散型音声認識プロセスにおける伝送エラーの影響を緩和す
る方法であって、前記分散型音声認識プロセスは、音声認識パラメータが第１の
位置でのサンプリング時間フレームに対応するベクトルに配列され且つ第１の位
置から送信された音声認識パラメータが音声認識デコーダにより処理するため第
２の位置で受信される音声認識プロセスである、前記方法において、伝送エラーを被った前記ベクトルのうちの１つ又はそれより多いベクトルを含
む１つのグループを識別するステップと、前記音声認識デコーダへ送られるべきデータを処理して、前記の識別されたグ
ループにおける少なくとも１つの音声認識パラメータがバックエンド処理から除
外されることを保証するステップとを備えることを特徴とする方法。
【請求項２】前記グループの各ベクトルの全ての音声認識パラメータが、
バックエンド処理から除外される請求項１記載の方法。
【請求項３】前記音声認識デコーダに送られるべきデータを処理する前記
ステップは、前記少なくとも１つの音声認識パラメータを、前記音声認識デコー
ダにより異常として拒絶されるように選択されたデータと置換するステップを備
える請求項１又は２記載の方法。
【請求項４】前記の選択されたデータは、自然発話で生じるであろういず
れかのものと実質的に異なる値を有する１つ又はそれより多い音声認識パラメー
タを備える請求項３記載の方法。
【請求項５】前記音声認識パラメータが送信前に量子化を受け、且つ送信
後に再構成を受け、前記量子化は、前記パラメータが再構成を受け入れることができるある範囲の
あり得る値に境界を定め、前記の選択されたデータは、前記範囲外の１つ又はそれより多い値を備える請求項３又は４記載の方法。
【請求項６】各量子化器は、１対の音声認識パラメータについて演算処理
する分割型ベクトル量子化技術を用いるステップと、前記の選択されたデータを選定して、各量子化器重心から少なくとも所定の量
だけ移動されている１つ又はそれより多い値を備えるステップとを含む請求項５記載の方法。
【請求項７】前記バックエンド処理は、前記の選択された異常データを処
理するとき発生されたスコアの代わりにデフォルト値を使うステップを備える請
求項３から６のいずれか一項に記載の方法。
【請求項８】分散型音声認識プロセスにおける伝送エラーの影響を緩和す
る装置であって、前記分散型音声認識プロセスは、音声認識パラメータが第１の
位置でのサンプリング時間フレームに対応するベクトルに配列され且つ第１の位
置から送信された音声認識パラメータが音声認識デコーダにより処理するため第
２の位置で受信される音声認識プロセスである、前記装置において、伝送エラーを被った前記ベクトルのうちの１つ又はそれより多いベクトルを含
む１つのグループを識別する識別手段と、前記音声認識デコーダへ送られるべきデータを処理して、前記の識別されたグ
ループにおける少なくとも１つの音声認識パラメータがバックエンド処理から除
外されることを保証するデータ処理手段とを備えることを特徴とする装置。
【請求項９】前記データ処理手段は、前記グループの各ベクトルの全ての
音声認識パラメータをバックエンド処理から除外するよう構成されている請求項
８記載の装置。
【請求項１０】前記データ処理手段は、前記少なくとも１つの音声認識パ
ラメータを、前記音声認識デコーダにより異常として拒絶されるように選択され
たデータと置換するよう構成されている請求項８又は９記載の装置。
【請求項１１】前記の選択されたデータは、自然発話で生じるであろうい
ずれかのものと実質的に異なる値を有する１つ又はそれより多い音声認識パラメ
ータを備える請求項１０記載の装置。
【請求項１２】送信前に前記音声認識パラメータを量子化する量子化手段
と、送信後に前記音声認識パラメータを再構成する再構成手段とを含み、前記量子化は、前記パラメータが再構成を受け入れることができるある範囲の
あり得る値に境界を定め、前記の選択されたデータは、前記範囲外の１つ又はそれより多い値を備える請求項１０又は１１記載の方法。
【請求項１３】前記量子化手段は、各量子化器が１対の音声認識パラメー
タについて演算処理する分割型ベクトル量子化を実行するよう構成され、前記の選択されたデータは、各量子化器重心から少なくとも所定の量だけ移動
されている１つ又はそれより多い値を備える請求項１２記載の装置。
【請求項１４】前記のバックエンド・デコーダは、前記の選択された異常
データを処理するとき発生されたスコアの代わりにデフォルト値を使う手段を備
える請求項８から１３のいずれか一項に記載の装置。