JP2003536108A - 分散型音声認識プロセス及びシステムにおける伝送エラーの影響を緩和する方法及び装置 - Google Patents
分散型音声認識プロセス及びシステムにおける伝送エラーの影響を緩和する方法及び装置Info
- Publication number
- JP2003536108A JP2003536108A JP2002502766A JP2002502766A JP2003536108A JP 2003536108 A JP2003536108 A JP 2003536108A JP 2002502766 A JP2002502766 A JP 2002502766A JP 2002502766 A JP2002502766 A JP 2002502766A JP 2003536108 A JP2003536108 A JP 2003536108A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- processing
- data
- parameters
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 230000005540 biological transmission Effects 0.000 title claims abstract description 47
- 230000000694 effects Effects 0.000 title claims abstract description 23
- 230000000116 mitigating effect Effects 0.000 title claims description 11
- 238000012545 processing Methods 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims description 72
- 238000005070 sampling Methods 0.000 claims description 25
- 238000013139 quantization Methods 0.000 claims description 8
- 230000002547 anomalous effect Effects 0.000 claims description 5
- 230000005484 gravity Effects 0.000 claims 2
- 230000002269 spontaneous effect Effects 0.000 claims 2
- 230000007717 exclusion Effects 0.000 claims 1
- 230000002159 abnormal effect Effects 0.000 abstract description 6
- 238000004891 communication Methods 0.000 description 23
- 238000001514 detection method Methods 0.000 description 11
- 125000004122 cyclic group Chemical group 0.000 description 6
- 238000012937 correction Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000010267 cellular communication Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 101100219325 Phaseolus vulgaris BA13 gene Proteins 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Exchange Systems With Centralized Control (AREA)
- Radio Relay Systems (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
- Time-Division Multiplex Systems (AREA)
- Communication Control (AREA)
Abstract
Description
に関する。本発明はまた、分散型音声認識システムにおいて伝送エラーの影響を
緩和する装置に関する。本発明は、音声認識パラメータが無線通信リンクを介し
て送信されるとき音声認識パラメータに影響を与える伝送エラーの影響を緩和す
るのに適しているが、それに限定されるものではない。
ロセスである。そのようなプロセスは、人と機械の間のインターフェースとして
、スイッチ、キーボード、マウス等々のようなより共通に使用のツールを用いる
ことに加えて、又はその代わりに、用いられることができる。また、音声認識プ
ロセスを用いて、情報を、ある話された通信又はメッセージから自動的に検索す
ることができる。
つある。ある方法は発見的戦略を用いた拡張された知識に基づいており、他のも
のは統計モデルを採用している。
時間フレームの過程で、ある一定回数サンプリングされる。典型的なプロセスに
おいては、音声は、8−20KHzの範囲でのあるレート(速度)でサンプリン
グされ得て、そして1秒当たり50から100サンプリング・フレームのオーダ
であり得る。サンプリングされた値は、アルゴリズムを用いて処理されて、音声
認識パラメータを与える。例えば、1つのタイプの音声認識パラメータは、メル
・ケプストラム係数(mel cepstral coefficient)と
して知られている係数から成る。そのような音声認識パラメータは、ベクトルの
形式で配列され(これはまたアレイとして知られている。)、それは、ある程度
の順序で配列されたパラメータの複数のグループ又は複数の組と考えることがで
きる。サンプリング・プロセスは、更なるサンプリング・時間フレームに対して
繰り返される。典型的なフォーマットは、各サンプリング時間フレームの間に生
成される1つのベクトルのためである。
に置くことは、音声認識プロセスのフロントエンド演算(front−end
operation)と呼ぶことができるものを構成する。次いで、ベクトルに
配列された前述の音声認識パラメータは、音声認識プロセスのバックエンド演算
(back−end operation)と呼ぶことができる演算の音声認識
技術に従って分析される。フロントエンド・プロセス及びバックエンド・プロセ
スが同じ位置で又は同じ装置で実行される音声認識プロセスにおいては、フロン
トエンドからバックエンドへ通される際に、音声認識パラメータに導入されるエ
ラーの尤度は最小である。
、音声認識プロセスのフロントエンド部分は、バックエンド部分から遠く離れて
実行される。音声が、サンプリングされ、そしてパラメータ化され、そして音声
認識パラメータが、ベクトルに第1の位置で配列される。音声認識パラメータは
、量子化され、次いで、例えば、確立された通信システムの通信リンクを介して
第2の位置に送信される。多くの場合、第1の位置は、遠隔の端末であろうし、
そして第2の位置は、中央処理ステーションであろう。次いで、受信された音声
認識パラメータは、音声認識技術に従って第2の位置で分析される。
声認識プロセスにおける使用のためと考えることができる。一例は、従来の無線
通信システム、例えば公衆交換電話ネットワークである。別の例は、無線通信シ
ステム、例えばTETRAである。別の例は、セルラ無線通信システムである。
適用可能なセルラ通信システムの一例は、移動通信システム用グローバル(GS
M)システムであり、そして別の例は、現在標準化中である汎用移動通信システ
ム(UMTS)のようなシステムである。
が第1の位置から第2の位置へ通信リンクを介して送信されるときエラーがその
音声認識パラメータに導入されるであろう可能性を起こす。
与の部分にエラーが存在することは検出可能であることは知られている。1つの
周知の技術は、巡回冗長コーディングである。
、送信された情報の性質に従って低減する。他の形式の情報の送信中に生じるエ
ラーの影響を低減する技術は、分散型音声認識プロセスにおける伝送エラーの影
響を低減するのに必ずしも適応されていない。これは、パラメータが受けている
特化された音声認識技術のためであり、従って、分散型音声認識プロセスにおい
て伝送エラーの影響を緩和する手段を提供することが望ましい。
を提供する。 本発明の一局面に従って、請求項1に記載されるように、分散型音声認識シス
テムにおいて伝送エラーの影響を緩和する方法が提供される。 本発明の別の局面に従って、請求項8に記載されるように、分散型音声認識シ
ステムにおいて伝送エラーの影響を緩和する装置が提供される。
ラーを被ったと識別された少なくとも1つの音声認識パラメータを、音声認識デ
コーダにより異常として拒絶されるように選択されたデータと置換することによ
り処理される。 そのような実施形態は、バックエンド・コードを変える必要性を回避しながら
、音声認識バックエンド・デコーダの動作に依拠する伝送エラーの影響を緩和す
る手段を提供する。 分散型音声認識プロセスにおいて伝送エラーの影響を低減する代替技術は、受
信されたパラメータの中のエラーを検出し、そしてエラーが検出されたとき音声
認識バックエンド・デコーダに信号で知らせるようにする。しかしながら、これ
は、そのような信号に基づいて動作するよう適合されるべきバックエンドを必要
とするであろう。実際に、これは、バックエンド・コードを変える必要性をもた
らすであろう。
加の特別な利点は、以下の記載及び図面から明らかである。
示す。その装置は一般的に、図2を特に参照して以下により詳細に説明されるよ
うにサンプリングされた音声信号に基づいて音声認識パラメータを発生するフロ
ントエンド処理手段1を備える。フロントエンド処理手段1の出力は送信手段2
に接続されている。なお、その送信手段2は、音声認識パラメータについて演算
処理し、且つそのパラメータを他の必要な情報と一緒に通信リンクを介して遠隔
の位置に送信するよう構成されている。本出願の導入部において述べたように、
多くのタイプの通信リンクを用いることができるが、しかし本発明は移動通信シ
ステムに用いられるであろうことを特に想定している。
受信される。なお、その受信手段3は、送信されたデータを伝送エラー検出手段
4に伝達するよう構成され、その伝送エラー検出手段4は、それらが通信ネット
ワークを通る際に伝送エラーを被ったいずれの音声認識パラメータを識別するよ
う構成されている。伝送エラー検出手段4はデータ処理手段5に接続され、その
データ処理手段5は、いずれの音声認識パラメータと関連したデータを、伝送エ
ラーを被ったと識別されたいずれの音声認識パラメータと置換するよう構成され
ている。データ処理手段5は、バックエンド処理手段6に接続される。なお、そ
のバックエンド処理手段6は、受信された音声認識パラメータについて演算処理
して、分散型音声認識プロセスを完了するよう構成されているデコーダを備える
。
ラメータは、図2に概略的に示されるようにサンプリング時間フレームに対応す
るベクトルに配列されている。
0は、実際にはそれが非常に一層複雑な一連のサンプル値から成るので、非常に
単純化された形式で示されている。
121、第2のサンプリング時間フレーム122、第3のサンプリング時間フレ
ーム123及び第4のサンプリング時間フレーム124が示されているが、その
サンプリング時間フレームは、図2に示されるように、音声信号に課される。以
下で説明される実施形態においては、1秒当たり100個のサンプリング時間フ
レームが存在する。音声信号は、各サンプリング時間フレームの過程で繰返しサ
ンプリングされる。
識パラメータの全部が採用されている音声認識プロセスである。これらのパラメ
ータの最初の12個は、その最初の12個の静的メル・ケプストラム係数、即ち
次式のとおりである。
3番目の音声認識パラメータは、ゼロ番目のケプストラム係数、即ち、c0(m
)である。用いられた14番目の音声認識パラメータは、対数エネルギ項、即ち
log[E(m)]である。音声認識プロセスにおけるこれらの係数及びそれら
の使用の詳細は、当該技術において周知であり、そこで、ここでは更なる説明を
必要としない。更に、本発明は、音声認識パラメータを形成するケプストラム係
数の他の組み合わせを用いて、更にまたケプストラム係数以外の音声認識パラメ
ータの他の選定又はスキームを用いて、実行されることができる。
に示されるように、対応するベクトル(これはまたアレイとして知られている。
)に配列され、又はフォーマットされる。ベクトル131はサンプリング時間フ
レーム121に対応し、ベクトル132はサンプリング時間フレーム122に対
応し、ベクトル133はサンプリング時間フレーム123に対応し、ベクトル1
34はサンプリング時間フレーム124に対応する。1つのそのようなベクトル
は一般的に次式のように表される。
る。以下に説明される実施形態において、これは次のように実行される。ベクト
ル131からのパラメータが量子化される。これは、ベクトルを分割型ベクトル
量子化器(split vector quantizer)を用いて直接量子
化することにより実行される。係数は対になるようグループ化され、そして各対
は、そのそれぞれの対に対して予め決定されたベクトル量子化(VQ)コードブ
ックを用いて量子化される。次いで、その結果生じたインデックス値のセットを
用いて、音声フレームを表す。フロントエンド・パラメータによる係数を対にし
たものが、各対に対して用いられたコードブックの大きさと一緒に表1に示され
ている。
distance)を用いて見つけられて、インデックスを決定する。即ち、
codevector)を示し、Ni,i+1はコードブックの大きさであり、Wi,i +1 はコードブックQi,i+1に対して適用されるべき(最大限の同一性(poss
ibly identity))重みマトリクスであり、idxi,i+1はベクト
ル
44ビットは、ビット・ストリーム・フレーム150の、図2における参照番号
141により示されるように、最初の44スロットの中に置かれている。次のベ
クトル、即ちベクトル132に対して生成された対応の44ビットは、ビット・
ストリーム・フレーム150の、図2における参照番号142により示されるよ
うに、次の44スロットの中に置かれている。ビット・ストリーム・フレーム1
50の残りのビットは、図2における参照番号146により示されるように、巡
回冗長コードの4ビットから成り、それら4ビットの値は、ビット・ストリーム
・フレーム150の88個の先行ビットの全体に対して、エラー検出を既知の要
領で与えるように決定される。同様に、ベクトル133から与えられる44ビッ
トは、第2のビット・ストリーム・フレーム155の、図2における参照番号1
43により示されるように、最初の44スロットの中に置かれている。また、次
のベクトル、即ちベクトル134に対して生成された対応の44ビットは、ビッ
ト・ストリーム・フレーム155の、図2における参照番号144により示され
るように、次の44スロットの中に置かれている。ビット・ストリーム・フレー
ム155の残りのビットは、図2における参照番号148により示されるように
、巡回冗長コードの4ビットから成る。この配列が、後続のベクトルに対して繰
り返される。ビット・ストリーム・フレームの前述のフォーマットにおいて2つ
のベクトルからのビット・データは、単一の組み合わされたビット・ストリーム
・フレームに配列されるが、この前述のフォーマットは、単に例示である。例え
ば、各ベクトルのデータは、代わりに、それ自身のエラー検出ビットを含む単一
のビット・ストリーム・フレームに配列されることができるであろう。同様に、
1ビット・ストリーム・フレーム当たりのスロット数は単なる例示である。前述
のベクトル圧縮技術は単なる例示であることに留意すべきである。
が第1の位置から第2の位置に伝送される通信システムの通信リンクを介するビ
ット・ストリーム・データの伝送に用いられる伝送フレーム、例えば、本明細書
で説明される実施形態において採用されている通信システムであるGSMセルラ
無線通信システムの時分割多元接続(TDMA)時間フレームと混同されるべき
でないことを指摘しておく。本例においては、第1の位置は遠隔ユーザ局から成
り、そして第2の位置、即ち受信位置は、中央化された処理局から成り、その中
央化された処理局は、例えばセルラ通信システムの基地局に配置されることがで
きる。従って、本明細書で説明される実施形態においては、音声認識パラメータ
は、第1の位置と第2の位置との間で無線通信リンクを介して伝送される。しか
しながら、第1の位置及び第2の位置の性質は、想定している通信システムのタ
イプ、及びその中の分散型音声認識プロセスの構成に依存するであろう。
置でそれらビット・ストリーム・フレームの送信フォーマットから再構成される
。 こうして、分散型音声認識プロセスが上記で説明され、その分散型音声認識プ
ロセスにおいて音声認識パラメータが、サンプリング時間フレームに対応するベ
クトルに配列され、そして上記の音声認識パラメータは、第1の位置から送信さ
れて第2の位置で受信される。この実施形態に従ってそのような音声認識プロセ
スにおける伝送エラーの影響を低減する方法は、図3のプロセス・フロー・チャ
ート200に示されている。図3を参照すると、機能ボックス210は、伝送エ
ラーを被った上記ベクトルの1つ又はそれより多くのベクトルを備えるグループ
を識別するステップを示す。この実施形態においては、エラー検出は、既知の巡
回冗長コード方法を用いて、146,148のような4つの巡回冗長コーディン
グ・ビットをそれぞれのビット・ストリーム・フレーム150,155と比較す
ることにより実行される。これは、この例においては、伝送エラーを被ったいず
れの単一のビット・ストリーム・フレームを識別するであろう。従って、この例
においては、識別されたグループのベクトルは、2つのベクトル、即ち、上記単
一のビット・ストリーム・フレームからの対のベクトルから成る。別の例におい
ては、エラー検出手段を有する各ビット・ストリーム・フレームが唯1つのベク
トルを含むとすれば、識別されたグループのベクトルは、単一のベクトルであろ
う。何個のベクトルがそのような識別されたグループ内にあるかを決定する正確
な形式及び技術的理由は、ベクトルがビット・ストリーム内に配列された様々な
方法、及び更にエラー検出方法がそれに加えて課された仕方に依存するであろう
ことが認められるべきである。特に、この実施形態で採用された巡回冗長コーデ
ィング以外のエラー検出方法は、識別されたグループに他の数のベクトルを与え
るであろう。また、いずれの所与のビット・ストリーム配列に対して、エラー情
報を処理する仕方の補助的設計選定がまた、識別されたグループにおけるベクト
ルの数を決定する役割を果たすことができる。例えば、この実施形態を参照して
、たとえエラー検出手段がエラーをより狭く検出することが物理的に出来たとし
ても、ビット・ストリーム・フレームのバッチがエラーを含むかどうかのみを考
慮することが、処理パワーを保存する理由のため判断されることができるであろ
う。
ことによりビット・ストリーム・フレームから検索される。より詳細には、イン
デックスは、ビット・ストリームから抽出され、そしてこれらのインデックスを
用いて、ベクトルが、次の形式で再構成される。
説明されるように、識別されたグループのベクトルの中の1つ又はそれより多い
音声認識パラメータを異常データと置換するステップを示す。この実施形態にお
いては、様々な処理ステップの順序は、1つ又はそれより多くの音声認識パラメ
ータを異常データと置換する前に、受信された音声認識パラメータの全てがビッ
ト・ストリーム・フレームから検索され、そして一時的に格納されるように実行
される。しかしながら、1つ又はそれより多くの音声認識パラメータは、もう一
つの選択肢として、新しく導入された置換音声認識パラメータを含む音声認識パ
ラメータをビット・ストリーム・フォーマットから実際に物理的に検索する前に
、ビット・ストリーム情報を対応する方法で変えることにより置換されることが
できるであろうことが注目される。
認識デコーダは典型的には、サンプリング時間フレームに対応する音声認識パラ
メータのベクトルが受信され、且つこれがそのフレームをデコーダのワード・モ
デルに対して比較するとき異常に高いコスト(cost)を与える場合、そのフ
レーム(即ちパラメータのベクトル)はデコーダにより拒絶されるように配列さ
れる。従って、典型的には、音声認識デコーダは、フレームと関連したスコア又
は確率をデフォルト値と置換するであろう。従来のバックエンド音声認識デコー
ダは一般的に、この能力を与えられて、フレームを拒絶して、雑音のバーストに
よりひどく歪まされるフレームに対処する。本発明においては、異常又は非音声
のようなフレームを拒絶するバックエンド音声認識デコーダのこの能力は、伝送
エラーの影響を緩和するため利用される。従って、このシステムは、伝送エラー
を処理するためバックエンド音声認識デコーダに適合することが不必要になり、
従ってバックエンド・コードを変える必要性を回避する利点を有する。同時に、
より能動的なエラー訂正技術を用いることにより音声認識プロセスに悪影響を及
ぼす機会が避けられる。
ム150,155が伝送エラーを被ったことが識別されてしまうと、2つの関連
したベクトル131,132;133,134のいずれかにおける音声認識パラ
メータのうちの1つ又はそれより多くのものが伝送エラーを受けたことが知られ
る。この実施形態においては、識別されたグループの2つのベクトルにおける音
声認識パラメータの全てが、1組の事前計算された値により置換される。なお、
その1組の事前計算された値は、それらが自然の発話で生じるであろういずれの
ものから大きな距離離れており、従ってバックエンド・デコーダにより異常とし
て拒絶されるであろうように選択されたものである。従って、前述のように、バ
ックエンド・コーダ(バックエンド符号器)はデフォルト・スコアを代用し、そ
して誤ったデータが音声認識プロセスに影響を及ぼす機会を避ける。
・パラメータの対について演算処理する。このプロセスは、各ベクトル量子化器
が前述のベクトル認識プロセス中にケプストラム・パラメータのそれぞれの対に
対して復号されることができる有り得る値の範囲の境界を定める(bound)
。この実施形態においては、この事実を用いて、異常データを選択する。許可さ
れた範囲の外にあり且つ量子化器の重心の全てからあるスレッショルド距離より
大きく離れている、各ケプストラム・パラメータに対する代替値が決定される。
その結果、これは、これらの代替の事前計算された値を含むフレーム、即ちパラ
メータのベクトルの受け取りの際、バックエンド・デコーダは、非常に高いコス
トを登録し、そして前述のようにデフォルト・スコアを優先してこのフレームを
拒絶するであろう。
2つのベクトルを含み、そしてエラー検出技術は、検出された伝送エラーがベク
トルの両方と関連付けされるようにする。従って、ケプストラム・パラメータに
対する計算された代替値は、そのビット・ストリーム・フレーム150,155
が伝送エラーを被ったことが決定されるとき両方のベクトルにおいて置換される
。しかしながら、前述したように、様々なエラー検出技術を用いる場合、1つの
ベクトルの中のケプストラム・パラメータを置換することのみが必要であり得て
、又は非常に多数のベクトルにおけるパラメータを置換することが必要になり得
る。
ラからのデバイスのDSP56xxx(登録商標)ファミリから選択されたデバ
イスのようなプログラム可能なディジタル信号処理デバイスにより実行される。
代替として、特定用途向け集積回路(ASIC)を用いることができる。他の可
能性も存在する。例えば、無線受信機と、バックエンド音声認識プロセッサの一
部を形成するコンピュータ・システムとの間をインターフェースするインターフ
ェース・ユニットを採用することができる。
応するベクトルに配列された音声認識パラメータの概略図である。
、送信された情報の性質に従って低減する。他の形式の情報の送信中に生じるエ
ラーの影響を低減する技術は、分散型音声認識プロセスにおける伝送エラーの影
響を低減するのに必ずしも適応されていない。これは、パラメータが受けている
特化された音声認識技術のためであり、従って、分散型音声認識プロセスにおい
て伝送エラーの影響を緩和する手段を提供することが望ましい。 公開された英国特許出願GB−A−2343777の従来技術は、分散型音声
認識システムにおけるエラーの緩和に関する。その方法は、伝送エラーを被った
1つまたはそれより多いベクトルを備えるグループを識別する。一実施形態にお
いては、全体のベクトルは、置換されるベクトルに対して受け取り順序で最も近
いエラーの無い前のベクトル又はエラーの無い後続のベクトルのうちのいずれか
のコピーにより置換される。
Claims (14)
- 【請求項1】 分散型音声認識プロセスにおける伝送エラーの影響を緩和す
る方法であって、前記分散型音声認識プロセスは、音声認識パラメータが第1の
位置でのサンプリング時間フレームに対応するベクトルに配列され且つ第1の位
置から送信された音声認識パラメータが音声認識デコーダにより処理するため第
2の位置で受信される音声認識プロセスである、前記方法において、 伝送エラーを被った前記ベクトルのうちの1つ又はそれより多いベクトルを含
む1つのグループを識別するステップと、 前記音声認識デコーダへ送られるべきデータを処理して、前記の識別されたグ
ループにおける少なくとも1つの音声認識パラメータがバックエンド処理から除
外されることを保証するステップと を備えることを特徴とする方法。 - 【請求項2】 前記グループの各ベクトルの全ての音声認識パラメータが、
バックエンド処理から除外される請求項1記載の方法。 - 【請求項3】 前記音声認識デコーダに送られるべきデータを処理する前記
ステップは、前記少なくとも1つの音声認識パラメータを、前記音声認識デコー
ダにより異常として拒絶されるように選択されたデータと置換するステップを備
える請求項1又は2記載の方法。 - 【請求項4】 前記の選択されたデータは、自然発話で生じるであろういず
れかのものと実質的に異なる値を有する1つ又はそれより多い音声認識パラメー
タを備える請求項3記載の方法。 - 【請求項5】 前記音声認識パラメータが送信前に量子化を受け、且つ送信
後に再構成を受け、 前記量子化は、前記パラメータが再構成を受け入れることができるある範囲の
あり得る値に境界を定め、 前記の選択されたデータは、前記範囲外の1つ又はそれより多い値を備える 請求項3又は4記載の方法。 - 【請求項6】 各量子化器は、1対の音声認識パラメータについて演算処理
する分割型ベクトル量子化技術を用いるステップと、 前記の選択されたデータを選定して、各量子化器重心から少なくとも所定の量
だけ移動されている1つ又はそれより多い値を備えるステップと を含む請求項5記載の方法。 - 【請求項7】 前記バックエンド処理は、前記の選択された異常データを処
理するとき発生されたスコアの代わりにデフォルト値を使うステップを備える請
求項3から6のいずれか一項に記載の方法。 - 【請求項8】 分散型音声認識プロセスにおける伝送エラーの影響を緩和す
る装置であって、前記分散型音声認識プロセスは、音声認識パラメータが第1の
位置でのサンプリング時間フレームに対応するベクトルに配列され且つ第1の位
置から送信された音声認識パラメータが音声認識デコーダにより処理するため第
2の位置で受信される音声認識プロセスである、前記装置において、 伝送エラーを被った前記ベクトルのうちの1つ又はそれより多いベクトルを含
む1つのグループを識別する識別手段と、 前記音声認識デコーダへ送られるべきデータを処理して、前記の識別されたグ
ループにおける少なくとも1つの音声認識パラメータがバックエンド処理から除
外されることを保証するデータ処理手段と を備えることを特徴とする装置。 - 【請求項9】 前記データ処理手段は、前記グループの各ベクトルの全ての
音声認識パラメータをバックエンド処理から除外するよう構成されている請求項
8記載の装置。 - 【請求項10】 前記データ処理手段は、前記少なくとも1つの音声認識パ
ラメータを、前記音声認識デコーダにより異常として拒絶されるように選択され
たデータと置換するよう構成されている請求項8又は9記載の装置。 - 【請求項11】 前記の選択されたデータは、自然発話で生じるであろうい
ずれかのものと実質的に異なる値を有する1つ又はそれより多い音声認識パラメ
ータを備える請求項10記載の装置。 - 【請求項12】 送信前に前記音声認識パラメータを量子化する量子化手段
と、送信後に前記音声認識パラメータを再構成する再構成手段とを含み、 前記量子化は、前記パラメータが再構成を受け入れることができるある範囲の
あり得る値に境界を定め、 前記の選択されたデータは、前記範囲外の1つ又はそれより多い値を備える 請求項10又は11記載の方法。 - 【請求項13】 前記量子化手段は、各量子化器が1対の音声認識パラメー
タについて演算処理する分割型ベクトル量子化を実行するよう構成され、 前記の選択されたデータは、各量子化器重心から少なくとも所定の量だけ移動
されている1つ又はそれより多い値を備える 請求項12記載の装置。 - 【請求項14】 前記のバックエンド・デコーダは、前記の選択された異常
データを処理するとき発生されたスコアの代わりにデフォルト値を使う手段を備
える請求項8から13のいずれか一項に記載の装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0013528A GB2363236B (en) | 2000-06-05 | 2000-06-05 | Method and apparatus for mitigating the effect of transmission errors in a distributed speech recognition process and system |
GB0013528.5 | 2000-06-05 | ||
PCT/EP2001/006366 WO2001095311A1 (en) | 2000-06-05 | 2001-06-05 | Method and apparatus for mitigating the effect of transmission errors in a distributed speech recognition process and system |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003536108A true JP2003536108A (ja) | 2003-12-02 |
JP2003536108A5 JP2003536108A5 (ja) | 2008-07-24 |
JP5122716B2 JP5122716B2 (ja) | 2013-01-16 |
Family
ID=9892926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002502766A Expired - Lifetime JP5122716B2 (ja) | 2000-06-05 | 2001-06-05 | 分散型音声認識プロセス及びシステムにおける伝送エラーの影響を緩和する方法及び装置 |
Country Status (13)
Country | Link |
---|---|
US (1) | US7243066B2 (ja) |
EP (1) | EP1292942B1 (ja) |
JP (1) | JP5122716B2 (ja) |
CN (1) | CN1437745A (ja) |
AT (1) | ATE336778T1 (ja) |
AU (2) | AU2001283839B2 (ja) |
CA (1) | CA2407791C (ja) |
DE (1) | DE60122327T2 (ja) |
EA (1) | EA004378B1 (ja) |
ES (1) | ES2269443T3 (ja) |
GB (1) | GB2363236B (ja) |
WO (1) | WO2001095311A1 (ja) |
ZA (1) | ZA200208371B (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6941265B2 (en) * | 2001-12-14 | 2005-09-06 | Qualcomm Inc | Voice recognition system method and apparatus |
US9082408B2 (en) | 2011-06-13 | 2015-07-14 | Mmodal Ip Llc | Speech recognition using loosely coupled components |
US10446141B2 (en) * | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
CN106847280B (zh) * | 2017-02-23 | 2020-09-15 | 海信集团有限公司 | 音频信息处理方法、智能终端及语音控制终端 |
US10923128B2 (en) * | 2018-08-29 | 2021-02-16 | Cirrus Logic, Inc. | Speech recognition |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63223796A (ja) * | 1987-03-13 | 1988-09-19 | 松下電器産業株式会社 | 音声認識方法 |
JPS63226692A (ja) * | 1986-10-03 | 1988-09-21 | 株式会社リコー | パターン比較方式 |
JPH0968994A (ja) * | 1995-06-19 | 1997-03-11 | Nippon Telegr & Teleph Corp <Ntt> | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 |
WO2000030072A1 (en) * | 1998-11-13 | 2000-05-25 | Motorola Limited | Mitigating errors in a distributed speech recognition process |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6633839B2 (en) * | 2001-02-02 | 2003-10-14 | Motorola, Inc. | Method and apparatus for speech reconstruction in a distributed speech recognition system |
-
2000
- 2000-06-05 GB GB0013528A patent/GB2363236B/en not_active Expired - Lifetime
-
2001
- 2001-06-05 JP JP2002502766A patent/JP5122716B2/ja not_active Expired - Lifetime
- 2001-06-05 WO PCT/EP2001/006366 patent/WO2001095311A1/en active IP Right Grant
- 2001-06-05 EA EA200201298A patent/EA004378B1/ru not_active IP Right Cessation
- 2001-06-05 CN CN01809628A patent/CN1437745A/zh active Pending
- 2001-06-05 EP EP01962710A patent/EP1292942B1/en not_active Expired - Lifetime
- 2001-06-05 ES ES01962710T patent/ES2269443T3/es not_active Expired - Lifetime
- 2001-06-05 AU AU2001283839A patent/AU2001283839B2/en not_active Expired
- 2001-06-05 DE DE60122327T patent/DE60122327T2/de not_active Expired - Lifetime
- 2001-06-05 CA CA2407791A patent/CA2407791C/en not_active Expired - Lifetime
- 2001-06-05 US US10/297,162 patent/US7243066B2/en not_active Expired - Lifetime
- 2001-06-05 AT AT01962710T patent/ATE336778T1/de not_active IP Right Cessation
- 2001-06-05 AU AU8383901A patent/AU8383901A/xx active Pending
-
2002
- 2002-10-17 ZA ZA200208371A patent/ZA200208371B/en unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63226692A (ja) * | 1986-10-03 | 1988-09-21 | 株式会社リコー | パターン比較方式 |
JPS63223796A (ja) * | 1987-03-13 | 1988-09-19 | 松下電器産業株式会社 | 音声認識方法 |
JPH0968994A (ja) * | 1995-06-19 | 1997-03-11 | Nippon Telegr & Teleph Corp <Ntt> | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 |
WO2000030072A1 (en) * | 1998-11-13 | 2000-05-25 | Motorola Limited | Mitigating errors in a distributed speech recognition process |
Also Published As
Publication number | Publication date |
---|---|
US20040039569A1 (en) | 2004-02-26 |
US7243066B2 (en) | 2007-07-10 |
CN1437745A (zh) | 2003-08-20 |
DE60122327D1 (de) | 2006-09-28 |
AU8383901A (en) | 2001-12-17 |
AU2001283839B2 (en) | 2006-03-16 |
GB2363236B (en) | 2002-06-12 |
JP5122716B2 (ja) | 2013-01-16 |
ZA200208371B (en) | 2004-01-26 |
CA2407791C (en) | 2011-01-18 |
GB2363236A (en) | 2001-12-12 |
DE60122327T2 (de) | 2007-09-13 |
EA004378B1 (ru) | 2004-04-29 |
EP1292942A1 (en) | 2003-03-19 |
WO2001095311A1 (en) | 2001-12-13 |
ATE336778T1 (de) | 2006-09-15 |
EA200201298A1 (ru) | 2003-04-24 |
GB0013528D0 (en) | 2000-07-26 |
EP1292942B1 (en) | 2006-08-16 |
ES2269443T3 (es) | 2007-04-01 |
CA2407791A1 (en) | 2001-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010160507A (ja) | 分散音声認識プロセスにおけるエラーの軽減方法および装置 | |
US6968309B1 (en) | Method and system for speech frame error concealment in speech decoding | |
KR100594670B1 (ko) | 자동 음성 인식 시스템 및 방법과, 자동 화자 인식 시스템 | |
JP4218134B2 (ja) | 復号装置及び方法、並びにプログラム提供媒体 | |
US20040083110A1 (en) | Packet loss recovery based on music signal classification and mixing | |
AU6403298A (en) | Speech coding | |
JP2002536692A (ja) | 分散された音声認識システム | |
JP2000357999A5 (ja) | ||
JPH11259100A (ja) | 励起ベクトルの符号化方法 | |
JP4531261B2 (ja) | 分散音声認識プロセスにおける受信データの処理方法および装置 | |
US6539349B1 (en) | Constraining pulse positions in CELP vocoding | |
JP2003536108A (ja) | 分散型音声認識プロセス及びシステムにおける伝送エラーの影響を緩和する方法及び装置 | |
AU2001283839A1 (en) | Method and apparatus for mitigating the effect of transmission errors in a distributed speech recognition process and system | |
EP0913034A2 (en) | Enhanced encoding of dtmf and other signalling tones | |
US6385574B1 (en) | Reusing invalid pulse positions in CELP vocoding | |
JP3091828B2 (ja) | ベクトル量子化装置 | |
JP3700310B2 (ja) | ベクトル量子化装置及びベクトル量子化方法 | |
CA3170065A1 (en) | Method and device for speech/music classification and core encoder selection in a sound codec | |
Balss et al. | Robust vector quantization for low bit rate speech coding. | |
JPH07334195A (ja) | サブフレーム長可変音声符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080604 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080604 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110524 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110526 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20110531 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110812 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110826 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110826 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110906 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111215 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120315 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120319 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120323 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120615 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120828 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120831 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120926 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121025 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151102 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5122716 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |