JP2003536108A - 分散型音声認識プロセス及びシステムにおける伝送エラーの影響を緩和する方法及び装置 - Google Patents

分散型音声認識プロセス及びシステムにおける伝送エラーの影響を緩和する方法及び装置

Info

Publication number
JP2003536108A
JP2003536108A JP2002502766A JP2002502766A JP2003536108A JP 2003536108 A JP2003536108 A JP 2003536108A JP 2002502766 A JP2002502766 A JP 2002502766A JP 2002502766 A JP2002502766 A JP 2002502766A JP 2003536108 A JP2003536108 A JP 2003536108A
Authority
JP
Japan
Prior art keywords
speech recognition
processing
data
parameters
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002502766A
Other languages
English (en)
Other versions
JP5122716B2 (ja
JP2003536108A5 (ja
Inventor
ピアース,デーヴィッド・ジョン・ベンジャミン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of JP2003536108A publication Critical patent/JP2003536108A/ja
Publication of JP2003536108A5 publication Critical patent/JP2003536108A5/ja
Application granted granted Critical
Publication of JP5122716B2 publication Critical patent/JP5122716B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Exchange Systems With Centralized Control (AREA)
  • Radio Relay Systems (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Communication Control (AREA)

Abstract

(57)【要約】 分散型音声認識のための方法及び装置は、伝送エラーの影響を緩和するよう働く。本方法は、伝送エラーを受けた音声認識パラメータを識別するステップと、音声認識デコーダへ送られるべきデータを処理して、そのようなエラーを被ったいずれの音声認識パラメータがバックエンド処理から除外されることを保証するステップとを備える。伝送エラーを被った音声認識パラメータは、それらのパラメータを、音声認識デコーダにより異常及び/又は音声のようで無いとして拒絶されるように選択されるデータと置換することにより、バックエンド処理から除外される。

Description

【発明の詳細な説明】
【0001】 [発明の分野] 本発明は、分散型音声認識システムにおいて伝送エラーの影響を緩和する方法
に関する。本発明はまた、分散型音声認識システムにおいて伝送エラーの影響を
緩和する装置に関する。本発明は、音声認識パラメータが無線通信リンクを介し
て送信されるとき音声認識パラメータに影響を与える伝送エラーの影響を緩和す
るのに適しているが、それに限定されるものではない。
【0002】 [発明の背景] 音声認識は、発話からの音、単語の部分、単語、又は句を自動的に認識するプ
ロセスである。そのようなプロセスは、人と機械の間のインターフェースとして
、スイッチ、キーボード、マウス等々のようなより共通に使用のツールを用いる
ことに加えて、又はその代わりに、用いられることができる。また、音声認識プ
ロセスを用いて、情報を、ある話された通信又はメッセージから自動的に検索す
ることができる。
【0003】 自働音声認識のための様々な方法が発展してきており、そして依然改良されつ
つある。ある方法は発見的戦略を用いた拡張された知識に基づいており、他のも
のは統計モデルを採用している。
【0004】 典型的な音声認識プロセスにおいては、処理されるべき音声は、サンプリング
時間フレームの過程で、ある一定回数サンプリングされる。典型的なプロセスに
おいては、音声は、8−20KHzの範囲でのあるレート(速度)でサンプリン
グされ得て、そして1秒当たり50から100サンプリング・フレームのオーダ
であり得る。サンプリングされた値は、アルゴリズムを用いて処理されて、音声
認識パラメータを与える。例えば、1つのタイプの音声認識パラメータは、メル
・ケプストラム係数(mel cepstral coefficient)と
して知られている係数から成る。そのような音声認識パラメータは、ベクトルの
形式で配列され(これはまたアレイとして知られている。)、それは、ある程度
の順序で配列されたパラメータの複数のグループ又は複数の組と考えることがで
きる。サンプリング・プロセスは、更なるサンプリング・時間フレームに対して
繰り返される。典型的なフォーマットは、各サンプリング時間フレームの間に生
成される1つのベクトルのためである。
【0005】 上記のパラメータ化(parameterisation)及びベクトル形式
に置くことは、音声認識プロセスのフロントエンド演算(front−end
operation)と呼ぶことができるものを構成する。次いで、ベクトルに
配列された前述の音声認識パラメータは、音声認識プロセスのバックエンド演算
(back−end operation)と呼ぶことができる演算の音声認識
技術に従って分析される。フロントエンド・プロセス及びバックエンド・プロセ
スが同じ位置で又は同じ装置で実行される音声認識プロセスにおいては、フロン
トエンドからバックエンドへ通される際に、音声認識パラメータに導入されるエ
ラーの尤度は最小である。
【0006】 しかしながら、分散型音声認識プロセスとして知られているプロセスにおいて
、音声認識プロセスのフロントエンド部分は、バックエンド部分から遠く離れて
実行される。音声が、サンプリングされ、そしてパラメータ化され、そして音声
認識パラメータが、ベクトルに第1の位置で配列される。音声認識パラメータは
、量子化され、次いで、例えば、確立された通信システムの通信リンクを介して
第2の位置に送信される。多くの場合、第1の位置は、遠隔の端末であろうし、
そして第2の位置は、中央処理ステーションであろう。次いで、受信された音声
認識パラメータは、音声認識技術に従って第2の位置で分析される。
【0007】 多くのタイプの通信システムにおける多くのタイプの通信リンクは、分散型音
声認識プロセスにおける使用のためと考えることができる。一例は、従来の無線
通信システム、例えば公衆交換電話ネットワークである。別の例は、無線通信シ
ステム、例えばTETRAである。別の例は、セルラ無線通信システムである。
適用可能なセルラ通信システムの一例は、移動通信システム用グローバル(GS
M)システムであり、そして別の例は、現在標準化中である汎用移動通信システ
ム(UMTS)のようなシステムである。
【0008】 任意の通信システムにおける任意の通信リンクの使用は、音声認識パラメータ
が第1の位置から第2の位置へ通信リンクを介して送信されるときエラーがその
音声認識パラメータに導入されるであろう可能性を起こす。
【0009】 通信システムにおいてエラー検出技術を設け、それにより送信される情報の所
与の部分にエラーが存在することは検出可能であることは知られている。1つの
周知の技術は、巡回冗長コーディングである。
【0010】 エラーの存在が検出されるとき、異なる緩和技術を採用して、エラーの影響を
、送信された情報の性質に従って低減する。他の形式の情報の送信中に生じるエ
ラーの影響を低減する技術は、分散型音声認識プロセスにおける伝送エラーの影
響を低減するのに必ずしも適応されていない。これは、パラメータが受けている
特化された音声認識技術のためであり、従って、分散型音声認識プロセスにおい
て伝送エラーの影響を緩和する手段を提供することが望ましい。
【0011】 [発明の概要] 本発明は、分散型音声認識プロセスにおいて伝送エラーの影響を低減する手段
を提供する。 本発明の一局面に従って、請求項1に記載されるように、分散型音声認識シス
テムにおいて伝送エラーの影響を緩和する方法が提供される。 本発明の別の局面に従って、請求項8に記載されるように、分散型音声認識シ
ステムにおいて伝送エラーの影響を緩和する装置が提供される。
【0012】 ある実施形態において、バックエンド・デコーダに送られるべきデータは、エ
ラーを被ったと識別された少なくとも1つの音声認識パラメータを、音声認識デ
コーダにより異常として拒絶されるように選択されたデータと置換することによ
り処理される。 そのような実施形態は、バックエンド・コードを変える必要性を回避しながら
、音声認識バックエンド・デコーダの動作に依拠する伝送エラーの影響を緩和す
る手段を提供する。 分散型音声認識プロセスにおいて伝送エラーの影響を低減する代替技術は、受
信されたパラメータの中のエラーを検出し、そしてエラーが検出されたとき音声
認識バックエンド・デコーダに信号で知らせるようにする。しかしながら、これ
は、そのような信号に基づいて動作するよう適合されるべきバックエンドを必要
とするであろう。実際に、これは、バックエンド・コードを変える必要性をもた
らすであろう。
【0013】 本発明の更なる局面が、従属請求項に記載されている。 本発明は、分散型音声認識プロセスにおいて伝送エラーの影響を緩和する。追
加の特別な利点は、以下の記載及び図面から明らかである。
【0014】 [発明の実施形態の説明] 図1は、本発明の一実施形態において使用の分散型音声認識用装置を概略的に
示す。その装置は一般的に、図2を特に参照して以下により詳細に説明されるよ
うにサンプリングされた音声信号に基づいて音声認識パラメータを発生するフロ
ントエンド処理手段1を備える。フロントエンド処理手段1の出力は送信手段2
に接続されている。なお、その送信手段2は、音声認識パラメータについて演算
処理し、且つそのパラメータを他の必要な情報と一緒に通信リンクを介して遠隔
の位置に送信するよう構成されている。本出願の導入部において述べたように、
多くのタイプの通信リンクを用いることができるが、しかし本発明は移動通信シ
ステムに用いられるであろうことを特に想定している。
【0015】 遠隔の位置で、通信ネットワークを介して送信された信号は受信手段3により
受信される。なお、その受信手段3は、送信されたデータを伝送エラー検出手段
4に伝達するよう構成され、その伝送エラー検出手段4は、それらが通信ネット
ワークを通る際に伝送エラーを被ったいずれの音声認識パラメータを識別するよ
う構成されている。伝送エラー検出手段4はデータ処理手段5に接続され、その
データ処理手段5は、いずれの音声認識パラメータと関連したデータを、伝送エ
ラーを被ったと識別されたいずれの音声認識パラメータと置換するよう構成され
ている。データ処理手段5は、バックエンド処理手段6に接続される。なお、そ
のバックエンド処理手段6は、受信された音声認識パラメータについて演算処理
して、分散型音声認識プロセスを完了するよう構成されているデコーダを備える
【0016】 分散型音声認識プロセスは、以下でより詳細に考察される。 本発明の実施形態が適用される分散型音声認識プロセスにおいて、音声認識パ
ラメータは、図2に概略的に示されるようにサンプリング時間フレームに対応す
るベクトルに配列されている。
【0017】 処理されるべき音声信号110の一部分が図2に示されている。音声信号11
0は、実際にはそれが非常に一層複雑な一連のサンプル値から成るので、非常に
単純化された形式で示されている。
【0018】 図2に、サンプリング時間フレームのうちの第1のサンプリング時間フレーム
121、第2のサンプリング時間フレーム122、第3のサンプリング時間フレ
ーム123及び第4のサンプリング時間フレーム124が示されているが、その
サンプリング時間フレームは、図2に示されるように、音声信号に課される。以
下で説明される実施形態においては、1秒当たり100個のサンプリング時間フ
レームが存在する。音声信号は、各サンプリング時間フレームの過程で繰返しサ
ンプリングされる。
【0019】 以下で説明される実施形態においては、音声認識プロセスは、14個の音声認
識パラメータの全部が採用されている音声認識プロセスである。これらのパラメ
ータの最初の12個は、その最初の12個の静的メル・ケプストラム係数、即ち
次式のとおりである。
【0020】
【数1】 c(m)=[c1(m),c2(m),…,c12(m)]T
【0021】 ここで、mはサンプリング時間フレーム番号であることを示す。用いられた1
3番目の音声認識パラメータは、ゼロ番目のケプストラム係数、即ち、c0(m
)である。用いられた14番目の音声認識パラメータは、対数エネルギ項、即ち
log[E(m)]である。音声認識プロセスにおけるこれらの係数及びそれら
の使用の詳細は、当該技術において周知であり、そこで、ここでは更なる説明を
必要としない。更に、本発明は、音声認識パラメータを形成するケプストラム係
数の他の組み合わせを用いて、更にまたケプストラム係数以外の音声認識パラメ
ータの他の選定又はスキームを用いて、実行されることができる。
【0022】 各サンプリング時間フレームに対する14番目の音声認識パラメータは、図2
に示されるように、対応するベクトル(これはまたアレイとして知られている。
)に配列され、又はフォーマットされる。ベクトル131はサンプリング時間フ
レーム121に対応し、ベクトル132はサンプリング時間フレーム122に対
応し、ベクトル133はサンプリング時間フレーム123に対応し、ベクトル1
34はサンプリング時間フレーム124に対応する。1つのそのようなベクトル
は一般的に次式のように表される。
【0023】
【数2】
【0024】 音声認識パラメータは、第1の位置から第2の位置に送信される前に処理され
る。以下に説明される実施形態において、これは次のように実行される。ベクト
ル131からのパラメータが量子化される。これは、ベクトルを分割型ベクトル
量子化器(split vector quantizer)を用いて直接量子
化することにより実行される。係数は対になるようグループ化され、そして各対
は、そのそれぞれの対に対して予め決定されたベクトル量子化(VQ)コードブ
ックを用いて量子化される。次いで、その結果生じたインデックス値のセットを
用いて、音声フレームを表す。フロントエンド・パラメータによる係数を対にし
たものが、各対に対して用いられたコードブックの大きさと一緒に表1に示され
ている。
【0025】
【表1】
【0026】 最も近いVQ重心が、重み付けされたユークリッド距離(Euclidian
distance)を用いて見つけられて、インデックスを決定する。即ち、
【0027】
【数3】
【0028】 ここで、qj i,i+1はコードブックQi,i+1におけるj番目のコードベクトル(
codevector)を示し、Ni,i+1はコードブックの大きさであり、Wi,i +1 はコードブックQi,i+1に対して適用されるべき(最大限の同一性(poss
ibly identity))重みマトリクスであり、idxi,i+1はベクト
【0029】
【数4】 [yi(m),yi+1(m)]T を表すため選定されたコードブック・インデックスを示す。
【0030】 次いで、生成されるインデックスは、44ビットの形式で表される。これらの
44ビットは、ビット・ストリーム・フレーム150の、図2における参照番号
141により示されるように、最初の44スロットの中に置かれている。次のベ
クトル、即ちベクトル132に対して生成された対応の44ビットは、ビット・
ストリーム・フレーム150の、図2における参照番号142により示されるよ
うに、次の44スロットの中に置かれている。ビット・ストリーム・フレーム1
50の残りのビットは、図2における参照番号146により示されるように、巡
回冗長コードの4ビットから成り、それら4ビットの値は、ビット・ストリーム
・フレーム150の88個の先行ビットの全体に対して、エラー検出を既知の要
領で与えるように決定される。同様に、ベクトル133から与えられる44ビッ
トは、第2のビット・ストリーム・フレーム155の、図2における参照番号1
43により示されるように、最初の44スロットの中に置かれている。また、次
のベクトル、即ちベクトル134に対して生成された対応の44ビットは、ビッ
ト・ストリーム・フレーム155の、図2における参照番号144により示され
るように、次の44スロットの中に置かれている。ビット・ストリーム・フレー
ム155の残りのビットは、図2における参照番号148により示されるように
、巡回冗長コードの4ビットから成る。この配列が、後続のベクトルに対して繰
り返される。ビット・ストリーム・フレームの前述のフォーマットにおいて2つ
のベクトルからのビット・データは、単一の組み合わされたビット・ストリーム
・フレームに配列されるが、この前述のフォーマットは、単に例示である。例え
ば、各ベクトルのデータは、代わりに、それ自身のエラー検出ビットを含む単一
のビット・ストリーム・フレームに配列されることができるであろう。同様に、
1ビット・ストリーム・フレーム当たりのスロット数は単なる例示である。前述
のベクトル圧縮技術は単なる例示であることに留意すべきである。
【0031】 いずれの混乱を避けるため、前述のビット・ストリーム・フレームは、データ
が第1の位置から第2の位置に伝送される通信システムの通信リンクを介するビ
ット・ストリーム・データの伝送に用いられる伝送フレーム、例えば、本明細書
で説明される実施形態において採用されている通信システムであるGSMセルラ
無線通信システムの時分割多元接続(TDMA)時間フレームと混同されるべき
でないことを指摘しておく。本例においては、第1の位置は遠隔ユーザ局から成
り、そして第2の位置、即ち受信位置は、中央化された処理局から成り、その中
央化された処理局は、例えばセルラ通信システムの基地局に配置されることがで
きる。従って、本明細書で説明される実施形態においては、音声認識パラメータ
は、第1の位置と第2の位置との間で無線通信リンクを介して伝送される。しか
しながら、第1の位置及び第2の位置の性質は、想定している通信システムのタ
イプ、及びその中の分散型音声認識プロセスの構成に依存するであろう。
【0032】 ビット・ストリーム・フレームは、第2の位置で受信された後にその第2の位
置でそれらビット・ストリーム・フレームの送信フォーマットから再構成される
。 こうして、分散型音声認識プロセスが上記で説明され、その分散型音声認識プ
ロセスにおいて音声認識パラメータが、サンプリング時間フレームに対応するベ
クトルに配列され、そして上記の音声認識パラメータは、第1の位置から送信さ
れて第2の位置で受信される。この実施形態に従ってそのような音声認識プロセ
スにおける伝送エラーの影響を低減する方法は、図3のプロセス・フロー・チャ
ート200に示されている。図3を参照すると、機能ボックス210は、伝送エ
ラーを被った上記ベクトルの1つ又はそれより多くのベクトルを備えるグループ
を識別するステップを示す。この実施形態においては、エラー検出は、既知の巡
回冗長コード方法を用いて、146,148のような4つの巡回冗長コーディン
グ・ビットをそれぞれのビット・ストリーム・フレーム150,155と比較す
ることにより実行される。これは、この例においては、伝送エラーを被ったいず
れの単一のビット・ストリーム・フレームを識別するであろう。従って、この例
においては、識別されたグループのベクトルは、2つのベクトル、即ち、上記単
一のビット・ストリーム・フレームからの対のベクトルから成る。別の例におい
ては、エラー検出手段を有する各ビット・ストリーム・フレームが唯1つのベク
トルを含むとすれば、識別されたグループのベクトルは、単一のベクトルであろ
う。何個のベクトルがそのような識別されたグループ内にあるかを決定する正確
な形式及び技術的理由は、ベクトルがビット・ストリーム内に配列された様々な
方法、及び更にエラー検出方法がそれに加えて課された仕方に依存するであろう
ことが認められるべきである。特に、この実施形態で採用された巡回冗長コーデ
ィング以外のエラー検出方法は、識別されたグループに他の数のベクトルを与え
るであろう。また、いずれの所与のビット・ストリーム配列に対して、エラー情
報を処理する仕方の補助的設計選定がまた、識別されたグループにおけるベクト
ルの数を決定する役割を果たすことができる。例えば、この実施形態を参照して
、たとえエラー検出手段がエラーをより狭く検出することが物理的に出来たとし
ても、ビット・ストリーム・フレームのバッチがエラーを含むかどうかのみを考
慮することが、処理パワーを保存する理由のため判断されることができるであろ
う。
【0033】 音声認識パラメータは、前述のベクトル量子化手順の逆バージョンを実行する
ことによりビット・ストリーム・フレームから検索される。より詳細には、イン
デックスは、ビット・ストリームから抽出され、そしてこれらのインデックスを
用いて、ベクトルが、次の形式で再構成される。
【0034】
【数5】
【0035】 機能ボックス220は、この実施形態の次のステップ、即ち以下でより詳細に
説明されるように、識別されたグループのベクトルの中の1つ又はそれより多い
音声認識パラメータを異常データと置換するステップを示す。この実施形態にお
いては、様々な処理ステップの順序は、1つ又はそれより多くの音声認識パラメ
ータを異常データと置換する前に、受信された音声認識パラメータの全てがビッ
ト・ストリーム・フレームから検索され、そして一時的に格納されるように実行
される。しかしながら、1つ又はそれより多くの音声認識パラメータは、もう一
つの選択肢として、新しく導入された置換音声認識パラメータを含む音声認識パ
ラメータをビット・ストリーム・フォーマットから実際に物理的に検索する前に
、ビット・ストリーム情報を対応する方法で変えることにより置換されることが
できるであろうことが注目される。
【0036】 当業者に周知であるように、バックエンド処理を実行するため用いられる音声
認識デコーダは典型的には、サンプリング時間フレームに対応する音声認識パラ
メータのベクトルが受信され、且つこれがそのフレームをデコーダのワード・モ
デルに対して比較するとき異常に高いコスト(cost)を与える場合、そのフ
レーム(即ちパラメータのベクトル)はデコーダにより拒絶されるように配列さ
れる。従って、典型的には、音声認識デコーダは、フレームと関連したスコア又
は確率をデフォルト値と置換するであろう。従来のバックエンド音声認識デコー
ダは一般的に、この能力を与えられて、フレームを拒絶して、雑音のバーストに
よりひどく歪まされるフレームに対処する。本発明においては、異常又は非音声
のようなフレームを拒絶するバックエンド音声認識デコーダのこの能力は、伝送
エラーの影響を緩和するため利用される。従って、このシステムは、伝送エラー
を処理するためバックエンド音声認識デコーダに適合することが不必要になり、
従ってバックエンド・コードを変える必要性を回避する利点を有する。同時に、
より能動的なエラー訂正技術を用いることにより音声認識プロセスに悪影響を及
ぼす機会が避けられる。
【0037】 前述したように、この実施形態においては、一旦ビット・ストリーム・フレー
ム150,155が伝送エラーを被ったことが識別されてしまうと、2つの関連
したベクトル131,132;133,134のいずれかにおける音声認識パラ
メータのうちの1つ又はそれより多くのものが伝送エラーを受けたことが知られ
る。この実施形態においては、識別されたグループの2つのベクトルにおける音
声認識パラメータの全てが、1組の事前計算された値により置換される。なお、
その1組の事前計算された値は、それらが自然の発話で生じるであろういずれの
ものから大きな距離離れており、従ってバックエンド・デコーダにより異常とし
て拒絶されるであろうように選択されたものである。従って、前述のように、バ
ックエンド・コーダ(バックエンド符号器)はデフォルト・スコアを代用し、そ
して誤ったデータが音声認識プロセスに影響を及ぼす機会を避ける。
【0038】 前述のベクトル量子化プロセスにおいて、ベクトル量子化器は、ケプストラム
・パラメータの対について演算処理する。このプロセスは、各ベクトル量子化器
が前述のベクトル認識プロセス中にケプストラム・パラメータのそれぞれの対に
対して復号されることができる有り得る値の範囲の境界を定める(bound)
。この実施形態においては、この事実を用いて、異常データを選択する。許可さ
れた範囲の外にあり且つ量子化器の重心の全てからあるスレッショルド距離より
大きく離れている、各ケプストラム・パラメータに対する代替値が決定される。
その結果、これは、これらの代替の事前計算された値を含むフレーム、即ちパラ
メータのベクトルの受け取りの際、バックエンド・デコーダは、非常に高いコス
トを登録し、そして前述のようにデフォルト・スコアを優先してこのフレームを
拒絶するであろう。
【0039】 この実施形態においては、各ビット・ストリーム・フレーム150,155は
2つのベクトルを含み、そしてエラー検出技術は、検出された伝送エラーがベク
トルの両方と関連付けされるようにする。従って、ケプストラム・パラメータに
対する計算された代替値は、そのビット・ストリーム・フレーム150,155
が伝送エラーを被ったことが決定されるとき両方のベクトルにおいて置換される
。しかしながら、前述したように、様々なエラー検出技術を用いる場合、1つの
ベクトルの中のケプストラム・パラメータを置換することのみが必要であり得て
、又は非常に多数のベクトルにおけるパラメータを置換することが必要になり得
る。
【0040】 前述の実施形態のケースにおいては、前述のデータ処理ステップは、モトロー
ラからのデバイスのDSP56xxx(登録商標)ファミリから選択されたデバ
イスのようなプログラム可能なディジタル信号処理デバイスにより実行される。
代替として、特定用途向け集積回路(ASIC)を用いることができる。他の可
能性も存在する。例えば、無線受信機と、バックエンド音声認識プロセッサの一
部を形成するコンピュータ・システムとの間をインターフェースするインターフ
ェース・ユニットを採用することができる。
【図面の簡単な説明】
【図1】 図1は、本発明に従った分散型音声認識用装置の概略図である。
【図2】 図2は、分散型音声認識プロセスで用いられるサンプリング時間フレームに対
応するベクトルに配列された音声認識パラメータの概略図である。
【図3】 図3は、本発明の一実施形態のプロセス・フロー・チャートである。
【手続補正書】特許協力条約第34条補正の翻訳文提出書
【提出日】平成14年5月27日(2002.5.27)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0010
【補正方法】変更
【補正の内容】
【0010】 エラーの存在が検出されるとき、異なる緩和技術を採用して、エラーの影響を
、送信された情報の性質に従って低減する。他の形式の情報の送信中に生じるエ
ラーの影響を低減する技術は、分散型音声認識プロセスにおける伝送エラーの影
響を低減するのに必ずしも適応されていない。これは、パラメータが受けている
特化された音声認識技術のためであり、従って、分散型音声認識プロセスにおい
て伝送エラーの影響を緩和する手段を提供することが望ましい。 公開された英国特許出願GB−A−2343777の従来技術は、分散型音声
認識システムにおけるエラーの緩和に関する。その方法は、伝送エラーを被った
1つまたはそれより多いベクトルを備えるグループを識別する。一実施形態にお
いては、全体のベクトルは、置換されるベクトルに対して受け取り順序で最も近
いエラーの無い前のベクトル又はエラーの無い後続のベクトルのうちのいずれか
のコピーにより置換される。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE,TR),OA(BF ,BJ,CF,CG,CI,CM,GA,GN,GW, ML,MR,NE,SN,TD,TG),AP(GH,G M,KE,LS,MW,MZ,SD,SL,SZ,TZ ,UG,ZW),EA(AM,AZ,BY,KG,KZ, MD,RU,TJ,TM),AE,AG,AL,AM, AT,AU,AZ,BA,BB,BG,BR,BY,B Z,CA,CH,CN,CR,CU,CZ,DE,DK ,DM,DZ,EE,ES,FI,GB,GD,GE, GH,GM,HR,HU,ID,IL,IN,IS,J P,KE,KG,KP,KR,KZ,LC,LK,LR ,LS,LT,LU,LV,MA,MD,MG,MK, MN,MW,MX,MZ,NO,NZ,PL,PT,R O,RU,SD,SE,SG,SI,SK,SL,TJ ,TM,TR,TT,TZ,UA,UG,US,UZ, VN,YU,ZA,ZW Fターム(参考) 5D015 FF05 KK02 5J064 AA01 BA13 BB08 BD02 5K014 AA01 FA08

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 分散型音声認識プロセスにおける伝送エラーの影響を緩和す
    る方法であって、前記分散型音声認識プロセスは、音声認識パラメータが第1の
    位置でのサンプリング時間フレームに対応するベクトルに配列され且つ第1の位
    置から送信された音声認識パラメータが音声認識デコーダにより処理するため第
    2の位置で受信される音声認識プロセスである、前記方法において、 伝送エラーを被った前記ベクトルのうちの1つ又はそれより多いベクトルを含
    む1つのグループを識別するステップと、 前記音声認識デコーダへ送られるべきデータを処理して、前記の識別されたグ
    ループにおける少なくとも1つの音声認識パラメータがバックエンド処理から除
    外されることを保証するステップと を備えることを特徴とする方法。
  2. 【請求項2】 前記グループの各ベクトルの全ての音声認識パラメータが、
    バックエンド処理から除外される請求項1記載の方法。
  3. 【請求項3】 前記音声認識デコーダに送られるべきデータを処理する前記
    ステップは、前記少なくとも1つの音声認識パラメータを、前記音声認識デコー
    ダにより異常として拒絶されるように選択されたデータと置換するステップを備
    える請求項1又は2記載の方法。
  4. 【請求項4】 前記の選択されたデータは、自然発話で生じるであろういず
    れかのものと実質的に異なる値を有する1つ又はそれより多い音声認識パラメー
    タを備える請求項3記載の方法。
  5. 【請求項5】 前記音声認識パラメータが送信前に量子化を受け、且つ送信
    後に再構成を受け、 前記量子化は、前記パラメータが再構成を受け入れることができるある範囲の
    あり得る値に境界を定め、 前記の選択されたデータは、前記範囲外の1つ又はそれより多い値を備える 請求項3又は4記載の方法。
  6. 【請求項6】 各量子化器は、1対の音声認識パラメータについて演算処理
    する分割型ベクトル量子化技術を用いるステップと、 前記の選択されたデータを選定して、各量子化器重心から少なくとも所定の量
    だけ移動されている1つ又はそれより多い値を備えるステップと を含む請求項5記載の方法。
  7. 【請求項7】 前記バックエンド処理は、前記の選択された異常データを処
    理するとき発生されたスコアの代わりにデフォルト値を使うステップを備える請
    求項3から6のいずれか一項に記載の方法。
  8. 【請求項8】 分散型音声認識プロセスにおける伝送エラーの影響を緩和す
    る装置であって、前記分散型音声認識プロセスは、音声認識パラメータが第1の
    位置でのサンプリング時間フレームに対応するベクトルに配列され且つ第1の位
    置から送信された音声認識パラメータが音声認識デコーダにより処理するため第
    2の位置で受信される音声認識プロセスである、前記装置において、 伝送エラーを被った前記ベクトルのうちの1つ又はそれより多いベクトルを含
    む1つのグループを識別する識別手段と、 前記音声認識デコーダへ送られるべきデータを処理して、前記の識別されたグ
    ループにおける少なくとも1つの音声認識パラメータがバックエンド処理から除
    外されることを保証するデータ処理手段と を備えることを特徴とする装置。
  9. 【請求項9】 前記データ処理手段は、前記グループの各ベクトルの全ての
    音声認識パラメータをバックエンド処理から除外するよう構成されている請求項
    8記載の装置。
  10. 【請求項10】 前記データ処理手段は、前記少なくとも1つの音声認識パ
    ラメータを、前記音声認識デコーダにより異常として拒絶されるように選択され
    たデータと置換するよう構成されている請求項8又は9記載の装置。
  11. 【請求項11】 前記の選択されたデータは、自然発話で生じるであろうい
    ずれかのものと実質的に異なる値を有する1つ又はそれより多い音声認識パラメ
    ータを備える請求項10記載の装置。
  12. 【請求項12】 送信前に前記音声認識パラメータを量子化する量子化手段
    と、送信後に前記音声認識パラメータを再構成する再構成手段とを含み、 前記量子化は、前記パラメータが再構成を受け入れることができるある範囲の
    あり得る値に境界を定め、 前記の選択されたデータは、前記範囲外の1つ又はそれより多い値を備える 請求項10又は11記載の方法。
  13. 【請求項13】 前記量子化手段は、各量子化器が1対の音声認識パラメー
    タについて演算処理する分割型ベクトル量子化を実行するよう構成され、 前記の選択されたデータは、各量子化器重心から少なくとも所定の量だけ移動
    されている1つ又はそれより多い値を備える 請求項12記載の装置。
  14. 【請求項14】 前記のバックエンド・デコーダは、前記の選択された異常
    データを処理するとき発生されたスコアの代わりにデフォルト値を使う手段を備
    える請求項8から13のいずれか一項に記載の装置。
JP2002502766A 2000-06-05 2001-06-05 分散型音声認識プロセス及びシステムにおける伝送エラーの影響を緩和する方法及び装置 Expired - Lifetime JP5122716B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB0013528A GB2363236B (en) 2000-06-05 2000-06-05 Method and apparatus for mitigating the effect of transmission errors in a distributed speech recognition process and system
GB0013528.5 2000-06-05
PCT/EP2001/006366 WO2001095311A1 (en) 2000-06-05 2001-06-05 Method and apparatus for mitigating the effect of transmission errors in a distributed speech recognition process and system

Publications (3)

Publication Number Publication Date
JP2003536108A true JP2003536108A (ja) 2003-12-02
JP2003536108A5 JP2003536108A5 (ja) 2008-07-24
JP5122716B2 JP5122716B2 (ja) 2013-01-16

Family

ID=9892926

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002502766A Expired - Lifetime JP5122716B2 (ja) 2000-06-05 2001-06-05 分散型音声認識プロセス及びシステムにおける伝送エラーの影響を緩和する方法及び装置

Country Status (13)

Country Link
US (1) US7243066B2 (ja)
EP (1) EP1292942B1 (ja)
JP (1) JP5122716B2 (ja)
CN (1) CN1437745A (ja)
AT (1) ATE336778T1 (ja)
AU (2) AU2001283839B2 (ja)
CA (1) CA2407791C (ja)
DE (1) DE60122327T2 (ja)
EA (1) EA004378B1 (ja)
ES (1) ES2269443T3 (ja)
GB (1) GB2363236B (ja)
WO (1) WO2001095311A1 (ja)
ZA (1) ZA200208371B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6941265B2 (en) * 2001-12-14 2005-09-06 Qualcomm Inc Voice recognition system method and apparatus
US9082408B2 (en) 2011-06-13 2015-07-14 Mmodal Ip Llc Speech recognition using loosely coupled components
US10446141B2 (en) * 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
CN106847280B (zh) * 2017-02-23 2020-09-15 海信集团有限公司 音频信息处理方法、智能终端及语音控制终端
US10923128B2 (en) * 2018-08-29 2021-02-16 Cirrus Logic, Inc. Speech recognition

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63223796A (ja) * 1987-03-13 1988-09-19 松下電器産業株式会社 音声認識方法
JPS63226692A (ja) * 1986-10-03 1988-09-21 株式会社リコー パターン比較方式
JPH0968994A (ja) * 1995-06-19 1997-03-11 Nippon Telegr & Teleph Corp <Ntt> パターンマッチングによる単語音声認識方法及びその方法を実施する装置
WO2000030072A1 (en) * 1998-11-13 2000-05-25 Motorola Limited Mitigating errors in a distributed speech recognition process

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6633839B2 (en) * 2001-02-02 2003-10-14 Motorola, Inc. Method and apparatus for speech reconstruction in a distributed speech recognition system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63226692A (ja) * 1986-10-03 1988-09-21 株式会社リコー パターン比較方式
JPS63223796A (ja) * 1987-03-13 1988-09-19 松下電器産業株式会社 音声認識方法
JPH0968994A (ja) * 1995-06-19 1997-03-11 Nippon Telegr & Teleph Corp <Ntt> パターンマッチングによる単語音声認識方法及びその方法を実施する装置
WO2000030072A1 (en) * 1998-11-13 2000-05-25 Motorola Limited Mitigating errors in a distributed speech recognition process

Also Published As

Publication number Publication date
US20040039569A1 (en) 2004-02-26
US7243066B2 (en) 2007-07-10
CN1437745A (zh) 2003-08-20
DE60122327D1 (de) 2006-09-28
AU8383901A (en) 2001-12-17
AU2001283839B2 (en) 2006-03-16
GB2363236B (en) 2002-06-12
JP5122716B2 (ja) 2013-01-16
ZA200208371B (en) 2004-01-26
CA2407791C (en) 2011-01-18
GB2363236A (en) 2001-12-12
DE60122327T2 (de) 2007-09-13
EA004378B1 (ru) 2004-04-29
EP1292942A1 (en) 2003-03-19
WO2001095311A1 (en) 2001-12-13
ATE336778T1 (de) 2006-09-15
EA200201298A1 (ru) 2003-04-24
GB0013528D0 (en) 2000-07-26
EP1292942B1 (en) 2006-08-16
ES2269443T3 (es) 2007-04-01
CA2407791A1 (en) 2001-12-13

Similar Documents

Publication Publication Date Title
JP2010160507A (ja) 分散音声認識プロセスにおけるエラーの軽減方法および装置
US6968309B1 (en) Method and system for speech frame error concealment in speech decoding
KR100594670B1 (ko) 자동 음성 인식 시스템 및 방법과, 자동 화자 인식 시스템
JP4218134B2 (ja) 復号装置及び方法、並びにプログラム提供媒体
US20040083110A1 (en) Packet loss recovery based on music signal classification and mixing
AU6403298A (en) Speech coding
JP2002536692A (ja) 分散された音声認識システム
JP2000357999A5 (ja)
JPH11259100A (ja) 励起ベクトルの符号化方法
JP4531261B2 (ja) 分散音声認識プロセスにおける受信データの処理方法および装置
US6539349B1 (en) Constraining pulse positions in CELP vocoding
JP2003536108A (ja) 分散型音声認識プロセス及びシステムにおける伝送エラーの影響を緩和する方法及び装置
AU2001283839A1 (en) Method and apparatus for mitigating the effect of transmission errors in a distributed speech recognition process and system
EP0913034A2 (en) Enhanced encoding of dtmf and other signalling tones
US6385574B1 (en) Reusing invalid pulse positions in CELP vocoding
JP3091828B2 (ja) ベクトル量子化装置
JP3700310B2 (ja) ベクトル量子化装置及びベクトル量子化方法
CA3170065A1 (en) Method and device for speech/music classification and core encoder selection in a sound codec
Balss et al. Robust vector quantization for low bit rate speech coding.
JPH07334195A (ja) サブフレーム長可変音声符号化装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080604

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080604

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110526

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20110531

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110812

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110826

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110826

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111215

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120315

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120319

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120926

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121025

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151102

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5122716

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term