JP4531261B2 - 分散音声認識プロセスにおける受信データの処理方法および装置 - Google Patents
分散音声認識プロセスにおける受信データの処理方法および装置 Download PDFInfo
- Publication number
- JP4531261B2 JP4531261B2 JP2000583192A JP2000583192A JP4531261B2 JP 4531261 B2 JP4531261 B2 JP 4531261B2 JP 2000583192 A JP2000583192 A JP 2000583192A JP 2000583192 A JP2000583192 A JP 2000583192A JP 4531261 B2 JP4531261 B2 JP 4531261B2
- Authority
- JP
- Japan
- Prior art keywords
- frame
- header information
- header
- data
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 230000008569 process Effects 0.000 title claims abstract description 45
- 230000004044 response Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 description 29
- 238000004891 communication Methods 0.000 description 23
- 238000005070 sampling Methods 0.000 description 23
- 230000005540 biological transmission Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000010267 cellular communication Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/0078—Avoidance of errors by organising the transmitted data in a format specifically designed to deal with errors, e.g. location
- H04L1/0083—Formatting with frames or packets; Protocol or part of protocol for error control
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Communication Control (AREA)
- Mobile Radio Communication Systems (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
- Computer And Data Communications (AREA)
- Exchange Systems With Centralized Control (AREA)
- Telephonic Communication Services (AREA)
Description
本発明は、分散音声認識プロセスにおいて受信データを処理する方法に関する。また、本発明は、分散音声認識プロセスにおいて受信データを処理する装置に関する。本発明は、無線通信リンク上で送信される際の音声認識パラメータに関する受信データの処理に適するが、それに限定されるものではない。
【0001】
(従来の技術)
音声認識(speech recognition)は、音声からの音,単語の一部,単語または語句を自動的に認識するためのプロセスである。このようなプロセスは、スイッチ,キーボード,マウスなどより一般的に利用されるツールを用いる他に、あるいは用いる代わりに、人間と機械との間のインタフェースとして利用できる。また音声認識プロセスは、発声通信またはメッセージから自動的に情報を取り出すためにも利用できる。
【0002】
自動音声認識を提供するために、さまざまな方法が開発され、現在も改善されつつある。ある方法は、対応する学習戦略(heuristic strategies)とともに幅広い知識に基づき、また他の方法は統計モデルを採用する。
【0003】
典型的な音声認識プロセスでは、処理すべき音声は、例えば毎秒50〜100回など、サンプリング・タイムフレーム中に複数回サンプリングされる。サンプリングされた値は、音声認識パラメータを与えるアルゴリズムを利用して処理される。例えば、一つの種類の音声認識パラメータは、メル・ケプストラム係数(mel cepstral coefficient)として知られる係数からなる。このような音声認識パラメータは、アレイ(array)として知られるベクトルの形式に配列され、アレイはある次数で配列されたパラメータのグループまたはセット(群または集合)として考えることができる。サンプリング・プロセスは、さらなるサンプリング・タイムフレームのために反復される。典型的なフォーマットでは、各サンプリング・タイムフレーム毎に一つのベクトルが生成される。
【0004】
上記のパラメータ化およびベクトル化は、音声認識プロセスのいわゆるフロントエンド動作を構成する。ベクトルに配列された上記の音声認識パラメータは、音声認識プロセスのいわゆるバックエンド動作において、音声認識手法に従って解析される。フロントエンド処理およびバックエンド処理が同じ位置であるいは同じデバイスで実行される音声認識プロセスでは、フロントエンドからバックエンドに至る間に音声認識パラメータに導入されるエラーが生じる尤度は最小限である。
【0005】
しかし、分散音声認識プロセス(distributed speech recognition process)として知られるプロセスでは、音声認識プロセスのフロントエンド部分はバックエンド部分から離れて実行される。第1位置において、音声はサンプリングされ、パラメータ化され、音声認識パラメータはベクトルに配列される。音声認識パラメータは量子化された後、例えば、確立された通信システムの通信リンク上で、第2位置に送信される。多くの場合、第1位置は遠隔端末であり、第2位置は中央処理局である。受信された音声認識パラメータは、第2位置にて音声認識手法に従って解析される。量子化された音声認識パラメータと、そのベクトル配列はデータを構成し、このデータは第1位置から送信され、第2位置にて受信される。このデータの送信を促進するために、一般にデータは、複数のデータ・フレームからなるフレーム構造に配列され、各データ・フレームの前には、共通のヘッダ情報からなる各ヘッダ・フレームが配置される。また、ヘッダ・フレームは、該ヘッダ・フレームあるいは該ヘッダ・フレームに対応する特定のデータ・フレームのみに固有のヘッダ情報をさらに含むようなヘッダ・フレームでもよい。
【0006】
多くの種類の通信システムにおける多くの種類の通信リンクは、分散音声認識プロセス用として検討できる。一例として、従来の有線通信システム、例えば、一般電話交換網(PSTN)がある。別の例としては、無線通信システム、例えば、TETRAがある。別の例としては、セルラ無線通信システムがある。適用可能なセルラ通信システムの一例として、GSM(global system for mobile communications)システムがあり、別の例としては、現在標準化が進んでいるUMTS(Universal Mobile Telecommunications System)などのシステムがある。
【0007】
混乱を避けるために、上記のデータ・フレームは、例えば、GSMセルラ無線通信システムの時分割多元接続(TDMA)タイムフレームなど、第1位置から第2位置にデータが送信されるところの通信システムの通信リンク上でデータを送信する際に用いられる送信フレームと混同すべきでないことを指摘しておく。
【0008】
任意の通信システムにおいて任意の通信リンクを用いることにより、この通信リンク上で第1位置から第2位置に送信されるデータまたヘッダ情報にエラーが生じる可能性が生まれる。
【0009】
音声パラメータが受ける特殊な音声認識手法により、分散音声認識プロセスの特性に特に適した方法で、ヘッダ情報に生じるエラーに対してある程度の耐性を提供する、受信データを処理するための手段を提供することが望ましい。
【0010】
さらに、送信情報のある部分におけるエラーの存在が検出可能となるように、通信システムにおいてエラー検出手法を提供することが知られている。周知の手法の一つに、循環冗長符号化(cyclic redundancy coding)がある。また、送信情報のある部分におけるエラーを訂正するように、通信システムにおいて自動エラー訂正手法を提供することが知られている。周知の手法の一つに、ゴーレイ(Golay)エラー訂正がある。また、エラー検出およびエラー訂正を組み合わせて採用することも知られている。
【0011】
自動エラー訂正が適用されると、訂正される情報の全体の訂正された形態が本来のエラー部分とは別のさらなる矛盾(discrepancies)を含むという危険がある。なぜならば、このような方法は最良の全体的に正しいと想定される解への近似を伴う傾向があるためである。これは、ブロック・ベースの符号化方式を利用する符号化を採用する順方向エラー訂正手法の場合である。このような例の一つにゴーレイ符号化(Golay coding)があり、この符号化により、例えば、12ビットの情報を24ビット中に送信でき、その際に最大3つのエラーを訂正できる。訂正手法では、情報の全体、例えば、複合的にヘッダ・フレーム全体の訂正を行う。しかし、4つ以上のエラーが24ビット中に生じると、訂正手法はヘッダ全体を誤って訂正されたものに訂正する。分散音声認識プロセスにおいて、ヘッダ・フレーム全体を誤って訂正されたものに複合的に訂正することに関連する問題を緩和する、受信データを処理するための手段を提供することが望ましい。
【0012】
また、他の情報形式に適用する際に二次的な問題を発生しない自動エラー訂正の手法は、、分散音声認識プロセスにおいて上記のヘッダ・フレームにおけるエラーに適用した場合に、必ずしも問題がないわけではない。これは、部分的には、対応するデータ・フレームにおけるデータは各ヘッダ・フレーム情報を利用して処理されることに起因する。従って、二次的問題を緩和する、分散音声認識プロセスにおいて受信データを処理するための手段を提供することが望ましい。
【0013】
(発明の概要)
本発明は、上記の態様の一部または全てに対処する。
【0014】
本発明の一態様に従って、請求項1において請求されるような、分散音声認識プロセスにおいて受信データを処理する方法が提供される。
【0015】
本発明の別の態様に従って、請求項7において請求されるような、分散音声認識プロセスにおいて受信データを処理する装置が提供される。
【0016】
本発明のさらなる態様は、従属請求項に請求される通りである。
【0017】
本発明は、分散音声認識プロセスの性質に特に適した、受信データを処理する手段を提供し、この形態において、データは第1位置から第2位置に送信される際に受信され、この方法において、該データは分散音声認識プロセスにおける第2位置にて受信した後に処理される。
【0018】
特に、本発明の方法において、音声認識プロセスにおける待ち時間(latency)を許容する可能性が利用される。特に利用されるのは、分散音声認識プロセスにおいて、メッセージの開始に向かう待ち時間は、メッセージの最後における低い待ち時間と組み合わせると、特に許容可能となるという要因である。
【0019】
さらなる特定の利点については、以下の説明および図面から明らかになろう。
【0020】
(好適な実施例の説明)
以下で説明する一例としての実施例では、音声認識パラメータは、図1に模式的に示すように、サンプリング・タイムフレームに対応するベクトルで配列される。
【0021】
処理される音声信号110の一部を図1に示す。音声信号100は、実際には、さらに複雑なサンプル値のシーケンスからなるので、大幅に簡略化された形式で示されている。図1において、第1サンプリング・タイムフレーム121,第2サンプリング・タイムフレーム122,第3サンプリング・タイムフレーム123および第4サンプリング・タイムフレーム124が示されている、サンプリング・タイムフレームは、図1に示すように音声信号上に重畳される。下記の実施例では、毎秒100個のサンプリング・タイムフレームが存在する。音声信号は、各サンプリング・タイムフレームの最中に反復的にサンプリングされる。
【0022】
下記の実施例では、音声認識プロセスは、全部で14個の音声認識パラメータが採用されるプロセスである。最初の12個のパラメータは、最初の12個のスタティック・メル・ケプストラム係数(static mel cepstral coefficients)、すなわち、
【0023】
【数1】
【0024】
であり、ここでmはサンプリング・タイムフレーム番号を表す。13番目に用いられる音声認識パラメータは、ゼロ番目のケプストラム係数、すなわち、c0(m)である。14番目に用いられる音声認識パラメータは、対数エネルギ項(logarithmic energy term)、すなわち、log[E(m)]である。これらの係数の詳細および音声認識プロセスにおける用途については当技術分野で周知であり、ここではさらに詳しい説明を要しない。また、本発明はケプストラム係数以外の音声認識パラメータの他の選択または方式の場合と同様に、音声認識パラメータを形成する他のケプストラム係数の組合せでも実行できることに留意されたい。
【0025】
各サンプリング・タイムフレーム毎の14個のパラメータは、図1に示すように、アレイともいう対応するベクトルに配列、あるいはフォーマットされる。ベクトル131はサンプリング・タイムフレーム121に対応し、ベクトル132はサンプリング・タイムフレーム122に対応し、ベクトル133はサンプリング・タイムフレーム123に対応し、ベクトル134はサンプリング・タイムフレーム124に対応する。このようなベクトルは一般に次式のように表すことができる。
【0026】
【数2】
【0027】
音声認識パラメータは、第1位置から第2位置に送信される前に処理される。下記の実施例では、これは次のようにして実行される。ベクトル131からのパラメータは量子化される。これは、ベクトルをスプリット・ベクトル量子化器(split vector quantizer)で直接量子化することによって実施される。係数はペアにグループ化され、各ペアは、該ペアについてあらかじめ決められたベクトル量子化(VQ:vector quantization)コードブックを利用して量子化される。それによって得られるインデクス値のセットは、音声フレームを表すために用いられる。各ペアについて用いられるコードブック・サイズとともに、フロントエンド・パラメータ毎の係数ペアリングを以下の表1に示す。
【0028】
【表1】
【0029】
最も近いVQ重心(centroid)は、インデクスを判定するために加重ユークリッド距離(weighted Euclidian distance)を利用して求められる
【0030】
【数3】
【0031】
ここで、qj i,i+1は、コードブックQi,i+1におけるj番目のコードベクトルを表し、Ni,i+1はコードブックのサイズであり、Wi,i+1はコードブックQi,i+1について適用される(大体は単位行列(identity))加重マトリクスであり、idxi,i+1(m)はベクトル[yi(m),yi+1(m)]Tを表すために選択されたコードブック・インデクスを表す。
【0032】
次に、生成されるインデクスは44ビットの形式で表される。これら44ビットは、図1の参照番号141に示されるように、ビット・ストリーム・フレーム150の最初の44スロットに入れられる。次のベクトル、すなわち、ベクトル132について生成された対応する44ビットは、図1の参照番号142に示されるように、ビット・ストリーム・フレーム150の次の44スロットに入れられる。ビット・ストリーム・フレーム150の残りのビットは、図1の参照番号146に示されるように、循環冗長符号の4ビットからなり、このビットの値は、ビット・ストリーム・フレーム150の88個の前置ビット全体について、周知な方法でエラー検出を行うように判定される。同様に、ベクトル133から与えられる44ビットは、図1の参照番号143に示されるように、第2ビット・ストリーム・フレーム155の最初の44スロットに入れられる。また、次のベクトル、すなわち、ベクトル134について生成された対応する44ビットは、図1の参照番号144に示されるように、ビット・ストリーム・フレーム155の次の44スロットに入れられる。ビット・ストリーム・フレーム155の残りのビットは、図1の参照番号148に示されるように、循環冗長符号の4ビットからなる。この配列は、以降のベクトルについて反復される。2つのベクトルからのビット・データが一つの合成ビット・ストリーム・フレームにて配列されるところの上記のビット・ストリーム・フレームのフォーマットは一例に過ぎない。例えば、各ベクトルのデータは、それ自体のエラー検出ビットを含む一つのビット・ストリーム・フレームで配列してもよい。同様に、ビット・ストリーム・フレーム毎のスロットの数は一例に過ぎない。
【0033】
上記のビット・ストリーム・フレームに収容・配列されたデータは、図2に示すようにさらに配列される。ビット・ストリーム・フレームは、それぞれが一つまたはそれ以上のビット・ストリーム・フレームからなるデータ・フレームで配列される。本実施例では、各データ・フレームは12個のビット・ストリーム・フレームを収容する。従って、この例では、データ・フレーム230が図示され、ビット・ストリーム・フレーム150,155と、211〜220と記されたさらに10個のビット・ストリーム・フレームとによって構成される。データ・フレーム230の前には、図2に示されるように、その対応するヘッダ・フレーム240が配置される。それぞれがその前に各ヘッダ・フレームを有する各データ・フレームは、図3に示すように連続的に配列され、ここでヘッダ・フレーム240はその対応するデータ・フレーム230の前にあり、ヘッダ・フレーム310はその対応するデータ・フレーム320の前にあり、ヘッダ・フレーム330はその対応するデータ・フレーム340の前にある。実際には、対応するデータ・フレームを有する多くのこのようなヘッダ・フレームが続く。本実施例では、各ヘッダ・フレームは24個のスロットからなる。データ・フレームおよびヘッダ・フレームの上記のフォーマットは、一例に過ぎない。同様に、データ・フレーム毎のビット・ストリーム・フレームの数およびヘッダ・フレーム内のスロットの数は一例に過ぎない。
【0034】
各ヘッダ・フレームは共通のヘッダ情報からなる。これは、各ヘッダにおいて同一の情報である。この情報は、上記のようにデータが処理される際に用いられ、ここで用いられる情報は、サンプリング・レートが適用可能であるような例を挙げた。この例では、可能なサンプリング・レート値は8kHzおよび16kHzである。別の可能性は、標準または雑音耐久(noise robust)プロトコルまたはトラックが適用可能であるかどうかに関する情報である。
【0035】
各ヘッダ・フレームは、選択的にフレーム固有情報すなわち異なるヘッダについてある程度変化する情報をさらに含むことができる。フレーム固有情報の一例は、第1のメッセージ終了認識(end-of-message recognition)方法に従って、メッセージ終了指標(end-of-message indicator)、すなわち、メッセージが終了することを示す信号、を含む。この例では、第1のメッセージ終了認識方法は、データ・フレームを適切な長さに詰める(pad out)ために送信機によって挿入される、ヘッダ内のメッセージ終了指標によって通知される最後のデータ・フレーム内のオール・ゼロ・ビット・ストリーム・フレームを探すことからなる。メッセージ終了指標は、ヘッダのフレーム固有データ部分内で設定される単一ビットからなる。フレーム固有情報の別の例は、音声に対する並列チャネル、例えば、ボタン押下(button press)の信号、を実質的に表す情報である。
【0036】
ヘッダ情報がブロック・ベースの符号化方式を利用して順方向エラー訂正符号化されるところの本発明の別の態様は、以下で説明する一例としての実施例において採用される。この例で採用される特定の種類のエラー保護はゴーレイ・エラー保護(Golay error protection)であり、その一般特性および採用モードは当技術分野において周知である。この場合、用いられる特定の値等は次の通りである。ヘッダ・フレームの情報は、[24,12,8]拡張システマティック・ゴーレイ・コードワードにおいて表される。この符号は12ビットのデータをサポートし、最大3つのビット・エラーに対してエラー訂正能力を有する。このプロセスは、全部で24ビットまでの容量を提供し、ヘッダ情報用の12ビットと、エラー保護からの12パリティ・ビットとからなる。利用するヘッダ情報が、この方式において全部で12ビット未満しか必要としないような情報である場合、これらのビットは不変的なゼロに設定でき、将来の変更使用に対応できるように、すなわち、拡張ビット(expansion bits)として実質的に保留できる。24ビットをフィールドに配列することは、当業者に既知の方法で実行できる。この例では、配列は以下の表2に示す通りであり、フィールドの定義は以下の表3に示す通りである。
【0037】
【表2】
【0038】
【表3】
【0039】
用いられるゴーレイ発生多項式は次式の通りである。
【0040】
【数4】
【0041】
標準[23.12]ゴーレイ符号は、偶数全体パリティ・チェック・ビットの追加により、24ビットに拡張される。コードワードのパリティ・ビットは、以下の計算を用いて発生される。
【0042】
【数5】
【0043】
ここで、Tは行列転置(matrix transpose)を表す。
【0044】
混乱を避けるため、上記のヘッダ・フレーム,ビット・ストリーム・フレームおよびデータ・フレームは、データが第1位置から第2位置に送信されるところの通信システムの通信リンク上でビット・ストリーム・データを送信する際に用いられる送信フレーム、例えば、本明細書で説明される実施例にて採用される通信システムであるGSMセルラ無線通信システムの時分割多元接続(TDMA)タイムフレーム、と混同すべきでないことを指摘しておく。この例では、第1位置は遠隔ユーザ局からなり、第2位置、すなわち、受信側位置は、例えば、セルラ通信システムの基地局に配置できる集中処理局(centralized processing station)からなる。従って、本明細書で説明する実施例では、音声認識パラメータは、無線通信リンク上で第1位置から第2位置に送信される。ただし、第1位置および第2位置の性質は、検討対象の通信システムの種類と、そこにおける分散音声認識プロセスの構成とに依存することを理解されたい。
【0045】
ヘッダ・フレームおよびデータ・フレームは、第2位置において受信された後に第2位置においてその送信フォーマットから再構築される。その後、ヘッダ・フレームおよびデータ・フレームに収容されたデータは、各ヘッダ・フレーム情報を利用して処理される。一つの方法では、サンプリング・レートが採用されている収容された情報が用いられるように、各ヘッダ・フレーム情報が用いられる。データの処理は、ビット・ストリーム・フレームから音声認識パラメータを取り出して、音声認識自体を実行することを含む。あるいは、処理は、適切な種類のフレーム固有ヘッダ情報から導出される手順を実行することを含むことができる。上記の例では、フレーム固有ヘッダ情報は、音声に対する並列チャネル、例えば、ボタン押下の信号、を実質的に表し、そのため処理はこの信号に対して既知の方法で適切に応答することを含むことができる。
【0046】
上記のように、ビット・ストリーム・フレームから音声認識パラメータを取り出すことは、次のようにして行われる。音声認識パラメータは、上記のベクトル量子化手順の逆手順を実行することによって、ビット・ストリーム・フレームから取り出される。さらに具体的には、インデクスはビット・ストリームから抽出され、これらのインデクスを利用して、ベクトルは以下の形式で再構築される。
【0047】
【数6】
【0048】
また、以下の一例としての実施例では、ヘッダ情報はブロック・ベースの符号化方式を利用して順方向エラー訂正符号化されるので、このようなエラー訂正は、第2位置にてデータを受信した後に復号する必要がある。このゴーレイ・エラー保護の場合、このような復号は当技術分野で周知のいくつかの方法のうちの一つで実行できる。
【0049】
以上、複数のデータ・フレームからなるフレーム構造にてデータが配列される分散音声認識プロセスについて説明したが、この複数のデータ・フレームの各データ・フレームの前には、共通のヘッダ情報を含むヘッダ情報からなる各ヘッダ・フレームが配置され、第1位置から送信された前記データは第2位置にて受信され、前記データは各ヘッダ・フレーム情報を用いて処理され、ヘッダ情報はブロック・ベースの符号化方式を利用して順方向エラー訂正符号化される。
【0050】
第1実施例によるこのような音声認識プロセスにおいて受信データを処理する方法は、図4のプロセス・フローチャートに示される。図4を参照して、機能ボックス410は、複数のヘッダ・フレームのそれぞれからの前記共通ヘッダ情報の受信形態を比較する段階を示す。本実施例において、これはヘッダ・フレーム240,ヘッダ・フレーム310,ヘッダ・フレーム330および以降のヘッダ・フレームからの共通ヘッダ情報の受信形態を比較することからなる。比較すべき共通ヘッダ・フレーム情報は、本実施例では、サンプリング・レートの通知された値と、トラックが標準または雑音耐久(noise robust)であるかどうかである。
【0051】
次の段階は、図4の機能ボックス420に示すように、所定の数の前記ヘッダ・フレームが前記共通ヘッダ情報の同一受信形態を有することが判明した場合に、この同一受信形態を基準として分類する段階である。本実施例では、所定の数は30であるが、この数値は一般に検討対象の特定のシステムの条件に応じて一般に選択される。この方法段階を実行することによって、用いられる共通ヘッダ情報の値に対する信頼が得られる。この手順を実行する際に、特に所定の数がはるかに高いレベルに設定される場合に、生じる遅延は本発明において対処される。なぜならば、本発明は、メッセージの開始における待ち時間が比較的許容可能であるところの分散音声認識システムの特性を利用するためである。
【0052】
次の段階は、図4の機能ボックス430に示すように、共通ヘッダ情報の受信形態が前記基準と異なる各ヘッダ・フレームに対応する一つまたはそれ以上の受信データ・フレームを、受信した異なる形態ではなく、基準形態を利用することにより処理する段階である。従って、不適切に受信された、あるいは信頼できない共通ヘッダ情報は除外され、関連するデータ・フレームが適正な共通ヘッダ情報に従って有利に処理される。
【0053】
本実施例の一つの様式は、ヘッダ情報がフレーム固有ヘッダ情報をさらに含んで構成され、特に、フレーム固有ヘッダ情報が音声に対する並列チャネル、すなわち、ボタン押下の信号を実質的に表す、というオプションを含む。通常、処理はこの信号に対して既知の方法で適切に応答することを含む。ただし、本実施例のこの様式では、共通ヘッダ情報の受信形態が前記基準と異なる、一つまたはそれ以上のヘッダ・フレームのフレーム固有ヘッダ情報は除外される、すなわち、ボタン押下信号に対する応答は遮断される。こうすることにより、このヘッダ・フレームの共通ヘッダ情報が誤りであるならば、同じヘッダ・フレーム内のフレーム固有情報も誤りである可能性が高いという観点に基づいて、信頼できない命令は回避される。
【0054】
また、本発明の別の様式は、ヘッダ情報はフレーム固有ヘッダ情報をさらに含んで構成され、特に第1メッセージ終了認識方法のメッセージ終了指標を適宜示すために用いられるフィールドを収容するという、オプションを含む。この第1メッセージ終了認識方法については、上で説明した通りである。上記の一例としてのヘッダ・フィールド配置について、表2および表3を参照して、メッセージ終了指標フィールドは、これらの表に設けた将来の拡張スペースのうちの一つまたはそれ以上を利用することを留意されたい。通常、処理は、メッセージ終了手順を実行することによって、このメッセージ終了指標に応答することを含む。ただし、本実施例のこの様式では、共通ヘッダ情報の受信形態が前記基準と異なる一つまたはそれ以上のヘッダ・フレームのフレーム固有ヘッダ情報、すなわち、第1メッセージ終了認識方法のメッセージ終了指標は、共通ヘッダ情報の受信形態が前記基準と同じであるヘッダ・フレームのフレーム固有ヘッダ情報と比較して、異なる用いられかたをする。特に、額面的にはメッセージ終了指標であるもの応答して、メッセージ終了手順を実際に実行するのではなく、第2メッセージ終了手順が開始される。従って、一方では、すでに誤った共通情報を有するヘッダ・フレームに収容されているので指標がエラーである場合に、この指標に応答する必要を省くことにより、メッセージ終了手順の誤った実行が回避されるが、もう一方では、部分的に誤りであるヘッダ・フレームに収容されているにもかかわらず、メッセージ終了指標が実際に正しかった場合に、メッセージ終了が実際に検出されることを保証するバックアップの意味で、別のメッセージ終了手順が起動される。なお、上記のメッセージ終了の主題は、本発明に従って、共通ヘッダ情報の矛盾に基づいて異なる処理を施すことができるフレーム固有情報の種類の一例を表すに過ぎないことを理解されたい。それどころか、実際には、本発明のこの態様は、共通情報部分においてエラーを有することがすでに判明しているヘッダ・フレームにおいて、情報がエラーを有する可能性がより高いという懸念がある場合に、慎重な処理の方が有利であろう任意の種類のフレーム固有情報に適用可能である。
【0055】
上記の全ての実施例は、前記ヘッダ情報がブロック・ベースの符号化方式を利用して順方向エラー訂正符号化されるという、任意の特長を含むことができる。このような方式を実施することの詳細については、すでに説明済みである。この特長を含めると、本発明の利点は、このような修理のエラー訂正の複合的な性質により、特に増長される。複合的なやり方でヘッダ・フレーム全体が訂正されるので、共通ヘッダ情報が受信すべきものとは異なる場合には、基本的にヘッダ情報の残りの部分もエラーである可能性が高い。本例では、これは一つのヘッダ・フレーム内の4ビット以上がエラーである場合に特に生じる可能性が高い。
【0056】
以上の実施例では、基準が判定される前に受信されたデータ・フレームは、以降の処理段階から単純に除外される。トレード・オフの意味では、これは処理の低減という利点を提供する。しかし、代替実施例では、前記基準が判定される前に受信されたデータ・フレームは、前記基準が判定された後に、処理の前にバッファされる。トレード・オフの意味では、これらの代替実施例は、データが失われないという意味でより良好な品質を提供するが、さらなるバッファを含むより多くの処理が必要になる。さらに、これらの代替実施例は、特に、メッセージの開始における待ち時間が比較的容易に許容できるという観点において、分散音声認識プロセスの待ち時間特性をさらに有利に利用する。
【0057】
上記の実施例の例では、上記のデータ処理段階は、モトローラ社のDSP56xxx(商標)ファミリーのデバイスから選択されるデバイスなど、プログラマブル・デジタル信号処理デバイスによって実行される。あるいは、特定用途向け集積回路(ASIC)を採用できる。他の可能性も存在する。例えば、無線受信機と、バックエンド音声認識プロセッサの一部をなすコンピュータ・システムとの間をインタフェースするインタフェース・ユニットを利用できる。
【図面の簡単な説明】
【図1】 本発明の一実施例のサンプリング・タイムフレームに対応するベクトルで配列された音声認識パラメータの模式図である。
【図2】 本発明の一実施例の、ヘッダ・フレームと、データ・フレームで配列されたビット・ストリーム・フレームの模式図である。
【図3】 本発明の一実施例のデータ・フレームおよびヘッダ・フレームの模式図である。
【図4】 本発明の一実施例のプロセス・フローチャートである。
Claims (8)
- 分散音声認識プロセスにおいて受信データを処理する方法であって、前記分散音声認識プロセスでは、複数のデータ・フレームからなるフレーム構造でデータが配列され、前記複数のデータ・フレームのそれぞれの前には、共通ヘッダ情報を含むヘッダ情報からなる各ヘッダ・フレームが配置され、第1位置から送信された前記データは第2位置にて受信され、前記データは各ヘッダ・フレーム情報を利用して処理され、当該方法は:
複数のヘッダ・フレームのそれぞれからの前記共通ヘッダ情報の受信形態を比較する段階;
所定数の前記ヘッダ・フレームが前記共通ヘッダ情報の同一の受信形態を有することが判明した場合に、該同一の受信形態を基準として分類する段階;および
前記共通ヘッダ情報の受信形態が前記基準と異なる各ヘッダ・フレームに対応する一つまたはそれ以上の受信データ・フレームを、受信した異なる形態ではなく前記の基準の形態を利用することにより処理する段階;
によって構成され、
前記ヘッダ情報は、フレーム固有ヘッダ情報をさらに含んで構成され、前記共通ヘッダ情報の受信形態が前記基準と異なる一つまたはそれ以上のヘッダ・フレームのフレーム固有ヘッダ情報は、前記共通ヘッダ情報の受信形態が前記基準と同じであるヘッダ・フレームのフレーム固有ヘッダ情報と比較して、異なる用いられかたをされ、
異なる用いられかたをされる前記フレーム固有ヘッダ情報は、第1メッセージ終了認識方法のメッセージ終了指標であり、これに応答して、第2メッセージ終了方法が開始されることを特徴とする方法。 - 前記ヘッダ情報は、フレーム固有ヘッダ情報をさらに含んで構成され、前記共通ヘッダ情報の受信形態が前記基準と異なる一つまたはそれ以上のヘッダ・フレームのフレーム固有ヘッダ情報は除外されることを特徴とする請求項1記載の方法。
- 前記ヘッダ情報は、ブロック・ベースの符号化方式を利用して、順方向エラー訂正符号化されることを特徴とする請求項1乃至2のいずれかに記載の方法。
- 前記基準が判定される前に受信されたデータ・フレームは、前記基準が判定された後に、処理の前にバッファされることを特徴とする請求項1乃至3のいずれかに記載の方法。
- 分散音声認識プロセスにおいて受信データを処理する装置であって、前記分散音声認識プロセスでは、複数のデータ・フレームからなるフレーム構造でデータが配列され、前記複数のデータ・フレームのそれぞれの前には、共通ヘッダ情報を含むヘッダ情報からなる各ヘッダ・フレームが配置され、第1位置から送信された前記データは第2位置にて受信され、前記データは各ヘッダ・フレーム情報を利用して処理され、当該装置は:
複数のヘッダ・フレームのそれぞれからの前記共通ヘッダ情報の受信形態を比較する手段;
所定数の前記ヘッダ・フレームが前記共通ヘッダ情報の同一の受信形態を有することが判明した場合に、前記同一の受信形態を基準として分類する手段;および
前記共通ヘッダ情報の受信形態が前記基準と異なる各ヘッダ・フレームに対応する一つまたはそれ以上の受信データ・フレームを、受信した異なる形態ではなく、前記の基準の形態を利用することにより処理する手段;
によって構成され、
前記ヘッダ情報は、フレーム固有ヘッダ情報をさらに含んで構成され、前記共通ヘッダ情報の受信形態が前記基準と異なる一つまたはそれ以上のヘッダ・フレームのフレーム固有ヘッダ情報は、前記共通ヘッダ情報の受信形態が前記基準と同じであるヘッダ・フレームのフレーム固有ヘッダ情報と比較して、異なる用いられかたをされ、
異なる用いられかたをされる前記フレーム固有ヘッダ情報は、第1メッセージ終了認識方法のメッセージ終了指標であり、これに応答して、第2メッセージ終了方法が開始されることを特徴とする装置。 - 前記ヘッダ情報は、フレーム固有ヘッダ情報をさらに含んで構成され、前記共通ヘッダ情報の受信形態が前記基準と異なる一つまたはそれ以上のヘッダ・フレームのフレーム固有ヘッダ情報は除外されることを特徴とする請求項5記載の装置。
- 前記ヘッダ情報は、ブロック・ベースの符号化方式を利用して、順方向エラー訂正符号化されることを特徴とする請求項5乃至6のいずれかに記載の装置。
- 前記基準が判定される前に受信されたデータ・フレームは、前記基準が判定された後に、処理の前にバッファされることを特徴とする請求項5乃至7のいずれかに記載の装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB9824904.8 | 1998-11-13 | ||
GB9824904A GB2343778B (en) | 1998-11-13 | 1998-11-13 | Processing received data in a distributed speech recognition process |
PCT/EP1999/009030 WO2000030287A1 (en) | 1998-11-13 | 1999-11-12 | Processing received data in a distributed speech recognition process |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002530931A JP2002530931A (ja) | 2002-09-17 |
JP4531261B2 true JP4531261B2 (ja) | 2010-08-25 |
Family
ID=10842399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000583192A Expired - Fee Related JP4531261B2 (ja) | 1998-11-13 | 1999-11-12 | 分散音声認識プロセスにおける受信データの処理方法および装置 |
Country Status (9)
Country | Link |
---|---|
US (1) | US6732072B1 (ja) |
EP (1) | EP1129537B8 (ja) |
JP (1) | JP4531261B2 (ja) |
AT (1) | ATE276613T1 (ja) |
AU (1) | AU1506800A (ja) |
DE (1) | DE69920255T2 (ja) |
GB (1) | GB2343778B (ja) |
HK (1) | HK1024328A1 (ja) |
WO (1) | WO2000030287A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7058573B1 (en) * | 1999-04-20 | 2006-06-06 | Nuance Communications Inc. | Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US6665640B1 (en) | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6941265B2 (en) * | 2001-12-14 | 2005-09-06 | Qualcomm Inc | Voice recognition system method and apparatus |
US20060036434A1 (en) * | 2002-09-20 | 2006-02-16 | May Klaus P | Resource reservation in transmission networks |
US7169996B2 (en) * | 2002-11-12 | 2007-01-30 | Medialab Solutions Llc | Systems and methods for generating music using data/music data file transmitted/received via a network |
US7562015B2 (en) * | 2004-07-15 | 2009-07-14 | Aurilab, Llc | Distributed pattern recognition training method and system |
US8326609B2 (en) * | 2006-06-29 | 2012-12-04 | Lg Electronics Inc. | Method and apparatus for an audio signal processing |
US7778839B2 (en) * | 2007-04-27 | 2010-08-17 | Sony Ericsson Mobile Communications Ab | Method and apparatus for processing encoded audio data |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3479468D1 (en) * | 1984-05-23 | 1989-09-21 | Ibm | Digital transmission system for a packetized voice |
JPH01202947A (ja) * | 1988-02-09 | 1989-08-15 | Nippon Hoso Kyokai <Nhk> | パケットヘッダ識別方式 |
CA1323456C (en) * | 1989-09-11 | 1993-10-19 | Douglas James Millar | Transmission error protection for tdma digital channels |
JPH05347608A (ja) * | 1992-06-15 | 1993-12-27 | Matsushita Electric Ind Co Ltd | データ連送装置 |
US5603081A (en) * | 1993-11-01 | 1997-02-11 | Telefonaktiebolaget Lm Ericsson | Method for communicating in a wireless communication system |
JP2751788B2 (ja) * | 1993-07-08 | 1998-05-18 | 松下電器産業株式会社 | データ伝送装置 |
JP3181159B2 (ja) * | 1993-11-16 | 2001-07-03 | 三洋電機株式会社 | 誤り訂正制御方法 |
ZA948426B (en) * | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
SE504396C2 (sv) * | 1994-04-28 | 1997-01-27 | Ericsson Telefon Ab L M | Detektering av felaktigt mottagna dataramar i ett kommunikationssystem |
FI944345A (fi) * | 1994-09-19 | 1996-03-20 | Nokia Telecommunications Oy | Menetelmä virheellisten puhekehysten tunnistamiseksi puhetta välittävän tietoliikennejärjestelmän vastaanottimessa, sekä tietoliikennejärjestelmän vastaanotin |
GB2306861B (en) * | 1995-11-03 | 2000-07-12 | Motorola Ltd | Method and apparatus for handling erroneous data frames on a multi-hop communication link |
US5960399A (en) * | 1996-12-24 | 1999-09-28 | Gte Internetworking Incorporated | Client/server speech processor/recognizer |
JP3194878B2 (ja) * | 1996-12-26 | 2001-08-06 | 松下電器産業株式会社 | データ伝送方法及びデータ伝送システム |
US5956330A (en) * | 1997-03-31 | 1999-09-21 | Resound Corporation | Bandwidth management in a heterogenous wireless personal communications system |
EP0946013A4 (en) * | 1997-08-11 | 2002-11-13 | Sony Corp | DEVICE AND METHOD FOR TRANSMITTING DIGITAL DATA, DEVICE AND METHOD FOR DEMODULATING DIGITAL DATA, AND TRANSMISSION MEDIUM |
US6363349B1 (en) * | 1999-05-28 | 2002-03-26 | Motorola, Inc. | Method and apparatus for performing distributed speech processing in a communication system |
-
1998
- 1998-11-13 GB GB9824904A patent/GB2343778B/en not_active Expired - Lifetime
-
1999
- 1999-11-12 JP JP2000583192A patent/JP4531261B2/ja not_active Expired - Fee Related
- 1999-11-12 US US09/830,305 patent/US6732072B1/en not_active Expired - Lifetime
- 1999-11-12 DE DE69920255T patent/DE69920255T2/de not_active Expired - Lifetime
- 1999-11-12 AU AU15068/00A patent/AU1506800A/en not_active Abandoned
- 1999-11-12 AT AT99957323T patent/ATE276613T1/de not_active IP Right Cessation
- 1999-11-12 EP EP99957323A patent/EP1129537B8/en not_active Expired - Lifetime
- 1999-11-12 WO PCT/EP1999/009030 patent/WO2000030287A1/en active IP Right Grant
-
2000
- 2000-06-13 HK HK00103541A patent/HK1024328A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
GB9824904D0 (en) | 1999-01-06 |
HK1024328A1 (en) | 2000-10-05 |
EP1129537B1 (en) | 2004-09-15 |
WO2000030287A1 (en) | 2000-05-25 |
GB2343778B (en) | 2003-03-05 |
EP1129537A1 (en) | 2001-09-05 |
AU1506800A (en) | 2000-06-05 |
EP1129537B8 (en) | 2004-12-29 |
DE69920255D1 (de) | 2004-10-21 |
GB2343778A (en) | 2000-05-17 |
US6732072B1 (en) | 2004-05-04 |
JP2002530931A (ja) | 2002-09-17 |
DE69920255T2 (de) | 2005-09-15 |
ATE276613T1 (de) | 2004-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR0168900B1 (ko) | 전송채널 유도 에러의 마스킹을 위하여 보코더 데이타를 배열하는 방법 및 장치 | |
US7752522B2 (en) | Method and apparatus for recovery of particular bits of a frame | |
JP4875249B2 (ja) | 自動音声認識実行方法 | |
JP4531261B2 (ja) | 分散音声認識プロセスにおける受信データの処理方法および装置 | |
JP2001503233A (ja) | 可変レートデータをデコードする方法及び装置 | |
JP2006099124A (ja) | デジタル無線チャネル上の自動音声/話者認識 | |
KR20010005541A (ko) | 다중 레이트 신호를 위한 crc 외부 코드로 리스트 출력 비터비 복호화 시스템 | |
JP2000357999A5 (ja) | ||
JP4510293B2 (ja) | 分散音声認識プロセスにおけるエラーの軽減方法および装置 | |
AU706921B2 (en) | Method and apparatus for minimal redundancy error detection and correction of voice spectrum parameters | |
KR100743575B1 (ko) | 코딩된 음성 통신에서 오염된 신호 파라미터를 검출하고 보정하는 방법, 수신기, 컴퓨터 프로그램을 포함한 기록 매체, 및 무선 전화 | |
JP5122716B2 (ja) | 分散型音声認識プロセス及びシステムにおける伝送エラーの影響を緩和する方法及び装置 | |
US6606722B1 (en) | Methods and apparatus for providing transparent error correction for wireless Baudot communications | |
JP2002501328A (ja) | 情報を、ソース制御チャネルデコーディングを使用してコーディング、デコーディングおよび伝送するための方法および装置 | |
JP2000004171A (ja) | 移動体通信方法 | |
US6892340B1 (en) | Method and apparatus for reducing channel induced errors in speech signals | |
US20240112688A1 (en) | Audio compression device, audio compression system, and audio compression method | |
JP2000244460A (ja) | 伝送路誤り符号付加・検出装置 | |
US20090067550A1 (en) | Method and system for redundancy-based decoding of audio content | |
MXPA98007407A (en) | Effective derivation of error control decoder in a digital radio system to try or update a team exists |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091009 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091014 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100113 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100414 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100511 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100609 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4531261 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130618 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |