JP2002530931A - 分散音声認識プロセスにおける受信データの処理方法および装置 - Google Patents
分散音声認識プロセスにおける受信データの処理方法および装置Info
- Publication number
- JP2002530931A JP2002530931A JP2000583192A JP2000583192A JP2002530931A JP 2002530931 A JP2002530931 A JP 2002530931A JP 2000583192 A JP2000583192 A JP 2000583192A JP 2000583192 A JP2000583192 A JP 2000583192A JP 2002530931 A JP2002530931 A JP 2002530931A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- header
- header information
- data
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 239000013598 vector Substances 0.000 description 30
- 238000005070 sampling Methods 0.000 description 24
- 238000004891 communication Methods 0.000 description 23
- 230000005540 biological transmission Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000010267 cellular communication Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 101100219325 Phaseolus vulgaris BA13 gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/0078—Avoidance of errors by organising the transmitted data in a format specifically designed to deal with errors, e.g. location
- H04L1/0083—Formatting with frames or packets; Protocol or part of protocol for error control
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Communication Control (AREA)
- Mobile Radio Communication Systems (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
- Computer And Data Communications (AREA)
- Exchange Systems With Centralized Control (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
。また、本発明は、分散音声認識プロセスにおいて受信データを処理する装置に
関する。本発明は、無線通信リンク上で送信される際の音声認識パラメータに関
する受信データの処理に適するが、それに限定されるものではない。
句を自動的に認識するためのプロセスである。このようなプロセスは、スイッチ
,キーボード,マウスなどより一般的に利用されるツールを用いる他に、あるい
は用いる代わりに、人間と機械との間のインタフェースとして利用できる。また
音声認識プロセスは、発声通信またはメッセージから自動的に情報を取り出すた
めにも利用できる。
つつある。ある方法は、対応する学習戦略(heuristic strategies)とともに幅広
い知識に基づき、また他の方法は統計モデルを採用する。
回など、サンプリング・タイムフレーム中に複数回サンプリングされる。サンプ
リングされた値は、音声認識パラメータを与えるアルゴリズムを利用して処理さ
れる。例えば、一つの種類の音声認識パラメータは、メル・ケプストラム係数(m
el cepstral coefficient)として知られる係数からなる。このような音声認識パ
ラメータは、アレイ(array)として知られるベクトルの形式に配列され、アレイ
はある次数で配列されたパラメータのグループまたはセット(群または集合)と
して考えることができる。サンプリング・プロセスは、さらなるサンプリング・
タイムフレームのために反復される。典型的なフォーマットでは、各サンプリン
グ・タイムフレーム毎に一つのベクトルが生成される。
トエンド動作を構成する。ベクトルに配列された上記の音声認識パラメータは、
音声認識プロセスのいわゆるバックエンド動作において、音声認識手法に従って
解析される。フロントエンド処理およびバックエンド処理が同じ位置であるいは
同じデバイスで実行される音声認識プロセスでは、フロントエンドからバックエ
ンドに至る間に音声認識パラメータに導入されるエラーが生じる尤度は最小限で
ある。
して知られるプロセスでは、音声認識プロセスのフロントエンド部分はバックエ
ンド部分から離れて実行される。第1位置において、音声はサンプリングされ、
パラメータ化され、音声認識パラメータはベクトルに配列される。音声認識パラ
メータは量子化された後、例えば、確立された通信システムの通信リンク上で、
第2位置に送信される。多くの場合、第1位置は遠隔端末であり、第2位置は中
央処理局である。受信された音声認識パラメータは、第2位置にて音声認識手法
に従って解析される。量子化された音声認識パラメータと、そのベクトル配列は
データを構成し、このデータは第1位置から送信され、第2位置にて受信される
。このデータの送信を促進するために、一般にデータは、複数のデータ・フレー
ムからなるフレーム構造に配列され、各データ・フレームの前には、共通のヘッ
ダ情報からなる各ヘッダ・フレームが配置される。また、ヘッダ・フレームは、
該ヘッダ・フレームあるいは該ヘッダ・フレームに対応する特定のデータ・フレ
ームのみに固有のヘッダ情報をさらに含むようなヘッダ・フレームでもよい。
プロセス用として検討できる。一例として、従来の有線通信システム、例えば、
一般電話交換網(PSTN)がある。別の例としては、無線通信システム、例え
ば、TETRAがある。別の例としては、セルラ無線通信システムがある。適用
可能なセルラ通信システムの一例として、GSM(global system for mobile co
mmunications)システムがあり、別の例としては、現在標準化が進んでいるUM
TS(Universal Mobile Telecommunications System)などのシステムがある。
通信システムの時分割多元接続(TDMA)タイムフレームなど、第1位置から
第2位置にデータが送信されるところの通信システムの通信リンク上でデータを
送信する際に用いられる送信フレームと混同すべきでないことを指摘しておく。
リンク上で第1位置から第2位置に送信されるデータまたヘッダ情報にエラーが
生じる可能性が生まれる。
特性に特に適した方法で、ヘッダ情報に生じるエラーに対してある程度の耐性を
提供する、受信データを処理するための手段を提供することが望ましい。
通信システムにおいてエラー検出手法を提供することが知られている。周知の手
法の一つに、循環冗長符号化(cyclic redundancy coding)がある。また、送信情
報のある部分におけるエラーを訂正するように、通信システムにおいて自動エラ
ー訂正手法を提供することが知られている。周知の手法の一つに、ゴーレイ(Gol
ay)エラー訂正がある。また、エラー検出およびエラー訂正を組み合わせて採用
することも知られている。
来のエラー部分とは別のさらなる矛盾(discrepancies)を含むという危険がある
。なぜならば、このような方法は最良の全体的に正しいと想定される解への近似
を伴う傾向があるためである。これは、ブロック・ベースの符号化方式を利用す
る符号化を採用する順方向エラー訂正手法の場合である。このような例の一つに
ゴーレイ符号化(Golay coding)があり、この符号化により、例えば、12ビット
の情報を24ビット中に送信でき、その際に最大3つのエラーを訂正できる。訂
正手法では、情報の全体、例えば、複合的にヘッダ・フレーム全体の訂正を行う
。しかし、4つ以上のエラーが24ビット中に生じると、訂正手法はヘッダ全体
を誤って訂正されたものに訂正する。分散音声認識プロセスにおいて、ヘッダ・
フレーム全体を誤って訂正されたものに複合的に訂正することに関連する問題を
緩和する、受信データを処理するための手段を提供することが望ましい。
の手法は、、分散音声認識プロセスにおいて上記のヘッダ・フレームにおけるエ
ラーに適用した場合に、必ずしも問題がないわけではない。これは、部分的には
、対応するデータ・フレームにおけるデータは各ヘッダ・フレーム情報を利用し
て処理されることに起因する。従って、二次的問題を緩和する、分散音声認識プ
ロセスにおいて受信データを処理するための手段を提供することが望ましい。
プロセスにおいて受信データを処理する方法が提供される。
識プロセスにおいて受信データを処理する装置が提供される。
手段を提供し、この形態において、データは第1位置から第2位置に送信される
際に受信され、この方法において、該データは分散音声認識プロセスにおける第
2位置にて受信した後に処理される。
を許容する可能性が利用される。特に利用されるのは、分散音声認識プロセスに
おいて、メッセージの開始に向かう待ち時間は、メッセージの最後における低い
待ち時間と組み合わせると、特に許容可能となるという要因である。
的に示すように、サンプリング・タイムフレームに対応するベクトルで配列され
る。
、さらに複雑なサンプル値のシーケンスからなるので、大幅に簡略化された形式
で示されている。図1において、第1サンプリング・タイムフレーム121,第
2サンプリング・タイムフレーム122,第3サンプリング・タイムフレーム1
23および第4サンプリング・タイムフレーム124が示されている、サンプリ
ング・タイムフレームは、図1に示すように音声信号上に重畳される。下記の実
施例では、毎秒100個のサンプリング・タイムフレームが存在する。音声信号
は、各サンプリング・タイムフレームの最中に反復的にサンプリングされる。
が採用されるプロセスである。最初の12個のパラメータは、最初の12個のス
タティック・メル・ケプストラム係数(static mel cepstral coefficients)、す
なわち、
られる音声認識パラメータは、ゼロ番目のケプストラム係数、すなわち、c0(
m)である。14番目に用いられる音声認識パラメータは、対数エネルギ項(log
arithmic energy term)、すなわち、log[E(m)]である。これらの係数
の詳細および音声認識プロセスにおける用途については当技術分野で周知であり
、ここではさらに詳しい説明を要しない。また、本発明はケプストラム係数以外
の音声認識パラメータの他の選択または方式の場合と同様に、音声認識パラメー
タを形成する他のケプストラム係数の組合せでも実行できることに留意されたい
。
に、アレイともいう対応するベクトルに配列、あるいはフォーマットされる。ベ
クトル131はサンプリング・タイムフレーム121に対応し、ベクトル132
はサンプリング・タイムフレーム122に対応し、ベクトル133はサンプリン
グ・タイムフレーム123に対応し、ベクトル134はサンプリング・タイムフ
レーム124に対応する。このようなベクトルは一般に次式のように表すことが
できる。
下記の実施例では、これは次のようにして実行される。ベクトル131からのパ
ラメータは量子化される。これは、ベクトルをスプリット・ベクトル量子化器(s
plit vector quantizer)で直接量子化することによって実施される。係数はペア
にグループ化され、各ペアは、該ペアについてあらかじめ決められたベクトル量
子化(VQ:vector quantization)コードブックを利用して量子化される。そ
れによって得られるインデクス値のセットは、音声フレームを表すために用いら
れる。各ペアについて用いられるコードブック・サイズとともに、フロントエン
ド・パラメータ毎の係数ペアリングを以下の表1に示す。
ド距離(weighted Euclidian distance)を利用して求められる
表し、Ni,i+1はコードブックのサイズであり、Wi,i+1はコードブックQi,i+1
について適用される(大体は単位行列(identity))加重マトリクスであり、id
xi,i+1(m)はベクトル[yi(m),yi+1(m)]Tを表すために選択された
コードブック・インデクスを表す。
トは、図1の参照番号141に示されるように、ビット・ストリーム・フレーム
150の最初の44スロットに入れられる。次のベクトル、すなわち、ベクトル
132について生成された対応する44ビットは、図1の参照番号142に示さ
れるように、ビット・ストリーム・フレーム150の次の44スロットに入れら
れる。ビット・ストリーム・フレーム150の残りのビットは、図1の参照番号
146に示されるように、循環冗長符号の4ビットからなり、このビットの値は
、ビット・ストリーム・フレーム150の88個の前置ビット全体について、周
知な方法でエラー検出を行うように判定される。同様に、ベクトル133から与
えられる44ビットは、図1の参照番号143に示されるように、第2ビット・
ストリーム・フレーム155の最初の44スロットに入れられる。また、次のベ
クトル、すなわち、ベクトル134について生成された対応する44ビットは、
図1の参照番号144に示されるように、ビット・ストリーム・フレーム155
の次の44スロットに入れられる。ビット・ストリーム・フレーム155の残り
のビットは、図1の参照番号148に示されるように、循環冗長符号の4ビット
からなる。この配列は、以降のベクトルについて反復される。2つのベクトルか
らのビット・データが一つの合成ビット・ストリーム・フレームにて配列される
ところの上記のビット・ストリーム・フレームのフォーマットは一例に過ぎない
。例えば、各ベクトルのデータは、それ自体のエラー検出ビットを含む一つのビ
ット・ストリーム・フレームで配列してもよい。同様に、ビット・ストリーム・
フレーム毎のスロットの数は一例に過ぎない。
すようにさらに配列される。ビット・ストリーム・フレームは、それぞれが一つ
またはそれ以上のビット・ストリーム・フレームからなるデータ・フレームで配
列される。本実施例では、各データ・フレームは12個のビット・ストリーム・
フレームを収容する。従って、この例では、データ・フレーム230が図示され
、ビット・ストリーム・フレーム150,155と、211〜220と記された
さらに10個のビット・ストリーム・フレームとによって構成される。データ・
フレーム230の前には、図2に示されるように、その対応するヘッダ・フレー
ム240が配置される。それぞれがその前に各ヘッダ・フレームを有する各デー
タ・フレームは、図3に示すように連続的に配列され、ここでヘッダ・フレーム
240はその対応するデータ・フレーム230の前にあり、ヘッダ・フレーム3
10はその対応するデータ・フレーム320の前にあり、ヘッダ・フレーム33
0はその対応するデータ・フレーム340の前にある。実際には、対応するデー
タ・フレームを有する多くのこのようなヘッダ・フレームが続く。本実施例では
、各ヘッダ・フレームは24個のスロットからなる。データ・フレームおよびヘ
ッダ・フレームの上記のフォーマットは、一例に過ぎない。同様に、データ・フ
レーム毎のビット・ストリーム・フレームの数およびヘッダ・フレーム内のスロ
ットの数は一例に過ぎない。
同一の情報である。この情報は、上記のようにデータが処理される際に用いられ
、ここで用いられる情報は、サンプリング・レートが適用可能であるような例を
挙げた。この例では、可能なサンプリング・レート値は8kHzおよび16kH
zである。別の可能性は、標準または雑音耐久(noise robust)プロトコルまたは
トラックが適用可能であるかどうかに関する情報である。
いてある程度変化する情報をさらに含むことができる。フレーム固有情報の一例
は、第1のメッセージ終了認識(end-of-message recognition)方法に従って、メ
ッセージ終了指標(end-of-message indicator)、すなわち、メッセージが終了す
ることを示す信号、を含む。この例では、第1のメッセージ終了認識方法は、デ
ータ・フレームを適切な長さに詰める(pad out)ために送信機によって挿入され
る、ヘッダ内のメッセージ終了指標によって通知される最後のデータ・フレーム
内のオール・ゼロ・ビット・ストリーム・フレームを探すことからなる。メッセ
ージ終了指標は、ヘッダのフレーム固有データ部分内で設定される単一ビットか
らなる。フレーム固有情報の別の例は、音声に対する並列チャネル、例えば、ボ
タン押下(button press)の信号、を実質的に表す情報である。
化されるところの本発明の別の態様は、以下で説明する一例としての実施例にお
いて採用される。この例で採用される特定の種類のエラー保護はゴーレイ・エラ
ー保護(Golay error protection)であり、その一般特性および採用モードは当技
術分野において周知である。この場合、用いられる特定の値等は次の通りである
。ヘッダ・フレームの情報は、[24,12,8]拡張システマティック・ゴー
レイ・コードワードにおいて表される。この符号は12ビットのデータをサポー
トし、最大3つのビット・エラーに対してエラー訂正能力を有する。このプロセ
スは、全部で24ビットまでの容量を提供し、ヘッダ情報用の12ビットと、エ
ラー保護からの12パリティ・ビットとからなる。利用するヘッダ情報が、この
方式において全部で12ビット未満しか必要としないような情報である場合、こ
れらのビットは不変的なゼロに設定でき、将来の変更使用に対応できるように、
すなわち、拡張ビット(expansion bits)として実質的に保留できる。24ビット
をフィールドに配列することは、当業者に既知の方法で実行できる。この例では
、配列は以下の表2に示す通りであり、フィールドの定義は以下の表3に示す通
りである。
追加により、24ビットに拡張される。コードワードのパリティ・ビットは、以
下の計算を用いて発生される。
およびデータ・フレームは、データが第1位置から第2位置に送信されるところ
の通信システムの通信リンク上でビット・ストリーム・データを送信する際に用
いられる送信フレーム、例えば、本明細書で説明される実施例にて採用される通
信システムであるGSMセルラ無線通信システムの時分割多元接続(TDMA)
タイムフレーム、と混同すべきでないことを指摘しておく。この例では、第1位
置は遠隔ユーザ局からなり、第2位置、すなわち、受信側位置は、例えば、セル
ラ通信システムの基地局に配置できる集中処理局(centralized processing stat
ion)からなる。従って、本明細書で説明する実施例では、音声認識パラメータは
、無線通信リンク上で第1位置から第2位置に送信される。ただし、第1位置お
よび第2位置の性質は、検討対象の通信システムの種類と、そこにおける分散音
声認識プロセスの構成とに依存することを理解されたい。
に第2位置においてその送信フォーマットから再構築される。その後、ヘッダ・
フレームおよびデータ・フレームに収容されたデータは、各ヘッダ・フレーム情
報を利用して処理される。一つの方法では、サンプリング・レートが採用されて
いる収容された情報が用いられるように、各ヘッダ・フレーム情報が用いられる
。データの処理は、ビット・ストリーム・フレームから音声認識パラメータを取
り出して、音声認識自体を実行することを含む。あるいは、処理は、適切な種類
のフレーム固有ヘッダ情報から導出される手順を実行することを含むことができ
る。上記の例では、フレーム固有ヘッダ情報は、音声に対する並列チャネル、例
えば、ボタン押下の信号、を実質的に表し、そのため処理はこの信号に対して既
知の方法で適切に応答することを含むことができる。
出すことは、次のようにして行われる。音声認識パラメータは、上記のベクトル
量子化手順の逆手順を実行することによって、ビット・ストリーム・フレームか
ら取り出される。さらに具体的には、インデクスはビット・ストリームから抽出
され、これらのインデクスを利用して、ベクトルは以下の形式で再構築される。
化方式を利用して順方向エラー訂正符号化されるので、このようなエラー訂正は
、第2位置にてデータを受信した後に復号する必要がある。このゴーレイ・エラ
ー保護の場合、このような復号は当技術分野で周知のいくつかの方法のうちの一
つで実行できる。
分散音声認識プロセスについて説明したが、この複数のデータ・フレームの各デ
ータ・フレームの前には、共通のヘッダ情報を含むヘッダ情報からなる各ヘッダ
・フレームが配置され、第1位置から送信された前記データは第2位置にて受信
され、前記データは各ヘッダ・フレーム情報を用いて処理され、ヘッダ情報はブ
ロック・ベースの符号化方式を利用して順方向エラー訂正符号化される。
方法は、図4のプロセス・フローチャートに示される。図4を参照して、機能ボ
ックス410は、複数のヘッダ・フレームのそれぞれからの前記共通ヘッダ情報
の受信形態を比較する段階を示す。本実施例において、これはヘッダ・フレーム
240,ヘッダ・フレーム310,ヘッダ・フレーム330および以降のヘッダ
・フレームからの共通ヘッダ情報の受信形態を比較することからなる。比較すべ
き共通ヘッダ・フレーム情報は、本実施例では、サンプリング・レートの通知さ
れた値と、トラックが標準または雑音耐久(noise robust)であるかどうかである
。
・フレームが前記共通ヘッダ情報の同一受信形態を有することが判明した場合に
、この同一受信形態を基準として分類する段階である。本実施例では、所定の数
は30であるが、この数値は一般に検討対象の特定のシステムの条件に応じて一
般に選択される。この方法段階を実行することによって、用いられる共通ヘッダ
情報の値に対する信頼が得られる。この手順を実行する際に、特に所定の数がは
るかに高いレベルに設定される場合に、生じる遅延は本発明において対処される
。なぜならば、本発明は、メッセージの開始における待ち時間が比較的許容可能
であるところの分散音声認識システムの特性を利用するためである。
形態が前記基準と異なる各ヘッダ・フレームに対応する一つまたはそれ以上の受
信データ・フレームを、受信した異なる形態ではなく、基準形態を利用すること
により処理する段階である。従って、不適切に受信された、あるいは信頼できな
い共通ヘッダ情報は除外され、関連するデータ・フレームが適正な共通ヘッダ情
報に従って有利に処理される。
で構成され、特に、フレーム固有ヘッダ情報が音声に対する並列チャネル、すな
わち、ボタン押下の信号を実質的に表す、というオプションを含む。通常、処理
はこの信号に対して既知の方法で適切に応答することを含む。ただし、本実施例
のこの様式では、共通ヘッダ情報の受信形態が前記基準と異なる、一つまたはそ
れ以上のヘッダ・フレームのフレーム固有ヘッダ情報は除外される、すなわち、
ボタン押下信号に対する応答は遮断される。こうすることにより、このヘッダ・
フレームの共通ヘッダ情報が誤りであるならば、同じヘッダ・フレーム内のフレ
ーム固有情報も誤りである可能性が高いという観点に基づいて、信頼できない命
令は回避される。
んで構成され、特に第1メッセージ終了認識方法のメッセージ終了指標を適宜示
すために用いられるフィールドを収容するという、オプションを含む。この第1
メッセージ終了認識方法については、上で説明した通りである。上記の一例とし
てのヘッダ・フィールド配置について、表2および表3を参照して、メッセージ
終了指標フィールドは、これらの表に設けた将来の拡張スペースのうちの一つま
たはそれ以上を利用することを留意されたい。通常、処理は、メッセージ終了手
順を実行することによって、このメッセージ終了指標に応答することを含む。た
だし、本実施例のこの様式では、共通ヘッダ情報の受信形態が前記基準と異なる
一つまたはそれ以上のヘッダ・フレームのフレーム固有ヘッダ情報、すなわち、
第1メッセージ終了認識方法のメッセージ終了指標は、共通ヘッダ情報の受信形
態が前記基準と同じであるヘッダ・フレームのフレーム固有ヘッダ情報と比較し
て、異なる用いられかたをする。特に、額面的にはメッセージ終了指標であるも
の応答して、メッセージ終了手順を実際に実行するのではなく、第2メッセージ
終了手順が開始される。従って、一方では、すでに誤った共通情報を有するヘッ
ダ・フレームに収容されているので指標がエラーである場合に、この指標に応答
する必要を省くことにより、メッセージ終了手順の誤った実行が回避されるが、
もう一方では、部分的に誤りであるヘッダ・フレームに収容されているにもかか
わらず、メッセージ終了指標が実際に正しかった場合に、メッセージ終了が実際
に検出されることを保証するバックアップの意味で、別のメッセージ終了手順が
起動される。なお、上記のメッセージ終了の主題は、本発明に従って、共通ヘッ
ダ情報の矛盾に基づいて異なる処理を施すことができるフレーム固有情報の種類
の一例を表すに過ぎないことを理解されたい。それどころか、実際には、本発明
のこの態様は、共通情報部分においてエラーを有することがすでに判明している
ヘッダ・フレームにおいて、情報がエラーを有する可能性がより高いという懸念
がある場合に、慎重な処理の方が有利であろう任意の種類のフレーム固有情報に
適用可能である。
用して順方向エラー訂正符号化されるという、任意の特長を含むことができる。
このような方式を実施することの詳細については、すでに説明済みである。この
特長を含めると、本発明の利点は、このような修理のエラー訂正の複合的な性質
により、特に増長される。複合的なやり方でヘッダ・フレーム全体が訂正される
ので、共通ヘッダ情報が受信すべきものとは異なる場合には、基本的にヘッダ情
報の残りの部分もエラーである可能性が高い。本例では、これは一つのヘッダ・
フレーム内の4ビット以上がエラーである場合に特に生じる可能性が高い。
降の処理段階から単純に除外される。トレード・オフの意味では、これは処理の
低減という利点を提供する。しかし、代替実施例では、前記基準が判定される前
に受信されたデータ・フレームは、前記基準が判定された後に、処理の前にバッ
ファされる。トレード・オフの意味では、これらの代替実施例は、データが失わ
れないという意味でより良好な品質を提供するが、さらなるバッファを含むより
多くの処理が必要になる。さらに、これらの代替実施例は、特に、メッセージの
開始における待ち時間が比較的容易に許容できるという観点において、分散音声
認識プロセスの待ち時間特性をさらに有利に利用する。
xxx(商標)ファミリーのデバイスから選択されるデバイスなど、プログラマ
ブル・デジタル信号処理デバイスによって実行される。あるいは、特定用途向け
集積回路(ASIC)を採用できる。他の可能性も存在する。例えば、無線受信
機と、バックエンド音声認識プロセッサの一部をなすコンピュータ・システムと
の間をインタフェースするインタフェース・ユニットを利用できる。
された音声認識パラメータの模式図である。
ット・ストリーム・フレームの模式図である。
。
Claims (12)
- 【請求項1】 分散音声認識プロセスにおいて受信データを処理する方法で
あって、前記分散音声認識プロセスでは、複数のデータ・フレームからなるフレ
ーム構造でデータが配列され、前記複数のデータ・フレームのそれぞれの前には
、共通ヘッダ情報を含むヘッダ情報からなる各ヘッダ・フレームが配置され、第
1位置から送信された前記データは第2位置にて受信され、前記データは各ヘッ
ダ・フレーム情報を利用して処理され、当該方法は: 複数のヘッダ・フレームのそれぞれからの前記共通ヘッダ情報の受信形態を比
較する段階; 所定数の前記ヘッダ・フレームが前記共通ヘッダ情報の同一の受信形態を有す
ることが判明した場合に、該同一の受信形態を基準として分類する段階;および 前記共通ヘッダ情報の受信形態が前記基準と異なる各ヘッダ・フレームに対応
する一つまたはそれ以上の受信データ・フレームを、受信した異なる形態ではな
く前記の基準の形態を利用することにより処理する段階; によって構成されることを特徴とする方法。 - 【請求項2】 前記ヘッダ情報は、フレーム固有ヘッダ情報をさらに含んで
構成され、前記共通ヘッダ情報の受信形態が前記基準と異なる一つまたはそれ以
上のヘッダ・フレームのフレーム固有ヘッダ情報は除外されることを特徴とする
請求項1記載の方法。 - 【請求項3】 前記ヘッダ情報は、フレーム固有ヘッダ情報をさらに含んで
構成され、前記共通ヘッダ情報の受信形態が前記基準と異なる一つまたはそれ以
上のヘッダ・フレームのフレーム固有ヘッダ情報は、前記共通ヘッダ情報の受信
形態が前記基準と同じであるヘッダ・フレームのフレーム固有ヘッダ情報と比較
して、異なる用いられかたをすることを特徴とする請求項1記載の方法。 - 【請求項4】 異なる用いられかたをする前記フレーム固有情報は、第1メ
ッセージ終了認識方法のメッセージ終了指標であり、これに応答して、第2メッ
セージ終了方法が開始されることを特徴とする請求項3記載の方法。 - 【請求項5】 前記ヘッダ情報は、ブロック・ベースの符号化方式を利用し
て、順方向エラー訂正符号化されることを特徴とする任意の上記の請求項記載の
方法。 - 【請求項6】 前記基準が判定される前に受信されたデータ・フレームは、
前記基準が判定された後に、処理の前にバッファされることを特徴とする任意の
上記の請求項記載の方法。 - 【請求項7】 分散音声認識プロセスにおいて受信データを処理する装置で
あって、前記分散音声認識プロセスでは、複数のデータ・フレームからなるフレ
ーム構造でデータが配列され、前記複数のデータ・フレームのそれぞれの前には
、共通ヘッダ情報を含むヘッダ情報からなる各ヘッダ・フレームが配置され、第
1位置から送信された前記データは第2位置にて受信され、前記データは各ヘッ
ダ・フレーム情報を利用して処理され、当該装置は: 複数のヘッダ・フレームのそれぞれからの前記共通ヘッダ情報の受信形態を比
較する手段; 所定数の前記ヘッダ・フレームが前記共通ヘッダ情報の同一の受信形態を有す
ることが判明した場合に、前記同一の受信形態を基準として分類する手段;およ
び 前記共通ヘッダ情報の受信形態が前記基準と異なる各ヘッダ・フレームに対応
する一つまたはそれ以上の受信データ・フレームを、受信した異なる形態ではな
く、前記の基準の形態を利用することにより処理する手段; によって構成されることを特徴とする装置。 - 【請求項8】 前記ヘッダ情報は、フレーム固有ヘッダ情報をさらに含んで
構成され、前記共通ヘッダ情報の受信形態が前記基準と異なる一つまたはそれ以
上のヘッダ・フレームのフレーム固有ヘッダ情報は除外されることを特徴とする
請求項7記載の装置。 - 【請求項9】 前記ヘッダ情報は、フレーム固有ヘッダ情報をさらに含んで
構成され、前記共通ヘッダ情報の受信形態が前記基準と異なる一つまたはそれ以
上のヘッダ・フレームのフレーム固有ヘッダ情報は、前記共通ヘッダ情報の受信
形態が前記基準と同じであるヘッダ・フレームのフレーム固有ヘッダ情報と比較
して、異なる用いられかたをすることを特徴とする請求項7記載の装置。 - 【請求項10】 異なる用いられかたをする前記フレーム固有情報は、第1
メッセージ終了認識方法のメッセージ終了指標であり、これに応答して、第2メ
ッセージ終了方法が開始されることを特徴とする請求項9記載の方法。 - 【請求項11】 前記ヘッダ情報は、ブロック・ベースの符号化方式を利用
して、順方向エラー訂正符号化されることを特徴とする請求項7ないし請求項1
0記載の装置。 - 【請求項12】 前記基準が判定される前に受信されたデータ・フレームは
、前記基準が判定された後に、処理の前にバッファされることを特徴とする請求
項7ないし請求項11記載の装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB9824904.8 | 1998-11-13 | ||
GB9824904A GB2343778B (en) | 1998-11-13 | 1998-11-13 | Processing received data in a distributed speech recognition process |
PCT/EP1999/009030 WO2000030287A1 (en) | 1998-11-13 | 1999-11-12 | Processing received data in a distributed speech recognition process |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002530931A true JP2002530931A (ja) | 2002-09-17 |
JP4531261B2 JP4531261B2 (ja) | 2010-08-25 |
Family
ID=10842399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000583192A Expired - Fee Related JP4531261B2 (ja) | 1998-11-13 | 1999-11-12 | 分散音声認識プロセスにおける受信データの処理方法および装置 |
Country Status (9)
Country | Link |
---|---|
US (1) | US6732072B1 (ja) |
EP (1) | EP1129537B8 (ja) |
JP (1) | JP4531261B2 (ja) |
AT (1) | ATE276613T1 (ja) |
AU (1) | AU1506800A (ja) |
DE (1) | DE69920255T2 (ja) |
GB (1) | GB2343778B (ja) |
HK (1) | HK1024328A1 (ja) |
WO (1) | WO2000030287A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008501125A (ja) * | 2003-01-07 | 2008-01-17 | マドウェイブス・リミテッド | 携帯用音声合成のためのシステム及び方法 |
JP4875204B2 (ja) * | 2007-04-27 | 2012-02-15 | ソニー エリクソン モバイル コミュニケーションズ, エービー | 符号化オーディオデータを処理するための装置及び方法 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7058573B1 (en) * | 1999-04-20 | 2006-06-06 | Nuance Communications Inc. | Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US6665640B1 (en) | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US6941265B2 (en) * | 2001-12-14 | 2005-09-06 | Qualcomm Inc | Voice recognition system method and apparatus |
JP2006500816A (ja) * | 2002-09-20 | 2006-01-05 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 伝送ネットワークにおける資源予約 |
US7562015B2 (en) * | 2004-07-15 | 2009-07-14 | Aurilab, Llc | Distributed pattern recognition training method and system |
EP2036204B1 (en) * | 2006-06-29 | 2012-08-15 | LG Electronics Inc. | Method and apparatus for an audio signal processing |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01202947A (ja) * | 1988-02-09 | 1989-08-15 | Nippon Hoso Kyokai <Nhk> | パケットヘッダ識別方式 |
JPH05347608A (ja) * | 1992-06-15 | 1993-12-27 | Matsushita Electric Ind Co Ltd | データ連送装置 |
JPH0730849A (ja) * | 1993-07-08 | 1995-01-31 | Matsushita Electric Ind Co Ltd | データ伝送装置 |
JPH07143100A (ja) * | 1993-11-16 | 1995-06-02 | Sanyo Electric Co Ltd | 誤り訂正制御方法 |
JPH09507105A (ja) * | 1993-12-22 | 1997-07-15 | クゥアルコム・インコーポレーテッド | 分散音声認識システム |
JPH10190634A (ja) * | 1996-12-26 | 1998-07-21 | Matsushita Electric Ind Co Ltd | データ伝送方法及びデータ伝送システム |
WO1999008412A1 (fr) * | 1997-08-11 | 1999-02-18 | Sony Corporation | Dispositif et procede pour transmettre des donnes numeriques, dispositif et procede pour demoduler des donnees numeriques, et support de transmission |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0162173B1 (fr) * | 1984-05-23 | 1989-08-16 | International Business Machines Corporation | Sytème numérique de transmission de la voix par paquets |
CA1323456C (en) * | 1989-09-11 | 1993-10-19 | Douglas James Millar | Transmission error protection for tdma digital channels |
US5603081A (en) * | 1993-11-01 | 1997-02-11 | Telefonaktiebolaget Lm Ericsson | Method for communicating in a wireless communication system |
SE504396C2 (sv) * | 1994-04-28 | 1997-01-27 | Ericsson Telefon Ab L M | Detektering av felaktigt mottagna dataramar i ett kommunikationssystem |
FI944345A (fi) * | 1994-09-19 | 1996-03-20 | Nokia Telecommunications Oy | Menetelmä virheellisten puhekehysten tunnistamiseksi puhetta välittävän tietoliikennejärjestelmän vastaanottimessa, sekä tietoliikennejärjestelmän vastaanotin |
GB2306861B (en) * | 1995-11-03 | 2000-07-12 | Motorola Ltd | Method and apparatus for handling erroneous data frames on a multi-hop communication link |
US5960399A (en) * | 1996-12-24 | 1999-09-28 | Gte Internetworking Incorporated | Client/server speech processor/recognizer |
US5956330A (en) * | 1997-03-31 | 1999-09-21 | Resound Corporation | Bandwidth management in a heterogenous wireless personal communications system |
US6363349B1 (en) * | 1999-05-28 | 2002-03-26 | Motorola, Inc. | Method and apparatus for performing distributed speech processing in a communication system |
-
1998
- 1998-11-13 GB GB9824904A patent/GB2343778B/en not_active Expired - Lifetime
-
1999
- 1999-11-12 US US09/830,305 patent/US6732072B1/en not_active Expired - Lifetime
- 1999-11-12 JP JP2000583192A patent/JP4531261B2/ja not_active Expired - Fee Related
- 1999-11-12 WO PCT/EP1999/009030 patent/WO2000030287A1/en active IP Right Grant
- 1999-11-12 EP EP99957323A patent/EP1129537B8/en not_active Expired - Lifetime
- 1999-11-12 AT AT99957323T patent/ATE276613T1/de not_active IP Right Cessation
- 1999-11-12 DE DE69920255T patent/DE69920255T2/de not_active Expired - Lifetime
- 1999-11-12 AU AU15068/00A patent/AU1506800A/en not_active Abandoned
-
2000
- 2000-06-13 HK HK00103541A patent/HK1024328A1/xx not_active IP Right Cessation
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01202947A (ja) * | 1988-02-09 | 1989-08-15 | Nippon Hoso Kyokai <Nhk> | パケットヘッダ識別方式 |
JPH05347608A (ja) * | 1992-06-15 | 1993-12-27 | Matsushita Electric Ind Co Ltd | データ連送装置 |
JPH0730849A (ja) * | 1993-07-08 | 1995-01-31 | Matsushita Electric Ind Co Ltd | データ伝送装置 |
JPH07143100A (ja) * | 1993-11-16 | 1995-06-02 | Sanyo Electric Co Ltd | 誤り訂正制御方法 |
JPH09507105A (ja) * | 1993-12-22 | 1997-07-15 | クゥアルコム・インコーポレーテッド | 分散音声認識システム |
JPH10190634A (ja) * | 1996-12-26 | 1998-07-21 | Matsushita Electric Ind Co Ltd | データ伝送方法及びデータ伝送システム |
WO1999008412A1 (fr) * | 1997-08-11 | 1999-02-18 | Sony Corporation | Dispositif et procede pour transmettre des donnes numeriques, dispositif et procede pour demoduler des donnees numeriques, et support de transmission |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008501125A (ja) * | 2003-01-07 | 2008-01-17 | マドウェイブス・リミテッド | 携帯用音声合成のためのシステム及び方法 |
JP4875204B2 (ja) * | 2007-04-27 | 2012-02-15 | ソニー エリクソン モバイル コミュニケーションズ, エービー | 符号化オーディオデータを処理するための装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
GB2343778A (en) | 2000-05-17 |
EP1129537B1 (en) | 2004-09-15 |
DE69920255D1 (de) | 2004-10-21 |
GB9824904D0 (en) | 1999-01-06 |
ATE276613T1 (de) | 2004-10-15 |
JP4531261B2 (ja) | 2010-08-25 |
GB2343778B (en) | 2003-03-05 |
US6732072B1 (en) | 2004-05-04 |
AU1506800A (en) | 2000-06-05 |
WO2000030287A1 (en) | 2000-05-25 |
DE69920255T2 (de) | 2005-09-15 |
EP1129537A1 (en) | 2001-09-05 |
EP1129537B8 (en) | 2004-12-29 |
HK1024328A1 (en) | 2000-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100594670B1 (ko) | 자동 음성 인식 시스템 및 방법과, 자동 화자 인식 시스템 | |
US7496503B1 (en) | Timing of speech recognition over lossy transmission systems | |
US7752522B2 (en) | Method and apparatus for recovery of particular bits of a frame | |
KR100925667B1 (ko) | 로버스트 검사합들 | |
JP2010160506A (ja) | 分散音声認識プロセスにおけるエラーの軽減方法および装置 | |
JP2000357999A5 (ja) | ||
JP2002530931A (ja) | 分散音声認識プロセスにおける受信データの処理方法および装置 | |
US7478046B2 (en) | Server-client type speech recognition apparatus and method | |
JP5122716B2 (ja) | 分散型音声認識プロセス及びシステムにおける伝送エラーの影響を緩和する方法及び装置 | |
US6606722B1 (en) | Methods and apparatus for providing transparent error correction for wireless Baudot communications | |
US6892340B1 (en) | Method and apparatus for reducing channel induced errors in speech signals | |
US20240112688A1 (en) | Audio compression device, audio compression system, and audio compression method | |
JP3091828B2 (ja) | ベクトル量子化装置 | |
CN117457009A (zh) | 音频压缩装置、音频压缩系统及音频压缩方法 | |
CN116996489A (zh) | 投屏码的传输、投屏方法、装置及设备 | |
WO2001077991A2 (en) | Voice-based authentication over a noisy channel | |
JP4383635B2 (ja) | 音声データ受信方法およびマルチメディア伝送装置 | |
MXPA98007407A (en) | Effective derivation of error control decoder in a digital radio system to try or update a team exists |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091009 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091014 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100113 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100414 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100511 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100609 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4531261 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130618 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |