JP2002528804A - サービスアプリケーションに対するユーザインタフェースの音声制御 - Google Patents
サービスアプリケーションに対するユーザインタフェースの音声制御Info
- Publication number
- JP2002528804A JP2002528804A JP2000577652A JP2000577652A JP2002528804A JP 2002528804 A JP2002528804 A JP 2002528804A JP 2000577652 A JP2000577652 A JP 2000577652A JP 2000577652 A JP2000577652 A JP 2000577652A JP 2002528804 A JP2002528804 A JP 2002528804A
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- input signal
- audio input
- terminal
- remote
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000006870 function Effects 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims description 38
- 230000004044 response Effects 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 15
- 238000012545 processing Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 206010048669 Terminal state Diseases 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000009118 appropriate response Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 239000000853 adhesive Substances 0.000 description 1
- 230000001070 adhesive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 101150088657 asR3 gene Proteins 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000003292 glue Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003389 potentiating effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Information Transfer Between Computers (AREA)
Abstract
(57)【要約】
遠隔サーバから端末へ供給されたサービスアプリケーションの音声制御は、端末と遠隔アプリケーション部分とに分散される。所定のマークアップ言語によって定められた端末機能に関連する、ユーザから供給されたオーディオ入力の部分を認識するための比較的低能力の自動音声認識システム(ASR)が端末に備えられる。認識されたワードは、端末機能を制御するために用いられ、または、テキストに変換されて遠隔サーバへ送られる。オーディオ入力の非認識部分は、コード化され、もっと強力なASRを含む遠隔アプリケーション部分へ送られる。遠隔アプリケーション部分は、そのASRを用いて、アプリケーションによって定められたワードを認識する。認識されたワードは、テキストに変換され、遠隔サーバへ入力として供給される。逆方向では、遠隔アプリケーション部分が遠隔サーバから受取ったテキストは、コード化オーディオ出力信号に変換されて端末へ送られ、端末は次にスピーカへ供給されるべき信号を発生する。このようにして、遠隔サーバの視覚ディスプレイ出力およびキーボード入力の代わりに音声制御機構が用いられる。
Description
【0001】 (背景) 本発明は、一般的には、サービスアプリケーションの制御に関し、特に、サー
ビスアプリケーションの音声制御に関し、さらに特には、遠隔端末からのサービ
スアプリケーションの音声制御に関する。
ビスアプリケーションの音声制御に関し、さらに特には、遠隔端末からのサービ
スアプリケーションの音声制御に関する。
【0002】 最も一般的なタイプのインタネットアクセス用端末は、大形の高解像度ディス
プレイと比較的に高いデータ伝送帯域幅とを有する通常のパーソナルコンピュー
タ(PC)端末である。ユーザがインタネット接続を用いて遠隔位置にあるサー
ビスアプリケーションを制御しようとするときは、ユーザは、一般的に、PC端
末に関連するキーボードを用い、指令をタイプする。このデータはインタネット
を経てサービスアプリケーションへ通信され、その後、サービスアプリケーショ
ンはそれに対応して応答することができる。ユーザのPC端末ディスプレイは、
ユーザが容易に観察できるテキストおよび/またはグラフィックスの形式で応答
情報を表示する。
プレイと比較的に高いデータ伝送帯域幅とを有する通常のパーソナルコンピュー
タ(PC)端末である。ユーザがインタネット接続を用いて遠隔位置にあるサー
ビスアプリケーションを制御しようとするときは、ユーザは、一般的に、PC端
末に関連するキーボードを用い、指令をタイプする。このデータはインタネット
を経てサービスアプリケーションへ通信され、その後、サービスアプリケーショ
ンはそれに対応して応答することができる。ユーザのPC端末ディスプレイは、
ユーザが容易に観察できるテキストおよび/またはグラフィックスの形式で応答
情報を表示する。
【0003】 無線マークアップ言語(WML)を用いた無線アプリケーションプロトコル(
WAP)の最近の標準化は、小形ディスプレイと制限された処理能力と低い伝送
帯域幅とを有する端末(例えば、ディジタルセルラ電話機および端末)がインタ
ネットのようなサービスネットワークにおけるサービスおよびコンテンツにアク
セスし制御することを可能にした。WAPは、ネットワーク層(例えば、トラン
スポート層およびセッション層)とマイクロブラウザ,スクリプティング,電話
付加価値サービスおよびコンテンツフォーマットを含むアプリケーション環境と
を含む階層化された通信プロトコルである。WMLにおける簡単なシンタックス
および制限された語彙は、WAPを、低い処理能力およびディスプレイ能力を有
するクライアント端末からサービスを制御しコンテンツと対話するのに適切であ
るようにする。
WAP)の最近の標準化は、小形ディスプレイと制限された処理能力と低い伝送
帯域幅とを有する端末(例えば、ディジタルセルラ電話機および端末)がインタ
ネットのようなサービスネットワークにおけるサービスおよびコンテンツにアク
セスし制御することを可能にした。WAPは、ネットワーク層(例えば、トラン
スポート層およびセッション層)とマイクロブラウザ,スクリプティング,電話
付加価値サービスおよびコンテンツフォーマットを含むアプリケーション環境と
を含む階層化された通信プロトコルである。WMLにおける簡単なシンタックス
および制限された語彙は、WAPを、低い処理能力およびディスプレイ能力を有
するクライアント端末からサービスを制御しコンテンツと対話するのに適切であ
るようにする。
【0004】 これらの小形端末を用いる能力は(これらをさまざまな旅行に容易に携帯でき
る)ユーザにとって大いに便利なものであるが、小形ディスプレイから選択メニ
ューおよび他の大量のテキスト(例えば、eメールおよびヘルプテキスト)を読
取り、また、それに応答して多機能キーを有する小形キーボード上でタイピング
することは、いくつかの欠点を有する。これらの欠点は、サービスアプリケーシ
ョンに対する音声制御インタフェースの置換により大幅に克服されかもしれない
。音声制御インタフェースはまた、ユーザが自動車を運転しているときに必要と
するようなサービスアプリケーションの「ハンドフリー」操作を提供するにも有
用である。
る)ユーザにとって大いに便利なものであるが、小形ディスプレイから選択メニ
ューおよび他の大量のテキスト(例えば、eメールおよびヘルプテキスト)を読
取り、また、それに応答して多機能キーを有する小形キーボード上でタイピング
することは、いくつかの欠点を有する。これらの欠点は、サービスアプリケーシ
ョンに対する音声制御インタフェースの置換により大幅に克服されかもしれない
。音声制御インタフェースはまた、ユーザが自動車を運転しているときに必要と
するようなサービスアプリケーションの「ハンドフリー」操作を提供するにも有
用である。
【0005】 自動音声認識システム(ASR)は公知である。音声制御アプリケーションを
サポートするASRは、中央サーバにおけるユーザ共用リソースまたはクライア
ント端末におけるリソースであるかもしれない。簡単なASRは、ワード間に休
止を有する孤立ワードを認識するが、高級なASRは連結ワードを認識できる。
ASRの複雑さは、アプリケーションとのダイアログの特定の場合に認識されな
ければならない語彙の大きさとともに増大する。
サポートするASRは、中央サーバにおけるユーザ共用リソースまたはクライア
ント端末におけるリソースであるかもしれない。簡単なASRは、ワード間に休
止を有する孤立ワードを認識するが、高級なASRは連結ワードを認識できる。
ASRの複雑さは、アプリケーションとのダイアログの特定の場合に認識されな
ければならない語彙の大きさとともに増大する。
【0006】 ASRが中央サーバで実現されるとすれば、それは、異なる言語,訛りおよび
アクセントを有する多くのユーザを認識できなければならない。従来の不特定話
者音声認識システムは、通常は、極めて制限された語彙(例えば、「はい」,「
いいえ」,「1つ」,「2つ」など)を有する単一ワードASRを用いて、必要
な処理の量を減らし、また、失敗率を低く保つ。認識の正確さを改善する別の代
替案は、各ユーザ個人の音声について認識装置を訓練したり、誤解されたワード
を繰返したり綴ってもらうことをユーザに頼むことによって、音声認識をユーザ
に適応させることである。多ユーザ環境においては、各ユーザのプロファイルが
記憶されなければならない。
アクセントを有する多くのユーザを認識できなければならない。従来の不特定話
者音声認識システムは、通常は、極めて制限された語彙(例えば、「はい」,「
いいえ」,「1つ」,「2つ」など)を有する単一ワードASRを用いて、必要
な処理の量を減らし、また、失敗率を低く保つ。認識の正確さを改善する別の代
替案は、各ユーザ個人の音声について認識装置を訓練したり、誤解されたワード
を繰返したり綴ってもらうことをユーザに頼むことによって、音声認識をユーザ
に適応させることである。多ユーザ環境においては、各ユーザのプロファイルが
記憶されなければならない。
【0007】 端末に音声認識装置を備えることは一人のユーザ(または、極めて少数のユー
ザ)を認識しなければならないだけなので、適応訓練を用いることができる。組
合せワードASRに必要な処理は、端末で行うためには大規模になり過ぎる。例
えば、(セルラ電話システム,パーソナルディジタルアシスタントおよび専用無
線端末に用いられているもののような)今日の移動体端末の処理能力は、(例え
ば、端末に記憶されている個人電話番号簿をダイヤルしたりアクセスしたりする
ための)小語彙を有する孤立ワードASRを実現するのに十分である。新しいワ
ードを語彙に追加するには、訓練が必要であるかもしれない。
ザ)を認識しなければならないだけなので、適応訓練を用いることができる。組
合せワードASRに必要な処理は、端末で行うためには大規模になり過ぎる。例
えば、(セルラ電話システム,パーソナルディジタルアシスタントおよび専用無
線端末に用いられているもののような)今日の移動体端末の処理能力は、(例え
ば、端末に記憶されている個人電話番号簿をダイヤルしたりアクセスしたりする
ための)小語彙を有する孤立ワードASRを実現するのに十分である。新しいワ
ードを語彙に追加するには、訓練が必要であるかもしれない。
【0008】 現在の中央サーバASRに存在する問題は、端末と音声認識を行うゲートウェ
イまたはサーバとの間に音声チャネル(音声呼)が確立されなければならないこ
とである。しかし、音声チャネルは、認識性能を劣化させる歪,エコーおよび雑
音を導入するかもしれない。
イまたはサーバとの間に音声チャネル(音声呼)が確立されなければならないこ
とである。しかし、音声チャネルは、認識性能を劣化させる歪,エコーおよび雑
音を導入するかもしれない。
【0009】 中央ASRはまた、認識プロセスにおける失敗率を低下させるために、高い処
理能力と大きいデータベースと個々の音声および訛りのための適応訓練能力とを
必要とする高価で制限されたネットワークリソースである。それは制限されたリ
ソースであるので、中央サーバまたはゲートウェイは、ダイアルアップ音声チャ
ネルアクセス能力を備える必要があるかもしれない。
理能力と大きいデータベースと個々の音声および訛りのための適応訓練能力とを
必要とする高価で制限されたネットワークリソースである。それは制限されたリ
ソースであるので、中央サーバまたはゲートウェイは、ダイアルアップ音声チャ
ネルアクセス能力を備える必要があるかもしれない。
【0010】 新世代のWAP支援移動体端末は、多種類のサービスおよびコンテンツを制御
できるとともにそれらと対話できるであろう。しかし、端末ディスプレイおよび
キーボードは典型的には極めて制限された入出力(I/O)能力を有し、そのた
め、音声制御インタフェースが所望されることになる。上述したように、今日の
低コスト端末は、あるASR能力をサポートできるが、これは、大きい語彙また
は各アプリケーション用の認識装置の時間のかかる訓練を必要とする多ユーザア
プリケーションサーバへの音声アクセスをサポートするためには不十分である。
できるとともにそれらと対話できるであろう。しかし、端末ディスプレイおよび
キーボードは典型的には極めて制限された入出力(I/O)能力を有し、そのた
め、音声制御インタフェースが所望されることになる。上述したように、今日の
低コスト端末は、あるASR能力をサポートできるが、これは、大きい語彙また
は各アプリケーション用の認識装置の時間のかかる訓練を必要とする多ユーザア
プリケーションサーバへの音声アクセスをサポートするためには不十分である。
【0011】 (要約) したがって、本発明の目的は、比較的低能力端末が音声制御インタフェースを
経て遠隔サーバアプリケーションをアクセスし制御することを可能にする方法お
よび装置を提供することにある。
経て遠隔サーバアプリケーションをアクセスし制御することを可能にする方法お
よび装置を提供することにある。
【0012】 上述の目的およびその他の目的は、遠隔サーバから端末へ供給されるサービス
アプリケーションを制御する方法および装置で達成される。本発明の一態様によ
れば、これは、オーディオ情報を表すオーディオ入力信号を受取り、端末内に配
置された第1の自動音声認識システムを用いて、オーディオ入力信号が第1の語
彙によって定められた1つ以上のワードを含むかどうかを決定し、ここで、第1
の語彙によって定められた1つ以上のワードに対応しないオーディオ入力信号の
部分がオーディオ入力信号の非認識部分を構成することによって、達成される。
オーディオ入力信号が第1の語彙によって定められた1つ以上のワードを含めば
、アプリケーションプロトコルサービス論理の端末アプリケーション部分が、第
1の語彙によって定められた1つ以上のワードをどのように処理すべきかを決定
するのに用いられる。オーディオ入力信号の非認識部分は、第1の所定のマーク
アップ言語によって定められた構造を有するデータユニットに含まれるようにフ
ォーマットされる。データユニットは、第1のアプリケーションプロトコルに従
って動作する第1のディジタルデータリンクを介して遠隔アプリケーション部分
へ通信される。遠隔アプリケーション部分では、オーディオ入力信号のフォーマ
ットされた非認識部分がデータユニットから抽出される。次に、遠隔アプリケー
ション部分のサービス論理が用いられて、オーディオ入力信号のフォーマットさ
れた非認識部分をどのように処理すべきかが決定される。
アプリケーションを制御する方法および装置で達成される。本発明の一態様によ
れば、これは、オーディオ情報を表すオーディオ入力信号を受取り、端末内に配
置された第1の自動音声認識システムを用いて、オーディオ入力信号が第1の語
彙によって定められた1つ以上のワードを含むかどうかを決定し、ここで、第1
の語彙によって定められた1つ以上のワードに対応しないオーディオ入力信号の
部分がオーディオ入力信号の非認識部分を構成することによって、達成される。
オーディオ入力信号が第1の語彙によって定められた1つ以上のワードを含めば
、アプリケーションプロトコルサービス論理の端末アプリケーション部分が、第
1の語彙によって定められた1つ以上のワードをどのように処理すべきかを決定
するのに用いられる。オーディオ入力信号の非認識部分は、第1の所定のマーク
アップ言語によって定められた構造を有するデータユニットに含まれるようにフ
ォーマットされる。データユニットは、第1のアプリケーションプロトコルに従
って動作する第1のディジタルデータリンクを介して遠隔アプリケーション部分
へ通信される。遠隔アプリケーション部分では、オーディオ入力信号のフォーマ
ットされた非認識部分がデータユニットから抽出される。次に、遠隔アプリケー
ション部分のサービス論理が用いられて、オーディオ入力信号のフォーマットさ
れた非認識部分をどのように処理すべきかが決定される。
【0013】 本発明の他の態様によれば、オーディオ入力信号は、圧縮されたディジタルコ
ード化音声の形式である。 本発明のさらに他の態様によれば、オーディオ入力信号が第1の語彙によって
定められた1つ以上のワードを含めば、アプリケーションプロトコルサービス論
理の端末アプリケーション部分は、行われるべき1つ以上の端末機能を選択する
ためにその1つ以上のワードが用いられるようにする。
ード化音声の形式である。 本発明のさらに他の態様によれば、オーディオ入力信号が第1の語彙によって
定められた1つ以上のワードを含めば、アプリケーションプロトコルサービス論
理の端末アプリケーション部分は、行われるべき1つ以上の端末機能を選択する
ためにその1つ以上のワードが用いられるようにする。
【0014】 本発明のなお他の態様によれば、1つ以上の端末機能は、遠隔サーバへ供給さ
れるべき応答として現在のメニューアイテムを選択することを含む。 本発明のさらに他の態様によれば、現在のメニューアイテムは、第1の選択に
関連しており、1つ以上の端末機能は、現在のメニューアイテムを第1の選択と
同じでない第2の選択に関連させることを含む。
れるべき応答として現在のメニューアイテムを選択することを含む。 本発明のさらに他の態様によれば、現在のメニューアイテムは、第1の選択に
関連しており、1つ以上の端末機能は、現在のメニューアイテムを第1の選択と
同じでない第2の選択に関連させることを含む。
【0015】 本発明のなお他の態様によれば、オーディオ入力信号が第1の語彙によって定
められた1つ以上のワードを含めば、アプリケーションプロトコルサービス論理
の端末アプリケーション部分は、対応するメッセージを発生させ、それを第1の
ディジタルデータリンクを経て遠隔アプリケーション部分へ通信させる。いくつ
かの実施例では、この対応するメッセージは、状態情報,テキストまたは2進デ
ータを含む。
められた1つ以上のワードを含めば、アプリケーションプロトコルサービス論理
の端末アプリケーション部分は、対応するメッセージを発生させ、それを第1の
ディジタルデータリンクを経て遠隔アプリケーション部分へ通信させる。いくつ
かの実施例では、この対応するメッセージは、状態情報,テキストまたは2進デ
ータを含む。
【0016】 本発明のさらに他の態様によれば、遠隔アプリケーション部分は、対応するメ
ッセージを遠隔サーバへ送る。 本発明のなお他の態様によれば、遠隔アプリケーション部分は、対応するメッ
セージを第2のアプリケーションプロトコルに従って動作する第2のディジタル
データリンクを経て遠隔サーバへ送る。第1のアプリケーションプロトコルは、
第2のアプリケーションプロトコルと同じであってもよいが、同じである必要は
ない。
ッセージを遠隔サーバへ送る。 本発明のなお他の態様によれば、遠隔アプリケーション部分は、対応するメッ
セージを第2のアプリケーションプロトコルに従って動作する第2のディジタル
データリンクを経て遠隔サーバへ送る。第1のアプリケーションプロトコルは、
第2のアプリケーションプロトコルと同じであってもよいが、同じである必要は
ない。
【0017】 本発明のさらに他の態様によれば、遠隔アプリケーション部分に配置された第
2の自動音声認識システムを用いて、オーディオ入力信号の非認識部分が第2の
語彙によって定められた1つ以上のワードを含むかどうかを決定する。オーディ
オ入力信号の非認識部分が第2の語彙によって定められた1つ以上のワードを含
めば、遠隔アプリケーション部分のサービス論理は、第2の語彙によって定めら
れた1つ以上のワードをどのように処理すべきかを決定するために用いられる。
2の自動音声認識システムを用いて、オーディオ入力信号の非認識部分が第2の
語彙によって定められた1つ以上のワードを含むかどうかを決定する。オーディ
オ入力信号の非認識部分が第2の語彙によって定められた1つ以上のワードを含
めば、遠隔アプリケーション部分のサービス論理は、第2の語彙によって定めら
れた1つ以上のワードをどのように処理すべきかを決定するために用いられる。
【0018】 本発明のなお他の態様によれば、第1の語彙は、第1の所定のマークアップ言
語のシンタックスによって定められたワードをもっぱら含み、第2の語彙は、遠
隔サーバに関連するワードをもっぱら含む。
語のシンタックスによって定められたワードをもっぱら含み、第2の語彙は、遠
隔サーバに関連するワードをもっぱら含む。
【0019】 本発明のさらに他の態様によれば、オーディオ入力信号の非認識部分が第2の
語彙によって定められた1つ以上のワードを含めば、遠隔アプリケーション部分
のサービス論理は、対応するキーボードエミュレーション応答を発生させ遠隔サ
ーバへ送らせる。
語彙によって定められた1つ以上のワードを含めば、遠隔アプリケーション部分
のサービス論理は、対応するキーボードエミュレーション応答を発生させ遠隔サ
ーバへ送らせる。
【0020】 本発明の他の態様によれば、オーディオ入力信号の非認識部分が第2の語彙に
よって定められた1つ以上のワードを含めば、遠隔アプリケーション部分のサー
ビス論理は、遠隔アプリケーション部分サービス論理状態を変化させる。
よって定められた1つ以上のワードを含めば、遠隔アプリケーション部分のサー
ビス論理は、遠隔アプリケーション部分サービス論理状態を変化させる。
【0021】 本発明のなお他の態様によれば、遠隔アプリケーション部分は、遠隔サーバか
らテキストを受取り、オーディオ情報を表す対応するオーディオ出力信号を発生
する。オーディオ出力信号は、第1の所定のマークアップ言語によって定められ
た構造を有する第2のデータユニットに含まれるようにフォーマットされる。第
2のデータユニットは、第1のディジタルデータリンクを経て端末へ通信される
。端末では、オーディオ出力信号が第2のデータユニットから抽出され、スピー
カ信号がそれから発生される。
らテキストを受取り、オーディオ情報を表す対応するオーディオ出力信号を発生
する。オーディオ出力信号は、第1の所定のマークアップ言語によって定められ
た構造を有する第2のデータユニットに含まれるようにフォーマットされる。第
2のデータユニットは、第1のディジタルデータリンクを経て端末へ通信される
。端末では、オーディオ出力信号が第2のデータユニットから抽出され、スピー
カ信号がそれから発生される。
【0022】 (詳細な説明) 本発明の目的および利点は、図面と併せて以下の詳細な説明を読むことにより
理解されよう。 ここで、本発明のさまざまな特徴を図面を参照しつつ説明するが、図面では、
同じ部品は同じ参照符号によって示されている。以下の説明では、比較的低能力
端末を遠隔アプリケーションにリンクさせるための基礎としてWAPおよびWM
L規格を用いている。しかし、これらの規格は例としてのみ用いられるものであ
ることと、ここで用いられている本発明の概念はこれら特定の規格に従って動作
しない他の環境においても同様に適用可能であることとを認識すべきである。
理解されよう。 ここで、本発明のさまざまな特徴を図面を参照しつつ説明するが、図面では、
同じ部品は同じ参照符号によって示されている。以下の説明では、比較的低能力
端末を遠隔アプリケーションにリンクさせるための基礎としてWAPおよびWM
L規格を用いている。しかし、これらの規格は例としてのみ用いられるものであ
ることと、ここで用いられている本発明の概念はこれら特定の規格に従って動作
しない他の環境においても同様に適用可能であることとを認識すべきである。
【0023】 本発明の一態様によれば、音声制御サービスアプリケーション(VCSA)の
構成要素は、端末に備えられた部分と遠隔設備に備えられた残りの部分とに分散
される。図1aおよび図1bは、本発明のこの態様による分散VCSAの代替の
実施例のブロック図である。図1aでは、クライアント部分101は、第1のデ
ィジタルリンク105を経てサーバ部分103に結合されている。クライアント
部分101は端末に備えられ、一方、サーバ部分103は、遠隔位置に最もあり
そうな隔離されたプロセッサに備えられている。サーバ部分103がランするプ
ロセッサは、多くの実施例では、クライアント部分101がランする端末よりも
より強力(例えば、より高速、より大きい記憶空間など)である。クライアント
部分101とサーバ部分103とを結合する第1のディジタルリンク105は無
線であっても有線であってもよい。第1のディジタルリンク105を経て通信さ
れるデータは、好ましくは、WMLのような標準化されたマークアップ言語によ
って作成されたカードおよびスクリプト/ライブラリの形式である。代替の実施
例では、異なるマークアップ言語が代わりに用いられ得る。しかし、それぞれの
場合において、マークアップ言語は、端末の比較的低い処理能力および制限され
た入出力リソースによってサポートされ得るものであるべきである。WMLは、
WAP URLサービスを経てダウンロードされ得るそれのカードおよびスクリ
プト/ライブラリが今日の進歩した移動体ネットワークで利用可能なサービスを
改善し拡張するアプリケーションを作成するために用いられ得るので、無線移動
体端末での使用に好ましい。
構成要素は、端末に備えられた部分と遠隔設備に備えられた残りの部分とに分散
される。図1aおよび図1bは、本発明のこの態様による分散VCSAの代替の
実施例のブロック図である。図1aでは、クライアント部分101は、第1のデ
ィジタルリンク105を経てサーバ部分103に結合されている。クライアント
部分101は端末に備えられ、一方、サーバ部分103は、遠隔位置に最もあり
そうな隔離されたプロセッサに備えられている。サーバ部分103がランするプ
ロセッサは、多くの実施例では、クライアント部分101がランする端末よりも
より強力(例えば、より高速、より大きい記憶空間など)である。クライアント
部分101とサーバ部分103とを結合する第1のディジタルリンク105は無
線であっても有線であってもよい。第1のディジタルリンク105を経て通信さ
れるデータは、好ましくは、WMLのような標準化されたマークアップ言語によ
って作成されたカードおよびスクリプト/ライブラリの形式である。代替の実施
例では、異なるマークアップ言語が代わりに用いられ得る。しかし、それぞれの
場合において、マークアップ言語は、端末の比較的低い処理能力および制限され
た入出力リソースによってサポートされ得るものであるべきである。WMLは、
WAP URLサービスを経てダウンロードされ得るそれのカードおよびスクリ
プト/ライブラリが今日の進歩した移動体ネットワークで利用可能なサービスを
改善し拡張するアプリケーションを作成するために用いられ得るので、無線移動
体端末での使用に好ましい。
【0024】 クライアント部分101は、少数(例えば、約50まで)の孤立ワードを認識
できるもののような簡単なASRを含む。連続音声で供給される大語彙のワード
を認識できるようなもっと強力なASRはサーバ部分101に備えられる。動作
に際しては、クライアント部分101はユーザから音声を受ける。クライアント
部分101のASRは、ワードを孤立させ認識することを試みる。正しく認識さ
れたものに基づいて動作が行われる。認識されたワードの多くは、一般に、メニ
ューのスクロール,メニューアイテムの選択およびローカルに記憶された電話帳
のようなさまざまな端末リソースへのアクセスなどの端末におけるローカル機能
を制御するのに用いられる。他のワードは、サーバへ供給されるべきオペランド
(例えば、データ)として認識される。これらのワードについて、対応するテキ
ストが端末のメモリから検索される。次に、このテキストは第1のディジタルリ
ンク105を経てサーバ部分103へ送られる。そのテキストは、サーバ部分1
03がそれをデータ入力として認識し適宜にそれを処理するようにフォーマット
される。
できるもののような簡単なASRを含む。連続音声で供給される大語彙のワード
を認識できるようなもっと強力なASRはサーバ部分101に備えられる。動作
に際しては、クライアント部分101はユーザから音声を受ける。クライアント
部分101のASRは、ワードを孤立させ認識することを試みる。正しく認識さ
れたものに基づいて動作が行われる。認識されたワードの多くは、一般に、メニ
ューのスクロール,メニューアイテムの選択およびローカルに記憶された電話帳
のようなさまざまな端末リソースへのアクセスなどの端末におけるローカル機能
を制御するのに用いられる。他のワードは、サーバへ供給されるべきオペランド
(例えば、データ)として認識される。これらのワードについて、対応するテキ
ストが端末のメモリから検索される。次に、このテキストは第1のディジタルリ
ンク105を経てサーバ部分103へ送られる。そのテキストは、サーバ部分1
03がそれをデータ入力として認識し適宜にそれを処理するようにフォーマット
される。
【0025】 クライアント部分101によって認識されなかったワードは、(例えば、多目
的インタネットメール拡張(MIME)タイプとして)フォーマットされ、サー
バ部分103へ送られる。サーバ部分103は、これが非認識音声であることを
確認し、それ自身のもっと強力なASRを用いて受信音声を解析する。解析の後
、サーバ部分103はそれに応じて動作する。例えば、認識された音声はサーバ
アプリケーションを制御する指令から成るかもしれず、その場合には、その指令
に基づいて動作が行われる。認識された音声はまたサーバアプリケーション用の
データ入力を表すかもしれず、その場合には、それはそのようなものとして処理
される。ASRが供給された音声を認識できない場合には、それはコード化音声
をクライアント部分101へ送り返すような動作を行い、その後、クライアント
部分101はそのコード化音声をユーザに聞かせる。この場合のコード化音声は
、ユーザが非認識音声を繰返し綴るようにする要求音声であり得る。
的インタネットメール拡張(MIME)タイプとして)フォーマットされ、サー
バ部分103へ送られる。サーバ部分103は、これが非認識音声であることを
確認し、それ自身のもっと強力なASRを用いて受信音声を解析する。解析の後
、サーバ部分103はそれに応じて動作する。例えば、認識された音声はサーバ
アプリケーションを制御する指令から成るかもしれず、その場合には、その指令
に基づいて動作が行われる。認識された音声はまたサーバアプリケーション用の
データ入力を表すかもしれず、その場合には、それはそのようなものとして処理
される。ASRが供給された音声を認識できない場合には、それはコード化音声
をクライアント部分101へ送り返すような動作を行い、その後、クライアント
部分101はそのコード化音声をユーザに聞かせる。この場合のコード化音声は
、ユーザが非認識音声を繰返し綴るようにする要求音声であり得る。
【0026】 図1bに示されている代替の実施例では、サーバ部分103は、第2のディジ
タルリンク111によってサーバ109に結合されたゲートウェイ/代理部分1
07によって置換されている。ゲートウェイ/代理部分107とサーバ109と
を結合する第2のディジタルリンク111は無線であっても有線であってもよい
。第2のディジタルリンク111を経て通信されるデータは、好ましくは、標準
化されたマークアップ言語によって作成されたカードおよびスクリプト/ライブ
ラリの形式であり、それは、第1のディジタルリンク105において用いられる
データフォーマットと同じであってもよいが、同じである必要はない。データフ
ォーマットが異なるときは、ゲートウェイ/代理部分107の1つの機能は、デ
ータを一方のフォーマットから他方のフォーマットへ変換することである。この
場合の変換は、キーワードを一方のフォーマットから他方のフォーマットへ(例
えば、ハイパーテキストマークアップ言語(HTML)からWMLへ)置き換え
るのみでなく、端末によって受信され得ないデータを除去するためにあるフィル
タリングのレベルをも変換する。例えば、サーバ109がインタネットを経てア
クセス可能なアプリケーションであれば、それは、比較的低能力端末上に表示さ
れ得ないグラフィック情報を含むHTMLウェブページを送る。この場合、ゲー
トウェイ/代理部分107は、そのようなデータを消去して適切なデータのみを
クライアント101へ送る必要がある。
タルリンク111によってサーバ109に結合されたゲートウェイ/代理部分1
07によって置換されている。ゲートウェイ/代理部分107とサーバ109と
を結合する第2のディジタルリンク111は無線であっても有線であってもよい
。第2のディジタルリンク111を経て通信されるデータは、好ましくは、標準
化されたマークアップ言語によって作成されたカードおよびスクリプト/ライブ
ラリの形式であり、それは、第1のディジタルリンク105において用いられる
データフォーマットと同じであってもよいが、同じである必要はない。データフ
ォーマットが異なるときは、ゲートウェイ/代理部分107の1つの機能は、デ
ータを一方のフォーマットから他方のフォーマットへ変換することである。この
場合の変換は、キーワードを一方のフォーマットから他方のフォーマットへ(例
えば、ハイパーテキストマークアップ言語(HTML)からWMLへ)置き換え
るのみでなく、端末によって受信され得ないデータを除去するためにあるフィル
タリングのレベルをも変換する。例えば、サーバ109がインタネットを経てア
クセス可能なアプリケーションであれば、それは、比較的低能力端末上に表示さ
れ得ないグラフィック情報を含むHTMLウェブページを送る。この場合、ゲー
トウェイ/代理部分107は、そのようなデータを消去して適切なデータのみを
クライアント101へ送る必要がある。
【0027】 多くの実施例では、第1および第2のデータリンク105,111上で用いら
れるデータフォーマットは、共にWMLフォーマットであるなど、同じであるで
あろう。そのような場合には、ゲートウェイ/代理部分107によって行われる
変換は、テキストを音声データで置換することとその逆を行うこととを含む。す
なわち、サーバ109は、PC画面上に表示されるべく意図された大形のテキス
トメニューの形式でデータを供給する。しかし、上述したように、比較的低能力
端末は、大形のメニューを表示することができず、かつ/または、そのような大
形メニューは、ユーザが小形端末画面上で読取ることは困難である。したがって
、本発明の一態様によれば、ゲートウェイ/代理部分107は、受信テキストを
(MIMEフォーマット化データとして)クライアント部分101へ供給されて
ユーザに聞かされるオーディオに変換する。このようにして、ユーザは、可能な
選択を画面上で見る必要はなく、それらを聞くことができる。ユーザは、選択を
タイプするのではなく選択を話すことによって、その選択を行う。上述したよう
に、話されたテキストは、クライアント部分101のASRによって、または、
代わりにゲートウェイ/代理部分107のASRによって認識されてテキストへ
変換される。いずれの場合にも、このテキストは、次に、ゲートウェイ/代理部
分107によってサーバ109へ送られる。このようにして、サーバ109は、
特に音声インタフェースを取り扱うように構成される必要はない。実際に、この
構成では、音声インタフェースの存在はサーバ109に対し完全にトランスペア
レントであり、サーバ109はそれが送受信するテキストのみを知る。
れるデータフォーマットは、共にWMLフォーマットであるなど、同じであるで
あろう。そのような場合には、ゲートウェイ/代理部分107によって行われる
変換は、テキストを音声データで置換することとその逆を行うこととを含む。す
なわち、サーバ109は、PC画面上に表示されるべく意図された大形のテキス
トメニューの形式でデータを供給する。しかし、上述したように、比較的低能力
端末は、大形のメニューを表示することができず、かつ/または、そのような大
形メニューは、ユーザが小形端末画面上で読取ることは困難である。したがって
、本発明の一態様によれば、ゲートウェイ/代理部分107は、受信テキストを
(MIMEフォーマット化データとして)クライアント部分101へ供給されて
ユーザに聞かされるオーディオに変換する。このようにして、ユーザは、可能な
選択を画面上で見る必要はなく、それらを聞くことができる。ユーザは、選択を
タイプするのではなく選択を話すことによって、その選択を行う。上述したよう
に、話されたテキストは、クライアント部分101のASRによって、または、
代わりにゲートウェイ/代理部分107のASRによって認識されてテキストへ
変換される。いずれの場合にも、このテキストは、次に、ゲートウェイ/代理部
分107によってサーバ109へ送られる。このようにして、サーバ109は、
特に音声インタフェースを取り扱うように構成される必要はない。実際に、この
構成では、音声インタフェースの存在はサーバ109に対し完全にトランスペア
レントであり、サーバ109はそれが送受信するテキストのみを知る。
【0028】 ここで、図2および図3に示されている代表的実施例を参照しつつ本発明を詳
述する。この代表的実施例のアーキテクチャは、図1aおよび図1bに示されて
いるアーキテクチャと本質的に同じである。しかし、この実施例では、全システ
ムが、論理的に、4つの部分(端末部分(TP)203と端末アプリケーション
部分(TAP)201と遠隔アプリケーション部分(RAP)205と外部サー
ビスおよびコンテンツ(ESC)部分207)に分割されている。TP203お
よびTAP201はVCSAのクライアント部分101を具現し、また、RAP
205はVCSAのサーバ部分103またはゲートウェイ/代理部分107を具
現している。ESC207はサーバ109に対応する。ここで、これらの構成要
素を詳述する。以下に説明するさまざまな構成要素は、個々には、公知である(
例えば、さまざまな記憶素子,マイクロホン,スピーカ)か、提供される高レベ
ルの説明に基づいて容易に構成され、したがって、高い詳細レベルでの説明の必
要はないことを理解すべきである。さまざまな実施例は、記憶されているプログ
ラムを実行して多くの機能(例えば、オーディオ特性の整合,プロトコルスタッ
クの保守など)を行う1つ以上のプログラム可能素子を用いる。別の実施例では
、これらは、代わりに、ハードワイヤード論理ゲートである。特定の具体化アプ
ローチが他のものよりも優れているかどうかは、考察下の特定のアプリケーショ
ンに依存し、したがって、本開示の範囲外のことである。
述する。この代表的実施例のアーキテクチャは、図1aおよび図1bに示されて
いるアーキテクチャと本質的に同じである。しかし、この実施例では、全システ
ムが、論理的に、4つの部分(端末部分(TP)203と端末アプリケーション
部分(TAP)201と遠隔アプリケーション部分(RAP)205と外部サー
ビスおよびコンテンツ(ESC)部分207)に分割されている。TP203お
よびTAP201はVCSAのクライアント部分101を具現し、また、RAP
205はVCSAのサーバ部分103またはゲートウェイ/代理部分107を具
現している。ESC207はサーバ109に対応する。ここで、これらの構成要
素を詳述する。以下に説明するさまざまな構成要素は、個々には、公知である(
例えば、さまざまな記憶素子,マイクロホン,スピーカ)か、提供される高レベ
ルの説明に基づいて容易に構成され、したがって、高い詳細レベルでの説明の必
要はないことを理解すべきである。さまざまな実施例は、記憶されているプログ
ラムを実行して多くの機能(例えば、オーディオ特性の整合,プロトコルスタッ
クの保守など)を行う1つ以上のプログラム可能素子を用いる。別の実施例では
、これらは、代わりに、ハードワイヤード論理ゲートである。特定の具体化アプ
ローチが他のものよりも優れているかどうかは、考察下の特定のアプリケーショ
ンに依存し、したがって、本開示の範囲外のことである。
【0029】 TP203は、端末に備えられ、WAP規格(または、別のアプリケーション
プロトコル)をサポートする。TAPインタフェース209は、TAP201と
の対話を可能にし、TAP201は音声対話とWAPアプリケーションの制御と
をサポートする。TP203はさらに、第1のデータリンク211を経てWAP
規格プロトコルに従った通信を可能にするWAPクライアントプロトコルスタッ
ク213を含み、第1のデータリンク211は無線ディジタルチャネルであって
も有線ディジタルチャネルであってもよい。
プロトコル)をサポートする。TAPインタフェース209は、TAP201と
の対話を可能にし、TAP201は音声対話とWAPアプリケーションの制御と
をサポートする。TP203はさらに、第1のデータリンク211を経てWAP
規格プロトコルに従った通信を可能にするWAPクライアントプロトコルスタッ
ク213を含み、第1のデータリンク211は無線ディジタルチャネルであって
も有線ディジタルチャネルであってもよい。
【0030】 TP203に備えられたマイクロホン215は、端末のユーザからの音声を受
ける。マイクロホン215の出力は、TPオーディオエンコーダ(例えば、GS
M音声エンコーダ)へ供給され、このエンコーダは、オーディオ入力信号を圧縮
データフォーマットにコード化する。コード化されたオーディオデータはTAP
インタフェース209へ供給される。オーディオがユーザへ供給されるべきとき
は、それは、圧縮データフォーマット(例えば、GSM音声エンコーダフォーマ
ット)でTAPインタフェース209を経てTPオーディオデコーダ219へ供
給され、このデコーダ219の出力がスピーカ221へ供給される。
ける。マイクロホン215の出力は、TPオーディオエンコーダ(例えば、GS
M音声エンコーダ)へ供給され、このエンコーダは、オーディオ入力信号を圧縮
データフォーマットにコード化する。コード化されたオーディオデータはTAP
インタフェース209へ供給される。オーディオがユーザへ供給されるべきとき
は、それは、圧縮データフォーマット(例えば、GSM音声エンコーダフォーマ
ット)でTAPインタフェース209を経てTPオーディオデコーダ219へ供
給され、このデコーダ219の出力がスピーカ221へ供給される。
【0031】 TAP201はまた、呼ハンドリング,アドレス帳管理などの端末機能との基
本的音声対話をサポートする目的で端末に備えられる。TAP201はまた、音
声対話とWAPアプリケーションの制御とをサポートする。TAP201は、T
AP201がTP203と通信することを可能にさせるTPインタフェース22
3を含む。
本的音声対話をサポートする目的で端末に備えられる。TAP201はまた、音
声対話とWAPアプリケーションの制御とをサポートする。TAP201は、T
AP201がTP203と通信することを可能にさせるTPインタフェース22
3を含む。
【0032】 TAP201は、端末における音声指向ブラウザとして機能する。ここで、こ
のブラウザの機能を図4のフローチャートを参照しつつ説明する。オーディオ入
力は、マイクロホン215によって受取られ、TPオーディオエンコーダ217
へ供給される(ステップ401)。TPオーディオエンコーダ217からの出力
は、TAPインタフェース209およびTPインタフェース223を経て、TA
P201に備えられた開始/停止検出器および記録ユニット225へ供給される
(ステップ403)。TAP201は、開始/停止検出器および記録ユニット2
25を用いて、供給された音声入力信号の開始および停止を検出し、また、これ
を用いて、ここでは「孤立ワード」と呼ばれるオーディオ時間間隔へのオーディ
オ入力の拡大を制限する。開始/停止検出器および記録ユニット225は、この
孤立ワード用のTPオーディオコード化データを記憶(すなわち、記録)するキ
ャッシュメモリ(不図示)を含む。
のブラウザの機能を図4のフローチャートを参照しつつ説明する。オーディオ入
力は、マイクロホン215によって受取られ、TPオーディオエンコーダ217
へ供給される(ステップ401)。TPオーディオエンコーダ217からの出力
は、TAPインタフェース209およびTPインタフェース223を経て、TA
P201に備えられた開始/停止検出器および記録ユニット225へ供給される
(ステップ403)。TAP201は、開始/停止検出器および記録ユニット2
25を用いて、供給された音声入力信号の開始および停止を検出し、また、これ
を用いて、ここでは「孤立ワード」と呼ばれるオーディオ時間間隔へのオーディ
オ入力の拡大を制限する。開始/停止検出器および記録ユニット225は、この
孤立ワード用のTPオーディオコード化データを記憶(すなわち、記録)するキ
ャッシュメモリ(不図示)を含む。
【0033】 孤立ワードは、開始/停止検出器および記録ユニット225から、孤立ワード
認識解析を行うASRユニット227へ供給される(ステップ405)。この代
表的実施例におけるASR227は特徴ベクトル抽出ユニット229を含み、特
徴ベクトル抽出ユニット229は、孤立ワードを受取り、それを特徴照合および
決定ユニット231によって用いられるのに適したベクトル空間にマップする。
WMLシンタックスにおける制限された標準WAP語彙と端末に依存する所定の
語彙とを含む基準語彙がTAP基準データベース233に記憶されている。端末
に依存する所定の語彙は、アプリケーションダイアログをよりユーザに使いやす
くするワードを含めるため、または、VCSAに存在しない端末機能を制御する
ために、WML標準語彙を拡張するのに用いられる。孤立ワードは、好ましくは
、テキストフォーマットと対応TPオーディオコード化データと孤立ワードを表
す関連特徴ベクトルとの3つのフォーマットで記憶される。TAP基準データベ
ース233からの特徴ベクトルは、特徴照合および決定ユニット231の第2の
入力へ供給される。特徴照合および決定ユニット231は、特徴ベクトル抽出ユ
ニット229の出力に供給される特徴ベクトルをTAP基準データベース233
によって供給される特徴ベクトルと比較し、一致するかどうかを決定する。特徴
照合および決定ユニット231からの出力237,239は、TAP制御論理2
35へ供給され、一致することがわかったかどうかを表示する(判断ブロック4
07)。
認識解析を行うASRユニット227へ供給される(ステップ405)。この代
表的実施例におけるASR227は特徴ベクトル抽出ユニット229を含み、特
徴ベクトル抽出ユニット229は、孤立ワードを受取り、それを特徴照合および
決定ユニット231によって用いられるのに適したベクトル空間にマップする。
WMLシンタックスにおける制限された標準WAP語彙と端末に依存する所定の
語彙とを含む基準語彙がTAP基準データベース233に記憶されている。端末
に依存する所定の語彙は、アプリケーションダイアログをよりユーザに使いやす
くするワードを含めるため、または、VCSAに存在しない端末機能を制御する
ために、WML標準語彙を拡張するのに用いられる。孤立ワードは、好ましくは
、テキストフォーマットと対応TPオーディオコード化データと孤立ワードを表
す関連特徴ベクトルとの3つのフォーマットで記憶される。TAP基準データベ
ース233からの特徴ベクトルは、特徴照合および決定ユニット231の第2の
入力へ供給される。特徴照合および決定ユニット231は、特徴ベクトル抽出ユ
ニット229の出力に供給される特徴ベクトルをTAP基準データベース233
によって供給される特徴ベクトルと比較し、一致するかどうかを決定する。特徴
照合および決定ユニット231からの出力237,239は、TAP制御論理2
35へ供給され、一致することがわかったかどうかを表示する(判断ブロック4
07)。
【0034】 孤立ワードには、いくつかのタイプのものがある。すなわち、端末制御機能(
例えば、メニューのスクロールアップまたはダウン)に関連するものと、メニュ
ーから1つのアイテムを選択する「選択」指令(PCマウスを用いたメニューア
イテム上での「クリック」と同等である)のようなRAP205(および最終的
にはサーバ)へ送られるべき応答を決定するものと、特定のサーバアプリケーシ
ョンによって完全に定められているものとである。したがって、孤立ワードが端
末で認識されれば(判断ブロック407からの「YES」出力)、それが孤立ワ
ードのどのタイプのものであるかを決める決定がなされる(判断ブロック409
)。端末制御ワードが認識されたときは、TAP制御論理235は端末機能を行
わせる(ステップ411)。いくつかの場合には、これは、メニュー内のいずれ
のアイテムが現在選択されつつあるかのような現在の端末状態の変化をユーザに
表示するオーディオ出力の発生を含む。
例えば、メニューのスクロールアップまたはダウン)に関連するものと、メニュ
ーから1つのアイテムを選択する「選択」指令(PCマウスを用いたメニューア
イテム上での「クリック」と同等である)のようなRAP205(および最終的
にはサーバ)へ送られるべき応答を決定するものと、特定のサーバアプリケーシ
ョンによって完全に定められているものとである。したがって、孤立ワードが端
末で認識されれば(判断ブロック407からの「YES」出力)、それが孤立ワ
ードのどのタイプのものであるかを決める決定がなされる(判断ブロック409
)。端末制御ワードが認識されたときは、TAP制御論理235は端末機能を行
わせる(ステップ411)。いくつかの場合には、これは、メニュー内のいずれ
のアイテムが現在選択されつつあるかのような現在の端末状態の変化をユーザに
表示するオーディオ出力の発生を含む。
【0035】 認識されたワードがサービス関連のものであれば、適切な応答が、メッセージ
として発生され、WAPクライアントプロトコルスタック213を経てRAPへ
転送される(ステップ413)。このメッセージは、RAP205がESC20
7へ送られるべき適切な応答を発生できるようにさせるのに必要な状態情報,テ
キスト,2進データおよび他の情報の任意の組合せを含む。RAP205によっ
て発生された応答は、好ましくは、通常のテキストベースWAP端末によって発
生されるキーボード入力選択をエミュレートする。このキーボード応答はTAP
205によって発生されるとともにESC207へ送るために単にRAP205
へ送られるが、それは、効率上の理由で、必要な状態(および/または他の)情
報をRAP205へ単に送り、それがテキスト,2進データ,状態情報またはメ
ニュー選択コードを含むがこれらに限定されるわけではない必要なキーボードエ
ミュレーション応答の形式でESC207へのそれの応答を発生することを可能
にさせることが好ましい。
として発生され、WAPクライアントプロトコルスタック213を経てRAPへ
転送される(ステップ413)。このメッセージは、RAP205がESC20
7へ送られるべき適切な応答を発生できるようにさせるのに必要な状態情報,テ
キスト,2進データおよび他の情報の任意の組合せを含む。RAP205によっ
て発生された応答は、好ましくは、通常のテキストベースWAP端末によって発
生されるキーボード入力選択をエミュレートする。このキーボード応答はTAP
205によって発生されるとともにESC207へ送るために単にRAP205
へ送られるが、それは、効率上の理由で、必要な状態(および/または他の)情
報をRAP205へ単に送り、それがテキスト,2進データ,状態情報またはメ
ニュー選択コードを含むがこれらに限定されるわけではない必要なキーボードエ
ミュレーション応答の形式でESC207へのそれの応答を発生することを可能
にさせることが好ましい。
【0036】 ここで判断ブロック407へ戻り、孤立ワードがASR227によって認識さ
れなかったとすれば、TAP制御論理235は、TAPのWAPサービス論理2
45と共に、ユーザに知らせるべきかどうかの決定を行う(判断ブロック415
)。この決定は、例えば、現在の端末状態とTAP制御論理235によって用い
られている状態マシンとに基づかれる。例えば、TAP制御論理235が端末制
御またはメニュー選択機能が受信されることを予期しているならば、ユーザは、
孤立ワードが認識されなかったことを知らされ(ステップ417)、その孤立ワ
ードを繰返すこと、または、それを綴ることによってまたはキーボード選択によ
って入力をすることを求められる。あるいは、TAP制御論理235がTAPの
WAPサービス論理245と共にeメールのコンテンツとして用いるためなどの
ような認識不可能なオーディオ信号が供給されることを予期していれば、その非
認識孤立ワードは単にRAP205へ送られる(ステップ419)。RAPのA
SR307は、好ましくは、TAPのASR227よりも強力であるので、TA
P203が非認識孤立ワードを認識するタスクについて援助を要するならば、そ
の非認識孤立ワードはやはりRAP205へ送られる。本発明のこの態様は以下
に詳述される。
れなかったとすれば、TAP制御論理235は、TAPのWAPサービス論理2
45と共に、ユーザに知らせるべきかどうかの決定を行う(判断ブロック415
)。この決定は、例えば、現在の端末状態とTAP制御論理235によって用い
られている状態マシンとに基づかれる。例えば、TAP制御論理235が端末制
御またはメニュー選択機能が受信されることを予期しているならば、ユーザは、
孤立ワードが認識されなかったことを知らされ(ステップ417)、その孤立ワ
ードを繰返すこと、または、それを綴ることによってまたはキーボード選択によ
って入力をすることを求められる。あるいは、TAP制御論理235がTAPの
WAPサービス論理245と共にeメールのコンテンツとして用いるためなどの
ような認識不可能なオーディオ信号が供給されることを予期していれば、その非
認識孤立ワードは単にRAP205へ送られる(ステップ419)。RAPのA
SR307は、好ましくは、TAPのASR227よりも強力であるので、TA
P203が非認識孤立ワードを認識するタスクについて援助を要するならば、そ
の非認識孤立ワードはやはりRAP205へ送られる。本発明のこの態様は以下
に詳述される。
【0037】 非認識孤立ワードをRAP205へ送るためには、開始/停止検出器および記
録ユニット225からのオーディオコード化データは、MIMEフォーマッティ
ングユニット247によってMIMEタイプとしてフォーマットされる。MIM
Eフォーマットされたオーディオコード化データの通信は、TPインタフェース
223,TAPインタフェース209およびWAPクライアントプロトコルスタ
ックを経て通信RAPインタフェース243へ行われ、通信RAPインタフェー
ス243は第1のデータリンク211に結合している。TAP201は、RAP
205に置かれたRAPサービス論理321に対するクライアントであり、低処
理能力を有するWAP端末装置(移動装置および固定装置を含む)に備えられる
。RAPサービス論理321も、ESC207におけるサービスおよびコンテン
ツに対するクライアントである。
録ユニット225からのオーディオコード化データは、MIMEフォーマッティ
ングユニット247によってMIMEタイプとしてフォーマットされる。MIM
Eフォーマットされたオーディオコード化データの通信は、TPインタフェース
223,TAPインタフェース209およびWAPクライアントプロトコルスタ
ックを経て通信RAPインタフェース243へ行われ、通信RAPインタフェー
ス243は第1のデータリンク211に結合している。TAP201は、RAP
205に置かれたRAPサービス論理321に対するクライアントであり、低処
理能力を有するWAP端末装置(移動装置および固定装置を含む)に備えられる
。RAPサービス論理321も、ESC207におけるサービスおよびコンテン
ツに対するクライアントである。
【0038】 上述したように、ユーザへの音声出力は、スピーカに結合された出力を有する
TPオーディオデコーダ219によって発生される。TPオーディオデコーダ2
19は、TAP基準データベース233またはRAP205からTPオーディオ
コード化フォーマットのデータを受取る。RAP205によって供給されるTP
オーディオコード化フォーマットデータは、WAPプロトコルにおけるMIME
タイプとして組込まれ受信される。この技術は、端末におけるテキストから音声
への変換モジュールの必要を解消する利点を有する。TAP基準データベース2
33にTPオーディオコード化データとして記憶されている追加ワードは、ダイ
アログをユーザにもっと使いやすくするように、ダイアログを補うために用いら
れる。
TPオーディオデコーダ219によって発生される。TPオーディオデコーダ2
19は、TAP基準データベース233またはRAP205からTPオーディオ
コード化フォーマットのデータを受取る。RAP205によって供給されるTP
オーディオコード化フォーマットデータは、WAPプロトコルにおけるMIME
タイプとして組込まれ受信される。この技術は、端末におけるテキストから音声
への変換モジュールの必要を解消する利点を有する。TAP基準データベース2
33にTPオーディオコード化データとして記憶されている追加ワードは、ダイ
アログをユーザにもっと使いやすくするように、ダイアログを補うために用いら
れる。
【0039】 ここでRAPサーバ205(およびRAP205を詳細に示す図3)に着目す
ると、それは、多ユーザ中央WAPアプリケーションサーバとして、WAPゲー
トウェイ/代理として、または、TAPユーザ専用の単一ユーザローカルサーバ
(例えば、ユーザのPC,パームトップ装置など)として具体化される。RAP
205は、通常は、自動音声認識用のより強力な処理能力と、特定のサービスア
プリケーションに必要とされる拡張された語彙用のRAP基準データベースとを
有することが期待される。
ると、それは、多ユーザ中央WAPアプリケーションサーバとして、WAPゲー
トウェイ/代理として、または、TAPユーザ専用の単一ユーザローカルサーバ
(例えば、ユーザのPC,パームトップ装置など)として具体化される。RAP
205は、通常は、自動音声認識用のより強力な処理能力と、特定のサービスア
プリケーションに必要とされる拡張された語彙用のRAP基準データベースとを
有することが期待される。
【0040】 図2および図3に示されているように、RAP205はまた、異なる場所にあ
るESC207に接続されたWAPゲートウェイ/代理としても具体化される。
例えば、ESC207は、インタネットを経て情報およびコンテンツを供給する
1つ以上のアプリケーションサーバである。
るESC207に接続されたWAPゲートウェイ/代理としても具体化される。
例えば、ESC207は、インタネットを経て情報およびコンテンツを供給する
1つ以上のアプリケーションサーバである。
【0041】 前述したように、RAP205は、第1のデータリンク211に結合されてお
り、したがって、この目的のために第1のデータ211に結合された第1の通信
インタフェース301を有する。第1の通信インタフェース301はWAPサー
バプロトコルスタック303にも結合されており、WAPサーバプロトコルスタ
ック303は、通信がWAP(または、他の選択された)通信プロトコルに従っ
て進行することを保証する。RAP205はまた、他のRAPリソースの動作を
制御するRAP制御論理305を含む。これらの中に、TAP201において認
識されなかったTPオーディオコード化ワード、すなわち、WAPプロトコルに
おけるMIMEタイプとしてRAP205へ転送されたワードを認識するASR
307がある。音声認識を行うために、RAPの代表的ASR307は、特徴ベ
クトル抽出ユニット309と特徴照合および決定ユニット311とRAP基準デ
ータベース313とを含む。動作に際しては、TPオーディオコード化データは
特徴ベクトル抽出ユニットへ供給される。次に、対応特徴ベクトルが特徴照合お
よび決定ユニット311へ供給される。RAP基準データベース313は、認識
されるべき全てのワードの特徴ベクトル,対応テキストおよび対応TPオーディ
オコード化データを記憶している。RAP基準データベース313からの特徴ベ
クトルは、特徴照合および決定ユニット311のもう1つの入力へ供給される。
特徴照合および決定ユニット311は、特徴ベクトル抽出ユニット309によっ
て供給された特徴ベクトルをRAP基準データベース313によって供給された
特徴ベクトルと比較し、入力ワードが認識されたかどうかを表示する。ASR3
07は、TAPのASR227が失敗した音声認識に成功する。その理由は、R
APのASR307は好ましくはより強力であり基準ワードの大きいデータベー
スを含むからである。
り、したがって、この目的のために第1のデータ211に結合された第1の通信
インタフェース301を有する。第1の通信インタフェース301はWAPサー
バプロトコルスタック303にも結合されており、WAPサーバプロトコルスタ
ック303は、通信がWAP(または、他の選択された)通信プロトコルに従っ
て進行することを保証する。RAP205はまた、他のRAPリソースの動作を
制御するRAP制御論理305を含む。これらの中に、TAP201において認
識されなかったTPオーディオコード化ワード、すなわち、WAPプロトコルに
おけるMIMEタイプとしてRAP205へ転送されたワードを認識するASR
307がある。音声認識を行うために、RAPの代表的ASR307は、特徴ベ
クトル抽出ユニット309と特徴照合および決定ユニット311とRAP基準デ
ータベース313とを含む。動作に際しては、TPオーディオコード化データは
特徴ベクトル抽出ユニットへ供給される。次に、対応特徴ベクトルが特徴照合お
よび決定ユニット311へ供給される。RAP基準データベース313は、認識
されるべき全てのワードの特徴ベクトル,対応テキストおよび対応TPオーディ
オコード化データを記憶している。RAP基準データベース313からの特徴ベ
クトルは、特徴照合および決定ユニット311のもう1つの入力へ供給される。
特徴照合および決定ユニット311は、特徴ベクトル抽出ユニット309によっ
て供給された特徴ベクトルをRAP基準データベース313によって供給された
特徴ベクトルと比較し、入力ワードが認識されたかどうかを表示する。ASR3
07は、TAPのASR227が失敗した音声認識に成功する。その理由は、R
APのASR307は好ましくはより強力であり基準ワードの大きいデータベー
スを含むからである。
【0042】 RAPのASR307は、孤立ワードを認識できるほかに、連続音声を認識す
る能力も有する。この能力は、端末のユーザが単一ワード指令を言うことになっ
ているのにフレーズを言ってしまう場合を含む多くの場合において有用である。
例えば、ユーザが「ジョンを〔休止〕呼出す〔休止〕」のように言うことが期待
されているのに、2つのワードの間の休止なしに「ジョンを呼出す」と言う場合
である。この場合、フレーズ「ジョンを呼出す」は、開始/停止検出器および記
録ユニット225によって孤立ワードとして間違われ、そのように記録されるこ
とがある。TAPのASR227がこのオーディオ入力を認識できなければ、T
AP201は、それをMIMEフォーマット化オーディオコード化データへ変換
し、それをTAP201が指令入力を期待している状態にあったことの表示と共
にRAP205へ送る。この場合、RAP205は、それに応答して、その非認
識「孤立ワード」(この例では、フレーズ「ジョンを呼出す」)をそれのもっと
強力なASR307へ印加する。RAPのASR307は、ユーザによって話さ
れる得る全ての可能なワードを認識できる必要はない。代わりに、それは、認識
可能なTP指令のリストを備え、TP指令ワードのみが探されるいわゆる「ワイ
ルドカード」認識動作を行う。このようにして、ASR307が数ある中でフレ
ーズ「*呼出す*」(ここで「*」はワード「呼出す」の前後の「何でもよい」ワ
ードを示す)を探していれば、ASR307は、その非認識「孤立ワード」がそ
れに続く別の非認識部分を伴うワード「呼出す」から成ることを検出する。次に
、この情報はTAP203へ送り返される。それに応答して、TAP203は、
端末の呼出し指令を呼出し、呼出されるべき人の名前を繰返すことをユーザに求
める。このようにして、本発明のこの態様によれば、ASR機能は、端末で行わ
れる部分と遠隔のRAP205で行われる部分とに実際に分散される。
る能力も有する。この能力は、端末のユーザが単一ワード指令を言うことになっ
ているのにフレーズを言ってしまう場合を含む多くの場合において有用である。
例えば、ユーザが「ジョンを〔休止〕呼出す〔休止〕」のように言うことが期待
されているのに、2つのワードの間の休止なしに「ジョンを呼出す」と言う場合
である。この場合、フレーズ「ジョンを呼出す」は、開始/停止検出器および記
録ユニット225によって孤立ワードとして間違われ、そのように記録されるこ
とがある。TAPのASR227がこのオーディオ入力を認識できなければ、T
AP201は、それをMIMEフォーマット化オーディオコード化データへ変換
し、それをTAP201が指令入力を期待している状態にあったことの表示と共
にRAP205へ送る。この場合、RAP205は、それに応答して、その非認
識「孤立ワード」(この例では、フレーズ「ジョンを呼出す」)をそれのもっと
強力なASR307へ印加する。RAPのASR307は、ユーザによって話さ
れる得る全ての可能なワードを認識できる必要はない。代わりに、それは、認識
可能なTP指令のリストを備え、TP指令ワードのみが探されるいわゆる「ワイ
ルドカード」認識動作を行う。このようにして、ASR307が数ある中でフレ
ーズ「*呼出す*」(ここで「*」はワード「呼出す」の前後の「何でもよい」ワ
ードを示す)を探していれば、ASR307は、その非認識「孤立ワード」がそ
れに続く別の非認識部分を伴うワード「呼出す」から成ることを検出する。次に
、この情報はTAP203へ送り返される。それに応答して、TAP203は、
端末の呼出し指令を呼出し、呼出されるべき人の名前を繰返すことをユーザに求
める。このようにして、本発明のこの態様によれば、ASR機能は、端末で行わ
れる部分と遠隔のRAP205で行われる部分とに実際に分散される。
【0043】 図5は、RAP205の全体的動作の代表的実施例を示すフローチャートであ
る。TP203から入力を受取れば(判断ブロック501の「Yes」経路)、
それは検査されて、それが何を表すかが決定される(判断ブロック503)。そ
れがTP応答に関連する状態情報であれば、RAP205は、それを用いてそれ
自身の状態(例えば、RAPサービス論理321の状態)を更新し、それに応じ
て動作する。これは、ESC207へ送られるべきキーボードエミュレーション
応答の発生を含む(ステップ505)。前述したように、キーボードエミュレー
ション応答は、テキスト,2進データ,状態情報またはメニュー選択コードを含
むが、これらに限られるわけではない。
る。TP203から入力を受取れば(判断ブロック501の「Yes」経路)、
それは検査されて、それが何を表すかが決定される(判断ブロック503)。そ
れがTP応答に関連する状態情報であれば、RAP205は、それを用いてそれ
自身の状態(例えば、RAPサービス論理321の状態)を更新し、それに応じ
て動作する。これは、ESC207へ送られるべきキーボードエミュレーション
応答の発生を含む(ステップ505)。前述したように、キーボードエミュレー
ション応答は、テキスト,2進データ,状態情報またはメニュー選択コードを含
むが、これらに限られるわけではない。
【0044】 TP203から受けた入力が状態情報でなければ、それはMIMEフォーマッ
トされた非認識孤立ワードである。これは、次に、特定のアプリケーションに従
って処理される(ステップ507)。例えば、非認識孤立ワードはRAPのAS
R307へ印加され、ASR307は、例えば、ESC207へ送られるべき対
応テキストを発生する。この場合の対応テキストはRAP基準データベース31
3から供給される。
トされた非認識孤立ワードである。これは、次に、特定のアプリケーションに従
って処理される(ステップ507)。例えば、非認識孤立ワードはRAPのAS
R307へ印加され、ASR307は、例えば、ESC207へ送られるべき対
応テキストを発生する。この場合の対応テキストはRAP基準データベース31
3から供給される。
【0045】 あるいは、非認識テキストは、例えば、ESC207におけるWAPアプリケ
ーションへ送られるeメールに添付されるべきオーディオコンテンツを表す。他
の選択肢では、非認識テキストは、ESC207との通信を必要とせずにRAP
自身を動作させる制御ワードを構成する。例えば、非認識テキストは、ユーザに
対して十分に表示/提示され得なかったメニューの別の部分を要求するものであ
る。RAP205が完全なメニューを記憶していれば、それは、ESC207と
通信せずにTP205に対する応答を準備できる。
ーションへ送られるeメールに添付されるべきオーディオコンテンツを表す。他
の選択肢では、非認識テキストは、ESC207との通信を必要とせずにRAP
自身を動作させる制御ワードを構成する。例えば、非認識テキストは、ユーザに
対して十分に表示/提示され得なかったメニューの別の部分を要求するものであ
る。RAP205が完全なメニューを記憶していれば、それは、ESC207と
通信せずにTP205に対する応答を準備できる。
【0046】 受信されたTPオーディオコード化データに自動音声認識を行う代わりとなる
のは、例えばeメール応答に添付され得るウェーブフォーマット化ファイルのよ
うな異なるオーディオフォーマットへ変換することである。この変換はオーディ
オフォーマット変換器323によって行われる。オーディオフォーマット変換器
323は、好ましくは、(ESC207から受けた)音声メールフォーマットを
ユーザに聞かせる目的でTP203へ送られるTPオーディオコード化データへ
変換することができるために、双方向性のものとする。
のは、例えばeメール応答に添付され得るウェーブフォーマット化ファイルのよ
うな異なるオーディオフォーマットへ変換することである。この変換はオーディ
オフォーマット変換器323によって行われる。オーディオフォーマット変換器
323は、好ましくは、(ESC207から受けた)音声メールフォーマットを
ユーザに聞かせる目的でTP203へ送られるTPオーディオコード化データへ
変換することができるために、双方向性のものとする。
【0047】 入力がTPから受取られなければ(判断ブロック501から出る「No」経路
)、ESC207からテキストが受取られたかどうかが決定されなければならな
い(判断ブロック509)。受取られたとすれば(判断ブロック509から出る
「Yes」経路)、それは、好ましくは、テキスト/TPオーディオ・エンコー
ダ319へ供給され、エンコーダ319は、それから対応TPオーディオコード
化データを発生する(ステップ511)。このデータは、次に、MIMEタイプ
にフォーマットされ、WAPプロトコルでTP203へ転送される(ステップ5
13)。前述したように、受信されたTPオーディオコード化データは、次に、
スピーカ221を経てユーザに聞かされる。テキストからオーディオへのこの変
換は、例えば、アプリケーションがESC207からテキストをユーザへ読取り
つつあるとき、または、RAP205が記憶されているヘルプテキストをユーザ
へ読取りつつあるときに、必要である。RAP205がさまざまな異なるエンコ
ーダを用いるクライアントによって共用されるリソースであるときは、テキスト
/TPオーディオ・エンコーダ319は、クライアント端末の1つが用いる必要
なオーデオコード化フォーマットのいずれかおよび全てをサポートするように設
計される。
)、ESC207からテキストが受取られたかどうかが決定されなければならな
い(判断ブロック509)。受取られたとすれば(判断ブロック509から出る
「Yes」経路)、それは、好ましくは、テキスト/TPオーディオ・エンコー
ダ319へ供給され、エンコーダ319は、それから対応TPオーディオコード
化データを発生する(ステップ511)。このデータは、次に、MIMEタイプ
にフォーマットされ、WAPプロトコルでTP203へ転送される(ステップ5
13)。前述したように、受信されたTPオーディオコード化データは、次に、
スピーカ221を経てユーザに聞かされる。テキストからオーディオへのこの変
換は、例えば、アプリケーションがESC207からテキストをユーザへ読取り
つつあるとき、または、RAP205が記憶されているヘルプテキストをユーザ
へ読取りつつあるときに、必要である。RAP205がさまざまな異なるエンコ
ーダを用いるクライアントによって共用されるリソースであるときは、テキスト
/TPオーディオ・エンコーダ319は、クライアント端末の1つが用いる必要
なオーデオコード化フォーマットのいずれかおよび全てをサポートするように設
計される。
【0048】 いくつかの実施例では、オーディオフォーマット変換器323をなくし、代わ
りに、RAP基準データベース313においてテキストを探索して対応TPオー
ディオコード化データを出力することが可能である。しかし、個別のオーディオ
フォーマット変換器323を用いることが好ましい理由は、一般に、ヘルプファ
イルのようなテキストファイルをユーザに提示する「マイメール(my mail)の
読取り」や他のサービスのような大きい語彙を用いるサービスをサポートできる
からである。これらの場合には、RAP205にコード化データの全辞書を記憶
することは所望されない。
りに、RAP基準データベース313においてテキストを探索して対応TPオー
ディオコード化データを出力することが可能である。しかし、個別のオーディオ
フォーマット変換器323を用いることが好ましい理由は、一般に、ヘルプファ
イルのようなテキストファイルをユーザに提示する「マイメール(my mail)の
読取り」や他のサービスのような大きい語彙を用いるサービスをサポートできる
からである。これらの場合には、RAP205にコード化データの全辞書を記憶
することは所望されない。
【0049】 RAP205は、他の外部サービスおよびコンテンツのプロバイダへのアクセ
スをサポートする、次のレベルのサービスおよびコンテンツに対する代理クライ
アントユニット325をさらに含む。 ここでESC207を見ると、それは、WAPアプリケーション用のサポート
を有するまたは有さないアプリケーションであるが、いずれの場合でも、RAP
205におけるサービスアプリケーションに対する情報またはコンテンツのプロ
バイダとして用いられる。
スをサポートする、次のレベルのサービスおよびコンテンツに対する代理クライ
アントユニット325をさらに含む。 ここでESC207を見ると、それは、WAPアプリケーション用のサポート
を有するまたは有さないアプリケーションであるが、いずれの場合でも、RAP
205におけるサービスアプリケーションに対する情報またはコンテンツのプロ
バイダとして用いられる。
【0050】 本発明は、WAPにおける標準化WML語彙およびシンタックスを利用して、
WAP端末(すなわち、具体化されたWAPクライアントを有する端末)がWA
P端末用に設計された全サービスに対する音声制御インタフェースを有すること
を可能にする。VCSA用のサービス論理は、アプリケーションにおいてTAP
201とRAP205とに分割される。TAP201とTP203との間の全て
のローカル対話は、TAP201とRAP205との間の伝送を最小化するため
にTAPのWAPサービス論理245によって処理される。TAPのWAPサー
ビス論理245は、TAP201内のデータおよび情報の流れを制御するTAP
制御論理235によって行われる命令を発する。本発明の他のオプションの態様
によれば、TAP制御論理235はまた、WMLシンタックスにおける極めて制
限された語彙に比べてユーザとのダイアログを向上させ改善するために、サポー
ト・テキストおよびサポート・ワードを挿入する能力を有する。そのような追加
のテキストは、例えば、特定のメニュー選択を行うためにどのようなステップを
行わなければならないかを詳細にユーザに説明するオーディオの形式のものであ
る。この追加の語彙は、TPオーディオコード化データストリングとしてTAP
基準データベース233に記憶される。あるいは、追加の語彙は、RAP基準デ
ータベース313から要求され、TPコード化オーディオデータとして第1のデ
ータリンク211(WAPチャネル)を経てTP203へ転送される。TP20
3は、このオーディオをスピーカ221を経てユーザに聞かせることができる。
WAP端末(すなわち、具体化されたWAPクライアントを有する端末)がWA
P端末用に設計された全サービスに対する音声制御インタフェースを有すること
を可能にする。VCSA用のサービス論理は、アプリケーションにおいてTAP
201とRAP205とに分割される。TAP201とTP203との間の全て
のローカル対話は、TAP201とRAP205との間の伝送を最小化するため
にTAPのWAPサービス論理245によって処理される。TAPのWAPサー
ビス論理245は、TAP201内のデータおよび情報の流れを制御するTAP
制御論理235によって行われる命令を発する。本発明の他のオプションの態様
によれば、TAP制御論理235はまた、WMLシンタックスにおける極めて制
限された語彙に比べてユーザとのダイアログを向上させ改善するために、サポー
ト・テキストおよびサポート・ワードを挿入する能力を有する。そのような追加
のテキストは、例えば、特定のメニュー選択を行うためにどのようなステップを
行わなければならないかを詳細にユーザに説明するオーディオの形式のものであ
る。この追加の語彙は、TPオーディオコード化データストリングとしてTAP
基準データベース233に記憶される。あるいは、追加の語彙は、RAP基準デ
ータベース313から要求され、TPコード化オーディオデータとして第1のデ
ータリンク211(WAPチャネル)を経てTP203へ転送される。TP20
3は、このオーディオをスピーカ221を経てユーザに聞かせることができる。
【0051】 本発明の他の態様によれば、TAP基準データベース233内の語彙をRAP
205を経て供給されたテキスト,コード化TPオーディオデータおよび特徴ベ
クトルの完全なセットで更新,改善または置換することができる。新しくダウン
ロードされた情報は、WMLの変化をまたは新しい言語さえも表す。
205を経て供給されたテキスト,コード化TPオーディオデータおよび特徴ベ
クトルの完全なセットで更新,改善または置換することができる。新しくダウン
ロードされた情報は、WMLの変化をまたは新しい言語さえも表す。
【0052】 TAPのWAPサービス論理245は、RAP205にあるRAPサービス論
理321に対するクライアントである。TAPのWAPサービス論理245は、
TPおよびTAP機能のみを制御し、また、基本WMLシンタックスを実行する
。それは、VCSAのアプリケーション依存部分をサポートしない。TAPのW
APサービス論理245とRAPサービス論理321とはサービスアプリケーシ
ョン中には同期されている。RAPサービス論理321と新しいVCSAをサポ
ートする語彙とは、外部サービスプロバイダからRAP205へダウンロードさ
れる。
理321に対するクライアントである。TAPのWAPサービス論理245は、
TPおよびTAP機能のみを制御し、また、基本WMLシンタックスを実行する
。それは、VCSAのアプリケーション依存部分をサポートしない。TAPのW
APサービス論理245とRAPサービス論理321とはサービスアプリケーシ
ョン中には同期されている。RAPサービス論理321と新しいVCSAをサポ
ートする語彙とは、外部サービスプロバイダからRAP205へダウンロードさ
れる。
【0053】 代表的実施例では、VCSAを起動するためには、ユーザは、ワード「サービ
ス」のような所定の音声指令を話せばよい。これに応答して、TP203は、例
えば、この音声をTPオーディオコード化データに変換し、認識のためにTAP
201へそれを供給する。ユーザの指令がTAPのASR227によって認識さ
れたとすると、TAP基準データベース233から供給されたTPコード化オー
ディオが、TPオーディオデコーダ219によってオーディオ信号へ変換され、
スピーカ221へ供給される。TAPのWAPサービス論理245はワードをテ
キストストリングに組立てる責任を有し、また、TAP制御論理235は適切な
オーディオ出力命令を実行する。このオーディオは、TAP201に記憶されて
いるサービスメニューからいくつかの選択肢からの選択を行うようにユーザに促
す。RAP205へのWAP接続は、特定のWAPサービスアプリケーションが
選択されたときにセットアップされるであろう。次に、TAP201およびRA
P205のサービス論理はサービスを実行し始める。
ス」のような所定の音声指令を話せばよい。これに応答して、TP203は、例
えば、この音声をTPオーディオコード化データに変換し、認識のためにTAP
201へそれを供給する。ユーザの指令がTAPのASR227によって認識さ
れたとすると、TAP基準データベース233から供給されたTPコード化オー
ディオが、TPオーディオデコーダ219によってオーディオ信号へ変換され、
スピーカ221へ供給される。TAPのWAPサービス論理245はワードをテ
キストストリングに組立てる責任を有し、また、TAP制御論理235は適切な
オーディオ出力命令を実行する。このオーディオは、TAP201に記憶されて
いるサービスメニューからいくつかの選択肢からの選択を行うようにユーザに促
す。RAP205へのWAP接続は、特定のWAPサービスアプリケーションが
選択されたときにセットアップされるであろう。次に、TAP201およびRA
P205のサービス論理はサービスを実行し始める。
【0054】 実例をあげる目的で、代表的サービスを簡単に説明する。この例のWML部分
の理解を容易にするために、まずWML1.0を簡単に解説する。この簡単な要
約では、WMLシンタックスのみを示す。属性の値,範囲およびデフォルトは示
されていない。しかし、この情報は、公知であり、ここに提示する必要はない。
の理解を容易にするために、まずWML1.0を簡単に解説する。この簡単な要
約では、WMLシンタックスのみを示す。属性の値,範囲およびデフォルトは示
されていない。しかし、この情報は、公知であり、ここに提示する必要はない。
【0055】 以下のプロローグは、すべてのWMLデック(すなわち、wmlファイル)の
トップに現れなければならない。
トップに現れなければならない。
【0056】 すべてのデックは正確に1つの<WML>要素を有する。
【0057】 すべてのデックは正確に1つの<HEAD>要素を任意に有する。
【0058】 すべてのデックは正確に1つ<TEMPLATE>要素を任意に有する。
【0059】 すべてのデックは少なくとも1つの<CARD>要素を有する。
【0060】 カードは、画像<IMG>およびアンカー<A>を含む(<B>ボールド</
B>のような)マークアップを有するテキストフローを含むことができる。 </CARD>
B>のような)マークアップを有するテキストフローを含むことができる。 </CARD>
【0061】 ナビゲーションは<DO>要素によって表示される。
【0062】 イベントは<ONEVENT>または<TIMER>要素によって処理される
。
。
【0063】 特定の動作は<GO>,<PREV>,<REFRESH>または<NOOP
>要素の1つである。
>要素の1つである。
【0064】 入力フィールドをどのようにグループ化すべきかのヒントは<FIELDSE
T>要素で与えられる。
T>要素で与えられる。
【0065】 入力は<INPUT>または<SELECT>要素の1つによって得られる。
【0066】 選択リストの要素は<OPTGROUP>要素を用いてグループ化され得る。
【0067】 選択リストの要素は<OPTION>要素を用いて指定される。 <OPTION VALUE=”“TITLE=”“ONCLICK=”“> オプションは、マークアップをもつが画像またはアンカーはもたないテキスト
フローを有する。 <ONEVENT>...</ONEVENT> </OPTION>
フローを有する。 <ONEVENT>...</ONEVENT> </OPTION>
【0068】 マークアップを有するテキストフローは、以下の要素を含む。 <B>...</B> ボールド <I>...</I> イタリック <U>...</U> アンダーライン <BIG>...</BIG> 拡大フォントサイズ <SMALL>...</SMALL> 縮小フォントサイズ <EM>...</EM> 強調 <STRONG>...</STRONG> 強い強調 <BR ALIGN=”“MODE=”“/> ラインブレークを強制 <TAB ALIGN=”“/> 続くテキストを列にアライン <A TITLE=”“> テキストフローに組込まれたアンカータグ <GO>...</GO> <PREV>...</PREV> <REFRESH>...</REFRESH>
【0069】 アンカーは、マークアップをもつが画像またはアンカーはもたないテキストフ
ローを有する。 </A> 画像は<IMG>要素で表示される。
ローを有する。 </A> 画像は<IMG>要素で表示される。
【0070】 ここで、代表的WAPサービスを説明する。ディスプレイ/キーボード対話を
有するWAP使用可能端末において、気象情報サービスが利用可能であるものと
する。このサービスは、まず、ユーザに以下のようなオプションのリストを画面
上に提示する。 以下における天候を示して下さい。 >ストックホルム ヘルシンキ チューリッヒ その他
有するWAP使用可能端末において、気象情報サービスが利用可能であるものと
する。このサービスは、まず、ユーザに以下のようなオプションのリストを画面
上に提示する。 以下における天候を示して下さい。 >ストックホルム ヘルシンキ チューリッヒ その他
【0071】 アップまたはダウンキーを押すことにより、ユーザは、カーソル(すなわち、
「>」文字)をリスト上において上下に移動させる。アクセプト・キー(エリク
ソンが製造販売している移動電話機のようないくつかの移動電話機では、これは
イエス(YES)キーである)を押すことにより、ユーザは、選択された都市の
短いコードを気象サービスプロバイダへ送る。 「その他」が選択されれば、以下のような入力フィールドがユーザに提供され
る。 都市名を入力して下さい: − 次に、ユーザは、適切な装置キーを用いて都市名を入力したのち、エンターキ
ーを押す。
「>」文字)をリスト上において上下に移動させる。アクセプト・キー(エリク
ソンが製造販売している移動電話機のようないくつかの移動電話機では、これは
イエス(YES)キーである)を押すことにより、ユーザは、選択された都市の
短いコードを気象サービスプロバイダへ送る。 「その他」が選択されれば、以下のような入力フィールドがユーザに提供され
る。 都市名を入力して下さい: − 次に、ユーザは、適切な装置キーを用いて都市名を入力したのち、エンターキ
ーを押す。
【0072】 このサービス用のWMLは、以下のようになる。
【0073】 音声認識使用可能端末で上述した本発明の技術を用いると、ユーザは次のよう
に聞く。 「これらの都市オプションにおける天候を示して下さい」 それは、「における天候を示して下さい」と、選択タグのタイトル属性である
「都市」と、TAP基準データベース233からのある接着テキストである「こ
れらの」および「オプション」とを組合わせたものであることに注意すべきであ
る。これは、シンタックスに関連するWML語彙への補足ワードに依存するか補
足ワードとして定められた装置インプリメンテーションであり得る。
に聞く。 「これらの都市オプションにおける天候を示して下さい」 それは、「における天候を示して下さい」と、選択タグのタイトル属性である
「都市」と、TAP基準データベース233からのある接着テキストである「こ
れらの」および「オプション」とを組合わせたものであることに注意すべきであ
る。これは、シンタックスに関連するWML語彙への補足ワードに依存するか補
足ワードとして定められた装置インプリメンテーションであり得る。
【0074】 次に、ユーザは、装置がリスト内の都市名を、以下のようにそれぞれの間に短
い休止を入れて言うのを聞く。 「ストックホルム」〔休止〕 「ヘルシンキ」〔休止〕 休止の目的は、ユーザが以下のような何かで応答するのに十分な時間を与える
ためである。 この1つを選択することを意味する「アクセプト」、または 次を意味する「ノー」、または 前の画面に完全に戻ることを意味する「バックアウト」 など
い休止を入れて言うのを聞く。 「ストックホルム」〔休止〕 「ヘルシンキ」〔休止〕 休止の目的は、ユーザが以下のような何かで応答するのに十分な時間を与える
ためである。 この1つを選択することを意味する「アクセプト」、または 次を意味する「ノー」、または 前の画面に完全に戻ることを意味する「バックアウト」 など
【0075】 ユーザが「その他」オプションに対して「アクセプト」で応答すれば、装置は
次のように言う。 「都市名を入力し、オーケーまたは2秒間の休止で終わって下さい。」 装置が与えられたテキストと入力を終わらせる命令とをどのように組合わせた
かに注意すべきである。 ユーザは、次に、都市名を話し、「オーケー」で終わる。そこで、装置は、そ
の話された入力を音声認識およびさらなる処理のために遠隔アプリケーションへ
送る。
次のように言う。 「都市名を入力し、オーケーまたは2秒間の休止で終わって下さい。」 装置が与えられたテキストと入力を終わらせる命令とをどのように組合わせた
かに注意すべきである。 ユーザは、次に、都市名を話し、「オーケー」で終わる。そこで、装置は、そ
の話された入力を音声認識およびさらなる処理のために遠隔アプリケーションへ
送る。
【0076】 本発明のさまざまな態様は、比較的低い処理能力と扱いにくい(例えば、きわ
めて小形である)または(例えば、ドライブ中に)比較的に利用しにくいI/O
装置とを有する端末が、これらの制限をもたない端末により一般に用いられるよ
うに開発されたサービスアプリケーションにアクセスするための対話形音声イン
タフェースを用いることを可能にする。端末におけるASRの要求の複雑さは、
VCSA用の音声認識システムを標準マークアップ言語(例えば、WML)シン
タックス用の小形端末音声認識装置と、もっと大きい処理能力を有する遠隔装置
のVCSAのアプリケーション依存部分用のもっと強力な音声認識装置とに分離
することによって、低減される。この構成の結果として、サービスコンテンツの
変更は必要でない。
めて小形である)または(例えば、ドライブ中に)比較的に利用しにくいI/O
装置とを有する端末が、これらの制限をもたない端末により一般に用いられるよ
うに開発されたサービスアプリケーションにアクセスするための対話形音声イン
タフェースを用いることを可能にする。端末におけるASRの要求の複雑さは、
VCSA用の音声認識システムを標準マークアップ言語(例えば、WML)シン
タックス用の小形端末音声認識装置と、もっと大きい処理能力を有する遠隔装置
のVCSAのアプリケーション依存部分用のもっと強力な音声認識装置とに分離
することによって、低減される。この構成の結果として、サービスコンテンツの
変更は必要でない。
【0077】 本発明の他の利点は、端末と遠隔アプリケーションサーバとの間に音声チャネ
ルを確立することが不必要である事実から得られる。これは、アプリケーション
へのオーディオ応答がディジタルデータチャネルを経て伝送されるMIMEタイ
プのような所定のディジタルタイプにコード化されることによる。
ルを確立することが不必要である事実から得られる。これは、アプリケーション
へのオーディオ応答がディジタルデータチャネルを経て伝送されるMIMEタイ
プのような所定のディジタルタイプにコード化されることによる。
【0078】 本発明の他の利点は、WMLのような標準化されたマークアップ言語を用いる
ことによって音声制御サービス用の音声ダイアログ語彙を標準化し制限する一般
的な方法を本発明が提供していることである。これは、音声認識のタスクを簡単
化し、さもなければ多ユーザアプリケーションにおいてワードの異なる発音の存
在から生じるエラーを減少させる。
ことによって音声制御サービス用の音声ダイアログ語彙を標準化し制限する一般
的な方法を本発明が提供していることである。これは、音声認識のタスクを簡単
化し、さもなければ多ユーザアプリケーションにおいてワードの異なる発音の存
在から生じるエラーを減少させる。
【0079】 本発明はまた、質問またはオプション選択に命令を挿入することによりアプリ
ケーションによって定められた催促形の質問または選択に対してユーザの話され
た応答の終りを決定する方法を提供する。その命令は、ユーザに、例えば、端末
装置によって認識できる特殊な所定ワードを言うことにより、または所定の沈黙
期間を許可することにより応答を終わる方法を知らせる。ユーザが所定ワードを
言ったとき、または、所定期間だけ休止したとき、これは端末内のASR227
によって認識され、端末がその要求された応答の前に来たものを認識できるよう
にする。
ケーションによって定められた催促形の質問または選択に対してユーザの話され
た応答の終りを決定する方法を提供する。その命令は、ユーザに、例えば、端末
装置によって認識できる特殊な所定ワードを言うことにより、または所定の沈黙
期間を許可することにより応答を終わる方法を知らせる。ユーザが所定ワードを
言ったとき、または、所定期間だけ休止したとき、これは端末内のASR227
によって認識され、端末がその要求された応答の前に来たものを認識できるよう
にする。
【0080】 本発明は、さまざまな実施例において対話形音声制御サービスの実施を可能に
させる。これらの例には、以下のものが含まれるが、以下のものに限定されるわ
けではない。 − WAP使用可能電話機における音声ブラウザ − 処理ユニットにおける制御機能にディジタル的に接続された音声使用可能
制御ユニット − 電子ノートパッドのような音声使用可能特殊装置 − ウィンドウに基づくオペレーティングシステムおよびクライアント/サー
バ環境におけるアプリケーションプログラムインタフェース(API)のような
コンピュータアプリケーションの音声使用可能制御 − さまざまなマークアップまたは対話形アプリケーションプロトコルにおけ
る小さくかつ定義された語彙を有するスクリプト言語に基づく標準化アプリケー
ションプロトコルの音声使用可能制御。
させる。これらの例には、以下のものが含まれるが、以下のものに限定されるわ
けではない。 − WAP使用可能電話機における音声ブラウザ − 処理ユニットにおける制御機能にディジタル的に接続された音声使用可能
制御ユニット − 電子ノートパッドのような音声使用可能特殊装置 − ウィンドウに基づくオペレーティングシステムおよびクライアント/サー
バ環境におけるアプリケーションプログラムインタフェース(API)のような
コンピュータアプリケーションの音声使用可能制御 − さまざまなマークアップまたは対話形アプリケーションプロトコルにおけ
る小さくかつ定義された語彙を有するスクリプト言語に基づく標準化アプリケー
ションプロトコルの音声使用可能制御。
【0081】 本発明を特定の実施例に関連して説明してきた。しかしながら、当業者は、本
発明を上述した実施例とは異なる特定の形式で実施できることが容易に分かるは
ずである。これは、本発明の精神から逸脱することなく行われ得る。上述した実
施例は、単なる例であり、いかなる意味においても限定的なものと考えるべきで
はない。本発明の範囲は、以上の説明ではなく、添付の特許請求の範囲により与
えられ、特許請求の範囲に属する全ての変形および等価物はそれに包含されるよ
うに意図されている。
発明を上述した実施例とは異なる特定の形式で実施できることが容易に分かるは
ずである。これは、本発明の精神から逸脱することなく行われ得る。上述した実
施例は、単なる例であり、いかなる意味においても限定的なものと考えるべきで
はない。本発明の範囲は、以上の説明ではなく、添付の特許請求の範囲により与
えられ、特許請求の範囲に属する全ての変形および等価物はそれに包含されるよ
うに意図されている。
【図1a】 本発明の一態様による分散VCSAの代替の実施例のブロック図である。
【図1b】 本発明の一態様による分散VCSAの代替の実施例のブロック図である。
【図2】 本発明による音声制御遠隔サーバの代表的実施例のブロック図である。
【図3】 本発明による音声制御遠隔サーバの代表的実施例のブロック図である。
【図4】 本発明の代表的実施例による端末アプリケーション部分によって行われる動作
のフローチャートである。
のフローチャートである。
【図5】 本発明の代表的実施例によるRAPの全体的動作の代表的実施例を示すフロー
チャートである。
チャートである。
【手続補正書】特許協力条約第34条補正の翻訳文提出書
【提出日】平成13年1月11日(2001.1.11)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正内容】
【特許請求の範囲】
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 561C (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AL,AM,AT,AU,AZ, BA,BB,BG,BR,BY,CA,CH,CN,C R,CU,CZ,DE,DK,DM,EE,ES,FI ,GB,GD,GE,GH,GM,HR,HU,ID, IL,IN,IS,JP,KE,KG,KP,KR,K Z,LC,LK,LR,LS,LT,LU,LV,MD ,MG,MK,MN,MW,MX,NO,NZ,PL, PT,RO,RU,SD,SE,SG,SI,SK,S L,TJ,TM,TR,TT,TZ,UA,UG,UZ ,VN,YU,ZA,ZW 【要約の続き】 いられる。
Claims (34)
- 【請求項1】 遠隔サーバから端末へ供給されるサービスアプリケーション
を制御する方法であって、 オーディオ情報を表すオーディオ入力信号を受取るステップと、 前記端末に配置された第1の自動音声認識システムを用いて、前記オーディオ
入力信号が第1の語彙によって定められた1つ以上のワードを含むかどうかを決
定するステップであって、前記第1の語彙によって定められた前記1つ以上のワ
ードに対応しない前記オーディオ入力信号の部分が、該オーディオ入力信号の非
認識部分を構成する、ステップと、 前記オーディオ入力信号が前記第1の語彙によって定められた1つ以上のワー
ドを含めば、アプリケーションプロトコルサービス論理の端末アプリケーション
部分を用いて、前記第1の語彙によって定められた前記1つ以上のワードをどの
ように処理すべきかを決定するステップと、 前記オーディオ入力信号の前記非認識部分を、第1の所定のマークアップ言語
によって定められた構造を有するデータユニットに含まれるようにフォーマット
するステップと、 前記データユニットを、第1のアプリケーションプロトコルに従って動作する
第1のディジタルデータリンクを経て遠隔アプリケーション部分へ通信するステ
ップと、 前記遠隔アプリケーション部分において、前記オーディオ入力信号の前記フォ
ーマットされた非認識部分を前記データユニットから抽出し、遠隔アプリケーシ
ョン部分のサービス論理を用いて、前記オーディオ入力信号の前記フォーマット
された非認識部分をどのように処理すべきかを決定するステップと、 を含む、方法。 - 【請求項2】 前記オーディオ入力信号が、圧縮されたディジタルコード化
音声の形式である、請求項1記載の方法。 - 【請求項3】 前記オーディオ入力信号が前記第1の語彙によって定められ
た1つ以上のワードを含めば、前記アプリケーションプロトコルサービス論理の
前記端末アプリケーション部分が、前記1つ以上のワードを、行われるべき1つ
以上の端末機能を選択するために用いられるようにする、請求項1記載の方法。 - 【請求項4】 前記1つ以上の端末機能が、前記遠隔サーバへ供給されるべ
き応答として現在のメニューアイテムを選択することを含む、請求項3記載の方
法。 - 【請求項5】 現在のメニューアイテムが第1の選択に関連しており、 前記1つ以上の端末機能が、前記現在のメニューアイテムを前記第1の選択と
同じでない第2の選択に関連させることを含む、 請求項3記載の方法。 - 【請求項6】 前記オーディオ入力信号が前記第1の語彙によって定められ
た1つ以上のワードを含めば、前記アプリケーションプロトコルサービス論理の
前記端末アプリケーション部分が、対応するメッセージが、発生させられ、前記
第1のディジタルデータリンクを経て前記遠隔アプリケーション部分へ通信され
るようにする、請求項1記載の方法。 - 【請求項7】 前記対応するメッセージが状態情報を含む、請求項6記載の
方法。 - 【請求項8】 前記対応するメッセージがテキストを含む、請求項6記載の
方法。 - 【請求項9】 前記対応するメッセージが2進データを含む、請求項6記載
の方法。 - 【請求項10】 前記遠隔アプリケーション部分が、前記対応するメッセー
ジを前記遠隔サーバへ送る、請求項6記載の方法。 - 【請求項11】 前記遠隔アプリケーション部分が、前記対応するメッセー
ジを、第2のアプリケーションプロトコルに従って動作する第2のディジタルデ
ータリンクを経て前記遠隔サーバへ送る、請求項10記載の方法。 - 【請求項12】 前記第1のアプリケーションプロトコルが前記第2のアプ
リケーションプロトコルと同じである、請求項11記載の方法。 - 【請求項13】 前記遠隔アプリケーション部分に配置された第2の自動音
声認識システムを用いて、前記オーディオ入力信号の前記非認識部分が第2の語
彙によって定められた1つ以上のワードを含むかどうかを決定するステップと、 前記オーディオ入力信号の前記非認識部分が前記第2の語彙によって定められ
た1つ以上のワードを含めば、前記遠隔アプリケーション部分のサービス論理を
用いて、前記第2の語彙によって定められた前記1つ以上のワードをどのように
処理すべきかを決定するステップと、 をさらに含む、請求項1記載の方法。 - 【請求項14】 前記第1の語彙は、前記第1の所定のマークアップ言語の
シンタックスによって定められたワードをもっぱら含み、 前記第2の語彙は、前記遠隔サーバに関連するワードをもっぱら含む、 請求項13記載の方法。 - 【請求項15】 前記オーディオ入力信号の前記非認識部分が前記第2の語
彙によって定められた1つ以上のワードを含めば、前記遠隔アプリケーション部
分のサービス論理が、対応するキーボードエミュレーション応答が、発生させら
れ、前記遠隔サーバへ送られるようにする、請求項13記載の方法。 - 【請求項16】 前記オーディオ入力信号の前記非認識部分が前記第2の語
彙によって定められた1つ以上のワードを含めば、前記遠隔アプリケーション部
分のサービス論理が、遠隔アプリケーション部分サービス論理状態が変化される
ようにする、請求項13記載の方法。 - 【請求項17】 前記遠隔アプリケーション部分において、前記遠隔サーバ
からテキストを受取るステップと、 前記遠隔アプリケーション部分において、オーディオ情報を表す対応オーディ
オ出力信号を発生するステップと、 前記第1の所定のマークアップ言語によって定められた構造を有する第2のデ
ータユニットに含まれるように前記オーディオ出力信号をフォーマットするステ
ップと、 前記第2のデータユニットを前記第1のディジタルデータリンクを経て前記端
末へ通信するステップと、 前記端末において、前記オーディオ出力信号を前記第2のデータユニットから
抽出し、それからスピーカ信号を発生させるステップと、 をさらに含む、請求項1記載の方法。 - 【請求項18】 遠隔サーバから端末へ供給されるサービスアプリケーショ
ンを制御する装置であって、 オーディオ情報を表すオーディオ入力信号を受取る手段と、 前記端末内に配置された、前記オーディオ入力信号が第1の語彙によって定め
られた1つ以上のワードを含むかどうかを決定する第1の自動音声認識システム
であって、前記第1の語彙によって定められた前記1つ以上のワードに対応しな
い前記オーディオ入力信号の部分が、前記オーディオ入力信号の非認識部分を構
成する、第1の自動音声認識システムと、 前記オーディオ入力信号が前記第1の語彙によって定められた1つ以上のワー
ドを含めば、前記第1の語彙によって定められた前記1つ以上のワードをどのよ
うに処理すべきかを決定する、アプリケーションプロトコルサービス論理の端末
アプリケーション部分と、 前記オーディオ入力信号の前記非認識部分を、第1の所定のマークアップ言語
によって定められた構造を有するデータユニットに含まれるようにフォーマット
する手段と、 前記データユニットを、第1のアプリケーションプロトコルに従って動作する
第1のディジタルデータリンクを経て遠隔アプリケーション部分へ通信する手段
と、 を含み、 前記遠隔アプリケーション部分が、 前記オーディオ入力信号の前記フォーマットされた非認識部分を前記データ
ユニットから抽出する手段と、 前記オーディオ入力信号の前記フォーマットされた非認識部分をどのように
処理すべきかを決定する、遠隔アプリケーション部分のサービス論理とを含む、 装置。 - 【請求項19】 前記オーディオ入力信号が、圧縮されたディジタルコード
化音声の形式である、請求項18記載の装置。 - 【請求項20】 前記アプリケーションプロトコルサービス論理の前記端末
アプリケーション部分が、前記オーディオ入力信号が前記第1の語彙によって定
められた1つ以上のワードを含めば、行われるべき1つ以上の端末機能を選択す
るために前記1つ以上のワードが用いられるようにする手段を含む、請求項18
記載の装置。 - 【請求項21】 前記1つ以上の端末機能が、前記遠隔サーバへ供給される
べき応答として現在のメニューアイテムを選択することを含む、請求項20記載
の装置。 - 【請求項22】 現在のメニューアイテムが第1の選択に関連しており、 前記1つ以上の端末機能が、前記現在のメニューアイテムを前記第1の選択と
同じでない第2の選択に関連させることを含む、 請求項20記載の装置。 - 【請求項23】 前記アプリケーションプロトコルサービス論理の前記端末
アプリケーション部分が、前記オーディオ入力信号が前記第1の語彙によって定
められた1つ以上のワードを含めば、対応するメッセージが、発生させられ、前
記第1のディジタルデータリンクを経て前記遠隔アプリケーション部分へ通信さ
れるようにする手段を含む、請求項18記載の装置。 - 【請求項24】 前記対応するメッセージが状態情報を含む、請求項23記
載の装置。 - 【請求項25】 前記対応するメッセージがテキストを含む、請求項23記
載の装置。 - 【請求項26】 前記対応するメッセージが2進データを含む、請求項23
記載の方法。 - 【請求項27】 前記遠隔アプリケーション部分が前記対応するメッセージ
を前記遠隔サーバへ送る、請求項23記載の装置。 - 【請求項28】 前記遠隔アプリケーション部分が、前記対応するメッセー
ジを、第2のアプリケーションプロトコルに従って動作する第2のディジタルデ
ータリンクを経て前記遠隔サーバへ送る手段を含む、請求項27記載の装置。 - 【請求項29】 前記第1のアプリケーションプロトコルが前記第2のアプ
リケーションプロトコルと同じである、請求項28記載の装置。 - 【請求項30】 前記遠隔アプリケーション部分に配置された、前記オーデ
ィオ入力信号の前記非認識部分が第2の語彙によって定められた1つ以上のワー
ドを含むかどうかを決定する第2の自動音声認識システムをさらに含み、 前記遠隔アプリケーション部分のサービス論理が、前記オーディオ入力信号の
前記非認識部分が前記第2の語彙によって定められた1つ以上のワードを含めば
、前記第2の語彙によって定められた前記1つ以上のワードをどのように処理す
べきかを決定する手段を含む、 請求項18記載の装置。 - 【請求項31】 前記第1の語彙は、前記第1の所定のマークアップ言語の
シンタックスによって定められたワードをもっぱら含み、 前記第2の語彙は、前記遠隔サーバに関連するワードをもっぱら含む、 請求項30記載の装置。 - 【請求項32】 前記遠隔アプリケーション部分のサービス論理が、前記オ
ーディオ入力信号の前記非認識部分が前記第2の語彙によって定められた1つ以
上のワードを含めば、対応するキーボードエミュレーション応答が、発生させら
れ、前記遠隔サーバへ送られるようにする手段を含む、請求項30記載の装置。 - 【請求項33】 前記遠隔アプリケーション部分のサービス論理が、前記オ
ーディオ入力信号の前記非認識部分が前記第2の語彙によって定められた1つ以
上のワードを含めば、遠隔アプリケーション部分サービス論理状態が変化される
ようにする手段を含む、請求項30記載の方法。 - 【請求項34】 前記遠隔アプリケーション部分において、前記遠隔サーバ
からテキストを受取る手段と、 前記遠隔アプリケーション部分において、オーディオ情報を表す対応オーディ
オ出力信号を発生する手段と、 前記第1の所定のマークアップ言語によって定められた構造を有する第2のデ
ータユニットに含まれるように前記オーディオ出力信号をフォーマットする手段
と、 前記第2のデータユニットを前記第1のディジタルデータリンクを経て前記端
末へ通信する手段と、 前記端末において、前記オーディオ出力信号を前記第2のデータユニットから
抽出し、それからスピーカ信号を発生させる手段と、 をさらに含む、請求項18記載の装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/173,748 US6185535B1 (en) | 1998-10-16 | 1998-10-16 | Voice control of a user interface to service applications |
US09/173,748 | 1998-10-16 | ||
PCT/SE1999/001769 WO2000023985A1 (en) | 1998-10-16 | 1999-10-05 | Voice control of a user interface to service applications |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002528804A true JP2002528804A (ja) | 2002-09-03 |
Family
ID=22633323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000577652A Withdrawn JP2002528804A (ja) | 1998-10-16 | 1999-10-05 | サービスアプリケーションに対するユーザインタフェースの音声制御 |
Country Status (8)
Country | Link |
---|---|
US (1) | US6185535B1 (ja) |
EP (1) | EP1129449A1 (ja) |
JP (1) | JP2002528804A (ja) |
CN (1) | CN1158645C (ja) |
AU (1) | AU1422000A (ja) |
BR (1) | BR9914583A (ja) |
MY (1) | MY117070A (ja) |
WO (1) | WO2000023985A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007511111A (ja) * | 2003-10-10 | 2007-04-26 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 移動体端末のゲートウェイ |
KR101309794B1 (ko) * | 2012-06-27 | 2013-09-23 | 삼성전자주식회사 | 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템 |
Families Citing this family (235)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6996609B2 (en) | 1996-05-01 | 2006-02-07 | G&H Nevada Tek | Method and apparatus for accessing a wide area network |
US6480600B1 (en) | 1997-02-10 | 2002-11-12 | Genesys Telecommunications Laboratories, Inc. | Call and data correspondence in a call-in center employing virtual restructuring for computer telephony integrated functionality |
US6104802A (en) | 1997-02-10 | 2000-08-15 | Genesys Telecommunications Laboratories, Inc. | In-band signaling for routing |
US7031442B1 (en) | 1997-02-10 | 2006-04-18 | Genesys Telecommunications Laboratories, Inc. | Methods and apparatus for personal routing in computer-simulated telephony |
US6775264B1 (en) | 1997-03-03 | 2004-08-10 | Webley Systems, Inc. | Computer, internet and telecommunications based network |
US6985943B2 (en) | 1998-09-11 | 2006-01-10 | Genesys Telecommunications Laboratories, Inc. | Method and apparatus for extended management of state and interaction of a remote knowledge worker from a contact center |
US6711611B2 (en) | 1998-09-11 | 2004-03-23 | Genesis Telecommunications Laboratories, Inc. | Method and apparatus for data-linking a mobile knowledge worker to home communication-center infrastructure |
USRE46528E1 (en) | 1997-11-14 | 2017-08-29 | Genesys Telecommunications Laboratories, Inc. | Implementation of call-center outbound dialing capability at a telephony network level |
US7907598B2 (en) | 1998-02-17 | 2011-03-15 | Genesys Telecommunication Laboratories, Inc. | Method for implementing and executing communication center routing strategies represented in extensible markup language |
US6332154B2 (en) * | 1998-09-11 | 2001-12-18 | Genesys Telecommunications Laboratories, Inc. | Method and apparatus for providing media-independent self-help modules within a multimedia communication-center customer interface |
US6418146B1 (en) * | 1999-12-10 | 2002-07-09 | Genesys Telecommunications Laboratories, Inc. | Integrated communication center functionality for WAP devices |
USRE46153E1 (en) | 1998-09-11 | 2016-09-20 | Genesys Telecommunications Laboratories, Inc. | Method and apparatus enabling voice-based management of state and interaction of a remote knowledge worker in a contact center environment |
US6493671B1 (en) * | 1998-10-02 | 2002-12-10 | Motorola, Inc. | Markup language for interactive services to notify a user of an event and methods thereof |
US6370532B1 (en) * | 1998-11-09 | 2002-04-09 | Unisys Corporation | Cool ICE batch interface |
US6249808B1 (en) * | 1998-12-15 | 2001-06-19 | At&T Corp | Wireless delivery of message using combination of text and voice |
US6744860B1 (en) * | 1998-12-31 | 2004-06-01 | Bell Atlantic Network Services | Methods and apparatus for initiating a voice-dialing operation |
US6606611B1 (en) | 1999-02-27 | 2003-08-12 | Emdadur Khan | System and method for audio-only internet browsing using a standard telephone |
JP2000250574A (ja) * | 1999-03-03 | 2000-09-14 | Sony Corp | コンテンツ選択システム、コンテンツ選択クライアント、コンテンツ選択サーバ及びコンテンツ選択方法 |
US20050261907A1 (en) | 1999-04-12 | 2005-11-24 | Ben Franklin Patent Holding Llc | Voice integration platform |
US6408272B1 (en) | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
US7058573B1 (en) * | 1999-04-20 | 2006-06-06 | Nuance Communications Inc. | Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes |
US7292980B1 (en) | 1999-04-30 | 2007-11-06 | Lucent Technologies Inc. | Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems |
US6766295B1 (en) | 1999-05-10 | 2004-07-20 | Nuance Communications | Adaptation of a speech recognition system across multiple remote sessions with a speaker |
US6952800B1 (en) * | 1999-09-03 | 2005-10-04 | Cisco Technology, Inc. | Arrangement for controlling and logging voice enabled web applications using extensible markup language documents |
WO2001018679A2 (en) | 1999-09-10 | 2001-03-15 | Everypath, Inc. | Method for converting two-dimensional data into a canonical representation |
DE19944325A1 (de) * | 1999-09-15 | 2001-03-22 | Thomson Brandt Gmbh | Verfahren und Vorrichtung zur Spracherkennung |
JP3508648B2 (ja) * | 1999-10-12 | 2004-03-22 | 日本電気株式会社 | 通信端末装置 |
US7941481B1 (en) | 1999-10-22 | 2011-05-10 | Tellme Networks, Inc. | Updating an electronic phonebook over electronic communication networks |
US6807574B1 (en) | 1999-10-22 | 2004-10-19 | Tellme Networks, Inc. | Method and apparatus for content personalization over a telephone interface |
MXPA02004015A (es) * | 1999-10-22 | 2003-09-25 | Activesky Inc | Un sistema de video orientado a los objetos. |
US6950881B1 (en) * | 1999-11-02 | 2005-09-27 | Mshift, Inc. | System for converting wireless communications for a mobile device |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US6615172B1 (en) | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US7929978B2 (en) | 1999-12-01 | 2011-04-19 | Genesys Telecommunications Laboratories, Inc. | Method and apparatus for providing enhanced communication capability for mobile devices on a virtual private network |
US6553240B1 (en) * | 1999-12-30 | 2003-04-22 | Nokia Corporation | Print option for WAP browsers |
US8271287B1 (en) * | 2000-01-14 | 2012-09-18 | Alcatel Lucent | Voice command remote control system |
US6760697B1 (en) * | 2000-01-25 | 2004-07-06 | Minds And Technology, Inc. | Centralized processing of digital speech data originated at the network clients of a set of servers |
US7516190B2 (en) | 2000-02-04 | 2009-04-07 | Parus Holdings, Inc. | Personal voice-based information retrieval system |
US6721705B2 (en) | 2000-02-04 | 2004-04-13 | Webley Systems, Inc. | Robust voice browser system and voice activated device controller |
US7349955B1 (en) * | 2000-02-11 | 2008-03-25 | Goamerica, Inc. | Method of and system for transferring data over a wireless communications network |
US6675165B1 (en) * | 2000-02-28 | 2004-01-06 | Barpoint.Com, Inc. | Method for linking a billboard or signage to information on a global computer network through manual information input or a global positioning system |
US6662163B1 (en) * | 2000-03-30 | 2003-12-09 | Voxware, Inc. | System and method for programming portable devices from a remote computer system |
JP2002014952A (ja) * | 2000-04-13 | 2002-01-18 | Canon Inc | 情報処理装置及び情報処理方法 |
US6560576B1 (en) * | 2000-04-25 | 2003-05-06 | Nuance Communications | Method and apparatus for providing active help to a user of a voice-enabled application |
JP2003531792A (ja) * | 2000-05-01 | 2003-10-28 | インベンテイオ・アクテイエンゲゼルシヤフト | エレベータの制御方法 |
AU2001259357A1 (en) * | 2000-05-03 | 2001-11-12 | Payback Training Systems, Inc. | Authoring and delivering training courses |
US8355912B1 (en) * | 2000-05-04 | 2013-01-15 | International Business Machines Corporation | Technique for providing continuous speech recognition as an alternate input device to limited processing power devices |
AU2001271269A1 (en) * | 2000-05-23 | 2001-12-03 | Pocketscript, Inc. | Wireless voice recognition data retrieval system and method |
ATE426855T1 (de) * | 2000-06-05 | 2009-04-15 | Unipier Mobile Ltd | Verfahren zum navigieren durch den inhalt eines zellularen netzwerks |
US7219136B1 (en) * | 2000-06-12 | 2007-05-15 | Cisco Technology, Inc. | Apparatus and methods for providing network-based information suitable for audio output |
US7653744B2 (en) * | 2000-06-12 | 2010-01-26 | At&T Mobility Ii Llc | Method and apparatus for sharing wireless content |
FR2810823A1 (fr) * | 2000-06-27 | 2001-12-28 | Canecaude Emmanuel De | Systeme et procede pour transmettre des informations selon un protocole pour des applications sans fil, et equipement de communication mobile adapte |
US6598021B1 (en) * | 2000-07-13 | 2003-07-22 | Craig R. Shambaugh | Method of modifying speech to provide a user selectable dialect |
US7143039B1 (en) * | 2000-08-11 | 2006-11-28 | Tellme Networks, Inc. | Providing menu and other services for an information processing system using a telephone or other audio interface |
US7308408B1 (en) | 2000-07-24 | 2007-12-11 | Microsoft Corporation | Providing services for an information processing system using an audio interface |
FI20001918A (fi) | 2000-08-30 | 2002-03-01 | Nokia Corp | Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä |
US7376769B1 (en) * | 2000-09-14 | 2008-05-20 | Intel Corporation | Wireless computing device having an application and wireless subsystem and method therefore |
US7240006B1 (en) * | 2000-09-27 | 2007-07-03 | International Business Machines Corporation | Explicitly registering markup based on verbal commands and exploiting audio context |
JP2002116796A (ja) * | 2000-10-11 | 2002-04-19 | Canon Inc | 音声処理装置、音声処理方法及び記憶媒体 |
US6901270B1 (en) * | 2000-11-17 | 2005-05-31 | Symbol Technologies, Inc. | Apparatus and method for wireless communication |
US6915262B2 (en) * | 2000-11-30 | 2005-07-05 | Telesector Resources Group, Inc. | Methods and apparatus for performing speech recognition and using speech recognition results |
US8135589B1 (en) | 2000-11-30 | 2012-03-13 | Google Inc. | Performing speech recognition over a network and using speech recognition results |
US6823306B2 (en) | 2000-11-30 | 2004-11-23 | Telesector Resources Group, Inc. | Methods and apparatus for generating, updating and distributing speech recognition models |
JP2002181552A (ja) * | 2000-12-11 | 2002-06-26 | Nippon Telegr & Teleph Corp <Ntt> | サーバ型ナビゲーションシステム |
US20020086719A1 (en) * | 2000-12-29 | 2002-07-04 | Pankaj Kedia | Low power subsystem for portable computers |
US20020097692A1 (en) * | 2000-12-29 | 2002-07-25 | Nokia Mobile Phones Ltd. | User interface for a mobile station |
US7725748B1 (en) | 2000-12-29 | 2010-05-25 | Intel Corporation | Low power subsystem for portable computers |
JPWO2002060165A1 (ja) * | 2001-01-25 | 2004-05-27 | 三菱電機株式会社 | 所定の言語により通信するシステムに用いられるサーバ、端末、および通信方法 |
FR2820872B1 (fr) * | 2001-02-13 | 2003-05-16 | Thomson Multimedia Sa | Procede, module, dispositif et serveur de reconnaissance vocale |
US20020110246A1 (en) * | 2001-02-14 | 2002-08-15 | Jason Gosior | Wireless audio system |
US6754627B2 (en) * | 2001-03-01 | 2004-06-22 | International Business Machines Corporation | Detecting speech recognition errors in an embedded speech recognition system |
GB0107755D0 (en) * | 2001-03-28 | 2001-05-16 | Argo Interactive Group Plc | Method of automatically enhancing browser interactivity |
US6832196B2 (en) * | 2001-03-30 | 2004-12-14 | International Business Machines Corporation | Speech driven data selection in a voice-enabled program |
US7698228B2 (en) * | 2001-04-27 | 2010-04-13 | Accenture Llp | Tracking purchases in a location-based services system |
US7437295B2 (en) * | 2001-04-27 | 2008-10-14 | Accenture Llp | Natural language processing for a location-based services system |
US7970648B2 (en) * | 2001-04-27 | 2011-06-28 | Accenture Global Services Limited | Advertising campaign and business listing management for a location-based services system |
US6944447B2 (en) * | 2001-04-27 | 2005-09-13 | Accenture Llp | Location-based services |
US6848542B2 (en) * | 2001-04-27 | 2005-02-01 | Accenture Llp | Method for passive mining of usage information in a location-based services system |
US6601762B2 (en) * | 2001-06-15 | 2003-08-05 | Koninklijke Philips Electronics N.V. | Point-of-sale (POS) voice authentication transaction system |
US7058575B2 (en) * | 2001-06-27 | 2006-06-06 | Intel Corporation | Integrating keyword spotting with graph decoder to improve the robustness of speech recognition |
KR100412474B1 (ko) * | 2001-06-28 | 2003-12-31 | 유승혁 | 음성인식과 원격지 전화번호부 서버를 이용한 유선전화와 모바일폰의 전화번호부 시스템 및 관리 방법 |
US7609829B2 (en) * | 2001-07-03 | 2009-10-27 | Apptera, Inc. | Multi-platform capable inference engine and universal grammar language adapter for intelligent voice application execution |
US20030007609A1 (en) * | 2001-07-03 | 2003-01-09 | Yuen Michael S. | Method and apparatus for development, deployment, and maintenance of a voice software application for distribution to one or more consumers |
US20030023431A1 (en) * | 2001-07-26 | 2003-01-30 | Marc Neuberger | Method and system for augmenting grammars in distributed voice browsing |
US20030078775A1 (en) * | 2001-10-22 | 2003-04-24 | Scott Plude | System for wireless delivery of content and applications |
US7162414B2 (en) * | 2001-12-07 | 2007-01-09 | Intel Corporation | Method and apparatus to perform speech recognition over a data channel |
US20030120493A1 (en) * | 2001-12-21 | 2003-06-26 | Gupta Sunil K. | Method and system for updating and customizing recognition vocabulary |
US7013275B2 (en) * | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
US6898567B2 (en) * | 2001-12-29 | 2005-05-24 | Motorola, Inc. | Method and apparatus for multi-level distributed speech recognition |
US20030144846A1 (en) * | 2002-01-31 | 2003-07-31 | Denenberg Lawrence A. | Method and system for modifying the behavior of an application based upon the application's grammar |
US7016849B2 (en) * | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
US20030220784A1 (en) * | 2002-05-24 | 2003-11-27 | International Business Machines Corporation | System and method for automated voice message transcription and delivery |
US7398209B2 (en) * | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US20050149331A1 (en) * | 2002-06-14 | 2005-07-07 | Ehrilich Steven C. | Method and system for developing speech applications |
US6910911B2 (en) | 2002-06-27 | 2005-06-28 | Vocollect, Inc. | Break-away electrical connector |
US20040006477A1 (en) * | 2002-07-05 | 2004-01-08 | Craner Michael L. | Voice-controllable communication gateway for controlling multiple electronic and information appliances |
US7693720B2 (en) * | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US7464035B2 (en) * | 2002-07-24 | 2008-12-09 | Robert Bosch Corporation | Voice control of home automation systems via telephone |
US7259906B1 (en) | 2002-09-03 | 2007-08-21 | Cheetah Omni, Llc | System and method for voice control of medical devices |
US7421390B2 (en) * | 2002-09-13 | 2008-09-02 | Sun Microsystems, Inc. | Method and system for voice control of software applications |
US20040128136A1 (en) * | 2002-09-20 | 2004-07-01 | Irani Pourang Polad | Internet voice browser |
EP1576769A4 (en) * | 2002-11-13 | 2011-08-31 | Intel Corp | MULTIMODE WEB INTERACTION ON A WIRELESS NETWORK |
US6834265B2 (en) | 2002-12-13 | 2004-12-21 | Motorola, Inc. | Method and apparatus for selective speech recognition |
CN100346625C (zh) * | 2002-12-27 | 2007-10-31 | 联想(北京)有限公司 | 一种电话语音交互系统及其实现方法 |
US7076428B2 (en) * | 2002-12-30 | 2006-07-11 | Motorola, Inc. | Method and apparatus for selective distributed speech recognition |
US7197331B2 (en) * | 2002-12-30 | 2007-03-27 | Motorola, Inc. | Method and apparatus for selective distributed speech recognition |
JP4337027B2 (ja) * | 2003-05-08 | 2009-09-30 | 日本電気株式会社 | 携帯電話機 |
US7243072B2 (en) * | 2003-06-27 | 2007-07-10 | Motorola, Inc. | Providing assistance to a subscriber device over a network |
US20050010418A1 (en) * | 2003-07-10 | 2005-01-13 | Vocollect, Inc. | Method and system for intelligent prompt control in a multimodal software application |
US20050010892A1 (en) * | 2003-07-11 | 2005-01-13 | Vocollect, Inc. | Method and system for integrating multi-modal data capture device inputs with multi-modal output capabilities |
EP1661124A4 (en) * | 2003-09-05 | 2008-08-13 | Stephen D Grody | PROCESSES AND DEVICES FOR PROVIDING SERVICES THROUGH THE USE OF LANGUAGE IDENTIFICATION |
US20050109052A1 (en) * | 2003-09-30 | 2005-05-26 | Albers Walter F. | Systems and methods for conditioning air and transferring heat and mass between airflows |
US7805307B2 (en) | 2003-09-30 | 2010-09-28 | Sharp Laboratories Of America, Inc. | Text to speech conversion system |
US20050078620A1 (en) * | 2003-10-10 | 2005-04-14 | Kumar Balachandran | Mobile-terminal gateway |
US7697673B2 (en) * | 2003-11-17 | 2010-04-13 | Apptera Inc. | System for advertisement selection, placement and delivery within a multiple-tenant voice interaction service system |
US20050163136A1 (en) * | 2003-11-17 | 2005-07-28 | Leo Chiu | Multi-tenant self-service VXML portal |
US7424433B2 (en) * | 2003-12-12 | 2008-09-09 | International Business Machines Corporation | Method and system for dynamic conditional interaction in a VoiceXML run-time simulation environment |
KR100600522B1 (ko) * | 2003-12-16 | 2006-07-13 | 에스케이 주식회사 | 상담원과 음성 인식 엔진을 이용한 품질보장형 콜라우팅시스템 및 그 방법 |
US7668720B2 (en) * | 2004-02-20 | 2010-02-23 | Vangard Voice Systems, Inc. | Methodology for voice enabling applications |
US20080154601A1 (en) * | 2004-09-29 | 2008-06-26 | Microsoft Corporation | Method and system for providing menu and other services for an information processing system using a telephone or other audio interface |
TWI251754B (en) * | 2004-12-16 | 2006-03-21 | Delta Electronics Inc | Method for optimizing loads of speech/user recognition system |
US7627638B1 (en) * | 2004-12-20 | 2009-12-01 | Google Inc. | Verbal labels for electronic messages |
TWI276046B (en) * | 2005-02-18 | 2007-03-11 | Delta Electronics Inc | Distributed language processing system and method of transmitting medium information therefore |
JP4622611B2 (ja) * | 2005-03-24 | 2011-02-02 | ソニー株式会社 | 信号処理装置 |
JP2007033901A (ja) * | 2005-07-27 | 2007-02-08 | Nec Corp | 音声認識システム、音声認識方法、および音声認識用プログラム |
US7640160B2 (en) * | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) * | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US8249873B2 (en) | 2005-08-12 | 2012-08-21 | Avaya Inc. | Tonal correction of speech |
US9866697B2 (en) | 2005-08-19 | 2018-01-09 | Nexstep, Inc. | Consumer electronic registration, control and support concierge device and method |
US20070050188A1 (en) * | 2005-08-26 | 2007-03-01 | Avaya Technology Corp. | Tone contour transformation of speech |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
EP1934971A4 (en) * | 2005-08-31 | 2010-10-27 | Voicebox Technologies Inc | DYNAMIC LANGUAGE SCRIPTURE |
JP2007065347A (ja) * | 2005-08-31 | 2007-03-15 | Denso Corp | 音声認識システム |
US7519253B2 (en) | 2005-11-18 | 2009-04-14 | Omni Sciences, Inc. | Broadband or mid-infrared fiber light sources |
US20070136072A1 (en) * | 2005-12-14 | 2007-06-14 | Symbol Technologies, Inc. | Interactive voice browsing for mobile devices on wireless networks |
US20070135096A1 (en) * | 2005-12-14 | 2007-06-14 | Symbol Technologies, Inc. | Interactive voice browsing server for mobile devices on wireless networks |
US9008075B2 (en) | 2005-12-22 | 2015-04-14 | Genesys Telecommunications Laboratories, Inc. | System and methods for improving interaction routing performance |
US7496693B2 (en) * | 2006-03-17 | 2009-02-24 | Microsoft Corporation | Wireless enabled speech recognition (SR) portable device including a programmable user trained SR profile for transmission to external SR enabled PC |
US20070225976A1 (en) * | 2006-03-21 | 2007-09-27 | Hong-Yung Wang | Method of producing speech files |
US20080086311A1 (en) * | 2006-04-11 | 2008-04-10 | Conwell William Y | Speech Recognition, and Related Systems |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
EP1933302A1 (en) * | 2006-12-12 | 2008-06-18 | Harman Becker Automotive Systems GmbH | Speech recognition method |
US20080153465A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Voice search-enabled mobile device |
US20080154612A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Local storage and use of search results for voice-enabled mobile communications devices |
US20080154870A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Collection and use of side information in voice-mediated mobile search |
US20080154608A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | On a mobile device tracking use of search results delivered to the mobile device |
US7818176B2 (en) * | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US20080208594A1 (en) * | 2007-02-27 | 2008-08-28 | Cross Charles W | Effecting Functions On A Multimodal Telephony Device |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US8386260B2 (en) * | 2007-12-31 | 2013-02-26 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US8370160B2 (en) * | 2007-12-31 | 2013-02-05 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US8607324B2 (en) * | 2008-01-15 | 2013-12-10 | Microsoft Corporation | Untrusted gaming system access to online gaming service |
US8689203B2 (en) * | 2008-02-19 | 2014-04-01 | Microsoft Corporation | Software update techniques based on ascertained identities |
USD626949S1 (en) | 2008-02-20 | 2010-11-09 | Vocollect Healthcare Systems, Inc. | Body-worn mobile device |
US20090248397A1 (en) * | 2008-03-25 | 2009-10-01 | Microsoft Corporation | Service Initiation Techniques |
US9201527B2 (en) * | 2008-04-04 | 2015-12-01 | Microsoft Technology Licensing, Llc | Techniques to remotely manage a multimedia conference event |
US20090271106A1 (en) * | 2008-04-23 | 2009-10-29 | Volkswagen Of America, Inc. | Navigation configuration for a motor vehicle, motor vehicle having a navigation system, and method for determining a route |
US20090271200A1 (en) * | 2008-04-23 | 2009-10-29 | Volkswagen Group Of America, Inc. | Speech recognition assembly for acoustically controlling a function of a motor vehicle |
US8589161B2 (en) * | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
DE102008046431A1 (de) * | 2008-09-09 | 2010-03-11 | Deutsche Telekom Ag | Sprachdialogsystem mit Reject-Vermeidungsverfahren |
US20100070863A1 (en) * | 2008-09-16 | 2010-03-18 | International Business Machines Corporation | method for reading a screen |
US8386261B2 (en) | 2008-11-14 | 2013-02-26 | Vocollect Healthcare Systems, Inc. | Training/coaching system for a voice-enabled work environment |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US11012732B2 (en) * | 2009-06-25 | 2021-05-18 | DISH Technologies L.L.C. | Voice enabled media presentation systems and methods |
JP5697860B2 (ja) * | 2009-09-09 | 2015-04-08 | クラリオン株式会社 | 情報検索装置,情報検索方法及びナビゲーションシステム |
US9171541B2 (en) * | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
US9502025B2 (en) | 2009-11-10 | 2016-11-22 | Voicebox Technologies Corporation | System and method for providing a natural language content dedication service |
US8868427B2 (en) * | 2009-12-11 | 2014-10-21 | General Motors Llc | System and method for updating information in electronic calendars |
US20110141855A1 (en) * | 2009-12-11 | 2011-06-16 | General Motors Llc | System and method for updating information in electronic calendars |
WO2011084863A2 (en) | 2010-01-07 | 2011-07-14 | Cheetah Omni, Llc | Fiber lasers and mid-infrared light sources in methods and systems for selective biological tissue processing and spectroscopy |
US20110184740A1 (en) * | 2010-01-26 | 2011-07-28 | Google Inc. | Integration of Embedded and Network Speech Recognizers |
US20150279354A1 (en) * | 2010-05-19 | 2015-10-01 | Google Inc. | Personalization and Latency Reduction for Voice-Activated Commands |
US10115392B2 (en) * | 2010-06-03 | 2018-10-30 | Visteon Global Technologies, Inc. | Method for adjusting a voice recognition system comprising a speaker and a microphone, and voice recognition system |
US8659397B2 (en) | 2010-07-22 | 2014-02-25 | Vocollect, Inc. | Method and system for correctly identifying specific RFID tags |
USD643400S1 (en) | 2010-08-19 | 2011-08-16 | Vocollect Healthcare Systems, Inc. | Body-worn mobile device |
USD643013S1 (en) | 2010-08-20 | 2011-08-09 | Vocollect Healthcare Systems, Inc. | Body-worn mobile device |
US9600135B2 (en) | 2010-09-10 | 2017-03-21 | Vocollect, Inc. | Multimodal user notification system to assist in data capture |
US9953643B2 (en) * | 2010-12-23 | 2018-04-24 | Lenovo (Singapore) Pte. Ltd. | Selective transmission of voice data |
WO2013012107A1 (ko) | 2011-07-19 | 2013-01-24 | 엘지전자 주식회사 | 전자 기기 및 그 제어 방법 |
JP5928048B2 (ja) | 2012-03-22 | 2016-06-01 | ソニー株式会社 | 情報処理装置、情報処理方法、情報処理プログラムおよび端末装置 |
KR20140054643A (ko) * | 2012-10-29 | 2014-05-09 | 삼성전자주식회사 | 음성인식장치 및 음성인식방법 |
US9691377B2 (en) | 2013-07-23 | 2017-06-27 | Google Technology Holdings LLC | Method and device for voice recognition training |
KR20140058127A (ko) * | 2012-11-06 | 2014-05-14 | 삼성전자주식회사 | 음성인식장치 및 음성인식방법 |
US9070367B1 (en) * | 2012-11-26 | 2015-06-30 | Amazon Technologies, Inc. | Local speech recognition of frequent utterances |
RU2530268C2 (ru) | 2012-11-28 | 2014-10-10 | Общество с ограниченной ответственностью "Спиктуит" | Способ обучения информационной диалоговой системы пользователем |
WO2014143276A2 (en) | 2012-12-31 | 2014-09-18 | Omni Medsci, Inc. | Short-wave infrared super-continuum lasers for natural gas leak detection, exploration, and other active remote sensing applications |
EP2938262A4 (en) | 2012-12-31 | 2016-08-24 | Omni Medsci Inc | SHORT-WAVE INFRARED SUPER CONTINUOUS LASER FOR THE EARLY RECOGNITION OF CARIES |
WO2014105520A1 (en) | 2012-12-31 | 2014-07-03 | Omni Medsci, Inc. | Near-infrared lasers for non-invasive monitoring of glucose, ketones, hba1c, and other blood constituents |
US10660526B2 (en) | 2012-12-31 | 2020-05-26 | Omni Medsci, Inc. | Near-infrared time-of-flight imaging using laser diodes with Bragg reflectors |
US9993159B2 (en) | 2012-12-31 | 2018-06-12 | Omni Medsci, Inc. | Near-infrared super-continuum lasers for early detection of breast and other cancers |
US9500635B2 (en) | 2012-12-31 | 2016-11-22 | Omni Medsci, Inc. | Short-wave infrared super-continuum lasers for early detection of dental caries |
KR20140089861A (ko) * | 2013-01-07 | 2014-07-16 | 삼성전자주식회사 | 디스플레이 장치 및 그의 제어 방법 |
CN103971686B (zh) * | 2013-01-30 | 2015-06-10 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
US9275638B2 (en) | 2013-03-12 | 2016-03-01 | Google Technology Holdings LLC | Method and apparatus for training a voice recognition model database |
DE102013006173A1 (de) * | 2013-04-10 | 2014-10-16 | Audi Ag | Verfahren und Vorrichtung zur proaktiven Dialogführung |
US9548047B2 (en) | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
US10192557B2 (en) | 2013-08-26 | 2019-01-29 | Samsung Electronics Co., Ltd | Electronic device and method for voice recognition using a plurality of voice recognition engines |
CN104423980B (zh) * | 2013-08-26 | 2018-12-14 | 联想(北京)有限公司 | 信息处理方法和信息处理设备 |
DE102014200570A1 (de) * | 2014-01-15 | 2015-07-16 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren und System zur Erzeugung eines Steuerungsbefehls |
KR102215579B1 (ko) * | 2014-01-22 | 2021-02-15 | 삼성전자주식회사 | 대화형 시스템, 디스플레이 장치 및 그 제어 방법 |
WO2016044321A1 (en) | 2014-09-16 | 2016-03-24 | Min Tang | Integration of domain information into state transitions of a finite state transducer for natural language processing |
EP3195145A4 (en) | 2014-09-16 | 2018-01-24 | VoiceBox Technologies Corporation | Voice commerce |
US10210003B2 (en) * | 2014-09-30 | 2019-02-19 | Nuance Communications, Inc. | Methods and apparatus for module arbitration |
WO2016061309A1 (en) | 2014-10-15 | 2016-04-21 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10199041B2 (en) | 2014-12-30 | 2019-02-05 | Honeywell International Inc. | Speech recognition systems and methods for maintenance repair and overhaul |
US10388277B1 (en) * | 2015-06-25 | 2019-08-20 | Amazon Technologies, Inc. | Allocation of local and remote resources for speech processing |
US9997155B2 (en) * | 2015-09-09 | 2018-06-12 | GM Global Technology Operations LLC | Adapting a speech system to user pronunciation |
CN105681444A (zh) * | 2016-02-02 | 2016-06-15 | 优听无限传媒科技(北京)有限责任公司 | 智能终端远程控制目标wifi音箱的方法 |
US20170330564A1 (en) * | 2016-05-13 | 2017-11-16 | Bose Corporation | Processing Simultaneous Speech from Distributed Microphones |
JP6744025B2 (ja) * | 2016-06-21 | 2020-08-19 | 日本電気株式会社 | 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム |
WO2018023106A1 (en) | 2016-07-29 | 2018-02-01 | Erik SWART | System and method of disambiguating natural language processing requests |
US10332523B2 (en) | 2016-11-18 | 2019-06-25 | Google Llc | Virtual assistant identification of nearby computing devices |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
US20180213396A1 (en) * | 2017-01-20 | 2018-07-26 | Essential Products, Inc. | Privacy control in a connected environment based on speech characteristics |
US10547729B2 (en) | 2017-03-27 | 2020-01-28 | Samsung Electronics Co., Ltd. | Electronic device and method of executing function of electronic device |
KR102416782B1 (ko) * | 2017-03-28 | 2022-07-05 | 삼성전자주식회사 | 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치 |
US10572220B2 (en) * | 2017-04-12 | 2020-02-25 | American Megatrends International, Llc | Method for controlling controller and host computer with voice |
KR102309031B1 (ko) * | 2017-04-27 | 2021-10-06 | 삼성전자 주식회사 | 지능형 에이전트 관리 방법 및 장치 |
US10522146B1 (en) * | 2019-07-09 | 2019-12-31 | Instreamatic, Inc. | Systems and methods for recognizing and performing voice commands during advertisement |
KR102445382B1 (ko) * | 2017-07-10 | 2022-09-20 | 삼성전자주식회사 | 음성 처리 방법 및 이를 지원하는 시스템 |
US10665234B2 (en) * | 2017-10-18 | 2020-05-26 | Motorola Mobility Llc | Detecting audio trigger phrases for a voice recognition session |
US10679620B2 (en) * | 2018-03-06 | 2020-06-09 | GM Global Technology Operations LLC | Speech recognition arbitration logic |
CN108831475B (zh) * | 2018-05-24 | 2020-09-29 | 广州市千钧网络科技有限公司 | 一种文本消息提取方法及系统 |
US11935539B1 (en) * | 2019-01-31 | 2024-03-19 | Alan AI, Inc. | Integrating voice controls into applications |
US11955120B1 (en) | 2019-01-31 | 2024-04-09 | Alan AI, Inc. | Systems and methods for integrating voice controls into applications |
CA3143946A1 (en) * | 2019-12-10 | 2021-06-17 | Rovi Guides, Inc. | Systems and methods for interpreting a voice query |
JP2023527398A (ja) * | 2020-05-27 | 2023-06-28 | ジェンテックス コーポレイション | モーメントキャプチャーシステム |
US11776537B1 (en) * | 2022-12-07 | 2023-10-03 | Blue Lakes Technology, Inc. | Natural language processing system for context-specific applier interface |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3397372B2 (ja) | 1993-06-16 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
ZA948426B (en) | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
DE4440598C1 (de) * | 1994-11-14 | 1996-05-23 | Siemens Ag | Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments |
US5890123A (en) * | 1995-06-05 | 1999-03-30 | Lucent Technologies, Inc. | System and method for voice controlled video screen display |
JPH1078952A (ja) * | 1996-07-29 | 1998-03-24 | Internatl Business Mach Corp <Ibm> | 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置 |
US5799063A (en) * | 1996-08-15 | 1998-08-25 | Talk Web Inc. | Communication system and method of providing access to pre-recorded audio messages via the Internet |
US5915001A (en) * | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
US5926789A (en) * | 1996-12-19 | 1999-07-20 | Bell Communications Research, Inc. | Audio-based wide area information system |
US5960399A (en) * | 1996-12-24 | 1999-09-28 | Gte Internetworking Incorporated | Client/server speech processor/recognizer |
US6122613A (en) | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
US6094476A (en) * | 1997-03-24 | 2000-07-25 | Octel Communications Corporation | Speech-responsive voice messaging system and method |
GB2323693B (en) | 1997-03-27 | 2001-09-26 | Forum Technology Ltd | Speech to text conversion |
US5884266A (en) * | 1997-04-02 | 1999-03-16 | Motorola, Inc. | Audio interface for document based information resource navigation and method therefor |
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
US5924070A (en) * | 1997-06-06 | 1999-07-13 | International Business Machines Corporation | Corporate voice dialing with shared directories |
GB2333416A (en) * | 1998-01-17 | 1999-07-21 | Ibm | Text and speech conversion in telephony network |
-
1998
- 1998-10-16 US US09/173,748 patent/US6185535B1/en not_active Expired - Lifetime
-
1999
- 1999-10-05 CN CNB998142123A patent/CN1158645C/zh not_active Expired - Fee Related
- 1999-10-05 JP JP2000577652A patent/JP2002528804A/ja not_active Withdrawn
- 1999-10-05 BR BR9914583-9A patent/BR9914583A/pt not_active IP Right Cessation
- 1999-10-05 AU AU14220/00A patent/AU1422000A/en not_active Abandoned
- 1999-10-05 WO PCT/SE1999/001769 patent/WO2000023985A1/en active Application Filing
- 1999-10-05 EP EP99970776A patent/EP1129449A1/en not_active Withdrawn
- 1999-10-12 MY MYPI99004397A patent/MY117070A/en unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007511111A (ja) * | 2003-10-10 | 2007-04-26 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 移動体端末のゲートウェイ |
KR101309794B1 (ko) * | 2012-06-27 | 2013-09-23 | 삼성전자주식회사 | 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템 |
Also Published As
Publication number | Publication date |
---|---|
MY117070A (en) | 2004-04-30 |
AU1422000A (en) | 2000-05-08 |
BR9914583A (pt) | 2001-07-03 |
CN1158645C (zh) | 2004-07-21 |
CN1329739A (zh) | 2002-01-02 |
US6185535B1 (en) | 2001-02-06 |
WO2000023985A1 (en) | 2000-04-27 |
EP1129449A1 (en) | 2001-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002528804A (ja) | サービスアプリケーションに対するユーザインタフェースの音声制御 | |
US9761241B2 (en) | System and method for providing network coordinated conversational services | |
US8654940B2 (en) | Dialect translator for a speech application environment extended for interactive text exchanges | |
EP1125279B1 (en) | System and method for providing network coordinated conversational services | |
US8886540B2 (en) | Using speech recognition results based on an unstructured language model in a mobile communication facility application | |
US6738743B2 (en) | Unified client-server distributed architectures for spoken dialogue systems | |
US8838457B2 (en) | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility | |
US8949130B2 (en) | Internal and external speech recognition use with a mobile communication facility | |
US10056077B2 (en) | Using speech recognition results based on an unstructured language model with a music system | |
US8874447B2 (en) | Inferring switching conditions for switching between modalities in a speech application environment extended for interactive text exchanges | |
US8880405B2 (en) | Application text entry in a mobile environment using a speech processing facility | |
US20070043868A1 (en) | System and method for searching for network-based content in a multi-modal system using spoken keywords | |
US20090030687A1 (en) | Adapting an unstructured language model speech recognition system based on usage | |
US20090030685A1 (en) | Using speech recognition results based on an unstructured language model with a navigation system | |
US20080221899A1 (en) | Mobile messaging environment speech processing facility | |
US20090030688A1 (en) | Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application | |
US20090030691A1 (en) | Using an unstructured language model associated with an application of a mobile communication facility | |
US20080312934A1 (en) | Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility | |
US20020077814A1 (en) | Voice recognition system method and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20061205 |