JP2002528804A - サービスアプリケーションに対するユーザインタフェースの音声制御 - Google Patents

サービスアプリケーションに対するユーザインタフェースの音声制御

Info

Publication number
JP2002528804A
JP2002528804A JP2000577652A JP2000577652A JP2002528804A JP 2002528804 A JP2002528804 A JP 2002528804A JP 2000577652 A JP2000577652 A JP 2000577652A JP 2000577652 A JP2000577652 A JP 2000577652A JP 2002528804 A JP2002528804 A JP 2002528804A
Authority
JP
Japan
Prior art keywords
vocabulary
input signal
audio input
terminal
remote
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000577652A
Other languages
English (en)
Inventor
ヘディン、ヤン、スヴェルカー
マイヤー、ベルンハルト、カルビン
Original Assignee
テレフオンアクチーボラゲツト エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲツト エル エム エリクソン(パブル) filed Critical テレフオンアクチーボラゲツト エル エム エリクソン(パブル)
Publication of JP2002528804A publication Critical patent/JP2002528804A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

(57)【要約】 遠隔サーバから端末へ供給されたサービスアプリケーションの音声制御は、端末と遠隔アプリケーション部分とに分散される。所定のマークアップ言語によって定められた端末機能に関連する、ユーザから供給されたオーディオ入力の部分を認識するための比較的低能力の自動音声認識システム(ASR)が端末に備えられる。認識されたワードは、端末機能を制御するために用いられ、または、テキストに変換されて遠隔サーバへ送られる。オーディオ入力の非認識部分は、コード化され、もっと強力なASRを含む遠隔アプリケーション部分へ送られる。遠隔アプリケーション部分は、そのASRを用いて、アプリケーションによって定められたワードを認識する。認識されたワードは、テキストに変換され、遠隔サーバへ入力として供給される。逆方向では、遠隔アプリケーション部分が遠隔サーバから受取ったテキストは、コード化オーディオ出力信号に変換されて端末へ送られ、端末は次にスピーカへ供給されるべき信号を発生する。このようにして、遠隔サーバの視覚ディスプレイ出力およびキーボード入力の代わりに音声制御機構が用いられる。

Description

【発明の詳細な説明】
【0001】 (背景) 本発明は、一般的には、サービスアプリケーションの制御に関し、特に、サー
ビスアプリケーションの音声制御に関し、さらに特には、遠隔端末からのサービ
スアプリケーションの音声制御に関する。
【0002】 最も一般的なタイプのインタネットアクセス用端末は、大形の高解像度ディス
プレイと比較的に高いデータ伝送帯域幅とを有する通常のパーソナルコンピュー
タ(PC)端末である。ユーザがインタネット接続を用いて遠隔位置にあるサー
ビスアプリケーションを制御しようとするときは、ユーザは、一般的に、PC端
末に関連するキーボードを用い、指令をタイプする。このデータはインタネット
を経てサービスアプリケーションへ通信され、その後、サービスアプリケーショ
ンはそれに対応して応答することができる。ユーザのPC端末ディスプレイは、
ユーザが容易に観察できるテキストおよび/またはグラフィックスの形式で応答
情報を表示する。
【0003】 無線マークアップ言語(WML)を用いた無線アプリケーションプロトコル(
WAP)の最近の標準化は、小形ディスプレイと制限された処理能力と低い伝送
帯域幅とを有する端末(例えば、ディジタルセルラ電話機および端末)がインタ
ネットのようなサービスネットワークにおけるサービスおよびコンテンツにアク
セスし制御することを可能にした。WAPは、ネットワーク層(例えば、トラン
スポート層およびセッション層)とマイクロブラウザ,スクリプティング,電話
付加価値サービスおよびコンテンツフォーマットを含むアプリケーション環境と
を含む階層化された通信プロトコルである。WMLにおける簡単なシンタックス
および制限された語彙は、WAPを、低い処理能力およびディスプレイ能力を有
するクライアント端末からサービスを制御しコンテンツと対話するのに適切であ
るようにする。
【0004】 これらの小形端末を用いる能力は(これらをさまざまな旅行に容易に携帯でき
る)ユーザにとって大いに便利なものであるが、小形ディスプレイから選択メニ
ューおよび他の大量のテキスト(例えば、eメールおよびヘルプテキスト)を読
取り、また、それに応答して多機能キーを有する小形キーボード上でタイピング
することは、いくつかの欠点を有する。これらの欠点は、サービスアプリケーシ
ョンに対する音声制御インタフェースの置換により大幅に克服されかもしれない
。音声制御インタフェースはまた、ユーザが自動車を運転しているときに必要と
するようなサービスアプリケーションの「ハンドフリー」操作を提供するにも有
用である。
【0005】 自動音声認識システム(ASR)は公知である。音声制御アプリケーションを
サポートするASRは、中央サーバにおけるユーザ共用リソースまたはクライア
ント端末におけるリソースであるかもしれない。簡単なASRは、ワード間に休
止を有する孤立ワードを認識するが、高級なASRは連結ワードを認識できる。
ASRの複雑さは、アプリケーションとのダイアログの特定の場合に認識されな
ければならない語彙の大きさとともに増大する。
【0006】 ASRが中央サーバで実現されるとすれば、それは、異なる言語,訛りおよび
アクセントを有する多くのユーザを認識できなければならない。従来の不特定話
者音声認識システムは、通常は、極めて制限された語彙(例えば、「はい」,「
いいえ」,「1つ」,「2つ」など)を有する単一ワードASRを用いて、必要
な処理の量を減らし、また、失敗率を低く保つ。認識の正確さを改善する別の代
替案は、各ユーザ個人の音声について認識装置を訓練したり、誤解されたワード
を繰返したり綴ってもらうことをユーザに頼むことによって、音声認識をユーザ
に適応させることである。多ユーザ環境においては、各ユーザのプロファイルが
記憶されなければならない。
【0007】 端末に音声認識装置を備えることは一人のユーザ(または、極めて少数のユー
ザ)を認識しなければならないだけなので、適応訓練を用いることができる。組
合せワードASRに必要な処理は、端末で行うためには大規模になり過ぎる。例
えば、(セルラ電話システム,パーソナルディジタルアシスタントおよび専用無
線端末に用いられているもののような)今日の移動体端末の処理能力は、(例え
ば、端末に記憶されている個人電話番号簿をダイヤルしたりアクセスしたりする
ための)小語彙を有する孤立ワードASRを実現するのに十分である。新しいワ
ードを語彙に追加するには、訓練が必要であるかもしれない。
【0008】 現在の中央サーバASRに存在する問題は、端末と音声認識を行うゲートウェ
イまたはサーバとの間に音声チャネル(音声呼)が確立されなければならないこ
とである。しかし、音声チャネルは、認識性能を劣化させる歪,エコーおよび雑
音を導入するかもしれない。
【0009】 中央ASRはまた、認識プロセスにおける失敗率を低下させるために、高い処
理能力と大きいデータベースと個々の音声および訛りのための適応訓練能力とを
必要とする高価で制限されたネットワークリソースである。それは制限されたリ
ソースであるので、中央サーバまたはゲートウェイは、ダイアルアップ音声チャ
ネルアクセス能力を備える必要があるかもしれない。
【0010】 新世代のWAP支援移動体端末は、多種類のサービスおよびコンテンツを制御
できるとともにそれらと対話できるであろう。しかし、端末ディスプレイおよび
キーボードは典型的には極めて制限された入出力(I/O)能力を有し、そのた
め、音声制御インタフェースが所望されることになる。上述したように、今日の
低コスト端末は、あるASR能力をサポートできるが、これは、大きい語彙また
は各アプリケーション用の認識装置の時間のかかる訓練を必要とする多ユーザア
プリケーションサーバへの音声アクセスをサポートするためには不十分である。
【0011】 (要約) したがって、本発明の目的は、比較的低能力端末が音声制御インタフェースを
経て遠隔サーバアプリケーションをアクセスし制御することを可能にする方法お
よび装置を提供することにある。
【0012】 上述の目的およびその他の目的は、遠隔サーバから端末へ供給されるサービス
アプリケーションを制御する方法および装置で達成される。本発明の一態様によ
れば、これは、オーディオ情報を表すオーディオ入力信号を受取り、端末内に配
置された第1の自動音声認識システムを用いて、オーディオ入力信号が第1の語
彙によって定められた1つ以上のワードを含むかどうかを決定し、ここで、第1
の語彙によって定められた1つ以上のワードに対応しないオーディオ入力信号の
部分がオーディオ入力信号の非認識部分を構成することによって、達成される。
オーディオ入力信号が第1の語彙によって定められた1つ以上のワードを含めば
、アプリケーションプロトコルサービス論理の端末アプリケーション部分が、第
1の語彙によって定められた1つ以上のワードをどのように処理すべきかを決定
するのに用いられる。オーディオ入力信号の非認識部分は、第1の所定のマーク
アップ言語によって定められた構造を有するデータユニットに含まれるようにフ
ォーマットされる。データユニットは、第1のアプリケーションプロトコルに従
って動作する第1のディジタルデータリンクを介して遠隔アプリケーション部分
へ通信される。遠隔アプリケーション部分では、オーディオ入力信号のフォーマ
ットされた非認識部分がデータユニットから抽出される。次に、遠隔アプリケー
ション部分のサービス論理が用いられて、オーディオ入力信号のフォーマットさ
れた非認識部分をどのように処理すべきかが決定される。
【0013】 本発明の他の態様によれば、オーディオ入力信号は、圧縮されたディジタルコ
ード化音声の形式である。 本発明のさらに他の態様によれば、オーディオ入力信号が第1の語彙によって
定められた1つ以上のワードを含めば、アプリケーションプロトコルサービス論
理の端末アプリケーション部分は、行われるべき1つ以上の端末機能を選択する
ためにその1つ以上のワードが用いられるようにする。
【0014】 本発明のなお他の態様によれば、1つ以上の端末機能は、遠隔サーバへ供給さ
れるべき応答として現在のメニューアイテムを選択することを含む。 本発明のさらに他の態様によれば、現在のメニューアイテムは、第1の選択に
関連しており、1つ以上の端末機能は、現在のメニューアイテムを第1の選択と
同じでない第2の選択に関連させることを含む。
【0015】 本発明のなお他の態様によれば、オーディオ入力信号が第1の語彙によって定
められた1つ以上のワードを含めば、アプリケーションプロトコルサービス論理
の端末アプリケーション部分は、対応するメッセージを発生させ、それを第1の
ディジタルデータリンクを経て遠隔アプリケーション部分へ通信させる。いくつ
かの実施例では、この対応するメッセージは、状態情報,テキストまたは2進デ
ータを含む。
【0016】 本発明のさらに他の態様によれば、遠隔アプリケーション部分は、対応するメ
ッセージを遠隔サーバへ送る。 本発明のなお他の態様によれば、遠隔アプリケーション部分は、対応するメッ
セージを第2のアプリケーションプロトコルに従って動作する第2のディジタル
データリンクを経て遠隔サーバへ送る。第1のアプリケーションプロトコルは、
第2のアプリケーションプロトコルと同じであってもよいが、同じである必要は
ない。
【0017】 本発明のさらに他の態様によれば、遠隔アプリケーション部分に配置された第
2の自動音声認識システムを用いて、オーディオ入力信号の非認識部分が第2の
語彙によって定められた1つ以上のワードを含むかどうかを決定する。オーディ
オ入力信号の非認識部分が第2の語彙によって定められた1つ以上のワードを含
めば、遠隔アプリケーション部分のサービス論理は、第2の語彙によって定めら
れた1つ以上のワードをどのように処理すべきかを決定するために用いられる。
【0018】 本発明のなお他の態様によれば、第1の語彙は、第1の所定のマークアップ言
語のシンタックスによって定められたワードをもっぱら含み、第2の語彙は、遠
隔サーバに関連するワードをもっぱら含む。
【0019】 本発明のさらに他の態様によれば、オーディオ入力信号の非認識部分が第2の
語彙によって定められた1つ以上のワードを含めば、遠隔アプリケーション部分
のサービス論理は、対応するキーボードエミュレーション応答を発生させ遠隔サ
ーバへ送らせる。
【0020】 本発明の他の態様によれば、オーディオ入力信号の非認識部分が第2の語彙に
よって定められた1つ以上のワードを含めば、遠隔アプリケーション部分のサー
ビス論理は、遠隔アプリケーション部分サービス論理状態を変化させる。
【0021】 本発明のなお他の態様によれば、遠隔アプリケーション部分は、遠隔サーバか
らテキストを受取り、オーディオ情報を表す対応するオーディオ出力信号を発生
する。オーディオ出力信号は、第1の所定のマークアップ言語によって定められ
た構造を有する第2のデータユニットに含まれるようにフォーマットされる。第
2のデータユニットは、第1のディジタルデータリンクを経て端末へ通信される
。端末では、オーディオ出力信号が第2のデータユニットから抽出され、スピー
カ信号がそれから発生される。
【0022】 (詳細な説明) 本発明の目的および利点は、図面と併せて以下の詳細な説明を読むことにより
理解されよう。 ここで、本発明のさまざまな特徴を図面を参照しつつ説明するが、図面では、
同じ部品は同じ参照符号によって示されている。以下の説明では、比較的低能力
端末を遠隔アプリケーションにリンクさせるための基礎としてWAPおよびWM
L規格を用いている。しかし、これらの規格は例としてのみ用いられるものであ
ることと、ここで用いられている本発明の概念はこれら特定の規格に従って動作
しない他の環境においても同様に適用可能であることとを認識すべきである。
【0023】 本発明の一態様によれば、音声制御サービスアプリケーション(VCSA)の
構成要素は、端末に備えられた部分と遠隔設備に備えられた残りの部分とに分散
される。図1aおよび図1bは、本発明のこの態様による分散VCSAの代替の
実施例のブロック図である。図1aでは、クライアント部分101は、第1のデ
ィジタルリンク105を経てサーバ部分103に結合されている。クライアント
部分101は端末に備えられ、一方、サーバ部分103は、遠隔位置に最もあり
そうな隔離されたプロセッサに備えられている。サーバ部分103がランするプ
ロセッサは、多くの実施例では、クライアント部分101がランする端末よりも
より強力(例えば、より高速、より大きい記憶空間など)である。クライアント
部分101とサーバ部分103とを結合する第1のディジタルリンク105は無
線であっても有線であってもよい。第1のディジタルリンク105を経て通信さ
れるデータは、好ましくは、WMLのような標準化されたマークアップ言語によ
って作成されたカードおよびスクリプト/ライブラリの形式である。代替の実施
例では、異なるマークアップ言語が代わりに用いられ得る。しかし、それぞれの
場合において、マークアップ言語は、端末の比較的低い処理能力および制限され
た入出力リソースによってサポートされ得るものであるべきである。WMLは、
WAP URLサービスを経てダウンロードされ得るそれのカードおよびスクリ
プト/ライブラリが今日の進歩した移動体ネットワークで利用可能なサービスを
改善し拡張するアプリケーションを作成するために用いられ得るので、無線移動
体端末での使用に好ましい。
【0024】 クライアント部分101は、少数(例えば、約50まで)の孤立ワードを認識
できるもののような簡単なASRを含む。連続音声で供給される大語彙のワード
を認識できるようなもっと強力なASRはサーバ部分101に備えられる。動作
に際しては、クライアント部分101はユーザから音声を受ける。クライアント
部分101のASRは、ワードを孤立させ認識することを試みる。正しく認識さ
れたものに基づいて動作が行われる。認識されたワードの多くは、一般に、メニ
ューのスクロール,メニューアイテムの選択およびローカルに記憶された電話帳
のようなさまざまな端末リソースへのアクセスなどの端末におけるローカル機能
を制御するのに用いられる。他のワードは、サーバへ供給されるべきオペランド
(例えば、データ)として認識される。これらのワードについて、対応するテキ
ストが端末のメモリから検索される。次に、このテキストは第1のディジタルリ
ンク105を経てサーバ部分103へ送られる。そのテキストは、サーバ部分1
03がそれをデータ入力として認識し適宜にそれを処理するようにフォーマット
される。
【0025】 クライアント部分101によって認識されなかったワードは、(例えば、多目
的インタネットメール拡張(MIME)タイプとして)フォーマットされ、サー
バ部分103へ送られる。サーバ部分103は、これが非認識音声であることを
確認し、それ自身のもっと強力なASRを用いて受信音声を解析する。解析の後
、サーバ部分103はそれに応じて動作する。例えば、認識された音声はサーバ
アプリケーションを制御する指令から成るかもしれず、その場合には、その指令
に基づいて動作が行われる。認識された音声はまたサーバアプリケーション用の
データ入力を表すかもしれず、その場合には、それはそのようなものとして処理
される。ASRが供給された音声を認識できない場合には、それはコード化音声
をクライアント部分101へ送り返すような動作を行い、その後、クライアント
部分101はそのコード化音声をユーザに聞かせる。この場合のコード化音声は
、ユーザが非認識音声を繰返し綴るようにする要求音声であり得る。
【0026】 図1bに示されている代替の実施例では、サーバ部分103は、第2のディジ
タルリンク111によってサーバ109に結合されたゲートウェイ/代理部分1
07によって置換されている。ゲートウェイ/代理部分107とサーバ109と
を結合する第2のディジタルリンク111は無線であっても有線であってもよい
。第2のディジタルリンク111を経て通信されるデータは、好ましくは、標準
化されたマークアップ言語によって作成されたカードおよびスクリプト/ライブ
ラリの形式であり、それは、第1のディジタルリンク105において用いられる
データフォーマットと同じであってもよいが、同じである必要はない。データフ
ォーマットが異なるときは、ゲートウェイ/代理部分107の1つの機能は、デ
ータを一方のフォーマットから他方のフォーマットへ変換することである。この
場合の変換は、キーワードを一方のフォーマットから他方のフォーマットへ(例
えば、ハイパーテキストマークアップ言語(HTML)からWMLへ)置き換え
るのみでなく、端末によって受信され得ないデータを除去するためにあるフィル
タリングのレベルをも変換する。例えば、サーバ109がインタネットを経てア
クセス可能なアプリケーションであれば、それは、比較的低能力端末上に表示さ
れ得ないグラフィック情報を含むHTMLウェブページを送る。この場合、ゲー
トウェイ/代理部分107は、そのようなデータを消去して適切なデータのみを
クライアント101へ送る必要がある。
【0027】 多くの実施例では、第1および第2のデータリンク105,111上で用いら
れるデータフォーマットは、共にWMLフォーマットであるなど、同じであるで
あろう。そのような場合には、ゲートウェイ/代理部分107によって行われる
変換は、テキストを音声データで置換することとその逆を行うこととを含む。す
なわち、サーバ109は、PC画面上に表示されるべく意図された大形のテキス
トメニューの形式でデータを供給する。しかし、上述したように、比較的低能力
端末は、大形のメニューを表示することができず、かつ/または、そのような大
形メニューは、ユーザが小形端末画面上で読取ることは困難である。したがって
、本発明の一態様によれば、ゲートウェイ/代理部分107は、受信テキストを
(MIMEフォーマット化データとして)クライアント部分101へ供給されて
ユーザに聞かされるオーディオに変換する。このようにして、ユーザは、可能な
選択を画面上で見る必要はなく、それらを聞くことができる。ユーザは、選択を
タイプするのではなく選択を話すことによって、その選択を行う。上述したよう
に、話されたテキストは、クライアント部分101のASRによって、または、
代わりにゲートウェイ/代理部分107のASRによって認識されてテキストへ
変換される。いずれの場合にも、このテキストは、次に、ゲートウェイ/代理部
分107によってサーバ109へ送られる。このようにして、サーバ109は、
特に音声インタフェースを取り扱うように構成される必要はない。実際に、この
構成では、音声インタフェースの存在はサーバ109に対し完全にトランスペア
レントであり、サーバ109はそれが送受信するテキストのみを知る。
【0028】 ここで、図2および図3に示されている代表的実施例を参照しつつ本発明を詳
述する。この代表的実施例のアーキテクチャは、図1aおよび図1bに示されて
いるアーキテクチャと本質的に同じである。しかし、この実施例では、全システ
ムが、論理的に、4つの部分(端末部分(TP)203と端末アプリケーション
部分(TAP)201と遠隔アプリケーション部分(RAP)205と外部サー
ビスおよびコンテンツ(ESC)部分207)に分割されている。TP203お
よびTAP201はVCSAのクライアント部分101を具現し、また、RAP
205はVCSAのサーバ部分103またはゲートウェイ/代理部分107を具
現している。ESC207はサーバ109に対応する。ここで、これらの構成要
素を詳述する。以下に説明するさまざまな構成要素は、個々には、公知である(
例えば、さまざまな記憶素子,マイクロホン,スピーカ)か、提供される高レベ
ルの説明に基づいて容易に構成され、したがって、高い詳細レベルでの説明の必
要はないことを理解すべきである。さまざまな実施例は、記憶されているプログ
ラムを実行して多くの機能(例えば、オーディオ特性の整合,プロトコルスタッ
クの保守など)を行う1つ以上のプログラム可能素子を用いる。別の実施例では
、これらは、代わりに、ハードワイヤード論理ゲートである。特定の具体化アプ
ローチが他のものよりも優れているかどうかは、考察下の特定のアプリケーショ
ンに依存し、したがって、本開示の範囲外のことである。
【0029】 TP203は、端末に備えられ、WAP規格(または、別のアプリケーション
プロトコル)をサポートする。TAPインタフェース209は、TAP201と
の対話を可能にし、TAP201は音声対話とWAPアプリケーションの制御と
をサポートする。TP203はさらに、第1のデータリンク211を経てWAP
規格プロトコルに従った通信を可能にするWAPクライアントプロトコルスタッ
ク213を含み、第1のデータリンク211は無線ディジタルチャネルであって
も有線ディジタルチャネルであってもよい。
【0030】 TP203に備えられたマイクロホン215は、端末のユーザからの音声を受
ける。マイクロホン215の出力は、TPオーディオエンコーダ(例えば、GS
M音声エンコーダ)へ供給され、このエンコーダは、オーディオ入力信号を圧縮
データフォーマットにコード化する。コード化されたオーディオデータはTAP
インタフェース209へ供給される。オーディオがユーザへ供給されるべきとき
は、それは、圧縮データフォーマット(例えば、GSM音声エンコーダフォーマ
ット)でTAPインタフェース209を経てTPオーディオデコーダ219へ供
給され、このデコーダ219の出力がスピーカ221へ供給される。
【0031】 TAP201はまた、呼ハンドリング,アドレス帳管理などの端末機能との基
本的音声対話をサポートする目的で端末に備えられる。TAP201はまた、音
声対話とWAPアプリケーションの制御とをサポートする。TAP201は、T
AP201がTP203と通信することを可能にさせるTPインタフェース22
3を含む。
【0032】 TAP201は、端末における音声指向ブラウザとして機能する。ここで、こ
のブラウザの機能を図4のフローチャートを参照しつつ説明する。オーディオ入
力は、マイクロホン215によって受取られ、TPオーディオエンコーダ217
へ供給される(ステップ401)。TPオーディオエンコーダ217からの出力
は、TAPインタフェース209およびTPインタフェース223を経て、TA
P201に備えられた開始/停止検出器および記録ユニット225へ供給される
(ステップ403)。TAP201は、開始/停止検出器および記録ユニット2
25を用いて、供給された音声入力信号の開始および停止を検出し、また、これ
を用いて、ここでは「孤立ワード」と呼ばれるオーディオ時間間隔へのオーディ
オ入力の拡大を制限する。開始/停止検出器および記録ユニット225は、この
孤立ワード用のTPオーディオコード化データを記憶(すなわち、記録)するキ
ャッシュメモリ(不図示)を含む。
【0033】 孤立ワードは、開始/停止検出器および記録ユニット225から、孤立ワード
認識解析を行うASRユニット227へ供給される(ステップ405)。この代
表的実施例におけるASR227は特徴ベクトル抽出ユニット229を含み、特
徴ベクトル抽出ユニット229は、孤立ワードを受取り、それを特徴照合および
決定ユニット231によって用いられるのに適したベクトル空間にマップする。
WMLシンタックスにおける制限された標準WAP語彙と端末に依存する所定の
語彙とを含む基準語彙がTAP基準データベース233に記憶されている。端末
に依存する所定の語彙は、アプリケーションダイアログをよりユーザに使いやす
くするワードを含めるため、または、VCSAに存在しない端末機能を制御する
ために、WML標準語彙を拡張するのに用いられる。孤立ワードは、好ましくは
、テキストフォーマットと対応TPオーディオコード化データと孤立ワードを表
す関連特徴ベクトルとの3つのフォーマットで記憶される。TAP基準データベ
ース233からの特徴ベクトルは、特徴照合および決定ユニット231の第2の
入力へ供給される。特徴照合および決定ユニット231は、特徴ベクトル抽出ユ
ニット229の出力に供給される特徴ベクトルをTAP基準データベース233
によって供給される特徴ベクトルと比較し、一致するかどうかを決定する。特徴
照合および決定ユニット231からの出力237,239は、TAP制御論理2
35へ供給され、一致することがわかったかどうかを表示する(判断ブロック4
07)。
【0034】 孤立ワードには、いくつかのタイプのものがある。すなわち、端末制御機能(
例えば、メニューのスクロールアップまたはダウン)に関連するものと、メニュ
ーから1つのアイテムを選択する「選択」指令(PCマウスを用いたメニューア
イテム上での「クリック」と同等である)のようなRAP205(および最終的
にはサーバ)へ送られるべき応答を決定するものと、特定のサーバアプリケーシ
ョンによって完全に定められているものとである。したがって、孤立ワードが端
末で認識されれば(判断ブロック407からの「YES」出力)、それが孤立ワ
ードのどのタイプのものであるかを決める決定がなされる(判断ブロック409
)。端末制御ワードが認識されたときは、TAP制御論理235は端末機能を行
わせる(ステップ411)。いくつかの場合には、これは、メニュー内のいずれ
のアイテムが現在選択されつつあるかのような現在の端末状態の変化をユーザに
表示するオーディオ出力の発生を含む。
【0035】 認識されたワードがサービス関連のものであれば、適切な応答が、メッセージ
として発生され、WAPクライアントプロトコルスタック213を経てRAPへ
転送される(ステップ413)。このメッセージは、RAP205がESC20
7へ送られるべき適切な応答を発生できるようにさせるのに必要な状態情報,テ
キスト,2進データおよび他の情報の任意の組合せを含む。RAP205によっ
て発生された応答は、好ましくは、通常のテキストベースWAP端末によって発
生されるキーボード入力選択をエミュレートする。このキーボード応答はTAP
205によって発生されるとともにESC207へ送るために単にRAP205
へ送られるが、それは、効率上の理由で、必要な状態(および/または他の)情
報をRAP205へ単に送り、それがテキスト,2進データ,状態情報またはメ
ニュー選択コードを含むがこれらに限定されるわけではない必要なキーボードエ
ミュレーション応答の形式でESC207へのそれの応答を発生することを可能
にさせることが好ましい。
【0036】 ここで判断ブロック407へ戻り、孤立ワードがASR227によって認識さ
れなかったとすれば、TAP制御論理235は、TAPのWAPサービス論理2
45と共に、ユーザに知らせるべきかどうかの決定を行う(判断ブロック415
)。この決定は、例えば、現在の端末状態とTAP制御論理235によって用い
られている状態マシンとに基づかれる。例えば、TAP制御論理235が端末制
御またはメニュー選択機能が受信されることを予期しているならば、ユーザは、
孤立ワードが認識されなかったことを知らされ(ステップ417)、その孤立ワ
ードを繰返すこと、または、それを綴ることによってまたはキーボード選択によ
って入力をすることを求められる。あるいは、TAP制御論理235がTAPの
WAPサービス論理245と共にeメールのコンテンツとして用いるためなどの
ような認識不可能なオーディオ信号が供給されることを予期していれば、その非
認識孤立ワードは単にRAP205へ送られる(ステップ419)。RAPのA
SR307は、好ましくは、TAPのASR227よりも強力であるので、TA
P203が非認識孤立ワードを認識するタスクについて援助を要するならば、そ
の非認識孤立ワードはやはりRAP205へ送られる。本発明のこの態様は以下
に詳述される。
【0037】 非認識孤立ワードをRAP205へ送るためには、開始/停止検出器および記
録ユニット225からのオーディオコード化データは、MIMEフォーマッティ
ングユニット247によってMIMEタイプとしてフォーマットされる。MIM
Eフォーマットされたオーディオコード化データの通信は、TPインタフェース
223,TAPインタフェース209およびWAPクライアントプロトコルスタ
ックを経て通信RAPインタフェース243へ行われ、通信RAPインタフェー
ス243は第1のデータリンク211に結合している。TAP201は、RAP
205に置かれたRAPサービス論理321に対するクライアントであり、低処
理能力を有するWAP端末装置(移動装置および固定装置を含む)に備えられる
。RAPサービス論理321も、ESC207におけるサービスおよびコンテン
ツに対するクライアントである。
【0038】 上述したように、ユーザへの音声出力は、スピーカに結合された出力を有する
TPオーディオデコーダ219によって発生される。TPオーディオデコーダ2
19は、TAP基準データベース233またはRAP205からTPオーディオ
コード化フォーマットのデータを受取る。RAP205によって供給されるTP
オーディオコード化フォーマットデータは、WAPプロトコルにおけるMIME
タイプとして組込まれ受信される。この技術は、端末におけるテキストから音声
への変換モジュールの必要を解消する利点を有する。TAP基準データベース2
33にTPオーディオコード化データとして記憶されている追加ワードは、ダイ
アログをユーザにもっと使いやすくするように、ダイアログを補うために用いら
れる。
【0039】 ここでRAPサーバ205(およびRAP205を詳細に示す図3)に着目す
ると、それは、多ユーザ中央WAPアプリケーションサーバとして、WAPゲー
トウェイ/代理として、または、TAPユーザ専用の単一ユーザローカルサーバ
(例えば、ユーザのPC,パームトップ装置など)として具体化される。RAP
205は、通常は、自動音声認識用のより強力な処理能力と、特定のサービスア
プリケーションに必要とされる拡張された語彙用のRAP基準データベースとを
有することが期待される。
【0040】 図2および図3に示されているように、RAP205はまた、異なる場所にあ
るESC207に接続されたWAPゲートウェイ/代理としても具体化される。
例えば、ESC207は、インタネットを経て情報およびコンテンツを供給する
1つ以上のアプリケーションサーバである。
【0041】 前述したように、RAP205は、第1のデータリンク211に結合されてお
り、したがって、この目的のために第1のデータ211に結合された第1の通信
インタフェース301を有する。第1の通信インタフェース301はWAPサー
バプロトコルスタック303にも結合されており、WAPサーバプロトコルスタ
ック303は、通信がWAP(または、他の選択された)通信プロトコルに従っ
て進行することを保証する。RAP205はまた、他のRAPリソースの動作を
制御するRAP制御論理305を含む。これらの中に、TAP201において認
識されなかったTPオーディオコード化ワード、すなわち、WAPプロトコルに
おけるMIMEタイプとしてRAP205へ転送されたワードを認識するASR
307がある。音声認識を行うために、RAPの代表的ASR307は、特徴ベ
クトル抽出ユニット309と特徴照合および決定ユニット311とRAP基準デ
ータベース313とを含む。動作に際しては、TPオーディオコード化データは
特徴ベクトル抽出ユニットへ供給される。次に、対応特徴ベクトルが特徴照合お
よび決定ユニット311へ供給される。RAP基準データベース313は、認識
されるべき全てのワードの特徴ベクトル,対応テキストおよび対応TPオーディ
オコード化データを記憶している。RAP基準データベース313からの特徴ベ
クトルは、特徴照合および決定ユニット311のもう1つの入力へ供給される。
特徴照合および決定ユニット311は、特徴ベクトル抽出ユニット309によっ
て供給された特徴ベクトルをRAP基準データベース313によって供給された
特徴ベクトルと比較し、入力ワードが認識されたかどうかを表示する。ASR3
07は、TAPのASR227が失敗した音声認識に成功する。その理由は、R
APのASR307は好ましくはより強力であり基準ワードの大きいデータベー
スを含むからである。
【0042】 RAPのASR307は、孤立ワードを認識できるほかに、連続音声を認識す
る能力も有する。この能力は、端末のユーザが単一ワード指令を言うことになっ
ているのにフレーズを言ってしまう場合を含む多くの場合において有用である。
例えば、ユーザが「ジョンを〔休止〕呼出す〔休止〕」のように言うことが期待
されているのに、2つのワードの間の休止なしに「ジョンを呼出す」と言う場合
である。この場合、フレーズ「ジョンを呼出す」は、開始/停止検出器および記
録ユニット225によって孤立ワードとして間違われ、そのように記録されるこ
とがある。TAPのASR227がこのオーディオ入力を認識できなければ、T
AP201は、それをMIMEフォーマット化オーディオコード化データへ変換
し、それをTAP201が指令入力を期待している状態にあったことの表示と共
にRAP205へ送る。この場合、RAP205は、それに応答して、その非認
識「孤立ワード」(この例では、フレーズ「ジョンを呼出す」)をそれのもっと
強力なASR307へ印加する。RAPのASR307は、ユーザによって話さ
れる得る全ての可能なワードを認識できる必要はない。代わりに、それは、認識
可能なTP指令のリストを備え、TP指令ワードのみが探されるいわゆる「ワイ
ルドカード」認識動作を行う。このようにして、ASR307が数ある中でフレ
ーズ「*呼出す*」(ここで「*」はワード「呼出す」の前後の「何でもよい」ワ
ードを示す)を探していれば、ASR307は、その非認識「孤立ワード」がそ
れに続く別の非認識部分を伴うワード「呼出す」から成ることを検出する。次に
、この情報はTAP203へ送り返される。それに応答して、TAP203は、
端末の呼出し指令を呼出し、呼出されるべき人の名前を繰返すことをユーザに求
める。このようにして、本発明のこの態様によれば、ASR機能は、端末で行わ
れる部分と遠隔のRAP205で行われる部分とに実際に分散される。
【0043】 図5は、RAP205の全体的動作の代表的実施例を示すフローチャートであ
る。TP203から入力を受取れば(判断ブロック501の「Yes」経路)、
それは検査されて、それが何を表すかが決定される(判断ブロック503)。そ
れがTP応答に関連する状態情報であれば、RAP205は、それを用いてそれ
自身の状態(例えば、RAPサービス論理321の状態)を更新し、それに応じ
て動作する。これは、ESC207へ送られるべきキーボードエミュレーション
応答の発生を含む(ステップ505)。前述したように、キーボードエミュレー
ション応答は、テキスト,2進データ,状態情報またはメニュー選択コードを含
むが、これらに限られるわけではない。
【0044】 TP203から受けた入力が状態情報でなければ、それはMIMEフォーマッ
トされた非認識孤立ワードである。これは、次に、特定のアプリケーションに従
って処理される(ステップ507)。例えば、非認識孤立ワードはRAPのAS
R307へ印加され、ASR307は、例えば、ESC207へ送られるべき対
応テキストを発生する。この場合の対応テキストはRAP基準データベース31
3から供給される。
【0045】 あるいは、非認識テキストは、例えば、ESC207におけるWAPアプリケ
ーションへ送られるeメールに添付されるべきオーディオコンテンツを表す。他
の選択肢では、非認識テキストは、ESC207との通信を必要とせずにRAP
自身を動作させる制御ワードを構成する。例えば、非認識テキストは、ユーザに
対して十分に表示/提示され得なかったメニューの別の部分を要求するものであ
る。RAP205が完全なメニューを記憶していれば、それは、ESC207と
通信せずにTP205に対する応答を準備できる。
【0046】 受信されたTPオーディオコード化データに自動音声認識を行う代わりとなる
のは、例えばeメール応答に添付され得るウェーブフォーマット化ファイルのよ
うな異なるオーディオフォーマットへ変換することである。この変換はオーディ
オフォーマット変換器323によって行われる。オーディオフォーマット変換器
323は、好ましくは、(ESC207から受けた)音声メールフォーマットを
ユーザに聞かせる目的でTP203へ送られるTPオーディオコード化データへ
変換することができるために、双方向性のものとする。
【0047】 入力がTPから受取られなければ(判断ブロック501から出る「No」経路
)、ESC207からテキストが受取られたかどうかが決定されなければならな
い(判断ブロック509)。受取られたとすれば(判断ブロック509から出る
「Yes」経路)、それは、好ましくは、テキスト/TPオーディオ・エンコー
ダ319へ供給され、エンコーダ319は、それから対応TPオーディオコード
化データを発生する(ステップ511)。このデータは、次に、MIMEタイプ
にフォーマットされ、WAPプロトコルでTP203へ転送される(ステップ5
13)。前述したように、受信されたTPオーディオコード化データは、次に、
スピーカ221を経てユーザに聞かされる。テキストからオーディオへのこの変
換は、例えば、アプリケーションがESC207からテキストをユーザへ読取り
つつあるとき、または、RAP205が記憶されているヘルプテキストをユーザ
へ読取りつつあるときに、必要である。RAP205がさまざまな異なるエンコ
ーダを用いるクライアントによって共用されるリソースであるときは、テキスト
/TPオーディオ・エンコーダ319は、クライアント端末の1つが用いる必要
なオーデオコード化フォーマットのいずれかおよび全てをサポートするように設
計される。
【0048】 いくつかの実施例では、オーディオフォーマット変換器323をなくし、代わ
りに、RAP基準データベース313においてテキストを探索して対応TPオー
ディオコード化データを出力することが可能である。しかし、個別のオーディオ
フォーマット変換器323を用いることが好ましい理由は、一般に、ヘルプファ
イルのようなテキストファイルをユーザに提示する「マイメール(my mail)の
読取り」や他のサービスのような大きい語彙を用いるサービスをサポートできる
からである。これらの場合には、RAP205にコード化データの全辞書を記憶
することは所望されない。
【0049】 RAP205は、他の外部サービスおよびコンテンツのプロバイダへのアクセ
スをサポートする、次のレベルのサービスおよびコンテンツに対する代理クライ
アントユニット325をさらに含む。 ここでESC207を見ると、それは、WAPアプリケーション用のサポート
を有するまたは有さないアプリケーションであるが、いずれの場合でも、RAP
205におけるサービスアプリケーションに対する情報またはコンテンツのプロ
バイダとして用いられる。
【0050】 本発明は、WAPにおける標準化WML語彙およびシンタックスを利用して、
WAP端末(すなわち、具体化されたWAPクライアントを有する端末)がWA
P端末用に設計された全サービスに対する音声制御インタフェースを有すること
を可能にする。VCSA用のサービス論理は、アプリケーションにおいてTAP
201とRAP205とに分割される。TAP201とTP203との間の全て
のローカル対話は、TAP201とRAP205との間の伝送を最小化するため
にTAPのWAPサービス論理245によって処理される。TAPのWAPサー
ビス論理245は、TAP201内のデータおよび情報の流れを制御するTAP
制御論理235によって行われる命令を発する。本発明の他のオプションの態様
によれば、TAP制御論理235はまた、WMLシンタックスにおける極めて制
限された語彙に比べてユーザとのダイアログを向上させ改善するために、サポー
ト・テキストおよびサポート・ワードを挿入する能力を有する。そのような追加
のテキストは、例えば、特定のメニュー選択を行うためにどのようなステップを
行わなければならないかを詳細にユーザに説明するオーディオの形式のものであ
る。この追加の語彙は、TPオーディオコード化データストリングとしてTAP
基準データベース233に記憶される。あるいは、追加の語彙は、RAP基準デ
ータベース313から要求され、TPコード化オーディオデータとして第1のデ
ータリンク211(WAPチャネル)を経てTP203へ転送される。TP20
3は、このオーディオをスピーカ221を経てユーザに聞かせることができる。
【0051】 本発明の他の態様によれば、TAP基準データベース233内の語彙をRAP
205を経て供給されたテキスト,コード化TPオーディオデータおよび特徴ベ
クトルの完全なセットで更新,改善または置換することができる。新しくダウン
ロードされた情報は、WMLの変化をまたは新しい言語さえも表す。
【0052】 TAPのWAPサービス論理245は、RAP205にあるRAPサービス論
理321に対するクライアントである。TAPのWAPサービス論理245は、
TPおよびTAP機能のみを制御し、また、基本WMLシンタックスを実行する
。それは、VCSAのアプリケーション依存部分をサポートしない。TAPのW
APサービス論理245とRAPサービス論理321とはサービスアプリケーシ
ョン中には同期されている。RAPサービス論理321と新しいVCSAをサポ
ートする語彙とは、外部サービスプロバイダからRAP205へダウンロードさ
れる。
【0053】 代表的実施例では、VCSAを起動するためには、ユーザは、ワード「サービ
ス」のような所定の音声指令を話せばよい。これに応答して、TP203は、例
えば、この音声をTPオーディオコード化データに変換し、認識のためにTAP
201へそれを供給する。ユーザの指令がTAPのASR227によって認識さ
れたとすると、TAP基準データベース233から供給されたTPコード化オー
ディオが、TPオーディオデコーダ219によってオーディオ信号へ変換され、
スピーカ221へ供給される。TAPのWAPサービス論理245はワードをテ
キストストリングに組立てる責任を有し、また、TAP制御論理235は適切な
オーディオ出力命令を実行する。このオーディオは、TAP201に記憶されて
いるサービスメニューからいくつかの選択肢からの選択を行うようにユーザに促
す。RAP205へのWAP接続は、特定のWAPサービスアプリケーションが
選択されたときにセットアップされるであろう。次に、TAP201およびRA
P205のサービス論理はサービスを実行し始める。
【0054】 実例をあげる目的で、代表的サービスを簡単に説明する。この例のWML部分
の理解を容易にするために、まずWML1.0を簡単に解説する。この簡単な要
約では、WMLシンタックスのみを示す。属性の値,範囲およびデフォルトは示
されていない。しかし、この情報は、公知であり、ここに提示する必要はない。
【0055】 以下のプロローグは、すべてのWMLデック(すなわち、wmlファイル)の
トップに現れなければならない。
【0056】 すべてのデックは正確に1つの<WML>要素を有する。
【0057】 すべてのデックは正確に1つの<HEAD>要素を任意に有する。
【0058】 すべてのデックは正確に1つ<TEMPLATE>要素を任意に有する。
【0059】 すべてのデックは少なくとも1つの<CARD>要素を有する。
【0060】 カードは、画像<IMG>およびアンカー<A>を含む(<B>ボールド</
B>のような)マークアップを有するテキストフローを含むことができる。 </CARD>
【0061】 ナビゲーションは<DO>要素によって表示される。
【0062】 イベントは<ONEVENT>または<TIMER>要素によって処理される
【0063】 特定の動作は<GO>,<PREV>,<REFRESH>または<NOOP
>要素の1つである。
【0064】 入力フィールドをどのようにグループ化すべきかのヒントは<FIELDSE
T>要素で与えられる。
【0065】 入力は<INPUT>または<SELECT>要素の1つによって得られる。
【0066】 選択リストの要素は<OPTGROUP>要素を用いてグループ化され得る。
【0067】 選択リストの要素は<OPTION>要素を用いて指定される。 <OPTION VALUE=”“TITLE=”“ONCLICK=”“> オプションは、マークアップをもつが画像またはアンカーはもたないテキスト
フローを有する。 <ONEVENT>...</ONEVENT> </OPTION>
【0068】 マークアップを有するテキストフローは、以下の要素を含む。 <B>...</B> ボールド <I>...</I> イタリック <U>...</U> アンダーライン <BIG>...</BIG> 拡大フォントサイズ <SMALL>...</SMALL> 縮小フォントサイズ <EM>...</EM> 強調 <STRONG>...</STRONG> 強い強調 <BR ALIGN=”“MODE=”“/> ラインブレークを強制 <TAB ALIGN=”“/> 続くテキストを列にアライン <A TITLE=”“> テキストフローに組込まれたアンカータグ <GO>...</GO> <PREV>...</PREV> <REFRESH>...</REFRESH>
【0069】 アンカーは、マークアップをもつが画像またはアンカーはもたないテキストフ
ローを有する。 </A> 画像は<IMG>要素で表示される。
【0070】 ここで、代表的WAPサービスを説明する。ディスプレイ/キーボード対話を
有するWAP使用可能端末において、気象情報サービスが利用可能であるものと
する。このサービスは、まず、ユーザに以下のようなオプションのリストを画面
上に提示する。 以下における天候を示して下さい。 >ストックホルム ヘルシンキ チューリッヒ その他
【0071】 アップまたはダウンキーを押すことにより、ユーザは、カーソル(すなわち、
「>」文字)をリスト上において上下に移動させる。アクセプト・キー(エリク
ソンが製造販売している移動電話機のようないくつかの移動電話機では、これは
イエス(YES)キーである)を押すことにより、ユーザは、選択された都市の
短いコードを気象サービスプロバイダへ送る。 「その他」が選択されれば、以下のような入力フィールドがユーザに提供され
る。 都市名を入力して下さい: − 次に、ユーザは、適切な装置キーを用いて都市名を入力したのち、エンターキ
ーを押す。
【0072】 このサービス用のWMLは、以下のようになる。
【0073】 音声認識使用可能端末で上述した本発明の技術を用いると、ユーザは次のよう
に聞く。 「これらの都市オプションにおける天候を示して下さい」 それは、「における天候を示して下さい」と、選択タグのタイトル属性である
「都市」と、TAP基準データベース233からのある接着テキストである「こ
れらの」および「オプション」とを組合わせたものであることに注意すべきであ
る。これは、シンタックスに関連するWML語彙への補足ワードに依存するか補
足ワードとして定められた装置インプリメンテーションであり得る。
【0074】 次に、ユーザは、装置がリスト内の都市名を、以下のようにそれぞれの間に短
い休止を入れて言うのを聞く。 「ストックホルム」〔休止〕 「ヘルシンキ」〔休止〕 休止の目的は、ユーザが以下のような何かで応答するのに十分な時間を与える
ためである。 この1つを選択することを意味する「アクセプト」、または 次を意味する「ノー」、または 前の画面に完全に戻ることを意味する「バックアウト」 など
【0075】 ユーザが「その他」オプションに対して「アクセプト」で応答すれば、装置は
次のように言う。 「都市名を入力し、オーケーまたは2秒間の休止で終わって下さい。」 装置が与えられたテキストと入力を終わらせる命令とをどのように組合わせた
かに注意すべきである。 ユーザは、次に、都市名を話し、「オーケー」で終わる。そこで、装置は、そ
の話された入力を音声認識およびさらなる処理のために遠隔アプリケーションへ
送る。
【0076】 本発明のさまざまな態様は、比較的低い処理能力と扱いにくい(例えば、きわ
めて小形である)または(例えば、ドライブ中に)比較的に利用しにくいI/O
装置とを有する端末が、これらの制限をもたない端末により一般に用いられるよ
うに開発されたサービスアプリケーションにアクセスするための対話形音声イン
タフェースを用いることを可能にする。端末におけるASRの要求の複雑さは、
VCSA用の音声認識システムを標準マークアップ言語(例えば、WML)シン
タックス用の小形端末音声認識装置と、もっと大きい処理能力を有する遠隔装置
のVCSAのアプリケーション依存部分用のもっと強力な音声認識装置とに分離
することによって、低減される。この構成の結果として、サービスコンテンツの
変更は必要でない。
【0077】 本発明の他の利点は、端末と遠隔アプリケーションサーバとの間に音声チャネ
ルを確立することが不必要である事実から得られる。これは、アプリケーション
へのオーディオ応答がディジタルデータチャネルを経て伝送されるMIMEタイ
プのような所定のディジタルタイプにコード化されることによる。
【0078】 本発明の他の利点は、WMLのような標準化されたマークアップ言語を用いる
ことによって音声制御サービス用の音声ダイアログ語彙を標準化し制限する一般
的な方法を本発明が提供していることである。これは、音声認識のタスクを簡単
化し、さもなければ多ユーザアプリケーションにおいてワードの異なる発音の存
在から生じるエラーを減少させる。
【0079】 本発明はまた、質問またはオプション選択に命令を挿入することによりアプリ
ケーションによって定められた催促形の質問または選択に対してユーザの話され
た応答の終りを決定する方法を提供する。その命令は、ユーザに、例えば、端末
装置によって認識できる特殊な所定ワードを言うことにより、または所定の沈黙
期間を許可することにより応答を終わる方法を知らせる。ユーザが所定ワードを
言ったとき、または、所定期間だけ休止したとき、これは端末内のASR227
によって認識され、端末がその要求された応答の前に来たものを認識できるよう
にする。
【0080】 本発明は、さまざまな実施例において対話形音声制御サービスの実施を可能に
させる。これらの例には、以下のものが含まれるが、以下のものに限定されるわ
けではない。 − WAP使用可能電話機における音声ブラウザ − 処理ユニットにおける制御機能にディジタル的に接続された音声使用可能
制御ユニット − 電子ノートパッドのような音声使用可能特殊装置 − ウィンドウに基づくオペレーティングシステムおよびクライアント/サー
バ環境におけるアプリケーションプログラムインタフェース(API)のような
コンピュータアプリケーションの音声使用可能制御 − さまざまなマークアップまたは対話形アプリケーションプロトコルにおけ
る小さくかつ定義された語彙を有するスクリプト言語に基づく標準化アプリケー
ションプロトコルの音声使用可能制御。
【0081】 本発明を特定の実施例に関連して説明してきた。しかしながら、当業者は、本
発明を上述した実施例とは異なる特定の形式で実施できることが容易に分かるは
ずである。これは、本発明の精神から逸脱することなく行われ得る。上述した実
施例は、単なる例であり、いかなる意味においても限定的なものと考えるべきで
はない。本発明の範囲は、以上の説明ではなく、添付の特許請求の範囲により与
えられ、特許請求の範囲に属する全ての変形および等価物はそれに包含されるよ
うに意図されている。
【図面の簡単な説明】
【図1a】 本発明の一態様による分散VCSAの代替の実施例のブロック図である。
【図1b】 本発明の一態様による分散VCSAの代替の実施例のブロック図である。
【図2】 本発明による音声制御遠隔サーバの代表的実施例のブロック図である。
【図3】 本発明による音声制御遠隔サーバの代表的実施例のブロック図である。
【図4】 本発明の代表的実施例による端末アプリケーション部分によって行われる動作
のフローチャートである。
【図5】 本発明の代表的実施例によるRAPの全体的動作の代表的実施例を示すフロー
チャートである。
【手続補正書】特許協力条約第34条補正の翻訳文提出書
【提出日】平成13年1月11日(2001.1.11)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正内容】
【特許請求の範囲】
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 561C (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AL,AM,AT,AU,AZ, BA,BB,BG,BR,BY,CA,CH,CN,C R,CU,CZ,DE,DK,DM,EE,ES,FI ,GB,GD,GE,GH,GM,HR,HU,ID, IL,IN,IS,JP,KE,KG,KP,KR,K Z,LC,LK,LR,LS,LT,LU,LV,MD ,MG,MK,MN,MW,MX,NO,NZ,PL, PT,RO,RU,SD,SE,SG,SI,SK,S L,TJ,TM,TR,TT,TZ,UA,UG,UZ ,VN,YU,ZA,ZW 【要約の続き】 いられる。

Claims (34)

    【特許請求の範囲】
  1. 【請求項1】 遠隔サーバから端末へ供給されるサービスアプリケーション
    を制御する方法であって、 オーディオ情報を表すオーディオ入力信号を受取るステップと、 前記端末に配置された第1の自動音声認識システムを用いて、前記オーディオ
    入力信号が第1の語彙によって定められた1つ以上のワードを含むかどうかを決
    定するステップであって、前記第1の語彙によって定められた前記1つ以上のワ
    ードに対応しない前記オーディオ入力信号の部分が、該オーディオ入力信号の非
    認識部分を構成する、ステップと、 前記オーディオ入力信号が前記第1の語彙によって定められた1つ以上のワー
    ドを含めば、アプリケーションプロトコルサービス論理の端末アプリケーション
    部分を用いて、前記第1の語彙によって定められた前記1つ以上のワードをどの
    ように処理すべきかを決定するステップと、 前記オーディオ入力信号の前記非認識部分を、第1の所定のマークアップ言語
    によって定められた構造を有するデータユニットに含まれるようにフォーマット
    するステップと、 前記データユニットを、第1のアプリケーションプロトコルに従って動作する
    第1のディジタルデータリンクを経て遠隔アプリケーション部分へ通信するステ
    ップと、 前記遠隔アプリケーション部分において、前記オーディオ入力信号の前記フォ
    ーマットされた非認識部分を前記データユニットから抽出し、遠隔アプリケーシ
    ョン部分のサービス論理を用いて、前記オーディオ入力信号の前記フォーマット
    された非認識部分をどのように処理すべきかを決定するステップと、 を含む、方法。
  2. 【請求項2】 前記オーディオ入力信号が、圧縮されたディジタルコード化
    音声の形式である、請求項1記載の方法。
  3. 【請求項3】 前記オーディオ入力信号が前記第1の語彙によって定められ
    た1つ以上のワードを含めば、前記アプリケーションプロトコルサービス論理の
    前記端末アプリケーション部分が、前記1つ以上のワードを、行われるべき1つ
    以上の端末機能を選択するために用いられるようにする、請求項1記載の方法。
  4. 【請求項4】 前記1つ以上の端末機能が、前記遠隔サーバへ供給されるべ
    き応答として現在のメニューアイテムを選択することを含む、請求項3記載の方
    法。
  5. 【請求項5】 現在のメニューアイテムが第1の選択に関連しており、 前記1つ以上の端末機能が、前記現在のメニューアイテムを前記第1の選択と
    同じでない第2の選択に関連させることを含む、 請求項3記載の方法。
  6. 【請求項6】 前記オーディオ入力信号が前記第1の語彙によって定められ
    た1つ以上のワードを含めば、前記アプリケーションプロトコルサービス論理の
    前記端末アプリケーション部分が、対応するメッセージが、発生させられ、前記
    第1のディジタルデータリンクを経て前記遠隔アプリケーション部分へ通信され
    るようにする、請求項1記載の方法。
  7. 【請求項7】 前記対応するメッセージが状態情報を含む、請求項6記載の
    方法。
  8. 【請求項8】 前記対応するメッセージがテキストを含む、請求項6記載の
    方法。
  9. 【請求項9】 前記対応するメッセージが2進データを含む、請求項6記載
    の方法。
  10. 【請求項10】 前記遠隔アプリケーション部分が、前記対応するメッセー
    ジを前記遠隔サーバへ送る、請求項6記載の方法。
  11. 【請求項11】 前記遠隔アプリケーション部分が、前記対応するメッセー
    ジを、第2のアプリケーションプロトコルに従って動作する第2のディジタルデ
    ータリンクを経て前記遠隔サーバへ送る、請求項10記載の方法。
  12. 【請求項12】 前記第1のアプリケーションプロトコルが前記第2のアプ
    リケーションプロトコルと同じである、請求項11記載の方法。
  13. 【請求項13】 前記遠隔アプリケーション部分に配置された第2の自動音
    声認識システムを用いて、前記オーディオ入力信号の前記非認識部分が第2の語
    彙によって定められた1つ以上のワードを含むかどうかを決定するステップと、 前記オーディオ入力信号の前記非認識部分が前記第2の語彙によって定められ
    た1つ以上のワードを含めば、前記遠隔アプリケーション部分のサービス論理を
    用いて、前記第2の語彙によって定められた前記1つ以上のワードをどのように
    処理すべきかを決定するステップと、 をさらに含む、請求項1記載の方法。
  14. 【請求項14】 前記第1の語彙は、前記第1の所定のマークアップ言語の
    シンタックスによって定められたワードをもっぱら含み、 前記第2の語彙は、前記遠隔サーバに関連するワードをもっぱら含む、 請求項13記載の方法。
  15. 【請求項15】 前記オーディオ入力信号の前記非認識部分が前記第2の語
    彙によって定められた1つ以上のワードを含めば、前記遠隔アプリケーション部
    分のサービス論理が、対応するキーボードエミュレーション応答が、発生させら
    れ、前記遠隔サーバへ送られるようにする、請求項13記載の方法。
  16. 【請求項16】 前記オーディオ入力信号の前記非認識部分が前記第2の語
    彙によって定められた1つ以上のワードを含めば、前記遠隔アプリケーション部
    分のサービス論理が、遠隔アプリケーション部分サービス論理状態が変化される
    ようにする、請求項13記載の方法。
  17. 【請求項17】 前記遠隔アプリケーション部分において、前記遠隔サーバ
    からテキストを受取るステップと、 前記遠隔アプリケーション部分において、オーディオ情報を表す対応オーディ
    オ出力信号を発生するステップと、 前記第1の所定のマークアップ言語によって定められた構造を有する第2のデ
    ータユニットに含まれるように前記オーディオ出力信号をフォーマットするステ
    ップと、 前記第2のデータユニットを前記第1のディジタルデータリンクを経て前記端
    末へ通信するステップと、 前記端末において、前記オーディオ出力信号を前記第2のデータユニットから
    抽出し、それからスピーカ信号を発生させるステップと、 をさらに含む、請求項1記載の方法。
  18. 【請求項18】 遠隔サーバから端末へ供給されるサービスアプリケーショ
    ンを制御する装置であって、 オーディオ情報を表すオーディオ入力信号を受取る手段と、 前記端末内に配置された、前記オーディオ入力信号が第1の語彙によって定め
    られた1つ以上のワードを含むかどうかを決定する第1の自動音声認識システム
    であって、前記第1の語彙によって定められた前記1つ以上のワードに対応しな
    い前記オーディオ入力信号の部分が、前記オーディオ入力信号の非認識部分を構
    成する、第1の自動音声認識システムと、 前記オーディオ入力信号が前記第1の語彙によって定められた1つ以上のワー
    ドを含めば、前記第1の語彙によって定められた前記1つ以上のワードをどのよ
    うに処理すべきかを決定する、アプリケーションプロトコルサービス論理の端末
    アプリケーション部分と、 前記オーディオ入力信号の前記非認識部分を、第1の所定のマークアップ言語
    によって定められた構造を有するデータユニットに含まれるようにフォーマット
    する手段と、 前記データユニットを、第1のアプリケーションプロトコルに従って動作する
    第1のディジタルデータリンクを経て遠隔アプリケーション部分へ通信する手段
    と、 を含み、 前記遠隔アプリケーション部分が、 前記オーディオ入力信号の前記フォーマットされた非認識部分を前記データ
    ユニットから抽出する手段と、 前記オーディオ入力信号の前記フォーマットされた非認識部分をどのように
    処理すべきかを決定する、遠隔アプリケーション部分のサービス論理とを含む、 装置。
  19. 【請求項19】 前記オーディオ入力信号が、圧縮されたディジタルコード
    化音声の形式である、請求項18記載の装置。
  20. 【請求項20】 前記アプリケーションプロトコルサービス論理の前記端末
    アプリケーション部分が、前記オーディオ入力信号が前記第1の語彙によって定
    められた1つ以上のワードを含めば、行われるべき1つ以上の端末機能を選択す
    るために前記1つ以上のワードが用いられるようにする手段を含む、請求項18
    記載の装置。
  21. 【請求項21】 前記1つ以上の端末機能が、前記遠隔サーバへ供給される
    べき応答として現在のメニューアイテムを選択することを含む、請求項20記載
    の装置。
  22. 【請求項22】 現在のメニューアイテムが第1の選択に関連しており、 前記1つ以上の端末機能が、前記現在のメニューアイテムを前記第1の選択と
    同じでない第2の選択に関連させることを含む、 請求項20記載の装置。
  23. 【請求項23】 前記アプリケーションプロトコルサービス論理の前記端末
    アプリケーション部分が、前記オーディオ入力信号が前記第1の語彙によって定
    められた1つ以上のワードを含めば、対応するメッセージが、発生させられ、前
    記第1のディジタルデータリンクを経て前記遠隔アプリケーション部分へ通信さ
    れるようにする手段を含む、請求項18記載の装置。
  24. 【請求項24】 前記対応するメッセージが状態情報を含む、請求項23記
    載の装置。
  25. 【請求項25】 前記対応するメッセージがテキストを含む、請求項23記
    載の装置。
  26. 【請求項26】 前記対応するメッセージが2進データを含む、請求項23
    記載の方法。
  27. 【請求項27】 前記遠隔アプリケーション部分が前記対応するメッセージ
    を前記遠隔サーバへ送る、請求項23記載の装置。
  28. 【請求項28】 前記遠隔アプリケーション部分が、前記対応するメッセー
    ジを、第2のアプリケーションプロトコルに従って動作する第2のディジタルデ
    ータリンクを経て前記遠隔サーバへ送る手段を含む、請求項27記載の装置。
  29. 【請求項29】 前記第1のアプリケーションプロトコルが前記第2のアプ
    リケーションプロトコルと同じである、請求項28記載の装置。
  30. 【請求項30】 前記遠隔アプリケーション部分に配置された、前記オーデ
    ィオ入力信号の前記非認識部分が第2の語彙によって定められた1つ以上のワー
    ドを含むかどうかを決定する第2の自動音声認識システムをさらに含み、 前記遠隔アプリケーション部分のサービス論理が、前記オーディオ入力信号の
    前記非認識部分が前記第2の語彙によって定められた1つ以上のワードを含めば
    、前記第2の語彙によって定められた前記1つ以上のワードをどのように処理す
    べきかを決定する手段を含む、 請求項18記載の装置。
  31. 【請求項31】 前記第1の語彙は、前記第1の所定のマークアップ言語の
    シンタックスによって定められたワードをもっぱら含み、 前記第2の語彙は、前記遠隔サーバに関連するワードをもっぱら含む、 請求項30記載の装置。
  32. 【請求項32】 前記遠隔アプリケーション部分のサービス論理が、前記オ
    ーディオ入力信号の前記非認識部分が前記第2の語彙によって定められた1つ以
    上のワードを含めば、対応するキーボードエミュレーション応答が、発生させら
    れ、前記遠隔サーバへ送られるようにする手段を含む、請求項30記載の装置。
  33. 【請求項33】 前記遠隔アプリケーション部分のサービス論理が、前記オ
    ーディオ入力信号の前記非認識部分が前記第2の語彙によって定められた1つ以
    上のワードを含めば、遠隔アプリケーション部分サービス論理状態が変化される
    ようにする手段を含む、請求項30記載の方法。
  34. 【請求項34】 前記遠隔アプリケーション部分において、前記遠隔サーバ
    からテキストを受取る手段と、 前記遠隔アプリケーション部分において、オーディオ情報を表す対応オーディ
    オ出力信号を発生する手段と、 前記第1の所定のマークアップ言語によって定められた構造を有する第2のデ
    ータユニットに含まれるように前記オーディオ出力信号をフォーマットする手段
    と、 前記第2のデータユニットを前記第1のディジタルデータリンクを経て前記端
    末へ通信する手段と、 前記端末において、前記オーディオ出力信号を前記第2のデータユニットから
    抽出し、それからスピーカ信号を発生させる手段と、 をさらに含む、請求項18記載の装置。
JP2000577652A 1998-10-16 1999-10-05 サービスアプリケーションに対するユーザインタフェースの音声制御 Withdrawn JP2002528804A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/173,748 US6185535B1 (en) 1998-10-16 1998-10-16 Voice control of a user interface to service applications
US09/173,748 1998-10-16
PCT/SE1999/001769 WO2000023985A1 (en) 1998-10-16 1999-10-05 Voice control of a user interface to service applications

Publications (1)

Publication Number Publication Date
JP2002528804A true JP2002528804A (ja) 2002-09-03

Family

ID=22633323

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000577652A Withdrawn JP2002528804A (ja) 1998-10-16 1999-10-05 サービスアプリケーションに対するユーザインタフェースの音声制御

Country Status (8)

Country Link
US (1) US6185535B1 (ja)
EP (1) EP1129449A1 (ja)
JP (1) JP2002528804A (ja)
CN (1) CN1158645C (ja)
AU (1) AU1422000A (ja)
BR (1) BR9914583A (ja)
MY (1) MY117070A (ja)
WO (1) WO2000023985A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007511111A (ja) * 2003-10-10 2007-04-26 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 移動体端末のゲートウェイ
KR101309794B1 (ko) * 2012-06-27 2013-09-23 삼성전자주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템

Families Citing this family (235)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6996609B2 (en) 1996-05-01 2006-02-07 G&H Nevada Tek Method and apparatus for accessing a wide area network
US6480600B1 (en) 1997-02-10 2002-11-12 Genesys Telecommunications Laboratories, Inc. Call and data correspondence in a call-in center employing virtual restructuring for computer telephony integrated functionality
US6104802A (en) 1997-02-10 2000-08-15 Genesys Telecommunications Laboratories, Inc. In-band signaling for routing
US7031442B1 (en) 1997-02-10 2006-04-18 Genesys Telecommunications Laboratories, Inc. Methods and apparatus for personal routing in computer-simulated telephony
US6775264B1 (en) 1997-03-03 2004-08-10 Webley Systems, Inc. Computer, internet and telecommunications based network
US6985943B2 (en) 1998-09-11 2006-01-10 Genesys Telecommunications Laboratories, Inc. Method and apparatus for extended management of state and interaction of a remote knowledge worker from a contact center
US6711611B2 (en) 1998-09-11 2004-03-23 Genesis Telecommunications Laboratories, Inc. Method and apparatus for data-linking a mobile knowledge worker to home communication-center infrastructure
USRE46528E1 (en) 1997-11-14 2017-08-29 Genesys Telecommunications Laboratories, Inc. Implementation of call-center outbound dialing capability at a telephony network level
US7907598B2 (en) 1998-02-17 2011-03-15 Genesys Telecommunication Laboratories, Inc. Method for implementing and executing communication center routing strategies represented in extensible markup language
US6332154B2 (en) * 1998-09-11 2001-12-18 Genesys Telecommunications Laboratories, Inc. Method and apparatus for providing media-independent self-help modules within a multimedia communication-center customer interface
US6418146B1 (en) * 1999-12-10 2002-07-09 Genesys Telecommunications Laboratories, Inc. Integrated communication center functionality for WAP devices
USRE46153E1 (en) 1998-09-11 2016-09-20 Genesys Telecommunications Laboratories, Inc. Method and apparatus enabling voice-based management of state and interaction of a remote knowledge worker in a contact center environment
US6493671B1 (en) * 1998-10-02 2002-12-10 Motorola, Inc. Markup language for interactive services to notify a user of an event and methods thereof
US6370532B1 (en) * 1998-11-09 2002-04-09 Unisys Corporation Cool ICE batch interface
US6249808B1 (en) * 1998-12-15 2001-06-19 At&T Corp Wireless delivery of message using combination of text and voice
US6744860B1 (en) * 1998-12-31 2004-06-01 Bell Atlantic Network Services Methods and apparatus for initiating a voice-dialing operation
US6606611B1 (en) 1999-02-27 2003-08-12 Emdadur Khan System and method for audio-only internet browsing using a standard telephone
JP2000250574A (ja) * 1999-03-03 2000-09-14 Sony Corp コンテンツ選択システム、コンテンツ選択クライアント、コンテンツ選択サーバ及びコンテンツ選択方法
US20050261907A1 (en) 1999-04-12 2005-11-24 Ben Franklin Patent Holding Llc Voice integration platform
US6408272B1 (en) 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US7058573B1 (en) * 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
US7292980B1 (en) 1999-04-30 2007-11-06 Lucent Technologies Inc. Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems
US6766295B1 (en) 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
US6952800B1 (en) * 1999-09-03 2005-10-04 Cisco Technology, Inc. Arrangement for controlling and logging voice enabled web applications using extensible markup language documents
WO2001018679A2 (en) 1999-09-10 2001-03-15 Everypath, Inc. Method for converting two-dimensional data into a canonical representation
DE19944325A1 (de) * 1999-09-15 2001-03-22 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Spracherkennung
JP3508648B2 (ja) * 1999-10-12 2004-03-22 日本電気株式会社 通信端末装置
US7941481B1 (en) 1999-10-22 2011-05-10 Tellme Networks, Inc. Updating an electronic phonebook over electronic communication networks
US6807574B1 (en) 1999-10-22 2004-10-19 Tellme Networks, Inc. Method and apparatus for content personalization over a telephone interface
MXPA02004015A (es) * 1999-10-22 2003-09-25 Activesky Inc Un sistema de video orientado a los objetos.
US6950881B1 (en) * 1999-11-02 2005-09-27 Mshift, Inc. System for converting wireless communications for a mobile device
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6615172B1 (en) 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US7929978B2 (en) 1999-12-01 2011-04-19 Genesys Telecommunications Laboratories, Inc. Method and apparatus for providing enhanced communication capability for mobile devices on a virtual private network
US6553240B1 (en) * 1999-12-30 2003-04-22 Nokia Corporation Print option for WAP browsers
US8271287B1 (en) * 2000-01-14 2012-09-18 Alcatel Lucent Voice command remote control system
US6760697B1 (en) * 2000-01-25 2004-07-06 Minds And Technology, Inc. Centralized processing of digital speech data originated at the network clients of a set of servers
US7516190B2 (en) 2000-02-04 2009-04-07 Parus Holdings, Inc. Personal voice-based information retrieval system
US6721705B2 (en) 2000-02-04 2004-04-13 Webley Systems, Inc. Robust voice browser system and voice activated device controller
US7349955B1 (en) * 2000-02-11 2008-03-25 Goamerica, Inc. Method of and system for transferring data over a wireless communications network
US6675165B1 (en) * 2000-02-28 2004-01-06 Barpoint.Com, Inc. Method for linking a billboard or signage to information on a global computer network through manual information input or a global positioning system
US6662163B1 (en) * 2000-03-30 2003-12-09 Voxware, Inc. System and method for programming portable devices from a remote computer system
JP2002014952A (ja) * 2000-04-13 2002-01-18 Canon Inc 情報処理装置及び情報処理方法
US6560576B1 (en) * 2000-04-25 2003-05-06 Nuance Communications Method and apparatus for providing active help to a user of a voice-enabled application
JP2003531792A (ja) * 2000-05-01 2003-10-28 インベンテイオ・アクテイエンゲゼルシヤフト エレベータの制御方法
AU2001259357A1 (en) * 2000-05-03 2001-11-12 Payback Training Systems, Inc. Authoring and delivering training courses
US8355912B1 (en) * 2000-05-04 2013-01-15 International Business Machines Corporation Technique for providing continuous speech recognition as an alternate input device to limited processing power devices
AU2001271269A1 (en) * 2000-05-23 2001-12-03 Pocketscript, Inc. Wireless voice recognition data retrieval system and method
ATE426855T1 (de) * 2000-06-05 2009-04-15 Unipier Mobile Ltd Verfahren zum navigieren durch den inhalt eines zellularen netzwerks
US7219136B1 (en) * 2000-06-12 2007-05-15 Cisco Technology, Inc. Apparatus and methods for providing network-based information suitable for audio output
US7653744B2 (en) * 2000-06-12 2010-01-26 At&T Mobility Ii Llc Method and apparatus for sharing wireless content
FR2810823A1 (fr) * 2000-06-27 2001-12-28 Canecaude Emmanuel De Systeme et procede pour transmettre des informations selon un protocole pour des applications sans fil, et equipement de communication mobile adapte
US6598021B1 (en) * 2000-07-13 2003-07-22 Craig R. Shambaugh Method of modifying speech to provide a user selectable dialect
US7143039B1 (en) * 2000-08-11 2006-11-28 Tellme Networks, Inc. Providing menu and other services for an information processing system using a telephone or other audio interface
US7308408B1 (en) 2000-07-24 2007-12-11 Microsoft Corporation Providing services for an information processing system using an audio interface
FI20001918A (fi) 2000-08-30 2002-03-01 Nokia Corp Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä
US7376769B1 (en) * 2000-09-14 2008-05-20 Intel Corporation Wireless computing device having an application and wireless subsystem and method therefore
US7240006B1 (en) * 2000-09-27 2007-07-03 International Business Machines Corporation Explicitly registering markup based on verbal commands and exploiting audio context
JP2002116796A (ja) * 2000-10-11 2002-04-19 Canon Inc 音声処理装置、音声処理方法及び記憶媒体
US6901270B1 (en) * 2000-11-17 2005-05-31 Symbol Technologies, Inc. Apparatus and method for wireless communication
US6915262B2 (en) * 2000-11-30 2005-07-05 Telesector Resources Group, Inc. Methods and apparatus for performing speech recognition and using speech recognition results
US8135589B1 (en) 2000-11-30 2012-03-13 Google Inc. Performing speech recognition over a network and using speech recognition results
US6823306B2 (en) 2000-11-30 2004-11-23 Telesector Resources Group, Inc. Methods and apparatus for generating, updating and distributing speech recognition models
JP2002181552A (ja) * 2000-12-11 2002-06-26 Nippon Telegr & Teleph Corp <Ntt> サーバ型ナビゲーションシステム
US20020086719A1 (en) * 2000-12-29 2002-07-04 Pankaj Kedia Low power subsystem for portable computers
US20020097692A1 (en) * 2000-12-29 2002-07-25 Nokia Mobile Phones Ltd. User interface for a mobile station
US7725748B1 (en) 2000-12-29 2010-05-25 Intel Corporation Low power subsystem for portable computers
JPWO2002060165A1 (ja) * 2001-01-25 2004-05-27 三菱電機株式会社 所定の言語により通信するシステムに用いられるサーバ、端末、および通信方法
FR2820872B1 (fr) * 2001-02-13 2003-05-16 Thomson Multimedia Sa Procede, module, dispositif et serveur de reconnaissance vocale
US20020110246A1 (en) * 2001-02-14 2002-08-15 Jason Gosior Wireless audio system
US6754627B2 (en) * 2001-03-01 2004-06-22 International Business Machines Corporation Detecting speech recognition errors in an embedded speech recognition system
GB0107755D0 (en) * 2001-03-28 2001-05-16 Argo Interactive Group Plc Method of automatically enhancing browser interactivity
US6832196B2 (en) * 2001-03-30 2004-12-14 International Business Machines Corporation Speech driven data selection in a voice-enabled program
US7698228B2 (en) * 2001-04-27 2010-04-13 Accenture Llp Tracking purchases in a location-based services system
US7437295B2 (en) * 2001-04-27 2008-10-14 Accenture Llp Natural language processing for a location-based services system
US7970648B2 (en) * 2001-04-27 2011-06-28 Accenture Global Services Limited Advertising campaign and business listing management for a location-based services system
US6944447B2 (en) * 2001-04-27 2005-09-13 Accenture Llp Location-based services
US6848542B2 (en) * 2001-04-27 2005-02-01 Accenture Llp Method for passive mining of usage information in a location-based services system
US6601762B2 (en) * 2001-06-15 2003-08-05 Koninklijke Philips Electronics N.V. Point-of-sale (POS) voice authentication transaction system
US7058575B2 (en) * 2001-06-27 2006-06-06 Intel Corporation Integrating keyword spotting with graph decoder to improve the robustness of speech recognition
KR100412474B1 (ko) * 2001-06-28 2003-12-31 유승혁 음성인식과 원격지 전화번호부 서버를 이용한 유선전화와 모바일폰의 전화번호부 시스템 및 관리 방법
US7609829B2 (en) * 2001-07-03 2009-10-27 Apptera, Inc. Multi-platform capable inference engine and universal grammar language adapter for intelligent voice application execution
US20030007609A1 (en) * 2001-07-03 2003-01-09 Yuen Michael S. Method and apparatus for development, deployment, and maintenance of a voice software application for distribution to one or more consumers
US20030023431A1 (en) * 2001-07-26 2003-01-30 Marc Neuberger Method and system for augmenting grammars in distributed voice browsing
US20030078775A1 (en) * 2001-10-22 2003-04-24 Scott Plude System for wireless delivery of content and applications
US7162414B2 (en) * 2001-12-07 2007-01-09 Intel Corporation Method and apparatus to perform speech recognition over a data channel
US20030120493A1 (en) * 2001-12-21 2003-06-26 Gupta Sunil K. Method and system for updating and customizing recognition vocabulary
US7013275B2 (en) * 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
US6898567B2 (en) * 2001-12-29 2005-05-24 Motorola, Inc. Method and apparatus for multi-level distributed speech recognition
US20030144846A1 (en) * 2002-01-31 2003-07-31 Denenberg Lawrence A. Method and system for modifying the behavior of an application based upon the application's grammar
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
US20030220784A1 (en) * 2002-05-24 2003-11-27 International Business Machines Corporation System and method for automated voice message transcription and delivery
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US20050149331A1 (en) * 2002-06-14 2005-07-07 Ehrilich Steven C. Method and system for developing speech applications
US6910911B2 (en) 2002-06-27 2005-06-28 Vocollect, Inc. Break-away electrical connector
US20040006477A1 (en) * 2002-07-05 2004-01-08 Craner Michael L. Voice-controllable communication gateway for controlling multiple electronic and information appliances
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7464035B2 (en) * 2002-07-24 2008-12-09 Robert Bosch Corporation Voice control of home automation systems via telephone
US7259906B1 (en) 2002-09-03 2007-08-21 Cheetah Omni, Llc System and method for voice control of medical devices
US7421390B2 (en) * 2002-09-13 2008-09-02 Sun Microsystems, Inc. Method and system for voice control of software applications
US20040128136A1 (en) * 2002-09-20 2004-07-01 Irani Pourang Polad Internet voice browser
EP1576769A4 (en) * 2002-11-13 2011-08-31 Intel Corp MULTIMODE WEB INTERACTION ON A WIRELESS NETWORK
US6834265B2 (en) 2002-12-13 2004-12-21 Motorola, Inc. Method and apparatus for selective speech recognition
CN100346625C (zh) * 2002-12-27 2007-10-31 联想(北京)有限公司 一种电话语音交互系统及其实现方法
US7076428B2 (en) * 2002-12-30 2006-07-11 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US7197331B2 (en) * 2002-12-30 2007-03-27 Motorola, Inc. Method and apparatus for selective distributed speech recognition
JP4337027B2 (ja) * 2003-05-08 2009-09-30 日本電気株式会社 携帯電話機
US7243072B2 (en) * 2003-06-27 2007-07-10 Motorola, Inc. Providing assistance to a subscriber device over a network
US20050010418A1 (en) * 2003-07-10 2005-01-13 Vocollect, Inc. Method and system for intelligent prompt control in a multimodal software application
US20050010892A1 (en) * 2003-07-11 2005-01-13 Vocollect, Inc. Method and system for integrating multi-modal data capture device inputs with multi-modal output capabilities
EP1661124A4 (en) * 2003-09-05 2008-08-13 Stephen D Grody PROCESSES AND DEVICES FOR PROVIDING SERVICES THROUGH THE USE OF LANGUAGE IDENTIFICATION
US20050109052A1 (en) * 2003-09-30 2005-05-26 Albers Walter F. Systems and methods for conditioning air and transferring heat and mass between airflows
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system
US20050078620A1 (en) * 2003-10-10 2005-04-14 Kumar Balachandran Mobile-terminal gateway
US7697673B2 (en) * 2003-11-17 2010-04-13 Apptera Inc. System for advertisement selection, placement and delivery within a multiple-tenant voice interaction service system
US20050163136A1 (en) * 2003-11-17 2005-07-28 Leo Chiu Multi-tenant self-service VXML portal
US7424433B2 (en) * 2003-12-12 2008-09-09 International Business Machines Corporation Method and system for dynamic conditional interaction in a VoiceXML run-time simulation environment
KR100600522B1 (ko) * 2003-12-16 2006-07-13 에스케이 주식회사 상담원과 음성 인식 엔진을 이용한 품질보장형 콜라우팅시스템 및 그 방법
US7668720B2 (en) * 2004-02-20 2010-02-23 Vangard Voice Systems, Inc. Methodology for voice enabling applications
US20080154601A1 (en) * 2004-09-29 2008-06-26 Microsoft Corporation Method and system for providing menu and other services for an information processing system using a telephone or other audio interface
TWI251754B (en) * 2004-12-16 2006-03-21 Delta Electronics Inc Method for optimizing loads of speech/user recognition system
US7627638B1 (en) * 2004-12-20 2009-12-01 Google Inc. Verbal labels for electronic messages
TWI276046B (en) * 2005-02-18 2007-03-11 Delta Electronics Inc Distributed language processing system and method of transmitting medium information therefore
JP4622611B2 (ja) * 2005-03-24 2011-02-02 ソニー株式会社 信号処理装置
JP2007033901A (ja) * 2005-07-27 2007-02-08 Nec Corp 音声認識システム、音声認識方法、および音声認識用プログラム
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) * 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US8249873B2 (en) 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
US9866697B2 (en) 2005-08-19 2018-01-09 Nexstep, Inc. Consumer electronic registration, control and support concierge device and method
US20070050188A1 (en) * 2005-08-26 2007-03-01 Avaya Technology Corp. Tone contour transformation of speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
EP1934971A4 (en) * 2005-08-31 2010-10-27 Voicebox Technologies Inc DYNAMIC LANGUAGE SCRIPTURE
JP2007065347A (ja) * 2005-08-31 2007-03-15 Denso Corp 音声認識システム
US7519253B2 (en) 2005-11-18 2009-04-14 Omni Sciences, Inc. Broadband or mid-infrared fiber light sources
US20070136072A1 (en) * 2005-12-14 2007-06-14 Symbol Technologies, Inc. Interactive voice browsing for mobile devices on wireless networks
US20070135096A1 (en) * 2005-12-14 2007-06-14 Symbol Technologies, Inc. Interactive voice browsing server for mobile devices on wireless networks
US9008075B2 (en) 2005-12-22 2015-04-14 Genesys Telecommunications Laboratories, Inc. System and methods for improving interaction routing performance
US7496693B2 (en) * 2006-03-17 2009-02-24 Microsoft Corporation Wireless enabled speech recognition (SR) portable device including a programmable user trained SR profile for transmission to external SR enabled PC
US20070225976A1 (en) * 2006-03-21 2007-09-27 Hong-Yung Wang Method of producing speech files
US20080086311A1 (en) * 2006-04-11 2008-04-10 Conwell William Y Speech Recognition, and Related Systems
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
EP1933302A1 (en) * 2006-12-12 2008-06-18 Harman Becker Automotive Systems GmbH Speech recognition method
US20080153465A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Voice search-enabled mobile device
US20080154612A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Local storage and use of search results for voice-enabled mobile communications devices
US20080154870A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Collection and use of side information in voice-mediated mobile search
US20080154608A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. On a mobile device tracking use of search results delivered to the mobile device
US7818176B2 (en) * 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US20080208594A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Effecting Functions On A Multimodal Telephony Device
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8386260B2 (en) * 2007-12-31 2013-02-26 Motorola Mobility Llc Methods and apparatus for implementing distributed multi-modal applications
US8370160B2 (en) * 2007-12-31 2013-02-05 Motorola Mobility Llc Methods and apparatus for implementing distributed multi-modal applications
US8607324B2 (en) * 2008-01-15 2013-12-10 Microsoft Corporation Untrusted gaming system access to online gaming service
US8689203B2 (en) * 2008-02-19 2014-04-01 Microsoft Corporation Software update techniques based on ascertained identities
USD626949S1 (en) 2008-02-20 2010-11-09 Vocollect Healthcare Systems, Inc. Body-worn mobile device
US20090248397A1 (en) * 2008-03-25 2009-10-01 Microsoft Corporation Service Initiation Techniques
US9201527B2 (en) * 2008-04-04 2015-12-01 Microsoft Technology Licensing, Llc Techniques to remotely manage a multimedia conference event
US20090271106A1 (en) * 2008-04-23 2009-10-29 Volkswagen Of America, Inc. Navigation configuration for a motor vehicle, motor vehicle having a navigation system, and method for determining a route
US20090271200A1 (en) * 2008-04-23 2009-10-29 Volkswagen Group Of America, Inc. Speech recognition assembly for acoustically controlling a function of a motor vehicle
US8589161B2 (en) * 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
DE102008046431A1 (de) * 2008-09-09 2010-03-11 Deutsche Telekom Ag Sprachdialogsystem mit Reject-Vermeidungsverfahren
US20100070863A1 (en) * 2008-09-16 2010-03-18 International Business Machines Corporation method for reading a screen
US8386261B2 (en) 2008-11-14 2013-02-26 Vocollect Healthcare Systems, Inc. Training/coaching system for a voice-enabled work environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US11012732B2 (en) * 2009-06-25 2021-05-18 DISH Technologies L.L.C. Voice enabled media presentation systems and methods
JP5697860B2 (ja) * 2009-09-09 2015-04-08 クラリオン株式会社 情報検索装置,情報検索方法及びナビゲーションシステム
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US8868427B2 (en) * 2009-12-11 2014-10-21 General Motors Llc System and method for updating information in electronic calendars
US20110141855A1 (en) * 2009-12-11 2011-06-16 General Motors Llc System and method for updating information in electronic calendars
WO2011084863A2 (en) 2010-01-07 2011-07-14 Cheetah Omni, Llc Fiber lasers and mid-infrared light sources in methods and systems for selective biological tissue processing and spectroscopy
US20110184740A1 (en) * 2010-01-26 2011-07-28 Google Inc. Integration of Embedded and Network Speech Recognizers
US20150279354A1 (en) * 2010-05-19 2015-10-01 Google Inc. Personalization and Latency Reduction for Voice-Activated Commands
US10115392B2 (en) * 2010-06-03 2018-10-30 Visteon Global Technologies, Inc. Method for adjusting a voice recognition system comprising a speaker and a microphone, and voice recognition system
US8659397B2 (en) 2010-07-22 2014-02-25 Vocollect, Inc. Method and system for correctly identifying specific RFID tags
USD643400S1 (en) 2010-08-19 2011-08-16 Vocollect Healthcare Systems, Inc. Body-worn mobile device
USD643013S1 (en) 2010-08-20 2011-08-09 Vocollect Healthcare Systems, Inc. Body-worn mobile device
US9600135B2 (en) 2010-09-10 2017-03-21 Vocollect, Inc. Multimodal user notification system to assist in data capture
US9953643B2 (en) * 2010-12-23 2018-04-24 Lenovo (Singapore) Pte. Ltd. Selective transmission of voice data
WO2013012107A1 (ko) 2011-07-19 2013-01-24 엘지전자 주식회사 전자 기기 및 그 제어 방법
JP5928048B2 (ja) 2012-03-22 2016-06-01 ソニー株式会社 情報処理装置、情報処理方法、情報処理プログラムおよび端末装置
KR20140054643A (ko) * 2012-10-29 2014-05-09 삼성전자주식회사 음성인식장치 및 음성인식방법
US9691377B2 (en) 2013-07-23 2017-06-27 Google Technology Holdings LLC Method and device for voice recognition training
KR20140058127A (ko) * 2012-11-06 2014-05-14 삼성전자주식회사 음성인식장치 및 음성인식방법
US9070367B1 (en) * 2012-11-26 2015-06-30 Amazon Technologies, Inc. Local speech recognition of frequent utterances
RU2530268C2 (ru) 2012-11-28 2014-10-10 Общество с ограниченной ответственностью "Спиктуит" Способ обучения информационной диалоговой системы пользователем
WO2014143276A2 (en) 2012-12-31 2014-09-18 Omni Medsci, Inc. Short-wave infrared super-continuum lasers for natural gas leak detection, exploration, and other active remote sensing applications
EP2938262A4 (en) 2012-12-31 2016-08-24 Omni Medsci Inc SHORT-WAVE INFRARED SUPER CONTINUOUS LASER FOR THE EARLY RECOGNITION OF CARIES
WO2014105520A1 (en) 2012-12-31 2014-07-03 Omni Medsci, Inc. Near-infrared lasers for non-invasive monitoring of glucose, ketones, hba1c, and other blood constituents
US10660526B2 (en) 2012-12-31 2020-05-26 Omni Medsci, Inc. Near-infrared time-of-flight imaging using laser diodes with Bragg reflectors
US9993159B2 (en) 2012-12-31 2018-06-12 Omni Medsci, Inc. Near-infrared super-continuum lasers for early detection of breast and other cancers
US9500635B2 (en) 2012-12-31 2016-11-22 Omni Medsci, Inc. Short-wave infrared super-continuum lasers for early detection of dental caries
KR20140089861A (ko) * 2013-01-07 2014-07-16 삼성전자주식회사 디스플레이 장치 및 그의 제어 방법
CN103971686B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 自动语音识别方法和系统
US9275638B2 (en) 2013-03-12 2016-03-01 Google Technology Holdings LLC Method and apparatus for training a voice recognition model database
DE102013006173A1 (de) * 2013-04-10 2014-10-16 Audi Ag Verfahren und Vorrichtung zur proaktiven Dialogführung
US9548047B2 (en) 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
US10192557B2 (en) 2013-08-26 2019-01-29 Samsung Electronics Co., Ltd Electronic device and method for voice recognition using a plurality of voice recognition engines
CN104423980B (zh) * 2013-08-26 2018-12-14 联想(北京)有限公司 信息处理方法和信息处理设备
DE102014200570A1 (de) * 2014-01-15 2015-07-16 Bayerische Motoren Werke Aktiengesellschaft Verfahren und System zur Erzeugung eines Steuerungsbefehls
KR102215579B1 (ko) * 2014-01-22 2021-02-15 삼성전자주식회사 대화형 시스템, 디스플레이 장치 및 그 제어 방법
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
US10210003B2 (en) * 2014-09-30 2019-02-19 Nuance Communications, Inc. Methods and apparatus for module arbitration
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10199041B2 (en) 2014-12-30 2019-02-05 Honeywell International Inc. Speech recognition systems and methods for maintenance repair and overhaul
US10388277B1 (en) * 2015-06-25 2019-08-20 Amazon Technologies, Inc. Allocation of local and remote resources for speech processing
US9997155B2 (en) * 2015-09-09 2018-06-12 GM Global Technology Operations LLC Adapting a speech system to user pronunciation
CN105681444A (zh) * 2016-02-02 2016-06-15 优听无限传媒科技(北京)有限责任公司 智能终端远程控制目标wifi音箱的方法
US20170330564A1 (en) * 2016-05-13 2017-11-16 Bose Corporation Processing Simultaneous Speech from Distributed Microphones
JP6744025B2 (ja) * 2016-06-21 2020-08-19 日本電気株式会社 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10332523B2 (en) 2016-11-18 2019-06-25 Google Llc Virtual assistant identification of nearby computing devices
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
US20180213396A1 (en) * 2017-01-20 2018-07-26 Essential Products, Inc. Privacy control in a connected environment based on speech characteristics
US10547729B2 (en) 2017-03-27 2020-01-28 Samsung Electronics Co., Ltd. Electronic device and method of executing function of electronic device
KR102416782B1 (ko) * 2017-03-28 2022-07-05 삼성전자주식회사 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
US10572220B2 (en) * 2017-04-12 2020-02-25 American Megatrends International, Llc Method for controlling controller and host computer with voice
KR102309031B1 (ko) * 2017-04-27 2021-10-06 삼성전자 주식회사 지능형 에이전트 관리 방법 및 장치
US10522146B1 (en) * 2019-07-09 2019-12-31 Instreamatic, Inc. Systems and methods for recognizing and performing voice commands during advertisement
KR102445382B1 (ko) * 2017-07-10 2022-09-20 삼성전자주식회사 음성 처리 방법 및 이를 지원하는 시스템
US10665234B2 (en) * 2017-10-18 2020-05-26 Motorola Mobility Llc Detecting audio trigger phrases for a voice recognition session
US10679620B2 (en) * 2018-03-06 2020-06-09 GM Global Technology Operations LLC Speech recognition arbitration logic
CN108831475B (zh) * 2018-05-24 2020-09-29 广州市千钧网络科技有限公司 一种文本消息提取方法及系统
US11935539B1 (en) * 2019-01-31 2024-03-19 Alan AI, Inc. Integrating voice controls into applications
US11955120B1 (en) 2019-01-31 2024-04-09 Alan AI, Inc. Systems and methods for integrating voice controls into applications
CA3143946A1 (en) * 2019-12-10 2021-06-17 Rovi Guides, Inc. Systems and methods for interpreting a voice query
JP2023527398A (ja) * 2020-05-27 2023-06-28 ジェンテックス コーポレイション モーメントキャプチャーシステム
US11776537B1 (en) * 2022-12-07 2023-10-03 Blue Lakes Technology, Inc. Natural language processing system for context-specific applier interface

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3397372B2 (ja) 1993-06-16 2003-04-14 キヤノン株式会社 音声認識方法及び装置
ZA948426B (en) 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
DE4440598C1 (de) * 1994-11-14 1996-05-23 Siemens Ag Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
JPH1078952A (ja) * 1996-07-29 1998-03-24 Internatl Business Mach Corp <Ibm> 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置
US5799063A (en) * 1996-08-15 1998-08-25 Talk Web Inc. Communication system and method of providing access to pre-recorded audio messages via the Internet
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US5926789A (en) * 1996-12-19 1999-07-20 Bell Communications Research, Inc. Audio-based wide area information system
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
US6122613A (en) 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6094476A (en) * 1997-03-24 2000-07-25 Octel Communications Corporation Speech-responsive voice messaging system and method
GB2323693B (en) 1997-03-27 2001-09-26 Forum Technology Ltd Speech to text conversion
US5884266A (en) * 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US5924070A (en) * 1997-06-06 1999-07-13 International Business Machines Corporation Corporate voice dialing with shared directories
GB2333416A (en) * 1998-01-17 1999-07-21 Ibm Text and speech conversion in telephony network

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007511111A (ja) * 2003-10-10 2007-04-26 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 移動体端末のゲートウェイ
KR101309794B1 (ko) * 2012-06-27 2013-09-23 삼성전자주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템

Also Published As

Publication number Publication date
MY117070A (en) 2004-04-30
AU1422000A (en) 2000-05-08
BR9914583A (pt) 2001-07-03
CN1158645C (zh) 2004-07-21
CN1329739A (zh) 2002-01-02
US6185535B1 (en) 2001-02-06
WO2000023985A1 (en) 2000-04-27
EP1129449A1 (en) 2001-09-05

Similar Documents

Publication Publication Date Title
JP2002528804A (ja) サービスアプリケーションに対するユーザインタフェースの音声制御
US9761241B2 (en) System and method for providing network coordinated conversational services
US8654940B2 (en) Dialect translator for a speech application environment extended for interactive text exchanges
EP1125279B1 (en) System and method for providing network coordinated conversational services
US8886540B2 (en) Using speech recognition results based on an unstructured language model in a mobile communication facility application
US6738743B2 (en) Unified client-server distributed architectures for spoken dialogue systems
US8838457B2 (en) Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8949130B2 (en) Internal and external speech recognition use with a mobile communication facility
US10056077B2 (en) Using speech recognition results based on an unstructured language model with a music system
US8874447B2 (en) Inferring switching conditions for switching between modalities in a speech application environment extended for interactive text exchanges
US8880405B2 (en) Application text entry in a mobile environment using a speech processing facility
US20070043868A1 (en) System and method for searching for network-based content in a multi-modal system using spoken keywords
US20090030687A1 (en) Adapting an unstructured language model speech recognition system based on usage
US20090030685A1 (en) Using speech recognition results based on an unstructured language model with a navigation system
US20080221899A1 (en) Mobile messaging environment speech processing facility
US20090030688A1 (en) Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application
US20090030691A1 (en) Using an unstructured language model associated with an application of a mobile communication facility
US20080312934A1 (en) Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility
US20020077814A1 (en) Voice recognition system method and apparatus

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20061205