JP2002528804A

JP2002528804A - サービスアプリケーションに対するユーザインタフェースの音声制御

Info

Publication number: JP2002528804A
Application number: JP2000577652A
Authority: JP
Inventors: ヘディン、ヤン、スヴェルカー; マイヤー、ベルンハルト、カルビン
Original assignee: テレフオンアクチーボラゲツトエルエムエリクソン（パブル）
Priority date: 1998-10-16
Filing date: 1999-10-05
Publication date: 2002-09-03
Also published as: MY117070A; AU1422000A; BR9914583A; CN1158645C; CN1329739A; US6185535B1; WO2000023985A1; EP1129449A1

Abstract

(57)【要約】遠隔サーバから端末へ供給されたサービスアプリケーションの音声制御は、端末と遠隔アプリケーション部分とに分散される。所定のマークアップ言語によって定められた端末機能に関連する、ユーザから供給されたオーディオ入力の部分を認識するための比較的低能力の自動音声認識システム（ＡＳＲ）が端末に備えられる。認識されたワードは、端末機能を制御するために用いられ、または、テキストに変換されて遠隔サーバへ送られる。オーディオ入力の非認識部分は、コード化され、もっと強力なＡＳＲを含む遠隔アプリケーション部分へ送られる。遠隔アプリケーション部分は、そのＡＳＲを用いて、アプリケーションによって定められたワードを認識する。認識されたワードは、テキストに変換され、遠隔サーバへ入力として供給される。逆方向では、遠隔アプリケーション部分が遠隔サーバから受取ったテキストは、コード化オーディオ出力信号に変換されて端末へ送られ、端末は次にスピーカへ供給されるべき信号を発生する。このようにして、遠隔サーバの視覚ディスプレイ出力およびキーボード入力の代わりに音声制御機構が用いられる。

Description

【発明の詳細な説明】

【０００１】（背景）本発明は、一般的には、サービスアプリケーションの制御に関し、特に、サー
ビスアプリケーションの音声制御に関し、さらに特には、遠隔端末からのサービ
スアプリケーションの音声制御に関する。

【０００２】最も一般的なタイプのインタネットアクセス用端末は、大形の高解像度ディス
プレイと比較的に高いデータ伝送帯域幅とを有する通常のパーソナルコンピュー
タ（ＰＣ）端末である。ユーザがインタネット接続を用いて遠隔位置にあるサー
ビスアプリケーションを制御しようとするときは、ユーザは、一般的に、ＰＣ端
末に関連するキーボードを用い、指令をタイプする。このデータはインタネット
を経てサービスアプリケーションへ通信され、その後、サービスアプリケーショ
ンはそれに対応して応答することができる。ユーザのＰＣ端末ディスプレイは、
ユーザが容易に観察できるテキストおよび／またはグラフィックスの形式で応答
情報を表示する。

【０００３】無線マークアップ言語（ＷＭＬ）を用いた無線アプリケーションプロトコル（
ＷＡＰ）の最近の標準化は、小形ディスプレイと制限された処理能力と低い伝送
帯域幅とを有する端末（例えば、ディジタルセルラ電話機および端末）がインタ
ネットのようなサービスネットワークにおけるサービスおよびコンテンツにアク
セスし制御することを可能にした。ＷＡＰは、ネットワーク層（例えば、トラン
スポート層およびセッション層）とマイクロブラウザ，スクリプティング，電話
付加価値サービスおよびコンテンツフォーマットを含むアプリケーション環境と
を含む階層化された通信プロトコルである。ＷＭＬにおける簡単なシンタックス
および制限された語彙は、ＷＡＰを、低い処理能力およびディスプレイ能力を有
するクライアント端末からサービスを制御しコンテンツと対話するのに適切であ
るようにする。

【０００４】これらの小形端末を用いる能力は（これらをさまざまな旅行に容易に携帯でき
る）ユーザにとって大いに便利なものであるが、小形ディスプレイから選択メニ
ューおよび他の大量のテキスト（例えば、ｅメールおよびヘルプテキスト）を読
取り、また、それに応答して多機能キーを有する小形キーボード上でタイピング
することは、いくつかの欠点を有する。これらの欠点は、サービスアプリケーシ
ョンに対する音声制御インタフェースの置換により大幅に克服されかもしれない
。音声制御インタフェースはまた、ユーザが自動車を運転しているときに必要と
するようなサービスアプリケーションの「ハンドフリー」操作を提供するにも有
用である。

【０００５】自動音声認識システム（ＡＳＲ）は公知である。音声制御アプリケーションを
サポートするＡＳＲは、中央サーバにおけるユーザ共用リソースまたはクライア
ント端末におけるリソースであるかもしれない。簡単なＡＳＲは、ワード間に休
止を有する孤立ワードを認識するが、高級なＡＳＲは連結ワードを認識できる。
ＡＳＲの複雑さは、アプリケーションとのダイアログの特定の場合に認識されな
ければならない語彙の大きさとともに増大する。

【０００６】ＡＳＲが中央サーバで実現されるとすれば、それは、異なる言語，訛りおよび
アクセントを有する多くのユーザを認識できなければならない。従来の不特定話
者音声認識システムは、通常は、極めて制限された語彙（例えば、「はい」，「
いいえ」，「１つ」，「２つ」など）を有する単一ワードＡＳＲを用いて、必要
な処理の量を減らし、また、失敗率を低く保つ。認識の正確さを改善する別の代
替案は、各ユーザ個人の音声について認識装置を訓練したり、誤解されたワード
を繰返したり綴ってもらうことをユーザに頼むことによって、音声認識をユーザ
に適応させることである。多ユーザ環境においては、各ユーザのプロファイルが
記憶されなければならない。

【０００７】端末に音声認識装置を備えることは一人のユーザ（または、極めて少数のユー
ザ）を認識しなければならないだけなので、適応訓練を用いることができる。組
合せワードＡＳＲに必要な処理は、端末で行うためには大規模になり過ぎる。例
えば、（セルラ電話システム，パーソナルディジタルアシスタントおよび専用無
線端末に用いられているもののような）今日の移動体端末の処理能力は、（例え
ば、端末に記憶されている個人電話番号簿をダイヤルしたりアクセスしたりする
ための）小語彙を有する孤立ワードＡＳＲを実現するのに十分である。新しいワ
ードを語彙に追加するには、訓練が必要であるかもしれない。

【０００８】現在の中央サーバＡＳＲに存在する問題は、端末と音声認識を行うゲートウェ
イまたはサーバとの間に音声チャネル（音声呼）が確立されなければならないこ
とである。しかし、音声チャネルは、認識性能を劣化させる歪，エコーおよび雑
音を導入するかもしれない。

【０００９】中央ＡＳＲはまた、認識プロセスにおける失敗率を低下させるために、高い処
理能力と大きいデータベースと個々の音声および訛りのための適応訓練能力とを
必要とする高価で制限されたネットワークリソースである。それは制限されたリ
ソースであるので、中央サーバまたはゲートウェイは、ダイアルアップ音声チャ
ネルアクセス能力を備える必要があるかもしれない。

【００１０】新世代のＷＡＰ支援移動体端末は、多種類のサービスおよびコンテンツを制御
できるとともにそれらと対話できるであろう。しかし、端末ディスプレイおよび
キーボードは典型的には極めて制限された入出力（Ｉ／Ｏ）能力を有し、そのた
め、音声制御インタフェースが所望されることになる。上述したように、今日の
低コスト端末は、あるＡＳＲ能力をサポートできるが、これは、大きい語彙また
は各アプリケーション用の認識装置の時間のかかる訓練を必要とする多ユーザア
プリケーションサーバへの音声アクセスをサポートするためには不十分である。

【００１１】（要約）したがって、本発明の目的は、比較的低能力端末が音声制御インタフェースを
経て遠隔サーバアプリケーションをアクセスし制御することを可能にする方法お
よび装置を提供することにある。

【００１２】上述の目的およびその他の目的は、遠隔サーバから端末へ供給されるサービス
アプリケーションを制御する方法および装置で達成される。本発明の一態様によ
れば、これは、オーディオ情報を表すオーディオ入力信号を受取り、端末内に配
置された第１の自動音声認識システムを用いて、オーディオ入力信号が第１の語
彙によって定められた１つ以上のワードを含むかどうかを決定し、ここで、第１
の語彙によって定められた１つ以上のワードに対応しないオーディオ入力信号の
部分がオーディオ入力信号の非認識部分を構成することによって、達成される。
オーディオ入力信号が第１の語彙によって定められた１つ以上のワードを含めば
、アプリケーションプロトコルサービス論理の端末アプリケーション部分が、第
１の語彙によって定められた１つ以上のワードをどのように処理すべきかを決定
するのに用いられる。オーディオ入力信号の非認識部分は、第１の所定のマーク
アップ言語によって定められた構造を有するデータユニットに含まれるようにフ
ォーマットされる。データユニットは、第１のアプリケーションプロトコルに従
って動作する第１のディジタルデータリンクを介して遠隔アプリケーション部分
へ通信される。遠隔アプリケーション部分では、オーディオ入力信号のフォーマ
ットされた非認識部分がデータユニットから抽出される。次に、遠隔アプリケー
ション部分のサービス論理が用いられて、オーディオ入力信号のフォーマットさ
れた非認識部分をどのように処理すべきかが決定される。

【００１３】本発明の他の態様によれば、オーディオ入力信号は、圧縮されたディジタルコ
ード化音声の形式である。本発明のさらに他の態様によれば、オーディオ入力信号が第１の語彙によって
定められた１つ以上のワードを含めば、アプリケーションプロトコルサービス論
理の端末アプリケーション部分は、行われるべき１つ以上の端末機能を選択する
ためにその１つ以上のワードが用いられるようにする。

【００１４】本発明のなお他の態様によれば、１つ以上の端末機能は、遠隔サーバへ供給さ
れるべき応答として現在のメニューアイテムを選択することを含む。本発明のさらに他の態様によれば、現在のメニューアイテムは、第１の選択に
関連しており、１つ以上の端末機能は、現在のメニューアイテムを第１の選択と
同じでない第２の選択に関連させることを含む。

【００１５】本発明のなお他の態様によれば、オーディオ入力信号が第１の語彙によって定
められた１つ以上のワードを含めば、アプリケーションプロトコルサービス論理
の端末アプリケーション部分は、対応するメッセージを発生させ、それを第１の
ディジタルデータリンクを経て遠隔アプリケーション部分へ通信させる。いくつ
かの実施例では、この対応するメッセージは、状態情報，テキストまたは２進デ
ータを含む。

【００１６】本発明のさらに他の態様によれば、遠隔アプリケーション部分は、対応するメ
ッセージを遠隔サーバへ送る。本発明のなお他の態様によれば、遠隔アプリケーション部分は、対応するメッ
セージを第２のアプリケーションプロトコルに従って動作する第２のディジタル
データリンクを経て遠隔サーバへ送る。第１のアプリケーションプロトコルは、
第２のアプリケーションプロトコルと同じであってもよいが、同じである必要は
ない。

【００１７】本発明のさらに他の態様によれば、遠隔アプリケーション部分に配置された第
２の自動音声認識システムを用いて、オーディオ入力信号の非認識部分が第２の
語彙によって定められた１つ以上のワードを含むかどうかを決定する。オーディ
オ入力信号の非認識部分が第２の語彙によって定められた１つ以上のワードを含
めば、遠隔アプリケーション部分のサービス論理は、第２の語彙によって定めら
れた１つ以上のワードをどのように処理すべきかを決定するために用いられる。

【００１８】本発明のなお他の態様によれば、第１の語彙は、第１の所定のマークアップ言
語のシンタックスによって定められたワードをもっぱら含み、第２の語彙は、遠
隔サーバに関連するワードをもっぱら含む。

【００１９】本発明のさらに他の態様によれば、オーディオ入力信号の非認識部分が第２の
語彙によって定められた１つ以上のワードを含めば、遠隔アプリケーション部分
のサービス論理は、対応するキーボードエミュレーション応答を発生させ遠隔サ
ーバへ送らせる。

【００２０】本発明の他の態様によれば、オーディオ入力信号の非認識部分が第２の語彙に
よって定められた１つ以上のワードを含めば、遠隔アプリケーション部分のサー
ビス論理は、遠隔アプリケーション部分サービス論理状態を変化させる。

【００２１】本発明のなお他の態様によれば、遠隔アプリケーション部分は、遠隔サーバか
らテキストを受取り、オーディオ情報を表す対応するオーディオ出力信号を発生
する。オーディオ出力信号は、第１の所定のマークアップ言語によって定められ
た構造を有する第２のデータユニットに含まれるようにフォーマットされる。第
２のデータユニットは、第１のディジタルデータリンクを経て端末へ通信される
。端末では、オーディオ出力信号が第２のデータユニットから抽出され、スピー
カ信号がそれから発生される。

【００２２】（詳細な説明）本発明の目的および利点は、図面と併せて以下の詳細な説明を読むことにより
理解されよう。ここで、本発明のさまざまな特徴を図面を参照しつつ説明するが、図面では、
同じ部品は同じ参照符号によって示されている。以下の説明では、比較的低能力
端末を遠隔アプリケーションにリンクさせるための基礎としてＷＡＰおよびＷＭ
Ｌ規格を用いている。しかし、これらの規格は例としてのみ用いられるものであ
ることと、ここで用いられている本発明の概念はこれら特定の規格に従って動作
しない他の環境においても同様に適用可能であることとを認識すべきである。

【００２３】本発明の一態様によれば、音声制御サービスアプリケーション（ＶＣＳＡ）の
構成要素は、端末に備えられた部分と遠隔設備に備えられた残りの部分とに分散
される。図１ａおよび図１ｂは、本発明のこの態様による分散ＶＣＳＡの代替の
実施例のブロック図である。図１ａでは、クライアント部分１０１は、第１のデ
ィジタルリンク１０５を経てサーバ部分１０３に結合されている。クライアント
部分１０１は端末に備えられ、一方、サーバ部分１０３は、遠隔位置に最もあり
そうな隔離されたプロセッサに備えられている。サーバ部分１０３がランするプ
ロセッサは、多くの実施例では、クライアント部分１０１がランする端末よりも
より強力（例えば、より高速、より大きい記憶空間など）である。クライアント
部分１０１とサーバ部分１０３とを結合する第１のディジタルリンク１０５は無
線であっても有線であってもよい。第１のディジタルリンク１０５を経て通信さ
れるデータは、好ましくは、ＷＭＬのような標準化されたマークアップ言語によ
って作成されたカードおよびスクリプト／ライブラリの形式である。代替の実施
例では、異なるマークアップ言語が代わりに用いられ得る。しかし、それぞれの
場合において、マークアップ言語は、端末の比較的低い処理能力および制限され
た入出力リソースによってサポートされ得るものであるべきである。ＷＭＬは、
ＷＡＰＵＲＬサービスを経てダウンロードされ得るそれのカードおよびスクリ
プト／ライブラリが今日の進歩した移動体ネットワークで利用可能なサービスを
改善し拡張するアプリケーションを作成するために用いられ得るので、無線移動
体端末での使用に好ましい。

【００２４】クライアント部分１０１は、少数（例えば、約５０まで）の孤立ワードを認識
できるもののような簡単なＡＳＲを含む。連続音声で供給される大語彙のワード
を認識できるようなもっと強力なＡＳＲはサーバ部分１０１に備えられる。動作
に際しては、クライアント部分１０１はユーザから音声を受ける。クライアント
部分１０１のＡＳＲは、ワードを孤立させ認識することを試みる。正しく認識さ
れたものに基づいて動作が行われる。認識されたワードの多くは、一般に、メニ
ューのスクロール，メニューアイテムの選択およびローカルに記憶された電話帳
のようなさまざまな端末リソースへのアクセスなどの端末におけるローカル機能
を制御するのに用いられる。他のワードは、サーバへ供給されるべきオペランド
（例えば、データ）として認識される。これらのワードについて、対応するテキ
ストが端末のメモリから検索される。次に、このテキストは第１のディジタルリ
ンク１０５を経てサーバ部分１０３へ送られる。そのテキストは、サーバ部分１
０３がそれをデータ入力として認識し適宜にそれを処理するようにフォーマット
される。

【００２５】クライアント部分１０１によって認識されなかったワードは、（例えば、多目
的インタネットメール拡張（ＭＩＭＥ）タイプとして）フォーマットされ、サー
バ部分１０３へ送られる。サーバ部分１０３は、これが非認識音声であることを
確認し、それ自身のもっと強力なＡＳＲを用いて受信音声を解析する。解析の後
、サーバ部分１０３はそれに応じて動作する。例えば、認識された音声はサーバ
アプリケーションを制御する指令から成るかもしれず、その場合には、その指令
に基づいて動作が行われる。認識された音声はまたサーバアプリケーション用の
データ入力を表すかもしれず、その場合には、それはそのようなものとして処理
される。ＡＳＲが供給された音声を認識できない場合には、それはコード化音声
をクライアント部分１０１へ送り返すような動作を行い、その後、クライアント
部分１０１はそのコード化音声をユーザに聞かせる。この場合のコード化音声は
、ユーザが非認識音声を繰返し綴るようにする要求音声であり得る。

【００２６】図１ｂに示されている代替の実施例では、サーバ部分１０３は、第２のディジ
タルリンク１１１によってサーバ１０９に結合されたゲートウェイ／代理部分１
０７によって置換されている。ゲートウェイ／代理部分１０７とサーバ１０９と
を結合する第２のディジタルリンク１１１は無線であっても有線であってもよい
。第２のディジタルリンク１１１を経て通信されるデータは、好ましくは、標準
化されたマークアップ言語によって作成されたカードおよびスクリプト／ライブ
ラリの形式であり、それは、第１のディジタルリンク１０５において用いられる
データフォーマットと同じであってもよいが、同じである必要はない。データフ
ォーマットが異なるときは、ゲートウェイ／代理部分１０７の１つの機能は、デ
ータを一方のフォーマットから他方のフォーマットへ変換することである。この
場合の変換は、キーワードを一方のフォーマットから他方のフォーマットへ（例
えば、ハイパーテキストマークアップ言語（ＨＴＭＬ）からＷＭＬへ）置き換え
るのみでなく、端末によって受信され得ないデータを除去するためにあるフィル
タリングのレベルをも変換する。例えば、サーバ１０９がインタネットを経てア
クセス可能なアプリケーションであれば、それは、比較的低能力端末上に表示さ
れ得ないグラフィック情報を含むＨＴＭＬウェブページを送る。この場合、ゲー
トウェイ／代理部分１０７は、そのようなデータを消去して適切なデータのみを
クライアント１０１へ送る必要がある。

【００２７】多くの実施例では、第１および第２のデータリンク１０５，１１１上で用いら
れるデータフォーマットは、共にＷＭＬフォーマットであるなど、同じであるで
あろう。そのような場合には、ゲートウェイ／代理部分１０７によって行われる
変換は、テキストを音声データで置換することとその逆を行うこととを含む。す
なわち、サーバ１０９は、ＰＣ画面上に表示されるべく意図された大形のテキス
トメニューの形式でデータを供給する。しかし、上述したように、比較的低能力
端末は、大形のメニューを表示することができず、かつ／または、そのような大
形メニューは、ユーザが小形端末画面上で読取ることは困難である。したがって
、本発明の一態様によれば、ゲートウェイ／代理部分１０７は、受信テキストを
（ＭＩＭＥフォーマット化データとして）クライアント部分１０１へ供給されて
ユーザに聞かされるオーディオに変換する。このようにして、ユーザは、可能な
選択を画面上で見る必要はなく、それらを聞くことができる。ユーザは、選択を
タイプするのではなく選択を話すことによって、その選択を行う。上述したよう
に、話されたテキストは、クライアント部分１０１のＡＳＲによって、または、
代わりにゲートウェイ／代理部分１０７のＡＳＲによって認識されてテキストへ
変換される。いずれの場合にも、このテキストは、次に、ゲートウェイ／代理部
分１０７によってサーバ１０９へ送られる。このようにして、サーバ１０９は、
特に音声インタフェースを取り扱うように構成される必要はない。実際に、この
構成では、音声インタフェースの存在はサーバ１０９に対し完全にトランスペア
レントであり、サーバ１０９はそれが送受信するテキストのみを知る。

【００２８】ここで、図２および図３に示されている代表的実施例を参照しつつ本発明を詳
述する。この代表的実施例のアーキテクチャは、図１ａおよび図１ｂに示されて
いるアーキテクチャと本質的に同じである。しかし、この実施例では、全システ
ムが、論理的に、４つの部分（端末部分（ＴＰ）２０３と端末アプリケーション
部分（ＴＡＰ）２０１と遠隔アプリケーション部分（ＲＡＰ）２０５と外部サー
ビスおよびコンテンツ（ＥＳＣ）部分２０７）に分割されている。ＴＰ２０３お
よびＴＡＰ２０１はＶＣＳＡのクライアント部分１０１を具現し、また、ＲＡＰ
２０５はＶＣＳＡのサーバ部分１０３またはゲートウェイ／代理部分１０７を具
現している。ＥＳＣ２０７はサーバ１０９に対応する。ここで、これらの構成要
素を詳述する。以下に説明するさまざまな構成要素は、個々には、公知である（
例えば、さまざまな記憶素子，マイクロホン，スピーカ）か、提供される高レベ
ルの説明に基づいて容易に構成され、したがって、高い詳細レベルでの説明の必
要はないことを理解すべきである。さまざまな実施例は、記憶されているプログ
ラムを実行して多くの機能（例えば、オーディオ特性の整合，プロトコルスタッ
クの保守など）を行う１つ以上のプログラム可能素子を用いる。別の実施例では
、これらは、代わりに、ハードワイヤード論理ゲートである。特定の具体化アプ
ローチが他のものよりも優れているかどうかは、考察下の特定のアプリケーショ
ンに依存し、したがって、本開示の範囲外のことである。

【００２９】ＴＰ２０３は、端末に備えられ、ＷＡＰ規格（または、別のアプリケーション
プロトコル）をサポートする。ＴＡＰインタフェース２０９は、ＴＡＰ２０１と
の対話を可能にし、ＴＡＰ２０１は音声対話とＷＡＰアプリケーションの制御と
をサポートする。ＴＰ２０３はさらに、第１のデータリンク２１１を経てＷＡＰ
規格プロトコルに従った通信を可能にするＷＡＰクライアントプロトコルスタッ
ク２１３を含み、第１のデータリンク２１１は無線ディジタルチャネルであって
も有線ディジタルチャネルであってもよい。

【００３０】ＴＰ２０３に備えられたマイクロホン２１５は、端末のユーザからの音声を受
ける。マイクロホン２１５の出力は、ＴＰオーディオエンコーダ（例えば、ＧＳ
Ｍ音声エンコーダ）へ供給され、このエンコーダは、オーディオ入力信号を圧縮
データフォーマットにコード化する。コード化されたオーディオデータはＴＡＰ
インタフェース２０９へ供給される。オーディオがユーザへ供給されるべきとき
は、それは、圧縮データフォーマット（例えば、ＧＳＭ音声エンコーダフォーマ
ット）でＴＡＰインタフェース２０９を経てＴＰオーディオデコーダ２１９へ供
給され、このデコーダ２１９の出力がスピーカ２２１へ供給される。

【００３１】ＴＡＰ２０１はまた、呼ハンドリング，アドレス帳管理などの端末機能との基
本的音声対話をサポートする目的で端末に備えられる。ＴＡＰ２０１はまた、音
声対話とＷＡＰアプリケーションの制御とをサポートする。ＴＡＰ２０１は、Ｔ
ＡＰ２０１がＴＰ２０３と通信することを可能にさせるＴＰインタフェース２２
３を含む。

【００３２】ＴＡＰ２０１は、端末における音声指向ブラウザとして機能する。ここで、こ
のブラウザの機能を図４のフローチャートを参照しつつ説明する。オーディオ入
力は、マイクロホン２１５によって受取られ、ＴＰオーディオエンコーダ２１７
へ供給される（ステップ４０１）。ＴＰオーディオエンコーダ２１７からの出力
は、ＴＡＰインタフェース２０９およびＴＰインタフェース２２３を経て、ＴＡ
Ｐ２０１に備えられた開始／停止検出器および記録ユニット２２５へ供給される
（ステップ４０３）。ＴＡＰ２０１は、開始／停止検出器および記録ユニット２
２５を用いて、供給された音声入力信号の開始および停止を検出し、また、これ
を用いて、ここでは「孤立ワード」と呼ばれるオーディオ時間間隔へのオーディ
オ入力の拡大を制限する。開始／停止検出器および記録ユニット２２５は、この
孤立ワード用のＴＰオーディオコード化データを記憶（すなわち、記録）するキ
ャッシュメモリ（不図示）を含む。

【００３３】孤立ワードは、開始／停止検出器および記録ユニット２２５から、孤立ワード
認識解析を行うＡＳＲユニット２２７へ供給される（ステップ４０５）。この代
表的実施例におけるＡＳＲ２２７は特徴ベクトル抽出ユニット２２９を含み、特
徴ベクトル抽出ユニット２２９は、孤立ワードを受取り、それを特徴照合および
決定ユニット２３１によって用いられるのに適したベクトル空間にマップする。
ＷＭＬシンタックスにおける制限された標準ＷＡＰ語彙と端末に依存する所定の
語彙とを含む基準語彙がＴＡＰ基準データベース２３３に記憶されている。端末
に依存する所定の語彙は、アプリケーションダイアログをよりユーザに使いやす
くするワードを含めるため、または、ＶＣＳＡに存在しない端末機能を制御する
ために、ＷＭＬ標準語彙を拡張するのに用いられる。孤立ワードは、好ましくは
、テキストフォーマットと対応ＴＰオーディオコード化データと孤立ワードを表
す関連特徴ベクトルとの３つのフォーマットで記憶される。ＴＡＰ基準データベ
ース２３３からの特徴ベクトルは、特徴照合および決定ユニット２３１の第２の
入力へ供給される。特徴照合および決定ユニット２３１は、特徴ベクトル抽出ユ
ニット２２９の出力に供給される特徴ベクトルをＴＡＰ基準データベース２３３
によって供給される特徴ベクトルと比較し、一致するかどうかを決定する。特徴
照合および決定ユニット２３１からの出力２３７，２３９は、ＴＡＰ制御論理２
３５へ供給され、一致することがわかったかどうかを表示する（判断ブロック４
０７）。

【００３４】孤立ワードには、いくつかのタイプのものがある。すなわち、端末制御機能（
例えば、メニューのスクロールアップまたはダウン）に関連するものと、メニュ
ーから１つのアイテムを選択する「選択」指令（ＰＣマウスを用いたメニューア
イテム上での「クリック」と同等である）のようなＲＡＰ２０５（および最終的
にはサーバ）へ送られるべき応答を決定するものと、特定のサーバアプリケーシ
ョンによって完全に定められているものとである。したがって、孤立ワードが端
末で認識されれば（判断ブロック４０７からの「ＹＥＳ」出力）、それが孤立ワ
ードのどのタイプのものであるかを決める決定がなされる（判断ブロック４０９
）。端末制御ワードが認識されたときは、ＴＡＰ制御論理２３５は端末機能を行
わせる（ステップ４１１）。いくつかの場合には、これは、メニュー内のいずれ
のアイテムが現在選択されつつあるかのような現在の端末状態の変化をユーザに
表示するオーディオ出力の発生を含む。

【００３５】認識されたワードがサービス関連のものであれば、適切な応答が、メッセージ
として発生され、ＷＡＰクライアントプロトコルスタック２１３を経てＲＡＰへ
転送される（ステップ４１３）。このメッセージは、ＲＡＰ２０５がＥＳＣ２０
７へ送られるべき適切な応答を発生できるようにさせるのに必要な状態情報，テ
キスト，２進データおよび他の情報の任意の組合せを含む。ＲＡＰ２０５によっ
て発生された応答は、好ましくは、通常のテキストベースＷＡＰ端末によって発
生されるキーボード入力選択をエミュレートする。このキーボード応答はＴＡＰ
２０５によって発生されるとともにＥＳＣ２０７へ送るために単にＲＡＰ２０５
へ送られるが、それは、効率上の理由で、必要な状態（および／または他の）情
報をＲＡＰ２０５へ単に送り、それがテキスト，２進データ，状態情報またはメ
ニュー選択コードを含むがこれらに限定されるわけではない必要なキーボードエ
ミュレーション応答の形式でＥＳＣ２０７へのそれの応答を発生することを可能
にさせることが好ましい。

【００３６】ここで判断ブロック４０７へ戻り、孤立ワードがＡＳＲ２２７によって認識さ
れなかったとすれば、ＴＡＰ制御論理２３５は、ＴＡＰのＷＡＰサービス論理２
４５と共に、ユーザに知らせるべきかどうかの決定を行う（判断ブロック４１５
）。この決定は、例えば、現在の端末状態とＴＡＰ制御論理２３５によって用い
られている状態マシンとに基づかれる。例えば、ＴＡＰ制御論理２３５が端末制
御またはメニュー選択機能が受信されることを予期しているならば、ユーザは、
孤立ワードが認識されなかったことを知らされ（ステップ４１７）、その孤立ワ
ードを繰返すこと、または、それを綴ることによってまたはキーボード選択によ
って入力をすることを求められる。あるいは、ＴＡＰ制御論理２３５がＴＡＰの
ＷＡＰサービス論理２４５と共にｅメールのコンテンツとして用いるためなどの
ような認識不可能なオーディオ信号が供給されることを予期していれば、その非
認識孤立ワードは単にＲＡＰ２０５へ送られる（ステップ４１９）。ＲＡＰのＡ
ＳＲ３０７は、好ましくは、ＴＡＰのＡＳＲ２２７よりも強力であるので、ＴＡ
Ｐ２０３が非認識孤立ワードを認識するタスクについて援助を要するならば、そ
の非認識孤立ワードはやはりＲＡＰ２０５へ送られる。本発明のこの態様は以下
に詳述される。

【００３７】非認識孤立ワードをＲＡＰ２０５へ送るためには、開始／停止検出器および記
録ユニット２２５からのオーディオコード化データは、ＭＩＭＥフォーマッティ
ングユニット２４７によってＭＩＭＥタイプとしてフォーマットされる。ＭＩＭ
Ｅフォーマットされたオーディオコード化データの通信は、ＴＰインタフェース
２２３，ＴＡＰインタフェース２０９およびＷＡＰクライアントプロトコルスタ
ックを経て通信ＲＡＰインタフェース２４３へ行われ、通信ＲＡＰインタフェー
ス２４３は第１のデータリンク２１１に結合している。ＴＡＰ２０１は、ＲＡＰ
２０５に置かれたＲＡＰサービス論理３２１に対するクライアントであり、低処
理能力を有するＷＡＰ端末装置（移動装置および固定装置を含む）に備えられる
。ＲＡＰサービス論理３２１も、ＥＳＣ２０７におけるサービスおよびコンテン
ツに対するクライアントである。

【００３８】上述したように、ユーザへの音声出力は、スピーカに結合された出力を有する
ＴＰオーディオデコーダ２１９によって発生される。ＴＰオーディオデコーダ２
１９は、ＴＡＰ基準データベース２３３またはＲＡＰ２０５からＴＰオーディオ
コード化フォーマットのデータを受取る。ＲＡＰ２０５によって供給されるＴＰ
オーディオコード化フォーマットデータは、ＷＡＰプロトコルにおけるＭＩＭＥ
タイプとして組込まれ受信される。この技術は、端末におけるテキストから音声
への変換モジュールの必要を解消する利点を有する。ＴＡＰ基準データベース２
３３にＴＰオーディオコード化データとして記憶されている追加ワードは、ダイ
アログをユーザにもっと使いやすくするように、ダイアログを補うために用いら
れる。

【００３９】ここでＲＡＰサーバ２０５（およびＲＡＰ２０５を詳細に示す図３）に着目す
ると、それは、多ユーザ中央ＷＡＰアプリケーションサーバとして、ＷＡＰゲー
トウェイ／代理として、または、ＴＡＰユーザ専用の単一ユーザローカルサーバ
（例えば、ユーザのＰＣ，パームトップ装置など）として具体化される。ＲＡＰ
２０５は、通常は、自動音声認識用のより強力な処理能力と、特定のサービスア
プリケーションに必要とされる拡張された語彙用のＲＡＰ基準データベースとを
有することが期待される。

【００４０】図２および図３に示されているように、ＲＡＰ２０５はまた、異なる場所にあ
るＥＳＣ２０７に接続されたＷＡＰゲートウェイ／代理としても具体化される。
例えば、ＥＳＣ２０７は、インタネットを経て情報およびコンテンツを供給する
１つ以上のアプリケーションサーバである。

【００４１】前述したように、ＲＡＰ２０５は、第１のデータリンク２１１に結合されてお
り、したがって、この目的のために第１のデータ２１１に結合された第１の通信
インタフェース３０１を有する。第１の通信インタフェース３０１はＷＡＰサー
バプロトコルスタック３０３にも結合されており、ＷＡＰサーバプロトコルスタ
ック３０３は、通信がＷＡＰ（または、他の選択された）通信プロトコルに従っ
て進行することを保証する。ＲＡＰ２０５はまた、他のＲＡＰリソースの動作を
制御するＲＡＰ制御論理３０５を含む。これらの中に、ＴＡＰ２０１において認
識されなかったＴＰオーディオコード化ワード、すなわち、ＷＡＰプロトコルに
おけるＭＩＭＥタイプとしてＲＡＰ２０５へ転送されたワードを認識するＡＳＲ
３０７がある。音声認識を行うために、ＲＡＰの代表的ＡＳＲ３０７は、特徴ベ
クトル抽出ユニット３０９と特徴照合および決定ユニット３１１とＲＡＰ基準デ
ータベース３１３とを含む。動作に際しては、ＴＰオーディオコード化データは
特徴ベクトル抽出ユニットへ供給される。次に、対応特徴ベクトルが特徴照合お
よび決定ユニット３１１へ供給される。ＲＡＰ基準データベース３１３は、認識
されるべき全てのワードの特徴ベクトル，対応テキストおよび対応ＴＰオーディ
オコード化データを記憶している。ＲＡＰ基準データベース３１３からの特徴ベ
クトルは、特徴照合および決定ユニット３１１のもう１つの入力へ供給される。
特徴照合および決定ユニット３１１は、特徴ベクトル抽出ユニット３０９によっ
て供給された特徴ベクトルをＲＡＰ基準データベース３１３によって供給された
特徴ベクトルと比較し、入力ワードが認識されたかどうかを表示する。ＡＳＲ３
０７は、ＴＡＰのＡＳＲ２２７が失敗した音声認識に成功する。その理由は、Ｒ
ＡＰのＡＳＲ３０７は好ましくはより強力であり基準ワードの大きいデータベー
スを含むからである。

【００４２】ＲＡＰのＡＳＲ３０７は、孤立ワードを認識できるほかに、連続音声を認識す
る能力も有する。この能力は、端末のユーザが単一ワード指令を言うことになっ
ているのにフレーズを言ってしまう場合を含む多くの場合において有用である。
例えば、ユーザが「ジョンを〔休止〕呼出す〔休止〕」のように言うことが期待
されているのに、２つのワードの間の休止なしに「ジョンを呼出す」と言う場合
である。この場合、フレーズ「ジョンを呼出す」は、開始／停止検出器および記
録ユニット２２５によって孤立ワードとして間違われ、そのように記録されるこ
とがある。ＴＡＰのＡＳＲ２２７がこのオーディオ入力を認識できなければ、Ｔ
ＡＰ２０１は、それをＭＩＭＥフォーマット化オーディオコード化データへ変換
し、それをＴＡＰ２０１が指令入力を期待している状態にあったことの表示と共
にＲＡＰ２０５へ送る。この場合、ＲＡＰ２０５は、それに応答して、その非認
識「孤立ワード」（この例では、フレーズ「ジョンを呼出す」）をそれのもっと
強力なＡＳＲ３０７へ印加する。ＲＡＰのＡＳＲ３０７は、ユーザによって話さ
れる得る全ての可能なワードを認識できる必要はない。代わりに、それは、認識
可能なＴＰ指令のリストを備え、ＴＰ指令ワードのみが探されるいわゆる「ワイ
ルドカード」認識動作を行う。このようにして、ＡＳＲ３０７が数ある中でフレ
ーズ「*呼出す*」（ここで「*」はワード「呼出す」の前後の「何でもよい」ワ
ードを示す）を探していれば、ＡＳＲ３０７は、その非認識「孤立ワード」がそ
れに続く別の非認識部分を伴うワード「呼出す」から成ることを検出する。次に
、この情報はＴＡＰ２０３へ送り返される。それに応答して、ＴＡＰ２０３は、
端末の呼出し指令を呼出し、呼出されるべき人の名前を繰返すことをユーザに求
める。このようにして、本発明のこの態様によれば、ＡＳＲ機能は、端末で行わ
れる部分と遠隔のＲＡＰ２０５で行われる部分とに実際に分散される。

【００４３】図５は、ＲＡＰ２０５の全体的動作の代表的実施例を示すフローチャートであ
る。ＴＰ２０３から入力を受取れば（判断ブロック５０１の「Ｙｅｓ」経路）、
それは検査されて、それが何を表すかが決定される（判断ブロック５０３）。そ
れがＴＰ応答に関連する状態情報であれば、ＲＡＰ２０５は、それを用いてそれ
自身の状態（例えば、ＲＡＰサービス論理３２１の状態）を更新し、それに応じ
て動作する。これは、ＥＳＣ２０７へ送られるべきキーボードエミュレーション
応答の発生を含む（ステップ５０５）。前述したように、キーボードエミュレー
ション応答は、テキスト，２進データ，状態情報またはメニュー選択コードを含
むが、これらに限られるわけではない。

【００４４】ＴＰ２０３から受けた入力が状態情報でなければ、それはＭＩＭＥフォーマッ
トされた非認識孤立ワードである。これは、次に、特定のアプリケーションに従
って処理される（ステップ５０７）。例えば、非認識孤立ワードはＲＡＰのＡＳ
Ｒ３０７へ印加され、ＡＳＲ３０７は、例えば、ＥＳＣ２０７へ送られるべき対
応テキストを発生する。この場合の対応テキストはＲＡＰ基準データベース３１
３から供給される。

【００４５】あるいは、非認識テキストは、例えば、ＥＳＣ２０７におけるＷＡＰアプリケ
ーションへ送られるｅメールに添付されるべきオーディオコンテンツを表す。他
の選択肢では、非認識テキストは、ＥＳＣ２０７との通信を必要とせずにＲＡＰ
自身を動作させる制御ワードを構成する。例えば、非認識テキストは、ユーザに
対して十分に表示／提示され得なかったメニューの別の部分を要求するものであ
る。ＲＡＰ２０５が完全なメニューを記憶していれば、それは、ＥＳＣ２０７と
通信せずにＴＰ２０５に対する応答を準備できる。

【００４６】受信されたＴＰオーディオコード化データに自動音声認識を行う代わりとなる
のは、例えばｅメール応答に添付され得るウェーブフォーマット化ファイルのよ
うな異なるオーディオフォーマットへ変換することである。この変換はオーディ
オフォーマット変換器３２３によって行われる。オーディオフォーマット変換器
３２３は、好ましくは、（ＥＳＣ２０７から受けた）音声メールフォーマットを
ユーザに聞かせる目的でＴＰ２０３へ送られるＴＰオーディオコード化データへ
変換することができるために、双方向性のものとする。

【００４７】入力がＴＰから受取られなければ（判断ブロック５０１から出る「Ｎｏ」経路
）、ＥＳＣ２０７からテキストが受取られたかどうかが決定されなければならな
い（判断ブロック５０９）。受取られたとすれば（判断ブロック５０９から出る
「Ｙｅｓ」経路）、それは、好ましくは、テキスト／ＴＰオーディオ・エンコー
ダ３１９へ供給され、エンコーダ３１９は、それから対応ＴＰオーディオコード
化データを発生する（ステップ５１１）。このデータは、次に、ＭＩＭＥタイプ
にフォーマットされ、ＷＡＰプロトコルでＴＰ２０３へ転送される（ステップ５
１３）。前述したように、受信されたＴＰオーディオコード化データは、次に、
スピーカ２２１を経てユーザに聞かされる。テキストからオーディオへのこの変
換は、例えば、アプリケーションがＥＳＣ２０７からテキストをユーザへ読取り
つつあるとき、または、ＲＡＰ２０５が記憶されているヘルプテキストをユーザ
へ読取りつつあるときに、必要である。ＲＡＰ２０５がさまざまな異なるエンコ
ーダを用いるクライアントによって共用されるリソースであるときは、テキスト
／ＴＰオーディオ・エンコーダ３１９は、クライアント端末の１つが用いる必要
なオーデオコード化フォーマットのいずれかおよび全てをサポートするように設
計される。

【００４８】いくつかの実施例では、オーディオフォーマット変換器３２３をなくし、代わ
りに、ＲＡＰ基準データベース３１３においてテキストを探索して対応ＴＰオー
ディオコード化データを出力することが可能である。しかし、個別のオーディオ
フォーマット変換器３２３を用いることが好ましい理由は、一般に、ヘルプファ
イルのようなテキストファイルをユーザに提示する「マイメール（my mail）の
読取り」や他のサービスのような大きい語彙を用いるサービスをサポートできる
からである。これらの場合には、ＲＡＰ２０５にコード化データの全辞書を記憶
することは所望されない。

【００４９】ＲＡＰ２０５は、他の外部サービスおよびコンテンツのプロバイダへのアクセ
スをサポートする、次のレベルのサービスおよびコンテンツに対する代理クライ
アントユニット３２５をさらに含む。ここでＥＳＣ２０７を見ると、それは、ＷＡＰアプリケーション用のサポート
を有するまたは有さないアプリケーションであるが、いずれの場合でも、ＲＡＰ
２０５におけるサービスアプリケーションに対する情報またはコンテンツのプロ
バイダとして用いられる。

【００５０】本発明は、ＷＡＰにおける標準化ＷＭＬ語彙およびシンタックスを利用して、
ＷＡＰ端末（すなわち、具体化されたＷＡＰクライアントを有する端末）がＷＡ
Ｐ端末用に設計された全サービスに対する音声制御インタフェースを有すること
を可能にする。ＶＣＳＡ用のサービス論理は、アプリケーションにおいてＴＡＰ
２０１とＲＡＰ２０５とに分割される。ＴＡＰ２０１とＴＰ２０３との間の全て
のローカル対話は、ＴＡＰ２０１とＲＡＰ２０５との間の伝送を最小化するため
にＴＡＰのＷＡＰサービス論理２４５によって処理される。ＴＡＰのＷＡＰサー
ビス論理２４５は、ＴＡＰ２０１内のデータおよび情報の流れを制御するＴＡＰ
制御論理２３５によって行われる命令を発する。本発明の他のオプションの態様
によれば、ＴＡＰ制御論理２３５はまた、ＷＭＬシンタックスにおける極めて制
限された語彙に比べてユーザとのダイアログを向上させ改善するために、サポー
ト・テキストおよびサポート・ワードを挿入する能力を有する。そのような追加
のテキストは、例えば、特定のメニュー選択を行うためにどのようなステップを
行わなければならないかを詳細にユーザに説明するオーディオの形式のものであ
る。この追加の語彙は、ＴＰオーディオコード化データストリングとしてＴＡＰ
基準データベース２３３に記憶される。あるいは、追加の語彙は、ＲＡＰ基準デ
ータベース３１３から要求され、ＴＰコード化オーディオデータとして第１のデ
ータリンク２１１（ＷＡＰチャネル）を経てＴＰ２０３へ転送される。ＴＰ２０
３は、このオーディオをスピーカ２２１を経てユーザに聞かせることができる。

【００５１】本発明の他の態様によれば、ＴＡＰ基準データベース２３３内の語彙をＲＡＰ
２０５を経て供給されたテキスト，コード化ＴＰオーディオデータおよび特徴ベ
クトルの完全なセットで更新，改善または置換することができる。新しくダウン
ロードされた情報は、ＷＭＬの変化をまたは新しい言語さえも表す。

【００５２】ＴＡＰのＷＡＰサービス論理２４５は、ＲＡＰ２０５にあるＲＡＰサービス論
理３２１に対するクライアントである。ＴＡＰのＷＡＰサービス論理２４５は、
ＴＰおよびＴＡＰ機能のみを制御し、また、基本ＷＭＬシンタックスを実行する
。それは、ＶＣＳＡのアプリケーション依存部分をサポートしない。ＴＡＰのＷ
ＡＰサービス論理２４５とＲＡＰサービス論理３２１とはサービスアプリケーシ
ョン中には同期されている。ＲＡＰサービス論理３２１と新しいＶＣＳＡをサポ
ートする語彙とは、外部サービスプロバイダからＲＡＰ２０５へダウンロードさ
れる。

【００５３】代表的実施例では、ＶＣＳＡを起動するためには、ユーザは、ワード「サービ
ス」のような所定の音声指令を話せばよい。これに応答して、ＴＰ２０３は、例
えば、この音声をＴＰオーディオコード化データに変換し、認識のためにＴＡＰ
２０１へそれを供給する。ユーザの指令がＴＡＰのＡＳＲ２２７によって認識さ
れたとすると、ＴＡＰ基準データベース２３３から供給されたＴＰコード化オー
ディオが、ＴＰオーディオデコーダ２１９によってオーディオ信号へ変換され、
スピーカ２２１へ供給される。ＴＡＰのＷＡＰサービス論理２４５はワードをテ
キストストリングに組立てる責任を有し、また、ＴＡＰ制御論理２３５は適切な
オーディオ出力命令を実行する。このオーディオは、ＴＡＰ２０１に記憶されて
いるサービスメニューからいくつかの選択肢からの選択を行うようにユーザに促
す。ＲＡＰ２０５へのＷＡＰ接続は、特定のＷＡＰサービスアプリケーションが
選択されたときにセットアップされるであろう。次に、ＴＡＰ２０１およびＲＡ
Ｐ２０５のサービス論理はサービスを実行し始める。

【００５４】実例をあげる目的で、代表的サービスを簡単に説明する。この例のＷＭＬ部分
の理解を容易にするために、まずＷＭＬ１．０を簡単に解説する。この簡単な要
約では、ＷＭＬシンタックスのみを示す。属性の値，範囲およびデフォルトは示
されていない。しかし、この情報は、公知であり、ここに提示する必要はない。

【００５５】以下のプロローグは、すべてのＷＭＬデック（すなわち、ｗｍｌファイル）の
トップに現れなければならない。

【００５６】すべてのデックは正確に１つの＜ＷＭＬ＞要素を有する。

【００５７】すべてのデックは正確に１つの＜ＨＥＡＤ＞要素を任意に有する。

【００５８】すべてのデックは正確に１つ＜ＴＥＭＰＬＡＴＥ＞要素を任意に有する。

【００５９】すべてのデックは少なくとも１つの＜ＣＡＲＤ＞要素を有する。

【００６０】カードは、画像＜ＩＭＧ＞およびアンカー＜Ａ＞を含む（＜Ｂ＞ボールド＜／
Ｂ＞のような）マークアップを有するテキストフローを含むことができる。＜／ＣＡＲＤ＞

【００６１】ナビゲーションは＜ＤＯ＞要素によって表示される。

【００６２】イベントは＜ＯＮＥＶＥＮＴ＞または＜ＴＩＭＥＲ＞要素によって処理される
。

【００６３】特定の動作は＜ＧＯ＞，＜ＰＲＥＶ＞，＜ＲＥＦＲＥＳＨ＞または＜ＮＯＯＰ
＞要素の１つである。

【００６４】入力フィールドをどのようにグループ化すべきかのヒントは＜ＦＩＥＬＤＳＥ
Ｔ＞要素で与えられる。

【００６５】入力は＜ＩＮＰＵＴ＞または＜ＳＥＬＥＣＴ＞要素の１つによって得られる。

【００６６】選択リストの要素は＜ＯＰＴＧＲＯＵＰ＞要素を用いてグループ化され得る。

【００６７】選択リストの要素は＜ＯＰＴＩＯＮ＞要素を用いて指定される。＜ＯＰＴＩＯＮＶＡＬＵＥ＝”“ＴＩＴＬＥ＝”“ＯＮＣＬＩＣＫ＝”“＞オプションは、マークアップをもつが画像またはアンカーはもたないテキスト
フローを有する。＜ＯＮＥＶＥＮＴ＞．．．＜／ＯＮＥＶＥＮＴ＞＜／ＯＰＴＩＯＮ＞

【００６８】マークアップを有するテキストフローは、以下の要素を含む。＜Ｂ＞．．．＜／Ｂ＞ボールド＜Ｉ＞．．．＜／Ｉ＞イタリック＜Ｕ＞．．．＜／Ｕ＞アンダーライン＜ＢＩＧ＞．．．＜／ＢＩＧ＞拡大フォントサイズ＜ＳＭＡＬＬ＞．．．＜／ＳＭＡＬＬ＞縮小フォントサイズ＜ＥＭ＞．．．＜／ＥＭ＞強調＜ＳＴＲＯＮＧ＞．．．＜／ＳＴＲＯＮＧ＞強い強調＜ＢＲＡＬＩＧＮ＝”“ＭＯＤＥ＝”“／＞ラインブレークを強制＜ＴＡＢＡＬＩＧＮ＝”“／＞続くテキストを列にアライン＜ＡＴＩＴＬＥ＝”“＞テキストフローに組込まれたアンカータグ＜ＧＯ＞．．．＜／ＧＯ＞＜ＰＲＥＶ＞．．．＜／ＰＲＥＶ＞＜ＲＥＦＲＥＳＨ＞．．．＜／ＲＥＦＲＥＳＨ＞

【００６９】アンカーは、マークアップをもつが画像またはアンカーはもたないテキストフ
ローを有する。＜／Ａ＞画像は＜ＩＭＧ＞要素で表示される。

【００７０】ここで、代表的ＷＡＰサービスを説明する。ディスプレイ／キーボード対話を
有するＷＡＰ使用可能端末において、気象情報サービスが利用可能であるものと
する。このサービスは、まず、ユーザに以下のようなオプションのリストを画面
上に提示する。以下における天候を示して下さい。＞ストックホルムヘルシンキチューリッヒその他

【００７１】アップまたはダウンキーを押すことにより、ユーザは、カーソル（すなわち、
「＞」文字）をリスト上において上下に移動させる。アクセプト・キー（エリク
ソンが製造販売している移動電話機のようないくつかの移動電話機では、これは
イエス（ＹＥＳ）キーである）を押すことにより、ユーザは、選択された都市の
短いコードを気象サービスプロバイダへ送る。「その他」が選択されれば、以下のような入力フィールドがユーザに提供され
る。都市名を入力して下さい： − 次に、ユーザは、適切な装置キーを用いて都市名を入力したのち、エンターキ
ーを押す。

【００７２】このサービス用のＷＭＬは、以下のようになる。

【００７３】音声認識使用可能端末で上述した本発明の技術を用いると、ユーザは次のよう
に聞く。「これらの都市オプションにおける天候を示して下さい」それは、「における天候を示して下さい」と、選択タグのタイトル属性である
「都市」と、ＴＡＰ基準データベース２３３からのある接着テキストである「こ
れらの」および「オプション」とを組合わせたものであることに注意すべきであ
る。これは、シンタックスに関連するＷＭＬ語彙への補足ワードに依存するか補
足ワードとして定められた装置インプリメンテーションであり得る。

【００７４】次に、ユーザは、装置がリスト内の都市名を、以下のようにそれぞれの間に短
い休止を入れて言うのを聞く。「ストックホルム」〔休止〕「ヘルシンキ」〔休止〕休止の目的は、ユーザが以下のような何かで応答するのに十分な時間を与える
ためである。この１つを選択することを意味する「アクセプト」、または次を意味する「ノー」、または前の画面に完全に戻ることを意味する「バックアウト」など

【００７５】ユーザが「その他」オプションに対して「アクセプト」で応答すれば、装置は
次のように言う。「都市名を入力し、オーケーまたは２秒間の休止で終わって下さい。」装置が与えられたテキストと入力を終わらせる命令とをどのように組合わせた
かに注意すべきである。ユーザは、次に、都市名を話し、「オーケー」で終わる。そこで、装置は、そ
の話された入力を音声認識およびさらなる処理のために遠隔アプリケーションへ
送る。

【００７６】本発明のさまざまな態様は、比較的低い処理能力と扱いにくい（例えば、きわ
めて小形である）または（例えば、ドライブ中に）比較的に利用しにくいＩ／Ｏ
装置とを有する端末が、これらの制限をもたない端末により一般に用いられるよ
うに開発されたサービスアプリケーションにアクセスするための対話形音声イン
タフェースを用いることを可能にする。端末におけるＡＳＲの要求の複雑さは、
ＶＣＳＡ用の音声認識システムを標準マークアップ言語（例えば、ＷＭＬ）シン
タックス用の小形端末音声認識装置と、もっと大きい処理能力を有する遠隔装置
のＶＣＳＡのアプリケーション依存部分用のもっと強力な音声認識装置とに分離
することによって、低減される。この構成の結果として、サービスコンテンツの
変更は必要でない。

【００７７】本発明の他の利点は、端末と遠隔アプリケーションサーバとの間に音声チャネ
ルを確立することが不必要である事実から得られる。これは、アプリケーション
へのオーディオ応答がディジタルデータチャネルを経て伝送されるＭＩＭＥタイ
プのような所定のディジタルタイプにコード化されることによる。

【００７８】本発明の他の利点は、ＷＭＬのような標準化されたマークアップ言語を用いる
ことによって音声制御サービス用の音声ダイアログ語彙を標準化し制限する一般
的な方法を本発明が提供していることである。これは、音声認識のタスクを簡単
化し、さもなければ多ユーザアプリケーションにおいてワードの異なる発音の存
在から生じるエラーを減少させる。

【００７９】本発明はまた、質問またはオプション選択に命令を挿入することによりアプリ
ケーションによって定められた催促形の質問または選択に対してユーザの話され
た応答の終りを決定する方法を提供する。その命令は、ユーザに、例えば、端末
装置によって認識できる特殊な所定ワードを言うことにより、または所定の沈黙
期間を許可することにより応答を終わる方法を知らせる。ユーザが所定ワードを
言ったとき、または、所定期間だけ休止したとき、これは端末内のＡＳＲ２２７
によって認識され、端末がその要求された応答の前に来たものを認識できるよう
にする。

【００８０】本発明は、さまざまな実施例において対話形音声制御サービスの実施を可能に
させる。これらの例には、以下のものが含まれるが、以下のものに限定されるわ
けではない。 − ＷＡＰ使用可能電話機における音声ブラウザ − 処理ユニットにおける制御機能にディジタル的に接続された音声使用可能
制御ユニット − 電子ノートパッドのような音声使用可能特殊装置 − ウィンドウに基づくオペレーティングシステムおよびクライアント／サー
バ環境におけるアプリケーションプログラムインタフェース（ＡＰＩ）のような
コンピュータアプリケーションの音声使用可能制御 − さまざまなマークアップまたは対話形アプリケーションプロトコルにおけ
る小さくかつ定義された語彙を有するスクリプト言語に基づく標準化アプリケー
ションプロトコルの音声使用可能制御。

【００８１】本発明を特定の実施例に関連して説明してきた。しかしながら、当業者は、本
発明を上述した実施例とは異なる特定の形式で実施できることが容易に分かるは
ずである。これは、本発明の精神から逸脱することなく行われ得る。上述した実
施例は、単なる例であり、いかなる意味においても限定的なものと考えるべきで
はない。本発明の範囲は、以上の説明ではなく、添付の特許請求の範囲により与
えられ、特許請求の範囲に属する全ての変形および等価物はそれに包含されるよ
うに意図されている。

【図面の簡単な説明】

【図１ａ】本発明の一態様による分散ＶＣＳＡの代替の実施例のブロック図である。

【図１ｂ】本発明の一態様による分散ＶＣＳＡの代替の実施例のブロック図である。

【図２】本発明による音声制御遠隔サーバの代表的実施例のブロック図である。

【図３】本発明による音声制御遠隔サーバの代表的実施例のブロック図である。

【図４】本発明の代表的実施例による端末アプリケーション部分によって行われる動作
のフローチャートである。

【図５】本発明の代表的実施例によるＲＡＰの全体的動作の代表的実施例を示すフロー
チャートである。

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１３年１月１１日（２００１．１．１１）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正内容】

【特許請求の範囲】

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 3/00 ５６１Ｃ (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ )，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ【要約の続き】いられる。

Claims

【特許請求の範囲】

【請求項１】遠隔サーバから端末へ供給されるサービスアプリケーション
を制御する方法であって、オーディオ情報を表すオーディオ入力信号を受取るステップと、前記端末に配置された第１の自動音声認識システムを用いて、前記オーディオ
入力信号が第１の語彙によって定められた１つ以上のワードを含むかどうかを決
定するステップであって、前記第１の語彙によって定められた前記１つ以上のワ
ードに対応しない前記オーディオ入力信号の部分が、該オーディオ入力信号の非
認識部分を構成する、ステップと、前記オーディオ入力信号が前記第１の語彙によって定められた１つ以上のワー
ドを含めば、アプリケーションプロトコルサービス論理の端末アプリケーション
部分を用いて、前記第１の語彙によって定められた前記１つ以上のワードをどの
ように処理すべきかを決定するステップと、前記オーディオ入力信号の前記非認識部分を、第１の所定のマークアップ言語
によって定められた構造を有するデータユニットに含まれるようにフォーマット
するステップと、前記データユニットを、第１のアプリケーションプロトコルに従って動作する
第１のディジタルデータリンクを経て遠隔アプリケーション部分へ通信するステ
ップと、前記遠隔アプリケーション部分において、前記オーディオ入力信号の前記フォ
ーマットされた非認識部分を前記データユニットから抽出し、遠隔アプリケーシ
ョン部分のサービス論理を用いて、前記オーディオ入力信号の前記フォーマット
された非認識部分をどのように処理すべきかを決定するステップと、を含む、方法。
【請求項２】前記オーディオ入力信号が、圧縮されたディジタルコード化
音声の形式である、請求項１記載の方法。
【請求項３】前記オーディオ入力信号が前記第１の語彙によって定められ
た１つ以上のワードを含めば、前記アプリケーションプロトコルサービス論理の
前記端末アプリケーション部分が、前記１つ以上のワードを、行われるべき１つ
以上の端末機能を選択するために用いられるようにする、請求項１記載の方法。
【請求項４】前記１つ以上の端末機能が、前記遠隔サーバへ供給されるべ
き応答として現在のメニューアイテムを選択することを含む、請求項３記載の方
法。
【請求項５】現在のメニューアイテムが第１の選択に関連しており、前記１つ以上の端末機能が、前記現在のメニューアイテムを前記第１の選択と
同じでない第２の選択に関連させることを含む、請求項３記載の方法。
【請求項６】前記オーディオ入力信号が前記第１の語彙によって定められ
た１つ以上のワードを含めば、前記アプリケーションプロトコルサービス論理の
前記端末アプリケーション部分が、対応するメッセージが、発生させられ、前記
第１のディジタルデータリンクを経て前記遠隔アプリケーション部分へ通信され
るようにする、請求項１記載の方法。
【請求項７】前記対応するメッセージが状態情報を含む、請求項６記載の
方法。
【請求項８】前記対応するメッセージがテキストを含む、請求項６記載の
方法。
【請求項９】前記対応するメッセージが２進データを含む、請求項６記載
の方法。
【請求項１０】前記遠隔アプリケーション部分が、前記対応するメッセー
ジを前記遠隔サーバへ送る、請求項６記載の方法。
【請求項１１】前記遠隔アプリケーション部分が、前記対応するメッセー
ジを、第２のアプリケーションプロトコルに従って動作する第２のディジタルデ
ータリンクを経て前記遠隔サーバへ送る、請求項１０記載の方法。
【請求項１２】前記第１のアプリケーションプロトコルが前記第２のアプ
リケーションプロトコルと同じである、請求項１１記載の方法。
【請求項１３】前記遠隔アプリケーション部分に配置された第２の自動音
声認識システムを用いて、前記オーディオ入力信号の前記非認識部分が第２の語
彙によって定められた１つ以上のワードを含むかどうかを決定するステップと、前記オーディオ入力信号の前記非認識部分が前記第２の語彙によって定められ
た１つ以上のワードを含めば、前記遠隔アプリケーション部分のサービス論理を
用いて、前記第２の語彙によって定められた前記１つ以上のワードをどのように
処理すべきかを決定するステップと、をさらに含む、請求項１記載の方法。
【請求項１４】前記第１の語彙は、前記第１の所定のマークアップ言語の
シンタックスによって定められたワードをもっぱら含み、前記第２の語彙は、前記遠隔サーバに関連するワードをもっぱら含む、請求項１３記載の方法。
【請求項１５】前記オーディオ入力信号の前記非認識部分が前記第２の語
彙によって定められた１つ以上のワードを含めば、前記遠隔アプリケーション部
分のサービス論理が、対応するキーボードエミュレーション応答が、発生させら
れ、前記遠隔サーバへ送られるようにする、請求項１３記載の方法。
【請求項１６】前記オーディオ入力信号の前記非認識部分が前記第２の語
彙によって定められた１つ以上のワードを含めば、前記遠隔アプリケーション部
分のサービス論理が、遠隔アプリケーション部分サービス論理状態が変化される
ようにする、請求項１３記載の方法。
【請求項１７】前記遠隔アプリケーション部分において、前記遠隔サーバ
からテキストを受取るステップと、前記遠隔アプリケーション部分において、オーディオ情報を表す対応オーディ
オ出力信号を発生するステップと、前記第１の所定のマークアップ言語によって定められた構造を有する第２のデ
ータユニットに含まれるように前記オーディオ出力信号をフォーマットするステ
ップと、前記第２のデータユニットを前記第１のディジタルデータリンクを経て前記端
末へ通信するステップと、前記端末において、前記オーディオ出力信号を前記第２のデータユニットから
抽出し、それからスピーカ信号を発生させるステップと、をさらに含む、請求項１記載の方法。
【請求項１８】遠隔サーバから端末へ供給されるサービスアプリケーショ
ンを制御する装置であって、オーディオ情報を表すオーディオ入力信号を受取る手段と、前記端末内に配置された、前記オーディオ入力信号が第１の語彙によって定め
られた１つ以上のワードを含むかどうかを決定する第１の自動音声認識システム
であって、前記第１の語彙によって定められた前記１つ以上のワードに対応しな
い前記オーディオ入力信号の部分が、前記オーディオ入力信号の非認識部分を構
成する、第１の自動音声認識システムと、前記オーディオ入力信号が前記第１の語彙によって定められた１つ以上のワー
ドを含めば、前記第１の語彙によって定められた前記１つ以上のワードをどのよ
うに処理すべきかを決定する、アプリケーションプロトコルサービス論理の端末
アプリケーション部分と、前記オーディオ入力信号の前記非認識部分を、第１の所定のマークアップ言語
によって定められた構造を有するデータユニットに含まれるようにフォーマット
する手段と、前記データユニットを、第１のアプリケーションプロトコルに従って動作する
第１のディジタルデータリンクを経て遠隔アプリケーション部分へ通信する手段
と、を含み、前記遠隔アプリケーション部分が、前記オーディオ入力信号の前記フォーマットされた非認識部分を前記データ
ユニットから抽出する手段と、前記オーディオ入力信号の前記フォーマットされた非認識部分をどのように
処理すべきかを決定する、遠隔アプリケーション部分のサービス論理とを含む、装置。
【請求項１９】前記オーディオ入力信号が、圧縮されたディジタルコード
化音声の形式である、請求項１８記載の装置。
【請求項２０】前記アプリケーションプロトコルサービス論理の前記端末
アプリケーション部分が、前記オーディオ入力信号が前記第１の語彙によって定
められた１つ以上のワードを含めば、行われるべき１つ以上の端末機能を選択す
るために前記１つ以上のワードが用いられるようにする手段を含む、請求項１８
記載の装置。
【請求項２１】前記１つ以上の端末機能が、前記遠隔サーバへ供給される
べき応答として現在のメニューアイテムを選択することを含む、請求項２０記載
の装置。
【請求項２２】現在のメニューアイテムが第１の選択に関連しており、前記１つ以上の端末機能が、前記現在のメニューアイテムを前記第１の選択と
同じでない第２の選択に関連させることを含む、請求項２０記載の装置。
【請求項２３】前記アプリケーションプロトコルサービス論理の前記端末
アプリケーション部分が、前記オーディオ入力信号が前記第１の語彙によって定
められた１つ以上のワードを含めば、対応するメッセージが、発生させられ、前
記第１のディジタルデータリンクを経て前記遠隔アプリケーション部分へ通信さ
れるようにする手段を含む、請求項１８記載の装置。
【請求項２４】前記対応するメッセージが状態情報を含む、請求項２３記
載の装置。
【請求項２５】前記対応するメッセージがテキストを含む、請求項２３記
載の装置。
【請求項２６】前記対応するメッセージが２進データを含む、請求項２３
記載の方法。
【請求項２７】前記遠隔アプリケーション部分が前記対応するメッセージ
を前記遠隔サーバへ送る、請求項２３記載の装置。
【請求項２８】前記遠隔アプリケーション部分が、前記対応するメッセー
ジを、第２のアプリケーションプロトコルに従って動作する第２のディジタルデ
ータリンクを経て前記遠隔サーバへ送る手段を含む、請求項２７記載の装置。
【請求項２９】前記第１のアプリケーションプロトコルが前記第２のアプ
リケーションプロトコルと同じである、請求項２８記載の装置。
【請求項３０】前記遠隔アプリケーション部分に配置された、前記オーデ
ィオ入力信号の前記非認識部分が第２の語彙によって定められた１つ以上のワー
ドを含むかどうかを決定する第２の自動音声認識システムをさらに含み、前記遠隔アプリケーション部分のサービス論理が、前記オーディオ入力信号の
前記非認識部分が前記第２の語彙によって定められた１つ以上のワードを含めば
、前記第２の語彙によって定められた前記１つ以上のワードをどのように処理す
べきかを決定する手段を含む、請求項１８記載の装置。
【請求項３１】前記第１の語彙は、前記第１の所定のマークアップ言語の
シンタックスによって定められたワードをもっぱら含み、前記第２の語彙は、前記遠隔サーバに関連するワードをもっぱら含む、請求項３０記載の装置。
【請求項３２】前記遠隔アプリケーション部分のサービス論理が、前記オ
ーディオ入力信号の前記非認識部分が前記第２の語彙によって定められた１つ以
上のワードを含めば、対応するキーボードエミュレーション応答が、発生させら
れ、前記遠隔サーバへ送られるようにする手段を含む、請求項３０記載の装置。
【請求項３３】前記遠隔アプリケーション部分のサービス論理が、前記オ
ーディオ入力信号の前記非認識部分が前記第２の語彙によって定められた１つ以
上のワードを含めば、遠隔アプリケーション部分サービス論理状態が変化される
ようにする手段を含む、請求項３０記載の方法。
【請求項３４】前記遠隔アプリケーション部分において、前記遠隔サーバ
からテキストを受取る手段と、前記遠隔アプリケーション部分において、オーディオ情報を表す対応オーディ
オ出力信号を発生する手段と、前記第１の所定のマークアップ言語によって定められた構造を有する第２のデ
ータユニットに含まれるように前記オーディオ出力信号をフォーマットする手段
と、前記第２のデータユニットを前記第１のディジタルデータリンクを経て前記端
末へ通信する手段と、前記端末において、前記オーディオ出力信号を前記第２のデータユニットから
抽出し、それからスピーカ信号を発生させる手段と、をさらに含む、請求項１８記載の装置。