JP2003131772A

JP2003131772A - Ｗｅｂで使用可能な認識のためのマークアップ言語拡張部

Info

Publication number: JP2003131772A
Application number: JP2002131950A
Authority: JP
Inventors: Kuansan Wang; クァンサンウァン; Hsiao-Wuen Hon; シャオ−ウェンホン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2001-05-04
Filing date: 2002-05-07
Publication date: 2003-05-09
Also published as: EP1255194A3; US20020169806A1; EP1255194A2; CN1392473A; US7610547B2; CN1392473B

Abstract

(57)【要約】【課題】インターネットなどのサーバ／クライアント
アーキテクチャで音声認識等を提供するための方法を改
善する。【解決手段】クライアント／サーバシステム中のクラ
イアントデバイスで実行するためのマークアップ言語の
文書が、クライアントデバイスを介して入力された入力
と関連付けるための文法を示す命令を含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、インターネットな
どのワイドエリアネットワークを介した情報へのアクセ
スに関する。より詳細には、本発明は、様々な方法を使
用してクライアント側で情報および制御の入力を可能に
する、Ｗｅｂで使用可能な認識に関する。

【０００２】

【従来の技術】パーソナルインフォメーションマネージ
ャ（ＰＩＭ）などの小型コンピューティングデバイス、
装置、および携帯電話は、人々の日常活動の中でますま
す頻繁に使用されている。これらのデバイスを作動させ
るマイクロプロセッサに現在使用できる処理能力が向上
するにつれて、これらのデバイスの機能も向上し、場合
によっては統合される。たとえば携帯電話の多くは、イ
ンターネットへのアクセスおよびブラウジングが可能で
あり、さらにアドレス、電話番号などの個人情報を記憶
しておくのに使用することもできる。

【０００３】これらのコンピューティングデバイスが、
インターネットのブラウジングに使用され、または他の
サーバ／クライアントアーキテクチャで使用されること
に鑑みて、情報をコンピューティングデバイスに入力す
る必要がある。残念ながら、これらのデバイスは、持ち
運びやすいようにできる限り小型であることが望まし
く、コンピューティングデバイスのハウジング上では利
用可能な表面積が限られているため、すべてのアルファ
ベット文字を独立したボタンとする従来のキーボード
は、通常不可能である。

【０００４】近年では、ＶｏｉｃｅＸＭＬ（ｖｏｉｃｅ
ｅｘｔｅｎｓｉｂｌｅｍａｒｋｕｐｌａｎｇｕａ
ｇｅ）を使用するような音声ポータルが、電話のみを使
用してインターネットコンテンツにアクセスできるよう
に改良されてきた。このアーキテクチャでは、ドキュメ
ントサーバ（たとえば、Ｗｅｂサーバ）は、Ｖｏｉｃｅ
ＸＭＬインタープリタを介してクライアントからの要求
を処理する。Ｗｅｂサーバはこれに応答してＶｏｉｃｅ
ＸＭＬドキュメントを作成することが可能であり、これ
らのドキュメントは、ＶｏｉｃｅＸＭＬインタープリタ
によってユーザが聞き取れるように処理される。ユーザ
は、音声認識を介した音声コマンドを使用して、Ｗｅｂ
をナビゲートすることができる。

【０００５】

【発明が解決しようとする課題】ＶｏｉｃｅＸＭＬは、
フロー制御タグを備えたマークアップ言語であるが、フ
ロー制御は、イベントスクリプトおよび分離スクリプト
を含むＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐ
Ｌａｎｇｕａｇｅ）フロー制御モデルに従うものでは
ない。むしろ、ＶｏｉｃｅＸＭＬは一般に、特に電話ベ
ースの音声専用対話に好適な形態解釈アルゴリズムを含
み、一般にユーザから取得された情報は、システムまた
はアプリケーションの制御下に置かれる。グラフィカル
ユーザインターフェースも提供されているクライアント
サーバ関係で使用できるアプリケーションに、Ｖｏｉｃ
ｅＸＭＬを直接組み込むには、開発者が、ＶｏｉｃｅＸ
ＭＬ用のものとＨＴＭＬ（または同様のもの）を使用す
るものであり、それぞれが異なるフロー制御モデルに従
っている、２つの形式のＷｅｂオーサリングを習得する
必要がある。

【０００６】したがって、インターネットなどのサーバ
／クライアントアーキテクチャで音声認識を提供するの
に使用されるアーキテクチャおよび方法を改善すること
が引き続き求められている。音声認識用のオーサリング
ツールは、ＰＩＭや電話などの小型のコンピューティン
グデバイスに容易に適応できるべきである。前述の欠点
のうちの１つ、いくつか、あるいはすべてに対処するＷ
ｅｂオーサリングのアーキテクチャおよび方法が特に求
められている。

【０００７】

【課題を解決するための手段】クライアント／サーバシ
ステム中のクライアントデバイスで実行するためのマー
クアップ言語には、クライアントデバイスを介して入力
された入力データに関連付けるための文法を示す命令が
含まれる。

【０００８】この拡張部（ｅｘｔｅｎｓｉｏｎ）、およ
び本発明の他の態様を使用できることで、クライアント
デバイスは、入力データ用のフィールドを有するＷｅｂ
サーバからマークアップ言語ページを受け取るための命
令を実行することができる。次いでクライアントデバイ
スは、そのフィールドに関連するユーザから入力データ
を受け取り、そのデータおよび認識のための文法の指示
を、典型的には処理用にリモート位置に配置された認識
サーバに送信する。

【０００９】認識サーバは、認識を実行するために、入
力データおよび文法の指示を受け取るための命令を実行
することができる。次いで、認識の結果をさらに処理す
るために、クライアントデバイスまたはＷｅｂサーバに
返信することができる。

【００１０】

【発明の実施の形態】同じ内容を実施するためのＷｅｂ
ベースの認識およびメソッドのアーキテクチャについて
説明する前に、そのアーキテクチャで機能できる一般的
なコンピューティングデバイスについて説明する方が有
用であろう。図１を参照すると、データ管理デバイス
（ＰＩＭ、ＰＤＡなど）の形態例が３０に示されてい
る。ただし、本発明は、以下で論じる他のコンピューテ
ィングデバイス、具体的に言えば、入力ボタン用などの
表面積が限られているコンピューティングデバイスを使
用しても実施可能であることが企図される。たとえば、
電話および／またはデータ管理デバイスも、本発明から
の恩恵を受けることになる。こうしたデバイスは、既存
の携帯用個人情報管理デバイスおよび他の携帯用電子デ
バイスに比べて、機能強化されたユーティリティを有す
るものとなり、こうしたデバイスの機能およびコンパク
トなサイズにより、ユーザに対して常に持ち運ぶように
奨励しやすくなる。したがって、本明細書に記載された
アーキテクチャの範囲は、本明細書に示した例示的なデ
ータ管理またはＰＩＭデバイス、電話、またはコンピュ
ータの開示によって限定されることを意図するものでは
ない。

【００１１】データ管理移動デバイス３０の例示的形態
が、図１に示されている。移動デバイス３０はハウジン
グ３２を含み、スタイラス３３と一緒に使われる接触感
応性のディスプレイ画面を使用するディスプレイ３４を
含むユーザインターフェースを有する。スタイラス３３
は、フィールドを選択するために指定された座標位置で
ディスプレイ３４を押すかまたは接触するため、カーソ
ルの開始位置を選択的に移動するため、あるいはその他
の方法でジェスチャまたは手書きなどのコマンド情報を
提供するために、使用される。別法では、または加え
て、デバイス３０上にナビゲーション用の１つまたは複
数のボタン３５を含めることができる。さらに、回転ホ
イール、ローラなどの他の入力メカニズムを提供するこ
ともできる。ただし、本発明は、これらの入力メカニズ
ム形態によって限定されるものではないことに留意され
たい。たとえば他の入力形態には、コンピュータビジョ
ンを介するなどの視覚的な入力を含むことができる。

【００１２】次に図２を参照すると、移動デバイス３０
を含む機能構成要素の構成図が示されている。中央処理
ユニット（ＣＰＵ）５０は、ソフトウェア制御機能を実
施する。ＣＰＵ５０がディスプレイ３４に結合されてい
るため、制御ソフトウェアに従って生成されたテキスト
およびグラフィックアイコンがディスプレイ３４に表示
される。スピーカ４３は、可聴出力を提供するために、
典型的にはデジタルアナログ変換器５９を使用してＣＰ
Ｕ５０に結合することができる。ユーザによってダウン
ロードされ、移動デバイス３０に入力されたデータは、
ＣＰＵ５０と双方向に結合された不揮発性読取り／書込
みランダムアクセスメモリ記憶装置５４に格納される。
ランダムアクセスメモリ（ＲＡＭ）５４は、ＣＰＵ５０
によって実行される命令用の揮発性記憶域、およびレジ
スタ値などの一時データ用の記憶域を提供する。構成オ
プションおよび他の変数用のデフォルト値は、読取り専
用メモリ（ＲＯＭ）５８に格納される。ＲＯＭ５８
は、移動体３０の基本機能および他のオペレーティング
システムのカーネル機能（たとえば、ソフトウェア構成
要素のＲＡＭ５４へのローディング）を制御する、デバ
イス用のオペレーティングシステムソフトウェアを格納
するために使用することもできる。

【００１３】ＲＡＭ５４は、アプリケーションプログラ
ムを格納するのに使用されるＰＣ上のハードドライブの
機能に類似した方法で、コード用の記憶域としての役割
も果たす。コードを格納するには不揮発性メモリが使用
されるが、代替方法として、コードの実行用には使用さ
れない揮発性メモリ内に格納することもできることに留
意されたい。

【００１４】無線信号は、ＣＰＵ５０に結合された無線
トランシーバ５２を介して移動デバイスによって送受信
することができる。コンピュータ（たとえばデスクトッ
プコンピュータ）から、または望むなら有線ネットワー
クから、データを直接ダウンロードするために、オプシ
ョンの通信インターフェース６０を提供することもでき
る。したがってインターフェース６０は、たとえば、赤
外線リンク、モデム、ネットワークカードなどの様々な
形態の通信デバイスを含むことができる。

【００１５】移動デバイス３０は、マイクロフォン２９
およびアナログデジタル（Ａ／Ｄ）変換器３７、ならび
に記憶装置５４に格納されたオプションの認識プログラ
ム（音声、ＤＴＭＦ、手書き、ジェスチャ、またはコン
ピュータビジョン）を含む。例を挙げると、デバイス３
０のユーザからの可聴情報、命令、またはコマンドに応
答して、マイクロフォン２９が音声信号を発信し、これ
がＡ／Ｄ変換器３７によってデジタル化される。音声認
識プログラムは、音声認識中間結果を取得するために、
デジタル化された音声信号に対して、正規化および／ま
たは特徴抽出機能を実行することができる。音声データ
は、無線トランシーバ５２または通信インターフェース
６０を使用して、以下で考察し図５のアーキテクチャに
示された、リモート認識サーバ２０４に伝送される。そ
の後認識結果は、提示し（たとえば視覚的および／また
は聴覚的）、かつ結果としてＷｅｂサーバ２０２（図
５）に伝送するために移動デバイス３０に戻され、Ｗｅ
ｂサーバ２０２および移動デバイス３０はクライアント
／サーバの関係で動作する。同様の処理が、他の入力形
態用に使用される。たとえば手書き入力は、デバイス３
０上での事前処理によって、または事前処理なしで、デ
ジタル化することができる。音声データと同様に、この
形態の入力を認識のために認識サーバ２０４に伝送し、
認識結果をデバイス３０および／またはＷｅｂサーバ２
０２のうち少なくとも１つに戻すことができる。同様
に、ＤＴＭＦデータ、ジェスチャデータ、および視覚デ
ータを同じように処理することができる。入力形態に応
じて、デバイス３０（および以下で論じる他の形態のク
ライアント）には、視覚入力用のカメラなどの必要なハ
ードウェアが含まれることになる。

【００１６】図３は、携帯電話８０の例示的実施形態を
示す平面図である。電話８０にはディスプレイ８２およ
びキーパッド８４が含まれる。一般に図２の構成図は図
３の電話に適用されるが、他の機能を実行するのに必要
な追加の回路を要求することができる。たとえば、図２
の実施形態では、電話として動作することが必要なトラ
ンシーバが要求されるが、こうした回路は本発明には関
係していない。

【００１７】前述の携帯または移動コンピューティング
デバイスに加えて、本発明が、汎用デスクトップコンピ
ュータなどの他の多数のコンピューティングデバイスで
使用可能であることも理解されたい。たとえば本発明
は、身体的能力の制限されたユーザが、フル英数字キー
ボードなどの他の従来型入力デバイスを操作するのが困
難である場合に、テキストをコンピュータまたは他のコ
ンピューティングデバイスに入力できるようにするもの
である。

【００１８】本発明は、他の多数の汎用または特定用途
向けコンピューティングシステム、環境、または構成で
も動作可能である。本発明で使用するのに好適な、よく
知られたコンピューティングシステム、環境、および／
または構成の例には、通常の電話（画面なし）、パーソ
ナルコンピュータ、サーバコンピュータ、ハンドヘルド
またはラップトップデバイス、マルチプロセッサシステ
ム、マイクロプロセッサベースシステム、セットトップ
ボックス、プログラム可能大衆消費電子製品、ネットワ
ークＰＣ、ミニコンピュータ、メインフレームコンピュ
ータ、上記システムまたはデバイスのいずれかを含む分
散コンピューティング環境などが含まれるが、これらに
限定されるものではない。

【００１９】次に、図４に示した汎用コンピュータ１２
０について、簡単に説明する。ただし、コンピュータ１
２０も好適なコンピューティング環境の一例に過ぎず、
本発明の使用法または機能の範囲に関して何らかの制限
を示唆するものではない。さらにコンピュータ１２０
は、本明細書に例示された構成要素のいずれか１つまた
はいずれかの組合せに関して、なんらかの依存性または
要求条件を有するものとして解釈されるものでもない。

【００２０】本発明は、コンピュータによって実行され
るプログラムモジュールなどの、コンピュータ実行可能
命令の一般的な文脈で説明することができる。一般に、
プログラムモジュールには、特定のタスクを実行するか
または特定の抽象データ型を実施する、ルーチン、プロ
グラム、オブジェクト、構成要素、データ構造などが含
まれる。本発明は、通信ネットワークを介してリンクさ
れたリモート処理デバイスによってタスクが実施され
る、分散コンピューティング環境で実施することも可能
である。分散コンピューティング環境では、プログラム
モジュールを、メモリ記憶デバイスを含む、ローカルお
よびリモートの両方のコンピュータ記憶媒体内に配置す
ることが可能である。プログラムおよびモジュールによ
って実行されるタスクについては、以下で図を用いて説
明する。当分野の技術者であれば、記述および図面を、
任意の形態のコンピュータ読取り可能媒体上に書き込み
可能な処理装置実行可能命令として実施することができ
る。

【００２１】図４を参照すると、コンピュータ１２０の
構成要素には、処理ユニット１４０、システムメモリ１
５０、およびシステムメモリを含む様々なシステム構成
要素を処理ユニット１４０に結合するシステムバス１４
１が含まれるが、これらに限定されるものではない。シ
ステムバス１４１は、メモリバスまたはメモリ制御装
置、周辺バス、および様々なバスアーキテクチャのいず
れかを使用するローカルバスを含む、いくつかのタイプ
のバスストラクチャのうちのいずれかであってよい。例
を挙げると、こうしたアーキテクチャには、Ｉｎｄｕｓ
ｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ
（ＩＳＡ）バス、ＵｎｉｖｅｒｓａｌＳｅｒｉａｌ
Ｂｕｓ（ＵＳＢ）、ＭｉｃｒｏＣｈａｎｎｅｌＡｒ
ｃｈｉｔｅｃｔｕｒｅ（ＭＣＡ）バス、拡張ＩＳＡ（Ｅ
ＩＳＡ）バス、ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓ
ＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ（ＶＥＳ
Ａ）ローカルバス、およびメザニンバスとも呼ばれるＰ
ｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒ
ｃｏｎｎｅｃｔ（ＰＣＩ）バスが含まれるが、これらに
限定されるものではない。コンピュータ１２０は、典型
的には様々なコンピュータ読取り可能媒体を含む。コン
ピュータ読取り可能媒体は、コンピュータ１２０がアク
セスすることのできる任意の使用可能媒体であってよ
く、揮発性および不揮発性媒体、取外し可能および取外
し不能媒体の両方を含む。例を挙げると、コンピュータ
読取り可能媒体は、コンピュータ記憶媒体および通信媒
体を含むことができるが、これらに限定されるものでは
ない。コンピュータ記憶媒体には、コンピュータ読取り
可能命令、データ構造、プログラムモジュール、または
他のデータなどの情報を記憶するための任意の方法また
は技術で実施される、揮発性および不揮発性、取外し可
能および取外し不能の両方の媒体が含まれる。コンピュ
ータ記憶媒体には、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フ
ラッシュメモリまたは他のメモリ技術、ＣＤ−ＲＯＭ、
デジタル汎用ディスク（ＤＶＤ）または他の光ディスク
記憶装置、磁気カセット、磁気テープ、磁気ディスク記
憶装置または他の磁気記憶デバイス、あるいは、所望の
情報を格納するのに使用可能でありコンピュータ１２０
がアクセス可能な任意の他の媒体が含まれるが、これら
に限定されるものではない。

【００２２】通信媒体は、典型的には、搬送波または他
の移送メカニズムなどの被変調データ信号中で、コンピ
ュータ読取り可能命令、データ構造、プログラムモジュ
ール、または他のデータを具体化するものであり、任意
の情報送達媒体を含む。「被変調データ信号」という用
語は、１つまたは複数の特徴セットを有するか、または
信号内での情報の符号化などの様式が変更された信号を
意味するものである。例を挙げると、通信媒体には、有
線ネットワークまたは直接配線接続などの有線媒体、な
らびに音波、ＦＲ、赤外線、および他の無線媒体などの
無線媒体が含まれるが、これらに限定されるものではな
い。上記の任意の組合せも、コンピュータ読取り可能媒
体の範囲に含まれるものである。

【００２３】システムメモリ１５０には、読取り専用メ
モリ（ＲＯＭ）１５１およびランダムアクセスメモリ
（ＲＡＭ）１５２などの、揮発性および／または不揮発
性メモリの形態のコンピュータ記憶媒体が含まれる。起
動時などのコンピュータ１２０内の要素間での情報転送
に役立つ基本ルーチンを含む、基本入出力システム１５
３（ＢＩＯＳ）は、典型的にはＲＯＭ１５１に格納さ
れる。ＲＡＭ１５２は典型的には、即時アクセス可能
であるか、あるいは／ならびに現在処理ユニット１４０
によって動作中である、データおよび／またはプログラ
ムモジュールを含む。例を挙げると、図４ではオペレー
ティングシステム５４、アプリケーションプログラム１
５５、他のプログラムモジュール１５６、およびプログ
ラムデータ１５７が示されているが、これらに限定され
るものではない。

【００２４】コンピュータ１２０は、他の取外し可能／
取外し不能、揮発性／不揮発性のコンピュータ記憶媒体
を含むこともできる。図４では、取外し不能の不揮発性
磁気媒体との間で読取りまたは書込みを行うハードディ
スクドライブ１６１、取外し可能の不揮発性磁気ディス
ク１７２との間で読取りまたは書込みを行う磁気ディス
クドライブ１７１、ならびにＣＤＲＯＭまたは他の光
学式媒体などの取外し可能の不揮発性光ディスク１７６
との間で読取りまたは書込みを行う光ディスクドライブ
１７５が示されているが、これらは例として示したもの
にすぎない。例示的な動作環境で使用することのできる
他の取外し可能／取外し不能、揮発性／不揮発性コンピ
ュータ記憶媒体には、磁気テープカセット、フラッシュ
メモリカード、デジタル汎用ディスク、デジタルビデオ
テープ、ソリッドステートＲＡＭ、ソリッドステートＲ
ＯＭ、などが含まれるが、これらに限定されるものでは
ない。ハードディスクドライブ１６１は、典型的には、
インターフェース１６０などの取外し不能メモリインタ
ーフェースを介してシステムバス１４１に接続され、磁
気ディスクドライブ１７１および光ディスクドライブ１
７５は、典型的には、インターフェース１７０などの取
外し可能メモリインターフェースによってシステムバス
１４１に接続される。

【００２５】上記で考察し図４に示したドライブおよび
その関連付けられたコンピュータ記憶媒体は、コンピュ
ータ１２０に、コンピュータ読取り可能命令、データ構
造、プログラムモジュール、および他のデータの記憶域
を提供する。たとえば図４では、ハードディスクドライ
ブ１６１がオペレーティングシステム１６４、アプリケ
ーションプログラム１６５、他のプログラムモジュール
１６６、およびプログラムデータ１６７を格納している
ように図示されている。これらの構成要素は、オペレー
ティングシステム１５４、アプリケーションプログラム
１５５、他のプログラムモジュール１５６、およびプロ
グラムデータ１５７と同じである場合も異なる場合も、
いずれも可能であることに留意されたい。本明細書で
は、オペレーティングシステム１６４、アプリケーショ
ンプログラム１６５、他のプログラムモジュール１６
６、およびプログラムデータ１６７には、少なくとも異
なるコピーであることを示すために異なる番号が与えら
れている。

【００２６】ユーザは、キーボード１８２、マイクロフ
ォン１８３、およびマウス、トラックボール、またはタ
ッチパッドなどのポインティングデバイス１８１などの
入力デバイスを介して、コマンドおよび情報をコンピュ
ータ１２０に入力することができる。他の入力デバイス
（図示せず）には、ジョイスティック、ゲームパッド、
衛星放送用アンテナ、スキャナ、などが含まれる。これ
らおよび他の入力デバイスは、システムバスに結合され
たユーザ入力インターフェース１８０を介して処理ユニ
ット１４０に接続される場合が多いが、パラレルポー
ト、ゲームポート、またはＵｎｉｖｅｒｓａｌＳｅｒ
ｉａｌＢｕｓ（ＵＳＢ）などの他のインターフェース
およびバス構造によって接続することもできる。モニタ
１８４または他のタイプのディスプレイデバイスも、ビ
デオインターフェース１８５などのインターフェースを
介してシステムバス１４１に接続される。コンピュータ
は、モニタに加えて、出力周辺インターフェース１８８
を介して接続することのできるスピーカ１８７およびプ
リンタ１８６などの他の周辺出力デバイスも含むことが
できる。

【００２７】コンピュータ１２０は、リモートコンピュ
ータ１９４などの１つまたは複数のリモートコンピュー
タへの論理接続を使用するネットワーク環境で動作可能
である。リモートコンピュータ１９４は、パーソナルコ
ンピュータ、ハンドヘルドデバイス、サーバ、ルータ、
ネットワークＰＣ、ピアデバイス、または他の共通ネッ
トワークノードであってよく、典型的にはコンピュータ
１２０に関連して上記で述べた要素の多くまたはすべて
を含む。図４に示された論理接続には、ローカルエリア
ネットワーク（ＬＡＮ）１９１およびワイドエリアネッ
トワーク（ＷＡＮ）１９３が含まれるが、他のネットワ
ークを含むこともできる。こうしたネットワーキング環
境は、オフィス、企業全体のコンピュータネットワー
ク、イントラネット、およびインターネットなどでよく
見られるものである。

【００２８】ＬＡＮネットワーキング環境で使用される
場合、コンピュータ１２０はネットワークインターフェ
ースまたはアダプタ１９０を介してＬＡＮ１９１に接
続される。ＷＡＮネットワーキング環境で使用される場
合、コンピュータ１２０は、典型的にはモデム１９２、
またはインターネットなどのＷＡＮ１９３を介して通
信を確立するための他の手段を含む。モデム１９２は内
蔵型または外付けが可能であり、ユーザ入力インターフ
ェース１８０または他の適切な機構を介してシステムバ
ス１４１に接続することができる。ネットワーク環境で
は、コンピュータ１２０に関連して示されたプログラム
モジュール、またはその一部を、リモートのメモリ記憶
デバイスに格納することができる。例を挙げると、図４
ではリモートアプリケーションプログラム１９５がリモ
ートコンピュータ１９４上に常駐しているように示され
ているが、これに限定されるものではない。図示された
ネットワーク接続は例示的なものであり、コンピュータ
間で通信リンクを確立するための他の手段も使用可能で
あることを理解されよう。

【００２９】図５は、本発明で実施可能な、Ｗｅｂベー
ス認識用のアーキテクチャ２００を示す図である。一般
に、Ｗｅｂサーバ２０２に格納された情報には、移動デ
バイス３０（本明細書では、入力の形態に基づき、必要
に応じて、ディスプレイ画面、マイクロフォン、カメ
ラ、タッチセンシティブパネルなどを有するコンピュー
ティングデバイスの他の形態も表している）、または電
話８０を介してアクセスすることが可能であり、情報
は、聞き取れるように要求されるか、またはキーが押さ
れるのに応答して電話８０が生成するトーンによって要
求され、Ｗｅｂサーバ２０２からの情報は、必ずユーザ
に聞き取れるように返信される。

【００３０】さらに重要なことに、アーキテクチャ２０
０は、情報がデバイス３０と音声認識を使用する電話８
０のどちらかを介して得られるように統合されている
が、単一の認識サーバ２０４はどちらのモードの動作も
サポートすることができる。さらに、アーキテクチャ２
００はよく知られたマークアップ言語（たとえばＨＴＭ
Ｌ、ＸＨＴＭＬ、ｃＨＴＭＬ、ＸＭＬ、ＷＭＬなど）の
拡張部を使用して動作する。したがって、Ｗｅｂサーバ
２０２に格納された情報には、これらのマークアップ言
語に見られるよく知られたＧＵＩ方式を使用してアクセ
スすることもできる。よく知られたマークアップ言語の
拡張部を使用することで、Ｗｅｂサーバ２０２でのオー
サリングが容易になり、現在存在しているレガシーアプ
リケーションを音声認識を含むように修正することも容
易となる。

【００３１】一般に、デバイス３０は、Ｗｅｂサーバ２
０２が提供するＨＴＭＬページ、スクリプトなどを実行
する。例を挙げると、音声認識が要求される場合、可聴
信号にデジタル化することができる音声データ、または
前述のようにデバイス３０によって可聴信号が事前処理
されている音声特徴が、音声認識時に使用するための文
法または言語モデルの指示と共に、認識サーバ２０４に
提供される。認識サーバ２０４の実施は多くの形態を取
ることが可能であり、そのうちの１つが図示されている
が、一般には認識装置２１１が含まれる。認識の結果
は、所望されるかまたは適切であれば、ローカルで提示
するためにデバイス３０に戻される。認識および使用さ
れている場合は任意のグラフィカルユーザインターフェ
ースを介して情報をコンパイルすると、デバイス３０
は、その情報をＷｅｂサーバ２０２に送信してさらに処
理し、必要であればさらにＨＴＭＬページ／スクリプト
を受け取る。

【００３２】図５に示されるように、デバイス３０、Ｗ
ｅｂサーバ２０２、および認識サーバ２０４は、一般に
ネットワーク２０５を介して接続されるが、本明細書で
はインターネットなどのワイドエリアネットワークを介
して接続されており、別々にアドレス指定可能である。
したがって、これらのデバイスはいずれも物理的に相互
に隣接させる必要はない。具体的に言えば、Ｗｅｂサー
バ２０２が認識サーバ２０４を含む必要はない。この方
式では、Ｗｅｂサーバ２０２でのオーサリングは、作者
が認識サーバ２０４の複雑な内容を知る必要なく、意図
されているアプリケーションに焦点をあてることが可能
である。むしろ認識サーバ２０４は、単独で設計してネ
ットワーク２０５に接続することが可能であり、それに
よって、Ｗｅｂサーバ２０２で要求される変更なしに、
更新および改良することが可能である。以下で論じるよ
うに、Ｗｅｂサーバ２０２は、動的にクライアント側の
マークアップおよびスクリプトを生成することができる
オーサリング機構を含むこともできる。他の実施形態で
は、Ｗｅｂサーバ２０２、認識サーバ２０４、およびク
ライアント３０を、実施マシンの機能に応じて組み合わ
せることができる。たとえば、クライアントが汎用コン
ピュータ、たとえばパーソナルコンピュータを含む場
合、クライアントは認識サーバ２０４を含むことができ
る。同様に、所望であれば、Ｗｅｂサーバ２０２および
認識サーバ２０４を単一のマシンに組み込むことができ
る。

【００３３】本発明の一態様は、クライアントデバイス
のユーザから入力データを取得するように構成された拡
張部を有するマークアップ言語ページをサーバから受け
取り、クライアントデバイス上でマークアップ言語ペー
ジを実行し、入力データ（ユーザから取得した音声、Ｄ
ＴＭＦ、手書き、ジェスチャ、またはイメージを示す）
および関連付けられた文法をクライアントから遠隔にあ
る認識サーバに伝送し、ならびに、クライアント側の認
識サーバから認識結果を受け取るステップを含む、クラ
イアント／サーバシステムで入力データを処理するため
の方法である。他の態様は、クライアント／サーバシス
テムのクライアントデバイスで実行するためのマークア
ップ言語を有するコンピュータ読取り可能媒体であっ
て、このマークアップ言語は、クライアントデバイスを
介して入力された入力データに関連付けるための文法を
示す命令を有する。

【００３４】電話８０を介したＷｅｂサーバ２０２への
アクセスには、電話８０から有線または無線電話ネット
ワーク２０８への接続が含まれ、これが電話８０を第三
者ゲートウェイ２１０に接続する。ゲートウェイ２１０
は、電話８０を電話音声ブラウザ２１２に接続する。電
話音声ブラウザ２１２には、電話インターフェースおよ
び音声ブラウザ２１６を提供するメディアサーバ２１４
が含まれる。デバイス３０と同様に、電話音声ブラウザ
２１２はＨＴＭＬページ／スクリプトなどをＷｅｂサー
バ２０２から受け取る。さらに重要なことに、ＨＴＭＬ
ページ／スクリプトは、デバイス３０に提供されるＨＴ
ＭＬページ／スクリプトと同様の形式である。この方式
では、Ｗｅｂサーバ２０２がデバイス３０および電話８
０を別々にサポートする必要がないか、または標準のＧ
ＵＩクライアントを別々にサポートする必要もない。む
しろ、通常のマークアップ言語を使用することができ
る。さらに、デバイス３０と同様に、電話８０によって
伝送される可聴信号からの音声認識が、ネットワーク２
０５または専用回線２０７のいずれかを介して、たとえ
ばＴＣＰ／ＩＰを使用して、音声ブラウザ２１６から認
識サーバ２０４に提供される。Ｗｅｂサーバ２０２、認
識サーバ２０４、および電話音声ブラウザ２１２は、図
４に示された汎用デスクトップコンピュータなどの任意
の好適なコンピューティング環境で実施することができ
る。

【００３５】ただし、ＤＴＭＦ認識が使用される場合、
この形態の認識は一般に、認識サーバ２０４ではなくメ
ディアサーバ２１４で実行されることに留意されたい。
言い換えれば、ＤＴＭＦ文法はメディアサーバによって
使用される。

【００３６】前述のように、本発明の一態様は、クライ
アント／サーバアーキテクチャに認識を実現する制御お
よび／またはオブジェクトを含めるための、ＨＴＭＬ、
ＸＨＴＭＬ、ｃＨＴＭＬ、ＸＭＬ、ＷＭＬなどのマーク
アップ言語の拡張部を含むか、または任意の他のＳＧＭ
Ｌ導出型マークアップを備えている。この方式では、作
者が、こうしたアーキテクチャで使用される有力なＷｅ
ｂ開発プラットフォームであるこれらのマークアップ言
語で、すべてのツールおよび専門技術を活用することが
できる。

【００３７】一般に、制御および／またはオブジェクト
は、認識装置の構成、認識装置の実行、および／または
後処理のための、認識装置の制御および／またはオブジ
ェクトと、合成装置の構成およびプロンプトの再生のた
めの合成装置の制御および／またはオブジェクトと、入
力文法リソースを指定するための文法の制御および／ま
たはオブジェクトと、ならびに／あるいは、認識結果を
処理するための結合の制御および／またはオブジェクト
という機能のうち、１つまたは複数を含むことができ
る。拡張部は、可聴、視覚、手書きなどのインターフェ
ースの能力を既存のマークアップ言語に追加する、軽量
マークアップ層となるように設計される。したがって拡
張部を、それらが含まれるたとえばＨＴＭＬなどの上位
ページ、拡張部が言語リソースを参照するのに使用し
た、テキストから音声への変換フォーマットおよび文法
フォーマットなどの下位フォーマット、ならびに認識サ
ーバ２０４で使用される認識および音声合成プラットフ
ォームの個々のプロパティから、独立させておくことが
できる。

【００３８】認識に好適な制御および／またはオブジェ
クトを有するマークアップ言語について述べる前に、本
明細書でＨＴＭＬマークアップ言語を使用して実施され
る、簡単なＧＵＩの例を検討することが有用であろう。
図６を参照すると、オンライン販売を完了させるために
クレジットカード情報をＷｅｂサーバに提供することを
含む、簡単なＧＵＩインターフェースが示されている。
この例では、クレジットカード情報に、たとえばＶｉｓ
ａ、ＭａｓｔｅｒＣａｒｄ、またはＡｍｅｒｉｃａｎ
Ｅｘｐｒｅｓｓなど、使用されるクレジットカードのタ
イプを入力するためのフィールド２５０が含まれる。第
２のフィールド２５２はクレジットカード番号を入力す
ることが可能であり、第３のフィールド２５４は有効期
限を入力することが可能である。フィールド２５０、２
５２、および２５４に入力された情報を伝送するため
に、サブミット（ｓｕｂｍｉｔ）ボタン２６４が提供さ
れている。

【００３９】図７は、クライアントから前述のクレジッ
トカード情報を取得するための、ＨＴＭＬコードを示す
図である。一般に、これらのマークアップ言語の形態に
共通するように、コードには本文部分２６０およびスク
リプト部分２６２が含まれる。本文部分２６０には、実
行される動作のタイプ、使用する形態、情報の様々なフ
ィールド２５０、２５２、および２５４を示す複数行の
コード、ならびにサブミットボタン２６４のコードが含
まれる（図６）。この例では、イベンティング（ｅｖｅ
ｎｔｉｎｇ）サポートおよび埋め込まれたスクリプトホ
スティングも示されており、サブミットボタン２６４を
起動すると、関数「ｖｅｒｉｆｙ」が呼び出される、ま
たはスクリプト部分２６２で実行される。関数「ｖｅｒ
ｉｆｙ」は、各クレジットカード（Ｖｉｓａ、Ｍａｓｔ
ｅｒＣａｒｄ、およびＡｍｅｒｉｃａｎＥｘｐｒｅｓ
ｓ）のカード番号が適切な長さであるかどうかを確認す
る。

【００４０】図８は、音声認識を使用してＷｅｂサーバ
２０４に提供されるクレジットカード情報を取得するた
めに、図６のＧＵＩと同じものを生成するクライアント
マークアップを示す図である。音声認識については、図
８〜図１６に関して以下で論じるが、説明する技術は、
手書き認識、ジェスチャ認識、およびイメージ認識で同
様に適用可能であることを理解されたい。

【００４１】一般に、拡張部（一般に「タグ」とも呼ば
れる）は、関連付けられた属性およびＤＯＭオブジェク
トプロパティを備えたＸＭＬ要素と、認識インターフェ
ースを適用するためのソースマークアップドキュメント
に関して使用することができるイベントおよびメソッド
と、ソースページへのＤＴＭＦまたは呼制御とのスモー
ルセットである。拡張部の形式および意味は、ソースド
キュメントの性質とは無関係であるため、拡張部は、Ｈ
ＴＭＬ、ＸＨＴＭＬ、ｃＨＴＭＬ、ＸＭＬ、ＷＭＬ内
で、または任意の他のＳＧＭＬ導出型マークアップを使
用して、等しく有効に使用することができる。拡張部
は、階層状であってよい新しい機能オブジェクトまたは
要素が提供される、ドキュメントオブジェクトモデルの
後に付けられる。各要素については付録で詳細に論じる
が、一般に要素は、属性、プロパティ、メソッド、イベ
ント、および／または他の「子」要素を含むことができ
る。

【００４２】ここで、拡張部は、ブラウザが実行される
デバイスの機能に従って、２つの異なる「ｍｏｄｅ」で
解釈できることにも留意されたい。第１のモード「ｏｂ
ｊｅｃｔｍｏｄｅ」では、全機能が使用可能である。
アプリケーションによる拡張部のプログラム操作は、た
とえば、ＸＨＴＭＬブラウザのＪＳｃｒｉｐｔインター
プリタ、またはＷＭＬブラウザのＷＭＬＳｃｒｉｐｔイ
ンタープリタなど、デバイス上のブラウザによって使用
可能にされるどのような機構によっても実行される。そ
のため、拡張部のコアプロパティおよびメソッドのスモ
ールセットだけを定義すればよく、これらは、デバイス
またはクライアント側に存在するどのようなプログラム
機構によっても操作される。ｏｂｊｅｃｔｍｏｄｅ
は、イベンティングおよびスクリプティングを提供して
おり、音声対話を介して、より細かなクライアント側制
御をダイアログ作者に与えるためのより優れた機能を提
供することができる。本明細書で使用される場合、全イ
ベントおよびスクリプティングをサポートしているブラ
ウザは「アップレベルブラウザ（ｕｐｌｅｖｅｌｂｒ
ｏｗｓｅｒ）」と呼ばれる。この形態のブラウザは、拡
張部のすべての属性、プロパティ、メソッド、およびイ
ベントをサポートする。アップレベルブラウザは、一般
に、より優れた処理機能を備えたデバイスに見られる。

【００４３】拡張部は、「ｄｅｃｌａｒａｔｉｖｅｍ
ｏｄｅ」でもサポートすることができる。本明細書で使
用される場合、ｄｅｃｌａｒａｔｉｖｅｍｏｄｅで動
作するブラウザは「ダウンレベルブラウザ（ｄｏｗｎｌ
ｅｖｅｌｂｒｏｗｓｅｒ）」と呼ばれ、イベンティン
グおよびスクリプティング機能をすべてサポートしてい
るわけではない。むしろこの形態のブラウザは、所与の
拡張部の宣言的な面（すなわちコア要素および属性）を
サポートするが、すべてのＤＯＭ（ドキュメントオブジ
ェクトモデル）オブジェクトのプロパティ、メソッド、
およびイベントではない可能性がある。このモードは宣
言型構文のみを使用し、さらに、ＳＭＩＬ（Ｓｙｎｃｈ
ｒｏｎｉｚｅｄＭｕｌｔｉｍｅｄｉａＩｎｔｅｇｒ
ａｔｉｏｎＬａｎｇｕａｇｅ）２．０などの、宣言型
マルチメディア同期化および調整機構（同期化されたマ
ークアップ言語）と共に使用される場合がある。ダウン
レベルブラウザは、典型的には処理機能が制限されたデ
バイスに見られる。

【００４４】ここで、特定モードの入力について論じな
ければならない。具体的に言えば、音声認識は、データ
入力用のフィールドを示すために、少なくともディスプ
レイと共に、他の実施形態ではさらにポインティングデ
バイスと共に使用することが特に有用である。具体的に
言えば、このモードのデータ入力では、ユーザは一般
に、フィールドを選択する時期および対応する情報を提
供する時期が制御される。たとえば、図６の例では、ユ
ーザは第１にフィールド２５２にクレジットカード番号
を入力し、次にフィールド２５０にクレジットカードの
タイプを入力した後、フィールド２５４に有効期限を入
力すると決めることができる。同様に、ユーザは、所望
であればフィールド２５２に戻って、誤った入力を修正
することができる。以下で論じるように、音声認識と組
み合わせると、簡単で自然な形態のナビゲーションが提
供される。本明細書で使用される場合、自由なフィール
ド選択形態を可能にするスクリーンディスプレイと音声
認識の両方を使用するこの入力形態は、「ｍｕｌｔｉ−
ｍｏｄａｌ」と呼ばれる。

【００４５】再度図８を参照すると、ＨＴＭＬマークア
ップ言語コードの例が示されている。図７に示されたＨ
ＴＭＬコードと同様に、このコードにも本文部分２７０
およびスクリプト部分２７２が含まれる。さらに図７に
示されたコードと同様に、図８に示されたコードにも、
実行する動作のタイプならびに形態の場所に関する指示
が含まれる。各フィールド２５０、２５２、および２５
４への情報の入力は、それぞれコード部分２８０、２８
２、および２８４によって制御または実行される。最初
にコード部分２８０を参照し、たとえばデバイス３０の
スタイラス３３を使用してフィールド２５０を選択する
と、イベント「ｏｎＣｌｉｃｋ」が起動され、これがス
クリプト部分２７２で関数「ｔａｌｋ」を呼び出すかま
たは実行する。この動作により、通常はフィールド２５
０で予想されるデータのタイプに関連付けられた音声認
識に使用される文法が起動する。このタイプの対話が
「ｍｕｌｔｉｍｏｄａｌ」と呼ばれ、複数の入力技法
（たとえば音声およびペンクリック／ローラ）が含まれ
る。

【００４６】多くのアプリケーションで、ソースページ
でアプリケーション指定のグラフィック機構を使用する
ことによって、作者がページの様々な構成要素を音声化
できるようにする信号を発すると想定されるため、図８
に例示された音声認識拡張部は、クライアントのブラウ
ザ上でデフォルト時に視覚表現することを意図したもの
ではないことに留意されたい。それにもかかわらず、視
覚表現が望まれる場合は、拡張部をそのように修正する
ことができる。

【００４７】再度文法に戻ると、文法は、文脈自由文
法、Ｎ文法、またはハイブリッド文法などであるがこれ
らに限定されない、構文文法である。（もちろん、対応
する認識形態が使用されるときには、ＤＴＭＦ文法、手
書き文法、ジェスチャ文法、およびイメージ文法が使用
される。）本明細書では、「文法」には、認識を実行す
るための情報が含まれ、他の実施形態では、たとえば特
定のフィールドに入力されると予想される入力に対応す
る情報が含まれる。マークアップ言語の第１の拡張部を
含む新しい制御２９０（本明細書では「ｒｅｃｏ」とし
て識別）には様々な要素が含まれるが、そのうちの２
つ、すなわち文法要素「ｇｒａｍｍａｒ」および「ｂｉ
ｎｄ」要素が図示されている。一般に、Ｗｅｂサーバ２
０２からクライアントにダウンロードされるコードと同
様に、文法はＷｅｂサーバ２０２側から発信され、クラ
イアントにダウンロードされるか、あるいは／ならびに
音声処理のためにリモートサーバに転送されることが可
能である。その後文法は、そこでキャッシュにローカル
に格納することができる。最終的に文法は、認識時に使
用するために認識サーバ２０４に送られる。ｇｒａｍｍ
ａｒ要素は、属性を使用するインラインまたは参照済み
のいずれかの文法を指定するのに使用される。

【００４８】認識された音声、手書き、ジェスチャ、イ
メージなどに対応する認識サーバ２０４からの認識結果
を受け取ると直ちに、ｒｅｃｏ制御２９０の構文が、対
応する結果を受け取り、対応するフィールドに関連付け
るように提供され、フィールドは、ディスプレイ３４上
でその中のテキストを提示することを含むことができ
る。例示された実施形態では、結果をクライアントに送
信して音声認識が完了すると、ｒｅｃｏオブジェクトを
非活動化し、認識されたテキストと対応するフィールド
を関連付ける。部分２８２および２８４が同様に動作
し、各フィールド２５２および２５４に一意のｒｅｃｏ
オブジェクトおよび文法が要求され、認識されたテキス
トを受け取ると、フィールド２５２および２５４それぞ
れに関連付けられる。カード番号フィールド２５２の受
取りに関しては、図７に関して上記で述べたものと同様
の方法で、関数「ｈａｎｄｌｅ」がカードタイプを基準
にカード番号の長さをチェックする。

【００４９】一般に、アーキテクチャ２００およびクラ
イアント側マークアップ言語と共に音声認識を使用する
場合、第１に、与えられる音声に関連付けられたフィー
ルドが示される。例示された実施形態では、スタイラス
３３が使用されるが、本発明は、スタイラス３３の使用
に限定されるものではなく、ボタン、マウスポインタ、
回転ホイールなどの任意の形態の指示が使用できること
を理解されたい。「ｏｎＣｌｉｃｋ」などの対応するイ
ベントを、視覚マークアップ言語の使用でよく知られる
ように提供することができる。本発明は、音声、手書
き、ジェスチャなどのコマンドの開始を示すための「ｏ
ｎＣｌｉｃｋ」イベントの使用に限定されるものではな
いことを理解されたい。「ｏｎＳｅｌｅｃｔ」など、同
じ目的には、任意の使用可能なＧＵＩイベントが使用で
きる。一実施形態では、こうしたイベンティングが、対
応する音声の開始および／または終了の両方を示す働き
をするのに特に有用である。ユーザならびにユーザの対
話を追跡するブラウザ上で実行中のプログラムによっ
て、音声の宛先となるフィールドを示すことができるこ
とにも留意されたい。

【００５０】ここで、様々な音声認識シナリオが、認識
サーバ２０４からの様々な動作および／または出力を必
要とすることについて説明する。認識プロセスの開始は
すべての場合、たとえばアップレベルブラウザからの明
示的なｓｔａｒｔ（）コール、またはダウンレベルブラ
ウザでの宣言型＜ｒｅｃｏ＞要素の場合に、基準である
が、音声認識を停止する手段は異なる場合がある。

【００５１】前述の例では、マルチモーダルアプリケー
ションのユーザは、たとえば、圧力感知ディスプレイ上
を軽く叩き保持することによって、デバイスへの入力が
制御される。次いでブラウザは、ＧＵＩイベント、たと
えば「ｐｅｎ−ｕｐ」を使用して、認識を停止しなけれ
ばならない時期を制御し、対応する結果を戻す。ただ
し、電話アプリケーション（以下で考察）またはハンズ
フリーアプリケーションなどの音声専用シナリオでは、
ユーザがブラウザを介して直接制御することがないた
め、認識サーバ２０４またはクライアント３０は、認識
を停止して結果を戻す時期（典型的には文法を介したパ
スが認識されたとき）を決定する役目を果たさなければ
ならない。さらに、認識が停止される前に中間結果を戻
す必要のある口述（ｄｉｃｔａｔｉｏｎ）および他のシ
ナリオは（「オープンマイクロフォン」としても知られ
る）、明示的な停止機能を必要とするだけでなく、認識
プロセスが停止される前に、複数の認識結果をクライア
ント３０および／またはＷｅｂサーバ２０２に戻す必要
もある。

【００５２】一実施形態では、Ｒｅｃｏ要素は、どのよ
うにいつ結果を戻すかを認識サーバ２０４に指示する、
以下の３つの認識モードを区別するための「ｍｏｄｅ」
属性を含むことができる。結果を戻すことは、適切な
「ｏｎＲｅｃｏ」イベントの提供または「ｂｉｎｄ」要
素の起動を暗に示すものである。一実施形態では、モー
ドが指定されていない場合のデフォルトの認識モードは
「ａｕｔｏｍａｔｉｃ」となる。

【００５３】図１４は、音声認識のための「ａｕｔｏｍ
ａｔｉｃ」モードの動作を示す絵画図である（同様のモ
ード、イベントなどを他の形態の認識に提供することが
できる）。時間線２８１は、認識サーバ２０４が２８３
で認識を開始するように指示された時点、および認識サ
ーバ２０４が２８５で音声を検出し、２８７で音声が終
了したことを特定した場所を示すものである。

【００５４】Ｒｅｃｏ要素の様々な属性は、認識サーバ
２０４の動作を制御する。属性「ｉｎｉｔｉａｌＴｉｍ
ｅｏｕｔ」２８９は、認識の開始２８３から音声の検出
２８５までの時間である。この時間枠を超えると、認識
が停止した旨を伝える「ｏｎＳｉｌｅｎｃｅ」イベント
２９１が認識サーバ２０４から提供される。認識サーバ
２０４が認識できない発話を見つけると、「ｏｎＮｏＲ
ｅｃｏ」イベント２９３が発行されるが、これは認識が
停止したことも示す。

【００５５】認識を停止または取り消すことができる他
の属性に「ｂａｂｂｌｅＴｉｍｅｏｕｔ」属性２９５が
含まれるが、これは認識サーバ２０４が２８５で音声を
検出した後に結果を戻さなければならない時間枠であ
る。この時間枠を超えると、エラーが生じたかどうかに
応じて、異なるイベントが発行される。認識サーバ２０
４が依然として音声を処理している場合、たとえば非常
に長い発話の場合、「ｏｎＮｏＲｅｃｏ」属性２９３が
発行される。ただし、任意の他の理由で「ｂａｂｂｌｅ
Ｔｉｍｅｏｕｔ」属性２９５を超えた場合、認識装置の
エラーである可能性が高く、「ｏｎＴｉｍｅｏｕｔ」イ
ベント２９７が発行される。同様に、「ｍａｘＴｉｍｅ
ｏｕｔ」属性２９９も提供することが可能であり、これ
は認識の開始２８３から結果がクライアント３０に戻さ
れるまでの時間枠に関するものである。この時間枠を超
えると、「ｏｎＴｉｍｅｏｕｔ」イベント２９７が発行
される。

【００５６】ただし、「ｅｎｄＳｉｌｅｎｃｅ」属性３
０１よりも長い時間枠を超えた場合は、認識が完了した
ことを暗に示すものであり、認識サーバ２０４は認識を
自動的に停止して、その結果を戻す。認識サーバ２０４
は、認識結果を戻すべきであるかどうかを判定するため
の確信測定（ｃｏｎｆｉｄｅｎｃｅｍｅａｓｕｒｅ）
を実施できることに留意されたい。確信測定がしきい値
よりも低い場合は「ｏｎＮｏＲｅｃｏ」属性２９３が発
行され、確信測定がしきい値よりも高い場合は「ｏｎＲ
ｅｃｏ」属性３０３および認識結果が発行される。図１
４は、「ａｕｔｏｍａｔｉｃｍｏｄｅ」で、明示的な
ｓｔｏｐ（）コールが実行されていないことを示す。

【００５７】図１５は、認識サーバ２０４の「ｓｉｎｇ
ｌｅｍｏｄｅ」動作を示す絵画図である。「ａｕｔｏ
ｍａｔｉｃｍｏｄｅ」に関して上記で述べた属性およ
びイベントが適用可能であり、その場合は同じ参照番号
で示されている。ただし、この動作モードでは、ｓｔｏ
ｐ（）コール３０５が時間線２８１上に示されている。
ｓｔｏｐ（）コール３０５は、ユーザによる「ｐｅｎ−
ｕｐ」などのイベントに対応するものである。この動作
モードでは、認識結果を戻すことが、明示的なｓｔｏｐ
（）コール３０５の制御下にある。すべての動作モード
と同様に、音声が「ｉｎｉｔｉａｌＴｉｍｅｏｕｔ」時
間枠２８９内に検出されない場合は「ｏｎＳｉｌｅｎｃ
ｅ」イベント２９１が発行されるが、この動作モードで
は、認識は停止されない。同様に、ｓｔｏｐ（）コール
３０５以前の認識できない発話によって生成された「ｏ
ｎＮｏＲｅｃｏ」イベント２９３は、認識を停止しな
い。ただし、「ｂａｂｂｌｅＴｉｍｅｏｕｔ」属性２９
５または「ｍａｘＴｉｍｅｏｕｔ」属性２９９に関連付
けられた時間枠を超えると、認識は停止する。

【００５８】図１６は、認識サーバ２０４の「ｍｕｌｔ
ｉｐｌｅｍｏｄｅ」動作を示す絵画図である。前述の
ように、この動作モードは「ｏｐｅｎ−ｍｉｃｒｏｐｈ
ｏｎｅ」の場合または口述シナリオで使用される。一般
にこの動作モードでは、明示的なｓｔｏｐ（）＿コール
３０５が受け取られるか、または「ｂａｂｂｌｅＴｉｍ
ｅｏｕｔ」属性２９５または「ｍａｘＴｉｍｅｏｕｔ」
属性２９９に関連付けられた時間枠を超えるまで、時々
認識結果が戻される。ただし、認識を停止しない任意の
「ｏｎＳｉｌｅｎｃｅ」イベント２９１、「ｏｎＲｅｃ
ｏ」イベント３０３、または「ｏｎＮｏＲｅｃｏ」イベ
ント２９３の後、「ｂａｂｂｌｅＴｉｍｅｏｕｔ」時間
枠および「ｍａｘＴｉｍｅｏｕｔ」時間枠用のタイマは
リセットされることに留意されたい。

【００５９】一般に、この動作モードでは、認識された
各句について「ｏｎＲｅｃｏ」イベント３０３が発行さ
れ、ｓｔｏｐ（）コール３０５が受け取られるまで結果
が戻される。認識できない発話により「ｏｎＳｉｌｅｎ
ｃｅ」イベント２９１が発行された場合、これらのイベ
ントは報告されるが、認識は続行する。

【００６０】前述のように、フィールド用の関連付けら
れたｒｅｃｏオブジェクトが起動され、これには少なく
とも、文法を使用する認識サーバ２０４の指示を提供す
ることが含まれる。この情報は、クライアント３０で記
録され、認識サーバ２０４に送られる音声データを伴う
ことができる。前述のように、音声データは、ユーザが
入力した音声に関連付けられたストリーミングデータを
含むか、または音声認識時に使用される音声特徴を示す
事前処理された音声データを含むことができる。他の実
施形態では、認識サーバ２０４によって受け取られる音
声データが、クライアント間で比較的一貫しているよう
に、クライアント側の処理に音声データの正規化も含め
ることができる。これによって、認識サーバ２０４の音
声処理が単純化され、認識サーバがクライアントおよび
通信チャネルのタイプに支配されないようにできるた
め、認識サーバ２０４のスケーラビリティがより簡単に
なる。

【００６１】認識サーバ２０４から認識結果を受け取る
と、認識結果は対応するフィールドに関連付けられ、所
望であれば、クライアント側の検証またはチェックが実
行できる。現在クライアントによって提示されているコ
ードに関連付けられたすべてのフィールドが完了する
と、情報はアプリケーション処理のためにＷｅｂサーバ
２０２に送られる。前述の内容から、Ｗｅｂサーバ２０
２は認識に好適なコードまたはページ／スクリプトをク
ライアント３０に提供するが、認識サービスはＷｅｂサ
ーバ２０２ではなくむしろ認識サーバ２０４によって実
行されることが明らかであろう。ただし、本発明は、認
識サーバ２０４がＷｅｂサーバ２０２と共に配置される
か、または認識サーバ２０４がクライアント３０の一部
であるような実施を排除するものではない。言い換えれ
ば、本明細書に示される拡張部は、たとえ認識サーバ２
０４がＷｅｂサーバ２０２またはクライアント３０と組
み合わされる場合であっても、拡張部がこれら構成要素
間に単純かつ便利なインターフェースを提供するので有
益である。

【００６２】図８に示された実施形態には図示していな
いが、ｒｅｃｏ制御には、適切な音声データを認識サー
バ２０４に向けて送るための、リモート可聴オブジェク
ト（ＲＡＯ）を含むこともできる。ＲＡＯをプラグイン
オブジェクトにすることの利点は、音声インターフェー
スは異なる可能性が多いため、異なるそれぞれのデバイ
スまたはクライアントに対して異なるものにすることが
できることである。さらにリモート可聴オブジェクト
は、同時に複数のｒｅｃｏ要素を起動させることもでき
る。

【００６３】図９および図１０は、本明細書で実施され
る音声専用マークアップ言語を、ページ／スクリプトを
備えたＨＴＭＬとして示す図である。図から明らかなよ
うに、コードには、本文部分３００およびスクリプト部
分３０２も含まれている。ここにはマークアップ言語の
他の拡張部、すなわちｂａｒｇｅｉｎなどの属性を含む
プロンプト制御３０３がある。ただし、音声認識は、図
９および図１０の音声専用実施形態では異なって行われ
る。ここではプロセスは、空のフィールドを特定し、対
応するプロンプトおよび新しいオブジェクトを起動す
る、スクリプト関数「ｃｈｅｃｋＦｉｌｌｅｄ」によっ
て全体的に制御される。しかし、文法は、図８に関して
上記で述べたものと同じ文脈を使用して起動され、音声
データおよび使用する文法の指示が認識サーバ２０４に
提供される。同様に、認識サーバ２０４から受け取った
出力は、クライアントのフィールドに関連付けられる
（本明細書では電話音声ブラウザ２１２）。

【００６４】一般に音声専用アプリケーションに固有の
他の特徴は、音声が認識されなかったときのユーザに対
する指示である。図８などのマルチモーダルアプリケー
ションでは、「ｏｎＮｏＲｅｃｏ」は、認識していない
ことを示す際に表示されたフィールドにｎｕｌｌ値を入
れるだけであるため、それ以上の動作は必要ない。音声
専用の実施形態では、「ｏｎＮｏＲｅｃｏ」３０５が関
数「ｍｕｍｂｌｅ」を呼び出すかまたは実行し、語句を
認識サーバ２０４に転送した後、これが好適なテキスト
から音声への変換システム３０７（図５）を使用して、
音声に変換される。認識サーバ２０４は可聴ストリーム
を電話音声ブラウザ２１２に戻し、次にこれが電話８０
に伝送されてユーザが聞くことになる。同様に、音声専
用アプリケーションで実施された他の波形プロンプト
も、必要なときに認識サーバ２０４によって可聴ストリ
ームに変換される。

【００６５】この例では、関数「ｗｅｌｃｏｍｅ」を介
してウェルカムプロンプトを再生した後、関数「ｃｈｅ
ｃｋＦｉｌｌｅｄ」がユーザに対して各フィールドにつ
いてのプロンプトを出し、入力されたフィールドの反復
および情報が正しいことの確認を含む適切な文法を起動
するものであって、これには「ｃｏｎｆｉｒｍａｔｉｏ
ｎ」文法の起動が含まれることに留意されたい。この実
施形態では、それぞれのｒｅｃｏ制御が、以前の例の本
文部分ではなくスクリプト部分３０２から開始されるこ
とに留意されたい。

【００６６】本発明の他の態様として、異なるタイプの
クライアントデバイス（たとえば電話などの、マルチモ
ーダルおよびディスプレイなし、音声入力ベースのクラ
イアントデバイス）で実行可能なマークアップ言語は、
それぞれのクライアントデバイスと対話するＷｅｂサー
バについて、音声関連イベント、ＧＵＩイベント、およ
び電話イベントのうち少なくとも１つを統合する。これ
は特に、Ｗｅｂサーバアプリケーションの重要な部分を
包括的に、またはクライアントデバイスのタイプに関係
なく書き込むことができるので有利である。図８および
図９、図１０に、関数「ｈａｎｄｌｅ」を使用して一例
が示されている。

【００６７】図９には示されていないが、マークアップ
言語には、ＤＴＭＦ（ＤｕａｌＴｏｎｅＭｏｄｕｌ
ａｔｅｄＦｒｅｑｕｅｎｃｙ）制御および呼制御要素
またはオブジェクトという、電話機能をサポートするた
めの拡張部がさらに２つある。ＤＴＭＦはｒｅｃｏ制御
と同様の働きをする。キーパッド文字列をテキスト入力
にマッピングする単一の文法を指定する。たとえば、
「１」は食料雑貨部門、「２」は薬局部門を意味するな
どである。これに対して、コールオブジェクトは、呼転
送および第三者呼出しなどの電話機能を処理する。属
性、プロパティ、メソッド、およびイベントについて
は、付録で詳細に論じる。

【００６８】図１１および図１２は、音声専用動作モー
ドに好適な他のマークアップ言語例を示す図である。こ
の実施形態では、ユーザは情報が入力されたかまたは話
されたときに何らかの制御を行うことができる。言い換
えれば、システムはユーザの話を開始させるか、そうで
なければユーザに話を開始するように指示することが可
能であるが、ユーザは最初に要求された以上の情報を提
供することができる。これが「主導権混合（ｍｉｘｅｄ
ｉｎｉｔｉａｔｉｖｅ）」の一例である。一般にこの
形態の対話（ｄｉａｌｏｇｉｎｔｅｒａｃｔｉｏｎ）
では、ユーザが対話の主導権をシステムと共有すること
ができる。ユーザがプロンプトで要求された以上の情報
を提供する、前述および以下で詳細に論じる例に加え
て、ユーザは指示されていない場合にもタスクを切り換
えることができる。

【００６９】図１１および図１２の例では、「ｄｏ＿ｆ
ｉｅｌｄ」として示された文法に、文法「ｇ＿ｃａｒｄ
＿ｔｙｐｅｓ」、「ｇ＿ｃａｒｄ＿ｎｕｍ」、および
「ｇ＿ｅｘｐｉｒｙ＿ｄａｔｅ」に関連付けられた情報
が含まれる。この例では、「ｏｎＲｅｃｏ」で示される
ように認識された音声を受け取ると、電話音声ブラウザ
２１２が電話８０から受け取った音声データおよび文法
「ｄｏ＿ｆｉｅｌｄ」を使用するための指示を認識サー
バ２０４に送信し、音声データからの認識された任意ま
たはすべてのフィールドに関する値を関連付けることを
含む関数「ｈａｎｄｌｅ」が、呼び出されるかまたは実
行される。言い換えれば、認識サーバ２０４から取得し
た結果には、各フィールドに関する指示も含まれるとい
うことである。この情報が解析され、４０５に指定され
たｂｉｎｄ規則に従って、対応するフィールドに関連付
けられる。図５に示されるように、認識サーバ２０４は
構文解析装置３０９を含むことができる。

【００７０】図７、図８、図９、図１０、図１１、およ
び図１２では、非常に似通ったＷｅｂ開発フレームワー
クが使用されている。それぞれの場合のデータ提示も非
常に似通っている。さらに、データ提示とフロー制御を
分離することで、異なるアプリケーション間（システム
主導および主導権混合）または異なるモダリティ（ｍｏ
ｄａｌｉｔｙ）間（ＧＵＩＷｅｂベース、音声専用、
およびマルチモーダル）で、最大の再利用性を可能にし
ている。さらにこれによって、電話がデバイス３０と同
様のディスプレイおよび機能を含む場合に、音声専用動
作から電話を介してマルチモーダル動作へという、自然
な拡張も可能にしている。付録Ａでは、上記で述べた制
御およびオブジェクトについて、さらに詳細に説明す
る。

【００７１】上記のように、アップレベルブラウザは、
認識結果を割り当てるために、上記の例で関数「ｈａｎ
ｄｌｅ」を呼び出すことを含む様々な必要事項を実行す
るために、スクリプティングを使用することができる。
前述の実施形態および付録Ａの２．１．２でさらに述べ
るように、「ｂｉｎｄ」要素は認識結果を解析して値を
割り当てるものであって、「ｂｉｎｄ」要素は「ｒｅｃ
ｏ」要素のサブ要素または子要素である。

【００７２】スクリプティングは有用であるが、たとえ
ばセキュリティの問題により、これが最善のブラウザ実
施形態ではないと考えている人が多い。したがって、本
発明の他の実施形態または態様では、「ｂｉｎｄ」要素
は高位要素（「ｒｅｃｏ」と同様）であって、他のより
豊富なプロパティを備えており、本質的にはスクリプテ
ィングせずに、実質上はスクリプティングを模倣するこ
とができる。

【００７３】スクリプティングを使用しないか、または
以下で論じる本発明の態様を使用しない、高度な対話効
果などの以下で論じる機能の中には、ページをＷｅｂサ
ーバ２０２に返すこと、新しいページを生成するために
アプリケーション論理を実行すること、およびページを
クライアントデバイスに返信することによってのみ達成
できるものもある。本発明のこの態様により、プログラ
マは、サーバのラウンドトリップなしにページのオブジ
ェクトに関するメソッドを呼び出すことができる。

【００７４】前述の実施形態では、「ｂｉｎｄ」要素
は、認識結果を書式またはＷｅｂページ内のフィールド
に割り当てるための属性「ＴａｒｇｅｔＥｌｅｍｅｎ
ｔ」および「ＴａｒｇｅｔＡｔｔｒｉｂｕｔｅ」のみを
有する。他の実施形態では、「ｂｉｎｄ」要素は「Ｔａ
ｒｇｅｔＭｅｔｈｏｄ」も含んでおり、これがオブジェ
クトメソッド呼出し用に追加される。「ＴａｒｇｅｔＭ
ｅｔｈｏｄ」の使用および機能は、スクリプティングを
模倣する上で主要な技法である。たとえば以下の構文を
使用して、オブジェクト「ＯＢＪ１」の「Ｘ」メソッド
を呼び出すことができる。 <bind TargetElement = "OBJ1" TargetMethod = "X"...
>

【００７５】本明細書で示される例はＨＴＭＬ／ＸＨＴ
ＭＬイベント構文に従うものであるが、当分野の技術者
であれば、Ｗ３ＣＤｏｃｕｍｅｎｔＯｂｊｅｃｔ
ＭｏｄｅｌＬｅｖｅｌ２またはＬｅｖｅｌ３イベ
ンティング標準、ＥＣＭＡＣｏｍｍｏｎｌａｎｇｕａ
ｇｅＩｎｆｒａｓｔｒｕｃｔｕｒｅ（ＣＬＩ）イベン
トモデル、Ｊａｖａ（登録商標）プログラミング言語イ
ベントモデル、Ｗ３ＣＳｙｎｃｈｒｏｎｏｕｓＭｕ
ｌｔｉｍｅｄｉａＩｎｔｅｇｒａｔｉｏｎＬａｎｇｕ
ａｇｅ（ＳＭＩＬ）、および近日発表されるＷ３ＣＸ
ＭＬイベント標準提案を含むが、これらに限定されるも
のではない、他のイベンティング機構に、＜ｂｉｎｄ＞
の用法を一般化するのは簡単であることを理解されるこ
とに留意されたい。

【００７６】図１７および図１８は、クライアント、具
体的にはｄｏｗｎｌｅｖｅｌｂｒｏｗｓｅｒ上で実行
可能なマークアップ言語のページである。この例では、
ユーザは可聴プロンプトを介して飲み物についてたずね
られる。次にシステムは、何の飲み物が注文されたかを
確認する。「ｂｉｎｄ」要素はこの認識結果に応じて、
宣言論理を使用して実行を指導する。飲み物が確認され
ると、この書式はすべてのスクリプティングなしでＷｅ
ｂサーバ２０２に返される。

【００７７】一般に、図１７および図１８のマークアッ
プ例には、データセクション３５０、音声セクション３
５２、およびユーザインターフェースセクション３５
４、３５６、および３５８が含まれる。セクション３５
４は、ユーザの希望する飲み物に関する一般問合せから
認識結果を受け取り、クリームまたは砂糖が必要である
かどうかに関する再プロンプト、問合せ、あるいは注文
された飲み物の確認のいずれかに向けて、対話型認識フ
ローを送る。具体的に言えば、セクション３５６は、ク
リームまたは砂糖も注文されたときに認識結果を受け取
る。セクション３５８は、飲み物の確認に関する認識結
果を受け取る。セクション３６０は新しいメッセージン
グオブジェクト「ＳＭＥＸ」を使用する呼制御セクショ
ンであり、これについては以下で詳細に論じる。

【００７８】前述のように、本発明のこの態様の「ｂｉ
ｎｄ」要素にはオブジェクトメソッド呼出しが含まれ、
これが３６１で「ｗｅｌｃｏｍｅ」オブジェクトの「ｓ
ｔａｒｔ」メソッドが実行されたときに、「ｗｅｌｃｏ
ｍｅ」プロンプトを再生することによって、図１７およ
び図１８の例でユーザ対話を開始させる。

【００７９】次にユーザは、３６２で「ａｓｋｅｄ」オ
ブジェクトの「ｓｔａｒｔ」メソッドを実行することに
よって、「Ｄｏｙｏｕｗａｎｔｃｏｋｅ，ｃｏｆ
ｆｅｅｏｒｏｒａｎｇｅｊｕｉｃｅ？」とたずね
られる。次いで、３６３で「ｒｅｃｏ＿ｄｒｉｎｋ」オ
ブジェクトの「ｓｔａｒｔ」メソッドを呼び出すことに
よって、認識が実行される。

【００８０】次にセクション３５４のマークアップが実
行され、認識サーバ２０４が使用する文法が、Ｘｐａｔ
ｈステートメント「．／ｄｒｉｎｋｔｙｐｅｓ」によ
って提供される。この例では、Ｗ３ＣのＸｐａｔｈ言語
を使用しているが、当分野の技術者であれば、Ｗ３Ｃ
ＸＭＬ照会言語（ＸＱＬ）を含むがこれに限定されるこ
とのない他の標準言語にまで概念を広げることが簡単で
あることを理解することに留意されたい。「ｂｉｎｄ」
要素３６４で指定されるように、認識サーバ２０４から
受け取った認識結果の確信値が１０よりも小さい場合、
３６６でプロンプトオブジェクト「ｒｅｐｒｏｍｐｔ」
が、続いて３６８でプロンプトオブジェクト「ａｓｋ」
が実行され、３７０で認識オブジェクト「ｒｅｃｏ＿ｄ
ｒｉｎｋ」が再開される。戻された認識結果が、確信値
が１０よりも大きい「ｃｏｆｆｅｅ」の場合、３７２で
フィールド「ｄｒｉｎｋ」に認識結果の値が割り当てら
れ、次いでユーザは、３７４で、プロンプトオブジェク
ト「ｃｒｅａｍ＿ｓｕｇａｒ」によってクリームまたは
砂糖を希望するか否かに関するプロンプトを受け取る。
次いで３７６で、セクション３５６の認識オブジェクト
「ｒｅｃｏ＿ｃｒｅａｍ＿ｓｕｇａｒ」が呼び出され
る。これとは違い、認識結果の確信値が１０よりも大き
いがｃｏｆｆｅｅでない場合、３７８で再度ｄｒｉｎｋ
フィールドが割り当てられる。３８０でプロンプトオブ
ジェクト「ｃｏｎｆｉｒｍ」を実行し、その後セクショ
ン３５８の３８２で認識オブジェクト「ｒｅｃｏ＿ｙｅ
ｓｎｏ」を呼び出すことによって、認識結果の確認が与
えられる。ユーザが１０より大きい確信値で「ｙｅｓ」
と答えると、３８４でプロンプトオブジェクト「ｔｈａ
ｎｋｓ」が再生され、その後３８６で書式がサブミット
される。これとは違い、ユーザが「ｎｏ」と答えるか、
または認識結果の確信値が１０より小さい場合、３９０
でプロンプトオブジェクト「ｒｅｔｒｙ」が実行され、
もう一度３９２でプロンプトオブジェクト「ａｓｋ」が
実行されて、３９４で認識オブジェクト「ｒｅｃｏ＿ｄ
ｒｉｎｋ」が呼び出される。

【００８１】前述の例からわかるように、「ｂｉｎｄ」
要素は、セクション３５４、３５６、または３５８に示
すようにメソッドの複数呼出しを可能にする。所望であ
れば、認識された結果の複数割当てを宣言することもで
きる。例示された実施形態では、複数の割当ておよびメ
ソッド呼出しが宣言されると、ドキュメント順で実行さ
れる。

【００８２】他の実施形態では、メソッド引数を渡すた
めの規定も提供される。言い換えれば、メソッドの中に
は引数リストが必要なものもある。これは、「ａｒｇ」
サブ要素を使用して達成される。たとえば、以下のマー
クアップ <bind TargetElement = "OBJ" TargetMethod = "F"><arg>X</arg><arg>Y</arg></bind> は、「ＯＢＪ．Ｆ（Ｘ，Ｙ）」と等価であるか、あるい
は「ＯＢＪ」が、パラメータまたは引数「Ｘ」および
「Ｙ」を使用するメソッド「Ｆ」を有するオブジェクト
である。

【００８３】「ｂｉｎｄ」要素は、ｂｉｎｄ要素がどの
イベント用であるかを宣言する「ｅｖｅｎｔ」属性を含
むことも可能である。たとえば、以下のマークアップ <bind event = "onNoReco" = TargetElement = "prompt1" TargetMethod = "start"/> は、「ｏｎＮｏＲｅｃｏ」イベントが送られたときを意
味するものであり、オブジェクト「ｐｒｏｍｐｔ１」の
「ｓｔａｒｔ」メソッドが呼び出されることになる。図
８に関して上記の例で説明したように、「ｂｉｎｄ」要
素を「Ｒｅｃｏ」要素の子要素として使用する場合と整
合性を持たせるために、「ｂｉｎｄ」要素のデフォルト
属性は「ｏｎＲｅｃｏ」である。

【００８４】高位要素としての「ｂｉｎｄ」要素は、付
録の２．４項に指定されたいずれのイベントも含むこと
ができる。さらに、「ｂｉｎｄ」要素は、アクセス可能
であってプログラムフローの向きを決めるのに使用でき
る「ｓｔａｔｕｓ」属性を有する、「ｏｎＥｒｒｏｒ」
イベントを含むこともできる。「ｂｉｎｄ」要素の他の
イベントが「ｓｔａｔｕｓ」属性を有する場合、これら
にも同様にアクセスできる。

【００８５】認識結果の条件をチェックすることに加え
て、実行予定の現在のドキュメントまたはページもチェ
ックすることができる。具体的に言えば、「ｔｅｓｔ」
属性および「ｖａｌｕｅ」属性の両方を、格納ドキュメ
ントのルートノードを示す「ｈｏｓｔ」プリミティブを
含むように拡張することができる。たとえば、図１７、
図１８を再度参照すると、そこに含まれる例は、セクシ
ョン３５４に、ユーザがｃｏｆｆｅｅを要求したときに
クリームまたは砂糖を希望するかどうかをたずねるため
の追加論理がある。クリームまたは砂糖を追加するた
め、したがって、マークアップ「ｈｏｓｔ（）／ｇｅｔ
＿ｄｒｉｎｋ／ｄｒｉｎｋ＝「ｃｏｆｆｅｅ」」によっ
て指定されるように、セクション３５６を呼び出すため
のフラグは、ｄｒｉｎｋフィールドが「ｃｏｆｆｅｅ」
の場合に限ってオンになる。

【００８６】また、「ｂｉｎｄ」要素は音声サーバ２０
４からの認識結果およびドキュメント内での値の受取り
または割当てに適用可能なだけでなく、たとえば、クラ
イアントデバイス上で実行中のアプリケーションからの
メッセージオブジェクト（本明細書では「ｓｍｅｘ」で
示されている）にも適用可能であることに留意された
い。図１７および図１８の例では、クライアントデバイ
ス上で実行中の電話アプリケーションが呼を検出したと
きに、ページが実行される。セクション３６０では、
「ｂｉｎｄ」要素は、メッセージ「／Ｃａｌｌ＿ｃｏｎ
ｎｅｃｔｅｄ」が受け取られたときに、「ｗｅｌｃｏｍ
ｅ」プロンプトを実行または再生し、「ｒｅｃｏ＿ｄｒ
ｉｎｋ」オブジェクトを実行することによって認識を開
始する。音声サーバ２０４から受け取る認識結果と同様
に、受け取るメッセージも多種多様である。メッセージ
の中には、所望のプログラムフローを開始するために首
尾よく定義されたものもある。その他のものも受け取っ
て処理する（たとえば、受け取った認識サーバの認識結
果と同様に解析する）ことができる。たとえばこれによ
って、キーボードからのテキストの本来の言語構文解析
装置と同様に、マークアップを使用することができる。
付録Ａのｒｅｃｏ要素は、この機能を実行するためのプ
ロパティを含む。同様に、付録Ａで詳細に説明するが、
プロパティ「ｉｎｎｅｒｔｅｘｔ」を使用することによ
って、プロンプト要素を使用して動的コンテンツまたは
可聴波ファイルにテキストメッセージを提供することが
できる。イベンティングは認識結果に関するイベンティ
ングと同様とすることができる。たとえば、イベンティ
ングは「ｏｎＲｅｃｅｉｖｅｄ」を含むことが可能であ
り、これは、メッセージソース（たとえばクライアント
デバイス上で実行中のアプリケーション）がブラウザに
使用可能なメッセージを有する場合に送られる。

【００８７】したがって「ｓｍｅｘ」またはメッセージ
オブジェクトは、本明細書で論じるマークアップタグ
を、クライアントデバイス上で実行中の他の構成要素ま
たはアプリケーションまで拡張できるようにするもので
ある。他の例として、メッセージオブジェクトは、クラ
イアントデバイス上で実行中の耳の不自由な人向けＴＴ
Ｙ構成要素への通信に使用することができる。ＴＴＹ構
成要素は、音声認識を使用する代わりに、ユーザが入力
した内容のメッセージを提供する。その後このメッセー
ジは、認識サーバから認識結果が受け取られた場合と同
じように使用され、メッセージが解析されて書式のフィ
ールドに割り当てられるか、または前述の「ｒｅｃ
ｏ」、「ｇｒａｍｍａｒ」、または「ｂｉｎｄ」などの
要素を使用して、他の処理を実行することができる。メ
ッセージまたは「ｓｍｅｘ」オブジェクトについては、
付録Ａで詳細に説明する。

【００８８】「ｂｉｎｄ」要素は、「ｆｏｒ」属性を含
むことも可能であり、これによってその動作をページ上
の他のオブジェクトに結びつけることができる。たとえ
ば、以下のようなマークアップ <bind for = "prompt 1" event = "onComplete" targetElement = "prompt 2" = targetMethod = "start" /> は、オブジェクト「ｐｒｏｍｐｔ１」がイベント「ｏ
ｎＣｏｍｐｌｅｔｅ」を送信したときに、オブジェクト
「ｐｒｏｍｐｔ２」のｓｔａｒｔメソッドを呼び出
す。

【００８９】再度図５を参照すると、Ｗｅｂサーバ２０
２はサーバ側のプラグイン宣言型オーサリングツールま
たはモジュール３２０を含むことができる（たとえば、
ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎによるＡ
ＳＰまたはＡＳＰ＋、ＪＳＰなど）。サーバ側プラグイ
ンモジュール３２０は、クライアント側マークアップ、
ならびにＷｅｂサーバ２０２にアクセス中のクライアン
トのタイプに特有な書式のマークアップでさえも、動的
に生成することが可能である。クライアント／サーバの
関係が最初に確立された時点で、クライアント情報がＷ
ｅｂサーバ２０２に提供されるか、またはＷｅｂサーバ
２０２が、クライアントの機能を検出するためのモジュ
ールまたはルーチンを含むことができる。この方式で
は、サーバ側プラグインモジュール３２０が、各音声認
識シナリオについて、すなわち電話８０を介した音声専
用の、またはデバイス３０向けマルチモーダルの、クラ
イアント側マークアップを生成することができる。一貫
したクライアント側モデル（各アプリケーションで使用
できるｒｅｃｏおよびプロンプト制御）を使用すること
によって、多くの異なるクライアント向けにアプリケー
ションをオーサリングすることが非常に容易になる。

【００９０】クライアント側マークアップを動的に生成
することに加えて、図８、図９、および図１０のマーク
アップ例を使用して図６に図示したクレジットカード情
報を取得するなどの高位ダイアログモジュールは、アプ
リケーションをオーサリング中の開発者が使用するため
に、サーバ側制御が記憶装置３２４に格納される場合と
同様に実施することができる。一般に、高位ダイアログ
モジュール３２４は、開発者によって指定されたパラメ
ータに基づいて、クライアント側マークアップおよびス
クリプトを、音声専用およびマルチモーダルの両方のシ
ナリオで動的に生成する。高位ダイアログモジュール
は、開発者のニーズに合うようなクライアント側マーク
アップを生成するためのパラメータを含むことができ
る。たとえば、クレジットカード情報モジュールは、ク
ライアント側マークアップスクリプトがどのタイプのク
レジットカードを使用できるかを示すパラメータを含む
ことができる。サーバ側プラグインモジュール３２０で
使用するＡＳＰ＋ページの例が、図１３に示されてい
る。

【００９１】以上、本発明について、好ましい実施形態
を参照しながら説明してきたが、当分野の技術者であれ
ば、本発明の精神および範囲を逸脱することなく、形態
および詳細の変更が可能であることを理解されよう。

【００９２】付録Ａ１はじめに以下のタグは、ドキュメントが音声を入力または出力媒
体として使用できるようにする、マークアップ要素のセ
ットである。タグは、ＨＴＭＬ、ＸＨＴＭＬ、ｃＨＴＭ
Ｌ、ＳＭＩＬ、ＷＭＬ、などのような任意のＳＧＭＬ導
出型マークアップ言語に埋め込むことのできる、独立型
ＸＭＬとなるように設計される。本明細書で使用される
タグは、ワシントン州ＲｅｄｍｏｎｄのＭｉｃｒｏｓｏ
ｆｔＣｏｒｐｏｒａｔｉｏｎから市販されているよく
知られたメソッドである、ＳＡＰＩ５．０と同様であ
る。タグ、要素、イベント、属性、プロパティ、戻り値
などは、単なる例示的なものであって、限定的なものと
みなしてはならない。本明細書では音声およびＤＴＭＦ
認識について例示しているが、同様のタグを他の認識形
態にも提供することができる。

【００９３】本明細書で論じた主な要素は、以下の通り
である。＜ｐｒｏｍｐｔ．．．＞音声合成構成およびプロンプ
トを再生する場合＜ｒｅｃｏ．．．＞認識装置構成ならびに認識の実行
および後処理をする場合＜ｇｒａｍｍａｒ．．．＞入力文法リソースを指定す
る場合＜ｂｉｎｄ．．．＞認識結果を処理する場合＜ｄｔｍｆ．．．＞ＤＴＭＦを構成および制御する場
合

【００９４】２ＲｅｃｏＲｅｃｏ要素は、可能なユーザ入力および入力結果を処
理するための手段を指定する際に使用する。したがっ
て、主な要素は＜ｇｒａｍｍａｒ＞および＜ｂｉｎｄ＞
であり、認識装置のプロパティを構成するためのリソー
スを含む。

【００９５】Ｒｅｃｏ要素は、ＳｔａｒｔおよびＳｔｏ
ｐメソッドを介してアップレベルブラウザで、あるいは
ＳＭＩＬコマンドを使用してＳＭＩＬで使用可能なブラ
ウザで、プログラムに基づいて活動化される。ページ上
に存在することで、ダウンレベルブラウザ（すなわち、
非スクリプトサポーティングブラウザ）では宣言的に活
動状態であるとみなされる。複数の文法を並行して活動
化できるようにするために、複数のＲｅｃｏ要素を同時
に活動状態であるとみなすことができる。

【００９６】Ｒｅｃｏは、実行できる認識シナリオの種
類および認識プラットフォームの動作を区別するため
に、特定のモード、すなわち「ａｕｔｏｍａｔｉｃ」、
「ｓｉｎｇｌｅ」、または「ｍｕｌｔｉｐｌｅ」を採用
することも可能である。

【００９７】２．１ＲｅｃｏコンテンツＲｅｃｏ要素には、１つまたは複数の文法および任意選
択でｂｉｎｄ要素のセットが含まれ、これが認証結果を
検査し、値に関連する部分を含む側のページにコピーす
る。

【００９８】アップレベルブラウザでは、Ｒｅｃｏが個
々の文法規則のプログラムに基づく活動化および非活動
化をサポートする。認識文脈に関しては、デフォルト時
に文法中のすべての最高位規則が活動状態であることに
も留意されたい。

【００９９】２．１．１＜ｇｒａｍｍａｒ＞要素ｇｒａｍｍａｒ要素は、ｓｒｃ属性を使用するインライ
ンまたは参照済みどちらかの文法を指定するのに使用さ
れる。典型的には、少なくとも１つの文法（インライン
または参照済み）が指定される。インライン文法は、テ
キストベースの文法フォーマットであってよいが、参照
済み文法はテキストベースまたはバイナリタイプであっ
てよい。複数のｇｒａｍｍａｒ要素を指定することがで
きる。複数のｇｒａｍｍａｒ要素が指定される場合、文
法内の規則は、同じ文法内の特別規則として追加され
る。同じ名前を持つどんな規則も上書きされる。

【０１００】属性：・ｓｒｃ：インライン文法が指定される場合、任意選択
である。文法のＵＲＩが含まれる。文法内のすべての最
高位規則は、認識文脈に関してデフォルト時に活動状態
であることに留意されたい。・ｌａｎｇＩＤ：任意選択である。どの言語音声エンジ
ンを使用するべきであるかを示す文字列。文字列フォー
マットはｘｍｌ：ｌａｎｇ定義に従う。たとえば、ｌａ
ｎｇＩＤ＝「ｅｎ−ｕｓ」は米国英語を示す。この属性
は、ｌａｎｇＩＤが文法ＵＲＩに指定されていない場合
に限って有効である。指定されていない場合、デフォル
トの値は米国英語である。

【０１０１】ｌａｎｇＩＤが複数箇所で指定される場
合、ｌａｎｇＩＤは最低位範囲から優先順位に従うもの
であり、すなわちリモート文法ファイル（すなわち、言
語ｉｄが文法範囲内で指定される）の次にｇｒａｍｍａ
ｒ要素、その次にｒｅｃｏ要素となる。

【０１０２】ｓｒｃ参照済み文法およびインライン文法
の両方が指定された場合、インライン規則が参照済み規
則に追加され、同じ名前を有するどんな規則も上書きさ
れる。

【０１０３】２．１．２＜ｂｉｎｄ＞要素ｂｉｎｄ要素は認識結果からの値をページに結合するの
に使用される。

【０１０４】ｂｉｎｄ要素によって消費される認識結果
は、認識結果を指定するための意味マークアップ言語
（ＳＭＬ）を含むＸＭＬドキュメントであってよい。そ
のコンテンツには、意味値、実際に話された言葉、およ
び確信値が含まれる。ＳＭＬは代替の認識選択肢をふく
むこともできる（Ｎ最高認識結果の場合と同様）。「シ
アトルからボストンに行きたい」という発話に対するＳ
ＭＬドキュメントの例を以下に示す。 <sml confidence="40"> <travel text="シアトルからボストンに行きたい"> <origin_city confidence="45"> シアトル </origin_city> <dest_city confidence="35"> ボストン </dest_city> </travel> </sml>

【０１０５】文法での認識は、意味マークアップ言語ま
たはＳＭＬでＸＭＬドキュメントを作成することが想定
されているため、ＳＭＬドキュメントからｂｉｎｄされ
る値はＸＰａｔｈ照会を使用して参照される。また、値
のｂｉｎｄ先となるページ内の要素は一意に識別される
べきである（形態制御となる見込みである）ため、これ
らのターゲット要素は直接参照される。

【０１０６】属性：・ｔａｒｇｅｔＥｌｅｍｅｎｔ：必須。ＳＭＬからのｖ
ａｌｕｅコンテンツが割り当てられる要素（Ｗ３ＣＳ
ＭＩＬ２．０の場合と同様）。・ｔａｒｇｅｔＡｔｔｒｉｂｕｔｅ：任意選択。ＳＭＬ
からのｖａｌｕｅコンテンツが割り当てられるターゲッ
ト要素の属性（ＳＭＩＬ２．０のａｔｔｒｉｂｕｔｅ
Ｎａｍｅ属性を使用する場合と同様）。指定されない場
合、デフォルトの値は「ｖａｌｕｅ」。・ｔｅｓｔ：任意選択。認識結果が割り当てられる条件
を示すＸＭＬＰａｔｔｅｒｎ（Ｗ３ＣＸＭＬＤＯ
Ｍ指定の場合と同様）文字列。デフォルト条件はｔｒｕ
ｅ。・ｖａｌｕｅ：必須。ターゲット要素に割り当てられる
認識結果ドキュメントからの値を指定する、ＸＰＡＴＨ
（Ｗ３ＣＸＭＬＤＯＭ指定の場合と同様）文字列。

【０１０７】例：上記ＳＭＬの戻りが与えられると、以
下のｒｅｃｏ要素は、ｏｒｉｇｉｎ＿ｃｉｔｙおよびｄ
ｅｓｔ＿ｃｉｔｙ内の値を、ターゲットページ要素ｔｘ
ｔＢｏｘＯｒｉｇｉｎおよびｔｘｔＢｏｘＤｅｓｔに転
送するためにｂｉｎｄを使用する。

【０１０８】このｂｉｎｄは、以下の例に示されるよう
に、条件付きとすることが可能であり、ｂｉｎｄ動作の
前提条件として、ｄｅｓｔ＿ｃｉｔｙ結果の確信属性に
関するテストが実行される。 <bind targetElement="txtBoxDest" value="//dest_city" test="/sml/dest_city[@confidence $gt$ 40]" />

【０１０９】ｂｉｎｄ要素は、ｄｏｗｎｌｅｖｅｌまた
はアップレベルブラウザで認識結果を処理する単純な宣
言手段である。より複雑な処理の場合、アップレベルブ
ラウザがサポートするｒｅｃｏＤＯＭオブジェクト
は、プログラムに基づくスクリプト分析および認識戻り
値の後処理を可能にするために、ｏｎＲｅｃｏイベント
ハンドラを実施する。

【０１１０】２．２属性およびプロパティ以下の属性は、すべてのブラウザによってサポートさ
れ、プロパティはアップレベルブラウザによってサポー
トされる。

【０１１１】２．２．１属性以下のＲｅｃｏの属性は、ダイアログターン（ｄｉａｌ
ｏｇｔｕｒｎ）に関して音声認識装置を構成するのに
使用される。・ｉｎｉｔｉａｌＴｉｍｅｏｕｔ：任意選択。認識開始
から音声検出までのミリ秒単位の時間。この値が認識プ
ラットフォームに渡され、これを超えると、認識プラッ
トフォームからｏｎＳｉｌｅｎｃｅイベントが提供され
る（２．４．２を参照）。指定されない場合、音声プラ
ットフォームはデフォルト値を使用する。・ｂａｂｂｌｅＴｉｍｅｏｕｔ：任意選択。認識装置が
音声検出後に結果を戻さなければならないミリ秒単位の
時間枠。ａｕｔｏｍａｔｉｃおよびｓｉｎｇｌｅモード
でのｒｅｃｏの場合、これは音声検出から停止コールま
での時間枠に適用される。「ｍｕｌｔｉｐｌｅ」モード
でのｒｅｃｏの場合、このタイムアウトは音声検出から
各認識戻りまでの時間枠に適用され、すなわちこの時間
枠は、それぞれの結果が戻されるかまたは他のイベント
後に再開される。これを超えると、エラーが発生したか
否かに従って、様々なイベントが投じられる。認識装置
が依然として音声を処理している場合、たとえば非常に
長い発話の場合などは、ｓｔａｔｕｓコード１３（２．
４．４を参照）でｏｎＮｏＲｅｃｏイベントが投じられ
る。ただし他のなんらかの理由でタイムアウトを超えた
場合は、認識装置のエラーである可能性が高いため、ｏ
ｎＴｉｍｅｏｕｔイベントが投じられる。指定されない
場合は、音声プラットフォームはデフォルトとして内部
値をとる。・ｍａｘＴｉｍｅｏｕｔ：任意選択。認識開始から結果
がブラウザに戻されるまでの、ミリ秒単位の時間枠。こ
れを超えると、ブラウザによってｏｎＴｉｍｅｏｕｔイ
ベントが投じられ、これは、分散環境でのネットワーク
または認識装置の障害に応じるものである。「ｍｕｌｔ
ｉｐｌｅ」モードでのｒｅｃｏの場合、ｂａｂｂｌｅＴ
ｉｍｅｏｕｔを使用する場合と同様に、この時間枠は、
それぞれの結果が戻されるかまたは他のイベント後に再
開される。ｍａｘＴｉｍｅｏｕｔ属性は、ｉｎｉｔｉａ
ｌＴｉｍｅｏｕｔおよびｂａｂｂｌｅＴｉｍｅｏｕｔの
合計より大きいかまたは等しくなければならないことに
留意されたい。指定されない場合は、値はブラウザのデ
フォルト値となる。・ｅｎｄＳｉｌｅｎｃｅ：任意選択。ａｕｔｏｍａｔｉ
ｃモードでのＲｅｃｏの場合、その後認識結果が戻され
る、音声がないはずの発話終了後の無音の、ミリ秒単位
の時間枠。ｒｅｃｏの場合はａｕｔｏｍａｔｉｃ以外の
モードは無視される。指定されない場合は、デフォルト
としてプラットフォーム内部値をとる。・ｒｅｊｅｃｔ：任意選択。認識拒否のしきい値であっ
て、これを下回るとプラットフォームは「ｎｏｒｅｃ
ｏ」イベントを投じる。指定されない場合、音声プラッ
トフォームはデフォルト値を使用する。確信値は０から
１００まで（整数）。拒否値はこの間となる。・ｓｅｒｖｅｒ：任意選択。音声プラットフォームのＵ
ＲＩ（タグインタープリタと認識プラットフォームが共
に配置されていない場合に使用する）。値の一例は、ｓ
ｅｒｖｅｒ＝ｐｒｏｔｏｃｏｌ：／／ｙｏｕｒｓｐｅｅ
ｃｈｐｌａｔｆｏｒｍである。アプリケーション作者
は、たとえば次のようにＵＲＩ文字列に照会文字列を追
加することによって、音声プラットフォーム特有の設定
を提供することもできる。 protocol://yourspeechplatform?bargeinEnergyThresho
ld=0.5 ・ｌａｎｇＩＤ：任意選択。どの言語音声エンジンを使
用するべきかを示す文字列。文字列フォーマットは、ｘ
ｍｌ：ｌａｎｇ定義に従う。たとえば、ｌａｎｇＩＤ＝
「ｅｎ−ｕｓ」は、米国英語を示す。この属性は、ｇｒ
ａｍｍａｒ要素にｌａｎｇＩＤが指定されない場合に限
って有効である（２．１．１を参照）。・ｍｏｄｅ：任意選択。追従する認識モードを指定する
文字列。指定されない場合は、デフォルトとして「ａｕ
ｔｏｍａｔｉｃ」モードをとる。

【０１１２】２．２．２プロパティ以下のプロパティには、認識プロセスによって戻される
結果が含まれる（アップレベルブラウザによってサポー
トされる）。・ｒｅｃｏＲｅｓｕｌｔ：読取り専用。２．１．２で記
載したように、意味マークアップ言語（ＳＭＬ）を含む
ＸＭＬＤＯＭノードオブジェクト内に保持される認識
の結果。何も認識されない場合、プロパティはｎｕｌｌ
を戻す。・ｔｅｘｔ：読取り／書込み。認識された言葉のテキス
トを保持する文字列（すなわち、読取りモードでのｒｅ
ｃｏＲｅｓｕｌｔで、ＳＭＬ認識戻りでの最高位要素の
テキスト属性のコンテンツに関する略記）。書込みモー
ドの場合、文字列を割り当てることが可能であり、次い
でこれが、文字列が認識結果に対応するかのように解析
される。書込みモードは、マークアップタグの拡張およ
びその処理を、クライアントデバイス上の他の構成要素
またはアプリケーションに対しても可能にするものであ
る。文字列は「ｓｍｅｘ」メッセージオブジェクトから
取得することができる。・ｓｔａｔｕｓ：読取り専用。認識プラットフォームか
ら戻される状態コード。可能な値は、認識が成功した場
合は０、または失敗値は−１から−４（Ｓｔａｒｔメソ
ッド（セクション２．３．１）およびＡｃｔｉｖａｔｅ
メソッド（セクション２．３．４）での可能な例外に定
義されたとおり）、ならびに認識装置イベントの受取り
時に設定される状態値−１１から−１５（２．４を参
照）である。

【０１１３】２．３オブジェクトメソッドＲｅｃｏの活動化およびｇｒａｍｍａｒの活動化は、Ｒ
ｅｃｏのＤＯＭオブジェクトにあるいかのメソッドを使
用して制御することができる。これらのメソッドを使用
すると、アップレベルブラウザがＲｅｃｏオブジェクト
を開始および停止すること、進行中の認識を取り消すこ
と、ならびに個々の文法最高位規則（アップレベルブラ
ウザのみ）を活動化および非活動化することができる。

【０１１４】２．３．１ＳｔａｒｔＳｔａｒｔメソッドは、明示的に非活動化されていない
認識文脈に対してすべての最高位規則を活動状態の文法
として使用することで、認識プロセスを開始する。

【０１１５】構文：Ｏｂｊｅｃｔ．Ｓｔａｒｔ（）戻り値：なし例外：このメソッドは、非ゼロのｓｔａｔｕｓコードを
設定し、障害時にはｏｎＮｏＲｅｃｏイベントを開始
（ｆｉｒｅ）する。可能な障害には、文法がない（ｒｅ
ｃｏｓｔａｔｕｓ＝−１）、文法のコンパイル障害と
同様に様々な理由で発生することのある文法のロード障
害、ＵＲＩが存在しない（ｒｅｃｏｓｔａｔｕｓ＝−
２）、または音声プラットフォームのエラー（ｒｅｃｏ
ｓｔａｔｕｓ＝−３）が含まれる。

【０１１６】２．３．２ＳｔｏｐＳｔｏｐメソッドは、認識プロセスを終了させるための
コールである。Ｒｅｃｏオブジェクトは音声の録音を停
止し、認識装置は受け取った音声に関する認識結果を、
録音が停止した時点まで戻す。Ｒｅｃｏが使用するすべ
ての認識リソースが解除され、その文法が非活動化され
る。（このメソッドは、認識装置それ自体が、完全な文
章を認識した後に検出終了時点でｒｅｃｏオブジェクト
を停止するので、ａｕｔｏｍａｔｉｃモードでの典型的
な認識のために明示的に使用される必要のないことに留
意されたい。）Ｒｅｃｏが開始されていない場合、コー
ルは無効である。

【０１１７】構文：Ｏｂｊｅｃｔ．Ｓｔｏｐ（）戻り値：なし例外：なし

【０１１８】２．３．３ＣａｎｃｅｌＣａｎｃｅｌメソッドは、音声を認識装置に送るのを停
止し、文法を非活動化して認識装置を解除し、どのよう
な認識結果も廃棄する。ブラウザは、取り消された認識
に関する認識結果を無視する。認識装置が開始されてい
ない場合、コールは無効である。

【０１１９】構文：Ｏｂｊｅｃｔ．Ｃａｎｃｅｌ（）戻り値：なし例外：なし

【０１２０】２．３．４ＡｃｔｉｖａｔｅＡｃｔｉｖａｔｅメソッドは、文脈自由文法（ＣＦＧ）
の最高位規則を活動化する。活動化は、「Ｓｔａｒｔｅ
ｄ」認識プロセス中は無効となるため、認識が開始され
る前に呼び出さなければならない。明示的に非活動化さ
れていない認識文脈に関するすべての文法最高位規則
は、すでに活動状態として処理されていることに留意さ
れたい。

【０１２１】構文：Ｏｂｊｅｃｔ．Ａｃｔｉｖａｔｅ（ｓｔｒＮａｍｅ）；パラメータ：・ｓｔｒＮａｍｅ：必須。活動化される規則の名前戻り値：なし例外：なし

【０１２２】２．３．５Ｄｅａｃｔｉｖａｔｅこのメソッドは、文法の最高位規則を非活動化する。規
則が存在しない場合、メソッドは無効である。

【０１２３】構文：Ｏｂｊｅｃｔ．Ｄｅａｃｔｉｖａｔｅ（ｓｔｒＮａｍ
ｅ）；パラメータ：・ｓｔｒＮａｍｅ：必須。非活動化される規則の名前。
文字列が空であると、すべての規則が非活動化される。戻り値：なし例外：なし

【０１２４】２．４ＲｅｃｏイベントＲｅｃｏＤＯＭオブジェクトは以下のイベントをサポ
ートするが、そのハンドラは、ｒｅｃｏ要素の属性とし
て指定することができる。

【０１２５】２．４．１ｏｎＲｅｃｏ：このイベント
は、認識装置がブラウザに使用できる認識結果を得たと
きに開始される。ａｕｔｏｍａｔｉｃモードでのｒｅｃ
ｏの場合、このイベントは認識プロセスを自動的に停止
し、リソースを消去する（２．３．２を参照）。ｏｎＲ
ｅｃｏは、典型的には、認識結果のプログラムに基づい
た分析と、結果をページに入れる処理に使用される。

【０１２６】構文：

【０１２７】

【表１】

【０１２８】イベントオブジェクト情報：

【０１２９】

【表２】

【０１３０】イベントプロパティ：イベントハンドラは
プロパティを直接受け取らないが、ハンドラはデータに
関するイベントオブジェクトを照会することができる
（イベントオブジェクトの用法については以下の例を参
照）。

【０１３１】例：以下のＸＨＴＭＬフラグメントは、ｏ
ｎＲｅｃｏを使用して認識出力を解析するためのスクリ
プトを呼び出し、適切なフィールドに値を割り当てる。 <input name="txtBoxOrigin" type="text" /> <input name="txtBoxDest" type="text" /> <reco onReco="processCityRecognition()"/> <grammar src="/grammars/cities.xml" /> </reco> <script><![CDATA[ function processCityRecognition () { smlResult = event.srcElement.recoResult; origNode = smlResult.selectSingleNode("//origin_city"); if (origNode != null) txtBoxOrigin.value = origNode.text; destNode = smlResult.selectSingleNode("//dest_city"); if (destNode != null) txtBoxDest.value = destNode.text; } ]]></script>

【０１３２】２．４．２ｏｎＳｉｌｅｎｃｅ：ｏｎＳ
ｉｌｅｎｃｅは、ＲｅｃｏのｉｎｉｔｉａｌＴｉｍｅｏ
ｕｔ属性で指定された持続期間（２．２．１を参照）の
前に、認識プラットフォームによって検出された音声の
ないイベントを処理する。このイベントは、ａｕｔｏｍ
ａｔｉｃｒｅｃｏｇｎｉｔｉｏｎモードの場合に認識プ
ロセスを自動的に取り消す。

【０１３３】構文：

【０１３４】

【表３】

【０１３５】イベントオブジェクト情報：

【０１３６】

【表４】

【０１３７】イベントプロパティ：イベントハンドラは
プロパティを直接受け取らないが、ハンドラはデータに
関するイベントオブジェクトを照会することができる。

【０１３８】２．４．３ｏｎＴｉｍｅｏｕｔｏｎＴｉｍｅｏｕｔは、典型的には音声プラットフォー
ムからのエラーを反映する、２種類のイベントを処理す
る。・認識が完了する前に満了となったｍａｘｔｉｍｅ属性
（２．２．１を参照）に指定された時間枠を送信する、
タグインタープリタによって投じられたイベントを処理
する。このイベントは、典型的には、分散アーキテクチ
ャで発生する可能性のある問題を反映する。・認識が開始されたにもかかわらず、ｂａｂｂｌｅＴｉ
ｍｅｏｕｔ（２．２．１を参照）によって指定された時
間枠内に認識なしで処理が停止した場合、音声認識プラ
ットフォームによって投じられたイベントも処理する
（ｉｉ）。

【０１３９】このイベントは、認識処理を自動的に取り
消す。構文：

【０１４０】

【表５】

【０１４１】イベントオブジェクト情報：

【０１４２】

【表６】

【０１４３】イベントプロパティ：イベントハンドラは
プロパティを直接受け取らないが、ハンドラはデータに
関するイベントオブジェクトを照会することができる。

【０１４４】２．４．４ｏｎＮｏＲｅｃｏ：ｏｎＮｏ
Ｒｅｃｏは音声認識プラットフォームによって投じられ
たイベントが、有効な認識結果を戻すことができない場
合のハンドラである。発生する可能性のある様々なケー
スが、ｓｔａｔｕｓコードによって区別される。イベン
トは認識プロセスを自動的に停止する。

【０１４５】構文：

【０１４６】

【表７】

【０１４７】イベントオブジェクト情報：

【０１４８】

【表８】

【０１４９】イベントプロパティ：イベントハンドラは
プロパティを直接受け取らないが、ハンドラはデータに
関するイベントオブジェクトを照会することができる。

【０１５０】３ｐｒｏｍｐｔｐｒｏｍｐｔ要素は、システム出力を指定するのに使用
される。そのコンテンツは、以下の１つまたは複数であ
ってよい。・インラインまたは参照済みテキスト。韻律的またはそ
の他の音声出力情報でマークアップすることができる。・含む側のドキュメントから提示時に取り出された変数
値・音声ファイルへのリンク

【０１５１】ｐｒｏｍｐｔ要素は、ダウンレベルブラウ
ザによって、またはアップレベルブラウザのオブジェク
トメソッドによって、宣言的に解釈される（またはＳＭ
ＩＬコマンドによって活動化される）。

【０１５２】３．１ｐｒｏｍｐｔのコンテンツｐｒｏｍｐｔ要素は、テキストまたは音声ファイルの参
照のいずれか、あるいはその両方としての、システム出
力用のリソースを含む。単純なｐｒｏｍｐｔは、以下の
ように、出力用に必要なテキストを指定するだけでよ
い。 <prompt id="Welcome"> ＡＣＭＥ天気予報にお電話いただきありがとうございま
した。 </prompt> この単純なテキストに、以下に記載する種類のいずれか
のマークアップをさらに含めることができる。

【０１５３】３．１．１音声合成マークアップ任意のフォーマットの音声合成マークアップ言語を、ｐ
ｒｏｍｐｔ要素内部で使用することができる。（このフ
ォーマットは、３．２．１に記載した「ｔｔｓ」属性で
指定することができる。）以下の例は、内部にある一定
の語句を強調するための命令を備えたテキストを示すも
のである。 <prompt id="giveBalance"> 口座に <emph> ５ドル </emph> 残金があります。 </prompt>

【０１５４】３．１．２動的コンテンツｐｒｏｍｐｔの実際のコンテンツは、ｐｒｏｍｐｔが出
力される直前にクライアント側で計算する必要のある場
合がある。特定の値を確認するために、たとえば変数内
で値をデリファレンスする必要がある。その場合は、ｖ
ａｌｕｅ要素を使用することができる。

【０１５５】Ｖａｌｕｅ要素ｖａｌｕｅ：任意選択。ドキュメント内にある要素の値
を取り出す。

【０１５６】属性：・ｔａｒｇｅｔＥｌｅｍｅｎｔ：任意選択。ｈｒｅｆま
たはｔａｒｇｅｔＥｌｅｍｅｎｔのいずれかを指定する
こと。取り出される値を含む要素のｉｄ。・ｔａｒｇｅｔＡｔｔｒｉｂｕｔｅ：任意選択。値が取
り出される要素の属性。・ｈｒｅｆ：任意選択。音声セグメントのＵＲＩ。ｈｒ
ｅｆとｔａｒｇｅｔＥｌｅｍｅｎｔの両方が存在する場
合、ｈｒｅｆがｔａｒｇｅｔＥｌｅｍｅｎｔに優先され
る。

【０１５７】ｔａｒｇｅｔＥｌｅｍｅｎｔ属性は、含む
側のドキュメント内にある要素の参照に使用される。ｉ
ｄがｔａｒｇｅｔＥｌｅｍｅｎｔによって指定されてい
る要素のコンテンツが、合成されるテキストに挿入され
る。所望のコンテンツが要素の属性内に保持されている
場合、ｔａｒｇｅｔＡｔｔｒｉｂｕｔｅ属性を使用し
て、ｔａｒｇｅｔＥｌｅｍｅｎｔに必要な属性を指定す
ることができる。これは、たとえばＨＴＭＬ書式制御の
値をデリファレンスするのに役立つ。以下の例示では、
ｐｒｏｍｐｔが出力される前に、「ｔｘｔＢｏｘＯｒｉ
ｇｉｎ」要素および「ｔｘｔＢｏｘＤｅｓｔ」要素の
「ｖａｌｕｅ」属性がテキストに挿入される。

【０１５８】３．１．３音声ファイルｖａｌｕｅ要素は、合成されたｐｒｏｍｐｔの代わり
に、あるいはその中で再生するために、事前に録音され
た音声ファイルを参照するのに使用することもできる。
以下の例では、ｐｒｏｍｐｔの終わりにビーッという音
を鳴らす。

【０１５９】３．１．４参照済みプロンプトコンテンツをインラインで指定する代わりに、空の要素
を備えたｓｒｃ属性を使用することで、以下のように、
ＵＲＩを介して外部コンテンツを参照することができ
る。 <prompt id="Welcome" src="/ACMEWeatherPrompts#Welc
ome"/> ｓｒｃ属性のターゲットは、インラインプロンプト用に
指定された上記コンテンツのいずれかまたはすべてを保
持することができる。

【０１６０】３．２属性およびプロパティｐｒｏｍｐｔ要素は、以下の属性（ダウンレベルブラウ
ザ）およびプロパティ（ダウンレベルおよびアップレベ
ルブラウザ）を保持する。

【０１６１】３．２．１属性・ｔｔｓ：任意選択。テキストから音声への合成に関す
るマークアップ言語タイプ。デフォルトの値は「ＳＡＰ
Ｉ５」。・ｓｒｃ：インラインプロンプトが指定された場合は任
意選択。参照済みプロンプトのＵＲＩ（３．１．４を参
照）。・ｂａｒｇｅｉｎ：任意選択。整数。プロンプトの開始
から聴取者が再生に割り込んだときまでの、ミリ秒単位
の時間枠。デフォルトの値は無限であり、すなわちｂａ
ｒｇｅｉｎは使用できない。Ｂａｒｇｅｉｎ＝０の場合
は、即時ｂａｒｇｅｉｎが可能である。これは、プラッ
トフォームがサポートしているどんな種類の割り込みに
も適用される。ｒｅｃｏが開始された時点で、キーワー
ドまたはエネルギーベースのｂａｒｇｅｉｎ時間のどち
らが使用可能であるかに応じて、いずれかがこの方法で
構成される。・ｐｒｅｆｅｔｃｈ：任意選択。ページがロードされた
ときに、ｐｒｏｍｐｔをブラウザ側で即時に合成および
キャッシュするべきであるかどうかを示す、ブールフラ
グ。デフォルトの値はｆａｌｓｅである。

【０１６２】３．２．２プロパティアップレベルブラウザは、ｐｒｏｍｐｔのＤＯＭオブジ
ェクト内で以下のプロパティをサポートする。・ｂｏｏｋｍａｒｋ：読取り専用。発生した最新の合成
ブックマークのテキストを録音する文字列オブジェク
ト。・ｓｔａｔｕｓ：読取り専用。音声プラットフォームに
よって戻されるｓｔａｔｕｓコード。・Ｉｎｎｅｒｔｅｘｔ：読取り専用。このプロパティ
は、ｐｒｏｍｐｔのテキスト表現形式（ｔｒａｎｓｃｒ
ｉｐｔｉｏｎ）を提供し、これが合成装置に送られる。
たとえば、ｐｒｏｍｐｔが可聴波ファイルの再生を含む
場合、このプロパティはそのｐｒｏｍｐｔのテキストバ
ージョン（可聴波ファイルと共に格納されている場合が
多い）を提供し、次いでたとえば、ｐｒｏｍｐｔのテキ
ストバージョンを構成要素またはクライアントデバイス
上で実行中のアプリケーションに提供することによっ
て、表示されるか、そうでなければ使用される。ｉｎｎ
ｅｒｔｅｘｔプロパティは、動的コンテンツを含むｐｒ
ｏｍｐｔのテキストバージョンを提供する際にも使用で
きる。

【０１６３】３．３ｐｒｏｍｐｔメソッドｐｒｏｍｐｔ再生は、ｐｒｏｍｐｔのＤＯＭオブジェク
トにある以下のメソッドを使用して制御することができ
る。この方法では、アップレベルブラウザが、ｐｒｏｍ
ｐｔオブジェクトの開始（ｓｔａｒｔ）および停止（ｓ
ｔｏｐ）、進行中のｐｒｏｍｐｔの一時停止（ｐａｕｓ
ｅ）および再開（ｒｅｓｕｍｅ）、ならびに合成された
音声の速度および音量の変更（ｃｈａｎｇｅ）を実行す
ることができる。

【０１６４】３．３．１Ｓｔａｒｔｐｒｏｍｐｔの再生を開始する。引数が与えられない限
り、メソッドはオブジェクトのコンテンツを再生する。
単一のｐｒｏｍｐｔオブジェクトのみが所与の時間に
「開始された」とみなされるため、Ｓｔａｒｔが連続し
て呼び出されると、すべての再生が連続して行われる。

【０１６５】構文：Ｏｂｊｅｃｔ．Ｓｔａｒｔ（［ｓｔｒＴｅｘｔ］）；パラメータ：・ｓｔｒＴｅｘｔ：合成装置に送信されるテキスト。存
在する場合は、この引数がオブジェクトのコンテンツに
優先される。戻り値：なし例外：ｓｔａｔｕｓ＝−１に設定すると、音声バッファ
がサーバによってすでに解除されている場合はｏｎＣｏ
ｍｐｌｅｔｅイベントが開始される。

【０１６６】３．３．２Ｐａｕｓｅ音声バッファをフラッシングせずに再生を一時停止す
る。再生が一時停止または停止されている場合、このメ
ソッドは無効である。

【０１６７】構文：Ｏｂｊｅｃｔ．Ｐａｕｓｅ（）；戻り値：なし例外：なし

【０１６８】３．３．３Ｒｅｓｕｍｅ音声バッファをフラッシングせずに再生を再開する。再
生が一時停止されていない場合、このメソッドは無効で
ある。

【０１６９】構文：Ｏｂｊｅｃｔ．Ｒｅｓｕｍｅ（）；戻り値：なし例外：再開が失敗すると例外が投じられる。

【０１７０】３．３．４Ｓｔｏｐすでに停止されていなければ再生を停止し、音声バッフ
ァをフラッシングする。再生がすでに停止されている場
合、このメソッドは音声バッファをフラッシングするだ
けである。

【０１７１】構文：Ｏｂｊｅｃｔ．Ｓｔｏｐ（）；戻り値：なし例外：なし

【０１７２】３．３．５Ｃｈａｎｇｅ再生の速度および／または音量を変更する。Ｃｈａｎｇ
ｅは再生中に呼び出すことができる。

【０１７３】構文：Ｏｂｊｅｃｔ．Ｃｈａｎｇｅ（ｓｐｅｅｄ，ｖｏｌｕｍ
ｅ）；パラメータ：・ｓｐｅｅｄ：必須。変更する因数。ｓｐｅｅｄ＝２．
０は現在の速度を２倍にする、ｓｐｅｅｄ＝０．５は現
在の速度を半分にする、ｓｐｅｅｄ＝０はデフォルト値
を復元するという意味である。・ｖｏｌｕｍｅ：必須。変更する因数。ｖｏｌｕｍｅ＝
２．０は現在の音量を２倍にする、ｖｏｌｕｍｅ＝０．
５は現在の音量を半分にする、ｖｏｌｕｍｅ＝０はデフ
ォルト値を復元するという意味である。戻り値：なし例外：なし

【０１７４】３．３．６ｐｒｏｍｐｔの制御例以下の例は、上記のメソッドを使用して、キーワード割
込み機構をサポートしていないプラットフォームに対し
て、ｐｒｏｍｐｔの制御をどのようにオーサリングでき
るかを示すものである。 <html> <title> プロンプト制御 </title> <head> <script> <!-- function checkKWBargein() { news.change(1.O, 0.5); // 確認中ボリュームを下げる。 if (keyword.text == "") { // 結果は閾値未満である。 news.change(1.0, 2.0); // ボリュームを元に戻す。 keyword.Start(); // 認識を再開する。 } else { news.Stop(); // キーワードが検出された。プロンプトを停止する。 // 必要なことを行う。 } } // </script> <script for="window" event="onload"> <!-- news.Start(); keyword.Start(); // </script> </head> <body> <prompt id="news" bargein="0">

【０１７５】水曜日、来週の連邦準備会議を前に、投資
家が何らかの大きな動きに出るにはほとんど刺激を受け
なかったため、株は新たなパフォーマンスの低迷に入っ
た。ハイテク株比率の高いナスダック総合指数は４２．
５１ポイント下がって２１５６．２６で引けた。ダウ平
均株価は、午後の早い時間に反発できなかった後、１
７．０５ポイント下落して１０８６６．４６になった。 - <!-- </prompt> <reco id="keyword" reject="70" onReco="checkKWBargein()" > <grammar src=http://denali/news bargein grammar.xml /> </reco> </body> </html>

【０１７６】３．４ＰｒｏｍｐｔイベントｐｒｏｍｐｔＤＯＭオブジェクトは以下のイベントを
サポートしており、そのハンドラは、ｐｒｏｍｐｔ要素
の属性として指定することができる。

【０１７７】３．４．１ｏｎＢｏｏｋｍａｒｋ合成ブックマークに遭遇すると開始される。このイベン
トは再生を一時停止しない。

【０１７８】構文：

【０１７９】

【表９】

【０１８０】イベントオブジェクト情報：

【０１８１】

【表１０】

【０１８２】イベントプロパティ：イベントハンドラは
プロパティを直接受け取らないが、ハンドラはデータに
関するイベントオブジェクトを照会することができる。

【０１８３】３．４．２ｏｎＢａｒｇｅｉｎ：ユーザ
のｂａｒｇｅ−ｉｎイベントが検出されると開始され
る。（ｂａｒｇｅ−ｉｎイベントの構成内容、たとえ
ば、エネルギー検出またはキーワード認識を決定するこ
とはプラットフォームの責任であることに留意された
い。）このイベントハンドラを指定しても、ｂａｒｇｅ
−ｉｎは自動的にオンにならない。構文：

【０１８４】

【表１１】

【０１８５】イベントオブジェクト情報：

【０１８６】

【表１２】

【０１８７】イベントプロパティ：イベントハンドラは
プロパティを直接受け取らないが、ハンドラはデータに
関するイベントオブジェクトを照会することができる。

【０１８８】３．４．３ｏｎＣｏｍｐｌｅｔｅ：ｐｒ
ｏｍｐｔ再生が終わりに達するか、または例外（上記に
定義）に遭遇すると、開始される。

【０１８９】構文：

【０１９０】

【表１３】

【０１９１】イベントオブジェクト情報：

【０１９２】

【表１４】

【０１９３】イベントプロパティ：イベントハンドラは
プロパティを直接受け取らないが、ハンドラはデータに
関するイベントオブジェクトを照会することができる。

【０１９４】３．４．４ブックマークおよびイベント
の使用以下の例は、ｐｒｏｍｐｔ出力中にｂａｒｇｅｉｎが発
生した場合に関して、ユーザの応答の意味、すなわち出
発都市の修正または行先都市の準備のいずれであるかを
特定するために、ブックマークイベントをどのように使
用するかを示す例である。ｏｎＢａｒｇｅｉｎハンドラ
が、グローバル「ｍａｒｋ」変数をｐｒｏｍｐｔ内で遭
遇した最新のブックマークに設定するスクリプトを呼び
出し、この「ｍａｒｋ」の値が正しい値を設定するため
にｒｅｃｏの後処理関数（「ｈｅａｒｄ」）で使用され
る。 <script><![CDATA[ var mark; function interrupt( ) { mark = event.srcElement.bookmark; } function ProcessCityConfirm() { confirm.stop(); // オーディオバッファをフラッシュする。 if (mark == "mark_origin_city") txtBoxOrigin.value = event.srcElement.text; else txtBoxDest.value = event.srcElement.text; } ]]></script> <body> <input name="txtBoxOrigin" value="シアトル" type="text"/> <input name="txtBoxDest" type="text" /> ... <prompt id="confirm" onBargein="interrupt()" bargein="O"> From <bookmark mark="mark_origin_city" /> <value targetElement="orgin" targetAttribute="value" />, <bookmark mark="mark_dest_city" /> が行く先であることを復唱してください。 </prompt> <reco onReco="ProcessCityConfirm()" > <grammar src="/grm/1033/cities.xml" /> </reco> ... </body>

【０１９５】４ＤＴＭＦＤＴＭＦ認識オブジェクトを作成する。このオブジェク
トはインラインマークアップ言語構文を使用するかスク
リプティングでインスタンス化することができる。ＤＴ
ＭＦは活動化されたときに、ｐｒｏｍｐｔオブジェクト
にｂａｒｇｅ−ｉｎイベントを開始させることができ
る。ＤＴＭＦ認識に関して以下で論じるタグおよびイベ
ンティング、ならびに第５項で論じる呼制御は、一般
に、音声ブラウザ２１６とメディアサーバ２１４との間
の対話に関係するものである。

【０１９６】４．１コンテンツ・ｄｔｍｆｇｒａｍｍａｒ：インライン文法用である。・ｂｉｎｄ：ＤＴＭＦ変換結果を適切なフィールドに割
り当てる。

【０１９７】属性：・ｔａｒｇｅｔＥｌｅｍｅｎｔ：必須。部分的な認識結
果が割り当てられる要素（たとえばＷ３ＣＳＭＩＬ
２．０の場合と同様）。・ｔａｒｇｅｔＡｔｔｒｉｂｕｔｅ：認識結果が割り当
てられるターゲット要素の属性（たとえばＳＭＩＬ
２．０の場合と同様）。デフォルトの値は「ｖａｌｕ
ｅ」。・ｔｅｓｔ：割当ての条件。デフォルトの値はｔｒｕ
ｅ。例１：キーをテキストにマッピングする <input type="text" name="city"/> <DTMF id="city_choice" timeout="2000" numDigits="1"> <dtmfgrammar> <key value="1"> シアトル </key> <key value="2"> ボストン </key> </dtmfgrammar> <bind targetElement="city" targetAttribute="value" /> </DTMF> 「ｃｉｔｙ＿ｃｈｏｉｃｅ」が活動化されたときに、ユ
ーザが１を押すと「Ｓｅａｔｔｌｅ」が、２を押すと
「Ｂｏｓｔｏｎ」が入力フィールドに割り当てられ、そ
れ以外の場合は何も割り当てられない。

【０１９８】この例は、ユーザが複数のフィールドに入力する方法を
実演したものである。

【０１９９】例３：音声入力とＤＴＭＦ入力の両方を使用可能にし、ユーザがＤＴＭＦを開始した場合は音声を使用不能にする方法 <input type="text" name="credit_card_number" /> <prompt onBookmark="dtmf.Start(); speech.Start()" bargein="0"> <bookmark name="starting" /> を復唱するか、クレジットカード番号を入力してください。 </prompt> <DTMF id="dtmf" escape="#" length="16" interdigitTimeout="2000" onkeypress="speech.Stop()"> <bind targetElement="credit_card_number" /> </DTMF> <reco id="speech" > <grammar src="/grm/1033/digits.xml" /> <bind targetElement="credit_card_number" /> </reco>

【０２００】４．２属性およびプロパティ４．２．１属性・ｄｔｍｆｇｒａｍｍａｒ：必須。ＤＴＭＦ文法のＵＲ
Ｉ。

【０２０１】４．２．２プロパティ・ＤＴＭＦｇｒａｍｍａｒ：読取り／書込みＤＴＭＦを表すＸＭＬＤＯＭＮｏｄｅオブジェクト
から文字列への変換マトリックス（ＤＴＭＦ文法とも呼
ばれる）。デフォルトの文法は以下のとおり。活動化の前に基礎となる電話インターフェースカード上
でＤＴＭＦバッファを自動的にフラッシングさせるかど
うかを示す、読取り／書込みのブールフラグ。デフォル
トの値は、先行タイプを実行可能にするためのｆａｌｓ
ｅ。・ｅｓｃａｐｅ読取り／書込み。ＤＴＭＦ読取りセッションを終了する
ためのｅｓｃａｐｅキー。ｅｓｃａｐｅキーは１つのキ
ーである。・ｎｕｍＤｉｇｉｔｓ読取り／書込み。ＤＴＭＦ読取りセッションを終了する
ためのキーストロークの数。ｅｓｃａｐｅとｌｅｎｇｔ
ｈの両方が指定された場合、どちらかの条件が満たされ
るとＤＴＭＦセッションは終了する。・ｄｔｍｆＲｅｓｕｌｔユーザが入力したＤＴＭＦを格納している読取り専用文
字列。入力された場合は結果的にｅｓｃａｐｅが含まれ
る。・ｔｅｘｔ空白で分離されたトークン文字列を格納している読取り
専用文字列であって、各トークンはＤＴＭＦ文法に従っ
て変換される。・ｉｎｉｔｉａｌＴｉｍｅｏｕｔ読取り／書込み。第１のＤＴＭＦキーストロークを受け
取るための、ミリ秒単位のタイムアウト時間枠。指定さ
れない場合、デフォルトの値は電話プラットフォームの
内部設定となる。・ｉｎｔｅｒｄｉｇｉｔＴｉｍｅｏｕｔ読取り／書込み。隣接するＤＴＭＦキーストロークのた
めの、ミリ秒単位のタイムアウト時間枠。指定されない
場合、デフォルトの値は電話プラットフォームの内部設
定となる。

【０２０２】４．３オブジェクトメソッド：４．３．１ＳｔａｒｔＤＴＭＦ割込みを実行可能にし、ＤＴＭＦ読取りセッシ
ョンを開始する。

【０２０３】構文：Ｏｂｊｅｃｔ．Ｓｔａｒｔ（）；戻り値：なし例外：なし

【０２０４】４．３．２ＳｔｏｐＤＴＭＦを使用不能にする。ただし、ユーザが入力した
キーストロークは、バッファ内に残る。

【０２０５】構文：Ｏｂｊｅｃｔ．Ｓｔｏｐ（）；戻り値：なし例外：なし

【０２０６】４．３．３ＦｌｕｓｈＤＴＭＦバッファをフラッシングする。ＦｌｕｓｈはＤ
ＴＭＦセッション中に呼び出すことができない。

【０２０７】構文：Ｏｂｊｅｃｔ．Ｆｌｕｓｈ（）；戻り値：なし例外：なし

【０２０８】４．４イベント４．４．１ｏｎｋｅｙｐｒｅｓｓＤＴＭＦキーを押すと開始される。これはＨＴＭＬ制御
から引き継がれたデフォルトイベントに優先する。ユー
ザがｅｓｃａｐｅキーを叩くと、ｏｎＫｅｙｐｒｅｓｓ
ではなくｏｎＲｅｃイベントが開始される。

【０２０９】構文：

【０２１０】

【表１５】

【０２１１】イベントオブジェクト情報：

【０２１２】

【表１６】

【０２１３】イベントプロパティ：イベントハンドラは
プロパティを直接受け取らないが、ハンドラはデータに
関するイベントオブジェクトを照会することができる。

【０２１４】４．４．２ｏｎＲｅｃｏＤＴＭＦセッションが終了すると開始される。このイベ
ントは現在のＤＴＭＦオブジェクトを自動的に使用不能
にする。

【０２１５】構文：

【０２１６】

【表１７】

【０２１７】イベントオブジェクト情報：

【０２１８】

【表１８】

【０２１９】イベントプロパティ：イベントハンドラは
プロパティを直接受け取らないが、ハンドラはデータに
関するイベントオブジェクトを照会することができる。

【０２２０】４．４．３ｏｎＴｉｍｅｏｕｔタイムアウト以前に句完了イベントが受け取られないと
開始される。このイベントは認識プロセスを自動的に停
止する。

【０２２１】構文：

【０２２２】

【表１９】

【０２２３】イベントオブジェクト情報：

【０２２４】

【表２０】

【０２２５】イベントプロパティ：イベントハンドラは
プロパティを直接受け取らないが、ハンドラはデータに
関するイベントオブジェクトを照会することができる。

【０２２６】５Ｃａｌｌｃｏｎｔｒｏｌオブジェクト電話音声ブラウザの電話インターフェース（呼、端末、
および接続）を表す。このオブジェクトは、ＧＵＩブラ
ウザでのｗｉｎｄｏｗオブジェクトと同じように固有で
ある。したがって、電話オブジェクトの存続期間はブラ
ウザインスタンスそれ自体と同じである。電話用の音声
ブラウザは、呼ごとに１つずつ電話オブジェクトをイン
スタンス化する。ユーザはオブジェクトのインスタンス
化または配置は行わない。

【０２２７】ここでは、このオブジェクトを介して第１
の当事者の呼制御に関する特徴だけを示す。

【０２２８】５．１プロパティ・ａｄｄｒｅｓｓ読取り専用。ＸＭＬＤＯＭノードオブジェクト。実施
形態によって異なる。発呼者のアドレスである。ＰＳＴ
Ｎの場合は、ＡＮＩとＡＬＩの組合せであってよい。Ｖ
ｏＩＰの場合、これが発呼者のＩＰアドレスである。・
ｒｉｎｇｓＢｅｆｏｒｅＡｎｓｗｅｒ着信呼に応答する
前の呼出し音の回数。デフォルト値は無限であり、これ
は、開発者が呼に応答するために、具体的には以下のＡ
ｎｓｗｅｒ（）メソッドを使用しなければならないこと
を意味する。電話局が着信呼を待ち行列に入れるのにＡ
ＣＤを使用している場合、この番号は０に設定すること
ができる。

【０２２９】５．２メソッド注：ここに示すメソッドはすべて同時に発生するもので
ある。

【０２３０】５．２．１Ｔｒａｎｓｆｅｒ呼を転送する。ブラインド転送の場合、転送が完了する
と、システムはオリジナルの呼およびフリーシステムリ
ソースを終了することができる。構文：ｔｅｌｅｐｈｏｎｅ．Ｔｒａｎｓｆｅｒ（ｓｔｒＴｅｘ
ｔ）；パラメータ：・ｓｔｒＴｅｘｔ：必須。所期の受信者のアドレス。戻り値：なし例外：呼転送が失敗すると例外が投じられる。たとえ
ば、最終当事者が話中の場合、こうした番号のファック
スまたは留守番電話は応答しない。

【０２３１】５．２．２Ｂｒｉｄｇｅ第三者転送。呼が転送された後、ブラウザは呼に割り振
られたリソースを解除することができる。転送された呼
がｓｔｒＵＩＤを使用して戻されるときに、セッション
状態を回復させるのはアプリケーションの役割である。
基礎となる電話プラットフォームは、戻ってくる呼の宛
先を異なるブラウザに指定することができる。呼は、受
取り側が呼を終了させたときにのみ戻すことができる。

【０２３２】構文：ｔｅｌｅｐｈｏｎｅ．Ｂｒｉｄｇｅ（ｓｔｒＴｅｘｔ，
ｓｔｒＵＩＤ，［ｉｍａｘＴｉｍｅ］）；パラメータ：・ｓｔｒＴｅｘｔ：必須。所期の受信者のアドレス。・ｓｔｒＵＩＤ：必須。現在の呼を一意に識別するセッ
ションＩＤ。転送された呼が戻されるときに、ｓｒｔＵ
ＩＤがａｄｄｒｅｓｓ属性に表示される。・ｉｍａｘＴｉｍｅ：任意選択。転送された呼の秒単位
の最大持続時間。指定されない場合、デフォルトの値は
プラットフォーム内部値である。戻り値：なし例外：なし

【０２３３】５．２．３Ａｎｓｗｅｒ呼に応答する。構文：ｔｅｌｅｐｈｏｎｅ．Ａｎｓｗｅｒ（）戻り値：なし例外：接続がない場合に例外が投じられる。この場合、
ｏｎＡｎｓｗｅｒイベントは開始されない。

【０２３４】５．２．４Ｈａｎｇｕｐ呼を終了させる。現在進行中の呼がない場合は無効であ
る。構文：ｔｅｌｅｐｈｏｎｅ．Ｈａｎｇｕｐ（）戻り値：なし例外：なし

【０２３５】５．２．５Ｃｏｎｎｅｃｔ第１当事者の外に向かう呼を開始する。構文：ｔｅｌｅｐｈｏｎｅ．Ｃｏｎｎｅｃｔ（ｓｔｒＴｅｘ
ｔ，［ｉＴｉｍｅｏｕｔ］）；パラメータ：・ｓｔｒＴｅｘｔ：必須。所期の受信者のアドレス。・ｉＴｉｍｅｏｕｔ：任意選択。試行を中止するまでの
ミリ秒単位の時間。指定されない場合、デフォルトの値はプラットフォーム
内部値である。戻り値：なし例外：話中信号に遭遇するか、あるいはＦＡＸまたは留
守番電話に到達した場合を含み、呼が完了できない場合
に例外が投じられる（注：ハードウェアはこの機能をサ
ポートできない）。

【０２３６】５．２．６Ｒｅｃｏｒｄユーザの音声をファイルに記録する。構文：ｔｅｌｅｐｈｏｎｅ．Ｒｅｃｏｒｄ（ｕｒｌ，ｅｎｄＳ
ｉｌｅｎｃｅ，［ｍａｘＴｉｍｅｏｕｔ］，［ｉｎｉｔ
ｉａｌＴｉｍｅｏｕｔ］）；パラメータ：・ｕｒｌ：必須。記録された結果のｕｒｌ・ｅｎｄＳｉｌｅｎｃｅ：必須。無音が検出された後に
記録を停止するまでのミリ秒単位の時間。・ｍａｘＴｉｍｅｏｕｔ：任意選択。記録するための秒
単位の最大時間。デフォルトの値はプラットフォームに
よって異なる。・ｉｎｉｔｉａｌＴｉｍｅｏｕｔ：任意選択。記録の始
めの部分で可能な無音の最大時間（ミリ秒単位）。戻り値：なし例外：記録がｕｒｌに書き込めないときに、例外が投じ
られる。

【０２３７】５．３イベントハンドラ電話音声ブラウザを使用するアプリケーション開発者
は、以下のイベントハンドラを実施することができる。

【０２３８】５．３．１ｏｎＩｎｃｏｍｉｎｇ（）音声ブラウザが着信呼を受け取ったときに呼び出され
る。すべての開発者はこのハンドラを使用して、呼に応
答する前に発呼者アドレスを読み取り、カスタマイズさ
れた機能を呼び出すことができる。

【０２３９】５．３．２ｏｎＡｎｓｗｅｒ（）音声ブラウザが着信呼に応答したときに呼び出される。

【０２４０】５．３．３ｏｎＨａｎｇｕｐ（）ユーザが電話を切ったときに呼び出される。このイベン
トは、プログラムがＨａｎｇｕｐまたはＴｒａｎｓｆｅ
ｒメソッドを呼び出したときに自動的に開始されるもの
ではない。

【０２４１】５．４例以下の例は、電話セッションを処理するために呼制御イ
ベントに送られるスクリプティングを示すものである。 <HTML> <HEAD> <TITLE>Logon Page</TITLE> </HEAD> <SCRIPT> var focus; function RunSpeech() { if (logon.user.value == "") { focus="user"; p_uid.Start(); g_login.Start(); dtmf.Start(); return; } if (logon.pass.value == "") { focus="pin"; p_pin.Start(); g_login.Start(); dtmf.Start(); return; } p_thank.Start(); logon.submit(); } function login_reco() { res = event.srcElement.recoResult; pNode = res.selectSingleNode("//uid"); if (pNode != null) logon.user.value = pNode.xml; pNode = res.selectSingleNode("//password"); if (pNode != null) logon.pass.value = pNode.xml; } function dtmf_reco() { res = event.srcElement.dtmfResult; if (focus == "user") logon.user.value = res; else logon.pin.value = res; } </SCRIPT> <SCRIPT for="callControl" event="onIncoming"> <!-- // 読取りアドレス。カスタマイズされたものがあれば準備する。 callControl.Answer(); // </SCRIPT> <SCRIPT for="callControl" event="onOffhook"> <!-- p_main.Start(); g_login.Start(); dtmf.Start(); focus="user"; // </SCRIPT> <SCRIPT for="window" event="onload"> <!-- if (logon.user.value != "") { p_retry.Start(); logon.user.value = ""; logon.pass.value = ""; checkFields(); } // </SCRIPT> <BODY> <reco id="g_login" onReco="login_reco(); runSpeech()" timeout="5000" onTimeout="p_miss.Start(); RunSpeech() > <grammar src=http://kokaneel/etradedemo/speechonly/login.xml/> </ reco > <dtmf id="dtmf" escape="#" onkeypress="g_login.Stop();" onReco="dtmf_reco();RunSpeech()" interdigitTimeout="5000" onTimeout="dtmf.Flush(); p_miss.Start();RunSpeech()" /> <prompt id="p_main"> ユーザＩＤおよびピン番号を復唱してください。</pro mpt> <prompt id="p_uid"> ユーザＩＤだけ復唱してください。</prompt> <prompt id="p_pin"> ピン番号だけ復唱してください。</prompt> <prompt id="p_miss"> 申し訳ありません。失敗しました。</prompt> <prompt id="p_thank"> ありがとうございました。身元を確認する間お待ちください。</prompt> <prompt id="p_retry"> 申し訳ありません。ユーザＩＤおよびピン番号が一致しません。</prompt> <H2>Login</H2> <form id="logon"> UID: <input name="user" type="text" onChange="runSpeech()" /> PIN: <input name="pass" type="password" onChange="RunSpeech()" /> </form> </BODY> </HTML>

【０２４２】６ダイアログフローの制御６．１ダイアログフローを実施するためのＨＴＭＬお
よびスクリプトの使用この例は、入力ボックスに入れる
値を探し、入力用の文脈依存ヘルプを提供する、単純な
ダイアログフローを実施する方法を示すものである。ヘ
ルププロンプトのコンテンツ形成を助けるためにＨＴＭ
Ｌ入力機構（「ｔｏｏｌｔｉｐ」機構として表示ブラウ
ザで使用される）で、ｔｉｔｌｅ属性を使用する。 <html> <title>Context Sensitive Help</title> <head> <script> var focus; function RunSpeech() { if (trade.stock.value == "") { focus="trade.stock"; p_stock.Start(); return; } if (trade.op.value == "") { focus="trade.op"; p_op.Start(); return; } //.. フィールドすべてについて上記を繰り返す。 trade.submit(); } function handle() { res = event.srcElement.recoResult; if (res.text == "help") { text = "復唱してください"; text += document.all[focus].title; p_help.Start(text); } else { // 値割当てを続行する。 } } </script> </head> <body> <prompt id="p_help" onComplete="checkFileds()" /> <prompt id="p_stock" onComplete="g_stock.Start()"> 株式名を復唱してください。</prompt> <prompt id="p_op" onComplete="g_op.Start()"> 売りですか。買いですか。</prompt> <prompt id="p_quantity" onComplete="g_quantity.Start()"> 何株ですか。</prompt> <prompt id="p_price" onComplete="g_price.Start()"> 価格はいくらですか。</prompt> <reco id="g_stock" onReco="handle(); checkFields()" > <grammar src="./g_stock.xml" /> </ reco > <reco id="g_op" onReco="handle(); checkFields()" /> <grammar src="./g_op.xml" /> </ reco > <reco id="g_quantity" onReco="handle(); checkFields()" /> <grammar src="./g_quant.xml" /> </ reco > <reco id="g_price" onReco="handle(); checkFields()" /> <grammar src="./g_quant.xml" /> </reco> <form id="trade"> <input name="stock" title="stock name" /> <select name="op" title="buy or sell"> <option value="buy" /> <option value="sell" /> </select> <input name="quantity" title="number of shares" /> <input name="price" title="price" /> </form> </body> </html> ６．２ＳＭＩＬの使用以下の例は、ＳＭＩＬ機構を使用したｐｒｏｍｐｔおよびｒｅｃｏ要素の活動化の例を示すものである。 <html xmlns:t="urn:schemas-microsoft-com:time" xmlns:sp="urn:schemas-microsoft-com:speech"> <head> <style> .time { behavior: url(#default#time2); } </style> </head> <body> <input name="txtBoxOrigin" type="text"/> <input name="txtBoxDest" type="text" /> <sp:prompt class="time" t:begin="0"> 出発地と行き先の都市を復唱してください。 </sp:prompt> <t:par t:begin="time.end" t:repeatCount="indefinitely" <sp:reco class="time" > <grammar src="./city.xml" /> <bind targetElement="txtBoxOrigin" value="//origin_city" /> <bind targetElement="txtBoxDest" test="/sml/dest_city[@confidence $gt$ 4O]" value="//dest_city" /> </sp:reco> </t:par> </body> </html>

【０２４３】７ＳＭＥＸ（Ｍｅｓｓａｇｅ）要素／オ
ブジェクトＳｉｍｐｌｅＭｅｓｓａｇｉｎｇＥＸｃｈａｎｇｅ
／ＥＸｔｅｎｓｉｏｎの短縮形であるＳＭＥＸは、クラ
イアントデバイスのプラットフォーム上にある外部の構
成要素またはアプリケーションと通信するオブジェクト
である。タグ名＜ｓｍｅｘ＞を備えた要素として、ＸＭ
Ｌまたは同様のマークアップベースドキュメントに埋め
込むことができる。メッセージングオブジェクトの例示
的な使用法には、ロギングおよび電話制御を含まれるこ
とがある。オブジェクトは、マークアップベースの認
識、およびメッセージングを介して新しい機能を追加で
きるようにするプロンプティングの拡張可能性を表すも
のである。

【０２４４】インスタンス化すると、オブジェクトは、
その構成パラメータまたは属性の指定を介して、プラッ
トフォーム構成要素またはアプリケーションを備えた非
同期メッセージ交換チャネルを確立するように指示され
る。オブジェクトは、プロパティが割当て動作の受取り
側である場合に必ず、コンテンツがプラットフォーム構
成要素またはアプリケーションに送信される文字列プロ
パティを有する（すなわち、ｌｖａｌｕｅ）。同様に、
プラットフォーム構成要素またはアプリケーションから
受け取ったメッセージを保持する、ＸＭＬＤＯＭＮ
ｏｄｅタイプのプロパティも有する。ｍｅｓｓａｇｅオ
ブジェクトは、プラットフォームメッセージを受け取る
と必ずイベントを送信する。オブジェクトは、その基本
動作が非同期であるため、タイムアウト設定を処理する
ためのアプリケーション開発者用内蔵クロックも有す
る。

【０２４５】ｍｅｓｓａｇｅまたはｓｍｅｘオブジェク
トは、通信手段に対して寛容である。ただし、一実施形
態では、ｓｍｅｘオブジェクトは通常のＸＭＬまたはマ
ークアップ要素と同じ持続期間を有するものであり、す
なわち、ｓｍｅｘオブジェクトはそのホストドキュメン
トがアンロードされると廃棄される。多くの場合、ｓｍ
ｅｘオブジェクトは自動クリーンアップを実行し、アン
ロードされたときに通信リソースを解放することができ
るため、マークアップページ間に渡って持続通信リンク
が望ましい場合（たとえば呼制御）に、使用されること
がある。こうした場合に、アーキテクチャは、割り振ら
れたリソースを放棄する（たとえば、ソケットを閉じ
る）責務をアプリケーション開発者に負わせる。

【０２４６】ｓｍｅｘオブジェクトは、メッセージの形
態（スキーマ）に関して中立である。一部の実施形態で
は、（ＳＩＰまたはＣＣＸＭＬで使用されているよう
な）既存の標準メッセージフォーマットを強く優先さ
せ、いくつかの基本的なスキーマをサポートするように
実施者に対して要求することが望ましい場合がある。本
来アーキテクチャは、プラットフォームとアプリケーシ
ョンの両方の開発者が、その間に相互運用性を失うこと
なく他の機能を導入するために、ＸＭＬまたは同様のマ
ークアップの標準化された拡張可能性をフルに利用でき
るようにするものである。

【０２４７】例１：ｓｍｅｘをロギングオブジェクトとして使用する <smex id="logServer"> <param name="d:server" xmlns:d="urn:Microsoft.com/COM"> <d:protocol>DCOM</d:protocol> <d:clsid>2093093029302029320942098432098</d:clsid> <d:iid>0903859304903498530985309094803</d:iid> </param> </smex> <listen ...> ...// 入力フィールドのｒｅｃｏ結果を拘束する他の指示 <bind targetElement="logServer" targetAttribute="sent" value="*[@log $ge$ 3]"/> </listen>

【０２４８】この例は、クラスｉｄおよびインターフェ
ースｉｄを備えたＣＯＭオブジェクトを使用して、ロギ
ング機構をどのように達成するかを実演したものであ
る。音声開発者は、ロギングの関心レベルを示す属性
「ｌｏｇ」を関連するＳＭＬノードに付け加える。上記
の例では、アプリケーション開発者は、単一のｂｉｎｄ
指示文（ｄｉｒｅｃｔｉｖｅ）を使用することによっ
て、ログ値が３より大きいかまたは等しいすべてのノー
ドをログするように選択する。この例は、ダウンレベル
ブラウザとアップレベルブラウザの両方で使用できる。

【０２４９】この例は、ｓｍｅｘオブジェクトが認識ド
キュメントにプラットフォームメッセージを返送する責
務に関して混乱することがない限り、同じプラットフォ
ーム構成要素と通信する複数のｓｍｅｘオブジェクトを
ページに含めることができることを実証するものでもあ
る。上記の例は、構成要素が、それぞれが独自のｓｍｅ
ｘまたはｍｅｓｓａｇｅコンジットを有する複数のイン
ターフェースを実施することが可能であることを暗に示
すものである。同じ引数が、複数のポートを聴取してい
るＴＣＰサーバに適用される。

【０２５０】例２：着信呼のアドレスを読み取る <input type="text" id="remote"/> <input type="text" id="transfer"/> <input type="text" id="local"/> <input type="hidden" id="session_id"/> ... <smex id="telephone" sent="start_listening"> <param name="server">http://tel-svr/whatever</param> <bind targetElement="session_id" value="//sid"/> <bind targetElement="remote" value="//remote_addr"/> <bind targetElement="transfer" value="//transfer_addr"/> <bind targetElement="local" value="//local_addr"/> ... </smex>

【０２５１】この例は、受け取ったメッセージを処理す
るためにどのようにｂｉｎｄ指示文を使用するかを示し
たものである。この例では、着信呼に関するメッセージ
が、コンテンツがそれぞれ着信呼のリモート、転送、お
よびローカルアドレスを表す、サブ要素ｒｅｍｏｔｅ＿
ａｄｄｒ、ｔｒａｎｓｆｅｒ＿ａｄｄｒ、およびｌｏｃ
ａｌ＿ａｄｄｒを有すると想定している。

【０２５２】この例では、電話サーバと通信するため
に、ＨＴＴＰに基づく接続のないプロトコルが使用され
る。ここで電話サーバは、複数のブラウザインスタンス
と通信するように設計されるため、各クライアントは、
アプリケーションが開始されたときにサーバによって割
り当てられた固有のｉｄでそれ自体を識別しなければな
らない。これは、この例では、サーバに「ｓｔａｒｔ＿
ｌｉｓｔｅｎｉｎｇ」メッセージを送信することによっ
て達成されている。この例では、他の技法（たとえばク
ライアント側のクッキー）もセッション状態を管理する
のに使用できるが、Ｗｅｂサーバに返送して、アプリケ
ーションの次のページに渡すことのできるセッションｉ
ｄが隠しフィールドに格納される。ｒｅｃｏの場合と同
様に、あらゆるプラットフォームメッセージに対してあ
らゆるｂｉｎｄ指示文が実行されるわけではない。上記
の例は、着信呼がある場合に、固有のｉｄが受け取られ
るだけであることを暗に示しているものではない。

【０２５３】７．１プロパティｓｍｅｘオブジェクトは、読取り／書込みプロパティの
みが初期値指定用の属性としての役割も果たせるよう
な、以下のプロパティを有することができる。・ｓｅｎｔ：読取り／書込みであって、プラットフォー
ム構成要素に送信されるメッセージに対応する文字列。
ｓｅｎｔがｌｖａｌｕｅとして使用される場合は必ず、
そのコンテンツがディスパッチ（ｄｉｓｐａｔｃｈ）さ
れる。プロパティがｒｖａｌｕｅとして使用される場
合、またはこのプロパティにｎｕｌｌオブジェクトが割
り当てられる場合は無効である。・ｒｅｃｅｉｖｅｄ：読取り専用であって、受け取った
メッセージを示すＸＭＬＤＯＭＮｏｄｅデータ。メ
ッセージは、次のｏｎＲｅｃｅｉｖｅイベントの送信準
備ができるまで、ｒｖａｌｕｅとして使用可能となる。・ｔｉｍｅｒ：読取り／書込みであって、タイムアウト
イベントがトリガされるまでの時間を示す、ミリ秒単位
の数。プロパティに正の値が割り当てられると、クロッ
クは時間刻みを開始する。カウントダウンの進行中に、
値を変更することができる。ゼロまたは負の値は、タイ
ムアウトイベントをトリガせずにクロックを停止させ
る。デフォルトの値は０であり、タイムアウトがないこ
とを意味する。・ｓｔａｔｕｓ：読取り専用であって、オブジェクトの
最近の状況を示す整数。可能な値は０、−１、および−
２であって、それぞれ、正常、タイムアウト満了、なら
びにプラットフォームとの通信が確立できないかまたは
中断された、という意味である。プラットフォーム特有
のエラーメッセージは、ｒｅｃｅｉｖｅｄプロパティを
介して搬送されなければならない。エラーメッセージが
首尾よく送達された場合、ｓｔａｔｕｓコードは０であ
る。

【０２５４】７．２イベントオブジェクトには以下のイベントがある。・ｏｎＲｅｃｅｉｖｅ：このイベントは、プラットフォ
ームメッセージが到達したときに送信される。ｂｉｎｄ
要素によって宣言されたなんらかの指示文がある場合、
それらの指示文は、イベントが開始される前に第１に評
価される。送信の前に、ｒｅｃｅｉｖｅｄプロパティが
更新される。・ｏｎＥｒｒｏｒ：このイベントは、タイムアウトが満
了したとき、または通信リンクエラーに遭遇したときに
送信される。このイベントが送信されると、ｓｔａｔｕ
ｓプロパティは、前述のように対応するエラーコードで
更新される。

【０２５５】７．３子要素要素の形態を想定する場合、ｓｍｅｘは以下の子要素を
有することができる。・ｂｉｎｄ：受け取ったメッセージ上で指示文が動作し
ている場合を除き、ｒｅｃｏの場合と同様。・ｐａｒａｍ：ｒｅｃｏの場合と同様に、ｓｍｅｘオブ
ジェクトにプラットフォーム特有のパラメータを提供す
る。各ｐａｒａｍ要素には、「ｎａｍｅ」属性を使用し
て命名することが可能であり、ｐａｒａｍ要素のコンテ
ンツがパラメータの値である。一実施形態では、要素
は、名前スペースおよびＸＭＬデータタイプ宣言用の標
準ＸＭＬ属性を理解しなければならない。

【０２５６】７．４他の注釈ロギング関数用にＳＭＥＸを拡張する的確な方法の１つ
は、次のようになる。 <smex id="logServer" ...> ... </smex> <script> function logMesseage(logClass, message) { logServer.sent = logClass + "|" + message; } </script>

【０２５７】これは、実際には、動作がカスタマイズ可
能な（グローバル）関数を使用してオブジェクトを拡張
するものである。上記の例では、ロギング関数は、ｉｄ
とメッセージとの間にフィールドセパレータ「｜」を挿
入するようにプログラムされる。

【０２５８】グローバル関数を好まない人の場合、ＥＣ
ＭＡＳｃｒｉｐｔの「ｐｒｏｔｏｔｙｐｅ」プロパティ
を使用して、オブジェクトメソッドとして関数を付け加
えることができる。たとえば、以下のようになる。 <smex id="logServer" onload="addFunction()"> ... </smex> <script> function my_logMessage(logClass, message) { logServer.sent = logClass + "|" + message; } function addFunction() { logServer.prototype.logMessage = my_logMessage; } </script>

【０２５９】よりオブジェクト指向の強い方法での関数
は、以下のように表すことができる。

【０２６０】すべての必要な機構はすでに標準で確立さ
れているが、上記の例に示すように、拡張作業を実行す
るための作業がｓｍｅｘオブジェクト実施者からさらに
要求されることに留意されたい。

【図面の簡単な説明】

【図１】コンピューティングデバイスの動作環境の第１
の実施形態を表す平面図である。

【図２】図１のコンピューティングデバイスの構成図で
ある。

【図３】電話の平面図である。

【図４】汎用コンピュータの構成図である。

【図５】クライアント／サーバシステム用のアーキテク
チャを示す構成図である。

【図６】クレジットカード情報を取得するための画面を
示す図である。

【図７】クライアント側で実行可能なマークアップ言語
のページを示す図である。

【図８】表示および音声認識機能を有する、クライアン
ト側で実行可能なマークアップ言語のページ例を示す図
である。

【図９】可聴提示専用および主導権がシステムにある、
クライアント側で実行可能なマークアップ言語のページ
例を示す図である。

【図１０】可聴提示専用および主導権がシステムにあ
る、クライアント側で実行可能なマークアップ言語のペ
ージ例を示す図である。

【図１１】可聴提示専用および主導権が混合の、クライ
アント側で実行可能なマークアップ言語のページ例を示
す図である。

【図１２】可聴提示専用および主導権が混合の、クライ
アント側で実行可能なマークアップ言語のページ例を示
す図である。

【図１３】サーバ側プラグインモジュールによって実行
可能なスクリプトの例を示す図である。

【図１４】認証サーバの第１の動作モードを示す絵画図
である。

【図１５】認証サーバの第２の動作モードを示す絵画図
である。

【図１６】認証サーバの第３の動作モードを示す絵画図
である。

【図１７】スクリプトなしでクライアント側で実行可能
な宣言型マークアップ言語のページ例を示す図である。

【図１８】スクリプトなしでクライアント側で実行可能
な宣言型マークアップ言語のページ例を示す図である。

【符号の説明】

８０単純な電話２０２Ｗｅｂサーバ２０４音声サーバ２０５インターネット２０８ＰＳＴＮ２１０第三者ＶｏＩＰ２１１音声などのＲｅｃｏ２１２電話音声ブラウザ２１４メディアサーバ（リモート可聴オブジェクト）２１６ＩＥ音声ブラウザ３０７ＴＴＳ３０９構文解析装置３２０ＡＳＰ＋ページ音声可能制御／テンプレート３２４ダイアログ制御

───────────────────────────────────────────────────── フロントページの続き (72)発明者ウァンクァンサンアメリカ合衆国 98006 ワシントン州ベルビューサウスイースト 48 コート 16470 (72)発明者ホンシャオ−ウェンアメリカ合衆国 98006 ワシントン州ベルビューサウスイースト 58 プレイス 17797 Ｆターム(参考） 5D015 KK03 5E501 AA03 AA04 AB03 BA05 BA11 CB04 CB05 CB06 CB08 CB09 CB10 CB13 CB15 CC17 EA21 FA04

Claims

【特許請求の範囲】

【請求項１】クライアント／サーバシステム中のクラ
イアントデバイスで実行するためのマークアップ言語を
有するコンピュータ読取り可能媒体であって、前記マー
クアップ言語が、クライアントデバイスを介して入力さ
れた入力と関連付けるための文法を示す命令を含むこと
を特徴とするコンピュータ読取り可能媒体。
【請求項２】文法を示す前記命令が、前記文法の場所
の参照を提供することを特徴とする請求項１に記載のコ
ンピュータ読取り可能媒体。
【請求項３】前記文法が、音声認識、手書き認識、ジ
ェスチャ認識、および視覚認識のうち１つのためのもの
であることを特徴とする請求項１に記載のコンピュータ
読取り可能媒体。
【請求項４】文法を示す前記命令が、音声認識のため
の文法の参照を含むことを特徴とする請求項３に記載の
コンピュータ読取り可能媒体。
【請求項５】前記マークアップ言語が、認識された音
声に関連する認識結果を受け取り、前記結果を前記クラ
イアントデバイス上にあるデータフィールドに関連付け
るための命令を含むことを特徴とする請求項１に記載の
コンピュータ読取り可能媒体。
【請求項６】認識結果を受け取るための前記命令が、
前記認識結果を複数のデータフィールドに関連付けるこ
とを特徴とする請求項８に記載のコンピュータ読取り可
能媒体。
【請求項７】前記マークアップ言語が、前記音声が認
識されなかったとき聞き取れるように指示するための命
令を含むことを特徴とする請求項１に記載のコンピュー
タ読取り可能媒体。
【請求項８】前記入力がテキスト文字列を含むことを
特徴とする請求項１に記載のコンピュータ読取り可能媒
体。
【請求項９】前記マークアップ言語が、前記テキスト
文字列を他の構成要素から受け取るための命令を含むこ
とを特徴とする請求項８に記載のコンピュータ読取り可
能媒体。
【請求項１０】前記マークアップ言語が、前記テキス
ト文字列を処理するために前記文法を関連付けることを
特徴とする請求項９に記載のコンピュータ読取り可能媒
体。
【請求項１１】実施されたときに、入力データ用のフィールドを有するＷｅｂサーバからマ
ークアップ言語ページを受け取るステップと、ユーザから前記フィールドに関する入力を受け取るステ
ップと、前記入力を示すデータおよび認識用の文法の指示を送信
するステップとを含むステップを実行することによって
コンピュータに情報を処理させるコンピュータ読取り可
能命令を含むことを特徴とするコンピュータ読取り可能
媒体。
【請求項１２】前記指示が、前記文法の場所の参照を
提供することを特徴とする請求項１１に記載のコンピュ
ータ読取り可能媒体。
【請求項１３】前記指示が、音声認識用の言語の参照
を含むことを特徴とする請求項１２に記載のコンピュー
タ読取り可能媒体。
【請求項１４】クライアント／サーバネットワークで
の認識のための方法であって、クライアントデバイスとは異なるネットワーク上のアド
レスにあるＷｅｂサーバから、ネットワークに接続され
たクライアントデバイス上に入力データ用のフィールド
を有するマークアップ言語ページを受け取るステップ
と、前記クライアントデバイス上のフィールドに関するユー
ザから入力を受け取るステップ、および前記入力を示す
データおよび認識用の文法の指示を、前記クライアント
デバイスとは異なるネットワーク上のアドレスにある認
識サーバに送信するステップとを含むことを特徴とする
方法。
【請求項１５】前記データを送信する前に、前記入力
を示す前記データを標準化するステップをさらに含むこ
とを特徴とする請求項１４に記載の方法。
【請求項１６】認識された音声に関連する認識結果を
受け取り、前記結果を前記クライアントデバイス上にあ
るデータフィールドに関連付けるステップをさらに含む
ことを特徴とする請求項４１に記載の方法。
【請求項１７】クライアント／サーバシステム中のク
ライアントデバイスで実行するためのマークアップ言語
を有するコンピュータ読取り可能媒体であって、前記マ
ークアップ言語が、認識用の属性または方法を有するオ
ブジェクトモデルを示す命令を含むことを特徴とするコ
ンピュータ読取り可能媒体。
【請求項１８】前記要素が、音声認識、手書き認識、
ジェスチャ認識、ＤＴＭＦ認識、および視覚認識のうち
１つのためのものであることを特徴とする請求項１７に
記載のコンピュータ読取り可能媒体。
【請求項１９】前記要素が、認識用の文法の指示を含
むことを特徴とする請求項１７に記載のコンピュータ読
取り可能媒体。
【請求項２０】前記要素が、認識などのテキスト文字
列を受け取って処理することに関連することを特徴とす
る請求項１９に記載のコンピュータ読取り可能媒体。
【請求項２１】前記テキスト文字列を他の構成要素か
ら受け取る第２のオブジェクトモデルをさらに含むこと
を特徴とする請求項２０に記載のコンピュータ読取り可
能媒体。
【請求項２２】クライアント／サーバシステム中のク
ライアントデバイスで実行するためのマークアップ言語
を有するコンピュータ読取り可能媒体であって、前記マ
ークアップ言語が、聞き取れるようにプロンプティング
するための属性または方法を有するオブジェクトモデル
を示す命令を含むことを特徴とするコンピュータ読取り
可能媒体。
【請求項２３】前記マークアップ言語が、ＨＴＭＬ、
ＸＨＴＭＬ、ｃＨＴＭＬ、ＸＭＬ、およびＷＭＬのうち
１つを含むことを特徴とする請求項２２に記載のコンピ
ュータ読取り可能媒体。
【請求項２４】前記マークアップ言語が、スクリプテ
ィング言語を含むことを特徴とする請求項２２に記載の
コンピュータ読取り可能媒体。
【請求項２５】前記マークアップ言語が、合成された
マークアップ言語を含むことを特徴とする請求項２２に
記載のコンピュータ読取り可能媒体。