JP2009521745A

JP2009521745A - 音声で起動されるネットワーク動作

Info

Publication number: JP2009521745A
Application number: JP2008547239A
Authority: JP
Inventors: ミラークェンティン; ジェイ．オストルントジョン; ラーマクリシュナアナンド
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2005-12-22
Filing date: 2006-11-17
Publication date: 2009-06-04
Also published as: US20070150286A1; EP1963991A4; WO2007075238A1; US7996228B2; CN101341482A; KR20080086465A; EP1963991A1

Abstract

音声で起動されるネットワーク動作の実施形態が本明細書に提示される。

Description

本発明は、音声により起動されるネットワークオペレーションに関する。

ラップトップコンピュータ、ワイヤレス電話機、携帯情報端末、ワイヤレス機器、ゲームシステム、オーディオプレーヤ等の携帯型の電子機器が普及してきている。ユーザは、そうした機器の１つまたは複数を、電子メール、インスタントメッセージ等の使用を通じて互いと通信する等の各種の活動に使用することができる。さらに、ユーザは、そうした機器の１つまたは複数を、ネットワークを介して各種のコンテンツにアクセスするために使用することができる。しかし、携帯型電子機器が小型であることが、ユーザの活動の妨げとなる場合がある。

例えば、小型の携帯型電子機器は、テキストの入力にはあまり適さない。また、運転中や移動中など、「活動中」に携帯型電子機器に情報を入力するのは困難、安全でない、かつ／または不便である場合もある。

他の入力機構が望ましくない、不便、あるいは不可能である時等に、ユーザが動作を行うのを助けるために利用することができる、音声による動作の起動が記載される。ユーザがクライアント機器に音声を提供する。音声はテキストに変換される。そのテキストが使用されて動作を行い、結果を得る。応答が形成されて動作の結果をクライアント機器に伝える。応答は、テキスト部分と非テキスト部分（例えばグラフィック、音声等）を組み込む等、各種の形でフォーマットされることができる。例えば、検索エンジンによって行われる検索動作がユーザの音声で起動されることができる。検索の結果がユーザに提供される。そして、ユーザは、その検索結果を使用してさらなる音声でさらなる動作を起動することができる。

この概要は、下記の詳細な説明でさらに説明される概念のうち選択されたものを簡略化した形で紹介するために提供される。この概要は、特許権が請求される主題の主要な特徴または必須の特徴を明らかにするものでも、クレームに記載される主題の範囲を定める助けとして使用されるべきものでもない。

説明中の事例では、同様の構造および構成要素は、同じ参照符号を利用して参照する。

概要
状況によっては、コンピューティング機器、ハンドヘルドまたはモバイル機器への手動の入力（例えば手での入力）が、不便、安全でない、あるいは不可能な場合がある。各種の実装で、口頭のコマンドまたは単語等の音声を介して動作を起動するために利用することが可能な技術が記載される。

例えばユーザが、携帯電話、コンピューティング機器、携帯情報端末（ＰＤＡ）等のクライアント機器に音声を提供することができる。次いでその音声がテキストに変換される。次いで、変換されたテキストがサービスによって使用されて、変換されたテキストに基づいて１つまたは複数の動作を行うことができる。各種の動作が企図される。

例えば、変換されたテキストが、検索を行うためにインターネットの検索エンジンに提供される検索語として使用されることができる。動作の結果が得られる。その結果を含む応答が形成され、その応答が次いでユーザのためにクライアント機器に提供される。応答は、電子メール、ＨＴＭＬ（ハイパーテキストマークアップ言語）、インスタントメッセージ、音響等、各種の形で提供され得る。例えば、最も近くにある飲食店を尋ねる口頭の要求に応答して、地図と飲食店のリストを伴うＨＴＭＬ文書をユーザに提供することができる。一実装では、クライアント機器の場所によって自動的に動作を絞り込むことができる。したがって、飲食店の検索は、クライアント機器の場所に基づいて最も近い５軒の飲食店を自動的に返すことができる。

以下の説明では、音声起動動作を提供する技術を用いるように動作可能な例示的環境を初めに説明する。次いで、その例示的環境ならびに他の環境で音声起動動作の技術を提供するように動作可能な例示的な手順とユーザインターフェースを説明する。

例示的環境
図１は、音声起動動作技術を用いるように動作可能な例示的実装の環境１００の図である。環境１００は、ネットワーク１０４に通信可能に結合された複数のクライアント１０２（１）、１０２（２）、１０２（３）、．．．、１０２（Ｎ）を含むものと図示される。以下の説明における複数のクライアント１０２（１）〜１０２（Ｎ）は、クライアント１０２（ｎ）（「ｎ」は１〜「Ｎ」の任意の整数）とも称される場合がある。複数のクライアント１０２（ｎ）は、各種の形で構成されてよい。例えば、クライアント１０２（ｎ）の１つまたは複数は、デスクトップコンピュータ、モバイル局、ゲーム機、娯楽機器、表示装置に通信可能に結合されたセットトップボックス、ワイヤレス電話機等、ネットワーク１０４を通じて通信することが可能なコンピュータとして構成することができる。クライアント１０２（ｎ）は、ラップトップ機、携帯電話１０２（２）、携帯情報端末（ＰＤＡ）１０２（３）、オーディオプレーヤ等の携帯型の電子機器であってもよい。クライアント１０２（ｎ）は、無線接続、配線接続等を介してネットワーク１０４にアクセスするように構成することができる。クライアント１０２（ｎ）の範囲は、相当量のメモリとプロセッサ資源を持つフル資源機器（例えばパーソナルコンピュータ、ハードディスク搭載のテレビレコーダ、ゲーム機）から、メモリおよび／または処理資源が限られた低資源機器（例えば従来のセットトップボックス）にわたりうる。以下の説明では、クライアント１０２（ｎ）は、クライアントを操作する人物および／またはエンティティに関連する場合もある。すなわち、クライアント１０２（ｎ）は、ユーザおよび／またはマシンを含む論理的なクライアントを表すことができる。

また、ネットワーク１０４はインターネットとして図示しているが、このネットワークは、幅広い種類の構成をとることが可能である。例えば、ネットワーク１０４は、ワイドエリアネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、ワイヤレスネットワーク、公衆電話網、イントラネット等を含んでよい。さらに、図には単一のネットワーク１０４を示すが、ネットワーク１０４は、複数のネットワークを含むように構成されてよい。例えば、複数のクライアント１０２（ｎ）がワイヤレスネットワークを介して結合されて互いに通信してよい。それらの各クライアントは、インターネットを通じて、図１に図示される複数のサービス１０６（ｓ）（「ｓ」は１〜「Ｓ」の任意の整数）の１つまたは複数にも通信可能に結合されてよい。各種の他の例も企図される。

図１に示すように、複数のサービス１０６（ｓ）は、クライアント１０２（ｎ）にネットワーク１０４を介してアクセスできるようにしてよい。サービス１０６（ｓ）は、各種の形で構成することができる。サービス１０６（ｓ）は一般に、ネットワーク１０４を介して、資源（例えばサービスやコンテンツ）をクライアント１０２（ｎ）に提供する。資源は、ウェブページ、音楽、映像、画像、ユーザフォーラム、テンプレート、アドイン、ウェブログ（ブログ）等の各種のコンテンツとして構成されてよい。さらに、サービス１０６（ｓ）は、インスタントメッセージサービス、電子メールサービス、検索サービス、オンラインショッピング、金融サービス等のサービスである資源を提供してもよい。クライアントは、サービス１０６（ｓ）にアクセスして、通信、検索、アカウントへのアクセス、ファイル管理、消費者活動等の各種の活動を起動することができる。

複数のクライアント１０２（ｎ）はそれぞれ、複数の通信モジュール１０８（ｎ）の個々の１つを含むものと図示される。図の実装では、複数の通信モジュール１０８（ｎ）はそれぞれ、複数のクライアント１０２（ｎ）の個々の１つで実行可能であり、複数のクライアント１０２（ｎ）同士、クライアント１０２と１つまたは複数のサービス１０６（ｓ）との間等に通信方式を提供する。したがって、通信モジュール１０８（ｎ）は、情報、音声データ、メッセージ等をネットワーク１０４を通じて送受信するためにクライアント１０２（ｎ）に提供される機能を表す。

例えば、通信モジュール１０８（ｎ）の１つまたは複数は、電子メールを送受信するように構成されてよい。電子メールは、ルータや他のコンピューティング機器（例えば電子メールサーバ）等の複数の機器を利用して電子メールがネットワーク１０４を介して配信されるようにアドレス指定および経路指定するための標準と規定を用いる。このようにして、電子メールは、イントラネットを通じて会社内を、インターネットを使用して世界規模等で転送されることができる。例えば電子メールは、ヘッダとユーザ指定のペイロードとを含むことができ、ペイロードは、テキストと、例えば文書、コンピュータ実行可能ファイル等の添付ファイル等である。ヘッダは、送信元についての技術情報を含んでおり、しばしば、メッセージが送信者から受信者までの間にとった経路を記述する場合がある。

通信モジュール１０８（ｎ）は、セルラまたはワイヤレスの音声サービスを提供するように構成されてもよい。ワイヤレスの音声サービスは、複数のクライアント１０２（ｎ）間および／またはクライアント１０２（ｎ）とサービス１０６（ｓ）との間で音声データを通信するための機構を提供する。例えば、クライアント１０２（ｎ）は、リアルタイムまたは準リアルタイムで別のクライアントに音声データを通信することができる。したがって、複数のクライアント１０２（ｎ）がワイヤレスネットワークを介して会話に参加することができる。クライアント１０２（ｎ）は、サービス１０６（ｓ）の１つまたは複数に音声データを通信することもできる。

さらに、通信モジュール１０８（ｎ）は、ｐｕｓｈ−ｔｏ−ｔａｌｋｏｖｅｒｃｅｌｌｕｌａｒ（ＰｏＣ）機能を提供するように構成されてもよい。ＰｏＣは、１つまたは複数のクライアント１０２（ｎ）間および／またはサービス１０６間のほぼ即時の通信を可能にする、双方向形式の通信である。通信モジュール１０８（ｎ）は、ＰｏＣセッションを起動するために選択することが可能なＰｏＣ連絡先またはグループのリストを提供することができる。クライアント１０２（ｎ）は、ＰｏＣセッション中に押して話をすることが可能なＰｏＣボタンを備えるよう構成されてよい。ＰｏＣセッションを通じて、受信側の連絡先またはグループは、自身の側では何の動作も行わずに送信者の声を聞くことができる。したがって、ＰｏＣは、「ウォーキートーキー（ｗａｌｋｉｅｔａｌｋｉｅ）」あるいはインターホンを使用することに似ている。ＰｏＣは、ワイヤレス音声ネットワーク、ピアツーピアネットワーク、インターネット等を介して実装することができる。ＰｏＣは、その名前は「セルラ」を示すが、携帯電話、ラップトップ、ハンドヘルド機器、デスクトップコンピューティング機器等を含む、各種の形で構成されたクライアント１０２（ｎ）で利用することが可能である。例えば、デスクトップコンピューティング機器とサービス１０６（ｎ）との間に、インターネットを介してＰｏＣセッションを確立することができる。

別の例で、通信モジュール１０８（ｎ）の１つまたは複数は、インスタントメッセージを送受信するように構成されてよい。インスタントメッセージは、各クライアント１０２（ｎ）がインスタントメッセージセッションに参加している時に互いにテキストメッセージを送信できるように機構を提供する。インスタントメッセージは、インスタントメッセージセッションを介して音声データを交換できるように音声のインスタントメッセージ機能を提供することも可能である。インスタントメッセージは、通例はリアルタイムで通信するが、クライアント１０２（ｎ）の１つが使用不可、例えばオフライン状態の時には、テキストメッセージを記録しておくなどにより、遅延配信も利用することができる。このように、インスタントメッセージは、メッセージ交換を支援し、双方向のライブチャット用に設計されているという点で、電子メールとインターネットチャットの組合せと考えることができる。したがって、インスタントメッセージは、同期通信に利用することができる。例えば、音声の電話呼のように、インスタントメッセージセッションは、各ユーザが、インスタントメッセージが受信されると他の各ユーザに応答できるようにリアルタイムで行うことができる。

ＰｏＣ、ワイヤレス音声サービス、インスタントメッセージ、および電子メールを記載したが、通信方式は、その主旨および範囲から逸脱することなく、各種の他の構成をとることができる。さらに、個々のクライアント１０２（ｎ）（より詳細にはクライアント１０２（ｎ）の通信モジュール）は、インスタントメッセージとワイヤレス音声の両方を提供するなど、通信方式の各種の異なる組合せを提供するように構成されてよい。

通信モジュール１０８（ｎ）は、さらに、口頭のコマンドを受信し、サービス１０６（ｓ）と通信する機能を提供することができる。図１には、複数のクライアント１０２（ｎ）の１つまたは複数を使用できる様々なユーザを表すユーザ１１０を示す。ユーザ１１０は、クライアント１０２（１）に音声１１２を提供するものと図示される。音声１１２は、サービス１０６（ｓ）によって行われるべき動作を指定することができる、ユーザ１１０等のユーザによって話された単語を表す。音声１１２は、クライアント１０２（１）に受信され、通信モジュール１０８（１）によりネットワーク１０４を介してサービス１０６（ｓ）に通信されることができる。下記で詳細に説明するように、音声１１２は、音声データとして、または変換された音声データ（例えばテキスト）としてサービス１０６に通信されることができる。

各サービス１０６（ｓ）は、それぞれ１つまたは複数の動作モジュール１１４（ｓ）を備える。動作モジュール１１４（ｓ）は、ユーザ１１０の音声１１２で指定される１つまたは複数の動作を行うために実行可能な機能を表す。したがって、音声１１２を使用して、動作モジュール１１４（ｓ）による動作を起動することができる。動作モジュール１１４（ｓ）は、音声１１２で指定された動作の結果を含む応答１１６（ｐ）をフォーマットする機能も表す。動作モジュール１１４（ｓ）は、各種の動作を提供するように構成されることができる。動作モジュール１１４（ｓ）によって行われることが可能な動作には、これらに限定しないが、検索、商品の購入、サービスの予約（例えば飲食店、美容院、自動車修理等）、旅行の予約、アカウントへのアクセス、コンテンツへのアクセス、記憶されたコンテンツの取り出し、項目のダウンロード等が含まれる。

一実装では、動作モジュール１１４（ｓ）は、動作モジュール１１４（ｓ）によって行われた動作の結果を含む応答１１６（ｐ）をクライアント１０２（ｎ）に提供するように構成することができる。応答１１６（ｐ）は、各種のテキスト部分および／または非テキスト部分（例えばグラフィックメッセージ、音声メッセージ等）を含む等、各種の形で構成されてよい。各種の応答１１６（ｐ）についてのさらなる解説は、図２との関連で得ることができる。

一実装では、サービス１０６（ｓ）は、音声１１２を音声データとして受け取ることができる。しかし、いくつかの事例では、動作モジュール１１４（ｓ）は、音声データを理解せず、指定された動作を行わない場合がある。そのため、変換が行われてよい。例えば、各サービス１０６（ｓ）は、個々の変換モジュール１１８（ｓ）を有して図示されている。変換モジュール１１８（ｓ）は、サービス１０６（ｓ）の動作モジュール１１４（ｓ）等の、所望の動作を行うように構成されたモジュールが理解できるように、音声データとテキストコマンド間の変換を行う機能を表す。例えば、音声データとして受信された音声１１２は、変換モジュール１１８（ｓ）によって、動作モジュール１１４（ｓ）が理解できるテキストに変換され得る。そして、動作モジュール１１４（ｓ）は、変換された音声（例えばテキスト）を使用して、音声１１２で指定された動作を行うことができる。一実装では、変換モジュール１１８（ｓ）は、応答１１６（ｐ）を、クライアント１０２（ｎ）に通信する音声データに変換するように構成されてもよい。

サービス１０６（ｓ）における変換モジュール１１８（ｓ）の実行を説明したが、クライアント１０２（ｎ）も同様の機能を利用してよい。例えば、図１では、各クライアント１０２（１）〜１０２（Ｎ）が、個々の変換モジュール１１８（１）〜１１８（Ｎ）を備えている。一実装では、クライアント１０２（ｎ）によって受信された音声１１２は、そのクライアントでテキストに変換されることができる。サービス１０６（ｓ）、詳細には動作モジュール１１４（ｓ）は次いで、行うべき動作を指定する、動作モジュール１１４（ｓ）に理解可能なテキストを受け取る。また、クライアント１０２（ｎ）に提供された非音声応答１１６（ｐ）またはその一部が、クライアント１０２（ｎ）によって音声に変換されてよい。変換モジュール１１８を介した音声データの変換についてのさらなる解説は、図２との関連で得ることができる。

一実装では、単一のサービス１０６（ｓ）が多数の動作を行うことができる。例えば、ユーザ１１０が音声１１２を提供し、その結果、サービス１０６（ｓ）が、ウェブページ、映像、音声等の利用可能なコンテンツの検索を行うことができる。ユーザ１１０は、事前にコンテンツを契約または購入している、あるいはコンテンツを購入することを希望している場合がある。コンテンツは、ネットワーク１０４を介してクライアント１０２（ｎ）からアクセス可能なストレージ等にユーザによって保持されている項目であってもよい。検索は、利用可能なコンテンツを列挙した検索結果を生成し、その検索結果がクライアント１０２（ｎ）に提供される。次いで、ユーザ１１０は、利用可能なコンテンツを閲覧し、追加的な音声１１２を提供して、検索結果に含まれるコンテンツ項目をクライアントにストリーミングする、コンテンツをダウンロードする、コンテンツを購入する等、追加的な動作を起動することができる。

あるいは、複数のサービス１０６（ｓ）をが組み合わせて使用して、多数の動作を行ってもよい。したがって、同じサービス１０６または別のサービス１０６（ｓ）によって追加的な動作を行うことができる。別の例で、ユーザ１１０は音声１１２を使用して、複数のサービス１０６（ｓ）の１つを使用して、利用可能な飛行便等の旅行のオプションの検索を起動することができる。そして、検索結果を受け取ると、ユーザ１１０は、追加的な音声を使用して、複数のサービス１０６（ｓ）のうち別のサービスを介して、検索結果に示された特定の便を予約する動作を起動することができる。音声に応答した動作の実施についてのさらなる解説は、図３〜７との関連で得られる。

一般に、本明細書に記載される機能はいずれも、ソフトウェア、ファームウェア（例えば固定論理回路）、手動処理、またはそれらの実装の組合せを使用して実装することができる。本明細書で使用される用語「モジュール」および「論理」は、一般に、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアの組合せを表す。ソフトウェア実装の場合、モジュール、機能、または論理は、プロセッサ（例えば１つまたは複数のＣＰＵ）で実行された時に、指定されたタスクを行うプログラムコードを表す。プログラムコードは、１つまたは複数のコンピュータ可読の記憶装置に記憶することができ、これについてのさらなる説明は、図２との関連で得られる。下記で説明する音声技術の特徴は、プラットフォームに依存しないことであり、すなわち、それらの技術は、各種のプロセッサを有する各種の市販コンピューティングプラットフォームで実装されることができる。

図２は、図１の例示的なクライアント１０２（ｎ）とサービス１０６（ｓ）をより詳細に示した例示的実装のシステム２００の図である。図で、サービス１０６（ｓ）は、複数のサーバ２０２（ａ）（「ａ」は１〜「Ａ」の任意の整数）によって実装されており、クライアント１０２（ｎ）は、クライアント機器として図示されている。各サーバ２０２（ａ）と各クライアント１０２（ｎ）は、それぞれのプロセッサ２０４（ａ）、２０６（ｎ）と、それぞれのメモリ２０８（ａ）、２１０（ｎ）を有するものと図示している。

プロセッサは、形成材料または内部で用いられる処理機構によって制限されない。例えば、プロセッサは、半導体および／またはトランジスタ（例えば電子集積回路（ＩＣ））で構成することができる。そのような状況では、プロセッサ実行可能命令は、電子的に実行可能な命令であってよい。それに代えて、プロセッサの機構またはプロセッサのための機構、およびしたがって、コンピューティング機器の機構とコンピューティング機器のための機構には、これらに限定しないが、量子コンピューティング、光コンピューティング、機械コンピューティング（例えばナノテクノロジーを使用する）等が含まれうる。また、図にはそれぞれ単一のメモリ２０８（ａ）、２１０（ｎ）を示すが、サーバ２０２（ａ）とクライアント１０２（ｎ）には、ＲＡＭ（ランダムアクセスメモリ）、ハードディスクメモリ、取り外し可能媒体メモリ等、幅広い種類および組合せのメモリが用いられてよい。

図には、動作モジュール１１４（ａ）および変換モジュール１１８（ａ）は、サーバ２０２（ａ）のプロセッサ２０４（ａ）で実行されるものと示している。無論、動作モジュール１１４（ａ）と変換モジュール１１８（ａ）は、同じサービス１０６（ｓ）内、または、図１に図示される複数のサービス１０６のうち異なるサービス内のそれぞれ異なるサーバ２０２に提供されてもよい。本明細書に記載される各種モジュールに関連する機能は、本発明の主旨および範囲から逸脱することなく、さらに組み合わせ、または分割され得ることに留意されたい。例えば、動作モジュール１１４（ａ）と変換モジュール１１８（ａ）は別々に図示しているが、各自の機能が単一のモジュールに提供されてもよい。

変換モジュール１１８（ａ）はさらに、音声／テキスト変換モジュール２１２およびテキスト／音声変換モジュール２１４を有するものと図示される。音声／テキスト変換モジュール２１２は、クライアント１０２（２）から音声データとして提供された音声１１２を、動作を行うために動作モジュール１１４（ａ）が使用することが可能なテキストに変換する機能を表す。テキスト／音声変換モジュール２１４は、動作の結果（例えば応答１１６（ｐ）またはその一部）を音声データ（例えば可聴音）に変換することができる機能を表す。テキスト／音声変換モジュール２１４は、リアルタイムの音響の結果をクライアント１０２（ｎ）に通信するように構成することができる。あるいは、テキスト／音声変換モジュール２１４は、クライアント１０２（ｎ）からアクセスできる状態となった、ボイスメール、音声ファイル等の音声の録音として保存される音響の結果を生成してもよい。

一実装では、１つまたは複数のサービス１０２（ｓ）が音声起動の検索動作を提供することができる。図２に示す動作モジュール１１４（ａ）は、検索動作を提供するように構成されている。図では、検索エンジン２１６がプロセッサ２０４（ａ）の動作モジュール１１４（ａ）内で実行され、メモリ２０８（ａ）に記憶することができる。検索エンジン２１６を使用して各種の検索を行うことができる。それらの検索には、これらに限定しないが、一般的なウェブまたはインターネット、個人のデスクトップ、映像、音声、企業、写真、および／またはローカルの検索が含まれる。そうした検索は、ユーザ１１０から音声としてクライアント１０２（ｎ）に提供されるキーワードに基づくことができる。あるいは、ユーザ１１０の音声１１２は、記憶された検索を識別し、その検索が検索エンジン２１６に検索語を提供してもよい。無論、検索動作は、単一の動作モジュール１１４（ａ）の中で他の動作と組み合わせられてよい。すなわち、検索を提供するように構成された動作モジュール１１４（ａ）は、検索の提供に限定されなくてよい。

一実装では、動作モジュール１１４（ａ）は、応答モジュール２１８を備える。応答モジュール２１８は、サービス１０６（ｓ）によって行われた動作の結果を含む応答１１６（ｐ）を形成する機能を表す。応答１１６（ｐ）は、ネットワーク１０４を介してクライアント１０２（ｎ）に通信されるように構成される。あるいは、結果は、リモートに記憶され、クライアント１０２（ｎ）から、またはクライアント１０２（ｎ）または別の機器を介してユーザ１１０からアクセスできるようにしてもよい。無論、応答１１６（ｐ）中の結果は、単一の動作モジュール１１４（ａ）によるものでも、単一のサービス１０６（ｓ）の複数の動作によるものでも、複数のサービス１０６（ｓ）によって行われた多数の動作を組み合わせた集約等であってもよい。

応答１１６（ｐ）は、各種の形で構成されることができる。図では、サーバ２０２（ａ）のメモリ２０８（ａ）内のストレージ２２０に各種の応答１１６（ｐ）が示される。応答１１６（ｐ）は、テキストとグラフィックを組み合わせたグラフィックな応答であってよい。そのため、ユーザ１１０は、音響入力（例えば音声１１２）に対して、クライアント１０２（ｎ）を介して、別の形式の応答１１６（ｐ）、例えば音響でない応答を受け取ることができる。あるいは、ユーザ１１０は、音響部分とテキストおよびグラフィック部分を組み合わせた応答を受け取ることもできる。このように、応答１１６（ｐ）は、テキスト、グラフィック、映像、音声等の組合せを含んでよい。

例えば図２に示すように、応答１１６（ｐ）は、電子メール１１６（１）、ＨＴＭＬ文書１１６（２）、インスタントメッセージ１１６（３）、映像応答１１６（４）、コンピュータ可読ファイル１１６（５）等として構成することができる。さらに、各種の応答１１６（ｐ）は、単独で、または互いと組み合わせて使用されてよい。例えば、電子メールとインスタントメッセージ１１６（３）の両方がクライアント１０２（２）に返され得る。また、インスタントメッセージ１１６（３）は、添付されたワード処理ファイルまたは他のコンピュータ可読ファイル１１６（５）を有するように形成されることもできる。各種の他の組合せも企図される。

同様に、図２には音響の応答１１６（６）が示され、これは単独で、または他の応答１１６（ｐ）と併用され得る。音響の応答１１６（６）は、クライアント１０２（ｎ）に提供されて例えばクライアントに音声として「聞かれる」応答または応答の一部を表す。例えば、音声１１２で起動された検索に応答してＨＴＭＬ文書１１６（２）が生成されることができる。ＨＴＭＬ応答１１６（２）は、クライアント１０２（ｎ）に送信される。また、テキスト／音声変換モジュール２１４がＨＴＭＬ１１６（２）またはその一部分を音響音声に変換し、音響応答１１６（６）を返してもよい。ＨＴＭＬ文書はテキスト／音声変換モジュール２１４によって変換されるため、音響応答は、例えばリアルタイム、または準リアルタイムで返される。したがって、音響入力（例えば音声１１２）に対して、ユーザ１１０は、クライアント１０２（ｎ）を介して、その全体または一部が音響応答１１６（６）である応答１１６（ｐ）を受け取ることができる。変換は代わりにクライアント１０２（ｎ）で行われてもよいことに留意されたい。そのため、クライアント１０２（ｎ）は、テキストから音声への変換と音声からテキストへの変換の両方を行うように構成されることが可能な個々の変換モジュール１１８（ｎ）を有するものと図示される。

検索エンジン２１６によって行われる検索の場合、応答１１６は、検索結果２２２を含むことができる。図では、サーバ２０２（ａ）のメモリ２０８（ａ）の中のストレージ２２４に複数の検索結果２２２（ｍ）が示されている。検索結果２２２（ｍ）は、検索エンジン２１６の実行によって得ることができる。

動作モジュール１１４（ａ）は、検索結果２２２（ｍ）を各種方式で絞り込むように構成されることができる。動作モジュール１１４（ａ）は、クライアント１０２（ｎ）またはユーザ１１０に関する情報を使用して自動的に検索を絞り込むことができる。この情報には、クライアント１０２（ｎ）の場所、ユーザ１１０のプロファイル、ユーザ１１０に関連付けられた検索履歴、ユーザ１１０の嗜好または好み等が含まれうる。この情報は、クライアント機器１０２（ｎ）から動作モジュールに提供され得る。あるいは、サービス１０６（ｓ）が、この情報を保持するか、クライアント１０２（ｎ）から、または、サービス１０６（ｓ）の複数のサーバ２０２（ａ）の１つから、または別のサービス等からこの情報を取得してもよい。

例えば、検索結果２２２（ｍ）は、要求したクライアント１０２（ｎ）の場所に基づいてフィルタリングされてよい。そのため、動作モジュール１１４（ａ）は、検索を要求したクライアント１０２（ｎ）の場所を判定するように構成することができる。例えば、クライアントの場所は、クライアント１０２（ｎ）とサービス１０６（ｓ）間の通信で提供される識別子によって判定されることができる。識別子は、クライアント機器１０２（ｎ）や通信をルーティングする機器等に関連付けられた識別子とすることができる。一例では、動作モジュール１１４（ａ）は、識別子を使用してクライアント１０２（ｎ）が「シカゴ」にいると判断することができる。したがって、飲食店、ホテル、道案内等の検索に対する検索結果２２２（ｍ）は、自動的に「シカゴ」に限定されることができる。場所を判定するために各種の他の技術も使用されてよい。

例示的手順
以下の解説は、上記のシステムおよび機器を利用して実装されることが可能な音声起動動作の説明である。各手順の態様は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組合せとして実装することができる。これらの手順は、１つまたは複数の機器によって行われる動作を指定するブロックのセットとして示され、必ずしも、個々のブロックによって動作を行うために図示される順序に限定されない。以下の説明の一部では、図１の環境１００と図２のシステム２００を参照する。

図３は、サービスが、クライアントからの音声データに基づいて動作を実行し、応答を生成する手順３００を示す。サービスが、ネットワークを介してクライアントから音声データを受信する（ブロック３０２）。例えば、図１に示されるサービス１０６（ｓ）が、音声１１２としてクライアント１０２（１）に入力された音声データを受信することができる。クライアント１０２（１）は、ネットワーク１０４に接続されたワイヤレス対応のラップトップ機等のモバイルコンピューティング機器として構成されてよい。クライアント１０２（２）の個々の通信モジュール１０８（１）が実行されて、クライアント１０２（２）とサービス１０６（１）間に音声インスタントメッセージセッションを提供することができる。したがって、クライアント１０２（２）からネットワーク１０４を通じて音声インスタントメッセージセッションを介して音声１１２が送信され、サービス１０６（ｓ）がその音声１１２を受信する（例えば「聞く」）ことができる。

変換モジュール１１８（ｓ）が実行されて、音声データをテキスト文字列に変換する（ブロック３０４）。例えば、上記の例で受信された音声１１２がテキスト３０６に変換されることができる。図１に示される変換モジュール１１８（ｓ）が実行されて音声１１２を変換することができる。音声１１２は、「１」、「食品」、「実行する」、「買う」等の単純なコマンドを指定することができ、または、音声１１２は、例えば「イタリア料理店を見つける」のようなフレーズや文章であってもよい。このように、変換モジュール１１８（ｓ）は、音声１１２を、命令、コマンド、単語等の形のテキスト３０６に変換し、その命令、コマンド、単語等がサービス１０６（ｓ）によって利用されて、１つまたは複数の動作を起動することができる。

動作モジュールにテキストが提供され、動作モジュールはそのテキストを使用して、動作を行い、結果を得る（ブロック３０８）。上記の例を続けると、テキスト３０６がコマンド、例えば「商品２を買う」であるとする。図１の動作モジュール１１４（ｓ）がテキスト３０６を受け取る。動作モジュール１１４（ｓ）は、テキスト３０６を使用して購入動作を行うように構成することができる。例えば、サービス１０６（ｓ）は、事前に、音声インスタントメッセージセッションの際に、または、電子メール、インターネットを介して等、販売商品のリストをユーザ１１０に提供している場合がある。ユーザ１１０は、リストを見て、リストにある商品２を買うことを決める。ユーザ１１０は、クライアント１０２（１）（例えばワイヤレスのラップトップ）を介して、フレーズ「商品２を買う」を音声としてクライアント１０２（１）に提供して、希望商品の購入を起動する。

動作モジュール１１４（ｓ）は、変換されたコマンドをテキスト３０６として受け取り、購入動作を起動する。動作の結果３１０が得られる。例えば、この例における結果は、取引の完了、受領証、情報を購入するためのプロンプト等である。動作モジュールは、図１のサービス１０６（ｓ）またはサービス１０６（ｓ）の任意の１つまたは複数によって行うことが可能な購入のシーケンスを起動してよいことに留意されたい。したがって、サービス１０６（ｓ）は、１つの動作全体を扱うように、または、リモートで（例えば、特定のサービス１０６（ｓ）内ではない）行うことが可能な動作を起動し、結果を得るように構成されてよい。無論、音声１１２に応答して、上記で説明した各種の動作が行われてよい。

動作モジュールは、結果を含む、クライアントに通信される応答を生成する（ブロック３１２）。上記の例では、動作モジュール１１４（ｓ）は、購入動作、例えば「商品２を買う」のコマンドの結果３１０を含む応答１１６（ｐ）を形成する。結果３１０は、例えば、購入の確認である。その確認を含んだテキストのインスタントメッセージが形成され得る。確認を含んだインスタントメッセージは、クライアント１０２（１）とサービス１０６（ｓ）間のインスタントメッセージセッションを介して通信され得る。したがって、ユーザ１１０は、音声の購入コマンドに対して、希望商品の購入を確認するテキストのインスタントメッセージ応答を受信する。種々の入力と応答の方式を持つ能力は、特定のクライアント機器で、または特定の時に、テキストまたはグラフィックの応答を読むことより、テキストまたはグラフィックの応答を形成することが難しい事例で望ましい場合がある。そのため、口頭で要求を入力し、異なるまたは複数の方式で（例えばテキスト、グラフィック、音声等）応答を受信する能力は、特定の事例で特定のユーザにとって有利である場合がある。

別の例で、動作モジュールは、音響の応答を形成することができる。例えば、購入の確認を伴うテキストのインスタントメッセージはが、変換モジュール１１８（ｓ）を介して、テキストから音声に変換され得る。変換された確認は、例えば、音声インスタントメッセージセッションを介してリアルタイムで通信されることができ、ユーザ１１０には音響の購入確認が提供される。変換された応答は、合成音声、録音された音声等である。この音響応答は、別の応答に加えて、または別の応答の代わりに提供され得る。先に述べたように、「出先」や運転中など、特定の時には、ユーザにとって音響の応答の方が便利または安全である場合がある。

別の例で、購入の確認を伴うテキストのインスタントメッセージ等のグラフィック応答が、単純な音響応答と共に提供され得る。例えば、「完了しました」、「成功しました」、「結果を送信しました」、「再度試して下さい」等の短い音響応答が提供され得る。変換モジュール１１８（ｓ）は、この短い音響応答を形成するように構成され得る。この例では、ユーザ１１０には、希望した購入の音響の確認とテキストの確認の両方が提供される。応答方式の各種の他の組合せも企図され、それらの応答方式には、電子メール、インスタントメッセージ、画像、映像、音声、ファイル、ＨＴＭＬ文書等の１つまたは複数が含まれうる。

図４は、音声を使用してサービスにおいて検索を起動する例示的手順４００を示す。音声として受け取られた検索語がサービスに通信されてウェブ検索を起動する（ブロック４０２）。例えば、図２に示すユーザ１１０が、携帯電話として構成されたクライアント機器１０２（ｎ）を介して検索を起動することができる。そのため、通信モジュール１０８（ｎ）は、ネットワーク１０４を介してワイヤレスの音声サービスを提供するように構成され、したがって、クライアント１０２（ｎ）は、１つまたは複数のサービス１０６（ｓ）に音声データを通信することができる。この例では、携帯電話として構成されたクライアント機器１０２（ｎ）のユーザ１１０は、イリノイ州シカゴを旅行しており、イタリア料理を食べたいと思っている。ユーザ１１０は、携帯電話を使用して、例えば検索サービスを提供するように構成された図２のサービス１０６（ｓ）に通話することができる。ユーザ１１０は、番号をダイヤルする、連絡先のリストからサービス１０６（ｓ）を選択する、その他（例えば音声で始動されるダイヤル）等によりサービスと対話を起動する。

このように、サービス１０６（ｓ）とクライアント機器１０２（ｎ）の間でワイヤレスの音声通話が起動される。ユーザ１１０は、クライアント機器１０２（ｎ）（携帯電話）に音声１１２を提供して検索を起動する。音声１１２は、「イタリア料理店、シカゴ」等の検索語を含むことができる。クライアント機器１０２（ｎ）は、検索語（例えば音声１１２）をサービス１０６（ｓ）に通信する。音声１１２は、テキストに変換され得る。次いで、サービス１０６（ｓ）は、テキストの語を検索エンジン２１６に提供してウェブ検索を起動する。

サービスから、ウェブ検索の結果を含む応答が受信される（ブロック４０４）。最後の例では、例えば、サービス１０６（ｓ）は、話された語「イタリア料理店、シカゴ」によって起動されたウェブ検索の結果としてイタリア料理店のリストを得ることができる。サービス１０６（ｓ）、より詳細には応答モジュール２１８は、イタリア料理店のリストを含む応答１１６（ｐ）を形成する。応答は、料理店を列挙した電子メールなどの単純なリストであってよい。応答は、料理店のリスト、シカゴの地図、および、地図上でリストの料理店がある場所の表示を含むＨＴＭＬ文書等、テキストとグラフィック（例えばグラフィックの応答）の組合せを有してもよい。クライアント１０２（２）は、サービス１０６（ｓ）から応答を受信し、その後応答はユーザ１１０によって使用され得る。テキスト、グラフィック、音声等を組み合わせた各種の他の応答１１６（ｐ）も企図される。

一実装では、サービス１０６（ｓ）は、検索または検索結果を各種方式で絞り込むように構成され得る。１つ前の例におけるサービス１０６（ｓ）は、サービス１０６（ｓ）によって判定されたクライアント１０２（ｎ）の場所を使用して検索を自動的に絞り込むことができる。例えば、サービス１０６（ｓ）は、ワイヤレスの音声通話がシカゴで発信されたこと、またはクライアント機器１０２（ｎ）が現在シカゴにあることを判定する。この例では、検索を起動させる音声１１２は、簡略化されてよい。ユーザ１１０は、「イタリア料理店、シカゴ」と言うのではなく、「イタリア料理店」と言ってよい。検索は、サービス１０６（ｓ）によって判定されたクライアントの場所に基づいて自動的に絞り込まれる。したがって、クライアント機器１０２（ｎ）に音声として入力された検索語「イタリア料理店」に応答して、ユーザは、現在いる場所、この例ではシカゴにあるイタリア料理店、またはその近辺のイタリア料理店についての検索結果を受信することができる。

図５は、音声で起動された動作の結果を含む応答が形成される例示的手順５００を示す。クライアントで音声として受け取られた音声データで指定される動作が行われる（ブロック５０２）。ここで、図１に示すユーザ１１０が、図１に示す携帯情報端末（ＰＤＡ）１０２（３）等のハンドヘルドコンピューティング機器を使用してファイルを転送したいとする。ファイルは、プレゼンテーション、テキスト文書、音声の録音等の任意のコンピュータ可読ファイルでよい。この場合、ユーザは、ファイル「ｆｉｌｅ．ｔｘｔ」を１人または複数の同僚と共有したい。ファイルは、物理的にＰＤＡ１０２（３）に置かれているか、リモートのストレージにあってネットワーク１０４、ピアツーピアネットワーク等を介してユーザ１１０からアクセスすることができる。この例では、ユーザ１１０は、音声を使用してＰＤＡ１０２（３）から、または遠隔の場所から、１人または複数の同僚がアクセス可能なネットワークストレージ等の別の場所へのファイルの転送を起動することができる。ユーザ１１０は、ＰＤＡ１０２（３）を使用して、ネットワーク１０４を通じて音声１１２をサービス１０６（ｓ）に通信する。例えば、ユーザ１１０は、「ｆｉｌｅ．ｔｘｔ、転送」等のコマンドあるいはフレーズを話し、それが音声１１２としてＰＤＡに受信される。音声１１２で指定される動作は、サービス１０６（ｓ）に通信される。一実装では、音声１１２は、音声データとして通信される。音声１１２は、動作モジュール１１４（ｓ）に理解可能な命令に変換されることができ、動作モジュール１１４（ｓ）は次いで、指定された動作を行うことができる。例えば、変換モジュール１１８（ｓ）が音声１１２を音声からテキストの命令に変換することができる。あるいは、ＰＤＡ１０２（３）等のクライアント１０２が、サービス１０６（ｓ）に通信するために音声データをテキストに変換するように構成されてもよい。ＰＤＡ１０２（３）に含まれる変換モジュール１１８（ｎ）が、音声１１２の音声からテキストへの変換を行い、次いでテキストの命令がサービス１０６（ｓ）に送信される。

サービス１０６（ｓ）は、音声１１２によって指定された動作を行う。例えば、動作モジュール１１４（ｓ）が実行されて、ＰＤＡ１０２（３）とネットワークストレージの場所との間でファイル「ｆｉｌｅ．ｔｘｔ」を転送することができる。このようにして、ユーザ１１０は、ファイルを、他の者（例えば、１人または複数の同僚）がそのファイルにアクセスできる場所に移動することができる。無論、ファイルは、例えばサービス１０２（ｓ）または他のネットワークストレージからＰＤＡ１０２（３）へ等、別の方向に転送されてもよい。

クライアントに通信するために、動作の結果を含む応答が形成される（ブロック５０４）。上記の例では、結果は、ファイルの転送が成功したかどうかを示すことができる。例えば、「完了しました」と言う音響応答１１６（ｐ）が形成され得る。応答１１６（ｐ）は、転送場所にあるファイルの一覧を提供するテキストメッセージ、ＨＴＭＬメッセージ等でもよい。転送を確認するインスタントメッセージを、「成功しました」等の音響応答と併せる等、応答１１６（ｐ）の組合せも形成することができる。変換モジュール１１８（ｓ）が実行されて、リアルタイムの音声応答をＰＤＡ１０２（３）に提供することができる。

無論、この手順を使用して、ファイルの取り出し、メッセージの送信、アカウントへのアクセス、商品の購入、１人または複数の受信者へのファイルの電子メール送信、リモートのコンピューティング機器での実行可能命令の起動等の各種の他の動作を行うことが可能である。

図６は、ＰｏＣ（ｐｕｓｈ−ｔｏ−ｔａｌｋｏｖｅｒｃｅｌｌｕｌａｒ）を使用して音声起動動作を行う例示的手順６００を示す。ＰｏＣ（ｐｕｓｈ−ｔｏ−ｔａｌｋｏｖｅｒｃｅｌｌｕｌａｒ）セッションが確立される（ブロック６０２）。例えば、図２に示すクライアント機器１０２（ｎ）がＰｏＣ対応の携帯電話として構成されることができる。携帯電話クライアント１０２（ｎ）は、ＰｏＣの連絡先リストを保持することができる。１つまたは複数のサービス１０６（ｓ）がＰｏＣ連絡先であってよい。ユーザ１１０は、サービス１０６（ｓ）のコンテンツを所望しているとする。サービス１０６（ｓ）は、音声、映像、ウェブページ等の各種のコンテンツをネットワーク１０４を介して提供するように構成することができる。この場合、ユーザ１１０は、サービス１０６（ｓ）の音声コンテンツを求めている。ユーザは、ＰｏＣ連絡先を選択し、ＰｏＣセッションを起動する。例えば、ユーザは、連絡先の中からサービス１０６（ｓ）を選択し、ＰｏＣボタンを押してセッションを起動することができる。携帯電話のクライアント１０２（ｎ）とサービス１０６（ｓ）の間にＰｏＣセッションが確立される。サービス１０６（ｓ）は、ＰｏＣセッションを介して携帯電話クライアント１０２（ｎ）からの音声を即座に「聞く」ことができる。

ＰｏＣセッションを介してクライアントから音声データが受信される（ブロック６０４）。例えば、図２のユーザ１１０が携帯電話のクライアント１０２（ｎ）に音声１１２を提供し、その音声がＰｏＣセッションを介して瞬時に（またはほぼ瞬時に）サービス１０６（ｓ）で聞かれる。音声１１２は、所望の音声コンテンツに対する要求であってよい。例えば、ユーザの音声１１２は、歌の題名、アーティスト、再生リスト、場所等を含むことができる。

音声データがテキストに変換される（ブロック６０６）。先の例を続けると、所望の音声コンテンツの要求は、サービス１０６（ｓ）、詳細には、所望の動作を起動しようとする動作モジュール１１４（ａ）には即座に理解できない場合がある。そのため、要求は音声からテキスト、例えば動作モジュール１１４（ａ）が理解可能な命令に変換され得る。図２に示すように、変換モジュール１１８（ａ）がサービス１０６（ｓ）のプロセッサ２０４（ａ）で実行されて、受信された音声１１２をテキストに変換することができる。この例では、音声１１２で指定された音声コンテンツの取り出しを起動する命令を提供するテキストが生成され得る。

そのテキストを使用して動作が行われる（ブロック６０８）。例えば、変換モジュール１１８（ａ）によって生成されたテキスト（例えば、命令）が動作モジュール１１４（ａ）に提供され、動作モジュール１１４（ａ）はそのテキストを使用して動作、この例では音声コンテンツの取り出しを行う。所望の音声コンテンツは、サーバ２０２（ａ）から、またはサービス１０６（ｓ）の複数のサーバ２０２の１つから、またはネットワーク１０４を介してアクセス可能な別のサービス１０６あるいはリモートの場所を含む各種の場所から取り出されることができる。

クライアントに通信するために、動作の結果を含む応答が形成される（ブロック６１０）。例えば、選択された音声コンテンツへのハイパーリンクを提供するＨＴＭＬ文書として構成された応答１１６（ｐ）が形成され得る。応答１１６（ｐ）を受信すると、ユーザ１１０は、ハイパーリンクを使用してコンテンツにアクセスすることができる。コンテンツは、ストリーミングまたは非ストリーミングの方式で提供され得る。応答１１６（ｐ）は、所望のコンテンツ自体を返すことを含んでもよい。例えば、応答１１６（ｐ）は、携帯電話クライアント１０２（ｎ）に音声ファイルを非ストリーミング方式で、単独で、またはインスタントメッセージや電子メール等のグラフィック応答と共に提供することができる。

一実装では、確立されたＰｏＣセッションを使用して音響応答をクライアントに通信することができる。例えば、音響応答は、所望のコンテンツが入手可能または入手不可能であること、グラフィック応答が送信されたこと、コンテンツを入手できる場所等を知らせることができる。したがって、図２の応答モジュール２１８を使用して応答１１６（ｐ）を形成することができる。応答は、変換モジュール１１８（ａ）を介してテキストから音声に変換され得る。変換の結果は、ＰｏＣセッションを介してリアルタイムで携帯電話クライアント１０２（ｎ）に送信され得る。別の実装では、所望の音声コンテンツは、当該ＰｏＣセッションまたは別のＰｏＣセッションを介してクライアントにストリーミングされ得る。ＰｏＣを介した音響応答は、他の応答方式に追加するものでも、他の応答方式の代わりであってもよい。例えば、先に述べたように、インスタントメッセージ、ＨＴＭＬ、テキスト、電子メール、および音響応答が各種の組合せで形成されてよい。

図７は、音声起動検索の結果を利用して追加的な音声起動動作を行う手順７００を示す。クライアントで音声として入力された語を使用して検索が行われる（ブロック７０２）。例えば、ユーザ１１０は、飛行便の予約をしたいと思っている。ユーザ１１０は、図１に示すクライアント機器１０２（ｎ）の１つを使用して、ネットワーク１０４を介して予約を提供するように構成されたサービス１０６（ｓ）と通信することができる。ユーザ１１０は、音声１１２を提供して利用可能な飛行便の検索を起動する。例えば、ユーザが４月１日のオレゴン州ポートランドとイリノイ州シカゴ間の飛行便を見つけたい場合、ユーザ１１０は、「飛行便、ＰＤＸからＯＲＤ、４月１日」等の検索語を伴う音声１１２を提供することができる。検索エンジン２１６がサービス１０６（ｓ）で実行されて、音声１１２で指定された検索を行うことができる。検索エンジン２１６には、変換モジュール１１８（ａ）による音声１１２の変換から生成されたテキストの検索語が提供され得る。図では変換モジュール１１８（ａ）は検索エンジン２１６と同じサーバにあるが、変換は、別のサーバ２０２や、クライアント１０２の変換モジュール１１８等で行われてもよい。

検索の結果がクライアントに通信される（ブロック７０４）。上記の飛行便検索の例に対して、ユーザ１１０は、４月１日のオレゴン州ポートランドとイリノイ州シカゴ間の５便のリストを含んだ応答１１６（ｐ）を受信することができる。この応答は、ＨＴＭＬ文書、インスタントメッセージ、電子メール等、上記の各種方式のいずれでフォーマットされてもよい。

検索結果に関連し、クライアントに音声として入力される命令に基づいて、追加的な動作が行われる（ブロック７０６）。先の例のユーザ１１０は、例えば５つの可能な飛行便を含んだ検索の結果を受信し、閲覧する。そして、ユーザ１１０は、それら飛行便のうち１つを予約したいとする。したがって、ユーザは、検索結果に関連する追加的な音声１１２を提供することができる。例えば、追加的なユーザの音声１１２は、検索結果に列挙された飛行便の１つに対応する「９９便を予約」と指示することができる。一実装では、検索結果を使用してさらなる動作を起動する方法をユーザに指示してもよい。例えば、検索結果の項目１は、「この便を予約するには『１を予約』と言って下さい」と指示することができる。追加的な音声１１２で指定された動作がサービス１０２（ｓ）に通信される。サービスは、検索を行ったサービス１０２（ｓ）と同じサービスであっても、異なるサービス１０２であってもよい。そして、サービスは、先に提供された検索結果に関連する追加的な動作を行う。

このように、音声で起動された検索の結果が活用されて、音声で起動される追加的な動作を行うことができる。無論、音声で起動された検索結果の活用を用いて、ファイル転送、ファイルの取り出し、取引の購入、旅行の予約、ホテルおよび飲食店の予約等の様々な動作を行うことができる。追加的な動作は、さらなる検索であっても、検索結果の絞り込みであってもよい。

結論
本発明について、構造的特徴および／または方法論的動作に固有の術語で説明したが、添付の特許請求の範囲に定義される本発明は、ここに記載される具体的な特徴または動作に必ずしも限定されないことを理解されたい。それら具体的な特徴および動作は、特許請求される本発明を実施する例示的形態として開示される。

音声起動動作技術を用いるように動作可能な例示的実装の環境を示す図である。図１の例示的クライアントとサービスをより詳細に示した例示的実装のシステムの図である。音声起動動作が行われ、応答が生成される、例示的実装における手順を示す流れ図である。音声によってウェブ検索が起動される、例示的実装の手順を示す流れ図である。音声起動動作が行われ、応答が生成される、別の例示的実装の手順を示す流れ図である。音声起動動作にＰｏＣ（ｐｕｓｈ−ｔｏ−ｔａｌｋｏｖｅｒｃｅｌｌｕｌａｒ）セッションが利用される、例示的実装の手順を示す流れ図である。音声起動検索の結果が追加的な音声起動動作に利用される、例示的実装の手順を示す流れ図である。

Claims

ネットワークを介して受信された音声コマンドを変換することと、
前記変換されたコマンドを行って、視覚的応答を形成することと、
前記ネットワークを介して前記音声コマンドの送信者に通信する、前記視覚的応答を含む通信を形成することと
を備えることを特徴とする方法。
前記視覚的応答は電子メールであることを特徴とする請求項１に記載の方法。
前記視覚的応答は、ハイパーテキストマークアップ言語（ＨＴＭＬ）文書であることを特徴とする請求項１に記載の方法。
前記視覚的応答は、インスタントメッセージであることを特徴とする請求項１に記載の方法。
前記音声コマンドは、ＰｏＣ（ｐｕｓｈ−ｔｏ−ｔａｌｋｏｖｅｒｃｅｌｌｕｌａｒ）セッションを介して受信されることを特徴とする請求項１に記載の方法。
前記音声コマンドは、ハンドヘルド型のクライアント機器から受信されることを特徴とする請求項１に記載の方法。
前記音声コマンドは、音声インスタントメッセージセッションを介して受信されることを特徴とする請求項１に記載の方法。
前記音声コマンドは行われるべき少なくとも１つの動作を、
検索、
金融取引、
購入取引、
ファイルの転送、
予約、および
ダウンロード
からなるグループから選択して指定することを特徴とする請求項１に記載の方法。
クライアントが音声として受信した音声データによって、指定された検索を行うことと、
前記音声データの発生元である前記クライアントにネットワークを通じて通信する、検索結果を含む応答を形成することと
を備えることを特徴とする方法。
前記音声データをテキストの検索語に変換することをさらに備えることを特徴とする請求項９に記載の方法。
前記変換された音声データは、前記検索を行うモジュールによって理解することができ、前記音声データは、前記モジュールによって理解できないことを特徴とする請求項９に記載の方法。
前記応答は、
電子メール、
テキスト、
ＨＴＭＬ文書、
インスタントメッセージ、
画像、および
音響
からなるグループから選択される１つまたは複数の項目を含むことを特徴とする請求項９に記載の方法。
前記検索結果は、前記クライアントの場所に基づいて自動的に絞り込まれることを特徴とする請求項９に記載の方法。
前記検索結果をテキストから音響の応答に変換することをさらに備えることを特徴とする請求項９に記載の方法。
前記応答は、リアルタイムの音響の応答であることを特徴とする請求項９に記載の方法。
前記検索結果に関連した、前記クライアントに音声として入力される追加的な音声データに基づいて動作を行うことをさらに備えることを特徴とする請求項９に記載の方法。
モバイル機器を介して入力された音声データを、インターネットの検索エンジンに入力するためのテキストの検索文字列に変換するように、コンピュータで実行されると前記コンピュータに指示するコンピュータ実行可能命令を備えることを特徴とする１つまたは複数のコンピュータ可読媒体。
前記音声データは、ＰｏＣ（ｐｕｓｈ−ｔｏ−ｔａｌｋｏｖｅｒｃｅｌｌｕｌａｒ）セッションを介して前記インターネットの検索エンジンに通信されることを特徴とする請求項１７に記載の１つまたは複数の媒体。
前記音声データの送信者に検索結果を提供する命令をさらに備えることを特徴とする請求項１７に記載の１つまたは複数の媒体。
前記送信者に提供される前記検索結果は、非音響であることを特徴とする請求項１８に記載の１つまたは複数の媒体。