JP2014512049A

JP2014512049A - 音声対話型メッセージ交換

Info

Publication number: JP2014512049A
Application number: JP2014503705A
Authority: JP
Inventors: アイハラ，リアネ; ランドリー，シェーン; スティフェルマン，リサ; チンサクンタ，マドゥスーダン; サリバン，アン; リー，キャスリーン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2011-04-07
Filing date: 2012-04-02
Publication date: 2014-05-19
Also published as: WO2012138587A3; US20120259633A1; EP2695406A2; WO2012138587A2; CN103443852A; EP2695406A4; KR20140022824A

Abstract

特には携帯型デバイスにおける、完全にハンズフリーのメッセージ交換が、音声認識、テキストトゥスピーチ（ＴＴＳ）、および検出アルゴリズムの組合せを介して提供される。入力メッセージがユーザに対して読み上げられ、ユーザは、その音声対話モードが適切であるかどうかを判定すると、音声入力を介する応答メッセージでその送信者に応答することを可能にされる。ユーザはまた、異なる通信モード（たとえば、通話）で応答するためのオプションを提供され得る、または他のアクションを実行することができる。ユーザはさらに、自然言語を使用し、メッセージ交換を開始することを可能にされ得る。

Description

[0001]コンピュータおよびネットワーク技術の発達および普及で、パーソナル通信およびビジネス通信は、量および質において急速に成長した。

デスクトップコンピュータ、車載コンピュータ、携帯型コンピュータ、スマートフォン、および同様のデバイスなどの固定型または携帯型のコンピューティングデバイスを介するマルチモーダル通信は、ごく一般的である。多数の通信の様相が、容易にカスタマイズ可能なソフトウェア／ハードウェアの組合せを介して制御されるので、以前に知られていなかった機能が、日常生活で使用するために利用可能である。たとえば、存在情報の通信アプリケーションへの統合により、人々はより効率的に互いに通信することが可能になる。同時に行われるサイズの縮小と計算能力の向上により、音声（ａｕｄｉｏ）、ビデオ、テキストメッセージ交換、電子メール、インスタントメッセージング、ソーシャルネットワーキングポスト／更新などを含むが、これらに限定されない、マルチモーダル通信のためのスマートフォンまたは同様のハンドヘルドコンピューティングデバイスの使用が可能になる。

[0002]通信技術の急速な成長の結果の１つは、情報過多である。一人が毎日数百の電子メールを交換し、数えきれないほどの音声またはビデオ通信セッションに参加し、多数のテキストメッセージを交換することは珍しくない。膨張する通信の範囲を所与として、より公式な電子メールおよび時間を要する音声／ビデオ通信の代わりに、テキストメッセージ交換が益々盛んになっている。さらに、従来のタイピング技術を使用すると、物理的キーボード上であるかタッチ技術を使用するかに関わらず、テキストメッセージさえも、場合により（たとえば、運転中）、非効率的、非実用的、または危険であることがある。

[0003]この概要は、発明を実施するための形態において以下でさらに説明される概念の選択を簡潔な形で紹介するために提供される。本概要は、特許請求されている対象の重要な特徴または本質的特徴を排他的に識別するものではなく、特許請求されている対象の範囲を確定する際の助けとされるものでもない。

[0004]諸実施形態は、特に、音声認識（ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）、テキストトゥスピーチ（ＴＴＳ）、および検出アルゴリズムの組合せを介する携帯型デバイスにおいて、メッセージの完全にハンズフリーの交換を提供することを対象とする。いくつかの実施形態によれば、入力メッセージがユーザに対して読み上げ可能であり、ユーザは、音声入力を介する応答メッセージでその送信者に応答できるようにされる。ユーザはまた、異なる通信モード（たとえば、通話）で応答するためのオプションを提供され得る、または他のアクションを実行することができる。他の実施形態によれば、ユーザは、自然言語を使用して、メッセージ交換を開始できるようにされ得る。

[0005]これらのならびに他の特徴および利点が、以下の詳細な説明を読むことおよび関連図面の再検討から明らかとなろう。前述の概要および以下の詳細な説明の両方は説明のためであり、特許請求されているものとしての態様を制限しないことを理解すべきである。

[0006]様々なモダリティでの異なる例示的デバイス間のネットワーク通信を示す概念図である。 [0007]音声入力を介してメッセージ交換を開始するための実施形態によるシステム内の動作の例示的流れを示す図である。 [0008]音声入力を介して入力メッセージに応答するための実施形態によるシステム内の動作の例示的流れを示す図である。 [0009]通信を円滑に進めるための携帯型コンピューティングデバイスの例示的ユーザインターフェースを示す図である。 [0010]実施形態によるシステムが実装され得るネットワーク環境である。 [0011]実施形態が実装され得る例示的コンピューティング動作環境のブロック図である。

[0012]簡単に前述したように、入力メッセージがユーザに対して読み上げ可能であり、ユーザは、その音声対話モードが適切であるかどうかを判定すると、音声入力を介して応答メッセージで送信者に応答することを可能にされ得る。ユーザはまた、異なる通信モード（たとえば、通話）で応答するためのオプションを提供され得る、または他のアクションを実行することができる。ユーザは、自然言語を使用し、メッセージ交換を開始することをさらに可能にされ得る。以下の詳細な説明で、本明細書の一部を形成し、例として特定の実施形態または例が示された、添付の図面が参照される。これらの態様は組み合わせることができ、他の態様が使用可能であり、構造的変更が、本開示の趣旨および範囲を逸脱することなしに行われ得る。したがって、以下の詳細な説明は、限定的な意味で取られるべきではなく、本発明の範囲は、添付の特許請求の範囲およびそれらの同等のものによって定義される。

[0013]実施形態は、パーソナルコンピュータのオペレーティングシステムで動作するアプリケーションプログラムとともに実行するプログラムモジュールの概括的文脈において説明されるが、態様は他のプログラムモジュールとの組合せでも実装され得ることが、当業者には理解されよう。

[0014]概して、プログラムモジュールは、ルーチン、プログラム、構成要素、データ構造、および特定のタスクを実行するまたは特定の抽象データタイプを実装する他のタイプの構造を含む。さらに、諸実施形態は、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースのもしくはプログラマブルな家庭用電化製品、ミニコンピュータ、メインフレームコンピュータ、および同等のコンピューティングデバイスを含む、他のコンピュータシステム構成で実施され得ることが、当業者には理解されよう。諸実施形態はまた、タスクが通信ネットワークを介してリンクされた遠隔処理装置によって実行される分散型コンピューティング環境において実施され得る。分散型コンピューティング環境で、プログラムモジュールは、ローカルおよび遠隔メモリ記憶装置の両方の中に置かれ得る。

[0015]諸実施形態は、コンピュータ実装プロセス（方法）、コンピューティングシステム、またはコンピュータプログラム製品もしくはコンピュータ可読媒体などの製造品として、実装することができる。そのコンピュータプログラム製品は、コンピュータシステムにより可読の、かつコンピュータもしくはコンピューティングシステムに（１つまたは複数の）例示的プロセスを実行させるための命令を備えるコンピュータプログラムを符号化する、コンピュータ記憶媒体でもよい。コンピュータ可読記憶媒体は、たとえば、揮発性コンピュータメモリ、非揮発性メモリ、ハードドライブ、フラッシュドライブ、フロッピディスク、またはコンパクトディスク、および同等の媒体のうちの１つまたは複数を介して実装することができる。

[0016]本明細書全体を通して、「プラットフォーム」という用語は、マルチモーダル通信を円滑に進めるためのソフトウェアおよびハードウェア構成要素の組合せでもよい。プラットフォームの例は、複数のサーバに亘って実行されるホスト型サービス、単一のサーバで実行されるアプリケーション、および同等のシステムを含むが、これらに限定されない。概して、「サーバ」という用語は、典型的にはネットワーク環境内で１つまたは複数のソフトウェアプログラムを実行するコンピューティングデバイスを指す。しかし、サーバはまた、そのネットワーク上のサーバとして見られる１つまたは複数のコンピューティングデバイス上で実行される仮想サーバ（ソフトウェアプログラム）としても実装され得る。

[0017]図１は、様々なモダリティにおける異なる例示的デバイス間のネットワーク通信を示す概念図である。現代の通信システムは、サーバおよび他の専門の装置によって管理される１つまたは複数のワイヤードおよび／またはワイヤレスネットワークを介する情報の交換を含み得る。ユーザ対話は、携帯電話、スマートフォン、専用デバイスなどの専門のデバイスによって、または通信アプリケーションを実行した汎用コンピューティングデバイス（固定型または携帯型）によって、円滑に進めることができる。

[0018]現代の通信システムによって供される機能および特徴の多様性により、ユーザは様々な通信モダリティを活用することができる。たとえば、音声、ビデオ、電子メール、テキストメッセージ、データ共用、アプリケーション共用、および同様のモダリティは、個々に、または同じデバイスを介して組み合わせて使用することができる。ユーザは、その携帯型デバイスを介してテキストメッセージを交換し、次いで、異なるモダリティを介して同じ人と会話を継続することができる。

[0019]図１００は、２つの例示的システムを示し、一方はセルラネットワークを使用し、他方はデータネットワークを使用する。セルラ通信システムは、音声、ビデオ、またはテキストベースの交換が、複雑なバックボーンシステムによって管理されるセルラネットワーク１０２を介して行われることを可能にする。携帯電話１１２および１２２は、様々な機能を有し得る。今日、スマートファンが機能に関してデスクトップコンピューティングデバイスと酷似していることは珍しくない。

[0020]他方でデータネットワーク１０４ベースの通信システムは、携帯型（たとえばハンドヘルドコンピュータ１１４、１２４）または固定型（たとえばデスクトップコンピュータ１１６、１２６）コンピューティングデバイスを介して、より広範なデータおよび通信モダリティのセットの交換を可能にする。データネットワーク１０４に基づく通信システムは、典型的には、１つまたは複数のサーバ（たとえばサーバ１０６）によって管理される。通信セッションもまた、ネットワークを横切って円滑に進められ得る。たとえば、データネットワーク１０４に接続されたユーザは、セルラネットワーク１０２に接続された携帯電話ユーザと、そのデスクトップ通信アプリケーションを介して通信セッション（任意のモダリティで）を開始することができる。

[0021]しかし、従来のシステムおよび通信デバイスは、ほとんど、その通信デバイスのボタンまたは同様の制御要素のタイピングまたは起動などの物理的対話に制限される。音声認識に基づく技術が一部のシステムで使用されるが、ユーザは、典型的には、ボタンを押すことによってそれらを起動させなければならない。さらに、ユーザは、音声に基づく機能を使用する前に、デバイス／アプリケーションを適切なモードにする必要がある。

[0022]いくつかの実施形態による通信システムは、ユーザが出力のテキストベースのメッセージを送信して、ボタンを押すまたはデバイス画面を見ることさえ必要とせずに、入力のテキストベースのメッセージに応答できる（通知を受信する、ユーザに対してメッセージを読ませる、および応答を作成する）ようにするのに、音声認識、口述、およびテキストトゥスピーチ（音声出力）技術の組合せを使用し、それによって、通信デバイスとの対話を最小限にまたはなくする。テキストベースのメッセージは、インスタントメッセージ（ＩＭ）、ショートメッセージサービス（ＳＭＳ）メッセージ、マルチメディアメッセージングサービス（ＭＭＳ）メッセージ、ソーシャルネットワーキングポスト／更新、電子メール、および同等のものを含むが、これらに限定されない、任意の形のテキストのメッセージを含み得る。

[0023]例示的実施形態はまた、方法を含む。これらの方法は、本明細書に記載の構造を含む、任意の数の方法で実装することができる。そのような方法の１つは、本明細書に記載のタイプのデバイスの機械動作による。

[0024]別のオプションの方法は、いくらかを実行する１人または複数の人間のオペレータと連動して実行されることになる本方法の個々の動作のうちの１つまたは複数についてである。これらの人間のオペレータは、互いに一緒に配置される必要はなく、各々がそのプログラムの一部を実行する機械とともにいるだけでもよい。

[0025]図２は、音声入力を介してメッセージ交換を開始するための実施形態によるシステム内の動作の例示的流れを示す。通信を円滑に進めるためのコンピューティングデバイスへの音声入力が、マイクロフォン、ヘッドセット、カーキット、または同様の音声デバイスなどの統合されたまたは別個の構成要素（ワイヤードまたはワイヤレス）を介して届き得る。様々なシーケンスの動作が、実施形態による通信システム内で実行され得るが、２つの例示的流れが図２および図３で論じられる。

[0026]例示的動作の流れ２００は、所定のキーワード（たとえば「メッセージングを開始」）またはデバイス（２３２）のボタンを押すことを介するメッセージングアクションの起動で開始することができる。いくつかの実施形態によれば、そのメッセージングアクションは、自然言語を介して起動することができる。たとえば、ユーザは、「ジョン・ドゥにメッセージを送る」と声に出すことによって指示を与えることができる。ユーザが電話番号または受信者としての同様の識別子を述べた場合、システムは、その識別子が適切であることを確認し、さらなる音声入力を待つことができる。ユーザが名前を述べた場合、１つまたは複数の判定アルゴリズムが実行されて、同様の識別子（たとえば、ＳＩＰ識別子）の電話番号と受信された名前を関連付けることができる。たとえば、その受信された名前は、連絡先リストまたは同様のデータベースと比較され得る。複数の名前または同音の名前が存在する場合、本システムは、どの連絡先がそのメッセージを受信することを意図されているかを指定するようにユーザに促すことができる。さらに、ある連絡先と関連する複数の識別子（たとえば、電話番号、ＳＩＰ識別子、電子メールアドレス、ソーシャルネットワーキングアドレスなど）が存在する場合、本システムは、意図された識別子を選択する（音声入力を介して）ようにユーザに再び促すことができる。たとえば、本システムは、テキストメッセージが連絡先と関連する通常の電話番号のファックス番号に送信されるものではないと自動的に判定することができるが、その連絡先が２つの携帯電話番号を有する場合、ユーザは２つの電話番号の中から選択するように促され得る。

[0027]意図された受信者の識別子が判定された後は、本システムは、メッセージ（２３４）を話すように音声プロンプトまたはイアコンを介してユーザに促すことができる。イアコンは、特定の事象を表すために使用される短い、独特の音（通常は、合成された音色または音パターン）である。イアコンは、コンピュータオペレーティングシステムの共通の機能であり、警告またはエラーメッセージが独特の音色または音色の組合せを伴う。ユーザがメッセージを話し終えたとき（所定の時間間隔を超える最後の沈黙の継続または「メッセージの終了」などのユーザ音声プロンプトのいずれかによって判定される）、本システムは音声認識（２３６）を実行することができる。音声認識および／または他の処理は、通信デバイスで完全にまたは部分的に実行され得る。たとえば、いくつかの適用例で、通信デバイスは、音声認識を実行し通信デバイスにその結果を提供することができるサーバにその記録された音声を送信することができる。

[0028]音声認識プロセスが終結すると、デバイス／アプリケーションは、オプションでそのメッセージを復唱し、ユーザにそのメッセージ（２３８）を編集／添付／確認することを促すことができる。確認すると、そのメッセージは、テキストベースのメッセージとして受信者（２４０）に送信することができ、ユーザは、そのテキストベースのメッセージが送信されたという確認（２４２）をオプションで提供される。処理の異なるステージで、通信デバイス／アプリケーションのユーザインターフェースはまた、ユーザに視覚的フィードバックを提供することができる。たとえば、様々なアイコンおよび／またはテキストが表示され、実行されているアクションまたはその結果（たとえば、進行中の音声認識を指示するアニメーション化されたアイコン、または確認アイコン／テキスト）を指示することができる。

[0029]図３は、音声入力を介する入力メッセージに応答するための実施形態によるシステム内の動作の例示的流れを示す。
[0030]図の動作３００は、テキストベースのメッセージの受信（３５２）で開始する。次に、本システムは、音声対話モードが使用可能であるまたは許可されるかどうかの判定（３５４）を行うことができる。たとえば、ユーザは、彼／彼女が会議中または公共の場にいるときに音声対話モードを切ることができる。いくつかの実施形態によれば、その判定は、いくつかの要因に基づき自動的に行われ得る。たとえば、会議を指示するユーザのカレンダが、音声対話モードを切るために使用され得る、またはモバイルであるデバイス（たとえば、ＧＰＳまたは同様のロケーションサービスを介する）が、音声対話モードを起動するようにシステムに促すことができる。同様に、デバイスのポジション（たとえば、デバイスが表を下にしている）または同等の状況もまた、音声対話モードが使用されるべきかどうかを判定するために使用され得る。音声対話型モードを判定する際のさらなる要因は、ユーザの可動性の状況（たとえば、ユーザが静止している、歩いている、運転している）、ユーザの可用性状況（ユーザのカレンダまたは同様のアプリケーションで指示されるものとして）、および通信デバイスの構成（たとえば、接続された入力／出力デバイス）を含み得るが、これらに限定されない。

[0031]音声対話モードが許可される／使用可能である場合、受信されたテキストベースのメッセージは、デバイスでまたはサーバでのテキストトゥスピーチ変換（３５６）を介して音声内容に変換することができ、音声メッセージがユーザに再生される（３５８）。メッセージの再生が完了すると、デバイス／アプリケーションは、応答メッセージの記録、音声通話（もしくはビデオ通話）の開始、または同等のアクションの実行などのオプションをユーザに促すことができる（３６０）。たとえば、ユーザは、メッセージのストリング内の音声または前のメッセージが再生されることを介して送信者に連絡先の詳細が提供されることを要求することができる。送信者の名前および／または識別子（たとえば、電話番号）もまた、メッセージの最初にまたは最後にユーザに対して再生され得る。

[0032]ユーザに対してオプションを再生すると、そのデバイス／アプリケーションは、リスニングモードに切り替わり、ユーザからの音声入力を待つことができる。ユーザの応答が受信されるとき、音声認識が受信された音声入力に実行可能であり（３６２）、ユーザの応答に応じて、送信者に電話をかけること（３６４）、テキストメッセージに応答すること（３６６）、または他のアクション（３６８）などのいくつかのアクションのうちの１つが実行され得る。図２の動作の流れと同様に、アイコン、テキスト、色の警告など、視覚的合図が、ユーザとの音声対話中に表示され得る。

[0033]動作の流れ２００および３００での対話は、完全に自動化することができ、ユーザが自然言語を介して音声入力を提供するまたは促されること（たとえば、デバイスが様々なステージで音声プロンプトを提供することなど）を可能にする。さらに、物理的対話（物理的または仮想ボタンを押すこと、テキストプロンプトなど）もまた、対話の異なるステージで使用され得る。さらに、ユーザは、出力メッセージを記録すると（オプションの再生に続いて）、それらを編集するオプションを提供され得る。

[0034]プロセス２００および３００に含まれる動作は、例示を目的とする。音声対話型メッセージ交換は、より少ないまたは追加のステップを有する同様のプロセスによって、ならびに本明細書に記載の原理を使用して異なる順番の動作で、実装され得る。

[0035]図４は、通信を円滑に進めるための携帯型コンピューティングデバイスの例示的ユーザインターフェースを示す。前述のように、テキストメッセージングの音声対話は、通信を円滑に進める任意のデバイス内に実装することができる。略図３００に示すユーザインターフェースは、単に、モバイル通信デバイスの例示的ユーザインターフェースである。実施形態は、この例示的ユーザインターフェースまたは前述の他のものに限定されない。

[0036]例示的モバイル通信デバイスは、ボタン、ノブ、キーなどのいくつかの物理的制御要素に加えて、スピーカ４７２およびマイクロフォンを含み得る。そのようなデバイスはまた、カメラ４７４、または異なる通信モダリティと併せて使用することができる同様の付属デバイスも含み得る。例示的ユーザインターフェースは、日付および時間と、電話アプリケーション４７６、メッセージングアプリケーション４７８、カメラアプリケーション４８０、ファイル編成アプリケーション４８２およびウェブブラウザ４８４などの異なるアプリケーションのいくつかのアイコンを表示する。ユーザインターフェースは、電話をかけるためのデュアルトーンマルチ周波数（ＤＴＭＦ）キーなどのいくつかの仮想ボタン（図示せず）をさらに含み得る。

[0037]例示的ユーザインターフェースの下の部分に、メッセージングアプリケーションと関連するアイコンおよびテキストが示される。たとえば、受信されたメッセージの送信者の画像（または表現アイコン）４８６が、メッセージ４８８に関するテキストのヒントおよび追加のアイコン４９０（たとえば、メッセージカテゴリ、送信者の存在状況などを指示する）とともに表示され得る。

[0038]異なる処理ステージで、通信デバイス／アプリケーションのユーザインターフェースはまた、視覚的フィードバックをユーザに提供することができる。たとえば、追加のアイコンおよび／またはテキストが表示され、実行されているアクションまたはその結果（たとえば、進行中の音声認識を指示するアニメーション化されたアイコン、または確認アイコン／テキスト）を指示することができる。

[0039]通信デバイスはまた、音声対話モードが使用されるべきか／使用可能であるかどうかを判定するために、装備され得る。前述のように、ロケーションおよび／または動きの判定システムは、グローバルポジショニングサービス（ＧＰＳ）情報、セルラタワー三角測量、ワイヤレスデータネットワークノード検出、コンパス、および加速度センサ、知られているジオポジションフォトへのカメラ入力のマッチング、および同様の方法に基づいて、ユーザが移動しているかどうか（たとえば、車で）を検知することができる。別の手法は、ユーザのロケーション（たとえば、会議室または公共の場所）を判定することと、それに基づき音声対話を起動することとを含み得る。同様に、カレンダリングアプリケーションまたは現在実行されるアプリケーションなどからのユーザに関する情報が、音声対話についてのユーザの可用性を判定するために使用され得る。

[0040]音声対話を使用する通信は、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックなどの任意のコンピューティングデバイス、スマートフォン、ハンドヘルドコンピュータ、ワイヤレスパーソナルデジタルアシスタント（ＰＤＡ）、携帯電話、車載コンピューティングデバイスなどのモバイルデバイス、および同様のものを介して、円滑に進められ得る。

[0041]図１から図４で論じる異なるプロセスおよびシステムは、明確なハードウェアモジュール、ソフトウェアモジュール、またはハードウェアおよびソフトウェアの組合せを使用し、実装することができる。さらに、そのようなモジュールは、統合された形でそれらのプロセスのうちの２つ以上を実行することができる。いくつかの実施形態は音声対話型メッセージ交換の特定の例とともに提供されるが、実施形態はそれらに限定されない。実際には、実施形態は、様々な通信デバイスおよびアプリケーションを使用する様々な通信システム内に、本明細書に記載の原理を使用する追加のまたはより少ない特徴を有して、実装され得る。

[0042]図５は、実施形態が実装され得る例示的ネットワーク環境である。音声対話型メッセージ交換を有する通信サービスを提供するためのプラットフォームは、ホスト型サービスなどの１つまたは複数のサーバ５１４を介して実行されるソフトウェアを介して実装され得る。そのプラットフォームは、（１つまたは複数の）ネットワーク５１０を介してスマートフォン５１１、携帯電話５１２、または同様のデバイス（「クライアントデバイス」）などの個々のモバイルデバイス上のクライアントアプリケーションと通信することができる。

[0043]クライアントデバイス５１１から５１２のいずれかで実行されるクライアントアプリケーションは、サーバ５１４から、または個々のサーバ５１６上で、通信サービスを提供するホスト型サービスと対話することができる。そのホスト型サービスは、マルチモーダルサービス、および存在、ロケーションなどの付属サービスを提供することができる。マルチモーダルサービスの部分として、テキストメッセージ交換は、前述のような音声対話性とともにユーザ間で円滑に進められ得る。音声認識またはテキストトゥスピーチ変換などの音声対話性と関連する処理のいくつかまたはすべては、サーバ５１４または５１６のうちの１つまたは複数で実行され得る。音声認識、テキストトゥスピーチ変換、連絡先情報、および同様のデータなどの関連データは、直接に（１つまたは複数の）データストア５１９で／から、あるいは、データベースサーバ５１８を介して、記憶および／または検索され得る。

[0044]（１つまたは複数の）ネットワーク５１０は、サーバ、クライアント、インターネットサービスプロバイダ、および通信媒体の任意のトポロジを備えることができる。実施形態によるシステムは、静的または動的トポロジを有し得る。（１つまたは複数の）ネットワーク５１０は、企業ネットワークなどの安全なネットワーク、ワイヤレスオープンネットワークなどの安全ではないネットワーク、またはインターネットを含み得る。（１つまたは複数の）ネットワーク５１０はまた、（特に、サーバとモバイルデバイスの間の）セルラネットワークを含み得る。さらに、（１つまたは複数の）ネットワーク５１０は、ブルートゥースまたは同様のものなどの短距離ワイヤレスネットワークを含み得る。（１つまたは複数の）ネットワーク５１０は、前述のノードの間で通信を提供する。例として、限定ではなく、（１つまたは複数の）ネットワーク５１０は、音波、ＲＦ、赤外線および他のワイヤレス媒体などのワイヤレス媒体を含み得る。

[0045]コンピューティングデバイス、アプリケーション、データソース、およびデータ分散型システムの多数の他の構成が、音声対話型メッセージ交換サービスを提供するプラットフォームを実装するために使用され得る。さらに、図５で論じるネットワーク環境は、説明のみを目的とする。実施形態は、例示的アプリケーション、モジュール、またはプロセスに限定されない。

[0046]図６および関連する考察は、その中で実施形態が実装され得る適切なコンピューティング環境の簡潔な概括的説明を提供するものである。図６を参照すると、コンピューティングデバイス６００など、実施形態による適用例の例示的コンピューティング動作環境のブロック図が示される。基本構成で、コンピューティングデバイス６００は、実施形態による音声対話性を有するテキストメッセージ交換を含むマルチモーダル通信を円滑に進める能力のあるモバイルコンピューティングデバイスでもよく、少なくとも１つの処理ユニット６０２およびシステムメモリ６０４を含む。コンピューティングデバイス６００はまた、プログラムを実行する際に協働する複数の処理ユニットも含み得る。コンピューティングデバイスの正確な構成およびタイプに応じて、システムメモリ６０４は、揮発性（ＲＡＭなど）、非揮発性（ＲＯＭ、フラッシュメモリなど）、またはその２つの何らかの組合せでもよい。システムメモリ６０４は、典型的には、ＷＩＮＤＯＷＳＭＯＢＩＬＥ（登録商標）、ＷＩＮＤＯＷＳＰＨＯＮＥ（登録商標）、またはワシントン州レッドモンドのＭＩＣＲＯＳＯＦＴＣＯＲＰＯＲＡＴＩＯＮの同様のオペレーティングシステム、あるいは、同様のものなどのプラットフォームの動作を制御するのに適したオペレーティングシステム６０５を含む。システムメモリ６０４はまた、プログラムモジュール６０６、通信アプリケーション６２２、および音声対話機能モジュール６２４などの１つまたは複数のソフトウェアアプリケーションを含み得る。

[0047]通信アプリケーション６２２は、テキストメッセージングを含むマルチモーダル通信を可能にすることができる。音声対話機能モジュール６２４は、ユーザに対して入力メッセージを再生し、ユーザが音声認識、テキストトゥスピーチ（ＴＴＳ）、および検出アルゴリズムの組合せによる音声入力を介して応答メッセージで送信者に応答することを可能にすることができる。通信アプリケーション６２２はまた、異なる通信モード（たとえば、通話）で応答するためのおよび他のアクションを実行するためのオプションをユーザに提供することができる。音声対話機能モジュール６２４はさらに、ユーザが自然言語を使用するメッセージ交換を開始することを可能にすることができる。この基本構成は、破線６０８内のそれらの構成要素によって図６に示される。

[0048]コンピューティングデバイス６００は、追加の特徴または機能を有し得る。たとえば、コンピューティングデバイス６００はまた、たとえば、磁気ディスク、光ディスク、またはテープなどの追加のデータ記憶装置（取外し式および／または非取外し式）を含み得る。そのような追加の記憶装置は、取外し式記憶装置６０９、および非取外し式記憶装置６１０によって図６に示される。コンピュータ可読記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報の記憶のための任意の方法または技術で実装される、揮発性および非揮発性、取外し式および非取外し式媒体を含み得る。システムメモリ６０４、取外し式記憶装置６０９および非取外し式記憶装置６１０は、すべて、コンピュータ可読記憶媒体の例である。コンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたは他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）または他の光記憶装置、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、あるいは、所望の情報を記憶するために使用可能なおよびコンピューティングデバイス６００によってアクセス可能な任意の他の媒体を含むが、これらに限定されない。任意のそのようなコンピュータ可読記憶媒体は、コンピューティングデバイス６００の部分でもよい。コンピューティングデバイス６００はまた、キーボード、マウス、ペン、音声入力デバイス、タッチ入力デバイス、および同等の入力デバイスなどの（１つまたは複数の）入力デバイス６１２を含み得る。ディスプレイ、スピーカ、プリンタ、および他のタイプの出力デバイスなどの（１つまたは複数の）出力デバイス６１４もまた、含まれ得る。これらのデバイスは、当技術分野でよく知られており、本明細書で詳細に論じられる必要はない。

[0049]コンピューティングデバイス６００はまた、分散型コンピューティング環境におけるワイヤードまたはワイヤレスネットワーク、衛星リンク、セルラリンク、短距離ネットワーク、および同等の機構など、他のデバイス６１８とデバイスが通信できるようにする通信接続６１６を含み得る。他のデバイス６１８は、通信アプリケーションを実行する（１つまたは複数の）コンピューティングデバイス、他のサーバ、および同等のデバイスを含み得る。（１つまたは複数の）通信接続６１６は、通信媒体の一例である。通信媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータをその中に含み得る。例として、限定ではなく、通信媒体は、ワイヤードネットワークまたは直接ワイヤード接続などのワイヤード媒体と、音波、ＲＦ、赤外線および他のワイヤレス媒体などのワイヤレス媒体とを含む。

[0050]前述の明細書、例、およびデータは、実施形態の構成要素の製造および使用の完全な説明を提供する。その主題は構造的特徴および／または方法論的動作に特有の言語で説明されているが、添付の特許請求の範囲で定義される主題は前述の特定の特徴または動作に必ずしも限定されないことが理解されよう。そうではなくて、前述の特定の特徴および動作は、本特許請求の範囲および実施形態を実装する例示的な形として開示される。

Claims

音声対話型メッセージ交換を円滑に進めるためのコンピューティングデバイス内で少なくとも部分的に実行される方法であって、
ユーザから指示を受信してメッセージを送信するステップと、
前記ユーザが前記メッセージの受信者と前記メッセージの音声内容とを音声入力を介して提供できるようにするステップと、
受信された前記音声入力に音声認識を実行するステップと、
音声認識された前記音声入力から前記受信者を判定するステップと、
テキストベースのメッセージとして前記受信者に前記メッセージの音声認識された前記内容を送信するステップと
を含む、方法。
送信者からテキストベースのメッセージを受信するステップと、
テキストトゥスピーチ変換によって受信された前記メッセージから音声内容を生成するステップと、
前記ユーザに前記音声内容を再生するステップと、
再生された前記音声内容と関連する少なくとも１つのオプションを前記ユーザに提供するステップと、
前記ユーザからの別の音声入力の受信に応答して、前記少なくとも１つのオプションと関連するアクションを実行するステップと
をさらに含む、請求項１に記載の方法。
前記ユーザが前記テキストベースのメッセージ送信するための指示と前記音声入力とを自然言語を用いて提供できるようにするステップ
をさらに含む、請求項２に記載の方法。
前記音声入力を受信すると、受信された前記音声入力を再生するステップと、
前記ユーザが提供された前記音声入力の編集および確認のうちの１つを行えるようにするステップと
をさらに含む、請求項２に記載の方法。
前記アクションが、前記送信者との音声通信セッションの開始、前記送信者とのビデオ通信セッションの開始、テキストベースのメッセージでの応答、前のメッセージの再生および前記送信者と関連する情報の提供のセットからの１つを含む、請求項２に記載の方法。
音声対話型メッセージ交換を円滑に進める能力のあるコンピューティングデバイスであって、
通信モジュールと、
音声入力／出力モジュールと、
メモリと、
前記通信モジュール、前記音声入力／出力モジュールおよび前記メモリに結合されたプロセッサと
を備え、前記プロセッサは、
送信者からテキストベースのメッセージを受信し、
テキストトゥスピーチ変換によって受信された前記メッセージから音声内容を生成し、
前記ユーザに対して、前記音声内容と、前記送信者に関連する名前および識別子のうちの１つとを再生し、
再生された前記音声内容と関連する少なくとも１つのオプションを前記ユーザに提供し、
前記ユーザからの音声入力の受信に応答して、前記少なくとも１つのオプションに関連するアクションを実行する
ように構成された通信アプリケーションを実行する、
コンピューティングデバイス。
前記通信アプリケーションが、
前記ユーザからの音声指示を受信してテキストベースのメッセージを送信し、
前記ユーザが前記テキストベースのメッセージの受信者と前記メッセージの音声内容とを自然言語入力を介して提供できるようにし、
受信された前記入力に音声認識を実行し、
受信された前記入力を再生することによって前記メッセージを確認することおよび編集することのうちの１つを前記ユーザが行えるようにし、
前記入力の音声認識された前記内容から前記受信者を判定し、
前記受信者に前記テキストベースのメッセージの音声認識された前記内容を送信する
ようにさらに構成されている、請求項６に記載のコンピューティングデバイス。
ディスプレイをさらに備え、前記通信アプリケーションが、前記音声対話型メッセージ交換と関連する動作を表すテキスト、グラフィック、アニメーション化されたグラフィックおよびアイコンのうちの少なくとも１つを含む前記ディスプレイを介して前記ユーザに視覚的フィードバックを提供するようにさらに構成されている、請求項６に記載のコンピューティングデバイス。
音声対話型メッセージ交換を円滑に進めるために命令が記憶されているコンピュータ可読記憶媒体であって、前記命令が、
前記メッセージ交換を円滑に進める通信デバイスの設定、ユーザのロケーション、前記ユーザの状況およびユーザ入力のセットからの少なくとも１つに基づいて、自動的に音声対話モードを起動することと、
前記ユーザから音声指示を受信してテキストベースのメッセージを送信することと、
前記ユーザが前記テキストベースのメッセージの受信者と前記メッセージの音声内容とを自然言語入力を介して提供できるようにすることと、
受信された前記入力に音声認識を実行することと、
前記入力の音声認識された前記内容から前記受信者を判定することと、
テキストベースのメッセージとして前記受信者に前記メッセージの音声認識された前記内容を送信することと、
送信者からテキストベースのメッセージを受信することと、
テキストトゥスピーチ変換によって受信された前記メッセージから音声内容を生成することと、
前記ユーザに前記音声内容を再生することと、
再生された前記音声内容と関連する少なくとも１つのオプションを前記ユーザに提供することと、
前記ユーザからの別の音声入力の受信に応答して、前記他の音声入力と関連するアクションを実行することと
を含む、コンピュータ可読記憶媒体。
前記ユーザの前記状況が、前記ユーザの可動性状況、前記ユーザの可用性状況、前記通信デバイスのポジションおよび前記通信デバイスの構成のセットからの少なくとも１つを含む、請求項９に記載のコンピュータ可読媒体。