JP6353786B2 - ハンズフリーインタラクションに対するユーザインターフェースの自動適合化 - Google Patents

ハンズフリーインタラクションに対するユーザインターフェースの自動適合化 Download PDF

Info

Publication number
JP6353786B2
JP6353786B2 JP2014533617A JP2014533617A JP6353786B2 JP 6353786 B2 JP6353786 B2 JP 6353786B2 JP 2014533617 A JP2014533617 A JP 2014533617A JP 2014533617 A JP2014533617 A JP 2014533617A JP 6353786 B2 JP6353786 B2 JP 6353786B2
Authority
JP
Japan
Prior art keywords
user
hands
assistant
input
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014533617A
Other languages
English (en)
Other versions
JP2015501022A (ja
Inventor
トーマス, ロバート グルーバー,
トーマス, ロバート グルーバー,
ハリー, ジェイ. サッドラー,
ハリー, ジェイ. サッドラー,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/250,947 external-priority patent/US10496753B2/en
Application filed by Apple Inc filed Critical Apple Inc
Publication of JP2015501022A publication Critical patent/JP2015501022A/ja
Application granted granted Critical
Publication of JP6353786B2 publication Critical patent/JP6353786B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72436User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for text messaging, e.g. short messaging services [SMS] or e-mails
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Environmental & Geological Engineering (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Description

本発明は、マルチモーダルユーザインターフェースに関し、より詳細には音声ベース及び視覚的モダリティの両方を含むユーザインターフェースに関する。
多くの既存のオペレーティングシステム及び機器は、ユーザがそれにより操作を制御することができるモダリティとして音声入力を使用している。1つの例として、例えば、人の名前を声に出すことにより電話番号のダイアリングを開始するなど、特定の言語コマンドを操作に対してマッピングするボイスコマンドシステムがある。別の例として、自動電話サービスデスクなどの人が電話で静的情報にアクセスすることを可能とする自動音声応答(IVR)システムがある。
多くのボイスコマンド及びIVRシステムは比較的範囲が狭く、既定のボイスコマンドしか扱うことができない。更に、それらの出力は、固定された応答群からしばしば引き出される。
本明細書においてバーチャルアシスタントとも称するインテリジェント自動アシスタントは、自然言語入力の処理を含む、人とコンピュータとの間の改良されたインターフェースを提供することができる。このようなアシスタントは、その開示内容の全体を本明細書に参照により援用するところの2011年1月10日出願の「Intelligent Automated Assistant」についての関連する米国実用特許出願第12/987,982号に述べられるようにして実施することが可能であり、ユーザが音声及び/又はテキストの形態の自然言語を使用して機器又はシステムとインタラクトすることを可能とするものである。このようなアシスタントは、ユーザ入力を解釈し、ユーザ意図をタスク及びこれらのタスクに対するパラメータに操作可能にし、これらのタスクに対応するためのサービスを実行し、ユーザに理解できる出力を生成する。
バーチャルアシスタントは、一般的な音声及び自然言語理解技術を使用してより広い範囲の入力を認識することで、ユーザとのダイアログを生成することが可能である。いくつかのバーチャルアシスタントは、言語応答及び書かれたテキストを含むモードの組み合わせとして出力を生成することができ、画面上の要素の直接的操作を可能とするグラフィカルユーザインターフェース(GUI)を与えることもできる。しかしながら、ユーザは、常にこうした視覚的出力又は直接操作インターフェースを利用できる状況にあるわけではない。例えば、ユーザは、運転中か若しくは機械の操作中である場合もあり、又は視覚障害を有する場合もあり、又は単純に視覚的インターフェースが苦手であるか若しくはそれに慣れていない場合もある。
ユーザが、画面を読む、又は接触によって(キーボード、マウス、タッチスクリーン、ポインティングデバイスなどを含む)機器とインタラクトすることが制限されるか、又はできないあらゆる状況のことを本明細書では「ハンズフリーコンテキスト」と称する。例えば、上記に述べたようなユーザが運転中に機器を操作しようとするような状況では、ユーザは、耳に聞こえる出力を聞いて声で応答することができるが、安全上の理由から細かい文字を読んだり、メニューをタップしたり、又はテキストを入力することはするべきではない。
ハンズフリーコンテキストは、バーチャルアシスタントなどの複雑なシステムの設計者にとって特有の課題を与える。ユーザは、ハンズフリーコンテキストにあるか否かとは関係なく、機器の機能への完全なアクセスを求める。しかしながら、ハンズフリー動作に固有の特定の制約を解決することができないと、機器又はシステムの有用性及び利用性の両方を制限する状況が生じうるものであり、自動車の操作などの一次タスクからユーザの注意をそらせることにより、安全上の問題を生じる可能性すらある。
本発明の様々な実施形態に係る、バーチャルアシスタントなどのシステム用のユーザインターフェースがハンズフリー使用に自動的に適合される。ハンズフリーコンテキストは自動又は手動の手段によって検出され、システムは、こうしたコンテキストの特定の制約を反映するために複雑なインタラクティブシステムの様々な段階をユーザエクスペリエンスを変更するように適合する。したがって、本発明のシステムは、バーチャルアシスタント又は他の複雑なシステムの単一の実施を可能とすることによりユーザインターフェース要素を動的に提供し、更に、ハンズオン使用における同じシステムのユーザエクスペリエンスを損なわずにハンズフリー使用を可能とするようにユーザインターフェースの挙動を変更するものである。
例えば、様々な実施形態において、本発明のシステムは、ユーザが画面上の詳細を読む必要なくしてタスクを完了することができるような方法でシステムが出力を与えるようにバーチャルアシスタントの動作を調節するための機構を提供する。更に様々な実施形態において、バーチャルアシスタントは、読むこと、タップすること、タイプすること、又はしばしばグラフィカルユーザインターフェースを使用して実現される他の機能を実行することに代わるものとして、音声入力を受け取るための機構を設けることができる。
様々な実施形態において、本発明のシステムは、ハンズフリーコンテキストにともなう特定の要求条件及び制約を考慮しながら、従来のグラフィカルユーザインターフェースと同じ(又はそれに近い)基礎的機能を提供する。より一般的には、本発明のシステムは、ハンズフリーコンテキストにおける動作を促す一方で、コアとなる機能はほぼ同じ状態に維持する。いくつかの実施形態では、本発明の技術に従って構築されたシステムは、ハンズフリーモードと従来の(「ハンズオン」)モードとの間で、場合により単一のセッションにおいて、ユーザが自由に選択することを可能とする。例えば、同じインターフェースを、オフィス環境と移動中の車の両方に適合させることが可能であり、環境の変化にともなってシステムが必要な変更をユーザインターフェースに動的に行う。
本発明の様々な実施形態に係る、多くの機構のいずれも、バーチャルアシスタントの動作をハンズフリーコンテキストに適合させるように実施することができる。様々な実施形態において、バーチャルアシスタントは、その開示内容の全体を本明細書に参照により援用するところの2011年1月10日出願の「Intelligent Automated Assistant」に対する米国実用特許出願第12/987,982号に述べられるようなインテリジェント自動アシスタントである。このようなアシスタントは、自然言語ダイアログを使用して統合された会話様式でユーザと関わり、適当な場合に、情報を得るか又は様々な動作を実行するために外部のサービスを呼び出す。
本発明の様々な実施形態に係る、バーチャルアシスタントシステムは、ハンズフリーコンテキストを検出するように、並びに、様々な異なる種類の動作、機能、及び/若しくは特徴を実行するうえでこれに応じてその動作を調節するように、並びに/又はバーチャルアシスタントシステムがインストールされた電子機器の複数の特徴、動作及びアプリケーションを組み合わせるように構成、設計、及び/又は動作させることが可能である。いくつかの実施形態では、本発明のバーチャルアシスタントはハンズフリーコンテキストを検出することが可能であり、並びに、入力を受け取る、出力を与える、ユーザとのダイアログを行う、及び/又は識別された意図に基づいて動作を実行(若しくは開始)する際にこれに応じてその動作を調節することが可能である。
動作は、例えば、電子機器上で利用可能な任意のアプリケーション又はサービス、並びにインターネットなどの電子ネットワーク上で利用可能なサービスを作動させるか、及び/若しくはこれらとインターフェースすることにより実行することが可能である。様々な実施形態において、このような外部サービスの作動は、アプリケーションプログラミングインターフェース(API)を介して、又は他の任意の適当な機構によって実行することができる。このようにして、本発明の様々な実施形態に係って実施されたバーチャルアシスタントは、電子機器の多くの異なるアプリケーション及び機能に対して、及びインターネット上で利用可能なサービスに関してハンズフリー使用環境を提供することができる。上記に参照した関連出願に述べられるように、このようなバーチャルアシスタントの使用は、機器上及びウェブ接続されたサービス上でどの機能が利用可能であるか、ユーザが望むものを得るためにどのようにしてこうしたサービスとインターフェースするか、並びにこうしたサービスから受信される出力をどのように解釈するかを学習する負担からユーザを解放することができる。それどころか、本発明のアシスタントは、ユーザとこのような多様なサービスとの間の橋渡しとして機能することができる。
更に、様々な実施形態において、本発明のバーチャルアシスタントは、ユーザが、従来のグラフィカルユーザインターフェースと比較してより直観的で、より煩わしくないと感じることができる会話インターフェースを提供する。ユーザは、ハンズフリー又はハンズオンコンテキストのいずれが有効であるかに一部依存して、多くの利用可能な入力及び出力機構のいずれかを使用して会話ダイアログの形でアシスタントと関わることができる。このような入力及び出力機構の例としては、これらに限定されるものではないが、音声、グラフィカルユーザインターフェース(ボタン及びリンク)、テキスト入力などが挙げられる。システムは、機器API、ウェブ、電子メーなど、又はこれらの任意の組み合わせなどの多くの異なるプラットフォームのいずれを用いても実施することができる。更なる入力に対する要求を、聴覚的及び/又は視覚的な方法で提示される会話の文脈においてユーザに提示することができる。所与のセッション内での所与の先のイベント及び通信、並びにユーザに関する履歴及びプロファイル情報が与えられるものとして、ユーザ入力が正しい文脈で解釈されるように短期及び長期メモリが用いられうる。
様々な実施形態において、本発明のバーチャルアシスタントは、電子機器の様々な特徴及び動作を制御することができる。例えば、バーチャルアシスタントは、API又は他の手段を介して機器上の機能及びアプリケーションとインターフェースするサービスを呼び出すことにより、そうでない場合には機器上で従来のユーザインターフェースを使用して開始されうる機能及び動作を実行することができる。このような機能及び動作には、例えば、アラームを設定する、電話をかける、テキストメッセージ又は電子メールメッセージを送信する、及びカレンダイベントを追加することなどが含まれうる。このような機能及び動作は、ユーザとアシスタントとの間の会話ダイアログのコンテキストにおいてアドオン機能として実行することができる。このような機能及び動作は、このようなダイアログのコンテキストにおいてユーザが指定するか、又はダイアログのコンテキストに基づいて自動的に実行することができる。これによりアシスタントを、電子機器上の様々な動作を開始及び制御するための機構として使用することができる点は当業者であれば認識されるところであろう。ユーザの現在の状況についての推論に寄与するコンテキスト証拠を収集することにより、これに応じてユーザインターフェースの動作を調節することにより、本発明のシステムは、バーチャルアシスタントのハンズフリー動作を可能とするための機構を設けることで、機器を制御するためのこうした機構を実施することが可能である。
いくつかの実施形態に係る、方法は、プロセッサにおいて、ハンズフリーコンテキストが有効であるか否かを検出することを含む。本方法は、出力装置において、ユーザに入力を促すことを更に含む。本方法は、入力装置において、ユーザ入力を受け取ることを更に含む。本発明は、プロセッサにおいて、受け取られたユーザ入力を解釈してユーザ意図の表現を導出することと、導出されたユーザ意図の表現に少なくとも一部基づいて少なくとも1つのタスク及びそのタスクの少なくとも1つのパラメータを特定することと、該少なくとも1つのパラメータを使用して少なくとも1つのタスクを実行することにより結果を導出することと、導出された結果に基づいてダイアログ応答を生成することと、を更に含む。方法は、出力装置において、生成されたダイアログ応答を出力することを更に含む。機器がハンズフリーコンテキストにあることの検出に応じて、ユーザに入力を促すステップ、ユーザ入力を受け取るステップ、受け取られたユーザ入力を解釈するステップ、少なくとも1つのタスク及びそのタスクの少なくとも1つのパラメータを特定するステップ、並びにダイアログ応答を生成するステップのうちの少なくとも1つが、ハンズフリーコンテキストにともなう制約と整合した方法で実行される。
いくつかの実施形態に係る、電子機器は、1つ以上のプロセッサ、メモリ、及び1つ以上のプログラムを含み、1つ以上のプログラムは、メモリに記憶され、1つ以上のプロセッサによって実行されるように構成され、1つ以上のプログラムは上記に述べた方法のいずれかの動作を実行するための命令を含む。いくつかの実施形態に係る、コンピュータ可読記憶媒体は内部に命令を記憶し、この命令は電子機器によって実行されると、機器に上記に述べた方法のいずれかの動作を実行させる。いくつかの実施形態に係る、電子機器は、上記に述べた方法のいずれかの動作を実行するための手段を含む。いくつかの実施形態に係る、電子機器において使用するための情報処理装置は、上記に述べた方法のいずれかの動作を実行するための手段を含む。
いくつかの実施形態に係る、電子機器は、ハンズフリーコンテキストが有効であるか否かを検出するように構成された処理ユニットを含む。電子機器は、処理ユニットに結合され、ユーザに入力を促すように構成された出力ユニットと、処理ユニットに結合され、ユーザ入力を受け取るように構成された入力ユニットとを更に含む。処理ユニットは、受け取られたユーザ入力を解釈してユーザ意図の表現を導出し、導出されたユーザ意図の表現に少なくとも一部基づいて少なくとも1つのタスク及びそのタスクの少なくとも1つのパラメータを特定し、少なくとも1つのパラメータを使用して少なくとも1つのタスクを実行することにより結果を導出し、導出された結果に基づいてダイアログ応答を生成し、出力装置に、生成されたダイアログ応答を出力させるように更に構成されている。前記機器がハンズフリーコンテキストにあることの検出に応じて、ユーザに入力を促すステップ、ユーザ入力を受け取るステップ、受け取られたユーザ入力を解釈するステップ、少なくとも1つのタスク及びそのタスクの少なくとも1つのパラメータを特定するステップ、及びダイアログ応答を生成するステップのうちの少なくとも1つが、ハンズフリーコンテキストにともなう制約と整合した方法で実行される。
付属の図面は、本発明の幾つかの実施形態を示すものであり、説明文とともに、実施形態に係る発明の原理を説明する役割を果たすものである。当業者であれば、図面に示される特定の実施形態は、あくまで例示的なものにすぎず、本発明の範囲を限定することを目的としたものではない点は認識されるであろう。
先行技術に従う、テキストメッセージを読むためのハンズオンインターフェースの一例を示したスクリーンショットである。 テキストメッセージに返信するためのインターフェースの一例を示したスクリーンショットである。 テキストメッセージに返信するためにボイスディクテーションインターフェースが使用される一例を示した一連のスクリーンショットである。 テキストメッセージに返信するためにボイスディクテーションインターフェースが使用される一例を示した一連のスクリーンショットである。 一実施形態に係る、テキストメッセージを受信するためのインターフェースの一例を示したスクリーンショットである。 ユーザがハンズフリーコンテキストでテキストメッセージを受信し、これに返信している本発明の一実施形態に係るマルチモーダルバーチャルアシスタントの動作の一例を示した一連のスクリーンショットである。 ユーザがハンズフリーコンテキストでテキストメッセージを受信し、これに返信している本発明の一実施形態に係るマルチモーダルバーチャルアシスタントの動作の一例を示した一連のスクリーンショットである。 ユーザがハンズフリーコンテキストでテキストメッセージを受信し、これに返信している本発明の一実施形態に係るマルチモーダルバーチャルアシスタントの動作の一例を示した一連のスクリーンショットである。 ユーザがハンズフリーコンテキストでテキストメッセージを受信し、これに返信している本発明の一実施形態に係るマルチモーダルバーチャルアシスタントの動作の一例を示した一連のスクリーンショットである。 ユーザがハンズフリーコンテキストでテキストメッセージを修正している本発明の一実施形態に係るマルチモーダルバーチャルアシスタントの動作の一例を示した一連のスクリーンショットである。 ユーザがハンズフリーコンテキストでテキストメッセージを修正している本発明の一実施形態に係るマルチモーダルバーチャルアシスタントの動作の一例を示した一連のスクリーンショットである。 ユーザがハンズフリーコンテキストでテキストメッセージを修正している本発明の一実施形態に係るマルチモーダルバーチャルアシスタントの動作の一例を示した一連のスクリーンショットである。 一実施形態に係る、ハンズフリーコンテキストの動的検出及びハンズフリーコンテキストに対する適合をサポートするバーチャルアシスタントの動作の方法を示したフロー図である。 一実施形態に係るバーチャルアシスタントシステムの一例を示したブロック図である。 少なくとも一実施形態に係るバーチャルアシスタントの少なくとも一部を実施するのに適したコンピューティング機器を示したブロック図である。 少なくとも1つの実施形態に係る、スタンドアロンコンピューティングシステム上でバーチャルアシスタントの少なくとも一部を実施するためのアーキテクチャを示したブロック図である。 少なくとも1つの実施形態に係る、分散コンピューティングネットワーク上でバーチャルアシスタントの少なくとも一部を実施するためのアーキテクチャを示したブロック図である。 幾つかの異なる種類のクライアント及び動作モードを示すシステムアーキテクチャを示したブロック図である。 一実施形態に係る、本発明を実施するために互いに通信しているクライアント及びサーバーを示したブロック図である。 いくつかの実施形態に係る電子機器の機能ブロック図である。
本発明の様々な実施形態に係る、ハンズフリーコンテキストは、バーチャルアシスタントの動作に関連して検出され、これに応じてバーチャルアシスタントのユーザインターフェースが調節されることにより、ユーザがアシスタントとハンズフリーコンテキストで意味のあるインタラクトを行うことが可能となる。
説明の目的で「バーチャルアシスタント」なる用語は、「インテリジェント自動アシスタント」なる用語と等価であり、いずれも以下の機能の1つ以上を実行する任意の情報処理システムのことを指す。すなわち、
●音声及び/又はテキストの形態の人の言語入力を解釈する。
●ユーザ意図の表現を、ステップ及び/又はパラメータを有するタスクの表現などの実行可能な形態で操作可能にする。
●プログラム、方法、サービス、APIなどを呼び出すことによりタスク表現を実行する。
●ユーザへの出力応答を言語及び/又はグラフィックの形態で生成する。
このようなバーチャルアシスタントの1つの例が、その開示内容の全体を本明細書に参照により援用するところの2011年1月10日出願の「Intelligent Automated Assistant」についての関連する米国実用特許出願第12/987,982号に述べられている。
以下に、様々な方法について、添付の図面に示される例示的な実施形態を参照しながら詳細に述べる。以下の説明では、本明細書において説明又は参照する1つ以上の態様及び/又は特徴の完全な理解を与えるために多くの具体的な詳細を記載する。しかしながら、本明細書において説明又は参照する1つ以上の態様及び/又は特徴は、これらの具体的な詳細の一部又はすべてがなくとも実施可能である点は当業者には明らかであろう。他の場合では、本明細書において説明又は参照する態様及び/又は特徴の特定のものを分かりにくくすることがないよう、周知のプロセスのステップ及び/又は構造については説明していない。
本出願には、1つ以上の異なる発明が述べられうる。更に、本明細書に述べられる発明の1つ以上について、多くの実施形態が本特許出願に述べられうるが、これらはあくまで説明を目的として示されるものである。述べられる実施形態は、いかなる意味においても限定することを目的としたものではない。本発明の1つ以上のものは、本開示より直ちに明らかであるように、多くの実施形態に広く応用することが可能である。これらの実施形態は、本発明の1つ以上のものを当業者が実施することを可能とするように充分な詳細にわたって説明されるものであり、他の実施形態の使用も可能であって、構造的、論理的、ソフトウェア上、電気的、及び他の変更を、上記の1つ以上の発明の範囲から逸脱することなく行うことができる点は理解されるはずである。したがって、当業者であれば、上記の1つ以上の発明は、様々な改変及び変更を加えて実施することができる点は認識されるであろう。1つ以上の本発明の特定の特徴は、1つ以上の特定の実施形態、又は本開示の一部をなすとともに、実例として1つ以上の発明の特定の実施形態が示された図面を参照して述べることができる。しかしながら、こうした特徴は、1つ以上の特定の実施形態、又はそれを参照しながら実施形態が述べられる図面における使用に限定されない点は理解されるべきである。本開示は、1つ以上の発明のすべての実施形態の文字通りの記載でもなければ、すべての実施形態において含まれなければならない1つ以上の発明の特徴を列記するものでもない。
本特許出願に示される項目の見出し、及び本出願の名称はあくまで便宜上のものであって、いかなる意味においても開示内容を限定するものとして解釈されるべきではない。
互いに通信状態にある機器同士は、明らかに断らないかぎりは、互いに継続的に通信している必要はない。更に、互いに通信状態にある機器同士は、1つ以上の中間物を介して直接的又は間接的に通信しうる。
互いに通信状態にある複数の要素を含む実施形態の説明は、すべてのこうした要素が必要とされることを示唆するものではない。その逆に、1つ以上の発明の様々な可能な実施形態を説明するために様々な任意要素が説明される。
更に、プロセスのステップ、方法のステップ、アルゴリズムなどは、連続的な順序で述べられうるが、こうしたプロセス、方法、及びアルゴリズムは任意の適当な順序で機能するように構成することができる。換言するならば、本特許出願に述べられうるステップの任意の順番又は順序は、これらのステップがその順序で実行される必要性をそれ自体示唆するものではない。更に、一部のステップは、(例えば、あるステップが他のステップの後に述べられていることにより)同時に起こらないものとして述べられるか又は示唆されていても同時に実行される場合もある。更に、図面における描写によるあるプロセスの説明は、説明されるプロセスがそのプロセスに対する他の変形及び改変を除外することを示唆するものではなく、説明されるプロセス又はその任意のステップが1つ以上の発明に必要であることを示唆するものでもなく、説明されるプロセスが好ましいものであることを示唆するものでもない。
単一の機器又は物品について述べる場合、単一の機器/物品に代えて複数の機器/物品(それらが協働するか否かによらず)の使用が可能である点は直ちに明らかとなろう。同様に、複数の機器又は物品について述べる場合(それらが協働するか否かによらず)、複数の機器又は物品に代えて単一の機器/物品の使用が可能である点は直ちに明らかとなろう。
ある機器の機能及び/又は特徴は、こうした機能/特徴を有するものとして明確に述べられない1つ以上の他の機器によって代替的に実施することもできる。したがって、1つ上の発明の他の実施形態は、その機器自体を必ずしも含まない。
本明細書において説明又は参照する方法及び機構は、理解を助けるために単数形で述べられる場合がある。しかしながら、特定の実施形態は、特にそうでないことが断られないかぎりは、ある方法の複数回の繰り返し、又はある機構の複数の設置を含む点に留意されなければならない。
本明細書に述べられる様々な態様及び方法は、バーチャルアシスタントとしても知られるインテリジェント自動アシスタントを実施するための技術のコンテキストの範囲内で述べられるものであるが、ソフトウェアとの、人及び/又はコンピュータ化されたインタラクションが行われる他の技術分野において展開及び/又は応用することも可能である点は理解されうる。
バーチャルアシスタント技術(例えば、本明細書に述べられる1つ以上のバーチャルアシスタントシステムの実施形態によって利用されるか、提供されるか、及び/又は実施されうる)に関連する他の態様が、それらの開示内容の全体を本明細書に参照により援用するところの以下の文献の1つ以上において開示されている。すなわち、
●2011年1月10日出願の「Intelligent Automated Assistant」に対する米国実用特許出願第12/987,982号、
●2010年1月18日出願の「Intelligent Automated Assistant」に対する米国特許仮出願第61/295,774号、
●2011年9月30日出願の発明の名称が「Using Context Information to Facilitate Processing of Commands in a Virtual Assistant」である米国実用特許出願第13/250,854号、
●2006年9月8日に出願された「Method And Apparatus for Building an Intelligent Automated Assistant」に対する米国特許出願第11/518,292号、
●2009年6月12日出願の「System and Method for Semantic Auto−Completion」に対する米国仮特許出願第61/186,414号。
ハードウェアアーキテクチャ
一般的に、本明細書に開示されるバーチャルアシスタント技術は、ハードウェア上又はソフトウェアとハードウェアとの組み合わせにおいて実施することができる。例えば、これらの技術は、オペレーティングシステムカーネル、別のユーザプロセス、ネットワークアプリケーションに組み込まれたライブラリパッケージ、特別に構築されたマシン、及び/又はネットワークインターフェースカードにおいて実施することができる。特定の一実施形態では、本明細書に開示される技術は、オペレーティングシステムなどのソフトウェア、又はオペレーティングシステム上で動作するアプリケーションにおいて実施することができる。
本明細書で開示するバーチャルアシスタントの少なくとも一部の実施形態のソフトウェア/ハードウェアのハイブリッドの実施は、メモリに記憶されたコンピュータプログラムにより選択的に起動又は再構成されるプログラマブルマシン上で実施することができる。このようなネットワーク機器は、異なる種類のネットワーク通信プロトコルを利用するように構成又は設計することができる複数のネットワークインターフェースを有しうる。これらのマシンの一部のものの一般的なアーキテクチャは、本明細書に開示される説明より明らかとなろう。特定の実施形態に係る、本明細書に開示される様々なバーチャルアシスタントの実施形態の少なくとも一部の特徴及び/又は機能は、エンドユーザコンピュータシステム、コンピュータ、ネットワークサーバー若しくはサーバーシステム、モバイルコンピューティング機器(例えば、携帯情報端末、モバイル電話、スマートフォン、ラップトップ、タブレットコンピュータなど)、家庭用電子機器、音楽プレーヤ、又は他の任意の適当な電子機器、ルータ若しくはスイッチなど、又はこれらの任意の組み合わせなどの1つ以上の汎用ネットワークホストマシン上で実施することができる。少なくともいくつかの実施形態では、本明細書に開示される様々なバーチャルアシスタントの実施形態の特徴及び/又は機能の少なくとも一部は、1つ以上の仮想化コンピューティング環境(例えば、ネットワークコンピューティングクラウドなど)において実施することができる。
ここで図9を参照すると、本明細書に開示されるバーチャルアシスタントの特徴及び/又は機能の少なくとも一部を実施するのに適したコンピューティング機器60を示したブロック図が示されている。コンピューティング機器60は、例えば、エンドユーザコンピュータシステム、コンピュータ、ネットワークサーバー若しくはサーバーシステム、モバイルコンピューティング機器(例えば、携帯情報端末、モバイル電話、スマートフォン、ラップトップ、タブレットコンピュータなど)、家庭用電子機器、音楽プレーヤ、又は他の任意の適当な電子機器、又はこれらの任意の組み合わせ若しくはその一部であってもよい。コンピューティング機器60は、インターネットなどの通信ネットワーク上で、クライアント及び/又はサーバーなどの他のコンピューティング機器と、公知のこうした通信用のプロトコルを使用して無線又は有線で通信するように適合することができる。
一実施形態では、コンピューティング機器60は、中央処理装置(CPU)62、インターフェース68、及びバス67(ペリフェラルコンポーネントインターコネクト(周辺要素相互接続)(PCI)バスなど)を有している。適当なソフトウェア又はファームウェアの制御下で動作している場合、CPU 62は、特別に構成されたコンピューティング機器又はマシンの機能と関連付けられた特定の機能を実行する役割を担うことができる。例えば、少なくとも1つの実施形態において、ユーザの携帯情報端末(PDA)又はスマートフォンを、CPU 62、メモリ61、65、及びインターフェース68を使用するバーチャルアシスタントシステムとして機能するように構成又は設計することができる。少なくとも1つの実施形態において、CPU 62に、例えば、オペレーティングシステム及び任意の適当なアプリケーションソフトウェア、ドライバなどを含みうるソフトウェアモジュール/要素の制御下で1つ以上の異なる種類のバーチャルアシスタント機能及び/又は動作を実行させることができる。
CPU 62は、例えば、Motorola又はIntel系のマイクロプロセッサ又はMIPS系のプロセッサなどの1つ以上のプロセッサ63を含みうる。いくつかの実施形態では、プロセッサ63は、コンピューティング機器60の動作を制御するための特別に設計されたハードウェア(例えば、特定用途向け集積回路(ASIC)、電気的に消去可能なプログラマブル読み出し専用メモリ(EEPROM)及びフィールドプログラマブルゲートアレイ(FPGA)など)を含みうる。特定の一実施形態では、メモリ61(不揮発性ランダムアクセスメモリ(RAM)及び/又は読み出し専用メモリ(ROM)など)は、CPU 62の一部を更に形成する。しかしながら、メモリをシステムと結合する多くの異なる方法が存在している。メモリブロック61は、例えば、データ、及びプログラミング命令などのキャッシュ及び/又は記憶などの様々な目的で使用されうる。
本明細書において使用するところの「プロセッサ」なる用語は、従来技術においてプロセッサと呼ばれる集積回路のみに限定されるものではなく、マイクロコントローラ、マイクロコンピュータ、プログラマブルロジックコントローラ、特定用途向け集積回路及び他の任意のプログラマブル回路を広く指すものである。
一実施形態では、インターフェース68はインターフェースカード(「ラインカード」と呼ばれる場合もある)として提供される。一般的に、こうしたインターフェースは、コンピューティングネットワーク上でのデータパケットの送受信を制御し、場合によりコンピューティング機器60とともに使用される他の周辺機器に対応する。提供されうるインターフェースは、Ethernetインターフェース、フレームリレーインターフェース、ケーブルインターフェース、DSLインターフェース及びトークンリングインターフェースなどである。更に、例えば、ユニバーサルシリアルバス(USB)、Serial、Ethernet、Firewire、PCI、パラレル、無線周波数(RF)、Bluetooth(商標)、近距離無線通信(例えば、近傍磁界を使用する)、802.11(WiFi)、フレームリレー、TCP/IP、ISDN、高速Ethernetインターフェース、ギガビットEthernetインターフェース、非同期転送モード(ATM)インターフェース、高速シリアルインターフェース(HSSI)、販売時点情報管理(POS)インターフェース及び光ファイバ分散データインターフェース(FDDI)などの様々な種類のインターフェースが提供されうる。一般的に、こうしたインターフェース68は、適当な媒体と通信するのに適したポートを含みうる。特定の場合では、こうしたインターフェースは、独立したプロセッサを含んでもよく、場合により揮発性及び/又は不揮発性メモリ(例えば、RAM)を含んでもよい。
図9に示されるシステムは、本明細書に述べられる発明の方法を実施するためのコンピューティング機器60の1つの特定のアーキテクチャを示しているが、これは、本明細書に述べられる特徴及び方法の少なくとも一部を実施することが可能な唯一のデバイスアーキテクチャというわけでは決してない。例えば、1つ又は任意の数のプロセッサ63を有するアーキテクチャを使用することが可能であり、そのようなプロセッサ63は単一の機器に存在してもよく、又は任意の数の機器の間で分散されてもよい。一実施形態では、単一のプロセッサ63は、通信及びルーティング計算を行う。様々な実施形態において、異なる種類のバーチャルアシスタントの特徴及び/又は機能を、クライアント機器(クライアントソフトウェアが動作するスマートフォン又は携帯情報端末など)及びサーバーシステム(以下に更に詳細に説明するサーバーシステムなど)を含むバーチャルアシスタントシステムにおいて実施することができる。
ネットワーク機器の構成に関係なく、本発明のシステムは、データ、汎用ネットワーク動作のためのプログラム命令、及び/又は本明細書に述べられるバーチャルアシスタント技術の機能に関する他の情報を記憶するように構成された1つ以上のメモリ又はメモリモジュール(例えば、メモリブロック65など)を使用することができる。プログラム命令は、例えば、オペレーティングシステム及び/又は1つ以上のアプリケーションの動作を制御することができる。1又は複数のメモリを、データ構造、キーワードタクソノミー情報、広告情報、ユーザクリック及びインプレッション情報、及び/又は本明細書に述べられる他の特定の非プログラム情報を記憶するように構成することもできる。
こうした情報及びプログラム命令を、本明細書に述べられるシステム/方法を実施するために使用することができることから、少なくとも一部のネットワーク機器の実施形態では、例えば、本明細書に述べられる様々な動作を実行するためのプログラム命令及び状態情報などを記憶するように構成又は設計することができる永続的な機械可読記憶媒体を含む。このような永続的な機械可読記憶媒体の例としては、これらに限定されるものではないが、ハードディスク、フロッピーディスク及び磁気テープなどの磁気媒体、CD−ROMディスクなどの光媒体、フロプティカルディスクなどの光磁気媒体、並びに読み出し専用メモリ素子(ROM)、フラッシュメモリ、メモリスタメモリ及びランダムアクセスメモリ(RAM)などのプログラム命令を記憶及び実行するように特別に構成されたハードウェア機器などが挙げられる。プログラム命令の例としては、コンパイラによって生成されるなどのマシンコード、インタプリタを使用してコンピュータにより実行される高水準コードを含むファイルの両方が挙げられる。
一実施形態では、本発明のシステムは、スタンドアロンコンピューティングシステム上で実施される。次に図10を参照すると、少なくとも一実施形態に係る、スタンドアロンコンピューティングシステム上でバーチャルアシスタントの少なくとも一部を実施するためのアーキテクチャを示すブロック図が示されている。コンピューティング機器60は、マルチモードバーチャルアシスタント1002を実施するためのソフトウェアを動作させるプロセッサ63を含む。入力装置1206は、例えば、キーボード、タッチスクリーン、マウス、タッチパッド、トラックボール、ファイブウェイスイッチ、ジョイスティック、及び/又はそれらの任意の組み合わせを含む、ユーザ入力を受け取るのに適した任意の種類の入力装置であってもよい。機器60は、例えば、マイクロフォンなどの音声入力装置1211も含みうる。出力装置1207は、スクリーン、スピーカ、プリンタ、及び/又はそれらの任意の組み合わせであってもよい。メモリ1210は、ソフトウェアの動作時にプロセッサ63により使用される、従来技術において周知の構造及びアーキテクチャを有するランダムアクセスメモリであってもよい。記憶装置1208は、デジタル形式でデータを記憶するための任意の磁気的、光学的、及び/又は電気的記憶装置であり、例として、フラッシュメモリ、磁気ハードドライブ、CD−ROMなどが挙げられる。
別の実施形態では、本発明のシステムは、任意の数のクライアント及び/又はサーバーを有するものなどの分散コンピューティングネットワークにおいて実施される。次に図11を参照すると、少なくとも1つの実施形態に係る、分散コンピューティングネットワーク上でバーチャルアシスタントの少なくとも一部を実施するアーキテクチャを示すブロック図が示されている。
図11に示す構成では、任意の数のクライアント1304が与えられ、各クライアント1304は、本発明のクライアント側部分を実施するためソフトウェアを動作させることができる。更に、クライアント1304から受信される要求を処理するために任意の数のサーバー1340が設けられてもよい。クライアント1304及びサーバー1340は、インターネットなどの電子ネットワーク1361を介して互いに通信することができる。ネットワーク1361は、例えば、有線及び/又は無線プロトコルを含む任意の公知のネットワークプロトコルを使用して実施することができる。
更に、一実施形態では、サーバー1340は、追加的な情報を取得する必要がある場合、又は特定のユーザとの先のインタラクションに関する記憶データを参照する必要がある場合に外部サービス1360を呼び出すことができる。外部サービス1360との通信は、例えば、ネットワーク1361を介して行うことができる。様々な実施形態において、外部サービス1360は、ハードウェア機器自体と関連するか又はハードウェア機器自体にインストールされたウェブ対応サービス及び/又は機能を含む。例えば、アシスタント1002がスマートフォン又は他の電子機器上で実施される一実施形態では、アシスタント1002は、カレンダアプリケーション(「app」)に記憶された情報、連絡先及び/又は他のソースを取得することができる。
様々な実施形態において、アシスタント1002は、アシスタント1002がインストールされた電子機器の多くの特徴及び動作を制御することができる。例えば、アシスタント1002は、API又は他の手段を介して機器の機能及びアプリケーションとインターフェースする外部サービス1360を呼び出すことにより、そうでない場合には機器上で従来のユーザインターフェースを使用して開始されうる機能及び動作を実行することができる。このような機能及び動作には、例えば、アラームを設定する、電話をかける、テキストメッセージ又は電子メールメッセージを送信する、及びカレンダイベントを追加することなどが含まれうる。このような機能及び動作は、ユーザとアシスタント1002との間の会話ダイアログのコンテキストにおいてアドオン機能として実行することができる。このような機能及び動作は、このようなダイアログのコンテキストにおいてユーザが指定するか、又はダイアログのコンテキストに基づいて自動的に実行することができる。これによりアシスタント1002を電子機器の様々な動作を開始及び制御するための制御機構として使用することが可能であり、これをボタン又はグラフィカルユーザインターフェースなどの従来の機構に代わるものとして使用することができる点は当業者であれば認識されるところであろう。
例えば、ユーザは、「明日、8時に起きます」などの入力をアシスタント1002に与えることができる。本明細書に述べられる方法を使用してアシスタント1002がユーザ意図を判定すると、アシスタント1002は機器のアラームクロック機能又はアプリケーションとインターフェースするために外部サービス1360を呼び出すことができる。アシスタント1002は、ユーザの代わりにアラームを設定する。このようにして、ユーザはアラームを設定するか又は機器の他の機能を実行する従来の機構に代わるものとしてアシスタント1002を使用することができる。ユーザの要求が曖昧であるか又は更なる説明を必要とする場合、アシスタント1002は、適切なサービス1360が呼び出され、意図した動作が行われるように、能動的な誘導、言い換え及び提案などを含む、ハンズフリーコンテキストに適合させることができる、本明細書に述べられる様々な技術を使用することができる。一実施形態では、アシスタント1002は、機能を実行するためにサービス1360を呼び出す前にユーザに確認を促すか、及び/又は任意の適当なソースから更なるコンテキスト情報を要求することができる。一実施形態では、ユーザは、特定のサービス1360を呼び出すアシスタント1002の能力を選択的に無効化するか、又は必要に応じてすべてのそのようなサービスの呼び出しを無効化することができる。
本発明のシステムは、多くの異なる種類のクライアント1304及び動作モードのいずれによっても実施することができる。次に図12を参照すると、いくつかの異なる種類のクライアント1304及び動作モードを示したシステムアーキテクチャを示すブロック図が示されている。図12に示される様々な種類のクライアント1304及び動作モードはあくまで代表的なものであって、本発明のシステムは図に示した以外のクライアント1304及び/又は動作モードを使用して実施可能である点は、当業者であれば認識されるところであろう。更にシステムは、このようなクライアント1304及び/又は動作モードのいずれか又はすべてを単独で又はあらゆる組み合わせとして含むことができる。図に示される例には以下が含まれる。すなわち、
●入出力装置及び/又はセンサを有するコンピュータ機器1402。クライアント要素は、任意のこうしたコンピュータ機器1402上で展開することができる。少なくとも1つの実施形態を、ウェブブラウザ1304A又はネットワーク1361を介したサーバー1340との通信を可能にする他のソフトウェアアプリケーションを使用して実施することができる。入出力チャンネルは、例えば、視覚及び/又は聴覚チャンネルを含む任意の種類のものであってもよい。例えば、一実施形態では、本発明のシステムは、音声による通信方法を使用して実施することが可能であるが、これは視覚障害者のためのアシスタントの一実施形態を可能にするものであり、視覚障害者にとってのウェブブラウザに相当する実施形態が音声によって作動され、出力に音声を使用する。
●クライアントをモバイル機器1304B上でアプリケーションとして実施することができる、I/O及びセンサを有するモバイル機器1406。これには、モバイル電話、スマートフォン、携帯情報端末、タブレット機器及びネットワーク化ゲーム機が含まれるがこれらに限定されない。
●クライアントを機器1304C上で組み込みアプリケーションとして実施することができる、I/O及びセンサを有する家電製品1410。
●クライアントを組み込みシステムアプリケーション1304Dとして実施することができる、ダッシュボードインターフェース及びセンサを有する自動車及び他の乗り物1414。これには、自動車のナビゲーションシステム、音声制御システム及び車載エンターテイメントシステムなどが含まれるがこれらに限定されない。
●クライアントを機器常駐アプリケーション1304Eとして実施することができる、ルータなどのネットワーク化コンピューティング機器1418、又はネットワーク上に常駐するか若しくはネットワークとインターフェースする他の任意の機器。
●アシスタントの一実施形態が電子メールモダリティサーバー1426を介して接続される電子メールクライアント1424。電子メールモダリティサーバー1426は通信ブリッジとして動作し、例えば、アシスタントに送信された電子メールメッセージとしてユーザからの入力を取り込み、応答としてアシスタントからユーザに出力を送出する。
●アシスタントの一実施形態がメッセージングモダリティサーバー1430を介して接続されるインスタントメッセージングクライアント1428。メッセージングモダリティサーバー1430は、通信ブリッジとして動作し、ユーザからの入力をアシスタントに送信されたメッセージとして取り込み、応答のメッセージとしてアシスタントからユーザに出力を送出する。
●アシスタントの一実施形態がボイスオーバーインターネットプロトコル(VoIP)モダリティサーバー1434を介して接続される音声電話1432。VoIPモダリティサーバー1434は、通信ブリッジとして動作し、ユーザからの入力をアシスタントに話しかけられた音声として取り込み、応答としてアシスタントからユーザに、例えば、合成音声として出力を送出する。
これらに限定されるものではないが、電子メール、インスタントメッセージング、ディスカッションフォーラム、グループチャットセッション、ライブヘルプ又は顧客サポートセッションなどを含むメッセージングプラットフォームの場合では、アシスタント1002は会話の参加者として動作することができる。アシスタント1002は、1対1のインタラクションのために本明細書に述べられる1つ以上の技術及び方法を使用して、会話を監視し、個人又はグループに応答することができる。
様々な実施形態において、本発明の技術を実施するための機能は、任意の数のクライアント及び/又はサーバー要素に分散されてもよい。例えば、様々なソフトウェアモジュールを、本発明と関連する様々な機能を行うために実施することが可能であるが、そのようなモジュールは、サーバー及び/又はクライアント要素上で動作させるために様々な形態で実施することができる。このような構成の更なる詳細については、その開示内容の全体を本明細書に参照により援用するところの2011年1月10日出願の「Intelligent Automated Assistant」に対する関連する米国実用特許出願第12/987,982号に示されている。
図13の例では、入力誘導機能及び出力処理機能はクライアント1304とサーバー1340との間で分散され、入力誘導のクライアント部分2794a及び出力処理のクライアント部分2792aはクライアント1304に配置され、入力誘導のサーバー部分2794b及び出力処理のサーバー部分2792bはサーバー1340に配置されている。以下の要素が、サーバー1340に配置されている。すなわち、
●完全な用語集2758b、
●言語パターンレコグナイザの完全なライブラリ2760b、
●短期個人メモリのマスターバージョン2752b、
●長期個人メモリのマスターバージョン2754b。
一実施形態では、クライアント1304は、応答性を向上させ、ネットワーク通信への依存性を低減するためにこれらの要素のサブセット及び/又は部分をローカルに保守する。このようなサブセット及び/又は部分は、公知のキャッシュ管理技術に従って保守及び更新することができる。そのような部分集合及び/又は部分には、例えば、以下のものが含まれる。すなわち、
●用語集のサブセット2758a、
●言語パターンレコグナイザのライブラリのサブセット2760a、
●短期個人メモリのキャッシュ2752a、
●長期個人メモリのキャッシュ2754a。
以下のものを含む更なる要素をサーバー1340の一部として実施することができる。すなわち、
●言語インタプリタ2770、
●ダイアログフロープロセッサ2780、
●出力プロセッサ2790、
●ドメインエンティティデータベース2772、
●タスクフローモデル2786、
●サービスオーケストレーション2782、
●サービス機能モデル2788。
サーバー1340は、必要な場合に外部サービス1360とインターフェースすることにより追加的な情報を取得する。
次に図14を参照すると、いくつかの実施形態に係る電子機器2000の機能ブロック図が示されている。この機器の機能ブロックは、本発明の原理を実行するためにハードウェア、ソフトウェア、又はハードウェアとソフトウェアとの組み合わせにより実施することができる。当業者によれば、図14に述べられる機能ブロックは、上記に述べたような本発明の原理を実施するために組み合わせるか、又はサブブロックに分割することができる。したがって、本明細書における説明は、あらゆる可能な組み合わせ若しくは分割、又は本明細書に述べられる更なる機能ブロックの定義を支持しうるものである。
図14に示されるように、電子機器2000は、処理ユニット2006を含む。いくつかの実施形態では、処理ユニット2006は、コンテキスト検出ユニット2008、ユーザ入力解釈ユニット2010、タスク及びパラメータ特定ユニット2012、タスク実行ユニット2014、及びダイアログ応答生成ユニット2016を含む。電子機器2000は、処理ユニットに結合され、ユーザに入力を促すように構成された出力ユニット2002を更に含む。電子機器は、処理ユニットに結合され、ユーザ入力を受け取るように構成された入力ユニット2003を更に有している。いくつかの実施形態では、電子機器2000は、機器2000の1つ以上のセンサ、及び/又は、環境状態センサ、周辺機器、車両の車載システム、位置センサ(例えば、GPSセンサ)、速度センサ他などの電子機器2000の外部のセンサ/機器からデータを受信するように構成された通信ユニット2004も含む。
処理ユニットは、ハンズフリーコンテキストが有効であるか否かを検出し(例えば、コンテキスト検出ユニット2008により)、受け取られたユーザ入力を解釈してユーザ意図の表現を導出し(例えば、ユーザ入力解釈ユニット2010により)、前記導出されたユーザ意図の表現に少なくとも一部基づいて、少なくとも1つのタスク及びそのタスクの少なくとも1つのパラメータを特定し(例えば、タスク及びパラメータ特定ユニット2012により)、前記少なくとも1つのパラメータを用いて前記少なくとも1つのタスクを実行することにより結果を導出し(例えば、タスク実行ユニット2014により)、前記導出された結果に基づいてダイアログ応答を生成し(例えば、ダイアログ応答生成ユニット2016により)、出力装置に前記生成されたダイアログ応答を出力させる(例えば、出力ユニット2002により)ように構成されている。機器がハンズフリーコンテキストにあることの検出(例えば、コンテキスト検出ユニット2008により)に応じて、ユーザに入力を促すステップ、ユーザ入力を受け取るステップ、受け取られたユーザ入力を解釈するステップ、少なくとも1つのタスク及びそのタスクの少なくとも1つのパラメータを特定するステップ、並びにダイアログ応答を生成するステップのうちの少なくとも1つが、ハンズフリーコンテキストにともなう制約と整合した方法で実行される(例えば、入力ユニット2003、出力ユニット2002、及び/又は処理ユニット2006により)。
少なくとも2つのインタラクションモードがコンピューティング機器とのユーザインタラクションに利用可能であるようないくつかの実施形態では、機器がハンズフリーコンテキストにあることの検出に応じて、ユーザに入力を促すステップ、ユーザ入力を受け取るステップ、受け取られたユーザ入力を解釈するステップ、少なくとも1つのタスク及びそのタスクの少なくとも1つのパラメータを特定するステップ、並びにダイアログ応答を生成するステップのうちの少なくとも1つが、ハンズフリー動作に適合された第1のインタラクションモードを用いて実行され(例えば、処理ユニット2006の1つ以上のユニットにより)、機器がハンズフリーコンテキストにないことの検出に応じて、ユーザに入力を促すステップ、ユーザ入力を受け取るステップ、受け取られたユーザ入力を解釈するステップ、少なくとも1つのタスク及びそのタスクの少なくとも1つのパラメータを特定するステップ、並びにダイアログ応答を生成するステップのうちの少なくとも1つが、ハンズフリー動作に適合されていない第2のインタラクションモードを用いて実行される(例えば、処理ユニット2006の1つ以上のユニットにより)。
いくつかの実施形態では、処理ユニット2006は、コンピューティング機器により提示される視覚的出力をユーザが見ることができること、コンピューティング機器により提示されるグラフィカルユーザインターフェースとユーザがインタラクトできること、コンピューティング機器の物理的構成要素をユーザが使用することができること、コンピューティング機器上でタッチ入力をユーザが行うことができること、コンピューティング機器上のスイッチをユーザが作動できること、及び、コンピューティング機器上のキーボードをユーザが使用できること、からなる群から選択される少なくとも1つにおける制約を示す条件を検出することによりハンズフリーコンテキストが有効であるか否かを検出する(例えば、コンテキスト検出ユニット2008により)ように更に構成される。
いくつかの実施形態では、出力ユニット2002は、機器がハンズフリーコンテキストにないことの検出に応じて、ハンズフリーコンテキストに適合されていない第1の出力モードによりユーザを促し、機器がハンズフリーコンテキストにあることの検出に応じて、ハンズフリーコンテキストに適合された第2の出力モードによりユーザを促すように構成される。いくつかの実施形態では、第1の出力モードは視覚的出力モードである。いくつかの実施形態では、第2の出力モードは聴覚的出力モードである。
いくつかの実施形態では、視覚的出力モードによりユーザを促す(例えば、出力ユニット2002により)ことは、ディスプレイ画面にプロンプトを表示することを含み、聴覚的出力モードによりユーザを促す(例えば、出力ユニット2002により)ことは、音声プロンプトを出力することを含む。
いくつかの実施形態では、処理ユニット2006は、機器がハンズフリーコンテキストにあることの検出に応じて、ハンズフリー動作に関連付けられた語彙を使用して、受け取られたユーザ入力を解釈する(例えば、ユーザ入力解釈ユニット2010により)ように構成される。
いくつかの実施形態では、処理ユニット2006は、機器がハンズフリーコンテキストにあることの検出に応じて、ハンズフリー動作に関連付けられた少なくとも1つのタスクフロー特定ステップを実行する(例えば、タスク実行ユニット2014により)ように構成される。いくつかの実施形態では、ハンズフリー動作に関連付けられた少なくとも1つのタスクフロー特定ステップを実行することは、音声によるインターフェースにより入力された内容を修正及び確認するようにユーザに促す(例えば、出力ユニット2002及び/又は入力ユニット2003により)ことを含む。
いくつかの実施形態では、処理ユニット2006は、聴覚的出力を用いて少なくとも1つのタスクフローステップを実行する(例えば、タスク実行ユニット2014及び/又は出力ユニット2002により)ように更に構成される。いくつかの実施形態では、処理ユニット2006は、ハンズフリーコンテキストに適した、限定された使用可能なタスクフローステップ群から選択される少なくとも1つのタスクフローステップを実行することにより、少なくとも1つのタスクフロー特定ステップを実行する(例えば、タスク実行ユニット2014により)ように構成される。
いくつかの実施形態では、処理ユニット2006は、機器がハンズフリーコンテキストにあることの検出に応じて、音声による出力モードでダイアログ応答を生成する(例えば、ダイアログ応答生成ユニット2016により)ように構成される。
いくつかの実施形態では、処理ユニット2006は、ユーザ入力の少なくとも一部を音声の形態で言い換えることにより、音声による出力モードでダイアログ応答を生成する(例えば、ダイアログ応答生成ユニット2016により)ように構成される。いくつかの実施形態では、処理ユニット2006は、言い換えられたユーザ入力を他の音声出力から区別するために複数の声を使用して音声を生成することにより、音声による出力モードでダイアログ応答を生成する(例えば、ダイアログ応答生成ユニット2016により)ように構成される。いくつかの実施形態では、処理ユニット2006は、ダイアログテンプレートを少なくとも1つの個人データのアイテムと組み合わせることにより、会話による出力モードでダイアログ応答を生成する(例えば、ダイアログ応答生成ユニット2016により)ように構成される。
いくつかの実施形態では、処理ユニット2006は、ハンズフリーコンテキストを特定するユーザ入力を受け取ることと(例えば、入力ユニット2003により)、ハンズフリーコンテキストに関連付けられた環境条件を示す少なくとも1つのセンサからデータを受信することと(例えば、通信ユニット2004により)、ハンズフリーコンテキストに関連付けられた周辺機器の接続を検出することと(例えば、通信ユニット2004により)、ハンズフリーコンテキストに関連付けられていない周辺機器の切断を検出することと(例えば、通信ユニット2004により)、車両の車載システムとの通信を検出することと(例えば、通信ユニット2004により)、現在位置を検出することと(例えば、通信ユニット2004により)、現在速度を検出することと(例えば、通信ユニット2004により)からなる群から選択される少なくとも1つのプロセスを実行することにより、ハンズフリーコンテキストが有効であるか否かを検出するように構成される。
いくつかの実施形態では、出力ユニット2002は、会話インターフェースによりユーザを促すように構成され、入力ユニット2003は、会話インターフェース によりユーザ入力を受け取るように構成される。いくつかの実施形態では、入力ユニット2003は音声入力を受け取るように構成され、処理ユニット2006は、音声入力をテキスト表現に変換するように構成される(例えば、ユーザ入力解釈ユニット2010により)。
概念的アーキテクチャ
次に図8を参照すると、マルチモーダルバーチャルアシスタント1002の特定の例示的な一実施形態の概略ブロック図が示されている。上記に参照した関連する米国実用特許出願により詳細に述べられるように、マルチモーダルバーチャルアシスタント1002の異なる実施形態を、一般的にバーチャルアシスタント技術に関連した様々な異なる種類の動作、機能及び/若しくは特徴を与えるように構成、設計し、並びに/又は動作させることが可能である。更に、本明細書により詳細に述べられるように、本明細書に開示されるマルチモーダルバーチャルアシスタント1002の様々な動作、機能及び/又は特徴の多くは、マルチモーダルバーチャルアシスタント1002とインタラクトする異なるエンティティに対する異なる種類の利点及び/若しくは利益を実施可能とするか又は与えることができる。図8に示される実施形態は、上記に述べたハードウェアアーキテクチャのいずれかを使用するか、又は異なる種類のハードウェアアーキテクチャを使用して実施することができる。
例えば、異なる実施形態に係る、マルチモーダルバーチャルアシスタント1002は、例えば、以下のうちの1つ以上(あるいはそれらの組み合わせ)などの様々な異なる種類の動作、機能及び/若しくは特徴を与えるように構成、設計され、並びに/又は動作させることが可能である。すなわち、
●製品及びサービスを発見、検索、選択、購入、予約又は注文するためにインターネット上で利用可能なデータ及びサービスの適用を自動化する。これらのデータ及びサービスを使用するプロセスを自動化することに加え、マルチモーダルバーチャルアシスタント1002は、複数のデータソース及びサービスを組み合わせて同時に使用することも可能とする。例えば、マルチモーダルバーチャルアシスタント1002は、複数のレビューサイトからの製品に関する情報を組み合わせ、複数の販売業者からの価格及び購入可能性を確認し、販売業者の場所及び時間的制約を確認し、ユーザがユーザの問題に対する個別の解決策を見つける助けとなりうる。
●やること(映画、イベント、演奏、展示、ショー及び観光名所を含むがこれらに限定されない)、行く場所(旅行目的地、滞在するホテル及び他の施設、ランドマーク及び対象となる他の目的地などを含むがこれらに限定されない)、飲食を行う場所(レストラン及びバーなど)、他の人との待ち合わせ時間及び場所、並びにインターネットで見つけることができる娯楽又は社会的交流の他の任意のソースを発見、調査、選択、予約、又は他の何らかの方法で知るためにインターネット上で利用可能なデータ及びサービスの使用を自動化する。
●検索(場所に基づく検索を含む)、ナビゲーション(地図及び方向)、データベースの検索(名前又は他の特性によりビジネス又は人を見つけることなど)、天気の状態及び予報の取得、市場アイテムの価格又は金融取引の状態の確認、交通又は飛行機の便の状態の監視、カレンダー及びスケジュールへのアクセス及びそれらの更新;リマインダ、アラート、タスク及びプロジェクトの管理、電子メール又は他のメッセージングプラットフォームによる通信、機器のローカル又はリモート操作(例えば、電話をかける、照明及び温度を制御する、ホームセキュリティデバイスを制御する、音楽又はビデオを再生するなど)を含むグラフィカルユーザインターフェースを有する専用アプリケーションによって与えられる自然言語ダイアログを介したアプリケーション及びサービスの操作を可能とする。一実施形態では、マルチモーダルバーチャルアシスタント1002を、機器上で利用可能な多くの機能及びアプリケーションを開始、操作及び制御するために使用することができる。
●自然言語でのインタラクティブダイアログ、並びにデータ及びサービスへの自動アクセスによる利点が得られるアクティビティ、製品、サービス、娯楽のソース、時間管理、又は他の任意の種類の推薦サービスについて個人的な推薦を提供する。
異なる実施形態に係る、マルチモーダルバーチャルアシスタント1002によって与えられる様々な種類の機能、操作、動作、及び/又は他の特徴の少なくとも一部のものを1つ以上のクライアントシステム、1つ以上のサーバーシステム、及び/又はそれらの組み合わせにおいて実施することができる。
異なる実施形態に係る、マルチモーダルバーチャルアシスタント1002によって与えられる様々な種類の機能、操作、動作及び/又は他の特徴の少なくとも一部のものは、本明細書により詳細に述べられるように、ユーザ入力を解釈及び操作化するうえでコンテキスト情報を使用することができる。
例えば、少なくとも1つの実施形態において、マルチモーダルバーチャルアシスタント1002は、特定のタスク及び/又は操作を実行する際に様々な異なる種類のデータ及び/又は他の種類の情報を利用及び/又は生成するように動作可能である。これには例えば、入力データ/情報及び/又は出力データ/情報が含まれうる。例えば、少なくとも1つの実施形態において、マルチモーダルバーチャルアシスタント1002は、例えば、1つ以上のローカル及び/若しくはリモートメモリ、機器、並びに/又はシステムなどの1つ以上の異なる種類のソースからの情報にアクセスし、こうした情報を処理し、並びに/又は他の方法で利用するように動作可能であってもよい。更に、少なくとも1つの実施形態において、マルチモーダルバーチャルアシスタント1002は、例えば、1つ以上のローカル及び/又はリモート機器及び/又はシステムのメモリに記憶することができる1つ以上の異なる種類の出力データ/情報を生成するように動作可能であってもよい。
マルチモーダルバーチャルアシスタント1002によりアクセス及び/又は利用することが可能な異なる種類の入力データ/情報の例としては、これらに限定されるものではないが、以下のもの(又はそれらの組み合わせ)の1つ以上を挙げることができる。すなわち、
●モバイル電話及びタブレットなどのモバイル機器、マイクロフォン付きコンピュータ、Bluetoothヘッドセット、自動車の音声制御システム、電話システム、応答サービスによる記録、統合されたメッセージングサービス上の音声メール、クロックラジオなどの音声入力を有する消費者アプリケーション、電話局、ホームエンターテインメント制御システム、及びゲームコンソールからの音声入力。
●コンピュータ又はモバイル機器のキーボード、リモートコントロール又は他の家庭用電子機器のキーパッド、アシスタントに送信される電子メールメッセージ、アシスタントに送信されるインスタントメッセージ又は同様のショートメッセージ、マルチユーザゲーム環境においてプレーヤから受け取られるテキスト、及びメッセージフィードにおいてストリーミングされるテキストからのテキスト入力。
●センサ又は位置に基づくシステムから入力される位置情報。例としては、モバイル電話の全地球測位システム(GPS)及びアシスト型GPS(A−GPS)が挙げられる。一実施形態では、位置情報は、系統だったユーザ入力と組み合わされる。一実施形態では、本発明のシステムは、既知の住所情報及び現在位置の決定に基づいてユーザが家にいる場合にこれを検出できる。このようにして、ユーザが家の外にいる場合に対して家にいる場合に関心を有しうる情報の種類、並びにユーザが家にいるか否かに応じてユーザのために呼び出されるべきサービス及び動作の種類に関して特定の推論を行うことができる。
●クライアント機器のクロックからの時間情報。これには、例えば、現地時間及びタイムゾーンを示す電話又は他のクライアント機器からの時間が含まれる。更に、時間は、例えば、「1時間以内」及び「今夜」などの語句を解釈するためにユーザ要求のコンテキストで使用することができる。
●コンパス、加速度計、ジャイロスコープ及び/又は移動速度データ、並びにモバイル若しくはハンドヘルド機器、又は自動車の制御システムなどの組み込み型システムからの他のセンサデータ。これには、リモートコントロールから器具及びゲームコンソールへの機器測位データも含まれうる。
●グラフィカルユーザインターフェース(GUI)を有するあらゆる機器におけるGUIからのクリック、メニュー選択及び他のイベント。更なる例には、タッチスクリーンへのタッチが含まれる。
●アラームクロック、カレンダアラート、価格変更トリガ、位置トリガ及びサーバーから機器へのプッシュ通知他などのセンサ及び他のデータ駆動型トリガからのイベント。
本明細書に述べられる実施形態に対する入力は、ダイアログ及び要求履歴を含むユーザ対話インタラクション履歴のコンテキストを更に含む。
上記に参照した関連する米国実用特許出願に述べられるように、多くの異なる種類の出力データ/情報がマルチモーダルバーチャルアシスタント1002によって生成されうる。これらには、以下のうちの1つ以上(又はそれらの組み合わせ)が含まれるがこれらに限定されない。すなわち、
●出力装置及び/又は機器のユーザインターフェースに直接送信されるテキスト出力、
●電子メールによりユーザに送信されるテキスト及びグラフィック、
●メッセージングサービスによりユーザに送信されるテキスト及びグラフィック、
●以下のうちの1つ以上(又はそれらの組み合わせ)を含みうる音声出力、すなわち、
○合成音声、
○サンプリング音声、
○記録メッセージ、
●写真、リッチテキスト、ビデオ、音及びハイパーリンクを含む情報のグラフィックレイアウト(例えば、ウェブブラウザでレンダリングされたコンテンツ)、
●電源をオン又はオフする、音を出す、色を変更する、振動させる、又は照明を制御する他などの機器に対する物理的動作を制御するためのアクチュエータ出力、
●マッピングアプリケーションの呼び出し、電話のボイスダイヤリング、電子メール又はインスタントメッセージの送信、メディアの再生、カレンダー、タスクマネージャ及びメモアプリケーションへの入力、並びに他のアプリケーションなどの機器上における他のアプリケーションの呼び出し、
●リモートカメラの操作、車椅子の制御、リモートスピーカでの音楽の再生及びリモートディスプレイでのビデオの再生他などの、機器に取り付けられているか又は機器によって制御される機器に対する物理的動作を制御するためのアクチュエータ出力。
図8のマルチモーダルバーチャルアシスタント1002は、実施可能な様々なバーチャルアシスタントシステムの実施形態のあくまで1つの例であることは認識されるであろう。バーチャルアシスタントシステムの他の実施形態(図示せず)は、例えば、図8の例示的なバーチャルアシスタントシステムの実施形態において示されるものと比較して、更なる要素/特徴、より少ない要素/特徴、及び/又は異なる要素/特徴を含みうる。
マルチモーダルバーチャルアシスタント1002は、例えば、ハードウェア及び/又はハードウェアとソフトウェアとの組み合わせの使用により実施及び/又は例示することが可能な、複数の異なる種類の要素、機器、モジュール、プロセス、システムなどが含まれうる。例えば、図8の例示的な実施形態に示されるように、アシスタント1002は、以下の種類のシステム、構成要素、機器、プロセスなどの1つ以上(又はそれらの組み合わせ)を含みうる。すなわち、
●1つ以上の能動的オントロジ1050、
●能動的入力誘導要素2794(クライアント部分2794a及びサーバー部分2794bを含みうる)、
●短期個人メモリ要素2752(マスターバージョン2752b及びキャッシュ2752aを含みうる)、
●長期個人メモリ要素2754(マスターバージョン2754b及びキャッシュ2754aを含みうる)、
●ドメインモデル要素2756、
●語彙要素2758(完全な用語集2758b及びサブセット2758aを含みうる)、
●言語パターンレコグナイザ要素2760(フルライブラリ2760b及び部分集合2760aを含みうる)、
●言語インタプリタ要素2770、
●ドメインエンティティデータベース2772、
●ダイアログフロープロセッサ要素2780、
●サービスオーケストレーション要素2782、
●サービス要素2784、
●タスクフローモデル要素2786、
●ダイアログフローモデル要素2787、
●サービスモデル要素2788、
●出力プロセッサ要素2790。
特定のクライアント/サーバーに基づいた実施形態では、これらの要素の一部又はすべてはクライアント1304とサーバー1340との間で分散されてもよい。このような要素については、上記に参照した関連する米国実用特許出願に更に述べられている。
一実施形態では、バーチャルアシスタント1002は、例えば、タッチスクリーン入力、キーボード入力、音声入力、及び/又はこれらの任意の組み合わせを含む任意の適当な入力モダリティによりユーザ入力2704を受け取る。一実施形態では、アシスタント1002は、その開示内容の全体を本明細書に参照により援用するところの2011年9月30日出願の発明の名称が「Using Context Information to Facilitate Processing of Commands in a Virtual Assistant」である関連する米国実用特許出願第13/250,854号に述べられるような、イベントコンテキスト、アプリケーションコンテキスト、個人音声コンテキスト、及び/又は他の形態のコンテキストを含みうるコンテキスト情報1000を更に受信する。コンテキスト情報1000は、適用可能な場合に、本明細書に述べられる方法に従ってユーザインターフェースを適合させるために使用することが可能なハンズフリーコンテキストを更に含む。
本明細書に述べられる方法に従ってユーザ入力2704及びコンテキスト情報1000が処理されると、バーチャルアシスタント1002はユーザに提示するための出力2708を生成する。出力2708は、ハンズフリーコンテキスト、及び適当な場合には他の因子により通知されうる任意の適当な出力モダリティに従って生成することができる。出力モダリティの例としては、画面上に提示される視覚的出力、聴覚的出力(音声出力及び/又はビープ音、並びに他の音を含みうる)、触覚的出力(振動など)、並びに/又はこれらの任意の組み合わせが挙げられる。
図8に示される様々な要素の動作に関する更なる詳細は、その開示内容の全体を本明細書に参照により援用するところの2011年1月10日出願の「Intelligent Automated Assistant」についての関連する米国実用特許出願第12/987,982号に示されている。
ユーザインターフェースのハンズフリーコンテキストへの適合
本発明は、説明を目的として、例として本明細書に述べられるものである。しかしながら、実施例に示される特定の入力及び出力の機構は、あくまでユーザとアシスタント1002との間の1つの可能なインタラクションを例示することを目的としたものに過ぎず、特許請求される発明の範囲を限定することを目的としたものではない点は当業者であれば認識されるところであろう。更に、代替的な実施形態において、本発明は、必ずしもマルチモーダルバーチャルアシスタント1002を使用することなく機器において実施することが可能であり、むしろ、本発明の機能は、特許請求の範囲において一義的に定義される発明の本質的特徴から逸脱することなく、任意の適当な機器で動作するオペレーティングシステム又はアプリケーションにおいて直接実施することが可能である。
次に図1を参照すると、先行技術に従う、テキストメッセージを読むための従来のハンズオンインターフェース169の一例を示したスクリーンショットが示されている。図1に示されるようなグラフィカルユーザインターフェース(GUI)は、一般的に、ユーザが、吹き出し171内に示されるメッセージテキストなどの詳細を読み、テキストフィールド172内にタイプし、送信ボタン173をタップすることによって返信できることが求められる。多くの機器では、このような動作では画面を見て画面に触れることが求められ、したがって、本明細書においてハンズフリーコンテキストと呼ぶ特定のコンテキストにおいてこれを行うことは実用的ではない。
次に図2を参照すると、テキストメッセージ171に返信するためのインターフェース170の一例を示したスクリーンショットが示されている。ユーザがテキストフィールド172内をタップすることに応じてバーチャルキーボード270が提示され、キーに対応する画面上の領域をタップすることによりテキストフィールド172内にテキストを入力することが可能となる。ユーザは、テキストメッセージが入力された時点で送信ボタン173をタップする。ユーザが話すことによってテキストを入力したい場合には、スピーチボタン271をタップすることで、音声入力を受け取ってこれをテキストに変換するためのボイスディクテーションインターフェースが呼び出される。したがって、ボタン271は、ユーザがハンズフリーコンテキストにあることを示すことができる機構を与えるものである。
次に図3A及び3Bを参照すると、テキストメッセージ171に返信するためにボイスディクテーションインターフェースが使用されているインターフェース175の一例を示したスクリーンショットのシークエンスが示されている。画面370は、例えば、ユーザがスピーチボタン271をタップした後に提示される。マイクロフォンアイコン372は、機器が音声入力を受ける準備ができていることを示す。ユーザが音声を入力すると、音声は、マイクロフォン又はこれに類する機器でありうる音声入力装置1211によって受け取られる。ユーザは、音声入力を完了したことを示すために完了ボタン371をタップする。
音声入力は、任意の公知のスピーチ・トゥ・テキストアルゴリズム又はシステムを使用してテキストに変換される。スピーチ・トゥ・テキスト機能は、機器60又はサーバー上に常駐させることができる。一実施形態では、スピーチ・トゥ・テキスト機能は、例えば、Massachusetts州Burlington所在のNuance Communication,Inc.より販売されるNuance Recognizerを使用して実施される。
図3Bに示されるように、会話の結果がフィールド172内に示されうる。キーボード270が示されることで、ユーザがフィールド172内に生成されたテキストを編集することができる。ユーザが入力されたテキストに満足であれば、送信ボタン173をタップすることでテキストメッセージが送信される。
図2、3A、及び3Bに関連して述べた例では、複数の操作において、ユーザがディスプレイ画面を見て、及び/又は入力に触れることが求められる。こうした操作としては以下のものが挙げられる。すなわち、
●ディスプレイ画面上のテキストメッセージ171を読む。
●音声入力モードに入るためにボタン271に触れる。
●音声入力が完了したことを示すために完了ボタン371に触れる。
●ユーザの音声入力から生成された変換されたテキストを見る。
●メッセージを送信するために送信ボタン173に触れる。
本発明の一実施形態では、音声入力を受け取って処理するための機構は、ユーザがハンズフリーコンテキストにある場合にディスプレイ画面とインタラクトし、及び/又はタッチインターフェースを使用する必要性が低減されるようにして機器60に組み込まれる。したがって、本発明のシステムは、ハンズフリーコンテキストでのインタラクションのための改良されたユーザインターフェースを提供することができる。
次に図4及び図5A〜5Dを参照すると、ハンズフリーコンテキストが認識された一実施形態に係る、テキストメッセージを受信してこれに返信するためのインターフェースの一例を示した一連のスクリーンショットが示されている。したがって、この例では、本発明の方法に基づいて、ユーザが画面とインタラクトする必要性は低減されている。
図4において、画面470は、機器60がロックモードにある間に受信されたテキストメッセージ471を示している。ユーザは、公知の技術に係るスライダ472をアクティベートしてメッセージ471に返信するか又は他の方法でメッセージ471とインタラクトすることができる。しかしながら、この例では、機器60が目に見えないか、及び/若しくは手の届かない状態である可能性があり、又は、ユーザが運転中であるか若しくは他の何らかの活動を行っている場合には機器60とインタラクトできない可能性がある。本明細書に述べられるように、マルチモーダルバーチャルアシスタント1002は、このようなハンズフリーコンテキストにおいてテキストメッセージ471を受信してこれに返信するための機能を与えるものである。
一実施形態では、機器60にインストールされたバーチャルアシスタント1002は、ハンズフリーコンテキストを自動的に検出する。このような検出は、ユーザが機器60の画面とインタラクトすること、又はGUIを適切に操作することが困難であるか若しくは不可能であるようなシナリオ又は状況を判定するための任意の手段によって行うことができる。
例えば、限定せずに言えば、ハンズフリーコンテキストの判定は、以下のいずれか(単独又は任意の組み合わせで)に基づいて行うことができる。すなわち、
●センサ(例えば、コンパス、加速度計、ジャイロスコープ、速度計、周辺光センサ、BlueTooth接続検出器、時計、WiFi信号検出器、マイクロフォンなど)からのデータ。
●機器60が例えば、GPSにより特定の地理的位置にあることが決定されること。
●時計からのデータ(例えば、ハンズフリーコンテキストは、一日のうちの特定の時間、及び/又は一週間のうちの特定の曜日に有効であると指定することができる)。
●既定のパラメータ(例えば、ユーザ又はアドミニストレータは、任意の条件又は条件の組み合わせが検出された場合にハンズフリーコンテキストが有効であると指定することができる。)。
●Bluetooth又は他の無線I/O機器の接続(例えば、移動中の車のBlueToothに基づくインターフェースとの接続が検出された場合)。
●ユーザが移動中の車内にいるか又は車の運転中であることを示しうる他の任意の情報。
●ヘッドホン、ヘッドセット、アダプターケーブルにより接続された物などの取り付けられた周辺機器の有無。
●ユーザが機器60と接触していない、又は近接していないことが決定されること。
●アシスタント1002とのインタラクションを誘導するために使用される特定のシグナル(例えば、ユーザが機器を耳に当てるジェスチャー動作、又はBluetoothのボタンを押すこと、又は取り付けられたオーディオ機器のボタンを押すこと)。
●連続的な単語のつながりの中の特定の単語の検出(例えば、アシスタント1002は、コマンドを聞き取り、ユーザが名前を呼ぶか若しくは「コンピューター!」などの何らかのコマンドを言う場合に呼び出されるように構成することができる。)。特定のコマンドは、ハンズフリーコンテキストが有効であるか否かを示すことができる。
他の実施形態では、ユーザは、ハンズフリーコンテキストが有効であるか無効であるかをマニュアルで示すことができ、並びに/又は、ハンズフリーコンテキストが一日のうちの特定の時間及び/若しくは一週間のうちの特定の曜日に有効化及び/若しくは無効化されるようにスケジューリングすることができる。
一実施形態では、ハンズフリーコンテキストにある間にテキストメッセージ470を受信すると、マルチモーダルバーチャルアシスタント1002が、テキストメッセージの着信を示すビープ音又はトーンなどの音声指示を機器60に出力させる。上記に述べたように、ユーザは、公知の技術に従ってスライダ472をアクティベートして、メッセージ471に返信するか又は他の方法でメッセージ471とインタラクトすることができる(例えば、ハンズフリーモードが誤って検出された場合、又はユーザが車の運転を停止することを選択するか、若しくは他の方法で機器60とユーザとのハンズオンインタラクションができるようにする場合)。また、ユーザは、アシスタント1002と音声ダイアログを行うことによって、ハンズフリー方式でアシスタント1002とインタラクションを行うこともできる。
一実施形態では、ユーザは、ハンズフリーコンテキストに適した任意の適当な機構によって音声ダイアログを開始する。例えば、ユーザがBlueToothを装備した車を運転しており、機器60が車と通信しているような環境では、アクセスが容易なボタン(例えば、車のハンドルに取り付けられたもの)を設けることができる。このボタンを押すことでアシスタント1002との音声ダイアログが開始され、ユーザが、BlueTooth接続を介して、車内に設置されたマイクロフォン及び/又はスピーカを通じてアシスタント1002と通信することが可能となる。また、ユーザは、機器60自体、若しくはヘッドセット、若しくは他の任意の周辺機器に設けられたボタンを押すことによって、又はユーザが音声ダイアログを開始したいことをアシスタント1002に伝える他の何らかの明確な動作を行うことによって音声ダイアログを開始することもできる。別の例として、ユーザは、アシスタント1002によって理解され、音声ダイアログを開始するコマンドを発語することができる。ユーザにアシスタント1002との音声ダイアログを容易に開始させることができる他の多くの技術を提供することができる点は当業者であれば認識されるところであろう。音声ダイアログを開始させるために使用される機構は、ユーザ側のハンド・アイ・コーディネーションを必要としないことにより、ユーザが車の運転などの主要なタスクに集中することを可能とし、及び/又は、図2、3A、及び3Bに示されるようなGUIとインタラクトする能力を妨害、阻害、規制、又は制限するようなハンディキャップを有する個人が行うことが可能なものであることが好ましい。
音声ダイアログがいったん開始すると、アシスタント1002は音声入力を聞き取る。一実施形態では、アシスタント1002は、ハンズフリーコンテキストにある間、ユーザによって容易に検出される特定の出力機構により音声入力を受け取ったことを知らせる。1つの例として、ビープ音又はトーン、及び/又は運転中であってもユーザに見えやすい、車のダッシュボード上の視覚的出力、及び/又は他の特定の機構によるものがある。音声入力は、公知の音声認識技術を使用して処理される。次いでアシスタント1002は、音声入力により支持された動作を実行する。一実施形態では、アシスタント1002は、スピーカ(機器60又は車内に設置された)、ヘッドホンなどにより出力することができる音声出力を与えることにより、ユーザとの音声ダイアログを続ける。例えば、アシスタント1002はテキストメッセージ、電子メッセージなどの内容を読み上げ、音声でユーザに選択肢を与えることができる。
例えば、ユーザが「新しいメッセージを読んでください」と言うと、アシスタント1002は機器60に受信確認トーンを発させることができる。次いで、アシスタント1002は「トム・デボンから新しいメッセージがあります。『やぁ、試合観に行くかい?』と言っています」などの音声出力を発することができる。音声出力は、テキストを音声に変換するための任意の公知の技術を使用してアシスタント1002によって生成されうる。一実施形態では、テキスト・トゥ・スピーチ機能は、例えば、Massachusetts州Burlington所在のNuance Communications,Inc.より販売されるNuance Vocalizerを使用して実施される。
次に図5Aを参照すると、ユーザとアシスタント1002との間の言葉のやりとりが行われている間に機器60の画面に提示されうる出力を示したスクリーンショット570の一例が示されている。特定のハンズフリー状況では、例えば、機器60の画面上の出力が車のナビゲーションシステムのディスプレイ画面上に再現されているような場合に、ユーザは画面を見ることはできるが画面に簡単に触れることができない場合がある。図5A〜5Dに示されるような音声会話の視覚的エコーイングは、ユーザの音声入力がアシスタント1002によって適切及び正確に理解されたことをユーザが確認する助けとなり、更にユーザがアシスタント1002の音声応答を理解する助けとなりうる。しかしながら、このような視覚的エコーイングは必須のものではなく、本発明は、機器60の画面上、又はその他の場所におけるいっさいの視覚的表示を行うことなく実施することができる。したがって、ユーザは、純粋に音声入力及び出力によって、又は視覚的入力及び/若しくは出力と音声入力及び/若しくは出力との組み合わせによってアシスタント1002とインタラクトすることができる。
この例では、アシスタント1002は、プロンプト571を表示して発話する。ユーザ入力に応じて、アシスタント1002はディスプレイ上及び/又は音声でユーザ入力572を繰り返す。次いで、アシスタントは着信テキストメッセージを導入(573)してこれを読み上げる。一実施形態では、テキストメッセージは画面上にも表示されうる。
図5Bに示されるように、着信メッセージをユーザに対して読み上げた後、アシスタント1002は次に、ユーザが「返信するか、もう一度読む」(574)ことができることをユーザに伝える。この場合もやはり、このような出力は一実施形態では音声で(すなわち、言葉で)与えられる。このようにして、本発明のシステムは、ユーザがテキストフィールド、ボタン、及び/又はリンクを見る必要がなく、タッチによる直接操作又は画面上のオブジェクトとのインタラクションを必要としない点でハンズフリーコンテキストによく適合した方法でユーザに利用可能な動作を知らせるものである。図5Bに示されるように、一実施形態では、音声出力は、画面上にエコーされる(574)が、このような音声出力の表示は必須ではない。一実施形態では、画面上に表示されたエコーメッセージは周知の機構に従って自動的に上方にスクロールする。
この例では、ユーザは「『いいよ、6時にいくね』と返信」と言う。図5Bに示されるように、一実施形態では、ユーザの音声入力がエコーされる(575)ことによって、ユーザはそれが正しく理解されたことを確認することができる。更に、一実施形態では、アシスタント1002がユーザの音声入力を聴覚的な形態で繰り返すことにより、ユーザは画面を見ることができない場合であってもユーザのコマンドが理解されたことを確認することができる。したがって、本発明のシステムは、いずれもハンズフリーコンテキストで、ユーザがその時点での操作環境では不可能又は不適当な方法で画面を見るか又は機器60とインタラクトする必要なくして、ユーザが返信コマンドを開始し、返信を作成し、コマンド及び作成した返信が正しく理解されたことを確認することができる機構を提供するものである。
一実施形態では、アシスタント1002は、ユーザの作成したテキストメッセージを読み返すことによってメッセージを更に確認することを可能とする。この例では、アシスタント1002は、音声で、「トム・デボンへのあなたの返信です。『いいよ、6時にいくね』」と言う。一実施形態では、クォーテーションマークの意味は、声及び/又は韻律の変化によって伝えられる。例えば、「トム・デボンへのあなたの返信です」という文を、1つの声、例えば、男性の声などで発話させ、「いいよ、6時にいくね」などの文は、別の声、例えば、女性の声で発話させることができる。また、同じ声であるが異なる韻律を使用してクォーテーションマークを伝えることもできる。
一実施形態では、アシスタント1002は、図5B及び5Cに示されるような言葉のやりとりの視覚的エコーイングを与える。図5B及び5Cは、「トム・デボンへのあなたの返信です」のアシスタント1002による音声出力をエコーしたメッセージ576を示している。図5Cは、メッセージの受け手及び内容を含む、作成されつつあるテキストメッセージのサマリ577を示している。図5Cでは、先のメッセージはスクリーンの上側にスクロールアウトされているが、公知の機構に従って下方にスクロールさせることにより見ることができる。送信ボタン578はメッセージを送信し、取り消しボタン579はメッセージを取り消しする。一実施形態では、ユーザは、「送信」又は「取り消し」などのキーワードを発話することにより、メッセージを送信するか又は取り消しすることもできる。また、アシスタント1002は、「送信の準備はできましたか?」などの音声プロンプトを生成することもできる。この場合もやはり、音声プロンプトが出力される間にボタン578、579を含むディスプレイ570が示されてもよい。次いで、ユーザは、ボタン578、579に触れることにより、又は音声プロンプトに答えることにより、ユーザがしたいことを指示する。プロンプトは、「はい」又は「いいえ」の応答を可能とするフォーマットで示されてよく、このためユーザは意図を知らせるために特別な語彙を使用する必要がない。
一実施形態では、アシスタント1002は、例えば、「了解しました。メッセージを送信します」などの音声出力を生成することによりユーザの音声コマンドを確認してメッセージを送信することができる。図5Dに示されるように、この音声出力は、送信されるテキストメッセージのサマリ581とともに画面570上でエコーされてもよい(580)。
上記に述べた音声交換は、任意に用いられる視覚的エコーイングとともに、アシスタント1002がマルチモーダルインターフェースで重複した出力を与える一例を示すものである。このようにして、アシスタント1002は、アイズフリー、ハンズフリー、及び完全なハンズオンを含む幅広いコンテキストをサポートすることができる。
この例は、表示される出力と音声出力とが互いに異なることでそれらの異なるコンテキストを反映する機構も示している。この例は、返信するための代替的な機構が利用可能とされる方法も示している。例えば、アシスタントが「送信の準備はできましたか?」と発話し、図5Cに示されるスクリーン570を表示した後で、ユーザは「送信」又は「はい」と言うか、又は画面上の送信ボタン578をタップすることができる。これらの動作はいずれもアシスタント1002により同じ意味に解釈されてテキストメッセージが送信されることになる。したがって、本発明のシステムは、ユーザとアシスタント1002とのインタラクションに関し高い柔軟度を与えるものである。
次に図6A〜6Cを参照すると、ユーザが、例えば、間違いを直すか又は更に内容を追加するためにハンズフリーコンテキストでテキストメッセージ577の修正をする、本発明の一実施形態に係るマルチモーダルバーチャルアシスタント1002の操作の一例を示した一連のスクリーンショットが示されている。図3A及び3Bに関連して上記に述べたような直接的操作が行われる視覚的インターフェースでは、ユーザはバーチャルキーボード270上にタイピングすることでテキストフィールド172の内容を編集することによってテキストメッセージ577を修正することができる。このような操作はハンズフリーコンテキストでは行えない可能性があるため、マルチモーダルバーチャルアシスタント1002は、このようなテキストメッセージ577の編集を会話インターフェースにおいて音声入力及び出力によって行うことができる機構を提供する。
一実施形態では、テキストメッセージ577が作成された(例えば、ユーザの音声入力に基づき)時点で、マルチモーダルバーチャルアシスタント1002は、メッセージの送信の準備ができたことをユーザに知らせ、ユーザにメッセージを送信するか否かを尋ねる音声出力を生成する。ユーザが、言葉による、又は直接操作による入力によってメッセージを送信する準備ができていないことを示した場合、マルチモーダルバーチャルアシスタント1002は、ユーザに、メッセージの送信、取り消し、修正、又は変更などの利用可能な選択肢を知らせるための音声出力を生成する。例えば、アシスタント1002は、「了解。まだ送信しません。続けるには、メッセージを送信、取り消し、修正、又は変更することができます」と発話することができる。
図6Aに示されるように、一実施形態では、マルチモーダルバーチャルアシスタント1002は、メッセージ770を表示することによって音声出力をエコーし、テキストメッセージ577に関して利用可能な選択肢をユーザに視覚的に知らせる。一実施形態では、ユーザがフィールド773内をタップすることによりメッセージ577を編集することができることを示すため、テキストメッセージ577がそれぞれテキストメッセージ577を送信又は取り消しするためのボタン578、579とともに編集フィールド773内に表示される。一実施形態では、編集フィールド773内をタップすることでバーチャルキーボードが呼び出され(図3Bに示されるものと同様の)、直接的操作による編集が可能となる。
ユーザは、音声入力を与えることによりアシスタント1002とインタラクトすることもできる。例えば、テキストメッセージ577とインタラクトするための選択肢を与えるアシスタント1002の音声メッセージに応じて、ユーザは、「変更する」と言うことができる。アシスタント1002は、この音声テキストを認識し、ユーザに修正されたメッセージを発話することを促す音声メッセージにより応答する。例えば、アシスタント1002は「了解..。どんなメッセージにしますか?」と発話し、次いでユーザの応答の聞き取りを開始する。図6Bは、このような音声プロンプトと関連して示されうる画面570の一例を示している。この場合もやはり、ユーザの音声テキストはアシスタント1002のプロンプト772とともに視覚的にエコーされる(771)。
一実施形態では、ユーザがこのように促された時点で、ユーザのこれに続く音声入力の正確な内容がテキストメッセージの内容として解釈され、ユーザコマンドの通常の自然言語解釈はバイパスされる。ユーザの音声入力は、入力に充分な長さの途切れが検出されるか、又は入力が完了したことを示す特定の単語が検出されるか、又はユーザがテキストメッセージを言い終わったことを示すためにユーザがボタンを押したか若しくは他の何らかのコマンドをアクティベートしたことが検出された場合に完了したものと仮定される。一実施形態では、アシスタント1002は、入力されたテキストメッセージを音声で繰り返し、必要に応じて図6Cに示されるようにこれをエコーすることができる。アシスタント1002は、「送信の準備はできましたか?」などの音声プロンプトを与え、これもやはり、図6Cに示されるように画面上にエコーさせる(770)ことができる。次いでユーザは、いずれもアシスタント1002によって正しく解釈される「取り消し」、「送信」、「はい」、又は「いいえ」と発語することにより応答することができる。また、ユーザは画面上のボタン578又は579を押すことにより所望の動作を引き起こすこともできる。
このようにしてテキストメッセージ577を変更するための機構を与えることにより、本発明のシステムは一実施形態において、ユーザがそれぞれのステージでインタラクションのモードを自由に選択することができるようにハンズオンアプローチと統合される、ハンズフリーコンテキストに適したフロー経路を与えるものである。更に一実施形態では、アシスタント1002は、その自然言語処理機構を全体のフローの中の特定のステップに適合させる。例えば、上記に述べたように、特定の状況では、アシスタント1002は、ユーザがテキストメッセージを発話するように促された場合にユーザコマンドの通常の自然言語解釈をバイパスするモードに入ることができる。
方法
一実施形態では、マルチモーダルバーチャルアシスタント1002は、ハンズフリーコンテキストを検出し、その動作の1つ以上のステージを、ハンズフリー動作におけるユーザエクスペリエンスを変更するように適合する。上記に述べたように、ハンズフリーコンテキストの検出を、マルチモーダルバーチャルアシスタント1002の動作に影響するように様々な方法で適用することができる。図7を参照すると、一実施形態に係るハンズフリーコンテキストの動的検出及びハンズフリーコンテキストに対する適合をサポートするバーチャルアシスタント1002の動作の方法10を示したフロー図が示されている。方法10は、マルチモーダルバーチャルアシスタント1002の1つ以上の実施形態と関連して実施することができる。図7に示されるように、ハンズフリーコンテキストは、一実施形態に係る、マルチモーダルバーチャルアシスタント1002における処理の様々なステージにおいて用いることができる。
少なくとも1つの実施形態において、方法10は、例えば、以下のうちの1つ以上(又はそれらの組み合わせ)などの様々な種類の機能、操作、動作、及び/又は他の特徴を実行及び/又は実施するように動作可能であってもよい。すなわち、
●ユーザとマルチモーダルバーチャルアシスタント1002との間の会話インターフェースのインターフェース制御フローループを実行する。方法10の少なくとも1回の繰り返しは、会話における傾向として機能しうる。会話インターフェースは、ユーザとアシスタント1002とが、会話様式で発話を交換することにより通信するインターフェースである。
●マルチモーダルバーチャルアシスタント1002の実行制御フローを与える。すなわち、この手順は、入力の収集、入力の処理、出力の生成、及びユーザへの出力の提示を制御する。
●マルチモーダルバーチャルアシスタント1002の要素間の通信を協調する。すなわち、この手順は、1つの要素の出力が別の要素に供給される位置、及び環境からの全体の入力及び環境に対する動作が行われる位置を指示する。
少なくともいくつかの実施形態において、方法10の一部を、コンピュータネットワークの他の機器及び/又はシステムにおいて実施することができる。
特定の実施形態に係る、方法10の複数のインスタンス又はスレッドを、1つ以上のプロセッサ63、並びに/又はハードウェア及び/若しくはハードウェアとソフトウェアとの他の組み合わせの使用により同時に実施及び/又は開始することができる。少なくとも1つの実施形態において、方法10の1つ以上の部分又は選択された部分を、1つ以上のクライアント1304、1つ以上のサーバー1340、及び/又はそれらの組み合わせにおいて実施することができる。
例えば、少なくともいくつかの実施形態において、方法10の様々な態様、特徴及び/又は機能を、ソフトウェア要素、ネットワークサービス、データベースなど、又はこれらの任意の組み合わせにより実行、実施及び/又は開始することができる。
異なる実施形態に係る、方法10の1つ以上の異なるスレッド又はインスタンスを、方法10の少なくとも1つのインスタンスの開始をトリガする1つ以上の異なる種類の基準(例えば、最小閾値基準など)を満たす1つ以上の条件又はイベントの検出に応じて開始することができる。方法10の1つ以上の異なるスレッド又はインスタンスの開始及び/又は実施をトリガする様々な種類の条件又はイベントの例としては、それらに限定されるものではないが、以下のうちの1つ以上(又はそれらの組み合わせ)を挙げることができる。すなわち、
●例えば、それらに限定されるものではないが、以下のうちの1つ以上を含むマルチモーダルバーチャルアシスタント1002のインスタンスとのユーザセッション、すなわち、
○例えば、マルチモーダルバーチャルアシスタント1002の一実施形態を実施しているモバイル機器アプリケーションを起動するモバイル機器アプリケーション、
○例えば、マルチモーダルバーチャルアシスタント1002の一実施形態を実施しているアプリケーションを起動するコンピュータアプリケーション、
○「音声入力ボタン」などの押されたモバイル機器上の専用ボタン、
○ヘッドセット、電話の送受話器若しくは基地局、GPSナビゲーションシステム、家電製品、リモートコントロール、又は呼び出し支援と関連付けられたボタンを有する他の任意の機器などの、コンピュータ又はモバイル機器に取り付けされた周辺機器のボタン、
○ウェブブラウザからマルチモーダルバーチャルアシスタント1002を実施しているウェブサイトに対して開始されたウェブセッション、
○例えば、マルチモーダルバーチャルアシスタント1002のサービスが要求されるマルチモーダルバーチャルアシスタント1002を実施しているウェブサイトに対する既存のウェブブラウザセッション内から開始された対話、
○マルチモーダルバーチャルアシスタント1002の一実施形態との通信を仲介しているモダリティサーバー1426に送信された電子メールメッセージ、
○マルチモーダルバーチャルアシスタント1002の一実施形態との通信を仲介しているモダリティサーバー1426に送信されたテキストメールメッセージ、
○マルチモーダルバーチャルアシスタント1002の一実施形態との通信を仲介しているモダリティサーバー1434に対してかけられた電話、
○マルチモーダルバーチャルアシスタント1002の一実施形態を与えているアプリケーションに送信されたアラート又は通知などのイベント、
●マルチモーダルバーチャルアシスタント1002を与える機器の電源が入れられるか、及び/又は起動される場合。
異なる実施形態に係る、方法10の1つ以上の異なるスレッド又はインスタンスを、手動で、自動で、静的に、動的に、同時に、及び/若しくはそれらの組み合わせによって開始並びに/又は実施することができる。更に、方法10の異なるインスタンス及び/又は実施形態を、1つ以上の異なる時間間隔で(例えば、特定の時間間隔の間に、規則的な間隔で、不規則な間隔で、要求に応じて、など)開始することができる。
少なくとも1つの実施形態において、方法10の所与のインスタンスは、本明細書に述べられるハンズフリーコンテキストの検出を含む特定のタスク及び/又は動作を実行する際に様々な異なる種類のデータ及び/又は他の種類の情報を利用及び/又は生成することができる。データには他の任意の種類の入力データ/情報、及び/又は出力データ/情報も含まれうる。例えば、少なくとも1つの実施形態において、方法10の少なくとも1つのインスタンスは、例えば、1つ以上のデータベースなどの1つ以上の異なる種類のソースからの情報にアクセスし、これを処理、及び/又は他の方法で利用することができる。少なくとも1つの実施形態において、データベース情報の少なくとも一部は、1つ以上のローカル及び/又はリモートメモリ機器との通信を介してアクセスすることができる。更に、方法10の少なくとも1つのインスタンスは、例えば、ローカルメモリ及び/又はリモートメモリ機器に記憶することが可能な1つ以上の異なる種類の出力データ/情報を生成することができる。
少なくとも1つの実施形態において、方法10の所与のインスタンスの初期構成は、1つ以上の異なる種類の初期化パラメータを使用して実行することができる。少なくとも1つの実施形態において、初期化パラメータの少なくとも一部は、1つ以上のローカル及び/又はリモートメモリ機器との通信を介してアクセスすることができる。少なくとも1つの実施形態において、方法10のインスタンスに与えられる初期化パラメータの少なくとも一部は、入力データ/情報に対応したものでもよく、及び/又は入力データ/情報から導出されたものでもよい。
図7の特定の例では、単一のユーザが、音声入力機能を有するクライアントアプリケーションからネットワークを介してマルチモーダルバーチャルアシスタント1002のインスタンスにアクセスしていると仮定する。一実施形態では、アシスタント1002は、モバイルコンピューティング機器、携帯情報端末、モバイル電話、スマートフォン、ラップトップ、タブレットコンピュータ、家庭用電子機器、音楽プレーヤ他などの機器60にインストールされる。アシスタント1002は、ユーザが、音声入力及び出力、並びに直接的操作及び/又はグラフィカルユーザインターフェースの表示(例えば、タッチスクリーンを介して)を介してアシスタント1002とインタラクトすることを可能とするユーザインターフェースに関連して動作する。
機器60は、機器60がハンズフリーコンテキストにあるか否かを検出する(20)ために分析することが可能な現在の状態11を有している。ハンズフリーコンテキストは、自動であるか手動であるかを問わず、任意の適用可能な検出機構又は機構の組み合わせを使用し、状態11に基づいて検出することができる(20)。その例は上記に示した。
その開示内容の全体を参照により本明細書に援用するところの2011年9月30日出願の発明の名称が「Using Context Information to Facilitate Processing of Commands in a Virtual Assistant」である関連する米国実用特許出願第13/250,854号に述べられるように、ハンズフリーコンテキストが検出(20)された場合、その情報は、アシスタントの様々なプロセスを通知するために使用することが可能な他のコンテキスト情報1000に追加される。
音声入力が誘導され、解釈される(100)。誘導には、任意の適当なモードでプロンプトを提示することが含まれうる。これにより、様々な実施形態においてハンズフリーコンテキストが検出されたか否かに応じて、アシスタント1002が複数の入力のモードのうちの1つ以上を与えることができる。入力のモードには例えば、以下のものが含まれうる。すなわち、
●能動的タイプ入力誘導手順を呼び出すことが可能な、タイプ入力用インターフェース、
●能動的音声入力誘導手順を呼び出すことが可能な、音声入力用インターフェース、
●能動的GUI入力誘導を呼び出すことが可能な、メニューから入力を選択するためのインターフェース。
例えば、ハンズフリーコンテキストが検出された場合、トーン又は他の聴覚的なプロンプトによって音声入力を誘導し、ユーザの発語をテキストとして解釈することができる。しかしながら、他の入力モードも提供されうる点は当業者であれば認識されるところであろう。
ステップ100の出力は、入力音声のテキストの候補解釈のセットでありうる。この候補解釈のセットは、テキスト入力を構文解析してユーザ意図の可能な意味上の解釈のセットを生成する言語インタプリタ2770(自然言語プロセッサ、すなわちNLPとも呼ばれる)によって処理(200)される。
ステップ300において、これらのユーザ意図の表現が、ユーザ意図をタスクのステップとして操作化するためのダイアログ及びフロー解析手順の一実施形態を実施するダイアログフロープロセッサ2780にわたされる。ダイアログフロープロセッサ2780は、最も可能性の高い意図の解釈を決定し、この解釈をドメインモデルのインスタンス及びタスクモデルのパラメータにマッピングし、タスクフローにおける次のフローステップを決定する。適当であれば、ハンズフリー動作に適合された1つ以上のタスクフローステップが選択される(310)。例えば、上記に述べたように、テキストメッセージを改変するためのタスクフローステップは、ハンズフリーコンテキストが検出された場合には異なりうる。
ステップ400において、特定されたフローステップが実行される。一実施形態では、フローステップの呼び出しがサービスオーケストレーション要素2782によって実行され、これによりユーザの要求のためのサービスのセットが呼び出される。一実施形態では、これらのサービスは一般的な結果にいくつかのデータを与える。
ステップ500において、ダイアログ応答が生成される。一実施形態では、ダイアログ応答の生成500は、ハンズフリーコンテキストの状態によって影響される。したがってハンズフリーコンテキストが検出された場合、異なる、及び/又は更なるダイアログユニットが音声チャンネルを使用して提示用に選択されうる(510)。例えば、「送信の準備はできましたか?」などの更なるプロンプトが言葉で発語されうるが、画面上には必ずしも表示されずともよい。一実施形態では、ハンズフリーコンテキストの検出は、例えば、入力を確認するための更なる入力520を促すことに影響を及ぼしうる。
ステップ700では、マルチモーダル出力(一実施形態では音声及び視覚的内容を含む)がユーザに提示され、次いでユーザは必要に応じて音声入力を使用して再び応答することができる。
応答を見た、及び/又は聞いた後でユーザのすることが済んだ(790)場合、方法は終了する。ユーザのすることが済んでいない場合、ステップ100に戻ることによりループの繰り返しがもう一回開始される。
本明細書に述べられるように、検出されたハンズフリーコンテキストを含むコンテキスト情報1000は、方法10の様々なステップに影響を与えるためにシステムの様々な要素によって使用されうる。例えば、図7に示されるように、ハンズフリーコンテキストを含むコンテキスト1000は、ステップ100、200、300、310、500、510、及び/又は520において使用されうる。しかしながら、ハンズフリーコンテキストを含むコンテキスト情報1000に使用は、これらの特定のステップに限定されるものではなく、本明細書の本質的な特徴から逸脱することなくシステムはコンテキスト情報を他の時点で使用することもできる点は当業者であれば認識されるところであろう。アシスタント1002の動作の様々なステップにおけるコンテキスト1000の使用の更なる説明が、それらの開示内容の全体を参照により本明細書に援用するところの2011年9月30日出願の発明の名称が「Using Context Information to Facilitate Processing of Commands in a Virtual Assistant」である関連する米国実用特許出願第13/250,854号、及び2009年6月5日出願の「コンテキスト音声コマンド」に対する関連する米国実用特許出願第12/479,477号に示されている。
更に、方法10の異なる実施形態は、図7に示される特定の実施形態に示されるもの以外の更なる特徴及び/又は動作を含みうるものであり、並びに/又は図7の特定の実施形態に示される方法10の特徴及び/若しくは動作の少なくとも一部を省略しうる点は当業者であれば認識されるところであろう。
ステップ100、200、300、310、500、510、及び/又は520のハンズフリーコンテキストへの適合について、以下により詳細に述べる。
入力誘導及び解釈100のハンズフリーコンテキストへの適合
音声入力の誘導及び解釈100は、複数の方法のいずれか(単独又は任意の組み合わせで)によりハンズフリーコンテキストに適合させることができる。上記に述べたように、一実施形態では、ハンズフリーコンテキストが検出された場合、トーン及び/又は他の聴覚的プロンプトにより音声入力を誘導することができ、ユーザの発話がテキストとして解釈される。一般的に、マルチモーダルバーチャルアシスタント1002は、音声入力用の複数の可能な機構(例えば、Bluetooth接続されたマイクロフォン、又は他の取り付けられた周辺機器など)、及びアシスタント1002を呼び出すための複数の可能な機構(例えば、周辺機器のボタンを押すこと、又は機器60の近くでジェスチャー動作を用いることなど)を与えることができる。アシスタント1002がどのように呼び出され、及び/又は音声入力にどの機構が使用されているかについての情報を使用して、ハンズフリーコンテキストが有効であるか否か、及びハンズフリーエクスペリエンスを変更するためにハンズフリーコンテキストを使用することができるか否かを示すことができる。より詳細には、このような情報を使用することで、ステップ100において入力及び出力に特定の音声経路が用いられるようにすることができる。
更に、ハンズフリーコンテキストが検出された場合には、音声入力装置の使われ方を変えることができる。例えば、ハンズオンモードでは、インターフェースは、アシスタント1002に音声入力の聞き取りを開始させるうえでユーザがボタンを押すか又は物理的ジェスチャーを行うことを必要とする場合がある。これに対してハンズフリーモードでは、インターフェースは、アシスタント1002による毎回の出力の後に継続的に入力を促すか、又は双方向に継続的な発話を可能とする(アシスタント1002がまだ話している間にアシスタント1002にユーザが割り込むことができる)。
自然言語処理200のハンズフリーコンテキストへの適合
自然言語処理(NLP)200は、例えば、ハンズフリー動作に特に適した特定の音声応答にサポートを追加することによって、ハンズフリーコンテキストに適合させることができる。このような応答としては、例えば、「はい」、「メッセージを読む」、及び「変更する」などが挙げられる。一実施形態では、このような応答に対するサポートを、ハンズオン状況において使用可能な音声コマンドに対するサポートに加えて与えることができる。したがって、例えば、一実施形態では、ユーザは、画面に現れるコマンドを発話することによりグラフィカルユーザインターフェースを操作することができる(例えば、「送信」と表示されたボタンが画面に現れた場合、「送信する」という発話及びその意味上の等価表現を理解するためにサポートを与えることができる)。ハンズフリーコンテキストでは、ユーザが画面を見ることができない可能性があることを解決するために更なるコマンドが認識されうる。
ハンズフリーコンテキストの検出は、アシスタント1002による単語の解釈も変化させうる。例えば、ハンズフリーコンテキストでは、アシスタント1002を「静かに!」というコマンド及びその意味上の変形を認識し、このようなコメントに応じてすべての音声出力を停止するように調整することができる。非ハンズフリーコンテキストでは、このようなコマンドは関連性がないものとして無視されうる。
タスクフロー300のハンズフリーコンテキストへの適合
ステップ300は、ユーザ意図に関連付けられたタスク、そのタスクのパラメータ、及び/又は実行すべきタスクフローステップ300を特定することを含み、複数の方法のいずれか(単独又は任意の組み合わせで)によりハンズフリーコンテキストに適合させることができる。
一実施形態では、ハンズフリー動作に適合された1つ以上の更なるタスクフローステップが動作のために選択される(310)。例としては、内容を音声によって修正及び確認するステップが挙げられる。更に、ハンズフリーコンテキストでは、アシスタント1002は、ハンズフリーコンテキストになければディスプレイ画面に提示される結果のリストを読み上げることができる。音声コマンドを、リストの個々のアイテムとインタラクトするために与えることができる。例えば、複数の着信テキストメッセージがユーザに提示される場合で、ハンズフリーコンテキストが検出された場合では、特定されるタスクフローステップには、各テキストメッセージを個々に読み上げること、及びユーザが音声コマンドを与えることができるように各メッセージの後にポーズすることが含まれる。
一実施形態では、タスクフローはハンズフリーコンテキスト用に改変することができる。例えば、メモアプリケーションにおいてメモを取るためのタスクフローは、通常、内容について促し、これを直ちにメモに追加することを含みうる。このような動作は、内容が直ちに視覚的インターフェースに示され、直ぐに直接的操作による改変を行うことができるようなハンズオン環境では適当でありうる。しかしながら、ハンズフリーコンテキストが検出された場合、タスクフローは、例えば、内容を音声で修正し、内容がメモに追加される前に内容を改変することができるように改変することができる。これにより、ユーザが音声ディクテーションの間違いを永続的な文書に保存される前に見つけることができる。
一実施形態では、ハンズフリーコンテキストを、所与の時間において可能なタスクを限定するために用いることもできる。例えば、ユーザの機器がハンズフリーコンテキスト、又は車の運転中などの特定のハンズフリーコンテキストにある場合にビデオの再生ができないようなポリシーを実施することができる。
一実施形態では、アシスタント1002は、ハンズフリーコンテキストにおいてのみ適用可能な会話及び/又はタスクのドメイン全体を利用可能とすることができる。例としては、視力が制限されているか又は手の使用が制限されている人用に設計されたものなどのアクセシビリティーモードが挙げられる。これらのアクセシビリティーモードには、例えば、「ボタンを押す」又は「スクロールアップ」などのコマンドを認識するため、所与のアプリケーションプラットフォーム上で任意のGUIを動作させるためのハンズフリー代替手段として実施されるコマンドが挙げられる。ハンズフリーモードにおいてのみ適用可能とすることができる他のタスクとしては、「車のブルートゥースキットを使う」又は「[テキスト・トゥ・スピーチ出力]遅くする」などのハンズフリーエクスペリエンス自体に関連したタスクが挙げられる。
ダイアログ生成500のハンズフリーコンテキストへの適合
様々な実施形態において、多くの技術の任意のものを、ハンズフリーコンテキストに適合するようにダイアログ生成500を改変するために使用することができる。
ハンズオンインターフェースでは、アシスタント1002のユーザ入力の解釈を書かれたものとしてエコーさせることができるが、このようなフィードバックは、ハンズフリーコンテキストにある場合にはユーザに見えない場合がある。このため、一実施形態では、ハンズフリーコンテキストが検出された場合、アシスタント1002は、テキスト・トゥ・スピーチ(TTS)技術を利用してユーザの入力を言い換える。このような言い換えは選択的であってもよく、例えば、テキストメッセージを送信する前に、アシスタント1002は、ユーザがディスプレイ画面を見ることができない場合にもテキストメッセージの内容を確認することができるようにテキストメッセージを発語することができる。
ユーザの発語をいつ言い換えるか、発語のどの部分を言い換えるかに関する決定は、タスク限定的及び/又はフロー限定的ダイアログによって駆動することができる。例えば、「新しいメッセージを読む」などのユーザの音声コマンドに応じて、一実施形態では、アシスタント1002の応答(メッセージを読み上げている)より、コマンドが理解されたことが明らかであるため、アシスタント1002はコマンドの言い換えをしない。しかしながら、ユーザの入力がステップ100において認識されないか又はステップ200において理解されない場合などの他の状況では、アシスタント1002はユーザになぜ入力が理解されなかったかを知らせるためにユーザの音声入力の言い換えを行うことができる。例えば、アシスタント1002は、「『reel my newt massage』がわかりません。もう一度お願いします」と言うことができる。
一実施形態では、情報の音声による言い換えでは、ダイアログテンプレートを機器上の個人データと組み合わせることができる。例えば、テキストメッセージを読み上げる場合、一実施形態では、アシスタント1002は音声出力テンプレートを、「$(人名)からの新しいメッセージがあります。$(メッセージ)と言っています」のフォームの変数と共に使用する。テンプレート内の変数をユーザデータで置き換えてから機器60上で動作するプロセスにより発語に変換することができる。本発明がクライアント/サーバー環境で実施されるような一実施形態では、このような技術は、個人データは機器60上に残り、サーバーから出力テンプレートを受信する際に埋めることができることから、出力のパーソナライゼーションを可能とする一方でユーザのプライバシーを保護する助けとなりうる。
一実施形態では、ハンズフリーが検出された場合、ハンズフリーコンテキストに具体的に適合された、異なる及び/又は更なるダイアログユニットを、音声チャンネルを使用して提示するために選択することができる(510)。どのダイアログユニットを選択するかを決定するためのコード又は規則は、ハンズフリーコンテキストの詳細によって影響されうる。このようにして、一般的なダイアログ生成要素を、異なるハンズフリー状況に対して別々のユーザエクスペリエンスを必ずしも構築することなく、様々なハンズフリーバリエーションをサポートするように適合及び拡張することができる。
一実施形態では、テキスト及びGUI出力ユニットを生成する同じ機構を、音声(発語)出力モダリティに適合されたテキストによりアノテーションをつけることができる。例えば、
●一実施形態では、ダイアログ生成要素は、TTSを使用して、書かれたダイアログ応答のすべてを読み上げることによりハンズフリーコンテキストに適合させることができる。
●一実施形態では、ダイアログ生成要素は、書かれたダイアログ応答の一部を、TTS上で逐語的に読み上げ、他のダイアログ応答ではTTSの変形を使用することにより、ハンズフリーコンテキストに適合させることができる。
●一実施形態では、このようなアノテーションは、ユーザデータをダイアログ生成から分離する可変置換テンプレート機構に対応する。
●一実施形態では、グラフィカルユーザインターフェース要素に、それらがTTS上でどのように音声で言い換えられるべきかを示したテキストによってアノテーションをつけることができる。
●一実施形態では、TTSテキストは、音声でなければ句読法又は視覚的レンダリングで伝えられるものを音声で伝えるために声、話す速さ、ピッチ、途切れ、及び/又は他のパラメータが使用されるように調整することができる。例えば、ユーザの言葉を繰り返す場合に使用される声は、他のダイアログユニットで使用されるものとは異なる声としてもよく、又は異なる韻律を使用してもよい。別の例として、声及び/又は韻律は、内容又は命令が発語されているか否かに応じて異なりうる。別の例として、理解を助けるために異なる意味を有するテキストの部分間にポーズを挿入することもできる。例えば、メッセージの言い換えを行い、確認を求める場合、「あなたのメッセージは...です」という内容のパラフレーズと、「送信の準備はできましたか?」という確認のプロンプトとの間にポーズを挿入することができる。
一実施形態では、非ハンズフリーコンテキストを、ハンズフリーコンテキストについて上記に述べたようなTTSを使用する同様の機構を使用して拡張することができる。例えば、ダイアログは、書かれたテキスト及びGUI要素以外に音声のみのプロンプトを生成することができる。例えば、特定の状況では、アシスタント1002は、音声で「送信しますか?」と発語することにより、画面上の送信ボタンの表示を補助することができる。一実施形態では、ハンズフリー及び非ハンズフリーコンテキストで使用されるTTS出力は、それぞれの場合に適合させることができる。例えば、アシスタント1002は、ハンズフリーコンテキストにある場合により長いポーズを用いることができる。
一実施形態では、ハンズフリーコンテキストの検出は、ユーザに応答を自動的に促すか否か、及びいつ促すかを決定するために使用することもできる。例えば、アシスタント1002とユーザとの間のインタラクションが自然に同期しており、一方が発話している間、他方が聞いているような場合、アシスタント1002が話した後でユーザからの音声入力の聞き取りをアシスタント1002が自動的に開始するべきか否か、及びいつ開始するべきかについて設計の選択を行うことができる。ハンズフリーコンテキストの詳細を使用して、このようなダイアログの自動開始聞き取り特性に関する様々なポリシーを実施することができる。例としては、これらに限定されるものではないが、以下が挙げられる。すなわち、
●常に自動開始聞き取りを行う。
●ハンズフリーコンテキストにある場合にのみ自動開始聞き取りを行う。
●特定のタスクフローステップ及びダイアログ状態においてのみ自動開始聞き取りを行う。
●ハンズフリーコンテキストにおいて特定のタスクフローステップ及びダイアログ状態においてのみ自動開始聞き取りを行う。
他の実施形態では、ハンズフリーコンテキストの検出は、例えば、以下のようなダイアログの他のパラメータに関する選択にも影響を及ぼしうる。すなわち、
●ユーザに与える選択肢のリストの長さ、
●リストを読み上げるべきか否か、
●単一又は複数の答えのある質問を尋ねるべきか否か、
●直接的操作のインターフェースを使用してのみ与えることのできるデータを促すべきか否か。
したがって、様々な実施形態において、ハンズフリーコンテキストは、検出された場合、マルチモーダルバーチャルアシスタント1002などの複雑なシステムの様々な処理ステップを適合させるために使用することが可能なシステム側のパラメータである。本明細書に述べられる様々な方法は、同じ基礎となるシステムからの幅広いユーザエクスペリエンスをサポートするように、ハンズフリーコンテキストにおけるアシスタント1002の一般的な手順を適合させるための方法を与えるものである。
コンテキストを収集、通信、表現し、これにアクセスするための様々な機構について、その開示内容の全体を参照により本明細書に援用するところの2011年9月30日出願の発明の名称が「Using Context information to Facilitate Processing of Commands in a virtual asistant」である関連する米国実用特許出願第13/250,854号に述べられている。こうした技術はハンズフリーコンテキストにも同様に適用可能である点は、当業者であれば認識されるところであろう。
使用事例
以下の使用事例は、ハンズフリーコンテキストにおけるアシスタント1002の動作の例として与えられるものである。これらの使用事例は例示的なものであり、あくまで説明の目的で示されるものに過ぎない点は当業者であれば認識されるところであろう。
電話の使用事例
一実施形態では、ハンズフリーコンテキストにある場合、アシスタント1002は、ユーザが電話をかける相手を指定することができる場合に機器をタップするか又は他の方法で触れることなくユーザが誰にでも電話をかけられるようにする。例としては、連絡先で電話をかける、電話番号で電話をかける(ユーザが数字を読み上げる)、などが挙げられる。曖昧性は更なる音声プロンプトによって解消することができる。以下に実施例を示す。
実施例1:連絡先に電話する。曖昧性なし。
●ユーザの音声入力:「アダム・スミスに電話する」
●アシスタント1002の音声出力:「アダム・スミスに電話します、モバイル」
●電話がかけられる。
以下の使用事例のすべてにおいて、同様のインタラクションが行われる。すなわち、
●名前による電話連絡(「アダム・スミスに電話する」)
●名前による電話連絡、デフォルトではない電話番号(「アダム・スミスのモバイルに電話する」)
●電話番号でかける(800 555 1212にかける)。
●関係エイリアスによる電話連絡(「母に電話する」)
●位置エイリアスによる電話連絡(「家に電話する」)
●FaceTimeでかける(「アダム・スミスにフェースタイムする」)。
●コンテキストからかけなおす(「かけなおす」)。
実施例2:電話発信の取り消し
●ユーザの音声入力:「アダム・スミスに電話する」
●アシスタント1002の音声出力:「アダム・スミスに電話します、モバイル」
●ユーザが間違った人にかけたことに気付き、ホームボタンを1回押すか又は「ストップ」と言う。
●発信が取り消しされる。
実施例3:名前でかける。曖昧性あり。
●ユーザの音声入力:「アダムに電話する」
●アシスタント1002の音声出力:「アダム<声の変化>で複数の名前が見つかりました」
●アシスタント1002の視覚的出力:「アダム<声の変化>で複数の名前が見つかりました」
●アシスタント1002の音声出力:「名前を読んでください」
●アシスタント1002の視覚的出力:
曖昧さ回避メニュー
アダム・チェヤー 自宅
アダム・サンドラー 自宅
アダム・スミス モバイル
●ユーザの音声入力:「アダム・チェヤー」
●アシスタント1002の音声出力:「アダム・チェヤーに電話します」
●電話がかけられる。
実施例4:名前でかける。2重の曖昧性。
●ユーザの音声入力:「ポールに電話する」
●アシスタント1002の音声出力:「ポール<声の変化>で複数の名前が見つかりました」
●アシスタント1002の視覚的出力:「ポール<声の変化>で複数の名前が見つかりました」
●アシスタント1002の音声出力:「名前を読んでください」
●アシスタント1002の視覚的出力:
曖昧さ回避メニュー
ポール・ホールデン 自宅
ポール・マルコス アイフォン
ポール・マルコス モバイル
ポール・マルコス 自宅
パブロ・ピカソ 自宅
●ユーザの音声入力:「ポール・マルコス」
●アシスタント1002の音声出力:「ポール・マルコスのどの番号ですか:アイフォン、モバイル、自宅?」
●アシスタント1002の視覚的出力:「ポール・マルコスのどの番号ですか?」
●アシスタント1002の視覚的出力:
曖昧さ回避メニュー
ポール・マルコス アイフォン
ポール・マルコス モバイル
ポール・マルコス 自宅
●ユーザの音声入力:「モバイル」
●アシスタント1002の音声出力:「ポール・マルコスに電話します。<ポーズ>モバイル」
●電話がかけられる。
実施例5:名前で会社にかける。曖昧さなし。
●ユーザの音声入力:「サンフランシスコのソニー・メトレオンに電話する」
●アシスタント1002の音声出力:「AMCローズ・メトレオン16を4番街に見つけました」
●アシスタント1002の視覚的出力:「AMCローズ・メトレオン16を4番街に見つけました」
●アシスタント1002の視覚的出力:
ローカル検索スニペット
AMCローズ・メトレオン16
サンフランシスコ市、4番街101号
(888)262〜4386
<取り消しボタン><発信ボタン>
●アシスタント1002の音声出力:「電話しますか?」
●ユーザの音声入力:「電話する」
●アシスタント1002の音声出力:「AMCローズ・メトレオン16に電話します」
●電話がかけられる。
実施例6:名前で会社にかける。複数の一致。
●ユーザの音声入力:「ウォルグリーンズに電話する」
●アシスタント1002の音声出力:「ウォルグリーンズ<声の変化>で複数の一致が見つかりました」
●アシスタント1002の視覚的出力:「ウォルグリーンズ<声の変化>で複数の一致が見つかりました」
●アシスタント1002の視覚的出力:
ローカル検索スニペットのリスト
ウォルグリーンズ・ストアロスガトス
ロスガトス、サンタクルーズアベニュー、423N
ウォルグリーンズ
カリフォルニア州、キャンベル、キャンベルアベニュー、1570
ウォルグリーンズ
カリフォルニア州、クパチーノ、ボリンジャーロード、20011
ウォルグリーンズ
カリフォルニア州、サンホセ、サラトガアベニュー、1334
ウォルグリーンズ
カリフォルニア州、サンホセ、ユニオンアベニュー、2680
●アシスタント1002の音声出力:「読み上げますか?」
●ユーザの音声入力:「はい」
●アシスタント1002の音声出力:「ウォルグリーンズ・ストアロスガトス店、ロスガトス、ノースサンタクルーズアベニュー423<ポーズ>2.ウォルグリーンズ、キャンベル、キャンベルアベニュー、1570<ポーズ>3....」
●ユーザの音声入力:「クパチーノの会社」
●アシスタント1002の音声出力:「クパチーノのウォルグリーンズにかけます」
●電話がかけられる。
実施例6:車内で予定された電話をかける。
●ユーザが家に向かって運転を始める。
●アシスタント1002が車内リマインダのトーンを鳴らす。
●アシスタント1002の視覚的出力:
リマインダアラート
アダム・スミスに電話してください
<閉じるボタン><発信ボタン>
●ユーザの音声入力:「読み上げる」
●アシスタント1002の音声出力:「アダム・スミスに電話してくださいというリマインダがあります」
●ユーザの音声入力:「すぐに電話する」
●アシスタント1002の音声出力:「アダム・スミスに電話します、モバイル」
●電話がかけられる。
実施例7:新しいボイスメールを再生する。
●ユーザの音声入力:「ボイスメールを再生する」
●アシスタント1002の音声出力:「新しいボイスメールメッセージが3通あります」
●アシスタント1002がプロンプトとともにボイスメールを一度に再生する。
SMSテキストメッセージングの使用事例
実施例8:単一のテキストメッセージアラートを読み上げる。
●アシスタント1002の音声出力:1又は複数のアラートを読み上げるか、又はテキストメッセージの着信を示す音を生成する。
●アシスタント1002の視覚的出力:
テキストメッセージ
メアリー・リチャーズ
今晩食事でもいかがですか?
<閉じるボタン><返信ボタン>
●ユーザの音声入力:「読み上げる」
●アシスタント1002の音声出力:「メアリー・リチャーズからのメッセージです。<声の変化>今晩食事でもいかがですか?」
実施例9:テキストメッセージに返信する(実施例8の続き)。
●ユーザの音声入力:「返信する。<ポーズ>いいね、8時でどう?」
●アシスタント1002の音声出力:「いいね、8時でどう?<声の変化>のメッセージでメアリー・リチャーズに返信する準備ができました」
●アシスタント1002の視覚的出力:
宛先:メアリー・リチャーズ
いいね、8時でどう?
<取り消しボタン><送信ボタン>
●ユーザの音声入力:「送信する」
●アシスタント1002の音声出力:「送信中」又はテキストメッセージの送信音を生成する。
実施例10:1人の受信者にテキストメッセージを送信する。
●ユーザの音声入力:「15分遅れますとリサに伝える」
●アシスタント1002の音声出力:「15分遅れます<声の変化>というメッセージでリサ・ゴンザレスにテキストを送信する準備ができました」
●アシスタント1002の視覚的出力:
テキストメッセージ
宛先:リサ・ゴンザレス
15分遅れます
<取り消しボタン><送信ボタン>
●ユーザの音声入力:「送信する」
●アシスタント1002の音声出力:「送信中」又はテキストメッセージの送信音を生成する。
実施例11:1人の受信者にテキストメッセージを送信する。曖昧性あり。
●ユーザの音声入力:「会議はどこで?というメッセージをアダムに送信する」
●アシスタント1002の音声出力:「アダム<声の変化>で複数の名前が見つかりました」
●アシスタント1002の音声出力:「名前を読んでください」
●アシスタント1002の視覚的出力:
曖昧さ回避メニュー
アダム・チェヤー 自宅
アダム・サンドラー 自宅
アダム・スミス モバイル
●ユーザの音声入力:「アダム・チェヤー」
●アシスタント1002の音声出力:「アダム・チェヤー」
●アシスタント1002の視覚的出力:
テキストメッセージ
宛先:アダム・チェヤー
会議はどこで?
<取り消しボタン><送信ボタン>
●アシスタント1002の音声出力:「会議はどこで?<声の変化>というメッセージでアダム・チェヤーにテキストを送信する準備ができました」
●ユーザの音声入力:「送信する」
●アシスタント1002の音声出力:「送信中」又はテキストメッセージの送信音を生成する。
実施例12:メッセージappからのSMSメッセージを読む。
●アシスタント1002の視覚的出力:
テキストメッセージ
ベティー・ジョー・ビアロウスキー
ナンシーでいいわよ
<閉じるボタン><返信ボタン>
●ユーザの音声入力:「読み上げる」
●アシスタント1002の音声出力:「ナンシーでいいわよ<声の変化>というベティー・ジョー・ビアロウスキーからのメッセージがあります」
実施例13:メッセージAppのコンテキストで返信する(実施例12からの続き)。
●ユーザの音声入力:「こんにちは、ナンシー<ポーズ>と返信する」
●アシスタント1002の音声出力:「こんにちは、ナンシー<声の変化>というメッセージでベティー・ジョー・ビアロウスキーに返信する準備ができました」
●アシスタント1002の視覚的出力:
宛先:ベティー・ジョー・ビアロウスキー
こんにちは、ナンシー
<取り消しボタン><送信ボタン>
●ユーザの音声入力:「送信する」
●アシスタント1002の音声出力:「送信中」又はテキストメッセージの送信音を生成する。
実施例14:すべての未読のSMSメッセージを読む。
●アシスタント1002の視覚的出力:
メラニー・ヘイバー(1)
ベティー・ジョー・ビアロウスキー(3)
オードリー・ファーバー(1)
●ユーザの音声入力:「新しいメッセージを読む」
●アシスタント1002の音声出力:「4通の新しいメッセージがあります。メラニー・ヘイバーから<声の変化>夕食でもいかが?<ポーズ>ベティー・ジョー・ビアロウスキーから2通のメッセージがあります<ポーズ>1.<声の変化>私の名前はマクギルよ。
<ポーズ>2.<声の変化>自分ではリルと呼んでるの。<ポーズ>3.<声の変化>ナンシーでいいわよ」
実施例15:メッセージAppのコンテキストを名前で返信する。
●ユーザの音声入力:「15分遅れますとオードリーに伝える」
●アシスタント1002の音声出力:「15分遅れます<声の変化>というメッセージでオードリー・ファーバーにテキストを送信する準備ができました」
●アシスタント1002の視覚的出力:
テキストメッセージ
宛先:オードリー・ファーバー
15分遅れます
<取り消しボタン><送信ボタン>
●アシスタント1002の音声出力:「送信しますか?」
●ユーザの音声入力:「はい」
●アシスタント1002の音声出力:「送信中」又はテキストメッセージの送信音を生成する。
実施例16:複数の受信者にテキストメッセージを送信する。
一実施形態では、このタスクはハンズフリーコンテキストの範囲の外にあるものとされる。したがって、アシスタント1002は曖昧さ回避のためのタップ動作に戻る。
●ユーザの音声入力:「我々の重要な会議に15分遅れますとリサ、ポール、ナンシーに伝える」
●アシスタント1002の音声出力:「これらの人から選択してください」
●アシスタント1002の視覚的出力:複数の受信者を選択するためのGUI
●ユーザがGUIにより受信者を選択する。
●アシスタント1002の音声出力:「我々の重要な会議に15分遅れます<声の変化>というメッセージでリサ・ゴンザレス、ポール・マルコス、オードリー・ファーバーにテキストを送信する準備ができました」
●アシスタント1002の視覚的出力:
テキストメッセージ
宛先:リサ・ゴンザレス、ポール・マルコス、オードリー・ファーバー
我々の重要な会議に15分遅れます
<取り消しボタン><送信ボタン>
●ユーザの音声入力:「送信する」
●アシスタント1002の音声出力:「送信中」又はテキストメッセージの送信音を生成する。
アラート&リマインダの使用事例
実施例17:単一のリマインダアラートを読む。
●アシスタント1002がリマインダトーンを鳴らす。
●アシスタント1002の視覚的出力:
リマインダ
メアリー・リチャーズに電話してください
<閉じるボタン><発信ボタン>
●ユーザの音声入力:「読み上げる」
●アシスタント1002の音声出力:「メアリー・リチャーズに電話してくださいという確認です」
実施例18:リマインダアラートを実行する(実施例17からの続き)。
●ユーザの音声入力:「メアリーにかける」
●アシスタント1002の音声出力:「メアリー・リチャーズに電話します、モバイル」
●電話がかけられる。
実施例19:アラート付きの新しいリマインダを作成する。
●ユーザの音声入力:「午後5時にボブ・ジョーンズに電話するようにリマインドする」
●アシスタント1002の音声出力:「確認してください。今日午後5時に<声の変化>ボブ・ジョーンズに電話してください、とリマインドします」
●アシスタント1002の視覚的出力:
リマインダを確認してください
ボブ・ジョーンズに電話する(
確認時刻:今日、午後5時
<取り消し><保存>
●ポーズ
●アシスタント1002の音声出力:「これでよいですか」
●ユーザの音声入力:「はい。保存する」
●アシスタント1002の音声出力:「リマインダが保存されました」
実施例20:アラートPIのない新しいリマインダを作成する。
●ユーザの音声入力:「パンを買うようにリマインドする」又は「忘れずにパンを買う」
●アシスタント1002の音声出力:「確認してください。忘れずにパンを買う」
●アシスタント1002の視覚的出力:
リマインダを確認してください
パンを買う
<取り消し><保存>
●ポーズ
●アシスタント1002の音声出力:「これでよいですか?」
●ユーザの音声入力:「よし」
●アシスタント1002の音声出力:「ToDoリストに追加しました」
カレンダーの使用事例
実施例21:単純なアポイントメントを作成する(説明及び日付/時間が与えられている場合)。
●ユーザの音声入力:「明日2時に会社のピクニックの計画を立てる会議の予定を入れる」
●アシスタント1002の音声出力:「明日午後2時でカレンダーに書き込みました」
●アシスタント1002の視覚的出力:
説明:会社のピクニックを計画する
いつ:明日午後2時
実施例22:単純なアポイントメントを作成する(説明が与えられていない場合)。
●ユーザの音声入力:「明日2に時にキャロルと会う」
●アシスタント1002の音声出力:「明日午後2時でカレンダーに書き込みました」
●アシスタント1002の視覚的出力:
説明:待ち合わせ
いつ:明日午後2時
実施例23:単純なアポイントメントを作成する(時間が与えられていない場合)。
●ユーザの音声入力:「次の木曜日に歯医者の予約」
●アシスタント1002の音声出力:「次の木曜日の何時ですか」
●ユーザの音声入力:「3時」
●アシスタント1002の音声出力:「次の木曜日の午後3時でカレンダーに書き込みました」
●アシスタント1002の視覚的出力:
説明:歯医者の予約
いつ:次の木曜日、午後3時
実施例24:単純なアポイントメントを作成する(日付も時間も与えられていない場合)。
●ユーザの音声入力:「会社のピクニックの計画を立てる会議の予定を入れる」
●アシスタント1002の音声出力:「会議はいつにしますか?」
●アシスタント1002の視覚的出力:編集可能なアポイントメントフォーム
●ユーザの音声入力:「火曜日の3時」
●アシスタント1002の音声出力:「火曜日の午後3時でカレンダーに書き込みました」
●アシスタント1002の視覚的出力:
説明:会社のピクニックを計画するための打ち合わせ
いつ:火曜日、午後3時
上記に述べた実施例はあくまで特定の状況におけるハンズフリーコンテキストの使用を説明するためのものに過ぎない点は当業者であれば認識されるところであろう。更なる使用例としては、例えば、地図、音楽などの再生メディアなどが挙げられる。
以上、本発明を可能な実施形態に関して特に詳細に述べた。本発明は他の実施形態でも実施可能である点は当業者であれば認識されるところであろう。第一に、要素の特定の名称、用語の大文字の使用、属性、データ構造、又は他の任意のプログラミング若しくは構造的な態様は必須でも重要でもなく、本発明又はその特徴を実施する機構は、異なる名称、フォーマット又はプロトコルを有しうるものである。更に、システムは、上述したようにハードウェア及びソフトウェアの組み合わせによって実施されてもよく、その全体がハードウェア要素で実施されてもよく、又はその全体がソフトウェア要素で実施されてもよい。また、本明細書に述べられる様々なシステムの要素間における機能の特定の分割はあくまで例示的なものであって必須のものではない。単一のシステム要素により実行される機能は、代わりに複数の要素により実行される場合もあり、複数の要素により実行される機能は、代わりに単一の要素により実行される場合もある。
様々な実施形態において、本発明は、上記に述べた技術を単独で又は任意の組み合わせとして実行するためのシステム又は方法として実施することが可能である。別の実施形態では、本発明は、永続的なコンピュータ可読記憶媒体と、コンピューティング機器又は他の電子機器のプロセッサに上述の技術を実行させるための、上記媒体上でコード化されたコンピュータプログラムコードとを含むコンピュータプログラムとして実施することができる。
本明細書において「一実施形態」又は「実施形態」と言う場合、その実施形態と関連して述べられる特定の機能、構造又は特徴が、本発明の少なくとも1つの実施形態に含まれていることを意味する。本明細書の様々な箇所で「一実施形態において」という語句が見られる場合、必ずしもすべてが同じ実施形態のことを指しているわけではない。
上記の一部は、コンピューティング機器のメモリ内のデータビット上での動作のアルゴリズム及び記号表現に関して示される。これらのアルゴリズムの説明及び表現は、データ処理分野の当業者の研究の本質を他の当業者に最も効果的に伝えるために当業者によって使用される手段である。アルゴリズムとは、本明細書において、また一般的に、所望の結果をもたらす自己矛盾のないステップ(命令)のシークエンスと考えられる。これらのステップは、物理量の物理的操作を必要とするものである。通常、必ずしもではないが、これらの量は記憶、移動、組み合わせ、比較及び他の何らかの方法で操作することが可能である電気信号、磁気信号又は光信号の形態をとる。主として一般的な使用の理由から、これらの信号は、ビット、値、要素、記号、文字、用語、数字などと呼ぶことがしばしば都合がよい。更に、物理量の物理的操作を必要とするステップの特定の配列を、一般性を失うことなくモジュール又はコード機器と呼ぶこともしばしば都合がよい。
しかしながら、これら及び同様の用語はすべて、適切な物理量と関連付けられるべきものであり、これらの量に適用される便宜的な標識にすぎない点は心に留めおくべきである。特に断りのない限り、以下の考察から明らかであるように、説明文の全体を通じて、「処理する」又は「計算する」又は「算出する」又は「表示する」、又は「判定する」、又はこれらに類する用語を用いた考察は、コンピュータシステムメモリ若しくはレジスタ、又は他のこうした情報記憶、伝達又は表示装置内で物理的(電子的)量として表されるデータを操作及び変換するコンピュータシステム、又は同様の電子コンピューティングモジュール及び/又は機器の動作及びプロセスを指すものであることが認識される。
本発明の特定の態様は、本明細書に述べられる処理ステップ及び命令をアルゴリズムの形態で含む。本発明の処理ステップ及び命令は、ソフトウェア、ファームウェア及び/又はハードウェアとして具体化されうるものであり、ソフトウェアとして具体化される場合には、様々なオペレーティングシステムによって使用される異なるプラットフォーム上に存在し、そこから操作されるようにダウンロードすることができる点に留意されたい。
本発明は、本明細書において動作を実行するための装置にも関する。この装置は、必要な目的のために特別に構築されてもよく、又はコンピューティング機器に記憶されたコンピュータプログラムにより選択的に作動されるか若しくは再構成される汎用コンピューティング機器からなるものでもよい。このようなコンピュータプログラムは、これらに限定されるものではないが、フロッピーディスク、光ディスク、CD−ROM、光磁気ディスク、読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気若しくは光カード、特定用途向け集積回路(ASIC)、又は電子的命令を記憶するのに適当であり、それぞれがコンピュータシステムバスに結合される任意の種類の媒体を含む任意の種類のディスクなどのコンピュータ可読記憶媒体に記憶することができる。更に、本明細書において参照されるコンピューティング機器は、単一のプロセッサを含んでもよく、又は計算機能を向上させるために複数プロセッサの設計を用いたアーキテクチャであってもよい。
本明細書に示されるアルゴリズム及びディスプレイは、いずれの特定のコンピューティング機器、仮想化システム又は他の装置にも本質的には関連しない。様々な汎用システムを本明細書の教示に基づいてプログラムとともに使用することも可能であり、又は必要な方法ステップを実行するために更に特化した装置を構築することが都合よい場合もありうる。様々なこれらのシステムに求められる構造は、本明細書に示される説明より明らかとなるであろう。更に本発明は、いずれの特定のプログラミング言語に関連しても述べられていない。様々なプログラミング言語を使用して本明細書に述べられるような本発明の教示を実施することが可能であり、上記における特定の言語に対するいずれの言及も、本発明の実現化及び最良の形態を開示する目的で与えられたものである点は認識されるであろう。
したがって、様々な実施形態において、本発明は、ソフトウェア、ハードウェア及び/若しくはコンピュータシステム、コンピューティング機器、又は他の電子機器を制御する他の要素、又はそれらの任意の組み合わせ若しくはそれらの複数のものとして実施することが可能である。このような電子機器には、当該技術分野では周知の技術に従う、例えば、プロセッサ、入力装置(キーボード、マウス、タッチパッド、トラックパッド、ジョイスティック、トラックボール、マイクロフォン及び/又はこれらの任意の組み合わせなど)、出力装置(画面、スピーカなど)、メモリ、長期記憶装置(磁気記憶装置、光学記憶装置など)、及び/又はネットワーク接続が含まれうる。こうした電子機器は、携帯型であっても非携帯型であってもよい。本発明を実施するために使用することが可能な電子機器の例としては、モバイル電話、携帯情報端末、スマートフォン、キオスク、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、家庭用電子機器、家庭用娯楽機器、音楽プレーヤ、カメラ、テレビ、セットトップボックス又は電子ゲーム機などが挙げられる。本発明を実施するための電子機器では、例えば、California州Cupertino所在のApple Inc.より入手可能なiOS又はMacOS、又は機器上での使用に適合された他の任意のオペレーティングシステムなどの任意のオペレーティングシステムを使用することができる。
以上、本発明を限られた数の実施形態に関して説明したが、当業者であれば、上記の説明文を利用することで、本明細書に述べられる本発明の範囲から逸脱しない他の実施形態も考案することが可能である点は認識されるであろう。更に、本明細書において使用される文言は、専ら読みやすさ及び説明の目的で選択されたものであり、本発明の主題を限定又は制限するために選択されたものではない点には留意されたい。したがって、本発明の開示は、特許請求の範囲に記載される本発明の範囲を例示することを目的としたものであって、その限定を目的としたものではない。

Claims (23)

  1. 少なくとも1つのプロセッサを有するコンピューティング機器上でユーザインタフェースを適応させるためのコンピュータにより実行される方法であって、
    前記コンピューティング機器において複数のステップを実行することを含み、前記複数のステップは、
    記コンピューティング機器の状態に少なくとも一部基づいて、ハンズフリーコンテキストが有効であるか否かを検出するステップと、
    ーザに入力を促すステップと、
    自然言語情報を含むユーザ入力を受け取るステップと、
    記受け取られたユーザ入力を解釈してユーザ意図の表現を導出するステップであって、前記受け取られたユーザ入力を解釈することは、
    前記受け取られたユーザ入力に基づいて複数の候補解釈を生成することと、
    前記複数の候補解釈に基づいて前記ユーザ意図の前記表現を判定することと、
    を含む、ステップと、
    記導出されたユーザ意図の表現に少なくとも一部基づいて少なくとも1つのタスク及び前記タスクの少なくとも1つのパラメータを特定するステップと、
    記少なくとも1つのパラメータを使用して前記少なくとも1つのタスクを実行して結果を導出するステップと、
    記導出された結果に基づいてダイアログ応答を生成するステップと、
    記生成されたダイアログ応答の音声出力を提供するステップと、を含み、
    前記機器がハンズフリーコンテキストにあることの検出に応じて、前記ユーザインタフェースは、前記ハンズフリーコンテキストが非有効な場合に表示されるユーザインタラクションメカニズムのサブセットを表示するように適応され、前記サブセットは少なくとも1つのユーザインタラクションメカニズムを含む、方法。
  2. 前記コンピューティング機器とのユーザインタラクションに少なくとも2つのインタラクションモードが利用可能であり、
    前記機器がハンズフリーコンテキストにあることの検出に応じて、前記ユーザに入力を促す前記ステップ、前記ユーザ入力を受け取る前記ステップ、前記受け取られたユーザ入力を解釈する前記ステップ、前記少なくとも1つのタスク及び前記タスクの前記少なくとも1つのパラメータを特定する前記ステップ、及び前記ダイアログ応答を生成する前記ステップのうちの少なくとも1つが、ハンズフリー動作に適合された第1のインタラクションモードを使用して実行され、
    前記機器がハンズフリーコンテキストにないことの検出に応じて、前記ユーザに入力を促す前記ステップ、前記ユーザ入力を受け取る前記ステップ、前記受け取られたユーザ入力を解釈する前記ステップ、前記少なくとも1つのタスク及び前記タスクの少なくとも1つのパラメータを特定する前記ステップ、及び前記ダイアログ応答を生成する前記ステップのうちの少なくとも1つが、ハンズフリー動作に適合されていない第2のインタラクションモードを使用して実行される、請求項1に記載の方法。
  3. ハンズフリーコンテキストが有効であるか否かを検出するステップが、
    前記コンピューティング機器により提示される視覚的出力をユーザが見ることができることと、
    前記コンピューティング機器により提示されるグラフィカルユーザインターフェースとユーザがインタラクトできることと、
    前記コンピューティング機器の物理的構成要素をユーザが使用することができることと、
    前記コンピューティング機器上でタッチ入力をユーザが行うことができることと、
    前記コンピューティング機器上のスイッチをユーザが作動できることと、
    前記コンピューティング機器上のキーボードをユーザが使用できることと、のうちの少なくとも1つにおける制約を示す条件を検出することを含む、請求項1又は2に記載の方法。
  4. 前記ユーザに入力を促すステップが、
    前記機器がハンズフリーコンテキストにないことの検出に応じて、前記ハンズフリーコンテキストに適合されていない第1の出力モードにより前記ユーザを促すステップと、
    前記機器がハンズフリーコンテキストにあることの検出に応じて、前記ハンズフリーコンテキストに適合された第2の出力モードにより前記ユーザを促すステップと、を含む、請求項1〜3のいずれかに記載の方法。
  5. 前記第1の出力モードにより前記ユーザを促すステップが、視覚的出力モードにより前記ユーザを促すステップを含み、
    前記第2の出力モードにより前記ユーザを促すステップが、聴覚的出力モードにより前記ユーザを促すステップを含む、請求項4に記載の方法。
  6. 前記視覚的出力モードにより前記ユーザを促すステップが、ディスプレイ画面にプロンプトを表示するステップを含み、
    前記聴覚的出力モードにより前記ユーザを促すステップが、音声プロンプトを出力するステップを含む、請求項5に記載の方法。
  7. 前記受け取られたユーザ入力を解釈するステップが、
    前記機器がハンズフリーコンテキストにあることの検出に応じて、ハンズフリー動作に関連付けられた語彙を使用して前記受け取られたユーザ入力を解釈するステップを含む、請求項1〜6のいずれかに記載の方法。
  8. 少なくとも1つのタスク及び前記タスクの少なくとも1つのパラメータを特定するステップが、前記機器がハンズフリーコンテキストにあることの検出に応じて、ハンズフリー動作に関連付けられた少なくとも1つのタスクフロー特定ステップを実行することを含む、請求項1〜7のいずれかに記載の方法。
  9. ハンズフリー動作に関連付けられた少なくとも1つのタスクフロー特定ステップを実行することが、音声によるインターフェースにより入力された内容をレビュー及び確認するように前記ユーザに促すステップを含む、請求項8に記載の方法。
  10. ハンズフリー動作に関連付けられた少なくとも1つのタスクフロー特定ステップを実行することが、聴覚的出力を用いて少なくとも1つのタスクフローステップを実行することを含む、請求項8又は9に記載の方法。
  11. ハンズフリー動作に関連付けられた少なくとも1つのタスクフロー特定ステップを実行することが、前記ハンズフリーコンテキストのために構成された、限定された使用可能なタスクフローステップ群から選択される少なくとも1つのタスクフローステップを実行することを含む、請求項8〜10のいずれかに記載の方法。
  12. ダイアログ応答を生成するステップが、前記機器がハンズフリーコンテキストにあることの検出に応じて、音声による出力モードでダイアログ応答を生成するステップを含む、請求項1〜11のいずれかに記載の方法。
  13. 音声による出力モードでダイアログ応答を生成するステップが、前記ユーザ入力の少なくとも一部を音声の形態で言い換えるステップを含む、請求項12に記載の方法。
  14. 音声による出力モードでダイアログ応答を生成するステップが、言い換えられたユーザ入力を他の音声出力から区別するために複数の声を使用して音声を生成するステップを更に含む、請求項13に記載の方法。
  15. 音声による出力モードでダイアログ応答を生成するステップが、ダイアログテンプレートを少なくとも1つの個人データのアイテムと組み合わせるステップを含む、請求項13又は14に記載の方法。
  16. ハンズフリーコンテキストが有効であるか否かを検出するステップが、
    ハンズフリーコンテキストを特定するユーザ入力を受け取るステップと、
    ハンズフリーコンテキストに関連付けられた環境条件を示す少なくとも1つのセンサからデータを受け取るステップと、
    ハンズフリーコンテキストに関連付けられた周辺機器の接続を検出するステップと、
    ハンズフリーコンテキストに関連付けられていない周辺機器の切断を検出するステップと、
    車両の車載システムとの通信を検出するステップと、
    現在位置を検出するステップと、
    現在速度を検出するステップと、のうちの少なくとも1つを含む、請求項1に記載の方法。
  17. 前記ユーザに入力を促すステップが、会話インターフェースにより前記ユーザを促すステップを含み、
    前記ユーザ入力を受け取るステップが、前記会話インターフェースにより前記ユーザ入力を受け取るステップを含む、請求項1〜16のいずれかに記載の方法。
  18. 前記ユーザ入力を受け取るステップが、
    音声入力を受け取るステップと、
    前記音声入力をテキスト表現に変換するステップと、を含む、請求項1〜17のいずれかに記載の方法。
  19. 前記コンピューティング機器が、
    電話と、
    スマートフォンと、
    タブレットコンピュータと、
    ラップトップコンピュータと、
    携帯情報端末と、
    デスクトップコンピュータと、
    キオスクと、
    家庭用電子機器と、
    家庭用娯楽機器と、
    音楽プレーヤと、
    カメラと、
    テレビと、
    電子ゲーム機と、
    セットトップボックスと、のうちの少なくとも1つを含む、請求項1〜18のいずれかに記載の方法。
  20. 電子機器の1つ以上のプロセッサにより実行されるためのプログラムであって、前記プログラムが、請求項1〜19に記載の方法のいずれかを実行するための命令を含んでいる、プログラム。
  21. 1つ以上のプロセッサ、及び請求項1〜19に記載の方法のいずれかを実行するための命令を含む、前記1つ以上のプロセッサにより実行されるための1つ以上のプログラムを記憶したメモリとを備える、電子機器。
  22. 請求項1〜19に記載の方法のいずれかを実行するための手段を備える、電子機器。
  23. 請求項1〜19に記載の方法のいずれかを実行するための手段を備える、電子機器において使用するための情報処理装置。
JP2014533617A 2011-09-30 2012-09-20 ハンズフリーインタラクションに対するユーザインターフェースの自動適合化 Active JP6353786B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/250,947 US10496753B2 (en) 2010-01-18 2011-09-30 Automatically adapting user interfaces for hands-free interaction
US13/250,947 2011-09-30
PCT/US2012/056382 WO2013048880A1 (en) 2011-09-30 2012-09-20 Automatically adapting user interfaces for hands-free interaction

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2016172025A Division JP2017016683A (ja) 2011-09-30 2016-09-02 ハンズフリーインタラクションに対するユーザインターフェースの自動適合化

Publications (2)

Publication Number Publication Date
JP2015501022A JP2015501022A (ja) 2015-01-08
JP6353786B2 true JP6353786B2 (ja) 2018-07-04

Family

ID=47010760

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2014533617A Active JP6353786B2 (ja) 2011-09-30 2012-09-20 ハンズフリーインタラクションに対するユーザインターフェースの自動適合化
JP2016172025A Pending JP2017016683A (ja) 2011-09-30 2016-09-02 ハンズフリーインタラクションに対するユーザインターフェースの自動適合化

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2016172025A Pending JP2017016683A (ja) 2011-09-30 2016-09-02 ハンズフリーインタラクションに対するユーザインターフェースの自動適合化

Country Status (7)

Country Link
EP (1) EP2761860B1 (ja)
JP (2) JP6353786B2 (ja)
KR (1) KR101617665B1 (ja)
CN (2) CN103959751A (ja)
AU (2) AU2012316484A1 (ja)
HK (1) HK1200621A1 (ja)
WO (1) WO2013048880A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175230A (zh) * 2019-05-29 2019-08-27 广州伟宏智能科技有限公司 智能机器人交互系统
US11657189B2 (en) 2020-03-30 2023-05-23 Kyndryl, Inc. Object loss prevention using cognitive computing
US11687318B1 (en) 2019-10-11 2023-06-27 State Farm Mutual Automobile Insurance Company Using voice input to control a user interface within an application

Families Citing this family (252)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8074172B2 (en) 2007-01-05 2011-12-06 Apple Inc. Method, system, and graphical user interface for providing word recommendations
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9954996B2 (en) 2007-06-28 2018-04-24 Apple Inc. Portable electronic device with conversation management for incoming instant messages
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8971924B2 (en) 2011-05-23 2015-03-03 Apple Inc. Identifying and locating users on a mobile network
US10715380B2 (en) 2011-05-23 2020-07-14 Apple Inc. Setting a reminder that is triggered by a target user device
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8769624B2 (en) 2011-09-29 2014-07-01 Apple Inc. Access control utilizing indirect authentication
US9002322B2 (en) 2011-09-29 2015-04-07 Apple Inc. Authentication with secondary approver
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8989773B2 (en) 2013-01-29 2015-03-24 Apple Inc. Sharing location information among devices
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014143776A2 (en) 2013-03-15 2014-09-18 Bodhi Technology Ventures Llc Providing remote interactions with host device using a wireless device
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
WO2014197730A1 (en) * 2013-06-08 2014-12-11 Apple Inc. Application gateway for providing different user interfaces for limited distraction and non-limited distraction contexts
EP2992418B1 (en) * 2013-06-08 2022-02-16 Apple Inc. Device, method, and graphical user interface for synchronizing two or more displays
KR101772152B1 (ko) * 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US9465985B2 (en) 2013-06-09 2016-10-11 Apple Inc. Managing real-time handwriting recognition
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
JP2015076040A (ja) * 2013-10-11 2015-04-20 Necパーソナルコンピュータ株式会社 情報処理方法、情報処理装置、及びプログラム
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US11343335B2 (en) 2014-05-29 2022-05-24 Apple Inc. Message processing by subscriber app prior to message forwarding
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
EP3108351B1 (en) 2014-05-30 2019-05-08 Apple Inc. Activity continuation between electronic devices
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9967401B2 (en) 2014-05-30 2018-05-08 Apple Inc. User interface for phone call routing among devices
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US10382378B2 (en) 2014-05-31 2019-08-13 Apple Inc. Live location sharing
US9887949B2 (en) 2014-05-31 2018-02-06 Apple Inc. Displaying interactive notifications on touch sensitive devices
US9185062B1 (en) 2014-05-31 2015-11-10 Apple Inc. Message user interfaces for capture and transmittal of media and location content
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
TWI647608B (zh) 2014-07-21 2019-01-11 美商蘋果公司 遠端使用者介面
CN106605201B (zh) 2014-08-06 2021-11-23 苹果公司 用于电池管理的减小尺寸的用户界面
US10339293B2 (en) 2014-08-15 2019-07-02 Apple Inc. Authenticated device used to unlock another device
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
EP3189409B1 (en) 2014-09-02 2020-01-29 Apple Inc. Reduced-size interfaces for managing alerts
CN115665320B (zh) 2014-09-02 2024-10-11 苹果公司 电子设备、存储介质和用于操作电子设备的方法
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
CN104507041B (zh) * 2014-12-29 2018-09-25 珠海全志科技股份有限公司 一种基于Android的短距离蓝牙双向语音通信系统
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) * 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US9807045B2 (en) * 2015-06-10 2017-10-31 Google Inc. Contextually driven messaging system
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10003938B2 (en) 2015-08-14 2018-06-19 Apple Inc. Easy location sharing
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
CN105426357A (zh) * 2015-11-06 2016-03-23 武汉卡比特信息有限公司 语音快速选择方法
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10990897B2 (en) * 2016-04-05 2021-04-27 Refinitiv Us Organization Llc Self-service classification system
US10291565B2 (en) * 2016-05-17 2019-05-14 Google Llc Incorporating selectable application links into conversations with personal assistant modules
DK179186B1 (en) 2016-05-19 2018-01-15 Apple Inc REMOTE AUTHORIZATION TO CONTINUE WITH AN ACTION
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201770423A1 (en) 2016-06-11 2018-01-15 Apple Inc Activity and workout updates
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179329B1 (en) 2016-06-12 2018-05-07 Apple Inc Handwriting keyboard for monitors
DK201670622A1 (en) 2016-06-12 2018-02-12 Apple Inc User interfaces for transactions
CN106297079B (zh) * 2016-08-22 2018-08-31 浪潮金融信息技术有限公司 一种提供功能模块的方法及装置
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
EP3511800A4 (en) * 2016-09-08 2019-08-14 Sony Corporation INFORMATION PROCESSING DEVICE
CN106131350A (zh) * 2016-09-20 2016-11-16 深圳市同行者科技有限公司 基于语音识别主动放弃去电通话的控制方法及其装置
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
JP2018073067A (ja) 2016-10-27 2018-05-10 京セラ株式会社 電子機器、制御方法およびプログラム
KR102560508B1 (ko) * 2016-11-18 2023-07-28 구글 엘엘씨 대화형 어시스턴트 컨텍스트 포함하여 사후 검색 결과를 자율적으로 제공
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10924376B2 (en) * 2016-12-30 2021-02-16 Google Llc Selective sensor polling
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
CN106740115A (zh) * 2017-01-22 2017-05-31 斑马信息科技有限公司 汽车仪表与中控交互系统及方法
CN108605074B (zh) * 2017-01-26 2021-01-05 华为技术有限公司 一种触发语音功能的方法和设备
JP6261787B2 (ja) * 2017-02-22 2018-01-17 株式会社 ディー・エヌ・エー 商品の販売を支援するためのシステム、方法、及びプログラム
US10992795B2 (en) 2017-05-16 2021-04-27 Apple Inc. Methods and interfaces for home media control
US11431836B2 (en) 2017-05-02 2022-08-30 Apple Inc. Methods and interfaces for initiating media playback
KR101949497B1 (ko) 2017-05-02 2019-02-18 네이버 주식회사 사용자 발화의 표현법을 파악하여 기기의 동작이나 컨텐츠 제공 범위를 조정하여 제공하는 사용자 명령 처리 방법 및 시스템
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
CN111343060B (zh) 2017-05-16 2022-02-11 苹果公司 用于家庭媒体控制的方法和界面
US20220279063A1 (en) 2017-05-16 2022-09-01 Apple Inc. Methods and interfaces for home media control
US11048995B2 (en) 2017-05-16 2021-06-29 Google Llc Delayed responses by computational assistant
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10924605B2 (en) * 2017-06-09 2021-02-16 Onvocal, Inc. System and method for asynchronous multi-mode messaging
EP3451255A1 (de) * 2017-08-31 2019-03-06 Andreas Stihl AG & Co. KG Verfahren zum dokumentieren mindestens einer information über mindestens einen baum und/oder eine umgebung des baums und dokumentationssystem
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
JP7009940B2 (ja) * 2017-11-13 2022-01-26 沖電気工業株式会社 情報処理装置、情報処理方法、及びプログラム
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
JP7177591B2 (ja) 2017-12-19 2022-11-24 キヤノン株式会社 無線端末、サーバ、それらの制御方法、プログラム、及びシステム
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
KR102445365B1 (ko) * 2018-03-19 2022-09-20 현대자동차주식회사 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
JP2020009395A (ja) * 2018-07-05 2020-01-16 聡子 荻原 タブレット
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
JP7175696B2 (ja) * 2018-09-28 2022-11-21 キヤノン株式会社 画像処理システム、画像処理装置、及びその制御方法
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN109243444B (zh) * 2018-09-30 2021-06-01 百度在线网络技术(北京)有限公司 语音交互方法、设备及计算机可读存储介质
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
JP2020087381A (ja) * 2018-11-30 2020-06-04 株式会社リコー 情報処理システム、プログラムおよび情報処理方法
KR20210110650A (ko) 2018-12-28 2021-09-08 구글 엘엘씨 선택된 제안에 따라 자동 어시스턴트에 음성 입력 보충하기
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN113260953A (zh) * 2019-01-07 2021-08-13 索尼集团公司 信息处理设备与信息处理方法
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
CN110136713A (zh) * 2019-05-14 2019-08-16 苏州思必驰信息科技有限公司 用户在多模态交互中的对话方法及系统
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11010121B2 (en) 2019-05-31 2021-05-18 Apple Inc. User interfaces for audio media control
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
EP4231124A1 (en) 2019-05-31 2023-08-23 Apple Inc. User interfaces for audio media control
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11477609B2 (en) 2019-06-01 2022-10-18 Apple Inc. User interfaces for location-related communications
US11481094B2 (en) 2019-06-01 2022-10-25 Apple Inc. User interfaces for location-related communications
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11194467B2 (en) 2019-06-01 2021-12-07 Apple Inc. Keyboard management user interfaces
CN110472095B (zh) * 2019-08-16 2023-03-10 百度在线网络技术(北京)有限公司 语音引导方法、装置、设备和介质
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US20210104220A1 (en) * 2019-10-08 2021-04-08 Sarah MENNICKEN Voice assistant with contextually-adjusted audio output
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11079913B1 (en) 2020-05-11 2021-08-03 Apple Inc. User interface for status indicators
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US12045437B2 (en) 2020-05-22 2024-07-23 Apple Inc. Digital assistant user interfaces and response modes
KR20220005348A (ko) 2020-07-06 2022-01-13 삼성전자주식회사 인공지능 가상 비서 서비스에서의 화면 제공 방법 및 이를 지원하는 사용자 단말 장치 및 서버
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11392291B2 (en) 2020-09-25 2022-07-19 Apple Inc. Methods and interfaces for media control with dynamic feedback
US11847378B2 (en) 2021-06-06 2023-12-19 Apple Inc. User interfaces for audio routing
US11995457B2 (en) 2022-06-03 2024-05-28 Apple Inc. Digital assistant integration with system interface

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06110650A (ja) * 1992-09-25 1994-04-22 Toshiba Corp 音声対話装置
JPH07110751A (ja) * 1993-10-12 1995-04-25 Toshiba Corp マルチモーダル装置
JP2001034290A (ja) * 1999-07-26 2001-02-09 Omron Corp 音声応答装置および方法、並びに記録媒体
JP2002033794A (ja) * 2000-07-14 2002-01-31 Matsushita Electric Ind Co Ltd 携帯型無線通信装置
WO2002010900A2 (en) * 2000-07-28 2002-02-07 Siemens Automotive Corporation User interface for telematics systems
US7287056B2 (en) * 2001-09-28 2007-10-23 Microsoft Corporation Dispatching notification to a device based on the current context of a user with the device
JP3777337B2 (ja) * 2002-03-27 2006-05-24 ドコモ・モバイルメディア関西株式会社 データサーバのアクセス制御方法、そのシステム、管理装置、及びコンピュータプログラム並びに記録媒体
JP3979209B2 (ja) * 2002-07-23 2007-09-19 オムロン株式会社 データ入力方法およびデータ入力装置
KR20040035515A (ko) * 2002-10-22 2004-04-29 엘지전자 주식회사 핸즈프리 기능을 구비한 이동통신 단말기와 그의 제어 방법
JP2006031092A (ja) * 2004-07-12 2006-02-02 Sony Ericsson Mobilecommunications Japan Inc 音声文字入力プログラム及び携帯端末装置
JP4165477B2 (ja) * 2004-09-07 2008-10-15 株式会社デンソー ハンズフリーシステム
WO2006083690A2 (en) * 2005-02-01 2006-08-10 Embedded Technologies, Llc Language engine coordination and switching
US8694322B2 (en) * 2005-08-05 2014-04-08 Microsoft Corporation Selective confirmation for execution of a voice activated user interface
US7792253B2 (en) * 2005-10-27 2010-09-07 International Business Machines Corporation Communications involving devices having different communication modes
TWI300305B (en) * 2006-03-02 2008-08-21 Inventec Appliances Corp Wireless voice operating system of portable communication device
JP2007299352A (ja) * 2006-05-08 2007-11-15 Mitsubishi Electric Corp メッセージ出力装置及びメッセージ出力方法及びメッセージ出力プログラム
JP2007333603A (ja) * 2006-06-16 2007-12-27 Sony Corp ナビゲーション装置、ナビゲーション装置の制御方法、ナビゲーション装置の制御方法のプログラム、ナビゲーション装置の制御方法のプログラムを記録した記録媒体
KR100783105B1 (ko) * 2006-08-22 2007-12-07 삼성전자주식회사 음성인식 기능을 구비한 전화기의 전화통화 방법 및 장치
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7853649B2 (en) * 2006-09-21 2010-12-14 Apple Inc. Audio processing for improved user experience
JP4402677B2 (ja) * 2006-10-25 2010-01-20 三菱電機株式会社 通信装置
US7760767B2 (en) * 2007-01-05 2010-07-20 Apple Inc. Wide area peer-to-peer synching in a decentralized environment
JP4970160B2 (ja) * 2007-06-22 2012-07-04 アルパイン株式会社 車載システム及び現在位置目印地点案内方法
DE102008051756A1 (de) * 2007-11-12 2009-05-14 Volkswagen Ag Multimodale Benutzerschnittstelle eines Fahrerassistenzsystems zur Eingabe und Präsentation von Informationen
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8386260B2 (en) * 2007-12-31 2013-02-26 Motorola Mobility Llc Methods and apparatus for implementing distributed multi-modal applications
US9280971B2 (en) * 2009-02-27 2016-03-08 Blackberry Limited Mobile wireless communications device with speech to text conversion and related methods
JP5201599B2 (ja) * 2009-08-11 2013-06-05 Necカシオモバイルコミュニケーションズ株式会社 端末装置、および、プログラム
US8788267B2 (en) * 2009-09-10 2014-07-22 Mitsubishi Electric Research Laboratories, Inc. Multi-purpose contextual control
US9413869B2 (en) * 2010-02-10 2016-08-09 Qualcomm Incorporated Mobile device having plurality of input modes
US9665344B2 (en) * 2010-02-24 2017-05-30 GM Global Technology Operations LLC Multi-modal input system for a voice-based menu and content navigation service

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175230A (zh) * 2019-05-29 2019-08-27 广州伟宏智能科技有限公司 智能机器人交互系统
US11687318B1 (en) 2019-10-11 2023-06-27 State Farm Mutual Automobile Insurance Company Using voice input to control a user interface within an application
US12045543B2 (en) 2019-10-11 2024-07-23 State Farm Mutual Automobile Insurance Company Using voice input to control a user interface within an application
US11657189B2 (en) 2020-03-30 2023-05-23 Kyndryl, Inc. Object loss prevention using cognitive computing

Also Published As

Publication number Publication date
EP2761860A1 (en) 2014-08-06
KR101617665B1 (ko) 2016-05-03
WO2013048880A1 (en) 2013-04-04
CN103959751A (zh) 2014-07-30
CN108337380B (zh) 2022-08-19
CN108337380A (zh) 2018-07-27
JP2017016683A (ja) 2017-01-19
JP2015501022A (ja) 2015-01-08
AU2016200568A1 (en) 2016-02-18
EP2761860B1 (en) 2019-10-23
HK1200621A1 (en) 2015-08-07
KR20140082771A (ko) 2014-07-02
AU2012316484A1 (en) 2014-04-17

Similar Documents

Publication Publication Date Title
JP6353786B2 (ja) ハンズフリーインタラクションに対するユーザインターフェースの自動適合化
US10496753B2 (en) Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) Systems and methods for hands-free notification summaries
US20190095050A1 (en) Application Gateway for Providing Different User Interfaces for Limited Distraction and Non-Limited Distraction Contexts
EP3005668B1 (en) Application gateway for providing different user interfaces for limited distraction and non-limited distraction contexts
US10705794B2 (en) Automatically adapting user interfaces for hands-free interaction
JP6581174B2 (ja) デジタルアシスタントのためのボイストリガ
US10679605B2 (en) Hands-free list-reading by intelligent automated assistant
TWI566107B (zh) 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
RU2542937C2 (ru) Использование контекстной информации для облегчения обработки команд в виртуальном помощнике
US10276157B2 (en) Systems and methods for providing a voice agent user interface
US9858925B2 (en) Using context information to facilitate processing of commands in a virtual assistant
KR101834624B1 (ko) 핸즈 프리 상호작용을 위한 사용자 인터페이스 자동 적응
US20140095172A1 (en) Systems and methods for providing a voice agent user interface
US20140095171A1 (en) Systems and methods for providing a voice agent user interface
US20140095167A1 (en) Systems and methods for providing a voice agent user interface
WO2014055181A1 (en) Systems and methods for providing a voice agent user interface
US20140095168A1 (en) Systems and methods for providing a voice agent user interface

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150717

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20151019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151216

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160506

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170522

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180611

R150 Certificate of patent or registration of utility model

Ref document number: 6353786

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250