JP2023534901A - ウェアラブルデバイスデータを使用するアシスタントデバイス調停 - Google Patents

ウェアラブルデバイスデータを使用するアシスタントデバイス調停 Download PDF

Info

Publication number
JP2023534901A
JP2023534901A JP2022577732A JP2022577732A JP2023534901A JP 2023534901 A JP2023534901 A JP 2023534901A JP 2022577732 A JP2022577732 A JP 2022577732A JP 2022577732 A JP2022577732 A JP 2022577732A JP 2023534901 A JP2023534901 A JP 2023534901A
Authority
JP
Japan
Prior art keywords
user
computing device
computerized
assistant
glasses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022577732A
Other languages
English (en)
Inventor
アレクサンダー・チュ
ジャルラン・ペレス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2023534901A publication Critical patent/JP2023534901A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0138Head-up displays characterised by optical features comprising image capture systems, e.g. camera
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B2027/0178Eyeglass type

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Optics & Photonics (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)

Abstract

本明細書に示す実装形態は、コンピュータ化された眼鏡などのウェアラブルコンピューティングデバイスから利用可能なデータを使用して、マルチデバイス環境においてデバイス調停を実行することに関する。コンピュータ化された眼鏡は、デバイス調停に関連する問題を解決するための画像データを提供するために使用され得るカメラを含むことができる。いくつかの実装形態において、(ユーザからの事前の許可を得て、コンピュータ化された眼鏡によって検出される)ユーザが自分のコンピュータ化された眼鏡を向けている方向および/またはユーザの注視を向けている方向が、マルチデバイス環境において特定のデバイスを優先するために使用され得る。コンピュータ化された眼鏡の検出された向きが、コンピュータ化された眼鏡のグラフィカルディスプレイと別のクライアントデバイスの別のグラフィカルディスプレイとの間でコンテンツをどのように同時に割り当てるかを判断するためにも使用され得る。コンテンツがコンピュータ化された眼鏡に割り当てられると、コンテンツ固有のジェスチャが有効化され得、コンピュータ化された眼鏡においてアクション可能になり得る。

Description

ウェアラブルデバイスデータを使用するアシスタントデバイス調停に関する。
人間は、本明細書では「自動化アシスタント」(「デジタルエージェント」、「チャットボット」、「対話型パーソナルアシスタント」、「インテリジェントパーソナルアシスタント」、「アシスタントアプリケーション」、「会話形エージェント」などとも呼ばれる)と呼ばれる対話型ソフトウェアアプリケーションとの人間対コンピュータの対話に関わり得る。例えば、人間(自動化アシスタントと対話するとき、「ユーザ」と呼ばれる場合がある)は、場合によっては、テキストに変換され、次いで処理され得る口頭の自然言語入力(すなわち、発話)を使用して、および/またはテキストの(例えば、タイプされた)自然言語入力を提供することによって、自動化アシスタントにコマンドおよび/または要求を提供し得る。
ユーザは、複数のクライアントデバイスを使用して自動化アシスタントと関わり得る。例えば、一部のユーザは、他のクライアントデバイスの中でも、1つもしくは複数のスマートフォン、1つもしくは複数のタブレットコンピュータ、1つもしくは複数の車両コンピューティングシステム、1つもしくは複数のウェアラブルコンピューティングデバイス、1つもしくは複数のスマートテレビ、および/または1つもしくは複数の独立型対話式スピーカの組合せを備えるクライアントデバイスの調整された「エコシステム」を所有し得る。ユーザは、(自動化アシスタントクライアントがインストールされていると仮定して)これらのクライアントデバイスのいずれかを使用して、自動化アシスタントとの人間対コンピュータの対話に関わり得る。場合によっては、これらのクライアントデバイスは、ユーザの主な住居、第2の住居、職場、および/または他の建築物の周りに散在している場合がある。例えば、スマートフォン、タブレット、スマートウォッチなどのモバイルクライアントデバイスが、ユーザの身体上、および/またはユーザがそれらを最後に置いた場所にある可能性がある。従来のデスクトップコンピュータ、スマートテレビ、および独立型対話式スピーカなどの他のクライアントデバイスは、より動かない場合があるが、ユーザの家または職場内の様々な場所(例えば、部屋)に位置する場合がある。
ユーザが自分の家の中に複数の自動化アシスタントデバイスを有する場合、それぞれのアシスタントデバイスは、異なるアクションを実行した結果として、異なる動作状態を有する場合がある。そのようなとき、ユーザは、アシスタントデバイスにおいて進行中の特定のアクションを変更するように要求し得るが、誤って異なるアシスタントデバイスに異なるアクションを変更させる場合がある。これは、一部には、いくつかのアシスタントデバイスが、ユーザが特定のアクションを変更するためのコマンドを言ったのをそれぞれのアシスタントデバイスが聞いたかどうかのみに依存する場合があるためである可能性がある。結果として、ユーザが対話することを意図したアシスタントデバイスに直接話していないとき、特定のマルチアシスタント環境に対するアシスタントデバイスの適応性は、制限される可能性がある。例えば、ユーザは、誤ってアシスタントデバイスにおいてアクションを初期化し、それによって、ユーザが所望のデバイスにおいてアクションを再呼び出しするために以前に口頭の発話を繰り返すことを潜在的に必要とする場合がある。
その結果、特定のアシスタントデバイスを誤って呼び出したことに応答して、特定のアシスタントデバイスのためのメモリおよび処理帯域幅が瞬間的に消費される場合がある。そのような一見冗長的な結果は、例えば、いくつかのアシスタント入力がネットワーク接続を介してのみアクセス可能な自然言語モデルによって処理される場合があるので、ネットワークリソースを浪費する可能性がある。さらに、不注意に影響を受けたアクションに関連する任意のデータが、影響を受けたアクションの完了を促進する上で所望のデバイスに再ダウンロードされなければならず、エネルギー集約型のアクション(例えば、ディスプレイのバックライト、加熱要素、および/または電動式家庭電化製品を制御すること)をキャンセルすることから浪費されたエネルギーは、回収できない場合がある。
本明細書に記載の実装形態は、ユーザ入力が向けられる適切なクライアントデバイスを識別するために、ユーザによって装着されたコンピュータ化された眼鏡からのデータを処理することを伴うデバイス調停技法に関する。デバイス調停がコンピュータ化された眼鏡からのデータを用いて実行されることを可能にすることは、クライアントデバイスが誤ってアクティブ化されるインスタンスの数を最小限に抑えることができる。このようにして、検出された特定のユーザ入力からの偶然のアクティブ化の影響を最も受けやすいそれらのデバイスのためにメモリ、電力、およびネットワーク帯域幅を保存することができる。
いくつかの実装形態において、ユーザは、ユーザの家のリビングルームなどの、複数のアシスタント対応デバイスを含む環境内にいる可能性がある。アシスタント対応デバイスは、口頭の発話などのユーザ入力に応答してアクティブ化され得る。さらに、アシスタント対応デバイスは、ユーザがユーザ入力で呼び出すことを意図した可能性がある特定のコンピューティングデバイスを識別するために、デバイス調停を支援することができる。ユーザは、口頭の発話を提供するときに、コンピュータ化された眼鏡を装着していることができ、コンピュータ化された眼鏡は、ユーザが向いている可能性がある方向を検出するための画像データを提供することができる1つまたは複数のカメラを含むことができる。識別された方向は、ユーザが向いている方向に基づいて、特定のデバイスを他のデバイスよりも優先するために、デバイス調停中に使用され得る。
いくつかの実装形態において、コンピュータ化された眼鏡は、環境内のエリアおよび/または物体に対するユーザの注視を決定するために、ユーザの瞳孔の位置を検出するための回路を含むことができる。例えば、コンピュータ化された眼鏡は、ユーザが向いているエリアを識別するために使用され得る前向きのカメラと、ユーザの注視を識別するために使用され得る逆向きのカメラとを含むことができる。ユーザが、環境内の複数のデバイスを介してアクセス可能な自動化アシスタントへの入力を提供すると、コンピュータ化された眼鏡は、デバイス調停を支援するために、ユーザの注視に関する情報を提供することができる。例えば、ユーザは、ユーザが複数のアシスタント対応デバイスを含む環境のエリアの方を向いているときに、自動化アシスタントに口頭の発話を提供することができる。コンピュータ化された眼鏡において生成されたデータは、ユーザの注視が他のアシスタント対応デバイスと比較して特定のアシスタント対応デバイスの方により向けられているかどうかを判断するために使用され得る。ユーザの注視に基づいて特定のデバイスが選択されると、自動化アシスタントは、特定のデバイスにおけるユーザの口頭の発話に応答することができる。
いくつかの実装形態において、カメラを含むアシスタント対応デバイスは、デバイス調停を実行するために、コンピュータ化された眼鏡からの他の画像データとともに処理され得る画像データを提供することができる。例えば、デバイス調停中に特定のデバイスを優先するかどうかを判断するために、コンピュータ化された眼鏡とは別の1つまたは複数のカメラから、ユーザおよび/または環境の視覚的特徴が決定され得る。一例として、ユーザの付属物が特定のデバイスの方に向けられ得るが、付属物は、コンピュータ化された眼鏡のカメラの視野窓内では不可視である場合がある。しかしながら、付属物の向きは、別のコンピューティングデバイス(例えば、独立型ディスプレイデバイス)のカメラの視野窓内で可視である場合がある。場合によっては、ユーザは、2つ以上のアシスタント対応デバイスを含む特定のエリアの方を向いている場合があり、口頭の発話を提供する場合がある。ユーザは、ユーザが口頭の発話を提供しているときに、2つ以上のアシスタント対応デバイスのうちの特定のデバイスの方に向けられる付属物(例えば、手および/または足)同時に有し得る。そのような場合、他のコンピューティングデバイスからの(例えば、独立型ディスプレイデバイスのカメラからの)画像データおよびコンピュータ化された眼鏡からの他の画像データは、口頭の発話に応答するための特定のデバイスを選択するために処理され得る。
いくつかの実装形態において、コンピュータ化された眼鏡は、1つまたは複数の異なるデバイスに対するコンピュータ化された眼鏡の位置および/または配置を決定するために、1つまたは複数の異なるアシスタント対応デバイスからの1つまたは複数の異なる出力(例えば、第1の出力、第2の出力など)を検出することができる。例えば、特定のユーザのためのコンピュータ化された眼鏡を較正するために、ユーザは、自分のキッチン内のコンピューティングデバイスのディスプレイインターフェースを注視しながら、「アシスタント、私は、キッチンのディスプレイを見ている」などの口頭の発話を提供することができる。これに応答して、その特定のユーザのためのコンピュータ化された眼鏡を較正するために、キッチンのコンピューティングデバイスのカメラを介して取り込まれた画像および/またはコンピュータ化された眼鏡を介して取り込まれた他の画像データが処理され得る。
場合によっては、この較正動作は、特に、ユーザがアシスタント対応デバイスを注視しているときに、典型的にはユーザが自分の頭および/または顔を完全にアシスタント対応デバイスに向けて配置していない場合があるときに、コンピュータ化された眼鏡および/または他のアシスタント対応デバイスの性能を強化することができる。それに加えて、この較正動作は、ユーザと、統合されたカメラを持たない場合があり、したがって、デバイス調停中に画像データを提供することができない場合がある他のアシスタント対応デバイスとの間の対話を強化することができる。例えば、ユーザは、特定のアシスタント対応デバイスを注視しているが、アシスタント対応デバイスは、コンピュータ化された眼鏡の外向きのカメラの視野窓内にない場合がある。コンピュータ化された眼鏡の内向きのカメラによって検出された注視は、ユーザから事前の許可を得て、デバイス調停中に、ユーザが注視しているアシスタント対応デバイスを他のデバイス(例えば、外向きのカメラの視野窓内にあり得る別のデバイス)よりも優先するために使用され得る。
いくつかの実装形態において、較正および/またはデバイス調停は、1つまたは複数の異なるモダリティを介して、1つまたは複数のアシスタント対応デバイスとコンピュータ化された眼鏡との間の通信を使用して実行され得る。例えば、独立型スピーカデバイスは、コンピュータ化された眼鏡に対する独立型スピーカの位置を検出するために、コンピュータ化された眼鏡の前向きのカメラのために照明することができるライトを含むことができる。代替的または追加的に、他のデバイスに対するデバイスの位置を決定するために、コンピュータ化された眼鏡および/または1つもしくは複数の他のアシスタント対応デバイスなどの1つまたは複数のデバイスによって超音波が放射され得る。いくつかの実装形態において、デバイスが接続を失ったか、もはや他のデバイスと同期されていないか、および/または1つまたは複数のライトを介して伝達され得る特定の状態を他の方法で示しているかどうかを判断するために、コンピュータ化された眼鏡のカメラによってデバイス上の1つまたは複数のライトが検出され得る。このようにして、コンピュータ化された眼鏡は、ユーザがコンピュータ化された眼鏡を装着しているときに、1つまたは複数のデバイスのそれぞれの状態の変化を検出することができる。
いくつかの実装形態において、コンピュータ化された眼鏡および/または1つもしくは複数のアシスタント対応デバイスの特定の機能を制御するために、コンピュータ化された眼鏡に対するデバイスの位置が使用され得る。例えば、コンピューティングデバイス(例えば、テレビ)において見られているコンテンツが、コンピュータ化された眼鏡のディスプレイインターフェースにおいてレンダリングされているコンテンツに関連付けられ得る。場合によっては、ユーザは、自分のテレビにおいてスポーツイベントのライブストリームを見ていることができ、コンピュータ化された眼鏡のディスプレイインターフェースにおいて友人からのコメントを見ていることもできる。ユーザがテレビの近くを離れる、および/またはそうでなければテレビから視線をそらすと、テレビにおいてレンダリングされていたコンテンツは、ユーザの好みに従って、コンピュータ化された眼鏡のディスプレイインターフェースにおいてレンダリングされ得る。例えば、ユーザが、自分の家の別の部屋で自分の洗濯物を交換するために自分のリビングルーム内のテレビの近くから離れると、コンピュータ化された眼鏡の相対位置の変化および/またはユーザの注視の変化が検出され得る。ユーザの位置のこの変化に基づいて、コンピュータ化された眼鏡のディスプレイインターフェースにおいて追加のコンテンツデータがレンダリングされ得る。代替的または追加的に、ユーザの位置のこの変化に基づいて、電力、およびネットワーク帯域幅などの他の計算リソースを保存するために、テレビにおいてコンテンツの削減が実施され得る。
上記の説明は、本開示のいくつかの実装形態の概要として提供される。それらの実装形態および他の実装形態のさらなる説明について、以下でより詳細に説明される。
他の実装形態は、上記および/または本明細書の他の場所において説明される方法のうちの1つまたは複数などの方法を実行するために1つまたは複数のプロセッサ(例えば、中央処理装置(CPU)、グラフィックス処理装置(GPU)、および/またはテンソル処理装置(TPU))によって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含み得る。さらに他の実装形態は、上記および/または本明細書の他の場所において説明される方法のうちの1つまたは複数の方法などの方法を実行するために、記憶された命令を実行するように動作可能な1つまたは複数のプロセッサを含む1つまたは複数のコンピュータのシステムを含み得る。
前述の概念、および本明細書においてより詳細に説明される追加の概念のすべての組合せは、本明細書で開示される主題の一部であると考えられることが理解されるべきである。例えば、本開示の最後に現れる特許請求される主題のすべての組合せは、本明細書で開示される主題の一部であると考えられる。
デバイス調停を支援することができるコンピュータ化された眼鏡を装着している間に自動化アシスタントを呼び出すユーザのビューを示す図である。 デバイス調停を支援することができるコンピュータ化された眼鏡を装着している間に自動化アシスタントを呼び出すユーザのビューを示す図である。 本明細書で論じるいくつかの実装形態によるコンピュータ化された眼鏡を装着しているユーザのビューを示す図である。 デバイス調停のためにコンピュータ化された眼鏡に依存することができる自動化アシスタントと対話するユーザのビューを示す図である。 デバイス調停のためにコンピュータ化された眼鏡に依存することができる自動化アシスタントと対話するユーザのビューを示す図である。 デバイス調停のためにコンピュータ化された眼鏡に依存することができる自動化アシスタントと対話するユーザのビューを示す図である。 デバイス調停のためにコンピュータ化された眼鏡に依存することができる自動化アシスタントと対話するユーザのビューを示す図である。 デバイス調停のためにコンピュータ化された眼鏡に依存することができる自動化アシスタントと対話するユーザのビューを示す図である。 拡張現実を実行するための機能を有する、コンピュータ化された眼鏡などのデバイスから利用可能なデータを使用してデバイス調停を実行するためのシステムを示す図である。 コンピュータ化された眼鏡などのウェアラブルコンピューティングデバイスから利用可能なデータを使用して、マルチデバイス環境においてデバイス調停を実施するための方法を示す図である。 例示的なコンピューティングシステムのブロック図である。
図1Aおよび図1Bは、デバイス調停を支援することができるコンピュータ化された眼鏡104を装着している間に自動化アシスタントを呼び出すユーザ102のビュー100およびビュー120をそれぞれ示す。コンピュータ化された眼鏡104は、少なくとも、ユーザ102および/もしくはコンピュータ化された眼鏡104の視野112を特徴付ける画像データ、ならびに/またはユーザ102の注視を特徴付ける画像データを提供することによって、デバイス調停を支援することができる。このようにして、アシスタント入力が複数のデバイスにおいて検出された場合、ユーザ102がアシスタント入力を向けている特定のデバイスを識別するために、コンピュータ化された眼鏡104からのデータが使用され得る。例えば、ユーザ102は、ユーザ102のリビングルームなどの環境108内で座っている間に、テレビ106を見ていることができる。テレビ106を見ている間、ユーザ102の視野112は、テレビ106と、ディスプレイデバイス118と、タブレットデバイス110とを含むことができる。いくつかの実装形態において、テレビ106は、自動化アシスタントへのアクセスを提供するコンピューティングデバイスを含むことができ、または、代替的には、特定のコンテンツをテレビ106においてレンダリングするために、ドングル126(すなわち、着脱可能なアクセサリデバイス)がテレビ106に取り付けられ得る。ディスプレイデバイス118およびタブレットデバイス110は、ユーザ104に自動化アシスタントへのアクセスを提供することもできる。
コンピュータ化された眼鏡104を装着している間、ユーザ102は、「アシスタント、私が昨夜見ていた映画を再生して」などの口頭の発話を提供することができる。ユーザ102は、テレビ106および/またはドングル126の動作を変更するために口頭の発話114を提供することができる。しかしながら、ユーザ102は、複数のアシスタント対応デバイス(例えば、タブレットデバイス110およびディスプレイデバイス118)を有する環境108内に位置しているので、複数の異なるデバイスがユーザ102からの口頭の発話114を検出する可能性がある。例えば、タブレットデバイス110、ディスプレイデバイス118、テレビ106、およびコンピュータ化された眼鏡104の各々が、ユーザ102からの口頭の発話114を検出する可能性がある。結果として、ユーザ102が口頭の発話114を向けている特定のデバイスを識別するために、デバイスおよび/またはリモートコンピューティングデバイスのうちの1つまたは複数において、デバイス調停プロセスが初期化され得る。
いくつかの実装形態において、デバイス調停プロセスは、ユーザ102からの口頭の発話114を検出したデバイスを識別することと、識別されたデバイスのいずれかがユーザ102の視野112に関連付けられているかどうかを判断することも含むことができる。例えば、調停プロセスを実行しているコンピューティングデバイスが、テレビ106、ディスプレイデバイス118、ドングル126、およびタブレットデバイス110がユーザ102の視野112に関連付けられていると判断することができる。この判断は、コンピュータ化された眼鏡104の1つまたは複数のカメラによって生成された画像データに基づくことができる。次いで、コンピューティングデバイスは、テレビ106が、タブレットデバイス110およびディスプレイデバイス118よりも視野112の周辺または外側境界から遠い視野112の一部を占めていると判断することができる。代替的または追加的に、調停プロセスを実行しているコンピューティングデバイスは、テレビジョン106および/またはタブレットデバイス110の別のカメラからの画像データが、ユーザ102の向きがタブレットデバイス110およびディスプレイデバイス118よりもテレビ106の方に向けられていることを示していると判断することができる。
これらの判断のうちの1つまたは複数に基づいて、デバイス調停プロセスを実行しているコンピューティングデバイスは、テレビ106が、ディスプレイデバイス118の代わりに、ユーザ102が口頭の発話114を向けていたデバイスであると判断することができる。いくつかの実装形態において、テレビ106がドングル126のために自動化アシスタント入力の対象である場合、デバイス調停プロセスは、口頭の発話114の対象であるものとしてドングル126の選択を結果としてもたらすことができる。したがって、ドングル126がユーザ102に見えない場合があっても、および/またはテレビ106によって視野112から隠されている場合があっても、それにもかかわらず、ドングル126は、ユーザ102がアシスタント入力を提供するときにドングル126の方向において視線を向けているときに、口頭の発話114に応答し得る。例えば、口頭の発話114に対応するオーディオデータが、タブレットデバイス110のマイクロフォンまたはディスプレイデバイス118の別のマイクロフォンによって取り込まれ得るが、ユーザ102によって要求された動作は、コンピュータ化された眼鏡104からの画像データに基づいて、テレビ106および/またはドングル126において実行され得る。例えば、口頭の発話114に応答する特定のコンピューティングデバイスを識別することに基づいて、テレビ116は、ディスプレイデバイス118またはタブレットデバイス110において映画が再生される代わりに、ユーザ102からの口頭の発話114ごとに映画を再生する動作116を実行することができる。
図1Bは、環境108の異なるエリアにおいて位置するコンピューティングデバイス122に向くようにユーザの視野124を変更するユーザ102のビュー120を示す。ユーザ102は、テレビ106とは異なるデバイスに口頭の発話を向けるために自分の向きを変えることができる。例えば、コンピューティングデバイス122は、ユーザが以前の口頭の発話114を最初に提供したときに、音楽を再生する動作128を実行している可能性がある。したがって、テレビ106における映画に影響を与えることなく音楽を停止するために、ユーザ102は、自分の顔とコンピュータ化された眼鏡104とを、テレビ106よりもコンピューティングデバイス122の方に向けることができる。いくつかの実装形態において、コンピュータ化された眼鏡104は、視野124(すなわち、視野窓または視覚的視点)を有する外向きのカメラを含むことができ、外向きのカメラは、デバイス調停プロセス中に使用され得る画像データを生成することができる。代替的または追加的に、コンピュータ化された眼鏡104は、内向きのカメラを含むことができ、内向きのカメラも、デバイス調停プロセス中に使用され得る画像データを生成することができる。
例えば、内向きのカメラを使用して生成された画像データは、コンピューティングデバイス122の方向に向かってわずかに上向きに、タブレットデバイス110から離れて向けられているユーザ102の注視を特徴付けることができる。このようにして、(少なくとも、ユーザ102が図1Bに示すように配置されているとき)コンピューティングデバイス122のマイクロフォンがタブレットデバイス110またはディスプレイデバイス118ほど明確に口頭入力を検出しないにもかかわらず、内向きのカメラからの画像データは、ユーザ102の注視がコンピューティングデバイス122に向けられていることを示すことができる。例えば、ユーザ102は、テレビ106が映画を再生しており、コンピューティングデバイス122が音楽を再生しているとき、「アシスタント、停止して」などの口頭の発話130を提供することができる。コンピューティングデバイス122が口頭の発話130の対象となるように意図されていると判断するために、デバイス調停プロセス中に、コンピュータ化された眼鏡104の1つもしくは複数のカメラからの画像データ、および/または1つもしくは複数の他のデバイスからのデータが処理され得る。
いくつかの実装形態において、ユーザからの入力に応答する特定のデバイスを選択するために、デバイス調停プロセス中、ヒューリスティックプロセスおよび/または1つもしくは複数のトレーニング済み機械学習モデルが使用され得る。例えば、ユーザ入力が向けられているデバイスを識別するために、内向きのカメラからの画像データまたは外向きのカメラからの他の画像データを処理するために、1つまたは複数のトレーニング済み機械学習モデルが使用され得る。代替的または追加的に、1つまたは複数のソースからのデータに基づいて、特定のデバイスを他の候補デバイスよりも優先するかどうかを判断するために、ヒューリスティックプロセスが使用され得る。例えば、ユーザおよび/またはコンピュータ化された眼鏡の視野内に位置しないデバイスは、ユーザおよび/またはコンピュータ化された眼鏡の視野内にあると判断された別のデバイスよりも優先度が低いと考えられ得る。例えば、コンピューティングデバイス122が環境108内の他のデバイスよりも優先される場合、口頭の発話130において具体化されたユーザ要求を満たすために、コンピューティングデバイス122において1つまたは複数の動作が実行され得る。例えば、コンピューティングデバイス122は、コンピューティングデバイス122において音楽がもはや再生されないようにするための動作132を実行することができる。
図2は、本明細書で論じるいくつかの実装形態によるコンピュータ化された眼鏡204を装着するユーザ202のビュー200を示す。コンピュータ化された眼鏡204は、コンピュータ208を含むことができ、コンピュータ208は、1つもしくは複数のプロセッサおよび/または1つもしくは複数のメモリデバイスを含むことができ、1つまたは複数のエネルギー源(例えば、バッテリ、ワイヤレス電力伝送など)から電力を受け取ることができる。コンピュータ208は、ハウジング214によって少なくとも部分的に具体化され得、および/またはハウジング214から分離され得る。ハウジング214は、1つまたは複数の異なるスタイルの眼鏡のフレームに類似することができ、ハウジング214に取り付けられた1つまたは複数のレンズ206を有することができる。いくつかの実装形態において、コンピュータ化された眼鏡204は、ユーザ202の視野に対応する視野を有するように配置され得る1つまたは複数の前向きのカメラ210を含むことができる。いくつかの実装形態において、コンピュータ化された眼鏡204は、ユーザ202の1つまたは複数の目を含む別の視野を有するように配置され得る1つまたは複数の内向きのカメラ212を含むことができる。例えば、1つまたは複数の内向きのカメラ212は、ユーザ202の左目および/または右目の位置を特徴付ける画像データを取り込むように配置され得る。いくつかの実装形態において、コンピュータ208は、コンピュータ208が1つまたは複数の他のコンピューティングデバイスと通信することを可能にする1つもしくは複数のアンテナおよび/または他の通信ハードウェアに接続され得る。例えば、コンピュータ化された眼鏡204は、Wi-Fiネットワーク、LTEネットワークに接続することができ、ならびに/またはBluetoothプロトコル、および/もしくは任意の他の通信モダリティを介して通信することができる。
いくつかの実装形態において、1つまたは複数のレンズ206は、コンピュータ化された眼鏡204を装着しているユーザに見えるグラフィカルコンテンツをレンダリングするためのディスプレイインターフェースとして動作することができる。レンズ206においてレンダリングされるグラフィカルコンテンツは、ユーザ202からの入力を検出する複数のデバイスに応答して、デバイス調停を支援することができる。例えば、例えば、ユーザ202は、第1のコンピューティングデバイスおよび第2のコンピューティングデバイスを前向きのカメラ210の視野内にあるようにする方向に、ユーザの頭部およびコンピュータ化された眼鏡204を向けていることができる。ユーザ202がコンピュータ化された眼鏡204をこの方向に向けられると、ユーザ202は、例えば、特定のコンピューティングデバイスに音楽アプリケーションからの音楽を再生されるために口頭の発話を提供することができる。自動化アシスタントは、口頭の発話を検出し、それに応答して、音楽アプリケーションのためのアイコンの複数のインスタンスをレンズ206においてレンダリングさせることができる。例えば、音楽アプリケーションアイコンの第1のインスタンスが、第1のコンピューティングデバイスの上のレンズ206においてレンダリングされ得、音楽アプリケーションアイコンの第2のインスタンスが、第2のコンピューティングデバイスの上のレンズ206においてレンダリングされ得る。
いくつかの実装形態において、口頭の発話に応答するために特定のデバイスが選択されていないことをユーザに示す方法で、音楽アプリケーションアイコンの各インスタンスがレンダリングされ得る。例えば、音楽アプリケーションアイコンの各インスタンスは、「グレーアウト」、ぼやけ、点滅であり得、および/またはそうでなければ、デバイスのうちの1つがユーザによって選択されるべきであることを示す1つもしくは複数の特徴を有することもできる。デバイスのうちの1つを選択するために、ユーザ202は、より第1のコンピューティングデバイスまたは第2のコンピューティングデバイスの方に、自分の注視および/またはコンピュータ化された眼鏡204の方向を調整することができる。これに応答して、自動化アシスタントは、ユーザの注視および/または向きの方向の調整を検出し、音楽アプリケーションアイコンの第1のインスタンスまたは第2のインスタンスに、一方が選択されたことのフィードバックを提供させることができる。例えば、ユーザ202が、自分の注視および/またはコンピュータ化された眼鏡204をより第1のコンピューティングデバイスの方に向けた場合、音楽アプリケーションの第1のインスタンスは、アイコンを点滅させる、揺らす、アイドル状態になる、もはやグレーアウトされなくなる、もはやぼやけなくなる、および/または第1のコンピューティングデバイスが選択されたことを他の方法で示すことができる。このようにして、ユーザ202は、ユーザが特定のデバイスを選択したというフィードバックを受け取り、ユーザが第2のコンピューティングデバイスを好む場合、自分の注視および/またはコンピュータ化された眼鏡204を向け直すことができる。いくつかの実装形態において、ユーザ202がそれらの選択に満足した場合、ユーザ202は、それらの選択を確認し、第1のコンピューティングデバイスを口頭の発話に応答させるために、しきい値期間の間、第1のコンピューティングデバイスを見続けるか、または両方のコンピューティングデバイスから目をそらすことができる。
いくつかの実装形態において、レンズ206においてレンダリングされるグラフィカルコンテンツは、自動化アシスタントおよび/または別のアプリケーションにユーザによって提出された特定の要求のパラメータを明確にすることを支援することができる。例えば、ユーザ202は、「なにか音楽を再生して」などの口頭の発話を提供することができ、これに応答して、自動化アシスタントは、第1の音楽アプリケーション用の第1のアイコンと第2の音楽アプリケーション用の第2のアイコンとをレンズ206においてレンダリングさせることができる。アイコンは、ユーザ202が注意を向けている特定のコンピューティングデバイスにおいてまたはその近くにレンダリングされ得、アイコンは、音楽をレンダリングするための特定の音楽アプリケーションを選択するようにユーザ202を促すために、フィードバックを提供するようにレンダリングされる。いくつかの実装形態において、特定の音楽アプリケーションが選択される前にユーザが有する時間を示すために、レンズ206においてタイマもレンダリングされ得る。例えば、自動化アシスタントは、ユーザ202があるアプリケーションを他のアプリケーションよりも好むかどうかを示す追加の入力を提供しない場合、特定のアイコンに対応する音楽アプリケーションがデフォルトで選択されることを示す視覚的フィードバックを提供するために、その特定のアイコンをレンダリングさせることができる。
いくつかの実装形態において、レンズ206においてレンダリングされるグラフィカルコンテンツは、ユーザ202からのアシスタント入力に応答してアプリケーションに提供されるべきパラメータに対応することができる。例えば、「新しい曲を再生して」という口頭の発話に応答して、自動化アシスタントは、レンズ206内で、特定のオーディオデバイスにおいてまたはその近くに第1のグラフィカル要素と第2のグラフィカル要素とをレンダリングさせることができる。第1のグラフィカル要素は、第1の曲の名前を識別するテキストを含むことができ、第2のグラフィカル要素は、第2の曲の名前を識別するテキストを含むことができる。このようにして、ユーザ202は、ユーザが提供した口頭の発話にいくらかの曖昧さがあったこと、および特定の曲を選択するために追加の入力が必要であり得ることに気付くことができる。次いで、ユーザ202は、特定の曲を指定するために、追加の入力を提供する(例えば、ユーザの注視を調整する、ユーザの頭部を回転させる、ジェスチャを実行する、特定のアイコンを注視しながらハウジング214をタップする、別の口頭の発話を提供する、および/または任意の他の入力を提供する)ことができる。いくつかの実装形態において、ユーザ202の向きの変化が検出されると、レンズ206においてレンダリングされるグラフィカルコンテンツは、向きの変化に従って調整され得る。例えば、ユーザ202が見ているコンピューティングデバイスの上に現れるようにレンダリングされるアイコンは、レンズ206内で、ユーザ202が自分の頭部を回転させた方向に対して反対の方向においてシフトされ得る。同様に、コンピューティングデバイスがユーザ202および/またはコンピュータ化された眼鏡204の視野内にもはやない場合、アイコンは、レンズ206内にもはやレンダリングされないことが可能である。
図3A、図3B、図3C、図3D、および図3Eは、デバイス調停のためにコンピュータ化された眼鏡304に依存することができる自動化アシスタントと対話するユーザ302のビュー300、ビュー320、ビュー340、ビュー360、およびビュー380をそれぞれ示す。これらの図は、ユーザ302が部屋の中のコンピューティングデバイスにおいて特定の動作を実行させ、次いで別の部屋に移動するが、動作を制御するためにコンピュータ化された眼鏡304にアシスタント入力を提供する能力を維持する、少なくとも1つの例を示す。例えば、ユーザ302は、「アシスタント、昨夜からのセキュリティカメラからの映像を再生して」などの口頭の発話312を提供することができる。口頭の発話312は、自動化アシスタントがセキュリティアプリケーションにアクセスし、自動化アシスタントにアクセス可能なディスプレイデバイスにおいて、セキュリティアプリケーションからのビデオデータをレンダリングするための要求を含むことができる。
いくつかの実装形態において、ユーザ302が、ビデオデータがレンダリングされることを意図している特定のデバイスを決定するために、自動化アシスタントは、1つまたは複数のデバイスに1つまたは複数の異なる出力をそれぞれ提供させることができる。出力は、ユーザが口頭の発話312を提供したときにユーザ302によって装着されているコンピュータ化された眼鏡304によって検出され得る。例えば、自動化アシスタントは、口頭の発話312を検出した1つまたは複数の候補デバイスを識別することができる。いくつかの実装形態において、自動化アシスタントは、各候補デバイスに出力を提供させることができる。各候補デバイスにおいて提供させられる出力は、他の候補デバイスにおいて提供させられる出力に対して区別され得る。言い換えると、候補デバイスの各々は、対応する一意の出力を提供させられ得る。いくつかの実装形態において、自動化アシスタントは、候補デバイスにおいて候補デバイスにおける出力を1回または複数回レンダリングさせ、各レンダリングを、10分の1秒未満または50ミリ秒未満など、所与の持続時間未満にさせる。それらおよび/または他の実装形態のうちのいくつかにおいて、候補デバイスにおいてレンダリングされる出力は、人工的なモダリティなしでは人間によって検出できない場合がある出力であり得る。例えば、自動化アシスタントは、テレビ306に、テレビ306およびタブレットデバイス310においてそれぞれレンダリングされている1つまたは複数のグラフィカルコンテンツフレームに画像を組み込ませることができる。画像を含むフレームは、人間によって検出可能なフレーム周波数よりも高い周波数(例えば、毎秒60フレーム以上)においてレンダリングされ得る。このようにして、ユーザが口頭の発話312を提供したときにユーザ302がテレビ306の方を向いている場合、コンピュータ化された眼鏡304の前向きのカメラは、ユーザ302が中断されることなく、1つまたは複数のフレーム内の画像を検出することができる。代替的または追加的に、テレビ306とタブレットデバイス310の両方が前向きのカメラおよび/またはユーザ320の両方が前向きのカメラおよび/またはユーザ302の視野内にある場合、自動化アシスタントは、テレビ306がタブレットデバイス310よりもユーザ302および/またはコンピュータ化された眼鏡304の焦点の多くを占有していると判断することができる。
いくつかの実装形態において、自動化アシスタントは、ユーザ302が口頭の発話を提供するとき、テレビ306およびタブレットデバイス310がコンピュータ化された眼鏡304および/またはユーザ302の近くにあると判断することができる。この判断に基づいて、自動化アシスタントは、カメラおよび/またはコンピュータ化された眼鏡304の視野内にあるデバイスを識別するために、テレビ306およびタブレットデバイス310に異なる画像をレンダリングさせることができる。次いで、自動化アシスタントは、ユーザ302が自分の入力を向けている特定のデバイスを識別するために、コンピュータ化された眼鏡304の1つまたは複数のカメラがある画像を検出したが、別の画像を検出しなかったかどうかを判断することができる。
いくつかの実装形態において、環境内の1つまたは複数のデバイスは、デバイス調停中に各々の対応するデバイスおよび/または自動化アシスタントによって制御され得るLEDを含むことができる。次いで、LEDから放射された光は、ユーザ302からの入力に応答する特定のデバイスを選択するために検出され得る。例えば、ユーザ302からの口頭の発話が第1のデバイスおよび第2のデバイスにおいて検出されることに応答して、自動化アシスタントは、第1のデバイスの第1のLEDと第2のデバイスの第2のLEDとを点灯させることができる。自動化アシスタントが、第2のLEDからではなく、第1のLEDから放射された光がコンピュータ化された眼鏡304によって検出されていると判断した場合、自動化アシスタントは、口頭の発話に応答するように第1のデバイスを選択することができる。代替的または追加的に、自動化アシスタントは、デバイス調停を支援するために、特定の特性を示すように各LEDを点灯させることができる。例えば、第1のLEDは、第1のLEDによって放射される光の特性が第2のLEDによって放射される他の光の特性と異なるように点灯することができる。そのような特性は、色、振幅、持続時間、周波数、ならびに/またはアプリケーションおよび/もしくはデバイスによって制御され得る光の任意の他の特性を含むことができる。例えば、自動化アシスタントは、第1のLEDを0.5秒毎に0.1秒点灯させ、第2のLEDを0.35秒毎に0.05秒点灯させることができる。このようにして、コンピュータ化された眼鏡304の1つまたは複数のカメラは、これらの光のパターンを検出することができ、自動化アシスタントは、各々の検出されたパターンをそれぞれのデバイスに関連付けることができる。次いで、自動化アシスタントは、ユーザ入力に応答する特定のデバイスを選択するために、ユーザ302が注視および/またはコンピュータ化された眼鏡304を向けているLEDを識別することができる。
場合によっては、自動化アシスタントは、口頭の発話312がテレビ306に向けられていると判断することができ、306のテレビに、テレビ306においてセキュリティカメラからのカメラ映像を再生する動作314を実行させることができる。例えば、自動化アシスタントは、ユーザ302が要求しているセキュリティ映像をレンダリングするために、テレビ306においてセキュリティアプリケーションにアクセスさせることができる。セキュリティアプリケーションが起動されると、セキュリティアプリケーションを識別するアイコン330、および選択可能なGUI要素332(すなわち、グラフィカル要素)がテレビ306においてレンダリングされ得る。カメラ映像の特定の特徴を識別するために、ユーザ302は、テレビ306からのオーディオ316を聞き、テレビ306のディスプレイインターフェースにおいてレンダリングされたビデオを見ることができる。さらに、ユーザ302は、コンピュータ化された眼鏡304を介してテレビ306および/またはセキュリティアプリケーションを制御するために、様々な物理的ジェスチャを実行することができる。例えば、コンピュータ化された眼鏡304は、自動化アシスタントによって処理するための画像データを取り込むことができる外向きのカメラ322を含むことができる。例えば、ユーザ302がスワイプジェスチャ326を実行すると、自動化アシスタントは、スワイプジェスチャ326を検出し、セキュリティアプリケーションにスワイプジェスチャ326に対応する特定の動作(例えば、早送り)を実行させることができる。
いくつかの実装形態において、そのユーザ302は、ユーザ302の移動344を反映する方法においてコンピュータ化された眼鏡304を動作させるために、ユーザの家の別の部屋に移動することができる。例えば、ユーザ302は、図3Cおよび図3Dに示すように、依然としてセキュリティアプリケーションからのオーディオ316も聞きながら、自分の洗濯物364を変更するために、環境308から別の環境362に移動することができる。コンピュータ化された眼鏡304は、ユーザ302がテレビ306から離れて移動することに応答して、セキュリティアプリケーションおよび/または自動化アシスタントを制御するためのインターフェースを提供することができる。いくつかの実装形態において、ユーザ302が移動したという決定は、環境308内のコンピュータ化された眼鏡および/または1つもしくは複数の他のデバイスにおいて生成されたデータに基づくことができる。いくつかの実装形態において、コンピュータ化された眼鏡304は、ユーザ302がコンピュータ化された眼鏡304を介して以前に観察していたアプリケーションおよび/またはデバイスをユーザ302が制御することができることを示すことができる。例えば、コンピュータ化された眼鏡304のディスプレイインターフェースにおいて、セキュリティアプリケーションを表すアイコン330がレンダリングされ得る。代替的または追加的に、ユーザ302が自分の凝視および/または顔をテレビ306から遠ざけて向け直したことに応答して、コンピュータ化された眼鏡304のディスプレイインターフェースにおいて、テレビ306においてレンダリングされた選択可能なGUI要素332およびグラフィカル要素384がレンダリングされ得る。
いくつかの実装形態において、ユーザ302がデバイスを見ていない、および/またはそうでなければ別のコンピューティングデバイスの方に注意を向けている可能性がある場合、コンピュータ化された眼鏡304を使用してデバイス調停が実行され得る。例えば、図3Eに提供するように、ユーザ302は、自動化アシスタント、特定のアプリケーション、および/または特定のコンピューティングデバイスに入力を提供するために、ジェスチャ382を実行することができる。コンピュータ化された眼鏡の1つまたは複数のカメラ(例えば、外向きのカメラ322)は、ユーザ302がユーザの手を左位置368から右に向かって操作する物理的ジェスチャであり得る物理的ジェスチャを検出することができる。物理的ジェスチャ382を検出したことに応答して、自動化アシスタントは、物理的ジェスチャを検出した1つまたは複数のデバイスを識別するように動作することができる。場合によっては、自動化アシスタントは、コンピュータ化された眼鏡304のみが物理的ジェスチャ382を検出したと判断する場合がある。それにもかかわらず、自動化アシスタントは、物理的ジェスチャ382がコンピュータ化された眼鏡304および/または別のデバイスにおいて1つまたは複数の動作を初期化することを意図されていたかどうかを判断することができる。
場合によっては、ユーザ302は、コンピュータ化された眼鏡304のディスプレイインターフェースにおいてセキュリティアプリケーションからのコンテンツを見ている場合がある。そのような場合、自動化アシスタントは、物理的ジェスチャ382がセキュリティアプリケーションの動作に影響を与えることを意図されていると判断することができる。物理的ジェスチャ382に応答して、自動化アシスタントは、セキュリティアプリケーションに、コンピュータ化された眼鏡304においてレンダリングされている特定のコンテンツを早送りさせることができる。代替的または追加的に、自動化アシスタントは、ユーザ302が物理的ジェスチャ382を向けているアプリケーションおよび/またはデバイスを識別するためのヒューリスティックプロセスを実行することができる。いくつかの実装形態において、ユーザ302からの事前の許可を得て、自動化アシスタントは、ユーザ302が最近テレビ306を注視しており、テレビ306を注視する前に、ユーザ302がタブレットデバイス310を注視していたと判断することができる。この判断は、物理的ジェスチャ382に応答するデバイスを選択するときに、自動化アシスタントに、タブレットデバイス310よりもテレビ306を優先させることができる。
代替的または追加的に、自動化アシスタントは、コンピュータ化された眼鏡304の内向きのカメラ324からの画像データに基づいて、ユーザ302が最近テレビ306におけるセキュリティアプリケーションを注視しており、セキュリティアプリケーションを注視する前に、ユーザ302がタブレットデバイス310におけるソーシャルメディアアプリケーションを注視していたと判断することができる。セキュリティアプリケーションとソーシャルメディアアプリケーションとを識別することに基づいて、自動化アシスタントは、物理的ジェスチャ382がセキュリティアプリケーションへの入力として受け入れ可能であるが、ソーシャルメディアアプリケーションへの入力として受け入れ可能ではないと判断することができる。したがって、このプロセスによれば、自動化アシスタントは、ユーザ302からの物理的ジェスチャ入力に応答すべきセキュリティアプリケーションを選択することができる。
いくつかの実装形態において、アプリケーションデータおよび/またはコンテキストデータを処理するために使用され得る1つまたは複数のトレーニング済み機械学習モデルを使用して、デバイス調停が実行され得る。アプリケーションデータは、例えば、ユーザ302が物理的ジェスチャ382を提供するときに、ユーザ302に関連付けられ得る1つまたは複数のアプリケーションの動作状態を特徴付けることができる。代替的または追加的に、コンテキストデータは、ユーザ302が物理的ジェスチャ382を提供したコンテキストの特徴を特徴付けることができる。そのような特徴は、限定はしないが、ユーザ302の位置、時刻、(ユーザからの事前の許可を得て)ユーザの1つもしくは複数の活動、および/またはユーザ302が物理的ジェスチャ382を提供するときにユーザ302に関連付けられ得る任意の他の情報を含むことができる。例えば、コンピュータ化された眼鏡304の1つもしくは複数のマイクロフォン、および/または1つもしくは複数の他のデバイスによって取り込まれたオーディオデータが、ユーザ302からの事前の許可を得て、環境のコンテキスト特徴を識別するために処理され得る。例えば、物理的ジェスチャ382が映画をレンダリングしているアプリケーションに影響を与えるべきかどうかを判断する際に自動化アシスタントを支援するために、映画からの音声を取り込むオーディオデータが使用され得る。自動化アシスタントが、物理的ジェスチャ382が映画に影響を与える(例えば、ユーザが聞きたくない映画の部分を通して映画を早送りする)ことを意図していると判断すると、自動化アシスタントは、ユーザが必ずしも映画を表示しているテレビ306を注視しなくても、映画をレンダリングしているアプリケーションに伝達され得るコマンドデータを生成することができる。
図4は、拡張現実を実行するための機能を有する、コンピュータ化された眼鏡などのデバイスから利用可能なデータを使用してデバイス調停を実行するためのシステム400を示す。自動化アシスタント404は、コンピューティングデバイス402および/またはサーバデバイスなどの1つもしくは複数のコンピューティングデバイスにおいて提供されるアシスタントアプリケーションの一部として動作することができる。ユーザは、マイクロフォン、カメラ、タッチスクリーンディスプレイ、ユーザインターフェース、および/またはユーザとアプリケーションとの間のインターフェースを提供することができる任意の他の装置で有り得るアシスタントインターフェース420を介して自動化アシスタント404と対話することができる。例えば、ユーザは、自動化アシスタント404に1つまたは複数のアクション(例えば、データを提供する、周辺デバイスを制御する、エージェントにアクセスする、入力および/または出力を生成するなど)を初期化させるために、アシスタントインターフェース420に口頭、テキスト、および/またはグラフィカル入力を提供することによって、自動化アシスタント404を初期化することができる。代替的には、自動化アシスタント404は、1つまたは複数のトレーニング済み機械学習モデルを使用するコンテキストデータ436の処理に基づいて初期化され得る、コンテキストデータ436は、自動化アシスタント404がアクセス可能な環境の1つもしくは複数の特徴、および/または自動化アシスタント404と対話することを意図していると予想されるユーザの1つまたは複数の特徴を特徴付けることができる。
コンピューティングデバイス402は、ユーザがタッチインターフェースを介してコンピューティングデバイス402のアプリケーション434を制御することを可能にするためのタッチ入力および/またはジェスチャを受け取るためのタッチインターフェースを含むディスプレイパネルであり得るディスプレイデバイスを含むことができる。いくつかの実装形態において、コンピューティングデバイス402は、ディスプレイデバイスを欠くことができ、それによって、グラフィカルユーザインターフェース出力を提供することなく、可聴ユーザインターフェース出力を提供する。さらに、コンピューティングデバイス402は、ユーザからの口頭の自然言語入力を受け取るための、マイクロフォンなどのユーザインターフェースを提供することができる。いくつかの実装形態において、コンピューティングデバイス402は、タッチインターフェースを含むことができ、カメラをなくすことができるが、オプションで、1つまたは複数の他のセンサを含むことができる。いくつかの実装形態において、コンピューティングデバイス402は、拡張現実機能を提供することができ、ならびに/または、限定はしないが、コンピュータ化された眼鏡、コンタクトレンズ、腕時計、衣料品、および/もしくは任意の他のウェアラブルデバイスなどのウェアラブルデバイスで有り得る。したがって、コンピュータ化された眼鏡に関して様々な実装形態が本明細書で説明されているが、本明細書で開示される技法は、コンピュータ化された眼鏡ではない他のウェアラブルデバイスなどの、拡張現実機能を含む他の電子デバイスと併せて実装され得る。
コンピューティングデバイス402および/または他のサードパーティクライアントデバイスは、インターネットなどのネットワークを介してサーバデバイスと通信することができる。それに加えて、コンピューティングデバイス402および任意の他のコンピューティングデバイスは、Wi-Fiネットワークなどのローカルエリアネットワーク(LAN)を介して互いに通信することができる。コンピューティングデバイス402は、コンピューティングデバイス402における計算リソースを節約するために、計算タスクをサーバデバイスにオフロードすることができる。例えば、サーバデバイスは、自動化アシスタント404をホストすることができ、および/またはコンピューティングデバイス402は、1つまたは複数のアシスタントインターフェース420において受信した入力をサーバデバイスに送信することができる。しかしながら、いくつかの実装形態において、自動化アシスタント404は、コンピューティングデバイス402においてホストされ得、自動化アシスタント動作に関連付けられ得る様々なプロセスが、コンピューティングデバイス402において実行され得る。
様々な実装形態において、自動化アシスタント404のすべての態様またはすべての態様よりも少ない態様がコンピューティングデバイス402において実装され得る。それらの実装形態のうちのいくつかにおいて、自動化アシスタント404の態様は、コンピューティングデバイス402を介して実装され、自動化アシスタント404の他の態様を実装することができるサーバデバイスとインターフェースすることができる。サーバデバイスは、複数のスレッドを介して複数のユーザおよびそれらに関連するアシスタントアプリケーションにサービスをオプションで提供することができる。自動化アシスタント404のすべての態様またはすべての態様よりも少ない態様がコンピューティングデバイス402を介して実装される実装形態において、自動化アシスタント404は、コンピューティングデバイス402のオペレーティングシステムとは別の(例えば、オペレーティングシステムの「上に」インストールされた)アプリケーションであり得、または代替的には、コンピューティングデバイス402のオペレーティングシステムによって直接実装され得る(例えば、オペレーティングシステムのアプリケーションとみなされるが、オペレーティングシステムと一体である)。
いくつかの実装形態において、自動化アシスタント404は、コンピューティングデバイス402および/またはサーバデバイスの入力および/または出力を処理するための複数の異なるモジュールを用いることができる入力処理エンジン406を含むことができる。例えば、入力処理エンジン406は、オーディオデータにおいて具体化されたテキストを識別するために、アシスタントインターフェース420において受信したオーディオデータを処理することができる音声処理エンジン408を含むことができる。オーディオデータは、例えば、コンピューティングデバイス402における計算リソースを保存するために、コンピューティングデバイス402からサーバデバイスに送信され得る。追加的または代替的に、オーディオデータは、コンピューティングデバイス402において排他的に処理され得る。
オーディオデータをテキストに変換するためのプロセスは、単語または句に対応するオーディオデータのグループを識別するためのニューラルネットワークおよび/または統計モデルを用いることができる音声認識アルゴリズムを含むことができる。オーディオデータから変換されたテキストは、データ解析エンジン410によって解析され、コマンドフレーズ、意図、アクション、スロット値、および/またはユーザによって指定された任意の他のコンテンツを生成および/または識別するために使用され得るテキストデータとして自動化アシスタント404に利用可能にされ得る。いくつかの実装形態において、データ解析エンジン410によって提供される出力データは、自動化アシスタント404、および/または自動化アシスタント404を介してアクセスされ得るアプリケーションもしくはエージェントによって実行され得る特定の意図、アクション、および/またはルーチンに対応する入力をユーザが提供したかどうかを判断するために、パラメータエンジン412に提供され得る。例えば、アシスタントデータ438が、サーバデバイスおよび/またはコンピューティングデバイス402において記憶され得、自動化アシスタント404によって実行され得る1つまたは複数のアクションを定義するデータ、ならびにアクションを実行するために必要なパラメータを含むことができる。パラメータエンジン412は、意図、アクション、および/またはスロット値のための1つまたは複数のパラメータを生成し、1つまたは複数のパラメータを出力生成エンジン414に提供することができる。出力生成エンジン414は、出力をユーザに提供するためにアシスタントインターフェース420と通信し、および/または出力を1つもしくは複数のアプリケーション434に提供するために1つもしくは複数のアプリケーション434と通信するために、1つまたは複数のパラメータを使用することができる。
いくつかの実装形態において、自動化アシスタント404は、コンピューティングデバイス402の「上に」インストールされ得る、および/またはそれ自体がコンピューティングデバイス402のオペレーティングシステムの一部(または全体)を形成することができるアプリケーションであり得る。自動化アシスタントアプリケーションは、オンデバイス音声認識、オンデバイス自然言語理解、およびオンデバイスフルフィルメントを含む、および/またはそれらにアクセスすることができる。例えば、オンデバイス音声認識は、コンピューティングデバイス402においてローカルに記憶されたエンドツーエンド音声認識機械学習モデルを使用して(マイクロフォンによって検出された)オーディオデータを処理するオンデバイス音声認識モジュールを使用して実行され得る。オンデバイス音声認識は、オーディオデータ内に存在する口頭の発話(存在する場合)に対して認識されたテキストを生成する。また、例えば、オンデバイス自然言語理解(NLU)は、NLUデータを生成するために、オンデバイス音声認識を使用して生成された認識されたテキストと、オプションでコンテキストデータとを処理するオンデバイスNLUモジュールを使用して実行され得る。
NLUデータは、口頭の発話に対応する意図と、オプションで意図に関するパラメータ(例えば、スロット値)とを含むことができる。オンデバイスフルフィルメントは、口頭の発話の意図(およびオプションで意図に関するパラメータ)を解決するためにとるアクションを決定するために、(オンデバイスNLUからの)NLUデータと、オプションで他のローカルデータとを利用するオンデバイスフルフィルメントモジュールを使用して実行され得る。これは、口頭の発話に対するローカルおよび/もしくはリモート応答(例えば、回答)、口頭の発話に基づいて実行するローカルにインストールされたアプリケーションとの対話、口頭の発話に基づいてインターネットオブシングス(IoT)デバイスに(直接または対応するリモートシステムを介して)送信するコマンド、ならびに/もしくは口頭の発話に基づいて実行する他の解決アクションを決定することを含むことができる。次いで、オンデバイスフルフィルメントは、口頭の発話を解決するために、決定されたアクションのローカルおよび/またはリモート履行/実行を開始することができる。
様々な実装形態において、リモート音声処理、リモートNLU、および/またはリモートフルフィルメントが、少なくとも選択的に利用され得る。例えば、認識されたテキストは、リモートNLUおよび/またはリモートフルフィルメントのためにリモート自動化アシスタント構成要素に少なくとも選択的に送信され得る。例えば、認識されたテキストは、オプションで、オンデバイスの履行と並行して、またはオンデバイスNLUおよび/もしくはオンデバイスフルフィルメントの失敗に応答して、リモートの履行のために送信され得る。しかしながら、オンデバイス音声処理、オンデバイスNLU、オンデバイスフルフィルメント、および/またはオンデバイス実行は、少なくとも、(口頭の発話を解決するためにクライアント-サーバのラウンドトリップが必要とされないため)口頭の発話を解決するときに提供する待ち時間の短縮のために優先され得る。さらに、オンデバイス機能は、ネットワーク接続性がない、または制限されている状況において利用可能な唯一の機能である可能性がある。
いくつかの実装形態において、コンピューティングデバイス402は、コンピューティングデバイス402および/または自動化アシスタント404を提供したエンティティとは異なるサードパーティエンティティによって提供され得る1つまたは複数のアプリケーション434を含むことができる。自動化アシスタント404および/またはコンピューティングデバイス402のアプリケーション状態エンジンは、1つまたは複数のアプリケーション434によって実行され得る1つまたは複数のアクション、ならびに1つもしくは複数のアプリケーション434の各アプリケーションの状態および/またはコンピューティングデバイス402に関連付けられたそれぞれのデバイスの状態を決定するために、アプリケーションデータ430にアクセスすることができる。自動化アシスタント404および/またはコンピューティングデバイス402のデバイス状態エンジンは、コンピューティングデバイス402および/またはコンピューティングデバイス402に関連付けられた1つもしくは複数のデバイスによって実行され得る1つまたは複数のアクションを決定するために、デバイスデータ432にアクセスすることができる。さらに、アプリケーションデータ430および/または任意の他のデータ(例えば、デバイスデータ432)は、特定のアプリケーション434および/もしくはデバイスが実行されているコンテキスト、ならびに/または特定のユーザがコンピューティングデバイス402にアクセスしている、アプリケーション434にアクセスしている、および/もしくは任意の他のデバイスもしくはモジュールにアクセスしているコンテキストを特徴付けることができるコンテキストデータ436を生成するために、自動化アシスタント404によってアクセスされ得る。
1つまたは複数のアプリケーション434がコンピューティングデバイス402において実行されている間、デバイスデータ432は、コンピューティングデバイス402において実行されている各アプリケーション434の現在の動作状態を特徴付けることができる。さらに、アプリケーションデータ430は、1つまたは複数のアプリケーション434の方向においてレンダリングされている1つまたは複数のグラフィカルユーザインターフェースのコンテンツなどの、実行中のアプリケーション434の1つまたは複数の特徴を特徴付けることができる。代替的または追加的に、アプリケーションデータ430は、それぞれのアプリケーションの現在の動作状態に基づいてそれぞれのアプリケーションによっておよび/または自動化アシスタント404によって更新され得るアクションスキーマを特徴付けることができる。代替的または追加的に、1つまたは複数のアプリケーション434のための1つまたは複数のアクションスキーマは、静的なままであり得るが、自動化アシスタント404を介して初期化するのに適したアクションを決定するために、アプリケーション状態エンジンによってアクセスされ得る。
コンピューティングデバイス402は、アプリケーションデータ430、デバイスデータ432、コンテキストデータ436、および/またはコンピューティングデバイス402にアクセス可能な任意の他のデータを処理するために、1つまたは複数のトレーニング済み機械学習モデルを使用することができるアシスタント呼び出しエンジン422をさらに含むことができる。アシスタント呼び出しエンジン422は、自動化アシスタント404を呼び出すためにユーザが呼び出しフレーズを明示的に話すのを待つかどうかを判断するため、またはユーザに呼び出しフレーズを明示的に話すことを要求する代わりに、データを自動化アシスタントを呼び出すユーザによる意図を示すものであるとみなすかどうかを判断するために、このデータを処理することができる。例えば、1つまたは複数のトレーニング済み機械学習モデルは、複数のデバイスおよび/またはアプリケーションが様々な動作状態を示している環境にユーザがいるシナリオに基づくトレーニングデータのインスタンスを使用してトレーニングされ得る。トレーニングデータのインスタンスは、ユーザが自動化アシスタントを呼び出すコンテキストと、ユーザが自動化アシスタントを呼び出さない他のコンテキストとを特徴付けるトレーニングデータを取り込むために生成され得る。
1つまたは複数のトレーニング済み機械学習モデルがトレーニングデータのこれらのインスタンスに従ってトレーニングされる場合、アシスタント呼び出しエンジン422は、コンテキストおよび/または環境の特徴に基づいて、自動化アシスタント404に、ユーザからの話された呼び出しフレーズを検出させる、または検出することを制限させることができる。追加的または代替的に、アシスタント呼び出しエンジン422は、コンテキストおよび/または環境の特徴に基づいて、自動化アシスタント404に、ユーザからの1つまたは複数のアシスタントコマンドを検出させる、または検出することを制限させることができる。いくつかの実装形態において、アシスタント呼び出しエンジン422は、コンピューティングデバイス402が別のコンピューティングデバイスからのアシスタント抑制出力を検出することに基づいて、無効化または制限され得る。このようにして、コンピューティングデバイス402がアシスタント抑制出力を検出している場合、自動化アシスタント404は、そうでなければ、アシスタント抑制出力が検出されていない場合に自動化アシスタント404を呼び出させるコンテキストデータ436に基づいて呼び出されない。
いくつかの実装形態において、システム400は、1つまたは複数のデバイスおよび/またはアプリケーションがユーザからの入力を検出したときにデバイス調停を実行することを支援することができるデバイス調停エンジン416を含むことができる。例えば、いくつかの実装形態において、デバイス調停エンジン416は、デバイス調停プロセスを初期化するかどうかを判断するために、1つまたは複数の異なるデバイスからのデータを処理することができる。いくつかの実装形態において、データは、ネットワーク接続、システム400の1つもしくは複数のインターフェース、および/またはコンピューティングデバイスがデータを受信することができる任意の他のモダリティを介して受信され得る。例えば、デバイス調停エンジン416は、複数の異なるデバイスがアシスタント入力に応答して超音波および/または光を投射していると判断することができる。この判断に基づいて、デバイス調停エンジン416は、ユーザからのアシスタント入力に応答する複数の異なるデバイスのうちの特定のデバイスを選択するためのプロセスを初期化することができる。
いくつかの実装形態において、システム400は、ユーザの環境内の1つまたは複数のオブジェクトに対するユーザの注視を決定することができる注視検出エンジン418を含むことができる。例えば、システム400は、ユーザの1つまたは複数の目に向けられた内向きのカメラを含むコンピュータ化された眼鏡であり得る。内向きのカメラを使用して生成された画像データに基づいて、システム400は、ユーザが自分の目を向けている環境内の特定のエリアを識別することができる。いくつかの実装形態において、注視検出エンジン418は、カメラを含む別個のコンピューティングデバイスなどの1つまたは複数の異なるデバイスからのデータに基づいて、ユーザの注視の方向を決定することができる。別個のコンピューティングデバイスからの画像データは、ユーザからの事前の許可を得て、ユーザの姿勢、および/またはユーザがユーザの付属物のうちの1つまたは複数を向けている方向を示すことができる。このようにして、注視検出エンジン418は、ユーザが自動化アシスタント404に入力を提供する前、最中、および/または後に、ユーザがユーザの注意を向けている方向を決定することができる。
いくつかの実装形態において、システム400は、ユーザおよび/またはデバイスの1つもしくは複数のカメラの視野を特徴付けるデータを処理することができる視野エンジン426を含むことができる。例えば、視野エンジン426は、時間の1つまたは複数のインスタンスにおいてカメラの視野内に位置する1つもしくは複数のオブジェクトおよび/またはデバイスを識別するために、コンピュータ化された眼鏡の1つまたは複数のカメラからの画像データを処理することができる。いくつかの実装形態において、視野エンジン426は、ユーザの視野内の特定のデバイスに関連付けられ得る特定のオブジェクトを識別するために、デバイスデータ432を処理することもできる。例えば、キッチンシンクは、ユーザの独立型ディスプレイデバイスに関連付けられたオブジェクトであり得る。したがって、視野エンジン426は、ユーザがユーザ入力を提供したときにキッチンシンクがユーザの視野内で識別される場合、独立型コンピューティングデバイスがユーザ入力の対象であると判断することができる。
いくつかの実装形態において、システム400は、システム400の1つまたは複数のインターフェースに、デバイス調停エンジン416からの出力に従ってコンテンツをレンダリングさせるためのインターフェースコンテンツエンジン424を含むことができる。例えば、デバイス調停エンジン416が、コンピューティングデバイス402をユーザからの入力の対象であると識別した場合、インターフェースコンテンツエンジン424は、コンピューティングデバイス402の1つまたは複数のインターフェース(例えば、コンピュータ化された眼鏡のディスプレイインターフェース)においてコンテンツをレンダリングさせることができる。デバイス調停エンジン416が、ユーザが入力を別個のコンピューティングデバイスに向け、別個のコンピューティングデバイスがユーザの視野内にあると判断した場合、インターフェースコンテンツエンジン424は、別個のコンピューティングデバイスのために通知をレンダリングさせることができる。例えば、インターフェースコンテンツエンジン424は、コンピューティングデバイス402がコンピュータ化された眼鏡である場合、コンピューティングデバイス402のディスプレイインターフェースにおいてグラフィカルコンテンツをレンダリングさせることができる。グラフィカルコンテンツは、グラフィカルコンテンツがユーザの視野内で(例えば、別個のデバイスの位置に対応する眼鏡のレンズのエリア内で)別個のコンピューティングデバイス「の上」および/または隣接して現れるようにレンダリングされ得る。グラフィカルコンテンツは、限定はしないが、デバイス調停エンジン416がユーザからの入力に応答するものとして別個のコンピューティングデバイスを選択したことを示すことができる1つまたは複数のアイコン、色、および/または他のグラフィカル特徴を含むことができる。
いくつかの実装形態において、デバイス調停エンジン416は、ユーザが入力の対象とすることを意図した特定のデバイスを識別することを支援するために、ユーザからの追加の入力を要求し得る。デバイス調停エンジン416は、インターフェースコンテンツエンジン424に候補デバイスの識別子および/または位置を伝達得ることができ、インターフェースコンテンツエンジン424は、コンピュータ化された眼鏡のレンズ内で、候補デバイスの相対位置においてまたはその近くにおいてグラフィカル表示をレンダリングすることができる。例えば、ユーザの視野の最も左の部分におけるコンピューティングデバイスが候補デバイスであることを示すために、コンピュータ化された眼鏡のディスプレイインターフェースの最も左の部分において第1の選択可能な要素がレンダリングされ得る。ユーザの視野の中央部分における別のコンピューティングデバイスも候補デバイスであることを示すために、第1の選択可能な要素と同時に、ディスプレイインターフェースのより中央の位置において第2の選択可能な要素がレンダリングされ得る。次いで、コンピュータ化された眼鏡の1つまたは複数のカメラがジェスチャを取り込むために、ユーザは自分の顔の前でジェスチャ(例えば、自分の人差し指を立てる)を実行することができる。ジェスチャは、特定のデバイス(例えば、最も中央のデバイス)が、ユーザがユーザ入力に応答することを意図したデバイスであることを自動化アシスタント404に示すことができる。
図5は、コンピュータ化された眼鏡などのウェアラブルコンピューティングデバイスから利用可能なデータを使用して、マルチデバイス環境においてデバイス調停を実施するための方法500を示す。方法500は、自動化アシスタントに関連付けられ得る1つまたは複数のコンピューティングデバイス、アプリケーション、および/または任意の他の装置もしくはモジュールによって実行され得る。方法500は、アシスタント入力が検出されたかどうかを判断する動作502を含むことができる。アシスタント入力は、自動化アシスタントへのアクセスを提供する1つまたは複数のコンピューティングデバイスにユーザによって提供されるユーザ入力であり得る。いくつかの実装形態において、アシスタント入力は、コンピュータ化された眼鏡、コンピュータ化されたコンタクトレンズ、電話、タブレットデバイス、ポータブルコンピューティングデバイス、スマートウォッチ、および/または1人もしくは複数のユーザの知覚を拡張することができる任意の他のコンピューティングデバイスなどの、拡張現実機能を有するコンピューティングデバイスに提供され得る。コンピュータ化された眼鏡を含む、本明細書で論じられる実装形態において、コンピュータ化された眼鏡は、拡張現実機能を提供する任意のコンピューティングデバイスであり得ることが留意されるべきである。アシスタント入力が検出されると、方法500は、動作502から動作504に進むことができる。そうでなければ、自動化アシスタントは、ユーザが自動化アシスタントに入力を提供したかどうかを判断し続けることができる。
動作504は、アシスタント入力が複数のデバイスにおいて検出されたかどうかを判断することを含むオプションの動作であり得る。例えば、ユーザは、自動化アシスタントへのアクセスを提供する独立型スピーカデバイスを注視しながら、一組のコンピュータ化された眼鏡を装着していることができる。したがって、ユーザがアシスタント入力を提供すると、アシスタント入力は、コンピュータ化された眼鏡、独立型スピーカデバイス、およびユーザの環境内の1つまたは複数の他のデバイスにおいて検出され得る。単一のコンピューティングデバイスがアシスタント入力を排他的に検出した場合、方法500は、動作504から動作512に進むことができ、動作512において、アシスタント入力を検出した特定のコンピューティングデバイスは、1つまたは複数の動作の履行を初期化させる。しかしながら、複数のデバイスがアシスタント入力を検出した場合、方法500は、アシスタント入力に応答するための1つまたは複数のデバイスを選択するためのデバイス調停を初期化するために、動作504から動作506に進むことができる。
動作506は、ユーザからのアシスタント入力を検出した候補デバイスを識別することを含むことができる。例えば、アシスタント入力が口頭の発話である場合、自動化アシスタントは、口頭の発話に対応するオーディオデータを取り込んだ複数のデバイスを識別することができる。いくつかの実装形態において、各候補デバイスは、オーディオデータを取り込み、アシスタント入力に関するスコアを生成するためにオーディオデータを処理することができる。各候補デバイスにおける各スコアがしきい値を満たす場合、それらの候補デバイスに対してデバイス調停が初期化され得る。例えば、候補デバイスは、コンピュータ化された眼鏡、独立型スピーカデバイス、およびユーザがユーザの近くのテーブルの上に置いた可能性があるタブレットデバイスを含むことができる。方法500は、アシスタント入力が特定のコンピューティングデバイスに向けられたかどうかのさらなる判断のために、動作506から動作508に進むことができる。
動作508は、候補デバイスおよび/またはコンピュータ化された眼鏡において生成されたデータを処理することを含むことができる。例えば、コンピュータ化された眼鏡は、ユーザがアシスタント入力を向けている可能性がある特定のデバイスを識別するための画像データを生成するために使用され得る外向きのカメラおよび/または内向きのカメラを含むことができる。外向きのカメラを使用して生成された画像データは、候補デバイスのうちの1つまたは候補デバイスに関連付けられたオブジェクトを含む画像を取り込むことができる。例えば、独立型スピーカデバイスは、ユーザがアシスタント情報を提供したときにユーザが見ていた装飾テーブルによって支持され得る。結果として、装飾テーブルおよび/または独立型スピーカデバイスがユーザおよび/またはコンピュータ化された眼鏡の視野窓内にあると判断された場合、自動化アシスタントは、アシスタント入力が独立型スピーカデバイスに向けられていたと判断することができる。代替的または追加的に、候補デバイスのうちの1つまたは複数は、コンピュータ化された眼鏡の1つまたは複数のセンサによって検出され得る出力を提供することができる。したがって、コンピュータ化された眼鏡が候補デバイスのうちの特定のデバイスからの出力を検出すると、自動化アシスタントは、アシスタント入力がその特定のデバイスに向けられていたと判断することができる。
方法500は、動作510に進むことができ、動作510は、動作508における処理に基づいて、アシスタント入力が特定の候補デバイスに向けられていたと判断することを含むことができる。自動化アシスタントが、アシスタント入力が、コンピュータ化された眼鏡とは別に特定の候補デバイスに向けられていると判断すると、方法500は、動作510から動作512に進むことができる。代替的には、自動化アシスタントおよび/または別のアプリケーションが、アシスタント入力が特定の候補デバイスに向けられていないと判断した場合、方法500は、動作510から動作514に進むことができる。
動作514は、システム入力がコンピュータ化された眼鏡および/または拡張現実機能を提供する別のコンピューティングデバイスに向けられたかどうかを判断することを含むことができる。例えば、ユーザは、コンピュータ化された眼鏡を装着しながらノートに手書きしているときに口頭の発話を提供することができる。したがって、他の候補デバイスがユーザからの口頭の発話を検出した場合であっても、他の候補デバイスのいずれも、コンピュータ化された眼鏡の視野窓内に見えない場合がある。結果として、自動化アシスタントは、自動化アシスタントがコンピュータ化された眼鏡を介して口頭の発話に応答することをユーザが意図したと判断することができる。例えば、ユーザは、ユーザがノートを注視し、コンピュータ化された眼鏡を装着している間、自動化アシスタントがノートに書かれた単語のスペルをチェックすることを要求し得る。それに応答して、自動化アシスタントは、コンピュータ化された眼鏡に、拡張現実を介して単語がノートにおいて正しく綴られているかどうかを示すグラフィカル要素のうちの1つもしくは複数をレンダリングさせ、および/またはコンピュータ化された眼鏡の1つもしくは複数のスピーカを介して可聴出力を提供させることができる。
自動化アシスタントが、アシスタント入力がコンピュータ化された眼鏡に向けられていると判断すると、方法500は、動作514から動作512に進むことができる。そうでなければ、方法500は、動作514から動作516に進むことができる。動作516は、自動化アシスタントが、ユーザがアシスタント入力が向けられることを意図した特定のコンピューティングデバイスを識別する際に自動化アシスタントを支援するために、ユーザに追加の入力を要求することを含むオプションの動作であり得る。その後、方法500は、動作516から動作502および/または動作504に進むことができる。
図6は、例示的なコンピュータシステム610のブロック図600である。コンピュータシステム610は、典型的には、バスサブシステム612を介していくつかの周辺デバイスと通信する少なくとも1つのプロセッサ614を含む。これらの周辺デバイスは、例えば、メモリ625およびファイル記憶サブシステム626を含む記憶サブシステム624、ユーザインターフェース出力デバイス620、ユーザインターフェース入力デバイス622、ならびにネットワークインターフェースサブシステム616を含み得る。入力および出力デバイスは、コンピュータシステム610とのユーザ対話を可能にする。ネットワークインターフェースサブシステム616は、外部ネットワークへのインターフェースを提供し、他のコンピュータシステム内の対応するインターフェースデバイスに結合される。
ユーザインターフェース入力デバイス622は、キーボード、マウス、トラックボール、タッチパッド、もしくはグラフィカルタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システムなどのオーディオ入力デバイス、マイクロフォン、および/または他のタイプの入力デバイスを含み得る。一般に、「入力デバイス」という用語の使用は、コンピュータシステム610または通信ネットワークに情報を入力するすべての可能なタイプのデバイスおよび方法を含むことを意図している。
ユーザインターフェース出力デバイス820は、ディスプレイサブシステム、プリンタ、ファックス機、またはオーディオ出力デバイスなどの非視覚的ディスプレイを含み得る。ディスプレイサブシステムは、陰極線管(CRT)、液晶ディスプレイ(LCD)などのフラットパネルデバイス、投影デバイス、または可視画像を作成するためのなにか他のメカニズムを含み得る。ディスプレイサブシステムは、オーディオ出力デバイスを介するなどして、非視覚的表示も提供し得る。一般に、「出力デバイス」という用語の使用は、コンピュータシステム610からユーザまたは別のマシンもしくはコンピュータシステムに情報を出力するためのすべての可能なタイプのデバイスおよび方法を含むことを意図している。
記憶サブシステム624は、本明細書で説明したモジュールのうちのいくつかまたは、そのすべての機能を提供するプログラミング構造およびデータ構造を記憶する。例えば、記憶サブシステム624は、方法500の選択された態様を実行するため、ならびに/またはシステム400、コンピュータ化された眼鏡104、テレビ106、タブレットデバイス110、コンピューティングデバイス122、コンピュータ化された眼鏡204、テレビ306、コンピュータ化された眼鏡304、タブレットデバイス310、コンピューティングデバイス342、および/もしくは本明細書で論じられる任意の他のアプリケーション、デバイス、装置、および/もしくはモジュールのうちの1つまたは複数を実装するためのロジックを含み得る。
これらのソフトウェアモジュールは、一般に、プロセッサ614によって単独で、または他のプロセッサと組み合わせて実行される。記憶サブシステム624において使用されるメモリ625は、プログラム実行中の命令およびデータの記憶のためのメインランダムアクセスメモリ(RAM)630と、固定命令が記憶されている読み取り専用メモリ(ROM)632とを含むいくつかのメモリを含むことができる。ファイル記憶サブシステム626は、プログラムファイルおよびデータファイルのための永続的なストレージを提供することができ、ハードディスクドライブ、関連するリムーバブルメディアを伴うフロッピーディスクドライブ、CD-ROMドライブ、光学ドライブ、またはリムーバブルメディアカートリッジを含み得る。特定の実装形態の機能を実装するモジュールは、記憶サブシステム624内のファイル記憶サブシステム626によって、またはプロセッサ614によってアクセス可能な他のマシンによって記憶され得る。
バスサブシステム612は、コンピューティングデバイス610の様々な構成要素およびサブシステムを意図されたように互いに通信させるためのメカニズムを提供する。バスサブシステム612は、単一のバスとして概略的に示されているが、バスサブシステムの代替実装形態は、複数のバスを使用し得る。
コンピュータシステム610は、ワークステーション、サーバ、コンピューティングクラスタ、ブレードサーバ、サーバファーム、または任意の他のデータ処理システムもしくはコンピューティングデバイスを含む様々なタイプのものであり得る。コンピュータおよびネットワークの絶えず変化する性質のために、図6に示すコンピュータシステム610の説明は、いくつかの実装形態を説明する目的のための特定の例としてのみ意図されている。コンピュータシステム610の他の多くの構成は、図6に示すコンピュータシステムよりも多いまたは少ない構成要素を有することが可能である。
本明細書で説明したシステムがユーザ(または、本明細書ではしばしば「参加者」と呼ばれる)に関する個人情報を収集するか、または個人情報を利用する可能性がある状況では、ユーザは、プログラムまたは機能がユーザ情報(例えば、ユーザのソーシャルネットワーク、社会的行為もしくは活動、職業、ユーザの好み、またはユーザの現在の地理的位置に関する情報)を収集するかどうかを制御する機会、またはユーザにより関連性がある可能性があるコンテンツサーバからのコンテンツを受信するかどうかおよび/もしくはどのように受信するかを制御する機会を提供され得る。また、特定のデータは、個人を特定し得る情報が除去されるように、それが記憶または使用される前に1つまたは複数の方法で処理され得る。例えば、ユーザの識別情報は、個人を特定し得る情報がユーザに関して決定され得ないように処理され得、またはユーザの地理的位置は、ユーザの特定の地理的位置が特定され得ないように、地理的位置情報が取得される場所(都市、郵便番号、または州レベルなど)で一般化され得る。したがって、ユーザは、情報がユーザに関してどのように収集および/または使用されるかについて制御し得る。
いくつかの実装形態が本明細書で説明および例示されているが、機能を実行するため、ならびに/または本明細書で説明した結果、および/もしくは利点のうちの1つもしくは複数を取得するための様々な他の手段および/または構造が利用され得、そのような変更および/または修正の各々が、本明細書で説明した実装形態の範囲内にあるとみなされる。より一般的には、本明細書で説明したすべてのパラメータ、寸法、材料、および構成は、例示であることを意味し、実際のパラメータ、寸法、材料、および/または構成は、教示が使用される1つまたは複数の特定の用途に依存する。当業者は、本明細書で説明した特定の実装形態に対する多くの均等物を、日常的な実験のみを使用して、認識するか、または確認することができるであろう。したがって、前述の実装形態は、例としてのみ提示されており、添付の特許請求の範囲およびその均等物の範囲内で、実装形態は、具体的に説明および特許請求されている以外の方法で実施され得ることが理解されるべきである。本開示の実装形態は、本明細書で説明した個々の特徴、システム、物品、材料、キット、および/または方法の各々に向けられている。それに加えて、2つ以上のそのような特徴、システム、物品、材料、キット、および/または方法の任意の組合せは、そのような特徴、システム、物品、材料、キット、および/または方法が相互に矛盾しない場合、本開示の範囲内に含まれる。
いくつかの実装形態において、1つまたは複数のプロセッサによって実装される方法は、ネットワークに接続された複数のコンピューティングデバイスのうちの任意の1つのコンピューティングデバイスを介してアクセス可能な自動化アシスタントにユーザがアシスタント入力を向けたと判断するような動作を含むものとして示されており、ここで、ユーザはコンピュータ化された眼鏡を装着しており、コンピュータ化された眼鏡は、1つまたは複数のカメラを含むコンピューティングデバイスであり、ユーザは、複数のコンピューティングデバイスを含む環境内に位置している。方法は、ユーザからのアシスタント入力に基づいて、複数のコンピューティングデバイスのうちの、ユーザからのアシスタント入力を検出した2つ以上の候補デバイスを識別する動作をさらに含むことができ、ここで、2つ以上の候補デバイスは、コンピュータ化された眼鏡とは別個のものである。方法は、コンピュータ化された眼鏡の1つまたは複数のカメラを使用して生成された画像データを処理することに基づいて、アシスタント入力が2つ以上の候補デバイスのうちの特定のコンピューティングデバイスに向けられているか、またはコンピュータ化された眼鏡に向けられているかを判断する動作をさらに含むことができる。いくつかの実装形態において、方法は、アシスタント入力が2つ以上の候補デバイスのうちの特定のコンピューティングデバイスに向けられていると判断された場合、特定のコンピューティングデバイスに、アシスタント入力に対応する1つまたは複数の動作を実行させる動作をさらに含むことができる。
いくつかの実装形態において、アシスタント入力が、2つ以上の候補デバイスのうちの特定のコンピューティングデバイスに向けられているか、またはコンピュータ化された眼鏡に向けられているかを判断することは、画像データに基づいて、2つ以上の候補デバイスのうちの特定のコンピューティングデバイスが、1つまたは複数のカメラの視野窓内に位置するかどうかを判断することを含む。いくつかの実装形態において、コンピュータ化された眼鏡の1つまたは複数のカメラのうちのカメラが、ユーザの目の方に向けられ、2つ以上の候補デバイスのうちの特定のコンピューティングデバイスがユーザの視覚的視点に関連付けられていると判断することは、ユーザの注視が、2つ以上の候補デバイスのうちの任意の他のデバイスの方よりも特定のコンピューティングデバイスの方に向けられていると判断することを含む。
いくつかの実装形態において、アシスタント入力が、2つ以上の候補デバイスのうちの特定のコンピューティングデバイスに向けられているか、またはコンピュータ化された眼鏡に向けられているかを判断することは、1つまたは複数のカメラの視野窓内の特定のオブジェクトが2つ以上の候補デバイスのうちの特定のコンピューティングデバイスの相対位置に関連付けられているかどうかを判断することを含む。いくつかの実装形態において、特定のコンピューティングデバイスは、コンピュータ化された眼鏡の1つまたは複数のカメラの視野窓内に位置していない。いくつかの実装形態において、アシスタント入力は、ユーザによって実行される物理的ジェスチャであり、物理的ジェスチャは、コンピュータ化された眼鏡によって検出される。いくつかの実装形態において、コンピュータ化された眼鏡は、ユーザがアシスタント入力を提供するときにコンテンツをレンダリングしているグラフィカルディスプレイインターフェースを含み、方法は、アシスタント入力がコンピュータ化された眼鏡に向けられていると判断された場合、コンピュータ化された眼鏡のグラフィカルディスプレイインターフェースにおいてレンダリングされているコンテンツを物理的ジェスチャに従って変更させることをさらに含む。
いくつかの実装形態において、方法は、アシスタント入力がコンピュータ化された眼鏡および特定のコンピューティングデバイスに向けられていると判断された場合、コンテンツの第1の部分を特定のコンピューティングデバイスにおいてレンダリングさせ、コンテンツの第2の部分をコンピュータ化された眼鏡のディスプレイインターフェースにおいてレンダリングさせることをさらに含む。いくつかの実装形態において、特定のコンピューティングデバイスは、ディスプレイデバイスに接続された取り外し可能なアクセサリデバイスであり、特定のコンピューティングデバイスは、コンピュータ化された眼鏡の1つまたは複数のカメラの視野窓内に見えない。いくつかの実装形態において、コンピュータ化された眼鏡は、グラフィカルディスプレイインターフェースがコンテンツをレンダリングしているときに少なくとも部分的に透明である、グラフィカルディスプレイインターフェースを含み、方法は、アシスタント入力が2つ以上の候補デバイスのうちの特定のコンピューティングデバイスに向けられていると判断された場合、特定のコンピューティングデバイスに対応するグラフィカルディスプレイインターフェース内の位置においてグラフィカル要素をレンダリングさせることをさらに含む。
いくつかの実装形態において、アシスタント入力は、自動化アシスタントが特定のアプリケーションを初期化するための要求を含み、グラフィカル要素は、特定のアプリケーションに基づく。いくつかの実装形態において、複数のコンピューティングデバイスのうちの、ユーザからのアシスタント入力を検出した2つ以上の候補デバイスを識別することは、特定のコンピューティングデバイスが第1の出力をレンダリングしており、複数のコンピューティングデバイスのうちの別のコンピューティングデバイスが第2の出力をレンダリングしていると判断することを含み、第1の出力および第2の出力は、コンピュータ化された眼鏡によって検出される。
いくつかの実装形態において、特定のコンピューティングデバイスは、グラフィカルディスプレイインターフェースを含み、第1の出力は、グラフィカルディスプレイインターフェースにおいてレンダリングされるグラフィカル要素を含み、グラフィカル要素は、毎秒60フレーム以上の頻度においてレンダリングされる1つまたは複数のグラフィカルコンテンツフレームにおいて具体化される。いくつかの実装形態において、第1の出力は、第2の出力とは異なり、アシスタント入力が、2つ以上の候補デバイスのうちの特定のコンピューティングデバイスに向けられているか、またはコンピュータ化された眼鏡に向けられているかを判断することは、第1の出力がコンピュータ化された眼鏡の視野窓内で検出され、第2の出力がコンピュータ化された眼鏡の視野窓内で検出されなかったと判断することを含む。
他の実装形態において、1つまたは複数のプロセッサによって実装される方法は、コンピューティングデバイスによって、ユーザが、ユーザのいる環境内に位置する1つまたは複数のコンピューティングデバイスを介してアクセス可能な自動化アシスタントに入力を提供したと判断することなどの動作を含むものとして示され、入力は、自動化アシスタントがユーザにコンテンツを提供するための要求に対応し、1つまたは複数のコンピューティングデバイスは、ユーザが入力を提供したときにユーザが装着しているコンピュータ化された眼鏡を含む。方法は、ユーザからの入力に基づいて、ユーザのためのコンテンツをレンダリングするための特定のデバイスを識別する動作をさらに含むことができ、特定のデバイスは、コンピュータ化された眼鏡とは別個のものである。方法は、特定のデバイスを識別することに基づいて、特定のデバイスにユーザのためのコンテンツをレンダリングさせる動作をさらに含むことができる。方法は、ユーザが入力を提供したときにユーザの環境内にあった1つまたは複数のコンピューティングデバイスによって提供されるコンテキストデータを処理する動作をさらに含むことができる。方法は、コンテキストデータに基づいて、要求に関連付けられた追加のコンテンツをユーザに提供するかどうかを判断する動作をさらに含むことができる。方法は、自動化アシスタントが追加のコンテンツをユーザに提供すると判断した場合、コンピュータ化された眼鏡の1つまたは複数のインターフェースを介して追加のコンテンツをレンダリングすることを促進するために、コンピュータ化された眼鏡に1つまたは複数の追加の動作を実行させる動作をさらに含むことができる。
いくつかの実装形態において、コンテキストデータは、コンピュータ化された眼鏡の1つまたは複数のカメラによって提供される画像データを含み、要求に関連付けられた追加のコンテンツをユーザに提供するかどうかを判断することは、特定のデバイスが1つまたは複数の動作を実行しているときに、ユーザが特定のデバイスを見ているかどうかを判断することを含む。いくつかの実装形態において、コンピュータ化された眼鏡に追加のコンテンツをレンダリングさせることは、コンピュータ化された眼鏡にネットワーク接続を介してコンテンツデータにアクセスさせることと、コンピュータ化された眼鏡のディスプレイインターフェースに、コンテンツデータに基づいて1つまたは複数のグラフィカル要素をレンダリングさせることとを含む。
さらに他の実装形態において、1つまたは複数のプロセッサによって実装される方法は、コンピューティングデバイスによって、ユーザが、コンピューティングデバイスを介してアクセス可能な自動化アシスタントに入力を提供したと判断することなどの動作を含むものとして示され、入力は、自動化アシスタントが1つまたは複数の動作を実行するための要求に対応する。方法は、コンピューティングデバイスによって、ユーザがコンピュータ化された眼鏡を装着していることを示すコンテキストデータを受信する動作をさらに含むことができ、コンピュータ化された眼鏡は、コンピューティングデバイスとは別個のものである。方法は、コンテキストデータに基づいて、コンピューティングデバイスのインターフェースに、コンピュータ化された眼鏡の別のインターフェースにおいて検出され得る出力をレンダリングさせる動作をさらに含むことができる。方法は、コンピュータ化された眼鏡がコンピューティングデバイスからの出力を検出したかどうかを判断する動作をさらに含むことができる。方法は、コンピューティングデバイスが、コンピュータ化された眼鏡が出力を検出したと判断した場合、要求を満たすことを促進するために、コンピューティングデバイスに1つまたは複数の動作を実行させる動作をさらに含むことができる。
いくつかの実装形態において、コンピュータ化された眼鏡がコンピューティングデバイスからの出力を検出したかどうかを判断することは、コンピュータ化された眼鏡の1つまたは複数のカメラがコンピューティングデバイスからの出力を検出したかどうかを示す他のコンテキストデータを処理することを含む。いくつかの実装形態において、方法は、コンピューティングデバイスが、コンピュータ化された眼鏡が出力を検出したと判断した場合、コンピュータ化された眼鏡に、ユーザからの物理的ジェスチャに応答して選択され得る1つまたは複数のグラフィカル要素をレンダリングさせる動作をさらに含むことができる。
100 ビュー
102 ユーザ
104 コンピュータ化された眼鏡
106 テレビ
108 環境
110 タブレットデバイス
112 視野
114 口頭の発話
116 動作、テレビ
118 ディスプレイデバイス
120 ビュー
122 コンピューティングデバイス
124 視野
126 ドングル
128 動作
130 口頭の発話
200 ビュー
202 ユーザ
204 コンピュータ化された眼鏡
206 レンズ
208 コンピュータ
210 前向きのカメラ
212 内向きのカメラ
214 ハウジング
300 ビュー
302 ユーザ
304 コンピュータ化された眼鏡
306 テレビ
308 環境
310 タブレットデバイス
312 口頭の発話
314 動作
316 オーディオ
320 ビュー
322 外向きのカメラ
326 スワイプジェスチャ
330 アイコン
332 選択可能なGUI要素
340 ビュー
344 移動
360 ビュー
362 環境
364 洗濯物
368 左位置
380 ビュー
382 ジェスチャ、物理的ジェスチャ
384 グラフィカル要素
400 システム
402 コンピューティングデバイス
404 自動化アシスタント
406 入力処理エンジン
408 音声処理エンジン
410 データ解析エンジン
412 パラメータエンジン
414 出力生成エンジン
416 デバイス調停エンジン
418 注視検出エンジン
420 アシスタントインターフェース
422 アシスタント呼び出しエンジン
424 インターフェースコンテンツエンジン
426 視野エンジン
430 アプリケーションデータ
432 デバイスデータ
434 アプリケーション
436 コンテキストデータ
438 アシスタントデータ
600 ブロック図
610 コンピュータシステム
612 バスサブシステム
614 プロセッサ
616 ネットワークインターフェースサブシステム
620 ユーザインターフェース出力デバイス
622 ユーザインターフェース入力デバイス
624 記憶サブシステム
625 メモリ
626 ファイル記憶サブシステム
630 メインランダムアクセスメモリ(RAM)
632 読み取り専用メモリ

Claims (23)

1つまたは複数のプロセッサによって実装される方法であって、前記方法が、
ネットワークに接続された複数のコンピューティングデバイスのうちの任意の1つのコンピューティングデバイスを介してアクセス可能な自動化アシスタントにユーザがアシスタント入力を向けたと判断するステップであって、
前記ユーザが、コンピュータ化された眼鏡を装着しており、前記コンピュータ化された眼鏡が、1つまたは複数のカメラを含むコンピューティングデバイスであり、
前記ユーザが、前記複数のコンピューティングデバイスを含む環境内に位置している、
ステップと、
前記ユーザからの前記アシスタント入力に基づいて、前記複数のコンピューティングデバイスのうちの、前記ユーザからの前記アシスタント入力を検出した2つ以上の候補デバイスを識別するステップであって、
前記2つ以上の候補デバイスが、前記コンピュータ化された眼鏡とは別個のものである、
ステップと、
前記コンピュータ化された眼鏡の前記1つまたは複数のカメラを使用して生成された画像データを処理することに基づいて、前記アシスタント入力が前記2つ以上の候補デバイスのうちの特定のコンピューティングデバイスに向けられているか、または前記コンピュータ化された眼鏡に向けられているかを判断するステップと、
前記アシスタント入力が前記2つ以上の候補デバイスのうちの前記特定のコンピューティングデバイスに向けられていると判断された場合、
前記特定のコンピューティングデバイスに、前記アシスタント入力に対応する1つまたは複数の動作を実行させるステップと
を含む、方法。
前記アシスタント入力が、前記2つ以上の候補デバイスのうちの前記特定のコンピューティングデバイスに向けられているか、または前記コンピュータ化された眼鏡に向けられているかを判断するステップが、
前記画像データに基づいて、前記2つ以上の候補デバイスのうちの前記特定のコンピューティングデバイスが、前記1つまたは複数のカメラの視野窓内に位置するかどうかを判断するステップを含む、
請求項1に記載の方法。
前記コンピュータ化された眼鏡の前記1つまたは複数のカメラのうちのカメラが、前記ユーザの目の方に向けられ、
前記2つ以上の候補デバイスのうちの前記特定のコンピューティングデバイスが前記ユーザの視覚的視点に関連付けられていると判断するステップが、
前記ユーザの注視が、前記2つ以上の候補デバイスのうちの任意の他のデバイスの方よりも前記特定のコンピューティングデバイスの方に向けられていると判断するステップを含む、
請求項1に記載の方法。
前記アシスタント入力が、前記2つ以上の候補デバイスのうちの前記特定のコンピューティングデバイスに向けられているか、または前記コンピュータ化された眼鏡に向けられているかを判断するステップが、
前記1つまたは複数のカメラの視野窓内の特定のオブジェクトが前記2つ以上の候補デバイスのうちの前記特定のコンピューティングデバイスの相対位置に関連付けられているかどうかを判断するステップを含む、
請求項1に記載の方法。
前記特定のコンピューティングデバイスが、前記コンピュータ化された眼鏡の前記1つまたは複数のカメラの前記視野窓内に位置していない、請求項4に記載の方法。
前記アシスタント入力が、前記ユーザによって実行される物理的ジェスチャであり、前記物理的ジェスチャが、前記コンピュータ化された眼鏡によって検出される、請求項1に記載の方法。
前記コンピュータ化された眼鏡が、前記ユーザが前記アシスタント入力を提供するときにコンテンツをレンダリングしているグラフィカルディスプレイインターフェースを含み、
前記方法が、
前記アシスタント入力が前記コンピュータ化された眼鏡に向けられていると判断された場合、
前記コンピュータ化された眼鏡の前記グラフィカルディスプレイインターフェースにおいてレンダリングされている前記コンテンツを前記物理的ジェスチャに従って変更させるステップをさらに含む、
請求項6に記載の方法。
前記アシスタント入力が前記コンピュータ化された眼鏡および前記特定のコンピューティングデバイスに向けられていると判断された場合、
コンテンツの第1の部分を前記特定のコンピューティングデバイスにおいてレンダリングさせるステップと、
コンテンツの第2の部分を前記コンピュータ化された眼鏡のディスプレイインターフェースにおいてレンダリングさせるステップと
をさらに含む、請求項1に記載の方法。
前記特定のコンピューティングデバイスが、ディスプレイデバイスに接続された取り外し可能なアクセサリデバイスであり、
前記特定のコンピューティングデバイスが、前記コンピュータ化された眼鏡の前記1つまたは複数のカメラの視野窓内に見えない、
請求項1に記載の方法。
前記コンピュータ化された眼鏡が、グラフィカルディスプレイインターフェースがコンテンツをレンダリングしているときに少なくとも部分的に透明である、前記グラフィカルディスプレイインターフェースを含み、
前記方法が、
前記アシスタント入力が前記2つ以上の候補デバイスのうちの前記特定のコンピューティングデバイスに向けられていると判断された場合、
前記特定のコンピューティングデバイスに対応する前記グラフィカルディスプレイインターフェース内の位置においてグラフィカル要素をレンダリングさせるステップをさらに含む、
請求項1に記載の方法。
前記アシスタント入力が、前記自動化アシスタントが特定のアプリケーションを初期化するための要求を含み、
前記グラフィカル要素が、前記特定のアプリケーションに基づく、
請求項10に記載の方法。
前記複数のコンピューティングデバイスのうちの、前記ユーザからの前記アシスタント入力を検出した前記2つ以上の候補デバイスを識別するステップが、
前記特定のコンピューティングデバイスが第1の出力をレンダリングしており、前記複数のコンピューティングデバイスのうちの別のコンピューティングデバイスが第2の出力をレンダリングしていると判断するステップであって、
前記第1の出力および前記第2の出力が、前記コンピュータ化された眼鏡によって検出される、ステップを含む、
請求項1に記載の方法。
前記特定のコンピューティングデバイスが、グラフィカルディスプレイインターフェースを含み、前記第1の出力が、前記グラフィカルディスプレイインターフェースにおいてレンダリングされるグラフィカル要素を含み、
前記グラフィカル要素が、毎秒60フレーム以上の頻度においてレンダリングされる1つまたは複数のグラフィカルコンテンツフレームにおいて具体化される、
請求項12に記載の方法。
前記第1の出力が、前記第2の出力とは異なり、
前記アシスタント入力が、前記2つ以上の候補デバイスのうちの前記特定のコンピューティングデバイスに向けられているか、または前記コンピュータ化された眼鏡に向けられているかを判断するステップが、
前記第1の出力が前記コンピュータ化された眼鏡の視野窓内で検出され、前記第2の出力が前記コンピュータ化された眼鏡の前記視野窓内で検出されなかったと判断するステップを含む、
請求項12に記載の方法。
1つまたは複数のプロセッサによって実装される方法であって、前記方法が、
コンピューティングデバイスによって、ユーザが、前記ユーザのいる環境内に位置する1つまたは複数のコンピューティングデバイスを介してアクセス可能な自動化アシスタントに入力を提供したと判断するステップであって、
前記入力が、前記自動化アシスタントが前記ユーザにコンテンツを提供するための要求に対応し、
前記1つまたは複数のコンピューティングデバイスが、前記ユーザが前記入力を提供したときに前記ユーザが装着しているコンピュータ化された眼鏡を含む、
ステップと、
前記ユーザからの前記入力に基づいて、前記ユーザのための前記コンテンツをレンダリングするための特定のデバイスを識別するステップであって、
前記特定のデバイスが、前記コンピュータ化された眼鏡とは別個のものである、
ステップと、
前記特定のデバイスを識別するステップに基づいて、前記特定のデバイスに前記ユーザのための前記コンテンツをレンダリングさせるステップと、
前記ユーザが前記入力を提供したときに前記ユーザの前記環境内にあった前記1つまたは複数のコンピューティングデバイスによって提供されるコンテキストデータを処理するステップと、
前記コンテキストデータに基づいて、前記要求に関連付けられた追加のコンテンツを前記ユーザに提供するかどうかを判断するステップと、
前記自動化アシスタントが前記追加のコンテンツを前記ユーザに提供すると判断した場合、
前記コンピュータ化された眼鏡の1つまたは複数のインターフェースを介して前記追加のコンテンツをレンダリングすることを促進するために、前記コンピュータ化された眼鏡に1つまたは複数の追加の動作を実行させるステップと
を含む、方法。
前記コンテキストデータが、前記コンピュータ化された眼鏡の1つまたは複数のカメラによって提供される画像データを含み、
前記要求に関連付けられた前記追加のコンテンツを前記ユーザに提供するかどうかを判断するステップが、
前記特定のデバイスが前記1つまたは複数の動作を実行しているときに、前記ユーザが前記特定のデバイスを見ているかどうかを判断するステップを含む、
請求項15に記載の方法。
前記コンピュータ化された眼鏡に前記追加のコンテンツをレンダリングさせるステップが、
前記コンピュータ化された眼鏡にネットワーク接続を介してコンテンツデータにアクセスさせるステップと、
前記コンピュータ化された眼鏡のディスプレイインターフェースに、前記コンテンツデータに基づいて1つまたは複数のグラフィカル要素をレンダリングさせるステップと
を含む、
請求項15に記載の方法。
1つまたは複数のプロセッサによって実装される方法であって、前記方法が、
コンピューティングデバイスによって、ユーザが、前記コンピューティングデバイスを介してアクセス可能な自動化アシスタントに入力を提供したと判断するステップであって、
前記入力が、前記自動化アシスタントが1つまたは複数の動作を実行するための要求に対応する、ステップと、
前記コンピューティングデバイスによって、前記ユーザがコンピュータ化された眼鏡を装着していることを示すコンテキストデータを受信するステップであって、
前記コンピュータ化された眼鏡が、前記コンピューティングデバイスとは別個のものである、ステップと、
前記コンテキストデータに基づいて、前記コンピューティングデバイスのインターフェースに、前記コンピュータ化された眼鏡の別のインターフェースにおいて検出され得る出力をレンダリングさせるステップと、
前記コンピュータ化された眼鏡が前記コンピューティングデバイスからの前記出力を検出したかどうかを判断するステップと、
前記コンピューティングデバイスが、前記コンピュータ化された眼鏡が前記出力を検出したと判断した場合、
前記要求を満たすことを促進するために、前記コンピューティングデバイスに前記1つまたは複数の動作を実行させるステップと
を含む、方法。
前記コンピュータ化された眼鏡が前記コンピューティングデバイスからの前記出力を検出したかどうかを判断するステップが、
前記コンピュータ化された眼鏡の1つまたは複数のカメラが前記コンピューティングデバイスからの前記出力を検出したかどうかを示す他のコンテキストデータを処理するステップを含む、
請求項18に記載の方法。
前記コンピューティングデバイスが、前記コンピュータ化された眼鏡が前記出力を検出したと判断した場合、
前記コンピュータ化された眼鏡に、前記ユーザからの物理的ジェスチャに応答して選択され得る1つまたは複数のグラフィカル要素をレンダリングさせるステップをさらに含む、
請求項18に記載の方法。
コンピューティングシステムの1つまたは複数のプロセッサによって実行されると、前記コンピューティングシステムに、請求項1から20のいずれか一項に記載の方法を実行させる命令を含むコンピュータプログラム。
請求項1から20のいずれか一項に記載の方法を実行するように構成されたコンピューティングシステム。
前記コンピューティングシステムが、コンピュータ化された眼鏡を含む、請求項22に記載のコンピューティングシステム。
JP2022577732A 2021-02-03 2021-12-06 ウェアラブルデバイスデータを使用するアシスタントデバイス調停 Pending JP2023534901A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/166,763 2021-02-03
US17/166,763 US11449149B2 (en) 2021-02-03 2021-02-03 Assistant device arbitration using wearable device data
PCT/US2021/061988 WO2022169502A1 (en) 2021-02-03 2021-12-06 Assistant device arbitration using wearable device data

Publications (1)

Publication Number Publication Date
JP2023534901A true JP2023534901A (ja) 2023-08-15

Family

ID=79171220

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022577732A Pending JP2023534901A (ja) 2021-02-03 2021-12-06 ウェアラブルデバイスデータを使用するアシスタントデバイス調停

Country Status (7)

Country Link
US (2) US11449149B2 (ja)
EP (1) EP4147117A1 (ja)
JP (1) JP2023534901A (ja)
KR (1) KR20230017299A (ja)
CN (1) CN115917477A (ja)
AU (2) AU2021426284B2 (ja)
WO (1) WO2022169502A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11449149B2 (en) 2021-02-03 2022-09-20 Google Llc Assistant device arbitration using wearable device data
US11790908B2 (en) * 2021-02-09 2023-10-17 International Business Machines Corporation Extended reality based voice command device management
TWI799000B (zh) * 2021-04-16 2023-04-11 財團法人工業技術研究院 資訊顯示方法及其處理裝置與顯示系統
US20240119423A1 (en) * 2022-10-10 2024-04-11 Google Llc Rendering augmented reality content based on post-processing of application content

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2835070B1 (fr) * 2002-01-23 2004-07-16 Yves Guy Reza Ensemble d'interface entre un utilisateur et un dispositif electronique
US9423870B2 (en) 2012-05-08 2016-08-23 Google Inc. Input determination method
TWI498771B (zh) * 2012-07-06 2015-09-01 Pixart Imaging Inc 可辨識手勢動作的眼鏡
US20140240226A1 (en) * 2013-02-27 2014-08-28 Robert Bosch Gmbh User Interface Apparatus
US9646201B1 (en) * 2014-06-05 2017-05-09 Leap Motion, Inc. Three dimensional (3D) modeling of a complex control object
US10248192B2 (en) 2014-12-03 2019-04-02 Microsoft Technology Licensing, Llc Gaze target application launcher
CN106155326A (zh) 2016-07-26 2016-11-23 北京小米移动软件有限公司 虚拟现实通讯中的对象识别方法和装置、虚拟现实设备
KR102568925B1 (ko) * 2016-10-25 2023-08-22 엘지디스플레이 주식회사 터치센서를 구비하는 표시장치 및 그에 대한 터치감지방법
US10176808B1 (en) 2017-06-20 2019-01-08 Microsoft Technology Licensing, Llc Utilizing spoken cues to influence response rendering for virtual assistants
BR112020010376A2 (pt) 2017-12-22 2020-11-24 Telefonaktiebolaget Lm Ericsson (Publ) método para iniciar o controle de voz através da detecção de olhar, dispositivo para iniciar o controle de voz através da detecção de olhar, e, mídia legível por computador
US20190204910A1 (en) * 2018-01-02 2019-07-04 Microsoft Technology Licensing, Llc Saccadic breakthrough mitigation for near-eye display
US10762900B2 (en) 2018-03-07 2020-09-01 Microsoft Technology Licensing, Llc Identification and processing of commands by digital assistants in group device environments
CN112236738A (zh) 2018-05-04 2021-01-15 谷歌有限责任公司 基于检测到的手势和凝视调用自动化助理功能
US11055923B2 (en) 2018-12-19 2021-07-06 Samsung Electronics Co., Ltd. System and method for head mounted device input
CN112289313A (zh) 2019-07-01 2021-01-29 华为技术有限公司 一种语音控制方法、电子设备及系统
US11449149B2 (en) 2021-02-03 2022-09-20 Google Llc Assistant device arbitration using wearable device data

Also Published As

Publication number Publication date
WO2022169502A1 (en) 2022-08-11
AU2021426284B2 (en) 2023-11-02
AU2024200648A1 (en) 2024-02-22
US11966518B2 (en) 2024-04-23
AU2021426284A1 (en) 2023-01-19
US20230018208A1 (en) 2023-01-19
AU2024200648B2 (en) 2024-02-29
KR20230017299A (ko) 2023-02-03
US11449149B2 (en) 2022-09-20
CN115917477A (zh) 2023-04-04
US20220244786A1 (en) 2022-08-04
EP4147117A1 (en) 2023-03-15

Similar Documents

Publication Publication Date Title
US11449149B2 (en) Assistant device arbitration using wearable device data
JP6992870B2 (ja) 情報処理システム、制御方法、およびプログラム
JP7263505B2 (ja) ホットワードを用いない自動アシスタント機能の適応
GB2534274B (en) Gaze triggered voice recognition
JP2021193572A (ja) 凝視情報を用いたデバイス制御
US9798517B2 (en) Tap to initiate a next action for user requests
CN110874129A (zh) 显示系统
US20210349536A1 (en) Biofeedback method of modulating digital content to invoke greater pupil radius response
KR20230148270A (ko) 자동 어시스턴트를 위한 시각적 단서들의 선택적 검출
CN115605948A (zh) 在多个潜在响应的电子装置之间的仲裁
US20230336689A1 (en) Method and Device for Invoking Public or Private Interactions during a Multiuser Communication Session
US20230081605A1 (en) Digital assistant for moving and copying graphical elements
JP2022054447A (ja) ウェアラブルコンピューティングデバイスの音声インターフェースのための方法、システムおよびコンピュータプログラム製品(ウェアラブルコンピューティングデバイス音声インターフェース)
US20240134492A1 (en) Digital assistant interactions in extended reality
US20230401795A1 (en) Extended reality based digital assistant interactions
WO2023058451A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2022182744A1 (en) Digital assistant interactions in copresence sessions
WO2023239663A1 (en) Extended reality based digital assistant interactions
KR20230070990A (ko) 트리거 이벤트에 따라 적어도 하나의 상대방 디바이스와 통신을 수행하는 웨어러블 디바이스 및 그 제어 방법
WO2023049089A1 (en) Interaction events based on physiological response to illumination
WO2023196258A1 (en) Methods for quick message response and dictation in a three-dimensional environment
EP4377932A1 (en) Rendering a visual distraction for a user looking at a display too long
WO2023043877A1 (en) Digital assistant for moving and copying graphical elements

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240408