JP2016502192A - 応答エンドポイント選択 - Google Patents

応答エンドポイント選択 Download PDF

Info

Publication number
JP2016502192A
JP2016502192A JP2015544158A JP2015544158A JP2016502192A JP 2016502192 A JP2016502192 A JP 2016502192A JP 2015544158 A JP2015544158 A JP 2015544158A JP 2015544158 A JP2015544158 A JP 2015544158A JP 2016502192 A JP2016502192 A JP 2016502192A
Authority
JP
Japan
Prior art keywords
user
response
computer
devices
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2015544158A
Other languages
English (en)
Inventor
イアン バルンクステーン スコット
イアン バルンクステーン スコット
Original Assignee
ロウルズ リミテッド ライアビリティ カンパニー
ロウルズ リミテッド ライアビリティ カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ロウルズ リミテッド ライアビリティ カンパニー, ロウルズ リミテッド ライアビリティ カンパニー filed Critical ロウルズ リミテッド ライアビリティ カンパニー
Publication of JP2016502192A publication Critical patent/JP2016502192A/ja
Ceased legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/10Multimedia information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/18Commands or executable codes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/33Services specially adapted for particular environments, situations or purposes for indoor environments, e.g. buildings

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

コンピューティングシステムは、様々なユーザから口頭要求を受信するローカル環境での複数のエンドポイントコンピューティングデバイスと、この要求を処理する中央またはリモートシステムとを有する。リモートシステムは、応答を生成し、様々な技術を使用して、ユーザに応答を可聴にどこに、いつ返すべきであるかを決定する。各要求に対して、リモートシステムは、誰が要求を行っているか理解し、ユーザに応答をいつ提供するべきであるかを決定し、応答を伝達するときにどこにユーザがいるかを特定し、どのエンドポイントデバイスが応答を伝達するために利用可能であるかを発見し、どの利用可能なデバイスが応答を伝達することに最良であるかを評価する。システムはその後、可聴放出またはユーザへの他の形態の提示のために、応答を最良なエンドポイントデバイスに伝達する。

Description

本発明は、応答エンドポイント選択に関する。
(関連出願)
本出願は、2012年12月14日に出願された米国出願第13/715,741号の利益を主張し、開示全体が参照により本明細書に組み込まれる。
住宅、事務所、および他の場所は、デスクトップ、タブレット、エンターテイメントシステム、および携帯用通信デバイスなどのコンピューティングデバイスの拡散によってさらに結びついている。これらのコンピューティングデバイスが発展するにつれて、ユーザが機械的デバイス(例えば、キーボード、マウスなど)、タッチスクリーン、動作、身振り、ならびにさらには発話等の自然言語入力などを介するコンピューティングデバイスと相互作用することを可能にするために多くの異なる方法が導入されている。
コンピューティングデバイスが発展するにつれて、ユーザは、日常業務においてユーザを支援するために、このようなデバイスをますます頼りにすることが見込まれている。今日、人々がチケットを購入し、商品およびサービスの買い物をし、天候を確認し、エンターテイメントを探し、楽しむことなどをすることにコンピューティングデバイスが役立つことは当たり前である。しかしながら、コンピューティングデバイスの遍在性の高まりにより、ユーザがスマートフォン、電子書籍リーダー、タブレット、コンピュータ、エンターテイメントシステムなど、多くのデバイスを有することは珍しくない。複数のデバイスのユーザに対する課題のうちの1つは、複数のデバイスで作業するときに業務をいかに効率的に実施するかである。複数のデバイス間での業務を調整することは重要である。
したがって、遍在するコンピューティングデバイス環境におけるユーザ活動の調整を改善する技術に対する必要性が存在する。
詳細な説明は、添付の図を参照して記載される。図において参照番号の最上位桁(複数可)は、参照番号が最初に現れる図を特定する。異なる図における同じ参照番号の使用は、類似または同一の構成要素または特徴を示す。
音声制御デバイスを含む複数のコンピューティングデバイスが遍在し、人が日常業務を処理するのを支援するように調整される環境を図解する。 業務を支援するためにコンピューティング環境を使用する人の代表的なシナリオを示す。図2は、この環境におけるコンピューティングデバイス、ならびにネットワークを介してアクセス可能なリモートクラウドサービスの選択された構成要素の機能ブロック図を含む。 タスクの実施中にどのようにデバイスが人に関わるために選択されるかを示す。 この環境に使用され得るコンピューティングデバイスの選択された構成要素のブロック図を示す。 1つのデバイスを介して人から要求を受信することと、別のデバイスを介して応答を人に伝達することとを含む、人がタスクを実施するのを支援するための例示的なプロセスを示すフロー図である。 人の位置を決定するための例示的なプロセスを示すフロー図である。 応答を人に伝達するべきデバイスを決定するための例示的なプロセスを示すフロー図である。
日常業務を支援するために様々なコンピューティングデバイスを活用する技術が本明細書に記載される。コンピューティングデバイスが住宅、事務所、および他の場所に遍在するにつれて、ユーザは、これらの日常業務について考え、かつそれを実施するときに、それらの間で区別する可能性が低い。ユーザは、どこにユーザが位置するか、および何をユーザが現在行い得るかにかかわらず、デバイスが知的に役立つことをますます期待する。この知能を実装するために、コンピューティングシステムは、ユーザが相互作用し得る複数のデバイスにわたってタスク管理を組織化するように設計される。
一実装形態では、コンピューティングシステムは、様々な黙示的および明示的な信号を使用して、ある位置でのユーザの存在を決定し、もしあれば、どの支援または応答をその位置内の1つ以上のデバイスに提供するかを決定するクラウドサービスとして構築される。信号は、ユーザの居場所、およびその時間およびその位置で人といかに最良に相互作用するかを特定するのに役立つことができる任意の数の標識を表すことができる。代表的な信号は、音声入力(例えば、ユーザの声の音)、どれくらい最近ユーザがデバイスと相互作用したか、ユーザと関連付けられたモバイルデバイスの存在、ユーザの視覚認識などを含むことができる。
1つの例示的なシナリオとして、ユーザが単純な家事または課業を忘れずに行うことを望むことを想定されたい。ユーザは、第1のデバイスを介して、家事または課業を行うことを将来ユーザに思い出させるようコンピューティングシステムに求めることができる。コンピューティングシステムはその後、将来、そのメッセージを伝達するのに現在の状況で適切な第2のデバイスを介してユーザに思い出させることができる。この場合、コンピューティングシステムは、誰が要求を行っているかを理解し、いつユーザにリマインダを提供するかを決定し、ユーザに思い出させるときにユーザがどこにいるかを特定し、どのデバイスがリマインダを伝達するために利用可能であるかを発見し、どの利用可能なデバイスがリマインダを伝達するのに最良であるかを評価する。このように、コンピューティングシステムは、エンドポイントデバイスの知的な選択を含む応答機能を実装する。
この知能を実装する様々な動作は、ローカルデバイスおよびリモートクラウドコンピューティングシステム間で分割され得る。様々な実装形態では、異なるモジュールおよび機能性は、ユーザに近位のデバイス内にローカルに、またはクラウドサーバ内に遠隔に存在することができる。本開示は、応答システムの重要な部分がリモートクラウドコンピューティングシステム内に存在する1つの例示的な実装形態を提供する。
さらに、本開示は、専用の音声制御デバイス等、主に音声操作されるローカルコンピューティングデバイスに関する技術を説明する。口頭要求を受信すること、および可聴応答を提供することは、後述されるシステムが対処するように構成されるいくつかの追加の課題を導入する。しかしながら、音声制御デバイスの使用は、ユーザに関わる他の形態(例えば、身振り入力、タイプされた入力、視覚出力など)がコンピューティングシステムによって使用され得るように限定することを意図しない。
例示的なアーキテクチャ
図1は、知的なエンドポイント選択で応答機能を実装するコンピューティングシステム100の例示的なアーキテクチャを示す。論述のために、システム100は、通常の日課を送り、1日中、コンピューティングシステム100と相互作用するユーザに関して記載される。コンピューティングシステム100は、それぞれの時間および位置でユーザが発した要求を受信し、これらの要求を処理し、他のそれぞれの時間で応答を、ユーザが存在する位置および適切なエンドポイントデバイスに返すように構成される。
この図解では、住宅102は、第1のユーザ104(例えば、成人男性、父親、夫など)、第2のユーザ106(例えば、成人女性、母親、妻など)、および第3のユーザ108(例えば、娘、子供、少女など)を含む、3人のユーザの家族の主要な住居である。住宅は、主寝室110、浴室112、子供の寝室114、居間116、および台所118を含む5つの部屋で示される。ユーザ104〜108は、主寝室110内の第1のユーザ104、居間116内の第2のユーザ106、および子供の寝室114内の第3のユーザ108を有する住宅102内の異なる部屋に位置する。
コンピューティングシステム100は、ユーザと相互作用する様々な位置に位置決めされた複数のローカルデバイスまたはエンドポイントデバイス120(1)〜120(N)を含む。これらのデバイスは、ラップトップ、電子書籍(eBook)リーダーデバイス、タブレット、デスクトップコンピュータ、スマートフォン、音声制御デバイス、エンターテイメントデバイス、拡張現実システムなど、あらゆるフォームファクタを呈することができる。図1では、ローカルデバイスは、寝室110内に存在する音声制御デバイス120(1)、子供の寝室114内の音声制御デバイス120(2)、居間116内の音声制御デバイス120(3)、居間116内のラップトップ120(4)、および台所118内の音声制御デバイス120(5)を含む。他のタイプのローカルデバイスはまた、第1のユーザ104のスマートフォン120(6)、カメラ120(7)および120(8)、ならびにテレビ画面120(9)等のコンピューティングシステムによって活用され得る。加えて、コンピューティングシステム100は、ユーザに情報を伝達するように、自動車122(例えば、自動車電話、ナビゲーションシステムなど)内、または第1のユーザの事務所124(例えば、作業コンピュータ、タブレットなど)におけるなど、住宅外で見つけられた他のユーザ側デバイスに依存することができる。
これらのエンドポイントデバイス120(1)〜(N)の各々は、ユーザから入力を受信し、同じユーザまたは異なるユーザに応答を伝達することができる。入力は、音声または口頭入力、身振り入力などとして含むあらゆる方法で受信され得る。応答はまた、音声出力、視覚出力(例えば、ラップトップ120(4)またはテレビ120(9)に示される写真、UI、映像など)、触覚フィードバック(例えば、スマートフォン120(6)の振動など)などとして含むあらゆる形態で伝達され得る。
コンピューティングシステム100は、ネットワークアクセス可能なデバイスまたはサーバ132の群によって支持されたクラウドサービス130のようなリモートコンピューティングシステムをさらに含む。クラウドサービス130は概して、インターネットなどのネットワークを介して維持され、アクセス可能なプロセッサ、ストレージ、ソフトウェア、データアクセスなどのコンピューティング基盤として実装されたネットワークアクセス可能なプラットフォームを指す。クラウドサービス130は、物理的位置のエンドユーザ知識、およびサービスを伝達するシステムの構成を必要としなくてもよい。クラウドサービスと関連付けられた共通の表現としては、「オンデマンドコンピューティング」、「サービス型ソフトウェア(SaaS)」、「プラットフォームコンピューティング」、「ネットワークアクセス可能なプラットフォーム」などが挙げられる。
クラウドサービス130は、様々なローカルデバイス120(1)〜(N)間の要求入力および応答出力を調整する。ローカルデバイス120(1)〜(N)のうちのいずれか1つでは、ユーザ104等のユーザは、処理するコンピューティングシステム100に要求を入力することができる。この要求は、主寝室110内の音声制御デバイス120(1)に話すユーザ104等の口頭要求であってもよい。例えば、ユーザは、「明日の朝、ごみを出すことを知らせてください」と言うことができる。音声制御デバイス120(1)には、音声入力を受信するマイクロホン、および要求をクラウドサービス130に渡すネットワークインターフェースが具備されている。ローカルデバイス120(1)は任意に、発話コンテンツを処理し始める自然言語処理機能を有することができる。
要求は、要求が処理されるネットワーク(図1に図示せず)上でクラウドサービス130に渡される。要求は、解析および解釈される。この例では、クラウドサービス130は、ユーザが特定の時間枠(すなわち、明日の朝)でごみを出す家事を思い出すことを望むことを決定する。クラウドサービス130は、適切な時間(例えば、午前7:00)にユーザに伝達されるようにリマインダを予定するタスクを定義するためにタスクハンドラを実装する。その時間になると、クラウドサービス130は、要求を行った対象のユーザ、すなわち、第1のユーザ104がどこに位置するかを決定する。クラウドサービス130は、音声、視覚、もしくは存在の他の生体確認を得るために領域内のデバイスをポーリングすること、個人であるか、もしくはユーザと関連付けられ得るデバイス(例えば、スマートフォン120(6))の位置を特定すること、またはユーザの活動の履歴、特定の位置からユーザからの他の入力を受信することなど他の二次的標識などによって、ユーザの居場所を特定するあらゆる技術を使用することができる。
ユーザの位置が特定されると、クラウドサービス130は次に、どのローカルデバイスが応答をユーザに伝達するのに好適であるかを決定することができる。いくつかの場合では、単一のデバイスのみがあり得、それ故に決定は明快である。しかしながら、他の状況では、ユーザは、複数のローカルデバイスを有する領域内に位置することができ、いずれか1つが応答を伝達するために使用され得る。このような状況では、クラウドサービス130は、様々な候補デバイスを評価し、応答を伝達するためにこの状況で最良またはより適切なデバイスを選択することができる。
このように、コンピューティングシステム100は、要求を受信し、かつ応答を伝達するためにユーザの環境で利用可能な遍在するデバイスを利用する調整された応答システムを提供する。要求の受信および応答の伝達に使用されるエンドポイントデバイスは異なってもよい。さらに、デバイスは、いかなる方法でもユーザと関連付けられる必要はなく、むしろユーザと相互作用するために必要に応じて使用される一般的なエンドポイントデバイスが必要である。コンピューティングシステムの順応性を図解するために、以下の論述は、家事を実施するように思い出させることを求めるユーザの以前の例を続ける。
図2は、タスクを支援するためにコンピューティング環境を使用する人の代表的なシナリオを示すようにコンピューティングシステム100内の選択されたデバイスを図解する。この例では、寝室110内に存在する音声制御アシスタント120(1)の形態での第1のエンドポイントデバイス、および台所118内に存在する音声制御アシスタント120(5)の形態での第2のエンドポイントデバイスを有する2つのエンドポイントデバイスが示される。エンドポイントデバイス120(1)および120(5)は、ネットワーク202を介してリモートクラウドサービス130と通信するように連結される。ネットワーク202は、有線ネットワーク(例えば、ケーブル、LANなど)および/または無線ネットワーク(例えば、Bluetooth(登録商標)、RF、セルラー、衛星など)などあらゆるネットワークタイプを表すことができる。
各エンドポイントまたはローカルデバイスには、寝室ベースのデバイス120(1)によって表されるように、1つ以上のプロセッサ204、コンピュータ可読媒体206、1つ以上のマイクロホン208、およびネットワークインターフェース210が具備されている。コンピュータ可読媒体206は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなど情報の記憶のために任意の方法または技術で実装された揮発性および不揮発性メモリ、取り外し可能および取り外し可能ではない媒体を含むことができる。
ローカルプログラムモジュール212は、プロセッサ(複数可)204による実行のために媒体206内に記憶されて示される。ローカルモジュール212は、マイクロホン208を介して受信された音声入力を受信および処理する基本機能を提供する。この機能は、フィルタリング信号、アナログからデジタルへの変換、解析音またはワード、ならびに解析された音またはワードの初期の分析を含むことができる。例えば、ローカルモジュール212は、ユーザからの入力を受信するために音声制御アシスタント120(1)をアウェイク状態に移行するために使用されるウェイクワードを認識するウェイクワード認識モジュールを含むことができる。ローカルモジュール212は、ユーザからの音声入力を解釈し始めるいくつかの自然言語処理機能をさらに含むことができる。
上記の例を続けるために、ユーザ104が午後9:30の第1の時間に寝室110内の音声制御アシスタント120(1)に要求を行うことを想定されたい。要求は、朝に家事を実施するリマインダのためである。この例では、ユーザ104は、デバイス120(1)に警告するようにウェイクワードを話し、次に、吹き出し213によって示されるように、「明日の朝、ごみを出すことを知らせて」という要求を口頭でする。マイクロホン(複数可)208は、音声入力を受信し、ローカルモジュール(複数可)212は、他のモジュールを開始するようにウェイクワードを処理および認識する。音声入力は、解析され、部分的に分析され、ならびに/またはインターフェース210およびネットワーク202を介してクラウドサービス130にパッケージ化され、送信され得る。
クラウドサービス130は、サーバ132等の1つ以上のネットワークアクセス可能なデバイスを含む。サーバ132は、1つ以上のプロセッサ214と、コンピュータ可読媒体216とを含むことができる。サーバ132のプロセッサ(複数可)214およびコンピュータ可読媒体216は、デバイス120(1)のプロセッサ(複数可)204およびコンピュータ可読媒体206とは物理的に別個であるが、部分的にデバイス120上で、かつ部分的にクラウドサービス130上で、処理およびメモリを提供するシステムの一部として連帯して機能することができる。これらのサーバ132は、データセンター内で一般的に使用されるサーバファーム、スタックなど、あらゆる方法で配列され得る。
サーバ132は、ユーザにサービスを提供するようにあらゆるプログラム、データ、アプリケーションなどを記憶および実行することができる。この例示的なアーキテクチャでは、サーバ132は、自然言語処理(NLP)モジュール218、タスクハンドラ222、人特定モジュール224、および様々なアプリケーション224を記憶および実行するように示される。NLPモジュール218は、要求を解釈するようにローカルデバイス120(1)から受信された音声コンテンツを処理する。ローカルデバイスに少なくともいくつかのNLP能力が具備されている場合、NLPモジュール218は、部分的な結果を取り、ユーザの口頭の要求を解釈するように処理を完了することができる。
結果として得られた解釈は、要求を処理するためにタスクハンドラ220に渡される。私たちの例では、NLPモジュール218は、適切な時間に予定および伝達されるリマインダを要求することとしてユーザの入力を解釈する。タスクハンドラ220は、「明日の朝」と関連付けられた期間に伝達されるようにリマインダを設定するタスクを定義する。タスクは、コンテンツ(例えば、「ごみを出すことを忘れないで」に対するリマインダ)、伝達時間、および予定伝達位置を含むことができる。伝達時間および予定位置は、サービス130が統合および検索する二次的標識から特定され得る。例えば、タスクハンドラ220は、「明日の朝」がこの特定のユーザ104に意味し得るものをより良く理解するように他の標識に問い合わせることができる。アプリケーション224のうちの1つは、ユーザが午前7:30に事務所で会議を行うため、午前7:00までに家102を出ることを予定することを示すカレンダーであってもよい。したがって、タスクハンドラ220は、午前7:00前に可能な時間の範囲を縮小させることができる。タスクハンドラ220はさらに、ユーザが通常の朝の活動を有するかを決定するようにユーザプロファイルアプリケーション(アプリケーション224のうちのもう1つ)から活動履歴を要求することができる。例えば、ユーザが午前6:00までに起床し、かつ午前6:30ごろに朝食を取るパターンを示したことを想定されたい。これらの追加の標識から、タスクハンドラ220は、翌日の午前6:30ごろであるリマインダを伝達するように適切な時間を決定することができる。単独で、タスクハンドラ220はさらに、ユーザが翌日の午前6:30に台所にいる可能性が高いことを推測することができる。
この分析から、タスクハンドラ220は、この要求についてのタスクを設定する。この例では、タスクは、台所118に近位のエンドポイントデバイスを介して対象のユーザ104に翌日の午前6:30でのリマインダのメッセージを伝達するように定義される。すなわち、タスクは、コンテンツ、日時、ユーザ識別、デフォルトのエンドポイントデバイス、およびデフォルトの位置のデータ項目を含むように構造化され得る。要求が理解され、タスクが適切に定義されると、クラウドサービス130は、ユーザが依然として存在する間に、要求を受信した第1のデバイス120(1)によって再生されるようにユーザに確認を返すことができる。例えば、リマインダ213に対する要求に応答して、クラウドサービス130は、吹き出し215によって示されるように、「了解、Scott、お知らせします」という発言など、寝室デバイス120(1)によって再生される確認を送信することができる。このように、ユーザ経験は、コンピューティングシステムとの会話のうちの1つである。ユーザは、何気なく要求を行い、システムは、会話で応答する。発言は任意に、システムの理解および計画を修正するためにユーザに意図および機会の確認を提供するように「明日の午前6:30に台所にいる」などの言葉を含むことができる。
人特定モジュール222はさらに、応答を伝達する時間が来たときに、ユーザおよび適切なエンドポイントデバイスの位置を特定するのに役立つために使用され得る。この例を続けると、タスクハンドラ220は、午前6:30の伝達時間が近づくと、ユーザ104の位置を確認するのに役立つように人特定モジュール222に指示することができる。最初に、人特定モジュール222は、ユーザのスマートフォン120(6)等、ユーザが携帯する個人用デバイスの位置を評価することによってユーザ104の位置を特定することを試みることができる。スマートフォン120(6)の位置に関する情報(例えば、GPS、携帯電話の基地局からの三辺測量、Wi−Fi基地局近接など)を用いて、人特定モジュール222は、ユーザが実際に住宅102内にいることを確認することができる。デフォルトの仮定は、ユーザが台所118にいることであるため、人特定モジュール222は、対象のユーザ104が台所118にいることを確認するようにローカルデバイス120(5)に求めることができる。一実装形態では、人特定モジュール222は、ローカルデバイス120(5)に声を聞くように指示し、次にそれらのうちの1つが対象のユーザ104であることを確認することを試みることができる。例えば、ローカルデバイス120(5)は、吹き出し226によって示されるように、「おはよう、Scott」など、ユーザの名前を用いて、対象のユーザに挨拶を提供することができる。対象のユーザ104が存在する場合、ユーザは、吹き出し228によって示されるように、「おはよう」と返答することができる。代替の実装形態では、ローカルデバイス120(5)には、この環境内のユーザの声を捕捉することによって対象のユーザを識別する音声認識機能が具備されていてもよい。さらに別の実装形態のように、人特定モジュール222は、対象のユーザ104が台所にいる視覚確認を得るように台所内のカメラ120(8)(図1参照)から視覚映像を要求することができる。
伝達時間になると、タスクハンドラ220は、応答を伝達するようにエンドポイントデバイスに関わる。この例では、タスクハンドラ220は、応答を送信するために台所118内の音声制御アシスタント120(5)に連絡を取る。リマインダのタスクからのコンテンツが抽出され、スピーカを介した再生のためにデバイス120(5)に送信される。ここでは、午前6:30に、音声制御アシスタントは、吹き出し230によって示されるように、「ごみを出すことを忘れないで」というリマインダを可聴に発する。
この例によって図解されるように、コンピューティングシステム100は、1つのエンドポイントまたはローカルデバイス120からユーザ入力を受信し、ユーザ入力を処理し、かつもう1つのエンドポイントまたはローカルデバイス120を介して適時応答を提供することができる。ユーザは、ユーザがどのデバイスで要求をしたかを覚えている必要がなく、またはユーザがどのデバイスで応答を受信するかを特定する必要がない。実際に、これは、任意の数のデバイスであってもよい。その代わりに、ユーザ経験は、デバイスの遍在性によって高められ、ユーザは、コンピュータ対応のアシスタントシステムが直観的に要求を聞き、適時応答を提供したと、単に思い込むだけである。
いくつかの状況では、リマインダを伝達する時点から選択する複数のデバイスがあり得る。この状況では、クラウドサービス130は、状況に対する最良適合を見出すように様々なデバイスを評価することに関わり得る。したがって、アプリケーション224のうちの1つは、ユーザに関わるための最良のローカルエンドポイントデバイスを識別することを試みるエンドポイントデバイス選択モジュールであってもよい。最良のデバイスを特定するための可能な技術を図解する1つの例示的なシナリオが次に提供される。
図3は、ローカルエンドポイントデバイスがタスクの実施中にどのように対象の人に関わるために選択されるかを示す。この図解では、4つの領域または区間A〜D内にそれぞれ、4つのローカルエンドポイントデバイス302、304、306、および308が示される。区間A〜Dは、異なる部屋、より大きい部屋の物理的領域などを表すことができる。この例では、対象のユーザ104は、区間D内にいる。しかし、ユーザは、1人ではない。加えて、4人の他の人々が同じ区間D内に示される。
プロセッサ(複数可)214での実行のためにコンピュータ可読媒体216内に記憶されてエンドポイントデバイスセレクタ310が示される。エンドポイントデバイスセレクタ310は、ユーザ104に関わるために利用可能なデバイスを識別し、次いでこの状況で最も適切なデバイスを特定するためにそれらを分析するように構成される。論述のために、4つのデバイス302〜308のうちのいずれか1つがユーザ104と通信するのに十分近位の「利用可能な」デバイスとして識別され得ることを想定されたい。物理的にユーザに近位の領域内またはその近くであることが既知のデバイスを検出すること、ユーザからの音声入力(例えば、室内の何気ない会話)、ユーザと関連付けられたデバイス、ユーザ選好を捕捉するデバイスを見つけることなど、利用可能なデバイスを決定するために多くの方法がある。
エンドポイントデバイスセレクタ310は次に、どの利用可能なデバイスがこの状況下で最も適切であるかを評価する。この評価を行うためにいくつかの方法がある。1つの手法では、デバイスと対象の人との間の距離を決定するために距離分析が実施され得る。図3に示されるように、音声制御アシスタント308は、距離D1で対象のユーザ104に物理的に最も近く、音声制御アシスタント306は、距離D2で次に最も近い。距離を使用して、エンドポイントデバイスセレクタ310は、応答を伝達するために最も近い音声制御アシスタント308を選択することができる。しかしながら、物理的近接は、あらゆる状況で最良でなくてもよい。
したがって、別の手法では、ユーザ104を取り巻く環境の中の音声特性が分析され得る。例えば、信号対雑音比は、他の雑音の排除に対してユーザを聞く際にどれが最良であるかを特定するために様々なエンドポイントデバイス302〜308で測定される。代替として、背景音量は、多くの人々の会話またはテレビもしくは電化製品からの背景音声の結果など、ユーザが重大な背景雑音の領域内であるかを決定するように分析され得る。さらに別の可能性は、領域のエコー特性を分析し、ならびにユーザが1つ以上の領域にわたって移動しているときに導入され得るドップラー特性を恐らく評価することである。すなわち、ユーザからの口頭の指示は、ユーザの移動および配向に応じて、おおよその明瞭さおよび強度で異なるデバイスに達することができる。
さらに別の手法では、環境観測が分析され得る。例えば、カメラからのデータ(もしあれば)または特徴的な声の認識に基づいて近くの人々の数が数えられ得る。さらに別の状況では、物理的近接、音量ベースの決定、および/または目視観測の組み合わせは、最も近いエンドポイントデバイスが構造的障害によって対象のユーザから実際に物理的に分離されること(例えば、デバイスが隣接部屋内の壁の反対側に位置すること)を示すことができる。この場合、デバイスが未処理の距離に関して近位に最も近い場合であっても、エンドポイントデバイスセレクタ310は、このデバイスを考慮の対象から除外する。これらは、ほんの数例である。
これらの分析のうちのいずれか1つ以上は、可能なエンドポイントデバイスを評価するために実施され得る。論述を続けるために、エンドポイントデバイスセレクタ310は、区間D内の雑音レベルおよび/または人々の数が高過ぎて対象のユーザ104との効果的な通信が容易ではないことを想定されたい。結果として、最も近い音声制御アシスタント308を選択する代わりに、エンドポイントセレクタ310は、区間C内の音声制御アシスタント306に対象のユーザ104と通信するように指示することができる。いくつかの例では、アシスタント306は最初に、吹き出し312によって表されるように、「Scott、あなたへのリマインダがある」など、ユーザをより近づけるために発言を再生することによってユーザの注目を集めることを試みることができる。このメッセージに応答して、ユーザ104は、区間C内のデバイス306により近づき、それにより、より好適な長さまで距離D2を縮めることができる。例えば、ユーザ104は、「シナリオA」と標識された矢印によって示されるように、区間D内の最初の位置から区間C内の新しい位置に移動することができる。その後、タスクハンドラ220は、ごみを出すリマインダを伝達することができる。
加えて、応答を伝達するために最も好適なデバイスを識別するためのこれらの技術は、秘密または極秘メッセージの伝達に役立つことができる。例えば、対象のユーザ104がユーザの妻のための記念日の贈り物を受け取るようにリマインダを設定することを想定されたい。この状況では、エンドポイントデバイスセレクタ310は、ユーザの妻がメッセージを聞くために存在することなく、リマインダを伝達し得るデバイスを識別するために、ユーザの現在の位置およびその近くのデバイスを評価する。例えば、ユーザ104が一時的な期間、区間Dから区間Aに移動し(「シナリオB」と標識された矢印によって図解されるように)、それにより区間D内の他の人々(およびユーザの妻)を残すことを想定されたい。ユーザが区間A内に1人でいると検出されると、タスクハンドラ220は、音声制御アシスタント302にリマインダ応答をユーザに伝達するように指示することができる。これは、例えば、吹き出し314内の「あなたの妻の記念日の贈り物を受け取ることを忘れないで」という発言によって示される。
本明細書に記載されるシステムの態様は、2人の間のリアルタイム通信を支持するためにさらに使用され得る。例えば、1人のユーザがリアルタイムでメッセージを別のユーザに送信することを望むシナリオを考慮されたい。このシナリオでは、第1のユーザは、伝達のためのメッセージを第2のユーザに提供することができる。例えば、第1のユーザは、第1のエンドポイントデバイスにメッセージを発し、処理するためにメッセージをクラウドサービスに送信することができる。クラウドサービスは次に、第2のユーザの位置を決定し、第2のユーザへのメッセージの伝達のために利用可能かつ好適な第2のエンドポイントデバイスを選択することができる。メッセージは次に、第2のエンドポイントデバイスを介して第2のユーザに提示され得る。
図4は、コンピューティング環境で使用され得るデバイス120(1)〜(N)の選択された機能的構成要素を示す。図1に示されるように、デバイスは、あらゆる方法およびフォームファクタで実装され得る。この例では、デバイスは、限定された入力/出力構成要素、メモリ、および処理能力を有する機能的能力に関して比較的単純な独立型の音声制御デバイス120(1)として実装され得る。例えば、音声制御デバイス120(1)は、キーボード、キーパッド、または機械的入力の他の形態を有しない。これはまた、視覚的提示およびユーザによるタッチ入力を容易にするディスプレイまたはタッチスクリーンも有しない。その代わりに、デバイス120(1)は、音声を受信および出力する能力、ネットワークインターフェース(無線または有線ベース)、電力、および処理/メモリ能力で実装され得る。ある特定の実装形態では、限定された1つ以上の入力構成要素の組(例えば、構成、電源オン/オフなどを開始する専用のボタン)が利用され得る。それにもかかわらず、デバイス120(1)とのユーザ相互作用の一次的および潜在的な専用モードは、音声入力および可聴出力を経る。
このシステムに使用されるデバイスはまた、スマートフォンまたは携帯情報端末等のモバイルデバイス120(6)として実装され得る。モバイルデバイス120(6)は、タッチセンサー式のディスプレイ画面および入力を提供するための様々なボタン、ならびに通話を送受信する能力等の追加機能を含むことができる。音声制御デバイス100の代替の実装形態はまた、ラップトップ120(4)等のコンピュータとしての構成を含むことができる。コンピュータ120(4)は、キーボード、マウス、表示画面、ならびにデスクトップ、ノートブック、ネットブック、もしくは他のパーソナルコンピューティングデバイスで典型的に見出される任意の他のハードウェアまたは機能性を含むことができる。デバイスは、本開示内に記載される技術が発話入力を認識する能力を有する任意のデバイスに本質的に使用され得るように、単に例示であり、限定的であることを意図しない。
図解される実装形態では、デバイス120の各々は、1つ以上のプロセッサ402およびコンピュータ可読媒体404を含む。コンピュータ可読媒体404は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなど、情報の記憶のために任意の方法または技術で実装された揮発性および不揮発性メモリ、取り外し可能および取り外し可能ではない媒体を含むことができる。このようなメモリとしては、これらに限定されないが、RAM、ROM、EEPROM、フラッシュメモリもしくは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)もしくは他の光学ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、RAIDストレージシステム、または所望の情報を記憶するために使用され得、かつコンピューティングデバイスによってアクセスされ得る任意の他の媒体が挙げられる。コンピュータ可読媒体404は、コンピュータ可読記憶媒体(「CRSM」)として実装されてもよく、メモリ404で記憶された命令を実行するようにプロセッサ(複数可)102によってアクセス可能な任意の利用可能な物理的媒体であってもよい。1つの基本的実装形態では、CRSMは、ランダムアクセスメモリ(「RAM」)およびフラッシュメモリを含むことができる。他の実装形態では、CRSMとしては、これらに限定されない読み出し専用メモリ(「ROM」)、電気的消去可能プログラマブル読み出し専用メモリ(「EEPROM」)、または所望の情報を記憶するために使用され得、かつプロセッサ(複数可)402によってアクセス可能であり得る任意の他の有形媒体が挙げられ得る。
命令、データストアなどのいくつかのモジュールは、コンピュータ可読媒体404内に記憶され、プロセッサ(複数可)402上で実行するように構成され得る。コンピュータ可読媒体404内に記憶され、かつプロセッサ(複数可)402上で実行されるアプリケーションとして数例の機能モジュールが示されるが、同じ機能性は代替的に、ハードウェア、ファームウェア内に、またはシステムオンチップ(SOC)として実装され得る。
オペレーティングシステムモジュール406は、他のモジュールのために、デバイス120内のおよびデバイス120に接続されるハードウェアおよびサービスを管理するように構成され得る。ウェイクワード認識モジュール408および発話認識モジュール410は、音声入力を解釈する自然言語処理および広範な辞書の使用など、あらゆる従来の発話認識技術を利用することができる。例えば、発話認識モジュール410は、一般的な発話認識技術を利用することができ、ウェイクワード認識モジュールは、ウェイクワードに特定の発話または語句認識を含むことができる。いくつかの実装形態では、ウェイクワード認識モジュール408は、ウェイクワード自体を表す隠れマルコフモデルを利用することができる。このモデルは、特定の実装形態に応じて、予めまたはその場で作成され得る。いくつかの実装形態では、発話認識モジュール410は最初、発話認識モジュール410が発話を認識せず、またはそれに応答もしないパッシブ状態にあってもよい。発話認識モジュール410は、パッシブであるが、ウェイクワード認識モジュール408は、ウェイクワードを認識するか、またはそれに応答することができる。ウェイクワード認識モジュール408がウェイクワードを認識するか、またはそれに応答すると、発話認識モジュール410は、発話認識モジュール410がプログラムされるか、または応答することができる自然言語命令のいずれかを検出するように動作するアクティブ状態に入ることができる。図4に示される特定の実装形態では、ウェイクワード認識モジュール408および発話認識モジュール410は、別個のモジュールとして示されるが、一方、他の実装形態では、これらのモジュールは組み合わせられ得る。
他のローカルモジュール412はまた、デバイスの実装形態および構成に応じて、デバイス上に存在することができる。これらのモジュールは、より広範な発話認識技術、フィルタおよびエコー除去モジュール、スピーカ検出および識別などを含むことができる。
音声制御デバイス100はまた、コンピュータ可読媒体404内に記憶されるか、またはそうでなければデバイス120にアクセス可能な複数のアプリケーション414を含むことができる。この実装形態では、アプリケーション414は、音楽プレーヤ416、映画プレーヤ418、タイマー420、および買い物代行者422である。しかしながら、音声制御デバイス120は、任意の数またはタイプのアプリケーションを含み、ここに示される特定の例に限定されない。音楽プレーヤ416は、歌または他の音声ファイルを再生するように構成され得る。映画プレーヤ418は、映画または他の視聴覚媒体を再生するように構成され得る。タイマー420は、単純なタイミングデバイスおよびクロックの機能を提供するように構成され得る。買い物代行者422は、ユーザがウェブベースの商人から品目を購入するのを支援するように構成され得る。
コンテンツデータベース424と、デバイス120と相互作用したユーザの1つ以上のユーザプロファイル426とを含むデータストアもまた、媒体404上にローカルに記憶され得る。コンテンツデータベース424は、音楽、書籍、雑誌、映像など、デバイスによって再生または提示され得る様々なコンテンツを記憶する。ユーザプロファイル(複数可)426は、ユーザ特性、選好(例えば、ユーザ固有のウェイクワード)、利用履歴、ライブラリ情報(例えば、音楽プレイリスト)、オンライン購入履歴、ならびに個々のユーザに特有の他の情報を含むことができる。
一般的に、音声制御デバイス120は、入力デバイス428および出力デバイス430を有する。入力デバイス428は、キーボード、キーパッド、マウス、タッチスクリーン、ジョイスティック、制御ボタンなどを含むことができる。具体的には、1つ以上のマイクロホン432は、ユーザの音声入力等の音声入力を受信するように入力デバイスとして機能することができる。いくつかの実装形態では、入力デバイス428はさらに、ユーザの身振りの画像を捕捉するカメラを含むことができる。出力デバイス430は、ディスプレイ、光素子(例えば、LED)、接触感覚を生じる振動器などを含むことができる。具体的には、1つ以上のスピーカ434は、オーディオ音を出力するように出力デバイスとして機能することができる。
ユーザは、デバイス120に話しかけることによってそのデバイスと相互作用することができ、マイクロホン432は、ユーザの発話を捕捉する。デバイス120は、スピーカ434を経て可聴発話を発することによってユーザに返答して通信することができる。このように、ユーザは、キーボードまたはディスプレイを使用することなく、発話を通してのみ音声制御デバイス120と相互作用することができる。
音声制御デバイス120はさらに、ネットワークへの無線接続を容易にするアンテナ438に連結された無線ユニット436を含むことができる。無線ユニット436は、Wi−Fi、Bluetooth(登録商標)、RFなどの様々な無線技術のうちの1つ以上を実装することができる。USBポート440はさらに、ネットワークへの有線接続を容易にするデバイス120、または他の無線ネットワークと通信するプラグインネットワークデバイスの一部として提供され得る。USBポート440に加えて、またはそれに対する代替として、ブロードバンド接続等の有線接続の他の形態が利用され得る。このように、無線ユニット436およびUSB440は、クラウドサービス130と相互作用するために、デバイス120をネットワーク202に接続するために使用される可能なインターフェースの多くの例のうちの2つを形成する。
したがって、主に音声作動したデバイス120(1)として実装されるとき、マイクロホン(複数可)432以外にナビゲーションボタン、キーパッド、ジョイスティック、キーボード、タッチスクリーンなどの入力デバイスがなくてもよい。さらに、テキストまたは図形出力のためにディスプレイなどの出力がなくてもよい。スピーカ(複数可)434は、主要出力デバイスであってもよい。一実装形態では、音声制御デバイス120(1)は、音量を上げ/下げするための基本的な音量制御ボタン(複数可)、ならびに電源およびリセットボタンなど、非入力制御機構を含むことができる。例えば、電源がオンであるときなどの状態を示す単純な光素子(例えば、LED)もあってもよい。
したがって、デバイス120(1)は、滑らかかつ丸みを帯びた表面、音波の通過のための1つ以上の開孔を有する審美的に魅力的なデバイスとして実装され得る。デバイス120(1)は、単に電源コードおよび任意に有線インターフェース(例えば、ブロードバンド、USBなど)を有することができる。プラグで接続されると、デバイスは、自動的に自己構成するか、ユーザのわずかな助けにより、すぐに使用できる。結果として、デバイス120(1)は一般的に、低コストで製造され得る。他の実装形態では、他のI/O構成要素は、特殊ボタン、キーパッド、ディスプレイなど、この基本モデルに追加され得る。
(例示的なプロセス)
図5は、1つのデバイスを介してある人から要求を受信すること、別のデバイスを介してこの人に応答を伝達することを含む、この人がタスクを実施するに役立つための例示的なプロセス500を示す。プロセス500は、図1のローカルエンドポイントデバイス120(1)〜(N)およびサーバ(複数可)132によって、または他のデバイスによって実装され得る。このプロセス(図6および7に図解されるプロセスとともに)は、論理フローグラフ内のブロックまたは行為の群として図解される。ブロックのうちのいくつかは、ハードウェア、ソフトウェア、またはこれらの組み合わせで実装され得る動作を表す。ソフトウェアに関して、ブロックは、1つ以上のプロセッサによって実行されるとき、記載される動作を実施する1つ以上のコンピュータ可読媒体で記憶されたコンピュータ実行可能な命令を表す。一般的に、コンピュータ実行可能な命令としては、特定の機能を実施するか、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、構成要素、データ構造などが挙げられる。動作が記載される順序は、限定的と解釈されることを意図せず、任意の数の記載されるブロックは、プロセスを実装するために任意の順序で、または並行して組み合わせられ得る。
1つの例示的な実装形態を記載するために、ブロックは、システム100のこれらのデバイスがこれらの動作を実施し得ることを図解するために、エンドポイントデバイス120(1)〜(N)およびサーバ(複数可)132の下の段において図5に視覚的に配列される。すなわち、デバイス120(1)〜(N)の下に配列されたブロックによって定義された行為は、デバイスのうちのいずれか1つによって実施され得る。ある特定の状況では、要求入力部等のプロセスのある部分は、第1のエンドポイントデバイスによって実施されてもよく、応答伝達部等のプロセスの別の部分は、フロー図の部分の周囲の破線ボックスによって図解されるように、第2のエンドポイントデバイスによって実施され得る。同様に、サーバ(複数可)132の下で配列されたブロックによって定義された行為は、1つ以上のサーバ(複数可)132によって実施され得る。
502では、第1のローカルエンドポイントデバイス120(1)は、マイクロホン(複数可)208/434で発話入力を受信する。発話入力は、デバイスに意図的な発話を警告するウェイクワードを含むことができるか、またはデバイスが既に起動し、かつユーザと相互作用していた後の進行中の話し合いの一部であり得る。発話入力は、要求を含む。
504では、第1のローカルエンドポイントデバイス120(1)における発話認識モジュール410は、発話入力での要求が人の識別を認識することから恩恵を受けるかを識別することを試みる。換言すれば、要求が一般的であるか、またはより個人的であるか?これが個人的ではなく(すなわち、504からの「いいえ」分岐)、人の識別が有益ではない場合、プロセス500は、508で発話入力のいくつかの前処理に進むことができる。例えば、発話入力は、「今日の天気は何ですか?」という質問であってもよい。この要求は、個人的ではなく、本来は一般的と見なされてもよく、それ故にシステムは、誰が要求を行っているかを思い出す必要がない。一方、ユーザは、人の識別が有益である個人的な要求(すなわち、504からの「はい」分岐)を行い、506でこの人を識別する動作につながることができる。例えば、発話入力が「明日の朝、ごみを出すことを知らせてください」または「妻の記念日の贈り物を受け取ることを知らせて」であることを想定されたい。これらの両方は、個人的な要求の例であり、後者は、リマインダがどのように伝達されるかという点でより高度な感度を有する。これらの状況では、この人は、音声識別(例えば、Aという人が話している)、交換文脈(主寝室にいる間、男性の声がごみを出すことを求める)、二次的視覚確認などを用いて識別される。
508では、第1のデバイス120(1)は任意に、発話入力をサーバに送信するより前に発話入力を前処理することができる。例えば、デバイスは、入力に、自然言語処理、圧縮アルゴリズムをサーバ132に送信するより前にデータを圧縮する圧縮アルゴリズム、またはさらには音声データを暗号化する暗号化アルゴリズムを適用することができる。
510では、発話入力は、506から既知である場合、第1のデバイス120(1)の識別および人の識別とともにサーバ132に渡される。デバイス120(1)の識別は、通し番号、登録番号などであってもよく、ユーザ要求が発生した場所からサーバ132で動作するタスクハンドラが知るように提供される。いくつかの場合では、現在の気象情報を含む応答などの応答が第1のデバイス120(1)に直ちに返されてもよい。いくつかの場合では、第1のデバイス120(1)の識別は、ユーザの識別を確認するのに役立つことができる。さらに、特定の時刻で特定の要求を行う第1のデバイスのユーザの使用は、ユーザの通常の1日の流れで習慣またはパターンを追跡する方法として、ユーザのプロファイル内に記憶され得る。さらに、人の識別が第1のデバイス120(1)と関連付けられるとき、この関連付けは、要求の受信直後にある期間、その識別されたユーザへの応答の伝達のために、または将来の応答の伝達のために、位置およびエンドポイントデバイスを完全に選択するのに使用され得る。いくつかの実装形態では、人の識別は、第1のデバイス120(1)ではなくサーバ132によって決定され得ることにも留意される。このような実装形態では、第1のデバイス120(1)は、人からの発話入力を表す音声データを渡し、サーバ132は、音声データおよび場合により他の標識を使用して人を識別する。
いくつかの実装形態では、ユーザは、別の人にリマインダを設定することができる。例えば、第1のユーザ(例えば、夫のScott)は、「明日の午後、処方薬を受け取ることをElynに知らせてください」など、第2のユーザ(例えば、彼の妻のElyn)に対する要求を行うことができる。この状況では、要求は、別のユーザの識別を含み、クラウドサービスにおけるサーバは、ユーザプロファイルデータに基づいて、それが誰であり得るかを決定する。
512では、クラウドサービス130におけるサーバ132は、第1のエンドポイントデバイス120(1)から受信された発話入力内で処理する。一実装形態では、処理は、復号、解凍、および発話認識を含むことができる。音声データが解析および理解されると、タスクハンドラ220は、適切な応答を決定する。タスクハンドラは、応答を生成するように任意の数のアプリケーションに問い合わせることができる。例えば、要求が明日、航空券を購入するリマインダに対するものである場合、タスクハンドラは、リマインダ応答を明日提供するときに、航空券の価格を見つけ出す解法の一部として旅行アプリケーションに関与することができる。加えて、クラウドサービス130はまた、応答が誰のために方向付けられるかを決定することができる。応答は、元のリクエスタに返される可能性が高いが、いくつかの場合では、これは、別の人に伝達され得る(位置決定は、第2の人に関する)。
514では、要求が受信され、処理されるユーザに示すために即時確認が任意に送信され得る。例えば、リマインダに対する要求に応答して、応答は、「了解、Scott、お知らせします」であり得る。サーバ130は、要求が受信された同じエンドポイントデバイス120(1)に確認を返す。516では、第1のデバイス120(1)は、コンピューティングシステムが要求を聞き、かつそれを認めた場合、ユーザ経験が会話のうちの1つであるように確認を受信および再生する。
518では、いつ応答で返答すべきかが決定される。一実装形態では、タスクハンドラ220は、適切な時間を要求から識別してこの要求に応答する。ユーザは、所望の回答を伝達するためにあらゆる方法を使用することができる。例えば、ユーザは、リマインダ「会社の会議前」もしくは「明日の朝」、またはある特定の日の午後5:00を求めることができる。これらの各々は、異なるレベルの特異性を有する。後者は単純明快であり、タスクハンドラ220が午後5:00に対する応答を設定する。2つの前者の例に対して、タスクハンドラ220は、「明日の朝」が要求に依存し得るものかを識別することを試みることができる。要求が「ごみを出す」に対するリマインダに対するものである場合、「明日の朝」と関連付けられた時間枠は、ユーザが朝に(例えば、上述されるように午前6:30に)家にいることが予定される時間であり得る。要求が「マーケティングと会う」に対するリマインダに対するものである場合、「明日の朝」の時間枠は、午前9:00または午前10:00により近くであり得る。最後に、要求が「会社の会議前」に対するものである場合、タスクハンドラ220は、いつ「会社の会議」が予定されているか確かめるようにカレンダーに問い合わせることができ、その会議が開始する予定である前の妥当な期間にリマインダを設定する。
520では、対象の人の位置は、応答が適時に送信されるべき場所を識別するために決定される。例えば、応答の時間が近づくと、人特定モジュール222は、適時に応答を伝達するために、どこにユーザが位置し得るかを決定する。この決定を行う多くの方法がある。この行為のより詳細な論述が図6を参照して下記に記載される。さらに、対象のユーザは、初期のリクエスタまたは別の人であってもよい。
522では、応答を送信すべきであるデバイスが決定される。一実装形態では、エンドポイントデバイスセレクタ310は、利用可能であり得る可能なデバイスを評価し、次にどのエンドポイントデバイスが応答を送信する状況で最良であり得るか決定する。可能なデバイスを評価し、かつ最良適合を識別するための多くの技術がある。この行為のより詳細な論述が図7を参照して下記に提供される。
524では、適切な応答が対象のユーザの位置で最良適合デバイスに適時に送信される。論述のために、最良適合デバイスは、第2のローカルデバイス120(2)など、要求が受信されたデバイス120(1)とは異なるエンドポイントデバイスであることを想定されたい。
526では、応答は、対象のユーザに対して受信され、再生される(またはそうでなければ現される)。図5に示されるように、第2のデバイス120(2)は、応答を受信し、近くにいると思われるユーザに対してそれを再生する。応答は、任意の形態(例えば、音声、視覚、触覚など)であってもよく、任意のタイプのメッセージ、リマインダなどを本質的に含むことができる。応答は、聞くユーザのためにスピーカを通して行われる音声形態であってもよい。継続的な例では、応答は、「ごみを出すことを忘れないで」または「15分以内に会議がある」であってもよい。
上述され、図5に図解される技術は、単に例であり、実装形態は、この技術に限定されない。それよりむしろ、デバイス120およびサーバ132を動作させる他の技術が利用されてもよく、本明細書に開示されるシステムの実装形態は、任意の特定の技術に限定されない。
図6は、図5の行為520から人の位置を決定するためのより詳細なプロセスを示す。602では、対象の人の識別が受信される。行為506に関して上述されるように、ある特定の要求は、一意のユーザID等、要求を行う人の識別を含む。
604では、対象の人の可能な位置が決定される。この決定を行う多くの方法があり、これらのうちのいくつかが代表的な例として提示される。例えば、604−1では、人特定モジュール222は、対象の人の位置を視覚的に特定することを試みるためにある環境にわたって光学デバイスをポーリングすることができる。カメラ等の光学デバイスは、ユーザを識別するために認識ソフトウェア(例えば、顔認識、特徴認識など)を利用することができる。本明細書に使用されるとき、「ポーリング」は、光学デバイスから光学情報を取得することを指し、情報を活発的に要求すること(例えば、「プル」型)、または要求なしで情報を受信すること(例えば、「プッシュ」型)を含むことができる。別の手法では、604−2では、人特定モジュール222は、対象の人が存在する音声確認を得るためにこの環境にわたって音声デバイスをポーリングすることができる。音声ツールは、異なる人々を一意的に識別するために、事前に記録された音声プロファイルに対する音声入力を評価するために使用され得る。
別の技術は、604−3では、対象の人と関連付けられ得る携帯用デバイスの位置を特定することである。例えば、人特定モジュール222は、GPSデータおよび/または携帯電話の基地局の三辺測量データを介して、スマートフォン、タブレット、または携帯情報端末等のデバイスの位置を特定する位置ソフトウェアモジュールと相互作用することができる。いくつかの実装形態では、この技術は、他の手法と連携して使用され得る。例えば、この物理的位置データは、人の探査を特定の住居または事務所に絞るのに役立つことができ、次に音声または光学デバイスをポーリングすることは、住居または事務所の特定の部屋または領域内にユーザを配置するために使用され得る。
人特定モジュール222はさらに、604−4では、カレンダーアプリケーションなど、ユーザの位置を特定するために他のアプリケーションに問い合わせることができる。カレンダーアプリケーションは、どこにユーザが特定の時間に位置するように予定されるかを特定することができる。これは、ユーザが事務所で様々な会議中であるときに特に有用である。604−Nによって表されるように、対象の人の居場所の他の標識を提供するように問い合わせられ得る多くの他の源がある。
人特定モジュール222が多くの可能な位置を識別することを想定されたい。606では、可能な位置は、任意にランク付けされ得る。例えば、各位置は、ユーザがどのくらいの可能性でそこに位置するべきかを示す信頼性得点を割り当てられ得る。視覚データの使用は、非常に高い信頼性得点を有することができるが、一方、音声データは、それと関連付けられたわずかに低い信頼性を有する。カレンダー項目の使用は、ユーザが予定に従っているという保証はないときに、著しくより低い信頼性得点を取り付けられ得る。
608では、人特定モジュール222は、対象の人と相互作用するように1つ以上のローカルデバイスに関わり、その人の存在を確認することができる。例えば、人特定モジュール222は最初に、その人が特定の部屋にいると考えることを想定されたい。人特定モジュール222は、恐らく質問(例えば、「Scott、何か必要ですか?」)をすることを通じて、室内のデバイスのうちの1つにその人に関わるように指示することができる。その人が存在する場合、その人は、自然に応答することができる(例えば、「いいえ、何もない。ありがとう」)。人特定モジュール222は次に、対象の人が存在することを確認することができる。
610では、ユーザへの応答の伝達のために位置が選択される。この選択は、行為606のランク付けされた可能な位置および/または行為608の迅速な相互作用による確認に基づいてもよい。
図7は、図5の行為522から、応答を返すように適切なデバイスを決定するためのより詳細なプロセスを示す。
702では、対象の人の位置が受信される。これは、図6に図解されるように、行為516から決定され得る。あるいは、対象の人の位置は、予め知られていてもよく、またはユーザは、ユーザがどこに位置したかをシステムに知らせてもよい。
704では、対象の人の位置に近位の可能なデバイスが、その人への応答を伝達するために利用可能であると発見される。例えば、ユーザが住宅または事務所の室内に位置することが認められる場合、コンピューティングエンドポイントデバイスセレクタ310は、1つ以上のデバイスが住宅の室内に存在するかを発見する。セレクタ310は、デバイスがユーザと関連付けられるかを確かめるようにユーザのプロファイルに問い合わせることができるか、またはデバイスが取り付けられる住居または位置を識別する登録記録を評価することができる。
706では、利用可能なデバイスは、対象の人に応答を返す状況で最良のデバイスであり得るかを特定するために評価される。この決定を行う多くの手法があり、これらのうちのいくつかが代表的な例として提示される。例えば、706−1では、エンドポイントデバイスから対象の人までの距離が分析され得る。エンドポイントデバイスに深度センサ(例えば、フライトセンサの時間)が具備されている場合、深度値が使用され得る。複数のデバイスが室内にある場合、デバイス間のユーザから口頭入力を受信するタイミング差は、人の位置、およびどのデバイスが最も近くであり得るかを推定するために使用され得る。
706−2では、対象の人を含む環境内の背景音量が分析され得る。高い背景音声は、対象のユーザと通信するデバイスの能力に影響を与えることができる。例えば、部屋には電化製品の近くに位置する第1のデバイス、および部屋にわたって位置する第2のデバイスがあることを想定されたい。電化製品が動作している場合、第1のデバイスの背景音量は、第2のデバイスの背景音量よりはるかに大きく、それにより第2のデバイスがこの場合、ユーザと通信するのにより適切であり得ることを示す。
706−3では、様々な利用可能なデバイスの信号対雑音比(SNR)が分析される。強いSNRを有するデバイスが、より弱いSNRを有するデバイスより優先される。
706−4では、環境のエコー特性が分析され得る。部屋に人間、ならびに表面の位置を含む周囲の環境の音響マップを得る移動物体、および反響を引き起こし得る他の物体が存在しないときに、基線測定値(baseline reading)が取られる。エコー特性は、人々または物体が音響マップを変更し得るかを決定するように、対象のユーザを含む人間との関わりの時間で測定され得る。これらの測定の結果に応じて、ある特定の利用可能なデバイスは、対象のユーザに応答を伝達するのにより適切になり得る。
706−5では、具体的に環境を通じた対象のユーザの移動に対して環境のドップラー特性が分析され得る。いくつかの場合では、ユーザは、部屋の1つの部分から部屋の別の部分に、または部屋から部屋に環境を通じて移動することができる。これらの場合では、ユーザが話してもいて、コンピューティングシステム100と会話をしている場合、ユーザの移動の方向、および話しているときのユーザの頭部の配向に応じて、どのデバイスがユーザと相互作用するのに最良であるかに影響を与える、変化する音響特性があり得る。したがって、ドップラー特性は、どのデバイスが所定の状況で応答するのに最良であり得るかに影響を与えることができる。
706−6では、何人の人々が室内にいるか、または具体的には室内にいるのは誰かなどの環境が分析され得る。いくつかの実装形態では、カメラまたは他の光学デバイスから受信された視覚データは、人々の数、または環境内の人々の識別に関する洞察を提供することができる。この分析は、どのデバイスが応答を伝達するのに最も適切であるかを決定するのに支援することができる。例えば、デバイスが人々で混雑した室内に位置する場合、システムは、人混みから離れた別のデバイスがより良くあり得ることを感知することができる。
706−Mによって表されるように、応答を提供するために可能なデバイスを評価するために適用された多くの他のタイプの分析がある。例えば、別のタイプの分析は、対象のユーザと個人用デバイスとの間の関連性を発見するために所有権または登録情報を再検討することである。対象のユーザにより個人的であるデバイスは、より高い得点を受け取ることができる。
708では、応答は、応答をどこに方向付けるかの決定に影響を与え得る特別な基準があるかを決定するために評価される。例えば、ユーザが彼の妻の贈り物を受け取るためのリマインダを求めるシナリオでは、応答は、対象の人の妻が偶然にリマインダを聞く位置にシステムがリマインダを返すべきではないという点においてプライバシーまたは感度の要素を含む。別の例は、ユーザが医者の予約または個人の資産データに関する情報を要求し得る場合であり、これは、一般的な消費を意図しない。無数の特別な基準の例がある。したがって、708では、これらの基準は、この状況下で最良のエンドポイントデバイスを見つけ出すプロセスを行う決定において評価および使用される。
710では、最良のエンドポイントデバイス120が選択される。この決定は、706−1〜706−Mという様々な分析を採点すること、結果をランク付けすること、および任意の特別な基準を結果に適用することに基づいてもよい。この例では、最後に最高得点を有するデバイスが選択される。
(結論)
主題は、構造的特徴に特有の言語で記載されたが、添付の特許請求の範囲内に定義される主題は記載される特定の特徴に必ずしも限定されないことを理解されるべきである。それによりむしろ、特定の特徴は、特許請求の範囲を実装する例示的な形態として開示される。
付記:
1.リモートコンピューティングシステムと、
1人以上のユーザにローカルな様々な位置に位置する複数のエンドポイントデバイスであって、第1のエンドポイントデバイスが、
1つ以上のプロセッサと、
コンピュータ実行可能な命令を記憶するコンピュータ可読記憶媒体と、
ユーザからの音声入力であって、ユーザ要求を含む、音声入力を受信する少なくとも1つのマイクロホンと、
ユーザ要求をリモートコンピューティングシステムに送信するインターフェースと、を備え、
リモートコンピューティングシステムが、ユーザ要求への応答を生成し、この応答をいつ伝達するべきであるかを決定し、ユーザに応答を提供するために利用可能な第2のエンドポイントデバイスを選択し、かつ応答を第2のエンドポイントデバイスに送信するように構成された1つ以上の実行可能なモジュールを備え、
第2のエンドポイントデバイスが、
1つ以上のプロセッサと、
コンピュータ実行可能な命令を記憶するコンピュータ可読記憶媒体と、
リモートコンピューティングシステムから応答を受信するインターフェースと、
応答を音声形態でユーザに出力する少なくとも1つのスピーカと、を備える、複数のエンドポイントデバイスと、を備える、コンピューティングシステム。
2.ユーザ要求は、リマインダ、タイマー、アラーム、カレンダーの項目、方向、命令、および予約を含む要求の群から選択される、付記1に記載のコンピューティングシステム。
3.リモートコンピューティングシステムは、ユーザ要求に自然言語理解処理を実施すること、カレンダーアプリケーションからの情報を使用すること、ユーザと関連付けられたユーザプロファイルからの情報を使用すること、またはユーザと関連付けられた活動履歴内のイベントに関する情報を使用することのうちの少なくとも1つによって、応答をいつ伝達するべきであるかを決定するように構成される、付記1に記載のコンピューティングシステム。
4.第1のエンドポイントデバイスは、1つ以上のコンピュータ可読記憶媒体内に維持され、かつユーザの音声入力を表すマイクロホンからの信号をテキストに変換するように1つ以上のプロセッサによって実行される、発話認識モジュールをさらに備える、付記1に記載のコンピューティングシステム。
5.リモートコンピューティングシステムの1つ以上のモジュールは、ユーザの位置を、ユーザに応答を提供するための位置で利用可能な第2のエンドポイントデバイスを選択するより前に特定するようにさらに構成される、付記1に記載のコンピューティングシステム。
6.第3のエンドポイントデバイスをさらに備え、リモートコンピューティングシステムの1つ以上のモジュールは、ユーザに応答を提供するために第2のエンドポイントデバイスと第3のエンドポイントデバイスとの間で選択するようにさらに構成される、付記1に記載のコンピューティングシステム。
7.リモートコンピューティングシステムは、エンドポイントデバイスのうちの1つ以上から音声データを受信することによってユーザの位置を特定するように構成される、付記1に記載のコンピューティングシステム。
8.第2のエンドポイントデバイスは、環境の画像を捕捉するカメラを備え、リモートコンピューティングシステムは、画像から生じたデータを受信することによってユーザの位置を特定するように構成される、付記1に記載のコンピューティングシステム。
9.リモートコンピューティングシステムは、ユーザと関連付けられたカレンダーまたはユーザの活動履歴のうちの少なくとも1つを再検討することによってユーザの位置を特定するように構成される、付記1に記載のコンピューティングシステム。
10.リモートコンピューティングシステムは、
ユーザからのエンドポイントデバイスの距離を決定する距離分析と、
エンドポイントデバイスの背景雑音の音量を決定する背景分析と、
ユーザおよび背景雑音源に対してエンドポイントデバイスでSNRを決定する信号対雑音比(SNR)分析と、
エンドポイントデバイスが存在する環境のエコー特性を決定するエコー分析と、
エンドポイントデバイスに対してユーザからの音声入力のドップラー特性を決定するドップラー分析と、
エンドポイントデバイスに近位の人々の数を決定する環境分析と、を含む少なくとも1つの分析を用いてエンドポイントデバイスのうちの1つ以上を評価することによって第2のエンドポイントデバイスを選択するように構成される、付記1に記載のコンピューティングシステム。
11.1つ以上のコンピュータ可読媒体であって、1つ以上のプロセッサによる実行時に、この1つ以上のプロセッサに、
第1のコンピューティングデバイスから、第1のユーザから要求を受信することと、
この要求を処理して応答を生成することと、
この応答を受信するために第2のユーザを決定することと、
第2のコンピューティングデバイスを選択することと、
第2のユーザへの応答の提示のために第2のコンピューティングデバイスに応答を伝達することと、を含む動作を実施させるコンピュータ実行可能な命令を有する、1つ以上のコンピュータ可読媒体。
12.要求は、テキスト形式または音声形式のうちの1つを含む、付記11に記載の1つ以上のコンピュータ可読媒体。
13.第1のユーザおよび第2のユーザは、同じ人である、付記11に記載の1つ以上のコンピュータ可読媒体。
14.第1のコンピューティングデバイスおよび第2のコンピューティングデバイスは、同じコンピューティングデバイスである、付記11に記載の1つ以上のコンピュータ可読媒体。
15.第1のコンピューティングデバイスは、第1の位置に存在し、第2のコンピューティングデバイスは、第1の位置とは異なる第2の位置に存在する、付記11に記載の1つ以上のコンピュータ可読媒体。
16.1つ以上のプロセッサによる実行時に、この1つ以上のプロセッサに、第2のユーザに応答を伝達する時間を決定することを含む追加の動作を実施させるコンピュータ実行可能な命令をさらに含む、付記11に記載の1つ以上のコンピュータ可読媒体。
17.1つ以上のプロセッサによる実行時に、この1つ以上のプロセッサに、要求に自然言語理解を実施することに一部基づいて第2のユーザに応答を伝達する時間を決定することを含む追加の動作を実施させるコンピュータ実行可能な命令をさらに含む、付記11に記載の1つ以上のコンピュータ可読媒体。
18.1つ以上のプロセッサによる実行時に、この1つ以上のプロセッサに、第2のユーザに応答を伝達する時間を決定することを含む追加の動作を実施させるコンピュータ実行可能な命令をさらに含み、伝達時間は、第2のユーザの存在の決定に少なくとも一部基づいている、付記11に記載の1つ以上のコンピュータ可読媒体。
19.第2のコンピューティングデバイスを選択することは、第2のユーザの位置を特定することと、この位置で利用可能な第2のコンピューティングデバイスを選択することとを含む、付記11に記載の1つ以上のコンピュータ可読媒体。
20.第2のユーザの位置を特定することは、第2のユーザと関連付けられたデバイスの位置を決定することを含む、付記19に記載の1つ以上のコンピュータ可読媒体。
21.第2のユーザを決定することは、要求に自然言語理解を実施することを含む、付記11に記載の1つ以上のコンピュータ可読媒体。
22.第2のコンピューティングデバイスを選択することは、第2のユーザが存在するかを検出するために第2のユーザと関連付けられた環境でコンピューティングデバイスをポーリングすることを含む、付記11に記載の1つ以上のコンピュータ可読媒体。
23.第2のコンピューティングデバイスを選択することは、
ユーザから第2のコンピューティングデバイスの距離を決定すること、
第2のコンピューティングデバイスの背景雑音の音量を決定すること、
ユーザおよび背景雑音源に対して第2のコンピューティングデバイスで信号対雑音比を測定すること、
第2のコンピューティングデバイスが存在する環境のエコー特性を決定すること、
第2のコンピューティングデバイスに対してユーザからの音声入力のドップラー特性を決定すること、または、
第2のコンピューティングデバイスに近位の人々の数を決定すること、のうちの少なくとも1つを含む、付記11に記載の1つ以上のコンピュータ可読媒体。
24.実行可能な命令で構成された1つ以上のコンピュータシステムの制御下で、
要求を受信することと、
この要求を処理して応答を生成することと、
この応答を伝達するためにコンピューティングデバイスを選択することと、
この応答を選択されたコンピューティングデバイスに伝達することと、を含む、コンピュータ実装方法。
25.要求を受信することは、第1のコンピューティングデバイスから要求を受信することを含み、応答を伝達することは、第1のコンピューティングデバイスとは異なる第2のコンピューティングデバイスに応答を送信することを含む、付記24に記載のコンピュータ実装方法。
26.要求を受信することは、第1のコンピューティングデバイスから、第1のユーザによって生じた要求を受信することを含み、コンピューティングデバイスを選択することは、第1のユーザとは異なる第2のユーザに応答を伝達するために、第1のコンピューティングデバイスまたは第2のコンピューティングデバイスのうちの1つを選択することを含む、付記24に記載のコンピュータ実装方法。
27.要求を受信することは、第1のコンピューティングデバイスへのユーザによる音声入力を示す音声入力を受信することを含み、応答を伝達することは、第1のコンピューティングデバイスとは異なる第2のコンピューティングデバイスによってユーザに音声出力の音声データを送信することを含む、付記24に記載のコンピュータ実装方法。
28.応答を伝達するためにコンピューティングデバイスを選択することは、応答を受信するためにユーザの位置を特定することと、この位置で利用可能な複数のコンピューティングデバイスの中から1つのコンピューティングデバイスを選択することとを含む、付記24に記載のコンピュータ実装方法。
29.ユーザの位置を特定することは、
ユーザの視覚確認のために1つ以上の光学デバイスをポーリングすること、
ユーザの音声確認のために1つ以上の音声デバイスをポーリングすることと、
ユーザと関連付けられた電子デバイスを特定することと、または、
ユーザと関連付けられたカレンダーを再検討することと、のうちの少なくとも1つを含む、付記28に記載のコンピュータ実装方法。
30.コンピューティングデバイスを選択することは、
ユーザへのコンピューティングデバイスの近接を分析すること、
コンピューティングデバイスの背景雑音の音量を分析すること、
ユーザおよび背景雑音源に対してコンピューティングデバイスの信号対雑音比を分析すること、
コンピューティングデバイスが存在する環境のエコー特性を分析すること、
コンピューティングデバイスに対してユーザからの音声入力のドップラー特性を分析すること、または、
コンピューティングデバイスに近位の人々の数を分析すること、のうちの少なくとも1つを含む、付記24に記載のコンピュータ実装方法。
31.応答を返す時間を決定することをさらに含む、付記24に記載のコンピュータ実装方法。
32.一部において、要求に自然言語理解を実施することによって応答を返す時間を決定することをさらに含む、付記24に記載のコンピュータ実装方法。
33.実行可能な命令で構成された1つ以上のコンピュータシステムの制御下で、
ユーザへの伝達のためにメッセージを取得することと、
ユーザの位置を決定することと、
1つ以上の利用可能なコンピューティングデバイスのうちの1つを選択することと、
ユーザへの提示のためにメッセージを選択されたコンピューティングデバイスに伝達することと、を含む、コンピュータ実装方法。
34.メッセージをユーザに伝達する時間を決定することをさらに含む、付記33に記載のコンピュータ実装方法。
35.メッセージを取得することは、第1のコンピューティングデバイスから、第1のユーザからのメッセージを受信することを含み、メッセージを伝達することは、第1のユーザとは異なる第2のユーザへの提示のためにメッセージを第2のコンピューティングデバイスに伝達することを含む、付記33に記載のコンピュータ実装方法。
36.ユーザの位置を決定することは、
ユーザの視覚確認のために1つ以上の光学デバイスをポーリングすること、
ユーザの音声確認のために1つ以上の音声デバイスをポーリングすること、
ユーザと関連付けられた電子デバイスを特定すること、または、
ユーザと関連付けられたカレンダーを再検討すること、のうちの少なくとも1つを含む、付記33に記載のコンピュータ実装方法。
37.1つ以上の利用可能なコンピューティングデバイスのうちの1つを選択することは、この位置で利用可能な複数のコンピューティングデバイスを決定することと、この位置で利用可能な複数のコンピューティングデバイスの中からこの1つのコンピューティングデバイスを選択することとを含む、付記33に記載のコンピュータ実装方法。
38.メッセージをユーザに再送信するために、決定すること、選択すること、および伝達することを繰り返すことをさらに含む、付記33に記載のコンピュータ実装方法。

Claims (15)

  1. コンピューティングシステムであって、
    リモートコンピューティングシステムと、
    1または複数のユーザにローカルな様々な位置に位置する複数のエンドポイントデバイスであって、
    第1のエンドポイントデバイスが、
    1または複数のプロセッサと、
    コンピュータ実行可能な命令を記憶するコンピュータ可読記憶媒体と、
    ユーザからの音声入力を受信するための少なくとも1つのマイクロホンであって、前記音声入力はユーザ要求を含む、マイクロホンと、
    前記ユーザ要求を前記リモートコンピューティングシステムに送信するインターフェースと、を備え、
    前記リモートコンピューティングシステムが、前記ユーザ要求への応答を生成し、前記応答をいつ伝達するべきであるかを決定し、前記ユーザに前記応答を提供するために利用可能な第2のエンドポイントデバイスを選択し、および、前記応答を前記第2のエンドポイントデバイスに送信するように構成された1または複数の実行可能なモジュールを備え、
    前記第2のエンドポイントデバイスが、
    1または複数のプロセッサと、
    コンピュータ実行可能な命令を記憶するコンピュータ可読記憶媒体と、
    前記リモートコンピューティングシステムから前記応答を受信するインターフェースと、
    前記応答を音声形式で前記ユーザに出力するための少なくとも1つのスピーカと、を備える、複数のエンドポイントデバイスと
    を備えるコンピューティングシステム。
  2. 前記ユーザ要求は、リマインダ、タイマー、アラーム、カレンダーの項目、方向、命令、および予約を含む要求の群から選択される、請求項1に記載のコンピューティングシステム。
  3. 前記リモートコンピューティングシステムは、前記ユーザ要求に自然言語理解処理を実施すること、カレンダーアプリケーションからの情報を使用すること、前記ユーザと関連付けられたユーザプロファイルからの情報を使用すること、または前記ユーザと関連付けられた活動履歴内のイベントに関する情報を使用することのうちの少なくとも1つによって、前記応答をいつ伝達するべきであるかを決定するように構成される、請求項1に記載のコンピューティングシステム。
  4. 前記第1のエンドポイントデバイスは、前記1または複数のコンピュータ可読記憶媒体内に維持され、および前記ユーザの前記音声入力を表す前記マイクロホンからの信号をテキストに変換するように前記1または複数のプロセッサによって実行される、発話認識モジュールをさらに備える、請求項1に記載のコンピューティングシステム。
  5. 前記リモートコンピューティングシステムの前記1また複数のモジュールは、前記ユーザの位置を、前記ユーザに前記応答を提供するために前記位置で利用可能な前記第2のエンドポイントデバイスを選択するより前に特定するようにさらに構成される、請求項1に記載のコンピューティングシステム。
  6. 前記リモートコンピューティングシステムは、前記エンドポイントデバイスのうちの1つまたは複数のエンドポイントデバイスから音声データを受信することによって前記ユーザの前記位置を特定するように構成される、請求項1に記載のコンピューティングシステム。
  7. 実行可能な命令で構成された1または複数のコンピュータシステムの制御下で、
    要求を受信することと、
    前記要求を処理して応答を生成することと、
    前記応答を伝達するためのコンピューティングデバイスを選択することと、
    前記応答を前記選択されたコンピューティングデバイスに伝達することと、
    を含むコンピュータ実装方法。
  8. 前記要求を受信することは、第1のコンピューティングデバイスへの前記ユーザによる音声入力を示す音声入力を受信することを含み、前記応答を伝達することは、前記第1のコンピューティングデバイスとは異なる第2のコンピューティングデバイスによる前記ユーザへの音声出力のために音声データを送信することを含む、請求項7に記載のコンピュータ実装方法。
  9. 前記応答を伝達するためのコンピューティングデバイスを選択することは、前記応答を受信するためのユーザの位置を特定することと、前記位置で利用可能な複数のコンピューティングデバイスの中から1つのコンピューティングデバイスを選択することとを含む、請求項7に記載のコンピュータ実装方法。
  10. 一部において、前記要求に自然言語理解を実施することによって、前記応答を返す時間を決定することをさらに含む、請求項7に記載のコンピュータ実装方法。
  11. 実行可能な命令で構成された1または複数のコンピュータシステムの制御下で、
    ユーザへの伝達のためにメッセージを取得することと、
    前記ユーザの位置を決定することと、
    1または複数の利用可能なコンピューティングデバイスのうちの1つを選択することと、
    前記ユーザへの提示のために前記メッセージを前記選択されたコンピューティングデバイスに伝達することと
    を含むコンピュータ実装方法。
  12. 前記メッセージを前記ユーザに伝達する時間を決定することをさらに含む、請求項11に記載のコンピュータ実装方法。
  13. 前記メッセージを取得することは、第1のコンピューティングデバイスから、第1のユーザからのメッセージを受信することを含み、前記メッセージを伝達することは、前記第1のユーザとは異なる第2のユーザへの提示のために前記メッセージを第2のコンピューティングデバイスに伝達することを含む、請求項11に記載のコンピュータ実装方法。
  14. 前記ユーザの位置を決定することは、
    前記ユーザの視覚確認のために1または複数の光学デバイスをポーリングすることと、
    前記ユーザの音声確認のために1または複数の音声デバイスをポーリングすることと、
    前記ユーザに関連付けられた電子デバイスの位置を特定することと、
    前記ユーザに関連付けられたカレンダーを再検討することと、のうちの少なくとも1つを含む、請求項11に記載のコンピュータ実装方法。
  15. 1または複数の利用可能なコンピューティングデバイスのうちの1つを選択することは、前記位置で利用可能な複数のコンピューティングデバイスを決定することと、前記位置で利用可能な前記複数のコンピューティングデバイスの中から前記1つのコンピューティングデバイスを選択することとを含む、請求項11に記載のコンピュータ実装方法。
JP2015544158A 2012-12-14 2013-11-22 応答エンドポイント選択 Ceased JP2016502192A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/715,741 2012-12-14
US13/715,741 US9271111B2 (en) 2012-12-14 2012-12-14 Response endpoint selection
PCT/US2013/071488 WO2014092980A1 (en) 2012-12-14 2013-11-22 Response endpoint selection

Publications (1)

Publication Number Publication Date
JP2016502192A true JP2016502192A (ja) 2016-01-21

Family

ID=50932239

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015544158A Ceased JP2016502192A (ja) 2012-12-14 2013-11-22 応答エンドポイント選択

Country Status (5)

Country Link
US (4) US9271111B2 (ja)
EP (1) EP2932371B1 (ja)
JP (1) JP2016502192A (ja)
CN (1) CN105051676B (ja)
WO (1) WO2014092980A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018055898A1 (ja) 2016-09-23 2018-03-29 ソニー株式会社 情報処理装置、及び情報処理方法
WO2019159646A1 (ja) * 2018-02-14 2019-08-22 パナソニックIpマネジメント株式会社 制御情報取得システム、及び、制御情報取得方法
WO2020116026A1 (ja) * 2018-12-07 2020-06-11 ソニー株式会社 応答処理装置、応答処理方法及び応答処理プログラム
US10747477B2 (en) 2017-11-17 2020-08-18 Canon Kabushiki Kaisha Print control system that transmit to a registered printing apparatus, a change instruction for changing a setting of the power of the registered printing apparatus, and related method
US10916247B2 (en) 2017-11-17 2021-02-09 Canon Kabushiki Kaisha Voice control system, control method, and non-transitory computer-readable storage medium storing program
US11398233B2 (en) 2019-08-09 2022-07-26 Baidu Online Network Technology (Beijing) Co., Ltd. Smart service method, apparatus and device
US11488588B2 (en) 2017-11-20 2022-11-01 Canon Kabushiki Kaisha Voice control system and control method for controlling printing apparatus

Families Citing this family (166)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10469556B2 (en) 2007-05-31 2019-11-05 Ooma, Inc. System and method for providing audio cues in operation of a VoIP service
US9271111B2 (en) * 2012-12-14 2016-02-23 Amazon Technologies, Inc. Response endpoint selection
US10521188B1 (en) * 2012-12-31 2019-12-31 Apple Inc. Multi-user TV user interface
US9818407B1 (en) * 2013-02-07 2017-11-14 Amazon Technologies, Inc. Distributed endpointing for speech recognition
US10499192B2 (en) * 2013-03-14 2019-12-03 T-Mobile Usa, Inc. Proximity-based device selection for communication delivery
US9386148B2 (en) 2013-09-23 2016-07-05 Ooma, Inc. Identifying and filtering incoming telephone calls to enhance privacy
CA2864722C (en) * 2013-09-23 2019-07-30 Emerson Electric Co. Energy management based on occupancy and occupant activity level
US10147441B1 (en) 2013-12-19 2018-12-04 Amazon Technologies, Inc. Voice controlled system
AU2014370055B2 (en) * 2013-12-23 2019-01-24 Assa Abloy, Inc. Method for utilizing a wireless connection to unlock an opening
US10600291B2 (en) 2014-01-13 2020-03-24 Alexis Ander Kashar System and method for alerting a user
US10274908B2 (en) * 2014-01-13 2019-04-30 Barbara Ander System and method for alerting a user
US9432794B2 (en) 2014-02-24 2016-08-30 International Business Machines Corporation Techniques for mobility-aware dynamic service placement in mobile clouds
JP2015184813A (ja) * 2014-03-20 2015-10-22 富士通株式会社 連携機器選択装置、連携機器選択方法および連携機器選択プログラム
EP3144808A4 (en) * 2014-05-15 2017-12-20 Sony Corporation Information processing device, display control method, and program
US10769931B2 (en) 2014-05-20 2020-09-08 Ooma, Inc. Network jamming detection and remediation
US9633547B2 (en) 2014-05-20 2017-04-25 Ooma, Inc. Security monitoring and control
US10553098B2 (en) 2014-05-20 2020-02-04 Ooma, Inc. Appliance device integration with alarm systems
US10783166B2 (en) 2014-06-24 2020-09-22 Google Llc List accumulation and reminder triggering
US11330100B2 (en) * 2014-07-09 2022-05-10 Ooma, Inc. Server based intelligent personal assistant services
US9807549B2 (en) * 2014-07-18 2017-10-31 Intel Corporation Systems and methods for adaptive multi-feature semantic location sensing
US9641919B1 (en) * 2014-09-30 2017-05-02 Amazon Technologies, Inc. Audio assemblies for electronic devices
EP3866410B1 (en) * 2014-11-04 2022-09-28 Huawei Technologies Co., Ltd. Message display method, apparatus, and device
US10009286B2 (en) 2015-05-08 2018-06-26 Ooma, Inc. Communications hub
US11171875B2 (en) 2015-05-08 2021-11-09 Ooma, Inc. Systems and methods of communications network failure detection and remediation utilizing link probes
US9521069B2 (en) 2015-05-08 2016-12-13 Ooma, Inc. Managing alternative networks for high quality of service communications
US10911368B2 (en) 2015-05-08 2021-02-02 Ooma, Inc. Gateway address spoofing for alternate network utilization
US10771396B2 (en) 2015-05-08 2020-09-08 Ooma, Inc. Communications network failure detection and remediation
US10861449B2 (en) * 2015-05-19 2020-12-08 Sony Corporation Information processing device and information processing method
US10896671B1 (en) * 2015-08-21 2021-01-19 Soundhound, Inc. User-defined extensions of the command input recognized by a virtual assistant
US10379808B1 (en) * 2015-09-29 2019-08-13 Amazon Technologies, Inc. Audio associating of computing devices
US10777205B2 (en) * 2015-09-30 2020-09-15 Huawei Technologies Co., Ltd. Voice control processing method and apparatus
US10116796B2 (en) 2015-10-09 2018-10-30 Ooma, Inc. Real-time communications-based internet advertising
CN106814639A (zh) * 2015-11-27 2017-06-09 富泰华工业(深圳)有限公司 语音控制系统及方法
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
US9898250B1 (en) * 2016-02-12 2018-02-20 Amazon Technologies, Inc. Controlling distributed audio outputs to enable voice output
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
CN109479110A (zh) * 2016-03-08 2019-03-15 优确诺股份有限公司 动态创建个人化锻炼视频的系统和方法
US10229687B2 (en) 2016-03-10 2019-03-12 Microsoft Technology Licensing, Llc Scalable endpoint-dependent natural language understanding
US20170330565A1 (en) * 2016-05-13 2017-11-16 Bose Corporation Handling Responses to Speech Processing
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10853761B1 (en) 2016-06-24 2020-12-01 Amazon Technologies, Inc. Speech-based inventory management system and method
US11315071B1 (en) * 2016-06-24 2022-04-26 Amazon Technologies, Inc. Speech-based storage tracking
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10453449B2 (en) * 2016-09-01 2019-10-22 Amazon Technologies, Inc. Indicator for voice-based communications
US10580404B2 (en) * 2016-09-01 2020-03-03 Amazon Technologies, Inc. Indicator for voice-based communications
US20180067717A1 (en) * 2016-09-02 2018-03-08 Allomind, Inc. Voice-driven interface to control multi-layered content in a head mounted display
KR102481881B1 (ko) * 2016-09-07 2022-12-27 삼성전자주식회사 외부 디바이스를 제어하는 서버 및 그 방법
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US11410646B1 (en) * 2016-09-29 2022-08-09 Amazon Technologies, Inc. Processing complex utterances for natural language understanding
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US11966560B2 (en) 2016-10-26 2024-04-23 Apple Inc. User interfaces for browsing content from multiple content applications on an electronic device
US10332523B2 (en) 2016-11-18 2019-06-25 Google Llc Virtual assistant identification of nearby computing devices
US10037679B1 (en) * 2017-01-27 2018-07-31 Bengi Crosby Garbage reminder system
US10467510B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Intelligent assistant
US11430434B1 (en) * 2017-02-15 2022-08-30 Amazon Technologies, Inc. Intelligent privacy protection mediation
US10687178B2 (en) * 2017-03-03 2020-06-16 Orion Labs, Inc. Phone-less member of group communication constellations
WO2018173396A1 (ja) * 2017-03-23 2018-09-27 シャープ株式会社 発話装置、該発話装置の制御方法、および該発話装置の制御プログラム
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
USD864466S1 (en) 2017-05-05 2019-10-22 Hubbell Incorporated Lighting fixture
US11436417B2 (en) * 2017-05-15 2022-09-06 Google Llc Providing access to user-controlled resources by automated assistants
US10127227B1 (en) * 2017-05-15 2018-11-13 Google Llc Providing access to user-controlled resources by automated assistants
KR102371313B1 (ko) * 2017-05-29 2022-03-08 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법
CN107146616B (zh) * 2017-06-13 2020-05-08 Oppo广东移动通信有限公司 设备控制方法及相关产品
US11205421B2 (en) * 2017-07-28 2021-12-21 Cerence Operating Company Selection system and method
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US11062702B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Media system with multiple digital assistants
US11062710B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Local and cloud speech recognition
US11410638B1 (en) * 2017-08-30 2022-08-09 Amazon Technologies, Inc. Voice user interface for nested content
US10803859B1 (en) * 2017-09-05 2020-10-13 Amazon Technologies, Inc. Speech processing for public devices
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10083006B1 (en) 2017-09-12 2018-09-25 Google Llc Intercom-style communication using multiple computing devices
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US11277274B2 (en) 2017-10-12 2022-03-15 International Business Machines Corporation Device ranking for secure collaboration
US10747954B2 (en) * 2017-10-31 2020-08-18 Baidu Usa Llc System and method for performing tasks based on user inputs using natural language processing
JP2019086903A (ja) * 2017-11-02 2019-06-06 東芝映像ソリューション株式会社 音声対話端末、および音声対話端末制御方法
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US10051600B1 (en) * 2017-12-12 2018-08-14 Amazon Technologies, Inc. Selective notification delivery based on user presence detections
WO2019126290A1 (en) 2017-12-20 2019-06-27 Hubbell Incorporated Gesture control for in-wall device
US10847174B2 (en) 2017-12-20 2020-11-24 Hubbell Incorporated Voice responsive in-wall device
US11121990B2 (en) * 2017-12-21 2021-09-14 International Business Machines Corporation Methods and systems for optimizing delivery of electronic communications
USD927433S1 (en) 2018-01-05 2021-08-10 Hubbell Incorporated Front panel of in-wall fan controller with indicator component
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11145298B2 (en) 2018-02-13 2021-10-12 Roku, Inc. Trigger word detection with multiple digital assistants
US11810567B2 (en) 2018-04-09 2023-11-07 Maxell, Ltd. Speech recognition device, speech-recognition-device coordination system, and speech-recognition-device coordination method
US10755717B2 (en) * 2018-05-10 2020-08-25 International Business Machines Corporation Providing reminders based on voice recognition
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
JP6944594B2 (ja) * 2018-06-08 2021-10-06 株式会社Nttドコモ 対話装置
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US10705789B2 (en) * 2018-07-25 2020-07-07 Sensory, Incorporated Dynamic volume adjustment for virtual assistants
US11455418B2 (en) 2018-08-07 2022-09-27 Google Llc Assembling and evaluating automated assistant responses for privacy concerns
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US10705891B2 (en) * 2018-10-26 2020-07-07 International Business Machines Corporation Cognitive agent for persistent multi-platform reminder provision
US11226833B2 (en) * 2018-11-12 2022-01-18 International Business Machines Corporation Determination and initiation of a computing interface for computer-initiated task response
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US10657968B1 (en) * 2018-11-19 2020-05-19 Google Llc Controlling device output according to a determined condition of a user
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
KR20200107058A (ko) * 2019-03-06 2020-09-16 삼성전자주식회사 복수 개의 엔드 포인트가 포함된 플랜들을 처리하는 방법 및 그 방법을 적용한 전자 장치
WO2020198238A1 (en) 2019-03-24 2020-10-01 Apple Inc. User interfaces for a media browsing application
US11683565B2 (en) 2019-03-24 2023-06-20 Apple Inc. User interfaces for interacting with channels that provide content that plays in a media browsing application
WO2020218634A1 (ko) * 2019-04-23 2020-10-29 엘지전자 주식회사 응답 기기 결정 방법 및 장치
KR20200126509A (ko) * 2019-04-30 2020-11-09 삼성전자주식회사 가전기기 및 이의 제어 방법
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
CN110223686A (zh) * 2019-05-31 2019-09-10 联想(北京)有限公司 语音识别方法、语音识别装置和电子设备
US11863837B2 (en) 2019-05-31 2024-01-02 Apple Inc. Notification of augmented reality content on an electronic device
CN113906380A (zh) 2019-05-31 2022-01-07 苹果公司 用于播客浏览和回放应用程序的用户界面
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11388021B2 (en) 2019-07-23 2022-07-12 International Business Machines Corporation Intelligent virtual assistant notification rerouting
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
CN110990236A (zh) * 2019-10-08 2020-04-10 山东科技大学 一种基于隐马尔科夫随机场的SaaS软件性能问题识别方法
CA3059029A1 (en) 2019-10-17 2021-04-17 The Toronto-Dominion Bank Maintaining data confidentiality in communications involving voice-enabled devices in a distributed computing environment
CA3059032A1 (en) 2019-10-17 2021-04-17 The Toronto-Dominion Bank Homomorphic encryption of communications involving voice-enabled devices in a distributed computing environment
USD947137S1 (en) 2019-10-22 2022-03-29 Hubbell Incorporated Front panel of in-wall fan controller with indicator component
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
CN111243587A (zh) * 2020-01-08 2020-06-05 北京松果电子有限公司 语音交互方法、装置、设备及存储介质
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11843838B2 (en) 2020-03-24 2023-12-12 Apple Inc. User interfaces for accessing episodes of a content series
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US20210375267A1 (en) * 2020-05-30 2021-12-02 Jio Platforms Limited Method and system for smart interaction in a multi voice capable device environment
US11899895B2 (en) 2020-06-21 2024-02-13 Apple Inc. User interfaces for setting up an electronic device
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
WO2022065628A1 (en) * 2020-09-28 2022-03-31 Samsung Electronics Co., Ltd. Methods and systems for execution of voice commands
EP4216211A4 (en) * 2020-10-30 2024-03-27 Samsung Electronics Co Ltd ELECTRONIC DEVICE AND CONTROL METHOD THEREOF
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11258858B1 (en) 2020-11-24 2022-02-22 International Business Machines Corporation Multi-device connection management
US11720229B2 (en) 2020-12-07 2023-08-08 Apple Inc. User interfaces for browsing and presenting content
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
US11934640B2 (en) 2021-01-29 2024-03-19 Apple Inc. User interfaces for record labels
EP4057165A1 (de) * 2021-03-11 2022-09-14 Deutsche Telekom AG Sprachassistenzsteuerung
US20230359973A1 (en) * 2022-05-04 2023-11-09 Kyndryl, Inc. Ad-hoc application development
US20240111811A1 (en) * 2022-09-30 2024-04-04 Google Llc Selecting a device to respond to device-agnostic user requests

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5493692A (en) * 1993-12-03 1996-02-20 Xerox Corporation Selective delivery of electronic messages in a multiple computer system based on context and environment of a user
JPH09307868A (ja) * 1996-03-15 1997-11-28 Toshiba Corp コミュニケーション装置及びコミュニケーション方法
JP2003116175A (ja) * 2001-10-03 2003-04-18 Ntt Docomo Inc 発呼通知制御装置
US20040019603A1 (en) * 2002-05-29 2004-01-29 Honeywell International Inc. System and method for automatically generating condition-based activity prompts
US20050043940A1 (en) * 2003-08-20 2005-02-24 Marvin Elder Preparing a data source for a natural language query
US20090119264A1 (en) * 2007-11-05 2009-05-07 Chacha Search, Inc Method and system of accessing information

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5255341A (en) * 1989-08-14 1993-10-19 Kabushiki Kaisha Toshiba Command input device for voice controllable elevator system
US5862321A (en) * 1994-06-27 1999-01-19 Xerox Corporation System and method for accessing and distributing electronic documents
US5928325A (en) * 1997-02-24 1999-07-27 Motorola, Inc. Method of dynamically establishing communication of incoming messages to one or more user devices presently available to an intended recipient
US6587835B1 (en) 2000-02-09 2003-07-01 G. Victor Treyz Shopping assistance with handheld computing device
US7084997B2 (en) * 2001-07-13 2006-08-01 Hewlett-Packard Development Company, L.P. Schedule-based printer selection
US7099380B1 (en) * 2001-11-16 2006-08-29 Marvell International Ltd. Apparatus for antenna diversity for wireless communication and method thereof
US7720683B1 (en) 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations
US7418392B1 (en) 2003-09-25 2008-08-26 Sensory, Inc. System and method for controlling the operation of a device by voice commands
US20050125541A1 (en) * 2003-12-04 2005-06-09 Randall Frank Integrating multiple communication modes
US8180722B2 (en) * 2004-09-30 2012-05-15 Avaya Inc. Method and apparatus for data mining within communication session information using an entity relationship model
US7899468B2 (en) * 2005-09-30 2011-03-01 Telecommunication Systems, Inc. Location sensitive messaging
US7522608B2 (en) * 2005-11-01 2009-04-21 Microsoft Corporation Endpoint selection for a call completion response
KR100678518B1 (ko) * 2005-12-23 2007-02-02 아주대학교산학협력단 상황 변화를 반영할 수 있는 스마트 스케줄러
US7673010B2 (en) * 2006-01-27 2010-03-02 Broadcom Corporation Multi user client terminals operable to support network communications
US7920679B1 (en) * 2006-02-02 2011-04-05 Sprint Communications Company L.P. Communication system and method for notifying persons of an emergency telephone call
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP2008228184A (ja) * 2007-03-15 2008-09-25 Funai Electric Co Ltd 音声出力装置
CN101452697A (zh) * 2007-11-29 2009-06-10 卢能晓 根据环境噪音自动调节音量的环保型汽车喇叭
US8166119B2 (en) * 2008-04-25 2012-04-24 T-Mobile Usa, Inc. Messaging device for delivering messages to recipients based on availability and preferences of recipients
US8285839B2 (en) * 2009-03-02 2012-10-09 International Business Machines Corporation Urgent communications that overcome receiving device impediments
US8150967B2 (en) * 2009-03-24 2012-04-03 Yahoo! Inc. System and method for verified presence tracking
US8620846B2 (en) * 2010-01-21 2013-12-31 Telcordia Technologies, Inc. Method and system for improving personal productivity in home environments
US8332544B1 (en) * 2010-03-17 2012-12-11 Mattel, Inc. Systems, methods, and devices for assisting play
US20120223885A1 (en) 2011-03-02 2012-09-06 Microsoft Corporation Immersive display experience
US8737950B2 (en) * 2011-03-17 2014-05-27 Sony Corporation Verifying calendar information through proximate device detection
US20120259633A1 (en) * 2011-04-07 2012-10-11 Microsoft Corporation Audio-interactive message exchange
US20120297305A1 (en) * 2011-05-17 2012-11-22 Microsoft Corporation Presenting or sharing state in presence
US8954177B2 (en) * 2011-06-01 2015-02-10 Apple Inc. Controlling operation of a media device based upon whether a presentation device is currently being worn by a user
US8775103B1 (en) * 2011-06-17 2014-07-08 Amazon Technologies, Inc. Proximity sensor calibration and configuration
US9542956B1 (en) * 2012-01-09 2017-01-10 Interactive Voice, Inc. Systems and methods for responding to human spoken audio
US9438642B2 (en) * 2012-05-01 2016-09-06 Google Technology Holdings LLC Methods for coordinating communications between a plurality of communication devices of a user
US20130298199A1 (en) * 2012-05-02 2013-11-07 Elwha Llc Control of Transmission to a Target Device with a Cloud-Based Architecture
US9460237B2 (en) * 2012-05-08 2016-10-04 24/7 Customer, Inc. Predictive 411
US9197848B2 (en) * 2012-06-25 2015-11-24 Intel Corporation Video conferencing transitions among a plurality of devices
US9015099B2 (en) * 2012-08-14 2015-04-21 Sri International Method, system and device for inferring a mobile user's current context and proactively providing assistance
US10028204B2 (en) * 2012-08-24 2018-07-17 Blackberry Limited Supporting device-to-device communication in a rich communication service context
US9436382B2 (en) * 2012-09-18 2016-09-06 Adobe Systems Incorporated Natural language image editing
US9264850B1 (en) * 2012-11-20 2016-02-16 Square, Inc. Multiple merchants in cardless payment transactions and multiple customers in cardless payment transactions
US20140164088A1 (en) * 2012-12-06 2014-06-12 Mark R. Rorabaugh Social network loyalty-reward system and method
US9271111B2 (en) * 2012-12-14 2016-02-23 Amazon Technologies, Inc. Response endpoint selection

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5493692A (en) * 1993-12-03 1996-02-20 Xerox Corporation Selective delivery of electronic messages in a multiple computer system based on context and environment of a user
JPH09307868A (ja) * 1996-03-15 1997-11-28 Toshiba Corp コミュニケーション装置及びコミュニケーション方法
JP2003116175A (ja) * 2001-10-03 2003-04-18 Ntt Docomo Inc 発呼通知制御装置
US20040019603A1 (en) * 2002-05-29 2004-01-29 Honeywell International Inc. System and method for automatically generating condition-based activity prompts
US20050043940A1 (en) * 2003-08-20 2005-02-24 Marvin Elder Preparing a data source for a natural language query
US20090119264A1 (en) * 2007-11-05 2009-05-07 Chacha Search, Inc Method and system of accessing information

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018055898A1 (ja) 2016-09-23 2018-03-29 ソニー株式会社 情報処理装置、及び情報処理方法
US10747477B2 (en) 2017-11-17 2020-08-18 Canon Kabushiki Kaisha Print control system that transmit to a registered printing apparatus, a change instruction for changing a setting of the power of the registered printing apparatus, and related method
US10916247B2 (en) 2017-11-17 2021-02-09 Canon Kabushiki Kaisha Voice control system, control method, and non-transitory computer-readable storage medium storing program
US11488588B2 (en) 2017-11-20 2022-11-01 Canon Kabushiki Kaisha Voice control system and control method for controlling printing apparatus
WO2019159646A1 (ja) * 2018-02-14 2019-08-22 パナソニックIpマネジメント株式会社 制御情報取得システム、及び、制御情報取得方法
WO2020116026A1 (ja) * 2018-12-07 2020-06-11 ソニー株式会社 応答処理装置、応答処理方法及び応答処理プログラム
US11398233B2 (en) 2019-08-09 2022-07-26 Baidu Online Network Technology (Beijing) Co., Ltd. Smart service method, apparatus and device

Also Published As

Publication number Publication date
CN105051676B (zh) 2018-04-24
US10778778B1 (en) 2020-09-15
CN105051676A (zh) 2015-11-11
EP2932371A4 (en) 2016-08-03
US20230141659A1 (en) 2023-05-11
US20140172953A1 (en) 2014-06-19
EP2932371B1 (en) 2018-06-13
EP2932371A1 (en) 2015-10-21
US20210165630A1 (en) 2021-06-03
WO2014092980A1 (en) 2014-06-19
US9271111B2 (en) 2016-02-23

Similar Documents

Publication Publication Date Title
US20230141659A1 (en) Response endpoint selection
US11212486B1 (en) Location based device grouping with voice control
CN110741433B (zh) 使用多个计算设备的对讲式通信
US10051600B1 (en) Selective notification delivery based on user presence detections
US11148296B2 (en) Engaging in human-based social interaction for performing tasks using a persistent companion device
US20170206064A1 (en) Persistent companion device configuration and deployment platform
US9729821B1 (en) Sensor fusion for location based device grouping
Cha et al. Hello there! is now a good time to talk? opportune moments for proactive interactions with smart speakers
CN110021300A (zh) 数字助理服务的远场延伸
AU2017228574A1 (en) Apparatus and methods for providing a persistent companion device
CN106663245A (zh) 社交提醒
CA3019535A1 (en) Persistent companion device configuration and deployment platform
WO2016011159A1 (en) Apparatus and methods for providing a persistent companion device
WO2017195440A1 (ja) 情報処理装置、情報処理方法およびプログラム
Cuadra et al. On Inclusion: Video Analysis of Older Adult Interactions with a Multi-Modal Voice Assistant in a Public Setting
JP2016071248A (ja) 対話装置
WO2018183812A1 (en) Persistent companion device configuration and deployment platform
Jain Sound Sensing and Feedback Techniques for Deaf and Hard of Hearing People
US20210110846A1 (en) Information processing apparatus, information processing method, and program
Ronzhin et al. User Preference Model for Conscious Services in Smart Environments

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170131

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20170203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170501

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170912

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20170925

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20171110

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20181218