JP6745419B1

JP6745419B1 - 検出されたイベントに関する情報を提供するための方法、システム、および媒体

Info

Publication number: JP6745419B1
Application number: JP2019567235A
Authority: JP
Inventors: チャンピー，アダム
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-07-21
Filing date: 2018-06-14
Publication date: 2020-08-26
Anticipated expiration: 2038-06-14
Also published as: KR102338888B1; JP2020528158A; US20190026066A1; EP3613045A1; CN110709930B; BR112019024646A2; CN110709930A; EP3613045B1; US11567726B2; KR20200005741A; WO2019018083A1

Abstract

情報を提供するための方法、システム、および媒体を提供する。いくつかの実装形態では、情報を提供するための方法を提供する。この方法は、ユーザの環境に置かれた記録装置群のうちの第１の記録装置をトリガータームと対応付けるステップと、前記トリガータームを含んだクエリをユーザデバイスから受信するステップと、前記クエリを受信することに応答して、前記ユーザの環境にある前記記録装置群のうちの少なくとも１つの記録装置から音声データを送信すると判断するステップと、前記受信したクエリが前記トリガータームを含んでいることに基づいて、前記第１の記録装置を特定するステップと、前記第１の記録装置から前記音声データを受信するステップと、前記受信した音声データに基づいて、前記ユーザの環境に存在する生き物の特徴を特定するステップと、前記生き物の特徴を示す情報を前記ユーザデバイス上に提示するステップとを含む。

Description

開示の主題は、検出されたイベントに関する情報を提供するための方法、システム、および媒体に関する。

背景
多くの人々が複数のユーザデバイスを所有しており、それらは、すべて、自宅内で音声データおよび／または映像データを記録可能であるであろう。たとえば、人は、自宅内に、複数のモバイル機器、バーチャルアシスタントデバイス、１つ以上のスマートテレビ、および／またはその他のこのようなデバイスを所有している可能性があり、これらのデバイスは、それぞれ異なる部屋に置かれている可能性がある。ほとんどの場合、デバイスは、子供が泣いているなど、その人の関心の対象であると思われるイベントを示す音声データまたは映像データを記録可能であるであろう。しかしながら、デバイスを用いて関心のあるイベントを検出し、当該イベントの情報を人々に提供することは難しいであろう。

したがって、検出されたイベントに関する情報を提供するための新規な方法、システム、および媒体を提供することが望ましい。

概要
開示の主題の様々な実装形態によると、情報を提供するための方法、システム、および媒体を提供する。

開示の主題のいくつかの実装形態に応じて、情報を提供するための方法を提供する。この方法は、ユーザの環境に置かれた記録装置群のうちの第１の記録装置をトリガーターム（ｔｒｉｇｇｅｒｔｅｒｍ）と対応付けるステップと、トリガータームを含んだクエリをユーザデバイスから受信するステップと、クエリを受信することに応答して、ユーザの環境にある記録装置群のうちの少なくとも１つの記録装置から音声データを送信すると判断するステップと、受信したクエリがトリガータームを含んでいることに基づいて、第１の記録装置を特定するステップと、第１の記録装置から音声データを受信するステップと、受信した音声データに基づいて、ユーザの環境に存在する生き物の特徴を特定するステップと、生き物の特徴を示す情報をユーザデバイス上に提示するステップとを含む。

開示の主題いくつかの実装形態に応じて、情報を提供するためのシステムを提供する。このシステムは、ハードウェアプロセッサを含み、当該ハードウェアプロセッサは、ユーザの環境に置かれた記録装置群のうちの第１の記録装置をトリガータームと対応付け、トリガータームを含んだクエリをユーザデバイスから受信し、クエリを受信することに応答して、ユーザの環境にある記録装置群のうちの少なくとも１つの記録装置から音声データを送信すると判断し、受信したクエリがトリガータームを含んでいることに基づいて、第１の記録装置を特定し、第１の記録装置から音声データを受信し、受信した音声データに基づいて、ユーザの環境に存在する生き物の特徴を特定し、生き物の特徴を示す情報をユーザデバイス上に提示するようにプログラムされる。

開示の主題いくつかの実装形態によると、非一時的なコンピュータ−読み取り可能な媒体は、コンピュータにより実行可能な命令を含んでおり、この命令は、プロセッサによって実行されると、プロセッサに、情報を提供するための方法を実行させ、当該方法は、ユーザの環境に置かれた記録装置群のうちの第１の記録装置をトリガータームと対応付けるステップと、トリガータームを含んだクエリをユーザデバイスから受信するステップと、クエリを受信することに応答して、ユーザの環境にある記録装置群のうちの少なくとも１つの記録装置から音声データを送信すると判断するステップと、受信したクエリがトリガータームを含んでいることに基づいて、第１の記録装置を特定するステップと、第１の記録装置から音声データを受信するステップと、受信した音声データに基づいて、ユーザの環境に存在する生き物の特徴を特定するステップと、生き物の特徴を示す情報をユーザデバイス上に提示するステップとを含む。

開示の主題いくつかの実装形態に応じて、情報を提供するためのシステムを提供する。このシステムは、ユーザの環境に置かれた記録装置群のうちの第１の記録装置をトリガータームと対応付けるための手段と、トリガータームを含んだクエリをユーザデバイスから受信するための手段と、クエリを受信することに応答して、ユーザの環境にある記録装置群のうちの少なくとも１つの記録装置から音声データを送信すると判断するための手段と、受信したクエリがトリガータームを含んでいることに基づいて、第１の記録装置を特定するための手段と、第１の記録装置から音声データを受信するための手段と、受信した音声データに基づいて、ユーザの環境に存在する生き物の特徴を特定するための手段と、生き物の特徴を示す情報をユーザデバイス上に提示するための手段とを含む。

いくつかの実装形態では、第１の記録装置をトリガータームと対応付けることは、第１の記録装置によって以前に記録された音声データに基づく。

いくつかの実装形態では、第１の記録装置をトリガータームと対応付けることは、ユーザの環境内の第１の記録装置の既知の場所に基づく。

いくつかの実装形態では、第１の記録装置をトリガータームと対応付けることは、第１の記録装置の推察される場所に基づき、当該推察される場所は、ユーザデバイスから以前に受信したクエリに基づいて判断される。

いくつかの実装形態では、情報は、受信した音声データをユーザデバイスによって提示させる選択可能な入力を含んだユーザインタフェース内に提示される。

いくつかの実装形態では、情報は、第１の記録装置にさらなる音声データを記録させる選択可能な入力を含んだユーザインタフェース内に提示される。

いくつかの実装形態では、システムは、記録装置群のうちの第２の記録装置から第２の音声データを受信するための手段と、受信した第２の音声データに基づいて生き物に関するイベントを検出するための手段と、検出されたイベントがユーザデバイスのユーザの関心の対象である可能性があるかどうかを判断するための手段と、検出されたイベントがユーザの関心の対象である可能性があると判断することに応答して、検出されたイベントの表示をユーザデバイス上に提示させるための手段とをさらに含む。

開示の主題の様々な目的、特徴、および利点は、下記の図面を踏まえて考慮した以下の開示の主題の詳細な説明を参照して、全面的に理解することができる。図面では、同じ参照番号が同じ要素を識別している。

開示の主題のいくつかの実装形態に係る、ユーザの自宅におけるユーザデバイスの例示的な配置例を示す図である。開示の主題のいくつかの実装形態に係る、検出されたイベントに関する情報を提供するための本明細書に記載のメカニズムを実装するのに適した例示的なシステムの概略図である。開示の主題のいくつかの実装形態に係る、図２のサーバおよび／またはユーザデバイスにおいて用いられ得るハードウェアの詳細な例を示す図である。開示の主題のいくつかの実装形態に係る、ユーザクエリに応答して情報を提供するための処理例を示す図である。開示の主題のいくつかの実装形態に係る、検出されたイベントに応答して情報を提供するための処理例を示す図である。

詳細な説明
様々な実装形態に応じて、検出されたイベントに関する情報を提供するためのメカニズム（方法、システム、および媒体を含み得る）を提供する。

いくつかの実装形態では、本明細書に記載のこれらのメカニズムは、ユーザの自宅または他の環境の全域にわたって置かれている１つ以上のデバイスから音声データおよび／または映像データを収集し得、収集されたデータを用いて、たとえば、ユーザの自宅に存在する生き物または人についての情報をユーザに提供し得る。たとえば、いくつかの実装形態では、メカニズムは、ユーザの子供、ペット、高齢者の親族、および／またはその他の適当な人または生き物の現在の状態または行動についての情報を提供し得る。より特定的な例として、いくつかの実装形態では、メカニズムは、ユーザの赤ちゃんが起きて泣いていること、ユーザの犬がユーザの自宅の特定の部屋で家具を引っ掻いていること、および／またはその他の適当な情報を示すアラートまたはメッセージをユーザに提供し得る。いくつかの実装形態では、メカニズムは、ユーザからクエリを受信することに応答して情報を提供し得る。たとえば、いくつかの実装形態では、「私の犬は、何をしていますか」などのクエリを受信することに応答して、メカニズムは、１つ以上のデバイスを起動し、（たとえば、犬の存在を示す音声データに基づいて、犬の存在を示す画像または映像データ、および／またはその他の適当な情報に基づいて）ユーザの犬を検出し得、次に、デバイスからの当該データに基づく応答をユーザに提供し得る。これに加えて、または、これに代えて、いくつかの実装形態では、メカニズムは、１つ以上のデバイスを用いて、ユーザの関心の対象であると思われるイベント（たとえば、「あなたの赤ちゃんが泣いています」、「あなたの猫のエサ皿は、空です」、および／またはその他の適当なイベント）を検出し得、検出されたイベントを示すアラートまたはメッセージをユーザに提供し得る。

これに加えて、または、これに代えて、いくつかの実装形態では、メカニズムは、デバイスの各々の機能に基づいて、ユーザの自宅または環境の全域にわたって置かれている１つ以上のデバイスのうち、どのデバイスがユーザから受信したクエリに応答して情報を提供できるかを特定し得る。たとえば、いくつかの実装形態では、「赤ちゃん部屋用ライブマイクの電源を入れて」などのクエリを受信することに応答して、メカニズムは、ある場所または当該場所の近くにある、ユーザの自宅にあるデバイスのうち、「赤ちゃん部屋」に対応付けられているデバイスを特定し得、「赤ちゃん」部屋の場所に対応付けられているデバイスのうち、電源入力できるマイクロフォン機能を有しているデバイスを特定し得る。これに応答して、メカニズムは、特定されたデバイスのマイクロフォンを起動し、当該起動されたマイクロフォンによってキャプチャされた音声信号を、スピーカ、またはクエリを提供したユーザに関連する他のオーディオ出力装置（たとえば、モバイル機器上のスピーカ、モバイル機器の位置または当該位置の近くの場所にある表示装置上のスピーカ、ローカルエリアネットワークなどを通じてモバイル機器に接続されたメディア受信機）上で再生し得る。

いくつかの実装形態では、音声データおよび／または映像データを収集するために用いられる当該１つ以上のデバイスは、バーチャルアシスタントデバイス、音声制御スピーカ、ウェブカメラ、モバイル機器（たとえば、携帯電話、タブレットコンピュータ、および／またはその他の適当な種類のモバイル機器）、スマートサーモスタット、スマートテレビ、および／またはその他の適当な種類（複数可）のデバイスなど、任意の適当な種類のデバイスであり得る。なお、いくつかの実装形態では、当該１つ以上のデバイスは、任意の適切な方法で通信可能に連結され得る。たとえば、いくつかの実装形態では、１つ以上のデバイスは、各々、環境内の通信ネットワーク（たとえば、ＷｉＦｉネットワーク、ローカルエリアネットワーク、ＢＬＵＥＴＯＯＴＨ（登録商標）ネットワーク、および／またはその他の適当なネットワーク）に接続され得る。

いくつかの実装形態では、本明細書に記載のこれらのメカニズムは、任意の適当な情報を用いて、データを収集するために用いる１つ以上のデバイスを選択し得る。たとえば、いくつかの実装形態では、メカニズムは、特定のデバイスを特定のクエリタームと対応付け得る。より特定的な例として、いくつかの実装形態では、メカニズムは、単語「赤ちゃん」を、ユーザの自宅の特定の部屋に置かれたデバイス（たとえば、ベビーモニター）と対応付け得る。いくつかのこのような実装形態では、メカニズムは、（たとえば、設定インタフェースを介して、および／またはその他の方法で提供される）ユーザが提供する明示的な表示など、任意の適当な情報に基づいて、および／または（たとえば、特定のデバイスによっておよび／またはその他の適切な方法で収集される音声データから、赤ちゃんに通常関連付けられる音声が頻繁に検出されているとの判断に基づいた）暗黙的な推察によって、特定のデバイスを特定の場所に対応付け得る。

いくつかの実装形態では、音声データおよび／または映像データを収集するデバイスは、特定の単語またはフレーズ、たとえば、ユーザのクエリに含まれている単語またはフレーズを検出することに応答して起動され得る。より特定的な例として、いくつかの実装形態では、デバイスは、単語「赤ちゃん」、「犬」、および／またはその他の適当な単語が発せられたと判断することに応答して、データの記録を開始し得る。これに加えて、または、これに代えて、いくつかの実装形態では、デバイスは、音声データおよび／または映像データを連続して記録し得、当該記録データを分析し、ユーザにとって関心の対象であると思われるイベントが記録データにおいて示されているかどうかを判断し得る。いくつかの実装形態では、デバイスは、記録データを任意の適切な方法で格納し得る。たとえば、いくつかの実装形態では、データは、任意の適切な大きさのサーキュラーバッファに格納され得、収集されたデータは、ユーザにとって関心の対象であると思われる音声信号または映像信号をデータが含んでいないと判断されると、削除され得る。

いくつかの実装形態では、メカニズムは、検出されたイベントを示すクエリまたは情報に応答して、ユーザに追加情報を要求させるユーザインタフェース内に情報を提示し得る。たとえば、いくつかの実装形態では、メカニズムは、特定のイベント（たとえば、「あなたの赤ちゃんが泣いています」、「あなたの犬がカウチを引っ掻いています」、および／またはその他の適当なイベント）が検出されたと示し得、ユーザインタフェースは、記録された音声および／または映像を特定のユーザデバイス上（たとえば、ユーザインタフェースを提示しているユーザデバイス上、ユーザの自宅内の異なるユーザデバイス上、および／またはその他の適当なユーザデバイス）に提示させるようユーザに要求させ得る。別の例として、いくつかの実装形態では、ユーザインタフェースは、特定のマイクロフォンまたはカメラ（たとえば、イベントの検出に関連するデータを記録したデバイスに対応付けられたマイクロフォンまたはカメラ、および／またはその他の適当なデバイス）をユーザに起動させて、さらなる音声データまたは映像データを記録させ、当該さらなる音声データまたは映像データを特定のユーザデバイス上（たとえば、ユーザインタフェースを提示しているユーザデバイス上、ユーザの自宅内の異なるユーザデバイス上、および／またはその他の適当なユーザデバイス上）に提示させ得る。

図１は、ユーザの自宅におけるユーザデバイスの例示的な配置例を示す図である。いくつかの実装形態では、ユーザの自宅は、寝室１０２、リビング１０４、台所１０６、および浴室１０８など、複数の部屋を備え得る。図示しないが、図１において、いくつかの実装形態では、これに加えて、または、これに代えて、ユーザデバイスは、ユーザの車、ユーザのオフィス、および／またはその他の適当な場所など、自宅の外に置かれ得る。ユーザの自宅は、テレビ１１０、モバイル機器１１２、および／またはバーチャルアシスタントデバイス１１６など、任意の適当な数のユーザデバイスを収容し得る。いくつかの実装形態では、ユーザの自宅は、スマートサーモスタット、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ウェアラブルコンピュータ、音声制御スピーカ、プロジェクタ、ウェブカメラ、および／またはその他の適当なデバイスなど、その他の適当なデバイスを収容し得る。

いくつかの実装形態では、ユーザの自宅にあるテレビ１１０、モバイル機器１１２、バーチャルアシスタントデバイス１１６、およびその他のデバイスは、任意の適切な方法で接続および／または通信可能に連結され得る。たとえば、いくつかのデバイスでは、デバイスは、各々、ユーザの自宅内の任意の適当な場所に載置され得るルータ１１４を介して通信ネットワークに接続され得る。なお、１台のテレビ、１つの携帯電話、および１台のバーチャルアシスタントデバイスが図１に示されているが、いくつかの実装形態では、各種の任意の適当な数のデバイスが収容され得る。

図１に示すように、いくつかの実装形態では、ユーザの自宅にある第１デバイスは、赤ちゃんが泣いている、または犬が吠えているなど、イベントの検出を含んだデータを記録し得る。図４および図５に関して後述するように、次に、記録データに関する情報および／または検出されたイベントは、ユーザの自宅の第２デバイス上に提示され得る。たとえば、図１に示すように、寝室１０２のバーチャルアシスタントデバイス１１６からのユーザの犬の記録に対応する映像データまたは音声データを、リビング１０４のテレビ１１０上に提示することができる。いくつかのこのような実装形態では、図４および図５に関してより詳細を後述するように、映像データまたは音声データは、モバイル機器１１２など、第３デバイスからの要求を受信することに応答して、テレビ１１０上に提示され得る。

図２を参照すると、開示の主題のいくつかの実装形態に従って使用され得る検出イベントに関する情報を提供するためのハードウェア例２００が示されている。図示するように、ハードウェア２００は、１つ以上のサーバ２０２、通信ネットワーク２０４、および／または、ユーザデバイス２０８および２１０など、１つ以上のユーザデバイス２０６を含み得る。

サーバ（複数可）２０２は、プロセッサ、コンピュータ、データ処理装置、またはこのようなデバイスの任意の適当な組合せなど、情報を提示するための本明細書に記載のメカニズムへのアクセスを提供するための任意の適当なサーバ（複数可）であり得る。たとえば、いくつかの実装形態では、サーバ（複数可）２０２は、ユーザデバイスの種類および／またはユーザの自宅内でのユーザデバイスの場所を示す情報を格納し得る。別の例として、いくつかの実装形態では、サーバ（複数可）２０２は、ユーザの自宅内の１つ以上のユーザデバイスを、特定のユーザアカウントに対して認証し得る。さらに別の例として、いくつかの実装形態では、サーバ（複数可）２０２は、ユーザデバイスからの音声データおよび／または映像データ（たとえば、デバイスに対応付けられたマイクロフォンから記録された音声データ、デバイスに対応付けられたマイクロフォンから記録された映像データ、および／またはその他の適切な音声データおよび／または映像データ）を受信し得、音声データおよび／または映像データを処理して当該データの特徴（たとえば、音声データが生き物の１つ以上の特徴、たとえば、赤ちゃんに関連する物音を含んでいるかどうか、音声データおよび／または映像データが犬または他のペットの物音または画像、および／またはその他の適当な特定される特徴を含んでいるかどうか）を判断し得る。

通信ネットワーク２０４は、いくつかの実装形態において、１つ以上の有線および／またはワイヤレスネットワークの任意の適当な組合せであり得る。たとえば、通信ネットワーク２１０は、インターネット、イントラネット、ＷＡＮ（Ｗｉｄｅ−ＡｒｅａＮｅｔｗｏｒｋ）、ＬＡＮ（Ｌｏｃａｌ−ＡｒｅａＮｅｔｗｏｒｋ）、ワイヤレスネットワーク、ＤＳＬ（ＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）ネットワーク、フレームリレーネットワーク、ＡＴＭ（ＡｓｙｎｃｈｒｏｎｏｕｓＴｒａｎｓｆｅｒＭｏｄｅ）ネットワーク、ＶＰＮ（ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）、および／またはその他の適当な通信ネットワークのうちの任意の１つ以上を含み得る。ユーザデバイス２０６は、１つ以上の通信リンクによって通信ネットワーク２０４に接続され得る。通信ネットワーク２０４は、１つ以上の通信リンクを介してサーバ（複数可）２０２にリンク接続され得る。通信リンクは、ネットワークリンク、ダイヤルアップリンク、ワイヤレスリンク、固定リンク、その他の適当な通信リンク、またはこのようなリンクの任意の適当な組合せなど、ユーザデバイス２０６とサーバ（複数可）２０２との間でデータ通信を行うことに適した任意の通信リンクであり得る。

ユーザデバイス２０６は、音声データおよび／または映像データを受信すること、音声データおよび／または映像データを処理すること、音声データおよび／または映像データに基づいて情報をユーザデバイスのユーザに提示することに適した任意の１つ以上のユーザデバイス、および／またはその他の適切な機能を備え得る。たとえば、いくつかの実装形態では、ユーザデバイス２０６は、携帯電話、タブレットコンピュータ、ウェアラブルコンピュータ、ラップトップコンピュータ、車載（たとえば、車、ボート、飛行機、またはその他の適当な乗り物）エンターテインメントシステム、および／またはその他の適当なモバイル機器など、モバイル機器を含み得る。別の例として、いくつかの実装形態では、ユーザデバイス２０６は、テレビ、プロジェクタ装置、ゲーム機、デスクトップコンピュータ、および／またはその他の適当な非モバイル機器など、メディア再生装置を含み得る。さらに別の例として、いくつかの実装形態では、ユーザデバイス２０６は、バーチャルアシスタントデバイス、音声制御スピーカ、および／またはその他の適当な種類のデバイスを含み得る。

より特定的な例では、ユーザデバイス２０６は、メディアコンテンツの１つ以上のソースから受信したメディアを提示するためのハードウェアおよび／またはソフトウェアを備えた表示装置であり得る。たとえば、ユーザデバイス２０６は、テレビ、スマートテレビ、モニタ、セットトップボックス、ＡＶ（ＡｕｄｉｏＶｉｄｅｏ）受信機、その他の適当なメディア再生装置および／またはそれらの任意の適当な組合せを含み得る。より特定的には、ユーザデバイス２０６は、ディスプレイ、スピーカ、アナログ映像データおよび／もしくはデジタル映像データならびに／または音声データなど、メディアコンテンツを描画するためのハードウェアおよび／またはソフトウェア、電源などを含み得る。ユーザデバイス２０６は、いくつかの実装形態では、様々なソースからの映像データおよび／または音声データを受信するための様々な入力ポートを含み得る。このような入力ポートは、１つ以上のＨＤＭＩ（登録商標）ポート、１つ以上のコンポーネントビデオポート、１つ以上のコンポジットビデオポート、１つ以上のＵＳＢポート、１つ以上のＳ−Ｖｉｄｅｏポート、１つ以上のＴＯＳＬＩＮＫポート、１つ以上の同軸ポート、１つ以上のＥｔｈｅｒｎｅｔ（登録商標）ポート（有線であってもワイヤレスであってもよい）などを含み得る。

別のより特定的な例では、ユーザデバイス２０６は、音声信号を受信し、当該音声信号を（場合によっては、１つ以上の中間デバイスを通して）１つ以上のスピーカに出力し得る任意の適当なデバイスであり得る。たとえば、ユーザデバイス２０６は、ＡＶ（ＡｕｄｉｏＶｉｄｅｏ）受信機、スピーカ、アンプ、オーディオスイッチ、ＨＤＭＩスイッチ、その他の適当なオーディオシステムおよび／またはそれらの任意の適当な組合せであり得る。より特定的には、ユーザデバイス２０６は、スピーカ、アナログ音声データおよび／またはデジタル音声データおよび／または映像データなどのメディアコンテンツを描画するためのハードウェアおよび／またはソフトウェア、電源などを備え得る。ユーザデバイス２０６は、様々なソースから音声データおよび／または映像データを受信するための様々な入力ポートを含み得る。このような入力ポートは、１つ以上のＨＤＭＩポート、１つ以上のコンポーネントビデオポート、１つ以上のコンポジットビデオポート、１つ以上のＵＳＢポート、１つ以上のＳ−Ｖｉｄｅｏポート、１つ以上のＴＯＳＬＩＮＫポート、１つ以上の同軸ポート、１つ以上のＥｔｈｅｒｎｅｔポート（有線であってもワイヤレスであってもよい）などを含み得る。これに加えて、または、これに代えて、いくつかの実装形態では、ユーザデバイス２０６は、（たとえば、ＩＥＥＥ８０２．１１ｘのプロトコルファミリー（Ｗｉ−Ｆｉ接続と称される場合もある）のうちの１つに準拠した接続を介した）ローカルエリアネットワークへの接続を通じてなど、またはアドホックワイヤレスネットワーク接続、近距離無線通信プロトコル（たとえば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙ、ワイヤレスＵＳＢなど）など、外部音響システム１０６とコンピューティングデバイス１０２とのワイヤレス接続など、任意の適当なワイヤレス接続を通じて音声信号を受信するように構成され得る。

サーバ（複数可）２０２は、１つのデバイスとして図示されているが、いくつかの実装形態において、サーバ（複数可）２０２によって実行される機能は、任意の適当な数のデバイスによって実行することができる。たとえば、いくつかの実装形態では、サーバ（複数可）２０２によって実行される機能を、複数のデバイスを用いて実装することができる。

図を余計に複雑にしないために、２つのユーザデバイス２０８および２１０を図２に示しているが、いくつかの実装形態では、任意の適当な数のユーザデバイス、および／または任意の適当な種類のユーザデバイスを使用することができる。

サーバ（複数可）２０２およびユーザデバイス２０６は、いくつかの実装形態において、任意の適当なハードウェアを用いて実装できる。たとえば、いくつかの実装形態では、デバイス２０２および２０６は、任意の適当な汎用コンピュータまたは専用のコンピュータを用いて実装され得る。たとえば、携帯電話は、専用のコンピュータを用いて実装され得る。そのような汎用コンピュータまたは専用のコンピュータは、任意の適当なハードウェアを含み得る。たとえば、図３のハードウェア３００の例に示すように、このようなハードウェアは、ハードウェアプロセッサ３０２と、メモリおよび／またはストレージ３０４と、入力装置制御部３０６と、入力装置３０８と、ディスプレイ／オーディオドライバ３１０と、ディスプレイ／オーディオ出力回路部３１２と、通信インタフェース（複数可）３１４と、アンテナ３１６と、バス３１８とを含み得る。

ハードウェアプロセッサ３０２は、いくつかの実装形態において、マイクロプロセッサ、マイクロコントローラ、デジタル信号処理装置（複数可）、専用論理回路、および／または汎用コンピュータまたは専用コンピュータの機能を制御するためのその他の適当な回路部など、任意の適当なハードウェアプロセッサを含み得る。いくつかの実装形態では、ハードウェアプロセッサ３０２は、サーバ（たとえば、サーバ（複数可）２０２のうちの１つ）のメモリおよび／またはストレージ３０４に格納されたサーバプログラムによって制御され得る。たとえば、いくつかの実装形態では、サーバプログラムは、ハードウェアプロセッサ３０２に、任意の適当な技術（複数可）を用いて受信した音声データおよび／または映像データを分析させ、特定のデバイスと特定の種類のクエリとの対応付けを格納させ、および／またはその他の動作を実行させる。いくつかの実装形態では、ハードウェアプロセッサ３０２は、ユーザデバイス２０６のメモリおよび／またはストレージ３０４に格納されたコンピュータプログラムによって制御され得る。たとえば、コンピュータプログラムは、ハードウェアプロセッサ３０２に、音声データおよび／または映像データを記録させ、記録された音声データおよび／または映像データに基づいてイベントを検出させ、記録データに関する情報を提示させ、および／またはその他の適当な動作を実行させることができる。

メモリおよび／またはストレージ３０４は、いくつかの実装形態において、プログラム、データ、メディアコンテンツ、および／またはその他の適当な情報を格納するための任意の適当なメモリおよび／またはストレージであり得る。たとえば、メモリおよび／またはストレージ３０４は、ＲＡＭ、読出し専用メモリ、フラッシュメモリ、ハードディスクストレージ、光学媒体、および／またはその他の適当なメモリを含み得る。

入力装置制御部３０６は、いくつかの実装形態において、１つ以上の入力装置３０８からの入力を制御および受信するための任意の適当な回路部であり得る。たとえば、入力装置制御部３０６は、タッチスクリーンから、キーボードから、マウスから、１つ以上のボタンから、音声認識回路から、マイクロフォンから、カメラから、光センサから、加速度計から、温度センサから、近距離センサから、および／またはその他の種類の入力装置から入力を受け付けるための回路部であり得る。

ディスプレイ／オーディオドライバ３１０は、いくつかの実装形態において、１つ以上のディスプレイ／オーディオ出力装置３１２への出力を制御および駆動するための任意の適当な回路部であり得る。たとえば、ディスプレイ／オーディオドライバ３１０は、タッチスクリーン、フラットパネルディスプレイ、ブラウン管ディスプレイ、プロジェクタ、１つまたは複数のスピーカ、および／またはその他の適当なディスプレイおよび／または提示装置を駆動するための回路部であり得る。

通信インタフェース（複数可）３１４は、図２に示すようなネットワーク２１０など、１つ以上の通信ネットワークとインタフェース接続するための任意の適当な回路部であり得る。たとえば、インタフェース（複数可）３１４は、ネットワークインタフェースカード回路部、ワイヤレス通信回路部、および／またはその他の適当な種類の通信ネットワーク回路部を含み得る。

アンテナ３１６は、いくつかの実装形態において通信ネットワーク（たとえば、通信ネットワーク２０６）とワイヤレス通信を行うための任意の適当な１つ以上のアンテナであり得る。いくつかの実装形態では、アンテナ３１６を省略してもよい。

バス３１８は、いくつかの実装形態において、２つ以上のコンポーネント３０２、３０４、３０６、３１０、および３１４間で通信するための任意の適当なメカニズムであり得る。

いくつかの実装形態に従って、その他の適当なコンポーネントがハードウェア３００に含まれ得る。

図４を参照すると、開示の主題のいくつかの実装形態に係る、ユーザのクエリに応答して情報を提供するための処理例４００が示されている。

処理４００は、４０２において、ユーザデバイスからクエリを受信することから開始し得る。いくつかの実装形態では、クエリは、たとえば、ユーザの自宅にいる１つ以上の生き物に関する任意の適当な種類の情報を要求し得る。クエリの例として、「寝室にいる私の赤ちゃんの様子を確認して」、「私の犬は何をしていますか？」、および／またはその他の適当なクエリなどを挙げることができる。いくつかの実装形態では、クエリは、特定の生き物（たとえば、子供、ペット、および／またはその他の適当な生き物または人）、場所（たとえば、寝室、地下室、上の階、下の階、裏庭、および／またはその他の適当な場所）、行動（たとえば、寝ている、泣いている、吠えている、および／またはその他の適当な行動）、および／またはその他の適当な情報など、任意の適当な情報を示し得る。いくつかの実装形態では、クエリは、たとえば、ユーザデバイスに対応付けられたマイクロフォンを介してユーザデバイスによって受信された音声クエリとして、ユーザデバイス上のキーボードを介して入力されたテキストクエリとして、および／またはその他の適切な方法でなど、任意の適切な方法で受信され得る。いくつかの実装形態では、クエリは、部屋および／または起動される特定のデバイスを示し得る。たとえば、いくつかの実装形態では、クエリは、ベビーモニターが起動されること、特定の部屋のバーチャルアシスタントデバイスが起動されること、および／またはその他の適当なデバイスを指定し得る。より特定的な例として、いくつかの実装形態では、クエリは、特定のデバイスから音声が記録されてユーザデバイスを介して（たとえば、リアルタイムで、および／または任意の適当な遅延をもって）提示されることを示し得る。

４０４において、処理４００は、ユーザの自宅の１つ以上のデバイスを特定し、受信したクエリに関する情報を受信および／または記録し得る。いくつかの実装形態では、１つ以上のデバイスは、モバイル機器（たとえば、携帯電話、タブレットコンピュータ、および／またはその他の適当な種類のモバイル機器）、バーチャルアシスタントデバイス、ウェブカメラ、および／またはその他の適当な種類のデバイスなど、任意の適当な種類のデバイスであり得る。

いくつかの実装形態では、処理４００は、任意の適当な情報に基づいて、１つ以上のデバイスを特定し得る。たとえば、いくつかの実装形態では、処理４００は、クエリに含まれる情報に基づいて、１つ以上のデバイスを特定し得る。より特定的な例として、クエリが場所情報（たとえば、寝室、外、裏庭、下の階、および／またはその他の適当な場所情報）を含んでいる場合、処理４００は、示された場所および／または当該示された場所の近くに位置する１つ以上のデバイスを特定し得る。具体的な例として、ユーザの自宅の台所から情報が記録されることをクエリが示す場合、処理４００は、台所または台所の近くに置かれている１つ以上のデバイスを特定し得る。別のさらに特定の例として、クエリが特定の生き物または人（たとえば、ユーザの子供またはペット、および／またはその他の適当な生き物または人）を示す場合、処理４００は、生き物または人が通常居る通常の場所（たとえば、子供の寝室、リビング、および／またはその他の適当な場所）の近くにある１つ以上のデバイスを特定し得る。いくつかのこのような実装形態では、処理４００は、明示的に提供される情報（たとえば、ベビーモニターと表示されたデバイス、特定の部屋に置かれていると表示されたデバイス）など、任意の適当な情報に基づいて、および／または、暗黙的に推察される情報に基づいて、生き物または人が通常居る通常の場所の近くにある１つ以上のデバイスを特定し得る。たとえば、処理４００が暗黙的に推察される情報に基づいて１つ以上のデバイスを識別する場合、デバイスは、特定の部屋内にあると知られているデバイスの場所を特定することに基づいて、または、当該デバイスから以前記録されたことがある音声または画像に基づいて識別されてもよい。より特定的な例として、処理４００は、通常赤ちゃんに関連付けられる音が特定のデバイスを用いて以前記録されたことがあるという判断に基づいて、当該特定のデバイスが赤ちゃんの部屋にあると思われると特定し得る。いくつかのこのような実装形態では、処理４００は、特定のデバイスが推察される場所に置かれているという確認を、（たとえば、「このデバイスは、ベビーモニターですか？」などの質問を提示するインタフェースを介して、および／またはその他の適切な方法で）ユーザデバイスのユーザに要求し得る。

なお、いくつかの実装形態では、クエリは、トリガータームとしてみなされ得る１つ以上の単語を含み得る。トリガータームは、ブロック４１０に関してさらに詳細を後述するように、たとえば、トリガーワードまたはトリガーフレーズであってもよく、それらを含んでもよい。たとえば、いくつかの実装形態では、トリガーワードまたはトリガーフレーズは、人または生き物の種類（たとえば、「赤ちゃん」、「犬」、および／またはその他の適当な種類の人または生き物）および／または人または生き物の特定の名前（たとえば、ユーザの子供またはペットの名前）を含み得る。いくつかのこのような実装形態では、トリガーワードまたはトリガーフレーズは、ブロック４１０に関してより詳細を後述するように、たとえば、デバイスによって記録された、以前に検出された音声または画像に基づいて特定のデバイスと対応付けられ得る。いくつかの実装形態では、クエリがトリガーワードを含んでいないおよび／またはクエリに含まれる単語またはフレーズのいずれも特定のデバイスに予め対応付けられていないと判断された場合、処理４００は、ユーザの環境にの複数のデバイス（たとえば、すべてのデバイス、特定の場所の近くにあるすべてのデバイス、映像データを記録可能なすべてのデバイス、および／またはその他の適当なデバイス群）が起動されて、クエリを受信することに応答して音声データおよび／または映像データを記録させられると判断し得る。

なお、いくつかの実装形態では、処理４００は、任意の適当な技術または当該技術の組合せを用いて、どのデバイスが特定の場所にあるまたはその近くにあるのかを判断し得る。たとえば、いくつかの実装形態では、処理４００は、たとえば、特定のバーチャルアシスタントデバイスが特定の場所に置かれている、特定のスマートテレビが特定の寝室に置かれている、および／または場所とデバイスとのその他の適当な組合せを示す、ユーザによって明示的に提供される格納された情報を使用し得る。別の例として、いくつかの実装形態では、ブロック４１０に関してさらに詳細に後述するように、処理４００は、以前のクエリに基づいて、特定のデバイスと場所との対応付けを以前に決定したことがある可能性がある。いくつかのこのような実装形態では、処理４００は、暗黙的に判断された場所情報を用いて当該１つ以上のデバイスを特定し得る。

別の例として、いくつかの実装形態では、処理４００は、受信したクエリに対応付けられている情報を判断するために必要なデバイス機能に基づいて、１つ以上のデバイスを特定し得る。より特定的な例として、オーディオ情報が有用である可能性があるとクエリが示す場合、処理４００は、マイクロフォンを備えるおよび／またはマイクロフォンに対応付けられた１つ以上のデバイス（たとえば、モバイル機器、ウェブカメラ、バーチャルアシスタントデバイス、および／またはその他の適当なデバイス）を特定し得る。具体的な例として、「私の赤ちゃんは泣いていますか？」などのクエリは、オーディオ情報が有用である可能性があることを示す。別のさらに特定の例として、映像情報が有用である可能性があるとクエリが示す場合、処理４００は、カメラを備えるおよび／またはカメラに対応付けられた１つ以上のデバイスを特定し得る。具体的な例として、「私の犬はどこにいますか？」などのクエリは、映像情報が有用である可能性があることを示す。

さらに別の例として、いくつかの実装形態では、処理４００は、記録装置の表示をユーザデバイスのユーザに要求するクエリを受信したユーザデバイス上に、ユーザインタフェースを提示し得る。より特定的な例として、いくつかの実装形態では、処理４００は、利用可能な記録装置の群を提示し得、クエリに関連性のあるデータを記録するための記録装置を当該記録装置の中から１つ以上選択するよう、ユーザに要求し得る。いくつかのこのような実装形態では、処理４００は、利用可能な記録装置を任意の適切な方法で、たとえば、ユーザの自宅内の通信ネットワーク（たとえば、ＷｉＦｉネットワーク、ＬＡＮ、ＢＬＵＥＴＯＯＴＨネットワーク、および／またはその他の適当な通信ネットワーク）に接続された記録装置を特定することによって特定し得る。

処理４００は、４０６において、１つ以上のデバイスからデータを受信し得る。たとえば、いくつかの実装形態では、処理４００は、デバイスの各々に対応付けられたマイクロフォンおよび／またはカメラからオーディオ録音および／またはビデオ録画を受信し得る。なお、いくつかの実装形態では、データは、任意の適当な数（たとえば、１つ、２つ、４つ、および／またはその他の適当な数）のデバイスから受信され得る。処理４００は、データを任意の適切な方法で受信し得る。たとえば、いくつかの実装形態では、処理４００は、デバイスに対応付けられたマイクロフォンを起動させて音声データを記録させ得る。別の例として、いくつかの実装形態では、処理４００は、デバイスに対応付けられたカメラを起動させて、画像および／または映像データを記録させ得る。なお、いくつかの実装形態では、デバイスに対応付けられたマイクロフォンおよび／またはカメラは、既に起動されていてもよく、処理４００は、音声データおよび／または映像データを、処理のために保存させ得る。いくつかの実装形態では、処理４００は、キャプチャされた音声データおよび／または映像データを、処理のためにサーバ（複数可）２０２に送信させ得る。

いくつかの実装形態では、処理４００は、音声データおよび／または映像データをキャプチャし、キャプチャされたデータがクエリに関連性のある情報を含んでいると判断されるまで、記録された音声データおよび／または映像データを処理する。たとえば、ユーザの赤ちゃんについての情報が要求されているとクエリが示す場合、処理４００は、赤ちゃんに関連する音声（たとえば、鳴き声、おしゃべり、および／またはその他の適当な音声）が記録データ中に検出されるまで、音声データおよび／または映像データを記録し得る。別の例として、ユーザの犬についての情報が要求されているとクエリが示す場合、処理４００は、犬に関連する音声（たとえば、吠えている、引っ掻いている、および／またはその他の適当な音声）が記録されるおよび／または犬の画像がキャプチャされるまで、音声データおよび／または映像データを記録し得る。いくつかの実装形態では、音声データおよび／または映像データは、処理前に任意の適切な方法で格納され得る。たとえば、いくつかの実装形態では、音声データおよび／または映像データは、任意の適当なサイズのサーキュラーバッファに格納され得、クエリに関連性がないと判断されたデータは、処理および／または分析後、破棄され得る。より特定的な例として、ユーザの赤ちゃんについての情報が要求されているとクエリが示す場合、処理４００は、１つ以上のデバイスから音声データのチャンクを記録し、記録された音声データのチャンクを分析して赤ちゃんに関連する音声が記録された音声データ中に提示されているかどうかを判断し、赤ちゃんに関連する音声が提示されていないと判断した場合、記録された音声データのチャンクを削除し得る。別のさらに特定の例として、処理４００は、１つ以上のデバイスから映像データのチャンクを記録し、記録された映像データのチャンクを分析してクエリに対応付けられた画像（たとえば、ユーザの赤ちゃんの画像、ユーザのペットの画像、および／またはその他の適当な画像コンテンツ）が記録された映像データ中に提示されているかどうかを判断し、クエリに対応付けられた画像が提示されていない場合、記録された映像データのチャンクを削除し得る。

いくつかの実装形態では、処理４００は、記録された音声データを任意の適切な方法で分析し得る。たとえば、いくつかの実装形態では、処理４００は、音声データおよび／または記録された音声データに基づいて生成された指紋を照合して、記録された音声データが音声データベースに格納されている音声と一致するかどうかを判断し得る。いくつかの実装形態では、音声データベースは、赤ちゃんの泣き声、犬の吠え声、犬または猫が引っ掻く音、子供が遊んでいる音、および／または記録された音を特定するために利用され得るその他の適当な音など、任意の適当な音を含み得る。いくつかの実装形態では、処理４００は、任意の適当な技術（複数可）を用いて、記録された音声を音声データベースの音と照合するためのオーディオ指紋を生成し得る。たとえば、いくつかの実装形態では、処理４００は、任意の適当な周波数に対応するスペクトル、および／またはその他の適当な情報を示すオーディオ指紋を生成し得る。

処理４００は、４０８において、ユーザクエリおよび受信したデータに基づいて、ユーザに情報を提示し得る。いくつかの実装形態では、処理４００は、ユーザクエリに関する任意の適当な情報を提示し得る。たとえば、クエリが「寝室にいる私の赤ちゃんの様子を確認して」である場合、処理４００は、寝室からのオーディオ録音、寝室からのビデオ録画、記録データの記述（たとえば、「寝室に物音なし」、「赤ちゃんは、まだ寝ています」、および／またはその他の適当な記述）、および／またはその他の適当なクエリへの応答を提示し得る。音声データ、画像データ、および／または映像データが提示される場合、処理４００は、音声データ、画像データ、および／または映像データを任意の適切な方法で提示し得る。たとえば、いくつかの実装形態では、処理４００は、クエリを入力するためにユーザが使用するユーザデバイス上に任意の適当な音声または映像を提示し得る。別の例として、いくつかの実装形態では、当該音声および／または映像は、異なるユーザデバイス上に音声および／または映像を提示するための選択可能な入力、同じ記録装置からさらなる音声データおよび／または映像データを記録するための選択可能な入力、および／またはその他の適当なオプションなど、インタラクションのためのその他の適当なオプションを含んだユーザインタフェース内に提示され得る。別の例として、クエリが、はいまたはいいえの質問をたずねる場合、処理４００は、クエリへの回答を提示し得る。はい／いいえの質問のより特定的な例として、「私の赤ちゃんは寝ていますか？」、「私の犬は吠えていますか？」、および／またはその他の適当な質問などを挙げることができる。

なお、いくつかの実装形態では、情報を提示するユーザデバイスは、ユーザの自宅および／または記録装置から遠隔に存在し得る。たとえば、いくつかの実装形態では、ユーザデバイスのユーザは、遠隔地（たとえば、ユーザのオフィス、旅先、および／またはその他の適当な遠隔地）にあるユーザデバイスを介してクエリを送信した可能性があり、ユーザの自宅内の記録装置によって記録されたデータを用いてユーザの自宅についての情報（たとえば、ユーザの自宅にいる生き物または人）を要求してもよい。

４１０において、処理４００は、１つ以上のデバイスのうちの少なくとも１つのデバイスを、１つ以上のトリガータームと対応付け得る。１つ以上のトリガータームは、たとえば、クエリに含まれるトリガーワードおよび／またはトリガーフレーズであってもよく、またはそれらを含んでもよい。たとえば、いくつかの実装形態では、デバイスは、未来の同様のクエリへの回答のために用いるのに適当なデバイスを特定するためのクエリに含まれる１つ以上のトリガーワードに対応付けられ得る。いくつかの実装形態では、処理４００は、任意の適当な情報に基づいて、少なくとも１つのデバイスを、クエリに含まれる１つ以上のトリガーワードに対応付け得る。たとえば、ユーザの子供についての情報をクエリが要求し、特定のデバイスが子供に関連する音声または物音を検出した場合（たとえば、特定の寝室にあるバーチャルアシスタントデバイス、および／またはその他の適当なデバイス）、処理４００は、当該特定のデバイスをクエリにおいて使用されている子供および／または子供の名前に対応付け得る。別の例として、クエリが特定の場所（たとえば、寝室、リビング、および／またはその他の適当な場所）について言及した場合、処理４００は、関連データ（たとえば、ペットの音声または画像、および／またはその他の適当な関連データ）を記録するデバイスを、当該特定の場所と対応付け得る。

なお、いくつかの実装形態では、処理４００は、クエリに対して任意の適当な自然言語処理技術を用いて、少なくとも１つのデバイスをクエリに含まれる１つ以上の単語と対応付け得る。たとえば、クエリが「他の部屋にいる私の赤ちゃんの様子を確認して」である場合、処理４００は、ユーザの自宅には２つ以上の部屋（たとえば、ユーザが現在いる部屋ではない部屋）があると判断し得、赤ちゃんを検出するデバイスを含んだ部屋は、「他の部屋」であると判断し得る。

これに加えて、なお、いくつかの実装形態では、処理４００は、トリガーワードまたはトリガーフレーズを検出することに応答して、音声データおよび／または映像データの記録を開始し得る。たとえば、いくつかの実装形態では、トリガーワードまたはトリガーフレーズは、人または生き物の種類および／または人または生き物の特定の名前を含み得る。より特定的な例として、いくつかの実装形態では、トリガーワードは、「赤ちゃん」、「犬」、「猫」、ユーザの子供の名前、ユーザのペットの名前、および／またはその他の適当な単語または名前を含み得る。別の例として、いくつかの実装形態では、トリガーワードまたはトリガーフレーズは、「台所」、「リビング」、「赤ちゃんの部屋」、および／またはその他の適当な場所など、ユーザの環境における場所を含み得る。いくつかの実装形態では、トリガーワードまたはトリガーフレーズを検出することに応答して、処理４００は、任意の適当なデバイスからの記録を開始し、トリガーワードまたはトリガーフレーズに対応付けられた音声または画像が、記録された音声データまたは映像データに含まれているかどうかを判断し得る。たとえば、検出されたトリガーワードが「赤ちゃん」である場合、処理４００は、赤ちゃんに関連する音声が検出され得るかどうかを判断するために、音声データおよび／または映像データの記録を開始し得る。いくつかの実装形態では、処理４００は、トリガーワードまたはトリガーフレーズを検出することに応答して、任意の適当なデバイスを起動し得る。これに加えて、または、これに代えて、いくつかの実装形態では、処理４００は、トリガーワードまたはトリガーフレーズに基づいて、起動するデバイスを選択し得る。たとえば、いくつかの実装形態では、検出されたトリガーワードが「赤ちゃん」である場合、処理４００は、赤ちゃんに関連付けられた音声を以前検出したことのある１つ以上のデバイス、および／または、ユーザが示す、赤ちゃんに関連付けられた場所にあると知られている１つ以上のデバイス（たとえば、赤ちゃんの部屋、および／またはその他の適当な場所）を起動し得る。

図５を参照すると、開示の主題のいくつかの実装形態に係る、イベントを検出してイベントを示す情報を提示するための処理例５００が示されている。

処理５００は、５０２において、１つ以上のデバイスからデータを受信することから開始し得る。たとえば、図４のブロック４０６に関して上述したように、このデータは、デバイスに対応付けられたマイクロフォンおよび／またはカメラから記録された任意の適切な音声データおよび／または映像データを含み得る。いくつかの実装形態では、音声データおよび／または映像データは、任意の適当な長さ（たとえば、１秒、２秒、１０秒、および／またはその他の適当な長さ）のものであり得る。いくつかの実装形態では、当該データは、処理および分析するためにサーバによって１つ以上のデバイスから受信され得る。

５０４において、処理５００は、受信したデータに基づいて、生き物または人の特徴の一部、またはそれを含んだイベントを検出し得る。いくつかの実装形態では、イベントは、特定の生き物または人に関連し得る。たとえば、いくつかの実装形態では、イベントは、ユーザの赤ちゃんが泣いている、ユーザの子供が起きている、ユーザの犬が吠えている、ユーザのペットが家具を引っ掻いている、および／またはその他の適当なイベントであり得る。いくつかの実装形態では、処理５００は、任意の適当な技術または当該技術の組合せを用いてイベントを検出し得る。たとえば、いくつかの実装形態では、処理５００は、記録された音声データを分析して、音声データが特定の音声（たとえば、赤ちゃんの泣き声またはおしゃべり、子供のしゃべり声、玩具の音、犬の吠え声または引っ掻き音、および／またはその他の適当な音声）を含んでいるかどうかを判断し得る。別の例として、いくつかの実装形態では、処理５００は、記録された映像データを分析して、特定の生き物または人が映像に含まれているかどうかを判断し、人または生き物が映像に含まれている場合、当該人または生き物の現在の状態または行動を判断し得る。より特定的な例として、いくつかの実装形態では、処理５００は、任意の適当な画像処理または画像認識技術を用いて、映像データが犬を含んでいるかどうかを判断し、次に、犬が寝ているか起きているか、吠えているか静かにしているか、および／またはその他の適当な特徴を判断することができる。なお、いくつかの実装形態では、処理５００は、任意の適当な技術または当該技術の組合せを用いて、記録データを分析してイベントを検出することができる。たとえば、いくつかの実装形態では、処理５００は、記録された音声データに基づいて生成されたオーディオ指紋を、既知音声のデータベース（図４のブロック４０６に関して上述したように）と照合して、記録された音声データが、赤ちゃんの泣き声または犬の吠え声など、既知の音声を含んでいるかどうかを判断し得る。別の例として、いくつかの実装形態では、処理５００は、任意の適当な画像認識技術を用いて記録された映像データを分析し、記録された映像データが既知の生き物または人（たとえば、ユーザのペット、ユーザの子供、および／またはその他の適当な既知の生き物または人）および／または特定の種類の生き物または人（たとえば、子供、犬、猫、および／またはその他の適当な種類の生き物または人）を含んでいるかどうかを判断し得る。

いくつかの実装形態では、処理５００は、検出されたイベントがユーザの関心の対象になる尤度を判断し得る。いくつかの実装形態では、処理５００は、任意の適当な情報に基づいてこの尤度を判断し得る。たとえば、いくつかの実装形態では、処理５００は、ユーザに提示したことのある以前の情報に基づいて、および以前に提示された情報に対するユーザの反応に基づいて、尤度を判断し得る。より特定的な例として、同じまたは同様のイベント（たとえば、「あなたの赤ちゃんが泣いています」、「あなたの犬がカウチを引っ掻いています」、および／またはその他の適当なイベント）の表示をユーザが以前提示されたことがあると処理５００が判断した場合、処理５００は、ユーザがイベントに基づいて追加情報を要求した（たとえば、イベントに関する音声データまたは映像データの視聴を要求した、検出されたイベントに対応付けられたデバイスを起動してさらなる音声データまたは映像データを記録するよう要求した、および／またはその他の適当な追加情報を要求した）かどうかを判断し得る。この例を引き続き使用すると、ユーザがこの追加情報を以前に要求したことがあると処理５００が判断する場合、処理５００は、ユーザが追加情報を要求したことが概してないと処理５００が判断する場合と比較して高い尤度（たとえば、５０％以上、７０％以上、および／またはその他の適当な尤度）を割り当て得る。これに加えて、または、これに代えて、いくつかの実装形態では、処理５００は、判断された尤度に信頼値を割り当て得る。いくつかのこのような実装形態では、信頼値は、検出されたイベントまたは同様のイベントがこれまでユーザに提示された回数に基づき得る。たとえば、いくつかの実装形態では、以前にユーザに１度だけ提示されたことがある検出イベントには、以前にユーザに１０回提示されたことがある検出イベントと比較して低い信頼値が割り当てられる。さらには、いくつかの実装形態では、信頼値は、以前に提示された同様のイベントに対するユーザの応答のばらつきに基づき得る。いくつかの実装形態では、信頼値は、ユーザデバイスのユーザから受信した明示的なフィードバックに基づき得る。たとえば、いくつかの実装形態では、検出イベント（たとえば、「私は、あなたの犬が吠えているのが聞こえました」、「私は、あなたの赤ちゃんが泣いているのが聞こえました」、および／またはその他の適当な検出イベント）の表示を提示した後、処理５００は、検出されたイベントが正しかったかどうかおよび／またはユーザの関心の対象であったかどうかについてフィードバックを要求するメッセージを提示し得る。より特定的な例として、いくつかの実装形態では、フィードバックを要求するこのメッセージは、「あなたの犬は吠えていましたか？」および／または「このイベントのあなたの興味の対象でしたか？」であり得る。いくつかのこのような実装形態では、メッセージは、「はい」または「いいえ」を選択するためのラジオボタン、および／またはその他の適当なユーザインタフェース制御など、メッセージに応答してユーザからのフィードバックを受信するための任意の適当なユーザインタフェース制御を含み得る。いくつかのこのような実装形態では、明示的なフィードバックは、未来の同様の検出イベントの信頼値を設定するために用いることができる。

５０６において、処理５００は、イベントを示す情報をユーザデバイス上のユーザインタフェースを介して提示することができる。たとえば、いくつかの実装形態では、処理５００は、泣いている赤ちゃんが検出されたこと、吠えている犬が検出されたこと、および／またはその他の適当なメッセージを示すメッセージを提示することができる。

いくつかの実装形態では、処理５００は、任意の適当な情報に基づいて、イベントを示す情報を提示するかどうかを判断できる。たとえば、いくつかの実装形態では、イベントがユーザの関心の対象になると判断する尤度が予め定められた閾値（たとえば、５０％以上、７０％以上、および／またはその他の適当な尤度）を超える場合、処理５００は、この情報を提示すると判断し得る。別の例として、いくつかの実装形態では、判断された尤度が第１の予め定められた閾値を超え、判断された信頼値が第２の予め定められた閾値（たとえば、５０％以上、７０％以上、および／またはその他の適当な信頼値）を超えた場合、処理５００は、この情報を提示すると判断し得る。別の例として、いくつかの実装形態では、処理５００は、ユーザの好みに基づいて、情報を提示するかどうかを判断し得る。より特定的な例として、いくつかの実装形態では、ユーザの好みは、特定の時間（たとえば、夜９時と朝６時の間、および／またはその他の適当な時間）に特定の記録装置（たとえば、ベビーモニター、特定の音声制御スピーカ、および／またはその他の適当なデバイス）から取得した情報をユーザが受信したがっていることを示し得る。別のさらに特定の例として、いくつかの実装形態では、ユーザは、ユーザの自宅にある特定の記録装置またはオブジェクトに関するアラートを明示的に起動し得る。

５０８において、処理５００は、追加情報を提示する要求を、ユーザインタフェースを介して受信し得る。たとえば、いくつかの実装形態では、ユーザインタフェースは、ユーザに追加情報を要求させる１つ以上の選択可能な入力をさらに含み得る。たとえば、いくつかの実装形態では、ユーザインタフェースは、選択可能な入力を含み得、当該入力は、選択されると、記録された音声データをユーザデバイスを介して提示させる。別の例として、いくつかの実装形態では、ユーザインタフェースは、選択可能な入力を含み得、当該入力は、選択されると、検出されたイベントに対応するデータを記録したデバイスに対応付けられたマイクロフォンを起動させ、さらに記録された音声データをユーザデバイスを介して提示させる。さらに別の例として、いくつかの実装形態では、ユーザインタフェースは、選択可能な入力を含み得、当該入力は、選択されると、記録された音声データまたは映像データを、近くのテレビなど、第２のユーザデバイス上に提示させる。

いくつかの実装形態では、図４および図５の処理の上述したブロックのうちの少なくともいくつかは、図示されて図に関して説明された順番およびシーケンスに限られず、任意の順番またはシーケンスで実行および実施することができる。また、待機時間および処理時間を低減するために、図４および図５の上記ブロックのうちのいくつかは、適宜実質的に同時に、または平行して実行または実施することができる。これに加えて、または、これに代えて、図４および図５の処理の上述したブロックのうちのいくつかを省略することができる。

いくつかの実装形態では、本明細書の機能および／または処理を実行するための命令を格納するために、任意の適当なコンピュータ読み取り可能な媒体を用いることができる。たとえば、いくつかの実装形態では、コンピュータ読み取り可能な媒体は、一時的または非一時的であり得る。たとえば、非一時的なコンピュータ読み取り可能な媒体は、磁気媒体（ハードディスク、フロッピー（登録商標）ディスク、および／またはその他の適当な磁気媒体など）、光学媒体（コンパクトディスク、デジタルビデオディスク、ブルーレイディスク、および／またはその他の適当な光学媒体など）、半導体媒体（フラッシュメモリ、ＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、および／またはその他の適当な半導体媒体など）、瞬間的で転送時の永続性がない任意の適当な媒体、および／または任意の適当な有形の媒体など、媒体を含み得る。別の例として、一時的なコンピュータ読み取り可能な媒体は、ネットワーク上、電線、導線、光ファイバ、回路に含まれる信号、瞬間的で転送時の永続性がない任意の適当な媒体、および／または任意の適当な無形の媒体を含み得る。

本明細書に記載のシステムが、ユーザについての個人情報を収集するまたは個人情報を利用する場合、プログラムまたは特徴がユーザ情報（たとえば、ユーザのソーシャルネットワーク、社会的行為または活動、職業、ユーザの嗜好、またはユーザの現在位置についての情報）を収集するかどうかを制御するための機会がユーザに与えられてもよい。これに加えて、特定のデータは、個人を特定可能な情報が取り除かれるように、格納または使用される前に１つ以上の方法で処理されてもよい。たとえば、ユーザについての個人情報が特定できないようにユーザの識別情報を処理したり、ユーザの特定の場所が特定できないように場所情報（市、郵便番号、または州レベルなど）が取得されるユーザの地理的位置を一般化したりしてもよい。したがって、ユーザは、ユーザについての情報がどのように収集されるのか、およびこの情報がコンテンツサーバによってどのように利用されるかについて、自分の好きなようにすることができる。

このように、検出されたイベントに関する情報を提供するための方法、システム、および媒体が提供される。

上述の例示的な実装形態において本発明を説明および例示したが、本開示は、あくまでも一例であり、本明細書の趣旨および範囲から逸脱することなく、本発明の実装形態の詳細に対して様々な変更がなされてもよく、本明細書の範囲は添付の特許請求の範囲によってのみ限定されることを理解されたい。開示の実装形態の特徴は、様々に組み合わせおよび並び替えることができる。

Claims

情報を提供するための方法であって、
ユーザの環境に置かれた記録装置群のうちの第１の記録装置をトリガータームと対応付けるステップと、
前記トリガータームを含んだクエリをユーザデバイスから受信するステップと、
前記クエリを受信することに応答して、前記ユーザの環境にある前記記録装置群のうちの少なくとも１つの記録装置から音声データを送信すると判断するステップと、
前記受信したクエリが前記トリガータームを含んでいることに基づいて、前記第１の記録装置を特定するステップと、
前記第１の記録装置から前記音声データを受信するステップと、
前記受信した音声データに基づいて、前記ユーザの環境に存在する生き物の特徴を特定するステップと、
前記生き物の特徴を示す情報を前記ユーザデバイス上に提示するステップとを含む、方法。
前記第１の記録装置を前記トリガータームと対応付けるステップは、前記第１の記録装置によって以前に記録された音声データに基づく、請求項１に記載の方法。
前記第１の記録装置を前記トリガータームと対応付けるステップは、前記ユーザの環境内の前記第１の記録装置の既知の場所に基づく、請求項１または２に記載の方法。
前記第１の記録装置を前記トリガータームと対応付けるステップは、前記第１の記録装置の推察される場所に基づき、
前記推察される場所は、前記ユーザデバイスから以前に受信したクエリに基づいて判断される、請求項１〜３のいずれか１項に記載の方法。
前記情報は、前記受信した音声データを前記ユーザデバイスによって提示させる選択可能な入力を含んだユーザインタフェース内で提示される、請求項１〜４のいずれか１項に記載の方法。
前記情報は、前記第１の記録装置にさらなる音声データを記録させる選択可能な入力を含んだユーザインタフェース内で提示される、請求項１〜５のいずれか１項に記載の方法。
前記記録装置群のうちの第２の記録装置から第２の音声データを受信するステップと、
前記受信した第２の音声データに基づいて前記生き物に関するイベントを検出するステップと、
前記検出されたイベントが前記ユーザデバイスの前記ユーザの関心の対象である可能性があるかどうかを判断するステップと、
前記検出されたイベントが前記ユーザの関心の対象である可能性があると判断することに応答して、前記検出されたイベントの表示を前記ユーザデバイス上に提示させるステップとをさらに含む、請求項１〜６のいずれか１項に記載の方法。
情報を提供するためのシステムであって、ハードウェアプロセッサを含み、
前記ハードウェアプロセッサは、
ユーザの環境に置かれた記録装置群のうちの第１の記録装置をトリガータームと対応付け、
前記トリガータームを含んだクエリをユーザデバイスから受信し、
前記クエリを受信することに応答して、前記ユーザの環境にある前記記録装置群のう
ちの少なくとも１つの記録装置から音声データを送信すると判断し、
前記受信したクエリが前記トリガータームを含んでいることに基づいて、前記第１の記録装置を特定し、
前記第１の記録装置から前記音声データを受信し、
前記受信した音声データに基づいて、前記ユーザの環境に存在する生き物の特徴を特定し、
前記生き物の特徴を示す情報を前記ユーザデバイス上に提示するようにプログラムされる、システム。
前記第１の記録装置を前記トリガータームと対応付けることは、前記第１の記録装置によって以前に記録された音声データに基づく、請求項８に記載のシステム。
前記第１の記録装置を前記トリガータームと対応付けることは、前記ユーザの環境内の前記第１の記録装置の既知の場所に基づく、請求項８または９に記載のシステム。
前記第１の記録装置を前記トリガータームと対応付けることは、前記第１の記録装置の推察される場所に基づき、
前記推察される場所は、前記ユーザデバイスから以前に受信したクエリに基づいて判断される、請求項８〜１０のいずれか１項に記載のシステム。
前記情報は、前記受信した音声データを前記ユーザデバイスによって提示させる選択可能な入力を含んだユーザインタフェース内で提示される、請求項８〜１１のいずれか１項に記載のシステム。
前記情報は、前記第１の記録装置にさらなる音声データを記録させる選択可能な入力を含んだユーザインタフェース内で提示される、請求項８〜１２のいずれか１項に記載のシステム。
前記ハードウェアプロセッサは、
前記記録装置群のうちの第２の記録装置から第２の音声データを受信し、
前記受信した第２の音声データに基づいて前記生き物に関するイベントを検出し、
前記検出されたイベントが前記ユーザデバイスの前記ユーザの関心の対象である可能性があるかどうかを判断し、
前記検出されたイベントが前記ユーザの関心の対象である可能性があると判断することに応答して、前記検出されたイベントの表示を前記ユーザデバイス上に提示させるようにさらにプログラムされる、請求項８〜１３のいずれか１項に記載のシステム。
請求項１〜７のいずれか１項に記載の方法をコンピュータに実行させるように構成されたコンピュータ読み取り可能な命令を保持する、コンピュータ読み取り可能な媒体。
コンピュータによって実行されるプログラムであって、前記コンピュータは、前記プログラムに、請求項１〜７のいずれか１項に記載の方法を実行させる、プログラム。