JP2014507030A

JP2014507030A - オーディオ・ベースのアプリケーション・アーキテクチャ

Info

Publication number: JP2014507030A
Application number: JP2013551329A
Authority: JP
Inventors: ウィリアムズハンター; ディー．カールウィリアム; ジェーンズキャメロン; ジェイ．ワッツアンドリュー; エイチ．ウッドジェイムズ; ジェイ．ガスパーケヴィン
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2011-01-28
Filing date: 2012-01-26
Publication date: 2014-03-20
Also published as: WO2012103321A3; EP2668561A4; US20120198339A1; US10382509B2; EP2668561A2; CN103620546A; WO2012103321A2

Abstract

ユーザー・サイト内に配置される１つ以上のオーディオ・インタフェースを含むアプリケーション・アーキテクチャ。クラウド・ベースのアプリケーション・エンジンが、インタフェースからオーディオ情報を受信し、ユーザー・サイト内のオーディオに基づきクラウド・ベースのアプリケーションに情報を提供する。他のアプリケーションでは、情報を利用して、ユーザーに対してサービスを提供または拡張する。

Description

本発明はオーディオ・ベースのアプリケーション・アーキテクチャに関し、より詳細にはユーザー・サイト内に配置される１つ以上のオーディオ・インタフェースを含むアプリケーション・アーキテクチャに関する。

本出願は２０１１年１月２８日に出願された「オーディオ・ベースのアプリケーション・アーキテクチャ」という名称の米国特許出願番号１３／０１６，００９の優先権を主張するものであり、その全体が参照により本明細書に組み込まれる。

家庭や他のユーザー・サイトでは、常時接続のインターネットや「クラウド」接続が増加し続けている。多くの場合、モバイル・ユーザーでさえ、常時またはほぼ常時のデータ接続を使用している。こうしたネットワーク通信が一般的に利用可能になったことで、ユーザーにアクセス可能な様々な接続デバイスを使用したサービスやその他の機能に対する多くの新しい可能性を生み出してきた。

詳細な説明は、添付の図面を参照して行う。こうした図では、参照番号の最も左側の桁が、当該参照番号が最初に現れる図を特定している。同じ参照番号を異なる図で用いることで、類似または同一のアイテムを示している。
アプリケーションがアプリケーション・エンジンを利用し、ユーザー・サイトからの音声に応答し、様々なサービスをユーザーに提供しうる本発明の操作環境を示すブロック図である。図１のシステムに関する詳細を追加で示すブロック図である。図１および図２の環境内で実装可能なプロセス例を示す流れ図である。本明細書に記載する多くの技術を実装可能なサーバーのコンポーネントを示すブロック図である。

本明細書では、家庭またはその他の場所に既に存在する音声情報を利用するためのシステムと技術について説明する。こうした音声情報を収集するために、ネットワークで使用可能なマイクロフォンを家庭内またはユーザー・サイト内の様々なアクティビティの中心に配置できる。マイクロフォンは、無線ネットワーク機能を持つ小型の自蔵式ユニットに組み込まれ、オーディオ・ベースの情報をクラウド・ベースのアプリケーション・エンジンまたはサービスに送信するように構成されてもよい。クラウド・ベースのアプリケーション・エンジンは、オーディオ・ベースの情報を監視し、そうした情報を処理して家庭内の現在のアクティビティに関するイベント、ステータス、またはその他の情報を特定してもよい。アプリケーション・エンジンは、家庭内でユーザーが口頭で発するコマンドを特定してもよい。

説明した実施形態では、アプリケーション・エンジンは、他のクラウド・ベースのエンティティがアクセスできるアプリケーション・インタフェースを公開する。このアプリケーション・インタフェースは、他のエンティティが家庭内のアクティビティ、ステータス、コマンドなどに関するデータを受信できるようにする。ユーザーが認証するエンティティに限り、こうした情報にアクセスできるように認証および許可のセーフガードが採用される。

認証されたクラウド・ベースのアプリケーションは、アプリケーション・エンジンのサービスを利用してユーザーに対する自己のサービスを拡張してもよい。例えば、クラウド・ベースのアプリケーションは、アプリケーション・エンジンと通信し、ユーザーが口頭で発するコマンドの通知を受信し、こうしたコマンドに対応しうる。より具体的な例としては、ユーザーが「今晩のランボーの映画チケットを購入」などのコマンドを口頭で発する場合がある。アプリケーション・エンジンがこの音声を受信するとテキスト・ストリームに変換し、ユーザーのために映画チケットを購入するアプリケーションに提供し、このアプリケーションは、一定のオーディオ・ベースのコマンドを受信するエンジンに反応して使用することを認証したユーザーが以前提供した支払情報を使用してチケット購入を行う。アプリケーションは、テキスト・コマンドの受信に応答して、リクエストされた映画チケットを購入し、ユーザーのコンピュータやスマートフォンなど、ユーザーに関連するデバイスにチケットを電子的に送信してもよい。

システム・アーキテクチャの例
図１は、上記の技術を実施しうる環境１００を示している。こうした環境には、家庭またはその他のユーザー・サイト１０２が含まれる。ユーザー・サイトには、家庭、オフィス、自動車、およびその他の空間が含まれる。図１には、単独の家庭１０２が示されているが、ほとんどの実装形態では、複数のサイトとユーザーが含まれるであろう。

家庭１０２の中には、ユーザー１０４とユーザー１０４に関連するいくつかのデバイスがある。図示されたデバイスには、テレビ、音声・プレーヤー、ビデオ・プレーヤーなどの様々なタイプの１つ以上のデバイスを表すメディア・デバイス１０６が含まれる。図示されたデバイスには、ノートブック・コンピュータ、デスクトップ・コンピュータ、タブレット・コンピュータ、ネットブック、その他のネットワークで使用可能なデバイスなどの様々なタイプの１つ以上のデバイスを表すコンピュータ１０８も含まれる。パーソナル・コンピュータ・デバイス１１０は、スマートフォン、ポケットベル、パーソナル・デジタル・アシスタント（ＰＤＡ）、ブックリーダー・デバイス、または様々なタイプの電子通信デバイスを含むその他のタイプのポータブル・デバイスなどのユーザーと関連付けられることもある。

家庭１０２に示されているデバイスは、ユーザー・サイトまたはユーザーに関連して存在しうる幅広い様々なデバイスの単なる例であることに注意されたい。こうしたデバイスの多くは、何等かのタイプのネットワーク接続を持ちうる。この場合、家庭内のデバイスは、ルーターまたはアクセス・ポイント１１２に接続し、これは公衆回線１１４に接続する。家庭内デバイスとルーター１１２の間の接続は、有線または無線のいずれかの技術を介して行ってもよい。

家庭１０２内のデバイスは、家庭内ルーター１１２を介してネットワーク１１４に接続するように図示されているが、ネットワーク接続は他の様々な方法で実装してよい。例えば、家庭内デバイスの中には、携帯データ技術、または家庭内ルーターやアクセス・ポイントを伴わない他のタイプの有線および無線の技術を介してネットワーク１１４と通信するものがある。従って、図１の特定の構成は、ネットワーク接続を実現しうる１つの方法を単に示しているだけである。

ネットワーク１１４は、いわゆる「クラウド」を表しており、多くのネットワーク・ベースのエンティティ、サーバー、クライアント、アプリケーション、およびサービスを含むことがある。ネットワーク１１４の中のブロックは、本説明に関連するクラウド・ベースのアプリケーションおよび／またはサービスを表している。

ネットワーク１１４は、機能上の目的では統合ネットワークのように見えるように、様々な方法で相互接続された様々な個々のネットワークやシステムの集まりである場合がある。従ってネットワーク１１４には、ローカルエリア・ネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、インターネット、無線ネットワーク、ケーブルテレビ・ネットワーク、電話通信網、セルラー通信網などの様々なタイプの通信ネットワークが含まれる。ここで説明する技術は、局所的および／またはプライベートのネットワークを含む小規模のネットワークでも実施できる。

ユーザーの家庭１０２は、１つ以上のオン・プレミスのオーディオ・モニタリング・デバイス１１６（ここでは家庭内の音声インタフェース・デバイスという）が装備されている場合がある。音声インタフェース・デバイス１１６は、実施形態によっては、マイクロフォンおよびネットワーク・インタフェースを有するデバイスを含む場合がある。ある実施形態では、インタフェース・デバイスは、スピーカや他の形式の音声出力を有する場合がある。

インタフェース・デバイス１１６は、家庭１０２内の様々な場所に邪魔にならないようにいくつかのデバイスを配置できるように比較的小型なものでもよい。例として、このインタフェース・デバイスは、ホッケーのパックのような小型の円筒状の容器に入れて実装されてもよい。

各インタフェース・デバイス１１６は、動作電力を受け入れるために電力接続してもよい。説明した実施形態では、他の接続は不要である。しかし、実施形態によっては、外部ソースから音声が１つ以上の音声インタフェース・デバイス１１６に提供される場合があり、このためにコネクタ、レセプタクル、またはポートがインタフェース・デバイス１１６で利用できる場合がある。

音声インタフェース・デバイス１１６は、マイクロフォンが家庭１０２内の周囲の音やノイズを検知するように家庭１０２内に配置できる。メディア・デバイスが生成した音声を音声インタフェース・デバイス１１６が検知し、クリアに受信するように、家庭１０２内のメディア・デバイス１０６などのメディア・デバイスのそばに音声インタフェース・デバイスを配置することは、多くの場合、有用であろう。また、ユーザーの声をクリアに受信できるように、インタフェース・デバイスをキッチン内、デスク上などアクティビティの中心の近くに配置することも有用であろう。

図１の実施形態では、インタフェース・デバイス１１６は、クラウド・ベースのアプリケーション・サービスまたはエンジン１１８とルーター１１２およびネットワーク１１４を介して通信し、環境情報を送信する。上記のように、こうしたクラウド・ベースの通信は、多くの方法で実装可能であり、図１のような特定のルーター・ベースの構成に限定されるものではない。例として、インタフェース・デバイスはセルラー方式またはその他の無線データ通信技術を使用して、アプリケーション・エンジン１１８と通信する場合がある。

図１は、アプリケーション・エンジン１１８とインタラクションし、家庭内の音声インタフェース・デバイス１１６から入手した、またはそこから発生した情報に基づき、そのサービスの少なくとも一部を行う複数のクラウド・ベースのアプリケーションまたはサービス１２０も示している。アプリケーション１２０は、ネットワーク・ブラウザを介してユーザーにアクセス可能で、コンピュータ１０８または他のインターネット端末またはアクセス・デバイスと共に機能するウェブ・ベースのアプリケーションであってもよい。こうしたアプリケーションにアクセスするために、様々なモバイル・デバイスと通信デバイスも使用できる。アプリケーション１２０の中には、コンピュータ１０８やパーソナル・デバイス１１０などのローカル・デバイス上で実行するプログラムのためのリソースとしての役割を果たすものがある。こうしたローカル・プログラムは、クラウド・ベースのアプリケーション１２０と共に機能し、電子メール・サービスからゲームまで、様々なサービスや機能を提供する。アプリケーション１２０などのクラウド・ベースまたはネットワーク・ベースのアプリケーションは、エンターテイメント・デバイス、ゲーム・ボックス、メディア・デバイス、ホーム・オートメーションとセキュリティ・デバイス、通信デバイスなどのネットワーク接続された幅広いタイプのデバイスと共に機能してもよい。

稼働中、アプリケーション・エンジン１１８は、オーディオ・ベースの情報をインタフェース・デバイス１１６から受信する。オーディオ・ベースの情報には、オーディオ・ストリーム、発声によるユーザーのコマンドまたは通知、オン・プレミスのオーディオから発生する環境情報などが含まれる。アプリケーション・エンジン１１８は、オーディオ・ベースの情報を処理して、ユーザーのアクティビティ、ステータス、環境、コマンドなどについての様々なデータを判断する。次に、こうしたデータは、認証されたアプリケーション１２０によって取得され、アプリケーション１２０は、こうした情報に反応し、ユーザー１０４へサービスを提供、またはサービスを拡張する。

図２は、説明したデバイスとサービスの間のインタラクションに関する詳細を追加で表している。上記のように、１つ以上の家庭内の音声インタフェース・デバイス１１６を家庭１０２内に配置してもよい。個々のインタフェース・デバイス１１６は、周囲のノイズ、サウンド、声を検知するように構成されたマイクロフォン２０２を含む場合がある。インタフェース・デバイス１０２は、アプリケーション・エンジン１１８および１つ以上のアプリケーション１２０を含む様々なエンティティとのネットワーク１１４を介したネットワーク通信を容易にするネットワーク・インタフェース２０４を含む場合がある。インタフェース・デバイスは、スピーカ２０６と動作ロジック２０８を含む場合がある。動作ロジック２０８は、１つ以上のプログラマブル処理装置、関連するメモリ、およびメモリに保存されて処理装置によって実行される適切な命令、として実装される場合がある。ここで説明した機能を行うためにインタフェース・デバイス１１６を構成する目的で他のタイプのロジックを使用することもできる。

ある実施形態では、インタフェース・デバイス１１６のマイクロフォン２０２によって検知された周囲の音声に基づき、インタフェース・デバイス１１６はオーディオ・ベースの情報２１０をアプリケーション・エンジン１１８に送信するように構成される。オーディオ・ベースの情報２１０は、継続的なオーディオ・ストリームを含む、またはアクティビティの様々な期間に対応する個別のオーディオ・ストリーム、または家庭１０２内とインタフェース・デバイス１１６の近くのノイズを含む場合がある。例えば、オーディオ・ストリームは、周囲のノイズ・レベルが最低閾値を超えると送信される場合がある。

他の実施形態では、インタフェース・デバイス１１６はマイクロフォン２０２からの音声を事前処理し、より高レベルのオーディオ・ベースの情報をアプリケーション・エンジン１１８に送信する場合がある。例えば、インタフェース・デバイス１１６の動作ロジック２０８は、周囲の音声について音声認識を行い、解釈されたコマンドやテキスト・ストリームをアプリケーション・エンジン１１８に送信する場合がある。他の例としては、動作ロジック２０８は、メディア・デバイス１０６のうちの１つで再生されている音楽を認識、特定し、現在再生されている音楽を示し、特定するデータをアプリケーション・エンジン１１８に送信するように構成される場合がある。ある実施形態では、インタフェース・デバイス１１６は、音楽データベースなどのオンラインまたはクラウド・ベースのサービスを利用し、その機能を行う場合がある。

個々のインタフェース・デバイス１１６は、ある種の初期化または登録手順を通してそれぞれのサイトに関連付けることができ、インタフェース・デバイスとの通信は、暗号技術を使用して許可することができる。

アプリケーション・エンジン１１８は、オーディオ・ベース情報２１０を受信するように構成される。受信された情報のタイプまたはフォーマットに応じてそれを処理して、アプリケーション・エンジン１１８はそれを処理して、家庭内のアクティビティに関連するイベント、ステータス、および／またはコマンドのデータを特定し、作成する。ある実施形態では、アプリケーション・エンジン１１８は、それぞれ個々のイベントまたは情報のアイテムをそれぞれ表すデータ・オブジェクトまたはイベント記述子のレコードを維持する場合がある。例として、以下のタイプの情報を特定または表すために、イベント記述子のオブジェクトが作成される場合がある。

すなわち、ユーザーが発声するコマンド、家庭内で再生されている楽曲、家庭内で視聴されている番組、表示またはレンダリングされている映画またはその他のメディア・アイテム、現在レンダリングされているメディア・アイテムの進捗比率の情報を特定または表すために、イベント記述子のオブジェクトが作成される場合がある。

こうした情報は、サウンド、音声、および／または音楽の認識技術によって特定できる。例えば、音声認識技術を使用して、ユーザーの話し言葉をテキストに変換し、これを解析し、特定のコマンドまたは命令を特定することができる。音楽認識技術では、楽曲を既知のデータベースと比較し、楽曲を特定し、可能であれば楽曲に関する演奏者や他のデータも特定する。類似の技術を使用して、音声をテレビのショー、ポッドキャスト、映画などの他の既知のメディアのデータベースに対して比較する。再生されている特定のメディア・アイテムを特定する以外に、アプリケーション・エンジンは現在再生されているメディア・アイテム内の特定ポイントを特定またはモニタリングする場合がある。

上記のように、音声はインタフェース・デバイス１１６内で処理され、このアプリケーション・エンジンは、イベント、メディアなどの高レベルの通知を受信しうる。しかし、アプリケーション・エンジン１１８が受信するオーディオ・ベース情報２１０には、生のオーディオ・ストリームを含む場合があり、これはアプリケーション・エンジン１１８が処理して、イベント記述子を導き出す場合がある。従って、アプリケーション・エンジンは、様々なタイプの音声やメディアを認識するために音声テキスト変換ロジックなどの音声認識ロジック２１２、およびその他の音声認識機能を含む場合がある。

説明した実施形態では、アプリケーション・エンジン１１８は、アプリケーション・インタフェース２１４（アプリケーション・プログラミング・インタフェースまたはＡＰＩともいう）をクラウド・ベースのアプリケーション１２０に公開する。ＡＰＩ２１４は、アプリケーション・エンジン１１８が作成したイベント記述子を、アプリケーション１２０が入手できるようにする。適切な許可を得て、アプリケーション１２０はＡＰＩ２１４を介してアプリケーション・エンジン１１８に家庭１０２内のイベントと条件についてイベント記述子と通知２１６を入手し、受信するために照会することができる。特定の家庭または場所についての情報を受信するためのアプリケーション１２０の認証は、通常、当該家庭に関連するユーザーによって与えられ、ユーザーが認証したアプリケーションに限り、家庭内の情報にアクセスできる。

アプリケーション１２０は、イベント通知２１６からの情報を使用し、家庭１０２に関連付けられているユーザーのためにサービス２１８を開始またはカスタマイズできる。こうしたサービスは、家庭内にあるメディア・デバイス１０６、およびコンピュータ１０８、パーソナル・デバイス１１０、およびユーザーが利用可能な他のデバイスを含む他のアプリケーション・デバイス２２０によって提供されてもよい。上記のように、サービス２１８は、適切なハードウェアと共にウェブまたはインターネット・ブラウザを通してアクセス可能なウェブ・ベースのサービスとして提供されてもよい。サービスは、電話システム、メディア・プレーヤー、オートメーション・システム、およびデバイスなどを含む他のタイプのシステムと共に提供されてもよい。アプリケーション１２０と関連するサービス２１８の例については、以下で説明する。

アプリケーション・エンジン１１８のＡＰＩ２１４は、インタフェース・デバイス１１６への最終的な送信のためにスピーカ２０６で再生する音声２２２をアプリケーション１２０が提供できるようにする。この音声はテキスト形式でもよく、音声合成やテキスト音声変換はアプリケーション・エンジン１１８またはインタフェース・デバイス１１６の動作ロジック１０８によって行われてもよい。図２では、アプリケーション・エンジン１１８は音声合成モジュール２２４を持つものとして図示されている。または、音声２２２は、アプリケーション１２０からデジタルオーディオ・ストリームとして提供されてもよい。

図２の構成要素間の様々なネットワーク通信は、既存のネットワーク・プロトコルと技術を用いて行ってもよい。イベント記述子２１６は、既存のデータベース技術の使用など様々な方法で実装可能であり、データベース照会プロトコルや他のプロトコルを用いて通信してもよい。さらに、実装形態によっては、様々なプッシュ技術を使用して、特定された記述子２１６をアプリケーション１２０にアクティブに送信する場合がある。音声およびオーディオ・ベースの情報は、ファイル、オーディオ・ストリーム、データ・オブジェクト、通知、テキスト・ストリームなどとしてフォーマットできる。

図３は、本明細書で説明する実施形態に従って行われるアクションを示している。アクション３０２には、オーディオ・ベースの情報を家庭、オフィス、自動車など一人以上のユーザーに関連する場所から受信することを含む。オーディオ・ベースの情報は、オーディオ・ストリームまたはオーディオ・ストリームから派生したデータを含む。音声は、家庭内またはオン・プレミスのインタフェース、クラウド・ベースのサービスまたはアプリケーション・エンジン、他のクラウド・ベースのサービスおよびアプリケーション、またはこうしたエンティティを組み合わせたものによって受信されてもよい。

ステップ３０４では、オーディオ・ベースの情報を処理して、ユーザー・サイト内の現在のユーザー固有のアクティビティ、イベント、ステータス、環境、コマンド、およびメディアを特定するデータ構造を作る。データ構造には、データベースのレコードまたはその他のデータ・オブジェクトを含んでもよい。処理３０４には、音声認識、音声テキスト変換、音楽認識、および他のタイプの音声認識を含んでもよく、テキスト・ベースまたはコード・ベースの通知またはコマンドが結果として得られる。

ステップ３０６では、特定されたイベント、コマンドなどがユーザーによって認証されたアプリケーションにレポートされる。イベントとコマンドは、プッシュ・モデルまたはプル・モデルのいずれかを使用して、データベース通信プロトコルまたはその他のプロトコルを用いてレポートされてもよい。

３０８では、アプリケーションはレポートされたイベントとコマンドの通知を受信する。３１０では、アプリケーションは通知に基づきそのサービスを提供および／または拡張する。例えば、アプリケーションは受信したコマンドに反応して動作する、またはユーザー・サイト内で検知された環境に関連するユーザーにある種の情報を提供する場合がある。

サービスの例
上記のアーキテクチャを利用して、幅広いサービスおよび機能を提供可能であり、以下にその簡単な例を示す。

クラウド・ベースのアプリケーションは、ユーザーからの口頭のコマンドを受信し、こうしたコマンドに基づきオペレーションを行うように構成される場合がある。例えば、ユーザーは食料品の注文を口頭ですると、この口頭による注文は上記で説明した音声認識機能を用いて解釈されてもよい。解釈が終了すると、配達のために食料品店に送信されるか、または単にユーザーが食料品店で買い物時にスマートフォンで見ることができる買い物リストとして記録される。こうしたアプリケーションでは、好みの配送スケジュール、一人前の量の履歴など各注文に対して個別化された設定を適用してもよい。

同様にクラウド・ベースのアプリケーションによって、ユーザーはコンピュータを必要とせずにチケットを注文できる。ユーザーは自分が観たい映画をアプリケーションに口頭で伝える。アプリケーションは、そのユーザーについて事前設定された情報（場所など）を使用して、どの映画館がユーザーから近いかを判断する。アプリケーションは、口頭のコマンドに反応し、映画の選択と時間についてユーザーに照会するためにシステムの音声合成機能を使用して、映画のチケットを注文する。

アプリケーションは、ユーザー環境からの周囲のノイズをモニターし、どのメディア（音楽、映画、テレビなど）が現在レンダリングされているかを判断する。メディアが特定されると、アプリケーションは、ユーザーのスマートフォンまたはコンピュータ上で拡張アプリケーションをトリガーし、これにより豊富なメタデータ、おすすめ、リンク、ユーザー・コミュニティ、特定の同じ興味を持つ人々の集まり、掲示板などへの即時のアクセスを提供する。

類似タイプのアプリケーションで、ユーザーが現在聴いている楽曲を特定し、それに対して関連記事の情報、サンプルの提供、関連する音楽やプレイリストの提案、または各楽曲トラックをユーザーが購入できるように現在の情報を提供する場合がある。

アプリケーションは、ユーザーが発した質問に対応して一般情報を提供してもよい。ユーザーは、例えば、「デビルドエッグ（卵料理）のレシピを教えて」などの質問をする場合がある。アプリケーションは、電子メールで対応するか、またはデビルドエッグのレシピを提供する。場合によっては、アプリケーションは、システムの音声合成機能を使用して、発せられた質問に対して音声で回答してもよい。

同様に、ユーザーはある場所についての行き方を尋ねるかもしれない。アプリケーションは、地図、テキストでの道案内、およびコンピュータで導かれる経路を、ユーザーのパーソナル通信デバイスを介してユーザーに送信する、またはユーザーのナビゲーション・デバイスに必要としている場所についての情報を送信してもよい。

他の例として、こうしたアプリケーションではユーザーが、航空便やその他のイベントについて照会できるようにする。システムは、そのユーザーに関連するデバイスを介して情報を送信する、または音声合成を用いて音声で応答することで対応することがある。

アプリケーションは、ユーザーがメディア機器やホーム・オートメーション・デバイスなど様々なオン・プレミスのデバイスと機器を制御できるようにすることがある。例えば、こうしたアプリケーションは、オン・プレミスのデバイスについてユーザーが発する音声コマンドを受け入れ、利用可能なネットワーク接続を介してこうしたデバイスとインタラクションすることで対応する。

サーバーの例
図４は、アプリケーション・エンジン１１８および／またはアプリケーション１２０のいずれかの機能を実装するために使用しうるサーバー４００の関連する構成要素を示している。一般的に、こうしたエンティティは、上記で説明した様々な機能が異なる複数のサーバーにわたって様々な方法で分散した状態で、１つ以上のサーバーで実装されてもよい。サーバーは、同じ場所または別々の場所にあってもよいし、仮想サーバー、サーバーのバンク、および／またはサーバー・ファームとして編成されてもよい。説明した機能は、単独のエンティティまたはエンタープライズのサーバーによって提供されてもよいし、複数のエンティティまたはエンタープライズのサーバーおよび／またはサービスを利用してもよい。

非常に基本的な構成として、サーバー４００の例では、１つ以上のプロセッサから成る処理装置４０２およびメモリ４０４を含む場合がある。サーバー４００の構成によっては、メモリ４０４は、コンピュータ記憶装置媒体の一種であり、揮発性および不揮発性のメモリを含むことがある。従って、メモリ４０４には、これに制限されるものではないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュ・メモリ、またはその他のメモリ技術を含むことがある。

メモリ４０４は、処理装置４０２で実行可能な機能構成要素をいくつでも保存するように使用してもよい。多くの実施形態では、こうした機能構成要素は、処理装置４０２で実行可能な命令またはプログラムを含み、実行されるとコンテンツ・サービス１０８と取込みサービス１１０に対して上記の命令やプログラムのアクションを行うための動作ロジックを実装する。さらに、メモリ４０４は実行可能なプログラムによって参照される様々なタイプのデータを保存することがあり、電子リーダー１０４などの消費デバイスに提供されるコンテンツ・アイテムを含む。

メモリ４０４に保存される機能構成要素には、オペレーティング・システム４０６とデータベース４０８を含み、サーバー４００が提供する機能に関連する様々なアイテムを保存することがある。サーバー４００の機能構成要素は、コンピュータ、メディア消費デバイスなどのリモート・デバイスとインタラクションするウェブ・サービス・コンポーネント４１０を含む場合がある。

メモリ４０４は、１つ以上のＡＰＩ４１２を実装する命令を有する場合があり、ＡＰＩ４１２は、説明したようにアプリケーション１２０とインタフェースをとるように構成された図２を参照して説明したＡＰＩ２１４を含む場合がある。このメモリは、音声認識モジュール４１４と音声合成モジュール４１６を含む場合があり、上記で説明したような機能を提供する。

サーバー４００は、もちろん、図４に示されていない他の多くのロジック的、プログラム的、または物理的構成要素も含む場合がある。

結論
上記で説明した様々な技術は、提示される例において、プログラム・モジュールなど１台以上のコンピュータまたはその他のデバイスで実行される一般的な状況でのコンピュータで実行可能な命令やソフトウェアにおいて実装されることを想定している。一般的に、プログラム・モジュールは、特定のタスクの遂行するためのルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含み、または、特定の抽象データ型を実装する。

他のアーキテクチャを使用して、説明した機能を実装してもよく、これは本開示の範囲内であることを意図している。さらに、特定の責任の分担が説明の都合上定義されたが、特定の状況に応じて様々な機能や責任を様々な方法で分担および分割する場合がある。

同様に、ソフトウェアは様々な方法で様々な手段を使用して保存し、分散してもよく、上記で説明した特定のソフトウェアの保存と実行の構成は、多くの異なる方法で変更されてもよい。従って、上記の技術を実装するソフトウェアは、具体的に説明したメモリの形式に制限されることなく、様々なタイプのコンピュータで読み取り可能な媒体に分散されてもよい。

発明の主題は、構造的機能および／または手順上の行為に特有な言語で説明されたが、添付の請求項で定義される発明の主題は、必ずしも説明した機能や行為に限定されるものではないことを理解されたい。むしろ、特有の機能や行為は請求項を実装する例示的な形式として開示されている。例えば、手順上の行為は本明細書で説明した順序や組み合わせで行う必要はなく、１つ以上の行為の組み合わせで行ってよい。

条項
１．１つ以上のネットワーク・インタフェースと、
各ユーザーにそれぞれ関連付けられている複数のユーザー・サイトから１つ以上のネットワーク・インタフェースを介してオーディオ・ベースの情報を受信するためのオン・プレミスのオーディオ・モニタリング・デバイスによってアクセス可能なクラウド・ベースのサービスと、を含むシステムであって、
前記クラウド・ベースのサービスは、少なくとも一部をオーディオ・ベースの情報に基づいて、ユーザーにサービスを提供する複数のクラウド・ベースのアプリケーションに、１つ以上のアプリケーション・インタフェースを公開する。
２．前記オーディオ・ベースの情報はオーディオ・ストリームを含む条項１に記載のシステム。
３．前記オーディオ・ベースの情報は、ユーザーが発した声に由来するユーザー・コマンドを含む条項１に記載のシステム。
４．前記オーディオ・ベースの情報は、少なくとも一部はオン・プレミスのオーディオに由来する環境情報を含む条項１に記載のシステム。
５．前記１つ以上のアプリケーション・インタフェースは、少なくとも一部は前記オーディオ・ベースの情報に基づき、現在のユーザー固有のアクティビティに関する情報を提供する条項１に記載のシステム。
６．前記１つ以上のアプリケーション・インタフェースは、少なくとも一部は前記オーディオ・ベースの情報に基づき、現在のユーザーのメディア消費についての情報を提供する条項１に記載のシステム。
７．前記１つ以上のアプリケーション・インタフェースは、少なくとも一部は前記オーディオ・ベースの情報に基づき、現在のユーザーのビデオ消費についての情報を提供する条項１に記載のシステム。
８．前記１つ以上のアプリケーション・インタフェースは、少なくとも一部は前記オーディオ・ベースの情報に基づき、現在のユーザーのオーディオ消費についての情報を提供する条項１に記載のシステム。
９．前記クラウド・ベースのサービスは、少なくとも一部は前記クラウド・ベースのアプリケーションに応答して、前記１つ以上のアプリケーション・インタフェースを介して、オーディオを提供するために前記オン・プレミスのオーディオ・モニタリング・デバイスに応答する条項１に記載のシステム。
１０．実行可能な命令で構成された１台以上のコンピューティング・システムの制御下の方法であって、
複数ユーザーのサイトにあるオン・プレミスのオーディオ・モニタリング・デバイスからオーディオ・ベースの情報を受信するステップと、
前記オーディオ・ベースの情報を処理して、現在のユーザー固有の情報を判定するために処理するステップと、
少なくとも一部は前記ユーザー固有の情報に基づき、前記ユーザーにサービスを提供する複数のネットワーク・ベースのアプリケーションに、前記現在のユーザー固有の情報をレポートするステップと、を含む方法。
１１．前記オーディオ・ベースの情報は、それぞれのユーザー・サイト内の前記複数ユーザーから継続的に受信されるオーディオ・ストリームを含む条項１０に記載の方法。
１２．前記オーディオ・ベースの情報は、オーディオ・ストリームを含み、前記方法は前記現在のユーザー固有の情報を特定するために前記オーディオ・ストリームを処理するステップをさらに含む条項１０に記載の方法。
１３．前記オーディオ・ベースの情報は、オーディオ・ストリームを含み、前記方法は現在のユーザーのメディア消費を特定するために前記オーディオ・ストリームを処理するステップをさらに含む条項１０に記載の方法。
１４．前記オーディオ・ベースの情報は、オーディオ・ストリームを含み、前記方法はユーザーのコマンドを特定するために前記オーディオ・ストリームの音声認識を行うステップをさらに含む条項１０に記載の方法。
１５．前記オーディオ・ベースの情報は、現在のユーザーのメディア消費を指定する条項１０に記載の方法。
１６．少なくとも一部はネットワーク・ベースのアプリケーションに応答して前記オン・プレミスのオーディオ・モニタリング・デバイスにオーディオを提供するステップをさらに含む条項１０に記載の方法。
１７．ネットワーク・ベースのシステムであって、
１つ以上のプロセッサと、
以下のアクションを行うために前記１つ以上のプロセッサで実行可能な命令を含むメモリと、を含むネットワーク・ベースのシステムであって、
前記アクションは、
複数のユーザー・サイトの現在の複数ユーザーの現在のアクティビティに関して、ネットワーク・ベースのサービスから、少なくとも一部は前記ユーザー・サイト内からのオーディオ・モニタリングに基づく情報を受信するステップと、
ネットワーク・ベースのサービスを、少なくとも一部は各ユーザー・サイトの前記アクティビティに関する前記受信情報に基づき、前記ユーザーに提供するステップと、を含む。
１８．前記受信情報は各ユーザーの現在のメディア消費を示す条項１７に記載のシステム。
１９．条項１７のシステムであって、
前記受信情報は、各ユーザーの現在のメディア消費を示し、
前記ネットワーク・ベースのサービスは、前記現在のメディア消費を補足する条項１７に記載のシステム。
２０．条項１７に記載のシステムであって、
前記受信情報は、各ユーザーが口頭で発したコマンドを示し、
前記ネットワーク・ベースのサービスは、前記口頭で発したコマンドに応答して機能する条項１７に記載のシステム。
２１．近くのユーザーおよび近くのメディア・デバイスからオーディオを受信するように構成されたマイクロフォンと、
ネットワーク・ベースのアプリケーション・サービスと通信するように構成されたネットワーク・インタフェースと、を含む家庭内のインタフェース・デバイスであって
前記家庭内のインタフェース・デバイスは、継続的に環境情報を１つ以上のネットワーク・ベースのアプリケーションに前記ネットワーク・インタフェースと前記ネットワーク・ベースのアプリケーション・サービスを介して送信するように構成され、前記環境情報は少なくとも一部を前記受信したオーディオに基づく、家庭内のインタフェース・デバイス。
２２．前記環境情報はオーディオ・ストリームを含む条項２１に記載のデバイス。
２３．音声認識装置をさらに含み、前記環境情報は、少なくとも一部は前記音声認識装置を用いてユーザーが発する声から得た通知を含む条項２１に記載のデバイス。
２４．さらに、音声認識装置を含み、前記環境情報はメディアの特定を含む条項２１に記載のデバイス。

Claims

１つ以上のネットワーク・インタフェースと、
前記１つ以上のネットワーク・インタフェースを介して各ユーザーに関連付けられている複数のユーザー・サイトからオーディオ・ベースの情報を受信するためにオン・プレミスのオーディオ・モニタリング・デバイスによってアクセス可能なクラウド・ベースのサービスと、を含むシステムであって、
前記クラウド・ベースのサービスは、少なくとも一部を前記オーディオ・ベースの情報に基づき、前記ユーザーにサービスを提供する複数のクラウド・ベースのアプリケーションに、１つ以上のアプリケーション・インタフェースを、公開する
システム。
前記オーディオ・ベースの情報は、オーディオ・ストリーム、ユーザーが口頭で発したユーザー・コマンド、または少なくとも一部はオン・プレミスのオーディオから得た環境情報のうち１つ以上を含む請求項１に記載のシステム。
前記１つ以上のアプリケーション・インタフェースは、少なくとも一部を前記オーディオ・ベースの情報に基づき、現在のユーザー固有のアクティビティに関する情報を提供する請求項１に記載のシステム。
前記１つ以上のアプリケーション・インタフェースは、少なくとも一部を前記オーディオ・ベースの情報に基づき、現在のユーザーのメディア消費に関する情報を提供する請求項１に記載のシステム。
前記クラウド・ベースのサービスは、少なくとも一部は前記クラウド・ベースのアプリケーションに応答して、前記１つ以上のアプリケーション・インタフェースを介してオーディオを提供するために前記オン・プレミスのオーディオ・モニタリング・デバイスに応答する請求項１に記載のシステム。
実行可能な命令で構成された１台以上のコンピューティング・システムの制御下の方法であって、
複数ユーザーのサイトにあるオン・プレミスのオーディオ・モニタリング・デバイスからオーディオ・ベースの情報を受信するステップと、
現在のユーザー固有の情報を判定するためにオーディオ・ベースの情報を処理するステップと、
前記現在のユーザー固有の情報を、少なくとも一部は前記ユーザー固有の情報に基づき、前記ユーザーにサービスを提供する１つ以上のネットワーク・ベースのアプリケーションにレポートするステップと、を含む方法。
前記オーディオ・ベースの情報は、各ユーザー・サイト内の前記複数ユーザーから継続的に受信されるオーディオ・ストリームを含む請求項６に記載の方法。
前記オーディオ・ベースの情報は、オーディオ・ストリームを含み、前記方法は前記現在のユーザー固有の情報または現在のユーザーのメディア消費のうち１つ以上を特定するために前記オーディオ・ストリームを処理するステップをさらに含む請求項６に記載の方法。
前記オーディオ・ベースの情報は、オーディオ・ストリームを含み、前記方法はさらにユーザーのコマンドを特定するために前記オーディオ・ストリームで音声認識を行うステップを含む請求項６に記載の方法。
少なくとも一部は前記ネットワーク・ベースのアプリケーションに応答して、オーディオを前記オン・プレミスのオーディオ・モニタリング・デバイスに提供するステップをさらに含む請求項６に記載の方法。
近くのユーザーおよび近くのメディア・デバイスからオーディオを受信するように構成されたマイクロフォンと、
ネットワーク・ベースのアプリケーション・サービスと通信するように構成されたネットワーク・インタフェースと、を含む家庭内のインタフェース・デバイスであって
前記家庭内のインタフェース・デバイスは、継続的に環境情報を１つ以上のネットワーク・ベースのアプリケーションに前記ネットワーク・インタフェースと前記ネットワーク・ベースのアプリケーション・サービスを介して送信するように構成され、前記環境情報は、少なくとも一部を前記受信したオーディオに基づく
家庭内のインタフェース・デバイス。
前記環境情報はオーディオ・ストリームを含む請求項１１に記載のデバイス。
音声認識装置をさらに含み、前記環境情報は少なくとも一部は、前記音声認識装置を用いてユーザーが発する声から得た通知を含む請求項１１に記載のデバイス。