JP2014507030A - オーディオ・ベースのアプリケーション・アーキテクチャ - Google Patents

オーディオ・ベースのアプリケーション・アーキテクチャ Download PDF

Info

Publication number
JP2014507030A
JP2014507030A JP2013551329A JP2013551329A JP2014507030A JP 2014507030 A JP2014507030 A JP 2014507030A JP 2013551329 A JP2013551329 A JP 2013551329A JP 2013551329 A JP2013551329 A JP 2013551329A JP 2014507030 A JP2014507030 A JP 2014507030A
Authority
JP
Japan
Prior art keywords
audio
user
information
application
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013551329A
Other languages
English (en)
Inventor
ウィリアムズ ハンター
ディー.カール ウィリアム
ジェーンズ キャメロン
ジェイ.ワッツ アンドリュー
エイチ.ウッド ジェイムズ
ジェイ.ガスパー ケヴィン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amazon Technologies Inc
Original Assignee
Amazon Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amazon Technologies Inc filed Critical Amazon Technologies Inc
Publication of JP2014507030A publication Critical patent/JP2014507030A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/613Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for the control of the source by the destination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Abstract

ユーザー・サイト内に配置される1つ以上のオーディオ・インタフェースを含むアプリケーション・アーキテクチャ。クラウド・ベースのアプリケーション・エンジンが、インタフェースからオーディオ情報を受信し、ユーザー・サイト内のオーディオに基づきクラウド・ベースのアプリケーションに情報を提供する。他のアプリケーションでは、情報を利用して、ユーザーに対してサービスを提供または拡張する。

Description

本発明はオーディオ・ベースのアプリケーション・アーキテクチャに関し、より詳細にはユーザー・サイト内に配置される1つ以上のオーディオ・インタフェースを含むアプリケーション・アーキテクチャに関する。
本出願は2011年1月28日に出願された「オーディオ・ベースのアプリケーション・アーキテクチャ」という名称の米国特許出願番号13/016,009の優先権を主張するものであり、その全体が参照により本明細書に組み込まれる。
家庭や他のユーザー・サイトでは、常時接続のインターネットや「クラウド」接続が増加し続けている。多くの場合、モバイル・ユーザーでさえ、常時またはほぼ常時のデータ接続を使用している。こうしたネットワーク通信が一般的に利用可能になったことで、ユーザーにアクセス可能な様々な接続デバイスを使用したサービスやその他の機能に対する多くの新しい可能性を生み出してきた。
詳細な説明は、添付の図面を参照して行う。こうした図では、参照番号の最も左側の桁が、当該参照番号が最初に現れる図を特定している。同じ参照番号を異なる図で用いることで、類似または同一のアイテムを示している。
アプリケーションがアプリケーション・エンジンを利用し、ユーザー・サイトからの音声に応答し、様々なサービスをユーザーに提供しうる本発明の操作環境を示すブロック図である。 図1のシステムに関する詳細を追加で示すブロック図である。 図1および図2の環境内で実装可能なプロセス例を示す流れ図である。 本明細書に記載する多くの技術を実装可能なサーバーのコンポーネントを示すブロック図である。
本明細書では、家庭またはその他の場所に既に存在する音声情報を利用するためのシステムと技術について説明する。こうした音声情報を収集するために、ネットワークで使用可能なマイクロフォンを家庭内またはユーザー・サイト内の様々なアクティビティの中心に配置できる。マイクロフォンは、無線ネットワーク機能を持つ小型の自蔵式ユニットに組み込まれ、オーディオ・ベースの情報をクラウド・ベースのアプリケーション・エンジンまたはサービスに送信するように構成されてもよい。クラウド・ベースのアプリケーション・エンジンは、オーディオ・ベースの情報を監視し、そうした情報を処理して家庭内の現在のアクティビティに関するイベント、ステータス、またはその他の情報を特定してもよい。アプリケーション・エンジンは、家庭内でユーザーが口頭で発するコマンドを特定してもよい。
説明した実施形態では、アプリケーション・エンジンは、他のクラウド・ベースのエンティティがアクセスできるアプリケーション・インタフェースを公開する。このアプリケーション・インタフェースは、他のエンティティが家庭内のアクティビティ、ステータス、コマンドなどに関するデータを受信できるようにする。ユーザーが認証するエンティティに限り、こうした情報にアクセスできるように認証および許可のセーフガードが採用される。
認証されたクラウド・ベースのアプリケーションは、アプリケーション・エンジンのサービスを利用してユーザーに対する自己のサービスを拡張してもよい。例えば、クラウド・ベースのアプリケーションは、アプリケーション・エンジンと通信し、ユーザーが口頭で発するコマンドの通知を受信し、こうしたコマンドに対応しうる。より具体的な例としては、ユーザーが「今晩のランボーの映画チケットを購入」などのコマンドを口頭で発する場合がある。アプリケーション・エンジンがこの音声を受信するとテキスト・ストリームに変換し、ユーザーのために映画チケットを購入するアプリケーションに提供し、このアプリケーションは、一定のオーディオ・ベースのコマンドを受信するエンジンに反応して使用することを認証したユーザーが以前提供した支払情報を使用してチケット購入を行う。アプリケーションは、テキスト・コマンドの受信に応答して、リクエストされた映画チケットを購入し、ユーザーのコンピュータやスマートフォンなど、ユーザーに関連するデバイスにチケットを電子的に送信してもよい。
システム・アーキテクチャの例
図1は、上記の技術を実施しうる環境100を示している。こうした環境には、家庭またはその他のユーザー・サイト102が含まれる。ユーザー・サイトには、家庭、オフィス、自動車、およびその他の空間が含まれる。図1には、単独の家庭102が示されているが、ほとんどの実装形態では、複数のサイトとユーザーが含まれるであろう。
家庭102の中には、ユーザー104とユーザー104に関連するいくつかのデバイスがある。図示されたデバイスには、テレビ、音声・プレーヤー、ビデオ・プレーヤーなどの様々なタイプの1つ以上のデバイスを表すメディア・デバイス106が含まれる。図示されたデバイスには、ノートブック・コンピュータ、デスクトップ・コンピュータ、タブレット・コンピュータ、ネットブック、その他のネットワークで使用可能なデバイスなどの様々なタイプの1つ以上のデバイスを表すコンピュータ108も含まれる。パーソナル・コンピュータ・デバイス110は、スマートフォン、ポケットベル、パーソナル・デジタル・アシスタント(PDA)、ブックリーダー・デバイス、または様々なタイプの電子通信デバイスを含むその他のタイプのポータブル・デバイスなどのユーザーと関連付けられることもある。
家庭102に示されているデバイスは、ユーザー・サイトまたはユーザーに関連して存在しうる幅広い様々なデバイスの単なる例であることに注意されたい。こうしたデバイスの多くは、何等かのタイプのネットワーク接続を持ちうる。この場合、家庭内のデバイスは、ルーターまたはアクセス・ポイント112に接続し、これは公衆回線114に接続する。家庭内デバイスとルーター112の間の接続は、有線または無線のいずれかの技術を介して行ってもよい。
家庭102内のデバイスは、家庭内ルーター112を介してネットワーク114に接続するように図示されているが、ネットワーク接続は他の様々な方法で実装してよい。例えば、家庭内デバイスの中には、携帯データ技術、または家庭内ルーターやアクセス・ポイントを伴わない他のタイプの有線および無線の技術を介してネットワーク114と通信するものがある。従って、図1の特定の構成は、ネットワーク接続を実現しうる1つの方法を単に示しているだけである。
ネットワーク114は、いわゆる「クラウド」を表しており、多くのネットワーク・ベースのエンティティ、サーバー、クライアント、アプリケーション、およびサービスを含むことがある。ネットワーク114の中のブロックは、本説明に関連するクラウド・ベースのアプリケーションおよび/またはサービスを表している。
ネットワーク114は、機能上の目的では統合ネットワークのように見えるように、様々な方法で相互接続された様々な個々のネットワークやシステムの集まりである場合がある。従ってネットワーク114には、ローカルエリア・ネットワーク(LAN)、広域ネットワーク(WAN)、インターネット、無線ネットワーク、ケーブルテレビ・ネットワーク、電話通信網、セルラー通信網などの様々なタイプの通信ネットワークが含まれる。ここで説明する技術は、局所的および/またはプライベートのネットワークを含む小規模のネットワークでも実施できる。
ユーザーの家庭102は、1つ以上のオン・プレミスのオーディオ・モニタリング・デバイス116(ここでは家庭内の音声インタフェース・デバイスという)が装備されている場合がある。音声インタフェース・デバイス116は、実施形態によっては、マイクロフォンおよびネットワーク・インタフェースを有するデバイスを含む場合がある。ある実施形態では、インタフェース・デバイスは、スピーカや他の形式の音声出力を有する場合がある。
インタフェース・デバイス116は、家庭102内の様々な場所に邪魔にならないようにいくつかのデバイスを配置できるように比較的小型なものでもよい。例として、このインタフェース・デバイスは、ホッケーのパックのような小型の円筒状の容器に入れて実装されてもよい。
各インタフェース・デバイス116は、動作電力を受け入れるために電力接続してもよい。説明した実施形態では、他の接続は不要である。しかし、実施形態によっては、外部ソースから音声が1つ以上の音声インタフェース・デバイス116に提供される場合があり、このためにコネクタ、レセプタクル、またはポートがインタフェース・デバイス116で利用できる場合がある。
音声インタフェース・デバイス116は、マイクロフォンが家庭102内の周囲の音やノイズを検知するように家庭102内に配置できる。メディア・デバイスが生成した音声を音声インタフェース・デバイス116が検知し、クリアに受信するように、家庭102内のメディア・デバイス106などのメディア・デバイスのそばに音声インタフェース・デバイスを配置することは、多くの場合、有用であろう。また、ユーザーの声をクリアに受信できるように、インタフェース・デバイスをキッチン内、デスク上などアクティビティの中心の近くに配置することも有用であろう。
図1の実施形態では、インタフェース・デバイス116は、クラウド・ベースのアプリケーション・サービスまたはエンジン118とルーター112およびネットワーク114を介して通信し、環境情報を送信する。上記のように、こうしたクラウド・ベースの通信は、多くの方法で実装可能であり、図1のような特定のルーター・ベースの構成に限定されるものではない。例として、インタフェース・デバイスはセルラー方式またはその他の無線データ通信技術を使用して、アプリケーション・エンジン118と通信する場合がある。
図1は、アプリケーション・エンジン118とインタラクションし、家庭内の音声インタフェース・デバイス116から入手した、またはそこから発生した情報に基づき、そのサービスの少なくとも一部を行う複数のクラウド・ベースのアプリケーションまたはサービス120も示している。アプリケーション120は、ネットワーク・ブラウザを介してユーザーにアクセス可能で、コンピュータ108または他のインターネット端末またはアクセス・デバイスと共に機能するウェブ・ベースのアプリケーションであってもよい。こうしたアプリケーションにアクセスするために、様々なモバイル・デバイスと通信デバイスも使用できる。アプリケーション120の中には、コンピュータ108やパーソナル・デバイス110などのローカル・デバイス上で実行するプログラムのためのリソースとしての役割を果たすものがある。こうしたローカル・プログラムは、クラウド・ベースのアプリケーション120と共に機能し、電子メール・サービスからゲームまで、様々なサービスや機能を提供する。アプリケーション120などのクラウド・ベースまたはネットワーク・ベースのアプリケーションは、エンターテイメント・デバイス、ゲーム・ボックス、メディア・デバイス、ホーム・オートメーションとセキュリティ・デバイス、通信デバイスなどのネットワーク接続された幅広いタイプのデバイスと共に機能してもよい。
稼働中、アプリケーション・エンジン118は、オーディオ・ベースの情報をインタフェース・デバイス116から受信する。オーディオ・ベースの情報には、オーディオ・ストリーム、発声によるユーザーのコマンドまたは通知、オン・プレミスのオーディオから発生する環境情報などが含まれる。アプリケーション・エンジン118は、オーディオ・ベースの情報を処理して、ユーザーのアクティビティ、ステータス、環境、コマンドなどについての様々なデータを判断する。次に、こうしたデータは、認証されたアプリケーション120によって取得され、アプリケーション120は、こうした情報に反応し、ユーザー104へサービスを提供、またはサービスを拡張する。
図2は、説明したデバイスとサービスの間のインタラクションに関する詳細を追加で表している。上記のように、1つ以上の家庭内の音声インタフェース・デバイス116を家庭102内に配置してもよい。個々のインタフェース・デバイス116は、周囲のノイズ、サウンド、声を検知するように構成されたマイクロフォン202を含む場合がある。インタフェース・デバイス102は、アプリケーション・エンジン118および1つ以上のアプリケーション120を含む様々なエンティティとのネットワーク114を介したネットワーク通信を容易にするネットワーク・インタフェース204を含む場合がある。インタフェース・デバイスは、スピーカ206と動作ロジック208を含む場合がある。動作ロジック208は、1つ以上のプログラマブル処理装置、関連するメモリ、およびメモリに保存されて処理装置によって実行される適切な命令、として実装される場合がある。ここで説明した機能を行うためにインタフェース・デバイス116を構成する目的で他のタイプのロジックを使用することもできる。
ある実施形態では、インタフェース・デバイス116のマイクロフォン202によって検知された周囲の音声に基づき、インタフェース・デバイス116はオーディオ・ベースの情報210をアプリケーション・エンジン118に送信するように構成される。オーディオ・ベースの情報210は、継続的なオーディオ・ストリームを含む、またはアクティビティの様々な期間に対応する個別のオーディオ・ストリーム、または家庭102内とインタフェース・デバイス116の近くのノイズを含む場合がある。例えば、オーディオ・ストリームは、周囲のノイズ・レベルが最低閾値を超えると送信される場合がある。
他の実施形態では、インタフェース・デバイス116はマイクロフォン202からの音声を事前処理し、より高レベルのオーディオ・ベースの情報をアプリケーション・エンジン118に送信する場合がある。例えば、インタフェース・デバイス116の動作ロジック208は、周囲の音声について音声認識を行い、解釈されたコマンドやテキスト・ストリームをアプリケーション・エンジン118に送信する場合がある。他の例としては、動作ロジック208は、メディア・デバイス106のうちの1つで再生されている音楽を認識、特定し、現在再生されている音楽を示し、特定するデータをアプリケーション・エンジン118に送信するように構成される場合がある。ある実施形態では、インタフェース・デバイス116は、音楽データベースなどのオンラインまたはクラウド・ベースのサービスを利用し、その機能を行う場合がある。
個々のインタフェース・デバイス116は、ある種の初期化または登録手順を通してそれぞれのサイトに関連付けることができ、インタフェース・デバイスとの通信は、暗号技術を使用して許可することができる。
アプリケーション・エンジン118は、オーディオ・ベース情報210を受信するように構成される。受信された情報のタイプまたはフォーマットに応じてそれを処理して、アプリケーション・エンジン118はそれを処理して、家庭内のアクティビティに関連するイベント、ステータス、および/またはコマンドのデータを特定し、作成する。ある実施形態では、アプリケーション・エンジン118は、それぞれ個々のイベントまたは情報のアイテムをそれぞれ表すデータ・オブジェクトまたはイベント記述子のレコードを維持する場合がある。例として、以下のタイプの情報を特定または表すために、イベント記述子のオブジェクトが作成される場合がある。
すなわち、ユーザーが発声するコマンド、家庭内で再生されている楽曲、家庭内で視聴されている番組、表示またはレンダリングされている映画またはその他のメディア・アイテム、現在レンダリングされているメディア・アイテムの進捗比率の情報を特定または表すために、イベント記述子のオブジェクトが作成される場合がある。
こうした情報は、サウンド、音声、および/または音楽の認識技術によって特定できる。例えば、音声認識技術を使用して、ユーザーの話し言葉をテキストに変換し、これを解析し、特定のコマンドまたは命令を特定することができる。音楽認識技術では、楽曲を既知のデータベースと比較し、楽曲を特定し、可能であれば楽曲に関する演奏者や他のデータも特定する。類似の技術を使用して、音声をテレビのショー、ポッドキャスト、映画などの他の既知のメディアのデータベースに対して比較する。再生されている特定のメディア・アイテムを特定する以外に、アプリケーション・エンジンは現在再生されているメディア・アイテム内の特定ポイントを特定またはモニタリングする場合がある。
上記のように、音声はインタフェース・デバイス116内で処理され、このアプリケーション・エンジンは、イベント、メディアなどの高レベルの通知を受信しうる。しかし、アプリケーション・エンジン118が受信するオーディオ・ベース情報210には、生のオーディオ・ストリームを含む場合があり、これはアプリケーション・エンジン118が処理して、イベント記述子を導き出す場合がある。従って、アプリケーション・エンジンは、様々なタイプの音声やメディアを認識するために音声テキスト変換ロジックなどの音声認識ロジック212、およびその他の音声認識機能を含む場合がある。
説明した実施形態では、アプリケーション・エンジン118は、アプリケーション・インタフェース214(アプリケーション・プログラミング・インタフェースまたはAPIともいう)をクラウド・ベースのアプリケーション120に公開する。API214は、アプリケーション・エンジン118が作成したイベント記述子を、アプリケーション120が入手できるようにする。適切な許可を得て、アプリケーション120はAPI214を介してアプリケーション・エンジン118に家庭102内のイベントと条件についてイベント記述子と通知216を入手し、受信するために照会することができる。特定の家庭または場所についての情報を受信するためのアプリケーション120の認証は、通常、当該家庭に関連するユーザーによって与えられ、ユーザーが認証したアプリケーションに限り、家庭内の情報にアクセスできる。
アプリケーション120は、イベント通知216からの情報を使用し、家庭102に関連付けられているユーザーのためにサービス218を開始またはカスタマイズできる。こうしたサービスは、家庭内にあるメディア・デバイス106、およびコンピュータ108、パーソナル・デバイス110、およびユーザーが利用可能な他のデバイスを含む他のアプリケーション・デバイス220によって提供されてもよい。上記のように、サービス218は、適切なハードウェアと共にウェブまたはインターネット・ブラウザを通してアクセス可能なウェブ・ベースのサービスとして提供されてもよい。サービスは、電話システム、メディア・プレーヤー、オートメーション・システム、およびデバイスなどを含む他のタイプのシステムと共に提供されてもよい。アプリケーション120と関連するサービス218の例については、以下で説明する。
アプリケーション・エンジン118のAPI214は、インタフェース・デバイス116への最終的な送信のためにスピーカ206で再生する音声222をアプリケーション120が提供できるようにする。この音声はテキスト形式でもよく、音声合成やテキスト音声変換はアプリケーション・エンジン118またはインタフェース・デバイス116の動作ロジック108によって行われてもよい。図2では、アプリケーション・エンジン118は音声合成モジュール224を持つものとして図示されている。または、音声222は、アプリケーション120からデジタルオーディオ・ストリームとして提供されてもよい。
図2の構成要素間の様々なネットワーク通信は、既存のネットワーク・プロトコルと技術を用いて行ってもよい。イベント記述子216は、既存のデータベース技術の使用など様々な方法で実装可能であり、データベース照会プロトコルや他のプロトコルを用いて通信してもよい。さらに、実装形態によっては、様々なプッシュ技術を使用して、特定された記述子216をアプリケーション120にアクティブに送信する場合がある。音声およびオーディオ・ベースの情報は、ファイル、オーディオ・ストリーム、データ・オブジェクト、通知、テキスト・ストリームなどとしてフォーマットできる。
図3は、本明細書で説明する実施形態に従って行われるアクションを示している。アクション302には、オーディオ・ベースの情報を家庭、オフィス、自動車など一人以上のユーザーに関連する場所から受信することを含む。オーディオ・ベースの情報は、オーディオ・ストリームまたはオーディオ・ストリームから派生したデータを含む。音声は、家庭内またはオン・プレミスのインタフェース、クラウド・ベースのサービスまたはアプリケーション・エンジン、他のクラウド・ベースのサービスおよびアプリケーション、またはこうしたエンティティを組み合わせたものによって受信されてもよい。
ステップ304では、オーディオ・ベースの情報を処理して、ユーザー・サイト内の現在のユーザー固有のアクティビティ、イベント、ステータス、環境、コマンド、およびメディアを特定するデータ構造を作る。データ構造には、データベースのレコードまたはその他のデータ・オブジェクトを含んでもよい。処理304には、音声認識、音声テキスト変換、音楽認識、および他のタイプの音声認識を含んでもよく、テキスト・ベースまたはコード・ベースの通知またはコマンドが結果として得られる。
ステップ306では、特定されたイベント、コマンドなどがユーザーによって認証されたアプリケーションにレポートされる。イベントとコマンドは、プッシュ・モデルまたはプル・モデルのいずれかを使用して、データベース通信プロトコルまたはその他のプロトコルを用いてレポートされてもよい。
308では、アプリケーションはレポートされたイベントとコマンドの通知を受信する。310では、アプリケーションは通知に基づきそのサービスを提供および/または拡張する。例えば、アプリケーションは受信したコマンドに反応して動作する、またはユーザー・サイト内で検知された環境に関連するユーザーにある種の情報を提供する場合がある。
サービスの例
上記のアーキテクチャを利用して、幅広いサービスおよび機能を提供可能であり、以下にその簡単な例を示す。
クラウド・ベースのアプリケーションは、ユーザーからの口頭のコマンドを受信し、こうしたコマンドに基づきオペレーションを行うように構成される場合がある。例えば、ユーザーは食料品の注文を口頭ですると、この口頭による注文は上記で説明した音声認識機能を用いて解釈されてもよい。解釈が終了すると、配達のために食料品店に送信されるか、または単にユーザーが食料品店で買い物時にスマートフォンで見ることができる買い物リストとして記録される。こうしたアプリケーションでは、好みの配送スケジュール、一人前の量の履歴など各注文に対して個別化された設定を適用してもよい。
同様にクラウド・ベースのアプリケーションによって、ユーザーはコンピュータを必要とせずにチケットを注文できる。ユーザーは自分が観たい映画をアプリケーションに口頭で伝える。アプリケーションは、そのユーザーについて事前設定された情報(場所など)を使用して、どの映画館がユーザーから近いかを判断する。アプリケーションは、口頭のコマンドに反応し、映画の選択と時間についてユーザーに照会するためにシステムの音声合成機能を使用して、映画のチケットを注文する。
アプリケーションは、ユーザー環境からの周囲のノイズをモニターし、どのメディア(音楽、映画、テレビなど)が現在レンダリングされているかを判断する。メディアが特定されると、アプリケーションは、ユーザーのスマートフォンまたはコンピュータ上で拡張アプリケーションをトリガーし、これにより豊富なメタデータ、おすすめ、リンク、ユーザー・コミュニティ、特定の同じ興味を持つ人々の集まり、掲示板などへの即時のアクセスを提供する。
類似タイプのアプリケーションで、ユーザーが現在聴いている楽曲を特定し、それに対して関連記事の情報、サンプルの提供、関連する音楽やプレイリストの提案、または各楽曲トラックをユーザーが購入できるように現在の情報を提供する場合がある。
アプリケーションは、ユーザーが発した質問に対応して一般情報を提供してもよい。ユーザーは、例えば、「デビルドエッグ(卵料理)のレシピを教えて」などの質問をする場合がある。アプリケーションは、電子メールで対応するか、またはデビルドエッグのレシピを提供する。場合によっては、アプリケーションは、システムの音声合成機能を使用して、発せられた質問に対して音声で回答してもよい。
同様に、ユーザーはある場所についての行き方を尋ねるかもしれない。アプリケーションは、地図、テキストでの道案内、およびコンピュータで導かれる経路を、ユーザーのパーソナル通信デバイスを介してユーザーに送信する、またはユーザーのナビゲーション・デバイスに必要としている場所についての情報を送信してもよい。
他の例として、こうしたアプリケーションではユーザーが、航空便やその他のイベントについて照会できるようにする。システムは、そのユーザーに関連するデバイスを介して情報を送信する、または音声合成を用いて音声で応答することで対応することがある。
アプリケーションは、ユーザーがメディア機器やホーム・オートメーション・デバイスなど様々なオン・プレミスのデバイスと機器を制御できるようにすることがある。例えば、こうしたアプリケーションは、オン・プレミスのデバイスについてユーザーが発する音声コマンドを受け入れ、利用可能なネットワーク接続を介してこうしたデバイスとインタラクションすることで対応する。
サーバーの例
図4は、アプリケーション・エンジン118および/またはアプリケーション120のいずれかの機能を実装するために使用しうるサーバー400の関連する構成要素を示している。一般的に、こうしたエンティティは、上記で説明した様々な機能が異なる複数のサーバーにわたって様々な方法で分散した状態で、1つ以上のサーバーで実装されてもよい。サーバーは、同じ場所または別々の場所にあってもよいし、仮想サーバー、サーバーのバンク、および/またはサーバー・ファームとして編成されてもよい。説明した機能は、単独のエンティティまたはエンタープライズのサーバーによって提供されてもよいし、複数のエンティティまたはエンタープライズのサーバーおよび/またはサービスを利用してもよい。
非常に基本的な構成として、サーバー400の例では、1つ以上のプロセッサから成る処理装置402およびメモリ404を含む場合がある。サーバー400の構成によっては、メモリ404は、コンピュータ記憶装置媒体の一種であり、揮発性および不揮発性のメモリを含むことがある。従って、メモリ404には、これに制限されるものではないが、RAM、ROM、EEPROM、フラッシュ・メモリ、またはその他のメモリ技術を含むことがある。
メモリ404は、処理装置402で実行可能な機能構成要素をいくつでも保存するように使用してもよい。多くの実施形態では、こうした機能構成要素は、処理装置402で実行可能な命令またはプログラムを含み、実行されるとコンテンツ・サービス108と取込みサービス110に対して上記の命令やプログラムのアクションを行うための動作ロジックを実装する。さらに、メモリ404は実行可能なプログラムによって参照される様々なタイプのデータを保存することがあり、電子リーダー104などの消費デバイスに提供されるコンテンツ・アイテムを含む。
メモリ404に保存される機能構成要素には、オペレーティング・システム406とデータベース408を含み、サーバー400が提供する機能に関連する様々なアイテムを保存することがある。サーバー400の機能構成要素は、コンピュータ、メディア消費デバイスなどのリモート・デバイスとインタラクションするウェブ・サービス・コンポーネント410を含む場合がある。
メモリ404は、1つ以上のAPI412を実装する命令を有する場合があり、API412は、説明したようにアプリケーション120とインタフェースをとるように構成された図2を参照して説明したAPI214を含む場合がある。このメモリは、音声認識モジュール414と音声合成モジュール416を含む場合があり、上記で説明したような機能を提供する。
サーバー400は、もちろん、図4に示されていない他の多くのロジック的、プログラム的、または物理的構成要素も含む場合がある。
結論
上記で説明した様々な技術は、提示される例において、プログラム・モジュールなど1台以上のコンピュータまたはその他のデバイスで実行される一般的な状況でのコンピュータで実行可能な命令やソフトウェアにおいて実装されることを想定している。一般的に、プログラム・モジュールは、特定のタスクの遂行するためのルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含み、または、特定の抽象データ型を実装する。
他のアーキテクチャを使用して、説明した機能を実装してもよく、これは本開示の範囲内であることを意図している。さらに、特定の責任の分担が説明の都合上定義されたが、特定の状況に応じて様々な機能や責任を様々な方法で分担および分割する場合がある。
同様に、ソフトウェアは様々な方法で様々な手段を使用して保存し、分散してもよく、上記で説明した特定のソフトウェアの保存と実行の構成は、多くの異なる方法で変更されてもよい。従って、上記の技術を実装するソフトウェアは、具体的に説明したメモリの形式に制限されることなく、様々なタイプのコンピュータで読み取り可能な媒体に分散されてもよい。
発明の主題は、構造的機能および/または手順上の行為に特有な言語で説明されたが、添付の請求項で定義される発明の主題は、必ずしも説明した機能や行為に限定されるものではないことを理解されたい。むしろ、特有の機能や行為は請求項を実装する例示的な形式として開示されている。例えば、手順上の行為は本明細書で説明した順序や組み合わせで行う必要はなく、1つ以上の行為の組み合わせで行ってよい。
条項
1.1つ以上のネットワーク・インタフェースと、
各ユーザーにそれぞれ関連付けられている複数のユーザー・サイトから1つ以上のネットワーク・インタフェースを介してオーディオ・ベースの情報を受信するためのオン・プレミスのオーディオ・モニタリング・デバイスによってアクセス可能なクラウド・ベースのサービスと、を含むシステムであって、
前記クラウド・ベースのサービスは、少なくとも一部をオーディオ・ベースの情報に基づいて、ユーザーにサービスを提供する複数のクラウド・ベースのアプリケーションに、1つ以上のアプリケーション・インタフェースを公開する。
2.前記オーディオ・ベースの情報はオーディオ・ストリームを含む条項1に記載のシステム。
3.前記オーディオ・ベースの情報は、ユーザーが発した声に由来するユーザー・コマンドを含む条項1に記載のシステム。
4.前記オーディオ・ベースの情報は、少なくとも一部はオン・プレミスのオーディオに由来する環境情報を含む条項1に記載のシステム。
5.前記1つ以上のアプリケーション・インタフェースは、少なくとも一部は前記オーディオ・ベースの情報に基づき、現在のユーザー固有のアクティビティに関する情報を提供する条項1に記載のシステム。
6.前記1つ以上のアプリケーション・インタフェースは、少なくとも一部は前記オーディオ・ベースの情報に基づき、現在のユーザーのメディア消費についての情報を提供する条項1に記載のシステム。
7.前記1つ以上のアプリケーション・インタフェースは、少なくとも一部は前記オーディオ・ベースの情報に基づき、現在のユーザーのビデオ消費についての情報を提供する条項1に記載のシステム。
8.前記1つ以上のアプリケーション・インタフェースは、少なくとも一部は前記オーディオ・ベースの情報に基づき、現在のユーザーのオーディオ消費についての情報を提供する条項1に記載のシステム。
9.前記クラウド・ベースのサービスは、少なくとも一部は前記クラウド・ベースのアプリケーションに応答して、前記1つ以上のアプリケーション・インタフェースを介して、オーディオを提供するために前記オン・プレミスのオーディオ・モニタリング・デバイスに応答する条項1に記載のシステム。
10.実行可能な命令で構成された1台以上のコンピューティング・システムの制御下の方法であって、
複数ユーザーのサイトにあるオン・プレミスのオーディオ・モニタリング・デバイスからオーディオ・ベースの情報を受信するステップと、
前記オーディオ・ベースの情報を処理して、現在のユーザー固有の情報を判定するために処理するステップと、
少なくとも一部は前記ユーザー固有の情報に基づき、前記ユーザーにサービスを提供する複数のネットワーク・ベースのアプリケーションに、前記現在のユーザー固有の情報をレポートするステップと、を含む方法。
11.前記オーディオ・ベースの情報は、それぞれのユーザー・サイト内の前記複数ユーザーから継続的に受信されるオーディオ・ストリームを含む条項10に記載の方法。
12.前記オーディオ・ベースの情報は、オーディオ・ストリームを含み、前記方法は前記現在のユーザー固有の情報を特定するために前記オーディオ・ストリームを処理するステップをさらに含む条項10に記載の方法。
13.前記オーディオ・ベースの情報は、オーディオ・ストリームを含み、前記方法は現在のユーザーのメディア消費を特定するために前記オーディオ・ストリームを処理するステップをさらに含む条項10に記載の方法。
14.前記オーディオ・ベースの情報は、オーディオ・ストリームを含み、前記方法はユーザーのコマンドを特定するために前記オーディオ・ストリームの音声認識を行うステップをさらに含む条項10に記載の方法。
15.前記オーディオ・ベースの情報は、現在のユーザーのメディア消費を指定する条項10に記載の方法。
16.少なくとも一部はネットワーク・ベースのアプリケーションに応答して前記オン・プレミスのオーディオ・モニタリング・デバイスにオーディオを提供するステップをさらに含む条項10に記載の方法。
17.ネットワーク・ベースのシステムであって、
1つ以上のプロセッサと、
以下のアクションを行うために前記1つ以上のプロセッサで実行可能な命令を含むメモリと、を含むネットワーク・ベースのシステムであって、
前記アクションは、
複数のユーザー・サイトの現在の複数ユーザーの現在のアクティビティに関して、ネットワーク・ベースのサービスから、少なくとも一部は前記ユーザー・サイト内からのオーディオ・モニタリングに基づく情報を受信するステップと、
ネットワーク・ベースのサービスを、少なくとも一部は各ユーザー・サイトの前記アクティビティに関する前記受信情報に基づき、前記ユーザーに提供するステップと、を含む。
18.前記受信情報は各ユーザーの現在のメディア消費を示す条項17に記載のシステム。
19.条項17のシステムであって、
前記受信情報は、各ユーザーの現在のメディア消費を示し、
前記ネットワーク・ベースのサービスは、前記現在のメディア消費を補足する条項17に記載のシステム。
20.条項17に記載のシステムであって、
前記受信情報は、各ユーザーが口頭で発したコマンドを示し、
前記ネットワーク・ベースのサービスは、前記口頭で発したコマンドに応答して機能する条項17に記載のシステム。
21.近くのユーザーおよび近くのメディア・デバイスからオーディオを受信するように構成されたマイクロフォンと、
ネットワーク・ベースのアプリケーション・サービスと通信するように構成されたネットワーク・インタフェースと、を含む家庭内のインタフェース・デバイスであって
前記家庭内のインタフェース・デバイスは、継続的に環境情報を1つ以上のネットワーク・ベースのアプリケーションに前記ネットワーク・インタフェースと前記ネットワーク・ベースのアプリケーション・サービスを介して送信するように構成され、前記環境情報は少なくとも一部を前記受信したオーディオに基づく、家庭内のインタフェース・デバイス。
22.前記環境情報はオーディオ・ストリームを含む条項21に記載のデバイス。
23.音声認識装置をさらに含み、前記環境情報は、少なくとも一部は前記音声認識装置を用いてユーザーが発する声から得た通知を含む条項21に記載のデバイス。
24.さらに、音声認識装置を含み、前記環境情報はメディアの特定を含む条項21に記載のデバイス。

Claims (13)

  1. 1つ以上のネットワーク・インタフェースと、
    前記1つ以上のネットワーク・インタフェースを介して各ユーザーに関連付けられている複数のユーザー・サイトからオーディオ・ベースの情報を受信するためにオン・プレミスのオーディオ・モニタリング・デバイスによってアクセス可能なクラウド・ベースのサービスと、を含むシステムであって、
    前記クラウド・ベースのサービスは、少なくとも一部を前記オーディオ・ベースの情報に基づき、前記ユーザーにサービスを提供する複数のクラウド・ベースのアプリケーションに、1つ以上のアプリケーション・インタフェースを、公開する
    システム。
  2. 前記オーディオ・ベースの情報は、オーディオ・ストリーム、ユーザーが口頭で発したユーザー・コマンド、または少なくとも一部はオン・プレミスのオーディオから得た環境情報のうち1つ以上を含む請求項1に記載のシステム。
  3. 前記1つ以上のアプリケーション・インタフェースは、少なくとも一部を前記オーディオ・ベースの情報に基づき、現在のユーザー固有のアクティビティに関する情報を提供する請求項1に記載のシステム。
  4. 前記1つ以上のアプリケーション・インタフェースは、少なくとも一部を前記オーディオ・ベースの情報に基づき、現在のユーザーのメディア消費に関する情報を提供する請求項1に記載のシステム。
  5. 前記クラウド・ベースのサービスは、少なくとも一部は前記クラウド・ベースのアプリケーションに応答して、前記1つ以上のアプリケーション・インタフェースを介してオーディオを提供するために前記オン・プレミスのオーディオ・モニタリング・デバイスに応答する請求項1に記載のシステム。
  6. 実行可能な命令で構成された1台以上のコンピューティング・システムの制御下の方法であって、
    複数ユーザーのサイトにあるオン・プレミスのオーディオ・モニタリング・デバイスからオーディオ・ベースの情報を受信するステップと、
    現在のユーザー固有の情報を判定するためにオーディオ・ベースの情報を処理するステップと、
    前記現在のユーザー固有の情報を、少なくとも一部は前記ユーザー固有の情報に基づき、前記ユーザーにサービスを提供する1つ以上のネットワーク・ベースのアプリケーションにレポートするステップと、を含む方法。
  7. 前記オーディオ・ベースの情報は、各ユーザー・サイト内の前記複数ユーザーから継続的に受信されるオーディオ・ストリームを含む請求項6に記載の方法。
  8. 前記オーディオ・ベースの情報は、オーディオ・ストリームを含み、前記方法は前記現在のユーザー固有の情報または現在のユーザーのメディア消費のうち1つ以上を特定するために前記オーディオ・ストリームを処理するステップをさらに含む請求項6に記載の方法。
  9. 前記オーディオ・ベースの情報は、オーディオ・ストリームを含み、前記方法はさらにユーザーのコマンドを特定するために前記オーディオ・ストリームで音声認識を行うステップを含む請求項6に記載の方法。
  10. 少なくとも一部は前記ネットワーク・ベースのアプリケーションに応答して、オーディオを前記オン・プレミスのオーディオ・モニタリング・デバイスに提供するステップをさらに含む請求項6に記載の方法。
  11. 近くのユーザーおよび近くのメディア・デバイスからオーディオを受信するように構成されたマイクロフォンと、
    ネットワーク・ベースのアプリケーション・サービスと通信するように構成されたネットワーク・インタフェースと、を含む家庭内のインタフェース・デバイスであって
    前記家庭内のインタフェース・デバイスは、継続的に環境情報を1つ以上のネットワーク・ベースのアプリケーションに前記ネットワーク・インタフェースと前記ネットワーク・ベースのアプリケーション・サービスを介して送信するように構成され、前記環境情報は、少なくとも一部を前記受信したオーディオに基づく
    家庭内のインタフェース・デバイス。
  12. 前記環境情報はオーディオ・ストリームを含む請求項11に記載のデバイス。
  13. 音声認識装置をさらに含み、前記環境情報は少なくとも一部は、前記音声認識装置を用いてユーザーが発する声から得た通知を含む請求項11に記載のデバイス。
JP2013551329A 2011-01-28 2012-01-26 オーディオ・ベースのアプリケーション・アーキテクチャ Pending JP2014507030A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/016,009 US10382509B2 (en) 2011-01-28 2011-01-28 Audio-based application architecture
US13/016,009 2011-01-28
PCT/US2012/022703 WO2012103321A2 (en) 2011-01-28 2012-01-26 Audio-based application architecture

Publications (1)

Publication Number Publication Date
JP2014507030A true JP2014507030A (ja) 2014-03-20

Family

ID=46578441

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013551329A Pending JP2014507030A (ja) 2011-01-28 2012-01-26 オーディオ・ベースのアプリケーション・アーキテクチャ

Country Status (5)

Country Link
US (1) US10382509B2 (ja)
EP (1) EP2668561A4 (ja)
JP (1) JP2014507030A (ja)
CN (1) CN103620546A (ja)
WO (1) WO2012103321A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017195412A1 (ja) 2016-05-13 2017-11-16 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
KR20190005885A (ko) * 2016-05-10 2019-01-16 구글 엘엘씨 디바이스들 상의 보이스 어시스턴트에 대한 구현들
JP2020046970A (ja) * 2018-09-19 2020-03-26 Kddi株式会社 情報提供システム及び情報提供方法

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USD822716S1 (en) 2016-05-13 2018-07-10 Google Llc Voice interface device
US9423925B1 (en) * 2012-07-11 2016-08-23 Google Inc. Adaptive content control and display for internet media
US9111383B2 (en) 2012-10-05 2015-08-18 Elwha Llc Systems and methods for obtaining and using augmentation data and for sharing usage data
US10713846B2 (en) 2012-10-05 2020-07-14 Elwha Llc Systems and methods for sharing augmentation data
US10269179B2 (en) 2012-10-05 2019-04-23 Elwha Llc Displaying second augmentations that are based on registered first augmentations
US9077647B2 (en) 2012-10-05 2015-07-07 Elwha Llc Correlating user reactions with augmentations displayed through augmented views
US10180715B2 (en) 2012-10-05 2019-01-15 Elwha Llc Correlating user reaction with at least an aspect associated with an augmentation of an augmented view
US9141188B2 (en) * 2012-10-05 2015-09-22 Elwha Llc Presenting an augmented view in response to acquisition of data inferring user activity
US9196262B2 (en) 2013-03-14 2015-11-24 Qualcomm Incorporated User sensing system and method for low power voice command activation in wireless communication systems
US10109075B2 (en) 2013-03-15 2018-10-23 Elwha Llc Temporal element restoration in augmented reality systems
US9639964B2 (en) 2013-03-15 2017-05-02 Elwha Llc Dynamically preserving scene elements in augmented reality systems
US10025486B2 (en) 2013-03-15 2018-07-17 Elwha Llc Cross-reality select, drag, and drop for augmented reality systems
US10333904B2 (en) * 2015-08-08 2019-06-25 Peter J. Tormey Voice access and control
US9898250B1 (en) 2016-02-12 2018-02-20 Amazon Technologies, Inc. Controlling distributed audio outputs to enable voice output
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
CN112947683A (zh) 2016-05-13 2021-06-11 谷歌有限责任公司 媒体输出设备之间的媒体传送
US11328724B2 (en) 2018-03-23 2022-05-10 Hewlett-Packard Development Company, L.P. Execution of workflow tasks corresponding to voice commands
CN110543290B (zh) 2018-09-04 2024-03-05 谷歌有限责任公司 多模态响应
US11164576B2 (en) 2018-09-04 2021-11-02 Google Llc Multimodal responses

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003115929A (ja) * 2001-10-02 2003-04-18 Hitachi Ltd 音声入力システムおよび音声ポータルサーバおよび音声入力端末
US20070124756A1 (en) * 2005-11-29 2007-05-31 Google Inc. Detecting Repeating Content in Broadcast Media
JP2010183159A (ja) * 2009-02-03 2010-08-19 Olympus Corp デジタルフォトフレーム、情報処理システム、制御方法、プログラム及び情報記憶媒体

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2274572C (en) 1999-06-07 2006-10-03 Strategic Vista International Inc. Security alarm system
JP2002058013A (ja) 2000-05-30 2002-02-22 Ikuo Ota 放送情報コンテンツ配信システム、放送情報コンテンツ配信サイト、ユーザ受信端末、ユーザ受信プログラムを記録したコンピュータ読み取り可能な記録媒体及び放送情報コンテンツ配信方法
US6507727B1 (en) * 2000-10-13 2003-01-14 Robert F. Henrick Purchase and delivery of digital content using multiple devices and data networks
CN1150514C (zh) 2001-12-18 2004-05-19 蔡磊 家用电器及照明的语音控制系统
US9137035B2 (en) * 2002-05-09 2015-09-15 Netstreams Llc Legacy converter and controller for an audio video distribution system
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7725826B2 (en) 2004-03-26 2010-05-25 Harman International Industries, Incorporated Audio-related system node instantiation
US20070189544A1 (en) * 2005-01-15 2007-08-16 Outland Research, Llc Ambient sound responsive media player
US20070139553A1 (en) * 2005-12-20 2007-06-21 Kister Thomas F Remote monitoring system and method responsive to a signal reaching a threshold
US20070203735A1 (en) * 2006-02-28 2007-08-30 Commonwealth Intellectual Property Holdings, Inc. Transaction Enabled Information System
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8776217B2 (en) * 2006-11-03 2014-07-08 Alcatel Lucent Methods and apparatus for detecting unwanted traffic in one or more packet networks utilizing string analysis
US20080282305A1 (en) 2007-04-21 2008-11-13 Carpe Media Media Distribution System, Apparatus, Method and Software
EP2208022B1 (en) * 2007-10-04 2021-07-21 Zos Communications, Llc Location-based messaging system
CN201218985Y (zh) 2008-05-31 2009-04-08 珠海格力电器股份有限公司 声控装置、家电遥控装置
US20100226526A1 (en) * 2008-12-31 2010-09-09 Modro Sierra K Mobile media, devices, and signaling
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9445036B2 (en) * 2009-06-30 2016-09-13 Rovi Guides, Inc. Methods and systems for content scheduling across multiple devices
US8327269B2 (en) 2009-07-20 2012-12-04 Apple Inc. Positioning a virtual sound capturing device in a three dimensional interface
WO2011094931A1 (en) * 2010-02-03 2011-08-11 Nokia Corporation Method and apparatus for providing context attributes and informational links for media data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003115929A (ja) * 2001-10-02 2003-04-18 Hitachi Ltd 音声入力システムおよび音声ポータルサーバおよび音声入力端末
US20070124756A1 (en) * 2005-11-29 2007-05-31 Google Inc. Detecting Repeating Content in Broadcast Media
JP2009518884A (ja) * 2005-11-29 2009-05-07 グーグル・インコーポレーテッド マスメディアのソーシャル及び相互作用的なアプリケーション
JP2010183159A (ja) * 2009-02-03 2010-08-19 Olympus Corp デジタルフォトフレーム、情報処理システム、制御方法、プログラム及び情報記憶媒体

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSND201000562021; 今岡 通博: 'Androidエンジニアからの招待状' SoftwareDesign 発刊240号 , 20101018, 第158-163頁, 技術評論社 *
CSNG201000502003; 帆足 啓一郎: '第5回 マルチメディア検索の最先端' 映像情報メディア学会誌 第64巻,第5号, 20100501, 第701-707頁, (社)映像情報メディア学会 The Institute of Image *
JPN6014029091; 帆足 啓一郎: '第5回 マルチメディア検索の最先端' 映像情報メディア学会誌 第64巻,第5号, 20100501, 第701-707頁, (社)映像情報メディア学会 The Institute of Image *
JPN6014029092; 今岡 通博: 'Androidエンジニアからの招待状' SoftwareDesign 発刊240号 , 20101018, 第158-163頁, 技術評論社 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190005885A (ko) * 2016-05-10 2019-01-16 구글 엘엘씨 디바이스들 상의 보이스 어시스턴트에 대한 구현들
KR102168974B1 (ko) 2016-05-10 2020-10-22 구글 엘엘씨 디바이스들 상의 보이스 어시스턴트에 대한 구현들
KR20200121915A (ko) * 2016-05-10 2020-10-26 구글 엘엘씨 디바이스들 상의 보이스 어시스턴트에 대한 구현들
KR102307976B1 (ko) 2016-05-10 2021-09-30 구글 엘엘씨 디바이스들 상의 보이스 어시스턴트에 대한 구현들
US11922941B2 (en) 2016-05-10 2024-03-05 Google Llc Implementations for voice assistant on devices
US11935535B2 (en) 2016-05-10 2024-03-19 Google Llc Implementations for voice assistant on devices
WO2017195412A1 (ja) 2016-05-13 2017-11-16 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2020046970A (ja) * 2018-09-19 2020-03-26 Kddi株式会社 情報提供システム及び情報提供方法

Also Published As

Publication number Publication date
WO2012103321A3 (en) 2013-10-17
EP2668561A4 (en) 2016-04-13
US20120198339A1 (en) 2012-08-02
US10382509B2 (en) 2019-08-13
EP2668561A2 (en) 2013-12-04
CN103620546A (zh) 2014-03-05
WO2012103321A2 (en) 2012-08-02

Similar Documents

Publication Publication Date Title
JP2014507030A (ja) オーディオ・ベースのアプリケーション・アーキテクチャ
US11741979B1 (en) Playback of audio content on multiple devices
CN107112014B (zh) 在基于语音的系统中的应用焦点
KR102299239B1 (ko) 공동 디바이스 상의 가상 어시스턴트 시스템에 대한 개인 도메인
US9431021B1 (en) Device grouping for audio based interactivity
US10121465B1 (en) Providing content on multiple devices
US10031721B2 (en) System and method for processing control commands in a voice interactive system
US20170046124A1 (en) Responding to Human Spoken Audio Based on User Input
JP6505117B2 (ja) 模写によるデジタル携帯情報端末の対話、および応答時のリッチなマルチメディア
JP6876752B2 (ja) 応答方法及び装置
US11955125B2 (en) Smart speaker and operation method thereof
US11188289B2 (en) Identification of preferred communication devices according to a preference rule dependent on a trigger phrase spoken within a selected time from other command data
US11200891B2 (en) Communications utilizing multiple virtual assistant services
JP6692832B2 (ja) パケット化されたオーディオ信号の認証
US20160094491A1 (en) Pattern-controlled automated messaging system
JP2019091419A (ja) 情報出力方法および装置
CN105518645A (zh) 负载平衡的持久连接技术
CN110199348A (zh) 口音转化
CN109509472A (zh) 基于语音平台识别背景音乐的方法、装置及系统
CN110428825A (zh) 忽略流式媒体内容中的触发词
US10268447B1 (en) Curating audio and IR commands through machine learning
US10417279B1 (en) Customized cross fades for continuous and seamless playback
US10149077B1 (en) Audio themes
US11881214B1 (en) Sending prompt data related to content output on a voice-controlled device
Goodwin et al. Communication: Humans Talk. Computers Talk

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140715

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20141014

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20141021

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141112

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150710

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20150721

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20150918