JP2016513307A

JP2016513307A - オーディオ情報収集および問合せを実行するための方法およびシステム

Info

Publication number: JP2016513307A
Application number: JP2015555555A
Authority: JP
Inventors: シャオロン・ジャン; ビン・ジャン; デユアン・リ; ハイロン・リュウ; ジエ・ホウ; ダドン・シエ
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2013-02-04
Filing date: 2013-11-26
Publication date: 2016-05-12
Anticipated expiration: 2033-11-26
Also published as: CA2895964A1; CA2895964C; WO2014117578A1; JP6228235B2; CN103970793B; SG11201504973SA; US20140310269A1; CN103970793A; US9348906B2

Abstract

1つまたは複数のプロセッサ、メモリ、およびディスプレイを有する電子デバイスは、第1トリガイベントを検出し、第1トリガイベントの検出に応答してメディアアイテムに関連付けされる環境オーディオデータのオーディオサンプルを収集する。本デバイスは、オーディオサンプルに対応する情報をサーバに送信する。情報の送信に応答して、本デバイスは、メディアアイテムに関するメタデータと、メディアアイテム内のオーディオサンプルの位置の時間インジケータと、メディアアイテムに関するストリーム情報とを含んだ、オーディオサンプルに対応する属性情報を取得する。本デバイスは、属性情報の一部分を表示する。本デバイスは、第2トリガイベントを検出し、第2トリガイベントの検出に応答して最終取得の時間インジケータを決定し、ストリーム情報に基づいてメディアアイテムをストリーミングし、最終取得の時間インジケータからメディアアイテムを提示する。

Description

本出願は、2013年2月4日に出願された「METHOD AND SYSTEM FOR PERFORMING AN AUDIO INFORMATION COLLECTION」と題する中国特許出願第201310042406.1号に対する優先権を主張するものである。引用により、上記中国特許出願の全体が本明細書に援用される。

本発明は、オーディオ分析の技術分野に関し、より詳細には、オーディオ情報クエリ(問合せ)を実行するための方法およびデバイスに関する。

インターネットが情報を取得するために不可欠なツールとして発展するに連れて、インターネット対応のデバイスを用いてオーディオ情報クエリを実行することが、新たな実用トレンドになりつつある。従来のオーディオ情報問合せ方法は、典型的には、ユーザが未知のオーディオの基本情報(たとえば、未知のオーディオの歌詞、名称、歌手など)を手作業で入力する第1のステップと、この基本情報に基づいてインターネット対応のデバイスがその未知のオーディオに関する完全な情報を(たとえば、ローカルのまたはインターネットのクエリを介して)検索する第2のステップと、を含む。上述の方法では、基本情報を手作業で入力することが必要であり、したがって、オーディオ情報クエリが非効率的である。さらに大部分の状況では、ユーザは未知のオーディオの基本情報を知らないことがあり、またはユーザが入力した基本情報が正しくないために、オーディオ情報クエリが有効に理解され得ないことがある。たとえばユーザは、周囲の環境の中で楽曲のある小片を聴いているが、その楽曲に関する他の情報は知らないため、有効なオーディオ情報クエリが実行不可能であり、このためインターネットデバイスのインテリジェントな機能が低下している。

従来技術における問題を解決するために、本発明の実施態様は、オーディオ情報クエリを実行するための方法およびデバイスを提供する。本方法は、1つまたは複数のプロセッサ、メモリ、およびディスプレイを具備した電子デバイス(図7A〜図7F、図8A〜図8C、図10、および図11のクライアントデバイス700)で実行される。本方法は、第1トリガイベントを検出するステップと、第1トリガイベントを検出したことに応答して、電子デバイスのマイクロフォンによって、メディアアイテムに関連付けされる環境オーディオデータのオーディオサンプルを収集するステップと、を有する。本方法は、オーディオサンプルに対応する情報をサーバに送信するステップと、オーディオサンプルに対応する情報をサーバに送信したことに応答して、メディアアイテムに対応するメタデータと、メディアアイテムを基準としたオーディオサンプルの位置に対応する時間インジケータと、メディアアイテムに関連したストリーム情報と、を含んだ、オーディオサンプルに対応する属性情報を取得するステップと、を有する。さらに、本方法は、属性情報の少なくとも一部分をディスプレイ上に表示するステップを有する。さらに、本方法は、第2トリガイベントを検出するステップと、第2トリガイベントを検出したことに応答して、メディアアイテムに対して最後に取得した時間インジケータを決定し、取得した属性情報中のストリーム情報に基づいてメディアアイテムをストリーミングし、最後に取得した時間インジケータに基づいてメディアアイテムを提示するステップと、を有する。

いくつかの実施態様では、電子デバイスまたはコンピュータシステム(たとえば、図7A〜図7F、図8A〜図8C、図10、および図11のクライアントデバイス700)は、1つまたは複数のプロセッサと、ディスプレイと、1つまたは複数のプロセッサによる実行のための1つまたは複数のプログラムを格納するメモリと、を具備しており、1つまたは複数のプログラムは、本明細書に記載した方法の動作を実行するための命令を含む。いくつかの実施態様では、1つまたは複数のプロセッサおよびディスプレイを具備した電子デバイスまたはコンピュータシステム(たとえば、図7A〜図7F、図8A〜図8C、図10、および図11のクライアントデバイス700)によって実行されたときにこのデバイスまたはシステムに、本明細書に記載した方法の動作を実行させる命令を含んだ1つまたは複数のプログラムを格納する非一時的なコンピュータ読み取り可能記憶媒体である。

本発明に関する上述の特徴および利点、またさらに本発明に関する追加の特徴および利点については、本明細書の以下において添付の図面と連携して取り上げた際の好ましい実施形態に関する詳細な説明の結果としてより明瞭に理解されることになろう。

本発明の実施形態および従来の技術の技術的プログラムについてより明瞭に説明するために、以下において、実施形態や既存の技術を示すために必要な図面を簡単に導入する(当然ながら、以下の説明における図面は、本発明の一部の実施形態にすぎず、本分野で通常の知識を有する者は、これらの図面に従った他の図面をなんらの創造的な労力を伴うことなく取得できよう)。

いくつかの実施形態に従ったクライアントサイドのオーディオ情報問合せ方法の流れ図である。いくつかの実施形態に従ったクライアントサイドのオーディオ情報問合せ方法の流れ図である。いくつかの実施形態に従ったクライアントサイドのオーディオ情報問合せ方法の流れ図である。いくつかの実施形態に従ったサーバサイドのオーディオ情報問合せ方法の流れ図である。いくつかの実施形態に従ったサーバサイドのオーディオ情報問合せ方法の流れ図である。いくつかの実施形態に従ったサーバサイドのオーディオ情報問合せ方法の流れ図である。いくつかの実施形態に従ったオーディオ情報クエリを実行する方法を示しているインタフェースの図である。いくつかの実施形態に従ったオーディオ情報クエリを実行する方法を示しているインタフェースの図である。いくつかの実施形態に従ったオーディオ情報クエリを実行する方法を示しているインタフェースの図である。いくつかの実施形態に従ったオーディオ情報クエリを実行する方法を示しているインタフェースの図である。いくつかの実施形態に従ったオーディオ情報クエリを実行する方法を示しているインタフェースの図である。いくつかの実施形態に従ったオーディオ情報クエリを実行する方法を示しているインタフェースの図である。いくつかの実施形態に従ったクライアントデバイスの構造概要図である。いくつかの実施形態に従ったクライアントデバイスの構造概要図である。いくつかの実施形態に従った図8A〜図8Bに含まれるクエリモジュールの構造概要図である。いくつかの実施形態に従ったサーバシステムの構造概要図である。いくつかの実施形態に従った図9Aに含まれるクエリモジュールの構造概要図である。いくつかの実施形態に従ったクライアント-サーバ環境のブロック図である。いくつかの実施形態に従ったクライアントデバイスのブロック図である。いくつかの実施形態に従ったクライアントデバイスのブロック図である。いくつかの実施形態に従ったクライアント-サーバ環境で情報問合せ方法を実行する方法の流れ図である。

図面のうちのいくつかの図全体を通じて対応する部分を同じ参照番号によって示している。

これより、添付の図面にその例を示している実施形態について詳細に参照する。以下の詳細な説明では、本明細書に提示した主題に対する完全な理解を提供するために多数の具体的な詳細が列挙されている。しかしながら、こうした主題はこれらの具体的な詳細を伴わずに実施され得ることは当業者には明らかであろう。他の例として、よく知られた方法、手続き、構成要素、および回路については、これらの実施形態の態様が不必要に不明瞭にならないように詳細に記載していない。

以下では、本発明の実施形態に関する添付の図面と組み合わせて、本発明の実施形態の技術的プログラムについて明瞭にかつ完全に説明する(当然ながら、説明した実施形態は実施形態の一部にすぎず、そのすべてではない)。本発明の実施形態に基づいて、一般的な技術者によってなんらの創造的な労力を伴うことなく取得される他の実施形態のすべても本発明の保護範囲に属する。

いくつかの実施形態では、クライアントデバイスは、モバイルフォン、スマートフォン、タブレットコンピュータ、ディジタルリーダ、ラップトップなどのデバイスのうちの任意の1つである。

以下では、図1〜図6と組み合わせて本発明の実施形態によって詳細に提供されるオーディオ情報問合せ方法を導入する。

図1は、いくつかの実施形態に従ったクライアントサイドのオーディオ情報問合せ方法の流れ図である。この実施形態では、1つまたは複数のプロセッサおよびメモリを有するクライアントデバイスで実行されるオーディオ情報問合せ方法の流れ(ステップS101〜S104を含む)について詳述する。

S101において、クライアントデバイスがオーディオ情報クエリに関する第1トリガイベントを監視し、第1トリガイベントの検出に応答して環境オーディオデータを収集する。

いくつかの実施形態では、この環境オーディオデータは、クライアントデバイスが配置された環境中に存在するオーディオデータを含む。たとえば環境オーディオデータは、映画、テレビドラマ、テレビ番組、音楽ラジオ局、ラジオ番組、またはクライアントデバイスが配置された環境中にいる人によって送達される環境オーディオデータ(たとえば、口ずさんだ曲や歌の一部)など(ただし、これらに限らない)を含む。

いくつかの実施形態では、そのオーディオ情報クエリの第1トリガイベントは、重力誘導イベントである。いくつかの実施形態では、ユーザがオーディオ情報クエリを実施しようとしたとき、そのトリガ作用はクライアントデバイスのユーザが重力誘導イベントを発生させる(たとえば、ユーザがクライアントデバイスを振る)ことによって実施されることになる一方、環境オーディオデータを収集させるようにクライアントデバイスをトリガするためにクライアントデバイスによってアプリケーション(たとえば、インスタントメッセンジャーアプリケーションや他のソーシャルメディアアプリケーション環境)が実行される。たとえば、クライアントデバイスがモバイルフォンであり、かつアプリケーション環境がモバイルフォン上で実行されている間にモバイルフォンのユーザはテレビ番組を見ているとする。この例では、ユーザが今見ているテレビ番組の楽曲に対応するメディアアイテムの属性情報を問い合わせたい場合、ユーザには、モバイルフォンを振って重力誘導イベントを発生させる(これによって、今見ているテレビ番組の楽曲を含む環境オーディオデータを収集するようにモバイルフォンがトリガされる)ことによってアプリケーション環境のオーディオ情報問合せ機能をトリガすることが可能にされている。

いくつかの実施形態では、そのオーディオ情報クエリの第1トリガイベントは、ある特定のボタンまたはアフォーダンスのユーザ選択である。いくつかの実施形態では、ユーザがオーディオ情報クエリを実施しようとしたとき、そのトリガ作用は、ある特定のボタンまたはアフォーダンスを選択することによってクライアントデバイスのユーザによって実施されることになる一方、環境オーディオデータを収集させるようにクライアントデバイスをトリガするためにクライアントデバイスによってアプリケーション(たとえば、インスタントメッセンジャーアプリケーションや他のソーシャルメディアアプリケーション環境)が実行される。たとえば、クライアントデバイスがモバイルフォンであり、かつモバイルフォンのユーザはある楽曲を周囲の環境中で聴いているとする。この例では、ユーザが楽曲に対応するメディアアイテムの属性情報を問い合わせたい場合、ユーザには、アプリケーションを呼び出すかアプリケーション環境に入るとともに、そのアプリケーションまたはアプリケーション環境によって提供されるオーディオ情報問合せ機能に対応するある特定のボタン(たとえば、「楽曲検索」ボタン)を選択すること(これによって、その楽曲の環境オーディオデータを収集するようにモバイルフォンがトリガされる)が可能にされている。

このステップでは、その収集プロセスは、オーディオ情報クエリに関する第1トリガイベントの検出に応答して、クライアントデバイスがユーザによる認識を受けるように要求された環境オーディオデータを録音するためのレコーディング機能を開始させることを含む。たとえば、クライアントデバイスによって収集される環境オーディオデータは、サンプリング周波数が8KHzで16ビット量子化のPCM(パルスコード変調)タイプによるディジタルオーディオである。

S102において、クライアントデバイスが収集した環境オーディオデータをオーディオ情報クエリのためにサーバシステムに送信する。

このステップでは、クライアントデバイスは、収集した環境オーディオデータを処理するとともに、処理済みの環境オーディオデータをオーディオ情報クエリのためにサーバシステムに送信することが可能である。クライアントデバイスによって先ず収集した環境オーディオデータが処理されるときに、クライアントデバイスとサーバシステムとの間で送信されるデータサイズは有効に縮減される。

S103において、クライアントデバイスがサーバシステムによって決定された環境オーディオデータに対応するメディアアイテムの属性情報を取得する。

たとえばメディアアイテムの属性情報は、名称、アーティスト情報、アルバム情報、および歌詞(ただし、これらに限らない)を含む。

S104において、クライアントデバイスがそのメディアアイテムの属性情報を出力される問合せ結果として取る。

いくつかの実施形態では、クライアントデバイスは、ユーザが環境オーディオデータの完全な情報を習得可能となるように属性情報を問合せの出力として提示する。たとえばクライアントデバイスは、歌曲のタイトル、歌手、関連するアルバム名、歌詞、および問い合わせするように要求された楽曲に対応する他の情報などの属性情報を表示または音声化する。

本発明の実施形態のクライアントデバイスがオーディオ情報クエリの第1トリガイベントを検出すると、クライアントデバイスは、環境オーディオデータを自動的に収集するとともに、収集した環境オーディオデータに対応するメディアアイテムの属性情報についてオーディオ情報クエリを実行するためにこの環境オーディオデータをサーバシステムに送信する。このオーディオ情報問合せ動作は単純かつ高速であり、また、問い合わせようとするオーディオの基本情報をユーザが手作業で入力する必要がなく、オーディオ情報クエリの効率が改善され、また、オーディオ情報クエリの正確性および賢さもまた改善される。

図2は、いくつかの実施形態に従った別のクライアントサイドのオーディオ情報問合せ方法の流れ図である。この実施形態では、1つまたは複数のプロセッサおよびメモリを有するクライアントデバイスで実行されるオーディオ情報問合せ方法の流れ(ステップS201〜S206を含む)について詳述する。

S201において、クライアントデバイスがオーディオ情報クエリに関する第1トリガイベントを監視し、第1トリガイベントの検出に応答して環境オーディオデータを収集する。簡潔とするため、ステップS201に関するさらなる説明を得るには図1に示した実施形態のステップS101を参照されたい。

S202において、クライアントデバイスが圧縮済みデータパケットを作成するために収集した環境オーディオデータに対して圧縮処理を実行する。

S203において、クライアントデバイスが圧縮済みデータパケットをオーディオ情報クエリのためにサーバシステムに送信する。

この実施形態のステップS202〜S203は、図1に示した実施形態のステップS102に対応する。ステップS202では、クライアントデバイスが圧縮済みデータパケットを作成するために収集した環境オーディオデータに対して圧縮処理を実行する。この圧縮処理によって、送信しようとする総データサイズを低減するように、収集した環境オーディオデータの総バイト数が低減される。ステップS203では、データ送信の効率を改善させるようにクライアントデバイスは圧縮済みデータパケットをサーバシステムに送信する。これに対してサーバシステムがオーディオ情報クエリを実行する場合は、オーディオ情報クエリの正確性が保証されるように圧縮済みデータパケットの圧縮復元によって環境オーディオデータのデータコンテンツが復元される。

S204において、クライアントデバイスがサーバシステムによって決定された環境オーディオデータに対応するメディアアイテムの属性情報を取得する。

S205において、クライアントデバイスがそのメディアアイテムの属性情報を出力される問合せ結果として取る。

簡潔とするため、ステップS204〜S205に関するさらなる説明を得るには図1に示した実施形態のステップS103〜S104を参照されたい。

S206において、共有動作の検出に応答して、クライアントデバイスが、ターゲットアプリケーションを介してメディアアイテムの属性情報の少なくとも一部分を共有する。

ここで、ターゲットアプリケーションは、マイクロブログ、パーソナルスペース、対話サイト、フォーラム、および他のSNSアプリケーションプラットフォームを含むSNS(ソーシャルネットワーキングサービス)アプリケーションとすることが可能である。このステップでは、ユーザは、クライアントデバイスによって出力された問合せ結果を通じて環境オーディオデータの完全な情報を習得する。いくつかの実施形態では、ユーザが検索された情報を共有したい場合、アプリケーションまたはアプリケーション環境の中から共有動作を選択することが可能である。たとえば、ユーザは、アプリケーションによって提供されるターゲットアプリケーションに関連付けされた共有ボタンまたはアフォーダンスを選択し、また、クライアントデバイスは、ターゲットアプリケーションを介してメディアアイテムに関する属性情報のうちの少なくとも一部分を共有する。いくつかの実施形態では、ユーザは、共有動作に関して複数のターゲットアプリケーションのうちの1つまたは複数を選択する。いくつかの実施形態では、ユーザがある具体的なターゲットアプリケーションを選択していないとき、デフォルトのまたは最もよく使用されるターゲットアプリケーションが共有動作のために利用される(たとえば、実行されているアプリケーションが属性情報の共有のために使用される)。

本発明の実施形態のクライアントデバイスがオーディオ情報クエリの第1トリガイベントを検出すると、クライアントデバイスは、環境オーディオデータを自動的に収集するとともに、収集した環境オーディオデータに対応するメディアアイテムの属性情報についてオーディオ情報クエリを実行するためにこの環境オーディオデータをサーバシステムに送信する。このオーディオ情報問合せ動作は単純かつ高速であり、また、問い合わせようとするオーディオの基本情報をユーザが手作業で入力する必要がなく、オーディオ情報クエリの効率が改善され、また、オーディオ情報クエリの正確性および賢さもまた改善される。さらにこの実施形態では、メディアアイテムに対応する検索済み属性情報の共有によってソーシャル活動の利便性が前進する。

図3は、いくつかの実施形態に従った別のクライアントサイドのオーディオ情報問合せ方法の流れ図である。この実施形態では、1つまたは複数のプロセッサおよびメモリを有するクライアントデバイスで実行されるオーディオ情報問合せ方法の流れ(ステップS301〜S307を含む)について詳述する。

S301において、クライアントデバイスがオーディオ情報クエリに関する第1トリガイベントを監視し、第1トリガイベントの検出に応答して環境オーディオデータを収集する。

S302において、クライアントデバイスが収集した環境オーディオデータからフィンガープリント情報を抽出する。

いくつかの実施形態では、フィンガープリント情報は、環境オーディオデータの重要な音響特性を表すコンパクトディジタル署名を意味しており、かつ収集した環境オーディオデータのコンテンツに基づく。いくつかの実施形態では、フィンガープリント情報は、識別性、堅牢性、グラニュラリティ、および他の基本特性を伴った知覚される(または、コンテンツ)類似性を必要とする。ここで、識別性とは異なるオーディオデータのフィンガープリント情報は大きな差異を有するべきである一方、同じオーディオデータの元の記録およびコピーされた記録のフィンガープリント情報は小さい差異を有するべきであることを意味しており、堅牢性とは複数のオーディオフォーマット変換による処理、チャンネルノイズ干渉などを受けた後にもそのオーディオデータを認識することが可能であることを意味しており、また、グラニュラリティとは環境オーディオデータの短いサンプル(たとえば、オーディオデータの長さは5または10秒未満)についてもフィンガープリント情報を認識することが可能であることを意味している。

たとえば、クライアントデバイスにおいてオーディオデータのフィンガープリント情報を抽出するために必要なのは簡単な計算であり、このように迅速であるため、計算リソースが限定されたクライアントサイドであってもリアルタイムのフィンガープリント情報計算を実現することが可能である。別の例としてワイヤレスネットワークアプリケーションの領域では、フィンガープリント情報に関するデータのコンパクト性が必要である(すなわち、ワイヤレスネットワークを介してフィンガープリント情報を送信できるようにデータサイズを小さくすべきである)。このステップでは、クライアントデバイスによるフィンガープリント情報の抽出が抽出アルゴリズムに従って実行されている。いくつかの実施形態では、その抽出アルゴリズムは、フレーム情報特性ベクトルに基づくオーディオフィンガープリント抽出アルゴリズム、またはピーク値特性点に基づくオーディオフィンガープリント抽出アルゴリズム(ただし、これらに限らない)を含む。いくつかの実施形態では、このステップで抽出されるフィンガープリント情報はフィンガープリントシーケンスとして表現されており、このフィンガープリントシーケンス内の各フィンガープリントアイテムは(t，ハッシュコード)として表現することが可能である。ここで、このハッシュコードは、環境オーディオデータの重要な音響特性を含んだ固定数のビットによってハッシュコードを表しており、また、tはハッシュコードに対応する時間点(たとえば、タイムスタンプ)を意味している。

S303において、クライアントデバイスが圧縮済みフィンガープリントパケットを作成するために抽出したフィンガープリント情報に対して圧縮処理を実行する。

S304において、クライアントデバイスが圧縮済みフィンガープリントパケットをオーディオ情報クエリのためにサーバシステムに送信する。

この実施形態のステップS302〜S304は図1に示した実施形態のステップS102に対応する。ステップS302では、クライアントデバイスは環境オーディオデータに対応するフィンガープリント情報を抽出する。いくつかの実施形態では、その環境オーディオデータのフィンガープリント情報は、環境オーディオデータの重要な音響特性を表すコンパクトディジタル署名を意味し、かつ環境オーディオデータのコンテンツに基づく。一般に、言及した環境オーディオデータのフィンガープリント情報の総データサイズは収集した環境オーディオデータの総データサイズより小さい。ステップS303では、クライアントデバイスは、圧縮済みフィンガープリントパケットを作成するために抽出したフィンガープリント情報に対して圧縮処理を実行する。この圧縮処理によって、送信しようとする総データサイズを低減するように、抽出したフィンガープリント情報の総バイト数が低減される。ステップS304では、クライアントデバイスは、圧縮済みフィンガープリントパケットをサーバシステムに送信し、データ送信の効率を改善させる。これに対してサーバシステムがオーディオ情報クエリを実行する場合は、オーディオ情報クエリの正確性が保証されるような圧縮済みフィンガープリントパケットの圧縮復元によって環境オーディオデータのフィンガープリント情報が復元される。

S305において、クライアントデバイスがサーバシステムによって決定された環境オーディオデータに対応するメディアアイテムの属性情報を取得する。

S306において、クライアントデバイスがそのメディアアイテムの属性情報を出力される問合せ結果として取る。

S307において、共有動作の検出に応答して、クライアントデバイスが、ターゲットアプリケーションを介してメディアアイテムの属性情報の少なくとも一部分を共有する。

簡潔とするため、ステップS301およびS305〜S307に関するさらなる説明を得るには図2に示した実施形態のステップS201およびS204〜S206を参照されたい。

本発明の実施形態のクライアントデバイスがオーディオ情報クエリに関する第1トリガイベントを検出すると、クライアントデバイスは、環境オーディオデータを自動的に収集するとともに、収集した環境オーディオデータに対応するメディアアイテムの属性情報についてオーディオ情報クエリを実行するためにこの環境オーディオデータをサーバシステムに送信する。このオーディオ情報問合せ動作は単純かつ高速であり、また、問い合わせようとするオーディオの基本情報をユーザが手作業で入力する必要がなく、オーディオ情報クエリの効率が改善され、また、オーディオ情報クエリの正確性および賢さもまた改善される。さらにこの実施形態では、メディアアイテムに対応する検索済み属性情報の共有によってソーシャル活動の利便性が前進する。

図2に示した実施形態と図3に示した実施形態とでは、サーバシステムへの送信前に収集した環境オーディオデータに対して実行される処理が異なる。図2に示した実施形態では、クライアントデバイスによって実行される処理は収集した環境オーディオデータに対する圧縮プロセスを含む。しかしながら、図3に示した実施形態では、クライアントデバイスによって実行される処理は、フィンガープリント情報の抽出プロセスと、フィンガープリント情報の圧縮プロセスと、を含む。図2に示した実施形態を採用すると、クライアントサイドの処理負荷は比較的小さく、処理能力が限られたローエンドのクライアントデバイスに適用可能である。図3に示した実施形態を採用すると、クライアントデバイスは収集した環境オーディオデータに対応するフィンガープリント情報を計算することが要求され、これによりクライアントデバイスに対する処理負荷が増大することになるが、サーバシステムに対して送信されるデータサイズをより有効に低減させることによって送信効率が改善される。たとえば、図1〜図3に示した実施形態のうちの1つの選択は、クライアントデバイスの処理能力、ネットワークのバンド幅リソース、またはユーザの選択に依存する。

図1〜図3に示した実施形態では、サーバシステムによって決定されてクライアントデバイスによって受け取られるメディアアイテムの属性情報は、メディアアイテムの属性情報(歌曲やテレビドラマのオーディオセグメントなど)または複数のメディアアイテムの属性情報(複数の歌曲や複数のテレビドラマのオーディオセグメントなど)を含み、また、クライアントデバイスは複数のメディアアイテムの属性情報を包含する場合に複数のメディアアイテムの属性情報またはメディアアイテムの一部分の属性情報を出力するように選択することが可能にされていることに留意すべきである。さらに、サーバシステムが環境オーディオデータに対応するメディアアイテムの属性情報を決定できない場合、サーバシステムはクライアントデバイスに問合せ不首尾メッセージを返し、また、クライアントデバイスはオーディオ情報クエリの不首尾をユーザに伝達するためのメッセージを提示することが可能である。

図4は、いくつかの実施形態に従ったサーバサイドのオーディオ情報問合せ方法の流れ図である。この実施形態では、1つまたは複数のプロセッサおよびメモリを有するサーバシステムで実行されるオーディオ情報問合せの方法の流れ(ステップS401〜S403を含む)について詳述する。

S401において、サーバシステムがクライアントデバイスによって送信された環境オーディオデータを受け取る。

いくつかの実施形態では、そのサーバシステムは、クライアントデバイスによって送信された環境オーディオデータの少なくとも一部分を受け取る(クライアントデバイスが第1トリガイベントの検出に応答して環境オーディオデータを収集している場合)。いくつかの実施形態では、そのサーバシステムはクライアントデバイスによって送信された圧縮済みデータパケットを受け取る(その圧縮済みデータパケットがクライアントデバイスによって環境オーディオデータに対して実行される圧縮プロセスによって作成されている場合)。いくつかの実施形態では、そのサーバシステムは、クライアントデバイスによって送信された圧縮済みフィンガープリントパケットを受け取る(その圧縮済みフィンガープリントパケットがクライアントデバイスによって環境オーディオデータから抽出されたフィンガープリント情報に対して実行される圧縮プロセスによって作成されている場合)。

S402において、サーバシステムが初期化済みデータベース内で受け取った環境オーディオデータと一致するメディアアイテムを決定するとともに、そのメディアアイテムに対応する属性情報を取得する。

いくつかの実施形態では、その初期化済みデータベースは、複数のメディアアイテムまたはメディアアイテムの表象またはメディアアイテムへのリンク(たとえば、URL)を格納する。また、いくつかの実施形態では、その初期化済みデータベースは、複数のメディアアイテムに対応するマーク、フィンガープリント情報、および属性情報を格納する。いくつかの実施形態では、初期化済みデータベースに格納されたメディアアイテムは、映画のオーディオセグメント、テレビドラマのオーディオセグメント、テレビ番組のオーディオセグメント、歌曲、楽曲などを含む。いくつかの実施形態では、そのメディアアイテムのマークはTrackIDによって表現される。たとえば、メディアアイテム1のマークはTrackID-1で表現され、また、メディアアイテム2のマークはTrackID-2で表現される。この例では、TrackIDがあるメディアアイテムに関する一意のマークとして使用されている。いくつかの実施形態では、そのメディアアイテムのフィンガープリント情報は、メディアアイテムのコンテンツに基づくメディアアイテムの重要な音響特性を表すコンパクトディジタル署名を意味している。いくつかの実施形態では、メディアアイテムの属性情報は、名称、アーティスト情報、アルバム情報、および歌詞(ただし、これらに限らない)を含む。

S403において、サーバシステムがクライアントデバイスにメディアアイテムの属性情報を返す。

サーバシステムはクライアントデバイスに環境オーディオデータに対応するメディアアイテムの属性情報を返す。引き続き、クライアントデバイスは、メディアアイテムの属性情報を出力される問合せ結果として取ることが可能とされており、これにより環境オーディオデータの完全な情報のユーザによる取得を可能としている。

本発明の実施形態のサーバシステムがクライアントデバイスによって送信された環境オーディオデータを受け取る場合に、サーバシステムは、環境オーディオデータに対応するメディアアイテムの属性情報を取得するために初期化済みデータベースに基づいて環境オーディオデータについてのオーディオ情報クエリを実施するとともに、クライアントデバイスにこの属性情報を返す。問合せプロセスはバックグラウンドサーバで実行されており、また、問い合わせようとするオーディオの基本情報をユーザが手作業で入力する必要がなく、オーディオ情報クエリの効率が改善され、また、オーディオ情報クエリの正確性および賢さもまた改善される。

図5は、いくつかの実施形態に従った別のサーバサイドのオーディオ情報問合せ方法の流れ図である。この実施形態では、1つまたは複数のプロセッサおよびメモリを有するサーバシステムで実行されるオーディオ情報問合せの方法の流れ(ステップS501〜S506を含む)について詳述する。

S501において、サーバシステムがクライアントデバイスによって送信された圧縮済みデータパケットを受け取る(この圧縮済みデータパケットは、クライアントデバイスによって環境オーディオデータに対して実行される圧縮プロセスによって作成される)。

S502において、サーバシステムが環境オーディオデータを取得するために受け取った圧縮済みデータパケットに対して圧縮復元プロセスを実行する。

サーバシステムによって実行される圧縮済みデータパケットの圧縮復元プロセスとクライアントデバイスによって実行される収集した環境オーディオデータの圧縮プロセスとは互いに逆のプロセスである。圧縮復元プロセスによって取得される環境オーディオデータはクライアントデバイスによって収集された環境オーディオデータである。たとえば、取得される環境オーディオデータはサンプリング周波数が8KHzで16ビット量子化のPCMタイプによるディジタルオーディオである。

S503において、サーバシステムが環境オーディオデータからフィンガープリント情報を抽出する。

このステップでは、クライアントデバイスによるフィンガープリント情報の抽出が抽出アルゴリズムに従って実行されている。いくつかの実施形態では、その抽出アルゴリズムは、フレーム情報特性ベクトルに基づくオーディオフィンガープリント抽出アルゴリズム、またはピーク値特性点に基づくオーディオフィンガープリント抽出アルゴリズム(ただし、これらに限らない)を含む。いくつかの実施形態では、このステップで抽出されるフィンガープリント情報はフィンガープリントシーケンスとして表現されており、このフィンガープリントシーケンス内の各フィンガープリントアイテムは(t，ハッシュコード)として表現することが可能である。ここで、このハッシュコードは、環境オーディオデータの重要な音響特性を含んだ固定数のビットによってハッシュコードを表しており、また、tはハッシュコードに対応する時間点(たとえば、タイムスタンプ)を意味している。

S504において、サーバシステムが初期化済みデータベース内のメディアアイテムのフィンガープリント情報が環境オーディオデータのフィンガープリント情報と一致するかどうかを判定する。

いくつかの実施形態では、その初期化済みデータベースは、複数のメディアアイテムまたはメディアアイテムの表象またはメディアアイテムへのリンク(たとえば、URL)を格納する。また、いくつかの実施形態では、その初期化済みデータベースは、複数のメディアアイテムに対応するマーク、フィンガープリント情報、および属性情報を格納する。このステップでは、環境オーディオデータのフィンガープリント情報とメディアアイテムのフィンガープリント情報との間に一致を見るのは、メディアアイテムのフィンガープリント情報が言及した環境オーディオデータのフィンガープリント情報と同一である場合、あるいはメディアアイテムのフィンガープリント情報と言及した環境オーディオデータのフィンガープリント情報との間の類似性の程度が所定の類似性しきい値を満たすかまたは超える場合である。たとえば、所定の類似性しきい値が90%類似性を要求しているとき、初期化済みデータベース内にその環境オーディオデータのフィンガープリント情報との類似性程度が90%を満たすかまたは超えたメディアアイテムのフィンガープリント情報が存在していれば、そのメディアアイテムのフィンガープリント情報は環境オーディオデータのフィンガープリント情報と一致する。

S505において、初期化済みデータベース内のメディアアイテムのフィンガープリント情報が環境オーディオデータのフィンガープリント情報と一致するとの判定に従って、サーバシステムはそのメディアアイテムの属性情報を取得する。

S506において、サーバシステムがクライアントデバイスにこのメディアアイテムの属性情報を返す。簡潔とするため、ステップS506に関するさらなる説明を得るには図4に示した実施形態のステップS403を参照されたい。

本発明の実施形態のサーバシステムがクライアントデバイスによって送信された環境オーディオデータを受け取る場合に、サーバシステムは、環境オーディオデータに対応するメディアアイテムの属性情報を取得するために初期化済みデータベースに基づいて環境オーディオデータについてのオーディオ情報クエリを実施するとともに、クライアントデバイスにこの属性情報を返す。この問合せプロセスはバックグラウンドサーバで実行されており、また、問い合わせようとするオーディオの基本情報をユーザが手作業で入力する必要がなく、オーディオ情報クエリの効率が改善され、また、オーディオ情報クエリの正確性および賢さもまた改善される。

図6は、いくつかの実施形態に従った別のサーバサイドのオーディオ情報問合せ方法の流れ図である。この実施形態では、1つまたは複数のプロセッサおよびメモリを有するサーバシステムで実行されるオーディオ情報問合せの方法の流れ(ステップS601〜S605を含む)について詳述する。

S601において、サーバシステムがクライアントデバイスによって送信された圧縮済みフィンガープリントパケットを受け取る(この圧縮済みフィンガープリントパケットは、クライアントデバイスによって環境オーディオデータから抽出されたフィンガープリント情報に対して実行される圧縮プロセスによって作成される)。

S602において、サーバシステムが環境オーディオデータのフィンガープリント情報を取得するために受け取った圧縮済みフィンガープリントパケットに対して圧縮復元プロセスを実行する。

サーバシステムによって実行される圧縮済みフィンガープリントパケットの圧縮復元プロセスとクライアントデバイスによって実行される収集した環境オーディオデータの抽出されたフィンガープリント情報の圧縮プロセスとは互いに逆のプロセスである。いくつかの実施形態では、このステップで抽出されるフィンガープリント情報はフィンガープリントシーケンスとして表現されており、このフィンガープリントシーケンス内の各フィンガープリントアイテムは(t，ハッシュコード)として表現することが可能である。ここで、このハッシュコードは、環境オーディオデータの重要な音響特性を含んだ固定数のビットによってハッシュコードを表しており、また、tはハッシュコードに対応する時間点(たとえば、タイムスタンプ)を意味している。

S603において、サーバシステムが初期化済みデータベース内のメディアアイテムのフィンガープリント情報が環境オーディオデータのフィンガープリント情報と一致するかどうかを判定する。

S604において、初期化済みデータベース内のメディアアイテムのフィンガープリント情報が環境オーディオデータのフィンガープリント情報と一致するとの判定に従って、サーバシステムがそのメディアアイテムの属性情報を取得する。

S605において、サーバシステムがクライアントデバイスにこのメディアアイテムの属性情報を返す。

簡潔とするため、ステップS603〜S605に関するさらなる説明を得るには図5に示した実施形態のステップS504〜S506を参照されたい。

図5に示した実施形態は図2に示した実施形態に対応し、また、図6に示した実施形態は図3に示した実施形態に対応する。図5に示した実施形態と図6に示した実施形態とでは、オーディオ情報クエリの前にサーバシステムによって実行される処理が異なる。図5に示した実施形態では、サーバシステムによって実行される処理は、サーバシステムがクライアントデバイスから圧縮済みデータパケットを受け取っているために、環境オーディオデータを取得するための圧縮済みデータパケットの圧縮復元と、環境オーディオデータからのフィンガープリント情報の抽出と、を含む。しかしながら、図6に示した実施形態では、クライアントサイドからフィンガープリント圧縮済みパケットを受け取っているため、サーバシステムによって実行される処理は圧縮済みフィンガープリントパケットの圧縮復元を含む。

図4〜図6に示した実施形態では、サーバシステムによって決定されクライアントデバイスによって受け取られるメディアアイテムの属性情報は、メディアアイテムの属性情報(歌曲やテレビドラマのオーディオセグメントなど)または複数のメディアアイテムの属性情報(複数の歌曲や複数のテレビドラマのオーディオセグメントなど)を含むこと、ならびにクライアントデバイスは複数のメディアアイテムの属性情報を包含する場合に複数のメディアアイテムの属性情報またはメディアアイテムの一部分の属性情報を出力するように選択することが可能にされていることに留意すべきである。さらに、サーバシステムが環境オーディオデータに対応するメディアアイテムの属性情報を決定できない場合に、サーバシステムは、クライアントデバイスに問合せ不首尾メッセージを返し、また、クライアントデバイスはオーディオ情報クエリの不首尾をユーザに伝達するためのメッセージを提示することが可能である。

ここで、サウンドを出力するように有効化された1つまたは複数のスピーカ702と、サウンド入力を受け取るように有効化された1つまたは複数のマイクロフォン704と、1回または複数回の接触および表示情報(たとえば、メディアコンテンツ、ウェブページおよび/またはアプリケーションプログラムに関するユーザインタフェース)を受け取るように有効化されたタッチ画面706と、を伴ったそれぞれのクライアントデバイス700上に実装され得るユーザインタフェース(「UI」)の実施形態および関連するプロセスに注意を向ける。図7A〜図7Fは、いくつかの実施形態に従ったオーディオ情報クエリを実行するための例示的なユーザインタフェースを示している。図7A〜図7Fは、クライアントデバイス700(たとえば、モバイルフォン)上に表示されるユーザインタフェース708を示しているが、当業者であれば図7A〜図7Fに示したユーザインタフェースを他の同様のコンピューティングデバイス上に実装し得ることを理解されよう。図1〜図6を参照しながら上で説明した実施形態は、図7A〜図7Fを参照しながら以下に記載する実施形態に関する基礎を提供する。図7A〜図7Fのユーザインタフェースは、本明細書に記載したプロセス(図1〜図6および図13に関して説明したプロセスを含む)を例証するために使用される。

図7Aは、タッチ画面706のユーザインタフェース708においてアプリケーションまたはアプリケーション環境のメディア検出機能を有効化するための制御ボックス710を表示するクライアントデバイス700を示している。図7Aでは、制御ボックス710は、(たとえば、ユーザからのタッチ入力によって)起動させたときにクライアントデバイス700に対して、クライアントデバイス700による環境オーディオデータに対するオーディオ情報クエリの実行を可能にさせるメディア検出機能を有効化させるオン/オフスイッチを含む。また、図7Aでは、ユーザインタフェース708は、(たとえば、ユーザからのタッチ入力によって)起動させたときに、クライアントデバイス700に対してアプリケーションまたはアプリケーション環境の機能のリストを含んだアプリケーションまたはアプリケーション環境に関する機能パネル、あるいはアプリケーションまたはアプリケーション環境の設定インタフェースを表示させる返信アフォーダンス712を含む。また、図7Aでは、ユーザインタフェース708は、(たとえば、ユーザからのタッチ入力によって)起動させたときにクライアントデバイス700に対してメディア検出機能に関する設定パネルを表示させる設定アフォーダンス714を含む。いくつかの実施形態では、メディア検出機能の設定パネルは、第1トリガイベントに関するクライアントデバイス700のイベントまたはソフトウェア/ハードウェア状態に関するリストと、第2トリガイベントに関するクライアントデバイス700のイベントまたはソフトウェア/ハードウェア状態に関するリストと、環境オーディオデータのサンプルの収集に関する周期性を変更するための設定と、オーディオ情報クエリのためにサーバシステムに送信される情報を変更するための設定(たとえば、環境オーディオデータの未処理のサンプル、環境オーディオデータの圧縮済みサンプル、または環境オーディオデータのサンプルの圧縮済みフィンガープリント情報)と、メディア検出機能に関連する他の設定と、を含む。図7Aでは、制御ボックス710内のオン/オフスイッチがオフ位置にある。

また、図7Aは、タッチ画面706上の制御ボックス710内のオン/オフスイッチに対応する箇所への接触716を伴った左から右のスワイプジェスチャーを検出するクライアントデバイス700を示している。接触716を伴った左から右のスワイプジェスチャーの検出に応答して、クライアントデバイス700は、メディア検出機能を有効化するとともに、第1トリガイベントについて監視する。

図7Bは、図7Aでメディア検出機能が有効化された後に、第1トリガイベントの検出に応答して、ユーザインタフェース708に通知718を表示するクライアントデバイス700を示している。第1トリガイベントの検出に応答して、クライアントデバイス700は、マイクロフォン704によって環境オーディオデータのオーディオサンプルを収集する。オーディオサンプルの収集後に、クライアントデバイス700は、この環境オーディオデータのオーディオサンプルに対応する情報をオーディオ情報クエリのためにサーバシステム900に送信する。たとえばオーディオ情報クエリは、環境オーディオデータに対応するメディアアイテム(たとえば、クライアントデバイス700が位置する環境内で流されているオーディオ)に関する属性情報を取得するために実行される。

図7Bでは、通知718は、収集した環境オーディオデータのオーディオサンプルに対応する属性情報(たとえば、オーディオ情報クエリの出力)を取得する前にユーザインタフェース708に表示される。図7Bでは、通知718は、ユーザに対してオーディオ情報クエリが実行される間待機するように命令するテキストと、(たとえば、クライアントデバイス700のユーザからのタッチ入力によって)起動させたときにクライアントデバイス700に対してオーディオ情報クエリを中止し(abort)通知718の表示を停止させるようなキャンセルアフォーダンス720と、を含む。

図7Cは、サーバシステム900からの属性情報の取得後に、環境オーディオデータの収集した第1のオーディオサンプルに対応するメディアアイテムに関する属性情報を伴ったオーディオ情報問合せ結果インタフェースを表示するクライアントデバイス700を示している。図7Cでは、環境オーディオデータに対応するユーザインタフェース708に表示される属性情報は、バナー720にあるアーティスト名(たとえば、Bill Withers)、歌曲タイトル(たとえば、Lean on Me)、アルバム名(たとえば、Still Bill)、および発売日データ(たとえば、1972)を含む。また、図7Cでは、ユーザインタフェース708に表示される属性情報は、アルバムカバー画像722および歌詞724(歌詞724は、属性情報内で提供される時間インジケータに基づいて環境オーディオデータと同期させている)を含む。図7Cでは、そのメディアアイテムの歌詞の目下の行または文724bが主表示位置に表示され、歌詞の直前の行または文724aがフェードアウトされ、また、歌詞の次の行または文724cがフェードインされる。

また、図7Cは、(たとえば、クライアントデバイス700のユーザからのタッチ入力によって)起動させたときにクライアントデバイス700に対して、再生を環境オーディオデータと同期させるように直近の時間インジケータまたはタイムスタンプから1つまたは複数のスピーカ702を介して(または、ヘッドフォンジャックを通じたり1つまたは複数の外部スピーカへのワイヤレスプロトコルを経由したりして)メディアアイテムの再生を行わせるために属性情報内のURLリンクまたはストリーム情報を分解または実行させるようなプレイアフォーダンス726を表示するクライアントデバイス700を示している。図7Cはさらに、(たとえば、クライアントデバイス700のユーザからのタッチ入力によって)起動させたときにクライアントデバイス700に対してオーディオ情報問合せ結果インタフェースを表示させるような返信アフォーダンス728と、(たとえば、クライアントデバイス700のユーザからのタッチ入力によって)起動させたときにクライアントデバイス700に対して共有インタフェース(たとえば、図7Fに示すもの)を表示させるような共有アフォーダンス730と、を表示するクライアントデバイス700を示している。

図7Dは、メディアアイテムに関する歌詞の目下の行または文724cを主表示位置に表示しており、歌詞の直前の行または文724bがフェードアウトされており、かつ歌詞の次の行または文724dがフェードインされているクライアントデバイス700を示している。また、図7Dは、クライアントデバイス700のユーザの注意をメディアアイテムの目下の言葉に引きつけるために歌詞の目下の行または文724cの第1の言葉(たとえば、短縮形「I'll」)の上に表示させたフォーカスインジケータ732(たとえば、矢印または逆V字山形紋)を表示するクライアントデバイス700を示している。いくつかの実施形態では、そのフォーカスインジケータは、ユーザの注意を目下の言葉に引きつけるユーザインタフェース708上に表示された追加の要素(たとえば、矢印)である。いくつかの実施形態では、そのフォーカスインジケータは、ユーザの注意を目下の言葉に引きつけるために、目下の言葉の視覚的特性を変化(たとえば、目下の言葉に対するボールド体化、イタリック体化、フォントサイズの増加、または大文字化)させる。たとえば図7D〜図7Eでは、フォーカスインジケータ732はユーザに対して、カラオケやシングアロングと類似の方式でそのメディアアイテムの歌詞に従うことを可能にする。

図7Eは、クライアントデバイス700のユーザの注意をメディアアイテムの目下の言葉に引きつけるために歌詞の目下の行または文724cの第2の言葉(たとえば、「help」)の上にフォーカスインジケータ732を表示するクライアントデバイス700を示している。また、図7Eは、タッチ画面706上の共有アフォーダンス730に対応する箇所への接触734を検出するクライアントデバイス700を示している。

図7Fは、図7Eにおける接触734の検出に応答して、タッチ画面706上に共有インタフェースを表示するクライアントデバイス700を示している。いくつかの実施形態では、その共有インタフェースは、クライアントデバイス700のユーザに対して、検出したメディアアイテムに関する取得属性情報の少なくとも一部分を、ターゲットアプリケーション(たとえば、現在のアプリケーションまたはアプリケーション環境あるいは選択したソーシャルネットワーキングサービス)を使用する別のユーザと共有することを可能にする。また、いくつかの実施形態では、その共有インタフェースは、クライアントデバイス700のユーザに対して、受領者がそのメディアアイテムをストリーミングするまたは聴くことを可能にするように取得属性情報のURLリンクまたはストリーム情報を共有することを可能にする。

図7Fでは、その共有インタフェースは、属性情報の一部分を共有する主体である異なるアプリケーション(たとえば、ソーシャルネットワーキングサービス)に対応する複数の選択可能なターゲットアプリケーションアイコン738を伴ったターゲットアプリケーション選択ボックス736を含む。また、図7Fでは、その共有インタフェースは、属性情報の一部分を共有する相手である接触者(たとえば、クライアントデバイス700上のユーザの接触者ライブラリに格納された接触者)に対応する複数の選択可能な接触者アイコン742を伴った接触者ボックス740を含む。図7Fでは、その共有インタフェースはさらに、ユーザに対して共有された属性情報と一緒に含めようとするメッセージを(たとえば、仮想キーボードを介するか、クライアントデバイス700が音声認識技術を含む場合に聴取式で)入力することを可能にさせるメッセージボックス744と、選択した接触者とで共有しようとする属性情報を表示する属性情報ボックス746と、を含む。また、図7Fは、(たとえば、クライアントデバイス700のユーザからのタッチ入力によって)起動させたときにクライアントデバイス700に対して共有動作をキャンセルし図7Eにおけるオーディオ情報問合せ結果インタフェースを再表示させるようなキャンセルアフォーダンス748を表示するクライアントデバイス700を示している。図7Fはさらに、(たとえば、クライアントデバイス700のユーザからのタッチ入力によって)起動させたときにクライアントデバイス700に対して属性情報の少なくとも一部分を共有させる送信アフォーダンス750を表示するクライアントデバイス700を示している。いくつかの実施形態では、ターゲットアプリケーション738がまったく選択されていない場合に、クライアントデバイス700は、現在のアプリケーションまたはアプリケーション環境または最も頻繁に使用されるソーシャルネットワーキングサービスを介して属性情報を共有する。

図7Fはさらに、送信アフォーダンス750に対応する箇所における接触752の検出を示している。送信アフォーダンス750の選択の検出に応答して、クライアントデバイス700は、属性情報ボックス746に表示された属性情報(また、任意選択で、メディアアイテムをかけるためのURLまたはストリーム情報)とメッセージボックス744内のメッセージとをターゲットアプリケーション選択ボックス736内で選択された1つまたは複数のターゲットアプリケーション738を介して接触者ボックス740内に選択された1人または複数人の接触者742と共有する。

図8A〜図8Cは、いくつかの実施形態に従ったクライアントデバイスの構造を導入する。以下のクライアントデバイスは図1〜図3で上述した方法に適用可能であることに留意すべきである。

図8Aは、いくつかの実施形態に従ったクライアントデバイス700-aの構造概要図である。クライアントデバイス700-aは、収集モジュール804と、クエリモジュール806と、情報収集モジュール808と、出力モジュール810と、を含む。

収集モジュール804は、第1トリガイベントの検出に応答して環境オーディオデータを収集するように構成されている。

クエリモジュール806は、収集した環境オーディオデータをオーディオ情報クエリのためにサーバシステムに送信するように構成されている。

情報収集モジュール808は、サーバシステムによって決定された環境オーディオデータに対応するメディアアイテムの属性情報を取得するように構成されている。

出力モジュール810は、環境オーディオデータに対応するメディアアイテムの属性情報を出力される問合せ結果として取るように構成されている。

本発明の実施形態のクライアントデバイスがオーディオ情報クエリに関する第1トリガイベントを検出すると、クライアントデバイスは、環境オーディオデータを自動的に収集するとともに、収集した環境オーディオデータに対応するメディアアイテムの属性情報についてオーディオ情報クエリを実行するためにこの環境オーディオデータをサーバシステムに送信する。このオーディオ情報問合せ動作は単純かつ高速であり、また、問い合わせようとするオーディオの基本情報をユーザが手作業で入力する必要がなく、オーディオ情報クエリの効率が改善され、また、オーディオ情報クエリの正確性および賢さもまた改善される。

図8Bは、いくつかの実施形態に従ったクライアントデバイス700-bの構造図である。クライアントデバイス700-bは、収集モジュール804と、クエリモジュール806と、情報収集モジュール808と、出力モジュール810と、共有モジュール812と、を含む。簡潔とするため、収集モジュール804、クエリモジュール806、情報収集モジュール808、および出力モジュール810の説明を得るには図8Aに示した実施形態を参照されたい。

共有モジュール812は、クライアントデバイス700-bが共有動作を検出したときにターゲットアプリケーションを介してメディアアイテムの属性情報の少なくとも一部分を共有するように構成されている。

図8Cは、いくつかの実施形態に従った図8A〜図8Bに含まれるクエリモジュールの構造概要図である。クエリモジュール806は、処理ユニット814と、クエリユニット816と、を含む。

処理ユニット814は、圧縮済みデータパケットを作成するために収集した環境オーディオデータに対して圧縮処理を実行するように構成されている。また、処理ユニット814は、収集した環境オーディオデータからフィンガープリント情報を抽出するとともに、環境オーディオデータの抽出したフィンガープリント情報に対して圧縮処理を実行し圧縮済みフィンガープリントパケットを作成するように構成されている。

クエリユニット816は、オーディオ情報クエリのために圧縮済みデータパケットまたは圧縮済みフィンガープリントパケットをサーバシステムに送信するように構成されている。

本発明の実施形態のクライアントデバイスがオーディオ情報クエリの第1トリガイベントを検出すると、クライアントデバイスは、環境オーディオデータを自動的に収集するとともに、収集した環境オーディオデータに対応するメディアの属性情報についてオーディオ情報クエリを実行するためにこの環境オーディオデータをサーバシステムに送信する。このオーディオ情報問合せ動作は単純かつ高速であり、また、問い合わせようとするオーディオの基本情報をユーザが手作業で入力する必要がなく、オーディオ情報クエリの効率が改善され、また、オーディオ情報クエリの正確性および賢さもまた改善される。さらにこの実施形態では、メディアアイテムに対応する検索済み属性情報の共有によってソーシャル活動の利便性が前進する。

図9A〜図9Bは、いくつかの実施形態に従ったサーバシステムの構造を導入する。以下のサーバシステムは図4〜図6について上述した方法に適用可能であることに留意すべきである。

図9Aは、いくつかの実施形態に従ったサーバシステム900の構造概要図である。サーバシステム900は、受信機モジュール902と、クエリモジュール904と、情報返信モジュール906と、を含む。

受信機モジュール902は、クライアントデバイスによって送信された環境オーディオデータを受け取るように構成されている。いくつかの実施形態では、受信機モジュール902は、クライアントデバイスによって送信された圧縮済みデータパケットを受け取るように構成されている。いくつかの実施形態では、受信機モジュール902は、クライアントデバイスによって送信された圧縮済みフィンガープリントパケットを受け取るように構成されている。

クエリモジュール904は、受け取った環境オーディオデータを初期化済みデータベース内のメディアアイテムと一致判定することによってそのメディアアイテムの属性を取得するように構成されている。

情報返信モジュール203は、クライアントデバイスにこのメディアアイテムの属性情報を返すように構成されている。

図9Bは、いくつかの実施形態に従った図9Aに含まれるクエリモジュールの構造概要図である。クエリモジュール904は、処理ユニット908と、クエリユニット910と、を含む。

処理ユニット908は、環境オーディオデータを取得するために受け取った圧縮済みデータパケットに対して圧縮復元プロセスを実行するとともに、この取得した環境オーディオデータからフィンガープリント情報を抽出するように構成されている。処理ユニット908は、環境オーディオデータのフィンガープリント情報を取得するために受け取った圧縮済みフィンガープリントパケットに対して圧縮復元プロセスを実行するように構成されている。

クエリユニット910は、初期化済みデータベース内のメディアアイテムのフィンガープリント情報が環境オーディオデータのフィンガープリント情報と一致するかどうかを判定するように構成されている。また、クエリユニット910は、初期化済みデータベース内のメディアアイテムのフィンガープリント情報が環境オーディオデータのフィンガープリント情報と一致するとの判定に従ってメディアアイテムの属性情報を取得するように構成されている。

図10に示したように、いくつかの実施形態では、オーディオ情報クエリがクライアント-サーバ環境1000内に実装される。オーディオ情報クエリは、クライアントデバイス700-1、700-2上で実行されるクライアントサイド部分1002-1、1002-2(以下では、「AIQクライアント1002」と呼ぶ)と、サーバシステム900上で実行されるサーバサイド部分1004(以下では、「AIQサーバ1004」と呼ぶ)と、を含む。AIQクライアント1002は、1つまたは複数のネットワーク1010を通じてAIQサーバ1004と通信する。AIQクライアント1002は、クライアント対応の入力および出力処理などのクライアントサイド機能を提供するとともに、AIQサーバ1004と通信する。AIQサーバ1004は、その各々がそれぞれのクライアントデバイス700上に配置された任意の数のAIQクライアント1002向けにサーバサイド機能を提供する。

いくつかの実施形態では、AIQサーバ1004は、AIQクライアントに対するI/Oインタフェース1012と、クエリモジュール904と、初期化済みデータベース1006と、外部サービスに対するI/Oインタフェース1014と、を含む。AIQクライアントに対するI/Oインタフェース1012は、AIQサーバ1004向けのクライアント対応の入力および出力処理を容易にする。クエリモジュール904は、AIQクライアント1002から受け取った環境オーディオデータを初期化済みデータベース1006内に格納されたメディアアイテムと一致判定するとともに、初期化済みデータベース1006内に格納された一致したメディアアイテムに対応する属性情報を取り出す。いくつかの実施形態では、AIQサーバ1004は、情報収集や他のサービスのために1つまたは複数のネットワーク1010を通じて外部サービス1016と通信する。外部サービスに対するI/Oインタフェース1014はこのような通信を容易にする。

クライアントデバイス700の例には、ハンドヘルド型コンピュータ、ウェアラブルコンピューティングデバイス、パーソナルディジタルアシスタント(PDA)、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、携帯電話機、スマートフォン、拡張汎用パケット無線サービス(EGPRS)モバイルフォン、メディアプレーヤ、ナビゲーションデバイス、ゲームコンソール、テレビ、リモート制御、またはこれらのデータ処理デバイスや他のデータ処理デバイスのうちの任意の2つ以上を組み合わせたもの(ただし、これらに限らない)が含まれる。

1つまたは複数のネットワーク1010の例には、ローカルエリアネットワーク(「LAN」)およびインターネットなどのワイドエリアネットワーク(「WAN」)が含まれる。通信ネットワーク1010は、任意選択で、イーサネット(登録商標)、ユニバーサルシリアルバス(USB)、FIREWIRE(登録商標)、グローバルシステムフォーモバイル通信(GSM(登録商標))、拡張データGSM環境(EDGE)、コード分割多元接続(CDMA)、時分割多元接続(TDMA)、ブルートゥース(登録商標)、Wi-Fi、ボイスオーバインターネットプロトコル(VoIP)、Wi-MAX、または他の適当な通信プロトコルなどの様々な有線式またはワイヤレス式のプロトコルを含む周知の任意のネットワークプロトコルを用いて実装される。

サーバシステム900は、1つまたは複数のスタンドアロンのデータ処理装置あるいはコンピュータの分散ネットワークの上に実装される。また、いくつかの実施形態では、サーバシステム900は、サーバシステム900の基礎的コンピューティングリソースおよび/または基盤リソースを提供するために、サードパーティサービスプロバイダ(たとえば、サードパーティのクラウドサービスプロバイダ)の様々な仮想デバイスおよび/またはサービスを利用する。

図10に示したクライアント-サーバ環境1000は、クライアントサイド部分(たとえば、AIQクライアント1002)とサーバサイド部分(たとえば、AIQサーバ1004)との両方を含むが、いくつかの実施形態では、オーディオ情報クエリは、ユーザデバイス700上にインストールされたスタンドアロンアプリケーションとして実装されている。さらに、オーディオ情報クエリに関するクライアント部分とサーバ部分との間での機能の分割は実施形態が異なれば様々となり得る。たとえばいくつかの実施形態では、AIQクライアント1002はユーザ対応の入力および出力処理機能だけしか提供せず、他のすべてのオーディオ情報問合せ機能はバックエンドサーバ(たとえば、サーバシステム900)に委託しているシンクライアントである。

図11は、いくつかの実施形態に従ったユーザに関連付けされた代表的なクライアントデバイス700を示したブロック図である。クライアントデバイス700は、典型的には、1つまたは複数の処理ユニット(CPU)1102と、1つまたは複数のネットワークインタフェース1104と、メモリ1106と、これらの構成要素(ときに、チップセットとも呼ぶ)を相互接続するための1つまたは複数の通信バス1108と、を含む。また、クライアントデバイス700は、ユーザインタフェース1110を含む。ユーザインタフェース1110は、1つまたは複数のスピーカ(たとえば、図7A〜図7Fのスピーカ702)および/または1つまたは複数の視覚的ディスプレイ(たとえば、図7A〜図7Fのタッチ画面ディスプレイ706)を含む、メディアコンテンツの提示を可能とさせる1つまたは複数の出力デバイス1112を含む。また、ユーザインタフェース1110は、キーボード、マウス、音声コマンド入力ユニット、またはマイクロフォン(たとえば、図7A〜図7Fのマイクロフォン704)、タッチ画面ディスプレイ(たとえば、図7A〜図7Fのタッチ画面ディスプレイ706)、タッチ検知入力パッド、ジェスチャー取込み用カメラ、または他の入力ボタンや制御子などユーザ入力を容易にするユーザインタフェース構成要素を含む、1つまたは複数の入力デバイス1114を含む。さらにいくつかのクライアントデバイス700は、マイクロフォンと音声認識、またはカメラとジェスチャー認識を使用してキーボードを補完するまたはキーボードの代用としている。メモリ1106は、DRAM、SRAM、DDR RAM、または他のランダムアクセス半導体メモリデバイスなどの高速ランダムアクセスメモリを含み、また、任意選択で、1つまたは複数の磁気ディスク記憶デバイス、光ディスク記憶デバイス、フラッシュメモリデバイス、または他の不揮発性半導体記憶デバイスなどの不揮発性メモリを含む。メモリ1106は任意選択で、CPU1102からリモートに配置させた1つまたは複数の記憶デバイスを含む。メモリ1106(またあるいは、メモリ1106内の不揮発性メモリデバイス)は、非一時的なコンピュータ読み取り可能記憶媒体を含む。いくつかの実装形態では、メモリ1106(またあるいは、メモリ1106の非一時的なコンピュータ読み取り可能記憶媒体)は、以下に示したプログラム、モジュールおよびデータ構造、またはこれらの部分集合や上位集合を格納している。

□ 様々な基本的システムサービスを取扱うため、およびハードウェア依存のタスクを実行するための手続きを含むオペレーティングシステム1116;

□ 1つまたは複数の通信ネットワークインタフェース1104(有線式またはワイヤレス式)を介して1つまたは複数のネットワーク1010に接続された他のコンピュータ(たとえば、サーバシステム900)にユーザデバイス700を接続するためのネットワーク通信モジュール1118;

□ ユーザインタフェース1110に関連付けされた1つまたは複数の出力デバイス1112(たとえば、ディスプレイ、スピーカなど)を介してクライアントデバイス700における情報の提示を可能にさせるための提示モジュール1120(たとえば、ウェブページやアプリケーションプログラム、オーディオおよび/またはビデオコンテンツ、テキストなどに対するユーザインタフェース);

□ 1つまたは複数の入力デバイス1114のうちの1つから1つまたは複数のユーザ入力または対話を検出するとともに、この検出された入力または対話を解釈するための入力処理モジュール1122;

□ クライアントデバイス700に対してオーディオ情報クエリ(たとえば、オーディオ情報クエリモジュール1124はアプリケーションまたはアプリケーション環境内の一機能である)の実行を可能にさせるためのオーディオ情報クエリモジュール1124であって、以下のもの(ただし、これらに限らない)を含む;

○ 第1トリガイベントについての検出/監視のための第1トリガイベントモジュール1126;

○ 第1トリガイベントの検出に応答して、1つまたは複数の入力デバイス1114(たとえば、マイクロフォン)によって環境オーディオデータを収集するための収集モジュール804;

○ オーディオ情報クエリのために収集した環境オーディオデータを処理してサーバシステム900に送信するためのクエリモジュール806であって、以下を含む;

▽ 収集した環境オーディオデータに対して圧縮および/または抽出フィンガープリント情報抽出処理を実行するための処理ユニット814;

▽ オーディオ情報クエリのために圧縮済みデータパケットまたは圧縮済みフィンガープリントパケットをサーバシステム900に送信するためのクエリユニット816;

○ サーバシステム900によって決定された環境オーディオデータに対応するメディアアイテムの属性情報を取得するための情報収集モジュール808;

○ 環境オーディオデータに対応するメディアアイテムの属性情報を出力される問合せ結果として取るための出力モジュール810;

○ 共有動作の検出に応答して、ターゲットアプリケーションを介してメディアアイテムの属性情報の少なくとも一部分を共有するための共有モジュール812;

○ 第1トリガイベントと異なる第2トリガイベントについて検出/監視するための第2トリガモジュール1128;

○ 第2トリガイベントの検出に応答して、環境オーディオデータに対応するオーディオをストリーミングする(または、環境オーディオデータに対応するオーディオへのURLリンクを分解する)ためのストリーミングモジュール1130;

□ クライアントデバイス700に関連するデータを格納するための1つまたは複数のクライアントデータモジュール1132であって、以下のもの(ただし、これらに限らない)を含む;

○ サーバシステム900または他のコンピューティングデバイスから受け取ったコンテンツ(たとえば、属性情報またはストリーミングオーディオ)を一時的に格納するためのメディアコンテンツバッファ1134;

○ 受け取ったコンテンツをメディアコンテンツのユーザの個人的なライブラリの一部として格納するためのメディアコンテンツデータベース1136。

上で特定した要素の各々は、上で言及したメモリデバイスのうちの1つまたは複数に格納されることがあり、また、上に記載した機能を実行するための命令セットに対応する。上で特定したモジュールまたはプログラム(すなわち、命令セット)は、必ずしも単独のソフトウェアプログラム、手続き、モジュールまたはデータ構造として実装される必要がなく、したがって様々な実装形態においてこれらのモジュールからなる様々な部分集合を組み合わせること、また、そうでなければ再配置させることがあり得る。いくつかの実装形態では、メモリ1106は、任意選択で、上で特定されたモジュールやデータ構造からなる部分集合を格納する。さらにメモリ1106は、任意選択で、上に記載していない追加のモジュールやデータ構造を格納する。

図12は、いくつかの実施形態に従ったサーバシステム900を示したブロック図である。サーバシステム900は、典型的には、1つまたは複数の処理ユニット(CPU)1202と、1つまたは複数のネットワークインタフェース1204と、メモリ1206と、これらの構成要素(ときに、チップセットとも呼ぶ)を相互接続するための1つまたは複数の通信バス1208と、を含む。メモリ1206は、DRAM、SRAM、DDR RAM、または他のランダムアクセス半導体メモリデバイスなどの高速ランダムアクセスメモリを含み、また、任意選択で、1つまたは複数の磁気ディスク記憶デバイス、光ディスク記憶デバイス、フラッシュメモリデバイス、または他の不揮発性半導体記憶デバイスなどの不揮発性メモリを含む。メモリ1206は任意選択で、CPU1202からリモートに配置させた1つまたは複数の記憶デバイスを含む。メモリ1206(またあるいは、メモリ1206内の不揮発性メモリデバイス)は、非一時的なコンピュータ読み取り可能記憶媒体を含む。いくつかの実装形態では、メモリ1206(またあるいは、メモリ1206の非一時的なコンピュータ読み取り可能記憶媒体)は、以下に示したプログラム、モジュールおよびデータ構造、またはこれらの部分集合や上位集合を格納している。

□ 様々な基本的システムサービスを取扱いかつハードウェア依存のタスクを実行するための手続きを含むオペレーティングシステム1210;

□ 1つまたは複数のネットワークインタフェース1204(有線式またはワイヤレス式)を介して1つまたは複数のネットワーク1010に接続された他のコンピューティングデバイス(たとえば、クライアントデバイス700)にサーバシステム900を接続するために使用されるネットワーク通信モジュール1212;

□ サーバシステム900に対してクライアントデバイス700によって要求されたオーディオ情報クエリの実行を可能にさせるためのオーディオ情報クエリモジュール1214であって、以下のもの(ただし、これらに限らない)を含む;

○ オーディオ情報クエリのためにクライアントデバイスによって送信された環境オーディオデータを受け取るための受信機モジュール902;

○ 受け取った環境オーディオデータを初期化済みデータベース1006内のメディアアイテムと一致判定することによってメディアアイテムの属性を取得するためのクエリモジュール904であって、以下を含む;

▽ 受け取った環境オーディオデータに対する圧縮復元および/または受け取った環境オーディオデータからのフィンガープリント情報の抽出を実行するための処理ユニット908;

▽ 初期化済みデータベース1006内のメディアアイテムのフィンガープリント情報が環境オーディオデータのフィンガープリント情報と一致するかどうかを判定するとともに、初期化済みデータベース1006内のメディアアイテムのフィンガープリント情報が環境オーディオデータのフィンガープリント情報と一致するとの判定に従ってそのメディアアイテムの属性情報を取得するためのクエリユニット910;

○ メディアアイテムの属性情報を要求元のクライアントデバイス700に戻すための情報返信モジュール906;

□ サーバシステム900に関連するデータを格納するための1つまたは複数のサーバデータモジュール1216であって、以下のもの(ただし、これに限らない)を含む;

○ 複数のメディアアイテムに対応するマーク、フィンガープリント情報および属性情報を伴った複数のメディアアイテムを含む初期化済みデータベース1006。

上で特定した要素の各々は、上で言及したメモリデバイスのうちの1つまたは複数に格納されることがあり、また、上に記載した機能を実行するための命令セットに対応する。上で特定したモジュールまたはプログラム(すなわち、命令セット)は、必ずしも単独のソフトウェアプログラム、手続き、またはモジュールとして実装される必要がなく、したがって様々な実装形態においてこれらのモジュールからなる様々な部分集合を組み合わせること、また、そうでなければ再配置させることがあり得る。いくつかの実装形態では、メモリ1206は、任意選択で、上で特定されたモジュールやデータ構造からなる部分集合を格納する。さらにメモリ1206は、任意選択で、上に記載していない追加のモジュールやデータ構造を格納する。

図12はサーバシステム900を示しているが、図12は本明細書に記載した実装形態の構造の概要とするよりも、サーバ一式で提示し得る様々な特徴に関する機能的な説明とすることをより意図されている。実際に、また、当業者により理解されるように、単独で示したアイテムを合成することも可能であり、また、いくつかのアイテムを分離することも可能である。たとえば、図12に別々に示したいくつかのアイテムが単一のサーバ上に実装される可能性があり、また、単一のアイテムが1つまたは複数のサーバによって実装される可能性がある。サーバシステム900の実装に使用されるサーバの実際の数やこれらの間において特徴をどのように割り当てるかは、実装形態ごとに様々となる。

図13は、いくつかの実施形態に従ったクライアント-サーバ環境内でオーディオ情報クエリを実行する方法の流れ図である。このクライアント-サーバ環境は、1つまたは複数のプロセッサとメモリとを含んだクライアントデバイス700を含み、また、任意選択でマイクロフォン、スピーカ、およびディスプレイと、1つまたは複数のプロセッサとメモリとを含んだサーバシステム900と、を含む。図1〜図7に関連して上に記載した実施形態は、図13を参照しながら以下に記載する実施形態に対する基礎を提供する。

一例では、ユーザは地元の喫茶店でスピーカを通じて流された歌曲を聴いており、その歌曲のアーティストおよびタイトルを知りたいと希望する。この例では、メディア検出特徴を有するアプリケーションまたはアプリケーション環境がユーザのモバイルフォン上で実行されている間に、ユーザはモバイルフォンを振ってメディア検出特徴をトリガする。振る動作に応答して、モバイルフォンは、スピーカを通じて流された歌曲を含むバックグラウンドオーディオのオーディオサンプルを記録するとともに、このオーディオサンプルに関連する情報をサーバに送る。これに対してサーバは、オーディオサンプルをメディアアイテムと一致判定するためにオーディオ情報クエリを実行する。一致が成立した場合サーバはこのメディアアイテムに関する属性情報(たとえば、その歌曲のアーティスト名やタイトル)を返す。引き続き、ユーザがその喫茶店を離れるか再生アフォーダンスを選択した場合、モバイルフォンはバックグラウンドオーディオと同期した歌曲を流す。ユーザはさらに、実行されるアプリケーションや選択した別のターゲットアプリケーション(たとえば、ソーシャルネットワーキングサービス)を介してその歌曲を接触者と共有することが可能にされている。

クライアントデバイス700は、アプリケーションまたはアプリケーション環境を実行する(1302)。たとえばユーザは、クライアントデバイス上でアプリケーションを選択するとともに、そのアプリケーションのメディア検出特徴を有効化する(まだ有効化されていない場合)。図7Aは、たとえば、アプリケーションまたはアプリケーション環境にある間にユーザがメディア検出機能を有効化しているところを示している。

クライアントデバイス700は第1トリガイベントを検出する(1304)。いくつかの実施形態では、そのトリガイベントは、アプリケーションがフォアグラウンド(たとえば、アプリケーションが現在表示される)またはバックグラウンド(たとえば、アプリケーションは現在表示されていないが、第1トリガイベントについて監視中である)のいずれかで実行されている間に検出される。いくつかの実施形態では、第1トリガイベントがアプリケーションまたはアプリケーション環境においてある具体的なアフォーダンス(たとえば、図7Eのプレイアフォーダンス726)が選択されたときに発生しており、アプリケーションまたはアプリケーション環境にある間に所定の音声コマンド(たとえば、「歌曲を見つけ出す」または「オーディオ情報クエリを実行する」)が受け取られており、アプリケーションまたはアプリケーション環境にある間にタッチ画面706上で所定のジェスチャー(たとえば、指2本以上によるダブルタッチ)が検出されており、あるいはアプリケーションまたはアプリケーション環境にある間に重力誘導イベントまたは所定のしきい値を超える速度や加速度の変化(たとえば、ユーザがクライアントデバイス700を振ること)がクライアントデバイス700の加速度計によって検出されている。

第1トリガイベントの検出に応答して、クライアントデバイス700は、環境オーディオデータのサンプルを収集する(1306)。たとえばクライアントデバイス700は、環境データをマイクロフォン704によって収集する。いくつかの実施形態では、第1トリガが発生したときに、クライアントデバイス700は、環境オーディオデータからオーディオサンプルを1つだけ収集するか、所定の時間間隔に従って(たとえば、1秒ごと、5秒ごと、10秒ごとなどの秒単位で)環境オーディオデータのオーディオサンプルを周期的に収集するか、あるいは環境オーディオデータのオーディオサンプルを連続的に収集する。

クライアントデバイス700は、収集した環境オーディオデータに対応する情報をサーバシステム900に送信する(1308)。いくつかの実施形態では、クライアントデバイス700は、サーバシステム900への送信の前に、収集したオーディオサンプルに対して図2を参照しながら上で説明したような圧縮プロセスおよび/または図3を参照しながら上で説明したようなフィンガープリント情報抽出プロセスを実行することによって環境オーディオデータの収集したサンプルを処理する。これに対してクライアントデバイス700は、圧縮オーディオサンプル、フィンガープリント情報または圧縮済みフィンガープリント情報をサーバシステム900に送信する。

サーバシステム900は、クライアントデバイス700から情報を受け取る(1310)。いくつかの実施形態では、サーバシステム900は、圧縮済みのオーディオサンプルを受け取ると、図5を参照しながら上で説明したように圧縮済みオーディオサンプルに対して圧縮復元およびフィンガープリント抽出プロセスを実行する。いくつかの実施形態では、サーバシステム900は、圧縮済みフィンガープリント情報を受け取ると、図6を参照しながら上で説明したように圧縮済みフィンガープリント情報に対して圧縮復元抽出プロセスを実行する。

サーバシステム900は、受け取った情報と一致するメディアアイテムを判定するとともに、この一致の判定に応答して、そのメディアアイテムに対応する属性情報を取得する(1312)。いくつかの実施形態では、サーバシステム900またはサーバシステム900と通信可能に結合されたリモートデータベースは、メディアアイテムのまたはメディアアイテムの表象(たとえば、オーディオフィンガープリント)およびメディアアイテムの各々に対応する属性情報からなる集積体(たとえば、初期化済みデータベース1006)を格納している。いくつかの実施形態では、そのメディアアイテムは、歌曲、テレビ番組、ラジオ番組、映画などである。いくつかの実施形態では、属性情報は、アーティスト名や作曲者名、タイトル、アルバム名、録音日や発売日、アルバムカバーや他のプレビュー画像、歌詞、および/または他の記述的情報を含むメディアアイテムに対応するメタデータである。いくつかの実施形態では、属性情報はさらに、再生のためのURLリンクやストリーム情報と、再生と歌詞を同期させるためのオーディオサンプルの時間インジケータやタイムスタンプと、を含む。

サーバシステム900は、メディアアイテムに対応する属性情報をクライアントデバイス700に送信する(1314)。いくつかの実施形態では、サーバシステム900は、受け取った情報と一致するメディアアイテムの判定ができないとき、ユーザに対して「再試行」を促すエラーメッセージまたは通知をクライアントデバイス700に送信する。

クライアントデバイス700は、サーバシステム900からメディアアイテムに対応する属性情報を受け取る(1316)。

クライアントデバイス700は、メディアアイテムに対応する属性情報の少なくとも一部分を表示する(1318)。図7C〜図7Eは、たとえば、クライアントデバイス700によるメディアアイテムに関する属性情報とのオーディオ情報問合せ結果インタフェースの表示を示している。図7C〜図7Eでは、その属性情報は、バナー720内に表示させたアーティスト名、歌曲タイトル、アルバム名、および発売日を含む。また、図7C〜図7Eでは、その属性情報は、アルバムカバー画像722および歌詞724を含む。

クライアントデバイス700は、第2トリガイベントを検出する(1320)。いくつかの実施形態では、その第2トリガイベントは、ユーザが実行されているアプリケーションまたはアプリケーション環境内でプレイアフォーダンスを選択したときに発生しているか、収集したオーディオサンプルはメディアアイテムともはや一致していないか(たとえば、ユーザは環境オーディオデータが最初に収集された箇所を離れているか)、あるいはGPSやネットワーク信号はクライアントデバイスがもはや環境オーディオが最初に収集された箇所にないことを示す。たとえばクライアントデバイス700は、図7Eにおいてプレイアフォーダンス726に対応する箇所で接触を検出する。この例では、プレイアフォーダンス726の選択が第2トリガイベントである。

クライアントデバイス700は、時間インジケータに基づいてメディアアイテムを提示する(1322)。たとえば図7Eにおけるプレイアフォーダンス726の選択の検出に応答して、クライアントデバイス700は、再生を環境オーディオデータと同期させるように直近の時間インジケータまたはタイムスタンプから1つまたは複数のスピーカ702を介してメディアアイテムの再生を行わせるために、サーバシステム900から受け取った属性情報内のURLリンクまたはストリーム情報を分解または実行する。

いくつかの実施形態では、クライアントデバイス700は、共有動作を検出する(1324)。図7Eは、たとえば、クライアントデバイス700による共有アフォーダンス730の選択の検出を示している。図7Eにおける共有アフォーダンス730の選択の検出に応答して、図7Fは、たとえば、クライアントデバイス700による属性情報の一部分を共有するために用いるターゲットアプリケーションを選択するためのアプリケーションアイコン738と、属性情報の当該一部分を共有する相手となる接触者を選択するための接触者アイコン742と、を伴った共有インタフェースの表示を示している。

いくつかの実施形態では、共有動作の検出に応答して、クライアントデバイス700はターゲットアプリケーションを介して属性情報の少なくとも一部分を共有する(1326)。図7Fは、たとえば、クライアントデバイス700による送信アフォーダンス750の選択の検出を示している。送信アフォーダンス750の選択の検出に応答して、クライアントデバイス700は、属性情報ボックス746内に表示された属性情報(また、任意選択で、メディアアイテムを再生するためのURLやストリーム情報)ならびにメッセージボックス744内のメッセージを、ターゲットアプリケーション選択ボックス736内で選択されたターゲットアプリケーション738を介して接触者ボックス740内で選択された1人または複数人の接触者742と共有する。

上では特定の実施形態について説明しているが、本発明をこれらの特定の実施形態に限定することを意図していないことを理解されたい。むしろ本発明は、添付の特許請求の範囲の精神および趣旨の域内にあるような代替形態、修正形態、および等価形態を含む。本明細書に提示した主題に対する完全な理解を提供するため多数の具体的な詳細が列挙されている。しかしながら、こうした主題は、これらの具体的な詳細を伴わずに実施され得ることは当業者には明らかであろう。他の例として、既知の方法、手続き、構成要素、および回路については、これらの実施形態の態様が不必要に不明瞭にならないように詳細に記載していない。

本明細書における本発明の説明に使用した用語は特定の実施形態の記述のみを目的としたものであり、本発明を限定することを意図していない。本発明の説明および添付の特許請求の範囲で使用する場合に、単数形の「a」、「an」、および「the」は、そのコンテキストによってそうでないことが明瞭に示されない限りは、その複数形をも含むことを意図している。さらに、本明細書で使用する場合に「および/または」という表現は、列挙された関連する項目のうちの1つまたは複数についての可能な任意のまたはすべての組合せを意味しかつ包含するということを理解されたい。さらにまた、「を含む(includes)」、「を含んだ(including)」、「を備える(comprises)」、および/または「を備えた(comprising)」という表現も、本明細書で使用する場合において、提示した特徴、動作、要素、および/または構成要素の存在を指定するものであり、1つまたは複数の他の特徴、動作、要素、構成要素、および/またはこれらからなる群の存在や追加を排除するものではない。

本明細書で使用する場合に「の場合(if)」という表現は、そのコンテキストに応じて「のとき(when)」または「になると(upon)」または「決定に応答して」または「決定に従って」または「検出に応答して」、提示された先行条件が真となることを意味すると解釈され得る。同様に、「[提示された先行条件が真である]と判定された場合」または「[提示された先行条件が真である]場合」または「[提示された先行条件が真である]とき」という表現は、そのコンテキストに応じて「判定されると」または「判定に応答して」または「判定に従って」または「検出されると」または「検出に応答して」、提示された先行条件が真となることを意味すると解釈され得る。

様々な図面のうちのいくつかは、いくつかの論理段階をある特定の順序で示しているが、順序に依存しない段階は順序変更されることがあり、また、他の段階は組み合わせたり分解されたりすることがある。順序変更や他のグループ化の一部については具体的に言及しているが、他のものについては当業者にとって明白であるため、代替形態の網羅的なリストを提示していない。さらに、これらの段階は、ハードウェアの形式、ファームウェアの形式、ソフトウェアの形式、またはこれらを任意に組み合わせた形式で実装することが可能であることを理解すべきである。

上の記述は、説明を目的としたものであって、具体的な実施形態を参照しながら記載されている。しかしながら、上の例証的な検討は、網羅的となることを意図したものではなく、また、本発明を開示した正確な形式に限定することを意図したものでもない。上の教示に鑑みて多くの修正形態や変形形態が可能である。実施形態は、本発明の原理およびその実際の応用について最良に説明するために選ばれかつ記述されており、これによって当業者は本発明および様々な実施形態を企図される具体的な使用に相応させる様々な修正を伴って最良に利用することが可能となる。

700，700-1，700-2，700-a，700-b クライアントデバイス
702 スピーカ
704 マイクロフォン
706 タッチ画面
708 ユーザインタフェース
710 制御ボックス
712 返信アフォーダンス
714 設定アフォーダンス
718 通知
720 アフォーダンス
720 バナー
722 アルバムカバー画像
724 歌詞
724a，724b，724c，724d 歌詞の行または文
728 返信アフォーダンス
730 共有アフォーダンス
732 フォーカスインジケータ
734 接触
736 ターゲットアプリケーション選択ボックス
738 ターゲットアプリケーション
740 接触者ボックス
742 接触者アイコン
744 メッセージボックス
746 属性情報ボックス
748 キャンセルアフォーダンス
750 送信アフォーダンス
804 収集モジュール
806 クエリモジュール
808 情報収集モジュール
810 出力モジュール
812 共有モジュール
814 処理ユニット
816 クエリユニット
900 サーバシステム
902 受信機モジュール
904 クエリモジュール
906 情報返信モジュール
908 処理ユニット
910 クエリユニット
1002 AIQクライアント
1004 AIQサーバ
1006 初期化済みデータベース
1010 ネットワーク
1012 AIQクライアントに対するI/Oインタフェース
1014 外部サービスに対するI/Oインタフェース
1016 外部サービス
1102 処理ユニット(CPU)
1104 ネットワークインタフェース
1106 メモリ
1108 通信バス
1110 ユーザインタフェース
1112 出力デバイス
1114 入力デバイス
1116 オペレーティングシステム
1118 ネットワーク通信モジュール
1120 提示モジュール
1122 入力処理モジュール
1124 オーディオ情報クエリモジュール
1126 第1トリガイベントモジュール
1128 第2トリガモジュール
1130 ストリーミングモジュール
1132 クライアントデータモジュール
1134 メディアコンテンツバッファ
1136 メディアコンテンツデータベース
1202 処理ユニット(CPU)
1204 ネットワークインタフェース
1206 メモリ
1208 通信バス
1210 オペレーティングシステム
1212 ネットワーク通信モジュール
1214 オーディオ情報クエリモジュール
1216 サーバデータモジュール

Claims

オーディオ情報問合せを実行する方法であって、
１つまたは複数のプロセッサと、メモリと、ディスプレイとを具備した電子デバイスにおいて、
第１トリガイベントを検出するステップと、
前記第１トリガイベントを検出したことに応答して、前記電子デバイスのマイクロフォンによって、メディアアイテムに関連付けされる環境オーディオデータのオーディオサンプルを収集するステップと、
前記オーディオサンプルに対応する情報をサーバに送信するステップと、
前記オーディオサンプルに対応する前記情報を前記サーバに送信したことに応答して、前記オーディオサンプルに対応する属性情報を取得するステップであって、前記属性情報が、前記メディアアイテムに対応するメタデータと、前記メディアアイテムを基準とした前記オーディオサンプルの位置に対応する時間インジケータと、前記メディアアイテムに関連したストリーム情報とを含む、ステップと、
前記属性情報の少なくとも一部分を前記ディスプレイ上に表示するステップと、
第２トリガイベントを検出するステップと、
前記第２トリガイベントを検出したことに応答して、
前記メディアアイテムに対して最後に取得した時間インジケータを決定し、
取得した前記属性情報中の前記ストリーム情報に基づいて前記メディアアイテムをストリーミングし、
前記最後に取得した時間インジケータに基づいて前記メディアアイテムを提示するステップと
を有する方法。
前記第１トリガイベントは、前記電子デバイスの加速度計が所定のしきい値を超える重力変化を検出したときに検出される、請求項１に記載の方法。
前記メディアアイテムが歌曲であり、
前記メディアアイテムに対応する前記メタデータの少なくとも一部分は、前記歌曲に対応する歌詞を含み、
前記属性情報を取得するステップの後に、第１領域内の主表示位置にある前記時間インジケータに対応する前記歌曲に対して、前記時間インジケータに対応する前記歌詞の第１部分を前記ディスプレイ上に自動的に表示するステップをさらに有する、請求項１または２に記載の方法。
前記主表示位置への前記歌詞の前記第１部分の表示を停止するステップと、
前記歌詞の前記第１部分をフェードアウトさせるステップと、
前記主表示位置に、前記第１部分とは異なりかつ前記第１部分に続く前記歌詞の第２部分を表示するステップと、
前記第１部分および前記第２部分とは異なりかつ前記第２部分に続く前記歌詞の第３部分をフェードインさせるステップと、
をさらに有する、請求項３に記載の方法。
前記歌曲の目下の歌詞の言葉にユーザの注意を引きつけるように構成されたフォーカスインジケータを表示するステップをさらに有する、請求項４に記載の方法。
前記メディアアイテムに対応する前記メタデータが、前記歌曲に対応する記述的情報を含み、
前記第１領域内の前記主表示位置に前記歌詞の前記第１部分を表示している間に、前記ディスプレイ上の前記第１領域とは異なる第２領域に前記記述的情報を同時に表示するステップをさらに有する、請求項３ないし５のいずれか一項に記載の方法。
前記歌曲に対応する前記記述的情報が、タイトルと、アーティスト名と、発売日と、アルバム名と、アルバムカバー画像とのうちの１つまたは複数を含む、請求項６に記載の方法。
１つまたは複数のプロセッサと、
ディスプレイと、
前記１つまたは複数のプロセッサによって実行される１つまたは複数のプログラムを格納するメモリと、
を具備した電子デバイスであって、
前記１つまたは複数のプログラムは、
第１トリガイベントを検出するための命令と、
前記第１トリガイベントを検出したことに応答して、電子デバイスのマイクロフォンによって、メディアアイテムに関連付けされる環境オーディオデータのオーディオサンプルを収集するための命令と、
前記オーディオサンプルに対応する情報をサーバに送信するための命令と、
前記オーディオサンプルに対応する前記情報を前記サーバに送信したことに応答して、前記オーディオサンプルに対応する属性情報を取得するための命令であって、前記属性情報が、前記メディアアイテムに対応するメタデータと、前記メディアアイテムを基準とした前記オーディオサンプルの位置に対応する時間インジケータと、前記メディアアイテムに関連したストリーム情報とを含む、命令と、
前記属性情報の少なくとも一部分を前記ディスプレイ上に表示するための命令と、
第２トリガイベントを検出するための命令と、
前記第２トリガイベントを検出したことに応答して、
前記メディアアイテムに対して最後に取得した時間インジケータを決定し、
取得した前記属性情報中の前記ストリーム情報に基づいて前記メディアアイテムをストリーミングし、
前記最後に取得した時間インジケータに基づいて前記メディアアイテムを提示するための命令と
を含む、電子デバイス。
前記第１トリガイベントは、電子デバイスの加速度計が所定のしきい値を超える重力変化を検出したときに検出される、請求項８に記載の電子デバイス。
前記メディアアイテムが歌曲であり、
前記メディアアイテムに対応する前記メタデータの少なくとも一部分は、前記歌曲に対応する歌詞を含み、
前記１つまたは複数のプログラムが、
前記属性情報を取得した後に、第１領域内の主表示位置にある前記時間インジケータに対応する前記歌曲に対して、前記時間インジケータに対応する前記歌詞の第１部分を前記ディスプレイ上に自動的に表示するための命令をさらに含む、請求項８または９に記載の電子デバイス。
前記１つまたは複数のプログラムが、
前記主表示位置への前記歌詞の前記第１部分の表示を停止するための命令と、
前記歌詞の前記第１部分をフェードアウトさせるための命令と、
前記主表示位置に、前記第１部分とは異なりかつ前記第１部分に続く前記歌詞の第２部分を表示するための命令と、
前記第１部分および前記第２部分とは異なりかつ前記第２部分に続く前記歌詞の第３部分をフェードインさせるための命令と、
をさらに含む、請求項１０に記載の電子デバイス。
前記１つまたは複数のプログラムが、
前記歌曲の目下の歌詞の言葉にユーザの注意を引きつけるように構成されたフォーカスインジケータを表示するための命令をさらに含む、請求項１１に記載の電子デバイス。
前記メディアアイテムに対応する前記メタデータが、前記歌曲に対応する記述的情報を含み、
前記１つまたは複数のプログラムが、
前記第１領域内の前記主表示位置に前記歌詞の前記第１部分を表示している間に、前記ディスプレイ上の前記第１領域とは異なる第２領域に前記記述的情報を同時に表示するための命令をさらに含む、請求項１０ないし１２のいずれか一項に記載の電子デバイス。
１つまたは複数のプログラムを格納する非一時的なコンピュータ読み取り可能記憶媒体であって、
前記１つまたは複数のプログラムは、１つまたは複数のプロセッサと、ディスプレイとを具備した電子デバイスによって実行されたときに前記電子デバイスに、
第１トリガイベントを検出する手順と、
前記第１トリガイベントを検出したことに応答して、前記電子デバイスのマイクロフォンによって、メディアアイテムに関連付けされる環境オーディオデータのオーディオサンプルを収集する手順と、
前記オーディオサンプルに対応する情報をサーバに送信する手順と、
前記オーディオサンプルに対応する前記情報を前記サーバに送信したことに応答して、前記オーディオサンプルに対応する属性情報を取得する手順であって、前記属性情報が、前記メディアアイテムに対応するメタデータと、前記メディアアイテムを基準とした前記オーディオサンプルの位置に対応する時間インジケータと、前記メディアアイテムに関連したストリーム情報とを含む、手順と、
前記属性情報の少なくとも一部分を前記ディスプレイ上に表示する手順と、
第２トリガイベントを検出する手順と、
前記第２トリガイベントを検出したことに応答して、
前記メディアアイテムに対して最後に取得した時間インジケータを決定し、
取得した前記属性情報中の前記ストリーム情報に基づいて前記メディアアイテムをストリーミングし、
前記最後に取得した時間インジケータに基づいて前記メディアアイテムを提示する手順と
を実行させる命令を含む、非一時的なコンピュータ読み取り可能記憶媒体。
前記第１トリガイベントは、前記電子デバイスの加速度計が所定のしきい値を超える重力変化を検出したときに検出される、請求項１４に記載の非一時的なコンピュータ読み取り可能記憶媒体。
前記メディアアイテムが歌曲であり、
前記メディアアイテムに対応する前記メタデータの少なくとも一部分は、前記歌曲に対応する歌詞を含み、
前記１つまたは複数のプログラムが、前記電子デバイスに、
前記属性情報を取得する手順の後に、第１領域内の主表示位置にある前記時間インジケータに対応する前記歌曲に対して、前記時間インジケータに対応する前記歌詞の第１部分を前記ディスプレイ上に自動的に表示する手順を実行させる命令をさらに含む、請求項１４または１５に記載の非一時的なコンピュータ読み取り可能記憶媒体。
前記１つまたは複数のプログラムが、前記電子デバイスに、
前記主表示位置への前記歌詞の前記第１部分の表示を停止する手順と、
前記歌詞の前記第１部分をフェードアウトさせる手順と、
前記主表示位置に、前記第１部分とは異なりかつ前記第１部分に続く前記歌詞の第２部分を表示する手順と、
前記第１部分および前記第２部分とは異なりかつ前記第２部分に続く前記歌詞の第３部分をフェードインさせる手順と、
を実行させる命令をさらに含む、請求項１６に記載の非一時的なコンピュータ読み取り可能記憶媒体。
前記１つまたは複数のプログラムが、前記電子デバイスに、
前記歌曲の目下の歌詞の言葉にユーザの注意を引きつけるように構成されたフォーカスインジケータを表示する手順を実行させる命令をさらに含む、請求項１７に記載の非一時的なコンピュータ読み取り可能記憶媒体。
前記メディアアイテムに対応する前記メタデータが、前記歌曲に対応する記述的情報を含み、
前記１つまたは複数のプログラムが、前記電子デバイスに、
前記第１領域内の前記主表示位置に前記歌詞の前記第１部分を表示している間に、前記ディスプレイ上の前記第１領域とは異なる第２領域に前記記述的情報を同時に表示する手順を実行させる命令をさらに含む、請求項１６ないし１８のいずれか一項に記載の非一時的なコンピュータ読み取り可能記憶媒体。