JP5828501B2

JP5828501B2 - 番組コンテキストに基づくモバイルコンテンツの提示

Info

Publication number: JP5828501B2
Application number: JP2011111540A
Authority: JP
Inventors: アント・オズタスケント; ヤロスラフ・ヴォロヴィッチ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2010-05-19
Filing date: 2011-05-18
Publication date: 2015-12-09
Anticipated expiration: 2031-05-18
Also published as: US9740696B2; US8694533B2; US20180011849A1; EP2388721A1; JP2011243204A; US10509815B2; US20110289098A1; US20140195557A1

Description

本明細書は、音声サンプルを取得することに対応して検索クエリを生成することに関する。

検索エンジンにより、リソースをインターネットで検索することが可能になり、このリソースの例にはウェブページ、画像、映像、および音声のコンテンツが含まれる。典型的な検索エンジンでは、検索クエリを入力するためのウェブページが提示される。一般に検索クエリは、ユーザがウェブページに入力する語から構築することができ、検索クエリ中で識別された語を含むウェブページまたは他のファイルの検索を行うことができる。特定のクエリについて行われた検索の結果は、1つまたは複数の検索結果ウェブページに並べて一覧表示することができる。

スマートフォン、ネットブック、ラップトップコンピュータ、および他のデバイスを含むモバイルデバイスがより一般化したので、それに伴いモバイル検索エンジンを使用することが増えた。例えば、ユーザが自宅で、テレビおよびラジオの放送中、ならびにDVD、ブルーレイまたはデジタルメディアなどの記録メディアを見ながら、またはアクセスしながら、検索を行いインターネットを閲覧することが多くなっている。これらの放送または視聴に関係がある検索は、ユーザのデバイスで、そのメディアと関連している検索語を手入力することによって行うことができる。

概して、本明細書で説明されている主題の発明の一態様は、i)クライアントデバイスから音声データを受け取る挙動と、ii)受け取られた音声データに基づいて、取り込まれたメディアから特定のコンテンツを識別する挙動とを含む方法であって、識別された特定のコンテンツは受け取られた音声データと関連付けられ、取り込まれたメディアは音声メディアまたは音声映像メディアのうちの少なくとも一方を含み、さらに、iii)識別されたコンテンツと関連している追加メタデータを取得する挙動と、iv)取得された追加メタデータに少なくとも一部は基づく検索クエリを生成する挙動と、v)検索クエリに対応する、かつ受け取られた音声データと関連している1つまたは複数の検索結果をクライアントデバイスに返す挙動とを含む方法で実施することができる。この態様の他の実施形態は、対応するシステム、装置、およびこの方法の各挙動を実行するように構成された、コンピュータ記憶デバイス上の符号化されたコンピュータプログラムを含む。

上記および他の実施形態は、それぞれ任意選択で以下の特徴のうちの1つまたは複数を含むことができる。例えば、クライアントデバイスはモバイルデバイスを含みうる。モバイルデバイスは携帯電話、スマートフォン、ラップトップPC、ネットワークPC、またはタブレットPCのうちの1つを含みうる。クライアントデバイスは、音声メディアまたは音声映像メディアを提示することに関連しているセットトップボックスを含みうる。さらに、クライアントデバイスから受け取られた音声データは、クライアントデバイスにおいて記録されたメディアの音声指紋を含む。いくつかの事例では、この方法はさらに、音声データの音声指紋を取得する段階を含む。音声指紋を取得する段階は、クライアントデバイスから受け取られた音声データから音声指紋を生成する段階を含みうる。取り込まれたメディアは、取り込まれたデジタルテレビ放送を集めたものを含むことができ、この方法はさらに、i)少なくとも1つのデジタルテレビチャネルを監視する段階と、ii)少なくとも1つのデジタルテレビチャネルのそれぞれから音声ストリームを抽出する段階と、iii)監視される少なくとも1つのデジタルテレビチャネルのそれぞれに、抽出された音声ストリームの少なくとも一部分から音声指紋を生成する段階と、iv)生成された音声指紋のそれぞれを音声指紋リポジトリに記憶する段階とを含むことができ、生成された各音声指紋が固有のコンテンツ識別子と関連している。この方法はさらに、i)各抽出音声ストリームと関連している情報の少なくとも1つの追加のセットを導出する段階と、ii)導出された情報の少なくとも1つの追加のセットに基づく各抽出音声ストリームと関連しているコンテンツ関連メタデータの少なくとも1つのセットを生成する段階と、iii)コンテンツ関連メタデータの少なくとも1つのセットのそれぞれを、対応する抽出音声ストリームと関連している生成された音声指紋に関連した固有のコンテンツ識別子と関連付ける段階と、iv)コンテンツ関連メタデータの少なくとも1つのセットのそれぞれをメタデータリポジトリに記憶する段階とを含むことができる。いくつかの事例では、取り込まれたメディアから特定のコンテンツを識別する段階は、i)クライアントデバイスから受け取られた音声データから生成された音声指紋を、音声指紋リポジトリに記憶された少なくとも1つの音声指紋と照合する段階と、ii)音声指紋リポジトリに記憶された少なくとも1つの音声指紋と関連している固有のコンテンツ識別子を識別する段階とを含み、識別されたコンテンツと関連している追加メタデータを取得する段階が、識別された固有のコンテンツ識別子と関連しているコンテンツ関連メタデータをメタデータリポジトリから取り出す段階を含む。

本明細書で説明されている主題の別の態様は、コンピュータプログラムにより符号化されるコンピュータ記憶メディアを用いて実施することができ、このプログラムは、i)クライアントデバイスから音声データを受け取る動作、およびii)受け取られた音声データに基づいて、取り込まれたメディアから特定のコンテンツを識別する動作を含む動作を、データ処理装置で命令が実行されたときにデータ処理装置に行わせる命令を含み、識別された特定のコンテンツは受け取られた音声データと関連付けられ、取り込まれたメディアは音声メディアまたは音声映像メディアのうちの少なくとも一方を含み、さらに、iii)識別されたコンテンツと関連している追加メタデータを取得する動作、iv)取得された追加メタデータに少なくとも一部は基づく検索クエリを生成する動作、およびv)検索クエリに対応する、かつ受け取られた音声データと関連している1つまたは複数の検索結果をクライアントデバイスに返す動作を含む動作をデータ処理装置に行わせる命令を含む。

上記および他の実施形態は、それぞれ任意選択で以下の特徴のうちの1つまたは複数を含むことができる。例えば、クライアントデバイスはモバイルデバイスを含みうる。モバイルデバイスは携帯電話、スマートフォン、ラップトップPC、ネットワークPC、またはタブレットPCのうちの1つを含みうる。クライアントデバイスは、音声メディアまたは音声映像メディアを提示することに関連しているセットトップボックスを含みうる。さらに、クライアントデバイスから受け取られた音声データは、クライアントデバイスにおいて記録されたメディアの音声指紋を含む。いくつかの事例では、この命令は、音声データの音声指紋を取得する動作をさらに含む動作をデータ処理装置に行わせることもできる。音声指紋を取得する動作は、クライアントデバイスから受け取られた音声データから音声指紋を生成する動作を含みうる。取り込まれたメディアは、取り込まれたデジタルテレビ放送を集めたものを含むことができ、命令は、実行されたときに、i)少なくとも1つのデジタルテレビチャネルを監視する動作、ii)少なくとも1つのデジタルテレビチャネルのそれぞれから音声ストリームを抽出する動作、iii)監視される少なくとも1つのデジタルテレビチャネルのそれぞれで、抽出された音声ストリームの少なくとも一部分から音声指紋を生成する動作、およびiv)生成された音声指紋のそれぞれを音声指紋リポジトリに記憶する動作をさらに含む動作をデータ処理装置に行わせることができ、生成された各音声指紋が固有のコンテンツ識別子と関連している。この命令はデータ処理装置に、i)各抽出音声ストリームと関連している情報の少なくとも1つの追加のセットを導出する動作、ii)導出された情報の少なくとも1つの追加のセットに基づく各抽出音声ストリームと関連しているコンテンツ関連メタデータの少なくとも1つのセットを生成する動作、iii)コンテンツ関連メタデータの少なくとも1つのセットのそれぞれを、対応する抽出された音声ストリームと関連している生成された音声指紋に関連する固有のコンテンツ識別子と関連付ける動作、およびiv)コンテンツ関連メタデータの少なくとも1つのセットのそれぞれをメタデータリポジトリに記憶する動作をさらに含む動作を行わせることができる。いくつかの事例では、取り込まれたメディアから特定のコンテンツを識別する動作は、i)クライアントデバイスから受け取られた音声データから生成された音声指紋を、音声指紋リポジトリに記憶された少なくとも1つの音声指紋と照合する動作、およびii)音声指紋リポジトリに記憶された少なくとも1つの音声指紋と関連している固有のコンテンツ識別子を識別する動作を含み、識別されたコンテンツと関連している追加メタデータを取得する動作は、識別された固有のコンテンツ識別子と関連しているコンテンツ関連メタデータをメタデータリポジトリから取り出す動作を含む。

本明細書で説明されている主題の別の態様は、i)1つまたは複数のクライアントデバイスから1つまたは複数の音声データのセットを受け取るように適合された1つまたは複数のフロントエンドサーバと、ii)1つまたは複数の取り込まれたメディア番組に番組データの各セットが対応する、複数の番組データのセットから1つの番組データのセットを、音声データに基づいて識別するように適合された1つまたは複数のマッチサーバと、iii)取り込まれたメディア番組と関連している追加情報を記憶するように、かつ識別された番組データのセットと関連している特定の追加情報を識別するように適合された1つまたは複数のサービス情報サーバと、iv)識別された番組データと関連している識別された特定の追加情報に少なくとも一部は基づく検索クエリを生成するように適合された、1つまたは複数の検索クエリビルダサーバとを含むシステムで実施することができ、1つまたは複数のフロントエンドサーバはさらに、生成された検索クエリに基づいて識別された少なくとも1つの検索クエリ結果を1つまたは複数のクライアントデバイスへ送出するように適合されている。

上記および他の実施形態は、それぞれ任意選択で以下の特徴のうちの1つまたは複数を単独または組合せで含むことができる。例えば、1つまたは複数のフロントエンドサーバはさらに、1つまたは複数の受け取られた音声データのセットに基づく音声指紋を取得するように適合させることができ、1つまたは複数のマッチサーバはさらに、取得された音声指紋を番組データがベースの複数の音声指紋と比較するように、かつ番組データをベースとする複数の音声指紋のうち、取得された音声指紋と一致するものを少なくとも1つ識別するように適合させることができる。このシステムはさらに、生成された検索クエリを受け取るように、かつ生成された検索クエリに対応する少なくとも1つの検索クエリ結果を識別するように適合された1つまたは複数の検索エンジンサーバを含むことができる。いくつかの事例では、1つまたは複数のクライアントデバイスは携帯電話、スマートフォン、ラップトップPC、ネットワークPC、またはタブレットPCを含みうる。

本明細書で説明されている主題の別の態様は、i)クライアントデバイスにおいて少なくとも1つのメディア源から音声サンプルを取得する挙動と、ii)音声サンプルの少なくとも一部分と関連している音声データをクライアントデバイスから非キーワードベースの検索システムまで転送する挙動と、iii)転送された音声データの一部分と関連している検索結果のセットをクライアントデバイスで受け取る挙動とを含む方法であって、検索結果のセットは、取得された音声サンプルに関連しているメディア番組を転送された音声データを使用して識別すること、識別されたメディア番組に基づく1つまたは複数の検索語を選択すること、および1つまたは複数の検索語を検索エンジンに提出することによって、非キーワードベースの検索システムにおいて生成され、さらに、iv)検索結果のセットをクライアントデバイスに提示する挙動を含む方法で実施することができる。

上記および他の実施形態は、それぞれ任意選択で以下の特徴のうちの1つまたは複数を単独または組合せで含むことができる。例えば、少なくとも1つのメディア源はローカルメディア源を含み、クライアントデバイスにおいて少なくとも1つのメディア源から音声サンプルを取得する挙動は、そのローカルメディア源と関連している周囲音声を記録する挙動を含むことができる。少なくとも1つのメディア源は、テレビ放送、ラジオ放送、インターネットベースのマルチメディア表示、DVD表示、またはブルーレイ表示のうちの少なくとも1つを含むことができる。いくつかの事例では、非キーワードベースの検索システムは1つまたは複数のサーバを含み、取得された音声サンプルに関連しているメディア番組を転送された音声データを使用して識別する挙動は、識別されたメディア番組に関連している追加メタデータを非キーワードベースの検索システムで取得する挙動を含み、識別されたメディア番組に基づく1つまたは複数の検索語を選択する挙動は、取得された追加メタデータに少なくとも一部は基づく検索クエリを非キーワードベースの検索システムで生成する挙動を含み、転送された音声データの一部分と関連している検索結果のセットをクライアントデバイスで受け取る挙動は、生成された検索クエリに対応する検索結果のセットを非キーワードベースの検索システムからクライアントデバイスまで転送する挙動を含む。クライアントデバイスはモバイルデバイスを含みうる。モバイルデバイスは携帯電話、スマートフォン、ラップトップPC、ネットワークPC、またはタブレットPCのうちの1つを含みうる。いくつかの事例では、この方法はさらに、音声サンプルの少なくとも一部分の音声指紋をクライアントデバイスにおいて取得する挙動を含み、音声サンプルの少なくとも一部分と関連している転送された音声データは、その取得された音声指紋を含む。

本明細書で説明されている主題の別の態様は、コンピュータプログラムにより符号化されるコンピュータ記憶メディアで実施することができ、このプログラムは、i)少なくとも1つのメディア源から音声サンプルを取得する動作、ii)音声サンプルの少なくとも一部分と関連している音声データを非キーワードベースの検索システムまで転送する動作、およびiii)転送された音声データの一部分と関連している検索結果のセットを受け取る動作を含む動作を、データ処理装置で命令が実行されたときにデータ処理装置に行わせる命令を含み、この検索結果のセットは、取得された音声サンプルと関連しているメディア番組を転送された音声データを使用して識別すること、識別されたメディア番組に基づく1つまたは複数の検索語を選択すること、および1つまたは複数の検索語を検索エンジンに提出することによって、非キーワードベースの検索システムにおいて生成され、さらに、iv)検索結果のセットを提示する動作を行わせる命令を含む。

上記および他の実施形態は、それぞれ任意選択で以下の特徴のうちの1つまたは複数を単独または組合せで含むことができる。例えば、少なくとも1つのメディア源はローカルメディア源を含み、少なくとも1つのメディア源から音声サンプルを取得する動作は、ローカルメディア源と関連している周囲音声を記録する動作を含むことができる。少なくとも1つのメディア源は、テレビ放送、ラジオ放送、インターネットベースのマルチメディア表示、DVD表示、またはブルーレイ表示のうちの少なくとも1つを含むことができる。いくつかの事例では、非キーワードベースの検索システムは1つまたは複数のサーバを含み、取得された音声サンプルに関連しているメディア番組を転送された音声データを使用して識別する動作が、識別されたメディア番組に関連している追加メタデータを非キーワードベースの検索システムにおいて取得する動作を含み、識別されたメディア番組に基づく1つまたは複数の検索語を選択する動作が、取得された追加メタデータに少なくとも一部は基づく検索クエリを非キーワードベースの検索システムにおいて生成する動作を含み、転送された音声データの一部分と関連している検索結果のセットを受け取る動作が、生成された検索クエリに対応する検索結果のセットを非キーワードベースの検索システムから転送する動作を含む。コンピュータ記憶メディアはモバイルデバイスを含みうる。モバイルデバイスは、携帯電話、スマートフォン、ラップトップPC、ネットワークPC、またはタブレットPCのうちの1つを含みうる。いくつかの事例では、データ処理装置で実行されたときにデータ処理装置に動作を行わせる命令を含むプログラムは、音声サンプルの少なくとも一部分の音声指紋を取得する動作をさらに含み、音声サンプルの少なくとも一部分と関連している転送された音声データは、その取得された音声指紋を含む。

本明細書で説明されている主題の特定の実施形態は、以下の利点のうちの1つまたは複数を実現するように実施することができる。現在見ているコンテンツまたは番組によって駆動される便利な非キーワードベースの検索インターフェースが提供される。さらに、ユーザが見ている(または聴いている)放送または番組のコンテンツをリアルタイムで理解し、それに対応して、より豊かなユーザ経験がもたらされるようにそのコンテンツを直接補完し増強するサービスまたは情報へのアクセスを可能にするソフトウェアおよび方法が提供される。テレビベースの実施形態では、コンテンツに関する付加的コンテキスト、ならびに付加的情報を得るために、現在の番組と関連する検索を高速かつ適切に行うことが可能である。さらに、広告主は、説明されているソフトウェアおよび方法を使用して、その検索広告からより望ましい収益を得ることもできる。というのはユーザに、番組または他のコンテンツと関連しているリンクまたは他の情報を自動的に提示することができ、ある特定の広告に興味を持ったユーザは、広告された製品に関する付加的および/または補助的情報を最少の必要な対話で迅速に取り出すことができるからである。さらに、ユニフォームリソースロケータまたはビジネス情報など、ある特定の放送および/または広告の中に埋め込まれた、またはそれと関連している情報に高速でアクセスすることが、説明されている方法またはシステムを使用することによって可能である。

本開示で説明されているシステムおよび方法の特定の実施形態は特に、スマートフォンおよび他のモバイルデバイスでの使用に関して魅力的といえる。というのは、各デバイスは、それら自体が個人用デバイスであり、テレビまたはラジオなど二次的な放送デバイスの使用と組み合わせて容易に使用することができるからである。具体的には、スマートフォンを使用して「高速ブラウジング」することが、ユーザが放送から遮られる、またはそらされることなく可能である。加えて、モバイルデバイスと関連しているサイズおよびアクセサリの制約(例えば、モバイルデバイスでは物理的なキーボードを欠いていること、またはそれを使用することが困難であること)は、音声ベースの検索により、モバイルデバイスを様々な使用ケースの中に組み込むことが便利かつ容易になることを意味する。加えて、本実施形態の音声ベースの検索では、バックエンド検索に含まれる様々な情報源に基づく検索と関連しているコンテキストおよびメタデータの増加により、より豊富な検索結果のセットが得られる。

本明細書で説明されている主題の1つまたは複数の実施形態の詳細は、添付の図面および以下の説明で示される。主題の他の特徴、態様、および利点は、その説明、図面、および特許請求の範囲から明らかになる。

クライアントデバイスからの音声ベースの検索要求に対応して、取り込まれたメディアに関連した検索クエリを生成する例示的システムの概略図である。クライアントデバイスからの音声ベースの検索要求を実施する例示的方法を示す流れ図である。放送と関連している情報の検索を生成し実施するために放送情報の音声指紋を使用する例示的方法を示す流れ図である。放送情報を取り込み、音声指紋およびコンテンツ関連メタデータのリポジトリにデータを入れる例示的方法を示す流れ図である。本開示の1つまたは複数の例示的方法を使用して連続的または断続的にクライアントデバイスに提示される検索結果の例示的な図である。

それぞれ異なる図面中の同じ参照番号および名称は同じ要素を示す。

図1は、クライアントデバイスからの音声ベースの検索要求に対応して、取り込まれたメディアに関連した検索クエリを生成する例示的システムの概略図である。システム100は、1つまたは複数のクライアントデバイス104、クライアントデバイス104に限られたローカルメディア源102、ネットワーク110、フロントエンドサーバ112、マッチサーバ120、取込みサーバ152、広告検出サーバ160、サービス情報サーバ134、検出クエリビルダサーバ130、検索サーバ138、および取込みサーバ152に付随する少なくとも1つのメディア源150を含む。システム100全体にわたる通信は、ネットワーク110を介して行うことができる。例えば、クライアントデバイス104とフロントエンドサーバ112は、ネットワーク110によって通信することができる。加えて、また図1には示されていないが、他の様々な図示の構成要素もまた、ネットワーク110によって通信することができる(例えば、フロントエンドサーバ112とマッチサーバ120、取込みサーバ152とサービス情報サーバ134など)。ネットワーク110は、1つまたは複数のローカルエリアネットワーク(LAN)、インターネットなどのワイドエリアネットワーク(WAN)、携帯電話ネットワークなどの無線ネットワーク、または上記のすべての組合せを含むことができる。一般にクライアントデバイス104は、フロントエンドサーバ112と通信して、クライアントデバイス104に限られた、またはそれに付随するローカルメディア源102と関連している音声情報に基づく非キーワード検索を行う。

クライアントデバイス104は、放送、番組、または他のメディアと関連している音声情報を取り込むことができるユーザに付随した、任意の適切なデバイスでありうる。例えば、クライアントデバイス104は、携帯電話、スマートフォン、タブレットコンピュータ、ノートブックコンピュータ、ラップトップコンピュータなどのモバイルデバイス、または他の任意のタイプのモバイルデバイスでありうる。さらに、クライアントデバイス104は、デスクトップコンピュータ、セットトップテレビチューナまたはデジタルビデオレコーダなど相対的に固定されたデバイス、パーソナルビデオレコーダ、または他の任意のタイプのコンピュータデバイスでありうる。いくつかの実施形態では、クライアントデバイス104は、ローカルメディア源102から、クライアントデバイス104に結合された内蔵または外付けの音声レシーバ106を介して周囲音声を取り込むことができる。音声レシーバ106は、例えば、スマートフォンまたはタブレットコンピュータなどのデバイス内に含まれる内蔵マイクロフォン、ならびに音声レシーバ106をそれ自体に含まないデバイスに接続された、かつ/または結合された外付けマイクロフォンでありうる。さらに他の場合には、クライアントデバイス104は、ストリーミングの映像、音声または他のマルチメディアなど、クライアントデバイス104自体で実行され、聴かれ、または見られているメディアから音声データを取り込むこともある。したがって、ローカルメディア102は、生のテレビ番組、録画テレビ番組、DVD、ブルーレイ、ストリーミングメディア、ラジオ放送(またはその録音したもの)、あるいは他の適切なメディアを含めて、番組またはメディアと関連している任意の音声データ源でありうる。

クライアントデバイス104は、音声取込みアプリケーション108を含むことができ、このアプリケーションは、クライアントデバイス104が周囲(または内部)音声を記録し、その音声情報を処理して非キーワードベースの検索要求を開始することを可能にする。いくつかの事例では、音声取込みアプリケーション108は、対話式ユーザインターフェース(UI)を実現することができ、これによりユーザは、ローカルメディア源102から音声サンプルを記録することを選択し、記録されたデータと関連している検索を提出することができる。いくつかの事例では、音声取込みアプリケーション108は、クライアントデバイス104のホーム画面上の実行可能アイコンなどの、クライアントデバイス104上の単一のキーまたはボタンを押すことによって、あるいはアプリケーション108が音声サンプルを取り込みフロントエンドサーバ112まで転送するように信号を発する、取込みアプリケーション108のUI内のボタンによって、起動または開始することができる。起動すると、音声取込みアプリケーション108は、活性化されている規定の時間(例えば、7〜10秒)で音声データを記録することができ、この時間は、取り込まれたローカルメディア102を識別するための適切な音声情報量が得られるように推定または計算される。あるいは、音声取込みアプリケーション108は、音声情報を連続的に、または準連続的に記録することもできる。これらの事例では、クライアントデバイス104のユーザが検索を選択または開始したときに、記録された音声の一部分は、フロントエンドサーバ112へ送出される音声サンプルとして使用することができる。一例では、検索の開始前の最後の10秒間の記録を使用することができる。

矢印109および111で示されるように、音声サンプルは、ネットワーク110を介してフロントエンドサーバ112へ送出される。いくつかの事例では、クライアントデバイス104によってフロントエンドサーバ112へ送出される音声サンプルは、デバイス固有の情報(例えば、クライアントデバイス104の現在地またはタイプ)および/またはユーザ固有の情報(例えば、ユーザID、カスタマイズされたユーザ検索基本設定、ユーザプロフィール、および人口学上の情報など)を含むことがある。さらに、フロントエンドサーバ112へ送出される音声サンプルはまた、記録された音声サンプルの音声指紋を含むこともある。音声指紋は、音声信号(ここでは記録された音声サンプル)から生成された固有のデジタル表現であり、他の類似または同一の音声サンプルを識別するのに使用することができる。いくつかの実施形態では、ローカルメディア102の記録された部分の音声指紋は、システム100の様々な構成要素を介して、クライアントデバイス104で現在取り込まれているメディアまたは番組を比較し識別するのに使用される。ローカルメディア102の記録された部分の音声指紋がクライアントデバイス104で生成されるいくつかの実施形態では、音声指紋だけがフロントエンドサーバ112へ送出されることがある。

フロントエンドサーバ112は、ネットワーク110から音声データを受け取る(矢印111で示す)。いくつかの事例では、生の音声サンプルだけをフロントエンドサーバ112で受け取ることができる。これらの事例では、音声指紋発生器アプリケーション114を使用して、受け取られた音声サンプルの音声指紋を生成することができる。クライアントデバイス104から受け取られた音声データが音声サンプルの音声指紋を含む場合には、音声指紋発生器アプリケーション114は使用されないことがある。クライアントデバイス104から受け取られた音声データは一般に、音声サンプルのコンテンツを決定するとともにそのコンテンツと関連している検索クエリを用意し実行するための要求を表す(また場合により、特定の要求に含まれることもある)。図示のシステム100では、フロントエンドサーバ112はコンテンツ検索マネージャ118を含み、このマネージャは、コンテンツ識別処理を管理または導くために使用されるアプリケーションとすることができる。矢印119で示されるように、フロントエンドサーバ112(またはコンテンツ検索マネージャ118)は、音声指紋をマッチサーバ120へ送出(または送付)する。

マッチサーバ120は、クライアントデバイス104から受け取られた音声サンプルの音声指紋を、取り込まれたコンテンツの音声指紋と比較する。図1に示されるように、この比較はマッチサービス122によって実施され、このマッチサービスは、1つまたは複数のメディア源150から取り込まれ、かつ/または集められた音声サンプルと関連している1つまたは複数の音声指紋リポジトリにアクセスする。図1で、マッチサービス122は、クライアントデバイス104から受け取られた音声指紋を、取り込まれたメディア音声指紋のリポジトリ158(この例では、取込みサーバ152で記憶され、矢印123で示されている)と比較すると共に、広告関連音声指紋のリポジトリ166(この例では、広告検出サーバ160で記憶され、矢印124で示されている)と比較する。マッチサービス122は、マッチサーバ120に限られた音声指紋のリポジトリ、ならびにシステム100外に記憶された、または図示されていない他のリポジトリを含む、任意の適切な音声指紋のリポジトリを検索することができる。さらに、マッチサービス122の複数のインスタンス(ならびに複数のマッチサーバ120)をシステム100で使用して、システム100の音声指紋照合サービスを実施することができる。上述のように、マッチサービス122は、クライアントデバイス104から受け取られた音声指紋を1つまたは複数の関連したリポジトリの音声指紋と比較して、指紋が一致するもの、または指紋が一致する可能性があるもののセットを生成する。クライアントデバイス104の音声サンプルと一致する(または一致する可能性がある)ものであると判定された各音声指紋は、コンテンツIDまたは他の識別値など固有の識別子と関連付けることができる。図1に示されるように、1つまたは複数の一致する(可能性がある)ものと関連付けられた固有の識別子、ならびに他のどんな関連情報も、取込みサーバ152および広告検出サーバ160からマッチサービス122に返される(それぞれ矢印125および126で示されている)。検索された他のどのリポジトリからの一致する可能性があるものについての情報もまた、マッチサービス122に返される。マッチサービス122は、一致する可能性があるそれぞれのうち最もよく一致するものを決定することができる。いくつかの事例では、マッチサービス122によって実施される照合アルゴリズムにより、多数の、または相対信頼水準の、一致する可能性があるものを得ることができる。いくつかの事例では、単一の音声指紋が、クライアントデバイス104の取り込まれた音声サンプルと関連している音声指紋が一致するものとして識別されうる。他の事例では、2つ以上の音声指紋が、マッチサービス122のアルゴリズムによって近接して分類または格付けされうる。図1の実施形態では、様々なリポジトリから単一の音声指紋(したがって、コンテンツの特定の部分)が、クライアントデバイスの音声指紋と最も一致しそうな(かつ、場合により唯一の)ものとして選択される。代替実施形態では、複数の音声指紋(したがって、コンテンツの複数のセット)がマッチサービス122によって返されることがある。

音声指紋が一致するものが選択され、関連した識別子が取り出された後、マッチサービス122は、関連したコンテンツ識別子をフロントエンドサーバ112に返し(矢印127で示す)、そこで情報は、コンテンツ検索マネージャ118によって集められ処理される。次に、コンテンツ検索マネージャ118は、コンテンツ識別子を検索クエリビルダサーバ130に送出し(矢印128で示す)、そこでコンテンツ識別子が使用されて(例えば、検索クエリビルダモジュール132で)、サービス情報サーバ134からのコンテンツ識別子と関連している情報が取り出される(矢印133で示す)。いくつかの事例では、マッチサービス122は、サブタイトルメタデータ172、電子番組ガイド(EPG)メタデータ176、および映像ベースキーワードメタデータ174をとりわけ含むサービス情報サーバ134と直接対話して、識別されたコンテンツと関連しているメタデータなどのコンテンツ識別子と関連し、かつ取り込まれたメディア源150と関連している情報の別々の部分と関係がある情報を取り込む。いくつかの事例では、特定のコンテンツは、サービス情報サーバ134に記憶されているスポンサー提供の情報または特定の情報と関連付けることができる。例えば、ある広告は、ある特定のウェブサイトと関連付けることができ、この特定のウェブサイトは、識別されたコンテンツの固有の識別子とリンクされ、または関連付けられている。識別されたコンテンツがマッチサービス122により最も一致しそうなものを示す場合、特に関連した材料および情報は、クライアントデバイス104に返される結果に自動的に含めることができる。いくつかの事例では、特に関連した材料および情報は、広告主を含む、コンテンツと関係している放送事業者および他の人または事業体から提供されることがある。図1に示されるように、そうした情報は、サービス情報サーバ134のコンテンツ別情報リポジトリ170に記憶することができる。識別されたコンテンツと関連しているメタデータは、照合される音声指紋と関連している固有の識別子を使用して、サービス情報サーバ134から収集し取り出すことができる。いくつかの事例では、サービス情報サーバ134は、データマネージャ168(サービス情報サーバ134に記憶されたリポジトリと互換性がある関係型データベース管理システム(RDBMS)など)を含むことができ、このデータマネージャは、記憶されたメタデータについてのクエリを実施するのに使用して、特定のコンテンツ識別子と関係がある情報を返すことができる。

矢印135で示されるように、コンテンツ識別子と関連しているメタデータおよび情報は、検索クエリビルダモジュール132へ送出され、検索クエリビルダモジュール132は、受け取ったデータを使用して、クライアントデバイス104によって取り込まれた音声サンプルと関連している現在のコンテンツ、ならびにそのコンテンツの、サービス情報サーバ134から取り出された情報により決定されたコンテキストと関係がある、1つまたは複数の検索クエリを構築する。1つまたは複数の関連検索クエリが生成された後、検索クエリビルダモジュール132は、それらのクエリを検索サーバ138の検索エンジン140に供給し(矢印137で示す)、検索エンジン140は、検索クエリに対応する結果、したがって、識別されたコンテンツおよびコンテンツの背景情報と関連している結果を得るために1つまたは複数の検索リポジトリおよび索引を検索する。検索エンジン140は、一般的な検索エンジンでよく、検索クエリビルダモジュール132によって供給される1つまたは複数の検索クエリ、ならびに検索エンジン140に供給される他の任意の検索入力に基づく検索を実施することができる。あるいは、検索エンジン140は、図示のシステム100で限定的に使用することもできる。いくつかの実施形態では、検索エンジン140から返される検索結果は、クライアントデバイス104およびそのユーザと関連している情報に基づいた特定のユーザの個人用にすることができる(例えば、ユーザまたはクライアントデバイス104の個人化データの中で特に、ユーザ検索履歴、以前のユーザ対話選択、ユーザ設定、ユーザプロフィール、クライアントデバイスの種類、ユーザ位置、およびユーザにとって関心のある他の情報)。加えて、コンテキスト関連およびスポンサー提供の広告が収益目的で検索結果に含まれることがある。

矢印141で示されるように、検索の結果はフロントエンドサーバ112に供給される。フロントエンドサーバ112(またはここでは、検索結果コレクタ116)は、検索結果セット(ならびにあらゆるコンテンツ別の情報)を、クライアントデバイス104へ結果を送り返すのに適切なフォーマットで生成する。検索結果は、例えば、クライアントデバイス104のブラウザで検査結果を表示することが可能なハイパーテキストマークアップ言語(HTML)コンテンツとしてフォーマットすることができる。フォーマットされた結果は、ネットワーク110を介してクライアントデバイス104へ送出される(矢印143および145で示す)。いくつかの事例では、検索結果は音声取込みアプリケーション108内で表示することができ、他の事例では、検索結果は、クライアントデバイス104においてウェブブラウザまたは他のソフトウェアによって表示することができる。

上記では、クライアントデバイスの音声取込み機能、それに対応する取り込まれたコンテンツの識別、および取り込まれたコンテンツと関連した検索クエリの生成および実行の観点から図1を説明している。図1はまた、様々なメディアの種類と関連している情報がどのようにして取り込まれるかを示す複数の構成要素も示す。

図1にさらに示されるように、1つまたは複数のメディア源150からの音声および他の情報が、取込みサーバ152および広告検出サーバ160など、システム100によって取り込まれる。取込みサーバ152は、1つまたは複数のメディア源150と関連付け、接続し、または通信可能に結合することができる。メディア源150は、例えば、テレビコンテンツ(例えば、デジタルテレビ放送または無線による放送)、ラジオ放送、インターネットストリーミングまたはインターネットベースのマルチメディア、ならびにDVD、ブルーレイおよび他の種類のメディアなどの記録メディアを含みうる。システム100は、複数の取込みサーバ152を含むことができ、各取込みサーバ152は、1つまたはいくつかのメディア源150と関連付けられている。例えば、1つの取込みサーバ152は、1つの「マルチプレックス」または「搬送ストリーム」によっていくつかのテレビチャネル(例えば、取込みサーバ152ごとに5〜10チャネル)を同時に取り込むための専用とすることができる。取込みサーバ152は、関連しているメディアを受け入れ見ることができる任意の場所に設けることができる。いくつかの事例では、取込みサーバ152は別々の国に配置し、その場所と関連しているメディア源150と関連付けることができる。例えば、取込みサーバ152の第1のセットは第1の国に配置し、取込みサーバ152の第2のセットは第2の国に配置し、取込みサーバ152の第3のセットは第3の国に配置して、それぞれが、それらの国または関連した地域に特有のメディアを取り込むことができる。

取込みサーバ152は、メディア源150からのコンテンツを処理し抽出するために、各「搬送ストリーム」と関連しているコンテンツ取込みアプリケーション154を含む。搬送ストリームの各チャネルは、コンテンツ取込みアプリケーション154によって場合によりリアルタイムで処理されて、コンテンツと関連している音声指紋、ならびにコンテンツに含まれた、または関連した付加的情報が取り込まれる。例えば、生のデジタルテレビベースのコンテンツは、(1)コンテンツと関連している音声ストリーム、(2)コンテンツと関連しているサブタイトルストリーム、(3)コンテンツと関連している映像ストリーム、および(4)メディアストリーム中に含まれる電子番組ガイド(EPG)データのセットを含む、メディアストリームと関連している様々な部分を抽出することによって、コンテンツ取込みアプリケーション154で処理される。

コンテンツ取込みアプリケーション154は、音声指紋アルゴリズム(例えば、「フォーギビングハッシュ(forgiving hash)」アルゴリズム)およびエンジンを使用して、取り込まれた音声ストリームと関連している音声指紋を作り出す。図1に示されるように、取り込まれたメディアの音声指紋は、取込みサーバ152に限られたメディア音声指紋リポジトリ158内に記憶することができ、その中で、取り込まれたコンテンツに固有の識別子が適用され関連付けられる。いくつかの事例では、音声ストリームの音声指紋は、記憶、および/またはクライアントデバイス104で取り込まれた音声サンプルと関連している音声指紋との比較のためのマッチサーバ120へ送出することができる。さらに、メディア音声指紋リポジトリ158は、取込みサーバ152とは別の、例えば共通音声指紋リポジトリ(図示せず)である構成要素またはリポジトリに記憶することができる。マッチサービス122が一致する音声指紋を識別しようとする場合、マッチサービス122は、取込みサーバ152に記憶された指紋とは対照的に、1つまたは複数の共通指紋リポジトリからの音声指紋を検索または使用することができる。

コンテンツ取込みアプリケーション154はまた、取込みサーバ152で受け取られたコンテンツに含まれるサブタイトルと関連している情報を抽出することもできる。いくつかの事例では、サブタイトルは、テキストベースの情報ストリーム(例えば、ATSCクローズドキャプション)であることがあり、他の事例では、サブタイトルは、画像ベースの情報ストリーム(例えば、欧州におけるビットマップベースのDVB-SUBサブタイトル)でありうる。サブタイトル情報がテキストベースである場合、サブタイトルと関連しているキーワードおよび他の情報は、抽出されたサブタイトルから取り出し、コンテンツメタデータリポジトリ156などのローカルリポジトリに記憶することがあり、あるいはサービス情報サーバ134へ送出することができ、そこでサブタイトルメタデータ(および関連情報)は、サブタイトルメタデータリポジトリ172に記憶することができる。特定のメタデータと関連しているコンテンツの固有識別子は、記憶される情報に含めることができ、それによって、必要なとき、または要求されたときにメタデータおよび他の情報に高速でアクセスすることができる。抽出されたサブタイトルが画像ベースの形式(例えば、ビットマップ)である場合、コンテンツ取込みアプリケーション154は、光学文字認識を用いてサブタイトルメタデータを認識し取り込むことができる。さらに、メディア源ストリーム中にサブタイトルが含まれていない場合、音声からテキストへの変換を実施して音声情報をサブタイトル様データに変換することができる。音声からテキストへの変換を用いて、抽出されたサブタイトルを処理したときに得られるものと同様な情報を得ることができ、この情報は、場合により、同じサブタイトルメタデータリポジトリ172、あるいは他の任意のリポジトリまたは場所に記憶することができる。

コンテンツ取込みアプリケーション154は、取り込まれたコンテンツと関連している抽出映像ストリームを使用して、追加の処理を実施することができる。一例では、映像ストリームのスナップショットを定期的な間隔で取り入れて、取り込まれたコンテンツと関連している1つまたは複数の静止画像を得ることができる。これらの静止画像は、画像解析サーバ155へ送出することができ、1つまたは複数の映像ベースのキーワードを生成することができる。例えば、静止画像に含まれるテキスト、ロゴ、および他の情報を使用して、図示のシステム100で使用するための追加メタデータを生成することが、画像中の人物の顔認識、または画像中で関連付けられ識別された品物、ランドマークおよび場所の物体認識を含む、OCR技術または他の画像関連データ抽出法を使用して可能である。映像ベースのキーワードのセットが生成された後、画像解析サーバ155は、この映像ベースのキーワードのセットをコンテンツ取込みアプリケーション154へ返すことができる。次に、コンテンツ取込みアプリケーション154は、映像ベースのキーワードをコンテンツメタデータリポジトリ156内に局所的に記憶することができ、あるいは映像ベースのキーワードをサービス情報サーバ134の映像ベースキーワードメタデータリポジトリ174へ送出することができる。どちらの場合でも、映像ベースのキーワードは、固有のコンテンツ識別子と関連付けられて、識別されたコンテンツと関連メタデータとの間で今後、検索が要求または実施された場合に関連付けを行うことが可能になりうる。取り込まれたコンテンツが映像または画像と関連していない場合は、映像ベースのキーワードは生成されることがない。

コンテンツ取込みアプリケーション154はまた、メディア源ストリーム中に埋め込まれた、または含まれるEPGデータから情報を抽出することもできる。加えて、EPGデータはまた、出版業者または放送事業者などのサードパーティから直接供給される、または受け取られることもある。直接供給されるデータは、XMLまたは他の任意の種類のデータファイルとして供給され、電子メッセージ標準規格、システム100に付随する1つまたは複数のAPI、または他の任意の配信のフォーマットおよび方法を用いて受け取ることができる。サードパーティから直接情報を受け取ることによって、これらのサードパーティでは、本出願に記載のシステムおよび方法によって、特に表示するためのデータを発行することが可能になりうる。デジタルテレビでは、EPG情報は、近く公開される番組に関する情報、および搬送ストリーム中の各チャネルの番組情報を提供することができる。EPG情報は、取り込まれる各チャネルに関する一定の期間(例えば、8〜16日間)の番組情報、ならびに現在の番組に起因する、EPG情報に対するリアルタイムの更新(またはEPG情報からのリアルタイムの導出)を含むことができる。例えば、更新された情報を用いて生番組、またはテレビ放送されているスポーツ試合がその番組時間枠を越えたかどうかを判定することができるが、このような情報は、コンテンツから抽出されたEPGデータのセットに含まれている。EPG情報は、例えば、欧州ではDVB-EITテーブルの形、または米国ではATSC EIT情報の形、あるいは様々なメディア提供者およびメディア源150で使用される他のフォーマットでありうる。EPG情報を抽出し処理した後、コンテンツ取込みアプリケーション154は、関連するEPGメタデータおよび情報をサービス情報サーバ134内のEPGメタデータリポジトリ176(あるいは、取込みサーバ152上の、例えばコンテンツメタデータリポジトリ156であるローカルリポジトリ)に記憶することができる。一般に情報は、矢印159で示されるように、取込みサーバ152からサービス情報サーバへ送出される。

メディア源150からの情報はまた、広告検出サーバ160で解析および/または処理することもできる。一般に広告検出サーバ160は、メディア源ストリーム中に含まれる広告をそれが放送されるときに検出する。いくつかの事例では、広告検出サーバ160は、各取込みサーバ152と関連付けることができ、コンテンツ取込みアプリケーション154で抽出された情報は、次に広告検出サーバ160に渡されて、それ自体の情報処理が実施される。あるいは、メディア源コンテンツを並行して、または同時に広告検出サーバ160へ送出してサーバ160の広告検出および認識機能を実施することがある一方で、取込みサーバ152の各構成要素は、それらの機能を実施する。さらに、広告検出サーバ160の(多くのありうる)機能は、1つまたは複数の取込みサーバ152上で実施される機能および動作に含まれるか、またはその一部でありうる。

広告検出サーバ160は、広告取込みアプリケーション162、広告検出器アプリケーション164、および広告音声指紋リポジトリ166を含むいくつかの構成要素を含むことができる。一般に広告取込みアプリケーション162は、取り込まれたメディアの音声部分の音声指紋を作り出すことによって、コンテンツ取込みアプリケーション154と類似の動作を実施することができる。いくつかの事例では、コンテンツ取込みアプリケーション154は、取込みサーバ152で生成された音声指紋を共用し、それによって、2つの構成要素の間で重複した機能を場合により削除することができる。取り込まれたメディアの音声指紋が使用可能になった後、広告検出器アプリケーション164は、取り込まれたメディアの音声指紋と、ローカル広告音声指紋リポジトリ166を含む、「既知の」広告と関連している音声指紋の1つまたは複数のリポジトリとを比較することができる。さらに、広告検出サーバ160はまた、様々な既知の広告と関連している1つまたは複数の映像指紋を記憶するか、またはそれと関連付けることもでき、これら既知の広告は、既知の広告一致の精度を改善するために、搬送ストリームから取り込まれたメディアより生成された映像指紋と関連付けて使用することができる。現在取り込まれているメディアの音声指紋(および、いくつかの事例では映像指紋)が既知の広告と一致した場合、その広告と関連している固有の識別子を、クエリが要求されたときにマッチサービス122へ返すことができる。そうした場合には、広告関連メタデータの1つまたは複数のセットをサービス情報サーバ134に記憶することができ、それによって、識別された広告コンテンツと記憶されたメタデータとの間の関係を、クエリに対する検索結果のセットを生成する際に使用することが可能になる。加えて、ある会社のウェブサイトとのリンク、付加的な製品情報、および他の関連情報など、ある特定の既知の広告と関連している特定の情報がサービス情報サーバ134において入手可能になりうる。この広告別の情報は、コンテンツ別情報リポジトリ170に記憶し、クライアントデバイス104で取り込まれた音声サンプルが既知の広告であると判定されたときにはいつでも使用すること、または結果の中に含めることができる。既知の広告を識別するのに音声指紋および映像指紋を使用すると、よりよい精度が得られ、広告検出サーバ160で、取り込まれたメディア(すなわち生放送)の映像および音声のストリームを比較して、ある特定のチャネルで現在放送されているコンテンツが広告であるかないかを判定することが可能になる。クライアントデバイス104からクエリが受け取られたとき、かつクライアントデバイスから受け取られた音声サンプルと関連している音声指紋が、ある特定のチャネルと関連しているコンテンツと一致した場合、クライアントデバイス104のクエリの時間にそのチャネルが広告を提示しているという知識は、クライアントデバイス104に対して検索結果を生成しているときに使用することができる。

広告検出サーバ160および、図示されているように、広告検出器アプリケーション164はまた、ある特定の取り込まれたコンテンツが広告と関連しているか、または広告であるかどうかを判定することもできる。一例では、広告検出器アプリケーション164は、繰返しパターンアルゴリズムを使用して、特定の取り込まれたコンテンツを広告として識別するように動作することができる。新しい広告が識別された後、現在のストリームから入手可能な任意の付加的情報を使用して、識別された広告と関連しているメタデータを生成することが、例えば広告取込みアプリケーション162を使用して可能である。例えば、広告と関連している映像ストリームからの静止画像を、1つまたは複数の映像ベースのキーワードが生成され、その後サービス情報サーバ134に記憶されるように、画像解析サーバ155で処理することができる。いくつかの事例では、広告取込みアプリケーション162は、広告と関連している画像またはサブタイトルのOCRを実施して広告別の情報を取得することができ、この広告別の情報は、クライアントデバイス104で取り込まれた音声サンプルが識別された広告に対応する場合に、現在および今後の検索結果に含めることができる。加えて、広告取込みアプリケーション162はまた、取り込まれた広告コンテンツと関連している映像指紋を生成することもでき、この映像指紋を使用して、広告一致の精度を向上させることができる。広告取込みアプリケーション162で取り出された情報は、サービス情報サーバ134の対応するリポジトリに渡す、またはそこで記憶することができる(矢印167で示す)。

説明したように、サービス情報サーバ134は、取り込まれたメディアと関連しているメタデータおよびコンテンツ別の情報などのコンテキストデータを記憶するのに使用される。サービス情報サーバ134は、取り込まれたメディアと関連しているあらゆる適切な情報を記憶するリポジトリを含むことができる。さらに、サービス情報サーバ134内に示されたもの以外の付加的な種類のメタデータを記憶することができる。いくつかの事例では、様々な種類のメタデータを、図1に示された複数のリポジトリではなく単一のリポジトリに集めることができる。サービス情報サーバ134は、情報をアーカイブまたは他の記憶リポジトリにアーカイブする前に、ある特定の時間(場合により、対応するコンテンツの種類によって決まる)、その情報を記憶することがある。例えば、生のテレビ放送と関連している結果が得られるようにシステムを最適化するために、情報は、それを記録する前に比較的短時間、サービス情報サーバ134だけに記憶されることがある。いくつかの事例では、この時間は、数分、数時間、または任意の適切な長さの時間でありうる。いくつかの事例では、情報は、時間シフトされたコンテンツ(すなわち、記録されたコンテンツ)がシステム内に含まれることを可能にするために、より長い時間記憶されることがある。加えて、複数のサービス情報サーバ134を使用することができ、別々のサーバ134がそれぞれ異なる期間で情報を記憶する。そのようにして、たとえ特定のメディア源150がメディアストリームの生の(または時間シフトされた)放送ではなくても、DVDおよびブルーレイなどの記録メディアを本システム100で使用することができる。こうして、システム100の制約は、複数のサービス情報サーバ134の記憶容量、およびシステム100の使用目的一般(すなわち、生のテレビ放送に限定される、またはありうるすべてのメディア型を含む)に基づいて決まりうる。以前に説明したように、サービス情報サーバ134は、クエリおよび検索に対応する、またこれらと関連している情報を特定のコンテンツ識別子に基づいて取り出すためのデータマネージャ168を含むことができる。さらに、システムの様々な音声指紋もまた、代替実施形態でサービス情報サーバ内に記憶することができる。

図1は、複数の構成要素を包含している、またはそれらと関連しているように示されているが、実施によっては、図1に例示の実施で示された構成要素のすべては含まないこともある。加えて、ここで図示されている構成要素のうちの1つまたは複数は、システム100の外部に配置されることもあり、他の事例では、いくつかの構成要素が、他の図示の構成要素のうちの1つまたは複数、ならびに他の図示されていない構成要素の中に、またはその一部分として含まれることがある。さらに、図1に示されているいくつかの構成要素は、他の構成要素と組み合わせることができ、あるいは他の1つまたは複数の構成要素の特定の機能を実施することができると共に、本明細書に記載の目的に加えて、代替または追加の目的に使用することもできる。

図2は、クライアントデバイスからの音声ベースの検索要求を実施するための例示的方法200を示す流れ図である。説明を分かりやすくするために、以下の記述では、方法200を図1に示されたシステム100との関連で大まかに記述する。しかし、方法200は例えば、他のシステム、環境、またはシステムと環境の組合せで実施できることを理解されたい。

205で、クライアントデバイスは、ローカル音声取込みアプリケーションをロードする。いくつかの事例では、音声取込みアプリケーションは、開始から、またはクライアントデバイスで表示されるホーム画面から、ロード(または初期化)することができる。音声取込みアプリケーションがロードされた後、音声サンプルが210で取得される。いくつかの事例では、マイクロフォン、音声レシーバ、または他の音声ベースの入力部を使用して、クライアントデバイスで周囲音声を取り込み、記録することができる。一例では、取り込まれた音声は、生のテレビ番組と関連付けることができる。いくつかの事例では、音声取込みアプリケーションによって取り込まれる音声は、クライアントデバイスがオンラインまたはインターネットベースの映像または音声をストリーミングしている場合、ならびにクライアントデバイスが、取り込まれるローカルメディアの供給源であるなどの場合、クライアントデバイス自体から取り込むことができる。クライアントデバイスは、モバイルデバイス(例えば、スマートフォン、タブレットPCなど)であることもあるが、独立型のデバイスであることもあり、映像、音声、または他の適切なマルチメディアの提示と関連している、または提示を指示するセットトップボックスを含む。いくつかの事例では、音声サンプルを取得する動作はまた、クライアントデバイスで記憶された事前記録音声サンプルを音声取込みアプリケーションに供給する動作を含みうる。

いくつかの実施では、クライアントデバイスは、任意の適切な音声指紋採取アルゴリズムおよび215のプロセスを用いて、取得された音声サンプルの音声指紋を生成することができる。あるいは、クライアントデバイスでは音声指紋採取を実施せずに、バックエンドシステムでその機能を実施できるようにすることもある。どちらの場合でも、取得された音声サンプルおよび/または音声指紋は、220で音声指紋一致サービスまたはシステムへ送出される。再び、クライアントデバイスは、210で記憶または取得された生の音声サンプルだけを送出することがあり、あるいは音声サンプルの音声指紋を送出することがある。いくつかの事例では、220は、音声サンプルが取得された後(また音声指紋がクライアントデバイスで生成される場合には、それが生成された後)、自動的に実施される。したがって、取り込まれた音声に対して検索の実施を要求するプロセスでは、1回だけのクリックまたはアクションがクライアントデバイスで必要になりうる。ここで説明したように、音声取込みアプリケーションの初期のローディングまたは活性化は、非キーワード、音声サンプルベースの検索を開始するためにユーザに必要とされる1回のアクションでありうる。さらに、いくつかの事例では、必要なデータを最少にするために、音声サンプル(および音声指紋)を送出する前に、音声圧縮の様々な方法をクライアントデバイスで適用することができる。加えて、適用可能な場合には、音声サンプルの無音部分を除去して音声サンプルのファイルサイズを縮小することもできる。加えて、クライアントデバイスは、転送される音声サンプルと共に、特定のユーザ情報またはクライアントデバイス情報を含むこともでき、この情報は、ユーザプロフィール情報、クライアントデバイス位置情報、ユーザ選好、および他の、音声サンプルと関連している検索を強化し的を絞るために用いることができる情報を含む。クライアントデバイスの位置情報を含めることによって(全地球測位システム(GPS)情報、クライアントデバイスと関連している携帯電話または無線通信から取り出された情報、あるいは、クライアントデバイスのIPアドレスに基づいた地理位置情報サービスを用いる位置決定などの、ユーザまたはクライアントデバイスから供給または導出された情報を用いて)、クライアントデバイスで取り込まれた、可能性のある放送を適当な結果の部分だけが検索され返されるようにフィルタリングすることができる。例えば、米国内のクライアントデバイスからの検索では、ドイツのテレビ放送と関連しているコンテンツにアクセスする、または検索しようとすることがない。このようにして、より効率的な検索クエリを、付加的なユーザ対話を必要とすることなく提出することができる。

225で、取得された音声サンプルと関連している検索結果のセットがクライアントデバイスに返され、受け取られる。一般に、検索結果は、取得された音声サンプルに対応する放送または情報と関連付けることができる。例えば、クライアントデバイスがある特定のテレビ番組から音声サンプルを取得した場合、その番組と関連している検索結果および情報がクライアントデバイスに返される。同様に、ある特定の広告が音声サンプルに含まれる場合、その広告と関連している製品またはサービスに向けられた情報を、広告の映像部分中に含められた情報を含めて返すことができる。230で、検索結果は、アプリケーションと関連しているウェブブラウザによって、ならびにローカル音声取込みアプリケーションに含まれる、またはそれと関連しているウェブブラウザまたは他の機能などによって、クライアントデバイスにおいて提示される。

図2には示されていないが、クライアントデバイスによっては、要求された時間中にローカルメディア源から音声サンプルを記録または取得できないこともある。あるいは、番組または放送が、クライアントデバイスで取り込むにはあまりに小さい音声で監視されることがある。これらの事例では、音声取込みアプリケーションは、現在見ているある特定のチャネルを入力するようにユーザに依頼することによって、代わりの解決策を提供することができる。その情報だけを用いて、検索をバックエンド検索システムへ送出することができ、このバックエンド検索システムは、ユーザによって規定されたチャネルにおける現在の番組または放送と関連している検索結果を返す。加えて、このオプションは、クライアントデバイスで記録または取得された音声サンプルと一致する音声指紋が見つからない場合に、ユーザに提示されることもある。

図3は、放送と関連している情報の検索を生成し実施するために放送情報の音声指紋を使用する例示的方法300を示す流れ図である。説明を分かりやすくするために、以下の記述では、方法300を図1に示されたシステム100との関連で大まかに記述する。しかし、方法300は例えば、他のシステム、環境、またはシステムと環境の組合せで実施できることを理解されたい。

図3は、クライアントデバイスから音声サンプルを受け取ることができ、またその音声サンプルに少なくとも一部は基づいて、受け取られた音声サンプルと一致および/または関連している取り込まれたメディアコンテンツを識別し、識別された取込みメディアと関連している情報に基づいて検索クエリを生成し実行することができる、バックエンド検索システム全体の観点から方法300を大まかに示す。図3は、様々な種類のメディアがすでにバックエンド検索システムによって取り込まれていると理解して示されている。以下で説明する図4は、例示的なメディア取込みおよび処理のプロセスを示し、このプロセスは図3と関連して用いられて、一致するコンテンツを識別するのに使用される対応するデータおよび情報を提供し、その情報に基づく検索クエリを生成することができる。また図1は、その情報をそこから取り込むことができる例示的なシステム100を示す。

図3に示されるように、305でバックエンド検索システムは、クライアントデバイスから音声サンプルを受け取る。バックエンド検索システムは、一部またはそれぞれが異なる種類である複数のクライアントデバイスと関連付けることができる。310で、バックエンド検索システムは、クライアントデバイスから受け取られた音声サンプルの音声指紋を生成する。いくつかの事例では、クライアントデバイスから受け取られた音声サンプルは、クライアントデバイスで生成された、音声サンプルと関連している音声指紋を含む、または包含することがある。

315で、バックエンド検索システムは、生成された音声指紋を、バックエンド検索システムで取り込まれたメディアと関連している複数の音声指紋と比較する。いくつかの事例では、生成された音声指紋(クライアントデバイスからの音声サンプルと関連している)は、受け取られた音声サンプルまたはその関連情報と関連している1つまたは複数の特性に基づくバックエンド検索システムで記憶された、またはそれと関連している、利用可能なすべての音声指紋のサブセットと比較することができる。例えば、受け取られた音声サンプルがクライアントデバイスに関する位置関連情報を含んでいた場合、生成された音声指紋と比較するには、クライアントデバイスの場所と関連している音声指紋だけを検索または使用すればよい。さらに、その比較プロセスでは最初に、取り込まれたメディアの音声指紋の相対的に新しいセットを検索すればよい。一致するものが見つからなかった場合には、比較プロセスでは継続して、生成された音声指紋を、取り込まれたメディアの音声指紋の相対的に古いセットと比較することができる。いくつかの事例では、取り込まれたメディアの音声指紋と関連している別々の種類のリポジトリは、バックエンド検索システムでの比較の際に使用することができる。例えば、取り込まれたメディアの音声指紋のセット、および既知広告の音声指紋のセットは両方、いくつかの事例で比較のために使用することができる。バックエンド検索システムでは、図1に示されたマッチサービス122などの専用アプリケーションまたはサービスを使用して、音声指紋比較を実施することができる。

320で、音声指紋が一致するものが識別されたかどうかの判定が、音声指紋比較によって行われる。一致するものが識別されなかった場合、プロセスを再試行することができ、あるいは別の、または追加の音声指紋リポジトリ、あるいはそのサブセットを比較に使用することができる。それでもなお一致するものが識別されなかった場合は、音声サンプルと関連しているチャネルのマニュアル入力の要求を325で送出することができる。この要求は、音声サンプルが低品質である場合、あるいは受取り環境中で付加的な周囲雑音によって妨害を受けている場合など、クライアントデバイスから受け取られた音声サンプルで一致するものが何も得られなかった場合に用いることができる。特定のチャネルまたは放送を要求することによってバックエンド検索システムは、受け取られた音声サンプルと関連している一般チャネルのマニュアル識別を行うと共に、その情報に基づいて関連するコンテンツを決定することができる。クライアントデバイスから受け取られた、音声サンプル源(すなわち、音声サンプルと関連しているチャネルまたは放送)を識別する情報は、次に、対応する取込み済みコンテンツを識別するのに使用することができる。

320で音声指紋が一致するものが識別された場合、あるいは330で受け取られた情報に基づいて特定のコンテンツが識別された場合、バックエンド検索システムは335で、一致する音声指紋と関連しているコンテンツの識別子を取得する。いくつかの事例では、それぞれの取り込まれたメディアの音声指紋は、コンテンツIDなど固有の識別子と関連付けることができ、この固有の識別子を使用して、一致するコンテンツと関連しているどの追加のデータまたはメタデータも互いに関係付けることができる。加えて、特定のメディア源のマニュアル選択されたものが受け取られた場合(325および330の動作によって)、選択されたチャネルまたは放送は、クライアントデバイスから得られた追加情報と共に用いて、最初のクライアントデバイス要求が送出されたときに放送されたコンテンツを識別することができる。クライアントデバイスからのタイミング情報とコンテキスト情報を相互参照することによって、特有のコンテンツと関連している特定のコンテンツ識別子を取得することができる。

取得されたコンテンツ識別子を使用して、バックエンド検索システムは340で、追加メタデータ、およびコンテンツ識別子と関連している他の情報を取得することができる。例えば、図1は、サービス情報サーバ134が、取り込まれたメディアと関連しているメタデータの様々なリポジトリを含むことを示している。これらのメタデータリポジトリ内の各入力は、コンテンツ識別子が既知である場合に追加の情報およびメタデータを集めることができるように、ある特定のコンテンツ識別子と関連付けることができる。追加のメタデータは、任意の適切な場所から取り出すことができ、メタデータリポジトリ(または他の記憶構造体)に照会する任意の方法を使用して、コンテンツ識別子と関連する情報を見つけることができる。

345で、バックエンド検索システムは、識別されたコンテンツおよび追加して取得されたメタデータに少なくとも一部は基づく検索クエリを生成する。いくつかの事例では、クエリ発生器は、以前の動作で取得された情報(識別されたコンテンツと関連するメタデータ情報など)を組み合わせて、クライアントデバイスから受け取られた音声サンプルと関連している検索クエリを生成する。検索クエリは、任意の適切な検索クエリ生成プロセスを使用して生成することができ、識別されたコンテンツと関連している情報には様々な加重値が与えられる。加えて、どの検索結果にも、クライアントデバイスまたはクライアントデバイスが付随するユーザから得られた情報に基づいて重み付けして、個人化した検索結果を得ることができる。

検索クエリが生成された後、検索クエリは350で、バックエンド検索システムによって実行することができる。いくつかの事例では、図1のように、検索クエリは検索エンジンに渡され、次に検索エンジンは、生成されたクエリを実行することができる。335で、実行された検索クエリと関連している結果のセットがバックエンド検索システムに返され、その後にクライアントデバイスに返される。いくつかの事例では、340で取り出された一部の情報は、クライアントデバイスに返される結果のセットに自動的に含めることができる。例えば、ある特定の番組または放送と関連しているスポンサー提供の情報は、クライアントデバイスから受け取られた音声サンプルが所定の番組に対応する場合に、検索結果に含めることができる。

図4は、放送情報を取り込むと共に、音声指紋およびコンテンツ関連メタデータのリポジトリにデータを入れるための例示的方法400を示す流れ図である。説明を分かりやすくするために、以下の記述では、方法400を図1に示されたシステム100との関連で大まかに記述する。しかし、方法400は例えば、他のシステム、環境、またはシステムと環境の組合せで実施できることを理解されたい。

図4は、1つまたは複数のメディア源ストリームから生および/または記録された放送情報を取り込むことと関連しているプロセスを大まかに示し、このプロセスは、情報の詳細なセットが導出され、取り込まれたメディアの特定のセットと関連付けられることが可能になるように、ストリームから音声および他の関連情報を抽出することを含む。上述のように、取り込まれ抽出された情報は、クライアントデバイスで記録された音声サンプルと関連している非キーワードベースの検索を実施するために使用される。これらの検索を行うために、方法400は一連の動作を含むことができ、これらの動作により、詳細な情報およびメタデータを様々な音声サンプルと関連付け、その後、一致する音声サンプル(または一致する音声サンプルの指紋)の識別に対応して、検索クエリを生成する際に使用することが可能になる。

405で、取込みサーバが、少なくとも1つの放送チャネルまたは他のメディア源と関連付けられる。例えば、取込みサーバは、1つまたは複数のデジタルテレビチャネルと一度に関連付けることができる。複数の取込みサーバを様々なシステムに利用し、任意の数のメディア源と関連付けることができる。いくつかの事例では、取込みサーバを使用して、DVDおよびブルーレイからの材料、ならびにストリーミング、オンラインコンテンツからの材料と関連している情報を取り込むことができる。これらの事例のいくつかでは、取込みプロセスは1回だけ実施すればよいことがある。というのは、これらのメディア源からの情報は、それと関連している音声サンプルをクライアントデバイスがいつ取り込むかにかかわらず、同じままになっていることがありうるからである。あるいは、取込みサーバは、継続的に、かつ/またはリアルタイムで様々なメディア源のストリームを、マルチメディアコンテンツが放送されるときに取り込むことができる。

410で、取込みサーバは、サーバが関連付けられているチャネルからコンテンツを取り込むことができる。言い換えると、1つまたは複数の関連したチャネルまたは放送源から放送されるコンテンツは、取込みサーバで集められ処理の用意がされる。例えば、415で、取り込まれたコンテンツと関連している音声サンプルは、メディア源ストリーム、ならびに他の関連した情報から抽出される。取り込まれたコンテンツと関連している追加の情報は、取り込まれたコンテンツに含まれる、またはそこから導出可能なあらゆる情報を含むことができ、取込みサーバと関連付けられているメディア源の種類、ならびに取り込まれたメディアの種類に基づいて異なりうる。テレビ番組では、メディア源ストリームを抽出して、音声ストリーム、サブタイトルストリーム、映像ストリーム、およびEPGデータを取り出すことができる。加えて、放送されている特定のチャネルと関連している情報を、例えば、チャネル名およびチャネルジャンル(例えばスポーツ、ニュースなど)を含めて抽出することができる。ラジオ放送では、音声ストリームを、信号中に符号化されている他の情報と共に抽出することができる。加えて、任意のメディア源の音声ストリームは、音声-テキストプロセッサによって、コンテンツのサブタイトルまたはテキストを集めることができるように処理することができる。テレビ(または任意の映像ベースの番組または放送)に戻ると、映像ストリームから取り入れられた画像は、画像解析サーバ(図1の155など)で処理して、コンテンツと関連している追加の情報を抽出および/または生成することができる。

420で、取り込まれたコンテンツから抽出された音声サンプルの音声指紋が生成される。前述したように、音声指紋を生成するための任意の適切な方法を使用することができる。425で、生成された音声指紋は第1のリポジトリに記憶される。430で、生成された音声指紋はコンテンツ識別子と関連付けられる。コンテンツ識別子は、生成された音声指紋を、取り込まれたメディアから抽出された付加情報と関連付けることを可能にする任意の固有の識別子とすることができる。例えば、取り込まれたメディアからサブタイトルが抽出された場合、そのサブタイトルと関連しているどんな情報またはメタデータもコンテンツ識別子と関連付けること、または埋め込むことができる。

435で、取り込まれたメディアから抽出および/または導出された付加情報を処理して、取り込まれたメディアと関連付けられ、それを記述する1つまたは複数のメタデータのセットを生成する。図1に関して説明したように、サブタイトルストリームは、サブタイトルビットマップに対してOCR操作を行うことによって処理することができる。加えて、映像ストリームと関連している任意の画像を使用して、またはさらに処理して、取り込まれたコンテンツと関連している映像ベースのキーワードを生成することもできる。取り込まれたメディアから抽出されたどんな付加的な情報またはデータも同様にして、取り込まれたメディアと関連している、かつ識別されたどんなコンテンツとも関連付けられるコンテキストメタデータになるように処理することができる。

440で、処理された関連情報のセットが第2のリポジトリに記憶される。図1に示されたように、それぞれの種類の抽出および処理された情報は、映像ベースキーワードメタデータリポジトリ174、サブタイトルメタデータリポジトリ172、およびEPGメタデータリポジトリ176など別のリポジトリ、ならびに他の任意の適切なリポジトリまたは記憶場所で記憶することができる。445で、これらのリポジトリに記憶された情報の各セットをコンテンツ識別子と関連付けることができる。したがって、一例として図3を用いると、クライアントデバイスで記録された音声サンプルから生成された音声指紋が受け取られ、いくつかの取り込まれたコンテンツと関連している音声指紋と一致した場合、その一致する音声指紋と関連しているコンテンツ識別子を使用して、このコンテンツ識別子と関連しているどんなメタデータも、または他のどんなコンテンツも取り出すことができる。

図5は、本開示の1つまたは複数の例示的方法を使用して、クライアントデバイス505に連続的または断続的に提示される検索結果の例示的な図500である。言い換えると、本開示の一代替実施形態はまた、「連続」モードの動作も含み、この場合クライアントデバイス505は連続して、または規則的な間隔で、取り込まれた音声を記録すると共に放送源502からバックエンド検索システムまで転送し、それによって、結果をクライアントデバイス505に新情報として連続的に提示することが可能になり、またコンテンツが記録され検索システムまで転送される。このような実施形態では、クライアントデバイス505に付随するクライアント音声取込みアプリケーションがロードまたは実行された後、その取込みアプリケーションは、連続的に(または断続的に)放送源502から音声サンプルを記録し、その音声サンプルをバックエンド検索サーバまで転送することができ、それによって、クライアントデバイス505で取得された音声が順次的に記録されたセットについて複数の検索を実施することが可能になる。したがって、対応する結果は、連続的または断続的にクライアントデバイス505へプッシュされ、または返され、クライアントデバイスの取込みアプリケーションと関連しているグラフィカルユーザインターフェース上に表示される。

バックエンド検索システムから追加の結果が受け取られたとき、クライアントデバイス505に表示される結果一覧は、連続的または断続的に更新されて、現在の放送源502に対応することができる。加えて、エンドユーザが、クライアントデバイス505と結合している放送源502を変更した場合には(例えば、テレビチャネルまたはラジオ局の変更、テレビなど第1の種類のメディアからオンラインストリーミング映像など第2の種類のメディアへの移行など)、最新の検索を実施することができ、新しい放送源502と関連している結果がクライアントデバイス505に表示される。

クライアントデバイスから受け取られた音声サンプルを使用すると、バックエンド検索システムを使用して(本開示で説明するように、または他の任意の適切な代替実施形態のように)、受け取られた各音声サンプルと関連しているコンテンツおよびコンテキストを、人、場所、ニュース記事、製品、ならびに言及された情報あるいはチャネルまたは放送源の最新の(かつ取り込まれた)音声と関連している情報を含めて識別することができる。この識別されたコンテンツおよびコンテキスト情報を使用して、バックエンド検索システムは、関連した検索クエリを生成し、受け取られた音声サンプルの各セットと関連している1つまたは複数の検索結果を識別することができる。いくつかの事例では、1つまたは複数の検索結果は、一般の検索エンジンからのトップ検索結果、オンラインニュース源と関連している関連ニュース記事、取り込まれた音声サンプルのコンテンツと関連している場所に関連した地図または情報とのリンク、論じられたまたは音声サンプルと関連している製品とのリンク、あるいは識別されたコンテンツと関係がある他の任意の情報を含むことができる。さらに、取り込まれた放送源502と関連している識別されたジャンルを使用して、検索する情報のサブセットを決定することができる。例えば、ニュース番組では、他の検索結果よりも重く重み付けされたニュース検索結果が得られ、製品関連番組では、重く重み付けされた製品およびショッピング関連検索結果が得られる。連続的または断続的な実施形態のいくつかの事例では、各特定の音声サンプルに対して返される検索結果の数は、ある時間間隔にわたって(例えば、取り込まれた音声の複数のセットに関連している)検索結果をクライアントデバイス505上で提示できるようにするために制限されることがある。

図5に示されたように、クライアントデバイス505は、新しい検索結果(515a〜d)をそれらがバックエンド検索システムから返されたときに、チャネルまたは放送源識別子510と共に表示することができる。例えば、図5は、ニュース放送と関連している検索結果を示し、各検索結果(515a、515b、515c、および515d)は、見られている放送に含まれる別のニュース記事に対応している。新しい検索結果がバックエンド検索システムによって生成されて返されると、新しい結果(515a)は検索結果一覧の最上部に挿入され、それによって、新しいまたは追加の検索が行われるにつれて検索結果を継続して更新することができる。チャネルまたは放送源が、アプリケーションが実行されている間に変更された場合には、それに応じてチャネルまたは放送源識別子510を変更することができる。あるいは、第2のチャネルまたは放送源識別子を検査結果ページの最上部に挿入することが、最初のチャネルまたは放送源識別子が検査結果一覧の下方に移動されて可能になる。第2のチャネルまたは放送源識別子と関連している結果は、別々の放送源と関連している各検索結果を区別するために、第2の放送源識別子の下で、かつ最初のチャネルまたは放送源識別子の上に示すことができる。

本開示では、図2、3、および4のそれぞれ異なる方法と関連している例示的な技法を示すために複数の流れ図および随伴する説明を用いているが、システム100では、上記および他のタスクを実行するのに任意の適切な技法を使用または実施することを企図している。これらの技法は、単に例示を目的とするにすぎないこと、ならびに、説明された、または同様な諸技法を任意の適切な時間に、並行して、個別に、または組み合わせてということを含めて、実施できることを理解されたい。加えて、これらの流れ図の段階の多くは同時に、かつ/または図示され説明されたものとは異なる順序で行われてよい。さらに、システム100では、プロセスおよび方法が適切に存続する限り、追加の段階、より少ない段階、および/または異なる段階を伴うプロセスおよび方法を使用することができる。

本明細書で説明されている主題の諸実施形態、および動作は、本明細書で開示された構造物およびそれらの構造的等価物、あるいはそれらのうちの1つまたは複数からなる組合せを含む、デジタル電子回路、あるいはコンピュータのソフトウェア、ファームウェアまたはハードウェアで実施することができる。本明細書で説明されている主題の諸実施形態は、1つまたは複数のコンピュータプログラムとして、すなわち、データ処理装置で実行するための、またはデータ処理装置の動作を制御するための、コンピュータ記憶メディア上に符号化されたコンピュータプログラム命令の1つまたは複数のモジュールとして、実施することができる。あるいは、または加えて、プログラム命令は、適切な受信器装置まで転送する情報を符号化するために生成される、例えば機械で生成した電子信号、光信号または電磁信号である人工的に生成した伝搬信号上に符号化して、データ処理装置で実行することができる。コンピュータ記憶メディアは、コンピュータ可読記憶デバイス、コンピュータ可読記憶基板、ランダムまたは順次アクセスメモリアレイもしくはデバイス、またはそれらのうちの1つまたは複数からなる組合せとすることができ、あるいはこれらに含まれうる。さらに、コンピュータ記憶メディアは、伝搬信号ではないが、人工的に生成された伝搬信号中に符号化されるコンピュータプログラム命令の供給源または転送先になりうる。コンピュータ記憶メディアはまた、1つまたは複数の別個の物理的構成要素またはメディア(例えば、複数のCD、ディスク、または他の記憶デバイス)とすることもでき、あるいはこれらに含まれうる。

本明細書で説明されている諸動作は、1つまたは複数のコンピュータ可読記憶デバイス上に記憶されたデータ、または他のデータ源から受け取られたデータに対してデータ処理装置で行われる動作として実施することができる。

「データ処理装置」という語は、プログラム可能プロセッサ、コンピュータ、システムオンチップ、あるいは上記の複数のものまたは組合せを例示的に含む、データを処理するためのあらゆる種類の装置、デバイスまたは機械を包含する。装置は、例えばFPGA(書き替え可能ゲートアレイ)またはASIC(特定用途向け集積回路)である特殊用途論理回路を含むことができる。装置はまた、ハードウェアに加えて、論点になっているコンピュータプログラムの実行環境を作り出すコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、クロスプラットフォームランタイム環境、仮想機械、またはそれらのうちの1つまたは複数の組合せを構成するコードを含むことができる。この装置および実行環境は、ウェブサービス、分散計算インフラストラクチャおよびグリッド計算インフラストラクチャなど、それぞれ異なる多様な計算モデルインフラストラクチャを実現することができる。

コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアプリケーション、スクリプト、コードとしても知られている)は、コンパイル型またはインタープリタ型言語、宣言型または手続き型言語を含む、任意の形式のプログラミング言語で書くことができ、スタンドアロンプログラムとしてまたはモジュールとして、構成要素、サブルーチン、オブジェクト、またはある計算機環境で使用するのに適した他のユニットを含む任意の形式で配布することができる。コンピュータプログラムは、ファイルシステム内のファイルに対応できるが、対応しなくてもよい。プログラムは、他のプログラムまたはデータを保持するファイルの一部分(例えば、マーク付け言語文書として記憶される1つまたは複数のスクリプト)、論点になっているプログラムに専用の単一のファイル、または複数の連動するファイル(例えば、1つまたは複数のモジュール、サブプログラム、またはコードの一部分、を記憶するファイル)に記憶することができる。コンピュータプログラムは、1台のコンピュータ上で実行されるように、あるいは1つの場所に配置され、または複数の場所にわたって分散され通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように、配布することができる。

本明細書で説明されているプロセスおよび論理の流れは、1つまたは複数のプログラム可能プロセッサによって実施することができ、このプロセッサは、入力データに対して作動し出力を生成することによってアクションを行うように1つまたは複数のコンピュータプログラムを実行する。このプロセスおよび論理の流れはまた、例えばFPGA(書き替え可能ゲートアレイ)またはASIC(特定用途向け集積回路)である特殊用途論理回路で実施することもでき、装置もまた特殊用途論理回路として実施することができる。

コンピュータプログラムの実行に適したプロセッサは、汎用および特殊用途両方のマイクロプロセッサ、または任意の種類のデジタルコンピュータの、任意の1つまたは複数のプロセッサを例示的に含む。一般に、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリから、あるいは両方から命令およびデータを受け取る。コンピュータの必要不可欠な要素は、命令に応じてアクションを行うプロセッサと、命令およびデータを記憶する1つまたは複数のメモリデバイスである。一般に、コンピュータはまた、データを記憶するための、例えば磁気ディスク、磁気光ディスクまたは光ディスクである1つまたは複数の大容量記憶デバイスを含むか、またはデータを送受するように動作可能にこの大容量記憶デバイスに結合されるか、またはその両方である。しかし、あるコンピュータでは、そのようなデバイスを有する必要がない。さらに、コンピュータは、他のデバイスに埋め込むこともでき、例えば、そのデバイスを少しだけ挙げれば、携帯電話、携帯情報端末(PDA)、携帯オーディオプレーヤまたはビデオプレーヤ、ゲーム機、全地球測位システム(GPS)受信機、または携帯型記憶デバイス(例えば、ユニバーサルシリアルバス(USB)フラッシュドライブ)がある。コンピュータプログラム命令およびデータを記憶するのに適したデバイスには、例えばEPROM、EEPROM、およびフラッシュメモリデバイスである半導体メモリデバイス、例えば内蔵ハードディスクまたは取外し可能ディスクである磁気ディスク、磁気光ディスク、CD-ROMディスクおよびDVD-ROMディスクを例示的に含む、あらゆる形態の不揮発性メモリ、メディアデバイスおよびメモリデバイスが含まれる。プロセッサおよびメモリは、特殊用途論理回路によって補足する、またはそれに内蔵することができる。

ユーザとの対話を可能にするために、本明細書で説明されている主題の諸実施形態は、ユーザに情報を表示するための、例えばCRT(陰極線管)またはLCD(液晶ディスプレイ)モニタである表示デバイスと、ユーザがコンピュータに入力を与えることができる、例えばマウスまたはトラックボールであるキーボードおよびポインティングデバイスとを有するコンピュータによって実施することができる。ユーザとの対話を可能にするには、他の種類のデバイスも同様に使用することができ、例えば、ユーザに与えられるフィードバックは、例えば視覚フィードバック、聴覚フィードバックまたは触覚フィードバックである任意の形式の感覚フィードバックとすることができ、ユーザからの入力は、音響、音声または触覚の入力を含む任意の形式で受け取られることができる。加えて、コンピュータは、ユーザによって使用されるデバイスとの間で文書を送受することによってユーザと対話することが、例えば、ウェブブラウザから受け取られた要求に応じてユーザのクライアントデバイス上のウェブブラウザにウェブページを送付することによってできる。

本明細書で説明されている主題の諸実施形態は、例えばデータサーバとしてバックエンド構成要素を含む計算機システムで、あるいは、例えばアプリケーションサーバであるミドルウェア構成要素を含む計算機システムで、あるいは、例えば本明細書で説明されている主題の一実施とユーザが対話することを可能にするグラフィカルユーザインターフェースまたはウェブブラウザを有するクライアントコンピュータであるフロントエンド構成要素を含む、または1つもしくは複数のそのようなバックエンド構成要素、ミドルウェア構成要素、またはフロントエンド構成要素の任意の組合せを含む計算機システムで、実施することができる。このシステムの各構成要素は、例えば通信ネットワークであるデジタルデータ通信の任意の形態またはメディアによって、相互接続することができる。通信ネットワークの例には、ローカルエリアネットワーク(「LAN」)および広域ネットワーク(「WAN」)、インターネットワーク(例えばインターネット)、ならびにピアツーピアネットワーク(例えば、アドホックピアツーピアネットワーク)が含まれる。

計算機システムは、クライアントおよびサーバを含むことができる。クライアントとサーバは一般に互いに離れており、通常は通信ネットワークを介して対話する。クライアントとサーバの関係は、それぞれのコンピュータ上で走り、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。いくつかの実施形態では、サーバがデータ(例えばHTMLページ)をクライアントデバイスまで転送する(例えば、クライアントデバイスと対話するユーザにデータを表示し、このユーザからユーザ入力を受け取る目的で)。クライアントデバイスで生成されたデータ(例えば、ユーザ対話の結果)は、サーバのところでクライアントデバイスから受け取ることができる。

本明細書は多くの具体的実施の詳細を含むが、これらは、いかなる発明の範囲、または特許請求されうる範囲の制限として解釈されるべきではなく、特定の発明の特定の実施形態に固有の特徴についての説明として解釈されるべきである。本明細書で別個の実施形態の中で説明されているいくつかの特徴はまた、単一の実施形態において組み合わせて実施することもできる。逆に、単一の実施形態の中で説明されている様々な特徴はまた、複数の実施形態において別々に、または任意の適切な下位組合せで実施することもできる。さらに、各特徴は、いくつかの組合せで作用すると上記で説明されていることがあり、当初そのように特許請求されていることさえあるが、特許請求される組合せによる1つまたは複数の特徴は、場合によりその組合せから削除することができ、特許請求される組合せは、下位組合せまたは下位組合せの変形を対象とすることがある。

同様に各動作が図面に、ある特定の順序で示されているが、このことは、望ましい結果を得るのにこのような動作が図示の特定の順序または一連の順序で実施されることが必要である、あるいは図示のすべての動作が実施されることが必要であると理解されるべきではない。状況によっては、マルチタスク処理および並列処理が有利になりうる。さらに、上述の実施形態において様々なシステム構成要素を分離することは、すべての実施形態においてそのような分離が必要であると理解されるべきではなく、説明されているプログラム構成要素およびシステムは一般に、単一のソフトウェア製品として一緒に統合できる、または複数のソフトウェア製品の中にパッケージ化できると理解されるべきである。

このように主題の特定の実施形態を説明してきた。他の実施形態は、添付の特許請求の範囲内にある。場合により、特許請求の範囲に列挙された挙動は、別の順序で実施することができるが、それでもなお望ましい結果が得られる。加えて、添付の図に示されたプロセスでは、望ましい結果を得るのに、必ずしも図示の特定の順序、または一連の順序を必要としない。いくつかの実施では、マルチタスク処理および並列処理が有利になりうる。

100 システム
102 ローカルメディア源、ローカルメディア
104 クライアントデバイス
106 音声レシーバ
108 音声取込みアプリケーション、取込みアプリケーション、アプリケーション
109 矢印
110 ネットワーク
111 矢印
112 フロントエンドサーバ
114 音声指紋発生器アプリケーション
116 検索結果コレクタ
118 コンテンツ検索マネージャ
119 矢印
120 マッチサーバ
122 マッチサービス
123,124,125,126,127,128 矢印
130 検索クエリビルダサーバ
132 検索クエリビルダモジュール
133 矢印
134 サービス情報サーバ
135 矢印
138 検索サーバ
159 矢印
140 検索エンジン
141,143,145 矢印
150 メディア源
152 取込みサーバ
154 コンテンツ取込みアプリケーション
155 画像解析サーバ
156 コンテンツメタデータリポジトリ
158 メディア音声指紋リポジトリ
160 広告検出サーバ
162 広告取込みアプリケーション
164 広告検出器アプリケーション
166 広告音声指紋リポジトリ
167 矢印
168 データマネージャ
170 コンテンツ別情報リポジトリ
172 サブタイトルメタデータリポジトリ、サブタイトルメタデータ
174 映像ベースキーワードメタデータリポジトリ
176 EPGメタデータリポジトリ、電子番組ガイド(EPG)メタデータ

Claims

クライアントデバイスから音声データを受け取る段階と、
前記受け取られた音声データに基づいて、取り込まれたメディアから特定のコンテンツを識別する段階であって、前記識別された特定のコンテンツが前記受け取られた音声データと関連付けられ、前記取り込まれたメディアが音声メディアまたは音声映像メディアのうちの少なくとも一方を含み、前記識別されたコンテンツが前記受け取られた音声データおよび前記取り込まれたメディアに含まれる少なくとも1つの既知の広告を含む、段階と、
前記特定のコンテンツの少なくとも一部分を前記少なくとも1つの既知の広告と照合する段階と、
前記少なくとも1つの既知の広告と関連している追加情報を取得する段階と、
前記少なくとも1つの既知の広告と関連している前記取得された追加情報に少なくとも一部は基づく検索クエリを生成する段階と、
前記検索クエリに対応する、かつ前記受け取られた音声データおよび前記少なくとも1つの既知の広告と関連している1つまたは複数の検索結果を前記クライアントデバイスに返す段階とを含み、前記1つまたは複数の検索結果が前記少なくとも1つの既知の広告と関連している追加の検索結果を含む、方法。
前記クライアントデバイスがモバイルデバイスを含む、請求項1に記載の方法。
前記モバイルデバイスが、携帯電話、スマートフォン、ラップトップPC、ネットワークPC、またはタブレットPCを含む、請求項2に記載の方法。
前記クライアントデバイスが、音声メディアまたは音声映像メディアを提示することに関連しているセットトップボックスを含む、請求項1に記載の方法。
前記クライアントデバイスから受け取られた前記音声データが、前記クライアントデバイスにおいて記録されたメディアの音声指紋を含む、請求項1に記載の方法。
前記音声データの音声指紋を取得する段階をさらに含む、請求項1に記載の方法。
前記音声指紋を取得する段階が、前記クライアントデバイスから受け取られた前記音声データから音声指紋を生成する段階を含む、請求項6に記載の方法。
前記取り込まれたメディアが、取り込まれたデジタルテレビ放送を集めたものを含む方法であって、
少なくとも1つのデジタルテレビチャネルを監視する段階と、
前記少なくとも1つのデジタルテレビチャネルのそれぞれから少なくとも1つの音声ストリームを抽出する段階と、
前記監視される少なくとも1つのデジタルテレビチャネルのそれぞれに、前記抽出された音声ストリームの少なくとも一部分から音声指紋を生成する段階と、
前記生成された音声指紋のそれぞれを音声指紋リポジトリに記憶する段階とをさらに含み、生成された各音声指紋が固有のコンテンツ識別子と関連している、請求項1に記載の方法。
各抽出音声ストリームと関連している情報の少なくとも1つの追加のセットを導出する段階と、
前記導出された情報の少なくとも1つの追加のセットに基づく各抽出音声ストリームと関連している、コンテンツ関連メタデータの少なくとも1つのセットを生成する段階と、
前記コンテンツ関連メタデータの少なくとも1つのセットのそれぞれを、前記対応する抽出音声ストリームと関連している前記生成された音声指紋に関連した前記固有のコンテンツ識別子と関連付ける段階と、
前記コンテンツ関連メタデータの少なくとも1つのセットのそれぞれをメタデータリポジトリに記憶する段階とをさらに含む、請求項8に記載の方法。
取り込まれたメディアから特定のコンテンツを識別する段階が、
前記クライアントデバイスから受け取られた前記音声データから生成された音声指紋を、前記音声指紋リポジトリに記憶された少なくとも1つの音声指紋と照合する段階と、
前記音声指紋リポジトリに記憶された前記少なくとも1つの音声指紋と関連している前記固有のコンテンツ識別子を識別する段階とを含み、
前記識別されたコンテンツと関連している追加メタデータを取得する段階が、前記識別された固有のコンテンツ識別子と関連しているコンテンツ関連メタデータを前記メタデータリポジトリから取り出す段階を含む、請求項9に記載の方法。
1つまたは複数のプロセッサに、
クライアントデバイスから音声データを受け取る動作、
前記受け取られた音声データに基づいて、取り込まれたメディアから特定のコンテンツを識別する動作であって、前記識別された特定のコンテンツが前記受け取られた音声データと関連付けられ、前記取り込まれたメディアが音声メディアまたは音声映像メディアのうちの少なくとも一方を含み、前記識別されたコンテンツが前記受け取られた音声データおよび前記取り込まれたメディアに含まれる少なくとも1つの既知の広告を含む、動作、
前記特定のコンテンツの少なくとも一部分を前記少なくとも1つの既知の広告と照合する動作、
前記少なくとも1つの既知の広告と関連している追加情報を取得する動作、
前記少なくとも1つの既知の広告と関連している前記取得された追加情報に少なくとも一部は基づく検索クエリを生成する動作、および
前記検索クエリに対応する、かつ前記受け取られた音声データおよび前記少なくとも1つの既知の広告と関連している1つまたは複数の検索結果を前記クライアントデバイスに返す動作を行わせる命令を含み、前記1つまたは複数の検索結果が前記少なくとも1つの既知の広告と関連している追加の検索結果を含む、コンピュータ読み取り可能な記録メディア。
前記クライアントデバイスがモバイルデバイスを含む、請求項11に記載のコンピュータ読み取り可能な記録メディア。
前記モバイルデバイスが、携帯電話、スマートフォン、ラップトップPC、ネットワークPC、またはタブレットPCを含む、請求項12に記載のコンピュータ読み取り可能な記録メディア。
前記クライアントデバイスが、音声メディアまたは音声映像メディアを提示することに関連しているセットトップボックスを含む、請求項11に記載のコンピュータ読み取り可能な記録メディア。
前記クライアントデバイスから受け取られた前記音声データが、前記クライアントデバイスで記録されたメディアの音声指紋を含む、請求項11に記載のコンピュータ読み取り可能な記録メディア。
前記1つまたは複数のプロセッサに、前記音声データの音声指紋を取得する動作をさらに行わせる命令を含む、請求項11に記載のコンピュータ読み取り可能な記録メディア。
前記音声指紋を取得する動作が、前記クライアントデバイスから受け取られた前記音声データから音声指紋を生成する動作を含む、請求項16に記載のコンピュータ読み取り可能な記録メディア。
前記取り込まれたメディアが、取り込まれたデジタルテレビ放送を集めたものを含み、
前記1つまたは複数のプロセッサに、
少なくとも1つのデジタルテレビチャネルを監視する動作、
前記少なくとも1つのデジタルテレビチャネルのそれぞれから少なくとも1つの音声ストリームを抽出する動作、
前記監視される少なくとも1つのデジタルテレビチャネルのそれぞれで、前記抽出された音声ストリームの少なくとも一部分から音声指紋を生成する動作、および
前記生成された音声指紋のそれぞれを音声指紋リポジトリに記憶する動作をさらに行わせる命令を含み、生成された各音声指紋が固有のコンテンツ識別子と関連している、請求項11に記載のコンピュータ読み取り可能な記録メディア。
前記1つまたは複数のプロセッサに、
各抽出された音声ストリームと関連している情報の少なくとも1つの追加のセットを導出する動作、
前記導出された情報の少なくとも1つの追加のセットに基づく各抽出された音声ストリームと関連している、コンテンツ関連メタデータの少なくとも1つのセットを生成する動作、
前記コンテンツ関連メタデータの少なくとも1つのセットのそれぞれを、前記対応する抽出された音声ストリームと関連している生成された音声指紋に関連した前記固有のコンテンツ識別子と関連付ける動作、および
前記コンテンツ関連メタデータの少なくとも1つのセットのそれぞれをメタデータリポジトリに記憶する動作をさらに行わせる命令を含む、請求項18に記載のコンピュータ読み取り可能な記録メディア。
取り込まれたメディアから特定のコンテンツを識別する動作が、
前記クライアントデバイスから受け取られた音声データから生成された音声指紋を、前記音声指紋リポジトリに記憶された少なくとも1つの音声指紋と照合する動作、および
前記音声指紋リポジトリに記憶された少なくとも1つの音声指紋と関連している前記固有のコンテンツ識別子を識別する動作を含み、
前記識別されたコンテンツと関連している追加メタデータを取得する動作が、前記識別された固有のコンテンツ識別子と関連しているコンテンツ関連メタデータを前記メタデータリポジトリから取り出す動作を含む、請求項19に記載のコンピュータ読み取り可能な記録メディア。
1つまたは複数のクライアントデバイスから1つまたは複数の音声データのセットを受け取るように適合された1つまたは複数のフロントエンドサーバと、
1つまたは複数の取り込まれたメディア番組および広告に番組データの各セットが対応する、複数の番組データのセットから1つの番組データのセットを前記音声データに基づいて識別するように適合された1つまたは複数のマッチサーバと、
前記取り込まれたメディア番組および広告が既知の広告または新たな広告を含むかどうかを決定するように、かつ前記取り込まれた広告の最初の発生時に前記取り込まれた広告のうちの少なくとも映像部分を処理するように適合された1つまたは複数の広告検出サーバであって、前記処理することが前記取り込まれた広告と関連している追加情報を生成することを含み、前記追加情報の少なくとも一部分が検索クエリを構築するために使用される、1つまたは複数の広告検出サーバと、
取り込まれたメディア番組と関連している追加情報および前記取り込まれた広告と関連している前記生成された追加情報を記憶するように、かつ前記識別された番組データのセットと関連している特定の追加情報を識別するように適合された1つまたは複数のサービス情報サーバと、
前記識別された番組データのセットと関連している前記識別された特定の追加情報および前記取り込まれた広告と関連している前記生成された追加情報に少なくとも一部は基づく検索クエリを生成するように適合された1つまたは複数の検索クエリビルダサーバとを含み、
前記1つまたは複数のフロントエンドサーバがさらに、前記生成された検索クエリに基づいて識別された少なくとも1つの検索クエリ結果を前記1つまたは複数のクライアントデバイスへ送出するように適合され、前記1つまたは複数の検索結果が前記取り込まれた広告と関連している追加の検索結果を含む、システム。
前記1つまたは複数のフロントエンドサーバがさらに、前記1つまたは複数の受け取られた音声データのセットに基づく音声指紋を取得するように適合され、
前記1つまたは複数のマッチサーバがさらに、
前記取得された音声指紋を番組データおよび広告がベースの複数の音声指紋と比較するように、かつ
番組データまたは広告をベースとする前記複数の音声指紋のうち、前記取得された音声指紋と一致するものを少なくとも1つ識別するように適合される、請求項21に記載のシステム。
前記生成された検索クエリを受け取るように、かつ前記生成された検索クエリに対応する少なくとも1つの検索クエリ結果を識別するように適合された1つまたは複数の検索エンジンサーバをさらに含む、請求項21に記載のシステム。
前記1つまたは複数のクライアントデバイスが携帯電話、スマートフォン、ラップトップPC、ネットワークPC、またはタブレットPCを含む、請求項21に記載のシステム。
クライアントデバイスにおいて少なくとも1つのメディア源から音声サンプルを取得する段階であって、前記音声サンプルが少なくとも1つの広告と関連している、段階と、
前記少なくとも1つの広告と関連している部分を含む前記音声サンプルの少なくとも一部分と関連している音声データを前記クライアントデバイスから非キーワードベースの検索システムまで転送する段階と、
前記転送された音声データの一部分と関連している検索結果のセットを前記クライアントデバイスで受け取る段階であって、前記検索結果のセットが、前記取得された音声サンプルに関連している既知の広告を前記転送された音声データを使用して識別すること、前記識別された既知の広告および前記既知の広告と関連している追加情報のセットに基づく1つまたは複数の検索語を選択すること、および前記1つまたは複数の検索語を検索エンジンに提出することによって、前記非キーワードベースの検索システムにおいて生成される、段階と、
前記検索結果のセットを前記クライアントデバイスに提示する段階とを含み、前記検索結果のセットが前記既知の広告と関連している少なくとも1つの追加の検索結果を含む、方法。
前記少なくとも1つのメディア源がローカルメディア源を含み、前記クライアントデバイスにおいて前記少なくとも1つのメディア源から音声サンプルを取得する段階が、前記ローカルメディア源と関連している周囲音声を記録する段階を含む、請求項25に記載の方法。
前記少なくとも1つのメディア源が、テレビ放送、ラジオ放送、インターネットベースのマルチメディア表示、DVD表示、またはブルーレイ表示のうちの少なくとも1つを含む、請求項25に記載の方法。
前記非キーワードベースの検索システムが1つまたは複数のサーバを含み、さらに
前記取得された音声サンプルに関連しているメディア番組を前記転送された音声データを使用して識別する段階が、前記識別されたメディア番組に関連している追加メタデータを前記非キーワードベースの検索システムで取得する段階を含み、
前記識別されたメディア番組に基づく1つまたは複数の検索語を選択する段階が、前記取得された追加メタデータに少なくとも一部は基づく検索クエリを前記非キーワードベースの検索システムで生成する段階を含み、
前記転送された音声データの一部分と関連している検索結果のセットを前記クライアントデバイスで受け取る段階が、前記生成された検索クエリに対応する検索結果のセットを前記非キーワードベースの検索システムから前記クライアントデバイスまで転送する段階を含む、請求項25に記載の方法。
前記クライアントデバイスがモバイルデバイスを含む、請求項25に記載の方法。
前記モバイルデバイスが、携帯電話、スマートフォン、ラップトップPC、ネットワークPC、またはタブレットPCのうちの1つを含む、請求項29に記載の方法。
前記音声サンプルの少なくとも一部分の音声指紋を前記クライアントデバイスにおいて取得する段階をさらに含み、前記音声サンプルの少なくとも一部分と関連している前記転送された音声データが、前記取得された音声指紋を含む、請求項25に記載の方法。
1つまたは複数のプロセッサに、
少なくとも1つのメディア源から音声サンプルを取得する動作であって、前記音声サンプルが少なくとも1つの広告と関連している、動作、
前記少なくとも1つの広告と関連している部分を含む前記音声サンプルの少なくとも一部分と関連している音声データを非キーワードベースの検索システムまで転送する動作、
前記転送された音声データの一部分と関連している検索結果のセットを受け取る動作であって、前記検索結果のセットが、前記取得された音声サンプルと関連している既知の広告を前記転送された音声データを使用して識別すること、前記識別された既知の広告および前記既知の広告と関連している追加情報のセットに基づく1つまたは複数の検索語を選択すること、および前記1つまたは複数の検索語を検索エンジンに提出することによって、前記非キーワードベースの検索システムにおいて生成される、動作、および
前記検索結果のセットを提示する動作を行わせる命令を含み、前記検索結果のセットが前記既知の広告と関連している少なくとも1つの検索結果を含む、コンピュータ読み取り可能な記録メディア。
前記少なくとも1つのメディア源がローカルメディア源を含み、前記少なくとも1つのメディア源から前記音声サンプルを取得する動作が、前記ローカルメディア源と関連している周囲音声を記録する動作を含む、請求項32に記載のコンピュータ読み取り可能な記録メディア。
前記少なくとも1つのメディア源が、テレビ放送、ラジオ放送、インターネットベースのマルチメディア表示、DVD表示、またはブルーレイ表示のうちの少なくとも1つを含む、請求項32に記載のコンピュータ読み取り可能な記録メディア。
前記非キーワードベースの検索システムが1つまたは複数のサーバを含み、さらに
前記取得された音声サンプルに関連しているメディア番組を前記転送された音声データを使用して識別する動作が、前記識別されたメディア番組に関連している追加メタデータを前記非キーワードベースの検索システムで取得する動作を含み、
前記識別されたメディア番組に基づく1つまたは複数の検索語を選択する動作が、前記取得された追加メタデータに少なくとも一部は基づく検索クエリを前記非キーワードベースの検索システムで生成する動作を含み、
前記転送された音声データの一部分と関連している検索結果のセットを受け取る動作が、前記生成された検索クエリに対応する検索結果のセットを前記非キーワードベースの検索システムから転送する動作を含む、請求項32に記載のコンピュータ読み取り可能な記録メディア。
前記コンピュータ読み取り可能な記録メディアがモバイルデバイスを含む、請求項32に記載のコンピュータ読み取り可能な記録メディア。
前記モバイルデバイスが、携帯電話、スマートフォン、ラップトップPC、ネットワークPC、またはタブレットPCのうちの1つを含む、請求項36に記載のコンピュータ読み取り可能な記録メディア。
前記1つまたは複数のプロセッサに、前記音声サンプルの少なくとも一部分の音声指紋を取得する動作をさらに行わせる命令を含み、前記音声サンプルの少なくとも一部分と関連している前記転送された音声データが、前記取得された音声指紋を含む、請求項32に記載のコンピュータ読み取り可能な記録メディア。