JP6408551B2

JP6408551B2 - メディアコンテンツに対応する携帯型コンテンツを提供するための方法、システム、および記録媒体

Info

Publication number: JP6408551B2
Application number: JP2016501451A
Authority: JP
Inventors: オズタスケント、アント; ボロビッチ、ヤロスラブ; シングルトン、デイビッド; ドレイソン、ティンボ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2013-03-14
Filing date: 2014-03-12
Publication date: 2018-10-17
Anticipated expiration: 2034-03-12
Also published as: CN105122242A; KR20150127238A; KR102128115B1; US9609391B2; EP2973037A1; CA2908549C; WO2014159578A1; JP2016521390A; US20140282660A1; US9247309B2; CA2908549A1; US20160156986A1; US20170155964A1

Description

開示された主題は、メディアコンテンツに対応する携帯型コンテンツを提供するための方法、システム、および記録媒体に関する。

テレビ番組を見ている間、視聴者は、しばしばテレビ番組に関する情報に関心がある。たとえば視聴者は、映画で見られる俳優についての、またはドキュメンタリーの中で示される場所についての追加情報を検索したくなるかもしれない。

検索エンジンは、視聴者がインターネット上でウェブページ、画像、ビデオコンテンツ、および音声コンテンツを含むリソースを検索することを可能にする。典型的な検索エンジンは、検索語を入力するためのウェブページを提供するが、そこでは検索語は視聴者によって入力される。特別な検索語に対して処理された検索結果は、視聴者に提供される。その上、携帯装置の出現によって、携帯型検索エンジンの使用が増加した。たとえば携帯装置を使用して、視聴者は、テレビ番組を見ている間に検索を実施し、かつインターネットコンテンツを拾い読みしてもよい。

米国特許出願公開第２０１３／０４７１７８号明細書

しかしながら、テキストベースの検索エンジンは、このユーザに対しては多少制限されるかもしれない。１つの例において、そこではユーザは映画の中の特別な俳優の名前を知り、かつその特別な俳優についての追加情報を獲得したいのであるが、ユーザは、その映画の題名を見つけ（たとえば番組ガイドから、オンラインテレビ案内ウェブサイトから、印刷されたガイドから、など）、かつそれを携帯型検索エンジンに入力することでその映画に対する検索を行うことによって、この情報の獲得を試みるかもしれない。ユーザは、その後、その映画に関する情報を含むウェブページ（たとえば映画およびテレビ番組に関する情報を含むオンラインウェブページ）を見つけるために、検索結果をクリックし、ウェブページにアクセスし、かつ特別な俳優に関する情報を見つけるためにウェブページを検索する。もしユーザがウェブページ上でその俳優を見つけることができれば、ユーザは、その特別な俳優に関するウェブサイト上の別のページにアクセスし、かつその特別な俳優についての所望の情報を見つけるために、このページにざっと目を通す。これはユーザにとって時間のかかる手続きである。その上これはユーザが、テレビ番組の重要な部分を見逃す、またはこの手続きを介してそのような情報を獲得するためにテレビ番組を中断させる原因となるかもしれない。

従って、メディアコンテンツに対応する携帯型コンテンツを提示するための仕組みが望まれる。

メディアコンテンツに対応する携帯型コンテンツを提示するための方法、システムおよび媒体が提供される。

開示された主題のいくつかの実施例に従って、メディアコンテンツに関する情報を提供するための方法が提供され、この方法は、ハードウェアプロセッサが、テレビ番組を提供しているチャンネルを決定する手順と、ハードウェアプロセッサが、テレビ番組に関する複数の画像が提示されることを引き起こす手順であって、前記複数の画像は、チャンネルおよび時間パラメータに基づき選択される、手順と、ハードウェアプロセッサが、複数の画像からの、ユーザによる１つの画像の選択を受信する手順と、ハードウェアプロセッサが、１つ以上の画像認識技術を用いて、選択された画像の中で１つのエンティティ（実体）を識別する手順と、ハードウェアプロセッサが、識別されたエンティティに少なくとも部分的に基づき検索クエリを生成する手順と、ハードウェアプロセッサが、生成された検索クエリへの応答を示す複数の検索結果を獲得する手順と、ハードウェアプロセッサが、ユーザによる画像の選択を受信する手順に呼応して、複数の検索結果のうちの少なくとも１つが提示されることを引き起こす手順と、を備える。

開示された主題のいくつかの実施例に従って、メディアコンテンツに関する情報を提供するためのシステムが提供され、このシステムは、ハードウェアプロセッサを備え、前記ハードウェアプロセッサは、テレビ番組を提供しているチャンネルを決定し、テレビ番組に関する複数の画像であって、前記複数の画像はチャンネルおよび時間パラメータに基づき選択され、前記複数の画像が提示されることを引き起こし、複数の画像からの、ユーザによる１つの画像の選択を受信し、１つ以上の画像認識技術を使用して、選択された画像の中で１つのエンティティを識別し、識別されたエンティティに少なくとも部分的に基づき、検索クエリを生成し、生成された検索クエリへの応答を示す複数の検索結果を獲得し、かつユーザによる画像の選択を受信する手順に呼応して、複数の検索結果のうちの少なくとも１つが、携帯装置に提示されることを引き起こす、ように構成される。

開示された主題のいくつかの実施例に従って、非一時的なコンピュータ可読媒体が提供され、前記非一時的なコンピュータ可読媒体はコンピュータ実行可能な命令を含み、前記コンピュータ実行可能な命令は、プロセッサによって実行される場合、前記プロセッサが、メディアコンテンツに関する情報を提供するための方法を実施することを引き起こす。本方法は、テレビ番組を提供しているチャンネルを決定する手順と、テレビ番組に関する複数の画像が提示されることを引き起こす手順であって、前記複数の画像は、チャンネルおよび時間パラメータに基づき選択される、手順と、複数の画像からの、ユーザによる１つの画像の選択を受信する手順と、１つ以上の画像認識技術を使用して、選択された画像の中で１つのエンティティを識別する手順と、識別されたエンティティに少なくとも部分的に基づき、検索クエリを生成する手順と、生成された検索クエリへの応答を示す複数の検索結果を獲得する手順と、ユーザによる画像の選択を受信する手順に呼応して、複数の検索結果のうちの少なくとも１つが、携帯装置に提示されることを引き起こす手順と、を備える。

開示された主題のいくつかの実施例に従って、メディアコンテンツに関する情報を提供するためのシステムが提供される。本システムは、テレビ番組を提供しているチャンネルを決定するための手段と、テレビ番組に関する複数の画像が提示されることを引き起こすための手段であって、前記複数の画像は、チャンネルおよび時間パラメータに基づき選択される、手段と、複数の画像からの、ユーザによる１つの画像の選択を受信するための手段と、１つ以上の画像認識手段を使用して、選択された画像の中で１つのエンティティを識別するための手段と、識別されたエンティティに少なくとも部分的に基づき、検索クエリを生成するための手段と、生成された検索クエリへの応答を示す複数の検索結果を獲得するための手段と、ユーザによる画像の選択を受信する手順に呼応して、複数の検索結果のうちの少なくとも１つが、携帯装置に提示されることを引き起こすための手段と、を備える。

いくつかの実施例において、本システムは、テレビ番組に対応する音声データを携帯装置から受信するための手段をさらに備え、そこではチャンネルは、受信された音声データに基づき決定される。

いくつかの実施例において、本システムは、音声データの音声指紋を獲得するための手段をさらに備える。

いくつかの実施例において、本システムは、受信された音声データから音声指紋を生成するための手段をさらに備える。

いくつかの実施例において、本システムは、複数のテレビチャンネルの各々から、音声ストリームを抽出するための手段と、複数のテレビチャンネルの各々に対して、前記複数のテレビチャンネルの１つに対応する、抽出された音声ストリームのうちの少なくとも一部分から、少なくとも１つの音声指紋を生成するための手段と、チャンネルによって索引付けされたデータベースに、少なくとも１つの音声指紋を格納するための手段と、をさらに備える。

いくつかの実施例において、本システムは、音声指紋を、少なくとも１つの格納された音声指紋と比較するための手段と、比較に基づき、テレビ番組を識別するための手段と、をさらに備える。

いくつかの実施例において、本システムは、複数のテレビチャンネルの各々から、複数の番組画像を抽出するための手段と、チャンネルおよび時間によって索引付けされたデータベースに、複数の番組画像を格納するための手段と、をさらに備える。

いくつかの実施例において、本システムは、複数の画像を獲得するために、決定されたチャンネルおよび時間パラメータを使用するための手段をさらに備え、そこでは複数の画像は、複数の抽出された番組画像の部分集合である。

いくつかの実施例において、本システムは、選択された画像の中で、ユーザによる関心領域の第２選択を受信するための手段と、１つ以上の画像認識技術を使用して、関心領域の中で問題のエンティティを識別するための手段と、をさらに備える。

いくつかの実施例において、本システムは、顔認識技術を使用して、選択された画像の中で複数の顔を検出するための手段と、携帯装置を促して、複数の検出された顔から１つの顔を選択させる手段と、選択された顔に関連付けられたエンティティを識別するための手段と、をさらに備える。

いくつかの実施例において、本システムは、決定されたチャンネルおよび時間パラメータに基づき、テレビ番組を決定するための案内データにアクセスするための手段と、テレビ番組に関する番組情報を受信するための手段と、受信された番組情報を使用して、選択された画像の中で問題のエンティティを識別するための手段と、をさらに備える。

次の図面に関連して考察される場合、開示された主題の様々な目的、特徴および利点は、開示された主題の、次の詳細な説明を参照することによって、より十分に正しく認識され得る。図面の中で、同様な参照符号は、同様な要素と見なされる。

開示された主題のいくつかの実施例に従い、メディアコンテンツに基づき検索結果を提示するためのプロセスの実例を示す図。開示された主題のいくつかの実施例に従い、音声データに基づきチャンネルおよび他の番組情報を決定し、かつ音声データに関連付けられたスクリーンショットを送信するためのプロセスの実例を示す図。開示された主題のいくつかの実施例に従い、クライアントアプリケーションのユーザによって選択された画像から識別されたエンティティを含む検索クエリを生成するためのプロセスの実例を示す図。開示された主題のいくつかの実施例に従い、テレビ番組のようなメディアコンテンツを提供している装置と、クライントアプリケーションを開始するにあたり、前記テレビ番組に関する複数の画像を提供する携帯装置と、画像を選択するためのインターフェースと、画像に中で識別されたエンティティに関する検索結果と、の実例を示す図。開示された主題のいくつかの実施例に従い、メディアコンテンツに対応する、検索結果のようなコンテンツを提供するために、本明細書で説明される仕組みを実施するのに適した例証的システムの概略図。開示された主題のいくつかの実施例に従って使用され得る、図５のサーバおよびコンピューティング装置の１つの詳細な例を示す図。

開示された主題のいくつかの実施例に従って、メディアコンテンツに対応する携帯型コンテンツを提示するための仕組みが提供される。

いくつかの実施例ではこれらの仕組みは、１つ以上の番組に関する音声データまたは他の任意の適切なメディアデータを受信することが可能である。たとえば携帯装置上でクライアントアプリケーションを起動することに呼応して、これらの仕組みは、チャンネル検出モードに入ることが可能であるが、このチャンネル検出モードは、音声入力装置（たとえばマイクロフォン）を作動させることと、表示装置上に現在提示されているテレビ番組に対応する音声データを取り込むこととを含む。より多くの特別な例において、音声指紋または他の任意の適切なデジタル表現は、受信された音声データから生成されることが可能であり、そこでは音声指紋は、音声データの同じ部分または類似部分を識別するために使用され得る。

音声データを受信する手順に呼応して、本仕組みは、テレビ番組を提供しているチャンネルを識別することが可能である。たとえば音声データおよび／または音声指紋を受信するにあたり、本仕組みは、チャンネルを識別するために、他の格納された表現（たとえば他の音声指紋、他の音声データなど）に対して音声データを比較することが可能である。

注意されるべきことであるが、いくつかの実施例では音声データは取り込まれないかもしれない。たとえばチャンネル検出モードは、メディア再生装置（これは携帯装置に接続される）が現在調整されているチャンネルを検出するために、クライアントアプリケーションを使用して、チャンネルを識別する手順を含むことが可能である。別の例では、携帯装置が、赤外線符号または符号系列のような符号を、メディア再生装置に送信するための送信器を含む場合、チャンネル検出モードは、携帯装置のユーザが選択した最後のチャンネルを決定することによってチャンネルを識別する手順を含むことが可能である。この例では、携帯装置およびユーザ入力装置（たとえば遠隔制御器）が、通信ネットワークを介して接続される場合、チャンネル検出モードは、ユーザが選択した最後のチャンネルに対するクエリをユーザ入力装置に送信することによってチャンネルを識別する手順を含むことが可能である。さらに別の例では、クライアントアプリケーションは、携帯装置のユーザに選択のためのチャンネルのリストを提示することが可能である。この例では、クライアントアプリケーションによって、携帯装置のユーザは、自分がメディア再生装置（これは、携帯装置に接続されてもよく、またはそうでなくともよい）上で見ている特別なチャンネルを指し示すことが可能である。

音声データまたは他の任意の適切な番組情報に関連付けられたチャンネル情報を使用して、本仕組みは、番組に関する複数の画像を獲得することが可能である。たとえばこれらの仕組みは、スクリーンショット閲覧モードに入ることが可能であり、このモードは、画像（たとえば番組コンテンツのスクリーンショット）のデータベースにアクセスし、かつ識別されたチャンネルおよび時間パラメータ（たとえば最後のＮ分）に対応する複数の画像を獲得する手順を含む。画像は、その後、クライアントアプリケーションに逆送信されることが可能であり、前記クライアントアプリケーションは、自身のユーザによる再検討および選択のために、携帯装置上で実行される。この例では、クライアントアプリケーションは、ユーザに複数の画像を提示できるが、これら複数の画像は、特別な時間期間内にチャンネルによって提示される場面を含む。

ユーザによって画像の１つが選択されることを受信する手順に呼応して、本仕組みは、検索クエリを生成することが可能である。たとえば選択された画像を受信する手順に呼応して、これらの仕組みは結果表示モードに入ることが可能であり、前記結果表示モードは、選択された画像（たとえば人、場所、目印、対象物など）の中で１つのエンティティを識別し、かつ識別されたエンティティに少なくとも部分的に基づき検索クエリを生成する手順を含む。より特別な例では、本仕組みは、１つ以上の画像認識技術（たとえば画像認識、光学特性認識、顔認識など）を使用して、選択された画像の中で１つ以上のエンティティを識別することが可能である。別のより特別な例では、本仕組みは、選択された画像の中で関心領域を受信することが可能であり、かつ１つ以上のエンティティが、関心領域の中で識別され得る。関心領域は、たとえば特別な顔、特別な目印などを含む、ユーザによって定義された領域を含むことが可能である。

検索クエリを生成するにあたり、本仕組みは、識別されたエンティティを含む検索クエリへの応答を示す検索結果を獲得するための検索を実施することが可能である。検索結果は、たとえば検索クエリの中の用語への応答を示すウェブページに関連付けられたユニフォーム・リソース・ロケータ（ＵＲＬ)を含むことが可能である。いくつかの実施例では本仕組みは、検索結果のうちの少なくとも１つを選択して、ユーザに提示するために、クライアントアプリケーションに送信することが可能である。いくつかの実施例では本仕組みは、ユーザに提示するために、検索結果の全てをクライアントアプリケーションに送信することが可能である。代わりに、本仕組みは、携帯装置上で実行される適切なウェブ閲覧アプリケーション上で、選択された検索結果（たとえば最上位の検索結果）に関連付けられたページを自動的に開くことが可能である。注意されるべきことであるが、回答のような任意の適切なコンテンツが、携帯装置に提供されることが可能であり、前記回答には、エンティティ情報、要約されたエンティティ情報、識別されたエンティティに対応する一組のリンク、識別されたエンティティに対応するニュース情報などが含まれる。

注意されるべきことであるが、本明細書で説明される実施例は、一般にテレビ番組に対応する携帯型コンテンツを提供することに関するものの、これは単に例証的である。テレビ番組は、ライブの放送メディアコンテンツであり得るが、その一方で、本仕組みは、記録されたコンテンツ、ネット配信動画番組コンテンツなどに対応する携帯型コンテンツを提供するために実施されることが可能である。

これらの仕組みは、様々なアプリケーションで使用され得る。たとえばこれらの仕組みは、表示装置上に提示されたメディアコンテンツと対話する機会を、携帯装置のユーザに提供するために使用され得る。別の例では、これらの仕組みは、テキストベースの検索クエリを検索エンジンに入力することなく、提示されたメディアコンテンツに関連付けられた追加情報を、携帯装置のユーザに提供するために使用され得る。さらに別の例では、本明細書で説明される仕組みを実施するクライアントアプリケーションを起動することに呼応して、スクリーンショットおよびその後のエンティティに関連した情報が、ユーザに自動的に提示され得る。

図１に注意を向けると、メディアコンテンツに基づき検索結果を提示するためのプロセスの実例１００が、開示された主題のいくつかの実施例に従って示されている。ステップＳ１０５では、コンピューティング装置は、メディアコンテンツに基づき検索結果を提示するクライアントアプリケーションを読み込むことが可能である。コンピューティング装置は、携帯装置であり得る（たとえば携帯電話、スマートフォン、タブレットコンピューティング装置、ウェアラブルコンピューティング装置など）。

注意されるべきことであるが、メディアコンテンツは、様々なソースから１つ以上の番組を含むことが可能であるが、それらは、無線ネットワークで放送される番組、ケーブルテレビプロバイダによって放送される番組、電話テレビプロバイダによって放送される番組、衛星テレビプロバイダによって放送される番組、オンデマンド番組、ネット配信動画番組、インターネットコンテンツ、ストリーム番組、録画番組などのようなものである。

ステップＳ１１０では、いったんクライアントアプリケーションが読み込まれると、クライアントアプリケーションはチャンネル検出モードに入るが、チャンネル検出モードは、現在提示されているテレビ番組の音声サンプルを獲得することによって始まることが可能である。たとえばクライアントアプリケーションは、マイクロフォンのような、コンピューティング装置に結合された音声入力装置を作動させることが可能である。そこでは音声入力装置は、提示されたテレビ番組に関連付けられた音声サンプルまたは他の任意の適切な音声データを取り込み、かつ記録する。別の例では、クライアントアプリケーションは、ユーザの指示を受信して、音声マッチングサービスに送信するための音声データを格納することが可能である。

いくつかの実施例ではクライアントアプリケーションは、音声入力装置を作動させることが可能であり、前記音声入力装置は、その周囲から音声を取り込み、かつ適切なフィルタ作用および／または他の音声増強作用を使用して、提示されたテレビ番組に関連付けられた音声指紋またはフィルタ作用で処理された音声データを抽出する。たとえば音声サンプルの無音部分は、音声サンプルのファイルサイズを減少させるために除去され得る。別の例では、歪みを持つ音声サンプルの部分は、音声サンプルのファイルサイズを減少させるために除去され得る。さらに別の例では、音声サンプルのうちの少なくとも１つの部分が、ある一定の品質を有する音声データを含んでいないと決定することに呼応して、クライアントアプリケーションは、自身のユーザを促して、別の音声サンプルを記録させることが可能である。

いくつかの実施例ではコンピューティング装置上で実行されるクライアントアプリケーションは、ステップＳ２１５で、任意の適切な音声指紋技術を使用して、音声サンプルの音声指紋を生成することが可能である。音声指紋は、受信された音声サンプルから生成されたデジタル表現であり得るが、ここで音声指紋は、音声データの同じ部分または類似部分を識別するために使用され得る。代わりに、クライアントアプリケーションは、テレビ番組に関連付けられた音声サンプルを、音声指紋を生成する検索システムに送信することが可能である。

ステップＳ１２０では、クライアントアプリケーションは、解析のために、獲得された音声サンプルおよび／または音声指紋を送信することが可能である。たとえばクライアントアプリケーションを起動し、かつ音声入力装置を作動させるにあたり、クライアントアプリケーションは、音声サンプルおよび／または音声指紋を、マッチングサービス（たとえば音声指紋マッチサービス）にアクセスする検索システムに自動的にストリームで送ることが可能である。上述のように、クライアントアプリケーションは、音声サンプルを検索システムにストリームで送ることが可能であるが、ここで検索システムは、音声サンプルに対応する音声指紋を生成し、かつ解析のために、その音声指紋を音声指紋マッチサービスに送信する。

いくつかの実施例では追加情報が、音声サンプルと一緒に送信され得るが、追加情報とは、クライアント装置情報、ユーザプロファイル情報、場所情報、ユーザ嗜好、タイミング情報、およびテレビ番組の音声サンプルに関連付けられた検索クエリを生成するために使用され得る他の情報、のようなものである。

注意されるべきことであるが、クライアントアプリケーション（または本明細書で説明される他の仕組み）が特別なユーザについての情報を収集するという内容の、本明細書で説明される実施例においては、クライアントアプリケーションが特別なユーザについての情報を収集するかどうか、および／または収集されたユーザ情報がクライアントアプリケーションによっていかに使用されるかを制御する機会が、ユーザに提供され得る。ユーザについての情報例には、ユーザの関心、およびユーザを識別する情報（たとえばユーザプロファイル、ユーザ証明書、装置識別など）が含まれ得る。加えてユーザについてのある情報は、それが格納されて個人情報が削除される前に、局所的に格納され（たとえば共有されない）、暗号化され、かつ／または１つ以上の方法で処理され得る。たとえばクライアントアプリケーションは、特別なユーザに対して、ユーザ嗜好および／またはユーザの関心を、匿名のユーザ識別子（たとえばユーザの名前、ユーザのユーザ名および／またはパスワード、ユーザのＥメイルアドレス等に関連付けられないユーザ識別子）を用いて格納することが可能である。これらの技術を使用して、ユーザについてどんな情報が収集されるか、および／またはその情報がクライアントアプリケーションによっていかに使用されるかに対して、ユーザは制御することが可能である。

図２に注意を向けると、ステップＳ２０５で音声サンプルおよび／または他の追加情報をクライアントアプリケーションから受信するにあたり、受信された音声サンプルの音声指紋は、ステップＳ２１０で生成され得る。再び、音声指紋が、クライアントアプリケーションまたは他の任意の適切なアプリケーションによって生成され、かつ解析のために、検索システムに送信され得る。

ステップＳ２１５では、検索システムは、生成された音声指紋を複数の音声指紋と比較することが可能である。たとえばクライアントアプリケーションからの音声サンプルに関連付けられた、生成された音声指紋は、格納された音声指紋の部分集合に対して比較されることが可能である。より特別な例では、検索システムは、データベース、または複数の音声指紋を含む他の適切な格納装置にアクセスし、かつ場所情報、ユーザ嗜好、およびクライアントアプリケーションから受信された他の情報に基づき、音声指紋の部分集合に対して、複数の音声指紋をフィルタ作用で処理することが可能である。この例では、受信された場所情報に関連付けられた音声指紋だけが、生成された音声指紋と比較するために使用され得る。別の例では、データベースまたは格納装置からの特別な音声指紋は、人気チャンネル、より新しい音声指紋、一般的にマッチした音声指紋などに関連付けられた音声指紋のような他の音声指紋よりも前に、比較のために使用され得る。

いくつかの実施例では検索システムは、たとえば複数のソース（たとえば複数のチャンネル）からの信号を受信し、かつ処理する取込モジュールを含むことが可能である。これらの取込モジュールは、各チャンネルに対して、特別な時間間隔で（たとえば２秒または３秒ごとに）ビデオスクリーンショットを取り込み、かつ／または特別な時間間隔で音声データから音声指紋を生成することが可能である。概して言えば、これらの取込モジュールは、複数のコンテンツソースからのメディアコンテンツを監視し、かつビデオスクリーンショット、音声指紋、および／または他の任意の適切なコンテンツ識別子を生成することが可能である。より具体的には、これらの取込モジュールは、生成されたビデオスクリーンショット、音声指紋、および他のコンテンツ識別子を格納装置に格納することが可能である。たとえば取込モジュールは、放送されたテレビコンテンツを提供するチャンネルを監視し、かつ生成された音声指紋を、チャンネルおよび時間によって索引付けされるデータベースに格納することが可能である。

注意されるべきことであるが、いくつかの実施例ではデータベースの中でチャンネルおよび時間によって索引付けされた、生成されたビデオスクリーンショット、音声指紋、および他のコンテンツ識別子は、所定の時間後に廃棄され得る。たとえばビデオスクリーンショットが、特別な時間ウィンドウの外側の時間に関連付けられると決定することに呼応して、検索システムまたは他の任意の適切な構成要素は、データベースからビデオスクリーンショットを除去することが可能である。

ステップＳ２２０では、マッチが見つかるかどうかが決定され得る。もしマッチする音声指紋が見つからない場合、検索システムはステップＳ２０５に戻り、かつクライアントアプリケーションから、追加の音声サンプルを受信するために待機することが可能である。加えてまたは代わりに、検索システムは、ユーザがクライアントアプリケーションを再開し、別の音声サンプルを送信し、かつ／または特別な情報（たとえばチャンネル番号、サービスプロバイダ情報、番組タイトルなどのような番組情報）を入力する、または確かめることを要請するメッセージをクライアントアプリケーションに送信することが可能である。

ステップＳ２２０で音声指紋マッチを識別することに呼応して、検索システムは、マッチした音声指紋に関連付けられるチャンネル、または他の任意の適切なコンテンツ識別子を識別することが可能である。たとえばマッチする音声指紋は、チャンネル（たとえばチャンネルＸ）に関連付けられることが可能であり、かつ検索システムは、その関連付けを使用して、クライアントアプリケーションのユーザが、そのチャンネル上で提供されるテレビ番組を見ていることを決定する。別の例では、検索システムは、チャンネルが識別されたという通知を、クライアントアプリケーションに送信することが可能である。この通知は、たとえば検索システムが、受信された音声サンプルおよび／または識別されたチャンネルから、首尾よくチャンネルを識別したという指示を含むことが可能である。

注意されるべきことであるが、いくつかの実施例ではクライアントアプリケーションは、音声情報を取り込むことなく、または音声指紋を使用することなく（たとえば図１のステップＳ１１０〜Ｓ１２０、および図２のステップＳ２０５〜Ｓ２２０）、チャンネル検出モードを始めることが可能である。

いくつかの実施例では検索システムは、メディア再生装置（これは携帯装置に接続される）が現在調整されているチャンネルを検出することによって、チャンネルを識別する手順を含むことが可能である。たとえば検索システムは、どの装置が携帯装置に接続されるかを決定するために、クエリを携帯装置に送信することが可能である。テレビ装置またはセットトップボックスのようなメディア再生装置が携帯装置に接続されることを決定する手順に呼応して、検索システムは、メディア再生装置が現在調整されているチャンネルを決定するために、クライアントアプリケーションに命令して、メディア再生装置と通信させることが可能である。代わりに、遠隔制御器のようなユーザ入力装置が携帯装置に接続されることを決定する手順に呼応して、検索システムは、調整されていた最後のチャンネルまたは以前のチャンネルを決定するために、クライアントアプリケーションに命令して、ユーザ入力装置と通信させることが可能である。

より特別な例では、携帯装置上で実行されるクライアントアプリケーションは、第２スクリーンアプリケーションを含むことが可能であるか、または携帯装置上にインストールされている第２スクリーンアプリケーションと通信することが可能である。第２スクリーンアプリケーションによって、たとえば携帯装置または他の第２スクリーン装置のユーザは、テレビ装置またはセットトップボックスのようなメディア再生装置に転送されたコンテンツを提供されることが可能になる。クライアントアプリケーションは、メディア再生装置が第２スクリーン装置上で提示しているチャンネルを決定するために、第２スクリーンアプリケーションを使用することが可能である。

別のより特別な例では、携帯装置上で実行されるクライアントアプリケーションは、遠隔制御アプリケーションを含むことが可能であるか、または携帯装置上にインストールされている遠隔制御アプリケーションと通信することが可能である。遠隔制御アプリケーションは、たとえば携帯装置が、メディア再生装置を制御するためのコマンドを発行することを可能にし（たとえばチャンネル上昇、チャンネル下降など）、これに呼応して、携帯装置に接続された赤外線送信器に命令して、対応する赤外線符号をメディア再生装置に送信させる。クライアントアプリケーションは、調整されていた最後のチャンネルまたは以前のチャンネルを決定するために、遠隔制御アプリケーションを使用することが可能である。

いくつかの実施例ではクライアントアプリケーションは、携帯装置のユーザに選択のためのチャンネルのリストを提供することが可能である。この例では、検索システムは、ユーザが現在、メディア再生装置（これは、携帯装置に接続されていてもよいし、そうでなくてもよい）上で見ている特別なチャンネル、または他の任意の適切なコンテンツ識別子を受信することが可能である。

いくつかの実施例ではクライアントアプリケーションは、スクリーンショット閲覧モードに入ることが可能であるが、このモードは、ステップＳ２３０で、識別されたチャンネルに対応する画像に対する要請を送信することによって始まることが可能である。たとえばクライアントアプリケーションは、ビデオスクリーンショットのような画像に対する要請、識別されたチャンネルに対する要請、および特別な時間間隔（たとえば識別されたチャンネルによって提供される最後のＮ分からのスクリーンショット）に対する要請を、検索システムに自動的に送信することが可能である。上述のように、検索システムは、１つ以上のデータベースまたは他の適切な格納装置を含むことが可能であり、これらは、格納されたビデオスクリーンショット、および複数のソースによって提供されるメディアコンテンツから取り込まれた他の画像を含む。

これに呼応して、検索システムは、識別されたチャンネルおよびステップＳ２３５での与えられた時間間隔に基づき、アクセスされたデータベースから、複数のスクリーンショットまたは他の画像を引き出すことが可能である。たとえば検索システムは、特別なチャンネル上で提供される番組の５分に対応する複数のスクリーンショットを受信することが可能である。

ステップＳ２４０では、複数のスクリーンショットおよび他の画像は、ユーザに提示するために、クライアントアプリケーションに送信され得る。

戻って図１を参照すると、テレビ番組に関連付けられた複数の画像は、ステップＳ１２５でユーザに提示され得る。たとえばクライアントアプリケーションは、ユーザが異なる画像（たとえばスクリーンショット）をスクロールすることを可能にするが、ここでユーザは、コンピューティング装置上を垂直に、または水平にスクロールすることが可能である。別な例では、クライアントアプリケーションは、複数の画像の全てをユーザに提供することが可能であり、ここでユーザは、特別な画像を左右移動し、かつ徐々に拡大することが可能である。

複数の画像を受信し、かつユーザに提示することに呼応して、クライアントアプリケーションは、ステップＳ１３０ではユーザを促して、複数の画像から１つの画像を選択させることが可能である。たとえばクライアントアプリケーションは、ユーザが何時、１つの画像の上に強調表示領域を配置し、かつコンピューティング装置上の適切なボタンを押圧したかを検出することが可能である。別の例では、コンピューティング装置がタッチスクリーンを有する携帯装置である場合、クライアントアプリケーションは、タッチスクリーン上での１回以上のタップ、連続接触を維持した状態での接触点の移動のような、タッチスクリーンとの接触に応答することが可能である。

いくつかの実施例ではステップＳ１３０でのユーザによる画像の選択を受信する手順に呼応して、ステップＳ１３５では、クライアントアプリケーションは、ユーザを促して、選択された画像の中で関心領域を選択させることが可能である。たとえばコンピューティング装置がタッチスクリーンを有する携帯装置である場合、クライアントアプリケーションは、ユーザが、選択された画像の中で特定の関心領域上を１回以上タップすることを要請できる。より特別な例では、クライアントアプリケーションは、選択された画像を解析し、かつ選択された画像を１つ以上の小区分に分割することが可能である（たとえば識別された対象物に基づき）。

より特別な実施例では、クライアントアプリケーションは、顔認識技術を使用して、選択された画像の中で１つ以上の顔を検出することが可能である。これに呼応して、クライアントアプリケーションは、検出された顔の１つを選択する機会をユーザに提供する。たとえばユーザは、選択された画像の中で関心のある俳優の顔を選択することが可能である。選択された顔は、更なる画像解析およびクエリ生成のために、使用され得る。加えてまたは代わりに、クライアントアプリケーションは、対象物認識技術を使用して、選択された画像の中で１つ以上の対象物を検出することが可能である。これは、選択された画像の中で、品目、目印および／または場所を識別する手順を含むことが可能である。同様に、クライアントアプリケーションは、検出された対象物の１つを選択する機会を、ユーザに提供することが可能であるが、これは、更なる解析およびクエリ生成のために使用され得る。

ステップＳ１４０では、クライアントアプリケーションは、ユーザ選択を検索サーバに送信する結果表示モードに入ることが可能であるが、前記ユーザ選択は、選択された画像、選択された関心領域、選択された顔、選択された対象物および／または画像の他の任意の適切な部分を含むことが可能である。

図３に注意を向けると、ステップＳ３０５での、選択された画像および／または画像の他の任意の適切な部分を受信する手順に呼応して、検索システムは、１つ以上の画像認識技術を使用して、選択された画像の中で１つのエンティティを識別することが可能である。たとえばエンティティとしては、人、場所、出来事、対象物、動物、ロゴ、特性、特徴、またはテレビ番組に関連する他の任意の適切なエンティティが含まれ得る。これらのエンティティは、様々な方法で、テレビ番組に関連付けられ得る。たとえば人または目印の画像は、番組に関連付けられたビデオ信号に含まれ得る。

１つの特別な例では、テレビ番組に関連付けられたエンティティは、顔認識技術に基づき識別され得るが、この顔認識技術は、番組に関連付けられる、選択された画像に含まれる俳優および女優のような人々を識別するための技術である。別の例では、テレビ番組に関連付けられたエンティティは、画像認識技術に基づき識別され得るが、この画像認識技術は、番組に関連付けられる、選択された画像に含まれる目印を識別するための技術である。さらに別の例では、テレビ番組に関連付けられたエンティティは、光学特性認識技術に基づき認識され得るが、この光学特性認識技術は、番組に関連付けられる、選択された画像に含まれるキーワードを識別するための技術である。

いくつかの実施例では検索システムは、選択された画像の中のエンティティを識別するための追加情報を提供するために、案内データを獲得することが可能である。たとえば検索システムは、電子番組ガイドデータのような案内データを使用して、識別されたチャンネル上で提供されるテレビ番組の俳優、女優および／または配役メンバーのリストを獲得することが可能である。そのような案内データは、選択された画像と一緒に提供され得るが、ここで検索システムは、選択された画像の中で１つのエンティティを識別するために、１つ以上の画像認識技術を使用することが可能である。案内データは、たとえば誤検知をフィルタ作用で処理するために使用されることが可能であり、これによって、エンティティ識別精度が改善される。識別されたエンティティは、画像認識モジュールから検索システムへ逆送信され得る。

いくつかの実施例ではエンティティを識別するにあたり、ステップＳ３１５において検索システムは、検索クエリを生成することが可能である。そのような検索クエリは、識別されたエンティティおよび／または識別されたエンティティに関する情報を含むことが可能である。たとえば検索システムは、検索エンジンに送信するための、識別されたエンティティの名前を含む検索クエリを生成することが可能である。いくつかの実施例では検索クエリはまた、検索システムおよび／またはクライアントアプリケーションによって以前に獲得されたコンテンツ情報を含むことが可能である。

ステップＳ３２０では、検索システムは、検索を実施することが可能である。いくつかの実施例では検索システムは、生成された検索クエリを検索エンジンに送信することによって、検索を実施することが可能であり、前記検索エンジンは、その後、検索を実行することが可能である。いくつかの実施例では検索システムは、生成された検索クエリへの応答を示す検索結果に対して様々なコンテンツソースを検索するために、検索アプリケーション・プログラミング・インターフェース（ＡＰＩ）を使用することが可能である。生成された検索クエリへの応答を示す検索結果は、ステップＳ３２５で獲得され得る。

いくつかの実施例では検索システムは、任意の適切な取り組み方法を使用して、１つ以上の検索結果を選択することが可能である。たとえば検索システムは、最も一般的な検索結果（たとえば最上位格付けの検索結果）を選択することが可能であり、これによって、最も妥当な検索結果などを選択する。

代わりに、１つ以上の検索結果を選択する代わりに、検索システムは、ユーザに提示するために、検索結果の全てをクライアントアプリケーションに送信することが可能である。これによって、ユーザは、検索結果にざっと目を通すとともに、画像から所望のエンティティに関する追加情報を獲得するために、適切な検索結果を選択することが可能になる。

いくつかの実施例では検索システムは、１つ以上の基準を使用して、検索結果を格付けすることが可能である。たとえば検索システムは、ニュース関連の検索結果は商業関連の検索結果よりも加重が大きいという具合に、検索結果の各々に対して加重値を割り当てることが可能である。別の例では、検索システムは、クライアントアプリケーションのユーザが、ユーザ嗜好を設定したと決定することが可能であり、そのユーザ嗜好とは、ニュース関連の検索結果または特別なウェブサイトからのページを好んで受信することを示すものである。この例では、検索システムは、そのようなユーザ嗜好に基づき、検索結果を自動的にフィルタ作用で処理することが可能である。

ステップＳ３３０では、ユーザに提示するために、１つ以上の検索結果が、クライアントアプリケーションに送信され得る。戻って図１を参照すると、クライアントアプリケーションは、その後、選択された画像および／または関心領域に関連付けられた１つ以上の検索結果を受信し、かつこれらをユーザに提示することが可能である。たとえば画像を選択することに呼応して、クライアントアプリケーションは、ユーザに検索結果を提供し、かつ今度はユーザが、選択された画像の中の識別されたエンティティについての追加情報に対して、検索結果を選択することが可能である。別の例では、クライアントアプリケーションは、ウェブ閲覧アプリケーションにおいて、検索結果に関連付けられるページを読み込むことが可能である。即ち、クライアントアプリケーションを読み込み、かつ関心のある画像を選択することに呼応して、クライアントアプリケーションは、選択された画像の中で識別されたエンティティに関する情報を含むページを、ユーザに提供することが可能である。

注意されるべきことであるが、いくつかの実施例ではクライアントアプリケーションは、提示されているテレビ番組に関する、音声サンプルまたは他の任意の適切な音声データを、検索システムに連続的かつ／または周期的に送信することが可能である。これに呼応して、クライアントアプリケーションは、選択のために、および画像の１つを選択するにあたっての検索結果のために、更新された画像を備えることが可能である。より具体的には、更新された音声サンプルおよび最近選択された画像に対応する検索結果は、連続的かつ／または周期的にクライアントアプリケーションに戻され、かつクライアントアプリケーションに関連付けられたグラフィカル・ユーザ・インターフェース上に表示され得る（たとえば検索結果に関連付けられたＵＲＬを読み込むウェブ閲覧アプリケーション）。

注意されるべきことであるが、いくつかの実施例ではクライアントアプリケーションは、クライアントアプリケーションのユーザが調整されているチャンネルを、識別することを継続できる。たとえば１つのチャンネルから別のチャンネルへ変更することに呼応して、クライアントアプリケーションは、更新された音声サンプルを受信し、かつ更新された音声サンプルに基づき、チャンネルを識別することが可能である。別の例では、クライアントアプリケーションは、第２スクリーンアプリケーションまたは遠隔制御アプリケーションにアクセスし（たとえば所定の時間に）、かつ調整されてきた最後のチャンネルを識別することを継続できる。

図４は、開示された主題のいくつかの実施例に従う、テレビ装置４００およびコンピューティング装置４１０に実例を示す。ここでテレビ装置４００は、テレビ番組または他の適切なメディアコンテンツを表示し、コンピューティング装置４１０は、画像を選択するための、関心領域を選択するための、および／または識別されたエンティティに関するコンテンツを提示するための複数のインターフェースを表示する。図示されるように、テレビ装置４００は、表示装置上にテレビ番組４０５（または他の適切なメディアコンテンツ）を表示することが可能である。

テレビ装置４００上で提供されるテレビ番組４０５に対応する音声サンプルを送信することに呼応して（たとえば生成された音声指紋）、コンピューティング装置４１０は、音声サンプルに対応するチャンネルを決定するために、音声サンプルを処理することが可能である。上述のように、これは、生成された音声指紋を、複数のチャンネルから音声データを取り込むことによって生成され、かつ音声指紋データベースに格納される音声指紋と比較する手順を含む。マッチする音声指紋は、音声サンプルに関連付けられたチャンネルを識別するために使用されることが可能であり、かつ今度は、そのチャンネルが、テレビ番組（複数を含む）に関する複数の画像を引き出すために、画像（たとえばビデオスクリーンショット）のデータベースの中で識別子として使用され得る。さらに上述のように、チャンネルは、他の適切な取り組み方法を使用して識別され得るが、ここで適切な取り組み方法とは、第２スクリーンアプリケーションまたは遠隔制御アプリケーションと通信することによって、これまで調整されていた最後のチャンネルを決定するようなものである。チャンネルはまた、選択可能なチャンネル識別子のリストを有する携帯装置のユーザを促し、かつユーザよって選択されたチャンネルを受信することによって、識別され得る。

上述のように、第２スクリーン装置のようなコンピューティング装置４１０は、テレビ装置４００に結合され得る（たとえばテレビ装置４００と通信状態にある）、またはセットトップボックスまたはデジタルメディア受信器のような装置に結合され得るが、これらの装置は、プログラム４０５がテレビ装置４００上に提示されることを引き起こす。いくつかの実施例ではコンピューティング装置４１０はスタンドアロン装置であり得るが、このスタンドアロン装置は、テレビ装置４００に結合されない、またはプログラム４０５がテレビ装置４００上に提示されることを引き起こす装置に結合されない（たとえば携帯電話またはタブレットコンピュータのような第２スクリーン装置が、検索サーバと通信状態にある）。さらに上述のように、コンピューティング装置４１０は、エンティティに関連するコンテンツまたは他の関連したコンテンツをユーザに提示するのに適した任意のコンピューティング装置であり得るが、ここで任意のコンピューティング装置とは、スマートフォン、タブレットコンピュータ、ウェアラブルコンピュータ、ヘッドアップ表示装置、ラップトップコンピュータ、パーソナルコンピュータ（ＰＣ）、スマートテレビなどのようなものである。

図示されるように、複数の画像４１５および４２０は、クライアントアプリケーションに関連付けられたグラフィカル・ユーザ・インターフェース上でユーザに提示される。注意されるべきことであるが、画像は任意の適切な方法、たとえばスクロール可能な画像のリスト（そこでは、画像は一度に提示される）で提示されることが可能であり、複数の画像は、コンピューティング装置４１０の表示のサイズなどに基づき、一度に提示され得る。たとえばコンピューティング装置が、タブレットコンピューティング装置のような大きな表示装置を有する第２スクリーン装置である場合、複数の画像は、グラフィカル・ユーザ・インターフェースの中で表示され得る。別の例では、コンピューティング装置がスマートフォンである場合、１つの画像は一度に提示されることが可能であり、かつユーザは、別の画像に誘導するための選択肢を備えることが可能である（たとえばタッチスクリーン上で１つ以上のしぐさを使用する、スマートフォン上で適切なボタンを押圧する、など）。

いくつかの実施例ではクライアントアプリケーションは、複数の画像から１つの画像が、ユーザによって選択されたことを指し示すことが可能である。たとえば図４に示されるように、強調領域４１５が、ユーザ選択を指し示すために、選択された画像の周りに配置され得る。別の例では、クライアントアプリケーションは、タッチスクリーンの上で指を滑らせるしぐさ、またはユーザによるボタン押圧のような、強調画像の選択を指し示すための第２アクションを待つことが可能である。

いくつかの実施例では画像を選択することに呼応して、クライアントアプリケーションは、ユーザが選択された画像に関する更なる情報を提供することを要請できる。たとえば図４に示されるように、画像４１５（たとえば特別な時間でのテレビ番組のスクリーンショット）を選択することに呼応して、クライアントアプリケーションは、ユーザが関心領域４３０を選択することを要請できる。たとえば関心領域４３０は、ユーザによって描かれた自由形状領域であり得る。別の例では、画像認識技術（たとえば顔認識技術を使用した顔、対象物認識技術を使用した対象物など）を実施するにあたり、複数の領域が、クライアントアプリケーションによって提示され得る。これらの例では、クライアントアプリケーションは、ユーザが、選択された画像と一緒に、検索システムに逆送信するための関心領域を選択することを要請できる。これは、たとえば検索システムが、所望のエンティティ（たとえば俳優、女優、目印、対象物など）に対して検索クエリを生成するのを容易にすることが可能である。

いくつかの実施例ではクライアントアプリケーションはまた、選択された画像または選択された関心領域に関する補足的選択肢を、ユーザに提供することが可能である。たとえば図４に示されるように、クライアントアプリケーションは、ユーザに選択肢４３５を提供することが可能である。選択肢４３５は、ユーザが、選択された画像および／または選択された関心領域と一緒に、検索システムに逆送信するための質問事項を選択することを要請できる。図示されるように、質問事項には、「誰の」（たとえば誰が選択された画像の中にいるか）、「何を」（たとえば選択された画像に示された対象物または目印は何か）、および「何処で」（たとえば選択された画像におけるこの場面は何処で起こるか）が含まれる。これはまた、検索システムが、所望のエンティティに対して検索クエリ（たとえば選択された画像における俳優対目印）を生成するのを容易にすることが可能である。

さらに図４に示されるように、検索システムに適切な情報を送信することに呼応して（たとえば選択された画像、選択された関心領域、質問事項など）、検索クエリが、選択された画像の中の識別されたエンティティを用いて生成され、かつ１つ以上の検索結果４４０が、ユーザに提示され得る。この特別な例では、検索結果４４０は、クライアントアプリケーションに関連付けられたグラフィカル・ユーザ・インターフェース上で表示される（たとえば検索結果に関連付けられたＵＲＬを読み込むウェブ閲覧アプリケーション）。より具体的には、画像４１５内の関心領域４３０におけるエンティティ（たとえば俳優）を識別することに呼応して、俳優の映画作品目録ページが、クライアントアプリケーションのユーザに自動的に表示され得る。

図５に注意を向けると、システムの一般化された概略図の実例５００が、開示された主題のいくつかの実施例に従って示されており、このシステム上では、携帯型コンテンツを提示するための仕組みは、メディアコンテンツに基づく。例示されるように、システム５００は、１つ以上のコンピューティング装置５１０を含むことが可能である。コンピューティング装置５１０は、１つ以上の通信リンク５０８を介して、通信ネットワーク５０６に接続されることが可能であり、通信ネットワーク５０６は、通信リンク５０４を介して、サーバ５０２にリンクされ得る。いくつかの実施例ではコンピューティング装置５１０およびサーバ５０２は、通信リンク５１２を介して、１つ以上のコンテンツソース５１４にリンクされ得る。

システム５００は、１つ以上のサーバ５０２を含むことが可能である。サーバ５０２は、検索アプリケーションへのアクセスを提供するための任意の適切なサーバであり得るが、ここで任意の適切なサーバとは、プロセッサ、コンピュータ、データプロセッシング装置、またはそのような装置の任意の適切な組み合わせである。たとえば検索アプリケーションは、複数のバックエンド構成要素および複数のフロントエンド構成要素、および／またはインターフェースに分散され得る。より特別な例では、データ収集およびデータ配布のようなバックエンド構成要素は、１つ以上のサーバ５０２上で実施され得る。

いくつかの実施例ではユーザインターフェースおよび／またはチャンネル識別特徴のような、検索アプリケーション（または検索アプリケーションの一部分）のフロントエンド構成要素は、１つ以上のコンピューティング装置５１０上で実施され得る。

いくつかの実施例ではコンピューティング装置５１０およびサーバ５０２の各々は、コンピュータのような多目的の装置、またはクライアント、サーバなどのような特殊目的の装置のいずれかであり得る。これらの多目的の装置または特殊目的の装置のいずれかは、ハードウェアプロセッサ（これは、マイクロプロセッサ、デジタル信号プロセッサ、コントローラなどであり得る）、メモリ、通信インターフェース、表示コントローラ、入力装置などのような、任意の適切な構成要素を含み得る。たとえばコンピューティング装置５１０は、スマートフォン、タブレットコンピュータ、ウェアラブルコンピュータ、スマートテレビ、セットトップボックス、デジタルメディア受信器、ゲーム機、パーソナルコンピュータ、ラップトップコンピュータ、携帯情報端末（ＰＤＡ）、家庭娯楽システム、他の任意の適切なコンピューティング装置、またはこれらの任意の適切な組み合わせとして実施され得る。

たとえばいくつかの実施例では番組は、スマートテレビ、セットトップボックス、デジタルメディア受信器などのような、第１コンピューティング装置５１０を使用して提示され得、かつ補足的コンテンツは、タブレットコンピュータ、スマートフォン、ウェアラブルコンピュータ、ＰＤＡなどのような、第２コンピューティング装置５１０を使用して提示され得る。

いくつかの実施例ではコンテンツソース（複数を含む）５１４は、ケーブル（または電話）テレビコンテンツソース、衛星テレビコンテンツソース、オンデマンド番組コンテンツソース、ネット配信動画番組コンテンツソース、インターネットコンテンツソース、ストリーミング番組コンテンツソース、他の任意の適切なコンテンツソース、またはこれらの適切な組み合わせのような、任意の適切なコンテンツソースであり得る。

いくつかの実施例では通信ネットワーク５０６は、任意の適切なコンピュータネットワークまたはそのようなネットワークの組み合わせであり得るが、前記任意の適切なコンピュータネットワークには、インターネット、イントラネット、ワイド・エリア・ネットワーク（ＷＡＮ）、ローカル・エリア・ネットワーク（ＬＡＮ)，無線ネットワーク、デジタル加入者線（ＤＳＬ）ネットワーク、フレーム・リレー・ネットワーク、非同期転送モード（ＡＴＭ）ネットワーク、仮想プライベートネットワーク（ＶＰＮ）などが含まれる。通信リンク５０４、５０８および５１２は、コンピューティング装置５１０、サーバ５０２および／またはコンテンツソース（複数を含む）５１４の間でデータを伝達するのに適切な任意の通信リンクであり得るが、前記任意の通信リンクとは、ネットワークリンク、ダイアルアップリンク、無線リンク、ハードワイヤリンク、他の任意の適切な通信リンク、またはそのようなリンクの任意の適切な組み合わせのようなものである。コンピューティング装置５１０によって、本明細書で説明される技術を使用することが可能になり、またこれらの技術によって、本仕組みの特徴を利用することが可能になる。コンピューティング装置５１０、サーバ５０２およびコンテンツソース（複数を含む）５１４は、任意の適切な場所に位置することが可能である。

いくつかの実施例ではサーバ５０２は、１つ以上のモジュール５２０〜５３２および／またはデータベース５４０〜５４２を含むことが可能である。これらのモジュールおよびデータベースは、検索アプリケーションの様々な機能を実施するために、および／またはメディアコンテンツ情報に基づき検索結果を生成し、かつ検索結果を提示するための仕組みを容易にするために、相互に接続され得る。

いくつかの実施例ではフロントエンドサーバモジュール５２０は、たとえば図１〜図３に関連して上で説明されたように、対話型コンテンツを生成するためのプロセスを実施することが可能である。たとえばフロントエンドサーバは、コンピューティング装置５１０上で実行されるクライアントアプリケーションと、取込モジュール５２２、音声マッチングモジュール５４２、スクリーンショット閲覧モジュール５２６および検索モジュール５３２のような他のサーバモジュールとの間で、プロキシサーバとして振舞うことが可能である。

いくつかの実施例では取込モジュール５２２は、たとえば図１に関連して上で説明されたように、ビデオデータ、音声データ、電子番組ガイドデータ、メタデータなどのような、番組またはチャンネルに関連するメディアデータを受信することが可能である。加えてまたは代わりに、取込モジュール５２２は、たとえば図１に関連して説明されたように、コンテンツソースから提供されたコンテンツから、様々なメディアデータを抽出することが可能である。そのような抽出されたメディアデータは、たとえば音声指紋、サブタイトル、ビデオスクリーンショットなどを含むことが可能である。この情報は、たとえばデータベース（図示せず）に格納され得るが、これは、チャンネルを識別すること、スクリーンショットを獲得すること、および／または様々な他の動作において、フロントエンドサーバ５２０上で実行される検索アプリケーションによって使用されるためである。

いくつかの実施例では音声マッチングモジュール５２４は、取込モジュール５２２から、番組に対する音声指紋データを受信し、かつ指紋データベース５４２に格納された音声指紋データに対して、受信された音声指紋データを比較することが可能である。この指紋データベースは、たとえば上述のように、チャンネルを識別するために使用され、これによって、ユーザに提示されている番組を決定することが可能である。

いくつかの実施例ではスクリーンショット閲覧モジュール５２６は、識別されたチャンネルに基づき、１つ以上の画像を抽出することが可能である。たとえば識別されたチャンネルに基づき、スクリーンショット閲覧モジュール５２６は、そのチャンネルに関連付けられた特別な時間ウィンドウに対応する画像を引き出すことが可能である。ユーザによる画像の選択を受信することに呼応して、スクリーンショット閲覧モジュール５２６は、画像から１つ以上のエンティティを抽出しかつ識別するために、キーワード抽出モジュール５２８または他の任意の適切なモジュールを使用することが可能である。加えてスクリーンショット閲覧モジュール５２６は認識モジュール５３０を含むことが可能であるが、認識モジュール５３０は、顔認識技術、画像認識技術、光学特性認識技術などのような、１つ以上の認識技術を実施するように構成される。

いくつかの実施例ではキーワード抽出モジュール５２８は、図１に関連して上で説明されたようなエンティティを抽出することが可能である。たとえばキーワード抽出モジュール５２８は、人、場所、出来事、対象物、動物、ロゴ、または他の適切なエンティティと同一であることを抽出できる。加えてまたは代わりに、キーワード抽出モジュール５２８は、認識モジュール５３０を使用してエンティティを識別できるが、認識モジュール５３０は、たとえば画像の中である人と同一であることを決定するために、ビデオスクリーンショットの顔画像からの情報を、既知の顔情報のデータベース（たとえば既知である個人の顔情報）と比較することが可能である。同様に、認識モジュール５３０は、たとえば画像の中の対象物と同一であることを決定するために、ビルディング、彫像、製品パッケージ、電子装置、果物、および野菜、または他の任意の適切な対象物のような対象物の画像からの情報を、既知の対象物情報のデータベースと比較することが可能である。上述のように、任意の適切な認識技術は、キーワード抽出モジュール５２８および／またはスクリーンショット閲覧モジュール５２６による、番組に関連したデータからのエンティティ識別を容易にするために、認識モジュール５３０によって使用され得る。

いくつかの実施例ではフロントエンドモジュールは、検索モジュール５３２にアクセスすることが可能である。検索モジュール５３２は、たとえば選択された画像の中の識別されたエンティティに基づき、検索クエリを生成し、かつ検索クエリへの応答を示す検索結果を獲得するために、検索を実施することが可能である。より特別な例では、識別されたエンティティは、検索モジュール５３２に送信されることが可能であり、検索モジュール５３２は、識別されたエンティティ情報だけでなく、識別されたチャンネルに関連付けられたコンテンツに関連する、１つ以上の検索クエリを構築する。いったん関連する検索クエリが生成されると、検索クエリは適切な検索エンジンに提供されることが可能であり、前記検索エンジンは、検索クエリへの応答を示す、１つ以上のリポジトリおよび索引を検索する。いくつかの実施例では検索エンジンは一般的な検索エンジンであり得、これは、たとえば検索アプリケーション・プログラミング・インターフェース（ＡＰＩ）を使用して、検索モジュール５３２によってアクセスされる。代わりに、検索エンジンは、フロントエンドサーバ５２０によって、またはシステム５００の他の任意の構成要素によって独占的に使用される検索エンジンであり得る。

上述のように、いくつかの実施例では検索結果は、クライアントアプリケーションのユーザに基づき、フィルタ作用で処理される、かつ／または個人化されることが可能である。たとえば検索結果は、ユーザ検索履歴、以前のユーザ対話選択、ユーザ設定、ユーザプロファイル、クライアント装置のタイプ、ユーザの場所、および／または他のユーザ情報に基づき、除去される、かつ／または保持されることが可能である。検索結果は、フロントエンドサーバ５２０に提供されることが可能であり、フロントエンドサーバ５２０は、コンピューティング装置５１０上で実行されるクライアントアプリケーションに結果を送り返すのに適したフォーマットに、検索結果を生成する。たとえば検索結果は、ハイパーテキストマークアップ言語（ＨＴＭＬ）コンテンツとしてフォーマットされることが可能であり、このコンテンツは、コンピューティング装置５１０上のウェブ閲覧アプリケーションが、検索結果を表示することを可能にする（たとえば関連付けられたウェブページを読み込むことによって）。別の例では、検索結果は、これらがコンピューティング装置５１０上で実行されるクライアントアプリケーションの中で表示され得るように、フォーマットされることが可能である。即ち、クライアントアプリケーションを読み込み、かつ関心のある画像を選択することに呼応して、クライアントアプリケーションは、メディアコンテンツに対応する検索結果を表示することが可能である。

いくつかの実施例では電子番組ガイド（ＥＰＧ）データベースのような案内データ５４０がアクセスされ得る。たとえばフロントエンドサーバモジュール５２０は、識別されたチャンネルまたは識別された番組に関連する番組情報を獲得するために、案内データ５４０にアクセスし、かつエンティティ、検索結果などをフィルタ作用で処理するために、番組情報を使用することが可能である。注意されるべきことであるが、いくつかの実施例では案内データ５４０は、たとえばコンテンツソース（複数も含む）５１４から提供され得る。

注意されるべきことであるが、モジュール５２０〜５３２およびデータベース５４０〜５４２は、サーバ５０２に含まれるものとして示されているものの、これらのモジュールおよび／またはデータベースは、様々な組み合わせにおいて、異なるサーバに設けられることが可能である。たとえば検索モジュール５３２は第１サーバ上に設けられ、かつモジュール５２０〜５３０は第２サーバ上に設けられることが可能である。別の例として、各モジュールは、異なるサーバ上に設けられることが可能である。注意されるべきことであるが、これらは単に例であり、かつ説明されたモジュールは、任意の適切な方法で編成されることが可能である。

さらに注意されるべきことであるが、モジュール５２０〜５３２は、検索アプリケーションの一部分として含まれることが可能であり、各アプリケーションは、別個のアプリケーションであり得るか、または他の任意の適切なアプリケーションの一部であり得る。

図６は、開示された主題のいくつかの実施例に従う、ハードウェアの例６００を図示しており、このハードウェアは、図５に描かれたサーバ５０２およびコンピューティング装置５１０の１つを実施するために使用され得る。図６を参照すると、コンピューティング装置５１０は、ハードウェアプロセッサ６１２と、表示装置６１４と、入力装置６１６と、メモリ６１８とを含むことが可能であり、これらは、相互に接続され得る。いくつかの実施例ではメモリ６１８は、ハードウェアプロセッサ６１２を制御するためのコンピュータプログラムを格納する目的で、（非一時的なコンピュータ可読媒体のような）格納装置を含むことが可能である。

ハードウェアプロセッサ６１２は、表示装置６１４上にコンテンツを提示するためのコンピュータプログラム、および／またはユーザがクライアントアプリケーションと対話し、かつ通信リンク５０８を通してデータを送受信することを可能にするインターフェースを使用することが可能である。さらに注意されるべきことであるが、通信リンク５０８または他の任意の通信リンクを通して受信されたデータは、任意の適切なソースから受信され得る。いくつかの実施例ではハードウェアプロセッサ６１２は、通信リンク５０８または他の任意の通信リンクを通して、たとえば送信器、受信器、送受信器、トランシーバ、または他の任意の適切な通信装置を使用することで、データを送受信することが可能である。入力装置６１６は、コンピュータキーボード、マウス、トラックボール、キーパッド、遠隔制御器、他の任意の適切な入力装置、またはこれらの適切な組み合わせであり得る。加えてまたは代わりに、入力装置６１６は、（たとえば指、スタイラスなどを使用して）入力を受信できるタッチスクリーン表示装置６１４を含むことが可能である。

サーバ５０２は、ハードウェアプロセッサ６２２と、表示装置６２４と、入力装置６２６と、メモリ６２８とを含むことが可能であり、これらは相互に接続され得る。いくつかの実施例ではメモリ６２８は、通信リンク５０４を通して、または他のリンクを通して受信されるデータを格納するための格納装置を含むことが可能であり、かつプロセッサ６２２は、たとえばコンピューティング装置５１０の一人以上のユーザによって送信されるコマンドおよび値を受信することが可能である。格納装置は、ハードウェアプロセッサ６２２を制御するためのサーバプログラムをさらに含むことが可能である。

メディアコンテンツに基づき、検索結果および他のコンテンツを提供するための、本明細書で説明された仕組みは、コンピューティング装置５１０および／またはサーバ５０２において、ソフトウェア、ファームウェア、ハードウェア、またはこれらの任意の適切な組み合わせとして実施され得る。

いくつかの実施例ではサーバ６０２は、１つのサーバとして実施されるか、または任意の適切な数のサーバとして分散されることが可能である。たとえば複数のサーバ５０２は、信頼性を、アプリケーションの機能を、および／またはサーバがコンピューティング装置５１０と通信できる速度を増加させるために、様々な場所で実施されることが可能である。

いくつかの実施例ではクライアントアプリケーションは、アプリケーションプログラムインターフェース（図示せず）を含むことが可能であり、かつ／またはコンピューティング装置５１０のメモリ６１８および／またはサーバ５０２のメモリ６２８に常駐することが可能である。加えてまたは代わりに、グラフィカル・ユーザ・インターフェース（「ＧＵＩ」）は、コンピューティング装置５１０に分散されることが可能であり、コンピューティング装置５１０は、ユーザが、たとえばサーバ５０２に常駐しているクライアントアプリケーションと対話することを可能にする。

いくつかの実施例ではアプリケーションは、クライアント側ソフトウェア、サーバ側ソフトウェア、ハードウェア、ファームウェア、またはこれらの任意の適切な組み合わせを含むことが可能である。たとえばアプリケーションは、コンピュータプログラムを包含することが可能であり、このコンピュータプログラムは、１つ以上のプロセッサがコンテンツ生成アプリケーションを実行することを引き起こす。別の例として、アプリケーション（複数を含む）は、アプリケーション（複数を含む）を実行するコンピューティング装置５１０および／またはサーバ５０２によって認識可能なプログラミング言語で書かれたコンピュータプログラムを包含することが可能である（たとえばＪａｖａ（登録商標）、Ｃ、Ｏｂｊｅｃｔｉｖｅ−Ｃ、Ｃ＋＋、Ｃ＃、Ｊａｖａｓｃｒｉｐｔ（登録商標）、ＶｉｓｕａｌＢａｓｉｃ、ＨＴＭＬ、ＸＭＬ、ＣｏｌｄＦｕｓｉｏｎ、他の任意の適切な取り組み、またはこれらの任意の適切な組み合わせのような、プログラミング言語で書かれたプログラム）。

いくつかの実施例ではアプリケーションは、１つ以上のウェブページまたはウェブページ部分を包含することが可能である（たとえばハイパーテキストマークアップ言語（「ＨＴＭＬ」）、ダイナミックハイパーテキストマークアップ言語（「ＤＨＴＭＬ」）、拡張マークアップ言語（「ＸＭＬ」）、ＪａｖａＳｅｒｖｅｒＰａｇｅｓ（「ＪＳＰ」）、ＡｃｔｉｖｅＳｅｒｖｅｒＰａｇｅｓ（「ＡＳＰ」）、ＣｏｌｄＦｕｓｉｏｎ、または他の任意の取り組み、のような任意の適切な符号化を介して）。

従って、メディアコンテンツに対応する携帯型コンテンツを提示するための方法、システムおよび媒体が提供される。

いくつかの実施例では任意の適切なコンピュータ可読媒体が、本明細書で説明された機能および／またはプロセスを実施するための命令を格納する目的で、使用されることが可能である。たとえばいくつかの実施例ではコンピュータ可読媒体は、一時的または非一時的であり得る。たとえば非一時的なコンピュータ可読媒体は、（ハードディスク、フロッピーディスク（登録商標）などのような）磁気媒体、（コンパクトディスク、デジタルビデオディスク、ブルーレイディスクなどのような）光媒体、（フラッシュメモリ、電気的にプログラム可能な再生専用メモリ（ＥＰＲＯＭ）、電気的に消去可能でプログラム可能な再生専用メモリ（ＥＥＰＲＯＭ）などのような）半導体メモリ、つかの間のものではなく、または伝送中にいかなる外見上の耐久性を欠くことがない任意の適切な媒体、および／または任意の適切な有形媒体のような媒体を含むことが可能である。別の例では、一時的なコンピュータ可読媒体は、電線、導線、光ファイバ、回路、任意の適切な媒体におけるネットワーク上で、信号を含むことが可能であり、ここで任意の適切な媒体とは、つかの間のものではなく、かつ伝送中にいかなる外見上の耐久性を欠くことがない、かつ／または適切な有形の媒体である。

理解されるべきことであるが、図１〜図３のプロセスの上記手順は、図に示されかつ説明された順番および系列に限定されない、任意の順番または系列で実行される、または実施されることが可能である。さらに、図１〜図３のプロセスの上記手順のいくつかは、実質的に同時に実行される、または実施されることが可能であり、そこでは、待機時間および処理時間を削減するために、適切にまたは平行して実行される。

注意されるべきことであるが、本明細書で使用されたように、用語「仕組み」は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の適切な組み合わせを包含することが可能である。

本発明は、前述の例証的実施例において説明され、かつ例証されてきたが、理解されることは、本開示は単に例として開示されたものであり、かつ本発明を実施する上での詳細においては、次に続く請求項によってのみ制限される本発明の精神および範囲から外れることなく、多数の変更がなされ得る、ということである。開示された実施例の特徴は、様々な方法で組み合わされ、かつ再整理されることが可能である。

Claims

メディアコンテンツに関する情報を提供するための方法であって、前記方法は、
ハードウェアプロセッサが、テレビ番組を提供しているチャンネルを決定する手順と、
前記ハードウェアプロセッサが、前記テレビ番組に関する複数の画像が提示されることを引き起こす手順であって、前記複数の画像は前記チャンネルおよび時間パラメータに基づき選択される、手順と、
前記ハードウェアプロセッサが、前記複数の画像からの、ユーザによる画像の選択を受信する手順と、
前記ハードウェアプロセッサが、テレビ番組に関する番組情報を受信する手順であって、前記番組情報は前記テレビ番組に映る一人以上の人についての情報を含む、手順と、
前記ハードウェアプロセッサが、携帯装置に複数の質問事項を提示させる手順と、
前記ハードウェアプロセッサが、前記複数の質問事項からのユーザによる質問事項の選択を受信する手順であって、ユーザによる前記質問事項の選択は、識別されるエンティティが人であることを示す、手順と、
選択された前記画像の中で、ユーザによる関心領域の選択を受信する手順と、
ユーザによる前記質問事項の選択とユーザによる前記関心領域の選択との受信に応じて、前記ハードウェアプロセッサが、前記テレビ番組に映る一人以上の人に基づき１つ以上の顔認識技術を用いることによって、前記選択された関心領域の中の人のエンティティを識別する手順と、
前記ハードウェアプロセッサが、前記識別された人のエンティティに少なくとも部分的に基づき、検索クエリを生成する手順と、
前記ハードウェアプロセッサが、前記生成された検索クエリへの応答を示す複数の検索結果を獲得する手順と、
前記ハードウェアプロセッサが、前記ユーザによる前記画像の選択を受信する手順に呼応して、前記複数の検索結果のうちの少なくとも１つが携帯装置に提示されることを引き起こす手順と
を備える、方法。
前記方法はさらに、前記携帯装置から、テレビ番組に対応する音声データを受信する手順を含み、
前記チャンネルは、前記受信された音声データに基づき決定される、
請求項１記載の方法。
前記音声データを受信する手順はさらに、前記音声データの音声指紋を獲得する手順を備える、
請求項２記載の方法。
前記方法はさらに、
複数のテレビチャンネルの各々から、音声ストリームを抽出する手順と、
前記複数のテレビチャンネルの各々に対して、前記複数のテレビチャンネルの１つに対応する前記抽出された音声ストリームのうちの少なくとも一部分から、少なくとも１つの音声指紋を生成する手順と、
前記少なくとも１つの音声指紋を、チャンネルによって索引付けされたデータベースに格納する手順と
を備える、請求項３記載の方法。
前記方法はさらに、
前記音声指紋を、前記少なくとも１つの格納された音声指紋と比較する手順と、
前記比較に基づき、前記テレビ番組を識別する手順と
を備える、請求項４記載の方法。
前記方法はさらに、
複数のテレビチャンネルの各々から、複数の番組画像を抽出する手順と、
前記複数の番組画像を、チャンネルおよび時間によって索引付けされたデータベースに格納する手順と
を備える、請求項１記載の方法。
前記テレビ番組に関する前記複数の画像は、前記複数の画像を獲得するために前記決定されたチャンネルおよび前記時間パラメータを使用することによって提示され、
前記複数の画像は、前記複数の抽出された番組画像の部分集合である、
請求項６記載の方法。
前記方法はさらに、
顔認識技術を使用して、前記選択された画像の中で複数の顔を検出する手順と、
前記携帯装置を促して、前記複数の検出された顔から１つの顔を選択させる手順と、
前記選択された顔に関連付けられた前記エンティティを識別する手順と
を備える、請求項１記載の方法。
前記方法はさらに、
前記決定されたチャンネルおよび前記時間パラメータに基づき、前記テレビ番組を決定するために、案内データにアクセスする手順
を備える、請求項１記載の方法。
メディアコンテンツに関する情報を提供するためにハードウェアプロセッサを備えるシステムであって、前記ハードウェアプロセッサは、
テレビ番組を提供しているチャンネルを決定し、
前記テレビ番組に関する複数の画像であって、前記複数の画像は前記チャンネルおよび時間パラメータに基づき選択され、前記複数の画像が携帯装置によって提示されることを引き起こし、
前記複数の画像からの、ユーザによる画像の選択を受信し、
テレビ番組に関する番組情報を受信し、前記番組情報は前記テレビ番組に映る一人以上の人についての情報を含み、
前記携帯装置に複数の質問事項を提示させ、
前記複数の質問事項からのユーザによる質問事項の選択を受信し、ユーザによる前記質問事項の選択は、識別されるエンティティが人であることを示し、
選択された前記画像の中で、ユーザによる関心領域の選択を受信し、
ユーザによる前記質問事項の選択とユーザによる前記関心領域の選択との受信に応じて、前記テレビ番組に映る一人以上の人に基づき１つ以上の顔認識技術を使用して、前記選択された関心領域の中で人のエンティティを識別し、
前記識別されたエンティティに少なくとも部分的に基づき、検索クエリを生成し、
前記生成された検索クエリへの応答を示す複数の検索結果を獲得し、
前記ユーザによる前記画像の選択を受信することに呼応して、前記複数の検索結果のうちの少なくとも１つが携帯装置に提示されることを引き起こす
ように構成される、システム。
前記ハードウェアプロセッサはさらに、前記携帯装置から、テレビ番組に対応する音声データを受信するように構成され、
前記チャンネルは、前記受信された音声データに基づき決定される、
請求項１０記載のシステム。
前記ハードウェアプロセッサはさらに、前記音声データの音声指紋を獲得するように構成される、
請求項１１記載のシステム。
前記ハードウェアプロセッサはさらに、
複数のテレビチャンネルの各々から音声ストリームを抽出し、
前記複数のテレビチャンネルの各々に対して、前記複数のテレビチャンネルの１つに対応する前記抽出された音声ストリームのうちの少なくとも一部分から、少なくとも１つの音声指紋を生成し、
前記少なくとも１つの音声指紋を、チャンネルによって索引付けされたデータベースに格納する
ように構成される、請求項１２記載のシステム。
前記ハードウェアプロセッサはさらに、
前記音声指紋を、前記少なくとも１つの格納された音声指紋と比較し、
前記比較に基づき、前記テレビ番組を識別する
ように構成される、請求項１３記載のシステム。
前記ハードウェアプロセッサはさらに、
複数のテレビチャンネルの各々から、複数の番組画像を抽出し、
前記複数の番組画像を、チャンネルおよび時間によって索引付けされたデータベースに格納する
ように構成される、請求項１０記載のシステム。
前記ハードウェアプロセッサはさらに、前記複数の画像を獲得するために、前記決定されたチャンネルおよび前記時間パラメータを使用するように構成され、
前記複数の画像は、前記複数の抽出された番組画像の部分集合である、
請求項１５記載のシステム。
前記ハードウェアプロセッサはさらに、
顔認識技術を使用して、前記選択された画像の中で複数の顔を検出し、
前記携帯装置を促して、前記複数の検出された顔から１つの顔を選択させ、
前記選択された顔に関連付けられた前記エンティティを識別する
ように構成される、請求項１０記載のシステム。
前記ハードウェアプロセッサはさらに、
前記決定されたチャンネルおよび前記時間パラメータに基づき、前記テレビ番組を決定するために案内データにアクセスする
よう構成される、請求項１０記載のシステム。
ハードウェアプロセッサを備えるコンピュータに以下の手順を実行させるためのプログラムを記録したコンピュータ読取可能な記録媒体であって、前記プログラムはメディアコンテンツに関する情報を提供するための方法を前記コンピュータに実行させることを引き起こし、前記プログラムは、
テレビ番組を提供しているチャンネルを決定する手順と、
前記テレビ番組に関する複数の画像が携帯装置によって提示されることを引き起こす手順であって、前記複数の画像は、前記チャンネルおよび時間パラメータに基づき選択される、手順と、
前記複数の画像からの、ユーザによる画像の選択を受信する手順と、
前記ハードウェアプロセッサが、テレビ番組に関する番組情報を受信する手順であって、前記番組情報は前記テレビ番組に映る一人以上の人についての情報を含む、手順と、
前記ハードウェアプロセッサが、携帯装置に複数の質問事項を提示させる手順と、
前記ハードウェアプロセッサが、前記複数の質問事項からのユーザによる質問事項の選択を受信する手順であって、ユーザによる前記質問事項の選択は、識別されるエンティティが人であることを示す、手順と、
選択された前記画像の中で、ユーザによる関心領域の選択を受信する手順と、
ユーザによる前記質問事項の選択とユーザによる前記関心領域の選択との受信に応じて、前記テレビ番組に映る一人以上の人に基づき１つ以上の顔認識技術を使用して、前記選択された関心領域の中で人のエンティティを識別する手順と、
前記識別された人のエンティティに少なくとも部分的に基づき、検索クエリを生成する手順と、
前記生成された検索クエリへの応答を示す複数の検索結果を獲得する手順と、
前記ユーザによる前記画像の選択を受信する手順に呼応して、前記複数の検索結果のうちの少なくとも１つが、携帯装置に提示されることを引き起こす手順と
を前記コンピュータに実行させる、記録媒体。
前記プログラムはさらに、前記携帯装置から、テレビ番組に対応する音声データを受信する手順を前記コンピュータに実行させ、
前記チャンネルは、前記受信された音声データに基づき決定される、
請求項１９記載の記録媒体。
前記プログラムはさらに、前記音声データの音声指紋を獲得する手順を前記コンピュータに実行させる、
請求項２０記載の記録媒体。
前記プログラムはさらに、
複数のテレビチャンネルの各々から音声ストリームを抽出する手順と、
前記複数のテレビチャンネルの各々に対して、前記複数のテレビチャンネルの１つに対応する前記抽出された音声ストリームのうちの少なくとも一部分から、少なくとも１つの音声指紋を生成する手順と、
前記少なくとも１つの音声指紋を、チャンネルによって索引付けされたデータベースに格納する手順と
を前記コンピュータに実行させる、請求項２１記載の記録媒体。
前記プログラムはさらに、
前記音声指紋を、前記少なくとも１つの格納された音声指紋と比較する手順と、
前記比較に基づき、前記テレビ番組を識別する手順と
を前記コンピュータに実行させる、請求項２２記載の記録媒体。
前記プログラムはさらに、
複数のテレビチャンネルの各々から、複数の番組画像を抽出する手順と、
前記複数の番組画像を、チャンネルおよび時間によって索引付けされたデータベースに格納する手順と
を前記コンピュータに実行させる、請求項１９記載の記録媒体。
前記プログラムはさらに、前記複数の画像を獲得するために、前記決定されたチャンネルおよび前記時間パラメータを使用する手順を前記コンピュータに実行させ、
前記複数の画像は、前記複数の抽出された番組画像の部分集合である、
請求項２４記載の記録媒体。
前記プログラムはさらに、
顔認識技術を使用して、前記選択された画像の中で複数の顔を検出する手順と、
前記携帯装置を促して、前記複数の検出された顔から１つの顔を選択させる手順と、
前記選択された顔に関連付けられた前記エンティティを識別する手順と
を前記コンピュータに実行させる、請求項１９記載の記録媒体。
前記プログラムはさらに、
前記決定されたチャンネルおよび前記時間パラメータに基づき、前記テレビ番組を決定するために、案内データにアクセスする手順と、
前記テレビ番組に関する番組情報を受信する手順と、
前記受信された番組情報を使用して、前記選択された画像の中で前記エンティティを識別する手順と
を前記コンピュータに実行させる、請求項１９記載の記録媒体。