JP2009087113A

JP2009087113A - 情報処理装置および方法、プログラム、並びに記録媒体

Info

Publication number: JP2009087113A
Application number: JP2007257117A
Authority: JP
Inventors: Daisuke Negi; 大輔根木
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-10-01
Filing date: 2007-10-01
Publication date: 2009-04-23
Anticipated expiration: 2027-10-01
Also published as: US20090089242A1; US8713008B2; JP5286732B2

Abstract

【課題】ユーザに有意義な検索結果を提示する。
【解決手段】ユーザにより、例えば、キーワードが検索方法として入力された場合、そのキーワードで示される所定のコンテンツ内のシーンが検索される。検索は、シーン単位で行われ、シーン単位の検索結果が取得される。取得されたシーン単位の検索結果は、そのシーンが含まれるコンテンツに集約され、コンテンツとしてユーザ側に提示される。提示されたコンテンツからユーザが選択したコンテンツが特定され、再生が実行される。本発明は、映像などのコンテンツを検索する情報処理装置に適用できる。
【選択図】図４

Description

本発明は情報処理装置および方法、プログラム、並びに記録媒体に関し、特に、情報を提供するときに、ユーザにとって意味的にまとまりのあるかたちで提供するようにした情報処理装置および方法、プログラム、並びに記録媒体に関する。

従来、映像コンテンツを検索する場合、キーワードを指定して検索する方法、参照画像または参照映像を与えて一致する部分や類似する部分を含むものを検索する方法、色や動きの激しさなどの情報を指定して検索する方法などが用いられている。また、映像コンテンツ単位で検索する方法や、映像コンテンツを細分化したシーン単位で検索する方法なども提案されている。（例えば、特許文献１参照）
特開2004-227423号公報

映像解析技術の向上や、映像コンテンツに対するアノテーション（annotation）サービスの普及などにより、シーン単位でコンテンツに意味づけがなされることが多くなってきた。アノテーションサービスとは、例えば、インターネット上に氾濫するＷｅｂページやマルチメディアコンテンツを、単に視聴するだけでなく、高度に利用したいというユーザの欲求に対して、それらのコンテンツに対して何らかの情報を関連付けて、提供するサービスのことである。

このようなアノテーションサービスが普及することにともない、ユーザの求める映像をシーン単位で探し出す手法の精度の向上が見込まれる。しかしながら、シーン単位で検索を行い、検索結果をシーン単位でユーザに返すと、ユーザ側では所望のシーンを得られても、シーン単位の検索で得られる映像断片のみの結果では意味をなさないことがあり、必ずしも、ユーザにとって有意義な検索結果が返せるわけではなかった。

本発明は、このような状況に鑑みてなされたものであり、ユーザにとって有意義な検索結果を返せるようにするものである。

本発明の一側面の情報処理装置は、コンテンツから特徴量を抽出する特徴抽出手段と、前記特徴量抽出手段により抽出された特徴量を用いて、前記コンテンツから所定のシーンを抽出する抽出手段と、コンテンツを検索するための情報を取得する取得手段と、前記取得手段で取得された前記情報に該当するシーンを、前記抽出手段で抽出されたシーンを対象とし、シーン単位で検索を行う検索手段と、前記検索手段により検索されたシーンを含むコンテンツを、検索結果として提示する提示手段とを備える。

前記提示手段は、複数のコンテンツを提示する場合、各コンテンツに含まれる前記検出手段で検出されたシーンの個数が多い順に順位を設定し、提示するようにすることができる。

前記提示手段は、複数のコンテンツを提示する場合、各コンテンツに含まれる前記検出手段で検出されたシーンの総合計時間が多い順に順位を設定し、提示するようにすることができる。

前記提示手段は、複数のコンテンツを提示する場合、各コンテンツに含まれる前記検出手段で検出されたシーンの総合計時間の前記コンテンツに占める割合が高い順に順位を設定し、提示するようにすることができる。

前記提示手段は、複数のコンテンツを提示する場合、各コンテンツに含まれる前記検出手段で検出されたシーンの適合度が高い順に順位を設定し、提示するようにすることができる。

本発明の一側面の情報処理方法は、コンテンツから特徴量を抽出し、抽出された特徴量を用いて、前記コンテンツから所定のシーンを抽出し、コンテンツを検索するための情報を取得し、取得された前記情報に該当するシーンを、抽出されたシーンを対象とし、シーン単位で検索を行い、検索されたシーンを含むコンテンツを、検索結果として提示するステップを含む。

本発明の一側面のプログラムは、コンテンツから特徴量を抽出し、抽出された特徴量を用いて、前記コンテンツから所定のシーンを抽出し、コンテンツを検索するための情報を取得し、取得された前記情報に該当するシーンを、抽出されたシーンを対象とし、シーン単位で検索を行い、検索されたシーンを含むコンテンツを、検索結果として提示するステップを含む処理をコンピュータに実行させる。

本発明の一側面の記録媒体は、コンテンツから特徴量を抽出し、抽出された特徴量を用いて、前記コンテンツから所定のシーンを抽出し、コンテンツを検索するための情報を取得し、取得された前記情報に該当するシーンを、抽出されたシーンを対象とし、シーン単位で検索を行い、検索されたシーンを含むコンテンツを、検索結果として提示するステップを含むコンピュータが読み取り可能なプログラムが記録されている。

本発明の一側面の情報処理装置および方法、並びにプログラムにおいては、コンテンツから抽出されるシーンの特徴量と、ユーザから供給された検索対象とするシーンの情報とが用いられ、所定のシーンが検索され、検索されたシーンを含むコンテンツが検索結果としてユーザに提示される。

本発明の一側面によれば、シーン単位で検索されたコンテンツを、ユーザに有意義な情報として提供することが可能となる。

以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書または図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書または図面に記載されていることを確認するためのものである。従って、明細書または図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。

本発明の一側面の情報処理装置（例えば、図１の情報処理装置１１）は、コンテンツから特徴量を抽出する特徴抽出手段（例えば、図１の特徴量抽出部２２）と、前記特徴量抽出手段により抽出された特徴量を用いて、前記コンテンツから所定のシーンを抽出する抽出手段（例えば、図１のシーン抽出部２４）と、コンテンツを検索するための情報を取得する取得手段（例えば、図１の検索方法指示部２６）と、前記取得手段で取得された前記情報に該当するシーンを、前記抽出手段で抽出されたシーンを対象とし、シーン単位で検索を行う検索手段（例えば、図１のシーン検索部２７）と、前記検索手段により検索されたシーンを含むコンテンツを、検索結果として提示する提示手段（例えば、図１の検索結果集約部２８）とを備える。

以下に、本発明の実施の形態について図面を参照して説明する。

図１は、本発明を適用した情報処理装置の一実施の形態の構成を示す図である。図１に示した情報処理装置１１は、コンテンツ取得部２１、特徴量抽出部２２、特徴量記憶部２３、シーン抽出部２４、シーン記憶部２５、検索方法指示部２６、シーン検索部２７、検索結果集約部２８、検索結果表示制御部２９、再生表示制御部３０、および再生指示部３１を含む構成とされている。検索結果表示制御部２９と再生表示制御部３０は、表示装置１２と接続され、表示装置１２の表示を制御する。

コンテンツ取得部２１は、コンテンツを取得する。取得されるコンテンツは、ここでは映像であるとする。コンテンツ取得部２１は、インターネットなどで構成されるネットワークを介して接続されている他の装置で管理されているコンテンツや、ユーザのパーソナルコンピュータで管理されているコンテンツなどを取得する。取得されるコンテンツは、インターネットなどで公開されているコンテンツであっても良いし、ユーザ自身が撮影したようなプライベートなコンテンツであっても良い。

特徴量抽出部２２は、コンテンツ取得部２１で取得されたコンテンツから特徴量を抽出する。特徴量抽出部２２で抽出された特徴量は、特徴量記憶部２３に一旦記憶される。

シーン抽出部２４は、コンテンツ取得部２１で取得されたコンテンツを複数のシーンに分割、または複数のシーンを抽出する。例えば、シーンチェンジを検出する方法を適用して複数のシーンに分割されるようにしても良いし、所定の条件に当てはまるシーンが抽出されるようにしても良い。ここでは、所定の条件に当てはまるシーンが抽出される場合を例に挙げて説明する。処理対象とされているコンテンツ内のシーンが、所定のシーンに当てはまるか否かは、特徴量抽出部２２により抽出された特徴量を用いて判断される。

例えば、シーン抽出部２４は、第１のシーンが有する第１の特徴量を記憶しており、または取得できるように構成されており、第１の特徴量と一致する特徴量が、特徴量記憶部２３に記憶されているか否かを判断することにより、第１のシーンに当てはまるか否かを判断する。

ここでは、シーン抽出部２４は、所定のシーンと、そのシーンの特徴量を関連付けて記憶しているとして説明を続ける。また、ここでは、特徴量記憶部２３に記憶されている特徴量と、シーン抽出部２４が記憶している特徴量が一致したとき、そのシーンを抽出するとして説明するが、特徴量が“一致”するとの表記は、完全に一致することは勿論含まれるが、特徴量が類似している場合も含まれるとする。類似している場合とは、特徴量の一致度が、例えば、９０％以上であるときには、一致するとして判断して良い場合であるとする。

よって、特徴量抽出部２２が供給されたコンテンツから抽出される特徴量と、シーン抽出部２４に記憶されている特徴量は、比較することが可能な量とされる。

シーン抽出部２４により、シーンが抽出された場合、そのシーンが、シーン記憶部２５に記憶される。シーン抽出部２４により、シーンが抽出された場合、そのシーンの開始点や終了点などを、ユーザ側で編集し、その編集された後のシーンが、シーン記憶部２５に記憶されるようにしても良い。さらに、ユーザによりシーンが抽出されるようにしても良いし、ユーザにより抽出されたシーンも、シーン抽出部２４により抽出された他のシーンとともに、シーン記憶部２５に記憶されるようにしても良い。

シーン記憶部２５に記憶されるのは、コンテンツ取得部２１で取得されたコンテンツから、所定のシーンであると判断された部分を特定できる情報、または判断された部分の映像データそのものである。

また、後述するように、本実施の形態においては、ユーザに対してコンテンツを検索結果として提示するため、また、提示したコンテンツが再生できるように構成されるため、コンテンツ取得部２１により取得されたコンテンツのデータ（以下、コンテンツデータと記述する）も、シーン記憶部２５に記憶されるとして説明する。すなわちここでは、コンテンツデータと、そのコンテンツデータに基づくコンテンツの所定のシーンを特定するための情報（以下、シーン情報と記述する）が関連付けられて記憶される。

ここで、シーン記憶部２５に記憶されるデータについて、図２を参照して説明を加える。シーン記憶部２５には、コンテンツデータ５１と、そのコンテンツデータ５１のシーンに関する情報である、シーン情報５２−１乃至５２−ｐが関連付けられて記憶されている。また、シーン記憶部２５には、コンテンツデータ６１と、そのコンテンツデータ６１のシーンに関する情報である、シーン情報６２−１乃至６２−ｑが関連付けられて記憶されている。

このように、シーン記憶部２５には、複数のコンテンツデータとそのコンテンツデータのシーン情報が関連付けられて記憶されている。以下の説明において、コンテンツデータ５１とコンテンツデータ６１を区別する必要がない場合、コンテンツデータ５１を代表して記述する。また、シーン情報も同様に、シーン情報５２を代表して記述し、シーン情報５２−１乃至５２−ｐも、個々に区別する必要がない場合、単にシーン情報５２と記述する。

シーン情報５２に含まれる情報は、シーン抽出部２４がシーンを抽出したときに生成されるように構成されている。また、シーン情報５２に含ませる情報は、ユーザなどから提供された情報とすることも可能であり、適宜、ユーザから提供された情報で、シーン情報５２が生成される。

コンテンツデータ５１は、コンテンツのデータそのものでも良いし、コンテンツを特定するための情報、例えば、インターネット上で取得できるコンテンツであれば、アドレスなどの情報でも良い。シーン情報５２は、コンテンツデータ５１に基づくコンテンツのうち、どの部分が所定のシーンとして抽出されたかを示す情報である。例えば、シーン情報５２には、シーンの初めと終わりフレームを特定するためのフレーム情報や、どのようなシーンであるかを示す情報が含まれる。

どのようなシーンであるかを示す情報とは、シーン検索部２７がシーンの検索を行うときに参照する情報である。ここで、図１に示した情報処理装置１１の説明に戻る。シーン検索部２７は、検索方法指示部２６により指示された方法により、シーン記憶部２５に記憶されている情報から、指示されたシーンが記憶されているか否かを判断する。

検索方法指示部２６には、ユーザが所望のシーンを検索するときの情報が入力される。例えば、検索方法指示部２６は、ユーザが操作し、情報を入力するための、例えばキーボードなどの操作部（不図示）を含む構成とされる。または、例えば、ネットワークと接続され、ネットワークを介して、ユーザからの指示を入力するためのインタフェース（不図示）を備える構成とされる。

ユーザにより入力される情報は、所望のシーンに含まれる画像や映像、所望のシーンを特定するためのキーワードなどである。また、所望のシーンの特徴、例えば、動きの激しいシーンであるとか、シーンに含まれる色などでも良い。

例えば、検索方法指示部２６に、所定の画像が入力された場合、シーン検索部２７は、その画像に完全に一致する画像を含むシーンや、類似する画像を含むシーンが、シーン記憶部２５に記憶されているか否かを、シーン情報５２を参照して判断する。よってこの場合、シーン情報５２には、シーンに含まれる画像の特徴量など、所定の画像と一致（類似）するか否かを判断できる情報が含まれる。

また例えば、検索方法指示部２６に、所定のキーワードが入力された場合、シーン検索部２７は、そのキーワードに完全に一致するキーワードを含むシーンや、類語を含むシーンが、シーン記憶部２５に記憶されているか否かを、シーン情報５２を参照して判断する。よってこの場合、シーン情報５２には、シーンに含まれるキーワードが、所定のキーワードと一致（類似）するか否かを判断できる情報が含まれる。

なおこの場合、シーンに含まれるキーワードとは、そのシーンにアノテーションされたキーワードや、そのシーンのクローズドキャプション（closed captioning）や、テロップなどである。また、シーン情報５２には、このような文字認識で得られたテキスト情報が含まれる。

さらには、シーン情報５２には、そのシーンの色や被写体の動きの激しさなどの情報も適宜含まれる。

すなわち、シーン記憶部２５に記憶されるシーン情報５２には、検索方法指示部２６に、ユーザが指示として入力する情報で、シーン検索部２７が検索できるような情報が含まれ、その情報には、人により付与された情報や、シーンを解析することにより付与された情報が含まれる。

シーン検索部２７は、このように、ユーザからの指示に基づき、シーンを検索し、その検索結果を、検索結果集約部２８に供給する。検索結果集約部２８は、検索されたシーンを含むコンテンツを、検索結果としてユーザに提示するための処理を行う。シーン検索部２７で検索されたシーンを、そのままユーザに提示した場合、ユーザ側では所望のシーンを得られることになるが、シーン単位の検索で得られる映像断片のみの結果では意味をなさないことがあり、必ずしも、ユーザにとって有意義な検索結果の提示であるとは限らない。

そこで、シーンを含むコンテンツを、ユーザに提示するようにする。検索されたシーンを含むコンテンツをユーザに提示することで、検索されたシーンの前後も提供されることになり、ユーザは、所望のシーンの前後を確認することができるようになる。換言すれば、ユーザに意味的に最もまとまりのある結果を、検索結果として提示することが可能となる。

検索結果集約部２８による結果は、検索結果表示制御部２９に供給される。検索結果表示制御部２９は、検索結果集約部２８からの検索結果（情報）を、表示装置１２を制御してユーザに提示する。

ユーザが、表示装置１２に表示されている検索結果から、再生させたい検索結果を指示した場合、再生指示部３１により、指示された検索結果の再生が、再生表示制御部３０に指示される。再生表示制御部３０は、ユーザが再生を指示した検索結果を、検索結果表示制御部２９からの情報に基づき特定し、その特定された検索結果のデータをシーン記憶部２５から読み出し、その読み出したデータに基づき、表示装置１２を制御して、ユーザが指示した検索結果の表示を制御する。

このような構成を有する情報処理装置１１の動作について、図３と図４に示したフローチャートを参照してさらに説明を加える。

まず、図３に示したフローチャートを参照し、シーン記憶部２５にシーン情報５２が記憶されるまでの処理について説明する。ステップＳ１１において、コンテンツ取得部２１は、コンテンツデータ５１を取得する。コンテンツデータ５１は、接続されているユーザのパーソナルコンピュータなどのローカルな環境で保持されているコンテンツデータであったり、インターネットなどを介して取得されるコンテンツデータであったりする。また、インターネットなどを介して取得されるコンテンツデータは、コンテンツ共有システムなどで共有されているコンテンツデータであっても良い。

ステップＳ１２において、取得されたコンテンツデータ５１から、既に特徴量が抽出されているか否かが判断される。ステップＳ１２において、既に特徴量が抽出されていると判断された場合、ステップＳ１４に処理が進められ、まだ特徴量は抽出されていないと判断された場合、ステップＳ１３に処理が進められる。

ステップＳ１３において、特徴量抽出部２２は、取得されたコンテンツデータ５１から特徴量を抽出し、特徴量記憶部２３に記憶させる。抽出される特徴量は、上述したように、後段のシーン抽出部２４がシーンを抽出するときに用いる情報である。

ステップＳ１４において、取得されたコンテンツデータ５１に基づくコンテンツは、既にシーン抽出済であるか否かが判断される。ステップＳ１４における処理を換言するならば、取得されたコンテンツデータ５１から、既にシーン情報５２が生成されているか否かが判断される処理である。ステップＳ１４において、既にシーン抽出済であると判断された場合、シーン情報５２を記憶するための処理は終了され、まだシーン抽出済ではないと判断された場合、ステップＳ１５に処理が進められる。

ステップＳ１５において、シーン抽出部２４は、コンテンツデータ５１に基づくコンテンツから、特徴量記憶部２３に記憶されている特徴量を参照しながら、所定のシーンを抽出する。上述したように、シーン抽出部２４は、例えば、所定のシーンの特徴量を管理しており、その管理している特徴量と特徴量記憶部２３に記憶されている特徴量を比較しながら、所定のシーンを抽出する。

また、ユーザによりシーンが抽出されるようにしても良い。シーン抽出部２４が行う抽出は、上記したように、予め検索対象として設定されているシーンが抽出されるが、その他に、ユーザが自己の好みでシーンを抽出することができるようにしても良い。

シーン抽出部２４によりシーンが抽出された場合、シーン抽出部２４は、シーン情報５２を生成し、コンテンツデータ５１と関連付けてシーン記憶部２５に記憶させる。このような処理が行われることにより、図２に示したようなコンテンツデータ５１とシーン情報５２が関連付けられたデータベースが構築される。

次に、このようなデータベースが構築された後に行われるシーン抽出について、図４のフローチャートを参照して説明する。

ステップＳ３１において、検索方法指示部２６に、ユーザからの指示が供給される。上記したように、ユーザは、所望のシーンを検索したいとき、画像、映像、キーワード、特徴などを、検索したいシーンの情報として入力する。その入力された情報が、ステップＳ３１において取得される。

ステップＳ３２において、シーン検索部２７は、検索方法指示部２６が取得したユーザからの指示に合致するシーンを検索する。すなわち、シーン検索部２７は、検索方法指示部２６が取得したユーザからの指示を解析し、その解析結果と、一致（類似）するシーン情報５２が、シーン記憶部２４に記憶されているか否かを判断することにより、シーン検索を実行する。この検索は、シーン記憶部２５に記憶されているシーン情報５２の全て、または一部が対象とされる。シーン情報５２が多い場合、検索時間がかかるため、予め何らかの方式により分類されたシーン情報５２のみが、検索対象とされるようにしても良い。

シーン検索部２７は、所定の閾値が設定されており、ユーザからの指示と所定のシーンの適合度が、設定されている閾値以上であるとき、適合するシーンであるとして抽出するようにしても良い。

ステップＳ３３において、検索結果集約部２８は、シーン検索部２７で検索されたシーンを集約する。シーンを集約するのは、検索されたシーンを含むコンテンツをユーザ側に検索結果として提示するためである。複数のシーンが異なるコンテンツから検索された場合、複数のコンテンツがユーザ側に提示される。複数のコンテンツが提示される場合、複数のコンテンツをどのような順番で提示するかを決定する必要がある。ここで、その順番の決定の仕方について、図５を参照して説明する。

図５は、コンテンツに含まれるシーンの数や長さを例示した図である。図５において、コンテンツ１には、シーンＡ、シーンＢ、およびシーンＣが含まれている。コンテンツ２には、シーンＤ、シーンＥ、シーンＦ、およびシーンＧが含まれている。コンテンツ３には、シーンＨ、シーンＩ、シーンＪ、シーンＫ、シーンＬ、シーンＭ、およびシーンＮが含まれている。シーンＡ乃至シーンＮは、それぞれ、シーン検索部２７により検索結果として抽出されたシーンである。

図５において、図中横方向は、時間を示し、ここでは説明の都合上、コンテンツ１乃至３は、同じ長さのコンテンツであるとして図示してある。また、各シーンの図中横方向の長さは、シーンの長さを示している。

検索結果集約部２８は、例えば、シーンＡが検索結果として供給された場合、シーンＡを含むコンテンツ１を、検索結果の候補として設定する。このように、検索結果集約部２８は、供給されたシーンを含むコンテンツを検索結果の候補として設定する。また同様に、例えば、シーンＤが検索結果として供給された場合、シーンＤを含むコンテンツ２を、検索結果の候補として設定する。

また、検索結果集約部２８は、例えば、シーンＡとシーンＤが検索結果として供給された場合、シーンＡを含むコンテンツ１とシーンＤを含むコンテンツ２を、検索結果の候補として設定する。このように複数のコンテンツが検索結果の候補として設定された場合、どちらのコンテンツをユーザ側に優先的に提示するかを決定する必要がある。検索結果集約部２８は、所定のルールに基づき、提示するコンテンツの順番を設定する。

ルール１として、コンテンツに含まれるシーンの数により、順番が設定される。図５に示したような場合、コンテンツ１には、３つのシーンが含まれ、コンテンツ２には、４つのシーンが含まれ、コンテンツ３には、７つのシーンが含まれているので、ルール１に基づいて順番が設定される場合、コンテンツ３、コンテンツ２、コンテンツ１の順になる。そして、この順で、ユーザ側に提示される。

ルール２として、コンテンツに含まれる各シーンの長さが長い順に順番が設定される。図５に示したような場合、コンテンツ１に含まれるシーンＣが最も長いシーンであるので、コンテンツ１が、順位１とされる。次に長いシーンは、シーンＢであるが、シーンＢは、コンテンツ１に含まれ、コンテンツ１は、順位１と既に設定されているので除外される。このようにして、同じコンテンツが重複してユーザに提示されないよう処理される。このようなルール２により順位が設定された場合、コンテンツ１、コンテンツ２、コンテンツ３の順になる。そして、この順で、ユーザ側に提示される。

ルール３として、コンテンツに含まれる各シーンの合計時間が長い順に順番が設定される。図５に示したような場合、各シーンの合計時間を算出したとき、コンテンツ１、コンテンツ３、コンテンツ２の順に合計時間が長いという結果が得られると、コンテンツ１、コンテンツ３、コンテンツ２の順に順位が設定される。そして、この順で、ユーザ側に提示される。

ルール４として、コンテンツに含まれる各シーンの合計時間が、各コンテンツに占める割合を算出し、その割合が高い順に順番が設定される。図５に示した例では、コンテンツ１乃至３の長さは同一であるとして説明しているが、実際には異なる場合が多い。よって、ルール３のように、コンテンツに含まれる各シーンの合計時間から、提示する順番を設定しても良いが、さらに合計時間がコンテンツに占める割合を算出し、その値が高い順に順位を設定するようにしても良い。ルール４により順位が設定された場合、仮に、図５に示すように、コンテンツ１乃至３の長さが同一であったようなときには、コンテンツ１、コンテンツ３、コンテンツ２の順に順位が設定される。そして、この順で、ユーザ側に提示される。

ルール５として、シーン検索部２７で、シーンを検索するとき、適合度などの数値を算出しているような場合、その数値が用いられて順位が設定される。例えば、コンテンツに含まれる各シーンの適合度の合計値が高い順に、順位が設定されるようにしたり、適合度の高いシーンを含む順に、順位が設定されたりするようにしても良い。

ここでは、ルール１乃至５を例示したが、他のルールを設けても良い。また、検索結果集約部２８が順位を設定するとき、ルール１乃至５のうちのいずれか１つのルールに基づいて順位を設定しても良いし、複数のルールを組み合わせて順位を設定するようにしても良い。

図４に示したフローチャートの説明に戻り、ステップＳ３３において、検索結果が集約されると、ステップＳ３４において、検索結果表示制御部２９は、検索結果集約部２８からの情報に基づき、表示装置１２を制御し、検索結果をユーザ側に提示する。

このような処理が行われることで、ユーザに、ユーザが所望としたシーンを含むコンテンツが、ユーザにとって最も意味のある、まとまりのあるかたちで提示される。このような提示が行われることで、ユーザにシーン単位で検索が行われているにも関わらず、そのことを意識させることになく、検索結果を提示させることが可能となる。

シーン単位で検索することで、コンテンツそのものを検索の単位として検索するよりも、精度の高いコンテンツの検索サービスを提供できるようになるが、そのようなシーン単位で検索が行われていることをユーザに意識させずに、精度の高い検索サービスを提供することが可能となる。

ユーザは、表示装置１２に表示されている検索結果を参照し、所望のコンテンツを再生させることができるように構成されている。このような場合、ステップＳ３５において、再生が指示されたか否かが判断される。再生が指示された場合、再生指示部３１により、ユーザからの指示が入力されるため、そのような入力があったか否かが判断されることにより、ステップＳ３５の処理を実行することが可能である。

ステップＳ３５において、再生の指示はなかったと判断された場合、例えば、ユーザにより新たな検索が指示された場合や、終了が指示された場合など、図４に示したフローチャートの処理は終了される。

一方、ステップＳ３５において、再生が指示されたと判断された場合、ステップＳ３６に処理が進められ、コンテンツの再生が実行される。まず、ユーザにより選択され、再生が指示されたコンテンツが特定される。再生指示部３１は、ユーザからの再生の指示を受けた場合、再生表示制御部３０に再生が指示されたことを通知し、再生が指示されたコンテンツを特定するための情報、例えば、再生が指示されたコンテンツ名（情報）が表示されていた表示装置１２上の座標などの情報を供給する。

再生表示制御部３０は、再生の指示がされたことに関する通知を受けると、供給された情報を基に、再生が指示されたコンテンツを特定する。例えば、供給された座標に関する情報と、検索結果表示制御部２９からの情報を付き合わせることで、再生が指示されたコンテンツを特定する。

コンテンツが特定されると、再生表示制御部３０は、特定されたコンテンツのコンテンツデータ５１を、シーン記憶部２５から読み出す。なお、シーン記憶部２５にコンテンツデータ５１そのものが記憶されている場合には、そのコンテンツデータ５１が読み出されるが、コンテンツデータ５１が、例えば、アドレスなどの情報であった場合、そのアドレスに基づき、インターネットなどを介してコンテンツデータが取得される。

再生表示制御部３０は、取得したコンテンツデータ５１に基づいて、表示装置１２を制御し、ユーザが再生を所望したコンテンツを提供する。このようにして、ユーザが所望したコンテンツが提供される。

コンテンツが再生されるとき、そのコンテンツの最初から再生が開始されても良いし、例えば、ユーザの指示した位置から再生されるようにしても良い。また、検索された複数のシーンがダイジェストで再生されるなどの仕組みを設けても良い。

このように本発明によれば、シーン単位でコンテンツに付与された特徴量やアノテーションデータを用いて精度の高いシーン検索を行いつつ、その結果をユーザにとって最も意味的なまとまりのある映像コンテンツ単位で提示することが可能になる。結果として、ユーザにシーン単位で検索が行われていることを意識させない、精度の高い映像コンテンツ検索サービスを提供することが可能になる。

なお、上記した実施の形態においては、シーン記憶部２５にシーン情報５２が記憶された後、検索が行われるとして説明したが、検索が指示されたときに、コンテンツから特徴量が抽出され、シーンが抽出され、検索が行われるといった一例の処理が行われるようにしても良い。

上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図６は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータのハードウェアの構成の例を示すブロック図である。

コンピュータにおいて、ＣＰＵ（Central Processing Unit）１０１、ＲＯＭ（Read Only Memory）１０２、ＲＡＭ（Random Access Memory）１０３は、バス１０４により相互に接続されている。

バス１０４には、さらに、入出力インターフェース１０５が接続されている。入出力インターフェース１０５には、キーボード、マウス、マイクロホンなどよりなる入力部１０１０、ディスプレイ、スピーカなどよりなる出力部１０７、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリなどのリムーバブルメディア１１１を駆動するドライブ１１０が接続されている。

以上のように構成されるコンピュータでは、ＣＰＵ１０１が、例えば、記憶部１０８に記憶されているプログラムを、入出力インターフェース１０５およびバス１０４を介して、ＲＡＭ１０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU１０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア１１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア１１１をドライブ１１０に装着することにより、入出力インターフェース１０５を介して、記憶部１０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１０９で受信し、記憶部１０８にインストールすることができる。その他、プログラムは、ＲＯＭ１０２や記憶部１０８に、予めインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

本発明を適用した情報処理装置の一実施の形態の構成を示す図である。シーン記憶部に記憶されているデータについて説明するための図である。シーン情報の蓄積の処理について説明するためのフローチャートである。シーン検索の処理について説明するためのフローチャートである。検索結果の順位の設定の仕方について説明するための図である。記録媒体について説明するための図である。

符号の説明

１１情報処理装置，１２表示装置，２１コンテンツ取得部，２２特徴量抽出部，２３特徴量記憶部，２４シーン抽出部，２５シーン記憶部，２６検索方法指示部，２７シーン検索部，２８検索結果集約部，２９検索結果表示制御部，３０再生表示制御部，３１再生指示部

Claims

コンテンツから特徴量を抽出する特徴抽出手段と、
前記特徴量抽出手段により抽出された特徴量を用いて、前記コンテンツから所定のシーンを抽出する抽出手段と、
コンテンツを検索するための情報を取得する取得手段と、
前記取得手段で取得された前記情報に該当するシーンを、前記抽出手段で抽出されたシーンを対象とし、シーン単位で検索を行う検索手段と、
前記検索手段により検索されたシーンを含むコンテンツを、検索結果として提示する提示手段と
を備える情報処理装置。
前記提示手段は、複数のコンテンツを提示する場合、各コンテンツに含まれる前記検出手段で検出されたシーンの個数が多い順に順位を設定し、提示する
請求項１に記載の情報処理装置。
前記提示手段は、複数のコンテンツを提示する場合、各コンテンツに含まれる前記検出手段で検出されたシーンの総合計時間が多い順に順位を設定し、提示する
請求項１に記載の情報処理装置。
前記提示手段は、複数のコンテンツを提示する場合、各コンテンツに含まれる前記検出手段で検出されたシーンの総合計時間の前記コンテンツに占める割合が高い順に順位を設定し、提示する
請求項１に記載の情報処理装置。
前記提示手段は、複数のコンテンツを提示する場合、各コンテンツに含まれる前記検出手段で検出されたシーンの適合度が高い順に順位を設定し、提示する
請求項１に記載の情報処理装置。
コンテンツから特徴量を抽出し、
抽出された特徴量を用いて、前記コンテンツから所定のシーンを抽出し、
コンテンツを検索するための情報を取得し、
取得された前記情報に該当するシーンを、抽出されたシーンを対象とし、シーン単位で検索を行い、
検索されたシーンを含むコンテンツを、検索結果として提示する
ステップを含む情報処理方法。
コンテンツから特徴量を抽出し、
抽出された特徴量を用いて、前記コンテンツから所定のシーンを抽出し、
コンテンツを検索するための情報を取得し、
取得された前記情報に該当するシーンを、抽出されたシーンを対象とし、シーン単位で検索を行い、
検索されたシーンを含むコンテンツを、検索結果として提示する
ステップを含む処理をコンピュータに実行させるプログラム。
コンテンツから特徴量を抽出し、
抽出された特徴量を用いて、前記コンテンツから所定のシーンを抽出し、
コンテンツを検索するための情報を取得し、
取得された前記情報に該当するシーンを、抽出されたシーンを対象とし、シーン単位で検索を行い、
検索されたシーンを含むコンテンツを、検索結果として提示する
ステップを含むコンピュータが読み取り可能なプログラムが記録されている記録媒体。