JP4683031B2

JP4683031B2 - 電子機器、コンテンツ分類方法及びそのプログラム

Info

Publication number: JP4683031B2
Application number: JP2007270643A
Authority: JP
Inventors: 昇村林; 裕成岡本
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-10-17
Filing date: 2007-10-17
Publication date: 2011-05-11
Anticipated expiration: 2027-10-17
Also published as: CN101414302A; US8184947B2; JP2009100314A; US20090103888A1

Description

本発明は、複数の映像コンテンツを分類することが可能な電子機器、当該電子機器におけるコンテンツ分類方法及びプログラムに関する。

近年、大容量の記録媒体を有する電子機器が普及し、当該電子機器に様々な映像コンテンツを蓄積できるようになった。また、インターネットの普及により、複数のユーザが画像や映像コンテンツをＷｅｂサイト上に投稿し、ダウンロードして再生を楽しむようなことも可能となった。

ところで、このような大量の映像コンテンツの内容は多岐に渡っている。ある程度のジャンル分類が可能なＷｅｂサイト等も存在しているが、その分類は十分でない。したがって、ユーザは、所望の映像コンテンツを大量の選択肢から選択してダウンロードする必要があるが、ダウンロード後にその映像コンテンツがユーザにとって退屈なものであったことに気づくような場合もあり、効率的に再生を楽しめる状況にあるとは言い難い。

そこで、映像コンテンツを分類するための技術として、下記特許文献１には、映像コンテンツを、各映像コンテンツを構成する画像の色のヒストグラムや、各映像コンテンツを構成する音声の波形及び周波数特性に応じて分類するための属性テーブルを格納し、当該属性テーブルを基に各映像コンテンツを分類することが可能な装置が記載されている。
特開２００３−６１０２７号公報（図５等）

しかしながら、上記特許文献１に記載の技術においては、分類対象の映像コンテンツの属性と色や音声をマッチングするための属性テーブルのデータ量が膨大となり、装置の負荷が大きくなってしまう。また、色や音声のみでは、装置が内容の全く異なる映像コンテンツを同じ分類に誤って分類してしまう可能性もある。更に、装置が映像コンテンツを色や音声で分類しても、その分類に属する映像コンテンツがどのような内容の映像コンテンツであるかをユーザに効果的に提示することができない。

ところで、ユーザによっては、映像コンテンツを選択して視聴する際、高揚した気分、落ち着いた気分等、ユーザの気分をその指標とすることも考えられる。例えば、高揚した気分の場合には、動きの激しい、またはスピード感のある映像コンテンツの視聴を所望するユーザもいれば、落ち着いた気分、穏やかな気分の場合には、動きの少ない、ゆったりとした映像コンテンツの視聴を所望するユーザもいる。また、落ち込んだ気分の場合やストレスを感じている場合に、自らを元気付けたり、ストレスを発散させたりするために、動きの激しい映像コンテンツの視聴を所望するユーザもいれば、逆に穏やかなコンテンツを視聴して自らを癒したいと考えるユーザもいる。したがって、ユーザの気分に応じて映像コンテンツを選択できるように映像コンテンツを分類する技術が求められている。

以上のような事情に鑑み、本発明の目的は、大量の映像コンテンツを、ユーザが気分に応じて選択して楽しめるように適切に分類することが可能な電子機器、コンテンツ分類方法及びそのプログラムを提供することにある。

上述の課題を解決するため、本発明の主たる観点に係る電子機器は、それぞれ複数のフレームで構成される複数の映像コンテンツの各フレームをそれぞれ比較して、当該各映像コンテンツ中から、カメラ動作または映像編集により生じる映像特徴を検出する検出手段と、前記検出された映像特徴を基に、前記各映像コンテンツに含まれる映像の視覚的な活性度をそれぞれ判定し、当該判定された各活性度を基に、前記各映像コンテンツを分類する分類手段とを具備する。

ここで電子機器とは、例えばＨＤＤ／ＤＶＤ／ＢＤレコーダ等の記録再生装置、ＰＣ、サーバ装置、テレビジョン装置、ゲーム機器、デジタルカメラ、デジタルビデオカメラ、携帯電話機等の各種電化製品である。また、上記映像特徴とは、例えばパン、チルト、ズーム等のカメラ動作により生じる映像特徴や、フェード、カット等の映像編集により生じる映像特徴等である。また、視覚的な活性度とは、例えば各映像コンテンツ中の物体（人や物）の動きの大きさやスピードの度合い、シーンの切り替わりの頻度等を「活性（活発さ、アクティビティ）」として捉え、各映像コンテンツにおける当該活性の度合いを示したものをいう。また、ここで「分類する」とは、各映像コンテンツを複数のグループに（離散的に）分けるという概念のみならず、各映像コンテンツを活性度に応じて区別できる状態にするという概念も含むものとする。

この構成により、各映像コンテンツを、視覚的な活性度に応じて分類することができるため、ユーザは、大量の映像コンテンツから、当該視覚的な活性度を指標にして、例えば高揚した気分、落ち着いた気分等、気分に応じて所望のコンテンツを選択して視聴することができ、利便性が向上する。

上記電子機器において、前記検出手段は、複数種類の前記映像特徴を検出可能であり、前記分類手段は、前記各種類の映像特徴のうち、前記活性度の判定の基準にすべき少なくとも１種類の映像特徴を選択する選択手段と、前記選択された映像特徴を基に、前記各映像コンテンツの前記活性度を判定する判定手段とを有していてもよい。

これにより、複数の映像特徴から、活性度を判定する基準となる映像特徴を選択することで、上記活性度をより精度よく判定し、各コンテンツをより精度よく分類することができる。

上記電子機器において、前記選択手段は、前記各映像コンテンツのうち第１の映像コンテンツを、前記各種類の映像特徴毎に所定数の集合に分類し、分類された各集合に含まれる前記第１の映像コンテンツの数の比を基に、前記選択すべき映像特徴を学習する学習手段を有し、前記判定手段は、前記選択された映像特徴を基に、前記各映像コンテンツのうち、前記第１の映像コンテンツ以外の第２の映像コンテンツの前記活性度を判定するようにしてもよい。

これにより、第１の映像コンテンツが複数の集合に偏りなく分類されたか否かを判断することで、第２の映像コンテンツの上記活性度の判定に利用すべき最適な映像特徴を学習することができ、上記活性度の判定の精度をより向上させることができる。なお、上記学習手段としては、例えばK-means法やファジーC-means法等のデータ・クラスタリング手法や決定木等による分類手法を用いることができる。

上記電子機器において、前記検出手段は、前記各映像特徴を所定の特徴値として検出し、前記判定手段は、前記学習の結果選択された映像特徴の前記特徴値を変数として、前記第２の映像コンテンツを、前記活性度の高い映像コンテンツと前記活性度の低い映像コンテンツとに判別するための所定の判別関数を生成し、当該判別関数の値を基に前記活性度を判定するようにしても構わない。

これにより、生成された判別関数を用いた判別分析を行うことにより、上記活性度を、上記判別関数の値としてアナログ的に算出することができるため、映像コンテンツをより細かく分類し、ユーザの選択の幅を広げることができる。

また、この場合、前記判定手段は、前記判別関数の値が正負のいずれの値か、及び前記判別関数の値の絶対値が少なくとも１つの所定の閾値を超えるか否かに応じて前記第２の映像コンテンツを複数のレベルに分類してもよい。

これにより、上記学習手段において分類された集合の数に関わらず、各映像コンテンツを段階的に分類することができる。

上記電子機器は、前記各映像コンテンツを前記判定された活性度とともに記憶する記憶手段と、前記記憶された各映像コンテンツの再生を入力させるためのコンテンツリストを、前記判定された各映像コンテンツの各活性度を識別する識別情報とともに表示するよう制御する表示制御手段とを更に具備していてもよい。

これにより、ユーザは、上記各活性度を示す識別情報を指標としてコンテンツリスト中から所望の映像コンテンツを選択して再生させることができる。なお、「表示するよう制御する」とは、当該電子機器が、上記コンテンツリストを、当該電子機器が有する表示部に表示させる場合のみならず、当該電子機器に外部接続された表示装置に表示させる場合も含む概念である。また、当該電子機器をＷｅｂサーバとして構成した場合には、上記「表示するよう制御する」処理は、当該Ｗｅｂサーバに接続されたＰＣ等のクライアント機器が実行するブラウザ上で上記コンテンツリストを表示させるようＷｅｂページを送信する処理も含む。更に、当該電子機器がＷｅｂサーバとして機能する場合には、ユーザ側のＰＣ等の機器にインストールされたブラウザにより、当該ユーザの機器が有する、または当該機器に接続された表示装置に上記コンテンツリストを表示させる場合も含む。また識別情報とは、画像情報や文字情報等である。また、上記コンテンツリストは、各映像コンテンツのサムネイル画像のリストとして表示されても構わない。

この場合、前記表示制御手段は、前記識別情報として、前記各活性度に応じた数の所定の記号を表示するよう制御してもよい。

ここで所定の記号とは、例えば星形、円形、矩形等のあらゆる形状の記号である。これにより、上記各映像コンテンツの活性度をユーザに分かりやすく提示することができる。

またこの場合、前記表示制御手段は、前記識別情報として、最大活性度に対する各活性度の割合を示す画像を表示させるよう制御してもよい。

ここで、上記割合を示す画像は、例えば棒グラフ状や円グラフ状に表示される。これにより、各映像コンテンツの活性度をより細かく提示することができる。

更に、前記表示制御手段は、前記識別情報として、各映像コンテンツを再生可能に示すサムネイル画像を、前記活性度に応じてその明暗を変更して表示するよう制御しても構わない。

この場合、活性度の高い映像コンテンツのサムネイル画像ほど明るく表示させてもよいし、活性度の低い映像コンテンツのサムネイル画像ほど明るく表示させてもよい。また、サムネイル画像の枠部分の色を活性度に応じて変更すること等により活性度を示しても構わない。

また、上記電子機器は、前記判定された活性度を基に前記映像コンテンツを検索する検索手段を更に具備し、前記表示制御手段は、前記検索の結果として、所定の活性度を有する前記映像コンテンツの前記コンテンツリスト及び識別情報を表示するよう制御しても構わない。

これにより、活性度を検索条件として各映像コンテンツを検索することができる。例えば、ユーザに活性度を選択させて、当該活性度に応じた映像コンテンツを抽出して表示することができる。

本発明の他の観点に係るコンテンツ分類方法は、複数のフレームで構成される複数の映像コンテンツの各フレームをそれぞれ比較して、当該各映像コンテンツ中から、カメラ動作または映像編集により生じる映像特徴を検出し、前記検出された映像特徴を基に、前記各映像コンテンツに含まれる映像の視覚的な活性度をそれぞれ判定し、当該判定された各活性度を基に、前記各映像コンテンツを分類するものである。

本発明の更に別の観点に係るプログラムは、電子機器に、複数のフレームで構成される複数の映像コンテンツの各フレームをそれぞれ比較して、当該各映像コンテンツ中から、カメラ動作または映像編集により生じる映像特徴を検出するステップと、前記検出された映像特徴を基に、前記各映像コンテンツに含まれる映像の視覚的な活性度をそれぞれ判定し、当該判定された各活性度を基に、前記各映像コンテンツを分類するステップとを実行させるためのものである。

以上のように、本発明によれば、大量の映像コンテンツを、ユーザの気分に応じて選択可能なように適切に分類することができる。

以下、本発明の実施の形態を図面に基づき説明する。

図１は、本発明の一実施形態に係る記録再生装置１００の構成を示した図である。
同図に示すように、記録再生装置１００は、ＣＰＵ（Central Processing Unit）１、ＲＡＭ（Random Access Memory）２、操作入力部３、映像特徴検出部４、クラスタリング処理部２０、アクティビティ判定部４０、デジタルチューナ５、IEEE1394インタフェース６、Ethernet（登録商標）／無線ＬＡＮ（Local Area Network）インタフェース７、ＵＳＢ（Universal Serial Bus）インタフェース８、メモリカードインタフェース９、ＨＤＤ１０、光ディスクドライブ１１、バッファコントローラ１３、セレクタ１４、デマルチプレクサ１５、ＡＶ（Audio/Video）デコーダ１６、ＯＳＤ（On Screen Display）１７、映像Ｄ／Ａ（Digital/Analog）コンバータ１８及び音声Ｄ／Ａコンバータ１９を有している。

ＣＰＵ１は、必要に応じてＲＡＭ２等に適宜アクセスし、記録再生装置１００の各ブロック全体を制御する。ＲＡＭ２は、ＣＰＵ１の作業用領域等として用いられ、ＯＳ（Operating System）やプログラム、処理データ等を一時的に保持するメモリである。

操作入力部３は、ボタン、スイッチ、キー、タッチパネルや、リモートコントローラ（図示せず）から送信される赤外線信号の受光部等で構成され、ユーザの操作による各種設定値や指令を入力してＣＰＵ１へ出力する。

デジタルチューナ５は、ＣＰＵ１の制御に従って、図示しないアンテナを介してデジタル放送の放送番組の放送信号を受信し、特定のチャンネルの放送信号を選局及び復調する。この放送信号は、セレクタ１４を介してデマルチプレクサ１５に出力され再生させたり、バッファコントローラ１３を介して、ＨＤＤ１０に記録されたり、光ディスクドライブ１１に挿入された光ディスク１２へ記録されたりする。

IEEE1394インタフェース６は、例えばデジタルビデオカメラ等の外部機器に接続可能である。例えばデジタルビデオカメラによって撮影され記録された映像コンテンツは、上記デジタルチューナ５によって受信された放送番組の映像コンテンツと同様に、再生されたり、ＨＤＤ１０や光ディスク１２へ記録されたりする。

Ethernet（登録商標）／無線ＬＡＮインタフェース７は、例えばＰＣや他の記録再生装置に記録された映像コンテンツを、Ethernet（登録商標）または無線ＬＡＮ経由で入力する。この映像コンテンツも、再生や、ＨＤＤ１０または光ディスク１２への記録が可能である。

ＵＳＢインタフェース８は、ＵＳＢを介して例えばデジタルカメラ等の機器やいわゆるＵＳＢメモリ等の外部記憶装置から映像コンテンツを入力する。この映像コンテンツも、再生や、ＨＤＤ１０または光ディスク１２への記録が可能である。

メモリカードインタフェース９は、例えばフラッシュメモリを内蔵したメモリカードと接続して、当該メモリカードに記録された映像コンテンツを入力する。この映像コンテンツも、再生や、ＨＤＤ１０または光ディスク１２への記録が可能である。

ＨＤＤ１０は、放送信号として受信したまたは外部機器から入力した各種映像コンテンツを内蔵のハードディスクに記録し、また再生時にはそれらを当該ハードディスクから読み出し、バッファコントローラ１３へ出力する。またＨＤＤ１０は、ＯＳや、後述する映像コンテンツからの映像特徴の検出処理、クラスタリング処理及びアクティビティ判定処理を実行するためのプログラム、その他の各種プログラム及びデータ等も格納する。なお、記録再生装置１００は、これらＯＳや各種プログラム及びデータを、ＨＤＤ１０ではなく、フラッシュメモリ（図示せず）等の他の記録媒体に格納するようにしてもよい。

光ディスクドライブ１１は、上記映像コンテンツ等を光ディスク１２に記録し、また再生時にはそれらを読み出し、バッファコントローラ１３へ出力する。光ディスク１２は、例えばＤＶＤ、ＢＤ、ＣＤ等である。

バッファコントローラ１３は、例えば上記デジタルチューナ５やその他の各種インタフェースから連続的に供給される映像コンテンツの、ＨＤＤ１０または光ディスク１２への書き込みのタイミングやデータ量を制御し、当該映像コンテンツを断続的に書き込む。また、バッファコントローラ１３は、ＨＤＤ１０や光ディスク１２に記録された映像コンテンツの読み出しのタイミングやデータ量を制御し、断続的に読み出された映像コンテンツを、デマルチプレクサ１５へ連続的に供給する。

セレクタ１４は、上記デジタルチューナ５、各種インタフェース、ＨＤＤ１０及び光ディスクドライブ１１のいずれかから入力される映像コンテンツを、ＣＰＵ１からの制御信号に基づき選択する。

デマルチプレクサ１５は、前記バッファコントローラ１３から入力された、多重化された映像コンテンツを、映像信号と音声信号とに分離して、それらをＡＶデコーダ１６へ出力する。

ＡＶデコーダ１６は、例えばＭＰＥＧ（Moving Picture Expert Group）−２やＭＰＥＧ−４等の形式でエンコードされた映像信号及び音声信号をそれぞれデコードして、映像信号をＯＳＤ１７へ、また音声信号を音声Ｄ／Ａコンバータ１９へ出力する。

ＯＳＤ１７は、図示しないディスプレイに表示するためのグラフィックス等を生成して、上記映像信号との合成処理や切り替え処理を施し、処理後の映像信号を映像Ｄ／Ａコンバータ１８へ出力する。映像Ｄ／Ａコンバータ１８は、ＯＳＤ１７でグラフィック処理を施された映像信号をＤ／Ａ変換によりＮＴＳＣ（National Television Standards Committee）信号とし、図示しないディスプレイに出力して表示させる。

音声Ｄ／Ａコンバータ１９は、上記ＡＶデコーダ１６から入力された音声信号をＤ／Ａ変換して、図示しないスピーカに出力して再生させる。

映像特徴検出部４は、ＡＶデコーダ１６によるデコード前の映像信号、または、デコード後の映像信号から、映像特徴を検出する。

クラスタリング処理部２０は、上記映像特徴が検出された各映像コンテンツのうち、学習用の映像コンテンツを、当該映像特徴を基に所定数のクラスタに分類する。このクラスタリング処理の詳細については後述する。

アクティビティ判定部４０は、上記学習結果、すなわちクラスタリング処理の結果を基に、各映像コンテンツの視覚的なアクティビティ（活性度）を判定する。ここでアクティビティとは、例えば各映像コンテンツ中の物体（人や物）の動きの大きさやスピードの度合い、シーンの切り替わりの頻度等を「活性（活発さ、アクティビティ）」として捉え、各映像コンテンツにおける当該活性の度合いを示したものをいう。このアクティビティ判定処理の詳細についても後述する。

図２及び図３は、上記映像特徴について説明した図である。
図２（ａ）では、シーンＳ１〜Ｓ６へ進むに従ってカメラを左方向または右方向へ移動（パン）させて撮影した映像が示されている。図２（ｂ）では、シーンＳ１〜Ｓ６へ進むに従ってカメラをズーム（ズームイン）させて撮影した映像が示されている。本実施形態では、このようなパン、チルト（図示せず）、ズームといった、カメラワークにより生じる映像特徴をカメラ動作系特徴と称する。

図３（ａ）では、シーンＳ３とＳ４との間のカット点ｆａにてシーンが切り替わる様子が示されている。図３（ｂ）では、シーンＳ１〜シーンＳ３へ進むに従って１つのシーンが徐々にフェードアウトし、代わってシーンＳ４〜シーンＳ６へ進むに従って別のシーンが徐々にフェードインしている様子が示されている。本実施形態では、このようなカット、フェード等の映像効果のように、映像の編集作業により生じる映像特徴を映像編集系特徴と称する。

映像特徴検出部４は、このようなカメラ動作系特徴及び映像編集系特徴を、後述する共通の信号処理系により検出する。そして、上記クラスタリング処理部２０及びアクティビティ判定部４０は、検出した各映像特徴を用いて、各映像コンテンツのアクティビティを判定し、当該アクティビティに応じて各映像コンテンツを分類する。なお、記録再生装置１００は、当該映像特徴を用いて、例えばハイライトシーン生成、チャプタ生成等の処理を行うことも可能である。

図４は、上記カメラ動作系特徴について概念的に示した図である。
同図（ａ）は左パンを示しており、この場合、映像中の物体は右方向へ移動する。
同図（ｂ）は右パンを示しており、この場合、映像中の物体は左方向へ移動する。
同図（ｃ）は下チルトを示しており、この場合、映像中の物体は上方向へ移動する。
同図（ｄ）は上チルトを示しており、この場合、映像中の物体は下方向へ移動する。
同図（ｅ）はズームインを示しており、この場合、映像中の物体は拡大する。
同図（ｆ）はズームアウトを示しており、この場合、映像中の物体は縮小する。

図５は、ズーム時の画像の変化量を概念的に示した図である。
映像コンテンツからカメラ動作系特徴を検出するには、映像コンテンツ中からブロックマッチングにより動きベクトルを検出する必要がある。しかし、上記図４に示すように、ズーム動作では、パン動作やチルト動作に比べて、動作中の画像の移動量が小さいため、その検出レベルも小さいと考えられる。したがって、従来のように１つのブロックによりブロックマッチングを行うと、ズームを検出できずに誤検出が発生する可能性がある。そこで、本実施形態においては、複数のブロックを組み合わせてブロックマッチングを行うことを考える。

ここで、図５の矢印ｄに示すように、ズームによる画像の変化は、放射状方向（斜め方向）における変化であるため、この変化量をＸＹ方向に射影した場合、その変化量（矢印ｘ及びｙ）はいずれも元の放射状方向の変化量に比べて小さくなる。したがって、１つのブロックと、そのＸまたはＹ方向の他のブロックとを組み合わせてブロックマッチングを行うよりは、放射状方向の他のブロックと組み合わせてブロックマッチングを行う方が、マッチングの誤検出が改善されると考えられる。よって、本実施形態においては、映像特徴検出部４は、放射状方向のブロックを組み合わせてブロックマッチングを行う。この具体的処理については後述する。

ところで、最近の家庭用ビデオカメラには、いわゆる手振れ補正機能が搭載されたものも多いが、手振れ補正機能によって補正できる補正量には限界があるため、家庭用ビデオカメラで撮影した映像コンテンツには、少なからず手振れ映像が含まれる可能性が高い。また実際に、本発明者等は、家庭用ビデオカメラで撮影した映像と、放送番組のようにスタジオで撮影した映像とを実験により比較したところ、両者では映像の動きベクトルの振動量が大きく異なることを確認した。

図６は、上記実験結果を基に、手振れ映像を概念的に示した図である。同図に示すように、手振れ映像では、フレーム単位で見ると、パンやチルトがランダムに発生していることが分かる。したがって、映像コンテンツ中の所定区間におけるパンやチルトの時系列的変化の挙動、すなわち、動きベクトルの時系列的変化の挙動を検出することで、手振れを検出することができる。

そして、手振れ映像の有無または頻度を検出することで、放映コンテンツを記録した映像コンテンツと、家庭用ビデオカメラで撮影した映像コンテンツとを区別することが可能となる。記録再生装置１００においては、多種多様なマルチメディアコンテンツを蓄積することが想定されるため、映像コンテンツを区別することは、その整理の際等において非常に有効であると考えられる。そこで、本実施形態において、映像特徴検出部４は、上記カメラ動作系特徴として、上記パン、チルト及びズームのほか、手振れを検出することとしている。この手振れ検出の具体的処理についても後述する。

図７は、上記映像特徴検出部４の具体的構成を示したブロック図である。
同図に示すように、映像特徴検出部４は、画像処理部２１、１フレーム間メモリ部２２、１０フレーム間メモリ部２３、２０フレーム間メモリ部２４、３０フレーム間メモリ部２５、これらメモリ部毎のマッチング処理部２６、２８、３０及び３２、フェード／カット処理部２７、２９、３１及び３３、動きベクトル処理部３４、カメラ特徴判定部３６及びフェード／カット判定部３５を有する。

画像処理部２１は、上記ＡＶデコーダ１６によりデコードされた映像コンテンツの、各フレームのベースバンド帯域の画像データ（具体的には、輝度信号Ｙ、色差信号Ｃｂ及びＣｒ）をフレーム番号順に入力し、当該画像データを基に、動きベクトル検出の対象となる参照画像領域及び動きベクトル検出の基準となる位置（以下、基準位置と称する）の設定、動きベクトルの探索領域の設定、及びブロックマッチング処理の基準となるブロック（以下、基準ブロックと称する）の抽出等の処理を行う。これらの処理の詳細については後述する。

なお、ベースバンド帯域で処理を行うのは、記録再生装置１００で再生される映像コンテンツは、ＭＰＥＧデータのほか、デジタル記録したＤＶ（Digital Video）方式のデータ、あるいはアナログ記録したＶＨＳ（Video Home System）方式や８ｍｍ方式のデータ等、様々な方式の映像コンテンツが混在している場合が想定でき、これらの映像コンテンツからの映像特徴の抽出処理を、極力共通の信号処理系で行うためである。

１フレーム間メモリ部２２、１０フレーム間メモリ部２３、２０フレーム間メモリ部２４、３０フレーム間メモリ部２５は、上記基準ブロックを抽出したフレーム（以下、基準フレームと称する）からそれぞれ１フレーム間隔、１０フレーム間隔、２０フレーム間隔、３０フレーム間隔を置いた各フレームまでの各画像データとを蓄積する。勿論、フレーム間隔はこれらに限られるものではない。

マッチング処理部２６、２８、３０及び３２は、それぞれ、上記画像処理部２１から入力する基準フレームと、各フレーム間メモリ部２２〜２５から入力する各フレーム（以下、探索フレームと称する）の各探索領域間で、ブロックマッチング処理を行い、その結果を動きベクトル処理部３４へ出力する。ブロックマッチング処理では、探索フレーム内で、上記基準フレームの基準ブロックと同一形状のブロック（以下、探索ブロックと称する）を移動させながら、基準ブロックと探索ブロックとの類似度が最大となる位置を探索する。そして、各マッチング処理部２６、２８、３０及び３２は、上記基準位置から上記探索された位置までの動きベクトル量（すなわち、ｘ方向（水平方向）及びｙ方向（垂直方向）における各移動量及び移動方向）を動きベクトル処理部３４へ出力する。また、各マッチング処理部２６、２８、３０及び３２は、基準ブロックと探索ブロックとの間のＹ、Ｃｂ及びＣｒの残差値をそれぞれ各フェード／カット処理部２７、２９、３１及び３３へ出力する。これら処理の詳細についても後述する。

フェード／カット処理部２７、２９、３１及び３３は、それぞれ、上記各マッチング処理部２６、２８、３０及び３２から入力したマッチング後の各差分値を基に、フェード／カット評価値を生成し、フェード／カット判定部３５へ出力する。この処理の詳細についても後述する。

なお、フェード／カット処理部２７、２９、３１及び３３は、上記画像処理部２１から入力される上記基準ブロックと、各フレーム間メモリ部２２〜２５から入力される、上記ブロックマッチング処理に用いた各探索ブロックとの差分値を独自に算出するようにしても構わない。

動きベクトル処理部３４は、上記各マッチング処理部２６、２８、３０及び３２から入力されたブロックマッチング処理の結果としての上記動きベクトル量を基に、例えば４０フレーム等、３０フレーム以上フレーム間隔を置いた位置における動きベクトル量を推定し、その推定動きベクトル量をカメラ特徴判定部３６へ出力する。この処理の詳細についても後述する。

カメラ特徴判定部３６は、上記動きベクトル処理部３４から入力された推定動きベクトル量を基に、後述するアフィン変換モデルを用いた重回帰分析により、映像コンテンツ中のパン、チルト、ズーム及び手振れの各カメラ動作系特徴を判定し、判定結果をＣＰＵ１へ出力する。この処理の詳細についても後述する。

フェード／カット判定部３５は、上記各フェード／カット処理部２７、２９、３１及び３３から入力されたフェード／カット評価値を基に、映像コンテンツ中のフェードまたはカットの各映像編集系特徴を判定し、ＣＰＵ１へ出力する。

次に、以上のように構成された記録再生装置１００の動作について説明する。

図８は、記録再生装置１００が映像特徴を検出する際の処理の流れを示したフローチャートである。
同図に示すように、まず、映像特徴検出部４は、各映像特徴の検出フラグの初期設定を行う（ステップ４１）。検出フラグとは、映像コンテンツ中から、上記パン、チルト、ズーム及び手振れの各カメラ動作系特徴と、フェード及びカットの各映像編集系特徴とがそれぞれ検出されたことを示すフラグである。各映像特徴の検出フラグは、それぞれDpan、Dtilt、Dzoom、Dbure、Dfade及びDcutで表され、それぞれのフラグ値を０にすることで各初期設定が行われる。

続いて、映像特徴検出部４は、上記画像処理部２１、各フレーム間メモリ部２２〜２５及び各マッチング処理部２６、２８、３０及び３２、動きベクトル処理部３４により、映像コンテンツ中の動きベクトルを検出する（ステップ４２）。

ここで、この動きベクトル検出処理について詳述する。図９は、動きベクトル検出処理の流れを示したフローチャートである。

ところで、上述したように、動きベクトル検出処理は、上記基準フレームと所定フレーム間隔を置いた探索フレームとの間でそれぞれ探索領域を設定し、当該探索領域間でブロックマッチング処理を行うことで検出できる。しかし、例えば映像コンテンツを撮影したカメラの動きが早い場合には、上記フレーム間隔があまりに長いと、その間隔で映像の動きが頻繁に起きると想定できるため、検出分解能が低くなり、正確な動きベクトル検出ができなくなる。

また、カメラの動きが遅い場合に、上記フレーム間隔があまりに短いと、その間隔で検出される動きベクトルの検出値があまりに小さくなり、この場合も正確な動きベクトル検出ができなくなる。

上述したカメラの動きが早い場合には、上記基準ブロックが探索領域を超えて移動することも想定できる。しかし、検出過程で、探索範囲内であるか、探索範囲を超えたかを判断することはできない。

そこで、本実施形態においては、映像特徴検出部４は、各ブロックマッチングの検出点での移動量と、マッチングの残差値とから、探索の確からしさを推定し、確からしくないと判断できる場合には、その検出データは採用しないで、確からしい検出データのみを採用し、他のフレーム間隔のマッチングデータから、より長いフレーム間隔における推定動きベクトル量を推定する。そして、映像特徴検出部４は、この推定動きベクトル量を、映像特徴の検出に用いる動きベクトル量としている。

図９に示すように、まず、映像特徴検出部４は、上記確からしい検出データの数のカウンタ値ｍを０に設定する（ステップ９１）。カウンタ値ｍの詳細については後述する。

続いて、映像特徴検出部４は、画像処理部２１から入力された基準フレームと、上記各マッチング処理部２６、２８、３０及び３２により、上記各フレーム間メモリ部２２〜２５に記憶された探索フレームを用いて、１フレーム間隔、１０フレーム間隔、２０フレーム間隔及び３０フレーム間隔の各フレーム間隔における動きベクトル検出処理を行う（ステップ９２〜９５）。この各処理の詳細については後述する。

続いて、映像特徴検出部４は、上記動きベクトル処理部３４により、各フレーム間隔について検出した動きベクトルデータを基に、４０フレーム間隔における動きベクトルを推定し（ステップ９６）、この推定された動きベクトルデータを最終的な動きベクトルデータとしてカメラ特徴判定部３６へ出力する（ステップ９７）。この各処理の詳細についても後述する。

そして、映像特徴検出部４は、１つの映像コンテンツを構成する全てのフレームについて動きベクトルデータを出力したか否かを判断し、動きベクトルを検出すべきフレームがなくなるまで上記各ステップの処理を繰り返す（ステップ９８）。

図１０〜図１３は、上記図９のステップ９２〜９５に示した各フレーム間隔における動きベクトル検出処理の詳細を示したフローチャートである。まず、上記ステップ９２における１フレーム間隔での動きベクトル検出処理について説明する。

図１０に示すように、まず、画像処理部２１及びマッチング処理部２６は、基準フレームと、当該基準フレームから１フレーム間隔を置いた探索フレームとの間でブロックマッチング処理を行う（ステップ９２１）。

ここで、このブロックマッチング処理の詳細について説明する。図１４は、当該ブロックマッチング処理の流れを示したフローチャートである。

同図に示すように、まず、画像処理部２１は、基準フレームに参照画像領域及び探索領域を設定する（ステップ１０１）。図１５は、当該参照画像領域及び探索領域を設定する様子を示した図である。
同図に示すように、マッチング処理部２６は、元画像（Ｓ）である基準フレーム７１内に、動きベクトルの探索範囲を規定する探索領域７２を設定し、当該探索領域７２の内部に、動きベクトルの検出対象範囲として参照画像領域７３を設定する。

そして、マッチング処理部２６は、参照画像領域７３を例えば８×８＝６４個の領域７４に分割し、各領域の中心点を、動きベクトルの検出対象点Ｐｎ（ｎ＝０〜６３）として設定する。

なお、基準フレーム７１のサイズは例えば７２０×４８０（ピクセル）であるが、これに限られるものではない。また、元画像（Ｓ）を、上記基準フレーム７１の縮小画像としても構わない。例えば、基準フレーム７１が７２０×４８０（ピクセル）である場合、その１／４のサイズ（縦横各１／２）である３６０×２４０（ピクセル）の画像が元画像（ｓ）とされ、この内部に上記探索領域７２及び参照画像領域７３が設定される。これにより、後のブロックマッチング処理において、その精度を低下させることなく、各マッチング処理部２６、２８、３０及び３２の負荷を低減することが可能となる。

図１４に戻り、画像処理部２１は、動きベクトルの検出対象点Ｐｎをｎ＝０に設定し、当該Ｐ０についてのブロックマッチング処理の基準となる基準ブロックの設定を行う（ステップ１０２）。図１６は、この基準ブロックの設定方法を示した図である。

同図に示すように、画像処理部２１は、まず、上記基準フレーム７１の中心を原点Ｏ（０，０）とした場合の、検出対象点Ｐｎ（この場合Ｐ０）の座標（ｘｎ，ｙｎ）を取得する（ステップ１０３）。続いて、画像処理部２１は、所定の値ａｎを設定する（ステップ１０４）。このａｎは、例えば以下で設定される基準ブロックの１辺の長さの１／２とされる。ａｎの値は例えば４とされるが、これに限られるものではない。

続いて、画像処理部２１は、図１６（ａ）に示すように、基準フレーム７１上で関数：Ｆｎ（ｘ）＝ｋｎｘ（ｋｎ＝ｙｎ／ｘｎ）を想定し、上記設定した値ａｎを用いて、当該関数における以下の２つの座標を求める（ステップ１０５）。
Pn1(xn-an, Fn(xn-an))
Pn2(xn+an, Fn(xn+an))

続いて、画像処理部２１は、上記座標点Ｐｎ１を中心とする基準ブロックＢｎ１を設定し（ステップ１０６）、この基準ブロックＢｎ１をｓ×ｓの小ブロックｂｎ１に分割する（ステップ１０７）。

続いて、画像処理部２１は、上記座標点Ｐｎ２を中心とする基準ブロックＢｎ２を設定し（ステップ１０８）、この基準ブロックＢｎ１をｓ×ｓの小ブロックｂｎ２に分割する（ステップ１０９）。

図１６（ｂ）に示すように、ｓ＝４の場合、基準ブロックＢｎ１及びＢｎ２は、それぞれ小ブロックｂ０〜ｂ１５により構成され、また同図（ｃ）に示すように、各小ブロックｂｎ１及びｂｎ２は、例えば４つの画素データの平均値となっている。

ここで、この４つの画素データをそれぞれｄｎ１、ｄｎ２、ｄｎ３及びｄｎ４とすると、各小ブロックｂｎ１及びｂｎ２は、Ｙ、Ｃｂ及びＣｒの３次元のベクトルデータとして考えることができる。これらの各データ成分を_y、_cb及び_crの添え字を付けて表現すると、例えば小ブロックｂｎ１の各データ成分は次式で表現できる。
bn1_y = (dn1_y + dn2_y + dn3_y + dn4_y) / 4
bn1_cb = (dn1_cb + dn2_cb + dn3_cb + dn4_cb) /4
bn1_cr = (dn1_cr + dn2_cr + dn3_cr + dn4_cr) / 4

以上のように基準ブロックＢｎ１及びＢｎ２の設定が完了すると、各マッチング処理部２６、２８、３０及び３２による１フレーム間隔、１０フレーム間隔、２０フレーム間隔及び３０フレーム間隔でのブロックマッチング処理が開始される。なお、これ以降は、マッチング処理部２６による１フレーム間隔でのブロックマッチング処理を説明するが、他のマッチング処理部２８、３０及び３２による各フレーム間隔でのブロックマッチング処理も同様である。

マッチング処理部２６は、上記基準ブロックＢｎ１及びＢｎ２の各小ブロックｂｎ１及びｂｎ２に基づいて、ブロックマッチング処理を行う（ステップ１１０）。図１７は、このブロックマッチング処理の様子を示した図である。同図（ａ）は基準フレーム７１における基準ブロックＢｎ１及びＢｎ２（以下、２つの基準ブロックをまとめて基準ブロックＢｎとも称する）を示しており、同図（ｂ）は探索フレーム７５における探索ブロックＢｍ１及びＢｍ２（以下、２つの探索ブロックをまとめて探索ブロックＢｍとも称する）を示している。

これらの図に示すように、マッチング処理部２６は、上記基準フレーム７１から上記設定した２つの基準ブロックＢｎを抽出し、当該基準ブロックＢｎが、所定フレーム間隔（この場合１フレーム間隔）を置いた探索フレーム７５内のどの位置に移動したかを、パターンマッチングにより検出する。すなわち、探索ブロックＢｍを探索フレーム７５の上記探索領域７２内で１画素ずつ移動させていき、上記基準ブロックＢｎの各小ブロックｂｎの上記Ｙ、Ｃｂ及びＣｒの各データ成分の各ベクトル距離が最小となるような位置Ｐｍを検出する。上記基準フレーム７１の上記Ｐｎから検出位置Ｐｍまでの移動量Ｖｎ及び移動方向が動きベクトルＭＶとなる。また、マッチング処理部２６は、上記移動量とともに基準ブロックＢｎと探索ブロックＢｍとのマッチング後の残差値も算出する。

マッチング処理部２６は、検出対象点Ｐｎについての動きベクトル検出が終了すると、ｎをインクリメントし（ステップ１１２）、ｎがｎｍａｘ以上となるまで以上の処理を繰り返す（ステップ１１３）。本実施形態においては、ｎｍａｘはｎ＝６３である。

以上の処理により、基準ブロックＢｎ１及びＢｎ２は、基準フレーム７１の中心から放射状方向に設定されることになる。すなわち、各ブロックＢｎ１及びＢｎ２は、基準フレーム７１の中心を始点とする半直線上にそれぞれ中心を有するように設定される。このように、放射状方向にブロックを設定することで、上述したように、カメラ動作系特徴のうち、特にズームの動きベクトルの検出精度を格段に向上させることができる。また、２つのブロックを組み合わせてブロックマッチングを行うことで、従来のように１つのブロックによりブロックマッチングを行う場合に比べて、ズームのみならず、パンやチルトといったＸＹ方向における動きベクトルの検出精度も向上させることができる。

マッチング処理部２６と同様に、マッチング処理部２８、３０及び３２も、それぞれ１０フレーム間隔、２０フレーム間隔及び３０フレーム間隔の探索フレーム７５を用いて上記動きベクトルの検出を行う。

ここで、上述したように、本実施形態においては、映像特徴検出部４は、動きベクトルの検出精度を向上させるため、検出された動きベクトルが確からしくないと判断された場合には、その検出データは採用しないこととしている。以下、この処理の詳細な説明として、上記図１０に戻り、ステップ９２２からの処理を説明する。

上述したように、マッチング処理部２６は、動きベクトルを探索するための探索領域７２を設定するが、マッチング処理部２６は、検出精度向上のために、この探索領域７２とは別に、新たな探索範囲を設定する。この探索範囲は、検出対象点Ｐｎから例えばｘ及びｙ方向にそれぞれ±８画素とする。すなわち、検出位置Ｐｍが、検出対象点Ｐｎから＋方向または−方向に８未満で、かつ、上記マッチングの残差値が所定の閾値Ｅｔｈ未満であることを判定基準として、検出データが当該判定基準を超える場合には、その検出データは確からしくないデータとして、採用しないこととする。もちろん、探索範囲はこの数値に限られるものではない。

ここで、上記１フレーム間隔における動きベクトル検出でのｘ方向（水平方向）及びｙ方向（垂直方向）における移動量をそれぞれＶ１ｘｎ、Ｖ１ｙｎとし、残差値をＥ１ｎとする。

図１０に示すように、マッチング処理部２６は、１フレーム間のブロックマッチング処理により検出した移動量Ｖ１ｘｎ、Ｖ１ｙｎ及び残差値Ｅ１ｎを検出する（ステップ９２２）。そして、マッチング処理部２６は、上記判定基準により、
｜Ｖ１ｘｎ｜＜８、かつ、｜Ｖ１ｙｎ｜＜８、かつ、Ｅ１ｎ＜Ｅｔｈ
であるか否かを判断する（ステップ９２３、９２４）。上記各値が判定基準を満たす場合には、マッチング処理部２６は、便宜的な重み係数Ｋ１をＫ１＝１とし、上記確からしい検出データの数のカウンタ値ｍをｍ＝ｍ＋１とする（ステップ９２５）。また、上記各値が判定基準を満たさない場合には、マッチング処理部２６は、Ｋ１＝０とする（ステップ９２６）。そして、マッチング処理部２６は、上記検出した移動量Ｖ１ｘｎ、Ｖ１ｙｎ及び残差値Ｅ１ｎと共に、上記重み係数Ｋ１及びカウンタ値ｍを動きベクトル処理部３４へ出力する。

次に、１０フレーム間隔における動きベクトル検出処理のうち、ブロックマッチング処理後の処理を説明する。ここで、上記１０フレーム間隔における動きベクトル検出でのｘ方向（水平方向）及びｙ方向（垂直方向）における移動量をそれぞれＶ１０ｘｎ、Ｖ１０ｙｎとし、残差値をＥ１０ｎとする。

図１１に示すように、マッチング処理部２８は、１０フレーム間のブロックマッチング処理により検出した移動量Ｖ１０ｘｎ、Ｖ１０ｙｎ、及び残差値Ｅ１０ｎを検出する（ステップ９３２）。そして、マッチング処理部２８は、上記判定基準により、
｜Ｖ１０ｘｎ｜＜８、かつ、｜Ｖ１０ｙｎ｜＜８、かつ、Ｅ１０ｎ＜Ｅｔｈ
であるか否かを判断する（ステップ９３３、９３４）。上記各値が判定基準を満たす場合には、マッチング処理部２８は、便宜的な重み係数Ｋ１０をＫ１０＝１とし、上記確からしい検出データの数のカウンタ値ｍをｍ＝ｍ＋１とする（ステップ９３５）。また、上記各値が判定基準を満たさない場合には、マッチング処理部２８は、Ｋ１０＝０とする（ステップ９３６）。そして、マッチング処理部２８は、上記検出した移動量Ｖ１０ｘｎ、Ｖ１０ｙｎ及び残差値Ｅ１０ｎと共に、上記重み係数Ｋ１０及びカウンタ値ｍを動きベクトル処理部３４へ出力する。

次に、２０フレーム間隔における動きベクトル検出処理のうち、ブロックマッチング処理後の処理を説明する。ここで、上記２０フレーム間隔における動きベクトル検出でのｘ方向（水平方向）及びｙ方向（垂直方向）における移動量をそれぞれＶ２０ｘｎ、Ｖ２０ｙｎとし、残差値をＥ２０ｎとする。

図１２に示すように、マッチング処理部３０は、２０フレーム間のブロックマッチング処理により検出した移動量Ｖ２０ｘｎ、Ｖ２０ｙｎ、及び残差値Ｅ２０ｎを検出する（ステップ９４２）。そして、マッチング処理部３０は、上記判定基準により、
｜Ｖ２０ｘｎ｜＜８、かつ、｜Ｖ２０ｙｎ｜＜８、かつ、Ｅ２０ｎ＜Ｅｔｈ
であるか否かを判断する（ステップ９４３、９４４）。上記各値が判定基準を満たす場合には、マッチング処理部３０は、便宜的な重み係数Ｋ２０をＫ２０＝１とし、上記確からしい検出データの数のカウンタ値ｍをｍ＝ｍ＋１とする（ステップ９４５）。また、上記各値が判定基準を満たさない場合には、マッチング処理部３０は、Ｋ２０＝０とする（ステップ９４６）。そして、マッチング処理部３０は、上記検出した移動量Ｖ２０ｘｎ、Ｖ２０ｙｎ及び残差値Ｅ２０ｎと共に、上記重み係数Ｋ２０及びカウンタ値ｍを動きベクトル処理部３４へ出力する。

次に、３０フレーム間隔における動きベクトル検出処理のうち、ブロックマッチング処理後の処理を説明する。ここで、上記３０フレーム間隔における動きベクトル検出でのｘ方向（水平方向）及びｙ方向（垂直方向）における移動量をそれぞれＶ３０ｘｎ、Ｖ３０ｙｎとし、残差値をＥ３０ｎとする。

図１３に示すように、マッチング処理部３２は、３０フレーム間のブロックマッチング処理により検出した移動量Ｖ３０ｘｎ、Ｖ３０ｙｎ、及び残差値Ｅ３０ｎを検出する（ステップ９５２）。そして、マッチング処理部３２は、上記判定基準により、
｜Ｖ３０ｘｎ｜＜８、かつ、｜Ｖ３０ｙｎ｜＜８、かつ、Ｅ３０ｎ＜Ｅｔｈ
であるか否かを判断する（ステップ９５３、９５４）。上記各値が判定基準を満たす場合には、マッチング処理部３２は、便宜的な重み係数Ｋ３０をＫ３０＝１とし、上記確からしい検出データの数のカウンタ値ｍをｍ＝ｍ＋１とする（ステップ９５５）。また、上記各値が判定基準を満たさない場合には、マッチング処理部３２は、Ｋ３０＝０とする（ステップ９５６）。そして、マッチング処理部３２は、上記検出した移動量Ｖ３０ｘｎ、Ｖ３０ｙｎ及び残差値Ｅ３０ｎと共に、上記重み係数Ｋ３０及びカウンタ値ｍを動きベクトル処理部３４へ出力する。

次に、上記図９のステップ９６における、動きベクトル処理部３４による動きベクトル推定処理の詳細について説明する。図１８は、この動きベクトル推定処理の流れを示したフローチャートである。ここでは、４０フレーム間における動きベクトルを推定するために、各検出フレーム間隔と移動量とから、便宜的な勾配を求めることを考える。図１９は、この勾配について示した図である。

図１８に示すように、動きベクトル処理部３４は、まず、上記各マッチング処理部２６、２８、３０及び３２からそれぞれ入力されたカウンタ値ｍを合計し、その結果が１以上であるか否かを判断する（ステップ９６１）。カウンタ値の合計が１以上の場合（Ｙｅｓ）、動きベクトル処理部３４は、上記各フレーム間での動きベクトルの勾配を算出する（ステップ９６２）。

ここで、まず、１フレーム間隔をＬ１ｔとし、このＬ１ｔと上記移動量Ｖ１ｘｎとから、この１フレーム間隔における動きベクトルの勾配Ｔ１ｘｎを求める場合について説明する。
この検出フレーム間隔Ｌ１ｔは、基準フレーム７１間のｐｔｓ（Presentation Time Stamp）時間間隔ｐ０と、当該基準フレーム７１から１フレーム後の探索フレーム７５間のｐｔｓ時間間隔ｐ１ｔとの比として、次式で算出することができる。
Ｌ１ｔ＝ｐ１ｔ／ｐ０
これは、映像コンテンツによって、フレームレートが異なる場合が想定できることから、上記勾配を算出する場合に、１フレーム間隔の時間をいわば正規化するためである。
よって、ｘ方向における移動量についての勾配は、次式で求められる。
Ｔ１ｘｎ＝Ｖ１ｘｎ／Ｌ１ｔ
また、ｙ方向における移動量についての勾配は、次式で求められる。
Ｔ１ｙｎ＝Ｖ１ｙｎ／Ｌ１ｔ

同様に、１０フレーム間隔をＬ１０ｔとし、このＬ１０ｔと上記移動量Ｖ１０ｘｎとから、この１０フレーム間隔における動きベクトルの勾配Ｔ１０ｘｎを求める場合について説明する。
この検出フレーム間隔Ｌ１０ｔは、基準フレーム７１間のｐｔｓ時間間隔ｐ０と、当該基準フレーム７１から１０フレーム後の探索フレーム７５間のｐｔｓ時間間隔ｐ１０ｔとの比として、次式で算出することができる。
Ｌ１０ｔ＝ｐ１０ｔ／ｐ０
よって、ｘ方向における移動量についての勾配は、次式で求められる。
Ｔ１０ｘｎ＝Ｖ１０ｘｎ／Ｌ１０ｔ
また、ｙ方向における移動量についての勾配は、次式で求められる。
Ｔ１０ｙｎ＝Ｖ１０ｙｎ／Ｌ１０ｔ

同様に、２０フレーム間隔をＬ２０ｔとし、このＬ２０ｔと上記移動量Ｖ２０ｘｎとから、この２０フレーム間隔における動きベクトルの勾配Ｔ２０ｘｎを求める場合について説明する。
この検出フレーム間隔Ｌ２０ｔは、基準フレーム７１間のｐｔｓ時間間隔ｐ０と、当該基準フレーム７１から２０フレーム後の探索フレーム７５間のｐｔｓ時間間隔ｐ２０ｔとの比として、次式で算出することができる。
Ｌ２０ｔ＝ｐ２０ｔ／ｐ０
よって、ｘ方向における移動量についての勾配は、次式で求められる。
Ｔ２０ｘｎ＝Ｖ２０ｘｎ／Ｌ２０ｔ
また、ｙ方向における移動量についての勾配は、次式で求められる。
Ｔ２０ｙｎ＝Ｖ２０ｙｎ／Ｌ２０ｔ

同様に、３０フレーム間隔をＬ３０ｔとし、このＬ３０ｔと上記移動量Ｖ３０ｘｎとから、この３０フレーム間隔における動きベクトルの勾配Ｔ３０ｘｎを求める場合について説明する。
この検出フレーム間隔Ｌ３０ｔは、基準フレーム７１間のｐｔｓ時間間隔ｐ０と、当該基準フレーム７１から３０フレーム後の探索フレーム７５間のｐｔｓ時間間隔ｐ３０ｔとの比として、次式で算出することができる。
Ｌ３０ｔ＝ｐ３０ｔ／ｐ０
よって、ｘ方向における移動量についての勾配は、次式で求められる。
Ｔ３０ｘｎ＝Ｖ３０ｘｎ／Ｌ３０ｔ
また、ｙ方向における移動量についての勾配は、次式で求められる。
Ｔ３０ｙｎ＝Ｖ３０ｙｎ／Ｌ３０ｔ
以上から、ｘ方向及びｙ方向について、勾配の平均Tavex(n)及びTavey(n)は、上記重み係数の合計（Ｋ１＋Ｋ１０＋Ｋ２０＋Ｋ３０）＞０の場合、それぞれ次式で求めることができる。
Tavex(n)=(K1 T1xn + K10 T10xn + K20 T20xn + K30 T30xn) / (K1 + K10 + K20 + K30)
Tavey(n)=(K1 T1yn + K10 T10yn + K20 T20yn + K30 T30yn) / (K1 + K10 + K20 + K30)
また、（Ｋ１＋Ｋ１０＋Ｋ２０＋Ｋ３０）＝０の場合、Tavex(n)及びTavey(n)は、それぞれ次式の通りとなる。
Tavex(n)=0
Tavey(n)=0

次に、動きベクトル処理部３４は、上記算出した勾配平均を用いて、便宜的に４０フレーム間隔における動きベクトルを推定する（ステップ９６３）。具体的には、動きベクトル処理部３４は、上記算出した勾配平均に、フレーム間隔を乗算することで、上記図１９で示した等価的な移動量を算出することができる。すなわち、４０フレーム間隔における推定動きベクトル（推定移動量）は、ｘ方向、ｙ方向についてそれぞれ次式により求めることができる。
40×Tavex(n)
40×Tavey(n)
なお、この勾配の計算では、上記図１９に示したように原点を通る直線（ｙ＝ａｘ）を全てのフレーム間隔の場合で仮定しているため、勾配の算出値はあくまで近似的なものとなる。

動きベクトル処理部３４は、この推定動きベクトルを上記検出対象点Ｐｎにおける動きベクトルとしてカメラ特徴判定部３６へ出力する（図９のステップ９７）。また、上記ステップ９６１において、カウンタ値ｍの合計が０である場合には（Ｎｏ）、動きベクトル処理部３４は、動きベクトルは０に設定し（ステップ９６４）、カメラ特徴判定部３６へ出力する（図９のステップ９７）。この出力された動きベクトルが、後述する重回帰分析処理に用いられる。

以上のように、動きベクトルの検出にあたり、上記判定基準を設定して、当該判定基準を満たさない検出データ、すなわち確からしくない検出データを採用しないこととしたため、動きベクトル検出の精度をより向上させることができる。また、上記各フレーム間隔における動きベクトル検出データに基づいて、検出フレーム間隔よりも大きいフレーム間隔の動きベクトルを推定することで、検出データの範囲（ダイナミックレンジ）を広げることができ、単に検出データをスケーリングする場合に比べて、データの分解能を改善することができる。

図８に戻り、映像特徴検出部４は、上記動きベクトル処理部３４から出力された動きベクトルデータを基に、カメラ特徴判定部３６により、重回帰分析処理を行い（ステップ４３）、アフィン係数を算出する（ステップ４４）。ここで、この重回帰分析処理によりアフィン係数を算出するためのアフィン変換モデルについて説明する。

図２０は、アフィン変換モデルを示した図である。アフィン変換モデルは、３次元オブジェクトの平行移動、拡大／縮小、回転を、行列を用いた座標変換処理として記述するためのモデルである。上記パン、チルト、ズームといったカメラ動作系特徴は、上記基準フレーム７１内の物体の平行移動、拡大／縮小であると考えられるため、アフィン変換モデルを用いることで、カメラ動作系特徴を記述することが可能となる。

ここで、映像コンテンツにおいて、フレーム間隔が大きくない場合には、回転の特徴については、回転角θが小さいものとして、以下の近似処理を行うことができる。
ｓｉｎθ≒θ
ｃｏｓθ≒１

したがって、アフィン変換モデルは、図２０に示すように変形することができる。そして、上記検出した動きベクトルから、このアフィン変換モデルを用いて各係数を求めることで、カメラ動作系特徴を検出することができる。すなわち、パン、チルト、ズームに対して、所定の閾値Ｐｔｈ、Ｔｔｈ及びＺｔｈを設定しておき、上記検出された動きベクトルから処理した各アフィン係数と比較することで、各カメラ動作系特徴を検出することができる。

図２１は、重回帰分析によりアフィン係数を求める処理を示した図である。同図に示すように、カメラ特徴判定部３６は、説明変数を上記基準フレーム７１における検出対象点Ｐｎのｘ、ｙ座標（ｘｎ，ｙｎ）とし、被説明変数（目的変数）を、上記探索フレーム７５における動きベクトルの検出位置Ｐｍのｘ、ｙ座標（ｘｍ，ｙｍ）として、重回帰分析処理を行い、パン、チルト、ズームの各係数Ｐｘ、Ｐｙ、Ｚｘを求める（ステップ４４）。

図８に戻り、カメラ特徴判定部３６は、上記算出したアフィン係数のうち、パン係数Ｐｘを入力する（ステップ４５）。そして、カメラ特徴判定部３６は、当該Ｐｘが、上記閾値Ｐｔｈよりも大きいか否かを判定し（ステップ４６）、Ｐｔｈよりも大きい場合には（Ｙｅｓ）、パン検出フラグDpan＝１とし（ステップ４７）、Ｐｔｈ以下の場合には（Ｎｏ）、パン検出フラグDpan＝０とする（ステップ４８）。

続いて、カメラ特徴判定部３６は、上記算出したアフィン係数のうち、チルト係数Ｐｙを入力する（ステップ４９）。そして、カメラ特徴判定部３６は、当該Ｐｙが、上記閾値Ｔｔｈよりも大きいか否かを判定し（ステップ５０）、Ｔｔｈよりも大きい場合には（Ｙｅｓ）、チルト検出フラグDtilt＝１とし（ステップ５１）、Ｔｔｈ以下の場合には（Ｎｏ）、チルト検出フラグDtilt＝０とする（ステップ５２）。

続いて、カメラ特徴判定部３６は、上記算出したアフィン係数のうち、ズーム係数Ｚｘ及びＺｙを入力する（ステップ５３）。そして、カメラ特徴判定部３６は、当該ＺｘまたはＺｙが、上記閾値Ｚｔｈよりも大きいか否かを判定し（ステップ５４）、少なくとも一方がＺｔｈよりも大きい場合には（Ｙｅｓ）、ズーム検出フラグDzoom＝１とし（ステップ５５）、いずれもＺｔｈ以下の場合には（Ｎｏ）、ズーム検出フラグDzoom＝０とする（ステップ５６）。

なお、カメラ特徴判定部３６は、パン、チルト、ズームの各カメラ動作系特徴については、それぞれ左パン／右パン、左チルト／右チルト、ズームイン／ズームアウトをそれぞれ区別して検出するようにしても構わない。この区別は、アフィン係数の正負の符号を参照することで容易に行うことができる。

続いて、カメラ特徴判定部３６は、パン係数Ｐｘ及びチルト係数Ｐｙの時系列解析を行うことで、手振れを判定する（ステップ５７）。図２２は、手振れ判定処理について示した図である。

カメラ特徴判定部３６は、図２２に示すように、映像コンテンツ中の所定区間（ｔ０〜ｔ１、ｔ１〜ｔ２、ｔ２〜ｔ３、ｔ３〜ｔ４）毎のアフィン係数から算出した、パン係数Ｐｘ、チルト係数Ｐｙの分散と、所定区間の平均値レベルとの交差回数とで手振れを判定することができる。所定区間としては、例えば０．５秒〜５秒程度の時間長が設定される。

例えば、同図のｔ０〜ｔ１の区間においては、ＰｘまたはＰｙは、平均レベルの値と１２回交差している。カメラ特徴判定部３６は、この交差回数の閾値をＴｈｃｒとし、交差回数がＴｈｃｒより大きく、ＰｘまたはＰｙの上記各所定区間での分散値が所定の閾値Ｔｈｖより大きいか否かを判定する（ステップ５８）。

ここで、所定区間毎のＰｘ及びＰｙのデータ数をN、各データをPx(n)、Px(y)、それらの各平均値をPxave、Pyaveとすると、Ｐｘ、Ｐｙの分散値Pxvari、Pyvariは、それぞれ次式で求めることができる。
Pxvari = (1/N) Σ ((Pxave −Px(n))×(Pxave −Px(n)) )
Pyvari = (1/N) Σ ((Pyave −Py(n))×(Pyave −Py(n)) )

交差回数及び分散値がいずれも各閾値よりも大きい場合には（Ｙｅｓ）、カメラ特徴判定部３６は、上記所定区間の映像は手振れ映像であると判定して手振れ検出フラグDbure＝１とし（ステップ５９）、交差回数及び分散値の少なくとも一方が閾値以下の場合には（Ｎｏ）、手振れ検出フラグDbure＝０とする（ステップ６０）。

次に、映像特徴検出部４は、フェード及びカットの検出処理を行う。
まず、フェード／カット処理部２７、２９、３１及び３３の処理について説明する。

フェード／カット処理部２７、２９、３１及び３３は、それぞれ、上記各マッチング処理部２６、２８、３０及び３２から、マッチング処理後の各残差値Ｅ１ｎ、Ｅ１０ｎ、Ｅ２０ｎ及びＥ３０ｎを入力し、これらの各残差値を基に、フェード／カット評価値を生成し、フェード／カット判定部３５へ出力する（ステップ６１）。

ここで、フェード／カット評価値Ｈは、上記残差値をＥｎ（ｎ＝０〜６３）とすると、次式で求めることができる。
₆₃
Ｈ＝ ΣEn
ⁿ⁼⁰

したがって、各フェード／カット処理部２７、２９、３１及び３３は、上記各マッチング処理部２６、２８、３０及び３２からの各残差値Ｅ１ｎ、Ｅ１０ｎ、Ｅ２０ｎ及びＥ３０ｎを、それぞれｎ＝６３となるまで、すなわち、基準フレーム７１の全ての検出対象点Ｐ０〜Ｐ６３についての残差値が入力されるまで入力し、それぞれそれらの総和を算出する。

図２３及び図２４は、上記フェード／カット評価値の算出結果と、フレーム経過との関係を、上記フレーム間隔毎に示したグラフである。図２３は、カット点が含まれる場合のグラフを示し、図２４は、フェードが含まれる場合のグラフを示している。

フェード／カット判定部３５は、上記図２３及び図２４に示されるフェード／カット評価値の値を基に、フェード及びカットの判定を行う（ステップ６２）。すなわち、フェード／カット判定部３５は、フレーム経過に伴うフェード／カット評価値の変化が急峻な場合（ステップ６３のＹｅｓ）には、カットであると判定してカット検出フラグDcut＝１とする（ステップ６５）。また、フェード／カット判定部３５は、フレーム経過に伴うフェード／カット評価値の変化が緩やかである場合（ステップ６４のＹｅｓ）には、フェードであると判定してフェード検出フラグDfade＝１とする（ステップ６６）。そのどちらとも判定できない場合（ステップ６４のＮｏ）には、フェード／カット判定部３５は、カット検出フラグDcut＝０、フェード検出フラグDfade＝０とする（ステップ６７）。

具体的には、フェード／カット判定部３５は、１フレーム間隔におけるフェード／カット評価値の変化を解析し、図２３のグラフａに示すようなピーク特性が検出される場合には、そのピーク点をカット点と判定する。

また、フェード／カット判定部３５は、上記ピーク特性が検出されない場合には、図２４に示すように、所定の時刻ｔにおいて、１フレーム間隔についてのフェード評価値（グラフａ）と１０フレーム間隔についてのフェード評価値（グラフｂ）との差分Ｖａ、１０フレーム間隔についてのフェード評価値と２０フレーム間隔についてのフェード評価値（グラフｃ）との差分Ｖｂ、２０フレーム間隔についてのフェード評価値と３０フレーム間隔についてのフェード評価値（グラフｄ）との差分Ｖｃをそれぞれ算出する。

図２４に示すように、フェードの場合、映像は徐々に変化していくため、フェード／カット評価値はフレーム間隔によってその変化量に違いが生じ、それにより上記Ｖａ、Ｖｂ、Ｖｃの各値は全て正の値かつ比較的近い数値として顕著に現れる。一方、カットの場合は、図２３に示すように、Ｖａ、Ｖｂ、Ｖｃの値に大きな差が生じ、また負の値となる場合もある。したがって、フェード／カット判定部３５は、このＶａ、Ｖｂ及びＶｃを解析することで、フェードか否かを判定することができる。

なお、各フェード／カット処理部２７、２９、３１及び３３は、上述したように、上記マッチング処理部２６、２８、３０及び３２から、マッチング処理後の各残差値を入力するのではなく、画像処理部２１から入力される基準ブロックＢｎと、各フレーム間メモリ部２２〜２５から入力される、上記ブロックマッチング処理に用いた探索ブロックＢｍとを用いて、独自にフェード／カット評価値を算出するようにしても構わない。具体的には、各フェード／カット処理部２７、２９、３１及び３３は、上記基準ブロックＢｎ及び探索ブロックＢｍの各Ｙ、Ｃｂ、Ｃｒのデータ毎の差分を上記検出対象点Ｐｎ毎に検出し、当該差分の、検出対象点Ｐ０〜Ｐ６３についての総和を上記フェード／カット評価値として算出する。この場合の差分は、上記基準ブロックＢｎ１とＢｎ２とを合成したデータと、上記探索ブロックＢｍ１とＢｍ２とを合成したデータとを比較することで算出される。しかしながら、上述のようにブロックマッチング処理後の各残差値を利用する方が、当然ながらフェード／カット処理部２７、２９、３１及び３３の負荷は低くて済む。

図２５は、上記カメラ特徴判定部３６及びフェード／カット判定部３５により判定した各映像特徴の判定結果を示した表である。ＣＰＵ１は、この表と同等のデータを例えばＲＡＭ２やＨＤＤ１０へ記憶するよう制御する。

なお、上記図７においては、上記映像特徴検出部４を、各フレーム間メモリ部２２〜２５を直列接続することで構成していたが、各フレーム間メモリ部２２〜２５を並列接続して映像特徴検出部４を構成しても構わない。図２６は、この場合の映像特徴検出部４の構成を示した図である。このように構成しても、上記直列接続した場合と同様の処理を実行し、同様の効果を得ることができる。

次に、記録再生装置１００が、以上のように映像特徴を検出された映像コンテンツを、そのアクティビティに応じて分類する処理について説明する。

図２７は、記録再生装置１００が映像コンテンツをアクティビティに応じて分類する処理の流れを示したフローチャートである。
同図に示すように、まず、クラスタリング処理部２０は、学習処理としてのクラスタリング処理の実行回数をカウントするカウンタ値ｎ及びｍを０に初期化する（ステップ２７１）。そして、クラスタリング処理部２０は、上記ＨＤＤ１０に蓄積された映像コンテンツの中から、学習用の映像コンテンツを選択する（ステップ２７２）。この学習用コンテンツとしては、例えば全映像コンテンツ中の２０％程度の映像コンテンツがランダムで選択されるが、勿論この割合に限られるものではない。上記カウンタ値ｎ及びｍは、異なる学習用コンテンツを用いて学習処理を実行する場合に各処理における各カウンタ値を区別するためのものである。学習用コンテンツを選択して学習処理を最初に実行する場合には、カウンタ値ｎが設定され、その後、学習用コンテンツを選択しなおして再度学習処理を実行する場合には、カウンタ値ｍが設定される。

続いて、クラスタリング処理部２０は、上記選択した学習用コンテンツをクラスタリングする際の基準となる映像特徴種別を選択する（ステップ２７３）。映像特徴種別とは、上記カメラ動作系特徴であるパン、チルト、ズーム、上記映像編集系特徴であるフェード、カットをいう。パン、チルト、ズームといったカメラ動作系特徴は、各映像コンテンツ中の映像の動きを示しており、このカメラ動作系特徴が多く見られるほど映像の動きが激しく、アクティビティの高い映像コンテンツであると言える。また、フェード、カットといった映像編集系特徴は、各映像コンテンツ中のシーンの切り替わりを示しており、この映像編集系特徴が多く見られるほどシーンの切り替わりが激しく、アクティビティの高い映像コンテンツであると言える。したがって、記録再生装置１００は、上記各映像特徴を用いて各映像コンテンツのアクティビティを判定することとしている。

続いて、クラスタリング処理部２０は、当該選択した映像特徴種別に基づいて、学習用コンテンツをクラスタリングする。具体的には、クラスタリング処理部２０は、例えば上記映像特徴検出部４により算出された各映像コンテンツのパン係数、チルト係数、ズーム係数、フェード／カット評価値の、各映像コンテンツ全体における各平均値（以下、映像特徴値と称する）を基にクラスタリングする。クラスタリング手法としては、例えばK-means法が用いられる。当該K-means法を用いた場合、クラスタ数Ｋは例えば３個とされる。

続いて、クラスタリング処理部２０は、上記クラスタリング処理により分類された各クラスタを評価し（ステップ２７５）、クラスタリング処理がうまくいったか否かを判断する（ステップ２７６）。例えば上記Ｋ＝３の場合、第１のクラスタ（アクティブ）と、当該第１のクラスタとは全く特徴の異なる第２のクラスタ（アクティブでない）と、当該第１のクラスタ及び第２のクラスタの中間的な特徴を有する第３のクラスタが生成される。クラスタリング処理部２０は、この第１〜第３の各クラスタに属する映像コンテンツの数を検出し、例えば第３のクラスタに属する映像コンテンツ数の、上記学習用コンテンツ全体の数に対する割合が所定割合（例えば１／３）以下である場合には、クラスタリング処理がうまくいったと判断する。また、クラスタリング処理部２０は、第３のクラスタに属する映像コンテンツの数が、第１及び第２のクラスタに属する各映像コンテンツの数に比べて少ない場合に、クラスタリング処理がうまくいったと判断してもよい。このように判断するのは、第３のクラスタに属する、中間的な特徴を有する映像コンテンツの数が多いと、後述する判別分析によりアクティビティを判定してもその結果をユーザに効果的な形で提示できないため、各映像コンテンツを適切に分類できるか否かを予め判断しておく必要があるからである。

例えば、学習用コンテンツの数が１００個の場合、第１、第２及び第３のクラスタに属する各映像コンテンツ数が順に４０個、４０個、２０個の場合にはクラスタリング処理はうまくいったと判断されるが、順に２０個、２０個、６０個の場合にはクラスタリング処理はうまくいかなかったと判断される。

クラスタリング処理部２０は、上記ステップ２７６において、上記クラスタリング処理がうまくいかなかったと判断した場合（Ｎｏ（ａ））には、上記カウンタ値ｎを１だけインクリメントし（ステップ２７７）、当該カウンタ値ｎが所定の閾値ｎｔｈを越えたか否かを判断する（ステップ２７８）。

上記ステップ２７８において、上記カウンタ値ｎが閾値ｎｔｈを越えていないと判断された場合（Ｎｏ）には、クラスタリング処理部２０は、上記ステップ２７２で選択された学習用コンテンツと同一の映像コンテンツについて、上記ステップ２７３〜２７５の学習処理を再度繰り返す。このとき、ステップ２７３においては、前回選択された映像特徴種別とは異なる組み合わせの映像特徴種別が選択される。例えば、前回の学習処理でパン及びチルトの各映像特徴が選択された場合には、今回の学習処理においては、パン及びチルトのうち少なくとも１つの映像特徴種別が、ズーム、フェード、カットの各映像特徴のうちの少なくとも１つに変更される。これにより、どの映像特徴を用いれば各映像コンテンツをうまく分類できるかを判断することができる。

一方、上記ステップ２７８において、上記カウンタ値ｎが閾値ｎｔｈを越えたと判断された場合（Ｙｅｓ）には、クラスタリング処理部２０は、クラスタリング処理がうまくいかなかった旨の警告情報をディスプレイに表示させ（ステップ２７９）、更に、再度学習処理を行うか否かをディスプレイを介してユーザに選択させる（ステップ２８１）。

ユーザにより再度学習処理を行うことが選択された場合（ステップ２８１のＹｅｓ）には、上記カウンタ値ｍを１だけインクリメントし（ステップ２８２）、当該カウンタ値ｍが所定の閾値ｍｔｈを越えたか否かを判断する（ステップ２８３）。

上記ステップ２８３において、上記カウンタ値ｍが閾値ｍｔｈを越えていないと判断された場合（Ｎｏ）には、クラスタリング処理部２０は、前回の学習処理において学習用コンテンツとして選択した映像コンテンツとは異なる映像コンテンツを学習用コンテンツとして選択し直して、（ステップ２７２）、それ以降のステップ２７３〜２７６の処理を繰り返す。

この場合も、クラスタリング処理部２０は、ステップ２７６において、クラスタリング処理がうまくいかなかったと判断した場合（Ｎｏ（ｂ））には、カウンタ値ｍを１だけインクリメントして（ステップ２８２）、ｍが上記閾値ｍｔｈを越えるまで、映像特徴種別を変更しながら上記ステップ２７３〜２７６の処理を繰り返す。

上記ステップ２７６においてクラスタリング処理がうまくいかず、上記カウンタ値ｍが閾値ｍｔｈを越えた場合には、クラスタリング処理部２０は、上記学習用コンテンツを分類できない旨をディスプレイに表示させて終了する（ステップ２８４）。

上記ステップ２７６において、クラスタリング処理がうまくいったと判断された場合（Ｙｅｓ）には、アクティビティ判定部４０は、分類された各クラスタの特徴を検出する（ステップ２８５）。すなわち、アクティビティ判定部４０は、各クラスタに属する映像コンテンツの各映像特徴値を参照する等して、各クラスタの「アクティブ」、「アクティブでない」及び「中間的」の各特徴を検出する。

そして、アクティビティ判定部４０は、上記検出した各クラスタの特徴のうち、「アクティブ」及び「アクティブでない」の各特徴を有する各クラスタに属する学習用コンテンツをそれぞれ選択し、各クラスタに属する各学習用コンテンツの上記映像特徴値を用いて、２群判別分析を行う（ステップ２８６）。これにより、アクティビティ判定部４０は、判別関数（判別関数の係数）を算出する（ステップ２８７）。

続いて、アクティビティ判定部４０は、上記学習用コンテンツ以外の各映像コンテンツを、判別用の映像コンテンツとして選択し（ステップ２８８）、各映像コンテンツの上記映像特徴値を基に、上記算出された判別関数を用いて判別分析を行うことで、当該判別用の映像コンテンツの各判別関数値ｆを算出する（ステップ２８９）。

続いて、アクティビティ判定部４０は、上記算出された各判別関数値ｆの絶対値｜ｆ｜が、所定の閾値ｆａよりも大きいか否かを判断する（ステップ２９０）。
｜ｆ｜が閾値ｆａよりも大きい場合（Ｙｅｓ）には、アクティビティ判定部４０は、更に、当該ｆが０より大きいか否かを判断する（ステップ２９１）。
ｆ>０の場合には、アクティビティ判定部４０は、当該映像コンテンツを、アクティブな映像コンテンツとして分類する（ステップ２９２）。

一方、ｆ<０の場合には、アクティビティ判定部４０は、当該映像コンテンツを、アクティブでない映像コンテンツとして分類する（ステップ２９３）。
また、上記ステップ２９０において、｜ｆ｜≦ｆａであると判断された場合には、アクティビティ判定部４０は、当該映像コンテンツを、中間的な映像コンテンツとして分類する（ステップ２９４）。

この分類結果は、各映像コンテンツと関連付けられて、例えばＨＤＤ１０等に記憶される。なお、アクティビティ判定部４０は、上記学習用コンテンツとして用いた映像コンテンツについても、後に上記判別処理によりアクティビティを判定し、分類する。

図２８は、上記アクティビティ判定部４０による映像コンテンツの分類処理を概念的に示した図である。同図（ａ）は上記分類処理を行う前の映像コンテンツの、上記映像特徴値のデータ分布を示しており、同図（ｂ）は同図（ａ）のように分布している映像コンテンツについて上記判別分析による分類処理を行った場合の様子をそれぞれ示している。

同図（ａ）に示すように、映像コンテンツ中には、アクティブなコンテンツ（同図Ａ）とアクティブでないコンテンツ（同図Ｎ）とが混在しているが、この状態では、記録再生装置１００は両者を区別することはできない。

そこで、同図（ｂ）に示すように、上述した判別関数を算出する。この判別関数により、上記データ分布における各映像コンテンツは、判別関数値ｆの符号が正か負かによって、アクティブな映像コンテンツが属する領域Ａと、アクティブでない映像コンテンツが属する領域Ｂとに判別される。そして、当該領域Ａ及びＢのうち、上述したように、上記判別関数値ｆの絶対値｜ｆ｜が閾値ｆａ以下となる、判別関数近傍の領域Ｃは、領域Ａのデータ頻度も、領域Ｂのデータ頻度も少ない、中間的な領域となっている。すなわち、領域Ｃは、領域Ａ及び領域Ｂの両者の特徴を有しており、アクティブともアクティブでないとも言える、中間的な映像特徴の映像コンテンツが属していると言える。

アクティビティ判定部４０は、このように、判別関数を基に上記領域Ａ〜Ｃを定めることで、映像コンテンツを３つに分類することができる。

次に、上記分類された映像コンテンツの各アクティビティをユーザに提示する方法について説明する。

記録再生装置１００は、ＨＤＤ１０に記録された各映像コンテンツを再生させる際には、上記各映像コンテンツのコンテンツリストをディスプレイに表示させ、当該コンテンツリスト上で、ユーザが再生を所望する映像コンテンツの選択作業を行わせる。記録再生装置１００のＣＰＵ１は、当該コンテンツリスト上に、上記アクティビティによる分類結果を、アクティビティ識別情報として示すことで、ユーザがアクティビティに応じて映像コンテンツを選択することを可能としている。

図２９は、コンテンツリスト上におけるアクティビティ識別情報の表示例を示した図である。
同図に示すように、ウィンドウ３０１上には、各映像コンテンツのサムネイル画像３０２及びタイトル情報３０３が、例えばマトリクス状に、コンテンツリストとして表示される。そして、ＣＰＵ１は、各映像コンテンツのサムネイル画像３０２の上部に、上記判定した３つのアクティビティの種別を示すアクティビティ識別情報として、星形のマーク３０４を表示させる。この星形マーク３０４数が３つの場合はアクティブな映像コンテンツ、２つの場合は中間的な映像コンテンツ、１つの場合はアクティブでないコンテンツとされる。

ユーザは、アクティブな映像コンテンツの視聴を望む場合には、アクティビティ識別情報としての星形マーク３０４が３つ表示されている映像コンテンツのサムネイル画像３０２を、操作入力部３を介して選択すればよいし、逆にアクティブでない映像コンテンツの視聴を望む場合には、星形マーク３０４が１つ表示されている映像コンテンツのサムネイル画像３０２を選択すればよい。なお、この星形マーク３０４の代わりに例えば円形や他の多角形等、他の図形（記号）のマークを用いても構わないし、キャラクター等の他の画像を用いても構わない。

また、ユーザが、アクティブでない（例えば、静かで落ち着いた）映像コンテンツの視聴を望んでいる場合には、ＣＰＵ１は、同図の場合とは逆に、アクティブでない映像コンテンツのアクティビティ識別情報として、上記星形マーク３０４等のマークを３つ表示させ、アクティブな映像コンテンツのアクティビティ識別情報としてマークを１つ表示させるようにしても構わない。更に、ＣＰＵ１は、ユーザがアクティブな映像コンテンツとアクティブでない映像コンテンツのどちらの視聴を望んでいるかに応じて、アクティビティ識別情報の表示手法をカスタマイズできるようにしても構わない。

図３０は、コンテンツリストの他の表示例を示した図である。なお、図２９と同様の部分については同一の符号を付している。
同図に示すように、ＣＰＵ１は、コンテンツリスト上において、上記アクティビティ識別情報を、サムネイル画像３０２の明暗情報として表示させてもよい。同図においては、アクティブな映像コンテンツのサムネイル画像３０２は明るく（例えばサムネイル画像３０２ａ）、中間的な映像コンテンツのサムネイル画像３０２はやや暗く（例えばサムネイル画像３０２ｂ）、アクティブでない映像コンテンツのサムネイル画像３０２は更に暗く（例えばサムネイル画像３０２ｃ）表示されている。この表示は、例えば上記ＯＳＤ１７において、サムネイル画像と各段階のグレーの背景画像とを重畳させることで実現できる。

また、ユーザがアクティブでない映像コンテンツの視聴を望んでいる場合には、ＣＰＵ１は、逆にアクティブでない映像コンテンツほど明るく表示させるよう制御しても構わない。また、ＣＰＵ１は、どちらの映像コンテンツを明るく表示させるかをユーザがカスタマイズできるようにしても構わない。

更に、ＣＰＵ１は、サムネイル画像３０２の明暗ではなく、サムネイル画像３０２の色を変更することでアクティビティを識別するようにしてもよいし、サムネイル画像３０２全体ではなくサムネイル画像の外枠の色のみを変更することでアクティビティを識別するようにしても構わない。

上記図２９及び３０の例では、ＣＰＵ１は、アクティビティ識別情報を３段階で表示させるようにしていた。しかし、ＣＰＵ１は、上記アクティビティを３段階よりも更に多い段階で表示させることもできる。これは、上記アクティビティ判定部４０が、上記図２７のステップ２９０における閾値ｆａを複数設定し、各映像コンテンツを４つ以上の段階に分類することで実現できる。

更に、ＣＰＵ１は、各コンテンツのアクティビティを段階別（離散量的）に示すのではなく、アクティビティの最大値に対して各映像コンテンツのアクティビティが占める割合として、連続量的（アナログ的）に示すようにしても構わない。これは、アクティビティ判定部４０が、上記図２７のステップ２８９における判別関数値ｆを、アクティビティを示す情報としてそのまま出力することで実現できる。すなわち、ＣＰＵ１は、判別関数値ｆ＝−１を最小値とし、ｆ＝１を最大値として、各映像コンテンツの判別関数値ｆを最大値１に対する割合に換算してコンテンツリスト上に表示させるようにすればよい。

図３１は、この場合におけるコンテンツリスト上でのアクティビティ識別情報の表示例を示した図である。なお、図２９及び３０と同様の部分については同一の符号を付している。
同図に示すように、ＣＰＵ１は、コンテンツリスト上において、上記アクティビティ識別情報を、アクティビティの最大値に対する割合を示す画像（割合表示画像３０５）として表示する。同図においては、割合表示画像３０５は棒グラフ状（メーター状）に示されているが、例えば円グラフ状等、他の表示形式のものであっても構わない。また、ＣＰＵ１は、上記割合を、グラフ等のオブジェクトではなく、数値（テキスト情報）として表示してもよい。

このように、各映像コンテンツのアクティビティをより細かく、連続量的（アナログ的）に提示することで、ユーザの選択の幅を広げることができる。

ＣＰＵ１は、コンテンツリスト上にアクティビティ識別情報を表示させるのみならず、アクティビティに応じて映像コンテンツを検索（抽出）できるようにしても構わない。

例えば、ＣＰＵ１は、上記図２９〜３１で示したようなコンテンツリスト上で、特定のアクティビティを有する映像コンテンツを抽出できるようにしてもよい。

図３２は、この場合のコンテンツリストの表示例を示した図である。同図に示すように、ウィンドウ３０１の上部には、アクティブな映像コンテンツとアクティブでない映像コンテンツの何れかのアクティビティの種別を例えばラジオボタンにより選択させるための選択ボックス３０６と、検索ボタン３０７が設けられている。ユーザが選択ボックス３０６内のラジオボタンで映像コンテンツの種別を選択し、検索ボタン３０７を押下すると、選択された種別のアクティビティを有する映像コンテンツのみが絞り込まれ、その映像コンテンツのサムネイル画像３０２及びタイトル情報３０３がウィンドウ３０１内に表示される。同図においては、上記選択ボックス３０６内でアクティブなコンテンツが選択され、検索ボタンが押下された場合に、アクティブな映像コンテンツに関する情報のみが表示されている。なお、同図では、アクティビティ識別情報として星形マークを示しているが、もちろん、上述した他のアクティビティ識別情報を用いても構わない。

このほか、ＣＰＵ１は、例えばジャンル等、その他の抽出項目と上記アクティビティとを組み合わせて映像コンテンツを抽出できるようにしても構わない。例えば「スポーツ」というジャンルの中でアクティブなコンテンツのみを抽出することで、スポーツに関する映像コンテンツの中でも、例えば得点シーン等の動きの多い映像コンテンツを抽出するようなことが可能となる。

また、ＣＰＵ１は、キーワード等で映像コンテンツを検索する場合に、上記アクティビティを、映像コンテンツの検索条件（検索範囲）の１つとして用いることもできる。

図３３は、この場合のコンテンツリストの表示例を示した図である。同図に示すように、ウィンドウ３０１の上部には、アクティブな映像コンテンツ、アクティブでない映像コンテンツ及び全ての映像コンテンツのうち、どの種別のアクティビティを有する映像コンテンツを検索範囲として検索するかを選択させるための選択ボックス３０６と、検索キーワードを入力するための入力ボックス３０８と、検索ボタン３０７とが設けられている。

ユーザが選択ボックス３０６内で検索範囲とすべき映像コンテンツの種別を選択し、続いて入力ボックス３０８にキーワードを入力し、検索ボタン３０７を押下することで、選択ボックス３０６内で選択された種別の映像コンテンツの中から、キーワードに合致する映像コンテンツが検索される。同図においては、検索範囲としてアクティブな映像コンテンツが選択され、「サッカー」というキーワードが入力された状態を示している。この状態から、検索ボタン３０７が押下されると、例えばサッカーの試合を内容とする映像コンテンツのサムネイル画像３０２ａ及びそのタイトル情報が検索結果として表示される。

以上のように、各映像コンテンツの各映像特徴を基に、各映像コンテンツをアクティビティに応じて分類し、各映像コンテンツの雰囲気をアクティビティ識別情報として提示することで、ユーザにその時々の気分に応じて映像コンテンツを選択して視聴させることが可能となる。

本発明は以上説明した実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。

上述の実施形態においては、本発明を記録再生装置１００に適用した例を示したが、例えばテレビジョン装置、ＰＣ、携帯電話、ゲーム機器、デジタルカメラ、カムコーダ等、あらゆる電子機器に本発明を適用することが可能である。

また、本発明を、インターネット上で映像コンテンツの投稿サイトを提供するためのＷｅｂサーバとして適用することもできる。この場合、Ｗｅｂサーバは、例えばＰＣ等の各クライアント機器から所定数の映像コンテンツがアップロードされた段階で、上述の実施形態と同様に、上記映像特徴検出部４により各映像コンテンツの映像特徴を検出し、その各映像コンテンツの一部を学習用の映像コンテンツとして選択して、上記クラスタリング処理部２０によりクラスタリング処理（学習処理）を行い、アクティビティ判定部４０により、当該学習結果を基に判別関数を算出して、当該判別関数を基に上記学習用の映像コンテンツ以外のコンテンツのアクティビティを判定すればよい。またこの場合、アクティビティ判定部４０は、学習用コンテンツについても後に判別分析によりアクティビティを判定してもよいし、クラスタリング処理部２０が、アップロードされた映像コンテンツとは別に学習用コンテンツを用意しても構わない。

例えば、Ｗｅｂサーバは、１０００個の映像コンテンツがアップロードされた段階で、そのうち２００個の映像コンテンツを学習用コンテンツとして選択し、残りの８００個の映像コンテンツについてアクティビティを判定する。勿論、この数値に限られるものではない。

また、Ｗｅｂサーバは、上記アップロードされた映像コンテンツを、コンテンツリストとして表示するためのＷｅｂページを作成し、例えば、クライアント機器としてのユーザのＰＣで実行されるブラウザにおいて、当該コンテンツリストの各コンテンツ欄に、上記判定したアクティビティに応じて、上記図２９〜３１で示したような、各種アクティビティ識別情報が表示されるように制御（Ｗｅｂページを送信）すればよい。

ユーザ投稿型の動画サイトは今後も更なる発展が見込まれ、また映像コンテンツ数も更に増加するものと思われるため、上記アクティビティに応じた各映像コンテンツの分類及びアクティビティ識別情報の表示は、ユーザによる映像コンテンツの選択の大きな助けとなるものと思われる。

上述の実施形態において、クラスタリング処理部２０は、クラスタリング手法としてK-means法を採用していたが、この他にも、ファジーc-means法やウォード法等の他のクラスタリング手法を用いても構わない。また、クラスタリング処理部２０は、いわゆるデータ・クラスタリング手法ではなく、決定木等の他の分類手法を用いても構わない。

上述の実施形態において、アクティビティ判定部４０は、線形判別関数を用いた判別関数により各映像コンテンツのアクティビティを判定していた。しかしながら、アクティビティ判定部４０は、マハラノビス汎距離等の非線形判別関数を用いても構わないし、重判別分析により、例えばアクティブ、ノンアクティブ、中間的の３つの分類で各映像コンテンツを判別しても構わない。

また、アクティビティ判定部４０は、アクティビティを３つ、４つ、５つ等に段階的に分類する場合には、判別分析を行うのではなく、上述のクラスタリング処理部２０における学習処理と同様のクラスタ分析により、必要に応じてクラスタ数（例えばK-means法におけるＫ）を変更しながら、各映像コンテンツを分類しても構わない。

上述の実施形態においては、記録再生装置１００は、各映像コンテンツのアクティビティに応じて各映像コンテンツを分類していた。しかし、記録再生装置１００は、当該アクティビティに基づく映像コンテンツの分類処理と、上記カメラ動作系特徴として検出された手振れによる映像コンテンツの分類処理とを組み合わせるようにしてもよい。例えば、記録再生装置１００は、映像コンテンツに手振れ特徴が含まれるか否かに応じて、放送された映像コンテンツ（いわゆるＩＰ放送も含む）と、家庭用ビデオカメラ等でユーザ等の個人が撮影したプライベートな映像コンテンツとに分類しておき、上記アクティビティに応じて分類された映像コンテンツを、更に、放送コンテンツかプライベートコンテンツかに応じてフィルタリングもしくは分類して表示できるようにしてもよい。これにより、例えばユーザが、プロのカメラマンが撮影したクオリティの高い映像コンテンツの中からアクティビティに応じた映像コンテンツを選択したい場合等に、ユーザの視聴目的に適合しない映像コンテンツをユーザの選択対象から外すことができ、ユーザが映像コンテンツを選択するまでの手間や時間を省くことができる。

上述の実施形態においては、映像特徴検出部４は、基準ブロックＢｎを放射状に複数設定していたが、例えば複数の基準ブロックＢｎを放射状に組み合わせずに１つのみ設定して動きベクトルを検出するようにしても構わない。

上述の実施形態においては、映像特徴検出部４は、上記ブロックマッチング処理後の残差値をフェード／カット評価値とすることでフェード及びカットの判定を行っていた。しかし、映像特徴検出部４は、このフェード／カット評価値による判定処理に加えて、周波数解析による判定処理を用いることもできる。
すなわち、上記各フェード／カット処理部２７、２９、３１及び３３は、画像処理部２１及び各フレーム間メモリ部２２〜２５から入力される基準フレーム７１及び探索フレーム７５のそれぞれに対して、ＦＦＴ（Fast Fourier Transform；高速フーリエ変換）処理やエッジ検出処理等による周波数解析処理を行い、その結果をフェード／カット判定部３５へ出力する。フェード／カット判定部３５は、上記フェード／カット評価値と、上記周波数解析処理結果の両方を用いてフェード及びカットの判定を行う。フェード区間では、画像がぼやけるため、周波数成分で考えると、高周波成分の特徴が小さくなる。したがって、この特徴をフェード及びカットの判定に利用することができる。

上述の実施形態においては、映像特徴検出部４は、映像コンテンツの各フレームのデコード後の、ベースバンド帯域の信号を用いて映像特徴検出処理を行っていた。しかしながら、映像特徴検出部４は、デコード後のベースバンド帯域の信号ではなく、デコード前の符号化データを用いてもよい。例えば映像コンテンツがＭＰＥＧ形式やＤＶ方式で符号化されている場合には、映像特徴検出部４は、上記Ｙ、Ｃｂ及びＣｒの各信号の代わりに、ＤＣＴ（Discrete Cosine Transform；離散コサイン変換）係数のうちＤＣ（Direct Current）成分を解析することで、同様に映像特徴を検出することができる。

本発明の一実施形態に係る記録再生装置の構成を示した図である。本発明の一実施形態におけるカメラ動作系特徴について示した図である。本発明の一実施形態における映像編集系特徴について示した図である。本発明の一実施形態におけるカメラ動作系特徴について概念的に示した図である。本発明の一実施形態におけるズーム時の画像の変化量を概念的に示した図である。本発明の一実施形態における手振れ映像について概念的に示した図である。本発明の一実施形態における映像特徴検出部の具体的構成を示した図である。本発明の一実施形態に係る記録再生装置が映像特徴を判定する際の処理の流れを示したフローチャートである。本発明の一実施形態における動きベクトル検出処理の流れを示したフローチャートである。本発明の一実施形態における１フレーム間隔での動きベクトル検出処理の詳細を示したフローチャートである。本発明の一実施形態における１０フレーム間隔での動きベクトル検出処理の詳細を示したフローチャートである。本発明の一実施形態における２０フレーム間隔での動きベクトル検出処理の詳細を示したフローチャートである。本発明の一実施形態における３０フレーム間隔での動きベクトル検出処理の詳細を示したフローチャートである。本発明の一実施形態におけるブロックマッチング処理の流れを示したフローチャートである。本発明の一実施形態において参照画像領域及び探索領域を設定する様子を示した図である。本発明の一実施形態におけるブロックマッチング処理の基準ブロックの設定方法を示した図である。本発明の一実施形態におけるブロックマッチング処理の様子を示した図である。本発明の一実施形態における動きベクトル推定処理の流れを示したフローチャートである。本発明の一実施形態における動きベクトルの勾配について示した図である。本発明の一実施形態におけるアフィン変換モデルを示した図である。本発明の一実施形態における重回帰分析処理について説明した図である。本発明の一実施形態における手振れ判定処理について示した図である。本発明の一実施形態におけるフェード／カット評価値の算出結果と、フレーム経過との関係を、カット点が含まれる場合について示したグラフである。本発明の一実施形態におけるフェード／カット評価値の算出結果と、フレーム経過との関係を、フェードが含まれる場合について示したグラフである。本発明の一実施形態における各映像特徴の判定結果を示した表である。本発明の他の実施形態における映像特徴検出部の具体的構成を示した図である。本発明の一実施形態における記録再生装置が映像コンテンツをアクティビティに応じて分類する処理の流れを示したフローチャートである。アクティビティ判定部による映像コンテンツの分類処理を概念的に示した図である。コンテンツリスト上におけるアクティビティ識別情報の表示例を示した図である。コンテンツリスト上におけるアクティビティ識別情報の他の表示例を示した図である。コンテンツリスト上におけるアクティビティ識別情報の他の表示例を示した図である。コンテンツリスト上におけるアクティビティ識別情報の他の表示例を示した図である。コンテンツリスト上におけるアクティビティ識別情報の他の表示例を示した図である。

符号の説明

１…ＣＰＵ
３…操作入力部
４…映像特徴検出部
７…Ethernet（登録商標）／無線ＬＡＮインタフェース
１０…ＨＤＤ
１６…ＡＶデコーダ
１７…ＯＳＤ
２０…クラスタリング処理部
２１…画像処理部
２２〜２５…フレーム間メモリ部
２６、２８、３０、３２…マッチング処理部
２７、２９、３１、３３…フェード／カット処理部
３４…動きベクトル処理部
３５…フェード／カット判定部
３６…カメラ特徴判定部
４０…アクティビティ判定部
１００…記録再生装置
３０２…サムネイル画像
３０４…星形マーク
３０５…割合表示画像

Claims

それぞれ複数のフレームで構成される複数の映像コンテンツの各フレームをそれぞれ比較して、当該各映像コンテンツ中から、カメラ動作または映像編集により生じる複数種類の映像特徴を検出する検出手段と、
前記検出された各種類の映像特徴のうち少なくとも１種類の映像特徴を選択し、当該選択された映像特徴を基に、前記各映像コンテンツからランダムに選択された複数の第１の映像コンテンツを、当該映像特徴を有する割合が高い映像コンテンツの第１の集合と、当該映像特徴を有する割合が低い映像コンテンツの第２の集合と、当該第１の集合及び当該第２の集合のいずれにも分類されない映像コンテンツの第３の集合とに分類し、前記第１の映像コンテンツの数に対する、当該第３の集合に含まれる映像コンテンツの数の割合が所定割合でなかった場合には、前記選択された映像特徴とは異なる種類の映像特徴を選択して前記分類を行うことで、前記割合が所定割合となる、選択すべき映像特徴を学習し、当該学習の結果選択された映像特徴を基に、前記各映像コンテンツのうち、前記第１の映像コンテンツ以外の第２の映像コンテンツに含まれる映像の視覚的な活性度をそれぞれ判定し、当該判定された各活性度を基に、前記各映像コンテンツを分類する分類手段と
を具備する電子機器。
請求項１に記載の電子機器であって、
前記検出手段は、前記各映像特徴を所定の特徴値として検出し、
前記分類手段は、前記学習の結果選択された映像特徴の前記特徴値を変数として、前記第２の映像コンテンツを、前記活性度の高い映像コンテンツと前記活性度の低い映像コンテンツとに判別するための所定の判別関数を生成し、当該判別関数の値を基に前記活性度を判定する
電子機器。
請求項２に記載の電子機器であって、
前記分類手段は、前記判別関数の値が正負のいずれの値か、及び前記判別関数の値の絶対値が少なくとも１つの所定の閾値を超えるか否かに応じて前記第２の映像コンテンツを複数のレベルに分類する
電子機器。
請求項１に記載の電子機器であって、
前記各映像コンテンツを前記判定された活性度とともに記憶する記憶手段と、
前記記憶された各映像コンテンツの再生を入力させるためのコンテンツリストを、前記判定された各映像コンテンツの各活性度を識別する識別情報とともに表示するよう制御する表示制御手段と
を更に具備する電子機器。
請求項４に記載の電子機器であって、
前記表示制御手段は、前記識別情報として、前記各活性度に応じた数の所定の記号を表示するよう制御する
電子機器。
請求項４に記載の電子機器であって、
前記表示制御手段は、前記識別情報として、最大活性度に対する各活性度の割合を示す画像を表示するよう制御する
電子機器。
請求項４に記載の電子機器であって、
前記表示制御手段は、前記識別情報として、各映像コンテンツを再生可能に示すサムネイル画像を、前記活性度に応じてその明暗を変更して表示するよう制御する
電子機器。
請求項４に記載の電子機器であって、
前記判定された活性度を基に前記映像コンテンツを検索する検索手段を更に具備し、
前記表示制御手段は、前記検索の結果として、所定の活性度を有する前記映像コンテンツの前記コンテンツリスト及び識別情報を表示するよう制御する
電子機器。
それぞれ複数のフレームで構成される複数の映像コンテンツの各フレームをそれぞれ比較して、当該各映像コンテンツ中から、カメラ動作または映像編集により生じる映像特徴を検出し、
前記検出された各種類の映像特徴のうち少なくとも１種類の映像特徴を選択し、当該選択された映像特徴を基に、前記各映像コンテンツからランダムに選択された複数の第１の映像コンテンツを、当該映像特徴を有する割合が高い映像コンテンツの第１の集合と、当該映像特徴を有する割合が低い映像コンテンツの第２の集合と、当該第１の集合及び当該第２の集合のいずれにも分類されない映像コンテンツの第３の集合とに分類し、前記第１の映像コンテンツの数に対する、当該第３の集合に含まれる映像コンテンツの数の割合が所定割合でなかった場合には、前記選択された映像特徴とは異なる種類の映像特徴を選択して前記分類を行うことで、前記割合が所定割合となる、選択すべき映像特徴を学習し、
前記学習の結果選択された映像特徴を基に、前記各映像コンテンツのうち、前記第１の映像コンテンツ以外の第２の映像コンテンツに含まれる映像の視覚的な活性度をそれぞれ判定し、当該判定された各活性度を基に、前記各映像コンテンツを分類する
コンテンツ分類方法。
電子機器に、
それぞれ複数のフレームで構成される複数の映像コンテンツの各フレームをそれぞれ比較して、当該各映像コンテンツ中から、カメラ動作または映像編集により生じる映像特徴を検出するステップと、
前記検出された各種類の映像特徴のうち少なくとも１種類の映像特徴を選択し、当該選択された映像特徴を基に、前記各映像コンテンツからランダムに選択された複数の第１の映像コンテンツを、当該映像特徴を有する割合が高い映像コンテンツの第１の集合と、当該映像特徴を有する割合が低い映像コンテンツの第２の集合と、当該第１の集合及び当該第２の集合のいずれにも分類されない映像コンテンツの第３の集合とに分類し、前記第１の映像コンテンツの数に対する、当該第３の集合に含まれる映像コンテンツの数の割合が所定割合でなかった場合には、前記選択された映像特徴とは異なる種類の映像特徴を選択して前記分類を行うことで、前記割合が所定割合となる、選択すべき映像特徴を学習するステップと、
前記学習の結果選択された映像特徴を基に、前記各映像コンテンツのうち、前記第１の映像コンテンツ以外の第２の映像コンテンツに含まれる映像の視覚的な活性度をそれぞれ判定し、当該判定された各活性度を基に、前記各映像コンテンツを分類するステップと
を実行させるためのプログラム。