JP4257615B2

JP4257615B2 - 画像処理装置および方法、並びにプログラム

Info

Publication number: JP4257615B2
Application number: JP2006194127A
Authority: JP
Inventors: 偉国呉; 博韓; 隆之芦ヶ原
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-07-14
Filing date: 2006-07-14
Publication date: 2009-04-22
Anticipated expiration: 2026-07-14
Also published as: US20080118153A1; US7949188B2; JP2008021225A; CN101114343A

Description

本発明は、画像処理装置および方法並びにプログラムに関し、特に、人の直感的な感覚で映像コンテンツを扱えるように、より効率よく映像コンテンツを管理し取り扱うための映像解析技術を提供できるようになった画像処理装置および方法並びにプログラムに関する。

インターネット技術や放送、通信、娯楽、医療、教育などの分野におけるデジタル化技術の急速な発展により、膨大なマルチメディア情報から必要な情報だけを簡単で高速にアクセスできるようなニーズが高まってきている。そのようなニーズの中でも、特に、ネットワークやホームサーバに蓄積されていた大量な映像コンテンツを効率的に管理し扱いたいといったニーズから、映像コンテンツの意味抽出と解析のための画像認識技術の研究開発が盛んに行われるようになっていた。

具体的な例としては、例えば、ハードディスク録画やデジタル家電が普及している中、観たいものだけを観る、録画しながら再生を楽しむなど、といった新しいライフスタイルに応じた楽しみ方を可能にするための「類似画像検索技術」や、デジタルカメラやデジタルビデオカメラ、及びインターネットの普及により、様々な画像や動画を簡単に編集し、自分のオリジィナルダイジェスト映像を作成し保存するための「ダイジェスト映像作成技術」などの研究開発が行われている（例えば特許文献１，２参照）。

即ち、上述した新しいライフスタイルに応じた楽しみ方を可能にしたり、ダイジェスト映像を作成するためのニーズとして、映像コンテンツから所望の画像を検索したい、例えば動画コンテンツの中からハイライトシーンを検出したい、といった画像検索のニーズが高まっている。

かかる画像検索のニーズに応えるために、キーワードを用いた画像検索技術の実用化も進められていた。他にも動画コンテンツを自由自在に閲覧することができるようなBrowsing技術やビジュアルコミュニケーションにおける意味的な「映像議事録」作成技術などの研究も行われていた。
特開２００２−３４４８７２号公報特開２００６−５４６２２号公報

しかしながらキーワードを用いる従来の画像検索技術では、必要なキーワードの付与には手間がかかり、同キーワードの画像が大量に存在する事態も発生しがちなため、実際に満足な検索結果が得られないのが現状である。また、映像内のメタ情報を自動的に抽出し、それらのメタ情報を元に、欲しい画像コンテンツを見つけ出すといった検索技術や、自動的に「映像議事録」を作成する技術や、Browsing技術なども多く研究されているが、必要なメタ情報を精度良く抽出することが容易ではないので、実際に利用可能な映像検索技術やダイジェスト作成技術やBrowsing技術が確立されていない状況である。

換言すると、上述のようなキーワードによる画像検索などではなく、人の直感的な感覚で映像コンテンツを扱えるように、より効率よく映像コンテンツを管理し取り扱うための映像解析技術の実現が要望されているが、かかる要望に十分に応えられていない状況である。

本発明は、このような状況に鑑みてなされたものであり、人の直感的な感覚で映像コンテンツを扱えるように、より効率よく映像コンテンツを管理し取り扱うための映像解析技術を提供できるようにするものである。

本発明の一側面の画像処理装置は、複数の単位画像から構成される動画像から、１以上の前記単位画像を含むショットが複数区分され、前記ショットを単位とする画像処理を施す画像処理装置であって、ハイライトとして抽出すべき1以上のショットからなる既知のショット群が学習用動画像として複数用いられて、前記単位画像全体の空間領域に占めるオブジェクトの範囲に基づく第１のショットタイプが複数定義されており、各ショット間の前記第１のショットタイプについての関連性の第１のルールと、１ショットに含まれる各単位画像間の関連性の第２のルールとが予め学習され、それらの学習結果が、前記ハイライトを判別する判別モデルとして保持されている保持手段と、新たに入力された入力動画像から区分される複数のショットのそれぞれを順次注目ショットにして、複数の前記第１のショットタイプのうちの何れかに分類する分類手段と、前記複数のショットの前記分類手段による各分類結果を用いて、前記注目ショットと他の１以上のショットとの前記第１のショットタイプについての関連性を認識し、その関連性を示す情報を、前記注目ショットの第１の特徴量として生成する第１の生成手段と、前記注目ショットに含まれる各単位画像の間の関連性を認識し、その関連性を示す情報を、前記注目ショットの第２の特徴量として生成する第２の生成手段と、前記第１の生成手段により生成された前記注目ショットの前記第１の特徴量が前記第１のルールに則した特徴量であるか否か、および、前記第２の生成手段により生成された前記注目ショットの前記第２の特徴量が前記第２のルールに則した特徴量であるか否かに基づいて、前記注目ショットが前記ハイライトに含まれるか否かを認定し、前記入力動画像を構成する前記複数のショットのうち、前記ハイライトに含まれると認定されたショットからなるショット群を、前記ハイライトとして抽出する抽出手段とを備え、前記第１のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第１の特徴量をそれぞれ用いて学習され、前記第２のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第２の特徴量をそれぞれ用いて学習され、前記保持手段には、前記第１のルールに基づく前記判別モデルとして、前記第１の特徴量を用いて前記第１のルールを学習することで得られる第１の時系列モデルを保持させるとともに、前記第２のルールに基づく前記判別モデルとして、前記第２の特徴量を用いて前記第２のルールを学習することで得られる第２の時系列モデルを保持させることができる。

実世界の被写体が撮影された結果得られる前記単位画像に含まれる領域のうちの、実世界の所定の背景に対応する領域が注目領域とされており、複数の前記ショットタイプには、前記第１のショットタイプ以外にさらに、ショットに含まれる全単位画像のいずれにも前記注目領域が含まれていない第２のショットタイプが含まれており、前記分類手段には、前記注目ショットに含まれる全単位画像のいずれにも前記注目領域が１つも含まれていない場合、前記注目ショットを前記第２のショットタイプに分類させることができる。
前記第１のショットタイプは、前記注目ショットに含まれる単位画像の前記注目領域全体の空間領域に占めるオブジェクトの範囲が一定以上であるという第１の条件と、前記注目ショットに含まれる単位画像全体の空間領域に占める人間の顔の領域の範囲が一定以上であるという第２の条件と、前記注目ショットに含まれる単位画像の前記注目領域のうちの所定部分全体の空間領域に占めるオブジェクトの範囲が一定以上であるという第３の条件とに基づいて、さらに複数のショットタイプに分類される。
前記第１のショットタイプとして、前記第１の条件が満たされ、かつ、前記第２の条件が満たされる場合の第１−１のショットタイプと、前記第１の条件が満たされ、かつ、前記第２の条件が満たされない場合、または、前記第１の条件が満たされず、かつ、前記第３の条件が満たされる場合の第１−２のショットタイプと、前記第１の条件が満たされず、かつ、前記第３の条件が満たされない場合の第１−３のショットタイプとが存在する。

前記時系列モデルは、HMM(Hidden Markov Model)である。

前記単位画像に含まれ得る１以上の種類の前記オブジェクトに基づく単位画像タイプが複数定義されており、前記入力動画像を構成する各単位画像から、1以上の種類の前記オブジェクトのそれぞれの抽出を試みる特徴抽出手段が前記画像処理装置にはさらに設けられ、前記第２の生成手段には、前記特徴量抽出手段による抽出の試みの結果に基づいて、前記注目ショットに含まれる各単位画像の前記単位画像タイプを決定させ、決定された各単位画像の前記単位画像タイプの間の関連性を認識させ、その関連性を示す情報を、前記注目ショットの第２の特徴量として生成させることができる。

本発明の一側面の画像処理方法は、複数の単位画像から構成される動画像から、１以上の前記単位画像を含むショットが複数区分され、前記ショットを単位とする画像処理を施す画像処理装置の画像処理方法であって、ハイライトとして抽出すべき1以上のショットからなる既知のショット群が学習用動画像として複数用いられて、前記単位画像全体の空間領域に占めるオブジェクトの範囲に基づくショットタイプが複数定義されており、各ショット間の前記ショットタイプについての関連性の第１のルールと、１ショットに含まれる各単位画像間の関連性の第２のルールとが予め学習され、それらの学習結果が、前記ハイライトを判別する判別モデルとして保持手段に保持されており、新たに入力された入力動画像から区分される複数のショットのそれぞれを順次注目ショットにして、複数の前記ショットタイプのうちの何れかに分類し、前記複数のショットの各分類結果を用いて、前記注目ショットと他の１以上のショットとの前記ショットタイプについての関連性を認識し、その関連性を示す情報を、前記注目ショットの第１の特徴量として生成し、前記注目ショットに含まれる各単位画像の間の関連性を認識し、その関連性を示す情報を、前記注目ショットの第２の特徴量として生成し、生成された前記注目ショットの前記第１の特徴量が前記第１のルールに則した特徴量であるか否か、および、生成された前記注目ショットの前記第２の特徴量が前記第２のルールに則した特徴量であるか否かに基づいて、前記注目ショットが前記ハイライトに含まれるか否かを認定し、前記入力動画像を構成する前記複数のショットのうち、前記ハイライトに含まれると認定されたショットからなるショット群を、前記ハイライトとして抽出するステップを含み、前記第１のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第１の特徴量をそれぞれ用いて学習され、前記第２のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第２の特徴量をそれぞれ用いて学習され、前記保持手段は、前記第１のルールに基づく前記判別モデルとして、前記第１の特徴量を用いて前記第１のルールを学習することで得られる第１の時系列モデルを保持しているとともに、前記第２のルールに基づく前記判別モデルとして、前記第２の特徴量を用いて前記第２のルールを学習することで得られる第２の時系列モデルを保持している。

本発明の一側面のプログラムは、上述した本発明の一側面の画像処理方法に対応するプログラムである。

本発明の一側面の画像処理装置および方法並びにプログラムにおいては、複数の単位画像から構成される動画像から、１以上の前記単位画像を含むショットが複数区分され、前記ショットを単位とする次のような画像処理が施される。即ち、ハイライトとして抽出すべき1以上のショットからなる既知のショット群が学習用動画像として複数用いられて、前記単位画像全体の空間領域に占めるオブジェクトの範囲に基づく第１のショットタイプが複数定義されており、各ショット間の前記第１のショットタイプについての関連性の第１のルールと、１ショットに含まれる各単位画像間の関連性の第２のルールとが予め学習され、それらの学習結果が、前記ハイライトを判別する判別モデルとして保持手段に保持されており、新たに入力された入力動画像から区分される複数のショットのそれぞれが順次注目ショットにされて、複数の前記第１のショットタイプのうちの何れかに分類され、前記複数のショットの各分類結果を用いて、前記注目ショットと他の１以上のショットとの前記第１のショットタイプについての関連性が認識され、その関連性を示す情報が、前記注目ショットの第１の特徴量として生成され、前記注目ショットに含まれる各単位画像の間の関連性が認識され、その関連性を示す情報が、前記注目ショットの第２の特徴量として生成され、生成された前記注目ショットの前記第１の特徴量が前記第１のルールに則した特徴量であるか否か、および、生成された前記注目ショットの前記第２の特徴量が前記第２のルールに則した特徴量であるか否かに基づいて、前記注目ショットが前記ハイライトに含まれるか否かが認定され、前記入力動画像を構成する前記複数のショットのうち、前記ハイライトに含まれると認定されたショットからなるショット群が、前記ハイライトとして抽出される。前記第１のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第１の特徴量をそれぞれ用いて学習され、前記第２のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第２の特徴量をそれぞれ用いて学習される。前記保持手段には、前記第１のルールに基づく前記判別モデルとして、前記第１の特徴量を用いて前記第１のルールを学習することで得られる第１の時系列モデルが保持されるとともに、前記第２のルールに基づく前記判別モデルとして、前記第２の特徴量を用いて前記第２のルールを学習することで得られる第２の時系列モデルが保持されている。

以上のごとく、本発明の一側面によれば、映像解析技術を提供できる。特に、人の直感的な感覚で映像コンテンツを扱えるように、より効率よく映像コンテンツを管理し取り扱うための映像解析技術を提供できる。

このように、様々な側面を持つ本発明では、映像コンテンツが対象とされている。ここに、コンテンツとは、広く、人間の創造的活動により生み出されるものである。例えば、映画、音楽、演劇、文芸、写真、漫画、アニメーション、コンピュータゲームその他の文字、図形、色彩、音声、動作若しくは映像若しくはこれらを組み合わせたもの又はこれらに係る情報を電子計算機を介して提供するためのプログラムが、コンテンツの一例である。これらのうちの主に映像を含むコンテンツを、ここでは映像コンテンツと称している。映像コンテンツは、主に静止画像を含む静止画コンテンツと、主に動画像を含む動画コンテンツをとに大別できる。以下においては、動画コンテンツに着目して説明を行っていく。

ただし、本明細書では、いわゆるコンテンツデータ、即ち、人間の創造的活動により生み出されたものが装置によって処理可能な形態とされたもの、例えば電気信号とされたものや、メモリに固定されたもの等も、特に区別せずにまとめて、コンテンツと称する。即ち、ここでは、動画像を構成する各フレーム又はフィールドのデータ等の集合体もまた、動画コンテンツと称する。

また、本発明では、動画コンテンツに対する各種画像処理をアクセスユニット単位で実行するとする。アクセスユニットとは、フレームやフィールドといった動画像の単位を指し、具体的には例えば、動画像を構成する各静止画像全体（フレーム等）またはその一部分（フィールド等）を指す。ただし、以下、説明の簡略上、動画コンテンツに対する各種画像処理はフレーム単位で実行されるとする。

また、本発明による様々な画像処理の対象となった画像の具体例が幾つか図面に示されている。しかしながら、著作権保護等の観点から、画像処理の対象となった実際の画像そのものが図面に示されている訳ではなく、適宜マスクが施された画像であったり、線図化された画像が図面に示されている。例えば、後述する図３の画像２１，２２とは、画像処理の対象となった実際の画像ではなく、その実際の画像のうちの、実世界の観客席の柵に対応する領域と得点表示に対応する領域が白マスクされた後の画像となっている。即ち、図３は、後述する注目領域２４が検出された具体例を示しているが、図３に示される白マスクの画像２１から注目領域２４が検出された訳ではなく、その画像２１の元の実際の画像から注目領域２４が検出されていることに注意を要する。同様に、例えば後述する図４の例は、フレーム３１から選手の顔４１が検出されたことを示す例であるが、線図化された図４のフレーム３１に対して画像処理が施されて顔４１が検出されたわけではなく、実際には、図４のフレーム３１の線図化前の実写データに対してかかる画像処理が施されて、顔４１に対応する実写データとしての顔が検出されている。

図１は、本発明が適用される画像処理装置の機能的構成例を示している。

図１の例の画像処理装置は、注目領域抽出部１１乃至ハイライト検出部１５を含むように構成されている。

図２は、かかる図１の例の画像処理装置が実行する画像処理の一例を説明するフローチャートである。

ステップＳ１において、注目領域抽出部１１は、注目領域をフレーム毎に抽出する。

ここに、注目領域とは、実世界の被写体が撮影された結果得られる静止画像（ここでは１フレーム）に含まれる領域のうちの、実世界の１以上の背景のうちの、注目すべき背景に対応する領域をいう。

例えば、ここで動画コンテンツとして、サッカーの試合の映像が利用された場合を考える。この場合、動画コンテンツの実世界の被写体は、選手等のサッカーに関連する人物や、ボール等のサッカーの試合に関連する物体であり、実世界の背景としては、サッカーの試合が行われるプレイフィールド（主に芝生が生えている場所）と、それ以外の観客席等とに大別できる。この場合、サッカーの試合であることを考慮すると、プレイフィールドが注目すべき背景となる。従って、注目領域抽出部１１は、所定のフレームに含まれる領域のうちの、実世界のプレイフィールドに対応する領域（以下、プレイフィールド領域と称する）を注目領域として抽出することができる。

例えば、図３のフレーム２１は、サッカーの試合の一場面の画像であって、領域２３がプレイフィ−ルド領域である。注目領域抽出部１１は、このプレイフィールド領域２３を注目領域２４として抽出する。即ち、プレイフィールド領域が注目領域２４として抽出された結果として、画像２２が得られている。

詳細については図１２乃至図１６を用いて後述するが、注目領域抽出部１１は、予め学習によって得られたプレイフィールド領域の画像特徴モデル（例えば後述するHSVヒストグラムモデル）を利用して、処理の対象として注目すべきフレーム（以下、注目フレームと称する）にプレイフィールド領域が含まれているか否かを判定し、含まれていると判定した場合、そのプレイフィールド領域を注目領域として抽出する。

なお、プレイフィールド領域は、サッカー等のスポーツの映像が動画コンテンツとして採用された場合の注目領域の例示であり、その他、例えば放送局内のスタジオにて所定のセットを用いて撮影される放送番組の映像が動画コンテンツと採用された場合には、そのセットが注目背景となり、そのセットに対応する領域が注目領域として検出され得る。また例えば、音楽のコンサートの映像が動画コンテンツとして採用された場合には、そのステージが注目背景となり、そのステージに対応する領域が注目領域として検出され得る。即ち、色について特徴がある実世界の背景が撮影された結果として、後述するHSVヒストグラムが特徴的となる画像領域であれば、何れの画像領域も注目領域として検出され得る。

ステップＳ２において、オブジェクト特徴抽出部１２は、オブジェクト特徴をフレーム毎に抽出する。

ここに、オブジェクト特徴とは、注目領域の内部または隣接する領域に存在するオブジェクトの特徴を示す画像情報をいう。また、注目領域と他の領域の境界線や２以上の境界線の交差点もまたオブジェクトとみなし、かかるオブジェクトの特徴を示す画像情報もまたオブジェクト特徴に含めるとする。画像情報とは、オブジェクトの色情報の他、オブジェクトの位置情報等を含む広義な概念である。

例えば、ここで動画コンテンツとして、サッカーの試合の映像が利用された場合を考える。この場合、プレイフィールド領域が注目領域となるので、プレイフィールド領域内に存在する人物、例えば選手等の特徴を示す画像情報が検出され得る。具体的には例えば図４の例では、フレーム３１から選手の顔４１がオブジェクト特徴のひとつとして検出されている。また例えば、プレイフィールド領域の内部や隣接する領域に存在する人物以外についてのオブジェクト特徴情報として、図５の例では、フレーム３２からゴールゲート４２が検出されている。また例えば、図６の例では、フレーム３３から、コーナ位置４３やボール４４が検出されており、図７の例では、プレイフィールドの境界４５自体も、オブジェクト特徴の１つとして検出されている。その他、図示はしないが、白線等もオブジェクト特徴の１つとして検出され得る。

なお、オブジェクト特徴の検出の詳細については、図１７乃至図２７を参照して後述する。

図２に戻り、ステップＳ３において、ショットカット検出部１３は、動画コンテンツ中の各ショットカットを検出する処理（以下、ショットカット検出処理と称する）を実行する。換言すると、各ショットカット間のショットが検出されることになる。

例えば、図８の例では、サッカーの試合の映像である動画コンテンツのうちの、「Frame25302」と「Frame25303」と記述された２つのフレームの間がショットカットとして検出されている。即ち、図８において、「Frame25215」乃至「Frame25339」と記述された各画像は、そのフレーム番号を有する各フレームを示している。この場合、図８の例では、番号25215乃至25302までのフレームが第１のショットとして検出され、番号25303乃至25339までのフレームが第１のショットとは別の第２のショットとして検出されている。

なお、ショットカット検出処理の詳細については、図２８，図２９を参照して後述する。

図２に戻り、ステップＳ４において、ショット分類部１４は、動画コンテンツ中の各ショットのそれぞれを、予め定義されている複数種類のうちの何れかに分類する処理（以下、ショット分類処理と称する）を実行する。

例えば、図９の例では、各画像が１つのショットを示しており、時間方向を示す矢印で示されるように、サッカーの試合の映像である動画コンテンツのうちの８つの連続するショットのそれぞれが、「Long」,「Close-up」,「Close-Up」,「Medium」，「Long」,「Medium」，「Long」，「Medium」のそれぞれに分類されている。

なお、かかる「Long」等とは如何なる種類であるのかについては、図３０等を参照して後述する。また、ショット分類処理の詳細については、図３１乃至図３６を参照して後述する。

図２に戻り、ステップＳ５において、ハイライト検出部１５は、例えばステップＳ２の処理で抽出された各オブジェクト特徴や、ステップＳ４の処理で分類された各ショットの種類等に基づいて、即ち、例えば各ショットに属する各フレーム間の特徴量変化や各ショット間の時系列特徴等に基づいて、動画コンテンツの中からハイライトを検出する処理（以下、かかる処理をハイライト検出処理と称する）を実行する。なお、ハイライト検出部１５は、さらに、必要に応じて、そのハイライトによるダイジェスト作成を行うこともできる。

例えば、サッカーの試合の映像である動画コンテンツのうちの、コーナキックに相当する一連のシーンがハイライトして検出された場合に利用される情報の例が、図１０と図１１に示されている。

例えば図１０は、各ショットに属する各フレーム間の特徴量変化によって、ハイライトが検出された例を示している。即ち、図１０の例では、所定のショットに属する各フレーム間の特徴量（後述するフレームタイプ）が、「Upper Corner」→「Unknown」→「Goal Box」→「Goal Box」と遷移しており、かかる特徴量の遷移の仕方が、これまでに他のサッカーの試合の様々な映像で学習してきた結果（後述する図３７のLayer2についての統計的モデル）から判断して、コーナキックの遷移の仕方であると認定でき、その認定結果よりハイライトとして検出されたことを意味している。なお、「Upper Corner」等の各特徴量の意味については、図４２を参照して後述する。

また例えば、図１１は、各ショット間の時系列特徴としてショットの種類の推移の仕方によって、ハイライトが検出された例を示している。即ち、図１１の例では、各ショット種類が、「Close-up」→「Medium」→「Long Shot」→「Close-up」と推移しており、かかる各ショットの推移の仕方が、これまでに他のサッカーの試合の様々な映像で学習してきた結果（後述する図３７のLayer1についての統計モデル）から判断して、コーナキックの遷移の仕方であると認定でき、その認定結果によりハイライトとして検出されたことを意味している。なお、「Long」等の各種類については、図３０を参照して後述する。

この場合、図１０の例または図１１の例の何れか一方のみの認定結果から、コーナキックのハイライトが検出されるときもあるし、図１０の例と図１１の例との両者の認定結果、または、その両者の認定結果に加えてさらに他の情報も加味して総合的に判断されて、コーナキックのハイライトが検出されるときもある。

なお、ハイライト検出処理の詳細については、図３７乃至図４４を参照して後述する。

以下、図１の画像処理装置を構成する注目領域抽出部１１乃至ハイライト検出部１５のそれぞれの詳細について、その順番に個別に説明していく。その際、本発明の理解を容易なものとするために、以下、動画コンテンツの具体例を挙げる必要がある場合、図３乃至図１１の例にならい、サッカーの試合の映像が採用されているとする。

はじめに、図１２乃至図１６を参照して、図１の画像処理装置のうちの注目領域抽出部１１の詳細例について説明する。

図１２は、注目領域抽出部１１の機能的構成の詳細例を示している。

図１２の例の注目領域抽出部１１は、HSVヒストグラムモデル保持部５１乃至ポストプロセシング部５６を含むように構成されている。

HSVヒストグラムモデル保持部５１は、注目フレームから注目領域、即ち本実施の形態ではプレイフィールド領域を検出するために用いられるHSVヒストグラムモデルを保持している。

ここで、HSVヒストグラムモデルについて説明する。

図１３には、サッカーの試合の映像の一場面に対応する代表的なサンプル画像６１乃至６３のそれぞれについて、3D HSV（3-Dimensions Hue Saturation Value）ヒストグラムをそれぞれの１Dに射影した結果獲られるグラフ７１乃至７３のそれぞれが示されている。

グラフ７１乃至７３からわかるように、サッカーの試合の映像は、主に芝生の映像を含むプレイフィールド領域が多く含まれているため、そのHSVのヒストグラムの特徴（以下、3D HSVヒストグラム特徴と称する）には各フレーム相互に一定の関連性が存在する。

そこで、本発明人は、上述したサンプル画像６１乃至６３を含めて様々なサッカー試合映像から集められた数多くの画像、即ち、日中，夕方，夜といった様々な時間帯の画像や、晴れ，曇り，雨といった様々な天気での画像等の各3D HSVヒストグラム特徴を解析し、統計処理を施すことによって、次のような統計データの結果を得た。

即ち、注目されるプレイフィールド領域を含む画像でのHSVの可変範囲は、それぞれH[22, 68], S[32, 255], V[64, 175]となり、また、そのレンジ幅は最大でそれぞれH: 16, S: 128, V: 64になる、といった結果を得た。換言すると、サッカーの試合の時間帯や気候などによって、プレイフィールド領域を含む画像でのHSVの各成分の平均値はそれぞれ変わるが、各成分の分散幅のそれぞれはほぼH: 16, S: 128, V: 64の中に抑えられることが判明した。従って、このようなH,S,Vの各分散幅等のHSV特徴を利用することで、プレイフィールド領域をロバストに検出することが可能となる。

そこで本実施の形態では例えば、かかる分散範囲がHSVヒストグラムモデルとして、図１２のHSVヒストグラムモデル保持部５１に保持されているのである。

なお、このようなHSVヒストグラムモデルを学習で求めるためのトレーニング用サンプル画像として、例えば図１４に示される画像７１乃至７４のように、目視でも分かるような色特徴が違う様々な画像を採用することもできる。

図１２に戻り、ダウンサンプリング部５２は、注目フレームに対して、解像度を低くするための第１の処理を施し、また、HSVのそれぞれの成分の解像度を8Bitから2−3Bitに圧縮するための第２の処理を施した上で、HSV成分ピーク検出部５３と注目領域検出部５５に提供する。なお、第１の処理とは、処理速度向上と画像内ノイズ除去を主目的に行われる処理である。また、第２の処理とは、照明変化の影響の低減による、検出処理のロバスト性の向上を主目的に行われる処理である。

HSV成分ピーク検出部５３は、ダウンサンプリング部５２からの注目フレームについての3D HSVヒストグラム（図１３のグラフ７１乃至７３のようなグラフ等）を演算し、その3D HSVヒストグラムからH，S，Vの各成分のピークをそれぞれ検出し、各ピークを，H，S，Vの各中心値（各平均値）として、注目領域範囲決定部５４に通知する。

注目領域範囲決定部５４は、H，S,V成分の各中心値（各ピーク）のそれぞれに対して、HSVヒストグラムモデル保持部５１にHSVヒストグラムモデルとして保持されている上述したH，S，Vの各分散幅をそれぞれ持たせたH,S,Vの各範囲を決定し、それを注目領域範囲として注目領域検出部５５に通知する。

具体的には例えば本実施の形態では、上述したように、H成分のレンジ幅として「16」が、S成分のレンジ幅として「128」が、V成分のレンジ幅として「64」が、HSVヒストグラムモデル保持部５１にHSVヒストグラムモデルとして保持されている。従って、H成分の中心値（H成分のピーク）を中心として16のレンジ幅を有するHの範囲、S成分の中心値（S成分のピーク）を中心として128のレンジ幅を有するSの範囲、および、V成分の中心値（V成分のピーク）を中心として64のレンジ幅を有するVの範囲が、注目領域範囲として決定されて、注目領域検出部５５に提供される。

注目領域検出部５５は、ダウンサンプリング部５２からの注目フレームを構成する各画素のそれぞれを順次処理の対象として注目すべき画素（以下、注目画素）として、その注目画素に対して次のような処理を順次施していくことにより、注目領域、即ち本実施の形態ではプレイフィールド領域を検出する。

即ち、注目領域検出部５５は、注目画素の各H,S,Vの成分値が、注目領域範囲決定部５４から通知された注目領域範囲に含まれるか否かを判定し、含まれると判定した場合には、注目画素はプレイフィールド領域の画素であると検出する一方、含まれないと判定した場合には、注目画素はプレイフィールド領域以外の画素であると検出する。

例えば、図１５の例では、画像８１が注目フレームとされてプレイフィールド領域が検出された結果として、画像８２が得られている。即ち、画像８２のうちの黒い領域９１−１が、検出されたプレイフィールド領域である。同様に、図１６の例では、画像８４が注目フレームとしてプレイフィールド領域が検出された結果として、画像８５が得られている。即ち、画像８５のうちの黒い領域９２−１が、検出されたプレイフィールド領域である。

このようにして、プレイフィールド領域が検出された注目フレームは、図１２の注目領域検出部５５からポストプロセシング部５６に提供される。

ポストプロセシング部５６は、注目フレームに対して、ポストプロセシング、即ちノイズ除去のためのフィルタリング処理を施すことで、プレイフィールド領域内の直線等を除去することができる。換言すると、プレイフィールド領域内に存在する画素ではあるが、注目領域検出部５５によってはプレイフィールド領域の画素ではないと判定された画素を、改めてプレイフィールド領域の画素であると判定し直す処理が、ポストプロセシング部５６により実行される、と把握することもできる。

例えば、図１５の例では、上述した画像８２に対してポストプロセシングが施された結果として、画像８３が得られている。即ち、画像８３のうちの黒い領域９１−２が、領域９１−１から白い線や選手等が除去された後のプレイフィールド領域である。同様に、図１６の例では、上述した画像８５に対してポストプロセシングが施された結果として、画像８６が得られている。即ち、画像８６のうちの黒い領域９２−２が、領域９２−１から白い線や選手等が除去された後のプレイフィールド領域である。

以上説明したように、図１２の注目領域抽出部１１は、サッカーの試合の様々な映像を学習することによって得られる色分布特徴、即ち、HSVヒストグラムモデル保持部５１に保持されているHSVヒストグラムモデルを利用して、サッカーの実世界のプレイフィールドにおける芝の色を有する画像領域、即ち、プレイフィールド領域をロバストでリアルタイムに検出することができる。これにより、サッカーの試合の自動解析を行うことが可能となる。

換言すると、上述したように、プレイフィールド領域は、サッカーの試合の映像を動画コンテンツとして採用した場合における注目領域の単なる例示であり、採用される動画コンテンツの種類に応じた注目色を多く含む画像領域を、注目領域とすることができる。従って、所定の種類の動画コンテンツから注目領域を検出した場合には、その所定の種類の動画コンテンツの様々な映像を学習することによって、その所定の種類に適したHSVヒストグラムモデルを生成して、そのHSVヒストグラムモデルをHSVヒストグラムモデル保持部５１に保持させればよい。この場合も、その所定の種類の動画コンテンツが注目領域抽出部１１に入力されれば、全く同様に、その所定の種類についての注目領域がロバストかつリアルタイムに検出される。これにより、所定の種類の動画コンテンツの自動解析を行うことが可能となる。

また、詳細については後述するが、注目領域が抽出されれば、その注目領域内部またはそれに接する領域でのオブジェクト特徴の抽出も容易に可能となる。これにより、スポーツ映像等の様々な種類の動画コンテンツの解析におけるメタ情報の自動付与も可能となる。

さらにまた、詳細については後述するが、注目領域内とその隣接領域でのオブジェクト特徴の抽出ができれば、映像解析における高精度なショット検出やショット分類も可能となり、最終的には、動画コンテンツ内のハイライト抽出やダイジェスト映像の自動作成も可能となる。

以上、図１２乃至図１６を参照して、図１の画像処理装置のうちの注目領域抽出部１１の詳細例について説明した。

次に、図１７乃至図２７を参照して、図１の画像処理装置のうちのオブジェクト特徴抽出部１２の詳細例について説明する。即ち、以下、動画コンテンツとしてサッカーの試合が採用された場合における、オブジェクト特徴抽出部１２により抽出可能なオブジェクト特徴とその抽出手法について、幾つかの具体例を説明する。

図１７は、注目フレームのプレイフィールド領域内部でオブジェクトが存在する場合に、そのオブジェクトの大小、即ち、プレイフィールド領域内に占めるオブジェクトの割合の大小をオブジェクト特徴として抽出する場合における、その抽出手法例を説明する図である。

ここで、注目フレームのプレイフィールド領域における、プレイフィールドに対応する画素M(i,j)を、式（１）で表すとする。

プレイフィールドに対応する画素M(i,j)とは、図１２の注目領域検出部５５によりプレイフィールド領域の画素であると検出された画素、即ち、ポストプロセンシング部５６によるポストプロセンシングが行われて選手やボール等のオブジェクトが除去される前の画素をいう。換言すると、プレイフィールド領域を構成する画素のうちの、そのプレイフィールド領域内に存在する選手やボール等のオブジェクトを示す画素を除いた画素が、画素M(I,j)である。即ち、実世界上のプレイフィールド（芝生）の色特徴を有する画素が、画素M(I,j)である。具体的には例えば、上述した図１５のプレイフィールド領域９１−１や図１６のプレイフィールド領域９２−１のうちの黒色の画素が、画素M(I,J)に相当する。

式（１）において、HとWのそれぞれは、注目フレームの垂直方向（Ｙ方向）と水平方向（Ｘ方向）のそれぞれのサイズを示している。

この場合、オブジェクトの大小の特徴を示す特徴量（以下、投影特徴量と称する）として、式（２）に示される垂直方向投影特徴量Ph(i)と、水平方向投影特徴量Pv（j）とのそれぞれを利用することができる。

例えば、図１７には、注目フレームとして画像１０１が採用された場合における、垂直方向投影特徴量Ph(i)の推移を表すグラフ１１１−Ｈと、水平方向投影特徴量Pv(j)の推移を表すグラフ１１１−Ｖとが示されている。

詳細については図３２等を用いて後述するが、水平方向投影特徴量Pv(j)の変化が大きく、垂直方向投影特徴量Ph(i)の変化が小さい場合、プレイフィールド領域内部に大きなオブジェクトが存在すること、即ち例えば選手等のオブジェクトが大きく写っていることを意味する。一方、水平方向投影特徴量Pv(j)の変化が小さい場合、または垂直方向投影特徴量Ph(i)の変化が大きい場合、プレイフィールド領域内部に小さなオブジェクトが存在すること、即ち例えば選手等のオブジェクトが小さく写っていることを意味する。

このように、オブジェクト特徴抽出部１２は、注目フレームについて、垂直方向投影特徴量Ph(i)と水平方向投影特徴量Pv(j)とを演算し、垂直方向投影特徴量Ph(i)と水平方向投影特徴量Pv(j)との各変化の度合いに基づいて、プレイフィールド領域内部に存在するオブジェクトの大小を、オブジェクト特徴のひとつとして抽出することができる。

図１８は、注目フレームのプレイフィールド領域と他の領域との境界、若しくはその境界に関する情報、例えば境界線の角度や他の境界線との交差位置をオブジェクト特徴として抽出する場合における、その抽出手法例を説明する図である。

即ち、図１８には、注目フレームとして画像１２１が採用された場合における、黒色のプレイフィールド領域１２２の境界として、直線１２３，１２４が抽出された場合の例が示されている。

オブジェクト特徴抽出部１２は、注目フレームのプレイフィールド領域の境界の位置を画素単位で検出する。以下、このようにして検出された境界の位置を、式（３）に示されるように、B(i)と記述する。

この場合、境界の各位置B(i)は水平方向のW画素分の各位置を示しているので、オブジェクト特徴抽出部１２は、水平方向で30分割とする低解像度化処理を行い、即ち、境界の各位置B(i)の水平方向の個数を30個分に減縮して、境界の各位置B(i)における境界線の各角度A(i)、即ち、例えば各位置B(i)とその前後の各位置B(i-1)，B(i+1)等とを結ぶ直線の各角度A(i)を求める。なお、低解像度化の目的は、境界に接する人物やグラフィック等の影響（ノイズ）を低減するため、即ち、境界の位置B(i)として検出された中には実際の境界ではなく人物やグラフィックスの位置が含まれている場合がありこれらを除去するためである。

その後、オブジェクト特徴抽出部１２は、水平方向に30分割したうちの左側ｎ個分（ｎは１乃至３０の間の整数値）の角度Al(n)を式（４）に従って演算し、また、それよりも右側の角度Ar(n)を式（５）に従って演算する。

また、オブジェクト特徴抽出部１２は、式（６），式（７）のそれぞれに従って、左右両側の角度の分散値Dl(n)，Dr(n)のそれぞれを演算する。

そして、オブジェクト特徴抽出部１２は、式（８）で示される画素位置Nを、左右両直線の交差位置とする。

最後に、オブジェクト特徴抽出部１２は、画素位置Nでの左右両側の角度Al(n)，Ar(n)との角度差が１０度以上となる場合（即ち、式（９）の場合）、左右両側の角度Al(n)，Ar(n)をそれぞれ有する各直線を、異なる２つの境界線としてそれぞれ検出する。例えば図１８の例では、直線１２３，１２４が２つの境界線として検出されている。なお、画素位置Nでの左右両側の角度Al(n)，Ar(n)との角度差が１０度未満の場合には、１つの境界線とみなされる。

また、２つの境界線が検出された場合、後述する図２１に示されるように、それらの２つの境界線の交差位置を、サッカーのフィールドにおけるコーナ位置として抽出することもできる。

このようにして、オブジェクト特徴抽出部１２は、注目フレームのプレイフィールド領域と他の領域との境界、若しくはその境界に関する情報、例えば境界線の角度や他の境界線との交差位置をオブジェクト特徴として抽出することができる。

さらに、オブジェクト特徴抽出部１２は、プレイフィールド領域の境界の検出後、次のようにして、サッカーのフィールドに存在するゴール（以下、適宜ゴールゲート、ゴールボックス等称する）を、オブジェクト特徴のひとつとして抽出することもできる。

即ち、オブジェクト特徴抽出部１２は、注目フレームの各境界線に接する略垂直方向の白線を検出する。ここに、略垂直と記載したのは、実世界上のゴールゲートの白い構造体（鉄筋等）のうちの垂直方向の部分は、注目フレーム内で白線画像として含まれる場合には必ずしも正確な注目フレーム内で垂直方向となっていないからである。即ち、オブジェクト特徴抽出部１２は、各境界線に接し、かつ、注目フレームにおける垂直方向に対して左右α度（αは０乃至９０度のうちの任意の値）の猶予範囲の角度を有する白線を検出する。また、ここでいう白線とは、真の白の線を意味するわけではなく、白とみなすことができる範囲内の色で構成される線を意味する。

そして、オブジェクト特徴抽出部１２は、略垂直方向の２本以上の白線が検出された場合、２本以上の白線のうちの所定の２本の組を選択し、その組の２本の白線で囲む領域内に略水平方向の白線が存在するか否を確認する。なお、ここで略水平方向としたのは、上述した略垂直方向とした趣旨と同一である。また、係る確認は、組合せ可能な全ての組について行われる。オブジェクト特徴抽出部１２は、略垂直方向の２本の白線の組のうちの、略水平方向の白線が存在する組を１組以上検出した場合、それらの組をゴールゲートの候補として取り扱う。

そして、オブジェクト特徴抽出部１２は、図１９に示されるゴールゲート１３１のポスト高さ１３３とクロスバー長さ１３２との関係や、クロスバー長さ１３２とプレイフィールド幅との比例関係等の寸法の規定、即ち、ゴールゲートのセマンティックルールを用いて、正しいゴールゲートを抽出する。即ち、オブジェクト特徴抽出部１２は、１以上のゴールゲートの候補の中から、セマンティックルールを満たす候補をゴールゲートであるとして選抜する。

図２０には、このような手法によって検出されたゴールゲートの具体例が示されている。即ち、図２０には、注目フレームとして画像１４１が採用された場合における、黒色のプレイフィールド領域１４３の境界線に接する、２本の略垂直方向の白線分とそれらの間の１本の略水平方向の白線分とで囲まれる領域１４４が、ゴールゲートとして抽出された場合の例が示されている。図２０からは、画像１４１が複雑な背景を有しているにもかかわらず、ゴールゲート１４４がロバストに検出できていることがわかる。

図２１は、注目フレームのプレイフィールド領域におけるコーナ位置をオブジェクト特徴として抽出する場合における、その抽出手法例を説明する図である。

即ち、図２１には、注目フレームとして画像１５１が採用された場合における、黒色のプレイフィールド領域１６１の２つの境界線１６２，１６３の交差位置１６４がコーナ位置として抽出された場合の例が示されている。

なお、コーナ位置の検出手法は、図１８を用いて上述した境界線の検出手法と基本的に同様の手法である。即ち、オブジェクト特徴抽出部１２は、注目フレームについて、上述した式（３）乃至式（９）を演算することで、コーナ位置をオブジェクト特徴のひとつとして抽出することができる。

その他、抽出手法の具体例については冗長になるので説明を省くが、既知の手法等を利用することで、オブジェクト特徴抽出部１２は、様々なオブジェクト特徴を抽出することができる。

具体的なオブジェクト特徴の抽出結果の例が図２２乃至図２７に示されている。

即ち、図２２の例では、プレイフィールド領域に存在する選手１７１がオブジェクト特徴のひとつとして抽出されている。図２３の例では、プレイフィールド領域の上に合成される得点表示等のグラフィック領域１７２がオブジェクト特徴のひとつとして抽出されている。図２４の例では、プレイフィールド領域に存在するボール１７３がオブジェクト特徴のひとつとして抽出されている。図２５の例では、例えば選手と審判官との服の色の差異を利用して、選手ではなく、審判官１７４がオブジェクト特徴のひとつとして抽出されている。図２６の例では、プレイフィールド領域に存在する選手の動き、即ち、所定の方向に選手が所定の速度で走っている等の動きがオブジェクト特徴のひとつとして抽出されている。図２７の例では、選手の顔１７５がオブジェクト特徴のひとつとして抽出されている。

以上、図１７乃至図２７を参照して、図１の画像処理装置のうちのオブジェクト特徴抽出部１２の詳細例について説明した。

次に、図２８と図２９を参照して、図１の画像処理装置のうちのショットカット検出部１３の詳細例について説明する。

ショットカットとは、ショットとショットとの切り替り、即ちショット変化をいい、一般的には、ハードカット、フェードイン/フエードアウトカット、グラフィックスワイパーカットといった３種類に大別される。ハードカットでは、１乃至２フレームの間にショットが切り替るので、そのショット変化は検出しやすいが、フェードイン/フエードアウトカットやグラフィックスワイパーカットは、１０乃至３０フレーム程度の間にショットが切り替るので、そのショット変化を自動的に検出するのが容易ではない。

そこで、本発明人は、ハードカットのみならず、フェードイン/フエードアウトカットやグラフィックスワイパーカットまで容易にかつ正確に検出すべく、次のようなショットカット検出手法を発明した。

即ち、本発明人は、ショットカットの容易かつ正確な検出には、カメラの移動やフレーム内のオブジェクト移動に対するロバスト性を保つという第１の条件と、フレーム内の色特徴分布の変化に対して敏感に検出できるという第２の条件とを同時に満たす必要がある。

この場合、第１の条件と第２の条件とを満たすために、フレーム内のオブジェクトの動きの支配的な方向に対して、２以上の画像領域に分割して次のような各種演算を行うとよいと、本発明人は思想した。

フレーム内のオブジェクトの動きの支配的な方向としては、本実施の形態のように動画コンテンツがサッカーの試合の映像である場合では、フレームの水平方向を採用することができる。即ち、サッカーの試合のオブジェクトとは選手やボール等であり、これらの選手やボールはフレームに対して水平方向に動くことが多いからである。

具体的には例えば本実施の形態では、図２８に示されるように、各フレーム１８１乃至１８３のそれぞれについて、水平方向に画像領域が上から2:5:3という割合で３分割された上で、次のような各種演算を行うとした。なお、以下、図２８の記載にあわせて、2:5:3に３分割された画像領域のそれぞれを、領域R1，R2，R3のそれぞれと称する。

ここに、2:5:3に３分割した理由は、サッカーの試合の一場面を構成する様々なフレームを解析したところ、プレイフィールド領域が一番多く含まれる領域は総合的に判断すると領域R2となるからである。即ち、分割数や分割割合として、2:5:3の3分割を必ずしも採用する必要が無く、ショットカットを検出したい動画コンテンツの種類の特徴に応じて任意に変更可能である。

以上説明したように、ショットカット検出部１３は、はじめに、注目フレームを領域R1乃至R3に3分割する。

次に、ショットカット検出部１３は、注目フレームの領域R1乃至R3のそれぞれについて、色特徴分布として上述した3D HSVヒストグラム（図１３のグラフ７１乃至７３参照）をそれぞれ演算する。また、ショットカット検出部１３は、フレーム内のノイズなどに対するロバスト性を向上させるために、3D HSVヒストグラムの各H,S,Vの成分をそれぞれ２Bitsで表し、それらの３成分の2Bitsの集合データである6Bitsのデータを、色特徴分布を示す特徴量として生成する。なお、以下、かかる特徴量を、色特徴量HRkと記述する。ここに、ｋは、1乃至3のうちの何れかを示す。即ち、色特徴量HR1とは、領域R1についての色特徴量であり、色特徴量HR2とは、領域R2についての色特徴量であり、色特徴量HR3とは、領域R3についての色特徴量である。

そして、ショットカット検出部１３は、フレーム間の違いを示す特徴の一つとして、注目フレームの領域R1乃至R3のそれぞれについて、次の式（１０）の特徴量△Hkをそれぞれ演算する。以下、特徴量△Hkを色差分特徴量△Hkと称する。

式（１０）において、Htk(i)は、注目フレームの領域kについての色特徴量を示している。Htk-△(i)は、注目フレームから何フレームか前のフレームのの領域kについての色特徴量を示している。即ち、Δは何フレーム前の特徴量との違いを求めるかを示す定数である。

以上の結果として、領域R1についての色差分特徴量△HR1、領域R2についての色差分特徴量△HR2、および、領域R3についての色差分特徴量△HR3が得られることになる。

そこで、ショットカット検出部１３は、次の式（１１）を演算することで、フレーム全体としての色差分特徴量△Hを演算する。なお、以下、かかる色差分特徴量△Hを、総合色差分特徴量△Hと称する。

式（１１）において、α，β，γのそれぞれは、領域R1についての色差分特徴量△HR1、領域R2についての色差分特徴量△HR2、および、領域R3についての色差分特徴量△HR3のそれぞれに対して重み付けを与えるための所定のパラメータ値である。ここに、α，β，γの具体的な値は特に限定されないが、本実施の形態のようにサッカーの試合について言えば、βを一番大きな値とすると好適である。上述したように領域R2が、プレイフィールド領域が一番多く含まれることから、ショットカット検出にとって一番重要な領域であり、かかる領域R2に大きな重み付けを与えるのが適切だからである。

そして、ショットカット検出部１３は、この総合色差分特徴量△Hと、予め設定された閾値T1とを比較して、総合色差分特徴量△Hが閾値T1より大きい場合（△H＞T1の場合）、注目フレームはショットカットであると検出する。なお、閾値T1は、特に限定されないが、サッカーの試合等の映像から統計的に求めた値を採用すると好適である。

以上のショットカット検出部１３により実行される一連の処理に対応する手法が、本発明人により発明されたショットカット検出手法のひとつである。以下、かかる手法を、総合色特徴差分ショットカット検出手法と称する。

さらに、本発明人は、次のようなショットカット検出手法も発明した。

即ち、サッカーの試合のようなスポーツ映像では、注目領域の特徴を利用することによって、ショットカットをよりロバストに検出することが可能である。即ち、サッカーの試合の注目領域とはプレイフィールド領域であり、かかるプレイフィールド領域が一番多く含まれるフレーム内の領域が、上述した領域R2である。

そこで、領域R2内の注目色の特徴を利用して、ショットカットの検出も行える。ここに、注目色とは、注目領域における支配的な色であって、注目領域がプレイフィールド領域である場合には芝の色、即ち、いわゆる緑色である。換言すると、注目色の領域とは、図１２のポストプロセシング部５６によるポストプロセシングが行われる前のプレイフィールド領域、即ち、選手やボールや白線等のオブジェクトを含まない、実世界上の芝に対応する領域である。

具体的には、ショットカット検出部１３は、領域R2における注目色の領域が占める割合、即ち、領域R2を構成する画素の総数に対する注目色の画素の個数の比を演算する。以下、かかる割合を、注目色率DCRと称する。

次に、ショットカット検出部１３は、注目色率DCRが５０％を超えるか否かを判定し、超えると判定した場合には、注目フレームはショットカットの可能性があるとして、次の式（１２）の演算を行う。即ち、式（１２）も、フレーム間の違いを示す特徴の一つである特徴量△DCRを演算するための式である。以下、かかる特徴量△DCRを、注目色差分特徴量△DCRと称する。

式（１２）において、DCRt(i)は、注目フレームについての注目色率を示している。DCRt-△は、注目フレームから何フレームか前のフレームの注目色率を示している。即ち、Δは、上述した式（１０）と同様に、何フレーム前の特徴量との違いを求めるかを示す定数である。

そして、ショットカット検出部１３は、この注目色差分特徴量△DCRと、予め設定された閾値T2とを比較して、注目色差分特徴量△DCRが閾値T2より大きい場合（△DCR＞T2の場合）、注目フレームはショットカットであると検出する。なお、閾値T2は、特に限定されないが、サッカーの試合等の映像から統計的に求めた値を採用すると好適である。

以上のショットカット検出部１３により実行される一連の処理に対応する手法が、本発明人により発明されたショットカット検出手法のひとつである。以下、かかる手法を、注目色差分ショットカット検出手法と称する。

なお、総合色特徴差分ショットカット検出手法と、注目色差分ショットカット検出手法とはそれぞれ独立した手法であるため、何れか一方のみを利用してショットカットを検出することも可能である。ただし、総合色特徴差分ショットカット検出手法と、注目色差分ショットカット検出手法とを組み合わせることで、より一段と正確なショットカットの検出が可能になる。

例えば図２９には、総合色特徴差分ショットカット検出手法と、注目色差分ショットカット検出手法とを組み合わせて適用した場合のショットカット検出処理、即ち、図２のステップＳ３の詳細な処理の一例を説明するフローチャートが示されている。

ステップＳ２１において、ショットカット検出部１３は、入力されたフレームを注目フレームに決定する。

ステップＳ２２において、ショットカット検出部１３は、上述した式（１１）の演算等により、注目フレームにつていの色差分特徴量△Hを算出する。

ステップＳ２３において、ショットカット検出部１３は、色差分特徴量△Hは閾値T1より大きいか否か（△H>T1であるか否か）を判定する。

色差分特徴量△Hが閾値T1を超えている場合、ステップＳ２３の処理でＹＥＳであると判定されて、処理はステップＳ２４に進む。ステップＳ２４において、ショットカット検出部１３は、注目フレームは、ショットカットであると検出する。これにより、処理はステップＳ３０に進む。ただし、ステップＳ３０以降の処理については後述する。

これに対して、色差分特徴量△Hが閾値T1以下の場合、ステップＳ２３の処理でＮＯであると判定されて、処理はステップＳ２５に進む。ステップＳ２５において、ショットカット検出部１３は、注目フレームにつていの注目色率DCRを算出する。

ステップＳ２６において、ショットカット検出部１３は、注目色率DCRは５０％を超えているか否か（DCR>50%であるか否か）を判定する。

注目色率DCRが５０％以下の場合、ステップＳ２６の処理でＮＯであると判定されて、処理はステップＳ２７に進む。ステップＳ２７において、ショットカット検出部１３は、注目フレームは、ショットカットではないと検出する。これにより、処理はステップＳ３０に進む。ただし、ステップＳ３０以降の処理については後述する。

これに対して、注目色率DCRが５０％を超えている場合、ステップＳ２６の処理でＹＥＳであると判定されて、処理はステップＳ２８に進む。ステップＳ２８において、ショットカット検出部１３は、上述した式（１２）の演算等により、注目色差分特徴量△DCRを算出する。

ステップＳ２９において、ショットカット検出部１３は、注目色差分特徴量△DCRが閾値T2より大きいか否か（△DCR＞T2であるか否か）を判定する。

注目色差分特徴量△DCRが閾値T2より大きい場合には、ステップＳ２９の処理でＹＥＳであると判定されて、ステップＳ２４の処理で、注目フレームはショットカットであると検出される。

これに対して、注目色差分特徴量△DCRが閾値T2以下の場合には、ステップＳ２９の処理でＮＯであると判定されて、ステップＳ２７の処理で、注目フレームはショットカットではないと検出される。

このようにして、ステップＳ２４またはＳ２７の処理が終了すると、即ち、注目フレームがショットカットであるか否かの検出が終了すると、処理はステップＳ３０に進む。ステップＳ３０において、ショットカット検出部１３は、注目フレームは最後のフレームであるか否かを判定する。

ステップＳ３０において、注目フレームは最後のフレームではないと判定されると、処理はステップＳ２１に戻されて、それ以降の処理が繰り返される。

即ち、動画コンテンツを構成する各フレームのそれぞれについて、上述したステップＳ２１乃至Ｓ３０のループ処理が繰り返されて、ショットカットであるか否かの検出がフレーム毎に行われていく。そして、最後のフレームについてショットカットであるか否かの検出が行われると、ステップＳ３０の処理でＹＥＳであると判定されて、ショットカット検出処理は終了する。即ち、図２のステップＳ３の処理は終了し、ステップＳ４のショット分類処理が引き続き実行される。

以上、図２８と図２９を参照して、図１の画像処理装置のうちのショットカット検出部１３の詳細例について説明した。かかるショットカット検出部１３を採用することで、画像（フレーム）全体を、カメラの水平運動や人物の水平動きに対してロバストな特徴量で記述できる複数の領域にそれぞれ分割し、それぞれの領域内の色分布特徴や注目色の領域特徴を用いることによって高精度なショットカット検出が可能となり、その結果、スポーツ映像等の解析におけるメタ情報の自動付与が可能となる。

次に、図３０乃至図３６を参照して、図１の画像処理装置のうちのショット分類部１４の詳細例について説明する。

即ち、上述したショットカット検出部１３のショットカット検出処理の結果として、動画コンテンツは複数のショットに区分されることになる。そこで、ショット分類部１４は、これらの複数のショットのそれぞれを、予め定義されている1以上の種類のうちの所定の種類に１つずつ分類していく。なお、かかる種類は、後述するようにショットタイプとも称される。

本実施の形態では、動画コンテンツとしてサッカーの試合の映像が採用された場合に好適なショットの種類として、例えば図３０に示されるような「Long」，「Medium」，「Close-up」，「Out」の4種類が定義されているとする。

図３０の各サンプル画像からわかるように、「Long」とは、サッカーの試合の全体状況が分かるようなショット、即ち、プレイフィールド領域と選手等の全体的ビューからなるショットの種類をいう。「Medium」は、カメラがズームした状態で数人の選手等がプレイフィールド領域に存在するショットの種類をいう。「Close-up」とは、１乃至２の選手等がフォーカスされ、その顔の識別ができるようなショットの種類をいう。「Out」とは、プレイフィールド領域が含まれないショットの種類をいう。

このような４種類のうちの何れかに分類されるショット分類処理、即ち、図２のステップＳ４の処理の詳細例を説明するフローチャートが、図３１に示されている。

ステップＳ５１において、ショット分類部１４は、入力されたショットを注目ショットに設定する。

ステップＳ５２において、ショット分類部１４は、注目ショットに注目領域は含まれているか否か、即ち本実施の形態ではプレイフィールド領域は含まれるか否かを判定する。

ステップＳ５２において、注目ショットに注目領域は含まれていないと判定した場合、ショット分類部１４は、ステップＳ５３において、注目ショットの種類は、「Out」またはフィールド外「Close-up」であると決定する。その後、処理はステップＳ６２に進む。ただし、ステップＳ６２以降の処理については後述する。

なお、フィールド外「Close-up」とは、１乃至２の選手等がフォーカスされ、その顔の識別ができるようなショットであって、プレイフィールド領域がほぼ検出されていないショットの種類をいう。その意味で、フィールド外「Close-up」とは、「Out」に含めることもできるが、後述するハイライト検出において、フィールド外「Close-up」から識別した顔を利用する等も可能であるので、ここでは「Out」とは区別して記述している。

これに対して、注目ショットにプレイフィールド領域が含まれている場合、ステップＳ５２の処理でＹＥＳであると判定されて、処理はステップＳ５４に進む。

ステップＳ５４において、ショット分類部１４は、注目ショットの注目領域についての投影特徴量Ph,Pvを算出する。

具体的には例えば、ショット分類部１４は、上述した式（２）を利用して、垂直方向のH画素分の各垂直方向投影特徴量Ph(i)と、水平方向のW画素分の各水平方向投影特徴量Pv(j)とを算出する。

さらに、ショット分類部１４は、ノイズの影響を低減させるために、垂直方向のH画素分の各垂直方向投影特徴量Ph(i)に対して低解像度処理を施し、10個分の各垂直方向投影特徴量Ph(i)とし、また、水平方向のW画素分の各水平方向投影特徴量Pv(j)に対して低解像度処理を施し、30個分の各水平方向投影特徴量Pv(j)とする。

そして、このような処理の結果として、注目ショットの注目領域についての投影特徴量Ph,Pvのそれぞれとして、10個分の各垂直方向投影特徴量Ph(i)の分布を示す特徴量と、30個分の各水平方向投影特徴量Pv(j)の分布を示す特徴量とが得られることになる。

即ち、上述した図１７のグラフ１１１−Ｈに示されるような各垂直方向投影特徴量Ph(i)の分布を示す特徴量が、垂直方向投影特徴量Phの一例である。換言すると、プレイフィールド領域を構成する画素のうちのプレイフィールドの色特徴を有する画素（オブジェクトを除く画素）を垂直方向の1ラインに投影した場合におけるその1ライン上の分布を示す特徴量が、垂直方向投影特徴量Phである。

また、上述した図１７のグラフ１１１−Vに示されるような各水平方向投影特徴量Pv(j)の分布を示す特徴量が、水平方向投影特徴量Pvの一例である。換言すると、プレイフィールド領域を構成する画素のうちのプレイフィールドの色特徴を有する画素（オブジェクトを除く画素）を水平方向の1ラインに投影した場合におけるその1ライン上の分布を示す特徴量が、水平方向投影特徴量Pvである。

ステップＳ５５において、ショット分類部１４は、注目ショットの注目領域についての投影特徴量Ph,Pvに基づく特徴が、「Close-up」or「Medium」型であるか否かを判定する。

注目ショットの注目領域についての投影特徴量Ph,Pvに基づく特徴とは、ショットの種類を分類可能な特徴であれば特に限定されないが、ここでは、図３２のテーブルで示される特徴が採用されているとする。

また、「Close-up」or「Medium」型とは、注目ショットの型が「Close-up」または「Medium」に分類される型であることをいう。なお、後述する他の型も、基本的に同様である。

即ち、図３２は、ショットの注目領域についての投影特徴量Ph,Pvと、ショットの種類の関係を示したものである。

図３２の横軸のVertical Projection Featureとは、所定のショットについて上述したステップＳ５４の処理と同様の処理が施された結果得られる30個分の各水平方向投影特徴量Pv(j)のうちの、最大値と最小値との差分値を示している。即ち、水平方向投影特徴量Pvで示される分布の最大値と最小値との差分値が、Vertical Projection Featureである。

一方、図３２の縦軸のHorizontal Projection Featureとは、所定のショットについて上述したステップＳ５４の処理と同様の処理が施された結果得られる10個分の各垂直方向投影特徴量Ph(i)のうちの、最大値と最小値との差分値を示している。即ち、垂直方向投影特徴量Phで示される分布の最大値と最小値との差分値が、Horizontal Projection Featureである。

また、図３２において、小さな＊印の点は、「Long」であることが既知の１つのショットに対して、上述したステップＳ５４の処理と同様の処理を施し、その処理結果をプロットしたものを示している。小さな○印の点は、「Medium」であることが既知の１つのショットに対して、上述したステップＳ５４の処理と同様の処理を施し、その処理結果をプロットしたものを示している。小さな□印の点は、「Close-up」であることが既知の１つのショットに対して、上述したステップＳ５４の処理と同様の処理を施し、その処理結果をプロットしたものを示している。

なお、上述したステップＳ５４の処理と同様の処理の結果を図３２のテーブル上にプロットするとは、ステップＳ５４の処理と同様の処理が行われた結果それぞれ得られる投影特徴量Pv，Phを利用してプロットすること、具体的には、水平方向投影特徴量Pvで示される分布の最大値と最小値との差分値を横軸の座標として、垂直方向投影特徴量Phで示される分布の最大値と最小値との差分値を縦軸の座標として、図３２のテーブル上に点をプロットすることをいう。

このような種類が既知である複数のショットについての各プロットの結果として、領域１９１には、「Long」または「Medium」のショットの点が含まれることとなった。これにより、上述したステップＳ５４の処理の結果を図３２のテーブル上にプロットした場合に、そのプロットされた点が領域１９１に含まれるときには、注目ショットは「Long」または「Medium」に分類できることがわかる。

なお、上述したステップＳ５４の処理の結果を図３２のテーブル上にプロットするとは、上述したステップＳ５４の処理の結果それぞれ得られる投影特徴量Pv，Phを利用してプロットすること、具体的には、水平方向投影特徴量Pvで示される分布の最大値と最小値との差分値を横軸の座標として、垂直方向投影特徴量Phで示される分布の最大値と最小値との差分値を縦軸の座標として、図３２のテーブル上に点をプロットすることをいう。

以下同様に、種類が既知である複数のショットについての各プロットの結果として、領域１９２には、「Long」のショットの点が含まれることとなった。これにより、上述したステップＳ５４の処理の結果を図３２のテーブル上にプロットした場合に、そのプロットされた点が領域１９２に含まれるときには、注目ショットは「Long」に分類できることがわかる。

種類が既知である複数のショットについての各プロットの結果として、領域１９３には、「Long」，「Medium」，「Close-up」のショットの点が何れも含まれることとなった。即ち、上述したステップＳ５４の処理の結果を図３２のテーブル上にプロットした場合に、そのプロットされた点が領域１９３に含まれるときには、注目ショットの分類は困難であることがわかる。換言すると、領域１９３とは、いわゆるグレーゾーンであるといえる。

種類が既知である複数のショットについての各プロットの結果として、領域１９４には、「Close-up」または「Medium」のショットの点が含まれることとなった。これにより、上述したステップＳ５４の処理の結果を図３２のテーブル上にプロットした場合に、そのプロットされた点が領域１９４に含まれるときには、注目ショットは「Close-up」または「Medium」に分類できることがわかる。

なお、領域１９３は、「Long」，「Medium」，「Close-up」の何れに分類することも困難なグレーゾーンであるとはいったが、実際には、「Long」に分類されることは稀であり、領域１９４に近い領域であるといえる。そこで、ここではショットの種類の分類を簡便にするために、上述したステップＳ５４の処理の結果を図３２のテーブル上にプロットした場合に、そのプロットされた点が領域１９３または領域１９４に含まれるときには、注目ショットは「Close-up」または「Medium」に分類されるとする。

即ち、上述したステップＳ５４の処理の結果を図３２のテーブル上にプロットした場合に、そのプロットされた点が領域１９３または領域１９４に含まれるときには、ステップＳ５５の処理でＹＥＳであると判定されて、即ち、注目ショットの注目領域についての投影特徴量Ph,Pvに基づく特徴が、「Close-up」or「Medium」型であると判定されて、処理はステップＳ５６に進む。

ステップＳ５６において、ショット分類部１４は、オブジェクト特徴が「Close-up」型であるか否かを判定する。

ステップＳ５６において、オブジェクト特徴が「Close-up」型であると判定した場合、ショット分類部１４は、ステップＳ５７において、注目ショットの種類は「Close-up」であると決定する。その後、処理はステップＳ６２に進む。ただし、ステップＳ６２以降の処理については後述する。

これに対して、ステップＳ５６において、オブジェクト特徴が「Close-up」型ではないと判定した場合、即ち、オブジェクト特徴が「Medium」型であると判定した場合、ショット分類部１４は、ステップＳ５８において、注目ショットの種類は「Medium」であると決定する。その後、処理はステップＳ６２に進む。ただし、ステップＳ６２以降の処理については後述する。

即ち、ステップＳ５５の処理でＹＥＳであると判定された場合とは、注目ショットが「Close-up」または「Medium」に分類できる場合である。

そこで、このような場合には、本実施の形態では、上述した図１のオブジェクト特徴抽出部１２により抽出されたオブジェクト特徴に基づいて、注目ショットを「Close-up」または「Medium」に分類するようにしたのである。

この場合、オブジェクト特徴抽出部１２により抽出されるオブジェクト特徴は様々な種類が存在し、何れの種類を利用することもできるし、また、1以上の種類を組み合わせて利用することもできる。

例えば図３３の例では、オブジェクト特徴として顔領域が利用されている。即ち、画像２０１からは顔領域２１１，２１２が検出されている一方、画像２０２から顔領域２１３が検出されている。顔領域２１１，２１２と、顔領域２１３とを比較するに、大きさがそれぞれ違うことがわかる。そこで、顔領域の大きさを特徴量として、その特徴量が閾値を超えている型を「Close-up」型であるとして、その特徴量が閾値以下の型を「Medium」型であると定義することができる。即ち、ショット分類部１４は、閾値を超える大きさの顔領域を含む注目ショットについては、「Close-Up」であると決定する一方、閾値以下の大きさの顔領域を含む注目ショットについては「Medium」であると決定することができる。

また、仮にオブジェクト特徴抽出部１２により顔領域の抽出がなされていなかった場合でも、例えば、選手のユニフォームの色等を用いて選手の領域が抽出されていれば、ショット分類部１４は、その領域の幅を特徴量として利用して「Medium」または「Close-up」の分類を行うことができる。

このようにして、上述したステップＳ５４の処理の結果を図３２のテーブル上にプロットした場合に、そのプロットされた点が領域１９３または領域１９４に含まれるときには、ステップＳ５５の処理でＹＥＳであると判定されて、ステップＳ５６乃至Ｓ５８の処理により、注目ショットの種類が「Close-Up」または「Medium」に決定される。

これに対して、上述したステップＳ５４の処理の結果を図３２のテーブル上にプロットした場合に、そのプロットされた点が領域１９１または領域１９２に含まれるときには、ステップＳ５５の処理でＮＯであると判定されて、次のようなステップＳ５９以降の処理が実行されて、注目ショットの種類が「Medium」または「Long」に決定される。

即ち、ステップＳ５９において、ショット分類部１４は、注目ショットの注目領域のうちの背景除外領域についての投影特徴量Ph1,Pv1を算出する。

ここに、背景除外領域とは、サッカーの試合の画像では、観客席部分等を示す背景領域を除いた領域である。具体的には例えば、図３４の例では、サッカーの試合の画像２３１については、プレイフィールド領域２４１以外が背景領域である。従って、サッカーの試合の画像２３１における背景除外領域とは、実線２５１の下方であって、点線２５２，２５３に挟まれた範囲が背景除外領域として採用される。同様に、サッカーの試合の画像２３２については、プレイフィールド領域２４２以外が背景領域である。従って、サッカーの試合の画像２３２における背景除外領域とは、実線２５４の下方であって、点線２５５，２５６に挟まれた範囲が背景除外領域として採用される。

そこで、ショット分類部１４は、このような背景除外領域について、上述した式（２）を利用して、垂直方向のH画素分の各垂直方向投影特徴量Ph(i)と、水平方向のW画素分の各水平方向投影特徴量Pv(j)とを算出する。

さらに、ショット分類部１４は、ノイズの影響を低減させるために、垂直方向のH画素分の垂直方向投影特徴量Ph(i)に対して低解像度処理を施し、10個分の各垂直方向投影特徴量Ph1(i)とし、また、水平方向のW画素分の水平方向投影特徴量Pv(j)に対して低解像度処理を施し、30個分の各水平方向投影特徴量Pv1(j)とする。

そして、このような処理の結果として、背景除外領域についての投影特徴量Ph1,Pv1として、10個分の各垂直方向投影特徴量Ph1(i)の分布を示す特徴量と、30個分の各水平方向投影特徴量Pv1(j)の分布を示す特徴量とが得られることになる。

そこで、ステップＳ６０において、ショット分類部１４は、背景除外領域についての投影特徴量Ph1,Pv1に基づく特徴が、「Medium」型であるか否かを判定する。

即ち、図３２の領域１９１にプロットされた複数のショットのそれぞれについて、各背景除外領域を用いて再プロットすると、「Long」の背景除外領域の点は、図３６に示されるように領域１９１のうちの領域２７１に含まれる一方、「Medium」の背景除外領域の点は、領域１９１のうちの領域２７２に含まれることとなった。

これにより、上述したステップＳ５９の処理結果を図３２と図３６のテーブル上にプロットした場合に、そのプロットされた点が領域２７２に含まれるときには、ステップＳ６０の処理でＹＥＳであると判定されて、即ち、背景除外領域についての投影特徴量Ph1,Pv1に基づく特徴が、「Medium」型であると判定されて、ステップＳ５８において、注目ショットの種類は「Medium」であると決定される。

これに対して、上述したステップＳ５９の処理の結果を図３２と図３６のテーブル上にプロットした場合に、そのプロットされた点が領域１９２（図３２）または領域２７１（図３６）に含まれるときには、ステップＳ６０の処理でＮＯであると判定されて、即ち、背景除外領域についての投影特徴量Ph1,Pv1に基づく特徴が「Long」型であると判定されて、処理はステップＳ６１に進む。ステップＳ６１において、ショット分類部１４は、注目ショットの種類は「Long」であると決定する。

以上のようにして、ステップＳ５３、Ｓ５７、Ｓ５８、またはＳ６１の処理が終了すると、即ち、注目ショットの種類が、「Out」、フィールド外「Close-up」、「Close-up」、「Medium」、または「Long」であると決定されると、処理はステップＳ６２に進む。

ステップＳ６２において、ショット分類部１４は、注目ショットは最後のショットであるか否かを判定する。

ステップＳ６２において、注目ショットは最後のショットではないと判定されると、処理はステップＳ５１に戻されて、それ以降の処理が繰り返される。

即ち、動画コンテンツにおける各ショットのそれぞれについて、上述したステップＳ５１乃至Ｓ６２のループ処理が繰り返されて、各ショットの種類が決定されていく。そして、最後のショットの種類が決定されると、ステップＳ６２の処理でＹＥＳであると判定されて、ショット分類処理は終了する。即ち、図２のステップＳ４の処理は終了し、ステップＳ５のハイライト検出処理が引き続き実行される。

以上、図３０乃至図３６を参照して、図１の画像処理装置のうちのショット分類部１４の詳細例について説明した。このようなショット分類部１４を採用することで、様々なショットタイプに対して、注目領域内の射影特徴（例えば上述した投影特徴量Ph,PV等）やその注目領域内や隣接領域でのオブジェクト特徴を用いることができ、その結果、高精度なショット分類が可能となる

次に、図３７乃至図４４を参照して、図１の画像処理装置のうちのハイライト検出部１５の詳細例について説明する。

図３７は、ハイライト検出部１５によるハイライト抽出のためのフレームワークを示している。ハイライト抽出は、図３７に示されるように、基本的に３つのレイヤLayer1乃至Layer３で行われる。

Layer1とは、ショット間のショットタイプの時間的な関連性ルール、或いは、そのような関連性ルールについての統計的モデルを表すレイヤである。ここで、ショットタイプとは、ショット分類部１４により分類された各ショットの種類をいい、例えばサッカーの試合についての本実施の形態では、上述した図３０に示される「Long」，「Medium」，「Close-up」，「Out」の４種類が存在する。

例えば、ハイライトとして抽出すべきサッカーのコーナキックのシーンであることが既知のショット群を学習用画像として複数用意し、それらの複数の学習用画像からショットタイプの時間推移のルールが学習され、その学習の結果得られるルールを示す統計的モデルが予め存在するとすれば、ハイライト検出部１４は、新たに入力された動画コンテンツについてのショットタイプの時間推移を認識して、例えば図１１に示されるようなショットタイプの時間推移を認識して、そのショットタイプの時間推移が、統計的モデルと合致または類似しているショット群を発見した場合には、そのショット群をハイライトとして抽出することができる。

Layer2とは、所定の１ショットを構成するフレームのうちの意味を持つフレーム間の時間的な関連性ルール、或いは、そのような関連性ルールについての統計的モデルを表すレイヤである。

例えば、ハイライトとして抽出すべきサッカーのコーナキックのシーンであることが既知のショットを学習用画像として複数用意し、それらの複数の学習用画像から、1ショットを構成する各フレームのフレームタイプの時間推移のルールが学習され、その学習の結果得られるルールを示す統計的モデルが予め存在するとすれば、ハイライト検出部１４は、動画コンテンツについての各ショット内のフレームタイプの時間推移を認識して、例えば図１０に示されるようなフレームタイプの時間推移を認識して、統計的モデルと合致または類似しているショットを発見した場合、そのショットをハイライトの少なくとも一部分として抽出することができる。なお、図１０に示される「Upper Corner」等のフレームタイプについては、図４２を参照して後述する。

Layer3とは、フレーム内の特徴量によって、そのフレームに対して意味付けを行うレイヤである。即ち、このLayer3により意味づけられたフレームを用いて得られたルール、即ち、フレーム間の時間的な関連性ルールを表すレイヤが、Layer2となる。ここに、フレーム内の特徴量としては、例えば本実施の形態ではサッカーの試合に関する特徴量、例えば図１７乃至図２７を用いて上述した各種オブジェクト特徴、即ち、図１のオブジェクト特徴抽出部１２により抽出される各種オブジェクト特徴を採用することができる。或いは、Layer2として上述した例のようにフレームタイプ推移が利用される場合には、フレームタイプをフレーム内の特徴量として捉えることができる。なお、フレームタイプは、図１のオブジェクト特徴抽出部１２により抽出されるオブジェクト特徴に基づいて決定され得るが、このことについては、図４２を参照して後述する。

図３８は、ハイライト検出部１５の詳細な機能的構成例を示している。

図３８の例のハイライト検出部１５は、学習部３０１乃至ハイライト抽出部３０６を含むように構成されている。

学習部３０１は、上述したLayer1やLayer2についてのルールを学習し、その学習の結果得られる統計的モデルをモデル保持部３０２に保持させる。なお、学習部３０１の詳細については、図４０乃至図４４を参照して後述する。

Layer1特徴量生成部３０３とLayer3特徴量生成部３０４には、図１のショットタイプ分類部１４からの動画コンテンツが入力される。即ち、Layer1特徴量生成部３０３とLayer3特徴量生成部３０４に入力される動画コンテンツとは、図１において、注目領域抽出部１１とオブジェクト特徴抽出部１２によりオブジェクト特徴がフレーム毎に抽出され、ショットカット検出部１３により複数のショットに区分され、さらに、かかる複数のショットのそれぞれのショットタイプがショット分類部１４により決定された動画コンテンツである。

そこで、Layer1特徴量生成部３０３は、Layer1でのハイライト抽出を行うための特徴量（以下、Layer1特徴量と称する）を生成し、ハイライト抽出部３０６に提供する。

なお、Layer1特徴量は、モデル保持部３０２に保持されているLayer1の統計的モデルの形態に応じて、様々な特徴量を採用することができる。

具体的には例えば、Layer1の統計的モデルとしてショットタイプの時間推移の順番や、各ショットタイプを各状態とする状態遷移図等が与えられている場合には、図１１に示されるようなショットタイプの時間推移を、Layer1特徴量として採用することができる。

また例えば、Layer1の統計的モデルとして、「１）「Long」ショット前の非「Long」ショット数が所定の範囲内の個数存在する、２」非「Long」ショットのトータル期間（長さ）が所定の範囲内の長さであるといった条件を満たす場合、サッカーのコーナキックのシーンである」、といったモデルが与えられている場合には、かかる条件１），２）を満たすか否かを特定できる情報、即ち、処理の対象として注目すべき「Long」ショット（以下、注目「Long」ショットと称する）前の非「Long」ショット数、および、非Longショットのトータル期間（長さ）といった情報を、Layer1特徴量として採用することができる。

Layer3特徴量生成部３０４は、上述したように、フレーム内のオブジェクト特徴や、フレームタイプといった情報を、Layer3特徴量として生成し、Layer2特徴量生成部３０５に提供する。

Layer2特徴量生成部３０５は、Layer2でのハイライト抽出を行うための特徴量（以下、Layer2特徴量と称する）を生成し、ハイライト抽出部３０６に提供する。

なお、Layer2特徴量は、モデル保持部３０２に保持されているLayer2の統計的モデルの形態に応じて、様々な特徴量を採用することができる。

具体的には例えば、Layer2の統計的モデルとしてフレームタイプの時間推移の順番や、後述する図４４のような状態遷移図等が与えられている場合には、図１０に示されるようなフレームタイプの時間推移を、Layer2特徴量として採用することができる。

また例えば、Layer2の統計的モデルとして、「１）数フレームに渡ってゴールボックスが観測される、２）ゴールボックスの前には中央線が観測されない、３）ゴールボックスは画面の両側から中央に動くようにフレームが推移していく、および、４）ショットの初めにコーナが観測されないといった条件を満たす場合、サッカーのコーナキックのシーンを形成する1ショットである」といったモデルが与えられている場合には、かかる１）至４）のそれぞれを満たすか否かを特定できる情報を、Layer2特徴量として採用することができる。

ハイライト抽出部３０６は、モデル保持部３０２に保持されているLayer1についての統計的モデルと、Layer1生成部３０３からのLayer1特徴量とを比較し、また、モデル保持部３０２に保持されているLayer2についての統計的モデルと、Layer2生成部３０５からのLayer2特徴量とを比較し、それらの比較を総合的に判断することによって、ハイライトを抽出する。

図３９は、かかる図３８の機能的構成を有するハイライト検出部１５の処理の一例、即ち、図２のステップＳ５のハイライト検出処理の詳細例を示すフローチャートである。

ただし、図３９の例では、モデル保持部３０２に保持されているLayer1とLayer2とのそれぞれの統計的モデルとして、「第1の条件を満たす場合、ハイライトである」、および、「第２の条件を満たす場合、ハイライトである」といった内容のモデルが採用されているとする。

具体的には例えばサッカーのコーナキックがハイライトとして抽出される場合には、上述したように、１）「Long」ショット前の非「Long」ショット数が所定の範囲内の個数存在する、２）非「Long」ショットのトータル期間（長さ）が所定の範囲内の長さであるといった条件を、第１の条件として採用できる。

また例えば上述したように、１）数フレームに渡ってゴールボックスが観測される、２）ゴールボックスの前には中央線が観測されない、３）ゴールボックスは画面の両側から中央に動くようにフレームが推移していく、４）ショットの初めにコーナが観測されないといった条件を、第２の条件として採用できる。

このような場合、ステップＳ７１において、Layer1特徴量生成部３０３は、動画コンテンツについてのLayer1特徴量を生成する。

ステップＳ７２において、Layer3特徴量生成部３０４は、動画コンテンツ中のショット毎に、ショット中の各フレームについてのLayer3特徴量を生成する。

ステップＳ７３において、Layer2特徴量生成部３０５は、動画コンテンツ中のショット毎に、Layer2特徴量を生成する。

なお、図３９の例では便宜上、ステップＳ７２およびＳ７３の処理は、ステップＳ７１の処理の後に実行されているが、その処理の順番は特に限定されない。図３８の例から明らかなように、Layer1特徴量生成部３０３によるステップＳ７１の処理と、Layer3特徴量生成部３０４によるステップＳ７２の処理およびLayer2特徴量生成部３０５によるステップＳ７３の処理とは、それぞれ独立して並列的に実行されるからである。

ステップＳ７４において、ハイライト抽出部３０６は、動画コンテンツの所定のショットを注目ショットに決定する。

ステップＳ７５において、ハイライト抽出部３０６は、注目ショットについて、Layer1特徴量が第１の条件を満たすか否かを判定する。

ステップＳ７５において、注目ショットについて、Layer1特徴量が第１の条件を満たすと判定した場合、ハイライト抽出部３０６は、ステップＳ７８において、注目ショットはハイライトの少なくとも一部であると認定する。その後、処理はステップＳ７９に進む。ただし、ステップＳ７９以降の処理については後述する。

これに対して、ステップＳ７５において、注目ショットについて、Layer1特徴量が第１の条件を満たしていないと判定した場合、ハイライト抽出部３０６は、ステップＳ７６において、注目ショットについて、Layer2特徴量が第２の条件を満たすか否かを判定する。

ステップＳ７６において、注目ショットについて、Layer2特徴量が第２の条件を満たすと判定した場合、ハイライト抽出部３０６は、ステップＳ７８において、注目ショットはハイライトの少なくとも一部であると認定する。その後、処理はステップＳ７９に進む。ただし、ステップＳ７９以降の処理については後述する。

これに対して、ステップＳ７６において、注目ショットについて、Layer2特徴量が第２の条件を満たしていないと判定した場合、ハイライト抽出部３０６は、ステップＳ７７において、注目ショットはハイライトではないと認定する。その後、処理はステップＳ７９に進む。

以上まとめると、ステップＳ７７またはＳ７８の処理が終了すると、即ち、注目ショットがハイライトであるか否かの認定が終了すると、処理はステップＳ７９に進む。

ステップＳ７９において、ハイライト抽出部３０６は、注目ショットは、最後のショットであるか否かを判定する。

ステップＳ７９において、注目ショットは最後のショットではないと判定されると、処理はステップＳ７４に戻されて、それ以降の処理が繰り返される。

即ち、動画コンテンツを構成する各ショットの幾つかについて適宜、上述したステップＳ７４乃至Ｓ７９のループ処理が繰り返されて、ハイライトであるか否かの認定が行われていく。そして、最後のショットまでの認定処理が行われると、ステップＳ７９の処理でＹＥＳであると判定されて、処理はステップＳ８０に進む。

ステップＳ８０において、ハイライト抽出部３０６は、上述した認定結果に基づいてハイライトを抽出する。

このように、図３９の例では、Layer1特徴量が第１の条件を満たした場合、または、Layer2特徴量が第２の条件を満たした場合に、ハイライトであると認定される。即ち、ハイライトの認定条件として、図３９の例ではいわゆるOR条件が採用されている。ただし、図３９の例はあくまでも例示であり、その他の認定条件、例えばいわゆるAND条件、即ち、Layer1特徴量が第１の条件を満たし、かつ、Layer2特徴量が第２の条件を満たした場合に、ハイライトであると認定するという条件を採用してもよい。

以上、図３８と図３９を参照して、統計的モデルがモデル保持部３０２に保持されていることを前提として、新たな動画コンテンツからハイライトを検出するハイライト検出処理について主に説明した。

次に、図４０乃至図４４を参照して、かかる統計的モデルの生成／更新処理に着目して説明していく。

かかる統計的モデルの生成／更新処理は、図３８のハイライト検出部１５のうちの学習部３０１によってなされる。図４０は、かかる学習部３０１の詳細な構成例を示している。

図４０の例では、学習部３０１は、注目領域抽出部３５１乃至ハイライト学習部３５８を含むように構成されている。

注目領域抽出部３５１乃至ショット分類部３５４のそれぞれは、図１の注目領域抽出部１１乃至ショット分類部１４のそれぞれと基本的に同様の構成と機能を有している。また、Layer1特徴量生成部３５５乃至Layer2特徴量生成部３５７のそれぞれは、図１のハイライト検出部１５のうちの図３８のLayer1特徴量生成部３０３乃至Layer2特徴量生成部３０５のそれぞれと基本的に同様の構成と機能を有している。

即ち、学習部３０１には、ハイライトとすべきシーン、例えばサッカーのコーナキックのシーンの様々な映像がそれぞれ学習用映像として、学習部３０１の注目領域抽出部３５１に入力される。すると、注目領域抽出部３５１乃至Layer2特徴量生成部３５７のそれぞれは、上述した一連の処理を実行する。その結果として、学習用映像についてのLayer1特徴量とLayer2特徴量とがハイライト学習部３５８に入力される。

そこで、ハイライト学習部３５８は、様々な学習用映像についての各Layer1特徴量を学習することで、Layer1についての統計的モデルを生成／更新し、モデル保持部３０２に保持させる。

具体的には例えば、ハイライト学習部３５８は、各ショット間のショットタイプの関連性ルールを解析して、態遷移確率モデル、例えば図４１に示されるようなHMM(Hidden Markov Model)を求め、それをLayer1についての統計的モデルとしてモデル保持部３０２に保持させることができる。なお、図４１において、S1k（Kは１乃至４のうちの何れかの整数値）は、HMMの各状態を示し、それぞれ所定の１つのショットタイプ、即ち、本実施の形態では図３０の「Long」，「Medium」，「Close-up」，「Out」のうちの何れかに対応する。即ち、各状態の遷移（ショットタイプ遷移）の確率やその状態（対応するショットタイプ）の発生の確率が、上述した様々な学習用映像についての各Layer1特徴量を学習することで得られることになる。

同様に、ハイライト学習部３５８は、様々な学習用映像についての各Layer2特徴量を学習することで、Layer2についての統計的モデルを生成／更新し、モデル保持部３０２に保持させる。

この場合のLayer2についての統計的モデルとしてもHMMを採用することができ、また、かかるHMMの各状態に対応するものとして、フレームタイプを採用することができる。いかなるフレームタイプを採用するのかについては、特に限定されず、ハイライトとすべきシーンに応じて設計者等が自由な思想で決定できる。

例えば、上述したサッカーのコーナキックがハイライトとして抽出される場合には、図４２に示されるような７つのフレームタイプ、即ち、「Middle」，「Goal Box」, 「Upper Corner」,「Lower Corner」,「Unknown」,「Upper Goal」,「Lower Goal」を採用すると好適である。

「Middle」とは、中央白線３７１を含むフレームタイプをいう。「Goal Box」とは、ゴールゲート３７２を含み、かつ、コーナ位置３７３を含まないフレームタイプをいう。「Upper Corner」とは、ゴールゲート３７２を含まず、かつ、コーナ位置３７３が上方領域に存在するフレームタイプをいう。「Lower Corner」とは、ゴールゲート３７２を含まず、かつ、コーナ位置３７３が下方領域に存在するフレームタイプをいう。「Unknown」とは、中央白線３７１、ゴールゲート３７２、および、コーナ位置３７３を何れも含まないフレームタイプをいう。「Upper Goal」とは、ゴールゲート３７２を含み、かつ、コーナ位置３７３が上方領域に存在するフレームタイプをいう。「Lower Goal」とは、ゴールゲート３７２を含み、かつ、コーナ位置３７３が下方領域に存在するフレームタイプをいう。

このような７つのフレームタイプは、図４０のLayer3特徴量生成部３５６によりフレーム毎に決定される。

具体的には例えば、オブジェクト特徴抽出部３５２は、学習用映像を構成する各フレームのそれぞれから、中央白線３７１、ゴールゲート３７２、およびコーナ位置３７３をオブジェクト特徴としてそれぞれ抽出することを試みる。「試みる」と記述したのは、フレームによっては、抽出されないこともあるからである。例えば「Upper Corner」と分類されるフレームからは、ゴールゲート３７２は抽出されないからである。

Layer3特徴量生成部３５６は、学習用映像を構成する各フレームのそれぞれについて、オブジェクト特徴抽出部３５２の抽出結果に基づいて、７つのフレームタイプのうちの何れかにそれぞれ分類し、それらの分類結果をLayer3特徴量としてLayer2特徴量生成部３５７に通知する。

なお、Layer3特徴量生成部３０４は、各フレームのフレームタイプの検出する認識器、例えば、SVM(Support Vector Machine）などの分類学習や、ニューラルネットワーク等を用いた認識器として構成することができる。この場合、認識器のパラメータは、それぞれの画像サンプルを用いる統計的な学習によって求めることができる。

Layer2特徴量生成部３５７は、サッカーのコーナキックのシーンの少なくとも一部を形成するショット内の各フレームのフレームタイプの時間推移を、Layer2特徴量として生成し、ハイライト学習部３５８に提供する。

ハイライト学習部３５８は、例えば図４３に示されるようなHMMを求め、それをLayer2についての統計的モデルとしてモデル保持部３０２に保持させることができる。なお、図４３において、S2m（mは１乃至８のうちの何れかの整数値）は、HMMの各状態を示し、それぞれ所定の１つのフレームタイプ、即ち、本実施の形態では図４２に示される「Middle」，「Goal Box」, 「Upper Corner」,「Lower Corner」,「Unknown」,「Upper Goal」,「Lower Goal」のうちの何れかに対応する。即ち、各状態の遷移（フレームタイプ遷移）の確率やその状態（対応するフレームタイプ）の発生の確率は、上述した様々な学習用映像についての各Layer2特徴量を学習することで得られることになる。

具体的には例えば、ハイライト学習部３５８の学習の結果として、図４４に示されるような状態遷移図が得られた場合には、かかる状態遷移図をLayer2についての統計的モデルとしてモデル保持部３０２に保持させることができる。

以上、図３７乃至図４４を参照して、図１の画像処理装置のうちのハイライト検出部１５の詳細例について説明する。このようなハイライト検出部１５を採用することで、ショットタイプ間の関連性やフレーム間の関連性のルール解析に基づいて設計されたハイライト検出手法が実現でき、その結果、動画コンテンツ内の様々なシーンをハイライトとして抽出することが容易に可能となる。

ところで、上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図４５は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。即ち、図１の画像処理装置の全部または一部分、例えば幾つかの機能ブロックを、図４５のように構成することもできる。

図４５において、CPU（Central Processing Unit）４０１は、ROM（Read Only Memory）４０２、または記憶部４０８に記憶されているプログラムに従って各種の処理を実行する。RAM（Random Access Memory）４０３には、CPU４０１が実行するプログラムやデータなどが適宜記憶される。これらのCPU４０１、ROM４０２、およびRAM４０３は、バス４０４により相互に接続されている。

CPU４０１にはまた、バス４０４を介して入出力インタフェース４０５が接続されている。入出力インタフェース４０５には、キーボード、マウス、マイクロホンなどよりなる入力部４０６、ディスプレイ、スピーカなどよりなる出力部４０７が接続されている。CPU４０１は、入力部４０６から入力される指令に対応して各種の処理を実行する。そして、CPU４０１は、処理の結果を出力部４０７に出力する。

入出力インタフェース４０５に接続されている記憶部４０８は、例えばハードディスクからなり、CPU４０１が実行するプログラムや各種のデータを記憶する。通信部４０９は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。

また、通信部４０９を介してプログラムを取得し、記憶部４０８に記憶してもよい。

入出力インタフェース４０５に接続されているドライブ４１０は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア４１１が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部４０８に転送され、記憶される。

コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図４５に示されるように、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア４１１、または、プログラムが一時的もしくは永続的に格納されるROM４０２や、記憶部４０８を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部４０９を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。

なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本明細書において、システムとは、複数の装置または回路により構成される装置または回路全体を表すものである。

本発明が適用される画像処理装置の機能的構成例を示す機能ブロック図である。図１の画像処理装置が実行する画像処理の具体例である。図２のステップＳ１の処理結果の例を示す図である。図２のステップ２の処理結果の例を示す図である。図２のステップ２の処理結果の例を示す図である。図２のステップ２の処理結果の例を示す図である。図２のステップ２の処理結果の例を示す図である。図２のステップ３の処理結果の例を示す図である。図２のステップ４の処理結果の例を示す図である。図２のステップ５の処理内容の例を説明する図である。図２のステップ５の処理内容の例を説明する図である。図１の注目領域抽出部の機能的構成の詳細例を示す機能ブロック図である。図１２のHSVヒストグラムモデル保持部に保持されるHSVヒストグラムモデルを説明する図である。図１２のHSVヒストグラムモデル保持部に保持されるHSVヒストグラムモデルを説明する図である。図１２の注目領域抽出部の処理結果の具体例を示す図である。図１２の注目領域抽出部の処理結果の具体例を示す図である。図１のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。図１のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。図１のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。図１のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。図１のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。図１のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。図１のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。図１のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。図１のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。図１のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。図１のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。図１のショットカット検出部によるショットカット検出の一手法を説明する図である。図１のショットカット検出部が実行する処理、即ち、図２のステップＳ３のショットカット検出処理の詳細例を説明するフローチャートである。図１のショット分類部により分類されるショットの種類、即ち、ショットタイプの一例を説明する図である。図３０の例のショットタイプが採用された場合の図２のステップＳ４のショット分類処理の詳細例を説明するフローチャートである。図３１のショット分類処理で利用される情報の一例を説明する図である。図３１のショット分類処理で利用される情報の一例を説明する図である。図３１のショット分類処理で利用される情報の一例を説明する図である。図３１のショット分類処理で利用される情報の一例を説明する図である。図３１のショット分類処理で利用される情報の一例を説明する図である。図１のハイライト検出部によるハイライト抽出の基本概念を説明する図である。図１のハイライト検出部の機能的構成の詳細例を示す機能ブロック図である。図３８のハイライト検出部が実行する処理、即ち、図２のステップＳ５のハイライト検出処理の詳細例を説明するフローチャートである。図３８の学習部の機能的構成の詳細例を示す機能ブロック図である。図４０の学習部による学習や、その学習の結果得られるモデルを説明する図である。図４０の学習部による学習や、その学習の結果得られるモデルを説明する図である。図４０の学習部による学習や、その学習の結果得られるモデルを説明する図である。図４０の学習部による学習や、その学習の結果得られるモデルを説明する図である。本発明が適用される画像処理装置としてのパーソナルコンピュータの構成例を示すブロック図である。

符号の説明

１１注目領域抽出部，１２オブジェクト特徴抽出部，１３ショットカット検出部，１４ショット分類部，１５ハイライト検出部，５１ HSVヒストグラムモデル保持部，５２ダウンサンプリング部，５３ HSV成分ピーク検出部，５４注目領域範囲決定部，５５注目領域検出部，５６ポストプロセシング部，３０１学習部，３０２モデル保持部，３０３ Layer1特徴量生成部，３０４ Layer3特徴量生成部，３０５ Layer2特徴量生成部，３０６ハイライト抽出部，３５１注目領域抽出部，３５２オブジェクト特徴抽出部，３５３ショットカット検出部，３５４ショット分類部，３５５ Layer1特徴量生成部，３５６ Layer3特徴量生成部，３５７ Layer2特徴量生成部，３５８ハイライト学習部，４０１ CPU，４０２ ROM，４０８記憶部，４１１リムーバブルメディア

Claims

複数の単位画像から構成される動画像から、１以上の前記単位画像を含むショットが複数区分され、前記ショットを単位とする画像処理を施す画像処理装置において、
ハイライトとして抽出すべき1以上のショットからなる既知のショット群が学習用動画像として複数用いられて、前記単位画像全体の空間領域に占めるオブジェクトの範囲に基づく第１のショットタイプが複数定義されており、各ショット間の前記第１のショットタイプについての関連性の第１のルールと、１ショットに含まれる各単位画像間の関連性の第２のルールとが予め学習され、それらの学習結果が、前記ハイライトを判別する判別モデルとして保持されている保持手段と、
新たに入力された入力動画像から区分される複数のショットのそれぞれを順次注目ショットにして、複数の前記第１のショットタイプのうちの何れかに分類する分類手段と、
前記複数のショットの前記分類手段による各分類結果を用いて、前記注目ショットと他の１以上のショットとの前記第１のショットタイプについての関連性を認識し、その関連性を示す情報を、前記注目ショットの第１の特徴量として生成する第１の生成手段と、
前記注目ショットに含まれる各単位画像の間の関連性を認識し、その関連性を示す情報を、前記注目ショットの第２の特徴量として生成する第２の生成手段と、
前記第１の生成手段により生成された前記注目ショットの前記第１の特徴量が前記第１のルールに則した特徴量であるか否か、および、前記第２の生成手段により生成された前記注目ショットの前記第２の特徴量が前記第２のルールに則した特徴量であるか否かに基づいて、前記注目ショットが前記ハイライトに含まれるか否かを認定し、前記入力動画像を構成する前記複数のショットのうち、前記ハイライトに含まれると認定されたショットからなるショット群を、前記ハイライトとして抽出する抽出手段と
を備え、
前記第１のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第１の特徴量をそれぞれ用いて学習され、
前記第２のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第２の特徴量をそれぞれ用いて学習され、
前記保持手段は、
前記第１のルールに基づく前記判別モデルとして、前記第１の特徴量を用いて前記第１のルールを学習することで得られる第１の時系列モデルを保持しているとともに、
前記第２のルールに基づく前記判別モデルとして、前記第２の特徴量を用いて前記第２のルールを学習することで得られる第２の時系列モデルを保持している
画像処理装置。
実世界の被写体が撮影された結果得られる前記単位画像に含まれる領域のうちの、実世界の所定の背景に対応する領域が注目領域とされており、複数の前記ショットタイプには、前記第１のショットタイプ以外にさらに、ショットに含まれる全単位画像のいずれにも前記注目領域が含まれていない第２のショットタイプが含まれており、
前記分類手段は、前記注目ショットに含まれる全単位画像のいずれにも前記注目領域が１つも含まれていない場合、前記注目ショットを前記第２のショットタイプに分類する
請求項１に記載の画像処理装置。
前記第１のショットタイプは、
前記注目ショットに含まれる単位画像の前記注目領域全体の空間領域に占めるオブジェクトの範囲が一定以上であるという第１の条件と、
前記注目ショットに含まれる単位画像全体の空間領域に占める人間の顔の領域の範囲が一定以上であるという第２の条件と、
前記注目ショットに含まれる単位画像の前記注目領域のうちの所定部分全体の空間領域に占めるオブジェクトの範囲が一定以上であるという第３の条件と
に基づいて、さらに複数のショットタイプに分類される
請求項１に記載の画像処理装置。
前記第１のショットタイプとして、
前記第１の条件が満たされ、かつ、前記第２の条件が満たされる場合の第１−１のショットタイプと、
前記第１の条件が満たされ、かつ、前記第２の条件が満たされない場合、または、前記第１の条件が満たされず、かつ、前記第３の条件が満たされる場合の第１−２のショットタイプと、
前記第１の条件が満たされず、かつ、前記第３の条件が満たされない場合の第１−３のショットタイプと
が存在する
請求項３に記載の画像処理装置。
前記第１の時系列モデルは、HMM(Hidden Markov Model)である
請求項１に記載の画像処理装置。
前記第２の時系列モデルは、HMM(Hidden Markov Model)である
請求項１に記載の画像処理装置。
前記単位画像に含まれ得る１以上の種類の前記オブジェクトに基づく単位画像タイプが複数定義されており、
前記入力動画像を構成する各単位画像から、1以上の種類の前記オブジェクトのそれぞれの抽出を試みる特徴抽出手段を前記画像処理装置はさらに備え、
前記第２の生成手段は、前記特徴量抽出手段による抽出の試みの結果に基づいて、前記注目ショットに含まれる各単位画像の前記単位画像タイプを決定し、決定した各単位画像の前記単位画像タイプの間の関連性を認識し、その関連性を示す情報を、前記注目ショットの第２の特徴量として生成する
請求項５に記載の画像処理装置。
複数の単位画像から構成される動画像から、１以上の前記単位画像を含むショットが複数区分され、前記ショットを単位とする画像処理を施す画像処理装置の画像処理方法において、
ハイライトとして抽出すべき1以上のショットからなる既知のショット群が学習用動画像として複数用いられて、前記単位画像全体の空間領域に占めるオブジェクトの範囲に基づくショットタイプが複数定義されており、各ショット間の前記ショットタイプについての関連性の第１のルールと、１ショットに含まれる各単位画像間の関連性の第２のルールとが予め学習され、それらの学習結果が、前記ハイライトを判別する判別モデルとして保持手段に保持されており、
新たに入力された入力動画像から区分される複数のショットのそれぞれを順次注目ショットにして、複数の前記ショットタイプのうちの何れかに分類し、
前記複数のショットの各分類結果を用いて、前記注目ショットと他の１以上のショットとの前記ショットタイプについての関連性を認識し、その関連性を示す情報を、前記注目ショットの第１の特徴量として生成し、
前記注目ショットに含まれる各単位画像の間の関連性を認識し、その関連性を示す情報を、前記注目ショットの第２の特徴量として生成し、
生成された前記注目ショットの前記第１の特徴量が前記第１のルールに則した特徴量であるか否か、および、生成された前記注目ショットの前記第２の特徴量が前記第２のルールに則した特徴量であるか否かに基づいて、前記注目ショットが前記ハイライトに含まれるか否かを認定し、前記入力動画像を構成する前記複数のショットのうち、前記ハイライトに含まれると認定されたショットからなるショット群を、前記ハイライトとして抽出する
ステップを含み、
前記第１のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第１の特徴量をそれぞれ用いて学習され、
前記第２のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第２の特徴量をそれぞれ用いて学習され、
前記保持手段は、
前記第１のルールに基づく前記判別モデルとして、前記第１の特徴量を用いて前記第１のルールを学習することで得られる第１の時系列モデルを保持しているとともに、
前記第２のルールに基づく前記判別モデルとして、前記第２の特徴量を用いて前記第２のルールを学習することで得られる第２の時系列モデルを保持している
画像処理方法。
複数の単位画像から構成される動画像から、１以上の前記単位画像を含むショットが複数区分され、前記ショットを単位とする画像処理を制御するコンピュータに実行させるプログラムであって、
ハイライトとして抽出すべき1以上のショットからなる既知のショット群が学習用動画像として複数用いられて、前記単位画像全体の空間領域に占めるオブジェクトの範囲に基づくショットタイプが複数定義されており、各ショット間の前記ショットタイプについての関連性の第１のルールと、１ショットに含まれる各単位画像間の関連性の第２のルールとが予め学習され、それらの学習結果が、前記ハイライトを判別する判別モデルとして保持手段に保持されており、
前記コンピュータが、
新たに入力された入力動画像から区分される複数のショットのそれぞれを順次注目ショットにして、複数の前記ショットタイプのうちの何れかに分類し、
前記複数のショットの各分類結果を用いて、前記注目ショットと他の１以上のショットとの前記ショットタイプについての関連性を認識し、その関連性を示す情報を、前記注目ショットの第１の特徴量として生成し、
前記注目ショットに含まれる各単位画像の間の関連性を認識し、その関連性を示す情報を、前記注目ショットの第２の特徴量として生成し、
生成された前記注目ショットの前記第１の特徴量が前記第１のルールに則した特徴量であるか否か、および、生成された前記注目ショットの前記第２の特徴量が前記第２のルールに則した特徴量であるか否かに基づいて、前記注目ショットが前記ハイライトに含まれるか否かを認定し、前記入力動画像を構成する前記複数のショットのうち、前記ハイライトに含まれると認定されたショットからなるショット群を、前記ハイライトとして抽出する
ステップを含み、
前記第１のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第１の特徴量をそれぞれ用いて学習され、
前記第２のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第２の特徴量をそれぞれ用いて学習され、
前記保持手段は、
前記第１のルールに基づく前記判別モデルとして、前記第１の特徴量を用いて学習することで得られる第１の時系列モデルを保持しているとともに、
前記第２のルールに基づく前記判別モデルとして、前記第２の特徴量を用いて学習することで得られる第２の時系列モデルを保持している
プログラム。