JP4257615B2 - 画像処理装置および方法、並びにプログラム - Google Patents

画像処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP4257615B2
JP4257615B2 JP2006194127A JP2006194127A JP4257615B2 JP 4257615 B2 JP4257615 B2 JP 4257615B2 JP 2006194127 A JP2006194127 A JP 2006194127A JP 2006194127 A JP2006194127 A JP 2006194127A JP 4257615 B2 JP4257615 B2 JP 4257615B2
Authority
JP
Japan
Prior art keywords
shot
unit
shots
rule
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006194127A
Other languages
English (en)
Other versions
JP2008021225A (ja
Inventor
偉国 呉
博 韓
隆之 芦ヶ原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2006194127A priority Critical patent/JP4257615B2/ja
Priority to US11/777,775 priority patent/US7949188B2/en
Priority to CNA2007101305666A priority patent/CN101114343A/zh
Publication of JP2008021225A publication Critical patent/JP2008021225A/ja
Application granted granted Critical
Publication of JP4257615B2 publication Critical patent/JP4257615B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、画像処理装置および方法並びにプログラムに関し、特に、人の直感的な感覚で映像コンテンツを扱えるように、より効率よく映像コンテンツを管理し取り扱うための映像解析技術を提供できるようになった画像処理装置および方法並びにプログラムに関する。
インターネット技術や放送、通信、娯楽、医療、教育などの分野におけるデジタル化技術の急速な発展により、膨大なマルチメディア情報から必要な情報だけを簡単で高速にアクセスできるようなニーズが高まってきている。そのようなニーズの中でも、特に、ネットワークやホームサーバに蓄積されていた大量な映像コンテンツを効率的に管理し扱いたいといったニーズから、映像コンテンツの意味抽出と解析のための画像認識技術の研究開発が盛んに行われるようになっていた。
具体的な例としては、例えば、ハードディスク録画やデジタル家電が普及している中、観たいものだけを観る、録画しながら再生を楽しむなど、といった新しいライフスタイルに応じた楽しみ方を可能にするための「類似画像検索技術」や、デジタルカメラやデジタルビデオカメラ、及びインターネットの普及により、様々な画像や動画を簡単に編集し、自分のオリジィナルダイジェスト映像を作成し保存するための「ダイジェスト映像作成技術」などの研究開発が行われている(例えば特許文献1,2参照)。
即ち、上述した新しいライフスタイルに応じた楽しみ方を可能にしたり、ダイジェスト映像を作成するためのニーズとして、映像コンテンツから所望の画像を検索したい、例えば動画コンテンツの中からハイライトシーンを検出したい、といった画像検索のニーズが高まっている。
かかる画像検索のニーズに応えるために、キーワードを用いた画像検索技術の実用化も進められていた。他にも動画コンテンツを自由自在に閲覧することができるようなBrowsing技術やビジュアルコミュニケーションにおける意味的な「映像議事録」作成技術などの研究も行われていた。
特開2002−344872号公報 特開2006−54622号公報
しかしながらキーワードを用いる従来の画像検索技術では、必要なキーワードの付与には手間がかかり、同キーワードの画像が大量に存在する事態も発生しがちなため、実際に満足な検索結果が得られないのが現状である。また、映像内のメタ情報を自動的に抽出し、それらのメタ情報を元に、欲しい画像コンテンツを見つけ出すといった検索技術や、自動的に「映像議事録」を作成する技術や、Browsing技術なども多く研究されているが、必要なメタ情報を精度良く抽出することが容易ではないので、実際に利用可能な映像検索技術やダイジェスト作成技術やBrowsing技術が確立されていない状況である。
換言すると、上述のようなキーワードによる画像検索などではなく、人の直感的な感覚で映像コンテンツを扱えるように、より効率よく映像コンテンツを管理し取り扱うための映像解析技術の実現が要望されているが、かかる要望に十分に応えられていない状況である。
本発明は、このような状況に鑑みてなされたものであり、人の直感的な感覚で映像コンテンツを扱えるように、より効率よく映像コンテンツを管理し取り扱うための映像解析技術を提供できるようにするものである。
本発明の一側面の画像処理装置は、複数の単位画像から構成される動画像から、1以上の前記単位画像を含むショットが複数区分され、前記ショットを単位とする画像処理を施す画像処理装置であって、ハイライトとして抽出すべき1以上のショットからなる既知のショット群が学習用動画像として複数用いられて、前記単位画像全体の空間領域に占めるオブジェクトの範囲に基づく第1のショットタイプが複数定義されており、各ショット間の前記第1のショットタイプについての関連性の第1のルールと、1ショットに含まれる各単位画像間の関連性の第2のルールとが予め学習され、それらの学習結果が、前記ハイライトを判別する判別モデルとして保持されている保持手段と、新たに入力された入力動画像から区分される複数のショットのそれぞれを順次注目ショットにして、複数の前記第1のショットタイプのうちの何れかに分類する分類手段と、前記複数のショットの前記分類手段による各分類結果を用いて、前記注目ショットと他の1以上のショットとの前記第1のショットタイプについての関連性を認識し、その関連性を示す情報を、前記注目ショットの第1の特徴量として生成する第1の生成手段と、前記注目ショットに含まれる各単位画像の間の関連性を認識し、その関連性を示す情報を、前記注目ショットの第2の特徴量として生成する第2の生成手段と、前記第1の生成手段により生成された前記注目ショットの前記第1の特徴量が前記第1のルールに則した特徴量であるか否か、および、前記第2の生成手段により生成された前記注目ショットの前記第2の特徴量が前記第2のルールに則した特徴量であるか否かに基づいて、前記注目ショットが前記ハイライトに含まれるか否かを認定し、前記入力動画像を構成する前記複数のショットのうち、前記ハイライトに含まれると認定されたショットからなるショット群を、前記ハイライトとして抽出する抽出手段とを備え、前記第1のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第1の特徴量をそれぞれ用いて学習され、前記第2のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第2の特徴量をそれぞれ用いて学習され、前記保持手段には、前記第1のルールに基づく前記判別モデルとして、前記第1の特徴量を用いて前記第1のルールを学習することで得られる第1の時系列モデルを保持させるとともに、前記第2のルールに基づく前記判別モデルとして、前記第2の特徴量を用いて前記第2のルールを学習することで得られる第2の時系列モデルを保持させることができる。
実世界の被写体が撮影された結果得られる前記単位画像に含まれる領域のうちの、実世界の所定の背景に対応する領域が注目領域とされており、複数の前記ショットタイプには、前記第1のショットタイプ以外にさらに、ショットに含まれる全単位画像のいずれにも前記注目領域が含まれていない第2のショットタイプが含まれており、前記分類手段には、前記注目ショットに含まれる全単位画像のいずれにも前記注目領域が1つも含まれていない場合、前記注目ショットを前記第2のショットタイプに分類させることができる。
前記第1のショットタイプは、前記注目ショットに含まれる単位画像の前記注目領域全体の空間領域に占めるオブジェクトの範囲が一定以上であるという第1の条件と、前記注目ショットに含まれる単位画像全体の空間領域に占める人間の顔の領域の範囲が一定以上であるという第2の条件と、前記注目ショットに含まれる単位画像の前記注目領域のうちの所定部分全体の空間領域に占めるオブジェクトの範囲が一定以上であるという第3の条件とに基づいて、さらに複数のショットタイプに分類される。
前記第1のショットタイプとして、前記第1の条件が満たされ、かつ、前記第2の条件が満たされる場合の第1−1のショットタイプと、前記第1の条件が満たされ、かつ、前記第2の条件が満たされない場合、または、前記第1の条件が満たされず、かつ、前記第3の条件が満たされる場合の第1−2のショットタイプと、前記第1の条件が満たされず、かつ、前記第3の条件が満たされない場合の第1−3のショットタイプとが存在する。
前記時系列モデルは、HMM(Hidden Markov Model)である。
前記時系列モデルは、HMM(Hidden Markov Model)である。
前記単位画像に含まれ得る1以上の種類の前記オブジェクトにづく単位画像タイプが複数定義されており、前記入力動画像を構成する各単位画像から、1以上の種類の前記オブジェクトのそれぞれの抽出を試みる特徴抽出手段が前記画像処理装置にはさらに設けられ、前記第2の生成手段には、前記特徴量抽出手段による抽出の試みの結果に基づいて、前記注目ショットに含まれる各単位画像の前記単位画像タイプを決定させ、決定された各単位画像の前記単位画像タイプの間の関連性を認識させ、その関連性を示す情報を、前記注目ショットの第2の特徴量として生成させることができる。
本発明の一側面の画像処理方法は、複数の単位画像から構成される動画像から、1以上の前記単位画像を含むショットが複数区分され、前記ショットを単位とする画像処理を施す画像処理装置の画像処理方法であって、ハイライトとして抽出すべき1以上のショットからなる既知のショット群が学習用動画像として複数用いられて、前記単位画像全体の空間領域に占めるオブジェクトの範囲に基づくショットタイプが複数定義されており、各ショット間の前記ショットタイプについての関連性の第1のルールと、1ショットに含まれる各単位画像間の関連性の第2のルールとが予め学習され、それらの学習結果が、前記ハイライトを判別する判別モデルとして保持手段に保持されており、新たに入力された入力動画像から区分される複数のショットのそれぞれを順次注目ショットにして、複数の前記ショットタイプのうちの何れかに分類し、前記複数のショットの各分類結果を用いて、前記注目ショットと他の1以上のショットとの前記ショットタイプについての関連性を認識し、その関連性を示す情報を、前記注目ショットの第1の特徴量として生成し、前記注目ショットに含まれる各単位画像の間の関連性を認識し、その関連性を示す情報を、前記注目ショットの第2の特徴量として生成し、成された前記注目ショットの前記第1の特徴量が前記第1のルールに則した特徴量であるか否か、および、生成された前記注目ショットの前記第2の特徴量が前記第2のルールに則した特徴量であるか否かに基づいて、前記注目ショットが前記ハイライトに含まれるか否かを認定し、前記入力動画像を構成する前記複数のショットのうち、前記ハイライトに含まれると認定されたショットからなるショット群を、前記ハイライトとして抽出するステップを含み、前記第1のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第1の特徴量をそれぞれ用いて学習され、前記第2のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第2の特徴量をそれぞれ用いて学習され、前記保持手段は、前記第1のルールに基づく前記判別モデルとして、前記第1の特徴量を用いて前記第1のルールを学習することで得られる第1の時系列モデルを保持しているとともに、前記第2のルールに基づく前記判別モデルとして、前記第2の特徴量を用いて前記第2のルールを学習することで得られる第2の時系列モデルを保持している。
本発明の一側面のプログラムは、上述した本発明の一側面の画像処理方法に対応するプログラムである。
本発明の一側面の画像処理装置および方法並びにプログラムにおいては、複数の単位画像から構成される動画像から、1以上の前記単位画像を含むショットが複数区分され、前記ショットを単位とする次のような画像処理が施される。即ち、ハイライトとして抽出すべき1以上のショットからなる既知のショット群が学習用動画像として複数用いられて、前記単位画像全体の空間領域に占めるオブジェクトの範囲に基づく第1のショットタイプが複数定義されており、各ショット間の前記第1のショットタイプについての関連性の第1のルールと、1ショットに含まれる各単位画像間の関連性の第2のルールとが予め学習され、それらの学習結果が、前記ハイライトを判別する判別モデルとして保持手段に保持されており、新たに入力された入力動画像から区分される複数のショットのそれぞれが順次注目ショットにされて、複数の前記第1のショットタイプのうちの何れかに分類され、前記複数のショットの各分類結果を用いて、前記注目ショットと他の1以上のショットとの前記第1のショットタイプについての関連性が認識され、その関連性を示す情報が、前記注目ショットの第1の特徴量として生成され、前記注目ショットに含まれる各単位画像の間の関連性が認識され、その関連性を示す情報が、前記注目ショットの第2の特徴量として生成され、生成された前記注目ショットの前記第1の特徴量が前記第1のルールに則した特徴量であるか否か、および、生成された前記注目ショットの前記第2の特徴量が前記第2のルールに則した特徴量であるか否かに基づいて、前記注目ショットが前記ハイライトに含まれるか否かが認定され、前記入力動画像を構成する前記複数のショットのうち、前記ハイライトに含まれると認定されたショットからなるショット群が、前記ハイライトとして抽出される。前記第1のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第1の特徴量をそれぞれ用いて学習され、前記第2のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第2の特徴量をそれぞれ用いて学習される。前記保持手段には、前記第1のルールに基づく前記判別モデルとして、前記第1の特徴量を用いて前記第1のルールを学習することで得られる第1の時系列モデルが保持されるとともに、前記第2のルールに基づく前記判別モデルとして、前記第2の特徴量を用いて前記第2のルールを学習することで得られる第2の時系列モデルが保持されている
以上のごとく、本発明の一側面によれば、映像解析技術を提供できる。特に、人の直感的な感覚で映像コンテンツを扱えるように、より効率よく映像コンテンツを管理し取り扱うための映像解析技術を提供できる。
このように、様々な側面を持つ本発明では、映像コンテンツが対象とされている。ここに、コンテンツとは、広く、人間の創造的活動により生み出されるものである。例えば、映画、音楽、演劇、文芸、写真、漫画、アニメーション、コンピュータゲームその他の文字、図形、色彩、音声、動作若しくは映像若しくはこれらを組み合わせたもの又はこれらに係る情報を電子計算機を介して提供するためのプログラムが、コンテンツの一例である。これらのうちの主に映像を含むコンテンツを、ここでは映像コンテンツと称している。映像コンテンツは、主に静止画像を含む静止画コンテンツと、主に動画像を含む動画コンテンツをとに大別できる。以下においては、動画コンテンツに着目して説明を行っていく。
ただし、本明細書では、いわゆるコンテンツデータ、即ち、人間の創造的活動により生み出されたものが装置によって処理可能な形態とされたもの、例えば電気信号とされたものや、メモリに固定されたもの等も、特に区別せずにまとめて、コンテンツと称する。即ち、ここでは、動画像を構成する各フレーム又はフィールドのデータ等の集合体もまた、動画コンテンツと称する。
また、本発明では、動画コンテンツに対する各種画像処理をアクセスユニット単位で実行するとする。アクセスユニットとは、フレームやフィールドといった動画像の単位を指し、具体的には例えば、動画像を構成する各静止画像全体(フレーム等)またはその一部分(フィールド等)を指す。ただし、以下、説明の簡略上、動画コンテンツに対する各種画像処理はフレーム単位で実行されるとする。
また、本発明による様々な画像処理の対象となった画像の具体例が幾つか図面に示されている。しかしながら、著作権保護等の観点から、画像処理の対象となった実際の画像そのものが図面に示されている訳ではなく、適宜マスクが施された画像であったり、線図化された画像が図面に示されている。例えば、後述する図3の画像21,22とは、画像処理の対象となった実際の画像ではなく、その実際の画像のうちの、実世界の観客席の柵に対応する領域と得点表示に対応する領域が白マスクされた後の画像となっている。即ち、図3は、後述する注目領域24が検出された具体例を示しているが、図3に示される白マスクの画像21から注目領域24が検出された訳ではなく、その画像21の元の実際の画像から注目領域24が検出されていることに注意を要する。同様に、例えば後述する図4の例は、フレーム31から選手の顔41が検出されたことを示す例であるが、線図化された図4のフレーム31に対して画像処理が施されて顔41が検出されたわけではなく、実際には、図4のフレーム31の線図化前の実写データに対してかかる画像処理が施されて、顔41に対応する実写データとしての顔が検出されている。
図1は、本発明が適用される画像処理装置の機能的構成例を示している。
図1の例の画像処理装置は、注目領域抽出部11乃至ハイライト検出部15を含むように構成されている。
図2は、かかる図1の例の画像処理装置が実行する画像処理の一例を説明するフローチャートである。
ステップS1において、注目領域抽出部11は、注目領域をフレーム毎に抽出する。
ここに、注目領域とは、実世界の被写体が撮影された結果得られる静止画像(ここでは1フレーム)に含まれる領域のうちの、実世界の1以上の背景のうちの、注目すべき背景に対応する領域をいう。
例えば、ここで動画コンテンツとして、サッカーの試合の映像が利用された場合を考える。この場合、動画コンテンツの実世界の被写体は、選手等のサッカーに関連する人物や、ボール等のサッカーの試合に関連する物体であり、実世界の背景としては、サッカーの試合が行われるプレイフィールド(主に芝生が生えている場所)と、それ以外の観客席等とに大別できる。この場合、サッカーの試合であることを考慮すると、プレイフィールドが注目すべき背景となる。従って、注目領域抽出部11は、所定のフレームに含まれる領域のうちの、実世界のプレイフィールドに対応する領域(以下、プレイフィールド領域と称する)を注目領域として抽出することができる。
例えば、図3のフレーム21は、サッカーの試合の一場面の画像であって、領域23がプレイフィ−ルド領域である。注目領域抽出部11は、このプレイフィールド領域23を注目領域24として抽出する。即ち、プレイフィールド領域が注目領域24として抽出された結果として、画像22が得られている。
詳細については図12乃至図16を用いて後述するが、注目領域抽出部11は、予め学習によって得られたプレイフィールド領域の画像特徴モデル(例えば後述するHSVヒストグラムモデル)を利用して、処理の対象として注目すべきフレーム(以下、注目フレームと称する)にプレイフィールド領域が含まれているか否かを判定し、含まれていると判定した場合、そのプレイフィールド領域を注目領域として抽出する。
なお、プレイフィールド領域は、サッカー等のスポーツの映像が動画コンテンツとして採用された場合の注目領域の例示であり、その他、例えば放送局内のスタジオにて所定のセットを用いて撮影される放送番組の映像が動画コンテンツと採用された場合には、そのセットが注目背景となり、そのセットに対応する領域が注目領域として検出され得る。また例えば、音楽のコンサートの映像が動画コンテンツとして採用された場合には、そのステージが注目背景となり、そのステージに対応する領域が注目領域として検出され得る。即ち、色について特徴がある実世界の背景が撮影された結果として、後述するHSVヒストグラムが特徴的となる画像領域であれば、何れの画像領域も注目領域として検出され得る。
ステップS2において、オブジェクト特徴抽出部12は、オブジェクト特徴をフレーム毎に抽出する。
ここに、オブジェクト特徴とは、注目領域の内部または隣接する領域に存在するオブジェクトの特徴を示す画像情報をいう。また、注目領域と他の領域の境界線や2以上の境界線の交差点もまたオブジェクトとみなし、かかるオブジェクトの特徴を示す画像情報もまたオブジェクト特徴に含めるとする。画像情報とは、オブジェクトの色情報の他、オブジェクトの位置情報等を含む広義な概念である。
例えば、ここで動画コンテンツとして、サッカーの試合の映像が利用された場合を考える。この場合、プレイフィールド領域が注目領域となるので、プレイフィールド領域内に存在する人物、例えば選手等の特徴を示す画像情報が検出され得る。具体的には例えば図4の例では、フレーム31から選手の顔41がオブジェクト特徴のひとつとして検出されている。また例えば、プレイフィールド領域の内部や隣接する領域に存在する人物以外についてのオブジェクト特徴情報として、図5の例では、フレーム32からゴールゲート42が検出されている。また例えば、図6の例では、フレーム33から、コーナ位置43やボール44が検出されており、図7の例では、プレイフィールドの境界45自体も、オブジェクト特徴の1つとして検出されている。その他、図示はしないが、白線等もオブジェクト特徴の1つとして検出され得る。
なお、オブジェクト特徴の検出の詳細については、図17乃至図27を参照して後述する。
図2に戻り、ステップS3において、ショットカット検出部13は、動画コンテンツ中の各ショットカットを検出する処理(以下、ショットカット検出処理と称する)を実行する。換言すると、各ショットカット間のショットが検出されることになる。
例えば、図8の例では、サッカーの試合の映像である動画コンテンツのうちの、「Frame25302」と「Frame25303」と記述された2つのフレームの間がショットカットとして検出されている。即ち、図8において、「Frame25215」乃至「Frame25339」と記述された各画像は、そのフレーム番号を有する各フレームを示している。この場合、図8の例では、番号25215乃至25302までのフレームが第1のショットとして検出され、番号25303乃至25339までのフレームが第1のショットとは別の第2のショットとして検出されている。
なお、ショットカット検出処理の詳細については、図28,図29を参照して後述する。
図2に戻り、ステップS4において、ショット分類部14は、動画コンテンツ中の各ショットのそれぞれを、予め定義されている複数種類のうちの何れかに分類する処理(以下、ショット分類処理と称する)を実行する。
例えば、図9の例では、各画像が1つのショットを示しており、時間方向を示す矢印で示されるように、サッカーの試合の映像である動画コンテンツのうちの8つの連続するショットのそれぞれが、「Long」,「Close-up」,「Close-Up」,「Medium」,「Long」,「Medium」,「Long」,「Medium」のそれぞれに分類されている。
なお、かかる「Long」等とは如何なる種類であるのかについては、図30等を参照して後述する。また、ショット分類処理の詳細については、図31乃至図36を参照して後述する。
図2に戻り、ステップS5において、ハイライト検出部15は、例えばステップS2の処理で抽出された各オブジェクト特徴や、ステップS4の処理で分類された各ショットの種類等に基づいて、即ち、例えば各ショットに属する各フレーム間の特徴量変化や各ショット間の時系列特徴等に基づいて、動画コンテンツの中からハイライトを検出する処理(以下、かかる処理をハイライト検出処理と称する)を実行する。なお、ハイライト検出部15は、さらに、必要に応じて、そのハイライトによるダイジェスト作成を行うこともできる。
例えば、サッカーの試合の映像である動画コンテンツのうちの、コーナキックに相当する一連のシーンがハイライトして検出された場合に利用される情報の例が、図10と図11に示されている。
例えば図10は、各ショットに属する各フレーム間の特徴量変化によって、ハイライトが検出された例を示している。即ち、図10の例では、所定のショットに属する各フレーム間の特徴量(後述するフレームタイプ)が、「Upper Corner」→「Unknown」→「Goal Box」→「Goal Box」と遷移しており、かかる特徴量の遷移の仕方が、これまでに他のサッカーの試合の様々な映像で学習してきた結果(後述する図37のLayer2についての統計的モデル)から判断して、コーナキックの遷移の仕方であると認定でき、その認定結果よりハイライトとして検出されたことを意味している。なお、「Upper Corner」等の各特徴量の意味については、図42を参照して後述する。
また例えば、図11は、各ショット間の時系列特徴としてショットの種類の推移の仕方によって、ハイライトが検出された例を示している。即ち、図11の例では、各ショット種類が、「Close-up」→「Medium」→「Long Shot」→「Close-up」と推移しており、かかる各ショットの推移の仕方が、これまでに他のサッカーの試合の様々な映像で学習してきた結果(後述する図37のLayer1についての統計モデル)から判断して、コーナキックの遷移の仕方であると認定でき、その認定結果によりハイライトとして検出されたことを意味している。なお、「Long」等の各種類については、図30を参照して後述する。
この場合、図10の例または図11の例の何れか一方のみの認定結果から、コーナキックのハイライトが検出されるときもあるし、図10の例と図11の例との両者の認定結果、または、その両者の認定結果に加えてさらに他の情報も加味して総合的に判断されて、コーナキックのハイライトが検出されるときもある。
なお、ハイライト検出処理の詳細については、図37乃至図44を参照して後述する。
以下、図1の画像処理装置を構成する注目領域抽出部11乃至ハイライト検出部15のそれぞれの詳細について、その順番に個別に説明していく。その際、本発明の理解を容易なものとするために、以下、動画コンテンツの具体例を挙げる必要がある場合、図3乃至図11の例にならい、サッカーの試合の映像が採用されているとする。
はじめに、図12乃至図16を参照して、図1の画像処理装置のうちの注目領域抽出部11の詳細例について説明する。
図12は、注目領域抽出部11の機能的構成の詳細例を示している。
図12の例の注目領域抽出部11は、HSVヒストグラムモデル保持部51乃至ポストプロセシング部56を含むように構成されている。
HSVヒストグラムモデル保持部51は、注目フレームから注目領域、即ち本実施の形態ではプレイフィールド領域を検出するために用いられるHSVヒストグラムモデルを保持している。
ここで、HSVヒストグラムモデルについて説明する。
図13には、サッカーの試合の映像の一場面に対応する代表的なサンプル画像61乃至63のそれぞれについて、3D HSV(3-Dimensions Hue Saturation Value)ヒストグラムをそれぞれの1Dに射影した結果獲られるグラフ71乃至73のそれぞれが示されている。
グラフ71乃至73からわかるように、サッカーの試合の映像は、主に芝生の映像を含むプレイフィールド領域が多く含まれているため、そのHSVのヒストグラムの特徴(以下、3D HSVヒストグラム特徴と称する)には各フレーム相互に一定の関連性が存在する。
そこで、本発明人は、上述したサンプル画像61乃至63を含めて様々なサッカー試合映像から集められた数多くの画像、即ち、日中,夕方,夜といった様々な時間帯の画像や、晴れ,曇り,雨といった様々な天気での画像等の各3D HSVヒストグラム特徴を解析し、統計処理を施すことによって、次のような統計データの結果を得た。
即ち、注目されるプレイフィールド領域を含む画像でのHSVの可変範囲は、それぞれH[22, 68], S[32, 255], V[64, 175]となり、また、そのレンジ幅は最大でそれぞれH: 16, S: 128, V: 64になる、といった結果を得た。換言すると、サッカーの試合の時間帯や気候などによって、プレイフィールド領域を含む画像でのHSVの各成分の平均値はそれぞれ変わるが、各成分の分散幅のそれぞれはほぼH: 16, S: 128, V: 64の中に抑えられることが判明した。従って、このようなH,S,Vの各分散幅等のHSV特徴を利用することで、プレイフィールド領域をロバストに検出することが可能となる。
そこで本実施の形態では例えば、かかる分散範囲がHSVヒストグラムモデルとして、図12のHSVヒストグラムモデル保持部51に保持されているのである。
なお、このようなHSVヒストグラムモデルを学習で求めるためのトレーニング用サンプル画像として、例えば図14に示される画像71乃至74のように、目視でも分かるような色特徴が違う様々な画像を採用することもできる。
図12に戻り、ダウンサンプリング部52は、注目フレームに対して、解像度を低くするための第1の処理を施し、また、HSVのそれぞれの成分の解像度を8Bitから2−3Bitに圧縮するための第2の処理を施した上で、HSV成分ピーク検出部53と注目領域検出部55に提供する。なお、第1の処理とは、処理速度向上と画像内ノイズ除去を主目的に行われる処理である。また、第2の処理とは、照明変化の影響の低減による、検出処理のロバスト性の向上を主目的に行われる処理である。
HSV成分ピーク検出部53は、ダウンサンプリング部52からの注目フレームについての3D HSVヒストグラム(図13のグラフ71乃至73のようなグラフ等)を演算し、その3D HSVヒストグラムからH,S,Vの各成分のピークをそれぞれ検出し、各ピークを,H,S,Vの各中心値(各平均値)として、注目領域範囲決定部54に通知する。
注目領域範囲決定部54は、H,S,V成分の各中心値(各ピーク)のそれぞれに対して、HSVヒストグラムモデル保持部51にHSVヒストグラムモデルとして保持されている上述したH,S,Vの各分散幅をそれぞれ持たせたH,S,Vの各範囲を決定し、それを注目領域範囲として注目領域検出部55に通知する。
具体的には例えば本実施の形態では、上述したように、H成分のレンジ幅として「16」が、S成分のレンジ幅として「128」が、V成分のレンジ幅として「64」が、HSVヒストグラムモデル保持部51にHSVヒストグラムモデルとして保持されている。従って、H成分の中心値(H成分のピーク)を中心として16のレンジ幅を有するHの範囲、S成分の中心値(S成分のピーク)を中心として128のレンジ幅を有するSの範囲、および、V成分の中心値(V成分のピーク)を中心として64のレンジ幅を有するVの範囲が、注目領域範囲として決定されて、注目領域検出部55に提供される。
注目領域検出部55は、ダウンサンプリング部52からの注目フレームを構成する各画素のそれぞれを順次処理の対象として注目すべき画素(以下、注目画素)として、その注目画素に対して次のような処理を順次施していくことにより、注目領域、即ち本実施の形態ではプレイフィールド領域を検出する。
即ち、注目領域検出部55は、注目画素の各H,S,Vの成分値が、注目領域範囲決定部54から通知された注目領域範囲に含まれるか否かを判定し、含まれると判定した場合には、注目画素はプレイフィールド領域の画素であると検出する一方、含まれないと判定した場合には、注目画素はプレイフィールド領域以外の画素であると検出する。
例えば、図15の例では、画像81が注目フレームとされてプレイフィールド領域が検出された結果として、画像82が得られている。即ち、画像82のうちの黒い領域91−1が、検出されたプレイフィールド領域である。同様に、図16の例では、画像84が注目フレームとしてプレイフィールド領域が検出された結果として、画像85が得られている。即ち、画像85のうちの黒い領域92−1が、検出されたプレイフィールド領域である。
このようにして、プレイフィールド領域が検出された注目フレームは、図12の注目領域検出部55からポストプロセシング部56に提供される。
ポストプロセシング部56は、注目フレームに対して、ポストプロセシング、即ちノイズ除去のためのフィルタリング処理を施すことで、プレイフィールド領域内の直線等を除去することができる。換言すると、プレイフィールド領域内に存在する画素ではあるが、注目領域検出部55によってはプレイフィールド領域の画素ではないと判定された画素を、改めてプレイフィールド領域の画素であると判定し直す処理が、ポストプロセシング部56により実行される、と把握することもできる。
例えば、図15の例では、上述した画像82に対してポストプロセシングが施された結果として、画像83が得られている。即ち、画像83のうちの黒い領域91−2が、領域91−1から白い線や選手等が除去された後のプレイフィールド領域である。同様に、図16の例では、上述した画像85に対してポストプロセシングが施された結果として、画像86が得られている。即ち、画像86のうちの黒い領域92−2が、領域92−1から白い線や選手等が除去された後のプレイフィールド領域である。
以上説明したように、図12の注目領域抽出部11は、サッカーの試合の様々な映像を学習することによって得られる色分布特徴、即ち、HSVヒストグラムモデル保持部51に保持されているHSVヒストグラムモデルを利用して、サッカーの実世界のプレイフィールドにおける芝の色を有する画像領域、即ち、プレイフィールド領域をロバストでリアルタイムに検出することができる。これにより、サッカーの試合の自動解析を行うことが可能となる。
換言すると、上述したように、プレイフィールド領域は、サッカーの試合の映像を動画コンテンツとして採用した場合における注目領域の単なる例示であり、採用される動画コンテンツの種類に応じた注目色を多く含む画像領域を、注目領域とすることができる。従って、所定の種類の動画コンテンツから注目領域を検出した場合には、その所定の種類の動画コンテンツの様々な映像を学習することによって、その所定の種類に適したHSVヒストグラムモデルを生成して、そのHSVヒストグラムモデルをHSVヒストグラムモデル保持部51に保持させればよい。この場合も、その所定の種類の動画コンテンツが注目領域抽出部11に入力されれば、全く同様に、その所定の種類についての注目領域がロバストかつリアルタイムに検出される。これにより、所定の種類の動画コンテンツの自動解析を行うことが可能となる。
また、詳細については後述するが、注目領域が抽出されれば、その注目領域内部またはそれに接する領域でのオブジェクト特徴の抽出も容易に可能となる。これにより、スポーツ映像等の様々な種類の動画コンテンツの解析におけるメタ情報の自動付与も可能となる。
さらにまた、詳細については後述するが、注目領域内とその隣接領域でのオブジェクト特徴の抽出ができれば、映像解析における高精度なショット検出やショット分類も可能となり、最終的には、動画コンテンツ内のハイライト抽出やダイジェスト映像の自動作成も可能となる。
以上、図12乃至図16を参照して、図1の画像処理装置のうちの注目領域抽出部11の詳細例について説明した。
次に、図17乃至図27を参照して、図1の画像処理装置のうちのオブジェクト特徴抽出部12の詳細例について説明する。即ち、以下、動画コンテンツとしてサッカーの試合が採用された場合における、オブジェクト特徴抽出部12により抽出可能なオブジェクト特徴とその抽出手法について、幾つかの具体例を説明する。
図17は、注目フレームのプレイフィールド領域内部でオブジェクトが存在する場合に、そのオブジェクトの大小、即ち、プレイフィールド領域内に占めるオブジェクトの割合の大小をオブジェクト特徴として抽出する場合における、その抽出手法例を説明する図である。
ここで、注目フレームのプレイフィールド領域における、プレイフィールドに対応する画素M(i,j)を、式(1)で表すとする。
Figure 0004257615
プレイフィールドに対応する画素M(i,j)とは、図12の注目領域検出部55によりプレイフィールド領域の画素であると検出された画素、即ち、ポストプロセンシング部56によるポストプロセンシングが行われて選手やボール等のオブジェクトが除去される前の画素をいう。換言すると、プレイフィールド領域を構成する画素のうちの、そのプレイフィールド領域内に存在する選手やボール等のオブジェクトを示す画素を除いた画素が、画素M(I,j)である。即ち、実世界上のプレイフィールド(芝生)の色特徴を有する画素が、画素M(I,j)である。具体的には例えば、上述した図15のプレイフィールド領域91−1や図16のプレイフィールド領域92−1のうちの黒色の画素が、画素M(I,J)に相当する。
式(1)において、HとWのそれぞれは、注目フレームの垂直方向(Y方向)と水平方向(X方向)のそれぞれのサイズを示している。
この場合、オブジェクトの大小の特徴を示す特徴量(以下、投影特徴量と称する)として、式(2)に示される垂直方向投影特徴量Ph(i)と、水平方向投影特徴量Pv(j)とのそれぞれを利用することができる。
Figure 0004257615
例えば、図17には、注目フレームとして画像101が採用された場合における、垂直方向投影特徴量Ph(i)の推移を表すグラフ111−Hと、水平方向投影特徴量Pv(j)の推移を表すグラフ111−Vとが示されている。
詳細については図32等を用いて後述するが、水平方向投影特徴量Pv(j)の変化が大きく、垂直方向投影特徴量Ph(i)の変化が小さい場合、プレイフィールド領域内部に大きなオブジェクトが存在すること、即ち例えば選手等のオブジェクトが大きく写っていることを意味する。一方、水平方向投影特徴量Pv(j)の変化が小さい場合、または垂直方向投影特徴量Ph(i)の変化が大きい場合、プレイフィールド領域内部に小さなオブジェクトが存在すること、即ち例えば選手等のオブジェクトが小さく写っていることを意味する。
このように、オブジェクト特徴抽出部12は、注目フレームについて、垂直方向投影特徴量Ph(i)と水平方向投影特徴量Pv(j)とを演算し、垂直方向投影特徴量Ph(i)と水平方向投影特徴量Pv(j)との各変化の度合いに基づいて、プレイフィールド領域内部に存在するオブジェクトの大小を、オブジェクト特徴のひとつとして抽出することができる。
図18は、注目フレームのプレイフィールド領域と他の領域との境界、若しくはその境界に関する情報、例えば境界線の角度や他の境界線との交差位置をオブジェクト特徴として抽出する場合における、その抽出手法例を説明する図である。
即ち、図18には、注目フレームとして画像121が採用された場合における、黒色のプレイフィールド領域122の境界として、直線123,124が抽出された場合の例が示されている。
オブジェクト特徴抽出部12は、注目フレームのプレイフィールド領域の境界の位置を画素単位で検出する。以下、このようにして検出された境界の位置を、式(3)に示されるように、B(i)と記述する。
Figure 0004257615
この場合、境界の各位置B(i)は水平方向のW画素分の各位置を示しているので、オブジェクト特徴抽出部12は、水平方向で30分割とする低解像度化処理を行い、即ち、境界の各位置B(i)の水平方向の個数を30個分に減縮して、境界の各位置B(i)における境界線の各角度A(i)、即ち、例えば各位置B(i)とその前後の各位置B(i-1),B(i+1)等とを結ぶ直線の各角度A(i)を求める。なお、低解像度化の目的は、境界に接する人物やグラフィック等の影響(ノイズ)を低減するため、即ち、境界の位置B(i)として検出された中には実際の境界ではなく人物やグラフィックスの位置が含まれている場合がありこれらを除去するためである。
その後、オブジェクト特徴抽出部12は、水平方向に30分割したうちの左側n個分(nは1乃至30の間の整数値)の角度Al(n)を式(4)に従って演算し、また、それよりも右側の角度Ar(n)を式(5)に従って演算する。
Figure 0004257615
Figure 0004257615
また、オブジェクト特徴抽出部12は、式(6),式(7)のそれぞれに従って、左右両側の角度の分散値Dl(n),Dr(n)のそれぞれを演算する。
Figure 0004257615
Figure 0004257615
そして、オブジェクト特徴抽出部12は、式(8)で示される画素位置Nを、左右両直線の交差位置とする。
Figure 0004257615
最後に、オブジェクト特徴抽出部12は、画素位置Nでの左右両側の角度Al(n),Ar(n)との角度差が10度以上となる場合(即ち、式(9)の場合)、左右両側の角度Al(n),Ar(n)をそれぞれ有する各直線を、異なる2つの境界線としてそれぞれ検出する。例えば図18の例では、直線123,124が2つの境界線として検出されている。なお、画素位置Nでの左右両側の角度Al(n),Ar(n)との角度差が10度未満の場合には、1つの境界線とみなされる。
Figure 0004257615
また、2つの境界線が検出された場合、後述する図21に示されるように、それらの2つの境界線の交差位置を、サッカーのフィールドにおけるコーナ位置として抽出することもできる。
このようにして、オブジェクト特徴抽出部12は、注目フレームのプレイフィールド領域と他の領域との境界、若しくはその境界に関する情報、例えば境界線の角度や他の境界線との交差位置をオブジェクト特徴として抽出することができる。
さらに、オブジェクト特徴抽出部12は、プレイフィールド領域の境界の検出後、次のようにして、サッカーのフィールドに存在するゴール(以下、適宜ゴールゲート、ゴールボックス等称する)を、オブジェクト特徴のひとつとして抽出することもできる。
即ち、オブジェクト特徴抽出部12は、注目フレームの各境界線に接する略垂直方向の白線を検出する。ここに、略垂直と記載したのは、実世界上のゴールゲートの白い構造体(鉄筋等)のうちの垂直方向の部分は、注目フレーム内で白線画像として含まれる場合には必ずしも正確な注目フレーム内で垂直方向となっていないからである。即ち、オブジェクト特徴抽出部12は、各境界線に接し、かつ、注目フレームにおける垂直方向に対して左右α度(αは0乃至90度のうちの任意の値)の猶予範囲の角度を有する白線を検出する。また、ここでいう白線とは、真の白の線を意味するわけではなく、白とみなすことができる範囲内の色で構成される線を意味する。
そして、オブジェクト特徴抽出部12は、略垂直方向の2本以上の白線が検出された場合、2本以上の白線のうちの所定の2本の組を選択し、その組の2本の白線で囲む領域内に略水平方向の白線が存在するか否を確認する。なお、ここで略水平方向としたのは、上述した略垂直方向とした趣旨と同一である。また、係る確認は、組合せ可能な全ての組について行われる。オブジェクト特徴抽出部12は、略垂直方向の2本の白線の組のうちの、略水平方向の白線が存在する組を1組以上検出した場合、それらの組をゴールゲートの候補として取り扱う。
そして、オブジェクト特徴抽出部12は、図19に示されるゴールゲート131のポスト高さ133とクロスバー長さ132との関係や、クロスバー長さ132とプレイフィールド幅との比例関係等の寸法の規定、即ち、ゴールゲートのセマンティックルールを用いて、正しいゴールゲートを抽出する。即ち、オブジェクト特徴抽出部12は、1以上のゴールゲートの候補の中から、セマンティックルールを満たす候補をゴールゲートであるとして選抜する。
図20には、このような手法によって検出されたゴールゲートの具体例が示されている。即ち、図20には、注目フレームとして画像141が採用された場合における、黒色のプレイフィールド領域143の境界線に接する、2本の略垂直方向の白線分とそれらの間の1本の略水平方向の白線分とで囲まれる領域144が、ゴールゲートとして抽出された場合の例が示されている。図20からは、画像141が複雑な背景を有しているにもかかわらず、ゴールゲート144がロバストに検出できていることがわかる。
図21は、注目フレームのプレイフィールド領域におけるコーナ位置をオブジェクト特徴として抽出する場合における、その抽出手法例を説明する図である。
即ち、図21には、注目フレームとして画像151が採用された場合における、黒色のプレイフィールド領域161の2つの境界線162,163の交差位置164がコーナ位置として抽出された場合の例が示されている。
なお、コーナ位置の検出手法は、図18を用いて上述した境界線の検出手法と基本的に同様の手法である。即ち、オブジェクト特徴抽出部12は、注目フレームについて、上述した式(3)乃至式(9)を演算することで、コーナ位置をオブジェクト特徴のひとつとして抽出することができる。
その他、抽出手法の具体例については冗長になるので説明を省くが、既知の手法等を利用することで、オブジェクト特徴抽出部12は、様々なオブジェクト特徴を抽出することができる。
具体的なオブジェクト特徴の抽出結果の例が図22乃至図27に示されている。
即ち、図22の例では、プレイフィールド領域に存在する選手171がオブジェクト特徴のひとつとして抽出されている。図23の例では、プレイフィールド領域の上に合成される得点表示等のグラフィック領域172がオブジェクト特徴のひとつとして抽出されている。図24の例では、プレイフィールド領域に存在するボール173がオブジェクト特徴のひとつとして抽出されている。図25の例では、例えば選手と審判官との服の色の差異を利用して、選手ではなく、審判官174がオブジェクト特徴のひとつとして抽出されている。図26の例では、プレイフィールド領域に存在する選手の動き、即ち、所定の方向に選手が所定の速度で走っている等の動きがオブジェクト特徴のひとつとして抽出されている。図27の例では、選手の顔175がオブジェクト特徴のひとつとして抽出されている。
以上、図17乃至図27を参照して、図1の画像処理装置のうちのオブジェクト特徴抽出部12の詳細例について説明した。
次に、図28と図29を参照して、図1の画像処理装置のうちのショットカット検出部13の詳細例について説明する。
ショットカットとは、ショットとショットとの切り替り、即ちショット変化をいい、一般的には、ハードカット、フェードイン/フエードアウトカット、グラフィックスワイパーカットといった3種類に大別される。ハードカットでは、1乃至2フレームの間にショットが切り替るので、そのショット変化は検出しやすいが、フェードイン/フエードアウトカットやグラフィックスワイパーカットは、10乃至30フレーム程度の間にショットが切り替るので、そのショット変化を自動的に検出するのが容易ではない。
そこで、本発明人は、ハードカットのみならず、フェードイン/フエードアウトカットやグラフィックスワイパーカットまで容易にかつ正確に検出すべく、次のようなショットカット検出手法を発明した。
即ち、本発明人は、ショットカットの容易かつ正確な検出には、カメラの移動やフレーム内のオブジェクト移動に対するロバスト性を保つという第1の条件と、フレーム内の色特徴分布の変化に対して敏感に検出できるという第2の条件とを同時に満たす必要がある。
この場合、第1の条件と第2の条件とを満たすために、フレーム内のオブジェクトの動きの支配的な方向に対して、2以上の画像領域に分割して次のような各種演算を行うとよいと、本発明人は思想した。
フレーム内のオブジェクトの動きの支配的な方向としては、本実施の形態のように動画コンテンツがサッカーの試合の映像である場合では、フレームの水平方向を採用することができる。即ち、サッカーの試合のオブジェクトとは選手やボール等であり、これらの選手やボールはフレームに対して水平方向に動くことが多いからである。
具体的には例えば本実施の形態では、図28に示されるように、各フレーム181乃至183のそれぞれについて、水平方向に画像領域が上から2:5:3という割合で3分割された上で、次のような各種演算を行うとした。なお、以下、図28の記載にあわせて、2:5:3に3分割された画像領域のそれぞれを、領域R1,R2,R3のそれぞれと称する。
ここに、2:5:3に3分割した理由は、サッカーの試合の一場面を構成する様々なフレームを解析したところ、プレイフィールド領域が一番多く含まれる領域は総合的に判断すると領域R2となるからである。即ち、分割数や分割割合として、2:5:3の3分割を必ずしも採用する必要が無く、ショットカットを検出したい動画コンテンツの種類の特徴に応じて任意に変更可能である。
以上説明したように、ショットカット検出部13は、はじめに、注目フレームを領域R1乃至R3に3分割する。
次に、ショットカット検出部13は、注目フレームの領域R1乃至R3のそれぞれについて、色特徴分布として上述した3D HSVヒストグラム(図13のグラフ71乃至73参照)をそれぞれ演算する。また、ショットカット検出部13は、フレーム内のノイズなどに対するロバスト性を向上させるために、3D HSVヒストグラムの各H,S,Vの成分をそれぞれ2Bitsで表し、それらの3成分の2Bitsの集合データである6Bitsのデータを、色特徴分布を示す特徴量として生成する。なお、以下、かかる特徴量を、色特徴量HRkと記述する。ここに、kは、1乃至3のうちの何れかを示す。即ち、色特徴量HR1とは、領域R1についての色特徴量であり、色特徴量HR2とは、領域R2についての色特徴量であり、色特徴量HR3とは、領域R3についての色特徴量である。
そして、ショットカット検出部13は、フレーム間の違いを示す特徴の一つとして、注目フレームの領域R1乃至R3のそれぞれについて、次の式(10)の特徴量△Hkをそれぞれ演算する。以下、特徴量△Hkを色差分特徴量△Hkと称する。
Figure 0004257615
式(10)において、Htk(i)は、注目フレームの領域kについての色特徴量を示している。Htk-△(i)は、注目フレームから何フレームか前のフレームのの領域kについての色特徴量を示している。即ち、Δは何フレーム前の特徴量との違いを求めるかを示す定数である。
以上の結果として、領域R1についての色差分特徴量△HR1、領域R2についての色差分特徴量△HR2、および、領域R3についての色差分特徴量△HR3が得られることになる。
そこで、ショットカット検出部13は、次の式(11)を演算することで、フレーム全体としての色差分特徴量△Hを演算する。なお、以下、かかる色差分特徴量△Hを、総合色差分特徴量△Hと称する。
Figure 0004257615
式(11)において、α,β,γのそれぞれは、領域R1についての色差分特徴量△HR1、領域R2についての色差分特徴量△HR2、および、領域R3についての色差分特徴量△HR3のそれぞれに対して重み付けを与えるための所定のパラメータ値である。ここに、α,β,γの具体的な値は特に限定されないが、本実施の形態のようにサッカーの試合について言えば、βを一番大きな値とすると好適である。上述したように領域R2が、プレイフィールド領域が一番多く含まれることから、ショットカット検出にとって一番重要な領域であり、かかる領域R2に大きな重み付けを与えるのが適切だからである。
そして、ショットカット検出部13は、この総合色差分特徴量△Hと、予め設定された閾値T1とを比較して、総合色差分特徴量△Hが閾値T1より大きい場合(△H>T1の場合)、注目フレームはショットカットであると検出する。なお、閾値T1は、特に限定されないが、サッカーの試合等の映像から統計的に求めた値を採用すると好適である。
以上のショットカット検出部13により実行される一連の処理に対応する手法が、本発明人により発明されたショットカット検出手法のひとつである。以下、かかる手法を、総合色特徴差分ショットカット検出手法と称する。
さらに、本発明人は、次のようなショットカット検出手法も発明した。
即ち、サッカーの試合のようなスポーツ映像では、注目領域の特徴を利用することによって、ショットカットをよりロバストに検出することが可能である。即ち、サッカーの試合の注目領域とはプレイフィールド領域であり、かかるプレイフィールド領域が一番多く含まれるフレーム内の領域が、上述した領域R2である。
そこで、領域R2内の注目色の特徴を利用して、ショットカットの検出も行える。ここに、注目色とは、注目領域における支配的な色であって、注目領域がプレイフィールド領域である場合には芝の色、即ち、いわゆる緑色である。換言すると、注目色の領域とは、図12のポストプロセシング部56によるポストプロセシングが行われる前のプレイフィールド領域、即ち、選手やボールや白線等のオブジェクトを含まない、実世界上の芝に対応する領域である。
具体的には、ショットカット検出部13は、領域R2における注目色の領域が占める割合、即ち、領域R2を構成する画素の総数に対する注目色の画素の個数の比を演算する。以下、かかる割合を、注目色率DCRと称する。
次に、ショットカット検出部13は、注目色率DCRが50%を超えるか否かを判定し、超えると判定した場合には、注目フレームはショットカットの可能性があるとして、次の式(12)の演算を行う。即ち、式(12)も、フレーム間の違いを示す特徴の一つである特徴量△DCRを演算するための式である。以下、かかる特徴量△DCRを、注目色差分特徴量△DCRと称する。
Figure 0004257615
式(12)において、DCRt(i)は、注目フレームについての注目色率を示している。DCRt-△は、注目フレームから何フレームか前のフレームの注目色率を示している。即ち、Δは、上述した式(10)と同様に、何フレーム前の特徴量との違いを求めるかを示す定数である。
そして、ショットカット検出部13は、この注目色差分特徴量△DCRと、予め設定された閾値T2とを比較して、注目色差分特徴量△DCRが閾値T2より大きい場合(△DCR>T2の場合)、注目フレームはショットカットであると検出する。なお、閾値T2は、特に限定されないが、サッカーの試合等の映像から統計的に求めた値を採用すると好適である。
以上のショットカット検出部13により実行される一連の処理に対応する手法が、本発明人により発明されたショットカット検出手法のひとつである。以下、かかる手法を、注目色差分ショットカット検出手法と称する。
なお、総合色特徴差分ショットカット検出手法と、注目色差分ショットカット検出手法とはそれぞれ独立した手法であるため、何れか一方のみを利用してショットカットを検出することも可能である。ただし、総合色特徴差分ショットカット検出手法と、注目色差分ショットカット検出手法とを組み合わせることで、より一段と正確なショットカットの検出が可能になる。
例えば図29には、総合色特徴差分ショットカット検出手法と、注目色差分ショットカット検出手法とを組み合わせて適用した場合のショットカット検出処理、即ち、図2のステップS3の詳細な処理の一例を説明するフローチャートが示されている。
ステップS21において、ショットカット検出部13は、入力されたフレームを注目フレームに決定する。
ステップS22において、ショットカット検出部13は、上述した式(11)の演算等により、注目フレームにつていの色差分特徴量△Hを算出する。
ステップS23において、ショットカット検出部13は、色差分特徴量△Hは閾値T1より大きいか否か(△H>T1であるか否か)を判定する。
色差分特徴量△Hが閾値T1を超えている場合、ステップS23の処理でYESであると判定されて、処理はステップS24に進む。ステップS24において、ショットカット検出部13は、注目フレームは、ショットカットであると検出する。これにより、処理はステップS30に進む。ただし、ステップS30以降の処理については後述する。
これに対して、色差分特徴量△Hが閾値T1以下の場合、ステップS23の処理でNOであると判定されて、処理はステップS25に進む。ステップS25において、ショットカット検出部13は、注目フレームにつていの注目色率DCRを算出する。
ステップS26において、ショットカット検出部13は、注目色率DCRは50%を超えているか否か(DCR>50%であるか否か)を判定する。
注目色率DCRが50%以下の場合、ステップS26の処理でNOであると判定されて、処理はステップS27に進む。ステップS27において、ショットカット検出部13は、注目フレームは、ショットカットではないと検出する。これにより、処理はステップS30に進む。ただし、ステップS30以降の処理については後述する。
これに対して、注目色率DCRが50%を超えている場合、ステップS26の処理でYESであると判定されて、処理はステップS28に進む。ステップS28において、ショットカット検出部13は、上述した式(12)の演算等により、注目色差分特徴量△DCRを算出する。
ステップS29において、ショットカット検出部13は、注目色差分特徴量△DCRが閾値T2より大きいか否か(△DCR>T2であるか否か)を判定する。
注目色差分特徴量△DCRが閾値T2より大きい場合には、ステップS29の処理でYESであると判定されて、ステップS24の処理で、注目フレームはショットカットであると検出される。
これに対して、注目色差分特徴量△DCRが閾値T2以下の場合には、ステップS29の処理でNOであると判定されて、ステップS27の処理で、注目フレームはショットカットではないと検出される。
このようにして、ステップS24またはS27の処理が終了すると、即ち、注目フレームがショットカットであるか否かの検出が終了すると、処理はステップS30に進む。ステップS30において、ショットカット検出部13は、注目フレームは最後のフレームであるか否かを判定する。
ステップS30において、注目フレームは最後のフレームではないと判定されると、処理はステップS21に戻されて、それ以降の処理が繰り返される。
即ち、動画コンテンツを構成する各フレームのそれぞれについて、上述したステップS21乃至S30のループ処理が繰り返されて、ショットカットであるか否かの検出がフレーム毎に行われていく。そして、最後のフレームについてショットカットであるか否かの検出が行われると、ステップS30の処理でYESであると判定されて、ショットカット検出処理は終了する。即ち、図2のステップS3の処理は終了し、ステップS4のショット分類処理が引き続き実行される。
以上、図28と図29を参照して、図1の画像処理装置のうちのショットカット検出部13の詳細例について説明した。かかるショットカット検出部13を採用することで、画像(フレーム)全体を、カメラの水平運動や人物の水平動きに対してロバストな特徴量で記述できる複数の領域にそれぞれ分割し、それぞれの領域内の色分布特徴や注目色の領域特徴を用いることによって高精度なショットカット検出が可能となり、その結果、スポーツ映像等の解析におけるメタ情報の自動付与が可能となる。
次に、図30乃至図36を参照して、図1の画像処理装置のうちのショット分類部14の詳細例について説明する。
即ち、上述したショットカット検出部13のショットカット検出処理の結果として、動画コンテンツは複数のショットに区分されることになる。そこで、ショット分類部14は、これらの複数のショットのそれぞれを、予め定義されている1以上の種類のうちの所定の種類に1つずつ分類していく。なお、かかる種類は、後述するようにショットタイプとも称される。
本実施の形態では、動画コンテンツとしてサッカーの試合の映像が採用された場合に好適なショットの種類として、例えば図30に示されるような「Long」,「Medium」,「Close-up」,「Out」の4種類が定義されているとする。
図30の各サンプル画像からわかるように、「Long」とは、サッカーの試合の全体状況が分かるようなショット、即ち、プレイフィールド領域と選手等の全体的ビューからなるショットの種類をいう。「Medium」は、カメラがズームした状態で数人の選手等がプレイフィールド領域に存在するショットの種類をいう。「Close-up」とは、1乃至2の選手等がフォーカスされ、その顔の識別ができるようなショットの種類をいう。「Out」とは、プレイフィールド領域が含まれないショットの種類をいう。
このような4種類のうちの何れかに分類されるショット分類処理、即ち、図2のステップS4の処理の詳細例を説明するフローチャートが、図31に示されている。
ステップS51において、ショット分類部14は、入力されたショットを注目ショットに設定する。
ステップS52において、ショット分類部14は、注目ショットに注目領域は含まれているか否か、即ち本実施の形態ではプレイフィールド領域は含まれるか否かを判定する。
ステップS52において、注目ショットに注目領域は含まれていないと判定した場合、ショット分類部14は、ステップS53において、注目ショットの種類は、「Out」またはフィールド外「Close-up」であると決定する。その後、処理はステップS62に進む。ただし、ステップS62以降の処理については後述する。
なお、フィールド外「Close-up」とは、1乃至2の選手等がフォーカスされ、その顔の識別ができるようなショットであって、プレイフィールド領域がほぼ検出されていないショットの種類をいう。その意味で、フィールド外「Close-up」とは、「Out」に含めることもできるが、後述するハイライト検出において、フィールド外「Close-up」から識別した顔を利用する等も可能であるので、ここでは「Out」とは区別して記述している。
これに対して、注目ショットにプレイフィールド領域が含まれている場合、ステップS52の処理でYESであると判定されて、処理はステップS54に進む。
ステップS54において、ショット分類部14は、注目ショットの注目領域についての投影特徴量Ph,Pvを算出する。
具体的には例えば、ショット分類部14は、上述した式(2)を利用して、垂直方向のH画素分の各垂直方向投影特徴量Ph(i)と、水平方向のW画素分の各水平方向投影特徴量Pv(j)とを算出する。
さらに、ショット分類部14は、ノイズの影響を低減させるために、垂直方向のH画素分の各垂直方向投影特徴量Ph(i)に対して低解像度処理を施し、10個分の各垂直方向投影特徴量Ph(i)とし、また、水平方向のW画素分の各水平方向投影特徴量Pv(j)に対して低解像度処理を施し、30個分の各水平方向投影特徴量Pv(j)とする。
そして、このような処理の結果として、注目ショットの注目領域についての投影特徴量Ph,Pvのそれぞれとして、10個分の各垂直方向投影特徴量Ph(i)の分布を示す特徴量と、30個分の各水平方向投影特徴量Pv(j)の分布を示す特徴量とが得られることになる。
即ち、上述した図17のグラフ111−Hに示されるような各垂直方向投影特徴量Ph(i)の分布を示す特徴量が、垂直方向投影特徴量Phの一例である。換言すると、プレイフィールド領域を構成する画素のうちのプレイフィールドの色特徴を有する画素(オブジェクトを除く画素)を垂直方向の1ラインに投影した場合におけるその1ライン上の分布を示す特徴量が、垂直方向投影特徴量Phである。
また、上述した図17のグラフ111−Vに示されるような各水平方向投影特徴量Pv(j)の分布を示す特徴量が、水平方向投影特徴量Pvの一例である。換言すると、プレイフィールド領域を構成する画素のうちのプレイフィールドの色特徴を有する画素(オブジェクトを除く画素)を水平方向の1ラインに投影した場合におけるその1ライン上の分布を示す特徴量が、水平方向投影特徴量Pvである。
ステップS55において、ショット分類部14は、注目ショットの注目領域についての投影特徴量Ph,Pvに基づく特徴が、「Close-up」or「Medium」型であるか否かを判定する。
注目ショットの注目領域についての投影特徴量Ph,Pvに基づく特徴とは、ショットの種類を分類可能な特徴であれば特に限定されないが、ここでは、図32のテーブルで示される特徴が採用されているとする。
また、「Close-up」or「Medium」型とは、注目ショットの型が「Close-up」または「Medium」に分類される型であることをいう。なお、後述する他の型も、基本的に同様である。
即ち、図32は、ショットの注目領域についての投影特徴量Ph,Pvと、ショットの種類の関係を示したものである。
図32の横軸のVertical Projection Featureとは、所定のショットについて上述したステップS54の処理と同様の処理が施された結果得られる30個分の各水平方向投影特徴量Pv(j)のうちの、最大値と最小値との差分値を示している。即ち、水平方向投影特徴量Pvで示される分布の最大値と最小値との差分値が、Vertical Projection Featureである。
一方、図32の縦軸のHorizontal Projection Featureとは、所定のショットについて上述したステップS54の処理と同様の処理が施された結果得られる10個分の各垂直方向投影特徴量Ph(i)のうちの、最大値と最小値との差分値を示している。即ち、垂直方向投影特徴量Phで示される分布の最大値と最小値との差分値が、Horizontal Projection Featureである。
また、図32において、小さな*印の点は、「Long」であることが既知の1つのショットに対して、上述したステップS54の処理と同様の処理を施し、その処理結果をプロットしたものを示している。小さな○印の点は、「Medium」であることが既知の1つのショットに対して、上述したステップS54の処理と同様の処理を施し、その処理結果をプロットしたものを示している。小さな□印の点は、「Close-up」であることが既知の1つのショットに対して、上述したステップS54の処理と同様の処理を施し、その処理結果をプロットしたものを示している。
なお、上述したステップS54の処理と同様の処理の結果を図32のテーブル上にプロットするとは、ステップS54の処理と同様の処理が行われた結果それぞれ得られる投影特徴量Pv,Phを利用してプロットすること、具体的には、水平方向投影特徴量Pvで示される分布の最大値と最小値との差分値を横軸の座標として、垂直方向投影特徴量Phで示される分布の最大値と最小値との差分値を縦軸の座標として、図32のテーブル上に点をプロットすることをいう。
このような種類が既知である複数のショットについての各プロットの結果として、領域191には、「Long」または「Medium」のショットの点が含まれることとなった。これにより、上述したステップS54の処理の結果を図32のテーブル上にプロットした場合に、そのプロットされた点が領域191に含まれるときには、注目ショットは「Long」または「Medium」に分類できることがわかる。
なお、上述したステップS54の処理の結果を図32のテーブル上にプロットするとは、上述したステップS54の処理の結果それぞれ得られる投影特徴量Pv,Phを利用してプロットすること、具体的には、水平方向投影特徴量Pvで示される分布の最大値と最小値との差分値を横軸の座標として、垂直方向投影特徴量Phで示される分布の最大値と最小値との差分値を縦軸の座標として、図32のテーブル上に点をプロットすることをいう。
以下同様に、種類が既知である複数のショットについての各プロットの結果として、領域192には、「Long」のショットの点が含まれることとなった。これにより、上述したステップS54の処理の結果を図32のテーブル上にプロットした場合に、そのプロットされた点が領域192に含まれるときには、注目ショットは「Long」に分類できることがわかる。
種類が既知である複数のショットについての各プロットの結果として、領域193には、「Long」,「Medium」,「Close-up」のショットの点が何れも含まれることとなった。即ち、上述したステップS54の処理の結果を図32のテーブル上にプロットした場合に、そのプロットされた点が領域193に含まれるときには、注目ショットの分類は困難であることがわかる。換言すると、領域193とは、いわゆるグレーゾーンであるといえる。
種類が既知である複数のショットについての各プロットの結果として、領域194には、「Close-up」または「Medium」のショットの点が含まれることとなった。これにより、上述したステップS54の処理の結果を図32のテーブル上にプロットした場合に、そのプロットされた点が領域194に含まれるときには、注目ショットは「Close-up」または「Medium」に分類できることがわかる。
なお、領域193は、「Long」,「Medium」,「Close-up」の何れに分類することも困難なグレーゾーンであるとはいったが、実際には、「Long」に分類されることは稀であり、領域194に近い領域であるといえる。そこで、ここではショットの種類の分類を簡便にするために、上述したステップS54の処理の結果を図32のテーブル上にプロットした場合に、そのプロットされた点が領域193または領域194に含まれるときには、注目ショットは「Close-up」または「Medium」に分類されるとする。
即ち、上述したステップS54の処理の結果を図32のテーブル上にプロットした場合に、そのプロットされた点が領域193または領域194に含まれるときには、ステップS55の処理でYESであると判定されて、即ち、注目ショットの注目領域についての投影特徴量Ph,Pvに基づく特徴が、「Close-up」or「Medium」型であると判定されて、処理はステップS56に進む。
ステップS56において、ショット分類部14は、オブジェクト特徴が「Close-up」型であるか否かを判定する。
ステップS56において、オブジェクト特徴が「Close-up」型であると判定した場合、ショット分類部14は、ステップS57において、注目ショットの種類は「Close-up」であると決定する。その後、処理はステップS62に進む。ただし、ステップS62以降の処理については後述する。
これに対して、ステップS56において、オブジェクト特徴が「Close-up」型ではないと判定した場合、即ち、オブジェクト特徴が「Medium」型であると判定した場合、ショット分類部14は、ステップS58において、注目ショットの種類は「Medium」であると決定する。その後、処理はステップS62に進む。ただし、ステップS62以降の処理については後述する。
即ち、ステップS55の処理でYESであると判定された場合とは、注目ショットが「Close-up」または「Medium」に分類できる場合である。
そこで、このような場合には、本実施の形態では、上述した図1のオブジェクト特徴抽出部12により抽出されたオブジェクト特徴に基づいて、注目ショットを「Close-up」または「Medium」に分類するようにしたのである。
この場合、オブジェクト特徴抽出部12により抽出されるオブジェクト特徴は様々な種類が存在し、何れの種類を利用することもできるし、また、1以上の種類を組み合わせて利用することもできる。
例えば図33の例では、オブジェクト特徴として顔領域が利用されている。即ち、画像201からは顔領域211,212が検出されている一方、画像202から顔領域213が検出されている。顔領域211,212と、顔領域213とを比較するに、大きさがそれぞれ違うことがわかる。そこで、顔領域の大きさを特徴量として、その特徴量が閾値を超えている型を「Close-up」型であるとして、その特徴量が閾値以下の型を「Medium」型であると定義することができる。即ち、ショット分類部14は、閾値を超える大きさの顔領域を含む注目ショットについては、「Close-Up」であると決定する一方、閾値以下の大きさの顔領域を含む注目ショットについては「Medium」であると決定することができる。
また、仮にオブジェクト特徴抽出部12により顔領域の抽出がなされていなかった場合でも、例えば、選手のユニフォームの色等を用いて選手の領域が抽出されていれば、ショット分類部14は、その領域の幅を特徴量として利用して「Medium」または「Close-up」の分類を行うことができる。
このようにして、上述したステップS54の処理の結果を図32のテーブル上にプロットした場合に、そのプロットされた点が領域193または領域194に含まれるときには、ステップS55の処理でYESであると判定されて、ステップS56乃至S58の処理により、注目ショットの種類が「Close-Up」または「Medium」に決定される。
これに対して、上述したステップS54の処理の結果を図32のテーブル上にプロットした場合に、そのプロットされた点が領域191または領域192に含まれるときには、ステップS55の処理でNOであると判定されて、次のようなステップS59以降の処理が実行されて、注目ショットの種類が「Medium」または「Long」に決定される。
即ち、ステップS59において、ショット分類部14は、注目ショットの注目領域のうちの背景除外領域についての投影特徴量Ph1,Pv1を算出する。
ここに、背景除外領域とは、サッカーの試合の画像では、観客席部分等を示す背景領域を除いた領域である。具体的には例えば、図34の例では、サッカーの試合の画像231については、プレイフィールド領域241以外が背景領域である。従って、サッカーの試合の画像231における背景除外領域とは、実線251の下方であって、点線252,253に挟まれた範囲が背景除外領域として採用される。同様に、サッカーの試合の画像232については、プレイフィールド領域242以外が背景領域である。従って、サッカーの試合の画像232における背景除外領域とは、実線254の下方であって、点線255,256に挟まれた範囲が背景除外領域として採用される。
そこで、ショット分類部14は、このような背景除外領域について、上述した式(2)を利用して、垂直方向のH画素分の各垂直方向投影特徴量Ph(i)と、水平方向のW画素分の各水平方向投影特徴量Pv(j)とを算出する。
さらに、ショット分類部14は、ノイズの影響を低減させるために、垂直方向のH画素分の垂直方向投影特徴量Ph(i)に対して低解像度処理を施し、10個分の各垂直方向投影特徴量Ph1(i)とし、また、水平方向のW画素分の水平方向投影特徴量Pv(j)に対して低解像度処理を施し、30個分の各水平方向投影特徴量Pv1(j)とする。
そして、このような処理の結果として、背景除外領域についての投影特徴量Ph1,Pv1として、10個分の各垂直方向投影特徴量Ph1(i)の分布を示す特徴量と、30個分の各水平方向投影特徴量Pv1(j)の分布を示す特徴量とが得られることになる。
そこで、ステップS60において、ショット分類部14は、背景除外領域についての投影特徴量Ph1,Pv1に基づく特徴が、「Medium」型であるか否かを判定する。
即ち、図32の領域191にプロットされた複数のショットのそれぞれについて、各背景除外領域を用いて再プロットすると、「Long」の背景除外領域の点は、図36に示されるように領域191のうちの領域271に含まれる一方、「Medium」の背景除外領域の点は、領域191のうちの領域272に含まれることとなった。
これにより、上述したステップS59の処理結果を図32と図36のテーブル上にプロットした場合に、そのプロットされた点が領域272に含まれるときには、ステップS60の処理でYESであると判定されて、即ち、背景除外領域についての投影特徴量Ph1,Pv1に基づく特徴が、「Medium」型であると判定されて、ステップS58において、注目ショットの種類は「Medium」であると決定される。
これに対して、上述したステップS59の処理の結果を図32と図36のテーブル上にプロットした場合に、そのプロットされた点が領域192(図32)または領域271(図36)に含まれるときには、ステップS60の処理でNOであると判定されて、即ち、背景除外領域についての投影特徴量Ph1,Pv1に基づく特徴が「Long」型であると判定されて、処理はステップS61に進む。ステップS61において、ショット分類部14は、注目ショットの種類は「Long」であると決定する。
以上のようにして、ステップS53、S57、S58、またはS61の処理が終了すると、即ち、注目ショットの種類が、「Out」、フィールド外「Close-up」、「Close-up」、「Medium」、または「Long」であると決定されると、処理はステップS62に進む。
ステップS62において、ショット分類部14は、注目ショットは最後のショットであるか否かを判定する。
ステップS62において、注目ショットは最後のショットではないと判定されると、処理はステップS51に戻されて、それ以降の処理が繰り返される。
即ち、動画コンテンツにおける各ショットのそれぞれについて、上述したステップS51乃至S62のループ処理が繰り返されて、各ショットの種類が決定されていく。そして、最後のショットの種類が決定されると、ステップS62の処理でYESであると判定されて、ショット分類処理は終了する。即ち、図2のステップS4の処理は終了し、ステップS5のハイライト検出処理が引き続き実行される。
以上、図30乃至図36を参照して、図1の画像処理装置のうちのショット分類部14の詳細例について説明した。このようなショット分類部14を採用することで、様々なショットタイプに対して、注目領域内の射影特徴(例えば上述した投影特徴量Ph,PV等)やその注目領域内や隣接領域でのオブジェクト特徴を用いることができ、その結果、高精度なショット分類が可能となる
次に、図37乃至図44を参照して、図1の画像処理装置のうちのハイライト検出部15の詳細例について説明する。
図37は、ハイライト検出部15によるハイライト抽出のためのフレームワークを示している。ハイライト抽出は、図37に示されるように、基本的に3つのレイヤLayer1乃至Layer3で行われる。
Layer1とは、ショット間のショットタイプの時間的な関連性ルール、或いは、そのような関連性ルールについての統計的モデルを表すレイヤである。ここで、ショットタイプとは、ショット分類部14により分類された各ショットの種類をいい、例えばサッカーの試合についての本実施の形態では、上述した図30に示される「Long」,「Medium」,「Close-up」,「Out」の4種類が存在する。
例えば、ハイライトとして抽出すべきサッカーのコーナキックのシーンであることが既知のショット群を学習用画像として複数用意し、それらの複数の学習用画像からショットタイプの時間推移のルールが学習され、その学習の結果得られるルールを示す統計的モデルが予め存在するとすれば、ハイライト検出部14は、新たに入力された動画コンテンツについてのショットタイプの時間推移を認識して、例えば図11に示されるようなショットタイプの時間推移を認識して、そのショットタイプの時間推移が、統計的モデルと合致または類似しているショット群を発見した場合には、そのショット群をハイライトとして抽出することができる。
Layer2とは、所定の1ショットを構成するフレームのうちの意味を持つフレーム間の時間的な関連性ルール、或いは、そのような関連性ルールについての統計的モデルを表すレイヤである。
例えば、ハイライトとして抽出すべきサッカーのコーナキックのシーンであることが既知のショットを学習用画像として複数用意し、それらの複数の学習用画像から、1ショットを構成する各フレームのフレームタイプの時間推移のルールが学習され、その学習の結果得られるルールを示す統計的モデルが予め存在するとすれば、ハイライト検出部14は、動画コンテンツについての各ショット内のフレームタイプの時間推移を認識して、例えば図10に示されるようなフレームタイプの時間推移を認識して、統計的モデルと合致または類似しているショットを発見した場合、そのショットをハイライトの少なくとも一部分として抽出することができる。なお、図10に示される「Upper Corner」等のフレームタイプについては、図42を参照して後述する。
Layer3とは、フレーム内の特徴量によって、そのフレームに対して意味付けを行うレイヤである。即ち、このLayer3により意味づけられたフレームを用いて得られたルール、即ち、フレーム間の時間的な関連性ルールを表すレイヤが、Layer2となる。ここに、フレーム内の特徴量としては、例えば本実施の形態ではサッカーの試合に関する特徴量、例えば図17乃至図27を用いて上述した各種オブジェクト特徴、即ち、図1のオブジェクト特徴抽出部12により抽出される各種オブジェクト特徴を採用することができる。或いは、Layer2として上述した例のようにフレームタイプ推移が利用される場合には、フレームタイプをフレーム内の特徴量として捉えることができる。なお、フレームタイプは、図1のオブジェクト特徴抽出部12により抽出されるオブジェクト特徴に基づいて決定され得るが、このことについては、図42を参照して後述する。
図38は、ハイライト検出部15の詳細な機能的構成例を示している。
図38の例のハイライト検出部15は、学習部301乃至ハイライト抽出部306を含むように構成されている。
学習部301は、上述したLayer1やLayer2についてのルールを学習し、その学習の結果得られる統計的モデルをモデル保持部302に保持させる。なお、学習部301の詳細については、図40乃至図44を参照して後述する。
Layer1特徴量生成部303とLayer3特徴量生成部304には、図1のショットタイプ分類部14からの動画コンテンツが入力される。即ち、Layer1特徴量生成部303とLayer3特徴量生成部304に入力される動画コンテンツとは、図1において、注目領域抽出部11とオブジェクト特徴抽出部12によりオブジェクト特徴がフレーム毎に抽出され、ショットカット検出部13により複数のショットに区分され、さらに、かかる複数のショットのそれぞれのショットタイプがショット分類部14により決定された動画コンテンツである。
そこで、Layer1特徴量生成部303は、Layer1でのハイライト抽出を行うための特徴量(以下、Layer1特徴量と称する)を生成し、ハイライト抽出部306に提供する。
なお、Layer1特徴量は、モデル保持部302に保持されているLayer1の統計的モデルの形態に応じて、様々な特徴量を採用することができる。
具体的には例えば、Layer1の統計的モデルとしてショットタイプの時間推移の順番や、各ショットタイプを各状態とする状態遷移図等が与えられている場合には、図11に示されるようなショットタイプの時間推移を、Layer1特徴量として採用することができる。
また例えば、Layer1の統計的モデルとして、「1)「Long」ショット前の非「Long」ショット数が所定の範囲内の個数存在する、2」非「Long」ショットのトータル期間(長さ)が所定の範囲内の長さであるといった条件を満たす場合、サッカーのコーナキックのシーンである」、といったモデルが与えられている場合には、かかる条件1),2)を満たすか否かを特定できる情報、即ち、処理の対象として注目すべき「Long」ショット(以下、注目「Long」ショットと称する)前の非「Long」ショット数、および、非Longショットのトータル期間(長さ)といった情報を、Layer1特徴量として採用することができる。
Layer3特徴量生成部304は、上述したように、フレーム内のオブジェクト特徴や、フレームタイプといった情報を、Layer3特徴量として生成し、Layer2特徴量生成部305に提供する。
Layer2特徴量生成部305は、Layer2でのハイライト抽出を行うための特徴量(以下、Layer2特徴量と称する)を生成し、ハイライト抽出部306に提供する。
なお、Layer2特徴量は、モデル保持部302に保持されているLayer2の統計的モデルの形態に応じて、様々な特徴量を採用することができる。
具体的には例えば、Layer2の統計的モデルとしてフレームタイプの時間推移の順番や、後述する図44のような状態遷移図等が与えられている場合には、図10に示されるようなフレームタイプの時間推移を、Layer2特徴量として採用することができる。
また例えば、Layer2の統計的モデルとして、「1)数フレームに渡ってゴールボックスが観測される、2)ゴールボックスの前には中央線が観測されない、3)ゴールボックスは画面の両側から中央に動くようにフレームが推移していく、および、4)ショットの初めにコーナが観測されないといった条件を満たす場合、サッカーのコーナキックのシーンを形成する1ショットである」といったモデルが与えられている場合には、かかる1)至4)のそれぞれを満たすか否かを特定できる情報を、Layer2特徴量として採用することができる。
ハイライト抽出部306は、モデル保持部302に保持されているLayer1についての統計的モデルと、Layer1生成部303からのLayer1特徴量とを比較し、また、モデル保持部302に保持されているLayer2についての統計的モデルと、Layer2生成部305からのLayer2特徴量とを比較し、それらの比較を総合的に判断することによって、ハイライトを抽出する。
図39は、かかる図38の機能的構成を有するハイライト検出部15の処理の一例、即ち、図2のステップS5のハイライト検出処理の詳細例を示すフローチャートである。
ただし、図39の例では、モデル保持部302に保持されているLayer1とLayer2とのそれぞれの統計的モデルとして、「第1の条件を満たす場合、ハイライトである」、および、「第2の条件を満たす場合、ハイライトである」といった内容のモデルが採用されているとする。
具体的には例えばサッカーのコーナキックがハイライトとして抽出される場合には、上述したように、1)「Long」ショット前の非「Long」ショット数が所定の範囲内の個数存在する、2)非「Long」ショットのトータル期間(長さ)が所定の範囲内の長さであるといった条件を、第1の条件として採用できる。
また例えば上述したように、1)数フレームに渡ってゴールボックスが観測される、2)ゴールボックスの前には中央線が観測されない、3)ゴールボックスは画面の両側から中央に動くようにフレームが推移していく、4)ショットの初めにコーナが観測されないといった条件を、第2の条件として採用できる。
このような場合、ステップS71において、Layer1特徴量生成部303は、動画コンテンツについてのLayer1特徴量を生成する。
ステップS72において、Layer3特徴量生成部304は、動画コンテンツ中のショット毎に、ショット中の各フレームについてのLayer3特徴量を生成する。
ステップS73において、Layer2特徴量生成部305は、動画コンテンツ中のショット毎に、Layer2特徴量を生成する。
なお、図39の例では便宜上、ステップS72およびS73の処理は、ステップS71の処理の後に実行されているが、その処理の順番は特に限定されない。図38の例から明らかなように、Layer1特徴量生成部303によるステップS71の処理と、Layer3特徴量生成部304によるステップS72の処理およびLayer2特徴量生成部305によるステップS73の処理とは、それぞれ独立して並列的に実行されるからである。
ステップS74において、ハイライト抽出部306は、動画コンテンツの所定のショットを注目ショットに決定する。
ステップS75において、ハイライト抽出部306は、注目ショットについて、Layer1特徴量が第1の条件を満たすか否かを判定する。
ステップS75において、注目ショットについて、Layer1特徴量が第1の条件を満たすと判定した場合、ハイライト抽出部306は、ステップS78において、注目ショットはハイライトの少なくとも一部であると認定する。その後、処理はステップS79に進む。ただし、ステップS79以降の処理については後述する。
これに対して、ステップS75において、注目ショットについて、Layer1特徴量が第1の条件を満たしていないと判定した場合、ハイライト抽出部306は、ステップS76において、注目ショットについて、Layer2特徴量が第2の条件を満たすか否かを判定する。
ステップS76において、注目ショットについて、Layer2特徴量が第2の条件を満たすと判定した場合、ハイライト抽出部306は、ステップS78において、注目ショットはハイライトの少なくとも一部であると認定する。その後、処理はステップS79に進む。ただし、ステップS79以降の処理については後述する。
これに対して、ステップS76において、注目ショットについて、Layer2特徴量が第2の条件を満たしていないと判定した場合、ハイライト抽出部306は、ステップS77において、注目ショットはハイライトではないと認定する。その後、処理はステップS79に進む。
以上まとめると、ステップS77またはS78の処理が終了すると、即ち、注目ショットがハイライトであるか否かの認定が終了すると、処理はステップS79に進む。
ステップS79において、ハイライト抽出部306は、注目ショットは、最後のショットであるか否かを判定する。
ステップS79において、注目ショットは最後のショットではないと判定されると、処理はステップS74に戻されて、それ以降の処理が繰り返される。
即ち、動画コンテンツを構成する各ショットの幾つかについて適宜、上述したステップS74乃至S79のループ処理が繰り返されて、ハイライトであるか否かの認定が行われていく。そして、最後のショットまでの認定処理が行われると、ステップS79の処理でYESであると判定されて、処理はステップS80に進む。
ステップS80において、ハイライト抽出部306は、上述した認定結果に基づいてハイライトを抽出する。
このように、図39の例では、Layer1特徴量が第1の条件を満たした場合、または、Layer2特徴量が第2の条件を満たした場合に、ハイライトであると認定される。即ち、ハイライトの認定条件として、図39の例ではいわゆるOR条件が採用されている。ただし、図39の例はあくまでも例示であり、その他の認定条件、例えばいわゆるAND条件、即ち、Layer1特徴量が第1の条件を満たし、かつ、Layer2特徴量が第2の条件を満たした場合に、ハイライトであると認定するという条件を採用してもよい。
以上、図38と図39を参照して、統計的モデルがモデル保持部302に保持されていることを前提として、新たな動画コンテンツからハイライトを検出するハイライト検出処理について主に説明した。
次に、図40乃至図44を参照して、かかる統計的モデルの生成/更新処理に着目して説明していく。
かかる統計的モデルの生成/更新処理は、図38のハイライト検出部15のうちの学習部301によってなされる。図40は、かかる学習部301の詳細な構成例を示している。
図40の例では、学習部301は、注目領域抽出部351乃至ハイライト学習部358を含むように構成されている。
注目領域抽出部351乃至ショット分類部354のそれぞれは、図1の注目領域抽出部11乃至ショット分類部14のそれぞれと基本的に同様の構成と機能を有している。また、Layer1特徴量生成部355乃至Layer2特徴量生成部357のそれぞれは、図1のハイライト検出部15のうちの図38のLayer1特徴量生成部303乃至Layer2特徴量生成部305のそれぞれと基本的に同様の構成と機能を有している。
即ち、学習部301には、ハイライトとすべきシーン、例えばサッカーのコーナキックのシーンの様々な映像がそれぞれ学習用映像として、学習部301の注目領域抽出部351に入力される。すると、注目領域抽出部351乃至Layer2特徴量生成部357のそれぞれは、上述した一連の処理を実行する。その結果として、学習用映像についてのLayer1特徴量とLayer2特徴量とがハイライト学習部358に入力される。
そこで、ハイライト学習部358は、様々な学習用映像についての各Layer1特徴量を学習することで、Layer1についての統計的モデルを生成/更新し、モデル保持部302に保持させる。
具体的には例えば、ハイライト学習部358は、各ショット間のショットタイプの関連性ルールを解析して、態遷移確率モデル、例えば図41に示されるようなHMM(Hidden Markov Model)を求め、それをLayer1についての統計的モデルとしてモデル保持部302に保持させることができる。なお、図41において、S1k(Kは1乃至4のうちの何れかの整数値)は、HMMの各状態を示し、それぞれ所定の1つのショットタイプ、即ち、本実施の形態では図30の「Long」,「Medium」,「Close-up」,「Out」のうちの何れかに対応する。即ち、各状態の遷移(ショットタイプ遷移)の確率やその状態(対応するショットタイプ)の発生の確率が、上述した様々な学習用映像についての各Layer1特徴量を学習することで得られることになる。
同様に、ハイライト学習部358は、様々な学習用映像についての各Layer2特徴量を学習することで、Layer2についての統計的モデルを生成/更新し、モデル保持部302に保持させる。
この場合のLayer2についての統計的モデルとしてもHMMを採用することができ、また、かかるHMMの各状態に対応するものとして、フレームタイプを採用することができる。いかなるフレームタイプを採用するのかについては、特に限定されず、ハイライトとすべきシーンに応じて設計者等が自由な思想で決定できる。
例えば、上述したサッカーのコーナキックがハイライトとして抽出される場合には、図42に示されるような7つのフレームタイプ、即ち、「Middle」,「Goal Box」, 「Upper Corner」,「Lower Corner」,「Unknown」,「Upper Goal」,「Lower Goal」を採用すると好適である。
「Middle」とは、中央白線371を含むフレームタイプをいう。「Goal Box」とは、ゴールゲート372を含み、かつ、コーナ位置373を含まないフレームタイプをいう。「Upper Corner」とは、ゴールゲート372を含まず、かつ、コーナ位置373が上方領域に存在するフレームタイプをいう。「Lower Corner」とは、ゴールゲート372を含まず、かつ、コーナ位置373が下方領域に存在するフレームタイプをいう。「Unknown」とは、中央白線371、ゴールゲート372、および、コーナ位置373を何れも含まないフレームタイプをいう。「Upper Goal」とは、ゴールゲート372を含み、かつ、コーナ位置373が上方領域に存在するフレームタイプをいう。「Lower Goal」とは、ゴールゲート372を含み、かつ、コーナ位置373が下方領域に存在するフレームタイプをいう。
このような7つのフレームタイプは、図40のLayer3特徴量生成部356によりフレーム毎に決定される。
具体的には例えば、オブジェクト特徴抽出部352は、学習用映像を構成する各フレームのそれぞれから、中央白線371、ゴールゲート372、およびコーナ位置373をオブジェクト特徴としてそれぞれ抽出することを試みる。「試みる」と記述したのは、フレームによっては、抽出されないこともあるからである。例えば「Upper Corner」と分類されるフレームからは、ゴールゲート372は抽出されないからである。
Layer3特徴量生成部356は、学習用映像を構成する各フレームのそれぞれについて、オブジェクト特徴抽出部352の抽出結果に基づいて、7つのフレームタイプのうちの何れかにそれぞれ分類し、それらの分類結果をLayer3特徴量としてLayer2特徴量生成部357に通知する。
なお、Layer3特徴量生成部304は、各フレームのフレームタイプの検出する認識器、例えば、SVM(Support Vector Machine)などの分類学習や、ニューラルネットワーク等を用いた認識器として構成することができる。この場合、認識器のパラメータは、それぞれの画像サンプルを用いる統計的な学習によって求めることができる。
Layer2特徴量生成部357は、サッカーのコーナキックのシーンの少なくとも一部を形成するショット内の各フレームのフレームタイプの時間推移を、Layer2特徴量として生成し、ハイライト学習部358に提供する。
ハイライト学習部358は、例えば図43に示されるようなHMMを求め、それをLayer2についての統計的モデルとしてモデル保持部302に保持させることができる。なお、図43において、S2m(mは1乃至8のうちの何れかの整数値)は、HMMの各状態を示し、それぞれ所定の1つのフレームタイプ、即ち、本実施の形態では図42に示される「Middle」,「Goal Box」, 「Upper Corner」,「Lower Corner」,「Unknown」,「Upper Goal」,「Lower Goal」のうちの何れかに対応する。即ち、各状態の遷移(フレームタイプ遷移)の確率やその状態(対応するフレームタイプ)の発生の確率は、上述した様々な学習用映像についての各Layer2特徴量を学習することで得られることになる。
具体的には例えば、ハイライト学習部358の学習の結果として、図44に示されるような状態遷移図が得られた場合には、かかる状態遷移図をLayer2についての統計的モデルとしてモデル保持部302に保持させることができる。
以上、図37乃至図44を参照して、図1の画像処理装置のうちのハイライト検出部15の詳細例について説明する。このようなハイライト検出部15を採用することで、ショットタイプ間の関連性やフレーム間の関連性のルール解析に基づいて設計されたハイライト検出手法が実現でき、その結果、動画コンテンツ内の様々なシーンをハイライトとして抽出することが容易に可能となる。
ところで、上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図45は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。即ち、図1の画像処理装置の全部または一部分、例えば幾つかの機能ブロックを、図45のように構成することもできる。
図45において、CPU(Central Processing Unit)401は、ROM(Read Only Memory)402、または記憶部408に記憶されているプログラムに従って各種の処理を実行する。RAM(Random Access Memory)403には、CPU401が実行するプログラムやデータなどが適宜記憶される。これらのCPU401、ROM402、およびRAM403は、バス404により相互に接続されている。
CPU401にはまた、バス404を介して入出力インタフェース405が接続されている。入出力インタフェース405には、キーボード、マウス、マイクロホンなどよりなる入力部406、ディスプレイ、スピーカなどよりなる出力部407が接続されている。CPU401は、入力部406から入力される指令に対応して各種の処理を実行する。そして、CPU401は、処理の結果を出力部407に出力する。
入出力インタフェース405に接続されている記憶部408は、例えばハードディスクからなり、CPU401が実行するプログラムや各種のデータを記憶する。通信部409は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。
また、通信部409を介してプログラムを取得し、記憶部408に記憶してもよい。
入出力インタフェース405に接続されているドライブ410は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア411が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部408に転送され、記憶される。
コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図45に示されるように、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア411、または、プログラムが一時的もしくは永続的に格納されるROM402や、記憶部408を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部409を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。
なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムとは、複数の装置または回路により構成される装置または回路全体を表すものである。
本発明が適用される画像処理装置の機能的構成例を示す機能ブロック図である。 図1の画像処理装置が実行する画像処理の具体例である。 図2のステップS1の処理結果の例を示す図である。 図2のステップ2の処理結果の例を示す図である。 図2のステップ2の処理結果の例を示す図である。 図2のステップ2の処理結果の例を示す図である。 図2のステップ2の処理結果の例を示す図である。 図2のステップ3の処理結果の例を示す図である。 図2のステップ4の処理結果の例を示す図である。 図2のステップ5の処理内容の例を説明する図である。 図2のステップ5の処理内容の例を説明する図である。 図1の注目領域抽出部の機能的構成の詳細例を示す機能ブロック図である。 図12のHSVヒストグラムモデル保持部に保持されるHSVヒストグラムモデルを説明する図である。 図12のHSVヒストグラムモデル保持部に保持されるHSVヒストグラムモデルを説明する図である。 図12の注目領域抽出部の処理結果の具体例を示す図である。 図12の注目領域抽出部の処理結果の具体例を示す図である。 図1のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。 図1のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。 図1のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。 図1のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。 図1のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。 図1のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。 図1のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。 図1のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。 図1のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。 図1のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。 図1のオブジェクト特徴抽出部により抽出されるオブジェクト特徴とその抽出手法の一例を説明する図である。 図1のショットカット検出部によるショットカット検出の一手法を説明する図である。 図1のショットカット検出部が実行する処理、即ち、図2のステップS3のショットカット検出処理の詳細例を説明するフローチャートである。 図1のショット分類部により分類されるショットの種類、即ち、ショットタイプの一例を説明する図である。 図30の例のショットタイプが採用された場合の図2のステップS4のショット分類処理の詳細例を説明するフローチャートである。 図31のショット分類処理で利用される情報の一例を説明する図である。 図31のショット分類処理で利用される情報の一例を説明する図である。 図31のショット分類処理で利用される情報の一例を説明する図である。 図31のショット分類処理で利用される情報の一例を説明する図である。 図31のショット分類処理で利用される情報の一例を説明する図である。 図1のハイライト検出部によるハイライト抽出の基本概念を説明する図である。 図1のハイライト検出部の機能的構成の詳細例を示す機能ブロック図である。 図38のハイライト検出部が実行する処理、即ち、図2のステップS5のハイライト検出処理の詳細例を説明するフローチャートである。 図38の学習部の機能的構成の詳細例を示す機能ブロック図である。 図40の学習部による学習や、その学習の結果得られるモデルを説明する図である。 図40の学習部による学習や、その学習の結果得られるモデルを説明する図である。 図40の学習部による学習や、その学習の結果得られるモデルを説明する図である。 図40の学習部による学習や、その学習の結果得られるモデルを説明する図である。 本発明が適用される画像処理装置としてのパーソナルコンピュータの構成例を示すブロック図である。
符号の説明
11 注目領域抽出部, 12 オブジェクト特徴抽出部, 13 ショットカット検出部, 14 ショット分類部, 15 ハイライト検出部, 51 HSVヒストグラムモデル保持部, 52 ダウンサンプリング部, 53 HSV成分ピーク検出部, 54 注目領域範囲決定部, 55 注目領域検出部, 56 ポストプロセシング部, 301 学習部, 302 モデル保持部, 303 Layer1特徴量生成部, 304 Layer3特徴量生成部, 305 Layer2特徴量生成部, 306 ハイライト抽出部, 351 注目領域抽出部, 352 オブジェクト特徴抽出部, 353 ショットカット検出部, 354 ショット分類部, 355 Layer1特徴量生成部, 356 Layer3特徴量生成部, 357 Layer2特徴量生成部, 358 ハイライト学習部, 401 CPU, 402 ROM, 408 記憶部, 411 リムーバブルメディア

Claims (9)

  1. 複数の単位画像から構成される動画像から、1以上の前記単位画像を含むショットが複数区分され、前記ショットを単位とする画像処理を施す画像処理装置において、
    ハイライトとして抽出すべき1以上のショットからなる既知のショット群が学習用動画像として複数用いられて、前記単位画像全体の空間領域に占めるオブジェクトの範囲に基づく第1のショットタイプが複数定義されており、各ショット間の前記第1のショットタイプについての関連性の第1のルールと、1ショットに含まれる各単位画像間の関連性の第2のルールとが予め学習され、それらの学習結果が、前記ハイライトを判別する判別モデルとして保持されている保持手段と、
    新たに入力された入力動画像から区分される複数のショットのそれぞれを順次注目ショットにして、複数の前記第1のショットタイプのうちの何れかに分類する分類手段と、
    前記複数のショットの前記分類手段による各分類結果を用いて、前記注目ショットと他の1以上のショットとの前記第1のショットタイプについての関連性を認識し、その関連性を示す情報を、前記注目ショットの第1の特徴量として生成する第1の生成手段と、
    前記注目ショットに含まれる各単位画像の間の関連性を認識し、その関連性を示す情報を、前記注目ショットの第2の特徴量として生成する第2の生成手段と、
    前記第1の生成手段により生成された前記注目ショットの前記第1の特徴量が前記第1のルールに則した特徴量であるか否か、および、前記第2の生成手段により生成された前記注目ショットの前記第2の特徴量が前記第2のルールに則した特徴量であるか否かに基づいて、前記注目ショットが前記ハイライトに含まれるか否かを認定し、前記入力動画像を構成する前記複数のショットのうち、前記ハイライトに含まれると認定されたショットからなるショット群を、前記ハイライトとして抽出する抽出手段と
    を備え、
    前記第1のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第1の特徴量をそれぞれ用いて学習され、
    前記第2のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第2の特徴量をそれぞれ用いて学習され、
    前記保持手段は、
    前記第1のルールに基づく前記判別モデルとして、前記第1の特徴量を用いて前記第1のルールを学習することで得られる第1の時系列モデルを保持しているとともに、
    前記第2のルールに基づく前記判別モデルとして、前記第2の特徴量を用いて前記第2のルールを学習することで得られる第2の時系列モデルを保持している
    画像処理装置。
  2. 実世界の被写体が撮影された結果得られる前記単位画像に含まれる領域のうちの、実世界の所定の背景に対応する領域が注目領域とされており、複数の前記ショットタイプには、前記第1のショットタイプ以外にさらに、ショットに含まれる全単位画像のいずれにも前記注目領域が含まれていない第2のショットタイプが含まれており、
    前記分類手段は、前記注目ショットに含まれる全単位画像のいずれにも前記注目領域が1つも含まれていない場合、前記注目ショットを前記第2のショットタイプに分類する
    請求項1に記載の画像処理装置。
  3. 前記第1のショットタイプは、
    前記注目ショットに含まれる単位画像の前記注目領域全体の空間領域に占めるオブジェクトの範囲が一定以上であるという第1の条件と、
    前記注目ショットに含まれる単位画像全体の空間領域に占める人間の顔の領域の範囲が一定以上であるという第2の条件と、
    前記注目ショットに含まれる単位画像の前記注目領域のうちの所定部分全体の空間領域に占めるオブジェクトの範囲が一定以上であるという第3の条件と
    に基づいて、さらに複数のショットタイプに分類される
    請求項1に記載の画像処理装置。
  4. 前記第1のショットタイプとして、
    前記第1の条件が満たされ、かつ、前記第2の条件が満たされる場合の第1−1のショットタイプと、
    前記第1の条件が満たされ、かつ、前記第2の条件が満たされない場合、または、前記第1の条件が満たされず、かつ、前記第3の条件が満たされる場合の第1−2のショットタイプと、
    前記第1の条件が満たされず、かつ、前記第3の条件が満たされない場合の第1−3のショットタイプと
    が存在する
    請求項3に記載の画像処理装置。
  5. 前記第1の時系列モデルは、HMM(Hidden Markov Model)である
    請求項1に記載の画像処理装置。
  6. 前記第2の時系列モデルは、HMM(Hidden Markov Model)である
    請求項1に記載の画像処理装置。
  7. 前記単位画像に含まれ得る1以上の種類の前記オブジェクトに基づく単位画像タイプが複数定義されており、
    前記入力動画像を構成する各単位画像から、1以上の種類の前記オブジェクトのそれぞれの抽出を試みる特徴抽出手段を前記画像処理装置はさらに備え、
    前記第2の生成手段は、前記特徴量抽出手段による抽出の試みの結果に基づいて、前記注目ショットに含まれる各単位画像の前記単位画像タイプを決定し、決定した各単位画像の前記単位画像タイプの間の関連性を認識し、その関連性を示す情報を、前記注目ショットの第2の特徴量として生成する
    請求項5に記載の画像処理装置。
  8. 複数の単位画像から構成される動画像から、1以上の前記単位画像を含むショットが複数区分され、前記ショットを単位とする画像処理を施す画像処理装置の画像処理方法において、
    ハイライトとして抽出すべき1以上のショットからなる既知のショット群が学習用動画像として複数用いられて、前記単位画像全体の空間領域に占めるオブジェクトの範囲に基づくショットタイプが複数定義されており、各ショット間の前記ショットタイプについての関連性の第1のルールと、1ショットに含まれる各単位画像間の関連性の第2のルールとが予め学習され、それらの学習結果が、前記ハイライトを判別する判別モデルとして保持手段に保持されており、
    新たに入力された入力動画像から区分される複数のショットのそれぞれを順次注目ショットにして、複数の前記ショットタイプのうちの何れかに分類し、
    前記複数のショットの各分類結果を用いて、前記注目ショットと他の1以上のショットとの前記ショットタイプについての関連性を認識し、その関連性を示す情報を、前記注目ショットの第1の特徴量として生成し、
    前記注目ショットに含まれる各単位画像の間の関連性を認識し、その関連性を示す情報を、前記注目ショットの第2の特徴量として生成し、
    成された前記注目ショットの前記第1の特徴量が前記第1のルールに則した特徴量であるか否か、および、生成された前記注目ショットの前記第2の特徴量が前記第2のルールに則した特徴量であるか否かに基づいて、前記注目ショットが前記ハイライトに含まれるか否かを認定し、前記入力動画像を構成する前記複数のショットのうち、前記ハイライトに含まれると認定されたショットからなるショット群を、前記ハイライトとして抽出する
    ステップを含み、
    前記第1のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第1の特徴量をそれぞれ用いて学習され、
    前記第2のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第2の特徴量をそれぞれ用いて学習され、
    前記保持手段は、
    前記第1のルールに基づく前記判別モデルとして、前記第1の特徴量を用いて前記第1のルールを学習することで得られる第1の時系列モデルを保持しているとともに、
    前記第2のルールに基づく前記判別モデルとして、前記第2の特徴量を用いて前記第2のルールを学習することで得られる第2の時系列モデルを保持している
    画像処理方法。
  9. 複数の単位画像から構成される動画像から、1以上の前記単位画像を含むショットが複数区分され、前記ショットを単位とする画像処理を制御するコンピュータに実行させるプログラムであって、
    ハイライトとして抽出すべき1以上のショットからなる既知のショット群が学習用動画像として複数用いられて、前記単位画像全体の空間領域に占めるオブジェクトの範囲に基づくショットタイプが複数定義されており、各ショット間の前記ショットタイプについての関連性の第1のルールと、1ショットに含まれる各単位画像間の関連性の第2のルールとが予め学習され、それらの学習結果が、前記ハイライトを判別する判別モデルとして保持手段に保持されており、
    前記コンピュータが、
    新たに入力された入力動画像から区分される複数のショットのそれぞれを順次注目ショットにして、複数の前記ショットタイプのうちの何れかに分類し、
    前記複数のショットの各分類結果を用いて、前記注目ショットと他の1以上のショットとの前記ショットタイプについての関連性を認識し、その関連性を示す情報を、前記注目ショットの第1の特徴量として生成し、
    前記注目ショットに含まれる各単位画像の間の関連性を認識し、その関連性を示す情報を、前記注目ショットの第2の特徴量として生成し、
    成された前記注目ショットの前記第1の特徴量が前記第1のルールに則した特徴量であるか否か、および、生成された前記注目ショットの前記第2の特徴量が前記第2のルールに則した特徴量であるか否かに基づいて、前記注目ショットが前記ハイライトに含まれるか否かを認定し、前記入力動画像を構成する前記複数のショットのうち、前記ハイライトに含まれると認定されたショットからなるショット群を、前記ハイライトとして抽出する
    ステップを含み、
    前記第1のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第1の特徴量をそれぞれ用いて学習され、
    前記第2のルールは、前記学習用動画像から区分される複数のショットのそれぞれを前記注目ショットとした場合における前記第2の特徴量をそれぞれ用いて学習され、
    前記保持手段は、
    前記第1のルールに基づく前記判別モデルとして、前記第1の特徴量を用いて学習することで得られる第1の時系列モデルを保持しているとともに、
    前記第2のルールに基づく前記判別モデルとして、前記第2の特徴量を用いて学習することで得られる第2の時系列モデルを保持している
    プログラム。
JP2006194127A 2006-07-14 2006-07-14 画像処理装置および方法、並びにプログラム Expired - Fee Related JP4257615B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006194127A JP4257615B2 (ja) 2006-07-14 2006-07-14 画像処理装置および方法、並びにプログラム
US11/777,775 US7949188B2 (en) 2006-07-14 2007-07-13 Image processing apparatus, image processing method, and program
CNA2007101305666A CN101114343A (zh) 2006-07-14 2007-07-16 图像处理装置和方法以及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006194127A JP4257615B2 (ja) 2006-07-14 2006-07-14 画像処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2008021225A JP2008021225A (ja) 2008-01-31
JP4257615B2 true JP4257615B2 (ja) 2009-04-22

Family

ID=39022676

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006194127A Expired - Fee Related JP4257615B2 (ja) 2006-07-14 2006-07-14 画像処理装置および方法、並びにプログラム

Country Status (3)

Country Link
US (1) US7949188B2 (ja)
JP (1) JP4257615B2 (ja)
CN (1) CN101114343A (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7490092B2 (en) 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
JP4257615B2 (ja) * 2006-07-14 2009-04-22 ソニー株式会社 画像処理装置および方法、並びにプログラム
US20080232696A1 (en) * 2007-03-23 2008-09-25 Seiko Epson Corporation Scene Classification Apparatus and Scene Classification Method
JP2008282085A (ja) * 2007-05-08 2008-11-20 Seiko Epson Corp シーン識別装置、及び、シーン識別方法
JP5181325B2 (ja) * 2007-08-08 2013-04-10 国立大学法人電気通信大学 カット部検出システム及びショット検出システム並びにシーン検出システム、カット部検出方法
JP2009044423A (ja) * 2007-08-08 2009-02-26 Univ Of Electro-Communications シーン検出システム及びシーン検出方法
US9646087B2 (en) * 2008-04-17 2017-05-09 Adobe Systems Incorporated Scene break prediction based on characteristics of previous scenes
US8713016B2 (en) 2008-12-24 2014-04-29 Comcast Interactive Media, Llc Method and apparatus for organizing segments of media assets and determining relevance of segments to a query
US9442933B2 (en) * 2008-12-24 2016-09-13 Comcast Interactive Media, Llc Identification of segments within audio, video, and multimedia items
US11531668B2 (en) 2008-12-29 2022-12-20 Comcast Interactive Media, Llc Merging of multiple data sets
WO2010080687A1 (en) * 2009-01-09 2010-07-15 Thomson Licensing Method and apparatus for detecting and separating objects of interest in soccer video by color segmentation and shape analysis
EP2207340A1 (en) 2009-01-12 2010-07-14 Thomson Licensing Method and device for reception of control words, and device for transmission thereof
US20100194988A1 (en) * 2009-02-05 2010-08-05 Texas Instruments Incorporated Method and Apparatus for Enhancing Highlight Detection
US8176043B2 (en) 2009-03-12 2012-05-08 Comcast Interactive Media, Llc Ranking search results
JP2010226557A (ja) * 2009-03-25 2010-10-07 Sony Corp 画像処理装置、画像処理方法、およびプログラム
US20100250614A1 (en) * 2009-03-31 2010-09-30 Comcast Cable Holdings, Llc Storing and searching encoded data
US8533223B2 (en) 2009-05-12 2013-09-10 Comcast Interactive Media, LLC. Disambiguation and tagging of entities
US9892730B2 (en) * 2009-07-01 2018-02-13 Comcast Interactive Media, Llc Generating topic-specific language models
FR2980067B1 (fr) * 2011-09-08 2013-09-27 Evs Internat Swiss Sarl Traitement d'un flux d'images de television pour une adaptation a des ecrans de petites dimensions
US9064189B2 (en) * 2013-03-15 2015-06-23 Arris Technology, Inc. Playfield detection and shot classification in sports video
US10146424B2 (en) * 2014-02-28 2018-12-04 Dell Products, Lp Display of objects on a touch screen and their selection
JP6354229B2 (ja) * 2014-03-17 2018-07-11 富士通株式会社 抽出プログラム、方法、及び装置
EP3591651A1 (en) * 2014-08-14 2020-01-08 Samsung Electronics Co., Ltd. Method and apparatus for providing image contents
JP2016046642A (ja) * 2014-08-21 2016-04-04 キヤノン株式会社 情報処理システム、情報処理方法及びプログラム
CN104539942B (zh) * 2014-12-26 2017-07-18 江苏赞奇科技股份有限公司 基于帧差聚类的视频镜头切换检测方法及其装置
US10339410B1 (en) * 2016-01-13 2019-07-02 Snap Inc. Color extraction of a video stream
CN108230232B (zh) * 2016-12-21 2021-02-09 腾讯科技(深圳)有限公司 一种图像处理的方法以及相关装置
WO2019012911A1 (ja) * 2017-07-14 2019-01-17 富士フイルム株式会社 医療画像処理装置、内視鏡システム、診断支援装置、並びに医療業務支援装置
CN108810620B (zh) * 2018-07-18 2021-08-17 腾讯科技(深圳)有限公司 识别视频中的关键时间点的方法、装置、设备及存储介质
EP3905128A3 (en) * 2020-04-28 2021-11-17 Roland Corporation Image processing program, image processing method and image processing apparatus
US11475669B2 (en) 2020-07-30 2022-10-18 Ncr Corporation Image/video analysis with activity signatures
JP7552155B2 (ja) 2020-08-31 2024-09-18 株式会社Jvcケンウッド 映像処理装置、映像処理方法、及びモデル生成装置
CN115810069A (zh) * 2021-09-14 2023-03-17 英业达科技有限公司 建立复杂运动控制器的方法
WO2023148963A1 (ja) * 2022-02-07 2023-08-10 日本電気株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5579471A (en) * 1992-11-09 1996-11-26 International Business Machines Corporation Image query system and method
US6266442B1 (en) * 1998-10-23 2001-07-24 Facet Technology Corp. Method and apparatus for identifying objects depicted in a videostream
JP4913288B2 (ja) 2001-05-14 2012-04-11 ソニー株式会社 情報信号処理装置及び情報信号処理方法
CN101344923B (zh) * 2004-08-03 2012-05-23 松下电器产业株式会社 人物搜索跟踪装置
JP2006054622A (ja) 2004-08-10 2006-02-23 Sony Corp 情報信号処理方法、情報信号処理装置及びプログラム記録媒体
JP4257615B2 (ja) * 2006-07-14 2009-04-22 ソニー株式会社 画像処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
US20080118153A1 (en) 2008-05-22
CN101114343A (zh) 2008-01-30
JP2008021225A (ja) 2008-01-31
US7949188B2 (en) 2011-05-24

Similar Documents

Publication Publication Date Title
JP4257615B2 (ja) 画像処理装置および方法、並びにプログラム
JP5355422B2 (ja) ビデオの索引付けとビデオシノプシスのための、方法およびシステム
JP5420199B2 (ja) 映像解析装置、映像解析方法、ダイジェスト自動作成システム及びハイライト自動抽出システム
D’Orazio et al. A review of vision-based systems for soccer video analysis
US8195038B2 (en) Brief and high-interest video summary generation
US8326042B2 (en) Video shot change detection based on color features, object features, and reliable motion information
JP4683031B2 (ja) 電子機器、コンテンツ分類方法及びそのプログラム
CN103797783B (zh) 评论信息生成装置及评论信息生成方法
JP4774816B2 (ja) 画像処理装置,画像処理方法,およびコンピュータプログラム。
WO2007020897A1 (ja) 映像シーン分類装置および映像シーン分類方法
JP2010109592A (ja) 情報処理装置およびその制御方法
JP6557592B2 (ja) 映像シーン分割装置及び映像シーン分割プログラム
JP2012533962A (ja) スポーツ映像における遠くからの眺めのシーンを検出して、映像処理を適応させる方法
JP2006251885A (ja) スポーツ映像の分類装置およびログ生成装置
JP4736985B2 (ja) 画像処理装置および方法、並びにプログラム
US8437611B2 (en) Reproduction control apparatus, reproduction control method, and program
JP2008022442A (ja) 画像処理装置および方法、並びにプログラム
Carbonneau et al. Real-time visual play-break detection in sport events using a context descriptor
JP2004040750A (ja) 複数の状態に基づいて連続した圧縮映像を解析する方法
Han et al. Enhanced sports video shot boundary detection based on middle level features and a unified model
Achanta et al. Modeling intent for home video repurposing
Chan et al. Shot boundary detection using genetic algorithm optimization
US20110274411A1 (en) Information processing device and method, and program
Ekin et al. Spatial detection of TV channel logos as outliers from the content
KR100963744B1 (ko) 축구 동영상의 이벤트 학습 및 검출방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081028

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090108

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120213

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees