JP5420199B2

JP5420199B2 - 映像解析装置、映像解析方法、ダイジェスト自動作成システム及びハイライト自動抽出システム

Info

Publication number: JP5420199B2
Application number: JP2008158522A
Authority: JP
Inventors: ウー，ウェイクオ; ヨシガハラ，タカユキ; ハン，ボー; フー，イーチュアン
Original assignee: ソニー（チャイナ）リミテッド
Priority date: 2007-06-18
Filing date: 2008-06-17
Publication date: 2014-02-19
Anticipated expiration: 2028-06-17
Also published as: EP2034426A1; CN101329766B; JP2008312215A; CN101329766A

Description

本発明は、映像解析装置、映像解析方法、この映像解析装置を利用したダイジェスト自動作成システム及びダイジェスト自動作成システムに関する。

インターネット技術や放送、通信、娯楽、医療、教育などの分野におけるデジタル化技術の急速な発展により、膨大なマルチメディア情報から必要な情報だけを簡単で高速にアクセスできるようなニーズがますます高まってきている。その中でも、特に、ネットワークやホームサーバに蓄積されていた大量な映像コンテンツを効率的に管理し扱いたいといったニーズから、映像コンテンツの意味抽出と解析のための画像認識技術の研究開発が盛んに行われるようになっていた。

具体的な例としては、例えば、ハードディスク録画装置やデジタル家電が普及している中、観たいものだけを観る、録画しながら再生を楽しむなど、といった新しいライフスタイルに応じた楽しみ方を可能にするための「類似画像検索技術」や、デジタルカメラやデジタルビデオカメラ、及びインターネットの普及により、様々な画像や動画を簡単に編集し、自分のオリジィナルダイジェスト映像を作成し保存するための「ダイジェスト映像作成技術」などの研究開発が行われている。また、画像検索のニーズに応えるために、Ｇｏｏｇｌｅ（登録商標）などによってキーワードを用いた画像検索技術の実用化も進められていた。他にも動画コンテンツを自由自在に閲覧することができるようなＢｒｏｗｓｉｎｇ技術やビジュアルコミュニケーションにおける意味的な「映像議事録」作成技術などの研究も行われていた。

しかし、キーワードを用いる画像検索技術では、必要なキーワードの付与には手間がかかり、同キーワードの画像が大量に存在する事態も発生しがちなため、実際に満足な検索結果が得られないのが現状である。更に、映像内のメタ情報を自動的に抽出し、それらのメタ情報を基に、欲しい画像コンテンツを見つけ出すといった検索技術や、自動的に「映像議事録」を作成する技術や、Ｂｒｏｗｓｉｎｇ技術なども多く研究されているが、画像内の必要な特徴量を精度良く抽出し、ハイライト抽出を正しく行うことが容易ではないので、実際に利用可能な映像検索技術やダイジェスト作成技術やＢｒｏｗｓｉｎｇ技術が確立されていないのが現状である。

そこで、従来技術としては、上記のようなキーワードによる画像検索などではなく、人の直感的な感覚で映像コンテンツを扱えるように、より効率よく映像コンテンツを管理し取り扱うための一般的な映像解析技術が開発されていた（例えば特許文献１及び特許文献２参照。）。

特開２００２−３４４８７２号公報特開２００６−５４６２２号公報

しかしながら、特に、スポーツ映像内のハイライトの抽出及びダイジェストの作成について、カメラの高速な動きや、対象の高速な動きによって、背景のカラー分布特性が変化し、本来ショットチェンジ（ＳｈｏｔＣｈａｎｇｅ）でないものをショットカット（ＳｈｏｔＣｕｔ）として検出されたり、ＬｏｎｇＳｈｏｔとＭｅｄｉｕｍＳｈｏｔのカラー分布特性や注目領域特徴の変化が区別しにくく、本来ショットチェンジであるものを検出できなかったりするといったショットカット検出エラーが発生することが多い。

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、カメラの高速な動きや対象の高速な動きによって、背景のカラー分布特性が変っても、ショットカットをロバストに検出することが可能な、新規かつ改良された映像解析装置及び映像解析方法を提供することにある。

また、本発明のもう一つの目的とするところは、ＬｏｎｇＳｈｏｔとＭｅｄｉｕｍＳｈｏｔが変っても、ショットカットをロバストに検出することが可能な、新規かつ改良された映像解析装置及び映像解析方法を提供することにある。

また、本発明のもう一つの目的とするところは、映像解析装置を利用して、
ダイジェストを自動に作成することが可能な、新規かつ改良されたダイジェスト自動作成システム、及び、ハイライトを自動に抽出することが可能な、新規かつ改良されたハイライト自動抽出システムを提供することにある。

上記課題を解決するために、本発明のある観点によれば、映像を読み込む映像読み込み手段と、上記映像の各フレーム画像の中から注目領域を抽出する注目領域抽出手段と、上記注目領域内或いは上記注目領域と隣接した領域内において、対象特徴を抽出する対象特徴抽出手段と、画像内のカラー特徴と上記注目領域の上記対象特徴と動き情報とを用いるフレーム間の画像特徴の違いを利用して、ショットカットを検出するショットカット検出手段と、を含む、映像解析装置が提供される。

また、上記ショットカット検出手段による検出結果によって得られるショットを分類するショット分類手段を更に含んでもよい。

また、上記注目領域抽出手段は、予め学習したことによって得られる上記注目領域での画像特徴を利用して、上記各フレーム画像に上記注目領域が存在するか否かを判断してもよい。

また、上記注目領域の画像特徴は、ＨＳＶヒストグラムによってもよい。

また、上記注目領域抽出手段が上記注目領域を抽出した後に、上記対象特徴抽出手段は、自動的に上記注目領域内又は上記注目領域と隣接した領域内に、上記対象特徴を抽出してもよい。

また、信頼性を有した動き情報抽出手段を更に含み、上記ショットカット検出手段は、当該信頼性を有した動き情報抽出手段が算出した上記信頼性を有した動き情報を利用して、検出を行ってもよい。

また、上記ショットカット検出手段は、動き情報の信頼性の検出結果に基づいて、上記動き情報に２値化の信頼性モデルを付与してもよい。

また、上記ショットカット検出手段は、前後フレームの間の動き情報を算出して、上記動き情報を二次曲面モデルへフィッティングさせることにより、動き情報の信頼性を検出する特徴量を算出してもよい。

また、上記ショットカット検出手段は、サーチ領域内における各画素位置と前後フレームの画像内における同じ領域のサーチとの整合を算出して整合評価値を得て、当該得られた整合評価値の上記二次曲面モデルへのフィッティングにより、二次曲面のパラメータを推定して、動き情報の信頼性を検出する特徴量を算出してもよい。

また、上記ショットカット検出手段は、複数の動き情報の信頼性のモデルによって、動き情報の信頼性のパラメータを算出し、上記ショットカット検出手段は、上記動き情報の信頼性のモデル及び上記動き情報の信頼性のパラメータに基づいて、ショットカットの検出結果が信頼できるか否かを示す信頼性評価値を算出してもよい。

また、上記課題を解決するために、本発明の別の観点によれば、映像を読み込む映像読み込み工程と、上記映像の各フレーム画像の中から注目領域を抽出する注目領域抽出工程と、上記注目領域内或いは上記注目領域と隣接した領域内において、対象特徴を抽出する対象特徴抽出工程と、画像内のカラー特徴と上記注目領域の上記対象特徴と動き情報を用いるフレーム間の画像特徴の違いを利用して、ショットカットを検出するショットカット検出工程と、を含む、映像解析方法が提供される。

また、検出されたショットカットによるショットを分類するショット分類工程を更に含んでもよい。

また、上記注目領域抽出工程において、予め学習したことによって得られる上記注目領域での画像特徴を利用して、上記各フレーム画像に上記注目領域が存在するか否かを判断してもよい。

また、上記注目領域抽出工程において上記注目領域を抽出した後に、上記対象特徴抽出工程において自動的に上記注目領域内又は上記注目領域と隣接した領域内に、上記対象特徴を抽出してもよい。

また、上記ショットカット検出工程において、信頼性を有した動き情報抽出工程を更に含み、上記ショットカット検出工程において、当該信頼性を有した動き情報抽出工程により算出した上記信頼性を有した動き情報を利用して、検出を行ってもよい。

また、上記ショットカット検出工程において、動き情報の信頼性の検出結果に基づいて、上記動き情報に２値化の信頼性モデルを付与してもよい。

また、上記ショットカット検出工程において、前後フレームの間の動き情報を算出して、上記動き情報を二次曲面モデルへフィッティングさせることにより、動き情報の信頼性を検出する特徴量を算出してもよい。

また、上記ショットカット検出工程において、サーチ領域内における各画素位置と前後フレームの画像内における同じ領域のサーチとの整合を算出して整合評価値を得って、その得られた整合評価値の上記二次曲面モデルへフィッティングすることにより、二次曲面のパラメータを推定して、動き情報の信頼性を検出する特徴量を算出してもよい。

また、上記ショットカット検出工程において、複数の動き情報の信頼性のモデルによって、上記動き情報の信頼性のパラメータを算出し、上記ショットカット検出工程において、上記動き情報の信頼性のモデル及び上記動き情報の信頼性のパラメータに基づいて、ショットカットの検出結果が信頼できるか否かを示す信頼性評価値を算出してもよい。

また、上記課題を解決するために、本発明の別の観点によれば、上記発明のいずれかに記載の映像解析装置と、上記映像解析装置による解析結果に基づいて、自動的にダイジェストを作成するダイジェスト自動作成手段と、を含む、ダイジェスト自動作成システムが提供される。

また、上記課題を解決するために、本発明の別の観点によれば、上記発明のいずれかに記載の映像解析装置と、上記映像解析装置による解析結果に基づいて、自動的にハイライトを抽出するハイライト自動抽出手段と、を含む、ハイライト自動抽出システムが提供される。

以上説明したように本発明によれば、映像内の動き情報の信頼性を評価することにより、カラー分布特性や注目領域のサイズ特徴による検出エラーのショットカットを除去し、ショットカットの検出精度を向上させることができる。また、本発明によれば、映像内の特徴量を精度よく抽出し、ショットの分類を正しく行って、自動的にダイジェストを作成し、また、自動的にハイライトを抽出することができる。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

インタネット又はホームサーバー等に記憶されている膨大な映像コンテンツを有効に制御し、かつ便利に処理するために、その動画コンテンツの解析と意味抽出、及びメタ情報の付与がますます重要になってきた。中には、スポーツ試合などの番組を解析し、そのスポーツ映像内のハイライト抽出とダイジェスト作成を実現するニーズが高まっているが、実際の現状は、そういうニーズを精度よく実現することができない。本発明の各実施形態は、このような点を鑑みなされたもので、動画解析の基本技術として、ショットカット検出技術を提案する。そして、本発明の各実施形態により、当該技術がスポーツ映像内のハイライト抽出とダイジェスト作成などに適用される。以下、サッカー試合を例として、本発明の各実施形態を説明する。なお、以下の実施形態は、本発明を限定するものではなく、本発明を説明するための最適な実施の形態だけである。本発明は、如何なる動画を解析することにも利用できることは言うまでもない。

一般的に、映像コンテンツによって画像特徴量の扱い方も大きく変わるので、本発明の各実施形態では、まず実際に良く利用される「映像解析」にフォーカスし、その映像内のハイライト抽出とダイジェスト作成を実現するための基本技術とフレームワークの開発を行う。具体的には、サッカー試合映像解析などにおいて、各フレーム画像内の画像特徴を解析し、予め学習によって得られた注目領域（例えば、サッカーフィールド）の画像特性（例えば、ＨＳＶヒストグラムモデル）を用いて、それらの画像内での注目領域の有無を判定すると共に、注目領域が存在しない場合には、場外（Ｏｕｔｓｉｄｅ）映像と判定するが、注目領域が存在する場合には、その領域をロバストに検出する。また、その注目領域及び画像内の色分布特性を統合したものを特徴量として、画像間の特徴量の相似性を評価し、特徴量が大きく異なる場合、ショットカットとして検出する。

一方、背景技術において説明したように、実際に応用する際に、カメラの高速な動きや対象の高速な動きによって、背景のカラー分布特性が変化し、本来ショットチェンジでないものをショットカットとして検出されたり、ＬｏｎｇＳｈｏｔとＭｅｄｉｕｍＳｈｏｔのカラー分布特性や注目領域特徴の変化が区別しにくく、本来ショットチェンジであるものを検出できなかったりすると言った「ショットカット検出エラー」が発生することが多い。

そこで、上記のようなショットカット検出ミスを低減して、ショットカット検出の精度を高めるために、上記の色分布特徴と注目領域のカラー特徴の他に、画像内の動き情報をも利用することにした。具体的には、
（１）前後フレーム間のブロックマッチングを用いて、誤差の評価値を算出し、
（２）それらの誤差評価値を用いて、２次曲面モデルによってフィッティング（Ｆｉｔｔｉｎｇ）処理を行い、その２次曲面モデルのパラメータを推定する。
（３）それらのパラメータを事前に学習した結果と比較し、信頼できる動き情報だけを検出する。
（４）また、それらの信頼できる動き情報をある時間軸上の統計処理することによって、より信頼性の高い動き情報が検出される。
（５）それらの信頼性の高い動き情報を利用して、カラー分布特性と注目領域特徴によって誤検出されたショットカットを正しく検出せず、又は検出されなかったショットカットを正しく検出ことが可能となった。
（６）カメラの高速な動きや対象物の高速な動きに対して、その動き領域が画像の中心付近の位置に多く存在することを利用して、そのような動き領域を学習によって作成し、その動き領域を用いて、高速カメラ運動によるショットカット検出エラーなどを更に改善することができる。

そこで、カラー分布特性と注目領域の対象特徴及び動き情報とを用いてショットカットに対して検出を行う。２つの隣接するフレーム同士において、画像のカラー分布特性と注目領域の対象特徴及び動き情報を対比して、その対比結果が相似である場合、２つの隣接するフレーム同士における画像が同一のショットに属し、即ち、当該２つの隣接するフレーム同士の間に、ショットカットがないと判定する。なお、その対比結果が、２つの隣接するフレーム同士における画像のカラー分布特性、注目領域の対象特徴及び動き情報には、違いが存在していることを表す場合、上記のような２つのフレームの画像が異なるショットに属し、即ち、当該２つの隣接するフレーム同士の間に、ショットカットがあると判定すると共に、ショットカット検出のアプローチにより検出された各ショットカットに対して、注目領域内の対象特徴を用いて、それらのショットをＬｏｎｇＳｈｏｔ、ＭｉｄｄｌｅＳｈｏｔ、Ｚｏｏｍ−ＵｐＳｈｏｔ及びＯｕｔｓｉｄｅＳｈｏｔの４種類に分類する。なお、例えば、ＬｏｎｇＳｈｏｔ、ＭｉｄｄｌｅＳｈｏｔ、Ｚｏｏｍ−ＵｐＳｈｏｔは場内ショットであり、ＯｕｔｓｉｄｅＳｈｏｔは場外ショットである。

更に、上記のような特徴量及びショットカット検出結果が映像内の説明情報として付加されることにより、本発明をサッカー試合のハイライト抽出とダイジェスト作成に応用することが可能になる。

以下、本発明の各実施形態について、図面を参照して説明する。

＜第１実施形態の映像解析装置＞
図１は、本発明の第１実施形態の映像解析装置のブロック図である。
図１に示すように、映像解析装置１００は、サッカー試合中、試合の映像シーケンスを読み込む映像読み込み手段１１０と、読み込まれた映像の各フレームの画像から、例えばサッカー試合のフィールドのような「注目領域」を抽出する注目領域抽出手段１２０と、注目領域内又は隣接する領域内において、例えば、サッカー試合中の選手の顔、ゴールゲット（ゴールの枠）、ボール、コーナー位置、プレイフィールド及びその輪郭等のような「対象特徴」を抽出する対象特徴抽出手段１３０と、画像内のカラー特徴と注目領域の対象特徴と動き情報を用いるフレーム間の画像特徴の違いを利用して、ショットカットを検出するショットカット検出手段１４０と、を含む。

注目領域抽出手段１２０は、予め学習によって得られた注目領域の画像特徴を利用して、各フレーム内の注目領域（例えば、サッカー試合のプレーフィールド）の有無を判定する。注目領域抽出手段１２０が注目領域を抽出した後、対象特徴抽出手段１３０が注目領域内又はその隣接する領域内において、自動的に対象特徴を抽出する。注目領域における画像特徴はＨＳＶヒストグラムモデルによるものである。

＜第２実施形態の映像解析装置＞
図２は、本発明の第２実施形態の映像解析装置のブロック図である。
図２に示すように、映像解析装置２００は、映像読み込み手段２１０と、注目領域抽出手段２２０と、対象特徴抽出手段２３０と、ショットカット検出手段２４０と、信頼性を有した動き情報抽出手段２５０と、ショット分類手段２６０とを含む。ここで、映像読み込み手段２１０、注目領域抽出手段２２０及び対象特徴抽出手段２３０は、第１実施形態における映像読み込み手段１１０、注目領域抽出手段１２０及び対象特徴抽出手段１３０と同じ機能を果たしているので、ここで、その説明を省略する。また、当該ショットカット検出手段２４０は、画像内のカラー特徴と注目領域の対象特徴とを用いるフレーム間の画像特徴の違いを利用してショットカットを検出する第１のショットカット検出手段２４２と、画像の動き情報を用いるフレーム間の画像特徴の違いを利用してショットカットを検出する第２のショットカット検出手段２４４と、を含む。

また、映像解析装置は、更に信頼性を有した動き情報抽出手段２５０を含む。ショットカット検出手段２４０（第２のショットカット検出手段２４４）は、当該信頼性を有した動き情報抽出手段２５０により算出された「信頼性を有した動き情報」を利用して検出を行う。なお、図２では、情報の流れに対してショットカット検出手段２４０の後に信頼性を有した動き情報抽出手段２５０が配置される構成を示しているが、上記の場合には、信頼性を有した動き情報抽出手段２５０が、ショットカット検出手段２４０よりも前に配置されてもよい。

第１のショットカット検出手段２４２と第２のショットカット検出手段２４４が、順次に動作してもよく、同時に動作してもよい。第１のショットカット検出手段２４２と第２のショットカット検出手段２４４が、同時に動作する場合、ショットカット検出手段２４０では、画像内のカラー特徴と注目領域の対象特徴と動き情報とを用いるフレーム間の画像特徴の違いを同時に利用してショットカットを検出し、前後フレーム間に、それらの特徴が相似するものを同一のショットとし、逆にそれらの特徴の違いが比較的に大きいである場合、異なるショットとして検出する。

ショット分類手段２６０は、ショットカット検出手段２４０の検出結果を利用して得られた各ショットに対して、カラー特徴（サッカー試合の場合、プレーフィールドの緑色）による注目領域の有無を判定し、当該注目領域が存在しない場合には、そのショットを場外とし、当該注目領域が存在する場合には、その注目領域内の対象特徴を用いて、場内ショット中のＬｏｎｇＳｈｏｔ、ＭｉｄｄｌｅＳｈｏｔ、ＺｏｏｍＵｐＳｈｏｔの何れかとして分類する。

図１及び図２における各手段は、それぞれ独立のハードウェアーであってもよく、それらを幾つかのユニートに併合させてもよい。更に、制御プログラムによるソフトウェア処理として実現させてもよい。

＜一実施形態の映像解析方法＞
図３は、本発明の一実施形態の映像解析方法のフローチャートを示す。
図３に示すように、まず、サッカー試合における、ビデオ画像、ニュース画像或いは映画・テレビ画像等の映像を読み込み（ステップＳ３０１）、映像の各フレームの画像から注目領域を抽出する。例えば、サッカー試合中、予め学習によって得られた注目のプレイフィールドの画像特徴モデル（ＨＳＶ（Ｈｕｅ、Ｓａｔｕｒａｔｉｏｎ、Ｖａｌｕｅ）ヒストグラム、ＨＳＶはカラーモデルを示す。Ｈｕｅが色相であり、Ｓａｔｕｒａｔｉｏｎが彩度であり、Ｖａｌｕｅが明るさである。）を利用して、映像内の注目領域であるプレイフィールドの有無を判定する（ステップＳ３０２）。プレイフィールドが存在する場合には、その注目領域を抽出する（ステップＳ３０３）。プレイフィールドが存在しない場合には、ステップＳ３０１に戻す。そして、ステップＳ３０３が処理された場合、そのプレイフィールドの内部又は隣接する領域において、対象特徴を抽出する（ステップＳ３０４）。その後に、カラー特徴と注目領域の対象特徴と動き情報を用いるフレーム間の違いを利用して、ショットカットを検出する（ステップＳ３０５）。抽出された各ショット内部の画像特徴を利用して、例えば、サッカー試合の場合、当該ショット内において緑色によるプレイフィールドの有無を判定する。当該ショット内において、プレイフィールドが存在しない場合には、当該ショットを場外ショットとし、当該ショット内においてプレイフィールドが存在する場合には、当該ショットを「ＬｏｎｇＳｈｏｔ」、「ＭｉｄｄｌｅＳｈｏｔ」、「ＺｏｏｍＵｐＳｈｏｔ」の何れかとして分類する（ステップＳ３０６）。次に、ショットカット検出ステップＳ３０５によって得られた検出結果と、ショット分類ステップＳ３０６によって得られた分類結果に基づいて、ダイジェスト作成及びハイライト抽出を行う（ステップＳ３０７）。

＜注目領域等の検出・抽出＞
図４は、本実施形態の映像解析方法における注目領域・対象特徴の検出・抽出の例を説明する説明図である。図４（ａ）は、サッカー試合映像内のプレイフィールドの検出例を示す。図４（ｂ）は、当該プレイフィールドの内部又は隣接する領域における画像特徴及び対象特徴の例を示す。

図４（ａ）に示すように、図４（ａ）（ａ．１）及び図４（ａ）（ａ．３）は、入力画像を示し、図４（ａ）（ａ．２）及び図４（ａ）（ａ．４）は、プレイフィールド検出例を示す。図４（ａ）（ａ．２）及び図４（ａ）（ａ．４）では、プレイフィールドが注目領域として検出され抽出されている。

また、図４（ｂ）に示すように、図４（ｂ）における対象特徴は、図４（ｂ）（ｂ．１）に示す選手、特に選手の顔と、図４（ｂ）（ｂ．２）に示すゴールゲット領域と、図４（ｂ）（ｂ．３）に示すボール及びコーナー位置と、図４（ｂ）（ｂ．４）に示すプレイフィールドと、を含む。当然、対象特徴は、それ以外の特徴、例えば、プレイフィールドの輪郭等を含んでもよい。この例のようは対象特徴が抽出される。

図５（ａ）及び図５（ｂ）は、サッカーなどのスポーツ映像の注目プレイフィールドを検出するために、使われる３ＤＨＳＶヒストグラム特徴を示す。図５（ａ）は、幾つかのサッカー試合における代表的なサンプル画像を示し、図５（ｂ）は、それらの画像の３ＤＨＳＶヒストグラムをそれぞれの１Ｄに射影したグラフを示す。図５（ａ）における三つの画像はそれぞれ「ＬｏｎｇＳｈｏｔ」、「ＭｉｄｄｌｅＳｈｏｔ」、「ＺｏｏｍＵｐＳｈｏｔ」の３つのサンプル画像である。

図６は、様々なサッカー試合映像から集められたサンプル画像（日中・夕方・夜といった様々な時間と、晴れ・曇り・雨といった様々な天気での画像）の３ＤＨＳＶヒストグラム特徴に基づいて解析して、統計処理によって、得られた統計データの結果を示す。

例えば、注目されるプレイフィールド領域でのＨＳＶの可変範囲は、それぞれＨ［２２、６８］、Ｓ［３２、２５５］、Ｖ［６４、１７５］となり、また、そのレンジ幅は、最大でＨ：１６、Ｓ：１２８、Ｖ：６４となる。つまり、試合の時間帯や気候などによって、プレイフィールド領域でのＨＳＶ平均値が変わるが、その分散値がほぼＨ：１６、Ｓ：１２８、Ｖ：６４の中に抑えられることが判明した。このようなＨＳＶ特徴を利用して、プレイフィールドをロバストに検出することが可能となる。

図７（ａ）は、今回３ＤＨＳＶヒストグラムの統計的モデルを求めるために、実際に使用した、主要カラー（例えば、サッカー場の芝生の緑色）が異なるトレーニング用画像例を示す。この図７（ａ）の４枚の画像例では、例えばプレイフィールド領域のカラーがそれぞれ異なっており、このようなトレーニング用画像例によりＨＳＶモデルの学習が行われる。その学習が行われたＨＳＶモデルによる検出結果を図７（ｂ）に示す。図７（ｂ）は、プレイフィールド検出結果例を示す図面である。図７（ｂ）の上段の４枚の画像例が、検出を行った画像で、図７（ｂ）の下段の４枚の画像例が、検出結果である。図７（ｂ）の下段の４枚の画像例では、適切にプレイフィールドのみが検出されている。この結果から分かるように、カラー特徴が異なる様々なトレニングサンプル画像をＨＳＶモデルの学習に用いることにより、様々な照明条件でのプレイフィールド（注目領域）を正しく検出することができる。

図８（ａ）〜図８（ｃ）は、上記のＨＳＶヒストグラムモデルを利用した、注目領域であるプレイフィールド検出結果を示す。図８（ａ）は、上記のＨＳＶヒストグラムモデルを用いる注目のプレイフィールドの検出手法を示す。

図８（ａ）に示すように、当該検出手法は、以下のような工程を含む。
即ち、フレームサンプリング、圧縮された三次元ヒストグラムのピークのサーチ、一次元ローカルヒストグラム（1D local histogram）のピラミッドサーチ（pyramid searching）、主要カラーの分割、ノイズを低減するためのフィルター処理である。そこで、処理速度向上と画像内ノイズ除去のため、入力画像の解像度を低減した。また、照明変化の影響を低減させ、検出処理のロバスト性を向上させるため、ＨＳＶのそれぞれの成分の解像度を８Ｂｉｔから２〜３Ｂｉｔに圧縮した。その後、それぞれのＨＳＶ成分のピークを検出し、それをＨＳＶの中心値（平均値）とし、前述のＨＳＶの分散値を適用することによって、注目のプレイフィールドをロバストに検出することが可能となる。図８（ｂ）では、画像サンプリングを示し、図８（ｃ）では、主要カラー領域の検出結果を示す。図８（ｂ）及び図８（ｃ）では、本手法によって検出された、異なる照明環境におけるプレイフィールドの例を示す。この結果から、様々な照明環境において、注目のプレイフィールドをロバストでリアルタイムに検出することができることが判る。

また、プレイフィールド内の直線等を除去するため、後処理（ノイズを除去するフィルタ処理）を行ってもよい。図９は、その実験結果を示す。図９（ａ１）及び９（ｂ１）は、画像サンプリングを示し、図９（ａ２）及び９（ｂ２）は、主要カラー領域の分割を示し、図９（ａ３）及び９（ｂ３）は、フィルタ結果を示す。これらの結果から、以下のことが分かる。即ち、注目プレイフィールドを検出することによって、当該プレイフィールド内部及び隣接する領域における対象特徴（選手、ペナルティー・キック領域、直線、コーナー位置等）を抽出することが可能となる。

＜画像特徴／対象特徴の抽出＞
以下、プレイフィールド内部及び隣接する領域における画像特徴／対象特徴の抽出手法を説明する。

図１０は、注目プレイフィールド内部に対象（選手）がいる場合の対象特徴を示す。ここで、式（１）では、注目プレイフィールドの画素Ｍ（ｉ、ｊ）を示す。

また、式（２）におけるＰ_ｈ（ｉ）、Ｐ_ｖ（ｊ）では、それぞれ水平方向、垂直方向の対象特徴を示す。

ここで、ＨとＷは、それぞれＹとＸ方向における画像のサイズを示す。

その特徴量について、Ｐ_ｖ（ｊ）が大きくなって、Ｐ_ｈ（ｉ）が小さくなった場合、プレイフィールド内部に大きな対象（人物）がいることを意味する。また、Ｐ_ｖ（ｊ）が小さくなった、或いはＰ_ｈ（ｉ）が大きくなった場合、プレイフィールド内部に小さな対象（人物）がいることを意味する。

図１１は、注目プレイフィールドの境界とその直線との角度及び交差位置の検出手法を示す。まず、その境界の位置Ｂ（ｉ）を検出する。次に、横方向において、その幅Ｗ画素の境界を３０部分に分割し、低解像度化を行って、その低解像度の画像における各画素位置上の角度Ａ（ｉ）を求める。その目的は、境界付近の人物、図形等の影響（ノイズ）を低減することである。そして、以下の式（３）により、左及び右の角度Ａ_ｌ（ｎ）とＡ_ｒ（ｎ）（ｎ＝１、２、……、３０）の２段（ｃｌａｓｓ）角度を算出し、また、それぞれの分散値Ｄ_ｌ（ｎ）とＤ_ｒ（ｎ）をも算出する。この場合、以下の式における最小のＮを左・右との両直線の交差位置とする。最後に、画素位置Ｎにおける角度Ａ_ｌ（ｎ）とＡ_ｒ（ｎ）の差が１０度以上である場合、両直線を検出し、その交差位置をコーナー位置とする（実験結果を参照）。

図１２は、ゴールゲット検出手法を示す。
順次に、主要カラー領域の検出、プレイフィールド境界の検出、垂直方向の白線検出、水平方向の白線検出、ゴールゲットの意味（ｓｅｍａｎｔｉｃ）規則（プレイ規則中、ゴールに関する規定）を利用するゴールゲット検出という工程を含む。上記のように検出された注目プレイフィールドに対して、当該プレイフィールドに接する垂直方向上の白線を検出する。従って、縦方向において、平行する二本の直線が検出された場合、当該平行直線に囲まれた領域内に水平方向上の白線の有無を確認する。縦方向において、平行する二本の直線（つまりゴールポスト）が検出され、かつ横方向において、一本の白線（つまりクロスバー）が検出された場合、それをゴールゲット（ゴールの枠）の候補として処理する。

図１３は、ゴールゲットの意味規則を利用するゴールゲット検出を示す。
図１３に示すように、ゴールゲットの意味規則（即ち、ゴールゲットの縦柱の高さと横柱の長さ、及び横柱の長さとプレイフィールドの幅の間の比率関係）を利用して、ゴールゲットを正しく検出できる。

図１４（ａ）及び図１４（ｂ）は、上記のような手法で検出されたゴールゲットの結果を示す。図１４（ａ）は、画像サンプリングを示し、図１４（ｂ）は、ゴールゲット検出結果を示す。図１４（ａ）及び図１４（ｂ）に示すように、複雑な背景があるとしても、ゴールゲットをロバストに検出できる。

図１５は、注目プレイフィールド内部のコーナー位置の検出手法及びその結果を示す。コーナー位置検出には、図１１の境界検出手法と同様な手法を利用することができる。

図１６（ａ）〜図１６（ｆ）は、他の対象特徴に対する抽出例を示す。
図１６に示すように、図１６（ａ）、（ｂ）、（ｃ）では、それぞれ注目プレイフィールド内部の選手領域（カラー）、グラフィックス領域、ゴール（繰り返し）の検出例を示す。また、図１６（ｄ）、（ｅ）、（ｆ）では、それぞれレフェリー（カラー）、選手動作、監督（顔）等の検出例を示す。

＜ショットカット検出＞
図１７は、ショットカットの種類を示す。
通常、ショットカットには、ハードカット（ｈａｒｄｃｕｔ）、フェードイン／フェードアウトカット、グラフィックスワイパーカット（ｇｒａｐｈｉｃｓｗｉｐｅｒｃｕｔ）という３種類が含まれる。ハードカットは、通常１〜２などの数フレームの間にショットが変わるので、その変化は検出しやすいが、フェードイン／エードアウト、グラフィックスワイパーカットは、１０〜３０などの数十フレームの間にショットが変わるので、そのショット変化を正しく検出するのが容易ではない。例えば、本実施形態におけるハードカットは、大体１フレームの間に切り替え、フェードイン／エードアウトカットは、大体１５フレームの間に切り替え、グラフィックスワイパーカットは、大体３０フレーム毎に切り替える。

図１８は、本発明の各実施形態のショットカット検出に利用される特徴量を示す。
ここで、ショットカットを正しく検出するために、
（１）ビデオカメラに対して、画像内の選手の運動及び水平移動に対する信頼性を保持すると共に、
（２）画像内のカラー特徴分布に対して、鋭敏に検出することが、必要である。

そこで、（１）の水平方向の画像特徴変化の信頼性を実現させ、かつ、（２）の画像内のカラー特徴変化を検出するために、まず、図１８に示すように、領域を幾つかの部分に分割することにより、各フレーム間の違いを正しくかつ有効に検出できる。例えば、実施例において、２：５：３との比率で分割を行った後、各領域毎に、カラー分布特徴量として上記のような三次元ＨＳＶ分布を算出する。本実施形態では、カラー分布特徴を用いているが、カラーのＲＧＢ特徴、カラーの絶対値特徴等を用いてもよい。また、画像内のノイズ等に対する信頼性を高めるために、それぞれ２ビットでＨＳＶの各成分を示し、６ビットのカラー特徴量で全体のＨＳＶ分布特徴を示すことにする。そして、各フレーム間の違いを示す一つの特徴として、以下の式（４）に示す特徴量が用いられる。

ここで、Ｈ_ｔ（ｉ）は６ビットのＨＳＶ分布特徴を示し、Δは数フレーム前の特徴量との間の違いが算出されたか否かを示す定数である。この式の算出結果が、所定の閾値Ｔ１より大きい場合には、異なるショットとして検出される。なお、動き映像を統計して閾値Ｔ１が求められる。

また、サッカー試合のようなスポーツ映像において、注目領域特徴を利用することにより、ショットカットをもっとロバストに検出できる。ここで、上記Ｒ２領域（即ち、図１８の画像中心部の領域）内の注目カラー特徴を兼用することにする。まず、Ｒ２領域内の注目カラー領域の有無を判定し、当該注目カラー領域の比率が５０％以上占める場合、ショットカット検出の第２特徴量として利用する。この場合、以下の式（５）により、時刻ｔと時刻（ｔ−Δ）のＲ２領域内の注目カラー領域の違いを算出する。その違いが所定の閾値Ｔ２より大きい場合には、異なるショットとして検出される。なお、動き映像から統計的に閾値Ｔ１が求められる。

図１９は、ショットカット検出算出方法のフローチャートを示す。
上記のように、現在時刻の、６ビットで示されるＨＳＶ分布Ｈ_ｔ（ｉ）を算出して、（ｔ−Δ）時刻のＨＳＶ分布Ｈ_ｔ−Δ（ｉ）との間の違いを算出する。その違いが閾値Ｔ１より大きいである場合、ショットカットとして検出される。でなければ、Ｒ２領域内の注目カラー領域（サッカー試合の場合、緑色のプレイフィールド）を検出し、当該領域のサイズがＲ２領域の５０％を超えた場合、現在時刻ｔと時刻（ｔ−Δ）との領域サイズの違いを算出する。その違いが閾値Ｔ２より大きいである場合、ショットカットとして検出される。

図２０は、ショットカット検出の実施例を示す。
各領域Ｒ１、Ｒ２、Ｒ３におけるＨＳＶ分散の違い、及びＲ２領域内の注目カラー（緑色領域）の違いを評価することにより、ショットカット検出が可能になる。例えば、上記のＤＣ特徴、ＲＨ特徴、ＭＶ特徴を用いて、ショットカット検出のためのＳＶＭ分類器を学習し、その学習されたＳＶＭによってショットカットを検出する。

図２１（ａ）に示すように、ビデオカメラが高速運動する場合、本来同一ショットである内容が背景領域の変化により、前後フレーム間のカラー特徴が著しく変化するので、ショットチェンジとして検出される「検出エラー」が発生することが多い。即ち、ショットチェンジではないのに、ショットチェンジとして検出されてしまうことになる。

逆に、図２１（ｂ）に示すショットチェンジの例において、前後フレーム間のカラー特徴と、注目領域（緑色プレイフィールド）の変化は、それほど大きくないので、本来異なるショットであるものを同一ショットとして判定されてしまう「検出エラー」が発生することが多い。即ち、ショットチェンジが起きたのに、ショットチェンジとして検出されない。

そこで、上記のような「検出ミス（誤検出）」と「検出エラー」を低減するために、動き情報を利用するショット検出手法を提案した。図２２は、当該手法の詳細な工程を示す。

図２２は、ショットカット検出の例（統一的に確認する場合の例）を示す。
まず、前記カラー特徴及び注目領域特徴を利用した手法により、カラー特徴及び注目領域特徴による第１のショットカット検出を行う（Ｓ２２０１）。そして、動き情報による第２のショットカット検出を行う（Ｓ２２０２）。更に、第１のショットカット検出と第２のショットカット検出による検出結果に基づいて、ショットカットを判定する（Ｓ２２０３）。表１は、図２２のステップＳ２２０３における判定を説明するものである。

上記のように、カラー特徴及び注目領域特徴を利用したショットカット検出を行う時に、図２２に示すように、ショットカットを検出した後、動き情報を利用して検出ミス（検出エラー）を判定してもよく、毎回ショット検出をする際に判定してもよい。更に、毎回ショットカット検出をする際に判定してもよい。各ショットに対してそれぞれ行った処理の具体的工程は、以下のとおりである。

ステップＢ１：ショットｋに対して、カラー特徴及び注目領域を利用した第１のショットカット検出を行う。

ステップＢ２：ステップＢ１での検出結果とその前のショット（ｋ−１）とは、同一ショットカットであるか否か（ショット（ｋ−１）とショットｋとの間にショットチェンジがあるか否か）を判定する。

上記ステップＢ２での判定結果は「ＹＥＳ」である場合、ステップＢ３−１を行う。即ち、動き情報を利用した第２のショットカット検出により、ショット（ｋ−１）とショットｋとの間にショットチェンジがないかを判定する。上記ステップＢ２での判定結果は「ＮＯ」である場合、ステップＢ３−２を行う。即ち、動き情報を利用した第２のショットカット検出により、ショット（ｋ−１）とショットｋとの間にショットチェンジがあるかを判定する。

ステップＢ３−１とステップＢ３−２の処理を行った後、更に、読み込まされた映像のすべてのショットに対してショットカット検出を行ったか否かを判定する。判定結果は、「ＹＥＳ」である場合、操作が完了する。さもないと、ｋ＝ｋ＋１となり、ステップＢ１に戻す。

以下、図２２に示す統一処理の二つの具体的実施例を模式的に示す。

（例１）
Ｓ２２０１でのカラー特徴及び注目領域による検出結果は、ショットカット＃１（ショット（Ｓｈｏｔ）１、２、…、６からなる）のみがＬｏｎｇＳｈｏｔとして検出された場合、Ｓ２２０２により、動き情報を利用してショット１〜６の間に本当にショットチェンジ（ショットカットチェンジ）がないかを判定する。

（例２）
Ｓ２２０１でのカラー特徴及び注目領域を利用した検出結果は、ショットカット＃１（ショット１、２、３からなる）がＬｏｎｇＳｈｏｔとし、ショットカット＃２（ショット４、５、６からなる）がＭｉｄｄｌｅＳｈｏｔとし、及びショットカット＃３（ショット７、８、９からなる）がＬｏｎｇＳｈｏｔとするという三つの異なるショットカットが検出された場合、Ｓ２２０２により、動き情報を利用して、ショット３とショット４との間、及び、ショット６とショット７との間に、ショットチェンジがあるか否かを判定する（上記ステップＢ３−２に相当する）。ショットチェンジがない場合、それが直前のショットと同一ショットカットと見なされる。そして、ショット１〜３の間、ショット４〜６の間、ショット７〜９の間のそれぞれに、本当にショットチェンジがないかを判定する（上記ステップＢ３−１に相当する）。ショットチェンジがある場合、複数のショットに分割してショットカットを行う。

Ｓ２２０２の処理により、ショットチェンジがあるか否かを判定する工程について、前後の順序がなくてもよい。

上記のステップＢ３−２に相当する確認が行われた場合、複数のショットカットに分割されたショットに対して、上記のステップＢ３−１に相当する判定を行う必要がなくなる。

上記のステップＢ３−１に相当する確認が行われた場合、その直前のショットと同一のショットカットとして合成されたショットに対して、上記のステップＢ３−２に相当する判定を行う必要がなくなる。

以下、各ショットに対して個別に処理する具体的実施例を模式的に示す。

（例３）
ステップＢ１でのカラー特徴及び注目領域を利用した検出結果は、ショットカット＃１（ショット１、２、３からなる）がＬｏｎｇＳｈｏｔとし、ショットカット＃２（ショット４、５、６からなる）がＭｉｄｄｌｅＳｈｏｔとするという二つの異なるショットカットが検出された場合、ショット１の直後にショット２を検出した時点（ｋ＝２）で、ステップＢ３−１により、動き特徴を利用して、ショットチェンジがないかを判定する。

ショット２の直後にショット３を検出した時点（ｋ＝３）でも、同様にステップＢ３−１の処理を行う。

ショット４について、異なるショットカットとして判定されたので、ショット３の直後にショット４を検出した時点（ｋ＝４）で、ステップＢ３−２により、動き特徴を利用して、ショットチェンジの判定が正しいか否かを確認する。

ショット４の直後にショット５を検出した時点（ｋ＝５）、及びショット５の直後にショット６を検出した時点（ｋ＝６）で、ステップＢ３−１の処理を行う。

ステップＢ３−１において、ショットチェンジがない（ステップＢ１での検出結果と同一）場合、当該ショットは、その前の状態と検出されたその直前のショットとを同一ショットカットとするように保存される。

ステップＢ３−１において、ショットチェンジがある（ステップＢ１での検出結果と異なる）場合、当該ショットにおけるショットカットが検出され、かつ複数のショットに分割される（その結果、ＬｏｎｇＳｈｏｔとＭｉｄｄｌｅＳｈｏｔの混在による検出エラーにより、ショットカット検出漏れになることが改善できる）。

ステップＢ３−２において、ショットチェンジがある（ステップＢ１での検出結果と同一）場合、当該ショットは、その前の状態と検出されたその直前のショットとを同一ショットカットとするように保存される。

ステップＢ３−１において、ショットチェンジがない（ステップＢ１での検出結果と異なる）場合、当該ショットと検出されたその直前のショットとを同一のショットカットとして処理する（その結果、カメラの高速運動及び画像がはっきりしていない等により、ショットカットの検出エラーになることが改善できる）。

図２３は、上記カラー特徴及び注目領域特徴を利用したショットカット検出方法による検出ミスに対して、動き情報の信頼性評価を利用するショットカット検出方法が用いられることを示す。まず、前後フレーム間の動き情報の評価に基づいて、画像内動き情報の「信頼性評価用パラメータ（ｘ，ｙ）」を推定する（Ｓ２３０１）。次に、統計データによって得られる動き情報信頼性判定器を用いて、信頼性動き領域マスク作成（Ｍ_ＭＶ）を行う（Ｓ２３０２）。そして、更に、人物を含む画像が学習データとして用いられ、これらの学習データにより得られた画像内の人物動きの発生頻度を示す「動き情報の重み（ｗｅｉｇｈｔ）Ｗ_Ｍｖ」、及び上記の「信頼性を有した動き領域マスクＭ_ＭＶ」を利用して、以下の式（６）のように、一定の時間間隔内の動き信頼性評価値Ｆ_Ｌを算出する（Ｓ２３０３）。最後に、統計データの動き信頼性評価値を利用した学習結果により、現在のショットカットは検出エラーであるか否かを判定できる（Ｓ２３０４）。

＜情報信頼性評価＞
図２４は、前後フレーム間の動き情報から画像内の動き情報の「信頼性評価用パラメータ（ｘ，ｙ）」を推定する手法を示す。必要（例えば、計算の高速化のため）に応じて、入力された画像から低解像度画像を作成する（Ｓ２４０１）。そして、画像内のすべての画素（ｉ，ｊ）に対し、サイズが一定にされた（例えば、１６×１６）ブロックをモデルとして（Ｓ２４０２）、その前のフレームの画像内において同じ領域をサーチする（例えば、サーチされる領域は、３２×３２である）（Ｓ２４０３）。また、ＳＡＤ評価値（Ｄｓｓ）を利用してサーチする時のエラー評価を行う。以下の式（７）は、Ｄｓｓの算出方法を示す。サーチ領域内の各画素位置（Ｘ_ＭＶ，Ｙ_ＭＶ）の評価値（Ｄｓｓ）を利用して、下記の二次曲面モデルをフィッティングさせ、当該モデルのパラメータ（ａ，ｂ，ｃ）を算出する。最後に、ｘ＝（ａ×ｂ）^１／２、ｙ＝ｃにより、パラメータ（ａ，ｂ，ｃ）を（ｘ，ｙ）へ変換させ、当該（ｘ，ｙ）を動き情報信頼性評価の特徴量とする（Ｓ２４０４）。

図２５（ａ）は、上記動き情報信頼性評価の特徴量（ｘ，ｙ）を利用して、信頼できる動き領域のマスク（信頼性スクリーン）Ｍ_ＭＶを作成する過程を示す。ここで、特徴量（ｘ，ｙ）を利用して、信頼できる動き情報として判定された場合、マスクＭ_ＭＶの値を１とする。また、統計データを利用した学習により、信頼性判断するための判定器が得られる。図２５（ｂ）は完成されたマスクＭ_ＭＶの例を示す。

図２６（ａ）及び２６（ｂ）は、人物に動きのあるカットの検出エラーを除去する動き信頼性画像Ｗ_Ｍｖの推測手法を示す。通常、大きく映っている場合、移動カメラにより選手を映すシーンに対して、ショットカットの検出エラーが発生することが多い。これに対して、更に検出エラー率を低減させるために、これらの映像シーンを学習データとして、上記のように得られた動き情報の信頼性マスクにより、画像内の人物動き特徴の動き信頼度画像Ｗ_Ｍｖを作成できる。図２６（ａ）に示すように、まず、Ｍ_ＭＶマスク（０、１の２値画像）を生成し（Ｓ２６０１）、下記式（７ー１）を算出する（Ｓ２６０２）。次に、すべての学習データが完成されたか否かを判定する（Ｓ２６０３）。完成された場合、信頼性画像Ｗ_ＭＶ、下記式（７−２）を算出する（Ｓ２６０４）。でなければ、ステップＳ２６０１に戻す。図２６（ｂ）はＷ_ＭＶの例を示す。

Ｍ_ＭＶの算出方法は以下のとおりである。
即ち、カメラパネルにおける人物のある画像だけを収集して、同様な手法で動きの信頼度を算出して、信頼度のある動き領域をマスクとする。その結果は、画面の中央付近に人物が現れる状況が多い（統計処理により得られた結果）ので、図２６（ｂ）に示すように、画面の中央部付近において、信頼度のある動き領域が存在するようなマスクを作成する。

最終的に、上記のような動き信頼性マスクＭ_ＭＶ及び信頼度画像Ｗ_ＭＶを利用して、以下の式（式（８））のように、信頼性評価値Ｆ_Ｌを算出し、当該評価値を特徴としてショットカットの検出エラーの有無を判定することが可能になる。ここで、ショットカットの検出エラーの有無を判定する閾値Ｔｈｄ０１は学習データにより得られた値である。

ここまでは、ショット検出エラーを除去する手法を説明した。

図２７は、上記のような動き情報を用いて、カラー特徴及び注目領域特徴を利用して検出できないショット検出ミスの改善手法を示す。
図２３と同様に、まず、動き情報信頼性評価パラメータ（ｘ，ｙ）を推測し（Ｓ２７０１）、動き情報信頼性判定器の信頼できる動き領域マスク（Ｍ_ＭＶ）を作成する（Ｓ２７０２）。そして、式（９）に示すように、特徴量Ｆ_Ｐとして、マスクＭ_ＭＶの信頼できる動き情報の比率（０〜１００％）を算出する（Ｓ２７０３）。更に、特徴量が検出ミスを判定する閾値Ｔｈｄ０２より小さいかを判定する（Ｓ２７０４）。当該特徴量が検出ミスを判定する閾値Ｔｈｄ０２より小さい場合、ショットカットの検出ミスとして判定される。でなければ、検出ミス無しとして判定される。

ここで、検出エラーの有無を判定する閾値Ｔｈｄ０２は学習データにより得られた値である。

図２８は、学習データにより得られた動き情報を利用した信頼性識別器で、上記のような動き情報信頼性評価の特徴値（ｘ，ｙ）を推測する時の信頼性評価値を示す。

図２９は、上記のような手法で実際の画像内において、信頼性を有した動き領域を検出した検出結果を示す。その結果から分かるように、人物の動き情報が信頼性の高いものとし、カメラの運動による背景変化が動きの信頼性の低いものとして判定される。

図３０において、ここまでのカラー特徴を利用したショットカット検出手法により検出できない「検出エラー」に対して、動き情報の信頼性評価に基づいて、動き信頼性マスクＭ_ＭＶの信頼できる動き情報の比率を特徴とする特徴量Ｆ_Ｐを用い、「検出エラー」のショットカットを正しく検出できる。

図３１（ａ）〜３１（ｃ）は、上記のような手法で検出されたショットカットの結果を示す。図３１（ａ）は、検出エラーを示す（カメラの高速な動き）。図３１（ｂ）は、一歩一歩と（徐々に）ショットカットすることを示す（画像削除）。図３１（ｃ）は、一歩一歩とショットカットすることを示す（ショット分解）。図３１（ａ）において、カラー特徴を利用して、誤検出されたショットカットに対して、本手法の動き情報の信頼性評価を利用して、その検出エラーを除去できる。また、図３１（ｂ）、３１（ｃ）において、カラー特徴を利用して検出されたショットカットに対して、本手法の動き情報の信頼性評価を利用しても、正確なショットカットと判定されている。

図３２において、カメラの高速運動により発生された検出エラーに対して、学習データにより得られた識別閾値及び本発明に提案された特徴量Ｆ_Ｌを用いて、これらの検出エラーを除去できることが確認される。

上記のような手法で映像内の各ショットカットを検出して、更に各ショットの類型（通常、ＬｏｎｇＳｈｏｔ、ＭｉｄｄｌｅＳｈｏｔ、ＺｏｏｍＵｐＳｈｏｔ、ＯｕｔｓｉｄｅＳｈｏｔとの四種類に分けられる）を識別し、これらのショット間の前後の関連特性、ショット内部の各フレーム画像間の特徴の関連性（視野（Ｖｉｅｗ）の位置、動き方向）、及び各フレーム映像内の対象特徴（例えば、ゴールゲット、コーナー位置、選手等）により、コーナーキック、フリーキック、ゴールキック等の素晴らしいシーンが検出できる。

＜効果の例＞
本発明の各実施形態の技術効果は、以下の通りである。
（１）本発明の各実施形態では、カラー分布特徴を利用して、注目カラー領域をロバストに検出することにより、サッカー試合などのスポーツ映像内の対象及びショットカットが検出される。そして、これらの結果をメタ情報として付加することにより、映像内容の自動解析が可能になる。

（２）カメラの水平動きに対する人物の水平動きの信頼性を向上させるために、画像全体を複数の領域に分割し、各領域内のカラー分布特徴及び注目領域のサイズ特徴を利用することにより、精度よくショットカット検出できる。

（３）更に、画像内の動き情報の信頼性を評価することにより、上記（２）における、カラー分布特徴及び注目領域のサイズ特徴で検出できないショットカット等をより精度よく検出できる。

（４）また、画像内の動き情報の信頼性を評価することにより、上記（２）における、カラー分布特徴及び注目領域のサイズ特徴で誤検出されたショットカットを除去でき、ショットカットの検出精度を向上することが可能になる。

（５）画像内の対象検出結果及び高精度のショットカット検出結果を利用して、最終的には、ハイライト抽出とダイジェストを自動的に作成することが実現できる。

（６）本発明の各実施形態では、カラー分布特徴、注目領域のカラー特徴及び動き特徴を同時に利用することにより、サッカー試合などのスポーツ映像のショットカットが検出できる。

注目領域内の対象特徴を利用して、各ショットカットの分類を行うことができる。

なお、本発明の各実施形態は、本技術構想の範囲内で、種々、変形して実施することが可能である。

上記の内容は、本発明の最適な実施の形態だけであり、本発明を限定するものではない。当該技術分野の技術者にとって、その要旨を逸脱しない範囲で、種々、変更し、等価置換、改良して実施することが可能である。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されないことは言うまでもない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、これらについても当然に本発明の技術的範囲に属するものと了解される。

本発明の第１実施形態の映像解析装置のブロック図である。本発明の第２実施形態の映像解析装置のブロック図である。本発明の一実施形態に係る映像解析方法のフローチャートである。同実施形態の映像解析方法における注目領域・対象特徴の検出・抽出の例を説明する説明図である。サッカーなどのスポーツ映像の注目プレイフィールドを検出するために使われる３ＤＨＳＶヒストグラム特徴を説明する説明図である。様々なサッカー試合映像から集められたサンプル画像を示す。３ＤＨＳＶヒストグラムの統計的モデルを説明する説明図である。上記のＨＳＶヒストグラムモデルを用いて、注目のプレイフィールド検出結果を説明する説明図である。ノイズを除去するフィルタ処理の実験結果を説明する説明図である。注目プレイフィールド内部に対象（選手）がいる場合の対象特徴を説明する説明図である。注目プレイフィールドの境界とその直線との角度及び交差位置の検出手法を説明する説明図である。ゴールゲット検出手法を説明する説明図である。ゴールゲットの意味（ｓｅｍａｎｔｉｃ）規則を利用するゴールゲット検出を説明する説明図である。上記のような手法で検出されたゴールゲットの結果を説明する説明図である。注目プレイフィールド内部のコーナー位置の検出手法及びその結果を説明する説明図である。他の対象特徴に対する抽出例を説明する説明図である。ショットカットの種類を説明する説明図である。本発明のショットカット検出に利用される特徴量を説明する説明図である。ショットカット検出算出法のフローチャートを説明する説明図である。ショットカット検出の実施例を説明する説明図である。ショットカット検出における検出エラーの例を説明する説明図である。ショットカット検出の例（統一的に確認する場合の例）を説明する説明図である。動き情報の信頼性評価を利用したショットカット検出手法を説明する説明図である。前後フレーム間の動き情報から画像内の動き情報の「信頼性評価用パラメータ（ｘ，ｙ）」を推定するフローチャートである。上記動き情報信頼性評価を利用した信頼できる動き領域のマスク（信頼性スクリーン）Ｍ_ＭＶの例を説明する説明図である。動き信頼性画像Ｗ_Ｍｖの推測手法を説明する説明図である。カラー特徴及び注目領域特徴を利用して検出できないショット検出エラーの改善手法を説明する説明図である。学習データにより得られた動き情報を利用した信頼性識別器の信頼性評価値を説明する説明図である。上記のような手法で実際の画像内において、信頼性を有した動き領域を検出した検出結果を説明する説明図である。「検出エラー」のショットカットを正しく検出したことを説明する説明図である。上記のような手法で検出されたショットカットの結果を説明する説明図である。学習データにより得られた識別閾値及び特徴量を用いて、これらの検出エラーを除去できることが確認されることを説明する説明図である。

符号の説明

１００，２００映像解析装置
１１０，２１０映像読み取り手段
１２０，２２０注目領域抽出手段
１３０，２３０対象特徴抽出手段
１４０，２４０ショットカット検出手段
２４２第１のショットカット検出手段
２４４第２のショットカット検出手段
２５０信頼性を有した動き情報抽出手段
２６０ショット分類手段

Claims

映像を読み込む映像読み込み手段と、
前記映像の各フレーム画像の中から注目領域を抽出する注目領域抽出手段と、
前記注目領域内或いは前記注目領域と隣接した領域内において、対象特徴を抽出する対象特徴抽出手段と、
画像内のカラー特徴と前記注目領域の前記対象特徴と動き情報とを用いるフレーム間の画像特徴の違いを利用して、ショットカットを検出するショットカット検出手段と、
信頼性を有した動き情報抽出手段とを含み、
前記ショットカット検出手段は、当該信頼性を有した動き情報抽出手段が算出した前記信頼性を有した動き情報を利用して、検出を行い、
前記ショットカット検出手段は、動き情報の信頼性の検出結果に基づいて、前記動き情報に２値化の信頼性モデルを付与する、映像解析装置。
前記ショットカット検出手段による検出結果によって得られるショットを分類するショット分類手段を更に含む、請求項１に記載の映像解析装置。
前記注目領域抽出手段は、予め学習したことによって得られる前記注目領域での画像特徴を利用して、前記各フレーム画像に前記注目領域が存在するか否かを判断する、請求項１に記載の映像解析装置。
前記注目領域の画像特徴は、ＨＳＶヒストグラムによる、請求項１に記載の映像解析装置。
前記注目領域抽出手段が前記注目領域を抽出した後に、前記対象特徴抽出手段は、自動的に前記注目領域内又は前記注目領域と隣接した領域内に、前記対象特徴を抽出する、請求項１に記載の映像解析装置。
前記ショットカット検出手段は、前後フレームの間の動き情報を算出して、前記動き情報を二次曲面モデルへフィッティングさせることにより、動き情報の信頼性を検出する特徴量を算出する、請求項１に記載の映像解析装置。
前記ショットカット検出手段は、サーチ領域内における各画素位置と前後フレームの画像内における同じ領域のサーチとの整合を算出して整合評価値を得て、当該得られた整合評価値の前記二次曲面モデルへのフィッティングにより、二次曲面のパラメータを推定して、動き情報の信頼性を検出する特徴量を算出する、請求項６に記載の映像解析装置。
前記ショットカット検出手段は、複数の動き情報の信頼性のモデルによって、動き情報の信頼性のパラメータを算出し、
前記ショットカット検出手段は、前記動き情報の信頼性のモデル及び前記動き情報の信頼性のパラメータに基づいて、ショットカットの検出結果が信頼できるか否かを示す信頼性評価値を算出する、請求項７に記載の映像解析装置。
各工程が映像解析装置によって行われる映像解析方法であって、
映像を読み込む映像読み込み工程と、
前記映像の各フレーム画像の中から注目領域を抽出する注目領域抽出工程と、
前記注目領域内或いは前記注目領域と隣接した領域内において、対象特徴を抽出する対象特徴抽出工程と、
画像内のカラー特徴と前記注目領域の前記対象特徴と動き情報を用いるフレーム間の画像特徴の違いを利用して、ショットカットを検出するショットカット検出工程とを含み、
前記ショットカット検出工程は、信頼性を有した動き情報抽出工程を含み、
前記ショットカット検出工程において、当該信頼性を有した動き情報抽出工程により算出した前記信頼性を有した動き情報を利用して、検出を行い、
前記ショットカット検出工程において、動き情報の信頼性の検出結果に基づいて、前記動き情報に２値化の信頼性モデルを付与する、映像解析方法。
検出されたショットカットによるショットを分類するショット分類工程を更に含む、請求項９に記載の映像解析方法。
前記注目領域抽出工程において、予め学習したことによって得られる前記注目領域での画像特徴を利用して、前記各フレーム画像に前記注目領域が存在するか否かを判断する、請求項９に記載の映像解析方法。
前記注目領域の画像特徴は、ＨＳＶヒストグラムによる、請求項９に記載の映像解析方法。
前記注目領域抽出工程において前記注目領域を抽出した後に、前記対象特徴抽出工程において自動的に前記注目領域内又は前記注目領域と隣接した領域内に、前記対象特徴を抽出する、請求項９に記載の映像解析方法。
前記ショットカット検出工程において、前後フレームの間の動き情報を算出して、前記動き情報を二次曲面モデルへフィッティングさせることにより、動き情報の信頼性を検出する特徴量を算出する、請求項９に記載の映像解析方法。
前記ショットカット検出工程において、サーチ領域内における各画素位置と前後フレームの画像内における同じ領域のサーチとの整合を算出して整合評価値を得って、その得られた整合評価値の前記二次曲面モデルへフィッティングすることにより、二次曲面のパラメータを推定して、動き情報の信頼性を検出する特徴量を算出する、請求項１４に記載の映像解析方法。
前記ショットカット検出工程において、複数の動き情報の信頼性のモデルによって、前記動き情報の信頼性のパラメータを算出し、
前記ショットカット検出工程において、前記動き情報の信頼性のモデル及び前記動き情報の信頼性のパラメータに基づいて、ショットカットの検出結果が信頼できるか否かを示す信頼性評価値を算出する、請求項１５に記載の映像解析方法。
請求項１〜８のいずれかに記載の映像解析装置と、
前記映像解析装置による解析結果に基づいて、自動的にダイジェストを作成するダイジェスト自動作成手段と、
を含む、ダイジェスト自動作成システム。
請求項１〜８のいずれかに記載の映像解析装置と、
前記映像解析装置による解析結果に基づいて、自動的にハイライトを抽出するハイライト自動抽出手段と、
を含む、ハイライト自動抽出システム。