JP4259421B2

JP4259421B2 - 映像の代表画像選出方法及びプログラム

Info

Publication number: JP4259421B2
Application number: JP2004225601A
Authority: JP
Inventors: 俊和狩塚; 聡嶌田; 宏志小西
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-08-02
Filing date: 2004-08-02
Publication date: 2009-04-30
Anticipated expiration: 2024-08-02
Also published as: JP2006050076A

Description

本発明は、映像コンテンツの効率的な内容把握を行なうための映像の代表画像選出方法及びプログラムに係り、特に、撮影者がカメラ付き携帯電話やディジタルカメラ、ディジタルビデオ等で撮影した未編集映像素材コンテンツから、撮影者の意図を反映した代表画像を選出するための映像の代表画像選出方法及びプログラムに関する。

映像の内容を１つ、または、複数の静止画像で代表させることにより効率的に把握できるようにする従来技術は、映像をセグメントに分割する手段と、分割したセグメントから代表画像を選定、または、合成する手段とから構成される。

前者の、映像をセグメントに分割する手段の従来技術は、映像制作の過程、即ち、映像編集者の意図に沿って分割する方法と、映像の内容が類似しているシーンを同一のセグメントとして分割する方法に大別される。

映像編集者の映像に沿って分割する方法の代表的な従来技術として、映像コンテンツにおいて、編集映像のカットの検出、テロップが表示される区間の検出、カメラワークが発生した区間の検出、音楽が発生した区間、音声が発生した区間を検出し、それぞれのイベントが発生した区間をイベントとして分割する方法である。これらのイベントは映像編集者の意図に沿って生成されることから、当該方法は、編集者の映像コンテンツに対して有効に機能する方法である（例えば、特許文献１参照）。

映像の内容が類似しているシーンを同一セグメントとして分類する方法の代表的な従来技術として、映像を時間的に等間隔に分割し、分割した各区間で隣接区間の映像内容が類似している場合には統合し、映像内容が類似していない区間は分離することによりセグメントに分割する（例えば、非特許文献１参照）。

例えば、後者の分割したセグメントから代表画像を選定、または、合成する手段の従来技術として、セグメントの開始フレームや終了フレームといった予め設定されたフレームを選定する方法、及び、カメラワークがあるシーンについては合成したパノラマ画像（モザイク処理）を代表画像として出力する方法がある（例えば、特許文献１参照）。

また、各セグメントの区間長（時間）などからセグメントの重要度を算出し、重要度が閾値以上のセグメントに含まれるフレーム画像で平均に最も近いフレーム画像を代表画像として出力する（例えば、非特許文献１参照）。
特開平１１−２２４２６６ Shingo Uchihashi, Jonathan Foote, Andreas Girgensohn, and John Boreczky. Video Manga: Generating semantically meaningful video summaries. In Proceedings of Multimedia’99, pp.383-392. ACM, 1999

しかしながら、上記の従来技術において、映像制作の過程、即ち、映像編集者の意図に沿って映像をセグメントに分割する方法では、シナリオのある編集された映像コンテンツを対象としており、プライベート映像コンテンツ等の未編集の映像素材コンテンツに適用した場合には、代表画像を適切に選出することができないという問題がある。なぜなら、カット区間やテロップの入った区間等でセグメントに分割する手法は、編集シナリオが事前に存在していることを前提としているためである。そのため、未編集映像素材コンテンツのような、シナリオが存在しないコンテンツに対しては、適切に代表画像を選定することができない。

また、映像の内容が類似しているシーンを同一のセグメントとして映像を分割する方法を未編集の素材映像に適用した場合には、隣接した区間が類似しているかどうかを判定する閾値の設定によりセグメント分割結果が大きく異なり、その閾値の設定が困難であることが問題となる。さらに、前述の非特許文献１での代表画像の選定方法を未編集の素材映像に適用した場合には、セグメントの区間長が大きいほど重要であるとはいえないことが問題となる。例えば、定点カメラなどから得られる映像コンテンツは変化がない映像が大部分を占める。このような変化がない部分は重要度が低く、むしろ、短い時間ではあっても大きな変化が生じた部分が重要である。

本発明は、上記の点に鑑みなされたもので、撮影者の意図を適切に表した静止画像を主題静止画として選定することが可能な映像の代表画像選出方法及びプログラムを提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明（請求項１）は、未編集の映像データから、代表画像を選出する代表画像選出方法において、
未編集の映像データを読み込み、第１の記憶手段に格納する映像データ入力過程（ステップ１）と、
予め定義されている、カメラワークと映像内の動物体の有無に基づいた６種類のセグメント種別に基づいて、第１の記憶手段の映像データについて、撮影者の意図が反映されるカメラワーク及び映像内の動物体の有無を検出することによりセグメント分割し、セグメントプロファイルを第２の記憶手段に格納するセグメント分割過程（ステップ２）と、
少なくとも、第２の記憶手段に格納されているセグメントプロファイル及び、第１の記憶手段に格納されている映像データから各セグメント種別に応じた代表画像を選出し、第３の記憶手段に格納する代表画像生成過程（ステップ３）と、
第３の記憶手段に格納された代表画像を表示する表示過程（ステップ４）と、からなり、
セグメント分割過程（ステップ２）において、映像データをセグメント種別に分類する際に、カメラワークが同時に起こった場合は、ズーム処理を優先させて、
ズーム・インの場合、
ズーム・アウトの場合、
ズーム・インとズーム・アウトを除くカメラワークが有りで動物体有りの場合、
ズーム・インとズーム・アウトを除くカメラワークが有りで動物体なしの場合、
カメラワークが無く動物体が有りの場合、
カメラワークが無く動物体が無しの場合、
の６つの分類に基づいて行い、
代表画像生成過程（ステップ３）において、
セグメント分割過程で決定されたセグメント種別が、ズーム・インの場合には、ズーム・インの開始点、終了点、もしくはどちらか一方を代表画像として選択し、
セグメント種別が、ズーム・アウトの場合には、ズーム・アウトの終了点のフレーム画像を代表画像として選択し、
セグメント種別が、ズーム・インとズーム・アウトを除くカメラワークが有りで動物体有りの場合には、動物体の動き量の特徴点であるフレーム画像、明確な動き量の特徴がない場合は動物体が中央に位置する時点のフレーム画像を代表画像として選択し、さらに、動物体が中央に位置する時点のフレーム画像も無い場合は、予め設定されたルールに従って代表画像を出力し、
セグメント種別が、ズーム・インとズーム・アウトを除くカメラワークが有りで動物体無しの場合には、パノラマ画像を出力し、
カメラワークが無く動物体が有る場合は、動物体の動き量の特徴点であるフレーム画像、明確な動き量の特徴が無い場合は動物体が中央に位置する時点のフレーム画像を代表画像として選択し、更に、動物体が中央に位置する時点のフレーム画像も無い場合は、予め設定されたルールに従って代表画像を出力し、
カメラワークが無く動物体が無い場合は、予め設定されたルールに従って代表画像を出力する。

本発明（請求項２）は、未編集の映像データから、代表画像を選出する映像の代表画像選出プログラムであって、請求項１記載の映像の代表画像選出方法の実現に用いられる処理をコンピュータに実行させるプログラムである。

これにより、一般撮影者が撮影したような未編集映像コンテンツに対して、撮影者の意図に沿ったセグメント分割が可能となり、映像内容を把握するために必要な代表画像を出力することが可能となる。

上記のように、本発明によれば、従来の手法では難しかった未編集映像コンテンツから、撮影者の意思が表れるカメラワークと映像内の動物体の有無により、セグメントに分割することができる。

また、セグメントの種別に応じて、撮影者が何を撮影したいのかを推察し、それに応じた代表画像を生成することができる。

これにより、撮影者の意思を反映した主題静止画像を、映像コンテンツから一覧することができるようになる。

以下、図面と共に本発明の実施の形態を説明する。

図２は、本発明の一実施の形態における代表画像選出装置の構成を示す。

同図に示す代表画像選出装置は、分析の対象となる映像データを入力し、入力映像全フレームデータ記憶部６に記憶する映像入力・蓄積部１、フレーム毎の画像品質を解析し、解析結果である各フレームの画像品質評価指標を評価指標ファイル８に格納するフレーム画像品質解析部２、映像データを分割し、分割した結果である各セグメントのセグメントプロファイルをセグメント記憶部７に格納するセグメント分割部３、各セグメントの種別に応じて、撮影者の意図を反映した代表画像を生成し、各セグメントの代表画像ファイル９に格納するセグメント代表画像生成部４、代表画像を表示する表示部５からなる。

セグメント分割部３は、映像コンテンツを入力として受け取ると、撮影者のカメラワークと映像内の動物体の有無に基づいた６種類のセグメント種別に映像コンテンツを自動的にセグメント分割する。当該セグメント分割部３は、カメラワーク検出部３１と、動物体検出部３２から構成される。

セグメント分割部３では、撮影者の意図と、映像内の動物体の有無に基づいたセグメントに分割する。最初に、撮影者は、写真ではなく映像を撮影するという動機として、ある動物体を撮影したいという場合と、周囲の風景といった場や雰囲気を撮りたいという場合の２通りに大きく分けることができる。この２つの動機を撮影者の意図として、映像内のカメラワークの種別と動物体の有無から推測することができる。撮影者の意図を最も表すのは、カメラワークである。考えられるカメラワーク種別としては大きく６つある。ズーム・イン、ズーム・アウト、パン、チルト、ローテーション、カメラワーク無しが考えられる。このとき、ズーム・インはカメラ自体の前進運動を含み、ズーム・アウトはカメラ自体の後進運動を含み、パンがカメラ自体の左右運動を、チルトがカメラ自体の上下運動を含むものとする。撮影者の意図を考えた場合、６つのカメラワークを４つにマージする。それは、ズーム・イン、ズーム・アウト、ズーム・インとズーム・アウトを除くカメラワーク、カメラワーク無しの４つである。

このとき、ズーム・イン、ズーム・アウトといった操作は、その操作自体に、明確なユーザの意思が表現されているため、その区間内に何が映っているのかを解析することなく、それだけで、その区間は代表画像を選定するセグメントとなる。つまり、ズーム・インは、撮影者が、ある点に注目していることが明確であるし、ズーム・アウトは大きく背景を撮りたい、もしくは、フレームから外れたオブジェクトを捕らえたいという意思が明確である。上記のような観点からカメラワーク検出部３１においてカメラワークを検出する。

次に、ズーム・インとズーム・アウトを除く、カメラワーク／カメラワーク無しの２つの場合、撮影者がある動物体を撮影したいのか、周囲の風景といった場や雰囲気を撮りたいのかを判定する必要がある。それは、動物体検出部３２において映像内の動物体の有無によって判定する。

以上の条件から、セグメントを分割し、６種類に分類する。具体的な処理の手順として、最初に、カメラワーク検出部３１において、撮影者の意図を反映するカメラワークによってセグメントを分割する。検出するカメラワークは、ズーム・イン、ズーム・アウト、ズーム・インとズーム・アウトを除くカメラワーク、カメラワーク無しの４つの操作であり、この操作によって、映像を４つのセグメント種別に分割、分類する。

さらに、ズーム・インとズーム・アウトを除くカメラワーク、カメラワーク無しのセグメントに関しては、動物体検出部３２において、それぞれの映像内に動物体の有無を検出することで更に分類する。実環境中の動物体を検出することで、撮影者が撮影したいものが、動物体のようなオブジェクトであるのか、それとも、風景といった、場や雰囲気であるのかを判別することができる。上述のように、カメラワークのうち、ズーム・イン、ズーム・アウトの区間は、明確な撮影者の意思が反映されている操作であるので、動物体の有無は関係なく分類する。

以上の処理を行うことで、映像は、
・ズーム・インの場合；
・ズーム・アウトの場合；
・ズーム・インとズーム・アウトを除くカメラワークで動物体がある場合；
・ズーム・インとズーム・アウトを除くカメラワークで動物体が無い場合；
・カメラワークが無く、動物体がある場合；
・カメラワークが無く、動物体が無い場合；
の６つのセグメント種別に分割、分類することができる。カメラワークが同時に起こった場合は、撮影者の意図が明確であるズーム処理が最優先される。

セグメント代表画像生成部４は、各セグメント種別に応じて、撮影者の意図を反映した代表画像を生成する。
（１）「ズーム・インの場合」、撮影者の意図は、注目したいオブジェクトがあると判断でき、そのため、その開始点、終了点、もしくはどちらか一方を代表画像として選択すればよい。
（２）「ズーム・アウトの場合」は、撮影者の意図は、ある注目点から、その周辺の場や雰囲気を撮影したいと判断できるので、その終了点のフレームを代表画像として選択すればよい。
（３）「ズーム・インとズーム・アウトを除くカメラワークで動物体がある場合」、撮影者は、動物体に注目していると判断できる。よって、動物体の動き量に注目し、その動き量の極小点といった、動物体の動き量の特徴点であるフレーム画像、明確な動き量の特徴がない場合は、動物体が中央に位置する時点のフレーム画像を代表画像として選択すればよい。

さらに、動物体が中央に位置する時点のフレーム画像もない場合は、セグメントの開始点、終了点、中央点といった事前に設定したルールに従って代表画像を出力する。
（４）「ズーム・インとズーム・アウトを除くカメラワークで動物体がない場合」は、撮影者の意図は場や雰囲気を撮影したいと判断できる。よって、パノラマ画像を出力すればよい。
（５）「カメラワークが無く、動物体がある場合」は、撮影者は、動物体に注目していると判断できる。よって、動物体の動き量に注目し、その動き量の極大点といった、動物体の動き量の特徴点であるフレーム画像、または、明確な動き量の特徴が無い場合は、動物体が中央に位置する時点のフレーム画像を代表画像として選択すればよい。

さらに、動物体が中央に位置する時点のフレーム画像もない場合は、セグメントの開始点、終了点、中央点といった事前に設定したルールに従って代表画像を出力する。
（６）「カメラワーク無しで動物体が無い場合」は、撮影者の意図は、その場や雰囲気を撮影したい場合と、意図がなく撮影している場合であると判断できる。よって、セグメントの開始点、終了点、中央点といった事前に設定したルールに従って代表画像を出力する。

次に、上記の構成における動作を説明する。

図３は、本発明の一実施の形態における動作の概要を示すフローチャートである。

本発明は、映像コンテンツから主題静止画像を生成する方法において、映像入力・蓄積部１が分析対象となる映像データを読み込む過程（ステップ１０１）と、フレーム画像品質解析部２が読み込んだ映像データの全フレーム画像の品質を解析する過程（ステップ１０２）と、セグメント分割部３が映像データをセグメント分割する過程（ステップ１０３）と、セグメント代表画像生成部４が各セグメントに応じた代表画像を生成する過程（ステップ１０４）と、表示部５が各セグメントの代表画像から、選定された静止画像を表示する過程（ステップ１０５）と、からなる。

映像データを読み込む過程（ステップ１０１）では、映像入力・蓄積部１が、解析対象となる映像コンテンツを読み取り、主記憶メモリ内の入力映像全フレームデータ記憶部６に全フレームデータを蓄積する。

映像データの全フレーム画像の品質を解析する過程（ステップ１０２）では、フレーム画像品質解析部２が、入力映像の全フレームデータを入力として受け取り、各フレーム画像の画像品質指標情報を算出し、各フレーム画像品質評価指標を評価指標ファイル８に出力する。出力データは、セグメント代表画像生成部４で利用されるため、参照できるように蓄積される。画像品質指標の一例として、コントラスト値といった物理特徴量を用いてもよい。コントラスト値の計算方法は、例えば、「画像処理高額基礎編：谷口慶治・編（共立出版株式会社）pp．101-104」に示される方法がある。ピントが合っていない画像は、ピントが合っている画像に比べて、コントラストが下がるため、各フレームのコントラスト値をフレームの画像品質評価指標として利用することが可能である。

映像データをセグメントに分割する過程（ステップ１０３）では、セグメント分割部３が、入力映像を入力映像全フレームデータ記憶部６から読み込んで、全映像データを解析し、自動的にセグメントに分割する。

セグメントの分割は、セグメント種別として、撮影者の意図が反映されるカメラワークと、映像内の動物体の有無から６種類のセグメント種別を定義している。セグメント種別は、
・ズーム・イン
・ズーム・アウト
・ズーム・インとズーム・アウトを除くカメラワークで動物体有り
・ズーム・インとズーム・アウトを除くカメラワークで動物体無し
・カメラワーク無しで動物体有り
・カメラワーク無しで動物体無し
の６種類である。各セグメントは、このセグメント種別のいずれかに分類される形で分割される。つまり、セグメント分割部３は、入力映像を受け取ると、カメラワーク検出部３１が撮影者のカメラワークを検出し、カメラワークセグメントプロファイル３３に格納し、さらに、動物体検出部３２が、映像内の動物体の検出を行い、入力映像を自動的にセグメントに分割し、それぞれのセグメントに対して、セグメント種別のラベリングを行ない、各セグメントのセグメントプロファイルをセグメント記憶部７に出力する。セグメントプロファイルの構成要素は、セグメントの種別（ラベル）、開始フレーム番号、終了フレーム番号、映像内に動物体がある場合は、その重心座標列である。詳しい分類処理の形態については、後述する。

各セグメントに応じた代表画像を生成する過程（ステップ１０４）では、セグメント代表画像生成部４が、入力映像データと、各セグメントのセグメントプロファイルと、各フレームの画像品質評価基準を、それぞれ入力映像全フレームデータ記憶部６、セグメント記憶部７、評価指標ファイル８から読み込んで、予め定義していた、各セグメント種別に応じた、撮影者の意図を反映した代表画像生成手法で各セグメントの代表画像を生成し、代表画像ファイル９に出力する。詳しい処理形態については、後述する。

主題静止画像を表示する過程（ステップ１０５）では、表示部６が、コンテンツの主題静止画像を表示する。その手法として、時系列順に表示することや、サムネイルように複数を同時に表示してもよい。

次に、上記の映像データをセグメントに分割する過程（ステップ１０３）について詳述する。

図４は、本発明の一実施の形態におけるセグメント分割処理部のフローチャートである。

以下に示す処理は、セグメント分割部３が、入力映像を受け取ると、カメラワークと動物体の有無からセグメントを分割し、６種類にラベリングし、セグメントプロファイルを生成し出力するものである。

処理は大きく分類して、カメラワークによるセグメント分割処理（ステップ２０１〜ステップ２０３）と、動物体の有無によるセグメント分割処理（ステップ２０４〜ステップ２０９）と、セグメントプロファイル生成処理（ステップ２１０）がある。

カメラワーク処理では、カメラワーク検出部３１が、入力映像内の「ズーム・イン区間」、「ズーム・アウト区間」、「ズーム・インとズーム・アウトを除くカメラワーク区間」、「カメラワーク無し区間」の４種別を検出し、入力映像をセグメントに分割する。分割されたセグメントを「カメラワークセグメント」と呼ぶ。出力として、カメラワークセグメントプロファイル３３を出力する。カメラワークセグメントプロファイル３３の構成要素は、カメラワーク種別と開始フレーム番号、終了フレーム番号の３つのパラメータである。カメラワーク種別は、
・ズーム・イン（CWLabel 0）；
・ズーム・アウト（CWLabel 1）；
・ズーム・インとズーム・アウトを除くカメラワーク（CWLabel 2）；
・カメラワーク無し（CWLabel 3）；
の４種類あり、カメラワークによって分割された各セグメントは上述のラベルでラベリングされる。

動物体検出処理では、動物体検出部３２が、カメラワークセグメントプロファイル３３を入力とするカメラワークセグメントのカメラワーク種別が、「ズーム・インとズーム・アウトを除く、カメラワーク／カメラワーク無し」の２つの場合は、その区間内で動物体がある区間と、無い区間に更に分割する。動物体がある場合は、その位置座標をも検出する。出力として、動物体の分割区間それぞれの動物体の有無と、開始フレーム番号、終了フレーム番号、動物体がある場合は動物体の位置座標を出力とする。

出力データ整理処理は、以上の２つの処理から得られた最終的に分割されたセグメントに関する情報であるセグメントプロファイル（カメラワーク種別、動物体の有無、開始フレーム番号、終了フレーム情報、動物体の位置座標）を生成し、時系列に整理して出力する。

セグメント種別のラベルは、
・ズーム・イン（Label 0）；
・ズーム・アウト（Label 1）；
・ズーム・インとズーム・アウトを除くカメラワークで動物体有り（Label 2）；
・ズーム・インとズーム・アウトを除くカメラワークで動物体無し（Label 3）；
・カメラワーク無しで動物体有り（Label 4）；
・カメラワーク無しで動物体無し（Label 5）；
とする。

以下に、各ステップ毎に説明する。

ステップ２０１）
入力は、入力映像全フレームデータ記憶部６から読み出した入力映像である。

ｉ番目のフレーム画像をｆ_ｉ（ｘ_ｉ，ｙ_ｉ）（ｉ＝１，２，…，Ｎ_ｆ）とする。但し、Ｎ_ｆは入力映像の総フレーム数とする。カメラのモデルを以下の式と近似的に定義することができる。

カメラワークに対してα_ｉは、ズームに関わるパラメータ、ａ_ｉ，ｂ_ｉはズーム・インとズーム・アウトを除くカメラワーク（パン・チルト等）に関わるパラメータである。上式は、カメラワーク検出部３１が、この３個のパラメータを各フレーム間で全て算出する。求める手法として、ｆ_ｉ（ｘ_ｉ，ｙ_ｉ）とｆ_ｉ＋１（ｘ_ｉ＋１，ｙ_ｉ＋１）をｎ×ｎのブロックに分割する。但し、ｎは任意の自然数、ｆ_ｉ（ｘ_ｉ，ｙ_ｉ）の各ブロックについて、ｆ_ｉ＋１（ｘ_ｉ＋１，ｙ_ｉ＋１）上で誤差が最小となるブロックを探索することで、そのフレーム間の対応を算出することができる。この対応関係と上式から、最小二乗法により各フレームのα_ｉ，ａ_ｉ，ｂ_ｉを求めることが可能である。

求められた各フレームのカメラパラメータ列α_ｉ，ａ_ｉ，ｂ_ｉ（ｉ＝１，２，…，Ｎ_ｆ）を出力する。

ステップ２０２）
上記のステップ２０１で出力された各フレームのカメラパラメータ列α_ｉ，ａ_ｉ，ｂ_ｉ（ｉ＝１，２，…，Ｎ_ｆ）を入力とし、各フレームのカメラパラメータ列から、映像をカメラワークによってセグメント分割し、カメラワークセグメントプロファイル３３を出力する。分割されたセグメントをカメラワークセグメント呼ぶ。

最初に、ズーム検出を行う。入力映像のフレーム番号をｘ軸に、パラメータαをｙ軸としてプロットする。このとき、ある一定時間Ｔ_zoom以上、正の値が続く区間はズーム・イン（CWLabel 0）、また、負の値が続く区間をズーム・アウト（CWLabel 1）であると判定する。そして、このカメラワークセグメントの、カメラワーク種別をラベリングし、その開始フレーム番号、終了フレーム番号が記録される。

さらに、判定された区間は、これ以後の判定処理の対象から除去する。次に、ズーム・インとズーム・アウトを除くカメラワークの判定を行なう。ズーム検出と同様に、入力映像のフレーム番号をｘ軸に、パラメータａとパラメータｂの自乗和をｙ軸としてプロットする。このとき、ある一定時間Ｔ_pan/tilt以上、正の値が続く区間はズーム・インとズーム・アウトを除くカメラワーク区間（CWLabel 2）であると判定し、カメラワーク種別をラベリングし、その開始フレーム番号、終了フレーム番号が記録される。上記のズーム・イン区間と、ズーム・アウト区間、ズーム・インとズーム・アウトを除くカメラワーク区間にもれた区間は、カメラワークが無い区間（CWLabel 3）と判定され、カメラワーク種別をラベリングし、その開始フレーム番号、終了フレーム番号が記録される。

これにより、カメラワークセグメントプロファイル３３（カメラワーク種別、開始フレーム番号、終了フレーム番号）が出力される。

ステップ２０３）
ステップ１０３で分割されたカメラワークセグメントの総数をＮ_csとする。

以上が、カメラワーク検出部３１によるカメラワーク検出処理である。

次に、動物体検出部３２の処理を以下に示す。

ステップ２０４）
ループカウンタ（ｊ）を初期化する。

ステップ２０５）
ループカウンタ（ｊ）をインクリメントする。

ステップ２０６）
ステップ２０２で生成されたカメラワークセグメントのｊ番目のカメラワークセグメントプロファイル３３を取り出す。

ステップ２０７）
上記のｊ番目のカメラワークセグメントのカメラワーク種別を入力とし、ｊ番目のカメラワークセグメントのカメラワーク種別がズーム・イン、ズーム・アウトかどうか判定する。この判定は、ステップ２０２でカメラワークによるセグメント分割処理でセグメント毎にラベリングされているカメラワーク種別を読み取ることで判定する。
・“CWLabel 0”ならば、ズーム・イン；
・“CWLabel 1”ならばズーム・アウト；
・“CWLabel 2”ならばズーム・インとズーム・アウトを除くカメラワーク；
・“CWLabel 3”ならばカメラワーク無し；
と判定する。ズーム・イン、ズーム・アウトならば、動物体検出をする必要がないので、セグメントプロファイルを整理・出力する処理へ移行する。ズーム・イン、ズーム・アウトでなければ、動物体を検出する必要があるので動物体検出処理へ移行する。

ステップ２０８）
対象カメラワークセグメントに含まれる映像フレーム、上述のｉ番目カメラワークセグメントのカメラワーク種別、開始フレーム番号、終了フレーム番号を入力とする。

対象カメラワークセグメントに含まれる映像フレームから、動物体が存在するかどうかを判定し、その有無でさらにカメラワークセグメントを分割する。同時に分割されたセグメントの開始フレーム番号と、終了フレーム番号を算出する。動物体の検出には、オプティカル・フローを算出し、そのグルーピングによって求めることができる。詳しくは、「コンピュータビジョン：谷内田正彦編（丸善株式会社）」を参照されたい。動物体が検出された場合、そのフレーム内での重心座標を出力する。動物体が複数検出された場合、その分割区間内で、それぞれの動物体をトラッキングし、その全てのフレーム画像内で占める面積の総和が最大となる動物体を座標出力対象の動物体とする。これにより、動物体の有無、開始フレーム番号、終了フレーム番号、動物体の重心座標が出力される。

ステップ２０９）
全てのカメラワークセグメントを解析し終えたか判定する。判定は、ループカウンタｊがＮ_csに等しいかによって判定する。解析しなければならないカメラワークセグメントが残っている場合は、ステップ２０６に戻り、全てのカメラワークセグメントの解析が終了するまで繰り返す。

ステップ２１０）
カメラワークセグメントプロファイル、動物体の有無、開始フレーム番号、終了フレーム番号、動物体の重心座標を入力とし、各セグメントのセグメントプロファイルを生成する。カメラワーク種別と動物体の有無からセグメント種別を判定し、ラベリングを行い、開始フレーム番号、終了フレーム番号、動物体の重心座標をセグメント記憶部７に書き出す。動物体の重心座標は、動物体がある場合はそのｘ座標、ｙ座標を設定し、無い場合は、ＮＵＬＬを出力する。

出力は、セグメントプロファイル（セグメント種別、開始フレーム番号、終了フレーム番号、動物体の座標）である。

次に、各セグメントに応じた代表画像を生成する過程（ステップ１０４）について詳述する。

セグメント代表画像生成部４が、入力として、入力画像、各セグメントのセグメントプロファイル、各フレームの品質評価指標を入力画像全フレームデータ記憶部６、セグメント記憶部７、評価指標ファイル８からそれぞれ読み出して、そのセグメント種別に応じた代表画像を生成し、代表画像ファイル９に出力する。

図５は、本発明の一実施の形態におけるセグメント代表画像生成処理のフローチャートである。

総セグメントの数をＮ_ｓとする（ステップ３０１）。ループカウンタ（ｉ）の初期化を行なう（ステップ３０２）。ループカウンタ（ｉ）をインクリメントする（ステップ３０３）。

ステップ１０３によって分割されたセグメントのｉ番目のセグメントプロファイルを読み込む（ステップ３０４）。処理対象のセグメントのセグメントプロファイルのセグメント種別のラベルにより処理を場合分けする（ステップ３０５）。

ズーム・イン（Label 0）の場合、セグメントの開始時、終了時、若しくは、その一方の時点をＴ_D ⁰とすると、その近傍のフレーム区間（Ｔ_D ⁰−εからＴ_D ⁰＋ε）を画像選択区間とする（ステップ３０６）。但し、εは予め定めた近傍の範囲を定める値であり、これ以後使用されるεも同意である。この区間において、品質評価指標が最大となるフレーム画像を選択する（ステップ３２０）。（前後かその一方にするかは事前に設定しておくものとする）。

ズーム・アウト（Label 1）の場合、セグメントの終了時点をＴ_D ¹とすると、その近傍フレーム区間（Ｔ_D ¹−εからＴ_D ¹＋ε）を画像選択区間とする（ステップ３０７）。この区間において、品質評価指標が最大となるフレーム画像を選択する（ステップ３２０）。

ズーム・インとズーム・アウトを除くカメラワークで動物体有り（Label 2）の場合、まず、動物体の重心座標列から、座標間の距離を求めることでフレーム間での動物体の動き量を計算する。動物体の動き量が閾値（Ｄ_m ¹）以下の時間が一定時間Ｄ_t ¹以上ある場合、動物体の極小時間をT_Ｄ ³とし、その近傍フレーム区間（Ｔ_D ³−εからＴ_D ³＋ε）を画像選択区間と設定する（ステップ３０８〜ステップ３０９）。この区間において、品質評価指標が最大となるフレーム画像を選択する（ステップ３２０）。

動物体の動き量が閾値（Ｄ_m ¹）以上で、かつ、動物体が画像の中央に位置するときの時刻をＴ_D ⁴とし、その近傍フレーム区間（Ｔ_D ⁴−εからＴ_D ⁴＋ε）を画像選択区間と設定する（ステップ３１０〜ステップ３１１）。この区間において品質評価指標が最大となるフレーム画像を選択する（ステップ３２０）。

それ以外の場合は、セグメントの最初、中間、最後など、事前に設定しておいた選定ルールに従って決められた時刻Ｔ_D ⁵を検出し、その近傍フレーム区間（Ｔ_D ⁵−εからＴ_D ⁵＋ε）を画像選択区間と設定する（ステップ３１２）。この区間において、品質評価指標が最大となるフレーム画像を選択する（ステップ３２０）。

ズーム・インとズーム・アウトを除くカメラワークで動物体無し（Label 3）の場合、パノラマ画像を合成する（ステップ３１３）。その合成方法は、「谷口行信、阿久津明人、外村佳伸：PanoramaEｘcerpts:パノラマ画像の自動生成・レイアウトによる映像一覧：電子情報通信学会誌、D-II Vol.J82-D-II, No3 pp.390-398（1999）」を用いてもよい。

カメラワーク無しで動物体有り（Label 4）の場合、最初に、動物体の重心座標列から、座標間の距離を求めることで、フレーム間での動物体の動き量を計算する。動物体の動き量が閾値（Ｄ_m ²）以上の時間が一定時間（Ｄ_t ²）以上ある場合、動物体の動き量の極小時間をＴ_D ⁶とし、その近傍フレーム区間（Ｔ_D ⁶−εからＴ_D ⁶＋ε）を画像選択区間と設定する（ステップ３１４〜ステップ３１４）。この区間において、品質評価指標が最大となるフレーム画像を選択する（ステップ３２０）。

動物体の動き量が閾値（Ｄ_m ²）以上で、かつ、動物体が画像の中央に位置するときの時刻Ｔ_D ⁷とし、その近傍フレーム区間（Ｔ_D ⁷−εからＴ_D ⁷＋ε）を画像選択区間と設定する（ステップ３１６〜ステップ３１７）。この区間において、品質評価指標が最大となるフレーム画像を選択する（ステップ３２０）。

それ以外の場合は、セグメントの最初、中間、最後など、事前に設定しておいた選定ルールに従って決めた時刻Ｔ_D ⁸を検出し、その近傍フレーム区間（Ｔ_D ⁸−εからＴ_D ⁸＋ε）を画像選択区間と設定する（ステップ３１８）。

この区間において、品質評価指標が最大となるフレーム画像を選択する（ステップ３２０）。

カメラワーク無しで動物体無し（Label 5）の場合、セグメントの最初、中間、最後など、事前に設定しておいた選定ルールに従って決めた時刻Ｔ_D ⁹を検出し、その近傍フレーム区間（Ｔ_D ⁹−εからＴ_D ⁹＋ε）を画像選択区間と設定する（ステップ３１９）。この区間において、品質評価指標が最大となるフレーム画像を選択する（ステップ３２０）。

全てのセグメントを処理したのかを判定する（ステップ３２１）。全てのカメラワークセグメントを解析し終えたか判断する。判定はループカウンタｉがＮ_ｓに等しいかによって判定する。

全てのセグメントを処理したならば、セグメント代表画像を出力する。

本発明は、図３〜図５に示したフローチャートの動作をプログラムとして構築し、代表画像選出処理の際に利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。

なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、未編集映像コンテンツのような、シナリオの無い映像素材コンテンツに対して、主題静止画を選出する技術に適用可能である。

本発明の原理を説明するための図である。本発明の一実施の形態における代表画像選出装置の構成図である。本発明の一実施の形態における動作の概要を示すフローチャートである。本発明の一実施の形態におけるセグメント分割部のフローチャートである。本発明の一実施の形態におけるセグメント代表画像生成処理のフローチャートである。

符号の説明

１映像入力・蓄積部
２フレーム画像品質解析部
３セグメント分割部
４セグメント代表画像生成部
５表示部
６入力映像全フレームデータ記憶部
７セグメント記憶部
８評価指標ファイル
９代表画像ファイル
３１カメラワーク検出部
３２動物体検出部
３３カメラワークセグメントプロファイル

Claims

未編集の映像データから、代表画像を選出する代表画像選出方法において、
前記未編集の映像データを読み込み、第１の記憶手段に格納する映像データ入力過程と、
予め定義されている、カメラワークと映像内の動物体の有無に基づいた６種類のセグメント種別に基づいて、前記第１の記憶手段の映像データについて、撮影者の意図が反映されるカメラワーク及び映像内の動物体の有無を検出することによりセグメント分割し、セグメントプロファイルを第２の記憶手段に格納するセグメント分割過程と、
少なくとも、前記第２の記憶手段に格納されているセグメントプロファイル及び、前記第１の記憶手段に格納されている映像データから各セグメント種別に応じた代表画像を選出し、第３の記憶手段に格納する代表画像生成過程と、
前記第３の記憶手段に格納された前記代表画像を表示する表示過程と、からなり、
前記セグメント分割過程において、前記映像データをセグメント種別に分類する際に、カメラワークが同時に起こった場合は、ズーム処理を優先させて、
ズーム・インの場合、
ズーム・アウトの場合、
ズーム・インとズーム・アウトを除くカメラワークが有りで動物体有りの場合、
ズーム・インとズーム・アウトを除くカメラワークが有りで動物体なしの場合、
カメラワークが無く動物体が有りの場合、
カメラワークが無く動物体が無しの場合、
の６つの分類に基づいて行い、
前記代表画像生成過程において、
前記セグメント分割過程で決定された前記セグメント種別が、ズーム・インの場合には、ズーム・インの開始点、終了点、もしくはどちらか一方を代表画像として選択し、
前記セグメント種別が、ズーム・アウトの場合には、ズーム・アウトの終了点のフレーム画像を代表画像として選択し、
前記セグメント種別が、ズーム・インとズーム・アウトを除くカメラワークが有りで動物体有りの場合には、動物体の動き量の特徴点であるフレーム画像、明確な動き量の特徴がない場合は動物体が中央に位置する時点のフレーム画像を代表画像として選択し、さらに、動物体が中央に位置する時点のフレーム画像も無い場合は、予め設定されたルールに従って代表画像を出力し、
前記セグメント種別が、ズーム・インとズーム・アウトを除くカメラワークが有りで動物体無しの場合には、パノラマ画像を出力し、
カメラワークが無く動物体が有る場合は、動物体の動き量の特徴点であるフレーム画像、明確な動き量の特徴が無い場合は動物体が中央に位置する時点のフレーム画像を代表画像として選択し、更に、動物体が中央に位置する時点のフレーム画像も無い場合は、予め設定されたルールに従って代表画像を出力し、
カメラワークが無く動物体が無い場合は、予め設定されたルールに従って代表画像を出力する
ことを特徴とする映像の代表画像選出方法。
未編集の映像データから、代表画像を選出する映像の代表画像選出プログラムであって、
請求項１記載の映像の代表画像選出方法の実現に用いられる処理をコンピュータに実行させることを特徴とする映像の代表画像選出プログラム。