JP4606278B2

JP4606278B2 - 映像構造化方法及び装置及びプログラム

Info

Publication number: JP4606278B2
Application number: JP2005259457A
Authority: JP
Inventors: 俊和狩塚; 聡嶌田; 正志森本
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-09-07
Filing date: 2005-09-07
Publication date: 2011-01-05
Anticipated expiration: 2025-09-07
Also published as: JP2007072789A

Description

本発明は、映像コンテンツの管理性向上のための映像構造化技術、インデクシング技術に係り、特に、撮影者がカメラ付き携帯電話やディジタルカメラ、ディジタルビデオ等で撮影した未編集映像素材コンテンツ（以下、個人が撮影した映像を、パーソナル映像と呼ぶ）を動き情報を用いて分割するための映像構造化方法及び装置及びプログラムに関する。

映像をセグメントに分割する手段の従来技術としては、映像制作の過程、すなわち、編集情報を用いて分割する方法と、色や動き等の映像の内容が類似しているシーンを同一のセグメントとして分割する方法に大別される。

映像編集者の意図に沿って分割する方法の代表的な技術として、映像コンテンツにおいて、編集映像のカットの検出、テロップが表示される区間の検出、カメラワークが発生した区間の検出、音楽が発生した区間、音声が発生した区間を検出し、それぞれのイベントが発生した区間をセグメントとして分割する方法である。当該方法は、編集におけるイベントを利用することから、特に、編集済みの映像コンテンツに対して有効に機能する方法である（例えば、特許文献１参照）。

映像の内容が類似しているシーンを同一のセグメントとして分類する方法の代表的な従来技術として、MPEGの動き補償ベクトルを利用してカメラワークの検出を行い、映像を分割する方法がある（例えば、非特許文献１参照）。

また、映像の色情報の変化量に注目して、映像を定常的な状態と推移的な状態に分割する方法がある（例えば、非特許文献２参照）。
特開平１１−２２４２６６号公報土橋健太郎、小館亮之、西塔隆二、富永英義、"MPEG2動きベクトルを用いたカメラワーク検出の検討"、電子情報通信学会、画像符号化シンポジウム PCSJ2000(2000) 堤富士雄、"ウェアラブルな視覚記憶補助装置のための映像分割手法"、WISS2001 pp.155-160 (2001)

しかしながら、上記の従来技術において、撮影者がカメラ付携帯電話やディジタルカメラ、ディジタルビデオ等で撮影した未編集映像素材コンテンツをセグメントに分割する場合、そもそも、カット点やテロップが存在しないため、編集情報を用いて映像をセグメントに分割することはできない。

また、カメラワークや色情報を用いて、映像の内容が類似しているシーンを同一のセグメントとして分割する手法の場合においても、カメラワーク等の動きで分割することはできるが、映像の情報で最も重要である被写体の動きを考慮しておらず、被写体の動き等に基づいた分類は行えていない。

また、映像から被写体の動きに注目する場合においても、背景から被写体を抽出しなければならず、一般に、計算量のコストが高くなるという問題がある。また、撮影者が、三脚等を用いずに撮影したような手振れや不安定なカメラワークがある映像から、背景と被写体を分離することは困難である。

本発明は、上記の点に鑑みなされたもので、高圧縮・低品質で手振れがあるようなパーソナル映像を対象に、計算コストを低く抑えながら、カメラワークと実環境中の動物体の有無の組み合わせで６種別のセグメントに分割することが可能な映像構造化方法及び装置及びプログラムを提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明（請求項１）は、カメラワークと映像内の動物体の有無に基づいたセグメント種別を定義しておき、当該セグメント種別によって映像コンテンツをセグメントに分割する映像構造化方法であって、
分析対象である映像を読み込んで、一時的に記憶手段に格納する映像読込ステップ（ステップ１００）と、
記憶手段から入力映像を読み出して、該入力映像のフレーム間の動きベクトルを算出する動きベクトル算出ステップ（ステップ１０１）と、
入力された映像のフレーム画像を内部領域と外部領域とに分割し、分割された２つの領域毎に、動きベクトルから動きを表す特徴量それぞれにＮ個ずつ算出し、内部領域のＮ個の特徴量と外部領域のＮ個の特徴量を合せた２Ｎ個の特徴量を各フレーム画像毎に得る特徴量算出ステップ（ステップ１０２）と、
２Ｎ個の特徴量を用いてフレーム単位のセグメント種別を識別するセグメント種別識別ステップ（ステップ１０３）と、
フレーム単位のセグメント種別に基づいて、入力映像を分割し（ステップ１０４）、分割された映像及びセグメント情報を記憶手段に格納する（ステップ１０５）映像分割ステップと、を行う。

また、本発明（請求項２）は、カメラワークと映像内の動物体の有無に基づいたセグメント種別を定義しておき、当該セグメント種別によって映像コンテンツをセグメントに分割する映像構造化方法であって、
分析対象である映像を読み込んで、一時的に記憶手段に格納する映像読込ステップと、
記憶手段から入力映像を読み出して、該入力映像のフレーム間の動きベクトルを算出する動きベクトル算出ステップと、
算出された動きベクトルからセグメント種別を判定する特徴量を算出する特徴量算出ステップと、
特徴量を用いてフレーム単位のセグメント種別を識別するセグメント種別識別ステップと、
予め定めたフレーム数からなる最小区間に映像コンテンツを時系列順に区切り、最小区間に含まれるフレームのセグメント種別の多数決によって、当該最小区間のサブショット種別を判定し、最小区間のサブショット種別に基づいて、入力映像を分割し、分割された映像及びセグメント情報を記憶手段に格納する映像分割ステップと、を行う。

また、本発明（請求項３）は、請求項１または２の映像構造化方法であって、
特徴量算出ステップ（ステップ１０２）において、
特徴量として、動きベクトルの大きさと方向の、平均、分散（標準偏差）、平均の変化量、分散（標準偏差）の変化量の、いずれか一つ以上組み合わせて利用し、識別する。

図２は、本発明の原理構成図である。

本発明（請求項４）は、カメラワークと映像内の動物体の有無に基づいたセグメント種別を定義しておき、当該セグメント種別によって映像コンテンツをセグメントに分割する映像構造化装置であって、
読み込まれた映像データを一時的に保持する映像一時記憶手段２と、
分割された映像及びセグメント情報を記憶する映像・セグメント情報記憶手段７と、
分析対象である映像を読み込んで、一時的に映像一時記憶手段２に格納する映像読込手段１と、
映像一時記憶手段２から入力映像を読み出して、該入力映像のフレーム間の動きベクトルを算出する動きベクトル算出手段３と、
入力された映像のフレーム画像を内部領域と外部領域とに分割し、分割された２つの領域毎に、動きベクトルから動きを表す特徴量それぞれにＮ個ずつ算出し、内部領域のＮ個の特徴量と外部領域のＮ個の特徴量を合せた２Ｎ個の特徴量を各フレーム画像毎に得る特徴量算出手段４と、
２Ｎ個の特徴量を用いてフレーム単位のセグメント種別を識別するセグメント種別識別手段５と、
フレーム単位のセグメント種別に基づいて、入力映像を分割し、分割された映像及びセグメント情報を映像・セグメント情報記憶手段７に格納する映像分割手段６と、を有する。

また、本発明（請求項５）は、カメラワークと映像内の動物体の有無に基づいたセグメント種別を定義しておき、当該セグメント種別によって映像コンテンツをセグメントに分割する映像構造化装置であって、
読み込まれた映像データを一時的に保持する映像一時記憶手段と、
分割された映像及びセグメント情報を記憶する映像・セグメント情報記憶手段と、
分析対象である映像を読み込んで、一時的に映像一時記憶手段に格納する映像読込手段と、
映像一時記憶手段から入力映像を読み出して、該入力映像のフレーム間の動きベクトルを算出する動きベクトル算出手段と、
算出された動きベクトルからセグメント種別を判定する特徴量を算出する特徴量算出手段と、
特徴量を用いてフレーム単位のセグメント種別を識別するセグメント種別識別手段と、
予め定めたフレーム数からなる最小区間に映像コンテンツを時系列順に区切り、最小区間に含まれるフレームのセグメント種別の多数決によって、当該最小区間のサブショット種別を判定し、最小区間のサブショット種別に基づいて、入力映像を分割し、分割された映像及びセグメント情報を映像・セグメント情報記憶手段に格納する映像分割手段と、
を有する。

また、本発明（請求項６）は、請求項４または５の映像構造化装置の特徴量算出手段４において、
特徴量として、動きベクトルの大きさと方向の、平均、分散（標準偏差）、平均の変化量、分散（標準偏差）の変化量の、いずれか一つ以上組み合わせて利用し、識別する手段を含む。

本発明（請求項７）は、コンピュータを、
請求項４乃至６のいずれか１項に記載の映像構造化装置として機能させるプログラムである。

上記のように本発明によれば、一般的に管理することが煩雑なパーソナル映像を対象に、カメラワークと動物体の有無によって映像を分割することで、映像に関して最も重要な情報である動き情報によるインデクシングが可能となる。これにより、代表画像の選出や、映像内へのメタデータ付与の効率化、映像の一覧性の向上等、その実用的な効果は多大である。

以下、図面と共に本発明の実施の形態を説明する。

図３は、本発明の一実施の形態における映像構造化装置の構成を示す。

同図に示す映像構造化装置は、映像読込部１、映像一時格納部２、動きベクトル算出部３、特徴量算出部４、サブショット種別識別部５、映像分割部６、映像・セグメント情報格納部７、学習データ格納部８から構成される。

映像読込部１は、分析対象のワンショットのパーソナル映像を読み込み、映像一時格納部２に格納する。ここで、分析対象のパーソナル映像は、既にショット毎に管理され、ディスク装置等の記憶手段に格納されているものとする。なお、ショットとは、カメラの録画ボタンのオンからオフまで撮影された一連の映像のことを示す。当該映像構造化装置に入力される映像は、ショット単位で行われ、特にこのような映像を「ワンショット映像」と呼ぶ。システムによっては、分割された映像のセグメントのことを、特に「サブショット」と定義し、サブショットの種別を「サブショット種別」と定義する。

動きベクトル算出部３は、映像一時格納部２に格納された映像をフレーム単位で逐次読み出して、当該フレームの動きベクトルを算出する。

特徴量算出部４は、動きベクトル算出部３で算出された動きベクトルからサブショット種別を判定する特徴量を算出する。ここで、ローカルモーションとグローバルモーションの要素を特徴量に盛り込むため、フレーム画像を、予め定めた領域に分割して、その領域毎に分割して、その領域毎に特徴量を算出する。当該特徴量算出部４では、動物体を背景から抽出することなく、予め定められた領域毎に特徴量を算出するため、計算量コストを抑えることができる。

サブショット種別識別部５は、学習データ格納部８に格納されている学習データを参照して、特徴量算出部４で算出された特徴量を用いてフレーム単位のセグメント種別を識別する。

学習データ格納部８は、あらゆる被写体の種類や、手振れに関する学習データを保持する。これにより、あらゆる被写体の種類や手振れに対してロバストに識別することが可能となる。

映像分割部６は、フレーム単位のセグメント種別を用いて映像を分割し、映像・セグメント情報格納部７に格納する。

図４は、本発明の一実施の形態におけるワンショット映像をサブショットに分割した例を示す。

同図に示す例は、止まっていた被写体が動き出し、それをフォロー撮影し、被写体が止まる所までを撮影した映像である。この映像の場合、４つのサブショットを含むことになる。

上記の構成により、映像構造化装置は、入力としてワンショットの映像を受け取ると、撮影者のカメラワークと映像内の動物体の有無に基づいたサブショット種別に映像コンテンツを自動的に分割する。

次に、上記の構成における動作を詳細に説明する。

最初に、パーソナル映像のサブショットを定義する。図４は、本発明の一実施の形態におけるサブショット種別を示す図である。

本実施の形態では、図４のように、サブショットはω０〜ω５までの６つの種別を持つ。縦軸は、カメラワークの種別である。カメラワークは、無い場合、有る場合、ズームの場合の３分類である。カメラワークが有る場合は、パン、チルト、ドリー、ブーム、トラックを含む。縦軸は、実世界に動物体が無い場合、有る場合の２分類としている。以下に各カテゴリの説明と例を示す。

ω０：カメラワーク無し、動物体無し；
（例）注目オブジェクトを単に撮影している場合、また動きだすことを待っている場合等；
ω１：カメラワーク無し、動物体有り；
（例）注目オブジェクトがフレーム内で動いている場合等；
ω２：カメラワーク有り、動物体無し；
（例）風景や、建物やその場の雰囲気を撮影するため、パンやチルトをする場合等；
ω３：カメラワーク有り、動物体無し；
（例）注目オブジェクトの動きに合わせてカメラを動かしている場合等；
ω４：カメラワーク有り、動物体有り（フォロー無し）
（例）風景や、建物やその場の雰囲気を撮影するため、パンやチルトをする場合に、フォローしていない動物体が含まれている場合等；
ω５：ズーム区間；
（例）注目オブジェクトがあり、そのオブジェクトにズーム・インする場合、その場全体をフレームに収めるためズームアウトする場合等；
ズームの場合は、その行為自体に大きな撮影者の意図が含まれるため、動物体の有無で細かく分類していない。

図６は、本発明の一実施の形態における動作のフローチャートである。

ステップ２０１）映像読込部１が、入力された分析対象のワンショットの映像を読み込み、映像一時格納部２へ蓄積する。

ステップ２０２）動きベクトル算出部３が、映像一時格納部２から映像をフレーム単位で、逐次読み出し、フレームの動きベクトルを算出する。本実施の形態では、特徴点のフレームの対応関係を逐次算出することで動きベクトルを算出する。他の方法として、ブロックマッチングによって算出する方法もある。

特徴点の対応付けの具体的な方法を以下に示す。映像の総フレーム数をＮ枚とする、ｉ番目のフレーム画像をImg（ｉ），ｉ＋１番目のフレーム画像をImg（ｉ＋１）とする。但し、ｉ＝１，２，…，Ｎ−１である。Img（ｉ）から、Ｍ個の特徴点Ｐ_ij＝（ｐｘ_ij，ｐｙ_ij）（ｉ＝１，２，…，Ｎ−１，ｊ＝１，２，…，Ｍ）を検出する。特徴点検出は、従来手法である、コーナー、物体の輪郭など画像の濃度分布の変化が大きい点を抽出する。例えば、従来技術であるHarrisオペレータ等を用いればよい。Img(ｉ＋１)における対応点Ｑ_ij＝(ｑｘ_ij，ｑｙ_ij)（ｉ＝１，２，…，Ｎ−１，ｊ＝１，２，…，Ｍ）の検出は、Img（ｉ）におけるＰ_ijの近傍の濃度分布を参照し、Img(ｉ＋１)において、濃度分布と相関の高い位置を求めることにより実現することができる。

ここで、算出された自然特徴点の組から、以下の式（１）、からImg（ｉ）とImg(ｉ＋１)の間の動きベクトルＶ_ij（ｉ＝１，２，…，Ｎ−１，ｊ＝１，２，…，Ｍ）を算出する。

Ｖ_ij＝（ｖｘ_ij，ｖｙ_ij）＝（ｑｘ_ij−ｐｘ_ij，ｑｙ_ij−ｐｙ_ij） …式（１）
（但し、ｉ＝１，２，…，Ｎ−１，ｊ＝１，２，…，Ｍ）
算出された動きベクトルＶ_ijと、動きベクトルの開始点Ｐ_ijを出力する。それぞれｉ＝１，２，…，Ｎ−１、ｊ＝１，２，…，Ｍとし、ｉとｊはＶ_ijとＰ_ijの間で対応付いているものとする。最終的に、動きベクトル算出部３内のメモリにＶ_ijとＰ_ijを出力する。

ステップ２０３）特徴量算出部４は、動きベクトル算出部３のメモリから読み出されたＶ_ijとＰ_ij（ｉ＝１，２、…，Ｎ−１，ｊ＝１，２，…Ｍ）を入力とする。特徴量算出部４では、動きベクトルからフレーム単位のセグメント種別を識別するための特徴量を算出する。

本実施の形態では、特徴量として、
・動きベクトルの大きさの平均、
・動きベクトルの大きさの標準偏差、
・動きベクトルの方向の標準偏差、
・動きベクトルの方向の平均の変化量
の４つを採用する。

特徴量を計算する際、人間が撮影する際の心理として、注目オブジェクトである被写体を、フレームの真ん中付近に位置するように撮影するという性質を利用する。具体的にはフレームを図７のように、フレーム内を内側と外側に分けて特徴量を計算することで、ローカルモーションとグローバルモーションの要素を特徴量に盛り込む。以下、フレームの内側部分を「内部領域」、フレームの外側部分を「外部領域」と呼ぶこととする。領域の定義は任意であるが、本実施の形態では、形がフレーム画像と相似の矩形、大きさがフレーム画像の５０％、位置がフレーム画像の中心と矩形の中心が一致するように設置し、矩形の内部を「内部領域」、外側を「外部領域」と定義している。ここで、実験的に学習データを用いて、矩形の大きさを変えてサブショット識別を行った場合、最も識別率が高い結果が得られた比率を採用することもできる。

動きベクトルがフレームの内部領域か、外部領域かを判定するには、動きベクトルの始点であるＰ_ijが、フレームの内部領域か、外部領域にあるかどうかで判定する。

ここで、算出する特徴量を定義する。扱う領域内に含まれる特徴点の個数をＫ（ｋ＜Ｍ）とする。ｉ番目のフレーム画像の扱う領域内に含まれる特徴点のｋ番目の特徴点の動きベクトルは、
Ｖ_ik＝（ｖｘ_ik，ｖｙ_ik）（ｉ＝１，２，…，Ｎ−１，ｋ＝１，２，…Ｋ）
式（１）
であるとする。

である。

以上の４つの特徴量を定義する。フレームの内部領域の特徴量の個数をＫinner，外部領域の特徴量の個数をＫ_outerとして、上記の式（２）から式（５）のＫと入れ替えた値を特徴量とする。その結果フレーム毎に、内部領域４次元、外部領域４次元、計８次元の特徴量が得られる。特徴量に対して、ショットの全てのフレームで特徴量を算出する。全てのフレームの特徴量を算出した後、特徴量のスケールをあわせるために、各特徴量毎に平均値を、中心に分散が等しくなるように正規化処理を行ったものを実際に使用する特徴量として出力する。出力される特徴量をＴ_i（ｉ＝１，２，…，Ｎ−１）とし、特徴量算出部４内のメモリ（図示せず）に出力する。

ステップ２０４）フレーム総数をＮとする。

ステップ２０５）ループカウンタｉを初期化する（ｉ＝１）。

以下では、サブショット種別識別部５においては、特徴量算出部４において算出された特徴量Ｔ_iを入力として、フレーム毎にサブショット種別を判定する。判定方法としては、閾値で行う方法もあるが、ホームビデオの場合、撮影された映像には、予測不可能な手振れや被写体があるため、一定の閾値処理で識別することは難しい。そこで、本実施の形態では、学習データを用いる手法を採用する。本実施の形態では、識別方法として最もシンプルな最近傍決定則にて行う。他の手法としては、判別分析等が考えられる。

学習データは、手作業により各サブショットに分類される映像を収集し、ステップ２０３、ステップ２０４において前述した動きベクトル算出部３と、特徴量算出部４による同様の特徴量算出の処理を、予め施し特徴量を求めている。この学習データを学習データ格納部８に予め保持しておく。

ステップ２０６）サブショット種別識別部５は、学習データ格納部８から学習データを読み出し、学習データ群を、８次元の識別空間にマッピングしておく。

ステップ２０７）サブショット種別識別部５は、ｉ番目のフレームの特徴量を特徴量算出部４内のメモリ（図示せず）から読み出す。

ステップ２０８）サブショット種別識別部５は、識別空間にマッピングされた識別対象と、ユークリッド距離が最も近い学習データを算出する。

ステップ２０９）サブショット種別識別部５は、最もユークリッド距離が近い学習データの属するサブショット種別を、識別対象のサブショット種別とする。この際、誤判定を防ぐため、ユークリッド距離の最も近い上位ａ個（ａは予め定めておく）の学習データ点を抽出し、多数決によって種別を判定する方法も考えられる。また、ユークリッド距離が予め定めた閾値εよりも大きい場合、信頼性が低いと判定できるため、リジェクト処理を行うことも考えられる。

ステップ２１０）全てのフレームの識別を行ったかを判定し、判定すべき識別対象がある場合はステップ２１１に移行し、全てのフレームの識別を行った場合はステップ２１２に移行する。このとき、各フレームのサブショット種別Ωｉ（ｉ＝１，２，…，Ｎ）を出力する。但し、Ωiはω０、ω１、ω２、ω３、ω４、ω５のいずれかである。

ステップ２１１）ｉ＝ｉ＋１とし、ステップ２０７に移行する。

ステップ２１２）映像分割部６は、各フレームのサブショット種別Ωi（ｉ＝１，２，…，Ｎ）を入力とし、入力されたワンショット映像をサブショットに分割する。図８は、本発明の一実施の形態における映像分割部におけるサブショット分割の例を示す。フレーム毎においては、図８に示すように所々雑音が入り、サブショットが大量にできてしまう可能性がある。そこで、予め定めたフレーム数ｂ毎に、時系列順に区切る。この区間のことをサブショット最小区間と呼ぶ。図８では、ｂ＝８としている例である。このサブショット最小区間内に含まれる、ｂ個のフレームサブショット種別を用いて、多数決によって、サブショット最小区間のサブショット種別を判定する。ここで雑音とは、サブショット最小区間において、ω１と多数決により判定されている区間において、フレーム間のサブショット種別がω０と判定されているフレームが雑音となる。また、同様に、サブショット最小区間において、ω２と判定されている区間において、フレーム間のサブショット種別がω３と判定されているフレームが雑音となる。

多数決で決まらない場合には、前後のサブショット最小区間の識別結果を採用することや、サブショット種別に優先順位を予め付けておく、前後のサブショット最小区間とマージして多数決を行う等の、ルールを予め設定しておくことができる。本実施の形態では、多数決でも決まらない場合、一つ前のセグメント最小区間の識別結果を採用することとする。もし、ワンショット映像の一番先頭のサブショット最小区間が、多数決で決まらない場合、そのサブショット種別はω０とする。全てのサブショット最小区間において同様の処理を行い、結果Ω’ｊを映像分割部６内のメモリ（図示せず）に出力する。ここで、サブショット最小区間の数をＵとすると、ｊ＝１，２，…，Ｕである。

ステップ２１３）映像分割部６は、サブショット最小区間のサブショット種別Ω’ｊをメモリから取得し、前後の種別が同じ場合はマージを行い、反対に切り替わった場合は、切り替わった点をサブショットの分割点と定め、サブショットのｉｎ点、ｏｕｔ点のフレーム番号を記録する。サブショットのｉｎ点、ｏｕｔ点の情報と、映像とともに映像・セグメントを、映像・セグメント情報格納部７に格納する。図９は、本発明の一実施の形態における映像のセグメント情報の例を示す。

以上述べた処理により、高圧縮・低品質で手振れがあるようなパーソナル映像を対象に、計算コストを低く抑えられ、カメラワークと実環境中の動物体の有無の組み合わせで６種別のセグメントに大まかに分割することが可能となる。

なお、上記の動作をプログラムとして構築し、映像構造化装置として利用されるコンピュータにインストールして実行する、または、ネットワークを介して流通させることも可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、映像構造化技術やインデクシング技術に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明の一実施の形態における映像構造化装置の構成図である。本発明の一実施の形態におけるワンショット映像をサブショットに分割した例である。本発明の一実施の形態におけるサブショット種別を示す図である。本発明の一実施の形態における動作のフローチャートである。本発明の一実施の形態における内部領域と外部領域の例である。本発明の一実施の形態におけるサブショット分割の例である。本発明の一実施の形態における映像セグメント情報の例である。

符号の説明

１映像読込手段、映像読込部
２映像一時記憶手段、映像一時格納部
３動きベクトル算出手段、動きベクトル算出部
４特徴量算出手段、特徴量算出部
５セグメント種別識別手段、サブショット種別識別部
６映像分割手段、映像分割部
７映像・セグメント情報記憶手段、映像・セグメント情報格納部
８学習データ格納部

Claims

カメラワークと映像内の動物体の有無に基づいたセグメント種別を定義しておき、当該セグメント種別によって映像コンテンツをセグメントに分割する映像構造化方法であって、
分析対象である映像を読み込んで、一時的に記憶手段に格納する映像読込ステップと、
前記記憶手段から入力映像を読み出して、該入力映像のフレーム間の動きベクトルを算出する動きベクトル算出ステップと、
入力された前記映像のフレーム画像を内部領域と外部領域とに分割し、分割された２つの領域毎に、前記動きベクトルから動きを表す特徴量それぞれにＮ個ずつ算出し、内部領域のＮ個の特徴量と外部領域のＮ個の特徴量を合せた２Ｎ個の特徴量を各フレーム画像毎に得る特徴量算出ステップと、
前記２Ｎ個の特徴量を用いてフレーム単位のセグメント種別を識別するセグメント種別識別ステップと、
フレーム単位のセグメント種別に基づいて、前記入力映像を分割し、分割された映像及びセグメント情報を記憶手段に格納する映像分割ステップと、
を行うことを特徴とする映像構造化方法。
カメラワークと映像内の動物体の有無に基づいたセグメント種別を定義しておき、当該セグメント種別によって映像コンテンツをセグメントに分割する映像構造化方法であって、
分析対象である映像を読み込んで、一時的に記憶手段に格納する映像読込ステップと、
前記記憶手段から入力映像を読み出して、該入力映像のフレーム間の動きベクトルを算出する動きベクトル算出ステップと、
算出された前記動きベクトルからセグメント種別を判定する特徴量を算出する特徴量算出ステップと、
前記特徴量を用いてフレーム単位のセグメント種別を識別するセグメント種別識別ステップと、
予め定めたフレーム数からなる最小区間に前記映像コンテンツを時系列順に区切り、最小区間に含まれるフレームのセグメント種別の多数決によって、当該最小区間のサブショット種別を判定し、前記最小区間のサブショット種別に基づいて、前記入力映像を分割し、分割された映像及びセグメント情報を記憶手段に格納する映像分割ステップと、
を行うことを特徴とする映像構造化方法。
前記特徴量算出ステップにおいて、
前記特徴量として、前記動きベクトルの大きさと方向の、平均、分散（標準偏差）、平均の変化量、分散（標準偏差）の変化量の、いずれか一つ以上組み合わせて利用し、識別する、
請求項１または２の映像構造化方法。
カメラワークと映像内の動物体の有無に基づいたセグメント種別を定義しておき、当該セグメント種別によって映像コンテンツをセグメントに分割する映像構造化装置であって、
読み込まれた映像データを一時的に保持する映像一時記憶手段と、
分割された映像及びセグメント情報を記憶する映像・セグメント情報記憶手段と、
分析対象である映像を読み込んで、一時的に前記映像一時記憶手段に格納する映像読込手段と、
前記映像一時記憶手段から入力映像を読み出して、該入力映像のフレーム間の動きベクトルを算出する動きベクトル算出手段と、
入力された前記映像のフレーム画像を内部領域と外部領域とに分割し、分割された２つの領域毎に、前記動きベクトルから動きを表す特徴量それぞれにＮ個ずつ算出し、内部領域のＮ個の特徴量と外部領域のＮ個の特徴量を合せた２Ｎ個の特徴量を各フレーム画像毎に得る特徴量算出手段と、
前記２Ｎ個の特徴量を用いてフレーム単位のセグメント種別を識別するセグメント種別識別手段と、
フレーム単位のセグメント種別に基づいて、前記入力映像を分割し、分割された映像及びセグメント情報を前記映像・セグメント情報記憶手段に格納する映像分割手段と、
を有することを特徴とする映像構造化装置。
カメラワークと映像内の動物体の有無に基づいたセグメント種別を定義しておき、当該セグメント種別によって映像コンテンツをセグメントに分割する映像構造化装置であって、
読み込まれた映像データを一時的に保持する映像一時記憶手段と、
分割された映像及びセグメント情報を記憶する映像・セグメント情報記憶手段と、
分析対象である映像を読み込んで、一時的に前記映像一時記憶手段に格納する映像読込手段と、
前記映像一時記憶手段から入力映像を読み出して、該入力映像のフレーム間の動きベクトルを算出する動きベクトル算出手段と、
算出された前記動きベクトルからセグメント種別を判定する特徴量を算出する特徴量算出手段と、
前記特徴量を用いてフレーム単位のセグメント種別を識別するセグメント種別識別手段と、
予め定めたフレーム数からなる最小区間に前記映像コンテンツを時系列順に区切り、最小区間に含まれるフレームのセグメント種別の多数決によって、当該最小区間のサブショット種別を判定し、前記最小区間のサブショット種別に基づいて、前記入力映像を分割し、分割された映像及びセグメント情報を前記映像・セグメント情報記憶手段に格納する映像分割手段と、
を有することを特徴とする映像構造化装置。
前記特徴量算出手段は、
前記特徴量として、前記動きベクトルの大きさと方向の、平均、分散（標準偏差）、平均の変化量、分散（標準偏差）の変化量の、いずれか一つ以上組み合わせて利用し、識別する手段を含む、
請求項４または５の映像構造化装置。
コンピュータを、
請求項４乃至６のいずれか１項に記載の映像構造化装置として機能させることを特徴とする映像構造化プログラム。