JP2010245983A

JP2010245983A - 映像構造化装置，映像構造化方法および映像構造化プログラム

Info

Publication number: JP2010245983A
Application number: JP2009094573A
Authority: JP
Inventors: Mitsuhiro Wagatsuma; 光洋我妻; Kota Hidaka; 浩太日高; Yasuhiko Miyazaki; 泰彦宮崎; Akira Kojima; 明小島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-04-09
Filing date: 2009-04-09
Publication date: 2010-10-28

Abstract

【課題】映像から多様な特徴量の画像またはショットを選出できるように映像を構造化する。
【解決手段】ショット分割部１１は，構造化対象の動画をショットごとに分割し，特徴量抽出部１２は，ショットごとに複数の特徴量を抽出する。類似度計算部１３は，抽出された特徴量ごとに，ショット同士の類似度を算出する。ショット構造化部１４は，複数のショットを類似度の大きいものから順にグループ化して，木構造を作り出す。順位付与部１５は，各ノードにおけるショット同士の局所的順位を付与する。代表画像／代表ショット選出部１７および表示部１８は，木構造と順位から指定された枚数の代表画像（またはショット）を選出して表示する。
【選択図】図１

Description

本発明は，与えられた動画から多様な特徴量を持った画像またはショットを選出することを可能とする映像構造化装置，映像構造化方法および映像構造化プログラムに関するものである。

従来，映像の構造を扱う代表的な研究として，下記の非特許文献１に記載されているものがある。この論文では， Visual Attention Modeling, Aural Attention Modeling, Linguistic Attention Modeling などの数多くのモデルを総合的に使ってユーザーの注意を引くシーンの抽出を試みている。

しかし，従来のこのような技術では，様々な特徴量の画像または映像が選出されるわけではなく，また新しい特徴量を取り入れるのも容易ではない。

Yu-Fei Ma and Xian-Sheng Hua and Lie Lu and Hong-Jiang Zhang, "A Generic Framework of User Attention Model and Its Application in Video Summarization", IEEE Transaction on Multimedia, Vol.7, No.5, pp.907-919, Oct. 2005

映像を複数の特徴量を使って構造化する際，従来技術では，それぞれの特徴量の意味を考えてアルゴリズムを組む必要がある。そのため，新しい特徴量抽出技術ができた場合には，その技術を組み込み直すために，改めて構造を作り直す必要があった。

本発明は，上記問題点の解決を図り，新しい特徴量に対しても柔軟に対応でき，映像から多様な特徴量の画像またはショットを選出できるようにする手段を提供することを目的とする。

本発明は，上記課題を解決するため，以下の方法を用いて映像を構造化する。まず，カット点技術により映像をショットに分割する。次に，映像特徴量を求め，ショット間の類似度（数値が大きいほど似ている）を求める。似ているショットを順次統合（数値が大きいものから統合）して木構造にする。統合するに従って分割数（ノード）は減少する。似ていないものほど後から統合されるので，類似度が小さいほど分割数が小さくなる（代表画像が絞り込めている）。ここに局所的順位の考えを導入することで，複数の代表画像があっても優先順位が付く。

すなわち，本発明は，構造化対象の動画をショットごとに分割し，ショットごとに複数の特徴量を抽出する。その抽出された特徴量ごとに，ショット同士の類似度を算出し，それをもとに複数のショットを類似度の大きいものから順にグループ化して，ショットを葉，ショット群をノードとする木構造を作り出す。各ノードのショット群ごとに，各ショットがもつ特徴量をもとにショット同士の局所的順位を付与する。木構造の作成時におけるグループ化の順序関係を重要度として，重要度の順に指定された個数のショット群を選び，選ばれたショット群に対してショット同士の局所的順位によって代表ショットを選出する。その代表ショットまたはそれらの各ショットを代表する代表画像を選出して，表示装置に表示する。

本発明により，入力された動画から，様々な特徴量の異なった代表画像またはショットを得ることができる。また，特徴量ごとに「類似性」と「類似したショット同士の順位」が定義されれば，あらゆる特徴量を考慮に入れることができ，今後新しい特徴量が提案されたとしてもすぐに取り入れることができる。

本発明を実施する装置の構成例を示すブロック図である。映像構造化装置の処理フローチャートである。映像のショットを構造化した例を示す図である。映像を構造化した図と代表画像の表示例を示す図である。映像の他の構造化例を示す図である。

以下，図面を用いながら，本発明の実施の形態について説明する。

図１は，本発明を実施する装置の構成例を示すブロック図である。図１において，１はＣＰＵおよびメモリ等によって構成される映像構造化装置，２は構造化対象の動画データを記憶する動画データ記憶手段，３は表示装置，４はポインティングデバイスやキーボード等の入力装置を表す。

映像構造化装置１は，ＣＰＵとソフトウェアプログラムとによって実現される以下の手段を備える。動画データ入力部１０は，動画データが格納された動画ファイルなどの動画データ記憶手段２から動画を入力する。ショット分割部１１は，動画データ入力部１０が入力した動画をショットごとに分割する。

特徴量抽出部１２は，ショットごとに複数の特徴量を抽出する。類似度計算部１３は，特徴量抽出部１２が抽出した特徴量ごとに，ショット同士の類似度を算出する。ショット構造化部１４は，ある閾値以上の類似度をもったショット群を順にグループ化して木構造を作り出す。

順位付与部１５は，ショットのグループ（木構造のノード）ごとに，各ショットがもつ特徴量をもとにショット同士の順位を付与する。木構造のノードごとに，そのノード配下のショットに付与される順位を，局所的順位という。また，ショット構造化部１４において，ショット群を順にグループ化する際に，後からグループ化されるものほど重要度が高いものとして，ショットの集合の重要度を定めることができる。この重要度の順序関係を大域的順位という。

代表選出数指定部１６は，ショット構造化部１４によって作られた木構造から何個の代表ショットまたは何枚の代表画像を選出するのかを，利用者からの入力または事前に設定されたパラメータ値などにより指定する。代表画像／代表ショット選出部１７は，ショットの集合の重要度（大域的順位）とその部分集合に付与される順位（局所的順位）をもとに指定された枚数の代表画像または代表ショットを選出する。代表画像／代表ショット表示部１８は，選出された代表画像（代表ショットの映像の場合もある。以下同様）を表示装置３に表示する。

代表画像／代表ショット表示部１８が，代表画像（代表ショット）を表示装置３に表示するときに，指定によって動画における代表画像（代表ショット）を時系列にソートした上で順に表示するようにしてもよく，また大域的順位として定義された重要度でソートした上で順に表示するようにしてもよい。

また，類似度計算部１３は，特徴量抽出部１２で抽出された映像ショットがもつ特徴量だけでなく，２つのショットの時間的な差分を考慮に入れて類似度を算出するような実施も可能である。

代表画像／代表ショット選出部１７が代表画像等を選出するときには，ショット構造化部１４によって作られた木構造を表示装置３に表示し，このとき木構造においてどのショットまたはショット群がどのようにグループ化されているかを識別できるように色で視覚化して表示するようにしてもよい。また，利用者に表示させたい代表画像の枚数などを指定させるＧＵＩによるユーザインタフェースを，代表画像／代表ショット選出部１７に持たせることができる。

また，代表画像／代表ショット表示部１８は，選出された代表画像または代表ショットを表示する際に，ショット構造化部１４により作成された木構造を表示し，各代表画像または各代表ショットがどのショットのグループから選出されたかを木構造において色分けして表示するようにすれば，利用者にとって判りやすい表示になるので好適である。

次に，図２に示すフローチャートに従って，図１に示す映像構造化装置１の処理の流れを説明する。

〔ショット分割〕
まず，動画データ入力部１０は，動画データ記憶手段２から構造化対象となる動画ファイルの動画を入力する（ステップＳ２０１）。ショット分割部１１は，動画をショットに分割する（ステップＳ２０２）。このショットの分割は，例えば次のように行う。

あるｉ番目のフレーム画像と次のフレーム画像のピクセルごとの輝度値の差分の絶対値を求め，画像全体で足し合わせたものをＳ_iとし，Ｓ_iがある閾値を超えたときに，その時刻をショットの分割点とする。こうして映像は複数のショットに分割できる。他にもショットの分割方法は従来から種々の方法が知られており，他のショット分割方法を用いて本発明を実施してもよい。

〔ショットの特徴量抽出，類似度算出，局所的順位付与〕
ショット分割部１１によって，映像がｎ個のショットに分割されたとし，解像度はｗ×ｈであるとする。特徴量抽出部１２は，ｋ番目のショットの中間にある一定区間のＮフレームの画像から，
・ピクセル輝度値（brightness）ベクトル，
・複数の動き（motion）ベクトル，
などを取り出して，このショットの特徴量とする（ステップＳ２０３）。なお，以下では，brightness（輝度値）を添え字ｂを用いて表し，motion（動き）を添え字ｍを用いて表す。

各特徴量の具体的な取り出し方と，類似度（similarity）と局所的順位（local order ）の算出方法を以下に記す。

〈輝度値の抽出〉
一般に，同じカメラから撮影された映像が交互に映される映像をよく見かける。その場合，輝度値を比較すれば容易に似ているショットを検出することができる。まずは輝度値を用いて類似度と局所的順位を定義する。

映像中のｋ番目のショットをｓ_kとし，ショットｓ_kの中にＮ個ある画像のうち，Ｋ番目（Ｋ＝１，２，…，Ｎ）の画像の輝度値を並べたベクトルをｖ^b _k,Kとする。これはショットｓ_kの中にＮ個ある大きさｗ×ｈのベクトルである。

まずはベクトルに対応する画像をガウス関数でぼかす。

さらにその上でコサイン類似度

を用いて，

とすれば，輝度値ベクトルの類似度が定義できる。

この関数はショット同士ではなく画像同士の類似度（similarity）を測っており，そのような関数には上にｈａｔをつけて区別している。しかし，成分がほとんど同じ値であるベクトルの場合，他のどのベクトルとも一定の類似度になってしまう。また，ベクトルの大きさが非常に小さいと，そもそも類似度が意味をなさなくなる。例えば，真白な画面と真黒な画面は区別されない。

そこで，ベクトルｖの各成分の分布Ｘ（ｖ）を改めてベクトルとみなして，その内積をコサイン類似度に乗じて，

とすることで，上記の問題の解決を図る。ここで，ベクトルｖの各成分の分布Ｘ（ｖ）とは，ベクトルｖの各成分である輝度値の大きさがどのような分布になっているかを示すベクトルであり，例えば輝度値ごと，または輝度値の区分ごとのベクトルｖにおける輝度値の出現頻度を成分とするベクトルである。

〈輝度値の類似度〉
以上で画像同士の類似度が定義されたので，ショット内のＮ個の画像の類似度を足し合わせたもの

をショット同士の類似度とすればよい。

類似度計算部１３は，以上のような方法によりショットとショットの類似度を算出する（ステップＳ２０４）。

〈輝度値の局所的順位〉
以上の類似度の算出ではガウスフィルタを使っているため，ショット全体が元々ボケていたりしても区別はできないという問題が発生する。
そこで，局所的順位の付与では，輪郭を抽出するラプラシアン・フィルタ

を用いて順序関係を決める。こうすることで，輪郭のはっきりしたショットの順位を上げると同時に，全体的にボケているショットの全体における順位を相対的に下げることができる。

〈動きの抽出〉
動きの特徴量に対しては，特徴量抽出部１２は，ショット内のＮ枚の画像から動きを推定して動きの特徴量を抽出し，類似度計算部１３は，次に述べる類似度の定義に従って類似度を算出する。

ここでは，パンやチルトといった画面全体の動きと，画面内の一部分がそれぞれ別の動きをしているものを共に導入してもよい。例えば，画面を１６分割してそれぞれの動きベクトルを推定する。その上で類似度の尺度として，全体の動きの類似を測る類似度Ｓim^m ₁と，全体的な動きを見て類似を測る類似度Ｓim^m ₂の２つを用意する。

まずは，画面を１６分割し，分割された領域ごとの動きベクトルを推定し，ｖ^mp _k（ｐ＝１，２，…，１６）とする。推定の信頼度Ｃonf(ｖ^mp _k) がある閾値を超えない場合には，ｖ^mp _k＝０とする。

動きベクトルの推定方法の例について説明する。ショットが大きさＮ×Ｍのｎ枚のフレームからなっているものとし，ｉ番目のフレームの座標（ｘ，ｙ）の輝度値をＦⁱ _x,yで表す。また，原点からｘ方向にｄｘ，ｙ方向にｄｙだけ動かしたフレームとの重なり部分をＬａｐ（ｄｘ，ｄｙ）とし，これを以下のように定義する。Ｍａｘ（）は最大値を返す関数，Ｍｉｎ（）は最小値を返す関数である。

Ｌａｐ（ｄｘ，ｄｙ）＝｛（ｘ，ｙ）｜ｆ_x＜ｘ＜ｔ_x，ｆ_y＜ｙ＜ｔ_y｝
ｆ_x＝Ｍａｘ（ｄｘ，０）
ｔ_x＝Ｍｉｎ（Ｎ＋ｄｘ，Ｎ）
ｆ_y＝Ｍａｘ（ｄｙ，０）
ｔ_y＝Ｍｉｎ（Ｍ＋ｄｙ，Ｍ）
ここで，

を考え，−Ｌ＜ｄｘ＜Ｌ，−Ｌ＜ｄｙ＜Ｌの範囲で，ΔＦⁱ（ｄｘ，ｄｙ）を最小化するｄｘ，ｄｙを探し，ｄｘ^*，ｄｙ^*とする。Ｌは，例えば
Ｌ＝Ｍａｘ（Ｎ，Ｍ）／１０
などとすればよい。動きベクトルｖⁱは，
ｖⁱ＝（ｄｘ^*，ｄｙ^*）
と推定できる。また，このΔＦⁱ（ｄｘ^*，ｄｙ^*）が小さいほど，このベクトルの信頼性は高い。

ショット内にあるｎ枚のフレームに対して，ｖ¹，ｖ²，…，ｖ^n-1を求め，その平均ベクトルＡｖｒ（ｖⁱ），

を推定された動きベクトルとする。また，共分散行列Σのトレースｔｒ（Σ）は分散の大きさを表し，動きベクトルの分散が大きい場合にはショット全体の動きとしては信頼に足らない。よって，ショットの信頼度Ｃｏｎｆは，

とすればよい。Ｃｏｎｆが大きいほど，そのショットの動きベクトルの信頼性は高い。

分割された子画面に対して動きベクトルを推定する際には，画面の大きさＮ，Ｍを分割された子画面に対応したものにすれば，同様に推定することができる。

〈動きの類似度〉
さらに，それぞれのベクトルの直積をｖ^m _kとする。つまり，
ｖ^m _k＝（ｖ^m1 _k，ｖ^m2 _k，ｖ^m3 _k，…，ｖ^m16 _k）
である。これを動きベクトルと呼ぶことにし，
類似度は内積

で定義してやればよい。

映像が，パンやチルトなどの全体的な動きをしている場合や，画面中央で何かが動いている場合などには，この方法で類似ショットを検出することが可能である。しかし，全体的に散漫な動きを持つショット同士の類似度は，動きの乏しいショット同士の類似度とほとんど同じになってしまい，区別して検出することはできない。

そこで，ベクトルｖ^m _kの分布Ｘ（ｖ^m _k）の類似度を内積で定義し，それを動きベクトルのもう一つの類似度として定義する。つまり，

とする。これによって全体的に動きはあるが一方向に向かっている訳ではないショットを，動きのないショットとは区別して類似していると見做すことができる。

〈動きの局所的順位〉
局所的順位は，Ｓim^m ₁に関してはベクトルの総和の大きさ

を用いる。Ｓim^m ₂に関しては各動きベクトルの信頼度Ｃonf(ｖ^mp _k) を用いて，その総和

を用いることにする。

〈時間的な差分を考慮に入れた類似度〉
特徴量の類似性によって，後述するショットの結合処理を行うと，時間的な近さなどはまったく考慮されずに結合される。そこで，例えばショットｓ_k，ｓ_k'のそれぞれの中間の時刻ｔ_k，ｔ_k'を用いて，新たな類似度

を算出し，これを類似度とすれば，時間的な差分も考慮した類似度を定義することができる。ここで，τは時間差が１分で類似度が半減するなどの定数とすればよい。

〔ショット構造化〕
ショット間の類似度の算出が終わると，ショット構造化部１４は，ショットを構造化する（ステップＳ２０５）。ここで提案する方法は，構造として木構造を創出するもので，その葉はｎ個のショット｛ｓ_k｝_k=1,2,..,nを要素とし，葉以外のノードは｛ｐ_j｝_j=1,2,..,n-1で表し，ｐ_jは常に２つのノードを結合する。そのときに結合された２つのノードをｐ_jの子と呼び，ｐ_j自身を親と呼ぶことにする。なお，ここでは説明をわかりやすくするために，常に２つのノードを結合する例について説明するが，後述する閾値の下げ幅によって，３以上のノードの結合を許すような実施も可能である。

ｐ_jは｛ｓ_k｝_k=1,2,..,nと｛ｐ_j'｝_{j'=1,2,..,j'-1}との和集合のうちの２つの要素を結合し，その２つは子として保持され，２つの子には関数Ｌによって順位付けがなされる。また，ｐ_jの子のうち順位の高い方をｐ^-1 _j, 低い方をｐ^-2 _jと表記し，さらにｐ_jの親はｐ⁺ _jと表記する。ｐ_jは，順位の高い子ｐ^-1 _jの特徴量ｖ^b，ｖ^m等を保持すると共に，子およびその子孫すべての特徴量を平均した￣ｖ^b，￣ｖ^m（￣はｖの上につく記号）等も保持する。

以上のようにすると，ｐ_jはｓ_kと同様の特徴量を保持することになるので，ｓ_kに対して定義した類似度関数がそのまま適用できる。

順位付与部１５は，以上述べた各ノードに順位を付与する処理を実行する（ステップＳ２０６）。

〈繰り返し処理による構造化〉
次に，十分大きな閾値を用意して閾値を少しずつ小さくし，例えばｓ₁とｓ₂との類似度Ｓim（ｓ₁，ｓ₂）が閾値を超えれば，ｐ₁はｓ₁とｓ₂を子として結合する。次の閾値がｓ₃とｐ₁の類似度を超えれば，ｐ₂がｓ₃とｐ₁を子として結合する。こうして，｛ｓ_k｝_k=1,2,..,nは，必ずそれらを葉とする１つの木構造に収束する。

こうしてできる木構造に，局所的順位（local order ）が入れば，映像は構造化される。この例であれば，
Ｌoc（ｓ₁）＞Ｌoc（ｓ₂），
Ｌoc（ｐ₁）＜Ｌoc（ｓ₃），……
などが決まれば構造は決定する。

以上のように，類似度，結合，局所的順位の付与などのやり方が決まれば，構造化が可能となる。

図３（Ａ）に，映像のショットｓ₁〜ｓ₁₀を構造化した例を示す。この例では，ショットｓ₄とｓ₅の類似度が一番大きく，これが最初にｐ₁として結合されている。次に類似度が大きいのはショットｓ₉とｓ₁₀であり，ｐ₂として結合されている。さらに次に類似度が大きいのは，ショットｓ₈とノードｐ₂であり，これらが結合されてノードｐ₃が生成されている。このように類似度が大きい順にショットまたはノードを結合していくと，最終的にｐ₉を頂点の根ノードとする木構造が生成されることになる。

以上の構造化の際の結合の閾値の決め方について説明する。前述したように，類似度は特徴量のベクトルの内積などで定義されており，ショットの組み合わせの中で最小値と最大値が存在する。１つの類似度を用いて構造化を行う場合には，結合の閾値を最大値から少しずつ下げる。下げ幅ｗ_dは，例えば，ｗ_d＝（最大値−最小値）／（Ｎ×１０）というように，類似度の最大値と最小値との差をＮ×１０等分するなどして決めることができる。

複数の類似度を用いる場合，最大値で割ることにより，類似度の大きさの規格を合わせることができる。こうして１／（Ｎ×１０）程度ずつ結合の閾値を１から下げていくようにすれば，複数の類似度に対応して構造化することが可能になる。

また，最大値ではなく，類似度を標準偏差で割り，平均を０に移動することで規格化することもできる。この場合，閾値の下げ幅は，同様に最大値と最小値との差をＮ×１０等分するなどして決めることができる。

〔代表画像／代表ショット選出〕
次に，代表画像／代表ショット選出部１７による代表画像（または代表ショット）の選出について説明する。

複数の特徴量によって，例えば図３（Ａ）のように映像が構造化されたとすると，その木構造上に横に線を引き，交差するエッジの下方にあるノードのショットまたはショット群を代表として選出する。選出したノードがショット群の場合，順位付与部１５によってショットの局所的な順序が付けられているので，そのショット群の中で最も順位が上のショットを選べば，横に引いた線と交差するエッジの数だけ，代表ショットを選出することができる。

また，代表ショットから代表画像を選出する場合，例えばショットの先頭画像を代表画像としてもよい。また，ショット内のフレームＦⁱのシャープさを表す指標として次のラプラシアン・フィルタ

を用いて，最もシャープな画像を代表画像としてショットの中から選出してもよい。また，動きベクトルで結合される場合には，動きの大きさ｜ｖⁱ｜が最も大きなフレームを代表画像としてもよい。

図３（Ｂ）は，図３（Ａ）のような映像の木構造から，任意の枚数の代表画像または任意の個数の代表ショットを選出する例を示している。図３（Ｂ）に示す木構造における縦軸は結合の閾値（類似度）で，上に行くほど小さくなる。類似度は数値が大きいほど似ていることになる。前述したように，類似度が大きいものから統合される。これを木構造で表現しているため，縦軸は上にいくほど類似度が小さくなる。

そこで，図３（Ｂ）に示すような選択バー３０を木構造上で上下させると，任意の枚数の代表画像等を選出することが可能になる。例えば選択バー３０がＹ₁の高さでは，ノードｐ₉に含まれるショットの中の局所的順位が最も高い代表画像（ショット）が１枚選択され，選択バー３０がＹ₂の高さでは，ノードｐ₆とｐ₄とｓ₇とｐ₃の各々に含まれるショットの中の局所的順位が最も高い代表画像（ショット）が４枚選択され，また，Ｙ₃の高さでは，ｓ₁，ｓ₂，ｓ₃，ｐ₁，ｓ₆，ｓ₇，ｓ₈，ｐ₂の各々に含まれるショットの中の局所的順位が最も高い代表画像（ショット）が８枚選択されることになる。

代表画像／代表ショット選出部１７は，ユーザインタフェースとして，利用者に入力装置４から直接代表画像としての表示枚数を入力させてもよいし，また図３（Ｂ）のように選択バー３０を上下させるようなＧＵＩを提供してもよい。

代表画像／代表ショット選出部１７は，数値入力または選択バー３０のようなＧＵＩによって表示枚数を入力すると（ステップＳ２０７），図３（Ｂ）等で説明した方法によって入力枚数分だけ代表画像を選出する（ステップＳ２０８）。代表画像／代表ショット表示部１８は，選出された代表画像を表示装置３に表示する（ステップＳ２０９）。以上の表示枚数の入力，代表画像の選出・表示の処理を終了の指示があるまで繰り返し，終了の指示があれば処理を終了する（ステップＳ２１０）。

ここでは，利用者が入力装置４のユーザインタフェースから表示枚数を入力する例を説明したが，アプリケーションプログラムが表示枚数を指定し，そのアプリケーションプログラムに，選出した代表画像を引き渡すようなアプリケーションインタフェースの構築も可能である。

図４は，映像を構造化した図と代表画像の表示例を示している。図４において，４０は表示装置３の表示画面，４１は表示画面４０における代表画像表示領域，４２は重要度順ボタン，４３は時系列順ボタン，４４はスライダー，４５ａ〜４５ｊは代表画像（または代表ショット）を表している。

例えば図３（Ａ）に示すようなショットの木構造は，図４の表示画面４０のように表示され，これに対して利用者が選択バー３０を上下させるためのスライダー４４のユーザインタフェースが提供されている。利用者はスライダー４４をマウス等の入力装置４で上下させることにより，任意枚数の代表画像（または代表ショット）を表示させることができる。

選択バー３０が図４（Ａ）の位置では，木構造のエッジと選択バー３０とがａ，ｂ，ｃの３箇所で交差しており，このａ，ｂ，ｃの先のノードに属するそれぞれのショット群の中で局所的順位の最も高いショットの代表画像が選出されて，代表画像表示領域４１に，代表画像４５ａ，４５ｂ，４５ｃとして表示される。

ここで，利用者がマウス・クリックなどにより重要度順ボタン４２を押すと，代表画像４５ａ，４５ｂ，４５ｃは重要度順にソートされて表示され，時系列順ボタン４２を押すと，代表画像４５ａ，４５ｂ，４５ｃは時系列順にソートされて表示される。

また，映像の木構造から代表画像４５ａ，４５ｂ，４５ｃのように複数の代表画像が選ばれた際，それぞれの画像の下にどのような構造があるのかを判りやすくするために，代表画像４５ａに対してはａの下の構造，代表画像４５ｂに対してはｂの下の構造，代表画像４５ｃに対してはｃの下の構造というように，グループ化されているショット群を色分けして表示する。これによって，代表画像４５ａ，４５ｂ，４５ｃがそれぞれどこのショット群を代表しているのかを判りやすく表示することできる。

同様に，選択バー３０が図４（Ｂ）の位置では，木構造のエッジと選択バー３０とがｄ〜ｊの７箇所で交差しており，このｄ〜ｊの先のノードに属するそれぞれのショット群の中で局所的順位の最も高いショットの代表画像が選出されて，代表画像表示領域４１に，代表画像４５ｄ〜４５ｊとして表示される。これから明らかなように選択バー３０を下に移動させるほど代表画像の選択枚数は多くなる。

利用者が選択枚数を数値入力した場合には，代表画像／代表ショット選出部１７は同様に選択バー３０に相当する類似度の閾値を変化させることにより，木構造から指定された枚数の代表画像を選出することができる。

以上の例から明らかなように，木構造における各ノードは高さが異なり，各ノードに連結されたエッジ（枝）も順位付けされているので，任意の枚数の代表画像またはショットが選出できる。また，複数の特徴量でショットをまとめ，順位付けをしているので，多様な特徴量を持った画像またはショットが選出される。

図５は，映像の他の構造化例を示している。この図５の例では，複数の類似度の尺度（例えば動きの類似と輝度値の類似）で閾値を超えるショットがあるような場合を考慮した統合の例を示している。このようなショットの構造化では，ショットｓ₁とｓ₈のように，異なる類似度の尺度で統合が行われるため，複数箇所に統合されることもある。

例えば，動きの類似というような特定の類似度の尺度において，そもそもある閾値以上の場合にしか類似判定を行わないとしてもよい。そうすると，動きのほとんどないショットは，動きの類似性で他と結合されることがないということになる。逆に，複数の類似度の尺度で閾値を超えるショットがある場合（動きもあるし輝度値も十分であるショット）には，ショットｓ₁とｓ₈のように複数箇所に結合されることもあり得る。

図５の木構造でも，図３等で説明した場合と同様に，選択バー３０を上下にスライドさせることにより，任意枚数の代表画像（ショット）の選出が可能である。選択バー３０がＹ₁の位置では１枚の代表画像，Ｙ₂の位置では４枚の代表画像，Ｙ₃の位置では８枚の代表画像が選出される。

また，木構造の表示においては，構造のグループ化された部分がどこなのかを色で視覚化して表示することにより，利用者に類似するショット群を容易に把握させることができる。図５の例では，エッジを太線，細線，点線，一点鎖線で示しているが，これらを色分けして表示してもよく，これにより，ショットのグループ化の様子が一目で把握しやすくなる。

以上のように本発明の実施形態によれば，ショット群の構造化によって大域的な順序関係と局所的な順序関係が定まる。すなわち，ショット群が構造化されると，結合の閾値（または結合した順序）に応じて上下に順序ができる。これが大域的順位であり上にいくほど重要度が大きい。また，各ノードには結合された複数のショットに対して局所的な順位が付与されており，それによってそのノードに接続されるショット群の代表ショットもしくは代表ショットから選ばれた代表画像が決まる。こうすることによって，任意の枚数のできるだけ類似性の低いショットおよび代表画像を選出することができることになる。

以上の映像の構造化の処理は，コンピュータとソフトウェアプログラムとによって実現することができ，そのプログラムをコンピュータ読み取り可能な記録媒体に記録することも，ネットワークを通して提供することも可能である。

１映像構造化装置
２動画データ記憶手段
３表示装置
４入力装置
１０動画データ入力部
１１ショット分割部
１２特徴量抽出部
１３類似度計算部
１４ショット構造化部
１５順位付与部
１６代表選出数指定部
１７代表画像／代表ショット選出部
１８代表画像／代表ショット表示部

Claims

構造化対象の動画を記憶する動画データ記憶手段と，
前記動画データ記憶手段に記憶された動画をショットごとに分割するショット分割手段と，
前記ショットごとに複数の特徴量を抽出する特徴量抽出手段と，
前記抽出された特徴量ごとに，ショット同士の類似度を算出する類似度計算手段と，
前記類似度計算手段が算出した類似度をもとに，複数のショットを類似度の大きいものから順にグループ化して，ショットを葉，ショット群をノードとする木構造を作り出すショット構造化手段と，
前記各ノードのショット群ごとに，各ショットがもつ特徴量をもとにショット同士の順位を付与する順位付与手段と，
前記木構造の作成時におけるグループ化の順序関係と前記順位付与手段により付与されたショット同士の順位とをもとに，指定された数の代表ショットまたは代表ショットを代表する代表画像を選出する代表画像／代表ショット選出手段と，
前記選出された代表ショットの映像または代表画像を表示する代表画像／代表ショット表示手段とを備える
ことを特徴とする映像構造化装置。
請求項１記載の映像構造化装置において，
前記代表画像／代表ショット選出手段は，前記ショット構造化手段による前記木構造の作成時におけるグループ化の順序が遅いものほどショット群の重要度が高いものとし，指定された重要度に応じて定まる数のノードを前記木構造から選出し，選出されたノードに対応するショット群から前記順位付与手段により付与されたショット同士の順位の高いショットを代表ショットとして選出または前記順位の高いショットを代表する代表画像を選出する
ことを特徴とする映像構造化装置。
請求項１または請求項２記載の映像構造化装置において，
前記ショット構造化手段により作成された木構造を表示し，木構造の表示では各ノードの位置の高さを前記ショットのグループ化の順序に応じて変え，前記木構造の表示を横切る線を上下させるユーザインタフェースによって前記線の高さを利用者に指定させ，指定された高さの線と前記木構造の表示におけるエッジとの交差する数により，代表画像または代表ショットを選出する数を指定する代表選出数指定手段を備える
ことを特徴とする映像構造化装置。
請求項１，請求項２または請求項３記載の映像構造化装置において，
前記代表画像／代表ショット表示手段は，前記選出された代表ショットの映像または代表画像を，時系列順または前記グループ化の順序に従ってソートし，ソート結果の順番で表示する
ことを特徴とする映像構造化装置。
請求項１から請求項４までのいずれか１項に記載の映像構造化装置において，
前記類似度算出手段は，前記特徴量抽出手段で抽出されたショットの特徴量に加え，類似度算出対象となる２つのショットの時間的な差分をもとに類似度を算出する
ことを特徴とする映像構造化装置。
請求項１から請求項５までのいずれか１項に記載の映像構造化装置において，
前記代表画像／代表ショット表示手段は，選出された代表画像または代表ショットの表示とともに，前記ショット構造化手段により作成された木構造を表示し，各代表画像または各代表ショットがどのショット群から選出されたかを前記木構造において色分けして表示する
ことを特徴とする映像構造化装置。
構造化対象の動画を記憶する動画データ記憶手段を備える映像構造化装置が実行する映像構造化方法であって，
前記動画データ記憶手段に記憶された動画をショットごとに分割するショット分割過程と，
前記ショットごとに複数の特徴量を抽出する特徴量抽出過程と，
前記抽出された特徴量ごとに，ショット同士の類似度を算出する類似度計算過程と，
前記類似度計算過程で算出した類似度をもとに，複数のショットを類似度の大きいものから順にグループ化して，ショットを葉，ショット群をノードとする木構造を作り出すショット構造化過程と，
前記各ノードのショット群ごとに，各ショットがもつ特徴量をもとにショット同士の順位を付与する順位付与過程と，
前記木構造の作成時におけるグループ化の順序関係と前記順位付与過程で付与されたショット同士の順位とをもとに，指定された数の代表ショットまたは代表ショットを代表する代表画像を選出する代表画像／代表ショット選出過程と，
前記選出された代表ショットの映像または代表画像を表示する代表画像／代表ショット表示過程とを有する
ことを特徴とする映像構造化方法。
コンピュータを，請求項１から請求項６までのいずれか１項に記載の映像構造化装置が備える手段として機能させるための映像構造化プログラム。