JP2010245983A - 映像構造化装置,映像構造化方法および映像構造化プログラム - Google Patents
映像構造化装置,映像構造化方法および映像構造化プログラム Download PDFInfo
- Publication number
- JP2010245983A JP2010245983A JP2009094573A JP2009094573A JP2010245983A JP 2010245983 A JP2010245983 A JP 2010245983A JP 2009094573 A JP2009094573 A JP 2009094573A JP 2009094573 A JP2009094573 A JP 2009094573A JP 2010245983 A JP2010245983 A JP 2010245983A
- Authority
- JP
- Japan
- Prior art keywords
- shot
- representative
- shots
- image
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
【課題】映像から多様な特徴量の画像またはショットを選出できるように映像を構造化する。
【解決手段】ショット分割部11は,構造化対象の動画をショットごとに分割し,特徴量抽出部12は,ショットごとに複数の特徴量を抽出する。類似度計算部13は,抽出された特徴量ごとに,ショット同士の類似度を算出する。ショット構造化部14は,複数のショットを類似度の大きいものから順にグループ化して,木構造を作り出す。順位付与部15は,各ノードにおけるショット同士の局所的順位を付与する。代表画像/代表ショット選出部17および表示部18は,木構造と順位から指定された枚数の代表画像(またはショット)を選出して表示する。
【選択図】図1
【解決手段】ショット分割部11は,構造化対象の動画をショットごとに分割し,特徴量抽出部12は,ショットごとに複数の特徴量を抽出する。類似度計算部13は,抽出された特徴量ごとに,ショット同士の類似度を算出する。ショット構造化部14は,複数のショットを類似度の大きいものから順にグループ化して,木構造を作り出す。順位付与部15は,各ノードにおけるショット同士の局所的順位を付与する。代表画像/代表ショット選出部17および表示部18は,木構造と順位から指定された枚数の代表画像(またはショット)を選出して表示する。
【選択図】図1
Description
本発明は,与えられた動画から多様な特徴量を持った画像またはショットを選出することを可能とする映像構造化装置,映像構造化方法および映像構造化プログラムに関するものである。
従来,映像の構造を扱う代表的な研究として,下記の非特許文献1に記載されているものがある。この論文では, Visual Attention Modeling, Aural Attention Modeling, Linguistic Attention Modeling などの数多くのモデルを総合的に使ってユーザーの注意を引くシーンの抽出を試みている。
しかし,従来のこのような技術では,様々な特徴量の画像または映像が選出されるわけではなく,また新しい特徴量を取り入れるのも容易ではない。
Yu-Fei Ma and Xian-Sheng Hua and Lie Lu and Hong-Jiang Zhang, "A Generic Framework of User Attention Model and Its Application in Video Summarization", IEEE Transaction on Multimedia, Vol.7, No.5, pp.907-919, Oct. 2005
映像を複数の特徴量を使って構造化する際,従来技術では,それぞれの特徴量の意味を考えてアルゴリズムを組む必要がある。そのため,新しい特徴量抽出技術ができた場合には,その技術を組み込み直すために,改めて構造を作り直す必要があった。
本発明は,上記問題点の解決を図り,新しい特徴量に対しても柔軟に対応でき,映像から多様な特徴量の画像またはショットを選出できるようにする手段を提供することを目的とする。
本発明は,上記課題を解決するため,以下の方法を用いて映像を構造化する。まず,カット点技術により映像をショットに分割する。次に,映像特徴量を求め,ショット間の類似度(数値が大きいほど似ている)を求める。似ているショットを順次統合(数値が大きいものから統合)して木構造にする。統合するに従って分割数(ノード)は減少する。似ていないものほど後から統合されるので,類似度が小さいほど分割数が小さくなる(代表画像が絞り込めている)。ここに局所的順位の考えを導入することで,複数の代表画像があっても優先順位が付く。
すなわち,本発明は,構造化対象の動画をショットごとに分割し,ショットごとに複数の特徴量を抽出する。その抽出された特徴量ごとに,ショット同士の類似度を算出し,それをもとに複数のショットを類似度の大きいものから順にグループ化して,ショットを葉,ショット群をノードとする木構造を作り出す。各ノードのショット群ごとに,各ショットがもつ特徴量をもとにショット同士の局所的順位を付与する。木構造の作成時におけるグループ化の順序関係を重要度として,重要度の順に指定された個数のショット群を選び,選ばれたショット群に対してショット同士の局所的順位によって代表ショットを選出する。その代表ショットまたはそれらの各ショットを代表する代表画像を選出して,表示装置に表示する。
本発明により,入力された動画から,様々な特徴量の異なった代表画像またはショットを得ることができる。また,特徴量ごとに「類似性」と「類似したショット同士の順位」が定義されれば,あらゆる特徴量を考慮に入れることができ,今後新しい特徴量が提案されたとしてもすぐに取り入れることができる。
以下,図面を用いながら,本発明の実施の形態について説明する。
図1は,本発明を実施する装置の構成例を示すブロック図である。図1において,1はCPUおよびメモリ等によって構成される映像構造化装置,2は構造化対象の動画データを記憶する動画データ記憶手段,3は表示装置,4はポインティングデバイスやキーボード等の入力装置を表す。
映像構造化装置1は,CPUとソフトウェアプログラムとによって実現される以下の手段を備える。動画データ入力部10は,動画データが格納された動画ファイルなどの動画データ記憶手段2から動画を入力する。ショット分割部11は,動画データ入力部10が入力した動画をショットごとに分割する。
特徴量抽出部12は,ショットごとに複数の特徴量を抽出する。類似度計算部13は,特徴量抽出部12が抽出した特徴量ごとに,ショット同士の類似度を算出する。ショット構造化部14は,ある閾値以上の類似度をもったショット群を順にグループ化して木構造を作り出す。
順位付与部15は,ショットのグループ(木構造のノード)ごとに,各ショットがもつ特徴量をもとにショット同士の順位を付与する。木構造のノードごとに,そのノード配下のショットに付与される順位を,局所的順位という。また,ショット構造化部14において,ショット群を順にグループ化する際に,後からグループ化されるものほど重要度が高いものとして,ショットの集合の重要度を定めることができる。この重要度の順序関係を大域的順位という。
代表選出数指定部16は,ショット構造化部14によって作られた木構造から何個の代表ショットまたは何枚の代表画像を選出するのかを,利用者からの入力または事前に設定されたパラメータ値などにより指定する。代表画像/代表ショット選出部17は,ショットの集合の重要度(大域的順位)とその部分集合に付与される順位(局所的順位)をもとに指定された枚数の代表画像または代表ショットを選出する。代表画像/代表ショット表示部18は,選出された代表画像(代表ショットの映像の場合もある。以下同様)を表示装置3に表示する。
代表画像/代表ショット表示部18が,代表画像(代表ショット)を表示装置3に表示するときに,指定によって動画における代表画像(代表ショット)を時系列にソートした上で順に表示するようにしてもよく,また大域的順位として定義された重要度でソートした上で順に表示するようにしてもよい。
また,類似度計算部13は,特徴量抽出部12で抽出された映像ショットがもつ特徴量だけでなく,2つのショットの時間的な差分を考慮に入れて類似度を算出するような実施も可能である。
代表画像/代表ショット選出部17が代表画像等を選出するときには,ショット構造化部14によって作られた木構造を表示装置3に表示し,このとき木構造においてどのショットまたはショット群がどのようにグループ化されているかを識別できるように色で視覚化して表示するようにしてもよい。また,利用者に表示させたい代表画像の枚数などを指定させるGUIによるユーザインタフェースを,代表画像/代表ショット選出部17に持たせることができる。
また,代表画像/代表ショット表示部18は,選出された代表画像または代表ショットを表示する際に,ショット構造化部14により作成された木構造を表示し,各代表画像または各代表ショットがどのショットのグループから選出されたかを木構造において色分けして表示するようにすれば,利用者にとって判りやすい表示になるので好適である。
次に,図2に示すフローチャートに従って,図1に示す映像構造化装置1の処理の流れを説明する。
〔ショット分割〕
まず,動画データ入力部10は,動画データ記憶手段2から構造化対象となる動画ファイルの動画を入力する(ステップS201)。ショット分割部11は,動画をショットに分割する(ステップS202)。このショットの分割は,例えば次のように行う。
まず,動画データ入力部10は,動画データ記憶手段2から構造化対象となる動画ファイルの動画を入力する(ステップS201)。ショット分割部11は,動画をショットに分割する(ステップS202)。このショットの分割は,例えば次のように行う。
あるi番目のフレーム画像と次のフレーム画像のピクセルごとの輝度値の差分の絶対値を求め,画像全体で足し合わせたものをSi とし,Si がある閾値を超えたときに,その時刻をショットの分割点とする。こうして映像は複数のショットに分割できる。他にもショットの分割方法は従来から種々の方法が知られており,他のショット分割方法を用いて本発明を実施してもよい。
〔ショットの特徴量抽出,類似度算出,局所的順位付与〕
ショット分割部11によって,映像がn個のショットに分割されたとし,解像度はw×hであるとする。特徴量抽出部12は,k番目のショットの中間にある一定区間のNフレームの画像から,
・ピクセル輝度値(brightness)ベクトル,
・複数の動き(motion)ベクトル,
などを取り出して,このショットの特徴量とする(ステップS203)。なお,以下では,brightness(輝度値)を添え字bを用いて表し,motion(動き)を添え字mを用いて表す。
ショット分割部11によって,映像がn個のショットに分割されたとし,解像度はw×hであるとする。特徴量抽出部12は,k番目のショットの中間にある一定区間のNフレームの画像から,
・ピクセル輝度値(brightness)ベクトル,
・複数の動き(motion)ベクトル,
などを取り出して,このショットの特徴量とする(ステップS203)。なお,以下では,brightness(輝度値)を添え字bを用いて表し,motion(動き)を添え字mを用いて表す。
各特徴量の具体的な取り出し方と,類似度(similarity)と局所的順位(local order )の算出方法を以下に記す。
〈輝度値の抽出〉
一般に,同じカメラから撮影された映像が交互に映される映像をよく見かける。その場合,輝度値を比較すれば容易に似ているショットを検出することができる。まずは輝度値を用いて類似度と局所的順位を定義する。
一般に,同じカメラから撮影された映像が交互に映される映像をよく見かける。その場合,輝度値を比較すれば容易に似ているショットを検出することができる。まずは輝度値を用いて類似度と局所的順位を定義する。
映像中のk番目のショットをsk とし,ショットsk の中にN個ある画像のうち,K番目(K=1,2,…,N)の画像の輝度値を並べたベクトルをvb k,K とする。これはショットsk の中にN個ある大きさw×hのベクトルである。
まずはベクトルに対応する画像をガウス関数でぼかす。
さらにその上でコサイン類似度
を用いて,
とすれば,輝度値ベクトルの類似度が定義できる。
この関数はショット同士ではなく画像同士の類似度(similarity)を測っており,そのような関数には上にhatをつけて区別している。しかし,成分がほとんど同じ値であるベクトルの場合,他のどのベクトルとも一定の類似度になってしまう。また,ベクトルの大きさが非常に小さいと,そもそも類似度が意味をなさなくなる。例えば,真白な画面と真黒な画面は区別されない。
そこで,ベクトルvの各成分の分布X(v)を改めてベクトルとみなして,その内積をコサイン類似度に乗じて,
とすることで,上記の問題の解決を図る。ここで,ベクトルvの各成分の分布X(v)とは,ベクトルvの各成分である輝度値の大きさがどのような分布になっているかを示すベクトルであり,例えば輝度値ごと,または輝度値の区分ごとのベクトルvにおける輝度値の出現頻度を成分とするベクトルである。
〈輝度値の類似度〉
以上で画像同士の類似度が定義されたので,ショット内のN個の画像の類似度を足し合わせたもの
以上で画像同士の類似度が定義されたので,ショット内のN個の画像の類似度を足し合わせたもの
をショット同士の類似度とすればよい。
類似度計算部13は,以上のような方法によりショットとショットの類似度を算出する(ステップS204)。
〈輝度値の局所的順位〉
以上の類似度の算出ではガウスフィルタを使っているため,ショット全体が元々ボケていたりしても区別はできないという問題が発生する。
そこで,局所的順位の付与では,輪郭を抽出するラプラシアン・フィルタ
以上の類似度の算出ではガウスフィルタを使っているため,ショット全体が元々ボケていたりしても区別はできないという問題が発生する。
そこで,局所的順位の付与では,輪郭を抽出するラプラシアン・フィルタ
を用いて順序関係を決める。こうすることで,輪郭のはっきりしたショットの順位を上げると同時に,全体的にボケているショットの全体における順位を相対的に下げることができる。
〈動きの抽出〉
動きの特徴量に対しては,特徴量抽出部12は,ショット内のN枚の画像から動きを推定して動きの特徴量を抽出し,類似度計算部13は,次に述べる類似度の定義に従って類似度を算出する。
動きの特徴量に対しては,特徴量抽出部12は,ショット内のN枚の画像から動きを推定して動きの特徴量を抽出し,類似度計算部13は,次に述べる類似度の定義に従って類似度を算出する。
ここでは,パンやチルトといった画面全体の動きと,画面内の一部分がそれぞれ別の動きをしているものを共に導入してもよい。例えば,画面を16分割してそれぞれの動きベクトルを推定する。その上で類似度の尺度として,全体の動きの類似を測る類似度Simm 1 と,全体的な動きを見て類似を測る類似度Simm 2 の2つを用意する。
まずは,画面を16分割し,分割された領域ごとの動きベクトルを推定し,vmp k (p=1,2,…,16)とする。推定の信頼度Conf(vmp k ) がある閾値を超えない場合には,vmp k =0とする。
動きベクトルの推定方法の例について説明する。ショットが大きさN×Mのn枚のフレームからなっているものとし,i番目のフレームの座標(x,y)の輝度値をFi x,y で表す。また,原点からx方向にdx,y方向にdyだけ動かしたフレームとの重なり部分をLap(dx,dy)とし,これを以下のように定義する。Max()は最大値を返す関数,Min()は最小値を返す関数である。
Lap(dx,dy)={(x,y)|fx <x<tx ,fy <y<ty }
fx =Max(dx,0)
tx =Min(N+dx,N)
fy =Max(dy,0)
ty =Min(M+dy,M)
ここで,
fx =Max(dx,0)
tx =Min(N+dx,N)
fy =Max(dy,0)
ty =Min(M+dy,M)
ここで,
を考え,−L<dx<L,−L<dy<Lの範囲で,ΔFi (dx,dy)を最小化するdx,dyを探し,dx* ,dy* とする。Lは,例えば
L=Max(N,M)/10
などとすればよい。動きベクトルvi は,
vi =(dx* ,dy* )
と推定できる。また,このΔFi (dx* ,dy* )が小さいほど,このベクトルの信頼性は高い。
L=Max(N,M)/10
などとすればよい。動きベクトルvi は,
vi =(dx* ,dy* )
と推定できる。また,このΔFi (dx* ,dy* )が小さいほど,このベクトルの信頼性は高い。
ショット内にあるn枚のフレームに対して,v1 ,v2 ,…,vn-1 を求め,その平均ベクトルAvr(vi ),
を推定された動きベクトルとする。また,共分散行列Σのトレースtr(Σ)は分散の大きさを表し,動きベクトルの分散が大きい場合にはショット全体の動きとしては信頼に足らない。よって,ショットの信頼度Confは,
とすればよい。Confが大きいほど,そのショットの動きベクトルの信頼性は高い。
分割された子画面に対して動きベクトルを推定する際には,画面の大きさN,Mを分割された子画面に対応したものにすれば,同様に推定することができる。
〈動きの類似度〉
さらに,それぞれのベクトルの直積をvm k とする。つまり,
vm k =(vm1 k ,vm2 k ,vm3 k ,…,vm16 k )
である。これを動きベクトルと呼ぶことにし,
類似度は内積
さらに,それぞれのベクトルの直積をvm k とする。つまり,
vm k =(vm1 k ,vm2 k ,vm3 k ,…,vm16 k )
である。これを動きベクトルと呼ぶことにし,
類似度は内積
で定義してやればよい。
映像が,パンやチルトなどの全体的な動きをしている場合や,画面中央で何かが動いている場合などには,この方法で類似ショットを検出することが可能である。しかし,全体的に散漫な動きを持つショット同士の類似度は,動きの乏しいショット同士の類似度とほとんど同じになってしまい,区別して検出することはできない。
そこで,ベクトルvm k の分布X(vm k )の類似度を内積で定義し,それを動きベクトルのもう一つの類似度として定義する。つまり,
とする。これによって全体的に動きはあるが一方向に向かっている訳ではないショットを,動きのないショットとは区別して類似していると見做すことができる。
〈動きの局所的順位〉
局所的順位は,Simm 1 に関してはベクトルの総和の大きさ
局所的順位は,Simm 1 に関してはベクトルの総和の大きさ
を用いる。Simm 2 に関しては各動きベクトルの信頼度Conf(vmp k ) を用いて,その総和
を用いることにする。
〈時間的な差分を考慮に入れた類似度〉
特徴量の類似性によって,後述するショットの結合処理を行うと,時間的な近さなどはまったく考慮されずに結合される。そこで,例えばショットsk ,sk'のそれぞれの中間の時刻tk ,tk'を用いて,新たな類似度
特徴量の類似性によって,後述するショットの結合処理を行うと,時間的な近さなどはまったく考慮されずに結合される。そこで,例えばショットsk ,sk'のそれぞれの中間の時刻tk ,tk'を用いて,新たな類似度
を算出し,これを類似度とすれば,時間的な差分も考慮した類似度を定義することができる。ここで,τは時間差が1分で類似度が半減するなどの定数とすればよい。
〔ショット構造化〕
ショット間の類似度の算出が終わると,ショット構造化部14は,ショットを構造化する(ステップS205)。ここで提案する方法は,構造として木構造を創出するもので,その葉はn個のショット{sk }k=1,2,..,nを要素とし,葉以外のノードは{pj }j=1,2,..,n-1で表し,pj は常に2つのノードを結合する。そのときに結合された2つのノードをpj の子と呼び,pj 自身を親と呼ぶことにする。なお,ここでは説明をわかりやすくするために,常に2つのノードを結合する例について説明するが,後述する閾値の下げ幅によって,3以上のノードの結合を許すような実施も可能である。
ショット間の類似度の算出が終わると,ショット構造化部14は,ショットを構造化する(ステップS205)。ここで提案する方法は,構造として木構造を創出するもので,その葉はn個のショット{sk }k=1,2,..,nを要素とし,葉以外のノードは{pj }j=1,2,..,n-1で表し,pj は常に2つのノードを結合する。そのときに結合された2つのノードをpj の子と呼び,pj 自身を親と呼ぶことにする。なお,ここでは説明をわかりやすくするために,常に2つのノードを結合する例について説明するが,後述する閾値の下げ幅によって,3以上のノードの結合を許すような実施も可能である。
pj は{sk }k=1,2,..,nと{pj'}j'=1,2,..,j'-1との和集合のうちの2つの要素を結合し,その2つは子として保持され,2つの子には関数Lによって順位付けがなされる。また,pj の子のうち順位の高い方をp-1 j , 低い方をp-2 j と表記し,さらにpj の親はp+ j と表記する。pj は,順位の高い子p-1 j の特徴量vb ,vm 等を保持すると共に,子およびその子孫すべての特徴量を平均した ̄vb , ̄vm ( ̄はvの上につく記号)等も保持する。
以上のようにすると,pj はsk と同様の特徴量を保持することになるので,sk に対して定義した類似度関数がそのまま適用できる。
順位付与部15は,以上述べた各ノードに順位を付与する処理を実行する(ステップS206)。
〈繰り返し処理による構造化〉
次に,十分大きな閾値を用意して閾値を少しずつ小さくし,例えばs1 とs2 との類似度Sim(s1 ,s2 )が閾値を超えれば,p1 はs1 とs2 を子として結合する。次の閾値がs3 とp1 の類似度を超えれば,p2 がs3 とp1 を子として結合する。こうして,{sk }k=1,2,..,nは,必ずそれらを葉とする1つの木構造に収束する。
次に,十分大きな閾値を用意して閾値を少しずつ小さくし,例えばs1 とs2 との類似度Sim(s1 ,s2 )が閾値を超えれば,p1 はs1 とs2 を子として結合する。次の閾値がs3 とp1 の類似度を超えれば,p2 がs3 とp1 を子として結合する。こうして,{sk }k=1,2,..,nは,必ずそれらを葉とする1つの木構造に収束する。
こうしてできる木構造に,局所的順位(local order )が入れば,映像は構造化される。この例であれば,
Loc(s1 )>Loc(s2 ),
Loc(p1 )<Loc(s3 ),……
などが決まれば構造は決定する。
Loc(s1 )>Loc(s2 ),
Loc(p1 )<Loc(s3 ),……
などが決まれば構造は決定する。
以上のように,類似度,結合,局所的順位の付与などのやり方が決まれば,構造化が可能となる。
図3(A)に,映像のショットs1 〜s10を構造化した例を示す。この例では,ショットs4 とs5 の類似度が一番大きく,これが最初にp1 として結合されている。次に類似度が大きいのはショットs9 とs10であり,p2 として結合されている。さらに次に類似度が大きいのは,ショットs8 とノードp2 であり,これらが結合されてノードp3 が生成されている。このように類似度が大きい順にショットまたはノードを結合していくと,最終的にp9 を頂点の根ノードとする木構造が生成されることになる。
以上の構造化の際の結合の閾値の決め方について説明する。前述したように,類似度は特徴量のベクトルの内積などで定義されており,ショットの組み合わせの中で最小値と最大値が存在する。1つの類似度を用いて構造化を行う場合には,結合の閾値を最大値から少しずつ下げる。下げ幅wd は,例えば,wd =(最大値−最小値)/(N×10)というように,類似度の最大値と最小値との差をN×10等分するなどして決めることができる。
複数の類似度を用いる場合,最大値で割ることにより,類似度の大きさの規格を合わせることができる。こうして1/(N×10)程度ずつ結合の閾値を1から下げていくようにすれば,複数の類似度に対応して構造化することが可能になる。
また,最大値ではなく,類似度を標準偏差で割り,平均を0に移動することで規格化することもできる。この場合,閾値の下げ幅は,同様に最大値と最小値との差をN×10等分するなどして決めることができる。
〔代表画像/代表ショット選出〕
次に,代表画像/代表ショット選出部17による代表画像(または代表ショット)の選出について説明する。
次に,代表画像/代表ショット選出部17による代表画像(または代表ショット)の選出について説明する。
複数の特徴量によって,例えば図3(A)のように映像が構造化されたとすると,その木構造上に横に線を引き,交差するエッジの下方にあるノードのショットまたはショット群を代表として選出する。選出したノードがショット群の場合,順位付与部15によってショットの局所的な順序が付けられているので,そのショット群の中で最も順位が上のショットを選べば,横に引いた線と交差するエッジの数だけ,代表ショットを選出することができる。
また,代表ショットから代表画像を選出する場合,例えばショットの先頭画像を代表画像としてもよい。また,ショット内のフレームFi のシャープさを表す指標として次のラプラシアン・フィルタ
を用いて,最もシャープな画像を代表画像としてショットの中から選出してもよい。また,動きベクトルで結合される場合には,動きの大きさ|vi |が最も大きなフレームを代表画像としてもよい。
図3(B)は,図3(A)のような映像の木構造から,任意の枚数の代表画像または任意の個数の代表ショットを選出する例を示している。図3(B)に示す木構造における縦軸は結合の閾値(類似度)で,上に行くほど小さくなる。類似度は数値が大きいほど似ていることになる。前述したように,類似度が大きいものから統合される。これを木構造で表現しているため,縦軸は上にいくほど類似度が小さくなる。
そこで,図3(B)に示すような選択バー30を木構造上で上下させると,任意の枚数の代表画像等を選出することが可能になる。例えば選択バー30がY1 の高さでは,ノードp9 に含まれるショットの中の局所的順位が最も高い代表画像(ショット)が1枚選択され,選択バー30がY2 の高さでは,ノードp6 とp4 とs7 とp3 の各々に含まれるショットの中の局所的順位が最も高い代表画像(ショット)が4枚選択され,また,Y3 の高さでは,s1 ,s2 ,s3 ,p1 ,s6 ,s7 ,s8 ,p2 の各々に含まれるショットの中の局所的順位が最も高い代表画像(ショット)が8枚選択されることになる。
代表画像/代表ショット選出部17は,ユーザインタフェースとして,利用者に入力装置4から直接代表画像としての表示枚数を入力させてもよいし,また図3(B)のように選択バー30を上下させるようなGUIを提供してもよい。
代表画像/代表ショット選出部17は,数値入力または選択バー30のようなGUIによって表示枚数を入力すると(ステップS207),図3(B)等で説明した方法によって入力枚数分だけ代表画像を選出する(ステップS208)。代表画像/代表ショット表示部18は,選出された代表画像を表示装置3に表示する(ステップS209)。以上の表示枚数の入力,代表画像の選出・表示の処理を終了の指示があるまで繰り返し,終了の指示があれば処理を終了する(ステップS210)。
ここでは,利用者が入力装置4のユーザインタフェースから表示枚数を入力する例を説明したが,アプリケーションプログラムが表示枚数を指定し,そのアプリケーションプログラムに,選出した代表画像を引き渡すようなアプリケーションインタフェースの構築も可能である。
図4は,映像を構造化した図と代表画像の表示例を示している。図4において,40は表示装置3の表示画面,41は表示画面40における代表画像表示領域,42は重要度順ボタン,43は時系列順ボタン,44はスライダー,45a〜45jは代表画像(または代表ショット)を表している。
例えば図3(A)に示すようなショットの木構造は,図4の表示画面40のように表示され,これに対して利用者が選択バー30を上下させるためのスライダー44のユーザインタフェースが提供されている。利用者はスライダー44をマウス等の入力装置4で上下させることにより,任意枚数の代表画像(または代表ショット)を表示させることができる。
選択バー30が図4(A)の位置では,木構造のエッジと選択バー30とがa,b,cの3箇所で交差しており,このa,b,cの先のノードに属するそれぞれのショット群の中で局所的順位の最も高いショットの代表画像が選出されて,代表画像表示領域41に,代表画像45a,45b,45cとして表示される。
ここで,利用者がマウス・クリックなどにより重要度順ボタン42を押すと,代表画像45a,45b,45cは重要度順にソートされて表示され,時系列順ボタン42を押すと,代表画像45a,45b,45cは時系列順にソートされて表示される。
また,映像の木構造から代表画像45a,45b,45cのように複数の代表画像が選ばれた際,それぞれの画像の下にどのような構造があるのかを判りやすくするために,代表画像45aに対してはaの下の構造,代表画像45bに対してはbの下の構造,代表画像45cに対してはcの下の構造というように,グループ化されているショット群を色分けして表示する。これによって,代表画像45a,45b,45cがそれぞれどこのショット群を代表しているのかを判りやすく表示することできる。
同様に,選択バー30が図4(B)の位置では,木構造のエッジと選択バー30とがd〜jの7箇所で交差しており,このd〜jの先のノードに属するそれぞれのショット群の中で局所的順位の最も高いショットの代表画像が選出されて,代表画像表示領域41に,代表画像45d〜45jとして表示される。これから明らかなように選択バー30を下に移動させるほど代表画像の選択枚数は多くなる。
利用者が選択枚数を数値入力した場合には,代表画像/代表ショット選出部17は同様に選択バー30に相当する類似度の閾値を変化させることにより,木構造から指定された枚数の代表画像を選出することができる。
以上の例から明らかなように,木構造における各ノードは高さが異なり,各ノードに連結されたエッジ(枝)も順位付けされているので,任意の枚数の代表画像またはショットが選出できる。また,複数の特徴量でショットをまとめ,順位付けをしているので,多様な特徴量を持った画像またはショットが選出される。
図5は,映像の他の構造化例を示している。この図5の例では,複数の類似度の尺度(例えば動きの類似と輝度値の類似)で閾値を超えるショットがあるような場合を考慮した統合の例を示している。このようなショットの構造化では,ショットs1 とs8 のように,異なる類似度の尺度で統合が行われるため,複数箇所に統合されることもある。
例えば,動きの類似というような特定の類似度の尺度において,そもそもある閾値以上の場合にしか類似判定を行わないとしてもよい。そうすると,動きのほとんどないショットは,動きの類似性で他と結合されることがないということになる。逆に,複数の類似度の尺度で閾値を超えるショットがある場合(動きもあるし輝度値も十分であるショット)には,ショットs1 とs8 のように複数箇所に結合されることもあり得る。
図5の木構造でも,図3等で説明した場合と同様に,選択バー30を上下にスライドさせることにより,任意枚数の代表画像(ショット)の選出が可能である。選択バー30がY1 の位置では1枚の代表画像,Y2 の位置では4枚の代表画像,Y3 の位置では8枚の代表画像が選出される。
また,木構造の表示においては,構造のグループ化された部分がどこなのかを色で視覚化して表示することにより,利用者に類似するショット群を容易に把握させることができる。図5の例では,エッジを太線,細線,点線,一点鎖線で示しているが,これらを色分けして表示してもよく,これにより,ショットのグループ化の様子が一目で把握しやすくなる。
以上のように本発明の実施形態によれば,ショット群の構造化によって大域的な順序関係と局所的な順序関係が定まる。すなわち,ショット群が構造化されると,結合の閾値(または結合した順序)に応じて上下に順序ができる。これが大域的順位であり上にいくほど重要度が大きい。また,各ノードには結合された複数のショットに対して局所的な順位が付与されており,それによってそのノードに接続されるショット群の代表ショットもしくは代表ショットから選ばれた代表画像が決まる。こうすることによって,任意の枚数のできるだけ類似性の低いショットおよび代表画像を選出することができることになる。
以上の映像の構造化の処理は,コンピュータとソフトウェアプログラムとによって実現することができ,そのプログラムをコンピュータ読み取り可能な記録媒体に記録することも,ネットワークを通して提供することも可能である。
1 映像構造化装置
2 動画データ記憶手段
3 表示装置
4 入力装置
10 動画データ入力部
11 ショット分割部
12 特徴量抽出部
13 類似度計算部
14 ショット構造化部
15 順位付与部
16 代表選出数指定部
17 代表画像/代表ショット選出部
18 代表画像/代表ショット表示部
2 動画データ記憶手段
3 表示装置
4 入力装置
10 動画データ入力部
11 ショット分割部
12 特徴量抽出部
13 類似度計算部
14 ショット構造化部
15 順位付与部
16 代表選出数指定部
17 代表画像/代表ショット選出部
18 代表画像/代表ショット表示部
Claims (8)
- 構造化対象の動画を記憶する動画データ記憶手段と,
前記動画データ記憶手段に記憶された動画をショットごとに分割するショット分割手段と,
前記ショットごとに複数の特徴量を抽出する特徴量抽出手段と,
前記抽出された特徴量ごとに,ショット同士の類似度を算出する類似度計算手段と,
前記類似度計算手段が算出した類似度をもとに,複数のショットを類似度の大きいものから順にグループ化して,ショットを葉,ショット群をノードとする木構造を作り出すショット構造化手段と,
前記各ノードのショット群ごとに,各ショットがもつ特徴量をもとにショット同士の順位を付与する順位付与手段と,
前記木構造の作成時におけるグループ化の順序関係と前記順位付与手段により付与されたショット同士の順位とをもとに,指定された数の代表ショットまたは代表ショットを代表する代表画像を選出する代表画像/代表ショット選出手段と,
前記選出された代表ショットの映像または代表画像を表示する代表画像/代表ショット表示手段とを備える
ことを特徴とする映像構造化装置。 - 請求項1記載の映像構造化装置において,
前記代表画像/代表ショット選出手段は,前記ショット構造化手段による前記木構造の作成時におけるグループ化の順序が遅いものほどショット群の重要度が高いものとし,指定された重要度に応じて定まる数のノードを前記木構造から選出し,選出されたノードに対応するショット群から前記順位付与手段により付与されたショット同士の順位の高いショットを代表ショットとして選出または前記順位の高いショットを代表する代表画像を選出する
ことを特徴とする映像構造化装置。 - 請求項1または請求項2記載の映像構造化装置において,
前記ショット構造化手段により作成された木構造を表示し,木構造の表示では各ノードの位置の高さを前記ショットのグループ化の順序に応じて変え,前記木構造の表示を横切る線を上下させるユーザインタフェースによって前記線の高さを利用者に指定させ,指定された高さの線と前記木構造の表示におけるエッジとの交差する数により,代表画像または代表ショットを選出する数を指定する代表選出数指定手段を備える
ことを特徴とする映像構造化装置。 - 請求項1,請求項2または請求項3記載の映像構造化装置において,
前記代表画像/代表ショット表示手段は,前記選出された代表ショットの映像または代表画像を,時系列順または前記グループ化の順序に従ってソートし,ソート結果の順番で表示する
ことを特徴とする映像構造化装置。 - 請求項1から請求項4までのいずれか1項に記載の映像構造化装置において,
前記類似度算出手段は,前記特徴量抽出手段で抽出されたショットの特徴量に加え,類似度算出対象となる2つのショットの時間的な差分をもとに類似度を算出する
ことを特徴とする映像構造化装置。 - 請求項1から請求項5までのいずれか1項に記載の映像構造化装置において,
前記代表画像/代表ショット表示手段は,選出された代表画像または代表ショットの表示とともに,前記ショット構造化手段により作成された木構造を表示し,各代表画像または各代表ショットがどのショット群から選出されたかを前記木構造において色分けして表示する
ことを特徴とする映像構造化装置。 - 構造化対象の動画を記憶する動画データ記憶手段を備える映像構造化装置が実行する映像構造化方法であって,
前記動画データ記憶手段に記憶された動画をショットごとに分割するショット分割過程と,
前記ショットごとに複数の特徴量を抽出する特徴量抽出過程と,
前記抽出された特徴量ごとに,ショット同士の類似度を算出する類似度計算過程と,
前記類似度計算過程で算出した類似度をもとに,複数のショットを類似度の大きいものから順にグループ化して,ショットを葉,ショット群をノードとする木構造を作り出すショット構造化過程と,
前記各ノードのショット群ごとに,各ショットがもつ特徴量をもとにショット同士の順位を付与する順位付与過程と,
前記木構造の作成時におけるグループ化の順序関係と前記順位付与過程で付与されたショット同士の順位とをもとに,指定された数の代表ショットまたは代表ショットを代表する代表画像を選出する代表画像/代表ショット選出過程と,
前記選出された代表ショットの映像または代表画像を表示する代表画像/代表ショット表示過程とを有する
ことを特徴とする映像構造化方法。 - コンピュータを,請求項1から請求項6までのいずれか1項に記載の映像構造化装置が備える手段として機能させるための映像構造化プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009094573A JP2010245983A (ja) | 2009-04-09 | 2009-04-09 | 映像構造化装置,映像構造化方法および映像構造化プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009094573A JP2010245983A (ja) | 2009-04-09 | 2009-04-09 | 映像構造化装置,映像構造化方法および映像構造化プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010245983A true JP2010245983A (ja) | 2010-10-28 |
Family
ID=43098485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009094573A Pending JP2010245983A (ja) | 2009-04-09 | 2009-04-09 | 映像構造化装置,映像構造化方法および映像構造化プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010245983A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012185791A (ja) * | 2011-03-03 | 2012-09-27 | Jun Hatta | ソート処理の高速化したプログラム |
JP2013152543A (ja) * | 2012-01-24 | 2013-08-08 | Fujitsu Ltd | 画像蓄積プログラム、方法および装置 |
JP2014179888A (ja) * | 2013-03-15 | 2014-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 映像要約装置、映像要約方法及び映像要約プログラム |
WO2016059787A1 (ja) * | 2014-10-14 | 2016-04-21 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、記録媒体 |
JP2016140029A (ja) * | 2015-01-29 | 2016-08-04 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
JP7026984B1 (ja) | 2021-10-11 | 2022-03-01 | Mil株式会社 | 視聴分析装置 |
-
2009
- 2009-04-09 JP JP2009094573A patent/JP2010245983A/ja active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012185791A (ja) * | 2011-03-03 | 2012-09-27 | Jun Hatta | ソート処理の高速化したプログラム |
JP2013152543A (ja) * | 2012-01-24 | 2013-08-08 | Fujitsu Ltd | 画像蓄積プログラム、方法および装置 |
US9224069B2 (en) | 2012-01-24 | 2015-12-29 | Fujitsu Limited | Program, method and apparatus for accumulating images that have associated text information |
JP2014179888A (ja) * | 2013-03-15 | 2014-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 映像要約装置、映像要約方法及び映像要約プログラム |
WO2016059787A1 (ja) * | 2014-10-14 | 2016-04-21 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、記録媒体 |
JPWO2016059787A1 (ja) * | 2014-10-14 | 2017-07-27 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、記録媒体 |
US10482075B2 (en) | 2014-10-14 | 2019-11-19 | Nec Corporation | Information processing device, information processing method, and recording medium |
JP2016140029A (ja) * | 2015-01-29 | 2016-08-04 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
US9774758B2 (en) | 2015-01-29 | 2017-09-26 | Kyocera Document Solutions Inc. | Image processing apparatus that extracts image showing distinctive content of moving image |
JP7026984B1 (ja) | 2021-10-11 | 2022-03-01 | Mil株式会社 | 視聴分析装置 |
JP2023057234A (ja) * | 2021-10-11 | 2023-04-21 | Mil株式会社 | 視聴分析装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7916894B1 (en) | Summary of a video using faces | |
JP4916548B2 (ja) | 画像のドミナントライン(dominantline)の確定及び使用 | |
JP4899729B2 (ja) | 3次元マルチカメラビデオ監視支援システム、3次元マルチカメラビデオ監視支援方法、3次元マルチカメラビデオ監視支援プログラム | |
US7760956B2 (en) | System and method for producing a page using frames of a video stream | |
Schmidt et al. | VAICo: Visual analysis for image comparison | |
JP2007080262A (ja) | 3次元マルチカメラビデオナビゲーション支援システム、3次元マルチカメラビデオナビゲーション支援方法、3次元マルチカメラビデオナビゲーション支援プログラム | |
US10289884B2 (en) | Image analyzer, image analysis method, computer program product, and image analysis system | |
JP2010245983A (ja) | 映像構造化装置,映像構造化方法および映像構造化プログラム | |
JP2019057836A (ja) | 映像処理装置、映像処理方法、コンピュータプログラム、及び記憶媒体 | |
JP2007109136A (ja) | 画像表示制御装置 | |
JP5180922B2 (ja) | 画像検索システム及び画像検索方法 | |
JP2018045693A (ja) | 動画像背景除去方法及び動画像背景除去システム | |
JP2011019192A (ja) | 画像表示装置 | |
KR102102164B1 (ko) | 영상 전처리 방법, 장치 및 컴퓨터 프로그램 | |
US20130301938A1 (en) | Human photo search system | |
CN108140401B (zh) | 访问视频片段 | |
JP6171651B2 (ja) | 画像処理プログラム及び画像処理装置 | |
CN111527495B (zh) | 用于应用视频观看行为的方法和装置 | |
JP2006217045A (ja) | インデックス画像生成装置及びインデックス画像を生成するプログラム | |
JP2006217046A (ja) | 映像インデックス画像生成装置及び映像のインデックス画像を生成するプログラム | |
JP5776471B2 (ja) | 画像表示システム | |
Kurzhals et al. | AOI transition trees. | |
WO2012153744A1 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
JP4369308B2 (ja) | 代表画像選択装置,代表画像選択方法および代表画像選択プログラム | |
WO2012153868A1 (ja) | 情報処理装置、情報処理方法および情報処理プログラム |