JP4838272B2 - 映像インデキシング装置,映像インデキシング方法,映像インデキシングプログラムおよびその記録媒体 - Google Patents

映像インデキシング装置,映像インデキシング方法,映像インデキシングプログラムおよびその記録媒体 Download PDF

Info

Publication number
JP4838272B2
JP4838272B2 JP2008019319A JP2008019319A JP4838272B2 JP 4838272 B2 JP4838272 B2 JP 4838272B2 JP 2008019319 A JP2008019319 A JP 2008019319A JP 2008019319 A JP2008019319 A JP 2008019319A JP 4838272 B2 JP4838272 B2 JP 4838272B2
Authority
JP
Japan
Prior art keywords
image
video
label
definition
identification function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008019319A
Other languages
English (en)
Other versions
JP2009181306A (ja
Inventor
聡 嶌田
泳青 孫
行信 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008019319A priority Critical patent/JP4838272B2/ja
Publication of JP2009181306A publication Critical patent/JP2009181306A/ja
Application granted granted Critical
Publication of JP4838272B2 publication Critical patent/JP4838272B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は,映像の中の見たいシーンに効率よくアクセスするための検索や閲覧に必要となるインデックスを自動付与する映像インデキシングの技術に関する。
予め定義しておいたラベルと画像内容との関係に基づいて,映像の中で定義ラベルに該当するシーンが出現したときに,そのシーンに定義ラベルを付与する映像インデキシング装置の従来技術として,大量の辞書データを事前に収集し,学習させることで,高精度にインデキシングするものがある。例えば「人物顔」のように普遍的な定義ラベルであれば,事前に大量の辞書画像を収集することができる。辞書データで学習した人物顔画像の辞書を用意しておき,インデキシングの対象映像の各フレーム画像と辞書との類似度から顔画像が含まれると判定されたときに,「人物顔」の定義ラベルを付与すればよい(非特許文献1参照)。
また,利用者がサンプル画像を指定することで意味ラベルを定義した場合には,テンプレートマッチングなどの手法によりサンプル画像と類似したシーンを検出し(非特許文献2参照),検出したシーンに意味ラベルを付与すればよい。
高塚皓正,田中正行,奥富正敏,「顔らしさの評価値分布を利用した顔検出の提案」,情報処理学会論文誌,Vol.48,No.SIG16,pp.51-54,2007. 高木幹雄,下田陽久 監修「新編 画像解析ハンドブック」,pp.1669-1675,2004,東京大学出版会.
従来の大量の辞書データを用いる技術は,辞書データの収集に多大のコストと時間がかかることが問題であり,さらに定義ラベルと画像内容との関係が変動する場合に適用できないことが問題である。すなわち,利用者の検索要求が生じるたびに,その定義ラベルを表す画像を大量に収集する必要がある。また,最近話題になったオブジェクトやイベントを表したシーンや,放送映像などで撮影方法などが変更になったりした場合には,定義ラベルと画像内容との関係が変動するので,そのたびに改めて大量の辞書データを収集して学習しなおす必要がある。このように,学習にコストと時間がかかるため,適用領域が限定されるという問題があった。
従来のテンプレートマッチングを用いる技術では,定義ラベルを付与するかを判別するための類似度のしきい値の最適解を求めることが困難である。また,少数のテンプレートでは定義ラベルを表現することが困難な場合には,インデキシングの精度が低いことが問題であった。
本発明は,上記問題点の解決を図り,辞書データの収集に負荷をかけることなく,意味ラベル等のラベルを付与するかを判別するための類似度のしきい値が最適値でなくても高精度にインデキシングできる装置を提供することを目的とする。
本発明の原理構成図を図1に示す。本発明の映像インデキシング装置は,図1に示すような手段を備える。
基準画像選定手段1は,与えられた辞書用映像の中から,定義ラベルを表す基準画像を選定する手段である。辞書データ収集手段2は,辞書用映像の中から基準画像と類似する画像を検出する手段である。正事例・負事例選定手段3は,収集した類似画像の中で定義ラベルを表す画像として正しい画像を正事例画像,正しくない画像を類似している順に負事例画像としてそれぞれ選定する手段である。
1クラス識別関数算出手段4は,正事例画像から定義ラベルを表す画像であるか否かを判別するための1クラス識別関数を算出する手段である。2クラス識別関数算出手段5は,正事例画像と負事例画像とから両者を識別するための2クラス識別関数を算出する手段である。辞書記憶手段6は,1クラス識別関数算出手段4が算出した1クラス識別関数および2クラス識別関数算出手段5が算出した2クラス識別関数を,定義ラベルとともに蓄積し記憶しておく手段である。
ラベル付与候補検出手段7は,インデキシング対象映像が与えられたときに,当該映像から選択したフレーム画像について,1クラス識別関数算出手段4で求めた1クラス識別関数を用いて定義ラベルを付与する候補となるフレーム画像を求める手段である。インデキシング手段8は,ラベル付与候補検出手段7が求めた候補のフレーム画像について,2クラス識別関数算出手段5で求めた2クラス識別関数を用いて定義ラベルを付与すべき画像であるか否かを判定する手段である。
本発明は,正事例画像を抽出する1クラス識別関数により,正事例画像に似た対象を抽出した後,正事例画像と負事例画像とを区別する2クラス識別関数を用いた負事例画像の排除を実施することにより,定義ラベルを付与すべき画像であるか否かを適切に判定することができる。
1クラス識別関数算出手段4および2クラス識別関数算出手段5での特徴量として,フレーム画像の映像における出現時刻(メディア時刻)と画像特徴量を用いることができる。
また,本発明は,上記の手段に加え,複数の定義ラベルが出現する順序関係や時間間隔でイベントをルール化し,検出すべきイベントのルールとラベルとを設定するイベント設定手段と,インデキシング手段8で付与された定義ラベルの順序関係や時間間隔と,イベント設定手段で設定されているルールとの類似度に基づいてイベントラベルを付与するイベントラベル付与手段とを設けることもできる。
また,上記本発明において,1クラス識別関数算出手段4は,1クラス識別関数を辞書データ収集手段2における類似度の基準に基づいて算出することができる。例えば,1クラス識別関数算出手段4での正事例画像から定義ラベルを表す画像であるか否かを判別するための特徴量として,辞書データ収集手段2における画像の類似度の基準とした特徴量を用いることができる。
本発明によれば,1クラス識別関数による判定と2クラス識別関数による判定の2段階の判定手段により判定することで精度よくインデキシングを行うことができる。また,1クラス識別関数算出手段のしきい値を調整するための手間をなくすことができる。
また,本発明は,定義ラベルが出現する順序関係や時間間隔と事前に設定したルールとを比較することでイベントラベルを付与するイベントラベル付与手段を設けることにより,さらに精度よく所望の映像区間にインデキシングが行えるようになる。
さらに,本発明は,基準画像を選定する手段,辞書データ収集手段,正事例画像と負事例画像の選定手段を設けることにより,辞書データを簡単に効率よく集めることができる。
以下,図面を用いて,本発明の実施の形態を説明する。本発明に係る映像インデキシング装置は,大きく分けて,辞書を生成する辞書生成部とインデキシング対象映像にラベルを付与するインデキシング部とから構成される。
図2は,本発明の第1の実施例における映像インデキシング装置の辞書生成部の構成,図3は,本発明の第1の実施例における映像インデキシング装置のインデキシング部の構成をそれぞれ説明するための図である。
図2の辞書生成部は,辞書用映像蓄積部11,基準画像選定処理部12,画像特徴抽出部13,辞書データ収集処理部14,正事例・負事例選定処理部15,特徴量抽出部16,1クラス識別関数算出部17,2クラス識別関数算出部18,定義ラベル辞書記憶部19で構成される。
図3のインデキシング部は,インデキシング映像取得部20,フレーム画像取得部21,特徴量抽出部16,定義ラベル辞書記憶部19,1クラス識別関数による候補検出部22,2クラス識別関数によるインデキシング部23で構成される。
辞書用映像蓄積部11は,事前に取得しておいた辞書用の映像を蓄積・管理しておき,基準画像選定処理部12からの要求に応じて辞書用映像を基準画像選定処理部12に出力する。
基準画像選定処理部12は,定義ラベルが入力されると,辞書用映像蓄積部11に読み取り要求を出して辞書用映像蓄積部11から受けとった辞書用映像の中から,定義ラベルを表す典型的なフレーム画像を選定する。選定した画像を基準画像として,辞書用映像とともに画像特徴抽出部13に出力する。基準画像の選定方法として,例えば,辞書映像のシーンが大きく変わるところを区切りとするショット分割を行い,各ショットの先頭画像を一覧表示し,その中から基準画像をマウスなどで指定させるインタフェースを実装する方法を用いることができるが,この方法に限らず,基準画像の選定は,種々の方法により容易に実施することができる。
画像特徴抽出部13は,基準画像選定処理部12から受け取った基準画像および辞書用映像の各フレーム画像から,色やテクスチャーなどに関する画像特徴量を抽出し,抽出した特徴空間での各フレーム画像を特徴ベクトルで表し,特徴ベクトルを辞書データ収集処理部14に出力する。
辞書データ収集処理部14は,画像特徴抽出部13から各画像の特徴ベクトルを受け取ると,その基準画像と類似した画像を辞書用映像の中から収集し,収集した画像群を正事例・負事例選定処理部15に出力する。
正事例・負事例選定処理部15は,辞書データ収集処理部14から受け取った画像群から,定義ラベルの画像内容を表している正事例画像と,表していない負事例画像を所定の数だけ選定し,正事例画像と負事例画像を特徴量抽出部16に出力する。
特徴量抽出部16は,正事例・負事例選定処理部15から受け取った正事例画像または負事例画像の色やテクスチャーに関する画像特徴をもとに,識別関数を算出するための特徴量を抽出し,抽出した特徴空間での各画像を特徴ベクトルで表し,正事例画像の特徴ベクトルを1クラス識別関数算出部17へ,正事例画像と負事例画像の特徴ベクトルを2クラス識別関数算出部18へそれぞれ出力する。特徴量の具体例として,画像特徴抽出部13で抽出した画像特徴に画像の映像での出現時刻を特徴量として追加する方法や,正事例画像と負事例画像の全画像を対象として,画像特徴抽出部13で抽出した画像特徴を用いて主成分分析を行い,次元圧縮したものを特徴量とする方法などが有効である。
また,特徴量抽出部16は,図3に示すフレーム画像取得部21から画像を受け取った場合には,同様の特徴抽出を行い,抽出した特徴ベクトルを1クラス識別関数による候補検出部22に出力する。
1クラス識別関数算出部17は,特徴量抽出部16から受け取った正事例画像の特徴ベクトルから,特徴空間において,定義ラベルを表す画像であるか否かを判別するための1クラス識別関数を算出し,算出した1クラス識別関数を定義ラベル辞書記憶部19に出力する。
1クラス識別関数として,例えば,特徴空間における正事例画像の平均ベクトルを中心とする球面の中に正事例画像が全て含まれるような球面を識別関数とする方法や,特徴空間での正事例画像の分布を複数のガウシアン分布でモデル化した混合ガウシアンモデルで正事例であることの確率分布を表し,この確率分布に基づいて正事例画像であることの確率が予め設定したしきい値以上であれば正事例と判定することを識別関数とする方法などを用いればよい。このときのしきい値の設定を,例えば60%と低く設定しておけば,1クラス識別関数による検出漏れが少なくなる。もちろん誤検出が増えることになるが,これは,2クラス識別関数算出部18の処理により除外できるので問題ない。このように,1クラス識別関数のしきい値を最適値にする必要がないので,しきい値の調整にコストをかけることなく精度よくインデキシングを行うことができる。
2クラス識別関数算出部18は,特徴量抽出部16から受け取った正事例画像と負事例画像の特徴ベクトルから,特徴空間において,定義ラベルを表す画像と表さない画像とを判別するための2クラス識別関数を算出し,算出した2クラス識別関数を定義ラベル辞書記憶部19に出力する。2クラス識別関数として,例えば,フィッシャーの判別関数やSVM(Support Vector Machine)などを用いればよい。
定義ラベル辞書記憶部19は,1クラス識別関数算出部17から受け取った1クラス識別関数と,2クラス識別関数算出部18から受け取った2クラス識別関数を,定義ラベルとともに蓄積しておき,図3に示す1クラス識別関数による候補検出部22,および2クラス識別関数によるインデキシング部23からの要求に応じて,1クラス識別関数または2クラス識別関数を出力する。
次に,図3のインデキシング映像取得部20は,インデキシングの対象となる映像を取得し,取得した映像をフレーム画像取得部21へ出力する。
フレーム画像取得部21は,インデキシング映像取得部20から受け取ったインデキシングの対象映像から一定間隔でサンプリングすることによりフレーム画像を取得し,取得したフレーム画像を特徴量抽出部16へ出力する。
1クラス識別関数による候補検出部22は,特徴量抽出部16から各フレーム画像の特徴ベクトルを受け取ると,定義ラベルと1クラス識別関数の要求信号を定義ラベル辞書記憶部19に出力し,定義ラベル辞書記憶部19から定義ラベルと1クラス識別関数を受け取る。受け取った1クラス識別関数を用いて,各フレーム画像が定義ラベルを表す画像であるか否かを判定し,定義ラベルを表す画像であると判定された画像を候補画像とし,候補画像の特徴ベクトルを2クラス識別関数によるインデキシング部23に出力する。
2クラス識別関数によるインデキシング部23は,1クラス識別関数による候補検出部22から候補画像の特徴ベクトルを受け取ると,定義ラベルと2クラス識別関数の要求信号を定義ラベル辞書記憶部19に出力し,定義ラベル辞書記憶部19から定義ラベルと2クラス識別関数を受け取る。2クラス識別関数によるインデキシング部23は,受け取った2クラス識別関数を用いて,候補画像の中で定義ラベルを表す画像を決定し,映像の中で定義ラベルが出現した画像であることを示す情報をインデキシング結果として出力する。
次に,上記の構成における処理手順について,図4に示す辞書用映像の例を用いて説明する。辞書用映像をVd,定義ラベルの基準画像をFdとする。図4において,区間1,2,3は,定義ラベルを表す画像が出現する区間である。
図5は,本発明の第1の実施例における辞書生成部の処理を示すフローチャートである。
[ステップS501]
基準画像選定処理部12において,基準画像と辞書用映像蓄積部11で管理されている辞書用映像の各フレーム画像を読み込む。基準画像として図4に示すFdが選定されたとする。
次に,画像特徴抽出部13において,ステップS502,S503,S504,S505の手順で画像特徴量を抽出する。以下では,色特徴量としてカラーモーメント,テクスチャー特徴量として濃度勾配ヒストグラムを用いる場合を例に説明する。
[ステップS502]
各フレーム画像はRGBの3原色で表現されているので,これをLab色空間に変換する。
[ステップS503]
画像をM×N個のブロックに分割する。図6に分割例を示す。図6の例では,フレーム画像を4×4=16個のブロック領域に分割している。
[ステップS504]
各ブロックに属する画素の色情報からカラーモーメントを算出する。Lab色空間の各成分L,a,bについて,ブロック内の全画素に対する1次,2次,3次のモーメントをそれぞれ算出する。各ブロックから9次元のカラーモーメントが得られるので,各フレーム画像からの色特徴は,この例ではM×N×9次元の特徴ベクトルで表されることになる。
[ステップS505]
Lab色空間のL成分のみを対象としてテクスチャー特徴である濃度勾配ヒストグラムを算出する。
まず,L成分を表す画像の各画素について,エッジ方向とエッジ強度を求める。画素(x,y)のL成分の値をL(x,y)とすると,エッジ方向とエッジ強度は次式で求められる。
エッジ強度:sqrt(ΔX*ΔX+ΔY*ΔY)
エッジ方向:arctan(ΔY/ΔX)
ここで,
ΔX=L(x+1,y)−L(x,y)
ΔY=L(x,y+1)−L(x,y)
次に,ブロック内の各画素について,エッジ強度で重み付けしたエッジ方向の頻度分布を算出する。エッジ方向について,例えば0度〜180度を20度間隔に9分割して,頻度を集計すると,各ブロックの濃度勾配ヒストグラムは9次元となる。この場合,各フレーム画像からのテクスチャー特徴は,M×N×9次元の特徴ベクトルで表される。
次に,辞書データ収集処理部14において,ステップS506,S507により辞書データを収集する。
[ステップS506]
辞書用映像Vdの各フレーム画像Fi(i=1,2,... ,I)と基準画像Fdとの距離r(i)を算出する。
基準画像Fdと各フレーム画像Fiとから求めたM×N×9次元の色特徴ベクトル間のユークリッド距離をr_col,基準画像Fdと各フレーム画像Fiとから求めたM×N×9次元のテクスチャー特徴ベクトル間のユークリッド距離をr_texとすると,それらの重み和としてr(i)を次式で求める。
r(i)=w1・r_col+w2・r_tex
ここで,w1,w2は事前に設定した定数である。
[ステップS507]
辞書用映像の各フレーム画像と基準画像に対して,ステップS506で求めた距離r(i)から,基準画像と類似したフレーム画像を収集する。予め設定した閾値TH_rを用いて,
r(i)<TH_r
となるフレーム画像Fiを収集すればよい。図4の場合には,定義ラベルを表すフレーム画像が出現する区間が3個,定義ラベルを表していないが基準画像と類似している区間が1個あるので,合計4個の区間内のフレーム画像が辞書データとして収集されることになる。
次に,正事例・負事例選定処理部15において,ステップS508,S509,S510により正事例と負事例を選定する。
[ステップS508]
収集した画像を基準画像との距離r(i)が小さい順位にソートする。
[ステップS509]
正事例画像をチェックする画面を提示する。図7に,正事例画像をチェックするGUI(Graphical User Interface)の例を示す。例えば図7に示すように,ディスプレイに画像を一覧表示し,正事例画像とみなす画像をマウスでクリックさせるGUIを提供すればよい。
[ステップS510]
図7に示すようなGUIにより,正事例画像としてチェックされた画像を正事例画像とし,正事例画像としてチェックされなかった画像の中から,基準画像との距離r(i)が小さい順に正事例画像と同数だけ,負事例画像として選定する。
[ステップS511]
特徴量抽出部16において,正事例画像と負事例画像から特徴ベクトルを算出する。特徴ベクトルの例として,ステップS502,S503,S504,S505の手順と同様の方法で,M×N×9次元の色特徴ベクトルとM×N×9次元のテクスチャ特徴ベクトルの画像特徴量を抽出し,画像特徴量だけを特徴ベクトルとして用いる方法や,選定された正事例画像と負事例画像が属していた辞書用映像Vdにおける出現時刻(メディア時刻)を画像特徴量に加える方法などが有効である。
[ステップS512]
1クラス識別関数算出部17において,正事例画像を識別するための1クラス識別関数を算出する。1クラス識別関数の算出で用いる特徴量として,辞書データ収集処理部14が辞書データを収集するときに用いた画像の類似度の基準とした特徴量を用いることができる。例えば1クラス識別関数として,特徴空間における正事例画像の確率分布または正事例画像の平均特徴ベクトルからの距離により,処理対象画像が定義ラベルを表す画像であるか否かを識別する関数を用いることができる。
[ステップS513]
2クラス識別関数算出部18において,正事例画像と負事例画像とから両者を識別する2クラス識別関数を算出する。
[ステップS514]
定義ラベルの1クラス識別関数と2クラス識別関数を定義ラベル辞書記憶部19に保存する。
以上の処理により,定義ラベルに対する辞書が生成できる。
次に,インデキシング対象映像の各フレームに対して定義ラベルを付与するかどうかを判定するインデキシング処理部の処理手順を図8を用いて説明する。
[ステップS801]
インデキシング映像取得部20において,インデキシング対象映像を読み込み,フレーム画像取得部21でインデキシング対象映像からフレーム画像を取り込む。以下では,P枚のフレーム画像を取り込んだとして説明する。
[ステップS802]
P枚のフレーム画像を順番に処理するために,初期値としてp=1に設定する。
[ステップS803]
特徴量抽出部16において,p枚目(p=1,2,... ,P)のフレーム画像から特徴量を算出する。
[ステップS804]
1クラス識別関数による候補検出部22において,定義ラベル辞書記憶部19に保存してある1クラス識別関数を用いて,p番目のフレーム画像が定義ラベルを付与する候補になるかを判定する。候補になる場合には,ステップS805に進み,候補にならない場合には,ステップS807に進む。
判定方法として,例えば,ステップS511で求めた特徴ベクトルについて正事例画像の平均ベクトルを算出し,未知画像と平均ベクトルからのユークリッド距離が予め設定しておいた閾値TH_pos1以下であれば,その未知画像に定義ラベルを付与すると判定する方法や,ステップS511で求めた特徴ベクトルにおける正事例画像の分布を複数のガウシアン分布で推定し,混合ガウシアン分布に対する未知画像の尤度が予め設定しておいた閾値TH_pos2以下であれば,その未知画像に定義ラベルを付与すると判定する方法を用いればよい。
[ステップS805]
2クラス識別関数によるインデキシング部23において,p番目のフレーム画像に定義ラベルを表しているかを判定する。定義ラベルを表していると判定された場合には,ステップS806へ,表していないと判定された場合には,ステップS807に進む。
[ステップS806]
p番目のフレームのメディア時刻を,定義ラベルのインデキシング結果として記憶する。すなわち,定義ラベルを付与するフレーム画像のメディア時刻を記憶する。
[ステップS807]
P個のフレーム画像の全てに対して処理が終了したかを判定する。処理が終了していない場合には,ステップS808に進み,処理が終了した場合には,ステップS809に進む。
[ステップS808]
p=p+1とし,ステップS803以降の処理を繰り返す。
[ステップS809]
インデキシング結果として,P個のフレーム画像の中で定義ラベルを付与するフレーム画像のメディア時刻をまとめ,そのインデキシング結果を出力する。
以上の処理により,インデキシング対象映像に対して定義ラベルを付与することができる。
次に,本発明の第2の実施例について説明する。図9は,本発明の第2の実施例における映像インデキシング装置のインデキシング部の構成を説明するための図である。
第2の実施例では,図9のインデキシング処理部は,特徴量抽出部16,定義ラベル辞書記憶部19,インデキシング映像取得部20,フレーム画像取得部21,1クラス識別関数による候補検出部22,2クラス識別関数によるインデキシング部23,フレーム画像インデキシング結果管理部30,イベントルール記憶部31,イベントラベル付与部32で構成される。
特徴量抽出部16,定義ラベル辞書記憶部19,インデキシング映像取得部20,フレーム画像取得部21,定義ラベル辞書記憶部19,1クラス識別関数による候補検出部22,2クラス識別関数によるインデキシング部23は,前述した第1の実施例と同じ処理を行う。
フレーム画像インデキシング結果管理部30は,2クラス識別関数によるインデキシング部23より出力される,インデキシング対象映像に対する定義ラベルが付与されたメディア時刻を管理する。
イベントルール記憶部31は,複数の定義ラベルが出現する順序関係や時間間隔をイベントラベルのルールとして設定する。イベントルールの例を図10に示す。同図において,イベントルール1は,イベントラベル1を付与するためのルールであり,定義ラベルAが付与された区間の次に定義ラベルCが付与された区間が出現し,さらにその次に定義ラベルBが付与された区間が出現し,最後に定義ラベルAが出現するイベントのルールを示す。イベントルール2は,イベントラベル2を付与するためのルールであり,定義ラベルAが付与された区間の10秒以内に,また定義ラベルAの区間が出現し,さらに10秒以内にもう一度,定義ラベルAの区間が出現するイベントのルールを示す。
イベントラベル付与部32は,フレーム画像インデキシング結果管理部30から定義ラベルが付与されたメディア時刻を受け取ると,イベントルール記憶部31に取得要求信号を出して,イベントルールを読み取る。
インデキシング対象映像に対して付与された定義ラベルの中で,読み取ったイベントルールとの類似度を算出し,類似度が予め設定しておいた閾値以上であれば,そのイベントラベルを付与する。
次に,上記の構成における処理手順について説明する。定義ラベル辞書記憶部19において,定義ラベルA,定義ラベルB,定義ラベルCに対する辞書が管理されており,本発明の第1の実施例の手順に従って,フレーム画像インデキシング結果管理部30では,インデキシング対象映像に対して定義ラベルA,定義ラベルB,定義ラベルCが付与され,イベントルール記憶部31において,図10のイベントラベル1とイベントラベル2が付与されている場合を例に説明する。
イベントラベル付与部32は,フレーム画像インデキシング結果管理部30で管理されているインデキシング対象映像に付与された定義ラベルと,イベントルール記憶部31で記憶されているイベントルールとの類似度を算出する。
類似度の算出方法の例として,イベントルールの定義区間数(図10のイベントルール1では4,イベントルール2では5)に対して出現順序が一致した区間数の比を求める方法がある。例えば,図11に示すように,インデキシング対象映像に対して付与された定義ラベルが映像メディア時刻の順番に定義ラベルA,定義ラベルC,定義ラベルB,定義ラベルCという区間があれば,イベントルール1との類似度は3/4=0.75となる。0.75以上の類似度であればイベントラベルを付与すると設定されていれば,この区間に対してイベントラベル1が付与されることになる。
このような処理をイベントルール1とイベントルール2に対して行うことで,予め設定しておいたイベントが出現した区間に対してインデックスを付与することができる。
イベントラベル付与の具体例について説明する。
〔例1〕例えばサッカー映像での定義ラベルとして,以下のシーンを設定しておく。
・グランドシーン:グランド全体が映っているシーン
・ゴールポストシーン:ゴールポストが大きく映っているシーン
・人物顔シーン:人物顔が大きく映っているシーン
ゴールというイベントを,グランドシーンの後に,ゴールポストシーンが出現し,そのT秒以内に人物顔シーンが出現すると規定する。このようなイベントルールを設定しておけば,サッカー映像においてゴールが映っている可能性の大きい映像区間に,ゴールのイベントラベルを自動付与することができる。
〔例2〕例えばニュース映像での定義ラベルとして,以下のシーンを設定しておく。
・アナウンサーシーン:アナウンサーが映っているシーン
・テロップシーン:テロップが表示されたシーン
トピック遷移イベントを,アナウンサーシーンの直後に,テロップシーンが出現し,そのT秒以上はアナウンサーシーンが出現しないと規定する。このようなイベントルールを設定しておけば,ニュース映像においてトピック遷移イベントを検出し,そのイベントラベルを自動付与することができる。
以上の映像インデキシングの処理は,コンピュータとソフトウェアプログラムとによって実現することができ,そのプログラムをコンピュータ読み取り可能な記録媒体に記録して提供することも,ネットワークを通して提供することも可能である。
本発明の原理構成図である。 本発明の第1の実施例における映像インデキシング装置の辞書生成部の構成図である。 本発明の第1の実施例における映像インデキシング装置のインデキシング部の構成図である。 辞書用映像の例を示す図である。 本発明の第1の実施例における辞書生成処理のフローチャートである。 フレーム画像のブロック分割の例を示す図である。 正事例画像をチェックするGUIの例を示す図である。 本発明の第1の実施例におけるインデキシング処理のフローチャートである。 本発明の第2の実施例における映像インデキシング装置のインデキシング部の構成図である。 イベントルールの例を示す図である。 定義ラベル付与の例を示す図である。
符号の説明
1 基準画像選定手段
2 辞書データ収集手段
3 正事例・負事例選定手段
4 1クラス識別関数算出手段
5 2クラス識別関数算出手段
6 辞書記憶手段
7 ラベル付与候補検出手段
8 インデキシング手段

Claims (12)

  1. 画像内容を表す定義ラベルを予め定義しておき,インデキシング対象の映像の中で前記定義ラベルに該当するシーンが出現したときに当該シーンに定義ラベルを付与する映像インデキシング装置において,
    定義ラベルと,学習用の画像として与えられた該定義ラベルを表す正しい正事例画像から抽出された特徴量により算出された,処理対象画像が前記定義ラベルを表す画像であるか否かを判別する1クラス識別関数と,学習用の画像として与えられた該定義ラベルを表す正しい正事例画像と正しくない負事例画像とから抽出された特徴量により算出された,正事例画像と負事例画像とを識別する2クラス識別関数とを辞書データとして記憶する辞書記憶手段と,
    インデキシング対象の映像が与えられたときに,当該映像から選択したフレーム画像について,前記辞書記憶手段に記憶された1クラス識別関数を用いて前記辞書記憶手段に記憶された定義ラベルを表す画像であるか否かを判別し,前記定義ラベルを付与する候補となるフレーム画像を求めるラベル付与候補検出手段と,
    前記ラベル付与候補検出手段によって候補とされたフレーム画像について,前記辞書記憶手段に記憶された2クラス識別関数を用いて正事例画像もしくは負事例画像のどちらに該当するかを判別することにより,前記候補とされたフレーム画像から負事例画像に該当する画像を排除し,正事例画像に該当する前記定義ラベルを付与すべき画像を決定して,定義ラベルを付与するインデキシング手段とを備える
    ことを特徴とする映像インデキシング装置。
  2. 請求項1記載の映像インデキシング装置において,
    前記1クラス識別関数および前記2クラス識別関数は,フレーム画像の映像における出現時刻と画像特徴量とを特徴量として識別する関数である
    ことを特徴とする映像インデキシング装置。
  3. 請求項1または請求項2記載の映像インデキシング装置において,
    映像中のイベントを表すイベントラベルと,映像中のイベントを検出するための複数の定義ラベルが出現する順序関係または時間間隔によって定義されるイベントルールとを記憶するイベントルール記憶手段と,
    前記インデキシング手段で付与された定義ラベルの順序関係または時間間隔と,前記イベントルール記憶手段に記憶されているイベントルールとを照合し,それらの類似度が所定の閾値より大きい映像部分に前記イベントラベルを付与するイベントラベル付与手段とをさらに備える
    ことを特徴とする映像インデキシング装置。
  4. 請求項1,請求項2または請求項3記載の映像インデキシング装置において,
    辞書用映像が与えられたときに,辞書用映像の中から定義ラベルを表す基準画像を選定する基準画像選定手段と,
    前記辞書用映像の中から前記基準画像と類似する画像を検出する辞書データ収集手段と,
    収集した類似画像の中で定義ラベルを表す画像として正しい画像を正事例画像,正しくない画像を前記基準画像に類似している順に負事例画像としてそれぞれ選定する正事例・負事例選定手段と,
    前記正事例画像から抽出された特徴量をもとに定義ラベルを表す画像であるか否かを判別するための1クラス識別関数を算出する1クラス識別関数算出手段と,
    前記正事例画像と前記負事例画像とからそれぞれ抽出された特徴量をもとに両者を識別するための2クラス識別関数を算出する2クラス識別関数算出手段とを備え,
    前記1クラス識別関数算出手段によって算出された1クラス識別関数と,前記2クラス識別関数算出手段によって算出された2クラス識別関数と,当該定義ラベルとを,辞書データとして前記辞書記憶手段に格納する
    ことを特徴とする映像インデキシング装置。
  5. 請求項4記載の映像インデキシング装置において,
    前記1クラス識別関数算出手段は,前記1クラス識別関数を前記辞書データ収集手段での類似度の基準に基づいて算出する
    ことを特徴とする映像インデキシング装置。
  6. 画像内容を表す定義ラベルを予め定義しておき,インデキシング対象の映像の中で前記定義ラベルに該当するシーンが出現したときに当該シーンに定義ラベルを付与する映像インデキシング装置が実行する映像インデキシング方法において,
    定義ラベルと,学習用の画像として与えられた該定義ラベルを表す正しい正事例画像から抽出された特徴量により算出された,処理対象画像が前記定義ラベルを表す画像であるか否かを判別する1クラス識別関数と,学習用の画像として与えられた該定義ラベルを表す正しい正事例画像と正しくない負事例画像とから抽出された特徴量により算出された,正事例画像と負事例画像とを識別する2クラス識別関数とを辞書データとして記憶する辞書記憶手段を参照し,
    インデキシング対象の映像が与えられたときに,当該映像から選択したフレーム画像について,前記辞書記憶手段に記憶された1クラス識別関数を用いて前記辞書記憶手段に記憶された定義ラベルを表す画像であるか否かを判別し,前記定義ラベルを付与する候補となるフレーム画像を求めるラベル付与候補検出処理と,
    前記ラベル付与候補検出処理によって候補とされたフレーム画像について,前記辞書記憶手段に記憶された2クラス識別関数を用いて正事例画像もしくは負事例画像のどちらに該当するかを判別することにより,前記候補とされたフレーム画像から負事例画像に該当する画像を排除し,正事例画像に該当する前記定義ラベルを付与すべき画像を決定して,定義ラベルを付与するインデキシング処理とを実行する
    ことを特徴とする映像インデキシング方法。
  7. 請求項6記載の映像インデキシング方法において,
    前記1クラス識別関数および前記2クラス識別関数は,フレーム画像の映像における出現時刻と画像特徴量とを特徴量として識別する関数である
    ことを特徴とする映像インデキシング方法。
  8. 請求項6または請求項7記載の映像インデキシング方法において,
    映像中のイベントを表すイベントラベルと,映像中のイベントを検出するための複数の定義ラベルが出現する順序関係または時間間隔によって定義されるイベントルールとを記憶するイベントルール記憶手段を参照し,
    前記インデキシング処理で付与された定義ラベルの順序関係または時間間隔と,前記イベントルール記憶手段に記憶されているイベントルールとを照合し,それらの類似度が所定の閾値より大きい映像部分に前記イベントラベルを付与するイベントラベル付与処理とをさらに実行する
    ことを特徴とする映像インデキシング方法。
  9. 請求項6,請求項7または請求項8記載の映像インデキシング方法において,
    辞書用映像が与えられたときに,辞書用映像の中から定義ラベルを表す基準画像を選定する基準画像選定処理と,
    前記辞書用映像の中から前記基準画像と類似する画像を検出する辞書データ収集処理と,
    収集した類似画像の中で定義ラベルを表す画像として正しい画像を正事例画像,正しくない画像を前記基準画像に類似している順に負事例画像としてそれぞれ選定する正事例・負事例選定処理と,
    前記正事例画像から抽出された特徴量をもとに定義ラベルを表す画像であるか否かを判別するための1クラス識別関数を算出する1クラス識別関数算出処理と,
    前記正事例画像と前記負事例画像とからそれぞれ抽出された特徴量をもとに両者を識別するための2クラス識別関数を算出する2クラス識別関数算出処理とを実行し,
    前記1クラス識別関数算出処理によって算出された1クラス識別関数と,前記2クラス識別関数算出処理によって算出された2クラス識別関数と,当該定義ラベルとを,辞書データとして前記辞書記憶手段に格納する
    ことを特徴とする映像インデキシング方法。
  10. 請求項9記載の映像インデキシング方法において,
    前記1クラス識別関数算出処理では,前記1クラス識別関数を前記辞書データ収集処理における類似度の基準に基づいて算出する
    ことを特徴とする映像インデキシング方法。
  11. 請求項6から請求項10までのいずれか1項に記載の映像インデキシング方法を,コンピュータに実行させるための映像インデキシングプログラム。
  12. 請求項11に記載の映像インデキシングプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2008019319A 2008-01-30 2008-01-30 映像インデキシング装置,映像インデキシング方法,映像インデキシングプログラムおよびその記録媒体 Expired - Fee Related JP4838272B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008019319A JP4838272B2 (ja) 2008-01-30 2008-01-30 映像インデキシング装置,映像インデキシング方法,映像インデキシングプログラムおよびその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008019319A JP4838272B2 (ja) 2008-01-30 2008-01-30 映像インデキシング装置,映像インデキシング方法,映像インデキシングプログラムおよびその記録媒体

Publications (2)

Publication Number Publication Date
JP2009181306A JP2009181306A (ja) 2009-08-13
JP4838272B2 true JP4838272B2 (ja) 2011-12-14

Family

ID=41035250

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008019319A Expired - Fee Related JP4838272B2 (ja) 2008-01-30 2008-01-30 映像インデキシング装置,映像インデキシング方法,映像インデキシングプログラムおよびその記録媒体

Country Status (1)

Country Link
JP (1) JP4838272B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6501855B1 (ja) * 2017-12-07 2019-04-17 ヤフー株式会社 抽出装置、抽出方法、抽出プログラム及びモデル
JP6899973B2 (ja) * 2019-01-08 2021-07-07 三菱電機株式会社 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3614709B2 (ja) * 1999-05-20 2005-01-26 日本電信電話株式会社 景観画像インデクス方法、装置および景観画像インデクスプログラムを記録した記録媒体
JP4700477B2 (ja) * 2005-11-15 2011-06-15 株式会社日立製作所 移動体監視システムおよび移動体特徴量算出装置
JP4703487B2 (ja) * 2006-05-29 2011-06-15 日本電信電話株式会社 画像分類方法及び装置及びプログラム

Also Published As

Publication number Publication date
JP2009181306A (ja) 2009-08-13

Similar Documents

Publication Publication Date Title
AU2022252799B2 (en) System and method for appearance search
JP6446971B2 (ja) データ処理装置、データ処理方法、及び、コンピュータ・プログラム
Fradi et al. Crowd behavior analysis using local mid-level visual descriptors
RU2693906C2 (ru) Основанный на правилах анализ важности видео
Ge et al. Automatically detecting the small group structure of a crowd
JP4591215B2 (ja) 顔画像データベース作成方法及び装置
JP6532190B2 (ja) 画像検索装置、画像検索方法
US8266174B2 (en) Behavior history retrieval apparatus and behavior history retrieval method
US9996554B2 (en) Search apparatus, search method, and storage medium
CN109727275B (zh) 目标检测方法、装置、系统和计算机可读存储介质
CN109829382B (zh) 基于行为特征智能分析的异常目标预警追踪系统及方法
US10762372B2 (en) Image processing apparatus and control method therefor
CN104463232A (zh) 一种基于hog特征和颜色直方图特征的密度人群计数的方法
JP4838272B2 (ja) 映像インデキシング装置,映像インデキシング方法,映像インデキシングプログラムおよびその記録媒体
KR102475752B1 (ko) 이동 경로 예측 방법 및 장치
JP5552946B2 (ja) 顔画像サンプル採取装置、顔画像サンプル採取方法、プログラム
WO2022228325A1 (zh) 行为检测方法、电子设备以及计算机可读存储介质
Zhang et al. Video entity resolution: Applying er techniques for smart video surveillance
CN112651996A (zh) 目标检测跟踪方法、装置、电子设备和存储介质
Salehin et al. Video summarization using geometric primitives
WO2022079841A1 (ja) グループ特定装置、グループ特定方法、及びコンピュータ読み取り可能な記録媒体
CN115331062B (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
KR20210058134A (ko) 복수의 얼굴 이미지에서 동일한 사람의 얼굴 이미지를 분류하는 장치 및 방법
JP2023008315A (ja) 映像監視システム及び映像監視方法
KR20240044621A (ko) 합성 동영상 판별 방법 및 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100114

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100331

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110927

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110929

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141007

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees