JP2010282276A - 映像認識理解装置、映像認識理解方法、及びプログラム - Google Patents

映像認識理解装置、映像認識理解方法、及びプログラム Download PDF

Info

Publication number
JP2010282276A
JP2010282276A JP2009133112A JP2009133112A JP2010282276A JP 2010282276 A JP2010282276 A JP 2010282276A JP 2009133112 A JP2009133112 A JP 2009133112A JP 2009133112 A JP2009133112 A JP 2009133112A JP 2010282276 A JP2010282276 A JP 2010282276A
Authority
JP
Japan
Prior art keywords
image
additional information
attention
region
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009133112A
Other languages
English (en)
Inventor
Shogo Kimura
昭悟 木村
Kunio Kayano
邦夫 柏野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009133112A priority Critical patent/JP2010282276A/ja
Publication of JP2010282276A publication Critical patent/JP2010282276A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】言語情報が関連付けられた画像が少量しか利用できない場合においても、画像と言語情報との関係性を精度良く学習する。
【解決手段】注目度画像抽出部1は、入力映像のあるフレームである入力画像の中の各位置において人間が注意を向ける度合いを示す画像である注目度画像を抽出する。注目領域抽出部2は、注目度画像、及び入力画像から、入力画像中で注意を向けやすい領域を示す画像である注目領域画像を抽出する。注目領域画像特徴抽出部3は、入力画像、及び注目領域画像から、注目領域の中にある画像の特性を表現するベクトルである注目領域画像特徴を抽出する。注目領域付加情報提示部4は、画像・付加情報関係モデルに、注目領域画像特徴を与えることで、注目領域を説明する付加情報である注目領域付加情報を抽出して提示する。
【選択図】図1

Description

本発明は、映像認識理解装置、映像認識理解方法、及びプログラムに関する。
与えられた映像からその映像に含まれる人物・動物・物体・建造物など興味の対象となる領域の名称を同定する技術である映像内容理解技術、及び、与えられた名称からその名称に合致する映像中の時刻・空間領域を同定する技術である映像認識技術を計算機上で実現することは、古くからその重要性が認識され、自動映像解析・大規模映像検索・ロボットなど幅広い応用が考えられる。そのため、これまでに非特許文献1、2など、数多くの技術が開発されている。
中山、原田、國吉、大津、"画像・単語間概念対応の確率構造学習を利用した超高速画像認識・検索方法"、電子情報通信学会技術報告、PRMU2007−147、2007年12月 岡部、近藤、木谷、佐藤、"カテゴリの共起を考慮した物体認識"、画像の認識・理解シンポジウム、2008年7月
しかし、上述した従来技術には、以下の2点において問題がある。
(1)これらの従来技術は、実際に検索・認識を行う前に、画像と言語情報との関連性を学習しておく必要があり、この学習の際に、同時共起する画像と言語情報との組が数多く必要となる。しかし、大量の画像に手動で言語情報を付与することは、多くの労力を伴うため、言語情報が関連付けられている画像を大量に収集することは困難である。言語情報が関連付けられた画像が十分に用意できない場合には、画像と言語情報との関係性を精度良く学習できないため、結果として画像認識・画像検索の信頼性が損なわれてしまうという問題があった。
(2)これらの従来技術は、画像の特徴量を画像全体から抽出している。画像中には、内容理解や、認識に必ずしも有用ではない領域も多く含まれており、これらの領域を予め取り除いておく、すなわち、内容理解や認識に有用な領域のみを切り出すことで、より精度の高い映像認識・理解が可能となる。しかし、これら有用な領域を自動的に抽出することは困難であるという問題があった。
本発明は、このような事情を考慮してなされたものであり、その目的は、言語情報が関連付けられた画像が少量しか利用できない場合においても、画像と言語情報との関係性を精度良く学習することができる映像認識理解装置、映像認識理解方法、及びプログラムを提供することにある。
上述した課題を解決するために、本発明は、入力映像に含まれる主要な領域に関する付加情報を提示する映像認識理解装置であって、入力映像を構成する各フレームである入力画像から、該入力画像中の各位置において人間が注意を向けやすい度合いである注目度を示す注目度画像を抽出する注目度画像抽出手段と、前記注目度画像から、前記入力画像中で注意を向けやすい領域を示す画像である注目領域画像を抽出する注目領域抽出手段と、前記注目領域画像で示される注目領域内に存在する画像の特性を表現するベクトルである注目領域画像特徴を抽出する注目領域画像特徴抽出手段と、画像とその画像を説明する情報である付加情報との関係性を記述するモデルである画像・付加情報関係モデルに前記注目領域画像特徴を与えることで、前記注目領域画像で示される注目領域を説明する情報である注目領域付加情報を提示する注目領域付加情報提示手段とを備えることを特徴とする映像認識理解装置である。
本発明は、上記の発明において、与えられた画像である登録画像と該登録画像を説明する付加情報である登録付加情報とを合わせて、登録画像情報として登録する画像情報登録手段と、前記登録画像情報の特性を表現するベクトルである登録画像情報特徴を、前記登録画像情報から抽出する登録画像情報特徴抽出手段と、前記登録画像情報特徴から、前記画像・付加情報関係モデルを学習する画像・付加情報間関係性学習手段とを更に備えることを特徴とする。
本発明は、上記の発明において、与えられた付加情報である入力付加情報から、入力付加情報の特性を表現するベクトルである入力付加情報特徴を抽出する入力付加情報特徴抽出手段と、前記入力付加情報特徴を前記画像・付加情報関係モデルに与え、前記入力付加情報と類似性の高い画像情報を選択して提示する画像検索手段とを更に備えることを特徴とする。
本発明は、上記の発明において、前記注目領域抽出手段は、前記入力画像の各位置が注目領域である確率を示す注目領域事前確率画像を抽出する注目領域事前確率画像抽出手段と、前記入力画像の注目領域、及び注目領域外の領域にそれぞれ含まれる画像特徴量の尤度を示す特徴量尤度を算出する特徴量尤度算出手段と、前記入力画像、前記注目領域事前確率画像、及び前記特徴量尤度から、前記入力画像の注目領域を示す注目領域画像を抽出する注目領域画像抽出手段とを有し、前記注目領域事前確率画像抽出手段は、前記入力画像の各位置が注目領域である確率を示す注目領域事前確率画像を、前記注目度画像抽出手段によって抽出された注目度画像、及び前記注目領域画像抽出手段によって抽出された注目領域画像に基づいて抽出し、前記特徴量尤度算出手段は、前記特徴量尤度を、前記入力画像、前記注目度画像、前記注目領域事前確率画像、前記注目領域画像、及び前回迄に算出した前記特徴量尤度の少なくとも1つに基づいて算出することを特徴とする。
また、上述した課題を解決するために、本発明は、入力映像に含まれる主要な領域に関する付加情報を提示する映像認識理解装置において用いられる映像認識理解方法であって、入力映像を構成する各フレームである入力画像から、該入力画像中の各位置において人間が注意を向けやすい度合いである注目度を示す注目度画像を抽出する注目度画像抽出過程と、前記注目度画像から、前記入力画像中で注意を向けやすい領域を示す画像である注目領域画像を抽出する注目領域抽出過程と、前記注目領域画像で示される注目領域内に存在する画像の特性を表現するベクトルである注目領域画像特徴を抽出する注目領域画像特徴抽出過程と、画像とその画像を説明する情報である付加情報との関係性を記述するモデルである画像・付加情報関係モデルに前記注目領域画像特徴を与えることで、前記注目領域画像で示される注目領域を説明する情報である注目領域付加情報を提示する注目領域付加情報提示過程とを含むことを特徴とする映像認識理解方法である。
本発明は、上記の発明において、与えられた画像である登録画像と該登録画像を説明する付加情報である登録付加情報とを合わせて、登録画像情報として登録する画像情報登録過程と、前記登録画像情報の特性を表現するベクトルである登録画像情報特徴を、前記登録画像情報から抽出する登録画像情報特徴抽出過程と、前記登録画像情報特徴から、前記画像・付加情報関係モデルを学習する画像・付加情報間関係性学習過過程とを更に含むことを特徴とする。
本発明は、上記の発明において、与えられた付加情報である入力付加情報から、入力付加情報の特性を表現するベクトルである入力付加情報特徴を抽出する入力付加情報特徴抽出過程と、前記入力付加情報特徴を前記画像・付加情報関係モデルに与え、前記入力付加情報と類似性の高い画像情報を選択して提示する画像検索過程とを更に含むことを特徴とする。
本発明は、上記の発明において、前記注目領域抽出過程は、前記入力画像の各位置が注目領域である確率を示す注目領域事前確率画像を抽出する注目領域事前確率画像抽出過程と、前記入力画像の注目領域、及び注目領域外の領域にそれぞれ含まれる画像特徴量の尤度を示す特徴量尤度を算出する特徴量尤度算出過程と、前記入力画像、前記注目領域事前確率画像、及び前記特徴量尤度から、前記入力画像の注目領域を示す注目領域画像を抽出する注目領域画像抽出過程とを含み、前記注目領域事前確率画像抽出過程は、前記入力画像の各位置が注目領域である確率を示す注目領域事前確率画像を、前記注目度画像抽出過程によって抽出された注目度画像、及び前記注目領域画像抽出過程によって抽出された注目領域画像に基づいて抽出し、前記特徴量尤度算出過程は、前記特徴量尤度を、前記入力画像、前記注目度画像、前記注目領域事前確率画像、前記注目領域画像、及び前回迄に算出した前記特徴量尤度の少なくとも1つに基づいて算出することを特徴とする。
また、上述した課題を解決するために、本発明は、入力映像に含まれる主要な領域に関する付加情報を提示する映像認識理解装置としてのコンピュータに実行させるプログラムであって、入力映像を構成する各フレームである入力画像から、該入力画像中の各位置において人間が注意を向けやすい度合いである注目度を示す注目度画像を抽出する注目度画像抽出ステップと、前記注目度画像から、前記入力画像中で注意を向けやすい領域を示す画像である注目領域画像を抽出する注目領域抽出ステップと、前記注目領域画像で示される注目領域内に存在する画像の特性を表現するベクトルである注目領域画像特徴を抽出する注目領域画像特徴抽出ステップと、画像とその画像を説明する情報である付加情報との関係性を記述するモデルである画像・付加情報関係モデルに前記注目領域画像特徴を与えることで、前記注目領域画像で示される注目領域を説明する情報である注目領域付加情報を提示する注目領域付加情報提示ステップとを実行させることを特徴とするプログラムである。
この発明によれば、言語情報が関連付けられた画像が少量しか利用できない場合においても、画像と言語情報との関係性を精度良く学習することができるという利点が得られる。
本発明の第1実施形態による映像認識理解装置の構成を示すブロック図である。 本第1実施形態による注目領域抽出部2の構成を示すブロック図である。 本第1実施形態による注目領域抽出部2の変形例の構成を示すブロック図である。 本第1実施形態による映像認識理解装置の動作を説明するためのフローチャートである。 本発明の第2実施形態による映像認識理解装置の構成を示すブロック図である。 本第2実施形態による映像認識理解装置の動作を説明するためのフローチャートである。 本発明の第3実施形態による映像認識理解装置の構成を示すブロック図である。 本第3実施形態による映像認識理解装置の動作を説明するためのフローチャートである。
以下、本発明の一実施形態を、図面を参照して説明する。
なお、以下の説明において、式中の文字上部に ̄が付いた文字は、文中において文字の前に ̄を記載して示す。また、式中の文字下部に_が付いた文字は、文中において文字の前に_を記載して示す。同様に、式中の文字上部に〜が付いた文字は、文中において文字の前に〜を記載して示し、式中の文字上部に^が付いた文字は、文中において文字の前に^を記載して示す。
A.第1実施形態
図1は、本第1実施形態による映像認識理解装置の構成を示すブロック図である。図において、本第1実施形態による映像認識理解装置は、注目度画像抽出部1と、注目領域抽出部2と、注目領域画像特徴抽出部3と、注目領域付加情報提示部4とで構成される。該映像認識理解装置は、予め与えられた映像である入力映像を、画像とその画像を説明する情報である付加情報との関係性を記述するモデルである画像・付加情報関係モデルに入力し、その入力映像に含まれる主要な領域に関する付加情報である注目領域付加情報を抽出して出力する。
注目度画像抽出部1は、入力映像を入力し、入力映像のあるフレームである入力画像の中の各位置において人間が注意を向ける度合いを示す画像である注目度画像を抽出し、該注目度画像を出力する。注目度画像の抽出方法は、特に限定されるものではないが、例えば、以下の方法が考えられる。
・背景差分(例えば、参考文献1「土田、川西、村瀬、高木、“背景差分法による物体検出を目的とした逐次モンテカルロ法による背景推定”、電子情報通信学会論文誌D、Vol.J87−D2、No.5、pp.1062−1070、2004年5月」)
・注目性に基づく方法(例えば、参考文献2「L. Itti, C. Koch, E. Niebur “A Model of Saliency-Based Visual Attention for Rapid Scene Analysis,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 20, No. 11, pp. 1254-1259, Nov 1998.」、参考文献3「Pang、木村、竹内、大和、柏野、“A stochastic model of selective visual attention with a dynamic Bayesian network,”、画像の認識・理解シンポジウム予稿集、2008年7月」、参考文献4「宮里、木村、高木、大和、“MCMC-based particle filter を用いた人間の映像注視行動の実時間推定”、電子情報通信学会技術報告、2009年5月」)。
このように、注目度画像抽出部1は、注目度画像を抽出し、この注目度画像を出力する。
次に、注目領域抽出部2は、注目度画像、及び入力映像を入力し、入力映像のあるフレームである入力画像中で注意を向けやすい領域を示す画像である注目領域画像を抽出し、この注目領域画像を出力する。ここで、該注目領域抽出部2による、入力画像中で注意を向けやすい領域を示す画像である注目領域画像を抽出する方法について詳細に説明する。
注目領域抽出部2は、図2に示すように、注目領域事前確率画像抽出部21、特徴量尤度算出部22、及び注目領域画像抽出部23を備える。注目領域事前確率画像抽出部21は、入力映像を構成する各フレームである入力画像の各位置が注目領域である確率を示す注目領域事前確率画像を抽出する。具体的には、注目領域事前確率画像抽出部21は、注目度画像抽出部1からの注目度画像、及び注目領域画像抽出部23によって抽出された注目領域画像から、入力映像中の対応するフレームである入力画像の各位置が注目領域である確率を表示する注目領域事前確率画像を抽出する。
換言すれば、注目領域事前確率画像抽出部21は、入力画像の各位置が注目領域である確率を示す注目領域事前確率画像を、注目度画像抽出部1によって抽出された注目度画像、及び注目領域画像抽出部23によって抽出された当該入力画像に対応する注目領域画像に基づいて抽出する。注目領域事前確率画像抽出部21は、抽出した注目領域事前確率画像を特徴量尤度算出部22、及び注目領域画像抽出部23に出力する。
なお、注目領域事前確率画像抽出部21が注目領域事前確率画像を抽出する方法は特に限定しないが、本第1実施形態においては、注目度画像からガウス混合分布のモデルパラメータを推定し、注目領域事前確率画像を生成するようにしてもよい。具体的には、注目領域事前確率画像生成部21は、モデルパラメータの1つである混合比を、その最大値が1と等しくなるように正規化し、その後に各位置におけるガウス混合分布の確率を計算して、当該位置の注目領域事前確率画像の画素値とする。
上記第1実施形態では、全ての位置においてガウス混合分布を用いた方法によって注目領域事前確率画像を生成しているが、注目領域が画像の中心位置に存在しやすいことを考慮し、注目領域事前確率画像を生成した後、画像の左右両端もしくは上下左右の端の一定領域のピクセル値を強制的に0としてもよく、当該方法は、画像の端に注目領域が存在する可能性を排除することを意味している。若しくは、注目領域事前確率画像を生成した後、画像の中心位置からの距離に比例する重みを注目領域事前確率画像に掛け合わせ、その出力を新たに注目領域事前確率とする実施形態も考えられる。
このように、注目領域事前確率画像抽出部21は、注目領域事前確率画像を抽出(生成、更新)して出力する。
特徴量尤度算出部22は、入力映像のあるフレームである入力画像の注目領域、及び注目領域外の領域にそれぞれ含まれる画像特徴量の尤度を示す特徴量尤度を算出する。具体的には、特徴量尤度算出部22は、特徴量尤度を、入力映像のあるフレームである入力画像、注目度画像抽出部1からの注目度画像、注目領域事前確率画像抽出部21によって抽出された注目領域事前確率画像、注目領域画像抽出部23によって抽出された注目領域画像、及び前回迄に算出した特徴量尤度の少なくとも1つに基づいて算出する。例えば、特徴量尤度算出部22は、入力画像、注目領域事前確率画像、注目領域画像、及び前回迄に算出した特徴量尤度から、特徴量尤度を算出する。特徴量尤度算出部22は、算出した特徴量尤度を注目領域画像抽出部23に出力する。
特徴量尤度算出部22が徴量尤度を算出する方法は特に限定しないが、本第1実施形態においては、ガウス混合分布モデルを利用し、入力画像、注目領域事前確率画像、及び注目領域画像に基づいて注目領域特徴量尤度を新たに生成(算出)し、入力画像、注目領域画像、及び前回迄に更新した更新後の注目領域特徴量尤度のうち少なくとも1つに基づいて、生成した注目領域特徴量尤度を更新する。
注目領域画像抽出部23は、入力画像、注目領域事前確率画像、及び特徴量尤度から、入力画像の注目領域を示す注目領域画像を抽出する。注目領域画像抽出部23は、抽出した注目領域画像を注目領域事前確率画像抽出部21、及び特徴量尤度算出部22に出力するとともに、図1の注目領域画像特徴抽出部3に出力する。注目領域画像抽出部23が注目領域画像を抽出する方法は特に限定しないが、本第1実施形態においては、画像領域分割をある種の統計モデルに対する事後確率最大化問題として定式化し、事後確率最大化問題を統計モデルと等価なグラフの最小カットを求めることによって解決する方法(参考文献5「Y. Boykov and G. F. Lea, “Graph cuts and efficient N-D image segmentation,” International Journal of Computer Vision,Vol.70,No.2,pp.109-131,2006.」)に記載の方法を基礎としたグラフカットを用いる。
なお、注目度画像抽出部1に上述した参考文献1に記載の方法を用いる場合には、注目度画像抽出部1の出力をそのままここでの出力としても良い。
このように、注目領域抽出部2は、注目領域画像を抽出し、この注目領域画像を出力する。
(注目領域抽出部2の変形例)
また、注目領域抽出部2の変形例として、図3に示す構成も考えられる。注目領域抽出部2は、図3に示すように、注目領域事前確率画像抽出部21、特徴量尤度算出部22、注目領域画像抽出部23、平滑化画像群生成部25、及び注目領域画像確定部26を備える。なお、注目度画像抽出部21、及び注目領域画像抽出部23については、図2に示す構成と同様であるため説明を省略する。
平滑化画像群生成部25は、入力画像を異なる解像度によってそれぞれ平滑化した複数の平滑化画像からなる平滑化画像群を生成する。つまり、平滑化画像群生成部25は、入力映像を入力し、入力映像のあるフレームである入力画像を異なる解像度によってそれぞれ平滑化した平滑化画像群を生成する。平滑化画像群生成部25は、生成した平滑化画像群を特徴量尤度算出部22、注目領域画像抽出部23、及び注目領域画像確定部26に出力する。平滑化画像群生成部25が平滑化画像群を生成する方法は特に限定しないが、本第1実施形態では、入力画像に対し平滑化と縮小とを繰り返す方法について説明する。
平滑化画像群生成部25は、時刻tの平滑化画像の初期値H(t)とし、ある整数kについて平滑化画像Hk−1(t)が与えられているとき、入力画像を所定の標準偏差パラメータσを有するガウス平滑化フィルタを用いて平滑化する。平滑化画像群生成部25は、ガウス平滑化フィルタを用いて平滑化した画像を、下記式(1)を満たす所定の倍率aを用いて縮小し、平滑化画像H(t)を生成する。
Figure 2010282276
整数kが平滑化画像における平滑化の度合いと対応していることから、以下、整数kを平滑化係数と呼ぶ。上記の過程をk=1,2,…,n−2で繰り返すことにより、平滑化画像群を形成する(下記式(2))。
Figure 2010282276
このとき、特にσ=0,a=1とすると、各平滑化画像が全て入力画像と同一となる。以上のように、平滑化画像群生成部25は、平滑化画像群を抽出して出力する。
注目領域事前確率画像抽出部21は、注目度画像抽出部1からの注目度画像、及び注目領域画像抽出部23からの注目領域画像から、入力映像中の対応するフレームである入力画像の各位置が注目領域である確率を表示する注目領域事前確率画像を抽出する。注目領域事前確率画像抽出部21が注目領域事前確率画像を抽出する方法は、特に限定しないが、上述した第1実施形態と同様であるため説明を省略する。但し、以下の点が第1実施形態と異なる。
1.ある時刻tにおいて本処理を初めて実行する際、即ち、以降の特徴量尤度算出部22、及び注目領域画像抽出部23において、平滑化係数最大の平滑化画像(下記式(3))が用いられる場合には、上述した第1実施形態と同様の方法で注目領域事前確率画像(d)を更新する。
Figure 2010282276
2.ある時刻tにおいて本処理を再度実行する際、即ち、以降の特徴量尤度算出部22、及び注目領域画像抽出部23において平滑化画像H(t)(k=n−2,n−3,・・・・,0)が用いる場合には、以下の変更を行った上で、第1実施形態と同様の処理を行う。
(1)第1実施形態に記載の更新式のパラメータの一つであるσ、及び、1時点前(時刻t−1)注目領域事前確率の分散(下記式(4))を強制的に0に置き換える。
Figure 2010282276
(2)1時点前(時刻t−1)の注目領域画像A(t−1)に代えて、平滑化係数が1つ大きい平滑化画像Hk+1(t)を用いて生成された注目領域画像A(t;k+1)を用いる。
(3)注目領域事前確率の分散(下記式(5))を更新せずに、平均ξ(x,t)のみを第1実施形態と同様の方法で更新する。
Figure 2010282276
3.入力として平滑化係数kの平滑化画像H(t)を用いたことを明確にするため、出力である注目領域事前確率画像をΞ(t;k)と表記する。
特徴量尤度算出部22も、第1実施形態とほぼ同様である。但し、以下の点が第1実施形態と異なる。
1.入力画像に代えて平滑化画像H(t)(k=n−1,n−2,…,0)のうち1つを用いてもよい。このとき、時刻tにおいて本処理をj(j=1,2,…,n)回目に実行するときには、平滑化係数k=n−jの平滑化画像(下記式(6))が用いられる。このことは、平滑化係数が大きい平滑化画像から順に用いられることを意味する。
Figure 2010282276
2.ある時刻tにおいて本処理を初めて実行する際、即ち、平滑化係数n−1の平滑化画像Hng−1(t)が入力として用いられる場合には、第1項目以外は第1実施形態と同様である。
3.ある時刻tにおいて本処理を再度実行する際、即ち、平滑化係数k(k=n−2,n−1,…,0)の平滑化画像H(t)が入力として用いられる場合には、以下を用いる。
(1)1時点前(時刻t−1)の注目領域画像A(t−1)に代えて、現時点(時刻t)で平滑化係数が1つ大きい平滑化画像Hk+1(t)を用いて生成された注目領域画像A(t;k+1)を用いる。
(2)1時点前の注目領域特徴量尤度ψ(c,t−1)に代えて、現時点で平滑化係数が1つ大きい平滑化画像Hk+1(t)を用いて生成された注目領域特徴量尤度ψ(c,t;k+1)を用いる。
(3)1時点前の非注目領域特徴量尤度ψ(c,t−1)に代えて、現時点で平滑化係数が1つ大きい平滑化画像Hk+1(t)を用いて生成された非注目領域特徴量尤度ψ(c,t;k+1)を用いる。
4.入力として平滑化係数kの平滑化画像H(t)を用いたことを明確にするため、出力である注目領域特徴量尤度をψ(t;k)、非注目領域特徴量尤度をψ(t;k)と表記する。
注目領域画像確定部26は、平準化画像群に対し、注目領域事前確率画像抽出部21、特徴量尤度算出部22、注目領域画像抽出部23の処理を実行し、入力画像の注目領域画像を確定する。即ち、注目領域画像確定部26は、平滑化係数kの平滑化画像H(t)に対し、注目領域事前確率画像抽出部21、特徴量尤度算出部22、及び注目領域画像抽出部23を順に実行し、抽出された注目領域画像A(t;k)を入力し、1つ前のステップで抽出された注目領域画像A(t;k+1)からの変化がない場合には、現時点(時刻t)の入力画像に対しての最終的な注目領域画像を確定し、この注目領域画像A(t)= A(t;k)を出力し、変化がある場合には、kを1つ小さくして、再度注目領域事前確率画像抽出部21に戻る。
本発明では、主に以下の2点により、上記の画像注目領域抽出方法を実現している。
(1)注目度画像抽出部1による、人間の視覚機構を模擬したモデルに基づく画像注目性の算出、並びに、注目領域事前確率画像の生成、及び注目領域特徴量尤度の算出による、画像注目性に基づく注目領域、非注目領域に関する事前情報の生成
(2)注目領域事前確率画像の更新、及び非注目領域特徴量尤度の算出による、注目領域、非注目領域に関する事前情報の逐次更新
物体領域・背景領域に関する事前情報が全く与えられない場合においても領域分割が可能になる。従って、物体領域、背景領域に関する事前知識がない場合でも、精度良く物体領域と背景領域を分割して、注目している領域(物体領域)を抽出することができるようになる。
これにより、物体領域・背景領域に関する事前情報が全く与えられない場合においても領域分割が可能になる。従って、物体領域・背景領域に関する事前知識がない場合でも、精度良く物体領域と背景領域を分割して、注目している領域(物体領域)を抽出することができるようになる。
次に、図1に説明を戻すと、注目領域画像特徴抽出部3は、入力映像のあるフレームである入力画像、及び注目領域画像を入力し、注目領域の中にある画像の特性を表現するベクトルである注目領域画像特徴を抽出し、この注目領域画像特徴を出力する。注目領域画像特徴の抽出方法は、特に限定されるものではないが、例えば、以下のような方法、及びそれらの任意の組み合わせが考えられる。
・色ヒストグラム
・画像中の各小領域のディジタルコサイン変換の低周波成分
・Haar waveletの低周波及び/または高周波成分のヒストグラム
・高次局所自己相関特徴(例えば、参考文献6「N. Otsu and T. Kurita “A new scheme for practical flexible and intelligent vision systems,” Proc. IAPR Workshop on Computer Vision, pp.431-435, 1988.」参照)
・SIFT(例えば、参考文献7「D. Lowe, “Distinctive image features from scale-invariant keypoints, ”International Journal of Computer Vision, Vol.60, No.2, pp.91-110, 2004.」参照)
但し、上記の注目領域抽出部2において、注目領域画像中に複数の注目領域が含まれている場合には、各注目領域から個別に注目領域画像を抽出する。
このように、注目領域画像特徴抽出部3は、注目領域画像特徴を抽出し、この注目領域画像特徴を出力する。
注目領域付加情報提示部4は、画像とその画像を説明する情報である付加情報との関係性を記述するモデルである画像・付加情報関係モデルを予め保持しており(あるいは、外部から提供されてもよい)、該画像・付加情報関係モデルに、注目領域画像特徴を与えることで、注目領域を説明する付加情報である注目領域付加情報を抽出し、この注目領域付加情報を出力する。
注目領域付加情報の抽出方法は、特に限定されるものではないが、本第1実施形態では、以下の4つの実施例について説明する。
[第1の実施例]
本第1実施例においては、付加情報として言語ラベルを想定し、その言語ラベルの有無を表現する2値ベクトルを付加情報特徴と呼び、以降、この付加情報特徴を付加情報に換えて用いる。
付加情報特徴の具体的な構成は、以下の通りである。付加情報特徴は、考慮すべき言語ラベルの総数と同数の次元を持つベクトルであり、ベクトルの各次元が言語ラベルに対応する。以降、便宜的に、言語ラベルを、上記ベクトルにおいて対応する次元のインデックスを用いて表現する。付加情報に言語ラベルiが含まれている場合には、付加情報特徴の第i次元を1とし、そうではない場合には、0とする。
また、本第1の実施例では、画像・付加情報関係モデルとして、各言語ラベルi(i=1,2,…,d)に対応する画像特徴空間内のK個の代表点 ̄xi,j(j=1,2,…,K)、及び各代表点に関連付けられた画像情報とその画像情報特徴とを保持する場合を考える。すなわち、代表点は、総計であり、次式(7)で表される個数、存在することになる。
Figure 2010282276
このとき、注目領域画像特徴xへの距離が近い一定数の代表点、もしくはxへの距離がある定められた閾値以下の代表点を選択し、その代表点に対応する言語ラベルを注目領域付加情報として抽出する。
[第2の実施例]
画像・付加情報関係モデルとして、各言語ラベルi(i=1,2,…,d)に対応する画像特徴空間の混合正規分布、及び各言語ラベルに関連付けられた画像情報とその画像情報特徴とを保持する場合を考える。
このとき、注目領域画像特徴xの生起確率が高い一定数の混合正規分布、もしくはxの生起確率がある定められた閾値以上の混合正規分布を選択し、その混合正規分布に対応する言語ラベルを注目領域付加情報として抽出する。
[第3の実施例]
画像・付加情報関係モデルとして、各言語ラベルi(i=1,2,…,d)に対応する画像特徴空間内のサポートベクトルマシン、及び各言語ラベルに関連付けられた画像情報とその画像情報特徴を保持する場合を考える。
ここで、言語ラベルiに対応する画像特徴空間内のサポートベクトルマシンとは、言語ラベルiが付与された画像の特徴と、それが付与されていない画像の特徴とを識別するためのサポートベクトルマシンである。このとき、注目領域画像特徴xが各サポートベクトルマシンにおいて正例と判定された場合のみ、対応する言語ラベルを選択し、その言語ラベルを注目領域付加情報として抽出する。
[第4の実施例]
予め保持している画像・付加情報関係モデルに注目領域画像特徴を与えることで、注目領域画像と類似性の高い画像である注目領域付加情報を抽出し、この注目領域付加情報を出力する。注目領域付加情報の選択方法は、特に限定されるものではないが、本第4実施例においては、以下の方法について述べる。
まず、注目領域画像特徴xgivenが与えられたときの付加情報特徴yの事後確率を、次式(8)で設定する。
Figure 2010282276
注目領域付加情報提示部4において、蓄積潜在変数集合の各要素zについて画像・付加情報関係モデルを生成している場合には、上記の事後確率は、次式(9)のように書き直すことができる。
Figure 2010282276
次に、次式(10)に従って、この事後確率が最大となる付加情報特徴〜yを算出する。
Figure 2010282276
上記事後確率最大となる付加情報特徴〜yは、一般に2値ベクトルとはならないことに注意する。この事後確率最大の付加情報特徴〜yの各要素のうち、値の大きいある一定数の要素、もしくは値が閾値を超えた要素を選択し、それぞれの要素に対応する言語ラベルを集めて画像関連付加情報とする。
このようにして、注目領域付加情報提示部4は、注目領域付加情報を抽出し、この注目領域付加情報を出力(提示)する。
次に、本第1実施形態の動作について説明する。
図4は、本第1実施形態による映像認識理解装置の動作を説明するためのフローチャートである。まず、注目度画像抽出部1は、入力される入力映像から、該入力映像のあるフレームである入力画像の中の各位置において人間が注意を向ける度合いを示した画像である注目度画像を抽出する(ステップSa1)。次に、注目領域抽出部2は、注目度画像、及び入力画像から、入力画像中で注意を向けやすい領域を示す画像である注目領域画像を抽出する(ステップSa2)。
次に、注目領域画像特徴抽出部3は、入力画像、及び注目領域画像から、注目領域の中にある画像の特性を表現するベクトルである注目領域画像特徴を抽出する(ステップSa3)。そして、注目領域付加情報提示部4は、画像とその画像を説明する情報である付加情報との関係性を記述する画像・付加情報関係モデルに、注目領域画像特徴を与えることで、注目領域を説明する付加情報である注目領域付加情報を抽出し、この注目領域付加情報を提示する(ステップSa4)。
B.第2実施形態
次に、本発明の第2実施形態について説明する。
図5は、本第2実施形態による映像認識理解装置の構成を示すブロック図である。図において、本第2実施形態による映像認識理解装置は、注目度画像抽出部1と、注目領域抽出部2と、注目領域画像特徴抽出部3と、注目領域付加情報提示部4と、画像情報登録部5と、登録画像情報特徴抽出部6と、画像・付加情報間関係性学習部7とで構成される。該映像認識理解装置は、入力映像、画像・付加情報関係モデル、ある与えられた画像である登録画像、登録画像を説明する付加情報である登録付加情報を入力し、注目領域付加情報を抽出して出力する。
なお、注目度画像抽出部1、注目領域抽出部2、注目領域画像特徴抽出部3、注目領域付加情報提示部4は、第1実施形態と同様のため、説明を省略する。但し、登録画像として入力画像とは別途準備した新しい画像が与えられる場合には、これらの過程を実行しなくても良い。
画像情報登録部5は、登録画像、及び登録付加情報を入力し、これら2つを合わせて、登録画像情報として登録し、この登録画像情報を出力する。登録画像情報の登録方法は、特に限定されるものではないが、本第2実施形態においては、以下の2つの実施例について説明する。
[第1の実施例]
登録画像として注目領域内の入力画像を考え、この注目領域内の入力画像に対して、(例えば、キーボードや、音声入力などを用いて)手動で登録付加情報としての言語ラベルを与える。
[第2の実施例]
登録画像として入力画像とは別途準備した新しい画像を想定し、この画像に対して、第1の実施例と同様に、手動で登録付加情報としての言語ラベルを与える。
このように、画像情報登録部5は、登録画像と登録付加情報とを登録し、これらを合わせた登録画像情報を出力する。
次に、登録画像情報特徴抽出部6は、上記登録画像情報を入力し、登録画像情報の特性を表現するベクトルである登録画像情報特徴を抽出し、この登録画像情報特徴を出力する。登録画像情報特徴の抽出方法は、特に限定されるものではないが、本第2実施形態においては、図5に示すように、登録画像特徴抽出部61と、登録付加情報特徴抽出部62とを用いる方法について説明する。
登録画像特徴抽出部61は、登録画像情報に含まれる登録画像を入力し、登録画像の特性を表現するベクトルである登録画像特徴を抽出する。登録画像特徴の抽出方法は、注目領域画像特徴抽出部3と同様であるので説明を省略する。
登録付加情報特徴抽出部62は、登録画像情報に含まれる登録付加情報を入力し、登録付加情報の特性を表現するベクトルである登録付加情報特徴を抽出する。登録付加情報特徴の抽出方法は、注目領域付加情報提示部4の第1の実施例で説明した通りである。
このように、登録画像情報特徴抽出部6は、登録画像特徴と登録付加情報特徴とを合わせて、登録画像情報特徴とし、この登録画像情報特徴を出力する。
次に、画像・付加情報間関係性学習部7は、注目領域付加情報提示部4に保持されている画像・付加情報関係モデルに登録画像情報特徴を入力し、この登録画像情報特徴から画像・付加情報関係モデルを学習し、画像・付加情報関係モデルを更新する。画像・付加情報関係モデルの学習方法は、特に限定されるものではないが、本第2実施形態では、以下の4つの実施例について説明する。
[第1の実施例]
注目領域付加情報提示部4が、画像・付加情報関係モデルとして、各言語ラベルi(i=1,2,…,d)に対応する画像特徴空間内のK個の代表点 ̄xi,j(j=1,2,…,K)、及び各代表点に関連付けられた画像情報とその画像情報特徴とを保持する場合を考える。
このとき、まず、登録付加情報yに含まれる言語ラベルi(すなわち、登録付加情報特徴の中で要素が1である箇所)それぞれについて、登録画像特徴xへの距離が最も近く、かつxへの距離がある定められた閾値以下の代表点を選択し(この閾値を無限大に設定すれば、閾値に関する条件が外されることに注意)、その代表点に登録画像情報特徴及び対応する登録画像情報を関連付ける。そして、ここで追加された登録画像特徴を含め、K個の代表点全てに関連付けられた画像特徴を用いて、k−meansクラスタリングを行い、K個の代表点を再構成する。
上記過程を登録画像情報が1つ入るごとに行っても良く、また、登録画像情報がある一定数蓄積された時点で行って、それまでは上記の過程を行わない方法でも良い。
[第2の実施例]
注目領域付加情報提示部4が、画像・付加情報関係モデルとして、各言語ラベルi(i=1,2,…,d)に対応する画像特徴空間の混合正規分布、及び各言語ラベルに関連付けられた画像情報とその画像情報特徴とを保持する場合を考える。ここで、各言語ラベルiに対応する混合正規分布の混合数は、Kとして固定する。
このとき、まず、登録付加情報yに含まれる言語ラベルiに対応する混合正規分布それぞれに、登録画像情報特徴及び対応する登録画像情報を関連付ける。そして、この混合正規分布に関連付けられた画像特徴を用いて、言語ラベルiに対応する登録画像特徴の混合正規分布を学習する。混合正規分布の学習には、一般的なEMアルゴリズム(k−meansも含む)を用いる。
上記過程についても、登録画像情報が1つ入るごとに行っても、登録画像情報がある一定数蓄積されるまで行わなくても良い。
[第3の実施例]
注目領域付加情報提示部4が、画像・付加情報関係モデルとして、各言語ラベルi(i=1,2,…,d)に対応する画像特徴空間内のサポートベクトルマシン、及び各言語ラベルに関連付けられた画像情報とその画像情報特徴とを保持する場合を考える。ここで、言語ラベルiに対応する画像特徴空間内のサポートベクトルマシンとは、言語ラベルiが付与された画像の特徴と、それが付与されていない画像の特徴とを識別するためのサポートベクトルマシンである。
このとき、まず、登録付加情報yに言語ラベルiが含まれる場合、言語ラベルiに対応するサポートベクトルマシンに正例として、登録付加情報yに言語ラベルiが含まれない場合には、言語ラベルiに対応するサポートベクトルマシンに負例として、それぞれ登録画像情報特徴及び対応する登録画像情報を関連付ける。そして、この関連付けられた画像特徴を用いて、各言語ラベルのサポートベクトルマシンを再学習する。
上記過程については、基本的には、登録画像情報がある一定数蓄積されるまで行わない。
[第4の実施例]
画像・付加情報関係モデルとして、潜在変数モデルと、画像・潜在変数関係モデルと、付加情報・潜在変数関係モデルとを用いる場合を考える。潜在変数モデルは、蓄積潜在変数集合を入力し、この蓄積潜在変数の構造を記述するモデルである。
潜在変数モデルの学習方法は、特に限定されるものではないが、本第4の実施例では、以下の2つの態様例について説明する。いずれの態様例も、潜在変数モデルとして、潜在変数Zの生起確率p(z)を採用する。
[第1の態様例]
蓄積潜在変数集合Zを用いた以下の多点近似の数式(11)によって、潜在変数モデルp(z)を決定する。
Figure 2010282276
ここで、δa,bは、クロネッカーのデルタである。
[第2の実施例]
正準相関分析の確率的な構造を考慮し、潜在変数モデルp(z)を、次式(12)で示すように設定する。
Figure 2010282276
このようにして、潜在変数モデルは、潜在変数モデルp(z)を抽出して出力する。
画像・潜在変数関係モデルは、蓄積画像特徴集合、及び蓄積潜在変数集合を用いて、登録画像と潜在変数との関係性を記述するモデルである。画像・潜在変数関係モデルの学習方法は、特に限定されるものではないが、本第4の実施例では、以下の2つの態様例について説明する。いずれも、画像・潜在変数関係モデルとして、潜在変数zが与えられたときの画像特徴xの条件付生起確率p(x|z)を採用する。
[第1の態様例]
蓄積潜在変数集合の各要素zについて、画像・潜在変数関係モデルp(x|z)を以下の数式(13)で示すように決定する。
Figure 2010282276
但し、〜zは、蓄積画像特徴xを信号系列圧縮を用いて変換した蓄積潜在変数であり、βは、予め定められた定数である。
[第2の態様例]
正準相関分析の確率的な構造を考慮し、画像・潜在変数関係モデルp(x|z)を以下の数式(14)で示すように決定する。
Figure 2010282276
但し、SCxxは、完全蓄積画像特徴と対応する蓄積付加情報特徴との集合、完全蓄積画像特徴、完全蓄積画像特徴に対応する蓄積付加情報特徴、及びその各要素の生起確率から、以下の数式(15)によって算出する。
Figure 2010282276
このようにして、画像・潜在変数関係モデルは、画像・潜在変数関係モデルを抽出して出力する。
付加情報・潜在変数関係モデルは、蓄積付加情報特徴集合、及び蓄積潜在変数集合を用いて、付加情報と潜在変数との関係性を記述するモデルである。付加情報・潜在変数関係モデルの学習方法は、特に限定されるものではないが、本第4の実施例では、以下の2つの態様例について述べる。いずれも、付加情報・潜在変数関係モデルとして、潜在変数zが与えられたときの付加情報特徴yの条件付生起確率p(y|z)を採用する。
[第1の態様例]
蓄積潜在変数集合の各要素zについて、付加情報・潜在変数関係モデルp(y|z)を以下の数式(16)、(17)、(18)、(19)で示すように決定する。
Figure 2010282276
Figure 2010282276
Figure 2010282276
Figure 2010282276
ここで、μは0≦μ≦1を満たす定数であり、yn,iは、蓄積付加情報特徴yの第i要素である。すなわち、上記の関係式は、まず、各言語ラベルが独立に生起することを仮定し(第1の関係式)、各言語ラベルの生起確率を、各サンプルnでの言語ラベルの経験分布(第2の関係式のδyi,yn,iに相当)と全サンプルでの言語ラベルの経験分布(第2の関係式のM/Mに相当)とを混合比μで混合して生成することを意味する。
[第2の態様例]
正準相関分析の確率的な構造を考慮し、付加情報・潜在変数関係モデルp(y|z)を以下の数式(20)に示すように決定する。
Figure 2010282276
但し、SCyyは、完全蓄積画像特徴と対応する蓄積付加情報特徴との集合、完全蓄積画像特徴、完全蓄積画像特徴に対応する蓄積付加情報特徴、及びその各要素の生起確率から、以下の数式(21)によって算出する。
Figure 2010282276
このように、付加情報・潜在変数関係モデルは、付加情報・潜在変数関係モデルを抽出し、これを出力する。
上述したように、画像・付加情報間関係性学習部7は、潜在変数モデル、画像・潜在変数関係モデル、及び付加情報・潜在変数関係モデルを合わせた画像・付加情報関係モデルに登録画像情報特徴を入力し、この登録画像情報特徴から画像・付加情報関係モデルを学習し、画像・付加情報関係モデルを更新する。
次に、本第2実施形態の動作について説明する。
図6は、本第2実施形態による映像認識理解装置の動作を説明するためのフローチャートである。なお、注目度画像抽出部1、注目領域抽出部2、注目領域画像特徴抽出部3、注目領域付加情報提示部4による処理は、上述した第1実施形態における図4に示すフローチャートと同様であるので説明を省略する。
まず、画像情報登録部5は、登録画像、及び登録付加情報を合わせて、登録画像情報として登録する(ステップSb1)。次に、登録画像情報特徴抽出部6において、登録画像特徴抽出部61は、登録画像情報に含まれる登録画像の特性を表現するベクトルである登録画像特徴を抽出する(ステップSb2)。また、登録付加情報特徴抽出部62は、登録画像情報に含まれる登録付加情報の特性を表現するベクトルである登録付加情報特徴を抽出する(ステップSb3)。すなわち、登録画像情報特徴抽出部6は、登録画像特徴と登録付加情報特徴とを合わせた、上記登録画像情報の特性を表現するベクトルである登録画像情報特徴を抽出する。そして、画像・付加情報間関係性学習部7は、注目領域付加情報提示部4に保持されている画像・付加情報関係モデルに登録画像情報特徴を入力し、この登録画像情報特徴から画像・付加情報関係モデルを学習し、かつ更新する(ステップSb4)。
C.第3実施形態
次に、本発明の第3実施形態について説明する。
図7は、本第3実施形態による映像認識理解装置の構成を示すブロック図である。図において、本第3実施形態による映像認識理解装置は、注目度画像抽出部1と、注目領域抽出部2と、注目領域画像特徴抽出部3と、注目領域付加情報提示部4と、画像情報登録部5と、登録画像情報特徴抽出部6と、画像・付加情報間関係性学習部7と、入力付加情報特徴抽出部8と、画像検索部9とから構成される。該映像認識理解装置は、入力映像、画像・付加情報関係モデル、登録画像、登録付加情報、及び与えられた入力床情報を入力し、入力付加情報との類似性が高い画像を登録画像の中から抽出して出力する。
なお、注目度画像抽出部1、注目領域抽出部2、注目領域画像特徴抽出部3、注目領域付加情報提示部4、画像情報登録部5、登録画像情報特徴抽出部6、画像・付加情報間関係性学習部7は、第1及び第2実施形態と同様のため、説明を省略する。但し、これらの過程を実行しなくても良い。
入力付加情報特徴抽出部8は、入力付加情報を入力し、この入力付加情報の特性を表現するベクトルである入力付加情報特徴を抽出し、この入力付加情報特徴を出力する。入力付加情報特徴の抽出方法は、注目領域付加情報提示部4での第1の実施例で説明した通りである。
画像検索部9は、画像・付加情報関係モデルに入力付加情報特徴を入力し、入力付加情報と類似性の高い画像である付加情報関連画像を選択し、この付加情報関連画像の集合である付加情報関連画像集合を出力する。付加情報関連画像の選択方法は、特に限定されるものではないが、本第3実施形態においては、以下の4つの実施例について説明する。
[第1の実施例]
注目領域付加情報提示部4が、画像・付加情報関係モデルとして、各言語ラベルi(i=1,2,…,d)に対応する画像特徴空間内のK個の代表点 ̄xi,j(j=1,2,…,K)、及び各代表点に関連付けられた画像情報とその画像情報特徴とを保持する場合を考える。このとき、与えられた入力付加情報に含まれる言語ラベルに対応する全ての代表点を抽出し、その代表点に関連付けられた画像情報を全て抽出する。
[第2の実施例]
注目領域付加情報提示部4が、画像・付加情報関係モデルとして、各言語ラベルi(i=1,2,…,d)に対応する画像特徴空間の混合正規分布、及び各言語ラベルに関連付けられた画像情報とその画像情報特徴とを保持する場合については、上記第1の実施例と同様である。
[第3の実施例]
注目領域付加情報提示部4が、画像・付加情報関係モデルとして、各言語ラベルi(i=1,2,…,d)に対応する画像特徴空間内のサポートベクトルマシン、及び各言語ラベルに関連付けられた画像情報とその画像情報特徴とを保持する場合を考える。このとき、与えられた入力付加情報に含まれる言語ラベルに対応するサポートベクトルマシンの全ての正例を抽出し、その正例に関連付けられた画像情報を全て抽出する。
[第4の実施例]
注目領域付加情報提示部4に保持されている画像・付加情報関係モデルに入力付加情報特徴を与えることで、蓄積画像集合から類似性の高い画像である付加情報関連画像を選択し、この付加情報関連画像の集合である付加情報関連画像集合を出力する(非特許文献1において、事後確率推定で、posteriorの大きいk個の画像を提示、もしくは閾値を超えた画像を提示することに相当)。
付加情報関連画像の選択方法は特に限定されるものではないが、本第4の実施例においては、以下の方法について説明する。
まず、入力付加情報特徴ygivenが与えられたときの画像特徴xの事後確率を、次式(22)で設定する。
Figure 2010282276
画像・付加情報間関係性学習部7において、蓄積潜在変数集合の各要素zについて画像・付加情報関係モデルを生成している場合には、上記事後確率は、次式(23)のように書き直すことができる。
Figure 2010282276
この事後確率を蓄積画像特徴集合の各要素について計算し、事後確率の大きいある一定数の画像、もしくは事後確率が閾値を超えた画像を選択し、これら画像の集合を付加情報関連画像集合とする。
このようにして、画像検索部9は、付加情報関連画像集合を選択し、この付加情報関連画像集合を出力する。
次に、本第3実施形態の動作について説明する。
図8は、本第3実施形態による映像認識理解装置の動作を説明するためのフローチャートである。なお、注目度画像抽出部1、注目領域抽出部2、注目領域画像特徴抽出部3、注目領域付加情報提示部4による処理は、上述した第1実施形態における図4に示すフローチャートと同様であるので説明を省略する。また、画像情報登録部5、登録画像情報特徴抽出部6、画像・付加情報間関係性学習部7による処理は、上述した第2実施形態における図6に示すフローチャートと同様であるので説明を省略する。
まず、入力付加情報特徴抽出部8は、入力付加情報をの特性を表現するベクトルである入力付加情報特徴を抽出する(ステップSc1)。次に、画像検索部9は、画像・付加情報関係モデルに入力付加情報特徴を入力し、入力付加情報と類似性の高い画像である付加情報関連画像を選択し、この付加情報関連画像の集合である付加情報関連画像集合を出力する(ステップSc2)。
上述した第1から第3実施形態によれば、注目度画像抽出部1及び注目領域抽出部2により、注目度に基づいて、注目領域を抽出し、注目領域付加情報提示部4により、言語情報が関連付けられた画像と言語情報とが関連付けられていない画像の双方からの、画像と言語情報の関係性を記述するための潜在変数の抽出することにより、言語情報が関連付けられた画像が少量しか利用できない場合においても、画像と言語情報との関係性を精度良く学習することができる。
すなわち、言語情報が関連付けられている画像を大量に収集することは困難である一方、言語情報が関連付けられていなくても良い場合には、画像そのものを収集することは非常に容易で大量に収集することが可能である。これら、言語情報が関連付けられていない画像を、画像と言語情報との関係性を学習する際に同時に利用することにより、少数しかない言語情報が関連付けられた画像のみを利用する場合に比べて、高い精度で画像と言語情報の関係性を学習することができる。
なお、上述した第1から第3実施形態において、注目度画像抽出部1、注目領域抽出部2、注目領域画像特徴抽出部3、注目領域付加情報提示部4、画像情報登録部5、登録画像情報特徴抽出部6、画像・付加情報間関係性学習部7、入力付加情報特徴抽出部8、及び画像検索部9の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
1 注目度画像抽出部 2 注目領域抽出部 21 注目領域事前確率画像抽出部 22 特徴量尤度算出部 23 注目領域画像抽出部 25 平滑化画像群生成部 26 注目領域画像確定部 3 注目領域画像特徴抽出部 4 注目領域付加情報提示部 5 画像情報登録部 6 登録画像情報特徴抽出部 61 登録画像特徴抽出部 62 登録付加情報特徴抽出部 7 画像・付加情報間関係性学習部 8 入力付加情報特徴抽出部 9 画像検索部

Claims (9)

  1. 入力映像に含まれる主要な領域に関する付加情報を提示する映像認識理解装置であって、
    入力映像を構成する各フレームである入力画像から、該入力画像中の各位置において人間が注意を向けやすい度合いである注目度を示す注目度画像を抽出する注目度画像抽出手段と、
    前記注目度画像から、前記入力画像中で注意を向けやすい領域を示す画像である注目領域画像を抽出する注目領域抽出手段と、
    前記注目領域画像で示される注目領域内に存在する画像の特性を表現するベクトルである注目領域画像特徴を抽出する注目領域画像特徴抽出手段と、
    画像とその画像を説明する情報である付加情報との関係性を記述するモデルである画像・付加情報関係モデルに前記注目領域画像特徴を与えることで、前記注目領域画像で示される注目領域を説明する情報である注目領域付加情報を提示する注目領域付加情報提示手段と
    を備えることを特徴とする映像認識理解装置。
  2. 与えられた画像である登録画像と該登録画像を説明する付加情報である登録付加情報とを合わせて、登録画像情報として登録する画像情報登録手段と、
    前記登録画像情報の特性を表現するベクトルである登録画像情報特徴を、前記登録画像情報から抽出する登録画像情報特徴抽出手段と、
    前記登録画像情報特徴から、前記画像・付加情報関係モデルを学習する画像・付加情報間関係性学習手段と
    を更に備えることを特徴とする請求項1に記載の映像認識理解装置。
  3. 与えられた付加情報である入力付加情報から、入力付加情報の特性を表現するベクトルである入力付加情報特徴を抽出する入力付加情報特徴抽出手段と、
    前記入力付加情報特徴を前記画像・付加情報関係モデルに与え、前記入力付加情報と類似性の高い画像情報を選択して提示する画像検索手段と
    を更に備えることを特徴とする請求項1または2に記載の映像認識理解装置。
  4. 前記注目領域抽出手段は、
    前記入力画像の各位置が注目領域である確率を示す注目領域事前確率画像を抽出する注目領域事前確率画像抽出手段と、
    前記入力画像の注目領域、及び注目領域外の領域にそれぞれ含まれる画像特徴量の尤度を示す特徴量尤度を算出する特徴量尤度算出手段と、
    前記入力画像、前記注目領域事前確率画像、及び前記特徴量尤度から、前記入力画像の注目領域を示す注目領域画像を抽出する注目領域画像抽出手段と
    を有し、
    前記注目領域事前確率画像抽出手段は、
    前記入力画像の各位置が注目領域である確率を示す注目領域事前確率画像を、前記注目度画像抽出手段によって抽出された注目度画像、及び前記注目領域画像抽出手段によって抽出された注目領域画像に基づいて抽出し、
    前記特徴量尤度算出手段は、
    前記特徴量尤度を、前記入力画像、前記注目度画像、前記注目領域事前確率画像、前記注目領域画像、及び前回迄に算出した前記特徴量尤度の少なくとも1つに基づいて算出する
    ことを特徴とする請求項1から3のいずれかに記載の映像認識理解装置。
  5. 入力映像に含まれる主要な領域に関する付加情報を提示する映像認識理解装置において用いられる映像認識理解方法であって、
    入力映像を構成する各フレームである入力画像から、該入力画像中の各位置において人間が注意を向けやすい度合いである注目度を示す注目度画像を抽出する注目度画像抽出過程と、
    前記注目度画像から、前記入力画像中で注意を向けやすい領域を示す画像である注目領域画像を抽出する注目領域抽出過程と、
    前記注目領域画像で示される注目領域内に存在する画像の特性を表現するベクトルである注目領域画像特徴を抽出する注目領域画像特徴抽出過程と、
    画像とその画像を説明する情報である付加情報との関係性を記述するモデルである画像・付加情報関係モデルに前記注目領域画像特徴を与えることで、前記注目領域画像で示される注目領域を説明する情報である注目領域付加情報を提示する注目領域付加情報提示過程と
    を含むことを特徴とする映像認識理解方法。
  6. 与えられた画像である登録画像と該登録画像を説明する付加情報である登録付加情報とを合わせて、登録画像情報として登録する画像情報登録過程と、
    前記登録画像情報の特性を表現するベクトルである登録画像情報特徴を、前記登録画像情報から抽出する登録画像情報特徴抽出過程と、
    前記登録画像情報特徴から、前記画像・付加情報関係モデルを学習する画像・付加情報間関係性学習過過程と
    を更に含むことを特徴とする請求項5に記載の映像認識理解方法。
  7. 与えられた付加情報である入力付加情報から、入力付加情報の特性を表現するベクトルである入力付加情報特徴を抽出する入力付加情報特徴抽出過程と、
    前記入力付加情報特徴を前記画像・付加情報関係モデルに与え、前記入力付加情報と類似性の高い画像情報を選択して提示する画像検索過程と
    を更に含むことを特徴とする請求項5または6に記載の映像認識理解方法。
  8. 前記注目領域抽出過程は、
    前記入力画像の各位置が注目領域である確率を示す注目領域事前確率画像を抽出する注目領域事前確率画像抽出過程と、
    前記入力画像の注目領域、及び注目領域外の領域にそれぞれ含まれる画像特徴量の尤度を示す特徴量尤度を算出する特徴量尤度算出過程と、
    前記入力画像、前記注目領域事前確率画像、及び前記特徴量尤度から、前記入力画像の注目領域を示す注目領域画像を抽出する注目領域画像抽出過程と
    を含み、
    前記注目領域事前確率画像抽出過程は、
    前記入力画像の各位置が注目領域である確率を示す注目領域事前確率画像を、前記注目度画像抽出過程によって抽出された注目度画像、及び前記注目領域画像抽出過程によって抽出された注目領域画像に基づいて抽出し、
    前記特徴量尤度算出過程は、
    前記特徴量尤度を、前記入力画像、前記注目度画像、前記注目領域事前確率画像、前記注目領域画像、及び前回迄に算出した前記特徴量尤度の少なくとも1つに基づいて算出する
    ことを特徴とする請求項5から7のいずれかに記載の映像認識理解方法。
  9. 入力映像に含まれる主要な領域に関する付加情報を提示する映像認識理解装置としてのコンピュータに実行させるプログラムであって、
    入力映像を構成する各フレームである入力画像から、該入力画像中の各位置において人間が注意を向けやすい度合いである注目度を示す注目度画像を抽出する注目度画像抽出ステップと、
    前記注目度画像から、前記入力画像中で注意を向けやすい領域を示す画像である注目領域画像を抽出する注目領域抽出ステップと、
    前記注目領域画像で示される注目領域内に存在する画像の特性を表現するベクトルである注目領域画像特徴を抽出する注目領域画像特徴抽出ステップと、
    画像とその画像を説明する情報である付加情報との関係性を記述するモデルである画像・付加情報関係モデルに前記注目領域画像特徴を与えることで、前記注目領域画像で示される注目領域を説明する情報である注目領域付加情報を提示する注目領域付加情報提示ステップと
    を実行させることを特徴とするプログラム。
JP2009133112A 2009-06-02 2009-06-02 映像認識理解装置、映像認識理解方法、及びプログラム Pending JP2010282276A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009133112A JP2010282276A (ja) 2009-06-02 2009-06-02 映像認識理解装置、映像認識理解方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009133112A JP2010282276A (ja) 2009-06-02 2009-06-02 映像認識理解装置、映像認識理解方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2010282276A true JP2010282276A (ja) 2010-12-16

Family

ID=43538977

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009133112A Pending JP2010282276A (ja) 2009-06-02 2009-06-02 映像認識理解装置、映像認識理解方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2010282276A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012230501A (ja) * 2011-04-25 2012-11-22 Canon Inc 画像処理装置、画像処理方法
JP2015210780A (ja) * 2014-04-30 2015-11-24 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
JP2016531361A (ja) * 2014-07-23 2016-10-06 小米科技有限責任公司Xiaomi Inc. 画像分割方法、画像分割装置、画像分割デバイス、プログラム及び記録媒体
CN111694444A (zh) * 2019-02-28 2020-09-22 富士施乐株式会社 信息处理装置、信息处理方法及计算机可读记录介质
CN112085534A (zh) * 2020-09-11 2020-12-15 中德(珠海)人工智能研究院有限公司 一种关注度分析方法、系统及存储介质
JP7362075B2 (ja) 2021-05-25 2023-10-17 ソフトバンク株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012230501A (ja) * 2011-04-25 2012-11-22 Canon Inc 画像処理装置、画像処理方法
JP2015210780A (ja) * 2014-04-30 2015-11-24 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
JP2016531361A (ja) * 2014-07-23 2016-10-06 小米科技有限責任公司Xiaomi Inc. 画像分割方法、画像分割装置、画像分割デバイス、プログラム及び記録媒体
US9665945B2 (en) 2014-07-23 2017-05-30 Xiaomi Inc. Techniques for image segmentation
CN111694444A (zh) * 2019-02-28 2020-09-22 富士施乐株式会社 信息处理装置、信息处理方法及计算机可读记录介质
CN112085534A (zh) * 2020-09-11 2020-12-15 中德(珠海)人工智能研究院有限公司 一种关注度分析方法、系统及存储介质
CN112085534B (zh) * 2020-09-11 2023-01-06 中德(珠海)人工智能研究院有限公司 一种关注度分析方法、系统及存储介质
JP7362075B2 (ja) 2021-05-25 2023-10-17 ソフトバンク株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Similar Documents

Publication Publication Date Title
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN109815308B (zh) 意图识别模型的确定及检索意图识别方法、装置
US8666927B2 (en) System and method for mining tags using social endorsement networks
EP4207772A1 (en) Video processing method and apparatus
WO2018196718A1 (zh) 图像消歧方法、装置、存储介质和电子设备
Xu et al. Class-incremental domain adaptation with smoothing and calibration for surgical report generation
CN108829661B (zh) 一种基于模糊匹配的新闻主体名称提取方法
JP2011198364A (ja) 媒体文書へのラベル添加方法及び該方法を用いるシステム
JP2010282276A (ja) 映像認識理解装置、映像認識理解方法、及びプログラム
JP6892606B2 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
KR101976081B1 (ko) 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램
WO2011134141A1 (en) Method of extracting named entity
US11195048B2 (en) Generating descriptions of image relationships
CN109033318B (zh) 智能问答方法及装置
CN113380360B (zh) 一种基于多模态病历图的相似病历检索方法及系统
CN112836019B (zh) 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质
CN107122378B (zh) 对象处理方法、装置及移动终端
JP5197492B2 (ja) 半教師画像認識検索装置、半教師画像認識検索方法、及びプログラム
CN116383363A (zh) 一种虚拟宠物聊天系统
CN110597982A (zh) 一种基于词共现网络的短文本主题聚类算法
JP7121819B2 (ja) 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
JP5499362B2 (ja) 半教師信号認識検索装置、半教師信号認識検索方法及びプログラム
CN115063858A (zh) 视频人脸表情识别模型训练方法、装置、设备及存储介质
CN112417845A (zh) 一种文本评价方法、装置、电子设备及存储介质
CN113052191A (zh) 一种神经语言网络模型的训练方法、装置、设备及介质