JP2010282276A

JP2010282276A - 映像認識理解装置、映像認識理解方法、及びプログラム

Info

Publication number: JP2010282276A
Application number: JP2009133112A
Authority: JP
Inventors: Shogo Kimura; 昭悟木村; Kunio Kayano; 邦夫柏野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-06-02
Filing date: 2009-06-02
Publication date: 2010-12-16

Abstract

【課題】言語情報が関連付けられた画像が少量しか利用できない場合においても、画像と言語情報との関係性を精度良く学習する。
【解決手段】注目度画像抽出部１は、入力映像のあるフレームである入力画像の中の各位置において人間が注意を向ける度合いを示す画像である注目度画像を抽出する。注目領域抽出部２は、注目度画像、及び入力画像から、入力画像中で注意を向けやすい領域を示す画像である注目領域画像を抽出する。注目領域画像特徴抽出部３は、入力画像、及び注目領域画像から、注目領域の中にある画像の特性を表現するベクトルである注目領域画像特徴を抽出する。注目領域付加情報提示部４は、画像・付加情報関係モデルに、注目領域画像特徴を与えることで、注目領域を説明する付加情報である注目領域付加情報を抽出して提示する。
【選択図】図１

Description

本発明は、映像認識理解装置、映像認識理解方法、及びプログラムに関する。

与えられた映像からその映像に含まれる人物・動物・物体・建造物など興味の対象となる領域の名称を同定する技術である映像内容理解技術、及び、与えられた名称からその名称に合致する映像中の時刻・空間領域を同定する技術である映像認識技術を計算機上で実現することは、古くからその重要性が認識され、自動映像解析・大規模映像検索・ロボットなど幅広い応用が考えられる。そのため、これまでに非特許文献１、２など、数多くの技術が開発されている。

中山、原田、國吉、大津、"画像・単語間概念対応の確率構造学習を利用した超高速画像認識・検索方法"、電子情報通信学会技術報告、ＰＲＭＵ２００７−１４７、２００７年１２月岡部、近藤、木谷、佐藤、"カテゴリの共起を考慮した物体認識"、画像の認識・理解シンポジウム、２００８年７月

しかし、上述した従来技術には、以下の２点において問題がある。
（１）これらの従来技術は、実際に検索・認識を行う前に、画像と言語情報との関連性を学習しておく必要があり、この学習の際に、同時共起する画像と言語情報との組が数多く必要となる。しかし、大量の画像に手動で言語情報を付与することは、多くの労力を伴うため、言語情報が関連付けられている画像を大量に収集することは困難である。言語情報が関連付けられた画像が十分に用意できない場合には、画像と言語情報との関係性を精度良く学習できないため、結果として画像認識・画像検索の信頼性が損なわれてしまうという問題があった。

（２）これらの従来技術は、画像の特徴量を画像全体から抽出している。画像中には、内容理解や、認識に必ずしも有用ではない領域も多く含まれており、これらの領域を予め取り除いておく、すなわち、内容理解や認識に有用な領域のみを切り出すことで、より精度の高い映像認識・理解が可能となる。しかし、これら有用な領域を自動的に抽出することは困難であるという問題があった。

本発明は、このような事情を考慮してなされたものであり、その目的は、言語情報が関連付けられた画像が少量しか利用できない場合においても、画像と言語情報との関係性を精度良く学習することができる映像認識理解装置、映像認識理解方法、及びプログラムを提供することにある。

上述した課題を解決するために、本発明は、入力映像に含まれる主要な領域に関する付加情報を提示する映像認識理解装置であって、入力映像を構成する各フレームである入力画像から、該入力画像中の各位置において人間が注意を向けやすい度合いである注目度を示す注目度画像を抽出する注目度画像抽出手段と、前記注目度画像から、前記入力画像中で注意を向けやすい領域を示す画像である注目領域画像を抽出する注目領域抽出手段と、前記注目領域画像で示される注目領域内に存在する画像の特性を表現するベクトルである注目領域画像特徴を抽出する注目領域画像特徴抽出手段と、画像とその画像を説明する情報である付加情報との関係性を記述するモデルである画像・付加情報関係モデルに前記注目領域画像特徴を与えることで、前記注目領域画像で示される注目領域を説明する情報である注目領域付加情報を提示する注目領域付加情報提示手段とを備えることを特徴とする映像認識理解装置である。

本発明は、上記の発明において、与えられた画像である登録画像と該登録画像を説明する付加情報である登録付加情報とを合わせて、登録画像情報として登録する画像情報登録手段と、前記登録画像情報の特性を表現するベクトルである登録画像情報特徴を、前記登録画像情報から抽出する登録画像情報特徴抽出手段と、前記登録画像情報特徴から、前記画像・付加情報関係モデルを学習する画像・付加情報間関係性学習手段とを更に備えることを特徴とする。

本発明は、上記の発明において、与えられた付加情報である入力付加情報から、入力付加情報の特性を表現するベクトルである入力付加情報特徴を抽出する入力付加情報特徴抽出手段と、前記入力付加情報特徴を前記画像・付加情報関係モデルに与え、前記入力付加情報と類似性の高い画像情報を選択して提示する画像検索手段とを更に備えることを特徴とする。

本発明は、上記の発明において、前記注目領域抽出手段は、前記入力画像の各位置が注目領域である確率を示す注目領域事前確率画像を抽出する注目領域事前確率画像抽出手段と、前記入力画像の注目領域、及び注目領域外の領域にそれぞれ含まれる画像特徴量の尤度を示す特徴量尤度を算出する特徴量尤度算出手段と、前記入力画像、前記注目領域事前確率画像、及び前記特徴量尤度から、前記入力画像の注目領域を示す注目領域画像を抽出する注目領域画像抽出手段とを有し、前記注目領域事前確率画像抽出手段は、前記入力画像の各位置が注目領域である確率を示す注目領域事前確率画像を、前記注目度画像抽出手段によって抽出された注目度画像、及び前記注目領域画像抽出手段によって抽出された注目領域画像に基づいて抽出し、前記特徴量尤度算出手段は、前記特徴量尤度を、前記入力画像、前記注目度画像、前記注目領域事前確率画像、前記注目領域画像、及び前回迄に算出した前記特徴量尤度の少なくとも１つに基づいて算出することを特徴とする。

また、上述した課題を解決するために、本発明は、入力映像に含まれる主要な領域に関する付加情報を提示する映像認識理解装置において用いられる映像認識理解方法であって、入力映像を構成する各フレームである入力画像から、該入力画像中の各位置において人間が注意を向けやすい度合いである注目度を示す注目度画像を抽出する注目度画像抽出過程と、前記注目度画像から、前記入力画像中で注意を向けやすい領域を示す画像である注目領域画像を抽出する注目領域抽出過程と、前記注目領域画像で示される注目領域内に存在する画像の特性を表現するベクトルである注目領域画像特徴を抽出する注目領域画像特徴抽出過程と、画像とその画像を説明する情報である付加情報との関係性を記述するモデルである画像・付加情報関係モデルに前記注目領域画像特徴を与えることで、前記注目領域画像で示される注目領域を説明する情報である注目領域付加情報を提示する注目領域付加情報提示過程とを含むことを特徴とする映像認識理解方法である。

本発明は、上記の発明において、与えられた画像である登録画像と該登録画像を説明する付加情報である登録付加情報とを合わせて、登録画像情報として登録する画像情報登録過程と、前記登録画像情報の特性を表現するベクトルである登録画像情報特徴を、前記登録画像情報から抽出する登録画像情報特徴抽出過程と、前記登録画像情報特徴から、前記画像・付加情報関係モデルを学習する画像・付加情報間関係性学習過過程とを更に含むことを特徴とする。

本発明は、上記の発明において、与えられた付加情報である入力付加情報から、入力付加情報の特性を表現するベクトルである入力付加情報特徴を抽出する入力付加情報特徴抽出過程と、前記入力付加情報特徴を前記画像・付加情報関係モデルに与え、前記入力付加情報と類似性の高い画像情報を選択して提示する画像検索過程とを更に含むことを特徴とする。

本発明は、上記の発明において、前記注目領域抽出過程は、前記入力画像の各位置が注目領域である確率を示す注目領域事前確率画像を抽出する注目領域事前確率画像抽出過程と、前記入力画像の注目領域、及び注目領域外の領域にそれぞれ含まれる画像特徴量の尤度を示す特徴量尤度を算出する特徴量尤度算出過程と、前記入力画像、前記注目領域事前確率画像、及び前記特徴量尤度から、前記入力画像の注目領域を示す注目領域画像を抽出する注目領域画像抽出過程とを含み、前記注目領域事前確率画像抽出過程は、前記入力画像の各位置が注目領域である確率を示す注目領域事前確率画像を、前記注目度画像抽出過程によって抽出された注目度画像、及び前記注目領域画像抽出過程によって抽出された注目領域画像に基づいて抽出し、前記特徴量尤度算出過程は、前記特徴量尤度を、前記入力画像、前記注目度画像、前記注目領域事前確率画像、前記注目領域画像、及び前回迄に算出した前記特徴量尤度の少なくとも１つに基づいて算出することを特徴とする。

また、上述した課題を解決するために、本発明は、入力映像に含まれる主要な領域に関する付加情報を提示する映像認識理解装置としてのコンピュータに実行させるプログラムであって、入力映像を構成する各フレームである入力画像から、該入力画像中の各位置において人間が注意を向けやすい度合いである注目度を示す注目度画像を抽出する注目度画像抽出ステップと、前記注目度画像から、前記入力画像中で注意を向けやすい領域を示す画像である注目領域画像を抽出する注目領域抽出ステップと、前記注目領域画像で示される注目領域内に存在する画像の特性を表現するベクトルである注目領域画像特徴を抽出する注目領域画像特徴抽出ステップと、画像とその画像を説明する情報である付加情報との関係性を記述するモデルである画像・付加情報関係モデルに前記注目領域画像特徴を与えることで、前記注目領域画像で示される注目領域を説明する情報である注目領域付加情報を提示する注目領域付加情報提示ステップとを実行させることを特徴とするプログラムである。

この発明によれば、言語情報が関連付けられた画像が少量しか利用できない場合においても、画像と言語情報との関係性を精度良く学習することができるという利点が得られる。

本発明の第１実施形態による映像認識理解装置の構成を示すブロック図である。本第１実施形態による注目領域抽出部２の構成を示すブロック図である。本第１実施形態による注目領域抽出部２の変形例の構成を示すブロック図である。本第１実施形態による映像認識理解装置の動作を説明するためのフローチャートである。本発明の第２実施形態による映像認識理解装置の構成を示すブロック図である。本第２実施形態による映像認識理解装置の動作を説明するためのフローチャートである。本発明の第３実施形態による映像認識理解装置の構成を示すブロック図である。本第３実施形態による映像認識理解装置の動作を説明するためのフローチャートである。

以下、本発明の一実施形態を、図面を参照して説明する。
なお、以下の説明において、式中の文字上部に￣が付いた文字は、文中において文字の前に￣を記載して示す。また、式中の文字下部に＿が付いた文字は、文中において文字の前に＿を記載して示す。同様に、式中の文字上部に〜が付いた文字は、文中において文字の前に〜を記載して示し、式中の文字上部に＾が付いた文字は、文中において文字の前に＾を記載して示す。

Ａ．第１実施形態
図１は、本第１実施形態による映像認識理解装置の構成を示すブロック図である。図において、本第１実施形態による映像認識理解装置は、注目度画像抽出部１と、注目領域抽出部２と、注目領域画像特徴抽出部３と、注目領域付加情報提示部４とで構成される。該映像認識理解装置は、予め与えられた映像である入力映像を、画像とその画像を説明する情報である付加情報との関係性を記述するモデルである画像・付加情報関係モデルに入力し、その入力映像に含まれる主要な領域に関する付加情報である注目領域付加情報を抽出して出力する。

注目度画像抽出部１は、入力映像を入力し、入力映像のあるフレームである入力画像の中の各位置において人間が注意を向ける度合いを示す画像である注目度画像を抽出し、該注目度画像を出力する。注目度画像の抽出方法は、特に限定されるものではないが、例えば、以下の方法が考えられる。

・背景差分（例えば、参考文献１「土田、川西、村瀬、高木、“背景差分法による物体検出を目的とした逐次モンテカルロ法による背景推定”、電子情報通信学会論文誌Ｄ、Ｖｏｌ．Ｊ８７−Ｄ２、Ｎｏ．５、ｐｐ．１０６２−１０７０、２００４年５月」）

・注目性に基づく方法（例えば、参考文献２「L. Itti, C. Koch, E. Niebur “A Model of Saliency-Based Visual Attention for Rapid Scene Analysis,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 20, No. 11, pp. 1254-1259, Nov 1998.」、参考文献３「Pang、木村、竹内、大和、柏野、“A stochastic model of selective visual attention with a dynamic Bayesian network,”、画像の認識・理解シンポジウム予稿集、２００８年７月」、参考文献４「宮里、木村、高木、大和、“MCMC-based particle filter を用いた人間の映像注視行動の実時間推定”、電子情報通信学会技術報告、２００９年５月」）。

このように、注目度画像抽出部１は、注目度画像を抽出し、この注目度画像を出力する。

次に、注目領域抽出部２は、注目度画像、及び入力映像を入力し、入力映像のあるフレームである入力画像中で注意を向けやすい領域を示す画像である注目領域画像を抽出し、この注目領域画像を出力する。ここで、該注目領域抽出部２による、入力画像中で注意を向けやすい領域を示す画像である注目領域画像を抽出する方法について詳細に説明する。

注目領域抽出部２は、図２に示すように、注目領域事前確率画像抽出部２１、特徴量尤度算出部２２、及び注目領域画像抽出部２３を備える。注目領域事前確率画像抽出部２１は、入力映像を構成する各フレームである入力画像の各位置が注目領域である確率を示す注目領域事前確率画像を抽出する。具体的には、注目領域事前確率画像抽出部２１は、注目度画像抽出部１からの注目度画像、及び注目領域画像抽出部２３によって抽出された注目領域画像から、入力映像中の対応するフレームである入力画像の各位置が注目領域である確率を表示する注目領域事前確率画像を抽出する。

換言すれば、注目領域事前確率画像抽出部２１は、入力画像の各位置が注目領域である確率を示す注目領域事前確率画像を、注目度画像抽出部１によって抽出された注目度画像、及び注目領域画像抽出部２３によって抽出された当該入力画像に対応する注目領域画像に基づいて抽出する。注目領域事前確率画像抽出部２１は、抽出した注目領域事前確率画像を特徴量尤度算出部２２、及び注目領域画像抽出部２３に出力する。

なお、注目領域事前確率画像抽出部２１が注目領域事前確率画像を抽出する方法は特に限定しないが、本第１実施形態においては、注目度画像からガウス混合分布のモデルパラメータを推定し、注目領域事前確率画像を生成するようにしてもよい。具体的には、注目領域事前確率画像生成部２１は、モデルパラメータの１つである混合比を、その最大値が１と等しくなるように正規化し、その後に各位置におけるガウス混合分布の確率を計算して、当該位置の注目領域事前確率画像の画素値とする。

上記第１実施形態では、全ての位置においてガウス混合分布を用いた方法によって注目領域事前確率画像を生成しているが、注目領域が画像の中心位置に存在しやすいことを考慮し、注目領域事前確率画像を生成した後、画像の左右両端もしくは上下左右の端の一定領域のピクセル値を強制的に０としてもよく、当該方法は、画像の端に注目領域が存在する可能性を排除することを意味している。若しくは、注目領域事前確率画像を生成した後、画像の中心位置からの距離に比例する重みを注目領域事前確率画像に掛け合わせ、その出力を新たに注目領域事前確率とする実施形態も考えられる。

このように、注目領域事前確率画像抽出部２１は、注目領域事前確率画像を抽出（生成、更新）して出力する。

特徴量尤度算出部２２は、入力映像のあるフレームである入力画像の注目領域、及び注目領域外の領域にそれぞれ含まれる画像特徴量の尤度を示す特徴量尤度を算出する。具体的には、特徴量尤度算出部２２は、特徴量尤度を、入力映像のあるフレームである入力画像、注目度画像抽出部１からの注目度画像、注目領域事前確率画像抽出部２１によって抽出された注目領域事前確率画像、注目領域画像抽出部２３によって抽出された注目領域画像、及び前回迄に算出した特徴量尤度の少なくとも１つに基づいて算出する。例えば、特徴量尤度算出部２２は、入力画像、注目領域事前確率画像、注目領域画像、及び前回迄に算出した特徴量尤度から、特徴量尤度を算出する。特徴量尤度算出部２２は、算出した特徴量尤度を注目領域画像抽出部２３に出力する。

特徴量尤度算出部２２が徴量尤度を算出する方法は特に限定しないが、本第１実施形態においては、ガウス混合分布モデルを利用し、入力画像、注目領域事前確率画像、及び注目領域画像に基づいて注目領域特徴量尤度を新たに生成（算出）し、入力画像、注目領域画像、及び前回迄に更新した更新後の注目領域特徴量尤度のうち少なくとも１つに基づいて、生成した注目領域特徴量尤度を更新する。

注目領域画像抽出部２３は、入力画像、注目領域事前確率画像、及び特徴量尤度から、入力画像の注目領域を示す注目領域画像を抽出する。注目領域画像抽出部２３は、抽出した注目領域画像を注目領域事前確率画像抽出部２１、及び特徴量尤度算出部２２に出力するとともに、図１の注目領域画像特徴抽出部３に出力する。注目領域画像抽出部２３が注目領域画像を抽出する方法は特に限定しないが、本第１実施形態においては、画像領域分割をある種の統計モデルに対する事後確率最大化問題として定式化し、事後確率最大化問題を統計モデルと等価なグラフの最小カットを求めることによって解決する方法（参考文献５「Y. Boykov and G. F. Lea, “Graph cuts and efficient N-D image segmentation,” International Journal of Computer Vision,Vol.70,No.2,pp.109-131,2006.」）に記載の方法を基礎としたグラフカットを用いる。

なお、注目度画像抽出部１に上述した参考文献１に記載の方法を用いる場合には、注目度画像抽出部１の出力をそのままここでの出力としても良い。

このように、注目領域抽出部２は、注目領域画像を抽出し、この注目領域画像を出力する。

（注目領域抽出部２の変形例）
また、注目領域抽出部２の変形例として、図３に示す構成も考えられる。注目領域抽出部２は、図３に示すように、注目領域事前確率画像抽出部２１、特徴量尤度算出部２２、注目領域画像抽出部２３、平滑化画像群生成部２５、及び注目領域画像確定部２６を備える。なお、注目度画像抽出部２１、及び注目領域画像抽出部２３については、図２に示す構成と同様であるため説明を省略する。

平滑化画像群生成部２５は、入力画像を異なる解像度によってそれぞれ平滑化した複数の平滑化画像からなる平滑化画像群を生成する。つまり、平滑化画像群生成部２５は、入力映像を入力し、入力映像のあるフレームである入力画像を異なる解像度によってそれぞれ平滑化した平滑化画像群を生成する。平滑化画像群生成部２５は、生成した平滑化画像群を特徴量尤度算出部２２、注目領域画像抽出部２３、及び注目領域画像確定部２６に出力する。平滑化画像群生成部２５が平滑化画像群を生成する方法は特に限定しないが、本第１実施形態では、入力画像に対し平滑化と縮小とを繰り返す方法について説明する。

平滑化画像群生成部２５は、時刻ｔの平滑化画像の初期値Ｈ_０（ｔ）とし、ある整数ｋについて平滑化画像Ｈ_ｋ−１（ｔ）が与えられているとき、入力画像を所定の標準偏差パラメータσ_ｇを有するガウス平滑化フィルタを用いて平滑化する。平滑化画像群生成部２５は、ガウス平滑化フィルタを用いて平滑化した画像を、下記式（１）を満たす所定の倍率ａ_ｇを用いて縮小し、平滑化画像Ｈ_ｋ（ｔ）を生成する。

整数ｋが平滑化画像における平滑化の度合いと対応していることから、以下、整数ｋを平滑化係数と呼ぶ。上記の過程をｋ＝１，２，…，ｎ_ｇ−２で繰り返すことにより、平滑化画像群を形成する（下記式（２））。

このとき、特にσ_ｇ＝０，ａ_ｇ＝１とすると、各平滑化画像が全て入力画像と同一となる。以上のように、平滑化画像群生成部２５は、平滑化画像群を抽出して出力する。

注目領域事前確率画像抽出部２１は、注目度画像抽出部１からの注目度画像、及び注目領域画像抽出部２３からの注目領域画像から、入力映像中の対応するフレームである入力画像の各位置が注目領域である確率を表示する注目領域事前確率画像を抽出する。注目領域事前確率画像抽出部２１が注目領域事前確率画像を抽出する方法は、特に限定しないが、上述した第１実施形態と同様であるため説明を省略する。但し、以下の点が第１実施形態と異なる。

１．ある時刻ｔにおいて本処理を初めて実行する際、即ち、以降の特徴量尤度算出部２２、及び注目領域画像抽出部２３において、平滑化係数最大の平滑化画像（下記式（３））が用いられる場合には、上述した第１実施形態と同様の方法で注目領域事前確率画像（ｄ）を更新する。

２．ある時刻ｔにおいて本処理を再度実行する際、即ち、以降の特徴量尤度算出部２２、及び注目領域画像抽出部２３において平滑化画像Ｈ_ｋ（ｔ）（ｋ＝ｎ_ｇ−２，ｎ_ｇ−３，・・・・，０）が用いる場合には、以下の変更を行った上で、第１実施形態と同様の処理を行う。
（１）第１実施形態に記載の更新式のパラメータの一つであるσ_１、及び、１時点前（時刻ｔ−１）注目領域事前確率の分散（下記式（４））を強制的に０に置き換える。

（２）１時点前（時刻ｔ−１）の注目領域画像Ａ（ｔ−１）に代えて、平滑化係数が１つ大きい平滑化画像Ｈ_ｋ＋１（ｔ）を用いて生成された注目領域画像Ａ（ｔ；ｋ＋１）を用いる。
（３）注目領域事前確率の分散（下記式（５））を更新せずに、平均ξ_１（ｘ，ｔ）のみを第１実施形態と同様の方法で更新する。

３．入力として平滑化係数ｋの平滑化画像Ｈ_ｋ（ｔ）を用いたことを明確にするため、出力である注目領域事前確率画像をΞ_１（ｔ；ｋ）と表記する。

特徴量尤度算出部２２も、第１実施形態とほぼ同様である。但し、以下の点が第１実施形態と異なる。
１．入力画像に代えて平滑化画像Ｈ_ｋ（ｔ）（ｋ＝ｎ_ｇ−１，ｎ_ｇ−２，…，０）のうち１つを用いてもよい。このとき、時刻ｔにおいて本処理をｊ（ｊ＝１，２，…，ｎ_ｇ）回目に実行するときには、平滑化係数ｋ＝ｎ_ｇ−ｊの平滑化画像（下記式（６））が用いられる。このことは、平滑化係数が大きい平滑化画像から順に用いられることを意味する。

２．ある時刻ｔにおいて本処理を初めて実行する際、即ち、平滑化係数ｎ_ｇ−１の平滑化画像Ｈ_ｎｇ−１（ｔ）が入力として用いられる場合には、第１項目以外は第１実施形態と同様である。
３．ある時刻ｔにおいて本処理を再度実行する際、即ち、平滑化係数ｋ（ｋ＝ｎ_ｇ−２，ｎ_ｇ−１，…，０）の平滑化画像Ｈ_ｋ（ｔ）が入力として用いられる場合には、以下を用いる。
（１）１時点前（時刻ｔ−１）の注目領域画像Ａ（ｔ−１）に代えて、現時点（時刻ｔ）で平滑化係数が１つ大きい平滑化画像Ｈ_ｋ＋１（ｔ）を用いて生成された注目領域画像Ａ（ｔ；ｋ＋１）を用いる。
（２）１時点前の注目領域特徴量尤度ψ_１（ｃ，ｔ−１）に代えて、現時点で平滑化係数が１つ大きい平滑化画像Ｈ_ｋ＋１（ｔ）を用いて生成された注目領域特徴量尤度ψ_１（ｃ，ｔ；ｋ＋１）を用いる。
（３）１時点前の非注目領域特徴量尤度ψ_２（ｃ，ｔ−１）に代えて、現時点で平滑化係数が１つ大きい平滑化画像Ｈ_ｋ＋１（ｔ）を用いて生成された非注目領域特徴量尤度ψ_２（ｃ，ｔ；ｋ＋１）を用いる。
４．入力として平滑化係数ｋの平滑化画像Ｈ_ｋ（ｔ）を用いたことを明確にするため、出力である注目領域特徴量尤度をψ_１（ｔ；ｋ）、非注目領域特徴量尤度をψ_２（ｔ；ｋ）と表記する。

注目領域画像確定部２６は、平準化画像群に対し、注目領域事前確率画像抽出部２１、特徴量尤度算出部２２、注目領域画像抽出部２３の処理を実行し、入力画像の注目領域画像を確定する。即ち、注目領域画像確定部２６は、平滑化係数ｋの平滑化画像Ｈ_ｋ（ｔ）に対し、注目領域事前確率画像抽出部２１、特徴量尤度算出部２２、及び注目領域画像抽出部２３を順に実行し、抽出された注目領域画像Ａ（ｔ；ｋ）を入力し、１つ前のステップで抽出された注目領域画像Ａ（ｔ；ｋ＋１）からの変化がない場合には、現時点（時刻ｔ）の入力画像に対しての最終的な注目領域画像を確定し、この注目領域画像Ａ（ｔ）＝Ａ（ｔ；ｋ）を出力し、変化がある場合には、ｋを１つ小さくして、再度注目領域事前確率画像抽出部２１に戻る。

本発明では、主に以下の２点により、上記の画像注目領域抽出方法を実現している。

（１）注目度画像抽出部１による、人間の視覚機構を模擬したモデルに基づく画像注目性の算出、並びに、注目領域事前確率画像の生成、及び注目領域特徴量尤度の算出による、画像注目性に基づく注目領域、非注目領域に関する事前情報の生成
（２）注目領域事前確率画像の更新、及び非注目領域特徴量尤度の算出による、注目領域、非注目領域に関する事前情報の逐次更新

物体領域・背景領域に関する事前情報が全く与えられない場合においても領域分割が可能になる。従って、物体領域、背景領域に関する事前知識がない場合でも、精度良く物体領域と背景領域を分割して、注目している領域（物体領域）を抽出することができるようになる。

これにより、物体領域・背景領域に関する事前情報が全く与えられない場合においても領域分割が可能になる。従って、物体領域・背景領域に関する事前知識がない場合でも、精度良く物体領域と背景領域を分割して、注目している領域（物体領域）を抽出することができるようになる。

次に、図１に説明を戻すと、注目領域画像特徴抽出部３は、入力映像のあるフレームである入力画像、及び注目領域画像を入力し、注目領域の中にある画像の特性を表現するベクトルである注目領域画像特徴を抽出し、この注目領域画像特徴を出力する。注目領域画像特徴の抽出方法は、特に限定されるものではないが、例えば、以下のような方法、及びそれらの任意の組み合わせが考えられる。

・色ヒストグラム
・画像中の各小領域のディジタルコサイン変換の低周波成分
・Ｈａａｒｗａｖｅｌｅｔの低周波及び／または高周波成分のヒストグラム
・高次局所自己相関特徴（例えば、参考文献６「N. Otsu and T. Kurita “A new scheme for practical flexible and intelligent vision systems,” Proc. IAPR Workshop on Computer Vision, pp.431-435, 1988.」参照）
・ＳＩＦＴ（例えば、参考文献７「D. Lowe, “Distinctive image features from scale-invariant keypoints, ”International Journal of Computer Vision, Vol.60, No.2, pp.91-110, 2004.」参照）

但し、上記の注目領域抽出部２において、注目領域画像中に複数の注目領域が含まれている場合には、各注目領域から個別に注目領域画像を抽出する。

このように、注目領域画像特徴抽出部３は、注目領域画像特徴を抽出し、この注目領域画像特徴を出力する。

注目領域付加情報提示部４は、画像とその画像を説明する情報である付加情報との関係性を記述するモデルである画像・付加情報関係モデルを予め保持しており（あるいは、外部から提供されてもよい）、該画像・付加情報関係モデルに、注目領域画像特徴を与えることで、注目領域を説明する付加情報である注目領域付加情報を抽出し、この注目領域付加情報を出力する。

注目領域付加情報の抽出方法は、特に限定されるものではないが、本第１実施形態では、以下の４つの実施例について説明する。

［第１の実施例］
本第１実施例においては、付加情報として言語ラベルを想定し、その言語ラベルの有無を表現する２値ベクトルを付加情報特徴と呼び、以降、この付加情報特徴を付加情報に換えて用いる。

付加情報特徴の具体的な構成は、以下の通りである。付加情報特徴は、考慮すべき言語ラベルの総数と同数の次元を持つベクトルであり、ベクトルの各次元が言語ラベルに対応する。以降、便宜的に、言語ラベルを、上記ベクトルにおいて対応する次元のインデックスを用いて表現する。付加情報に言語ラベルｉが含まれている場合には、付加情報特徴の第ｉ次元を１とし、そうではない場合には、０とする。

また、本第１の実施例では、画像・付加情報関係モデルとして、各言語ラベルｉ（ｉ＝１，２，…，ｄ_ｙ）に対応する画像特徴空間内のＫ_ｉ個の代表点￣ｘ_ｉ，ｊ（ｊ=１，２，…，Ｋ_ｉ）、及び各代表点に関連付けられた画像情報とその画像情報特徴とを保持する場合を考える。すなわち、代表点は、総計であり、次式（７）で表される個数、存在することになる。

このとき、注目領域画像特徴ｘへの距離が近い一定数の代表点、もしくはｘへの距離がある定められた閾値以下の代表点を選択し、その代表点に対応する言語ラベルを注目領域付加情報として抽出する。

［第２の実施例］
画像・付加情報関係モデルとして、各言語ラベルｉ（ｉ＝１，２，…，ｄ_ｙ）に対応する画像特徴空間の混合正規分布、及び各言語ラベルに関連付けられた画像情報とその画像情報特徴とを保持する場合を考える。
このとき、注目領域画像特徴ｘの生起確率が高い一定数の混合正規分布、もしくはｘの生起確率がある定められた閾値以上の混合正規分布を選択し、その混合正規分布に対応する言語ラベルを注目領域付加情報として抽出する。

［第３の実施例］
画像・付加情報関係モデルとして、各言語ラベルｉ（ｉ＝１，２，…，ｄ_ｙ）に対応する画像特徴空間内のサポートベクトルマシン、及び各言語ラベルに関連付けられた画像情報とその画像情報特徴を保持する場合を考える。
ここで、言語ラベルｉに対応する画像特徴空間内のサポートベクトルマシンとは、言語ラベルｉが付与された画像の特徴と、それが付与されていない画像の特徴とを識別するためのサポートベクトルマシンである。このとき、注目領域画像特徴ｘが各サポートベクトルマシンにおいて正例と判定された場合のみ、対応する言語ラベルを選択し、その言語ラベルを注目領域付加情報として抽出する。

［第４の実施例］
予め保持している画像・付加情報関係モデルに注目領域画像特徴を与えることで、注目領域画像と類似性の高い画像である注目領域付加情報を抽出し、この注目領域付加情報を出力する。注目領域付加情報の選択方法は、特に限定されるものではないが、本第４実施例においては、以下の方法について述べる。

まず、注目領域画像特徴ｘ_{ｇｉｖｅｎ}が与えられたときの付加情報特徴ｙの事後確率を、次式（８）で設定する。

注目領域付加情報提示部４において、蓄積潜在変数集合の各要素ｚ_ｎについて画像・付加情報関係モデルを生成している場合には、上記の事後確率は、次式（９）のように書き直すことができる。

次に、次式（１０）に従って、この事後確率が最大となる付加情報特徴〜ｙを算出する。

上記事後確率最大となる付加情報特徴〜ｙは、一般に２値ベクトルとはならないことに注意する。この事後確率最大の付加情報特徴〜ｙの各要素のうち、値の大きいある一定数の要素、もしくは値が閾値を超えた要素を選択し、それぞれの要素に対応する言語ラベルを集めて画像関連付加情報とする。

このようにして、注目領域付加情報提示部４は、注目領域付加情報を抽出し、この注目領域付加情報を出力（提示）する。

次に、本第１実施形態の動作について説明する。
図４は、本第１実施形態による映像認識理解装置の動作を説明するためのフローチャートである。まず、注目度画像抽出部１は、入力される入力映像から、該入力映像のあるフレームである入力画像の中の各位置において人間が注意を向ける度合いを示した画像である注目度画像を抽出する（ステップＳａ１）。次に、注目領域抽出部２は、注目度画像、及び入力画像から、入力画像中で注意を向けやすい領域を示す画像である注目領域画像を抽出する（ステップＳａ２）。

次に、注目領域画像特徴抽出部３は、入力画像、及び注目領域画像から、注目領域の中にある画像の特性を表現するベクトルである注目領域画像特徴を抽出する（ステップＳａ３）。そして、注目領域付加情報提示部４は、画像とその画像を説明する情報である付加情報との関係性を記述する画像・付加情報関係モデルに、注目領域画像特徴を与えることで、注目領域を説明する付加情報である注目領域付加情報を抽出し、この注目領域付加情報を提示する（ステップＳａ４）。

Ｂ．第２実施形態
次に、本発明の第２実施形態について説明する。
図５は、本第２実施形態による映像認識理解装置の構成を示すブロック図である。図において、本第２実施形態による映像認識理解装置は、注目度画像抽出部１と、注目領域抽出部２と、注目領域画像特徴抽出部３と、注目領域付加情報提示部４と、画像情報登録部５と、登録画像情報特徴抽出部６と、画像・付加情報間関係性学習部７とで構成される。該映像認識理解装置は、入力映像、画像・付加情報関係モデル、ある与えられた画像である登録画像、登録画像を説明する付加情報である登録付加情報を入力し、注目領域付加情報を抽出して出力する。

なお、注目度画像抽出部１、注目領域抽出部２、注目領域画像特徴抽出部３、注目領域付加情報提示部４は、第１実施形態と同様のため、説明を省略する。但し、登録画像として入力画像とは別途準備した新しい画像が与えられる場合には、これらの過程を実行しなくても良い。

画像情報登録部５は、登録画像、及び登録付加情報を入力し、これら２つを合わせて、登録画像情報として登録し、この登録画像情報を出力する。登録画像情報の登録方法は、特に限定されるものではないが、本第２実施形態においては、以下の２つの実施例について説明する。

［第１の実施例］
登録画像として注目領域内の入力画像を考え、この注目領域内の入力画像に対して、（例えば、キーボードや、音声入力などを用いて）手動で登録付加情報としての言語ラベルを与える。

［第２の実施例］
登録画像として入力画像とは別途準備した新しい画像を想定し、この画像に対して、第１の実施例と同様に、手動で登録付加情報としての言語ラベルを与える。

このように、画像情報登録部５は、登録画像と登録付加情報とを登録し、これらを合わせた登録画像情報を出力する。

次に、登録画像情報特徴抽出部６は、上記登録画像情報を入力し、登録画像情報の特性を表現するベクトルである登録画像情報特徴を抽出し、この登録画像情報特徴を出力する。登録画像情報特徴の抽出方法は、特に限定されるものではないが、本第２実施形態においては、図５に示すように、登録画像特徴抽出部６１と、登録付加情報特徴抽出部６２とを用いる方法について説明する。

登録画像特徴抽出部６１は、登録画像情報に含まれる登録画像を入力し、登録画像の特性を表現するベクトルである登録画像特徴を抽出する。登録画像特徴の抽出方法は、注目領域画像特徴抽出部３と同様であるので説明を省略する。

登録付加情報特徴抽出部６２は、登録画像情報に含まれる登録付加情報を入力し、登録付加情報の特性を表現するベクトルである登録付加情報特徴を抽出する。登録付加情報特徴の抽出方法は、注目領域付加情報提示部４の第１の実施例で説明した通りである。

このように、登録画像情報特徴抽出部６は、登録画像特徴と登録付加情報特徴とを合わせて、登録画像情報特徴とし、この登録画像情報特徴を出力する。

次に、画像・付加情報間関係性学習部７は、注目領域付加情報提示部４に保持されている画像・付加情報関係モデルに登録画像情報特徴を入力し、この登録画像情報特徴から画像・付加情報関係モデルを学習し、画像・付加情報関係モデルを更新する。画像・付加情報関係モデルの学習方法は、特に限定されるものではないが、本第２実施形態では、以下の４つの実施例について説明する。

［第１の実施例］
注目領域付加情報提示部４が、画像・付加情報関係モデルとして、各言語ラベルｉ（ｉ＝１，２，…，ｄ_ｙ）に対応する画像特徴空間内のＫ_ｉ個の代表点￣ｘ_ｉ，ｊ（ｊ＝１，２，…，Ｋ_ｉ）、及び各代表点に関連付けられた画像情報とその画像情報特徴とを保持する場合を考える。

このとき、まず、登録付加情報ｙに含まれる言語ラベルｉ（すなわち、登録付加情報特徴の中で要素が１である箇所）それぞれについて、登録画像特徴ｘへの距離が最も近く、かつｘへの距離がある定められた閾値以下の代表点を選択し（この閾値を無限大に設定すれば、閾値に関する条件が外されることに注意）、その代表点に登録画像情報特徴及び対応する登録画像情報を関連付ける。そして、ここで追加された登録画像特徴を含め、Ｋ_ｉ個の代表点全てに関連付けられた画像特徴を用いて、ｋ−ｍｅａｎｓクラスタリングを行い、Ｋ_ｉ個の代表点を再構成する。

上記過程を登録画像情報が１つ入るごとに行っても良く、また、登録画像情報がある一定数蓄積された時点で行って、それまでは上記の過程を行わない方法でも良い。

［第２の実施例］
注目領域付加情報提示部４が、画像・付加情報関係モデルとして、各言語ラベルｉ（ｉ＝１，２，…，ｄ_ｙ）に対応する画像特徴空間の混合正規分布、及び各言語ラベルに関連付けられた画像情報とその画像情報特徴とを保持する場合を考える。ここで、各言語ラベルｉに対応する混合正規分布の混合数は、Ｋ_ｉとして固定する。

このとき、まず、登録付加情報ｙに含まれる言語ラベルｉに対応する混合正規分布それぞれに、登録画像情報特徴及び対応する登録画像情報を関連付ける。そして、この混合正規分布に関連付けられた画像特徴を用いて、言語ラベルｉに対応する登録画像特徴の混合正規分布を学習する。混合正規分布の学習には、一般的なＥＭアルゴリズム（ｋ−ｍｅａｎｓも含む）を用いる。

上記過程についても、登録画像情報が１つ入るごとに行っても、登録画像情報がある一定数蓄積されるまで行わなくても良い。

［第３の実施例］
注目領域付加情報提示部４が、画像・付加情報関係モデルとして、各言語ラベルｉ（ｉ＝１，２，…，ｄ_ｙ）に対応する画像特徴空間内のサポートベクトルマシン、及び各言語ラベルに関連付けられた画像情報とその画像情報特徴とを保持する場合を考える。ここで、言語ラベルｉに対応する画像特徴空間内のサポートベクトルマシンとは、言語ラベルｉが付与された画像の特徴と、それが付与されていない画像の特徴とを識別するためのサポートベクトルマシンである。

このとき、まず、登録付加情報ｙに言語ラベルｉが含まれる場合、言語ラベルｉに対応するサポートベクトルマシンに正例として、登録付加情報ｙに言語ラベルｉが含まれない場合には、言語ラベルｉに対応するサポートベクトルマシンに負例として、それぞれ登録画像情報特徴及び対応する登録画像情報を関連付ける。そして、この関連付けられた画像特徴を用いて、各言語ラベルのサポートベクトルマシンを再学習する。

上記過程については、基本的には、登録画像情報がある一定数蓄積されるまで行わない。

［第４の実施例］
画像・付加情報関係モデルとして、潜在変数モデルと、画像・潜在変数関係モデルと、付加情報・潜在変数関係モデルとを用いる場合を考える。潜在変数モデルは、蓄積潜在変数集合を入力し、この蓄積潜在変数の構造を記述するモデルである。

潜在変数モデルの学習方法は、特に限定されるものではないが、本第４の実施例では、以下の２つの態様例について説明する。いずれの態様例も、潜在変数モデルとして、潜在変数Ｚの生起確率ｐ（ｚ）を採用する。

［第１の態様例］
蓄積潜在変数集合Ｚを用いた以下の多点近似の数式（１１）によって、潜在変数モデルｐ（ｚ）を決定する。

ここで、δ_ａ，ｂは、クロネッカーのデルタである。

［第２の実施例］
正準相関分析の確率的な構造を考慮し、潜在変数モデルｐ（ｚ）を、次式（１２）で示すように設定する。

このようにして、潜在変数モデルは、潜在変数モデルｐ（ｚ）を抽出して出力する。

画像・潜在変数関係モデルは、蓄積画像特徴集合、及び蓄積潜在変数集合を用いて、登録画像と潜在変数との関係性を記述するモデルである。画像・潜在変数関係モデルの学習方法は、特に限定されるものではないが、本第４の実施例では、以下の２つの態様例について説明する。いずれも、画像・潜在変数関係モデルとして、潜在変数ｚが与えられたときの画像特徴ｘの条件付生起確率ｐ（ｘ｜ｚ）を採用する。

［第１の態様例］
蓄積潜在変数集合の各要素ｚ_ｎについて、画像・潜在変数関係モデルｐ（ｘ｜ｚ_ｎ）を以下の数式（１３）で示すように決定する。

但し、〜ｚは、蓄積画像特徴ｘを信号系列圧縮を用いて変換した蓄積潜在変数であり、βは、予め定められた定数である。

［第２の態様例］
正準相関分析の確率的な構造を考慮し、画像・潜在変数関係モデルｐ（ｘ｜ｚ）を以下の数式（１４）で示すように決定する。

但し、Ｓ_Ｃｘｘは、完全蓄積画像特徴と対応する蓄積付加情報特徴との集合、完全蓄積画像特徴、完全蓄積画像特徴に対応する蓄積付加情報特徴、及びその各要素の生起確率から、以下の数式（１５）によって算出する。

このようにして、画像・潜在変数関係モデルは、画像・潜在変数関係モデルを抽出して出力する。

付加情報・潜在変数関係モデルは、蓄積付加情報特徴集合、及び蓄積潜在変数集合を用いて、付加情報と潜在変数との関係性を記述するモデルである。付加情報・潜在変数関係モデルの学習方法は、特に限定されるものではないが、本第４の実施例では、以下の２つの態様例について述べる。いずれも、付加情報・潜在変数関係モデルとして、潜在変数ｚが与えられたときの付加情報特徴ｙの条件付生起確率ｐ（ｙ｜ｚ）を採用する。

［第１の態様例］
蓄積潜在変数集合の各要素ｚ_ｎについて、付加情報・潜在変数関係モデルｐ（ｙ｜ｚ_ｎ）を以下の数式（１６）、（１７）、（１８）、（１９）で示すように決定する。

ここで、μは０≦μ≦１を満たす定数であり、ｙ_ｎ，ｉは、蓄積付加情報特徴ｙ_ｎの第ｉ要素である。すなわち、上記の関係式は、まず、各言語ラベルが独立に生起することを仮定し（第１の関係式）、各言語ラベルの生起確率を、各サンプルｎでの言語ラベルの経験分布（第２の関係式のδ_{ｙｉ，ｙｎ，ｉ}に相当）と全サンプルでの言語ラベルの経験分布（第２の関係式のＭ_ｉ／Ｍに相当）とを混合比μで混合して生成することを意味する。

［第２の態様例］
正準相関分析の確率的な構造を考慮し、付加情報・潜在変数関係モデルｐ（ｙ｜ｚ）を以下の数式（２０）に示すように決定する。

但し、Ｓ_Ｃｙｙは、完全蓄積画像特徴と対応する蓄積付加情報特徴との集合、完全蓄積画像特徴、完全蓄積画像特徴に対応する蓄積付加情報特徴、及びその各要素の生起確率から、以下の数式（２１）によって算出する。

このように、付加情報・潜在変数関係モデルは、付加情報・潜在変数関係モデルを抽出し、これを出力する。

上述したように、画像・付加情報間関係性学習部７は、潜在変数モデル、画像・潜在変数関係モデル、及び付加情報・潜在変数関係モデルを合わせた画像・付加情報関係モデルに登録画像情報特徴を入力し、この登録画像情報特徴から画像・付加情報関係モデルを学習し、画像・付加情報関係モデルを更新する。

次に、本第２実施形態の動作について説明する。
図６は、本第２実施形態による映像認識理解装置の動作を説明するためのフローチャートである。なお、注目度画像抽出部１、注目領域抽出部２、注目領域画像特徴抽出部３、注目領域付加情報提示部４による処理は、上述した第１実施形態における図４に示すフローチャートと同様であるので説明を省略する。

まず、画像情報登録部５は、登録画像、及び登録付加情報を合わせて、登録画像情報として登録する（ステップＳｂ１）。次に、登録画像情報特徴抽出部６において、登録画像特徴抽出部６１は、登録画像情報に含まれる登録画像の特性を表現するベクトルである登録画像特徴を抽出する（ステップＳｂ２）。また、登録付加情報特徴抽出部６２は、登録画像情報に含まれる登録付加情報の特性を表現するベクトルである登録付加情報特徴を抽出する（ステップＳｂ３）。すなわち、登録画像情報特徴抽出部６は、登録画像特徴と登録付加情報特徴とを合わせた、上記登録画像情報の特性を表現するベクトルである登録画像情報特徴を抽出する。そして、画像・付加情報間関係性学習部７は、注目領域付加情報提示部４に保持されている画像・付加情報関係モデルに登録画像情報特徴を入力し、この登録画像情報特徴から画像・付加情報関係モデルを学習し、かつ更新する（ステップＳｂ４）。

Ｃ．第３実施形態
次に、本発明の第３実施形態について説明する。
図７は、本第３実施形態による映像認識理解装置の構成を示すブロック図である。図において、本第３実施形態による映像認識理解装置は、注目度画像抽出部１と、注目領域抽出部２と、注目領域画像特徴抽出部３と、注目領域付加情報提示部４と、画像情報登録部５と、登録画像情報特徴抽出部６と、画像・付加情報間関係性学習部７と、入力付加情報特徴抽出部８と、画像検索部９とから構成される。該映像認識理解装置は、入力映像、画像・付加情報関係モデル、登録画像、登録付加情報、及び与えられた入力床情報を入力し、入力付加情報との類似性が高い画像を登録画像の中から抽出して出力する。

なお、注目度画像抽出部１、注目領域抽出部２、注目領域画像特徴抽出部３、注目領域付加情報提示部４、画像情報登録部５、登録画像情報特徴抽出部６、画像・付加情報間関係性学習部７は、第１及び第２実施形態と同様のため、説明を省略する。但し、これらの過程を実行しなくても良い。

入力付加情報特徴抽出部８は、入力付加情報を入力し、この入力付加情報の特性を表現するベクトルである入力付加情報特徴を抽出し、この入力付加情報特徴を出力する。入力付加情報特徴の抽出方法は、注目領域付加情報提示部４での第１の実施例で説明した通りである。

画像検索部９は、画像・付加情報関係モデルに入力付加情報特徴を入力し、入力付加情報と類似性の高い画像である付加情報関連画像を選択し、この付加情報関連画像の集合である付加情報関連画像集合を出力する。付加情報関連画像の選択方法は、特に限定されるものではないが、本第３実施形態においては、以下の４つの実施例について説明する。

［第１の実施例］
注目領域付加情報提示部４が、画像・付加情報関係モデルとして、各言語ラベルｉ（ｉ＝１，２，…，ｄ_ｙ）に対応する画像特徴空間内のＫ_ｉ個の代表点￣ｘ_ｉ，ｊ（ｊ＝１，２，…，Ｋ_ｉ）、及び各代表点に関連付けられた画像情報とその画像情報特徴とを保持する場合を考える。このとき、与えられた入力付加情報に含まれる言語ラベルに対応する全ての代表点を抽出し、その代表点に関連付けられた画像情報を全て抽出する。

［第２の実施例］
注目領域付加情報提示部４が、画像・付加情報関係モデルとして、各言語ラベルｉ（ｉ＝１，２，…，ｄ_ｙ）に対応する画像特徴空間の混合正規分布、及び各言語ラベルに関連付けられた画像情報とその画像情報特徴とを保持する場合については、上記第１の実施例と同様である。

［第３の実施例］
注目領域付加情報提示部４が、画像・付加情報関係モデルとして、各言語ラベルｉ（ｉ＝１，２，…，ｄ_ｙ）に対応する画像特徴空間内のサポートベクトルマシン、及び各言語ラベルに関連付けられた画像情報とその画像情報特徴とを保持する場合を考える。このとき、与えられた入力付加情報に含まれる言語ラベルに対応するサポートベクトルマシンの全ての正例を抽出し、その正例に関連付けられた画像情報を全て抽出する。

［第４の実施例］
注目領域付加情報提示部４に保持されている画像・付加情報関係モデルに入力付加情報特徴を与えることで、蓄積画像集合から類似性の高い画像である付加情報関連画像を選択し、この付加情報関連画像の集合である付加情報関連画像集合を出力する（非特許文献１において、事後確率推定で、ｐｏｓｔｅｒｉｏｒの大きいｋ個の画像を提示、もしくは閾値を超えた画像を提示することに相当）。

付加情報関連画像の選択方法は特に限定されるものではないが、本第４の実施例においては、以下の方法について説明する。

まず、入力付加情報特徴ｙ_{ｇｉｖｅｎ}が与えられたときの画像特徴ｘの事後確率を、次式（２２）で設定する。

画像・付加情報間関係性学習部７において、蓄積潜在変数集合の各要素ｚ_ｎについて画像・付加情報関係モデルを生成している場合には、上記事後確率は、次式（２３）のように書き直すことができる。

この事後確率を蓄積画像特徴集合の各要素について計算し、事後確率の大きいある一定数の画像、もしくは事後確率が閾値を超えた画像を選択し、これら画像の集合を付加情報関連画像集合とする。

このようにして、画像検索部９は、付加情報関連画像集合を選択し、この付加情報関連画像集合を出力する。

次に、本第３実施形態の動作について説明する。
図８は、本第３実施形態による映像認識理解装置の動作を説明するためのフローチャートである。なお、注目度画像抽出部１、注目領域抽出部２、注目領域画像特徴抽出部３、注目領域付加情報提示部４による処理は、上述した第１実施形態における図４に示すフローチャートと同様であるので説明を省略する。また、画像情報登録部５、登録画像情報特徴抽出部６、画像・付加情報間関係性学習部７による処理は、上述した第２実施形態における図６に示すフローチャートと同様であるので説明を省略する。

まず、入力付加情報特徴抽出部８は、入力付加情報をの特性を表現するベクトルである入力付加情報特徴を抽出する（ステップＳｃ１）。次に、画像検索部９は、画像・付加情報関係モデルに入力付加情報特徴を入力し、入力付加情報と類似性の高い画像である付加情報関連画像を選択し、この付加情報関連画像の集合である付加情報関連画像集合を出力する（ステップＳｃ２）。

上述した第１から第３実施形態によれば、注目度画像抽出部１及び注目領域抽出部２により、注目度に基づいて、注目領域を抽出し、注目領域付加情報提示部４により、言語情報が関連付けられた画像と言語情報とが関連付けられていない画像の双方からの、画像と言語情報の関係性を記述するための潜在変数の抽出することにより、言語情報が関連付けられた画像が少量しか利用できない場合においても、画像と言語情報との関係性を精度良く学習することができる。

すなわち、言語情報が関連付けられている画像を大量に収集することは困難である一方、言語情報が関連付けられていなくても良い場合には、画像そのものを収集することは非常に容易で大量に収集することが可能である。これら、言語情報が関連付けられていない画像を、画像と言語情報との関係性を学習する際に同時に利用することにより、少数しかない言語情報が関連付けられた画像のみを利用する場合に比べて、高い精度で画像と言語情報の関係性を学習することができる。

なお、上述した第１から第３実施形態において、注目度画像抽出部１、注目領域抽出部２、注目領域画像特徴抽出部３、注目領域付加情報提示部４、画像情報登録部５、登録画像情報特徴抽出部６、画像・付加情報間関係性学習部７、入力付加情報特徴抽出部８、及び画像検索部９の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ））のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１注目度画像抽出部２注目領域抽出部２１注目領域事前確率画像抽出部２２特徴量尤度算出部２３注目領域画像抽出部２５平滑化画像群生成部２６注目領域画像確定部３注目領域画像特徴抽出部４注目領域付加情報提示部５画像情報登録部６登録画像情報特徴抽出部６１登録画像特徴抽出部６２登録付加情報特徴抽出部７画像・付加情報間関係性学習部８入力付加情報特徴抽出部９画像検索部

Claims

入力映像に含まれる主要な領域に関する付加情報を提示する映像認識理解装置であって、
入力映像を構成する各フレームである入力画像から、該入力画像中の各位置において人間が注意を向けやすい度合いである注目度を示す注目度画像を抽出する注目度画像抽出手段と、
前記注目度画像から、前記入力画像中で注意を向けやすい領域を示す画像である注目領域画像を抽出する注目領域抽出手段と、
前記注目領域画像で示される注目領域内に存在する画像の特性を表現するベクトルである注目領域画像特徴を抽出する注目領域画像特徴抽出手段と、
画像とその画像を説明する情報である付加情報との関係性を記述するモデルである画像・付加情報関係モデルに前記注目領域画像特徴を与えることで、前記注目領域画像で示される注目領域を説明する情報である注目領域付加情報を提示する注目領域付加情報提示手段と
を備えることを特徴とする映像認識理解装置。
与えられた画像である登録画像と該登録画像を説明する付加情報である登録付加情報とを合わせて、登録画像情報として登録する画像情報登録手段と、
前記登録画像情報の特性を表現するベクトルである登録画像情報特徴を、前記登録画像情報から抽出する登録画像情報特徴抽出手段と、
前記登録画像情報特徴から、前記画像・付加情報関係モデルを学習する画像・付加情報間関係性学習手段と
を更に備えることを特徴とする請求項１に記載の映像認識理解装置。
与えられた付加情報である入力付加情報から、入力付加情報の特性を表現するベクトルである入力付加情報特徴を抽出する入力付加情報特徴抽出手段と、
前記入力付加情報特徴を前記画像・付加情報関係モデルに与え、前記入力付加情報と類似性の高い画像情報を選択して提示する画像検索手段と
を更に備えることを特徴とする請求項１または２に記載の映像認識理解装置。
前記注目領域抽出手段は、
前記入力画像の各位置が注目領域である確率を示す注目領域事前確率画像を抽出する注目領域事前確率画像抽出手段と、
前記入力画像の注目領域、及び注目領域外の領域にそれぞれ含まれる画像特徴量の尤度を示す特徴量尤度を算出する特徴量尤度算出手段と、
前記入力画像、前記注目領域事前確率画像、及び前記特徴量尤度から、前記入力画像の注目領域を示す注目領域画像を抽出する注目領域画像抽出手段と
を有し、
前記注目領域事前確率画像抽出手段は、
前記入力画像の各位置が注目領域である確率を示す注目領域事前確率画像を、前記注目度画像抽出手段によって抽出された注目度画像、及び前記注目領域画像抽出手段によって抽出された注目領域画像に基づいて抽出し、
前記特徴量尤度算出手段は、
前記特徴量尤度を、前記入力画像、前記注目度画像、前記注目領域事前確率画像、前記注目領域画像、及び前回迄に算出した前記特徴量尤度の少なくとも１つに基づいて算出する
ことを特徴とする請求項１から３のいずれかに記載の映像認識理解装置。
入力映像に含まれる主要な領域に関する付加情報を提示する映像認識理解装置において用いられる映像認識理解方法であって、
入力映像を構成する各フレームである入力画像から、該入力画像中の各位置において人間が注意を向けやすい度合いである注目度を示す注目度画像を抽出する注目度画像抽出過程と、
前記注目度画像から、前記入力画像中で注意を向けやすい領域を示す画像である注目領域画像を抽出する注目領域抽出過程と、
前記注目領域画像で示される注目領域内に存在する画像の特性を表現するベクトルである注目領域画像特徴を抽出する注目領域画像特徴抽出過程と、
画像とその画像を説明する情報である付加情報との関係性を記述するモデルである画像・付加情報関係モデルに前記注目領域画像特徴を与えることで、前記注目領域画像で示される注目領域を説明する情報である注目領域付加情報を提示する注目領域付加情報提示過程と
を含むことを特徴とする映像認識理解方法。
与えられた画像である登録画像と該登録画像を説明する付加情報である登録付加情報とを合わせて、登録画像情報として登録する画像情報登録過程と、
前記登録画像情報の特性を表現するベクトルである登録画像情報特徴を、前記登録画像情報から抽出する登録画像情報特徴抽出過程と、
前記登録画像情報特徴から、前記画像・付加情報関係モデルを学習する画像・付加情報間関係性学習過過程と
を更に含むことを特徴とする請求項５に記載の映像認識理解方法。
与えられた付加情報である入力付加情報から、入力付加情報の特性を表現するベクトルである入力付加情報特徴を抽出する入力付加情報特徴抽出過程と、
前記入力付加情報特徴を前記画像・付加情報関係モデルに与え、前記入力付加情報と類似性の高い画像情報を選択して提示する画像検索過程と
を更に含むことを特徴とする請求項５または６に記載の映像認識理解方法。
前記注目領域抽出過程は、
前記入力画像の各位置が注目領域である確率を示す注目領域事前確率画像を抽出する注目領域事前確率画像抽出過程と、
前記入力画像の注目領域、及び注目領域外の領域にそれぞれ含まれる画像特徴量の尤度を示す特徴量尤度を算出する特徴量尤度算出過程と、
前記入力画像、前記注目領域事前確率画像、及び前記特徴量尤度から、前記入力画像の注目領域を示す注目領域画像を抽出する注目領域画像抽出過程と
を含み、
前記注目領域事前確率画像抽出過程は、
前記入力画像の各位置が注目領域である確率を示す注目領域事前確率画像を、前記注目度画像抽出過程によって抽出された注目度画像、及び前記注目領域画像抽出過程によって抽出された注目領域画像に基づいて抽出し、
前記特徴量尤度算出過程は、
前記特徴量尤度を、前記入力画像、前記注目度画像、前記注目領域事前確率画像、前記注目領域画像、及び前回迄に算出した前記特徴量尤度の少なくとも１つに基づいて算出する
ことを特徴とする請求項５から７のいずれかに記載の映像認識理解方法。
入力映像に含まれる主要な領域に関する付加情報を提示する映像認識理解装置としてのコンピュータに実行させるプログラムであって、
入力映像を構成する各フレームである入力画像から、該入力画像中の各位置において人間が注意を向けやすい度合いである注目度を示す注目度画像を抽出する注目度画像抽出ステップと、
前記注目度画像から、前記入力画像中で注意を向けやすい領域を示す画像である注目領域画像を抽出する注目領域抽出ステップと、
前記注目領域画像で示される注目領域内に存在する画像の特性を表現するベクトルである注目領域画像特徴を抽出する注目領域画像特徴抽出ステップと、
画像とその画像を説明する情報である付加情報との関係性を記述するモデルである画像・付加情報関係モデルに前記注目領域画像特徴を与えることで、前記注目領域画像で示される注目領域を説明する情報である注目領域付加情報を提示する注目領域付加情報提示ステップと
を実行させることを特徴とするプログラム。