JP2004310753A - データ学習装置およびプログラムならびに画像の意味判定装置 - Google Patents
データ学習装置およびプログラムならびに画像の意味判定装置 Download PDFInfo
- Publication number
- JP2004310753A JP2004310753A JP2004072646A JP2004072646A JP2004310753A JP 2004310753 A JP2004310753 A JP 2004310753A JP 2004072646 A JP2004072646 A JP 2004072646A JP 2004072646 A JP2004072646 A JP 2004072646A JP 2004310753 A JP2004310753 A JP 2004310753A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- learning
- self
- class
- winner
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2137—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
Abstract
【課題】 自己組織化マップによるデータ学習において、より高い精度で情報の内容判定処理を行うことができる自己組織化マップの導出を実現し、さらに、そのような学習後の自己組織化マップを用いて、より高い精度で、画像の意味判定処理を行うことを可能とする。
【解決手段】 データ学習装置10の第1学習部12により、各ベクトル点にクラスが対応付けられた暫定的な自己組織化マップを一旦導出した後、第2学習部14により、学習ベクトル量子化に近傍学習の概念を取り入れた改良手法等を用いて、暫定的な自己組織化マップに修正を加えていき、最終的な自己組織化マップを求める。そのように導出された最終的な自己組織化マップを用いて、画像の意味判定処理を行う。
【選択図】 図1
【解決手段】 データ学習装置10の第1学習部12により、各ベクトル点にクラスが対応付けられた暫定的な自己組織化マップを一旦導出した後、第2学習部14により、学習ベクトル量子化に近傍学習の概念を取り入れた改良手法等を用いて、暫定的な自己組織化マップに修正を加えていき、最終的な自己組織化マップを求める。そのように導出された最終的な自己組織化マップを用いて、画像の意味判定処理を行う。
【選択図】 図1
Description
本発明は、データ学習装置およびプログラムに関し、特に、画像の意味判定等の情報の内容判定処理に使用する自己組織化マップを導出するための、教師あり学習によるデータ学習装置およびプログラムに関するものである。本発明はまた、自己組織化マップを用いて対象画像や画像領域の意味を判定する意味判定装置にも関するものである。
情報のクラス分類や検索等の手法として、従来からのクラスタリング法等に代わるものとして、近年、自己組織化マップを利用した手法が用いられ始めている。
自己組織化マップとは、複数の多次元ベクトルが空間的に配されたマップであり、各多次元ベクトルは、1つの参照データの特徴を示す複数のパラメータを成分とするベクトル(以下、「参照特徴ベクトル」と呼ぶ)である。この自己組織化マップ上では、予め多数のサンプルデータを学習することにより、互いに類似する参照特徴ベクトルが互いに近い位置に配置されるように構成されている。
この学習の工程は、一般的には「教師なし学習」であり、まずランダムな複数の参照特徴ベクトルが分布した初期自己組織化マップを用意した後、学習対象の特徴ベクトルを読み込み、該特徴ベクトルとの類似度が最も高い勝者ベクトルを自己組織化マップ上の参照特徴ベクトルから見つけ出し、該勝者ベクトルおよびその近傍に分布する参照特徴ベクトルを該学習対象の特徴ベクトルとの類似度が増大するように修正する各工程を繰り返すことによって学習を行う。かかる教師なし学習後の自己組織化マップを用いれば、複数の入力情報について、その各々の特徴を示すベクトルと最も類似度の高い勝者ベクトルを自己組織化マップ上から探索し、該入力情報を自己組織化マップ上のその勝者ベクトルの位置に写像することにより、情報を2次元マップ状に一覧表示すること等が可能となる(たとえば、特許文献1および2参照)。このような一覧表示では、類似の特徴を有する情報(たとえば類似の画像や類似の商品情報等)が互いに近くに配置され表示されることになるので、視覚的に捉え易く、一覧性がよい。また、教師なし学習後の自己組織化マップにおいて特に類似の傾向が強いベクトルが集まった複数の島状の領域をクラスターとして定め、入力情報の特徴を示すベクトルと最も類似度の高い勝者ベクトルがいずれのクラスターに属するかを調べることにより、入力情報の分類や優先順位付けを行う手法も提案されている(たとえば、特許文献3および4参照)。
情報の分類や一覧表示の用途には上記のような教師なし学習による自己組織化マップを用いれば足りるが、情報の内容判定処理(クラス判定処理)に応用するには、学習後の自己組織化マップ上の各ベクトル点と情報の内容(クラス)とが互いに関連付けられている必要がある。そこで、予めクラス分けされいずれのクラスに属するかが分かっているデータを学習させる「教師あり学習」と自己組織化マップを組み合せた「修正対向伝搬ネットワーク(Modified CounterPropagation;MCP)」という手法等も提案されている(たとえば、非特許文献1参照)。この修正対向伝搬ネットワークの手法における学習工程では、自己組織化マップと同じ大きさの「頻度マップ」がクラスごとに用意され、自己組織化マップの学習と並行して、各クラスごとに、自己組織化マップ上の各ベクトル点またはその近傍にそのクラスに属する学習対象の特徴ベクトルに対する勝者ベクトルが現れた頻度を示す、頻度マップの作成が行われる。これにより、学習終了後には、互いに類似する参照特徴ベクトルが互いに近い位置に配置された自己組織化マップと、自己組織化マップ上の各ベクトル点において最も出現確率が高いクラスの情報を示した対応クラスのマップとが得られることとなる。したがって、かかる学習後の自己組織化マップを用いれば、入力情報の特徴を示すベクトルと最も類似度の高い勝者ベクトルを自己組織化マップ上から探索し、対応クラスのマップ上における該勝者ベクトルのベクトル点の対応点を参照することにより、入力情報がいずれのクラスに属する情報であるのかを判定することが可能となる。
一方、情報のクラス分類や検索等の処理ならびに情報の内容判定処理に用いることのできる別の手法として、やはり教師あり学習である学習ベクトル量子化(Learning Vector Quantization;LVQ)と呼ばれる学習手法による学習結果を用いる手法も提案されている(たとえば、非特許文献1および2参照)。この学習ベクトル量子化による学習手法では、対応クラスが分かっている複数の参照特徴ベクトルからなる参照特徴ベクトル群を予め用意した後、やはり対応クラスが分かっている学習対象の特徴ベクトルを順次読み込み、該学習対象の特徴ベクトルとの類似度が最も高い勝者ベクトルを参照特徴ベクトル群から見つけ出し、該勝者ベクトルに対応付けられている対応クラスと該学習対象の特徴ベクトルに対応付けられている対応クラスとが一致する場合には、該勝者ベクトルを該学習対象の特徴ベクトルとの類似度が増大するように修正し、一致しない場合には、該勝者ベクトルを該学習対象の特徴ベクトルとの類似度が減少するように修正する各工程を繰り返すことによって学習を行う。かかる学習後の参照特徴ベクトル群を用いれば、入力情報の特徴を示すベクトルと最も類似度の高い勝者ベクトルを該参照特徴ベクトル群の中から見つけ出し、その勝者ベクトルに対応付けられているクラスを参照することにより、入力情報がいずれのクラスに属する情報であるのかを判定することが可能となる。この学習ベクトル量子化は、特徴ベクトルを用いた教師あり学習によるデータ学習手法である点で、上記の修正対向伝搬ネットワークによる自己組織化マップを用いた学習手法と類似するが、参照特徴ベクトル群の学習に空間的相互作用がない点で、自己組織化マップを用いた学習手法と異なる。すなわち、上述のとおり、自己組織化マップを用いた学習手法では、参照特徴ベクトル群は概念上自己組織化マップ上に空間的に配され、勝者ベクトルのみならず該勝者ベクトルの近傍に分布する参照特徴ベクトルにも学習の効果が及ぶが、学習ベクトル量子化による手法では、かかる参照特徴ベクトル群の空間的配置および近傍学習は行われない。
特開2002−41545号公報
特開2001−337953号公報
特開2001−306612号公報
特開2001−283184号公報
徳高他、「自己組織化マップの応用−多次元情報の2次元可視化」、海文堂、 1999年、p.1−19、63−75
谷萩他、「ニューラルネットワークとファジイ信号処理」、コロナ社、1998年、 p.41−47
上記のとおり、各ベクトル点と情報の内容(クラス)が関連付けられた学習後の自己組織化マップを用いれば情報の内容判定処理を行うことができ、かかる自己組織化マップを導出するためのデータ学習手法として修正対向伝搬ネットワークによる手法が提案されている。しかしながら、この手法による学習後の自己組織化マップを用いた情報の内容判定処理では、特に勝者ベクトルとして特定された参照特徴ベクトルがクラス間の境界付近の参照特徴ベクトルである場合において、誤判定が起こりやすい。たとえば、クラスA、BおよびCのいずれかに属することが分かっている多数の特徴ベクトルを修正対向伝搬ネットワークの手法により学習した結果、図26に模式的に示すような自己組織化マップおよび対応クラスのマップが得られたとする。学習後の自己組織化マップ上では、前述のように互いに類似する参照特徴ベクトルが互いに近い位置に配置されるようになっている。しかしながら、各クラスに対応する領域内における参照特徴ベクトル同士の類似度は、各領域の中央付近では特に高いが、クラス間の境界付近では低くなる傾向がある。したがって、たとえば、内容(クラス)判定処理の対象である入力情報の特徴を表すベクトルに対する勝者ベクトルが、図26に示すベクトルV1のようなクラスBに対応する領域の中央付近の参照特徴ベクトルである場合は、「入力情報のクラスはBである」という判定結果の信頼性は比較的高いが、勝者ベクトルがベクトルV2のようなクラス間の境界付近の参照特徴ベクトルである場合には判定結果の信頼性が低く、内容判定処理の精度が制限される。たとえば、意味が分かっている画像の特徴を示す特徴ベクトルを学習して画像の意味判定処理を行う場合には、このことは、画像の意味判定精度の低下を意味する。その他にも、修正対向伝搬ネットワークによる学習手法では、自己組織化マップが収束する前の段階、すなわちマップ上の参照特徴ベクトルがまだランダムな状態である初期の学習段階における学習内容が最終的な自己組織化マップに反映されることも、その後の内容判定処理の精度を低くする要因となり、特に学習サンプル数が少ない場合等には精度低下の傾向が大きくなる。
一方、情報の内容判定処理に適用可能な別の学習手法である学習ベクトル量子化の手法では、上記のとおり、各クラスごとに適当数の初期の参照特徴ベクトルを選定して参照特徴ベクトル群を予め用意する必要があるが、この初期の参照特徴ベクトルの成分値ならびに各クラスごとの「適当数」をどのように定めるかは、学習ベクトル量子化では特に重要である。これは、学習ベクトル量子化では、自己組織化マップを用いた学習手法と異なり近傍学習の概念が取り入れられておらず、各参照特徴ベクトルは各々独立に学習を行う(すなわち、独立に修正されていく)ため、初期に定めた各クラスごとの参照特徴ベクトルの「適当数」は学習を行っても固定されたままであり、また初期の成分値の定め方によっては学習を全くまたはほとんど行わない参照特徴ベクトルも生じ得るからである。しかしながら、この初期の参照特徴ベクトルの成分値ならびに各クラスごとの「適当数」を好適に定めることは実際上容易でなく、学習ベクトル量子化による学習結果を用いた内容判定処理の精度を制限する要因となっている。
本発明は、かかる事情に鑑み、自己組織化マップによるデータ学習装置およびプログラムにおいて、より高い精度で画像の意味判定等の情報の内容判定処理を行うことができる自己組織化マップの導出を可能にすること、ならびに、自己組織化マップを用いて、より高い精度で、情報の内容判定処理の一形態である画像の意味判定処理を行うことを目的とするものである。
すなわち、本発明に係る第1のデータ学習装置は、各々の対応クラスが分かっている複数の第1サンプル特徴ベクトルからなる第1学習データを学習することにより、参照特徴ベクトルのベクトル点の各々にクラスが対応付けられた暫定的な自己組織化マップを導出する第1学習手段と、各々の対応クラスが分かっている複数の第2サンプル特徴ベクトルからなる第2学習データを学習することにより、上記の暫定的な自己組織化マップに修正を加えて最終的な自己組織化マップを導出する第2学習手段を備え、その第2学習手段が、第2学習データ中の1つの第2サンプル特徴ベクトルを読み込み、暫定的な自己組織化マップ上においてその1つの第2サンプル特徴ベクトルとの類似度が最も高い第2学習勝者ベクトルを特定する第2ベクトル特定手段と、その第2学習勝者ベクトルのベクトル点に対応付けられたクラスと、第2学習データが示す上記の1つの第2サンプル特徴ベクトルの対応クラスとを比較し、そのベクトル点に対応付けられたクラスとその第2学習データが示す対応クラスが一致しない場合には、その第2学習勝者ベクトルおよび上記の暫定的な自己組織化マップ上においてその第2学習勝者ベクトルの第2学習近傍に分布する複数の参照特徴ベクトルを、上記の1つの第2サンプル特徴ベクトルとの類似度が減少するように修正する修正手段と、上記の複数の第2サンプル特徴ベクトルの全てについて、上記の第2ベクトル特定手段および修正手段を各々1回または複数回繰返し動作させ、上記の最終的な自己組織化マップを導出する手段を備えていることを特徴とするものである。
上記の本発明に係る第1のデータ学習装置においては、上記の修正手段は、さらに、上記の第2学習勝者ベクトルのベクトル点に対応付けられたクラスと、第2学習データが示す上記の1つの第2サンプル特徴ベクトルの対応クラスとが一致する場合には、その第2学習勝者ベクトルおよび上記の第2学習近傍に分布する複数の参照特徴ベクトルを、上記の1つの第2サンプル特徴ベクトルとの類似度が増大するように修正するものであってもよい。
ここで、本発明において「特徴ベクトル」とは、あるデータの特徴を表す複数のパラメータ(以下、「特徴量」と呼ぶ)を成分とするベクトルを指すものとする。たとえば、学習対象が画像データである場合には、1つの特徴ベクトルの成分としての特徴量としては、1つの画像の色の特徴、輝度の特徴、奥行情報、その画像に含まれるエッジの特徴、その画像をなす各画素列/行に沿った輝度値等の変化パターンの相関関係の特徴等を示す特徴量が使用され得る。また、「参照特徴ベクトル」とは、自己組織化マップ上の各ベクトル点に分布する特徴ベクトルを、「サンプル特徴ベクトル」とは、学習サンプルとしての特徴ベクトルをそれぞれ指すものとする。さらに、区別のため必要な個所においては、第1学習工程または手段において使用されるサンプル特徴ベクトルを「第1サンプル特徴ベクトル」と、第2学習工程または手段において使用されるサンプル特徴ベクトルを「第2サンプル特徴ベクトル」とそれぞれ呼ぶものとする。
また、本発明において「類似度」とは、特徴ベクトル同士の類似の度合いを示す指標を指し、たとえば2つの特徴ベクトル間の特徴ベクトル空間におけるユークリッド距離や内積等が使用され得る。なお、類似度が「高い」または「低い」とは、その類似度の値の大小そのものではなく、たとえば上記のユークリッド距離を類似度として採用した場合には、類似度(すなわちユークリッド距離)の値が小さい方が両ベクトルは類似しているので「類似度が高い」こととなる。
さらに、本発明において「勝者ベクトル」とは、自己組織化マップ上に分布する参照特徴ベクトルのうち、学習対象としてのサンプル特徴ベクトルまたは学習後のクラス分類対象としての特徴ベクトルとの類似度が最も高い参照特徴ベクトルを指すものとする。なお、区別のため必要な個所においては、第1サンプル特徴ベクトルとの類似度が最も高い勝者ベクトルを「第1学習勝者ベクトル」、第2サンプル特徴ベクトルとの類似度が最も高い勝者ベクトルを「第2学習勝者ベクトル」とそれぞれ呼ぶものとする。
また、本発明において、自己組織化マップ上の「近傍」とは、自己組織化マップ上において学習の効果が及ぶ、勝者ベクトルの近傍領域を指し、たとえば勝者ベクトルを中心とするn×n(nは3以上の奇数)の近傍領域や、略円形の近傍領域等が採用され得る。なお、区別のために用いる「第1学習近傍」とは、第1学習工程または手段において用いられる近傍を、「第2学習近傍」とは、第2学習工程または手段において用いられる近傍をそれぞれ指すものとする。第1学習近傍および第2学習近傍のいずれについても、学習全体を通じて同一サイズの近傍が用いられてもよいし、学習が進むに従って学習の効果が及ぶ近傍のサイズが小さくされていってもよい。
本発明に係る第2のデータ学習装置は、各々の対応クラスが分かっている複数の第1サンプル特徴ベクトルからなる第1学習データを学習することにより、参照特徴ベクトルのベクトル点の各々にクラスが対応付けられた暫定的な自己組織化マップを導出する第1学習手段と、各々の対応クラスが分かっている複数の第2サンプル特徴ベクトルからなる第2学習データを学習することにより、上記の暫定的な自己組織化マップに修正を加えて最終的な自己組織化マップを導出する第2学習手段を備え、その第2学習手段が、第2学習データ中の1つの第2サンプル特徴ベクトルを読み込み、暫定的な自己組織化マップ上の参照特徴ベクトルのうち、その参照特徴ベクトルのベクトル点に対応付けられたクラスが、第2学習データが示す上記の1つの第2サンプル特徴ベクトルの対応クラスと一致するものの中から、その1つの第2サンプル特徴ベクトルとの類似度が最も高い第2学習勝者ベクトルを特定する第2ベクトル特定手段と、上記の第2学習勝者ベクトルおよび上記の暫定的な自己組織化マップ上においてその第2学習勝者ベクトルの第2学習近傍に分布する複数の参照特徴ベクトルを、上記の1つの第2サンプル特徴ベクトルとの類似度が増大するように修正する修正手段と、上記の複数の第2サンプル特徴ベクトルの全てについて、上記の第2ベクトル特定手段および修正手段を各々1回または複数回繰返し動作させ、上記の最終的な自己組織化マップを導出する手段を備えていることを特徴とするものである。
上記の本発明に係る第1および第2のデータ学習装置においては、上記の第1学習手段は、修正対向伝搬ネットワークの手法を用いるものであってもよい。すなわち、本発明に係る第1および第2のデータ学習装置の第1学習手段は、ランダムな複数の参照特徴ベクトルが分布した初期自己組織化マップを発生させる手段と、各々が1つのクラスに対応する複数の頻度マップであって、各点に割り当てられた特定頻度値の初期値がゼロである複数の頻度マップを発生させる手段と、第1学習データ中の1つの第1サンプル特徴ベクトルを読み込み、上記の初期自己組織化マップ上においてその1つの第1サンプル特徴ベクトルとの類似度が最も高い第1学習勝者ベクトルを特定する第1ベクトル特定手段と、その第1学習勝者ベクトルおよび初期自己組織化マップ上においてその第1学習勝者ベクトルの第1学習近傍に分布する複数の参照特徴ベクトルを、上記の1つの第1サンプル特徴ベクトルとの類似度が増大するように修正するとともに、第1学習データが示す上記の1つの第1サンプル特徴ベクトルの対応クラスに対応する頻度マップ上の、その第1学習勝者ベクトルおよびその第1学習近傍に分布する複数の参照特徴ベクトルの各ベクトル点に対応する点において、特定頻度値を増分させる更新手段と、上記の複数の第1サンプル特徴ベクトルの全てについて、上記の第1ベクトル特定手段および更新手段を各々1回または複数回繰返し動作させ、暫定的な自己組織化マップを導出する手段と、上記の複数の頻度マップに基づいて、上記の暫定的な自己組織化マップの各ベクトル点における出現確率が最も高いクラスを、そのベクトル点に対応付けられるクラスとする手段を備えているものであってもよい。
ここで、本発明において「特定頻度値」とは、クラスごとに設けられた頻度マップ上の各点に割り当てられた値であって、学習過程において、その点に対応する自己組織化マップ上の参照特徴ベクトルまたはその近傍の参照特徴ベクトルが、そのクラスに対応するサンプル特徴ベクトルに対する勝者ベクトルとして特定された頻度を表す値である。すなわち、あるクラスの頻度マップ上で学習後における特定頻度値が高い点ほど、その点に対応する自己組織化マップ上の参照特徴ベクトルがそのクラスの特徴を表している特徴ベクトルである可能性が高い。この特定頻度値は、上記の特定がされた回数そのものであってもよいし、上記の特定がされた回数を規格化した値等であってもよい。また、上記の「頻度マップ」は、自己組織化マップと同じサイズを有し、自己組織化マップの各ベクトル点について1対1対応で特定頻度値を規定するものであってもよいし、自己組織化マップよりも解像度が低くされたものであってもよい。たとえば、各頻度マップの縦横の大きさを自己組織化マップの半分とし、自己組織化マップ上の各2×2個のベクトル点の組に対して同一の特定頻度値を割り当てることとしてもよい。
本発明に係る第3のデータ学習装置は、各々の対応クラスが分かっている複数の第1サンプル特徴ベクトルからなる第1学習データを学習することにより、自己組織化マップと、各々が1つのクラスに対応する複数の頻度マップとを導出する第1学習手段と、各々の対応クラスが分かっている複数の第2サンプル特徴ベクトルからなる第2学習データを学習することにより、上記の複数の頻度マップを修正し、自己組織化マップの各ベクトル点に対応付けられる最終的なクラスを決定する第2学習手段を備え、その第2学習手段が、第2学習データ中の1つの第2サンプル特徴ベクトルを読み込み、上記の自己組織化マップ上においてその1つの第2サンプル特徴ベクトルとの類似度が最も高い第2学習勝者ベクトルを特定する第2ベクトル特定手段と、上記の複数の頻度マップのうち、上記の第2学習データが示す上記の1つの第2サンプル特徴ベクトルの対応クラスと同一の正解クラスに対応する頻度マップ上において、その第2学習勝者ベクトルのベクトル点に対応する対応点の特定頻度値、またはその対応点およびその対応点の近傍に分布する点の特定頻度値を増分させる修正を行う修正手段と、上記の複数の第2サンプル特徴ベクトルの全てについて、上記の第2ベクトル特定手段および修正手段を各々1回または複数回繰返し動作させる手段と、上記の複数の頻度マップに基づいて、上記の自己組織化マップの各ベクトル点における出現確率が最も高いクラスを、そのベクトル点に対応付けられる最終的なクラスとする手段を備えていることを特徴とするものである。
ここで、上記の本発明に係る第3のデータ学習装置の修正手段は、直前の第2ベクトル特定手段の動作により特定された第2学習勝者ベクトルのベクトル点に対応する点において最も高い特定頻度値を示す頻度マップに対応付けられたクラスと、第2学習データが示す上記の1つの第2サンプル特徴ベクトルの対応クラスとが一致する場合または一致しない場合のいずれかにおいてのみ、上記の修正を行うものであってもよい。
本発明に係る第4のデータ学習装置は、各々の対応クラスが分かっている複数の第1サンプル特徴ベクトルからなる第1学習データを学習することにより、自己組織化マップと、各々が1つのクラスに対応する第1学習手段と、各々の対応クラスが分かっている複数の第2サンプル特徴ベクトルからなる第2学習データを学習することにより、上記の複数の頻度マップを修正し、自己組織化マップの各ベクトル点に対応付けられる最終的なクラスを決定する第2学習手段を備え、その第2学習手段が、第2学習データ中の1つの第2サンプル特徴ベクトルを読み込み、上記の自己組織化マップ上においてその1つの第2サンプル特徴ベクトルとの類似度が最も高い第2学習勝者ベクトルを特定する第2ベクトル特定手段と、上記の複数の頻度マップのうち、上記の第2学習データが示す上記の1つの第2サンプル特徴ベクトルの対応クラスと同一の正解クラスに対応する頻度マップ以外の一部または全ての頻度マップ上において、その第2学習勝者ベクトルのベクトル点に対応する対応点の特定頻度値、またはその対応点およびその対応点の近傍に分布する点の特定頻度値を減少させる修正を行う修正手段と、上記の複数の第2サンプル特徴ベクトルの全てについて、上記の第2ベクトル特定手段および修正手段を各々1回または複数回繰返し動作させる手段と、上記の複数の頻度マップに基づいて、上記の自己組織化マップの各ベクトル点における出現確率が最も高いクラスを、そのベクトル点に対応付けられる最終的なクラスとする手段を備えていることを特徴とするものである。
ここで、上記の本発明に係る第4のデータ学習装置の修正手段は、さらに、上記の正解クラスに対応する頻度マップ上において、第2学習勝者ベクトルのベクトル点に対応する対応点の特定頻度値、またはその対応点およびその対応点の近傍に分布する点の特定頻度値を増分させる修正も行うものであってもよい。
また、上記の本発明に係る第4のデータ学習装置の修正手段は、直前の第2ベクトル特定手段の動作により特定された第2学習勝者ベクトルのベクトル点に対応する点において最も高い特定頻度値を示す頻度マップに対応付けられたクラスと、第2学習データが示す上記の1つの第2サンプル特徴ベクトルの対応クラスとが一致する場合または一致しない場合のいずれかにおいてのみ、上記の修正を行うものであってもよい。
上記の本発明に係る第3および第4のデータ学習装置においても、上記の第1学習手段は、修正対向伝搬ネットワークの手法を用いるものであってもよい。すなわち、本発明に係る第3および第4のデータ学習装置の第1学習手段は、ランダムな複数の参照特徴ベクトルが分布した初期自己組織化マップを発生させる手段と、各々が1つのクラスに対応する複数の頻度マップであって、各点に割り当てられた特定頻度値の初期値がゼロである複数の頻度マップを発生させる手段と、第1学習データ中の1つの第1サンプル特徴ベクトルを読み込み、上記の初期自己組織化マップ上においてその1つの第1サンプル特徴ベクトルとの類似度が最も高い第1学習勝者ベクトルを特定する第1ベクトル特定手段と、その第1学習勝者ベクトルおよび上記の初期自己組織化マップ上においてその第1学習勝者ベクトルの近傍に分布する複数の参照特徴ベクトルを、上記の1つの第1サンプル特徴ベクトルとの類似度が増大するように修正するとともに、第1学習データが示す上記の1つの第1サンプル特徴ベクトルの対応クラスに対応する頻度マップ上の、その第1学習勝者ベクトルおよびその近傍に分布する複数の参照特徴ベクトルの各ベクトル点に対応する点において、特定頻度値を増分させる更新手段と、上記の複数の第1サンプル特徴ベクトルの全てについて、上記の第1ベクトル特定手段および更新手段を各々1回または複数回繰返し動作させる手段を備えているものであってもよい。
また、上記の本発明に係る第1から第4のデータ学習装置においては、上記の複数の第1サンプル特徴ベクトルおよび上記の複数の第2サンプル特徴ベクトルの各々が、画像の特徴を示す特徴量を成分とするベクトルであって、上記の第1学習データおよび上記の第2学習データが示す上記の対応クラスの各々が、画像の意味を示すクラスであってもよい。
本発明に係る第1から第4のデータ学習プログラムは、コンピュータを、上記の本発明に係る第1から第4のデータ学習装置が有するような各手段として動作させるためのプログラムである。
本発明に係る第1の意味判定装置は、各ベクトル点に画像の意味が対応付けられた学習後の自己組織化マップを用いて、対象画像または画像領域の意味を判定する装置であって、上記の対象画像または画像領域から1つまたは複数の特徴ベクトルを抽出する抽出手段と、上記の1つまたは複数の特徴ベクトルの各々について、上記の自己組織化マップ上においてその特徴ベクトルとの類似度が最も高い勝者ベクトルを特定する勝者ベクトル特定手段と、上記の勝者ベクトルのベクトル点の各々に対応付けられた意味に基づいて、上記の対象画像または画像領域の意味を判定する意味判定手段と、その意味判定手段によって正しく意味が判定できなかった対象画像または画像領域の指定と、その対象画像または画像領域の正解の意味の入力を受け付ける入力手段と、その入力手段を介して指定された対象画像または画像領域について追加学習を行い、上記の自己組織化マップを修正する修正手段とを備え、上記の修正手段が、上記の指定された対象画像または画像領域から抽出された1つまたは複数の特徴ベクトルの各々について、その特徴ベクトルとの類似度が最も高い勝者ベクトルおよび上記の自己組織化マップ上においてその勝者ベクトルの近傍に分布する複数の参照特徴ベクトルを、その特徴ベクトルとの類似度が減少するように修正するものであることを特徴とするものである。
ここで、本発明において、意味判定対象としての「対象画像」は、撮影したデジタル写真画像や動画の1フレームの、1枚分全体に相当する全体画像であってもよいし、かかる全体画像の一部をなす部分画像であってもよい。また、本発明において「画像領域」とは、全体画像や部分画像中において、「空」、「山」、「草原」等の撮影対象のいずれかに対応すると考えられる個々の有意な領域を指す。また、本発明において対象画像または画像領域の「意味を判定する」とは、たとえば、全体画像について、「人物写真」、「建物の写真」、「海の風景写真」等のいずれであるかを判定することや、画像領域について、「空」、「山」、「草原」等の撮影対象のいずれに対応するかを判定することを含む。
本発明に係る第2の意味判定装置は、各ベクトル点に画像の意味が対応付けられた学習後の自己組織化マップを用いて、対象画像または画像領域の意味を判定する装置であって、上記の対象画像または画像領域から1つまたは複数の特徴ベクトルを抽出する抽出手段と、上記の1つまたは複数の特徴ベクトルの各々について、上記の自己組織化マップ上においてその特徴ベクトルとの類似度が最も高い勝者ベクトルを特定する勝者ベクトル特定手段と、上記の勝者ベクトルのベクトル点の各々に対応付けられた意味に基づいて、上記の対象画像または画像領域の意味を判定する意味判定手段と、その意味判定手段によって正しく意味が判定できなかった対象画像または画像領域の指定と、その対象画像または画像領域の正解の意味の入力を受け付ける入力手段と、その入力手段を介して指定された対象画像または画像領域について追加学習を行い、上記の自己組織化マップを修正する修正手段とを備え、上記の修正手段が、上記の自己組織化マップ上の参照特徴ベクトルのうち、その参照特徴ベクトルのベクトル点に対応付けられた意味が上記の正解の意味と一致するものの中から、上記の指定された対象画像または画像領域から抽出された1つまたは複数の特徴ベクトルの各々について、その特徴ベクトルとの類似度が最も高い勝者ベクトルを特定し直し、その勝者ベクトルおよび自己組織化マップ上においてその勝者ベクトルの近傍に分布する複数の参照特徴ベクトルを、その特徴ベクトルとの類似度が増大するように修正するものであることを特徴とするものである。
本発明に係る第3の意味判定装置は、学習後の自己組織化マップと、各々が1つの画像の意味に対応する複数の頻度マップを用いて、対象画像または画像領域の意味を判定する装置であって、上記の対象画像または画像領域から1つまたは複数の特徴ベクトルを抽出する抽出手段と、上記の1つまたは複数の参照特徴ベクトルの各々について、上記の自己組織化マップ上においてその特徴ベクトルとの類似度が最も高い勝者ベクトルを特定するベクトル特定手段と、上記の勝者ベクトルのベクトル点に対応する各々の点において、最も高い特定頻度値を示す頻度マップに対応付けられた意味に基づいて、上記の対象画像または画像領域の意味を判定する意味判定手段と、その意味判定手段によって正しく意味が判定できなかった対象画像または画像領域の指定と、その対象画像または画像領域の正解の意味の入力を受け付ける入力手段と、その入力手段を介して指定された対象画像または画像領域について追加学習を行い、上記の複数の頻度マップを修正する修正手段とを備え、上記の修正手段が、上記の正解の意味に対応する頻度マップ上において、上記の指定された対象画像または画像領域から抽出された1つまたは複数の特徴ベクトルの各々について、その特徴ベクトルとの類似度が最も高い勝者ベクトルのベクトル点に対応する対応点の特定頻度値、またはその対応点およびその対応点の近傍に分布する点の特定頻度値を増分させるものであることを特徴とするものである。
本発明に係る第4の意味判定装置は、学習後の自己組織化マップと、各々が1つの画像の意味に対応する複数の頻度マップを用いて、対象画像または画像領域の意味を判定する装置であって、上記の対象画像または画像領域から1つまたは複数の特徴ベクトルを抽出する抽出手段と、上記の1つまたは複数の参照特徴ベクトルの各々について、上記の自己組織化マップ上においてその特徴ベクトルとの類似度が最も高い勝者ベクトルを特定するベクトル特定手段と、上記の勝者ベクトルのベクトル点に対応する各々の点において、最も高い特定頻度値を示す頻度マップに対応付けられた意味に基づいて、上記の対象画像または画像領域の意味を判定する意味判定手段と、その意味判定手段によって正しく意味が判定できなかった対象画像または画像領域の指定と、その対象画像または画像領域の正解の意味の入力を受け付ける入力手段と、その入力手段を介して指定された対象画像または画像領域について追加学習を行い、上記の複数の頻度マップを修正する修正手段とを備え、上記の修正手段が、上記の正解の意味に対応する頻度マップ以外の一部または全ての頻度マップ上において、上記の指定された対象画像または画像領域から抽出された1つまたは複数の特徴ベクトルの各々について、その特徴ベクトルとの類似度が最も高い勝者ベクトルのベクトル点に対応する対応点の特定頻度値、またはその対応点およびその対応点の近傍に分布する点の特定頻度値を減少させるものであることを特徴とするものである。
本発明に係る第1および第2のデータ学習装置およびプログラムは、第1学習手段により各ベクトル点にクラスが対応付けられた暫定的な自己組織化マップを導出し、その後、すでに相当程度収束した上記の暫定的な自己組織化マップを第2学習手段における学習の初期状態として、暫定的な自己組織化マップをさらに修正して最終的な自己組織化マップを求めるものであるので、より高い精度で情報の内容判定処理を行うことができる最終的な自己組織化マップの導出が可能となる。また、各参照特徴ベクトルが各々独立に学習を行う従来の学習ベクトル量子化のような手法と異なり、本発明に係る第1および第2のデータ学習装置およびプログラムの第2学習手段において使用される改良手法では、近傍学習の概念が取り入れられているので、第1学習手段により得られた暫定的な自己組織化マップ上に分布する参照特徴ベクトルの空間的相互関係、すなわち互いに類似する参照特徴ベクトルは互いに近い位置に配置されているという特性を壊すことなく、その暫定的な自己組織化マップに好適な修正を加え、後に続く内容判定処理の精度を向上させることができる。
また、本発明に係る第3および第4のデータ学習装置およびプログラムは、第1学習手段により自己組織化マップと複数の頻度マップとを導出し、その後、第2学習手段において、すでに収束した自己組織化マップには修正を加えずに、各クラスに対応する頻度マップの方に修正を加えることにより、自己組織化マップの各ベクトル点に対応付けられるクラスを修正するものであるので、やはり、第1学習手段により得られた自己組織化マップ上に分布する参照特徴ベクトルの空間的相互関係を壊すことなく、より高い精度で情報の内容判定処理を行うことができる自己組織化マップおよび頻度マップの導出が可能となる。
本発明に係る画像の意味判定装置は、正しく意味が特定できなかった対象画像または画像領域について追加学習を行う修正手段を備えており、その修正手段は、自己組織化マップ上に分布する参照特徴ベクトルの空間的相互関係を壊すことなく、自己組織化マップまたは頻度マップに修正を加えるものであるので、実際の意味判定対象である対象画像または画像領域の特性に合わせて、順次、意味判定精度を向上させていくことが可能である。
以下、図面により、本発明の例示的な実施形態を詳細に説明する。
図1は、本発明の1つの実施形態に係るデータ学習装置10の構成を示したブロック図である。このデータ学習装置10は、第1学習データを学習して、各ベクトル点にクラスが対応付けられた暫定的な自己組織化マップ、または自己組織化マップと複数の暫定的な頻度マップの組を導出する第1学習部12と、第2学習データを学習して、第1学習部12が導出した自己組織化マップまたは頻度マップに修正を加える第2学習部14とからなる。第1学習部12は、初期自己組織化マップ(SOM)発生部16、初期頻度マップ発生部18、自己組織化マップと頻度マップが格納されるメモリ20、第1学習データが格納されるメモリ22、第1ベクトル特定部24、更新部26および第2学習部14に学習結果を受け渡す学習結果受渡部28を含む。第2学習部14は、各ベクトル点にクラスが対応付けられた暫定的な自己組織化マップ、または自己組織化マップと複数の暫定的な頻度マップの組が格納されるメモリ30、第2学習データが格納されるメモリ32、第2ベクトル特定部34および修正部36を含む。
以下、図2から図20を用いて、上記のデータ学習装置10が行うデータ学習処理の手法を説明する。このデータ学習処理は、第1学習工程と第2学習工程からなるものであり、第1学習工程については図2から図8を用いて説明する。第2学習工程については、6つの具体例を、図9から図20を用いて説明する。
図2は、データ学習装置10の第1学習部12が行う第1学習工程の手順を示したフローチャートである。この第1学習工程は、修正対向伝搬ネットワークの手法を用いたものである。
まず、図2のステップS2において、初期自己組織化マップ発生部16が、乱数発生プログラムを用いる等して、図3の(a)に概念的に示すようなランダムな複数の参照特徴ベクトルが分布した初期自己組織化マップを用意する。ここで、本実施形態に係るデータ学習装置10は、特に画像の意味判定処理に使用する自己組織化マップの導出を目的とするものであるとする。したがって使用される参照特徴ベクトルおよびサンプル特徴ベクトルは画像の特徴を示す特徴量を成分とするベクトルであり、サンプル特徴ベクトルに対応付けられているクラスは画像の意味を表すクラスである。具体的には、図3の(a)の初期自己組織化マップ上には、後述する10個の特徴量の値として適当な値を成分とする、10次元のランダムな参照特徴ベクトルが分布しているものとする。
次に、ステップS4において、初期頻度マップ発生部18が、上記の初期自己組織化マップと同サイズであり、各点に特定頻度値の初期値としてゼロが割り当てられた頻度マップを、クラスごと、すなわち画像の意味ごとに用意する。画像の意味ごとに用意するとは、次のステップS6以降で学習する第1学習データ中に含まれる複数のサンプル特徴ベクトルの対応クラスが示す意味ごとに用意することを指す。ここで、実際に画像の意味判定処理に使用する自己組織化マップを導出するには多種多様な意味の画像を学習しなければならない場合が多いが、本実施形態では説明の便宜のため「空」、遠景としての「山」、および「草原」のいずれかの意味を有する画像のみを学習するものとし、したがって、ステップS4で用意する頻度マップも図3の(b)に示す3枚のみであるとする。
このように学習の初期状態が用意された後、図2のステップS6からS14からなる繰返し処理を行うことにより、メモリ22に格納された第1学習データの学習が行われる。
まず、ステップS6において、第1ベクトル特定部24は、メモリ22から、第1学習データ中の1つのサンプル特徴ベクトルを、学習対象として読み込む。本実施形態では、第1学習データ中の各サンプル特徴ベクトルは、「空」の画像、「山」の画像または「草原」の画像であることが分かっている32×32画素の小画像の特徴を示す10個の特徴量を成分とする10次元の特徴ベクトルであるとする。10個の特徴量としては、具体的には、YCC表色系で表されたその小画像の3つの成分値の、画素間平均値ならびに標準偏差、および当該小画像から導出された縦エッジ画像と横エッジ画像の成分値の、各々の絶対値の画素間平均値ならびに標準偏差を使用するものとする。縦エッジ画像および横エッジ画像は、各小画像のYCC表色系における輝度成分の画像に対し、図4に示すようなエッジ検出用のフィルターを適用することにより求めることができる。第1学習データには、各サンプル特徴ベクトルの対応クラス、すなわち対応する意味の情報も含まれている。
次に、図2のステップS8において、第1ベクトル特定部24は、メモリ20に格納されている現在の自己組織化マップ上から、ステップS6で読み込まれた現在のサンプル特徴ベクトルとの類似度が最も高い参照特徴ベクトルを探索し、勝者ベクトルとして特定する。本実施形態では、類似度として特徴ベクトル空間におけるユークリッド距離を使用するものとし、したがってステップS8では、サンプル特徴ベクトルとの特徴ベクトル空間におけるユークリッド距離が最も小さい参照特徴ベクトルが、勝者ベクトルとして特定される。
続いて、ステップS10において、更新部26が、ステップS8で特定された勝者ベクトル、および現在の自己組織化マップ上でその勝者ベクトルの近傍(第1学習近傍)3×3のベクトル点に分布する参照特徴ベクトルを、現在のサンプル特徴ベクトルとの類似度が増大するように、すなわち現在のサンプル特徴ベクトルとのユークリッド距離が小さくなるように修正する。次に、ステップS12において、更新部26は、第1学習サンプルが示す現在のサンプル特徴ベクトルの対応クラス(すなわち意味)に対応する頻度マップ上において、勝者ベクトルおよびその近傍3×3の対応点の特定頻度値を、+1だけ増分させる。その後、ステップS14において第1学習データ中に未学習のサンプル特徴ベクトルが残っているか否かが確認され、第1学習データ中の全てのサンプル特徴ベクトルを学習し終わるまで、ステップS6からS14からなる処理が繰り返される。
ここまでの処理を、上記の繰返し処理の第1回目、第2回目および第3回目における具体的な処理をそれぞれ概念的に示した、図5、6および7を用いてより詳細に説明する。
まず、第1回目の繰返し処理のステップS6において読み込まれたサンプル特徴ベクトルが、第1学習データの示す対応クラスの意味が「空」であるベクトルであるとし、ステップS8において、図5(a)の左側の図に白抜きで示す参照特徴ベクトルが、勝者ベクトルとして特定されたとする。すると、図5(a)の右側の図に示すように、勝者ベクトルおよびその近傍3×3のベクトル点に分布する参照特徴ベクトルが、図示のサンプル特徴ベクトルとのユークリッド距離が小さくなるように修正される。さらに、第1学習データが示す現在のサンプル特徴ベクトルに対応する意味は「空」であるので、図5(b)に示すように、「空」の頻度マップ上において、勝者ベクトルおよびその近傍3×3の対応点の特定頻度値が、+1だけ増分される。「山」および「草原」の頻度マップに対しては、ここでは処理は加えられない。
次に、第2回目の繰返し処理のステップS6において読み込まれたサンプル特徴ベクトルが、第1学習データの示す対応クラスの意味が「山」であるベクトルであるとし、ステップS8において、図6(a)の左側の図に白抜きで示す参照特徴ベクトルが、勝者ベクトルとして特定されたとする。すると、図6(a)の右側の図に示すように、勝者ベクトルおよびその近傍3×3のベクトル点に分布する参照特徴ベクトルが、図示のサンプル特徴ベクトルとのユークリッド距離が小さくなるように修正される。さらに、第1学習データが示す現在のサンプル特徴ベクトルに対応する意味は「山」であるので、図6(b)に示すように、「山」の頻度マップ上において、勝者ベクトルおよびその近傍3×3の対応点の特定頻度値が、+1だけ増分される。
続いて、第3回目の繰返し処理のステップS6において読み込まれたサンプル特徴ベクトルが、第1学習データの示す対応クラスの意味が「空」であるベクトルであるとし、ステップS8において、図7(a)の左側の図に白抜きで示す参照特徴ベクトルが、勝者ベクトルとして特定されたとする。すると、図7(a)の右側の図に示すように、勝者ベクトルおよびその近傍3×3のベクトル点に分布する参照特徴ベクトルが、図示のサンプル特徴ベクトルとのユークリッド距離が小さくなるように修正される。さらに、第1学習データが示す現在のサンプル特徴ベクトルに対応する意味は「空」であるので、図7(b)に示すように、「空」の頻度マップ上において、勝者ベクトルおよびその近傍3×3の対応点の特定頻度値が、+1だけ増分される。
かかる繰返し処理による学習が進んでくると、初期自己組織化マップは次第に収束し、類似の特徴を示す参照特徴ベクトルが、徐々に互いに近い位置に集まってくる。一方、それぞれの頻度マップ上でも、徐々に島状の頻度の分布が形成されていく。
第1学習データ中の全てのサンプル特徴ベクトルの学習が終了すると、図2の処理はステップS16へ進み、M回の学習が終了したかが確認される。Mは、第1学習データ全体の繰返し学習回数の設定値であり、1以上のいかなる回数であってもよい。Mとして2以上の回数を設定し、第1学習データを複数回繰返し学習することにより、より適切に収束した暫定的な自己組織化マップを求めることができる。
M回の学習が終了すると、図2に示した処理はステップS20へと進み、当該終了時点での初期自己組織化マップが、第1学習工程による暫定的な自己組織化マップとされる。図8の(a)は、この暫定的な自己組織化マップを概念的に示したものである。
さらに、ステップS22において、各頻度マップに基づいて、各ベクトル点において出現確率が最も高いクラスを、そのベクトル点に対応付ける。具体的には、学習終了後の各頻度マップを規格化して重ね合わせ、各点において最も高い特定頻度値を示しているクラスすなわち意味をその点に割り当てた、図8の(b)に示すような意味のマップを作成し、図8の(a)に示す暫定的な自己組織化マップの各ベクトル点に、この意味のマップ上における対応点に割り当てられた意味を対応付ける等の処理により、ステップS28の対応付けを行うことができる。なお、各ベクトル点において「出現確率が最も高いクラス」をそのベクトル点に対応付けるとしたが、各頻度マップの規格化を行わずに、単に最も高い特定頻度値を示しているクラスを各ベクトル点に対応付けるような形態も、本発明の範囲に属するものとする。
なお、上記の本実施形態における第1学習工程では、学習全体を通じて3×3の一定サイズの近傍(第1学習近傍)を使用したが、学習の初期段階においては7×7等の大きな近傍を使用し、学習が進むに従って近傍のサイズを小さくしていってもよい。また、近傍の形状も、矩形に限られない。
さらに、上記の本実施形態における第1学習工程では、各頻度マップ上の特定頻度値の増分幅は、学習全体を通じて+1で一定であったが、学習が進むに従って増分幅を大きくしていってもよい。また、勝者ベクトルおよび第1学習近傍中の全ての参照特徴ベクトルの対応点に同一の増分幅を適用する形態に限られず、たとえばガウス分布状の増分幅を採用し、勝者ベクトルの対応点により近い点ほど増分幅が大きくなるようにしてもよい。
続いて、図9から図11を用いて、本実施形態のデータ学習装置10の第2学習部14が行う第2学習工程の、第1の例について説明する。図9は、第2学習工程の第1の例の手順を示したフローチャートである。この第1の例は、上記に説明した第1学習工程により導出された、各ベクトル点に意味が対応付けられた(概念的に言えば図8の(b)に示す意味のマップが対応付けられた)図8の(a)に示す暫定的な自己組織化マップを、学習の初期状態として用いて行うものである。この第1の例に係る第2学習工程の開始に先立って、上記の意味が対応付けられた暫定的な自己組織化マップは、第1学習部12の学習結果受渡部28を介して第2学習部14に受け渡され、メモリ30内に格納される。
図9の処理では、まずステップS24において、第2ベクトル特定部34が、メモリ32に格納されている第2学習データ中の1つのサンプル特徴ベクトルを、学習対象として読み込む。この第2学習データは、上記の第1学習データと同一のデータを再度用いるものであってもよいし、第1学習データ中の各第1サンプル特徴ベクトルと同様の10個の特徴量を成分とし、各々が「空」、「山」または「草原」の小画像の特徴を表した第2サンプル特徴ベクトルからなるデータであれば、第1学習データと異なるものであってもよい。第2学習データには、各第2サンプル特徴ベクトルの対応クラス、すなわち対応する意味の情報も含まれている。
次に、ステップS26において、第2ベクトル特定部34は、メモリ30内に格納された暫定的な自己組織化マップ上から、ステップS24で読み込んだ現在のサンプル特徴ベクトルとの類似度が最も高い参照特徴ベクトル、すなわち現在のサンプル特徴ベクトルとの特徴ベクトル空間におけるユークリッド距離が最も小さい参照特徴ベクトルを探索し、勝者ベクトルとして特定する。
続いて、ステップS28において、修正部36が、第2学習データが示す現在のサンプル特徴ベクトルの対応クラスすなわち正解の意味と、暫定的な自己組織化マップにおいてステップS26で特定された勝者ベクトルに対応付けられた意味が、一致するか否かを確認する。その結果、一致する場合には、修正部36は、ステップS30において、暫定的な自己組織化マップ上の勝者ベクトルおよびその近傍3×3のベクトル点に分布する参照特徴ベクトルを、現在のサンプル特徴ベクトルとの類似度が増大するように、すなわち現在のサンプル特徴ベクトルとのユークリッド距離が小さくなるように修正する。一方、一致しない場合には、修正部36は、ステップS30’において、暫定的な自己組織化マップ上の勝者ベクトルおよびその近傍3×3のベクトル点に分布する参照特徴ベクトルを、現在のサンプル特徴ベクトルとの類似度が減少するように、すなわち現在のサンプル特徴ベクトルとのユークリッド距離が大きくなるように修正する。その後、ステップS32において第2学習データ中に未学習のサンプル特徴ベクトルが残っているか否かが確認され、第2学習データ中の全てのサンプル特徴ベクトルを学習し終わるまで、ステップS24からS32からなる処理が繰り返される。
この繰返し処理において実際に行われる処理の内容を、図10および図11の概念図を用いてより具体的に説明する。
図10の概念図では、ある回の繰返し処理におけるステップS24で読み込まれたサンプル特徴ベクトルが、第2学習データの示す対応クラスの意味が「草原」であるベクトルであるとし、ステップS26において、図10の(a)に白抜きで示す参照特徴ベクトルが、勝者ベクトルとして特定されたとする。そこで、ステップS28における確認のため、図8の(b)に示すものと同一の図10の(b)に示す意味のマップ上の勝者ベクトルの対応点を参照すると、勝者ベクトルに対応付けられた意味は「草原」であり、上記の第2学習データが示す正解の意味と一致することが分かる。そのため、図9の処理はステップS30に進み、勝者ベクトルおよび図10の(a)に破線で示す3×3の近傍(第2学習近傍)内に分布する参照特徴ベクトルが、現在のサンプル特徴ベクトルとのユークリッド距離が小さくなるように修正される。図10の(b)に示す意味のマップに対しては、修正等の処理は施されない。
一方、図11の概念図では、別の回の繰返し処理におけるステップS24で読み込まれたサンプル特徴ベクトルが、第2学習データの示す対応クラスの意味が「草原」であるベクトルであり、ステップS26において、図11の(a)に白抜きで示す参照特徴ベクトルが、勝者ベクトルとして特定されたとする。ステップS28における確認のため、やはり図8の(b)に示すものと同一の図11の(b)に示す意味のマップ上の、勝者ベクトルの対応点を参照すると、勝者ベクトルに対応付けられた意味は「山」であり、第2学習データが示す正解の意味「草原」とは一致しないことが分かる。かかる不一致は、特にクラス間の境界付近の参照特徴ベクトルが勝者ベクトルとして特定されたときに生じやすい。意味が一致しないため、図9の処理はステップS30’に進み、勝者ベクトルおよび図11の(a)に破線で示す3×3の近傍(第2学習近傍)内に分布する参照特徴ベクトルが、現在のサンプル特徴ベクトルとのユークリッド距離が大きくなるように修正される。意味のマップに対しては、修正等の処理は施されない。
このように、図9に示す第2学習工程の第1の例では、近傍学習の概念を取り入れた手法を用いて暫定的な自己組織化マップを修正していくことにより、第1学習工程で得られた暫定的な自己組織化マップ上に分布する参照特徴ベクトルの空間的相互関係、すなわち互いに類似する参照特徴ベクトルは互いに近い位置に配置されているという特性を壊すことなく、好適な修正を行うことができる。これにより、後に続く情報の内容判定処理(本実施形態の場合は画像の意味判定処理)の精度を向上させることができる。
繰返し処理による第2学習データ中の全てのサンプル特徴ベクトルの学習が終了すると、図9の処理はステップS34へ進み、N回の学習が終了したか否かが確認される。Nは第2学習データ全体の繰返し学習回数の設定数であり、1以上のいかなる回数であってもよい。
N回の学習が終了すると、図9に示した処理はステップS38へと進み、当該終了時点でメモリ30に格納されている暫定的な自己組織化マップが、最終的な自己組織化マップとされる。この最終的な自己組織化マップの各ベクトル点には、図8の(b)に示す意味のマップの各対応点が示す意味が対応付けられている。
なお、上記の第2学習工程の第1の例では、第2学習データが示す現在のサンプル特徴ベクトルの対応クラスと勝者ベクトルに対応付けられたクラスとが、一致する場合にも一致しない場合にも、修正処理を行うこととしたが、一致する場合には修正処理を行わず、一致しない場合にのみ、勝者ベクトルおよびその近傍のベクトル点に分布する参照特徴ベクトルを、現在のサンプル特徴ベクトルとの類似度が減少するように修正することとしてもよい。
また、上記の第2学習工程の第1の例では、学習全体を通じて3×3の一定サイズの近傍(第2学習近傍)を使用したが、学習の初期段階においてはより大きな近傍を使用し、学習が進むに従って近傍のサイズを小さくしていってもよい。また、近傍の形状も、矩形に限られない。
次に、図12を用いて、本実施形態のデータ学習装置10の第2学習部14が行う第2学習工程の、第2の例について説明する。図12は、第2学習工程の第2の例の手順を示したフローチャートである。この第2の例も、上記の第1の例と同様、上記に説明した第1学習工程により導出された、各ベクトル点に意味が対応付けられた暫定的な自己組織化マップを、学習の初期状態として用いて行うものである。この第2の例に係る第2学習工程の開始に先立って、上記の意味が対応付けられた暫定的な自己組織化マップは、第1学習部12の学習結果受渡部28を介して第2学習部14に受け渡され、メモリ30内に格納される。
図12の処理では、まずステップS40において、第2ベクトル特定部34が、メモリ32に格納されている第2学習データ中の1つのサンプル特徴ベクトルを、学習対象として読み込む。この第2学習データは、上記の第1学習データと同一のデータを再度用いるものであってもよいし、第1学習データと異なるものであってもよい。第2学習データには、各第2サンプル特徴ベクトルの対応クラス、すなわち対応する意味の情報も含まれている。
次に、ステップS42において、第2ベクトル特定部34は、メモリ30内に格納された暫定的な自己組織化マップ上から、勝者ベクトルを探索し特定する。ここで、上記の第1の例では、暫定的な自己組織化マップ全体から勝者ベクトルが探索されたのに対し、この第2の例では、暫定的な自己組織化マップ上の参照特徴ベクトルのうち、ステップS40で読み込んだ現在のサンプル特徴ベクトルと対応クラスが一致する参照特徴ベクトルのみの中から、現在のサンプル特徴ベクトルとの類似度が最も高い参照特徴ベクトル、すなわち現在のサンプル特徴ベクトルとの特徴ベクトル空間におけるユークリッド距離が最も小さい参照特徴ベクトルが探索され、勝者ベクトルとして特定される。たとえば、現在のサンプル特徴ベクトルが、第2学習データが示す正解クラス(正解の意味)が「草原」であるベクトルであるとすれば、図8の(a)に示すような暫定的な自己組織化マップ上の参照特徴ベクトルのうち、図8の(b)に示す意味のマップで「草原」の意味が対応付けられている参照特徴ベクトルのみが探索され、その中から勝者ベクトルが特定される。
続いて、ステップS44において、修正部36が、暫定的な自己組織化マップ上の勝者ベクトルおよびその近傍3×3のベクトル点に分布する参照特徴ベクトルを、現在のサンプル特徴ベクトルとの類似度が増大するように、すなわち現在のサンプル特徴ベクトルとのユークリッド距離が小さくなるように修正する。その後、ステップS46において第2学習データ中に未学習のサンプル特徴ベクトルが残っているか否かが確認され、第2学習データ中の全てのサンプル特徴ベクトルを学習し終わるまで、ステップS40からS46からなる処理が繰り返される。
このように、図12に示す第2学習工程の第2の例でも、近傍学習の概念を取り入れた手法を用いて暫定的な自己組織化マップを修正していくことにより、第1学習工程で得られた暫定的な自己組織化マップ上に分布する参照特徴ベクトルの空間的相互関係、すなわち互いに類似する参照特徴ベクトルは互いに近い位置に配置されているという特性を壊すことなく、好適な修正を行うことができる。これにより、後に続く情報の内容判定処理(本実施形態の場合は画像の意味判定処理)の精度を向上させることができる。
繰返し処理による第2学習データ中の全てのサンプル特徴ベクトルの学習が終了すると、図12の処理はステップS48へ進み、N回の学習が終了したか否かが確認される。Nは第2学習データ全体の繰返し学習回数の設定数であり、1以上のいかなる回数であってもよい。
N回の学習が終了すると、図12に示した処理はステップS52へと進み、当該終了時点でメモリ30に格納されている暫定的な自己組織化マップが、最終的な自己組織化マップとされる。この最終的な自己組織化マップの各ベクトル点には、図8の(b)に示す意味のマップの各対応点が示す意味が対応付けられている。
なお、上記の第2学習工程の第1の例では、学習全体を通じて3×3の一定サイズの近傍(第2学習近傍)を使用したが、学習の初期段階においてはより大きな近傍を使用し、学習が進むに従って近傍のサイズを小さくしていってもよい。また、近傍の形状も、矩形に限られない。さらに、たとえば意味のマップ上において勝者ベクトルに対応付けられている意味が「草原」であるとすれば、上記の近傍が意味「草原」に対応する範囲内に収まるようにする等、繰返し処理ごとに近傍の形状を変化させてもよい。
次に、図13および図14を用いて、本実施形態のデータ学習装置10の第2学習部14が行う第2学習工程の、第3の例について説明する。図13は、第2学習工程の第3の例の手順を示したフローチャートである。この第3の例に係る第2学習工程に先立つ第1学習工程も、上記の図2に示したものと同様のものでよいが、ここではステップS22の処理は行われず、第1学習工程の学習結果は、自己組織化マップと複数の頻度マップの組の状態で、第1学習部12の学習結果受渡部28を介して第2学習部14に受け渡され、メモリ30内に格納される。第2学習部14に受け渡される各頻度マップ上の特定頻度値の値は、第1学習工程終了後のそのままの特定頻度値の値であってもよいし、規格化された特定頻度値であってもよい。
図13の処理では、まずステップS54において、第2ベクトル特定部34が、メモリ32に格納されている第2学習データ中の1つのサンプル特徴ベクトルを、学習対象として読み込む。この第2学習データは、上記の第1学習データと同一のデータを再度用いるものであってもよいし、第1学習データと異なるものであってもよい。第2学習データには、各第2サンプル特徴ベクトルの対応クラス、すなわち対応する意味の情報も含まれている。
次に、ステップS56において、第2ベクトル特定部34は、メモリ30内に格納された自己組織化マップ上から、ステップS54で読み込んだ現在のサンプル特徴ベクトルとの類似度が最も高い参照特徴ベクトル、すなわち現在のサンプル特徴ベクトルとの特徴ベクトル空間におけるユークリッド距離が最も小さい参照特徴ベクトルを探索し、勝者ベクトルとして特定する。
続いて、ステップS58において、修正部36が、第2学習データが示す現在のサンプル特徴ベクトルの対応クラスすなわち正解クラスと、ステップS56で特定された勝者ベクトルに対応付けられたクラスが、一致するか否かを確認する。その結果、2つのクラスが一致しない場合には、修正部36は、ステップS60において、正解クラスに対応する頻度マップ上において、勝者ベクトルの対応点およびその近傍3×3に分布する点の特定頻度値を+1だけ増分させる。その後、ステップS62において第2学習データ中に未学習のサンプル特徴ベクトルが残っているか否かが確認され、第2学習データ中の全てのサンプル特徴ベクトルを学習し終わるまで、ステップS54からS62からなる処理が繰り返される。
上記のステップS54からステップS60の処理を、図14の概念図を用いて具体的に説明する。
図14の概念図では、ステップS54で読み込まれたサンプル特徴ベクトルが、第2学習データの示す対応クラスすなわち正解クラスの意味が「草原」であるベクトルであるとし、ステップS56において、図14の(a)に白抜きで示す自己組織化マップ上の参照特徴ベクトルが、勝者ベクトルとして特定されたとする。そこで、ステップS58における確認のため、図14の(b)に示す各頻度マップ上の勝者ベクトルの対応点を参照すると、勝者ベクトルの対応点で最も高い特定頻度値を示しているのは「山」の頻度マップである。したがって、勝者ベクトルに対応付けられるクラスは「山」であり、正解クラス「草原」とは一致しない。そこで、ステップS60において、正解クラス「草原」に対応する頻度マップ上において、勝者ベクトルの対応点および図14の(b)に破線で示した3×3の近傍内に分布する点の特定頻度値が、+1だけ増分される。
繰返し処理による第2学習データ中の全てのサンプル特徴ベクトルの学習が終了すると、図13の処理はステップS64へ進み、N回の学習が終了したか否かが確認される。Nは第2学習データ全体の繰返し学習回数の設定数であり、1以上のいかなる回数であってもよい。
N回の学習が終了すると、図13に示した処理はステップS68へと進み、当該終了時点でメモリ30に格納されている各頻度マップに基づいて、メモリ30に格納されている自己組織化マップの各ベクトル点において出現確率が最も高いクラスが、そのベクトル点に対応付けられる。具体的には、学習終了後の各頻度マップを規格化して重ね合わせ、各点において最も高い特定頻度値を示しているクラスすなわち意味をその点に割り当てた、図8の(b)に示すものに類似の意味のマップを作成し、メモリ30に格納されている自己組織化マップの各ベクトル点に、この意味のマップ上における対応点に割り当てられた意味を対応付ける等の処理により、ステップS68の対応付けを行うことができる。なお、各ベクトル点において「出現確率が最も高いクラス」をそのベクトル点に対応付けるとしたが、各頻度マップの規格化を行わずに、単に最も高い特定頻度値を示しているクラスを各ベクトル点に対応付けるような形態も、本発明の範囲に属するものとする。
なお、上記の第2学習工程の第3の例では、学習全体を通じて3×3の一定サイズの近傍を使用したが、学習の初期段階においてはより大きな近傍を使用し、学習が進むに従って近傍のサイズを小さくしていってもよい。また、近傍の形状も、矩形に限られない。さらに、上記の第3の例では、各頻度マップ上の特定頻度値の増分幅は、学習全体を通じて+1で一定であったが、学習が進むに従って増分幅を大きくしていってもよい。また、勝者ベクトルおよび近傍中の全ての参照特徴ベクトルの対応点に同一の増分幅を適用する形態に限られず、たとえばガウス分布状の増分幅を採用し、勝者ベクトルの対応点により近い点ほど増分幅が大きくなるようにしてもよい。あるいは、近傍学習を行わず、頻度マップ上の勝者ベクトルの対応点においてのみ特定頻度値を増分させることとしてもよい。
また、図13の例のフローチャートに示す例では、正解クラスと勝者ベクトルのクラスが一致しない場合にのみステップS60の修正処理を行うこととしたが、逆に、正解クラスと勝者ベクトルのクラスが一致する場合にのみ修正処理を行うこととしてもよい。あるいは、図13のフローチャートにおけるステップS58に対応する判断を行わずに、正解クラスと勝者ベクトルのクラスが一致するか否かにかかわらず、ステップS60の修正処理を行うこととしてもよい。
いずれの場合においても、図13に示す第2学習工程の第3の例は、第1学習工程で得られた自己組織化マップには修正を加えずに、頻度マップを修正することにより、自己組織化マップの各ベクトル点に対応付けられるクラスを修正するものであるので、第1学習工程で得られた収束した自己組織化マップ上に分布する参照特徴ベクトルの空間的相互関係を壊すことなく、好適な修正を行うことができる。これにより、後に続く情報の内容判定処理(本実施形態の場合は画像の意味判定処理)の精度を向上させることができる。
次に、図15および図16を用いて、本実施形態のデータ学習装置10の第2学習部14が行う第2学習工程の、第4の例について説明する。図15は、第2学習工程の第4の例の手順を示したフローチャートである。この第4の例に係る第2学習工程では、上記の第3の例と同様、第1学習工程の学習結果は、自己組織化マップと複数の頻度マップの組の状態で、第1学習部12の学習結果受渡部28を介して第2学習部14に受け渡され、メモリ30内に格納されている。第2学習部14に受け渡される各頻度マップ上の特定頻度値の値は、第1学習工程終了後のそのままの特定頻度値の値であってもよいし、規格化された特定頻度値であってもよい。
図15の処理では、まずステップS70において、第2ベクトル特定部34が、メモリ32に格納されている第2学習データ中の1つのサンプル特徴ベクトルを、学習対象として読み込む。この第2学習データは、上記の第1学習データと同一のデータを再度用いるものであってもよいし、第1学習データと異なるものであってもよい。第2学習データには、各第2サンプル特徴ベクトルの対応クラス、すなわち対応する意味の情報も含まれている。
次に、ステップS72において、第2ベクトル特定部34は、メモリ30内に格納された自己組織化マップ上から、ステップS70で読み込んだ現在のサンプル特徴ベクトルとの類似度が最も高い参照特徴ベクトル、すなわち現在のサンプル特徴ベクトルとの特徴ベクトル空間におけるユークリッド距離が最も小さい参照特徴ベクトルを探索し、勝者ベクトルとして特定する。
続いて、ステップS74において、修正部36が、第2学習データが示す現在のサンプル特徴ベクトルの対応クラスすなわち正解クラスと、ステップS72で特定された勝者ベクトルに対応付けられたクラスが、一致するか否かを確認する。その結果、2つのクラスが一致しない場合には、修正部36は、ステップS76において、正解でないクラスに対応する各頻度マップ上において、勝者ベクトルの対応点およびその近傍3×3に分布する点の特定頻度値を−1だけ減少させる。その後、ステップS78において第2学習データ中に未学習のサンプル特徴ベクトルが残っているか否かが確認され、第2学習データ中の全てのサンプル特徴ベクトルを学習し終わるまで、ステップS70からS78からなる処理が繰り返される。
上記のステップS70からステップS76の処理を、図16の概念図を用いて具体的に説明する。
図16の概念図では、ステップS70で読み込まれたサンプル特徴ベクトルが、第2学習データの示す対応クラスすなわち正解クラスの意味が「草原」であるベクトルであるとし、ステップS72において、図16の(a)に白抜きで示す自己組織化マップ上の参照特徴ベクトルが、勝者ベクトルとして特定されたとする。そこで、ステップS74における確認のため、図16の(b)に示す各頻度マップ上の勝者ベクトルの対応点を参照すると、勝者ベクトルの対応点で最も高い特定頻度値を示しているのは「山」の頻度マップである。したがって、勝者ベクトルに対応付けられるクラスは「山」であり、正解クラス「草原」とは一致しない。そこで、ステップS76において、正解クラス「草原」以外のクラス、すなわち「空」および「山」に対応する各頻度マップ上において、勝者ベクトルの対応点および図16の(b)に破線で示した3×3の近傍内に分布する点の特定頻度値が、−1だけ減少させられる。
繰返し処理による第2学習データ中の全てのサンプル特徴ベクトルの学習が終了すると、図15の処理はステップS80へ進み、N回の学習が終了したか否かが確認される。Nは第2学習データ全体の繰返し学習回数の設定数であり、1以上のいかなる回数であってもよい。
N回の学習が終了すると、図15に示した処理はステップS84へと進み、当該終了時点でメモリ30に格納されている各頻度マップに基づいて、メモリ30に格納されている自己組織化マップの各ベクトル点において出現確率が最も高いクラスが、そのベクトル点に対応付けられる。具体的には、学習終了後の各頻度マップを規格化して重ね合わせ、各点において最も高い特定頻度値を示しているクラスすなわち意味をその点に割り当てた、図8の(b)に示すものに類似の意味のマップを作成し、メモリ30に格納されている自己組織化マップの各ベクトル点に、この意味のマップ上における対応点に割り当てられた意味を対応付ける等の処理により、ステップS84の対応付けを行うことができる。なお、各ベクトル点において「出現確率が最も高いクラス」をそのベクトル点に対応付けるとしたが、各頻度マップの規格化を行わずに、単に最も高い特定頻度値を示しているクラスを各ベクトル点に対応付けるような形態も、本発明の範囲に属するものとする。
なお、上記の第2学習工程の第4の例では、第3の例と同様、学習の初期段階においてはより大きな近傍を使用し、学習が進むに従って近傍のサイズを小さくしていってもよい。また、近傍の形状も、矩形に限られない。さらに、学習が進むに従って、各頻度マップ上の特定頻度値の減少幅を大きくしていってもよい。また、勝者ベクトルおよび近傍中の全ての参照特徴ベクトルの対応点に同一の減少幅を適用する形態に限られず、たとえばガウス分布状の減少幅を採用し、勝者ベクトルの対応点により近い点ほど減少幅が大きくなるようにしてもよい。あるいは、近傍学習を行わず、頻度マップ上の勝者ベクトルの対応点においてのみ特定頻度値を減少させることとしてもよい。
また、上記の第2学習工程の第4の例では、正解クラス以外のクラスに対応する全ての頻度マップ上において、特定頻度値を減少させる修正を行ったが、正解クラス以外のクラスに対応する頻度マップの一部のみにおいて、修正を行ってもよい。たとえば、図16を用いて説明した上記の例では、勝者ベクトルの対応点で最も高い特定頻度値を示した「山」の頻度マップにおいてのみ、特定頻度値を減少させる修正を行ってもよい。
さらに、図15の例のフローチャートに示す例では、正解クラスと勝者ベクトルのクラスが一致しない場合にのみステップS76の修正処理を行うこととしたが、逆に、正解クラスと勝者ベクトルのクラスが一致する場合にのみ修正処理を行うこととしてもよい。あるいは、図15のフローチャートにおけるステップS74に対応する判断を行わずに、正解クラスと勝者ベクトルのクラスが一致するか否かにかかわらず、ステップS76の修正処理を行うこととしてもよい。
また、第2学習工程として、上記の第3の例と第4の例とを組み合わせた工程、すなわち、正解クラスに対応する頻度マップ上においては特定頻度値を増分させ、正解クラス以外のクラスに対応する頻度マップ上においては特定頻度値を減少させる修正処理を含む工程を採用してもよい。
以上、本発明の1つの実施形態に係るデータ学習装置およびその装置が行う処理の例について説明したが、本発明に係るデータ学習装置の第1学習部が行う第1学習工程は、上記した修正対向伝搬ネットワークの手法を利用したものに限られず、クラスまたは頻度マップが対応付けられ相当程度収束した自己組織化マップが得られるものであれば、他のいかなる手法によるものでもよい。たとえば、頻度マップを作成せずに、楕円による近似等により各クラスがカバーするベクトル点の範囲を画定する手法等を用いてもよい。
また、上記の実施形態においては特徴ベクトル空間における2つの特徴ベクトル間のユークリッド距離を類似度として用いたが、これに限られず、2つの特徴ベクトル間の内積等を用いてもよい。
さらに、上記の実施形態は、画像の意味判定処理に使用する自己組織化マップの導出を目的とするものであり、したがって使用されるサンプル特徴ベクトルおよび参照特徴ベクトルは画像の特徴を表す特徴量を成分とするものであり、各クラス情報は画像の意味を示す情報であったが、これに限られず、本発明は、あらゆる情報の内容判定処理のための自己組織化マップ導出に適用可能であることは言うまでもない。また、同じように画像の意味判定処理に使用する自己組織化マップの導出を目的とする場合でも、サンプル特徴ベクトルおよび参照特徴ベクトルの成分として用いられ得る特徴量は、上記した10個の特徴量に限られないことも言うまでもない。
また、上記に説明した処理をコンピュータに行わせるプログラムが、本発明にかかるデータ学習プログラムの実施形態である。
上記に説明した第1学習工程と第2学習工程のいずれかの例とからなるデータ学習処理により導出された最終的な自己組織化マップは、画像の意味判定処理に用いることができる。以下、図17から図19を用いて、かかる自己組織化マップを用いて、入力画像に含まれる各画像領域の意味を判定する意味判定装置の構成、およびその装置が行う処理の例について説明する。
図17は、意味判定装置40の構成を示したブロック図である。意味判定装置40は、画像入力受付部42、画像領域特定部44、特徴ベクトル抽出部46、メモリ48、勝者ベクトル特定部50および意味判定部52を備えている。メモリ48には、上記に説明した第1学習工程と第2学習工程のいずれかの例とからなるデータ学習処理により導出された、最終的な自己組織化マップが格納されている。自己組織化マップの各ベクトル点には、「空」、「山」または「草原」のいずれかの意味(クラス)が対応付けられており、この意味に関する情報もメモリ48に格納されているものとする。
図18は、上記の意味判定装置40が行う、入力画像に含まれる各画像領域の意味を判定する処理の全体的な手順を示したフローチャートである。図18の処理は、その後、意味に基づく画像分類や、各意味に対応する画像領域ごとに区別された条件による画像処理を行うために有用な処理である。
まず、ステップS120において、画像入力受付部42が、全体画像を表す画像データを、入力データとして読み込む。ここでは、全体画像は1024×1280画素のデジタル写真画像であるとする。
次に、ステップS122において、画像領域特定部44が、全体画像に含まれる各画像領域を特定する。この特定は、たとえば、RGB表色系で表された全体画像について、R、GおよびBの各成分の濃度値を、隣接画素間でそれぞれ比較して、いずれの濃度値の差もが所定の閾値を超える場合にそれらの画素を統合する処理を行い、かかる比較・統合処理を上記の所定の閾値によってはそれ以上の統合が起こらなくなるまで繰り返すこと等により行われる。また、このようにして得られた画像領域のうちノイズまたは無視し得る要素と考えられるような微小な画像領域を、隣接する画像領域にさらに統合する処理を行ってもよい。このさらなる統合は、たとえば、各微小な画像領域の各隣接画像領域のうち接する境界長が最も長い隣接画像領域に、その微小な画像領域を統合すること等により行われる。なお、以上は1つの例に過ぎず、ステップS122における画像領域の特定手法は、他のいかなる手法であってもよい。
続いて、ステップS124において、特徴ベクトル抽出部46が、ステップS120で読み込まれた全体画像を、複数のブロック画像に分割する。ここでは、各ブロック画像は32×32画素の画像である。なお、図18では、説明の便宜のため実際よりも粗い分割で示してある。
次に、ステップS126において、メモリ48に格納された自己組織化マップを用いて各画像領域に包含されるブロック画像の意味が特定され、その結果に基づいて各画像領域の意味が判定される。ステップS126において行われる処理の詳細な手順を、以下、図19のフローチャートを用いて具体的に説明する。
まず、図19のステップS130において、特徴ベクトル抽出部46が、図18のステップS122で特定された複数の画像領域のうちの1つの画像領域に包含されるブロック画像を特定する。ここで、1つの画像領域に包含されるブロック画像とは、その画像領域に完全に包含されているブロック画像を言い、画像領域間の境界にまたがるブロック画像は含まないものとする。
次に、ステップS132において、特徴ベクトル抽出部46は、ステップS130で特定したブロック画像の1つから、特徴ベクトルを抽出する。ここでは、抽出される特徴ベクトルは、意味判定に使用される自己組織化マップが学習したサンプル特徴ベクトルの成分と同様の特徴量、すなわち、YCC表色系で表された当該ブロック画像の3つの成分値の、画素間平均値ならびに標準偏差、および当該ブロック画像から導出された縦エッジ画像と横エッジ画像の成分値の、各々の絶対値の画素間平均値ならびに標準偏差の、10個の特徴量を成分とするベクトルである。
続いて、ステップS134において、勝者ベクトル特定部50が、メモリ48に格納された自己組織化マップ上から、ステップS132で抽出された特徴ベクトルとの類似度が最も高い参照特徴ベクトルを探索し、勝者ベクトルとして特定する。ここでは、上述した実施形態に係るデータ学習方法において使用されたのと同様の特徴ベクトル空間におけるユークリッド距離が、特徴ベクトル間の類似度として使用され、したがって、ステップS132で抽出された特徴ベクトルとのユークリッド距離が最も小さい参照特徴ベクトルが、勝者ベクトルとして特定される。
次に、ステップS136において、意味判定部52が、メモリ48に格納されている意味に関する情報を参照し(図8(b)の意味のマップ参照)、ステップS134で特定された勝者ベクトルのベクトル点に対応付けられた意味を、現在のブロック画像の意味として割り当てる。
続いて、ステップS138において、現在の画像領域に包含されるブロック画像がまだ残っているか否かが確認され、現在の画像領域に包含される全てのブロック画像の意味が特定されるまで、ステップS132からS138が繰り返される。この繰返し処理により、現在の画像領域に包含される各ブロック画像から1つずつの特徴ベクトルが抽出されるので、現在の画像領域全体からは、1つまたは複数の特徴ベクトルが抽出され、それぞれの特徴ベクトルについて勝者ベクトルおよび対応の意味が特定されることになる。
現在の画像領域に含まれる全てのブロック画像の意味の特定が終了すると、ステップS140において、意味判定部52が、各ブロック画像の特定された意味のうち最多のものを、現在の画像領域の意味とする。その後、ステップS142において、未判定の画像領域が残っているか否かが確認され、全ての画像領域の意味が判定されるまで、ステップS130からステップS142が繰り返される。全ての画像領域の意味判定が完了すると、ステップS144において、意味判定部52は、その判定結果を出力する。このようにして、図18のステップS126の処理が完了すると、図示のように、各画像領域の意味が「空」、「山」および「草原」のいずれであるかが判定される。
なお、上記に説明した意味判定処理は一例であって、たとえば、図19のステップS134の後に、特徴ベクトルと勝者ベクトルとのユークリッド距離が所定の閾値より大きい場合には、ステップS136に進まずに「意味判定不能」との判定をしてステップS138へと進むステップを設ける等、追加の工程が含まれていてもよい。
また、上記の意味判定処理は、入力された全体画像に含まれる各画像領域の意味を判定するものであったが、同様の自己組織化マップを用いて、全体画像自体の意味判定処理等も可能であることは言うまでもない。この場合、使用される自己組織化マップは、たとえば、「人物写真」、「建物の写真」、「海の風景写真」等であることが分かっている全体画像を、上記に説明した第1学習工程と第2学習工程からなるデータ学習処理により予め学習して得られた最終的な自己組織化マップである。
次に、図20から図25を参照して、追加学習を行う修正手段を備えた、本発明の1つの実施形態に係る画像の意味判定装置について説明する。
図20は、本実施形態に係る意味判定装置60の構成を示したブロック図である。意味判定装置60は、画像入力受付部62、画像領域特定部64、特徴ベクトル抽出部66、メモリ68、勝者ベクトル特定部70、意味判定部72、修正入力受付部74および修正部76を備えている。メモリ68には、各ベクトル点に画像の意味(クラス)が対応付けられた学習後の自己組織化マップ、または学習後の自己組織化マップと複数の頻度マップの組が格納されているものとする。この自己組織化マップ、または自己組織化マップと複数の頻度マップの組は、いかなる学習手法により導出されたものであってもよく、たとえば、上記に説明した第1学習工程(図2)と同様の手法により導出されたものを用いることができる。
本実施形態の意味判定装置60は、入力画像に含まれる各画像領域の意味を判定するものである。その判定手法は、上記の図17に示した意味判定装置40の手法と同様であり、画像入力受付部62、画像領域特定部64、特徴ベクトル抽出部66、勝者ベクトル特定部70および意味判定部72が行う処理も、上記の意味判定装置40の対応部分が行う処理と同様である。そこで以下、修正入力受付部74および修正部76の構成および動作についてのみ、詳細に説明する。
修正入力受付部74は、操作者が意味判定部72からの意味判定結果の出力を確認したところ、正しく意味が判定できていない画像領域があった場合に、操作者が、意味判定装置60に対し、その画像領域の指定と正解の意味を入力できるようにしたものである。この修正入力受付部74からの入力に基づいて、修正部76が追加学習を行い、メモリ68に格納されている自己組織化マップまたは頻度マップを修正する。
修正入力受付部74は、たとえば、図21に示すような表示部78をインターフェースとして備えた構成とすることができる。この表示部78には、図21の(a)に示すように、意味判定部72が特定の意味に対応すると判定した画像領域を含む各全体画像が、「空」、「山」および「草原」等の意味ごとに表示可能となっており、操作者は、マウスポインタ80でいずれかのタブ82を選択することにより、表示を切り換えることができる。図21の(a)は、「山」の意味に対応すると判定された画像領域を含む各全体画像が表示されている状態を示している。ここで、1つの全体画像84をマウスポインタ80で選択すると、図21(b)のように、全体画像84が拡大表示されると共に、意味判定部72が判定した各画像領域の意味が表示される。図21(b)において、画像領域86は、本来は「草原」に対応する画像領域であるが、「山」に対応するものと誤判定されている。操作者は、この画像領域86をマウスポインタ80で選択することにより、追加学習すべき画像領域として画像領域86を指定できる。この指定の後、操作者は、マウスポインタ80やキーボードを介して、画像領域86の正解の意味が「草原」であるという情報を入力できるものとする。
以下、修正入力受付部74における上記の入力がなされた後の、修正部76が行う修正処理の第1から第4の例を、図22から図25を参照しながら説明する。
図22に示した修正処理の第1の例は、上記の本発明の1つの実施形態に係るデータ学習装置が行う第2学習工程の第1の例として、図9に示した処理と類似の処理である。この図22の処理では、まず、ステップS150において、修正入力受付部74で指定された追加学習すべき画像領域から、特徴ベクトルが抽出される。次に、ステップS152において、メモリ68に格納されている現在の自己組織化マップから、ステップS150で抽出された特徴ベクトルとの特徴ベクトル空間におけるユークリッド距離が最も小さい参照特徴ベクトルが探索され、勝者ベクトルとして特定される。最後に、ステップS154において、ステップS152で特定された勝者ベクトルおよびその近傍3×3のベクトル点に分布する参照特徴ベクトルが、ステップS150で抽出された特徴ベクトルとの類似度が減少するように、すなわちユークリッド距離が大きくなるように修正される。
図23に示した修正処理の第2の例は、上記の本発明の1つの実施形態に係るデータ学習装置が行う第2学習工程の第2の例として、図12に示した処理と類似の処理である。この図23の処理では、まず、ステップS156において、修正入力受付部74で指定された追加学習すべき画像領域から、特徴ベクトルが抽出される。次に、ステップS158において、メモリ68に格納されている現在の自己組織化マップ上の参照特徴ベクトルのうち、修正入力受付部74で指定された正解の意味と同一の意味と対応付けられた参照特徴ベクトルのみの中から、ステップS156で抽出された特徴ベクトルとの特徴ベクトル空間におけるユークリッド距離が最も小さい参照特徴ベクトルが探索され、勝者ベクトルとして特定される。最後に、ステップS160において、ステップS158で特定された勝者ベクトルおよびその近傍3×3のベクトル点に分布する参照特徴ベクトルが、ステップS156で抽出された特徴ベクトルとの類似度が増大するように、すなわちユークリッド距離が小さくなるように修正される。
なお、上記の修正処理の第1および第2の例においては、3×3の一定サイズの近傍を使用したが、近傍のサイズや形状はこれに限られない。
図24に示した修正処理の第3の例は、上記の本発明の1つの実施形態に係るデータ学習装置が行う第2学習工程の第3の例として、図13に示した処理と類似の処理である。この図24の処理を行う場合、メモリ68に格納されているデータは、自己組織化マップと複数の頻度マップの組の形態のものである必要がある。各頻度マップ上の特定頻度値は、学習終了後のそのままの特定頻度値の値であってもよいし、規格化された特定頻度値であってもよい。まず、ステップS162において、修正入力受付部74で指定された追加学習すべき画像領域から、特徴ベクトルが抽出される。次に、ステップS164において、メモリ68に格納されている現在の自己組織化マップから、ステップS162で抽出された特徴ベクトルとの特徴ベクトル空間におけるユークリッド距離が最も小さい参照特徴ベクトルが探索され、勝者ベクトルとして特定される。最後に、ステップS166で、メモリ68に格納されている複数の頻度マップのうち、修正入力受付部74で指定された正解の意味に対応する頻度マップ上において、ステップS164で特定された勝者ベクトルの対応点およびその近傍3×3に分布する点の特定頻度値が、+1だけ増分される。
なお、上記の修正処理の第3の例では、3×3の一定サイズの近傍を使用したが、近傍のサイズや形状はこれに限られない。さらに、勝者ベクトルおよび近傍中の全ての参照特徴ベクトルの対応点に同一の増分幅を適用する形態に限られず、たとえばガウス分布状の増分幅を採用し、勝者ベクトルの対応点により近い点ほど増分幅が大きくなるようにしてもよい。あるいは、近傍学習を行わず、頻度マップ上の勝者ベクトルの対応点においてのみ特定頻度値を増分させることとしてもよい。
図25に示した修正処理の第4の例は、上記の本発明の1つの実施形態に係るデータ学習装置が行う第2学習工程の第4の例として、図15に示した処理と類似の処理である。この図25の処理を行う場合、メモリ68に格納されているデータは、自己組織化マップと複数の頻度マップの組の形態のものである必要がある。各頻度マップ上の特定頻度値は、学習終了後のそのままの特定頻度値の値であってもよいし、規格化された特定頻度値であってもよい。まず、ステップS168において、修正入力受付部74で指定された追加学習すべき画像領域から、特徴ベクトルが抽出される。次に、ステップS170において、メモリ68に格納されている現在の自己組織化マップから、ステップS168で抽出された特徴ベクトルとの特徴ベクトル空間におけるユークリッド距離が最も小さい参照特徴ベクトルが探索され、勝者ベクトルとして特定される。最後に、ステップS172で、メモリ68に格納されている複数の頻度マップのうち、修正入力受付部74で指定された正解の意味に対応する頻度マップ以外の各頻度マップ上において、ステップS170で特定された勝者ベクトルの対応点およびその近傍3×3に分布する点の特定頻度値が、−1だけ減少させられる。
なお、上記の修正処理の第4の例では、3×3の一定サイズの近傍を使用したが、近傍のサイズや形状はこれに限られない。さらに、勝者ベクトルおよび近傍中の全ての参照特徴ベクトルの対応点に同一の減少幅を適用する形態に限られず、たとえばガウス分布状の減少幅を採用し、勝者ベクトルの対応点により近い点ほど減少幅が大きくなるようにしてもよい。あるいは、近傍学習を行わず、頻度マップ上の勝者ベクトルの対応点においてのみ特定頻度値を減少させることとしてもよい。
また、上記の修正処理の第4の例では、正解の意味に対応するもの以外の全ての頻度マップ上において、特定頻度値を減少させる修正を行ったが、正解の意味に対応するもの以外の頻度マップの一部のみにおいて、修正を行ってもよい。たとえば、上記のステップS170において特定された勝者ベクトルの対応点で最も高い特定頻度値を示した頻度マップにおいてのみ、特定頻度値を減少させる修正を行ってもよい。
さらに、上記の修正処理の第1から第4の例においては、特徴ベクトル空間における2つの特徴ベクトル間のユークリッド距離を類似度として用いたが、これに限られず、2つの特徴ベクトル間の内積等を用いてもよい。
また、上記の修正処理の第1から第4の例においては、修正部76が指定された画像領域から特徴ベクトルを抽出するものとしたが、意味判定処理において特徴ベクトル抽出部66が抽出した特徴ベクトルをメモリに記憶しておくこととし、それらの特徴ベクトルをそのまま使用することとしてもよい。その場合、第1、第3および第4の例においては、意味判定処理において勝者ベクトル特定部70が特定した勝者ベクトルもメモリに記憶しておくこととし、それらの勝者ベクトルをそのまま使用することとしてもよい。
さらに、修正入力受付部74で1組の修正入力がされるごとに修正処理を行う形態に限られず、ある程度の修正入力が蓄積した段階で修正処理を行う形態や、定期的に修正処理を行う形態としてもよい。
以上、本発明の実施形態について詳細に述べたが、これらの実施形態は例示的なものに過ぎず、本発明の技術的範囲は、本明細書中の特許請求の範囲のみによって定められるべきものであることは言うまでもない。
10 データ学習装置
12 第1学習部
14 第2学習部
40、60 意味判定装置
78 表示部
12 第1学習部
14 第2学習部
40、60 意味判定装置
78 表示部
Claims (20)
- 各々の対応クラスが分かっている複数の第1サンプル特徴ベクトルからなる第1学習データを学習することにより、参照特徴ベクトルのベクトル点の各々にクラスが対応付けられた暫定的な自己組織化マップを導出する第1学習手段と、
各々の対応クラスが分かっている複数の第2サンプル特徴ベクトルからなる第2学習データを学習することにより、前記暫定的な自己組織化マップに修正を加えて最終的な自己組織化マップを導出する第2学習手段を備え、
該第2学習手段が、
前記第2学習データ中の1つの第2サンプル特徴ベクトルを読み込み、前記暫定的な自己組織化マップ上において該1つの第2サンプル特徴ベクトルとの類似度が最も高い第2学習勝者ベクトルを特定する第2ベクトル特定手段と、
該第2学習勝者ベクトルのベクトル点に対応付けられたクラスと、前記第2学習データが示す前記1つの第2サンプル特徴ベクトルの対応クラスとを比較し、該ベクトル点に対応付けられたクラスと該第2学習データが示す対応クラスが一致しない場合には、該第2学習勝者ベクトルおよび前記暫定的な自己組織化マップ上において該第2学習勝者ベクトルの第2学習近傍に分布する複数の参照特徴ベクトルを、前記1つの第2サンプル特徴ベクトルとの類似度が減少するように修正する修正手段と、
前記複数の第2サンプル特徴ベクトルの全てについて、前記第2ベクトル特定手段および前記修正手段を各々1回または複数回繰返し動作させ、前記最終的な自己組織化マップを導出する手段を備えていることを特徴とするデータ学習装置。 - 前記修正手段が、さらに、前記第2学習勝者ベクトルの前記ベクトル点に対応付けられたクラスと、前記第2学習データが示す前記1つの第2サンプル特徴ベクトルの対応クラスとが一致する場合には、該第2学習勝者ベクトルおよび前記第2学習近傍に分布する複数の参照特徴ベクトルを、前記1つの第2サンプル特徴ベクトルとの類似度が増大するように修正するものであることを特徴とする請求項1記載のデータ学習装置。
- 各々の対応クラスが分かっている複数の第1サンプル特徴ベクトルからなる第1学習データを学習することにより、参照特徴ベクトルのベクトル点の各々にクラスが対応付けられた暫定的な自己組織化マップを導出する第1学習手段と、
各々の対応クラスが分かっている複数の第2サンプル特徴ベクトルからなる第2学習データを学習することにより、前記暫定的な自己組織化マップに修正を加えて最終的な自己組織化マップを導出する第2学習手段を備え、
該第2学習手段が、
前記第2学習データ中の1つの第2サンプル特徴ベクトルを読み込み、前記暫定的な自己組織化マップ上の参照特徴ベクトルのうち、該参照特徴ベクトルのベクトル点に対応付けられたクラスが、前記第2学習データが示す前記1つの第2サンプル特徴ベクトルの対応クラスと一致するものの中から、該1つの第2サンプル特徴ベクトルとの類似度が最も高い第2学習勝者ベクトルを特定する第2ベクトル特定手段と、
前記第2学習勝者ベクトルおよび前記暫定的な自己組織化マップ上において該第2学習勝者ベクトルの第2学習近傍に分布する複数の参照特徴ベクトルを、前記1つの第2サンプル特徴ベクトルとの類似度が増大するように修正する修正手段と、
前記複数の第2サンプル特徴ベクトルの全てについて、前記第2ベクトル特定手段および前記修正手段を各々1回または複数回繰返し動作させ、前記最終的な自己組織化マップを導出する手段を備えていることを特徴とするデータ学習装置。 - 前記第1学習手段が、
ランダムな複数の参照特徴ベクトルが分布した初期自己組織化マップを発生させる手段と、
各々が1つのクラスに対応する複数の頻度マップであって、各点に割り当てられた特定頻度値の初期値がゼロである複数の頻度マップを発生させる手段と、
前記第1学習データ中の1つの第1サンプル特徴ベクトルを読み込み、前記初期自己組織化マップ上において該1つの第1サンプル特徴ベクトルとの類似度が最も高い第1学習勝者ベクトルを特定する第1ベクトル特定手段と、
該第1学習勝者ベクトルおよび前記初期自己組織化マップ上において該第1学習勝者ベクトルの第1学習近傍に分布する複数の参照特徴ベクトルを、前記1つの第1サンプル特徴ベクトルとの類似度が増大するように修正するとともに、前記第1学習データが示す前記1つの第1サンプル特徴ベクトルの対応クラスに対応する頻度マップ上の、該第1学習勝者ベクトルおよび該第1学習近傍に分布する複数の参照特徴ベクトルの各ベクトル点に対応する点において、前記特定頻度値を増分させる更新手段と、
前記複数の第1サンプル特徴ベクトルの全てについて、前記第1ベクトル特定手段および前記更新手段を各々1回または複数回繰返し動作させ、前記暫定的な自己組織化マップを導出する手段と、
前記複数の頻度マップに基づいて、前記暫定的な自己組織化マップの各ベクトル点における出現確率が最も高いクラスを、該ベクトル点に対応付けられる前記クラスとする手段を備えていることを特徴とする請求項1から3いずれか1項記載のデータ学習装置。 - 各々の対応クラスが分かっている複数の第1サンプル特徴ベクトルからなる第1学習データを学習することにより、自己組織化マップと、各々が1つのクラスに対応する複数の頻度マップとを導出する第1学習手段と、
各々の対応クラスが分かっている複数の第2サンプル特徴ベクトルからなる第2学習データを学習することにより、前記複数の頻度マップを修正し、前記自己組織化マップの各ベクトル点に対応付けられる最終的なクラスを決定する第2学習手段を備え、
該第2学習手段が、
前記第2学習データ中の1つの第2サンプル特徴ベクトルを読み込み、前記自己組織化マップ上において該1つの第2サンプル特徴ベクトルとの類似度が最も高い第2学習勝者ベクトルを特定する第2ベクトル特定手段と、
前記複数の頻度マップのうち、前記第2学習データが示す前記1つの第2サンプル特徴ベクトルの対応クラスと同一の正解クラスに対応する頻度マップ上において、前記第2学習勝者ベクトルのベクトル点に対応する対応点の特定頻度値、または該対応点および該対応点の近傍に分布する点の特定頻度値を増分させる修正を行う修正手段と、
前記複数の第2サンプル特徴ベクトルの全てについて、前記第2ベクトル特定手段および前記修正手段を各々1回または複数回繰返し動作させる手段と、
前記複数の頻度マップに基づいて、前記自己組織化マップの各ベクトル点における出現確率が最も高いクラスを、該ベクトル点に対応付けられる前記最終的なクラスとする手段を備えていることを特徴とするデータ学習装置。 - 前記修正手段が、直前の前記第2ベクトル特定手段の動作により特定された前記第2学習勝者ベクトルのベクトル点に対応する点において最も高い特定頻度値を示す頻度マップに対応付けられたクラスと、前記第2学習データが示す前記1つの第2サンプル特徴ベクトルの対応クラスとが一致する場合または一致しない場合のいずれかにおいてのみ、前記修正を行うものであることを特徴とする請求項5記載のデータ学習装置。
- 各々の対応クラスが分かっている複数の第1サンプル特徴ベクトルからなる第1学習データを学習することにより、自己組織化マップと、各々が1つのクラスに対応する複数の頻度マップとを導出する第1学習手段と、
各々の対応クラスが分かっている複数の第2サンプル特徴ベクトルからなる第2学習データを学習することにより、前記複数の頻度マップを修正し、前記自己組織化マップの各ベクトル点に対応付けられる最終的なクラスを決定する第2学習手段を備え、
該第2学習手段が、
前記第2学習データ中の1つの第2サンプル特徴ベクトルを読み込み、前記自己組織化マップ上において該1つの第2サンプル特徴ベクトルとの類似度が最も高い第2学習勝者ベクトルを特定する第2ベクトル特定手段と、
前記複数の頻度マップのうち、前記第2学習データが示す前記1つの第2サンプル特徴ベクトルの対応クラスと同一の正解クラスに対応する頻度マップ以外の一部または全ての頻度マップ上において、前記第2学習勝者ベクトルのベクトル点に対応する対応点の特定頻度値、または該対応点および該対応点の近傍に分布する点の特定頻度値を減少させる修正を行う修正手段と、
前記複数の第2サンプル特徴ベクトルの全てについて、前記第2ベクトル特定手段および前記修正手段を各々1回または複数回繰返し動作させる手段と、
前記複数の頻度マップに基づいて、前記自己組織化マップの各ベクトル点における出現確率が最も高いクラスを、該ベクトル点に対応付けられる前記最終的なクラスとする手段を備えていることを特徴とするデータ学習装置。 - 前記修正手段が、さらに、前記正解クラスに対応する頻度マップ上において、前記第2学習勝者ベクトルのベクトル点に対応する対応点の特定頻度値、または該対応点および該対応点の近傍に分布する点の特定頻度値を増分させる修正も行うものであることを特徴とする請求項7記載のデータ学習装置。
- 前記修正手段が、直前の前記第2ベクトル特定手段の動作により特定された前記第2学習勝者ベクトルのベクトル点に対応する点において最も高い特定頻度値を示す頻度マップに対応付けられたクラスと、前記第2学習データが示す前記1つの第2サンプル特徴ベクトルの対応クラスとが一致する場合または一致しない場合のいずれかにおいてのみ、前記修正を行うものであることを特徴とする請求項7または8記載のデータ学習装置。
- 前記第1学習手段が、
ランダムな複数の参照特徴ベクトルが分布した初期自己組織化マップを発生させる手段と、
各々が1つのクラスに対応する複数の頻度マップであって、各点に割り当てられた特定頻度値の初期値がゼロである複数の頻度マップを発生させる手段と、
前記第1学習データ中の1つの第1サンプル特徴ベクトルを読み込み、前記初期自己組織化マップ上において該1つの第1サンプル特徴ベクトルとの類似度が最も高い第1学習勝者ベクトルを特定する第1ベクトル特定手段と、
該第1学習勝者ベクトルおよび前記初期自己組織化マップ上において該第1学習勝者ベクトルの近傍に分布する複数の参照特徴ベクトルを、前記1つの第1サンプル特徴ベクトルとの類似度が増大するように修正するとともに、前記第1学習データが示す前記1つの第1サンプル特徴ベクトルの対応クラスに対応する頻度マップ上の、該第1学習勝者ベクトルおよび該近傍に分布する複数の参照特徴ベクトルの各ベクトル点に対応する点において、前記特定頻度値を増分させる更新手段と、
前記複数の第1サンプル特徴ベクトルの全てについて、前記第1ベクトル特定手段および前記更新手段を各々1回または複数回繰返し動作させる手段を備えていることを特徴とする請求項5から9いずれか1項記載のデータ学習装置。 - 前記複数の第1サンプル特徴ベクトルおよび前記複数の第2サンプル特徴ベクトルの各々が、画像の特徴を示す特徴量を成分とするベクトルであって、前記第1学習データおよび前記第2学習データが示す前記対応クラスの各々が、画像の意味を示すクラスであることを特徴とする請求項1から10いずれか1項記載のデータ学習装置。
- コンピュータを、
各々の対応クラスが分かっている複数の第1サンプル特徴ベクトルからなる第1学習データを学習することにより、参照特徴ベクトルのベクトル点の各々にクラスが対応付けられた暫定的な自己組織化マップを導出する第1学習手段、および
各々の対応クラスが分かっている複数の第2サンプル特徴ベクトルからなる第2学習データを学習することにより、前記暫定的な自己組織化マップに修正を加えて最終的な自己組織化マップを導出する第2学習手段であって、
前記第2学習データ中の1つの第2サンプル特徴ベクトルを読み込み、前記暫定的な自己組織化マップ上において該1つの第2サンプル特徴ベクトルとの類似度が最も高い第2学習勝者ベクトルを特定する第2ベクトル特定手段と、
該第2学習勝者ベクトルのベクトル点に対応付けられたクラスと、前記第2学習データが示す前記1つの第2サンプル特徴ベクトルの対応クラスとを比較し、該ベクトル点に対応付けられたクラスと該第2学習データが示す対応クラスが一致しない場合には、該第2学習勝者ベクトルおよび前記暫定的な自己組織化マップ上において該第2学習勝者ベクトルの第2学習近傍に分布する複数の参照特徴ベクトルを、前記1つの第2サンプル特徴ベクトルとの類似度が減少するように修正する修正手段と、
前記複数の第2サンプル特徴ベクトルの全てについて、前記第2ベクトル特定手段および前記修正手段を各々1回または複数回繰返し動作させ、前記最終的な自己組織化マップを導出する手段を備えた第2学習手段として動作させるためのデータ学習プログラム。 - コンピュータを、
各々の対応クラスが分かっている複数の第1サンプル特徴ベクトルからなる第1学習データを学習することにより、参照特徴ベクトルのベクトル点の各々にクラスが対応付けられた暫定的な自己組織化マップを導出する第1学習手段、および
各々の対応クラスが分かっている複数の第2サンプル特徴ベクトルからなる第2学習データを学習することにより、前記暫定的な自己組織化マップに修正を加えて最終的な自己組織化マップを導出する第2学習手段であって、
前記第2学習データ中の1つの第2サンプル特徴ベクトルを読み込み、前記暫定的な自己組織化マップ上の参照特徴ベクトルのうち、該参照特徴ベクトルのベクトル点に対応付けられたクラスが、前記第2学習データが示す前記1つの第2サンプル特徴ベクトルの対応クラスと一致するものの中から、該1つの第2サンプル特徴ベクトルとの類似度が最も高い第2学習勝者ベクトルを特定する第2ベクトル特定手段と、
前記第2学習勝者ベクトルおよび前記暫定的な自己組織化マップ上において該第2学習勝者ベクトルの第2学習近傍に分布する複数の参照特徴ベクトルを、前記1つの第2サンプル特徴ベクトルとの類似度が増大するように修正する修正手段と、
前記複数の第2サンプル特徴ベクトルの全てについて、前記第2ベクトル特定手段および前記修正手段を各々1回または複数回繰返し動作させ、前記最終的な自己組織化マップを導出する手段を備えた第2学習手段として動作させるためのデータ学習プログラム。 - コンピュータを、
各々の対応クラスが分かっている複数の第1サンプル特徴ベクトルからなる第1学習データを学習することにより、自己組織化マップと、各々が1つのクラスに対応する複数の頻度マップとを導出する第1学習手段、および
各々の対応クラスが分かっている複数の第2サンプル特徴ベクトルからなる第2学習データを学習することにより、前記複数の頻度マップを修正し、前記自己組織化マップの各ベクトル点に対応付けられる最終的なクラスを決定する第2学習手段であって、
前記第2学習データ中の1つの第2サンプル特徴ベクトルを読み込み、前記自己組織化マップ上において該1つの第2サンプル特徴ベクトルとの類似度が最も高い第2学習勝者ベクトルを特定する第2ベクトル特定手段と、
前記複数の頻度マップのうち、前記第2学習データが示す前記1つの第2サンプル特徴ベクトルの対応クラスと同一の正解クラスに対応する頻度マップ上において、前記第2学習勝者ベクトルのベクトル点に対応する対応点の特定頻度値、または該対応点および該対応点の近傍に分布する点の特定頻度値を増分させる修正を行う修正手段と、
前記複数の第2サンプル特徴ベクトルの全てについて、前記第2ベクトル特定手段および前記修正手段を各々1回または複数回繰返し動作させる手段と、
前記複数の頻度マップに基づいて、前記自己組織化マップの各ベクトル点における出現確率が最も高いクラスを、該ベクトル点に対応付けられる前記最終的なクラスとする手段を備えた第2学習手段として動作させるためのデータ学習プログラム。 - コンピュータを、
各々の対応クラスが分かっている複数の第1サンプル特徴ベクトルからなる第1学習データを学習することにより、自己組織化マップと、各々が1つのクラスに対応する複数の頻度マップとを導出する第1学習手段、および
各々の対応クラスが分かっている複数の第2サンプル特徴ベクトルからなる第2学習データを学習することにより、前記複数の頻度マップを修正し、前記自己組織化マップの各ベクトル点に対応付けられる最終的なクラスを決定する第2学習手段であって、
前記第2学習データ中の1つの第2サンプル特徴ベクトルを読み込み、前記自己組織化マップ上において該1つの第2サンプル特徴ベクトルとの類似度が最も高い第2学習勝者ベクトルを特定する第2ベクトル特定手段と、
前記複数の頻度マップのうち、前記第2学習データが示す前記1つの第2サンプル特徴ベクトルの対応クラスと同一の正解クラスに対応する頻度マップ以外の一部または全ての頻度マップ上において、該第2学習勝者ベクトルのベクトル点に対応する対応点の特定頻度値、または該対応点および該対応点の近傍に分布する点の特定頻度値を減少させる修正を行う修正手段と、
前記複数の第2サンプル特徴ベクトルの全てについて、前記第2ベクトル特定手段および前記修正手段を各々1回または複数回繰返し動作させる手段と、
前記複数の頻度マップに基づいて、前記自己組織化マップの各ベクトル点における出現確率が最も高いクラスを、該ベクトル点に対応付けられる前記最終的なクラスとする手段を備えた第2学習手段として動作させるためのデータ学習プログラム。 - 前記複数の第1サンプル特徴ベクトルおよび前記複数の第2サンプル特徴ベクトルの各々が、画像の特徴を示す特徴量を成分とするベクトルであって、前記第1学習データおよび前記第2学習データが示す前記対応クラスの各々が、画像の意味を示すクラスであることを特徴とする請求項12から15いずれか1項記載のデータ学習プログラム。
- 各ベクトル点に画像の意味が対応付けられた学習後の自己組織化マップを用いて、対象画像または画像領域の意味を判定する装置であって、
前記対象画像または画像領域から1つまたは複数の特徴ベクトルを抽出する抽出手段と、
前記1つまたは複数の特徴ベクトルの各々について、前記自己組織化マップ上において該特徴ベクトルとの類似度が最も高い勝者ベクトルを特定する勝者ベクトル特定手段と、
前記勝者ベクトルのベクトル点の各々に対応付けられた意味に基づいて、前記対象画像または画像領域の意味を判定する意味判定手段と、
前記意味判定手段によって正しく意味が判定できなかった対象画像または画像領域の指定と、該対象画像または画像領域の正解の意味の入力を受け付ける入力手段と、
前記入力手段を介して指定された前記対象画像または画像領域について追加学習を行い、前記自己組織化マップを修正する修正手段とを備え、
前記修正手段が、前記指定された前記対象画像または画像領域から抽出された1つまたは複数の特徴ベクトルの各々について、該特徴ベクトルとの類似度が最も高い勝者ベクトルおよび前記自己組織化マップ上において該勝者ベクトルの近傍に分布する複数の参照特徴ベクトルを、該特徴ベクトルとの類似度が減少するように修正するものであることを特徴とする装置。 - 各ベクトル点に画像の意味が対応付けられた学習後の自己組織化マップを用いて、対象画像または画像領域の意味を判定する装置であって、
前記対象画像または画像領域から1つまたは複数の特徴ベクトルを抽出する抽出手段と、
前記1つまたは複数の特徴ベクトルの各々について、前記自己組織化マップ上において該特徴ベクトルとの類似度が最も高い勝者ベクトルを特定する勝者ベクトル特定手段と、
前記勝者ベクトルのベクトル点の各々に対応付けられた意味に基づいて、前記対象画像または画像領域の意味を判定する意味判定手段と、
前記意味判定手段によって正しく意味が判定できなかった対象画像または画像領域の指定と、該対象画像または画像領域の正解の意味の入力を受け付ける入力手段と、
前記入力手段を介して指定された前記対象画像または画像領域について追加学習を行い、前記自己組織化マップを修正する修正手段とを備え、
前記修正手段が、前記自己組織化マップ上の参照特徴ベクトルのうち、該参照特徴ベクトルのベクトル点に対応付けられた意味が前記正解の意味と一致するものの中から、前記指定された前記対象画像または画像領域から抽出された1つまたは複数の特徴ベクトルの各々について、該特徴ベクトルとの類似度が最も高い勝者ベクトルを特定し直し、該勝者ベクトルおよび前記自己組織化マップ上において該勝者ベクトルの近傍に分布する複数の参照特徴ベクトルを、該特徴ベクトルとの類似度が増大するように修正するものであることを特徴とする装置。 - 学習後の自己組織化マップと、各々が1つの画像の意味に対応する複数の頻度マップを用いて、対象画像または画像領域の意味を判定する装置であって、
前記対象画像または画像領域から1つまたは複数の特徴ベクトルを抽出する抽出手段と、
前記1つまたは複数の参照特徴ベクトルの各々について、前記自己組織化マップ上において該特徴ベクトルとの類似度が最も高い勝者ベクトルを特定するベクトル特定手段と、
前記勝者ベクトルのベクトル点に対応する各々の点において、最も高い特定頻度値を示す頻度マップに対応付けられた意味に基づいて、前記対象画像または画像領域の意味を判定する意味判定手段と、
前記意味判定手段によって正しく意味が判定できなかった対象画像または画像領域の指定と、該対象画像または画像領域の正解の意味の入力を受け付ける入力手段と、
前記入力手段を介して指定された前記対象画像または画像領域について追加学習を行い、前記複数の頻度マップを修正する修正手段とを備え、
前記修正手段が、前記正解の意味に対応する頻度マップ上において、前記指定された前記対象画像または画像領域から抽出された1つまたは複数の特徴ベクトルの各々について、該特徴ベクトルとの類似度が最も高い勝者ベクトルのベクトル点に対応する対応点の特定頻度値、または該対応点および該対応点の近傍に分布する点の特定頻度値を増分させるものであることを特徴とする装置。 - 学習後の自己組織化マップと、各々が1つの画像の意味に対応する複数の頻度マップを用いて、対象画像または画像領域の意味を判定する装置であって、
前記対象画像または画像領域から1つまたは複数の特徴ベクトルを抽出する抽出手段と、
前記1つまたは複数の参照特徴ベクトルの各々について、前記自己組織化マップ上において該特徴ベクトルとの類似度が最も高い勝者ベクトルを特定するベクトル特定手段と、
前記勝者ベクトルのベクトル点に対応する各々の点において、最も高い特定頻度値を示す頻度マップに対応付けられた意味に基づいて、前記対象画像または画像領域の意味を判定する意味判定手段と、
前記意味判定手段によって正しく意味が判定できなかった対象画像または画像領域の指定と、該対象画像または画像領域の正解の意味の入力を受け付ける入力手段と、
前記入力手段を介して指定された前記対象画像または画像領域について追加学習を行い、前記複数の頻度マップを修正する修正手段とを備え、
前記修正手段が、前記正解の意味に対応する頻度マップ以外の一部または全ての頻度マップ上において、前記指定された前記対象画像または画像領域から抽出された1つまたは複数の特徴ベクトルの各々について、該特徴ベクトルとの類似度が最も高い勝者ベクトルのベクトル点に対応する対応点の特定頻度値、または該対応点および該対応点の近傍に分布する点の特定頻度値を減少させるものであることを特徴とする装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004072646A JP2004310753A (ja) | 2003-03-24 | 2004-03-15 | データ学習装置およびプログラムならびに画像の意味判定装置 |
US10/806,476 US7574036B2 (en) | 2003-03-24 | 2004-03-23 | Apparatus, program, and recording medium for learning data to form a self-organizing map comprised of reference vectors corresponding to features of an image and used for determining objects in an image |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003079574 | 2003-03-24 | ||
JP2004072646A JP2004310753A (ja) | 2003-03-24 | 2004-03-15 | データ学習装置およびプログラムならびに画像の意味判定装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004310753A true JP2004310753A (ja) | 2004-11-04 |
Family
ID=33478095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004072646A Pending JP2004310753A (ja) | 2003-03-24 | 2004-03-15 | データ学習装置およびプログラムならびに画像の意味判定装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7574036B2 (ja) |
JP (1) | JP2004310753A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009080522A (ja) * | 2007-09-25 | 2009-04-16 | Mitsubishi Electric Corp | 物体画像認識装置 |
JP2022041434A (ja) * | 2020-09-01 | 2022-03-11 | 沖電気工業株式会社 | 学習装置、学習方法およびプログラム |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ITMI20031449A1 (it) * | 2003-07-15 | 2005-01-16 | St Microelectronics Srl | Metodo per classificare una immagine digitale |
US8885208B2 (en) * | 2006-07-21 | 2014-11-11 | Adobe Systems Incorporated | Progressive refinement of an edited image using secondary high resolution image processing |
US8487963B1 (en) | 2008-05-30 | 2013-07-16 | Adobe Systems Incorporated | Preview representation of pixels effected by a brush tip area |
US8972410B2 (en) * | 2008-07-30 | 2015-03-03 | Hewlett-Packard Development Company, L.P. | Identifying related objects in a computer database |
US9047534B2 (en) * | 2011-08-11 | 2015-06-02 | Anvato, Inc. | Method and apparatus for detecting near-duplicate images using content adaptive hash lookups |
US9299152B2 (en) * | 2012-12-20 | 2016-03-29 | Hong Kong Applied Science And Technology Research Institute Co., Ltd. | Systems and methods for image depth map generation |
US10102642B2 (en) * | 2015-11-25 | 2018-10-16 | Omni Ai, Inc. | Image driver that samples high-resolution image data |
US10474745B1 (en) | 2016-04-27 | 2019-11-12 | Google Llc | Systems and methods for a knowledge-based form creation platform |
US11039181B1 (en) | 2016-05-09 | 2021-06-15 | Google Llc | Method and apparatus for secure video manifest/playlist generation and playback |
US10771824B1 (en) | 2016-05-10 | 2020-09-08 | Google Llc | System for managing video playback using a server generated manifest/playlist |
US11069378B1 (en) | 2016-05-10 | 2021-07-20 | Google Llc | Method and apparatus for frame accurate high resolution video editing in cloud using live video streams |
US10750216B1 (en) | 2016-05-10 | 2020-08-18 | Google Llc | Method and apparatus for providing peer-to-peer content delivery |
US10595054B2 (en) | 2016-05-10 | 2020-03-17 | Google Llc | Method and apparatus for a virtual online video channel |
US10750248B1 (en) | 2016-05-10 | 2020-08-18 | Google Llc | Method and apparatus for server-side content delivery network switching |
US10785508B2 (en) | 2016-05-10 | 2020-09-22 | Google Llc | System for measuring video playback events using a server generated manifest/playlist |
US11032588B2 (en) | 2016-05-16 | 2021-06-08 | Google Llc | Method and apparatus for spatial enhanced adaptive bitrate live streaming for 360 degree video playback |
US10380162B2 (en) | 2016-10-26 | 2019-08-13 | Accenture Global Solutions Limited | Item to vector based categorization |
US11526727B1 (en) | 2020-05-14 | 2022-12-13 | Rapid7, Inc. | Machine learned chart recommendation system |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001283184A (ja) | 2000-03-29 | 2001-10-12 | Matsushita Electric Ind Co Ltd | クラスタリング装置 |
JP2001306612A (ja) | 2000-04-26 | 2001-11-02 | Sharp Corp | 情報提供装置、情報提供方法およびその方法を実現するプログラムを記録した機械読取可能な記録媒体 |
JP4049522B2 (ja) | 2000-07-25 | 2008-02-20 | 富士通株式会社 | 情報分布装置および情報分布方法 |
US7099510B2 (en) * | 2000-11-29 | 2006-08-29 | Hewlett-Packard Development Company, L.P. | Method and system for object detection in digital images |
JP2001337953A (ja) | 2001-03-29 | 2001-12-07 | Yusuke Takahashi | 情報可視化システム |
-
2004
- 2004-03-15 JP JP2004072646A patent/JP2004310753A/ja active Pending
- 2004-03-23 US US10/806,476 patent/US7574036B2/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009080522A (ja) * | 2007-09-25 | 2009-04-16 | Mitsubishi Electric Corp | 物体画像認識装置 |
JP2022041434A (ja) * | 2020-09-01 | 2022-03-11 | 沖電気工業株式会社 | 学習装置、学習方法およびプログラム |
JP7107340B2 (ja) | 2020-09-01 | 2022-07-27 | 沖電気工業株式会社 | 学習装置、学習方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
US7574036B2 (en) | 2009-08-11 |
US20050125368A1 (en) | 2005-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004310753A (ja) | データ学習装置およびプログラムならびに画像の意味判定装置 | |
JP6088792B2 (ja) | 画像検出装置及び制御プログラム並びに画像検出方法 | |
US6600830B1 (en) | Method and system of automatically extracting facial features | |
CN111985465A (zh) | 文本识别方法、装置、设备及存储介质 | |
KR101507732B1 (ko) | 영역 기반의 항공 영상 분할 방법 및 이를 실행하는 프로그램 코드를 저장하는 컴퓨터로 읽을 수 있는 저장 매체 | |
US9131193B2 (en) | Image-processing device removing encircling lines for identifying sub-regions of image | |
US8553985B2 (en) | Image processing apparatus, image processing method and computer-readable medium | |
JP4867620B2 (ja) | 画像処理装置及び画像処理プログラム | |
US5195147A (en) | Image forming apparatus | |
EP2966613A1 (en) | Method and apparatus for generating a super-resolved image from an input image | |
CN116958962A (zh) | 一种基于改进YOLOv8s的疏果前石榴果实检测方法 | |
JP5743187B2 (ja) | 像域分離方法、それを実行させるためのプログラム及び像域分離装置 | |
JP6546385B2 (ja) | 画像処理装置及びその制御方法、プログラム | |
CN113379001B (zh) | 针对图像识别模型的处理方法及装置 | |
JP6278757B2 (ja) | 特徴量生成装置、特徴量生成方法、およびプログラム | |
JP2000132692A (ja) | 曲線の特徴点抽出方法及びこの方法を記録した記録媒体 | |
JP5337844B2 (ja) | 領域検出装置、領域検出方法及びプログラム | |
JP2009059047A (ja) | 対象物検出装置、対象物検出方法、および対象物検出プログラム | |
JP4282467B2 (ja) | 像域分離方法 | |
van den Broek et al. | Weighted distance mapping (WDM) | |
KR101187432B1 (ko) | 응답 시간을 단축한 내용 기반의 영상 크기 조절 방법 및 장치 | |
JP2004180036A (ja) | 視差探索方法及び視差探索装置 | |
Bucha et al. | Interactive objects extraction from remote sensing images | |
EP2806625B1 (en) | Image processing apparatus, image processing method, and non-transitory computer readable recording medium storing an image processing program | |
Song et al. | Vectorizing Building Blueprints |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060523 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20061207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090818 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100105 |