JP4302799B2

JP4302799B2 - 文書検索装置、方法および記録媒体

Info

Publication number: JP4302799B2
Application number: JP26199798A
Authority: JP
Inventors: 裕信高橋; 嶐一岡; 靖英森; 理朗向井
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1998-09-16
Filing date: 1998-09-16
Publication date: 2009-07-29
Anticipated expiration: 2018-09-16
Also published as: JP2000090113A

Description

【０００１】
【発明の属する技術分野】
本発明は、文書および画像の検索、認識のために画像をクラスタリング（分類分け）する文書検索装置、方法および記録媒体に関する。
【０００２】
【従来の技術】
（従来技術１）
パターン認識の過程を一般化すると、それは３つの過程から構成されている。
【０００３】
情報の入力から認識や分類の出力までのパターン認識の過程にそって考えると、１番目の過程は入力情報から認識に適した特徴量への変換過程（特徴抽出）である。例えば画像に対するものであれば、ＫＬ展開、Ｗａｖｅｌｅｔ変換、ＤＣＴ変換等多くの特徴抽出の研究がなされている。
【０００４】
２番目の過程は特徴量から判別空間への写像である。固有空間法等がその例である。
【０００５】
３番目は判別空間での識別や検索である。最近傍法、ｋ−Ｍｅａｎｓ法、識別関数の構成がその例である。
【０００６】
またニューラルネットワークの研究について考えてみると、バックプロバケーション型の学習では、カテゴリーが出力ノードごとに対応しているので、出力層はこの判別空間であると同時に識別関数の構成にもなっている。
【０００７】
同様にＫｏｈｏｎｅｎｍａｐ（T.Kohonen: Self-Organization maps: Springer-Verlarg,(1995)やＬＶＱなども特徴量から判別空間への写像時に識別関数を構成しており、２と３の過程が同時に行われているものもある。
【０００８】
（従来技術２）
このようなパターン認識技術を使用して画像認識を行うために、類似している画像等のデータを類似するデータ同志に分類する装置を本願発明者は提案している（特願平１０−１３９００１号）。
【０００９】
（従来技術３）
画像情報を含むマルチメディアデータのネットワーク上での流通量の増大に伴い、画像情報とテキスト情報を関連付ける技術の必要性が増している。
【００１０】
しかしながら、一般画像情報の認識技術の困難性もあって、この機能は満足のいくレベルに達していない。従来の画像認識技術では、画像に付加される情報はないが限定したドメインの画像情報を扱うものか、あるいは付加情報があっても、ごく限られたものが用いられるのが通例である。
【００１１】
例えば栗田多喜夫、加藤俊一、福田郁美、板倉あゆみ：“印象語による絵画データベースの検索”情処論、Vol.33,No.11,pp.1373-1383,1922. では形容詞で表現される感性語との関連付け、小野敦史、天野督士、斗谷充宏、佐藤隆、坂内正夫：“状態遷移モデルとシーン記述言語による自動キーワード付与機能をもつ画像データベースとその評価”、信学論、J79-D11,No.4,pp.476-483,1996. ではシーンを記述するためのキーワードの自動付与、などが提案されているが、扱う画像の範囲、あるいはテキスト情報の範囲が限定されている。またFlickner,M.,et al.:"Query by Image and Video Content: The QBIC System," IEEE Computer, 28-9, pp.23-32,1995. などのいわゆる内容ベースの画像検索技術においては、主にパターン間の類似性が使われ、パターンとテキスト間の関連付けは十分には行なわれていない。
【００１２】
【発明が解決しようとする課題】
（課題１）
従来技術１では、ジェスチャー内容が判別している画像と認識したい画像の類似度を評価する場合、標本分布空間での距離の２乗を評価にしているので、全く類似していない画像間の評価値と類似している画像間の評価値との間の差が大きくないので、類似するもの同志の画像との区別が難しいという点において、さらに難しいという解決すべき課題があった。
【００１３】
また、従来技術２では画像間の類似度が入力されなければ分類できないという課題があった。
【００１４】
（課題２）
従来技術３では、たとえば、画像をクエリー（検索に使用する情報）としてその画像と類似する画像を画像データベースから取り出すことは可能になっている。また、画像データベースに保存しておく画像にその説明を記した文書を付帯させておくことによりクエリーとした画像に関連する文書を取り出すことも可能である。しかしながら、検索により複数枚の類似画像たとえば１００枚の画像が見つかった場合、検索者は１００枚の画像に付帯する１００組の文書をも見なければならずその労力は大変となる。
【００１５】
さらに、従来技術１で述べた画像の類似度の評価方法を使用した画像検索システムでは、類似画像についての区別がつきにくいので、多数枚の類似画像が得られるという特徴がある。
【００１７】
そこで、本発明の目的は、文書の付帯した画像データベースから画像をクエリーとして適切な文書を抽出することの可能な文書検索装置、方法および記録媒体を提供することにある。
【００２１】
【課題を解決するための手段】
このような目的を達成するために、請求項１の発明は、画像に説明用の文書を付帯させて記憶したデータベースを有し、クエリーとして入力した画像に関連する文書を前記データベースから抽出する文書検索装置において、
前記クエリーとして入力した画像の特徴量と前記データベースに記憶された各画像の特徴量との間の類似度を計算することにより、類似度が許容範囲にある、前記クエリーとして入力した画像に類似する複数の画像を検出し、当該検出された複数の画像に付帯された文書を前記データベースから抽出する抽出手段と、
当該抽出された複数の文書の中の任意の２つの文書を組み合わせ、当該組み合わされた文書に記載された単語の親和度を計算することにより当該組み合わされた２つの文書の類似度を計算し、類似度が許容範囲内にある、類似する文書を検出する類似文書検出手段と、
当該検出された文書のいずれか１つを出力する出力手段と
を具えたことを特徴とする。
【００２２】
請求項２の発明は、請求項１に記載の文書検索装置において、前記出力手段は、検出された文書の中の許容範囲以下の距離的に近い部分を文書として出力することを特徴とする。
【００２３】
請求項３の発明は、請求項１に記載の文書検索装置において、前記抽出手段は類似度を予め定めた評価式に従って計算し、前記文書検索装置は、さらに学習用としての複数の類似する画像を入力する入力手段と、当該入力された複数の類似する画像についての類似度の計算を予め定めた評価式を使用して行い、計算結果が最小となるような前記評価式の関数を見つけることにより前記抽出手段が使用する評価式を作成する情報処理手段とを有することを特徴とする。
【００２４】
請求項４の発明は、請求項１に記載の文書検索装置において、前記検出手段は前記親和度を予め定めた評価式に従って計算し、前記文書検索装置はさらに学習用としての複数の類似する文書を入力する入力手段と、当該入力された複数の類似する文書についての親和度の計算を予め定めた評価式を使用して行い、計算結果が最小となるような前記評価式のパラメータを見つけることにより前記抽出手段が使用する前記評価式を作成する情報処理手段とを有することを特徴とする。
【００２８】
請求項５の発明は、画像に説明用の文書を付帯させて記憶したデータベースを有し、クエリーとして入力した画像に関連する文書を前記データベースから抽出する文書検索装置の文書検索方法において、情報処理手段および出力手段をさらに有し、前記情報処理手段が、
前記クエリーとして入力した画像の特徴量と前記データベースに記憶された各画像の特徴量との間の類似度を計算することにより、類似度が許容範囲にある、前記クエリーとして入力した画像に類似する複数の画像を検出し、当該検出された複数の画像に付帯された文書を前記データベースから抽出する抽出ステップと、
当該抽出された複数の文書の中の任意の２つの文書を組み合わせ、当該組み合わされた文書に記載された単語の親和度を計算することにより当該組み合わされた２つの文書の類似度を計算し、類似度が許容範囲内にある、類似する文書を検出する類似文書検出ステップとを実行し、
前記出力手段が当該検出された文書のいずれか１つを出力する出力ステップを実行することを特徴とする。
【００３３】
請求項６の発明は、画像に説明用の文書を付帯させて記憶したデータベース、コンピュータおよび出力手段を有し、クエリーとして入力した画像に関連する文書を前記データベースから抽出する文書検索装置のための記録媒体を記録した記録媒体において、前記記録媒体はコンピュータに
前記クエリーとして入力した画像の特徴量と前記データベースに記憶された各画像の特徴量との間の類似度を計算することにより、類似度が許容範囲にある、前記クエリーとして入力した画像に類似する複数の画像を検出し、当該検出された複数の画像に付帯された文書を前記データベースから抽出する抽出手段と、
当該抽出された複数の文書の中の任意の２つの文書を組み合わせ、当該組み合わされた文書に記載された単語の親和度を計算することにより当該組み合わされた２つの文書の類似度を計算し、類似度が許容範囲内にある、類似する文書を検出する類似文書検出手段と、
当該検出された文書のいずれか１つを前記出力手段から出力させる手段と
して機能させることを特徴とする。
【００３４】
【実施例】
以下、図面を参照して本発明の実施形態を詳細に説明する。
【００３５】
（第１実施形態）
最初に第１実施形態におけるクラスタリング方法を説明する。
【００３６】
（１−ａ）定義
パターン認識問題を次のように定式化する。学習すべきパターンデータの各データを番号付けしｉとする。標本は有限次元の特徴量ｘ_iを持ち、それぞれはクラスＣ_iに属している。それぞれは判別写像により判別空間上のｚ_iに写像される。
【００３７】
この時、データｉ，ｊが同じクラスに所属する、すなわちＣ_i＝Ｃ_jのとき、ｚ_i，ｚ_j間の距離を小さくする判別写像を求める問題として定義する。
【００３８】
（１−ｂ）非線型評価
判別空間上での判別に使われるＮ−近傍法等では、近傍のＮ個のデータより遠い点がどのような分布をしていても、判別結果に影響しない。その点では、最適な判別写像を与えるための、判別空間での学習データの分布の評価でもＮ番目以上に離れた離れた点の間については評価を変える必要はない。
【００３９】
そこでCalaxy Clustering で用いた手法と同じように、判別の近傍として使用するＮ番目までの点が入ると期待できる近傍までは２乗に比例した評価値を与え、その外側では２乗より弱い評価値となるような数２式の非線形関数Ｆを用いる。これはロバスト統計でしばしば利用されてきた手法であり、類推から広義のロバスト化と見ることもできる。
【００４０】
【数１】

【００４１】
Ｆは近傍（＜ａ）については２次関数であり、その外側では１次関数となる次の式を使用する。
【００４２】
【数２】

【００４３】
閾値ａは判別空間でのＮ−点は入ると期待できる近傍範囲であり、目的とする効果が得られる。
【００４４】
（１−ｃ）判別空間での分散の一様化
判別関数のモデルに依存するが、上記の非線形評価を行なう場合の必要として、学習データを判別空間内に分散させる必要がある。仮にすべての標本が判別空間の原点に写像されるような関数を選べば、クラス内分散の最小化はこれによって満たされてしまうが、判別は全く不可能になる。そのため判別空間での分散を規定する必要がある。
【００４５】
もっとも簡単な方法は分散は一定にする方法だが、上記のような非線形評価を行うと特定のデータの像だけを無限遠に置くことで最大化式が満たされてしまう。写像として用いる判別関数にもよるが、判別関数を求めるの計算自体が収束しない可能性が出てくる。
【００４６】
これ以外にも各学習データの特徴量のかたよりや、判別写像の性質によって、判別空間内で局所的にデータが集中することが考えられ、その付近での判別が困難になる。
【００４７】
判別空間での局所的なデータの集中を防ぎ、判別可能な分散を与えるために、判別空間での学習データｚ_iを一定の半径の超球内に閉じ込めて、その超球内での分布が一様になるように以下の条件を満す超球一様化関数を考える。
【００４８】
１．像の分布の中心は原点である。
【００４９】
２．像の分布について主成分分析をしても分布にかたよりが見られない。
【００５０】
３．一定半径の球殻内にすべての像が存在し、中心から半径方向への分布の空間内での体積に比例した分布となっている。
【００５１】
（１−ｄ）特徴ベクトルの線型変換
まず学習データの特徴量ｘ_iから前記の非線型評価を行うｚ_iに変換する中間段階としてｙ_i を導入する。
【００５２】
まずある写像Ａによってｘ_iはｙ_iに変換される。なお本報告ではＡを線型のアフィン変換としているが任意の関数が考えられる。
【００５３】
次に超球一様分布化関数Ｇによって、ｙ_iの分布から一様化分布するように変換し、ｚ_iが得られるようにする。
【００５４】
以下にＧを構成する各過程について述べる。
【００５５】
（１−ｆ）原点への移動
原点が分布の中心となるように平行移動する。
【００５６】
【数３】

【００５７】
（１−ｇ）特定方向へのかたよりの解消
次に統計における主成分分析と同様に、共分散行列を求めて固有値分解によりどの方向に対する分散も同じ値となるようにする。
【００５８】
ｙ_i ^(t+1)'の分布から共分散行列Ｒを次のように求める。
【００５９】
【数４】

【００６０】
（添字ｍ，ｎはそれぞれｙ_iのｍ，ｎ成分）
これを固有値分解する。
【００６１】
【数５】

【００６２】
【数６】

【００６３】
得られた固有値σ₁，σ₂，・・・σ_Nに対して次のような逆変換行列を作る。
【００６４】
【数７】

【００６５】
以下の変換を行う。
【００６６】
【数８】

【００６７】
（１−ｈ）半径方向の一般化
次に球の半径方向の標本の分布について統計をとる。
【００６８】
図１に示したように超球の一定半径ｒ内に存在する標本の数を、標本の総数で割って規格化した値を求める。これをｒに対する関数と見てＵ（ｒ）とする。なお数値処理のためにあらかじめ標本の分布している半径の範囲を定めて１００段階に分割し、折線近似関数で代用している。
【００６９】
理想的にデータが一様に分布していれば、半径方向に対して体積に比例した密度で分布することが期待でき、この場合の原点から各データまでの距離をｒ' とする。閉じ込める超球の半径を１とすると、空間の次元がＮなのでＵ（ｒ' ）はｒ´^N に一致する。
【００７０】
【数９】

【００７１】
そこですべての標本ｙ_i ^(t+1)''について次の変換を行なう。
【００７２】
【数１０】

【００７３】
ここでｙ_i ^(t+1)の分布が与えられれば、一意にｙ_i ^(t+1)'''を与えることができるので、この関数の超球一様化関数Ｇとすると、
【００７４】
【数１１】

【００７５】
と記述できる。
【００７６】
（１−ｉ）最小化関数
次の式で得られる評価値を最小化するような、関数Ａを求めればこれらの条件が満たされることになる。与える判別写像Ａの一例およびその解法については次節で考える。
【００７７】
【数１２】

【００７８】
【外１】

【００７９】
【数１３】

【００８０】
（１−ｊ）ジェスチャー認識への適用と解法
人物のジェスチャーを撮影して得られた動画像から、それぞれのジェスチャーを識別する問題に本手法を適用する。
【００８１】
図２のようにカメラの前の着座姿勢の人物があらかじめ決められたジェスチャーを行う。ジェスチャーの種類は、「両手を前に」、「両手を後ろに」、「両手を上げる」、「両手を開く」、「両手を閉じる」、「両手を叩く」、「両手で丸を作る」、「両手を交差」、「左手上げ」、「左手水平」、「左手横へ」、「右手上げ」、「右手水平」、「右手横へ」、「右手をふる」の１５種とする。これらを複数回行い連続してディジタルビデオカメラで記録する。
【００８２】
それぞれを学習用データとして２回、認識検証のデータとして１回収集し、４５回のデータを収集した。これを３０フレーム／秒で３２０×２４０ピクセル、濃度値を階調８ビットの白黒画像として量子化し記録する。
【００８３】
各画像を画面を縦横４×４の１６領域に分割し、連続したフレーム間で２０以上の変化があるピクセルを求め、それぞれの領域ごとにこのピクセルの占める比率を求める。その結果フレーム間の変化は１６次元のベクトルで表現できる。
【００８４】
各ジェスチャーに要する時間が異なるため、それぞれの動作時間により７０から１２０フレームで構成される。それより一つ少ない回数の連続する１６次元のベクトルとして記述されるので、これを特徴量とした。
【００８５】
すべてのフレーム間に順序に付け（ｉ＝１，２，・・・ｎ）とし、その特徴量をｘ_iとする。また、各フレーム間が所属する１５種のジェスチャーに１−１５の番号付けをし、各フレーム間が表わすジェスチャーをＣ_iとする。
【００８６】
（１−ｋ）繰り返し法による解法
ここでは判別空間を２次元空間とした。またここでは線型写像による最もシンプルな写像とした。１６次元から２次元への写像なので次のように表現できる。
【００８７】
【数１４】

【００８８】
このＡを次の手順で繰り返し法により求める。Ｇが順序を含む関数であるために、Ａの各要素の変化に対してＥが不連続に変化する。このため乱数による近傍探索法による山登り法により最適なＡを求める。
【００８９】
１．初期化
【００９０】
【外２】

【００９１】
２．評価
数１２式に代入しＡ^(k)の評価値Ｅ^(k)を求める。
【００９２】
【数１５】

【００９３】
３．探索
最適値の近傍探索のためにＡ^(k)の各要素に［−α_(k)，α_(k)］の一様乱数を加えたＡ^(k)を与える。
【００９４】
【数１６】

【００９５】
繰り返し回数に従って徐々に探索範囲をせばめるためにα_(t)は次のようにおく。
【００９６】
【数１７】

【００９７】
【外３】

【００９８】
４．選択
より小さなＥを与えるほど最適値に近いと考えられるので、比較して小さいものを与えたものを次の値とする。
【００９９】
【数１８】

【０１００】
５．ｔに１を加えて手順２に戻る。
【０１０１】
（実験結果）
１５種のジェスチャーごとに２回のジェスチャーに相当する動画像を選択し、合計３０回分の動作を学習データとして使用する。学習がうまくいけば、ジェスチャーごとに分離した判別空間が形成できる。
【０１０２】
図３に初期状態を示した、左からジェスチャー全体、「右手上げ」，「左手上げ」，「両手を前に」のジェスチャーの分布を示している。乱数で初期化したＡ^(o)および球内一様化関数Ｇを経由した２次元の判別空間をそれぞれ表示している。ジェスチャーを連続するフレームごとに直線で結んである。図３のジェスチャー全体の左上付近の集積は主にジェスチャーを開始と終了に代表されるまったく動いていない状態である。乱数で写像を選んでいるために、それ以外の部分でもジェスチャーごとにまったく分離できていないことがわかる。
【０１０３】
繰り返し法によりＥの値を最小化する。その過程を図７に示した。横軸が繰り返し回数、縦軸がＥ^(k)である。３０００回でほぼ収束し、１００００回まで行なった。
【０１０４】
各繰り返し演算後の分布について、図４に１００回目、図５に１００００回目の結果を示してある。ジェスチャーごとに分離できてくる様子がわかる。
【０１０５】
なお計算はＳＧＩＯＮＹＸ上で行い、１００００回の演算に５２２０秒を要した。
【０１０６】
次に認識を想定して、学習データとは別のジェスチャー画像を未知データとして与え、それぞれのジェスチャーがどの程度想起できるかを調べた。クラスＣ_kの学習データの特徴量をｘＣ_ki、未知動画像の各フレーム間の特徴量をｘ_u,iとし、１００００回後繰り返しによって得られたＡ^(10000)とＧによって超球一様空間に変換する。
【０１０７】
【数１９】

【０１０８】
図８のように、超球一様空間内での未知データの各フレーム間に対応する点ｚ_u,iに対し、各学習データｚＣ_kmの描く経路との距離ｄ_iを求める。
【０１０９】
【数２０】

【０１１０】
最も小さなｄ_iを与える学習データのジェスチャーＣ_kをその点での類似したジェスチャーとする。
【０１１１】
して類似度が最大のジェスチャーを太字で示した。
【０１１２】
時系列データとしての順序性は見ていないので動作の最初や最後の不動部分では識別が困難になっている。しかし１５ジェスチャー中に１２ジェスチャーで同一ジェスチャーを意味する対角部分が最大となっており、他のものでも対角部分が最大値に近くなっている。
【０１１３】
固有空間法との対照実験を行なった。ジェスチャーの特徴量の分布を主成分分析し、第２主成分までを求め、得られる２次元の空間内で判別をする。その分布を図６に示す。本手法と比較して、分布がジェスチャー毎に分離できず密集しているため、１５ジェスチャー中最大となっているのは８ジェスチャーに過ぎず、本手法の有効性が確かめられた。
【０１１４】
以上述べたクラスタリング方法を使用してジェスチャー認識を行うマルチメディア・クラスタリング装置を説明する。
【０１１５】
マルチメディア・クラスタリング装置は汎用コンピュータにより実現することができる。汎用コンピュータはクラスタリング処理を規定したプログラムをハードディスクに記憶し、ＣＰＵにより実行する。プログラムはＣＤＲＯＭ，フロッピーディスク等の記録媒体を介してハードディスクに実装する。
【０１１６】
従来と同様のプログラムについての説明は省略し、本発明に関わる処理を図９を参照して説明する。
【０１１７】
類似度の評価を行うための評価式が従来（特願平１０−１３９００１号の高橋裕信，新田義貴，岡隆一：“非線形クラスタリングによるパターンの分類−Galaxy Clustaving Methodの提案−、”信学技報ＰＲＭＵ９８−１３（１９９８））では固定化されていたのに対し、本実施形態では学習により可変設定するようにしたことに第１の特徴がある。
【０１１８】
このために、予め類似していることが予め判明している複数枚のイメージを汎用コンピュータに対して入力する（図９のステップＳ１０）。画像入力はスキャナー等の画像読み取り装置から行ってもよいし、他の装置から通信ケーブルを介して入力してもよい。
【０１１９】
汎用コンピュータは、入力した画像を使用して（１−ｋ）の項で述べた繰り返し処理を実行し、評価式［数１２］の中の写像Ａについての最適値を取得することにより評価式を作成する（図９のステップＳ２０）。
【０１２０】
取得された最適値はハードディスクに保存される（図９のステップＳ３０）。
【０１２１】
このようにして認識すべきジェスチャー画像に対して標準パターンとして使用する画像を学習パターンの形態で与え、類似する画像相互の関係を評価式の形態で記憶する。これにより、認識すべきジェスチャー画像を汎用コンピュータに入力すると、汎用コンピュータは認識すべきジェスチャー画像を上記最適化された評価式を使用して分類することでジェスチャー認識を行う。ジェスチャー認識処理自体は評価式が異なる点を除けば従来と同様である。評価式が本実施形態の第２の特徴であるので、ここで評価式の従来との相違点を説明しておく。［数１２］の評価式では数２式で定義される関数Ｆを含んでいる。この関数Ｆをパラメータとして評価式内に含むことにより、類似しているイメージについての評価値が小さく（類似度大）なり、類似していないイメージについての評価値が大きく（類似度小）なるように値が強調される。
【０１２２】
（実施形態２）
本実施形態は、データ学習（自己組織化）過程と認識過程からなる画像検索であり、入力イメージ（画像）に類似する画像を画像データベース検索すると共に、画像に付帯する文書から類似文をも抽出することに特徴がある。
【０１２３】
図１０に本実施形態の概要を示す。
【０１２４】
データ学習過程では、画像に対してリンクを持つ大量の文書データに対して、単語の出現頻度に基づいて単語空間の非線形クラスタリングを行なう。その結果得られた文章間の距離関係を、画像へのリンクをたどって伝搬させ、画像データの非線形クラスタリングに用いる。文章の距離関係を画像データのクラスタリングに用いることによって、近い文書に対応するリンク先の画像を近くに集まるようにすることが狙いである（図１０（ａ））。
【０１２５】
認識過程では、画像入力が与えられると、前記両クラスタリング結果を用いて、距離の近さに基づいて近傍の画像が複数検索され、今度はそれらの画像から文書へのリンク情報に基づいて、対応する文章が複数呼び出される。最後に、それらの文章が互いに近接している部分の文を取り出して、出力とする（図１０（ｂ））。もし、学習過程で文書の近さ関係が、画像側にうまく埋め込まれていたとすると、出力された文は質問画像に対する説明文の役割を果たすことが期待される。
【０１２６】
（２−ａ）クラスタリング手法
今回、画像・文書に共通して用いた空間クラスタリング手法（以下単にクラスタリング手法）は、ＧａｌａｘｙＣｌｕｓｔｅｒｉｎｇをベースにした方法である。ＧａｌａｘｙＣｌｕｓｔｅｒｉｎｇ手法のポイントは以下の２点である。
【０１２７】
１．クラスタリングを縮小された次元（以下埋込み次元と言う）にて行なう。
【０１２８】
２．非線形な「折点」を持つポテンシャルを用いる。
【０１２９】
【外４】

【０１３０】
【数２１】

【０１３１】
【外５】

【０１３２】
【数２２】

【０１３３】
となる。このようなポテンシャル関数を用いる理由は、クラスタリング過程において、遠距離の作用に比べて近距離の効果を強めるためである。
【０１３４】
この関数を用いて、クラスタリングデータ全体の評価関数を
【０１３５】
【数２３】

【０１３６】
と定める。この値を最小化することがＧａｌａｘｙＣｌｕｓｔｅｒｉｎｇの基本方針である。ここで、ｘ_i，ｘ_jは、それぞれデータｉ，ｊの埋め込み次元の空間での位置である。また、ｗ_ijはデータｘ_iとデータｘ_jの親和度である。
【０１３７】
クラスタリングの実行にあたっては、上記評価関数に加えて、全て同じ点に落ち込むという自明な解を避けるため、何らかの拘束条件を課する必要があり、後述するように、クラスタリング課題によって適当な条件を用いる。
【０１３８】
また、入力データの違いにより、クラスタリング手法は目的とする学習形態が２種類にわかれる。１つは、親和度が与えられて、クラスタリングによって空間中の各データの位置を画像学習型と呼ぶ、後述する各手法の詳細から明らかなように、今回行なった手法中、文書クラスタリングは、位置探索型であり、画像クラスタリングは写像学習型である。
【０１３９】
（２−ｂ）類似文書検索手法
文章データに対して、上記に説明したクラスタリング手法を適用する方法はいろいろ考えられるが、今回は単語ベースのクラスタリングを行なった。
【０１４０】
その手順は、まず、各文書を形態素解析にかけ、単語に分割する。今回は、形態素解析のツールとしてはＣｈａｓｅｎを用いた。
【０１４１】
次に、この単語全てを統計処理すべき標本とみなして、単語間の共起情報から各単語間の親和度ｗ_ijを算出し、ＧａｌａｘｙＣｌｕｓｔｅｒｉｎｇにより、空間に配置する。今回用いた親和度ｗ_ijについては、各単語の組（ｉ，ｊ）が、記事中の前後５単語以内に何度共起したかをカウントし（Ｎ_ijと書く）、各出現頻度Ｎ_iで規格化したものを用いた。
【０１４２】
【数２４】

【０１４３】
このように親和度を与え、前述した評価関数を用いてクラスタリングを行なうことによって、各単語の空間配置が決まる。
【０１４４】
最適化計算では、
１．非線形最適化
２．分散規格化（球内一様化）
３．半径方向の一様化
を繰り返し行ない、データの配置を変更していく。分散規格化（球内一様化）、および、半径方向の一様化がこの場合の拘束条件となっている。
【０１４５】
次に、与えられた単語の空間配置から、文章間の距離を求める。与えられた文章間の距離は、各文書を同じ形態素解析にかけて、単語列に分解し、上記クラスタリングによって得られた単語距離から文書間距離を算出する。
【０１４６】
今回は、以下のような文書間距離を用いた。すなわち、２文章Ｄ₁，Ｄ₂が与えられた時、その距離ｄ_C（Ｄ₁，Ｄ₂）は、
【０１４７】
【数２５】

【０１４８】
ここで、ｉ∈Ｄ₁，ｊ∈Ｄ₂はそれぞれ、文章Ｄ₁，Ｄ₂に含まれる単語を示し、ｄ²（ｉ，ｊ）はそれらのクラスタリング空間におけるユークリッド２乗距離である。また、Ｎ₁，Ｎ₂はそれぞれの文章中の単語数である。
【０１４９】
この距離は、文章中の各単語に対して最短距離を与える相手文章中の単語との距離を、単語全てに対して平均した量を、２文に対して対称化したもので、２文が単語空間中で描く経路の一致している部分の寄与はゼロにしつつ、不一致の部分の隔たりを積算できるものとなっている。
【０１５０】
（２−ｃ）類似画像検索手法
類似画像検索では、画像特徴量ベースの類似画像検索手法を用いた（武者義則，森靖英，広池敦：“大量画像を対象とする特徴量空間の可視化，”第３回知能情報メディアシンポジウム，pp.253-258,1997)。
【０１５１】
今回は、画像から抽出する特徴量として、表１にまとめたものを用いた。
【０１５２】
【表１】

【０１５３】
合計５０４次元である。表１で、ビン８ヒストグラムとは、各頻度分布をビン数８のヒストグラムに表現した値であり、８方向強度とは、円周を８等分してビンとして、それぞれに対応する強度を和したものである。また、構図３×３とは、画像を縦３横３の９つの区画に均等分割して、９区画各々についてそれぞれ処理を行なうという意味である。輝度Ｙ，色差Ｉ，Ｑという特徴量は、ＹＩＱ表色系である。微分特徴量に関しては、ｘ方向、ｙ方向の微分フィルタ（Ｓｏｂｅｌ）による強度ｄ_x，ｄ_yから、
【０１５４】
【数２６】

【０１５５】
を求めて、これから、前述の８方向強度を算出した。
【０１５６】
その後、特徴量ベクトルを主成分分析などを用いて、埋め込み次元への写像を適当に設定し、それを初期値として前述したクラスタリングを行なう。
【０１５７】
画像側のクラスタリングでは、文書検索結果による近傍情報をリンクする画像の近傍情報として用い、それを反映した評価関数にてクラスタリングを行なう。リンク情報を反映させる方法として、今回は、近傍文書を表すフラグｌ（ｉ，ｊ）を以下のように定義して、それを親和度として用いた。
【０１５８】
【数２７】

【０１５９】
ここで、Ｔ(i) は、画像ｉにリンクしているテキストを示す。また、データＴ(i) の最近傍がＴ(j) であっても、Ｔ(j) の最近傍がＴ(i) であるとは限らないので、一般にｌ（ｉ，ｊ）≠ｌ（ｊ，ｉ）である。
【０１６０】
クラスタリングにおける、繰り返し計算手順は、最急降下法を用いて行なった。すなわち、
（１）最急降下法で評価関数を減少する方向に写像を変更、
（２）分散共分散行列を求めて規格化、を繰り返して行なった。
【０１６１】
最急降下法のための評価関数Ｅは、
【０１６２】
【数２８】

【０１６３】
【外６】

【０１６４】
従って、交換行列Ａのpq成分ａ_pqに対する最急降下法による１ステップ（ｔ→ｔ＋１）での変更量は、
【０１６５】
【数２９】

【０１６６】
【外７】

【０１６７】
画像クラスタリングにおいては、テキストのクラスタリングにおいて有効であった半径方向一様化は用いなかった。その理由は、特徴量をベースとした画像のクラスタリングは、上述のように、写像学習型であり、最終的には、写像を学習しなくてはならないが、今回はその学習写像のクラスとして線形変換に限ったため、一様化を行なうと、最適化と競合して収束が進まない現象が見られたからである。
【０１６８】
類似画像検索は、上記クラスタリングによって得られた写像を用いて写像後の空間中での距離を類似度とすることによって行なった。
【０１６９】
（２−ｄ）画像認識手法
画像から関連文を出力する手順は、質問画像が入力されると、上述した類似画像検索手順によって、複数の学習画像（文書データとリンク付けされている）を見つける。次に、それらの文書へのリンクをたどり、複数文書を得る。次に、それらの複数の文書の「近接部分」（後述）を取り出して認識結果とする。
【０１７０】
今回は、近接部分の定義として、図１０に示したように、２文章中の各文（句点「。」で区切られている単語列を文とした）の全てのペアの中で、最も文間の距離の近い１ペアを近接部分とした。従って、１画像から２文章を見つけ、各々の文章中から１文、計２文が出力されることになる。また、ここでの文間の距離は、各文に対する［数２５］式の距離ｄ_Cを用いる。
【０１７１】
（実験の結果）
（３−ａ）使用データ
今回の実験では、大量の文書・画像間のリンク情報をもつデータとして、マルチメディア百科事典である、マイペディア（日立デジタル平凡社刊）の画像・文書データを用いた。
【０１７２】
使用した画像は、本文テキストへのリンクを持つ画像の大半である９，６８１枚を用いた。画像サイズは大小さまざまであるが、平均４００×２８０ピクセル程度の大きさであり、２５６階調、カラー・モノクロ両方がある。内容は百科事典の資料画像であるから、肖像，動植物，文化遺産，建築物，風景等多岐に渡るが、写真画像が中心であり、イラストも含む。
【０１７３】
一方、文書データとしては、本文の大半である６２，９３４項目を用いた。おのおのの項目は平均５個程度の文（句点で区切られた文字列を文とした）から成っている。また、それらの文章からＣｈａｓｅｎによる形態素解析で抽出された全単語数は、１１９，８７０個であった。
【０１７４】
画像・文書間のリンクについては、上記９，６８１枚の各画像が、全て文書の項目へのリンク両が張られているのでそれを用いた。その対応関係は、殆んどが１対１であるが、僅かに多対多となっている。今回は、その中から出現順の速いものだけ残すなどの適当な技刈りを行なって、８，８７５対の１対１の文書・画像対を得て、それを最終的な総リンク情報として用いた。なお、上記のように、文書総項目数のほうがはるかに多く、画像からのリンクのない文書項目は多数存在する。
【０１７５】
（３−ｂ）実験手順
上記データを用いて、全節で説明した手順に従って、文書・画像各学習データのクラスタリングを行なう。その際の諸パラメータは表２のとおりである。
【０１７６】
【表２】

【０１７７】
ただし、今回はテキストのクラスタリングにおいても一様化を行なわず、また、分散の和一定の拘束条件のみ用いてクラスタリングを行なった。これは今回の実験上の都合からであり、一般に文書クラスタリングにおいて一様化計算を用いることは容易である。
【０１７８】
文書から画像への近傍情報のフィードバックは、今回は計算時間の関係上、上記利用リンク対８，８７５の約半数の４，４００項目を用いた。各４，４００項目を文書検索して、類似と判断された上位２位（自分自身を含まず）の文書を「関連あり」として、その関連情報をそのまま対応する画像中に移して、前節に示したとおり、それを用いた評価関数を用いて画像側のクラスタリングを行なった。
【０１７９】
クラスタリングが終了した後、その結果を用いて、与えた未知画像に対して、全節で説明した２個の近傍画像特徴抽出から、リンクを文書側にたどって、近接の２文を出力する処理を行ない出力の状況をみる。また、学習データ間の類似性がテキストから画像間にどの程度伝播したかを見るために、上記関連データ間の距離が、画像クラスタリングの前と後で、どの程度小さくなったかを、学習データの自己検索を行ない、上位の検索結果とのペアに対してそれぞれ調べた。
【０１８０】
（３−ｃ）実験結果
単語クラスタリングの結果を図１１に、画像クラスタリングの結果を図１３に示す。
【０１８１】
図１１は単語クラスタリングによる単語分布の変化を示す。左部は初期分布（ランダム）、右部はクラスタリング結果を示す。左右部共に１０次元中の２軸で表示（どの軸も概形は同様）している。
【０１８２】
図１２はクラスタリングによる画像特徴量分布の変化を示す。右部は上位２主成分の初期分布を示す。クラスタリングの初期値は上位１０主成分である。左部はクラスタリング結果を示す。１０次元中の２軸（どの軸も概形は同様）を示す。
【０１８３】
数２８式の評価関数の値は、画像クラスタリング後には、クラスタリング前の主成分分析での値と比べて１６％減少した。また、リンクデータ間距離を、同じく主成分分析と比較した結果、それらの距離の比の平均は、０．９４と、平均的に小さくなったことがわかる。これら結果は、主成分分析を単独で用いた場合と比較して、テキストのクラスタリングの状況を、僅かではあるが画像のクラスタリングに反映させることができたことを示している。
【０１８４】
未知画像を用いた認識結果では、検索印象として、無関係と思われる出力が多数を占めたが、その中に、やや関係があると思われるものも出力された。図１３にいくつかの認識結果を示す。
【０１８５】
以上、述べた検索処理を汎用コンピュータにおいて実行するための処理手順を図１４を参照して説明する。図１４の処理手順はＣＰＵが実行可能なプログラムの形態でハードディスク等に記憶される。また、ＣＤＲＯＭやフロッピーディスクからハードディスクに対して実装することが可能である。なお、予め画像とその画像の説明文が画像データベースに登録されているものとする。
【０１８６】
このプログラムが起動されると、ユーザは学習モードか検索モードの選択を行う。学習モードは、類似している画像同士を汎用コンピュータに対して指示し、学習するモードである。検索モードは与えた画像に対する文を作成するモードである。
【０１８７】
（学習モード）
上記画像データベースを構築する際に、予め類似していることが判明しており、同一のクラスに分類したいもの同士の画像を汎用コンピュータに対して入力する。
【０１８８】
汎用コンピュータでは、入力された文書および画像およびそれらの間のリンク情報を用いて、文書のクラスタリングを行ない、その結果ｗ_ij（数２８式ではｌ（ｉ，ｊ））が定まる。上述した数２８式の値が最小となるようのようなＡの関数を算出する（評価式の作成）。取得したＡの値がハードディスクに保存される（ステップＳ１００→Ｓ１０１→Ｓ１０２→Ｓ１０３）。後述の検索モードでの画像の類似度の計算を数２８式を使用して行うときに、保存したＡの値が使用される。学習に使用する類似画像は、画像データベースに登録してある画像同士を指定してもよいし、スキャナーから汎用コンピュータに入力してもよい。
【０１８９】
（検索モード）
上述のような学習を行って、数２８式のＡの値を保存した後、画像をクエリーとして画像検索を行う場合、ユーザはメニュー画面で検索モードを指定した後、スキャナーにより画像入力する。記録媒体に記憶された画像を汎用コンピュータに入力してもよい（ステップＳ１１０→Ｓ１１１）。
【０１９０】
汎用コンピュータは、保存してあるＡの値を使用して数２８の評価式により入力した画像と画像データベース（ハードディスク上）の個々の画像との間の類似度を計算する。評価値が許容範囲にあるものが類似していると判定される。類似していると判定された画像データベース上の画像は付帯の説明文（文書ファイル形態）とともには汎用コンピュータ上のメモリに抽出される（ステップＳ１１２→Ｓ１１３）。たとえば、１００枚の類似画像が得られたものとする。
【０１９１】
次に，汎用コンピュータは上述した類似文書検索方法にしたがって、抽出した文書の中の任意の２つを組み合わせて類似度を数２５式により計算する。汎用コンピュータは組み合わせを変更して抽出した１００枚の画像全ての組み合わせについて説明文の類似度の計算を行う。類似度が許容範囲内にある説明文がクエリーとして入力された画像の説明として出力される。説明文が複数見つかった場合は、たとえば、先頭の画像の説明文が選択されてディスプレイに出力される（図１３参照、ステップＳ１１４→Ｓ１１５）。
【０１９２】
このような検索では、画像のみを与えると、その画像に関する説明を画像データベースから抽出するという新規な検索手法を提供することができる。この検索方法を使用すると、人間の目では内容が理解できないような写真等の説明文を入手することができる。
【０１９３】
上述の実施形態の他に次の形態を実施できる。
【０１９４】
１）上述の実施形態では画像のクラスタリングに本発明を適用した事例を説明したが画像に限らず、文書のクラスタリングにも本発明を適用できる。この場合には、類似度の計算において、計算にしたがって、上述の第２に実施形態で行った類似文書（説明文）の抽出処理においても予め類似文書を学習データとして汎用コンピュータに与え、数２３式におけるｗ_ijを最小化する値を求める。この得られたｗ_ijを使用した評価式により文書間の類似度を計算する。
【０１９５】
２）上述の第１実施形態ではジェスチャー認識、第２実施形態では画像検索に本発明を適用する事例を説明したが、さらには多数の画像データ、音声データ、音響データの類似性を判別したり、分類する処理に本発明を適用できる。
【０１９６】
３）上述の第２実施形態では、説明文のみを出力させているが、類似画像やその説明文を全て表示させてもよく、この場合は単一の説明文を出力するモードと類似画像を全て出力するモードを選択する。
【０１９７】
４）上述の第２実施形態では、類似度が許容範囲内にある文書から表示する文書を選択したが、最も類似度が高くなった２つの文書の中の許容範囲、以下の距離的に近い部分を汎用コンピュータにより抽出してもよいこと勿論である。なお、このとき、一致する部分の単語数の下限を設定しておき、完全一致の単語数が少ないときには、２つの文書のいずれか１つを選択する。
【０２０１】
【発明の効果】
請求項１、５、６の発明では、クエリーの画像から類似画像をデータベースから抽出し、その抽出した画像に付帯する文書の中で類似する文書を検出することにより、クエリーの画像に関連する単一の文書をデータベースから自動で見つけることができ、操作者の検索操作を低減することができる。
【０２０２】
請求項２の発明では、類似文書の中の距離的に許容範囲内にある一致部分，類似部分を出力することで、操作者は、クエリーの画像と抽出された類似画像の一致部分，類似部分を知ることができる。
【０２０３】
請求項３、４の発明では、類似画像の検出あるいは類似文書の検出に使用する評価式を、予め類似関係が判明している情報（画像，文書）から学習することにより、より精度よく類似関係を分析することができる。
【図面の簡単な説明】
【図１】本発明第１実施形態のクラスタリング処理を説明するための説明図である。
【図２】ジェスチャーの一例を説明する説明図である。
【図３】初期化後の学習データの分布を示す説明図である。
【図４】繰り返し１００回目の学習データの分布を示す説明図である。
【図５】繰り返し１００００回目の学習データの分布を示す説明図である。
【図６】従来法のデータ分布を示す説明図である。
【図７】Ｅ（ｋ）の繰り返しによる収束を示す説明図である。
【図８】超球一様空間における時系列パターン間の距離計算を説明するための説明図である。
【図９】第１実施形態の処理手順を示すフローチャートである。
【図１０】（ａ）はテキスト間距離情報による画像クラスタリングを説明するための説明図、（ｂ）はクエリー画像からの関連文の出力を説明するための説明図である。
【図１１】単語クラスタリングによる単語分布の変化を示す説明図である。
【図１２】単語クラスタリングによる単語分布の変化を示す説明図である。
【図１３】入力画像と出力結果の例を示す説明図である。
【図１４】第２実施形態の処理手順を示すフローチャートである。

Claims

画像に説明用の文書を付帯させて記憶したデータベースを有し、クエリーとして入力した画像に関連する文書を前記データベースから抽出する文書検索装置において、
前記クエリーとして入力した画像の特徴量と前記データベースに記憶された各画像の特徴量との間の類似度を計算することにより、類似度が許容範囲にある、前記クエリーとして入力した画像に類似する複数の画像を検出し、当該検出された複数の画像に付帯された文書を前記データベースから抽出する抽出手段と、
当該抽出された複数の文書の中の任意の２つの文書を組み合わせ、当該組み合わされた文書に記載された単語の親和度を計算することにより当該組み合わされた２つの文書の類似度を計算し、類似度が許容範囲内にある、類似する文書を検出する類似文書検出手段と、
当該検出された文書のいずれか１つを出力する出力手段と
を具えたことを特徴とする文書検索装置。
請求項１に記載の文書検索装置において、前記出力手段は、検出された文書の中の許容範囲以下の距離的に近い部分を文書として出力する
ことを特徴とする文書検索装置。
請求項１に記載の文書検索装置において、前記抽出手段は類似度を予め定めた評価式に従って計算し、前記文書検索装置は、さらに学習用としての複数の類似する画像を入力する入力手段と、当該入力された複数の類似する画像についての類似度の計算を予め定めた評価式を使用して行い、計算結果が最小となるような前記評価式の関数を見つけることにより前記抽出手段が使用する評価式を作成する情報処理手段とを有することを特徴とする文書検索装置。
請求項１に記載の文書検索装置において、前記検出手段は前記親和度を予め定めた評価式に従って計算し、前記文書検索装置はさらに学習用としての複数の類似する文書を入力する入力手段と、当該入力された複数の類似する文書についての親和度の計算を予め定めた評価式を使用して行い、計算結果が最小となるような前記評価式のパラメータを見つけることにより前記抽出手段が使用する前記評価式を作成する情報処理手段とを有することを特徴とする文書検索装置。
画像に説明用の文書を付帯させて記憶したデータベースを有し、クエリーとして入力した画像に関連する文書を前記データベースから抽出する文書検索装置の文書検索方法において、情報処理手段および出力手段をさらに有し、前記情報処理手段が、
前記クエリーとして入力した画像の特徴量と前記データベースに記憶された各画像の特徴量との間の類似度を計算することにより、類似度が許容範囲にある、前記クエリーとして入力した画像に類似する複数の画像を検出し、当該検出された複数の画像に付帯された文書を前記データベースから抽出する抽出ステップと、
当該抽出された複数の文書の中の任意の２つの文書を組み合わせ、当該組み合わされた文書に記載された単語の親和度を計算することにより当該組み合わされた２つの文書の類似度を計算し、類似度が許容範囲内にある、類似する文書を検出する類似文書検出ステップとを実行し、
前記出力手段が当該検出された文書のいずれか１つを出力する出力ステップを実行することを特徴とする文書検索装置の文書検索方法。
画像に説明用の文書を付帯させて記憶したデータベース、コンピュータおよび出力手段を有し、クエリーとして入力した画像に関連する文書を前記データベースから抽出する文書検索装置のための記録媒体を記録した記録媒体において、前記記録媒体はコンピュータに
前記クエリーとして入力した画像の特徴量と前記データベースに記憶された各画像の特徴量との間の類似度を計算することにより、類似度が許容範囲にある、前記クエリーとして入力した画像に類似する複数の画像を検出し、当該検出された複数の画像に付帯された文書を前記データベースから抽出する抽出手段と、
当該抽出された複数の文書の中の任意の２つの文書を組み合わせ、当該組み合わされた文書に記載された単語の親和度を計算することにより当該組み合わされた２つの文書の類似度を計算し、類似度が許容範囲内にある、類似する文書を検出する類似文書検出手段と、
当該検出された文書のいずれか１つを前記出力手段から出力させる手段と
して機能させることを特徴とする記録媒体。