JP2000090113A

JP2000090113A - マルチメディア・クラスタリング装置、マルチメディア・クラスタリング方法および記録媒体

Info

Publication number: JP2000090113A
Application number: JP10261997A
Authority: JP
Inventors: Hironobu Takahashi; 裕信高橋; Riyuuichi Oka; 嶐一岡; Yasuhide Mori; 靖英森; Michiaki Mukai; 理朗向井
Original assignee: Hitachi Ltd; Sharp Corp; Real World Computing Partnership
Current assignee: Hitachi Ltd; Sharp Corp; Real World Computing Partnership
Priority date: 1998-09-16
Filing date: 1998-09-16
Publication date: 2000-03-31
Anticipated expiration: 2018-09-16
Also published as: JP4302799B2

Abstract

(57)【要約】【課題】分類精度を向上する。【解決手段】予め類似する画像を学習パターンとして
汎用コンピュータに与える。汎用コンピュータは類似の
判定に使用する最適評価式を上記学習パターンから作成
する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書および画像の
検索、認識のために画像をクラスタリング（分類分け）
するマルチメディア・クラスタリング装置、方法および
記録媒体に関する。

【０００２】

【従来の技術】（従来技術１）パターン認識の過程を一
般化すると、それは３つの過程から構成されている。

【０００３】情報の入力から認識や分類の出力までのパ
ターン認識の過程にそって考えると、１番目の過程は入
力情報から認識に適した特徴量への変換過程（特徴抽
出）である。例えば画像に対するものであれば、ＫＬ展
開、Ｗａｖｅｌｅｔ変換、ＤＣＴ変換等多くの特徴抽出
の研究がなされている。

【０００４】２番目の過程は特徴量から判別空間への写
像である。固有空間法等がその例である。

【０００５】３番目は判別空間での識別や検索である。
最近傍法、ｋ−Ｍｅａｎｓ法、識別関数の構成がその例
である。

【０００６】またニューラルネットワークの研究につい
て考えてみると、バックプロバケーション型の学習で
は、カテゴリーが出力ノードごとに対応しているので、
出力層はこの判別空間であると同時に識別関数の構成に
もなっている。

【０００７】同様にＫｏｈｏｎｅｎｍａｐ（T.Kohone
n: Self-Organization maps: Springer-Verlarg,(1995)
やＬＶＱなども特徴量から判別空間への写像時に識別関
数を構成しており、２と３の過程が同時に行われている
ものもある。

【０００８】（従来技術２）このようなパターン認識技
術を使用して画像認識を行うために、類似している画像
等のデータを類似するデータ同志に分類する装置を本願
発明者は提案している（特願平１０−１３９００１
号）。

【０００９】（従来技術３）画像情報を含むマルチメデ
ィアデータのネットワーク上での流通量の増大に伴い、
画像情報とテキスト情報を関連付ける技術の必要性が増
している。

【００１０】しかしながら、一般画像情報の認識技術の
困難性もあって、この機能は満足のいくレベルに達して
いない。従来の画像認識技術では、画像に付加される情
報はないが限定したドメインの画像情報を扱うものか、
あるいは付加情報があっても、ごく限られたものが用い
られるのが通例である。

【００１１】例えば栗田多喜夫、加藤俊一、福田郁美、
板倉あゆみ：“印象語による絵画データベースの検索”
情処論、Vol.33,No.11,pp.1373-1383,1922. では形容詞
で表現される感性語との関連付け、小野敦史、天野督
士、斗谷充宏、佐藤隆、坂内正夫：“状態遷移モデルと
シーン記述言語による自動キーワード付与機能をもつ画
像データベースとその評価”、信学論、J79-D11,No.4,p
p.476-483,1996. ではシーンを記述するためのキーワー
ドの自動付与、などが提案されているが、扱う画像の範
囲、あるいはテキスト情報の範囲が限定されている。ま
たFlickner,M.,etal.:"Query by Image and Video Cont
ent: The QBIC System," IEEE Computer,28-9, pp.23-3
2,1995. などのいわゆる内容ベースの画像検索技術にお
いては、主にパターン間の類似性が使われ、パターンと
テキスト間の関連付けは十分には行なわれていない。

【００１２】

【発明が解決しようとする課題】（課題１）従来技術１
では、ジェスチャー内容が判別している画像と認識した
い画像の類似度を評価する場合、標本分布空間での距離
の２乗を評価にしているので、全く類似していない画像
間の評価値と類似している画像間の評価値との間の差が
大きくないので、類似するもの同志の画像との区別が難
しいという点において、さらに難しいという解決すべき
課題があった。

【００１３】また、従来技術２では画像間の類似度が入
力されなければ分類できないという課題があった。

【００１４】（課題２）従来技術３では、たとえば、画
像をクエリー（検索に使用する情報）としてその画像と
類似する画像を画像データベースから取り出すことは可
能になっている。また、画像データベースに保存してお
く画像にその説明を記した文書を付帯させておくことに
よりクエリーとした画像に関連する文書を取り出すこと
も可能である。しかしながら、検索により複数枚の類似
画像たとえば１００枚の画像が見つかった場合、検索者
は１００枚の画像に付帯する１００組の文書をも見なけ
ればならずその労力は大変となる。

【００１５】さらに、従来技術１で述べた画像の類似度
の評価方法を使用した画像検索システムでは、類似画像
についての区別がつきにくいので、多数枚の類似画像が
得られるという特徴がある。

【００１６】そこで、本発明の第１の目的は、画像の分
類精度を向上させるマルチメディア・クラスタリング装
置、方法および記録媒体を提供することにある。

【００１７】本発明の第２の目的は、文書の付帯した画
像データベースから、画像をクエリーとして適切な文を
抽出することの可能なマルチメディア・クラスタリング
装置を提供することにある。

【００１８】

【課題を解決するための手段】このような目的を達成す
るために、請求項１の発明は、２つの情報ファイルの類
似度を予め定めた評価式に従って計算し、その計算値に
基づきクラスタリングを行うマルチメディア・クラスタ
リング装置において、学習用としての複数の情報ファイ
ルを入力する入力手段と、当該入力された複数の情報フ
ァイルから前記評価式を作成する情報処理手段とを具え
たことを特徴とする。

【００１９】請求項２の発明は、請求項１に記載のマル
チメディア・クラスタリング装置において、前記評価式
は類似する情報ファイルについては評価式の計算値を小
さくし、まったく類似しないものについては評価式の計
算値が大きくする補正用のパラメータを含むことを特徴
とする。

【００２０】請求項３の発明は、請求項１に記載のマル
チメディア・クラスタリング装置において、前記情報フ
ァイルは画像であることを特徴とする。

【００２１】請求項４の発明は、画像に説明用の文書を
付帯させて記憶したデータベースを有し、クエリーとし
て入力した画像に関する文書を前記データベースから抽
出するマルチメディア・クラスタリング装置において、
前記クエリーとして入力した画像に類似する画像の文書
を前記データベースから抽出する抽出手段と、当該抽出
された文書の中の類似する文書を検出する類似文書検出
手段と、当該検出された文書のいずれか１つを出力する
出力手段とを具えたことを特徴とする。

【００２２】請求項５の発明は、請求項４に記載のマル
チメディア・クラスタリング装置において、前記出力手
段は、検出された文書の中の一致部分を出力することを
特徴とする。

【００２３】請求項６の発明は、請求項４に記載のマル
チメディア・クラスタリング装置において、前記抽出手
段は類似度を予め定めた評価式に従って計算し、その計
算値に基づきクラスタリングを行うとともに、前記マル
チメディア・クラスタリング装置はさらに学習用として
の複数の画像ファイルを入力する入力手段と、当該入力
された複数の情報ファイルから前記評価式を作成する情
報処理手段とを有することを特徴とする。

【００２４】請求項７の発明は、請求項４に記載のマル
チメディア・クラスタリング装置において、前記検出手
段は類似度を予め定めた評価式に従って計算し、その計
算値に基づきクラスタリングを行うとともに、前記マル
チメディア・クラスタリング装置はさらに学習用として
の複数の文書ファイルを入力する入力手段と、当該入力
された複数の文書ファイルから前記評価式を作成する情
報処理手段とを有することを特徴とする。

【００２５】請求項８の発明は、２つの情報ファイルの
類似度を予め定めた評価式に従って計算し、その計算値
に基づきクラスタリングを行うマルチメディア・クラス
タリング方法において、学習用としての複数の情報ファ
イルを入力する入力ステップと、当該入力された複数の
情報ファイルから前記評価式を作成する情報処理ステッ
プとを具えたことを特徴とする。

【００２６】請求項９の発明は、請求項８に記載のマル
チメディア・クラスタリング方法において、前記評価式
は類似する情報ファイルについては評価式の計算値を小
さくし、まったく類似しないものについては評価式の計
算値が大きくする補正用のパラメータを含むことを特徴
とする。

【００２７】請求項１０の発明は、請求項８に記載のマ
ルチメディア・クラスタリング方法において、前記情報
ファイルはジェスチャー画像であることを特徴とする。

【００２８】請求項１１の発明は、画像に説明用の文書
を付帯させて記憶したデータベースから、クエリーとし
て入力した画像に関連する文書を抽出するマルチメディ
ア・クラスタリング方法において、前記クエリーとして
入力した画像に類似する画像を前記データベースから抽
出するステップと、前記クエリーとして入力した画像に
類似する画像に関連する文書を前記データベースから抽
出する抽出ステップと、当該抽出された文書の中の類似
する文書を検出する類似文書検出ステップと、当該検出
された文書のいずれか１つを出力する出力ステップとを
具えたことを特徴とする。

【００２９】請求項１２の発明は、請求項８に記載のマ
ルチメディア・クラスタリング方法において、前記出力
ステップでは、検出された文書の中の一致部分を出力す
ることを特徴とする。

【００３０】請求項１３の発明は、請求項８に記載のマ
ルチメディア・クラスタリング方法において、前記抽出
ステップでは類似度を予め定めた評価式に従って計算
し、その計算値に基づきクラスタリングを行うととも
に、前記マルチメディア・クラスタリング方法はさらに
学習用としての複数の画像ファイルを入力する入力ステ
ップと、当該入力された複数の情報ファイルから前記評
価式を作成する情報処理ステップとを有することを特徴
とする。

【００３１】請求項１４の発明は、請求項８に記載のマ
ルチメディア・クラスタリング方法において、前記検出
ステップでは類似度を予め定めた評価式に従って計算
し、その計算値に基づきクラスタリングを行うととも
に、前記マルチメディア・クラスタリング方法はさらに
学習用としての複数の文書ファイルを入力する入力ステ
ップと、当該入力された複数の文書ファイルから前記評
価式を作成する情報処理ステップとを有することを特徴
とする。

【００３２】請求項１５の発明は、２つの情報ファイル
の類似度を予め定めた評価式に従って計算し、その計算
値に基づきクラスタリングを行うマルチメディア・クラ
スタリング装置により実行されるプログラムを記録した
記録媒体において、該プログラムは、学習用としての複
数の情報ファイルを入力する入力ステップと、当該入力
された複数の情報ファイルから前記評価式を作成する情
報処理ステップとを具えたことを特徴とする。

【００３３】請求項１６の発明は、画像に説明用の文書
を付帯させて記憶したデータベースを有し、クエリーと
して入力した画像に関連する文書を前記データベースか
ら抽出するマルチメディア・クラスタリング装置により
実行するプログラムを記録した記録媒体において、前記
プログラムは、前記クエリーとして入力した画像に類似
する画像を前記データベースから抽出するステップと、
前記クエリーとして入力した画像に類似する画像に関連
する文書を前記データベースから抽出する抽出ステップ
と、当該抽出された文書の中の類似する文書を検出する
類似文書検出ステップと、当該検出された文書のいずれ
か１つを出力する出力ステップとを具えたことを特徴と
する。

【００３４】

【実施例】以下、図面を参照して本発明の実施形態を詳
細に説明する。

【００３５】（第１実施形態）最初に第１実施形態にお
けるクラスタリング方法を説明する。

【００３６】（１−ａ）定義パターン認識問題を次のように定式化する。学習すべき
パターンデータの各データを番号付けしｉとする。標本
は有限次元の特徴量ｘ_iを持ち、それぞれはクラスＣ_i
に属している。それぞれは判別写像により判別空間上の
ｚ_iに写像される。

【００３７】この時、データｉ，ｊが同じクラスに所属
する、すなわちＣ_i＝Ｃ_jのとき、ｚ_i，ｚ_j間の距離
を小さくする判別写像を求める問題として定義する。

【００３８】（１−ｂ）非線型評価判別空間上での判別に使われるＮ−近傍法等では、近傍
のＮ個のデータより遠い点がどのような分布をしていて
も、判別結果に影響しない。その点では、最適な判別写
像を与えるための、判別空間での学習データの分布の評
価でもＮ番目以上に離れた離れた点の間については評価
を変える必要はない。

【００３９】そこでCalaxy Clustering で用いた手法と
同じように、判別の近傍として使用するＮ番目までの点
が入ると期待できる近傍までは２乗に比例した評価値を
与え、その外側では２乗より弱い評価値となるような数
２式の非線形関数Ｆを用いる。これはロバスト統計でし
ばしば利用されてきた手法であり、類推から広義のロバ
スト化と見ることもできる。

【００４０】

【数１】

【００４１】Ｆは近傍（＜ａ）については２次関数であ
り、その外側では１次関数となる次の式を使用する。

【００４２】

【数２】

【００４３】閾値ａは判別空間でのＮ−点は入ると期待
できる近傍範囲であり、目的とする効果が得られる。

【００４４】（１−ｃ）判別空間での分散の一様化判別関数のモデルに依存するが、上記の非線形評価を行
なう場合の必要として、学習データを判別空間内に分散
させる必要がある。仮にすべての標本が判別空間の原点
に写像されるような関数を選べば、クラス内分散の最小
化はこれによって満たされてしまうが、判別は全く不可
能になる。そのため判別空間での分散を規定する必要が
ある。

【００４５】もっとも簡単な方法は分散は一定にする方
法だが、上記のような非線形評価を行うと特定のデータ
の像だけを無限遠に置くことで最大化式が満たされてし
まう。写像として用いる判別関数にもよるが、判別関数
を求めるの計算自体が収束しない可能性が出てくる。

【００４６】これ以外にも各学習データの特徴量のかた
よりや、判別写像の性質によって、判別空間内で局所的
にデータが集中することが考えられ、その付近での判別
が困難になる。

【００４７】判別空間での局所的なデータの集中を防
ぎ、判別可能な分散を与えるために、判別空間での学習
データｚ_iを一定の半径の超球内に閉じ込めて、その超
球内での分布が一様になるように以下の条件を満す超球
一様化関数を考える。

【００４８】１．像の分布の中心は原点である。

【００４９】２．像の分布について主成分分析をしても
分布にかたよりが見られない。

【００５０】３．一定半径の球殻内にすべての像が存在
し、中心から半径方向への分布の空間内での体積に比例
した分布となっている。

【００５１】（１−ｄ）特徴ベクトルの線型変換まず学習データの特徴量ｘ_iから前記の非線型評価を行
うｚ_iに変換する中間段階としてｙ_i を導入する。

【００５２】まずある写像Ａによってｘ_iはｙ_iに変換
される。なお本報告ではＡを線型のアフィン変換として
いるが任意の関数が考えられる。

【００５３】次に超球一様分布化関数Ｇによって、ｙ_i
の分布から一様化分布するように変換し、ｚ_iが得られ
るようにする。

【００５４】以下にＧを構成する各過程について述べ
る。

【００５５】（１−ｆ）原点への移動原点が分布の中心となるように平行移動する。

【００５６】

【数３】

【００５７】（１−ｇ）特定方向へのかたよりの解消次に統計における主成分分析と同様に、共分散行列を求
めて固有値分解によりどの方向に対する分散も同じ値と
なるようにする。

【００５８】ｙ_i ^(t+1)'の分布から共分散行列Ｒを次の
ように求める。

【００５９】

【数４】

【００６０】（添字ｍ，ｎはそれぞれｙ_iのｍ，ｎ成
分）これを固有値分解する。

【００６１】

【数５】

【００６２】

【数６】

【００６３】得られた固有値σ₁，σ₂，・・・σ_Nに
対して次のような逆変換行列を作る。

【００６４】

【数７】

【００６５】以下の変換を行う。

【００６６】

【数８】

【００６７】（１−ｈ）半径方向の一般化次に球の半径方向の標本の分布について統計をとる。

【００６８】図１に示したように超球の一定半径ｒ内に
存在する標本の数を、標本の総数で割って規格化した値
を求める。これをｒに対する関数と見てＵ（ｒ）とす
る。なお数値処理のためにあらかじめ標本の分布してい
る半径の範囲を定めて１００段階に分割し、折線近似関
数で代用している。

【００６９】理想的にデータが一様に分布していれば、
半径方向に対して体積に比例した密度で分布することが
期待でき、この場合の原点から各データまでの距離を
ｒ' とする。閉じ込める超球の半径を１とすると、空間
の次元がＮなのでＵ（ｒ' ）はｒ´^N に一致する。

【００７０】

【数９】

【００７１】そこですべての標本ｙ_i ^(t+1)''について
次の変換を行なう。

【００７２】

【数１０】

【００７３】ここでｙ_i ^(t+1)の分布が与えられれば、
一意にｙ_i ^(t+1)'''を与えることができるので、この関
数の超球一様化関数Ｇとすると、

【００７４】

【数１１】

【００７５】と記述できる。

【００７６】（１−ｉ）最小化関数次の式で得られる評価値を最小化するような、関数Ａを
求めればこれらの条件が満たされることになる。与える
判別写像Ａの一例およびその解法については次節で考え
る。

【００７７】

【数１２】

【００７８】

【外１】

【００７９】

【数１３】

【００８０】（１−ｊ）ジェスチャー認識への適用と解
法人物のジェスチャーを撮影して得られた動画像から、そ
れぞれのジェスチャーを識別する問題に本手法を適用す
る。

【００８１】図２のようにカメラの前の着座姿勢の人物
があらかじめ決められたジェスチャーを行う。ジェスチ
ャーの種類は、「両手を前に」、「両手を後ろに」、
「両手を上げる」、「両手を開く」、「両手を閉じ
る」、「両手を叩く」、「両手で丸を作る」、「両手を
交差」、「左手上げ」、「左手水平」、「左手横へ」、
「右手上げ」、「右手水平」、「右手横へ」、「右手を
ふる」の１５種とする。これらを複数回行い連続してデ
ィジタルビデオカメラで記録する。

【００８２】それぞれを学習用データとして２回、認識
検証のデータとして１回収集し、４５回のデータを収集
した。これを３０フレーム／秒で３２０×２４０ピクセ
ル、濃度値を階調８ビットの白黒画像として量子化し記
録する。

【００８３】各画像を画面を縦横４×４の１６領域に分
割し、連続したフレーム間で２０以上の変化があるピク
セルを求め、それぞれの領域ごとにこのピクセルの占め
る比率を求める。その結果フレーム間の変化は１６次元
のベクトルで表現できる。

【００８４】各ジェスチャーに要する時間が異なるた
め、それぞれの動作時間により７０から１２０フレーム
で構成される。それより一つ少ない回数の連続する１６
次元のベクトルとして記述されるので、これを特徴量と
した。

【００８５】すべてのフレーム間に順序に付け（ｉ＝
１，２，・・・ｎ）とし、その特徴量をｘ_iとする。ま
た、各フレーム間が所属する１５種のジェスチャーに１
−１５の番号付けをし、各フレーム間が表わすジェスチ
ャーをＣ_iとする。

【００８６】（１−ｋ）繰り返し法による解法ここでは判別空間を２次元空間とした。またここでは線
型写像による最もシンプルな写像とした。１６次元から
２次元への写像なので次のように表現できる。

【００８７】

【数１４】

【００８８】このＡを次の手順で繰り返し法により求め
る。Ｇが順序を含む関数であるために、Ａの各要素の変
化に対してＥが不連続に変化する。このため乱数による
近傍探索法による山登り法により最適なＡを求める。

【００８９】１．初期化

【００９０】

【外２】

【００９１】２．評価数１２式に代入しＡ^(k)の評価値Ｅ^(k)を求める。

【００９２】

【数１５】

【００９３】３．探索最適値の近傍探索のためにＡ^(k)の各要素に［−
α_(k)，α_(k)］の一様乱数を加えたＡ^(k)を与える。

【００９４】

【数１６】

【００９５】繰り返し回数に従って徐々に探索範囲をせ
ばめるためにα_(t)は次のようにおく。

【００９６】

【数１７】

【００９７】

【外３】

【００９８】４．選択より小さなＥを与えるほど最適値に近いと考えられるの
で、比較して小さいものを与えたものを次の値とする。

【００９９】

【数１８】

【０１００】５．ｔに１を加えて手順２に戻る。

【０１０１】（実験結果）１５種のジェスチャーごとに
２回のジェスチャーに相当する動画像を選択し、合計３
０回分の動作を学習データとして使用する。学習がうま
くいけば、ジェスチャーごとに分離した判別空間が形成
できる。

【０１０２】図３に初期状態を示した、左からジェスチ
ャー全体、「右手上げ」，「左手上げ」，「両手を前
に」のジェスチャーの分布を示している。乱数で初期化
したＡ^(o)および球内一様化関数Ｇを経由した２次元の
判別空間をそれぞれ表示している。ジェスチャーを連続
するフレームごとに直線で結んである。図３のジェスチ
ャー全体の左上付近の集積は主にジェスチャーを開始と
終了に代表されるまったく動いていない状態である。乱
数で写像を選んでいるために、それ以外の部分でもジェ
スチャーごとにまったく分離できていないことがわか
る。

【０１０３】繰り返し法によりＥの値を最小化する。そ
の過程を図７に示した。横軸が繰り返し回数、縦軸がＥ
^(k)である。３０００回でほぼ収束し、１００００回ま
で行なった。

【０１０４】各繰り返し演算後の分布について、図４に
１００回目、図５に１００００回目の結果を示してあ
る。ジェスチャーごとに分離できてくる様子がわかる。

【０１０５】なお計算はＳＧＩＯＮＹＸ上で行い、１
００００回の演算に５２２０秒を要した。

【０１０６】次に認識を想定して、学習データとは別の
ジェスチャー画像を未知データとして与え、それぞれの
ジェスチャーがどの程度想起できるかを調べた。クラス
Ｃ_kの学習データの特徴量をｘＣ_ki、未知動画像の各フ
レーム間の特徴量をｘ_u,iとし、１００００回後繰り返
しによって得られたＡ^(10000)とＧによって超球一様空
間に変換する。

【０１０７】

【数１９】

【０１０８】図８のように、超球一様空間内での未知デ
ータの各フレーム間に対応する点ｚ_u,iに対し、各学習
データｚＣ_kmの描く経路との距離ｄ_iを求める。

【０１０９】

【数２０】

【０１１０】最も小さなｄ_iを与える学習データのジェ
スチャーＣ_kをその点での類似したジェスチャーとす
る。

【０１１１】して類似度が最大のジェスチャーを太字で
示した。

【０１１２】時系列データとしての順序性は見ていない
ので動作の最初や最後の不動部分では識別が困難になっ
ている。しかし１５ジェスチャー中に１２ジェスチャー
で同一ジェスチャーを意味する対角部分が最大となって
おり、他のものでも対角部分が最大値に近くなってい
る。

【０１１３】固有空間法との対照実験を行なった。ジェ
スチャーの特徴量の分布を主成分分析し、第２主成分ま
でを求め、得られる２次元の空間内で判別をする。その
分布を図６に示す。本手法と比較して、分布がジェスチ
ャー毎に分離できず密集しているため、１５ジェスチャ
ー中最大となっているのは８ジェスチャーに過ぎず、本
手法の有効性が確かめられた。

【０１１４】以上述べたクラスタリング方法を使用して
ジェスチャー認識を行うマルチメディア・クラスタリン
グ装置を説明する。

【０１１５】マルチメディア・クラスタリング装置は汎
用コンピュータにより実現することができる。汎用コン
ピュータはクラスタリング処理を規定したプログラムを
ハードディスクに記憶し、ＣＰＵにより実行する。プロ
グラムはＣＤＲＯＭ，フロッピーディスク等の記録媒体
を介してハードディスクに実装する。

【０１１６】従来と同様のプログラムについての説明は
省略し、本発明に関わる処理を図９を参照して説明す
る。

【０１１７】類似度の評価を行うための評価式が従来
（特願平１０−１３９００１号の高橋裕信，新田義貴，
岡隆一：“非線形クラスタリングによるパターンの分
類−Galaxy Clustaving Methodの提案−、”信学技報Ｐ
ＲＭＵ９８−１３（１９９８））では固定化されていた
のに対し、本実施形態では学習により可変設定するよう
にしたことに第１の特徴がある。

【０１１８】このために、予め類似していることが予め
判明している複数枚のイメージを汎用コンピュータに対
して入力する（図９のステップＳ１０）。画像入力はス
キャナー等の画像読み取り装置から行ってもよいし、他
の装置から通信ケーブルを介して入力してもよい。

【０１１９】汎用コンピュータは、入力した画像を使用
して（１−ｋ）の項で述べた繰り返し処理を実行し、評
価式［数１２］の中の写像Ａについての最適値を取得す
ることにより評価式を作成する（図９のステップＳ２
０）。

【０１２０】取得された最適値はハードディスクに保存
される（図９のステップＳ３０）。

【０１２１】このようにして認識すべきジェスチャー画
像に対して標準パターンとして使用する画像を学習パタ
ーンの形態で与え、類似する画像相互の関係を評価式の
形態で記憶する。これにより、認識すべきジェスチャー
画像を汎用コンピュータに入力すると、汎用コンピュー
タは認識すべきジェスチャー画像を上記最適化された評
価式を使用して分類することでジェスチャー認識を行
う。ジェスチャー認識処理自体は評価式が異なる点を除
けば従来と同様である。評価式が本実施形態の第２の特
徴であるので、ここで評価式の従来との相違点を説明し
ておく。［数１２］の評価式では数２式で定義される関
数Ｆを含んでいる。この関数Ｆをパラメータとして評価
式内に含むことにより、類似しているイメージについて
の評価値が小さく（類似度大）なり、類似していないイ
メージについての評価値が大きく（類似度小）なるよう
に値が強調される。

【０１２２】（実施形態２）本実施形態は、データ学習
（自己組織化）過程と認識過程からなる画像検索であ
り、入力イメージ（画像）に類似する画像を画像データ
ベース検索すると共に、画像に付帯する文書から類似文
をも抽出することに特徴がある。

【０１２３】図１０に本実施形態の概要を示す。

【０１２４】データ学習過程では、画像に対してリンク
を持つ大量の文書データに対して、単語の出現頻度に基
づいて単語空間の非線形クラスタリングを行なう。その
結果得られた文章間の距離関係を、画像へのリンクをた
どって伝搬させ、画像データの非線形クラスタリングに
用いる。文章の距離関係を画像データのクラスタリング
に用いることによって、近い文書に対応するリンク先の
画像を近くに集まるようにすることが狙いである（図１
０（ａ））。

【０１２５】認識過程では、画像入力が与えられると、
前記両クラスタリング結果を用いて、距離の近さに基づ
いて近傍の画像が複数検索され、今度はそれらの画像か
ら文書へのリンク情報に基づいて、対応する文章が複数
呼び出される。最後に、それらの文章が互いに近接して
いる部分の文を取り出して、出力とする（図１０
（ｂ））。もし、学習過程で文書の近さ関係が、画像側
にうまく埋め込まれていたとすると、出力された文は質
問画像に対する説明文の役割を果たすことが期待され
る。

【０１２６】（２−ａ）クラスタリング手法今回、画像・文書に共通して用いた空間クラスタリング
手法（以下単にクラスタリング手法）は、Ｇａｌａｘｙ
Ｃｌｕｓｔｅｒｉｎｇをベースにした方法である。Ｇ
ａｌａｘｙＣｌｕｓｔｅｒｉｎｇ手法のポイントは以
下の２点である。

【０１２７】１．クラスタリングを縮小された次元（以
下埋込み次元と言う）にて行なう。

【０１２８】２．非線形な「折点」を持つポテンシャル
を用いる。

【０１２９】

【外４】

【０１３０】

【数２１】

【０１３１】

【外５】

【０１３２】

【数２２】

【０１３３】となる。このようなポテンシャル関数を用
いる理由は、クラスタリング過程において、遠距離の作
用に比べて近距離の効果を強めるためである。

【０１３４】この関数を用いて、クラスタリングデータ
全体の評価関数を

【０１３５】

【数２３】

【０１３６】と定める。この値を最小化することがＧａ
ｌａｘｙＣｌｕｓｔｅｒｉｎｇの基本方針である。こ
こで、ｘ_i，ｘ_jは、それぞれデータｉ，ｊの埋め込み
次元の空間での位置である。また、ｗ_ijはデータｘ_iと
データｘ_jの親和度である。

【０１３７】クラスタリングの実行にあたっては、上記
評価関数に加えて、全て同じ点に落ち込むという自明な
解を避けるため、何らかの拘束条件を課する必要があ
り、後述するように、クラスタリング課題によって適当
な条件を用いる。

【０１３８】また、入力データの違いにより、クラスタ
リング手法は目的とする学習形態が２種類にわかれる。
１つは、親和度が与えられて、クラスタリングによって
空間中の各データの位置を画像学習型と呼ぶ、後述する
各手法の詳細から明らかなように、今回行なった手法
中、文書クラスタリングは、位置探索型であり、画像ク
ラスタリングは写像学習型である。

【０１３９】（２−ｂ）類似文書検索手法文章データに対して、上記に説明したクラスタリング手
法を適用する方法はいろいろ考えられるが、今回は単語
ベースのクラスタリングを行なった。

【０１４０】その手順は、まず、各文書を形態素解析に
かけ、単語に分割する。今回は、形態素解析のツールと
してはＣｈａｓｅｎを用いた。

【０１４１】次に、この単語全てを統計処理すべき標本
とみなして、単語間の共起情報から各単語間の親和度ｗ
_ijを算出し、ＧａｌａｘｙＣｌｕｓｔｅｒｉｎｇによ
り、空間に配置する。今回用いた親和度ｗ_ijについて
は、各単語の組（ｉ，ｊ）が、記事中の前後５単語以内
に何度共起したかをカウントし（Ｎ_ijと書く）、各出現
頻度Ｎ_iで規格化したものを用いた。

【０１４２】

【数２４】

【０１４３】このように親和度を与え、前述した評価関
数を用いてクラスタリングを行なうことによって、各単
語の空間配置が決まる。

【０１４４】最適化計算では、１．非線形最適化２．分散規格化（球内一様化）３．半径方向の一様化を繰り返し行ない、データの配置を変更していく。分散
規格化（球内一様化）、および、半径方向の一様化がこ
の場合の拘束条件となっている。

【０１４５】次に、与えられた単語の空間配置から、文
章間の距離を求める。与えられた文章間の距離は、各文
書を同じ形態素解析にかけて、単語列に分解し、上記ク
ラスタリングによって得られた単語距離から文書間距離
を算出する。

【０１４６】今回は、以下のような文書間距離を用い
た。すなわち、２文章Ｄ₁，Ｄ₂が与えられた時、その
距離ｄ_C（Ｄ₁，Ｄ₂）は、

【０１４７】

【数２５】

【０１４８】ここで、ｉ∈Ｄ₁，ｊ∈Ｄ₂はそれぞれ、
文章Ｄ₁，Ｄ₂に含まれる単語を示し、ｄ²（ｉ，ｊ）
はそれらのクラスタリング空間におけるユークリッド２
乗距離である。また、Ｎ₁，Ｎ₂はそれぞれの文章中の
単語数である。

【０１４９】この距離は、文章中の各単語に対して最短
距離を与える相手文章中の単語との距離を、単語全てに
対して平均した量を、２文に対して対称化したもので、
２文が単語空間中で描く経路の一致している部分の寄与
はゼロにしつつ、不一致の部分の隔たりを積算できるも
のとなっている。

【０１５０】（２−ｃ）類似画像検索手法類似画像検索では、画像特徴量ベースの類似画像検索手
法を用いた（武者義則，森靖英，広池敦：“大量画
像を対象とする特徴量空間の可視化，”第３回知能情報
メディアシンポジウム，pp.253-258,1997)。

【０１５１】今回は、画像から抽出する特徴量として、
表１にまとめたものを用いた。

【０１５２】

【表１】

【０１５３】合計５０４次元である。表１で、ビン８ヒ
ストグラムとは、各頻度分布をビン数８のヒストグラム
に表現した値であり、８方向強度とは、円周を８等分し
てビンとして、それぞれに対応する強度を和したもので
ある。また、構図３×３とは、画像を縦３横３の９つの
区画に均等分割して、９区画各々についてそれぞれ処理
を行なうという意味である。輝度Ｙ，色差Ｉ，Ｑという
特徴量は、ＹＩＱ表色系である。微分特徴量に関して
は、ｘ方向、ｙ方向の微分フィルタ（Ｓｏｂｅｌ）によ
る強度ｄ_x，ｄ_yから、

【０１５４】

【数２６】

【０１５５】を求めて、これから、前述の８方向強度を
算出した。

【０１５６】その後、特徴量ベクトルを主成分分析など
を用いて、埋め込み次元への写像を適当に設定し、それ
を初期値として前述したクラスタリングを行なう。

【０１５７】画像側のクラスタリングでは、文書検索結
果による近傍情報をリンクする画像の近傍情報として用
い、それを反映した評価関数にてクラスタリングを行な
う。リンク情報を反映させる方法として、今回は、近傍
文書を表すフラグｌ（ｉ，ｊ）を以下のように定義し
て、それを親和度として用いた。

【０１５８】

【数２７】

【０１５９】ここで、Ｔ(i) は、画像ｉにリンクしてい
るテキストを示す。また、データＴ(i) の最近傍がＴ
(j) であっても、Ｔ(j) の最近傍がＴ(i) であるとは限
らないので、一般にｌ（ｉ，ｊ）≠ｌ（ｊ，ｉ）であ
る。

【０１６０】クラスタリングにおける、繰り返し計算手
順は、最急降下法を用いて行なった。すなわち、（１）
最急降下法で評価関数を減少する方向に写像を変更、
（２）分散共分散行列を求めて規格化、を繰り返して行
なった。

【０１６１】最急降下法のための評価関数Ｅは、

【０１６２】

【数２８】

【０１６３】

【外６】

【０１６４】従って、交換行列Ａのpq成分ａ_pqに対する
最急降下法による１ステップ（ｔ→ｔ＋１）での変更量
は、

【０１６５】

【数２９】

【０１６６】

【外７】

【０１６７】画像クラスタリングにおいては、テキスト
のクラスタリングにおいて有効であった半径方向一様化
は用いなかった。その理由は、特徴量をベースとした画
像のクラスタリングは、上述のように、写像学習型であ
り、最終的には、写像を学習しなくてはならないが、今
回はその学習写像のクラスとして線形変換に限ったた
め、一様化を行なうと、最適化と競合して収束が進まな
い現象が見られたからである。

【０１６８】類似画像検索は、上記クラスタリングによ
って得られた写像を用いて写像後の空間中での距離を類
似度とすることによって行なった。

【０１６９】（２−ｄ）画像認識手法画像から関連文を出力する手順は、質問画像が入力され
ると、上述した類似画像検索手順によって、複数の学習
画像（文書データとリンク付けされている）を見つけ
る。次に、それらの文書へのリンクをたどり、複数文書
を得る。次に、それらの複数の文書の「近接部分」（後
述）を取り出して認識結果とする。

【０１７０】今回は、近接部分の定義として、図１０に
示したように、２文章中の各文（句点「。」で区切られ
ている単語列を文とした）の全てのペアの中で、最も文
間の距離の近い１ペアを近接部分とした。従って、１画
像から２文章を見つけ、各々の文章中から１文、計２文
が出力されることになる。また、ここでの文間の距離
は、各文に対する［数２５］式の距離ｄ_Cを用いる。

【０１７１】（実験の結果）（３−ａ）使用データ今回の実験では、大量の文書・画像間のリンク情報をも
つデータとして、マルチメディア百科事典である、マイ
ペディア（日立デジタル平凡社刊）の画像・文書データ
を用いた。

【０１７２】使用した画像は、本文テキストへのリンク
を持つ画像の大半である９，６８１枚を用いた。画像サ
イズは大小さまざまであるが、平均４００×２８０ピク
セル程度の大きさであり、２５６階調、カラー・モノク
ロ両方がある。内容は百科事典の資料画像であるから、
肖像，動植物，文化遺産，建築物，風景等多岐に渡る
が、写真画像が中心であり、イラストも含む。

【０１７３】一方、文書データとしては、本文の大半で
ある６２，９３４項目を用いた。おのおのの項目は平均
５個程度の文（句点で区切られた文字列を文とした）か
ら成っている。また、それらの文章からＣｈａｓｅｎに
よる形態素解析で抽出された全単語数は、１１９，８７
０個であった。

【０１７４】画像・文書間のリンクについては、上記
９，６８１枚の各画像が、全て文書の項目へのリンク両
が張られているのでそれを用いた。その対応関係は、殆
んどが１対１であるが、僅かに多対多となっている。今
回は、その中から出現順の速いものだけ残すなどの適当
な技刈りを行なって、８，８７５対の１対１の文書・画
像対を得て、それを最終的な総リンク情報として用い
た。なお、上記のように、文書総項目数のほうがはるか
に多く、画像からのリンクのない文書項目は多数存在す
る。

【０１７５】（３−ｂ）実験手順上記データを用いて、全節で説明した手順に従って、文
書・画像各学習データのクラスタリングを行なう。その
際の諸パラメータは表２のとおりである。

【０１７６】

【表２】

【０１７７】ただし、今回はテキストのクラスタリング
においても一様化を行なわず、また、分散の和一定の拘
束条件のみ用いてクラスタリングを行なった。これは今
回の実験上の都合からであり、一般に文書クラスタリン
グにおいて一様化計算を用いることは容易である。

【０１７８】文書から画像への近傍情報のフィードバッ
クは、今回は計算時間の関係上、上記利用リンク対８，
８７５の約半数の４，４００項目を用いた。各４，４０
０項目を文書検索して、類似と判断された上位２位（自
分自身を含まず）の文書を「関連あり」として、その関
連情報をそのまま対応する画像中に移して、前節に示し
たとおり、それを用いた評価関数を用いて画像側のクラ
スタリングを行なった。

【０１７９】クラスタリングが終了した後、その結果を
用いて、与えた未知画像に対して、全節で説明した２個
の近傍画像特徴抽出から、リンクを文書側にたどって、
近接の２文を出力する処理を行ない出力の状況をみる。
また、学習データ間の類似性がテキストから画像間にど
の程度伝播したかを見るために、上記関連データ間の距
離が、画像クラスタリングの前と後で、どの程度小さく
なったかを、学習データの自己検索を行ない、上位の検
索結果とのペアに対してそれぞれ調べた。

【０１８０】（３−ｃ）実験結果単語クラスタリングの結果を図１１に、画像クラスタリ
ングの結果を図１３に示す。

【０１８１】図１１は単語クラスタリングによる単語分
布の変化を示す。左部は初期分布（ランダム）、右部は
クラスタリング結果を示す。左右部共に１０次元中の２
軸で表示（どの軸も概形は同様）している。

【０１８２】図１２はクラスタリングによる画像特徴量
分布の変化を示す。右部は上位２主成分の初期分布を示
す。クラスタリングの初期値は上位１０主成分である。
左部はクラスタリング結果を示す。１０次元中の２軸
（どの軸も概形は同様）を示す。

【０１８３】数２８式の評価関数の値は、画像クラスタ
リング後には、クラスタリング前の主成分分析での値と
比べて１６％減少した。また、リンクデータ間距離を、
同じく主成分分析と比較した結果、それらの距離の比の
平均は、０．９４と、平均的に小さくなったことがわか
る。これら結果は、主成分分析を単独で用いた場合と比
較して、テキストのクラスタリングの状況を、僅かでは
あるが画像のクラスタリングに反映させることができた
ことを示している。

【０１８４】未知画像を用いた認識結果では、検索印象
として、無関係と思われる出力が多数を占めたが、その
中に、やや関係があると思われるものも出力された。図
１３にいくつかの認識結果を示す。

【０１８５】以上、述べた検索処理を汎用コンピュータ
において実行するための処理手順を図１４を参照して説
明する。図１４の処理手順はＣＰＵが実行可能なプログ
ラムの形態でハードディスク等に記憶される。また、Ｃ
ＤＲＯＭやフロッピーディスクからハードディスクに対
して実装することが可能である。なお、予め画像とその
画像の説明文が画像データベースに登録されているもの
とする。

【０１８６】このプログラムが起動されると、ユーザは
学習モードか検索モードの選択を行う。学習モードは、
類似している画像同士を汎用コンピュータに対して指示
し、学習するモードである。検索モードは与えた画像に
対する文を作成するモードである。

【０１８７】（学習モード）上記画像データベースを構
築する際に、予め類似していることが判明しており、同
一のクラスに分類したいもの同士の画像を汎用コンピュ
ータに対して入力する。

【０１８８】汎用コンピュータでは、入力された文書お
よび画像およびそれらの間のリンク情報を用いて、文書
のクラスタリングを行ない、その結果ｗ_ij（数２８式で
はｌ（ｉ，ｊ））が定まる。上述した数２８式の値が最
小となるようのようなＡの関数を算出する（評価式の作
成）。取得したＡの値がハードディスクに保存される
（ステップＳ１００→Ｓ１０１→Ｓ１０２→Ｓ１０
３）。後述の検索モードでの画像の類似度の計算を数２
８式を使用して行うときに、保存したＡの値が使用され
る。学習に使用する類似画像は、画像データベースに登
録してある画像同士を指定してもよいし、スキャナーか
ら汎用コンピュータに入力してもよい。

【０１８９】（検索モード）上述のような学習を行っ
て、数２８式のＡの値を保存した後、画像をクエリーと
して画像検索を行う場合、ユーザはメニュー画面で検索
モードを指定した後、スキャナーにより画像入力する。
記録媒体に記憶された画像を汎用コンピュータに入力し
てもよい（ステップＳ１１０→Ｓ１１１）。

【０１９０】汎用コンピュータは、保存してあるＡの値
を使用して数２８の評価式により入力した画像と画像デ
ータベース（ハードディスク上）の個々の画像との間の
類似度を計算する。評価値が許容範囲にあるものが類似
していると判定される。類似していると判定された画像
データベース上の画像は付帯の説明文（文書ファイル形
態）とともには汎用コンピュータ上のメモリに抽出され
る（ステップＳ１１２→Ｓ１１３）。たとえば、１００
枚の類似画像が得られたものとする。

【０１９１】次に，汎用コンピュータは上述した類似文
書検索方法にしたがって、抽出した文書の中の任意の２
つを組み合わせて類似度を数２５式により計算する。汎
用コンピュータは組み合わせを変更して抽出した１００
枚の画像全ての組み合わせについて説明文の類似度の計
算を行う。類似度が許容範囲内にある説明文がクエリー
として入力された画像の説明として出力される。説明文
が複数見つかった場合は、たとえば、先頭の画像の説明
文が選択されてディスプレイに出力される（図１３参
照、ステップＳ１１４→Ｓ１１５）。

【０１９２】このような検索では、画像のみを与える
と、その画像に関する説明を画像データベースから抽出
するという新規な検索手法を提供することができる。こ
の検索方法を使用すると、人間の目では内容が理解でき
ないような写真等の説明文を入手することができる。

【０１９３】上述の実施形態の他に次の形態を実施でき
る。

【０１９４】１）上述の実施形態では画像のクラスタリ
ングに本発明を適用した事例を説明したが画像に限ら
ず、文書のクラスタリングにも本発明を適用できる。こ
の場合には、類似度の計算において、計算にしたがっ
て、上述の第２に実施形態で行った類似文書（説明文）
の抽出処理においても予め類似文書を学習データとして
汎用コンピュータに与え、数２３式におけるｗ_ijを最小
化する値を求める。この得られたｗ_ijを使用した評価式
により文書間の類似度を計算する。

【０１９５】２）上述の第１実施形態ではジェスチャー
認識、第２実施形態では画像検索に本発明を適用する事
例を説明したが、さらには多数の画像データ、音声デー
タ、音響データの類似性を判別したり、分類する処理に
本発明を適用できる。

【０１９６】３）上述の第２実施形態では、説明文のみ
を出力させているが、類似画像やその説明文を全て表示
させてもよく、この場合は単一の説明文を出力するモー
ドと類似画像を全て出力するモードを選択する。

【０１９７】４）上述の第２実施形態では、類似度が許
容範囲内にある文書から表示する文書を選択したが、最
も類似度が高くなった２つの文書の中の許容範囲、以下
の距離的に近い部分を汎用コンピュータにより抽出して
もよいこと勿論である。なお、このとき、一致する部分
の単語数の下限を設定しておき、完全一致の単語数が少
ないときには、２つの文書のいずれか１つを選択する。

【０１９８】

【発明の効果】請求項１、８、１５の発明では予め類し
していることが判明している情報ファイルの類似関係を
学習して、評価式を作成することにより、クラスタリン
グの対象となる情報ファイルのクラスタリング（分類）
精度を向上させることができる。

【０１９９】請求項２、９の発明では、さらに評価式の
値を強調するパラメータを含むことにより、類似してい
る情報と類似していないファイルの区別をつけられるよ
うになる。

【０２００】請求項３、１０の発明では、ジェスチャー
画像のように類似した静止画像が連続する動画像につい
て認識すべき動画像とに対応する動画像を複数の動作が
判明しているジェスチャー（動）画像の中から見つけ出
す精度が向上する。

【０２０１】請求項４、１１、１６の発明では、クエリ
ーの画像から類似画像をデータベースから抽出し、その
抽出した画像に付帯する文書の中で類似する文書を検出
することにより、クエリーの画像に関連する単一の文書
をデータベースから自動で見つけることができ、操作者
の検索操作を低減することができる。

【０２０２】請求項５、１２の発明では、類似文書の中
の距離的に許容範囲内にある一致部分，類似部分を出力
することで、操作者は、クエリーの画像と抽出された類
似画像の一致部分，類似部分を知ることができる。

【０２０３】請求項６、７、１３、１４の発明では、類
似画像の検出あるいは類似文書の検出に使用する評価式
を、予め類似関係が判明している情報（画像，文書）か
ら学習することにより、より精度よく類似関係を分析す
ることができる。

【図面の簡単な説明】

【図１】本発明第１実施形態のクラスタリング処理を説
明するための説明図である。

【図２】ジェスチャーの一例を説明する説明図である。

【図３】初期化後の学習データの分布を示す説明図であ
る。

【図４】繰り返し１００回目の学習データの分布を示す
説明図である。

【図５】繰り返し１００００回目の学習データの分布を
示す説明図である。

【図６】従来法のデータ分布を示す説明図である。

【図７】Ｅ（ｋ）の繰り返しによる収束を示す説明図で
ある。

【図８】超球一様空間における時系列パターン間の距離
計算を説明するための説明図である。

【図９】第１実施形態の処理手順を示すフローチャート
である。

【図１０】（ａ）はテキスト間距離情報による画像クラ
スタリングを説明するための説明図、（ｂ）はクエリー
画像からの関連文の出力を説明するための説明図であ
る。

【図１１】単語クラスタリングによる単語分布の変化を
示す説明図である。

【図１２】単語クラスタリングによる単語分布の変化を
示す説明図である。

【図１３】入力画像と出力結果の例を示す説明図であ
る。

【図１４】第２実施形態の処理手順を示すフローチャー
トである。

───────────────────────────────────────────────────── フロントページの続き (72)発明者高橋裕信茨城県つくば市竹園１丁目６番１号つくば三井ビル技術研究組合新情報処理開発機構つくば研究センタ内 (72)発明者岡嶐一茨城県つくば市竹園１丁目６番１号つくば三井ビル技術研究組合新情報処理開発機構つくば研究センタ内 (72)発明者森靖英埼玉県比企郡鳩山町赤沼2520番地株式会社日立製作所基礎研究所内 (72)発明者向井理朗大阪府大阪市阿倍野区長池町22番22号シャープ株式会社内Ｆターム(参考） 5B075 ND16 NR12 PQ02 PR06 QM08 QS03

Claims

【特許請求の範囲】

【請求項１】２つの情報ファイルの類似度を予め定め
た評価式に従って計算し、その計算値に基づきクラスタ
リングを行うマルチメディア・クラスタリング装置にお
いて、学習用としての複数の情報ファイルを入力する入
力手段と、当該入力された複数の情報ファイルから前記
評価式を作成する情報処理手段とを具えたことを特徴と
するマルチメディア・クラスタリング装置。
【請求項２】請求項１に記載のマルチメディア・クラ
スタリング装置において、前記評価式は類似する情報フ
ァイルについては評価式の計算値を小さくし、まったく
類似しないものについては評価式の計算値が大きくする
補正用のパラメータを含むことを特徴とするマルチメデ
ィア・クラスタリング装置。
【請求項３】請求項１に記載のマルチメディア・クラ
スタリング装置において、前記情報ファイルは画像であ
ることを特徴とするマルチメディア・クラスタリング装
置。
【請求項４】画像に説明用の文書を付帯させて記憶し
たデータベースを有し、クエリーとして入力した画像に
関する文書を前記データベースから抽出するマルチメデ
ィア・クラスタリング装置において、前記クエリーとして入力した画像に類似する画像の文書
を前記データベースから抽出する抽出手段と、当該抽出された文書の中の類似する文書を検出する類似
文書検出手段と、当該検出された文書のいずれか１つを出力する出力手段
とを具えたことを特徴とするマルチメディア・クラスタ
リング装置。
【請求項５】請求項４に記載のマルチメディア・クラ
スタリング装置において、前記出力手段は、検出された
文書の中の許容範囲以下の距離的に近い部分を出力する
ことを特徴とするマルチメディア・クラスタリング装
置。
【請求項６】請求項４に記載のマルチメディア・クラ
スタリング装置において、前記抽出手段は類似度を予め
定めた評価式に従って計算し、その計算値に基づきクラ
スタリングを行うとともに、前記マルチメディア・クラ
スタリング装置はさらに学習用としての複数の画像ファ
イルを入力する入力手段と、当該入力された複数の情報
ファイルから前記評価式を作成する情報処理手段とを有
することを特徴とするマルチメディア・クラスタリング
装置。
【請求項７】請求項４に記載のマルチメディア・クラ
スタリング装置において、前記検出手段は類似度を予め
定めた評価式に従って計算し、その計算値に基づきクラ
スタリングを行うとともに、前記マルチメディア・クラ
スタリング装置はさらに学習用としての複数の文書ファ
イルを入力する入力手段と、当該入力された複数の文書
ファイルから前記評価式を作成する情報処理手段とを有
することを特徴とするマルチメディア・クラスタリング
装置。
【請求項８】２つの情報ファイルの類似度を予め定め
た評価式に従って計算し、その計算値に基づきクラスタ
リングを行うマルチメディア・クラスタリング方法にお
いて、学習用としての複数の情報ファイルを入力する入力ステ
ップと、当該入力された複数の情報ファイルから前記評価式を作
成する情報処理ステップとを具えたことを特徴とするマ
ルチメディア・クラスタリング方法。
【請求項９】請求項８に記載のマルチメディア・クラ
スタリング方法において、前記評価式は類似する情報フ
ァイルについては評価式の計算値を小さくし、まったく
類似しないものについては評価式の計算値が大きくする
補正用のパラメータを含むことを特徴とするマルチメデ
ィア・クラスタリング方法。
【請求項１０】請求項８に記載のマルチメディア・ク
ラスタリング方法において、前記情報ファイルはジェス
チャー画像であることを特徴とするマルチメディア・ク
ラスタリング方法。
【請求項１１】画像に説明用の文書を付帯させて記憶
したデータベースから、クエリーとして入力した画像に
関連する文書を抽出するマルチメディア・クラスタリン
グ方法において、前記クエリーとして入力した画像に類似する画像を前記
データベースから抽出するステップと、前記クエリーとして入力した画像に類似する画像に関連
する文書を前記データベースから抽出する抽出ステップ
と、当該抽出された文書の中の類似する文書を検出する類似
文書検出ステップと、当該検出された文書のいずれか１つを出力する出力ステ
ップとを具えたことを特徴とするマルチメディア・クラ
スタリング方法。
【請求項１２】請求項８に記載のマルチメディア・ク
ラスタリング方法において、前記出力ステップでは、検
出された文書の中の一致部分を出力することを特徴とす
るマルチメディア・クラスタリング方法。
【請求項１３】請求項８に記載のマルチメディア・ク
ラスタリング方法において、前記抽出ステップでは類似
度を予め定めた評価式に従って計算し、その計算値に基
づきクラスタリングを行うとともに、前記マルチメディ
ア・クラスタリング方法はさらに学習用としての複数の
画像ファイルを入力する入力ステップと、当該入力され
た複数の情報ファイルから前記評価式を作成する情報処
理ステップとを有することを特徴とするマルチメディア
・クラスタリング方法。
【請求項１４】請求項８に記載のマルチメディア・ク
ラスタリング方法において、前記検出ステップでは類似
度を予め定めた評価式に従って計算し、その計算値に基
づきクラスタリングを行うとともに、前記マルチメディ
ア・クラスタリング方法はさらに学習用としての複数の
文書ファイルを入力する入力ステップと、当該入力され
た複数の文書ファイルから前記評価式を作成する情報処
理ステップとを有することを特徴とするマルチメディア
・クラスタリング方法。
【請求項１５】２つの情報ファイルの類似度を予め定
めた評価式に従って計算し、その計算値に基づきクラス
タリングを行うマルチメディア・クラスタリング装置に
より実行されるプログラムを記録した記録媒体におい
て、該プログラムは、学習用としての複数の情報ファイルを入力する入力ステ
ップと、当該入力された複数の情報ファイルから前記評価式を作
成する情報処理ステップとを具えたことを特徴とする記
録媒体。
【請求項１６】画像に説明用の文書を付帯させて記憶
したデータベースを有し、クエリーとして入力した画像
に関連する文書を前記データベースから抽出するマルチ
メディア・クラスタリング装置により実行するプログラ
ムを記録した記録媒体において、前記プログラムは、前記クエリーとして入力した画像に類似する画像を前記
データベースから抽出するステップと、前記クエリーとして入力した画像に類似する画像に関連
する文書を前記データベースから抽出する抽出ステップ
と、当該抽出された文書の中の類似する文書を検出する類似
文書検出ステップと、当該検出された文書のいずれか１つを出力する出力ステ
ップとを具えたことを特徴とする記録媒体。