JP2003030240A

JP2003030240A - データ検索装置、データ検索方法、及びデータ検索プログラム

Info

Publication number: JP2003030240A
Application number: JP2001214354A
Authority: JP
Inventors: Takashi Suenaga; 高志末永; Ei Sakano; 鋭坂野
Original assignee: NTT Data Corp
Current assignee: NTT Data Group Corp
Priority date: 2001-07-13
Filing date: 2001-07-13
Publication date: 2003-01-31

Abstract

(57)【要約】【課題】データベースに保存されているデータの相互
関係がわかりやすい形で検索者に対して提示することが
可能なデータ検索装置を提供する。【解決手段】データベースに保存されている全てのデ
ータのそれぞれから４次元以上の次元数を有する特徴量
を抽出する手段と、データの特徴量に基づいて、データ
ベースに保存されている複数のデータを所定の数のクラ
スタに分ける手段と、クラスタ分けがされたデータに対
して判別分析を使用して各データの特徴量の次元数を３
次元以下にするための射影行列を算出する手段と、入力
されたクエリーから４次元以上の次元数を有する特徴量
を抽出する手段と、データの特徴量及びクエリーの特徴
量に対して射影行列を乗算して次元数が３次元以下とな
る座標値を求め、この座標値をプロットすることによ
り、データベースに保存されている各データとクエリー
の関係を散布図によって表示する手段とを備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、大規模データベー
スにおける検索結果の表示をユーザに理解しやすい形で
提示するデータ検索装置、データ検索方法、及びデータ
検索プログラムに関する。

【０００２】

【従来の技術】従来、データベースからのデータ検索に
おいては入力された質問（クエリー）に対して最も類似
したデータ群が類似性の順番で出力されることが一般的
である。この方法によるデータ検索は、検索者の意図と
異なったデータが大量に出力されることが多いため、検
索者は、さらに絞り込むための質問を入力するか、大量
のデータの中から所望のデータを探し出さなければなら
ず、検索者の負担が大きく効率が悪いという問題があ
る。

【０００３】このような問題を解決するために、データ
ベースに保存されたデータを複数の数値で構成される特
徴ベクトル表現し、保存されているデータの関係を人間
が把握可能な２もしくは３次元の散布図の形で表示する
ことによりデータ同士の関係を空間的に表示する方法が
研究されている。この場合、データを表現するベクトル
の次元数が４以上の場合、散布図に表示するために２も
しくは３次元の座標を求める次元削減技術が要求される
が、従来はこの次元削減のために主成分分析が用いられ
てきた。

【０００４】

【発明が解決しようとする課題】しかしながら、多くの
データベースではデータを表現するために必要な情報が
多いため、データを表現する特徴ベクトルは少なくとも
１００次元、多いときには数千次元のベクトルとなる。
従来の主成分分析を用いた表示では、データ数が１０数
個程度の、すなわちデータが低次元の部分空間に縮重し
ている小規模データベースでは検索のために効果的な散
布図が生成されるが、データ数が数百を超えると、意味
のある表示が得られることはまれで、本来の目的である
効率的な検索を行うことが困難であるという問題があ
る。また、主成分分析を用いたのでは、高次元空間に存
在する数千から数万の特徴ベクトルについて、その全て
の距離関係を保存することを目的として低次元への写像
を行うため、全ての関係が少しずつ損なわれ、結果とし
て低次元に写像されたデータの分布は特徴空間での分布
構造をほとんどもしくはまったく反映しない表示とな
る。すなわち、主成分分析を用いる限り、特に大規模デ
ータベースを対象にした場合には特徴空間での遠近関係
を低次元空間に保存する表示を得ることはできないた
め、結果として検索効率を高くすることはできないとい
う問題がある。

【０００５】本発明は、このような事情に鑑みてなされ
たもので、データベースに保存されているデータの相互
関係がわかりやすい形で検索者に対して提示することが
可能なデータ検索装置、データ検索方法、及びデータ検
索プログラムを提供することを目的とする。

【０００６】

【課題を解決するための手段】請求項１に記載の発明
は、データベースに保存されている複数のデータの中か
ら所望のデータを検索するデータベース検索装置であっ
て、前記データベース検索装置は、前記データベースに
保存されている全てのデータのそれぞれから４次元以上
の次元数を有する特徴量を抽出するデータ特徴抽出手段
と、前記データの特徴量に基づいて、前記データベース
に保存されている複数のデータを所定の数のクラスタに
分けるクラスタリング手段と、前記クラスタリング手段
によってクラスタ分けがされたデータに対して判別分析
を使用して各データの特徴量の次元数を３次元以下にす
るための射影行列を算出する射影行列算出手段と、所望
のデータを検索するために入力されたクエリーから４次
元以上の次元数を有する特徴量を抽出するクエリー特徴
抽出手段と、前記データの特徴量及び前記クエリーの特
徴量に対して前記射影行列を乗算して次元数が３次元以
下となる座標値を求め、この座標値をプロットすること
により、前記データベースに保存されている各データと
クエリーの関係を散布図によって表示する写像計算手段
とを備えたことを特徴とする。

【０００７】請求項２に記載の発明は、前記データ検索
装置は、前記写像計算手段によってプロットされたクエ
リーの特徴量の近傍に位置するデータを選択するデータ
選択手段と、前記データ選択手段によって選択されたデ
ータのそれぞれとクエリーの類似度を４次元以上の特徴
量に基づいて計算して表示する類似度計算手段とをさら
に備えたことを特徴とする。

【０００８】請求項３に記載の発明は、前記類似度計算
手段は、４次元以上の次元数を有する特徴量のユークリ
ッド距離を類似度とすることを特徴とする。

【０００９】請求項４に記載の発明は、データベースに
保存されている複数のデータの中から所望のデータを検
索するデータベース検索方法であって、前記データベー
ス検索方法は、前記データベースに保存されている全て
のデータのそれぞれから４次元以上の次元数を有する特
徴量を抽出するデータ特徴抽出過程と、前記データの特
徴量に基づいて、前記データベースに保存されている複
数のデータを所定の数のクラスタに分けるクラスタリン
グ過程と、前記クラスタリング過程によってクラスタ分
けがされたデータに対して判別分析を使用して各データ
の特徴量の次元数を３次元以下にするための射影行列を
算出する射影行列算出過程と、所望のデータを検索する
ために入力されたクエリーから４次元以上の次元数を有
する特徴量を抽出するクエリー特徴抽出過程と、前記デ
ータの特徴量及び前記クエリーの特徴量に対して前記射
影行列を乗算して次元数が３次元以下となる座標値を求
め、この座標値をプロットすることにより、前記データ
ベースに保存されている各データとクエリーの関係を散
布図によって表示する写像計算過程とを有することを特
徴とする。

【００１０】請求項５に記載の発明は、前記データ検索
方法は、前記写像計算過程によってプロットされたクエ
リーの特徴量の近傍に位置するデータを選択するデータ
選択過程と、前記データ選択過程によって選択されたデ
ータのそれぞれとクエリーの類似度を４次元以上の特徴
量に基づいて計算して表示する類似度計算過程とをさら
に有することを特徴とする。

【００１１】請求項６に記載の発明は、前記類似度計算
過程は、４次元以上の次元数を有する特徴量のユークリ
ッド距離を類似度とすることを特徴とする。

【００１２】請求項７に記載の発明は、データベースに
保存されている複数のデータの中から所望のデータを検
索するデータベース検索プログラムであって、前記デー
タベース検索プログラムは、前記データベースに保存さ
れている全てのデータのそれぞれから４次元以上の次元
数を有する特徴量を抽出するデータ特徴抽出処理と、前
記データの特徴量に基づいて、前記データベースに保存
されている複数のデータを所定の数のクラスタに分ける
クラスタリング処理と、前記クラスタリング処理によっ
てクラスタ分けがされたデータに対して判別分析を使用
して各データの特徴量の次元数を３次元以下にするため
の射影行列を算出する射影行列算出処理と、所望のデー
タを検索するために入力されたクエリーから４次元以上
の次元数を有する特徴量を抽出するクエリー特徴抽出処
理と、前記データの特徴量及び前記クエリーの特徴量に
対して前記射影行列を乗算して次元数が３次元以下とな
る座標値を求め、この座標値をプロットすることによ
り、前記データベースに保存されている各データとクエ
リーの関係を散布図によって表示する写像計算処理とを
コンピュータに行わせることを特徴とする。

【００１３】請求項８に記載の発明は、前記データ検索
プログラムは、前記写像計算処理によってプロットされ
たクエリーの特徴量の近傍に位置するデータを選択する
データ選択処理と、前記データ選択処理によって選択さ
れたデータのそれぞれとクエリーの類似度を４次元以上
の特徴量に基づいて計算して表示する類似度計算処理と
をさらにコンピュータに行わせることを特徴とする。

【００１４】請求項９に記載の発明は、前記類似度計算
処理は、４次元以上の次元数を有する特徴量のユークリ
ッド距離を類似度とすることを特徴とする。

【００１５】

【発明の実施の形態】以下、本発明の一実施形態による
データ検索装置を図面を参照して説明する。図１は同実
施形態の構成を示すブロック図である。この図におい
て、符号１は、検索対象の大規模データベースであり、
ここでは、文書データが保存されているものとする。符
号２は、データベース１に保存されている各データを高
次元数値ベクトルデータに変換することによってデータ
の特徴を抽出するデータ特徴抽出部である。符号３は、
データベース１に保存されている高次元数値ベクトルデ
ータに対してクラスタリングを行うクラスタリング部で
ある。符号４は、クラスタリングされた高次元数値ベク
トルデータに対して判別分析を行う判別分析部である。
符号５は、判別分析によって得られた写像を用いてデー
タを表す高次元ベクトルを低次元に写像する写像計算部
である。符号６は、質問（以下、クエリーという）を入
力するクエリー入力部であり、キーボード等で構成され
る。なお、入力部６は、データファイルを読み込む構成
であってもよい。符号７は、入力部６より入力されたク
エリーの特徴を抽出するクエリー特徴抽出部である。符
号８は、クエリーとデータとの類似度を計算する類似度
計算部である。符号９は、ＣＲＴ、液晶ディスプレイな
どで構成される表示部である。

【００１６】ここで、本発明のデータ検索の原理を図
５、６を参照して、簡単に説明する。本発明は、類似す
るデータの集合を人間が直感的に認識しやすいように、
高次元の数値ベクトルを２次元表現するための次元削減
することが目的である。ここでは、簡単のために３次元
の数値ベクトルを２次元表現することを例にして説明す
る。図５の（ａ）は、各データの特徴ベクトルを点で表
現した図である。この図において、距離が近い点は類似
しているデータであると見なし、ｋ平均法を用いて各デ
ータをクラスタ分けする。そして、図５（ａ）の破線で
示す２次元平面を判別分析によって求め、この２次元平
面に各点を写像すると、図５の（ｃ）に示すような図が
得られる。この２次元平面に対して検索条件に相当する
クエリーをプロットすれば、条件に近いデータの集まり
を直感的に知ることができる。

【００１７】一方、写像をとる２次元平面が適切でない
場合は、図５の（ｂ）のように、類似しているデータの
集まりを認識することが困難である。本発明は、データ
が高次元の数値ベクトルである場合において、次元の特
徴量が極力失われず、かつ類似データの集まりを直感的
に認識することができる２次元平面を効率よく求めるこ
とが目的である。このために、本発明は、図６に示すよ
うに各データをクラスタ分けした後、クラスタ中心の２
次元平面上の写像点と各データの分散値が均等になる２
次元平面を、判別分析方を用いて求めるものである。こ
のようにすることによって、あるクラスタに属するデー
タを近くに集め、かつ異なるクラスタに属するデータを
分離して、データ検索者に対して表示することが可能と
なる。

【００１８】次に、図１に示すデータ検索装置の検索動
作を説明する。ここでは、ヘルプデスクでの問い合わせ
電子メールに対し、過去に類似の問い合わせが無かった
かなどを検索する目的で、データベース１に保存されて
いる文書から類似文書を検索する動作を例にして説明す
る。初めに、データ検索を行う前のオフライン処理につ
いて説明する。まず、データ特徴抽出部２は、データベ
ース１に保存されている文書データを読み出す（ステッ
プＳ１）。そして、読み出した文書データの特徴ベクト
ルｘ_n（ｎ＝１・・・Ｎ）を求める（ステップＳ２）。
この特徴ベクトルｘ_nは、データ検索に必要な複数の単
語のそれぞれの出現頻度のヒストグラムに基づいて求め
られ、データベース１に文書データに関連付けて保存す
る。

【００１９】例えば、予め決められているデータ検索に
必要な単語が、「コンピュータ」、「連携」、「ディス
プレイ」、「キーボード」と定義されており、対象の文
書データが、「コンピュータはコンピュータ自身のみで
はなく周囲の装置と連携することにより動作する」とい
う場合、「コンピュータ」が２個、「連携」が１個、
「ディスプレイ」及び「キーボード」がそれぞれ０個で
あるので、この文書は（２、１、０、０）といった複数
の数値の組み合わせ、すなわちベクトルとして表現さ
れ、文書データと関連付けられて保存される。この処理
は、データベース１に保存されている全ての文書データ
に対して実行され、この時点で、データベース１には、
文書データ毎に特徴ベクトルが関連付けられて保存され
た状態となる。続いて、データ特徴抽出部２は、クラス
タリング部３に対して特徴抽出が終了したことを通知す
る。

【００２０】次に、クラスタリング部３は、データベー
ス１に保存されている文書データをランダムにｋ（ｋは
２以上の自然数）個取り出し、このｋ個の文書データを
仮のクラスタ中心とし（ステップＳ３）、それぞれに１
〜ｋのクラスタ番号を付与する。続いてクラスタリング
部３は、データベース１に保存されている文書データを
順に読み出す。そして、先に取り出したｋ個の文書デー
タの中から、読み出した文書データが最も近い文書デー
タを求め、読み出した文書データに対して最も近い文書
データのクラスタ番号を仮に付与する。ここでいう最も
近いとは、特徴ベクトルのユークリッド距離が最も近い
ことである。この処理を全ての文書データに対して施
す。これによって、全ての文書データに対して、１〜ｋ
のいずれかのクラスタ番号が仮に付与され、文書データ
はｋ個のクラスタに分類されたこととなる。

【００２１】次に、クラスタリング部３は、各クラスタ
に属する文書データの部分集合の平均値を求め、この平
均値を新たなクラスタ中心とする（ステップＳ５）。そ
して、クラスタリング部３は、新たなクラスタ中心が直
前のクラスタ中心と同じになるまでステップＳ４、Ｓ５
の処理を繰り返し（ステップＳ６）、各文書データに対
して仮に付与したクラスタ番号をラベルとして文書デー
タに追加して、データベース１に保存する（ステップＳ
７）。続いてクラスタリング部３は、クラスタリング処
理が終了したことを判別分析部４へ通知する。

【００２２】次に、判別分析部４は、データベース１に
保存されているＮ個の文書データの特徴ベクトルの全平
均ｍを計算する（ステップＳ８）。続いて、判別分析部
４は、各クラスタ１〜ｋの平均ｍ_iを計算する（ステッ
プＳ９）。そして、判別分析部４は、クラスタ内分散行
列Ｓ_W及びクラスタ間分散行列Ｓ_Bを計算する（ステップ
Ｓ１０、Ｓ１１）。そして、判別分析部４は、Ｓ_W ^-1Ｓ_B
の固有値問題を解く（ステップＳ１２）。すなわち、各
クラスタの距離が遠くなり、かつクラスタ内の各データ
の距離が近くなる解を求める。

【００２３】次に、判別分析部４は、ステップＳ１２に
おいて得られた固有値を大きい順に並び替え（ステップ
Ｓ１３）、１番目及び２番目の固有値に対応する固有ベ
クトルＷを取り出す（ステップＳ１４）。そして、デー
タベース１に保存されている全ての文書データに対して
行列演算することにより座標ｙ_nを計算して（ステップ
Ｓ１５）、その結果をデータベース１に保存する。この
ように、ステップＳ１〜Ｓ１５のオフライン処理によっ
て、データベース１に保存されている文書データがｋ個
のクラスタに分けられ、かつ高次元のベクトルデータが
２次元表現可能なデータである座標ｙ_nに変換されたこ
ととなり、この座標ｙ_nをプロットすれば散布図が得ら
れる。なお、図２に示すステップＳ１〜Ｓ１５のオフラ
イン処理は、データベース１に新たに文書データが保存
されるのに合わせて、定期的に実行される。

【００２４】次に、前述したオフライン処理が施された
文書データから所望のデータを検索する動作を説明す
る。まず、オペレータはヘルプデスクにメールが届く
と、このメールをクエリーとして入力する（ステップＳ
２１）。入力部６は、このメールの内容を読み取り、そ
の内容をクエリー特徴抽出部７へ出力する。これを受け
て、クエリー特徴抽出部７はメールの内容を単語に分割
し、その単語の出現頻度によって数値化し、特徴ベクト
ルｕを求め（ステップＳ２２）、この特徴ベクトルｕを
写像計算部５へ出力する。

【００２５】次に、写像計算部５は、前述したステップ
Ｓ１４において求めた射影行列（固有ベクトル）Ｗを用
いてクエリーの座標ｖを計算する（ステップＳ２３）。
そして、写像計算部５は、求めた座標ｖを表示部９へ表
示する。また、写像計算部５は、データベース１に保存
されている散布図のデータ（ステップＳ１５において求
めた座標ｙ_n）を読み出して、クエリーの座標ｖを表示
した画面に重ね合わせて表示する（ステップＳ２４）。
この画面を見て、オペレータは、クエリーに近いデータ
を検索対象として入力部６によって選択する。この時点
で表示部９に表示される散布図の一例を図４に示す。図
４は、予め定義された単語が２０００語、データベース
に保存された文書データが５００個、ｋの値が６である
場合の処理実行例である。図４において、黒点が座標ｙ
_nに基づいてプロットされた各データを表し、符号Ｑは
座標ｖに基づいてプロットされたクエリーを表してい
る。また、符号Ａは、オペレータが選択したエリアを示
している。

【００２６】写像計算部５は、このエリア内に存在する
データが、クエリーに類似したデータであると見なし、
このエリア内に存在するデータを類似度計算部８へ通知
する。これを受けて、類似度計算部８は、写像計算部５
から通知されたデータのみを検索対象として、類似度の
計算を行い、その結果を表示部９へ表示する。ここでい
う類似度とは、ステップＳ２において求めた高次元の特
徴ベクトルのユークリッド距離の近い順に類似度が高い
と見なしたものである。この類似度が高い文書データを
選択すれば、クエリーのメールの内容に近い文書データ
を探し出すことができる。

【００２７】このように、データベース１に保存されて
いるデータとクエリーの関係を散布図によって表現する
ようにしたため、検索者はクエリーの近傍に位置するデ
ータに注目することによって検索の効率を向上させるこ
とが可能となる。これはパターン認識辞書の設計補助
や、文字認識、音声認識にも応用可能であり、さらに
は、ＣＲＭ（Customer Relationship Management）など
で用いられるデータマイニング技術への応用も可能であ
る。

【００２８】なお、前述した説明においては、クラスタ
リングを行う方法として、ｋ平均法を例にして説明した
が、Ｗｏｒｄ法などのクラスタリング手法を用いること
も可能である。また、図４においては、データの関係を
２次元表現するようにしたが、データの関係を３次元表
現によって表現するようにしてもよい。このとき、ステ
ップＳ１４において、１〜３番目の固有値に対する固有
ベクトルＷ＝（ｗ₁ｗ₂ｗ₃）を取り出すようにすればよ
い。

【００２９】なお、図２、３に示す各処理の機能を実現
するためのプログラムをコンピュータ読み取り可能な記
録媒体に記録して、この記録媒体に記録されたプログラ
ムをコンピュータシステムに読み込ませ、実行すること
によりデータ検索処理を行ってもよい。なお、ここでい
う「コンピュータシステム」とは、ＯＳや周辺機器等の
ハードウェアを含むものとする。また、「コンピュータ
システム」は、ＷＷＷシステムを利用している場合であ
れば、ホームページ提供環境（あるいは表示環境）も含
むものとする。また、「コンピュータ読み取り可能な記
録媒体」とは、フレキシブルディスク、光磁気ディス
ク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータ
システムに内蔵されるハードディスク等の記憶装置のこ
とをいう。さらに「コンピュータ読み取り可能な記録媒
体」とは、インターネット等のネットワークや電話回線
等の通信回線を介してプログラムが送信された場合のサ
ーバやクライアントとなるコンピュータシステム内部の
揮発性メモリ（ＲＡＭ）のように、一定時間プログラム
を保持しているものも含むものとする。

【００３０】また、上記プログラムは、このプログラム
を記憶装置等に格納したコンピュータシステムから、伝
送媒体を介して、あるいは、伝送媒体中の伝送波により
他のコンピュータシステムに伝送されてもよい。ここ
で、プログラムを伝送する「伝送媒体」は、インターネ
ット等のネットワーク（通信網）や電話回線等の通信回
線（通信線）のように情報を伝送する機能を有する媒体
のことをいう。また、上記プログラムは、前述した機能
の一部を実現するためのものであっても良い。さらに、
前述した機能をコンピュータシステムにすでに記録され
ているプログラムとの組み合わせで実現できるもの、い
わゆる差分ファイル（差分プログラム）であっても良
い。

【００３１】

【発明の効果】以上説明したように、この発明によれ
ば、高次元ベクトルとして表現されたデータの空間的関
係を保存したまま人間に理解可能な低次元空間に写像す
ることが可能になるため、データベースの検索効率が向
上するという効果が得られる。

【図面の簡単な説明】

【図１】本発明の一実施形態の構成を示すブロック図
である。

【図２】図１に示すデータ検索装置の動作を示すフロ
ーチャートである。

【図３】図１に示すデータ検索装置の動作を示すフロ
ーチャートである。

【図４】表示部９に表示される画面の一例を示す説明
図である。

【図５】本発明によるデータ検索原理を説明するため
の説明図である。

【図６】本発明によるデータ検索原理を説明するため
の説明図である。

【符号の説明】

１・・・データベース、２・・・データ特徴抽出
部、３・・・クラスタリング部、４・・・判別分析
部、５・・・写像計算部、６・・・入力部、７
・・・クエリー特徴抽出部、８・・・類似度計算部、９
・・・表示部。

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5B075 NK06 NR12 PQ02 PQ14 PR06 QM08 QR02 5B082 GA08

Claims

【特許請求の範囲】

【請求項１】データベースに保存されている複数のデ
ータの中から所望のデータを検索するデータベース検索
装置であって、前記データベース検索装置は、前記データベースに保存されている全てのデータのそれ
ぞれから４次元以上の次元数を有する特徴量を抽出する
データ特徴抽出手段と、前記データの特徴量に基づいて、前記データベースに保
存されている複数のデータを所定の数のクラスタに分け
るクラスタリング手段と、前記クラスタリング手段によってクラスタ分けがされた
データに対して判別分析を使用して各データの特徴量の
次元数を３次元以下にするための射影行列を算出する射
影行列算出手段と、所望のデータを検索するために入力されたクエリーから
４次元以上の次元数を有する特徴量を抽出するクエリー
特徴抽出手段と、前記データの特徴量及び前記クエリーの特徴量に対して
前記射影行列を乗算して次元数が３次元以下となる座標
値を求め、この座標値をプロットすることにより、前記
データベースに保存されている各データとクエリーの関
係を散布図によって表示する写像計算手段と、を備えたことを特徴とするデータ検索装置。
【請求項２】前記データ検索装置は、前記写像計算手段によってプロットされたクエリーの特
徴量の近傍に位置するデータを選択するデータ選択手段
と、前記データ選択手段によって選択されたデータのそれぞ
れとクエリーの類似度を４次元以上の特徴量に基づいて
計算して表示する類似度計算手段と、をさらに備えたことを特徴とする請求項１に記載のデー
タ検索装置。
【請求項３】前記類似度計算手段は、４次元以上の次元数を有する特徴量のユークリッド距離
を類似度とすることを特徴とする請求項２に記載のデー
タ検索装置。
【請求項４】データベースに保存されている複数のデ
ータの中から所望のデータを検索するデータベース検索
方法であって、前記データベース検索方法は、前記データベースに保存されている全てのデータのそれ
ぞれから４次元以上の次元数を有する特徴量を抽出する
データ特徴抽出過程と、前記データの特徴量に基づいて、前記データベースに保
存されている複数のデータを所定の数のクラスタに分け
るクラスタリング過程と、前記クラスタリング過程によってクラスタ分けがされた
データに対して判別分析を使用して各データの特徴量の
次元数を３次元以下にするための射影行列を算出する射
影行列算出過程と、所望のデータを検索するために入力されたクエリーから
４次元以上の次元数を有する特徴量を抽出するクエリー
特徴抽出過程と、前記データの特徴量及び前記クエリーの特徴量に対して
前記射影行列を乗算して次元数が３次元以下となる座標
値を求め、この座標値をプロットすることにより、前記
データベースに保存されている各データとクエリーの関
係を散布図によって表示する写像計算過程と、を有することを特徴とするデータ検索方法。
【請求項５】前記データ検索方法は、前記写像計算過程によってプロットされたクエリーの特
徴量の近傍に位置するデータを選択するデータ選択過程
と、前記データ選択過程によって選択されたデータのそれぞ
れとクエリーの類似度を４次元以上の特徴量に基づいて
計算して表示する類似度計算過程と、をさらに有することを特徴とする請求項４に記載のデー
タ検索方法。
【請求項６】前記類似度計算過程は、４次元以上の次元数を有する特徴量のユークリッド距離
を類似度とすることを特徴とする請求項５に記載のデー
タ検索方法。
【請求項７】データベースに保存されている複数のデ
ータの中から所望のデータを検索するデータベース検索
プログラムであって、前記データベース検索プログラムは、前記データベースに保存されている全てのデータのそれ
ぞれから４次元以上の次元数を有する特徴量を抽出する
データ特徴抽出処理と、前記データの特徴量に基づいて、前記データベースに保
存されている複数のデータを所定の数のクラスタに分け
るクラスタリング処理と、前記クラスタリング処理によってクラスタ分けがされた
データに対して判別分析を使用して各データの特徴量の
次元数を３次元以下にするための射影行列を算出する射
影行列算出処理と、所望のデータを検索するために入力されたクエリーから
４次元以上の次元数を有する特徴量を抽出するクエリー
特徴抽出処理と、前記データの特徴量及び前記クエリーの特徴量に対して
前記射影行列を乗算して次元数が３次元以下となる座標
値を求め、この座標値をプロットすることにより、前記
データベースに保存されている各データとクエリーの関
係を散布図によって表示する写像計算処理と、をコンピュータに行わせることを特徴とするデータ検索
プログラム。
【請求項８】前記データ検索プログラムは、前記写像計算処理によってプロットされたクエリーの特
徴量の近傍に位置するデータを選択するデータ選択処理
と、前記データ選択処理によって選択されたデータのそれぞ
れとクエリーの類似度を４次元以上の特徴量に基づいて
計算して表示する類似度計算処理と、をさらにコンピュータに行わせることを特徴とする請求
項７に記載のデータ検索プログラム。
【請求項９】前記類似度計算処理は、４次元以上の次元数を有する特徴量のユークリッド距離
を類似度とすることを特徴とする請求項８に記載のデー
タ検索プログラム。