JP2003030240A - データ検索装置、データ検索方法、及びデータ検索プログラム - Google Patents

データ検索装置、データ検索方法、及びデータ検索プログラム

Info

Publication number
JP2003030240A
JP2003030240A JP2001214354A JP2001214354A JP2003030240A JP 2003030240 A JP2003030240 A JP 2003030240A JP 2001214354 A JP2001214354 A JP 2001214354A JP 2001214354 A JP2001214354 A JP 2001214354A JP 2003030240 A JP2003030240 A JP 2003030240A
Authority
JP
Japan
Prior art keywords
data
database
query
feature
dimensions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001214354A
Other languages
English (en)
Inventor
Takashi Suenaga
高志 末永
Ei Sakano
鋭 坂野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2001214354A priority Critical patent/JP2003030240A/ja
Publication of JP2003030240A publication Critical patent/JP2003030240A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 データベースに保存されているデータの相互
関係がわかりやすい形で検索者に対して提示することが
可能なデータ検索装置を提供する。 【解決手段】 データベースに保存されている全てのデ
ータのそれぞれから4次元以上の次元数を有する特徴量
を抽出する手段と、データの特徴量に基づいて、データ
ベースに保存されている複数のデータを所定の数のクラ
スタに分ける手段と、クラスタ分けがされたデータに対
して判別分析を使用して各データの特徴量の次元数を3
次元以下にするための射影行列を算出する手段と、入力
されたクエリーから4次元以上の次元数を有する特徴量
を抽出する手段と、データの特徴量及びクエリーの特徴
量に対して射影行列を乗算して次元数が3次元以下とな
る座標値を求め、この座標値をプロットすることによ
り、データベースに保存されている各データとクエリー
の関係を散布図によって表示する手段とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、大規模データベー
スにおける検索結果の表示をユーザに理解しやすい形で
提示するデータ検索装置、データ検索方法、及びデータ
検索プログラムに関する。
【0002】
【従来の技術】従来、データベースからのデータ検索に
おいては入力された質問(クエリー)に対して最も類似
したデータ群が類似性の順番で出力されることが一般的
である。この方法によるデータ検索は、検索者の意図と
異なったデータが大量に出力されることが多いため、検
索者は、さらに絞り込むための質問を入力するか、大量
のデータの中から所望のデータを探し出さなければなら
ず、検索者の負担が大きく効率が悪いという問題があ
る。
【0003】このような問題を解決するために、データ
ベースに保存されたデータを複数の数値で構成される特
徴ベクトル表現し、保存されているデータの関係を人間
が把握可能な2もしくは3次元の散布図の形で表示する
ことによりデータ同士の関係を空間的に表示する方法が
研究されている。この場合、データを表現するベクトル
の次元数が4以上の場合、散布図に表示するために2も
しくは3次元の座標を求める次元削減技術が要求される
が、従来はこの次元削減のために主成分分析が用いられ
てきた。
【0004】
【発明が解決しようとする課題】しかしながら、多くの
データベースではデータを表現するために必要な情報が
多いため、データを表現する特徴ベクトルは少なくとも
100次元、多いときには数千次元のベクトルとなる。
従来の主成分分析を用いた表示では、データ数が10数
個程度の、すなわちデータが低次元の部分空間に縮重し
ている小規模データベースでは検索のために効果的な散
布図が生成されるが、データ数が数百を超えると、意味
のある表示が得られることはまれで、本来の目的である
効率的な検索を行うことが困難であるという問題があ
る。また、主成分分析を用いたのでは、高次元空間に存
在する数千から数万の特徴ベクトルについて、その全て
の距離関係を保存することを目的として低次元への写像
を行うため、全ての関係が少しずつ損なわれ、結果とし
て低次元に写像されたデータの分布は特徴空間での分布
構造をほとんどもしくはまったく反映しない表示とな
る。すなわち、主成分分析を用いる限り、特に大規模デ
ータベースを対象にした場合には特徴空間での遠近関係
を低次元空間に保存する表示を得ることはできないた
め、結果として検索効率を高くすることはできないとい
う問題がある。
【0005】本発明は、このような事情に鑑みてなされ
たもので、データベースに保存されているデータの相互
関係がわかりやすい形で検索者に対して提示することが
可能なデータ検索装置、データ検索方法、及びデータ検
索プログラムを提供することを目的とする。
【0006】
【課題を解決するための手段】請求項1に記載の発明
は、データベースに保存されている複数のデータの中か
ら所望のデータを検索するデータベース検索装置であっ
て、前記データベース検索装置は、前記データベースに
保存されている全てのデータのそれぞれから4次元以上
の次元数を有する特徴量を抽出するデータ特徴抽出手段
と、前記データの特徴量に基づいて、前記データベース
に保存されている複数のデータを所定の数のクラスタに
分けるクラスタリング手段と、前記クラスタリング手段
によってクラスタ分けがされたデータに対して判別分析
を使用して各データの特徴量の次元数を3次元以下にす
るための射影行列を算出する射影行列算出手段と、所望
のデータを検索するために入力されたクエリーから4次
元以上の次元数を有する特徴量を抽出するクエリー特徴
抽出手段と、前記データの特徴量及び前記クエリーの特
徴量に対して前記射影行列を乗算して次元数が3次元以
下となる座標値を求め、この座標値をプロットすること
により、前記データベースに保存されている各データと
クエリーの関係を散布図によって表示する写像計算手段
とを備えたことを特徴とする。
【0007】請求項2に記載の発明は、前記データ検索
装置は、前記写像計算手段によってプロットされたクエ
リーの特徴量の近傍に位置するデータを選択するデータ
選択手段と、前記データ選択手段によって選択されたデ
ータのそれぞれとクエリーの類似度を4次元以上の特徴
量に基づいて計算して表示する類似度計算手段とをさら
に備えたことを特徴とする。
【0008】請求項3に記載の発明は、前記類似度計算
手段は、4次元以上の次元数を有する特徴量のユークリ
ッド距離を類似度とすることを特徴とする。
【0009】請求項4に記載の発明は、データベースに
保存されている複数のデータの中から所望のデータを検
索するデータベース検索方法であって、前記データベー
ス検索方法は、前記データベースに保存されている全て
のデータのそれぞれから4次元以上の次元数を有する特
徴量を抽出するデータ特徴抽出過程と、前記データの特
徴量に基づいて、前記データベースに保存されている複
数のデータを所定の数のクラスタに分けるクラスタリン
グ過程と、前記クラスタリング過程によってクラスタ分
けがされたデータに対して判別分析を使用して各データ
の特徴量の次元数を3次元以下にするための射影行列を
算出する射影行列算出過程と、所望のデータを検索する
ために入力されたクエリーから4次元以上の次元数を有
する特徴量を抽出するクエリー特徴抽出過程と、前記デ
ータの特徴量及び前記クエリーの特徴量に対して前記射
影行列を乗算して次元数が3次元以下となる座標値を求
め、この座標値をプロットすることにより、前記データ
ベースに保存されている各データとクエリーの関係を散
布図によって表示する写像計算過程とを有することを特
徴とする。
【0010】請求項5に記載の発明は、前記データ検索
方法は、前記写像計算過程によってプロットされたクエ
リーの特徴量の近傍に位置するデータを選択するデータ
選択過程と、前記データ選択過程によって選択されたデ
ータのそれぞれとクエリーの類似度を4次元以上の特徴
量に基づいて計算して表示する類似度計算過程とをさら
に有することを特徴とする。
【0011】請求項6に記載の発明は、前記類似度計算
過程は、4次元以上の次元数を有する特徴量のユークリ
ッド距離を類似度とすることを特徴とする。
【0012】請求項7に記載の発明は、データベースに
保存されている複数のデータの中から所望のデータを検
索するデータベース検索プログラムであって、前記デー
タベース検索プログラムは、前記データベースに保存さ
れている全てのデータのそれぞれから4次元以上の次元
数を有する特徴量を抽出するデータ特徴抽出処理と、前
記データの特徴量に基づいて、前記データベースに保存
されている複数のデータを所定の数のクラスタに分ける
クラスタリング処理と、前記クラスタリング処理によっ
てクラスタ分けがされたデータに対して判別分析を使用
して各データの特徴量の次元数を3次元以下にするため
の射影行列を算出する射影行列算出処理と、所望のデー
タを検索するために入力されたクエリーから4次元以上
の次元数を有する特徴量を抽出するクエリー特徴抽出処
理と、前記データの特徴量及び前記クエリーの特徴量に
対して前記射影行列を乗算して次元数が3次元以下とな
る座標値を求め、この座標値をプロットすることによ
り、前記データベースに保存されている各データとクエ
リーの関係を散布図によって表示する写像計算処理とを
コンピュータに行わせることを特徴とする。
【0013】請求項8に記載の発明は、前記データ検索
プログラムは、前記写像計算処理によってプロットされ
たクエリーの特徴量の近傍に位置するデータを選択する
データ選択処理と、前記データ選択処理によって選択さ
れたデータのそれぞれとクエリーの類似度を4次元以上
の特徴量に基づいて計算して表示する類似度計算処理と
をさらにコンピュータに行わせることを特徴とする。
【0014】請求項9に記載の発明は、前記類似度計算
処理は、4次元以上の次元数を有する特徴量のユークリ
ッド距離を類似度とすることを特徴とする。
【0015】
【発明の実施の形態】以下、本発明の一実施形態による
データ検索装置を図面を参照して説明する。図1は同実
施形態の構成を示すブロック図である。この図におい
て、符号1は、検索対象の大規模データベースであり、
ここでは、文書データが保存されているものとする。符
号2は、データベース1に保存されている各データを高
次元数値ベクトルデータに変換することによってデータ
の特徴を抽出するデータ特徴抽出部である。符号3は、
データベース1に保存されている高次元数値ベクトルデ
ータに対してクラスタリングを行うクラスタリング部で
ある。符号4は、クラスタリングされた高次元数値ベク
トルデータに対して判別分析を行う判別分析部である。
符号5は、判別分析によって得られた写像を用いてデー
タを表す高次元ベクトルを低次元に写像する写像計算部
である。符号6は、質問(以下、クエリーという)を入
力するクエリー入力部であり、キーボード等で構成され
る。なお、入力部6は、データファイルを読み込む構成
であってもよい。符号7は、入力部6より入力されたク
エリーの特徴を抽出するクエリー特徴抽出部である。符
号8は、クエリーとデータとの類似度を計算する類似度
計算部である。符号9は、CRT、液晶ディスプレイな
どで構成される表示部である。
【0016】ここで、本発明のデータ検索の原理を図
5、6を参照して、簡単に説明する。本発明は、類似す
るデータの集合を人間が直感的に認識しやすいように、
高次元の数値ベクトルを2次元表現するための次元削減
することが目的である。ここでは、簡単のために3次元
の数値ベクトルを2次元表現することを例にして説明す
る。図5の(a)は、各データの特徴ベクトルを点で表
現した図である。この図において、距離が近い点は類似
しているデータであると見なし、k平均法を用いて各デ
ータをクラスタ分けする。そして、図5(a)の破線で
示す2次元平面を判別分析によって求め、この2次元平
面に各点を写像すると、図5の(c)に示すような図が
得られる。この2次元平面に対して検索条件に相当する
クエリーをプロットすれば、条件に近いデータの集まり
を直感的に知ることができる。
【0017】一方、写像をとる2次元平面が適切でない
場合は、図5の(b)のように、類似しているデータの
集まりを認識することが困難である。本発明は、データ
が高次元の数値ベクトルである場合において、次元の特
徴量が極力失われず、かつ類似データの集まりを直感的
に認識することができる2次元平面を効率よく求めるこ
とが目的である。このために、本発明は、図6に示すよ
うに各データをクラスタ分けした後、クラスタ中心の2
次元平面上の写像点と各データの分散値が均等になる2
次元平面を、判別分析方を用いて求めるものである。こ
のようにすることによって、あるクラスタに属するデー
タを近くに集め、かつ異なるクラスタに属するデータを
分離して、データ検索者に対して表示することが可能と
なる。
【0018】次に、図1に示すデータ検索装置の検索動
作を説明する。ここでは、ヘルプデスクでの問い合わせ
電子メールに対し、過去に類似の問い合わせが無かった
かなどを検索する目的で、データベース1に保存されて
いる文書から類似文書を検索する動作を例にして説明す
る。初めに、データ検索を行う前のオフライン処理につ
いて説明する。まず、データ特徴抽出部2は、データベ
ース1に保存されている文書データを読み出す(ステッ
プS1)。そして、読み出した文書データの特徴ベクト
ルxn(n=1・・・N)を求める(ステップS2)。
この特徴ベクトルxnは、データ検索に必要な複数の単
語のそれぞれの出現頻度のヒストグラムに基づいて求め
られ、データベース1に文書データに関連付けて保存す
る。
【0019】例えば、予め決められているデータ検索に
必要な単語が、「コンピュータ」、「連携」、「ディス
プレイ」、「キーボード」と定義されており、対象の文
書データが、「コンピュータはコンピュータ自身のみで
はなく周囲の装置と連携することにより動作する」とい
う場合、「コンピュータ」が2個、「連携」が1個、
「ディスプレイ」及び「キーボード」がそれぞれ0個で
あるので、この文書は(2、1、0、0)といった複数
の数値の組み合わせ、すなわちベクトルとして表現さ
れ、文書データと関連付けられて保存される。この処理
は、データベース1に保存されている全ての文書データ
に対して実行され、この時点で、データベース1には、
文書データ毎に特徴ベクトルが関連付けられて保存され
た状態となる。続いて、データ特徴抽出部2は、クラス
タリング部3に対して特徴抽出が終了したことを通知す
る。
【0020】次に、クラスタリング部3は、データベー
ス1に保存されている文書データをランダムにk(kは
2以上の自然数)個取り出し、このk個の文書データを
仮のクラスタ中心とし(ステップS3)、それぞれに1
〜kのクラスタ番号を付与する。続いてクラスタリング
部3は、データベース1に保存されている文書データを
順に読み出す。そして、先に取り出したk個の文書デー
タの中から、読み出した文書データが最も近い文書デー
タを求め、読み出した文書データに対して最も近い文書
データのクラスタ番号を仮に付与する。ここでいう最も
近いとは、特徴ベクトルのユークリッド距離が最も近い
ことである。この処理を全ての文書データに対して施
す。これによって、全ての文書データに対して、1〜k
のいずれかのクラスタ番号が仮に付与され、文書データ
はk個のクラスタに分類されたこととなる。
【0021】次に、クラスタリング部3は、各クラスタ
に属する文書データの部分集合の平均値を求め、この平
均値を新たなクラスタ中心とする(ステップS5)。そ
して、クラスタリング部3は、新たなクラスタ中心が直
前のクラスタ中心と同じになるまでステップS4、S5
の処理を繰り返し(ステップS6)、各文書データに対
して仮に付与したクラスタ番号をラベルとして文書デー
タに追加して、データベース1に保存する(ステップS
7)。続いてクラスタリング部3は、クラスタリング処
理が終了したことを判別分析部4へ通知する。
【0022】次に、判別分析部4は、データベース1に
保存されているN個の文書データの特徴ベクトルの全平
均mを計算する(ステップS8)。続いて、判別分析部
4は、各クラスタ1〜kの平均miを計算する(ステッ
プS9)。そして、判別分析部4は、クラスタ内分散行
列SW及びクラスタ間分散行列SBを計算する(ステップ
S10、S11)。そして、判別分析部4は、SW -1B
の固有値問題を解く(ステップS12)。すなわち、各
クラスタの距離が遠くなり、かつクラスタ内の各データ
の距離が近くなる解を求める。
【0023】次に、判別分析部4は、ステップS12に
おいて得られた固有値を大きい順に並び替え(ステップ
S13)、1番目及び2番目の固有値に対応する固有ベ
クトルWを取り出す(ステップS14)。そして、デー
タベース1に保存されている全ての文書データに対して
行列演算することにより座標ynを計算して(ステップ
S15)、その結果をデータベース1に保存する。この
ように、ステップS1〜S15のオフライン処理によっ
て、データベース1に保存されている文書データがk個
のクラスタに分けられ、かつ高次元のベクトルデータが
2次元表現可能なデータである座標ynに変換されたこ
ととなり、この座標ynをプロットすれば散布図が得ら
れる。なお、図2に示すステップS1〜S15のオフラ
イン処理は、データベース1に新たに文書データが保存
されるのに合わせて、定期的に実行される。
【0024】次に、前述したオフライン処理が施された
文書データから所望のデータを検索する動作を説明す
る。まず、オペレータはヘルプデスクにメールが届く
と、このメールをクエリーとして入力する(ステップS
21)。入力部6は、このメールの内容を読み取り、そ
の内容をクエリー特徴抽出部7へ出力する。これを受け
て、クエリー特徴抽出部7はメールの内容を単語に分割
し、その単語の出現頻度によって数値化し、特徴ベクト
ルuを求め(ステップS22)、この特徴ベクトルuを
写像計算部5へ出力する。
【0025】次に、写像計算部5は、前述したステップ
S14において求めた射影行列(固有ベクトル)Wを用
いてクエリーの座標vを計算する(ステップS23)。
そして、写像計算部5は、求めた座標vを表示部9へ表
示する。また、写像計算部5は、データベース1に保存
されている散布図のデータ(ステップS15において求
めた座標yn)を読み出して、クエリーの座標vを表示
した画面に重ね合わせて表示する(ステップS24)。
この画面を見て、オペレータは、クエリーに近いデータ
を検索対象として入力部6によって選択する。この時点
で表示部9に表示される散布図の一例を図4に示す。図
4は、予め定義された単語が2000語、データベース
に保存された文書データが500個、kの値が6である
場合の処理実行例である。図4において、黒点が座標y
nに基づいてプロットされた各データを表し、符号Qは
座標vに基づいてプロットされたクエリーを表してい
る。また、符号Aは、オペレータが選択したエリアを示
している。
【0026】写像計算部5は、このエリア内に存在する
データが、クエリーに類似したデータであると見なし、
このエリア内に存在するデータを類似度計算部8へ通知
する。これを受けて、類似度計算部8は、写像計算部5
から通知されたデータのみを検索対象として、類似度の
計算を行い、その結果を表示部9へ表示する。ここでい
う類似度とは、ステップS2において求めた高次元の特
徴ベクトルのユークリッド距離の近い順に類似度が高い
と見なしたものである。この類似度が高い文書データを
選択すれば、クエリーのメールの内容に近い文書データ
を探し出すことができる。
【0027】このように、データベース1に保存されて
いるデータとクエリーの関係を散布図によって表現する
ようにしたため、検索者はクエリーの近傍に位置するデ
ータに注目することによって検索の効率を向上させるこ
とが可能となる。これはパターン認識辞書の設計補助
や、文字認識、音声認識にも応用可能であり、さらに
は、CRM(Customer Relationship Management)など
で用いられるデータマイニング技術への応用も可能であ
る。
【0028】なお、前述した説明においては、クラスタ
リングを行う方法として、k平均法を例にして説明した
が、Word法などのクラスタリング手法を用いること
も可能である。また、図4においては、データの関係を
2次元表現するようにしたが、データの関係を3次元表
現によって表現するようにしてもよい。このとき、ステ
ップS14において、1〜3番目の固有値に対する固有
ベクトルW=(w123)を取り出すようにすればよ
い。
【0029】なお、図2、3に示す各処理の機能を実現
するためのプログラムをコンピュータ読み取り可能な記
録媒体に記録して、この記録媒体に記録されたプログラ
ムをコンピュータシステムに読み込ませ、実行すること
によりデータ検索処理を行ってもよい。なお、ここでい
う「コンピュータシステム」とは、OSや周辺機器等の
ハードウェアを含むものとする。また、「コンピュータ
システム」は、WWWシステムを利用している場合であ
れば、ホームページ提供環境(あるいは表示環境)も含
むものとする。また、「コンピュータ読み取り可能な記
録媒体」とは、フレキシブルディスク、光磁気ディス
ク、ROM、CD−ROM等の可搬媒体、コンピュータ
システムに内蔵されるハードディスク等の記憶装置のこ
とをいう。さらに「コンピュータ読み取り可能な記録媒
体」とは、インターネット等のネットワークや電話回線
等の通信回線を介してプログラムが送信された場合のサ
ーバやクライアントとなるコンピュータシステム内部の
揮発性メモリ(RAM)のように、一定時間プログラム
を保持しているものも含むものとする。
【0030】また、上記プログラムは、このプログラム
を記憶装置等に格納したコンピュータシステムから、伝
送媒体を介して、あるいは、伝送媒体中の伝送波により
他のコンピュータシステムに伝送されてもよい。ここ
で、プログラムを伝送する「伝送媒体」は、インターネ
ット等のネットワーク(通信網)や電話回線等の通信回
線(通信線)のように情報を伝送する機能を有する媒体
のことをいう。また、上記プログラムは、前述した機能
の一部を実現するためのものであっても良い。さらに、
前述した機能をコンピュータシステムにすでに記録され
ているプログラムとの組み合わせで実現できるもの、い
わゆる差分ファイル(差分プログラム)であっても良
い。
【0031】
【発明の効果】以上説明したように、この発明によれ
ば、高次元ベクトルとして表現されたデータの空間的関
係を保存したまま人間に理解可能な低次元空間に写像す
ることが可能になるため、データベースの検索効率が向
上するという効果が得られる。
【図面の簡単な説明】
【図1】 本発明の一実施形態の構成を示すブロック図
である。
【図2】 図1に示すデータ検索装置の動作を示すフロ
ーチャートである。
【図3】 図1に示すデータ検索装置の動作を示すフロ
ーチャートである。
【図4】 表示部9に表示される画面の一例を示す説明
図である。
【図5】 本発明によるデータ検索原理を説明するため
の説明図である。
【図6】 本発明によるデータ検索原理を説明するため
の説明図である。
【符号の説明】
1・・・データベース、 2・・・データ特徴抽出
部、3・・・クラスタリング部、 4・・・判別分析
部、5・・・写像計算部、 6・・・入力部、7
・・・クエリー特徴抽出部、8・・・類似度計算部、9
・・・表示部。
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B075 NK06 NR12 PQ02 PQ14 PR06 QM08 QR02 5B082 GA08

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 データベースに保存されている複数のデ
    ータの中から所望のデータを検索するデータベース検索
    装置であって、 前記データベース検索装置は、 前記データベースに保存されている全てのデータのそれ
    ぞれから4次元以上の次元数を有する特徴量を抽出する
    データ特徴抽出手段と、 前記データの特徴量に基づいて、前記データベースに保
    存されている複数のデータを所定の数のクラスタに分け
    るクラスタリング手段と、 前記クラスタリング手段によってクラスタ分けがされた
    データに対して判別分析を使用して各データの特徴量の
    次元数を3次元以下にするための射影行列を算出する射
    影行列算出手段と、 所望のデータを検索するために入力されたクエリーから
    4次元以上の次元数を有する特徴量を抽出するクエリー
    特徴抽出手段と、 前記データの特徴量及び前記クエリーの特徴量に対して
    前記射影行列を乗算して次元数が3次元以下となる座標
    値を求め、この座標値をプロットすることにより、前記
    データベースに保存されている各データとクエリーの関
    係を散布図によって表示する写像計算手段と、 を備えたことを特徴とするデータ検索装置。
  2. 【請求項2】 前記データ検索装置は、 前記写像計算手段によってプロットされたクエリーの特
    徴量の近傍に位置するデータを選択するデータ選択手段
    と、 前記データ選択手段によって選択されたデータのそれぞ
    れとクエリーの類似度を4次元以上の特徴量に基づいて
    計算して表示する類似度計算手段と、 をさらに備えたことを特徴とする請求項1に記載のデー
    タ検索装置。
  3. 【請求項3】 前記類似度計算手段は、 4次元以上の次元数を有する特徴量のユークリッド距離
    を類似度とすることを特徴とする請求項2に記載のデー
    タ検索装置。
  4. 【請求項4】 データベースに保存されている複数のデ
    ータの中から所望のデータを検索するデータベース検索
    方法であって、 前記データベース検索方法は、 前記データベースに保存されている全てのデータのそれ
    ぞれから4次元以上の次元数を有する特徴量を抽出する
    データ特徴抽出過程と、 前記データの特徴量に基づいて、前記データベースに保
    存されている複数のデータを所定の数のクラスタに分け
    るクラスタリング過程と、 前記クラスタリング過程によってクラスタ分けがされた
    データに対して判別分析を使用して各データの特徴量の
    次元数を3次元以下にするための射影行列を算出する射
    影行列算出過程と、 所望のデータを検索するために入力されたクエリーから
    4次元以上の次元数を有する特徴量を抽出するクエリー
    特徴抽出過程と、 前記データの特徴量及び前記クエリーの特徴量に対して
    前記射影行列を乗算して次元数が3次元以下となる座標
    値を求め、この座標値をプロットすることにより、前記
    データベースに保存されている各データとクエリーの関
    係を散布図によって表示する写像計算過程と、 を有することを特徴とするデータ検索方法。
  5. 【請求項5】 前記データ検索方法は、 前記写像計算過程によってプロットされたクエリーの特
    徴量の近傍に位置するデータを選択するデータ選択過程
    と、 前記データ選択過程によって選択されたデータのそれぞ
    れとクエリーの類似度を4次元以上の特徴量に基づいて
    計算して表示する類似度計算過程と、 をさらに有することを特徴とする請求項4に記載のデー
    タ検索方法。
  6. 【請求項6】 前記類似度計算過程は、 4次元以上の次元数を有する特徴量のユークリッド距離
    を類似度とすることを特徴とする請求項5に記載のデー
    タ検索方法。
  7. 【請求項7】 データベースに保存されている複数のデ
    ータの中から所望のデータを検索するデータベース検索
    プログラムであって、 前記データベース検索プログラムは、 前記データベースに保存されている全てのデータのそれ
    ぞれから4次元以上の次元数を有する特徴量を抽出する
    データ特徴抽出処理と、 前記データの特徴量に基づいて、前記データベースに保
    存されている複数のデータを所定の数のクラスタに分け
    るクラスタリング処理と、 前記クラスタリング処理によってクラスタ分けがされた
    データに対して判別分析を使用して各データの特徴量の
    次元数を3次元以下にするための射影行列を算出する射
    影行列算出処理と、 所望のデータを検索するために入力されたクエリーから
    4次元以上の次元数を有する特徴量を抽出するクエリー
    特徴抽出処理と、 前記データの特徴量及び前記クエリーの特徴量に対して
    前記射影行列を乗算して次元数が3次元以下となる座標
    値を求め、この座標値をプロットすることにより、前記
    データベースに保存されている各データとクエリーの関
    係を散布図によって表示する写像計算処理と、 をコンピュータに行わせることを特徴とするデータ検索
    プログラム。
  8. 【請求項8】 前記データ検索プログラムは、 前記写像計算処理によってプロットされたクエリーの特
    徴量の近傍に位置するデータを選択するデータ選択処理
    と、 前記データ選択処理によって選択されたデータのそれぞ
    れとクエリーの類似度を4次元以上の特徴量に基づいて
    計算して表示する類似度計算処理と、 をさらにコンピュータに行わせることを特徴とする請求
    項7に記載のデータ検索プログラム。
  9. 【請求項9】 前記類似度計算処理は、 4次元以上の次元数を有する特徴量のユークリッド距離
    を類似度とすることを特徴とする請求項8に記載のデー
    タ検索プログラム。
JP2001214354A 2001-07-13 2001-07-13 データ検索装置、データ検索方法、及びデータ検索プログラム Pending JP2003030240A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001214354A JP2003030240A (ja) 2001-07-13 2001-07-13 データ検索装置、データ検索方法、及びデータ検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001214354A JP2003030240A (ja) 2001-07-13 2001-07-13 データ検索装置、データ検索方法、及びデータ検索プログラム

Publications (1)

Publication Number Publication Date
JP2003030240A true JP2003030240A (ja) 2003-01-31

Family

ID=19049191

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001214354A Pending JP2003030240A (ja) 2001-07-13 2001-07-13 データ検索装置、データ検索方法、及びデータ検索プログラム

Country Status (1)

Country Link
JP (1) JP2003030240A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048089A (ja) * 2004-07-30 2006-02-16 Open Knowledge:Kk 技術知識の解釈システム
JPWO2005069222A1 (ja) * 2004-01-15 2008-04-24 旭化成株式会社 情報認識装置、情報認識方法、情報認識プログラム及び警報システム
WO2008114306A1 (ja) * 2007-02-19 2008-09-25 Sony Computer Entertainment Inc. コンテンツ空間形成装置、その方法、コンピュータ、プログラムおよび記録媒体
JP2009199513A (ja) * 2008-02-25 2009-09-03 Nec Corp 違法情報検出装置、違法情報検出方法、及び違法情報検出プログラム
JP2019174960A (ja) * 2018-03-27 2019-10-10 西日本電信電話株式会社 データ前処理装置、データ前処理方法及びデータ前処理プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2005069222A1 (ja) * 2004-01-15 2008-04-24 旭化成株式会社 情報認識装置、情報認識方法、情報認識プログラム及び警報システム
JP2006048089A (ja) * 2004-07-30 2006-02-16 Open Knowledge:Kk 技術知識の解釈システム
WO2008114306A1 (ja) * 2007-02-19 2008-09-25 Sony Computer Entertainment Inc. コンテンツ空間形成装置、その方法、コンピュータ、プログラムおよび記録媒体
JPWO2008114306A1 (ja) * 2007-02-19 2010-06-24 株式会社ソニー・コンピュータエンタテインメント コンテンツ空間形成装置、その方法、コンピュータ、プログラムおよび記録媒体
JP5161867B2 (ja) * 2007-02-19 2013-03-13 株式会社ソニー・コンピュータエンタテインメント コンテンツ空間形成装置、その方法、コンピュータ、プログラムおよび記録媒体
US8700675B2 (en) 2007-02-19 2014-04-15 Sony Corporation Contents space forming apparatus, method of the same, computer, program, and storage media
JP2009199513A (ja) * 2008-02-25 2009-09-03 Nec Corp 違法情報検出装置、違法情報検出方法、及び違法情報検出プログラム
JP2019174960A (ja) * 2018-03-27 2019-10-10 西日本電信電話株式会社 データ前処理装置、データ前処理方法及びデータ前処理プログラム

Similar Documents

Publication Publication Date Title
US6654742B1 (en) Method and system for document collection final search result by arithmetical operations between search results sorted by multiple ranking metrics
US7457825B2 (en) Generating search requests from multimodal queries
Ni et al. Short text clustering by finding core terms
US7548936B2 (en) Systems and methods to present web image search results for effective image browsing
US20020091678A1 (en) Multi-query data visualization processes, data visualization apparatus, computer-readable media and computer data signals embodied in a transmission medium
US8117183B2 (en) Accurate content-based indexing and retrieval system
JP5164901B2 (ja) 画像検索装置
US20040205457A1 (en) Automatically summarising topics in a collection of electronic documents
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
US20020164078A1 (en) Information retrieving system and method
CN105138672B (zh) 一种多特征融合的图像检索方法
CN101305368A (zh) 语义可视搜索引擎
JP2003030222A (ja) 大規模データベースにおける主要クラスタおよびアウトライア・クラスタの検索、検出および同定のための方法、システム、記録媒体、およびサーバ
JP4711761B2 (ja) データ検索装置、データ検索方法、データ検索プログラムおよびコンピュータに読み取り可能な記録媒体
CN101211344A (zh) 文本信息遍历的快速四维可视化方法
JP2011248596A (ja) 画像入り文書の検索システム及び検索方法
CN111143400B (zh) 一种全栈式检索方法、系统、引擎及电子设备
JP2007179201A (ja) 電子帳票管理装置、検索結果出力方法、プログラム及び記憶媒体
JP2003030240A (ja) データ検索装置、データ検索方法、及びデータ検索プログラム
Fu et al. Financial time series indexing based on low resolution clustering
JP5414334B2 (ja) 擬似文書検索システム及び擬似文書検索方法
JP4453440B2 (ja) 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体
US20170255691A1 (en) Information processing system, information processing method, and program
JPH11272709A (ja) ファイル検索方式
Uehara et al. A computer-aided visual exploration system for knowledge discovery from images

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040608

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041019