JP2005092442A

JP2005092442A - 多次元空間モデル表現装置および多次元空間モデル表現方法

Info

Publication number: JP2005092442A
Application number: JP2003323326A
Authority: JP
Inventors: Tatsuo Nakamura; 村達生中
Original assignee: Mitsubishi Research Institute Inc
Current assignee: Mitsubishi Research Institute Inc
Priority date: 2003-09-16
Filing date: 2003-09-16
Publication date: 2005-04-07

Abstract

【課題】概念検索により検索された文書を簡易かつ効率的に分類すること。
【解決手段】多次元空間モデル表現装置は、検索文の入力や検索結果の出力を行う利用者用端末装置１と、検索文に基づいて特許文献の検索処理を行う検索装置２と、検索装置２に特許文献の登録を行う管理用端末装置３とを備えている。大量の技術文献(特許文献など)をいくつかの多次元空間上のクラスターに効率よく分類し、これらクラスターを二次元平面上に配置してクラスターマップを作成するため、クラスター間の距離が近いほど、クラスター間距離の誤差精度の高いクラスターマップが得られ、類似したクラスター同士の関係を視覚的に把握できる。
【選択図】図１

Description

本発明は、概念検索を利用して検索対象文をいずれかのクラスターに分類して分析するクラスター分析装置に関する。

複数の文書の内容を分析する場合、個々の文書が特定のキーワードを含むか否かを検索して、キーワードを頼りにして複数の文書を分類して分析するのが一般的であった。ところが、この手法では、文書の内容を理解できる専門家を多数必要とし、文書の量が増えるに従って、検索時間が長くなるため、時系列分析に必要なタイムリーな分析は望めない。

また、キーワードを含むか否かが分類のための条件になるため、そのキーワードの同義語や新語に基づいて検索を行うことはできない。同義語についての検索を行う検索手法も知られているが、技術用語のように次々に新しい同義語が生み出される場合には、精度のよい検索は行えない。

また、分類した各グループ間のつながりや関係が不明確あるいは定量的に表せないため、コアとなるグループを容易には検出できない。

さらに、従来の分類にあてはまりにくい新しい分野の文書や新規性のある文書の類型化が困難なため、研究開発における先行調査やマーケティング分析における最新動向の把握にさほど役立たないという致命的な課題がある。

一方、検索したい内容を文章で入力して、その内容に近い文書を検索をする概念検索と呼ばれる手法も知られている。概念検索は、キーワードが思いつかない場合やキーワードを絞りきれない場合に有効な検索手法である。

しかしながら、概念検索を行った結果、多数の文書が検索される場合があり、所望の文書を検索するのに時間がかかってしまう。また、異なる検索文章で複数の概念検索を行った場合、各検索結果として得られた文書の互いの関連を知る有効な手段がなかった。このような理由から、概念検索を行っても、効率的に検索を行うのは難しい。

本発明は、このような問題点に鑑みてなされたものであり、その目的は、検索された文書を複数のクラスターに分類して、各クラスターの関連性が一目で把握できようにした多次元空間モデル表現装置および多次元空間モデル表現方法を提供することにある。

上記の課題を解決するために、本発明は、文書の中に含まれる複数の単語それぞれを次元とし、各単語の出現頻度に基づく重みをスカラー値とする多次元ベクトルで各文書を表現し、関連性の高い文書に対応する前記多次元ベクトルを合成したクラスターを複数作成するクラスター作成手段と、前記クラスター作成手段で作成されたクラスター間の多次元空間上の距離を二次元平面上の距離に変換する距離変換手段と、多次元空間上のクラスター間距離と二次元平面上のクラスター間距離との誤差を計算する誤差計算手段と、前記誤差が最小になるように、二次元平面上の各クラスターの位置を修正する位置修正手段と、前記誤差が最小になるまで、前記誤差計算手段および前記位置修正手段の処理を繰り返して得られた二次元平面上のクラスターの配置を表したクラスターマップを出力するマップ出力手段と、を備える。

本発明によれば、検索された文書を複数のクラスターに分類して、各クラスターの関連性が一目で把握できるクラスターマップを作成するため、各文書の関連性を簡易かつ正確に検出できる。

以下、図面を参照しながら、本発明に係る多次元空間モデル表現装置および多次元空間モデル表現方法の一実施形態を説明する。以下では、一例として特許文献のクラスター分析を行う例を説明するが、クラスター分析の対象となる文書は、特許文献に限らず、各種の論文（技術的な論文に限らない）、技術所報（企業等の社内技報など）や出版社が発行する各種雑誌や書籍などでもよい。あるいは、新聞の記事、マーケティングにより収集した顧客情報、アンケートの定性的な回答なども対象となりうる。

ここで、クラスター分析（Cluster Analysis）とは、異質なものが混ざり合っている対象を、それらの間に何らかの意味で定義された指標を手がかりにして似たものを集め、いくつかの均質なものの集落（クラスター）に分類する手法を総称したものである（「多変量解析法」、現代数学社、p230参照）。

図１は本発明に係る多次元空間モデル表現装置の一実施形態の概略構成を示すブロック図である。図１の多次元空間モデル表現装置は、検索文の入力や検索結果の出力を行う利用者用端末装置１と、検索文に基づいて特許文献の検索処理を行う検索装置２と、検索装置２に特許文献などの技術文献の登録を行う管理用端末装置３とを備えている。

各端末装置１はパーソナルコンピュータ（以下、ＰＣ）などの比較的小型のコンピュータで構成され、検索装置２はサーバーなどの比較的大型のコンピュータで構成される。

検索装置２は、表示装置２ａとプリンタ２ｂとを有し、検索装置２には、検索対象となる技術情報(特許文献など)が登録された技術情報データベース（ＤＢ）装置４と、論文等の関連情報が登録された関連情報データベース装置５と、関連語句が登録された関連語句データベース装置６とが接続されている。

各端末装置１と検索装置２とは、ローカルエリアネットワーク（以下、ＬＡＮ）、インターネットまたは通信回線等の通信網を介してデータの送受信を行う。

ユーザは、利用者用端末装置１のキーボード等から検索文を入力する。検索文には、字数制限や文字種制限がなく、各自の言葉で任意の文章を入力することができる。また、検索対象の正式な名称が不明でも、概念や仕組みを説明する文章を入力することにより検索を行うことができる。例えば、「水素と酸素を用いて、発電する仕組みや技術」という文章を検索文として入力することで検索を行える。この場合、後述するように、「燃料電池」に関する技術文献が抽出される。

検索装置２は、利用者用端末装置１で入力された検索文に基づいて検索処理を行い、その検索結果は利用者用端末装置１に送られる。また、管理用端末装置３は検索装置２に技術文献(特許文献など)を登録し、検索装置２は管理用端末装置３に管理情報を送信する。

図２は図１の検索装置が行う処理手順の一例を示すフローチャートである。まず、ユーザが利用者用端末装置１から入力した検索文を取り込む（ステップＳ１）。次に、検索文を検索キーとして、技術情報データベース装置に登録されている技術文献の概念検索を行う（ステップＳ２）。

図３はステップＳ２の詳細な処理手順を示すフローチャートである。技術情報データベース装置４に登録されるべき各技術文献は、形態素解析されて、各単語ごとに単語ベクトルが生成された後、技術情報データベース装置４に登録される（ステップＳ１１〜Ｓ１４）。

一方、ユーザが入力した検索文も、形態素解析されて、各単語ごとに単語ベクトルが生成される（ステップＳ１５〜Ｓ１７）。

ここで、形態素解析とは、文章（自然文）に含まれている単語を抽出するものであり、具体的には複合名詞句と数詞を抽出する。例えば、上述した「水素と酸素を用いて、発電する仕組みや技術」という検索文の場合、「水素」、「酸素」、「発電」、「仕組み」、「技術」、「用いる」の６つの単語とその類似語が抽出される。

続いて、検索文の単語ベクトルと技術情報データベース装置４に登録された各単語ベクトルとの間で内積を演算し（ステップＳ１８）、その演算結果に基づいて類似度を判定する（ステップＳ１９）。

なお、技術情報データベース装置４には、多数の技術文献(特許文献等)が登録されており、各技術文献ごとに検索語群との間で内積を演算して類似度を検出する。そして、図２のステップＳ２では、類似度の高い技術文献を、検索文書として抽出する。ここでは、内積値が「１」に近いものを類似度が高い技術文献として抽出する。以下では、環境技術の対象５分野に関する618件の特許公開公報が検索文書として抽出されたものとする。

ステップＳ２の処理が終わって検索文書が抽出されると、各検索文書ごとに上述した形態素解析を行って、単語リストを作成する（ステップＳ３）。具体的には、上述した環境技術に関する数百以上の技術文献(当該事例では618件の特許公開公報)を、形態素解析により「てにをは」を抜かした単語と語幹に分割し、重要単語の出現頻度を算定する。

ここで、重要単語とは、科学技術基本計画中に謡われている技術用語およびそれらの関連語等からなる2500語を採用する。図４は単語リストの一例である。この単語リストは、必要不可欠な単語をほぼすべて網羅しており、重要度がそれほど高くない単語も含まれるが、後述するウェイトにより自動的に除外されるため、特に問題はない。

次に、単語リストに含まれる各単語に、重要度に応じたウェイトを付加し、各技術文献ごとにウェイト表を作成する（ステップＳ４）。ウェイトの算定式は以下の（１）式で表される。
ｗij＝TFij×IDFj …（１）

（１）式において、ｗijは技術文献ｉ中の単語ｊのウェイト、TFijは技術文献ｉ中の単語ｊの出現頻度（Term Frequency）、IDFjは技術情報ＤＢ装置４中の単語ｊが現れる技術文献の件数比率の逆数である。

次に、ウェイト表に登録された単語のうちウェイトの高い一部の単語を抽出する、いわゆる次元引き下げ処理を行い、新たなウェイト表を作成する（ステップＳ５）。

図５は各技術文献に含まれる重要単語の出現回数を記録した出現リストの一例を示す図である。関連語として挙げられている各重要単語は、上記のステップＳ３で作成された単語リストに含まれる単語である。どの技術文献にも現れる単語は、いわゆる機能語と呼ばれるもので、各技術文献を特徴づける単語ではない。そこで、単語リストに含まれる2500語の単語の中から機能語を除外して、ウェイトの高い順に並べ、上位1000個を抽出する。

このような次元引き下げ処理を行うことにより、クラスター分析の高速化を図れる。抽出された単語を含む技術文献は、（２）式のようなベクトルＰaで表現される。

（２）式の右辺は、抽出された各単語のウェイトｗa1，…，ｗamを表している。すなわち、抽出された各単語は、ウェイトをスカラー値とする、互いに異なる次元である。

次に、ステップＳ５で作成されたウェイト表を用いて、関連のある技術文献をまとめたクラスターを作成する（ステップＳ６）。具体的には、技術文献データベース装置に登録されている環境技術関連の複数の技術文献(当該事例では特許公開公報618件)を、既存の概念や枠組みによらずに、内容の類似性に基づいて分類し、クラスター化する。

上記の（２）式のベクトルＰaの向き具合によって、技術文献同士の類似度を判定することができる。例えば、図６は３つの単語からなる三次元のベクトル空間を想定しており、技術文献の向きから、３つのクラスターを生成する例を示している。本実施形態のクラスター分析では、1000個の単語を変数とする多次元のベクトル空間を想定しており、図示することはできないが、考え方は図３と同じである。

ベクトルの方向の近さは、内積式を用いて表すことができる。内積の計算式は以下の（３）式で表される。

本実施形態では、ベクトルの方向が近い複数の技術文献を結合してクラスターを形成した後、クラスターに含まれる技術文献の各ベクトルの合成からクラスターのベクトルの向きを決定する重心法を適用する。

図６では、３つのクラスターを形成する例を示しているが、クラスターの数には特に制限はない。図６に示す各クラスター同士は互いに一定以上の距離があり、内積値が一定以下となるため、これ以上のクラスター化は行わない。

図７は図２のステップＳ６に示すクラスター作成処理の一例を示す詳細フローチャートである。まず、互いに異なる２種類のクラスター同士でベクトルの内積を計算する（ステップＳ２１）。計算された内積値は、これら２種類の技術文献の類似度を表している。なお、初期状態では、各技術文献が別個のクラスターとして取り扱われる。

一つのクラスターの中に複数の技術文献が含まれている場合、各技術文献に対応するベクトルの平均ベクトルを計算して、異なる２つのクラスターの平均ベクトル同士の内積を計算する。

ステップＳ２１の処理に前後して、複数の技術文献を同一のクラスターに含めるか否かの基準となる結合最大距離を設定する（ステップＳ２２）。この結合最大距離の値は、試行錯誤により決定するのが望ましい。

次に、ステップＳ２１で計算された内積値が結合最大距離より小さいか否かを判定する（ステップＳ２３）。小さければ、比較した２種類のクラスターを同一のクラスターに含めるクラスター結合を行う（ステップＳ２４）。そして、ステップＳ２１に戻って、まだ比較していない２種類のクラスター同士で内積を計算する。

クラスターの結合は以下の（４）式〜（８）式に従って行う。これらの式では、クラスターａとクラスターｂを結合する場合の計算手順を示している。

クラスターａのベクトルＰa（本明細書では、ベクトルを表す矢印を省略する）とクラスターｂのベクトルＰbとを加算したベクトルＰabを生成した後、ベクトルの大きさが１になるように正規化する。

一方、ステップＳ２３で、内積値が結合最大距離以上と判定されると、すべてのクラスター同士が結合最大距離を超えているか否かを判定する（ステップＳ２５）。超えていないクラスター同士が存在すれば、そのクラスター同士でステップＳ２１以降の処理を行い、超えていればクラスターの結合処理を終了し、クラスターを決定する（ステップＳ２６）。このとき、クラスターリストとクラスター間距離表を作成する。

図８はクラスター間距離表の一例を示す図である。図８のクラスター間距離表には、すべてのクラスター同士の内積値またはクラスター間の相関係数が登録されている。

次に、クラスターごとに重要単語を抽出する（ステップＳ２８）。重要単語を抽出する理由は、クラスターの特徴を見いだすためであり、各クラスター内における重要単語をウェイトｗaの大きいものから順に30語程度を抽出する。単語ウェイトｗaは、そのクラスターで頻出して、他のクラスターにはあまり出現しない単語ほど大きな値をとることから、クラスターの特徴を端的に表す言葉であると言える。これらの重要単語をウェイトの高い順に検出することにより、クラスターがどのような技術分類に該当するかを正確に把握できる。

環境技術に関する公開特許公報約618件に対して、図７の処理によるクラスター分析を行ったところ、図９に示す２０のクラスターに分類することができた。

このように、本実施形態では、概念検索により検索された技術文献に対して形態素解析を行って得られた各単語にウェイトを付加して各技術文献をベクトル化し、ベクトルの向きが近い技術文献同士を一つのクラスターにまとめる処理を行うため、大量の技術文献をいくつかのクラスターに効率よく分類することができる。したがって、各クラスターの特徴を抽出することで、各技術文献にどのような内容が記載されているかを簡易かつ的確に把握できるようになる。

このようなクラスター分析により、既存の分析に依存しない新しい分類を構築できる。したがって、本実施形態を研究開発の現場で利用すると、先端的な技術の動向を事前に把握できることから、研究開発の方向を誤るおそれがなくなる。特に、最近の国内外の研究開発は、分野をまたがる学際的な内容が増加しており、IPC分類など従来の技術体系では、類似した技術が種々の分野に存在するため、先行技術の分析や技術動向を把握するのがますます困難になりつつある。このような現状にあって、本実施形態のクラスター分析手法は、類似した文献を分野を問わずに検索できるため、研究開発に必要な情報を漏れなく把握できる。

また、本実施形態を特許出願の先行調査に利用すると、関連のある先行技術文献を短時間で的確に検索でき、担当者の手間が省け、先行調査の促進と出願是非判断の適正化が図れる。

さらに、本実施形態は、製品情報の分析も行うことができるため、マーケティング分析にも利用でき、企業等の企画部門等でも有効活用できる。

上記の手順で作成したクラスター同士の近さ関係を視覚的に表した方が理解しやすい。そこで、以下では各クラスターを二次元平面上に配置する手法について説明する。

クラスターはもともと多次元（上記の例では1000次元）のベクトルで表現されており、これを二次元で表現すると、矛盾の生じる箇所が必ず出てくる。そこで、本実施形態では、クラスター間の距離が短いほど近さ関係を忠実に表現し、距離が長いほど歪みが大きくなるようにして矛盾を吸収する最適化を行う。

図１０は図１の検索装置２が行うクラスターマップの作成処理の一例を示すフローチャートである。図８に示すクラスター間距離表に基づいて、各クラスターの二次元平面上の初期値を設定する（ステップＳ３１）。初期値としては、例えば、各クラスターが円周上に並ぶように各クラスターの二次元座標を初期設定する。

次に、以下の（９）式に従って、クラスター間の二次元距離の誤差Ｅを計算する（ステップＳ３２）。（９）式の右辺第１項は、クラスター間の距離が小さいほど大きくなり、クラスター間の距離が小さいほど右辺第２項が大きくなる。

（９）式において、ｒijはクラスターｉとクラスターｊの内積（距離）、ｄijはクラスターｉとクラスターｊの二次元平面上の距離、（ｘi，ｙj）はクラスターｉの二次元平面上の座標、ａ，ｂはパラメータである。

クラスターｉ，ｊの二次元平面上の距離ｄijは、（１０）式で表される。

図１１は（１０）式に基づいて二次元上に変換されたクラスターｉ，ｊ間の距離の一覧を示す図である。また、図１２は（１０）式で示す距離ｄij（横軸）と（９）式で示す誤差Ｅ（縦軸）との関係を示す図であり、（９）式の右辺第１項は曲線ａ、右辺第２項は曲線ｂ、右辺全体は曲線ｃで表される。図１２に示すように、クラスター間の距離ｄijがある値のときに、誤差Ｅは最小になる。

図１３はクラスターｉとクラスターｊの内積ｒijの値により誤差Ｅが変化する様子を示す図であり、曲線ｄは内積ｒij＝０．７、曲線ｅは内積ｒij＝０．５、曲線ｆは内積ｒij＝０．２の場合を示している。図１３に示すように、内積ｒijが大きいほど、すなわちクラスター間の距離が短いほど、誤差Ｅの変動は少なくなる。

次に、誤差Ｅが最小になったか否かを判定し（ステップＳ３３）、最小でなければ各クラスターの二次元座標を少しずつずらす処理を行い（ステップＳ３４）、再度、ステップＳ３２以降の処理を行う。

図１４は多次元空間上のクラスター間距離（横軸）と二次元平面上のクラスター間距離（縦軸）との関係を示す図であり、各プロットは実験値である。図１４に示すように、クラスター間の距離が大きくなるに従って、クラスター間距離のばらつきが大きくなる。また、（９）式に基づいて誤差Ｅを計算すると、クラスター間の距離が近いほど、多次元空間上のクラスター間距離と二次元空間上のクラスター間距離との誤差が小さくなる。

図１０のステップＳ３３にて、誤差Ｅが最小になったと判定されると、その時点でのクラスター位置にて、二次元配置を決定し、クラスターマップを作成する（ステップＳ３５）。

図１５はクラスターマップの一例を示す図である。図１５のクラスターマップは、環境技術に関する技術文献をクラスター分析した例を示している。

このように、本実施形態では、多次元空間上のクラスターを（９）式に示す誤差Ｅが最小になるように二次元平面上に配置してクラスターマップを作成するため、クラスター間の距離が近いほど、クラスター間距離の誤差精度の高いクラスターマップが得られ、類似したクラスター同士の関係を視覚的に把握できるようになる。

上述した実施形態で説明した多次元空間モデル表現装置は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、多次元空間モデル表現装置の少なくとも一部の機能を実現するプログラムをフロッピーディスクやＣＤ−ＲＯＭ等の記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等の携帯可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記録媒体でもよい。

また、多次元空間モデル表現装置の少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線（無線通信も含む）を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調をかけたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、あるいは記録媒体に収納して頒布してもよい。

本発明に係る多次元空間モデル表現装置の一実施形態の概略構成を示すブロック図。図１の検索装置が行う処理手順の一例を示すフローチャート。ステップＳ２の詳細な処理手順を示すフローチャート。単語リストの一例を示す図。各特許文献に含まれる単語の出現回数を記録した出現リストを示す図。３つの単語からなるベクトル空間を示す図。図２のステップＳ６に示すクラスター作成処理の一例を示す詳細フローチャート。クラスター間距離表の一例を示す図。環境技術に関する公開特許約5000件のクラスター分析結果を示す図。クラスターマップの作成処理の一例を示すフローチャート。（１０）式に基づいて二次元上に変換されたクラスターｉ，ｊ間の距離の一覧を示す図。（１０）式で示す距離ｄij（横軸）と（９）式で示す誤差Ｅ（縦軸）との関係を示す図。クラスターｉとクラスターｊの内積ｒijの値により誤差Ｅが変化する様子を示す図。多次元空間上のクラスター間距離（横軸）と二次元平面上のクラスター間距離（縦軸）との関係を示す図。クラスターマップの一例を示す図。

符号の説明

１利用者用端末装置
２検索装置
３管理用端末装置
４技術情報データベース装置
５関連情報データベース装置
６関連語句データベース装置

Claims

文書の中に含まれる複数の単語それぞれを次元とし、各単語の出現頻度に基づく重みをスカラー値とする多次元ベクトルで各文書を表現し、関連性の高い文書に対応する前記多次元ベクトルを合成したクラスターを複数作成するクラスター作成手段と、
前記クラスター作成手段で作成されたクラスター間の多次元空間上の距離を二次元平面上の距離に変換する距離変換手段と、
多次元空間上のクラスター間距離と二次元平面上のクラスター間距離との誤差を計算する誤差計算手段と、
前記誤差が最小になるように、二次元平面上の各クラスターの位置を修正する位置修正手段と、
前記誤差が最小になるまで、前記誤差計算手段および前記位置修正手段の処理を繰り返して得られた二次元平面上のクラスターの配置を表したクラスターマップを出力するマップ出力手段と、を備えることを特徴とする多次元空間モデル表現装置。
前記クラスター作成手段で作成された各クラスターを二次元平面上に配置するための初期値を設定する初期値設定手段を備え、
前記誤差計算手段は、最初は、多次元空間上のクラスター間距離と前記初期値設定手段で設定された初期値に基づくクラスター間距離との誤差を計算し、その後は、多次元空間上のクラスター間距離と前記位置修正手段で修正されたクラスター間距離との誤差を計算することを特徴とする請求項１に記載の多次元空間モデル表現装置。
前記初期値設定手段は、二次元平面における円周上に各クラスターが配置されるように前記初期値を設定することを特徴とする請求項２に記載の多次元空間モデル表現装置。
前記誤差計算手段は、クラスター間の距離が近いほど前記誤差の精度を高くすることを特徴とする請求項１及至３のいずれかに記載の多次元空間モデル表現装置。
前記誤差計算手段は、
比較対象である２つのクラスター同士の多次元空間上の距離と前記２つのクラスター同士の二次元平面上の距離とを乗算する多次元距離計算手段と、
前記２つのクラスタ同士の二次元平面上の距離の逆数を計算する距離逆数計算手段と、
前記多次元距離計算手段の乗算結果または該乗算結果のａ乗（ただし、ａは定数）と、前記距離逆数計算手段の計算結果と、を足し合わせる第１加算手段と、
任意の２つのクラスター同士についての前記第１加算手段による加算結果を足し合わせて前記誤差を算出する第２加算手段と、を有することを特徴とする請求項３に記載の多次元空間モデル表現装置。
前記クラスター作成手段は、
検索対象となる複数の文書が格納された文書格納手段と、
入力された検索文を検索キーとして前記複数の文書を検索して、前記検索文と類似する文書を検索する概念検索手段と、
前記検索された文書に対して形態素解析を行って、前記検索された文書に含まれる複数の単語を抽出する形態素解析手段と、
抽出された前記複数の単語が前記検索された文書の中に現れる出現頻度に基づいて、前記複数の単語それぞれの重み付けを行う重み付け手段と、
前記重み付け手段による重み付け結果に基づいて、前記検索された文書に含まれる複数の単語の中から重みの大きい順に所定個の単語を抽出する次元引き下げ手段と、
前記次元引き下げ手段で抽出された単語の重みに基づいて、前記検索された文書を複数のクラスターに分類するクラスター分類手段と、を有することを特徴とする多次元空間モデル表現装置。
文書の中に含まれる複数の単語それぞれを次元とし、各単語の出現頻度に基づく重みをスカラー値とする多次元ベクトルで各文書を表現し、関連性の高い文書に対応する前記多次元ベクトルを合成したクラスターを複数作成するステップと、
作成されたクラスター間の多次元空間上の距離を二次元平面上の距離に変換するステップと、
多次元空間上のクラスター間距離と二次元平面上のクラスター間距離との誤差を計算するステップと、
前記誤差が最小になるように、二次元平面上の各クラスターの位置を修正するステップと、
前記誤差が最小になるまで、前記誤差の計算と各クラスターの位置の修正とを繰り返して得られた二次元平面上のクラスターの配置を表したクラスターマップを出力するステップと、を備えることを特徴とする多次元空間モデル表現方法。