JP2005092442A - 多次元空間モデル表現装置および多次元空間モデル表現方法 - Google Patents

多次元空間モデル表現装置および多次元空間モデル表現方法 Download PDF

Info

Publication number
JP2005092442A
JP2005092442A JP2003323326A JP2003323326A JP2005092442A JP 2005092442 A JP2005092442 A JP 2005092442A JP 2003323326 A JP2003323326 A JP 2003323326A JP 2003323326 A JP2003323326 A JP 2003323326A JP 2005092442 A JP2005092442 A JP 2005092442A
Authority
JP
Japan
Prior art keywords
distance
cluster
clusters
error
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003323326A
Other languages
English (en)
Inventor
Tatsuo Nakamura
村 達 生 中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Research Institute Inc
Original Assignee
Mitsubishi Research Institute Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Research Institute Inc filed Critical Mitsubishi Research Institute Inc
Priority to JP2003323326A priority Critical patent/JP2005092442A/ja
Publication of JP2005092442A publication Critical patent/JP2005092442A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 概念検索により検索された文書を簡易かつ効率的に分類すること。
【解決手段】 多次元空間モデル表現装置は、検索文の入力や検索結果の出力を行う利用者用端末装置1と、検索文に基づいて特許文献の検索処理を行う検索装置2と、検索装置2に特許文献の登録を行う管理用端末装置3とを備えている。大量の技術文献(特許文献など)をいくつかの多次元空間上のクラスターに効率よく分類し、これらクラスターを二次元平面上に配置してクラスターマップを作成するため、クラスター間の距離が近いほど、クラスター間距離の誤差精度の高いクラスターマップが得られ、類似したクラスター同士の関係を視覚的に把握できる。
【選択図】 図1

Description

本発明は、概念検索を利用して検索対象文をいずれかのクラスターに分類して分析するクラスター分析装置に関する。
複数の文書の内容を分析する場合、個々の文書が特定のキーワードを含むか否かを検索して、キーワードを頼りにして複数の文書を分類して分析するのが一般的であった。ところが、この手法では、文書の内容を理解できる専門家を多数必要とし、文書の量が増えるに従って、検索時間が長くなるため、時系列分析に必要なタイムリーな分析は望めない。
また、キーワードを含むか否かが分類のための条件になるため、そのキーワードの同義語や新語に基づいて検索を行うことはできない。同義語についての検索を行う検索手法も知られているが、技術用語のように次々に新しい同義語が生み出される場合には、精度のよい検索は行えない。
また、分類した各グループ間のつながりや関係が不明確あるいは定量的に表せないため、コアとなるグループを容易には検出できない。
さらに、従来の分類にあてはまりにくい新しい分野の文書や新規性のある文書の類型化が困難なため、研究開発における先行調査やマーケティング分析における最新動向の把握にさほど役立たないという致命的な課題がある。
一方、検索したい内容を文章で入力して、その内容に近い文書を検索をする概念検索と呼ばれる手法も知られている。概念検索は、キーワードが思いつかない場合やキーワードを絞りきれない場合に有効な検索手法である。
しかしながら、概念検索を行った結果、多数の文書が検索される場合があり、所望の文書を検索するのに時間がかかってしまう。また、異なる検索文章で複数の概念検索を行った場合、各検索結果として得られた文書の互いの関連を知る有効な手段がなかった。このような理由から、概念検索を行っても、効率的に検索を行うのは難しい。
本発明は、このような問題点に鑑みてなされたものであり、その目的は、検索された文書を複数のクラスターに分類して、各クラスターの関連性が一目で把握できようにした多次元空間モデル表現装置および多次元空間モデル表現方法を提供することにある。
上記の課題を解決するために、本発明は、文書の中に含まれる複数の単語それぞれを次元とし、各単語の出現頻度に基づく重みをスカラー値とする多次元ベクトルで各文書を表現し、関連性の高い文書に対応する前記多次元ベクトルを合成したクラスターを複数作成するクラスター作成手段と、前記クラスター作成手段で作成されたクラスター間の多次元空間上の距離を二次元平面上の距離に変換する距離変換手段と、多次元空間上のクラスター間距離と二次元平面上のクラスター間距離との誤差を計算する誤差計算手段と、前記誤差が最小になるように、二次元平面上の各クラスターの位置を修正する位置修正手段と、前記誤差が最小になるまで、前記誤差計算手段および前記位置修正手段の処理を繰り返して得られた二次元平面上のクラスターの配置を表したクラスターマップを出力するマップ出力手段と、を備える。
本発明によれば、検索された文書を複数のクラスターに分類して、各クラスターの関連性が一目で把握できるクラスターマップを作成するため、各文書の関連性を簡易かつ正確に検出できる。
以下、図面を参照しながら、本発明に係る多次元空間モデル表現装置および多次元空間モデル表現方法の一実施形態を説明する。以下では、一例として特許文献のクラスター分析を行う例を説明するが、クラスター分析の対象となる文書は、特許文献に限らず、各種の論文(技術的な論文に限らない)、技術所報(企業等の社内技報など)や出版社が発行する各種雑誌や書籍などでもよい。あるいは、新聞の記事、マーケティングにより収集した顧客情報、アンケートの定性的な回答なども対象となりうる。
ここで、クラスター分析(Cluster Analysis)とは、異質なものが混ざり合っている対象を、それらの間に何らかの意味で定義された指標を手がかりにして似たものを集め、いくつかの均質なものの集落(クラスター)に分類する手法を総称したものである(「多変量解析法」、現代数学社、p230参照)。
図1は本発明に係る多次元空間モデル表現装置の一実施形態の概略構成を示すブロック図である。図1の多次元空間モデル表現装置は、検索文の入力や検索結果の出力を行う利用者用端末装置1と、検索文に基づいて特許文献の検索処理を行う検索装置2と、検索装置2に特許文献などの技術文献の登録を行う管理用端末装置3とを備えている。
各端末装置1はパーソナルコンピュータ(以下、PC)などの比較的小型のコンピュータで構成され、検索装置2はサーバーなどの比較的大型のコンピュータで構成される。
検索装置2は、表示装置2aとプリンタ2bとを有し、検索装置2には、検索対象となる技術情報(特許文献など)が登録された技術情報データベース(DB)装置4と、論文等の関連情報が登録された関連情報データベース装置5と、関連語句が登録された関連語句データベース装置6とが接続されている。
各端末装置1と検索装置2とは、ローカルエリアネットワーク(以下、LAN)、インターネットまたは通信回線等の通信網を介してデータの送受信を行う。
ユーザは、利用者用端末装置1のキーボード等から検索文を入力する。検索文には、字数制限や文字種制限がなく、各自の言葉で任意の文章を入力することができる。また、検索対象の正式な名称が不明でも、概念や仕組みを説明する文章を入力することにより検索を行うことができる。例えば、「水素と酸素を用いて、発電する仕組みや技術」という文章を検索文として入力することで検索を行える。この場合、後述するように、「燃料電池」に関する技術文献が抽出される。
検索装置2は、利用者用端末装置1で入力された検索文に基づいて検索処理を行い、その検索結果は利用者用端末装置1に送られる。また、管理用端末装置3は検索装置2に技術文献(特許文献など)を登録し、検索装置2は管理用端末装置3に管理情報を送信する。
図2は図1の検索装置が行う処理手順の一例を示すフローチャートである。まず、ユーザが利用者用端末装置1から入力した検索文を取り込む(ステップS1)。次に、検索文を検索キーとして、技術情報データベース装置に登録されている技術文献の概念検索を行う(ステップS2)。
図3はステップS2の詳細な処理手順を示すフローチャートである。技術情報データベース装置4に登録されるべき各技術文献は、形態素解析されて、各単語ごとに単語ベクトルが生成された後、技術情報データベース装置4に登録される(ステップS11〜S14)。
一方、ユーザが入力した検索文も、形態素解析されて、各単語ごとに単語ベクトルが生成される(ステップS15〜S17)。
ここで、形態素解析とは、文章(自然文)に含まれている単語を抽出するものであり、具体的には複合名詞句と数詞を抽出する。例えば、上述した「水素と酸素を用いて、発電する仕組みや技術」という検索文の場合、「水素」、「酸素」、「発電」、「仕組み」、「技術」、「用いる」の6つの単語とその類似語が抽出される。
続いて、検索文の単語ベクトルと技術情報データベース装置4に登録された各単語ベクトルとの間で内積を演算し(ステップS18)、その演算結果に基づいて類似度を判定する(ステップS19)。
なお、技術情報データベース装置4には、多数の技術文献(特許文献等)が登録されており、各技術文献ごとに検索語群との間で内積を演算して類似度を検出する。そして、図2のステップS2では、類似度の高い技術文献を、検索文書として抽出する。ここでは、内積値が「1」に近いものを類似度が高い技術文献として抽出する。以下では、環境技術の対象5分野に関する618件の特許公開公報が検索文書として抽出されたものとする。
ステップS2の処理が終わって検索文書が抽出されると、各検索文書ごとに上述した形態素解析を行って、単語リストを作成する(ステップS3)。具体的には、上述した環境技術に関する数百以上の技術文献(当該事例では618件の特許公開公報)を、形態素解析により「てにをは」を抜かした単語と語幹に分割し、重要単語の出現頻度を算定する。
ここで、重要単語とは、科学技術基本計画中に謡われている技術用語およびそれらの関連語等からなる2500語を採用する。図4は単語リストの一例である。この単語リストは、必要不可欠な単語をほぼすべて網羅しており、重要度がそれほど高くない単語も含まれるが、後述するウェイトにより自動的に除外されるため、特に問題はない。
次に、単語リストに含まれる各単語に、重要度に応じたウェイトを付加し、各技術文献ごとにウェイト表を作成する(ステップS4)。ウェイトの算定式は以下の(1)式で表される。
wij=TFij×IDFj …(1)
(1)式において、wijは技術文献i中の単語jのウェイト、TFijは技術文献i中の単語jの出現頻度(Term Frequency)、IDFjは技術情報DB装置4中の単語jが現れる技術文献の件数比率の逆数である。
次に、ウェイト表に登録された単語のうちウェイトの高い一部の単語を抽出する、いわゆる次元引き下げ処理を行い、新たなウェイト表を作成する(ステップS5)。
図5は各技術文献に含まれる重要単語の出現回数を記録した出現リストの一例を示す図である。関連語として挙げられている各重要単語は、上記のステップS3で作成された単語リストに含まれる単語である。どの技術文献にも現れる単語は、いわゆる機能語と呼ばれるもので、各技術文献を特徴づける単語ではない。そこで、単語リストに含まれる2500語の単語の中から機能語を除外して、ウェイトの高い順に並べ、上位1000個を抽出する。
このような次元引き下げ処理を行うことにより、クラスター分析の高速化を図れる。抽出された単語を含む技術文献は、(2)式のようなベクトルPaで表現される。
Figure 2005092442
(2)式の右辺は、抽出された各単語のウェイトwa1,…,wamを表している。すなわち、抽出された各単語は、ウェイトをスカラー値とする、互いに異なる次元である。
次に、ステップS5で作成されたウェイト表を用いて、関連のある技術文献をまとめたクラスターを作成する(ステップS6)。具体的には、技術文献データベース装置に登録されている環境技術関連の複数の技術文献(当該事例では特許公開公報618件)を、既存の概念や枠組みによらずに、内容の類似性に基づいて分類し、クラスター化する。
上記の(2)式のベクトルPaの向き具合によって、技術文献同士の類似度を判定することができる。例えば、図6は3つの単語からなる三次元のベクトル空間を想定しており、技術文献の向きから、3つのクラスターを生成する例を示している。本実施形態のクラスター分析では、1000個の単語を変数とする多次元のベクトル空間を想定しており、図示することはできないが、考え方は図3と同じである。
ベクトルの方向の近さは、内積式を用いて表すことができる。内積の計算式は以下の(3)式で表される。
Figure 2005092442
本実施形態では、ベクトルの方向が近い複数の技術文献を結合してクラスターを形成した後、クラスターに含まれる技術文献の各ベクトルの合成からクラスターのベクトルの向きを決定する重心法を適用する。
図6では、3つのクラスターを形成する例を示しているが、クラスターの数には特に制限はない。図6に示す各クラスター同士は互いに一定以上の距離があり、内積値が一定以下となるため、これ以上のクラスター化は行わない。
図7は図2のステップS6に示すクラスター作成処理の一例を示す詳細フローチャートである。まず、互いに異なる2種類のクラスター同士でベクトルの内積を計算する(ステップS21)。計算された内積値は、これら2種類の技術文献の類似度を表している。なお、初期状態では、各技術文献が別個のクラスターとして取り扱われる。
一つのクラスターの中に複数の技術文献が含まれている場合、各技術文献に対応するベクトルの平均ベクトルを計算して、異なる2つのクラスターの平均ベクトル同士の内積を計算する。
ステップS21の処理に前後して、複数の技術文献を同一のクラスターに含めるか否かの基準となる結合最大距離を設定する(ステップS22)。この結合最大距離の値は、試行錯誤により決定するのが望ましい。
次に、ステップS21で計算された内積値が結合最大距離より小さいか否かを判定する(ステップS23)。小さければ、比較した2種類のクラスターを同一のクラスターに含めるクラスター結合を行う(ステップS24)。そして、ステップS21に戻って、まだ比較していない2種類のクラスター同士で内積を計算する。
クラスターの結合は以下の(4)式〜(8)式に従って行う。これらの式では、クラスターaとクラスターbを結合する場合の計算手順を示している。
Figure 2005092442
クラスターaのベクトルPa(本明細書では、ベクトルを表す矢印を省略する)とクラスターbのベクトルPbとを加算したベクトルPabを生成した後、ベクトルの大きさが1になるように正規化する。
一方、ステップS23で、内積値が結合最大距離以上と判定されると、すべてのクラスター同士が結合最大距離を超えているか否かを判定する(ステップS25)。超えていないクラスター同士が存在すれば、そのクラスター同士でステップS21以降の処理を行い、超えていればクラスターの結合処理を終了し、クラスターを決定する(ステップS26)。このとき、クラスターリストとクラスター間距離表を作成する。
図8はクラスター間距離表の一例を示す図である。図8のクラスター間距離表には、すべてのクラスター同士の内積値またはクラスター間の相関係数が登録されている。
次に、クラスターごとに重要単語を抽出する(ステップS28)。重要単語を抽出する理由は、クラスターの特徴を見いだすためであり、各クラスター内における重要単語をウェイトwaの大きいものから順に30語程度を抽出する。単語ウェイトwaは、そのクラスターで頻出して、他のクラスターにはあまり出現しない単語ほど大きな値をとることから、クラスターの特徴を端的に表す言葉であると言える。これらの重要単語をウェイトの高い順に検出することにより、クラスターがどのような技術分類に該当するかを正確に把握できる。
環境技術に関する公開特許公報約618件に対して、図7の処理によるクラスター分析を行ったところ、図9に示す20のクラスターに分類することができた。
このように、本実施形態では、概念検索により検索された技術文献に対して形態素解析を行って得られた各単語にウェイトを付加して各技術文献をベクトル化し、ベクトルの向きが近い技術文献同士を一つのクラスターにまとめる処理を行うため、大量の技術文献をいくつかのクラスターに効率よく分類することができる。したがって、各クラスターの特徴を抽出することで、各技術文献にどのような内容が記載されているかを簡易かつ的確に把握できるようになる。
このようなクラスター分析により、既存の分析に依存しない新しい分類を構築できる。したがって、本実施形態を研究開発の現場で利用すると、先端的な技術の動向を事前に把握できることから、研究開発の方向を誤るおそれがなくなる。特に、最近の国内外の研究開発は、分野をまたがる学際的な内容が増加しており、IPC分類など従来の技術体系では、類似した技術が種々の分野に存在するため、先行技術の分析や技術動向を把握するのがますます困難になりつつある。このような現状にあって、本実施形態のクラスター分析手法は、類似した文献を分野を問わずに検索できるため、研究開発に必要な情報を漏れなく把握できる。
また、本実施形態を特許出願の先行調査に利用すると、関連のある先行技術文献を短時間で的確に検索でき、担当者の手間が省け、先行調査の促進と出願是非判断の適正化が図れる。
さらに、本実施形態は、製品情報の分析も行うことができるため、マーケティング分析にも利用でき、企業等の企画部門等でも有効活用できる。
上記の手順で作成したクラスター同士の近さ関係を視覚的に表した方が理解しやすい。そこで、以下では各クラスターを二次元平面上に配置する手法について説明する。
クラスターはもともと多次元(上記の例では1000次元)のベクトルで表現されており、これを二次元で表現すると、矛盾の生じる箇所が必ず出てくる。そこで、本実施形態では、クラスター間の距離が短いほど近さ関係を忠実に表現し、距離が長いほど歪みが大きくなるようにして矛盾を吸収する最適化を行う。
図10は図1の検索装置2が行うクラスターマップの作成処理の一例を示すフローチャートである。図8に示すクラスター間距離表に基づいて、各クラスターの二次元平面上の初期値を設定する(ステップS31)。初期値としては、例えば、各クラスターが円周上に並ぶように各クラスターの二次元座標を初期設定する。
次に、以下の(9)式に従って、クラスター間の二次元距離の誤差Eを計算する(ステップS32)。(9)式の右辺第1項は、クラスター間の距離が小さいほど大きくなり、クラスター間の距離が小さいほど右辺第2項が大きくなる。
Figure 2005092442
(9)式において、rijはクラスターiとクラスターjの内積(距離)、dijはクラスターiとクラスターjの二次元平面上の距離、(xi,yj)はクラスターiの二次元平面上の座標、a,bはパラメータである。
クラスターi,jの二次元平面上の距離dijは、(10)式で表される。
Figure 2005092442
図11は(10)式に基づいて二次元上に変換されたクラスターi,j間の距離の一覧を示す図である。また、図12は(10)式で示す距離dij(横軸)と(9)式で示す誤差E(縦軸)との関係を示す図であり、(9)式の右辺第1項は曲線a、右辺第2項は曲線b、右辺全体は曲線cで表される。図12に示すように、クラスター間の距離dijがある値のときに、誤差Eは最小になる。
図13はクラスターiとクラスターjの内積rijの値により誤差Eが変化する様子を示す図であり、曲線dは内積rij=0.7、曲線eは内積rij=0.5、曲線fは内積rij=0.2の場合を示している。図13に示すように、内積rijが大きいほど、すなわちクラスター間の距離が短いほど、誤差Eの変動は少なくなる。
次に、誤差Eが最小になったか否かを判定し(ステップS33)、最小でなければ各クラスターの二次元座標を少しずつずらす処理を行い(ステップS34)、再度、ステップS32以降の処理を行う。
図14は多次元空間上のクラスター間距離(横軸)と二次元平面上のクラスター間距離(縦軸)との関係を示す図であり、各プロットは実験値である。図14に示すように、クラスター間の距離が大きくなるに従って、クラスター間距離のばらつきが大きくなる。また、(9)式に基づいて誤差Eを計算すると、クラスター間の距離が近いほど、多次元空間上のクラスター間距離と二次元空間上のクラスター間距離との誤差が小さくなる。
図10のステップS33にて、誤差Eが最小になったと判定されると、その時点でのクラスター位置にて、二次元配置を決定し、クラスターマップを作成する(ステップS35)。
図15はクラスターマップの一例を示す図である。図15のクラスターマップは、環境技術に関する技術文献をクラスター分析した例を示している。
このように、本実施形態では、多次元空間上のクラスターを(9)式に示す誤差Eが最小になるように二次元平面上に配置してクラスターマップを作成するため、クラスター間の距離が近いほど、クラスター間距離の誤差精度の高いクラスターマップが得られ、類似したクラスター同士の関係を視覚的に把握できるようになる。
上述した実施形態で説明した多次元空間モデル表現装置は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、多次元空間モデル表現装置の少なくとも一部の機能を実現するプログラムをフロッピーディスクやCD−ROM等の記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等の携帯可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記録媒体でもよい。
また、多次元空間モデル表現装置の少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線(無線通信も含む)を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調をかけたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、あるいは記録媒体に収納して頒布してもよい。
本発明に係る多次元空間モデル表現装置の一実施形態の概略構成を示すブロック図。 図1の検索装置が行う処理手順の一例を示すフローチャート。 ステップS2の詳細な処理手順を示すフローチャート。 単語リストの一例を示す図。 各特許文献に含まれる単語の出現回数を記録した出現リストを示す図。 3つの単語からなるベクトル空間を示す図。 図2のステップS6に示すクラスター作成処理の一例を示す詳細フローチャート。 クラスター間距離表の一例を示す図。 環境技術に関する公開特許約5000件のクラスター分析結果を示す図。 クラスターマップの作成処理の一例を示すフローチャート。 (10)式に基づいて二次元上に変換されたクラスターi,j間の距離の一覧を示す図。 (10)式で示す距離dij(横軸)と(9)式で示す誤差E(縦軸)との関係を示す図。 クラスターiとクラスターjの内積rijの値により誤差Eが変化する様子を示す図。 多次元空間上のクラスター間距離(横軸)と二次元平面上のクラスター間距離(縦軸)との関係を示す図。 クラスターマップの一例を示す図。
符号の説明
1 利用者用端末装置
2 検索装置
3 管理用端末装置
4 技術情報データベース装置
5 関連情報データベース装置
6 関連語句データベース装置

Claims (7)

  1. 文書の中に含まれる複数の単語それぞれを次元とし、各単語の出現頻度に基づく重みをスカラー値とする多次元ベクトルで各文書を表現し、関連性の高い文書に対応する前記多次元ベクトルを合成したクラスターを複数作成するクラスター作成手段と、
    前記クラスター作成手段で作成されたクラスター間の多次元空間上の距離を二次元平面上の距離に変換する距離変換手段と、
    多次元空間上のクラスター間距離と二次元平面上のクラスター間距離との誤差を計算する誤差計算手段と、
    前記誤差が最小になるように、二次元平面上の各クラスターの位置を修正する位置修正手段と、
    前記誤差が最小になるまで、前記誤差計算手段および前記位置修正手段の処理を繰り返して得られた二次元平面上のクラスターの配置を表したクラスターマップを出力するマップ出力手段と、を備えることを特徴とする多次元空間モデル表現装置。
  2. 前記クラスター作成手段で作成された各クラスターを二次元平面上に配置するための初期値を設定する初期値設定手段を備え、
    前記誤差計算手段は、最初は、多次元空間上のクラスター間距離と前記初期値設定手段で設定された初期値に基づくクラスター間距離との誤差を計算し、その後は、多次元空間上のクラスター間距離と前記位置修正手段で修正されたクラスター間距離との誤差を計算することを特徴とする請求項1に記載の多次元空間モデル表現装置。
  3. 前記初期値設定手段は、二次元平面における円周上に各クラスターが配置されるように前記初期値を設定することを特徴とする請求項2に記載の多次元空間モデル表現装置。
  4. 前記誤差計算手段は、クラスター間の距離が近いほど前記誤差の精度を高くすることを特徴とする請求項1及至3のいずれかに記載の多次元空間モデル表現装置。
  5. 前記誤差計算手段は、
    比較対象である2つのクラスター同士の多次元空間上の距離と前記2つのクラスター同士の二次元平面上の距離とを乗算する多次元距離計算手段と、
    前記2つのクラスタ同士の二次元平面上の距離の逆数を計算する距離逆数計算手段と、
    前記多次元距離計算手段の乗算結果または該乗算結果のa乗(ただし、aは定数)と、前記距離逆数計算手段の計算結果と、を足し合わせる第1加算手段と、
    任意の2つのクラスター同士についての前記第1加算手段による加算結果を足し合わせて前記誤差を算出する第2加算手段と、を有することを特徴とする請求項3に記載の多次元空間モデル表現装置。
  6. 前記クラスター作成手段は、
    検索対象となる複数の文書が格納された文書格納手段と、
    入力された検索文を検索キーとして前記複数の文書を検索して、前記検索文と類似する文書を検索する概念検索手段と、
    前記検索された文書に対して形態素解析を行って、前記検索された文書に含まれる複数の単語を抽出する形態素解析手段と、
    抽出された前記複数の単語が前記検索された文書の中に現れる出現頻度に基づいて、前記複数の単語それぞれの重み付けを行う重み付け手段と、
    前記重み付け手段による重み付け結果に基づいて、前記検索された文書に含まれる複数の単語の中から重みの大きい順に所定個の単語を抽出する次元引き下げ手段と、
    前記次元引き下げ手段で抽出された単語の重みに基づいて、前記検索された文書を複数のクラスターに分類するクラスター分類手段と、を有することを特徴とする多次元空間モデル表現装置。
  7. 文書の中に含まれる複数の単語それぞれを次元とし、各単語の出現頻度に基づく重みをスカラー値とする多次元ベクトルで各文書を表現し、関連性の高い文書に対応する前記多次元ベクトルを合成したクラスターを複数作成するステップと、
    作成されたクラスター間の多次元空間上の距離を二次元平面上の距離に変換するステップと、
    多次元空間上のクラスター間距離と二次元平面上のクラスター間距離との誤差を計算するステップと、
    前記誤差が最小になるように、二次元平面上の各クラスターの位置を修正するステップと、
    前記誤差が最小になるまで、前記誤差の計算と各クラスターの位置の修正とを繰り返して得られた二次元平面上のクラスターの配置を表したクラスターマップを出力するステップと、を備えることを特徴とする多次元空間モデル表現方法。
JP2003323326A 2003-09-16 2003-09-16 多次元空間モデル表現装置および多次元空間モデル表現方法 Pending JP2005092442A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003323326A JP2005092442A (ja) 2003-09-16 2003-09-16 多次元空間モデル表現装置および多次元空間モデル表現方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003323326A JP2005092442A (ja) 2003-09-16 2003-09-16 多次元空間モデル表現装置および多次元空間モデル表現方法

Publications (1)

Publication Number Publication Date
JP2005092442A true JP2005092442A (ja) 2005-04-07

Family

ID=34454435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003323326A Pending JP2005092442A (ja) 2003-09-16 2003-09-16 多次元空間モデル表現装置および多次元空間モデル表現方法

Country Status (1)

Country Link
JP (1) JP2005092442A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007334871A (ja) * 2006-05-15 2007-12-27 Data Keekibeeka Kk データ処理方法、データ処理装置、プログラムおよび記録媒体
JP2007334865A (ja) * 2006-05-15 2007-12-27 Data Keekibeeka Kk データ処理方法、データ処理装置およびプログラム
JP2008176758A (ja) * 2006-12-20 2008-07-31 Nec Corp グループ関係性表示システム、グループ関係性表示方法およびグループ関係性表示プログラム
JP2008243127A (ja) * 2007-03-29 2008-10-09 Chuden Cti Co Ltd 入力情報分析装置
US7769771B2 (en) 2006-07-19 2010-08-03 Ricoh Company, Ltd. Searching a document using relevance feedback
KR101099154B1 (ko) 2008-10-27 2011-12-27 유동곤 검색 서비스 제공 방법 및 시스템
US8676738B2 (en) 2008-09-03 2014-03-18 Nec Corporation Relationship detector, relationship detection method, and recording medium
US8965896B2 (en) 2009-12-22 2015-02-24 Nec Corporation Document clustering system, document clustering method, and recording medium
JP2017084368A (ja) * 2015-10-28 2017-05-18 富士通株式会社 トピック表現の精緻化
JP2018055604A (ja) * 2016-09-30 2018-04-05 ジャパンモード株式会社 創作支援プログラム
JP2019028901A (ja) * 2017-08-03 2019-02-21 株式会社toor 状態判定装置、状態判定方法及び状態判定プログラム
US10747955B2 (en) 2017-03-30 2020-08-18 Fujitsu Limited Learning device and learning method

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007334871A (ja) * 2006-05-15 2007-12-27 Data Keekibeeka Kk データ処理方法、データ処理装置、プログラムおよび記録媒体
JP2007334865A (ja) * 2006-05-15 2007-12-27 Data Keekibeeka Kk データ処理方法、データ処理装置およびプログラム
US7769771B2 (en) 2006-07-19 2010-08-03 Ricoh Company, Ltd. Searching a document using relevance feedback
JP2008176758A (ja) * 2006-12-20 2008-07-31 Nec Corp グループ関係性表示システム、グループ関係性表示方法およびグループ関係性表示プログラム
JP2008243127A (ja) * 2007-03-29 2008-10-09 Chuden Cti Co Ltd 入力情報分析装置
US8676738B2 (en) 2008-09-03 2014-03-18 Nec Corporation Relationship detector, relationship detection method, and recording medium
KR101099154B1 (ko) 2008-10-27 2011-12-27 유동곤 검색 서비스 제공 방법 및 시스템
US8965896B2 (en) 2009-12-22 2015-02-24 Nec Corporation Document clustering system, document clustering method, and recording medium
JP2017084368A (ja) * 2015-10-28 2017-05-18 富士通株式会社 トピック表現の精緻化
JP2018055604A (ja) * 2016-09-30 2018-04-05 ジャパンモード株式会社 創作支援プログラム
US10747955B2 (en) 2017-03-30 2020-08-18 Fujitsu Limited Learning device and learning method
JP2019028901A (ja) * 2017-08-03 2019-02-21 株式会社toor 状態判定装置、状態判定方法及び状態判定プログラム
US10621028B2 (en) 2017-08-03 2020-04-14 Toor Inc. State determining device, state determining method, and state determining program

Similar Documents

Publication Publication Date Title
Paulovich et al. Least square projection: A fast high-precision multidimensional projection technique and its application to document mapping
Paliwal et al. Semantics-based automated service discovery
Kolda et al. Higher-order web link analysis using multilinear algebra
CN110674407B (zh) 基于图卷积神经网络的混合推荐方法
CN102456016B (zh) 一种对搜索结果进行排序的方法及装置
JP6123143B1 (ja) 特許要件適否予測装置および特許要件適否予測プログラム
WO2008106667A1 (en) Searching heterogeneous interrelated entities
US20110191335A1 (en) Method and system for conducting legal research using clustering analytics
Tuarob et al. A generalized topic modeling approach for automatic document annotation
EP1835422A1 (en) Information processing device and method, and program
JP6308708B1 (ja) 特許要件適否予測装置および特許要件適否予測プログラム
CN104899229A (zh) 基于群体智能的行为聚类系统
CN109816015B (zh) 一种基于材料数据的推荐方法及系统
JP2005092442A (ja) 多次元空間モデル表現装置および多次元空間モデル表現方法
CN111078835A (zh) 简历评估方法、装置、计算机设备及存储介质
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
Aruleba et al. A full text retrieval system in a digital library environment
KR20180129001A (ko) 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템
JP2005092443A (ja) クラスター分析装置およびクラスター分析方法
JP5432936B2 (ja) ランキングモデル選択機能を有する文書検索装置、ランキングモデル選択機能を有する文書検索方法およびランキングモデル選択機能を有する文書検索プログラム
Schirmer et al. A new dataset for topic-based paragraph classification in genocide-related court transcripts
Dhar et al. Mathematical document retrieval system based on signature hashing
CN117056392A (zh) 一种基于动态超图技术的大数据检索服务系统及方法
JP2010282403A (ja) 文書検索方法
Li et al. A Dense Retrieval System and Evaluation Dataset for Scientific Computational Notebooks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090324

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090807