JP2005092443A - クラスター分析装置およびクラスター分析方法 - Google Patents

クラスター分析装置およびクラスター分析方法 Download PDF

Info

Publication number
JP2005092443A
JP2005092443A JP2003323362A JP2003323362A JP2005092443A JP 2005092443 A JP2005092443 A JP 2005092443A JP 2003323362 A JP2003323362 A JP 2003323362A JP 2003323362 A JP2003323362 A JP 2003323362A JP 2005092443 A JP2005092443 A JP 2005092443A
Authority
JP
Japan
Prior art keywords
cluster
words
document
documents
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003323362A
Other languages
English (en)
Inventor
Tatsuo Nakamura
村 達 生 中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Research Institute Inc
Original Assignee
Mitsubishi Research Institute Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Research Institute Inc filed Critical Mitsubishi Research Institute Inc
Priority to JP2003323362A priority Critical patent/JP2005092443A/ja
Publication of JP2005092443A publication Critical patent/JP2005092443A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 概念検索により検索された文書を簡易かつ効率的に分類すること。
【解決手段】 クラスター分析装置は、検索文の入力や検索結果の出力を行う利用者用端末装置1と、検索文に基づいて特許文献等の技術文献の検索処理を行う検索装置2と、検索装置2に特許文献等の技術文献の登録を行う管理用端末装置3とを備えている。概念検索により検索された技術文献に対して形態素解析を行って得られた各単語にウェイトを付加して、各技術文献をベクトル化し、ベクトルの向きが近い技術文献同士を一つのクラスターにまとめる処理を行うため、大量の技術文献をいくつかのクラスターに効率よく分類することができる。
【選択図】 図1

Description

本発明は、概念検索を利用して検索対象文をいずれかのクラスターに分類して分析するクラスター分析装置に関する。
複数の文書の内容を分析する場合、個々の文書が特定のキーワードを含むか否かを検索して、キーワードを頼りにして複数の文書を分類して分析するのが一般的であった。ところが、この手法では、文書の内容を理解できる専門家を多数必要とし、文書の量が増えるに従って、検索時間が長くなるため、時系列分析に必要なタイムリーな分析は望めない。
また、キーワードを含むか否かが分類のための条件になるため、そのキーワードの同義語や新語に基づいて検索を行うことはできない。同義語についての検索を行う検索手法も知られているが、技術用語のように次々に新しい同義語が生み出される場合には、精度のよい検索は行えない。
また、分類した各グループ間のつながりや関係が不明確あるいは定量的に表せないため、コアとなるグループを容易には検出できない。
さらに、従来の分類にあてはまりにくい新しい分野の文書や新規性のある文書の類型化が困難なため、研究開発における先行調査やマーケティング分析における最新動向の把握にさほど役立たないという致命的な課題がある。
一方、検索したい内容を文章で入力して、その内容に近い文書を検索をする概念検索と呼ばれる手法も知られている。概念検索は、キーワードが思いつかない場合やキーワードを絞りきれない場合に有効な検索手法である。
しかしながら、概念検索を行った結果、多数の文書が検索される場合があり、所望の文書を検索するのに時間がかかってしまう。また、異なる検索文章で複数の概念検索を行った場合、各検索結果として得られた文書の互いの関連を知る有効な手段がなかった。このような理由から、概念検索を行っても、効率的に検索を行うのは難しい。
本発明は、このような問題点に鑑みてなされたものであり、その目的は、概念検索により検索された文書を簡易かつ効率的に分類することができるクラスター分析装置およびクラスター分析方法を提供することにある。
上記の課題を解決するために、検索対象となる複数の文書が格納された文書格納手段と、入力された検索文を検索キーとして前記複数の文書を検索して、前記検索文と類似する文書を検索する概念検索手段と、前記検索された文書に対して形態素解析を行って、前記検索された文書に含まれる複数の単語を抽出する形態素解析手段と、抽出された前記複数の単語が前記検索された文書の中に現れる出現頻度に基づいて、前記複数の単語それぞれの重み付けを行う重み付け手段と、前記重み付け手段による重み付け結果に基づいて、前記検索された文書に含まれる複数の単語の中から重みの大きい順に所定個の単語を抽出する次元引き下げ手段と、前記次元引き下げ手段で抽出された単語の重みに基づいて、前記検索された文書を複数のクラスターに分類するクラスター分類手段と、個々のクラスターごとに重要単語を抽出する重要単語抽出手段と、を備える。
本発明によれば、検索された文書に含まれる単語の重みに基づいて、文書を複数のクラスターに分類するため、各文書の関連性を簡易かつ的確に分析することができる。
以下、図面を参照しながら、本発明に係るクラスター分析装置の一実施形態を説明する。以下では、一例として特許文献のクラスター分析を行う例を説明するが、クラスター分析の対象となる文書は、特許文献に限らず、各種の論文(技術的な論文に限らない)、技術所報(企業等の社内技報など)や出版社が発行する各種雑誌や書籍などでもよい。あるいは、新聞の記事、マーケティングにより収集した顧客情報、アンケートの定性的な回答なども対象となりうる。。
ここで、クラスター分析(Cluster Analysis)とは、異質なものが混ざり合っている対象を、それらの間に何らかの意味で定義された指標を手がかりにして似たものを集め、いくつかの均質なものの集落(クラスター)に分類する手法を総称したものである(「多変量解析法」、現代数学社、p230参照)。
図1は本発明に係るクラスター分析装置の一実施形態の概略構成を示すブロック図である。図1のクラスター分析装置は、検索文の入力や検索結果の出力を行う利用者用端末装置1と、検索文に基づいて特許文献の検索処理を行う検索装置2と、検索装置2に特許文献等の技術文献の登録を行う管理用端末装置3とを備えている。
各端末装置1はパーソナルコンピュータ(以下、PC)などの比較的小型のコンピュータで構成され、検索装置2はサーバーなどの比較的大型のコンピュータで構成される。
検索装置2は、表示装置2aとプリンタ2bとを有し、検索装置2には、検索対象となる技術文献が登録された技術情報データベース(DB)装置4と、論文等の関連情報が登録された関連情報データベース装置5と、関連語句が登録された関連語句データベース装置6とが接続されている。
各端末装置1と検索装置2とは、ローカルエリアネットワーク(以下、LAN)、インターネットまたは通信回線等の通信網を介してデータの送受信を行う。
ユーザは、利用者用端末装置1のキーボード等から検索文を入力する。検索文には、字数制限や文字種制限がなく、各自の言葉で任意の文章を入力することができる。また、検索対象の正式な名称が不明でも、概念や仕組みを説明する文章を入力することにより検索を行うことができる。例えば、「水素と酸素を用いて、発電する仕組みや技術」という文章を検索文として入力することで検索を行える。この場合、後述するように、「燃料電池」に関する技術文献が抽出される。
検索装置2は、利用者用端末装置1で入力された検索文に基づいて検索処理を行い、その検索結果は利用者用端末装置1に送られる。また、管理用端末装置3は検索装置2に特許文献を登録し、検索装置2は管理用端末装置3に管理情報を送信する。
図2は図1の検索装置が行う処理手順の一例を示すフローチャートである。まず、ユーザが利用者用端末装置1から入力した検索文を取り込む(ステップS1)。次に、検索文を検索キーとして、技術情報データベース装置に登録されている技術文献の概念検索を行う(ステップS2)。
図3はステップS2の詳細な処理手順を示すフローチャートである。技術情報データベース装置4に登録されるべき各技術文献は、形態素解析されて、各単語ごとに単語ベクトルが生成された後、技術情報データベース装置4に登録される(ステップS11〜S14)。
一方、ユーザが入力した検索文も、形態素解析されて、各単語ごとに単語ベクトルが生成される(ステップS15〜S17)。
ここで、形態素解析とは、文章(自然文)に含まれている単語を抽出するものであり、具体的には複合名詞句と数詞を抽出する。例えば、上述した「水素と酸素を用いて、発電する仕組みや技術」という検索文の場合、「水素」、「酸素」、「発電」、「仕組み」、「技術」、「用いる」の6つの単語とその類似語が抽出される。
続いて、検索文の単語ベクトルと技術情報データベース装置4に登録された各単語ベクトルとの間で内積を演算し(ステップS18)、その演算結果に基づいて類似度を判定する(ステップS19)。
なお、技術情報データベース装置4には、多数の技術文献が登録されており、各技術文献ごとに検索語群との間で内積を演算して類似度を検出する。そして、図2のステップS2では、類似度の高い技術文献を、検索文書として抽出する。ここでは、内積値が「1」に近いものを類似度が高い技術文献として抽出する。以下では、環境技術の対象5分野に関する数百以上の技術文献(当該事例では、618件の特許公開公報)が検索文書として抽出されたものとする。
ステップS2の処理が終わって検索文書が抽出されると、各検索文書ごとに上述した形態素解析を行って、単語リストを作成する(ステップS3)。具体的には、上述した環境技術に関する技術文献(618件の特許公開公報)を、形態素解析により「てにをは」を抜かした単語と語幹に分割し、重要単語の出現頻度を算定する。
ここで、重要単語とは、科学技術基本計画中に謡われている技術用語およびそれらの関連語等からなる2500語を採用する。図4は単語リストの一例である。この単語リストは、必要不可欠な単語をほぼすべて網羅しており、重要度がそれほど高くない単語も含まれるが、後述するウェイトにより自動的に除外されるため、特に問題はない。
次に、単語リストに含まれる各単語に、重要度に応じたウェイトを付加し、各技術文献ごとにウェイト表を作成する(ステップS4)。ウェイトの算定式は以下の(1)式で表される。
wij=TFij×IDFj …(1)
(1)式において、wijは技術文献i中の単語jのウェイト、TFijは技術文献i中の単語jの出現頻度(Term Frequency)、IDFjは技術情報DB装置4中の単語jが現れる特許文献の件数比率の逆数である。
次に、ウェイト表に登録された単語のうちウェイトの高い一部の単語を抽出する、いわゆる次元引き下げ処理を行い、新たなウェイト表を作成する(ステップS5)。
図5は各技術文献に含まれる重要単語の出現回数を記録した出現リストの一例を示す図である。関連語として挙げられている各重要単語は、上記のステップS3で作成された単語リストに含まれる単語である。どの技術文献にも現れる単語は、いわゆる機能語と呼ばれるもので、各技術文献を特徴づける単語ではない。そこで、単語リストに含まれる2500語の単語の中から機能語を除外して、ウェイトの高い順に並べ、上位1000個を抽出する。
このような次元引き下げ処理を行うことにより、クラスター分析の高速化を図れる。抽出された単語を含む特許文献は、(2)式のようなベクトルPaで表現される。
Figure 2005092443
(2)式の右辺は、抽出された各単語のウェイトwa1,…,wamを表している。すなわち、抽出された各単語は、ウェイトをスカラー値とする、互いに異なる次元である。
次に、ステップS5で作成されたウェイト表を用いて、関連のある特許文献をまとめたクラスターを作成する(ステップS6)。具体的には、技術文献データベース装置に登録されている環境技術関連の技術文献(618件の特許公開公報)を、既存の概念や枠組みによらずに、内容の類似性に基づいて分類し、クラスター化する。
上記の(2)式のベクトルPaの向き具合によって、技術文献同士の類似度を判定することができる。例えば、図6は3つの単語からなる三次元のベクトル空間を想定しており、技術文献の向きから、3つのクラスターを生成する例を示している。本実施形態のクラスター分析では、1000個の単語を変数とする多次元のベクトル空間を想定しており、図示することはできないが、考え方は図3と同じである。
ベクトルの方向の近さは、内積式を用いて表すことができる。内積の計算式は以下の(3)式で表される。
Figure 2005092443
本実施形態では、ベクトルの方向が近い複数の技術文献を結合してクラスターを形成した後、クラスターに含まれる技術文献の各ベクトルの合成からクラスターのベクトルの向きを決定する重心法を適用する。
図6では、3つのクラスターを形成する例を示しているが、クラスターの数には特に制限はない。図6に示す各クラスター同士は互いに一定以上の距離があり、内積値が一定以下となるため、これ以上のクラスター化は行わない。
図7は図2のステップS6に示すクラスター作成処理の一例を示す詳細フローチャートである。まず、互いに異なる2種類のクラスター同士でベクトルの内積を計算する(ステップS21)。計算された内積値は、これら2種類の技術文献の類似度を表している。なお、初期状態では、各技術文献が別個のクラスターとして取り扱われる。
一つのクラスターの中に複数の技術文献が含まれている場合、各技術文献に対応するベクトルの平均ベクトルを計算して、異なる2つのクラスターの平均ベクトル同士の内積を計算する。
ステップS21の処理に前後して、複数の技術文献を同一のクラスターに含めるか否かの基準となる結合最大距離を設定する(ステップS22)。この結合最大距離の値は、試行錯誤により決定するのが望ましい。
次に、ステップS21で計算された内積値が結合最大距離より小さいか否かを判定する(ステップS23)。小さければ、比較した2種類のクラスターを同一のクラスターに含めるクラスター結合を行う(ステップS24)。そして、ステップS21に戻って、まだ比較していない2種類のクラスター同士で内積を計算する。
クラスターの結合は以下の(4)式〜(8)式に従って行う。これらの式では、クラスターaとクラスターbを結合する場合の計算手順を示している。
Figure 2005092443
クラスターaのベクトルPa(本明細書では、ベクトルを表す矢印を省略する)とクラスターbのベクトルPbとを加算したベクトルPabを生成した後、ベクトルの大きさが1になるように正規化する。
一方、ステップS23で、内積値が結合最大距離以上と判定されると、すべてのクラスター同士が結合最大距離を超えているか否かを判定する(ステップS25)。超えていないクラスター同士が存在すれば、そのクラスター同士でステップS21以降の処理を行い、超えていればクラスターの結合処理を終了し、クラスターを決定する(ステップS26)。このとき、クラスターリストとクラスター間距離表を作成する。
図8はクラスター間距離表の一例を示す図である。図8のクラスター間距離表には、すべてのクラスター同士の内積値またはクラスター間の相関係数が登録されている。
次に、クラスターごとに重要単語を抽出する(ステップS28)。重要単語を抽出する理由は、クラスターの特徴を見いだすためであり、各クラスター内における重要単語をウェイトwaの大きいものから順に30語程度を抽出する。単語ウェイトwaは、そのクラスターで頻出して、他のクラスターにはあまり出現しない単語ほど大きな値をとることから、クラスターの特徴を端的に表す言葉であると言える。これらの重要単語をウェイトの高い順に検出することにより、クラスターがどのような技術分類に該当するかを正確に把握できる。
環境技術に関する特許公開公報約618件に対して、図7の処理によるクラスター分析を行ったところ、図9に示す20のクラスターに分類することができた。
このように、本実施形態では、概念検索により検索された技術文献に対して形態素解析を行って得られた各単語にウェイトを付加して各技術文献をベクトル化し、ベクトルの向きが近い技術文献同士を一つのクラスターにまとめる処理を行うため、大量の技術文献をいくつかのクラスターに効率よく分類することができる。したがって、各クラスターの特徴を抽出することで、各技術文献にどのような内容が記載されているかを簡易かつ的確に把握できるようになる。
このようなクラスター分析により、既存の分析に依存しない新しい分類を構築できる。したがって、本実施形態を研究開発の現場で利用すると、先端的な技術の動向を事前に把握できることから、研究開発の方向を誤るおそれがなくなる。特に、最近の国内外の研究開発は、分野をまたがる学際的な内容が増加しており、IPC分類など従来の技術体系では、類似した技術が種々の分野に存在するため、先行技術の分析や技術動向を把握するのがますます困難になりつつある。このような現状にあって、本実施形態のクラスター分析手法は、類似した文献を分野を問わずに検索できるため、研究開発に必要な情報を漏れなく把握できる。
また、本実施形態を特許出願の先行調査に利用すると、関連のある先行技術文献を短時間で的確に検索でき、担当者の手間が省け、先行調査の促進と出願是非判断の適正化が図れる。
さらに、本実施形態は、製品情報の分析も行うことができるため、マーケティング分析にも利用でき、企業等の企画部門等でも有効活用できる。
上述した実施形態で説明したクラスター分析装置は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、クラスター分析装置の少なくとも一部の機能を実現するプログラムをフロッピーディスクやCD−ROM等の記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等の携帯可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記録媒体でもよい。
また、クラスター分析装置の少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線(無線通信も含む)を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調をかけたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、あるいは記録媒体に収納して頒布してもよい。
本発明に係る多次元空間モデル表現装置の一実施形態の概略構成を示すブロック図。 図1の検索装置が行う処理手順の一例を示すフローチャート。 ステップS2の詳細な処理手順を示すフローチャート。 単語リストの一例を示す図。 各特許文献に含まれる単語の出現回数を記録した出現リストを示す図。 3つの単語からなるベクトル空間を示す図。 図2のステップS6に示すクラスター作成処理の一例を示す詳細フローチャート。 クラスター間距離表の一例を示す図。 環境技術に関する公開特許約5000件のクラスター分析結果を示す図。
符号の説明
1 利用者用端末装置
2 検索装置
3 管理用端末装置
4 技術情報データベース装置
5 関連情報データベース装置
6 関連語句データベース装置

Claims (7)

  1. 検索対象となる複数の文書が格納された文書格納手段と、
    入力された検索文を検索キーとして前記複数の文書を検索して、前記検索文と類似する文書を検索する概念検索手段と、
    前記検索された文書に対して形態素解析を行って、前記検索された文書に含まれる複数の単語を抽出する形態素解析手段と、
    抽出された前記複数の単語が前記検索された文書の中に現れる出現頻度に基づいて、前記複数の単語それぞれの重み付けを行う重み付け手段と、
    前記重み付け手段による重み付け結果に基づいて、前記検索された文書に含まれる複数の単語の中から重みの大きい順に所定個の単語を抽出する次元引き下げ手段と、
    前記次元引き下げ手段で抽出された単語の重みに基づいて、前記検索された文書を複数のクラスターに分類するクラスター分類手段と、
    個々のクラスターごとに重要単語を抽出する重要単語抽出手段と、を備えることを特徴とするクラスター分析装置。
  2. 異なる2つのクラスター間の距離が所定の基準値未満か否かを判定するクラスター間距離判定手段と、
    前記基準値未満と判定された場合に、前記2つのクラスター同士を結合するクラスター結合手段と、を備え、
    すべてのクラスター同士の組み合わせについて、前記クラスター間距離判定手段にて前記基準値以上と判定されるまで、前記クラスター結合手段による結合処理を繰り返し行うことを特徴とする請求項1に記載のクラスター分析装置。
  3. 前記クラスター間距離判定手段は、前記次元引き下げ手段で抽出された単語それぞれをベクトルの次元とし、該単語それぞれの重みをスカラー値とする、前記検索された文書それぞれに対応するベクトルを生成して、これらベクトル同士の内積により、前記2つのクラスター間の距離が前記基準値未満か否かを判定することを特徴とする請求項2に記載のクラスター分析装置。
  4. 前記クラスター距離判定手段は、クラスターに含まれる全ベクトルの平均ベクトルと他のクラスターに含まれる全ベクトルの平均ベクトルとの内積値に基づいて、前記2つのクラスター間の距離が前記基準値未満か否かを判定することを特徴とする請求項3に記載のクラスター分析装置。
  5. 前記重み付け手段は、前記検索された文書の中に特定の単語が現れる出現頻度と、前記文書格納手段に格納された複数の文書に前記特定の単語が現れる件数比率の逆数と、に基づいて、前記複数の単語それぞれの重み付けを行うことを特徴とする請求項1〜4のいずれかに記載のクラスター分析装置。
  6. 前記重要単語抽出手段は、個々のクラスターごとに、重みの大きい単語から順に所定個の重要単語を抽出することを特徴とする請求項1〜5のいずれかに記載のクラスター分析装置。
  7. 入力された検索文を検索キーとして、検索対象となる複数の文書が格納された文書格納手段を検索して、前記検索文と類似する文書を検索するステップと、
    前記検索された文書に対して形態素解析を行って、前記検索された文書に含まれる複数の単語を抽出するステップと、
    抽出された前記複数の単語が前記検索された文書の中に現れる出現頻度に基づいて、前記複数の単語それぞれの重み付けを行うステップと、
    前記重み付け手段による重み付け結果に基づいて、前記検索された文書に含まれる複数の単語の中から重みの大きい順に所定個の単語を抽出するステップと、
    前記次元引き下げ手段で抽出された単語の重みに基づいて、前記検索された文書を複数のクラスターに分類するステップと、
    個々のクラスターごとに重要単語を抽出するステップと、を備えることを特徴とするクラスター分析方法。
JP2003323362A 2003-09-16 2003-09-16 クラスター分析装置およびクラスター分析方法 Pending JP2005092443A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003323362A JP2005092443A (ja) 2003-09-16 2003-09-16 クラスター分析装置およびクラスター分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003323362A JP2005092443A (ja) 2003-09-16 2003-09-16 クラスター分析装置およびクラスター分析方法

Publications (1)

Publication Number Publication Date
JP2005092443A true JP2005092443A (ja) 2005-04-07

Family

ID=34454462

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003323362A Pending JP2005092443A (ja) 2003-09-16 2003-09-16 クラスター分析装置およびクラスター分析方法

Country Status (1)

Country Link
JP (1) JP2005092443A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164789A (ja) * 2005-12-12 2007-06-28 Internatl Business Mach Corp <Ibm> 意味構造及び機能関係に従ってポータル・ページ上にポートレットを自動配置するためのシステム
JP2008077137A (ja) * 2006-09-19 2008-04-03 Yafoo Japan Corp ドキュメントデータを検索する方法、サーバ、およびプログラム
CN104881401A (zh) * 2015-05-27 2015-09-02 大连理工大学 一种专利文献聚类方法
WO2020235468A1 (ja) 2019-05-17 2020-11-26 株式会社アイエクセス クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム
KR20210105449A (ko) * 2020-02-18 2021-08-27 한양대학교 산학협력단 기술의 기능을 정량화하는 방법 및 이를 이용하는 기술 트렌드 분석 방법
CN115098690A (zh) * 2022-08-24 2022-09-23 中信天津金融科技服务有限公司 一种基于聚类分析的多数据文档分类方法及系统
US11816421B2 (en) 2019-05-17 2023-11-14 Aixs, Inc. Summary creation method, summary creation system, and summary creation program
US11989222B2 (en) 2019-05-17 2024-05-21 Aixs, Inc. Cluster analysis method, cluster analysis system, and cluster analysis program

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8108395B2 (en) 2005-12-12 2012-01-31 International Business Machines Corporation Automatic arrangement of portlets on portal pages according to semantical and functional relationship
JP2007164789A (ja) * 2005-12-12 2007-06-28 Internatl Business Mach Corp <Ibm> 意味構造及び機能関係に従ってポータル・ページ上にポートレットを自動配置するためのシステム
JP2008077137A (ja) * 2006-09-19 2008-04-03 Yafoo Japan Corp ドキュメントデータを検索する方法、サーバ、およびプログラム
CN104881401A (zh) * 2015-05-27 2015-09-02 大连理工大学 一种专利文献聚类方法
CN104881401B (zh) * 2015-05-27 2017-10-17 大连理工大学 一种专利文献聚类方法
US11636144B2 (en) 2019-05-17 2023-04-25 Aixs, Inc. Cluster analysis method, cluster analysis system, and cluster analysis program
WO2020235468A1 (ja) 2019-05-17 2020-11-26 株式会社アイエクセス クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム
US11989222B2 (en) 2019-05-17 2024-05-21 Aixs, Inc. Cluster analysis method, cluster analysis system, and cluster analysis program
US11816421B2 (en) 2019-05-17 2023-11-14 Aixs, Inc. Summary creation method, summary creation system, and summary creation program
KR20210105449A (ko) * 2020-02-18 2021-08-27 한양대학교 산학협력단 기술의 기능을 정량화하는 방법 및 이를 이용하는 기술 트렌드 분석 방법
KR102470555B1 (ko) * 2020-02-18 2022-11-24 한양대학교 산학협력단 기술의 기능을 정량화하는 방법 및 이를 이용하는 기술 트렌드 분석 방법
CN115098690B (zh) * 2022-08-24 2023-02-24 中信天津金融科技服务有限公司 一种基于聚类分析的多数据文档分类方法及系统
CN115098690A (zh) * 2022-08-24 2022-09-23 中信天津金融科技服务有限公司 一种基于聚类分析的多数据文档分类方法及系统

Similar Documents

Publication Publication Date Title
US8108204B2 (en) Text categorization using external knowledge
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
EP1835422A1 (en) Information processing device and method, and program
Tuarob et al. A generalized topic modeling approach for automatic document annotation
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
US20110191335A1 (en) Method and system for conducting legal research using clustering analytics
Gupta et al. A novel hybrid text summarization system for Punjabi text
US20050138079A1 (en) Processing, browsing and classifying an electronic document
Verma et al. A novel approach for text summarization using optimal combination of sentence scoring methods
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
KR20190124986A (ko) 연관법령 제공 방법
JP2005092442A (ja) 多次元空間モデル表現装置および多次元空間モデル表現方法
Budikova et al. ConceptRank for search-based image annotation
CN111753526A (zh) 一种相似竞品数据分析方法及系统
JP2005092443A (ja) クラスター分析装置およびクラスター分析方法
Park et al. Extracting search intentions from web search logs
Schirmer et al. A new dataset for topic-based paragraph classification in genocide-related court transcripts
CN110688559A (zh) 一种检索方法及装置
Wang et al. User intention-based document summarization on heterogeneous sentence networks
JP2010282403A (ja) 文書検索方法
Selvalakshmi et al. Semantic Conceptual Relational Similarity Based Web Document Clustering for Efficient Information Retrieval Using Semantic Ontology.
Noviana et al. Using of thesaurus in query expansion on information retrieval as value creation strategy through big data analytics
JP2002215642A (ja) フィードバック型インターネット検索方法及びその方法を実施するためのシステムとプログラム記録媒体
Romero-Córdoba et al. A comparative study of soft computing software for enhancing the capabilities of business document management systems
Pellegrin et al. Exploiting label semantic relatedness for unsupervised image annotation with large free vocabularies

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090324

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090807