JP2005092443A

JP2005092443A - クラスター分析装置およびクラスター分析方法

Info

Publication number: JP2005092443A
Application number: JP2003323362A
Authority: JP
Inventors: Tatsuo Nakamura; 村達生中
Original assignee: Mitsubishi Research Institute Inc
Current assignee: Mitsubishi Research Institute Inc
Priority date: 2003-09-16
Filing date: 2003-09-16
Publication date: 2005-04-07

Abstract

【課題】概念検索により検索された文書を簡易かつ効率的に分類すること。
【解決手段】クラスター分析装置は、検索文の入力や検索結果の出力を行う利用者用端末装置１と、検索文に基づいて特許文献等の技術文献の検索処理を行う検索装置２と、検索装置２に特許文献等の技術文献の登録を行う管理用端末装置３とを備えている。概念検索により検索された技術文献に対して形態素解析を行って得られた各単語にウェイトを付加して、各技術文献をベクトル化し、ベクトルの向きが近い技術文献同士を一つのクラスターにまとめる処理を行うため、大量の技術文献をいくつかのクラスターに効率よく分類することができる。
【選択図】図１

Description

本発明は、概念検索を利用して検索対象文をいずれかのクラスターに分類して分析するクラスター分析装置に関する。

複数の文書の内容を分析する場合、個々の文書が特定のキーワードを含むか否かを検索して、キーワードを頼りにして複数の文書を分類して分析するのが一般的であった。ところが、この手法では、文書の内容を理解できる専門家を多数必要とし、文書の量が増えるに従って、検索時間が長くなるため、時系列分析に必要なタイムリーな分析は望めない。

また、キーワードを含むか否かが分類のための条件になるため、そのキーワードの同義語や新語に基づいて検索を行うことはできない。同義語についての検索を行う検索手法も知られているが、技術用語のように次々に新しい同義語が生み出される場合には、精度のよい検索は行えない。

また、分類した各グループ間のつながりや関係が不明確あるいは定量的に表せないため、コアとなるグループを容易には検出できない。

さらに、従来の分類にあてはまりにくい新しい分野の文書や新規性のある文書の類型化が困難なため、研究開発における先行調査やマーケティング分析における最新動向の把握にさほど役立たないという致命的な課題がある。

一方、検索したい内容を文章で入力して、その内容に近い文書を検索をする概念検索と呼ばれる手法も知られている。概念検索は、キーワードが思いつかない場合やキーワードを絞りきれない場合に有効な検索手法である。

しかしながら、概念検索を行った結果、多数の文書が検索される場合があり、所望の文書を検索するのに時間がかかってしまう。また、異なる検索文章で複数の概念検索を行った場合、各検索結果として得られた文書の互いの関連を知る有効な手段がなかった。このような理由から、概念検索を行っても、効率的に検索を行うのは難しい。

本発明は、このような問題点に鑑みてなされたものであり、その目的は、概念検索により検索された文書を簡易かつ効率的に分類することができるクラスター分析装置およびクラスター分析方法を提供することにある。

上記の課題を解決するために、検索対象となる複数の文書が格納された文書格納手段と、入力された検索文を検索キーとして前記複数の文書を検索して、前記検索文と類似する文書を検索する概念検索手段と、前記検索された文書に対して形態素解析を行って、前記検索された文書に含まれる複数の単語を抽出する形態素解析手段と、抽出された前記複数の単語が前記検索された文書の中に現れる出現頻度に基づいて、前記複数の単語それぞれの重み付けを行う重み付け手段と、前記重み付け手段による重み付け結果に基づいて、前記検索された文書に含まれる複数の単語の中から重みの大きい順に所定個の単語を抽出する次元引き下げ手段と、前記次元引き下げ手段で抽出された単語の重みに基づいて、前記検索された文書を複数のクラスターに分類するクラスター分類手段と、個々のクラスターごとに重要単語を抽出する重要単語抽出手段と、を備える。

本発明によれば、検索された文書に含まれる単語の重みに基づいて、文書を複数のクラスターに分類するため、各文書の関連性を簡易かつ的確に分析することができる。

以下、図面を参照しながら、本発明に係るクラスター分析装置の一実施形態を説明する。以下では、一例として特許文献のクラスター分析を行う例を説明するが、クラスター分析の対象となる文書は、特許文献に限らず、各種の論文（技術的な論文に限らない）、技術所報（企業等の社内技報など）や出版社が発行する各種雑誌や書籍などでもよい。あるいは、新聞の記事、マーケティングにより収集した顧客情報、アンケートの定性的な回答なども対象となりうる。。

ここで、クラスター分析（Cluster Analysis）とは、異質なものが混ざり合っている対象を、それらの間に何らかの意味で定義された指標を手がかりにして似たものを集め、いくつかの均質なものの集落（クラスター）に分類する手法を総称したものである（「多変量解析法」、現代数学社、p230参照）。

図１は本発明に係るクラスター分析装置の一実施形態の概略構成を示すブロック図である。図１のクラスター分析装置は、検索文の入力や検索結果の出力を行う利用者用端末装置１と、検索文に基づいて特許文献の検索処理を行う検索装置２と、検索装置２に特許文献等の技術文献の登録を行う管理用端末装置３とを備えている。

各端末装置１はパーソナルコンピュータ（以下、ＰＣ）などの比較的小型のコンピュータで構成され、検索装置２はサーバーなどの比較的大型のコンピュータで構成される。

検索装置２は、表示装置２ａとプリンタ２ｂとを有し、検索装置２には、検索対象となる技術文献が登録された技術情報データベース（ＤＢ）装置４と、論文等の関連情報が登録された関連情報データベース装置５と、関連語句が登録された関連語句データベース装置６とが接続されている。

各端末装置１と検索装置２とは、ローカルエリアネットワーク（以下、ＬＡＮ）、インターネットまたは通信回線等の通信網を介してデータの送受信を行う。

ユーザは、利用者用端末装置１のキーボード等から検索文を入力する。検索文には、字数制限や文字種制限がなく、各自の言葉で任意の文章を入力することができる。また、検索対象の正式な名称が不明でも、概念や仕組みを説明する文章を入力することにより検索を行うことができる。例えば、「水素と酸素を用いて、発電する仕組みや技術」という文章を検索文として入力することで検索を行える。この場合、後述するように、「燃料電池」に関する技術文献が抽出される。

検索装置２は、利用者用端末装置１で入力された検索文に基づいて検索処理を行い、その検索結果は利用者用端末装置１に送られる。また、管理用端末装置３は検索装置２に特許文献を登録し、検索装置２は管理用端末装置３に管理情報を送信する。

図２は図１の検索装置が行う処理手順の一例を示すフローチャートである。まず、ユーザが利用者用端末装置１から入力した検索文を取り込む（ステップＳ１）。次に、検索文を検索キーとして、技術情報データベース装置に登録されている技術文献の概念検索を行う（ステップＳ２）。

図３はステップＳ２の詳細な処理手順を示すフローチャートである。技術情報データベース装置４に登録されるべき各技術文献は、形態素解析されて、各単語ごとに単語ベクトルが生成された後、技術情報データベース装置４に登録される（ステップＳ１１〜Ｓ１４）。

一方、ユーザが入力した検索文も、形態素解析されて、各単語ごとに単語ベクトルが生成される（ステップＳ１５〜Ｓ１７）。

ここで、形態素解析とは、文章（自然文）に含まれている単語を抽出するものであり、具体的には複合名詞句と数詞を抽出する。例えば、上述した「水素と酸素を用いて、発電する仕組みや技術」という検索文の場合、「水素」、「酸素」、「発電」、「仕組み」、「技術」、「用いる」の６つの単語とその類似語が抽出される。

続いて、検索文の単語ベクトルと技術情報データベース装置４に登録された各単語ベクトルとの間で内積を演算し（ステップＳ１８）、その演算結果に基づいて類似度を判定する（ステップＳ１９）。

なお、技術情報データベース装置４には、多数の技術文献が登録されており、各技術文献ごとに検索語群との間で内積を演算して類似度を検出する。そして、図２のステップＳ２では、類似度の高い技術文献を、検索文書として抽出する。ここでは、内積値が「１」に近いものを類似度が高い技術文献として抽出する。以下では、環境技術の対象５分野に関する数百以上の技術文献(当該事例では、618件の特許公開公報)が検索文書として抽出されたものとする。

ステップＳ２の処理が終わって検索文書が抽出されると、各検索文書ごとに上述した形態素解析を行って、単語リストを作成する（ステップＳ３）。具体的には、上述した環境技術に関する技術文献(618件の特許公開公報)を、形態素解析により「てにをは」を抜かした単語と語幹に分割し、重要単語の出現頻度を算定する。

ここで、重要単語とは、科学技術基本計画中に謡われている技術用語およびそれらの関連語等からなる2500語を採用する。図４は単語リストの一例である。この単語リストは、必要不可欠な単語をほぼすべて網羅しており、重要度がそれほど高くない単語も含まれるが、後述するウェイトにより自動的に除外されるため、特に問題はない。

次に、単語リストに含まれる各単語に、重要度に応じたウェイトを付加し、各技術文献ごとにウェイト表を作成する（ステップＳ４）。ウェイトの算定式は以下の（１）式で表される。
ｗij＝TFij×IDFj …（１）

（１）式において、ｗijは技術文献ｉ中の単語ｊのウェイト、TFijは技術文献ｉ中の単語ｊの出現頻度（Term Frequency）、IDFjは技術情報ＤＢ装置４中の単語ｊが現れる特許文献の件数比率の逆数である。

次に、ウェイト表に登録された単語のうちウェイトの高い一部の単語を抽出する、いわゆる次元引き下げ処理を行い、新たなウェイト表を作成する（ステップＳ５）。

図５は各技術文献に含まれる重要単語の出現回数を記録した出現リストの一例を示す図である。関連語として挙げられている各重要単語は、上記のステップＳ３で作成された単語リストに含まれる単語である。どの技術文献にも現れる単語は、いわゆる機能語と呼ばれるもので、各技術文献を特徴づける単語ではない。そこで、単語リストに含まれる2500語の単語の中から機能語を除外して、ウェイトの高い順に並べ、上位1000個を抽出する。

このような次元引き下げ処理を行うことにより、クラスター分析の高速化を図れる。抽出された単語を含む特許文献は、（２）式のようなベクトルＰaで表現される。

（２）式の右辺は、抽出された各単語のウェイトｗa1，…，ｗamを表している。すなわち、抽出された各単語は、ウェイトをスカラー値とする、互いに異なる次元である。

次に、ステップＳ５で作成されたウェイト表を用いて、関連のある特許文献をまとめたクラスターを作成する（ステップＳ６）。具体的には、技術文献データベース装置に登録されている環境技術関連の技術文献(618件の特許公開公報)を、既存の概念や枠組みによらずに、内容の類似性に基づいて分類し、クラスター化する。

上記の（２）式のベクトルＰaの向き具合によって、技術文献同士の類似度を判定することができる。例えば、図６は３つの単語からなる三次元のベクトル空間を想定しており、技術文献の向きから、３つのクラスターを生成する例を示している。本実施形態のクラスター分析では、1000個の単語を変数とする多次元のベクトル空間を想定しており、図示することはできないが、考え方は図３と同じである。

ベクトルの方向の近さは、内積式を用いて表すことができる。内積の計算式は以下の（３）式で表される。

本実施形態では、ベクトルの方向が近い複数の技術文献を結合してクラスターを形成した後、クラスターに含まれる技術文献の各ベクトルの合成からクラスターのベクトルの向きを決定する重心法を適用する。

図６では、３つのクラスターを形成する例を示しているが、クラスターの数には特に制限はない。図６に示す各クラスター同士は互いに一定以上の距離があり、内積値が一定以下となるため、これ以上のクラスター化は行わない。

図７は図２のステップＳ６に示すクラスター作成処理の一例を示す詳細フローチャートである。まず、互いに異なる２種類のクラスター同士でベクトルの内積を計算する（ステップＳ２１）。計算された内積値は、これら２種類の技術文献の類似度を表している。なお、初期状態では、各技術文献が別個のクラスターとして取り扱われる。

一つのクラスターの中に複数の技術文献が含まれている場合、各技術文献に対応するベクトルの平均ベクトルを計算して、異なる２つのクラスターの平均ベクトル同士の内積を計算する。

ステップＳ２１の処理に前後して、複数の技術文献を同一のクラスターに含めるか否かの基準となる結合最大距離を設定する（ステップＳ２２）。この結合最大距離の値は、試行錯誤により決定するのが望ましい。

次に、ステップＳ２１で計算された内積値が結合最大距離より小さいか否かを判定する（ステップＳ２３）。小さければ、比較した２種類のクラスターを同一のクラスターに含めるクラスター結合を行う（ステップＳ２４）。そして、ステップＳ２１に戻って、まだ比較していない２種類のクラスター同士で内積を計算する。

クラスターの結合は以下の（４）式〜（８）式に従って行う。これらの式では、クラスターａとクラスターｂを結合する場合の計算手順を示している。

クラスターａのベクトルＰa（本明細書では、ベクトルを表す矢印を省略する）とクラスターｂのベクトルＰbとを加算したベクトルＰabを生成した後、ベクトルの大きさが１になるように正規化する。

一方、ステップＳ２３で、内積値が結合最大距離以上と判定されると、すべてのクラスター同士が結合最大距離を超えているか否かを判定する（ステップＳ２５）。超えていないクラスター同士が存在すれば、そのクラスター同士でステップＳ２１以降の処理を行い、超えていればクラスターの結合処理を終了し、クラスターを決定する（ステップＳ２６）。このとき、クラスターリストとクラスター間距離表を作成する。

図８はクラスター間距離表の一例を示す図である。図８のクラスター間距離表には、すべてのクラスター同士の内積値またはクラスター間の相関係数が登録されている。

次に、クラスターごとに重要単語を抽出する（ステップＳ２８）。重要単語を抽出する理由は、クラスターの特徴を見いだすためであり、各クラスター内における重要単語をウェイトｗaの大きいものから順に30語程度を抽出する。単語ウェイトｗaは、そのクラスターで頻出して、他のクラスターにはあまり出現しない単語ほど大きな値をとることから、クラスターの特徴を端的に表す言葉であると言える。これらの重要単語をウェイトの高い順に検出することにより、クラスターがどのような技術分類に該当するかを正確に把握できる。

環境技術に関する特許公開公報約618件に対して、図７の処理によるクラスター分析を行ったところ、図９に示す２０のクラスターに分類することができた。

このように、本実施形態では、概念検索により検索された技術文献に対して形態素解析を行って得られた各単語にウェイトを付加して各技術文献をベクトル化し、ベクトルの向きが近い技術文献同士を一つのクラスターにまとめる処理を行うため、大量の技術文献をいくつかのクラスターに効率よく分類することができる。したがって、各クラスターの特徴を抽出することで、各技術文献にどのような内容が記載されているかを簡易かつ的確に把握できるようになる。

このようなクラスター分析により、既存の分析に依存しない新しい分類を構築できる。したがって、本実施形態を研究開発の現場で利用すると、先端的な技術の動向を事前に把握できることから、研究開発の方向を誤るおそれがなくなる。特に、最近の国内外の研究開発は、分野をまたがる学際的な内容が増加しており、IPC分類など従来の技術体系では、類似した技術が種々の分野に存在するため、先行技術の分析や技術動向を把握するのがますます困難になりつつある。このような現状にあって、本実施形態のクラスター分析手法は、類似した文献を分野を問わずに検索できるため、研究開発に必要な情報を漏れなく把握できる。

また、本実施形態を特許出願の先行調査に利用すると、関連のある先行技術文献を短時間で的確に検索でき、担当者の手間が省け、先行調査の促進と出願是非判断の適正化が図れる。

さらに、本実施形態は、製品情報の分析も行うことができるため、マーケティング分析にも利用でき、企業等の企画部門等でも有効活用できる。

上述した実施形態で説明したクラスター分析装置は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、クラスター分析装置の少なくとも一部の機能を実現するプログラムをフロッピーディスクやＣＤ−ＲＯＭ等の記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等の携帯可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記録媒体でもよい。

また、クラスター分析装置の少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線（無線通信も含む）を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調をかけたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、あるいは記録媒体に収納して頒布してもよい。

本発明に係る多次元空間モデル表現装置の一実施形態の概略構成を示すブロック図。図１の検索装置が行う処理手順の一例を示すフローチャート。ステップＳ２の詳細な処理手順を示すフローチャート。単語リストの一例を示す図。各特許文献に含まれる単語の出現回数を記録した出現リストを示す図。３つの単語からなるベクトル空間を示す図。図２のステップＳ６に示すクラスター作成処理の一例を示す詳細フローチャート。クラスター間距離表の一例を示す図。環境技術に関する公開特許約5000件のクラスター分析結果を示す図。

符号の説明

１利用者用端末装置
２検索装置
３管理用端末装置
４技術情報データベース装置
５関連情報データベース装置
６関連語句データベース装置

Claims

検索対象となる複数の文書が格納された文書格納手段と、
入力された検索文を検索キーとして前記複数の文書を検索して、前記検索文と類似する文書を検索する概念検索手段と、
前記検索された文書に対して形態素解析を行って、前記検索された文書に含まれる複数の単語を抽出する形態素解析手段と、
抽出された前記複数の単語が前記検索された文書の中に現れる出現頻度に基づいて、前記複数の単語それぞれの重み付けを行う重み付け手段と、
前記重み付け手段による重み付け結果に基づいて、前記検索された文書に含まれる複数の単語の中から重みの大きい順に所定個の単語を抽出する次元引き下げ手段と、
前記次元引き下げ手段で抽出された単語の重みに基づいて、前記検索された文書を複数のクラスターに分類するクラスター分類手段と、
個々のクラスターごとに重要単語を抽出する重要単語抽出手段と、を備えることを特徴とするクラスター分析装置。
異なる２つのクラスター間の距離が所定の基準値未満か否かを判定するクラスター間距離判定手段と、
前記基準値未満と判定された場合に、前記２つのクラスター同士を結合するクラスター結合手段と、を備え、
すべてのクラスター同士の組み合わせについて、前記クラスター間距離判定手段にて前記基準値以上と判定されるまで、前記クラスター結合手段による結合処理を繰り返し行うことを特徴とする請求項１に記載のクラスター分析装置。
前記クラスター間距離判定手段は、前記次元引き下げ手段で抽出された単語それぞれをベクトルの次元とし、該単語それぞれの重みをスカラー値とする、前記検索された文書それぞれに対応するベクトルを生成して、これらベクトル同士の内積により、前記２つのクラスター間の距離が前記基準値未満か否かを判定することを特徴とする請求項２に記載のクラスター分析装置。
前記クラスター距離判定手段は、クラスターに含まれる全ベクトルの平均ベクトルと他のクラスターに含まれる全ベクトルの平均ベクトルとの内積値に基づいて、前記２つのクラスター間の距離が前記基準値未満か否かを判定することを特徴とする請求項３に記載のクラスター分析装置。
前記重み付け手段は、前記検索された文書の中に特定の単語が現れる出現頻度と、前記文書格納手段に格納された複数の文書に前記特定の単語が現れる件数比率の逆数と、に基づいて、前記複数の単語それぞれの重み付けを行うことを特徴とする請求項１〜４のいずれかに記載のクラスター分析装置。
前記重要単語抽出手段は、個々のクラスターごとに、重みの大きい単語から順に所定個の重要単語を抽出することを特徴とする請求項１〜５のいずれかに記載のクラスター分析装置。
入力された検索文を検索キーとして、検索対象となる複数の文書が格納された文書格納手段を検索して、前記検索文と類似する文書を検索するステップと、
前記検索された文書に対して形態素解析を行って、前記検索された文書に含まれる複数の単語を抽出するステップと、
抽出された前記複数の単語が前記検索された文書の中に現れる出現頻度に基づいて、前記複数の単語それぞれの重み付けを行うステップと、
前記重み付け手段による重み付け結果に基づいて、前記検索された文書に含まれる複数の単語の中から重みの大きい順に所定個の単語を抽出するステップと、
前記次元引き下げ手段で抽出された単語の重みに基づいて、前記検索された文書を複数のクラスターに分類するステップと、
個々のクラスターごとに重要単語を抽出するステップと、を備えることを特徴とするクラスター分析方法。