JP2007004233A

JP2007004233A - 文章分類装置、文章分類方法、およびプログラム

Info

Publication number: JP2007004233A
Application number: JP2005180362A
Authority: JP
Inventors: Eiji Murakami; 英治村上; Masamochi Kobata; 真望木幡; Takao Terano; 隆雄寺野
Original assignee: Azbil Corp
Current assignee: Azbil Corp
Priority date: 2005-06-21
Filing date: 2005-06-21
Publication date: 2007-01-11
Also published as: US7584189B2; US20060288029A1

Abstract

【課題】各文章の重要性や文章同士の関係性を自動的に可視化する。
【解決手段】大分類生成手段３は、クラスタリンク処理を繰り返し実行することにより変形ＤＴマトリクス２４を順次生成し、変形ＤＴマトリクス２４上のクラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データ２５として出力し、表示処理手段１６は、大分類データ２５に基づいて各クラスタリング処理で生成された各クラスタを示すクラスタシンボルと各クラスタ間の統合関係を示すリンクシンボルとを用いた木構造で大分類の結果を画面表示する。
【選択図】図１

Description

本発明は、文章分類技術に関し、特に文章の内容に応じて各文章を分類し、その分類結果を可視化出力する文章分類技術に関するものである。

高度情報化社会では、情報処理技術や情報通信技術の発展に伴い、電子化された膨大な量の情報を容易に入手できる環境が提供されつつある。このような環境を利用して入手した情報は、そのデータ量も膨大となるため、所望する情報を効率よくかつ正確に把握する必要がある。
情報の内容を解析する技術として、各情報を構成する文章の内容に応じて各文章を分類する技術が研究されている。

従来、文章を分類する技術として、予め各分類の内容を示すラベルを用意し、各文章の内容を所定のアルゴリズムで解析し、用意したラベルごとにそれぞれの文章を分類するものが提案されている（例えば、非特許文献１など参照）。
このような技術は、文章の分類に際し、予め各分類の内容を示すラベルを用意し、各種の学習アルゴリズムを用いて、これらラベルを各文章に対して精度よく割り当てることにより、各文章をラベルごとに分類しようとするものである。

このような文章分類技術では、各文章を分類した結果を自動的に画面表示するため、各文書間の関係を構造的に可視化する技術が必要となる。従来、このような文章分類結果の可視化技術として、それぞれ複数の文章を要素として持つ２つの文書集合に対し、それぞれの要素間の関連度を求め、各文書集合の要素が２つの軸上に並べられた２次元座標上に、任意の要素が交差する交点に両要素間の関連度を表示する技術が提案されている（例えば、特許文献１など参照）。このほか、語の共起に基づき抽出したキーワードを可視化する技術も提案されている（例えば、非特許文献２，３など参照）。

特開２００３−３４５８１１号公報永田昌明他,「テキスト分類−学習論理の見本市−」,情報処理,42巻1号,2001年1月大澤幸生他,「KeyGraph：語の共起グラフの分割・統合によるキーワード抽出」,電子情報通信学会論文誌,Vol.J82-D1,No.2,pp.391-400,1999 原正己他,「単語共起と語の部分一致を利用したキーワード抽出法の検討」,情報学件報告,NL106,p.16,1995 北研二他,「情報検索アルゴリズム」,共立出版,2002年

しかしながら、このような従来技術では、文書に含まれる単語同士の関係性を分析してネットワーク（グラフ）として可視化しているため、文書に含まれる複数の文章について、各文章の重要性や文章同士の関係性を自動的に可視化することができないという問題点があった。
本発明はこのような課題を解決するためのものであり、各文章の重要性や文章同士の関係性を自動的に可視化できる文章分類装置、文章分類方法、およびプログラムを提供することを目的としている。

このような目的を達成するために、本発明にかかる文章分類装置は、複数の文章からなる文章集合と１つ以上の単語からなるタームを複数有するタームリストとを含む各種処理情報を記憶する記憶部と、処理情報に対して任意の情報演算処理を行う演算処理部と、この演算処理部での処理結果を画面表示する画面表示部とを有し、演算処理部により、各文章をタームリストに基づき分類する文章分類装置であって、演算処理部に、各文章と各タームとの関係を２次元表現したＤＴマトリクスを生成するＤＴマトリクス生成手段と、グラフ理論で用いられるＤＭ分解法に基づいてＤＴマトリクス生成手段で得られたＤＴマトリクスを変形することにより、変形ＤＴマトリクスを生成するＤＴマトリクス変形手段と、変形ＤＴマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表生成手段と、ＤＴマトリクス生成手段で生成したＤＴマトリクスを初期状態として用い、所定のクラスタリング処理をステップとして繰り返し行うことにより文章の大分類を生成する大分類生成手段と、大分類の大分類を画面表示部で画面表示する表示処理手段とを備え、大分類生成手段では、クラスタリング処理として、ＤＴマトリクス変形手段でＤＴマトリクスから生成された変形ＤＴマトリクス上のクラスタごとに仮想代表生成手段で仮想代表文章を生成し、仮想代表文章を当該変形ＤＴマトリクスに追加するとともに仮想代表文章のクラスタに属する文章を当該変形ＤＴマトリクスから削除して次のクラスタリング処理に用いる新たなＤＴマトリクスを生成し、クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力し、表示処理手段では、大分類データに基づいて、各クラスタリング処理で生成された各クラスタを示すクラスタシンボルと各クラスタ間の統合関係を示すリンクシンボルとを用いた木構造で大分類の結果を画面表示するようにしたものである。

大分類の結果を画面表示する際、表示処理手段で、クラスタシンボル上またはその周辺に、当該クラスタに固有の識別情報と当該クラスタの内容を示すラベルを画面表示してもよい。

大分類の結果を画面表示した後、表示処理手段で、画面表示されている任意のクラスタシンボルまたはリンクシンボルに対する選択操作に応じて、選択されたクラスタシンボルのクラスタ、または選択されたリンクシンボルで結ばれるクラスタの内容を示すラベルを画面表示してもよい。

大分類の分類内容については、クラスタリング処理で得られた各クラスタのうち当該クラスタに仮想代表文章が含まれている場合は、その仮想代表文章と強連結をなすタームから、当該仮想代表文章の元のクラスタの内容を示すラベルを生成する大分類ラベル生成手段をさらに設けてもよい。

大分類の結果を画面表示する際、表示処理手段で、各ステップの順に、当該クラスタリング処理で得られたクラスタのクラスタシンボルを階層表示してもよい。

大分類の再生成については、タームリストのうち使用しないタームをストップワードとして登録するストップワード登録手段をさらに備え、大分類生成手段で、各タームのうちストップワードを除く他のタームを用いてＤＴマトリクス生成手段で生成したＤＴマトリクスを初期状態として用いて、文章の大分類を再生成するようにしてもよい。

大分類の結果を画面表示する際、表示処理手段で、大分類の結果を木構造で画面表示する際、木構造の規模や複雑さを示すプロパティ情報を画面表示してもよい。

また、本発明にかかる文章分類方法は、複数の文章からなる文章集合と１つ以上の単語からなるタームを複数有するタームリストとを含む各種処理情報を記憶する記憶部と、処理情報に対して任意の情報演算処理を行う演算処理部と、この演算処理部での処理結果を画面表示する画面表示部とを有する文章分類装置で、演算処理部により、各文章をタームリストに基づき分類する文章分類方法であって、各文章と各タームとの関係を２次元表現したＤＴマトリクスを生成するＤＴマトリクス生成ステップと、グラフ理論で用いられるＤＭ分解法に基づいてＤＴマトリクス生成ステップで得られたＤＴマトリクスを変形することにより、変形ＤＴマトリクスを生成するＤＴマトリクス変形ステップと、変形ＤＴマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表文章生成ステップと、ＤＴマトリクス生成ステップで生成したＤＴマトリクスを初期状態として用い、所定のクラスタリング処理をステップとして繰り返し行うことにより文章の大分類を生成する大分類生成ステップと、大分類の大分類を画面表示部で画面表示する表示処理ステップとを備え、大分類生成ステップでは、クラスタリング処理として、ＤＴマトリクス変形ステップでＤＴマトリクスから生成された変形ＤＴマトリクス上のクラスタごとに仮想代表文章生成ステップで仮想代表文章を生成し、仮想代表文章を当該変形ＤＴマトリクスに追加するとともに仮想代表文章のクラスタに属する文章を当該変形ＤＴマトリクスから削除して次のクラスタリング処理に用いる新たなＤＴマトリクスを生成し、クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力し、表示処理ステップでは、大分類データに基づいて、各クラスタリング処理で生成された各クラスタを示すクラスタシンボルと各クラスタ間の統合関係を示すリンクシンボルとを用いた木構造で大分類の結果を画面表示するようにしてもよい。

また、本発明にかかるプログラムは、複数の文章からなる文章集合と１つ以上の単語からなるタームを複数有するタームリストとを含む各種処理情報を記憶する記憶部と、処理情報に対して任意の情報演算処理を行う演算処理部と、この演算処理部での処理結果を画面表示する画面表示部とを有し、演算処理部により、各文章をタームリストに基づき分類する文章分類装置のコンピュータに、各文章と各タームとの関係を２次元表現したＤＴマトリクスを生成するＤＴマトリクス生成ステップと、グラフ理論で用いられるＤＭ分解法に基づいてＤＴマトリクス生成ステップで得られたＤＴマトリクスを変形することにより、変形ＤＴマトリクスを生成するＤＴマトリクス変形ステップと、変形ＤＴマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表文章生成ステップと、ＤＴマトリクス生成ステップで生成したＤＴマトリクスを初期状態として用い、所定のクラスタリング処理をステップとして繰り返し行うことにより文章の大分類を生成する大分類生成ステップと、大分類の大分類を画面表示部で画面表示する表示処理ステップとを実行させ、大分類生成ステップでは、クラスタリング処理として、ＤＴマトリクス変形ステップでＤＴマトリクスから生成された変形ＤＴマトリクス上のクラスタごとに仮想代表文章生成ステップで仮想代表文章を生成し、仮想代表文章を当該変形ＤＴマトリクスに追加するとともに仮想代表文章のクラスタに属する文章を当該変形ＤＴマトリクスから削除して次のクラスタリング処理に用いる新たなＤＴマトリクスを生成し、クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力し、表示処理ステップでは、大分類データに基づいて、各クラスタリング処理で生成された各クラスタを示すクラスタシンボルと各クラスタ間の統合関係を示すリンクシンボルとを用いた木構造で大分類の結果を画面表示するようにしてもよい。

本発明によれば、クラスタリング処理として、ＤＴマトリクスから生成された変形ＤＴマトリクス上のクラスタごとに仮想代表文章が生成されて、これら仮想代表文章を変形ＤＴマトリクスに追加されるとともに仮想代表文章のクラスタに属する文章が変形ＤＴマトリクスから削除されて次のクラスタリング処理に用いる新たなＤＴマトリクスが生成され、クラスタごとに少なくとも当該クラスタを構成する文章に関する情報が大分類データとして出力され、この大分類データに基づいて各クラスタを示すクラスタシンボルと各クラスタ間の統合関係を示すリンクシンボルとを用いた木構造で大分類の結果が画面表示される。

これにより、元の各文章のみを要素とする分類だけでなく、１つ以上のクラスタを含むより大きな分類すなわち大分類となるクラスタを文章集合から自動的に得ることができ、さらにこのようなクラスタリング処理が繰り返されて、各文章からボトムアップ的な階層化クラスタリングが実現される。
また、クラスタシンボルとリンクシンボルとを用いて、各クラスタ間すなわち大分類間の階層的関係をツリー構造として画面表示することができ、各文章の重要性や文章同士の関係性を自動的に可視化することができる。

次に、本発明の実施の形態について図面を参照して説明する。
［文章分類装置の構成］
まず、図１を参照して、本発明の一実施の形態にかかる文章分類装置について説明する。図１は本発明の一実施の形態にかかる文章分類装置の構成を示すブロック図である。
この文章分類装置１は、全体としてコンピュータからなり、演算処理部１０、記憶部２０、操作入力部３０、画面表示部４０、および入出力インターフェース部（以下、入出力Ｉ／Ｆ部という）５０が設けられている。

演算処理部１０は、ＣＰＵなどのマイクロプロセッサとその周辺回路からなり、記憶部２０に予め格納されているプログラム２７を実行して、上記ハードウェアとプログラムとを協働させることにより、文章分類処理のための各種機能手段を実現する。

記憶部２０は、ハードディスクやメモリなどの記憶装置からなり、演算処理部１０での処理に用いる各種処理情報を格納する。主な処理情報としては、分類対象となる各文章からなる文章集合２１、各文章の内容を把握するための複数の重要語すなわちタームからなるタームリスト２２、各文章と各タームとの関係を示すＤＴマトリクス２３、このＤＴマトリクス２３を変形して得られた変形ＤＴマトリクス２４、文章を大分類した結果を示す大分類データ２５、および演算処理部１０に読み込まれて実行されるプログラム２７が記憶されている。

操作入力部３０は、キーボードやマウスなどの操作入力装置からなり、オペレータの操作を検出して演算処理部１０へ出力する。
画面表示部４０は、ＬＣＤやＰＤＰなどの画面表示装置からなり、演算処理部１０での処理内容や処理結果を表示出力する。
入出力Ｉ／Ｆ部５０は、外部装置（図示せず）や通信ネットワーク（図示せず）と接続するための回路部であり、文章集合２１、タームリスト２２、大分類データ２５のほか、得られた処理結果やプログラム２７を外部装置や記録媒体との間でやり取りする際に用いられる。

演算処理部１０には、機能手段として、ＤＴマトリクス生成手段１１、ＤＴマトリクス変形手段１２、大分類生成手段１３、仮想代表生成手段１４、大分類ラベル生成手段１５、表示処理手段１６、およびストップワード登録手段１７が設けられている。

本実施の形態において、ＤＴ（Document-Term）マトリクスとは、各文章Ｄ（Document）と各タームＴ（Term）との関係を２次元的に表現した行列を指す。この際、上記関係は、文章Ｄ中におけるタームＴの存在有無からなり、文章ＤとタームＴとをそれぞれマトリクスの列と行に対応させ、ある文章ＤｉがあるタームＴｊを含む場合には、ＤＴマトリクスのｊ，ｉ成分を「１」とし、含まない場合には「０」とすることにより、文章ＤとタームＴの関係を表している。

本実施の形態では、このＤＴマトリクスを２部グラフの一表現形態と見なし、２部グラフのグラフ理論で用いられるＤＭ分解法に基づきＤＴマトリクスを変形し、得られた変形ＤＴマトリクス上に現れるクラスタに基づき、各文章Ｄを分類している。
ＤＴマトリクス生成手段１１は、分類対象となる各文章Ｄとタームリスト２２を構成する各タームＴとからＤＴマトリクス２３を生成する機能と、生成したＤＴマトリクス２３を記憶部２０へ格納する機能とを有している。

ＤＴマトリクス変形手段１２は、ＤＴマトリクス生成手段１１で生成されたＤＴマトリクス２３をＤＭ（Dulumage-Mendelsohn）分解法に基づき変形する機能と、変形により得られた変形ＤＴマトリクス２４記憶部２０へ格納する機能とを有している。
ＤＭ分解法とは、具体的には、ＤＴマトリクス２３に対し、行操作（行同士を入れ替える操作）または列操作（列同士を入れ替える操作）を施して、三角行列化する処理である。この三角行列化されたＤＴマトリクスを変形ＤＴマトリクス２４と呼ぶ。

大分類生成手段１３は、ＤＭ分解法を用いたＤＴマトリクス変形手段１２でのＤＴマトリクス変形処理をクラスタリング処理として繰り返し実行する機能と、各クラスタリング処理で得られた変形ＤＴマトリクス２４から得られたクラスタに基づき、文章集合２１の各文章について大分類を生成する機能と、その分類結果を大分類データ２５として記憶部２０へ格納する機能とを有している。

仮想代表生成手段１４は、大分類生成手段１３での大分類生成時に、変形ＤＴマトリクス２４から得られたクラスタから、そのクラスタに含まれる文章を仮想的に代表する仮想代表文章を生成する機能を有している。
大分類ラベル生成手段１５は、大分類生成手段１３で生成された各クラスタすなわち大分類について当該分類内容を示すラベルを生成する機能を有している。

表示処理手段１６は、大分類生成手段１３での大分類生成完了に応じて記憶部２０の大分類データ２５を読み込んで、その分類結果をクラスタシンボルとリンクシンボルとを用いた木構造（ツリー構造）で画面表示部４０により表示出力する機能と、操作入力部３０で検出されたクラスタシンボルまたはリンクシンボルに対する選択操作に応じて、選択されたシンボルに関係するクラスタの内容を示すラベルを大分類データ２５から取得して画面表示部４０により表示出力する機能とを有している。

ストップワード登録手段１７は、操作入力部３０で検出されたクラスタシンボルまたはリンクシンボルに対する選択操作に応じて、選択されたシンボルのクラスタに関するラベルを大分類データ２５から取得して選択キーワードリストとして画面表示部４０により表示出力する機能と、操作入力部３０で検出された選択キーワードリスト内の任意のキーワードに対する選択操作に応じて、選択されたキーワードをストップワードとして登録する機能と、登録されたストップワードをタームリスト２２から除外して大分類生成手段１３による再分類を指示する機能とを有している。

本実施の形態は、大分類生成手段１３により、クラスタリング処理として、ＤＴマトリクス変形手段１２でＤＴマトリクス２３から生成された変形ＤＴマトリクス２４上のクラスタごとに仮想代表生成手段１４で仮想代表文章を生成し、これら仮想代表文章を変形ＤＴマトリクス２４に追加するとともに仮想代表文章のクラスタに属する文章を変形ＤＴマトリクス２４から削除して次のクラスタリング処理に用いる新たなＤＴマトリクス２３を生成し、クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データ２５として出力し、表示処理手段１６により、大分類データ２５に基づいて、各ステップで生成されたクラスタを示すクラスタシンボルと異なるステップのクラスタとの統合関係を示すリンクシンボルとを用いた木構造で大分類の結果を画面表示するようにしたものである。

［ＤＴマトリクス生成動作］
次に、図２を参照して、本実施の形態にかかる文章分類装置のＤＴマトリクス生成動作について説明する。図２は、本実施の形態にかかる文章分類装置のＤＴマトリクス生成処理を示すフローチャートである。

演算処理部１０は、大分類生成手段１３により、記憶部２０の文章集合２１について大分類を生成する際、文章分類処理に用いるＤＴマトリクスを生成する。ここでは、このＤＴマトリクスを生成するためのマトリクス生成処理について詳細に説明する。
図２のＤＴマトリクス生成処理において、まず、ＤＴマトリクス生成手段１１は、記憶部２０に格納されている文章集合２１を読み込むとともに（ステップ１００）、タームリスト２２を読み込む（ステップ１０１）。

図３は、文章集合２１の構成例である。この例は、「ストレス」についてＷｅｂ上で多数の回答者に自由に文章を記述してもらったものを集計したものであり、各文章Ｄごとに当該文章Ｄを管理するための文章番号Ｄｉとその文章を記述した回答者の識別情報とが割り当てられている。
図４はタームリスト２２の構成例である。このタームリスト２２は、所定のアルゴリズムに基づき各文章Ｄを解析し、得られた重要語の種別とその前後関係とから各タームＴを構成したものであり、タームＴごとに当該タームＴを管理するターム番号Ｔｊが割り当てられている。

各タームＴは、２つの重要語のうち、前方に位置するキーワード前と後方に位置するキーワード後からなり、それぞれのキーワードごとにそのキーワードの内容を示す単語とその単語の品詞属性種別とが規定されている。また、各タームＴには、文章集合２１から算出された、文章分類に用いる上での重みを示す重要度が対応付けられている。
例えばターム「１」は、「ストレス」と「解消」という２つのキーワードからなり、その位置関係は「ストレス」が前方に位置するものと規定されている。
ＤＴマトリクス生成手段１１は、文章集合２１内の各文章について、あるしきい値以上の重要度を持ったタームリスト２２の各タームＴが存在するか否かチェックし、その結果からＤＴマトリクスを生成する（ステップ１０２）。

図５は、ＤＴマトリクスの構成例である。このＤＴマトリクス２３は、行方向（縦方向）にタームＴが並べられており、列方向（横方向）に文章Ｄが並べられている。そして、各文章ＤとタームＴの交差位置に、当該文章ＤにおけるタームＴの存在有無が２進数で記載されている。ここでは、文章ＤにタームＴが存在する場合は「１」が設定され、存在しない場合は「０」が設定されている。
したがって、この例によれば、例えば文章Ｄ１には、タームＴ４，Ｔ７が含まれていることがわかる。またタームＴ２は、文章Ｄ２，Ｄ４に含まれていることがわかる。

続いて、ＤＴマトリクス変形手段１２は、このようにしてＤＴマトリクス生成手段１１で生成されたＤＴマトリクス２３を、ＤＭ分解法に基づき変形して変形ＤＴマトリクス２４を生成し（ステップ１０３）、これを記憶部２０に格納して、一連のマトリクス生成処理を終了する。
一般に、グラフ理論では、２つの集合に属するそれぞれの点とこれら点を結ぶ辺とからなる２部グラフを、各点間の関連性に基づき分離する手法として、ＤＭ分解法が用いられる。
本実施の形態では、ＤＴマトリクス２３を、文章ＤからタームＴへの辺により結びつけられた２部グラフの一表現形態と見なすことができることに着目し、グラフ理論におけるＤＭ分解法をＤＴマトリクス２３に適用し、得られた変形ＤＴマトリクスに基づき文章Ｄを分類している。

［ＤＭ分解処理］
次に、図６および図７を参照して、ＤＴマトリクス変形手段１２で用いる２部グラフにおけるＤＭ分解処理について説明する。図６は、ＤＭ分解処理を示すフローチャートである。図７は、ＤＭ分解処理の過程を示す２部グラフである。以下では、文章ＤおよびタームＴからなる２つの点集合と、これら点を結ぶ辺からなる２部グラフＧを処理対象とし、これをＤＭ分解法により複数のグラフに分離する場合を例として説明する。なお、これら処理では、演算処理部１０内部のメモリまたは記憶部２０から各種データを読み出して、演算処理部１０で所定の演算を行い、その結果を再び記憶するという動作が繰り返し行われる。

まず、図７（ａ）に示すように、処理対象となる２部グラフＧの各辺について、文章ＤからタームＴへの有向辺を生成する（ステップ１１０）。そして、図７（ｂ）に示すように、文章Ｄ側に点ｓを用意し、点ｓから文章Ｄの各点に対して有向辺を生成する（ステップ１１１）。同様にして、タームＴ側に点ｔを用意し、タームＴの各点から点ｔに対して有向辺を生成する（ステップ１１２）。

次に、これら辺を介して点ｓから点ｔへ向かう経路を検索する（ステップ１１３）。例えば図７（ｂ）では、辺１３０，１３１，１３２からなる経路を介して点ｓから点ｔへ向かうことができる。このような経路が存在する場合は（ステップ１１３：ＹＥＳ）、当該経路を構成する各辺を削除するとともに（ステップ１１４）、当該経路上の文章ＤからタームＴへの有向辺とは逆向きの有向辺を、初期状態で空の２部グラフである最大マッチングＭに生成し（ステップ１１５）、ステップ１１３へ戻って次の経路を検索する。図７（ｃ）では、有向辺１３１に対応する逆向きの有向辺１３３が最大マッチングＭに生成されている。
ステップ１１３において、すべての経路の検索が終了して新たな経路が検索されなかった場合（ステップ１１３：ＮＯ）、最大マッチングＭが完成したことになる。

このようにして、図７（ｄ）に示すような最大マッチングＭを完成させた後、最大マッチングＭに属する各有向辺２５４を処理対象Ｇへ含める（ステップ１１６）。これにより、図７（ｅ）に示すように、処理対象Ｇにおいて、最大マッチングＭとして選択された辺１３５については、文章ＤからタームＴへの有向辺とその逆方向の有向辺とから構成されることになる。
次に、タームＴの各点のうち最大マッチングＭに用いられなかった点、例えば自由点１３６を選択し（ステップ１１７）、処理対象Ｇの各辺を介して当該自由点１３６に到達可能な点の集合をクラスタ１４０とする（ステップ１１８）。

同様にして、文章Ｄの各点のうち最大マッチングＭに用いられなかった点、例えば自由点１３７を選択し（ステップ１１９）、処理対象Ｇの各辺を介して当該自由点１３７に到達可能な点の集合をクラスタ１４２とする（ステップ１２０）。
そして、残りの文章ＤおよびタームＴの各点のうち、双方向に到達可能な経路を有する点集合すなわち強連結をなす点集合をクラスタ１４１とし（ステップ１２１）、一連のＤＭ分解処理を終了する。
このようにして、公知のＤＭ分解法では、各クラスタが所定の順序で生成され、三角行列化された変形ＤＴマトリクスが得られる。

演算処理部１０では、以上のようにして、図２のＤＴマトリクス生成処理を実行することにより、ＤＴマトリクス生成手段１１で文章集合２１とタームリスト２２とからＤＴマトリクス２３を生成するとともに、ＤＴマトリクス変形手段１２でＤＴマトリクスに対して図６のＤＭ分解処理を適用することにより、各文章Ｄがクラスタごとに分離された変形ＤＴマトリクス２４を生成する。

図８は、ＤＴマトリクス２３と変形ＤＴマトリクス２４の構成例である。ここでは、各文章Ｄｉ内においてタームＴｊが存在する場合、列方向（横方向）に配置された文章Ｄｉと行方向（縦方向）に配置されたタームＴｉとの交点にドットが配置されており、タームＴｊが存在しない場合は空白となっている。図８（ａ）のＤＴマトリクス２３では、ドットがランダムに分布しているが、図８（ｂ）の変形ＤＴマトリクス２４では、ドットが断片的ではあるが斜め方向に連続して密集しており、この部分１５０にクラスタが並んでいることがわかる。また、変形ＤＴマトリクス２４では、左下側にドットが存在せず、右上側にドットが多く存在しており、上三角行列化されていることがわかる。

［第１の実施の形態の動作］
次に、図９を参照して、本発明の第１の実施の形態にかかる文章分類装置の大分類動作について説明する。図９は、本発明の第１の実施の形態にかかる文章分類装置での大分類生成処理を示すフローチャートである。

演算処理部１０は、操作入力部３０からの指示に応じて、大分類生成手段１３により、図９の大分類生成処理を開始する。
まず、大分類生成手段１３は、ＤＴマトリクス生成手段１１を用いて、記憶部２０に格納されている文章集合２１とタームリスト２２を読み込み、前述と同様のＤＴマトリクス生成処理を行うことにより、各文章と各タームとの関係を２次元表現したＤＴマトリクス２３を生成する（ステップ２００）。

次に、大分類生成手段１３は、ＤＴマトリクス変形手段１２を用いて、グラフ理論におけるＤＭ分解法を上記ＤＴマトリクス２３に適用し、前述と同様にして各文章がクラスタごとに分離された変形ＤＴマトリクス２４を生成する（ステップ２０１）。
そして、大分類生成手段１３は、得られた変形ＤＴマトリクス２４上でブロック化された各クラスタを識別する（ステップ２０２）。この際、各クラスタについては、変形ＤＴマトリクス２４を生成した際に分離した部分グラフに基づき識別してもよく、変形ＤＴマトリクス２４上のデータ（ドット）の並びから識別してもよい。

図１０は、文章分類処理の説明図である。この例では、変形ＤＴマトリクス２４上にクラスタ２２０が存在している。このクラスタ６０は、２部グラフで表現した場合の部分グラフ２２１をなしており、他の文章やタームと関連性が小さい。なお、クラスタ境界が明確な完全グラフをなす場合もある。変形ＤＴマトリクス２４では、列方向（横方向）に文章Ｄが並んでおり、クラスタ２２０の列方向に並ぶ文章ＤすなわちＤ３６３，Ｄ１５５，Ｄ１５７，Ｄ５，Ｄ１３，Ｄ８が、このクラスタ２２０に属する文章Ｄとなる。

ここで、新たなクラスタが識別された場合は（ステップ２０３：ＹＥＳ）、仮想代表生成手段１４を用いて、新たなクラスタごとにそのクラスタを仮想的に代表する仮想代表文章を生成する。
仮想代表生成手段１４では、まず、新たなクラスタに属する各文章の特徴量を取得し、これら特徴量の和集合から仮想代表文章を生成する。例えば、各文章の特徴量ＫｉがＫｉ＝｛ｋ１,ｋ２,…,ｋｎ｝のように、１つ以上の特徴量ｋ１〜ｋｎで表現される場合、仮想代表文章Ｋ’は、Ｋ’＝Ｋ１∪Ｋ２∪,…,∪Ｋｍで得られる。
この際、例えば特徴量として前述のようにタームを用いる場合、仮想代表文章は、新たなクラスタに属する各文章が持つタームをすべて含む和集合となり、その内容は、各タームを構成するキーワードの羅列から構成される。

大分類生成手段１３は、仮想代表生成手段１４により、上記のようにして新たなクラスタごとにその仮想代表文章を生成して新たな文章番号を付与し（ステップ２０４）、これら仮想代表文章を他の実際の文章（実文章）と同様の文章として変形ＤＴマトリクスへ追加するとともに（ステップ２０５）、新たなクラスタに属する各文章を変形ＤＴマトリクスから削除する（ステップ２０６）。
これにより、変形ＤＴマトリクス上では、仮想代表文章とこれに含まれる各タームとの交点にドットが追加配置されるとともに、元の各文章に対応するドットが削除されて、新たなクラスタを構成する各文章が仮想代表文章で置換された新たなＤＴマトリクスが生成される。

この後、大分類生成手段１３は、新たなクラスタの構成、例えば当該クラスタを構成する各文章に関する情報として、例えば当該クラスタに属する実文章や仮想代表文章の文章ＩＤ、さらにはそのステップ数に相当する階層レベルなどを大分類データ２５として出力し記憶部２０へ格納する（ステップ２０７）。そして、大分類ラベル生成手段１５を用いて、新たなクラスタに含まれていた仮想代表文章について、その元となるクラスタに対して後述の大分類ラベル生成処理を行う（ステップ２０８）。

このようにして、ステップ２０１〜２０８までを１ステップとして、ＤＴマトリクスに対する変形処理により新たなクラスタを生成するとともに、そのクラスタをその仮想代表文章で置換することにより新たなＤＴマトリクスを生成するクラスタリング処理を実行し、その後、ステップ２０１へ戻って、新たなＤＴマトリクスを用いたクラスタリング処理を繰り返し実行する。
これにより、クラスタリング処理の繰り返しステップで生成されたクラスタには、実文章だけでなく仮想代表文章すなわち他のクラスタも含まれることになり、実文章やクラスタが新たなクラスタに統合されて、各文章の大分類が得られることになる。

図１１は、大分類生成処理の実行例を示す説明図である。ここでは初期状態として、記憶部２０の文章集合２１に文章ａ〜ｋが格納されているものとする。そして、１回目のクラスタリング処理であるステップＳ１で、文章ａ，ｂからクラスタ３０１が生成され、その仮想代表文章Ｖ１が生成されている。同様にして、文章ｃ，ｄからクラスタ３０２が生成され、その仮想代表文章Ｖ２が生成されており、さらに文章ｅ，ｆからクラスタ３０３が生成され、その仮想代表文章Ｖ３が生成されている。

これにより、ステップＳ１終了時点では、文章ａ，ｂ，ｃ，ｄ，ｅ，ｆがＤＴマトリクス上から削除され、文章ｇ〜ｋと仮想代表文章Ｖ１，Ｖ２，Ｖ３からなる新たなＤＴマトリクスを用いたステップＳ２が実行される。
２回目のステップＳ２では、仮想代表文章Ｖ１と文章ｇからクラスタ３０４が生成され、その仮想代表文章Ｖ４が生成されている。

［大分類ラベル生成動作］
この際、図９のステップ２０８における大分類ラベル生成処理では、クラスタ３０４に仮想代表文章Ｖ１が含まれていることから、その仮想代表文章Ｖ１の元となるクラスタ３０１に対する大分類ラベルが生成される。
ここで、図１２を参照して、大分類ラベル生成処理について説明する。図１２は、本発明の第１の実施の形態にかかる文章分類装置での大分類ラベル生成処理を示すフローチャートである。
大分類ラベル生成手段１５は、まず、大分類生成処理における現在のステップが、新たなクラスタが見つからなかった最終ステップかどうか判断する（ステップ２３０）。

このとき、最終ステップでなければ（ステップ２３０：ＮＯ）、図９のステップ２０２で識別された新たなクラスタのうちから当該ラベル生成処理が未処理のクラスタを任意に１つ選択し（ステップ２３１）、そのクラスタに仮想代表文章が含まれているかどうか判断する（ステップ２３２）。なお、実文章と仮想代表文章とは、その文章番号などで識別すればよい。
ここで、仮想代表文章が含まれている場合にのみ（ステップ２３２：ＹＥＳ）、ＤＴマトリクス上でその仮想代表文章と強連結しているタームのキーワードから、その仮想代表文章の元のクラスタのラベルを生成する（ステップ２３３）。

そして、当該ラベル生成処理が未処理のクラスタがあれば（ステップ２３４：ＮＯ）、ステップ２３１に戻って未処理クラスタに対するラベル生成処理ステップ２３１〜２３３を繰り返し実行し、各クラスタに対する処理が終了した時点で（ステップ２３４：ＹＥＳ）、一連の大分類生成処理を終了する。

また、ステップ２３０において、大分類生成処理における現在のステップが最終ステップであった場合は（ステップ２３０：ＹＥＳ）、その最終ステップの時点においてＤＴマトリクスを構成する各文章から、当該ラベル生成処理が未処理の仮想代表文章を任意に１つ選択し（ステップ２４０）、ＤＴマトリクス上でその仮想代表文章と強連結しているタームのキーワードから、その仮想代表文章の元のクラスタのラベルを生成する（ステップ２４１）。

そして、当該ラベル生成処理が未処理の仮想代表文章があれば（ステップ２４２：ＮＯ）、ステップ２４０に戻って未処理の仮想代表文章に対するラベル生成処理ステップ２４０，２４１を繰り返し実行し、各仮想代表文章に対する処理が終了した時点で（ステップ２４２：ＹＥＳ）、一連の大分類生成処理を終了する。

したがって、図１１のステップＳ２では、クラスタ３０４に仮想代表文章Ｖ１が含まれていることから、ステップＳ２の処理開始時点におけるＤＴマトリクス上でその仮想代表文章Ｖ１と強連結しているタームのキーワードから、その仮想代表文章Ｖ１の元のクラスタ３０１のラベルＬ１が生成される。
以下、同様にして、ステップＳ３では、仮想代表文章Ｖ２と文章ｈからクラスタ３０５が生成され、その仮想代表文章Ｖ５が生成されている。そして、仮想代表文章Ｖ２の元のクラスタ３０５のラベルＬ２が生成される。

次のステップＳ４では、仮想代表文章Ｖ４，Ｖ５と文章ｉからクラスタ３０６が生成されて、その仮想代表文章Ｖ６が生成されるとともに、仮想代表文章Ｖ３と文章ｊからクラスタ３０７が生成されて、その仮想代表文章Ｖ７が生成されている。そして、仮想代表文章Ｖ４の元のクラスタ３０４のラベルＬ４が生成されるとともに、仮想代表文章Ｖ５の元のクラスタ３０５のラベルＬ５が生成され、さらに仮想代表文章Ｖ３の元のクラスタ３０３のラベルＬ３が生成されている。
続くステップＳ５では、仮想代表文章Ｖ６と文章ｋからクラスタ３０８が生成されて、その仮想代表文章Ｖ８が生成されている。そして、仮想代表文章Ｖ６の元のクラスタ３０６のラベルＬ６が生成されている。

大分類生成手段１３では、このようにしてクラスタリング処理（ステップ２０１〜２０８）を繰り返し実行し、図９のステップ２０３で新たなクラスタが見つからなかった場合は（ステップ２０３：ＮＯ）、最終ステップとして、大分類ラベルの付いていないクラスタに対する大分類ラベル生成処理を実行し（ステップ２０９）、一連の大分類生成処理を終了する。

これにより、図１１の最終ステップでは、その時点のＤＴマトリクス上で、仮想代表文章Ｖ８と強連結しているタームのキーワードから、その仮想代表文章Ｖ８の元のクラスタ３０８のラベルＬ８が生成され、同様にして仮想代表Ｖ７の元のクラスタ３０７のラベルＬ７が生成される。

図１３は、初期状態におけるＤＴマトリクスの生成例である。各文章Ｄｉ内にタームＴｊが存在する場合、列方向（横方向）に配置された文章Ｄｉと行方向（縦方向）に配置されたタームＴｊとの交点にドットが配置されており、タームＴｊが存在しない場合は空白となっている。なお、このＤＴマトリクスのうち、エリア３１０には実文章が横軸に配置されており、エリア３１１は仮想代表文章の配置用のため初期状態では空白となっている。
図１４は、最終ステップにおけるＤＴマトリクスの生成例である。この例では、大分類生成処理によりエリア３１０の実文章が削除されてほとんど空白となり、エリア３１１の仮想代表文章に置換されていることがわかる。

このように、ＤＴマトリクスに対する変形処理により新たなクラスタを生成するとともに、そのクラスタをその仮想代表文章で置換することにより新たなＤＴマトリクスを生成するクラスタリング処理を繰り返し実行するようにしたので、新たなＤＴマトリクスから順次新たなクラスタ、すなわちクラスタを含むより大きなクラスタすなわち大分類が得られる。
これにより、記憶部２０の大分類データ２５として、図１１に示されているように、各文章ａ〜ｋのみを要素とする分類、例えばクラスタ３０１〜３０３だけでなく、１つ以上のクラスタを含むより大きな分類すなわち大分類として、クラスタ３０４〜３０８が得られる。

さらに、上記クラスタリング処理をＤＴマトリクス上で新たなクラスタが識別されなくなるまで繰り返し実行するようにしたので、各文章からボトムアップ的に階層化クラスタリングが行われ、これらクラスタ３０１〜３０８間すなわち大分類間の階層的関係をツリー構造として可視化することができる。

なお、以上では、大分類生成処理（図９参照）で、大分類ラベル生成処理（ステップ２０８，２０９）を行う場合を例として説明したが、この大分類ラベル生成処理は、大分類生成処理と連携させて行う必要はなく、大分類生成処理が終了した後、必要に応じて大分類ラベル生成処理（図１２参照）を独立して行ってもよい。

［大分類表示動作］
このようにして、大分類生成手段１３により、記憶部２０の文章集合２１を大分類した後、文章分類装置の演算処理部１０は、表示処理手段１６により、その大分類の結果を画面表示部４０へ画面表示する。
図１５は、大分類結果の表示画面例である。この表示画面例では、画面の縦方向に大分類の階層を示すレベル０〜レベル４が配置されている。これらレベル０〜レベル４は、大分類生成処理で繰り返し実行されたクラスタリング処理すなわち各ステップに相当している。なお、表示出力領域の横方向は木構造の広がりを表示するために用いられ、その表示順序などに特別な意味はない。

例えば、前述した図１１の例では、１回目のクラスタリング処理であるステップＳ１でクラスタ３０１，３０２，３０３が生成されている。表示処理手段１６は、これらクラスタ３０１，３０２，３０３を示す例えば楕円形状の表示シンボル（表示オブジェクト）からなるクラスタシンボル３２１，３２２，３２３を、表示出力領域のうちステップＳ１に相当するレベル０に配置する。
同様にして、ステップＳ２で生成されたクラスタ３０４を示すクラスタシンボル３２４をレベル１に配置し、ステップＳ３で生成されたクラスタ３０５を示すクラスタシンボル３２５をレベル２に配置し、ステップＳ４で生成されたクラスタ３０６，３０７を示すクラスタシンボル３２６，３２７をレベル３に配置し、ステップＳ５で生成されたクラスタ３０８を示すクラスタシンボル３２８をレベル４に配置する。

また、表示処理手段１６は、各クラスタ３０１〜３０８の統合関係を表示するため、各クラスタシンボルを結ぶ線形状の表示シンボル（表示オブジェクト）からなるリンクシンボルをそれぞれのクラスタシンボル間に配置する。
例えば、前述した図１１の例では、クラスタ３０１はクラスタ３０４に統合されており、これらクラスタ３０１，３０４に対応するクラスタシンボル３２１，３２４間に、この統合関係を示すリンクシンボル３４１が配置されている。

同様にして、クラスタシンボル３２２，３２５間には、対応するクラスタ３０２，３０５間の統合関係を示すリンクシンボル３４２が配置され、クラスタシンボル３２３，３２７間には、対応するクラスタ３０３，３０７間の統合関係を示すリンクシンボル３４３が配置されている。また、クラスタシンボル３２４，３２６間には、対応するクラスタ３０４，３０６間の統合関係を示すリンクシンボル３４４が配置され、クラスタシンボル３２５，３２６間には、対応するクラスタ３０５，３０６間の統合関係を示すリンクシンボル３４５が配置され、クラスタシンボル３２６，３２８間には、対応するクラスタ３０６，３０８間の統合関係を示すリンクシンボル３４６が配置されている。

表示処理手段１６は、記憶部２０の大分類データ２５に基づき、これらクラスタシンボルおよびリンクシンボルを表示出力領域に配置する。図１６は、大分類データの構成例である。ここでは、各クラスタの識別情報であるクラスタＩＤごとに、当該クラスタが属するレベル、当該クラスタで生成された仮想代表文章の識別情報である仮想代表文章ＩＤ、当該クラスタで統合された要素文章の識別情報である要素文章ＩＤ、当該クラスタに付与された大分類ラベルを示すラベル１，ラベル２とそれぞれの品詞が組として登録されている。

表示処理手段１６は、各クラスタシンボルを配置する際、各クラスタのレベルを参照して、対応する表示出力領域の縦方向位置に配置し、そのクラスタシンボル上にクラスタＩＤを表示する。また、各クラスタリンクを配置する際、任意のクラスタの仮想代表文章ＩＤを参照し、その仮想代表ＩＤを要素文章ＩＤとして持つクラスタＩＤを検索し、これらクラスタのクラスタシンボルを結ぶようリンクシンボルを配置する。例えば、クラスタＩＤ「１」のクラスタの仮想代表文章ＩＤは「１０１」であり、クラスタＩＤ「７」のクラスタの要素文章ＩＤに存在している。したがって、クラスタＩＤ「１」とクラスタＩＤ「７」のクラスタシンボル間にリンクシンボルが配置される。

この際、表示処理手段１６は、これらクラスタシンボルおよびリンクシンボルに固有の識別情報としてシンボルＩＤを付与し、これらシンボルに関するデータを、シンボルデータ２６として記憶部２０へ格納する。
図１７は、シンボルデータの構成例である。ここでは、各シンボルの識別情報であるシンボルＩＤごとに、当該シンボルのシンボル種別（クラスタ／リンク）、および当該シンボルと対応するクラスタＩＤが組として登録されている。
例えば、シンボルＩＤ「Ｃ１」は、クラスタＩＤ「１」のクラスタシンボルであり、シンボルＩＤ「Ｌ１」は、クラスタＩＤ「１」とクラスタＩＤ「７」を結ぶリンクシンボルであることがわかる。

図１８は、図１６の大分類データの画面表示例である。各クラスタ（ＩＤ＝１〜１０）に対応するクラスタシンボルＣ１〜Ｃ１０が、それぞれのレベルに配置されており、これらクラスタシンボルが、各クラスタの統合関係に基づきリンクシンボルＬ１〜Ｌ７により相互に接続されている。
また、各クラスタシンボルＣ１〜Ｃ１０には、それぞれのクラスタＩＤが表示されており、各クラスタシンボルＣ１〜Ｃ１０の周辺に当該クラスタの大分類ラベルが表示されている。

このように、本実施の形態では、大分類生成手段１３により、クラスタリング処理として、ＤＴマトリクス変形手段１２でＤＴマトリクス２３から生成された変形ＤＴマトリクス２４上のクラスタごとに仮想代表生成手段１４で仮想代表文章を生成し、これら仮想代表文章を変形ＤＴマトリクス２４に追加するとともに仮想代表文章のクラスタに属する文章を変形ＤＴマトリクス２４から削除して次のクラスタリング処理に用いる新たなＤＴマトリクス２３を生成し、クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データ２５として出力し、表示処理手段１６により、大分類データ２５に基づいて、各クラスタリング処理で生成されたクラスタを示すクラスタシンボルと異なるステップのクラスタとの統合関係を示すリンクシンボルとを用いた木構造で大分類の結果を画面表示するようにした。

本実施の形態のような、階層的なクラスタリングと同時にクラスタのラベルも同時に決定する手法は、自然言語における概念クラスタリング法と考えることも可能である。例えば、図１６〜図１８に示した例では、発光素子に関する複数の特許明細書を文章集合２１として用意し大分類生成処理を適用した。この結果、これら特許明細書は、下位−中位−上位の各概念に相当するレベル０，１，２において、それぞれ固有のラベルで示される概念を持つ階層的なクラスタに分類され、大域的な情報としてこれらクラスタ間の統合関係を容易に把握することが可能となる。

［第２の実施の形態］
次に、図１９を参照して、本発明の第２の実施の形態にかかる文章分類装置について説明する。図１９は、本発明の第２の実施の形態にかかる文章分類装置のラベル表示動作を示す画面出力例である。

前述の第１の実施の形態では、大分類生成処理で得られた各クラスタを木構造で画面表示する場合について説明した。本実施の形態では、この木構造を構成する任意のクラスタに関する詳細な情報としてラベルを表示する場合について説明する。なお、本実施の形態にかかる文章分類装置では、表示処理手段１６について以下に説明する機能が追加されるものの、全体の構成は前述した第１の実施の形態と同様であり、ここでの詳細な説明は省略する。

文章分類装置１の演算処理部１０は、画面表示部４０の表示出力領域で大分類生成結果を表示している際、その木構造を構成する任意のクラスタシンボルまたはリンクシンボルに対する選択操作に応じて、表示処理手段１６により、選択されたシンボルの内容を示すラベルを画面表示部４０で表示する。この際、任意のシンボルに対する選択操作は、例えばマウス操作を操作入力部３０で検出し、演算処理部１０のＯＳ（Operating System）を介して、当該シンボル（オブジェクト）に対するイベントとして表示処理手段１６で検出すればよい。

例えば、図１９のクラスタシンボル３５１に対する選択操作が検出された場合、表示処理手段１６は、記憶部２０のシンボルデータ２６を参照して、当該クラスタシンボル３５１のシンボルＩＤに対応するシンボル種別のクラスタＩＤを取得する。この際、シンボル種別はクラスタであることから、そのクラスタＩＤを用いて大分類データ２５を参照し、当該クラスタのラベル、この場合は「全国・拠点」を取得して、クラスタシンボル３５１の周辺位置にラベル３５２として画面表示する。

また、図１９の選択範囲３５７に属する各クラスタシンボル対する選択操作が検出された場合、表示処理手段１６は、記憶部２０のシンボルデータ２６を参照して、これらクラスタシンボルのシンボルＩＤに対応するシンボル種別のクラスタＩＤを取得する。この際、表示処理手段１６は、これらクラスタシンボルのクラスタＩＤを用いて大分類データ２５を参照し、これらクラスタのラベルの論理和集合「ネットワーク・機器，資格・取得，企業・参加，センター・コール」を取得し、選択範囲３５７の周辺位置にラベル３５８として画面表示する。

複数のクラスタが同時に選択された場合、これらクラスタのラベルの選択方法を指示する操作メニューを画面表示して、所望の選択方法で表示するようにしてもよい。この場合、複数クラスタの選択に応じて操作メニューを画面表示してもよく、例えばマウス右ボタン操作などのオペレータの明示的な操作に応じて操作メニューを画面表示してもよい。
図２０は、操作メニュー３６０の表示例である。ここでは、複数のクラスタのラベルに対する論理和（ＯＲ）のほか、同一ラベルのみを選択する論理積（ＡＮＤ）や、相違するラベルのみを選択する排他的論理和（ＸＯＲ）を指示できる。これにより、複数のクラスタの関係を容易に把握できる。

一方、図１９のリンクシンボル３５３に対する選択操作が検出された場合、表示処理手段１６は、記憶部２０のシンボルデータ２６を参照して、当該リンクシンボル３５３のシンボルＩＤに対応するシンボル種別のクラスタＩＤを取得する。この際、シンボル種別はリンクであることから、大分類データ２５を参照して、そのリンクシンボル３５３のうち、当該リンクシンボル３５３の下位レベル側に直接接続されているクラスタに統合されているすべてのクラスタのラベルの論理和と、当該リンクシンボル３５３の上位側に直接接続されているクラスタのラベルとの論理積「センター・アワード，マネジメント・部門，機器・販売」を取得し、リンクシンボル３５３の周辺位置にラベル３５６として画面表示する。

本実施の形態では、このように、大分類結果として画面表示している木構造を構成する任意のクラスタシンボルまたはリンクシンボルに対する選択操作に応じて、表示処理手段１６により、選択されたシンボルの内容を示すラベルを画面表示部４０で表示するようにしたので、所望のクラスタに関する分類内容を容易に確認することができる。また、複数のクラスタが同時に選択された場合は、各クラスタのラベルに任意の論理演算を行って得た集合を表示するようにしたので、複数のクラスタに関する関係をより詳細に把握することが可能となる。

［第３の実施の形態］
次に、図２１を参照して、本発明の第３の実施の形態にかかる文章分類装置について説明する。図２１は、本発明の第３の実施の形態にかかる文章分類装置のストップワード登録動作に用いる登録画面出力例である。

前述の第１の実施の形態では、大分類生成処理で得られた各クラスタを木構造で画面表示する場合について説明した。本実施の形態では、この木構造の任意のクラスタに関するラベルのいずれかを大分類処理で使用しないタームすなわちストップワードとして登録し、このストップワードを排除して大分類処理を再実行する場合について説明する。なお、本実施の形態にかかる文章分類装置の構成は前述した第１の実施の形態と同様であり、ここでの詳細な説明は省略する。

文章分類装置１の演算処理部１０は、操作入力部３０からのストップワード登録操作に応じて、ストップワード登録手段１７により、ストップワード登録動作を開始する。例えば、画面表示部４０の表示出力領域で大分類生成結果を表示している際、その木構造を構成する任意のクラスタシンボルまたはリンクシンボルに対する選択操作に応じて、表示処理手段１６により、図２０の操作メニュー３６０を画面表示し、この操作メニュー３６０でのストップワード登録指示に応じてストップワード登録動作を開始してもよい。

ストップワード登録動作において、まず、ストップワード登録手段１７は、図２１のストップワード登録画面３７０を画面表示する。ストップワード登録画面３７０には、ストップワードの候補がリスト表示される選択キーワードリスト３７１と、選択されたストップワードがリスト表示されるストップワードリスト３７２が表示されている。例えば、マウスで選択キーワードリスト３７１内の「機器・販売」というラベル３７５が選択された場合、これがストップワードリスト３７２に新たなストップワード３７６として表示され登録される。

この際、選択キーワードリスト３７１に表示するラベルについては、ストップワード登録画面３７０の表示直前に選択されていたシンボルと対応するクラスタのラベルを大分類データ２５から取得して表示してもよく、選択されたクラスタに統合されているすべてのクラスタ、あるいは画面表示されているすべてのクラスタのラベルの論理和集合を表示してもよい。また、クラスタのラベルを用いず、選択されたクラスタの仮想体表文章や、選択されたクラスタに統合されているすべての文章に含まれるタームを選択キーワードリスト３７１に表示してもよい。

ストップワードの登録が完了した後、ストップワード登録画面３７０で「再分類開始」ボタン３７９が押下された場合、ストップワード登録手段１７は、記憶部２０のタームリスト２２から上記各ストップワードを排除した大分類生成処理を大分類生成手段１３へ指示する。この際、記憶部２０にストップワードを格納し、大分類生成手段１３が大分類生成処理においてこれを参照してもよく、タームリスト２２に設けられたストップワード欄にストップワード登録手段１７が有効／無効を記述し、大分類生成手段１３が大分類生成処理においてこれを参照してもよい。

これにより、上記各ストップワードを排除した大分類生成処理が大分類生成手段１３で実行される。図２２は、ストップワードを登録しない場合の大分類結果を示す表示画面例である。図２３は、ストップワードを登録した場合の大分類結果を示す表示画面例である。ストップワードを登録して大分類を再生成することにより、木構造が大幅に整理されていることがわかる。

本実施の形態では、このように、大分類で得られた木構造の任意のクラスタに関するラベルのいずれかを大分類処理で使用しないタームすなわちストップワードとして登録し、このストップワードを排除して大分類処理を再実行するようにしたので、不要なタームを排除でき、文章集合２１に対してよりノイズの少ない大分類を得ることができる。

［第４の実施の形態］
次に、本発明の第４の実施の形態にかかる文章分類装置について説明する。
前述の第１の実施の形態では、大分類生成処理で得られた各クラスタを木構造で画面表示する場合について説明した。本実施の形態では、大分類処理で得られた木構造のグラフ構造に関する性質をプロパティ情報として画面表示する場合について説明する。なお、本実施の形態にかかる文章分類装置では、表示処理手段１６について以下に説明する機能が追加されるものの、全体の構成は前述した第１の実施の形態と同様であり、ここでの詳細な説明は省略する。

文章分類装置１の演算処理部１０は、画面表示部４０の表示出力領域で大分類生成結果を表示した際、その木構造のグラフ構造に関する性質をプロパティ情報として画面表示する。プロパティ情報としては、各クラスタから分岐している枝数（リンク数）の平均値から求められる頂点次数平均値や、各木構造全体で用いている枝数（リンク数）の平均値から求められる枝数平均値を用いる。

一般に、任意の対象の階層構成を木構造で表現する場合、そのグラフ構造がある程度まで小さくなったほうが、その階層構造を把握しやすい。これら頂点次数平均値や枝数平均値は、木構造の規模や複雑さを示す尺度であり、このようなプロパティ情報を数値で画面表示することにより、これらプロパティ情報を目安として、例えばストップワードを用いた大分類生成処理の繰り返し要否を容易に判断することができる。

本発明の第１の実施の形態にかかる文章分類装置の構成を示すブロック図である。本実施の形態にかかる文章分類装置のＤＴマトリクス生成処理を示すフローチャートである。文章集合の構成例である。タームリストの構成例である。ＤＴマトリクスの構成例である。ＤＭ分解処理を示すフローチャートである。ＤＭ分解処理の過程を示す２部グラフである。ＤＴマトリクスおよび変形ＤＴマトリクスの構成例である。本発明の第１の実施の形態にかかる文章分類装置での大分類生成処理を示すフローチャートである。文章分類処理を示す説明図である。大分類生成処理の実行例を示す説明図である。本発明の第１の実施の形態にかかる文章分類装置での大分類ラベル生成処理を示すフローチャートである。初期状態におけるＤＴマトリクスの生成例である。最終ステップにおけるＤＴマトリクスの生成例である。大分類結果の表示画面例である。大分類データの構成例である。シンボルデータの構成例である。図１６の大分類データの画面表示例である。本発明の第２の実施の形態にかかる文章分類装置のラベル表示動作を示す画面出力例である。操作メニューの表示例である。本発明の第３の実施の形態にかかる文章分類装置のストップワード登録動作に用いる登録画面出力例である。ストップワードを登録しない場合の大分類結果を示す表示画面例である。ストップワードを登録した場合の大分類結果を示す表示画面例である。

符号の説明

１…文章分類装置、１０…演算処理部、１１…ＤＴマトリクス生成手段、１２…ＤＴマトリクス変形手段、１３…大分類生成手段、１４…仮想代表生成手段、１５…大分類ラベル生成手段、１６…表示処理手段、１７…ストップワード登録手段、２０…記憶部、２１…文章集合、２２…タームリスト、２３…ＤＴマトリクス、２４…変形ＤＴマトリクス、２５…大分類データ、２６…シンボルデータ、２７…プログラム、３０…操作入力部、４０…画面表示部、５０…入出力Ｉ／Ｆ部。

Claims

複数の文章からなる文章集合と１つ以上の単語からなるタームを複数有するタームリストとを含む各種処理情報を記憶する記憶部と、前記処理情報に対して任意の情報演算処理を行う演算処理部と、この演算処理部での処理結果を画面表示する画面表示部とを有し、前記演算処理部により、前記各文章を前記タームリストに基づき分類する文章分類装置であって、
前記演算処理部は、
前記各文章と前記各タームとの関係を２次元表現したＤＴマトリクスを生成するＤＴマトリクス生成手段と、
グラフ理論で用いられるＤＭ分解法に基づいて前記ＤＴマトリクス生成手段で得られたＤＴマトリクスを変形することにより、変形ＤＴマトリクスを生成するＤＴマトリクス変形手段と、
変形ＤＴマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表生成手段と、
前記ＤＴマトリクス生成手段で生成したＤＴマトリクスを初期状態として用い、所定のクラスタリング処理をステップとして繰り返し行うことにより前記文章の大分類を生成する大分類生成手段と、
前記大分類の大分類を前記画面表示部で画面表示する表示処理手段とを備え、
前記大分類生成手段は、前記クラスタリング処理として、前記ＤＴマトリクス変形手段でＤＴマトリクスから生成された変形ＤＴマトリクス上のクラスタごとに前記仮想代表生成手段で仮想代表文章を生成し、前記仮想代表文章を当該変形ＤＴマトリクスに追加するとともに前記仮想代表文章のクラスタに属する文章を当該変形ＤＴマトリクスから削除して次のクラスタリング処理に用いる新たなＤＴマトリクスを生成し、前記クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力し、
前記表示処理手段は、前記大分類データに基づいて、前記各クラスタリング処理で生成された各クラスタを示すクラスタシンボルと前記各クラスタ間の統合関係を示すリンクシンボルとを用いた木構造で前記大分類の結果を画面表示する
ことを特徴とする文章分類装置。
請求項１に記載の文章分類装置において、
前記表示処理手段は、前記クラスタシンボル上またはその周辺に、当該クラスタに固有の識別情報と当該クラスタの内容を示すラベルを画面表示することを特徴とする文章分類装置。
請求項１に記載の文章分類装置において、
前記表示処理手段は、画面表示されている任意のクラスタシンボルまたはリンクシンボルに対する選択操作に応じて、選択されたクラスタシンボルのクラスタ、または選択されたリンクシンボルで結ばれるクラスタの内容を示すラベルを画面表示することを特徴とする文章分類装置。
請求項１に記載の文章分類装置において、
前記クラスタリング処理で得られた各クラスタのうち当該クラスタに仮想代表文章が含まれている場合は、その仮想代表文章と強連結をなすタームから、当該仮想代表文章の元のクラスタの内容を示すラベルを生成する大分類ラベル生成手段をさらに備えることを特徴とする文章分類装置。
請求項１に記載の文章分類装置において、
前記表示処理手段は、前記各ステップの順に、当該クラスタリング処理で得られた前記クラスタのクラスタシンボルを階層表示することを特徴とする文章分類装置。
請求項１に記載の文章分類装置において、
前記タームリストのうち使用しないタームをストップワードとして登録するストップワード登録手段をさらに備え、
前記大分類生成手段は、前記各タームのうち前記ストップワードを除く他のタームを用いて前記ＤＴマトリクス生成手段で生成したＤＴマトリクスを初期状態として用いて、前記文章の大分類を再生成する
ことを特徴とする文章分類装置。
請求項１に記載の文章分類装置において、
前記表示処理手段は、前記大分類の結果を木構造で画面表示する際、前記木構造の規模や複雑さを示すプロパティ情報を画面表示することを特徴とする文章分類装置。
複数の文章からなる文章集合と１つ以上の単語からなるタームを複数有するタームリストとを含む各種処理情報を記憶する記憶部と、前記処理情報に対して任意の情報演算処理を行う演算処理部と、この演算処理部での処理結果を画面表示する画面表示部とを有する文章分類装置で、前記演算処理部により、前記各文章を前記タームリストに基づき分類する文章分類方法であって、
前記各文章と前記各タームとの関係を２次元表現したＤＴマトリクスを生成するＤＴマトリクス生成ステップと、
グラフ理論で用いられるＤＭ分解法に基づいて前記ＤＴマトリクス生成ステップで得られたＤＴマトリクスを変形することにより、変形ＤＴマトリクスを生成するＤＴマトリクス変形ステップと、
変形ＤＴマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表文章生成ステップと、
前記ＤＴマトリクス生成ステップで生成したＤＴマトリクスを初期状態として用い、所定のクラスタリング処理をステップとして繰り返し行うことにより前記文章の大分類を生成する大分類生成ステップと、
前記大分類の大分類を前記画面表示部で画面表示する表示処理ステップとを備え、
前記大分類生成ステップは、前記クラスタリング処理として、前記ＤＴマトリクス変形ステップでＤＴマトリクスから生成された変形ＤＴマトリクス上のクラスタごとに前記仮想代表文章生成ステップで仮想代表文章を生成し、前記仮想代表文章を当該変形ＤＴマトリクスに追加するとともに前記仮想代表文章のクラスタに属する文章を当該変形ＤＴマトリクスから削除して次のクラスタリング処理に用いる新たなＤＴマトリクスを生成し、前記クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力し、
前記表示処理ステップは、前記大分類データに基づいて、前記各クラスタリング処理で生成された各クラスタを示すクラスタシンボルと前記各クラスタ間の統合関係を示すリンクシンボルとを用いた木構造で前記大分類の結果を画面表示する
ことを特徴とする文章分類方法。
複数の文章からなる文章集合と１つ以上の単語からなるタームを複数有するタームリストとを含む各種処理情報を記憶する記憶部と、前記処理情報に対して任意の情報演算処理を行う演算処理部と、この演算処理部での処理結果を画面表示する画面表示部とを有し、前記演算処理部により、前記各文章を前記タームリストに基づき分類する文章分類装置のコンピュータに、
前記各文章と前記各タームとの関係を２次元表現したＤＴマトリクスを生成するＤＴマトリクス生成ステップと、
グラフ理論で用いられるＤＭ分解法に基づいて前記ＤＴマトリクス生成ステップで得られたＤＴマトリクスを変形することにより、変形ＤＴマトリクスを生成するＤＴマトリクス変形ステップと、
変形ＤＴマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表文章生成ステップと、
前記ＤＴマトリクス生成ステップで生成したＤＴマトリクスを初期状態として用い、所定のクラスタリング処理をステップとして繰り返し行うことにより前記文章の大分類を生成する大分類生成ステップと、
前記大分類の大分類を前記画面表示部で画面表示する表示処理ステップとを実行させ、
前記大分類生成ステップは、前記クラスタリング処理として、前記ＤＴマトリクス変形ステップでＤＴマトリクスから生成された変形ＤＴマトリクス上のクラスタごとに前記仮想代表文章生成ステップで仮想代表文章を生成し、前記仮想代表文章を当該変形ＤＴマトリクスに追加するとともに前記仮想代表文章のクラスタに属する文章を当該変形ＤＴマトリクスから削除して次のクラスタリング処理に用いる新たなＤＴマトリクスを生成し、前記クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力し、
前記表示処理ステップは、前記大分類データに基づいて、前記各クラスタリング処理で生成された各クラスタを示すクラスタシンボルと前記各クラスタ間の統合関係を示すリンクシンボルとを用いた木構造で前記大分類の結果を画面表示する
ことを特徴とするプログラム。