JP2005038386A

JP2005038386A - 文章分類装置および方法

Info

Publication number: JP2005038386A
Application number: JP2004053419A
Authority: JP
Inventors: Eiji Murakami; 英治村上; Takao Terano; 隆雄寺野
Original assignee: Azbil Corp
Current assignee: Azbil Corp
Priority date: 2003-07-01
Filing date: 2004-02-27
Publication date: 2005-02-10
Anticipated expiration: 2024-02-27
Also published as: US20060155662A1; US7567954B2; JP4382526B2; WO2005004004A1

Abstract

【課題】比較的少ない作業負担で、主観にとらわれることなく柔軟に分類できるようにする。
【解決手段】ＤＴマトリクス生成手段１１で、文章集合２１内の各文章Ｄとタームリスト２２内の各タームＴとからＤＴマトリクス１１Ａを生成し、ＤＴマトリクス変形手段１２で、そのＤＴマトリクス１１ＡをＤＭ分解して変形ＤＴマトリクス１１Ｂを生成する。そして文章分類手段１３で、変形ＤＴマトリクス１１Ｂ上に現れる各クラスタごとに、当該クラスタに属する各文章Ｄを１つの分類（部分集合）として抽出出力する。
【選択図】図１

Description

本発明は、文章分類装置および方法に関し、特に文章の内容に応じて各文章を分類する文章分類装置および方法に関するものである。

高度情報化社会では、情報処理技術や情報通信技術の発展に伴い、電子化された膨大な量の情報を容易に入手できる環境が提供されつつある。このような環境を利用して入手した情報は、そのデータ量も膨大となるため、所望する情報を効率よくかつ正確に把握する必要がある。
情報の内容を解析する技術として、各情報を構成する文章の内容に応じて各文章を分類する技術が研究されている。

従来、文章を分類する技術として、予め各分類の内容を示すラベルを用意し、各文章の内容を所定のアルゴリズムで解析し、用意した各ラベルごとにそれぞれの文章を分類するものが提案されている（例えば、非特許文献１など参照）。
このような技術は、文章の分類に際し、予め各分類の内容を示すラベルを用意し、各種の学習アルゴリズムを用いて、これらラベルを各文章に対して精度よく割り当てることにより、各文章をラベルごとに分類しようとするものである。

なお、出願人は、本明細書に記載した先行技術文献情報で特定される先行技術文献以外には、本発明に関連する先行技術文献を出願時までに発見するには至らなかった。
永田昌明他,「テキスト分類−学習論理の見本市−」,情報処理,42巻1号,2001年1月北研二他,「情報検索アルゴリズム」,共立出版,2002年

しかしながら、このような従来の文章分類技術では、予めラベルを用意する必要があるため、分類対象となる各文章の内容をある程度把握して適切なラベルを選択して設定しておく必要がある。したがって、このラベル選択に際し、文章量が多くその内容が広範囲にわたる場合には大きな作業負担を要するという問題点があった。また、分類に用いるラベルは主観的に選択されることから、得られる分類そのものが限定的となり、想定しうる範囲を超えた新たな観点から文章を分類できないという問題点があった。
本発明はこのような課題を解決するためのものであり、比較的少ない作業負担で、主観にとらわれることなく柔軟に分類できる文章分類装置および方法を提供することを目的としている。

このような目的を達成するために、本発明にかかる文章分類装置は、文章集合に含まれる複数の文章を、１つ以上の単語からなるタームを複数有するタームリストに基づき分類する文章分類装置において、各文章と各タームとの関係を２次元表現したＤＴマトリクスを生成するＤＴマトリクス生成手段と、グラフ理論で用いられるＤＭ分解法に基づいてＤＴマトリクス生成手段で得られたＤＴマトリクスを変形することにより、変形ＤＴマトリクスを生成するＤＴマトリクス変形手段と、このＤＴマトリクス変形手段で得られた変形ＤＴマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する文章を同一分類として出力する文章分類手段とを備えるものである。

この際、任意のクラスタに属する各文章と強連結をなす各タームを、当該クラスタの分類を示すラベルとして出力するラベル生成手段をさらに設けてもよい。

あるいは、変形ＤＴマトリクスでの文章の並び順序に応じて、任意のクラスタに属する文章またはすべての文章を順に出力する文章編成手段をさらに設けてもよい。

また、任意の文章を構成する各文のうち、当該文章と強連結をなすタームを含む文を、当該文章の要約として出力する要約作成手段をさらに設けてもよい。

また、タームリストに対して任意のタームを追加または削除するタームリスト編集手段と、このタームリスト編集手段による編集前後のタームリストを用いてＤＴマトリクス生成手段によりそれぞれＤＴマトリクスを生成し、これらＤＴマトリクスから当該編集の有用性を示す指標を生成して出力する指標生成手段とをさらに設けてもよい。

また、本発明にかかる文章分類方法は、文章集合に含まれる複数の文章を、１つ以上の単語からなるタームを複数有するタームリストに基づき分類する文章分類装置で用いられる文章分類方法において、各文章と各タームとの関係を２次元表現したＤＴマトリクスを生成するステップと、グラフ理論で用いられるＤＭ分解法に基づいてＤＴマトリクスを変形することにより、変形ＤＴマトリクスを生成するステップと、変形ＤＴマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する文章を同一分類として出力するステップとを備えるものである。

この際、任意のクラスタに属する各文章と強連結をなす各タームを、当該クラスタの分類を示すラベルとして出力するステップをさらに設けてもよい。

あるいは、変形ＤＴマトリクスでの文章の並び順序に応じて、任意のクラスタに属する文章またはすべての文章を順に出力するステップをさらに設けてもよい。

また、任意の文章を構成する各文のうち、当該文章と強連結をなすタームを含む文を、当該文章の要約として出力するステップをさらに設けてもよい。

また、タームリストに対して任意のタームを追加または削除するステップと、編集前後のタームリストを用いてそれぞれＤＴマトリクスを生成し、これらＤＴマトリクスから当該編集の有用性を示す指標を生成して出力するステップとをさらに設けてもよい。

また、本発明にかかる他の文章分類装置は、文章集合に含まれる複数の文章を、１つ以上の単語からなるタームを複数有するタームリストに基づき分類する文章分類装置において、各文章と各タームとの関係を２次元表現したＤＴマトリクスを生成するＤＴマトリクス生成手段と、グラフ理論で用いられるＤＭ分解法に基づいてＤＴマトリクスを変形することにより、変形ＤＴマトリクスを生成するＤＴマトリクス変形手段と、
変形ＤＴマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表文章生成手段と、ＤＴマトリクス生成手段で生成したＤＴマトリクスを初期状態としてクラスタリング処理を繰り返し行うことにより文章の大分類を生成する大分類生成手段とを備え、大分類生成手段で、クラスタリング処理として、ＤＴマトリクス変形手段でＤＴマトリクスから生成された変形ＤＴマトリクス上のクラスタごとに仮想代表文章生成手段で仮想代表文章を生成し、仮想代表文章を当該変形ＤＴマトリクスに追加するとともに仮想代表文章のクラスタに属する文章を当該変形ＤＴマトリクスから削除して次のクラスタリング処理に用いる新たなＤＴマトリクスを生成し、クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力する処理を行うようにしたものである。

この際、大分類生成手段で、クラスタリング処理で、変形ＤＴマトリクスからクラスタが得られなくなった場合に、クラスタリング処理の繰り返しを終了するようにしてもよい。

また、クラスタリング処理で得られた各クラスタのうち、当該クラスタに仮想代表文章が含まれている場合は、その仮想代表文章と強連結をなすタームから、当該仮想代表文章の元のクラスタのラベルを生成する大分類ラベル生成手段をさらに設けてもよい。

また、本発明にかかる他の文章分類方法は、文章集合に含まれる複数の文章を、１つ以上の単語からなるタームを複数有するタームリストに基づき分類する文章分類装置で用いられる文章分類方法において、各文章と各タームとの関係を２次元表現したＤＴマトリクスを生成するＤＴマトリクス生成ステップと、グラフ理論で用いられるＤＭ分解法に基づいてＤＴマトリクスを変形することにより、変形ＤＴマトリクスを生成する変形ＤＴマトリクス生成ステップと、変形ＤＴマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表文章生成ステップと、ＤＴマトリクス生成ステップで生成したＤＴマトリクスを初期状態としてクラスタリング処理を繰り返し行うことにより文章の大分類を生成する大分類生成ステップとを備え、大分類生成ステップとして、クラスタリング処理として、ＤＴマトリクス変形ステップでＤＴマトリクスから生成された変形ＤＴマトリクス上のクラスタごとに仮想代表文章生成ステップで仮想代表文章を生成するステップと、仮想代表文章を当該変形ＤＴマトリクスに追加するとともに仮想代表文章のクラスタに属する文章を当該変形ＤＴマトリクスから削除して次のクラスタリング処理に用いる新たなＤＴマトリクスを生成するステップと、クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力するステップとからなる処理を行うようにしてもよい。

この際、大分類生成ステップで、クラスタリング処理で、変形ＤＴマトリクスからクラスタが得られなくなった場合に、クラスタリング処理の繰り返しを終了するようにしてもよい。

また、クラスタリング処理で得られた各クラスタのうち、当該クラスタに仮想代表文章が含まれている場合は、その仮想代表文章と強連結をなすタームから、当該仮想代表文章の元のクラスタのラベルを生成する大分類ラベル生成ステップをさらに設けてもよい。

本発明によれば、文章集合内の各文章とタームリスト内の各タームとから生成されたＤＴマトリクスがＤＭ分解されて、得られた変形ＤＴマトリクス上の各クラスタごとに、当該クラスタに属する各文章が１つの分類として抽出されるため、各分類に対応したラベルを予め用意することなく各文章を分類できる。
したがって、従来のように分類対象となる各文章の内容をある程度把握して適切なラベルを選択する必要がなくなることから、出現頻度など分類に直接関係のない尺度で選択した単語からタームを構成することができ、ラベル選択のための作業負担を大幅に軽減できる。

また、これらクラスタは、複数のタームを橋渡しとして関連付けられた複数の文章から構成されているため、同一タームを含む文章を１つの分類として抽出することができるだけでなく、これら文章内にほぼ共通して存在する他のタームについても、そのタームを含む文章を同一分類として抽出でき、内容に共通性や関連性のある文章を１つの分類として容易に抽出できる。
したがって、従来のように予め用意したラベルの有無のみに基づき文章を分類する場合と比較して、そのラベルに限定された主観的な分類ではなく、想定しうる範囲を超えた新たな観点から文章の内容や話題に沿って柔軟に分類を行うことができる。

次に、本発明の実施の形態について図面を参照して説明する。
［文章分類装置の構成］
まず、図１を参照して、本発明の一実施の形態にかかる文章分類装置について説明する。図１は本発明の一実施の形態にかかる文章分類装置の構成を示すブロック図である。
この文章分類装置１は、全体としてコンピュータからなり、制御部１０、記憶部２０、操作入力部３０、画面表示部４０、およびデータ入出力インターフェース部（以下、データ入出力Ｉ／Ｆ部という）５０が設けられている。

制御部１０は、ＣＰＵなどのマイクロプロセッサとその周辺回路からなり、記憶部２０に予め格納されているプログラム（図示せず）を実行して、上記ハードウェアとプログラムとを協働させることにより、文章分類処理のための各種機能手段を実現する。
記憶部２０は、ハードディスクやメモリなどの記憶装置からなり、制御部１０での処理に用いる各種情報を格納する。これら情報としては、分類対象となる各文章からなる文章集合２１、各文章の内容を把握するための複数の重要語からなるタームリスト２２、さらには文章を大分類した結果を示す大分類データ２３が記憶されている。

操作入力部３０は、キーボードやマウスなどの入力装置からなり、利用者の操作を検出して制御部１０へ出力する。
画面表示部４０は、ＣＲＴやＬＣＤなどの画面表示装置からなり、制御部１０での処理内容や処理結果を表示出力する。
データ入出力Ｉ／Ｆ部５０は、外部装置（図示せず）や通信ネットワーク（図示せず）と接続するための回路部であり、文章集合２１、タームリスト２２、大分類データ２３のほか、得られた処理結果や制御部１０で実行するプログラムをやり取りする際に用いられる。

制御部１０には、機能手段として、ＤＴマトリクス生成手段１１、ＤＴマトリクス変形手段１２、文章分類手段１３、ラベル生成手段１４、文章編成手段１５、要約作成手段１６、タームリスト編集手段１７、タームリスト生成手段１８、指標生成手段１９、大分類生成手段７１、仮想代表生成手段７２、および大分類ラベル生成手段７３が設けられている。

本実施の形態において、ＤＴマトリクスとは、各文章Ｄと各タームＴとの関係を２次元的に表現した行列を指す。この際、上記関係は、文章Ｄ中におけるタームＴの存在有無からなり、文章ＤとタームＴとをそれぞれマトリクスの列と行に対応させ、ある文章ＤｉがあるタームＴｊを含む場合には、ＤＴマトリクスのｊ，ｉ成分を「１」とし、含まない場合には「０」とすることにより、文章ＤとタームＴの関係を表している。
さらに、このＤＴマトリクスを２部グラフの一表現形態と見なし、２部グラフのグラフ理論で用いられるＤＭ分解法に基づきＤＴマトリクスを変形し、得られた変形ＤＴマトリクス上に現れるクラスタに基づき、各文章Ｄを分類するようにしたものである。

ＤＴマトリクス生成手段１１は、分類対象となる各文章Ｄ（Document）とタームリスト２２を構成する各タームＴ（Term）とからＤＴ（Document-Term）マトリクスを生成する機能手段である。
ＤＴマトリクス変形手段１２は、ＤＴマトリクス生成手段１１で生成されたＤＴマトリクスをＤＭ（Dulumage-Mendelsohn）分解法に基づき変形する機能手段である。

ＤＭ分解法とは、具体的には、ＤＴマトリクスに対し、行操作（行同士を入れ替える操作）または列操作（列同士を入れ替える操作）を施して、三角行列化する処理である。この三角行列化されたＤＴマトリクスを変形ＤＴマトリクスと呼ぶ。
文章分類手段１３は、ＤＴマトリクス変形手段１２で得られた変形ＤＴマトリクス上に現れるブロック化されたクラスタに基づき、文章集合２１の各文章を分類する機能手段である。

ラベル生成手段１４は、各クラスタごとに、当該クラスタに属する各文章Ｄと強連結の関係にあるタームＴを、当該クラスタのラベルとして出力する機能手段である。
文章編成手段１５は、変形ＤＴマトリクスにおける文章Ｄの並び順に基づき、文章集合２１の各文章を並び替えて出力する機能手段である。
要約作成手段１６は、文章Ｄと強連結の関係にあるタームＴを含む文を、当該文章Ｄの要約として出力する機能手段である。

タームリスト編集手段１７は、操作入力部３０からの操作に応じて、記憶部２０のタームリスト２２に対するタームＴの追加／削除を行う機能手段である。
タームリスト生成手段１８は、記憶部２０の文章集合２１に含まれる各文章Ｄを解析して、各文章Ｄの特徴を効果的に表現する語すなわち重要語を抽出し、これら重要語からなるタームＴを用いてタームリスト２２を生成する機能手段である。
指標生成手段１９は、タームリスト編集手段１７で編集されたタームリストについて、その編集前後におけるＤＴマトリクスに基づき当該編集による分類への影響を示す指標を生成する機能手段である。

大分類生成手段７１は、ＤＭ分解法を用いたＤＴマトリクス変形手段１２でのＤＴマトリクス変形処理をクラスタリング処理として繰り返し実行し、各クラスタリング処理で得られた変形ＤＴマトリクスから得られたクラスタに基づき、文章集合２１の各文章の大分類を生成する機能手段である。
仮想代表生成手段７２は、大分類生成時に、変形ＤＴマトリクスから得られたクラスタから、そのクラスタに含まれる文章を仮想的に代表する仮想代表文章を生成する機能手段である。
大分類ラベル生成手段７３は、大分類生成手段７１で生成された各クラスタすなわち大分類のラベルを生成する機能手段である。

［文章分類装置の動作］
次に、図２を参照して、本実施の形態にかかる文章分類装置の動作について説明する。図２は本実施の形態にかかる文章分類装置のＤＴマトリクス生成処理を示すフローチャートである。
制御部１０は、操作入力部３０からの指示に応じて、文章分類処理に用いるＤＴマトリクスを生成するため、図２のＤＴマトリクス生成処理を開始する。
まず、ＤＴマトリクス生成手段１１は、記憶部２０に格納されている文章集合２１を読み込むとともに（ステップ１００）、タームリスト２２を読み込む（ステップ１０１）。

図３に文章集合２１の構成例を示す。この例は、「ストレス」についてＷｅｂ上で多数の回答者に自由に文章を記述してもらったものを集計したものであり、各文章Ｄごとに当該文章Ｄを管理するための文章番号Ｄｉとその文章を記述した回答者の識別情報とが割り当てられている。
図４はタームリスト２２の構成例である。このタームリスト２２は、所定のアルゴリズムに基づき各文章Ｄを解析し、得られた重要語の種別とその前後関係とから各タームＴを構成したものであり、各タームＴごとに当該タームＴを管理するターム番号Ｔｊが割り当てられている。

各タームＴは、２つの重要語のうち、前方に位置するキーワード前と後方に位置するキーワード後からなり、それぞれのキーワードごとにそのキーワードの内容を示す単語とその単語の品詞属性種別とが規定されている。また、各タームＴには、後述するタームリスト生成処理により文章集合２１から算出された、文章分類に用いる上での重みを示す重要度が対応付けられている。
例えばターム「１」は、「ストレス」と「解消」という２つのキーワードからなり、その位置関係は「ストレス」が前方に位置するものと規定されている。
ＤＴマトリクス生成手段１１は、文章集合２１内の各文章について、あるしきい値以上の重要度を持ったタームリスト２２の各タームＴが存在するか否かチェックし、その結果からＤＴマトリクスを生成する（ステップ１０２）。

図５にＤＴマトリクスの構成例を示す。このＤＴマトリクス１１Ａは、行方向（縦方向）にタームＴが並べられており、列方向（横方向）に文章Ｄが並べられている。そして、各文章ＤとタームＴの交差位置に、当該文章ＤにおけるタームＴの存在有無が２進数で記載されている。ここでは、文章ＤにタームＴが存在する場合は「１」が設定され、存在しない場合は「０」が設定されている。
したがって、この例によれば、例えば文章Ｄ１には、タームＴ４，Ｔ７が含まれていることがわかる。またタームＴ２は、文章Ｄ２，Ｄ４に含まれていることがわかる。

続いて、ＤＴマトリクス変形手段１２は、このようにしてＤＴマトリクス生成手段１１で生成されたＤＴマトリクス１１Ａを、ＤＭ分解法に基づき変形して変形ＤＴマトリクス１１Ｂを生成し（ステップ１０３）、これを記憶部２０に格納して、一連のマトリクス生成処理を終了する。
一般に、グラフ理論では、２つの集合に属するそれぞれの点とこれら点を結ぶ辺とからなる２部グラフを、各点間の関連性に基づき分離する手法として、ＤＭ分解法が用いられる。
本実施の形態では、ＤＴマトリクス１１Ａを、文章ＤからタームＴへの辺により結びつけられた２部グラフの一表現形態と見なすことができることに着目し、グラフ理論におけるＤＭ分解法をＤＴマトリクス１１Ａに適用し、得られた変形ＤＴマトリクスに基づき文章Ｄを分類するようにしたものである。

［ＤＭ分解処理］
ここで、図６および図７を参照して、２部グラフにおけるＤＭ分解処理について説明する。図６はＤＭ分解処理を示すフローチャートである。図７はＤＭ分解処理の過程を示す２部グラフである。以下では、文章ＤおよびタームＴからなる２つの点集合と、これら点を結ぶ辺からなる２部グラフＧを処理対象とし、これをＤＭ分解法により複数のグラフに分離する場合を例として説明する。なお、これら処理では、制御部１０内部のメモリまたは記憶部２０から各種データを読み出して、制御部１０で所定の演算を行い、その結果を再び記憶するという動作が繰り返し行われる。

まず、図７（ａ）に示すように、処理対象となる２部グラフＧの各辺について、文章ＤからタームＴへの有向辺を生成する（ステップ２００）。そして、図７（ｂ）に示すように、文章Ｄ側に点ｓを用意し、点ｓから文章Ｄの各点に対して有向辺を生成する（ステップ２０１）。同様にして、タームＴ側に点ｔを用意し、タームＴの各点から点ｔに対して有向辺を生成する（ステップ２０２）。

次に、これら辺を介して点ｓから点ｔへ向かう経路を検索する（ステップ２０３）。例えば図７（ｂ）では、辺２５０，２５１，２５２からなる経路を介して点ｓから点ｔへ向かうことができる。このような経路が存在する場合は（ステップ２０３：ＹＥＳ）、当該経路を構成する各辺を削除するとともに（ステップ２０４）、当該経路上の文章ＤからタームＴへの有向辺とは逆向きの有向辺を、初期状態で空の２部グラフである最大マッチングＭに生成し（ステップ２０５）、ステップ２０３へ戻って次の経路を検索する。図７（ｃ）では、有向辺２５１に対応する逆向きの有向辺２５３が最大マッチングＭに生成されている。
ステップ２０３において、すべての経路の検索が終了して新たな経路が検索されなかった場合（ステップ２０３：ＮＯ）、最大マッチングＭが完成したことになる。

このようにして、図７（ｄ）に示すような最大マッチングＭを完成させた後、最大マッチングＭに属する各有向辺２５４を処理対象Ｇへ含める（ステップ２０６）。これにより、図７（ｅ）に示すように、処理対象Ｇにおいて、最大マッチングＭとして選択された辺２５５については、文章ＤからタームＴへの有向辺とその逆方向の有向辺とから構成されることになる。
次に、タームＴの各点のうち最大マッチングＭに用いられなかった点、例えば自由点２５６を選択し（ステップ２０７）、処理対象Ｇの各辺を介して当該自由点２５６に到達可能な点の集合をクラスタ２６０とする（ステップ２０８）。

同様にして、文章Ｄの各点のうち最大マッチングＭに用いられなかった点、例えば自由点２５７を選択し（ステップ２０９）、処理対象Ｇの各辺を介して当該自由点２５７に到達可能な点の集合をクラスタ２６２とする（ステップ２１０）。
そして、残りの文章ＤおよびタームＴの各点のうち、双方向に到達可能な経路を有する点集合すなわち強連結をなす点集合をクラスタ２６１とし（ステップ２１１）、一連のＤＭ分解処理を終了する。
このようにして、公知のＤＭ分解法では、各クラスタが所定の順序で生成され、三角行列化された変形ＤＴマトリクスが得られる。

制御部１０では、以上のようにして、図２のＤＴマトリクス生成処理を実行することにより、ＤＴマトリクス生成手段１１で文章集合２１とタームリスト２２とからＤＴマトリクス１１Ａを生成するとともに、ＤＴマトリクス変形手段１２でＤＴマトリクスに対して図６のＤＭ分解処理を適用することにより、各文章Ｄがクラスタごとに分離された変形ＤＴマトリクス１１Ｂを生成する。

図８にＤＴマトリクス１１Ａと変形ＤＴマトリクス１１Ｂの例を示す。ここでは、各文章Ｄｉ内においてタームＴｊが存在する場合、列方向（横方向）に配置された文章Ｄｉと行方向（縦方向）に配置されたタームＴｉとの交点にドットが配置されており、タームＴｊが存在しない場合は空白となっている。図８（ａ）のＤＴマトリクス１１Ａでは、ドットがランダムに分布しているが、図８（ｂ）の変形ＤＴマトリクス１１Ｂでは、ドットが断片的ではあるが斜め方向に連続して密集しており、この部分２７０にクラスタが並んでいることがわかる。また、変形ＤＴマトリクス１１Ｂでは、左下側にドットが存在せず、右上側にドットが多く存在しており、上三角行列化されていることがわかる。

［文章分類処理］
文章分類装置１の制御部１０では、文章集合２１を分類する場合、まず前述のＤＴマトリクス生成処理（図２参照）を実行した後、図９の文章分類処理を実行する。図９は文章分類処理を示すフローチャートである。
まず、文章分類手段１３は、ＤＴマトリクス変形手段１２で生成した変形ＤＴマトリクス１１Ｂ上にブロック化されて現れた各クラスタを識別する（ステップ１１０）。この際、各クラスタについては、変形ＤＴマトリクス１１Ｂを生成した際に分離した部分グラフに基づき識別してもよく、変形ＤＴマトリクス１１Ｂ上のデータ（ドット）の並びから識別してもよい。

図１０に文章分類処理の説明図を示す。この例では、変形ＤＴマトリクス１１Ｂ上にクラスタ６０が存在している。このクラスタ６０は、２部グラフで表現した場合の部分グラフ６１をなしており、他の文章やタームと関連性が小さい。なお、クラスタ境界が明確な完全グラフをなす場合もある。変形ＤＴマトリクス１１Ｂでは、列方向（横方向）に文章Ｄが並んでおり、クラスタ６０の列方向に並ぶ文章ＤすなわちＤ３６３，Ｄ１５５，Ｄ１５７，Ｄ５，Ｄ１３，Ｄ８が、このクラスタ６０に属する文章Ｄとなる。
文章分類手段１３は、識別された各クラスタに属する各文章からなる部分集合６２を１つの分類として、文章集合２１から抽出して分類し（ステップ１１１）、その結果を例えば画面表示部４０で表示出力し、あるいは記憶部２０へ格納して、一連の文章分類処理を終了する。

このように、本実施の形態では、変形ＤＴマトリクス１１Ｂ上でブロック化されたクラスタごとに、当該クラスタに属する各文章を１つの分類として抽出出力するようにしたので、各分類に対応したラベルを予め用意することなく各文章を分類できる。
したがって、従来のように分類対象となる各文章の内容をある程度把握して適切なラベルを選択する必要がなくなることから、出現頻度など分類に直接関係のない尺度で選択した単語からタームを構成することができ、ラベル選択のための作業負担を大幅に軽減できる。

また、これらクラスタは、複数のタームを橋渡しとして関連付けられた複数の文章から構成されているため、同一タームを含む文章を１つの分類として抽出することができるだけでなく、これら文章内にほぼ共通して存在する他のタームについても、そのタームを含む文章を同一分類として抽出でき、内容に共通性や関連性を持つ文章を１つの分類として容易に抽出できる。
したがって、従来のように予め用意したラベルの有無のみに基づき文章を分類する場合と比較して、そのラベルに限定された主観的な分類ではなく、想定しうる範囲を超えた新たな観点から文章の内容や話題に沿って柔軟に分類を行うことができる。

［ラベル生成処理］
文章分類装置１の制御部１０では、文章分類手段１３で分類された各文章の分類ごとにラベルを生成する場合、まず前述のＤＴマトリクス生成処理（図２参照）および文章分類処理（図９参照）を実行した後、図１１のラベル生成処理を実行する。図１１はラベル生成処理を示すフローチャートである。
まず、ラベル生成手段１４は、ラベルを生成する対象となる分類すなわちクラスタに属する各文章Ｄについて、これら文章Ｄと強連結の関係にあるタームＴを変形ＤＴマトリクス１１Ｂから選択する（ステップ１２０）。

図１２にラベル生成処理の説明図を示す。この例では、任意の分類に属する文章を示す部分集合６２について、各文章Ｄと強連結の関係にあるタームＴ（６３）がそれぞれ選択されている。なお、強連結とは、変形ＤＴマトリクス１１Ｂで各文章Ｄをクラスタごとに分類した際、その２部グラフにおいて、文章ＤとタームＴとが互いに双方向の辺で結ばれたペアをいう。通常、これら強連結をなす文章ＤとタームＴとは、変形マトリクス上の当該クラスタにおいて対角線上に並ぶ。
次に、選択した各タームＴの単語を当該分類のラベル６４として出力し（ステップ１２１）、その結果を例えば画面表示部４０で表示出力し、あるいは記憶部２０へ格納して、一連のラベル生成処理を終了する。

このように、本実施の形態では、対象となる分類のクラスタに属する各文章と強連結の関係にあるタームＴを、当該分類のラベルとして出力するようにしたので、本実施の形態のように予め用意されたラベルに基づき文章を分類するものではない場合でも、各分類の特徴を単語で表現した適切なラベルを容易に生成できる。

［文章編成処理］
文章分類装置１の制御部１０では、各文章Ｄの並びを編成する場合、まず前述のＤＴマトリクス生成処理（図２参照）を実行した後、図１３の文章編成処理を実行する。図１３は文章編成処理を示すフローチャートである。
まず、文章編成手段１５は、変形ＤＴマトリクス１１Ｂ上での並びに基づき、各文章Ｄを並び替える（ステップ１３０）。

図１４に文章編成処理の説明図を示す。前述したように、ＤＴマトリクスをＤＭ分解法により変形して得られた変形ＤＴマトリクス１１Ｂにおいて、各文章ＤはタームＴを仲立ちとして互いに関連性の高いものが隣接して並んでいる。
文章編成手段１５は、このような変形ＤＴマトリクス１１Ｂに基づき並び変えられた文章Ｄを編成し、編成された各文章６５を出力し（ステップ１３１）、その結果を例えば画面表示部４０で表示出力し、あるいは記憶部２０へ格納して、一連の文章編成処理を終了する。

特に、変形ＤＴマトリクス１１Ｂには、文章ＤおよびタームＴの並びに所定の半順序が存在する。例えば、ＤＴマトリクス１１Ａは、タームＴを変数とする文章Ｄの線形連立方程式を示す行列と見なすことができ、変形ＤＴマトリクス１１Ｂは、これら各方程式の解Ｇが求まる順序にほぼ沿った順序で文章Ｄが並び替えられた結果を示している。このことからも、変形ＤＴマトリクス１１Ｂ上の文章Ｄの並びには、前後の文章Ｄとの関連性が高いことがわかる。

このように、本実施の形態では、変形ＤＴマトリクス上の文章Ｄの並びに基づき、各文章Ｄを並び替えて出力するようにしたので、共通のタームすなわち単語を持った関連性の高い文章が順に得られることになり、前後の文章Ｄと話題の共通性が得られる。したがって、内容が類似した文章が前後に並べられていることから、アトランダムに文章Ｄを読む場合と比較して、文脈が途切れることなく読むことができクラスタさらには文章集合全体の内容を容易に把握できる。
この際、任意のクラスタすなわち分類に含まれる各文章Ｄを文章編成の対象として１つの文章を生成してもよく、文章集合２１に含まれるすべての文章Ｄを文章編成の対象として１つの文章を生成してもよい。

［要約作成処理］
文章分類装置１の制御部１０では、複数の文からなる任意の文章Ｄの要約を作成する場合、前述のＤＴマトリクス生成処理（図２参照）を実行した後、図１５の要約作成処理を実行する。図１５は要約作成処理を示すフローチャートである。
まず、要約作成手段１６は、対象となる文章Ｄについて、前述したラベル生成処理と同様にして、その文章Ｄと強連結の関係にあるタームＴを変形ＤＴマトリクス１１Ｂから選択する（ステップ１４０）。

図１６に要約作成処理の説明図を示す。通常、文章Ｄ（６６）は、複数の文から構成されており、これら文のいずれかに文章Ｄと強連結のタームＴ（６７）が含まれていることになる。この際、このタームＴは文章Ｄの特徴を示していることになる。
要約作成手段１６は、このタームＴを含む文を当該文章Ｄから選択して、これら文を当該文章Ｄの要約６８として出力し（ステップ１４１）、その結果を例えば画面表示部４０で表示出力し、あるいは記憶部２０へ格納して、一連の要約作成処理を終了する。

このように、本実施の形態によれば、対象となる文章Ｄと強連結の関係にあるタームＴに基づいて、そのタームを含む文を当該文章Ｄの要約として出力するようにしたので、文章Ｄの要約を極めて容易にかつ適切に作成できる。

［タームリスト生成処理］
タームリスト生成手段１８は、文章集合２１からタームリスト２２を自動生成するものである。
文章からその文章を特徴付ける重要語を抽出する方法として、各種のアルゴリズムが提案されている。例えば、各単語の重要度を算出し、その重要度に基づき重要語を選択するＴＦＩＤＦ（Term Frequency Inverse Document Frequency）などのアルゴリズムを用いてもよい。あるいは、言語学的な解釈に基づかないフレーズ（共起語）を、辞書を用いることなく抽出するＫｅｙＧｒａｐｈというアルゴリズムを用いてもよい（例えば、非特許文献２など参照）。

タームリスト生成手段１８では、このような公知のアルゴリズムを用いてタームリスト２２を生成する。本実施の形態では、これら単語を特定するため、各単語の品詞属性を形態素解析により予め求めておき、単語のとの品詞属性をペアとして重要語を構成している。また、本実施の形態では、２つの重要語の出現順序を規定したものをタームとして定義しており、これにより文章の内容をより適切にタームで表現可能となっている。
なお、このタームリスト２２については、タームリスト編集手段１７で、操作入力部３０からの指示に基づき生成してもよく、データ入出力Ｉ／Ｆ部５０を介して予め用意されたものを装置外部から入力するようにしてもよい。

［指標生成処理］
タームリスト２２は、変形ＤＴマトリクス１１Ｂを生成して文章を分類する上で重要なファクタとなることから、タームリスト編集手段１７で、このタームリストを編集可能としている。
本実施の形態では、編集されたタームリストについて、制御部１０の指標生成手段１９により客観的な評価値を算出し、その編集に対する指標を生成する。以下、図１７を参照して、指標生成手段１９における指標生成処理について説明する。図１７は指標生成処理を示すフローチャートである。

まず、タームリスト編集手段１７により、タームリスト２２についてタームＴｋを追加または削除し、新たなタームリストが生成されたものとする（ステップ１５０）。指標生成手段１９では、編集前後のタームリストのそれぞれについて、ＤＴマトリクス生成手段１１によりＤＴマトリクスを生成し（ステップ１５１）、各ＤＴマトリクスごとに平均文章類似度Ｑを算出する（ステップ１５２）。
平均文章類似度Ｑは、２つの文章Ｄｉ，Ｄｊ間の類似度ｓｉｍ（Ｄｉ，Ｄｊ）をすべての文章間について算出し平均したものであり、文章Ｄの数をＮとした場合、Ｑは次の数１で算出される。

この際、類似度ｓｉｍ（Ｄｉ，Ｄｊ）は、当該変形ＤＴマトリクスに基づき、文章Ｄｉ，Ｄｊにおける各タームＴの有無を０／１で示すベクトルをＸ，Ｙとした場合、例えば数２〜数４により算出される。特に、数２はベクトルＸ，Ｙの内積を類似度とするもの、数３はベクトルＸ，ＹのＤｉｃｅ係数を類似度とするもの、数４はベクトルＸ，ＹのＪａｃｃａｒｄ係数を類似度とするものである。

このようにして、指標生成手段１９は、編集前のタームリストから生成されたＤＴマトリクスに基づき平均文章類似度Ｑを算出するとともに、編集後のタームリストから生成されたＤＴマトリクスに基づき平均文章類似度Ｑｋを算出して、これらの差ΔＱを数５で算出し、指標値として画面表示部４０から表示出力する（ステップ１５３）。

ここで、差ΔＱがゼロより大きい場合は（ステップ１５４：ＹＥＳ）、編集後のタームリストから生成されたＤＴマトリクスのほうが、各文章の類似度が大きくなり、各文章が効果的に分類できることから、当該編集は有効である旨を画面表示部４０へ表示出力し（ステップ１５５）、一連の指標生成処理を終了する。

また、ステップ１５４において、差ΔＱがゼロ以下の場合は（ステップ１５４：ＮＯ）、編集後のタームリストから生成されたＤＴマトリクスのほうが、各文章の類似度が小さくなり、各文章が効果的に分類できないことから、当該編集は無効である旨を画面表示部４０へ表示出力し（ステップ１５６）、一連の指標生成処理を終了する。
なお、指標としては、ΔＱだけを表示出力して作業者に編集の有効性を判断させるようにしてもよい。また当該編集に対する有効／無効だけを表示出力してもよい。

このように、本実施の形態では、指標生成手段１９により、編集前後のタームリストから生成されたＤＴマトリクスに基づき平均文章類似度Ｑを算出し、その変化により当該編集の有効性を示す指標を生成するようにしたので、タームリスト２２に対する編集の有効性を容易に把握することができる。したがって、容易かつ適切にタームリストを編集でき、この編集により所望の意図や目的に応じて効率よく文章を分類することができる。
また、ＤＴマトリクスから得られた平均文章類似度に基づき指標を生成するようにしたので、文章を分類する必要がなくなり指標生成に要する処理を簡素化できる。したがって、当該編集に対する有効／無効を迅速に判断でき、タームリストの編集に要する作業負担を大幅に軽減できる。

なお、平均文章類似度Ｑを用いて当該編集に対する有効／無効を判断する場合について説明したが、これに限定されるものではない。例えば文章を分類した結果、例えば分類数や１分類に属する文章数などに基づき当該編集に対する有効／無効を判断するようにしてもよい。

［大分類生成処理］
次に、図１８を参照して、本発明の一実施の形態にかかる文章分類装置での大分類生成処理について説明する。図１８は、本発明の一実施の形態にかかる文章分類装置での大分類生成処理を示すフローチャートである。
以上では、各文章と各タームとの関係を２次元表現したＤＴマトリクスを生成し、グラフ理論で用いられるＤＭ分解法に基づいてそのＤＴマトリクスを変形し、得られた変形ＤＴマトリクス上で識別されたクラスタを用いて、各文章を分類する処理について説明した。

前述の分類処理では、各文章をクラスタごとに文章集合としてある程度分類できるものの、１つ以上のクラスタを含むより大きな分類すなわち大分類や、クラスタ間の階層的関係については対応できない。
ここでは、文章分類装置１の制御部１０に設けた、大分類生成手段７１、仮想代表生成手段７２、および大分類ラベル生成手段７３を用いて、各文章の大分類を生成する大分類生成処理について詳細に説明する。

制御部１０は、操作入力部３０からの指示に応じて、大分類生成手段７１により、図１８の大分類生成処理を開始する。
まず、大分類生成手段７１は、ＤＴマトリクス生成手段１１を用いて、記憶部２０に格納されている文章集合２１とタームリスト２２を読み込み、前述と同様のＤＴマトリクス生成処理を行うことにより、各文章と各タームとの関係を２次元表現したＤＴマトリクスを生成する（ステップ１６０）。

次に、大分類生成手段７１は、ＤＴマトリクス変形手段１２を用いて、グラフ理論におけるＤＭ分解法を上記ＤＴマトリクスに適用し、前述と同様にして各文章がクラスタごとに分離された変形ＤＴマトリクス１１Ｂを生成する（ステップ１６１）。
そして、大分類生成手段７１は、前述した文章分類手段１３と同様にして、得られた変形ＤＴマトリクス上でブロック化された各クラスタを識別する（ステップ１６２）。

ここで、新たなクラスタが識別された場合は（ステップ１６３：ＹＥＳ）、仮想代表生成手段７２を用いて、新たなクラスタごとにそのクラスタを仮想的に代表する仮想代表文章を生成する。
仮想代表生成手段７２では、まず、新たなクラスタに属する各文章の特徴量を取得し、これら特徴量の和集合から仮想代表文章を生成する。例えば、各文章の特徴量Ｋｉが数６のように、１つ以上の特徴量ｋ１〜ｋｎで表現される場合、仮想代表文章Ｋ’は、数７で得られる。

この際、例えば特徴量として前述のようにタームを用いる場合、仮想代表文章は、新たなクラスタに属する各文章が持つタームをすべて含む和集合となり、その内容は、各タームを構成するキーワードの羅列から構成される。

大分類生成手段７１は、仮想代表生成手段７２により、上記のようにして新たなクラスタごとにその仮想代表文章を生成して新たな文章番号を付与し（ステップ１６４）、これら仮想代表文章を他の実際の文章（実文章）と同様の文章として変形ＤＴマトリクスへ追加するとともに（ステップ１６５）、新たなクラスタに属する各文章を変形ＤＴマトリクスから削除する（ステップ１６６）。
これにより、変形ＤＴマトリクス上では、仮想代表文章とこれに含まれる各タームとの交点にドットが追加配置されるとともに、元の各文章に対応するドットが削除され、新たなクラスタを構成する各文章が仮想代表文章で置換された新たなＤＴマトリクスが生成される。

この後、大分類生成手段７１は、新たなクラスタの構成、例えば当該クラスタを構成する各文章に関する情報として、例えば当該クラスタに属する実文章や仮想代表文章の文章番号、さらにはそのステップ数などを大分類データ２３として出力し記憶部２０へ格納する（ステップ１６７）。そして、大分類ラベル生成手段７３を用いて、新たなクラスタに含まれていた仮想代表文章について、その元となるクラスタに対して後述の大分類ラベル生成処理を行う（ステップ１６８）。

このようにして、ステップ１６１〜１６８までを１ステップとして、ＤＴマトリクスに対する変形処理により新たなクラスタを生成するとともに、そのクラスタをその仮想代表文章で置換することにより新たなＤＴマトリクスを生成するクラスタリング処理を実行し、その後、ステップ１６１へ戻って、新たなＤＴマトリクスを用いたクラスタリング処理を繰り返し実行する。
これにより、クラスタリング処理の繰り返しステップで生成されたクラスタには、実文章だけでなく仮想代表文章すなわち他のクラスタも含まれることになり、各文章の大分類が得られることになる。

図１９に、大分類生成処理の実行例を示す。ここでは初期状態として、記憶部２０の文章集合２１に文章ａ〜ｋが格納されているものとする。そして、１回目のクラスタリング処理であるステップＳ１で、文章ａ，ｂからクラスタ３０１が生成され、その仮想代表文章Ｖ１が生成されている。同様にして、文章ｃ，ｄからクラスタ３０２が生成され、その仮想代表文章Ｖ２が生成されており、さらに文章ｅ，ｆからクラスタ３０３が生成され、その仮想代表文章Ｖ３が生成されている。

これにより、ステップＳ１終了時点では、文章ａ，ｂ，ｃ，ｄ，ｅ，ｆがＤＴマトリクス上から削除され、文章ｇ〜ｋと仮想代表文章Ｖ１，Ｖ２，Ｖ３からなる新たなＤＴマトリクスを用いたステップＳ２が実行される。
２回目のステップＳ２では、仮想代表文章Ｖ１と文章ｇからクラスタ３０４が生成され、その仮想代表文章Ｖ４が生成されている。

この際、図１８のステップ１６８における大分類ラベル生成処理では、クラスタ３０４に仮想代表文章Ｖ１が含まれていることから、その仮想代表文章Ｖ１の元となるクラスタ３０１に対する大分類ラベルが生成される。
ここで、図２０を参照して、大分類ラベル生成処理について説明する。大分類ラベル生成手段７３は、まず、大分類生成処理における現在のステップが、新たなクラスタが見つからなかった最終ステップかどうか判断する（ステップ１７０）。

このとき、最終ステップでなければ（ステップ１７０：ＮＯ）、図１８のステップ１６２で識別された新たなクラスタのうちから当該ラベル生成処理が未処理のクラスタを任意に１つ選択し（ステップ１７１）、そのクラスタに仮想代表文章が含まれているかどうか判断する（ステップ１７２）。なお、実文章と仮想代表文章とは、その文章番号などで識別すればよい。
ここで、仮想代表文章が含まれている場合にのみ（ステップ１７２：ＹＥＳ）、ＤＴマトリクス上でその仮想代表文章と強連結しているタームのキーワードから、その仮想代表文章の元のクラスタのラベルを生成する（ステップ１７３）。

そして、当該ラベル生成処理が未処理のクラスタがあれば（ステップ１７４：ＮＯ）、ステップ１７１に戻って未処理クラスタに対するラベル生成処理ステップ１７１〜１７３を繰り返し実行し、各クラスタに対する処理が終了した時点で（ステップ１７４：ＹＥＳ）、一連の大分類生成処理を終了する。

また、ステップ１７０において、大分類生成処理における現在のステップが最終ステップであった場合は（ステップ１７０：ＹＥＳ）、その最終ステップの時点においてＤＴマトリクスを構成する各文章から、当該ラベル生成処理が未処理の仮想代表文章を任意に１つ選択し（ステップ１８０）、ＤＴマトリクス上でその仮想代表文章と強連結しているタームのキーワードから、その仮想代表文章の元のクラスタのラベルを生成する（ステップ１８１）。

そして、当該ラベル生成処理が未処理の仮想代表文章があれば（ステップ１８２：ＮＯ）、ステップ１８０に戻って未処理の仮想代表文章に対するラベル生成処理ステップ１８０，１８１を繰り返し実行し、各仮想代表文章に対する処理が終了した時点で（ステップ１８２：ＹＥＳ）、一連の大分類生成処理を終了する。

したがって、図１９のステップＳ２では、クラスタ３０４に仮想代表文章Ｖ１が含まれていることから、ステップＳ２の処理開始時点におけるＤＴマトリクス上でその仮想代表文章Ｖ１と強連結しているタームのキーワードから、その仮想代表文章Ｖ１の元のクラスタ３０１のラベルＬ１が生成される。
以下、同様にして、ステップＳ３では、仮想代表文章Ｖ２と文章ｈからクラスタ３０５が生成され、その仮想代表文章Ｖ５が生成されている。そして、仮想代表文章Ｖ２の元のクラスタ３０５のラベルＬ２が生成される。

次のステップＳ４では、仮想代表文章Ｖ４，Ｖ５と文章ｉからクラスタ３０６が生成されて、その仮想代表文章Ｖ６が生成されるとともに、仮想代表文章Ｖ３と文章ｊからクラスタ３０７が生成されて、その仮想代表文章Ｖ７が生成されている。そして、仮想代表文章Ｖ４の元のクラスタ３０４のラベルＬ４が生成されるとともに、仮想代表文章Ｖ５の元のクラスタ３０５のラベルＬ５が生成され、さらに仮想代表文章Ｖ３の元のクラスタ３０３のラベルＬ３が生成されている。
続くステップＳ５では、仮想代表文章Ｖ６と文章ｋからクラスタ３０８が生成されて、その仮想代表文章Ｖ８が生成されている。そして、仮想代表文章Ｖ６の元のクラスタ３０６のラベルＬ６が生成されている。

大分類生成手段７１では、このようにしてクラスタリング処理（ステップ１６１〜１６８）を繰り返し実行し、図１８のステップ１６３で新たなクラスタが見つからなかった場合は（ステップ１６３：ＮＯ）、最終ステップとして、大分類ラベルの付いていないクラスタに対する大分類ラベル生成処理を実行し（ステップ１６９）、一連の大分類生成処理を終了する。

これにより、図１９の最終ステップでは、その時点のＤＴマトリクス上で、仮想代表文章Ｖ８と強連結しているタームのキーワードから、その仮想代表文章Ｖ８の元のクラスタ３０８のラベルＬ８が生成され、同様にして仮想代表Ｖ７の元のクラスタ３０７のラベルＬ７が生成される。

図２２に、初期状態におけるＤＴマトリクスの生成例を示す。各文章Ｄｉ内にタームＴｊが存在する場合、列方向（横方向）に配置された文章Ｄｉと行方向（縦方向）に配置されたタームＴｊとの交点にドットが配置されており、タームＴｊが存在しない場合は空白となっている。なお、このＤＴマトリクスのうち、エリア３１０には実文章が横軸に配置されており、エリア３１１は仮想代表文章の配置用のため初期状態では空白となっている。
図２３に、最終ステップにおけるＤＴマトリクスの生成例を示す。この例では、大分類生成処理によりエリア３１０の実文章が削除されてほとんど空白となり、エリア３１１の仮想代表文章に置換されていることがわかる。

このように、ＤＴマトリクスに対する変形処理により新たなクラスタを生成するとともに、そのクラスタをその仮想代表文章で置換することにより新たなＤＴマトリクスを生成するクラスタリング処理を繰り返し実行するようにしたので、新たなＤＴマトリクスから順次新たなクラスタ、すなわちクラスタを含むより大きなクラスタすなわち大分類が得られる。
これにより、記憶部２０の大分類データ２３として、図１９に示されているように、各文章ａ〜ｋのみを要素とする分類、例えばクラスタ３０１〜３０３だけでなく、１つ以上のクラスタを含むより大きな分類すなわち大分類として、クラスタ３０４〜３０８が得られる。

さらに、上記クラスタリング処理をＤＴマトリクス上で新たなクラスタが識別されなくなるまで繰り返し実行するようにしたので、各文章からボトムアップ的に階層化クラスタリングが行われ、これらクラスタ３０１〜３０８間すなわち大分類間の階層的関係をツリー構造として可視化することができる。

なお、以上では、大分類生成処理（図１８参照）で、大分類ラベル生成処理（ステップ１６８，１６９）を行う場合を例として説明したが、大分類ラベルが不要な場合は、大分類生成処理から大分類ラベル生成処理を省略してもよい。
また、大分類ラベル生成処理は、大分類生成処理と連携させて行う必要はなく、大分類生成処理が終了した後、必要に応じて大分類ラベル生成処理（図２０参照）を独立して行ってもよい。

本発明の一実施の形態にかかる文章分類装置の構成を示すブロック図である。ＤＴマトリクス生成処理を示すフローチャートである。文章集合の構成例である。タームリストの構成例である。ＤＴマトリクスの構成例である。ＤＭ分解処理を示すフローチャートである。ＤＭ分解処理の過程を示す２部グラフである。ＤＴマトリクスおよび変形ＤＴマトリクスの例である。文章分類処理を示すフローチャートである。文章分類処理を示す説明図である。ラベル生成処理を示すフローチャートである。ラベル生成処理を示す説明図である。文章編成処理を示すフローチャートである。文章編成処理を示す説明図である。要約作成処理を示すフローチャートである。要約作成処理を示す説明図である。指標生成処理を示すフローチャートである。大分類生成処理を示すフローチャートである。大分類生成処理の実行例を示す説明図である。大分類ラベル生成処理を示すフローチャートである。ＤＴマトリクスの生成例（初期状態）である。ＤＴマトリクスの生成例（最終ステップ）である。

符号の説明

１…文章分類装置、１０…制御部、１１…ＤＴマトリクス生成手段、１１Ａ…ＤＴマトリクス、１１Ｂ…変形ＤＴマトリクス、１２…ＤＴマトリクス変形手段、１３…文章分類手段、１４…ラベル生成手段、１５…文章編成手段、１６…要約作成手段、１７…タームリスト編集手段、１８…タームリスト生成手段、１９…指標生成手段、２０…記憶部、２１…文章集合、２２…タームリスト、３０…操作入力部、４０…画面表示部、５０…データ入出力Ｉ／Ｆ部、６０…クラスタ、６１…部分グラフ、６２…部分集合（分類文章）、６３…強連結ターム、６４…ラベル、６５…編成された文章、６６…文章、６７…強連結ターム、６８…要約、７１…大分類生成手段、７２…仮想代表文章生成手段、７３…大分類ラベル生成手段。

Claims

文章集合に含まれる複数の文章を、１つ以上の単語からなるタームを複数有するタームリストに基づき分類する文章分類装置において、
前記各文章と前記各タームとの関係を２次元表現したＤＴマトリクスを生成するＤＴマトリクス生成手段と、
グラフ理論で用いられるＤＭ分解法に基づいて前記ＤＴマトリクス生成手段で得られたＤＴマトリクスを変形することにより、変形ＤＴマトリクスを生成するＤＴマトリクス変形手段と、
このＤＴマトリクス変形手段で得られた変形ＤＴマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する文章を同一分類として出力する文章分類手段とを備えることを特徴とする文章分類装置。
請求項１に記載の文章分類装置において、
任意の前記クラスタに属する各文章と強連結をなす各タームを、当該クラスタの分類を示すラベルとして出力するラベル生成手段をさらに備えることを特徴とする文章分類装置。
請求項１に記載の文章分類装置において、
前記変形ＤＴマトリクスでの文章の並び順序に応じて、任意の前記クラスタに属する文章またはすべての文章を順に出力する文章編成手段をさらに備えることを特徴とする文章分類装置。
請求項１に記載の文章分類装置において、
任意の前記文章を構成する各文のうち、当該文章と強連結をなすタームを含む文を、当該文章の要約として出力する要約作成手段をさらに備えることを特徴とする文章分類装置。
請求項１に記載の文章分類装置において、
前記タームリストに対して任意のタームを追加または削除するタームリスト編集手段と、
このタームリスト編集手段による編集前後のタームリストを用いて前記ＤＴマトリクス生成手段によりそれぞれＤＴマトリクスを生成し、これらＤＴマトリクスから当該編集の有用性を示す指標を生成して出力する指標生成手段とをさらに備えることを特徴とする文章分類装置。
文章集合に含まれる複数の文章を、１つ以上の単語からなるタームを複数有するタームリストに基づき分類する文章分類装置で用いられる文章分類方法において、
前記各文章と前記各タームとの関係を２次元表現したＤＴマトリクスを生成するステップと、
グラフ理論で用いられるＤＭ分解法に基づいて前記ＤＴマトリクスを変形することにより、変形ＤＴマトリクスを生成するステップと、
前記変形ＤＴマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する文章を同一分類として出力するステップとを備えることを特徴とする文章分類方法。
請求項６に記載の文章分類方法において、
任意の前記クラスタに属する各文章と強連結をなす各タームを、当該クラスタの分類を示すラベルとして出力するステップをさらに備えることを特徴とする文章分類方法。
請求項６に記載の文章分類方法において、
前記変形ＤＴマトリクスでの文章の並び順序に応じて、任意の前記クラスタに属する文章またはすべての文章を順に出力するステップをさらに備えることを特徴とする文章分類方法。
請求項６に記載の文章分類方法において、
任意の前記文章を構成する各文のうち、当該文章と強連結をなすタームを含む文を、当該文章の要約として出力するステップをさらに備えることを特徴とする文章分類方法。
請求項６に記載の文章分類方法において、
前記タームリストに対して任意のタームを追加または削除するステップと、
編集前後のタームリストを用いてそれぞれＤＴマトリクスを生成し、これらＤＴマトリクスから当該編集の有用性を示す指標を生成して出力するステップとをさらに備えることを特徴とする文章分類方法。
文章集合に含まれる複数の文章を、１つ以上の単語からなるタームを複数有するタームリストに基づき分類する文章分類装置において、
前記各文章と前記各タームとの関係を２次元表現したＤＴマトリクスを生成するＤＴマトリクス生成手段と、
グラフ理論で用いられるＤＭ分解法に基づいてＤＴマトリクスを変形することにより、変形ＤＴマトリクスを生成するＤＴマトリクス変形手段と、
変形ＤＴマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表文章生成手段と、
前記ＤＴマトリクス生成手段で生成したＤＴマトリクスを初期状態としてクラスタリング処理を繰り返し行うことにより前記文章の大分類を生成する大分類生成手段とを備え、
前記大分類生成手段は、前記クラスタリング処理として、前記ＤＴマトリクス変形手段でＤＴマトリクスから生成された変形ＤＴマトリクス上のクラスタごとに前記仮想代表文章生成手段で仮想代表文章を生成し、前記仮想代表文章を当該変形ＤＴマトリクスに追加するとともに前記仮想代表文章のクラスタに属する文章を当該変形ＤＴマトリクスから削除して次のクラスタリング処理に用いる新たなＤＴマトリクスを生成し、前記クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力する処理を行うことを特徴とする文章分類装置。
請求項１１に記載の文章分類装置において、
前記大分類生成手段は、前記クラスタリング処理で、前記変形ＤＴマトリクスからクラスタが得られなくなった場合に、前記クラスタリング処理の繰り返しを終了することを特徴とする文章分類装置。
請求項１１に記載の文章分類装置において、
前記クラスタリング処理で得られた各クラスタのうち、当該クラスタに仮想代表文章が含まれている場合は、その仮想代表文章と強連結をなすタームから、当該仮想代表文章の元のクラスタのラベルを生成する大分類ラベル生成手段をさらに備えることを特徴とする文章分類装置。
文章集合に含まれる複数の文章を、１つ以上の単語からなるタームを複数有するタームリストに基づき分類する文章分類装置で用いられる文章分類方法において、
前記各文章と前記各タームとの関係を２次元表現したＤＴマトリクスを生成するＤＴマトリクス生成ステップと、
グラフ理論で用いられるＤＭ分解法に基づいて前記ＤＴマトリクスを変形することにより、変形ＤＴマトリクスを生成する変形ＤＴマトリクス生成ステップと、
変形ＤＴマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表文章生成ステップと、
前記ＤＴマトリクス生成ステップで生成したＤＴマトリクスを初期状態としてクラスタリング処理を繰り返し行うことにより前記文章の大分類を生成する大分類生成ステップとを備え、
前記大分類生成ステップは、前記クラスタリング処理として、前記ＤＴマトリクス変形ステップでＤＴマトリクスから生成された変形ＤＴマトリクス上のクラスタごとに前記仮想代表文章生成ステップで仮想代表文章を生成するステップと、前記仮想代表文章を当該変形ＤＴマトリクスに追加するとともに前記仮想代表文章のクラスタに属する文章を当該変形ＤＴマトリクスから削除して次のクラスタリング処理に用いる新たなＤＴマトリクスを生成するステップと、前記クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力するステップとからなる処理を行うことを特徴とする文章分類方法。
請求項１４に記載の文章分類方法において、
前記大分類生成ステップは、前記クラスタリング処理で、前記変形ＤＴマトリクスからクラスタが得られなくなった場合に、前記クラスタリング処理の繰り返しを終了することを特徴とする文章分類方法。
請求項１４に記載の文章分類方法において、
前記クラスタリング処理で得られた各クラスタのうち、当該クラスタに仮想代表文章が含まれている場合は、その仮想代表文章と強連結をなすタームから、当該仮想代表文章の元のクラスタのラベルを生成する大分類ラベル生成ステップをさらに備えることを特徴とする文章分類方法。