JP2007004233A - 文章分類装置、文章分類方法、およびプログラム - Google Patents

文章分類装置、文章分類方法、およびプログラム Download PDF

Info

Publication number
JP2007004233A
JP2007004233A JP2005180362A JP2005180362A JP2007004233A JP 2007004233 A JP2007004233 A JP 2007004233A JP 2005180362 A JP2005180362 A JP 2005180362A JP 2005180362 A JP2005180362 A JP 2005180362A JP 2007004233 A JP2007004233 A JP 2007004233A
Authority
JP
Japan
Prior art keywords
sentence
matrix
cluster
classification
large classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005180362A
Other languages
English (en)
Inventor
Eiji Murakami
英治 村上
Masamochi Kobata
真望 木幡
Takao Terano
隆雄 寺野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Azbil Corp
Original Assignee
Azbil Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Azbil Corp filed Critical Azbil Corp
Priority to JP2005180362A priority Critical patent/JP2007004233A/ja
Priority to US11/448,533 priority patent/US7584189B2/en
Publication of JP2007004233A publication Critical patent/JP2007004233A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】各文章の重要性や文章同士の関係性を自動的に可視化する。
【解決手段】大分類生成手段3は、クラスタリンク処理を繰り返し実行することにより変形DTマトリクス24を順次生成し、変形DTマトリクス24上のクラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データ25として出力し、表示処理手段16は、大分類データ25に基づいて各クラスタリング処理で生成された各クラスタを示すクラスタシンボルと各クラスタ間の統合関係を示すリンクシンボルとを用いた木構造で大分類の結果を画面表示する。
【選択図】 図1

Description

本発明は、文章分類技術に関し、特に文章の内容に応じて各文章を分類し、その分類結果を可視化出力する文章分類技術に関するものである。
高度情報化社会では、情報処理技術や情報通信技術の発展に伴い、電子化された膨大な量の情報を容易に入手できる環境が提供されつつある。このような環境を利用して入手した情報は、そのデータ量も膨大となるため、所望する情報を効率よくかつ正確に把握する必要がある。
情報の内容を解析する技術として、各情報を構成する文章の内容に応じて各文章を分類する技術が研究されている。
従来、文章を分類する技術として、予め各分類の内容を示すラベルを用意し、各文章の内容を所定のアルゴリズムで解析し、用意したラベルごとにそれぞれの文章を分類するものが提案されている(例えば、非特許文献1など参照)。
このような技術は、文章の分類に際し、予め各分類の内容を示すラベルを用意し、各種の学習アルゴリズムを用いて、これらラベルを各文章に対して精度よく割り当てることにより、各文章をラベルごとに分類しようとするものである。
このような文章分類技術では、各文章を分類した結果を自動的に画面表示するため、各文書間の関係を構造的に可視化する技術が必要となる。従来、このような文章分類結果の可視化技術として、それぞれ複数の文章を要素として持つ2つの文書集合に対し、それぞれの要素間の関連度を求め、各文書集合の要素が2つの軸上に並べられた2次元座標上に、任意の要素が交差する交点に両要素間の関連度を表示する技術が提案されている(例えば、特許文献1など参照)。このほか、語の共起に基づき抽出したキーワードを可視化する技術も提案されている(例えば、非特許文献2,3など参照)。
特開2003−345811号公報 永田昌明他,「テキスト分類−学習論理の見本市−」,情報処理,42巻1号,2001年1月 大澤幸生他,「KeyGraph:語の共起グラフの分割・統合によるキーワード抽出」,電子情報通信学会論文誌,Vol.J82-D1,No.2,pp.391-400,1999 原正己他,「単語共起と語の部分一致を利用したキーワード抽出法の検討」,情報学件報告,NL106,p.16,1995 北研二他,「情報検索アルゴリズム」,共立出版,2002年
しかしながら、このような従来技術では、文書に含まれる単語同士の関係性を分析してネットワーク(グラフ)として可視化しているため、文書に含まれる複数の文章について、各文章の重要性や文章同士の関係性を自動的に可視化することができないという問題点があった。
本発明はこのような課題を解決するためのものであり、各文章の重要性や文章同士の関係性を自動的に可視化できる文章分類装置、文章分類方法、およびプログラムを提供することを目的としている。
このような目的を達成するために、本発明にかかる文章分類装置は、複数の文章からなる文章集合と1つ以上の単語からなるタームを複数有するタームリストとを含む各種処理情報を記憶する記憶部と、処理情報に対して任意の情報演算処理を行う演算処理部と、この演算処理部での処理結果を画面表示する画面表示部とを有し、演算処理部により、各文章をタームリストに基づき分類する文章分類装置であって、演算処理部に、各文章と各タームとの関係を2次元表現したDTマトリクスを生成するDTマトリクス生成手段と、グラフ理論で用いられるDM分解法に基づいてDTマトリクス生成手段で得られたDTマトリクスを変形することにより、変形DTマトリクスを生成するDTマトリクス変形手段と、変形DTマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表生成手段と、DTマトリクス生成手段で生成したDTマトリクスを初期状態として用い、所定のクラスタリング処理をステップとして繰り返し行うことにより文章の大分類を生成する大分類生成手段と、大分類の大分類を画面表示部で画面表示する表示処理手段とを備え、大分類生成手段では、クラスタリング処理として、DTマトリクス変形手段でDTマトリクスから生成された変形DTマトリクス上のクラスタごとに仮想代表生成手段で仮想代表文章を生成し、仮想代表文章を当該変形DTマトリクスに追加するとともに仮想代表文章のクラスタに属する文章を当該変形DTマトリクスから削除して次のクラスタリング処理に用いる新たなDTマトリクスを生成し、クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力し、表示処理手段では、大分類データに基づいて、各クラスタリング処理で生成された各クラスタを示すクラスタシンボルと各クラスタ間の統合関係を示すリンクシンボルとを用いた木構造で大分類の結果を画面表示するようにしたものである。
大分類の結果を画面表示する際、表示処理手段で、クラスタシンボル上またはその周辺に、当該クラスタに固有の識別情報と当該クラスタの内容を示すラベルを画面表示してもよい。
大分類の結果を画面表示した後、表示処理手段で、画面表示されている任意のクラスタシンボルまたはリンクシンボルに対する選択操作に応じて、選択されたクラスタシンボルのクラスタ、または選択されたリンクシンボルで結ばれるクラスタの内容を示すラベルを画面表示してもよい。
大分類の分類内容については、クラスタリング処理で得られた各クラスタのうち当該クラスタに仮想代表文章が含まれている場合は、その仮想代表文章と強連結をなすタームから、当該仮想代表文章の元のクラスタの内容を示すラベルを生成する大分類ラベル生成手段をさらに設けてもよい。
大分類の結果を画面表示する際、表示処理手段で、各ステップの順に、当該クラスタリング処理で得られたクラスタのクラスタシンボルを階層表示してもよい。
大分類の再生成については、タームリストのうち使用しないタームをストップワードとして登録するストップワード登録手段をさらに備え、大分類生成手段で、各タームのうちストップワードを除く他のタームを用いてDTマトリクス生成手段で生成したDTマトリクスを初期状態として用いて、文章の大分類を再生成するようにしてもよい。
大分類の結果を画面表示する際、表示処理手段で、大分類の結果を木構造で画面表示する際、木構造の規模や複雑さを示すプロパティ情報を画面表示してもよい。
また、本発明にかかる文章分類方法は、複数の文章からなる文章集合と1つ以上の単語からなるタームを複数有するタームリストとを含む各種処理情報を記憶する記憶部と、処理情報に対して任意の情報演算処理を行う演算処理部と、この演算処理部での処理結果を画面表示する画面表示部とを有する文章分類装置で、演算処理部により、各文章をタームリストに基づき分類する文章分類方法であって、各文章と各タームとの関係を2次元表現したDTマトリクスを生成するDTマトリクス生成ステップと、グラフ理論で用いられるDM分解法に基づいてDTマトリクス生成ステップで得られたDTマトリクスを変形することにより、変形DTマトリクスを生成するDTマトリクス変形ステップと、変形DTマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表文章生成ステップと、DTマトリクス生成ステップで生成したDTマトリクスを初期状態として用い、所定のクラスタリング処理をステップとして繰り返し行うことにより文章の大分類を生成する大分類生成ステップと、大分類の大分類を画面表示部で画面表示する表示処理ステップとを備え、大分類生成ステップでは、クラスタリング処理として、DTマトリクス変形ステップでDTマトリクスから生成された変形DTマトリクス上のクラスタごとに仮想代表文章生成ステップで仮想代表文章を生成し、仮想代表文章を当該変形DTマトリクスに追加するとともに仮想代表文章のクラスタに属する文章を当該変形DTマトリクスから削除して次のクラスタリング処理に用いる新たなDTマトリクスを生成し、クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力し、表示処理ステップでは、大分類データに基づいて、各クラスタリング処理で生成された各クラスタを示すクラスタシンボルと各クラスタ間の統合関係を示すリンクシンボルとを用いた木構造で大分類の結果を画面表示するようにしてもよい。
また、本発明にかかるプログラムは、複数の文章からなる文章集合と1つ以上の単語からなるタームを複数有するタームリストとを含む各種処理情報を記憶する記憶部と、処理情報に対して任意の情報演算処理を行う演算処理部と、この演算処理部での処理結果を画面表示する画面表示部とを有し、演算処理部により、各文章をタームリストに基づき分類する文章分類装置のコンピュータに、各文章と各タームとの関係を2次元表現したDTマトリクスを生成するDTマトリクス生成ステップと、グラフ理論で用いられるDM分解法に基づいてDTマトリクス生成ステップで得られたDTマトリクスを変形することにより、変形DTマトリクスを生成するDTマトリクス変形ステップと、変形DTマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表文章生成ステップと、DTマトリクス生成ステップで生成したDTマトリクスを初期状態として用い、所定のクラスタリング処理をステップとして繰り返し行うことにより文章の大分類を生成する大分類生成ステップと、大分類の大分類を画面表示部で画面表示する表示処理ステップとを実行させ、大分類生成ステップでは、クラスタリング処理として、DTマトリクス変形ステップでDTマトリクスから生成された変形DTマトリクス上のクラスタごとに仮想代表文章生成ステップで仮想代表文章を生成し、仮想代表文章を当該変形DTマトリクスに追加するとともに仮想代表文章のクラスタに属する文章を当該変形DTマトリクスから削除して次のクラスタリング処理に用いる新たなDTマトリクスを生成し、クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力し、表示処理ステップでは、大分類データに基づいて、各クラスタリング処理で生成された各クラスタを示すクラスタシンボルと各クラスタ間の統合関係を示すリンクシンボルとを用いた木構造で大分類の結果を画面表示するようにしてもよい。
本発明によれば、クラスタリング処理として、DTマトリクスから生成された変形DTマトリクス上のクラスタごとに仮想代表文章が生成されて、これら仮想代表文章を変形DTマトリクスに追加されるとともに仮想代表文章のクラスタに属する文章が変形DTマトリクスから削除されて次のクラスタリング処理に用いる新たなDTマトリクスが生成され、クラスタごとに少なくとも当該クラスタを構成する文章に関する情報が大分類データとして出力され、この大分類データに基づいて各クラスタを示すクラスタシンボルと各クラスタ間の統合関係を示すリンクシンボルとを用いた木構造で大分類の結果が画面表示される。
これにより、元の各文章のみを要素とする分類だけでなく、1つ以上のクラスタを含むより大きな分類すなわち大分類となるクラスタを文章集合から自動的に得ることができ、さらにこのようなクラスタリング処理が繰り返されて、各文章からボトムアップ的な階層化クラスタリングが実現される。
また、クラスタシンボルとリンクシンボルとを用いて、各クラスタ間すなわち大分類間の階層的関係をツリー構造として画面表示することができ、各文章の重要性や文章同士の関係性を自動的に可視化することができる。
次に、本発明の実施の形態について図面を参照して説明する。
[文章分類装置の構成]
まず、図1を参照して、本発明の一実施の形態にかかる文章分類装置について説明する。図1は本発明の一実施の形態にかかる文章分類装置の構成を示すブロック図である。
この文章分類装置1は、全体としてコンピュータからなり、演算処理部10、記憶部20、操作入力部30、画面表示部40、および入出力インターフェース部(以下、入出力I/F部という)50が設けられている。
演算処理部10は、CPUなどのマイクロプロセッサとその周辺回路からなり、記憶部20に予め格納されているプログラム27を実行して、上記ハードウェアとプログラムとを協働させることにより、文章分類処理のための各種機能手段を実現する。
記憶部20は、ハードディスクやメモリなどの記憶装置からなり、演算処理部10での処理に用いる各種処理情報を格納する。主な処理情報としては、分類対象となる各文章からなる文章集合21、各文章の内容を把握するための複数の重要語すなわちタームからなるタームリスト22、各文章と各タームとの関係を示すDTマトリクス23、このDTマトリクス23を変形して得られた変形DTマトリクス24、文章を大分類した結果を示す大分類データ25、および演算処理部10に読み込まれて実行されるプログラム27が記憶されている。
操作入力部30は、キーボードやマウスなどの操作入力装置からなり、オペレータの操作を検出して演算処理部10へ出力する。
画面表示部40は、LCDやPDPなどの画面表示装置からなり、演算処理部10での処理内容や処理結果を表示出力する。
入出力I/F部50は、外部装置(図示せず)や通信ネットワーク(図示せず)と接続するための回路部であり、文章集合21、タームリスト22、大分類データ25のほか、得られた処理結果やプログラム27を外部装置や記録媒体との間でやり取りする際に用いられる。
演算処理部10には、機能手段として、DTマトリクス生成手段11、DTマトリクス変形手段12、大分類生成手段13、仮想代表生成手段14、大分類ラベル生成手段15、表示処理手段16、およびストップワード登録手段17が設けられている。
本実施の形態において、DT(Document-Term)マトリクスとは、各文章D(Document)と各タームT(Term)との関係を2次元的に表現した行列を指す。この際、上記関係は、文章D中におけるタームTの存在有無からなり、文章DとタームTとをそれぞれマトリクスの列と行に対応させ、ある文章DiがあるタームTjを含む場合には、DTマトリクスのj,i成分を「1」とし、含まない場合には「0」とすることにより、文章DとタームTの関係を表している。
本実施の形態では、このDTマトリクスを2部グラフの一表現形態と見なし、2部グラフのグラフ理論で用いられるDM分解法に基づきDTマトリクスを変形し、得られた変形DTマトリクス上に現れるクラスタに基づき、各文章Dを分類している。
DTマトリクス生成手段11は、分類対象となる各文章Dとタームリスト22を構成する各タームTとからDTマトリクス23を生成する機能と、生成したDTマトリクス23を記憶部20へ格納する機能とを有している。
DTマトリクス変形手段12は、DTマトリクス生成手段11で生成されたDTマトリクス23をDM(Dulumage-Mendelsohn)分解法に基づき変形する機能と、変形により得られた変形DTマトリクス24記憶部20へ格納する機能とを有している。
DM分解法とは、具体的には、DTマトリクス23に対し、行操作(行同士を入れ替える操作)または列操作(列同士を入れ替える操作)を施して、三角行列化する処理である。この三角行列化されたDTマトリクスを変形DTマトリクス24と呼ぶ。
大分類生成手段13は、DM分解法を用いたDTマトリクス変形手段12でのDTマトリクス変形処理をクラスタリング処理として繰り返し実行する機能と、各クラスタリング処理で得られた変形DTマトリクス24から得られたクラスタに基づき、文章集合21の各文章について大分類を生成する機能と、その分類結果を大分類データ25として記憶部20へ格納する機能とを有している。
仮想代表生成手段14は、大分類生成手段13での大分類生成時に、変形DTマトリクス24から得られたクラスタから、そのクラスタに含まれる文章を仮想的に代表する仮想代表文章を生成する機能を有している。
大分類ラベル生成手段15は、大分類生成手段13で生成された各クラスタすなわち大分類について当該分類内容を示すラベルを生成する機能を有している。
表示処理手段16は、大分類生成手段13での大分類生成完了に応じて記憶部20の大分類データ25を読み込んで、その分類結果をクラスタシンボルとリンクシンボルとを用いた木構造(ツリー構造)で画面表示部40により表示出力する機能と、操作入力部30で検出されたクラスタシンボルまたはリンクシンボルに対する選択操作に応じて、選択されたシンボルに関係するクラスタの内容を示すラベルを大分類データ25から取得して画面表示部40により表示出力する機能とを有している。
ストップワード登録手段17は、操作入力部30で検出されたクラスタシンボルまたはリンクシンボルに対する選択操作に応じて、選択されたシンボルのクラスタに関するラベルを大分類データ25から取得して選択キーワードリストとして画面表示部40により表示出力する機能と、操作入力部30で検出された選択キーワードリスト内の任意のキーワードに対する選択操作に応じて、選択されたキーワードをストップワードとして登録する機能と、登録されたストップワードをタームリスト22から除外して大分類生成手段13による再分類を指示する機能とを有している。
本実施の形態は、大分類生成手段13により、クラスタリング処理として、DTマトリクス変形手段12でDTマトリクス23から生成された変形DTマトリクス24上のクラスタごとに仮想代表生成手段14で仮想代表文章を生成し、これら仮想代表文章を変形DTマトリクス24に追加するとともに仮想代表文章のクラスタに属する文章を変形DTマトリクス24から削除して次のクラスタリング処理に用いる新たなDTマトリクス23を生成し、クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データ25として出力し、表示処理手段16により、大分類データ25に基づいて、各ステップで生成されたクラスタを示すクラスタシンボルと異なるステップのクラスタとの統合関係を示すリンクシンボルとを用いた木構造で大分類の結果を画面表示するようにしたものである。
[DTマトリクス生成動作]
次に、図2を参照して、本実施の形態にかかる文章分類装置のDTマトリクス生成動作について説明する。図2は、本実施の形態にかかる文章分類装置のDTマトリクス生成処理を示すフローチャートである。
演算処理部10は、大分類生成手段13により、記憶部20の文章集合21について大分類を生成する際、文章分類処理に用いるDTマトリクスを生成する。ここでは、このDTマトリクスを生成するためのマトリクス生成処理について詳細に説明する。
図2のDTマトリクス生成処理において、まず、DTマトリクス生成手段11は、記憶部20に格納されている文章集合21を読み込むとともに(ステップ100)、タームリスト22を読み込む(ステップ101)。
図3は、文章集合21の構成例である。この例は、「ストレス」についてWeb上で多数の回答者に自由に文章を記述してもらったものを集計したものであり、各文章Dごとに当該文章Dを管理するための文章番号Diとその文章を記述した回答者の識別情報とが割り当てられている。
図4はタームリスト22の構成例である。このタームリスト22は、所定のアルゴリズムに基づき各文章Dを解析し、得られた重要語の種別とその前後関係とから各タームTを構成したものであり、タームTごとに当該タームTを管理するターム番号Tjが割り当てられている。
各タームTは、2つの重要語のうち、前方に位置するキーワード前と後方に位置するキーワード後からなり、それぞれのキーワードごとにそのキーワードの内容を示す単語とその単語の品詞属性種別とが規定されている。また、各タームTには、文章集合21から算出された、文章分類に用いる上での重みを示す重要度が対応付けられている。
例えばターム「1」は、「ストレス」と「解消」という2つのキーワードからなり、その位置関係は「ストレス」が前方に位置するものと規定されている。
DTマトリクス生成手段11は、文章集合21内の各文章について、あるしきい値以上の重要度を持ったタームリスト22の各タームTが存在するか否かチェックし、その結果からDTマトリクスを生成する(ステップ102)。
図5は、DTマトリクスの構成例である。このDTマトリクス23は、行方向(縦方向)にタームTが並べられており、列方向(横方向)に文章Dが並べられている。そして、各文章DとタームTの交差位置に、当該文章DにおけるタームTの存在有無が2進数で記載されている。ここでは、文章DにタームTが存在する場合は「1」が設定され、存在しない場合は「0」が設定されている。
したがって、この例によれば、例えば文章D1には、タームT4,T7が含まれていることがわかる。またタームT2は、文章D2,D4に含まれていることがわかる。
続いて、DTマトリクス変形手段12は、このようにしてDTマトリクス生成手段11で生成されたDTマトリクス23を、DM分解法に基づき変形して変形DTマトリクス24を生成し(ステップ103)、これを記憶部20に格納して、一連のマトリクス生成処理を終了する。
一般に、グラフ理論では、2つの集合に属するそれぞれの点とこれら点を結ぶ辺とからなる2部グラフを、各点間の関連性に基づき分離する手法として、DM分解法が用いられる。
本実施の形態では、DTマトリクス23を、文章DからタームTへの辺により結びつけられた2部グラフの一表現形態と見なすことができることに着目し、グラフ理論におけるDM分解法をDTマトリクス23に適用し、得られた変形DTマトリクスに基づき文章Dを分類している。
[DM分解処理]
次に、図6および図7を参照して、DTマトリクス変形手段12で用いる2部グラフにおけるDM分解処理について説明する。図6は、DM分解処理を示すフローチャートである。図7は、DM分解処理の過程を示す2部グラフである。以下では、文章DおよびタームTからなる2つの点集合と、これら点を結ぶ辺からなる2部グラフGを処理対象とし、これをDM分解法により複数のグラフに分離する場合を例として説明する。なお、これら処理では、演算処理部10内部のメモリまたは記憶部20から各種データを読み出して、演算処理部10で所定の演算を行い、その結果を再び記憶するという動作が繰り返し行われる。
まず、図7(a)に示すように、処理対象となる2部グラフGの各辺について、文章DからタームTへの有向辺を生成する(ステップ110)。そして、図7(b)に示すように、文章D側に点sを用意し、点sから文章Dの各点に対して有向辺を生成する(ステップ111)。同様にして、タームT側に点tを用意し、タームTの各点から点tに対して有向辺を生成する(ステップ112)。
次に、これら辺を介して点sから点tへ向かう経路を検索する(ステップ113)。例えば図7(b)では、辺130,131,132からなる経路を介して点sから点tへ向かうことができる。このような経路が存在する場合は(ステップ113:YES)、当該経路を構成する各辺を削除するとともに(ステップ114)、当該経路上の文章DからタームTへの有向辺とは逆向きの有向辺を、初期状態で空の2部グラフである最大マッチングMに生成し(ステップ115)、ステップ113へ戻って次の経路を検索する。図7(c)では、有向辺131に対応する逆向きの有向辺133が最大マッチングMに生成されている。
ステップ113において、すべての経路の検索が終了して新たな経路が検索されなかった場合(ステップ113:NO)、最大マッチングMが完成したことになる。
このようにして、図7(d)に示すような最大マッチングMを完成させた後、最大マッチングMに属する各有向辺254を処理対象Gへ含める(ステップ116)。これにより、図7(e)に示すように、処理対象Gにおいて、最大マッチングMとして選択された辺135については、文章DからタームTへの有向辺とその逆方向の有向辺とから構成されることになる。
次に、タームTの各点のうち最大マッチングMに用いられなかった点、例えば自由点136を選択し(ステップ117)、処理対象Gの各辺を介して当該自由点136に到達可能な点の集合をクラスタ140とする(ステップ118)。
同様にして、文章Dの各点のうち最大マッチングMに用いられなかった点、例えば自由点137を選択し(ステップ119)、処理対象Gの各辺を介して当該自由点137に到達可能な点の集合をクラスタ142とする(ステップ120)。
そして、残りの文章DおよびタームTの各点のうち、双方向に到達可能な経路を有する点集合すなわち強連結をなす点集合をクラスタ141とし(ステップ121)、一連のDM分解処理を終了する。
このようにして、公知のDM分解法では、各クラスタが所定の順序で生成され、三角行列化された変形DTマトリクスが得られる。
演算処理部10では、以上のようにして、図2のDTマトリクス生成処理を実行することにより、DTマトリクス生成手段11で文章集合21とタームリスト22とからDTマトリクス23を生成するとともに、DTマトリクス変形手段12でDTマトリクスに対して図6のDM分解処理を適用することにより、各文章Dがクラスタごとに分離された変形DTマトリクス24を生成する。
図8は、DTマトリクス23と変形DTマトリクス24の構成例である。ここでは、各文章Di内においてタームTjが存在する場合、列方向(横方向)に配置された文章Diと行方向(縦方向)に配置されたタームTiとの交点にドットが配置されており、タームTjが存在しない場合は空白となっている。図8(a)のDTマトリクス23では、ドットがランダムに分布しているが、図8(b)の変形DTマトリクス24では、ドットが断片的ではあるが斜め方向に連続して密集しており、この部分150にクラスタが並んでいることがわかる。また、変形DTマトリクス24では、左下側にドットが存在せず、右上側にドットが多く存在しており、上三角行列化されていることがわかる。
[第1の実施の形態の動作]
次に、図9を参照して、本発明の第1の実施の形態にかかる文章分類装置の大分類動作について説明する。図9は、本発明の第1の実施の形態にかかる文章分類装置での大分類生成処理を示すフローチャートである。
演算処理部10は、操作入力部30からの指示に応じて、大分類生成手段13により、図9の大分類生成処理を開始する。
まず、大分類生成手段13は、DTマトリクス生成手段11を用いて、記憶部20に格納されている文章集合21とタームリスト22を読み込み、前述と同様のDTマトリクス生成処理を行うことにより、各文章と各タームとの関係を2次元表現したDTマトリクス23を生成する(ステップ200)。
次に、大分類生成手段13は、DTマトリクス変形手段12を用いて、グラフ理論におけるDM分解法を上記DTマトリクス23に適用し、前述と同様にして各文章がクラスタごとに分離された変形DTマトリクス24を生成する(ステップ201)。
そして、大分類生成手段13は、得られた変形DTマトリクス24上でブロック化された各クラスタを識別する(ステップ202)。この際、各クラスタについては、変形DTマトリクス24を生成した際に分離した部分グラフに基づき識別してもよく、変形DTマトリクス24上のデータ(ドット)の並びから識別してもよい。
図10は、文章分類処理の説明図である。この例では、変形DTマトリクス24上にクラスタ220が存在している。このクラスタ60は、2部グラフで表現した場合の部分グラフ221をなしており、他の文章やタームと関連性が小さい。なお、クラスタ境界が明確な完全グラフをなす場合もある。変形DTマトリクス24では、列方向(横方向)に文章Dが並んでおり、クラスタ220の列方向に並ぶ文章DすなわちD363,D155,D157,D5,D13,D8が、このクラスタ220に属する文章Dとなる。
ここで、新たなクラスタが識別された場合は(ステップ203:YES)、仮想代表生成手段14を用いて、新たなクラスタごとにそのクラスタを仮想的に代表する仮想代表文章を生成する。
仮想代表生成手段14では、まず、新たなクラスタに属する各文章の特徴量を取得し、これら特徴量の和集合から仮想代表文章を生成する。例えば、各文章の特徴量KiがKi={k1,k2,…,kn}のように、1つ以上の特徴量k1〜knで表現される場合、仮想代表文章K’は、K’=K1∪K2∪,…,∪Kmで得られる。
この際、例えば特徴量として前述のようにタームを用いる場合、仮想代表文章は、新たなクラスタに属する各文章が持つタームをすべて含む和集合となり、その内容は、各タームを構成するキーワードの羅列から構成される。
大分類生成手段13は、仮想代表生成手段14により、上記のようにして新たなクラスタごとにその仮想代表文章を生成して新たな文章番号を付与し(ステップ204)、これら仮想代表文章を他の実際の文章(実文章)と同様の文章として変形DTマトリクスへ追加するとともに(ステップ205)、新たなクラスタに属する各文章を変形DTマトリクスから削除する(ステップ206)。
これにより、変形DTマトリクス上では、仮想代表文章とこれに含まれる各タームとの交点にドットが追加配置されるとともに、元の各文章に対応するドットが削除されて、新たなクラスタを構成する各文章が仮想代表文章で置換された新たなDTマトリクスが生成される。
この後、大分類生成手段13は、新たなクラスタの構成、例えば当該クラスタを構成する各文章に関する情報として、例えば当該クラスタに属する実文章や仮想代表文章の文章ID、さらにはそのステップ数に相当する階層レベルなどを大分類データ25として出力し記憶部20へ格納する(ステップ207)。そして、大分類ラベル生成手段15を用いて、新たなクラスタに含まれていた仮想代表文章について、その元となるクラスタに対して後述の大分類ラベル生成処理を行う(ステップ208)。
このようにして、ステップ201〜208までを1ステップとして、DTマトリクスに対する変形処理により新たなクラスタを生成するとともに、そのクラスタをその仮想代表文章で置換することにより新たなDTマトリクスを生成するクラスタリング処理を実行し、その後、ステップ201へ戻って、新たなDTマトリクスを用いたクラスタリング処理を繰り返し実行する。
これにより、クラスタリング処理の繰り返しステップで生成されたクラスタには、実文章だけでなく仮想代表文章すなわち他のクラスタも含まれることになり、実文章やクラスタが新たなクラスタに統合されて、各文章の大分類が得られることになる。
図11は、大分類生成処理の実行例を示す説明図である。ここでは初期状態として、記憶部20の文章集合21に文章a〜kが格納されているものとする。そして、1回目のクラスタリング処理であるステップS1で、文章a,bからクラスタ301が生成され、その仮想代表文章V1が生成されている。同様にして、文章c,dからクラスタ302が生成され、その仮想代表文章V2が生成されており、さらに文章e,fからクラスタ303が生成され、その仮想代表文章V3が生成されている。
これにより、ステップS1終了時点では、文章a,b,c,d,e,fがDTマトリクス上から削除され、文章g〜kと仮想代表文章V1,V2,V3からなる新たなDTマトリクスを用いたステップS2が実行される。
2回目のステップS2では、仮想代表文章V1と文章gからクラスタ304が生成され、その仮想代表文章V4が生成されている。
[大分類ラベル生成動作]
この際、図9のステップ208における大分類ラベル生成処理では、クラスタ304に仮想代表文章V1が含まれていることから、その仮想代表文章V1の元となるクラスタ301に対する大分類ラベルが生成される。
ここで、図12を参照して、大分類ラベル生成処理について説明する。図12は、本発明の第1の実施の形態にかかる文章分類装置での大分類ラベル生成処理を示すフローチャートである。
大分類ラベル生成手段15は、まず、大分類生成処理における現在のステップが、新たなクラスタが見つからなかった最終ステップかどうか判断する(ステップ230)。
このとき、最終ステップでなければ(ステップ230:NO)、図9のステップ202で識別された新たなクラスタのうちから当該ラベル生成処理が未処理のクラスタを任意に1つ選択し(ステップ231)、そのクラスタに仮想代表文章が含まれているかどうか判断する(ステップ232)。なお、実文章と仮想代表文章とは、その文章番号などで識別すればよい。
ここで、仮想代表文章が含まれている場合にのみ(ステップ232:YES)、DTマトリクス上でその仮想代表文章と強連結しているタームのキーワードから、その仮想代表文章の元のクラスタのラベルを生成する(ステップ233)。
そして、当該ラベル生成処理が未処理のクラスタがあれば(ステップ234:NO)、ステップ231に戻って未処理クラスタに対するラベル生成処理ステップ231〜233を繰り返し実行し、各クラスタに対する処理が終了した時点で(ステップ234:YES)、一連の大分類生成処理を終了する。
また、ステップ230において、大分類生成処理における現在のステップが最終ステップであった場合は(ステップ230:YES)、その最終ステップの時点においてDTマトリクスを構成する各文章から、当該ラベル生成処理が未処理の仮想代表文章を任意に1つ選択し(ステップ240)、DTマトリクス上でその仮想代表文章と強連結しているタームのキーワードから、その仮想代表文章の元のクラスタのラベルを生成する(ステップ241)。
そして、当該ラベル生成処理が未処理の仮想代表文章があれば(ステップ242:NO)、ステップ240に戻って未処理の仮想代表文章に対するラベル生成処理ステップ240,241を繰り返し実行し、各仮想代表文章に対する処理が終了した時点で(ステップ242:YES)、一連の大分類生成処理を終了する。
したがって、図11のステップS2では、クラスタ304に仮想代表文章V1が含まれていることから、ステップS2の処理開始時点におけるDTマトリクス上でその仮想代表文章V1と強連結しているタームのキーワードから、その仮想代表文章V1の元のクラスタ301のラベルL1が生成される。
以下、同様にして、ステップS3では、仮想代表文章V2と文章hからクラスタ305が生成され、その仮想代表文章V5が生成されている。そして、仮想代表文章V2の元のクラスタ305のラベルL2が生成される。
次のステップS4では、仮想代表文章V4,V5と文章iからクラスタ306が生成されて、その仮想代表文章V6が生成されるとともに、仮想代表文章V3と文章jからクラスタ307が生成されて、その仮想代表文章V7が生成されている。そして、仮想代表文章V4の元のクラスタ304のラベルL4が生成されるとともに、仮想代表文章V5の元のクラスタ305のラベルL5が生成され、さらに仮想代表文章V3の元のクラスタ303のラベルL3が生成されている。
続くステップS5では、仮想代表文章V6と文章kからクラスタ308が生成されて、その仮想代表文章V8が生成されている。そして、仮想代表文章V6の元のクラスタ306のラベルL6が生成されている。
大分類生成手段13では、このようにしてクラスタリング処理(ステップ201〜208)を繰り返し実行し、図9のステップ203で新たなクラスタが見つからなかった場合は(ステップ203:NO)、最終ステップとして、大分類ラベルの付いていないクラスタに対する大分類ラベル生成処理を実行し(ステップ209)、一連の大分類生成処理を終了する。
これにより、図11の最終ステップでは、その時点のDTマトリクス上で、仮想代表文章V8と強連結しているタームのキーワードから、その仮想代表文章V8の元のクラスタ308のラベルL8が生成され、同様にして仮想代表V7の元のクラスタ307のラベルL7が生成される。
図13は、初期状態におけるDTマトリクスの生成例である。各文章Di内にタームTjが存在する場合、列方向(横方向)に配置された文章Diと行方向(縦方向)に配置されたタームTjとの交点にドットが配置されており、タームTjが存在しない場合は空白となっている。なお、このDTマトリクスのうち、エリア310には実文章が横軸に配置されており、エリア311は仮想代表文章の配置用のため初期状態では空白となっている。
図14は、最終ステップにおけるDTマトリクスの生成例である。この例では、大分類生成処理によりエリア310の実文章が削除されてほとんど空白となり、エリア311の仮想代表文章に置換されていることがわかる。
このように、DTマトリクスに対する変形処理により新たなクラスタを生成するとともに、そのクラスタをその仮想代表文章で置換することにより新たなDTマトリクスを生成するクラスタリング処理を繰り返し実行するようにしたので、新たなDTマトリクスから順次新たなクラスタ、すなわちクラスタを含むより大きなクラスタすなわち大分類が得られる。
これにより、記憶部20の大分類データ25として、図11に示されているように、各文章a〜kのみを要素とする分類、例えばクラスタ301〜303だけでなく、1つ以上のクラスタを含むより大きな分類すなわち大分類として、クラスタ304〜308が得られる。
さらに、上記クラスタリング処理をDTマトリクス上で新たなクラスタが識別されなくなるまで繰り返し実行するようにしたので、各文章からボトムアップ的に階層化クラスタリングが行われ、これらクラスタ301〜308間すなわち大分類間の階層的関係をツリー構造として可視化することができる。
なお、以上では、大分類生成処理(図9参照)で、大分類ラベル生成処理(ステップ208,209)を行う場合を例として説明したが、この大分類ラベル生成処理は、大分類生成処理と連携させて行う必要はなく、大分類生成処理が終了した後、必要に応じて大分類ラベル生成処理(図12参照)を独立して行ってもよい。
[大分類表示動作]
このようにして、大分類生成手段13により、記憶部20の文章集合21を大分類した後、文章分類装置の演算処理部10は、表示処理手段16により、その大分類の結果を画面表示部40へ画面表示する。
図15は、大分類結果の表示画面例である。この表示画面例では、画面の縦方向に大分類の階層を示すレベル0〜レベル4が配置されている。これらレベル0〜レベル4は、大分類生成処理で繰り返し実行されたクラスタリング処理すなわち各ステップに相当している。なお、表示出力領域の横方向は木構造の広がりを表示するために用いられ、その表示順序などに特別な意味はない。
例えば、前述した図11の例では、1回目のクラスタリング処理であるステップS1でクラスタ301,302,303が生成されている。表示処理手段16は、これらクラスタ301,302,303を示す例えば楕円形状の表示シンボル(表示オブジェクト)からなるクラスタシンボル321,322,323を、表示出力領域のうちステップS1に相当するレベル0に配置する。
同様にして、ステップS2で生成されたクラスタ304を示すクラスタシンボル324をレベル1に配置し、ステップS3で生成されたクラスタ305を示すクラスタシンボル325をレベル2に配置し、ステップS4で生成されたクラスタ306,307を示すクラスタシンボル326,327をレベル3に配置し、ステップS5で生成されたクラスタ308を示すクラスタシンボル328をレベル4に配置する。
また、表示処理手段16は、各クラスタ301〜308の統合関係を表示するため、各クラスタシンボルを結ぶ線形状の表示シンボル(表示オブジェクト)からなるリンクシンボルをそれぞれのクラスタシンボル間に配置する。
例えば、前述した図11の例では、クラスタ301はクラスタ304に統合されており、これらクラスタ301,304に対応するクラスタシンボル321,324間に、この統合関係を示すリンクシンボル341が配置されている。
同様にして、クラスタシンボル322,325間には、対応するクラスタ302,305間の統合関係を示すリンクシンボル342が配置され、クラスタシンボル323,327間には、対応するクラスタ303,307間の統合関係を示すリンクシンボル343が配置されている。また、クラスタシンボル324,326間には、対応するクラスタ304,306間の統合関係を示すリンクシンボル344が配置され、クラスタシンボル325,326間には、対応するクラスタ305,306間の統合関係を示すリンクシンボル345が配置され、クラスタシンボル326,328間には、対応するクラスタ306,308間の統合関係を示すリンクシンボル346が配置されている。
表示処理手段16は、記憶部20の大分類データ25に基づき、これらクラスタシンボルおよびリンクシンボルを表示出力領域に配置する。図16は、大分類データの構成例である。ここでは、各クラスタの識別情報であるクラスタIDごとに、当該クラスタが属するレベル、当該クラスタで生成された仮想代表文章の識別情報である仮想代表文章ID、当該クラスタで統合された要素文章の識別情報である要素文章ID、当該クラスタに付与された大分類ラベルを示すラベル1,ラベル2とそれぞれの品詞が組として登録されている。
表示処理手段16は、各クラスタシンボルを配置する際、各クラスタのレベルを参照して、対応する表示出力領域の縦方向位置に配置し、そのクラスタシンボル上にクラスタIDを表示する。また、各クラスタリンクを配置する際、任意のクラスタの仮想代表文章IDを参照し、その仮想代表IDを要素文章IDとして持つクラスタIDを検索し、これらクラスタのクラスタシンボルを結ぶようリンクシンボルを配置する。例えば、クラスタID「1」のクラスタの仮想代表文章IDは「101」であり、クラスタID「7」のクラスタの要素文章IDに存在している。したがって、クラスタID「1」とクラスタID「7」のクラスタシンボル間にリンクシンボルが配置される。
この際、表示処理手段16は、これらクラスタシンボルおよびリンクシンボルに固有の識別情報としてシンボルIDを付与し、これらシンボルに関するデータを、シンボルデータ26として記憶部20へ格納する。
図17は、シンボルデータの構成例である。ここでは、各シンボルの識別情報であるシンボルIDごとに、当該シンボルのシンボル種別(クラスタ/リンク)、および当該シンボルと対応するクラスタIDが組として登録されている。
例えば、シンボルID「C1」は、クラスタID「1」のクラスタシンボルであり、シンボルID「L1」は、クラスタID「1」とクラスタID「7」を結ぶリンクシンボルであることがわかる。
図18は、図16の大分類データの画面表示例である。各クラスタ(ID=1〜10)に対応するクラスタシンボルC1〜C10が、それぞれのレベルに配置されており、これらクラスタシンボルが、各クラスタの統合関係に基づきリンクシンボルL1〜L7により相互に接続されている。
また、各クラスタシンボルC1〜C10には、それぞれのクラスタIDが表示されており、各クラスタシンボルC1〜C10の周辺に当該クラスタの大分類ラベルが表示されている。
このように、本実施の形態では、大分類生成手段13により、クラスタリング処理として、DTマトリクス変形手段12でDTマトリクス23から生成された変形DTマトリクス24上のクラスタごとに仮想代表生成手段14で仮想代表文章を生成し、これら仮想代表文章を変形DTマトリクス24に追加するとともに仮想代表文章のクラスタに属する文章を変形DTマトリクス24から削除して次のクラスタリング処理に用いる新たなDTマトリクス23を生成し、クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データ25として出力し、表示処理手段16により、大分類データ25に基づいて、各クラスタリング処理で生成されたクラスタを示すクラスタシンボルと異なるステップのクラスタとの統合関係を示すリンクシンボルとを用いた木構造で大分類の結果を画面表示するようにした。
これにより、元の各文章のみを要素とする分類だけでなく、1つ以上のクラスタを含むより大きな分類すなわち大分類となるクラスタを文章集合から自動的に得ることができ、さらにこのようなクラスタリング処理が繰り返されて、各文章からボトムアップ的な階層化クラスタリングが実現される。
また、クラスタシンボルとリンクシンボルとを用いて、各クラスタ間すなわち大分類間の階層的関係をツリー構造として画面表示することができ、各文章の重要性や文章同士の関係性を自動的に可視化することができる。
本実施の形態のような、階層的なクラスタリングと同時にクラスタのラベルも同時に決定する手法は、自然言語における概念クラスタリング法と考えることも可能である。例えば、図16〜図18に示した例では、発光素子に関する複数の特許明細書を文章集合21として用意し大分類生成処理を適用した。この結果、これら特許明細書は、下位−中位−上位の各概念に相当するレベル0,1,2において、それぞれ固有のラベルで示される概念を持つ階層的なクラスタに分類され、大域的な情報としてこれらクラスタ間の統合関係を容易に把握することが可能となる。
[第2の実施の形態]
次に、図19を参照して、本発明の第2の実施の形態にかかる文章分類装置について説明する。図19は、本発明の第2の実施の形態にかかる文章分類装置のラベル表示動作を示す画面出力例である。
前述の第1の実施の形態では、大分類生成処理で得られた各クラスタを木構造で画面表示する場合について説明した。本実施の形態では、この木構造を構成する任意のクラスタに関する詳細な情報としてラベルを表示する場合について説明する。なお、本実施の形態にかかる文章分類装置では、表示処理手段16について以下に説明する機能が追加されるものの、全体の構成は前述した第1の実施の形態と同様であり、ここでの詳細な説明は省略する。
文章分類装置1の演算処理部10は、画面表示部40の表示出力領域で大分類生成結果を表示している際、その木構造を構成する任意のクラスタシンボルまたはリンクシンボルに対する選択操作に応じて、表示処理手段16により、選択されたシンボルの内容を示すラベルを画面表示部40で表示する。この際、任意のシンボルに対する選択操作は、例えばマウス操作を操作入力部30で検出し、演算処理部10のOS(Operating System)を介して、当該シンボル(オブジェクト)に対するイベントとして表示処理手段16で検出すればよい。
例えば、図19のクラスタシンボル351に対する選択操作が検出された場合、表示処理手段16は、記憶部20のシンボルデータ26を参照して、当該クラスタシンボル351のシンボルIDに対応するシンボル種別のクラスタIDを取得する。この際、シンボル種別はクラスタであることから、そのクラスタIDを用いて大分類データ25を参照し、当該クラスタのラベル、この場合は「全国・拠点」を取得して、クラスタシンボル351の周辺位置にラベル352として画面表示する。
また、図19の選択範囲357に属する各クラスタシンボル対する選択操作が検出された場合、表示処理手段16は、記憶部20のシンボルデータ26を参照して、これらクラスタシンボルのシンボルIDに対応するシンボル種別のクラスタIDを取得する。この際、表示処理手段16は、これらクラスタシンボルのクラスタIDを用いて大分類データ25を参照し、これらクラスタのラベルの論理和集合「ネットワーク・機器,資格・取得,企業・参加,センター・コール」を取得し、選択範囲357の周辺位置にラベル358として画面表示する。
複数のクラスタが同時に選択された場合、これらクラスタのラベルの選択方法を指示する操作メニューを画面表示して、所望の選択方法で表示するようにしてもよい。この場合、複数クラスタの選択に応じて操作メニューを画面表示してもよく、例えばマウス右ボタン操作などのオペレータの明示的な操作に応じて操作メニューを画面表示してもよい。
図20は、操作メニュー360の表示例である。ここでは、複数のクラスタのラベルに対する論理和(OR)のほか、同一ラベルのみを選択する論理積(AND)や、相違するラベルのみを選択する排他的論理和(XOR)を指示できる。これにより、複数のクラスタの関係を容易に把握できる。
一方、図19のリンクシンボル353に対する選択操作が検出された場合、表示処理手段16は、記憶部20のシンボルデータ26を参照して、当該リンクシンボル353のシンボルIDに対応するシンボル種別のクラスタIDを取得する。この際、シンボル種別はリンクであることから、大分類データ25を参照して、そのリンクシンボル353のうち、当該リンクシンボル353の下位レベル側に直接接続されているクラスタに統合されているすべてのクラスタのラベルの論理和と、当該リンクシンボル353の上位側に直接接続されているクラスタのラベルとの論理積「センター・アワード,マネジメント・部門,機器・販売」を取得し、リンクシンボル353の周辺位置にラベル356として画面表示する。
本実施の形態では、このように、大分類結果として画面表示している木構造を構成する任意のクラスタシンボルまたはリンクシンボルに対する選択操作に応じて、表示処理手段16により、選択されたシンボルの内容を示すラベルを画面表示部40で表示するようにしたので、所望のクラスタに関する分類内容を容易に確認することができる。また、複数のクラスタが同時に選択された場合は、各クラスタのラベルに任意の論理演算を行って得た集合を表示するようにしたので、複数のクラスタに関する関係をより詳細に把握することが可能となる。
[第3の実施の形態]
次に、図21を参照して、本発明の第3の実施の形態にかかる文章分類装置について説明する。図21は、本発明の第3の実施の形態にかかる文章分類装置のストップワード登録動作に用いる登録画面出力例である。
前述の第1の実施の形態では、大分類生成処理で得られた各クラスタを木構造で画面表示する場合について説明した。本実施の形態では、この木構造の任意のクラスタに関するラベルのいずれかを大分類処理で使用しないタームすなわちストップワードとして登録し、このストップワードを排除して大分類処理を再実行する場合について説明する。なお、本実施の形態にかかる文章分類装置の構成は前述した第1の実施の形態と同様であり、ここでの詳細な説明は省略する。
文章分類装置1の演算処理部10は、操作入力部30からのストップワード登録操作に応じて、ストップワード登録手段17により、ストップワード登録動作を開始する。例えば、画面表示部40の表示出力領域で大分類生成結果を表示している際、その木構造を構成する任意のクラスタシンボルまたはリンクシンボルに対する選択操作に応じて、表示処理手段16により、図20の操作メニュー360を画面表示し、この操作メニュー360でのストップワード登録指示に応じてストップワード登録動作を開始してもよい。
ストップワード登録動作において、まず、ストップワード登録手段17は、図21のストップワード登録画面370を画面表示する。ストップワード登録画面370には、ストップワードの候補がリスト表示される選択キーワードリスト371と、選択されたストップワードがリスト表示されるストップワードリスト372が表示されている。例えば、マウスで選択キーワードリスト371内の「機器・販売」というラベル375が選択された場合、これがストップワードリスト372に新たなストップワード376として表示され登録される。
この際、選択キーワードリスト371に表示するラベルについては、ストップワード登録画面370の表示直前に選択されていたシンボルと対応するクラスタのラベルを大分類データ25から取得して表示してもよく、選択されたクラスタに統合されているすべてのクラスタ、あるいは画面表示されているすべてのクラスタのラベルの論理和集合を表示してもよい。また、クラスタのラベルを用いず、選択されたクラスタの仮想体表文章や、選択されたクラスタに統合されているすべての文章に含まれるタームを選択キーワードリスト371に表示してもよい。
ストップワードの登録が完了した後、ストップワード登録画面370で「再分類開始」ボタン379が押下された場合、ストップワード登録手段17は、記憶部20のタームリスト22から上記各ストップワードを排除した大分類生成処理を大分類生成手段13へ指示する。この際、記憶部20にストップワードを格納し、大分類生成手段13が大分類生成処理においてこれを参照してもよく、タームリスト22に設けられたストップワード欄にストップワード登録手段17が有効/無効を記述し、大分類生成手段13が大分類生成処理においてこれを参照してもよい。
これにより、上記各ストップワードを排除した大分類生成処理が大分類生成手段13で実行される。図22は、ストップワードを登録しない場合の大分類結果を示す表示画面例である。図23は、ストップワードを登録した場合の大分類結果を示す表示画面例である。ストップワードを登録して大分類を再生成することにより、木構造が大幅に整理されていることがわかる。
本実施の形態では、このように、大分類で得られた木構造の任意のクラスタに関するラベルのいずれかを大分類処理で使用しないタームすなわちストップワードとして登録し、このストップワードを排除して大分類処理を再実行するようにしたので、不要なタームを排除でき、文章集合21に対してよりノイズの少ない大分類を得ることができる。
[第4の実施の形態]
次に、本発明の第4の実施の形態にかかる文章分類装置について説明する。
前述の第1の実施の形態では、大分類生成処理で得られた各クラスタを木構造で画面表示する場合について説明した。本実施の形態では、大分類処理で得られた木構造のグラフ構造に関する性質をプロパティ情報として画面表示する場合について説明する。なお、本実施の形態にかかる文章分類装置では、表示処理手段16について以下に説明する機能が追加されるものの、全体の構成は前述した第1の実施の形態と同様であり、ここでの詳細な説明は省略する。
文章分類装置1の演算処理部10は、画面表示部40の表示出力領域で大分類生成結果を表示した際、その木構造のグラフ構造に関する性質をプロパティ情報として画面表示する。プロパティ情報としては、各クラスタから分岐している枝数(リンク数)の平均値から求められる頂点次数平均値や、各木構造全体で用いている枝数(リンク数)の平均値から求められる枝数平均値を用いる。
一般に、任意の対象の階層構成を木構造で表現する場合、そのグラフ構造がある程度まで小さくなったほうが、その階層構造を把握しやすい。これら頂点次数平均値や枝数平均値は、木構造の規模や複雑さを示す尺度であり、このようなプロパティ情報を数値で画面表示することにより、これらプロパティ情報を目安として、例えばストップワードを用いた大分類生成処理の繰り返し要否を容易に判断することができる。
本発明の第1の実施の形態にかかる文章分類装置の構成を示すブロック図である。 本実施の形態にかかる文章分類装置のDTマトリクス生成処理を示すフローチャートである。 文章集合の構成例である。 タームリストの構成例である。 DTマトリクスの構成例である。 DM分解処理を示すフローチャートである。 DM分解処理の過程を示す2部グラフである。 DTマトリクスおよび変形DTマトリクスの構成例である。 本発明の第1の実施の形態にかかる文章分類装置での大分類生成処理を示すフローチャートである。 文章分類処理を示す説明図である。 大分類生成処理の実行例を示す説明図である。 本発明の第1の実施の形態にかかる文章分類装置での大分類ラベル生成処理を示すフローチャートである。 初期状態におけるDTマトリクスの生成例である。 最終ステップにおけるDTマトリクスの生成例である。 大分類結果の表示画面例である。 大分類データの構成例である。 シンボルデータの構成例である。 図16の大分類データの画面表示例である。 本発明の第2の実施の形態にかかる文章分類装置のラベル表示動作を示す画面出力例である。 操作メニューの表示例である。 本発明の第3の実施の形態にかかる文章分類装置のストップワード登録動作に用いる登録画面出力例である。 ストップワードを登録しない場合の大分類結果を示す表示画面例である。 ストップワードを登録した場合の大分類結果を示す表示画面例である。
符号の説明
1…文章分類装置、10…演算処理部、11…DTマトリクス生成手段、12…DTマトリクス変形手段、13…大分類生成手段、14…仮想代表生成手段、15…大分類ラベル生成手段、16…表示処理手段、17…ストップワード登録手段、20…記憶部、21…文章集合、22…タームリスト、23…DTマトリクス、24…変形DTマトリクス、25…大分類データ、26…シンボルデータ、27…プログラム、30…操作入力部、40…画面表示部、50…入出力I/F部。

Claims (9)

  1. 複数の文章からなる文章集合と1つ以上の単語からなるタームを複数有するタームリストとを含む各種処理情報を記憶する記憶部と、前記処理情報に対して任意の情報演算処理を行う演算処理部と、この演算処理部での処理結果を画面表示する画面表示部とを有し、前記演算処理部により、前記各文章を前記タームリストに基づき分類する文章分類装置であって、
    前記演算処理部は、
    前記各文章と前記各タームとの関係を2次元表現したDTマトリクスを生成するDTマトリクス生成手段と、
    グラフ理論で用いられるDM分解法に基づいて前記DTマトリクス生成手段で得られたDTマトリクスを変形することにより、変形DTマトリクスを生成するDTマトリクス変形手段と、
    変形DTマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表生成手段と、
    前記DTマトリクス生成手段で生成したDTマトリクスを初期状態として用い、所定のクラスタリング処理をステップとして繰り返し行うことにより前記文章の大分類を生成する大分類生成手段と、
    前記大分類の大分類を前記画面表示部で画面表示する表示処理手段とを備え、
    前記大分類生成手段は、前記クラスタリング処理として、前記DTマトリクス変形手段でDTマトリクスから生成された変形DTマトリクス上のクラスタごとに前記仮想代表生成手段で仮想代表文章を生成し、前記仮想代表文章を当該変形DTマトリクスに追加するとともに前記仮想代表文章のクラスタに属する文章を当該変形DTマトリクスから削除して次のクラスタリング処理に用いる新たなDTマトリクスを生成し、前記クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力し、
    前記表示処理手段は、前記大分類データに基づいて、前記各クラスタリング処理で生成された各クラスタを示すクラスタシンボルと前記各クラスタ間の統合関係を示すリンクシンボルとを用いた木構造で前記大分類の結果を画面表示する
    ことを特徴とする文章分類装置。
  2. 請求項1に記載の文章分類装置において、
    前記表示処理手段は、前記クラスタシンボル上またはその周辺に、当該クラスタに固有の識別情報と当該クラスタの内容を示すラベルを画面表示することを特徴とする文章分類装置。
  3. 請求項1に記載の文章分類装置において、
    前記表示処理手段は、画面表示されている任意のクラスタシンボルまたはリンクシンボルに対する選択操作に応じて、選択されたクラスタシンボルのクラスタ、または選択されたリンクシンボルで結ばれるクラスタの内容を示すラベルを画面表示することを特徴とする文章分類装置。
  4. 請求項1に記載の文章分類装置において、
    前記クラスタリング処理で得られた各クラスタのうち当該クラスタに仮想代表文章が含まれている場合は、その仮想代表文章と強連結をなすタームから、当該仮想代表文章の元のクラスタの内容を示すラベルを生成する大分類ラベル生成手段をさらに備えることを特徴とする文章分類装置。
  5. 請求項1に記載の文章分類装置において、
    前記表示処理手段は、前記各ステップの順に、当該クラスタリング処理で得られた前記クラスタのクラスタシンボルを階層表示することを特徴とする文章分類装置。
  6. 請求項1に記載の文章分類装置において、
    前記タームリストのうち使用しないタームをストップワードとして登録するストップワード登録手段をさらに備え、
    前記大分類生成手段は、前記各タームのうち前記ストップワードを除く他のタームを用いて前記DTマトリクス生成手段で生成したDTマトリクスを初期状態として用いて、前記文章の大分類を再生成する
    ことを特徴とする文章分類装置。
  7. 請求項1に記載の文章分類装置において、
    前記表示処理手段は、前記大分類の結果を木構造で画面表示する際、前記木構造の規模や複雑さを示すプロパティ情報を画面表示することを特徴とする文章分類装置。
  8. 複数の文章からなる文章集合と1つ以上の単語からなるタームを複数有するタームリストとを含む各種処理情報を記憶する記憶部と、前記処理情報に対して任意の情報演算処理を行う演算処理部と、この演算処理部での処理結果を画面表示する画面表示部とを有する文章分類装置で、前記演算処理部により、前記各文章を前記タームリストに基づき分類する文章分類方法であって、
    前記各文章と前記各タームとの関係を2次元表現したDTマトリクスを生成するDTマトリクス生成ステップと、
    グラフ理論で用いられるDM分解法に基づいて前記DTマトリクス生成ステップで得られたDTマトリクスを変形することにより、変形DTマトリクスを生成するDTマトリクス変形ステップと、
    変形DTマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表文章生成ステップと、
    前記DTマトリクス生成ステップで生成したDTマトリクスを初期状態として用い、所定のクラスタリング処理をステップとして繰り返し行うことにより前記文章の大分類を生成する大分類生成ステップと、
    前記大分類の大分類を前記画面表示部で画面表示する表示処理ステップとを備え、
    前記大分類生成ステップは、前記クラスタリング処理として、前記DTマトリクス変形ステップでDTマトリクスから生成された変形DTマトリクス上のクラスタごとに前記仮想代表文章生成ステップで仮想代表文章を生成し、前記仮想代表文章を当該変形DTマトリクスに追加するとともに前記仮想代表文章のクラスタに属する文章を当該変形DTマトリクスから削除して次のクラスタリング処理に用いる新たなDTマトリクスを生成し、前記クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力し、
    前記表示処理ステップは、前記大分類データに基づいて、前記各クラスタリング処理で生成された各クラスタを示すクラスタシンボルと前記各クラスタ間の統合関係を示すリンクシンボルとを用いた木構造で前記大分類の結果を画面表示する
    ことを特徴とする文章分類方法。
  9. 複数の文章からなる文章集合と1つ以上の単語からなるタームを複数有するタームリストとを含む各種処理情報を記憶する記憶部と、前記処理情報に対して任意の情報演算処理を行う演算処理部と、この演算処理部での処理結果を画面表示する画面表示部とを有し、前記演算処理部により、前記各文章を前記タームリストに基づき分類する文章分類装置のコンピュータに、
    前記各文章と前記各タームとの関係を2次元表現したDTマトリクスを生成するDTマトリクス生成ステップと、
    グラフ理論で用いられるDM分解法に基づいて前記DTマトリクス生成ステップで得られたDTマトリクスを変形することにより、変形DTマトリクスを生成するDTマトリクス変形ステップと、
    変形DTマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表文章生成ステップと、
    前記DTマトリクス生成ステップで生成したDTマトリクスを初期状態として用い、所定のクラスタリング処理をステップとして繰り返し行うことにより前記文章の大分類を生成する大分類生成ステップと、
    前記大分類の大分類を前記画面表示部で画面表示する表示処理ステップとを実行させ、
    前記大分類生成ステップは、前記クラスタリング処理として、前記DTマトリクス変形ステップでDTマトリクスから生成された変形DTマトリクス上のクラスタごとに前記仮想代表文章生成ステップで仮想代表文章を生成し、前記仮想代表文章を当該変形DTマトリクスに追加するとともに前記仮想代表文章のクラスタに属する文章を当該変形DTマトリクスから削除して次のクラスタリング処理に用いる新たなDTマトリクスを生成し、前記クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力し、
    前記表示処理ステップは、前記大分類データに基づいて、前記各クラスタリング処理で生成された各クラスタを示すクラスタシンボルと前記各クラスタ間の統合関係を示すリンクシンボルとを用いた木構造で前記大分類の結果を画面表示する
    ことを特徴とするプログラム。
JP2005180362A 2005-06-21 2005-06-21 文章分類装置、文章分類方法、およびプログラム Pending JP2007004233A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005180362A JP2007004233A (ja) 2005-06-21 2005-06-21 文章分類装置、文章分類方法、およびプログラム
US11/448,533 US7584189B2 (en) 2005-06-21 2006-06-06 Sentence classification device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005180362A JP2007004233A (ja) 2005-06-21 2005-06-21 文章分類装置、文章分類方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2007004233A true JP2007004233A (ja) 2007-01-11

Family

ID=37574624

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005180362A Pending JP2007004233A (ja) 2005-06-21 2005-06-21 文章分類装置、文章分類方法、およびプログラム

Country Status (2)

Country Link
US (1) US7584189B2 (ja)
JP (1) JP2007004233A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198111A (ja) * 2010-03-19 2011-10-06 Toshiba Corp 特徴語抽出装置及びプログラム
JP2018206343A (ja) * 2017-06-01 2018-12-27 富士ゼロックス株式会社 データ内の同格化した関係を視覚的に調査するためのシステム、関係のデータを視覚化する方法、プログラム、及びコンピュータ装置

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4382526B2 (ja) * 2003-07-01 2009-12-16 株式会社山武 文章分類装置および方法
JP5440177B2 (ja) * 2007-12-21 2014-03-12 日本電気株式会社 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US9298722B2 (en) * 2009-07-16 2016-03-29 Novell, Inc. Optimal sequential (de)compression of digital data
US20110173132A1 (en) * 2010-01-11 2011-07-14 International Business Machines Corporation Method and System For Spawning Smaller Views From a Larger View
US8782734B2 (en) * 2010-03-10 2014-07-15 Novell, Inc. Semantic controls on data storage and access
US8832103B2 (en) 2010-04-13 2014-09-09 Novell, Inc. Relevancy filter for new data based on underlying files
US9396540B1 (en) 2012-03-28 2016-07-19 Emc Corporation Method and system for identifying anchors for fields using optical character recognition data
US9069768B1 (en) * 2012-03-28 2015-06-30 Emc Corporation Method and system for creating subgroups of documents using optical character recognition data
US10915557B2 (en) * 2013-01-31 2021-02-09 Walmart Apollo, Llc Product classification data transfer and management
US9740771B2 (en) 2014-09-26 2017-08-22 International Business Machines Corporation Information handling system and computer program product for deducing entity relationships across corpora using cluster based dictionary vocabulary lexicon
JP6772478B2 (ja) * 2016-02-19 2020-10-21 富士ゼロックス株式会社 情報検索プログラム及び情報検索装置
CN106484139B (zh) * 2016-10-19 2019-01-29 北京新美互通科技有限公司 表情符号推荐方法及装置
CN110837735B (zh) * 2019-11-17 2023-11-03 内蒙古中媒互动科技有限公司 一种数据智能分析识别方法及系统
US11861301B1 (en) 2023-03-02 2024-01-02 The Boeing Company Part sorting system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312501A (ja) * 2000-04-28 2001-11-09 Mitsubishi Electric Corp 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003044491A (ja) * 2001-07-30 2003-02-14 Toshiba Corp 知識分析システムならびに同システムにおける分析条件設定方法、分析条件保存方法および再分析処理方法
JP2005038386A (ja) * 2003-07-01 2005-02-10 Yamatake Corp 文章分類装置および方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3581249B2 (ja) * 1997-06-10 2004-10-27 株式会社東芝 半導体不良ビット救済処理方法及び半導体不良ビット救済処理装置
EP1138038B1 (en) * 1998-11-13 2005-06-22 Lernout & Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
US7574362B2 (en) * 2001-03-14 2009-08-11 At&T Intellectual Property Ii, L.P. Method for automated sentence planning in a task classification system
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
JP4116329B2 (ja) 2002-05-27 2008-07-09 株式会社日立製作所 文書情報表示システム、文書情報表示方法及び文書検索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312501A (ja) * 2000-04-28 2001-11-09 Mitsubishi Electric Corp 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003044491A (ja) * 2001-07-30 2003-02-14 Toshiba Corp 知識分析システムならびに同システムにおける分析条件設定方法、分析条件保存方法および再分析処理方法
JP2005038386A (ja) * 2003-07-01 2005-02-10 Yamatake Corp 文章分類装置および方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198111A (ja) * 2010-03-19 2011-10-06 Toshiba Corp 特徴語抽出装置及びプログラム
JP2018206343A (ja) * 2017-06-01 2018-12-27 富士ゼロックス株式会社 データ内の同格化した関係を視覚的に調査するためのシステム、関係のデータを視覚化する方法、プログラム、及びコンピュータ装置

Also Published As

Publication number Publication date
US7584189B2 (en) 2009-09-01
US20060288029A1 (en) 2006-12-21

Similar Documents

Publication Publication Date Title
JP2007004233A (ja) 文章分類装置、文章分類方法、およびプログラム
JP4382526B2 (ja) 文章分類装置および方法
US11853903B2 (en) SGCNN: structural graph convolutional neural network
US7444325B2 (en) Method and system for information extraction
US11132385B2 (en) Information processing device and information processing method
JP5834883B2 (ja) 因果関係要約方法、因果関係要約装置及び因果関係要約プログラム
Regenwetter et al. BIKED: A dataset for computational bicycle design with machine learning benchmarks
KR20160067102A (ko) 모순 표현 수집장치 및 그를 위한 컴퓨터 프로그램
US20060161569A1 (en) Method and system to identify records that relate to a pre-defined context in a data set
Gove et al. New guidance for using t-SNE: Alternative defaults, hyperparameter selection automation, and comparative evaluation
Escobar et al. Network coincidence analysis: the netCoin R package
Liu et al. Aggregated dendrograms for visual comparison between many phylogenetic trees
JP5141152B2 (ja) テキスト解析プログラム、テキスト解析方法、およびテキスト解析装置
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
JP5132667B2 (ja) 情報処理装置およびプログラム
Asha et al. Analysing the associations between infected genes using data mining techniques
JP5087518B2 (ja) 評価装置、及び、コンピュータプログラム
Poulet et al. Interactive decision tree construction for interval and taxonomical data
Dang et al. MultiLayerMatrix: visualizing large taxonomic datasets
KR20210023453A (ko) 리뷰 광고 매칭 장치 및 방법
EP1681643B1 (en) Method and system for information extraction
JP2019174947A (ja) 視覚化装置、方法およびプログラム
Liu et al. Interactive visual decision tree classification
US20230215207A1 (en) Geographic management of document content
JP7034453B1 (ja) 情報解析装置、情報解析方法および情報解析用プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110805

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120313