JP2005038386A - 文章分類装置および方法 - Google Patents

文章分類装置および方法 Download PDF

Info

Publication number
JP2005038386A
JP2005038386A JP2004053419A JP2004053419A JP2005038386A JP 2005038386 A JP2005038386 A JP 2005038386A JP 2004053419 A JP2004053419 A JP 2004053419A JP 2004053419 A JP2004053419 A JP 2004053419A JP 2005038386 A JP2005038386 A JP 2005038386A
Authority
JP
Japan
Prior art keywords
sentence
matrix
classification
cluster
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004053419A
Other languages
English (en)
Other versions
JP4382526B2 (ja
Inventor
Eiji Murakami
英治 村上
Takao Terano
隆雄 寺野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Azbil Corp
Original Assignee
Azbil Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Azbil Corp filed Critical Azbil Corp
Priority to JP2004053419A priority Critical patent/JP4382526B2/ja
Priority to PCT/JP2004/009341 priority patent/WO2005004004A1/ja
Priority to US10/563,311 priority patent/US7567954B2/en
Publication of JP2005038386A publication Critical patent/JP2005038386A/ja
Application granted granted Critical
Publication of JP4382526B2 publication Critical patent/JP4382526B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Abstract

【課題】 比較的少ない作業負担で、主観にとらわれることなく柔軟に分類できるようにする。
【解決手段】 DTマトリクス生成手段11で、文章集合21内の各文章Dとタームリスト22内の各タームTとからDTマトリクス11Aを生成し、DTマトリクス変形手段12で、そのDTマトリクス11AをDM分解して変形DTマトリクス11Bを生成する。そして文章分類手段13で、変形DTマトリクス11B上に現れる各クラスタごとに、当該クラスタに属する各文章Dを1つの分類(部分集合)として抽出出力する。
【選択図】 図1

Description

本発明は、文章分類装置および方法に関し、特に文章の内容に応じて各文章を分類する文章分類装置および方法に関するものである。
高度情報化社会では、情報処理技術や情報通信技術の発展に伴い、電子化された膨大な量の情報を容易に入手できる環境が提供されつつある。このような環境を利用して入手した情報は、そのデータ量も膨大となるため、所望する情報を効率よくかつ正確に把握する必要がある。
情報の内容を解析する技術として、各情報を構成する文章の内容に応じて各文章を分類する技術が研究されている。
従来、文章を分類する技術として、予め各分類の内容を示すラベルを用意し、各文章の内容を所定のアルゴリズムで解析し、用意した各ラベルごとにそれぞれの文章を分類するものが提案されている(例えば、非特許文献1など参照)。
このような技術は、文章の分類に際し、予め各分類の内容を示すラベルを用意し、各種の学習アルゴリズムを用いて、これらラベルを各文章に対して精度よく割り当てることにより、各文章をラベルごとに分類しようとするものである。
なお、出願人は、本明細書に記載した先行技術文献情報で特定される先行技術文献以外には、本発明に関連する先行技術文献を出願時までに発見するには至らなかった。
永田昌明他,「テキスト分類−学習論理の見本市−」,情報処理,42巻1号,2001年1月 北研二他,「情報検索アルゴリズム」,共立出版,2002年
しかしながら、このような従来の文章分類技術では、予めラベルを用意する必要があるため、分類対象となる各文章の内容をある程度把握して適切なラベルを選択して設定しておく必要がある。したがって、このラベル選択に際し、文章量が多くその内容が広範囲にわたる場合には大きな作業負担を要するという問題点があった。また、分類に用いるラベルは主観的に選択されることから、得られる分類そのものが限定的となり、想定しうる範囲を超えた新たな観点から文章を分類できないという問題点があった。
本発明はこのような課題を解決するためのものであり、比較的少ない作業負担で、主観にとらわれることなく柔軟に分類できる文章分類装置および方法を提供することを目的としている。
このような目的を達成するために、本発明にかかる文章分類装置は、文章集合に含まれる複数の文章を、1つ以上の単語からなるタームを複数有するタームリストに基づき分類する文章分類装置において、各文章と各タームとの関係を2次元表現したDTマトリクスを生成するDTマトリクス生成手段と、グラフ理論で用いられるDM分解法に基づいてDTマトリクス生成手段で得られたDTマトリクスを変形することにより、変形DTマトリクスを生成するDTマトリクス変形手段と、このDTマトリクス変形手段で得られた変形DTマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する文章を同一分類として出力する文章分類手段とを備えるものである。
この際、任意のクラスタに属する各文章と強連結をなす各タームを、当該クラスタの分類を示すラベルとして出力するラベル生成手段をさらに設けてもよい。
あるいは、変形DTマトリクスでの文章の並び順序に応じて、任意のクラスタに属する文章またはすべての文章を順に出力する文章編成手段をさらに設けてもよい。
また、任意の文章を構成する各文のうち、当該文章と強連結をなすタームを含む文を、当該文章の要約として出力する要約作成手段をさらに設けてもよい。
また、タームリストに対して任意のタームを追加または削除するタームリスト編集手段と、このタームリスト編集手段による編集前後のタームリストを用いてDTマトリクス生成手段によりそれぞれDTマトリクスを生成し、これらDTマトリクスから当該編集の有用性を示す指標を生成して出力する指標生成手段とをさらに設けてもよい。
また、本発明にかかる文章分類方法は、文章集合に含まれる複数の文章を、1つ以上の単語からなるタームを複数有するタームリストに基づき分類する文章分類装置で用いられる文章分類方法において、各文章と各タームとの関係を2次元表現したDTマトリクスを生成するステップと、グラフ理論で用いられるDM分解法に基づいてDTマトリクスを変形することにより、変形DTマトリクスを生成するステップと、変形DTマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する文章を同一分類として出力するステップとを備えるものである。
この際、任意のクラスタに属する各文章と強連結をなす各タームを、当該クラスタの分類を示すラベルとして出力するステップをさらに設けてもよい。
あるいは、変形DTマトリクスでの文章の並び順序に応じて、任意のクラスタに属する文章またはすべての文章を順に出力するステップをさらに設けてもよい。
また、任意の文章を構成する各文のうち、当該文章と強連結をなすタームを含む文を、当該文章の要約として出力するステップをさらに設けてもよい。
また、タームリストに対して任意のタームを追加または削除するステップと、編集前後のタームリストを用いてそれぞれDTマトリクスを生成し、これらDTマトリクスから当該編集の有用性を示す指標を生成して出力するステップとをさらに設けてもよい。
また、本発明にかかる他の文章分類装置は、文章集合に含まれる複数の文章を、1つ以上の単語からなるタームを複数有するタームリストに基づき分類する文章分類装置において、各文章と各タームとの関係を2次元表現したDTマトリクスを生成するDTマトリクス生成手段と、グラフ理論で用いられるDM分解法に基づいてDTマトリクスを変形することにより、変形DTマトリクスを生成するDTマトリクス変形手段と、
変形DTマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表文章生成手段と、DTマトリクス生成手段で生成したDTマトリクスを初期状態としてクラスタリング処理を繰り返し行うことにより文章の大分類を生成する大分類生成手段とを備え、大分類生成手段で、クラスタリング処理として、DTマトリクス変形手段でDTマトリクスから生成された変形DTマトリクス上のクラスタごとに仮想代表文章生成手段で仮想代表文章を生成し、仮想代表文章を当該変形DTマトリクスに追加するとともに仮想代表文章のクラスタに属する文章を当該変形DTマトリクスから削除して次のクラスタリング処理に用いる新たなDTマトリクスを生成し、クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力する処理を行うようにしたものである。
この際、大分類生成手段で、クラスタリング処理で、変形DTマトリクスからクラスタが得られなくなった場合に、クラスタリング処理の繰り返しを終了するようにしてもよい。
また、クラスタリング処理で得られた各クラスタのうち、当該クラスタに仮想代表文章が含まれている場合は、その仮想代表文章と強連結をなすタームから、当該仮想代表文章の元のクラスタのラベルを生成する大分類ラベル生成手段をさらに設けてもよい。
また、本発明にかかる他の文章分類方法は、文章集合に含まれる複数の文章を、1つ以上の単語からなるタームを複数有するタームリストに基づき分類する文章分類装置で用いられる文章分類方法において、各文章と各タームとの関係を2次元表現したDTマトリクスを生成するDTマトリクス生成ステップと、グラフ理論で用いられるDM分解法に基づいてDTマトリクスを変形することにより、変形DTマトリクスを生成する変形DTマトリクス生成ステップと、変形DTマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表文章生成ステップと、DTマトリクス生成ステップで生成したDTマトリクスを初期状態としてクラスタリング処理を繰り返し行うことにより文章の大分類を生成する大分類生成ステップとを備え、大分類生成ステップとして、クラスタリング処理として、DTマトリクス変形ステップでDTマトリクスから生成された変形DTマトリクス上のクラスタごとに仮想代表文章生成ステップで仮想代表文章を生成するステップと、仮想代表文章を当該変形DTマトリクスに追加するとともに仮想代表文章のクラスタに属する文章を当該変形DTマトリクスから削除して次のクラスタリング処理に用いる新たなDTマトリクスを生成するステップと、クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力するステップとからなる処理を行うようにしてもよい。
この際、大分類生成ステップで、クラスタリング処理で、変形DTマトリクスからクラスタが得られなくなった場合に、クラスタリング処理の繰り返しを終了するようにしてもよい。
また、クラスタリング処理で得られた各クラスタのうち、当該クラスタに仮想代表文章が含まれている場合は、その仮想代表文章と強連結をなすタームから、当該仮想代表文章の元のクラスタのラベルを生成する大分類ラベル生成ステップをさらに設けてもよい。
本発明によれば、文章集合内の各文章とタームリスト内の各タームとから生成されたDTマトリクスがDM分解されて、得られた変形DTマトリクス上の各クラスタごとに、当該クラスタに属する各文章が1つの分類として抽出されるため、各分類に対応したラベルを予め用意することなく各文章を分類できる。
したがって、従来のように分類対象となる各文章の内容をある程度把握して適切なラベルを選択する必要がなくなることから、出現頻度など分類に直接関係のない尺度で選択した単語からタームを構成することができ、ラベル選択のための作業負担を大幅に軽減できる。
また、これらクラスタは、複数のタームを橋渡しとして関連付けられた複数の文章から構成されているため、同一タームを含む文章を1つの分類として抽出することができるだけでなく、これら文章内にほぼ共通して存在する他のタームについても、そのタームを含む文章を同一分類として抽出でき、内容に共通性や関連性のある文章を1つの分類として容易に抽出できる。
したがって、従来のように予め用意したラベルの有無のみに基づき文章を分類する場合と比較して、そのラベルに限定された主観的な分類ではなく、想定しうる範囲を超えた新たな観点から文章の内容や話題に沿って柔軟に分類を行うことができる。
次に、本発明の実施の形態について図面を参照して説明する。
[文章分類装置の構成]
まず、図1を参照して、本発明の一実施の形態にかかる文章分類装置について説明する。図1は本発明の一実施の形態にかかる文章分類装置の構成を示すブロック図である。
この文章分類装置1は、全体としてコンピュータからなり、制御部10、記憶部20、操作入力部30、画面表示部40、およびデータ入出力インターフェース部(以下、データ入出力I/F部という)50が設けられている。
制御部10は、CPUなどのマイクロプロセッサとその周辺回路からなり、記憶部20に予め格納されているプログラム(図示せず)を実行して、上記ハードウェアとプログラムとを協働させることにより、文章分類処理のための各種機能手段を実現する。
記憶部20は、ハードディスクやメモリなどの記憶装置からなり、制御部10での処理に用いる各種情報を格納する。これら情報としては、分類対象となる各文章からなる文章集合21、各文章の内容を把握するための複数の重要語からなるタームリスト22、さらには文章を大分類した結果を示す大分類データ23が記憶されている。
操作入力部30は、キーボードやマウスなどの入力装置からなり、利用者の操作を検出して制御部10へ出力する。
画面表示部40は、CRTやLCDなどの画面表示装置からなり、制御部10での処理内容や処理結果を表示出力する。
データ入出力I/F部50は、外部装置(図示せず)や通信ネットワーク(図示せず)と接続するための回路部であり、文章集合21、タームリスト22、大分類データ23のほか、得られた処理結果や制御部10で実行するプログラムをやり取りする際に用いられる。
制御部10には、機能手段として、DTマトリクス生成手段11、DTマトリクス変形手段12、文章分類手段13、ラベル生成手段14、文章編成手段15、要約作成手段16、タームリスト編集手段17、タームリスト生成手段18、指標生成手段19、大分類生成手段71、仮想代表生成手段72、および大分類ラベル生成手段73が設けられている。
本実施の形態において、DTマトリクスとは、各文章Dと各タームTとの関係を2次元的に表現した行列を指す。この際、上記関係は、文章D中におけるタームTの存在有無からなり、文章DとタームTとをそれぞれマトリクスの列と行に対応させ、ある文章DiがあるタームTjを含む場合には、DTマトリクスのj,i成分を「1」とし、含まない場合には「0」とすることにより、文章DとタームTの関係を表している。
さらに、このDTマトリクスを2部グラフの一表現形態と見なし、2部グラフのグラフ理論で用いられるDM分解法に基づきDTマトリクスを変形し、得られた変形DTマトリクス上に現れるクラスタに基づき、各文章Dを分類するようにしたものである。
DTマトリクス生成手段11は、分類対象となる各文章D(Document)とタームリスト22を構成する各タームT(Term)とからDT(Document-Term)マトリクスを生成する機能手段である。
DTマトリクス変形手段12は、DTマトリクス生成手段11で生成されたDTマトリクスをDM(Dulumage-Mendelsohn)分解法に基づき変形する機能手段である。
DM分解法とは、具体的には、DTマトリクスに対し、行操作(行同士を入れ替える操作)または列操作(列同士を入れ替える操作)を施して、三角行列化する処理である。この三角行列化されたDTマトリクスを変形DTマトリクスと呼ぶ。
文章分類手段13は、DTマトリクス変形手段12で得られた変形DTマトリクス上に現れるブロック化されたクラスタに基づき、文章集合21の各文章を分類する機能手段である。
ラベル生成手段14は、各クラスタごとに、当該クラスタに属する各文章Dと強連結の関係にあるタームTを、当該クラスタのラベルとして出力する機能手段である。
文章編成手段15は、変形DTマトリクスにおける文章Dの並び順に基づき、文章集合21の各文章を並び替えて出力する機能手段である。
要約作成手段16は、文章Dと強連結の関係にあるタームTを含む文を、当該文章Dの要約として出力する機能手段である。
タームリスト編集手段17は、操作入力部30からの操作に応じて、記憶部20のタームリスト22に対するタームTの追加/削除を行う機能手段である。
タームリスト生成手段18は、記憶部20の文章集合21に含まれる各文章Dを解析して、各文章Dの特徴を効果的に表現する語すなわち重要語を抽出し、これら重要語からなるタームTを用いてタームリスト22を生成する機能手段である。
指標生成手段19は、タームリスト編集手段17で編集されたタームリストについて、その編集前後におけるDTマトリクスに基づき当該編集による分類への影響を示す指標を生成する機能手段である。
大分類生成手段71は、DM分解法を用いたDTマトリクス変形手段12でのDTマトリクス変形処理をクラスタリング処理として繰り返し実行し、各クラスタリング処理で得られた変形DTマトリクスから得られたクラスタに基づき、文章集合21の各文章の大分類を生成する機能手段である。
仮想代表生成手段72は、大分類生成時に、変形DTマトリクスから得られたクラスタから、そのクラスタに含まれる文章を仮想的に代表する仮想代表文章を生成する機能手段である。
大分類ラベル生成手段73は、大分類生成手段71で生成された各クラスタすなわち大分類のラベルを生成する機能手段である。
[文章分類装置の動作]
次に、図2を参照して、本実施の形態にかかる文章分類装置の動作について説明する。図2は本実施の形態にかかる文章分類装置のDTマトリクス生成処理を示すフローチャートである。
制御部10は、操作入力部30からの指示に応じて、文章分類処理に用いるDTマトリクスを生成するため、図2のDTマトリクス生成処理を開始する。
まず、DTマトリクス生成手段11は、記憶部20に格納されている文章集合21を読み込むとともに(ステップ100)、タームリスト22を読み込む(ステップ101)。
図3に文章集合21の構成例を示す。この例は、「ストレス」についてWeb上で多数の回答者に自由に文章を記述してもらったものを集計したものであり、各文章Dごとに当該文章Dを管理するための文章番号Diとその文章を記述した回答者の識別情報とが割り当てられている。
図4はタームリスト22の構成例である。このタームリスト22は、所定のアルゴリズムに基づき各文章Dを解析し、得られた重要語の種別とその前後関係とから各タームTを構成したものであり、各タームTごとに当該タームTを管理するターム番号Tjが割り当てられている。
各タームTは、2つの重要語のうち、前方に位置するキーワード前と後方に位置するキーワード後からなり、それぞれのキーワードごとにそのキーワードの内容を示す単語とその単語の品詞属性種別とが規定されている。また、各タームTには、後述するタームリスト生成処理により文章集合21から算出された、文章分類に用いる上での重みを示す重要度が対応付けられている。
例えばターム「1」は、「ストレス」と「解消」という2つのキーワードからなり、その位置関係は「ストレス」が前方に位置するものと規定されている。
DTマトリクス生成手段11は、文章集合21内の各文章について、あるしきい値以上の重要度を持ったタームリスト22の各タームTが存在するか否かチェックし、その結果からDTマトリクスを生成する(ステップ102)。
図5にDTマトリクスの構成例を示す。このDTマトリクス11Aは、行方向(縦方向)にタームTが並べられており、列方向(横方向)に文章Dが並べられている。そして、各文章DとタームTの交差位置に、当該文章DにおけるタームTの存在有無が2進数で記載されている。ここでは、文章DにタームTが存在する場合は「1」が設定され、存在しない場合は「0」が設定されている。
したがって、この例によれば、例えば文章D1には、タームT4,T7が含まれていることがわかる。またタームT2は、文章D2,D4に含まれていることがわかる。
続いて、DTマトリクス変形手段12は、このようにしてDTマトリクス生成手段11で生成されたDTマトリクス11Aを、DM分解法に基づき変形して変形DTマトリクス11Bを生成し(ステップ103)、これを記憶部20に格納して、一連のマトリクス生成処理を終了する。
一般に、グラフ理論では、2つの集合に属するそれぞれの点とこれら点を結ぶ辺とからなる2部グラフを、各点間の関連性に基づき分離する手法として、DM分解法が用いられる。
本実施の形態では、DTマトリクス11Aを、文章DからタームTへの辺により結びつけられた2部グラフの一表現形態と見なすことができることに着目し、グラフ理論におけるDM分解法をDTマトリクス11Aに適用し、得られた変形DTマトリクスに基づき文章Dを分類するようにしたものである。
[DM分解処理]
ここで、図6および図7を参照して、2部グラフにおけるDM分解処理について説明する。図6はDM分解処理を示すフローチャートである。図7はDM分解処理の過程を示す2部グラフである。以下では、文章DおよびタームTからなる2つの点集合と、これら点を結ぶ辺からなる2部グラフGを処理対象とし、これをDM分解法により複数のグラフに分離する場合を例として説明する。なお、これら処理では、制御部10内部のメモリまたは記憶部20から各種データを読み出して、制御部10で所定の演算を行い、その結果を再び記憶するという動作が繰り返し行われる。
まず、図7(a)に示すように、処理対象となる2部グラフGの各辺について、文章DからタームTへの有向辺を生成する(ステップ200)。そして、図7(b)に示すように、文章D側に点sを用意し、点sから文章Dの各点に対して有向辺を生成する(ステップ201)。同様にして、タームT側に点tを用意し、タームTの各点から点tに対して有向辺を生成する(ステップ202)。
次に、これら辺を介して点sから点tへ向かう経路を検索する(ステップ203)。例えば図7(b)では、辺250,251,252からなる経路を介して点sから点tへ向かうことができる。このような経路が存在する場合は(ステップ203:YES)、当該経路を構成する各辺を削除するとともに(ステップ204)、当該経路上の文章DからタームTへの有向辺とは逆向きの有向辺を、初期状態で空の2部グラフである最大マッチングMに生成し(ステップ205)、ステップ203へ戻って次の経路を検索する。図7(c)では、有向辺251に対応する逆向きの有向辺253が最大マッチングMに生成されている。
ステップ203において、すべての経路の検索が終了して新たな経路が検索されなかった場合(ステップ203:NO)、最大マッチングMが完成したことになる。
このようにして、図7(d)に示すような最大マッチングMを完成させた後、最大マッチングMに属する各有向辺254を処理対象Gへ含める(ステップ206)。これにより、図7(e)に示すように、処理対象Gにおいて、最大マッチングMとして選択された辺255については、文章DからタームTへの有向辺とその逆方向の有向辺とから構成されることになる。
次に、タームTの各点のうち最大マッチングMに用いられなかった点、例えば自由点256を選択し(ステップ207)、処理対象Gの各辺を介して当該自由点256に到達可能な点の集合をクラスタ260とする(ステップ208)。
同様にして、文章Dの各点のうち最大マッチングMに用いられなかった点、例えば自由点257を選択し(ステップ209)、処理対象Gの各辺を介して当該自由点257に到達可能な点の集合をクラスタ262とする(ステップ210)。
そして、残りの文章DおよびタームTの各点のうち、双方向に到達可能な経路を有する点集合すなわち強連結をなす点集合をクラスタ261とし(ステップ211)、一連のDM分解処理を終了する。
このようにして、公知のDM分解法では、各クラスタが所定の順序で生成され、三角行列化された変形DTマトリクスが得られる。
制御部10では、以上のようにして、図2のDTマトリクス生成処理を実行することにより、DTマトリクス生成手段11で文章集合21とタームリスト22とからDTマトリクス11Aを生成するとともに、DTマトリクス変形手段12でDTマトリクスに対して図6のDM分解処理を適用することにより、各文章Dがクラスタごとに分離された変形DTマトリクス11Bを生成する。
図8にDTマトリクス11Aと変形DTマトリクス11Bの例を示す。ここでは、各文章Di内においてタームTjが存在する場合、列方向(横方向)に配置された文章Diと行方向(縦方向)に配置されたタームTiとの交点にドットが配置されており、タームTjが存在しない場合は空白となっている。図8(a)のDTマトリクス11Aでは、ドットがランダムに分布しているが、図8(b)の変形DTマトリクス11Bでは、ドットが断片的ではあるが斜め方向に連続して密集しており、この部分270にクラスタが並んでいることがわかる。また、変形DTマトリクス11Bでは、左下側にドットが存在せず、右上側にドットが多く存在しており、上三角行列化されていることがわかる。
[文章分類処理]
文章分類装置1の制御部10では、文章集合21を分類する場合、まず前述のDTマトリクス生成処理(図2参照)を実行した後、図9の文章分類処理を実行する。図9は文章分類処理を示すフローチャートである。
まず、文章分類手段13は、DTマトリクス変形手段12で生成した変形DTマトリクス11B上にブロック化されて現れた各クラスタを識別する(ステップ110)。この際、各クラスタについては、変形DTマトリクス11Bを生成した際に分離した部分グラフに基づき識別してもよく、変形DTマトリクス11B上のデータ(ドット)の並びから識別してもよい。
図10に文章分類処理の説明図を示す。この例では、変形DTマトリクス11B上にクラスタ60が存在している。このクラスタ60は、2部グラフで表現した場合の部分グラフ61をなしており、他の文章やタームと関連性が小さい。なお、クラスタ境界が明確な完全グラフをなす場合もある。変形DTマトリクス11Bでは、列方向(横方向)に文章Dが並んでおり、クラスタ60の列方向に並ぶ文章DすなわちD363,D155,D157,D5,D13,D8が、このクラスタ60に属する文章Dとなる。
文章分類手段13は、識別された各クラスタに属する各文章からなる部分集合62を1つの分類として、文章集合21から抽出して分類し(ステップ111)、その結果を例えば画面表示部40で表示出力し、あるいは記憶部20へ格納して、一連の文章分類処理を終了する。
このように、本実施の形態では、変形DTマトリクス11B上でブロック化されたクラスタごとに、当該クラスタに属する各文章を1つの分類として抽出出力するようにしたので、各分類に対応したラベルを予め用意することなく各文章を分類できる。
したがって、従来のように分類対象となる各文章の内容をある程度把握して適切なラベルを選択する必要がなくなることから、出現頻度など分類に直接関係のない尺度で選択した単語からタームを構成することができ、ラベル選択のための作業負担を大幅に軽減できる。
また、これらクラスタは、複数のタームを橋渡しとして関連付けられた複数の文章から構成されているため、同一タームを含む文章を1つの分類として抽出することができるだけでなく、これら文章内にほぼ共通して存在する他のタームについても、そのタームを含む文章を同一分類として抽出でき、内容に共通性や関連性を持つ文章を1つの分類として容易に抽出できる。
したがって、従来のように予め用意したラベルの有無のみに基づき文章を分類する場合と比較して、そのラベルに限定された主観的な分類ではなく、想定しうる範囲を超えた新たな観点から文章の内容や話題に沿って柔軟に分類を行うことができる。
[ラベル生成処理]
文章分類装置1の制御部10では、文章分類手段13で分類された各文章の分類ごとにラベルを生成する場合、まず前述のDTマトリクス生成処理(図2参照)および文章分類処理(図9参照)を実行した後、図11のラベル生成処理を実行する。図11はラベル生成処理を示すフローチャートである。
まず、ラベル生成手段14は、ラベルを生成する対象となる分類すなわちクラスタに属する各文章Dについて、これら文章Dと強連結の関係にあるタームTを変形DTマトリクス11Bから選択する(ステップ120)。
図12にラベル生成処理の説明図を示す。この例では、任意の分類に属する文章を示す部分集合62について、各文章Dと強連結の関係にあるタームT(63)がそれぞれ選択されている。なお、強連結とは、変形DTマトリクス11Bで各文章Dをクラスタごとに分類した際、その2部グラフにおいて、文章DとタームTとが互いに双方向の辺で結ばれたペアをいう。通常、これら強連結をなす文章DとタームTとは、変形マトリクス上の当該クラスタにおいて対角線上に並ぶ。
次に、選択した各タームTの単語を当該分類のラベル64として出力し(ステップ121)、その結果を例えば画面表示部40で表示出力し、あるいは記憶部20へ格納して、一連のラベル生成処理を終了する。
このように、本実施の形態では、対象となる分類のクラスタに属する各文章と強連結の関係にあるタームTを、当該分類のラベルとして出力するようにしたので、本実施の形態のように予め用意されたラベルに基づき文章を分類するものではない場合でも、各分類の特徴を単語で表現した適切なラベルを容易に生成できる。
[文章編成処理]
文章分類装置1の制御部10では、各文章Dの並びを編成する場合、まず前述のDTマトリクス生成処理(図2参照)を実行した後、図13の文章編成処理を実行する。図13は文章編成処理を示すフローチャートである。
まず、文章編成手段15は、変形DTマトリクス11B上での並びに基づき、各文章Dを並び替える(ステップ130)。
図14に文章編成処理の説明図を示す。前述したように、DTマトリクスをDM分解法により変形して得られた変形DTマトリクス11Bにおいて、各文章DはタームTを仲立ちとして互いに関連性の高いものが隣接して並んでいる。
文章編成手段15は、このような変形DTマトリクス11Bに基づき並び変えられた文章Dを編成し、編成された各文章65を出力し(ステップ131)、その結果を例えば画面表示部40で表示出力し、あるいは記憶部20へ格納して、一連の文章編成処理を終了する。
特に、変形DTマトリクス11Bには、文章DおよびタームTの並びに所定の半順序が存在する。例えば、DTマトリクス11Aは、タームTを変数とする文章Dの線形連立方程式を示す行列と見なすことができ、変形DTマトリクス11Bは、これら各方程式の解Gが求まる順序にほぼ沿った順序で文章Dが並び替えられた結果を示している。このことからも、変形DTマトリクス11B上の文章Dの並びには、前後の文章Dとの関連性が高いことがわかる。
このように、本実施の形態では、変形DTマトリクス上の文章Dの並びに基づき、各文章Dを並び替えて出力するようにしたので、共通のタームすなわち単語を持った関連性の高い文章が順に得られることになり、前後の文章Dと話題の共通性が得られる。したがって、内容が類似した文章が前後に並べられていることから、アトランダムに文章Dを読む場合と比較して、文脈が途切れることなく読むことができクラスタさらには文章集合全体の内容を容易に把握できる。
この際、任意のクラスタすなわち分類に含まれる各文章Dを文章編成の対象として1つの文章を生成してもよく、文章集合21に含まれるすべての文章Dを文章編成の対象として1つの文章を生成してもよい。
[要約作成処理]
文章分類装置1の制御部10では、複数の文からなる任意の文章Dの要約を作成する場合、前述のDTマトリクス生成処理(図2参照)を実行した後、図15の要約作成処理を実行する。図15は要約作成処理を示すフローチャートである。
まず、要約作成手段16は、対象となる文章Dについて、前述したラベル生成処理と同様にして、その文章Dと強連結の関係にあるタームTを変形DTマトリクス11Bから選択する(ステップ140)。
図16に要約作成処理の説明図を示す。通常、文章D(66)は、複数の文から構成されており、これら文のいずれかに文章Dと強連結のタームT(67)が含まれていることになる。この際、このタームTは文章Dの特徴を示していることになる。
要約作成手段16は、このタームTを含む文を当該文章Dから選択して、これら文を当該文章Dの要約68として出力し(ステップ141)、その結果を例えば画面表示部40で表示出力し、あるいは記憶部20へ格納して、一連の要約作成処理を終了する。
このように、本実施の形態によれば、対象となる文章Dと強連結の関係にあるタームTに基づいて、そのタームを含む文を当該文章Dの要約として出力するようにしたので、文章Dの要約を極めて容易にかつ適切に作成できる。
[タームリスト生成処理]
タームリスト生成手段18は、文章集合21からタームリスト22を自動生成するものである。
文章からその文章を特徴付ける重要語を抽出する方法として、各種のアルゴリズムが提案されている。例えば、各単語の重要度を算出し、その重要度に基づき重要語を選択するTFIDF(Term Frequency Inverse Document Frequency)などのアルゴリズムを用いてもよい。あるいは、言語学的な解釈に基づかないフレーズ(共起語)を、辞書を用いることなく抽出するKeyGraphというアルゴリズムを用いてもよい(例えば、非特許文献2など参照)。
タームリスト生成手段18では、このような公知のアルゴリズムを用いてタームリスト22を生成する。本実施の形態では、これら単語を特定するため、各単語の品詞属性を形態素解析により予め求めておき、単語のとの品詞属性をペアとして重要語を構成している。また、本実施の形態では、2つの重要語の出現順序を規定したものをタームとして定義しており、これにより文章の内容をより適切にタームで表現可能となっている。
なお、このタームリスト22については、タームリスト編集手段17で、操作入力部30からの指示に基づき生成してもよく、データ入出力I/F部50を介して予め用意されたものを装置外部から入力するようにしてもよい。
[指標生成処理]
タームリスト22は、変形DTマトリクス11Bを生成して文章を分類する上で重要なファクタとなることから、タームリスト編集手段17で、このタームリストを編集可能としている。
本実施の形態では、編集されたタームリストについて、制御部10の指標生成手段19により客観的な評価値を算出し、その編集に対する指標を生成する。以下、図17を参照して、指標生成手段19における指標生成処理について説明する。図17は指標生成処理を示すフローチャートである。
まず、タームリスト編集手段17により、タームリスト22についてタームTkを追加または削除し、新たなタームリストが生成されたものとする(ステップ150)。指標生成手段19では、編集前後のタームリストのそれぞれについて、DTマトリクス生成手段11によりDTマトリクスを生成し(ステップ151)、各DTマトリクスごとに平均文章類似度Qを算出する(ステップ152)。
平均文章類似度Qは、2つの文章Di,Dj間の類似度sim(Di,Dj)をすべての文章間について算出し平均したものであり、文章Dの数をNとした場合、Qは次の数1で算出される。
Figure 2005038386
この際、類似度sim(Di,Dj)は、当該変形DTマトリクスに基づき、文章Di,Djにおける各タームTの有無を0/1で示すベクトルをX,Yとした場合、例えば数2〜数4により算出される。特に、数2はベクトルX,Yの内積を類似度とするもの、数3はベクトルX,YのDice係数を類似度とするもの、数4はベクトルX,YのJaccard係数を類似度とするものである。
Figure 2005038386
Figure 2005038386
Figure 2005038386
このようにして、指標生成手段19は、編集前のタームリストから生成されたDTマトリクスに基づき平均文章類似度Qを算出するとともに、編集後のタームリストから生成されたDTマトリクスに基づき平均文章類似度Qkを算出して、これらの差ΔQを数5で算出し、指標値として画面表示部40から表示出力する(ステップ153)。
Figure 2005038386
ここで、差ΔQがゼロより大きい場合は(ステップ154:YES)、編集後のタームリストから生成されたDTマトリクスのほうが、各文章の類似度が大きくなり、各文章が効果的に分類できることから、当該編集は有効である旨を画面表示部40へ表示出力し(ステップ155)、一連の指標生成処理を終了する。
また、ステップ154において、差ΔQがゼロ以下の場合は(ステップ154:NO)、編集後のタームリストから生成されたDTマトリクスのほうが、各文章の類似度が小さくなり、各文章が効果的に分類できないことから、当該編集は無効である旨を画面表示部40へ表示出力し(ステップ156)、一連の指標生成処理を終了する。
なお、指標としては、ΔQだけを表示出力して作業者に編集の有効性を判断させるようにしてもよい。また当該編集に対する有効/無効だけを表示出力してもよい。
このように、本実施の形態では、指標生成手段19により、編集前後のタームリストから生成されたDTマトリクスに基づき平均文章類似度Qを算出し、その変化により当該編集の有効性を示す指標を生成するようにしたので、タームリスト22に対する編集の有効性を容易に把握することができる。したがって、容易かつ適切にタームリストを編集でき、この編集により所望の意図や目的に応じて効率よく文章を分類することができる。
また、DTマトリクスから得られた平均文章類似度に基づき指標を生成するようにしたので、文章を分類する必要がなくなり指標生成に要する処理を簡素化できる。したがって、当該編集に対する有効/無効を迅速に判断でき、タームリストの編集に要する作業負担を大幅に軽減できる。
なお、平均文章類似度Qを用いて当該編集に対する有効/無効を判断する場合について説明したが、これに限定されるものではない。例えば文章を分類した結果、例えば分類数や1分類に属する文章数などに基づき当該編集に対する有効/無効を判断するようにしてもよい。
[大分類生成処理]
次に、図18を参照して、本発明の一実施の形態にかかる文章分類装置での大分類生成処理について説明する。図18は、本発明の一実施の形態にかかる文章分類装置での大分類生成処理を示すフローチャートである。
以上では、各文章と各タームとの関係を2次元表現したDTマトリクスを生成し、グラフ理論で用いられるDM分解法に基づいてそのDTマトリクスを変形し、得られた変形DTマトリクス上で識別されたクラスタを用いて、各文章を分類する処理について説明した。
前述の分類処理では、各文章をクラスタごとに文章集合としてある程度分類できるものの、1つ以上のクラスタを含むより大きな分類すなわち大分類や、クラスタ間の階層的関係については対応できない。
ここでは、文章分類装置1の制御部10に設けた、大分類生成手段71、仮想代表生成手段72、および大分類ラベル生成手段73を用いて、各文章の大分類を生成する大分類生成処理について詳細に説明する。
制御部10は、操作入力部30からの指示に応じて、大分類生成手段71により、図18の大分類生成処理を開始する。
まず、大分類生成手段71は、DTマトリクス生成手段11を用いて、記憶部20に格納されている文章集合21とタームリスト22を読み込み、前述と同様のDTマトリクス生成処理を行うことにより、各文章と各タームとの関係を2次元表現したDTマトリクスを生成する(ステップ160)。
次に、大分類生成手段71は、DTマトリクス変形手段12を用いて、グラフ理論におけるDM分解法を上記DTマトリクスに適用し、前述と同様にして各文章がクラスタごとに分離された変形DTマトリクス11Bを生成する(ステップ161)。
そして、大分類生成手段71は、前述した文章分類手段13と同様にして、得られた変形DTマトリクス上でブロック化された各クラスタを識別する(ステップ162)。
ここで、新たなクラスタが識別された場合は(ステップ163:YES)、仮想代表生成手段72を用いて、新たなクラスタごとにそのクラスタを仮想的に代表する仮想代表文章を生成する。
仮想代表生成手段72では、まず、新たなクラスタに属する各文章の特徴量を取得し、これら特徴量の和集合から仮想代表文章を生成する。例えば、各文章の特徴量Kiが数6のように、1つ以上の特徴量k1〜knで表現される場合、仮想代表文章K’は、数7で得られる。
Figure 2005038386
Figure 2005038386
この際、例えば特徴量として前述のようにタームを用いる場合、仮想代表文章は、新たなクラスタに属する各文章が持つタームをすべて含む和集合となり、その内容は、各タームを構成するキーワードの羅列から構成される。
大分類生成手段71は、仮想代表生成手段72により、上記のようにして新たなクラスタごとにその仮想代表文章を生成して新たな文章番号を付与し(ステップ164)、これら仮想代表文章を他の実際の文章(実文章)と同様の文章として変形DTマトリクスへ追加するとともに(ステップ165)、新たなクラスタに属する各文章を変形DTマトリクスから削除する(ステップ166)。
これにより、変形DTマトリクス上では、仮想代表文章とこれに含まれる各タームとの交点にドットが追加配置されるとともに、元の各文章に対応するドットが削除され、新たなクラスタを構成する各文章が仮想代表文章で置換された新たなDTマトリクスが生成される。
この後、大分類生成手段71は、新たなクラスタの構成、例えば当該クラスタを構成する各文章に関する情報として、例えば当該クラスタに属する実文章や仮想代表文章の文章番号、さらにはそのステップ数などを大分類データ23として出力し記憶部20へ格納する(ステップ167)。そして、大分類ラベル生成手段73を用いて、新たなクラスタに含まれていた仮想代表文章について、その元となるクラスタに対して後述の大分類ラベル生成処理を行う(ステップ168)。
このようにして、ステップ161〜168までを1ステップとして、DTマトリクスに対する変形処理により新たなクラスタを生成するとともに、そのクラスタをその仮想代表文章で置換することにより新たなDTマトリクスを生成するクラスタリング処理を実行し、その後、ステップ161へ戻って、新たなDTマトリクスを用いたクラスタリング処理を繰り返し実行する。
これにより、クラスタリング処理の繰り返しステップで生成されたクラスタには、実文章だけでなく仮想代表文章すなわち他のクラスタも含まれることになり、各文章の大分類が得られることになる。
図19に、大分類生成処理の実行例を示す。ここでは初期状態として、記憶部20の文章集合21に文章a〜kが格納されているものとする。そして、1回目のクラスタリング処理であるステップS1で、文章a,bからクラスタ301が生成され、その仮想代表文章V1が生成されている。同様にして、文章c,dからクラスタ302が生成され、その仮想代表文章V2が生成されており、さらに文章e,fからクラスタ303が生成され、その仮想代表文章V3が生成されている。
これにより、ステップS1終了時点では、文章a,b,c,d,e,fがDTマトリクス上から削除され、文章g〜kと仮想代表文章V1,V2,V3からなる新たなDTマトリクスを用いたステップS2が実行される。
2回目のステップS2では、仮想代表文章V1と文章gからクラスタ304が生成され、その仮想代表文章V4が生成されている。
この際、図18のステップ168における大分類ラベル生成処理では、クラスタ304に仮想代表文章V1が含まれていることから、その仮想代表文章V1の元となるクラスタ301に対する大分類ラベルが生成される。
ここで、図20を参照して、大分類ラベル生成処理について説明する。大分類ラベル生成手段73は、まず、大分類生成処理における現在のステップが、新たなクラスタが見つからなかった最終ステップかどうか判断する(ステップ170)。
このとき、最終ステップでなければ(ステップ170:NO)、図18のステップ162で識別された新たなクラスタのうちから当該ラベル生成処理が未処理のクラスタを任意に1つ選択し(ステップ171)、そのクラスタに仮想代表文章が含まれているかどうか判断する(ステップ172)。なお、実文章と仮想代表文章とは、その文章番号などで識別すればよい。
ここで、仮想代表文章が含まれている場合にのみ(ステップ172:YES)、DTマトリクス上でその仮想代表文章と強連結しているタームのキーワードから、その仮想代表文章の元のクラスタのラベルを生成する(ステップ173)。
そして、当該ラベル生成処理が未処理のクラスタがあれば(ステップ174:NO)、ステップ171に戻って未処理クラスタに対するラベル生成処理ステップ171〜173を繰り返し実行し、各クラスタに対する処理が終了した時点で(ステップ174:YES)、一連の大分類生成処理を終了する。
また、ステップ170において、大分類生成処理における現在のステップが最終ステップであった場合は(ステップ170:YES)、その最終ステップの時点においてDTマトリクスを構成する各文章から、当該ラベル生成処理が未処理の仮想代表文章を任意に1つ選択し(ステップ180)、DTマトリクス上でその仮想代表文章と強連結しているタームのキーワードから、その仮想代表文章の元のクラスタのラベルを生成する(ステップ181)。
そして、当該ラベル生成処理が未処理の仮想代表文章があれば(ステップ182:NO)、ステップ180に戻って未処理の仮想代表文章に対するラベル生成処理ステップ180,181を繰り返し実行し、各仮想代表文章に対する処理が終了した時点で(ステップ182:YES)、一連の大分類生成処理を終了する。
したがって、図19のステップS2では、クラスタ304に仮想代表文章V1が含まれていることから、ステップS2の処理開始時点におけるDTマトリクス上でその仮想代表文章V1と強連結しているタームのキーワードから、その仮想代表文章V1の元のクラスタ301のラベルL1が生成される。
以下、同様にして、ステップS3では、仮想代表文章V2と文章hからクラスタ305が生成され、その仮想代表文章V5が生成されている。そして、仮想代表文章V2の元のクラスタ305のラベルL2が生成される。
次のステップS4では、仮想代表文章V4,V5と文章iからクラスタ306が生成されて、その仮想代表文章V6が生成されるとともに、仮想代表文章V3と文章jからクラスタ307が生成されて、その仮想代表文章V7が生成されている。そして、仮想代表文章V4の元のクラスタ304のラベルL4が生成されるとともに、仮想代表文章V5の元のクラスタ305のラベルL5が生成され、さらに仮想代表文章V3の元のクラスタ303のラベルL3が生成されている。
続くステップS5では、仮想代表文章V6と文章kからクラスタ308が生成されて、その仮想代表文章V8が生成されている。そして、仮想代表文章V6の元のクラスタ306のラベルL6が生成されている。
大分類生成手段71では、このようにしてクラスタリング処理(ステップ161〜168)を繰り返し実行し、図18のステップ163で新たなクラスタが見つからなかった場合は(ステップ163:NO)、最終ステップとして、大分類ラベルの付いていないクラスタに対する大分類ラベル生成処理を実行し(ステップ169)、一連の大分類生成処理を終了する。
これにより、図19の最終ステップでは、その時点のDTマトリクス上で、仮想代表文章V8と強連結しているタームのキーワードから、その仮想代表文章V8の元のクラスタ308のラベルL8が生成され、同様にして仮想代表V7の元のクラスタ307のラベルL7が生成される。
図22に、初期状態におけるDTマトリクスの生成例を示す。各文章Di内にタームTjが存在する場合、列方向(横方向)に配置された文章Diと行方向(縦方向)に配置されたタームTjとの交点にドットが配置されており、タームTjが存在しない場合は空白となっている。なお、このDTマトリクスのうち、エリア310には実文章が横軸に配置されており、エリア311は仮想代表文章の配置用のため初期状態では空白となっている。
図23に、最終ステップにおけるDTマトリクスの生成例を示す。この例では、大分類生成処理によりエリア310の実文章が削除されてほとんど空白となり、エリア311の仮想代表文章に置換されていることがわかる。
このように、DTマトリクスに対する変形処理により新たなクラスタを生成するとともに、そのクラスタをその仮想代表文章で置換することにより新たなDTマトリクスを生成するクラスタリング処理を繰り返し実行するようにしたので、新たなDTマトリクスから順次新たなクラスタ、すなわちクラスタを含むより大きなクラスタすなわち大分類が得られる。
これにより、記憶部20の大分類データ23として、図19に示されているように、各文章a〜kのみを要素とする分類、例えばクラスタ301〜303だけでなく、1つ以上のクラスタを含むより大きな分類すなわち大分類として、クラスタ304〜308が得られる。
さらに、上記クラスタリング処理をDTマトリクス上で新たなクラスタが識別されなくなるまで繰り返し実行するようにしたので、各文章からボトムアップ的に階層化クラスタリングが行われ、これらクラスタ301〜308間すなわち大分類間の階層的関係をツリー構造として可視化することができる。
なお、以上では、大分類生成処理(図18参照)で、大分類ラベル生成処理(ステップ168,169)を行う場合を例として説明したが、大分類ラベルが不要な場合は、大分類生成処理から大分類ラベル生成処理を省略してもよい。
また、大分類ラベル生成処理は、大分類生成処理と連携させて行う必要はなく、大分類生成処理が終了した後、必要に応じて大分類ラベル生成処理(図20参照)を独立して行ってもよい。
本発明の一実施の形態にかかる文章分類装置の構成を示すブロック図である。 DTマトリクス生成処理を示すフローチャートである。 文章集合の構成例である。 タームリストの構成例である。 DTマトリクスの構成例である。 DM分解処理を示すフローチャートである。 DM分解処理の過程を示す2部グラフである。 DTマトリクスおよび変形DTマトリクスの例である。 文章分類処理を示すフローチャートである。 文章分類処理を示す説明図である。 ラベル生成処理を示すフローチャートである。 ラベル生成処理を示す説明図である。 文章編成処理を示すフローチャートである。 文章編成処理を示す説明図である。 要約作成処理を示すフローチャートである。 要約作成処理を示す説明図である。 指標生成処理を示すフローチャートである。 大分類生成処理を示すフローチャートである。 大分類生成処理の実行例を示す説明図である。 大分類ラベル生成処理を示すフローチャートである。 DTマトリクスの生成例(初期状態)である。 DTマトリクスの生成例(最終ステップ)である。
符号の説明
1…文章分類装置、10…制御部、11…DTマトリクス生成手段、11A…DTマトリクス、11B…変形DTマトリクス、12…DTマトリクス変形手段、13…文章分類手段、14…ラベル生成手段、15…文章編成手段、16…要約作成手段、17…タームリスト編集手段、18…タームリスト生成手段、19…指標生成手段、20…記憶部、21…文章集合、22…タームリスト、30…操作入力部、40…画面表示部、50…データ入出力I/F部、60…クラスタ、61…部分グラフ、62…部分集合(分類文章)、63…強連結ターム、64…ラベル、65…編成された文章、66…文章、67…強連結ターム、68…要約、71…大分類生成手段、72…仮想代表文章生成手段、73…大分類ラベル生成手段。

Claims (16)

  1. 文章集合に含まれる複数の文章を、1つ以上の単語からなるタームを複数有するタームリストに基づき分類する文章分類装置において、
    前記各文章と前記各タームとの関係を2次元表現したDTマトリクスを生成するDTマトリクス生成手段と、
    グラフ理論で用いられるDM分解法に基づいて前記DTマトリクス生成手段で得られたDTマトリクスを変形することにより、変形DTマトリクスを生成するDTマトリクス変形手段と、
    このDTマトリクス変形手段で得られた変形DTマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する文章を同一分類として出力する文章分類手段とを備えることを特徴とする文章分類装置。
  2. 請求項1に記載の文章分類装置において、
    任意の前記クラスタに属する各文章と強連結をなす各タームを、当該クラスタの分類を示すラベルとして出力するラベル生成手段をさらに備えることを特徴とする文章分類装置。
  3. 請求項1に記載の文章分類装置において、
    前記変形DTマトリクスでの文章の並び順序に応じて、任意の前記クラスタに属する文章またはすべての文章を順に出力する文章編成手段をさらに備えることを特徴とする文章分類装置。
  4. 請求項1に記載の文章分類装置において、
    任意の前記文章を構成する各文のうち、当該文章と強連結をなすタームを含む文を、当該文章の要約として出力する要約作成手段をさらに備えることを特徴とする文章分類装置。
  5. 請求項1に記載の文章分類装置において、
    前記タームリストに対して任意のタームを追加または削除するタームリスト編集手段と、
    このタームリスト編集手段による編集前後のタームリストを用いて前記DTマトリクス生成手段によりそれぞれDTマトリクスを生成し、これらDTマトリクスから当該編集の有用性を示す指標を生成して出力する指標生成手段とをさらに備えることを特徴とする文章分類装置。
  6. 文章集合に含まれる複数の文章を、1つ以上の単語からなるタームを複数有するタームリストに基づき分類する文章分類装置で用いられる文章分類方法において、
    前記各文章と前記各タームとの関係を2次元表現したDTマトリクスを生成するステップと、
    グラフ理論で用いられるDM分解法に基づいて前記DTマトリクスを変形することにより、変形DTマトリクスを生成するステップと、
    前記変形DTマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する文章を同一分類として出力するステップとを備えることを特徴とする文章分類方法。
  7. 請求項6に記載の文章分類方法において、
    任意の前記クラスタに属する各文章と強連結をなす各タームを、当該クラスタの分類を示すラベルとして出力するステップをさらに備えることを特徴とする文章分類方法。
  8. 請求項6に記載の文章分類方法において、
    前記変形DTマトリクスでの文章の並び順序に応じて、任意の前記クラスタに属する文章またはすべての文章を順に出力するステップをさらに備えることを特徴とする文章分類方法。
  9. 請求項6に記載の文章分類方法において、
    任意の前記文章を構成する各文のうち、当該文章と強連結をなすタームを含む文を、当該文章の要約として出力するステップをさらに備えることを特徴とする文章分類方法。
  10. 請求項6に記載の文章分類方法において、
    前記タームリストに対して任意のタームを追加または削除するステップと、
    編集前後のタームリストを用いてそれぞれDTマトリクスを生成し、これらDTマトリクスから当該編集の有用性を示す指標を生成して出力するステップとをさらに備えることを特徴とする文章分類方法。
  11. 文章集合に含まれる複数の文章を、1つ以上の単語からなるタームを複数有するタームリストに基づき分類する文章分類装置において、
    前記各文章と前記各タームとの関係を2次元表現したDTマトリクスを生成するDTマトリクス生成手段と、
    グラフ理論で用いられるDM分解法に基づいてDTマトリクスを変形することにより、変形DTマトリクスを生成するDTマトリクス変形手段と、
    変形DTマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表文章生成手段と、
    前記DTマトリクス生成手段で生成したDTマトリクスを初期状態としてクラスタリング処理を繰り返し行うことにより前記文章の大分類を生成する大分類生成手段とを備え、
    前記大分類生成手段は、前記クラスタリング処理として、前記DTマトリクス変形手段でDTマトリクスから生成された変形DTマトリクス上のクラスタごとに前記仮想代表文章生成手段で仮想代表文章を生成し、前記仮想代表文章を当該変形DTマトリクスに追加するとともに前記仮想代表文章のクラスタに属する文章を当該変形DTマトリクスから削除して次のクラスタリング処理に用いる新たなDTマトリクスを生成し、前記クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力する処理を行うことを特徴とする文章分類装置。
  12. 請求項11に記載の文章分類装置において、
    前記大分類生成手段は、前記クラスタリング処理で、前記変形DTマトリクスからクラスタが得られなくなった場合に、前記クラスタリング処理の繰り返しを終了することを特徴とする文章分類装置。
  13. 請求項11に記載の文章分類装置において、
    前記クラスタリング処理で得られた各クラスタのうち、当該クラスタに仮想代表文章が含まれている場合は、その仮想代表文章と強連結をなすタームから、当該仮想代表文章の元のクラスタのラベルを生成する大分類ラベル生成手段をさらに備えることを特徴とする文章分類装置。
  14. 文章集合に含まれる複数の文章を、1つ以上の単語からなるタームを複数有するタームリストに基づき分類する文章分類装置で用いられる文章分類方法において、
    前記各文章と前記各タームとの関係を2次元表現したDTマトリクスを生成するDTマトリクス生成ステップと、
    グラフ理論で用いられるDM分解法に基づいて前記DTマトリクスを変形することにより、変形DTマトリクスを生成する変形DTマトリクス生成ステップと、
    変形DTマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表文章生成ステップと、
    前記DTマトリクス生成ステップで生成したDTマトリクスを初期状態としてクラスタリング処理を繰り返し行うことにより前記文章の大分類を生成する大分類生成ステップとを備え、
    前記大分類生成ステップは、前記クラスタリング処理として、前記DTマトリクス変形ステップでDTマトリクスから生成された変形DTマトリクス上のクラスタごとに前記仮想代表文章生成ステップで仮想代表文章を生成するステップと、前記仮想代表文章を当該変形DTマトリクスに追加するとともに前記仮想代表文章のクラスタに属する文章を当該変形DTマトリクスから削除して次のクラスタリング処理に用いる新たなDTマトリクスを生成するステップと、前記クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力するステップとからなる処理を行うことを特徴とする文章分類方法。
  15. 請求項14に記載の文章分類方法において、
    前記大分類生成ステップは、前記クラスタリング処理で、前記変形DTマトリクスからクラスタが得られなくなった場合に、前記クラスタリング処理の繰り返しを終了することを特徴とする文章分類方法。
  16. 請求項14に記載の文章分類方法において、
    前記クラスタリング処理で得られた各クラスタのうち、当該クラスタに仮想代表文章が含まれている場合は、その仮想代表文章と強連結をなすタームから、当該仮想代表文章の元のクラスタのラベルを生成する大分類ラベル生成ステップをさらに備えることを特徴とする文章分類方法。
JP2004053419A 2003-07-01 2004-02-27 文章分類装置および方法 Expired - Fee Related JP4382526B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004053419A JP4382526B2 (ja) 2003-07-01 2004-02-27 文章分類装置および方法
PCT/JP2004/009341 WO2005004004A1 (ja) 2003-07-01 2004-07-01 文章分類装置および方法
US10/563,311 US7567954B2 (en) 2003-07-01 2004-07-01 Sentence classification device and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003189716 2003-07-01
JP2004053419A JP4382526B2 (ja) 2003-07-01 2004-02-27 文章分類装置および方法

Publications (2)

Publication Number Publication Date
JP2005038386A true JP2005038386A (ja) 2005-02-10
JP4382526B2 JP4382526B2 (ja) 2009-12-16

Family

ID=33566742

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004053419A Expired - Fee Related JP4382526B2 (ja) 2003-07-01 2004-02-27 文章分類装置および方法

Country Status (3)

Country Link
US (1) US7567954B2 (ja)
JP (1) JP4382526B2 (ja)
WO (1) WO2005004004A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007004233A (ja) * 2005-06-21 2007-01-11 Yamatake Corp 文章分類装置、文章分類方法、およびプログラム
JP2011128705A (ja) * 2009-12-15 2011-06-30 Toshiba Corp 情報処理装置およびプログラム
WO2013161850A1 (ja) * 2012-04-26 2013-10-31 日本電気株式会社 テキストマイニングシステム、テキストマイニング方法及びプログラム
JP2014130613A (ja) * 2014-02-06 2014-07-10 Nomura Research Institute Ltd 談話要約生成システムおよび談話要約生成プログラム
JP2022144346A (ja) * 2021-03-18 2022-10-03 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8577884B2 (en) * 2008-05-13 2013-11-05 The Boeing Company Automated analysis and summarization of comments in survey response data
US8510249B2 (en) * 2008-10-10 2013-08-13 Nec Corporation Determining whether text information corresponds to target information
US9298722B2 (en) * 2009-07-16 2016-03-29 Novell, Inc. Optimal sequential (de)compression of digital data
US8782734B2 (en) * 2010-03-10 2014-07-15 Novell, Inc. Semantic controls on data storage and access
US8832103B2 (en) 2010-04-13 2014-09-09 Novell, Inc. Relevancy filter for new data based on underlying files
US8762939B1 (en) 2010-07-02 2014-06-24 Nuance Communications, Inc. System and method for displaying key performance indicators in an application design tool
US9069754B2 (en) * 2010-09-29 2015-06-30 Rhonda Enterprises, Llc Method, system, and computer readable medium for detecting related subgroups of text in an electronic document
US8379833B2 (en) 2010-12-17 2013-02-19 Nuance Communications, Inc. System, method, and computer program product for detecting redundancies in information provided by customers in a customer service system
US8903712B1 (en) * 2011-09-27 2014-12-02 Nuance Communications, Inc. Call steering data tagging interface with automatic semantic clustering
US8761373B1 (en) 2011-10-03 2014-06-24 Nuance Communications, Inc. System and method for determining IVR application flow from customer-service call recordings
US9110984B1 (en) * 2011-12-27 2015-08-18 Google Inc. Methods and systems for constructing a taxonomy based on hierarchical clustering
US8972241B2 (en) * 2012-04-30 2015-03-03 Blackberry Limited Electronic device and method for a bidirectional context-based text disambiguation
US8825866B2 (en) 2012-05-02 2014-09-02 Nuance Communications, Inc. System and method for enabling demand-based pooling of endpoint resources in a multi-application environment
US11288328B2 (en) 2014-10-22 2022-03-29 Narrative Science Inc. Interactive and conversational data exploration
US20160147799A1 (en) * 2014-11-26 2016-05-26 Hewlett-Packard Development Company, L.P. Resolution of data inconsistencies
US11036764B1 (en) * 2017-01-12 2021-06-15 Parallels International Gmbh Document classification filter for search queries
US10628496B2 (en) * 2017-03-27 2020-04-21 Dell Products, L.P. Validating and correlating content
US11042709B1 (en) 2018-01-02 2021-06-22 Narrative Science Inc. Context saliency-based deictic parser for natural language processing
US11182556B1 (en) 2018-02-19 2021-11-23 Narrative Science Inc. Applied artificial intelligence technology for building a knowledge base using natural language processing
US10990767B1 (en) 2019-01-28 2021-04-27 Narrative Science Inc. Applied artificial intelligence technology for adaptive natural language understanding
WO2022155939A1 (zh) * 2021-01-25 2022-07-28 深圳大学 一种数据属性的分组方法、装置、设备及存储介质
US11861301B1 (en) 2023-03-02 2024-01-02 The Boeing Company Part sorting system

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US6298174B1 (en) * 1996-08-12 2001-10-02 Battelle Memorial Institute Three-dimensional display of document set
JP3001460B2 (ja) * 1997-05-21 2000-01-24 株式会社エヌイーシー情報システムズ 文書分類装置
JP3581249B2 (ja) * 1997-06-10 2004-10-27 株式会社東芝 半導体不良ビット救済処理方法及び半導体不良ビット救済処理装置
US6233575B1 (en) * 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US20010032029A1 (en) * 1999-07-01 2001-10-18 Stuart Kauffman System and method for infrastructure design
JP2002108894A (ja) 2000-09-27 2002-04-12 Ricoh Co Ltd 文書分類装置、文書分類方法及び該方法を実行するための記録媒体
US20020138466A1 (en) * 2001-01-13 2002-09-26 International Business Machines Corporation Method, computer program and data processing system for data clustering
US7024400B2 (en) 2001-05-08 2006-04-04 Sunflare Co., Ltd. Differential LSI space-based probabilistic document classifier
US20040205457A1 (en) * 2001-10-31 2004-10-14 International Business Machines Corporation Automatically summarising topics in a collection of electronic documents
US20030221163A1 (en) * 2002-02-22 2003-11-27 Nec Laboratories America, Inc. Using web structure for classifying and describing web pages
US20030216951A1 (en) * 2002-05-02 2003-11-20 Roman Ginis Automating resource management for distributed business processes
JP2007004233A (ja) * 2005-06-21 2007-01-11 Yamatake Corp 文章分類装置、文章分類方法、およびプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007004233A (ja) * 2005-06-21 2007-01-11 Yamatake Corp 文章分類装置、文章分類方法、およびプログラム
JP2011128705A (ja) * 2009-12-15 2011-06-30 Toshiba Corp 情報処理装置およびプログラム
WO2013161850A1 (ja) * 2012-04-26 2013-10-31 日本電気株式会社 テキストマイニングシステム、テキストマイニング方法及びプログラム
JP5494999B1 (ja) * 2012-04-26 2014-05-21 日本電気株式会社 テキストマイニングシステム、テキストマイニング方法及びプログラム
US10409848B2 (en) 2012-04-26 2019-09-10 Nec Corporation Text mining system, text mining method, and program
JP2014130613A (ja) * 2014-02-06 2014-07-10 Nomura Research Institute Ltd 談話要約生成システムおよび談話要約生成プログラム
JP2022144346A (ja) * 2021-03-18 2022-10-03 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP7250058B2 (ja) 2021-03-18 2023-03-31 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
US20060155662A1 (en) 2006-07-13
US7567954B2 (en) 2009-07-28
JP4382526B2 (ja) 2009-12-16
WO2005004004A1 (ja) 2005-01-13

Similar Documents

Publication Publication Date Title
JP4382526B2 (ja) 文章分類装置および方法
JP4116329B2 (ja) 文書情報表示システム、文書情報表示方法及び文書検索方法
US7444325B2 (en) Method and system for information extraction
US20060179051A1 (en) Methods and apparatus for steering the analyses of collections of documents
JP2007004233A (ja) 文章分類装置、文章分類方法、およびプログラム
DE60315506T2 (de) Identifizierung von kritischen merkmalen in einem geordneten skala-raum
KR101508260B1 (ko) 문서 특징을 반영하는 요약문 생성 장치 및 방법
US20030120644A1 (en) Method, apparatus, and computer program product for locating data in large datasets
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
KR20160067102A (ko) 모순 표현 수집장치 및 그를 위한 컴퓨터 프로그램
JP3333998B2 (ja) 自動分類付与装置および方法
JPH09231238A (ja) テキスト検索結果表示方法及び装置
JP5226198B2 (ja) 規則帰納システムのためのxmlベースのアーキテクチャ
JP2001101227A (ja) 文書分類装置および文書分類方法
JP5141152B2 (ja) テキスト解析プログラム、テキスト解析方法、およびテキスト解析装置
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
JP5132667B2 (ja) 情報処理装置およびプログラム
JP2000020538A (ja) 情報検索方法、情報検索装置および情報検索プログラム記憶媒体
JPH08255253A (ja) グラフ表示処理装置およびグラフ表示処理方法
JP4544047B2 (ja) Web画像検索結果分類提示方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP4234841B2 (ja) データ分析装置
JP2009301140A (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP2005332080A (ja) 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体
JP2001117930A (ja) 文書分類装置、文書分類方法および記録媒体
EP1681643B1 (en) Method and system for information extraction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090915

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090917

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121002

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4382526

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131002

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees