JP2005038386A - 文章分類装置および方法 - Google Patents
文章分類装置および方法 Download PDFInfo
- Publication number
- JP2005038386A JP2005038386A JP2004053419A JP2004053419A JP2005038386A JP 2005038386 A JP2005038386 A JP 2005038386A JP 2004053419 A JP2004053419 A JP 2004053419A JP 2004053419 A JP2004053419 A JP 2004053419A JP 2005038386 A JP2005038386 A JP 2005038386A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- matrix
- classification
- cluster
- term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
Abstract
【解決手段】 DTマトリクス生成手段11で、文章集合21内の各文章Dとタームリスト22内の各タームTとからDTマトリクス11Aを生成し、DTマトリクス変形手段12で、そのDTマトリクス11AをDM分解して変形DTマトリクス11Bを生成する。そして文章分類手段13で、変形DTマトリクス11B上に現れる各クラスタごとに、当該クラスタに属する各文章Dを1つの分類(部分集合)として抽出出力する。
【選択図】 図1
Description
情報の内容を解析する技術として、各情報を構成する文章の内容に応じて各文章を分類する技術が研究されている。
このような技術は、文章の分類に際し、予め各分類の内容を示すラベルを用意し、各種の学習アルゴリズムを用いて、これらラベルを各文章に対して精度よく割り当てることにより、各文章をラベルごとに分類しようとするものである。
永田昌明他,「テキスト分類−学習論理の見本市−」,情報処理,42巻1号,2001年1月 北研二他,「情報検索アルゴリズム」,共立出版,2002年
本発明はこのような課題を解決するためのものであり、比較的少ない作業負担で、主観にとらわれることなく柔軟に分類できる文章分類装置および方法を提供することを目的としている。
変形DTマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表文章生成手段と、DTマトリクス生成手段で生成したDTマトリクスを初期状態としてクラスタリング処理を繰り返し行うことにより文章の大分類を生成する大分類生成手段とを備え、大分類生成手段で、クラスタリング処理として、DTマトリクス変形手段でDTマトリクスから生成された変形DTマトリクス上のクラスタごとに仮想代表文章生成手段で仮想代表文章を生成し、仮想代表文章を当該変形DTマトリクスに追加するとともに仮想代表文章のクラスタに属する文章を当該変形DTマトリクスから削除して次のクラスタリング処理に用いる新たなDTマトリクスを生成し、クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力する処理を行うようにしたものである。
したがって、従来のように分類対象となる各文章の内容をある程度把握して適切なラベルを選択する必要がなくなることから、出現頻度など分類に直接関係のない尺度で選択した単語からタームを構成することができ、ラベル選択のための作業負担を大幅に軽減できる。
したがって、従来のように予め用意したラベルの有無のみに基づき文章を分類する場合と比較して、そのラベルに限定された主観的な分類ではなく、想定しうる範囲を超えた新たな観点から文章の内容や話題に沿って柔軟に分類を行うことができる。
[文章分類装置の構成]
まず、図1を参照して、本発明の一実施の形態にかかる文章分類装置について説明する。図1は本発明の一実施の形態にかかる文章分類装置の構成を示すブロック図である。
この文章分類装置1は、全体としてコンピュータからなり、制御部10、記憶部20、操作入力部30、画面表示部40、およびデータ入出力インターフェース部(以下、データ入出力I/F部という)50が設けられている。
記憶部20は、ハードディスクやメモリなどの記憶装置からなり、制御部10での処理に用いる各種情報を格納する。これら情報としては、分類対象となる各文章からなる文章集合21、各文章の内容を把握するための複数の重要語からなるタームリスト22、さらには文章を大分類した結果を示す大分類データ23が記憶されている。
画面表示部40は、CRTやLCDなどの画面表示装置からなり、制御部10での処理内容や処理結果を表示出力する。
データ入出力I/F部50は、外部装置(図示せず)や通信ネットワーク(図示せず)と接続するための回路部であり、文章集合21、タームリスト22、大分類データ23のほか、得られた処理結果や制御部10で実行するプログラムをやり取りする際に用いられる。
さらに、このDTマトリクスを2部グラフの一表現形態と見なし、2部グラフのグラフ理論で用いられるDM分解法に基づきDTマトリクスを変形し、得られた変形DTマトリクス上に現れるクラスタに基づき、各文章Dを分類するようにしたものである。
DTマトリクス変形手段12は、DTマトリクス生成手段11で生成されたDTマトリクスをDM(Dulumage-Mendelsohn)分解法に基づき変形する機能手段である。
文章分類手段13は、DTマトリクス変形手段12で得られた変形DTマトリクス上に現れるブロック化されたクラスタに基づき、文章集合21の各文章を分類する機能手段である。
文章編成手段15は、変形DTマトリクスにおける文章Dの並び順に基づき、文章集合21の各文章を並び替えて出力する機能手段である。
要約作成手段16は、文章Dと強連結の関係にあるタームTを含む文を、当該文章Dの要約として出力する機能手段である。
タームリスト生成手段18は、記憶部20の文章集合21に含まれる各文章Dを解析して、各文章Dの特徴を効果的に表現する語すなわち重要語を抽出し、これら重要語からなるタームTを用いてタームリスト22を生成する機能手段である。
指標生成手段19は、タームリスト編集手段17で編集されたタームリストについて、その編集前後におけるDTマトリクスに基づき当該編集による分類への影響を示す指標を生成する機能手段である。
仮想代表生成手段72は、大分類生成時に、変形DTマトリクスから得られたクラスタから、そのクラスタに含まれる文章を仮想的に代表する仮想代表文章を生成する機能手段である。
大分類ラベル生成手段73は、大分類生成手段71で生成された各クラスタすなわち大分類のラベルを生成する機能手段である。
次に、図2を参照して、本実施の形態にかかる文章分類装置の動作について説明する。図2は本実施の形態にかかる文章分類装置のDTマトリクス生成処理を示すフローチャートである。
制御部10は、操作入力部30からの指示に応じて、文章分類処理に用いるDTマトリクスを生成するため、図2のDTマトリクス生成処理を開始する。
まず、DTマトリクス生成手段11は、記憶部20に格納されている文章集合21を読み込むとともに(ステップ100)、タームリスト22を読み込む(ステップ101)。
図4はタームリスト22の構成例である。このタームリスト22は、所定のアルゴリズムに基づき各文章Dを解析し、得られた重要語の種別とその前後関係とから各タームTを構成したものであり、各タームTごとに当該タームTを管理するターム番号Tjが割り当てられている。
例えばターム「1」は、「ストレス」と「解消」という2つのキーワードからなり、その位置関係は「ストレス」が前方に位置するものと規定されている。
DTマトリクス生成手段11は、文章集合21内の各文章について、あるしきい値以上の重要度を持ったタームリスト22の各タームTが存在するか否かチェックし、その結果からDTマトリクスを生成する(ステップ102)。
したがって、この例によれば、例えば文章D1には、タームT4,T7が含まれていることがわかる。またタームT2は、文章D2,D4に含まれていることがわかる。
一般に、グラフ理論では、2つの集合に属するそれぞれの点とこれら点を結ぶ辺とからなる2部グラフを、各点間の関連性に基づき分離する手法として、DM分解法が用いられる。
本実施の形態では、DTマトリクス11Aを、文章DからタームTへの辺により結びつけられた2部グラフの一表現形態と見なすことができることに着目し、グラフ理論におけるDM分解法をDTマトリクス11Aに適用し、得られた変形DTマトリクスに基づき文章Dを分類するようにしたものである。
ここで、図6および図7を参照して、2部グラフにおけるDM分解処理について説明する。図6はDM分解処理を示すフローチャートである。図7はDM分解処理の過程を示す2部グラフである。以下では、文章DおよびタームTからなる2つの点集合と、これら点を結ぶ辺からなる2部グラフGを処理対象とし、これをDM分解法により複数のグラフに分離する場合を例として説明する。なお、これら処理では、制御部10内部のメモリまたは記憶部20から各種データを読み出して、制御部10で所定の演算を行い、その結果を再び記憶するという動作が繰り返し行われる。
ステップ203において、すべての経路の検索が終了して新たな経路が検索されなかった場合(ステップ203:NO)、最大マッチングMが完成したことになる。
次に、タームTの各点のうち最大マッチングMに用いられなかった点、例えば自由点256を選択し(ステップ207)、処理対象Gの各辺を介して当該自由点256に到達可能な点の集合をクラスタ260とする(ステップ208)。
そして、残りの文章DおよびタームTの各点のうち、双方向に到達可能な経路を有する点集合すなわち強連結をなす点集合をクラスタ261とし(ステップ211)、一連のDM分解処理を終了する。
このようにして、公知のDM分解法では、各クラスタが所定の順序で生成され、三角行列化された変形DTマトリクスが得られる。
文章分類装置1の制御部10では、文章集合21を分類する場合、まず前述のDTマトリクス生成処理(図2参照)を実行した後、図9の文章分類処理を実行する。図9は文章分類処理を示すフローチャートである。
まず、文章分類手段13は、DTマトリクス変形手段12で生成した変形DTマトリクス11B上にブロック化されて現れた各クラスタを識別する(ステップ110)。この際、各クラスタについては、変形DTマトリクス11Bを生成した際に分離した部分グラフに基づき識別してもよく、変形DTマトリクス11B上のデータ(ドット)の並びから識別してもよい。
文章分類手段13は、識別された各クラスタに属する各文章からなる部分集合62を1つの分類として、文章集合21から抽出して分類し(ステップ111)、その結果を例えば画面表示部40で表示出力し、あるいは記憶部20へ格納して、一連の文章分類処理を終了する。
したがって、従来のように分類対象となる各文章の内容をある程度把握して適切なラベルを選択する必要がなくなることから、出現頻度など分類に直接関係のない尺度で選択した単語からタームを構成することができ、ラベル選択のための作業負担を大幅に軽減できる。
したがって、従来のように予め用意したラベルの有無のみに基づき文章を分類する場合と比較して、そのラベルに限定された主観的な分類ではなく、想定しうる範囲を超えた新たな観点から文章の内容や話題に沿って柔軟に分類を行うことができる。
文章分類装置1の制御部10では、文章分類手段13で分類された各文章の分類ごとにラベルを生成する場合、まず前述のDTマトリクス生成処理(図2参照)および文章分類処理(図9参照)を実行した後、図11のラベル生成処理を実行する。図11はラベル生成処理を示すフローチャートである。
まず、ラベル生成手段14は、ラベルを生成する対象となる分類すなわちクラスタに属する各文章Dについて、これら文章Dと強連結の関係にあるタームTを変形DTマトリクス11Bから選択する(ステップ120)。
次に、選択した各タームTの単語を当該分類のラベル64として出力し(ステップ121)、その結果を例えば画面表示部40で表示出力し、あるいは記憶部20へ格納して、一連のラベル生成処理を終了する。
文章分類装置1の制御部10では、各文章Dの並びを編成する場合、まず前述のDTマトリクス生成処理(図2参照)を実行した後、図13の文章編成処理を実行する。図13は文章編成処理を示すフローチャートである。
まず、文章編成手段15は、変形DTマトリクス11B上での並びに基づき、各文章Dを並び替える(ステップ130)。
文章編成手段15は、このような変形DTマトリクス11Bに基づき並び変えられた文章Dを編成し、編成された各文章65を出力し(ステップ131)、その結果を例えば画面表示部40で表示出力し、あるいは記憶部20へ格納して、一連の文章編成処理を終了する。
この際、任意のクラスタすなわち分類に含まれる各文章Dを文章編成の対象として1つの文章を生成してもよく、文章集合21に含まれるすべての文章Dを文章編成の対象として1つの文章を生成してもよい。
文章分類装置1の制御部10では、複数の文からなる任意の文章Dの要約を作成する場合、前述のDTマトリクス生成処理(図2参照)を実行した後、図15の要約作成処理を実行する。図15は要約作成処理を示すフローチャートである。
まず、要約作成手段16は、対象となる文章Dについて、前述したラベル生成処理と同様にして、その文章Dと強連結の関係にあるタームTを変形DTマトリクス11Bから選択する(ステップ140)。
要約作成手段16は、このタームTを含む文を当該文章Dから選択して、これら文を当該文章Dの要約68として出力し(ステップ141)、その結果を例えば画面表示部40で表示出力し、あるいは記憶部20へ格納して、一連の要約作成処理を終了する。
タームリスト生成手段18は、文章集合21からタームリスト22を自動生成するものである。
文章からその文章を特徴付ける重要語を抽出する方法として、各種のアルゴリズムが提案されている。例えば、各単語の重要度を算出し、その重要度に基づき重要語を選択するTFIDF(Term Frequency Inverse Document Frequency)などのアルゴリズムを用いてもよい。あるいは、言語学的な解釈に基づかないフレーズ(共起語)を、辞書を用いることなく抽出するKeyGraphというアルゴリズムを用いてもよい(例えば、非特許文献2など参照)。
なお、このタームリスト22については、タームリスト編集手段17で、操作入力部30からの指示に基づき生成してもよく、データ入出力I/F部50を介して予め用意されたものを装置外部から入力するようにしてもよい。
タームリスト22は、変形DTマトリクス11Bを生成して文章を分類する上で重要なファクタとなることから、タームリスト編集手段17で、このタームリストを編集可能としている。
本実施の形態では、編集されたタームリストについて、制御部10の指標生成手段19により客観的な評価値を算出し、その編集に対する指標を生成する。以下、図17を参照して、指標生成手段19における指標生成処理について説明する。図17は指標生成処理を示すフローチャートである。
平均文章類似度Qは、2つの文章Di,Dj間の類似度sim(Di,Dj)をすべての文章間について算出し平均したものであり、文章Dの数をNとした場合、Qは次の数1で算出される。
なお、指標としては、ΔQだけを表示出力して作業者に編集の有効性を判断させるようにしてもよい。また当該編集に対する有効/無効だけを表示出力してもよい。
また、DTマトリクスから得られた平均文章類似度に基づき指標を生成するようにしたので、文章を分類する必要がなくなり指標生成に要する処理を簡素化できる。したがって、当該編集に対する有効/無効を迅速に判断でき、タームリストの編集に要する作業負担を大幅に軽減できる。
次に、図18を参照して、本発明の一実施の形態にかかる文章分類装置での大分類生成処理について説明する。図18は、本発明の一実施の形態にかかる文章分類装置での大分類生成処理を示すフローチャートである。
以上では、各文章と各タームとの関係を2次元表現したDTマトリクスを生成し、グラフ理論で用いられるDM分解法に基づいてそのDTマトリクスを変形し、得られた変形DTマトリクス上で識別されたクラスタを用いて、各文章を分類する処理について説明した。
ここでは、文章分類装置1の制御部10に設けた、大分類生成手段71、仮想代表生成手段72、および大分類ラベル生成手段73を用いて、各文章の大分類を生成する大分類生成処理について詳細に説明する。
まず、大分類生成手段71は、DTマトリクス生成手段11を用いて、記憶部20に格納されている文章集合21とタームリスト22を読み込み、前述と同様のDTマトリクス生成処理を行うことにより、各文章と各タームとの関係を2次元表現したDTマトリクスを生成する(ステップ160)。
そして、大分類生成手段71は、前述した文章分類手段13と同様にして、得られた変形DTマトリクス上でブロック化された各クラスタを識別する(ステップ162)。
仮想代表生成手段72では、まず、新たなクラスタに属する各文章の特徴量を取得し、これら特徴量の和集合から仮想代表文章を生成する。例えば、各文章の特徴量Kiが数6のように、1つ以上の特徴量k1〜knで表現される場合、仮想代表文章K’は、数7で得られる。
これにより、変形DTマトリクス上では、仮想代表文章とこれに含まれる各タームとの交点にドットが追加配置されるとともに、元の各文章に対応するドットが削除され、新たなクラスタを構成する各文章が仮想代表文章で置換された新たなDTマトリクスが生成される。
これにより、クラスタリング処理の繰り返しステップで生成されたクラスタには、実文章だけでなく仮想代表文章すなわち他のクラスタも含まれることになり、各文章の大分類が得られることになる。
2回目のステップS2では、仮想代表文章V1と文章gからクラスタ304が生成され、その仮想代表文章V4が生成されている。
ここで、図20を参照して、大分類ラベル生成処理について説明する。大分類ラベル生成手段73は、まず、大分類生成処理における現在のステップが、新たなクラスタが見つからなかった最終ステップかどうか判断する(ステップ170)。
ここで、仮想代表文章が含まれている場合にのみ(ステップ172:YES)、DTマトリクス上でその仮想代表文章と強連結しているタームのキーワードから、その仮想代表文章の元のクラスタのラベルを生成する(ステップ173)。
以下、同様にして、ステップS3では、仮想代表文章V2と文章hからクラスタ305が生成され、その仮想代表文章V5が生成されている。そして、仮想代表文章V2の元のクラスタ305のラベルL2が生成される。
続くステップS5では、仮想代表文章V6と文章kからクラスタ308が生成されて、その仮想代表文章V8が生成されている。そして、仮想代表文章V6の元のクラスタ306のラベルL6が生成されている。
図23に、最終ステップにおけるDTマトリクスの生成例を示す。この例では、大分類生成処理によりエリア310の実文章が削除されてほとんど空白となり、エリア311の仮想代表文章に置換されていることがわかる。
これにより、記憶部20の大分類データ23として、図19に示されているように、各文章a〜kのみを要素とする分類、例えばクラスタ301〜303だけでなく、1つ以上のクラスタを含むより大きな分類すなわち大分類として、クラスタ304〜308が得られる。
また、大分類ラベル生成処理は、大分類生成処理と連携させて行う必要はなく、大分類生成処理が終了した後、必要に応じて大分類ラベル生成処理(図20参照)を独立して行ってもよい。
Claims (16)
- 文章集合に含まれる複数の文章を、1つ以上の単語からなるタームを複数有するタームリストに基づき分類する文章分類装置において、
前記各文章と前記各タームとの関係を2次元表現したDTマトリクスを生成するDTマトリクス生成手段と、
グラフ理論で用いられるDM分解法に基づいて前記DTマトリクス生成手段で得られたDTマトリクスを変形することにより、変形DTマトリクスを生成するDTマトリクス変形手段と、
このDTマトリクス変形手段で得られた変形DTマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する文章を同一分類として出力する文章分類手段とを備えることを特徴とする文章分類装置。 - 請求項1に記載の文章分類装置において、
任意の前記クラスタに属する各文章と強連結をなす各タームを、当該クラスタの分類を示すラベルとして出力するラベル生成手段をさらに備えることを特徴とする文章分類装置。 - 請求項1に記載の文章分類装置において、
前記変形DTマトリクスでの文章の並び順序に応じて、任意の前記クラスタに属する文章またはすべての文章を順に出力する文章編成手段をさらに備えることを特徴とする文章分類装置。 - 請求項1に記載の文章分類装置において、
任意の前記文章を構成する各文のうち、当該文章と強連結をなすタームを含む文を、当該文章の要約として出力する要約作成手段をさらに備えることを特徴とする文章分類装置。 - 請求項1に記載の文章分類装置において、
前記タームリストに対して任意のタームを追加または削除するタームリスト編集手段と、
このタームリスト編集手段による編集前後のタームリストを用いて前記DTマトリクス生成手段によりそれぞれDTマトリクスを生成し、これらDTマトリクスから当該編集の有用性を示す指標を生成して出力する指標生成手段とをさらに備えることを特徴とする文章分類装置。 - 文章集合に含まれる複数の文章を、1つ以上の単語からなるタームを複数有するタームリストに基づき分類する文章分類装置で用いられる文章分類方法において、
前記各文章と前記各タームとの関係を2次元表現したDTマトリクスを生成するステップと、
グラフ理論で用いられるDM分解法に基づいて前記DTマトリクスを変形することにより、変形DTマトリクスを生成するステップと、
前記変形DTマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する文章を同一分類として出力するステップとを備えることを特徴とする文章分類方法。 - 請求項6に記載の文章分類方法において、
任意の前記クラスタに属する各文章と強連結をなす各タームを、当該クラスタの分類を示すラベルとして出力するステップをさらに備えることを特徴とする文章分類方法。 - 請求項6に記載の文章分類方法において、
前記変形DTマトリクスでの文章の並び順序に応じて、任意の前記クラスタに属する文章またはすべての文章を順に出力するステップをさらに備えることを特徴とする文章分類方法。 - 請求項6に記載の文章分類方法において、
任意の前記文章を構成する各文のうち、当該文章と強連結をなすタームを含む文を、当該文章の要約として出力するステップをさらに備えることを特徴とする文章分類方法。 - 請求項6に記載の文章分類方法において、
前記タームリストに対して任意のタームを追加または削除するステップと、
編集前後のタームリストを用いてそれぞれDTマトリクスを生成し、これらDTマトリクスから当該編集の有用性を示す指標を生成して出力するステップとをさらに備えることを特徴とする文章分類方法。 - 文章集合に含まれる複数の文章を、1つ以上の単語からなるタームを複数有するタームリストに基づき分類する文章分類装置において、
前記各文章と前記各タームとの関係を2次元表現したDTマトリクスを生成するDTマトリクス生成手段と、
グラフ理論で用いられるDM分解法に基づいてDTマトリクスを変形することにより、変形DTマトリクスを生成するDTマトリクス変形手段と、
変形DTマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表文章生成手段と、
前記DTマトリクス生成手段で生成したDTマトリクスを初期状態としてクラスタリング処理を繰り返し行うことにより前記文章の大分類を生成する大分類生成手段とを備え、
前記大分類生成手段は、前記クラスタリング処理として、前記DTマトリクス変形手段でDTマトリクスから生成された変形DTマトリクス上のクラスタごとに前記仮想代表文章生成手段で仮想代表文章を生成し、前記仮想代表文章を当該変形DTマトリクスに追加するとともに前記仮想代表文章のクラスタに属する文章を当該変形DTマトリクスから削除して次のクラスタリング処理に用いる新たなDTマトリクスを生成し、前記クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力する処理を行うことを特徴とする文章分類装置。 - 請求項11に記載の文章分類装置において、
前記大分類生成手段は、前記クラスタリング処理で、前記変形DTマトリクスからクラスタが得られなくなった場合に、前記クラスタリング処理の繰り返しを終了することを特徴とする文章分類装置。 - 請求項11に記載の文章分類装置において、
前記クラスタリング処理で得られた各クラスタのうち、当該クラスタに仮想代表文章が含まれている場合は、その仮想代表文章と強連結をなすタームから、当該仮想代表文章の元のクラスタのラベルを生成する大分類ラベル生成手段をさらに備えることを特徴とする文章分類装置。 - 文章集合に含まれる複数の文章を、1つ以上の単語からなるタームを複数有するタームリストに基づき分類する文章分類装置で用いられる文章分類方法において、
前記各文章と前記各タームとの関係を2次元表現したDTマトリクスを生成するDTマトリクス生成ステップと、
グラフ理論で用いられるDM分解法に基づいて前記DTマトリクスを変形することにより、変形DTマトリクスを生成する変形DTマトリクス生成ステップと、
変形DTマトリクス上でブロック化されたクラスタごとに、当該クラスタに属する各文章のタームから仮想代表文章を生成する仮想代表文章生成ステップと、
前記DTマトリクス生成ステップで生成したDTマトリクスを初期状態としてクラスタリング処理を繰り返し行うことにより前記文章の大分類を生成する大分類生成ステップとを備え、
前記大分類生成ステップは、前記クラスタリング処理として、前記DTマトリクス変形ステップでDTマトリクスから生成された変形DTマトリクス上のクラスタごとに前記仮想代表文章生成ステップで仮想代表文章を生成するステップと、前記仮想代表文章を当該変形DTマトリクスに追加するとともに前記仮想代表文章のクラスタに属する文章を当該変形DTマトリクスから削除して次のクラスタリング処理に用いる新たなDTマトリクスを生成するステップと、前記クラスタごとに少なくとも当該クラスタを構成する文章に関する情報を大分類データとして出力するステップとからなる処理を行うことを特徴とする文章分類方法。 - 請求項14に記載の文章分類方法において、
前記大分類生成ステップは、前記クラスタリング処理で、前記変形DTマトリクスからクラスタが得られなくなった場合に、前記クラスタリング処理の繰り返しを終了することを特徴とする文章分類方法。 - 請求項14に記載の文章分類方法において、
前記クラスタリング処理で得られた各クラスタのうち、当該クラスタに仮想代表文章が含まれている場合は、その仮想代表文章と強連結をなすタームから、当該仮想代表文章の元のクラスタのラベルを生成する大分類ラベル生成ステップをさらに備えることを特徴とする文章分類方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004053419A JP4382526B2 (ja) | 2003-07-01 | 2004-02-27 | 文章分類装置および方法 |
PCT/JP2004/009341 WO2005004004A1 (ja) | 2003-07-01 | 2004-07-01 | 文章分類装置および方法 |
US10/563,311 US7567954B2 (en) | 2003-07-01 | 2004-07-01 | Sentence classification device and method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003189716 | 2003-07-01 | ||
JP2004053419A JP4382526B2 (ja) | 2003-07-01 | 2004-02-27 | 文章分類装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005038386A true JP2005038386A (ja) | 2005-02-10 |
JP4382526B2 JP4382526B2 (ja) | 2009-12-16 |
Family
ID=33566742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004053419A Expired - Fee Related JP4382526B2 (ja) | 2003-07-01 | 2004-02-27 | 文章分類装置および方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7567954B2 (ja) |
JP (1) | JP4382526B2 (ja) |
WO (1) | WO2005004004A1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007004233A (ja) * | 2005-06-21 | 2007-01-11 | Yamatake Corp | 文章分類装置、文章分類方法、およびプログラム |
JP2011128705A (ja) * | 2009-12-15 | 2011-06-30 | Toshiba Corp | 情報処理装置およびプログラム |
WO2013161850A1 (ja) * | 2012-04-26 | 2013-10-31 | 日本電気株式会社 | テキストマイニングシステム、テキストマイニング方法及びプログラム |
JP2014130613A (ja) * | 2014-02-06 | 2014-07-10 | Nomura Research Institute Ltd | 談話要約生成システムおよび談話要約生成プログラム |
JP2022144346A (ja) * | 2021-03-18 | 2022-10-03 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8577884B2 (en) * | 2008-05-13 | 2013-11-05 | The Boeing Company | Automated analysis and summarization of comments in survey response data |
US8510249B2 (en) * | 2008-10-10 | 2013-08-13 | Nec Corporation | Determining whether text information corresponds to target information |
US9298722B2 (en) * | 2009-07-16 | 2016-03-29 | Novell, Inc. | Optimal sequential (de)compression of digital data |
US8782734B2 (en) * | 2010-03-10 | 2014-07-15 | Novell, Inc. | Semantic controls on data storage and access |
US8832103B2 (en) | 2010-04-13 | 2014-09-09 | Novell, Inc. | Relevancy filter for new data based on underlying files |
US8762939B1 (en) | 2010-07-02 | 2014-06-24 | Nuance Communications, Inc. | System and method for displaying key performance indicators in an application design tool |
US9069754B2 (en) * | 2010-09-29 | 2015-06-30 | Rhonda Enterprises, Llc | Method, system, and computer readable medium for detecting related subgroups of text in an electronic document |
US8379833B2 (en) | 2010-12-17 | 2013-02-19 | Nuance Communications, Inc. | System, method, and computer program product for detecting redundancies in information provided by customers in a customer service system |
US8903712B1 (en) * | 2011-09-27 | 2014-12-02 | Nuance Communications, Inc. | Call steering data tagging interface with automatic semantic clustering |
US8761373B1 (en) | 2011-10-03 | 2014-06-24 | Nuance Communications, Inc. | System and method for determining IVR application flow from customer-service call recordings |
US9110984B1 (en) * | 2011-12-27 | 2015-08-18 | Google Inc. | Methods and systems for constructing a taxonomy based on hierarchical clustering |
US8972241B2 (en) * | 2012-04-30 | 2015-03-03 | Blackberry Limited | Electronic device and method for a bidirectional context-based text disambiguation |
US8825866B2 (en) | 2012-05-02 | 2014-09-02 | Nuance Communications, Inc. | System and method for enabling demand-based pooling of endpoint resources in a multi-application environment |
US11288328B2 (en) | 2014-10-22 | 2022-03-29 | Narrative Science Inc. | Interactive and conversational data exploration |
US20160147799A1 (en) * | 2014-11-26 | 2016-05-26 | Hewlett-Packard Development Company, L.P. | Resolution of data inconsistencies |
US11036764B1 (en) * | 2017-01-12 | 2021-06-15 | Parallels International Gmbh | Document classification filter for search queries |
US10628496B2 (en) * | 2017-03-27 | 2020-04-21 | Dell Products, L.P. | Validating and correlating content |
US11042709B1 (en) | 2018-01-02 | 2021-06-22 | Narrative Science Inc. | Context saliency-based deictic parser for natural language processing |
US11182556B1 (en) | 2018-02-19 | 2021-11-23 | Narrative Science Inc. | Applied artificial intelligence technology for building a knowledge base using natural language processing |
US10990767B1 (en) | 2019-01-28 | 2021-04-27 | Narrative Science Inc. | Applied artificial intelligence technology for adaptive natural language understanding |
WO2022155939A1 (zh) * | 2021-01-25 | 2022-07-28 | 深圳大学 | 一种数据属性的分组方法、装置、设备及存储介质 |
US11861301B1 (en) | 2023-03-02 | 2024-01-02 | The Boeing Company | Part sorting system |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5675819A (en) * | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
US6298174B1 (en) * | 1996-08-12 | 2001-10-02 | Battelle Memorial Institute | Three-dimensional display of document set |
JP3001460B2 (ja) * | 1997-05-21 | 2000-01-24 | 株式会社エヌイーシー情報システムズ | 文書分類装置 |
JP3581249B2 (ja) * | 1997-06-10 | 2004-10-27 | 株式会社東芝 | 半導体不良ビット救済処理方法及び半導体不良ビット救済処理装置 |
US6233575B1 (en) * | 1997-06-24 | 2001-05-15 | International Business Machines Corporation | Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values |
US20010032029A1 (en) * | 1999-07-01 | 2001-10-18 | Stuart Kauffman | System and method for infrastructure design |
JP2002108894A (ja) | 2000-09-27 | 2002-04-12 | Ricoh Co Ltd | 文書分類装置、文書分類方法及び該方法を実行するための記録媒体 |
US20020138466A1 (en) * | 2001-01-13 | 2002-09-26 | International Business Machines Corporation | Method, computer program and data processing system for data clustering |
US7024400B2 (en) | 2001-05-08 | 2006-04-04 | Sunflare Co., Ltd. | Differential LSI space-based probabilistic document classifier |
US20040205457A1 (en) * | 2001-10-31 | 2004-10-14 | International Business Machines Corporation | Automatically summarising topics in a collection of electronic documents |
US20030221163A1 (en) * | 2002-02-22 | 2003-11-27 | Nec Laboratories America, Inc. | Using web structure for classifying and describing web pages |
US20030216951A1 (en) * | 2002-05-02 | 2003-11-20 | Roman Ginis | Automating resource management for distributed business processes |
JP2007004233A (ja) * | 2005-06-21 | 2007-01-11 | Yamatake Corp | 文章分類装置、文章分類方法、およびプログラム |
-
2004
- 2004-02-27 JP JP2004053419A patent/JP4382526B2/ja not_active Expired - Fee Related
- 2004-07-01 US US10/563,311 patent/US7567954B2/en not_active Expired - Fee Related
- 2004-07-01 WO PCT/JP2004/009341 patent/WO2005004004A1/ja active Application Filing
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007004233A (ja) * | 2005-06-21 | 2007-01-11 | Yamatake Corp | 文章分類装置、文章分類方法、およびプログラム |
JP2011128705A (ja) * | 2009-12-15 | 2011-06-30 | Toshiba Corp | 情報処理装置およびプログラム |
WO2013161850A1 (ja) * | 2012-04-26 | 2013-10-31 | 日本電気株式会社 | テキストマイニングシステム、テキストマイニング方法及びプログラム |
JP5494999B1 (ja) * | 2012-04-26 | 2014-05-21 | 日本電気株式会社 | テキストマイニングシステム、テキストマイニング方法及びプログラム |
US10409848B2 (en) | 2012-04-26 | 2019-09-10 | Nec Corporation | Text mining system, text mining method, and program |
JP2014130613A (ja) * | 2014-02-06 | 2014-07-10 | Nomura Research Institute Ltd | 談話要約生成システムおよび談話要約生成プログラム |
JP2022144346A (ja) * | 2021-03-18 | 2022-10-03 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
JP7250058B2 (ja) | 2021-03-18 | 2023-03-31 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20060155662A1 (en) | 2006-07-13 |
US7567954B2 (en) | 2009-07-28 |
JP4382526B2 (ja) | 2009-12-16 |
WO2005004004A1 (ja) | 2005-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4382526B2 (ja) | 文章分類装置および方法 | |
JP4116329B2 (ja) | 文書情報表示システム、文書情報表示方法及び文書検索方法 | |
US7444325B2 (en) | Method and system for information extraction | |
US20060179051A1 (en) | Methods and apparatus for steering the analyses of collections of documents | |
JP2007004233A (ja) | 文章分類装置、文章分類方法、およびプログラム | |
DE60315506T2 (de) | Identifizierung von kritischen merkmalen in einem geordneten skala-raum | |
KR101508260B1 (ko) | 문서 특징을 반영하는 요약문 생성 장치 및 방법 | |
US20030120644A1 (en) | Method, apparatus, and computer program product for locating data in large datasets | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
KR20160067102A (ko) | 모순 표현 수집장치 및 그를 위한 컴퓨터 프로그램 | |
JP3333998B2 (ja) | 自動分類付与装置および方法 | |
JPH09231238A (ja) | テキスト検索結果表示方法及び装置 | |
JP5226198B2 (ja) | 規則帰納システムのためのxmlベースのアーキテクチャ | |
JP2001101227A (ja) | 文書分類装置および文書分類方法 | |
JP5141152B2 (ja) | テキスト解析プログラム、テキスト解析方法、およびテキスト解析装置 | |
JP2016110256A (ja) | 情報処理装置及び情報処理プログラム | |
JP5132667B2 (ja) | 情報処理装置およびプログラム | |
JP2000020538A (ja) | 情報検索方法、情報検索装置および情報検索プログラム記憶媒体 | |
JPH08255253A (ja) | グラフ表示処理装置およびグラフ表示処理方法 | |
JP4544047B2 (ja) | Web画像検索結果分類提示方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
JP4234841B2 (ja) | データ分析装置 | |
JP2009301140A (ja) | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP2005332080A (ja) | 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体 | |
JP2001117930A (ja) | 文書分類装置、文書分類方法および記録媒体 | |
EP1681643B1 (en) | Method and system for information extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090422 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090915 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090917 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121002 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4382526 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131002 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |