JP3603392B2 - Document classification support method and apparatus - Google Patents

Document classification support method and apparatus Download PDF

Info

Publication number
JP3603392B2
JP3603392B2 JP17068295A JP17068295A JP3603392B2 JP 3603392 B2 JP3603392 B2 JP 3603392B2 JP 17068295 A JP17068295 A JP 17068295A JP 17068295 A JP17068295 A JP 17068295A JP 3603392 B2 JP3603392 B2 JP 3603392B2
Authority
JP
Japan
Prior art keywords
category
document
keyword
classification
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP17068295A
Other languages
Japanese (ja)
Other versions
JPH0922414A (en
Inventor
久雄 間瀬
由起子 森本
洋 辻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP17068295A priority Critical patent/JP3603392B2/en
Publication of JPH0922414A publication Critical patent/JPH0922414A/en
Application granted granted Critical
Publication of JP3603392B2 publication Critical patent/JP3603392B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、テキスト情報を含む電子化文書を、カテゴリに分類する文書分類方法および装置に関し、特に、計算機による分類結果に対してユーザがチェックする作業を効率良く行うための文書分類支援方法および装置に関する。
【0002】
【従来の技術】
社会の情報化、および、情報インフラの整備に伴い、大量の情報が氾濫するようになり、必要な情報を効率良く取り出すことが必要不可欠となっている。その解決方法の一つに、予め文書を適当なカテゴリに分類しておくことが挙げられ、計算機による自動分類技術の開発が要求されてきている。
【0003】
電子化テキスト文書の自動分類技術としては、Proceedings of second Annual Conference on Innovative(1990)や、情報処理学会研究報告NL−98−11や、Info−Tech’94講演論文集 pp.138〜pp.146 に記載されている技術がある。これらは、テキスト文書中のキーワードの出現傾向に基づいてカテゴリを決定するものである。
【0004】
【発明が解決しようとする課題】
上記の技術は、計算機によってテキストを全自動で分類するものであり、ユーザと協調的に分類結果を決定する方法については、上記文献の中で言及されていない。また、上記の技術による分類精度は、人間と同等レベルに至っていない。
【0005】
しかし、人間と同等レベルの分類精度を要求されるような状況では、計算機の分類結果をユーザがチェックする必要がある。従って、計算機とユーザが役割分担し、協調的に分類作業を行うことが、コスト削減につながる。つまり、計算機の分類結果に基づいて、いかに効率良く、少ない作業負担で、分類すべきカテゴリを確定するかが課題となる。
【0006】
特に、分類処理の対象となる文書の数が大量である場合、1件当たりに要する作業時間をいかに少なくし、作業負担をいかに軽減するかが課題となる。また、カテゴリの数が比較的多い場合や、カテゴリが複雑でその識別が非常に困難である場合、計算機が出力した分類結果が正しいかどうかを判定する作業や、その分類結果が誤りである場合に、真のカテゴリを一から見つける作業は、大変困難となる。従って、これらの作業をいかに効率良く行うかが課題となる。
【0007】
そこで、本発明の一つの目的は、分類結果が正しいかどうかを判定する作業や、その分類結果が誤りである場合に、真のカテゴリを見つける作業を効率良く行うことにある。
【0008】
また、大量の文書を順次分類する場合、その順番は、文書の内容に依存していないことが多い。その場合、文書が変わる度に記述された内容が大きく変わるため、チェックするユーザは、内容が変わる毎に、その内容に頭を切り替える必要がある。このため、チェックの効率も悪く、作業負担も増大するという課題がある。
【0009】
そこで、本発明の他の一つの目的は、分類すべき文書の内容が頻繁に大きく変わることによる作業負担を軽減し、分類作業の効率を向上させることにある。
【0010】
【課題を解決するための手段】
本発明では、分類処理の対象となる文書が何故そのカテゴリに分類されたかに関するログデータをカテゴリの推定結果出力手段を介してユーザに提示し、提示したログデータをユーザ入力手段を介してユーザに修正させ、修正後のログデータに基づいてカテゴリを再推定し、再推定後のカテゴリを推定結果出力手段を介してユーザに提示することにより、上記課題を解決する。
【0011】
また、本発明では、テキスト解析手段およびカテゴリ推定手段により複数の文書について分類すべきカテゴリをそれぞれ推定し、推定されたカテゴリが互いに類似しているあるいは同一である文書集合を認定する類似文書認定手段を持ち、類似文書について、推定結果出力手段を介してカテゴリ推定手段によって推定されたカテゴリをユーザに順次提示し、提示された文書についてユーザ入力手段を介してユーザに分類すべきカテゴリを確定させることにより、上記課題を解決する。
【0012】
【作用】
推定したカテゴリに基づいて、内容の類似している文書をまとめ、ユーザに順次提示してチェックを促すので、内容の大きな変化に伴う、ユーザの頭の切り替えが少なく済み、作業負担が軽減する。また、内容の類似した文書が続くため、以前の文書をチェックしたときのコツ、ノウハウ、教訓、データなどを次回の文書のチェックに活かすことが容易となり、チェック作業時間が少なく済む。
【0013】
【実施例】
本発明の実施例について、以下、図面を用いて詳細に説明する。
本実施例は、新聞記事をあるカテゴリに分類し、文書データベースに格納するものである。データベースにカテゴリ毎に格納された新聞記事データは、公知の検索システムを用いることにより、検索することが可能である。
【0014】
図1は、本実施例の概要を示す図である。
まず、分類の対象となる文書を文書入力1で入力する。文書データは、ネットワークを介して外部から取得しても良いし、フロッピーなどの媒体を介して取得しても良いし、音声認識装置、画像認識装置(文字認識を含む)、ペンなどの手書き入力装置などを介して取得しても良い。また、定期的に文書データをまとめて取得しても良いし、流通している文書データを不定期的に逐次取得しても良い。取得した文書データは、文書ファイル10に一時的に格納する。
【0015】
次に、ユーザからの分類する文書データの指定およびカテゴリ推定の実行指示により、文書データを解析する。推定されていない文書があるか否かを判別し(1a)、ない場合は、ステップ3aに進む。
【0016】
ある場合は、まず、テキスト解析2で、テキストから自然言語処理によりその内容を特徴付けるキーワードを自動抽出する。すなわち、単語およびその品詞・活用情報を格納した単語辞書11を参照して、テキストを単語に分割し、品詞が名詞である単語をキーワードとし、各キーワードの出現頻度とともにキーワードテーブル12に格納する。
【0017】
次に、カテゴリ推定3で、予め各カテゴリを特徴付けるキーワードを定義・格納した分類知識13およびカテゴリの体系を定義したカテゴリ定義テーブル14を参照して、テキストから抽出したキーワードテーブル12のキーワードが、どのカテゴリに含まれているかを探索し、含まれている場合には、そのカテゴリに得点を付与する。そして、得点の高いカテゴリがそのテキストの分類すべきカテゴリであると推定する。推定結果は、推定カテゴリテーブル15に格納する。また、カテゴリを推定する際に用いたキーワード情報や、カテゴリの得点情報などのデータは、ログデータ17に格納する。
【0018】
次に、ユーザに推定結果をチェックさせるために、推定結果を出力する。このとき、推定結果をその内容が類似している文書毎に表示するか否かをユーザに指定させ(3a)、内容が類似している文書毎に表示しない場合、文書IDの順に推定結果を表示する。
【0019】
内容が類似している文書毎に表示する場合は、類似文書認定4で、推定カテゴリテーブル15に格納された各文書のカテゴリ推定結果から、類似している文書を認定し、その結果を類似文書テーブル16に格納する。
【0020】
次に、ユーザによってカテゴリが確定されていない文書があれば(4a)、カテゴリ推定結果を順次ユーザに提示し(5)、結果のチェックおよび分類すべきカテゴリの確定を促す(5a)。このときに、ログデータ17に格納した解析データもユーザに提示する。
【0021】
ユーザは、提示されたカテゴリが正しいかをチェックする。そして、正しいのであれば、カテゴリを確定し、文書データベース18に文書を登録する。
正しくないのであれば、正しいカテゴリを見つけなければならない。そのとき、ユーザが分類すべきカテゴリの推定をしなおすと指示した場合、まず、提示されているログデータについて、ユーザに修正させ(6)、修正後のデータに基づいて、カテゴリを再推定し(7)、新しい推定結果を新しい解析データとともにユーザに提示する。これにより、正しいカテゴリであるとユーザが判断した場合、カテゴリを確定し(8)、文書データベースに登録する(9)。カテゴリの再推定を何度か行っても正しいカテゴリを見つけられない場合、ユーザが人手でカテゴリを確定する。
【0022】
カテゴリを確定すると、次の文書のチェックに移り(9a)、その文書のカテゴリ推定結果およびログデータを出力する。
【0023】
図2は、本実施例のハードウエアの概要を示す図である。ユーザからの操作指示およびデータを入力するためのキーボード20、マウス25、結果を出力する出力モニタ30、種々の処理を実行する処理装置40、ファイルやプログラムを格納する記憶装置50からなる。また、文書データを取得するために、計算機ネットワーク90と接続されており、ネットワークを介して文書を取得可能となっている。
【0024】
記憶装置50は、一時的なデータを格納するワーキングエリア61、取得した文書データを一時格納する文書ファイル格納エリア62、単語辞書格納エリア63、キーワードテーブル格納エリア64、分類知識格納エリア65、カテゴリ定義テーブル格納エリア66、推定カテゴリテーブル格納エリア67、類似文書テーブル格納エリア68、ログデータ格納エリア69、文書データベース格納エリア70を含んでいる。ワーキングエリア61以外の上記格納エリアに格納されるのは、データ形式のファイルである。
【0025】
さらに、記憶装置50は、テキスト解析処理部格納エリア71、カテゴリ推定処理部格納エリア72、類似文書認定処理部格納エリア73、カテゴリ推定結果表示部格納エリア74、ログデータ修正部格納エリア75、カテゴリ再推定処理部格納エリア76、カテゴリ確定処理部格納エリア77、文書データベース登録処理部格納エリア78をも含んでいる。これらの格納エリアに格納されるのは、実行形式のロードモジュールファイルである。
【0026】
なお、図2に示した( )内の数字は図1に示した各部との対応関係を示す。
【0027】
図3は、文書に含まれるテキスト情報の一例を示す図である。
本実施例で扱う文書データは、新聞記事であるが、文書データとしては、電子ニュース、電子メール、科学技術論文、特許明細書、クレーム・質問・意見文、会議の議事録など、他の種類のものでも良い。また、本実施例では、文書データには、テキスト情報を含んでいることを前提とし、これらの情報は、テキストコード形式でファイルに格納されていることを前提とする。ただし、静止画、動画、音声情報などがリンクされているものは差し支えない。
【0028】
図4は、テキスト解析2で参照する単語辞書11の一例を示す図である。単語辞書は、見出し201の他、品詞202、活用種203、活用行204といった単語属性情報を持つ。
【0029】
図5は、テキスト解析2における、単語分割結果の一例を示す図である。テキスト解析2では、まず、図3のようなテキストに対して、図4の単語辞書11を参照して、各文を単語毎に分割し、図5のように、単語の見出し211および品詞212を抽出する。単語分割の具体的な実現方法については、例えば、情報処理学会第44回全国大会論文集(3)3−181に示すように、既に公知であるので、ここでは詳細の記述を省略する。
【0030】
図6は、テキストから抽出したキーワードを格納するキーワードテーブル12の一例を示す図である。テキスト解析2では、テキストを単語分割した後、品詞が名詞である単語を抽出してキーワードとし、さらに当該テキストにおける各キーワードの出現頻度を算出し、キーワードの重みとする。もちろん、名詞以外の品詞をキーワードとしても良いし、出現頻度を重みとする以外にも、キーワードの出現位置や、その前後の単語との関係などを考慮して重み付けしても良い。キーワードテーブル12は、文書を識別する文書ID221、キーワード見出し222、その重み223からなる。
【0031】
図7は、カテゴリの体系を定義したカテゴリ定義テーブル14の一例を示す図である。本実施例では、新聞記事を分類するためのカテゴリとして、大カテゴリ231と小カテゴリ232という2階層からなるカテゴリを定義している。大カテゴリ231のそれぞれには、一つ以上の小カテゴリ232が属しており、木構造の体系をしている。カテゴリの階層は、何階層あっても良い。
【0032】
図8は、分類知識13の一例を示す図である。本実施例では、キーワードの有無に基づいて分類すべきカテゴリを推定するという手法を用いている。従って、分類知識13は、カテゴリを特徴付けるキーワードの集合である。すなわち、分類知識13は、大カテゴリ241、小カテゴリ242、そのカテゴリを特徴付けるキーワード243、およびそのキーワードの重要度に依存する重み244からなる。重み244は、そのキーワードがそのカテゴリを特徴付ける重要なキーワードであるほど、値が大きい。なお、この分類知識13は、予め記憶装置50に格納しておく。また、分類知識は、人手によって作成しても良いし、既にカテゴリの確定しているテキストをカテゴリ別に用意し、カテゴリ毎にキーワードを自動抽出することによって、作成しても良い。
【0033】
図9は、カテゴリ推定3の処理手順を示す図である。まず、各カテゴリの得点を格納するテーブルを0に初期化する(ステップ501)。
【0034】
次に、キーワードテーブル12に格納された当該文書のキーワードすべてについて以下の処理を行う(ステップ502)。当該キーワードを含む分類知識13中のカテゴリが存在するか否かを判別し(ステップ503)、存在するカテゴリについては、当該文書のキーワードの持つ重みWi(図6の223に相当)と、当該カテゴリのキーワードの持つ重みWj(図8の244に相当)の積を計算し、当該カテゴリの得点として、加算する(ステップ504)。
【0035】
すべてのキーワードについて上記の処理を行った時点で、各カテゴリの得点が決定されるので、これらの得点から各カテゴリの得点の偏差値を計算する(ステップ505)。さらに、偏差値の高い順にカテゴリをソートする(ステップ506)。そして、推定カテゴリテーブル15に、当該文書ID、カテゴリ、およびその偏差値の値を組にして、偏差値の高い順に格納する(ステップ507)。本実施例では、上位3個のカテゴリを格納する。もちろん、上位n個のカテゴリを格納しても良いし、偏差値の値に下限を設けて、下限以上のカテゴリを格納しても良い。最後に、ログデータ17に、当該文書ID,当該文書から抽出したキーワード、各キーワードが各カテゴリの持つキーワードに含まれる場合、ステップ504の重みWi、重みWj、及びその積の値を格納する(ステップ508)。
【0036】
なお、本実施例は、2階層(大カテゴリ、小カテゴリ)のカテゴリ体系をなしているが、カテゴリ推定3では、小カテゴリについて行い、大カテゴリの推定は、小カテゴリが決まれば一意に決まるので、行っていない。別の推定方法として、まず、大カテゴリについてカテゴリを推定し、上位にランクされた大カテゴリに限定した形で、小カテゴリを推定する方法でも良い。この場合、大カテゴリを特徴付けるキーワードおよびその重みを定義した分類知識13が必要である。人手により新たに作成しても良いし、小カテゴリに関する分類知識を大カテゴリ毎にまとめあげることで容易に作成することもできる。
【0037】
図10は、推定カテゴリテーブル15の一例を示す図である。推定カテゴリテーブル15は、文書ID251、推定されたカテゴリの順位252、推定された大カテゴリ候補253、推定された小カテゴリ候補254、そのカテゴリの偏差値255からなる。
【0038】
図11は、類似文書認定4の処理手順を示す図である。まず、類似文書テーブル16を初期化する(ステップ521)。次に、すべてのカテゴリについて、以下の処理を行う(ステップ522)。推定カテゴリテーブル15を参照して、カテゴリを推定した文書の中で、当該カテゴリに第1位に分類すべきと推定された文書の文書IDを抽出する(ステップ523)。
【0039】
次に、抽出した文書IDについて、第2位に分類すべきと推定されたカテゴリ毎にまとめ、当該カテゴリと対応付けて、類似文書テーブル16に格納する(ステップ524)。
【0040】
図12は、類似文書テーブル16の一例を示す図である。図11に示すように、本実施例では、第1位に推定されたカテゴリと第2位に推定されたカテゴリが同一の文書毎にまとめられて、類似文書テーブル16に格納している。すなわち、類似文書テーブル16は、第1位に推定されたカテゴリ261、第2位に推定されたカテゴリ262、そして、それらを推定結果としてもつ文書ID263から構成される。
【0041】
図13は、カテゴリ推定結果表示の一例を示す図である。ここで、文書指定ボタン401は、処理する文書の範囲を指定するものであり、文書の存在するディレクトリを指定する。分類ボタン402は、指定された文書について、テキスト解析2およびカテゴリ推定3を実行し、推定結果およびログデータを得る。再分類ボタン403は、ユーザによって修正されたデータに基づいてカテゴリの再推定を実行し、再推定結果を出力する。絞込分類ボタン404は、後述するように、上位階層のカテゴリをユーザに指定させ、そのカテゴリに属する下位カテゴリに限定した中でカテゴリ推定を実行し、推定結果を出力する。カテゴリ一覧ボタン405は、カテゴリ定義テーブル14の内容を表示する。分類知識参照ボタン406は、分類知識13に格納されているキーワードおよびその重みをカテゴリ別に表示する。終了ボタン407は、システムを終了する。
【0042】
411は、テキストの内容を表示するエリアであり、文書テキストのIDも表示している。412は、当該テキストから抽出したキーワードおよびその重み(出現頻度)を対にして重みの高い順に表示するエリアである。
【0043】
413は、各カテゴリについて、412のキーワードのうち、どのキーワードを含んでいるか、また、その得点はどのくらいの大きさかを表示する。カテゴリの指定は、分類結果である414のカテゴリのうちのどれか一つを指定することにより行う。図13の413で、例えば、「円」というキーワードは、「国際経済」という小カテゴリのキーワードに含まれており、テキストから抽出したキーワードの持つ重みWiが4、分類知識13の「国際経済」という小カテゴリのキーワード「円」の持つ重みWjが8、その結果、得点が4×8=32点与えられたことを示している。
【0044】
414は、推定された大カテゴリ、小カテゴリ、およびその偏差値を表示するエリアである。415は、ユーザが確定したカテゴリを表示するエリアである。
416は、現在チェックしている文書の直前にチェックした文書について、そのカテゴリ推定結果およびログデータ、確定カテゴリを表示するボタンである。これらチェック済みの文書に関するデータは、推定カテゴリテーブルおよびログデータに格納されているので、それらのデータを表示することで容易に実現可能である。
【0045】
417は、現在チェックしている文書についてカテゴリを確定し、次の文書のチェックに移ることを指示するボタンである。この時点で、415に記述されたカテゴリを分類すべきカテゴリとして確定し、文書データベース18に当該文書をカテゴリ情報とともに登録する。
【0046】
図14は、カテゴリ推定結果表示の他の一例を示す図である。421は、分類知識の一覧であり、分類知識参照ボタン406を押した時に、分類知識13を参照して表示する。422は、カテゴリ一覧ボタン405を押した時に、カテゴリ定義テーブル14を参照して表示する。423は、カテゴリの範囲を記述した文章であり、カテゴリ一覧422において、どれか一つのカテゴリを選択した場合に、表示される。
【0047】
図15は、ユーザによりログデータが修正された後の画面の一例を示す図である。411、412については、ユーザがキーボード20およびマウス25を介して表示されたデータを修正できるようになっている。図15では、412について修正がなされている。キーワードに関しては、表示されているキーワードの削除、新しいキーワードの追加、表示されている重みの修正が可能である。修正前の画面である図13に対し、図15では、「円」、「為替市場」、「急騰」などのキーワードの重みが修正され、また、「1日」、「一時」などのあまり重要でないキーワードが削除されている。
【0048】
図16は、カテゴリ再推定結果の一例を示す図である。キーワードおよびその重みを修正した結果、分類結果414として、前回の推定結果として現れなかったカテゴリ「為替」が第1位に新しく現れたことを示している。このように新たに現れたカテゴリについては、星印を付加して、他のカテゴリと区別している。もちろん、区別の仕方は星印の付加以外でも良い。
【0049】
図17は、カテゴリ再推定7の処理手順を示す図である。まず、各カテゴリの得点を格納するテーブルを0に初期化する(ステップ541)。
【0050】
次に、当該文書ID、修正後のテキスト、修正後のキーワードおよびその重みを出力画面から読み取り、ワーキングエリア16に格納する(ステップ542)。 次に、テキスト情報が修正されたか否かを判別する(ステップ543)。テキスト情報が修正されてしまうと、そこから抽出されるキーワードおよびその重みが大きく変わるため、テキスト解析2からやり直す必要がある。それに対して、テキスト情報が修正されていない場合は、表示画面から読み取ったキーワード情報を使用することができるので、カテゴリ推定3から処理すれば良い。テキスト情報が修正されたか否かについては、テキスト修正フラグを設け、そのオンオフにより判別できる。
【0051】
ステップ543で、テキスト情報が修正された場合、テキスト解析2を実行して、修正後のテキストからキーワードおよび重みを抽出し、結果をワーキングエリア61に格納する(ステップ544)。
【0052】
次に、ワーキングエリア61に格納されたすべてのキーワードについて、以下の処理を行う(ステップ545)。当該キーワードを含む分類知識中のカテゴリが存在するか否かを判別し(ステップ546)、存在するカテゴリについては、当該文書のキーワードの持つ重みWi(図6の223に相当)と、当該カテゴリのキーワードの持つ重みWj(図8の244に相当)の積を計算し、当該カテゴリの得点として、加算する(ステップ547)。
【0053】
すべてのキーワードについて行った時点で、各カテゴリの得点が決定されるので、これらの得点から各カテゴリの得点の偏差値を計算する(ステップ548)。さらに、偏差値の高い順にカテゴリをソートする(ステップ549)。そして、推定カテゴリテーブル15に、当該文書ID、カテゴリ、およびその偏差値の値を組にして、偏差値の高い順に格納する(ステップ550)。
【0054】
図18は、ログデータ17の一例を示す図である。ログデータ17には、文書ID、テキストから抽出したキーワードおよびその重み、カテゴリ別の得点の内訳、確定されたカテゴリに関するデータを、システム終了するまで格納、保持する。従って、ある文書のカテゴリ推定結果をチェックしているときに、それまでにチェック済みの文書のデータを参照することもできる。
【0055】
図19は、カテゴリ確定8の一例を示す図である。ユーザは、分類結果414を参照して、カテゴリを確定する。本実施例では、分類結果414において、確定したいカテゴリをマウスでダブルクリックすることにより、選択したカテゴリを確定カテゴリ415に表示する。
【0056】
このように、本実施例によれば、文書を分類したい場合、計算機によってカテゴリの候補を推定させ、その結果を表示させ、それをユーザがチェックするというマンマシン分担型の文書分類支援システムを実現できる。また、分類結果を表示する際に、推定されたカテゴリ別にまとめて順次結果を提示するので、ユーザは効率良くチェックが行える。また、提示された結果が誤りであっても、データを修正し、再分類することによって、正しいカテゴリに分類する精度を向上させることができ、分類すべきカテゴリをユーザが一から見つけるという負担の大きな作業をする割合を極力少なくすることができる。
【0057】
次に、本実施例の変形例について述べる。
類似文書認定4において、本実施例では、上位2個の推定カテゴリによって認定したが、推定カテゴリの代わりに、テキストから抽出した重みの高いキーワードによって認定しても良い。
【0058】
図20は、その処理方法を示す図である。まず、類似文書テーブル16を初期化する(ステップ561)。次に、類似文書としてまだ認定されていない文書の存在する間、以下の処理を実行する(ステップ562)。認定されていないある文書について、当該文書から抽出された重みの高いm種類のキーワードのうちのn種類(m>=n)以上のキーワードが、重みの高いm種類のキーワードの中に含まれている文書を抽出し、類似文書集合を識別するための集合識別子とともに、類似文書テーブルに格納する(ステップ563)。図11では、集合識別子に相当するものとして、カテゴリの名称を用いていたが、ここでは、それを代用するものとして、集合識別子を定義する。これは、類似文書集合を識別可能であれば、どんな形でも良い。
【0059】
ステップ563の後、類似文書テーブル16に格納した文書をステップ562の処理対象から除く(ステップ564)。
以上の処理によって、カテゴリ推定された結果をユーザに提示する際に、重みの高いキーワードをどれだけ共有しているかということに基づいて類似文書毎に提示することが可能となる。
【0060】
次に、本実施例の拡張例について述べる。
本実施例のように、カテゴリが複数の階層からなる場合、上位カテゴリをユーザに提示して指定させ、指定された上位カテゴリに属する下位カテゴリに限定してカテゴリの推定を行うことにより、分類精度向上が期待できる。これは、特に、下位カテゴリの数が膨大である場合に、有効である。
【0061】
図21は、大カテゴリを指定するための画面の一例を示した図である。大カテゴリの指定は、絞込分類ボタン404が押された時、指定用画面424を表示することによって行われる。大カテゴリの指定は、複数であっても良い。また、指定用画面424における大カテゴリの表示順序は、基本的には、カテゴリ定義テーブル14に定義されている順序であるが、カテゴリ推定3において、まず大カテゴリを推定し、その結果を用いて小カテゴリを推定する手法を採用する場合には、当該文書の大カテゴリに関する推定結果をログデータ17に格納・保持しておくことにより、大カテゴリの推定結果の順序に基づいて表示することも可能である。
【0062】
指定用画面424によって、大カテゴリを指定した後、再分類ボタン403を押すことによって、指定された大カテゴリに限定したカテゴリ再推定7を実行する。図17に示すカテゴリ再推定7の処理手順のステップ550において、推定カテゴリテーブル15に推定結果を格納する際に、推定されたカテゴリの大カテゴリがユーザによって指定された大カテゴリに含まれている場合に限り、格納することにより、上位カテゴリによる絞り込みが実現できる。図13の結果表示において、仮に、ユーザが、大カテゴリを「経済」に絞り込んだ場合、分類結果414において、2位の「政治:国会」というカテゴリは、除去される。
【0063】
このように、上位カテゴリが比較的少なく、ユーザが容易に確定できる場合、上位カテゴリで絞り込んでカテゴリを推定することにより、正しいカテゴリを得ることができるようになる。
【0064】
【発明の効果】
文書の自動分類結果をユーザがチェックする際に、計算機によって分類された結果が類似した文書毎にユーザに順次提示し、チェックを促すので、以前の文書をチェックしたときのコツ、ノウハウ、教訓、データなどを次回の文書のチェックに活かすことが容易となり、チェック作業時間が少なく済む。
【0065】
また、自動分類結果が誤りであった場合でも、自動分類結果とともに出力するログデータをユーザに修正させ、再推定することにより、正しい分類結果を導くことが可能であるため、最初の自動分類結果が誤りであった場合に、ユーザが一から分類しなおすという負担の重い作業を軽減することができる。
【図面の簡単な説明】
【図1】本実施例の概要を示す図である。
【図2】本実施例のハードウエアの概要を示す図である。
【図3】文書に含まれるテキストの一例を示す図である。
【図4】単語辞書の一例を示す図である。
【図5】テキスト解析における単語分割結果の一例を示す図である。
【図6】キーワードテーブルの一例を示す図である。
【図7】カテゴリ定義テーブルの一例を示す図である。
【図8】分類知識の一例を示す図である。
【図9】カテゴリ推定の処理手順を示す図である。
【図10】推定カテゴリテーブルの一例を示す図である。
【図11】類似文書認定の処理手順を示す図である。
【図12】類似文書テーブルの一例を示す図である。
【図13】カテゴリ推定結果表示の一例を示す図である。
【図14】カテゴリ推定結果表示の他の一例を示す図である。
【図15】ユーザにより修正後の画面の一例を示す図である。
【図16】カテゴリ再推定結果の一例を示す図である。
【図17】カテゴリ再推定の処理手順を示す図である。
【図18】ログデータの一例を示す図である。
【図19】カテゴリ確定の一例を示す図である。
【図20】類似文書認定の他の処理手順を示す図である。
【図21】上位カテゴリの絞り込みの一例を示す図である。
【符号の説明】
1:文書入力、2:テキスト解析、3:カテゴリ推定、4:類似文書認定、
5:カテゴリ推定結果表示、6:ログデータ修正、7:カテゴリ再推定、
8:カテゴリ確定、9:文書データベース登録、10:文書ファイル、
11:単語辞書、12:キーワードテーブル、13:分類知識、
14:カテゴリ定義テーブル、15:推定カテゴリテーブル、
16:類似文書テーブル、17:ログデータ、18:文書データベース
[0001]
[Industrial applications]
The present invention relates to a document classification method and apparatus for classifying digitized documents including text information into categories, and more particularly to a document classification support method and apparatus for efficiently performing a task of checking a classification result by a computer by a user. About.
[0002]
[Prior art]
With the socialization of information and the development of information infrastructure, a large amount of information has become flooded, and it has become essential to extract necessary information efficiently. One of the solutions is to classify documents into appropriate categories in advance, and the development of a computer-based automatic classification technique has been required.
[0003]
Examples of automatic classification technology of digitized text documents include Proceedings of Second Annual Conference on Innovative (1990), IPSJ Research Reports NL-98-11, and Info-Tech '94 Lecture Papers pp. 138-pp. 146. These determine the category based on the appearance tendency of the keyword in the text document.
[0004]
[Problems to be solved by the invention]
The above-mentioned technique classifies texts automatically by a computer, and does not refer to a method of determining a classification result in cooperation with a user in the literature. In addition, the classification accuracy by the above technique has not reached the same level as humans.
[0005]
However, in a situation where the same level of classification accuracy as that of a human is required, the user needs to check the classification result of the computer. Therefore, if the computer and the user share the roles and perform the classification work cooperatively, it leads to cost reduction. In other words, how to determine the category to be classified efficiently and with a small work load based on the classification result of the computer is an issue.
[0006]
In particular, when the number of documents to be classified is large, it is an issue how to reduce the work time required for each document and how to reduce the work load. In addition, when the number of categories is relatively large, when the categories are complicated and their identification is extremely difficult, when the classification result output by the computer is determined to be correct, or when the classification result is incorrect In addition, it is very difficult to find a true category from scratch. Therefore, how to perform these operations efficiently is an issue.
[0007]
Therefore, it is an object of the present invention to efficiently perform the operation of determining whether the classification result is correct and the operation of finding a true category when the classification result is incorrect.
[0008]
Also, when a large number of documents are sequentially classified, the order often does not depend on the contents of the documents. In this case, the content described changes greatly every time the document changes, so that the user who checks needs to switch his head to the content every time the content changes. For this reason, there is a problem that the efficiency of the check is low and the work load increases.
[0009]
Therefore, another object of the present invention is to reduce the work load due to frequent and significant changes in the contents of documents to be classified, and to improve the efficiency of the classification work.
[0010]
[Means for Solving the Problems]
In the present invention, log data relating to why a document to be classified is classified into the category is presented to the user via the category estimation result output means, and the presented log data is presented to the user via the user input means. The above problem is solved by causing the user to make a correction, re-estimating the category based on the corrected log data, and presenting the re-estimated category to the user via the estimation result output means.
[0011]
Further, in the present invention, similar document recognition means for estimating a category to be classified for a plurality of documents by a text analysis means and a category estimation means, and recognizing a document set in which the estimated categories are similar or identical to each other. And sequentially presenting the category estimated by the category estimating means to the user via the estimation result output means for the similar document, and determining the category to be classified to the user via the user input means for the presented document. Solves the above problem.
[0012]
[Action]
Documents having similar contents are put together based on the estimated category, and the documents are sequentially presented to the user to prompt the user to check. Therefore, the number of switching of the user's head due to a large change in the content is reduced, and the work load is reduced. In addition, since documents having similar contents continue, it is easy to utilize tips, know-how, lessons learned, data, and the like when checking the previous document in checking the next document, and the checking work time is reduced.
[0013]
【Example】
Embodiments of the present invention will be described below in detail with reference to the drawings.
In this embodiment, newspaper articles are classified into a certain category and stored in a document database. Newspaper article data stored in the database for each category can be searched by using a known search system.
[0014]
FIG. 1 is a diagram illustrating an outline of the present embodiment.
First, a document to be classified is input by a document input 1. The document data may be obtained from the outside via a network, may be obtained via a medium such as a floppy disk, or may be input by handwriting such as a voice recognition device, an image recognition device (including character recognition), and a pen. It may be obtained via a device or the like. Further, the document data may be collectively acquired periodically, or the distributed document data may be acquired irregularly and sequentially. The acquired document data is temporarily stored in the document file 10.
[0015]
Next, the document data is analyzed in accordance with the designation of the document data to be classified and the instruction to execute the category estimation from the user. It is determined whether or not there is a document that has not been estimated (1a). If not, the process proceeds to step 3a.
[0016]
If there is, first, in the text analysis 2, a keyword that characterizes the content is automatically extracted from the text by natural language processing. That is, the text is divided into words with reference to the word dictionary 11 storing the words and their part of speech / utilization information, and the words whose nouns are nouns are set as keywords, and stored in the keyword table 12 together with the appearance frequency of each keyword.
[0017]
Next, in the category estimation 3, referring to the classification knowledge 13 defining and storing the keywords characterizing each category in advance and the category definition table 14 defining the category system, the keywords in the keyword table 12 extracted from the text A search is performed to determine whether the category is included. If the category is included, a score is assigned to the category. Then, it is estimated that the category with the highest score is the category to which the text should be classified. The estimation result is stored in the estimation category table 15. Further, data such as keyword information used in estimating the category and score information of the category are stored in the log data 17.
[0018]
Next, the estimation result is output so that the user can check the estimation result. At this time, the user is instructed whether or not to display the estimation result for each document whose content is similar (3a). If the estimation result is not displayed for each document whose content is similar, the estimation result is displayed in the order of the document ID. indicate.
[0019]
In the case of displaying each document having similar contents, similar document recognition 4 recognizes similar documents from the category estimation result of each document stored in the estimated category table 15 and divides the result into a similar document. Stored in table 16.
[0020]
Next, if there is a document whose category has not been determined by the user (4a), the category estimation results are sequentially presented to the user (5), and the results are checked and the category to be classified is determined (5a). At this time, the analysis data stored in the log data 17 is also presented to the user.
[0021]
The user checks whether the presented category is correct. If it is correct, the category is determined and the document is registered in the document database 18.
If not, you have to find the right category. At that time, if the user instructs to re-estimate the category to be classified, first, the user corrects the presented log data (6), and re-estimates the category based on the corrected data. (7) The new estimation result is presented to the user together with the new analysis data. When the user determines that the category is correct, the category is determined (8) and registered in the document database (9). If the correct category cannot be found even after re-estimating the category several times, the user manually determines the category.
[0022]
When the category is determined, the process proceeds to the next document check (9a), and the category estimation result and log data of the document are output.
[0023]
FIG. 2 is a diagram illustrating an outline of hardware of the present embodiment. It comprises a keyboard 20, a mouse 25 for inputting operation instructions and data from a user, an output monitor 30 for outputting results, a processing device 40 for executing various processes, and a storage device 50 for storing files and programs. In addition, it is connected to a computer network 90 for acquiring document data, and can acquire documents via the network.
[0024]
The storage device 50 includes a working area 61 for temporarily storing data, a document file storage area 62 for temporarily storing acquired document data, a word dictionary storage area 63, a keyword table storage area 64, a classification knowledge storage area 65, and a category definition. It includes a table storage area 66, an estimated category table storage area 67, a similar document table storage area 68, a log data storage area 69, and a document database storage area 70. What is stored in the storage area other than the working area 61 is a file in a data format.
[0025]
Further, the storage device 50 includes a text analysis processing unit storage area 71, a category estimation processing unit storage area 72, a similar document recognition processing unit storage area 73, a category estimation result display unit storage area 74, a log data correction unit storage area 75, a category It also includes a re-estimation processing unit storage area 76, a category determination processing unit storage area 77, and a document database registration processing unit storage area 78. Stored in these storage areas are executable load module files.
[0026]
Note that the numbers in parentheses shown in FIG. 2 indicate the correspondence with the respective parts shown in FIG.
[0027]
FIG. 3 is a diagram illustrating an example of text information included in a document.
The document data handled in this embodiment is a newspaper article, but other types of document data such as electronic news, e-mail, scientific and technical papers, patent specifications, claims / questions / opinions, minutes of meetings, etc. It may be something. In this embodiment, it is assumed that the document data includes text information, and that such information is stored in a file in a text code format. However, a still image, a moving image, audio information, and the like may be linked.
[0028]
FIG. 4 is a diagram illustrating an example of the word dictionary 11 referred to in the text analysis 2. The word dictionary has, in addition to the heading 201, word attribute information such as a part of speech 202, a utilization type 203, and a utilization line 204.
[0029]
FIG. 5 is a diagram illustrating an example of a word segmentation result in text analysis 2. In the text analysis 2, first, the text shown in FIG. 3 is divided into each sentence with reference to the word dictionary 11 in FIG. 4, and as shown in FIG. Is extracted. Since a specific method of realizing word division is already known, as shown in, for example, the 44th National Convention of Information Processing Society of Japan, (3) 3-181, detailed description is omitted here.
[0030]
FIG. 6 is a diagram illustrating an example of the keyword table 12 that stores keywords extracted from text. In the text analysis 2, after the text is divided into words, words whose nouns are nouns are extracted and used as keywords, and the appearance frequency of each keyword in the text is calculated and used as the weight of the keywords. Of course, a part of speech other than a noun may be used as a keyword, and in addition to using the appearance frequency as a weight, weighting may be performed in consideration of the appearance position of the keyword, the relationship with words before and after the keyword, and the like. The keyword table 12 includes a document ID 221 for identifying a document, a keyword heading 222, and a weight 223.
[0031]
FIG. 7 is a diagram illustrating an example of the category definition table 14 in which a category system is defined. In this embodiment, as a category for classifying newspaper articles, a category having two hierarchies of a large category 231 and a small category 232 is defined. One or more small categories 232 belong to each of the large categories 231 and have a tree structure. There can be any number of categories.
[0032]
FIG. 8 is a diagram illustrating an example of the classification knowledge 13. In this embodiment, a method of estimating a category to be classified based on the presence or absence of a keyword is used. Therefore, the classification knowledge 13 is a set of keywords characterizing the category. That is, the classification knowledge 13 includes a large category 241, a small category 242, a keyword 243 characterizing the category, and a weight 244 depending on the importance of the keyword. The weight 244 has a larger value as the keyword is an important keyword characterizing the category. The classification knowledge 13 is stored in the storage device 50 in advance. The classification knowledge may be created manually, or may be created by preparing a text whose category is already determined for each category and automatically extracting a keyword for each category.
[0033]
FIG. 9 is a diagram illustrating a processing procedure of the third category estimation. First, a table storing scores of each category is initialized to 0 (step 501).
[0034]
Next, the following processing is performed for all keywords of the document stored in the keyword table 12 (step 502). It is determined whether or not there is a category in the classification knowledge 13 including the keyword (step 503). For the existing category, the weight Wi of the keyword of the document (corresponding to 223 in FIG. 6) and the category The product of the weights Wj (corresponding to 244 in FIG. 8) of the keyword is calculated and added as the score of the category (step 504).
[0035]
When the above processing is performed for all keywords, the score of each category is determined, and the deviation value of the score of each category is calculated from these scores (step 505). Further, the categories are sorted in descending order of the deviation value (step 506). Then, the document ID, the category, and the value of the deviation value are paired and stored in the estimated category table 15 in the descending order of the deviation value (step 507). In this embodiment, the top three categories are stored. Of course, the top n categories may be stored, or a lower limit may be set for the value of the deviation value, and the categories above the lower limit may be stored. Finally, the log data 17 stores the document ID, the keyword extracted from the document, and when each keyword is included in the keyword of each category, the values of the weight Wi, the weight Wj, and the product thereof in step 504 are stored ( Step 508).
[0036]
In the present embodiment, a category system of two layers (large category and small category) is used. However, in category estimation 3, the estimation is performed on the small category, and the estimation of the large category is uniquely determined once the small category is determined. ,not going. As another estimation method, first, a category may be estimated for a large category, and a small category may be estimated in a form limited to a large category ranked higher. In this case, the classification knowledge 13 defining the keyword characterizing the large category and its weight is required. It may be newly created manually, or may be easily created by summarizing the classification knowledge about the small categories for each large category.
[0037]
FIG. 10 is a diagram illustrating an example of the estimated category table 15. The estimated category table 15 includes a document ID 251, an estimated category rank 252, an estimated large category candidate 253, an estimated small category candidate 254, and a deviation value 255 of the category.
[0038]
FIG. 11 is a diagram showing a processing procedure of similar document recognition 4. First, the similar document table 16 is initialized (step 521). Next, the following processing is performed for all categories (step 522). With reference to the estimated category table 15, the document ID of the document estimated to be classified into the first place in the category is extracted from the documents whose category is estimated (step 523).
[0039]
Next, the extracted document IDs are grouped for each category estimated to be classified into the second place, and stored in the similar document table 16 in association with the category (step 524).
[0040]
FIG. 12 is a diagram illustrating an example of the similar document table 16. As illustrated in FIG. 11, in the present embodiment, the category estimated as the first place and the category estimated as the second place are grouped for each same document and stored in the similar document table 16. That is, the similar document table 16 includes the category 261 estimated as the first place, the category 262 estimated as the second place, and the document ID 263 having these as the estimation result.
[0041]
FIG. 13 is a diagram illustrating an example of the category estimation result display. Here, the document designation button 401 is for designating the range of the document to be processed, and designates the directory where the document exists. The classification button 402 executes the text analysis 2 and the category estimation 3 on the specified document, and obtains the estimation result and log data. The re-classification button 403 executes re-estimation of the category based on the data corrected by the user, and outputs a re-estimation result. The narrowing down classification button 404 allows the user to specify a category in an upper hierarchy, executes category estimation limited to lower categories belonging to the category, and outputs an estimation result, as described later. The category list button 405 displays the contents of the category definition table 14. The classification knowledge reference button 406 displays the keywords and their weights stored in the classification knowledge 13 for each category. An end button 407 ends the system.
[0042]
An area 411 displays the contents of the text, and also displays the ID of the document text. An area 412 displays the keywords extracted from the text and the weights (appearance frequencies) in pairs in descending order of the weight.
[0043]
413 displays, for each category, which keyword among the 412 keywords is included, and how large the score is. The category is specified by specifying one of the 414 categories that are the classification results. In 413 of FIG. 13, for example, the keyword “yen” is included in the keyword of the small category “international economy”, the weight Wi of the keyword extracted from the text is 4, and the “international economy” of the classification knowledge 13 is The weight “Wj” of the keyword “circle” in the small category “8” is 8, and as a result, 4 × 8 = 32 points are given.
[0044]
An area 414 displays the estimated large category, small category, and their deviation values. An area 415 displays the category determined by the user.
A button 416 displays the category estimation result, log data, and confirmed category of the document checked immediately before the currently checked document. Since the data on these checked documents is stored in the estimated category table and the log data, it can be easily realized by displaying those data.
[0045]
A button 417 is used to determine the category of the currently checked document, and to instruct to check the next document. At this time, the category described in 415 is determined as a category to be classified, and the document is registered in the document database 18 together with the category information.
[0046]
FIG. 14 is a diagram showing another example of the category estimation result display. Reference numeral 421 denotes a list of classification knowledge, which is displayed with reference to the classification knowledge 13 when the classification knowledge reference button 406 is pressed. Reference numeral 422 indicates the category definition table 14 when the category list button 405 is pressed. A text 423 describes the range of the category, and is displayed when any one of the categories is selected in the category list 422.
[0047]
FIG. 15 is a diagram illustrating an example of the screen after the log data has been corrected by the user. Regarding 411 and 412, the user can modify the data displayed via the keyboard 20 and the mouse 25. In FIG. 15, a correction has been made for 412. As for keywords, it is possible to delete displayed keywords, add new keywords, and correct displayed weights. In contrast to FIG. 13 which is the screen before correction, in FIG. 15, the weights of keywords such as “yen”, “foreign exchange market”, and “rapid rise” are corrected. Non-keywords have been deleted.
[0048]
FIG. 16 is a diagram illustrating an example of the category re-estimation result. As a result of correcting the keywords and their weights, the category "exchange" that did not appear as the previous estimation result newly appeared as the first place as the classification result 414. Categories that have newly appeared in this way are distinguished from other categories by adding an asterisk. Of course, the method of distinction may be other than the addition of the star.
[0049]
FIG. 17 is a diagram illustrating a processing procedure of the category re-estimation 7. First, a table storing scores of each category is initialized to 0 (step 541).
[0050]
Next, the document ID, the corrected text, the corrected keyword, and its weight are read from the output screen and stored in the working area 16 (step 542). Next, it is determined whether the text information has been corrected (step 543). If the text information is corrected, the keywords extracted therefrom and their weights change greatly, and it is necessary to start over from the text analysis 2. On the other hand, when the text information has not been corrected, the keyword information read from the display screen can be used, so that the processing may be performed from the category estimation 3. Whether or not the text information has been corrected can be determined by providing a text correction flag and turning it on and off.
[0051]
If the text information is corrected in step 543, text analysis 2 is executed to extract keywords and weights from the corrected text and store the result in the working area 61 (step 544).
[0052]
Next, the following processing is performed for all keywords stored in the working area 61 (step 545). It is determined whether or not a category in the classification knowledge including the keyword exists (step 546). For the existing category, the weight Wi of the keyword of the document (corresponding to 223 in FIG. 6) and the The product of the weights Wj (equivalent to 244 in FIG. 8) of the keyword is calculated and added as the score of the category (step 547).
[0053]
Since the score of each category is determined at the point of time when all the keywords are performed, a deviation value of the score of each category is calculated from these scores (step 548). Further, the categories are sorted in descending order of the deviation value (step 549). Then, the document ID, the category, and the value of the deviation value are paired and stored in the estimated category table 15 in the descending order of the deviation value (step 550).
[0054]
FIG. 18 is a diagram illustrating an example of the log data 17. The log data 17 stores and holds the document ID, keywords extracted from the text and their weights, the breakdown of the scores for each category, and data related to the determined categories until the system is terminated. Therefore, when checking the category estimation result of a certain document, it is possible to refer to the data of the document which has been checked so far.
[0055]
FIG. 19 is a diagram illustrating an example of the category determination 8. The user determines the category with reference to the classification result 414. In the present embodiment, in the classification result 414, by double-clicking the category to be determined with the mouse, the selected category is displayed as the determined category 415.
[0056]
As described above, according to the present embodiment, when a document is to be classified, a computer-assisted category candidate is estimated, the result is displayed, and the user checks the result, thereby realizing a man-machine sharing type document classification support system. it can. In addition, when displaying the classification results, the results are presented sequentially in a grouped manner for each estimated category, so that the user can efficiently check. In addition, even if the presented result is incorrect, the data can be corrected and re-classified to improve the accuracy of classifying the data into a correct category. The rate of performing large tasks can be reduced as much as possible.
[0057]
Next, a modified example of the present embodiment will be described.
In the similar document recognition 4, in the present embodiment, the recognition is performed based on the top two estimated categories. However, instead of the estimated category, the recognition may be performed using a keyword having a high weight extracted from the text.
[0058]
FIG. 20 is a diagram showing the processing method. First, the similar document table 16 is initialized (step 561). Next, the following process is executed while there is a document that has not been recognized as a similar document (step 562). For a certain document that has not been certified, n (m> = n) or more keywords out of the m weight keywords extracted from the document are included in the m weight keywords. The extracted document is extracted and stored in a similar document table together with a set identifier for identifying a similar document set (step 563). In FIG. 11, the name of the category is used as the equivalent of the set identifier, but here, the set identifier is defined as a substitute for the name. This may be in any form as long as a similar document set can be identified.
[0059]
After step 563, the documents stored in the similar document table 16 are excluded from the processing target of step 562 (step 564).
By the above processing, when presenting the result of the category estimation to the user, it is possible to present each similar document based on how much a keyword having a high weight is shared.
[0060]
Next, an extended example of the present embodiment will be described.
When the category is composed of a plurality of layers as in the present embodiment, the upper category is presented to the user to be specified, and the category is estimated only for the lower category belonging to the specified higher category, whereby the classification accuracy is improved. Improvement can be expected. This is particularly effective when the number of lower categories is enormous.
[0061]
FIG. 21 is a diagram showing an example of a screen for specifying a large category. The designation of the large category is performed by displaying the designation screen 424 when the narrow-down classification button 404 is pressed. The designation of the large category may be plural. The display order of the large categories on the designation screen 424 is basically the order defined in the category definition table 14, but in the category estimation 3, the large category is first estimated, and the result is used by using the result. When the method of estimating the small category is adopted, the estimation result of the large category of the document is stored and held in the log data 17 so that the document can be displayed based on the order of the estimation result of the large category. It is.
[0062]
After the large category is designated on the designation screen 424, the category re-estimation 7 limited to the designated large category is executed by pressing the re-classification button 403. When storing the estimation result in the estimation category table 15 in step 550 of the processing procedure of the category re-estimation 7 shown in FIG. 17, when the large category of the estimated category is included in the large category specified by the user. Only by storing, it is possible to narrow down by upper category. In the result display of FIG. 13, if the user narrows down the large category to “economy”, the category “politics: parliament” in the second place in the classification result 414 is removed.
[0063]
As described above, when the upper category is relatively small and the user can easily determine the category, the correct category can be obtained by narrowing down the upper category and estimating the category.
[0064]
【The invention's effect】
When the user checks the automatic classification result of the document, the result classified by the computer is sequentially presented to the user for each similar document, and the check is prompted, so that the tips, know-how, lessons, and It becomes easy to utilize data and the like for the next document check, and the check work time is reduced.
[0065]
Even if the result of the automatic classification is incorrect, the user can correct the log data output together with the result of the automatic classification and re-estimate the result, so that the correct classification result can be derived. In the case where is incorrect, it is possible to reduce the burdensome work of the user re-sorting from the beginning.
[Brief description of the drawings]
FIG. 1 is a diagram showing an outline of the present embodiment.
FIG. 2 is a diagram illustrating an outline of hardware of the embodiment.
FIG. 3 is a diagram illustrating an example of a text included in a document.
FIG. 4 is a diagram illustrating an example of a word dictionary.
FIG. 5 is a diagram illustrating an example of a word segmentation result in text analysis.
FIG. 6 is a diagram illustrating an example of a keyword table.
FIG. 7 is a diagram illustrating an example of a category definition table.
FIG. 8 is a diagram illustrating an example of classification knowledge.
FIG. 9 is a diagram showing a processing procedure of category estimation.
FIG. 10 is a diagram illustrating an example of an estimated category table.
FIG. 11 is a diagram showing a processing procedure for similar document recognition.
FIG. 12 illustrates an example of a similar document table.
FIG. 13 is a diagram showing an example of a category estimation result display.
FIG. 14 is a diagram showing another example of a category estimation result display.
FIG. 15 is a diagram showing an example of a screen after correction by a user.
FIG. 16 is a diagram illustrating an example of a category re-estimation result.
FIG. 17 is a diagram showing a procedure for re-estimating a category.
FIG. 18 is a diagram illustrating an example of log data.
FIG. 19 is a diagram showing an example of category determination.
FIG. 20 is a diagram illustrating another processing procedure of similar document recognition.
FIG. 21 is a diagram illustrating an example of narrowing down upper categories.
[Explanation of symbols]
1: Document input, 2: Text analysis, 3: Category estimation, 4: Similar document recognition,
5: Category estimation result display, 6: Log data correction, 7: Category re-estimation,
8: Category confirmation, 9: Document database registration, 10: Document file,
11: word dictionary, 12: keyword table, 13: classification knowledge,
14: Category definition table, 15: Estimated category table,
16: similar document table, 17: log data, 18: document database

Claims (4)

入力装置、出力装置、及び記憶装置を有する処理装置による、複数の文書をカテゴリに分類するための文書分類支援装置において、
前記記憶装置が、複数の文書と、キーワードを定義した辞書と、カテゴリと各カテゴリを特徴づけるキーワードと前記各カテゴリに対する前記キーワードの重要度を示す第1の重みを定義した分類知識データを記憶し、
前記処理装置の解析手段が、前記記憶装置の前記辞書を参照して、各文書に含まれるキーワードを抽出し、
前記処理装置の推定手段が、前記各文書に含まれる各キーワードの出現頻度に基づいて各キーワードの第2の重みを算出し、前記分類知識データを参照して、前記分類知識データで定義された前記カテゴリのうち前記解析手段で抽出された前記キーワードを含むカテゴリを探索し、探索された前記カテゴリにおける前記各キーワードの前記第1の重みと前記第2の重みに基づいて前記カテゴリにおける前記各キーワードの得点を算出し、前記カテゴリごとに前記キーワードの得点を加算して前記カテゴリの偏差値を算出し、算出された前記カテゴリの偏差値に従って前記文書ごとに前記カテゴリをソートし、
前記処理装置の認定手段が、前記複数の文書のうち、ソートによる順位の高いカテゴリが共通する文書を類似文書として認定し、
前記出力装置が、前記認定手段によって認定された前記類似文書ごとに、前記推定手段の推定結果を出力することを特徴とする文書分類支援装置。
An input device, an output device, and a processing device having a storage device, a document classification support device for classifying a plurality of documents into categories,
The storage device stores a plurality of documents, a dictionary defining keywords, a category, a keyword characterizing each category, and classification knowledge data defining a first weight indicating the importance of the keyword for each category. ,
The analysis unit of the processing device refers to the dictionary of the storage device and extracts a keyword included in each document,
The estimating means of the processing device calculates a second weight of each keyword based on the frequency of appearance of each keyword included in each document, refers to the classification knowledge data, and defines the second weight by the classification knowledge data. A search is made for a category including the keyword extracted by the analysis means from among the categories, and each of the keywords in the category is determined based on the first weight and the second weight of the keyword in the searched category. Calculate the score of, calculate the deviation value of the category by adding the score of the keyword for each category, sort the category for each document according to the calculated deviation value of the category,
The certifying unit of the processing device certifies, as a similar document, a document having a common category having a high ranking by sorting among the plurality of documents,
The document classification support device, wherein the output device outputs an estimation result of the estimation unit for each of the similar documents recognized by the recognition unit.
前記処理装置の確定手段が、前記推定手段の推定結果のカテゴリのうち、ユーザが指定したカテゴリを前記文書のカテゴリとして確定することを特徴とする請求項の文書分類支援装置。It said determining means of the processing device, wherein among the estimation result of the category estimation unit, document classification assisting apparatus according to claim 1, characterized in that to determine the user-specified category as the category of the document. 複数の文書をカテゴリに分類するための文書分類支援装置において、
複数の文書と、キーワードを定義した辞書と、カテゴリと各カテゴリを特徴づけるキーワードと前記各カテゴリに対する前記キーワードの重要度を示す第1の重みを定義した分類知識データを記憶する記憶装置と、
前記記憶装置の前記辞書を参照して、各文書に含まれるキーワードを抽出する解析手段と、
前記各文書に含まれる各キーワードの出現頻度に基づいて各キーワードの第2の重みを算出し、前記分類知識データを参照して、前記分類知識データで定義された前記カテゴリのうち前記解析手段で抽出された前記キーワードを含むカテゴリを探索し、探索された前記カテゴリにおける前記各キーワードの前記第1の重みと前記第2の重みに基づいて前記カテゴリにおける前記各キーワードの得点を算出し、前記カテゴリごとに前記キーワードの得点を加算して前記カテゴリの偏差値を算出し、算出された前記カテゴリの偏差値に従って前記文書ごとに前記カテゴリをソートする推定手段と、
前記複数の文書のうち、ソートによる順位の高いカテゴリが共通する文書を類似文書として認定する認定手段と、
前記認定手段で認定された前記類似文書ごとに、前記推定手段の推定結果を出力する出力手段を有することを特徴とする文書分類支援装置。
In a document classification support device for classifying a plurality of documents into categories,
A storage device for storing a plurality of documents, a dictionary defining keywords, a category, a keyword characterizing each category, and classification knowledge data defining a first weight indicating importance of the keyword for each category;
Analysis means for extracting a keyword included in each document by referring to the dictionary of the storage device;
The second weight of each keyword is calculated based on the appearance frequency of each keyword included in each document, and the analysis unit refers to the classification knowledge data and selects the category defined by the classification knowledge data. Searching for a category including the extracted keyword; calculating a score of each keyword in the category based on the first weight and the second weight of each keyword in the searched category; Estimating means for calculating the deviation value of the category by adding the score of the keyword for each document, and sorting the category for each document according to the calculated deviation value of the category;
A certifying unit for certifying, as a similar document, a document having a common category having a high ranking by sorting among the plurality of documents;
A document classification support device, comprising: output means for outputting an estimation result of the estimation means for each similar document recognized by the authentication means.
前記推定手段の推定結果のカテゴリのうち、ユーザが指定したカテゴリを前記文書のカテゴリとして確定する確定手段を有することを特徴とする請求項の文書分類支援装置。4. The document classification support apparatus according to claim 3 , further comprising a determination unit that determines a category specified by a user among the categories of the estimation result of the estimation unit as a category of the document.
JP17068295A 1995-07-06 1995-07-06 Document classification support method and apparatus Expired - Lifetime JP3603392B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17068295A JP3603392B2 (en) 1995-07-06 1995-07-06 Document classification support method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17068295A JP3603392B2 (en) 1995-07-06 1995-07-06 Document classification support method and apparatus

Publications (2)

Publication Number Publication Date
JPH0922414A JPH0922414A (en) 1997-01-21
JP3603392B2 true JP3603392B2 (en) 2004-12-22

Family

ID=15909447

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17068295A Expired - Lifetime JP3603392B2 (en) 1995-07-06 1995-07-06 Document classification support method and apparatus

Country Status (1)

Country Link
JP (1) JP3603392B2 (en)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250072A (en) * 1998-02-26 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> Information sorting method, device therefor and storage medium stored with information sorting program
JP2000137723A (en) * 1998-10-30 2000-05-16 Ricoh Co Ltd Device and method for classifying document and medium where document classifying program is recorded
US6349307B1 (en) * 1998-12-28 2002-02-19 U.S. Philips Corporation Cooperative topical servers with automatic prefiltering and routing
NZ515293A (en) * 1999-05-05 2004-04-30 West Publishing Company D Document-classification system, method and software
EP1309927A2 (en) * 2000-03-27 2003-05-14 Documentum, Inc. Method and apparatus for generating metadata for a document
JP2002163273A (en) * 2000-11-22 2002-06-07 Hitachi Ltd Document control method and system
JP2002222083A (en) 2001-01-29 2002-08-09 Fujitsu Ltd Device and method for instance storage
JP4817585B2 (en) * 2002-06-21 2011-11-16 株式会社日本総合研究所 Attribute information search apparatus, attribute information search method, and program causing computer to execute the method
JP2004348706A (en) 2003-04-30 2004-12-09 Canon Inc Information processing device, information processing method, storage medium, and program
JP2008176625A (en) * 2007-01-19 2008-07-31 Seiko Epson Corp Device and method for managing character recognition result, and computer program
JP2008225582A (en) * 2007-03-08 2008-09-25 Mazda Motor Corp Text sorting device and program
EP2255303A2 (en) * 2008-02-20 2010-12-01 ITI Scotland Limited Term identification methods and apparatus
JP5615593B2 (en) * 2010-05-19 2014-10-29 株式会社ジャストシステム Electronic document management apparatus, display method, display program, and recording medium
CN107122980B (en) * 2011-01-25 2021-08-27 阿里巴巴集团控股有限公司 Method and device for identifying categories to which commodities belong
KR102297113B1 (en) * 2019-11-18 2021-09-02 주식회사 메드올스 Classification system for subject of medical specialty materials and method thereof

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0748181B2 (en) * 1988-10-17 1995-05-24 シャープ株式会社 How to edit text knowledge in the knowledge organization editor
JPH02238567A (en) * 1989-03-13 1990-09-20 Agency Of Ind Science & Technol Automatic data classification assisting device
JP3303926B2 (en) * 1991-09-27 2002-07-22 富士ゼロックス株式会社 Structured document classification apparatus and method
JPH06348755A (en) * 1993-06-07 1994-12-22 Hitachi Ltd Method and system for classifying document

Also Published As

Publication number Publication date
JPH0922414A (en) 1997-01-21

Similar Documents

Publication Publication Date Title
JP3603392B2 (en) Document classification support method and apparatus
US8321455B2 (en) Method for clustering automation and classification techniques
US9323738B2 (en) Classification of ambiguous geographic references
US6963871B1 (en) System and method for adaptive multi-cultural searching and matching of personal names
US7464096B2 (en) Method and apparatus for information mining and filtering
US20030163302A1 (en) Method and system of knowledge based search engine using text mining
US20050060290A1 (en) Automatic query routing and rank configuration for search queries in an information retrieval system
US20040163035A1 (en) Method for automatic and semi-automatic classification and clustering of non-deterministic texts
JPH06348755A (en) Method and system for classifying document
JP2002175330A (en) Information retrieval device, score-determining device, method for retrieving information, method for determining score, and program recording medium
WO2008062822A1 (en) Text mining device, text mining method and text mining program
JP2013016036A (en) Document component generation method and computer system
CN116992011B (en) Method, system and device for service data matching query
CN115309995A (en) Scientific and technological resource pushing method and device based on demand text
JP4426893B2 (en) Document search method, document search program, and document search apparatus for executing the same
CA1276728C (en) Information retrieval system and method
JPH09185632A (en) Method and device for retrieving/editing information
JP2004206571A (en) Method, device, and program for presenting document information, and recording medium
JP3772401B2 (en) Document classification device
JPH10232871A (en) Retrieval device
JP2002149670A (en) Method and device for classifying information
JPH11134364A (en) Systematized knowledge analyzing method and device therefor, and classifying method and device therefor
JPH09305626A (en) Retrieval document preparing device, retrieval document storage media, device and method for retrieving document
JP2000090110A (en) Full-text retrieval method, device therefor and recording medium recorded with full-text retrieving program
JPS60247756A (en) Data base device

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040608

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040907

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040920

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071008

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081008

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091008

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091008

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101008

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111008

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121008

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121008

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 9

EXPY Cancellation because of completion of term