JPH0922414A - 文書分類支援方法および装置 - Google Patents

文書分類支援方法および装置

Info

Publication number
JPH0922414A
JPH0922414A JP7170682A JP17068295A JPH0922414A JP H0922414 A JPH0922414 A JP H0922414A JP 7170682 A JP7170682 A JP 7170682A JP 17068295 A JP17068295 A JP 17068295A JP H0922414 A JPH0922414 A JP H0922414A
Authority
JP
Japan
Prior art keywords
document
category
classification
estimated
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7170682A
Other languages
English (en)
Other versions
JP3603392B2 (ja
Inventor
Hisao Mase
久雄 間瀬
Yukiko Morimoto
由起子 森本
Hiroshi Tsuji
洋 辻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP17068295A priority Critical patent/JP3603392B2/ja
Publication of JPH0922414A publication Critical patent/JPH0922414A/ja
Application granted granted Critical
Publication of JP3603392B2 publication Critical patent/JP3603392B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 計算機による文書分類結果をユーザがチェッ
クするときの作業負担および作業時間を軽減する。 【構成】 複数の文書の分類結果から、類似している文
書を認定し、類似している文書毎に分類結果をユーザに
順次提示する手段を有する。また、分類時のログデータ
を提示し、ログデータを修正させ、再分類する手段を有
する。 【効果】 類似した文書を連続してチェックできるの
で、作業負担および作業時間が軽減する。また、分類結
果が誤っていても、ログデータを修正し、再分類するこ
とにより、正しい分類結果を得ることが可能となり、作
業負担および作業時間が軽減する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、テキスト情報を含む電
子化文書を、カテゴリに分類する文書分類方法および装
置に関し、特に、計算機による分類結果に対してユーザ
がチェックする作業を効率良く行うための文書分類支援
方法および装置に関する。
【0002】
【従来の技術】社会の情報化、および、情報インフラの
整備に伴い、大量の情報が氾濫するようになり、必要な
情報を効率良く取り出すことが必要不可欠となってい
る。その解決方法の一つに、予め文書を適当なカテゴリ
に分類しておくことが挙げられ、計算機による自動分類
技術の開発が要求されてきている。
【0003】電子化テキスト文書の自動分類技術として
は、Proceedings of second AnnualConference on Inno
vative(1990)や、情報処理学会研究報告NL−98−
11や、Info−Tech’94講演論文集 pp.138
〜pp.146 に記載されている技術がある。これらは、テ
キスト文書中のキーワードの出現傾向に基づいてカテゴ
リを決定するものである。
【0004】
【発明が解決しようとする課題】上記の技術は、計算機
によってテキストを全自動で分類するものであり、ユー
ザと協調的に分類結果を決定する方法については、上記
文献の中で言及されていない。また、上記の技術による
分類精度は、人間と同等レベルに至っていない。
【0005】しかし、人間と同等レベルの分類精度を要
求されるような状況では、計算機の分類結果をユーザが
チェックする必要がある。従って、計算機とユーザが役
割分担し、協調的に分類作業を行うことが、コスト削減
につながる。つまり、計算機の分類結果に基づいて、い
かに効率良く、少ない作業負担で、分類すべきカテゴリ
を確定するかが課題となる。
【0006】特に、分類処理の対象となる文書の数が大
量である場合、1件当たりに要する作業時間をいかに少
なくし、作業負担をいかに軽減するかが課題となる。ま
た、カテゴリの数が比較的多い場合や、カテゴリが複雑
でその識別が非常に困難である場合、計算機が出力した
分類結果が正しいかどうかを判定する作業や、その分類
結果が誤りである場合に、真のカテゴリを一から見つけ
る作業は、大変困難となる。従って、これらの作業をい
かに効率良く行うかが課題となる。
【0007】そこで、本発明の一つの目的は、分類結果
が正しいかどうかを判定する作業や、その分類結果が誤
りである場合に、真のカテゴリを見つける作業を効率良
く行うことにある。
【0008】また、大量の文書を順次分類する場合、そ
の順番は、文書の内容に依存していないことが多い。そ
の場合、文書が変わる度に記述された内容が大きく変わ
るため、チェックするユーザは、内容が変わる毎に、そ
の内容に頭を切り替える必要がある。このため、チェッ
クの効率も悪く、作業負担も増大するという課題があ
る。
【0009】そこで、本発明の他の一つの目的は、分類
すべき文書の内容が頻繁に大きく変わることによる作業
負担を軽減し、分類作業の効率を向上させることにあ
る。
【0010】
【課題を解決するための手段】本発明では、分類処理の
対象となる文書が何故そのカテゴリに分類されたかに関
するログデータをカテゴリの推定結果出力手段を介して
ユーザに提示し、提示したログデータをユーザ入力手段
を介してユーザに修正させ、修正後のログデータに基づ
いてカテゴリを再推定し、再推定後のカテゴリを推定結
果出力手段を介してユーザに提示することにより、上記
課題を解決する。
【0011】また、本発明では、テキスト解析手段およ
びカテゴリ推定手段により複数の文書について分類すべ
きカテゴリをそれぞれ推定し、推定されたカテゴリが互
いに類似しているあるいは同一である文書集合を認定す
る類似文書認定手段を持ち、類似文書について、推定結
果出力手段を介してカテゴリ推定手段によって推定され
たカテゴリをユーザに順次提示し、提示された文書につ
いてユーザ入力手段を介してユーザに分類すべきカテゴ
リを確定させることにより、上記課題を解決する。
【0012】
【作用】推定したカテゴリに基づいて、内容の類似して
いる文書をまとめ、ユーザに順次提示してチェックを促
すので、内容の大きな変化に伴う、ユーザの頭の切り替
えが少なく済み、作業負担が軽減する。また、内容の類
似した文書が続くため、以前の文書をチェックしたとき
のコツ、ノウハウ、教訓、データなどを次回の文書のチ
ェックに活かすことが容易となり、チェック作業時間が
少なく済む。
【0013】
【実施例】本発明の実施例について、以下、図面を用い
て詳細に説明する。本実施例は、新聞記事をあるカテゴ
リに分類し、文書データベースに格納するものである。
データベースにカテゴリ毎に格納された新聞記事データ
は、公知の検索システムを用いることにより、検索する
ことが可能である。
【0014】図1は、本実施例の概要を示す図である。
まず、分類の対象となる文書を文書入力1で入力する。
文書データは、ネットワークを介して外部から取得して
も良いし、フロッピーなどの媒体を介して取得しても良
いし、音声認識装置、画像認識装置(文字認識を含
む)、ペンなどの手書き入力装置などを介して取得して
も良い。また、定期的に文書データをまとめて取得して
も良いし、流通している文書データを不定期的に逐次取
得しても良い。取得した文書データは、文書ファイル1
0に一時的に格納する。
【0015】次に、ユーザからの分類する文書データの
指定およびカテゴリ推定の実行指示により、文書データ
を解析する。推定されていない文書があるか否かを判別
し(1a)、ない場合は、ステップ3aに進む。
【0016】ある場合は、まず、テキスト解析2で、テ
キストから自然言語処理によりその内容を特徴付けるキ
ーワードを自動抽出する。すなわち、単語およびその品
詞・活用情報を格納した単語辞書11を参照して、テキ
ストを単語に分割し、品詞が名詞である単語をキーワー
ドとし、各キーワードの出現頻度とともにキーワードテ
ーブル12に格納する。
【0017】次に、カテゴリ推定3で、予め各カテゴリ
を特徴付けるキーワードを定義・格納した分類知識13
およびカテゴリの体系を定義したカテゴリ定義テーブル
14を参照して、テキストから抽出したキーワードテー
ブル12のキーワードが、どのカテゴリに含まれている
かを探索し、含まれている場合には、そのカテゴリに得
点を付与する。そして、得点の高いカテゴリがそのテキ
ストの分類すべきカテゴリであると推定する。推定結果
は、推定カテゴリテーブル15に格納する。また、カテ
ゴリを推定する際に用いたキーワード情報や、カテゴリ
の得点情報などのデータは、ログデータ17に格納す
る。
【0018】次に、ユーザに推定結果をチェックさせる
ために、推定結果を出力する。このとき、推定結果をそ
の内容が類似している文書毎に表示するか否かをユーザ
に指定させ(3a)、内容が類似している文書毎に表示
しない場合、文書IDの順に推定結果を表示する。
【0019】内容が類似している文書毎に表示する場合
は、類似文書認定4で、推定カテゴリテーブル15に格
納された各文書のカテゴリ推定結果から、類似している
文書を認定し、その結果を類似文書テーブル16に格納
する。
【0020】次に、ユーザによってカテゴリが確定され
ていない文書があれば(4a)、カテゴリ推定結果を順
次ユーザに提示し(5)、結果のチェックおよび分類す
べきカテゴリの確定を促す(5a)。このときに、ログ
データ17に格納した解析データもユーザに提示する。
【0021】ユーザは、提示されたカテゴリが正しいか
をチェックする。そして、正しいのであれば、カテゴリ
を確定し、文書データベース18に文書を登録する。正
しくないのであれば、正しいカテゴリを見つけなければ
ならない。そのとき、ユーザが分類すべきカテゴリの推
定をしなおすと指示した場合、まず、提示されているロ
グデータについて、ユーザに修正させ(6)、修正後の
データに基づいて、カテゴリを再推定し(7)、新しい
推定結果を新しい解析データとともにユーザに提示す
る。これにより、正しいカテゴリであるとユーザが判断
した場合、カテゴリを確定し(8)、文書データベース
に登録する(9)。カテゴリの再推定を何度か行っても
正しいカテゴリを見つけられない場合、ユーザが人手で
カテゴリを確定する。
【0022】カテゴリを確定すると、次の文書のチェッ
クに移り(9a)、その文書のカテゴリ推定結果および
ログデータを出力する。
【0023】図2は、本実施例のハードウエアの概要を
示す図である。ユーザからの操作指示およびデータを入
力するためのキーボード20、マウス25、結果を出力
する出力モニタ30、種々の処理を実行する処理装置4
0、ファイルやプログラムを格納する記憶装置50から
なる。また、文書データを取得するために、計算機ネッ
トワーク90と接続されており、ネットワークを介して
文書を取得可能となっている。
【0024】記憶装置50は、一時的なデータを格納す
るワーキングエリア61、取得した文書データを一時格
納する文書ファイル格納エリア62、単語辞書格納エリ
ア63、キーワードテーブル格納エリア64、分類知識
格納エリア65、カテゴリ定義テーブル格納エリア6
6、推定カテゴリテーブル格納エリア67、類似文書テ
ーブル格納エリア68、ログデータ格納エリア69、文
書データベース格納エリア70を含んでいる。ワーキン
グエリア61以外の上記格納エリアに格納されるのは、
データ形式のファイルである。
【0025】さらに、記憶装置50は、テキスト解析処
理部格納エリア71、カテゴリ推定処理部格納エリア7
2、類似文書認定処理部格納エリア73、カテゴリ推定
結果表示部格納エリア74、ログデータ修正部格納エリ
ア75、カテゴリ再推定処理部格納エリア76、カテゴ
リ確定処理部格納エリア77、文書データベース登録処
理部格納エリア78をも含んでいる。これらの格納エリ
アに格納されるのは、実行形式のロードモジュールファ
イルである。
【0026】なお、図2に示した( )内の数字は図1
に示した各部との対応関係を示す。
【0027】図3は、文書に含まれるテキスト情報の一
例を示す図である。本実施例で扱う文書データは、新聞
記事であるが、文書データとしては、電子ニュース、電
子メール、科学技術論文、特許明細書、クレーム・質問
・意見文、会議の議事録など、他の種類のものでも良
い。また、本実施例では、文書データには、テキスト情
報を含んでいることを前提とし、これらの情報は、テキ
ストコード形式でファイルに格納されていることを前提
とする。ただし、静止画、動画、音声情報などがリンク
されているものは差し支えない。
【0028】図4は、テキスト解析2で参照する単語辞
書11の一例を示す図である。単語辞書は、見出し20
1の他、品詞202、活用種203、活用行204とい
った単語属性情報を持つ。
【0029】図5は、テキスト解析2における、単語分
割結果の一例を示す図である。テキスト解析2では、ま
ず、図3のようなテキストに対して、図4の単語辞書1
1を参照して、各文を単語毎に分割し、図5のように、
単語の見出し211および品詞212を抽出する。単語
分割の具体的な実現方法については、例えば、情報処理
学会第44回全国大会論文集(3)3−181に示すよ
うに、既に公知であるので、ここでは詳細の記述を省略
する。
【0030】図6は、テキストから抽出したキーワード
を格納するキーワードテーブル12の一例を示す図であ
る。テキスト解析2では、テキストを単語分割した後、
品詞が名詞である単語を抽出してキーワードとし、さら
に当該テキストにおける各キーワードの出現頻度を算出
し、キーワードの重みとする。もちろん、名詞以外の品
詞をキーワードとしても良いし、出現頻度を重みとする
以外にも、キーワードの出現位置や、その前後の単語と
の関係などを考慮して重み付けしても良い。キーワード
テーブル12は、文書を識別する文書ID221、キー
ワード見出し222、その重み223からなる。
【0031】図7は、カテゴリの体系を定義したカテゴ
リ定義テーブル14の一例を示す図である。本実施例で
は、新聞記事を分類するためのカテゴリとして、大カテ
ゴリ231と小カテゴリ232という2階層からなるカ
テゴリを定義している。大カテゴリ231のそれぞれに
は、一つ以上の小カテゴリ232が属しており、木構造
の体系をしている。カテゴリの階層は、何階層あっても
良い。
【0032】図8は、分類知識13の一例を示す図であ
る。本実施例では、キーワードの有無に基づいて分類す
べきカテゴリを推定するという手法を用いている。従っ
て、分類知識13は、カテゴリを特徴付けるキーワード
の集合である。すなわち、分類知識13は、大カテゴリ
241、小カテゴリ242、そのカテゴリを特徴付ける
キーワード243、およびそのキーワードの重要度に依
存する重み244からなる。重み244は、そのキーワ
ードがそのカテゴリを特徴付ける重要なキーワードであ
るほど、値が大きい。なお、この分類知識13は、予め
記憶装置50に格納しておく。また、分類知識は、人手
によって作成しても良いし、既にカテゴリの確定してい
るテキストをカテゴリ別に用意し、カテゴリ毎にキーワ
ードを自動抽出することによって、作成しても良い。
【0033】図9は、カテゴリ推定3の処理手順を示す
図である。まず、各カテゴリの得点を格納するテーブル
を0に初期化する(ステップ501)。
【0034】次に、キーワードテーブル12に格納され
た当該文書のキーワードすべてについて以下の処理を行
う(ステップ502)。当該キーワードを含む分類知識
13中のカテゴリが存在するか否かを判別し(ステップ
503)、存在するカテゴリについては、当該文書のキ
ーワードの持つ重みWi(図6の223に相当)と、当
該カテゴリのキーワードの持つ重みWj(図8の244
に相当)の積を計算し、当該カテゴリの得点として、加
算する(ステップ504)。
【0035】すべてのキーワードについて上記の処理を
行った時点で、各カテゴリの得点が決定されるので、こ
れらの得点から各カテゴリの得点の偏差値を計算する
(ステップ505)。さらに、偏差値の高い順にカテゴ
リをソートする(ステップ506)。そして、推定カテ
ゴリテーブル15に、当該文書ID、カテゴリ、および
その偏差値の値を組にして、偏差値の高い順に格納する
(ステップ507)。本実施例では、上位3個のカテゴ
リを格納する。もちろん、上位n個のカテゴリを格納し
ても良いし、偏差値の値に下限を設けて、下限以上のカ
テゴリを格納しても良い。最後に、ログデータ17に、
当該文書ID,当該文書から抽出したキーワード、各キ
ーワードが各カテゴリの持つキーワードに含まれる場
合、ステップ504の重みWi、重みWj、及びその積
の値を格納する(ステップ508)。
【0036】なお、本実施例は、2階層(大カテゴリ、
小カテゴリ)のカテゴリ体系をなしているが、カテゴリ
推定3では、小カテゴリについて行い、大カテゴリの推
定は、小カテゴリが決まれば一意に決まるので、行って
いない。別の推定方法として、まず、大カテゴリについ
てカテゴリを推定し、上位にランクされた大カテゴリに
限定した形で、小カテゴリを推定する方法でも良い。こ
の場合、大カテゴリを特徴付けるキーワードおよびその
重みを定義した分類知識13が必要である。人手により
新たに作成しても良いし、小カテゴリに関する分類知識
を大カテゴリ毎にまとめあげることで容易に作成するこ
ともできる。
【0037】図10は、推定カテゴリテーブル15の一
例を示す図である。推定カテゴリテーブル15は、文書
ID251、推定されたカテゴリの順位252、推定さ
れた大カテゴリ候補253、推定された小カテゴリ候補
254、そのカテゴリの偏差値255からなる。
【0038】図11は、類似文書認定4の処理手順を示
す図である。まず、類似文書テーブル16を初期化する
(ステップ521)。次に、すべてのカテゴリについ
て、以下の処理を行う(ステップ522)。推定カテゴ
リテーブル15を参照して、カテゴリを推定した文書の
中で、当該カテゴリに第1位に分類すべきと推定された
文書の文書IDを抽出する(ステップ523)。
【0039】次に、抽出した文書IDについて、第2位
に分類すべきと推定されたカテゴリ毎にまとめ、当該カ
テゴリと対応付けて、類似文書テーブル16に格納する
(ステップ524)。
【0040】図12は、類似文書テーブル16の一例を
示す図である。図11に示すように、本実施例では、第
1位に推定されたカテゴリと第2位に推定されたカテゴ
リが同一の文書毎にまとめられて、類似文書テーブル1
6に格納している。すなわち、類似文書テーブル16
は、第1位に推定されたカテゴリ261、第2位に推定
されたカテゴリ262、そして、それらを推定結果とし
てもつ文書ID263から構成される。
【0041】図13は、カテゴリ推定結果表示の一例を
示す図である。ここで、文書指定ボタン401は、処理
する文書の範囲を指定するものであり、文書の存在する
ディレクトリを指定する。分類ボタン402は、指定さ
れた文書について、テキスト解析2およびカテゴリ推定
3を実行し、推定結果およびログデータを得る。再分類
ボタン403は、ユーザによって修正されたデータに基
づいてカテゴリの再推定を実行し、再推定結果を出力す
る。絞込分類ボタン404は、後述するように、上位階
層のカテゴリをユーザに指定させ、そのカテゴリに属す
る下位カテゴリに限定した中でカテゴリ推定を実行し、
推定結果を出力する。カテゴリ一覧ボタン405は、カ
テゴリ定義テーブル14の内容を表示する。分類知識参
照ボタン406は、分類知識13に格納されているキー
ワードおよびその重みをカテゴリ別に表示する。終了ボ
タン407は、システムを終了する。
【0042】411は、テキストの内容を表示するエリ
アであり、文書テキストのIDも表示している。412
は、当該テキストから抽出したキーワードおよびその重
み(出現頻度)を対にして重みの高い順に表示するエリ
アである。
【0043】413は、各カテゴリについて、412の
キーワードのうち、どのキーワードを含んでいるか、ま
た、その得点はどのくらいの大きさかを表示する。カテ
ゴリの指定は、分類結果である414のカテゴリのうち
のどれか一つを指定することにより行う。図13の41
3で、例えば、「円」というキーワードは、「国際経
済」という小カテゴリのキーワードに含まれており、テ
キストから抽出したキーワードの持つ重みWiが4、分
類知識13の「国際経済」という小カテゴリのキーワー
ド「円」の持つ重みWjが8、その結果、得点が4×8
=32点与えられたことを示している。
【0044】414は、推定された大カテゴリ、小カテ
ゴリ、およびその偏差値を表示するエリアである。41
5は、ユーザが確定したカテゴリを表示するエリアであ
る。416は、現在チェックしている文書の直前にチェ
ックした文書について、そのカテゴリ推定結果およびロ
グデータ、確定カテゴリを表示するボタンである。これ
らチェック済みの文書に関するデータは、推定カテゴリ
テーブルおよびログデータに格納されているので、それ
らのデータを表示することで容易に実現可能である。
【0045】417は、現在チェックしている文書につ
いてカテゴリを確定し、次の文書のチェックに移ること
を指示するボタンである。この時点で、415に記述さ
れたカテゴリを分類すべきカテゴリとして確定し、文書
データベース18に当該文書をカテゴリ情報とともに登
録する。
【0046】図14は、カテゴリ推定結果表示の他の一
例を示す図である。421は、分類知識の一覧であり、
分類知識参照ボタン406を押した時に、分類知識13
を参照して表示する。422は、カテゴリ一覧ボタン4
05を押した時に、カテゴリ定義テーブル14を参照し
て表示する。423は、カテゴリの範囲を記述した文章
であり、カテゴリ一覧422において、どれか一つのカ
テゴリを選択した場合に、表示される。
【0047】図15は、ユーザによりログデータが修正
された後の画面の一例を示す図である。411、412
については、ユーザがキーボード20およびマウス25
を介して表示されたデータを修正できるようになってい
る。図15では、412について修正がなされている。
キーワードに関しては、表示されているキーワードの削
除、新しいキーワードの追加、表示されている重みの修
正が可能である。修正前の画面である図13に対し、図
15では、「円」、「為替市場」、「急騰」などのキー
ワードの重みが修正され、また、「1日」、「一時」な
どのあまり重要でないキーワードが削除されている。
【0048】図16は、カテゴリ再推定結果の一例を示
す図である。キーワードおよびその重みを修正した結
果、分類結果414として、前回の推定結果として現れ
なかったカテゴリ「為替」が第1位に新しく現れたこと
を示している。このように新たに現れたカテゴリについ
ては、星印を付加して、他のカテゴリと区別している。
もちろん、区別の仕方は星印の付加以外でも良い。
【0049】図17は、カテゴリ再推定7の処理手順を
示す図である。まず、各カテゴリの得点を格納するテー
ブルを0に初期化する(ステップ541)。
【0050】次に、当該文書ID、修正後のテキスト、
修正後のキーワードおよびその重みを出力画面から読み
取り、ワーキングエリア16に格納する(ステップ54
2)。 次に、テキスト情報が修正されたか否かを判別
する(ステップ543)。テキスト情報が修正されてし
まうと、そこから抽出されるキーワードおよびその重み
が大きく変わるため、テキスト解析2からやり直す必要
がある。それに対して、テキスト情報が修正されていな
い場合は、表示画面から読み取ったキーワード情報を使
用することができるので、カテゴリ推定3から処理すれ
ば良い。テキスト情報が修正されたか否かについては、
テキスト修正フラグを設け、そのオンオフにより判別で
きる。
【0051】ステップ543で、テキスト情報が修正さ
れた場合、テキスト解析2を実行して、修正後のテキス
トからキーワードおよび重みを抽出し、結果をワーキン
グエリア61に格納する(ステップ544)。
【0052】次に、ワーキングエリア61に格納された
すべてのキーワードについて、以下の処理を行う(ステ
ップ545)。当該キーワードを含む分類知識中のカテ
ゴリが存在するか否かを判別し(ステップ546)、存
在するカテゴリについては、当該文書のキーワードの持
つ重みWi(図6の223に相当)と、当該カテゴリの
キーワードの持つ重みWj(図8の244に相当)の積
を計算し、当該カテゴリの得点として、加算する(ステ
ップ547)。
【0053】すべてのキーワードについて行った時点
で、各カテゴリの得点が決定されるので、これらの得点
から各カテゴリの得点の偏差値を計算する(ステップ5
48)。さらに、偏差値の高い順にカテゴリをソートす
る(ステップ549)。そして、推定カテゴリテーブル
15に、当該文書ID、カテゴリ、およびその偏差値の
値を組にして、偏差値の高い順に格納する(ステップ5
50)。
【0054】図18は、ログデータ17の一例を示す図
である。ログデータ17には、文書ID、テキストから
抽出したキーワードおよびその重み、カテゴリ別の得点
の内訳、確定されたカテゴリに関するデータを、システ
ム終了するまで格納、保持する。従って、ある文書のカ
テゴリ推定結果をチェックしているときに、それまでに
チェック済みの文書のデータを参照することもできる。
【0055】図19は、カテゴリ確定8の一例を示す図
である。ユーザは、分類結果414を参照して、カテゴ
リを確定する。本実施例では、分類結果414におい
て、確定したいカテゴリをマウスでダブルクリックする
ことにより、選択したカテゴリを確定カテゴリ415に
表示する。
【0056】このように、本実施例によれば、文書を分
類したい場合、計算機によってカテゴリの候補を推定さ
せ、その結果を表示させ、それをユーザがチェックする
というマンマシン分担型の文書分類支援システムを実現
できる。また、分類結果を表示する際に、推定されたカ
テゴリ別にまとめて順次結果を提示するので、ユーザは
効率良くチェックが行える。また、提示された結果が誤
りであっても、データを修正し、再分類することによっ
て、正しいカテゴリに分類する精度を向上させることが
でき、分類すべきカテゴリをユーザが一から見つけると
いう負担の大きな作業をする割合を極力少なくすること
ができる。
【0057】次に、本実施例の変形例について述べる。
類似文書認定4において、本実施例では、上位2個の推
定カテゴリによって認定したが、推定カテゴリの代わり
に、テキストから抽出した重みの高いキーワードによっ
て認定しても良い。
【0058】図20は、その処理方法を示す図である。
まず、類似文書テーブル16を初期化する(ステップ5
61)。次に、類似文書としてまだ認定されていない文
書の存在する間、以下の処理を実行する(ステップ56
2)。認定されていないある文書について、当該文書か
ら抽出された重みの高いm種類のキーワードのうちのn
種類(m>=n)以上のキーワードが、重みの高いm種
類のキーワードの中に含まれている文書を抽出し、類似
文書集合を識別するための集合識別子とともに、類似文
書テーブルに格納する(ステップ563)。図11で
は、集合識別子に相当するものとして、カテゴリの名称
を用いていたが、ここでは、それを代用するものとし
て、集合識別子を定義する。これは、類似文書集合を識
別可能であれば、どんな形でも良い。
【0059】ステップ563の後、類似文書テーブル1
6に格納した文書をステップ562の処理対象から除く
(ステップ564)。以上の処理によって、カテゴリ推
定された結果をユーザに提示する際に、重みの高いキー
ワードをどれだけ共有しているかということに基づいて
類似文書毎に提示することが可能となる。
【0060】次に、本実施例の拡張例について述べる。
本実施例のように、カテゴリが複数の階層からなる場
合、上位カテゴリをユーザに提示して指定させ、指定さ
れた上位カテゴリに属する下位カテゴリに限定してカテ
ゴリの推定を行うことにより、分類精度向上が期待でき
る。これは、特に、下位カテゴリの数が膨大である場合
に、有効である。
【0061】図21は、大カテゴリを指定するための画
面の一例を示した図である。大カテゴリの指定は、絞込
分類ボタン404が押された時、指定用画面424を表
示することによって行われる。大カテゴリの指定は、複
数であっても良い。また、指定用画面424における大
カテゴリの表示順序は、基本的には、カテゴリ定義テー
ブル14に定義されている順序であるが、カテゴリ推定
3において、まず大カテゴリを推定し、その結果を用い
て小カテゴリを推定する手法を採用する場合には、当該
文書の大カテゴリに関する推定結果をログデータ17に
格納・保持しておくことにより、大カテゴリの推定結果
の順序に基づいて表示することも可能である。
【0062】指定用画面424によって、大カテゴリを
指定した後、再分類ボタン403を押すことによって、
指定された大カテゴリに限定したカテゴリ再推定7を実
行する。図17に示すカテゴリ再推定7の処理手順のス
テップ550において、推定カテゴリテーブル15に推
定結果を格納する際に、推定されたカテゴリの大カテゴ
リがユーザによって指定された大カテゴリに含まれてい
る場合に限り、格納することにより、上位カテゴリによ
る絞り込みが実現できる。図13の結果表示において、
仮に、ユーザが、大カテゴリを「経済」に絞り込んだ場
合、分類結果414において、2位の「政治:国会」と
いうカテゴリは、除去される。
【0063】このように、上位カテゴリが比較的少な
く、ユーザが容易に確定できる場合、上位カテゴリで絞
り込んでカテゴリを推定することにより、正しいカテゴ
リを得ることができるようになる。
【0064】
【発明の効果】文書の自動分類結果をユーザがチェック
する際に、計算機によって分類された結果が類似した文
書毎にユーザに順次提示し、チェックを促すので、以前
の文書をチェックしたときのコツ、ノウハウ、教訓、デ
ータなどを次回の文書のチェックに活かすことが容易と
なり、チェック作業時間が少なく済む。
【0065】また、自動分類結果が誤りであった場合で
も、自動分類結果とともに出力するログデータをユーザ
に修正させ、再推定することにより、正しい分類結果を
導くことが可能であるため、最初の自動分類結果が誤り
であった場合に、ユーザが一から分類しなおすという負
担の重い作業を軽減することができる。
【図面の簡単な説明】
【図1】本実施例の概要を示す図である。
【図2】本実施例のハードウエアの概要を示す図であ
る。
【図3】文書に含まれるテキストの一例を示す図であ
る。
【図4】単語辞書の一例を示す図である。
【図5】テキスト解析における単語分割結果の一例を示
す図である。
【図6】キーワードテーブルの一例を示す図である。
【図7】カテゴリ定義テーブルの一例を示す図である。
【図8】分類知識の一例を示す図である。
【図9】カテゴリ推定の処理手順を示す図である。
【図10】推定カテゴリテーブルの一例を示す図であ
る。
【図11】類似文書認定の処理手順を示す図である。
【図12】類似文書テーブルの一例を示す図である。
【図13】カテゴリ推定結果表示の一例を示す図であ
る。
【図14】カテゴリ推定結果表示の他の一例を示す図で
ある。
【図15】ユーザにより修正後の画面の一例を示す図で
ある。
【図16】カテゴリ再推定結果の一例を示す図である。
【図17】カテゴリ再推定の処理手順を示す図である。
【図18】ログデータの一例を示す図である。
【図19】カテゴリ確定の一例を示す図である。
【図20】類似文書認定の他の処理手順を示す図であ
る。
【図21】上位カテゴリの絞り込みの一例を示す図であ
る。
【符号の説明】
1:文書入力、2:テキスト解析、3:カテゴリ推定、
4:類似文書認定、5:カテゴリ推定結果表示、6:ロ
グデータ修正、7:カテゴリ再推定、8:カテゴリ確
定、9:文書データベース登録、10:文書ファイル、
11:単語辞書、12:キーワードテーブル、13:分
類知識、14:カテゴリ定義テーブル、15:推定カテ
ゴリテーブル、16:類似文書テーブル、17:ログデ
ータ、18:文書データベース

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】入力装置、出力装置、及び記憶装置を有す
    る処理装置を用いた文書分類支援方法は、 a)テキスト情報を含む文書を前記記憶装置に格納し、 b)前記入力された文書に含まれるテキスト情報を解析
    し、 c)前記テキスト解析結果と予め定義された分類知識と
    を用いて前記入力された文書のカテゴリを推定し、 d)前記推定されたカテゴリが互いに類似あるいは同一
    の文書集合を類似文書として認定し、 e)複数の前記類似文書について分類すべきカテゴリを
    それぞれ推定し、 f)前記類似文書について、前記出力装置に表示された
    前記推定結果に応じて前記入力装置から入力された指示
    に基づいて、分類すべきカテゴリを確定することを特徴
    とする文書分類支援方法。
  2. 【請求項2】前記ステップf)において、前記推定結果
    を前記出力装置に順次出力するという提示方法を採用す
    るか否かを前記入力装置を介して選択できることを特徴
    とする請求項1記載の文書分類支援方法。
  3. 【請求項3】前記ステップd)において、複数の前記文
    書についてその文書に含まれる語句をそれぞれ抽出し、
    前記抽出した語句を共通してもつ文書集合を類似文書と
    して認定することを特徴とする請求項1記載の文書分類
    支援方法。
  4. 【請求項4】前記類似文書を前記出力装置に順次提示す
    るという提示方法を採用するか否かを前記入力装置を介
    して選択することを特徴とする請求項3記載の文書分類
    支援方法。
  5. 【請求項5】前記ステップd)において、前記文書集合
    を前記出力装置に提示する際に、どの文書集合から提示
    するかを前記入力装置を介して指定することを特徴とす
    る請求項1記載の文書分類支援方法。
  6. 【請求項6】入力装置、出力装置、及び記憶装置を有す
    る処理装置を用いた文書分類支援方法は、 a)テキスト情報を含む文書を前記記憶装置に格納し、 b)前記入力された文書に含まれるテキスト情報を解析
    し、 c)前記テキスト解析結果と予め定義された分類知識と
    を用いて前記入力された文書のカテゴリを推定し、 d)前記推定されたカテゴリが互いに類似あるいは同一
    の文書集合を類似文書として認定し、 e)複数の前記類似文書について分類すべきカテゴリを
    それぞれ推定し、 f)前記類似文書について、前記出力装置に表示された
    前記推定結果に応じて前記入力装置から入力された指示
    に基づいて、分類すべきカテゴリを確定し、 g)当該文書が何故当該カテゴリに分類されたかに関す
    るログデータを前記出力装置に提示し、 h)前記提示されたログデータを前記入力装置を介して
    修正し、 i)前記修正後のログデータに基づいてカテゴリを再推
    定し、 j)前記再推定したカテゴリを前記出力装置に提示する
    ことを特徴とする文書分類支援方法。
  7. 【請求項7】前記ステップj)において、前記再推定し
    た結果を、再推定する前の推定結果と比較し、再推定す
    る前の推定結果に存在しないカテゴリについては、他の
    カテゴリと異なる態様で前記出力装置に提示することを
    特徴とする請求項6記載の文書分類支援方法。
  8. 【請求項8】前記ステップg)において、前記文書が何
    故当該カテゴリに分類されたかに関するログデータに
    は、当該文書データ、当該文書に含まれるテキストから
    抽出した語句データ、前記分類知識に定義されている各
    カテゴリを特徴付ける語句データ、当該文書に含まれる
    テキストから抽出した語句が分類知識に定義されている
    各カテゴリを特徴付ける語句に含まれているか否かに関
    する語句対応データ、各カテゴリの範囲を定義したカテ
    ゴリ定義データを含むことを特徴とする請求項6記載の
    文書分類支援方法。
  9. 【請求項9】前記テキストから抽出した語句、および、
    前記各カテゴリを特徴付ける語句は、それぞれその語句
    の重要度を示す重みを持つことを特徴とする請求項8記
    載の文書分類支援方法。
  10. 【請求項10】前記文書データ、文書に含まれるテキス
    トから抽出した語句データ、分類知識に定義されている
    各カテゴリを特徴付ける語句データについて、前記入力
    装置を介してこれらのデータの一部を削除・追加・修正
    することを特徴とする請求項6記載の文書分類支援方
    法。
  11. 【請求項11】前記入力装置を介して、前記テキストか
    ら抽出した語句の重要度を示す重みまたは各カテゴリを
    特徴付ける語句の重要度を示す重みを修正することを特
    徴とする請求項9記載の文書分類支援方法。
  12. 【請求項12】複数階層からなるカテゴリ集合を表示
    し、ある上位階層のカテゴリを前記入力装置を介して指
    定させ、当該指定された上位階層カテゴリに属する下位
    カテゴリ集合に限定した中でカテゴリを推定することを
    特徴とする請求項8記載の文書分類支援方法。
  13. 【請求項13】一文書以上以前にカテゴリ確定済みの文
    書に関する確定カテゴリ情報およびログデータを前記出
    力装置に表示することを特徴とする請求項1あるいは請
    求項6記載の文書分類支援方法。
  14. 【請求項14】a)テキスト情報を含む文書を入力する
    文書入力手段、 b)前記入力された文書に含まれるテキスト情報を解析
    するテキスト解析手段、 c)前記テキスト解析結果と
    予め定義された分類知識とを用いて前記入力された文書
    のカテゴリを推定するカテゴリ推定手段、 d)前記推定されたカテゴリが互いに類似あるいは同一
    の文書集合を類似文書として認定する類似文書認定手
    段、 e)複数の前記類似文書について分類すべきカテゴリを
    それぞれ推定する類似文書カテゴリ推定手段、 f)前記類似文書について、前記出力装置に表示された
    前記推定結果に応じて前記入力装置から入力された指示
    に基づいて、分類すべきカテゴリを確定するカテゴリ確
    定手段を有することを特徴とする文書分類支援装置。
JP17068295A 1995-07-06 1995-07-06 文書分類支援方法および装置 Expired - Lifetime JP3603392B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17068295A JP3603392B2 (ja) 1995-07-06 1995-07-06 文書分類支援方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17068295A JP3603392B2 (ja) 1995-07-06 1995-07-06 文書分類支援方法および装置

Publications (2)

Publication Number Publication Date
JPH0922414A true JPH0922414A (ja) 1997-01-21
JP3603392B2 JP3603392B2 (ja) 2004-12-22

Family

ID=15909447

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17068295A Expired - Lifetime JP3603392B2 (ja) 1995-07-06 1995-07-06 文書分類支援方法および装置

Country Status (1)

Country Link
JP (1) JP3603392B2 (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250072A (ja) * 1998-02-26 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> 情報分類方法及び装置及び情報分類プログラムを格納した記憶媒体
JP2000137723A (ja) * 1998-10-30 2000-05-16 Ricoh Co Ltd 文書分類装置、文書分類方法及び文書分類プログラムを記録した媒体
JP2002163273A (ja) * 2000-11-22 2002-06-07 Hitachi Ltd 文書管理方法およびシステム
JP2002543528A (ja) * 1999-05-05 2002-12-17 ウエスト パブリッシング カンパニー ドキュメント分類システム、ドキュメント分類方法およびドキュメント分類ソフトウェア
US6549752B2 (en) 2001-01-29 2003-04-15 Fujitsu Limited Apparatus and method accumulating cases to be learned
JP2003528359A (ja) * 1998-12-28 2003-09-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 自動プリフィルタリング及びルーティング機能を有する協同トピック式サーバ
JP2004501421A (ja) * 2000-03-27 2004-01-15 ドキュメンタム,インコーポレイティド 文書用メタデータ生成のための方法と装置
JP2004029969A (ja) * 2002-06-21 2004-01-29 Japan Research Institute Ltd 属性情報検索装置、属性情報検索方法およびその方法をコンピュータに実行させるプログラム
JP2004348706A (ja) * 2003-04-30 2004-12-09 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
JP2008176625A (ja) * 2007-01-19 2008-07-31 Seiko Epson Corp 文字認識結果の管理装置およびその方法並びにコンピュータプログラム
JP2008225582A (ja) * 2007-03-08 2008-09-25 Mazda Motor Corp テキスト分類装置及びプログラム
JP2011513810A (ja) * 2008-02-20 2011-04-28 アイティーアイ・スコットランド・リミテッド 用語識別方法および装置
JP2011243066A (ja) * 2010-05-19 2011-12-01 Just Syst Corp 電子文書管理装置、表示方法、表示プログラムおよび記録媒体
JP2016066376A (ja) * 2011-01-25 2016-04-28 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 分類された誤配置の識別
KR20210059954A (ko) * 2019-11-18 2021-05-26 주식회사 메드올스 의료 전문 자료의 과목 분류 시스템 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02108130A (ja) * 1988-10-17 1990-04-20 Sharp Corp 知識整理エディタにおける文章知識編集方法
JPH02238567A (ja) * 1989-03-13 1990-09-20 Agency Of Ind Science & Technol データの自動分類支援装置
JPH0589173A (ja) * 1991-09-27 1993-04-09 Fuji Xerox Co Ltd 構造化文書分類装置
JPH06348755A (ja) * 1993-06-07 1994-12-22 Hitachi Ltd 文書分類方法およびそのシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02108130A (ja) * 1988-10-17 1990-04-20 Sharp Corp 知識整理エディタにおける文章知識編集方法
JPH02238567A (ja) * 1989-03-13 1990-09-20 Agency Of Ind Science & Technol データの自動分類支援装置
JPH0589173A (ja) * 1991-09-27 1993-04-09 Fuji Xerox Co Ltd 構造化文書分類装置
JPH06348755A (ja) * 1993-06-07 1994-12-22 Hitachi Ltd 文書分類方法およびそのシステム

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250072A (ja) * 1998-02-26 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> 情報分類方法及び装置及び情報分類プログラムを格納した記憶媒体
JP2000137723A (ja) * 1998-10-30 2000-05-16 Ricoh Co Ltd 文書分類装置、文書分類方法及び文書分類プログラムを記録した媒体
JP2003528359A (ja) * 1998-12-28 2003-09-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 自動プリフィルタリング及びルーティング機能を有する協同トピック式サーバ
JP4732593B2 (ja) * 1999-05-05 2011-07-27 ウエスト パブリッシング カンパニー ドキュメント分類システム、ドキュメント分類方法およびドキュメント分類ソフトウェア
JP2002543528A (ja) * 1999-05-05 2002-12-17 ウエスト パブリッシング カンパニー ドキュメント分類システム、ドキュメント分類方法およびドキュメント分類ソフトウェア
JP2004501421A (ja) * 2000-03-27 2004-01-15 ドキュメンタム,インコーポレイティド 文書用メタデータ生成のための方法と装置
JP2002163273A (ja) * 2000-11-22 2002-06-07 Hitachi Ltd 文書管理方法およびシステム
US6549752B2 (en) 2001-01-29 2003-04-15 Fujitsu Limited Apparatus and method accumulating cases to be learned
JP2004029969A (ja) * 2002-06-21 2004-01-29 Japan Research Institute Ltd 属性情報検索装置、属性情報検索方法およびその方法をコンピュータに実行させるプログラム
JP2004348706A (ja) * 2003-04-30 2004-12-09 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
US7593961B2 (en) 2003-04-30 2009-09-22 Canon Kabushiki Kaisha Information processing apparatus for retrieving image data similar to an entered image
JP2008176625A (ja) * 2007-01-19 2008-07-31 Seiko Epson Corp 文字認識結果の管理装置およびその方法並びにコンピュータプログラム
JP2008225582A (ja) * 2007-03-08 2008-09-25 Mazda Motor Corp テキスト分類装置及びプログラム
JP2011513810A (ja) * 2008-02-20 2011-04-28 アイティーアイ・スコットランド・リミテッド 用語識別方法および装置
JP2011243066A (ja) * 2010-05-19 2011-12-01 Just Syst Corp 電子文書管理装置、表示方法、表示プログラムおよび記録媒体
JP2016066376A (ja) * 2011-01-25 2016-04-28 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 分類された誤配置の識別
KR20210059954A (ko) * 2019-11-18 2021-05-26 주식회사 메드올스 의료 전문 자료의 과목 분류 시스템 및 방법
WO2021101105A3 (ko) * 2019-11-18 2021-07-15 주식회사 메드올스 의료 전문 자료의 과목 분류 시스템 및 방법

Also Published As

Publication number Publication date
JP3603392B2 (ja) 2004-12-22

Similar Documents

Publication Publication Date Title
US7814102B2 (en) Method and system for linking documents with multiple topics to related documents
US6963871B1 (en) System and method for adaptive multi-cultural searching and matching of personal names
US7647303B2 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
JP3603392B2 (ja) 文書分類支援方法および装置
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
US20080162115A1 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
US20180004838A1 (en) System and method for language sensitive contextual searching
JPH0778182A (ja) キーワード付与システム
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
US6278990B1 (en) Sort system for text retrieval
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JPH06348755A (ja) 文書分類方法およびそのシステム
US20130013604A1 (en) Method and System for Making Document Module
JP2006323517A (ja) テキスト分類装置およびプログラム
WO2000026839A1 (en) Advanced model for automatic extraction of skill and knowledge information from an electronic document
CN113220821A (zh) 一种针对试题检索的索引建立方法、装置及电子设备
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
CA1276728C (en) Information retrieval system and method
JP2000293537A (ja) データ分析支援方法および装置
JPH09244945A (ja) 情報提示装置
JPH09185632A (ja) 情報検索・編集方法及び装置
JP2004206571A (ja) 文書情報提示方法及び装置並びにプログラム及び記録媒体
CN111581329A (zh) 基于倒排索引的短文本匹配方法及装置
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040608

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040907

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040920

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071008

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081008

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091008

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091008

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101008

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111008

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121008

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121008

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 9

EXPY Cancellation because of completion of term