JPH09153049A - 文書分類支援方法及び装置 - Google Patents

文書分類支援方法及び装置

Info

Publication number
JPH09153049A
JPH09153049A JP7310322A JP31032295A JPH09153049A JP H09153049 A JPH09153049 A JP H09153049A JP 7310322 A JP7310322 A JP 7310322A JP 31032295 A JP31032295 A JP 31032295A JP H09153049 A JPH09153049 A JP H09153049A
Authority
JP
Japan
Prior art keywords
classification
knowledge
file
text
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7310322A
Other languages
English (en)
Inventor
Yukiko Morimoto
由起子 森本
Hisao Mase
久雄 間瀬
洋 ▲辻▼
Hiroshi Tsuji
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP7310322A priority Critical patent/JPH09153049A/ja
Publication of JPH09153049A publication Critical patent/JPH09153049A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 あらかじめ格納した分類知識1のみでは分類
判定基準を満たさない文書に対して、ユーザが入力装置
を介して作成、更新した分類知識2を用いて再分類す
る。 【解決手段】 分類処理部、分類判定部、分類結果表示
部、更新知識入力部、更新知識ベース作成部、再分類処
理部、分類知識ベース合併部を具備することにより構成
される。あらかじめ格納した分類知識1とは別に、ユー
ザが入力装置を介して新たに作成、更新した分類知識2
を用いて再分類を行なうので、同じ分類知識を必要とす
るテキストを2度目以降に入力した場合には、分類判定
基準を満たすことが可能である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、分類知識を用いて
文書を分類する方法及び装置に関する。
【0002】
【従来の技術】現在、複数のテキストをあらかじめ用意
した複数の分類カテゴリに自動分類する研究が広く行わ
れている。例えば、大量の文書データから自動抽出した
名詞間共起関係による文書の自動分類(情報処理学会研
究報告Vol.93,No.101,1993)があ
る。一般に、自動分類する際には、すでに分類済みのテ
キストから作成した分類の基準となる分類知識を参照
し、文書中に出現する単語の頻度情報や単語同士の共起
情報を用いて、各分類カテゴリとの類似度を算出し、そ
の類似度の高い分類カテゴリに分類している。
【0003】
【発明が解決しようとする課題】従来の自動で分類知識
を作成し、その分類知識を用いてテキストを分類する場
合、100%正しく与えられた分類カテゴリに分類する
ことは不可能である。そのため、機械が分類不可能と判
断したテキストを人間が判断して分類する、あるいは、
自動で作成した分類知識に人間が手を加えるといったこ
とで分類の精度を上げるという半自動分類方法が用いら
れている。しかし、分類対象となっているテキストの数
が膨大であるため、人間にかかる負担も膨大であるとい
った問題がある。
【0004】本発明の目的は、上記の課題を解決し、機
械が分類不可能と判断したテキストを人間が分類する際
の作業量を軽減するような文書分類支援方法および文書
分類支援装置を提供することである。
【0005】
【課題を解決するための手段】上記目的を達成するため
に、本発明による文書分類支援方法は、 (イ)分類判定基準に満たなかったテキストに対して、
ユーザが入力装置を介して定義した分類知識2がすでに
存在する場合には、その分類知識2を用いて、テキスト
を再分類する。
【0006】(ロ)分類判定基準に満たなかったテキス
トに対して、ユーザが入力装置を介して定義した分類知
識2が存在しない場合には、テキストをディスプレイ上
に表示し、分類判定基準を満たさないことをユーザに知
らしめる。
【0007】(ハ)分類判定基準に満たなかったテキス
トに対して、あらかじめ格納してある分類知識1に記述
されている各単語とその属性情報を表示し、ユーザが入
力装置を介して入力する分類知識1に対する更新内容を
受け付ける更新知識入力部、および、その変更内容をあ
らかじめ格納してある分類知識1とは別の分類知識2と
して新たに作成、更新する。
【0008】(ニ)分類判定基準に満たなかったテキス
トに対して、ユーザが入力装置を介して分類知識2を新
たに作成、更新した後、その分類知識2を用いて再度分
類、判定し、その結果をユーザに知らしめる。
【0009】(ホ)すでにユーザが入力装置を介して作
成、更新した分類知識2を、あらかじめ格納してある分
類知識1に合併するとユーザが入力装置を介して指示し
た場合には、あらかじめ格納してある分類知識1にユー
ザが入力装置を介して作成、更新した分類知識2を合併
してから、ユーザが入力装置を介して作成、更新した分
類知識を削除する。
【0010】(ヘ)本発明の文書分類支援装置は、分類
対象となっているテキストを単語分割し、その単語分割
結果を出力する単語分割部、単語分割した結果ファイ
ル、あらかじめ格納してある分類知識1、分類カテゴリ
を参照して、該テキストを自動分類する分類処理部、分
類判定知識を参照して、分類判定基準を満たすか否かの
判定を行う分類判定部、分類判定基準に満たなかった場
合は、該テキストをディスプレイ上に表示する分類結果
表示部、該テキストを特定の分類カテゴリに分類するた
めの分類知識2をユーザが入力装置を介して入力し、そ
の分類知識2をあらかじめ格納してある分類知識1と別
に新しく作成、更新する更新知識ベース作成部、分類判
定基準を満たさなかった場合で、かつ、ユーザが入力装
置を介して新しく作成、更新した分類知識2が存在する
場合には、その分類知識2を参照して再分類を行う再分
類処理部、ユーザが入力装置を介して合併することを指
示した場合にはユーザが作成、更新した分類知識2をあ
らかじめ格納してある分類知識1に合併する分類知識ベ
ース合併部を具備する。
【0011】上記の方法によれば、あらかじめ格納した
分類知識1を用いて自動文書分類する際に、分類判定基
準を満たさない分類対象テキストに対して、ユーザが入
力装置を介して作成、更新した新しい分類知識2を用い
て再分類を行なうので、同じ分類知識を必要とするテキ
ストを2度目以降に入力した場合には、分類判定基準を
満たす分類が可能である。
【0012】また、上記の方法によれば、分類対象テキ
ストに対して、現時点での分類知識1、分類知識2が十
分なものであるか否かをユーザに通知できる。
【0013】また、上記の方法によれば、あらかじめ用
意した分類知識1と別に、分類知識2を用意するので、
分類判定基準を満たす分類対象テキストが、分類知識1
を変更したために分類判定基準を満たさなくなることが
避けられる。
【0014】
【発明の実施の形態】図2に本発明の一実施例である分
類判定基準を満たさない文書(以下、足切り文書と呼
ぶ)の分類支援装置の全体構成図を示す。分類支援装置
は、テキストや各種ファイルを格納する外部記憶装置
1、入力した分類対象テキストをあらかじめ定義した分
類知識ベースを用いて、あらかじめ用意した複数の分類
カテゴリのうちの1つに分類し、分類カテゴリとの類似
度が分類判定基準に満たないと判断された分類対象テキ
ストに対しては、ユーザが入力装置4を介して新たに作
成、更新した更新分類知識ベースを用いて再分類するコ
ンピュータ2、それらの結果を表示するディスプレイ
3、分類した結果に対して、ユーザが指示を入力するた
めの入力装置4から構成される。
【0015】図1に本足切り文書の分類支援装置の機能
ブロック図を示す。図1において、分類対象テキスト群
101、分類対象テキスト名一覧ファイル102、単語
辞書103、単語分割結果ファイル104、第1の分類
知識である分類知識ベースファイル105、分類カテゴ
リ一覧が記述してあるファイル106、分類結果が記述
してあるファイル107、分類判定知識が記述してある
ファイル108、判定後の分類結果が記述してあるファ
イル109、及び、第2の分類知識である更新分類知識
ベースファイル110は、外部記憶装置1に格納されて
いる。
【0016】テキスト入力部21は、分類対象テキスト
群101と分類対象テキスト名一覧ファイル102を入
力し、分類対象テキスト名一覧ファイル102の中から
未分類のテキストを1つ選択し、そのテキストを分類対
象テキストとして分類処理部22に出力する。
【0017】単語分割部22は、単語辞書103を入力
し、分類対象テキストを単語分割し、抽出した単語を単
語分割結果ファイル104に出力する。単語分割処理に
関しては、すでに多くの公知例(例えば、情報処理学会
第44回全国大会講演論文集3−181、’92.3)
があるので、ここでは説明を省略する。
【0018】分類処理部23は、単語分割結果ファイル
104、分類知識ベースファイル105、及び、分類カ
テゴリ一覧ファイル106を入力し、入力した単語分割
結果の各分類カテゴリに対する類似度を計算し、その結
果を分類結果ファイル107に出力し、第一段階の分類
が終了したことを分類判定部24に出力する。
【0019】分類判定部24は、分類結果ファイル10
7と分類判定知識ファイル108を入力し、分類の判定
を行ない、分類カテゴリを特定できた場合は、その結果
を判定後分類結果ファイル109に出力し、分類対象テ
キストの分類が終了したことをテキスト入力部21に出
力する。あるいは、分類カテゴリを特定できなかった場
合でかつ、更新分類知識ベースファイル110が存在し
ない場合には、分類結果を分類結果表示部25に出力す
る。あるいは、分類カテゴリを特定できなかった場合で
かつ、すでに更新分類知識ベースファイル110が存在
する場合には、分類カテゴリを特定できなかったことを
判定後分類結果ファイル109に出力し、再分類するこ
とを再分類判定部26に出力する。
【0020】分類結果表示部25は、判定後分類結果フ
ァイル109を入力し、分類結果をディスプレイ3に出
力する。
【0021】再分類判定部26は、更新分類知識ベース
ファイル110を入力し、単語分割結果の各分類カテゴ
リに対する類似度を計算し、特定の分類カテゴリを選択
できた場合は、その結果を判定後分類結果ファイル10
9に出力し、分類対象テキストの分類が終了したことを
テキスト入力部21に出力し、分類カテゴリを特定でき
なかった場合は、分類結果を分類結果表示部25に出力
する。
【0022】更新知識入力部27は、ユーザが入力装置
4を介して入力する分類知識ベースファイル105に対
する更新内容を更新分類知識ベース作成部28に出力す
る。更新分類知識ベース作成部28は、入力した分類知
識ベースファイル105に対する変更内容を、あらかじ
め格納してある分類知識ベースファイル105とは別の
更新分類知識ベースファイル110に記述する。
【0023】分類知識ベース合併部29は、ユーザが入
力装置4を介して分類知識ベースファイル105と更新
分類知識ベースファイル110を合併することを入力す
ると、分類知識ベースファイル105に更新分類知識ベ
ースファイル110との差分を加えて新しい分類知識ベ
ースファイル105を作成し、更新分類知識ベースファ
イル110を削除する。
【0024】図3に、ディスプレイ3に表示される本発
明の操作画面の構成を示す。ディスプレイ3上の画面
は、表示可能領域31上において、現在対象となってい
る分類対象テキストを表示する領域32、分類結果ファ
イル107を表示する領域33、判定後分類結果ファイ
ル109を表示する領域34、分類知識ベースファイル
105を表示する領域35、分類知識ベースファイル1
05と更新分類知識ベースファイル110との差分を表
示する領域36、分類知識を更新するコマンドを入力す
る領域37からなる。領域37は、さらに、単語分割結
果を表示するコマンド用ボタン領域371、分類知識ベ
ースファイル105を表示するコマンド用ボタン領域3
72、選択した単語に関する分類知識ベースファイル1
05の属性情報を更新分類知識ベースファイル110に
登録するコマンド用ボタン領域373、選択した単語を
更新分類知識ベースファイル110から削除するコマン
ド用ボタン領域374から構成される。
【0025】図4に、ディスプレイ3上の一画面例2を
示す。図4は、コマンド用ボタン領域371を入力装置
4を用いて選択した場合の画面例であり、表示可能領域
31上に単語分割結果表示領域3711が表示される。
【0026】図5は、ディスプレイ3上の一画面例3を
示す。図5は、コマンド用ボタン領域373を入力装置
4を用いて選択した場合の画面例であり、分類知識を登
録するために、表示可能領域31上に選択単語パラメー
タ登録領域3731が表示される。
【0027】図6は、ディスプレイ3上の一画面例4を
示す。図6は、コマンド用ボタン領域374を入力装置
4を用いて選択した場合の画面例であり、削除すべき分
類知識を確認するために、表示可能領域31上に選択単
語パラメータ削除領域3741が表示される。
【0028】図7に示す本装置の全体処理フロー図を用
いて本装置の動作を説明する。まず最初にテキスト入力
部21において、分類対象テキスト群101、分類対象
テキスト名一覧ファイル102を入力し、分類対象テキ
スト名一覧ファイル102の中から未分類のテキストを
1つ選択し、そのテキストを分類対象テキストとして単
語分割部22に出力する(ステップ201)。
【0029】次に単語分割部22において、単語辞書1
03を入力し、分類対象テキストを単語分割し、抽出し
た単語を単語分割結果ファイル104に出力する(ステ
ップ202)。
【0030】次に分類処理部23において、単語分割結
果ファイル104、分類知識である分類知識ベースファ
イル105、及び、分類カテゴリ一覧ファイル106を
入力し、入力した単語分割結果の各分類カテゴリに対す
る類似度を計算し、その結果を分類結果ファイル107
に出力し、第一段階の分類が終了したことを分類判定部
24に出力する(ステップ203)。
【0031】次に、分類判定部24において、分類結果
ファイル107と分類判定知識ファイル108を入力
し、分類の判定を行ない、分類カテゴリを特定できた場
合は、その結果を判定後分類結果ファイル109に出力
し、分類対象テキストの分類が終了したことをテキスト
入力部21に出力する。あるいは、分類カテゴリを特定
できず、更新分類知識ベースファイル110が存在しな
い場合には、分類結果を分類結果表示部25に出力す
る。あるいは、分類カテゴリを特定できず、すでに更新
分類知識ベースファイル110が存在する場合には、分
類カテゴリを特定できなかったことを判定後分類結果フ
ァイル109に出力し、再分類することを再分類判定部
26に出力する(ステップ204)。
【0032】次に分類結果表示部25において、判定後
分類結果ファイル109を入力し、分類結果をディスプ
レイ3に出力する(ステップ205)。次に再分類判定
部26において、更新分類知識ベースファイル110を
入力し、単語分割結果の各分類カテゴリに対する類似度
を計算し、特定の分類カテゴリを選択できた場合は、そ
の結果を判定後分類結果ファイル109に出力し、分類
対象テキストの分類が終了したことをテキスト入力部2
1に出力する。あるいは、分類カテゴリを特定できなか
った場合は、分類結果を分類結果表示部25に出力する
(ステップ206)。
【0033】次に更新知識入力部27において、ユーザ
が入力装置4を介して入力した分類更新知識を更新分類
知識ベース作成部28に出力する(ステップ207)。
次に更新分類知識ベース作成部28において、ユーザが
入力装置4を介して入力した分類知識ベースファイル1
05に対する更新内容を更新分類知識ベースファイル1
10に記述する(ステップ208)。
【0034】次に分類知識ベース合併部29において、
ユーザが入力装置4を介して分類知識ベースファイル1
05と更新分類知識ベースファイル110を合併するこ
とを入力すると、分類知識ベースファイル105に更新
分類知識ベースファイル110との差分を加えて新しい
分類知識ベースファイル105を作成し、更新分類知識
ベースファイル110を削除する(ステップ209)。
【0035】分類対象テキスト群101は、様々な長さ
のテキストのファイルの集合である。 図8は、分類対
象テキスト群101のテキスト例として、分類対象テキ
スト名が「1101」と「1102」のテキストの内容
である。
【0036】図9は、分類対象テキスト名一覧ファイル
102のファイル構成を示したものである。分類対象テ
キスト名一覧ファイル102は、複数のレコード102
1−1〜3から構成され、各レコードは、「分類対象テ
キスト名」、「分類済みフラグ」の2つのデータ項目1
022a、bから構成されるデータの一記憶単位であ
る。例えば、図9の分類対象テキスト名一覧ファイル1
02では、「分類対象テキスト名」が「1100」であ
るテキストはすでに分類されているが、「分類対象テキ
スト名」が「1101」、「1102」であるテキスト
はまだ分類されていなことを示している。この分類対象
テキスト名一覧ファイル102はあらかじめ用意したも
のである。
【0037】図10は、単語辞書103のファイル構成
を示したものである。単語辞書103は、複数のレコー
ド1031−1〜3から構成され、各レコードは、「見
出し語」、「品詞」の2つのデータ項目1032a、b
から構成されるデータの一記憶単位である。例えば、図
10の単語辞書103では、「チョコレート」という
「見出し語」をもつ単語の「品詞」が「名詞」であるこ
と、「作る」という「見出し語」をもつ単語の「品詞」
が「動詞」であることを示している。この単語辞書10
3はあらかじめ用意したものである。
【0038】図11は、単語分割結果ファイル104の
ファイル構成を示したものである。単語分割結果ファイ
ル104は、複数のレコード1041−1〜3から構成
され、各レコードは、「分類対象テキスト名」、「単
語」、「品詞」、「出現頻度」の4つのデータ項目10
42a、b、c、dから構成されるデータの一記憶単位
である。例えば、図11の単語分割結果ファイル104
では、「分類対象テキスト名」が「1101」である分
類対象テキストから、「△△△会社」、「チョコレー
ト」、「発明」という「単語」を抽出し、また、「チョ
コレート」という「単語」の「品詞」は「名詞」であ
り、テキスト中に1回、出現したことを示している。こ
の単語分割結果ファイル104は、単語分割部22で作
成されるファイルである。
【0039】図12は、分類知識ベースファイル105
のファイル構成を示したものである。分類知識ベースフ
ァイル105は、複数のレコード1051−1〜3から
構成され、各レコードは、「分類カテゴリコード」、
「キーワード」、「品詞」、「重み」の4つのデータ項
目1052a、b、c、dから構成されるデータの一記
憶単位である。例えば、図12の分類知識ベースファイ
ル105では、「分類カテゴリコード」が「食品」、
「キーワード」が「製造」、「品詞」が「動詞」、「重
み」が「2」であることを示している。この分類知識ベ
ースファイル105はあらかじめ用意したものである。
【0040】図13は、分類カテゴリ一覧ファイル10
6のファイル構成を示したものである。分類カテゴリ一
覧ファイル106は、複数のレコード1061−1〜3
から構成され、各レコードは、「分類カテゴリコード」
のデータ項目1062から構成されるデータの一記憶単
位である。例えば、図13の分類カテゴリ一覧ファイル
106では、「食品」、「機械」、「経済」、「政治」
という「分類カテゴリコード」があることを示してい
る。この分類カテゴリ一覧ファイル106はあらかじめ
用意したものである。
【0041】図14は、分類結果ファイル107のファ
イル構成を示したものである。分類結果ファイル107
は、複数のレコード1071−1〜3から構成され、各
レコードは、「分類対象ファイル名」、「分類カテゴリ
コード」、「類似度」の3つのデータ項目1072a、
b、cから構成されるデータの一記憶単位である。例え
ば、図14の分類結果ファイル107では、「分類対象
ファイル名」が「1101」というファイルは、「分類
カテゴリコード」が「食品」というカテゴリに「類似
度」が「30」という値で分類される場合と、「分類カ
テゴリコード」が「機械」というカテゴリに「類似度」
が「25」という値で分類される場合と、「分類カテゴ
リコード」が「経済」というカテゴリに「類似度」が
「15」という値で分類される場合と、「分類カテゴリ
コード」が「政治」というカテゴリに「類似度」が
「0」という値で分類される場合の4つがあること示し
ている。この分類結果ファイル107は、分類処理部2
3で作成されるファイルである。
【0042】図15は、分類判定知識ファイル108の
ファイル構成を示したものである。分類判定知識ファイ
ル108には、分類判定の基準となる「類似度」を記述
する。例えば、図15の分類判定知識ファイル108で
は、分類結果の「類似度」の項目が「70」以上の「類
似度」の値をもつ「分類カテゴリコード」を、その分類
対象ファイルの分類カテゴリコードとすることを示して
いる。そして、分類結果の「類似度」の項目が「70」
以上のものがない場合には、その分類対象ファイルは分
類不可として再分類判定部26に出力される。この分類
判定知識ファイル108の内容は、ユーザによる変更が
可能である。
【0043】図16は、判定後分類結果ファイル109
のファイル構成を示したものである。判定後分類結果フ
ァイル109は、複数のレコード1091−1〜3から
構成され、各レコードは、「分類対象ファイル名」、
「分類カテゴリコード」、「類似度」の3つのデータ項
目1092a、b、cから構成されるデータの一記憶単
位である。例えば、図16の判定後分類結果ファイル1
09では、「分類対象ファイル名」が「1100」とい
うファイルは、すでに「分類カテゴリコード」が「経
済」というカテゴリに「類似度」が「90」という値で
分類されたことを示している。また、「分類対象ファイ
ル名」が「1101」というファイルは、分類されるべ
き「分類カテゴリコード」がないと判定されたので、再
分類判定部26でもう一度分類されることを示してい
る。この判定後分類結果ファイル109は、分類判定部
24で作成されるファイルである。
【0044】図17は、更新分類知識ベースファイル1
10のファイル構成を示したものである。更新分類知識
ベースファイル110は、複数のレコード1101−1
〜3から構成され、各レコードは、「分類カテゴリコー
ド」、「キーワード」、「品詞」、「重み」の4つのデ
ータ項目1102a、b、c、dから構成されるデータ
の一記憶単位である。例えば、図17の更新分類知識ベ
ースファイル110では、分類知識ベースファイル10
5との差分として、「分類カテゴリコード」が「食
品」、「キーワード」が「チョコレート」、「品詞」が
「名詞」、「重み」が「3」があることを示している。
また、「分類カテゴリコード」が「食品」、「キーワー
ド」が「発表」、「品詞」が「動詞」、「重み」が
「5」、つまり、この単語を更新分類知識ベースファイ
ルに登録しないことを示している。この更新分類知識ベ
ースファイル110は、ユーザの入力装置を介して、作
成、更新されるものである。
【0045】図18は、本装置のテキスト入力部21の
処理フローである。図18を用いて本装置のテキスト入
力部21の動作を説明する。まず最初に、分類対象テキ
スト群101、分類対象テキスト名一覧ファイル102
を入力する(ステップ2101)。
【0046】次に、分類対象テキスト名一覧ファイル1
02の、データ項目「分類済フラグ」が「未分類」であ
る分類対象テキストを1つ選択する(ステップ210
2)。次に、ステップ2101で選択した分類対象テキ
ストを分類処理部23に出力する(ステップ210
3)。
【0047】次に、分類判定部24、及び再分類判定部
26での一連の分類が終了し、次の分類対象テキストを
分類する信号が分類判定部24、及び再分類判定部26
から入力されるまで入力待ち状態にはいる(ステップ2
104)。次に、信号を入力した場合には、現在分類対
象テキストの分類が終了したことを分類対象テキスト名
一覧ファイル102に出力し、ステップ2101に戻る
(ステップ2105)。分類対象のテキストが無くなる
まで、上記の処理が繰り返される。
【0048】図19は、本装置の単語分割部22の処理
フローである。図19を用いて本装置の単語分割部22
の動作を説明する。まず最初に、分類対象テキスト、単
語辞書103を外部記憶装置1から入力する(ステップ
2201)。
【0049】次に、形態素解析等により分類対象テキス
トを単語分割し、抽出した単語を単語分割結果ファイル
104に出力する(ステップ2202)。次に、単語分
割の終了を分類処理部23に出力する(ステップ220
3)。
【0050】図20は、本装置の分類処理部23の処理
フローである。図20を用いて本装置の分類処理部23
の動作を説明する。まず最初に、単語分割結果ファイル
104、分類知識ベースファイル105、分類カテゴリ
一覧ファイル106を入力する(ステップ2301)。
【0051】次に、各分類カテゴリごとに、類似度を計
算する。類似度の計算方法は、まず、分類カテゴリ一覧
ファイル106に記述されている各分類カテゴリごと
に、分類知識ベースファイル105の「分類カテゴリコ
ード」の「キーワード」と合致する分類対象テキスト中
の単語の出現頻度と更新分類知識ベースファイル105
の「重み」の積を合計する。そして、各分類カテゴリご
とに算出した合計の偏差値をその分類カテゴリの類似度
とする(ステップ2302)。
【0052】次に、その算出した類似度を類似度の降順
で、分類結果ファイル107に出力する(ステップ23
03)。次に、分類処理部での処理が終了したことを分
類判定部24に出力する(ステップ2304)。
【0053】図21は、本装置の分類判定部24の処理
フローである。図21を用いて本装置の分類判定部24
の動作を説明する。まず最初に、分類結果ファイル10
7と分類判定知識ファイル108を入力する(ステップ
2401)。
【0054】次に、分類の判定を行う。分類の判定方法
は、分類結果ファイル107の「類似度」の値が、分類
判定知識ファイル108の「類似度」の値よりも大きい
「分類カテゴリコード」のうち、一番値の大きい「類似
度」をもつ「分類カテゴリコード」を求める。この場合
を、特定の分類カテゴリの選択という。もし、分類判定
知識ファイル108の「類似度」の値よりも大きい値を
持つ「分類カテゴリコード」が存在しない場合を、特定
の分類カテゴリの未選択という(ステップ2402)。
【0055】次に、特定の分類カテゴリを選択できた場
合は、その結果を判定後分類結果ファイル109に出力
し、分類対象テキストの分類が終了したことをテキスト
入力部21に出力する(ステップ2403)。
【0056】あるいは、特定の分類カテゴリが未選択の
場合でかつ、すでに更新分類知識ベースファイル110
が存在する場合には、再分類を行なうことを判定後分類
結果ファイル109に出力し、再分類することを再分類
判定部26に出力する(ステップ2404)。あるい
は、更新分類知識ベースファイル110がまだ存在しな
い場合には、分類結果表示部25に分類対象テキストを
出力する(ステップ2405)。
【0057】図22は、本装置の分類結果表示部25の
処理フローである。図22を用いて本装置の分類結果表
示部25の動作を説明する。まず最初に、判定後分類結
果ファイル109を入力する(ステップ2501)。
次に、図3の領域32に、現在対象となっている分類対
象テキストを表示する(ステップ2502)。
【0058】次に、領域33に、分類結果ファイル10
7を表示する(ステップ2503)。 次に、領域34
に、判定後分類結果ファイル109を表示する(ステッ
プ2504)。次に、領域35に、分類知識ベースファ
イル105を表示する(ステップ2505)。
【0059】次に、領域36に、更新分類知識ベースフ
ァイル110と分類知識ベースファイル105との差分
を表示し、ユーザからの入力装置を介しての入力待ち状
態にはいる(ステップ2506)。次に、ユーザが単語
分割結果を表示するコマンド用ボタン領域371を選択
した場合は、図4のように、領域31上に単語分割結果
表示領域3711を表示し、さらに、領域3711に単
語分割結果ファイル104を表示する(ステップ250
7)。
【0060】次に、ユーザが領域3711上の単語を選
択した場合は、領域32において、分類対象テキストの
該当する単語のみを異なる態様で再表示し、領域35に
おいては、分類知識ベースファイル105の該当する単
語が各レコードの「キーワード」と等しいレコードのみ
を全て再表示する(ステップ2508)。次に、ユーザ
が分類知識ベースファイル105を表示するコマンド用
ボタン領域372を選択した場合は、領域35におい
て、分類知識ベースファイル105を全て再表示する
(ステップ2509)。
【0061】次に、ユーザが選択した単語に関するパラ
メータを更新分類知識ベースファイル110に登録する
コマンド用ボタン領域373を選択した場合は、図5に
示すように、領域31上に選択単語パラメータ登録領域
3731を表示する(ステップ2510)。次に、ユー
ザが選択した単語を更新分類知識ベースファイル110
から削除するコマンド用ボタン領域374を選択した場
合は、図6に示すように、領域31上に選択単語パラメ
ータ削除領域3741を表示する(ステップ251
1)。
【0062】図23は、本装置の再分類判定部26の処
理フローである。図23を用いて本装置の再分類判定部
26の動作を説明する。まず最初に、単語分割結果ファ
イル104、分類カテゴリ一覧ファイル106、分類判
定知識ファイル108、及び、更新分類知識ベースファ
イル110を入力する(ステップ2601)。
【0063】次に、各分類カテゴリごとに、類似度を計
算する。類似度の計算方法は、まず、分類カテゴリ一覧
ファイル106に記述されている各分類カテゴリごと
に、分類知識ベースファイル110の「分類カテゴリコ
ード」の「キーワード」と合致する分類対象テキスト中
の単語の出現頻度と更新分類知識ベースファイル110
の「重み」の積を合計する。そして、各分類カテゴリご
とに算出した合計の偏差値をその分類カテゴリの類似度
とする(ステップ2602)。
【0064】次に、分類の判定を行う。分類の判定方法
は、再分類し、算出した「類似度」の値が、分類判定知
識ファイル108の「類似度」の値よりも大きい「分類
カテゴリコード」のうち、一番値の大きい「類似度」を
もつ「分類カテゴリコード」を求める(ステップ260
3)。
【0065】次に、特定の分類カテゴリを選択できた場
合は、その結果を判定後分類結果ファイル109に出力
し、分類対象テキストの分類が終了したことをテキスト
入力部21に出力する(ステップ2604)。あるい
は、特定の分類カテゴリが未選択の場合は、再分類行な
うことを判定後分類結果ファイル109に出力し、分類
結果表示部25に分類対象テキストを出力する(ステッ
プ2605)。
【0066】図24は、本装置の更新知識入力部27の
処理フローである。図24を用いて本装置の更新知識入
力部27の動作を説明する。ユーザが入力装置4を介し
て入力した分類知識ベースファイル105に対する更新
内容を更新分類知識ベース作成部28に出力する(ステ
ップ2701)。
【0067】図25は、本装置の更新分類知識ベース作
成部28の処理フローである。図25を用いて本装置の
更新分類知識ベース作成部28の動作を説明する。まず
最初に、更新分類知識ベースファイル110が存在しな
い場合は、分類知識ベースファイル105の内容を複写
する(ステップ2801)。
【0068】次に、ユーザが入力装置を介して入力した
更新内容を更新分類知識ベースファイル110に出力す
る(ステップ2801)。次に、再分類判定部に更新分
類知識ベースファイル110が更新されたので再分類を
行うことを出力する(ステップ2802)。
【0069】図26は、本装置の分類知識ベース合併部
29の処理フローである。図25を用いて本装置の分類
知識ベース合併部29の動作を説明する。まず最初に、
分類知識ベースファイル105と更新分類知識ベースフ
ァイル110を入力する(ステップ2901)。
【0070】次に、ユーザが合併することを入力する
と、分類知識ベースファイル105に更新分類知識ベー
スファイル110を複写し、新しい分類知識ベースファ
イル105を作成し、更新分類知識ベースファイル11
0を削除する(ステップ2902)。
【0071】図8に示した分類対象テキスト名が「11
01」である分類対象テキストを用いて上記処理の具体
例を説明する。図11は、図10に示した単語辞書10
3を用いて、単語分割を行った結果、出力した単語分割
結果ファイルである。つまり、単語分割部22によっ
て、このテキストから、「△△△会社」、「チョコレー
ト」、「発明」等の単語を抽出したことを示している。
図14は、この単語分割結果ファイルを図12に示した
分類知識ベースファイル105を用いて分類した結果で
ある。また、図16は、分類処理部23によって、図1
5に示した分類判定知識ファイルを用いて分類判定した
結果である。また、図3は、更新分類知識が存在しない
場合の画面例である。また、図4は、単語分割結果を表
示するコマンド用ボタン領域371を選択したときの画
面例である。
【0072】ここで、図4の単語分割結果表示領域37
11上の「チョコレート」という単語を選択した場合の
画面例を図27に示す。分類判定部24に基づいて、分
類知識ベースファイル105を表示する領域35上に何
も表示されなくなったことが、「チョコレート」という
単語が分類知識ベースファイル105に記述されていな
かったことを示している。そこでこの「チョコレート」
という単語を更新分類知識ベースファイル110に記述
することにする。
【0073】図5は、「チョコレート」という単語を更
新分類知識ベース105に登録する場合の画面例であ
る。選択単語パラメータ登録領域3731上の「カテゴ
リ」、「キーワード」、「品詞」、「重み」を入力装置
4を介してそれぞれの入力領域に入力する。この場合、
「チョコレート」という「キーワード」を、「カテゴ
リ」が「食品」で、「品詞」が名詞で、「重み」が
「5」であると登録する。また、図6は、「発表」とい
う単語を分類知識ベース105から削除する場合の画面
例である。「キーワード」を入力装置4を介して入力領
域に入力する。
【0074】図17は、この更新分類知識ベースファイ
ル110を作成した例である。この2つの単語の登録、
又は削除により分類対象テキスト名「1101」を分類
カテゴリコード「食品」に分類することができた。
【0075】次に、図8の分類対象テキスト名「110
2」を分類する場合を考える。図28は、この分類対象
テキスト単語分割した結果であり、図29は、分類知識
ベースファイル105を用いて分類した結果である。こ
の時点では、分類判定部24によって、分類は不可能と
判定されるので、再分類判定部26に進む。この場合
は、すでに更新分類知識ベースファイル110が存在す
るので、それを用いて再分類し、分類カテゴリコードが
「食品」で、「類似度」が「80」という値を算出し、
更新分類知識ベ−ス作成部28によって、その結果を判
定後分類結果ファイル109に出力する。図30に示し
た判定後分類結果ファイル109のように、更新分類知
識ベースファイル110を用いて、この分類対象テキス
トを分類カテゴリコードが「食品」に分類することがで
きた。したがって、この分類対象テキストの分類処理が
終了したことを、テキスト入力部に出力し、次に分類対
象テキストを分類する処理に進む。
【0076】このように、本実施例によれば、あらかじ
め格納した分類知識ベースファイル105を用いて自動
文書分類する際に、分類判定基準を満たさない分類対象
テキストに対して、ユーザが入力装置4を介して作成、
更新した新しい更新分類知識ベースファイル110を用
いて再分類を行なうので、同じ分類知識を必要とするテ
キストを2度目以降に入力した場合には、分類判定基準
を満たす分類が可能である。
【0077】また、分類対象テキストに対して、現時点
での分類知識ベースファイル105、更新分類知識ベー
スファイル110が十分なものであるか否かをユーザに
知らしめることが可能である。
【0078】また、あらかじめ用意した分類知識ベース
ファイル105と別に、更新分類知識ベースファイル1
10を用意するので、分類判定基準を満たす分類対象テ
キストが、分類知識ベースファイル105を変更したた
めに分類判定基準を満たさなくなることを避けられる。
【0079】
【発明の効果】本発明によれば、あらかじめ格納した分
類知識ベースファイル105を用いて自動文書分類する
際に、分類判定基準を満たさない分類対象テキストに対
して、ユーザが入力装置4を介して作成、更新した新し
い更新更新分類知識ベースファイル110を用いて再分
類を行なうので、同じ分類知識を必要とするテキストを
2度目以降に入力した場合には、分類判定基準を満たす
分類が可能である。
【0080】また、分類対象テキストに対して、現時点
での分類知識ベースファイル105、更新分類知識ベー
スファイル110が十分なものであるか否かをユーザに
知らしめることが可能である。
【0081】また、あらかじめ用意した分類知識ベース
ファイル105と別に、更新分類知識ベースファイル1
10を用意するので、分類判定基準を満たす分類対象テ
キストが、分類知識ベースファイル105を変更したた
めに分類判定基準を満たさなくなることを避けることが
可能である。
【図面の簡単な説明】
【図1】本発明の実施例である足切り文書の分類支援装
置の機能ブロック図である。
【図2】本発明の実施例である足切り文書の分類支援装
置の全体構成図である。
【図3】本発明の実施例である足切り文書の分類支援装
置のディスプレイの画面例1である。
【図4】本発明の実施例である足切り文書の分類支援装
置のディスプレイの画面例2である。
【図5】本発明の実施例である足切り文書の分類支援装
置のディスプレイの画面例3である。
【図6】本発明の実施例である足切り文書の分類支援装
置のディスプレイの画面例4である。
【図7】図1における足切り文書の分類支援装置の全体
処理のフロー図である。
【図8】図1における分類対象テキスト101のファイ
ル例である。
【図9】図1における分類対象テキスト名一覧ファイル
102のファイル構成図である。
【図10】図1における単語辞書103のファイル構成
図である。
【図11】図1における単語分割結果ファイル104の
ファイル構成図である。
【図12】図1における分類知識ベースファイル105
のファイル構成図である。
【図13】図1における分類カテゴリファイル106の
ファイル構成図である。
【図14】図1における分類結果ファイル107のファ
イル構成図である。
【図15】図1における分類判定知識ファイル108の
ファイル構成図である。
【図16】図1における判定後の分類結果ファイル10
9のファイル構成図である。
【図17】図1における更新後の分類知識ベースファイ
ル110のファイル構成図である。
【図18】図1におけるテキスト入力部21の処理フロ
ーである。
【図19】図1における単語分割部22の処理フローで
ある。
【図20】図1における分類処理部23の処理フローで
ある。
【図21】図1における分類判定部24の処理フローで
ある。
【図22】図1における分類結果表示部25の処理フロ
ーである。
【図23】図1における再分類処理部26の処理フロー
である。
【図24】図1における更新知識入力部27の処理フロ
ーである。
【図25】図1における更新分類知識ベース作成部28
の処理フローである。
【図26】図1における分類知識ベース合併部29の処
理フローである。
【図27】本発明の実施例である足切り文書の分類支援
装置のディスプレイの画面例5である。
【図28】分類対象テキスト名1102を単語分割した
結果のファイル例である。
【図29】分類対象テキスト名1102を分類した結果
のファイル例である。
【図30】分類対象テキスト名1102を再分類判定し
た結果のファイル例である。
【符号の説明】
1…外部記憶装置、2…コンピュータ、3…ディスプレ
イ、4…入力装置、101…分類対象テキスト群、10
2…分類対象テキスト名一覧が記述してあるファイル、
103…単語辞書、104…単語分割結果が記述してあ
るファイル、105…分類知識ベースが記述してあるフ
ァイル、106…分類カテゴリが記述してあるファイ
ル、107…分類結果が記述してあるファイル、108
…分類判定知識が記述してあるファイル、109…判定
後の分類結果が記述してあるファイル、110…更新後
の分類知識ベースが記述してあるファイル、21…テキ
スト入力部、22…単語分割部、23…分類処理部、2
4…分類判定部、25…分類結果表示部、26…再分類
処理部、27…更新知識入力部、28…更新分類知識ベ
ース作成部、29…分類知識ベース合併部、31…ディ
スプレイ3上の表示可能領域、32…現在対象となって
いる一分類対象テキストを表示する領域、33…分類結
果ファイル107を表示する領域、34…判定後の分類
結果ファイル108を表示する領域、35…分類知識ベ
ースファイル105を表示する領域、36…更新分類知
識ベースファイル110を表示する領域、37…分類知
識を更新するコマンドを入力する領域

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】あらかじめ格納された第1の分類知識を用
    いて、分類の対象となっているテキストを特定の分類カ
    テゴリに分類し、 分類判定基準に満たなかったテキストに対して、ユーザ
    が定義した第2の分類知識を用いて、該テキストを再分
    類することを特徴とする文書分類支援方法。
  2. 【請求項2】分類判定基準に満たなかったテキストに対
    して、前記第2の分類知識が存在しない場合には、該テ
    キストをディスプレイ上に表示し、分類判定基準を満た
    さないことを表示することを特徴とする請求項1記載の
    文書分類支援方法。
  3. 【請求項3】分類判定基準に満たなかったテキストに対
    して、前記第1の分類知識に格納されている各単語とそ
    の属性情報を表示し、ユーザが入力装置を介して入力す
    る前記第1の分類知識に対する更新内容を受け付け、そ
    の変更内容をあらかじめ格納してある前記第1の分類知
    識とは別の第2の分類知識として新たに作成、更新する
    ことを特徴とする請求項2記載の文書分類支援方法。
  4. 【請求項4】分類判定基準に満たなかったテキストに対
    して、ユーザが入力装置を介して前記第2の分類知識を
    新たに作成、更新した後、前記第2の分類知識を用いて
    再度分類、判定し、その結果をユーザに知らしめること
    を特徴とする請求項3記載の文書分類支援方法。
  5. 【請求項5】すでにユーザが作成、更新した前記第2の
    分類知識を、あらかじめ格納された前記第1の分類知識
    に合併することが入力装置を介して指示された場合に
    は、前記第1の分類知識に前記第2の分類知識を合併し
    てから、前記第2の分類知識を削除することを特徴とす
    る請求項4記載の文書分類支援方法。
  6. 【請求項6】分類対象テキスト、第1の分類知識を格納
    した外部記憶装置、ディスプレイ、入力装置を用いて分
    類の対象となっているテキストを自動分類する装置にお
    いて、 分類対象となっているテキストを単語分割し、
    その単語分割結果を出力する単語分割手段、単語分割し
    た結果ファイル、あらかじめ格納してある第1の分類知
    識、分類カテゴリを参照して、該テキストを自動分類す
    る分類処理手段、分類判定知識を参照して、分類判定基
    準を満たすか否かの判定を行う分類判定手段、分類判定
    基準に満たなかった場合は、該テキストをディスプレイ
    上に表示する分類結果表示手段、該テキストを特定の分
    類カテゴリに分類するための第2の分類知識をユーザが
    入力装置を介して入力し、その第2の分類知識をあらか
    じめ格納してある第1の分類知識と別に新しく作成、更
    新する更新知識ベース作成手段、分類判定基準を満たさ
    なかった場合で、かつ、ユーザが入力装置を介して新し
    く作成、更新した第2の分類知識が存在する場合には、
    その第2の分類知識を参照して再分類を行う再分類処理
    手段、ユーザが入力装置を介して合併することを指示し
    た場合にはユーザが入力装置を介して作成、更新した第
    2の分類知識をあらかじめ格納してある第1の分類知識
    に合併する分類知識ベース合併手段を具備することを特
    徴とする文書分類支援装置。
JP7310322A 1995-11-29 1995-11-29 文書分類支援方法及び装置 Pending JPH09153049A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7310322A JPH09153049A (ja) 1995-11-29 1995-11-29 文書分類支援方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7310322A JPH09153049A (ja) 1995-11-29 1995-11-29 文書分類支援方法及び装置

Publications (1)

Publication Number Publication Date
JPH09153049A true JPH09153049A (ja) 1997-06-10

Family

ID=18003846

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7310322A Pending JPH09153049A (ja) 1995-11-29 1995-11-29 文書分類支援方法及び装置

Country Status (1)

Country Link
JP (1) JPH09153049A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010996A (ja) * 1998-06-24 2000-01-14 Fujitsu Ltd 文書整理装置および方法
JP2002543528A (ja) * 1999-05-05 2002-12-17 ウエスト パブリッシング カンパニー ドキュメント分類システム、ドキュメント分類方法およびドキュメント分類ソフトウェア
US6549752B2 (en) 2001-01-29 2003-04-15 Fujitsu Limited Apparatus and method accumulating cases to be learned
JP2003256442A (ja) * 2002-03-01 2003-09-12 Toshiba Corp 知識共有システム、データ管理システムおよび未分類データ処理方法
WO2018122931A1 (ja) * 2016-12-26 2018-07-05 株式会社Pfu 情報処理装置、方法およびプログラム
JP2019160134A (ja) * 2018-03-16 2019-09-19 株式会社日立製作所 文章処理装置および文章処理方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010996A (ja) * 1998-06-24 2000-01-14 Fujitsu Ltd 文書整理装置および方法
JP2002543528A (ja) * 1999-05-05 2002-12-17 ウエスト パブリッシング カンパニー ドキュメント分類システム、ドキュメント分類方法およびドキュメント分類ソフトウェア
JP4732593B2 (ja) * 1999-05-05 2011-07-27 ウエスト パブリッシング カンパニー ドキュメント分類システム、ドキュメント分類方法およびドキュメント分類ソフトウェア
US6549752B2 (en) 2001-01-29 2003-04-15 Fujitsu Limited Apparatus and method accumulating cases to be learned
JP2003256442A (ja) * 2002-03-01 2003-09-12 Toshiba Corp 知識共有システム、データ管理システムおよび未分類データ処理方法
WO2018122931A1 (ja) * 2016-12-26 2018-07-05 株式会社Pfu 情報処理装置、方法およびプログラム
JP2019160134A (ja) * 2018-03-16 2019-09-19 株式会社日立製作所 文章処理装置および文章処理方法

Similar Documents

Publication Publication Date Title
US7464096B2 (en) Method and apparatus for information mining and filtering
JPH08153121A (ja) 文書情報分類方法および文書情報分類装置
JP3362125B2 (ja) 情報処理方法
JPH0991314A (ja) 情報探索装置
JPH01180062A (ja) 文書整形装置
JPH08305616A (ja) データ管理システム
JP3828379B2 (ja) テスト仕様生成支援装置、方法、プログラム及び記録媒体
JPH0628403A (ja) 文書検索装置
JP3178421B2 (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3356519B2 (ja) 文書情報検索装置
JPH09153049A (ja) 文書分類支援方法及び装置
JPH06259420A (ja) 文章編集支援装置
JP2003288332A (ja) 構造化文書作成支援方法及び構造化文書作成支援システム
JPH10162011A (ja) 情報検索方法、情報検索システム、情報検索端末装置および情報検索装置
JP3933407B2 (ja) 文書処理装置、文書処理方法および文書処理プログラムが格納された記憶媒体
JP2939841B2 (ja) データベース検索装置
JPH09204449A (ja) 部品表作成処理装置
JPH09311862A (ja) データのドリルダウン方式
JPH09305626A (ja) 検索文書作成装置、検索文書記憶メディア、文書検索装置及び文書検索方法
JPH1027125A (ja) 文書分類装置
JP2002366577A (ja) 情報検索システム、情報検索方法、情報検索プログラム、情報検索プログラムを記録した記録媒体、出力情報選択装置、出力情報選択方法、出力情報選択プログラム及び出力情報選択プログラムを記録した記録媒体
JPH1145256A (ja) 文書管理支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003016105A (ja) 関連度値算出装置
JP2003173343A (ja) 文書管理装置及び文書表示方法
JP2003242177A (ja) 情報検索支援システム、プログラムおよび記録媒体