JP2002202984A

JP2002202984A - ルールベースモデルに基づくテキスト情報自動分類装置

Info

Publication number: JP2002202984A
Application number: JP2001329238A
Authority: JP
Inventors: Yoshinori Katayama; 佳則片山; Kanji Uchino; 寛治内野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2000-11-02
Filing date: 2001-10-26
Publication date: 2002-07-19

Abstract

(57)【要約】【課題】全体の分類ルールの再編集（再学習）を行う
ことなく、ルールベースモデルに基づくテキスト情報自
動分類装置の分類精度を改善すること。【解決手段】カテゴリ別のサンプル文書１１から学習
処理部２において学習処理した分類ルール４を用いて、
分類処理部３によりサンプル文書１１自体を分類する。
そして、分類間違いの文書を選別して、精度改善手段１
により分類ルールの追加および／または変更を行い分類
ルール４の改良処理を行い、自動分類処理の精度改善を
行う。また、新規のサンプル文書が与えられた場合に
も、再学習させるのではなく、そのサンプル文書の特徴
素を抽出して、分類ルールを追加し分類ルールを更新さ
せる。さらに、カテゴリ別のサンプル文書について、分
類カテゴリの独立度を判断し、独立度の低いものに関し
て、特にどのようなカテゴリ間の独立度が低いかを示し
て、提供すべきサンプル文書の分布を指示する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、テキスト自動分類
システムの中で、ルールベースの分類器を用いるテキス
ト情報自動分類装置に関し、特に、これらの自動分類の
分類精度を改善させる機構を備えたテキスト情報自動分
類に関するものである。

【０００２】

【従来の技術】現在では、インターネットを用いること
で、莫大な量のテキスト情報を簡単に手に入れられる。
これらの情報の中から必要な情報を的確に得るために
は、それらの大量テキストの内容を把握し、その中から
必要な情報を効率よく抽出することが必須である。必要
な情報を効率よく抽出するためには、様々な検索手法が
用いられる。その際、対象となる大量のテキスト情報
が、決められた分類カテゴリに、統一的な手段かつ高い
精度で分類されていると、テキストを活用する際の検索
や関連テキストを見つける場合などの絞込みとして非常
に効率的になる。これまで、このようなテキストの分類
は、(1) 分類担当者や、テキストの作成者およびテキス
トの活用者が、分類体系を用意しておき、対象テキスト
の内容を判断して分類体系内の適した所を見つけ出して
整理（手動分類）したり、(2) 計算機システムを利用し
てテキストの内容を解析して自動分類させる方法が用い
られている。前者の(1) は、非常に高いコストがかか
り、後者の(2) は、テキスト自動分類システムとして注
目されている技術である。大量の電子化されたテキスト
が流通するようになった現在、テキストの効率的検索／
利用において、前者の(1) のように分類担当者などによ
る手動分類は現実的でない状況である。一方、後者の
(2) は、実用的な分類結果を得るための分類カテゴリの
数に制限が必要になるなど分類精度に改良の余地がある
状況となっている。特に後者のテキストのコンテンツに
基づいた分類においては、分類精度改善が重要な課題と
なっている。

【０００３】自動分類システムの核である分類技術は、
（１）ベクトル空間法、（２）確率モデル法、（３）ル
ールベース法の３種類に大別できる。これらの方法は、
それぞれ一長一短があるが、どれも、対象テキストに対
する各分類カテゴリのスコアを計算して、スコアの高い
カテゴリをテキストに付与することは同じである。ベク
トル空間法であれば、ベクトルの類似度を用い、確率モ
デル法であれば確率による適合度を用い、ルールベース
法であればルールに設定されている重みを用いる。これ
らのスコア計算を行うための基礎データ（学習結果）
は、与えられるサンプル文書（予め分類カテゴリが付与
された文書）から学習することで作成される。これらの
分類技術の内、一般に、ルールベースの分類器を用いる
自動分類は、分類ルールを人が理解して細かい調整がで
き、強化できる点で有用と考えられている。このような
自動分類システムにおいて、分類精度を改善させる方法
は、学習結果に対して、再度分類間違いを起こしたサン
プル文書を学習し直す（再学習させる）ことを繰り返す
ことで行われる。この場合に分類間違いのサンプル文書
の分布を変化させ、分類間違いの文書を集中的に再学習
させるなどの方法がとられることもある。

【０００４】

【発明が解決しようとする課題】ルールベースの分類器
を採用している自動分類装置は、図１６に示されるよう
に、予めカテゴリに割り付けられている文書１１（以
下、サンプル文書ともいう）を入力として、特徴素抽出
を行って自動分類のための分類ルールを作成する自動学
習処理部２と、新たにカテゴリを割り付けたい文書１２
（以下、新規文書ともいう）を入力して、特徴素抽出を
行い、分類ル一ル適用によるスコア計算を行い分類すべ
きカテゴリを付与し分類結果を出力する自動分類処理部
３に分けられる。これらの中で、分類精度に影響を与え
る直接的な箇所は、「どれだけ精度の高いスコアを算出
する分類ルールを作成するか」の自動学習処理部２であ
る。本発明は、上記自動学習処理において、精度の高い
スコアを算出する分類ルールを改善しようとするもので
ある。

【０００５】ルールベースの分類器として作成された分
類ルールは、人が見て判断できるため、問題となる可能
性のあるルールを直接操作できる。しかしながら、精度
改善に向けたこれらのチェック作業は、人手による分類
作業までは至らないが、コストがかかる。また、分類ル
ールのチェックには対象分野の専門知識が必要となる。
さらには、分類ルールの生成に対して常に一貫した方法
を維持させることは、カテゴリ数が増加すればするほど
困難である。また、これまで予め設定したカテゴリ間の
関連がどのようであるかをマップなどで表示するなどの
機能を備えた自動分類システムはいくつか存在している
が、これらは、カテゴリの状況を提示するに留まり、カ
テゴリ間の関連情報を分類精度の改善に向けて積極的に
活用することには結び付けられていなかった。さらに、
前記した再度分類間違いを起こしたサンプル文書を学習
し直す（再学習させる）方法はコストがかかる。本発明
は上記事情を考慮してなされたものであって、本発明の
目的は、分類間違いの文書または分類ルールから精度改
善をチェックし、分類ルールを変更することにより、全
体のルールの再編集を行うことなく、ルールベースモデ
ルに基づくテキスト情報自動分類装置の分類精度を改善
することである。

【０００６】

【課題を解決するための手段】本発明は、ルールベース
法を対象にして、これまでのように、再学習を繰返すの
ではなく、ルールベース法の特徴を生かして、分類間違
いを正しく分類するように、分類ルールの重みを直接改
善する処理を行う。さらには、新たな分類ルールの追加
など、直接分類ルールの書き換えを行う事で、自動分類
の分類精度の改善を実現する。自動分類の分類精度評価
は、情報検索の分野と同じように、再現率と適合率によ
って行われる。再現率と適合率を計算するために、予め
分類カテゴリが付与された文書集合が必要になる。再現
率は、カテゴリから見ると分類すべきものがどれだけ正
しく分類できたか（漏れがないか）を表し、適合率は、
カテゴリから見ると分類されたものの中でどれだけ正し
いものがあったか（ゴミがないか）を表す。

【０００７】図１に本発明の概要を示す。本発明におい
ては、図１に示す精度改善手段１により以下のように分
類ルールを改善する。予めカテゴリがわかっているカテ
ゴリ別のサンプル文書１１から学習処理部２において学
習処理した分類ルール４を用いて、分類処理部３により
サンプル文書１１自体を分類処理する。これにより、カ
テゴリが割り付けられた文書の上記分類ルールによる分
類間違いが明らかになる。この間違った文書を選別し、
以下で説明する分類ルールの追加、および／または、変
更を行い分類ルール４の改良処理を行う。そして、改良
処理が行われた分類ルール４’をこれまでの分類ルール
４と置き換え、分類ルールの改善を行う。また、精度改
善手段１は、新規のサンプル文書が与えられた場合に、
再学習させるのではなく、そのサンプル文書の特徴素を
抽出して、個別の分類ルールを自動作成し、これまので
分類ルールに追加し分類ルールを更新させる。さらに、
精度改善手段１は、分類カテゴリの独立度を判断する手
段を備え、分類カテゴリの独立度を判断し、独立度の低
いものに関して、特にどのようなカテゴリ間の独立度が
低いかを示して、提供すべきサンプル文書の分布を指示
する。これによって、独立度が低いカテゴリの分類ル一
ルの確度を高め、分類精度改善を実現することができ
る。

【０００８】上記精度改善手段１は、以下のようにして
分類ルールを改善する。（１）分類カテゴリ付きのサンプル文書の自動分類結果
により選別された分類間違いの文書、もしくは、新規の
分類カテゴリ付きサンプル文書について、上記文書の特
徴素を抽出し、また、ルールベース分類手段から上記文
書に関連する分類ルールを抽出し、上記文書もしくは該
文書から抽出された特徴素に基づき、分類ルールの重み
変更および／または新規分類ルールの生成を行い自動分
類結果の精度を改善する。なお、上記分類間違いの文書
とは、あるカテゴリに分類されるべきなのに分類されな
かった文書（分類漏れ文書という）、および、あるカテ
ゴリに分類されるべきではないのに分類してしまった文
書（分類ゴミ文書という）である。（２）上記（１）において、分類間違い文書の特徴素が
関連する分類ルールを選別して、精度改善のための分類
ルールの変更を行う。（３）上記（１）において、ルールベースの分類手段の
分類ルールの内、分類間違いの文書に関連する分類ルー
ルを選別して、精度改善のための分類ルールの変更を行
う。（４）自動分類のために与えられた分類カテゴリ付きの
サンプル文書の自動分類結果から、分類間違い文書を選
別し、分類間違いの文書から抽出される特徴素をキーと
して、その特徴素に関連する分類ルールの重みを変更す
ることで、分類精度を改善する。上記重みの変更は次の
ように行われる。 (i) 分類間違い文書の中で、分類漏れ文書を対象にし
て、カテゴリの分類ルールと分類漏れ文書の特徴素の関
連をチェックして、関係するものがあれば分類ルールの
重みを高くすることで、分類漏れ文書のスコアを高くし
て、分類漏れを減らす。この処理を変更対象分類ルール
が無くなるか、スコアの極限に達するまで繰り返す。こ
れにより、分類漏れ文書を減らし分類精度を改善するこ
とができる。 (ii)分類間違い文書の中で、分類ゴミ文書を対象にし
て、カテゴリの分類ルールと分類漏れ文書の特徴素の関
連をチェックして、関係するものがあれば分類ルールの
重みを低くすることで、分類ゴミ文書のスコアを低くし
て、分類ゴミ文書を減らす。この処理を変更対象分類ル
ールが無くなるか、スコアの極限に達するまで繰り返
す。これにより、分類ゴミ文書を減らし分類精度を改善
する。（５）分類間違い文書の中で、分類漏れ文書を対象にし
て、カテゴリの分類ルールと分類漏れ文書の特徴素の関
連をチェックして、関係する分類ルールが全く存在しな
い場合に、新たにその特徴素からそのカテゴリへの分類
ルールを生成する。これにより、分類漏れを減らし、分
類精度改善することができる。（６）新規にサンプル文書が与えられた場合に、再学習
させるのではなく、そのサンプル文書の特徴素を抽出し
て、個別の分類ルールを自動作成し、これまので分類ル
ールに追加し、分類ルールを更新させる。これにより、
新しい文書も分類できるようになる。（７）与えられたサンプル文書から、分類カテゴリの特
徴を抽出し、抽出された分類カテゴリの特徴から、各カ
テゴリの依存度合い（タームの出現頻度計算結果や、す
べてに共通して出現するタームの重要度は下げるなどの
特徴素の重み計算結果）を求め、それらの依存度合いを
決められた個数（例えば、上位１００タームなど）の中
での割合として算出する。この数値を尺度として分類カ
テゴリの特徴（独立度）を判断し、独立度の低いものに
関して、特にどのようなカテゴリ間の独立度が低いかを
示して、提供すべきサンプル文書の分布を指示する。こ
れによって、独立度が低いカテゴリの分類ル一ルの確度
を高め、分類精度改善を実現することができる。

【０００９】

【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。自動分類装置の基本は、前記図１６に示し
たように、予めカテゴリに割り付けられている文書１１
（サンプル文書）を入力として、自動分類のための分類
ルールを生成する学習処理部２と、新たにカテゴリを割
り付けたい文書１２（新規文書）を入力して、新規文書
にカテゴリを割り付けた結果（分類結果）を出力する分
類処理部３から構成することができる。前者の２が学習
処理を行う部分であり、後者の３が分類処理を行う部分
である。上記本発明のルールベースモデルに基づく自動
分類装置は、処理装置、主記憶装置、外部記憶装置、キ
ーボード等の入力装置、ディスプレイ、プリンタ等の出
力装置、通信インタフェース等を備えた通常の計算機シ
ステムで実現することができ、外部記憶装置等に本発明
の処理を行うためのプログラム、データ等が格納され、
実行時、上記プログラム等が主記憶装置に読み込まれ、
本発明による処理が実行される。

【００１０】本発明は、前記図１で説明したように、分
類間違いの文書を選別し、以下で説明する分類ルールの
追加、および／または、変更を行い分類ルールの改良処
理を行う。以下、上記分類ルールの改良処理について説
明する。図２は上記分類ルールの改良処理を説明する図
であり、分類ルールの改良処理は次のようにして実現さ
れる。（１）分類間違いの文書側から、関連する既存の分類ル
ールをすべてチェックして、チェックした分類ルールの
改良処理を行い、改良済の分類ルールを作成する。図２
に示すように、まず、分類間違いの文書の特徴素（文書
中で使用されているターム等）が関連する分類ルールを
チェックする（ａ１）。そして、チェックされた分類ル
ールについてルールの追加、変更を行い、分類ルールを
改良する（ａ２）。この方法によれば、文書の特徴や記
述形態に着目して細かいルールの変更を行うことができ
る。すなわち、その文書に様々な重みを与えるカテゴリ
への割り付けスコアや、タームの並びや区切りを認識し
て、ルールの変更を行うことができる。

【００１１】（２）既存の分類ルール側から、関連する
分類間違いの文書をすべてチェックして、分類間違いを
改善するために必要な分類ルールの改良処理を行い、改
良済みの分類ルールを作成する。図２に示すように、ま
ず、分類ルール内の特徴素で分類間違いの文書に関連す
るルールをチェックする（ｂ１）。そして、チェックさ
れた分類ルールについてルールの追加、変更を行い、分
類ルールを改良する（ｂ２）。この方法によれば、現在
のルールとして対処可能な範囲内での対処方法が明確に
なる。また、分類間違いを改善するための極端なルール
追加を行うことを避けることができる。上記（１）と
（２）では、改良する分類ルールの範囲が異なり、上記
（１）のように、分類間違いの文書側から、関連する既
存の分類ルールをチェックするとともに、上記（２）の
ように既存の分類ルール側から、関連する分類間違いの
文書をすべてチェックすることにより、分類ルールを効
果的に改良することができる。

【００１２】上記分類ルールの改良処理は、具体的には
以下のように行われる。 (a) 分類ルールの重みの変更分類ルールの重みの変更処理は図３に示す処理フローに
より実現することができる。この処理は、既存の分類ル
ールの重みパラメータ（カテゴリへの割付けスコア）の
変更処理を行うものである。図３において、分類間違い
の文書の中から分類漏れ文書（カテゴリから見てそのカ
テゴリに分類されるべき文書でそのカテゴリに分類され
なかった文書）を入力して、上記分類間違い文書の特徴
素抽出処理を行う（ステップＳ１）。一方、分類ルール
を入力して、改良するカテゴリの分類ルールを選別する
（ステップＳ２）。次いで、分類ルールの特徴素を抽出
し（ステップＳ３）、上記分類間違い文書の特徴素と抽
出された分類ルールの特徴素の共通部分を判断する（ス
テップＳ４）。特徴素の共通部分がなければ、ステップ
Ｓ２に戻り、新たな分類ルールを選別し、ステップＳ４
に戻る。上記分類間違い文書の特徴素と分類ルールから
抽出された特徴素との共通なものがあれば、共通なもの
の分類ルールの重みパラメータ（カテゴリへの割付けス
コア）を引き上げる処理を行う（ステップＳ５）。すな
わち、本来そのカテゴリに分類されるべき文書がそのカ
テゴリに分類されなかったのであるから、上記共通なも
のの分類ルールの重みを引き上げる。次いで、上記重み
が予め設定された重みの範囲内であるか等、必要以上な
重みの変更が行われないようにルールの整合性をチェッ
クする（ステップＳ６）。以上の処理を、選別する分類
ルールがなくなるまで繰り返し、選別する分類ルールが
なくなったら、分類ルールの入れ替えを行い（ステップ
Ｓ７）、改良された分類ルールを出力する。以上のよう
に、分類漏れ文書にに関連する分類ルールのスコアを引
き上げることにより、分類文書の再現率を改善すること
ができる。

【００１３】上記処理は分類ルールの重みパラメータを
引き上げる処理であったが、分類ゴミ文書（カテゴリか
ら見て、そのカテゴリに分類されるべきでない文書がそ
のカテゴリに分類されてしまった文書）を分類間違い文
書として扱う場合には、分類ルールの重みパラメータを
引き下げる。すなわち、図３と同様、上記分類間違いの
文書を入力して、特徴素抽出処理を行い、分類ルールか
ら抽出された特徴素との共通なものを判定する。そし
て、共通なものの分類ルールの重みパラメータを引き下
げる処理を行う。この場合も、重みの変更処理後、必要
以上な重みの変更が行われないように、整合性チェック
を行う。以上のように、あるカテゴリに分類されるべき
でない文書があるカテゴリに分類されてしまった場合
に、該文書に関連する分類ルールのスコアを引き下げる
ことにより、分類文書の適合率を改善することができ
る。

【００１４】(b) 新たな分類ルールの追加上記のように既存の分類ルールの重みを変更するのでは
なく、新たな分類ルールの追加処理を行うこともでき
る。図４の処理フローに新たな分類ルールの追加処理を
示す。この処理は、分類間違いの文書の中で、分類漏れ
文書（カテゴリから見てそのカテゴリに分類されるべき
文書でそのカテゴリに分類されなかった文書）を対象と
する。図４において、上記カテゴリの分類間違いの文書
を入力し、これらの文書から特徴素抽出処理を行う（ス
テップＳ１）。一方、分類ルールを入力し、関連する分
類ルールの特徴素を抽出する（ステップＳ２）。つい
で、上記分類間違いの文書から抽出された特徴素と、分
類ルールから抽出された特徴素の共通部分の確認処理を
行う（ステップＳ３）。すなわち、抽出した特徴素での
分類ルールが既に存在しているかどうかの確認処理を行
う。共通な特徴素があれば、新たな分類ルールは作成し
ない（ステップＳ４）。また、分類ルールが存在しない
特徴素については、上記分類間違い文書から抽出した特
徴素を基に新たな分類ルールを作成する（ステップＳ
５）。以上のように、分類漏れ文書（そのカテゴリに分
類されるべき文書でそのカテゴリに分類されなかった文
書）から抽出した特徴素を基に、分類ルールを新規作成
することにより、全体の分類ルールの再編集を行うこと
なく、分類ルールを新規作成することができる。

【００１５】(c) 新規サンプル文書追加による分類ルー
ルの追加新規サンプル文書追加による分類ルールの改良処理は図
５に示す処理フローにより実現することができる。この
処理は、新しいサンプル文書が追加されることで、新し
いサンプル文書が正しく分類できるように関連した分類
ルールを追加するものである。図５において、新規サン
プル文書を入力し、これらの文書から特徴素抽出処理を
行う（ステップＳ１）。一方、新規サンプル文書が分類
されるカテゴリの分類ルールを入力し、関連する分類ル
ールの特徴素を抽出する（ステップＳ２）。ついで、新
規サンプル文書から抽出された特徴素と、分類ルールか
ら抽出された特徴素の共通部分の確認処理を行う（ステ
ップＳ３）。すなわち、新しいサンプル文書を、カテゴ
リに分類されるべき文書でそのカテゴリに分類されなか
った文書と捉えることで、ステップＳ３の特徴素の共通
部分を確認するところまでは、図４と同様の処理であ
る。そして、図４と同様に特徴素の共通部分がなけれ
ば、分類ルールの新規作成を行う（ステップＳ６）。し
かし、この処理は、図４に示したように分類間違いでは
ないので、ステップＳ３において、既存分類ルールに特
徴素が共通なものがあった場合には、改善処理を行わな
いのではなく、重みパラメータの変更処理を実行する
（ステップＳ４）。この場合は新しいサンプル文書を対
象としているので、上記重みパラメータの変更処理にお
いては、重みパラメータを引き上げる。ついで、前記し
たように必要以上の重み変更が行われないように分類ル
ールの整合性チェックを行う（ステップＳ５）。新規サ
ンプル文書が追加された場合、従来においては分類ルー
ルの再編集を行っていたが、分類ルールの再編集には多
大なコストがかかる。これに対し、上記のように新規サ
ンプル文書が追加されたとき、前記した分類間違いによ
る分類ルールの追加、変更と同様な処理をおこなって分
類ルールを改良することにより、分類ルールの再編集を
避けることができ、コストを下げることができる。

【００１６】以上説明した処理は、分類ルールの改良処
理であるが、カテゴリ間の共通度や分類カテゴリの独立
性を表すカテゴリの関連度を抽出し、共通度の高いカテ
ゴリに関しては、サンプル文書の増加を促し、また、独
立性の高さに応じて分類精度の予測を提示することもで
きる。上記カテゴリ間の共通度や分類カテゴリの独立性
を表すカテゴリの関連度を抽出する処理は、図６の処理
フローにより実現される。図６において、サンプル文書
（カテゴリ付きテキスト文書）を入力し、カテゴリ毎の
特徴素の頻度を計算する（ステップＳ１）。さらに、カ
テゴリ毎の各特徴素の重みを計算する（ステップＳ
２）。すなわち、すべてのカテゴリに共通して出現する
タームの重要度は下げるなど、特徴素による各カテゴリ
の弁別能力の高さの重みを求める（ステップＳ２）。つ
いで、上記カテゴリ毎の特徴素の頻度や重みをランキン
グし、上位Ｎ個（例えばＮ＝１００）を選択する（ステ
ップＳ３）。そして、カテゴリの共通性、独立性を判断
するために、各カテゴリの特徴素の上位Ｎ個（例えば１
００）について、共通な特徴素をチェックし（ステップ
４）、共通していない特徴素の割合、共通している特徴
素を、カテゴリ毎に提示する（ステップＳ５，Ｓ６）。
上記のように、共通している特徴素の割合をカテゴリ毎
に示すことで、カテゴリ間の共通度の度合いを表す事が
でき、また、共通していない特徴素の割合を表すこと
で、カテゴリの独立性の度合いを表す事ができる。この
結果に応じて、共通度の高いカテゴリに関しては、分類
間違いを起こしやすいため、サンプル文書の割合を増加
させることを指示できる。すなわち、個々のカテゴリの
共通度（独立性）がカテゴリ全体に対する数値で表示さ
れるので、共通度の高いもの（独立性の低いもの）に対
しては、特にどのカテゴリとの関連が強いかが表示され
る。したがって、示された関連の強いカテゴリ間でサン
プル文書を増加させ、極端に関連度が強い場合には、カ
テゴリの分け方（サンプル文書の分け方）の再考を促す
ことができる。また、カテゴリごとの独立性の高さの結
果からは、分類精度の比率を予測して提示することが可
能である。

【００１７】以下、上記した分類ルールの改良処理を具
体例により説明する。ここでは自動分類のユーザーイン
ターフェースの事例として、プロトタイプとして作成し
たツールを用いる。このツールのメインウィンドウは図
７に示すように、左側に分類カテゴリの一覧、右側に子
ウィンドウの表示領域を持っている。子ウィンドウ表示
領域には、「サンプル文書」、「キーワード」、「分類
結果」の三種のウィンドウが表示される。メインウィン
ドウ左側の「分類カテゴリの一覧」には、現在使用中の
分類カテゴリが分類セット名をトップとして、その下に
エクスプローラ形式で表示されている。図７では４カテ
ゴリテストを分類セット名として、医学医療、金融、自
動車産業、情報通信が分類カテゴリとして表示されてい
る。さらには、このツールが自動的に、分類されなかっ
た文書カテゴリとテスト用文書というフォルダを追加し
ている。子ウィンドウ表示領域の「分類結果ウィンド
ウ」には、図８に示すようにテキスト文書の分類を実行
した結果が、左側の分類カテゴリで選択されたカテゴリ
毎に表示される。図８の場合は、医学医療カテゴリの分
類結果を示しており、得点、タイトル、分類されたカテ
ゴリ、ファイル名が一覧され、選択したテキストを下側
に表示している。

【００１８】本発明に関連する部分は、この分類結果ウ
ィンドウにおいて、図９のように＜以下の文書はこのカ
テゴリに分類されません＞表示以下に示された文書の中
における、本来は、このカテゴリに分類されるべき文書
（ａ）、および、＜以下の文書はこのカテゴリに分類さ
れません＞表示以上に示された文書の中における、本来
このカテゴリに分類されないはずの文書（ｂ）、であ
る。上記（ａ）の文書に対しては、前記図３の実施例で
説明した「重みパラメータを引き上げる」処理、およ
び、図４の実施例で説明した新たなルールの追加処理を
行って分類ルールを改善する。また、（ｂ）の文書に対
しては、前記図３の実施例で説明した「重みパラメータ
を引き下げる」処理を行って、分類ルールを改善する。
現状のルールベースとして、例えば医学医療カテゴリの
ルールベースを図１０に示す。この図に示した事例のル
ールベースは、形態、重み、特徴素の並びとなってい
る。この分類ルールに対して、（ａ）の文書に対する処
理によって、幾つかのルールの重みが高く改良された
り、新たに分類ルールが追加されたりする。また、
（ｂ）の文書に対する処理によって、幾つかのルールの
重みが低く改良される。

【００１９】これらの処理により、分類精度を調整でき
るようになる。これらの例に関して、前記した処理によ
る実際の改良結果を簡単にまとめる。例えば、図１１に
は、医学医療のルールベースの改善前〔同図（ａ）〕と
改善後〔同図（ｂ）〕が示されている。この改善例で
は、前記図３で説明した処理によって、図の上から６番
目の＜ｗｏｒｄ＞ルールである「画像ルール」の重みが
０．０８から０．１９に引き上げられている。その他、
＜Ｐｈｒａｓｅ＞ルールでは、前記図４で説明した処理
によって、「注射＿器」、「ＯＴＣ＿薬」、「介護＿対
象」、「心身＿障害」、「シェア＿アップ」、「ニキビ
＿ケア」、「便秘＿薬」、「介護＿保健」のル一ルが新
たに追加されている。また、＜Ｐｈｒａｓｅ＞ルールに
対しても、前記図３で説明した処理によって、「介護＿
認定」のル一ルのスコアが０．３１から０．３８に引き
上げられている事がわかる。これらの改良によって、図
１２に示す改善前の分類結果である「１０９個の文書の
中、１０４個の文書の正解」（ウィンドウの右下の表示
参照）が図１３に示す改善後の分類結果である「１２３
個の文書中、１２２個の文書の正解」に改善されてい
る。図１３の中で△の下にＮＥＷと表示されている文書
（例えば同図中の上から２番目、上から９番目等の文
書）が、新たに正しく分類されたものであることを示し
ている。この例では、このような文書が１８文書増えた
ことを示している。また、前記図４で説明した処理によ
って、そのカテゴリから見て分類すべきでなかった文書
も改善され、図１４（図１３を下側にスクロールした画
面）の▽の下にＬＯＳＴと表示されているもの（例えば
同図中の下から２番目、下から７番目等の文書）が前回
は、そのカテゴリに分類されていた文書であるが、今回
の改善によって間違えて分類されることが無くなったも
のを示している。

【００２０】このような分類すべきでなかった文書は、
改善前は、図１２の表示からわかるように１０９個の分
類結果中１０４個の正解であることから５個の文書の間
違いがあったことを示している。一方、改善後の結果図
１４の表示では、１２３個の分類結果中１２２個の正解
であることから、間違いが１つに減少していることがわ
かる。これらの処理によって、図１５（ａ）に示すよう
に分類精度が向上した。ここに示した精度は医学医療カ
テゴリに関するものであるが、すべてのカテゴリについ
て前記した処理を行った結果、すべてのカテゴリの精度
の平均は、図１５（ｂ）に示すように改善されている。
ここでの分類精度の評価方法（適合率、再現率の算出方
法）は、次のようである。適合率＝分類正解数／（分類正解数＋分類誤り数）再現率＝分類正解数／（分類正解数＋分類漏れ数）適合率が分類のゴミの少なさを表現しており、再現率が
分類漏れの少なさを表現している尺度である。精度であ
るＦ−Ｍｅａｓｕｒｅはこれらの平均であり、次の式で
表される。精度（Ｆ−Ｍｅａｓｕｒｅ）＝２×適合率×再現率／
（適合率+ 再現率）

【００２１】（付記１）ルールベースの分類手段を用い
たテキスト情報自動分類装置であって、分類精度を改善
する精度改善手段を備え、上記精度改善手段は、分類カ
テゴリ付きのサンプル文書の自動分類結果より選別され
た分類間違いの文書、もしくは、新規の分類カテゴリ付
きサンプル文書について、該文書に関連する特徴素を抽
出し、上記分類手段の分類ルールから、上記文書もしく
は上記特徴素に関連する分類ルールを選別し、分類ルー
ルの重み変更および／または新規分類ルールの生成を行
い自動分類結果の精度を改善することを特徴とするルー
ルベースモデルに基づくテキスト情報自動分類装置。（付記２）上記精度改善手段は、分類間違い文書の特徴
素が関連する分類ルールを選別して、精度改善のための
分類ルールの変更を行うことを特徴とする付記１のルー
ルベースモデルに基づくテキスト情報自動分類装置。（付記３）上記精度改善手段は、ルールベースの分類手
段の分類ルールの内、分類間違いの文書に関連する分類
ルールを選別して、精度改善のための分類ルールの変更
を行うことを特徴とする付記１のルールベースモデルに
基づくテキスト情報自動分類装置。（付記４）上記精度改善手段は、分類間違い文書の特徴
素と、分類ルールの特徴素の共通部分を抽出し、共通部
分に関連する分類ルールのスコアを変更することを特徴
とする付記１，２または付記３のルールベースモデルに
基づくテキスト情報自動分類装置。（付記５）上記精度改善手段は、分類間違いの文書の
内、その分類カテゴリに分類されるべきもので分類され
なかった文書に関連する分類ルールのスコアを引き上げ
ることを特徴とする付記４のルールベースモデルに基づ
くテキスト情報自動分類装置。（付記６）上記精度改善手段は、分類間違いの文書の
内、その分類カテゴリに分類されるべきでない文書に関
連する分類ルールのスコアを引き下げることを特徴とす
る付記４のルールベースモデルに基づくテキスト情報自
動分類装置。（付記７）上記精度改善手段は、分類カテゴリ付きのサ
ンプル文書の自動分類結果から選別された、分類間違い
文書の内、分類カテゴリから見て、その分類カテゴリに
分類されるべきもので分類されなかった文書、もしく
は、新規の分類カテゴリ付きサンプル文書について、新
しく分類ルールを追加作成することを特徴とする付記
１，２または付記３のルールベースモデルに基づくテキ
スト情報自動分類装置。（付記８）上記精度改善手段は、分類間違い文書の内、
分類カテゴリから見て、その分類カテゴリに分類される
べきもので分類されなかった文書に関連する分類ルール
が分類ルール内に存在しなかった場合に、新しく分類ル
ールを追加作成することを特徴とする付記１，２または
付記３のルールベースモデルに基づくテキスト情報自動
分類装置。（付記９）上記精度改善手段は、新規の分類カテゴリ付
きサンプル文書が与えられたとき、追加された新規サン
プル文書から特徴素を抽出して新たな分類ルールを追加
作成することを特徴とする付記１，２または付記３のル
ールベースモデルに基づくテキスト情報自動分類装置。（付記１０）ルールベースの分類手段を用いたテキスト
情報自動分類装置であって、分類精度を改善する精度改
善手段を備え、上記精度改善手段は、自動分類のために
与えられた分類カテゴリ付きのサンプル文書から分類カ
テゴリの特徴を抽出し、抽出された分類カテゴリの特徴
から、分類カテゴリの独立性を表す情報と、カテゴリ間
の共通度を表す情報を求め、上記独立性を表す情報と、
共通度を表す情報を出力することを特徴とするルールベ
ースモデルに基づくテキスト情報自動分類装置。（付記１１）ルールベースモデルに基づくテキスト情報
自動分類の分類精度を改善させるプログラムを記録した
コンピュータ読み取り可能な記憶媒体であって、上記プ
ログラムは、分類カテゴリ付きのサンプル文書の自動分
類結果より選別された分類間違いの文書、もしくは、新
規の分類カテゴリ付きサンプル文書について、該文書に
関連する特徴素を抽出し、上記分類手段の分類ルールか
ら、上記文書もしくは上記特徴素に関連する分類ルール
を選別し、分類ルールの重み変更および／または新規分
類ルールの生成を行い自動分類結果の精度を改善するこ
とを特徴とする分類精度を改善するプログラムを記録し
たコンピュータ読み取り可能な記憶媒体。（付記１２）ルールベースモデルに基づくテキスト情
報自動分類の分類精度を改善させるプログラムであっ
て、上記プログラムは、分類カテゴリ付きのサンプル文
書の自動分類結果より選別された分類間違いの文書、も
しくは、新規の分類カテゴリ付きサンプル文書につい
て、該文書に関連する特徴素を抽出する処理と、上記分
類手段の分類ルールから、上記文書もしくは上記特徴素
に関連する分類ルールを選別し、分類ルールの重み変更
および／または新規分類ルールの生成を行い自動分類結
果の精度を改善する処理をコンピュータに実行させるこ
とを特徴とする分類精度を改善するプログラム。

【００２２】

【発明の効果】以上説明したように、本発明において
は、以下の効果を得ることができる。（１）分類カテゴリ付きのサンプル文書の自動分類結果
より選別された分類間違いの文書、もしくは、分類カテ
ゴリ付きサンプル文書について、上記文書もしくは該文
書から抽出された特徴素に基づき、分類ルールの重み変
更および／または新規分類ルールの生成を行い分類ルー
ルを改善しているので、従来のように、再学習を繰返す
ことなく、分類間違いを正しく分類することが可能とな
る。（２）分類間違いの文書側から精度改善をチェックする
ことで、文書の特徴や記述形態に着目した細かいルール
の変更を進めることができ、追加・変更すべきルールが
すべて一度に列挙することが可能となる。（３）分類間違いを起こしたルール側から精度改善をチ
ェックすることで、現在のルールとして対処可能な範囲
内での対処方法が明確になり、分類間違いを改善するた
めに極端なルール追加を行うことを避けられる。（４）あるカテゴリに分類されるべき文書で分類されて
いない文書に関連するルールのスコアを引き上げること
で、分類文書の再現率を改善させることが可能となる。（５）あるカテゴリに分類されるべきでない文書で分類
されてしまった文書に関連するルールのスコアを引き下
げることで、分類文書の適合率を改善させることが可能
となる。（６）あるカテゴリに分類されるべき文書でそのカテゴ
リに分類されなかった文書から抽出した特徴素を基に、
分類ルールを新規作成することにより、全体の分類ルー
ルの再編集を行うことなく、分類ルールを新規作成する
ことができる。すなわち、あるカテゴリに分類されるべ
き文書で分類されていない文書に関連するルールが存在
しない場合に、分類文書の再現率を改善させるために
は、通常ルールの再編集が必要になる。このルールの再
編集にはコストがかかる。これに対し、上記のようにそ
の文書のためだけのルールの新規追加を行うことによ
り、全体のルールの再編集を行う必要がなくなり、コス
トを下げることができる。（７）新規サンプル文書が追加されたとき、前記した分
類間違いによる分類ルールの追加、変更と同様な処理を
おこなって分類ルールを改良することにより、上記のよ
うに分類ルールの再編集を避けることができ、コストを
下げることができる。（８）分類カテゴリ間の特徴として、カテゴリ間の独立
性の度合いを提示するこにより、分類の困難さがわか
り、より多くのサンプル文書の必要性が明らかになる。
また、分類カテゴリ自体の再考を促す指標にもなる。

【図面の簡単な説明】

【図１】本発明の概要を示す図である。

【図２】本発明の実施例の自動分類の精度改善処理を説
明する図である。

【図３】本発明の実施例の分類ルールの重みの変更処理
のフローである。

【図４】本発明の実施例の新たなルールの追加処理のフ
ローである。

【図５】本発明の実施例の新規サンプル文書追加による
分類ルールの改良処理のフローである。

【図６】本発明の実施例のカテゴリの関連度を抽出する
処理フローである。

【図７】本発明の実施例のプロトタイプツールのインタ
フェースを示す図である。

【図８】図７のツールにおける医学医療カテゴリの分類
結果（１）を示す図である。

【図９】図７のツールにおける医学医療カテゴリの分類
結果（２）を示す図である。

【図１０】医学医療カテゴリのルールベースを示す図で
ある。

【図１１】医学医療カテゴリの改善前、改善後分類ルー
ルを示す図である。

【図１２】医学医療カテゴリの改善前の分類結果を示す
図である。

【図１３】医学医療カテゴリの改善後の分類結果（１）
を示す図である。

【図１４】医学医療カテゴリの改善後の分類結果（２）
を示す図である。

【図１５】医学医療および全てのカテゴリの適合率、再
現率、精度を示す図である。

【図１６】ルールベース分類器を採用している自動分類
装置の基本構成を示す図である。

【符号の説明】

１精度改善手段２学習処理部３分類処理部４分類ルール１１カテゴリ別のサンプル文書１２新規文書

Claims

【特許請求の範囲】

【請求項１】ルールベースの分類手段を用いたテキス
ト情報自動分類装置であって、分類精度を改善する精度改善手段を備え、上記精度改善手段は、分類カテゴリ付きのサンプル文書
の自動分類結果より選別された分類間違いの文書、もし
くは、新規の分類カテゴリ付きサンプル文書について、
該文書に関連する特徴素を抽出し、上記分類手段の分類ルールから、上記文書もしくは上記
特徴素に関連する分類ルールを選別し、分類ルールの重
み変更および／または新規分類ルールの生成を行い自動
分類結果の精度を改善することを特徴とするルールベー
スモデルに基づくテキスト情報自動分類装置。
【請求項２】上記精度改善手段は、分類間違い文書の特徴素と、分類ルールの特徴素の共通
部分を抽出し、共通部分に関連する分類ルールのスコア
を変更することを特徴とする請求項１のルールベースモ
デルに基づくテキスト情報自動分類装置。
【請求項３】上記精度改善手段は、分類間違い文書の内、分類カテゴリから見て、その分類
カテゴリに分類されるべきもので分類されなかった文
書、もしくは、新規の分類カテゴリ付きサンプル文書に
ついて、新しく分類ルールを追加作成することを特徴と
する請求項１，２または請求項３のルールベースモデル
に基づくテキスト情報自動分類装置。
【請求項４】ルールベースの分類手段を用いたテキス
ト情報自動分類装置であって、分類精度を改善する精度改善手段を備え、上記精度改善手段は、自動分類のために与えられた分類
カテゴリ付きのサンプル文書から分類カテゴリの特徴を
抽出し、抽出された分類カテゴリの特徴から、分類カテ
ゴリの独立性を表す情報と、カテゴリ間の共通度を表す
情報を求め、上記独立性を表す情報と、共通度を表す情報を出力する
ことを特徴とするルールベースモデルに基づくテキスト
情報自動分類装置。
【請求項５】ルールベースモデルに基づくテキスト情
報自動分類の分類精度を改善させるプログラムを記録し
たコンピュータ読み取り可能な記憶媒体であって、上記プログラムは、分類カテゴリ付きのサンプル文書の
自動分類結果より選別された分類間違いの文書、もしく
は、新規の分類カテゴリ付きサンプル文書について、該
文書に関連する特徴素を抽出し、上記分類手段の分類ルールから、上記文書もしくは上記
特徴素に関連する分類ルールを選別し、分類ルールの重
み変更および／または新規分類ルールの生成を行い自動
分類結果の精度を改善することを特徴とする分類精度を
改善するプログラムを記録したコンピュータ読み取り可
能な記憶媒体。
【請求項６】ルールベースモデルに基づくテキスト情
報自動分類の分類精度を改善させるプログラムであっ
て、上記プログラムは、分類カテゴリ付きのサンプル文書の
自動分類結果より選別された分類間違いの文書、もしく
は、新規の分類カテゴリ付きサンプル文書について、該
文書に関連する特徴素を抽出する処理と、上記分類手段の分類ルールから、上記文書もしくは上記
特徴素に関連する分類ルールを選別し、分類ルールの重
み変更および／または新規分類ルールの生成を行い自動
分類結果の精度を改善する処理をコンピュータに実行さ
せることを特徴とする分類精度を改善するプログラム。