JP4604097B2

JP4604097B2 - 文書分類付与方法、システムまたはコンピュータプログラム

Info

Publication number: JP4604097B2
Application number: JP2008060406A
Authority: JP
Inventors: 久雄間瀬; 博郎田中
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2008-03-11
Filing date: 2008-03-11
Publication date: 2010-12-22
Anticipated expiration: 2028-03-11
Also published as: JP2009217528A

Description

本発明は、テキストを含む文書に対して、分類を付与する文書分類付与方法、システムおよびコンピュータプログラムに関する。特に、分類体系の改正に伴って、過去に付与されている改正前の分類を、改正後の分類に付与し直す文書分類付与方法、システムおよびコンピュータプログラムに関する。

Ｗｅｂページや特許、科学技術論文など、テキストを含む大量の文書集合から利用者の要求する文書を探し出す検索エンジンが普及してきた。しかし、その検索精度は利用者にとって十分に満足できるものにはなっていない。

検索精度を改善させる手法の一つとして、検索対象文書の各々に分類を予め付与しておき、検索条件として分類を指定することにより、検索母集団を絞り込む手法があり、特許やＷｅｂページなどの検索で採用されている。しかし、この手法では、文書を文書データベースに登録する際に、分類を付与する作業が不可欠である。また、時代の変化によって分類体系も陳腐化していくため、分類体系を最新の状態に改正するとともに、過去に付与された分類を最新の分類体系に合致するように付与し直す必要がある。しかし、過去に蓄積された膨大な文書に対して分類を付与し直す作業は、人手で行っている場合がほとんどであり、多大な期間と費用がかかっているのが現状である。

新規文書に分類を付与したり、過去に分類が付与された文書に新しい分類を付与し直したりすることを自動化するための文書分類自動付与技術が研究開発されており、製品も市販されている。この分類自動付与技術は、分類付与対象となる文書集合の一部分を予め「教師文書」として選定し、これらに予め人手によって分類を付与しておき、まだ分類が付与されていない残りの文書に対しては、この教師文書に出現するターム情報を用いて、付与すべき分類を推定する方式が主流である。

特開平6-348755号公報特開2001-34622号公報情報処理学会第４９回全国大会講演論文集（３）３−９３

検索条件として分類を指定した文書検索では、分類の付与精度が検索精度に直接影響を与える。したがって、特許庁における特許審査のように検索漏れが許されない状況においては、分類付与精度は１００％に限りなく近づける必要がある。しかしながら、現状の分類自動付与の精度は、自然言語の持つ曖昧性や、執筆者の嗜好による言葉の表記揺れなどが原因で、１００％にはほど遠い。

そこで、分類をすべての文書に一律に自動付与するのではなく、一部の文書（または分類）についてのみ自動で付与し、残りの文書（または分類）については人手で付与するという、計算機と人間との間の役割分担を明確化することにより、全体の分類付与作業のコストを下げるという考え方が有力となる。しかし、分類自動付与精度は、分類体系の粒度や分類対象文書の内容および記述詳細度などにより変動するため、どの文書（または分類）が分類自動付与に適しているのかを「事前に」かつ「定量的に」かつ「正確に」把握することは困難である。

分類自動付与精度を「事前に」かつ「定量的に」把握するためには、分類が既に人手で付与されている教師文書を使う以外に方法はない。教師文書を用いて分類自動付与精度を事前に把握する考え方は、情報処理学会第４９回全国大会講演論文集（３）３−９３に報告されているように既に存在する。しかしこの文献では、「教師文書を入力とした時の分類自動付与結果を検討することにより、分類付与で参照する知識ベースを洗練化する」と言及するにとどまっており、教師文書を用いて自動付与可能な文書（または分類）を特定する具体的方法については言及していない。

本発明では、分類が改正された際に、文書に既に付与されている改正前の分類を、改正後の分類に付与し直す（以下、分類再付与と呼ぶことがある）場合の分類自動付与を主として想定している。

本発明では、計算機による分類自動付与精度を分類毎に算出して、自動付与が可能な分類を特定する。この際、（１）文書の作成時期または記載内容の観点から見てランダムになるように教師文書を選定することにより、分類自動付与精度の値の正確性（安定性）を確保するとともに、（２）算出対象となる分類の自動付与精度だけでなく、その分類への誤分類が他の分類の自動付与精度に与える影響も考慮して、自動付与が可能な分類とそうでない分類とを識別している。特に、上記（２）については、自動付与結果として何らかの分類が自動付与された文書集合のみを対象として、（ａ）算出対象である分類Ａを人間が付与した（分類Ａが正解である）文書件数に占める、分類自動付与によって分類Ａが付与された文書件数の割合と、（ｂ）分類自動付与によって誤って分類Ａが付与された文書が、分類Ａ以外の分類の各々に与える分類付与漏れの割合という２種類の評価尺度を用いて、利用者によって予め設定された条件を満たす分類のみを自動付与可能な分類として認定している。

本発明によれば、全体としての分類自動付与精度を定量的に把握するだけでなく、分類毎に見てどの分類が自動付与可能であるかを「事前に」かつ「定量的に」かつ「正確に」把握することができる。その結果、計算機が高速に処理できる文書（または分類）と、人間が手間をかけて処理しなければならない文書（または分類）に明確に分けることができ、全体として分類付与の作業効率（期間、費用）を改善することができる。

本発明の実施の形態を、図面を用いて詳細に説明する。なお、これにより本発明が限定されるものではない。

本実施例では、分類体系を改正した後に、改正前の分類が付与された文書に対して、改正後の分類を付与し直す（再付与する）という作業を想定する。本作業は、特許や科学技術文献に付与されている分類体系のメンテナンスの一環として、実際に人手で行われている作業である。

ここでは、「分類Ａが付与された文書件数が多くなってきたので、分類Ａを５個の分類（Ａ１，Ａ２，Ａ３，Ａ４，Ａ５）に細分化し、分類Ａが付与されている文書集合を対象として、細分化された５個の分類のいずれかを付与する」という作業を行うことを支援する分類付与システムを想定する。

図１は本システムのブロック図の一例を示す図である。

まず、分類再付与作業者は、入出力部１を介して提示される分類体系の中から、分類再付与対象となる分類体系部分を選択指定する。分類体系データは、分類体系定義テーブル５に格納されている。ここでは、分類Ａを５個の分類（Ａ１，Ａ２，・・・，Ａ５）に細分化する作業を想定しているため、分類体系の中から、改正前の分類である分類Ａと、改正後の分類である分類Ａ１，Ａ２，Ａ３，Ａ４，Ａ５を選択指定する。

次に、分類再付与作業者は、付与対象として指定した改正前の分類である分類Ａが付与された文書集合を付与対象文書２に格納する。該当する文書集合を、入出力１を介して登録しても良いし、文書データベースの中から分類Ａが付与された文書を検索して、付与対象文書２に文書データを複写しても良いし、文書データベースにおける文書データへのポインタ情報のみを保持させても良い。

次に、分類再付与作業者は、分類付与で用いる教師文書の件数割合を、入出力部１を介して入力指定する。本実施形態ではこの割合を１０％とする。すると、システムは教師文書選択部３において、付与対象文書２に格納された文書のうち、上記指定された割合（１０％）に相当する件数の文書を教師文書として選択し、教師文書４に文書データを格納する。この際、教師文書選択部３では、選択する教師文書が、文書作成時期または記載内容の観点から見て偏らないように教師文書を選択する。文書によっては文書作成者の観点からも偏らないように教師文書を選択しても良い。この結果、付与対象文書２に格納された文書件数の１０％に相当する文書が教師文書４に格納される。

次に、分類再付与作業者は、教師文書４に格納された10%の付与対象文書の各々に対して、改正後の分類Ａ１，Ａ２，Ａ３，Ａ４，Ａ５のいずれかを人手で付与する。付与した結果は、入出力部１を介して、人手付与分類テーブル６に格納される。

次に、分類再付与作業者は、入出力部１を介して、自動付与が可能な分類の特定を指示する。この時、自動付与可能な分類の付与精度に関する閾値を、入出力部１を介して入力指定する。この閾値データは、閾値テーブル７に格納される。システムは、分類付与部１０および付与精度判定部２３を実行することにより、閾値テーブル７に格納された付与精度の閾値を満たす分類を特定する。

まず、分類付与部１０では、教師文書４中の各文書を入力とし、この入力文書に類似する文書集合を、同じ教師文書４に格納された教師文書集合の中から所定の件数だけ検索し、検索された文書に付与された改正後の分類を当該入力文書に付与すべき改正後の分類と認定する。

分類付与部１０は、入力文書に出現するタームを抽出し、その重要度に相当する重みを付与するターム抽出・重み付け部１１と、付与すべき分類を特定する付与分類特定部１８からなる。ターム抽出・重み付け部１１はさらに、単語辞書１５および文法辞書１６を参照して入力文書に含まれるテキストを単語に分割して品詞を割り当てる形態素解析部１２と、分割された単語の中から特定の品詞を持つタームを取り出すターム抽出部１３と、タームの出現頻度および教師文書４における出現文書数からタームの重要度を表す重みを算出するターム重み付け部１４とからなる。重み付けされたターム集合は、タームテーブル１７に一旦格納される。

付与分類特定部１８は、タームテーブル１７中の重み付きターム集合との類似度の高い教師文書４中の文書を検索する類似文書検索部１９と、検索された類似文書の上位Ｎ件のうちの多くに付与されている改正後の分類を特定して、入力文書に付与すべき分類として認定する分類特定部２１とからなる。類似文書検索部１９の検索結果は類似文書テーブル２０に格納され、分類特定部２１によって認定された分類は自動付与分類テーブル２２に格納される。

類似文書検索部１９では、教師文書４中の文書が検索対象となる。その一方で、教師文書４中の各々の文書は分類付与部１０の入力にもなっている。したがって、ある教師文書Ｘを入力とした時の類似文書検索部１９の検索結果の第一位は教師文書Ｘそのものとなる可能性が非常に高い。このことは、教師文書Ｘに分類を自動付与する際に教師文書Ｘそのものに付与された分類を使うことになるため、方式として適切ではない。そこで、入力文書として使われた教師文書Ｘを、検索結果文書集合から除去する。

次に、付与精度判定部２３では、前記分類付与部１０で認定された分類の精度を分類毎に算出し、閾値テーブル７に格納された付与精度の閾値を満たすか否かを判定する。閾値を満たす分類については、自動付与可能な分類として自動付与可能分類テーブル２６に格納し、入出力１を介してこれを分類再付与作業者に報知する。

付与精度判定部２３は、改正後の分類別に自動付与精度を算出する分類別付与精度算出部２４と、分類別の付与精度を閾値テーブル７に格納された自動付与精度の閾値と比較し、分類別の付与精度の方が良い分類を自動付与可能な分類として認定する閾値照合部２５とからなる。

本実施例において、付与分類特定部１８では、入力文書に類似する文書を検索し、検索結果の上位文書に多く付与されている分類を特定し、入力文書に付与すべき分類として認定するという方式を採用している。本アルゴリズムはＫＮＮ法（K-Nearest Neighbors method）として広く知られている公知の技術である。このＫＮＮ法の代わりに、特定のタームの出現傾向を記述した分類ルールを定義し、当該分類ルールを満たす場合、特定の分類を自動付与するという処理によって分類を自動付与する方法を用いても良い。ここでいう分類ルールとは、例えば、「タイトル中にターム『日本』とターム『首相』が共に現れる新聞記事は、分類『日本政治』を自動付与する」といったように、タームの出現条件と対応する分類とを対にして規定したルールである。

分類再付与作業者は、システムから出力された自動付与精度判定結果をチェックし、自動付与可能な分類を確定する。この確定がなされた後は、確定された分類が自動付与された文書については、作業者による自動付与結果チェックなしに分類が確定する。

このように、本実施例によれば、高精度で自動付与できる分類と、そうでない分類を明確に区別し、分類付与対象文書を、システムが自動で分類を付与可能な文書と、作業者が手作業で分類を付与すべき文書に仕分けすることにより、全体としての分類付与作業にかかるコスト（時間と負荷）を軽減することができる。

図２は、本実施例のハードウェア構成の一例を示す図である。本装置は大きく、計算処理を実行する処理装置５０、分類再付与作業者が各種データを入力するためのキーボード５１およびマウス５２、計算処理結果などのデータを分類再付与作業者に出力するための出力モニタ５３、処理装置５０における処理に関するプログラムおよびデータを格納する記憶装置６０から構成される。入出力データを別の計算機との間でやりとりする場合には、入出力データはネットワーク５４を介して送受信する。

記憶装置６０はさらに、処理装置５０における処理データを一時的に格納するワーキングエリア６１と、処理装置５０で行うプログラムを格納する、教師文書選択部格納エリア６３、検索インデクス生成部格納エリア６８、分類付与部格納エリア７０、ターム抽出・重み付け部格納エリア７１、形態素解析部格納エリア７２、ターム抽出部格納エリア７３、ターム重み付け部格納エリア７４、付与分類特定部７８、類似文書検索部格納エリア７９、分類特定部格納エリア８１、付与精度判定部格納エリア８３、分類別付与精度算出部格納エリア８４、閾値照合部格納エリア８５、付与分類確定部格納エリア８７と、処理装置５０で行う処理に必要なデータを格納する、付与対象文書格納エリア６２、教師文書格納エリア６４、分類体系定義テーブル格納エリア６５、人手付与分類テーブル格納エリア６６、閾値テーブル格納エリア６７、検索インデクス格納エリア６９、単語辞書格納エリア７５、文法辞書格納エリア７６、タームテーブル格納エリア７７、類似文書テーブル格納エリア８０、自動付与分類テーブル格納エリア８２、自動付与可能分類テーブル格納エリア８６からなる。処理装置５０では、記憶装置６０から必要なプログラムおよびデータをロードし、実行した結果を記憶装置６０に格納することを繰り返すことにより処理が行われる。

図３は、本発明の実施形態における分類自動付与設定入力画面の一例を示す図である。図３の画面１００の左側では、再付与対象となる分類がどこになるかを分類再付与作業者が指定する。「再付与対象となる分類範囲の指定１０１」に、再付与対象となる分類ＩＤ（分類Ａ）を指定して展開ボタン１０３を押下すると、当該分類およびその子分類がサブ画面１０４に木構造で表示される。この画面表示は、分類体系定義テーブル５を参照することにより、容易に実現可能である。

また、画面１００の右側では、分類自動付与に関する各種パラメータを設定する。まず、教師文書４の件数の割合をどのくらいにするかをパーセンテージで設定する（１０６）。また、教師文書の選定方法を選択する（１０７）。図３では、３種類の選定方法が表示されている。選択肢「文書番号の末尾利用」は、文書ＩＤが番号で記述されており、かつ、文書ＩＤと文書内容との間に何も相関関係がない場合に有効となる。このほかにも、文書番号の順に文書を並べて何個かおきに抽出するジャンプ抽出や、文書作成日の範囲を指定するなどの方法によって、教師文書を選定する。図３では、１０件おきに文書を抽出するジャンプ抽出を選定方法として選択している。

また、分類自動付与時には、教師文書４を検索対象とした類似文書検索結果に対してＫＮＮ法を適用するが、その時に参照する検索結果上位の文書件数を指定する（１０８）。図３では、上位１０件を参照するように指定している。

さらに、自動付与可能な分類であるかを判定するための分類自動付与精度の閾値を設定する。後述するように、本実施例では「適用再現率」と「再現率ロス」という２種類の尺度を用いるため、これらの閾値を指定する（１０９）。図３では、適用再現率の閾値を９０％、分類毎の再現率ロスの上限値を５％と指定している。

各種パラメータを設定した後に「設定する」ボタンを押下すると、設定内容が保存される。また、「取り消す」ボタンを押下すると、入力された設定内容はクリアされる。

図４は、本発明の実施形態における分類自動付与精度出力画面の一例を示す図である。本画面は、再付与対象となる分類のうちのどの分類が自動付与可能な分類であるかを出力し、分類再付与作業者にチェックさせるものである。

画面の左側には、再付与対象となっている分類体系が木構造で表示される（２０４）。再付与対象の分類にはアンダーラインが引かれたアンカーとなっており（２０５）、任意の分類をマウスでクリックすると、その分類に関する自動付与精度の判定結果が、画面右側に表示される。また、画面左側の分類横の四角のラジオボックスがハイライトされている分類は、自動付与精度の閾値を満たす、自動付与が可能な分類であることを示している。

Ａ１のアンカー２０５をクリックすると、画面の右側に分類Ａ１に関する自動付与精度に関する判定結果データが表示される。分類Ａ１では、教師文書４の中に、「何らかの分類が自動付与された全文書の中で、Ａ１が人手付与された文書件数」が７０件あり、７０件のうち、「Ａ１が自動付与された文書件数」が６５件あり、適用再現率（定義は後述）が９２．９％であり、図３で指定した閾値９０％を超えていることが分かる。

また、「分類Ａ１に関する再現率ロス」の値２０７が表示される。Ａ１に関する再現率ロス（定義は後述）の最大値は２．３％であり、図３で指定した上限値５％を下回っていることが分かる。したがって、分類Ａ１は、この適用再現率と再現率ロスの両方において閾値を満足しているため、分類Ａ１を自動付与可能な分類と認定している。

図５は、本発明の実施形態における分類体系定義テーブル５の構成の一例を示す図である。分類体系定義テーブル５は、分類を識別する分類ＩＤ３０１、分類の内容を理解しやすくするために付ける分類名称３０２、分類ＩＤ３０１の子分類（詳細分類）に相当する子分類ＩＤ３０３、子分類ＩＤに対応する子分類名称３０４から構成される。分類ＩＤ、子分類ＩＤはユニークでなければならない。

図６は、本発明の実施形態における人手付与分類テーブル６および自動付与分類テーブル２２の構成の一例を示す図である。人手付与分類テーブル６は、人手で付与した分類を文書ＩＤと対応付けて格納するテーブルである。自動付与分類テーブル２２は、システムが自動付与した分類を文書ＩＤと対応付けて格納するテーブルである。両テーブルに格納される分類の付与方法は異なるが、テーブルの構成は同一である。すなわち、文書ＩＤ３１１、文書ＩＤに付与される分類ＩＤ３１２および分類名称３１３から構成される。本実施例では、一文書につき分類を一つだけ付与することを想定しているが、一文書に複数の分類を付与しても構わない。

図７は、本発明の実施形態におけるタームテーブル１７の構成の一例を示す図である。タームテーブル１７には、入力文書を解析して得られ、付与分類特定部１８の入力となる重み付きターム集合が格納されている。タームテーブル１７は、ターム見出し３２１、当該タームの入力文書中の出現頻度３２２、当該タームが教師文書４中の文書の何件に出現するかを表す出現文書数３２３、当該タームの重要度を表す重み３２４から構成される。重み３２４を算出する方式としてはＴＦＩＤＦ法が広く知られている。ＴＦＩＤＦ法は、「出現頻度３２２が高いタームほど重要である」という考え方と、「出現文書数３２３が低いタームほど重要である」という考え方を掛け合わせた重み付け方式である。本実施例では他の重み付け方式であっても構わない。

図８は、本発明の実施形態における類似文書テーブル２０の構成の一例を示す図である。類似文書テーブル２０は、類似文書検索部１９によって検索された類似文書データを格納したものである。すなわち、類似文書検索による検索順位３３１、検索された文書ＩＤ３３２、入力文書との類似度３３３から構成される。本実施例では図３で指定されたように、検索順位が１０位までの文書を使って入力文書に付与すべき分類を特定している。

図９は、本発明の実施形態における閾値テーブル９の構成の一例を示す図である。閾値テーブル９は、ある分類が高精度で自動付与可能であるかを判定するための基準となる閾値データを格納している。この閾値データは図３に示す画面から作業者が入力することにより得ることができる。閾値データは、「適用再現率の閾値３４１」と「再現率ロスの上限値３４２」の２種類からなり、これらの閾値を同時に満たす分類を、自動付与可能な分類として認定する。

図１０は、本発明の実施形態における自動付与可能分類テーブル２６の構成の一例を示す図である。自動付与可能分類テーブル２６は、図９の閾値を両方満たす分類データを格納したテーブルであり、分類ＩＤ３５１、分類名称３５２、当該分類における適用再現率３５３、当該分類における再現率ロスの最大値３５４から構成される。

図１１は、本発明の実施形態における教師文書選択部３の処理フローの一例を示す図である。教師文書選択部３では、付与対象文書２の中から指定された割合の文書を自動抽出し、教師文書４として使用する。教師文書４として認定された文書には、人手によって分類が付与される。そして、人手によって付与された分類を用いて、分類毎の付与精度を評価するのに用いられる。

図１１では、教師文書４の選定において、付与対象文書２を文書ＩＤでソートし、一定個数（本実施例では教師文書件数の割合を１０％としているので１０件）おきに文書を抽出して教師文書とする方法を採用している。

一般の分類自動付与では、教師文書は付与対象文書の中でも作成時期が比較的古いもので構成されることがほとんどである。これは、「教師文書を用いて分類付与に必要なデータを解析し、その解析結果を用いて、教師文書よりも後に作成された新規文書に分類を自動付与する」という至極当たり前なところから来ている。しかし、一般に、文書の内容は時間と共に変遷するため、自動付与精度も時間と共に変動する。その結果、教師文書そのものを入力文書として自動付与精度を評価した場合の値と、新規文書を用いて自動付与精度を評価した場合の値は、後者の方がかなり低い値となり、両者の傾向が合致しないことがしばしばある。したがって、教師文書そのものを入力として分類付与精度を推定し、自動付与可能な分類か否かを判定するのは難しい。

しかし、本発明で対象としている分類再付与では、再付与すべき文書が全て揃っている。したがって、同じ割合（例えば１０％）の文書を抽出して教師文書とする場合、必ずしも作成時期の古い文書を教師文書として抽出する必要はない。むしろ、文書作成時期の観点からランダムに教師文書を選定する方が、分類自動付与精度の振る舞いを正確に推定することができる。

図１１では、上記を踏まえ、付与対象文書２を文書ＩＤの順で並べ替え、何件かおきに抽出することにより、教師文書４を抽出している。まず、分類付与対象文書２の文書ＩＤでソートした文書ＩＤリストを作成し、リスト番号を１から順に付与する（ステップ４１１）。次に、分類付与対象文書２の総件数Ｎをカウントする（ステップ４１２）。次に、分類再付与作業者が図３で指定した教師文書件数の割合（％値）で件数Ｎを割った商の整数値Ｘを求める（ステップ４１３）。次に、ステップ４１１で作成したリストを順にスキャンし、リスト番号が整数値Ｘで割り切れる文書ＩＤを抽出する（ステップ４１４）。最後に、抽出した文書ＩＤを持つ文書データを教師文書として認定し、教師文書４に格納する（ステップ４１５）。

図１２は、本発明の実施形態における分類特定部２１の処理フローの一例を示す図である。分類特定部２１は、類似文書テーブル２０に格納された類似文書検索結果を用いて、入力文書に付与すべき分類を特定する。ここでは、ＫＮＮ法を用いる。すなわち、類似文書検索テーブル２０の上位Ｎ件（ここではＮ＝１０）の文書に付与されている分類を特定し、多くの文書に付与されている分類を特定する。まず、類似文書検索結果上位１０件の文書に対して、人手付与分類テーブル６を参照して人手付与分類を対応付ける（ステップ４２１）。次に、分類毎に、その分類が付与された文書の持つ類似度の総和を求める（ステップ４２２）。次に、この「類似度の総和」によって、分類を降順にソートする（ステップ４２３）。最後に、類似度の総和が最も大きい分類における総和に、予め指定された割合を乗じた値以上を総和として持つ分類を、入力文書に対して付与すべき分類と推定し、自動付与分類テーブル２２に格納する（ステップ４２４）。

図１３は、本発明の実施形態における分類特定部２１の処理フローの他例を示す図である。図１３では、ある分類が、類似文書検索結果上位１０件の文書の中の何件に付与されているかをカウントし、その数が多い分類を入力文書に付与すべき分類とする方法である。まず、類似文書検索結果上位１０件の文書に対して、人手付与分類テーブル６を参照して人手付与分類を対応付ける（ステップ４３１）。これは、図１２のステップ４２１と同じ処理である。次に、１０件の文書のうち、分類毎にその分類が付与された文書の件数を求める（ステップ４３２）。次に、ステップ４３２で求めた文書の件数が、予め設定された件数の閾値よりも多い分類を、入力文書に付与すべき分類と推定し、自動付与分類テーブル２２に格納する（ステップ４３３）。例えば、ある分類が類似文書検索結果の上位１０件の文書すべてに付与されていれば、該当件数は１０件となり、この分類は入力文書にも付与すべき分類となる。上位１０件の文書のうち、８件に付与されている場合、予め設定された件数の閾値が８件以下であればこの分類は入力文書に自動付与されるが、閾値が９件以上である場合はこの分類は自動付与されない。

このように、本実施例では、入力文書に対して必ずしも分類が自動付与されなくても良い。上記閾値を厳しくするほど、分類が自動付与される文書件数は少なくなる。しかし一方で、自動付与精度は高くなるので、この閾値を調節することで、自動付与精度をチューニングすることが可能である。

図１４は、本発明の実施形態における分類別付与精度算出部２４の処理フローの一例を示す図である。分類別付与精度算出部２４は、「適用再現率」および「再現率ロス」の二つの尺度を用いて、自動付与精度を定量化する。

ここでまず、「適用再現率」について説明する。「再現率」とは、人手によって付与された分類を、システムがどのくらい忠実に自動付与できるかを表す尺度であり、分類付与の漏れの度合いを定量化したものである。すなわち、「分類Ａ１が人手によって付与された文書件数」に占める、「分類Ａ１が人手によってもシステムによっても付与された文書件数」の割合である。

しかし上述したように、本システムでは、必ずしもすべての文書に分類を自動付与できるわけではない。本発明では、システムによって自動付与できなかった文書については、作業者が人手で付与することを想定しているので、システムが自動付与できなかったことによる分類付与漏れがあっても構わない。しかし、システムが自動付与できた文書に対しては、作業者による付与結果チェックが行われない可能性があるため、分類付与漏れは精度の観点から問題となる。

そこで、本発明では、「適用再現率」という尺度を導入する。適用再現率は、システムによって何らかの分類が自動付与された文書のみを対象として再現率を算出するものである。すなわち分類Ａ１の適用再現率は、「何らかの分類が自動付与できた文書集合」において、「分類Ａ１が人手によって付与された文書件数」に占める、「分類Ａ１が人手によってもシステムによっても付与された文書件数」の割合である。

次に、「再現率ロス」について説明する。上述した適用再現率が良くても、自動付与結果にノイズが多く含まれていると、精度に問題が生じる。例えば、人手により分類Ａ１が１００件の文書に付与されたとする。一方、システムによって２００件の文書にＡ１が自動付与され、この２００件の中に上記１００件の文書がすべて含まれる場合、適用再現率は１００／１００＝１００％となる。しかし、適用再現率が１００％だからといって、分類Ａ１を自動付与可能な分類とみなしてしまうと、Ａ１が自動付与された文書は作業者のチェックが入らずに自動的に付与結果が確定するため、残りの１００件の文書にとって分類Ａ１はノイズ分類となってしまい、最終的に正しい分類を付与できなくなる。この１００件の文書について本来付与されるべき分類を分析した時に、例えば、他の４種類の分類（Ａ２，Ａ３，Ａ４，Ａ５）が２５件ずつ付与されるべきであったことが判明した場合、この１００件の文書への分類誤付与が他の分類の再現率に与える悪影響は比較的少ないが、１００件すべてが特定の分類（例えばＡ３）に本来付与されるべきであった場合、分類Ａ３における再現率ロスは著しく大きくなる。仮に、本来分類Ａ３を付与すべき文書が全部で２００件あったとすると、このうちの１００件について誤った分類Ａ１が付与されてしまっていることになるため、残りの１００件の文書に対して人手によっていかに正確に付与したとしても、再現率は５０％にまでしか到達しない。

このように、分類が誤って付与されたことが、他の分類の再現率に与える影響を考慮して、自動付与可能な分類を推定することが不可欠となる。「再現率ロス」は、ある分類への誤付与が他の分類の再現率を低下させる割合である。また、「再現率ロスの最大値」は、ある分類が他の分類に及ぼす「再現率ロス」の値のうち、最も高い値を指す。

本発明は、予め人手で分類が付与された教師文書を用いて、上述した「適用再現率」および「再現率ロス」の両方の尺度が閾値を満たす分類を、自動付与可能な分類として特定することが特徴である。なお、適用再現率および再現率ロスによる精度評価の例については、図１７を用いて後に詳述する。

図１４に示す分類別付与精度算出部２４の処理フローでは、まず、教師文書４の文書すべてを対象として、人手付与分類テーブル６を参照して、各分類が人手付与されている文書の件数をそれぞれ算出する（ステップ４４１）。次に、分類別付与精度を算出していない分類が残っているか否かを判別し（ステップ４４２）、残っていない場合は処理を終了する。残っている場合は、何らかの分類が自動付与された教師文書４の文書のみを対象として、人手付与分類テーブル６を参照して、当該分類が人手付与されている文書の件数Ｎを算出する（ステップ４４３）。次に、上記Ｎ件の文書のうち、当該分類を自動付与できた文書件数Ｍを算出し、当該分類に係る適用再現率Ｒ＝Ｍ÷Ｎを算出し、Ｒを当該分類と共にワーキングエリア６１に一時格納する（ステップ４４４）。次に、人手付与分類テーブル６および自動付与分類テーブル２２を参照し、当該分類を自動付与できた文書集合から、当該分類が人手付与された文書を除いた文書リストを作成する（ステップ４４５）。次に、除去後に残った文書に対し、人手付与分類テーブル６を参照して、分類毎に人手付与されている文書の件数を算出する（ステップ４４６）。そして最後に、「ステップ４４１で算出した文書件数」に占める、「ステップ４４６で算出した文書件数」の割合である再現率ロスを分類毎に求め、その最大値を当該分類における「再現率ロスの最大値」とし、当該分類と共にこの値をワーキングエリア６１に格納する。

図１５は、本発明の実施形態における閾値照合部２５の処理フローの一例を示す図である。ここでは、図１４の分類別付与精度算出部２４で算出された「適用再現率」および「再現率ロスの最大値」を、図３の画面で予め作業者によって入力指定された「適用再現率の閾値」および「再現率ロスの上限値」と比較し、適用再現率が閾値を超え、かつ、再現率ロスの最大値が閾値より低い分類を、自動付与可能な分類として認定する。

図１５の処理フローではまず、閾値テーブル７の閾値との比較をしていない分類が残っているか否かを判別し（ステップ４５１）、残っていない場合は処理を終了する。残っている場合は、閾値テーブル７に記述された適用再現率の閾値と、分類別付与精度算出部２４において算出された適用再現率を比較する（ステップ４５２）。閾値テーブル７の適用再現率の閾値の方が、値が低いかを判別し（ステップ４５３）、高い場合、ステップ４５１に戻り、次の分類の処理に移る。低い場合は、閾値テーブル７に記述された「再現率ロスの上限値」と、分類別付与精度算出部２４において算出された再現率ロスの最大値を比較する（ステップ４５４）。閾値テーブル７の再現率ロスの上限値の方が高いか否かを判別し（ステップ４５５）、低いならばステップ４５１に戻り、次の分類の処理に移る。閾値テーブル７の再現率ロスの上限値の方が高い場合、当該分類を自動付与可能な分類と推定し、自動付与可能分類テーブル２６に当該分類を格納する（ステップ４５６）。

図１６は、付与対象文書２のうち、教師文書４以外の文書について、分類を自動付与する際のブロック図の一例を示す図である。図１と異なるのは、付与対象文書２が分類付与部１０の入力文書となっている点と、分類付与部１０の出力として自動付与分類テーブル２２に格納された分類を、自動付与可能分類テーブル２６に格納された分類と照合することによって、入力文書に自動付与する分類を確定する付与分類確定部２７を設けている点である。付与分類確定部２７では、自動付与可能分類テーブル２６に格納された分類が自動付与された文書に対して、人手チェックなしにその分類を確定する。自動付与可能分類テーブル２６に格納された分類以外の分類が自動付与された場合、作業者に自動付与結果を提示して、正しい分類が付与されているかをチェックさせる。

図１７は、適用再現率および再現率ロスを用いて、自動付与可能な分類を特定する処理の具体例を示す図である。上述したように、ここでは一つの文書に対して、Ａ１，Ａ２，Ａ３，Ａ４，Ａ５のうちのどれか一つを付与する。

図１７（１）は、付与対象文書２に格納されている、分類を付与する対象となる文書件数を分類毎に示している。ここでは、合計４０００件の文書を付与対象とする。

図１７（２）は、上記４０００件のうち、教師文書４として選定された文書件数を分類毎に示している。ここでは、図３の画面で指定されているように、付与対象文書の１０％を教師文書とすることを想定する。図１１に示した処理により、４０００件の１０％に相当する４００件が教師文書として抽出される。そして、この４００件に対して、人手で分類を付与する。もちろん、人手で分類が付与されるまでは、どの文書にどの分類が付与されているか分からないので、分類毎の教師文書件数は必ずしも１０％にはならず、分類Ａ１や分類Ａ４のように、件数の割合が多少ぶれる。

図１７（３）は、教師文書４００件に対して、本実施例で説明した方法によって分類が自動付与された文書件数を、分類毎に示している。ここで留意すべきことであるが、教師文書４００件すべてに分類が付与できるとは限らない。図１７では、教師文書４００件中、３１０件しか分類を自動付与していない。残りの９０件については、計算機による自動付与ができない、あるいは、出力に対する確信度が低いためにあえて自動付与していない文書である。

図１２のステップ４２４や、図１３のステップ４３３で使用する閾値を厳しくすると、自動付与できる文書件数は減少するが分類付与精度は向上する。逆に閾値を緩くすると、自動付与できる文書件数は増加するが分類付与精度は低下する。このように、閾値をチューニングすることによって、自動付与可能な文書件数を制御することが可能である。

図１７（４）は、何らかの分類が自動付与された３１０件のみを対象とした場合に、各分類を本来正解として付与すべきである文書件数を、分類毎に示している。上述したように、ここでは一文書に対して分類は一つだけ付与することを想定しているので、（４）の合計値（３１０件）は（３）の合計値（３１０件）と等しくなる。

ここで、誤解してはいけないのは、例えば分類Ａ１において、自動付与された文書件数（３）が１００件で、正解として付与すべき文書件数（４）も１００件であるが、精度は１００％であるとは限らないということである。自動付与された１００件の中には、本来他の分類が付与されるべきなのに分類Ａ１が誤って付与されてしまった、いわゆるノイズ文書が混在している反面、本来分類Ａ１が付与されるべきなのに他の分類が誤って付与されてしまった文書が含まれていない。この両者の件数が偶然同じであったため、どちらも１００件となったに過ぎない。

図１７（５）は、上記（４）のうち、計算機によって自動付与できた文書件数を示している。したがって、（５）の件数は、（４）の件数を超えることはない。

図１７（６）は、各分類における適用再現率を示している。情報検索などで広く使われている再現率が、（５）を（２）で割った値であるのに対して、適用再現率は、（５）の件数を（４）の件数で割った値であるところが違っている。すなわち、何らかの分類が自動付与できた文書のみを対象として再現率を算出している。本発明では、計算機によって自動付与できない文書については、人手による付与に委ねることができるということを前提としている。この前提に立つと、自動付与精度を評価する際には、何らかの分類が自動付与された文書のみを母集団として評価すべきであるというのが、適用再現率の考え方である。

図３の画面で指定されたように、適用再現率の閾値が９０％であるとした場合、これを満たすのは分類Ａ１のみとなる。したがって、この時点で分類Ａ１以外の分類は、自動付与には不適であると判定される。

図１７（７）は、各分類において、ノイズとして付与されてしまった文書件数を示している。この件数は、（３）の件数から（５）の件数を差し引いて求めることができる。分類Ａ１については、１００−９０＝１０件のノイズ文書が存在していることが分かる。

図１７（８）は、上記１０件のノイズ文書に対して本来付与すべき分類の分布の一例を示している。ここでは、本来付与すべき分類は、分類Ａ１以外の４分類にばらついて分布している。

図１７（９）は、上記（８）の場合の再現率ロスを分類毎に示している。再現率ロスは、（８）の件数を（２）の件数で割ったものであり、「仮に、分類Ａ１が自動付与されたものは人手によるチェックなしに確定する、としたことにより、どのくらい再現率を低下させるか」を示している。上記（８）の場合、再現率ロスが最も高い分類Ａ４でも４．０％にとどまっており、図３の画面で指定したように再現率ロスの上限値を５％とすると、これを満たすことになる。この結果、分類Ａ１は、適用再現率および再現率ロスともに閾値を満たすので、自動付与可能な分類として認定される。

図１７（１０）は、Ａ１における１０件のノイズ文書に対して本来付与すべき分類の分布の他の一例を示している。ここでは、本来付与すべき分類が分類Ａ２に集中している。

図１７（１１）は、上記（１０）の場合の再現率ロスを分類毎に示している。上記（１０）の場合、再現率ロスが分類Ａ２で１６．７％にものぼっており、仮に図３の画面で指定したように再現率ロスの上限値を５％とすると、これを満たさないことになる。この結果、分類Ａ１は、適用再現率は閾値を満たすが、再現率ロスは閾値を満たさないので、自動付与可能な分類として認定されない。

このように、適用再現率および再現率ロスの両方を考慮することにより、自動付与可能な分類を正確に特定することができる。どちらか一方または両方を満たさない分類については、これらの閾値の値を緩めるか、あるいは、自動付与時に参照される閾値を厳しくすることによって、適用再現率および再現率ロスの値を改善するというチューニング作業が必要となる。この場合、精度は向上するが、自動付与可能な文書の件数が減るので、その分、人手による分類付与のコストが増大する。したがって最終的には、分類自動付与精度と人手付与作業コストのバランスを踏まえて、自動付与可能な分類・文書がどの範囲かを作業者が決定することになる。

本発明の実施形態におけるブロック図の一例を示す図本発明の実施形態におけるハードウェア構成の一例を示す図本発明の実施形態における分類自動付与設定入力画面の一例を示す図本発明の実施形態における分類自動付与精度出力画面の一例を示す図本発明の実施形態における分類体系定義テーブル５の構成の一例を示す図本発明の実施形態における人手付与分類テーブル６および自動付与分類テーブル２２の構成の一例を示す図本発明の実施形態におけるタームテーブル１７の構成の一例を示す図本発明の実施形態における類似文書テーブル２０の構成の一例を示す図本発明の実施形態における閾値テーブル９の構成の一例を示す図本発明の実施形態における自動付与可能分類テーブル２６の構成の一例を示す図本発明の実施形態における教師文書選択部３の処理フローの一例を示す図本発明の実施形態における分類特定部２１の処理フローの一例を示す図本発明の実施形態における分類特定部２１の処理フローの他例を示す図本発明の実施形態における分類別付与精度算出部２４の処理フローの一例を示す図本発明の実施形態における閾値照合部２５の処理フローの一例を示す図本発明の実施形態におけるブロック図の他例を示す図本発明の実施形態における処理例を示す図

符号の説明

１…入出力部、２…付与対象文書、３…教師文書選択部、４…教師文書、５…分類体系定義テーブル、６…人手付与分類テーブル、７…閾値テーブル、８…検索インデクス生成部、９…検索インデクス、１０…分類付与部、１１…ターム抽出・重み付け部、１２…形態素解析、１３…ターム抽出、１４…ターム重み付け、１５…単語辞書、１６…文法辞書、１７…タームテーブル、１８…付与分類特定部、１９…類似文書検索、２０…類似文書テーブル、２１…分類特定、２２…自動付与分類テーブル、２３…付与精度判定部、２４…分類別付与精度算出、２５…閾値照合、２６…自動付与可能分類テーブル、２７…付与分類確定部

Claims

文書分類体系に関するデータを格納する分類体系定義テーブルと、分類自動付与のために予め選定された複数の第１の文書の各々に対して予め人手付与された分類を格納する人手付与分類テーブルと、該人手付与分類テーブルを参照して前記分類体系定義テーブルに格納された分類のうちの少なくとも一つを分類付与対象文書に付与する処理部と、出力部とを備えた分類付与システムにおける分類付与方法であって、
前記処理部により、
前記第１の文書の各々を前記分類付与対象文書とし、該分類付与対象文書の各々に対して、前記分類体系定義テーブルに格納された前記分類のうちの少なくとも一つを付与し、
前記分類体系定義テーブルに格納された分類毎に、前記分類付与結果と前記人手付与分類テーブルを参照して、第１の分類が人手により付与された文書の件数に占める、前記第１の分類が自動付与された文書の件数の割合を、前記第１の分類に対する第１の分類自動付与精度として算出し、また、前記第１の分類以外の分類の各々について、該分類が人手により付与された文書の件数に占める、前記第１の分類が誤って付与された文書の件数の割合を算出し、その中の最大値を前記第１の分類に対する第２の分類自動付与精度として算出し、
前記第１の分類付与精度が第１の閾値より高く、かつ、前記第２の分類付与精度が第２の閾値より低い場合に、当該分類を自動付与可能な分類として認定して前記分類付与対象文書情報と対応付けて自動分類付与テーブルに格納し、
前記認定結果を前記出力部に出力することを特徴とする分類付与方法。
文書分類体系に関するデータを格納する分類体系定義テーブルと、分類自動付与のために予め選定された複数の第１の文書の各々に対して予め人手付与された分類を格納する人手付与分類テーブルと、該人手付与分類テーブルを参照して前記分類体系定義テーブルに格納された分類のうちの少なくとも一つを分類付与対象文書に付与する処理部と、出力部とを備えた類付与システムにおける分類付与方法であって、
前記処理部により、
前記第１の文書の各々を分類付与対象文書とし、該分類付与対象文書の各々に対して、前記分類体系定義テーブルに格納された前記分類のうちの一つを付与し、
前記分類体系定義テーブルに格納された分類毎に、前記分類付与結果と前記人手付与分類テーブルを参照して、第１の分類が人手により付与された文書の件数に占める、前記第１の分類が自動付与された文書の件数の割合を、前記第１の分類に対する第１の分類自動付与精度として算出し、また、前記第１の分類以外の分類の各々について、該分類が人手により付与された文書の件数に占める、前記第１の分類が誤って付与された文書の件数の割合を算出し、その中の最大値を前記第１の分類に対する第２の分類自動付与精度として算出し、
前記第１の分類付与精度が第１の閾値より高く、かつ、前記第２の分類付与精度が第２の閾値より低い場合に、当該分類を自動付与可能な分類として認定して前記分類付与対象文書情報と対応付けて自動分類付与テーブルに格納し、
前記人手によって分類が付与されていない前記分類付与対象文書に対して自動付与された分類のうち、前記認定された自動付与可能な分類を分類自動付与結果として確定することを特徴とする分類付与方法。
文書分類体系に関するデータを格納する分類体系定義テーブルと、分類自動付与のために予め選定された複数の第１の文書の各々に対して予め人手付与された分類を格納する人手付与分類テーブルと、該人手付与分類テーブルを参照して前記分類体系定義テーブルに格納された分類のうちの少なくとも一つを分類付与対象文書に付与する処理部と、出力部とを備えた分類付与システムにおいて、
前記処理部は、
前記第１の文書の各々を分類付与対象文書とし、該分類付与対象文書の各々に対して、前記分類体系定義テーブルに格納された前記分類のうちの一つを付与し、
前記分類体系定義テーブルに格納された分類毎に、前記分類付与結果と前記人手付与分類テーブルを参照して、第１の分類が人手により付与された文書の件数に占める、前記第１の分類が自動付与された文書の件数の割合を、前記第１の分類に対する第１の分類自動付与精度として算出し、また、前記第１の分類以外の分類の各々について、該分類が人手により付与された文書の件数に占める、前記第１の分類が誤って付与された文書の件数の割合を算出し、その中の最大値を前記第１の分類に対する第２の分類自動付与精度として算出し、
前記第１の分類付与精度が第１の閾値より高く、かつ、前記第２の分類付与精度が第２の閾値より低い場合に、当該分類を自動付与可能な分類として認定して前記分類付与対象文書情報と対応付けて自動分類付与テーブルに格納し、
前記認定結果を前記出力部に出力することを特徴とする分類付与システム。
文書分類体系に関するデータを格納する分類体系定義テーブルと、分類自動付与のために予め選定された複数の第１の文書の各々に対して予め人手付与された分類を格納する人手付与分類テーブルと、該人手付与分類テーブルを参照して前記分類体系定義テーブルに格納された分類のうちの少なくとも一つを分類付与対象文書に付与する処理部と、出力部とを備えたを備えた分類付与システムにおいて、
前記処理部は、
前記第１の文書の各々を分類付与対象文書とし、該分類付与対象文書の各々に対して、前記分類体系定義テーブルに格納された前記分類のうちの一つを付与し、
前記分類体系定義テーブルに格納された分類毎に、前記分類付与結果と前記人手付与分類テーブルを参照して、第１の分類が人手により付与された文書の件数に占める、前記第１の分類が自動付与された文書の件数の割合を、前記第１の分類に対する第１の分類自動付与精度として算出し、また、前記第１の分類以外の分類の各々について、該分類が人手により付与された文書の件数に占める、前記第１の分類が誤って付与された文書の件数の割合を算出し、その中の最大値を前記第１の分類に対する第２の分類自動付与精度として算出し、
前記第１の分類付与精度が第１の閾値より高く、かつ、前記第２の分類付与精度が第２の閾値より低い場合に、当該分類を自動付与可能な分類として認定して前記分類付与対象文書情報と対応付けて自動分類付与テーブルに格納し、
前記人手によって分類が付与されていない前記分類付与対象文書に対して自動付与された分類のうち、前記認定された自動付与可能な分類を分類自動付与結果として確定することを特徴とする分類付与システム。
コンピュータを制御して、請求項1又は請求項２に記載の分類付与方法を実行するプログラム。