JP2014096086A

JP2014096086A - 文書分類システムおよび方法

Info

Publication number: JP2014096086A
Application number: JP2012248089A
Authority: JP
Inventors: Yoshiki Samejima; 吉喜鮫島
Original assignee: Hitachi Solutions Ltd
Current assignee: Hitachi Solutions Ltd
Priority date: 2012-11-12
Filing date: 2012-11-12
Publication date: 2014-05-22

Abstract

【課題】本来分類したい文書種別に加えて該当なしという種別を含んだ文書分類を行う場合に、分類したい文書種別を後から追加するときでも該当なしの学習用文書を集める手間がかからないような文書分類に係る技術を提供することを目的とする。
【解決手段】分類対象の各種別に対して、当該種別であるか否かを分類する第一種のＳＶＭと、分類対象の種別の全てのペアに対して当該ペアの２つの種別のうちのどちらであるかを分類する第二種のＳＶＭとを用意する。指定された分類対象の文書に対して第二種のＳＶＭを利用して多数決で上位の種別を求め、求めた上位の種別に対して第一種のＳＶＭを利用して当該種別であるか否かを分類する。分類結果から分類対象の文書の種別を判定し、特に第二種のＳＶＭによる多数決で上位の種別と判定されても、第一種のＳＶＭにより当該種別では無いと判定された場合は、「該当無し」と判定する。
【選択図】図２

Description

本発明は、機械学習を使った文書分類の技術に関し、特にオフィス文書などを対象としてその種別を分類する技術に関するものである。

これまでに研究や実用化が行われてきた文書分類技術の一つとして、Support Vector Machine（ＳＶＭ）がある。これは、文書のテキスト中から名詞や動詞語幹などの特徴語を検索し、該文書中にそれらの特徴語が含まれるか否かを0/1で表現し、ないしは該文書のテキスト中の特徴語が全語句に占める比をベクトルで表現し、文書群にあたる多次元の特徴ベクトル群を超平面の境界で区切ることによって二つのカテゴリに分類する手法である。

分類したい文書種別は、学習段階においては企画書や決裁文書などのいくつかの種別が予め決められているが、実際に種別が未知の文書を分類する段階においては、決められた種別の文書だけが分類対象となるとは限らず、学習時の種別には含まれない文書が分類対象になる場合がある。このような場合には、学習時のどの種別にも当たらないということで、「該当なし」あるいは「その他」と分類できることが望ましい。

非特許文献１は、ニュース記事を政治や経済などの所定のカテゴリに分類する例を開示している。具体的には、ニュース記事のテキストから、名詞を中心とした所定の単語が記事に含まれるか含まれないかを示す0/1の並びを特徴ベクトルとし、ＳＶＭを使って当該ニュース記事がどのカテゴリに属するかを分類している。分類するカテゴリとしては、予め決められている記事のカテゴリを採用しており、どのカテゴリにも属さない「該当なし」や「その他」に当たるカテゴリはない。

非特許文献２には、多カテゴリＳＶＭの一般的な構築方法が示されている。各クラスの例が与えられ、複数のＳＶＭを構成する。該構成方法で、「該当なし」と分類できるようにしようとすると、企画書・決裁文書などの本来の種別に加えて、「該当なし」という種別を設け、「該当なし」を含めてそれぞれの種別の文書の学習例を用意して学習させる必要がある。

特許文献１は、多カテゴリＳＶＭにおいて、分類精度を向上させるＳＶＭの構築方法が示されている。しかしながら、「該当なし」や「その他」の扱いについては非特許文献1と同じである。

特許文献２は、多カテゴリＳＶＭにおいて、既知のカテゴリの学習例から、未知のカテゴリを含めたＳＶＭの構築方法が示されており、既知カテゴリの他に、「該当なし」や「その他」を含めた分類が可能なＳＶＭが示されている。

公表特許公報：特表２００９−５１１０００公報再公表特許：国際公開番号ＷＯ２００９／０４１１０１

平博順, 春野雅彦, Support Vector Machineによるテキスト分類における属性選択, 情報処理学会論文誌, Vol.41, No.4, pp.1113-1123, 2000. 阿部重夫, パターン認識のためのサポートベクトルマシン入門, 第3章多クラスサポートベクトルマシン, 森北出版, 2011年4月.

上述の非特許文献１と非特許文献２と特許文献１に示されたＳＶＭでは、「該当なし」にあたる文書を学習例として用意する必要がある。しかしながら、本来の分類したい種別を増やすたびに「該当なし」の学習例を見直す必要があり、手間がかかるという問題がある。図１に、その様子を示す。

図１の上半分は、最初の学習で、企画書と決裁文書と該当なしの文書の学習例をそれぞれ用意して学習させたことを示す。この場合の該当なしは、企画書でもなく決裁文書でもない文書が該当なしになる。この学習により構成されたＳＶＭを利用して、種別が未知の文書を、企画書か決裁文書か該当なしかに分類できる。次に、図１の下半分に示すように、設計書も分類することとなり、設計書の学習例を新規に集めて追加の学習をさせることになったとする。この場合、先の企画書と決裁文書の学習用文書は、そのまま流用して学習させることができる。しかしながら、該当なしの学習用文書は流用することができない。なぜなら、今回の学習における該当なしの学習用文書としては、企画書でも決裁文書でも設計書でもない文書を用意する必要があり、先の最初の学習における該当なしの学習用文書に設計書が含まれている可能性があるからである。本来の文書種別が多くなれば、Aでもない、Bでもない、Cでもない、Dでもない、Eでもない、…、と条件が重なり、該当なしの学習用文書例を集めるのが困難になる。

特許文献２では、未知クラスを扱っており、この未知クラスは、意味的には「該当なし」あるいは「その他」に近い。しかしながら、特許文献２の未知クラスは、学習例がないことを前提としており、既知クラス最小化という条件が課されている（例えば、段落００６４、０１０７）。該当なしの文書例が収集可能な場合には、本条件は適切な分離超平面を定めることに反する条件となり、分類精度が落ちることとなる。

本発明は、本来分類したい文書種別に加えて該当なしという種別を含んだ文書分類を行う場合に、分類したい文書種別を後から追加するときでも該当なしの学習用文書を集める手間がかからないような文書分類に係る技術を提供することを目的とする。

上記目的を達成するため、請求項１に係る発明は、文書を、指定された複数の種別に分類する文書分類システムであって、分類対象の各種別に対して、当該種別であるか否かを分類する第一種のＳＶＭ（Support Vector Machine）と、分類対象の種別の全てのペアに対して、当該ペアの２つの種別のうちのどちらであるかを分類する第二種のＳＶＭと、指定された分類対象の文書に対して、前記第二種のＳＶＭを利用して、分類対象の種別の全てのペアに対して当該ペアの２つの種別のうちのどちらであるかを分類し、それらの結果から多数決で上位の種別を求める手段と、求めた上位の種別に対して、前記第一種のＳＶＭを利用して、当該種別であるか否かを分類し、その分類結果から、前記分類対象の文書の種別を判定する手段とを備え、前記第二種のＳＶＭによる多数決で上位の種別と判定されても、前記第一種のＳＶＭにより当該種別では無いと判定された場合は、「該当無し」と判定することを特徴とする。

請求項２に係る発明は、文書を、指定された複数の種別に分類する文書分類システムであって、分類対象の各種別に対して、当該種別であるか否かを分類する第一種のＳＶＭ（Support Vector Machine）と、分類対象の全種別から一種別とその他の全種別との組み合わせを全て作り、それらの組み合わせ毎に、該組み合わせの一種別とその他の全種別のどちらであるかを分類する第二種のＳＶＭと、指定された分類対象の文書に対して、前記第二種のＳＶＭを利用して、前記組み合わせの全てについて、該組み合わせの一種別とその他の全種別のどちらであるかを分類し、それらの結果から種別を求める手段と、求めた種別に対して、前記第一種のＳＶＭを利用して、当該種別であるか否かを分類し、その分類結果から、前記分類対象の文書の種別を判定する手段とを備え、前記第二種のＳＶＭにより判定された種別であっても、前記第一種のＳＶＭにより当該種別では無いと判定された場合は、「該当無し」と判定することを特徴とする。

請求項３に係る発明は、請求項１または２に記載の文書分類システムにおいて、与えられた正例の文書から特徴語を抽出し、種々の種別の文書が格納されているファイルサーバから負例候補文書を取り出し、該負例候補文書から、該正例の特徴語をなるべく含まず、かつ該正例の特徴語以外の特徴語を多く含む文書を負例として選択し、それらの正例および負例の文書を学習用文書として学習させることにより、前記第一種ＳＶＭを生成することを特徴とする。

請求項４に係る発明は、請求項１から３の何れか１つに記載の文書分類システムにおいて、前記分類対象の文書がオフィス文書であり、前記ＳＶＭを生成する際に、文書から特徴語を抽出するとき、前記オフィス文書中のスタイル上の特徴のあるテキスト部分から特徴語を抽出することを特徴とする。

請求項５に係る発明は、文書を、指定された複数の種別に分類する文書分類方法であって、第一種ＳＶＭ（Support Vector Machine）を生成する手段が、分類対象の各種別に対して、当該種別であるか否かを分類する第一種のＳＶＭを生成するステップと、第二種ＳＶＭを生成する手段が、分類対象の種別の全てのペアに対して、当該ペアの２つの種別のうちのどちらであるかを分類する第二種のＳＶＭを生成するステップと、第二種ＳＶＭによる分類部が、指定された分類対象の文書に対して、前記第二種のＳＶＭを利用して、分類対象の種別の全てのペアに対して当該ペアの２つの種別のうちのどちらであるかを分類し、それらの結果から多数決で上位の種別を求めるステップと、第一種ＳＶＭによる確認部が、求めた上位の種別に対して、前記第一種のＳＶＭを利用して、当該種別であるか否かを分類し、その分類結果から、前記分類対象の文書の種別を判定するステップとを備え、前記第二種のＳＶＭによる多数決で上位の種別と判定されても、前記第一種のＳＶＭにより当該種別では無いと判定された場合は、「該当無し」と判定することを特徴とする。

本発明によれば、本来分類したい種別に加えて、該当なしという種別を含んだ、文書分類が実現できる。従来までの技術では、該当なしの文書を収集して学習する必要があるが、本発明では該当なしの文書を収集する必要はない。分類対象の種別を追加する場合も、追加する種別についての正例と負例を用意して第一種ＳＶＭと第二種ＳＶＭを生成すれば良いので、該当なしの文書を収集する手間がかからない。また、第一種ＳＶＭを生成する際、正例の学習用文書を用意すれば、負例を自動的に収集できる。さらに、オフィス文書の分類においては、レイアウト上の特徴があるテキスト部分から特徴語を抽出することで、少ない数の学習用文書でＳＶＭを構成できるという効果がある。これは、レイアウト上の特徴語に注目して、学習と分類を行っているためであり、従来までの文書中の名詞やサ変名詞を特徴ベクトルに使った場合との違いである。

既存の技術で該当なしの学習用文書を用意する例を示す図本発明の実施形態の技術で該当なしの学習用文書を用意する例を示す図実施形態の文書分類システムの全体構成を示す図文書種別ＤＢの構成を示す図ＳＶＭＤＢの構成を示す図文書種別登録画面を示す図文書種別入力画面を示す図学習用文書登録画面を示す図負例文書選択の処理手順を示す図学習の処理手順を示す図第二種ＳＶＭ生成の処理手順を示す図利用者ＰＣを含めた構成の処理手順を示す図ファイル種別ＤＢの構成を示す図追加学習用文書登録画面を示す図分類の処理手順を示す図

以下、図面を用いて本発明の実施の形態を説明する。

本実施形態では、以下のようなステップを通じて学習させることでＳＶＭを構成する。
（１）分類したい各々の文書種別（カテゴリ）について、該文書種別の学習用の文書と該種別ではない学習用の文書を用意する。なお、前者の学習用文書を該種別の「正例」、後者の該種別ではない学習用文書を該種別の「負例」と呼ぶ。
（２）上記（１）の該種別の文書（正例）と該種別でない文書（負例）を利用して学習させることにより、該種別の文書と該種別でない文書とを分類する第一種のＳＶＭを構成する。
（３）上記分類したい複数の文書種別について任意の２つの文書種別を取り出して文書種別のペアを作り、それらの文書種別の全てのペアごとに、当該ペアの２つの文書種別のうちのどちらの種別かを分類する第二種のＳＶＭ（すなわち、当該ペアの正例を分類するもの）を構成する。

また、本実施形態では、以下のようなステップを通じて分類対象文書の種別を類推する。
（１）上述したように構成した第二種のＳＶＭの全てを使って、対象文書がどの種別に当たるか類推する。
（２）上記（１）の結果で多数決をとり、多数決で上位となった種別について、第一種のＳＶＭで該種別に当たるか否か判定する。

上記（１）のステップでは、例えば、分類したい種別（正例の種別）がＡ，Ｂ，Ｃ，Ｄの４つあったら、分類したい対象文書が、（ａ）種別ＡかＢのどちらであるか、（ｂ）種別ＡかＣのどちらであるか、（ｃ）種別ＡかＤのどちらであるか、（ｄ）種別ＢかＣのどちらであるか、（ｅ）種別ＢかＤのどちらであるか、（ｆ）種別ＣかＤのどちらであるかを、それぞれのペアの種別を分類すべく構成された６つの第二のＳＶＭによりそれぞれ分類する。これにより、対象文書が、上記（ａ）の分類で種別Ａと分類されたなら「種別Ａに１票」入れ、上記（ｂ）の分類で種別Ｃと分類されたなら「種別Ｃに１票」入れ、…というように各種別の票数をカウントする。上記の例では分類したい種別が４つでペアの数（すなわち、構成した第二種のＳＶＭの数）が６つであるから、総得票数は６票となる。また、１つの種別に着目すれば、当該種別がペアの一方に含まれるようなペアの数は「種別の数−１」になるから、上記の例では１つの種別の最高得票数は３票となる。

上記（２）のステップでは、このような得票数のカウントで多数決を取っている。要するに、いま分類したい複数の種別に限るのであれば、この多数決で上位になった種別が、対象文書の種別として、より可能性のある種別である、と言うことができるものである。従って、そのような多数決で上位になった種別について、第一種のＳＶＭで当該種別に分類されることが確認されれば、当該対象文書の種別はその種別である可能性はかなり高いことになる。一方、例えば多数決で最上位の種別について、第一種のＳＶＭで当該種別ではないと分類された場合は、「いま分類したい複数の種別に限るのであれば当該種別の可能性が高い」と判定できるが、その一方で「第一種のＳＶＭで当該種別かそうでないかという分類をした結果は『当該種別でない』と判定された」ということであるから、「該当なし」に分類するのが妥当である。

さらに、本実施形態では、以下のようなステップを通じて、学習用の本来の種別の文書（正例）から、該種別ではない学習用文書（負例）を自動的に収集する。
（１）正例の学習用文書から特徴語を抽出する。従来までのＳＶＭによる文書分類にあるような名詞ではなく、文書としてスタイルやレイアウトに特徴のある語句を特徴語として抽出するものとする。
（２）ファイルサーバから文書をランダムに選択し、該種別ではない学習用文書（負例）の候補とする。
（３）（２）の負例候補の文書から（１）と同様に特徴語を抽出する。
（４）負例候補の文書から、（１）にある特徴語が少なく、（１）にない特徴語が多い文書を選択し、該種別ではない学習用文書（負例）とする。

なお、上記（１）のレイアウト上特徴のある語として以下のようなものがある。
（ａ）文書タイトルのように、文書の最初のページの中央ないしは上部中央にあらわれ、文字サイズが大きかったり、目立つ色を使っていたりする語
（ｂ）見出し語のように、番号が割り振られた単語ないしは比較的短い語
（ｃ）定型の帳票の場合で、各帳票に現れる帳票名称や項目名
（ｄ）他の文字に比べ、文字サイズが大きかったり、下線が引いてあったり、強調文字であったり、目立つ色であったりと、レイアウト上強調されている語
（ｅ）文書の右上ないしは左上などに記載され、XXXX会議資料、XXXX提出、XXXX御中、XXXX様などのように、資料の送付先／閲覧者がわかる語

次に、本実施形態の文書分類システムについて詳細に説明する。

図２は、本実施形態の文書分類システムにおける学習用文書の様子を示す。本実施形態では、主たる分類種別ごとに、その種別の学習用文書とその種別ではない学習用文書とを用意する。図２の上側の例では、最初の学習用文書として、企画書と非企画書および決済文書と非決済文書とを用意し、これらの学習用文書で学習を行わせている。これらの学習用文書で学習を行わせることにより構成されたＳＶＭ（第一種および第二種の複数のＳＶＭ）を用いることにより、本実施形態の文書分類システムでは、任意の未分類の文書が「企画書」か「決済文書」かそれ以外の「該当なし」文書かを分類できる。学習や分類の処理については、後に詳しく説明する。

本実施形態の文書分類システムにおいて、新規の種別を追加するときでも同様であり、該新規種別の学習用文書とその種別ではない学習用文書とを用意する。既存の種別に係る学習用文書は、新規種別の学習時にそのまま流用できる。例えば、図２の下側の例は、新規の分類種別として「設計書」を追加する例を示している。この場合、既に最初の学習で用意してある学習用文書はそのまま流用することができ、新たに設計書の学習用文書と非設計書の学習用文書を用意し、これらの学習用文書で学習を行わせる。これにより構成されたＳＶＭ（第一種および第二種の複数のＳＶＭ）は、任意の未分類の文書が「企画書」か「決済文書」か「設計書」かそれ以外の「該当なし」文書かを分類できる。学習や分類の処理については、後に詳しく説明する。

さらに、本実施形態の文書分類システムは、ある１つの種別が指定されたとき、ファイルサーバに予め格納してある大量の文書から、当該種別ではない文書（負例）を自動的に収集する機能を備える。該機能については、図９などで詳しく説明する。

図３に、本実施形態の文書分類システムの全体構成を示す。

301は文書を格納するファイルサーバであり、本システムにより分類する対象の文書や既に分類されている文書や分類されておらず種別が未知の文書などを含む多くの文書が格納されている。負例を自動収集する場合も本ファイルサーバ301から探し出す。

302は、負例収集器である。負例収集器302は、指定された正例の学習用文書306（ファイルサーバ301に格納されている文書でも良いし、別途与えた文書でも良いが、人手で指定する必要がある）に基づいて該種別の負例をファイルサーバ301から探し出す。負例収集器302は、特徴語抽出部321、負例候補取出部322、負例候補文書からの特徴語抽出部323、および負例選択部324を備える。これら各部321〜324の機能および動作については、後に詳述する。

303は、ＳＶＭを構成するための学習を行う学習器である。学習器303は、学習用文書を与えて特徴を学習させ、その結果であるパラメータを各種ＤＢ304に格納する。学習器303は、特徴語抽出部331、特徴ベクトル生成部332、ＳＶＭ学習部333、第一種ＳＶＭ登録部334、および第二種ＳＶＭ生成・登録部335を備える。第一種ＳＶＭ登録部334は、分類したい１つの種別の正例と負例を学習用文書として与えて学習させることにより、当該種別か否かの分類をする第一種のＳＶＭのパラメータを取得して、後述するＳＶＭＤＢに登録するものである。第二種ＳＶＭ登録部335は、分類したい複数の種別に関する全てのペアを求め、そのペアの２つの種別の正例を学習用文書として与えて学習させることにより、当該ペアの２つの種別のうちどちらであるかを分類する第二種のＳＶＭのパラメータを取得して、後述するＳＶＭＤＢに登録するものである。これら各部331〜335の機能および動作については、後に詳述する。

304は、学習器303が学習した結果のＳＶＭのパラメータやＳＶＭの入力にあたる特徴ベクトル生成に必要な特徴語のリストを格納するＤＢ群である。具体的には、図４の文書種別ＤＢ、および図５のＳＶＭＤＢからなる。

305は、種別が未知である分類対象の文書307の文書種別を推定する分類器である。各種ＤＢ304から分類に必要な特徴語とＳＶＭのパラメータを得て、分類対象文書307の種別を分類する。分類器305は、特徴語抽出部351、第二種ＳＶＭによる分類部352、および第一種ＳＶＭによる確認部353を備える。これら各部351〜353の機能および動作については、後に詳述する。

図４は、各種ＤＢ304に含まれる文書種別ＤＢの構成を示す。一つのエントリが一つの文書種別に対応する。「ID」のフィールドは、文書種別ごとに割り振られる識別子である。「文書種別」のフィールドは、該種別の名称である。「正例」のフィールドは、学習に使われる該文書種別の正例の文書名が格納されるフィールドである。本フィールドに入る文書は、人手によって選択される。「負例」のフィールドは、学習に使われる該文書種別の負例の文書名が格納されるフィールドである。本フィールドに入る文書は、人手で選択される場合もあれば、負例収集器302によって自動的に選択される場合もある。

図５は、各種ＤＢ304に含まれるＳＶＭＤＢの構成を示す。各エントリは、１つのＳＶＭ、すなわち第一種ＳＶＭないしは第二種のＳＶＭに対応する。第一種ＳＶＭは、ある一つの種別の正例と負例を学習してそれらの種別を分類する（すなわち、当該正例の文書種別であるかその文書種別でないかの分類）ＳＶＭである。第二種ＳＶＭは、二つの種別の正例を学習して分類する（すなわち、それら二つの正例の文書種別のどちらであるかの分類）ＳＶＭである。

「ID」のフィールドは、ＳＶＭの識別子である。「文書種別」のフィールドは、学習・分類する種別を示す。「文書種別」は、図４の文書種別ＤＢの「ID」フィールドにある文書種別IDで示される。第一種ＳＶＭの場合には、一つの種別の正例と負例を分類するので、「文書種別」のフィールドには一つの文書種別IDが格納される。第二種ＳＶＭの場合には、二つの種別の正例を分類するので、「文書種別」の欄には二つの文書種別IDが格納される。「特徴語」のフィールドは、ＳＶＭに与える特徴ベクトルを生成する際に必要な特徴語のリストである。「パラメータ」のフィールドは、学習した結果として得られるＳＶＭのパラメータである。本パラメータが分類に使うＳＶＭのパラメータとなる。本パラメータの内容はＳＶＭそのものにかかわるものであり、本発明の範囲外である。

図６は、学習時に利用するGUIのトップの画面である文書種別登録画面を示す。該画面の左側のリストボックス601は、登録する／登録済みの種別（分類したい種別）を示す。文書種別追加ボタン602は、新規に文書種別を追加するときにクリックするボタンである。該ボタン602をクリックすると、図７の文書種別入力画面が現れる。文書種別削除ボタン603は、文書種別を削除するときにクリックするボタンである。リストボックス601で削除したい文書種別を指定し、本ボタン603をクリックすると該文書種別が削除される。具体的には、図４の文書種別ＤＢから対応するエントリが削除され、さらに該種別が文書種別フィールドに含まれる図５のＳＶＭＤＢのエントリが削除される。学習用文書登録ボタン604は、学習に使う正例と負例を登録するときにクリックするボタンである。リストボックス601で学習する文書種別を指定し、本ボタン604を押すと、図８の学習用文書登録画面が現れる。学習ボタン605は、登録した正例と負例から文書種別を分類するＳＶＭを生成する際にクリックするボタンである。本生成の処理の詳細は、図１０と図１１を参照して後述する。606は終了ボタンであり、文書登録を終える場合にクリックするボタンである。

図７は、新たに文書種別を登録する際に種別名称を入力する画面である文書種別入力画面を示す。図６の文書種別追加ボタン602をクリックすると、本画面が現れる。

テキストボックス701は、登録する種別名称を入力するフィールドである。登録ボタン702は、テキストボックス701に種別名称を入力した後にクリックして文書種別名を登録するボタンである。本ボタン702を押すと、図４の文書種別ＤＢに新たなエントリが作成され、文書種別フィールドに当該種別名称が登録される。IDフィールドには、他のエントリと重ならないようにIDが自動的に割り振られる。この時点では、正例フィールドと負例フィールドは、空白のままである。キャンセルボタン703は、種別名称入力を止め、文書種別追加を中止する際にクリックするボタンである。

図８は、指定した文書種別の学習用の文書を指定する画面である学習用文書登録画面を示す。図６のリストボックス601にて文書種別を指定して、学習用文書登録ボタン604をクリックすると本画面が現れる。

リストボックス801は、該種別の正例を指定するフィールドである。文書名をキーボードから入力したり、コピー＆ペーストして入力したり、文書のアイコンをドラッグ＆ドロップして正例を指定する。削除ボタン802は、正例を削除する場合に利用するボタンである。リストボックス801にて削除する正例を指定し、本ボタン802をクリックすると、該正例が削除される。

リストボックス803は、該種別の負例を指定するフィールドである。文書名をキーボードから入力したり、コピー＆ペーストして入力したり、文書のアイコンをドラッグ＆ドロップして負例を指定する。自動選択ボタン804は、正例から負例を自動的に選択するときにクリックするボタンである。選択する手順については、図９にて詳しく説明する。削除ボタン805は、負例を削除する場合に利用するボタンである。リストボックス803にて削除する負例を指定し、本ボタン805をクリックすると、該負例が削除される。

806は登録ボタンである。本ボタン806を押すことで、フィールド801に指定した正例とフィールド803に指定した負例が、当該種別の学習用文書として、図４の文書種別ＤＢの該当するエントリの正例フィールドと負例フィールドに登録される。807はキャンセルボタンであり、これをクリックすることにより、正例と負例を登録することなく、学習用文書登録を終了する。

次に、本実施形態の文書分類システムにおいて、文書種別を学習する全体の手順を人手の部分も含めて列挙する。
（１）分類したい複数の文書種別を決める。
（２）上記複数の文書種別に対応する正例の文書を集める。付加的に、当該種別ではない負例の文書を集める（負例を自動選択する場合は不要）。
（３）分類したい各文書種別について、図６の文書種別追加ボタン602をクリックして、文書種別の名称を登録する。
（４）分類したい各文書種別について、図６の文書種別一覧のリストボックス601にて文書種別をクリックして指定し、学習用文書登録ボタン604をクリックして、図８の学習文書登録画面を使って正例と付加的に負例を追加する。具体的な登録のための操作方法は、図８で示したとおりである。
（５）図６の学習ボタン605をクリックして、学習する。

上記（１）と（２）は、人手での作業である。（３）の文書種別の名称の登録については、図７の702の登録ボタンを押した際の処理で示したとおりである。（４）の学習用文書登録については、図８に示したとおりであり、最終的には、ユーザが指定した正例と負例が図４の文書種別ＤＢの正例と負例のフィールドに反映される。但し、自動選択ボタン804をクリックしたときの処理内容については、以下の図９で示す。同様に（５）の学習の処理内容についても以下の図１０と図１１で示す。

図９は、図８の学習用文書登録画面において、自動選択ボタン804をクリックしたときの負例収集器302の処理内容を示す。

ステップ901において、負例収集器302の特徴語抽出部321が、図８のリストボックス801の正例から特徴語を取り出す。具体的には、特徴語抽出部321が、正例の文書ファイルを解析し、文書タイトルや項目名にあたる語として、ページ上部にある語、文字サイズが平均より大きい語、項目番号付きの語、あるいは太字や下線付きなどスタイル上強調されている語などを取り出す処理である。次に、負例候補取出部322が、ステップ902において、負例候補文書の文書ファイルをファイルサーバ901からランダムに取り出す。ファイルサーバ901に含まれる正例の比率に依存するが、正例の数倍の数の文書を取り出すものとする。

次にステップ903において、特徴語抽出部323が、それらの負例候補文書から特徴語を抽出する。この処理は、ステップ901と同様のものである。次にステップ904において、負例選択部324が、前記負例候補文書から、正例の特徴語をなるべく含まず、それ以外の特徴語をなるべく含む文書を選択し、負例とする。例えば、具体的な処理としては、各負例候補文書について、該文書中の負例候補文書だけに含まれる特徴語（その負例候補文書だけに含まれ、何れの正例にも含まれない特徴語）の数から正例文書に含まれる特徴語（全ての正例文書の特徴語全体）の数を引いて、この数が大きい順に、正例の数に等しい数の文書を選んで負例とする方法がある。

図１０は、図６の文書種別登録画面において、分類したい全ての種別について正例と負例が登録された後に学習ボタン605をクリックしたときの学習器303の処理内容を示す。なお、本図１０の処理は、種別ごとに繰り返す。すなわち、ステップ1001から1005は、ある一つの分類したい種別についての処理であり、種別数だけステップ1001から1005までを繰り返す。ステップ1001から1004は第一種のＳＶＭに関わるものであり、ステップ1005は第二種のＳＶＭに関わるものである。第一種ＳＶＭは該種別の正例と負例とを分類するＳＶＭ（すなわち、当該種別かそれ以外かを分類するＳＶＭ）であり、第二種ＳＶＭは該種別の正例とその他の種別の正例とを分類するＳＶＭ（すなわち、２つの種別の何れであるかを分類するＳＶＭ）である。

ステップ1001において、特徴語抽出部331が、該種別について、図４の文書種別ＤＢの該種別に対応するエントリの正例フィールドと負例フィールドから正例と負例の文書名を取得し、ファイルサーバ101からそれらの正例と負例の文書を取り出し、取り出した文書から特徴語を抽出する。抽出方法は、ステップ901と同様である。

ステップ1002において、特徴ベクトル生成部332が、ステップ1001で抽出した特徴語から各正例と負例の特徴ベクトルを生成する。生成方法の一つとして、特徴語が「決裁」「文書」「審議」「稟議」となったとして、該正例にこれらの各特徴語が含まれるか否かで1/0としてベクトルを生成する方法がある。「決裁」と「文書」と「稟議」が該正例に特徴語として含まれ、「審議」は特徴語として含まれない場合には、（1,1,0,1）という特徴ベクトルとなる。含まれるか否かで1/0とする他に、該正例の特徴語全体の数との比を各要素とする特徴ベクトル生成方法もある。

次に1003において、ＳＶＭ学習部333が、それぞれの正例と負例の特徴ベクトルを学習用データとして、本学習器303の一部であるＳＶＭに与え、ＳＶＭが学習する。このＳＶＭの動作そのものは、本発明の範囲外であり、詳細は示さない。ステップ1004において、第一種ＳＶＭ登録部334が、その学習結果を図５のＳＶＭＤＢに登録する。具体的には、新しくエントリを作成し、IDフィールドには新規のIDを作成して格納し、文書種別フィールドには図４の文書種別ＤＢの該文書種別に当たるエントリのIDフィールドにある文書種別IDを格納し、特徴語フィールドにはステップ1001にて得られた特徴語を格納し、パラメータフィールドにはステップ1003にて得られた第一種ＳＶＭの学習結果のパラメータを格納する。

次に1005において、第二種ＳＶＭ生成・登録部335が、該種別（いまステップ1004で登録した第一種ＳＶＭの分類対象の種別）とは異なる各種別について、第二種のＳＶＭを生成する。詳細は以下の図１１に示す。

図１１は、第二種ＳＶＭ生成・登録部335による第二種のＳＶＭの生成および図５のＳＶＭＤＢへの登録の処理内容を示す。なお、本図１１の処理は、図１０のステップ1001〜1004で作成・登録した第一種ＳＶＭで分類対象にしていた種別（第一該種別と呼ぶ）をペアの一方とし、分類したい種別のうちその他の種別（第二該種別と呼ぶ）をペアのもう一方とするペアを全て求め、それらの各ペアごとにステップ1101〜1104を繰り返すものである。

なお、既に第一該種別と第二該種別を分類するＳＶＭが生成済みの場合には、本処理はスキップする。例えば、第一該種別が「決裁文書」で第二該種別が「設計書」の第二種ＳＶＭが生成済みなら、第一該種別が「設計書」で第二該種別が「決裁文書」の第二種ＳＶＭの生成はスキップする。

ステップ1101〜1104の処理はステップ1001〜1004と同様の処理である。ただし、ステップ1101〜1104では、第一該種別と第二該種別とを分類する第二種ＳＶＭを生成・登録する点が異なる。まず、ステップ1101において、第一該種別の正例と第二該種別の正例から特徴語を取り出す。すなわち、図４の文書種別ＤＢの第一該種別と第二該種別に該当する各エントリの正例フィールドからそれぞれ文書名を取得し、ファイルサーバ101からそれらの第一該種別の文書と第二該種別の文書を取り出し、取り出した文書から特徴語を抽出する。抽出方法は、ステップ901と同様である。

ステップ1102において、ステップ1101で抽出した特徴語から、第一該種別と第二該種別のそれぞれの正例の特徴ベクトルを生成する。生成方法は、ステップ1002と同様である。次にステップ1103において、第一該種別の正例と第二該種別の正例の特徴ベクトルを学習用データとして、本学習器303の一部であるＳＶＭに与え、ＳＶＭが学習する。ステップ1104において、その学習結果を図５のＳＶＭＤＢに登録する。具体的には、新しくエントリを作成し、IDフィールドには新規のIDを作成して格納し、文書種別フィールドには図４の文書種別ＤＢの第一該種別と第二該種別に当たるエントリのIDフィールドにある文書種別IDを格納し、特徴語フィールドにはステップ1101にて得られた特徴語を格納し、パラメータフィールドにはステップ1103にて得られたＳＶＭの学習結果のパラメータを格納する。ステップ1004との違いは、文書種別IDフィールドに二つの文書種別IDが含まれることであり、これにより当該エントリの特徴語とパラメータで規定されるＳＶＭが第二種ＳＶＭであることが分かる。

次に、追加学習について説明する。上記に示した実施の形態では、学習の担当者がいて、該担当者がもっぱら分類対象の種別を登録し学習文書を集めて学習する場合の手順や処理内容を示した。しかしながら、一旦学習して、一般の利用者が本実施形態の文書分類機能を文書分類のレコメンドとして使いだすと、当該利用者が学習用文書を登録できるようにしたほうが、適正な学習用文書を収集でき、学習の担当者の作業も軽減できる。例えば、利用者が分類対象の文書を本実施形態の分類機能を使って分類したとき、レコメンドされた文書種別が正しいのなら利用者が該文書種別の正例として当該文書を追加で登録し、レコメンドされた文書種別が誤っているのなら利用者が判断した適正な文書種別の正例として当該文書を追加で登録することで、前記担当者が学習用文書を追加で集める作業を軽減できる。

以下、学習の担当者による文書種別の登録と学習後に、利用者により新たに学習に利用できる文書が判明した場合に、該文書を利用して追加の学習を行う実施形態を説明する。

図１２は、追加学習を行う実施形態の全体構成を示す。図１２では不図示だが、学習・分類器1204は、図３に示した負例収集器302、学習器303、各種ＤＢ304、および分類器305の構成を全て含むものとする。また、学習・分類器1204では、学習の担当者により少なくとも１回は分類対象の文書種別に関する学習用文書306が与えられて学習が行われており、各種ＤＢ304（図４，５）には学習により登録されたエントリがあるものとする。さらに、学習・分類器1204は、追加学習用文書登録部1205を備え、これにより利用者は追加学習用文書の登録を行うことができる。

ファイルサーバ1202は、図３のファイルサーバ301に相当する。ファイル種別ＤＢ1203は、ファイルサーバ1202の一部となるＤＢであり、利用者が判断した文書の種別を格納する。図１３に、その詳細を示す。利用者ＰＣ1201は、利用者が使用するＰＣである。利用者ＰＣ1201は、利用者の所定の操作により、不図示のネットワーク経由でファイルサーバ1202に接続して、該ファイルサーバに文書を登録したり、該ファイルサーバ内の文書を編集することができる。また、利用者ＰＣ1201は、利用者の所定の操作により、学習・分類器1204に接続して、指定した文書の種別の分類を行うことができる。利用者は、学習・分類器1204から提示された種別が当該文書の種別として適正だと判断した場合、その文書をその種別の正例の追加学習用文書として図１３のファイル種別ＤＢ1203に登録できる。逆に、学習・分類器1204から提示された種別が当該文書の種別として適正ではないと判断した場合、その文書の適正な種別を利用者自らが判断して、該判断した種別を示す情報と共に追加学習用文書として図１３のファイル種別ＤＢ1203に登録できる。この追加学習用文書のファイル種別ＤＢ1203への登録は、利用者ＰＣ1201から追加学習用文書登録部1205を利用して行うことができるが、その方式や手順はどのようなものでもよい。

図１３は、利用者が利用者ＰＣ1201から登録した追加学習用文書の情報を格納する図１２のファイル種別ＤＢ1203の構成を示す。一つのエントリは、利用者が登録した一つの追加学習用文書に当たる。文書名のフィールドは、ファイルサーバ1202でのファイル名を示す。仮種別のフィールドは、本実施形態の学習・分類器1204が当該文書名の文書を分類した結果、類推した種別である。登録種別のフィールドは、ファイルサーバ1202および学習・分類器1204の利用者が判断した文書種別を格納する。学習・分類器1204が類推した種別（仮種別のフィールドに格納された種別）が当該文書の種別として適正であると利用者が判断した場合、登録種別のフィールドには、仮種別のフィールドに格納された種別と同じ種別が利用者により格納される。一方、学習・分類器1204が類推した種別（仮種別のフィールドに格納された種別）が当該文書の種別として適正ではないと利用者が判断した場合、登録種別のフィールドには、利用者が判断した種別（仮種別のフィールドに格納された種別とは異なる種別）が利用者により格納される。この登録種別のフィールドに格納された種別は、利用者が判断した当該文書の適正な種別であると見ることができるから、当該文書は当該登録種別の正例の追加学習用文書として扱える。登録日のフィールドは、利用者が登録種別にある種別と判断した日付を示す。登録者のフィールドは、登録種別を判断した利用者を特定する利用者IDを格納する。

図１４は、図８の学習用文書登録画面に代わる追加学習用文書登録画面を示す。図８の学習用文書登録画面と同様に、学習の担当者が、図６のリストボックス601にて文書種別を指定して、学習用文書登録ボタン604をクリックすると本画面が現れる。

図１４の画面において、リストボックス1401は、以前に学習に使った該種別の正例を示したフィールドである。図８のリストボックス801と同様に、これまでに正例として登録されている文書名が示される。リストボックス1402は、以前に学習に使った該種別の負例を示したフィールドである。図８のリストボックス803と同様に、これまでに負例として登録されている文書名が示される。リストボックス1403は、新たに追加して学習する正例の候補を示したフィールドである。図１３の登録種別が当該種別（図６のリストボックス601にて指定した文書種別）に当たる文書名が表示される。リストボックス1404は、新たに追加して学習する負例の候補を示したフィールドである。図１４の画面が表示された当初は、リストボックス1404は空白である。

削除ボタン1405は、以前に学習に使った該種別の正例のリスト1401から正例を削除する場合に利用するボタンである。リストボックス1401にて削除する正例を指定し、本ボタン1405をクリックすると該正例が削除される。削除ボタン1406は、以前に学習に使った該種別の負例のリスト1402から負例を削除する場合に利用するボタンである。リストボックス1402にて削除する負例を指定し、本ボタン1406をクリックすると該負例が削除される。削除ボタン1407は、追加学習に使う該種別の正例のリスト1403から正例を削除する場合に利用するボタンである。リストボックス1403にて削除する正例を指定し、本ボタン1407をクリックすると該正例が削除される。削除ボタン1408は、追加学習に使う該種別の負例のリスト1404から負例を削除する場合に利用するボタンである。リストボックス1404にて削除する負例を指定し、本ボタン1408をクリックすると該負例が削除される。

自動選択ボタン1409は、追加学習に使う該種別の負例を自動的に選択することを指定するボタンである。選択する手順は図９に示した方法を採ればよいが、それ以外に、図１３の登録種別が該種別（いま図１４の画面で処理対象としている種別）ではない文書からランダムに選択してリストボックス1404に負例として表示する方法や、これらの二つを組み合わせる方法がある。また、利用者が、図１３のファイル種別ＤＢに、負例を登録できるようにしても良い。例えば、ある文書について学習・分類器1204が提示した種別（仮種別）が「決済文書」であるが、利用者は当該文書を決済文書の負例として登録すべきものと判断した場合、登録種別のフィールドに「非決済文書」と登録してもよい。このように負例として登録された文書は、図１４の画面が表示された当初からリストボックス1404に表示される。

以上のように、学習の担当者は、図１４の画面のリストボックス1403の各文書を確認することで、利用者により追加された追加学習用文書（正例）を確認できる。これらの正例のうち、学習の担当者が精査して、当該種別の正例として相応しくないと判断したものについては削除ボタン1407により削除できる。また、学習の担当者は、自動選択ボタン1409をクリックすることで当該種別の負例をリストボックス1404に自動で追加できる。学習の担当者は、図１４の画面のリストボックス1404の追加学習用文書（負例）を確認し、学習の担当者が精査して、当該種別の負例として相応しくないと判断したものについては削除ボタン1408により削除できる。

1410は登録ボタンである。本ボタン1410を押すことで、リストボックス1401と1403に指定した正例とリストボックス1402と1404に指定した負例が指定種別の学習用文書として、図４の文書種別ＤＢの該当するエントリの正例フィールドと負例フィールドに登録される。この後、図６の学習ボタン605を押して学習させることにより、追加の学習用文書を利用した追加学習が行われる。1411はキャンセルボタンであり、これを押すことで、正例と負例を登録することなく、学習用文書登録を終了することができる。

以上で学習の過程（すなわち、第一種ＳＶＭと第二種ＳＶＭの構成方法）を説明した。次に、明示的には学習しなかった該当なしを含めた分類器305における文書種別分類の処理内容を説明する。

図１５は、分類の処理手順を示す。上述の学習により、図５のＳＶＭＤＢに第一種ＳＶＭと第二種ＳＶＭのエントリが既に登録されているので、利用者が分類したい対象文書307を指定して分類を指示すると、分類器305がそれらの第一種ＳＶＭと第二種ＳＶＭを利用して分類を実行する。

まずステップ1501において、分類器305の特徴語抽出部351が、分類対象の文書307から特徴語を抽出する。抽出方法はステップ901と同じである。ステップ1502において、第二種ＳＶＭによる分類部352が、第二種のＳＶＭを使って、該文書がどの種別の可能性が高いか多数決で判定する。

ステップ1502の処理の詳細は、以下の通りである。まず、図５のＳＶＭＤＢから第二種のＳＶＭを全て探し出す。第二種のＳＶＭは、文書種別フィールドに文書種別が二つあることで判定できる。次に、各第二種ＳＶＭについて、図５の特徴語フィールドから特徴語を取出し、ステップ1501で抽出した該分類対象文書の特徴ベクトルを生成し、ステップ1002と同様の方法で特徴ベクトルを生成し、パラメータフィールドからパラメータを取り出し、前記生成した特徴ベクトルとともに当該第二種ＳＶＭに与えて、当該第二種ＳＶＭが分類対処としている２つの種別のうちどちらの種別になるかを判定する。この判定を、図５に登録されている全ての第二種ＳＶＭにより実行する。各第二種ＳＶＭでの判定の結果を、分類対象の各種別ごとに集計し、上位の種別を決める。例えば、分類対象の種別が５種別あれば、異なる種別のペアの数は１０あるので、それらのペアに対応して１０の第二種ＳＶＭがあることになる。それら１０の第二種ＳＶＭが、それぞれ判定結果を１票ずつ入れるので、総計は１０の得票となる。また、ある１つの種別については、その種別とそれ以外の種別とのペアは、「分類対象の種別の総数−１」個あるから、分類対象の種別が５種別であれば、１つの種別に対して最高得票数は４となる。このような第二種ＳＶＭの判定結果の得票で多数決を取り、上位の種別を決める。上位の種別の決め方としては、１位の種別のみを採用する、上位２位までの種別を採用する、最高得票の過半数までの種別を採用する、などの決め方がある。

ステップ1503にて、第一種ＳＶＭによる確認部353が、ステップ1502で決めた上位の種別について、それぞれ当該種別か否かを判定する第一種のＳＶＭを利用して、当該種別と判定されるかを確認する。確認できない場合には、「該当なし」として、分類の推定順位を決める。例えば、ステップ1502の多数決で第一位種別と第二位種別があった場合、次のステップ1503では、第一位種別であるか否かを判定する第一種ＳＶＭでの判定と、第二位種別であるか否かを判定する第一種ＳＶＭでの判定を行う。この第一種ＳＶＭを利用した判定では、「第一位種別であり、第二位種別以外である」、「第一位種別以外であり、第二位種別以外である」、「第一位種別以外であり、第二位種別である」、「第一位種別であり、第二位種別である」の可能性がある。「第一位種別であり、第二位種別以外である」場合は、種別類推の順番は、「第一位種別」、「該当なし」、「第二位種別」の順番として、当該文書の種別の分類結果を利用者に提示する。「第一位種別以外であり、第二位種別以外である」場合は、種別類推の順番は、「該当なし」、「第一位種別」、「第二位種別」の順番として、当該文書の種別の分類結果を利用者に提示する。「第一位種別以外であり、第二位種別である」場合は、種別類推の順番は、「第二位種別」、「該当なし」「第一位種別」、の順番として、当該文書の種別の分類結果を利用者に提示する。

なお、上記実施形態では、第二種ＳＶＭを、分類対象の種別の全てのペアに対して当該ペアの二つの種別のうちどちらかであるかを分類するＳＶＭ（言わば「１対１」方式）として構成し、分類の際には多数決で種別を判定した。これに対し、「１対他」方式で第二種ＳＶＭを構成しても良い。具体的には、分類対象の各種別について、該種別を第一該種別とし、その他の全種別を合わせたものを第二該種別として、第二種ＳＶＭを生成する。例えば、Ａ，Ｂ，Ｃ，Ｄ，Ｅの５種別が分類対象である場合、（１）ＡであるかＢ＋Ｃ＋Ｄ＋Ｅであるかを分類するＳＶＭ、（２）ＢであるかＡ＋Ｃ＋Ｄ＋Ｅであるかを分類するＳＶＭ、（３）ＣであるかＡ＋Ｂ＋Ｄ＋Ｅであるかを分類するＳＶＭ、（４）ＤであるかＡ＋Ｂ＋Ｃ＋Ｅであるかを分類するＳＶＭ、（５）ＥであるかＡ＋Ｂ＋Ｃ＋Ｄであるかを分類するＳＶＭ、の５つを第二種ＳＶＭとして生成する。なお、上記の＋は論理和である「または」の意味である。このような第二種ＳＶＭを生成する際、学習用文書としては各種別の正例を用いればよい。例えば、上記の（１）の第二種ＳＶＭであれば、種別Ａの正例を第一該種別の正例とし、種別Ｂ，Ｃ，Ｄ，Ｅのそれぞれの正例を合わせて第二該種別の正例として、図１１の処理で学習させて第二種ＳＶＭを生成すればよい。

分類については、分類対象文書の特徴語を取り出し、まず全ての第二種別ＳＶＭを使って種別を判定する。その判定で１つの種別に判定された場合、該種別か否かを第一種ＳＶＭで確認する。第一種ＳＶＭでも当該種別に判定されたら、当該文書の分類結果は当該種別とする。第二種ＳＶＭによる判定で１つの種別に決まらなかった場合は、第一種ＳＶＭで確認し、１つに決まれば当該種別と判定し、複数に決まれば「該当なし」とする。

本発明の文書分類技術は、機密情報の漏洩検知の他、文書重要度に応じたファイル格納先の選択など、利用範囲は広い。なお、本発明では文書をターゲットとしていたが、複数カテゴリに分類するＳＶＭ全般に適用できる分類の学習に利用できる。

301…ファイルサーバ、302…負例収集器、303…学習器、304…各種ＤＢ、305…分類器、306…学習用文書、307…分類対象文書、601…文書種別が並ぶリストボックス、602…文書種別追加ボタン、603…文書種別削除ボタン、604…学習用文書登録ボタン、605…学習ボタン、606…終了ボタン、701…文書種別名称入力テキストボックス、702…登録ボタン、703…キャンセルボタン、801…正例が並ぶリストボックス、802…指定した正例の削除ボタン、803…負例が並ぶリストボックス、804…負例の自動選択ボタン、805…指定した負例の削除ボタン、806…登録ボタン、807…キャンセルボタン、1201…利用者PC、1202…ファイルサーバ…301、1203…ファイル種別ＤＢ、1204…学習・分類器、1205…追加学習用文書登録部、1401…前回の正例が並ぶリストボックス、1402…前回の負例が並ぶリストボックス、1403…追加の正例が並ぶリストボックス、1404…追加の負例が並ぶリストボックス、1405…指定した前回の正例の削除ボタン、1406…指定した前回の負例の削除ボタン、1407…指定した追加の正例の削除ボタン、1408…指定した追加の負例の削除ボタン、1409…追加負例の自動選択ボタン、1410…登録ボタン、1411…キャンセルボタン。

Claims

文書を、指定された複数の種別に分類する文書分類システムであって、
分類対象の各種別に対して、当該種別であるか否かを分類する第一種のＳＶＭ（Support Vector Machine）と、
分類対象の種別の全てのペアに対して、当該ペアの２つの種別のうちのどちらであるかを分類する第二種のＳＶＭと、
指定された分類対象の文書に対して、前記第二種のＳＶＭを利用して、分類対象の種別の全てのペアに対して当該ペアの２つの種別のうちのどちらであるかを分類し、それらの結果から多数決で上位の種別を求める手段と、
求めた上位の種別に対して、前記第一種のＳＶＭを利用して、当該種別であるか否かを分類し、その分類結果から、前記分類対象の文書の種別を判定する手段と
を備え、前記第二種のＳＶＭによる多数決で上位の種別と判定されても、前記第一種のＳＶＭにより当該種別では無いと判定された場合は、「該当無し」と判定する
ことを特徴とする文書分類システム。
文書を、指定された複数の種別に分類する文書分類システムであって、
分類対象の各種別に対して、当該種別であるか否かを分類する第一種のＳＶＭ（Support Vector Machine）と、
分類対象の全種別から一種別とその他の全種別との組み合わせを全て作り、それらの組み合わせ毎に、該組み合わせの一種別とその他の全種別のどちらであるかを分類する第二種のＳＶＭと、
指定された分類対象の文書に対して、前記第二種のＳＶＭを利用して、前記組み合わせの全てについて、該組み合わせの一種別とその他の全種別のどちらであるかを分類し、それらの結果から種別を求める手段と、
求めた種別に対して、前記第一種のＳＶＭを利用して、当該種別であるか否かを分類し、その分類結果から、前記分類対象の文書の種別を判定する手段と
を備え、前記第二種のＳＶＭにより判定された種別であっても、前記第一種のＳＶＭにより当該種別では無いと判定された場合は、「該当無し」と判定する
ことを特徴とする文書分類システム。
請求項１または２に記載の文書分類システムにおいて、
与えられた正例の文書から特徴語を抽出し、種々の種別の文書が格納されているファイルサーバから負例候補文書を取り出し、該負例候補文書から、該正例の特徴語をなるべく含まず、かつ該正例の特徴語以外の特徴語を多く含む文書を負例として選択し、それらの正例および負例の文書を学習用文書として学習させることにより、前記第一種ＳＶＭを生成することを特徴とする文書分類装置。
請求項１から３の何れか１つに記載の文書分類システムにおいて、
前記分類対象の文書がオフィス文書であり、
前記ＳＶＭを生成する際に、文書から特徴語を抽出するとき、前記オフィス文書中のレイアウト上の特徴のあるテキスト部分から特徴語を抽出することを特徴とする文書分類装置。
文書を、指定された複数の種別に分類する文書分類方法であって、
第一種ＳＶＭ（Support Vector Machine）を生成する手段が、分類対象の各種別に対して、当該種別であるか否かを分類する第一種のＳＶＭを生成するステップと、
第二種ＳＶＭを生成する手段が、分類対象の種別の全てのペアに対して、当該ペアの２つの種別のうちのどちらであるかを分類する第二種のＳＶＭを生成するステップと、
第二種ＳＶＭによる分類部が、指定された分類対象の文書に対して、前記第二種のＳＶＭを利用して、分類対象の種別の全てのペアに対して当該ペアの２つの種別のうちのどちらであるかを分類し、それらの結果から多数決で上位の種別を求めるステップと、
第一種ＳＶＭによる確認部が、求めた上位の種別に対して、前記第一種のＳＶＭを利用して、当該種別であるか否かを分類し、その分類結果から、前記分類対象の文書の種別を判定するステップと
を備え、前記第二種のＳＶＭによる多数決で上位の種別と判定されても、前記第一種のＳＶＭにより当該種別では無いと判定された場合は、「該当無し」と判定する
ことを特徴とする文書分類方法。