JP2014096086A - 文書分類システムおよび方法 - Google Patents

文書分類システムおよび方法 Download PDF

Info

Publication number
JP2014096086A
JP2014096086A JP2012248089A JP2012248089A JP2014096086A JP 2014096086 A JP2014096086 A JP 2014096086A JP 2012248089 A JP2012248089 A JP 2012248089A JP 2012248089 A JP2012248089 A JP 2012248089A JP 2014096086 A JP2014096086 A JP 2014096086A
Authority
JP
Japan
Prior art keywords
type
document
svm
classification
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012248089A
Other languages
English (en)
Inventor
Yoshiki Samejima
吉喜 鮫島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2012248089A priority Critical patent/JP2014096086A/ja
Publication of JP2014096086A publication Critical patent/JP2014096086A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 本来分類したい文書種別に加えて該当なしという種別を含んだ文書分類を行う場合に、分類したい文書種別を後から追加するときでも該当なしの学習用文書を集める手間がかからないような文書分類に係る技術を提供することを目的とする。
【解決手段】 分類対象の各種別に対して、当該種別であるか否かを分類する第一種のSVMと、分類対象の種別の全てのペアに対して当該ペアの2つの種別のうちのどちらであるかを分類する第二種のSVMとを用意する。指定された分類対象の文書に対して第二種のSVMを利用して多数決で上位の種別を求め、求めた上位の種別に対して第一種のSVMを利用して当該種別であるか否かを分類する。分類結果から分類対象の文書の種別を判定し、特に第二種のSVMによる多数決で上位の種別と判定されても、第一種のSVMにより当該種別では無いと判定された場合は、「該当無し」と判定する。
【選択図】 図2

Description

本発明は、機械学習を使った文書分類の技術に関し、特にオフィス文書などを対象としてその種別を分類する技術に関するものである。
これまでに研究や実用化が行われてきた文書分類技術の一つとして、Support Vector Machine(SVM)がある。これは、文書のテキスト中から名詞や動詞語幹などの特徴語を検索し、該文書中にそれらの特徴語が含まれるか否かを0/1で表現し、ないしは該文書のテキスト中の特徴語が全語句に占める比をベクトルで表現し、文書群にあたる多次元の特徴ベクトル群を超平面の境界で区切ることによって二つのカテゴリに分類する手法である。
分類したい文書種別は、学習段階においては企画書や決裁文書などのいくつかの種別が予め決められているが、実際に種別が未知の文書を分類する段階においては、決められた種別の文書だけが分類対象となるとは限らず、学習時の種別には含まれない文書が分類対象になる場合がある。このような場合には、学習時のどの種別にも当たらないということで、「該当なし」あるいは「その他」と分類できることが望ましい。
非特許文献1は、ニュース記事を政治や経済などの所定のカテゴリに分類する例を開示している。具体的には、ニュース記事のテキストから、名詞を中心とした所定の単語が記事に含まれるか含まれないかを示す0/1の並びを特徴ベクトルとし、SVMを使って当該ニュース記事がどのカテゴリに属するかを分類している。分類するカテゴリとしては、予め決められている記事のカテゴリを採用しており、どのカテゴリにも属さない「該当なし」や「その他」に当たるカテゴリはない。
非特許文献2には、多カテゴリSVMの一般的な構築方法が示されている。各クラスの例が与えられ、複数のSVMを構成する。該構成方法で、「該当なし」と分類できるようにしようとすると、企画書・決裁文書などの本来の種別に加えて、「該当なし」という種別を設け、「該当なし」を含めてそれぞれの種別の文書の学習例を用意して学習させる必要がある。
特許文献1は、多カテゴリSVMにおいて、分類精度を向上させるSVMの構築方法が示されている。しかしながら、「該当なし」や「その他」の扱いについては非特許文献1と同じである。
特許文献2は、多カテゴリSVMにおいて、既知のカテゴリの学習例から、未知のカテゴリを含めたSVMの構築方法が示されており、既知カテゴリの他に、「該当なし」や「その他」を含めた分類が可能なSVMが示されている。
公表特許公報:特表2009−511000公報 再公表特許:国際公開番号WO2009/041101
平博順, 春野雅彦, Support Vector Machineによるテキスト分類における属性選択, 情報処理学会論文誌, Vol.41, No.4, pp.1113-1123, 2000. 阿部重夫, パターン認識のためのサポートベクトルマシン入門, 第3章 多クラスサポートベクトルマシン, 森北出版, 2011年4月.
上述の非特許文献1と非特許文献2と特許文献1に示されたSVMでは、「該当なし」にあたる文書を学習例として用意する必要がある。しかしながら、本来の分類したい種別を増やすたびに「該当なし」の学習例を見直す必要があり、手間がかかるという問題がある。図1に、その様子を示す。
図1の上半分は、最初の学習で、企画書と決裁文書と該当なしの文書の学習例をそれぞれ用意して学習させたことを示す。この場合の該当なしは、企画書でもなく決裁文書でもない文書が該当なしになる。この学習により構成されたSVMを利用して、種別が未知の文書を、企画書か決裁文書か該当なしかに分類できる。次に、図1の下半分に示すように、設計書も分類することとなり、設計書の学習例を新規に集めて追加の学習をさせることになったとする。この場合、先の企画書と決裁文書の学習用文書は、そのまま流用して学習させることができる。しかしながら、該当なしの学習用文書は流用することができない。なぜなら、今回の学習における該当なしの学習用文書としては、企画書でも決裁文書でも設計書でもない文書を用意する必要があり、先の最初の学習における該当なしの学習用文書に設計書が含まれている可能性があるからである。本来の文書種別が多くなれば、Aでもない、Bでもない、Cでもない、Dでもない、Eでもない、…、と条件が重なり、該当なしの学習用文書例を集めるのが困難になる。
特許文献2では、未知クラスを扱っており、この未知クラスは、意味的には「該当なし」あるいは「その他」に近い。しかしながら、特許文献2の未知クラスは、学習例がないことを前提としており、既知クラス最小化という条件が課されている(例えば、段落0064、0107)。該当なしの文書例が収集可能な場合には、本条件は適切な分離超平面を定めることに反する条件となり、分類精度が落ちることとなる。
本発明は、本来分類したい文書種別に加えて該当なしという種別を含んだ文書分類を行う場合に、分類したい文書種別を後から追加するときでも該当なしの学習用文書を集める手間がかからないような文書分類に係る技術を提供することを目的とする。
上記目的を達成するため、請求項1に係る発明は、文書を、指定された複数の種別に分類する文書分類システムであって、分類対象の各種別に対して、当該種別であるか否かを分類する第一種のSVM(Support Vector Machine)と、分類対象の種別の全てのペアに対して、当該ペアの2つの種別のうちのどちらであるかを分類する第二種のSVMと、指定された分類対象の文書に対して、前記第二種のSVMを利用して、分類対象の種別の全てのペアに対して当該ペアの2つの種別のうちのどちらであるかを分類し、それらの結果から多数決で上位の種別を求める手段と、求めた上位の種別に対して、前記第一種のSVMを利用して、当該種別であるか否かを分類し、その分類結果から、前記分類対象の文書の種別を判定する手段とを備え、前記第二種のSVMによる多数決で上位の種別と判定されても、前記第一種のSVMにより当該種別では無いと判定された場合は、「該当無し」と判定することを特徴とする。
請求項2に係る発明は、文書を、指定された複数の種別に分類する文書分類システムであって、分類対象の各種別に対して、当該種別であるか否かを分類する第一種のSVM(Support Vector Machine)と、分類対象の全種別から一種別とその他の全種別との組み合わせを全て作り、それらの組み合わせ毎に、該組み合わせの一種別とその他の全種別のどちらであるかを分類する第二種のSVMと、指定された分類対象の文書に対して、前記第二種のSVMを利用して、前記組み合わせの全てについて、該組み合わせの一種別とその他の全種別のどちらであるかを分類し、それらの結果から種別を求める手段と、求めた種別に対して、前記第一種のSVMを利用して、当該種別であるか否かを分類し、その分類結果から、前記分類対象の文書の種別を判定する手段とを備え、前記第二種のSVMにより判定された種別であっても、前記第一種のSVMにより当該種別では無いと判定された場合は、「該当無し」と判定することを特徴とする。
請求項3に係る発明は、請求項1または2に記載の文書分類システムにおいて、与えられた正例の文書から特徴語を抽出し、種々の種別の文書が格納されているファイルサーバから負例候補文書を取り出し、該負例候補文書から、該正例の特徴語をなるべく含まず、かつ該正例の特徴語以外の特徴語を多く含む文書を負例として選択し、それらの正例および負例の文書を学習用文書として学習させることにより、前記第一種SVMを生成することを特徴とする。
請求項4に係る発明は、請求項1から3の何れか1つに記載の文書分類システムにおいて、前記分類対象の文書がオフィス文書であり、前記SVMを生成する際に、文書から特徴語を抽出するとき、前記オフィス文書中のスタイル上の特徴のあるテキスト部分から特徴語を抽出することを特徴とする。
請求項5に係る発明は、文書を、指定された複数の種別に分類する文書分類方法であって、第一種SVM(Support Vector Machine)を生成する手段が、分類対象の各種別に対して、当該種別であるか否かを分類する第一種のSVMを生成するステップと、第二種SVMを生成する手段が、分類対象の種別の全てのペアに対して、当該ペアの2つの種別のうちのどちらであるかを分類する第二種のSVMを生成するステップと、第二種SVMによる分類部が、指定された分類対象の文書に対して、前記第二種のSVMを利用して、分類対象の種別の全てのペアに対して当該ペアの2つの種別のうちのどちらであるかを分類し、それらの結果から多数決で上位の種別を求めるステップと、第一種SVMによる確認部が、求めた上位の種別に対して、前記第一種のSVMを利用して、当該種別であるか否かを分類し、その分類結果から、前記分類対象の文書の種別を判定するステップとを備え、前記第二種のSVMによる多数決で上位の種別と判定されても、前記第一種のSVMにより当該種別では無いと判定された場合は、「該当無し」と判定することを特徴とする。
本発明によれば、本来分類したい種別に加えて、該当なしという種別を含んだ、文書分類が実現できる。従来までの技術では、該当なしの文書を収集して学習する必要があるが、本発明では該当なしの文書を収集する必要はない。分類対象の種別を追加する場合も、追加する種別についての正例と負例を用意して第一種SVMと第二種SVMを生成すれば良いので、該当なしの文書を収集する手間がかからない。また、第一種SVMを生成する際、正例の学習用文書を用意すれば、負例を自動的に収集できる。さらに、オフィス文書の分類においては、レイアウト上の特徴があるテキスト部分から特徴語を抽出することで、少ない数の学習用文書でSVMを構成できるという効果がある。これは、レイアウト上の特徴語に注目して、学習と分類を行っているためであり、従来までの文書中の名詞やサ変名詞を特徴ベクトルに使った場合との違いである。
既存の技術で該当なしの学習用文書を用意する例を示す図 本発明の実施形態の技術で該当なしの学習用文書を用意する例を示す図 実施形態の文書分類システムの全体構成を示す図 文書種別DBの構成を示す図 SVM DBの構成を示す図 文書種別登録画面を示す図 文書種別入力画面を示す図 学習用文書登録画面を示す図 負例文書選択の処理手順を示す図 学習の処理手順を示す図 第二種SVM生成の処理手順を示す図 利用者PCを含めた構成の処理手順を示す図 ファイル種別DBの構成を示す図 追加学習用文書登録画面を示す図 分類の処理手順を示す図
以下、図面を用いて本発明の実施の形態を説明する。
本実施形態では、以下のようなステップを通じて学習させることでSVMを構成する。
(1)分類したい各々の文書種別(カテゴリ)について、該文書種別の学習用の文書と該種別ではない学習用の文書を用意する。なお、前者の学習用文書を該種別の「正例」、後者の該種別ではない学習用文書を該種別の「負例」と呼ぶ。
(2)上記(1)の該種別の文書(正例)と該種別でない文書(負例)を利用して学習させることにより、該種別の文書と該種別でない文書とを分類する第一種のSVMを構成する。
(3)上記分類したい複数の文書種別について任意の2つの文書種別を取り出して文書種別のペアを作り、それらの文書種別の全てのペアごとに、当該ペアの2つの文書種別のうちのどちらの種別かを分類する第二種のSVM(すなわち、当該ペアの正例を分類するもの)を構成する。
また、本実施形態では、以下のようなステップを通じて分類対象文書の種別を類推する。
(1)上述したように構成した第二種のSVMの全てを使って、対象文書がどの種別に当たるか類推する。
(2)上記(1)の結果で多数決をとり、多数決で上位となった種別について、第一種のSVMで該種別に当たるか否か判定する。
上記(1)のステップでは、例えば、分類したい種別(正例の種別)がA,B,C,Dの4つあったら、分類したい対象文書が、(a)種別AかBのどちらであるか、(b)種別AかCのどちらであるか、(c)種別AかDのどちらであるか、(d)種別BかCのどちらであるか、(e)種別BかDのどちらであるか、(f)種別CかDのどちらであるかを、それぞれのペアの種別を分類すべく構成された6つの第二のSVMによりそれぞれ分類する。これにより、対象文書が、上記(a)の分類で種別Aと分類されたなら「種別Aに1票」入れ、上記(b)の分類で種別Cと分類されたなら「種別Cに1票」入れ、…というように各種別の票数をカウントする。上記の例では分類したい種別が4つでペアの数(すなわち、構成した第二種のSVMの数)が6つであるから、総得票数は6票となる。また、1つの種別に着目すれば、当該種別がペアの一方に含まれるようなペアの数は「種別の数−1」になるから、上記の例では1つの種別の最高得票数は3票となる。
上記(2)のステップでは、このような得票数のカウントで多数決を取っている。要するに、いま分類したい複数の種別に限るのであれば、この多数決で上位になった種別が、対象文書の種別として、より可能性のある種別である、と言うことができるものである。従って、そのような多数決で上位になった種別について、第一種のSVMで当該種別に分類されることが確認されれば、当該対象文書の種別はその種別である可能性はかなり高いことになる。一方、例えば多数決で最上位の種別について、第一種のSVMで当該種別ではないと分類された場合は、「いま分類したい複数の種別に限るのであれば当該種別の可能性が高い」と判定できるが、その一方で「第一種のSVMで当該種別かそうでないかという分類をした結果は『当該種別でない』と判定された」ということであるから、「該当なし」に分類するのが妥当である。
さらに、本実施形態では、以下のようなステップを通じて、学習用の本来の種別の文書(正例)から、該種別ではない学習用文書(負例)を自動的に収集する。
(1)正例の学習用文書から特徴語を抽出する。従来までのSVMによる文書分類にあるような名詞ではなく、文書としてスタイルやレイアウトに特徴のある語句を特徴語として抽出するものとする。
(2)ファイルサーバから文書をランダムに選択し、該種別ではない学習用文書(負例)の候補とする。
(3)(2)の負例候補の文書から(1)と同様に特徴語を抽出する。
(4)負例候補の文書から、(1)にある特徴語が少なく、(1)にない特徴語が多い文書を選択し、該種別ではない学習用文書(負例)とする。
なお、上記(1)のレイアウト上特徴のある語として以下のようなものがある。
(a)文書タイトルのように、文書の最初のページの中央ないしは上部中央にあらわれ、文字サイズが大きかったり、目立つ色を使っていたりする語
(b)見出し語のように、番号が割り振られた単語ないしは比較的短い語
(c)定型の帳票の場合で、各帳票に現れる帳票名称や項目名
(d)他の文字に比べ、文字サイズが大きかったり、下線が引いてあったり、強調文字であったり、目立つ色であったりと、レイアウト上強調されている語
(e)文書の右上ないしは左上などに記載され、XXXX会議資料、XXXX提出、XXXX御中、XXXX様などのように、資料の送付先/閲覧者がわかる語
次に、本実施形態の文書分類システムについて詳細に説明する。
図2は、本実施形態の文書分類システムにおける学習用文書の様子を示す。本実施形態では、主たる分類種別ごとに、その種別の学習用文書とその種別ではない学習用文書とを用意する。図2の上側の例では、最初の学習用文書として、企画書と非企画書および決済文書と非決済文書とを用意し、これらの学習用文書で学習を行わせている。これらの学習用文書で学習を行わせることにより構成されたSVM(第一種および第二種の複数のSVM)を用いることにより、本実施形態の文書分類システムでは、任意の未分類の文書が「企画書」か「決済文書」かそれ以外の「該当なし」文書かを分類できる。学習や分類の処理については、後に詳しく説明する。
本実施形態の文書分類システムにおいて、新規の種別を追加するときでも同様であり、該新規種別の学習用文書とその種別ではない学習用文書とを用意する。既存の種別に係る学習用文書は、新規種別の学習時にそのまま流用できる。例えば、図2の下側の例は、新規の分類種別として「設計書」を追加する例を示している。この場合、既に最初の学習で用意してある学習用文書はそのまま流用することができ、新たに設計書の学習用文書と非設計書の学習用文書を用意し、これらの学習用文書で学習を行わせる。これにより構成されたSVM(第一種および第二種の複数のSVM)は、任意の未分類の文書が「企画書」か「決済文書」か「設計書」かそれ以外の「該当なし」文書かを分類できる。学習や分類の処理については、後に詳しく説明する。
さらに、本実施形態の文書分類システムは、ある1つの種別が指定されたとき、ファイルサーバに予め格納してある大量の文書から、当該種別ではない文書(負例)を自動的に収集する機能を備える。該機能については、図9などで詳しく説明する。
図3に、本実施形態の文書分類システムの全体構成を示す。
301は文書を格納するファイルサーバであり、本システムにより分類する対象の文書や既に分類されている文書や分類されておらず種別が未知の文書などを含む多くの文書が格納されている。負例を自動収集する場合も本ファイルサーバ301から探し出す。
302は、負例収集器である。負例収集器302は、指定された正例の学習用文書306(ファイルサーバ301に格納されている文書でも良いし、別途与えた文書でも良いが、人手で指定する必要がある)に基づいて該種別の負例をファイルサーバ301から探し出す。負例収集器302は、特徴語抽出部321、負例候補取出部322、負例候補文書からの特徴語抽出部323、および負例選択部324を備える。これら各部321〜324の機能および動作については、後に詳述する。
303は、SVMを構成するための学習を行う学習器である。学習器303は、学習用文書を与えて特徴を学習させ、その結果であるパラメータを各種DB304に格納する。学習器303は、特徴語抽出部331、特徴ベクトル生成部332、SVM学習部333、第一種SVM登録部334、および第二種SVM生成・登録部335を備える。第一種SVM登録部334は、分類したい1つの種別の正例と負例を学習用文書として与えて学習させることにより、当該種別か否かの分類をする第一種のSVMのパラメータを取得して、後述するSVM DBに登録するものである。第二種SVM登録部335は、分類したい複数の種別に関する全てのペアを求め、そのペアの2つの種別の正例を学習用文書として与えて学習させることにより、当該ペアの2つの種別のうちどちらであるかを分類する第二種のSVMのパラメータを取得して、後述するSVM DBに登録するものである。これら各部331〜335の機能および動作については、後に詳述する。
304は、学習器303が学習した結果のSVMのパラメータやSVMの入力にあたる特徴ベクトル生成に必要な特徴語のリストを格納するDB群である。具体的には、図4の文書種別DB、および図5のSVM DBからなる。
305は、種別が未知である分類対象の文書307の文書種別を推定する分類器である。各種DB304から分類に必要な特徴語とSVMのパラメータを得て、分類対象文書307の種別を分類する。分類器305は、特徴語抽出部351、第二種SVMによる分類部352、および第一種SVMによる確認部353を備える。これら各部351〜353の機能および動作については、後に詳述する。
図4は、各種DB304に含まれる文書種別DBの構成を示す。一つのエントリが一つの文書種別に対応する。「ID」のフィールドは、文書種別ごとに割り振られる識別子である。「文書種別」のフィールドは、該種別の名称である。「正例」のフィールドは、学習に使われる該文書種別の正例の文書名が格納されるフィールドである。本フィールドに入る文書は、人手によって選択される。「負例」のフィールドは、学習に使われる該文書種別の負例の文書名が格納されるフィールドである。本フィールドに入る文書は、人手で選択される場合もあれば、負例収集器302によって自動的に選択される場合もある。
図5は、各種DB304に含まれるSVM DBの構成を示す。各エントリは、1つのSVM、すなわち第一種SVMないしは第二種のSVMに対応する。第一種SVMは、ある一つの種別の正例と負例を学習してそれらの種別を分類する(すなわち、当該正例の文書種別であるかその文書種別でないかの分類)SVMである。第二種SVMは、二つの種別の正例を学習して分類する(すなわち、それら二つの正例の文書種別のどちらであるかの分類)SVMである。
「ID」のフィールドは、SVMの識別子である。「文書種別」のフィールドは、学習・分類する種別を示す。「文書種別」は、図4の文書種別DBの「ID」フィールドにある文書種別IDで示される。第一種SVMの場合には、一つの種別の正例と負例を分類するので、「文書種別」のフィールドには一つの文書種別IDが格納される。第二種SVMの場合には、二つの種別の正例を分類するので、「文書種別」の欄には二つの文書種別IDが格納される。「特徴語」のフィールドは、SVMに与える特徴ベクトルを生成する際に必要な特徴語のリストである。「パラメータ」のフィールドは、学習した結果として得られるSVMのパラメータである。本パラメータが分類に使うSVMのパラメータとなる。本パラメータの内容はSVMそのものにかかわるものであり、本発明の範囲外である。
図6は、学習時に利用するGUIのトップの画面である文書種別登録画面を示す。該画面の左側のリストボックス601は、登録する/登録済みの種別(分類したい種別)を示す。文書種別追加ボタン602は、新規に文書種別を追加するときにクリックするボタンである。該ボタン602をクリックすると、図7の文書種別入力画面が現れる。文書種別削除ボタン603は、文書種別を削除するときにクリックするボタンである。リストボックス601で削除したい文書種別を指定し、本ボタン603をクリックすると該文書種別が削除される。具体的には、図4の文書種別DBから対応するエントリが削除され、さらに該種別が文書種別フィールドに含まれる図5のSVM DBのエントリが削除される。学習用文書登録ボタン604は、学習に使う正例と負例を登録するときにクリックするボタンである。リストボックス601で学習する文書種別を指定し、本ボタン604を押すと、図8の学習用文書登録画面が現れる。学習ボタン605は、登録した正例と負例から文書種別を分類するSVMを生成する際にクリックするボタンである。本生成の処理の詳細は、図10と図11を参照して後述する。606は終了ボタンであり、文書登録を終える場合にクリックするボタンである。
図7は、新たに文書種別を登録する際に種別名称を入力する画面である文書種別入力画面を示す。図6の文書種別追加ボタン602をクリックすると、本画面が現れる。
テキストボックス701は、登録する種別名称を入力するフィールドである。登録ボタン702は、テキストボックス701に種別名称を入力した後にクリックして文書種別名を登録するボタンである。本ボタン702を押すと、図4の文書種別DBに新たなエントリが作成され、文書種別フィールドに当該種別名称が登録される。IDフィールドには、他のエントリと重ならないようにIDが自動的に割り振られる。この時点では、正例フィールドと負例フィールドは、空白のままである。キャンセルボタン703は、種別名称入力を止め、文書種別追加を中止する際にクリックするボタンである。
図8は、指定した文書種別の学習用の文書を指定する画面である学習用文書登録画面を示す。図6のリストボックス601にて文書種別を指定して、学習用文書登録ボタン604をクリックすると本画面が現れる。
リストボックス801は、該種別の正例を指定するフィールドである。文書名をキーボードから入力したり、コピー&ペーストして入力したり、文書のアイコンをドラッグ&ドロップして正例を指定する。削除ボタン802は、正例を削除する場合に利用するボタンである。リストボックス801にて削除する正例を指定し、本ボタン802をクリックすると、該正例が削除される。
リストボックス803は、該種別の負例を指定するフィールドである。文書名をキーボードから入力したり、コピー&ペーストして入力したり、文書のアイコンをドラッグ&ドロップして負例を指定する。自動選択ボタン804は、正例から負例を自動的に選択するときにクリックするボタンである。選択する手順については、図9にて詳しく説明する。削除ボタン805は、負例を削除する場合に利用するボタンである。リストボックス803にて削除する負例を指定し、本ボタン805をクリックすると、該負例が削除される。
806は登録ボタンである。本ボタン806を押すことで、フィールド801に指定した正例とフィールド803に指定した負例が、当該種別の学習用文書として、図4の文書種別DBの該当するエントリの正例フィールドと負例フィールドに登録される。807はキャンセルボタンであり、これをクリックすることにより、正例と負例を登録することなく、学習用文書登録を終了する。
次に、本実施形態の文書分類システムにおいて、文書種別を学習する全体の手順を人手の部分も含めて列挙する。
(1)分類したい複数の文書種別を決める。
(2)上記複数の文書種別に対応する正例の文書を集める。付加的に、当該種別ではない負例の文書を集める(負例を自動選択する場合は不要)。
(3)分類したい各文書種別について、図6の文書種別追加ボタン602をクリックして、文書種別の名称を登録する。
(4)分類したい各文書種別について、図6の文書種別一覧のリストボックス601にて文書種別をクリックして指定し、学習用文書登録ボタン604をクリックして、図8の学習文書登録画面を使って正例と付加的に負例を追加する。具体的な登録のための操作方法は、図8で示したとおりである。
(5)図6の学習ボタン605をクリックして、学習する。
上記(1)と(2)は、人手での作業である。(3)の文書種別の名称の登録については、図7の702の登録ボタンを押した際の処理で示したとおりである。(4)の学習用文書登録については、図8に示したとおりであり、最終的には、ユーザが指定した正例と負例が図4の文書種別DBの正例と負例のフィールドに反映される。但し、自動選択ボタン804をクリックしたときの処理内容については、以下の図9で示す。同様に(5)の学習の処理内容についても以下の図10と図11で示す。
図9は、図8の学習用文書登録画面において、自動選択ボタン804をクリックしたときの負例収集器302の処理内容を示す。
ステップ901において、負例収集器302の特徴語抽出部321が、図8のリストボックス801の正例から特徴語を取り出す。具体的には、特徴語抽出部321が、正例の文書ファイルを解析し、文書タイトルや項目名にあたる語として、ページ上部にある語、文字サイズが平均より大きい語、項目番号付きの語、あるいは太字や下線付きなどスタイル上強調されている語などを取り出す処理である。次に、負例候補取出部322が、ステップ902において、負例候補文書の文書ファイルをファイルサーバ901からランダムに取り出す。ファイルサーバ901に含まれる正例の比率に依存するが、正例の数倍の数の文書を取り出すものとする。
次にステップ903において、特徴語抽出部323が、それらの負例候補文書から特徴語を抽出する。この処理は、ステップ901と同様のものである。次にステップ904において、負例選択部324が、前記負例候補文書から、正例の特徴語をなるべく含まず、それ以外の特徴語をなるべく含む文書を選択し、負例とする。例えば、具体的な処理としては、各負例候補文書について、該文書中の負例候補文書だけに含まれる特徴語(その負例候補文書だけに含まれ、何れの正例にも含まれない特徴語)の数から正例文書に含まれる特徴語(全ての正例文書の特徴語全体)の数を引いて、この数が大きい順に、正例の数に等しい数の文書を選んで負例とする方法がある。
図10は、図6の文書種別登録画面において、分類したい全ての種別について正例と負例が登録された後に学習ボタン605をクリックしたときの学習器303の処理内容を示す。なお、本図10の処理は、種別ごとに繰り返す。すなわち、ステップ1001から1005は、ある一つの分類したい種別についての処理であり、種別数だけステップ1001から1005までを繰り返す。ステップ1001から1004は第一種のSVMに関わるものであり、ステップ1005は第二種のSVMに関わるものである。第一種SVMは該種別の正例と負例とを分類するSVM(すなわち、当該種別かそれ以外かを分類するSVM)であり、第二種SVMは該種別の正例とその他の種別の正例とを分類するSVM(すなわち、2つの種別の何れであるかを分類するSVM)である。
ステップ1001において、特徴語抽出部331が、該種別について、図4の文書種別DBの該種別に対応するエントリの正例フィールドと負例フィールドから正例と負例の文書名を取得し、ファイルサーバ101からそれらの正例と負例の文書を取り出し、取り出した文書から特徴語を抽出する。抽出方法は、ステップ901と同様である。
ステップ1002において、特徴ベクトル生成部332が、ステップ1001で抽出した特徴語から各正例と負例の特徴ベクトルを生成する。生成方法の一つとして、特徴語が「決裁」「文書」「審議」「稟議」となったとして、該正例にこれらの各特徴語が含まれるか否かで1/0としてベクトルを生成する方法がある。「決裁」と「文書」と「稟議」が該正例に特徴語として含まれ、「審議」は特徴語として含まれない場合には、(1,1,0,1)という特徴ベクトルとなる。含まれるか否かで1/0とする他に、該正例の特徴語全体の数との比を各要素とする特徴ベクトル生成方法もある。
次に1003において、SVM学習部333が、それぞれの正例と負例の特徴ベクトルを学習用データとして、本学習器303の一部であるSVMに与え、SVMが学習する。このSVMの動作そのものは、本発明の範囲外であり、詳細は示さない。ステップ1004において、第一種SVM登録部334が、その学習結果を図5のSVM DBに登録する。具体的には、新しくエントリを作成し、IDフィールドには新規のIDを作成して格納し、文書種別フィールドには図4の文書種別DBの該文書種別に当たるエントリのIDフィールドにある文書種別IDを格納し、特徴語フィールドにはステップ1001にて得られた特徴語を格納し、パラメータフィールドにはステップ1003にて得られた第一種SVMの学習結果のパラメータを格納する。
次に1005において、第二種SVM生成・登録部335が、該種別(いまステップ1004で登録した第一種SVMの分類対象の種別)とは異なる各種別について、第二種のSVMを生成する。詳細は以下の図11に示す。
図11は、第二種SVM生成・登録部335による第二種のSVMの生成および図5のSVM DBへの登録の処理内容を示す。なお、本図11の処理は、図10のステップ1001〜1004で作成・登録した第一種SVMで分類対象にしていた種別(第一該種別と呼ぶ)をペアの一方とし、分類したい種別のうちその他の種別(第二該種別と呼ぶ)をペアのもう一方とするペアを全て求め、それらの各ペアごとにステップ1101〜1104を繰り返すものである。
なお、既に第一該種別と第二該種別を分類するSVMが生成済みの場合には、本処理はスキップする。例えば、第一該種別が「決裁文書」で第二該種別が「設計書」の第二種SVMが生成済みなら、第一該種別が「設計書」で第二該種別が「決裁文書」の第二種SVMの生成はスキップする。
ステップ1101〜1104の処理はステップ1001〜1004と同様の処理である。ただし、ステップ1101〜1104では、第一該種別と第二該種別とを分類する第二種SVMを生成・登録する点が異なる。まず、ステップ1101において、第一該種別の正例と第二該種別の正例から特徴語を取り出す。すなわち、図4の文書種別DBの第一該種別と第二該種別に該当する各エントリの正例フィールドからそれぞれ文書名を取得し、ファイルサーバ101からそれらの第一該種別の文書と第二該種別の文書を取り出し、取り出した文書から特徴語を抽出する。抽出方法は、ステップ901と同様である。
ステップ1102において、ステップ1101で抽出した特徴語から、第一該種別と第二該種別のそれぞれの正例の特徴ベクトルを生成する。生成方法は、ステップ1002と同様である。次にステップ1103において、第一該種別の正例と第二該種別の正例の特徴ベクトルを学習用データとして、本学習器303の一部であるSVMに与え、SVMが学習する。ステップ1104において、その学習結果を図5のSVM DBに登録する。具体的には、新しくエントリを作成し、IDフィールドには新規のIDを作成して格納し、文書種別フィールドには図4の文書種別DBの第一該種別と第二該種別に当たるエントリのIDフィールドにある文書種別IDを格納し、特徴語フィールドにはステップ1101にて得られた特徴語を格納し、パラメータフィールドにはステップ1103にて得られたSVMの学習結果のパラメータを格納する。ステップ1004との違いは、文書種別IDフィールドに二つの文書種別IDが含まれることであり、これにより当該エントリの特徴語とパラメータで規定されるSVMが第二種SVMであることが分かる。
次に、追加学習について説明する。上記に示した実施の形態では、学習の担当者がいて、該担当者がもっぱら分類対象の種別を登録し学習文書を集めて学習する場合の手順や処理内容を示した。しかしながら、一旦学習して、一般の利用者が本実施形態の文書分類機能を文書分類のレコメンドとして使いだすと、当該利用者が学習用文書を登録できるようにしたほうが、適正な学習用文書を収集でき、学習の担当者の作業も軽減できる。例えば、利用者が分類対象の文書を本実施形態の分類機能を使って分類したとき、レコメンドされた文書種別が正しいのなら利用者が該文書種別の正例として当該文書を追加で登録し、レコメンドされた文書種別が誤っているのなら利用者が判断した適正な文書種別の正例として当該文書を追加で登録することで、前記担当者が学習用文書を追加で集める作業を軽減できる。
以下、学習の担当者による文書種別の登録と学習後に、利用者により新たに学習に利用できる文書が判明した場合に、該文書を利用して追加の学習を行う実施形態を説明する。
図12は、追加学習を行う実施形態の全体構成を示す。図12では不図示だが、学習・分類器1204は、図3に示した負例収集器302、学習器303、各種DB304、および分類器305の構成を全て含むものとする。また、学習・分類器1204では、学習の担当者により少なくとも1回は分類対象の文書種別に関する学習用文書306が与えられて学習が行われており、各種DB304(図4,5)には学習により登録されたエントリがあるものとする。さらに、学習・分類器1204は、追加学習用文書登録部1205を備え、これにより利用者は追加学習用文書の登録を行うことができる。
ファイルサーバ1202は、図3のファイルサーバ301に相当する。ファイル種別DB1203は、ファイルサーバ1202の一部となるDBであり、利用者が判断した文書の種別を格納する。図13に、その詳細を示す。利用者PC1201は、利用者が使用するPCである。利用者PC1201は、利用者の所定の操作により、不図示のネットワーク経由でファイルサーバ1202に接続して、該ファイルサーバに文書を登録したり、該ファイルサーバ内の文書を編集することができる。また、利用者PC1201は、利用者の所定の操作により、学習・分類器1204に接続して、指定した文書の種別の分類を行うことができる。利用者は、学習・分類器1204から提示された種別が当該文書の種別として適正だと判断した場合、その文書をその種別の正例の追加学習用文書として図13のファイル種別DB1203に登録できる。逆に、学習・分類器1204から提示された種別が当該文書の種別として適正ではないと判断した場合、その文書の適正な種別を利用者自らが判断して、該判断した種別を示す情報と共に追加学習用文書として図13のファイル種別DB1203に登録できる。この追加学習用文書のファイル種別DB1203への登録は、利用者PC1201から追加学習用文書登録部1205を利用して行うことができるが、その方式や手順はどのようなものでもよい。
図13は、利用者が利用者PC1201から登録した追加学習用文書の情報を格納する図12のファイル種別DB1203の構成を示す。一つのエントリは、利用者が登録した一つの追加学習用文書に当たる。文書名のフィールドは、ファイルサーバ1202でのファイル名を示す。仮種別のフィールドは、本実施形態の学習・分類器1204が当該文書名の文書を分類した結果、類推した種別である。登録種別のフィールドは、ファイルサーバ1202および学習・分類器1204の利用者が判断した文書種別を格納する。学習・分類器1204が類推した種別(仮種別のフィールドに格納された種別)が当該文書の種別として適正であると利用者が判断した場合、登録種別のフィールドには、仮種別のフィールドに格納された種別と同じ種別が利用者により格納される。一方、学習・分類器1204が類推した種別(仮種別のフィールドに格納された種別)が当該文書の種別として適正ではないと利用者が判断した場合、登録種別のフィールドには、利用者が判断した種別(仮種別のフィールドに格納された種別とは異なる種別)が利用者により格納される。この登録種別のフィールドに格納された種別は、利用者が判断した当該文書の適正な種別であると見ることができるから、当該文書は当該登録種別の正例の追加学習用文書として扱える。登録日のフィールドは、利用者が登録種別にある種別と判断した日付を示す。登録者のフィールドは、登録種別を判断した利用者を特定する利用者IDを格納する。
図14は、図8の学習用文書登録画面に代わる追加学習用文書登録画面を示す。図8の学習用文書登録画面と同様に、学習の担当者が、図6のリストボックス601にて文書種別を指定して、学習用文書登録ボタン604をクリックすると本画面が現れる。
図14の画面において、リストボックス1401は、以前に学習に使った該種別の正例を示したフィールドである。図8のリストボックス801と同様に、これまでに正例として登録されている文書名が示される。リストボックス1402は、以前に学習に使った該種別の負例を示したフィールドである。図8のリストボックス803と同様に、これまでに負例として登録されている文書名が示される。リストボックス1403は、新たに追加して学習する正例の候補を示したフィールドである。図13の登録種別が当該種別(図6のリストボックス601にて指定した文書種別)に当たる文書名が表示される。リストボックス1404は、新たに追加して学習する負例の候補を示したフィールドである。図14の画面が表示された当初は、リストボックス1404は空白である。
削除ボタン1405は、以前に学習に使った該種別の正例のリスト1401から正例を削除する場合に利用するボタンである。リストボックス1401にて削除する正例を指定し、本ボタン1405をクリックすると該正例が削除される。削除ボタン1406は、以前に学習に使った該種別の負例のリスト1402から負例を削除する場合に利用するボタンである。リストボックス1402にて削除する負例を指定し、本ボタン1406をクリックすると該負例が削除される。削除ボタン1407は、追加学習に使う該種別の正例のリスト1403から正例を削除する場合に利用するボタンである。リストボックス1403にて削除する正例を指定し、本ボタン1407をクリックすると該正例が削除される。削除ボタン1408は、追加学習に使う該種別の負例のリスト1404から負例を削除する場合に利用するボタンである。リストボックス1404にて削除する負例を指定し、本ボタン1408をクリックすると該負例が削除される。
自動選択ボタン1409は、追加学習に使う該種別の負例を自動的に選択することを指定するボタンである。選択する手順は図9に示した方法を採ればよいが、それ以外に、図13の登録種別が該種別(いま図14の画面で処理対象としている種別)ではない文書からランダムに選択してリストボックス1404に負例として表示する方法や、これらの二つを組み合わせる方法がある。また、利用者が、図13のファイル種別DBに、負例を登録できるようにしても良い。例えば、ある文書について学習・分類器1204が提示した種別(仮種別)が「決済文書」であるが、利用者は当該文書を決済文書の負例として登録すべきものと判断した場合、登録種別のフィールドに「非決済文書」と登録してもよい。このように負例として登録された文書は、図14の画面が表示された当初からリストボックス1404に表示される。
以上のように、学習の担当者は、図14の画面のリストボックス1403の各文書を確認することで、利用者により追加された追加学習用文書(正例)を確認できる。これらの正例のうち、学習の担当者が精査して、当該種別の正例として相応しくないと判断したものについては削除ボタン1407により削除できる。また、学習の担当者は、自動選択ボタン1409をクリックすることで当該種別の負例をリストボックス1404に自動で追加できる。学習の担当者は、図14の画面のリストボックス1404の追加学習用文書(負例)を確認し、学習の担当者が精査して、当該種別の負例として相応しくないと判断したものについては削除ボタン1408により削除できる。
1410は登録ボタンである。本ボタン1410を押すことで、リストボックス1401と1403に指定した正例とリストボックス1402と1404に指定した負例が指定種別の学習用文書として、図4の文書種別DBの該当するエントリの正例フィールドと負例フィールドに登録される。この後、図6の学習ボタン605を押して学習させることにより、追加の学習用文書を利用した追加学習が行われる。1411はキャンセルボタンであり、これを押すことで、正例と負例を登録することなく、学習用文書登録を終了することができる。
以上で学習の過程(すなわち、第一種SVMと第二種SVMの構成方法)を説明した。次に、明示的には学習しなかった該当なしを含めた分類器305における文書種別分類の処理内容を説明する。
図15は、分類の処理手順を示す。上述の学習により、図5のSVM DBに第一種SVMと第二種SVMのエントリが既に登録されているので、利用者が分類したい対象文書307を指定して分類を指示すると、分類器305がそれらの第一種SVMと第二種SVMを利用して分類を実行する。
まずステップ1501において、分類器305の特徴語抽出部351が、分類対象の文書307から特徴語を抽出する。抽出方法はステップ901と同じである。ステップ1502において、第二種SVMによる分類部352が、第二種のSVMを使って、該文書がどの種別の可能性が高いか多数決で判定する。
ステップ1502の処理の詳細は、以下の通りである。まず、図5のSVM DBから第二種のSVMを全て探し出す。第二種のSVMは、文書種別フィールドに文書種別が二つあることで判定できる。次に、各第二種SVMについて、図5の特徴語フィールドから特徴語を取出し、ステップ1501で抽出した該分類対象文書の特徴ベクトルを生成し、ステップ1002と同様の方法で特徴ベクトルを生成し、パラメータフィールドからパラメータを取り出し、前記生成した特徴ベクトルとともに当該第二種SVMに与えて、当該第二種SVMが分類対処としている2つの種別のうちどちらの種別になるかを判定する。この判定を、図5に登録されている全ての第二種SVMにより実行する。各第二種SVMでの判定の結果を、分類対象の各種別ごとに集計し、上位の種別を決める。例えば、分類対象の種別が5種別あれば、異なる種別のペアの数は10あるので、それらのペアに対応して10の第二種SVMがあることになる。それら10の第二種SVMが、それぞれ判定結果を1票ずつ入れるので、総計は10の得票となる。また、ある1つの種別については、その種別とそれ以外の種別とのペアは、「分類対象の種別の総数−1」個あるから、分類対象の種別が5種別であれば、1つの種別に対して最高得票数は4となる。このような第二種SVMの判定結果の得票で多数決を取り、上位の種別を決める。上位の種別の決め方としては、1位の種別のみを採用する、上位2位までの種別を採用する、最高得票の過半数までの種別を採用する、などの決め方がある。
ステップ1503にて、第一種SVMによる確認部353が、ステップ1502で決めた上位の種別について、それぞれ当該種別か否かを判定する第一種のSVMを利用して、当該種別と判定されるかを確認する。確認できない場合には、「該当なし」として、分類の推定順位を決める。例えば、ステップ1502の多数決で第一位種別と第二位種別があった場合、次のステップ1503では、第一位種別であるか否かを判定する第一種SVMでの判定と、第二位種別であるか否かを判定する第一種SVMでの判定を行う。この第一種SVMを利用した判定では、「第一位種別であり、第二位種別以外である」、「第一位種別以外であり、第二位種別以外である」、「第一位種別以外であり、第二位種別である」、「第一位種別であり、第二位種別である」の可能性がある。「第一位種別であり、第二位種別以外である」場合は、種別類推の順番は、「第一位種別」、「該当なし」、「第二位種別」の順番として、当該文書の種別の分類結果を利用者に提示する。「第一位種別以外であり、第二位種別以外である」場合は、種別類推の順番は、「該当なし」、「第一位種別」、「第二位種別」の順番として、当該文書の種別の分類結果を利用者に提示する。「第一位種別以外であり、第二位種別である」場合は、種別類推の順番は、「第二位種別」、「該当なし」「第一位種別」、の順番として、当該文書の種別の分類結果を利用者に提示する。
なお、上記実施形態では、第二種SVMを、分類対象の種別の全てのペアに対して当該ペアの二つの種別のうちどちらかであるかを分類するSVM(言わば「1対1」方式)として構成し、分類の際には多数決で種別を判定した。これに対し、「1対他」方式で第二種SVMを構成しても良い。具体的には、分類対象の各種別について、該種別を第一該種別とし、その他の全種別を合わせたものを第二該種別として、第二種SVMを生成する。例えば、A,B,C,D,Eの5種別が分類対象である場合、(1)AであるかB+C+D+Eであるかを分類するSVM、(2)BであるかA+C+D+Eであるかを分類するSVM、(3)CであるかA+B+D+Eであるかを分類するSVM、(4)DであるかA+B+C+Eであるかを分類するSVM、(5)EであるかA+B+C+Dであるかを分類するSVM、の5つを第二種SVMとして生成する。なお、上記の+は論理和である「または」の意味である。このような第二種SVMを生成する際、学習用文書としては各種別の正例を用いればよい。例えば、上記の(1)の第二種SVMであれば、種別Aの正例を第一該種別の正例とし、種別B,C,D,Eのそれぞれの正例を合わせて第二該種別の正例として、図11の処理で学習させて第二種SVMを生成すればよい。
分類については、分類対象文書の特徴語を取り出し、まず全ての第二種別SVMを使って種別を判定する。その判定で1つの種別に判定された場合、該種別か否かを第一種SVMで確認する。第一種SVMでも当該種別に判定されたら、当該文書の分類結果は当該種別とする。第二種SVMによる判定で1つの種別に決まらなかった場合は、第一種SVMで確認し、1つに決まれば当該種別と判定し、複数に決まれば「該当なし」とする。
本発明の文書分類技術は、機密情報の漏洩検知の他、文書重要度に応じたファイル格納先の選択など、利用範囲は広い。なお、本発明では文書をターゲットとしていたが、複数カテゴリに分類するSVM全般に適用できる分類の学習に利用できる。
301…ファイルサーバ、302…負例収集器、303…学習器、304…各種DB、305…分類器、306…学習用文書、307…分類対象文書、601…文書種別が並ぶリストボックス、602…文書種別追加ボタン、603…文書種別削除ボタン、604…学習用文書登録ボタン、605…学習ボタン、606…終了ボタン、701…文書種別名称入力テキストボックス、702…登録ボタン、703…キャンセルボタン、801…正例が並ぶリストボックス、802…指定した正例の削除ボタン、803…負例が並ぶリストボックス、804…負例の自動選択ボタン、805…指定した負例の削除ボタン、806…登録ボタン、807…キャンセルボタン、1201…利用者PC、1202…ファイルサーバ…301、1203…ファイル種別DB、1204…学習・分類器、1205…追加学習用文書登録部、1401…前回の正例が並ぶリストボックス、1402…前回の負例が並ぶリストボックス、1403…追加の正例が並ぶリストボックス、1404…追加の負例が並ぶリストボックス、1405…指定した前回の正例の削除ボタン、1406…指定した前回の負例の削除ボタン、1407…指定した追加の正例の削除ボタン、1408…指定した追加の負例の削除ボタン、1409…追加負例の自動選択ボタン、1410…登録ボタン、1411…キャンセルボタン。

Claims (5)

  1. 文書を、指定された複数の種別に分類する文書分類システムであって、
    分類対象の各種別に対して、当該種別であるか否かを分類する第一種のSVM(Support Vector Machine)と、
    分類対象の種別の全てのペアに対して、当該ペアの2つの種別のうちのどちらであるかを分類する第二種のSVMと、
    指定された分類対象の文書に対して、前記第二種のSVMを利用して、分類対象の種別の全てのペアに対して当該ペアの2つの種別のうちのどちらであるかを分類し、それらの結果から多数決で上位の種別を求める手段と、
    求めた上位の種別に対して、前記第一種のSVMを利用して、当該種別であるか否かを分類し、その分類結果から、前記分類対象の文書の種別を判定する手段と
    を備え、前記第二種のSVMによる多数決で上位の種別と判定されても、前記第一種のSVMにより当該種別では無いと判定された場合は、「該当無し」と判定する
    ことを特徴とする文書分類システム。
  2. 文書を、指定された複数の種別に分類する文書分類システムであって、
    分類対象の各種別に対して、当該種別であるか否かを分類する第一種のSVM(Support Vector Machine)と、
    分類対象の全種別から一種別とその他の全種別との組み合わせを全て作り、それらの組み合わせ毎に、該組み合わせの一種別とその他の全種別のどちらであるかを分類する第二種のSVMと、
    指定された分類対象の文書に対して、前記第二種のSVMを利用して、前記組み合わせの全てについて、該組み合わせの一種別とその他の全種別のどちらであるかを分類し、それらの結果から種別を求める手段と、
    求めた種別に対して、前記第一種のSVMを利用して、当該種別であるか否かを分類し、その分類結果から、前記分類対象の文書の種別を判定する手段と
    を備え、前記第二種のSVMにより判定された種別であっても、前記第一種のSVMにより当該種別では無いと判定された場合は、「該当無し」と判定する
    ことを特徴とする文書分類システム。
  3. 請求項1または2に記載の文書分類システムにおいて、
    与えられた正例の文書から特徴語を抽出し、種々の種別の文書が格納されているファイルサーバから負例候補文書を取り出し、該負例候補文書から、該正例の特徴語をなるべく含まず、かつ該正例の特徴語以外の特徴語を多く含む文書を負例として選択し、それらの正例および負例の文書を学習用文書として学習させることにより、前記第一種SVMを生成することを特徴とする文書分類装置。
  4. 請求項1から3の何れか1つに記載の文書分類システムにおいて、
    前記分類対象の文書がオフィス文書であり、
    前記SVMを生成する際に、文書から特徴語を抽出するとき、前記オフィス文書中のレイアウト上の特徴のあるテキスト部分から特徴語を抽出することを特徴とする文書分類装置。
  5. 文書を、指定された複数の種別に分類する文書分類方法であって、
    第一種SVM(Support Vector Machine)を生成する手段が、分類対象の各種別に対して、当該種別であるか否かを分類する第一種のSVMを生成するステップと、
    第二種SVMを生成する手段が、分類対象の種別の全てのペアに対して、当該ペアの2つの種別のうちのどちらであるかを分類する第二種のSVMを生成するステップと、
    第二種SVMによる分類部が、指定された分類対象の文書に対して、前記第二種のSVMを利用して、分類対象の種別の全てのペアに対して当該ペアの2つの種別のうちのどちらであるかを分類し、それらの結果から多数決で上位の種別を求めるステップと、
    第一種SVMによる確認部が、求めた上位の種別に対して、前記第一種のSVMを利用して、当該種別であるか否かを分類し、その分類結果から、前記分類対象の文書の種別を判定するステップと
    を備え、前記第二種のSVMによる多数決で上位の種別と判定されても、前記第一種のSVMにより当該種別では無いと判定された場合は、「該当無し」と判定する
    ことを特徴とする文書分類方法。
JP2012248089A 2012-11-12 2012-11-12 文書分類システムおよび方法 Pending JP2014096086A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012248089A JP2014096086A (ja) 2012-11-12 2012-11-12 文書分類システムおよび方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012248089A JP2014096086A (ja) 2012-11-12 2012-11-12 文書分類システムおよび方法

Publications (1)

Publication Number Publication Date
JP2014096086A true JP2014096086A (ja) 2014-05-22

Family

ID=50939093

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012248089A Pending JP2014096086A (ja) 2012-11-12 2012-11-12 文書分類システムおよび方法

Country Status (1)

Country Link
JP (1) JP2014096086A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017027495A (ja) * 2015-07-27 2017-02-02 Kddi株式会社 検証装置、分類システム、検証方法、分類方法、及びコンピュータプログラム
CN107209754A (zh) * 2014-12-10 2017-09-26 凯恩迪股份有限公司 在大型非结构化数据字段中的技术和语义信号处理
JP2019053730A (ja) * 2017-09-12 2019-04-04 ネイバー コーポレーションNAVER Corporation 文書のカテゴリ分類のためのディープラーニング学習方法およびそのシステム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006039862A (ja) * 2004-07-26 2006-02-09 Mitsubishi Electric Corp データ類別装置
JP2006072513A (ja) * 2004-08-31 2006-03-16 Fuji Xerox Co Ltd 文書処理装置およびプログラム
JP2006099565A (ja) * 2004-09-30 2006-04-13 Kddi Corp コンテンツ識別装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006039862A (ja) * 2004-07-26 2006-02-09 Mitsubishi Electric Corp データ類別装置
JP2006072513A (ja) * 2004-08-31 2006-03-16 Fuji Xerox Co Ltd 文書処理装置およびプログラム
JP2006099565A (ja) * 2004-09-30 2006-04-13 Kddi Corp コンテンツ識別装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107209754A (zh) * 2014-12-10 2017-09-26 凯恩迪股份有限公司 在大型非结构化数据字段中的技术和语义信号处理
CN107209754B (zh) * 2014-12-10 2021-07-13 凯恩迪股份有限公司 在大型非结构化数据字段中的技术和语义信号处理
JP2017027495A (ja) * 2015-07-27 2017-02-02 Kddi株式会社 検証装置、分類システム、検証方法、分類方法、及びコンピュータプログラム
JP2019053730A (ja) * 2017-09-12 2019-04-04 ネイバー コーポレーションNAVER Corporation 文書のカテゴリ分類のためのディープラーニング学習方法およびそのシステム

Similar Documents

Publication Publication Date Title
US20180173788A1 (en) System And Method For Providing Inclusion-Based Electronically Stored Information Item Classification Suggestions With The Aid Of A Digital Computer
CA2772082C (en) Generating a reference set for use during document review
US8620849B2 (en) Systems and methods for facilitating open source intelligence gathering
CN107609052A (zh) 一种基于语义三角的领域知识图谱的生成方法及装置
US20060218140A1 (en) Method and apparatus for labeling in steered visual analysis of collections of documents
US11537601B2 (en) Accessing datasets
CN107220745A (zh) 一种意图行为数据的识别方法、系统及设备
Goncalves et al. Gathering alumni information from a web social network
JP6453502B1 (ja) 特許調査支援方法
WO2008062822A1 (fr) Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte
JP2014096086A (ja) 文書分類システムおよび方法
Andrews et al. Visualising computational intelligence through converting data into formal concepts
JP2014102625A (ja) 情報検索システム、プログラム、および方法
US20220138259A1 (en) Automated document intake system
Rubya et al. HAIR: Towards developing a global self-updating peer support group meeting list using human-aided information retrieval
JP2011053881A (ja) 文書管理システム
KR100809751B1 (ko) 문서분석 시스템 및 그 방법
Prasad et al. Mining on social media
CN105138544B (zh) 一种重塑逻辑演绎链的搜索方法
Narwal et al. Web informative content identification and filtering using machine learning technique
CN117648635B (zh) 敏感信息分类分级方法及系统、电子设备
Shanmugarajah et al. WoKnack–A Professional Social Media Platform for Women Using Machine Learning Approach
Salma Analyzing online public sentiment toward corporate crisis in the age of big data and automation
de Jesus et al. Enriching an Authority File of Scientific Conferences with Information Extracted from the Web.
Ur-Rahman Textual Data Mining for Knowledge Discovery and Data Classification: A Comparative Study

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20150409

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150417

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150903

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160906

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170228