JP4170296B2 - 事例分類装置および方法 - Google Patents
事例分類装置および方法 Download PDFInfo
- Publication number
- JP4170296B2 JP4170296B2 JP2004569581A JP2004569581A JP4170296B2 JP 4170296 B2 JP4170296 B2 JP 4170296B2 JP 2004569581 A JP2004569581 A JP 2004569581A JP 2004569581 A JP2004569581 A JP 2004569581A JP 4170296 B2 JP4170296 B2 JP 4170296B2
- Authority
- JP
- Japan
- Prior art keywords
- category
- feature
- document
- case
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 56
- 238000000605 extraction Methods 0.000 claims description 55
- 238000011156 evaluation Methods 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 19
- 230000005484 gravity Effects 0.000 claims description 12
- 239000013598 vector Substances 0.000 description 105
- 238000010586 diagram Methods 0.000 description 24
- 238000012545 processing Methods 0.000 description 24
- 239000004065 semiconductor Substances 0.000 description 23
- 230000003287 optical effect Effects 0.000 description 11
- 230000007123 defense Effects 0.000 description 9
- 230000010365 information processing Effects 0.000 description 8
- 230000009977 dual effect Effects 0.000 description 6
- 230000005611 electricity Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005422 blasting Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 239000003337 fertilizer Substances 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000011089 mechanical engineering Methods 0.000 description 1
- 238000005272 metallurgy Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005057 refrigeration Methods 0.000 description 1
- 235000014102 seafood Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
本発明は、与えられた事例をカテゴリに分類する装置および方法に関する。本発明は、特に、文書の自動分類や画像認識等の分野において、事例をカテゴリに分類するために利用される。
【背景技術】
【0002】
文書を分類する際、人手で事例(文書)を分類した正解事例(正解文書群)をあらかじめ準備しておき、それを用いて未知の事例(未知文書)を分類する多くの方法がこれまで提案されてきた。これらの方法では、特徴抽出部、分類ルール生成器、および分野判定器がしばしば利用される。
【0003】
図1は、特徴抽出部を示している。図1の特徴抽出部101は、事例(文書111)を入力として、特徴ベクトル112(文書の特徴を表すベクトル)を出力する。文書分類においては、文書中に現れる各単語(特徴語)を特徴ベクトル空間の各次元wi(i=1,2,3,...)とし、各単語の出現数等を特徴ベクトルの各要素fiとすることが多い。例えば、図2のような文書が入力された場合、図3のような特徴ベクトルが出力される。
【0004】
図4は、分類ルール生成器を示している。図4の分類ルール生成器121は、正解事例(特徴ベクトルとカテゴリのペア)の集合131を入力として、分類ルール132を出力する。
【0005】
分類ルール132は、特徴ベクトルで表現された事例をカテゴリに分類するためのルールであり、分類ルール生成器121の種類によって形式が異なる。この分類ルール132としては、ベクトルモデル、ナイーブベイズ(naive Bayes )、決定木、決定リスト、サポートベクトルマシン(support vector machine,SVM)、およびブースティング(boosting)のように、様々なものがこれまでに提案されている。
【0006】
また、入力される特徴ベクトルとカテゴリのペアとしては、例えば、図5のようなものが用いられる。図5においては、特徴ベクトルがカテゴリ“ソフトウェア”に対応付けられている。
【0007】
図6は、分野判定器を示している。図6の分野判定器141は、特徴ベクトル151で表現された事例を入力として、分類ルール132を用いることで、その事例がそれぞれのカテゴリciに属する確信度piのリスト152を求める。例えば、図7のような特徴ベクトルが入力された場合、図8のような確信度のリストが出力される。
【0008】
図9は、このような特徴抽出部、分類ルール生成器、および分野判定器を利用した、未知の事例(文書)の分類方法を示している。図9の分類ルール生成部161は、特徴抽出部101および分類ルール生成器121を備え、分野判定部162は、特徴抽出部101および分野判定器141を備える。
【0009】
まず、カテゴリ体系Sのカテゴリ(α,β,γ)に分類された正解事例(正解文書)の集合171が分類ルール生成部161に入力され、特徴抽出部101により特徴ベクトルの集合が生成される。そして、その特徴ベクトルの集合が分類ルール生成器121に入力され、分類ルール132が生成される。
【0010】
次に、未知の事例(未知文書172)が分野判定部162に入力され、特徴抽出部101により特徴ベクトルに変換される。そして、その特徴ベクトルが分野判定器141に入力され、未知文書172がα、β、およびγのそれぞれのカテゴリに属する確信度173が求められる。
【0011】
このような分類方法の応用分野は多数あり、文書分類に関して言えば、文書の特徴として単語を用いる方法として、以下のような例が挙げられる。
(1)文書を特徴ベクトルで表現し、SVMという学習方式で分類する(例えば、非特許文献1参照)。
(2)上記のような方式に加えて、適合フィードバックを用いて精度を向上させる(例えば、特許文献1参照)。
(3)未知文書に対して、特定のカテゴリの文書から抽出した単語に基づいた関連度と、一般の文書から抽出した単語に基づいた関連度とを比較して、未知文書が特定のカテゴリに属するかどうかを決める(例えば、特許文献2参照)。
【0012】
また、文書分類に関して、単語の特徴以外を用いた方法としては、以下のような例が挙げられる。
(1)連言を用いることによって、精度向上を図る(例えば、特許文献3参照)。
(2)SGML(Standard Generalized Mark-up Language )文書からタグで囲まれた部分を抽出し、それを特徴として用いて分類を行う(例えば、特許文献4参照)。
(3)リンク情報を特徴に加えることによって、精度向上を図る(例えば、特許文献5、6、および7参照)。
(4)シソーラス辞書を利用して、文書中に出現した単語の意味カテゴリを特徴として学習を行うことによって、精度向上を図る(例えば、特許文献8参照)。
【0013】
しかしながら、上述した従来の文書分類方法には、次のような問題がある。
文書を必要となるカテゴリ体系に分類するためには、あらかじめ十分な量の正解文書を人手で作成しておく必要がある。正解文書が少量の場合に分類精度が低い原因としては、分類対象の未知文書に出現する特徴(単語等)が正解文書に現れないことや、現れたとしてもその出現数が少なく統計的な意味を持たないため、有効であるはずの未知文書に現れる特徴を分野判定の特徴として使用できないことが考えられる。
【0014】
例えば、“NATO首脳会議、イラク攻撃に対する各国間の...”のような未知文書を分類することを考える。単語を特徴とした場合、単語“NATO”は、一般的に“国際”や“軍事”等に関するものである。しかしながら、従来の分類方法を用いた場合は、正解文書中に単語“NATO”が出現していなければ、単語“NATO”はこの文書を分類する特徴としてまったく寄与しなくなる。正解文書が少ない場合には、このように、未知文書に出現する特徴が正解文書に出現しないという場合が多くなる。
【0015】
また、上述した従来の方法のうち、連言やリンク情報等を特徴として加えて分類を行う方法を採用したとしても、正解文書が少ない場合には未知文書に出現する特徴が正解文書に出現しないので、問題の解決にはならない。
【0016】
さらに、上述した従来の方法のうち、シソーラス辞書を用いた方法は、未知文書の特徴のうち正解文書に出現しない単語を特徴として分野判定に寄与させることができるという点で優れているが、シソーラス辞書に登録されていない単語が分類対象の未知文書に出現した場合には無力である。この場合に対処するためには大規模なシソーラス辞書を準備する必要があるが、そのコストは非常に高くつく。
【0017】
このように、従来の文書分類方法では、正解文書が少量しかない場合には未知文書に出現する特徴が正解文書に出現しにくいため、分類精度が低い、あるいは、精度を上げるためにコストのかかる辞書作成が必要になる等の問題がある。
【非特許文献1】
Thorsten Joachims,“Text Categorization with Support Vector Machines:Learning with Many Relevant Features”,[online], In Proceedings of the European Conference on Machine Learning, Springer, 1998,[200 3年2月17日検索], インターネット<URL:http://www.cs.cornell.edu/People/tj/publications/joachims_98a.pdf>
【特許文献1】
特開平09−026963号公報
【特許文献2】
特開2000−250916号公報
【特許文献3】
特開平11−316763号公報
【特許文献4】
特開平10−116290号公報
【特許文献5】
特開2000−181936号公報
【特許文献6】
国際公開第99/14690号パンフレット
【特許文献7】
特開平10−254899号公報
【特許文献8】
特開平11−039313号公報
【発明の開示】
【0018】
本発明の課題は、コストのかかる大規模なシソーラス辞書等を用意することなく、正解事例が少量の場合にも高い精度で事例を分類することができる事例分類装置およびその方法を提供することである。
【0019】
本発明の第1の局面において、第1の事例分類装置は、格納部、入力部、特徴抽出部、相関付与部、分野判定器、および出力部を備える。格納部は、第1のカテゴリ体系の各カテゴリに分類された事例集合から抽出された各特徴に対応づけて第1のカテゴリ体系の各カテゴリとの関連の強さを表す相関情報を登録した相関辞書と、事例を第2のカテゴリ体系のカテゴリに分類するため、未知事例に含まれる特徴に基づき関連の強さが所定基準を満たす第1のカテゴリ体系の特定カテゴリに対して第2のカテゴリ体系の特定カテゴリが対応づけられた分類ルールを格納する。入力部は、未知事例の入力を受け付ける。特徴抽出部は、未知事例から特徴を抽出する。相関付与部は、相関辞書を参照して、未知事例から抽出された特徴と第1のカテゴリ体系の各カテゴリとの相関情報を取得し、取得した相関情報を未知事例から抽出された特徴に付加する。分野判定器は、第1のカテゴリ体系の各カテゴリの相関情報が付加された未知事例の特徴を用いて、未知事例が第1のカテゴリ体系の各カテゴリに属するか否かを判定するための判定値を算出し、分類ルールにより、判定値が所定基準を満たす第1のカテゴリ体系のカテゴリが存在するならば、未知事例を第1のカテゴリ体系のカテゴリに対応づけられた第2のカテゴリ体系のカテゴリに分類する。出力部は、未知事例の分類結果を出力する。
【0020】
本発明の第2の局面において、第1の事例分類装置は、上記相関辞書を生成する相関抽出部をさらに備える。特徴抽出部は、第1のカテゴリ体系の各カテゴリに分類された事例集合から特徴を抽出し、相関抽出部は、事例集合から抽出された特徴と第1のカテゴリ体系の各カテゴリとの関連の強さを計算して、相関辞書を生成する。
【0021】
本発明の第3の局面において、第1の事例分類装置は、上記分類ルールを生成する分類ルール生成器をさらに備える。特徴抽出部は、第2のカテゴリ体系に対する正解事例から特徴を抽出し、抽出された特徴および正解事例が属すべき第2のカテゴリ体系の特定カテゴリのペアを出力し、相関付与部は、上記相関辞書を参照して、正解事例から抽出された特徴と第1のカテゴリ体系の各カテゴリとの相関情報を取得し、取得した相関情報を正解事例から抽出された特徴に付加する。分類ルール生成器は、相関情報が付加された正解事例の特徴を用いて、分類ルールを生成する。
【0022】
本発明の第4の局面において、第2の事例分類装置は、格納部、入力部、特徴抽出部、判定結果付与部、分野判定器、および出力部を備える。格納部は、事例を第1のカテゴリ体系のカテゴリに分類するための第1の分類ルールと、事例を第2のカテゴリ体系のカテゴリに分類するための第2の分類ルールを格納する。入力部は、未知事例を入力する。特徴抽出部は、未知事例から特徴を抽出する。判定結果付与部は、未知事例から抽出された特徴および第1の分類ルールを用いて、未知事例が第1のカテゴリ体系の各カテゴリに属する確信度を判定し、確信度の情報を未知事例から抽出された特徴に付加する。分野判定器は、確信度の情報が付加された未知事例の特徴を用いて、第2の分類ルールにより未知事例を第2のカテゴリ体系のカテゴリに分類する。出力部は、未知事例の分類結果を出力する。
【0023】
本発明の第5の局面において、第2の事例分類装置は、上記第2の分類ルールを生成する分類ルール生成器をさらに備える。特徴抽出部は、第2のカテゴリ体系に対する正解事例から特徴を抽出し、判定結果付与部は、正解事例から抽出された特徴および第1の分類ルールを用いて、正解事例が第1のカテゴリ体系の各カテゴリに属する確信度を判定し、確信度の情報を正解事例から抽出された特徴に付加する。分類ルール生成器は、確信度の情報が付加された正解事例の特徴を用いて、第2の分類ルールを生成する。
【発明を実施するための最良の形態】
【0024】
以下、図面を参照しながら、本発明の実施の形態を詳細に説明する。
本実施形態では、あるカテゴリ体系へ事例を分類する際に、別のカテゴリ体系へ分類された事例の特徴の出現パターンやそのカテゴリ体系への分類ルールを利用することで、正解事例が少量の場合にも高い精度で分類を行う。以下では、主として文書を分類する場合の実施形態について説明する。
【0025】
図10は、本実施形態の文書分類システムの構成図である。図10の文書分類システムは、特徴抽出部201、相関抽出部202、分類ルール生成部203、および分野判定部204を備える。分類ルール生成部203は、特徴抽出部201、相関付与部205、および分類ルール生成器206を含み、分野判定部204は、特徴抽出部201、相関付与部205、および分野判定器207を含む。
【0026】
この文書分類システムの目的は、未知文書215をカテゴリ体系Sのカテゴリ(α,β,γ)に分類することである。そのために、別のカテゴリ体系Σの各カテゴリ(A,B,C,D)に分類されている文書の集合211の情報を用いる。
【0027】
まず、特徴抽出部201は、文書集合211の各文書から特徴を抽出し、相関抽出部202は、その特徴とカテゴリ体系Σの各カテゴリとの関連の強さを計算して、特徴−カテゴリ相関辞書212に登録する。
【0028】
次に、分類ルール生成部203は、特徴−カテゴリ相関辞書212に登録された情報を参照しながら、正解文書の集合213から分類ルール214を生成する。このとき、各正解文書に出現した特徴に応じて、上記関連の強さの評価値を特徴として各正解文書に付与した後に、分類ルール214を生成する。
【0029】
そして、分野判定部204は、特徴−カテゴリ相関辞書212に登録された情報を参照しながら、分類ルール214を用いて、未知文書215をカテゴリ体系Sのカテゴリに分類し、未知文書215がそれぞれのカテゴリに属する確信度216を求める。このとき、未知文書215に出現した特徴に応じて、上記関連の強さの評価値を特徴として未知文書215に付与した後に、分類ルール214を用いて未知文書215を分類する。
【0030】
このような特徴−カテゴリ相関辞書212を用いることにより、未知文書215に出現したが正解文書213に現れなかった特徴fは、カテゴリ体系Σのいずれかのカテゴリと相関を持っていれば、分類のための特徴として間接的に使用することができる。ここで、文書集合211に特徴fが現れていれば、大抵の場合、特徴fはカテゴリ体系Σのカテゴリと相関を持っており、この特徴を分類に使用することができる。
【0031】
図9に示した従来の分類方法では、未知文書をカテゴリ体系Sのカテゴリに分類する際に、同じカテゴリ体系Sに分類されたデータしか用いていない。このため、未知文書を分類ルールを用いて分類する際には、正解文書に現れた特徴しか用いることができない。
【0032】
例えば、“NATO首脳会議、イラク攻撃に対する各国間の...”のような文書を省庁のカテゴリ体系Sの中のカテゴリ“S:防衛庁”へ分類したいとする。従来の分類方法であれば、防衛庁の正解文書に“NATO”という単語が出現していないと、この特徴“NATO”を手がかりとして用いることができなかった。
【0033】
これに対して、本実施形態の分類方法では、省庁のカテゴリ体系Sとは別のニュースのカテゴリ体系Σに分類された文書の情報を使用することができる。例えば、カテゴリ体系Σのカテゴリに大量のニュースが分類されているとし、“NATO”、“自衛隊”、“防衛”等の単語がカテゴリ“Σ:国際”や“Σ:軍事”との相関が強いとする。
【0034】
この場合、単語“自衛隊”および“防衛”がカテゴリ“S:防衛庁”の正解文書中に現れていれば、“Σ:国際”や“Σ:軍事”と相関の強い単語が現れる文書を“S:防衛庁”に分類するような分類ルールを生成することができる。“NATO首脳会議、イラク攻撃に対する各国間の...”の文書は単語 “NATO”を含み、この単語は“Σ:国際”や“Σ:軍事”と相関が強いので、この文書は希望通り“S:防衛庁”に分類されることになる。
【0035】
次に、図11から図20までを参照しながら、図10の文書分類システムが行う処理をより詳細に説明する。以下の説明では、文書分類の具体例として、少量のプレスリリースの文書から分類ルールを作成するために、特許分類を利用する場合を考える。情報通信関連のプレスリリースのカテゴリ(カテゴリ体系S)としては、以下のようなものが考えられる。
i)パソコン
ii)サーバ
iii)周辺機器
iv)モバイル製品
v)ソフトウェア
vi)ストレージ
vii)電子デバイス
viii)ネットワーク製品
iv)ソリューション
x)ニフティ(登録商標)
また、特許分類のカテゴリ(カテゴリ体系Σ)としては、例えば、以下のようなIPC(International Patents Classification)コードがある。
A 生活必需品
B 処理操作;運輸
C 化学;冶金
D 繊維;紙
E 固定構造物
F 機械工学;照明;加熱;武器;爆破
G 物理学
H 電気(H01,H02,H03,...)
図11は、特徴−カテゴリ相関辞書生成処理のフローチャートである。この処理では、あらかじめ用意された文書集合211を用いて、文書の特徴とカテゴリの関連性が定量化される。このとき、相関抽出部202は、過去に分類された文書から生成した特徴ベクトルとカテゴリのペアを入力として用いて、特徴−カテゴリ相関辞書212を生成する。
【0036】
まず、特徴抽出部201は、図1に示したような処理により、各文書から特徴を抽出して、文書を特徴ベクトルの形式に変換する(ステップS1)。例えば、特徴として単語を抽出する場合は、公知の形態素解析等の技術が用いられ、特徴ベクトルとして単語ベクトルが生成される。また、著者名や、作成年月日、リンクしている文書の情報、リンクされている文書の情報等、他の情報を特徴として抽出してもよい。
【0037】
次に、相関抽出部202は、抽出された各特徴とカテゴリ体系Σの各カテゴリとの関連の強さを表すスコアを計算する(ステップS2)。スコアとしては、相関係数、相互情報量基準、情報量利得基準、カイ2乗検定基準等の指標が用いられる。例えば、相関係数を用いる場合は、カテゴリcと特徴wの相関係数rcwが次式により計算される。
【0038】
【数1】
【0039】
ここで、nは全文書数を表し、xwiはi番目の文書に特徴wが出現していれば1となり、出現していなければ0となる変数であり、wは特徴wの平均出現 数を表す。また、yciはi番目の文書にカテゴリcが付与されていれば1となり、付与されていなければ0となる変数であり、cはカテゴリcの平均付与率 を表す。
【0040】
相関抽出部202は、得られた各スコアを特徴−カテゴリ相関辞書212に保存する(ステップS3)。
図12は、こうして生成された特徴−カテゴリ相関辞書212の例を示している。この例では、i番目の特徴wi(i=1,2,3,...)とj番目のカテゴリcj(j=1,2,3,...)の関連の強さを表すスコアが、score i,jのように表現されている。
【0041】
上述の特許分類のカテゴリを用いた場合、特徴−カテゴリ相関辞書212は図13のようになる。図13の特徴−カテゴリ相関辞書では、例えば、“肥料”という単語とカテゴリ“A 生活必需品”の関連の強さは0.7である。
【0042】
図14は、分類ルール生成部203の処理を示している。この処理では、あらかじめ用意された文書集合213を教師事例とする学習が行われ、分類ルール214が生成される。
【0043】
まず、分類ルール生成部203内の特徴抽出部201により、正解文書の集合213から特徴ベクトル221が生成され、相関付与部205に渡される。次に、相関付与部205は、特徴−カテゴリ相関辞書212を参照して、対象とする文書に対して新たな特徴ベクトル222を生成する。
【0044】
次に、元の特徴ベクトル221と、相関付与部205によって生成された特徴ベクトル222とを統合した特徴ベクトル223が、分類ルール生成器206に渡される。そして、分類ルール生成器206は、特徴ベクトル223とカテゴリのペアを入力として用いて、図4に示したような処理により、分類ルール214を生成する。
【0045】
図15は、相関付与部205の処理を示している。相関付与部205は、特徴ベクトル221を入力として用い、特徴−カテゴリ相関辞書212の情報を新たな特徴ベクトル222として特徴ベクトル221に付与する。
【0046】
図16は、分類ルール生成部203により行われる分類ルール生成処理のフローチャートである。まず、特徴抽出部201は、文書集合213の各文書から特徴を抽出して、文書を特徴ベクトル221に変換する(ステップS11)。
【0047】
次に、相関付与部205は、特徴−カテゴリ相関辞書212に登録された特徴のうち、文書に出現した特徴wiに対応するカテゴリ毎のスコアscore i,jを、特徴−カテゴリ相関辞書212から取得する(ステップS12)。そして、スコアscore i,jを用いてカテゴリ毎の評価値を計算する(ステップS13)。
【0048】
特徴−カテゴリ相関辞書212のカテゴリcjに対する評価値pjは、その文書がカテゴリ体系Σのカテゴリcjに属する確信度を表している。このpjは、例えば、文書中における特徴wiの出現数fiを重みとして用いて、次式のような重み付き加算により求められる。
pj=f1×score 1,j+f2×score 2,j+
f3×score 3,j+... (2)
ただし、評価値の計算方法は(2)式に限られるわけではなく、スコアscore i,jを用いた他の方法で計算してもよい。
【0049】
相関付与部205は、カテゴリ毎の評価値を要素とする特徴ベクトル222(評価値ベクトル)を生成し、それを元の特徴ベクトル221と統合して新たな特徴ベクトル223を生成する(ステップS14)。例えば、元の特徴ベクトル221として、図7のような単語ベクトルが抽出された場合、特徴ベクトル222として、図17のような評価値ベクトルが生成される。
【0050】
次に、分類ルール生成器206は、特徴ベクトル223を用いて学習を行い、分類ルール214を生成する(ステップS15)。
実際には、分類ルールに用いられるカテゴリ判別方法には様々な方法があり、分類ルールを学習する方法にも様々な方法がある。したがって、どのようなカテゴリ判別方法や学習方法を採用するかは任意である。カテゴリ判別方法として線形判別を用いることで文書がカテゴリαに属するか否かを判別する分類ルールでは、以下のような値が用いられる。
p=a1x1+a2x2+...+anxn+a0 (3)
ここで、aiはi番目の特徴の係数であり、xiはi番目の特徴が文書にあれば1となり、なければ0となる変数であり、nはすべての特徴の数である。(3)の値pがあらかじめ決められたしきい値(通常は0等)以上であれば、その文書はカテゴリαに属すると判定され、pがしきい値に満たなければ、その文書はカテゴリαに属さないと判定される。
【0051】
また、文書があるカテゴリに属するか否かを判別するための分類ルールを重心に基づく線形判別ルール生成法により作成する場合は、ステップS11において、それぞれの文書がx1,...,xnという特徴ベクトルで表現され、ステップS14において、特徴ベクトル223はx1,...,xn,xc1,...,xcmのようになる。ここで、x c1,...,xcmは、ステップS13で計算されたカテゴリ毎の評価値である。
【0052】
そして、ステップS15において、分類ルール生成器206は、文書集合213の文書のうち、あるカテゴリに属する文書群の重心cposiと属さない文書群の重心cnegaをそれぞれ求め、重心cposiとcnegaの垂直2等分面を求める。これらの重心は、特徴ベクトル空間内の点として表現される。垂直2等分面は、次式により表現される。
【0053】
【数2】
【0054】
ここで、xposi,iとxnega,iは、それぞれcposiとcnegaのi番目の座標値である。(4)式の左辺は(3)式の右辺と同じ形になっている。したがって、分類対象の文書の特徴ベクトルをxiとして(4)式の右辺により値pを計 算すれば、その文書があるカテゴリに属するか否かを判別することができる。
【0055】
図18は、分野判定部204の処理を示している。まず、分野判定部204内の特徴抽出部201により、未知文書215から特徴ベクトル231が生成され、相関付与部205に渡される。次に、相関付与部205は、特徴−カテゴリ相関辞書212を参照して、未知文書215に対して新たな特徴ベクトル232を生成する。
【0056】
次に、元の特徴ベクトル231と、相関付与部205によって生成された特徴ベクトル232とを統合した特徴ベクトル233が、分野判定器207に渡される。分野判定器207は、特徴ベクトル233を入力として用い、分類ルール214により分類を行って、それぞれのカテゴリに対する確信度216を出力する。
【0057】
図19は、分野判定部204により行われる分野判定処理のフローチャートである。まず、特徴抽出部201は、未知文書215から特徴を抽出して、未知文書215を特徴ベクトル231に変換する(ステップS21)。
【0058】
次に、相関付与部205は、特徴−カテゴリ相関辞書212に登録された特徴のうち、未知文書215に出現した特徴wiに対応するカテゴリ毎のスコアscore i,jを、特徴−カテゴリ相関辞書212から取得する(ステップS22)。そして、スコアscore i,jを用いてカテゴリ毎の評価値を計算する(ステップS23)。
【0059】
次に、相関付与部205は、カテゴリ毎の評価値を要素とする特徴ベクトル232(評価値ベクトル)を生成し、それを元の特徴ベクトル231と統合して新たな特徴ベクトル233を生成する(ステップS24)。
【0060】
次に、分野判定器207は、特徴ベクトル233を用いて分野判定を行い、カテゴリに対する確信度216を求める(ステップS25)。
例えば、上述した線形判別に基づく分類ルールを用いて、未知文書215がカテゴリαに属するか否かを判別する場合は、ステップS21において、未知文書215がx1,...,xnという特徴ベクトルで表現され、ステップS24において、特徴ベクトル233はx1,...,xn,xc1,...,xcmのようになる。
【0061】
そして、ステップS25において、分野判定器207は、(3)式により値pを計算し、pがしきい値以上であれば、未知文書215はカテゴリαに属すると判定し、pがしきい値に満たなければ未知文書215はカテゴリαに属さないと判定する。この場合、未知文書215がカテゴリαに属する確信度は、例えば、pの値に基づいて計算される。
【0062】
次に、図10の文書分類システムが行う処理の具体例を、従来の分類方法と比較しながら説明する。
未知文書が前述したプレスリリースのカテゴリ“vii)電子デバイス”(カテゴリ体系S)に属する(プレスリリースカテゴリ“電子デバイス”)か、属さない(プレスリリースカテゴリ“Not 電子デバイス”)かの分類を自動的に行う目的で、特許分類のカテゴリ“H 電気”の“H01L 半導体装置”(カテゴリ体系Σ)に属する文書(特許カテゴリ“半導体装置”)と属さない文書(特許カテゴリ“Not 半導体装置”)の情報を利用する場合を考える。
【0063】
例えば、情報通信関連企業のプレスリリースで、新しく“当社はデュアルオペレーションフラッシュメモリの販売を開始しました”という文書がリリースされたとする。これをプレスリリースカテゴリ“電子デバイス”に属するように自動的に分類できることが望ましい。
【0064】
従来の分類方法では、“デュアルオペレーションフラッシュメモリ”が教師事例に含まれていない限り、カテゴリ“電子デバイス”にうまく分類することはできなかった。その原因は、この文章中にはプレスリリースカテゴリ“電子デバイス”の特徴になり得る単語がこの“デュアルオペレーションフラッシュメモリ”しかないためであると考えられる。上述した線形判別を用いた場合、従来の分類ルール生成処理は、以下の通りである。
1.教師事例(以前のプレスリリース)として、カテゴリ“電子デバイス”に属する文書と属さない文書とを、それぞれ用意する。
2.教師事例から単語を抜き出し、それを特徴として、それぞれの文書をx1 ,...,xnというn次元の特徴ベクトルで表現する。
3.2で得られた特徴ベクトルを用いて学習を行い、プレスリリースカテゴリ“電子デバイス”に属する文書群の重心cposiとプレスリリースカテゴリ“Not 電子デバイス”に属する文書群の重心cnegaをそれぞれ求める。
4.重心cposiとcnegaの垂直2等分面を求める。
5.得られた垂直2等分面の式が、分類ルールの線形判別の式となる。
【0065】
この場合、従来の分野判定処理は、以下の通りである。
1.未知文書“当社はデュアルオペレーションフラッシュメモリの販売を開始しました”から単語を抜き出し、この文書をx1,...,xnという特徴ベクトルで表現する。
2.(3)式により値pを求める。
3.pがあらかじめ決められたしきい値以上か否かを判定する。この文章には特徴として利用できる単語がないので、プレスリリースカテゴリ“電子デバイス”に属さないと判定される。
【0066】
これに対して、図10の文書分類システムによれば、次のようにして上記未知文書をプレスリリースカテゴリ“電子デバイス”に分類することができる。まず、特徴−カテゴリ相関辞書生成処理は、以下の通りである。
1.特許文書で特許カテゴリ“半導体装置”に属する文書と属さない文書を、それぞれ用意する。
2.特徴抽出部201は、それぞれの文書の特徴として単語を抽出する。
3.相関抽出部202は、抽出されたすべての単語に対して、特許カテゴリ“半導体装置”との関連の強さを相関係数等に基づき計算し、特徴−カテゴリ相関辞書212を生成する。相関係数を用いた場合、例えば、図20のような特徴−カテゴリ相関辞書が得られる。
4.相関抽出部202は、生成された特徴−カテゴリ相関辞書212を保存する。
【0067】
次に、分類ルール生成処理は、以下の通りである。
1.教師事例(企業の以前のプレスリリース)のうち、プレスリリースカテゴリ“電子デバイス”に属する文書と属さない文書を、それぞれ用意する。
2.分類ルール生成部203内の特徴抽出部201は、教師事例から単語を抜き出し、それを特徴として、それぞれの文書をx1,...,xnという特徴ベクトルで表現する。
3.相関付与部205は、それぞれの文書に対して、文書中に出現した単語毎に特徴−カテゴリ相関辞書212を参照することで、各単語と各特許カテゴリの関連の強さを表すスコアを取得する。
【0068】
例えば、以前のプレスリリースで既にプレスリリースカテゴリ“電子デバイス”に属すると分かっている“メモリ搭載16ビットCAN内蔵マイコン新発売”という文書があったとする。この文書では“メモリ”および“マイコン”という単語が、図20の特徴−カテゴリ相関辞書の単語に該当し、これらの単語と特許カテゴリ“半導体装置”との関連の強さを表すスコア(相関係数)は、それぞれ0.5および0.4であることが分かる。
4.相関付与部205は、文書毎に3で得られたスコアの重み付き加算を行って、カテゴリ毎の評価値を求める。上述の文書の場合、カテゴリ“半導体装置”に対する評価値は、次式のように計算される。
“半導体装置”: 1×0.5+1×0.4=0.9
ここで計算された評価値を、特許カテゴリ“半導体装置”に対する帰属度スコアと呼ぶことにする。
5.相関付与部205は、4で得られた帰属度スコアを特徴ベクトルに加えて、新たな特徴ベクトルを生成する。特徴ベクトルはx1,...,xn,xc1,...,xcmのようになる。ここでは、例えば、xc1が特許カテゴリ“半導体装置”に対する帰属度スコアを表すものとする。
6.分類ルール生成器206は、相関付与部205が生成した特徴ベクトルを用いて学習を行い、プレスリリースカテゴリ“電子デバイス”に属する文書群の重心cposiとプレスリリースカテゴリ“Not 電子デバイス”に属する文書群の重心cnegaをそれぞれ求める。
【0069】
このとき、プレスリリースカテゴリ“電子デバイス”に出現する単語の多くが特許カテゴリ“半導体装置”に出現し、プレスリリースカテゴリ“Not 電子デバイス”に出現する単語の多くが特許カテゴリ“半導体装置”に出現しないとすれば、分類ルール生成器206は、以下の理由により“半導体装置”に対する帰属度スコアが高い文書をプレスリリースカテゴリ“電子デバイス”に分類する分類ルールを生成する。
・プレスリリースカテゴリ“電子デバイス”に属する多くの文書の特許カテゴリ“半導体装置”に対する帰属度スコアは大きくなる。つまり、多くの文書のxc1の値が、例えば、1に近い大きな値をとる。上述した“メモリ搭載16ビットCAN内蔵マイコン新発売”という文書の場合、この帰属度スコアは0.9である。
・一方、プレスリリースカテゴリ“Not 電子デバイス”に属する多くの文書の特許カテゴリ“半導体装置”に対する帰属度スコアは小さくなる。つまり、多くの文書のxc1の値が、例えば、−1に近い小さな値をとる。例えば、“Not 電子デバイス”に属する“魚介の冷蔵運搬法に関する特許”という文書では、図20の特徴−カテゴリ相関辞書の相関係数として−0.7(冷蔵)および−0.3(運搬)が取得され、“半導体装置”に対する帰属度スコアは、次式のように計算される。
“半導体装置”: 1×(−0.7)+1×(−0.3)=−1.0
・こうして、プレスリリースカテゴリ“電子デバイス”に属する文書群の重心cposiの座標値のうち、特許カテゴリ“半導体装置”に対する帰属度スコアxc1の値は大きくなる。
・一方、プレスリリースカテゴリ“Not 電子デバイス”に属する文書群の重心cnegaの座標値のうち、特許カテゴリ“半導体装置”に対する帰属度スコアxc1の値は小さくなる。
7.分類ルール生成器206は、重心cposiとcnegaの垂直2等分面を求める。このとき、xc1の値は、上述したように、プレスリリースカテゴリ“電子デバイス”に属する文書群では大きく、プレスリリースカテゴリ“Not 電子デバイス”に属する文書群では小さいことから、垂直2等分面は、特許カテゴリ“半導体装置”に対する帰属度スコアが大きな文書をプレスリリースカテゴリ“電子デバイス”に分類するように、特徴ベクトル空間を分割するような面になる。
【0070】
次に、分野判定処理は、以下の通りである。
1.分野判定部204内の特徴抽出部201は、未知文書“当社はデュアルオペレーションフラッシュメモリの販売を開始しました”から単語を抜き出し、この文書をx1,...,xnという特徴ベクトルで表現する。
2.相関付与部205は、抽出された単語をキーとして特徴−カテゴリ相関辞書212を引く。図20の特徴−カテゴリ相関辞書を用いた場合、未知文書に“デュアルオペレーションフラッシュメモリ”が出現することから、この未知文書の特許カテゴリ“半導体装置”に対する帰属度スコアは、次式のように計算される。
“半導体装置”: 1×0.93=0.93
4.相関付与部205は、3で得られた帰属度スコアを特徴ベクトルに加えて、新たな特徴ベクトルを生成する。特徴ベクトルはx1,...,xn,xc1,...,xcmのようになる。
5.分野判定器207は、(3)式により値pを求める。
6.pがあらかじめ決められたしきい値以上か否かを判定する。4で得られた特徴ベクトルの要素のうち、特許カテゴリ“半導体装置”に対する帰属度スコアを表すxc1が0.93という大きな値をとるため、pはしきい値以上となる。こうして、未知文書はプレスリリースカテゴリ“電子デバイス”に自動的に分類される。
【0071】
このように、図10の文書分類システムによれば、教師事例以外のカテゴリ化された文書集合から生成された特徴−カテゴリ相関辞書と、その辞書を参照して生成された分類ルールとを用いることで、教師事例に含まれていない単語を未知文書の特徴として使用することができ、未知文書を正しいカテゴリに分類することが可能となる。
【0072】
次に、図10の文書分類システムが行う処理の他の具体例を説明する。
分類対象となる文書が社内の技術文書であり、そのカテゴリ(カテゴリ体系S)は“ソフトウェア”、“デバイス”、“情報処理”、“通信”、および “金融”の5つであるとする。大量の技術文書をこれらの5つのカテゴリに分類することを目的として、これらのカテゴリに分類された少量の文書を教師事例として用意する。さらに、別のカテゴリ体系Σによりカテゴリ化された文書集合として、上述した特許分類のカテゴリに分類された大量の特許文書が存在するものとする。まず、特徴−カテゴリ相関辞書生成処理は、以下の通りである。
1.特徴抽出部201は、それぞれの特許文書の特徴として単語を抽出する。例えば、図2のような文書の場合、図3のような特徴ベクトルが生成される。
2.相関抽出部202は、抽出されたすべての単語に対して、各特許カテゴリとの関連の強さを相関係数等に基づき計算し、特徴−カテゴリ相関辞書212を生成する。これにより、例えば、図13のような特徴−カテゴリ相関辞書が得られる。
3.相関抽出部202は、生成された特徴−カテゴリ相関辞書212を保存する。
【0073】
次に、分類ルール生成処理は、以下の通りである。
1.分類ルール生成部203内の特徴抽出部201は、教師事例から単語を抜き出し、それを特徴として、それぞれの文書を特徴ベクトルで表現する。そして、文書の特徴ベクトルとカテゴリのペアの集合を出力する。例えば、“パソコン用帳票作成ソフトを新発売。当社は...”のような文書は、(“パソコン”:2,“帳票”:5,“ソフト”:3,...)のような特徴ベクトルと“ソフトウェア”のようなカテゴリのペアに変換される。
2.相関付与部205は、それぞれの文書に対して、文書中に出現した単語毎に特徴−カテゴリ相関辞書212を参照することで、各単語と各特許カテゴリの関連の強さを表すスコアを取得する。そして、スコアの重み付き加算を行って、カテゴリ毎の評価値を求める。これにより、例えば、図17のようなカテゴリ毎の評価値が得られる。
3.相関付与部205は、2で得られた評価値を特徴ベクトルに加えて、新たな特徴ベクトルを生成する。これにより、例えば、(“パソコン”:2,“帳票”:5,“ソフト”:3,...,“生活必需品”:1.1,“処理操作;運輸”:2.7,...)のような特徴ベクトルが生成される。
4.分類ルール生成器206は、相関付与部205が生成した特徴ベクトルと特徴抽出部201が出力したカテゴリのペアの集合を用いて学習を行い、分類ルール214を生成する。例えば、各カテゴリに属する文書群毎に重心を求め、隣接する2つの重心の垂直2等分面を順次計算することで特徴ベクトル空間を分割すれば、分類ルールを生成することができる。
【0074】
次に、分野判定処理は、以下の通りである。
1.分野判定部204内の特徴抽出部201は、未知文書215から単語を抜き出し、この文書を特徴ベクトルで表現する。例えば、“操作が簡単なスキャナーを販売。方式は従来の光学的...”という未知文書が入力された場合、(“操作”:3,“光学”:2,“スキャナー”:8,...)のような特徴ベクトルが生成される。
2.相関付与部205は、抽出された単語をキーとして特徴−カテゴリ相関辞書212を引き、カテゴリ毎の評価値を求める。図13の特徴−カテゴリ相関辞書を用いた場合、例えば、(“生活必需品”:0.8,“処理操作;運輸”:0.3,...)のようなカテゴリ毎の評価値が得られる。
3.相関付与部205は、2で得られた評価値を特徴ベクトルに加えて、新たな特徴ベクトルを生成する。これにより、例えば、(“操作”:3,“光学”:2,“スキャナー”:8,...,“生活必需品”:0.8,“処理操作;運輸”:0.3,...)のような特徴ベクトルが生成される。
4.分野判定器207は、相関付与部205が生成した特徴ベクトルを元に、分類ルール214を用いて分野判定を行う。
【0075】
“操作が簡単なスキャナーを販売。方式は従来の光学的...”という未知文書を分類する際、“光学”という単語が教師事例となる少量の正解文書に出現しないとすると、従来の分類方法では、この単語は分類ルールに反映されないため、まったく分類の手がかりにはならない。
【0076】
この未知文書を技術カテゴリ“ソフトウェア”に分類したい場合、図10の文書分類システムによれば、以下のような処理が可能となる。
まず、相関抽出部202は、大量の特許文書を元に、“パソコン”,“ソフト”,“光学”等の単語が特許カテゴリ“電気”との関連が強いことを示すスコアを計算し、それを特徴−カテゴリ相関辞書212に出力する。
【0077】
次に、分類ルール生成部203内の相関付与部205は、少量の正解文書中に“パソコン”,“ソフト”,“光学”等の単語が出現した場合、特徴−カテゴリ相関辞書212を用いて、特許カテゴリ“電気”に対する帰属度スコアが大きくなるような特徴ベクトルを生成する。そして、分類ルール生成器206は、この特徴ベクトルを入力として用いて、特許カテゴリ“電気”に対する帰属度スコアが大きな値を持つ文書を技術カテゴリ“ソフトウェア”に分類する分類ルール214を生成する。
【0078】
次に、分野判定部204内の相関付与部205は、“操作が簡単なスキャナーを販売。方式は従来の光学的...”という未知文書に“光学”という単語が出現するので、特徴−カテゴリ相関辞書212の情報に従って、特許カテゴリ“電気”に対する帰属度スコアが大きくなるような特徴ベクトルを生成する。そして、分野判定器207は、分類ルール214に従って、この特徴ベクトルを有する未知文書を、技術カテゴリ“ソフトウェア”に分類する。
【0079】
以上説明した実施形態では、分類に用いるカテゴリ体系Sとは別のカテゴリ体系Σに分類された文書集合から特徴−カテゴリ相関辞書を生成し、この辞書を分類ルール生成と分野判定に利用している。しかし、特徴−カテゴリ相関辞書の代わりに、カテゴリ体系Σにおける分類ルールそのものを生成し、それを用いてカテゴリ体系Sにおける分類ルールを生成して、分野判定を行うことも可能である。
【0080】
図21は、このような文書分類システムの構成図である。図21の文書分類システムは、特徴抽出部201、分類ルール生成器241、分類ルール生成部242、および分野判定部243を備える。分類ルール生成部242は、特徴抽出部201、判定結果付与部244、および分類ルール生成器206を含み、分野判定部243は、特徴抽出部201、判定結果付与部244、および分野判定器207を含む。
【0081】
このうち、特徴抽出部201、分類ルール生成器206、および分野判定器207が行う処理については、図10の文書分類システムと同様である。分類ルール生成器241は、分類ルール生成器206と同様にして、文書集合211の各文書の特徴とカテゴリのペアから分類ルール251を生成する。
【0082】
次に、分類ルール生成部242は、分類ルール251を参照しながら、正解文書の集合213から分類ルール252を生成する。このとき、各正解文書に出現した特徴を用いて分類ルール251により分野を判定した結果を、特徴として各正解文書に付与した後に、分類ルール252を生成する。
【0083】
そして、分野判定部243は、分類ルール251を参照しながら、分類ルール252により、未知文書215をカテゴリ体系Sのカテゴリに分類し、未知文書215がそれぞれのカテゴリに属する確信度216を求める。このとき、未知文書215に出現した特徴を用いて分類ルール251により分野を判定した結果を、特徴として未知文書215に付与した後に、分類ルール252により未知文書215を分類する。
【0084】
このような別のカテゴリ体系Σの分類ルール251を用いることにより、図10の文書分類システムと同様に、未知文書215に出現したが正解文書213に現れなかった特徴を分類に使用することができる。
【0085】
図22は、分類ルール生成部242の処理を示している。この処理では、あらかじめ用意された文書集合213を教師事例とする学習が行われ、分類ルール252が生成される。
【0086】
まず、分類ルール生成部242内の特徴抽出部201により、正解文書の集合213から特徴ベクトル221が生成され、判定結果付与部244に渡される。
次に、判定結果付与部244は、その特徴ベクトル221を用いて分類ルール251により分類を行い、その文書がカテゴリ体系Σの各カテゴリに属する確信度を求める。そして、その確信度を要素とする特徴ベクトル261を生成し、特徴ベクトル221と特徴ベクトル261とを統合して新たな特徴ベクトル262を生成する。
【0087】
次に、分類ルール生成器206は、特徴ベクトル262とカテゴリのペアを入力として用いて、分類ルール252を生成する。
図23は、分野判定部204の処理を示している。まず、分野判定部204内の特徴抽出部201により、未知文書215から特徴ベクトル231が生成され、判定結果付与部244に渡される。
【0088】
次に、判定結果付与部244は、その特徴ベクトル231を用いて分類ルール251により分類を行い、未知文書215がカテゴリ体系Σの各カテゴリに属する確信度を求める。そして、その確信度を要素とする特徴ベクトル271を生成し、特徴ベクトル231と特徴ベクトル271とを統合して新たな特徴ベクトル272を生成する。
【0089】
次に、分野判定器207は、特徴ベクトル272を入力として用い、分類ルール252により分類を行って、未知文書215がカテゴリ体系Sの各カテゴリに属する確信度216を出力する。
【0090】
以上では、文書分類システムの実施形態について説明したが、本発明はこれに限らず、他の多くの事例分類システムに適用することができる。
例えば、文字認識(optical character recognition,OCR)においては 、単語の代わりに、入力画像における所定の位置の画素の濃度や、入力画像内に特定の線素、曲線、閉曲線等が含まれるか否かという情報を特徴として用いて、入力画像を所定の文字カテゴリに分類することができる。
【0091】
また、画像認識においても、単語の代わりに、入力画像における所定の位置の画素の色や濃度や、入力画像内に特定の線素や曲線が含まれるか否かという情報を特徴として用いて、入力画像を所定の画像カテゴリに分類することができる。
【0092】
図10および図21の文書分類システムは、例えば、図24に示すような情報処理装置(コンピュータ)を用いて構成することができる。図24の情報処理装置は、CPU(中央処理装置)281、メモリ282、入力装置283、出力装置284、外部記憶装置285、媒体駆動装置286、ネットワーク接続装置287、および事例入力装置288を備え、それらはバス289により互いに接続されている。
【0093】
メモリ282は、例えば、ROM(read only memory)、RAM(random access memory)等を含み、処理に用いられるプログラムおよびデータを格納する。CPU281は、メモリ282を利用してプログラムを実行することにより、必要な処理を行う。
【0094】
図10および図21の特徴抽出部201、相関抽出部202、分類ルール生成部203、242、分野判定部204、243、相関付与部205、分類ルール生成器206、241、分野判定器207、および判定結果付与部244は、メモリ282に格納されたプログラムに対応する。
【0095】
また、図10および図21の文書集合211、213、未知文書215、特徴−カテゴリ相関辞書212、および分類ルール214、251、252は、メモリ282に格納されたデータに対応する。
【0096】
入力装置283は、例えば、キーボード、ポインティングデバイス、タッチパネル等であり、ユーザからの指示や情報の入力に用いられる。出力装置284は、例えば、ディスプレイ、プリンタ、スピーカ等であり、ユーザへの問い合わせや処理結果の出力に用いられる。
【0097】
外部記憶装置285は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。情報処理装置は、この外部記憶装置285に、上記プログラムおよびデータを格納しておき、必要に応じて、それらをメモリ282にロードして使用する。外部記憶装置285は、図10および図21の文書集合211、213を格納するデータベースとしても用いられる。
【0098】
媒体駆動装置286は、可搬記録媒体290を駆動し、その記録内容にアクセスする。可搬記録媒体290は、メモリカード、フレキシブルディスク、CD−ROM(compact disk read only memory )、光ディスク、光磁気ディスク等の任意のコンピュータ読み取り可能な記録媒体である。ユーザは、この可搬記録媒体290に上記プログラムおよびデータを格納しておき、必要に応じて、それらをメモリ282にロードして使用する。
【0099】
ネットワーク接続装置287は、LAN(local area network)、インターネット等の任意の通信ネットワークに接続され、通信に伴うデータ変換を行う。情報処理装置は、必要に応じて、上記プログラムおよびデータを外部の装置からネットワーク接続装置287を介して受け取り、それらをメモリ282にロードして使用する。
【0100】
事例入力装置288は、文書や画像等の処理対象の事例データを入力するために用いられる。
図25は、図24の情報処理装置にプログラムおよびデータを供給することのできるコンピュータ読み取り可能な記録媒体を示している。可搬記録媒体290やサーバ291のデータベース293に格納されたプログラムおよびデータは、情報処理装置292のメモリ282にロードされる。サーバ291は、そのプログラムおよびデータを搬送する搬送信号を生成し、ネットワーク上の任意の伝送媒体を介して情報処理装置292に送信する。CPU281は、そのデータを用いてそのプログラムを実行し、必要な処理を行う。
【産業上の利用可能性】
【0101】
本発明によれば、未知事例をあるカテゴリ体系へ分類する際に、未知事例に現れる個別の特徴あるいは特徴ベクトル全体を、別のカテゴリ体系へ分類された事例のカテゴリと関連付け、関連付けられたカテゴリを未知事例の特徴として考慮することができる。したがって、分類対象のカテゴリ体系のみを考慮する場合と比較して、より高い精度で事例を分類することが可能となる。
【図面の簡単な説明】
【0102】
【図1】図1は、特徴抽出部を示す図である。
【図2】図2は、文書の例を示す図である。
【図3】図3は、特徴ベクトルの第1の例を示す図である。
【図4】図4は、分類ルール生成器を示す図である。
【図5】図5は、特徴ベクトルとカテゴリのペアの例を示す図である。
【図6】図6は、分野判定器を示す図である。
【図7】図7は、特徴ベクトルの第2の例を示す図である。
【図8】図8は、確信度のリストの例を示す図である。
【図9】図9は、従来の分類方法を示す図である。
【図10】図10は、本発明の第1の文書分類システムの構成図である。
【図11】図11は、特徴−カテゴリ相関辞書生成処理のフローチャートである。
【図12】図12は、特徴−カテゴリ相関辞書の構造の例を示す図である。
【図13】図13は、特徴−カテゴリ相関辞書の第1の例を示す図である。
【図14】図14は、第1の分類ルール生成部の処理を示す図である。
【図15】図15は、相関付与部の処理を示す図である。
【図16】図16は、分類ルール生成処理のフローチャートである。
【図17】図17は、評価値ベクトルの例を示す図である。
【図18】図18は、第1の分野判定部の処理を示す図である。
【図19】図19は、分野判定処理のフローチャートである。
【図20】図20は、特徴−カテゴリ相関辞書の第2の例を示す図である。
【図21】図21は、本発明の第2の文書分類システムの構成図である。
【図22】図22は、第2の分類ルール生成部の処理を示す図である。
【図23】図23は、第2の分野判定部の処理を示す図である。
【図24】図24は、情報処理装置の構成を示す図である。
【図25】図25は、記録媒体を示す図である。
Claims (3)
- 第1のカテゴリ体系の各カテゴリに分類された事例集合から抽出された各特徴に対応づけて該第1のカテゴリ体系の各カテゴリとの関連の強さを表す相関情報を登録した相関辞書と、事例を第2のカテゴリ体系のカテゴリに分類するため、未知事例に含まれる特徴に基づき関連の強さが所定基準を満たす第1のカテゴリ体系の特定カテゴリに対して第2のカテゴリ体系の特定カテゴリが対応づけられた分類ルールを格納する格納部と、
前記分類ルールを生成する分類ルール生成器と、
前記未知事例の入力を受け付ける入力部と、
前記未知事例から特徴を抽出する特徴抽出部と、
前記相関辞書を参照して、前記未知事例から抽出された特徴と前記第1のカテゴリ体系の各カテゴリとの相関情報を取得し、取得した相関情報を該未知事例から抽出された特徴に付加する相関付与部と、
前記第1のカテゴリ体系の各カテゴリの相関情報が付加された前記未知事例の特徴を用いて、該未知事例が前記第1のカテゴリ体系の各カテゴリに属するか否かを判定するための判定値を算出し、前記分類ルールにより、判定値が所定基準を満たす前記第1のカテゴリ体系のカテゴリが存在するならば、該未知事例を該第1のカテゴリ体系のカテゴリに対応づけられた前記第2のカテゴリ体系のカテゴリに分類する分野判定器と、
前記未知事例の分類結果を出力する出力部とを備え、
前記特徴抽出部は、前記第2のカテゴリ体系に対する正解事例から特徴を抽出し、該抽出された特徴および該正解事例が属すべき第2のカテゴリ体系の特定カテゴリのペアを出力し、前記相関付与部は、前記相関辞書を参照して、前記正解事例から抽出された特徴と前記第1のカテゴリ体系の各カテゴリとの相関情報を取得し、取得した相関情報を該正解事例から抽出された特徴に付加し、前記分類ルール生成器は、前記相関情報が付加された前記正解事例の特徴を用いて、前記分類ルールを生成することを特徴とする事例分類装置。 - 前記分類ルール生成器は、前記特徴と前記第1のカテゴリ体系の各カテゴリとの相関情報を用いて、前記正解事例が各カテゴリに属するか否かを判定するための判定値を算出し、該判定値が所定基準を満たすカテゴリを、前記特徴抽出部が出力した前記第2のカテゴリ体系の特定カテゴリに対応づけることで前記分類ルールを生成することを特徴とする請求項1記載の事例分類装置。
- 前記分類ルール生成器は、前記特徴抽出部が出力した前記第2のカテゴリ体系の特定カテゴリが異なる正解事例ごとに、前記特徴と前記第1のカテゴリ体系の各カテゴリとの相関情報を用いて、前記正解事例が各カテゴリに属する確信度を表す評価値を算出し、さらに、該評価値を用いて、重心に基づく線形判別ルール生成法によって、第2のカテゴリ体系の特定カテゴリに対応づける第1のカテゴリ体系の特定カテゴリを決定することを特徴とする請求項1記載の事例分類装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2003/003368 WO2004084096A1 (ja) | 2003-03-19 | 2003-03-19 | 事例分類装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2004084096A1 JPWO2004084096A1 (ja) | 2006-06-22 |
JP4170296B2 true JP4170296B2 (ja) | 2008-10-22 |
Family
ID=33018160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004569581A Expired - Fee Related JP4170296B2 (ja) | 2003-03-19 | 2003-03-19 | 事例分類装置および方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7370024B2 (ja) |
JP (1) | JP4170296B2 (ja) |
WO (1) | WO2004084096A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7499591B2 (en) * | 2005-03-25 | 2009-03-03 | Hewlett-Packard Development Company, L.P. | Document classifiers and methods for document classification |
US8611676B2 (en) * | 2005-07-26 | 2013-12-17 | Sony Corporation | Information processing apparatus, feature extraction method, recording media, and program |
JP4674871B2 (ja) * | 2005-10-31 | 2011-04-20 | 有限会社アイ・アール・ディー | 情報処理装置、及び情報処理方法 |
JP2007157058A (ja) * | 2005-12-08 | 2007-06-21 | Toshiba Corp | 分類モデル学習装置、分類モデル学習方法、及び分類モデルを学習するためのプログラム |
JP2007219880A (ja) * | 2006-02-17 | 2007-08-30 | Fujitsu Ltd | 評判情報処理プログラム、方法及び装置 |
JP5013821B2 (ja) * | 2006-11-08 | 2012-08-29 | ヤフー株式会社 | コンテンツを分類する装置、方法、プログラム |
JP2009048391A (ja) * | 2007-08-20 | 2009-03-05 | Sony Corp | 情報処理装置および方法、プログラム、並びに記録媒体 |
JP5075566B2 (ja) * | 2007-10-15 | 2012-11-21 | 株式会社東芝 | 文書分類装置およびプログラム |
JP5164209B2 (ja) * | 2008-06-20 | 2013-03-21 | 日本電信電話株式会社 | 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体 |
US8996350B1 (en) | 2011-11-02 | 2015-03-31 | Dub Software Group, Inc. | System and method for automatic document management |
JP2014067154A (ja) * | 2012-09-25 | 2014-04-17 | Toshiba Corp | 文書分類支援装置、方法及びプログラム |
US9275331B2 (en) * | 2013-05-22 | 2016-03-01 | International Business Machines Corporation | Document classification system with user-defined rules |
US10402466B2 (en) * | 2014-01-29 | 2019-09-03 | Turbopatent Inc. | System and method to construct and deliver streaming innovation channels |
US10783262B2 (en) * | 2017-02-03 | 2020-09-22 | Adobe Inc. | Tagging documents with security policies |
JP6816621B2 (ja) * | 2017-04-11 | 2021-01-20 | 富士通株式会社 | 判別方法、判別プログラム及び判別装置 |
WO2018194603A1 (en) * | 2017-04-20 | 2018-10-25 | Hewlett-Packard Development Company, L.P. | Document security |
JP6637221B1 (ja) * | 2018-06-20 | 2020-01-29 | 楽天株式会社 | 検索システム、検索方法、及びプログラム |
US11734582B2 (en) * | 2019-10-31 | 2023-08-22 | Sap Se | Automated rule generation framework using machine learning for classification problems |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3560670B2 (ja) * | 1995-02-06 | 2004-09-02 | 富士通株式会社 | 適応的認識システム |
CA2167748A1 (en) * | 1995-02-09 | 1996-08-10 | Yoav Freund | Apparatus and methods for machine learning hypotheses |
US5675710A (en) | 1995-06-07 | 1997-10-07 | Lucent Technologies, Inc. | Method and apparatus for training a text classifier |
JPH10116290A (ja) | 1996-10-11 | 1998-05-06 | Mitsubishi Electric Corp | 文書分類管理方法及び文書検索方法 |
JPH10254899A (ja) | 1997-03-13 | 1998-09-25 | Fujitsu Ltd | 文書分類システム |
JPH1115848A (ja) * | 1997-06-26 | 1999-01-22 | Sharp Corp | 情報分類装置、文書情報分類方法及び同方法の実行に用いる記録媒体 |
JPH1139313A (ja) | 1997-07-24 | 1999-02-12 | Nippon Telegr & Teleph Corp <Ntt> | 文書自動分類システム、文書分類向け知識ベース生成方法及びそのプログラムを記録した記録媒体 |
WO1999014690A1 (fr) | 1997-09-17 | 1999-03-25 | Hitachi, Ltd. | Procede d'addition d'un mot cle au moyen d'informations de liaison |
JPH11316763A (ja) | 1998-05-01 | 1999-11-16 | Mitsubishi Electric Corp | 文書分類装置,文書分類方法及び記憶媒体 |
JP2000181936A (ja) | 1998-12-17 | 2000-06-30 | Nippon Telegr & Teleph Corp <Ntt> | 文書特徴抽出装置および文書分類装置 |
JP2000250916A (ja) * | 1999-02-25 | 2000-09-14 | Sumitomo Metal Ind Ltd | 文書分類方法及び装置並びに記録媒体 |
AU3057600A (en) * | 2000-01-20 | 2001-07-31 | Ims Health | Method and system for managing and using an item file in a data space, in particular medical data, and application to information systems |
JP2001266151A (ja) * | 2000-03-17 | 2001-09-28 | Toshiba Corp | 個人識別装置および個人識別方法 |
JP2002222083A (ja) * | 2001-01-29 | 2002-08-09 | Fujitsu Ltd | 事例蓄積装置および方法 |
US7814043B2 (en) * | 2001-11-26 | 2010-10-12 | Fujitsu Limited | Content information analyzing method and apparatus |
JP2003330948A (ja) * | 2002-03-06 | 2003-11-21 | Fujitsu Ltd | ウェブページを評価する装置および方法 |
US20050165566A1 (en) * | 2002-06-03 | 2005-07-28 | Omnigon Technologies Ltd. | Method for solving waveform sequence-matching problems using multidimensional attractor tokens |
-
2003
- 2003-03-19 WO PCT/JP2003/003368 patent/WO2004084096A1/ja active Application Filing
- 2003-03-19 JP JP2004569581A patent/JP4170296B2/ja not_active Expired - Fee Related
-
2005
- 2005-05-20 US US11/133,414 patent/US7370024B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20050246300A1 (en) | 2005-11-03 |
JPWO2004084096A1 (ja) | 2006-06-22 |
WO2004084096A1 (ja) | 2004-09-30 |
US7370024B2 (en) | 2008-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4170296B2 (ja) | 事例分類装置および方法 | |
US7689531B1 (en) | Automatic charset detection using support vector machines with charset grouping | |
JP4332129B2 (ja) | 文書分類プログラム、文書分類方法および文書分類装置 | |
US20110125747A1 (en) | Data classification based on point-of-view dependency | |
CN104899322A (zh) | 搜索引擎及其实现方法 | |
JP2006252333A (ja) | データ処理方法、データ処理装置およびそのプログラム | |
US8560466B2 (en) | Method and arrangement for automatic charset detection | |
Sikdar et al. | Differential evolution based feature selection and classifier ensemble for named entity recognition | |
JP2017146720A (ja) | 特許要件適否予測装置および特許要件適否予測プログラム | |
CN111061939A (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN110020024B (zh) | 一种科技文献中链接资源的分类方法、系统、设备 | |
CN112667813A (zh) | 用于裁判文书的敏感身份信息的识别方法 | |
CN115759071A (zh) | 基于大数据的政务敏感信息识别系统和方法 | |
CN117493645B (zh) | 一种基于大数据的电子档案推荐系统 | |
Holla et al. | An improved fake news detection model using hybrid time frequency-inverse document frequency for feature extraction and adaboost ensemble model as a classifier | |
Dawar et al. | Text categorization by content using Naïve Bayes approach | |
Amer et al. | Machine learning approaches to detect online harassment using bag of words | |
CN115496066A (zh) | 文本分析系统、方法、电子设备及存储介质 | |
CN114756673A (zh) | 政策文本摘要生成方法、装置、电子设备及存储介质 | |
Altınçay et al. | Ternary encoding based feature extraction for binary text classification | |
Garg et al. | On-Device Document Classification using multimodal features | |
Lichtblau et al. | Authorship attribution using the chaos game representation | |
Kim et al. | Multi-label Text Classification of Economic Concepts from Economic News Articles using Natural Language Processing | |
Tomašev et al. | Object recognition in WIKImage data based on local invariant image features | |
Hao | Naive Bayesian Prediction of Japanese Annotated Corpus for Textual Semantic Word Formation Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080403 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080623 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080805 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080806 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110815 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120815 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120815 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130815 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |