JP2010146222A - 文書分類装置、文書分類方法およびプログラム - Google Patents

文書分類装置、文書分類方法およびプログラム Download PDF

Info

Publication number
JP2010146222A
JP2010146222A JP2008321725A JP2008321725A JP2010146222A JP 2010146222 A JP2010146222 A JP 2010146222A JP 2008321725 A JP2008321725 A JP 2008321725A JP 2008321725 A JP2008321725 A JP 2008321725A JP 2010146222 A JP2010146222 A JP 2010146222A
Authority
JP
Japan
Prior art keywords
classification
document
score
learning
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008321725A
Other languages
English (en)
Other versions
JP4521459B2 (ja
Inventor
Hisao Mase
久雄 間瀬
Takanori Kanai
隆範 金井
Keiko Yagi
敬宏 八木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2008321725A priority Critical patent/JP4521459B2/ja
Publication of JP2010146222A publication Critical patent/JP2010146222A/ja
Application granted granted Critical
Publication of JP4521459B2 publication Critical patent/JP4521459B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】利用者が直感的に理解できる形で、文書分類結果の分類スコアを算出し、利用者に提示可能な文書分類方法およびこれを実施する文書分類装置を提供する。
【解決手段】文書解析部2と検索インデクス生成部3と類似文書検索部9と分類特定部12とを備えた文書分類装置において、学習用文書の集合を構成する各学習用文書を対象として、前記学習用文書毎の分類情報が格納された学習用文書−分類対応テーブル13を参照して分類スコアを分類毎に算出し、該分類時の分類精度を前記分類スコアの値の範囲毎に算出し、該分類精度を前記分類スコアの値の範囲に対応付けてスコア補正値テーブル17に格納し、該スコア補正値テーブル17を参照して、前記分類対象文書に対して算出された分類スコアと前記分類精度の間の乖離度合いに応じて分類スコアを補正する。
【選択図】図1

Description

本発明は、文書を分類する方法およびこれを実施する文書分類装置に関する。
特許や論文、新聞記事、Webページのように、テキスト情報を含む大量の文書の中から所望の文書を検索する際には、文書の形式や書誌、内容に応じて予め分類を付与しておき、検索条件の中で分類を指定することによって、検索範囲を絞り込む方法が有効である。しかし、大量の文書に分類を付与する作業や、時代の流れに応じて分類体系を常に最適な状態に更新する作業、分類を更新した場合に過去の大量の文書に付与された分類を付与し直す作業などに多大な労力を要しているのが現状である。
そこで、これらの作業にかかる作業者の負担を軽減する技術として文書分類技術が注目されている。分類アルゴリズムとしては、特開2007−323454号公報に開示されているように、予め人手によって分類が付与された文書集合を学習用文書集合として用意し、まだ分類が付与されていない文書に対して、これに類似する学習用文書を検索し、検索結果上位の学習用文書に付与された分類の付与状況を統計解析して分類スコアを分類毎に算出し、当該分類スコアの大小に応じて付与すべき分類を特定するという、k近傍法(K-Nearest Neighbors法)と呼ばれる方法が一般的である(以下、本明細書では、KNN法と呼ぶこととする)。KNN法では、検索結果上位K件(KNNのK)の学習用文書の多くに付与された分類は何か、より上位の学習用文書に付与された分類は何かなどに基づいて分類スコアを分類毎に算出し、分類スコアの高い順に分類を出力する。
従来の分類スコアの算出方法は、大きく3種類に分けられる。一つは、絶対値による算出である。その分類が付与された文書に対して類似文書検索が算出した類似度や、その分類が付与された文書が類似文書検索結果において何位に出力されたかという順位の値や、その分類が付与された文書が類似文書検索結果に何件出力されたかという文書件数などから、その分類に対する分類スコアを算出する。例えば、上記特開2007−323454号公報に開示されているように、類似文書の類似度から、分類(F−term1)の分類スコアが267.5、分類(F−term2)の分類スコアが89.1というように、特に数値の正規化をせずに、分類スコアの絶対値を算出してそのまま出力する。
二つ目は、特開平5−54037号公報に開示されているように、確率的手法などにより、分類スコアを0から1までの範囲の中で、絶対値として算出するものである。すなわち、「文章AはカテゴリXに30%の確率で分類される」というように出力する。
三つ目は、相対値による算出方法である。上記の例の場合、仮に分類(F−term1)の分類スコア267.5が最も高いとした場合、他の分類の分類スコアを、分類(F−term1)の分類スコア267.5で割ることにより、値を正規化する。この結果、分類(F−term1)の分類スコアは1.0に、分類(F−term2)の分類スコアは0.33に正規化される。このように正規化することによって、分類間の分類スコアの違いを相対的に比較することが容易になるのが長所である。このような正規化は、文書分類システムにおける分類スコアに対してだけでなく、文書検索システムにおける文書間の類似度や、文書から抽出する単語の重みの値などに対しても適用されている公知の技術である。
特開2007−323454号公報 特開平5−54037号公報
上述したように、従来の文書分類システムにおいては、分類結果を分類スコア付きで出力するものが一般的である。しかし、上記従来技術では、この分類スコアの数値にどのような意味があるのかの定義が明確にされていない、または、明確に定義されていても、それが利用者に直感的に理解されない定義である場合がほとんどである。
上記特許文献1に開示されているように、絶対値により分類スコアを算出する場合、267.5という数値が何を意味しているのかを利用者は直感的に理解することができない。また、分類(F−term1)の分類スコア267.5と分類(F−term2)の分類スコア89.1が相対的にどのくらい違っているのかを評価するためには、89.1÷267.5という割算をしなければならないため、分類間の分類スコアの相対比較も容易ではない。
また上記特許文献2に開示されているように、確率的手法を用いた絶対値により分類スコアを算出する場合、文章AはカテゴリXに30%の確率で分類されるという形で分類スコアを出力するが、人間が分類した場合と比べた時の分類精度に基づいて出力されておらず、単語の出現傾向(出現頻度)から算出された分類スコアであるため、「人間が分類した場合と比べた時の分類精度が30%である」ということを示してはいない(その結果、この分類スコアが実際の分類精度とは乖離した値となることが多い)ため、利用者がこの分類スコアを正確に理解することができない。
また上記相対値により補正スコアを算出する場合、最も分類スコアの高い分類の分類スコアが必ず1.0になるため、この1.0という数値が絶対的に見てどういう意味があるのかについては依然として不明であるため、利用者が分類スコアを直感的に理解することができない。
本発明の目的は、利用者が直感的に理解できる形で、文書分類結果の分類スコアを算出し、利用者に提示可能な文書分類方法およびこれを実施する文書分類装置を提供することにある。
そこで本発明では、利用者が理解しやすい分類スコアを算出するという課題を解決するために、分類スコアの値に意味を持たせる。すなわち、分類スコアを、「実際に人間が付与した際の分類精度を近似した値」として定義することにより、分類スコアの意味を利用者が直感的に理解できるようにする。例えば、「文書Dに分類Aが付与された時の分類スコアが0.8である」とは、「人間も80%の割合で文書Dに分類Aを付与する」という意味であるとする。
本発明のポイントの一つは、人間による分類精度を踏まえた上で、分類スコアを算出している点にある。しかし、付与すべき正解分類が未知である分類対象文書に対して、付与された分類が正しいか否かを前もって正しく評価することは直接にはできない。そこで本発明では、既に分類が付与されている学習用文書を分類対象文書とした時の分類精度で近似する。すなわち、学習用文書を分類対象文書とした時の分類精度を分類スコアの値の範囲毎に算出しておき、分類スコアと分類精度との間の乖離度合いに応じて、分類がまだ付与されていない文書に対して算出された分類スコアを補正する。さらに具体的に言うと、学習用文書とその正解分類を対応付けたテーブルを参照して、学習用文書を対象として分類スコアを分類毎に算出して分類した時の分類精度を分類スコアの値の範囲毎に算出し、この分類精度を分類スコアの値の範囲と対応付けてスコア補正値テーブルに格納する。そして、スコア補正値テーブルを参照して、分類対象文書に対して算出された分類スコアと分類精度の間の乖離度合いに応じて分類スコアを補正する。
本発明のポイントのもう一つは、本発明が、学習用文書を分類対象文書とした時の分類精度と、分類がまだ付与されていない分類対象文書に対する分類精度が、ほぼ同じ傾向を示すという知見に基づいていることにある。もし、両者の分類精度の傾向が大きく異なる場合、学習用文書に対する分類精度を使って、分類対象文書に対する分類スコアを補正することはできない。
本発明によれば、利用者が直感的に理解できる形で、文書分類結果の分類スコアを算出し、利用者に提示可能な文書分類方法およびこれを実施する文書分類装置を提供することができる。
以下、本発明の実施の形態を、図面を用いて詳細に説明する。
本実施形態では、文書分類装置であるコンピュータが、テキストを含む文書を入力として、予め定義された分類体系の中から適切な分類を特定し、分類スコア付きで出力する文書分類方法について説明する。本実施形態では日本語で書かれた文書を対象としているが、英語等の外国語で書かれた文書にも適用可能である。
本実施形態では、入力された文書と内容が類似している文書を、学習用文書の中から検索し、その検索結果上位の文書に付与された分類の付与状況を統計解析して付与すべき分類を決定するKNN法を用いて文書を分類する。
KNN法では、既に分類が付与された学習用文書集合が必要である。学習用文書は、分類対象文書集合の中から一定の割合の件数だけ選定される。一般に、学習用文書の選定件数の割合が高いほど、分類精度は高くなる。しかし一方で、学習用文書に対して正解となる分類を人手で付与する作業が必要となるため、作業者の負担は増大する。このように、分類精度と作業者負担はトレードオフの関係にあるため、文書分類の目標精度や許容できる作業者負担を考慮して、学習用文書の選定件数の割合を決める必要がある。なお、学習文書の選定件数の割合は、一般的には10%から20%が現実的であると言われている。
文書分類システムの利用場面としては、以下の2種類が挙げられる。
[場面1]出願特許へ特許分類を付与する場合のように、過去に分類が付与された大量の文書を学習用文書として、新しく入ってきた直近の文書に対して分類を付与する場合である。この場合、分類対象文書は、学習用文書に比べて時系列的に新しいという制約が課される。
[場面2]分類体系が改正・更新された際に、その改正内容に応じて、過去に付与された分類を付与し直す場合である。この場合、分類を付与する対象となる文書集合は固定されるので、学習用文書をうまく選定すれば、分類対象文書が学習用文書に比べて時系列に新しいという制約はなくなる。
本発明による分類スコア補正は、学習用文書を分類対象文書とした場合の分類スコアと分類精度との間の乖離度合いを用いて、学習用文書以外の文書における分類スコアの値を補正し、分類スコアが分類精度に等しくなるようにするものである。この補正により、分類スコアの値の意味を利用者が容易に解釈できるようにすることを目的としている。
この目的から考察するに、本方式は上記場面2の利用場面において特に効果が高い。なぜなら、時系列的に見てランダムに学習用文書を選定できるため、記載内容の時間的変化による分類精度劣化の影響を受けにくく、その結果、学習用文書における分類精度が、それ以外の文書における分類精度と同一の傾向を見せる確率がより高いからである。これに対して上記場面1では、時系列的に新しい文書に書かれた内容が、古い文書に書かれた内容に比べて大きく変わる可能性があるため、分類精度が同一の傾向を示さない恐れがある。しかし、この場合でも、分類付与対象文書と時系列的に近い文書を学習用文書として用いるなどの工夫をすることにより、上記場面2の利用場面とほぼ同等の効果を得られると考えられるので、本発明を適用することは可能である。
図1は、本実施形態における文書分類装置の機能概要を説明する図である。各々のデータおよび処理部についての詳細は、図2以降の説明の中で詳述する。
分類対象文書集合1は、分類を付与すべき対象となる文書集合であり、既に分類が付与された文書からなる学習用文書7と、まだ分類が付与されていない分類対象文書8を合わせた文書集合である。文書解析部2は、分類対象文書集合1に含まれる各々の文書から、その文書を特徴付ける単語(特徴語)およびその重要度に相当する重みを抽出する。文章を単語に切り分ける際には形態素解析モジュール(プログラム)が呼び出される。形態素解析モジュールは、単語辞書5を参照して文章を単語に分割する。形態素解析モジュールは、分割された単語のうち、名詞、動詞など特定の品詞を持つ単語を特徴語として認定する。特徴語の重みは、当該文書の中に出現する頻度と、当該特徴語が分類対象文書集合1の中の何件の文書に出現するかという出現文書数に基づいて、TFIDF法と呼ばれる公知の手法を採用することにより算出される。検索インデクス生成部3は、文書番号と特徴語およびその重みを対応付けた検索インデクス4を生成し、記憶部の検索インデクス4の格納エリアに格納する。分類対象文書集合1から検索インデクス4を生成するまでの処理は、一般の文書検索システムや文書分類システムで広く採用されている公知技術であるため、これ以上の説明は省略する。
文書選定部6は、利用者からの指示に応じて、処理に用いる文書集合を選定する。学習用文書7を選定するよう利用者から指示があった場合は、分類対象文書集合1から学習用文書のみを抽出して、学習用文書7に格納する。学習用文書7以外の分類対象文書8を選定するよう利用者から指示があった場合は、分類対象文書集合1から分類対象文書を抽出し、これを記憶部の分類対象文書8の格納エリアに格納する。
上述したように、学習用文書7を入力文書として分類した場合の分類精度と、分類対象文書8を入力文書として分類した場合の分類精度は、同じ傾向にある必要がある。そのため、分類対象文書集合1から学習用文書7を抽出する方法を工夫する必要がある。例えば上記場面1では、時系列的に見てランダムに抽出するとか、文書IDが時系列に付けられた番号である場合には、番号の下1桁が特定の数字である文書を抽出するとか、文書を時系列に並べて、文書をN個おきに抜き出すとかの方法により、学習用文書7を抽出することができる。
類似文書検索部9は、学習用文書7または分類対象文書8に含まれる文書を入力として、その文書に記載された内容に類似する文書を、学習用文書7の中から検索して、その類似性を数値化した類似度を算出し、類似度の高い順に文書を出力する。類似文書検索部9は、入力文書が学習用文書7に含まれる文書である場合は、類似文書検索結果10に、入力文書が分類対象文書8に含まれる文書である場合は、類似文書検索結果11に検索結果をそれぞれ格納する。なお、入力文書が学習用文書7に含まれる文書である場合、その文書が検索結果の上位に出力されることがしばしばあるため、この場合、入力文書を検索結果から削除するという処理が加わる。
分類特定部12は、学習用文書に付与されている分類(正解分類)に関するデータを格納した学習用文書−分類対応テーブル13を参照して、類似文書検索結果10または類似文書検索結果11の上位K件に付与されている分類の傾向を統計解析することによって、その確からしさを示す分類スコアを算出して、分類スコアの高い順に分類を出力する。分類を特定した結果は、入力が学習用文書7に含まれる文書である場合は分類結果14に、入力文書が分類対象文書8に含まれる文書である場合はスコア補正前分類結果15にそれぞれ格納する。
スコア補正値算出部16は、学習用文書7に対する分類結果14に対して、学習用文書−分類対応テーブル13を参照して、分類スコアの値の範囲毎に分類精度を算出して、スコア補正値テーブル17に格納する。
スコア補正部18は、分類対象文書8に対するスコア補正前分類結果15に対して、スコア補正値テーブル17を参照して、分類スコアと分類精度の間の乖離度合いを算出して分類スコアを補正する。補正結果は、スコア補正部18により記憶装置のスコア補正後分類結果19の格納エリアに格納される。また、スコア補正後分類結果19である分類および分類スコアは、ディスプレイ等の出力装置に出力画面として出力され、利用者に提示される。この際、分類スコアの値の範囲と出力メッセージまたは出力態様との対応関係を予め利用者またはシステム管理者が定義しておき、この定義情報を参照することにより、分類結果(分類スコア)とともに出力メッセージを出力装置に出力して、利用者に提示することも可能である。例えば、分類スコアが0.9以上である場合に、分類スコアの値の範囲および「この分類は無条件に文書に付与されます」といった出力メッセージを出力装置に出力したり、分類結果を他と色やフォントなどの態様を変えて出力装置に出力したりすることが可能である。
図2は、本実施形態における分類スコアと分類精度の間の関係を示した図である。本実施の形態では、ある入力文書(学習用文書7または分類対象文書8)に対して適切な分類結果22を出力するが、その際に分類スコア23が算出され、分類結果22に対応付けて出力される。学習用文書7については正解分類24が既知であるので、分類結果22と正解分類24を比較することにより、分類結果の適合性25を評価することができる。
一般に、分類スコアが高い分類は、正解分類と一致する確率が高い、すなわち、分類精度が高い傾向にある。しかし、実際に横軸に分類スコア、縦軸に分類精度をとり、分類スコアの値の範囲別(図2に示すグラフでは、分類スコアの取り得る0から1までの範囲を0.1刻みに10分割した時のそれぞれの範囲別)に分類精度を算出してみると、黒三角印のようにプロットされる。これらを結んでみると、一本の直線で近似できることもあれば、ジグザグの直線や、曲線に近似できることもある。しかし、分類スコアそのものの意味付けがなされていない場合、分類スコアを出力できても、利用者はその分類スコアが何を意味しているのかを把握することができない。
そこで本実施の形態では、分類スコアに対して、その分類が正しく付与されている確率(分類精度)という意味を付加することにより、分類スコアの意味を利用者が直感的に把握できるようにする。すなわち、学習用文書から得られる分類スコア−分類精度曲線32と、分類スコア=分類付与精度となる理想的な曲線31(傾きが45度の直線)との乖離度合いを保持する。図2では、ある分類に対する分類スコアが0.7の時の乖離度合いについて示している。分類スコアが0.7であるのに対して、分類精度が0.4であることから、0.3の乖離33があることがわかる。この乖離度合いをスコア補正値テーブル17に保持しておき、スコア補正部18はこの乖離度合いを利用して、分類特定部12により分類対象文書に対して算出された分類スコアを補正する。
このように、何も意味付けがなされていなかった分類スコアを、分類精度に対応付ける形で補正することにより、利用者は分類付与結果の妥当性を容易にチェックできるようになる。また、分類スコアの意味付けが明確であるため、一つの文書に付与する分類の数を決める際の分類スコアの閾値の設定も容易になる効果が期待できる。
図3は、本実施形態における文書分類装置のハードウェア構成例を示すブロック図である。本システムは大きく、計算処理を実行する処理装置50、利用者が操作内容またはデータを入力するためのキーボード51およびマウス52等の入力装置、計算処理結果を利用者に出力するための出力モニタ(出力装置)53、処理装置50における処理に関するプログラムおよびデータを格納する記憶装置60から構成される。入出力データを別の計算機とやりとりする場合には、入出力データはネットワーク54を介して送受信する。
記憶装置60はさらに、処理装置50における処理データを一時的に格納するワーキングエリア61と、分類対象文書集合格納エリア62、文書解析部格納エリア63、単語辞書格納エリア64、検索インデクス生成部格納エリア65、検索インデクス格納エリア66、文書選定部格納エリア67、分類対象文書格納エリア68、学習用文書格納エリア69、類似文書検索部格納エリア70、類似文書検索結果格納エリア71、分類特定部格納エリア72、学習用文書−分類対応テーブル格納エリア73、分類結果格納エリア74、スコア補正前分類結果格納エリア75、スコア補正値算出部格納エリア76、スコア補正値テーブル格納エリア77、スコア補正部格納エリア78、スコア補正後分類結果格納エリア79から構成される。処理装置50は、記憶装置60から必要なプログラムおよびデータをロードし、実行した結果を記憶装置60に格納することを繰り返すことにより処理が行われる。また、この実行結果は出力装置53に出力可能である。
図4は、学習用文書7に対する類似文書検索結果10と、分類対象文書8に対する類似文書検索結果11のデータ構成例を示す図である。両者は、入力となる文書の種別が学習用文書7であるか分類対象文書8であるかが違うだけであり、類似文書検索結果のデータ構成は同様の構成である。図4に示すように、類似文書検索結果10、11は、入力文書を一意に識別する入力文書番号101と、当該文書に対する類似文書検索の検索順位102と、類似文書を一意に識別する類似文書番号104と、当該類似文書の入力文書に対する類似度103とから構成される。ここで、類似文書検索として出力されるのは、既に分類が付与されている学習用文書のみである。
文書間の類似度を算出する方法については、従来の類似文書検索システムに適用されている。一般的な方法としては、入力文書から抽出された重み付き特徴語で構成される特徴語ベクトルと、類似文書から抽出された重み付き特徴語で構成される特徴語ベクトルとの間の内積値や、二つのベクトルで作られる角の余弦値(コサイン)を類似度とするものなどが知られている。本実施形態による文書間の類似度の算出方法は、この従来による類似度算出方法を採用することが可能である。
図5は、学習用文書−分類対応テーブル13のデータ構成例を示す図である。学習用文書−分類対応テーブル13には、学習用文書7に属する文書の文書番号111とその文書に付与された分類112が対になって格納されている。なお、図示していないが、一つの文書番号に対して複数の分類が付与されることもある。
図6は、分類特定部12で生成し、参照する中間データの構成例を示す図である。この中間データは、図4に示した類似文書検索結果と図5に示した学習用文書−分類対応テーブルを、類似文書番号104および文書番号111をキーとしてテーブル結合したものである。類似文書検索結果として出力された学習用文書の各々に、どの分類が付与されているのかが対応付けられている。
図7は、分類結果14と、スコア補正前分類結果15のデータ構成例を示す図である。分類結果14とスコア補正前分類結果15のそれぞれのデータ構成は同じであり、入力文書番号110と、順位112と、順位に該当する分類111と、正規化前類似度113と、相対類似度114と、分類スコア115とから構成される。分類結果14およびスコア補正前分類結果15は、類似文書検索結果10,11および学習用文書−分類対応テーブル13に基づいて生成される。具体的には、分類結果14およびスコア補正前分類結果15は、分類特定部12が以下の処理を行うことにより生成される。
図11は、分類特定部12の処理の一例を示すフローチャートである。
まず、分類特定部12は、上述したように、類似文書検索結果10、11と学習用文書−分類対応テーブル13を、類似文書番号をキーとしてテーブル結合した中間データを生成し、類似文書とそれに付与された分類の対応関係を特定する(ステップ501)。
次に、分類特定部12は、検索順位がN位(本実施形態ではN=10とする)までの類似文書の中で、特定の分類が付与された文書の類似度を足し合わせた数値を分類毎に算出し、これを正規化前類似度113として分類結果14またはスコア補正前分類結果15に格納する(ステップ502)。例えば、分類Aは図6より、1、3、5、8、9、10位の文書に付与されているので、これらの類似度である0.95、0.85、0.73、0.59、0.57、0.52を足し合わせた4.21が分類Aの正規化前類似度113となる。このように、正規化前類似度113は、より多くの類似文書に付与されている分類ほど、また、より上位の類似文書に付与されている分類ほど、値が高くなる。
次に、分類特定部12は、各分類の正規化前類似度を、最も高い正規化類似度で割って正規化し、これを相対類似度114として分類結果14またはスコア補正前分類結果15に格納する(ステップ503)。図7の場合、分類Aの正規化前類似度(4.21)が最も高いので、各分類の正規化前類似度113を4.21で割る。例えば、分類Bでは1.50を4.21で割って0.36に正規化する。
次に、スコアの算出精度を上げるために、分類特定部12は以下の計算を行うことにより、補正前の分類スコア115を算出する。
まず、分類特定部12は、相対類似度114の最も高い分類(図7の場合、分類A)に対して、図6に示した中間データにおいて何位の文書に付与されているかをチェックし、付与されている文書の検索順位102の逆数の総和を算出する(ステップ504)。図6に示す例では、分類Aは、1、3、5、8、9、10位の文書に付与されているので、1/1+1/3+1/5+1/8+1/9+1/10=673/360となる。
次に、分類特定部12は、上位N位(本実施形態ではN=10)までの検索順位の逆数の総和を求める(ステップ505)。図6に示す例では、この求めた結果は、1/1+1/2+・・・+1/10=7380/2520となる。この値はNが決まれば一定値となるので、Nが固定である場合は、予め一度だけ計算しておけば良い。
次に、分類特定部12は、ステップ504で算出した、相対類似度114の最も高い分類が付与された文書の検索順位の逆数の総和(673/360)を、ステップ505で算出した、上位N位までの検索順位の逆数の総和(7380/2520)で割った値を算出し、これを相対類似度114の最も高い分類(分類A)の分類スコア115(0.64)とする(ステップ506)。
最後に、分類特定部12は、他の分類の相対類似度114に、この分類スコア(0.64)を乗ずることにより、分類スコア115をそれぞれ算出する(ステップ507)。なお、上記の分類スコア算出方法はあくまで一例であり、分類スコアと実際の分類精度との乖離を少しでも小さくするための算出方法の一つである。したがって、類似文書検索の類似度や検索順位などの値を用いた別の算出方法であっても良い。ただし、分類精度が0から1までの間であることを踏まえ、分類スコアも0から1までの範囲の値であることが望ましい。
図8は、スコア補正値テーブル17のデータ構成を示す図である。スコア補正値テーブル17は、スコア補正値算出部16が学習用文書7に対する分類結果14を参照して、以下の処理を行うことにより生成される。
図12は、スコア補正値算出部16の処理の一例を示すフローチャートである。
まず、スコア補正値算出部16は、分類スコアの取り得る0から1までの値の範囲をN個(本実施形態では10個)に分割する(ステップ601)。本実施の形態では、分類スコアを0.1ずつに刻んだ10個の分類スコア範囲に分割する。10個という数値自体は、利用者またはシステム管理者が設定する。なお、本実施形態では10個に分割しているが、学習用文書の件数が多い/少ない場合は、10個以上/以下に分割しても良い。また、分類スコア範囲は一定幅である必要はない。
次に、スコア補正値算出部16は、各分類スコア範囲について、その代表値となる値を設定する(ステップ602)。本実施形態では、図8に示すように各分類スコア範囲の中間値112を採用するが、各分類スコア範囲の最低値または最高値などであっても良い。
次に、スコア補正値算出部16は、学習用文書7に対する各分類結果14に対して、各分類スコア範囲に属する分類スコアを持つ分類結果を収集する(ステップ603)。例えば図7に示す例では、分類Aは分類スコア115が0.64なので、図8における分類スコア範囲111が「0.6−0.7」である範囲に割り振る。分類Bは0.23なので、「0.2−0.3」である範囲に割り振る。
次に、スコア補正値算出部16は、学習用文書−分類対応テーブル13を参照して、分類スコア範囲毎に分類精度を算出する。本実施の形態では、分類精度としては、「分類結果として出力された延べ分類数の中に含まれる正解分類の数」を「分類結果として出力された延べ分類数」で割った値である適合率(最近では単に精度とも呼ばれる)を用いる。算出した分類精度(適合率)の値は、スコア補正値算出部16により該分類スコア範囲に属する分類の分類精度113に格納される。
図8に示すように、分類スコア範囲の中間値112と、該分類スコア範囲に属する分類の分類精度113は、理想的にはこれらの値が一致することが望ましいが、実際には値が乖離していることがほとんどである。そこで、次に述べるスコア補正部18がこの乖離を補正し、分類スコアとして出力された値が、その分類が付与された時の分類精度に等しくなるように補正する。
図9は、スコア補正部18の処理概要を説明する図であり、図2に示したグラフを詳細化した図である。スコア補正部18は、まだ分類が付与されていない文書に対して分類された結果(分類とその分類スコア)に対して、学習用文書の分類結果から算出されたスコア補正値テーブル17を参照して、分類スコアを補正する。なお、スコア補正部18は、まだ分類が付与されていない分類対象文書8に対する分類結果に対して行われる処理であり、以下の処理を行うことにより分類スコアを補正する(処理の流れを図13に示す)。
図13は、スコア補正部18の処理の一例を示すフローチャートである。
まず、スコア補正部18は、スコア補正値テーブル17を参照して、補正対象となる分類スコアに最も近くかつ分類スコアよりも小さい中間値112(M)と、当該分類スコアに最も近くかつ分類スコアよりも大きい中間値112(N)とをそれぞれ特定する(ステップ701)。図9に示す具体例では、分類スコアが0.64である場合に、この分類スコアがどのように補正されるかについて示している。図8に示したスコア補正値テーブル17における分類スコア範囲の中間値112において、0.64に最も近くかつこれより小さい中間値Mは0.55であり、大きい中間値Nは0.65である。すなわち、0.64は0.55と0.65の間にある。この時、中間値M(0.55)における分類精度113は0.50であり、中間値N(0.65)における分類精度113は0.59である。これを図9のグラフ上にプロットするとそれぞれ点A,点Bとなる。
次に、スコア補正部18は、中間値Mとその分類精度、および、中間値Nとその分類精度から、当該分類スコアに対応する分類精度を算出する(ステップ702)。具体的には、中間値Mの分類精度+(中間値Nの分類精度−中間値Mの分類精度)/(中間値N−中間値M)という演算によって算出できる。これを図9のグラフ上で説明する。点Aと点Bを直線で結び、分類スコア0.64の場合の分類精度の値を直線AB上にプロットすると点Cとなる。すなわち、分類スコア0.64の場合の分類精度(点CのY座標)は、点A,点Bの値から得られる相対的割合から、0.50+(0.59−0.50)×(0.64−0.55)/(0.65−0.55)=0.58と算出することができる。
スコア補正部18は、上式で求めた、分類スコアに対する分類精度の値を分類スコアとし、スコア補正後分類結果19に格納する(ステップ703)。すなわち、補正前の分類スコア0.64が、この処理によって0.58に補正されたことになる。この0.58という値は、点Cから直線Y=X上に向かって横軸に平行移動した点Dにおける分類精度になる。したがって、この0.58を補正後の分類スコアとすることにより、分類スコアを分類精度と一致させることができる。
図10は、スコア補正後分類結果19のデータ構成を示す図である。スコア補正後分類結果19は、入力文書番号110と、順位112と、順位に該当する分類111と、正規化前類似度113と、相対類似度114と、補正前の分類スコア115と、補正後の分類スコア116から構成される。
(他実施の形態)
次に、本発明の他実施の形態について述べる。
図8に示したスコア補正値テーブル17において、分類スコア範囲に属する分類の分類精度の算出を、分類毎に分けて算出することが可能である。すなわち、図14に示すように、スコア補正テーブル17を、対象とする分類の数だけ個別に生成し、各テーブルがどの分類に関するものかをラベル付けしておく。スコア補正部18における処理(図13)においては、分類スコアを補正する対象となる分類に対応するスコア補正テーブル17を選択するステップをステップ701の前に加えれば良い。本実施の形態により、分類スコアと分類精度の間の乖離の度合いが分類毎に異なっている場合でも、分類スコアを適切に補正することができる。
以上本発明の実施の形態を説明したが、上記実施の形態によれば、利用者が直感的に理解できる形で、文書分類結果の分類スコアを算出し、利用者に提示可能な文書分類方法およびこれを実施する文書分類装置を提供することができる。
また、上記実施の形態によれば、利用者は、算出した分類スコアを参照することにより、分類結果の妥当性をより効率良くチェックできるようになる。
さらに、上記実施の形態によれば、分類スコアの意味付けが明確であるため、一文書に付与する分類の数を機械的に設定するための、分類スコアの閾値の設定も容易になる。
なお、本発明は上記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。
本実施形態における文書分類装置の機能概要を説明する図である。 本発明の実施形態における分類スコア補正処理の概要を説明する図である。 本発明の実施形態における文書分類装置のハードウェア構成例を示すブロック図である。 本発明の実施形態における類似文書検索結果10、11のデータ構成例を示す図である。 本発明の実施形態における学習用文書−分類対応テーブル13のデータ構成例を示す図である。 本発明の実施形態における分類特定部12で用いる中間データの構成例を示す図である。 本発明の実施形態における分類結果14またはスコア補正前分類結果15のデータ構成例を示す図である。 本発明の実施形態におけるスコア補正値テーブル17のデータ構成例を示す図である。 本発明の実施形態におけるスコア補正部18の処理概要を説明する図である。 本発明の実施形態におけるスコア補正後分類結果19のデータ構成例を示す図である。 本発明の実施形態における分類特定部12の処理の一例を示すフローチャートである。 本発明の実施形態におけるスコア補正値算出部16の処理の一例を示すフローチャートである。 本発明の実施形態におけるスコア補正部18の処理の一例を示すフローチャートである。 本発明の実施形態におけるスコア補正値テーブル17の他のデータ構成例を示す図である。
符号の説明
1…分類対象文書集合、2…文書解析部、3…検索インデクス生成部、4…検索インデクス、5…単語辞書、6…文書選定部、7…学習用文書、8…分類対象文書、9…類似文書検索部、10…学習用文書に対する類似文書検索結果、11…分類対象文書に対する類似文書検索結果、12…分類特定部、13…学習用文書−分類対応テーブル、14…学習用文書に対する分類結果、15…分類対象文書に対するスコア補正前分類結果、16…スコア補正値算出部、17…スコア補正値テーブル、18…スコア補正部、19…分類対象文書に対するスコア補正後分類結果。
次に、スコア補正部18は、中間値Mとその分類精度、および、中間値Nとその分類精度から、当該分類スコアに対応する分類精度を算出する(ステップ702)。具体的には、中間値Mの分類精度+(中間値Nの分類精度−中間値Mの分類精度)×(分類スコアー中間値M)/(中間値N−中間値M)という演算によって算出できる。これを図9のグラフ上で説明する。点Aと点Bを直線で結び、分類スコア0.64の場合の分類精度の値を直線AB上にプロットすると点Cとなる。すなわち、分類スコア0.64の場合の分類精度(点CのY座標)は、点A,点Bの値から得られる相対的割合から、0.50+(0.59−0.50)×(0.64−0.55)/(0.65−0.55)=0.58と算出することができる。

Claims (4)

  1. 既に分類が付与された学習用文書集合および分類がまだ付与されていない分類対象文書集合から構成される分類対象文書集合と、学習用文書集合を構成する各学習用文書から重み付き単語を抽出する文書解析部と、前記学習用文書と前記重み付き単語を対応付けて格納した検索インデクスを生成する検索インデクス生成部と、前記分類対象文書から重み付き単語を抽出し、前記検索インデクスを参照して、当該分類対象文書に類似する文書を、前記学習用文書集合の中から検索する類似文書検索部と、前記学習用文書に付与された分類を格納した学習用文書−分類対応テーブルを参照して、前記類似文書検索部によって検索された学習用文書に付与された分類の付与状況を解析して前記分類対象文書に対する分類スコアを分類毎に算出し、前記分類スコアの大小に応じて付与すべき分類を特定する分類特定部を備えた文書分類装置において、
    前記学習用文書集合を構成する各学習用文書を対象として、前記学習用文書−分類対応テーブルを参照して分類スコアを分類毎に算出し、該分類時の分類精度を前記分類スコアの値の範囲毎に算出し、該分類精度を前記分類スコアの値の範囲に対応付けてスコア補正値テーブルに格納するスコア補正値算出部と、
    前記スコア補正値テーブルを参照して、前記分類対象文書に対して算出された分類スコアと前記分類精度の間の乖離度合いに応じて分類スコアを補正するスコア補正部とを備えた、
    ことを特徴とする文書分類装置。
  2. 既に分類が付与された学習用文書集合および分類がまだ付与されていない分類対象文書集合から構成される分類対象文書集合と、前記学習用文書集合を構成する各学習用文書から重み付き単語を抽出する文書解析部と、前記学習用文書と前記重み付き単語を対応付けて格納した検索インデクスを生成する検索インデクス生成部と、前記分類対象文書から重み付き単語を抽出し、前記検索インデクスを参照して、当該分類対象文書に類似する文書を、前記学習用文書集合の中から検索する類似文書検索部と、前記学習用文書に付与された分類を格納した学習用文書−分類対応テーブルを参照して、前記類似文書検索部によって検索された学習用文書に付与された分類の付与状況を解析して前記分類対象文書に対する分類スコアを分類毎に算出し、前記分類スコアの大小に応じて付与すべき分類を特定する分類特定部を備えた文書分類装置における文書分類方法であって、
    前記学習用文書集合を構成する各学習用文書を対象として、前記学習用文書−分類対応テーブルを参照して分類スコアを分類毎に算出し、
    該分類時の分類精度を前記分類スコアの値の範囲毎に算出し、
    該分類精度を前記分類スコアの値の範囲に対応付けてスコア補正値テーブルに格納し、
    前記スコア補正値テーブルを参照して、前記分類対象文書に対して算出された分類スコアと前記分類精度の間の乖離度合いに応じて分類スコアを補正する、
    ことを特徴とする文書分類方法。
  3. 既に分類が付与された学習用文書集合および分類がまだ付与されていない分類対象文書集合から構成される分類対象文書集合と、前記学習用文書集合を構成する各学習用文書から重み付き単語を抽出する文書解析部と、前記学習用文書と前記重み付き単語を対応付けて格納した検索インデクスを生成する検索インデクス生成部と、前記分類対象文書から重み付き単語を抽出し、前記検索インデクスを参照して、当該分類対象文書に類似する文書を、前記学習用文書集合の中から検索する類似文書検索部と、前記学習用文書に付与された分類を格納した学習用文書−分類対応テーブルを参照して、前記類似文書検索部によって検索された学習用文書に付与された分類の付与状況を解析して前記分類対象文書に対する分類スコアを分類毎に算出し、前記分類スコアの大小に応じて付与すべき分類を特定する分類特定部を備えた文書分類装置において、
    前記学習用文書集合を構成する各学習用文書を対象として、前記学習用文書−分類対応テーブルを参照して分類スコアを分類毎に算出し、該分類時の分類精度を前記分類特定部で特定された分類毎および前記分類スコアの値の範囲毎に算出し、前記分類特定部で特定された分類毎に、前記分類精度を前記分類スコアの値の範囲に対応付けてスコア補正値テーブルに格納するスコア補正値算出部と、
    前記分類対象文書に対して算出された分類に対応する前記スコア補正値テーブルを参照して、前記分類対象文書に対して算出された分類スコアと前記分類精度の間の乖離度合いに応じて分類スコアを補正するスコア補正部とを備えた、
    ことを特徴とする文書分類装置。
  4. 既に分類が付与された学習用文書集合および分類がまだ付与されていない分類対象文書集合から構成される分類対象文書集合と、前記学習用文書集合を構成する各学習用文書から重み付き単語を抽出する文書解析部と、前記学習用文書と前記重み付き単語を対応付けて格納した検索インデクスを生成する検索インデクス生成部と、前記分類対象文書から重み付き単語を抽出し、前記検索インデクスを参照して、当該分類対象文書に類似する文書を、前記学習用文書集合の中から検索する類似文書検索部と、前記学習用文書に付与された分類を格納した学習用文書−分類対応テーブルを参照して、前記類似文書検索部によって検索された学習用文書に付与された分類の付与状況を解析して前記分類対象文書に対する分類スコアを分類毎に算出し、前記分類スコアの大小に応じて付与すべき分類を特定する分類特定部を備えた文書分類装置における文書分類方法であって、
    前記学習用文書集合を構成する各学習用文書を対象として、前記学習用文書−分類対応テーブルを参照して分類スコアを分類毎に算出し、
    該分類時の分類精度を前記分類特定部で特定された分類毎および前記分類スコアの値の範囲毎に算出し、
    前記分類特定部で特定された分類毎に、前記分類精度を前記分類スコアの値の範囲に対応付けてスコア補正値テーブルに格納し、
    前記分類対象文書に対して算出された分類に対応する前記スコア補正値テーブルを参照して、前記分類対象文書に対して算出された分類スコアと前記分類精度の間の乖離度合いに応じて分類スコアを補正する、
    ことを特徴とする文書分類方法。
JP2008321725A 2008-12-18 2008-12-18 文書分類装置、文書分類方法およびプログラム Expired - Fee Related JP4521459B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008321725A JP4521459B2 (ja) 2008-12-18 2008-12-18 文書分類装置、文書分類方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008321725A JP4521459B2 (ja) 2008-12-18 2008-12-18 文書分類装置、文書分類方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2010146222A true JP2010146222A (ja) 2010-07-01
JP4521459B2 JP4521459B2 (ja) 2010-08-11

Family

ID=42566614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008321725A Expired - Fee Related JP4521459B2 (ja) 2008-12-18 2008-12-18 文書分類装置、文書分類方法およびプログラム

Country Status (1)

Country Link
JP (1) JP4521459B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013025496A (ja) * 2011-07-19 2013-02-04 Nippon Telegr & Teleph Corp <Ntt> データ分類装置及び方法及びプログラム
CN104636402A (zh) * 2013-11-13 2015-05-20 阿里巴巴集团控股有限公司 一种业务对象的分类、搜索、推送方法和系统
JP2018169753A (ja) * 2017-03-29 2018-11-01 トヨタテクニカルディベロップメント株式会社 文書分類装置、文書分類方法及び文書分類プログラム
JP2020173673A (ja) * 2019-04-11 2020-10-22 富士通株式会社 文書処理方法、文書処理プログラムおよび情報処理装置
CN111897953A (zh) * 2020-07-08 2020-11-06 西北工业大学 一种新型网络媒体平台评论文本分类标注数据纠正方法
JP7400543B2 (ja) 2020-02-28 2023-12-19 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11167581A (ja) * 1997-12-04 1999-06-22 Ntt Data Corp 情報分類方法、装置及びシステム
JP2003108576A (ja) * 2001-09-28 2003-04-11 Toshiba Corp データベース管理装置およびデータベース管理方法
JP2008077252A (ja) * 2006-09-19 2008-04-03 Ricoh Co Ltd 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JP2008282111A (ja) * 2007-05-09 2008-11-20 Hitachi Ltd 類似文書検索方法、プログラムおよび装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11167581A (ja) * 1997-12-04 1999-06-22 Ntt Data Corp 情報分類方法、装置及びシステム
JP2003108576A (ja) * 2001-09-28 2003-04-11 Toshiba Corp データベース管理装置およびデータベース管理方法
JP2008077252A (ja) * 2006-09-19 2008-04-03 Ricoh Co Ltd 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JP2008282111A (ja) * 2007-05-09 2008-11-20 Hitachi Ltd 類似文書検索方法、プログラムおよび装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013025496A (ja) * 2011-07-19 2013-02-04 Nippon Telegr & Teleph Corp <Ntt> データ分類装置及び方法及びプログラム
CN104636402A (zh) * 2013-11-13 2015-05-20 阿里巴巴集团控股有限公司 一种业务对象的分类、搜索、推送方法和系统
CN104636402B (zh) * 2013-11-13 2018-05-01 阿里巴巴集团控股有限公司 一种业务对象的分类、搜索、推送方法和系统
JP2018169753A (ja) * 2017-03-29 2018-11-01 トヨタテクニカルディベロップメント株式会社 文書分類装置、文書分類方法及び文書分類プログラム
JP2020173673A (ja) * 2019-04-11 2020-10-22 富士通株式会社 文書処理方法、文書処理プログラムおよび情報処理装置
JP7243402B2 (ja) 2019-04-11 2023-03-22 富士通株式会社 文書処理方法、文書処理プログラムおよび情報処理装置
JP7400543B2 (ja) 2020-02-28 2023-12-19 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN111897953A (zh) * 2020-07-08 2020-11-06 西北工业大学 一种新型网络媒体平台评论文本分类标注数据纠正方法
CN111897953B (zh) * 2020-07-08 2022-12-30 西北工业大学 一种网络媒体平台评论文本分类标注数据纠正方法

Also Published As

Publication number Publication date
JP4521459B2 (ja) 2010-08-11

Similar Documents

Publication Publication Date Title
US20190228064A1 (en) Generation apparatus, generation method, and program
US10496755B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium storing program
US9195952B2 (en) Systems and methods for contextual mapping utilized in business process controls
US9898464B2 (en) Information extraction supporting apparatus and method
JP4521459B2 (ja) 文書分類装置、文書分類方法およびプログラム
US20080021891A1 (en) Searching a document using relevance feedback
US20210157977A1 (en) Display system, program, and storage medium
US8676738B2 (en) Relationship detector, relationship detection method, and recording medium
CN116401464B (zh) 一种职业用户画像的构建方法、装置、设备及存储介质
CN112685475A (zh) 报表查询方法、装置、计算机设备及存储介质
US7734633B2 (en) Listwise ranking
CN112784054A (zh) 概念图处理装置、概念图处理方法和计算机可读介质
US20170154294A1 (en) Performance evaluation device, control method for performance evaluation device, and control program for performance evaluation device
JP2016177359A (ja) 検索装置及びプログラム
CN113780365A (zh) 样本生成方法和装置
JP5439235B2 (ja) 文書分類方法、文書分類装置、およびプログラム
CN112734307A (zh) 一种在线实时企业画像生成方法、装置、设备及存储介质
JP6883561B2 (ja) 脆弱性推定装置及び脆弱性推定方法
CN111737548A (zh) 点选验证码识别方法、装置、计算机设备和存储介质
US10467530B2 (en) Searching text via function learning
CN108170665B (zh) 基于综合相似度的关键词拓展方法和装置
WO2021250950A1 (ja) 文書検索の性能を評価する方法、システム、および装置
US20230177362A1 (en) Risk assessment apparatus, risk assessment method, and program
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
CN112131475A (zh) 一种可解释、可交互的用户画像方法及装置

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100518

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100524

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130528

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4521459

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130528

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees