JP5160312B2 - 文書分類装置 - Google Patents

文書分類装置 Download PDF

Info

Publication number
JP5160312B2
JP5160312B2 JP2008148390A JP2008148390A JP5160312B2 JP 5160312 B2 JP5160312 B2 JP 5160312B2 JP 2008148390 A JP2008148390 A JP 2008148390A JP 2008148390 A JP2008148390 A JP 2008148390A JP 5160312 B2 JP5160312 B2 JP 5160312B2
Authority
JP
Japan
Prior art keywords
category
document
categories
integrated
integration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008148390A
Other languages
English (en)
Other versions
JP2009294939A (ja
Inventor
泰成 宮部
秀樹 岩崎
博司 平
和之 後藤
茂 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2008148390A priority Critical patent/JP5160312B2/ja
Publication of JP2009294939A publication Critical patent/JP2009294939A/ja
Application granted granted Critical
Publication of JP5160312B2 publication Critical patent/JP5160312B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、電子化された大量の文書をその内容に応じて分類・整理するための文書分類装置に関する。
近年、計算機の高性能化や記憶媒体の大容量化、計算機ネットワークの普及などに伴い、電子化された大量の文書を計算機システムに記憶管理して利用することが可能となった。ここでいう文書とは、例えば帳票、企画書、設計書といった業務文書や、マニュアル、特許、技術文献、法令、規程、議事録、ニュース記事、電子メール、ウェブページ、書籍などを指す。
このような大量の文書を未整理のまま計算機のファイルシステムやデータベースに記憶するだけでは、どこにどのような情報が存在するかが分からなくなり、せっかくの情報が利用できなくなるという問題が生じる。従って、文書を内容や用途に応じて分類・整理しておくことで情報の有効活用や共有の促進を図るといったことが行われている。
また、例えば日々作成され蓄積される日報や週報などの報告書や、顧客から送付されてくる問い合わせ、製品等の不具合情報、特許・技術文献等の知的財産などを分析・調査して内容の傾向を把握したり、新たな知見を得る目的にも、互いに内容が類似した文書同士をグルーピングしたりすることが行われている。このような文書の分類作業には労力がかかるため、文書を自動的に分類する技術が従来より開発されている。
大量の文書を自動的に分類する技術には、大別すると教師あり分類と教師なし分類がある。教師あり分類は、あらかじめユーザが与えたカテゴリの構造と各カテゴリに分類されるべき訓練文書とに基づき、未分類の文書を自動的に分類する方法である。教師なし分類は主にクラスタリングと呼ばれ、ユーザが定義した文書の類似度に基づき、類似した文書同士を自動的にグルーピングし、カテゴリ構造自体も自動生成する方法である。
しかし、これらの技術による自動分類の結果はユーザが意図したものにならないことが多い。また、ある文書集合を自動または手作業で分類してカテゴリ構造を作成した後、新たな文書集合を追加して分類しようとすると、既存のカテゴリ構造では新しい文書をうまく分類できないこともある。
計算機処理による自動分類では、人間が手作業で行うような質の良い分類結果を得ることは困難であるし、文書をどのようなカテゴリ構造に分類すべきかはユーザ自身の意図にもよる。従って、ユーザと計算機との協調作業によってユーザが意図するカテゴリ構造を効率よく作成できるようにすることが望まれる。そこで、以下のような技術が提案されている。
その一つは、あるカテゴリに自動分類された文書をユーザが別のカテゴリに移動(割り当て直し)できるようにしたものである。もちろん、大量の文書をユーザが逐一移動するのは労力がかかるし、そもそも、どの文書をどのカテゴリに移動すべきかを判断すること自体が難しい。
従って、例えば特許文献1に開示されるように、自動分類による分類結果の適切さを判定する作業や、分類結果が誤りである場合に適切なカテゴリを見つける作業を効率良く行うための支援方法が考案されている。また、例えば特許文献2や特許文献3に開示されるように、適切なカテゴリが存在しない場合に新規のカテゴリを作成する必要性をユーザに提案する方法も考案されている。
さらに、例えば特許文献3に開示されるように、あるカテゴリに分類される文書数が少なくなった場合に当該カテゴリを削除するか、あるいは他のカテゴリへ併合することをユーザに提案したり、逆に、あるカテゴリへ分類される文書が多くなった場合に当該カテゴリを分割することを提案したりする方法も考案されている。
一方、例えば特許文献4に開示されるように、カテゴリの移動や削除等の変更の指示に応じて、既に分類されている文書を再分類する方法も考案されている。
特開平9−22414号公報 特開平5−342272号公報 特開2002−117046号公報 特開2000−137723号公報
従来の自動分類、特に教師なし分類(クラスタリング)には以下の課題がある。まず、ユーザが類似していると考える文書が別々のカテゴリに分類されてしまったり、逆に、類似していないと考える文書が同じカテゴリに分類されてしまったりすることがある。
一般的な文書クラスタリングにおいては、各文書の特徴を表すために単語ベクトルを用いることが多い。単語ベクトルとは、文書中に出現する各々の単語をベクトルの次元とし、各次元の値を当該単語の品詞や頻度などに基づいて計算した重みとして構成したベクトルである。そして、文書の間の類似度は、両文書の単語ベクトルの類似度(余弦など)を用いて定義する。
この類似度を用いて、文書集合から、互いによく類似した文書同士を選んでグルーピングしていくのがクラスタリングの処理である。この処理においては、単語ベクトル中のどの単語が類似度の計算において影響を及ぼすかは機械的に定められるため、その分類結果がユーザが意図しないものになってしまうことがある。
また、生成したカテゴリ構造において、あるカテゴリAとあるカテゴリBにおいて、ある観点で見ると一つのカテゴリに統合できることがあり、ユーザの意図に合わないことがある。
前述した特許文献3には、ユーザの思い通りの分類結果にならなかったときに、カテゴリの統合によって、分類構造を作成していく構成が開示されている。しかし、複数のカテゴリを統合しても、ユーザが他にも統合できるカテゴリがないか把握するために全てのカテゴリを探していくことは各カテゴリに属する文書を全て閲覧しなければならず、大変である。また、似た文書が存在するカテゴリ同士を統合しても、統合されたカテゴリ内にはカテゴリに属するのに不適切な文書が存在することがある。
そこで、本発明の目的は、カテゴリの階層構造における各カテゴリを、ユーザの意図に合うように統合するための作業を効率化し、ユーザの統合操作に応じてカテゴリの階層構造を適切に再構成することが可能になる文書分類装置を提供することにある。
すなわち、本発明に係わる文書分類装置は、複数の文書を記憶する文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、カテゴリ記憶手段に記憶されるカテゴリのうち統合対象の一カテゴリの選択操作を受け付ける第1の選択手段と、選択されたカテゴリとの統合対象のカテゴリの候補を当該選択されたカテゴリおよびその他のカテゴリの間の類似度をもとに提示する統合カテゴリ候補提示手段と、提示された候補のうち何れかのカテゴリの選択操作を受け付ける第2の選択手段と、第1および第2の選択手段により選択されたカテゴリの統合カテゴリとの間の類似度が所定の条件を満たすカテゴリを検出する検出手段とを備え、第1および第2の選択手段により選択されたカテゴリおよび検出手段により検出したカテゴリを統合することを特徴とする。
本発明によれば、カテゴリの階層構造における各カテゴリをユーザの意図に合うように統合するための作業を効率化し、ユーザの統合操作に応じてカテゴリの階層構造を適切に再構成することができる。
以下図面により本発明の実施形態について説明する。
図1は、本発明の実施形態における文書分類装置の構成例を表すブロック図である。
図1に示すように、本発明の実施形態における文書分類装置は、装置全体の処理動作を司る制御部1、記憶装置2、文書分類部3、カテゴリ統合部4、キーボードやマウスなどの入力装置5およびディスプレイ装置などの出力装置6を備え、それぞれがバス7を介して相互に接続される。
記憶装置2は、例えばハードディスクドライブや不揮発性メモリなどの記憶媒体であり、文書分類部3やカテゴリ統合部4による処理動作のためのプログラムを記憶する他、文書記憶部21およびカテゴリ記憶部22を有する。カテゴリ記憶部22には、後述するように、階層構造を構成する複数のカテゴリが記憶され、各カテゴリには、その親カテゴリ、つまり上位のカテゴリと、当該カテゴリが持つ文書の情報が記憶される。
文書分類部3は、記憶装置2の文書記憶部21に記憶されている文書集合を自動的に分類する手段であり、その分類結果すなわちカテゴリの集合を、カテゴリ記憶部22に記憶する。文書分類部3は単語ベクトル生成部31および分類・クラスタリング部32を有する。
文書分類部3の単語ベクトル生成部31は、文書記憶部21に記憶されている各文書から当該文書の特徴を表す単語ベクトルを生成する。また、カテゴリは文書の部分集合として表現するので、カテゴリの単語ベクトルは、当該カテゴリが持つ複数の文書の単語ベクトルを用い、単語ベクトル生成部31によって生成する。
また、文書分類部3の分類・クラスタリング部32は、文書とカテゴリの間の類似度を上述の単語ベクトルの類似度によって計算し、その類似度に基づいて文書を自動的に分類もしくはクラスタリングする手段である。
以上説明した文書分類部3の単語ベクトル生成部31および分類・クラスタリング部32は、従来技術による文書分類装置が有する手段と同様の手段であるが、図1に示したカテゴリ統合部4は本発明の特徴的な手段であり、特に、カテゴリの統合を行った場合に、ユーザが選択したカテゴリ以外のカテゴリも統合される点と、統合されたカテゴリに属するのに不適切な文書を除去する点が従来技術と比べて新規な点である。
カテゴリ統合部4は統合カテゴリ候補提示部41、選択外カテゴリ統合部42不適切文書除去部43および適切文書追加部44を有する。カテゴリ統合部4の統合カテゴリ候補提示部41は、ユーザが指定した統合元カテゴリAについて、当該カテゴリを統合する先として適した別のカテゴリを統合先カテゴリBの候補として提示する。
選択外カテゴリ統合部42は、ユーザが統合操作を行ったカテゴリA,Bについて、カテゴリAとカテゴリBの同じ観点を抽出し、カテゴリA,B以外のカテゴリについて、観点が似たカテゴリも統合する。
また、不適切文書除去部43は、統合したカテゴリに属する文書のうち当該統合したカテゴリに属する文書として不適切な文書を判定する判定手段であり、統合したカテゴリに属する全ての文書のうち、統合したカテゴリに属するのに不適切な文書を除去する。適切文書追加部44は、選択外カテゴリ統合部42にて統合されなかったカテゴリの文書のうち、統合カテゴリに属するのに適切な文書を当該統合カテゴリに追加する。つまり、適切文書追加部44は、統合されなかったカテゴリに属する文書のうち統合したカテゴリに属する文書として適切な文書を判定する判定手段である。
なお、カテゴリ統合部4には、上述のカテゴリ移動の操作以外にも、文書をあるカテゴリから別のカテゴリに移動する操作や、新しいカテゴリを作成する手段、既存のカテゴリを削除する手段、さらには複数のカテゴリを1つのカテゴリに統合する操作や1つのカテゴリを複数のカテゴリに分割する操作などを行う機能を設けてもよい。これらの機能は従来技術による文書分類装置の一部で実現されており、本発明に本質的に関わるものではないため、詳細な説明は省略する。
図2は、本発明の実施形態における文書分類装置の文書記憶部に記憶される文書情報の一例を表形式で示す図である。
記憶装置2の文書記憶部21には複数の文書の情報が記憶され、各文書は図2に示すように文書のユニークな識別子である文書番号、文書名、本文などの情報を持つ。また、本実施形態では文書の特徴を表す単語ベクトルも文書記憶部21にて文書毎に記憶する。その詳細については後述する。なお、本実施形態では発明の理解を容易にするために文書の特徴を単語ベクトルのみで表現しているが、例えば文書の属性情報(日時、種別、作成者など)を、文書を特徴付けるベクトルの要素としてもよい。
図3は、本発明の実施形態における文書分類装置のカテゴリ記憶部に記憶されるカテゴリ情報の一例を表形式で示す図である。
図3では3種類のカテゴリを示す。各カテゴリは当該カテゴリのユニークな識別子であるカテゴリ番号およびカテゴリ名を持つ。また、本実施形態では、カテゴリは0個または1個の親カテゴリを持つとする。図3(a)に示したカテゴリはルートのカテゴリであるため親カテゴリを持たない。一方、図3(b)に示したカテゴリは、カテゴリ番号「C001」のカテゴリ、すなわち図3(a)で示したカテゴリを親に持ち、図3(c)に示したカテゴリはカテゴリ番号「C002」のカテゴリ、すなわち図3(b)で示したカテゴリを親カテゴリに持つ。また、各カテゴリが持つ文書の情報もカテゴリ記憶部22に記憶される。
例えば図3(c)に示したカテゴリは文書番号が「D021」「D079」「D193」などの文書を直接持つ。ここで、図3(b)に示したカテゴリは図3(c)に示したカテゴリの親カテゴリであるため、図3(b)に示したカテゴリは間接的に文書番号「D021」、「D079」、「D193」などの文書を持つことになる。
また、カテゴリの特徴を表す単語ベクトルもカテゴリ記憶部22にてカテゴリ毎に記憶される。その詳細については後述する。なお、ルートのカテゴリの単語ベクトルは不要なので「なし」とする。
図4は、本発明の実施形態における文書分類装置の処理動作の一例を示すフローチャートである。図5は、本発明の実施形態における文書分類装置による文書の単語ベクトルを求める処理動作の一例を示すフローチャートである。図6は、本発明の実施形態における文書分類装置によるカテゴリ内の文書の単語ベクトルを求める処理動作の一例を示すフローチャートである。図7は、本発明の実施形態における文書分類装置によるカテゴリの単語ベクトルを求める処理動作の一例を示すフローチャートである。
図5と図6に示した処理は、ともに文書の単語ベクトルを生成する処理を表すが、図5に示した処理で求められる単語ベクトルは、当該文書が属するカテゴリには依存しない単語ベクトルであるのに対し、図6に示した処理で求められる単語ベクトルは、図5に示した処理結果を用いて求められる、所定のカテゴリにおける文書の特徴を表す単語ベクトルである。また、図7に示した処理で求められる単語ベクトルは、図6の処理結果を用いて求められる、カテゴリの特徴を表す単語ベクトルである。
図4に示すように、文書分類部3の単語ベクトル生成部31は、文書の単語ベクトル生成処理を行ない(ステップS1)、次にカテゴリ内の文書の単語ベクトル生成処理を行ない(ステップS2)、次にカテゴリの単語ベクトル生成処理を行なう(ステップS3)。
ステップS1の処理の詳細について図5を参照して説明する。単語ベクトル生成部31は、処理の対象とする文書dから単語ベクトルを生成する対象とするテキストを取得する(ステップS11)。図2に示した例では、文書の「本文」のテキストを対象とするが、例えば「[要約]」、「[課題]」、「[解決方法]」などの見出しの部分は文書の内容には直接関係がないので、これらの見出しを対象テキストから除去する。
次に単語ベクトル生成部31は取得済みのテキストを形態素解析し(ステップS12)、得られた単語(形態素)tのうち未選択の単語tがあれば(ステップS13のNO)、未選択の何れかの単語tを選択する。そして、単語ベクトル生成部31は、選択した単語tの品詞が単語ベクトルに含めるべき所定の品詞の単語であるか、あるいは不要語であるかどうかを調べる(ステップS14)。ここでは例えば、品詞が名詞やサ変名詞、固有名詞なである単語は単語ベクトルに含め、接続詞や副詞などは単語ベクトルに含めないといった単語の選別を行う。なお、文書の種類によっては文書の特徴を表さない単語については、不要語として除去する。例えば特許文書を処理対象とする場合には、「装置」、「手段」といった単語は文書の特徴を表さないので、不要語として除去する。
次に単語ベクトル生成部31は文書dのテキスト中で単語tが出現する頻度tfを求め(ステップS15)、単語tを文書dの単語ベクトルvdにおける1つの次元とし、その次元のベクトルの値をtfとする(ステップS16)。
ステップS16の処理後はステップS13の処理に戻る。単語ベクトル生成部31は未選択の単語tがなければ(ステップS13のYES)、ステップS1の処理を終了する。
このようにして、図2に例示したような文書の単語ベクトルが生成される。例えば図2に示した「メール」という単語は頻度が10、すなわち文書中で10回出現したことを意味する。ただし図2に示した例では理解を容易にするために、値が0である次元、すなわち当該文書には出現していない単語は示しておらず、単語を出現頻度の多い順に記述している。
次にステップS2の処理の詳細について図6を参照して説明する。あるカテゴリcにおける文書dの特徴を表すベクトルを生成するために、単語ベクトル生成部31は、対象とするカテゴリcについて、これが直接あるいは間接的に持つ文書の集合を求め、これをDcとする(ステップS21)。
次に単語ベクトル生成部31は、ステップS16の処理で求めた単語ベクトルvdの各単語tについて未選択のものがあれば(ステップS22のNO)、当該未選択のいずれかの単語tを選択し、文書集合Dc中で当該選択した単語tを含む文書数dfcを求め(ステップS23)、選択済みの単語tを単語ベクトルvcdの1つの次元とし、その次元の値をtf*(log(|Dc|/dfc)+1)とする(ステップS24)。
ここで|Dc|は文書集合Dcの文書数である。この計算式は一般にTF・IDFと呼ばれ、従来より情報検索や文書分類の分野で広く使用されているものである。すなわち、単語tが文書dに出現する頻度が多い(ベクトルの値tfが大きい)ほど、また、カテゴリcが持つ文書のうち単語tを含む文書が少ない(文書数dfcが小さい)ほど、当該単語は文書dの特徴をよく表す単語であるとみなされる。
こうして生成された単語ベクトルvcdは、前述したように求めた単語ベクトルvdと比較すると、カテゴリcにおいて文書dの特徴をよく表す次元の値(単語の重み)が大きくなったベクトルとなる。なお、上記のIDFに相当する部分、すなわち、(log(|Dc|/dfc)+1)の部分は、カテゴリcが持つ文書の集合Dcを対象にしているため、特に文書集合Dcの文書数が少ない場合には、本来特徴的でない単語の重みが大きくなってしまうこともあり得る。
したがって、このIDFの部分を全ての文書集合Dおよび当該文書集合D中で単語tを含む文書数dfを用いて計算してもよいし、文書集合Dcで計算した値と文書集合Dで計算した値の両方を加味した値(例えば平均)を用いてもよい。さらに、ステップS23の処理、つまり単語tを含む文書数を求める処理では、例えば情報検索における転置ファイルのような手段を用いることで処理の効率を向上してもよい。
ステップS24の処理後はステップS22の処理に戻る。未選択の単語tがなければ(ステップS22のYES)、単語ベクトル生成部31は、単語ベクトルvcdの各次元の値を当該単語ベクトルvcdのノルム|vcd|で割ることによって正規化する(ステップS25)。その結果単語ベクトルvcdはノルムが1のベクトルとなる。
次にステップS3の処理の詳細について図7を参照して説明する。この処理で求める対象はカテゴリcの単語ベクトルである。カテゴリcの単語ベクトルは、カテゴリcの直接または間接の親カテゴリpにおけるカテゴリcの単語ベクトル(すなわちカテゴリpにおいてカテゴリcの特徴を表すベクトル)として求められる。
まず、単語ベクトル生成部31は、カテゴリcが直接・間接に持つ文書の集合をDcとする(ステップS31)。そして単語ベクトル生成部31は、求めたい単語ベクトルの初期値を空(すべての次元の値が0のベクトル)とする(ステップS32)。次に、単語ベクトル生成部31は、文書集合Dc中の各文書dのうち未選択の文書dがあれば(ステップS33のNO)、未選択のうち何れかの文書dを選択し、カテゴリpにおける選択済みの文書dの単語ベクトルvpdを求める(ステップS34)。これは図6に示した処理によって求めることができる。
そして単語ベクトル生成部31は、単語ベクトルvpdを単語ベクトルvpcに加える(ステップS35)。
ステップS35の処理後は、ステップS33の処理に戻る。単語ベクトル生成部31は未選択の文書dがなければ(ステップS33のYES)、単語ベクトルvpcの各次元の値を単語ベクトルvpcのノルム|vpc|で割ることによって正規化する(ステップS36)。その結果、単語ベクトルvpcはノルムが1のベクトルとなる。このようにして、単語ベクトルvpcは、親カテゴリpにおいてカテゴリcが持つ複数の文書の特徴を表す平均的なベクトルとして生成される。
図8は、本発明の実施形態における文書分類装置による文書の分類処理の一例を示すフローチャートである。ステップS3の処理後、文書分類部3の分類・クラスタリング部32は文書の分類・クラスタリング処理を行なう(ステップS4)。
ステップS4の処理の詳細について図8を参照して説明する。まず、分類・クラスタリング部32は、ユーザが入力装置5を用いて指定したカテゴリpが持つ文書集合を分類対象の文書集合とする(ステップS41)。カテゴリpは、既にいくつかの子カテゴリを持っていることもあるし、子カテゴリを1つも持っていないこともあるが、図8ではいずれの場合にも実行する処理の流れを記している。
すなわち、カテゴリpが直接持つ文書について、これを分類すべきpの子カテゴリが既に存在すれば、その子カテゴリに当該文書を分類するし、そのような子カテゴリが存在しなければ、かつ、後述するように新規の子カテゴリを作成するよう指示されているならば、当該文書を分類すべき子カテゴリを新規に作成する。
以下に説明する処理は、leader−follower法と呼ばれる単純なクラスタリング手法である。この手法では、分類・クラスタリング部32は、対象文書集合中の各文書dのうち未選択の文書dがあれば(ステップS42のNO)、未選択のうちいずれかの文書dを選択する。そして、分類・クラスタリング部32は、選択した文書dの分類先であるカテゴリcmaxの初期値を「なし」とし、文書dとcmaxの類似度の最大値の初期値を0とする(ステップS43)。
そして、分類・クラスタリング部32は、カテゴリpの各子カテゴリcのうち未選択のカテゴリがあれば(ステップS44のNO)、未選択のうちいずれかのカテゴリcを選択し、選択済みの文書dとカテゴリcの類似度sを求める(ステップS45)。ここで、文書dとカテゴリcとの類似度sは、図6および図7で説明した、文書の単語ベクトル(ここではvpd)と、カテゴリの単語ベクトル(vpc)との類似度(主にはベクトルの余弦)によって求める。
分類・クラスタリング部32は、類似度sが所定の閾値sth以上で、かつ最大値smaxより大きければ(ステップS46のYES)、cmax=cとし、smax=sとする(ステップS47)。
ステップS46の処理で「NO」と判別された場合やステップS47の処理後は、ステップS44の処理に戻る。分類・クラスタリング部32は、カテゴリpの各子カテゴリcのうち未選択のカテゴリがなければ(ステップS44のYES)、カテゴリcmax、すなわちカテゴリpの子カテゴリのうち文書dとの類似度が最大で、かつ当該類似度が閾値sth以上のカテゴリが存在すれば(ステップS48のYES)、文書dをカテゴリcmaxに分類する(ステップS51)。
分類・クラスタリング部32は、カテゴリcmaxが存在せず(ステップS48のNO)、かつ新規の子カテゴリを作成するよう指示されているならば(ステップS49のYES)、カテゴリpの子カテゴリとしてカテゴリcmaxを新規に作成し(ステップS50)、文書dをカテゴリcmaxに分類する(ステップS51)。
一方、分類・クラスタリング部32は、新規カテゴリを作成しないよう指定されている場合には(ステップS49のNO)、文書dは既存の子カテゴリのうち最も適切なカテゴリに分類されるが、適切な子カテゴリが存在しない場合(文書dはいずれの子カテゴリとも、類似度が閾値未満である場合)、文書dはどの子カテゴリにも分類しない。
ステップS51の処理後、分類・クラスタリング部32は、文書dが分類されたカテゴリcmaxの単語ベクトルを再計算する(ステップS52)。図7で説明したように、カテゴリの単語ベクトルは、本実施形態では当該カテゴリが持つ文書の単語ベクトルを平均したものであるため、カテゴリcmaxの単語ベクトルは文書dを追加する前のカテゴリcmaxの単語ベクトルvpcmaxと、文書dの単語ベクトルvpdとを用いて求めることができる。
すなわち、文書dを加える前のカテゴリcmaxが持つ文書数をとすれば、ベクトル|Dcmax|*vpcmax+vpdを、そのノルムで正規化して大きさを1としたベクトルが、カテゴリcmaxの新しい単語ベクトルとなる。以上の処理を各文書dについて繰り返し行うことで、カテゴリpが持つ文書は当該カテゴリpの子カテゴリに分類される。
ステップS49の処理で「NO」と判別された場合やステップS52の処理後は、ステップS42の処理に戻る。分類・クラスタリング部32は、対象文書集合中の各文書dのうち未選択の文書dがあり(ステップS42のNO)、ステップS50の処理にて作成された子カテゴリで、結局ただ1つの文書しか持たないようなものがあれば、その子カテゴリは不要であるので削除する(ステップS53)。以上に述べた処理は、文書の教師あり分類と教師なし分類を兼ねた比較的単純な処理であるが、本発明はこの方法に限定しない。
なお、leader−follower法自体は階層的な構造を持つカテゴリを生成しない方法ではあるが、例えば、あるカテゴリpを対象に図8で説明した処理を実行して作成した子カテゴリのうち、所定の子カテゴリcを対象にして、さらに当該図8に示した処理を実行することで、カテゴリcの子カテゴリ(すなわちカテゴリpの孫)を作成することができるので、カテゴリの階層構造を容易に作成できる。
図9は、本発明の実施形態における文書分類装置によるカテゴリ統合処理の一例を示すフローチャートである。ステップS4の処理後、カテゴリ統合部4はカテゴリ統合処理を行なう(ステップS5)。ステップS5の処理の詳細について説明する。
ここでは、各カテゴリのカテゴリ名および当該カテゴリの文書の内容を示すウインドウが出力装置6において画面表示されているものとする。この状態で、カテゴリ統合部4は、入力装置5への操作によりユーザが統合元カテゴリとしたいカテゴリ71を選択すると、当該カテゴリを統合元カテゴリAとして認識する(ステップS61)。
図10は、本発明の実施形態における文書分類装置による統合元カテゴリが選択された場合の提示画面の一例を示す図である。
カテゴリ統合部4は、当該選択されたカテゴリの名称と当該カテゴリに属する文書の中身を図10に示すように出力装置6に画面表示させる。図10に示した例では、カテゴリ71のカテゴリ名「過去最高」および当該カテゴリの文書を示すウインドウを枠で囲むことで、統合元カテゴリAを区別している。尚、ここでは文書の中身を表示しているが、当該カテゴリが持つ特徴的な単語でも良い。ここで、カテゴリが持つ特徴語的な単語とは、図7で説明したカテゴリの単語ベクトルのうち、次元の値、すなわち単語の重みが特に大きい単語である。
前述したように、ユーザが統合元カテゴリAを選択すると、統合カテゴリ候補提示部41は、選択された統合元カテゴリAの中心ベクトルおよびその他の各カテゴリの中心ベクトルの類似度をもとに、統合元カテゴリAとの統合先のカテゴリ候補を提示する(ステップS62)。
図11は、本発明の実施形態における文書分類装置による統合候補カテゴリの提示画面の一例を示す図である。
図11に示した例では、統合先カテゴリBの候補として、自カテゴリの中心ベクトルと選択済みのカテゴリ71の中心ベクトルとの類似度が高い上位4つのカテゴリ72,73,74,75が類似度の高い順で表示される。図11に示した例では、統合先カテゴリBの候補の各カテゴリについて類似度の順位を示す数字が付与されており、類似度の順位が「1」でカテゴリ名が「メモリカード」であるカテゴリ72がカテゴリ71との類似度が最も高いカテゴリとなる。カテゴリの中心ベクトルとは、図6で説明したように、あるカテゴリcに属する全ての文書dの特徴を表すベクトルを生成し、特徴ベクトルの平均値を算出した値である。
カテゴリ71と、他のカテゴリとの類似度は、図6および図7で説明した、カテゴリ71の中心ベクトルと、カテゴリ71以外のカテゴリ(例えば、カテゴリ72など)の中心ベクトルとの類似度(主にはベクトルの余弦)によって求める。
類似度順で表示することで、ユーザは統合元カテゴリとして選択したカテゴリ71と統合すべきカテゴリとしてカテゴリ72やカテゴリ73などがあることが分かるので、ユーザは統合候補となるカテゴリを画面上から容易に判断することができる。
図12は、本発明の実施形態における文書分類装置による統合カテゴリ名の入力を求める画面の一例を示す図である。ユーザが統合先カテゴリの候補の中から入力装置5を用いて統合先カテゴリBを選択した場合、カテゴリ統合部4は、統合元のカテゴリAと統合先カテゴリBとを統合した統合カテゴリの名称である統合カテゴリ名の入力画面を画面表示させる。
図12に示した例では、図11に示したカテゴリ71に相当するカテゴリ71と類似したカテゴリ72,73,74,75が統合先カテゴリBの候補として表示されている状態で、ユーザがカテゴリ73を統合先カテゴリBとして選択した場合の統合カテゴリのカテゴリ名の入力用のウインドウが示される。
ユーザが入力装置5を用いて統合カテゴリ名を入力すると(ステップS63)、選択外カテゴリ統合部42は、ステップS62の処理時に統合先カテゴリBの候補として提示されたカテゴリから統合先カテゴリBとして選択されたカテゴリを除いたカテゴリのうち、統合先カテゴリBとして選択されたカテゴリよりも類似した類似度高カテゴリがあるか否かを判別する(ステップS64)。
選択外カテゴリ統合部42は、類似度高カテゴリがあれば(ステップS64のYES)、当該類似度高カテゴリに属する文書には出現するが、選択済みのカテゴリBに出現しなかった単語の重みを低くする(ステップS65)。
続いて、選択外カテゴリ統合部42は、類似度高カテゴリに属する文書には出現しないが、選択済みのカテゴリBに出現する単語の重みを高くする(ステップS66)。
ステップS66の処理後、もしくは類似度高カテゴリがなかった場合には(ステップS64のNO)、選択外カテゴリ統合部42は、選択済みのカテゴリA、カテゴリBの両方に出現する単語の重みを高くする(ステップS67)。
そして選択外カテゴリ統合部42は、ユーザが入力した統合カテゴリ名の同義語、関連語を、外部辞書を用いて検索し、当該検索した単語の重みを重くする(ステップS68)。外部辞書は、日本語語彙大系などのシソーラス辞書ならば何でもよい。尚、ステップS68の処理は省略してもよい。
以上のステップS64〜ステップS68までの処理における単語の重みの調整後、選択外カテゴリ統合部42は、選択済みのカテゴリA,カテゴリB以外の各カテゴリのいずれかを選択し、当該選択したカテゴリである選択カテゴリの中心ベクトルとカテゴリA,Bの統合カテゴリの単語の中心ベクトルとの間の類似度を計算し(ステップS69)、各カテゴリのそれぞれについて計算を繰り返す。選択外カテゴリ統合部42は、計算の結果、前述した各カテゴリのうち、ある閾値以上の類似度であるカテゴリをカテゴリA,Bの統合カテゴリに統合する(ステップS70)。閾値はユーザが設定できるものとする。
図13は、本発明の実施形態における文書分類装置による統合後のカテゴリの提示画面の一例を示す図である。図13に示した例では、カテゴリ71とカテゴリ73が統合元カテゴリおよび統合先カテゴリとして選択された場合で、統合カテゴリ名「業績」が入力され、かつカテゴリ74が選択外カテゴリ統合部42によりカテゴリ71とカテゴリ73の統合カテゴリに統合された状態が示される。
選択以外のカテゴリの統合後、不適切文書除去部43によって、統合したカテゴリに属する文書のうち、当該カテゴリに属するのに不適切な文書を除去する。図14は、本発明の実施形態における文書分類装置による不適切文書除去処理の一例を示すフローチャートである。
まず、不適切文書除去部43は、統合カテゴリに属する文書のうち未選択の文書のいずれかを選択し(ステップS71)、当該選択した文書が統合する前の統合元カテゴリAや統合先カテゴリBのいずれかに属していたか否かをチェックする。
不適切文書除去部43は、ステップS71の処理で選択済みの文書がステップS61の処理で説明した統合元のカテゴリAに属していた場合は(ステップS72のYES)、当該選択済みの文書内の単語の重みを大きい程度に重くし(ステップS73)、統合元カテゴリAと統合したいカテゴリとしてユーザが選択した統合先カテゴリBに選択済みの文書が属していた場合は(ステップS74のYES)、当該選択済みの文書内の単語の重みをステップS73の処理と比較して小さい程度に重くし(ステップS75)、選択済み文書がカテゴリA,Bの何れにも属しておらず、統合カテゴリに属していた場合には(ステップS74のNO)、当該選択済みの文書内の単語の重みは変えない。以上の処理で単語の重みを調整する。
不適切文書除去部43は、統合カテゴリに属する文書のうち未選択の文書があれば(ステップS76のYES)、ステップS71の処理に戻り、未選択の文書がなければ(ステップS76のNO)、統合カテゴリの中心ベクトルと統合カテゴリに属する文書の単語ベクトルとの類似度を計算し、類似度の低い順で文書を並べ、類似度がある閾値以下となった文書を除去する(ステップS77)。閾値はユーザが設定できるものとする。
図15は、本発明の実施形態における文書分類装置による統合後のカテゴリにおける除去対象の不適切文書の提示画面の一例を示す図である。図15に示した例では、統合カテゴリに属する文書において、中心ベクトルと文書の単語ベクトルの類似度の低い順に文書の内容が表示され、これらの文書のうち前述した類似度の低い上位2つの文書が除去対象文書として下線によって強調表示される。
図16は、本発明の実施形態における文書分類装置による適切文書追加処理の一例を示すフローチャートである。適切文書追加処理は、不適切文書除去処理と逆の処理、すなわち統合カテゴリに属するのに適切な文書を探して当該カテゴリに追加する処理である。
まず、適切文書追加部24は、ステップS70の処理において、統合カテゴリとの類似度が閾値α以下であったため統合されなかったカテゴリのうち、別の閾値β(β<α)以上であったカテゴリがある場合(ステップS81のYES)、閾値β以上のカテゴリに属する各文書の単語ベクトルとカテゴリA,Bの統合カテゴリの中心ベクトルとの類似度を計算し(ステップS82)、当該計算した類似度が閾値αより大きいか否か判別する(ステップS83)。
適切文書追加部24は、ステップS83の処理で「YES」と判別された場合には、閾値がαより大きい文書を、カテゴリA,Bの統合カテゴリに属するのに適切な文書とし、カテゴリA,Bの統合カテゴリに追加する。
このように適切文書追加処理を行なえば、統合カテゴリに属するのに適切な文書が例えばステップS70の処理で統合されなかったカテゴリに存在している場合でも、より正確な分類構造が効率的に作成できる。また、適切文書追加処理を行なうタイミングは、ステップS70の処理後でもよいし不適切文書除去処理後でも良い。
次に、本実施形態の変形例として、統合元カテゴリAと統合先カテゴリBの双方に子カテゴリが存在しているときのカテゴリ統合処理および不適切文書除去処理について説明する。
図17は、本発明の実施形態における文書分類装置によるカテゴリ統合処理の変形例を示すフローチャートである。図18は、本発明の実施形態における文書分類装置による子カテゴリの統合処理における第1の遷移状態の例を示す図である。図19は、本発明の実施形態における文書分類装置による子カテゴリの統合処理における第2の遷移状態の例を示す図である。
まず、カテゴリ統合部4は、ユーザが選択した統合元カテゴリAの子カテゴリである子カテゴリAが存在し、かつ統合先カテゴリBの子カテゴリである子カテゴリBがそれぞれ存在するか否かを調べる(ステップS101)。
カテゴリ統合部4は、図18に示すように子カテゴリA,子カテゴリBがそれぞれ存在する場合には(ステップS101のYES)、子カテゴリAの中心ベクトルと子カテゴリBの中心ベクトル間の類似度を計算し、当該類似度が所定の閾値以上か調べる(ステップS102)。
カテゴリ統合部4は、類似度が閾値未満ならば(ステップS102のNO)、子カテゴリ間を統合せず、子カテゴリAおよび子カテゴリBは、カテゴリA,Bの統合カテゴリの子カテゴリとなる。
カテゴリ統合部4は、類似度が閾値以上ならば(ステップS102のYES)、図19に示すように子カテゴリ間を統合し、子カテゴリ間の統合カテゴリ名の入力を求めるためのウインドウを画面表示させる。これにより、ユーザが入力装置5を用いて子カテゴリ間の統合カテゴリ名を入力することができる(ステップS103)。
続いて、カテゴリ統合部4は、子カテゴリA,Bには出現しないが、その他のカテゴリに出現する単語の重みを低くする(ステップS104)。その他のカテゴリとは、子カテゴリA,Bの兄弟カテゴリ、つまり共通の親カテゴリに属するカテゴリである。カテゴリ統合部4は、子カテゴリA,Bには出現し、その他のカテゴリには出現しない単語の重みを高くする(ステップS105)。
カテゴリ統合部4は、子カテゴリA,Bの統合カテゴリに出現する単語の重みを高くする(ステップS106)。続いて、ステップS103の処理で説明したようにユーザが入力したカテゴリ名の同義語、関連語を、外部辞書を用いて検索し、当該検索した単語の重みを重くする(ステップS107)。外部辞書は、日本語語彙大系などのシソーラス辞書ならば、何でもよい。尚ステップS107の処理は省略が可能である。以上のステップS103〜ステップS107までの処理により単語の重みを調整する。
そして、選択外カテゴリ統合部42は、ステップS70の処理にてカテゴリA,Bの統合カテゴリに統合されたカテゴリのいずれかを選択し、当該選択カテゴリを子カテゴリA,Bの統合カテゴリに統合するか否かを判定するために、子カテゴリA,Bの統合カテゴリの単語の中心ベクトルと選択カテゴリの中心ベクトルとの間の類似度を計算する(ステップS108)。
選択外カテゴリ統合部42は、計算した類似度が所定の閾値以上で、且つ、当該類似度がステップS69の処理で計算した類似度よりも高いカテゴリを子カテゴリA,Bの統合カテゴリと統合する(ステップS109)。
次に、不適切文書除去部43によって、統合した子カテゴリに属する文書のうち、当該カテゴリに属するのに不適切な文書を除去する。
図20は、本発明の実施形態における文書分類装置による不適切文書除去処理の変形例を示すフローチャートである。
まず、不適切文書除去部43は、統合した子カテゴリに属する文書のうち未選択の文書のいずれかを選択し(ステップS111)、統合する前はどの子カテゴリに属していていたかチェックする。
不適切文書除去部43は、選択済みの文書が統合元の子カテゴリAに属していた場合は(ステップS112のYES)、選択済みの文書内の単語の重みを大きい程度で重くし(ステップS113)、子カテゴリBに選択済みの文書が属していた場合は(ステップS114のYES)、選択済みの文書内の単語の重みをステップS113の処理と比較して小さい程度で重くし(ステップS115)、選択済みの文書が子カテゴリA,Bの何れにも属しておらず、子カテゴリの統合カテゴリに属していた場合には(ステップS114のNO)、当該選択済みの文書内の単語の重みを変えない。以上の処理で単語の重みを調整する。
不適切文書除去部43は、統合した子カテゴリに属する文書のうち未選択の文書があれば(ステップS116のYES)ステップS111の処理に戻り、未選択の文書がなければ(ステップS116のNO)子カテゴリの統合カテゴリの中心ベクトルと子カテゴリの統合カテゴリに属する文書の単語ベクトルとの類似度を計算し、類似度の低い順で文書を並べ、類似度がある閾値以下となった文書を除去する(ステップS117)。
ここでは説明を簡単にするため子カテゴリは一つしか存在しない例で説明したが、当該カテゴリは複数あっても良く、また子カテゴリの子カテゴリ、すなわち孫カテゴリにおいても同様の統合処理を行っても良い。
以上のように、本発明の実施形態における文書分類装置では、統合カテゴリ候補提示部41によって、ユーザが指定したカテゴリ、典型的にはユーザが自分の意図と異なる構造になっていると考える部分に対し、これをどのカテゴリと統合すべきか、あるいは逆に、このカテゴリとどのカテゴリを統合すべきかの候補を知ることができるので、ユーザは多くのカテゴリを逐一調べて統合すべき対象を探す必要がなくなるのでユーザの労力を削減できる。
また、カテゴリの統合操作に従い、選択外カテゴリ統合部42によって、統合前には当該カテゴリとは別のカテゴリが持っていた文書や下位カテゴリのうち、統合後には当該カテゴリが持つ方が適切なカテゴリが自動的に選択されるので、過不足なく効率的に再分類が行われる。
さらに、不適切文書除去部43によって、統合カテゴリに属すると不適切な文書や統合後には別のカテゴリに属する方が適切な文書が自動的に選択されるので、過不足なく効率的に再分類が行われる。
つまり、カテゴリの統合という簡単な操作によって、ユーザが意図する階層構造を作成することができ、その操作に基づいて操作対象以外のカテゴリや文書も適切に再構成される。従って、クラスタリング等によって自動生成したカテゴリの階層構造を用いたり、過去に作成した階層構造を再利用したりして、効率よく意図通りの階層構造を作成することが可能となる。
以上に説明した、カテゴリ統合の処理、不適切文書除去処理および適切文書追加処理は、ユーザのカテゴリ統合操作に応じて自動的に実行してもよいが、ユーザの明示的な指示があった場合にのみ、これらの処理を行ってもよい。また、カテゴリ統合の処理、不適切文書除去処理および適切文書追加処理の結果をユーザに提示してその採否をユーザが判定し、採用する場合にのみ統合カテゴリの結果をカテゴリ記憶部22に記憶し、採用しない場合には処理結果を破棄するようにしてもよい。
さらには、ユーザがあるカテゴリの統合を仮に試行してみて、その結果を参照して、この統合操作が適切でないと判断すれば、操作自体を取りやめる、といった形態も可能である。このような変更は、上記で説明した処理の流れに軽微な変更を加えることで容易に実現することができる。また、本実施例で説明した文書分類のモデルは、1つの文書が1つのカテゴリにのみ属すモデルであるが、1つの文書が複数のカテゴリに属すことが可能なモデルに拡張することも容易に行える。
なお、この発明は前記実施形態そのままに限定されるものではなく実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を省略してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
本発明の実施形態における文書分類装置の構成例を表すブロック図。 本発明の実施形態における文書分類装置の文書記憶部に記憶される文書情報の一例を表形式で示す図。 本発明の実施形態における文書分類装置のカテゴリ記憶部に記憶されるカテゴリ情報の一例を表形式で示す図。 本発明の実施形態における文書分類装置の処理動作の一例を示すフローチャート。 本発明の実施形態における文書分類装置による文書の単語ベクトルを求める処理動作の一例を示すフローチャート。 本発明の実施形態における文書分類装置によるカテゴリ内の文書の単語ベクトルを求める処理動作の一例を示すフローチャート。 本発明の実施形態における文書分類装置によるカテゴリの単語ベクトルを求める処理動作の一例を示すフローチャート。 本発明の実施形態における文書分類装置による文書の分類処理の一例を示すフローチャート。 本発明の実施形態における文書分類装置によるカテゴリ統合処理の一例を示すフローチャート。 本発明の実施形態における文書分類装置による統合元カテゴリが選択された場合の提示画面の一例を示す図。 本発明の実施形態における文書分類装置による統合候補カテゴリの提示画面の一例を示す図。 本発明の実施形態における文書分類装置による統合カテゴリ名の入力を求める画面の一例を示す図。 本発明の実施形態における文書分類装置による統合後のカテゴリの提示画面の一例を示す図。 本発明の実施形態における文書分類装置による不適切文書除去処理の一例を示すフローチャート。 本発明の実施形態における文書分類装置による統合後のカテゴリにおける除去対象の不適切文書の提示画面の一例を示す図。 本発明の実施形態における文書分類装置による適切文書追加処理の一例を示すフローチャート。 本発明の実施形態における文書分類装置によるカテゴリ統合処理の変形例を示すフローチャート。 本発明の実施形態における文書分類装置による子カテゴリの統合処理における第1の遷移状態の例を示す図。 本発明の実施形態における文書分類装置による子カテゴリの統合処理における第2の遷移状態の例を示す図。 本発明の実施形態における文書分類装置による不適切文書除去処理の変形例を示すフローチャート。
符号の説明
1…制御部、2…記憶装置、3…文書分類部、4…カテゴリ統合部、5…入力装置、6…出力装置、7…バス、21…文書記憶部、22…カテゴリ記憶部、31…単語ベクトル生成部、32…分類・クラスタリング部、41…統合カテゴリ候補提示部、42…選択外カテゴリ統合部、43…不適切文書除去部、44…適切文書追加部。

Claims (5)

  1. 複数の文書を記憶する文書記憶手段と、
    前記文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、
    前記文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、
    前記カテゴリ記憶手段に記憶されるカテゴリのうち統合対象の一カテゴリの選択操作を受け付ける第1の選択手段と、
    前記選択されたカテゴリとの統合対象のカテゴリの候補を当該選択されたカテゴリおよびその他のカテゴリの間の類似度をもとに提示する統合カテゴリ候補提示手段と、
    前記提示された候補のうち何れかのカテゴリの選択操作を受け付ける第2の選択手段と、
    前記第1および第2の選択手段により選択されたカテゴリの統合カテゴリとの間の類似度が所定の条件を満たすカテゴリを検出する検出手段と、
    前記第1および第2の選択手段により選択されたカテゴリおよび前記検出手段により検出したカテゴリを統合するカテゴリ統合手段と
    を備えたことを特徴とする文書分類装置。
  2. 前記カテゴリ統合手段により統合したカテゴリに属する文書のうち当該統合したカテゴリに属する文書として不適切な文書を判定する判定手段をさらに備えた
    ことを特徴とする請求項1に記載の文書分類装置。
  3. 前記カテゴリ統合手段は、
    前記第1および第2の選択手段により選択されたカテゴリにそれぞれ属する別のカテゴリ同士の類似度が所定の条件を満たす場合に当該カテゴリ同士をさらに統合する
    ことを特徴とする請求項1に記載の文書分類装置。
  4. 前記カテゴリ統合手段により統合されなかったカテゴリに属する文書のうち前記カテゴリ統合手段により統合したカテゴリに属する文書として適切な文書を判定する判定手段をさらに備えた
    ことを特徴とする請求項1に記載の文書分類装置。
  5. 前記検出手段は、
    前記第1および第2の選択手段により選択されたカテゴリ以外のカテゴリのうち、自カテゴリの中心ベクトルと前記第1および第2の選択手段により選択されたカテゴリの統合カテゴリに属する文書中の単語の中心ベクトルとの類似度が所定の条件を満たすカテゴリを検出する
    ことを特徴とする請求項1に記載の文書分類装置。
JP2008148390A 2008-06-05 2008-06-05 文書分類装置 Active JP5160312B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008148390A JP5160312B2 (ja) 2008-06-05 2008-06-05 文書分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008148390A JP5160312B2 (ja) 2008-06-05 2008-06-05 文書分類装置

Publications (2)

Publication Number Publication Date
JP2009294939A JP2009294939A (ja) 2009-12-17
JP5160312B2 true JP5160312B2 (ja) 2013-03-13

Family

ID=41543068

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008148390A Active JP5160312B2 (ja) 2008-06-05 2008-06-05 文書分類装置

Country Status (1)

Country Link
JP (1) JP5160312B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5023176B2 (ja) * 2010-03-19 2012-09-12 株式会社東芝 特徴語抽出装置及びプログラム
JP5100777B2 (ja) * 2010-03-19 2012-12-19 株式会社東芝 文書分類装置およびプログラム
JP5060601B2 (ja) * 2010-08-03 2012-10-31 株式会社東芝 文書分析装置およびプログラム
JP5281104B2 (ja) * 2011-02-28 2013-09-04 楽天株式会社 広告管理装置、広告選択装置、広告管理方法、広告管理プログラム及び広告管理プログラムを記録した記録媒体
JP5389130B2 (ja) 2011-09-15 2014-01-15 株式会社東芝 文書分類装置、方法およびプログラム
JP6036331B2 (ja) * 2013-01-23 2016-11-30 富士通株式会社 管理方法、管理装置および管理プログラム
JP6359045B2 (ja) * 2016-03-16 2018-07-18 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP7272846B2 (ja) * 2019-03-28 2023-05-12 株式会社日立ソリューションズ東日本 文書分析装置および文書分析方法
WO2021166692A1 (ja) * 2020-02-21 2021-08-26 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0749875A (ja) * 1993-08-06 1995-02-21 Hitachi Ltd 文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム
JP4063489B2 (ja) * 2000-10-05 2008-03-19 株式会社ジャストシステム 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003196298A (ja) * 2001-12-25 2003-07-11 Fujitsu Ltd 分野体系構築支援装置
JP4744787B2 (ja) * 2002-05-08 2011-08-10 株式会社東芝 情報整理支援方法とそのためのプログラム
US7827179B2 (en) * 2005-09-02 2010-11-02 Nec Corporation Data clustering system, data clustering method, and data clustering program
JP4171757B2 (ja) * 2006-09-28 2008-10-29 株式会社東芝 オントロジー統合支援装置、オントロジー統合支援方法及びオントロジー統合支援プログラム

Also Published As

Publication number Publication date
JP2009294939A (ja) 2009-12-17

Similar Documents

Publication Publication Date Title
JP5160312B2 (ja) 文書分類装置
US7971150B2 (en) Document categorisation system
US8332439B2 (en) Automatically generating a hierarchy of terms
EP1678635B1 (en) Method and apparatus for automatic file clustering into a data-driven, user-specific taxonomy
US8108405B2 (en) Refining a search space in response to user input
JP4587512B2 (ja) ドキュメントデータ照会装置
KR100756921B1 (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
EP1736901B1 (en) Method for classifying sub-trees in semi-structured documents
US8543380B2 (en) Determining a document specificity
US20050081146A1 (en) Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
EP2045732A2 (en) Determining the depths of words and documents
JP5215046B2 (ja) 文書分類装置
JP4017354B2 (ja) 情報分類装置および情報分類プログラム
JP4630911B2 (ja) 文書分類装置、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP5100777B2 (ja) 文書分類装置およびプログラム
KR102086642B1 (ko) 가격등락에 따른 감성사전 구축과 합성곱 신경망 기반의 문장 감성 분류 시스템 및 방법
Lee et al. A classifier-based text mining approach for evaluating semantic relatedness using support vector machines
JP2001325104A (ja) 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体
KR101088483B1 (ko) 이종 분류체계들을 매핑시키는 방법 및 장치
US11100099B2 (en) Data acquisition device, data acquisition method, and recording medium
JP4189251B2 (ja) キーワード解析方法及びそれに使用するプログラム
Muppalla Information Retrieval by Identification of Signature Terms in Clusters
AU2008202064B2 (en) A data categorisation system
Bawankule et al. Sentence Level Text Extraction using Hierarchical Fuzzy Relational Clustering Algorithm
Suskar et al. Document Categorization by using Weighted J48 Classifier

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110223

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121212

R150 Certificate of patent or registration of utility model

Ref document number: 5160312

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350