JP2009294938A - 文書分類装置 - Google Patents

文書分類装置 Download PDF

Info

Publication number
JP2009294938A
JP2009294938A JP2008148389A JP2008148389A JP2009294938A JP 2009294938 A JP2009294938 A JP 2009294938A JP 2008148389 A JP2008148389 A JP 2008148389A JP 2008148389 A JP2008148389 A JP 2008148389A JP 2009294938 A JP2009294938 A JP 2009294938A
Authority
JP
Japan
Prior art keywords
category
document
categories
moving
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008148389A
Other languages
English (en)
Other versions
JP5215046B2 (ja
Inventor
Kazuyuki Goto
和之 後藤
Hideki Iwasaki
秀樹 岩崎
Yasunari Miyabe
泰成 宮部
Hiroshi Taira
博司 平
Shigeru Matsumoto
茂 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2008148389A priority Critical patent/JP5215046B2/ja
Publication of JP2009294938A publication Critical patent/JP2009294938A/ja
Application granted granted Critical
Publication of JP5215046B2 publication Critical patent/JP5215046B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】カテゴリの階層構造における各カテゴリについてユーザの意図に合うように移動できるように支援するとともに、カテゴリの移動にかかる作業を効率化し、ユーザの移動操作に応じてカテゴリの階層構造を適切に再構成する。
【解決手段】文書分類部3の単語ベクトル生成部31は、文書の単語ベクトル生成処理、カテゴリ内の文書の単語ベクトル生成処理、カテゴリの単語ベクトル生成処理を行なう。分類・クラスタリング部32は文書の分類・クラスタリング処理を行なう。カテゴリ編集部4の移動カテゴリ候補提示部41は、移動操作の候補となるカテゴリを提示する。移動カテゴリ再分類部42は、移動したカテゴリと異なるカテゴリが持つ文書および当該異なるカテゴリの少なくとも一方を適切な分類形態となるように再分類する。移動カテゴリ名変更部43は、移動したカテゴリの名称を再分類後において適切な名称に変更する。
【選択図】 図1

Description

本発明は、電子化された大量の文書をその内容に応じて分類・整理するための文書分類装置に関する。
近年、計算機の高性能化や記憶媒体の大容量化、計算機ネットワークの普及などに伴い、電子化された大量の文書を計算機システムに記憶管理して利用することが可能となった。ここでいう文書とは、例えば帳票、企画書、設計書といった業務文書や、マニュアル、特許、技術文献、法令、規程、議事録、ニュース記事、電子メール、ウェブページ、書籍などを指す。
このような大量の文書を未整理のまま計算機のファイルシステムやデータベースに記憶するだけでは、どこにどのような情報が存在するかが分からなくなり、せっかくの情報が利用できなくなるという問題が生じる。従って、文書を内容や用途に応じて分類・整理しておくことで情報の有効活用や共有の促進を図るといったことが行われている。
また、例えば日々作成され蓄積される日報や週報などの報告書や、顧客から送付されてくる問い合わせ、製品等の不具合情報、特許・技術文献等の知的財産などを分析・調査して内容の傾向を把握したり、新たな知見を得る目的にも、互いに内容が類似した文書同士をグルーピングしたりすることが行われている。このような文書の分類作業には労力がかかるため、文書を自動的に分類する技術が従来開発されている。
大量の文書を自動的に分類する技術には、大別すると教師あり分類と教師なし分類がある。教師あり分類は、あらかじめユーザが与えたカテゴリの構造と各カテゴリに分類されるべき訓練文書とに基づき、未分類の文書を自動的に分類する方法である。教師なし分類は主にクラスタリングと呼ばれ、ユーザが定義した文書の類似度に基づき、類似した文書同士を自動的にグルーピングし、カテゴリ構造自体も自動生成する方法である。
しかし、これらの技術による自動分類の結果はユーザが意図したものにならないことが多い。また、ある文書集合を自動または手作業で分類してカテゴリ構造を作成した後、新たな文書集合を追加して分類しようとすると、既存のカテゴリ構造では新しい文書をうまく分類できないこともある。
計算機処理による自動分類では、人間が手作業で行うような質の良い分類結果を得ることは困難であるし、文書をどのようなカテゴリ構造に分類すべきかはユーザ自身の意図にもよる。従って、ユーザと計算機との協調作業によってユーザが意図するカテゴリ構造を効率よく作成できるようにすることが望まれる。そこで、以下のような技術が提案されている。
その一つは、あるカテゴリに自動分類された文書をユーザが別のカテゴリに移動(割り当て直し)できるようにしたものである。もちろん、大量の文書をユーザが逐一移動するのは労力がかかるし、そもそも、どの文書をどのカテゴリに移動すべきかを判断すること自体が難しい。
従って、例えば特許文献1に開示されるように、自動分類による分類結果の適切さを判定する作業や、分類結果が誤りである場合に適切なカテゴリを見つける作業を効率良く行うための支援方法が考案されている。また、例えば特許文献2や特許文献3に開示されるように、適切なカテゴリが存在しない場合に新規のカテゴリを作成する必要性をユーザに提案する方法も考案されている。
さらに、例えば特許文献3に開示されるように、あるカテゴリに分類される文書数が少なくなった場合に当該カテゴリを削除するか、あるいは他のカテゴリへ併合することをユーザに提案したり、逆に、あるカテゴリへ分類される文書が多くなった場合に当該カテゴリを分割することを提案したりする方法も考案されている。
一方、例えば特許文献4に開示されるように、カテゴリの移動や削除等の変更の指示に応じて、既に分類されている文書を再分類する方法も考案されている。
特開平9−22414号公報 特開平5−342272号公報 特開2002−117046号公報 特開2000−137723号公報
従来の自動分類、特に教師なし分類(クラスタリング)には以下の課題がある。まず、ユーザが類似していると考える文書が別々のカテゴリに分類されてしまったり、逆に、類似していないと考える文書が同じカテゴリに分類されてしまったりすることがある。
一般的な文書クラスタリングにおいては、各文書の特徴を表すために単語ベクトルを用いることが多い。単語ベクトルとは、文書中に出現する各々の単語をベクトルの次元とし、各次元の値を当該単語の品詞や頻度などに基づいて計算した重みとして構成したベクトルである。そして、文書の間の類似度は、両文書の単語ベクトルの類似度(余弦など)を用いて定義する。
この類似度を用いて、文書集合から、互いによく類似した文書同士を選んでグルーピングしていくのがクラスタリングの処理である。この処理においては、単語ベクトル中のどの単語が類似度の計算において影響を及ぼすかは機械的に定められるため、その分類結果がユーザが意図しないものになってしまうことがある。
また、階層的に生成したカテゴリ構造の上位下位(親子)関係がユーザの意図に合わないことがある。また、カテゴリの同一階層(兄弟)に分類の観点が異なるカテゴリができてしまうことがある。
階層的クラスタリングの手法(凝集型あるいは分割型)によれば、互いに類似したカテゴリをまとめる上位のカテゴリを設けてカテゴリを階層的に構成することが可能である。しかしながら、文書もしくはカテゴリを類似したもの同士で凝縮あるいは分割していく順序は上述の単語ベクトルに影響され、先に凝縮されたもの(あるいは後で分割されたもの)が下位のカテゴリとなるよう機械的に定められる。
また、ある凝縮処理(あるいは分割処理)において影響の大きかった単語と別の凝縮処理(あるいは分割処理)において影響の大きかった単語とは何ら関係がないため、カテゴリの階層構造の同一階層にできる兄弟カテゴリは分類の観点としては異なる場合が多い。その結果、自動的に生成したカテゴリの階層構造はユーザの意図に合わないものになることが多い。
そこで、本発明の目的は、カテゴリの階層構造における各カテゴリについてユーザの意図に合うように移動できるように支援するとともに、カテゴリの移動にかかる作業を効率化し、ユーザの移動操作に応じてカテゴリの階層構造を適切に再構成することが可能になる文書分類装置を提供することにある。
すなわち、本発明に係わる文書分類装置は、複数の文書を記憶する文書記憶手段と、文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、カテゴリ記憶手段に記憶されるカテゴリのうち指定されたカテゴリの移動先候補または指定されたカテゴリの下に移動するカテゴリの候補を提示する移動カテゴリ候補提示手段とを備え、移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリ以外のカテゴリが持つ文書および当該カテゴリの少なくとも一方を適した分類形態となるように再分類することを特徴とする。
本発明によれば、カテゴリの階層構造における各カテゴリについてユーザの意図に合うように移動できるように支援するとともに、カテゴリの移動にかかる作業を効率化し、ユーザの移動操作に応じてカテゴリの階層構造を適切に再構成することができるので、カテゴリの移動という簡単な操作によって、ユーザが意図する階層構造を作成することができ、その操作に基づいて操作対象以外のカテゴリや文書も適切に再構成される。従って、クラスタリング等によって自動生成したカテゴリの階層構造を用いたり、過去に作成した階層構造を再利用したりして、効率よく意図通りの階層構造を作成することができる。
以下図面により本発明の実施形態について説明する。
図1は、本発明の実施形態における文書分類装置の構成例を表すブロック図である。
図1に示すように、本発明の実施形態における文書分類装置は、装置全体の処理動作を司る制御部1、記憶装置2、文書分類部3、カテゴリ編集部4、キーボードやマウスなどの入力装置5およびディスプレイ装置などの出力装置6を備え、それぞれがバス7を介して相互に接続される。
記憶装置2は、例えばハードディスクドライブや不揮発性メモリなどの記憶媒体であり、文書分類部3やカテゴリ編集部4による処理動作のためのプログラムを記憶する他、文書記憶部21およびカテゴリ記憶部22を有する。カテゴリ記憶部22には、後述するように、階層構造を構成する複数のカテゴリが記憶され、各カテゴリには、その親カテゴリ、つまり上位のカテゴリと、当該カテゴリが持つ文書の情報が記憶される。
文書分類部3は、記憶装置2の文書記憶部21に記憶されている文書集合を自動的に分類する手段であり、その分類結果すなわちカテゴリの集合を、カテゴリ記憶部22に記憶する。文書分類部3は単語ベクトル生成部31および分類・クラスタリング部32を有する。
文書分類部3の単語ベクトル生成部31は、文書記憶部21に記憶されている各文書から当該文書の特徴を表す単語ベクトルを生成する。また、カテゴリは文書の部分集合として表現するので、カテゴリの単語ベクトルは、当該カテゴリが持つ複数の文書の単語ベクトルを用い、単語ベクトル生成部31によって生成する。
また、文書分類部3の分類・クラスタリング部32は、文書とカテゴリの間の類似度を上述の単語ベクトルの類似度によって計算し、その類似度に基づいて文書を自動的に分類もしくはクラスタリングする手段である。
以上説明した図1の文書分類部3の単語ベクトル生成部31および分類・クラスタリング部32は、従来技術による文書分類装置が有する手段と同様の手段であるが、図1に示したカテゴリ編集部4は本発明の特徴的な手段であり、特にカテゴリの移動、つまり上位下位関係の付け替えを行えるようにした点が従来技術と比べて新規な点である。
カテゴリ編集部4は移動カテゴリ候補提示部41、移動カテゴリ再分類部42および移動カテゴリ名変更部43を有する。カテゴリ編集部4の移動カテゴリ候補提示部41は、ユーザが入力装置5を用いて指定したカテゴリについて、当該カテゴリを移動する先の候補として適した別のカテゴリ、または当該カテゴリの下に移動する候補として適した別のカテゴリを提示する。
また、移動カテゴリ再分類部42は、ユーザが入力装置5を用いて移動操作を行ったカテゴリについて、移動前には当該移動後のカテゴリとは別のカテゴリが持っていた文書や下位カテゴリのうち、移動後には当該カテゴリが持つ方が適切なものや、逆に移動前には当該カテゴリが持っていた文書や下位カテゴリのうち、移動後には別のカテゴリが持つ方が適切なものを、自動的に再分類する。
また、移動カテゴリ名変更部43は、移動したカテゴリの名称を当該移動先の階層構造において適切な名称に変更する。なお、カテゴリ編集部4には、上述のカテゴリ移動の操作以外にも、文書をあるカテゴリから別のカテゴリに移動する操作や、新しいカテゴリを作成する手段、既存のカテゴリを削除する手段、さらには複数のカテゴリを1つのカテゴリに統合する操作や1つのカテゴリを複数のカテゴリに分割する操作などを行う機能を設けてもよい。これらの機能は従来技術による文書分類装置の一部で実現される。
図2は、本発明の実施形態における文書分類装置の文書記憶部に記憶される文書情報の一例を表形式で示す図である。
記憶装置2の文書記憶部21には複数の文書の情報が記憶され、各文書は図2に示すように文書のユニークな識別子である文書番号、文書名、本文などの情報を持つ。また、本実施形態では文書の特徴を表す単語ベクトルも文書記憶部21にて文書毎に記憶する。その詳細については後述する。なお、本実施形態では発明の理解を容易にするために文書の特徴を単語ベクトルのみで表現しているが、例えば文書の属性情報(日時、種別、作成者など)を、文書を特徴付けるベクトルの要素としてもよい。
図3は、本発明の実施形態における文書分類装置のカテゴリ記憶部に記憶されるカテゴリ情報の一例を表形式で示す図である。
図3では3種類のカテゴリを示す。各カテゴリは当該カテゴリのユニークな識別子であるカテゴリ番号およびカテゴリ名を持つ。本実施形態では、カテゴリは0個または1個の親カテゴリつまりを持つとする。図3(a)に示したカテゴリはルートのカテゴリであるため親カテゴリを持たない。一方、図3(b)に示したカテゴリは、カテゴリ番号「C001」のカテゴリ、すなわち図3(a)で示したカテゴリを親に持ち、図3(c)に示したカテゴリはカテゴリ番号「C002」のカテゴリ、すなわち図3(b)で示したカテゴリを親カテゴリに持つ。また、各カテゴリが持つ文書の情報もカテゴリ記憶部22に記憶される。
例えば図3(c)に示したカテゴリは文書番号が「D021」「D079」「D193」などの文書を直接持つ。ここで、図3(b)に示したカテゴリは図3(c)に示したカテゴリの親カテゴリであるため、図3(b)に示したカテゴリは間接的に文書番号「D021」「D079」「D193」などの文書を持つことになる。
また、カテゴリの特徴を表す単語ベクトルもカテゴリ記憶部22にてカテゴリ毎に記憶される。その詳細については後述する。なお、ルートのカテゴリの単語ベクトルは不要なので「なし」とする。
図4は、本発明の実施形態における文書分類装置の処理動作の一例を示すフローチャートである。図5は、本発明の実施形態における文書分類装置による文書の単語ベクトルを求める処理動作の一例を示すフローチャートである。図6は、本発明の実施形態における文書分類装置によるカテゴリ内の文書の単語ベクトルを求める処理動作の一例を示すフローチャートである。図7は、本発明の実施形態における文書分類装置によるカテゴリの単語ベクトルを求める処理動作の一例を示すフローチャートである。
図5と図6に示した処理は、ともに文書の単語ベクトルを生成する処理を表すが、図5に示した処理で求められる単語ベクトルは、当該文書が属するカテゴリには依存しない単語ベクトルであるのに対し、図6に示した処理で求められる単語ベクトルは、図5に示した処理結果を用いて求められる、所定のカテゴリにおける文書の特徴を表す単語ベクトルである。また、図7に示した処理で求められる単語ベクトルは、図6の処理結果を用いて求められる、カテゴリの特徴を表す単語ベクトルである。
図4に示すように、文書分類部3の単語ベクトル生成部31は、文書の単語ベクトル生成処理を行ない(ステップS1)、次にカテゴリ内の文書の単語ベクトル生成処理を行ない(ステップS2)、次にカテゴリの単語ベクトル生成処理を行なう(ステップS3)。
ステップS1の処理の詳細について図5を参照して説明する。単語ベクトル生成部31は、処理の対象とする文書dから単語ベクトルを生成する対象とするテキストを取得する(ステップS11)。図2に示した例では、文書の「本文」のテキストを対象とするが、例えば「[要約]」、「[課題]」、「[解決方法]」などの見出しの部分は文書の内容には直接関係がないので、これらの見出しを対象テキストから除去する。
次に、単語ベクトル生成部31は取得済みのテキストを形態素解析し(ステップS12)、得られた単語(形態素)tのうち未選択の単語tがあれば(ステップS13のNO)、未選択の何れかの単語tを選択する。そして、単語ベクトル生成部31は、選択した単語tの品詞が単語ベクトルに含めるべき所定の品詞の単語であるか、あるいは不要語であるかどうかを調べる(ステップS14)。ここでは例えば、品詞が名詞やサ変名詞、固有名詞なである単語は単語ベクトルに含め、接続詞や副詞などは単語ベクトルに含めないといった単語の選別を行う。なお、文書の種類によっては文書の特徴を表さない単語については、不要語として除去する。例えば特許文書を処理対象とする場合には、「装置」、「手段」といった単語は文書の特徴を表さないので、不要語として除去する。
次に、単語ベクトル生成部31は文書dのテキスト中で単語tが出現する頻度tfを求め(ステップS15)、単語tを文書dの単語ベクトルvdにおける1つの次元とし、その次元のベクトルの値をtfとする(ステップS16)。
ステップS16の処理後はステップS13の処理に戻る。単語ベクトル生成部31は未選択の単語tがなければ(ステップS13のYES)、ステップS1の処理を終了する。
このようにして、図2に例示したような文書の単語ベクトルが生成される。例えば図2に示した「メール」という単語は頻度が10、すなわち文書中で10回出現したことを意味する。ただし図2に示した例では理解を容易にするために、値が0である次元、すなわち当該文書には出現していない単語は示しておらず、単語を出現頻度の多い順に記述している。
次にステップS2の処理の詳細について図6を参照して説明する。あるカテゴリcにおける文書dの特徴を表すベクトルを生成するために、単語ベクトル生成部31は、対象とするカテゴリcについて、これが直接あるいは間接的に持つ文書の集合を求め、これをDcとする(ステップS21)。
次に単語ベクトル生成部31は、ステップS16の処理で求めた単語ベクトルvdの各単語tについて未選択のものがあれば(ステップS22のNO)、当該未選択のいずれかの単語tを選択し、文書集合Dc中で当該選択した単語tを含む文書数dfcを求め(ステップS23)、選択済みの単語tを単語ベクトルvcdの1つの次元とし、その次元の値をtf*(log(|Dc|/dfc)+1)とする(ステップS24)。
ここで|Dc|は文書集合Dcの文書数である。この計算式は一般にTF・IDFと呼ばれ、従来より情報検索や文書分類の分野で広く使用されているものである。すなわち、単語tが文書dに出現する頻度が多い(ベクトルの値tfが大きい)ほど、また、カテゴリcが持つ文書のうち単語tを含む文書が少ない(文書数dfcが小さい)ほど、当該単語は文書dの特徴をよく表す単語であるとみなされる。
こうして生成された単語ベクトルvcdは、前述したように求めた単語ベクトルvdと比較すると、カテゴリcにおいて文書dの特徴をよく表す次元の値(単語の重み)が大きくなったベクトルとなる。なお、上記のIDFに相当する部分、すなわち、(log(|Dc|/dfc)+1)の部分は、カテゴリcが持つ文書の集合Dcを対象にしているため、特に文書集合Dcの文書数が少ない場合には、本来特徴的でない単語の重みが大きくなってしまうこともあり得る。
したがって、このIDFの部分を全ての文書集合Dおよび当該文書集合D中で単語tを含む文書数dfを用いて計算してもよいし、文書集合Dcで計算した値と文書集合Dで計算した値の両方を加味した値(例えば平均)を用いてもよい。さらに、ステップS23の処理、つまり単語tを含む文書数を求める処理では、例えば情報検索における転置ファイルのような手段を用いることで処理の効率を向上してもよい。
ステップS24の処理後はステップS22の処理に戻る。未選択の単語tがなければ(ステップS22のYES)、単語ベクトル生成部31は、単語ベクトルvcdの各次元の値を当該単語ベクトルvcdのノルム|vcd|で割ることによって正規化する(ステップS25)。その結果単語ベクトルvcdはノルムが1のベクトルとなる。
次にステップS3の処理の詳細について図7を参照して説明する。この処理で求める対象はカテゴリcの単語ベクトルである。カテゴリcの単語ベクトルは、カテゴリcの直接または間接の親カテゴリpにおけるカテゴリcの単語ベクトル(すなわちカテゴリpにおいてカテゴリcの特徴を表すベクトル)として求められる。
まず、単語ベクトル生成部31は、カテゴリcが直接・間接に持つ文書の集合をDcとする(ステップS31)。そして単語ベクトル生成部31は、求めたい単語ベクトルの初期値を空(すべての次元の値が0のベクトル)とする(ステップS32)。次に、単語ベクトル生成部31は、文書集合Dc中の各文書dのうち未選択の文書dがあれば(ステップS33のNO)、未選択のうち何れかの文書dを選択し、カテゴリpにおける選択済みの文書dの単語ベクトルvpdを求める(ステップS34)。これは図6に示した処理によって求めることができる。
そして単語ベクトル生成部31は、単語ベクトルvpdを単語ベクトルvpcに加える(ステップS35)。
ステップS35の処理後は、ステップS33の処理に戻る。単語ベクトル生成部31は未選択の文書dがなければ(ステップS33のYES)、単語ベクトルvpcの各次元の値を単語ベクトルvpcのノルム|vpc|で割ることによって正規化する(ステップS36)。その結果、単語ベクトルvpcはノルムが1のベクトルとなる。このようにして、単語ベクトルvpcは、親カテゴリpにおいてカテゴリcが持つ複数の文書の特徴を表す平均的なベクトルとして生成される。
図8は、本発明の実施形態における文書分類装置による文書の分類処理の一例を示すフローチャートである。ステップS3の処理後、文書分類部3の分類・クラスタリング部32は文書の分類・クラスタリング処理を行なう(ステップS4)。
ステップS4の処理の詳細について図8を参照して説明する。まず、分類・クラスタリング部32は、ユーザが入力装置5を用いて指定したカテゴリpが持つ文書集合を分類対象の文書集合とする(ステップS41)。カテゴリpは、既にいくつかの子カテゴリを持っていることもあるし、子カテゴリを1つも持っていないこともあるが、図8ではいずれの場合にも実行する処理の流れを記している。
すなわち、カテゴリpが直接持つ文書について、これを分類すべきpの子カテゴリが既に存在すれば、その子カテゴリに当該文書を分類するし、そのような子カテゴリが存在しなければ、かつ、後述するように新規の子カテゴリを作成するよう指示されているならば、当該文書を分類すべき子カテゴリを新規に作成する。
以下に説明する処理は、leader−follower法と呼ばれる単純なクラスタリング手法である。この手法では、分類・クラスタリング部32は、対象文書集合中の各文書dのうち未選択の文書dがあれば(ステップS42のNO)、未選択のうちいずれかの文書dを選択する。そして、分類・クラスタリング部32は、選択した文書dの分類先であるカテゴリcmaxの初期値を「なし」とし、文書dとcmaxの類似度の最大値の初期値を0とする(ステップS43)。
そして、分類・クラスタリング部32は、カテゴリpの各子カテゴリcのうち未選択のカテゴリがあれば(ステップS44のNO)、未選択のうちいずれかのカテゴリcを選択し、選択済みの文書dとカテゴリcの類似度sを求める(ステップS45)。ここで、文書dとカテゴリcとの類似度sは、図6および図7で説明した、文書の単語ベクトル(ここではvpd)と、カテゴリの単語ベクトル(vpc)との類似度(主にはベクトルの余弦)によって求める。
分類・クラスタリング部32は、類似度sが所定の閾値sth以上で、かつ最大値smaxより大きければ(ステップS46のYES)、cmax=cとし、smax=sとする(ステップS47)。
ステップS46の処理で「NO」と判別された場合やステップS47の処理後は、ステップS44の処理に戻る。分類・クラスタリング部32は、カテゴリpの各子カテゴリcのうち未選択のカテゴリがなければ(ステップS44のYES)、カテゴリcmax、すなわちカテゴリpの子カテゴリのうち文書dとの類似度が最大で、かつ当該類似度が閾値sth以上のカテゴリが存在すれば(ステップS48のYES)、文書dをカテゴリcmaxに分類する(ステップS51)。
分類・クラスタリング部32は、カテゴリcmaxが存在せず(ステップS48のNO)、かつ新規の子カテゴリを作成するよう指示されているならば(ステップS49のYES)、カテゴリpの子カテゴリとしてカテゴリcmaxを新規に作成し(ステップS50)、文書dをカテゴリcmaxに分類する(ステップS51)。
一方、分類・クラスタリング部32は、新規カテゴリを作成しないよう指定されている場合には(ステップS49のNO)、文書dは既存の子カテゴリのうち最も適切なカテゴリに分類されるが、適切な子カテゴリが存在しない場合(文書dはいずれの子カテゴリとも、類似度が閾値未満である場合)、文書dはどの子カテゴリにも分類しない。
ステップS51の処理後、分類・クラスタリング部32は、文書dが分類されたカテゴリcmaxの単語ベクトルを再計算する(ステップS52)。図7で説明したように、カテゴリの単語ベクトルは、本実施形態では当該カテゴリが持つ文書の単語ベクトルを平均したものであるため、カテゴリcmaxの単語ベクトルは文書dを追加する前のカテゴリcmaxの単語ベクトルvpcmaxと、文書dの単語ベクトルvpdとを用いて求めることができる。
すなわち、文書dを加える前のカテゴリcmaxが持つ文書数をとすれば、ベクトル|Dcmax|*vpcmax+vpdを、そのノルムで正規化して大きさを1としたベクトルが、カテゴリcmaxの新しい単語ベクトルとなる。以上の処理を各文書dについて繰り返し行うことで、カテゴリpが持つ文書は当該カテゴリpの子カテゴリに分類される。
ステップS49の処理で「NO」と判別された場合やステップS52の処理後は、ステップS42の処理に戻る。分類・クラスタリング部32は、対象文書集合中の各文書dのうち未選択の文書dがあり(ステップS42のNO)、ステップS50の処理にて作成された子カテゴリで、結局ただ1つの文書しか持たないようなものがあれば、その子カテゴリは不要であるので削除する(ステップS53)。以上に述べた処理は、文書の教師あり分類と教師なし分類を兼ねた比較的単純な処理であるが、本発明はこの方法に限定しない。
なお、leader−follower法自体は階層的な構造を持つカテゴリを生成しない方法ではあるが、例えば、あるカテゴリpを対象に図8で説明した処理を実行して作成した子カテゴリのうち、所定の子カテゴリcを対象にして、さらに当該図8に示した処理を実行することで、カテゴリcの子カテゴリ(すなわちカテゴリpの孫)を作成することができるので、カテゴリの階層構造を容易に作成できる。
次に、カテゴリ編集部4により移動すべきカテゴリの候補を提示する処理について説明する。
図9は、本発明の実施形態における文書分類装置による移動すべきカテゴリの候補の提示画面の一例を示す図である。図10は、本発明の実施形態における文書分類装置による移動すべきカテゴリの候補を提示する処理動作の一例を示すフローチャートである。図10に示した処理は、図9に示した提示画面を生成するために、移動カテゴリ候補提示部41によって実行される処理動作である。
図9に示した画面では、ユーザが入力装置5を用いてカテゴリ61を指定した場合、当該カテゴリが持つ特徴的な単語(以下、特徴語と呼ぶ。図9中では例えば「メール」など)を持った他のカテゴリが提示され、図9に示したようにカテゴリ62の特徴語が強調表示される。図9において、斜線が付されたカテゴリのマークはユーザにより入力装置5を用いて指定されたカテゴリのマークを示し、四角で囲まれた特徴語は強調表示された特徴語を示す。
ここで、カテゴリの特徴語とは図7に示した処理で説明したカテゴリの単語ベクトルのうち、次元の値、すなわち単語の重みが特に大きい単語である。図9に示した例では、カテゴリの特徴語のうち最も重みの大きい単語をそのカテゴリの名称として、当該単語を見出しとして用いて表示上も大きな字体で示しており、この見出し以外の特徴語は、その重みが大きい順に列挙して表示している。
図9に示したカテゴリ61では、「メール」という特徴語が見出しとして用いられ、その他にも「検索」、「送信」、「重要」などの特徴語が表示される。ユーザが入力装置5を用いてカテゴリ61を選択すると、このカテゴリと共通の特徴語を持つカテゴリとして、カテゴリ62、カテゴリ63などがあることが分かるので、ユーザは例えばカテゴリ62をカテゴリ61の下位に移動すべき、あるいはカテゴリ61をカテゴリ63の下位に移動すべきといった、移動操作の候補となるカテゴリを知ることができる。
ステップS4の処理後、カテゴリ編集部4の移動カテゴリ候補提示部41は、移動操作の候補となるカテゴリを提示する(ステップS5)。
ステップS5の処理の詳細について説明する。図10は、このような特徴語を強調表示することで移動操作の候補となるカテゴリを提示する処理の流れを示す。まず、移動カテゴリ候補提示部41は、ユーザが入力装置5を用いて、あるカテゴリc1を選択すると(ステップS61)、全カテゴリ中の各カテゴリc2について未選択のカテゴリがあれば(ステップS62のNO)、未選択のうちいずれかのカテゴリc2を選択する。
そして、移動カテゴリ候補提示部41は、カテゴリc2がカテゴリc1と共通の祖先(直接または間接の上位カテゴリで、かつ、ルートカテゴリ以外)のカテゴリpを持つかどうかを調べ(ステップS63)、カテゴリpが存在すれば(ステップS63のYES)、カテゴリc2の特徴語のうち、カテゴリc1の特徴語でもあり、かつカテゴリpの特徴語ではない単語を強調表示する(ステップS64)。一方、移動カテゴリ候補提示部41は、カテゴリpが存在しなければ(ステップS63のNO)、単純にカテゴリc2の特徴語のうちカテゴリc1の特徴語でもある単語を強調表示する(ステップS65)。
ステップS64の処理によって、多くの特徴語が強調されて表示が繁雑になることが防げる。すなわち例えば、図9に示したカテゴリ61とカテゴリ62の共通の祖先はカテゴリ65であるが、カテゴリ65より下位のカテゴリは全て「検索」という特徴語を持つことが自明であるため、これを逐一強調表示するということは行わないようにし、ユーザにとって分かりやすい過不足ない表示を行なう。
図9に示した例では、カテゴリ62の特徴語のうち四角で囲まれた特徴語は前述したステップS64の処理により強調表示された特徴語であり、カテゴリ63の特徴語のうち、特徴語64などの四角で囲まれた特徴語は前述したステップS65の処理により強調表示された特徴語である。
ステップS64,S65の処理後は、ステップS62の処理に戻る。ステップS62の処理で「NO」と判別された場合にはステップS5の処理が終了する。ステップS5の処理後、移動カテゴリ再分類部42は、移動カテゴリの再分類処理を行なう(ステップS6)。
図11は、本発明の実施形態における文書分類装置によるカテゴリの第1の例の移動前の状態を示す図である。図12は、本発明の実施形態における文書分類装置によるカテゴリの第1の例の移動後の状態を示す図である。図13は、本発明の実施形態における文書分類装置によるカテゴリの第2の例の移動前の状態を示す図である。図14は、本発明の実施形態における文書分類装置によるカテゴリの第2の例の移動後の状態を示す図である。
図11に示したカテゴリの階層構造のうち、あるカテゴリを移動させた例が図12である。同様に、図13に示したカテゴリの階層構造のうち、あるカテゴリを移動させた例が図14である。
図11から図14の図において楕円で示したものがカテゴリである。図11では、例えば図11ではカテゴリ81やカテゴリ82が楕円で示される。この楕円内に記した「検索」や「メール」が、当該カテゴリの名称、すなわち当該カテゴリの特徴を最もよく表す特徴語である。また、カテゴリ同士は親子関係(上位下位関係)を持ち、例えばカテゴリ81はカテゴリ82の親カテゴリであり、逆にカテゴリ81から見るとカテゴリ82は子カテゴリである。
図11に示した文書(a)は、カテゴリ82に分類されているということを示す。図11は、特許文書を自動分類した結果の例であるが、自動分類の典型的な欠点を示すものでもある。
第一に、例えば「メール」に関する特許文書がカテゴリ82、83、85に分散して分類されてしまい、ユーザはどのカテゴリにどのような文書があるかが分からない。
第二に、例えば図11に示した文書(a)と(d)のように、互いに類似した文書が別々のカテゴリに分類されてしまっている。
第三に、カテゴリ81「検索」の子カテゴリとして、「WWW」、「メール」、「自然文」、「要約」というカテゴリが作られているが、分類の観点がまちまちである。例えば「WWW」や「メール」はそれぞれ、「WWW検索」や「メールの検索」といった、「検索の対象(アプリケーション)」といった観点で特許文書を分類するものであるのに対し、「自然文」や「要約」は、「自然文検索」や「検索結果の要約」といった「検索の技術そのもの」に関わる特許文書を分類するカテゴリであり、それぞれ分類の観点が異なる。
このような問題を解消するため、まず図11に示した例では、ユーザが入力装置5を用いてカテゴリ82をカテゴリ85の下位カテゴリとする、すなわち図11に示した点線状の楕円87の位置に移動することを考える。そして、この移動操作を実行した後のカテゴリの階層構造を表した図が図12である。図11のカテゴリ82が点線状の楕円87の位置に移動された結果のカテゴリが図12に示すカテゴリ92であり、このカテゴリの名称は「メール」から「検索」へと変更されている。
すなわち、移動操作を行う前の図11にてカテゴリ82は、「検索」における「メール」に関する分類、つまりカテゴリ81におけるカテゴリ82という意味を持っていたが、移動後の図12では、「メール」における「検索」(カテゴリ95におけるカテゴリ92)という意味を持つため、その意味に適した名称になっている。
次に、カテゴリ82に属していなかった文書(c)(d)(e)が、カテゴリ92に分類される。さらに、カテゴリ82の子カテゴリではなかったカテゴリ83が、カテゴリ92の子カテゴリ、つまり図12に示したカテゴリ93となっている。
次に、図13と図14を用いて別の移動操作の例を説明する。この例は、図13に示したカテゴリ102「WWW」を、その親カテゴリ101「検索」の下から、別のカテゴリ108「収集」の下、すなわち図13に示した点線状の楕円109の位置に移動する例である。
図12で説明した例と同様に、移動対象のカテゴリ102の名称「WWW」は、移動後には図14に示したカテゴリ112に示すように「検索」に変更される。また、カテゴリ102が持っていた文書(c)(d)(e)や、カテゴリ102の子カテゴリ103、104は、それぞれ別のカテゴリに移動する。これは、これらの文書や子カテゴリが、カテゴリ102を移動した後は図14に示したカテゴリ112に属することが適切でなくなるからである。
すなわち図13に示したカテゴリ102の意味は、「検索」かつ「WWW」に関する文書を分類するカテゴリであったが、これを移動した結果、つまり図14に示したカテゴリ112では、「WWW」かつ「収集」かつ「検索」に関する文書を分類するカテゴリとなる必要が生じるため、この新しいカテゴリの階層構造において当該カテゴリに分類されるべきでない文書や子カテゴリ、すなわち「収集」とは関わりのない文書や子カテゴリは別のカテゴリに分類し直すのが適切である。本発明はこのような再分類を自動的に行うものである。
また、特に、カテゴリ102の子カテゴリ103「要約」は、図14に示した例ではカテゴリ116の子カテゴリとなるため、その名称は図14に示したカテゴリ113に示すように、「要約」から「WWW」へと変更される。このように本発明の実施形態における文書分類装置によれば、ユーザによるカテゴリの移動操作に従い、カテゴリの名称の変更と、文書および下位カテゴリの再分類が自動的に行われる。
その結果、ユーザは、自分の意図に合ったカテゴリの階層構造をカテゴリの移動という簡単な操作によって効率よく作成することができる。
以下、移動カテゴリ再分類部42によるステップS6の処理の詳細について説明する。図15は、本発明の実施形態における文書分類装置によるカテゴリの移動に従い文書および下位カテゴリを再分類する処理動作の一例を示すフローチャートである。
まず、移動カテゴリ再分類部42は、ユーザが入力装置5を用いてカテゴリcをカテゴリpの下からカテゴリqの下に移動した場合(ステップS71)、つまり移動操作の前ではカテゴリcの親カテゴリはカテゴリpであったが、カテゴリcを移動した後はカテゴリqがカテゴリcの親カテゴリとなった場合には、カテゴリcの単語ベクトルを再計算する(ステップS72)。
移動前のカテゴリcの単語ベクトルは、カテゴリpにおけるカテゴリcの単語ベクトル(上記の記法ではvpc)であったが、移動後にはカテゴリqにおけるカテゴリcの単語ベクトル(上記の記法ではvqc)となり、カテゴリpとカテゴリqがそれぞれ持つ文書の特徴の違いによって、カテゴリcの単語ベクトルの各単語の重みが変更される。ただし、ステップS72の処理は、カテゴリの単語ベクトルを厳密に計算する必要がある場合に行う処理であり、この処理は省略してもよい。
次に、移動カテゴリ再分類部42は、移動前にカテゴリcが持っていなかった文書のうち、移動後のカテゴリcが持つほうが適切であるような文書を求めて、これを当該カテゴリcに移動する処理を行う(ステップS73,S74,S75)。
移動カテゴリ再分類部42は、ステップS73の処理として、カテゴリpの各子カテゴリcpが持つ文書のうち、カテゴリcpよりもカテゴリcに類似した文書があれば、これを当該カテゴリcに移動する。
図11で説明した例では、カテゴリcpはカテゴリ84であり、その文書(c)が図12に示したカテゴリ92に移動する。ここで、文書とカテゴリとの類似度は、両者の単語ベクトルの類似度(図8で説明したように、主に余弦)によって求める。
移動カテゴリ再分類部42は、ステップS74の処理として、カテゴリqが持つ文書のうち、カテゴリqよりもカテゴリcに類似した文書があれば、これを当該カテゴリcに移動する(図11の例ではカテゴリ85の文書(d))。
移動カテゴリ再分類部42は、ステップS75の処理として、カテゴリqの各子カテゴリcqが持つ文書のうち、カテゴリcqよりもカテゴリcに類似した文書があれば、これを当該カテゴリcに移動する(図11の例ではカテゴリ86の文書(e))。
次に、移動カテゴリ再分類部42は、移動前にカテゴリcが持っていなかった子カテゴリのうち、移動後のカテゴリcが持つほうが適切であるようなカテゴリを求めて、これをカテゴリcに移動してカテゴリcの子カテゴリとする処理を行う(ステップS76,S77,S78)。
移動カテゴリ再分類部42は、ステップS76の処理として、カテゴリpの各子カテゴリcpが持つ子カテゴリのうち、カテゴリcpよりもカテゴリcに類似した子カテゴリがあれば、当該子カテゴリを当該カテゴリcに移動する。ここで、カテゴリ同士の類似度は両カテゴリの単語ベクトルの類似度(主に余弦)によって求める。図11と図12に示した例では、カテゴリ83がカテゴリ92の子カテゴリ93になる。
移動カテゴリ再分類部42は、ステップS77の処理として、カテゴリqが持つ子カテゴリのうち、カテゴリqよりもカテゴリcに類似した子カテゴリがあれば、これを当該カテゴリcに移動し、ステップS78の処理として、カテゴリqの各子カテゴリcqが持つ子カテゴリのうち、カテゴリcqよりもカテゴリcに類似した子カテゴリがあれば、やはり当該子カテゴリをカテゴリcに移動する。
次に、移動カテゴリ再分類部42は、カテゴリcが移動前に持っていた文書のうち、別のカテゴリに分類したほうが適切な文書があれば、これをカテゴリcから別のカテゴリに移動するという処理を行う(ステップS79,S80,S81,S82)。
移動カテゴリ再分類部42は、ステップS79の処理として、カテゴリcが持つ文書のうち、カテゴリcよりもカテゴリpに類似した文書があれば、これを当該カテゴリpに移動する。図13に示した例では、移動対象のカテゴリ102が持つ文書(d)が、移動後の図14では親カテゴリであるカテゴリ111に移動される。
移動カテゴリ再分類部42は、ステップS80の処理として、カテゴリcが持つ文書のうち、カテゴリcよりもカテゴリpのいずれかの子カテゴリcpに類似した文書があれば、この文書を当該カテゴリcpに移動する。図13の例では文書(e)が、カテゴリ102からカテゴリ105(図14ではカテゴリ115)に移動する。
移動カテゴリ再分類部42は、ステップS81の処理として、カテゴリcが持つ文書のうちカテゴリcよりもカテゴリqに類似した文書があれば、これを当該カテゴリqに移動し、ステップS82の処理として、カテゴリcが持つ文書のうち、カテゴリcよりもカテゴリqのいずれかの子カテゴリcqに類似した文書があれば、これを当該カテゴリcqに移動する。
次に、移動カテゴリ再分類部42は、カテゴリcが移動前に持っていた子カテゴリのうち、別のカテゴリに分類したほうが適切な子カテゴリがあれば、これをカテゴリcから別のカテゴリに移動するという処理を行う(ステップS83,S84,S85,S86)。
移動カテゴリ再分類部42は、ステップS83の処理として、カテゴリcが持つカテゴリのうち、カテゴリcよりもカテゴリpに類似した子カテゴリがあれば、これを当該カテゴリpに移動してカテゴリpの子カテゴリとする。図13に示した例では、移動対象のカテゴリ102が持つ子カテゴリのうち、カテゴリ104を、親カテゴリである101の下に移動する(図14ではカテゴリ114)。
移動カテゴリ再分類部42は、ステップS84の処理として、カテゴリcが持つ子カテゴリのうち、カテゴリcよりもカテゴリpのいずれかの子カテゴリcpに類似した子カテゴリがあれば、これを当該カテゴリcpに移動する。図13の例では、カテゴリ103がカテゴリ106の子カテゴリ(図14ではカテゴリ113)になり、その名称も「要約」から「WWW」に変更される。
移動カテゴリ再分類部42は、ステップS85の処理として、カテゴリcが持つ子カテゴリのうち、カテゴリcよりもカテゴリqに類似した子カテゴリがあれば、これを当該カテゴリqに移動し、ステップS86の処理として、カテゴリcが持つ子カテゴリのうち、カテゴリcよりもカテゴリqのいずれかの子カテゴリcqに類似した子カテゴリがあれば、これを当該カテゴリcqに移動する。ステップS86の処理が終了するとステップS6の処理が終了する。
なお、ステップS73からステップS76の処理では、カテゴリcの文書や子カテゴリの移動が行われるため、厳密にはカテゴリcの単語ベクトルを文書や子カテゴリの移動の都度、再計算する必要がある。
この場合、移動させる文書や子カテゴリの順序によって、再分類の結果が変わる可能性があるので、例えばステップS73からステップS78の処理では、カテゴリcに最も類似した文書あるいは子カテゴリから優先的に移動させるようにしてもよい。
同様にステップS79からステップS86の処理では、カテゴリcとの類似度が小さい文書あるいは子カテゴリから優先的に移動させるようにしてもよい。しかしながら、分類処理の厳密さがあまり問われない場合には、単語ベクトルの再計算処理を省略することで、処理効率を向上させてもよい。
ステップS6の処理後、移動カテゴリ名変更部43は、移動したカテゴリの名称変更処理を行なう(ステップS7)。
ステップS7の処理の詳細について説明する。図16は、本発明の実施形態における文書分類装置によるカテゴリの移動に従いカテゴリの名称を変更する処理動作の一例を示すフローチャートである。図15で説明したように、カテゴリの移動に応じて再分類の処理が行われるので、当該カテゴリの単語ベクトルの内容も変化する。
移動カテゴリ名変更部43は、ユーザが入力装置5を用いてカテゴリcをカテゴリpの下からカテゴリqの下に移動させた場合(ステップS91)、カテゴリcの名称が新しい親カテゴリqまたはその祖先、すなわちカテゴリqの直接または間接的に上位にあるカテゴリの名称と重複するかどうか調べる(ステップS92)。
移動カテゴリ名変更部43は、重複があれば(ステップS92のYES)、カテゴリcの特徴語のうち、カテゴリqとその祖先の名称を除いた最も特徴的な語をカテゴリcの名称とする(ステップS93)。
移動カテゴリ名変更部43は、前述した重複がなければ(ステップS92のNO)、カテゴリcの名称は変更しない(ステップS94)。ただし上述のように、カテゴリcを移動することで当該カテゴリcの単語ベクトルが変化するため、カテゴリcの特徴語も変わる可能性がある。
したがって、祖先のカテゴリとの名称の重複が生じない場合であっても、カテゴリcの名称が当該カテゴリcの特徴をあまりよく表さない語になっている場合には、移動後の新しい特徴語を用いてカテゴリcの名称を変更してもよい。
図17は、本発明の実施形態における文書分類装置の操作画面の一例を示す図である。図17に示した画面は、カテゴリ編集部4がユーザからのカテゴリの編集操作を受け付ける一方で、当該カテゴリ編集部4が行った処理の結果をユーザに対して提示するグラフィカルユーザインタフェースの例を示す図である。
上記に説明したように、例えば図11に示したカテゴリ81を移動してカテゴリ83の下位カテゴリにするという操作は、図17においてはユーザが入力装置5を用いて、移動対象のカテゴリ141を選択し、移動先の上位カテゴリ142の上にドラッグアンドドロップすることにより行われる。
なお、図17に示した領域143は、ユーザが入力装置5を用いて選択したカテゴリ141が持つ文書の一覧を表しており、これらの文書のうちユーザが入力装置5を用いて選択した文書144の内容が画面中の領域145の部分に表示されるようになっている。
以上に説明した、移動カテゴリ再分類部42による再分類の処理、および移動カテゴリ名変更部43による名称変更の処理は、ユーザのカテゴリ移動操作に応じて自動的に実行してもよいが、ユーザの明示的な指示があった場合にのみに再分類と名称変更の処理を行ってもよい。
また、再分類または名称変更の処理結果をユーザに提示してその採否をユーザが判定し、採用する場合にのみ再分類または名称変更の結果をカテゴリ記憶部22に記憶し、採用しない場合には処理結果を破棄するようにしてもよい。
さらには、ユーザが入力装置5を用いて、あるカテゴリの移動を仮に試行してみて、再分類と名称変更の処理を行い、その結果を参照して、この移動操作が適切でないと判断すれば操作自体を取りやめるといった形態も可能である。
このような変更は、上記で説明した処理の流れに軽微な変更を加えることで容易に実現することができる。また、本実施形態で説明した文書分類のモデルは、1つの文書が1つのカテゴリにのみ属すモデルであるが、1つの文書が複数のカテゴリに属すことが可能なモデルに拡張することも容易に行える。
なお、この発明は前記実施形態そのままに限定されるものではなく実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を省略してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
本発明の実施形態における文書分類装置の構成例を表すブロック図。 本発明の実施形態における文書分類装置の文書記憶部に記憶される文書情報の一例を表形式で示す図。 本発明の実施形態における文書分類装置のカテゴリ記憶部に記憶されるカテゴリ情報の一例を表形式で示す図。 本発明の実施形態における文書分類装置の処理動作の一例を示すフローチャート。 本発明の実施形態における文書分類装置による文書の単語ベクトルを求める処理動作の一例を示すフローチャート。 本発明の実施形態における文書分類装置によるカテゴリ内の文書の単語ベクトルを求める処理動作の一例を示すフローチャート。 本発明の実施形態における文書分類装置によるカテゴリの単語ベクトルを求める処理動作の一例を示すフローチャート。 本発明の実施形態における文書分類装置による文書の分類処理の一例を示すフローチャート。 本発明の実施形態における文書分類装置による移動すべきカテゴリの候補の提示画面の一例を示す図。 本発明の実施形態における文書分類装置による移動すべきカテゴリの候補を提示する処理動作の一例を示すフローチャート。 本発明の実施形態における文書分類装置によるカテゴリの第1の例の移動前の状態を示す図。 本発明の実施形態における文書分類装置によるカテゴリの第1の例の移動後の状態を示す図。 本発明の実施形態における文書分類装置によるカテゴリの第2の例の移動前の状態を示す図。 本発明の実施形態における文書分類装置によるカテゴリの第2の例の移動後の状態を示す図。 本発明の実施形態における文書分類装置によるカテゴリの移動に従い文書および下位カテゴリを再分類する処理動作の一例を示すフローチャート。 本発明の実施形態における文書分類装置によるカテゴリの移動に従いカテゴリの名称を変更する処理動作の一例を示すフローチャート。 本発明の実施形態における文書分類装置の操作画面の一例を示す図。
符号の説明
1…制御部、2…記憶装置、3…文書分類部、4…カテゴリ編集部、5…入力装置、6…出力装置、7…バス、21…文書記憶部、22…カテゴリ記憶部、31…単語ベクトル生成部、32…分類・クラスタリング部、41…移動カテゴリ候補提示部、42…移動カテゴリ再分類部、43…移動カテゴリ名変更部。

Claims (5)

  1. 複数の文書を記憶する文書記憶手段と、
    前記文書記憶手段に記憶された所定の文書集合を分類する文書分類手段と、
    前記文書分類手段による分類結果である複数のカテゴリの情報を記憶するカテゴリ記憶手段と、
    前記カテゴリ記憶手段に記憶されるカテゴリのうち指定されたカテゴリの移動先候補または前記指定されたカテゴリの下に移動するカテゴリの候補を提示する移動カテゴリ候補提示手段と、
    前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリ以外のカテゴリに属する文書および当該カテゴリの少なくとも一方を適した分類形態となるように再分類する移動カテゴリ再分類手段と
    を具備することを特徴とする文書分類装置。
  2. 前記移動カテゴリ再分類手段は、
    前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリの移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、前記移動したカテゴリの移動先のカテゴリの上位カテゴリ、または前記移動先のカテゴリと共通の上位カテゴリを有する別カテゴリに各々属する文書のうち何れかの文書を当該移動したカテゴリに分類する
    ことを特徴とする請求項1に記載の文書分類装置。
  3. 前記移動カテゴリ再分類手段は、
    前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、前記移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、前記移動先のカテゴリの上位カテゴリ、または前記移動先のカテゴリと共通の上位カテゴリを有する別カテゴリが各々有する下位カテゴリのうち何れかのカテゴリを前記移動したカテゴリの下位カテゴリとする
    ことを特徴とする請求項1に記載の文書分類装置。
  4. 前記移動カテゴリ再分類手段は、
    前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリに属する文書のうち何れかの文書を、前記移動元のカテゴリの上位カテゴリ、前記移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、前記移動先のカテゴリの上位カテゴリ、または前記移動先のカテゴリと共通の上位カテゴリを有する別カテゴリのいずれかのカテゴリに分類する
    ことを特徴とする請求項1に記載の文書分類装置。
  5. 前記移動カテゴリ再分類手段は、
    前記移動カテゴリ候補提示手段による提示後のカテゴリの移動に従い、当該移動したカテゴリが有する下位カテゴリのうち何れかのカテゴリを、前記移動元のカテゴリの上位カテゴリ、前記移動元のカテゴリと共通の上位カテゴリを有する別カテゴリ、前記移動先のカテゴリの上位カテゴリ、または前記移動先のカテゴリと共通の上位カテゴリを有する別カテゴリのいずれかのカテゴリの下位カテゴリとする
    ことを特徴とする請求項1に記載の文書分類装置。
JP2008148389A 2008-06-05 2008-06-05 文書分類装置 Active JP5215046B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008148389A JP5215046B2 (ja) 2008-06-05 2008-06-05 文書分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008148389A JP5215046B2 (ja) 2008-06-05 2008-06-05 文書分類装置

Publications (2)

Publication Number Publication Date
JP2009294938A true JP2009294938A (ja) 2009-12-17
JP5215046B2 JP5215046B2 (ja) 2013-06-19

Family

ID=41543067

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008148389A Active JP5215046B2 (ja) 2008-06-05 2008-06-05 文書分類装置

Country Status (1)

Country Link
JP (1) JP5215046B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198137A (ja) * 2010-03-19 2011-10-06 Toshiba Corp 文書分類装置およびプログラム
JP2011198111A (ja) * 2010-03-19 2011-10-06 Toshiba Corp 特徴語抽出装置及びプログラム
JP2012037936A (ja) * 2010-08-03 2012-02-23 Toshiba Corp 文書分析装置およびプログラム
JP2012256171A (ja) * 2011-06-08 2012-12-27 Sony Corp 情報処理装置および情報処理方法
AU2016204420A1 (en) * 2015-07-04 2017-01-19 Accenture Global Services Limited Generating a domain ontology using word embeddings
JP2018106390A (ja) * 2016-12-26 2018-07-05 Kddi株式会社 分類器生成装置、分類器生成方法、及びコンピュータプログラム
CN108597519A (zh) * 2018-04-04 2018-09-28 百度在线网络技术(北京)有限公司 一种话单分类方法、装置、服务器和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137723A (ja) * 1998-10-30 2000-05-16 Ricoh Co Ltd 文書分類装置、文書分類方法及び文書分類プログラムを記録した媒体
JP2002117046A (ja) * 2000-10-05 2002-04-19 Just Syst Corp 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003196298A (ja) * 2001-12-25 2003-07-11 Fujitsu Ltd 分野体系構築支援装置
JP2004030621A (ja) * 2002-05-08 2004-01-29 Toshiba Corp 情報整理支援方法とそのためのプログラム
JP2006285513A (ja) * 2005-03-31 2006-10-19 Hitachi Ltd 情報処理支援システム及び情報処理支援プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137723A (ja) * 1998-10-30 2000-05-16 Ricoh Co Ltd 文書分類装置、文書分類方法及び文書分類プログラムを記録した媒体
JP2002117046A (ja) * 2000-10-05 2002-04-19 Just Syst Corp 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003196298A (ja) * 2001-12-25 2003-07-11 Fujitsu Ltd 分野体系構築支援装置
JP2004030621A (ja) * 2002-05-08 2004-01-29 Toshiba Corp 情報整理支援方法とそのためのプログラム
JP2006285513A (ja) * 2005-03-31 2006-10-19 Hitachi Ltd 情報処理支援システム及び情報処理支援プログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198137A (ja) * 2010-03-19 2011-10-06 Toshiba Corp 文書分類装置およびプログラム
JP2011198111A (ja) * 2010-03-19 2011-10-06 Toshiba Corp 特徴語抽出装置及びプログラム
JP2012037936A (ja) * 2010-08-03 2012-02-23 Toshiba Corp 文書分析装置およびプログラム
JP2012256171A (ja) * 2011-06-08 2012-12-27 Sony Corp 情報処理装置および情報処理方法
AU2016204420A1 (en) * 2015-07-04 2017-01-19 Accenture Global Services Limited Generating a domain ontology using word embeddings
US10248718B2 (en) 2015-07-04 2019-04-02 Accenture Global Solutions Limited Generating a domain ontology using word embeddings
JP2018106390A (ja) * 2016-12-26 2018-07-05 Kddi株式会社 分類器生成装置、分類器生成方法、及びコンピュータプログラム
CN108597519A (zh) * 2018-04-04 2018-09-28 百度在线网络技术(北京)有限公司 一种话单分类方法、装置、服务器和存储介质
CN108597519B (zh) * 2018-04-04 2020-12-29 百度在线网络技术(北京)有限公司 一种话单分类方法、装置、服务器和存储介质

Also Published As

Publication number Publication date
JP5215046B2 (ja) 2013-06-19

Similar Documents

Publication Publication Date Title
Bazan et al. A new version of rough set exploration system
JP5215046B2 (ja) 文書分類装置
EP1622044B1 (en) Selective multi level expansion of data base via pivot point data
JP3303926B2 (ja) 構造化文書分類装置及び方法
US9183436B2 (en) Matching text to images
JP5160312B2 (ja) 文書分類装置
US7650575B2 (en) Rich drag drop user interface
US7877425B2 (en) Method for managing file using network structure, operation object display limiting program, and recording medium
JP5512489B2 (ja) ファイル管理装置及びファイル管理方法
JP5621773B2 (ja) 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム
JP2000137601A (ja) オブジェクト分析設計支援方法
JP2007072528A (ja) 文書構造解析方法、プログラム、装置
KR101773574B1 (ko) 데이터 테이블의 차트 시각화 방법
JP6008693B2 (ja) 情報処理装置及びその制御方法、プログラム
US20050210371A1 (en) Method and system for creating a table version of a document
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
KR20120099578A (ko) 문서 내의 목록들의 재구성
JP6173848B2 (ja) 文書分類装置
JP7281905B2 (ja) 文書評価装置、文書評価方法及びプログラム
JP4745419B2 (ja) 文書分類装置およびプログラム
JP4745424B2 (ja) 文書分類装置及び文書分類プログラム
JPH0869473A (ja) 文書管理装置および文書管理機能付きデータ処理装置
JP5616865B2 (ja) 文書分類方法
JP5100777B2 (ja) 文書分類装置およびプログラム
EP1574950A2 (en) Structured task naming

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110223

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130228

R150 Certificate of patent or registration of utility model

Ref document number: 5215046

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160308

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350