JP4407272B2 - 文書分類方法、文書分類装置及び文書分類プログラム - Google Patents

文書分類方法、文書分類装置及び文書分類プログラム Download PDF

Info

Publication number
JP4407272B2
JP4407272B2 JP2003424905A JP2003424905A JP4407272B2 JP 4407272 B2 JP4407272 B2 JP 4407272B2 JP 2003424905 A JP2003424905 A JP 2003424905A JP 2003424905 A JP2003424905 A JP 2003424905A JP 4407272 B2 JP4407272 B2 JP 4407272B2
Authority
JP
Japan
Prior art keywords
group
cluster
document
classification
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003424905A
Other languages
English (en)
Other versions
JP2005182611A (ja
Inventor
賢一 沼田
稔 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2003424905A priority Critical patent/JP4407272B2/ja
Publication of JP2005182611A publication Critical patent/JP2005182611A/ja
Application granted granted Critical
Publication of JP4407272B2 publication Critical patent/JP4407272B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書群をその内容に基づいて分類する装置及び方法、特にユーザが所望する体系で文書群を自動的に分類する装置及び方法の改良に関する。
コンピュータ上において電子化された文書データファイル(以下、単に「文書」)群を、文書管理者や文書保持者等のユーザが所望する体系に分類したい場合、従来においては、ユーザが所望するグループの分類体系を事前に形成しておき、文書群を構成する各文書をその内容に基づいていずれかのグループに振り分けていた(例えば特許文献1,2参照)。
しかしながら、振り分けようとしている文書の内容が既存グループのいずれともカテゴリが一致していないような場合でも、前述した方法では、新しいグループを自動生成することができないために、文書をいずれかの既存のグループに振り分けなければならなかった。
そこで、新たなグループを生成しながら文書を分類できる方法として、例えば次のような方法がある。すなわち、全ての文書に対して類似度等の分析を行い、その分析結果に基づき内容の近いもの同士を集めてクラスタリングする方法である(例えば特許文献3,4参照)。この分類方法を用いれば、類似したカテゴリに属する文書によってグループを形成することができるようになる。
特開平6−348755号公報 特開2002−117046号公報 特開平2−158871号公報 特開平10−116290号公報
しかしながら、全ての文書に対して分析を行いクラスタリングする方法は、分類済みの文書に対しても再度分析を行い、分類体系をその都度形成し直されることになる。更に、この方法によれば、全ての文書に含まれるキーワードの出現頻度等に基づき文書間の距離や類似度を計算し、その距離の長短若しくは類似度の高低に基づき文書群をグループ分けすることになる。このため、この計算により求められる数値が、必ずしもユーザが所望するグループ分類を示す指標値となる保証はない。
すなわち、ユーザが所望するグループの分類体系を事前に形成しておくようにしてもカテゴリの異なる文書を振り分ける際に新たなグループを生成することができず、一方、新たなグループを生成できるようにすると形成された分類体系が、ユーザが所望する結果とならない場合が起こりうる。このように、いずれの方法においてもユーザが所望するグループに分類できるとは限らない。
本発明は、以上のような課題を解決するためになされたものであり、その目的は、文書群をユーザが所望するグループに分類することのできる改良された文書分類方法及びその装置を提供することにある。
以上のような目的を達成するために、本発明に係るプログラムは、複数の文書をユーザが所望するグループに分類する文書分類装置として、コンピュータシステムを機能させるためのプログラムであって、当該コンピュータを、記憶手段に記憶された分類体系に基づいて新たに分類する文書群を、その文書群に含まれる各文書の特徴量に基づいてクラスタ分けすると共に、各クラスタの特徴量を当該クラスタに属する文書の特徴量に基づき算出するクラスタリング手段、前記分類体系を形成する各グループの特徴量と、前記クラスタリング手段により算出された各クラスタの特徴量とに基づき各グループと各クラスタとの類似度を求める類似度算出手段、前記類似度算出手段により求められた類似度と予め設定されている基準値との比較結果に基づいて、当該クラスタを既存のグループに振り分けるか、あるいは当該クラスタを分類する新たなグループを生成して前記分類体系に追加するかを決定する分類手段、として機能させることを特徴とする。
また、前記クラスタリング手段は、文書群に含まれる各文書の特徴量を表す要素として、前記分類体系を形成するグループの各名称と、文書群において出現頻度の多い所定数のキーワードとを用いることを特徴とする。
また、前記分類手段は、前記類似度と前記基準値とを比較した結果、前記類似度算出手段により求められた類似度が前記基準値に達していないクラスタに対しては、当該クラスタを分類するためのグループを新たに生成し、前記類似度算出手段により求められた類似度が前記基準値に達している場合には、当該クラスタを最も類似度の高いグループに振り分けることを特徴とする。
また、前記クラスタリング手段は、各クラスタに対して当該クラスタに属する文書において出現頻度の多いキーワードの一つを当該クラスタの名称として決定し、前記分類手段は、前記類似度と前記基準値とを比較した結果、前記類似度判定手段により求められた類似度が前記基準値に達していないクラスタに対しては、当該クラスタを分類するためのグループを新たに生成し、前記類似度判定手段により求められた類似度が前記基準値に達している場合において、最も類似度の高いグループのグループ名と当該クラスタ名とが一致したときには当該クラスタを当該グループに振り分け、一致していないときには当該クラスタを分類するためのグループを、当該グループのサブグループとして新たに生成することを特徴とする。
本発明に係る文書分類装置は、複数の文書をユーザが所望するグループに分類するための分類体系が記憶される分類体系記憶手段と、新たに分類する文書群を、その文書群に含まれる各文書の特徴量に基づいてクラスタ分けすると共に、各クラスタの特徴量を当該クラスタに属する文書の特徴量に基づき算出するクラスタリング手段と、前記分類体系を形成する各グループの特徴量と、前記クラスタリング手段により算出された各クラスタの特徴量とに基づき各グループと各クラスタとの類似度を求める類似度算出手段と、前記類似度算出手段により求められた類似度と予め設定されている基準値との比較結果に基づいて、当該クラスタを既存のグループに振り分けるか、あるいは当該クラスタを分類する新たなグループを生成して前記分類体系に追加するかを決定する分類手段とを有することを特徴とする。
本発明に係る文書分類方法は、複数の文書をユーザが所望するグループに分類する、文書分類装置が実行する文書分類方法において、記憶手段に記憶された分類体系に基づいて新たに分類する文書群を、クラスタリング手段によりその文書群に含まれる各文書の特徴量に基づいてクラスタ分けすると共に、各クラスタの特徴量を当該クラスタに属する文書の特徴量に基づき算出するクラスタリングステップと、前記分類体系を形成する各グループの特徴量と、前記クラスタリングステップにより算出された各クラスタの特徴量とに基づき類似度算出手段により各グループと各クラスタとの類似度を求める類似度算出ステップと、前記類似度算出ステップにより求められた類似度と予め設定されている基準値との比較結果に基づいて、当該クラスタを既存のグループに振り分けるか、あるいは当該クラスタを分類手段により分類する新たなグループを生成して前記分類体系に追加するかを決定する分類ステップとを有することを特徴とする。
本発明によれば、新たに分類したい文書群を各文書の特徴量に応じてグループ分けして形成したクラスタと、既存の分類体系を形成する各グループのとの類似度を求め、類似度と予め設定されている基準値との比較結果に基づいて、当該クラスタを既存のグループに振り分けるか、あるいは当該クラスタを分類する新たなグループを生成して分類体系に追加するかを決定するようにした。これにより、ユーザが所望するグループ分けが確保されている分類体系に対して、クラスタが既存のグループに類似していれば、そのグループに振り分けることでユーザが所望するグループ分類を維持することができる。クラスタが既存のグループに類似していなければ、そのクラスタを分類するためのグループを新たに作成するようにしたので、この場合もユーザが所望するグループ分類を維持することができる。
以下、図面に基づいて、本発明の好適な実施の形態について説明する。
図1は、本発明に係る文書分類装置の一実施の形態を示したブロック構成図である。本実施の形態における文書分類装置は、分類体系作成部2、分類体系記憶部4、文書群受付部6、クラスタリング部8、カテゴリ特徴量抽出部10、類似度算出部12及びグループ分類部14を有している。分類体系作成部2は、文書管理者や文書保持者等のユーザが文書群を所望する体系に分類したい場合に、その分類体系をGUI(Graphical User Interface)機能等のユーザインタフェースを利用して事前に作成するための手段である。分類体系記憶部4には、分類体系作成部2によって作成された分類体系、またグループ分類部14によって更新された分類体系が記憶される。文書群受付部6は、分類体系記憶部4に記憶された分類体系に従い新たに分類しようとする1乃至複数の文書を受け付ける。クラスタリング部8は、新たに分類する文書群を、その文書群に含まれる各文書の特徴量に基づいてクラスタ分けすると共に、各クラスタの特徴量を当該クラスタに属する文書の特徴量に基づき算出する。クラスタリング部8には、図1に示したように文書特徴量抽出部16、クラスタ分類部18及びクラスタ特徴量抽出部20が含まれており、文書特徴量抽出部16は各文書の特徴量を算出し、クラスタ分類部18は文書群をクラスタ分けし、クラスタ特徴量抽出部20は各クラスタの特徴量を算出する。カテゴリ特徴量抽出部10は、既存の分類体系により分類分けされている各文書の特徴量に基づきグループ単位に特徴量を算出する。本実施の形態では、新たに分類される文書群に含まれ、かつ既存の分類体系に従ってまだグループ分けされていない文書のグループを上記のように「クラスタ」と称している。一方、既存の分類体系に従ってカテゴリ別にグループ分けされている文書のグループを「カテゴリ」と称している。類似度算出部12は、各グループと各クラスタとの類似度を求める。グループ分類部14は、類似度算出部12により求められた類似度と予め設定されている基準値との比較結果に基づいて各クラスタを既存の分類体系に当てはめる。この分類体系に当てはめる際に、本実施の形態においては、各クラスタを上記比較結果に基づいて既存のグループに振り分けるか、あるいは当該クラスタを分類する新たなグループを生成して分類体系に追加するかを決定することを特徴としている。
なお、本実施の形態は、分類体系に従い文書を体系立てて管理するための装置及び方法を提供するものであり、文書自体の格納場所については特に言及しない。このため、図1にも特に示していない。本実施の形態における文書分類装置は、一般的なパーソナルコンピュータ等で以降説明する分類方法を実施することで実現される。上記各構成要素2,6〜14が持つ処理機能は、プログラムによって実現でき、CPUが該当するプログラムを実行することによって所定の機能が発揮される。
次に、本実施の形態における文書群の分類処理について図2に示したフローチャートを用いて説明する。
図3には、分類体系の例が示されており、この分類体系に関する情報が分類体系記憶部4に記憶されている。分類体系作成部2は、ユーザ操作若しくは過去の分類処理の実行によって図3に例示した分類体系が現時点において形成されているものとする。図4は、今回新たに分類しようとする文書群を示した概念図である。各文書は、文書番号701,702,・・・によって識別され、製品仕様、記事等の文字データを含んでいる。なお、本実施の形態において取扱い可能な文書は、テキストデータ等に限定されるものではなく、処理の過程においてキーワードとなりうる文字を検索、抽出できればよい。
文書群受付部6は、図4に例示した文書群を受け付けると(ステップ100)、図示しない記憶手段に保存する。クラスタリング部8は、保存された文書群を構成する文書を順次読み出して、文書特徴量抽出部16により、その読み出した文書の特徴量を次のようにして得る(ステップ200)。
文書特徴量抽出部16は、まず図3に示した既存の分類体系若しくは分類された既存文書に出現するいくつかのキーワードを、特徴量を計算する要素(キーワードベクトル)として抽出する。本実施の形態では、各カテゴリ名をキーワードとして抽出している。そして、文書特徴量抽出部16は、キーワード検索を行うことで各文書における各キーワードの出現頻度を得る。ここまでの処理結果を図5に示す。本実施の形態では、更に既存の分類体系から抽出したキーワードに、新たに分類しようとする文書群において出現頻度の多い所定数のキーワードを追加する。このキーワードを付加した状態で得られた特徴量を図6に示す。この例では、14次元で表していた各文書の特徴量を、4個のキーワードを追加することによって18次元で表すようにした。初期の段階等、キーワードが効果的に抽出できないような場合に、キーワードの数を増やすことで各文書の振分精度をより高くすることができる。この例では、文書群を構成する各文書からキーワード抽出を行った結果、上位4つのキーワードを「価格」、「プリンタ」、「市場」、「PDA」が追加されている。
本実施の形態では、以上のようにして特徴量を計算するキーワード(要素)を抽出するようにしたが、他の方法を利用してもよい。例えば、上記例では、カテゴリ名や出現頻度の高いキーワードのうち上位4つを追加するようにしたが、4つ以外の数を追加するようにしてもよい。また、出現頻度の高いキーワードから選択する必要はない。例えば、特徴量を示す要素となりにくい一般用語等の出現頻度が高ければ、その一般用語等を自動的に、あるいは人手による操作指示により除外するようにしてもよい。また、本実施の形態では、キーワードベクトル値としてキーワードの出現数を用いたが、必ずしも出現数を用いる必要はない。もちろん、特徴量を表すことからキーワードの出現頻度に比例した指標を用いることが望ましいが、例えば、出現数が1〜5回のときは“1”、6〜10回のときは“2”などのように出現頻度に範囲を設けて特徴量を表現するようにしてもよいし、所定の計算式を利用してベクトル値を求めるようにしてもよい。
続いて、クラスタ分類部18は、各文書の特徴量に基づき新たに分類する文書群をクラスタ分けする(ステップ300)。これは、一般的な手法を用いることで類似した特徴量を有する文書同士を同じグループとしてクラスタを形成する。このクラスタ分けをした結果の例を図7に示す。
続いて、クラスタ特徴量抽出部20は、各クラスタの特徴量を計算する(ステップ400)。各クラスタの特徴量は、一般的な手法を用いて各文書の特徴量を、何らかの手法を用いて合成すればよい。例えば、同じクラスタに属する各文書の特徴量の平均値を、当該クラスタの特徴量とする。この処理の結果、3つのクラスタについて得られた特徴量を図8に示す。クラスタ特徴量抽出部20は、続いて各クラスタの名称を決定する(ステップ500)。クラスタ名は、当該クラスタを構成する文書において最も出現頻度の高いキーワードを自動選択するようにしてもよいし、ユーザにより入力設定させるようにしてもよい。その後、処理対象のクラスタをグループ分けすることになるが(ステップ600)、このクラスタの分類処理を図9に示したフローチャートを用いて説明する。
まず、カテゴリ特徴量抽出部10は、既存の分類体系を分類体系記憶部4から読み出し(ステップ601)、その分類体系を構成する各カテゴリの特徴量を計算する(ステップ602)。この各カテゴリの特徴量を求めた処理結果を図10に示すが、本実施の形態では、カテゴリ数を次元とするキーワードベクトルとしてカテゴリ名を用いる。各カテゴリにおいてそのキーワードが出現していれば1、サブカテゴリにキーワードが出現していれば0.5、さらにその下位のカテゴリにキーワードが出現していれば0.25などと重み付けをして各キーワードベクトルの要素値を決定する。なお、次元数は任意に決めてよい。各カテゴリ名をシソーラス展開してキーワードを増やし、その次元数でベクトルを生成してもよい。また、各カテゴリに既に分類済みの文書をサンプルとしてキーワード抽出を行って、適当な次元数を決めるようにしてもよい。また、要素値は、各カテゴリに分類済みのサンプル文書からキーワード抽出を行って、その出現頻度や分散の度合から重み付けを行ってもよい。
以上のようにしてクラスタとカテゴリの各特徴量が求められると、類似度算出部12は、各グループと各クラスタとの類似度を求める(ステップ603)。本実施の形態では、各カテゴリのキーワードベクトルと各クラスタのキーワードベクトルの内積を計算して、これを類似度として用いている。この類似度算出処理の結果を図11に示す。
次に、グループ分類部14は、図11に示した類似度と、図3に示した既存の分類体系とに基づいて各クラスタを既存の分類体系に当てはめていく。なお、以降の処理は、各クラスタを分類体系のいずれかの場所に当てはめていくための処理であるため、本実施の形態では、各クラスタ毎に対して以下の処理を順次行っていく(ステップ612)。
まず、本実施の形態では、クラスタを分類する基準となる値を予め設定しておく。この基準値は、類似度との比較に用いられ、管理者等により任意に設定可能な値である。本実施の形態では、例えば1を設定する。グループ分類部14は、番号1001のクラスタを最初に処理する。まず最上位(i=1)の階層レベルのカテゴリに着目する(ステップ605)。この階層レベルのカテゴリ、具体的には「パソコン」、「汎用機」、「周辺機器」、「パーツ」の類似度を参照すると、クラスタ1001における各類似度は、0.75,0,1,0である。つまり、グループ分類部14は、基準値以上であって最大類似度となる既存のカテゴリは「周辺機器」のみなので、このカテゴリが選択されることになる(ステップ606)。ここでは、該当するカテゴリが存在したので(ステップ607)、その「周辺機器」のサブカテゴリが存在するかを確認する(ステップ608)。この例では「モニタ」と「記憶装置」が存在するので、階層レベルを1段下げる(ステップ609)。この階層レベルのカテゴリ、すなわち「モニタ」と「記憶装置」のクラスタ1001における各類似度は、共に0である。つまり、グループ分類部14は、基準値以上であって最大類似度となる既存のカテゴリは存在しない(ステップ607)。これにより、グループ分類部14は、クラスタ1001は既存のカテゴリ「周辺機器」とは類似関係にあるものの、その下位階層の「モニタ」及び「記憶装置」とは類似関係にない、と判断する。この結果、グループ分類部14は、カテゴリ名「プリンタ」は「周辺機器」と名称が一致していないので(ステップ610)、「モニタ」及び「記憶装置」と同一階層レベルにクラスタ1001を分類するためのカテゴリを新規作成する(ステップ613)。この作成されたカテゴリの名称として、図2のステップ500で決定したクラスタ名、すなわち、この例だと「プリンタ」を設定する。この既存の分類体系に新たなサブカテゴリ「プリンタ」が追加された例を図12に示す。
続いて、グループ分類部14は、番号1002のクラスタを処理する。最上位の階層レベルのカテゴリに着目する(ステップ605)。この階層レベルの「パソコン」、「汎用機」、「周辺機器」、「パーツ」の類似度を参照すると、クラスタ1002における各類似度は、全て0である。つまり、グループ分類部14は、基準値以上であって最大類似度となる既存のカテゴリは存在しないので(ステップ607)、既存の分類体系にクラスタ1002と類似関係にあるカテゴリは存在しない、と判断する。この結果、グループ分類部14は、現時点での階層レベル、すなわち最上位の階層レベルにクラスタ1002を分類するためのカテゴリを新規作成する(ステップ613)。なお、既存の分類体系にクラスタ1002と類似関係にあるカテゴリは存在しないのだから名称が一致していないはずである(ステップ610)。この作成されたカテゴリの名称として、図2のステップ500で決定したクラスタ名、すなわち、この例だと「PDA」を設定する。この既存の分類体系に新たなカテゴリ「PDA」が追加された例を図12に示す。
続いて、グループ分類部14は、番号1003のクラスタを処理する。最上位の階層レベルのカテゴリに着目する(ステップ605)。この階層レベルの「パソコン」、「汎用機」、「周辺機器」、「パーツ」の類似度を参照すると、クラスタ1003における各類似度は、0.5,0,0,1.75である。つまり、グループ分類部14は、基準値以上であって最大類似度となる既存のカテゴリは「パーツ」のみなので、このカテゴリが選択されることになる(ステップ606)。ここでは、該当するカテゴリが存在したので(ステップ607)、その「パーツ」のサブカテゴリが存在するかを確認する(ステップ608)。この例では、「CPU」、「メモリ」及び「マザーボード」が存在するので、階層レベルを1段下げる(ステップ609)。この階層レベルのカテゴリ、すなわち「CPU」、「メモリ」及び「マザーボード」のクラスタ1003における各類似度は、0,0,1.5である。つまり、グループ分類部14は、基準値以上であって最大類似度となる既存のカテゴリは「マザーボード」のみなので、このカテゴリが選択されることになる(ステップ606)。ここでは、該当するカテゴリが存在したので(ステップ607)、その「マザーボード」のサブカテゴリが存在するかを確認する(ステップ608)。この例では、存在しないので(ステップ608)、次に、グループ分類部14は、当該カテゴリ名とクラスタ名とを比較する(ステップ610)。この例では、図3及び図8から明らかなように共に「マザーボード」である。従って、この場合は、各グループを代表するキーワード(クラスタ名とカテゴリ名)が一致していることから既存のカテゴリとクラスタ1003との類似関係はあると判断できる。この結果、グループ分類部14は、クラスタ1003に含まれる文書を既存のカテゴリ「マザーボード」に振り分ける(ステップ611)。この処理により新たなサブカテゴリが追加されされないことが図12から明らかである。
図13には図3に対応する他の分類体系の例が、図14には図11に対応する図13に基づく類似度表が、それぞれ示されている。各図を比較すると明らかなように、図13,14は「周辺機器」というカテゴリからサブカテゴリを排除し、サブカテゴリが存在しない状態に変形したものである。グループ分類部14は、クラスタ1001を処理する際に、ステップ610において当該カテゴリ名とクラスタ名とを比較するが、この場合はカテゴリ名「周辺機器」とクラスタ名「プリンタ」は異なるために、「周辺機器」のサブカテゴリとして「プリンタ」というサブカテゴリを新規に作成することになる(ステップ613)。このように、本実施の形態においては、「周辺機器」とは類似関係にはあるものの代表するキーワードが異なるクラスタ1001に対して、サブカテゴリを新規に作成することができる。
以上説明したように、本実施の形態によれば、カテゴリ名によって識別される分類体系を形成するカテゴリと、類似度によってグループ化された新たに分類しようとするクラスタとの類似度の大小によって、各クラスタを既存のカテゴリに振り分けるか、あるいはカテゴリを新規に作成するかを決定するようにした。すなわち、類似関係にある文書同士であれば、一つのグループにまとめることができ、類似関係にない文書であれば、その文書を分類するためのグループを新たに作成して分類体系に追加することができる。この結果、ユーザの希望が反映された分類体系は維持されることになる。
以上のようにして、新たな文書群が分類可能な分類体系で分類体系記憶部4を更新することによって、これ以降に文書群を新たに分類しようとするときもユーザの希望が反映された分類体系を維持することができる。
なお、本実施の形態では、各文書の特徴量を抽出し、その特徴量に従いクラスタ分類を実施している。更に、クラスタとカテゴリの類似度判定は、各類似度と基準値との比較により実施されている。つまり、特徴量を算出する際の基礎データとなるキーワード及びそのキーワードベクトル値、並びに基準値の設定に、分類体系の階層構造は依存することになる。従って、これらの値をユーザが設定、調整できるような構成を設けておけば、ユーザが所望する分類体系により近づけることができる。
また、本実施の形態では、既存の分類体系が存在していることを前提に説明したが、存在していない状態からでも利用することは可能である。
本発明に係る文書分類装置の一実施の形態を示したブロック構成図である。 本実施の形態における文書群の分類処理を示したフローチャートである。 本実施の形態において用いる分類体系を示した図である。 本実施の形態において新たに分類する文書群の例を示した図である。 本実施の形態において各文書における特徴量を示した図である。 図5に示した各文書における特徴量を拡張したときの特徴量を示した図である。 図4に示した文書をクラスタ分けした結果を示した図である。 本実施の形態において求めたクラスタの特徴量を示した図である。 本実施の形態におけるクラスタの分類処理を示したフローチャートである。 本実施の形態において求めたカテゴリの特徴量を示した図である。 本実施の形態において求めた各カテゴリと各クラスタとの類似度を示した図である。 本実施の形態におけるクラスタの分類処理において得られた分類体系を示した図である。 本実施の形態において用いる他の分類体系を示した図である。 図13に示した分類体系に基づく各カテゴリと各クラスタとの類似度を示した図である。
符号の説明
2 分類体系作成部、4 分類体系記憶部、6 文書群受付部、8 クラスタリング部、10 カテゴリ特徴量抽出部、12 類似度算出部、14 グループ分類部、16 文書特徴量抽出部、18 クラスタ分類部、20 クラスタ特徴量抽出部。

Claims (6)

  1. 複数の文書をユーザが所望するグループに分類する文書分類装置として、コンピュータシステムを機能させるためのプログラムであって、当該コンピュータを、
    記憶手段に記憶された分類体系に基づいて新たに分類する文書群を、その文書群に含まれる各文書の特徴量に基づいてクラスタ分けすると共に、各クラスタの特徴量を当該クラスタに属する文書の特徴量に基づき算出するクラスタリング手段、
    前記分類体系を形成する各グループの特徴量と、前記クラスタリング手段により算出された各クラスタの特徴量とに基づき各グループと各クラスタとの類似度を求める類似度算出手段、
    前記類似度算出手段により求められた類似度と予め設定されている基準値との比較結果に基づいて、当該クラスタを既存のグループに振り分けるか、あるいは当該クラスタを分類する新たなグループを生成して前記分類体系に追加するかを決定する分類手段、
    して機能させることを特徴とする文書分類プログラム。
  2. 請求項1記載の文書分類プログラムにおいて、
    前記クラスタリング手段は、文書群に含まれる各文書の特徴量を表す要素として、前記分類体系を形成するグループの各名称と、文書群において出現頻度の多い所定数のキーワードとを用いることを特徴とする文書分類プログラム。
  3. 請求項1記載の文書分類プログラムにおいて、
    前記分類手段は、前記類似度と前記基準値とを比較した結果、
    前記類似度算出手段により求められた類似度が前記基準値に達していないクラスタに対しては、当該クラスタを分類するためのグループを新たに生成し、
    前記類似度算出手段により求められた類似度が前記基準値に達している場合には、当該クラスタを最も類似度の高いグループに振り分けることを特徴とする文書分類プログラム。
  4. 請求項1記載の文書分類プログラムにおいて、
    前記クラスタリング手段は、各クラスタに対して当該クラスタに属する文書において出現頻度の多いキーワードの一つを当該クラスタの名称として決定し、
    前記分類手段は、前記類似度と前記基準値とを比較した結果、
    前記類似度判定手段により求められた類似度が前記基準値に達していないクラスタに対しては、当該クラスタを分類するためのグループを新たに生成し、
    前記類似度判定手段により求められた類似度が前記基準値に達している場合において、最も類似度の高いグループのグループ名と当該クラスタ名とが一致したときには当該クラスタを当該グループに振り分け、一致していないときには当該クラスタを分類するためのグループを、当該グループのサブグループとして新たに生成することを特徴とする文書分類プログラム。
  5. 複数の文書をユーザが所望するグループに分類するための分類体系が記憶される分類体系記憶手段と、
    新たに分類する文書群を、その文書群に含まれる各文書の特徴量に基づいてクラスタ分けすると共に、各クラスタの特徴量を当該クラスタに属する文書の特徴量に基づき算出するクラスタリング手段と、
    前記分類体系を形成する各グループの特徴量と、前記クラスタリング手段により算出された各クラスタの特徴量とに基づき各グループと各クラスタとの類似度を求める類似度算出手段と、
    前記類似度算出手段により求められた類似度と予め設定されている基準値との比較結果に基づいて、当該クラスタを既存のグループに振り分けるか、あるいは当該クラスタを分類する新たなグループを生成して前記分類体系に追加するかを決定する分類手段と、
    を有することを特徴とする文書分類装置。
  6. 複数の文書をユーザが所望するグループに分類する、文書分類装置が実行する文書分類方法において、
    記憶手段に記憶された分類体系に基づいて新たに分類する文書群を、クラスタリング手段によりその文書群に含まれる各文書の特徴量に基づいてクラスタ分けすると共に、各クラスタの特徴量を当該クラスタに属する文書の特徴量に基づき算出するクラスタリングステップと、
    前記分類体系を形成する各グループの特徴量と、前記クラスタリングステップにより算出された各クラスタの特徴量とに基づき類似度算出手段により各グループと各クラスタとの類似度を求める類似度算出ステップと、
    前記類似度算出ステップにより求められた類似度と予め設定されている基準値との比較結果に基づいて、当該クラスタを既存のグループに振り分けるか、あるいは当該クラスタを分類手段により分類する新たなグループを生成して前記分類体系に追加するかを決定する分類ステップと、
    を有することを特徴とする文書分類方法。
JP2003424905A 2003-12-22 2003-12-22 文書分類方法、文書分類装置及び文書分類プログラム Expired - Fee Related JP4407272B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003424905A JP4407272B2 (ja) 2003-12-22 2003-12-22 文書分類方法、文書分類装置及び文書分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003424905A JP4407272B2 (ja) 2003-12-22 2003-12-22 文書分類方法、文書分類装置及び文書分類プログラム

Publications (2)

Publication Number Publication Date
JP2005182611A JP2005182611A (ja) 2005-07-07
JP4407272B2 true JP4407272B2 (ja) 2010-02-03

Family

ID=34784958

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003424905A Expired - Fee Related JP4407272B2 (ja) 2003-12-22 2003-12-22 文書分類方法、文書分類装置及び文書分類プログラム

Country Status (1)

Country Link
JP (1) JP4407272B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7831599B2 (en) * 2005-03-04 2010-11-09 Eastman Kodak Company Addition of new images to an image database by clustering according to date/time and image content and representative image comparison
JP2008070958A (ja) * 2006-09-12 2008-03-27 Sony Corp 情報処理装置および方法、並びに、プログラム
CN101561805B (zh) * 2008-04-18 2014-06-25 日电(中国)有限公司 文档分类器生成方法和系统
KR101071495B1 (ko) 2009-05-12 2011-10-10 인하대학교 산학협력단 전자문서 자동 분류 방법 및 장치
JP6007784B2 (ja) 2012-12-21 2016-10-12 富士ゼロックス株式会社 文書分類装置及びプログラム
JP6039057B2 (ja) * 2013-03-14 2016-12-07 株式会社東芝 文書分析装置及び文書分析プログラム
JP6429383B2 (ja) * 2015-01-13 2018-11-28 日本放送協会 下位表現抽出装置およびプログラム
CN107786943B (zh) * 2017-11-15 2020-09-01 北京腾云天下科技有限公司 一种用户分群方法及计算设备
CN110941645B (zh) * 2018-09-21 2023-04-07 北京国双科技有限公司 一种自动判定串案的方法、装置、存储介质及处理器
CN111324737B (zh) * 2020-03-23 2022-04-22 中国电子科技集团公司第三十研究所 一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置
CN114969348B (zh) * 2022-07-27 2023-10-27 杭州电子科技大学 基于逆变调节知识库的电子文件分级分类方法及系统

Also Published As

Publication number Publication date
JP2005182611A (ja) 2005-07-07

Similar Documents

Publication Publication Date Title
JP6782858B2 (ja) 文献分類装置
US7769771B2 (en) Searching a document using relevance feedback
JP5503046B2 (ja) 形状に基づく画像検索
US6654744B2 (en) Method and apparatus for categorizing information, and a computer product
EP1678635B1 (en) Method and apparatus for automatic file clustering into a data-driven, user-specific taxonomy
JP6183376B2 (ja) インデックス生成装置及び方法並びに検索装置及び検索方法
US20090327259A1 (en) Automatic concept clustering
AU2013365452B2 (en) Document classification device and program
WO2001031502A1 (fr) Dispositif et procede de classement et de rangement d'informations multimedia
CN108334951B (zh) 针对决策树的节点的数据的预统计
KR20100072070A (ko) 콘텐트 아이템들의 수집과 연관하여 메타데이터 생성
JP4407272B2 (ja) 文書分類方法、文書分類装置及び文書分類プログラム
JP2009099124A (ja) データ構築方法とシステム
US20120046937A1 (en) Semantic classification of variable data campaign information
US20180107720A1 (en) Dynamic assignment of search parameters to search phrases
JP2001101227A (ja) 文書分類装置および文書分類方法
US6424963B1 (en) Document retrieval having retrieval conditions that shuffles documents in a sequence of occurrence
CN106294784B (zh) 资源搜索方法及装置
JPH10111869A (ja) 情報分類装置とその方法
JP2003323454A (ja) メタ情報を有するコンテンツをマッピングする方法、装置、及びコンピュータプログラム
JP2005010848A (ja) 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体
JP2000305950A (ja) 文書分類装置および文書分類方法
JP2004206571A (ja) 文書情報提示方法及び装置並びにプログラム及び記録媒体
JP4128033B2 (ja) プロファイルデータ検索装置及びプログラム
JPH10162011A (ja) 情報検索方法、情報検索システム、情報検索端末装置および情報検索装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090602

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091020

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091102

R150 Certificate of patent or registration of utility model

Ref document number: 4407272

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121120

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121120

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131120

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees