JP2008165572A - データ分類装置、データ分類プログラム - Google Patents

データ分類装置、データ分類プログラム Download PDF

Info

Publication number
JP2008165572A
JP2008165572A JP2006355584A JP2006355584A JP2008165572A JP 2008165572 A JP2008165572 A JP 2008165572A JP 2006355584 A JP2006355584 A JP 2006355584A JP 2006355584 A JP2006355584 A JP 2006355584A JP 2008165572 A JP2008165572 A JP 2008165572A
Authority
JP
Japan
Prior art keywords
data
classification
group
cluster
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006355584A
Other languages
English (en)
Inventor
Motofumi Fukui
基文 福井
Hitoshi Ikeda
仁 池田
Junichi Takeda
隼一 武田
Susumu Honma
奨 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2006355584A priority Critical patent/JP2008165572A/ja
Publication of JP2008165572A publication Critical patent/JP2008165572A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】データ分類の信頼性あるいは視認性を向上させる。
【解決手段】文書データに含まれる語句を成分とする特徴ベクトルの距離テーブルが作成され(S12)、この距離に基づいて階層的なクラスタ(データ群)を構築する初期クラスタリングが行われる(S14)。そして、得られた各クラスタについて、そのクラスタを代表する語句と、代表性を表すスコアが求められ、クラスタの妥当性が判定される(S16)。その結果、妥当でないと判定されたクラスタに対しては、そのクラスタの下位階層に属す複数のクラスタへとデータの再分類が行われる(S18)。
【選択図】図2

Description

本発明は、データ分類装置、またはデータ分類プログラムに関する。
複数のデータをクラスタ(以下ではデータ群と呼ぶこともある)に分類するクラスタリング(以下ではクラスタ化とも呼ぶこともある)技術が知られている。例えば、検索効率を向上させる目的で、文書データのクラスタリングが、しばしば行われている。
下記特許文献1には、クラスタの代表値とそのクラスタに属する各文書データとの特徴ベクトルの距離に基づいて各文書データの類似度を順位付け、指定された閾値に従ってクラスタを再クラスタ化する技術が開示されている。
下記特許文献2には、検索により得られた複数の文書データを特徴ベクトルに基づいてクラスタ化し、さらに、各クラスタを特徴づける単語や特徴関係を抽出する技術が開示されている。
特開2000−305950号公報 特開2001−306594号公報
本発明の目的は、データ分類の信頼性あるいは視認性を向上させることが可能なデータ分類装置、またはデータ分類プログラムを提供することにある。
本発明のデータ分類装置の一態様においては、1または2以上のデータ要素を含む複数のデータを、データ要素の類似性に基づいて、複数のデータ群に階層的に分類する分類手段と、前記分類手段によりなされたある階層における少なくとも一つのデータ群への分類を、そのデータ群を代表するデータ要素に基づいて評価する評価手段と、前記評価手段による評価結果に応じて、評価対象となったデータ群に分類されているデータを、そのデータ群の下位階層に属す複数のデータ群へと再分類する再分類手段と、を備える。
本発明のデータ分類装置の一態様においては、前記評価手段は、前記分類手段によりなされたある階層における少なくとも一つのデータ群への分類の妥当性を、そのデータ群を代表するデータ要素に基づいて評価し、前記再分類手段は、前記評価手段により分類が妥当でないと判定されたデータ群に分類されているデータを、そのデータ群の下位階層に属す複数のデータ群へと再分類する。
本発明のデータ分類装置の一態様においては、前記分類手段は、データ要素を成分とする特徴ベクトルの類似性に基づいて、前記複数のデータを分類する。
本発明のデータ分類装置の一態様においては、前記評価手段は、あるデータ群を代表するデータ要素に基づく評価を、そのデータ群に分類されたデータにそのデータ要素が含まれる度合いと、それ以外のデータ群に分類されたデータにそのデータ要素が含まれない度合いとに基づいて行う。
本発明のデータ分類装置の一態様においては、前記評価手段は、ある階層における全てのデータ群に対して、分類の評価を行う。
本発明のデータ分類装置の一態様においては、前記評価手段は、前記再分類手段により再分類された複数のデータ群に対しても、そのデータ群を代表するデータ要素に基づいて分類を評価し、前記再分類手段は、前記評価手段による評価結果に応じて、再分類されたデータ群に対しても、そのデータ群の下位階層に属す複数のデータ群へと再分類を繰り返す。
本発明のデータ分類装置の一態様においては、再分類によって前記複数のデータが最終的に分類されるデータ群の数を、データ要素の特性に応じて決定する決定手段を備え、前記再分類手段は、前記決定手段により決定された数に応じたデータ群へと再分類する。
本発明のデータ分類装置の一態様においては、再分類によって前記複数のデータが最終的に分類されるデータ群の数はあらかじめ設定された数であり、前記分類手段は、設定された数よりも多い数のデータ群に前記複数のデータを分類し、前記再分類手段は、設定された数に応じたデータ群へと再分類する。
本発明のデータ分類装置の一態様においては、データは文書データであり、データ要素は、文書データに含まれる語句である。
本発明のデータ分類プログラムの一態様においては、1または2以上のデータ要素を含む複数のデータを、データ要素の類似性に基づいて、複数のデータ群に階層的に分類する分類手順と、前記分類手順においてなされたある階層における少なくとも一つのデータ群への分類を、そのデータ群を代表するデータ要素に基づいて評価する評価手順と、前記評価手順における評価結果に応じて、評価対象となったデータ群に分類されているデータを、そのデータ群の下位階層に属す複数のデータ群へと再分類する再分類手順と、をコンピュータに実行させる。
請求項1に記載の本発明によれば、データ分類の信頼性あるいは視認性を向上させることが可能となる。
請求項2に記載の本発明によれば、分類の妥当性に応じて、データの再分類が行われる。
請求項3に記載の本発明によれば、ベクトル空間法に基づく階層的なデータ分類が行われる。
請求項4に記載の本発明によれば、データ群における「かたまり」について、そのデータ群と他のデータ群との相対的な関係において評価することが可能となる。
請求項5に記載の本発明によれば、データ分類の信頼性あるいは視認性を一層向上させることが可能となる。
請求項6に記載の本発明によれば、分類の評価結果に応じて、再分類が繰り返される。
請求項7に記載の本発明によれば、あらかじめ分類数を設定しなくても、妥当に形成されたデータ群へとデータが分類される。
請求項8に記載の本発明によれば、あらかじめ分類数を設定した場合にもデータの再分類が行われるため、データ分類の信頼性向上あるいは視認性向上を図ることができる。
請求項9に記載の本発明によれば、文書データの分類の信頼性あるは視認性の向上が図られる。
請求項10記載の本発明によれば、データ分類の信頼性あるいは視認性を向上させることが可能なプログラムが提供される。
以下に、本実施の形態について例示する。
図1は本実施の形態にかかる文書データ分類装置10のハードウエア構成を説明する概略ブロック図である。文書データ分類装置10は、主として文書データの分類を行うデータ分類装置であり、一般のPC(パソコン)をはじめとする各種のコンピュータを用いて構成することができる。文書データ分類装置10は、内部通信路としてのバス12と、このバス12に接続されたCPU(中央演算装置)14、メモリ16、HDD(ハードディスクドライブ)18、CDD(コンパクトディスクドライブ)20、ディスプレイ22、キーボード24、及び通信インタフェース26の各構成要素を備える。
CPU14は、演算機能や制御機能などを有した装置であり、プログラムに従って各種の演算処理を行ったり、他の構成要素の制御を行ったりする。メモリ16は、半導体などを利用して作成された記憶装置であり、CPU14を制御するプログラムや、各種のデータが記憶される。HDD18は、磁気ディスクを利用した大容量記憶装置であり、分類対象となる複数の文書データを記憶(格納)する。CDD20は、記憶媒体としてのCD(コンパクトディスク)に対する読み書きを行う装置である。例えば、文書データ分類装置10を制御するためのプログラムがCDを通じて提供された場合、CDD20を通じて文書データ分類装置10にインストールされる。
ディスプレイ22は、画像表示を行う表示装置であり、文書データの分類結果などが表示される。キーボード24は、ユーザ(利用者)が文書データ分類装置10を制御するための入力を行う入力装置である。ディスプレイ22とキーボード24は、ユーザが文書データ分類装置10の操作を行うためのユーザインターフェースとして用いられる。通信インタフェース26は、インターネットなどのネットワーク30を通じて、外部装置と通信を行うための装置である。外部装置からは、文書データ分類装置10を制御するためのプログラムの信号が入力されたり、分類対象となる文書データが入力されたりする。また、ユーザは、外部装置から通信インタフェース26を通じて、当該文書データ分類装置10にデータ分類指令や、分類結果の出力指令を送ることもできる。
文書データ分類装置10は、このような単体のハードウエア(コンピュータ)を用いた集中処理システムとして構築されることが可能であるが、複数のハードウエアを用いた分散処理システムとして構築されてもよい。分散処理システムの一例としては、文書データを記憶するHDD18を、ネットワーク30上のファイルサーバに配置する態様を挙げることができる。
続いて、文書データ分類装置10における処理機能について説明する。文書データ分類装置10では、プログラム制御の結果、CPU14その他の構成要素を利用した処理機能部が構築される。構築される処理機能部の例としては、文書データを入力する文書データ入力部、文書データ間距離のテーブルを作成する文書データ間距離テーブル作成部、初期クラスタリングを行う初期クラスタリング部、特徴語のスコア算出を行う特徴語スコア算出部、再クラスタリングを行う再クラスタリング部、出力結果の表示を行う出力結果表示部などを挙げることができる。
図2は、これら各処理機能部によって行われる処理の流れを説明するフローチャートである。文書データ分類装置10においては、まず、文書データ入力部によって、分類対象となる複数の文書データ(これを全文書データと呼ぶことがある)の入力が行われる(S10)。文書データは、HDD18から入力されてもよいし、ネットワーク30上の装置から入力されてもよい。ここで、文書データとは、文字コードを含むデータをいう。文書データの例としては、テキスト形式データ、ワープロソフト形式データ、ソースプログラムなどを挙げることができる。入力される文書データは、少量(例えば1000データ以下)であってもよいが、大量(100万データ以上)のデータであってもよい。また、入力される文書データは、ランダムに集められたものであってもよいが、例えば、同一のデータベース内にある文書データや、検索などにより収集された文書データなど、なんらかの関連性に基づいて集められたものであってもよい。なお、以下では、入力された全文書データに含まれる文書データ数をNとする。
次に、文書データ間距離テーブル作成部は、各文書データを構成するデータ要素を抽出して特徴ベクトルを作成し、ベクトル間の距離を計算してテーブル化する(S12)。具体的には、特徴ベクトルの各方向(成分)としては、形態素解析などによって文書データから抽出されるキーワードを採用することができる。キーワードとしては、名詞、動詞、形容詞などの各種品詞や、それらの結合などを含む様々な語句を採用することができるが、名詞に限定するなどの簡略化を行ってもよい。以下では、こうして抽出したキーワードをKi(i=1,2,...,n)と表示することがある。なお、キーワードには、通常は、同一の語句が別々に登録されないように設定される。また、同じ意味の語句(例えば、計算機とコンピュータ)は、同義語辞書などを用いて1つのキーワードとして登録するようにしてもよい。
特徴ベクトルの成分の大きさは、文書データに出現する単語の頻度や、TF・IDF(TermFrequency・InverseDocumentFrequency)値などによって、定めることができる。文書データに特定の構成(例えば、見出しなど)が存在する場合に、この構成中にあらわれるキーワードを、一般の構成箇所にでてくるキーワードよりも重要視して、大きな重みづけを与えるなどしてもよい。このようにして、j番目の文書データPj(j=1,2,...,N)の特徴ベクトルVjにおける第i成分の大きさが定められる。
本実施の形態についての動作実験においては、キーワードKiが一度でも出現すれば1、出現しなければ0を与えた上で、ベクトルの長さを1に規格化したものを特徴ベクトルVjとする態様を採用した。この態様では、全文書データから、例えば、K1=“リンゴ”、K2=“バナナ”、K3=“ミカン”、K4=“イチゴ”、K5=“ブドウ”の5個のキーワード抽出が行われ、ある文書Pに{“リンゴ”,“ミカン”,“イチゴ”}の3つのキーワードが含まれるとすると、この文書Pの特徴ベクトルVは次式となる。
Figure 2008165572
文書データ間距離テーブル作成部では、次に、2つの文書PiとPjの類似度を計算する。類似度は、特徴ベクトルViと特徴ベクトルVjの距離Dijによって定義することができる。すなわち、距離Dijが近いほど、両ベクトルの類似性は高く、距離Dijが遠いほど、両ベクトルの類似性は低いと考えることができる。距離Dijはユークリッド距離であってもよいし、両ベクトルの余弦であってもよい。特徴ベクトルとして正規直交系を採用した場合には、両ベクトルの余弦は、両ベクトルの内積演算によって求めることができる。このようにして、=N(N−1)/2個の要素をもつ距離テーブルが作成される。
次に、初期クラスタリング部は、文書データのクラスタリングを行う(S14)。ここでは、クラスタリングには、既存の凝集型の階層クラスタリング手法を広く用いることができる。凝集型階層クラスタリングでは、まず、初期階層として、N個のクラスタ(つまり1個の文書データが1つのクラスタを構成する)を作成する。そして、作成した距離テーブルを参照して、N個のクラスタのうち最も距離が近いクラスタを併合する。これによって、N−1個のクラスタをもつ上位の階層が構築される。同様にして、ある階層では、2つのクラスタCi,Cj間の距離テーブルを作成して、最も距離の近いクラスタを併合し、さらに上位の階層を得る。この処理は再帰的に繰り返され、最も距離の近いクラスタが逐次的に併合されていく。こうして適当な回数の反復が行われる結果、多段階に階層的なクラスタ構造を得ることができる。
凝集型階層クラスタリングでは、クラスタ間の距離の定義の仕方によりいくつかの手法が提案されている。本実施の形態の動作実験では、Ward法を用いている。Ward法は、各文書データからその文書データを含むクラスタの重心までの距離の2乗和を最小にする手法であり、多次元空間内で球状のクラスタが生成されやすい。しかし、もちろん、最短距離法など他の階層型のクラスタリング手法を用いることも可能である。
なお、特徴ベクトルで表現されたデータをクラスタリングする手法としては、階層的な手法の他に、非階層的な手法(KMeans法など)も知られている。しかし、ここでは、階層構造を利用する必要性から、階層的手法を採用している。ただし、非階層的なクラスタリングを反復することで、階層的な構造を得ることも可能である。
このようにして行われた初期クラスタリングの結果として、常に最適なクラスタが得られるとは限らない。この一因としては、形態素解析などによるキーワードの抽出過程で入り込んだノイズ等のために、特徴ベクトルの距離が文書間の類似性に必ずしも一致しないことが挙げられる。また、別の要因として、クラスタリングには固執的な正解が存在しないため、全文書データをいくつのクラスタに分類するのかの決定が困難であることも挙げられる。
そこで、得られたクラスタの評価を行うための処理が、特徴語スコア算出部及び再クラスタリング部によって行われる。特徴語スコア算出部は、クラスタ内の文書の分布状態でクラスタを評価してもよいが、ここでは、各クラスタを代表するキーワード(特徴語と名前をつける)が、全文書データからみて、どの程度特徴語としてふさわしいかという特徴語スコアを算出する(S16)。そして、再クラスタリング部は、特徴語スコアにより、クラスタとしての集まりが悪いと判断されたクラスタに属する文書データを、そのクラスタを構成する下位階層(初期状態に近い側の階層)のクラスタ群へと再分類する処理を行う(S18)。ステップS16,18による再クラスタリング処理は、規定数に達するまで反復して繰り返される(S20,S22)。そして、反復回数が規定数に達した場合には、この時点で得られたクラスタリングの結果が、ディスプレイに表示される(S24)。
ここで、図3と図4を用いて、特徴語スコアの算出過程について詳しく説明する。図3は、クラスタに属する文書データの再分類が必要かどうか評価(判定)する過程を示すフローチャートであり、図4は、特徴語スコアの算出について説明するフローチャートである。
図3に示すように、ステップS14の初期クラスタリングあるいは、その後の再クラスタリングのループによって(S22)、mr個のクラスタCi(i=1,2,...,mr)が生成されたとする(S30)。ここで、rは実施する再クラスタリングの回数を表している。初期クラスタリングが行われた時点では、r=0であり、クラスタ数はm0個である。再クラスタリングは、i=1,j=1から開始され(S32)、iおよびjを順次増加させて(S40,S46)、i=mr,j=nまで順次繰り返される(S42,S48)。
この過程で、クラスタCiにおけるキーワードKjに対するスコアS(i,j)が算出される(S34)。このスコアS(i,j)は、そのキーワードがそのクラスタにとってどの程度特徴を捉えている語句かを表すものであり、例えば、エントロピーなどを利用して算出することも可能である。本実施の形態の動作実験では、ある特定のクラスタには高頻度で出現して、他のクラスタには低頻度で出現するキーワードを求める観点から次のようにしてスコアS(i,j)を定義する。すなわち、クラスタCiに含まれる文書データのうち、キーワードKjを含む文書データの割合(0.0〜1.0)をF(i,j)とすれば、クラスタCiにおけるキーワードKjのスコアS(i,j)は、次式で定義される。
Figure 2008165572
ここで、「1.0−F(k,j)」は、クラスタCkの中に含まれている文書データが、キーワードKjを含まない割合を表しており、「Π(1.0−F(k,j))」は、クラスタCi以外のクラスタに含まれている文書データが、キーワードKjを含まない度合いを表す。
図4に示すように、あるクラスタCiについての各キーワードKjのスコアS(i,j)の算出においては、まず、k=1,j=1からはじめて(S60)、各k及び各jについて、k=mr、j=nに至るまで(S64〜S70)、F(k,j)が計算される。そして、S(i,j)=1.0を初期値にした後、k=1からk=mrまでについて(S80,S82)、kの値によって場合わけがなされる(S74)。その結果、k≠iの場合には、S(i,j)=S(i,j)×(1−F(k,j))が計算され(S76)、k=iの場合には、S(i,j)=S(i,j)×F(k,j)が計算され(S78)、これを繰り返すことでスコアS(i,j)が得られることになる。
図3のステップS34では、j=1のときに、S(i)=S(i,1)、Kjmax=K1の設定を行った後、j=nまでの各jについて(S40,S42)、最も大きなS(i,j)を見つけ出す処理を行う(S36、S38)。すなわち、S(i)よりも大きなS(i,j)が存在した場合には、S(i)にS(i,j)を代入し、そのときのKjをKjmaxとすることで、クラスタCiを代表する特徴語Kjmaxと、この特徴語Kjmaxの代表性を表現した値である特徴語スコアS(i)が求められる。そして、得られた特徴語スコアS(i)が予め設定された閾値Th以下である場合には、クラスタCiは「かたまり」として妥当なものではなく、再分割する(クラスタCiに属する文書データを再分類する)必要があると判定される。他方、特徴語スコアS(i)がThより大きい場合には、クラスタCiへの分類は妥当なものであり、再分割は不要であると判定される(S44)。このようにして、特徴語スコアS(i)に基づく分類の評価がi=mrに至る全てのクラスタCiについて計算されると、再分割すべきであると評価されたクラスタに対する再クラスタリングが実施される(S18)。なお、ここでは、クラスタの特徴語として一つのキーワードのみを選択したが、データ群を代表する一つのキーワードを含む複数のキーワードを選択し、各キーワードのスコアをたとえば平均する等の演算をして、この結果に応じて再分割の必要があるか評価することも可能である。
本実施の形態における動作実験では、初期クラスタリング部において作成した階層構造を利用して、文書データの再分類処理を行っている。具体的には、再分類にあたっては、再分類対象となったクラスタに属する文書データを、そのクラスタを構成している下位のp個のクラスタに再分類する。言い換えれば、再分類の対象となったクラスタは、p個のクラスタに再分割される。
ここで、図5を用いて、初期クラスタリングにより上位階層側に作成されたクラスタを、再クラスタリングによって下位階層のクラスタへと再分割する様子を説明する。図5は、分類階層の構造を示す図であり、縦軸はクラスタリング階層(図の下側ほど下位階層、図の上側ほど上位階層)を表している。そして、図の最下層には、クラスタID0〜8で示された8個のクラスタが描かれており、これらのクラスタを直線的な枝で結ぶツリー(木)は、文書データのクラスタリング構造を示している。すなわち、ツリー構造中での枝が分岐・結合しているノード(節)の高さは、クラスタリングの順番を示しており、初期クラスタリングの早い段階で形成されたクラスタほど図の下側に描かれている。
ここで、表1に、図5に対応した初期クラスタリングの詳細過程を示す管理テーブルを例示した。この管理テーブルは、クラスタIDとクラスタリングの内容を各クラスタリング階層について示したものである。
具体的には、クラスタリング階層0では、クラスタID0〜8の8個のクラスタが存在している。そして、次の段階であるクラスタリング階層1では、クラスタID0,1の二つのクラスタが結合されている(表1では、結合されたクラスタは、番号の若いクラスタIDを流用して、クラスタID0と表現されている)。続いて、クラスタリング階層2では、クラスタID6,7のクラスタが結合されている。同様にして、クラスタリング階層3では、クラスタID2,3のクラスタが結合され、クラスタ階層4では、クラスタID6,7が結合されたクラスタと、クラスタID8が結合されている。このような統合を繰り返すことで、クラスタリング階層7では、クラスタID0〜3のクラスタが結合されたクラスタC1と、クラスタID4〜8のクラスタが結合されたクラスタC2が形成されている。
初期クラスタリングでは、このような管理テーブルにデータを記録しながら分類処理が行われる。そして、再クラスタリングでは、管理テーブルを遡って参照することで、各階層のクラスタに結合された元のクラスタ(文書データ群)をたどることが可能になる。
Figure 2008165572
図5においては、2つのクラスタC1,C2の再分割が必要と判断され、p=4のクラスタ数に再分割が行われている。具体的には、クラスタC1についてはL1の階層(クラスタリング階層0)まで遡り、クラスタC2についてはL2の階層(クラスタリング階層3)まで遡ることで、各4個、合計8個のクラスタへと再分割されている。注意すべきは、L1とL2の階層レベルが異なることである。すなわち、L1は、比較的早い段階でクラスタ化された階層であり、L2は、比較的遅い段階でクラスタ化された階層である。つまり、各クラスタの再分割の回数を同程度にすることを、両クラスタの再分割の階層を同程度にすることよりも優先している。
これに対し、クラスタC1,C2ともに、同じL3の階層(クラスタリング階層1)まで遡ることで、合計8個のクラスタに再分割する対応も考えられる。この場合には、クラスタC1は、3個のクラスタに再分割され、クラスタC2は5個のクラスタに再分割される。これは、各クラスタの再分割の回数を同程度にすることよりも、両クラスタの再分割の階層を同程度にすることを優先した態様である。
なお、再分割するクラスタ数は、固定した値pとする必要は無い。例えば再分割対象となったそのクラスタの大きさ(半径や分散値などによって定義できる)などに依存した可変の値にしてもよい。つまり、最終的に再分割するクラスタ数を、文書データの特性に応じて内部的に決定することができる。
再分割は指定回数くりかえされ(S20)、これにより最終的なデータの分類結果が得られる。なお再分割処理を繰り返すとクラスタ数は増えるため、特徴語スコア(場合によっては特徴語も)は変動する。一般に、クラスタ数が増えると、特徴語スコアは小さくなる傾向にある。このため、当初は再分割の必要がないと判断されたクラスタも、再分割が進行するにつれて、特徴語スコアが閾値を下回り、再分割の必要があると判断される可能性がある。そこで、「一度でも再分割する必要が無いと判断したクラスタに関しては、以降の再分割処理においても再分割はしない」という条件をつけてもよい。
また、ある時点で生成されたクラスタに含まれる文書データ数が少ない時、そのクラスタを再分割すると、非常に少ない数の文書データが分類されたクラスタが作られてしまう。これを避けるために、クラスタ内に分類された文書データ数が閾値を下回った場合、そのクラスタは再分割しないなどの条件を追加してもよい。
さらには、再分割により生成されたクラスタの特徴語スコアが0になる場合がある。これは生成されたクラスタの特徴語が、他の生成されたクラスタに属するすべての文書データに含まれるため生じる現象である。これを防ぐために、再クラスタリングの結果、特徴語スコアが0となるクラスタが1つでも生成されてしまう場合には、その再クラスタリングは実行しないという条件を追加しても良い。
なお、ここに示した例では、初期クラスタリングによって得られた最上位の階層の全クラスタについて、特徴語と特徴語スコアを求め、再クラスタリングの必要性を評価(判定)した。しかし、一部のクラスタについてのみ再クラスタリングの必要性を判定するようにしてもよい。評価対象となるクラスタの選択は、例えば、そのクラスタに分類された文書データの数や、クラスタの大きさ(直径や分散など)などによって行うことができる。
以上においては、最終的な分類に用いられるクラスタ数を事前に決定しない態様について説明した。つまり、以上の態様では、分類アルゴリズム及びデータ特性に基づいて、クラスタ数を内部的に決定した。しかし、最終的な分類に用いられるクラスタ数を事前に設定するように、本実施の態様を変形することも可能である。
図6は、この変形例における処理の流れを示すフローチャートである。このフローチャートは、図2のフローチャートに対応しており、同一のステップには同一の番号を付して、説明を簡略化する。
この態様においては、図2に示した処理と同様にして、まず、初期クラスタリング(S14)が行われ、次に、特徴語スコアの算出と(S16)、再クラスタリングが行われる(S18)。しかし、反復の条件が異なっており、再クラスタリングによって生成されたクラスタ数mrが、ユーザ指定するクラスタ数Zをはじめて超えるまで、再クラスタリングが繰り返される(S90)。ここで、クラスタ数がmr−1からmrに増加したときに、新たに作成されたクラスタがYr個存在すると仮定する。この場合には、このYr個のクラスタ間の距離を求め、その距離が近いクラスタを順に統合していくことで、クラスタ数をZにしている。再クラスタリングの結果、クラスタ結合をする前にクラスタ数がちょうどZになった場合には、クラスタ結合を行うことなく処理を終了することができる。
以上の説明においては、分類対象のデータとして、文書データを例に挙げた。しかし、本実施の形態は、画像データや音声データなど、文書データ以外の各種のデータにも適用可能である。実際、クラスタリング技術は、自然言語処理の分野だけでなく、画像処理、マーケティングなどの分野でも利用されている。例えば、画像データにおける色成分の多寡を特徴ベクトルとして定義すれば、画像データを色分けしたクラスタが構築される。
なお、扱うデータが大容量の場合(例えば100万オーダー)には、距離テーブルを一時保存するメモリをコンピュータ内に確保することが困難となる場合がある。そこで、距離テーブルを記憶せず、必要となった段階で距離計算をその都度実施するようにしてもよい。あるいは、まずは、メモリに収まるようにN個のデータの中から適当に(例えばランダムに)N’個のデータをサンプルして分類処理を行うことが考えられる。そして、残るN−N’個のデータについては、決定されたクラスタとの距離などに基づいて、分類先のクラスタを決定すればよい。
本実施の形態にかかる文書データ分類装置のハードウエア構成を示すブロック図である。 本実施の形態における処理の概要を示すフローチャートである。 再分類の判定処理の例を示すフローチャートである。 特徴語スコアの算出例を示すフローチャートである。 再クラスタリングの例を示す概念図である。 別の処理例の概要を示すフローチャートである。
符号の説明
10 文書データ分類装置、12 バス、14 CPU、16 メモリ、18 HDD、20 CDD、22 ディスプレイ、24 キーボード、26 通信インタフェース、30 ネットワーク。

Claims (10)

  1. 1または2以上のデータ要素を含む複数のデータを、データ要素の類似性に基づいて、複数のデータ群に階層的に分類する分類手段と、
    前記分類手段によりなされたある階層における少なくとも一つのデータ群への分類を、そのデータ群を代表するデータ要素に基づいて評価する評価手段と、
    前記評価手段による評価結果に応じて、評価対象となったデータ群に分類されているデータを、そのデータ群の下位階層に属す複数のデータ群へと再分類する再分類手段と、
    を備えることを特徴とするデータ分類装置。
  2. 請求項1に記載のデータ分類装置において、
    前記評価手段は、前記分類手段によりなされたある階層における少なくとも一つのデータ群への分類の妥当性を、そのデータ群を代表するデータ要素に基づいて評価し、
    前記再分類手段は、前記評価手段により分類が妥当でないと判定されたデータ群に分類されているデータを、そのデータ群の下位階層に属す複数のデータ群へと再分類することを特徴とするデータ分類装置。
  3. 請求項1に記載のデータ分類装置において、
    前記分類手段は、データ要素を成分とする特徴ベクトルの類似性に基づいて、前記複数のデータを分類することを特徴とするデータ分類装置。
  4. 請求項1に記載のデータ分類装置において、
    前記評価手段は、あるデータ群を代表するデータ要素に基づく評価を、そのデータ群に分類されたデータにそのデータ要素が含まれる度合いと、それ以外のデータ群に分類されたデータにそのデータ要素が含まれない度合いとに基づいて行うことを特徴とするデータ分類装置。
  5. 請求項1に記載のデータ分類装置において、
    前記評価手段は、ある階層における全てのデータ群に対して、分類の評価を行うことを特徴とするデータ分類装置。
  6. 請求項1に記載のデータ分類装置において、
    前記評価手段は、前記再分類手段により再分類された複数のデータ群に対しても、そのデータ群を代表するデータ要素に基づいて分類を評価し、
    前記再分類手段は、前記評価手段による評価結果に応じて、再分類されたデータ群に対しても、そのデータ群の下位階層に属す複数のデータ群へと再分類を繰り返すことを特徴とするデータ分類装置。
  7. 請求項1に記載のデータ分類装置において、
    再分類によって前記複数のデータが最終的に分類されるデータ群の数を、データ要素の特性に応じて決定する決定手段を備え、
    前記再分類手段は、前記決定手段により決定された数に応じたデータ群へと再分類することを特徴とするデータ分類装置。
  8. 請求項1に記載のデータ分類装置において、
    再分類によって前記複数のデータが最終的に分類されるデータ群の数はあらかじめ設定された数であり、
    前記分類手段は、設定された数よりも多い数のデータ群に前記複数のデータを分類し、
    前記再分類手段は、設定された数に応じたデータ群へと再分類することを特徴とするデータ分類装置。
  9. 請求項1に記載のデータ分類装置において、
    データは文書データであり、
    データ要素は、文書データに含まれる語句であるデータ分類装置。
  10. 1または2以上のデータ要素を含む複数のデータを、データ要素の類似性に基づいて、複数のデータ群に階層的に分類する分類手順と、
    前記分類手順においてなされたある階層における少なくとも一つのデータ群への分類を、そのデータ群を代表するデータ要素に基づいて評価する評価手順と、
    前記評価手順における評価結果に応じて、評価対象となったデータ群に分類されているデータを、そのデータ群の下位階層に属す複数のデータ群へと再分類する再分類手順と、
    をコンピュータに実行させることを特徴とするデータ分類プログラム。
JP2006355584A 2006-12-28 2006-12-28 データ分類装置、データ分類プログラム Pending JP2008165572A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006355584A JP2008165572A (ja) 2006-12-28 2006-12-28 データ分類装置、データ分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006355584A JP2008165572A (ja) 2006-12-28 2006-12-28 データ分類装置、データ分類プログラム

Publications (1)

Publication Number Publication Date
JP2008165572A true JP2008165572A (ja) 2008-07-17

Family

ID=39694965

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006355584A Pending JP2008165572A (ja) 2006-12-28 2006-12-28 データ分類装置、データ分類プログラム

Country Status (1)

Country Link
JP (1) JP2008165572A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010108173A (ja) * 2008-10-29 2010-05-13 Toshiba Corp 文書処理装置
JP2019106128A (ja) * 2017-12-14 2019-06-27 富士通株式会社 分析方法、分析装置および分析プログラム
WO2021161595A1 (ja) * 2020-02-12 2021-08-19 株式会社日立ハイテク 画像分類装置及び方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010108173A (ja) * 2008-10-29 2010-05-13 Toshiba Corp 文書処理装置
JP2019106128A (ja) * 2017-12-14 2019-06-27 富士通株式会社 分析方法、分析装置および分析プログラム
JP7056127B2 (ja) 2017-12-14 2022-04-19 富士通株式会社 分析方法、分析装置および分析プログラム
WO2021161595A1 (ja) * 2020-02-12 2021-08-19 株式会社日立ハイテク 画像分類装置及び方法
JP2021128418A (ja) * 2020-02-12 2021-09-02 株式会社日立ハイテク 画像分類装置及び方法
JP7328915B2 (ja) 2020-02-12 2023-08-17 株式会社日立ハイテク 画像分類装置及び方法

Similar Documents

Publication Publication Date Title
US10713323B2 (en) Analyzing concepts over time
US8180781B2 (en) Information processing apparatus , method, and computer-readable recording medium for performing full text retrieval of documents
US10740678B2 (en) Concept hierarchies
US10831762B2 (en) Extracting and denoising concept mentions using distributed representations of concepts
US20190266167A1 (en) Content Authoring
US20160098433A1 (en) Method for facet searching and search suggestions
US20060095852A1 (en) Information storage and retrieval
Jin et al. Entity linking at the tail: sparse signals, unknown entities, and phrase models
Mic et al. Binary sketches for secondary filtering
JP2011128773A (ja) 画像検索装置、画像検索方法及びプログラム
CN110457484B (zh) 一种基于图的逻辑表达方法、系统、介质和设备
US20080071782A1 (en) Conceptual network generating system, conceptual network generating method, and program product therefor
CN114118310A (zh) 基于综合相似度的聚类方法和装置
JP4325370B2 (ja) 文書関連語彙獲得装置及びプログラム
WO2023246849A1 (zh) 回馈数据图谱生成方法及冰箱
JP2008165572A (ja) データ分類装置、データ分類プログラム
CN112417147A (zh) 训练样本的选取方法与装置
CN116501875A (zh) 一种基于自然语言和知识图谱的文档处理方法和系统
Markonis et al. The parallel distributed image search engine (paradise)
CN116010628A (zh) 数据处理、数据检索、检索模型训练方法和装置
Mic et al. Selecting sketches for similarity search
Freeman et al. Tree view self-organisation of web content
KR102269737B1 (ko) 딥러닝 기반의 정보 분류 방법 및 그 장치
CN110457455B (zh) 一种三值逻辑问答咨询优化方法、系统、介质和设备
JP6081609B2 (ja) データ分析システム及びその方法