JP2002230012A - ドキュメントクラスタリング装置 - Google Patents

ドキュメントクラスタリング装置

Info

Publication number
JP2002230012A
JP2002230012A JP2001343778A JP2001343778A JP2002230012A JP 2002230012 A JP2002230012 A JP 2002230012A JP 2001343778 A JP2001343778 A JP 2001343778A JP 2001343778 A JP2001343778 A JP 2001343778A JP 2002230012 A JP2002230012 A JP 2002230012A
Authority
JP
Japan
Prior art keywords
similarity
clustering
document
cluster
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001343778A
Other languages
English (en)
Inventor
Yoshinori Takenami
佳則 武並
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INFORMATION TECHNOLOGY PROMOTI
INFORMATION-TECHNOLOGY PROMOTION AGENCY JAPAN
Sumitomo Electric Industries Ltd
Original Assignee
INFORMATION TECHNOLOGY PROMOTI
INFORMATION-TECHNOLOGY PROMOTION AGENCY JAPAN
Sumitomo Electric Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INFORMATION TECHNOLOGY PROMOTI, INFORMATION-TECHNOLOGY PROMOTION AGENCY JAPAN, Sumitomo Electric Industries Ltd filed Critical INFORMATION TECHNOLOGY PROMOTI
Priority to JP2001343778A priority Critical patent/JP2002230012A/ja
Publication of JP2002230012A publication Critical patent/JP2002230012A/ja
Priority to CNB02151836XA priority patent/CN1327334C/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 多数のドキュメントをクラスタリングし各ク
ラスタの代表ドキュメントを決定する処理を、短時間で
かつ簡単に行なえるように摺る。 【解決手段】 ドキュメントクラスタリング装置102
は、ドキュメント群を蓄積するドキュメント群蓄積部1
18、ドキュメント群からキーワードを抽出するキーワ
ード抽出部18、全ドキュメント間の類似度を算出する
類似度情報検索部20、類似度を記憶する類似度テーブ
ル30、類似度の分布の偏りに基づいてクラスタリング
するクラスタリング部22、クラスタの各々について代
表ドキュメントを算出する代表ドキュメント算出部11
2、ならびに各クラスタに関する情報を作成し蓄積する
クラスタリング情報作成部114およびクラスタリング
情報蓄積部120を含む。装置102はさらに、追加ド
キュメントを各クラスタの特徴ドキュメントと比較し分
類するドキュメント分類部116を含んでもよい。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ドキュメントクラ
スタリング装置に関し、特に、蓄積されたトラブルチケ
ットからFAQ(Frequently Asked Questions)の作成
を支援したりするために類似のドキュメントをクラスタ
リングするドキュメントクラスタリング装置に関する。
【0002】
【従来の技術】多くの顧客を抱える企業・事業者にとっ
て、顧客のニーズをいかに満足させるかは重要な課題で
ある。顧客からの質問や苦情等の問合わせに素早く、的
確に答えることによって、顧客満足度を上げること、お
よびそのコストパフォーマンスを最適化すること等が事
業の成否を直接左右する課題として広く認識されてい
る。
【0003】従来、顧客からの質問・苦情を受付け、回
答までの情報をトラブルチケットとして蓄積するヘルプ
デスクシステム等において、頻繁に問合わせられる典型
的な質問と、それに対する回答とからなる質問・回答集
であるFAQが作成されている。そして、顧客からの質
問・苦情を受付けた場合には、まずこのFAQを参照し
て回答処理をすることにより、顧客対応を効率化してい
る。
【0004】
【発明が解決しようとする課題】しかし、通常、FAQ
の作成は蓄積されたトラブルチケットをもとに手作業で
行なわれる。したがって、蓄積されたトラブルチケット
の量が大きくなると、FAQの作成は非常に労力を要す
る作業となる。また、顧客からの質問や苦情に隠されて
いる顧客のニーズを掴むヒントをうまく捉えることも企
業・事業者にとっては重要だが、トラブルチケットが大
量になるとその分析も困難となる。
【0005】このような、データの分析とその意味の発
見という作業は、トラブルチケットに対するFAQの作
成という作業のみに伴うものではない。この他にも、経
済活動、学術活動を通じて日々作成されるドキュメント
群を分析し、その中から意味を見出す作業は日常的に行
なわれる。そのためにはドキュメント群を類似のクラス
タに分類(クラスタリング)していく作業が必要となる
が、その作業を、多大な労力を必要とすることなく、で
きるだけ短い時間で行なうことを可能とするシステムが
望まれている。
【0006】そのようなシステムの一例が、特開平5−
205058号公報で開示されている。この公報に記載
されたシステムでは、分類された後の各クラスタのデー
タメンバ数とデータの分散とから、最適なクラスタ数に
分類される場合に最小値をとるようなクラスタリング状
態評価量を定め、そのクラスタリング状態評価量が最小
値となるようなクラスタ数にデータの分類を行なう。
【0007】しかし特開平5−205058号公報に開
示のシステムでは、クラスタリング状態評価量の決定が
難しいという問題がある。また、このシステムでは、指
定されたクラスタ数に分類するような処理をすることが
できないという問題もある。また、データをいったん分
類した後に他のデータが追加されたときに、再度クラス
タリングを実行する必要があるため、処理に長時間を要
するという問題が残る。
【0008】本発明は上述の課題を解決するためになさ
れたもので、その目的は、類似のドキュメントをクラス
タリングする処理を支援するドキュメントクラスタリン
グ装置を提供することである。
【0009】この発明の他の目的は、類似のドキュメン
トをクラスタリングする処理を短時間で実行することを
可能とする、ドキュメントクラスタリング装置を提供す
ることである。
【0010】この発明のさらに他の目的は、随時追加さ
れるドキュメントを、短時間で適切なクラスタにクラス
タリングすることができるドキュメントクラスタリング
装置を提供することである。
【0011】
【課題を解決するための手段】本発明のある局面に従う
ドキュメントクラスタリング装置は、ドキュメント群に
おける各ドキュメント間の類似度を求めるための類似度
算出手段と、類似度算出手段に接続され、各ドキュメン
ト間の類似度の分布の偏りに基づいて、ドキュメント群
をクラスタリングするための類似度しきい値を算出する
ための類似度しきい値算出手段と、類似度しきい値算出
手段および類似度算出手段に接続され、類似度しきい値
および各ドキュメント間の類似度に基づいて、ドキュメ
ント群をクラスタリングするためのクラスタリング手段
とを含む。
【0012】ドキュメント間における類似度の分布の偏
りから定められる類似度しきい値を用いて、ドキュメン
ト間の類似度に基づいてドキュメント群をクラスタリン
グすることができる。このため、ドキュメント群中のド
キュメントを、自動的に、かつ適切なクラスタに、容易
にクラスタリングすることができる。
【0013】好ましくは、類似度しきい値算出手段は、
各ドキュメント間の類似度に基づいて、任意の類似度し
きい値と、当該任意の類似度しきい値を用いてクラスタ
リング手段によってクラスタリングを行なう際のクラス
タ数との関係を求めるための類似度しきい値−クラスタ
数関係算出手段と、類似度しきい値−クラスタ数関係算
出手段に接続され、類似度しきい値とクラスタ数との関
係に現れるドキュメント間の類似度の偏りに基づいて、
類似度しきい値を算出するための手段を含む。
【0014】類似度しきい値とクラスタ数との関係にお
いて、類似度の分布の偏りに基づいて、クラスタリング
に適切な類似度しきい値を算出することができる。その
ため、自動的に最適な類似度しきい値を算出することが
可能になる。
【0015】さらに好ましくは、類似度しきい値算出手
段は、さらに、類似度しきい値−クラスタ数関係算出手
段に接続され、クラスタリング手段によって、オペレー
タが指定したクラスタ数にドキュメント群をクラスタリ
ングするための適切な類似度しきい値を算出するための
手段を含む。
【0016】自動的に行なわれたクラスタリングによる
クラスタ数だけでなく、オペレータが指定したクラスタ
数を指定することにより、指定されたクラスタ数にクラ
スタリングするような新たな類似度しきい値が算出さ
れ、再クラスタリングが実行される。したがって所望の
クラスタ数にドキュメント群を分類できる。
【0017】さらに好ましくは、ドキュメントクラスタ
リング装置は、類似度算出手段により算出されたドキュ
メント間の類似度を記憶するための類似度記憶手段をさ
らに含み、類似度しきい値算出手段およびクラスタリン
グ手段は、類似度記憶手段に記憶されている類似度を利
用して類似度の算出処理とクラスタリング処理とをそれ
ぞれ実行する。
【0018】一旦算出された類似度の分布を記憶してお
くことにより、類似度の算出とクラスタリングとを繰り
返し行なう際の処理を高速化することができる。
【0019】好ましくは、ドキュメントクラスタリング
装置は、クラスタリング手段によりクラスタリングされ
た各クラスタの特徴ドキュメントを算出するための特徴
ドキュメント算出手段と、クラスタリングされていない
追加のドキュメントと、各クラスタの特徴ドキュメント
との間の類似度に基づいて、追加のドキュメントをクラ
スタリングするための追加クラスタリング手段とをさら
に含む。
【0020】最初のクラスタリング処理の後、さらにク
ラスタリング対象のドキュメントが追加された場合に、
各クラスタの特徴ドキュメントと追加のドキュメントと
の類似度にもとづいて追加のドキュメントをクラスタリ
ングできる。クラスタリング処理を最初から繰返す必要
はないので、追加のクラスタリング処理を高速に実行す
ることができる。
【0021】さらに好ましくは、追加クラスタリング手
段は、追加のドキュメントと、各クラスタの特徴ドキュ
メントとの間の類似度の最大値を算出するための手段
と、最大値が所定の条件を充足しているか否かを判定す
るための手段と、最大値が所定の条件を充足していると
判定された場合に、追加のドキュメントを最大値を与え
たクラスタに分類するための手段とを含む。
【0022】追加のドキュメントを既存のクラスタに分
類する際に、既存のクラスタとの間の類似度がいずれも
所定の条件を充足していない場合には、いずれのクラス
タにも追加のドキュメントを分類することは不適切であ
る。そこで、所定の条件を充足している場合のみ、追加
のドキュメントを最大の類似度を与えたクラスタに分類
することにより、不適切な分類を避けることができる。
【0023】好ましくは、追加クラスタリング手段はさ
らに、最大値が所定の条件を充足していないと判定され
た場合に、追加のドキュメントを特定の未分類クラスタ
に分類するための手段を含む。
【0024】いずれのクラスタに分類することも不適切
なドキュメントを特定の未分類クラスタに分類すること
で、既存のクラスタのいずれとも類似していないドキュ
メントのみをまとめておくことができる。
【0025】さらに好ましくは、追加クラスタリング手
段はさらに、未分類クラスタに分類された追加のドキュ
メントの数が所定の条件を充足したことに応答して、未
分類クラスタに分類された追加のドキュメントに対して
クラスタリング処理を実行させるための手段を含む。
【0026】未分類クラスタに分離された追加のドキュ
メントの数が所定の条件を充足したときに、それらドキ
ュメント群に対してクラスタリング処理が実行される。
これらドキュメントは既存のクラスタのいずれとも類似
していないので、このクラスタリング処理の結果、新た
なクラスタが追加される。全ドキュメントに対するクラ
スタリング処理を繰返す必要はなく、未分類クラスタに
分類されたドキュメントのみに対してクラスタリング処
理を実行することで、結果的に短時間で追加のドキュメ
ントを含む全ドキュメントを適切にクラスタリングする
ことができる。
【0027】本発明の他の局面に従うドキュメントクラ
スタリング装置は、ドキュメント群における各ドキュメ
ント間の類似度を求めるための類似度算出手段と、オペ
レータからのクラスタ数の入力を受付けるためのクラス
タ数受付け手段と、類似度算出手段およびクラスタ数受
付け手段に接続され、予め定められた類似度しきい値お
よび類似度の分布の偏りに基づいて、ドキュメント群を
クラスタリングするためのクラスタリング手段と、クラ
スタ数受付け手段およびクラスタリング手段に接続さ
れ、クラスタリングの結果のクラスタ数が、クラスタ数
受付け手段で受付けたオペレータからのクラスタ数に一
致するか否かを判断するためのクラスタ数一致判断手段
と、クラスタ数受付け手段、クラスタ数一致判断手段お
よびクラスタリング手段に接続され、クラスタ数一致判
断手段の出力に基づいて、予め定められた類似度しきい
値を変更し、クラスタリング手段に供給するための類似
度しきい値変更手段とを含む。
【0028】オペレータが指定したクラスタ数に合うよ
うに、適切な類似度しきい値が自動的に定められ、自動
的にクラスタリングが実行される。種々の類似度しきい
値を用いてクラスタリングを繰返す必要なく、所望のク
ラスタ数となるように適切なクラスタリング処理が実行
できる。
【0029】さらに好ましくは、ドキュメントクラスタ
リング装置は、含まれるドキュメントが所定の方法によ
り定められる数以下であるクラスタをクラスタリング手
段によるクラスタリングの対象から除外するための手段
を含む。
【0030】含まれるドキュメントが少ないクラスタを
除外してクラスタリングを行なうことにより、クラスタ
リングの精度を向上させることができる。
【0031】さらに好ましくは、ドキュメントクラスタ
リング装置は、類似度算出手段により算出されたドキュ
メント間の類似度を記憶する類似度記憶手段をさらに含
み、クラスタリング手段は、類似度記憶手段に最新の類
似度が記憶されている場合には、類似度記憶手段に記憶
されている類似度を利用してクラスタリング処理を実行
する。
【0032】一旦算出された類似度を記憶しておくこと
により、以後のクラスタリングの際に類似度の算出を再
度行なう必要はなく、クラスタリングを繰り返し行なう
際の処理を高速化することができる。
【0033】
【発明の実施の形態】[第1の実施の形態]図1を参照
して、本発明の第1の実施の形態にかかるFAQ作成支
援システム2は、サーバ計算機40と、サーバ計算機4
0に接続されたディスプレイ(図示せず)等の画面上に
表示されるGUI(Graphical User Interface)12と
を含む。GUI12は、計算機に備えられたディスプレ
イ、キーボード、ポインティングデバイス、それらのデ
バイスドライバ、およびそれらを用いて利用者から計算
機に対する何らかのコマンドまたはデータの入力を可能
にし、また計算機から利用者に対して何らかの情報の提
示を可能にするようなプログラム群を指す。
【0034】サーバ計算機40は、トラブルチケットを
蓄積するトラブルチケット蓄積部28と、トラブルチケ
ット蓄積部28に接続され、オペレータが指定した所定
の条件を満たすトラブルチケットを検索する条件検索部
16と、トラブルチケット蓄積部28に接続され、トラ
ブルチケット蓄積部28よりキーワードを抽出するキー
ワード抽出部18と、トラブルチケット蓄積部28に接
続され、すべての組合わせに関するトラブルチケット間
の類似度を算出する類似度情報検索部(類似度算出部)
20と、類似度情報検索部20に接続され、算出された
類似度をテーブルの形で記憶する類似度テーブル30
と、類似度テーブル30に接続され、トラブルチケット
間の類似度に基づいてトラブルチケットをクラスタリン
グするクラスタリング部22とを含む。クラスタリング
部22は、類似度テーブル30に最新の類似度が記憶さ
れているときには、類似度の算出を再度行なうことな
く、類似度テーブル30に記憶された類似度に基づいて
クラスタリング処理を実行する。
【0035】サーバ計算機40は、さらに、クラスタリ
ング部22に接続され、クラスタリングをする際に用い
られる類似度しきい値とクラスタ数との関係を示す「類
似度しきい値−クラスタ数関係データ」を記憶する類似
度しきい値−クラスタ数関係データ記憶部32と、クラ
スタリング部22および類似度しきい値-クラスタ数関
係データ記憶部32に接続され、クラスタリングされた
複数のクラスタの各々について、当該クラスタを代表す
るトラブルチケットを算出する代表トラブルチケット算
出部24と、条件検索部16に接続され、条件検索され
たトラブルチケットを蓄積するFAQ蓄積部34と、F
AQ蓄積部34に接続され、FAQ蓄積部34に蓄積さ
れたトラブルチケットよりFAQを作成し、FAQ蓄積
部34に蓄積するFAQ作成部26と、GUI12、条
件検索部16、キーワード抽出部18、類似度情報検索
部20、クラスタリング部22、代表トラブルチケット
算出部24およびFAQ作成部26に接続され、サーバ
計算機40の各部を制御するとともに、GUI12との
間のインタフェースの役割を果たす処理制御部14とを
含む。
【0036】なお「類似度しきい値」とは、あるトラブ
ルチケットを、あるクラスタに分類するか否かを判定す
る際の類似度のしきい値のことをいう。より具体的に
は、あるトラブルチケットと、あるクラスタ内の全トラ
ブルチケットとの類似度の平均を求め、その類似度平均
が類似度しきい値以上であれば、そのトラブルチケット
をそのクラスタに分類する。類似度平均が類似度しきい
値未満であれば、そのトラブルチケットはそのクラスタ
には分類しない。本実施の形態では、あるトラブルチケ
ットと各クラスタのトラブルチケットとの類似度平均が
いずれも類似度しきい値未満の場合、そのトラブルチケ
ットを含む新たなクラスタが作成される。
【0037】本実施の形態では、(1)複数キーワード
指定方式、(2)パラメータ指定方式および(3)自動
クラスタリング方式の3つの方式によりFAQを作成す
ることが可能である。3つの方式の選択は、GUI12
よりオペレータが行なう。以下、各方式の処理について
詳しく説明する。
【0038】[(1)複数キーワード指定方式]オペレ
ータが使用するGUI12には、図2に示すようなFA
Q作成支援メイン画面が表示される。
【0039】以下、図2および図3を主に参照しつつ、
複数キーワード指定方式によるFAQの作成について説
明する。
【0040】まず、トラブルチケット蓄積部28に蓄積
されたトラブルチケットの中からFAQ作成処理の対象
となるトラブルチケットを検索する(S2)。この処理
を条件検索またはキーワード検索という。条件検索を行
なうためには、トラブルチケットの対象名、トラブルチ
ケットが作成された日時等を入力することにより行なわ
れる。具体的には、図2のボタン60「条件検索による
絞込み…」を押下すると、図4のような画面が表示され
る。図4の画面上でトラブルチケットの対象名や、トラ
ブルチケットが作成された日時等を入力することによ
り、絞込みが行なわれる。絞り込まれた結果のトラブル
チケットの一覧は、表示欄68「クラスタリング対象ト
ラブルチケット」に表示される。
【0041】オペレータは、条件検索されたトラブルチ
ケットの中からさらに絞込みを行なうため、ボタン64
「キーワード抽出…」を押下する。すると、図5に示す
ようなキーワード抽出画面が表示され、トラブルチケッ
トの中から抽出されたキーワードが辞書順に表示され
る。オペレータはその中から所望のキーワードを複数選
択し、「OK」ボタンを押下する。キーワードを選択し
た後、ボタン66「絞込み」を押下すると、表示欄68
に表示されたトラブルチケットの中で、キーワードに一
致する文章を有するトラブルチケットがさらに絞り込ま
れ、表示欄68に表示される(S4)。なお、ボタン6
4を押下することなく、オペレータが直接キーワードを
入力欄62「キーワード指定」に入力することにより、
ボタン66を押下することによっても、さらなる絞込み
を行なうことができる。
【0042】オペレータは、ラジオボタン72「クラス
タリングしない」を選択し、ボタン52「FAQ候補」
を押下する。すると、表示欄68に表示されていたトラ
ブルチケットが1つのクラスタとして、FAQ候補欄8
0に表示される。表示された1つのクラスタのFAQ候
補の中から、クラスタを選択すると、そのクラスタに含
まれるトラブルチケットがクラスタ内トラブルチケット
表示欄82に表示される。オペレータは、その中からク
ラスタを代表するトラブルチケット(以下「代表トラブ
ルチケット」という。)を指定する(S6)。
【0043】S4の処理におけるキーワード抽出には、
形態素解析等の既存の技術を利用することができる。形
態素解析とは、辞書や語形の変化規則などの語彙的な知
識と語の並びのパターンに関する知識とに基づいて文章
を形態素に分解し、その品詞を決定していく処理であ
る。形態素解析によると、入力文の単語列を認識し、個
々の単語の品詞の候補を絞り込むことができる。
【0044】以上のような処理により、複数のキーワー
ドをオペレータが指定することにより、そのキーワード
に合致したトラブルチケットが抽出され、代表トラブル
チケットがFAQとされる。
【0045】[(2)パラメータ指定方式]パラメータ
指定方式は、オペレータが各種パラメータを指定するこ
とにより、トラブルチケットのクラスタリングを行な
い、各クラスタごとに代表トラブルチケットを求め、F
AQとするものである。
【0046】図6を参照して、オペレータが類似度しき
い値を指定することにより、トラブルチケットのクラス
タリングを実行し、FAQを求める方法について説明す
る。
【0047】まず、条件検索処理を実行する(S2)。
条件検索処理は、図3を参照して説明したものと同様で
ある。このため、その説明はここでは繰返さない。
【0048】次に、オペレータはクラスタリングのため
の類似度しきい値を入力する(S12)。まず、図2の
タブ78を押下すると、図7に示すようなタブパネルが
表示される。オペレータは、その類似度しきい値の欄に
経験に基づいて定めた適当な類似度しきい値を入力す
る。なお、類似度は0〜100までの値を有し、ここで
指定可能なしきい値は1〜99までの値であるものとす
る。
【0049】その後、オペレータはラジオボタン70
「クラスタリング」を押し、ボタン52を押下すると、
入力した類似度しきい値に基づいたトラブルチケットの
クラスタリング処理が実行される(S14)。ここで、
対象とされるトラブルチケットは、S2の条件検索で抽
出されたトラブルチケットである。S14の処理につい
ては、後に詳述する。
【0050】クラスタに分類されたトラブルチケット
は、FAQ候補欄80に表示される。表示された複数の
クラスタに分類されたトラブルチケットの中から、クラ
スタを選択すると、そのクラスタに含まれるトラブルチ
ケットがクラスタ内トラブルチケット表示欄82に表示
される。オペレータは、その中からそのクラスタの代表
トラブルチケットを選択する。すると、そのトラブルチ
ケットがFAQとして登録される(S16)。
【0051】次に、図8を参照して、S14の処理につ
いて詳細に説明する。トラブルチケットの番号を表わす
変数nに1を代入し(S42)、クラスタの番号を表わ
す変数kに1を代入する(S44)。n番目のトラブル
チケットが属するクラスタkを作成する(S46)。す
なわち、ここでは、1番目のトラブルチケットが属する
クラスタ1を作成する。
【0052】変数nを1つインクリメントする(S4
8)。n番目のトラブルチケットと比較対象となるクラ
スタを表わす変数iに1を設定する(S50)。すなわ
ち、現在、n番目のトラブルチケットの比較対象として
クラスタ1が設定されている。
【0053】n番目のトラブルチケットとクラスタiに
属する各トラブルチケットとの間の類似度の平均値の
内、最大のものを表わす変数max_類似度に0を代入
し(S52)、そのときのクラスタを表わす変数max
_クラスタにiを代入する(S54)。
【0054】n番目のトラブルチケットとクラスタiに
属する各トラブルチケットとの間の類似度の平均値を求
める(S56)。類似度の平均値と変数max_類似度
の値とを比較する(S58)。類似度の平均値が変数m
ax_類似度の値よりも大きければ(S58でYE
S)、変数max_類似度に類似度の平均値を代入し
(S60)、変数max_クラスタに変数iの値を代入
する(S62)。
【0055】S62の後、または類似度の平均値がma
x_類似度以下の場合には(S58でNO)、変数iの
値を1つインクリメントする(S64)。変数iの値と
変数kの値とを比較する(S66)。すなわち、n番目
のトラブルチケットについて、すべてのクラスタとの間
でS56からS64までの一連の処理を実行したか否か
を判断する(S66)。未処理のクラスタがある場合
(i<=k)には(S66でNO)、S56に戻る。
【0056】すべてのクラスタについての処理が終了し
ている場合(i>k)には(S66でYES)、変数m
ax_類似度の値と予め設定されたしきい値simTh
resholdとが比較される(S68)。
【0057】変数max_類似度の値がしきい値sim
Threshold以上の場合には(S68でYE
S)、n番目のトラブルチケットをmax_クラスタ番
目のクラスタに分類する(S70)。
【0058】変数max_類似度の値がしきい値sim
Threshold未満の場合には(S68でNO)、
クラスタの総数を表わす変数kを1つインクリメントし
(S72)、n番目のトラブルチケットが属するクラス
タkを作成し、そのトラブルチケットをクラスタkに分
類する(S74)。S70またはS74の処理の後、着
目しているトラブルチケットを表わす変数nの値を1つ
インクリメントする(S76)。
【0059】着目しているトラブルチケットの値nとト
ラブルチケットの総数Nとを比較する(S78)。着目
しているトラブルチケットの値nがチケットの総数N以
下の場合(n<=N)には(S78でNO)、クラスタ
リングされていない未処理のトラブルチケットnが存在
するため、S50に戻る。着目しているトラブルチケッ
トnの値がチケットの総数Nよりも大きい場合(n>
N)には(S78でYES)、すべてのトラブルチケッ
トnがいずれかのクラスタにクラスタリングされている
ため、処理を終了する。
【0060】以上説明したように、オペレータが類似度
しきい値を指定することにより、トラブルチケットのク
ラスタリングが実行され、FAQを求めることができ
る。
【0061】次に、図9を参照して、オペレータが類似
度しきい値の変わりにクラスタ数を指定することによ
り、トラブルチケットのクラスタリングを実行し、FA
Qを求める方法について説明する。
【0062】まず、条件検索処理を実行する(S2)。
条件検索処理は、図3を参照して説明したものと同様で
ある。このため、その説明はここでは繰返さない。
【0063】次に、オペレータは条件検索されたトラブ
ルチケットをクラスタリングした際の最終的なクラスタ
数の指定を行なう(S22)。まず、図2のタブ76を
押下すると、図10に示すようなタブパネルが表示され
る。オペレータは、そのクラスタ数の欄に所望のクラス
タ数を入力する。ここで指定可能なクラスタの数は、2
から条件検索されたトラブルチケットの最大数までであ
る。
【0064】その後、ラジオボタン70「クラスタリン
グ」を押し、ボタン52を押下すると、指定したクラス
タ数になるようにトラブルチケットのクラスタリング処
理が実行される(S24)。ここで、対象とされるトラ
ブルチケットは、S2の条件検索で抽出されたトラブル
チケットである。S24の処理については、後に詳述す
る。
【0065】クラスタに分類されたトラブルチケット
は、FAQ候補欄80に表示され、S16の処理が行な
われる。これにより、代表トラブルチケットがFAQと
して登録される。S16の処理は、図6を参照して説明
したものと同様である。このため、その詳細な説明はこ
こでは繰返さない。
【0066】次に、図11を参照して、S24の処理に
ついて詳細に説明する。まず、クラスタリングする際に
使用されるしきい値simThresholdとして、
指定されたクラスタ数をトラブルチケットの総数で除
し、定数k1を掛けた値を設定する(S82)。定数k
1としてはたとえば2.0という値が用いられる。
【0067】しきい値simThresholdに基づ
いて、図8を参照して説明したS14の処理を実行する
(S14)。その後、S14の処理実行後のクラスタ数
と指定されたクラスタ数とが比較される(S86)。処
理実行後のクラスタ数と指定されたクラスタ数とが等し
い場合には(S86でYES)、処理を終了する。
【0068】処理実行後のクラスタ数が指定されたクラ
スタ数よりも大きい場合には(S88でYES)、しき
い値simThresholdから定数k2を減算する
(S90)。その後、前回のS88での判定時にも処理
後のクラスタ数が指定されたクラスタ数よりも大きかっ
たか否かが判断される(S92)。前回も処理後のクラ
スタ数が指定されたクラスタ数よりも大きかったか、ま
たは今回初めてS88の処理を実行した場合には(S9
2でYES)、S14に戻り、新しいしきい値simT
hresholdに基づいて再度クラスタリング処理が
実行される。
【0069】処理実行後のクラスタ数が指定されたクラ
スタ数以下の場合には(S88でNO)、しきい値si
mThresholdに定数k2を加算する(S9
4)。その後、前回のS88の判定時にも処理後のクラ
スタ数が指定されたクラスタ数以下であったか否かが判
断される(S96)。前回も処理後のクラスタ数が指定
されたクラスタ数以下であったか、または今回初めてS
88の処理を実行した場合には(S96でYES)、S
14に戻り、新しいしきい値simThreshold
に基づいて再度クラスタリング処理が実行される。
【0070】前回の処理後のクラスタ数と指定されたク
ラスタ数との比較結果と、今回の処理のクラスタ数と指
定されたクラスタ数との比較結果とが異なる場合には
(S92でNO、S96でNO)、処理後のクラスタ数
が指定されたクラスタ数に収束しつつある。このため、
定数k2を2.0で除した値を新たな定数k2とし(S
98)、定数k2と所定の定数k3(たとえば、k3は
0.01)とが比較される(S100)。定数k2が定
数k3以上であれば(S100でNO)、S14に戻
り、新しいしきい値simThresholdに基づい
て再度クラスタリングが行なわれる。
【0071】定数k2が定数k3未満になった段階で
(S100でYES)、処理を打切り、指定クラスタ数
を超えない最も大きなクラスタ数でクラスタリングを行
なったものを結果として出力する。
【0072】以上説明したように、オペレータがクラス
タ数を指定することにより、トラブルチケットのクラス
タリングが実行され、FAQを求めることができる。
【0073】なお、クラスタ数を指定することにより、
トラブルチケットのクラスタリングを実行し、FAQを
求める方法として、二分探索(バイナリーサーチ)法を
用いることも可能である。以下、二分探索法を用いたク
ラスタリング処理について説明する。
【0074】図12を参照して、探索区間の左端のしき
い値leftSimThresに0.0を代入し、右端のしきい値ri
ghtSimThresに1.0を代入する(S142)。
【0075】curSimThres=(leftSimThres+rightSimTh
res)/2.0により類似度しきい値curSimThresを求め
る(S144)。類似度しきい値curSimThresに基づい
て、上述したのと同様のクラスタリング処理を実行する
(S14)。クラスタリング処理の結果、クラスタ数と
ユーザが指定したクラスタ数とが等しくなった場合には
(S146でYES)、処理を終了する。
【0076】クラスタリング処理の結果、クラスタ数と
指定クラスタ数とが異なる場合には(S146でN
O)、探索区間の幅(rightSimThres-leftSimThres)が
所定のしきい値simThresDiff未満か否かを調べ、しきい
値simThresDiff未満の場合には(S148でYES)、
処理を終了する。
【0077】しきい値simThresDiff以上の場合には、ク
ラスタ数が指定クラスタ数よりも大きいか否かを調べ
(S150)、指定クラスタ数よりも大きい場合には
(S150でYES)、探索範囲を変更するために、探
索範囲の右端を表わすしきい値rightSimThresにしきい
値curSimThresを代入する(S152)。
【0078】指定クラスタ数よりも小さい場合には(S
150でNO)、探索範囲の左端を表わすしきい値left
SimThresにしきい値curSimThresを代入する(S15
4)。S152またはS154の処理の後、S144に
戻る。
【0079】このような二分探索法を用いることによ
り、高速にクラスタリング処理を実行することができる
ようになる。
【0080】[(3)自動クラスタリング方式]自動ク
ラスタリング方式では、オペレータが各種パラメータを
指定することなく、自動的に適切な類似度しきい値を定
めてトラブルチケットのクラスタリングを行ない、各ク
ラスタごとに代表トラブルチケットを求め、FAQとす
るものである。
【0081】図13を参照して、条件検索処理を実行す
る(S2)。条件検索処理は、図3を参照して説明した
ものと同様である。このため、その説明はここでは繰返
さない。
【0082】次に、自動クラスタリングをするための操
作を行なう(S32)。まず、タブ74を押下し、ラジ
オボタン70「クラスタリング」を押下する。その後、
ボタン52を押下すると、トラブルチケットのクラスタ
リング処理が自動的に実行される(S32)。ここで、
クラスタリングの対象とされるトラブルチケットは、S
2の条件検索処理で抽出されたトラブルチケットであ
る。S32の処理については、後に詳述する。
【0083】クラスタに分類されたトラブルチケット
は、FAQ候補欄80に表示され、S16の処理が行な
われる。これにより、代表トラブルチケットがFAQと
して登録される。S16の処理は、図6を参照して説明
したものと同様である。このため、その詳細な説明はこ
こでは繰返さない。
【0084】次に、図14を参照して、S32の処理に
ついて詳細に説明する。類似度テーブル30には、予め
すべてのトラブルチケットの組合わせについての類似度
が算出され、記憶されている。クラスタリング部22
は、類似度テーブル30を参照して、図15に示すよう
なグラフで表わされる、類似度しきい値とそれに対応す
るクラスタ数との関係を表わす類似度しきい値−クラス
タ数関係テーブルを作成する(S112)。このグラフ
は、類似度しきい値を変化させたときにクラスタ数がど
のように変化するかを示すものである。このテーブル
は、図8に示される処理を、類似度しきい値simThresho
ldを変化させながら繰返し行なうことで作成することが
できる。
【0085】以下の処理は、類似度しきい値の変化に対
するクラスタ数の変化が少ない部分、すなわち図15に
示されるグラフで最もフラットな個所を自動的に探す処
理である。このような箇所を探すことによりトラブルチ
ケットを適切にクラスタリングできると考えられる。そ
の理由について以下に簡単に説明する。
【0086】今、典型的な例として、トラブルチケット
群がM個のクラスタに分類され、かつ各クラスタがN個
のトラブルチケットを含む場合を仮定する。この場合、
一つのクラスタ内のトラブルチケット間の類似度sim
Inの値は比較的大きい(たとえばsimIn=0.
8)。一方、別々のクラスタに属するトラブルチケット
は互いに本質的に異なる内容を含んでいるはずであるか
ら、それらトラブルチケット間の類似度simExの値
はsimInよりかなり小さな値となるはずである(た
とえばsimEx=0.2)。そのため、類似度は、比
較的大きな値と、比較的小さな値との2箇所に集中し
て、偏って分布することになる。
【0087】したがって、類似度しきい値simThr
esholdとしてsimIn<simThresho
ld<simExを満足する値をとれば、適切にクラス
タリングすることができると考えられ、結果として得ら
れるクラスタ数はM個となると考えられる。そしてこの
ときは、simInとsimExとの値の間にかなりの
相違が存在するので、simThresholdの値を
多少前後に変化させても、結果として得られるクラスタ
数の数はほとんど変化しない筈である。そのため、図1
5に示される曲線において勾配が最もゆるくなっている
個所の近辺の類似度しきい値でクラスタリングを行なえ
ば、M個のグループに適切にクラスタリングすることが
できる可能性が高い。つまり、類似度の分布に基づい
て、互いに類似するトラブルチケットと、互いに類似し
ないトラブルチケットとを別々のクラスタに分類するた
めの類似度しきい値が決定できるということである。
【0088】上記した例は典型的な例であるが、ドキュ
メント間の類似度のバラツキがもっと大きい場合にも、
類似度しきい値とそれを用いて得られるクラスタ数との
間には、上記したのとほぼ同様の関係が存在すると考え
られる。そこで、図15に示されるグラフにおいて、最
もフラットな箇所を探し、そのときの類似度を類似度し
きい値に採用すればよい。
【0089】そのために本実施の形態のシステムでは以
下のようにして図15に示されるグラフで最もフラット
な箇所を探す。すなわち、一定範囲のクラスタ数(この
範囲を以下「クラスタ範囲」と呼ぶ。)に対応する類似
度しきい値の上限と下限とを求める処理を、クラスタ範
囲を移動させながら行なう。そして、クラスタ範囲を図
15に示されるグラフの縦軸の全範囲にわたって移動さ
せたときに、対応する類似度しきい値の上限と下限との
差の最も小さくなるようなクラスタ範囲において、グラ
フの勾配が最もゆるくなると判定し、そのクラスタ範囲
の中心のクラスタ数に対応する類似度しきい値を採用す
る。なお、クラスタ範囲中の最大のクラスタ数を「クラ
スタ最大値」、最小のクラスタ数を「クラスタ最小値」
と呼ぶことにする。
【0090】次に、以下の処理で使用するクラスタ範囲
の大きさを示す値として、最大クラスタ数を定数k5
(たとえば10)で除した値を定める(S114)。こ
こでいう「最大クラスタ数」とは「クラスタ最大値」と
は別のものであって、クラスタリング処理の結果作成さ
れるクラスタの数として許容できる最大数のことをい
う。最大クラスタ数は、通常は2以上であり、かつクラ
スタリングの対象となるドキュメントの数以下である。
この値は、自動クラスタリング処理の起動時に利用者に
より指定されるものとする。この入力に先立ち、所定の
計算式にしたがって計算される数をデフォルトの最大ク
ラスタ数として最初に表示してもよい。たとえば対象ド
キュメント数の対数をとり、その値を超える最小の整数
をデフォルトの最大クラスタ数とするなどの方法が考え
られる。単純に対象ドキュメント数を定数で除した数を
デフォルトの最大クラスタ数としてもよい。
【0091】さらに、以下の処理で使用する「クラスタ
増分」を示す値として、上で述べた最大クラスタ数を定
数k6(たとえば20)で除した値を定める(S11
6)。本実施の形態では、クラスタ範囲を図15の縦軸
に沿って下から上に移動させていくが、クラスタ増分と
は、クラスタ範囲を移動させる際の増分値のことをい
う。
【0092】次に、クラスタ最小値として1を代入する
(S118)。以下、クラスタ最小値をクラスタ増分だ
け移動させながら以下の処理を繰返す。
【0093】この繰返し処理ではまず、クラスタ最小値
にクラスタ範囲の大きさを示す値を加えた値を求める
(S120)。これにより、現在検討の対象となってい
るクラスタ範囲のクラスタ最大値が求められる。次に、
このときのクラスタ最小値とクラスタ最大値とで囲まれ
た範囲の領域に対応する類似度しきい値の最小値と最大
値とを求める。
【0094】具体的には、まずクラスタ最大値と最大ク
ラスタ数とを比較する(S122)。ここでの判定は、
可能な範囲の全体にわたってクラスタ範囲を移動し終え
たか否かを知るために行なわれる。クラスタ最大値が最
大クラスタ数よりも大きくなった場合(S122でN
O)にはクラスタ範囲が図15の縦軸の最上部に到達
し、それを超えたということであるから、繰返し処理は
終了され、制御はS128に進む。クラスタ最大値が最
大クラスタ数以下の場合には(S122でYES)、そ
のクラスタ最小値とクラスタ最大値との間の領域に含ま
れる類似度しきい値の範囲を求める(S124)。次
に、クラスタ最小値をクラスタ増分だけインクリメント
し(S126)、S120に戻る。こうして、クラスタ
範囲を移動させながら、それぞれの場合について対応す
る類似度しきい値の範囲が求められる。
【0095】クラスタ最大値が最大クラスタ数よりも大
きくなった場合には(S122でNO)、S128に制
御が進む。S128では、S124で求めた類似度しき
い値の範囲の値のうち、最大の値が得られたとき(すな
わち図15に示す曲線が最もフラットとなるとき)のク
ラスタ最小値およびクラスタ最大値を求め(S12
8)、求めたクラスタ最小値とクラスタ最大値との平均
を、求めるクラスタ数とする(S130)。すなわち、
一定のクラスタ範囲に対応する類似度しきい値の範囲が
最も広くなる部分とは、図15でいえばクラスタ数が緩
やかに変化している部分のことであるから、そのときの
クラスタ数が適切なクラスタ数として決定される。
【0096】S130で求められたクラスタ数に対応す
る類似度しきい値を類似度しきい値−クラスタ数関係テ
ーブルより求め、その値をしきい値simThresh
oldとする(S132)。次に、しきい値simTh
resholdに基づいて、図8を参照して説明したS
14の処理を実行し(S14)、処理を終了する。
【0097】以上説明したように、オペレータがパラメ
ータを指定しなくても、トラブルチケットのクラスタリ
ングが実行され、FAQを求めることができる。このと
きの類似度しきい値は、全てのトラブルチケット間の類
似度の分布に基づいて、最もよくクラスタを分離できる
と考えられる値として自動的に決定される。
【0098】なお、上記した第1の実施の形態の自動ク
ラスタリング処理では、類似度しきい値を求めるため
に、類似度しきい値−クラスタ数関係のグラフの縦軸上
でクラスタ範囲を移動させる繰返し処理を行なって、類
似度しきい値を決定している。しかし類似度しきい値を
決定する処理はこうした方法に限定されるわけではな
い。たとえば、類似度しきい値−クラスタ数関係の曲線
を多項式(たとえば4次多項式)で近似し、微分して、
曲線の勾配が最もゆるくなる類似度しきい値を決定する
ようにしてもよい。
【0099】[第2の実施の形態]上に説明した第1の
実施の形態では、クラスタリング対象のトラブルチケッ
トの全てについて、他の全てのトラブルチケットとの類
似度を求めている。そのために、クラスタリングの計算
量はトラブルチケットの数の二乗のオーダで増加する。
計算のために必要な記憶領域の大きさも、トラブルチケ
ットの数の二乗のオーダで増加する。そのため、対象と
なるトラブルチケットの数が大きくなると、ハードウェ
アの面の負担が二乗のオーダで増加するとともに、計算
時間も二乗のオーダで大きくなるという問題がある。し
たがって、手持ちのハードウェアで現実的な処理時間の
うちに処理を終了させるためには、クラスタリング処理
の前に、処理対象となるトラブルチケットの数がある程
度より小さくなるようにする必要がある。
【0100】そのために、第1の実施の形態で述べたよ
うな条件検索またはキーワード検索によって、処理対象
のトラブルチケットを予め絞っておく必要がある。しか
し、処理対象となるトラブルチケットの数をこのように
予め絞ることにより、適切なクラスタリングが行なわれ
ず、最終的に得られるFAQの内容に不備が生じるおそ
れもある。
【0101】こうした問題は、トラブルチケットに限ら
ず、企業内で日常的に生産されるドキュメント一般のク
ラスタリング処理でも生じ得る。また、クラスタリング
処理は一度行なえば済むというものではなく、一旦クラ
スタリングを行なった後に、ドキュメントが追加された
ときにも、再度クラスタリング処理を行なう必要があ
る。そのため、上記した第1の実施の形態のやり方をそ
のまま踏襲するのでは、クラスタリング処理を実行する
たびに多大な時間がかかり、かつその時間が二乗のオー
ダで増加するので、ドキュメント数が多くなると現実的
でない。
【0102】第2の実施の形態では、処理対象となるド
キュメント数が多くなっても、過大なハードウェアを要
求せず、現実的な処理時間でクラスタリング処理を行な
うことができるようにする。また、一旦ドキュメントの
クラスタリング処理が実行された後、クラスタリングす
べきドキュメントが追加される場合にも、過大な処理時
間を要求することなく適切なクラスタリング処理を実行
することができるようにする。
【0103】以下この発明の第2の実施の形態にかかる
ドキュメントクラスタリングシステムについて説明する
が、以下の説明で使用する図面において、第1の実施の
形態のシステムと同じ機能を持つブロックについては同
じ参照番号および名称を付し、それらについての詳細な
説明は繰返さないこととする。また、以下の説明ではク
ラスタリングの対象はトラブルチケットに限定されない
ことを想定するので、より一般的に「ドキュメント」と
呼ぶことにする。
【0104】図16を参照して、この第2の実施の形態
にかかるドキュメントクラスタリングシステム100
は、コンピュータまたはコンピュータ群上で実行される
ドキュメントクラスタリングシステムのサーバ102
と、サーバ102に接続されたディスプレイ(図示せ
ず)等の画面上に表示されるGUI12とを含む。
【0105】ドキュメントクラスタリングシステムサー
バ102は、ドキュメントを蓄積するドキュメント群蓄
積部118と、ドキュメント群蓄積部118に蓄積され
たドキュメント群の中から、オペレータが指定した所定
の属性を有するドキュメントを検索し抽出する属性検索
部110と、ドキュメント群蓄積部118に接続され、
ドキュメント群蓄積部118に蓄積されたドキュメント
群よりキーワードを抽出するキーワード抽出部18と、
ドキュメント群蓄積部118に接続され、属性検索部1
10によって抽出されたドキュメント群中のドキュメン
トのすべての組合わせ(ドキュメント対)に関する類似
度を算出する類似度情報検索部(類似度算出部)20
と、類似度情報検索部20に接続され、算出された類似
度をテーブルの形で記憶する類似度テーブル30と、類
似度テーブル30に接続され、ドキュメント間の類似度
に基づいてドキュメントをクラスタリングするクラスタ
リング部22とを含む。
【0106】ドキュメントクラスタリングシステムサー
バ102は、さらに、類似度しきい値−クラスタ数関係
データ記憶部32と、クラスタリング部22および類似
度しきい値-クラスタ数関係データ記憶部32に接続さ
れ、クラスタリングされたクラスタの各々について、当
該クラスタを代表するドキュメントを算出する代表ドキ
ュメント算出部112と、属性検索部110に接続さ
れ、属性検索部110により抽出されたドキュメント
と、後述するクラスタリング情報とを蓄積するクラスタ
リング情報蓄積部120と、クラスタリング情報蓄積部
120に蓄積されたドキュメントよりクラスタリング情
報を作成し、クラスタリング情報蓄積部120に蓄積す
るクラスタリング情報作成部114と、ドキュメント群
蓄積部118およびクラスタリング情報蓄積部120に
接続され、最初のクラスタリング処理の対象となったド
キュメント以外のドキュメントを、最初のクラスタリン
グ処理によって得られたクラスタに分類するとともに、
必要に応じて新たなクラスタを作成するドキュメント分
類部116と、GUI12、属性検索部110、キーワ
ード抽出部18、類似度情報検索部20、クラスタリン
グ部22、代表ドキュメント算出部112、クラスタリ
ング情報作成部114およびドキュメント部類部116
に接続され、ドキュメントクラスタリングシステムサー
バ102の各部を制御するとともに、GUI12との間
のインタフェースの役割を果たす処理制御部104とを
含む。
【0107】ドキュメント群蓄積部118は、第1の実
施の形態におけるトラブルチケット蓄積部28に相当す
る。属性検索部110は第1の実施の形態における条件
検索部16に相当する。代表ドキュメント算出部112
は、第1の実施の形態における代表トラブルチケット算
出部24に相当する。クラスタリング情報作成部114
は、第1の実施の形態におけるFAQ作成部26に相当
する。クラスタリング情報蓄積部120は、第1の実施
の形態におけるFAQ蓄積部34に相当する。
【0108】クラスタリング情報作成部114は、クラ
スタリング処理の結果各クラスタに含まれるドキュメン
ト群からキーワード群を抽出し、各キーワードに重要度
を付与して各クラスタの特徴ドキュメントとする。キー
ワードの重要度は、キーワード抽出の際のスコア、各キ
ーワードがクラスタ内のドキュメントに含まれる頻度、
各キーワードに対して予め付与してある重要度、など種
々の尺度をアプリケーションに応じて用いることができ
る。
【0109】本実施の形態の装置では、各クラスタの特
徴ドキュメント=「代表ドキュメント(代表ドキュメン
ト算出部112により算出されたもの)+キーワード
群」とする。なお本実施の形態の装置では、このように
自動的に作成されクラスタリング情報蓄積部120に蓄
積された各クラスタのキーワード群を、GUI12を用
いて利用者が追加したり、削除したり、変更したりする
編集処理を行なうことが可能である。このよう編集処理
を、たとえば一般的なエディタを利用して容易に実現で
きることは明らかである。また、そのための専用のアプ
リケーションを用意してもよく、そうしたアプリケーシ
ョンを作成することもまた当業者には容易である。
【0110】第1の実施の形態に存在しておらず、この
第2の実施の形態の装置に含まれるものは、ドキュメン
ト分類部116である。ドキュメント分類部116は、
一旦クラスタリング処理がされた後、このクラスタリン
グ処理の対象となっていなかったドキュメント(最初の
ドキュメント群に含まれていたが、属性検索部110に
よる検索の対象とならなかったドキュメント、および最
初のドキュメント群には含まれておらず、後にドキュメ
ント群に追加されたドキュメントなどを含む。)を、後
述する方法にしたがって既存のクラスタに分類する機能
を有する。ドキュメント分類部116はまた、既存のク
ラスタに分類できなかったドキュメントを「未分類」と
いうクラスタに分類するとともに、所定の条件が充足さ
れたときにこの「未分類」に分類されたドキュメント群
に基づいて新たなクラスタを作成し、クラスタリング情
報蓄積部120に蓄積する機能も有する。
【0111】なお、処理制御部104は、図1の処理制
御部14と同様の機能を持つが、後述する初期処理およ
びドキュメント分類部116によるドキュメント分類処
理を制御する機能が追加されている。
【0112】図17を参照して、この第2の実施の形態
にかかるドキュメントクラスタリングシステムサーバ1
02の動作を制御するプログラムの構造は概略以下のと
おりである。前提として、ドキュメント群蓄積部118
には、既に相当数のクラスタリング対象のドキュメント
が蓄積されているものとする。まず、ステップ140に
より、初期処理として、ドキュメント群蓄積部118に
蓄積されているドキュメントに対してクラスタリング処
理を行ない、クラスタリング情報を作成してクラスタリ
ング情報蓄積部120に蓄積する。この初期処理140
で行なわれる処理については図18を参照して後述する
が、その内容は第1の実施の形態のシステムで行なわれ
るFAQ作成処理と本質的には同じである。
【0113】こうして、最初のドキュメント群に対して
一旦クラスタリング情報が作成される。その後新たに、
ドキュメントがドキュメント群蓄積部118に追加され
た場合を考える。企業の活動に伴い、日々こうしたドキ
ュメントが追加されることは通常のことである。追加さ
れたドキュメントは、当然、まだクラスタリングされて
いない。そのようにクラスタリングされていないドキュ
メントを「未クラスタリングドキュメント」と呼ぶこと
にする。
【0114】ステップ142では、追加された未クラス
タリングドキュメントをドキュメント分類部116を用
いて分類する処理が実行される。この処理については後
述する。概略的にいえば、ドキュメント分類部116
は、類似情報検索部(類似度算出部)20を利用して、
未クラスタリングドキュメントと各クラスタの特徴ドキ
ュメントとを比較してその類似度を算出する。そして、
算出された類似度の最も高いクラスタにその未クラスタ
ドキュメントを分類する。ここでは分類する際の類似度
はある一定のしきい値以上であるものとし、最も高い類
似度がこのしきい値より小さい場合には、未クラスタド
キュメントを「未分類」クラスタに分類する。しきい値
としては、初期処理でクラスタを作成する際に指定した
しきい値を採用することが考えられる。
【0115】ステップ142の後、ステップ142の処
理の結果、未分類クラスタに分類されたドキュメントの
数が所定数、たとえば1000個を超えたか否かが判断
される(ステップ144)。1000個を超えていない
場合は制御はステップ142に戻り、1000個を超え
た場合には制御はステップ146に進む。
【0116】ステップ146では、未分類クラスタに分
離されているドキュメント(本実施の形態では1000
個のドキュメント)に対して、第1の実施の形態および
初期処理ステップ140で実行されたのと同じクラスタ
リング処理を実行する。その結果、新たなクラスタが作
成されることになるが、この新たなクラスタが最初のク
ラスタ群に追加される。このステップ146の結果、最
初に作成されたクラスタ群が更新され、後に追加された
ドキュメントであって最初に作成されたどのクラスタに
も属さないもののみからなる新たなクラスタが追加され
る。以後、こうして更新されたクラスタ群を用いて、ス
テップ142〜146の処理が繰り返される。
【0117】図18を参照して、図17の初期処理ステ
ップ140で実行される処理について説明する。まず最
初に、ドキュメント群蓄積部118に蓄積されたドキュ
メントの数を考慮して、最初のクラスタ群を作成するた
めに必要なドキュメントをドキュメント群の中から抽出
することが必要か否かが利用者により判定される(16
0)。たとえばドキュメント群に含まれるドキュメント
が多すぎるときには、ある時間内にクラスタリング処理
を完了するためにここでドキュメント数を絞ることが必
要である。
【0118】抽出が必要な場合には、ステップ162で
乱数を用いて一定数のドキュメントの抽出が行なわれ
る。
【0119】続いて、ステップ164において、ステッ
プ162で抽出されたドキュメント群を対象として、ま
たはステップ160で抽出が不要と判断された場合には
全てのドキュメントを対象として、初期クラスタの作成
処理(クラスタリング処理)が実行される(164)。
この処理は、第1の実施の形態で説明したトラブルチケ
ットの自動クラスタリング処理と実質的に同一である
が、細部で相違があるので、図19を参照して後述す
る。この処理では、図16に示す類似情報検索部(類似
度算出部)20、およびクラスタリング部22が使用さ
れる。
【0120】続いてステップ168で、初期クラスタの
作成処理で作成された各クラスタについて、特徴ドキュ
メントの一部である代表ドキュメントが決定される。こ
の処理も第1の実施の形態の説明中の図13のS16で
行なわれる処理と実質的に同一である。
【0121】さらにステップ168で、各クラスタごと
に特徴ドキュメントの他の一部であるキーワードがキー
ワード抽出部18により自動的に抽出され、重要度ごと
に並べ替えられて各クラスタに付与される。なお図示は
していないが、この処理の後に利用者がこのキーワード
を追加、削除、または変更することができ、それによっ
て各クラスタの特徴を調整することができる。
【0122】以上で初期クラスタの作成処理は完了であ
る。続いて、未クラスタリングドキュメントがあればド
キュメント分類部116を用いて分類する処理が行なわ
れる(170)。未クラスタリングドキュメントがなく
なれば初期処理は終了である。なおステップ160で抽
出が不要であると判断された場合には、全ドキュメント
に対するクラスタリング処理が実行されるので、ステッ
プ170で分類処理の対象となる未クラスタリングドキ
ュメントは残っておらず、ステップ170の処理は実行
されないことになる。
【0123】図18のステップ170で実行される分類
処理を実現するプログラムの制御構造の詳細は以下のと
おりである。この処理は図19に示されるとおりであっ
て、第1の実施の形態における図8に示した類似度しき
い値によるクラスタリング処理と同様の処理である。た
だし、図19に示す分類処理では、あるドキュメントを
全クラスタの特徴ドキュメントと比較した結果得られた
類似度の最大値が、所定のしきい値未満の場合には、そ
のドキュメントを未分類クラスタに分類する点におい
て、そのドキュメントを含む新たなクラスタを作成する
(S74)という図8の処理とは異なっている。
【0124】以下、図19について説明する。図19を
参照してまず、クラスタリング対象のドキュメントの番
号を表わす変数nに0を代入する(190)。続いて処
理過程において類似度の最大値を表わす変数max_類
似度に0を代入する。続いて変数nに1を加算し(19
4)、その結果、変数nが処理対象のドキュメント(す
なわち、図18のステップ162で抽出が行なわれた場
合には抽出されたドキュメント、抽出が行なわれなかっ
た場合には処理対象の全ドキュメント)の数より大きく
なったか否かを判定する(196)。変数nが処理対象
のドキュメント数より大きければ処理終了である。変数
nがドキュメント数以下であれば制御はステップ198
に進む。
【0125】ステップ198では、クラスタ番号を示す
変数iに0が代入される。続いてステップ200では変
数iに1が加算される。そしてその結果、変数iの値が
クラスタ数を超えたか否かが判定される(202)。変
数iの値がクラスタ数を超えた場合については後述す
る。変数iの値がクラスタ数以下の場合、制御はステッ
プ204に進む。
【0126】ステップ204では、n番目のドキュメン
トとクラスタi(i番目のクラスタ)の特徴ドキュメン
トとの間の類似度を類似度情報検索部(類似度算出部)
20を用いて算出する。もし得られた類似度が変数ma
x_類似度より大きければ変数max_類似度にステッ
プ204で算出された類似度の値を代入して制御はステ
ップ200に戻る。算出された類似度が変数max_類
似度以下であれば何もせず制御はステップ200に戻
る。
【0127】ステップ202の処理で変数iの値がクラ
スタ数より大きいと判定された場合、制御はステップ2
20に進む。ステップ220では、変数max_類似度
の値が予め指定された類似度しきい値以上か否かが判定
される。変数max_類似度の値が予め指定された類似
度しきい値以上であれば、ステップ222でn番目のド
キュメントをmax_類似度と一致する類似度が得られ
たクラスタに分類して制御はステップ192に戻る。変
数max_類似度の値が予め指定された類似度しきい値
未満であれば、n番目のドキュメントは既存のどのクラ
スタにも属さないと判定され、「未分類」クラスタに分
類され(ステップ224)、制御はステップ192に戻
る。
【0128】以上が、図18のステップ170で実行さ
れる処理の詳細な制御構造である。なお、図17のステ
ップ142で行なわれる処理が、図19に示されるステ
ップ198〜224の処理に対応するものであること
は、当業者には明らかであろう。
【0129】この第2の実施の形態において未クラスタ
リングドキュメントのクラスタリングをする際には、含
まれるドキュメントが少ないクラスタを除外してクラス
タリングをするようにしてもよい。このようにすること
により、ノイズを除去し、クラスタリングの精度を上げ
ることができる。クラスタをクラスタリング対象から除
外するか否かを判定する際の基準としては、クラスタに
含まれるドキュメントの絶対数が所定数以下か否か、ま
たはクラスタに含まれるドキュメント数が全ドキュメン
ト数に対し所定の割合以下か否か、など、アプリケーシ
ョンに応じて適宜決定することができる。また、その際
のドキュメント数または割合などの除外のためのパラメ
ータも指定可能とする。
【0130】以上説明した第2の実施の形態にかかるド
キュメントクラスタリングシステム100は以下のよう
に動作する。なお、第1の実施の形態と同様の動作を行
なう部分については説明は繰返さないこととし、図17
〜図19に示される処理に関連する部分のみについて説
明する。
【0131】図17を参照して、最初に初期処理170
が行なわれる。初期処理では、図18を参照して、利用
者はまず、処理対象のドキュメントの数に基づいて、初
期処理の対象とするドキュメントとしてある程度の数に
絞り込む必要があるか否かを判断する(160)。ドキ
ュメント数がもともとそれほど多くなければドキュメン
トの絞込みを行なわず、ドキュメント数が多数であれば
ステップ162の抽出処理を行なってドキュメントの数
を絞り込む。
【0132】続いて、絞り込まれたドキュメントに対し
て初期クラスタの作成処理を行なう(164)。この処
理は第1の実施の形態で既に説明したものと同様である
ので、その詳細については繰返さない。ここでは、対象
ドキュメント群からクラスタが自動的に作成され、かつ
各ドキュメントが各クラスタにクラスタリングされる。
【0133】続くステップ166、168において各ク
ラスタの代表ドキュメントの決定およびキーワードの抽
出、並べ替え、および付与が行なわれる。この後、場合
によっては利用者によりキーワードの編集が行なわれ
る。
【0134】さらに、初期処理の最初にドキュメントの
絞込みが実行されていた場合、ステップ170で残りの
ドキュメント(未クラスタリングドキュメント)につい
て、初期クラスタのいずれか、または「未分類」クラス
タに分類する処理が行なわれる。
【0135】図19を参照して、ステップ170の処理
では、まずドキュメントの番号を示す変数nと、変数m
ax_類似度とに0が代入される(190、192)。
続いて変数nに1加算される(194)。この変数nが
ドキュメント数より大きいか否かが判定される(19
6)が、1回目の判断ではこの結果は否となることが一
般的である。その結果処理はステップ198に進む。
【0136】ステップ198で変数iに0が代入された
後、変数iに1が加算される(200)。そして変数i
の値(=1)が初期クラスタの作成処理(図18のステ
ップ164)で作成されたクラスタの数を超えたか否か
が判定される(202)。クラスタ数は複数であること
が一般的なので、制御はステップ204に進む。ステッ
プ204では1番目のドキュメントと1番目のクラスタ
の特徴ドキュメントとの間の類似度が算出される。
【0137】ステップ206では、ステップ204で算
出された類似度が変数max_類似度より大きいか否か
が判定される。今、変数max_類似度の値はステップ
192で設定された0である。通常、1番目のドキュメ
ントと1番目のクラスタの特徴ドキュメントとの間の類
似度は0より大きく1より小さいので、ここでの判定結
果は「YES」となり、ステップ208で変数max_
類似度にステップ204で算出された類似度の値が代入
され、制御はステップ200に戻る。なおこのとき、最
大類似度が得られたクラスタを表わす変数に変数iの値
(現在の説明の場合ではi=1)が格納される。
【0138】ステップ200では、変数iに1が加算さ
れ、その結果変数iの値は2となる。以下、ステップ2
02〜208の処理が1番目のドキュメントと2番目の
クラスタの特徴ドキュメントとの間で実行される。さら
に変数i=3,4,5…として、1番目のドキュメント
と全てのクラスタの特徴ドキュメントとの類似度が計算
され、その中で最も大きな類似度が変数max_類似度
に記憶される。また、その値を与えたクラスタの番号も
記憶される。
【0139】こうして、1番目のドキュメントと全ての
クラスタの特徴ドキュメントとの類似度を計算し終わる
と、ステップ202の判定の結果が「YES」となり、
制御はステップ220に進む。ステップ220では、変
数max_類似度の値が、予め指定された類似度しきい
値以上か否かが判定される。判定結果が「YES」であ
れば、1番目のドキュメントは最大類似度を与えたクラ
スタに分類される(222)が、そうでなければ1番目
のドキュメントは「未分類」クラスタに分類される。な
お「未分類」クラスタは、ステップ200〜208での
処理の対象とはならない。
【0140】そして、制御はステップ192に戻り、再
度変数max_類似度に0が代入され、nに1が加算さ
れて2となり、2番目のドキュメントに対して、上述し
た1番目のドキュメントと同じ処理が実行される。
【0141】このようにして、全てのドキュメントに対
して分類処理を実行することにより、未クラスタリング
ドキュメントの各々が、通常は初期クラスタのいずれか
一つかに分類され、それらのいずれともよく類似してい
ない場合には、「未分類」クラスタに分類される。全て
のドキュメントの分類が終了したら初期処理(図17の
ステップ140)は終了である。
【0142】再び図17を参照して、ステップ142以
下の処理は、あるドキュメントが追加されるたびに、ま
たは一定期間ごとに実行される。
【0143】あるドキュメントが追加されると、ステッ
プ142の処理が実行される。この処理は前述したとお
り、図19のステップ198〜224に示した処理と同
じである。その結果、そのドキュメントは通常は初期ク
ラスタのいずれか一つに分類され、いずれのクラスタの
特徴ドキュメントともよく類似していない場合には「未
分類」クラスタに分類される。
【0144】こうして、ドキュメントが追加されるたび
に当該ドキュメントの分類処理が行なわれるが、ステッ
プ144の判定で「未分類」クラスタ内のドキュメント
数が1000を超えたと判定されたときには、ステップ
146においてこの「未分類」クラスタの中のドキュメ
ントを対象として図18の「初期クラスタの作成」で行
なわれたのと同様の処理が行なわれる。ただしこの処理
では、新たに作成されるクラスタは、既存のクラスタに
追加して登録されることになる。
【0145】こうして、ステップ146の処理の結果、
初期クラスタに新たなクラスタが追加され、「未分類」
クラスタ内にあったすべてのドキュメントはいずれかの
クラスタに分類されることになる。
【0146】以下、ステップ142〜146の処理を繰
返す。こうした処理を繰返すことにより、クラスタリン
グ対象のドキュメント数が多くとも、また追加されるド
キュメント数が多くとも、クラスタリングとドキュメン
トの分類とを、過大なハードウェアを要件とすることな
く、現実的な時間で行なうことが可能となる。
【0147】なお、以上の説明では主としてドキュメン
トをクラスタリングする際の手法について述べた。しか
し当業者であれば容易に理解できるように、本実施の形
態はドキュメントの分類だけでなく、データの種類にか
かわらずデータをクラスタリングする際に応用すること
が可能である。特にクラスタリング対象のデータが多数
で、かつデータの追加がよく行なわれるような場合に
も、効率的にデータのクラスタリングと分類とを行なう
ことができる。
【0148】また、以上の説明から明らかなように、本
発明のシステムは一般的な計算機と、その上で実行され
るソフトウェアとによって実現することができる。もち
ろん、専用のハードウェアを用いて実現することもでき
る。
【0149】今回開示された実施の形態はすべての点で
例示であって制限的なものではないと考えられるべきで
ある。本発明の範囲は上記した説明ではなくて特許請求
の範囲によって示され、特許請求の範囲と均等の意味お
よび範囲内でのすべての変更が含まれることが意図され
る。
【図面の簡単な説明】
【図1】 本発明の第1の実施の形態に係るFAQ作成
支援システムの構成を示すブロック図である。
【図2】 FAQ作成支援メイン画面の一例を示す図で
ある。
【図3】 複数キーワード指定方式によるFAQの作成
処理のフローチャートである。
【図4】 条件検索による絞込み画面の一例を示す図で
ある。
【図5】 キーワード抽出画面の一例を示す図である。
【図6】 類似度しきい値を指定することによるFAQ
の作成処理のフローチャートである。
【図7】 タブパネル「類似度しきい値指定」の一例を
示す図である。
【図8】 類似度しきい値によるクラスタリング処理の
フローチャートである。
【図9】 クラスタ数を指定することによるFAQの作
成処理のフローチャートである。
【図10】 タブパネル「クラスタ数指定」の一例を示
す図である。
【図11】 クラスタ数指定によるクラスタリング処理
のフローチャートである。
【図12】 クラスタ数指定によるクラスタリング処理
のフローチャートである。
【図13】 自動的にFAQを作成する処理のフローチ
ャートである。
【図14】 自動クラスタリング処理のフローチャート
である。
【図15】 類似度しきい値−クラスタ数関係テーブル
の一例を示す図である。
【図16】 本発明の第2の実施の形態にかかるドキュ
メントクラスタリングシステムのブロック図である。
【図17】 第2の実施の形態にかかるシステムでのク
ラスタリング作業の一般的手順を示すフローチャートで
ある。
【図18】 第2の実施の形態にかかるシステムでのク
ラスタリング作業のうち、初期処理のフローチャートで
ある。
【図19】 第2の実施の形態にかかるシステムでの未
クラスタリングドキュメントの分類処理のフローチャー
トである。
【符号の説明】
2 FAQ作成支援システム、14,104 処理制御
部、16 条件検索部、18 キーワード抽出部、20
類似度情報検索部、22 クラスタリング部、24
代表トラブルチケット算出部、26 FAQ作成部、2
8 トラブルチケット蓄積部、30 類似度テーブル、
32 類似度しきい値−クラスタ数関係データ記憶部、
34 FAQ蓄積部、40 サーバ計算機、52,6
0,64,66 ボタン、62 入力欄、68 表示
欄、70,72 ラジオボタン、74,76,78 タ
ブ、80 FAQ候補欄、82 クラスタ内トラブルチ
ケット表示欄、100 ドキュメントクラスタリングシ
ステム、102 ドキュメントクラスタリングシステム
サーバ、110 属性検索部、112 代表ドキュメン
ト算出部、114 クラスタリング情報作成部、116
ドキュメント分類部、118 ドキュメント群蓄積
部、120 クラスタリング情報蓄積部。

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 ドキュメント群における各ドキュメント
    間の類似度を算出するための類似度算出手段と、 前記類似度算出手段に接続され、前記各ドキュメント間
    の類似度の分布の偏りに基づいて、前記ドキュメント群
    をクラスタリングするための類似度しきい値を算出する
    ための類似度しきい値算出手段と、 前記類似度しきい値算出手段および前記類似度算出手段
    に接続され、前記類似度しきい値および前記各ドキュメ
    ント間の類似度に基づいて、前記ドキュメント群をクラ
    スタリングするためのクラスタリング手段とを含む、ド
    キュメントクラスタリング装置。
  2. 【請求項2】 前記類似度しきい値算出手段は、 前記各ドキュメント間の類似度に基づいて、任意の類似
    度しきい値と、当該任意の類似度しきい値を用いて前記
    クラスタリング手段によってクラスタリングを行なう際
    のクラスタ数との関係を求めるための類似度しきい値−
    クラスタ数関係算出手段と、 前記類似度しきい値−クラスタ数関係算出手段に接続さ
    れ、前記類似度しきい値と前記クラスタ数との関係に現
    れる前記ドキュメント間の類似度の分布の偏りに基づい
    て、類似度しきい値を算出するための手段とを含む、請
    求項1に記載のドキュメントクラスタリング装置。
  3. 【請求項3】 前記類似度しきい値算出手段は、さら
    に、前記類似度しきい値−クラスタ数関係算出手段に接
    続され、前記クラスタリング手段によって、オペレータ
    が指定したクラスタ数に前記ドキュメント群をクラスタ
    リングするための適切な類似度しきい値を算出するため
    の手段を含む、請求項2に記載のドキュメントクラスタ
    リング装置。
  4. 【請求項4】 前記類似度算出手段により算出されたド
    キュメント間の類似度を記憶するための類似度記憶手段
    をさらに含み、 前記類似度しきい値算出手段および前記クラスタリング
    手段は、前記類似度記憶手段に最新の類似度が記憶され
    ている場合には、前記類似度記憶手段に記憶されている
    類似度を利用して類似度しきい値の算出処理とクラスタ
    リング処理とをそれぞれ実行する、請求項1に記載のド
    キュメントクラスタリング装置。
  5. 【請求項5】 前記クラスタリング手段によりクラスタ
    リングされた各前記クラスタの特徴ドキュメントを算出
    するための特徴ドキュメント算出手段と、 クラスタリングされていない追加のドキュメントと、各
    前記クラスタの特徴ドキュメントとの間の類似度に基づ
    いて、前記追加のドキュメントをクラスタリングするた
    めの追加クラスタリング手段とをさらに含む、請求項1
    に記載のドキュメントクラスタリング装置。
  6. 【請求項6】 前記追加クラスタリング手段は、 前記追加のドキュメントと、各前記クラスタの特徴ドキ
    ュメントとの間の類似度の最大値を算出するための手段
    と、 前記最大値が所定の条件を充足しているか否かを判定す
    るための手段と、 前記最大値が前記所定の条件を充足していると判定され
    た場合に、前記追加のドキュメントを前記最大値を与え
    たクラスタに分類するための手段とを含む、請求項5に
    記載のドキュメントクラスタリング装置。
  7. 【請求項7】 前記追加クラスタリング手段はさらに、
    前記最大値が前記所定の条件を充足していないと判定さ
    れた場合に、前記追加のドキュメントを特定の未分類ク
    ラスタに分類するための手段を含む、請求項6に記載の
    ドキュメントクラスタリング装置。
  8. 【請求項8】 前記追加クラスタリング手段はさらに、
    前記未分類クラスタに分類された追加のドキュメントの
    数が所定の条件を充足したことに応答して、前記未分類
    クラスタに分類された追加のドキュメントに対して前記
    クラスタリング処理を実行させるための手段を含む、請
    求項7に記載のドキュメントクラスタリング装置。
  9. 【請求項9】 ドキュメント群における各ドキュメント
    間の類似度を求めるための類似度算出手段と、 オペレータからのクラスタ数の入力を受付けるためのク
    ラスタ数受付け手段と、 前記類似度算出手段および前記クラスタ数受付け手段に
    接続され、予め定められた類似度しきい値および前記類
    似度の分布の偏りに基づいて、前記ドキュメント群をク
    ラスタリングするためのクラスタリング手段と、 前記クラスタ数受付け手段および前記クラスタリング手
    段に接続され、クラスタリングの結果のクラスタ数が、
    前記クラスタ数受付け手段で受付けた前記オペレータか
    らのクラスタ数に一致するか否かを判断するためのクラ
    スタ数一致判断手段と、 前記クラスタ数受付け手段、前記クラスタ数一致判断手
    段および前記クラスタリング手段に接続され、前記クラ
    スタ数一致判断手段の出力に基づいて、前記予め定めら
    れた類似度しきい値を変更し、前記クラスタリング手段
    に供給するための類似度しきい値変更手段とを含む、ド
    キュメントクラスタリング装置。
  10. 【請求項10】 含まれるドキュメント数が所定の方法
    により定められる数以下であるクラスタを前記クラスタ
    リング手段によるクラスタリングの対象から除外するた
    めの手段をさらに含む、請求項1または請求項9に記載
    のドキュメントクラスタリング装置。
  11. 【請求項11】 前記類似度算出手段により算出された
    ドキュメント間の類似度を記憶する類似度記憶手段をさ
    らに含み、 前記クラスタリング手段は、前記類似度記憶手段に最新
    の類似度が記憶されている場合には、前記類似度記憶手
    段に記憶されている類似度を利用してクラスタリング処
    理を実行する、請求項9に記載のドキュメントクラスタ
    リング装置。
JP2001343778A 2000-12-01 2001-11-08 ドキュメントクラスタリング装置 Pending JP2002230012A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001343778A JP2002230012A (ja) 2000-12-01 2001-11-08 ドキュメントクラスタリング装置
CNB02151836XA CN1327334C (zh) 2001-11-08 2002-11-08 文件分组装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000-366976 2000-12-01
JP2000366976 2000-12-01
JP2001343778A JP2002230012A (ja) 2000-12-01 2001-11-08 ドキュメントクラスタリング装置

Publications (1)

Publication Number Publication Date
JP2002230012A true JP2002230012A (ja) 2002-08-16

Family

ID=26605073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001343778A Pending JP2002230012A (ja) 2000-12-01 2001-11-08 ドキュメントクラスタリング装置

Country Status (1)

Country Link
JP (1) JP2002230012A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004318408A (ja) * 2003-04-15 2004-11-11 Tokyo Electric Power Co Inc:The テキスト主旨分析装置およびテキスト主旨分析プログラム
JP2006260242A (ja) * 2005-03-17 2006-09-28 Ricoh Co Ltd 文書管理装置,プログラム,および記録媒体
JP2006301959A (ja) * 2005-04-20 2006-11-02 Just Syst Corp 文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体
JP2008059442A (ja) * 2006-09-01 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
WO2011099982A1 (en) * 2010-02-13 2011-08-18 Hewlett-Packard Development Company, Lp System and method for identifying the principal documents in a document set
JP2013050896A (ja) * 2011-08-31 2013-03-14 Toshiba Corp Faq作成支援システム及びプログラム
KR101828995B1 (ko) 2017-05-08 2018-02-14 한국과학기술정보연구원 키워드 클러스터링 방법 및 장치
WO2018122931A1 (ja) * 2016-12-26 2018-07-05 株式会社Pfu 情報処理装置、方法およびプログラム
JP2019036210A (ja) * 2017-08-18 2019-03-07 株式会社三井住友銀行 機械学習を利用したfaq登録支援方法、及びコンピュータシステム
JP2019053608A (ja) * 2017-09-15 2019-04-04 株式会社東芝 特徴行動検知装置
JP2020173673A (ja) * 2019-04-11 2020-10-22 富士通株式会社 文書処理方法、文書処理プログラムおよび情報処理装置
JP2021064132A (ja) * 2019-10-11 2021-04-22 株式会社エクサウィザーズ 質問文出力方法、コンピュータプログラム及び情報処理装置
WO2021140594A1 (ja) * 2020-01-08 2021-07-15 日本電信電話株式会社 操作ログ取得装置および操作ログ取得方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10143517A (ja) * 1996-11-13 1998-05-29 Fuji Xerox Co Ltd 文書作成装置
JPH1115835A (ja) * 1997-06-20 1999-01-22 Fuji Xerox Co Ltd 分類情報提示装置及び分類情報提示プログラムを記録した媒体
JPH11149485A (ja) * 1997-09-24 1999-06-02 Ricoh Co Ltd 文書画像データベース検索方法、文書画像データベース編成方法、記録媒体、及び、文書画像データベース編成装置
JP2000172701A (ja) * 1998-12-04 2000-06-23 Fujitsu Ltd 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体
JP2000305950A (ja) * 1999-04-26 2000-11-02 Ricoh Co Ltd 文書分類装置および文書分類方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10143517A (ja) * 1996-11-13 1998-05-29 Fuji Xerox Co Ltd 文書作成装置
JPH1115835A (ja) * 1997-06-20 1999-01-22 Fuji Xerox Co Ltd 分類情報提示装置及び分類情報提示プログラムを記録した媒体
JPH11149485A (ja) * 1997-09-24 1999-06-02 Ricoh Co Ltd 文書画像データベース検索方法、文書画像データベース編成方法、記録媒体、及び、文書画像データベース編成装置
JP2000172701A (ja) * 1998-12-04 2000-06-23 Fujitsu Ltd 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体
JP2000305950A (ja) * 1999-04-26 2000-11-02 Ricoh Co Ltd 文書分類装置および文書分類方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
井上 光平: "多変量写像法による任意形状クラスタの抽出", 電子情報通信学会論文誌, vol. 第J84-D-II巻 第2号, CSNG200201363001, 1 February 2001 (2001-02-01), JP, pages 229 - 237, ISSN: 0000805064 *
堀田 政二: "ファジークラスタリングによるデータの視覚化と検索", 電子情報通信学会技術研究報告, vol. 第100巻 第31号, CSNG200100301019, 2 May 2000 (2000-05-02), JP, pages 145 - 152, ISSN: 0000805063 *
田中 栄治: "情報探索支援システムの構築(2)", 電子情報通信学会技術研究報告, vol. 第96巻 第578号, CSNG199800369010, 15 March 1997 (1997-03-15), JP, pages 81 - 86, ISSN: 0000758842 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004318408A (ja) * 2003-04-15 2004-11-11 Tokyo Electric Power Co Inc:The テキスト主旨分析装置およびテキスト主旨分析プログラム
JP2006260242A (ja) * 2005-03-17 2006-09-28 Ricoh Co Ltd 文書管理装置,プログラム,および記録媒体
JP2006301959A (ja) * 2005-04-20 2006-11-02 Just Syst Corp 文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体
JP2008059442A (ja) * 2006-09-01 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
WO2011099982A1 (en) * 2010-02-13 2011-08-18 Hewlett-Packard Development Company, Lp System and method for identifying the principal documents in a document set
JP2013050896A (ja) * 2011-08-31 2013-03-14 Toshiba Corp Faq作成支援システム及びプログラム
WO2018122931A1 (ja) * 2016-12-26 2018-07-05 株式会社Pfu 情報処理装置、方法およびプログラム
KR101828995B1 (ko) 2017-05-08 2018-02-14 한국과학기술정보연구원 키워드 클러스터링 방법 및 장치
JP2019036210A (ja) * 2017-08-18 2019-03-07 株式会社三井住友銀行 機械学習を利用したfaq登録支援方法、及びコンピュータシステム
JP2019053608A (ja) * 2017-09-15 2019-04-04 株式会社東芝 特徴行動検知装置
JP2020173673A (ja) * 2019-04-11 2020-10-22 富士通株式会社 文書処理方法、文書処理プログラムおよび情報処理装置
JP7243402B2 (ja) 2019-04-11 2023-03-22 富士通株式会社 文書処理方法、文書処理プログラムおよび情報処理装置
JP2021064132A (ja) * 2019-10-11 2021-04-22 株式会社エクサウィザーズ 質問文出力方法、コンピュータプログラム及び情報処理装置
WO2021140594A1 (ja) * 2020-01-08 2021-07-15 日本電信電話株式会社 操作ログ取得装置および操作ログ取得方法
JPWO2021140594A1 (ja) * 2020-01-08 2021-07-15
JP7380714B2 (ja) 2020-01-08 2023-11-15 日本電信電話株式会社 操作ログ取得装置および操作ログ取得方法

Similar Documents

Publication Publication Date Title
US6556710B2 (en) Image searching techniques
US7065521B2 (en) Method for fuzzy logic rule based multimedia information retrival with text and perceptual features
US6522782B2 (en) Image and text searching techniques
US9015194B2 (en) Root cause analysis using interactive data categorization
US20020069197A1 (en) Method and apparatus for categorizing information, and a computer product
US20020174095A1 (en) Very-large-scale automatic categorizer for web content
US6606623B1 (en) Method and apparatus for content-based image retrieval with learning function
US20220365957A1 (en) Log parsing method and device, server and storage medium
JP2002230012A (ja) ドキュメントクラスタリング装置
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN108766451B (zh) 一种音频文件处理方法、装置和存储介质
US6522780B1 (en) Indexing of images and/or text
JPH08255172A (ja) 文書検索システム
CN111562920A (zh) 小程序代码相似度确定方法、装置、服务器及存储介质
KR20010104873A (ko) 메타 검색엔진을 이용한 인터넷 사이트 검색 서비스 시스템
JP5780036B2 (ja) 抽出プログラム、抽出方法及び抽出装置
KR100318512B1 (ko) 두그룹간의유사도계산방법
US11853858B2 (en) Chart building user interface providing machine learned chart recommendations
KR102345410B1 (ko) 빅데이터 지능형 수집 방법 및 장치
CN116610810A (zh) 基于调控云知识图谱血缘关系的智能搜索方法及系统
CN107357881A (zh) 一种基于新闻数据的中文文本分类系统
US20020102021A1 (en) Representing an image with a posterized joint histogram
KR20090010752A (ko) 연관 데이터 클래스 생성 방법 및 시스템
CN1327334C (zh) 文件分组装置
US7577649B2 (en) Engine for validating proposed changes to an electronic entity

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040924

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20060227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061030

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20061030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20061030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070109

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070403