JP2005063249A - 分類結果表示装置および方法 - Google Patents

分類結果表示装置および方法 Download PDF

Info

Publication number
JP2005063249A
JP2005063249A JP2003294097A JP2003294097A JP2005063249A JP 2005063249 A JP2005063249 A JP 2005063249A JP 2003294097 A JP2003294097 A JP 2003294097A JP 2003294097 A JP2003294097 A JP 2003294097A JP 2005063249 A JP2005063249 A JP 2005063249A
Authority
JP
Japan
Prior art keywords
display
classification
result
date
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003294097A
Other languages
English (en)
Inventor
Takehiro Koyama
剛弘 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2003294097A priority Critical patent/JP2005063249A/ja
Publication of JP2005063249A publication Critical patent/JP2005063249A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 クラスタ間の関係や文書とクラスタ間の関係、文書間の関係を容易に把握できるクラスタリング結果を時系列で表示して文書群のトレンドの推移を分析可能にする。
【解決手段】 入力部1は、入力された日付情報をもつ文書を解析して単語ベクタを生成する。関連度計算部2は、単語ベクタから各文書間の関連度を計算する。クラスタリング部3は、各文書間の関連度から文書をクラスタに分類する。日付データ作成部4は、文書の日付情報を管理する日付情報管理テーブルを作成する。表示判定制御部5は、日付情報管理テーブルを参照して一定時間経過ごとに表示開始日付をずらしながら表示対象文書を判定する。表示位置計算部6は、クラスタリング部で用いている分類手法とは異なる手法で各文書の表示位置を計算する。結果表示部7は、表示対象文書と判定された文書について分類結果を表示位置に表示する。
【選択図】 図1

Description

本発明は、文書等を分類した結果を表示するための技術に関するものである。
近年、文書の電子化とともに大量の文書が公開され、あるいは共有されるようになってきたが、このような大量な文書から必要とする文書を探し出すのはますます困難になっている。そのため、文書の内容によってある程度絞り込むことが必要とされるが、その有効な一手法として分類がある。
文書を分類する方法の1つとしてクラスタリングがある。クラスタリングは、分類枠を指定せず、類似している文書をまとめていき、文書のまとまり(クラスタ)を構成していくものである。クラスタリングの手法としては、従来、各種の手法が提案されている。
クラスタリング結果を表示する方法としては、リストで表示するのが一般的である。例えば株式会社ジャストシステムのCB Clustering(商標)などにおいてもクラスタリング結果はリスト表示されている。しかし、このようなリスト表示では、クラスタ間の関係や文書とクラスタ間の関係、文書間の関係については把握することができないという問題がある。これに対して、本件出願人は、文書を2次元空間上に配置しこれにクラスタリング結果を重ねて表示する方式(特願2002−076470。本件出願に未公開)を提案している。
また、クラスタリング結果を用いた分析方法の1つとして、時系列でのクラスタリング結果の比較が考えられる。すなわち、どのようなクラスタがいつ生成され、成長し(件数の増加)、衰退し(件数の減少)、消滅するかといったクラスタの時間的変化を分析することにより、特許や企業活動などにおけるトレンドの推移を分析することができる。そのようなものとして、クラスタリング結果において特定クラスタに属する文書数を時系列でグラフ表示する技術(特許文献1)が提案されている。
特開2003−044331
クラスタリング結果を時系列で分析する従来法である、特定クラスタにおける件数の時系列変化のグラフ表示は、クラスタリング結果のリスト表示の延長線上にあるもので、分析が特定クラスタに限定され、しかもクラスタ間の関係や文書とクラスタ間の関係、文書間の関係については分析することができないという問題がある。
本発明はこのような点に鑑みてなされたものであり、本発明の目的は、ユーザが表示開始日付を指定すると、表示開始日付から一定期間の文書を対象に、クラスタ間の関係や文書とクラスタ間の関係、文書間の関係を、全てのクラスタについて同時に把握できるクラスタリング結果を表示し、ユーザが表示開始日付を変更してクラスタリング結果表示を比較することにより、文書群のトレンドの推移を分析することが可能な分類結果表示装置を提供することである。
本発明によれば、上述の目的を達成するために、特許請求の範囲に記載のとおりの構成を採用している。ここでは、発明を詳細に説明するのに先だって、特許請求の範囲の記載について補充的に説明を行なっておく。
すなわち、本発明の一側面によれば、上述の目的を達成するために、文書を分類した結果を表示する分類結果表示装置に:入力された日付情報をもつ文書を解析して単語ベクタを生成する入力手段と;前記入力手段で生成された単語ベクタから前記文書間の関連度を計算する関連度計算手段と;前記関連度計算手段で計算された前記文書間の関連度から前記文書をクラスタに分類するクラスタリング手段と;前記文書の日付情報を管理する日付情報管理テーブルを作成する日付データ作成手段と;前記日付データ作成手段で作成された前記日付情報管理テーブルを参照して一定時間経過ごとに表示開始日付をずらしながら表示対象文書を判定する表示判定制御手段と;前記クラスタリング手段で用いている分類手法とは異なる手法で前記文書の表示位置を計算する表示位置計算手段と;前記表示判定制御手段で表示対象文書と判定された文書について前記クラスタリング手段で分類された結果を前記表示位置計算手段で計算された表示位置に表示させる結果表示手段とを設けるようにしている。
この構成においては、クラスタリング結果としてクラスタや文書の分布状態が時間の経過とともに表示されるのでユーザはその変化の状況を即座に把握することができる。
表示は、基本的には2次元座標で表示されるが、その他複数次元で表示しても良い。3次元座標をレンダリングして表示画面に表示しても良い。
分類対象は典型的には文書であるが、これに限定されない。関連度の計算手法も分類対象に応じて採択される。
この構成において、前記結果表示手段は、表示を制御する再生、停止、一時停止、再開、スロー、早送り機能などの機能を有することが好ましい。
また、前記結果表示手段は、現在どの時期のデータの分類結果を表示しているかを示す機能を有することが好ましい。
また、本発明の他の側面によれば、文書等の分類対象を分類した結果を表示する分類結果表示装置に:入力された日付情報をもつ分類対象の間の関連度を計算する関連度計算手段と;前記関連度計算手段で計算された前記分類対象の間の関連度から前記分類対象をクラスタに分類するクラスタリング手段と;前記分類対象の日付情報を管理する日付情報管理テーブルを作成する日付データ作成手段と;ユーザの表示開始日付指定を受け付ける日付指定手段と;前記日付データ作成手段で作成された前記日付情報管理テーブルを参照し前記日付指定手段で指定された表示開始日付から、表示すべき分類対象を判定する表示判定手段と;前記クラスタリング手段で用いている分類手法とは異なる手法で前記分類対象の表示位置を計算する表示位置計算手段と;前記表示判定手段で表示すべきと判定された分類対象について前記クラスタリング手段で分類された結果を前記表示位置計算手段で計算された表示位置に表示させる結果表示手段とを設けるようにしている。
この構成においては入力日時を指定して対応する時間スパンにおけるクラスタリング結果としてクラスタや文書等の分類対象の分布状態を即座に把握できる。
この構成において、前記日付指定手段は、スライダーやボタン等で表示開始日付を連続的に変化させる機能を有することが好ましい。
また、前記表示位置計算手段は、前記関連度計算手段で計算された前記分類対象間の関連度を用いて前記分類対象の表示位置を計算することが好ましい。
また、前記結果表示手段は、各クラスタを代表するキーワードをあわせて表示することが好ましい。
また、前記結果表示手段は、各クラスタごとにクラスタの意味的なまとまりぐあいを示す収束度やクラスタに含まれる文書数等の分類対象の数を数値やグラフであわせて表示することが好ましい。
さらに、前記表示判定制御手段または前記表示判定手段で表示すべきと判定された文書等の分類対象について前記クラスタリング手段で分類された結果と前記表示位置計算手段で計算された表示位置からクラスタの変化を検出する変化検出手段をさらに設けるとともに、前記結果表示手段が、前記表示判定制御手段または前記表示判定手段で表示すべきと判定された文書等の分類対象について前記クラスタリング手段で分類された結果を前記表示位置計算手段で計算された表示位置に表示させた上に前記変化検出手段で検出されたクラスタの変化を重ねて表示させるようにしてもよい。
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。
この発明の上述の側面および他の側面は特許請求の範囲に記載され以下実施例を用いて詳述される。
本発明によれば、クラスタリング結果としてクラスタや文書等の分類対象の分布状態を時間軸に沿って把握可能にしているので、文書群等の分類対象群のトレンドの推移を簡易に分析することができる。
以下、この発明の実施例について説明する。
図1は、本発明の実施例1の分類結果表示装置を全体として示すブロック図である。図1において、分類結果表示装置は、入力部1、関連度計算部2、クラスタリング部3、日付データ作成部4、表示判定制御部5、表示位置計算部6、結果表示部7等を含んで構成されている。この実施例の分類結果表示装置は典型的にはパーソナルコンピュータ等の計算機を用いて実現されるが、これに限定されない。
なお、計算機(図に符号100で示す)に分類結果表示用のプログラムをインストールするには例えば記録媒体101を用いる。この場合、図4に示すように、上述の各ブロックに対応するステップS1〜S7が実行される。ステップS1〜S7の実行順序等は適宜変更可能である。
入力部1は、入力文書と日付情報を得ると、文書からテキストを抽出して解析を行い、単語の出現頻度などに基づいた単語ベクタを生成して関連度計算部2に伝達し、日付情報を日付データ作成部4に伝達する。この時、各文書に文書idを付与しておく。
関連度計算部2は、入力部1から各文書の単語ベクタを得ると、各文書の単語ベクタを用いて全文書間の関連度を計算してクラスタリング部3と表示位置計算部6に伝達する。
クラスタリング部3は、関連度計算部2から全文書間の関連度を得ると、クラスタ解析を行い一定数のクラスタを抽出し、クラスタリング結果を結果表示部7に伝達する。クラスタ解析の方法は、様々な方法が利用可能であり、どの方法を用いてもかまわない。クラスタの数は、例えば、あらかじめ設定しておいてもよいし、自動で設定するようにしてもよい。
日付データ作成部4は、入力部1から各文書の日付情報を得ると、各文書の文書idと日付情報を対応付けて管理する日付情報管理テーブルを作成し、表示判定制御部5に伝達する。
表示判定制御部5は、日付データ作成部4から得られた日付情報管理テーブルを参照して、表示開始日付から一定期間にある文書を表示対象文書と判定し、一定時間経過ごとに表示開始日付をずらしていき、それに対応する表示対象文書を一定時間ごとに結果表示部7に伝達する。表示開始日付や期間は、例えば、あらかじめ設定しておいてもよいし、入力文書の特徴から自動で設定するようにしてもよい。
表示位置計算部6は、関連度計算部2から全文書間の関連度を得ると、全文書間の関連度を用いて表示対象文書を2次元の表示画面上に配置するための表示位置を計算し、文書表示位置を結果表示部7に伝達する。
結果表示部7は、表示判定制御部5から一定時間ごとに得られる表示対象文書を対象に、表示位置計算部6から得られた文書表示位置に従って2次元空間(表示画面)上に文書を一定時間ごとに配置する。この時、クラスタリング部3から得られたクラスタリング結果に従って各文書がどのクラスタに属するのかがわかるように表示する。例えば、クラスタごとに色や形状などを変えて表示することにより各文書がどのクラスタに属するかが判別できる。また、各クラスタに属する文書からキーワードを抽出して各クラスタのラベルとして表示してもよい。このように、一定時間ごとに表示対象文書が変化することにより、時系列でクラスタリング結果を連続的に表示することができる。
次に実際の例を用いて各構成部の動作を説明する。なお、以下の説明では7件の文書を入力文書として説明するが、もちろん文書数は任意である。
入力部1は、入力文書と日付情報を得ると、文書からテキストを抽出して解析を行い、単語の出現頻度などに基づいた単語ベクタを各文書ごとに生成する。単語ベクタは、文書中に出現する単語とその出現頻度またはそれらを正規化したものを並べたもので、図5に単語ベクタの一例を示す。また、各文書および単語ベクタには文書idを付与しておく。ここでは7個の文書に対して、0〜6の文書idが付与されているものとする。
関連度計算部2は、入力部1から各文書の単語ベクタを得ると、単語ベクタを用いて全文書間の関連度を計算する。全文書間関連度の一例を図6に示す。図6において、文書idを左上から右下に斜めに配置し、各文書idの行と列の交点に2文書間の関連度を示しており、数値が大きいほど関連が強いことを示している。
クラスタリング部3は、関連度計算部2から全文書間の関連度を得ると、クラスタ解析を行い一定数のクラスタを抽出する。クラスタ数を4とした時のクラスタリング結果のリスト表示の一例を図7に示す。
日付データ作成部4は、入力部1から各文書の日付情報を得ると、各文書の文書idと日付情報を対応付けて管理する日付情報管理テーブルを作成する。日付情報管理テーブルの一例を図8に示す。図8は日付でソートしたものである。
表示判定制御部5は、日付データ作成部4から得られた日付情報管理テーブルを参照し、表示開始日付から一定期間にある文書を表示対象文書と判定する。図8の日付情報管理テーブルにおいて、表示開始日付が「2002.01.01」で、期間が「6ヶ月」とすると、2002.01.01から2002.06.30までの文書は文書idが「3,5,0」の文書であるので、表示対象文書(3,5,0)を結果表示部7に伝達する。また、一定時間が経過するごとに、表示開始日付をずらしていき、それに対応する表示対象文書を結果表示部7に伝達する。例えば、5秒ごとに表示を変化させるとすると、最初、表示開始日付が「2002.01.01」の時、表示対象文書は(3,5,0)となり、その5秒後に表示開始日付が「2002.05.01」となった時、表示対象文書は(0,2,4)となり、その5秒後に表示開始日付が「2002.09.01」となった時、表示対象文書は(4,6,1)となる。
表示位置計算部6は、関連度計算部2から得られた全文書間の関連度を用いて各文書の表示位置を計算する。図9は表示位置計算部6で計算された文書の表示位置を示す模式図である。表示位置の計算方法としては、2文書間の関連度をバネの強さに対比させて文書を空間上に配置していくバネモデルの手法や、統計的手法である数量化4類の手法などを用いることができる。なお、文書の表示位置情報は座標などの情報でよいが、ここでは理解を容易にするために文書を2次元上に配置した状態で示している。
結果表示部7は、表示判定制御部5から得られた表示対象文書(3,5,0)を対象に、表示位置計算部6から得られた文書表示位置に従って2次元空間(表示画面)上に文書を配置するとともに、クラスタリング部3から得られたクラスタリング結果に従って各文書がどのクラスタに属するのかがわかるように表示を行う。図10に結果表示部7による表示の一例を示す。図10において、表示対象文書(3,5,0)を対象に、図9の文書表示位置に文書を示す矩形を表示するとともに、矩形内に文書idを表示している。この時、クラスタリング部3から得られた図7のクラスタリング結果に従って各文書がどのクラスタに属するのかわかるように表示を行うが、ここでは図示の関係上、属するクラスタの違いを異なるハッチングで表示している。一定時間が経過するごとに、表示判定制御部5から得られる表示対象文書が変わっていくことで、クラスタリング結果の表示が連続的に変化していく。例えば、5秒ごとに表示を変化させるとすると、最初、表示対象文書(3,5,0)が得られて図10のように表示され、その5秒後に表示対象文書(0,2,4)が得られて図11のように表示され、その5秒後に表示対象文書(4,6,1)が得られて図12のように表示される。
このようにして、時系列でクラスタリング結果を連続的に表示することができる。また、表示を制御する再生、停止、一時停止、再開、スロー、早送り機能などの機能や、現在どの時期のクラスタリング結果を表示しているかを示す機能を設けてもよい。ユーザは表示開始日付に従ったクラスタリング結果の表示を比較することにより、文書群のトレンドの推移を分析することができる。
図2は、本発明の実施例2の分類結果表示装置を全体として示すブロック図である。図2において、実施例2の分類結果表示装置は、入力部1、関連度計算部2、クラスタリング部3、日付データ作成部4、表示位置計算部6、結果表示部7、日付指定部8、表示判定部9等を含んで構成されている。
入力部1、関連度計算部2、クラスタリング部3、日付データ作成部4、表示位置計算部6は、実施例1と同様である。
この例でも、通常、コンピュータプログラムにより実装が行われる。そして実施例1と同様に各ブロックに対応するステップにより分類結果表示方法が実現される。
日付指定部8は、ユーザが表示開始日付を入力すると、表示開始日付を表示判定部9に伝達する。表示開始日付の指定方法としては、例えば、表示日付指定画面から日付をキーボードで指定するようにしてもよいし、スライダーやボタン等を用いて入力するようにしてもよい。
表示判定部9は、日付指定部8から表示開始日付を得ると、日付データ作成部4から得られた日付情報管理テーブルを参照し、表示開始日付から一定期間の文書を表示対象文書と判定し、表示判定結果を結果表示部7に伝達する。期間については、あらかじめ設定するようにしてもよいし、日付指定部8の表示日付指定画面に項目を追加して指定するようにしてもよい。
結果表示部7は、表示判定部9から得られた表示判定結果で表示対象と判定された文書を対象に、表示位置計算部6から得られた文書表示位置に従って2次元空間(表示画面)上に文書を配置する。この時、クラスタリング部3から得られたクラスタリング結果に従って各文書がどのクラスタに属するのかがわかるように表示する。例えば、クラスタごとに色や形状などを変えて表示することにより各文書がどのクラスタに属するかが判別できる。また、各クラスタに属する文書からキーワードを抽出して各クラスタのラベルとして表示してもよい。
次に実際の例を用いて各構成部の動作を説明する。なお、以下の説明では7件の文書を入力文書として説明するが、もちろん文書数は任意である。
入力部1、関連度計算部2、クラスタリング部3、日付データ作成部4、表示位置計算部6の動作は、実施例1と同様である。
日付指定部8は、ユーザによる表示開始日付の指定を受け付ける。ここでは、ユーザが表示開始日付として「2002.01.01」を指定したとする。図13に表示日付指定画面の一例を示す。
表示判定部9は、日付指定部8から表示開始日付を得ると、日付データ作成部4から得られた日付情報管理テーブルを参照し、表示開始日付から一定期間の文書を表示対象文書と判定する。表示開始日付が「2002.01.01」で、表示間隔が「6ヶ月」に設定されているとすると、図8の日付情報管理テーブルから、表示対象文書は文書idが「3,5,0」の文書であるので、図14のような表示判定結果を結果表示部7に伝達する。
結果表示部7は、表示判定部9から得られた表示判定結果で表示対象文書と判定された文書を対象に、表示位置計算部6から得られた文書表示位置に従って2次元空間(表示画面)上に文書を配置するとともに、クラスタリング部3から得られたクラスタリング結果に従って各文書がどのクラスタに属するのかがわかるように表示を行う。表示対象文書が「3,5,0」の時の、結果表示部7による表示の一例を図10に示す。図10において、図14の表示判定結果から表示対象と判定された文書(3,5,0)を対象に、図9の文書表示位置に文書を示す矩形を表示するとともに、矩形内に文書idを表示している。この時、クラスタリング部3から得られた図7のクラスタリング結果に従って各文書がどのクラスタに属するのかわかるように表示を行うが、ここでは図示の関係上、属するクラスタの違いを異なるハッチングで表示している。
このようにして、ユーザの指定した表示開始日付に従ってクラスタリング結果を表示することができる。ユーザは表示開始日付を変更してクラスタリング結果の表示を比較することにより、文書群の分析を進めることができる。また、スライダーやボタン等で表示開始日付を指定する場合、表示開始日付を連続的に変化させることにより、クラスタリング結果の表示を連続的に変化させることができ、より容易に文書群のトレンドの推移を分析することができる。
図15は、クラスタリング結果の表示の具体例の説明図である。図14までに示した例よりもより多くの具体的な文書に対してクラスタリングを行った結果を示している。ユーザが表示開始日付を指定すると、表示開始日付から一定期間の文書を対象としたクラスタリング結果が表示される。左側の領域に各クラスタのラベルを表示して各クラスタの理解を助けるようにしている。また、クラスタごとにクラスタの意味的なまとまりぐあいを示す収束度やクラスタに含まれる文書数を数値やグラフで表示するようにしてもよい。
図16は、クラスタリング結果を2画面で表示するようにした具体例の説明図である。図14までに示した例よりもより多くの具体的な文書に対してクラスタリングを行った結果を示している。それぞれの画面でユーザが表示開始日付を指定すると、表示開始日付から一定期間の文書を対象としたクラスタリング結果がそれぞれ表示され、表示開始日付による両者の比較を容易に行うことができる。左側の領域に各クラスタのラベルを表示して各クラスタの理解を助けるようにしている。また、クラスタごとにクラスタの意味的なまとまりぐあいを示す収束度やクラスタに含まれる文書数を数値やグラフで表示するようにしてもよい。
この例では、左側の画面に2000年1月の時点のクラスタリング結果を示し、右側の画面に2000年10月の時点のクラスタリング結果を示しているが、2000年1月の時点ではクラスタ「ゲーム」、「株式市場」の文書が多いのに対し、2000年10月の時点ではそれらのクラスタの文書が大幅に減少し、クラスタ「IT」、「決算」の文書が増加しているのがわかる。また、2000年1月の時点ではクラスタ「銀行」の文書は画面の右側中央に表示されていたが、2000年10月の時点ではクラスタ「IT」に近い位置に表示されており、クラスタ「銀行」の文書の中で「IT」に関連する話題が増加していることが推測される。この部分に注目すると、「IT」からはIT戦略会議で4大戦略として超高速ネットの整備が挙げられており、「銀行」からはネット銀行やネット証券への参入という話題があり、両者には「ネットワーク」という共通性が発見でき、クラスタ「銀行」は「ネットワーク」に関連する話題が増加していることがわかる。
つぎに本発明の実施例3について説明する。実施例3の分類結果表示装置は、実施例1や実施例2の分類結果表示装置において結果表示部7の前に変化検出部10を追加したものである。実施例1の分類結果表示装置に変化検出部10を付加した例を図3に示す。実施例2の分類結果表示装置についても同様に変化検出部10を付加できることは容易に理解できるので図示は省略する。また、図3において図1と対応する箇所には対応する符号を付して詳細な説明は省略した。
変化検出部10は、表示判定制御部5や表示判定部9で表示対象と判定された文書を対象に、表示位置計算部6から得られた文書表示位置と、クラスタリング部3から得られたクラスタリング結果から各クラスタの変化を検出する。クラスタの変化とは、例えば、クラスタごとの文書数の増減やクラスタの表示位置の変化などである。クラスタの表示位置は、例えば、クラスタに属する各文書の位置を合成したものと定義することができる。また、クラスタリング結果を比較する2点は、両方を指定するようにしてもよいし、1点のみ指定して固定し、もう1点は可変または変化量の多い点を検出するようにしてもよいし、両方とも指定せずに変化量の多い2点を検出するようにしてもよい。
結果表示部7は、表示判定制御部5や表示判定部9で表示対象と判定された文書を対象に、表示位置計算部6から得られた文書表示位置に従って2次元空間(表示画面)上に文書を配置し、クラスタリング部3から得られたクラスタリング結果に従って各文書がどのクラスタに属するのかがわかるように表示し、変化検出部10で得られたクラスタの変化の検出結果を重ねて表示する。検出結果の表示方法としては、色や線種などを変えて表示することが考えられるが、例えば、文書数が大幅に減少したクラスタは破線で囲んで表示し、文書数が大幅に増加したクラスタは太線で囲んで表示し、表示位置が大幅に変化したクラスタは二重線で囲んで表示するなどが考えられる。
図17は、図16の表示例にクラスタの変化の検出結果を重ねて表示したものである。この例では、クラスタ「ゲーム」、「株式市場」の文書が大幅に減少しているので破線で囲んで表示し、クラスタ「IT」、「決算」の文書が大幅に増加しているので太線で囲んで表示し、「銀行」は表示位置が大幅に変化しているので二重線で囲んで表示している。
なお、この例でも、通常、コンピュータプログラムにより実装が行われる。そして実施例1と同様に各ブロックに対応するステップにより分類結果表示方法が実現される。
最後に、実施例の効果についてまとめておく。
実施例1によれば、表示開始日付から一定期間にある文書を対象に、クラスタ間の関係や文書とクラスタ間の関係、文書間の関係を把握できるクラスタリング結果を表示し、一定時間が経過するごとに表示開始日付をずらして表示対象文書を変化させることにより、クラスタリング結果の表示を連続的に変化させ、文書群のトレンドの推移を分析することができる。また、表示を制御する再生、停止、一時停止、再開、スロー、早送り機能などの機能や、現在どの時期のクラスタリング結果を表示しているかを示す機能を設けることにより、表示開始日付に従ったクラスタリング結果の表示を比較して文書群のトレンドの推移を分析することができる。
実施例2では、ユーザが表示開始日付を指定すると、その日付から一定期間にある文書を対象に、クラスタ間の関係や文書とクラスタ間の関係、文書間の関係を把握できるクラスタリング結果を表示し、ユーザが表示開始日付を変更してクラスタリング結果を比較することにより、文書群のトレンドの推移を分析することができる。また、スライダーやボタン等で表示開始日付を連続的に変化させることにより、クラスタリング結果の表示を連続的に変化させることができ、より容易に文書群のトレンドの推移を分析することができる。
実施例3では、表示開始日付の異なる2つのクラスタリング結果を比較し、各クラスタの文書数や表示位置の変化を検出してクラスタリング結果に重ねて表示することにより、クラスタリング結果の差異が明確になり、より容易に文書群のトレンドの推移を分析することができる。
なお、この発明は上述の実施例に限定されるものではなくその趣旨を逸脱しない範囲で種々変更が可能である。例えば、上述の例では計算機に実装するようにしたが、ハードウェアブロックにより構成しても良い。またネットワークに分散配置された計算機資源を分散計算環境で利用するようにしても良い。クライアント・サーバ環境で実装しても良い。
本発明の実施例1の構成を示すブロック図である。 本発明の実施例2の構成を示すブロック図である。 本発明の実施例3の構成を示すブロック図である。 上述実施例1の処理ステップを説明するフローチャートである。 単語ベクタの一例の説明図である。 文書間関連度の一例の説明図である。 クラスタリング結果の一例の説明図である。 日付情報管理テーブルの一例の説明図である。 文書表示位置情報の一例の説明図である。 表示開始日付「2002.01.01」の時の、結果表示部における表示の一例の説明図である。 表示開始日付「2002.05.01」の時の、結果表示部における表示の一例の説明図である。 表示開始日付「2002.09.01」の時の、結果表示部における表示の一例の説明図である。 表示日付指定画面の一例の説明図である。 表示判定結果の一例の説明図である。 クラスタリング結果の表示の具体例の説明図である。 クラスタリング結果の2画面表示の具体例の説明図である。 クラスタリング結果の2画面表示にクラスタ変化の検出結果を表示した具体例の説明図である。
符号の説明
1 入力部2 関連度計算部
3 クラスタリング部
4 日付データ作成部
5 表示判定制御部
6 表示位置計算部
7 結果表示部
8 日付指定部
9 表示判定部
10 変化検出部

Claims (14)

  1. 文書を分類した結果を表示する分類結果表示装置において、
    入力された日付情報をもつ文書を解析して単語ベクタを生成する入力手段と、
    前記入力手段で生成された単語ベクタから前記文書間の関連度を計算する関連度計算手段と、
    前記関連度計算手段で計算された前記文書間の関連度から前記文書をクラスタに分類するクラスタリング手段と、
    前記文書の日付情報を管理する日付情報管理テーブルを作成する日付データ作成手段と、
    前記日付データ作成手段で作成された前記日付情報管理テーブルを参照して一定時間経過ごとに表示開始日付をずらしながら表示対象文書を判定する表示判定制御手段と、
    前記クラスタリング手段で用いている分類手法とは異なる手法で前記文書の表示位置を計算する表示位置計算手段と、
    前記表示判定制御手段で表示対象文書と判定された文書について前記クラスタリング手段で分類された結果を前記表示位置計算手段で計算された表示位置に表示させる結果表示手段とを有することを特徴とする分類結果表示装置。
  2. 文書等の分類対象を分類した結果を表示する分類結果表示装置において、
    入力された日付情報をもつ分類対象の間の関連度を計算する関連度計算手段と、
    前記関連度計算手段で計算された前記分類対象の間の関連度から前記対象をクラスタに分類するクラスタリング手段と、
    前記分類対象の日付情報を管理する日付情報管理テーブルを作成する日付データ作成手段と、
    前記日付データ作成手段で作成された前記日付情報管理テーブルを参照して一定時間経過ごとに表示開始日付をずらしながら表示すべき分類対象を判定する表示判定制御手段と、
    前記クラスタリング手段で用いている分類手法とは異なる手法で前記分類対象の表示位置を計算する表示位置計算手段と、
    前記表示判定制御手段で表示すべきと判定された分類対象について前記クラスタリング手段で分類された結果を前記表示位置計算手段で計算された表示位置に表示させる結果表示手段とを有することを特徴とする分類結果表示装置。
  3. 前記結果表示手段は、表示を制御する再生、停止、一時停止、再開、スロー、早送り機能などの機能を有することを特徴とする請求項1または2に記載の分類結果表示装置。
  4. 前記結果表示手段は、現在どの時期のデータの分類結果を表示しているかを示す機能を有することを特徴とする請求項1、2または3に記載の分類結果表示装置。
  5. 文書等の分類対象を分類した結果を表示する分類結果表示装置において、
    入力された日付情報をもつ分類対象の間の関連度を計算する関連度計算手段と、
    前記関連度計算手段で計算された前記分類対象の間の関連度から前記分類対象をクラスタに分類するクラスタリング手段と、
    前記分類対象の日付情報を管理する日付情報管理テーブルを作成する日付データ作成手段と、
    ユーザの表示開始日付指定を受け付ける日付指定手段と、
    前記日付データ作成手段で作成された前記日付情報管理テーブルを参照し前記日付指定手段で指定された表示開始日付から、表示すべき分類対象を判定する表示判定手段と、
    前記クラスタリング手段で用いている分類手法とは異なる手法で前記分類対象の表示位置を計算する表示位置計算手段と、
    前記表示判定手段で表示すべきと判定された分類対象について前記クラスタリング手段で分類された結果を前記表示位置計算手段で計算された表示位置に表示させる結果表示手段とを有することを特徴とする分類結果表示装置。
  6. 前記日付指定手段は、スライダーやボタン等で表示開始日付を連続的に変化させる機能を有することを特徴とする請求項5に記載の分類結果表示装置。
  7. 前記表示位置計算手段は、前記関連度計算手段で計算された前記文書間または分類対象間の関連度を用いて前記文書または分類対象の表示位置を計算することを特徴とする請求項1〜6のいずれかに記載の分類結果表示装置。
  8. 前記結果表示手段は、各クラスタを代表するキーワードをあわせて表示することを特徴とする請求項1〜7のいずれかに記載の分類結果表示装置。
  9. 前記結果表示手段は、クラスタごとにクラスタの意味的なまとまりぐあいを示す収束度やクラスタに含まれる文書数等の分類対象の数を数値やグラフであわせて表示することを特徴とする請求項1〜8のいずれかに記載の分類結果表示装置。
  10. 前記表示判定制御手段または前記表示判定手段で表示すべきと判定された文書等の分類対象について前記クラスタリング手段で分類された結果と前記表示位置計算手段で計算された表示位置からクラスタの変化を検出する変化検出手段をさらに有し、
    前記結果表示手段は、前記表示判定制御手段または前記表示判定手段で表示すべきと判定された文書等の分類対象について前記クラスタリング手段で分類された結果を前記表示位置計算手段で計算された表示位置に表示させた上に前記変化検出手段で検出されたクラスタの変化を重ねて表示させる請求項1〜9のいずれかに記載の分類結果表示装置。
  11. 文書等の分類対象を分類した結果を表示する分類結果表示方法において、
    関連度計算部が入力された日付情報をもつ分類対象の間の関連度を計算するステップと、
    クラスタリング部が前記関連度計算部により計算された前記分類対象の間の関連度から前記対象をクラスタに分類するステップと、
    日付データ作成部が前記分類対象の日付情報を管理する日付情報管理テーブルを作成するステップと、
    表示判定制御部が前記日付データ作成部により作成された前記日付情報管理テーブルを参照して一定時間経過ごとに表示開始日付をずらしながら表示すべき分類対象を判定するステップと、
    表示位置計算部が前記クラスタリング部で用いている分類手法とは異なる手法で前記分類対象の表示位置を計算するステップと、
    結果表示部が、前記表示判定制御部で表示すべきと判定された分類対象について前記クラスタリング手段で分類された結果を前記表示位置計算部により計算された表示位置に表示させるステップとを有することを特徴とする分類結果表示方法。
  12. 文書等の分類対象を分類した結果を表示する分類結果表示方法において、
    関連度計算部が入力された日付情報をもつ分類対象の間の関連度を計算するステップと、
    クラスタリング部が前記関連度計算部により計算された前記分類対象の間の関連度から前記分類対象をクラスタに分類するステップと、
    日付データ作成部が前記分類対象の日付情報を管理する日付情報管理テーブルを作成するステップと、
    日付指定部がユーザの表示開始日付指定を受け付けるステップと、
    表示判定部が、前記日付データ作成部により作成された前記日付情報管理テーブルを参照し前記日付指定部により指定された表示開始日付から、表示すべき分類対象を判定するステップと、
    表示位置計算部が前記クラスタリング部において用いている分類手法とは異なる手法で前記分類対象の表示位置を計算するステップと、
    結果表示部が、前記表示判定部により表示すべきと判定された分類対象について前記クラスタリング部により分類された結果を前記表示位置計算部により計算された表示位置に表示させるステップとを有することを特徴とする分類結果表示方法。
  13. 文書等の分類対象を分類した結果を表示するために用いられる分類結果表示用コンピュータプログラムにおいて、
    入力された日付情報をもつ分類対象の間の関連度を計算する関連度計算ステップと、
    前記関連度計算ステップにより計算された前記分類対象の間の関連度から前記対象をクラスタに分類するクラスタリングステップと、
    前記分類対象の日付情報を管理する日付情報管理テーブルを作成する日付データ作成ステップと、
    前記日付データ作成ステップにより作成された前記日付情報管理テーブルを参照して一定時間経過ごとに表示開始日付をずらしながら表示すべき分類対象を判定する表示判定ステップと、
    前記クラスタリングステップで用いている分類手法とは異なる手法で前記分類対象の表示位置を計算する表示位置計算ステップと、
    前記表示判定ステップで表示すべきと判定された分類対象について前記クラスタリングステップで分類された結果を前記表示位置計算ステップにより計算された表示位置に表示させる結果表示ステップとをコンピュータに実行させるために用いられることを特徴とする分類結果表示用コンピュータプログラム。
  14. 文書等の分類対象を分類した結果を表示するために用いられる分類結果表示用コンピュータプログラムにおいて、
    入力された日付情報をもつ分類対象の間の関連度を計算する関連度計算ステップと、
    前記関連度計算ステップにより計算された前記分類対象の間の関連度から前記分類対象をクラスタに分類するクラスタリングステップと、
    前記分類対象の日付情報を管理する日付情報管理テーブルを作成する日付データ作成ステップと、
    ユーザの表示開始日付指定を受け付ける日付指定ステップと、
    前記日付データ作成ステップにより作成された前記日付情報管理テーブルを参照し前記日付指定ステップにより指定された表示開始日付から、表示すべき分類対象を判定する表示判定ステップと、
    前記クラスタリングステップにおいて用いている分類手法とは異なる手法で前記分類対象の表示位置を計算する表示位置計算ステップと、
    前記表示判定ステップにより表示すべきと判定された分類対象について前記クラスタリングステップにより分類された結果を前記表示位置計算ステップにより計算された表示位置に表示させる結果表示ステップとをコンピュータに実行させるために用いられることを特徴とする分類結果表示用コンピュータプログラム。
JP2003294097A 2003-08-18 2003-08-18 分類結果表示装置および方法 Pending JP2005063249A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003294097A JP2005063249A (ja) 2003-08-18 2003-08-18 分類結果表示装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003294097A JP2005063249A (ja) 2003-08-18 2003-08-18 分類結果表示装置および方法

Publications (1)

Publication Number Publication Date
JP2005063249A true JP2005063249A (ja) 2005-03-10

Family

ID=34370747

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003294097A Pending JP2005063249A (ja) 2003-08-18 2003-08-18 分類結果表示装置および方法

Country Status (1)

Country Link
JP (1) JP2005063249A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176758A (ja) * 2006-12-20 2008-07-31 Nec Corp グループ関係性表示システム、グループ関係性表示方法およびグループ関係性表示プログラム
JP2008234482A (ja) * 2007-03-22 2008-10-02 Nippon Telegr & Teleph Corp <Ntt> 文書分類装置、文書分類方法、プログラムおよび記録媒体
JP2011154586A (ja) * 2010-01-28 2011-08-11 Rakuten Inc 投稿文章分析装置、投稿文章分析方法、および、投稿文章分析装置用プログラム
WO2011149104A1 (ja) 2010-05-28 2011-12-01 楽天株式会社 情報処理装置、情報処理方法、情報処理プログラム、および、記録媒体
WO2013161850A1 (ja) * 2012-04-26 2013-10-31 日本電気株式会社 テキストマイニングシステム、テキストマイニング方法及びプログラム
JP2021034048A (ja) * 2019-08-21 2021-03-01 ネイバー コーポレーションNAVER Corporation 長期間に関連のあるイシュー単位のクラスタを利用した文書タイムラインを提供する方法およびシステム
JP2022085269A (ja) * 2020-11-27 2022-06-08 株式会社 日立産業制御ソリューションズ 検索装置、プログラムおよび検索方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176758A (ja) * 2006-12-20 2008-07-31 Nec Corp グループ関係性表示システム、グループ関係性表示方法およびグループ関係性表示プログラム
JP2008234482A (ja) * 2007-03-22 2008-10-02 Nippon Telegr & Teleph Corp <Ntt> 文書分類装置、文書分類方法、プログラムおよび記録媒体
JP2011154586A (ja) * 2010-01-28 2011-08-11 Rakuten Inc 投稿文章分析装置、投稿文章分析方法、および、投稿文章分析装置用プログラム
WO2011149104A1 (ja) 2010-05-28 2011-12-01 楽天株式会社 情報処理装置、情報処理方法、情報処理プログラム、および、記録媒体
US9690804B2 (en) 2010-05-28 2017-06-27 Rakuten, Inc. Information processing device, information processing method, information processing program, and recording medium
WO2013161850A1 (ja) * 2012-04-26 2013-10-31 日本電気株式会社 テキストマイニングシステム、テキストマイニング方法及びプログラム
JP5494999B1 (ja) * 2012-04-26 2014-05-21 日本電気株式会社 テキストマイニングシステム、テキストマイニング方法及びプログラム
US10409848B2 (en) 2012-04-26 2019-09-10 Nec Corporation Text mining system, text mining method, and program
JP2021034048A (ja) * 2019-08-21 2021-03-01 ネイバー コーポレーションNAVER Corporation 長期間に関連のあるイシュー単位のクラスタを利用した文書タイムラインを提供する方法およびシステム
JP7068404B2 (ja) 2019-08-21 2022-05-16 ネイバー コーポレーション 長期間に関連のあるイシュー単位のクラスタを利用した文書タイムラインを提供する方法およびシステム
JP2022085269A (ja) * 2020-11-27 2022-06-08 株式会社 日立産業制御ソリューションズ 検索装置、プログラムおよび検索方法
JP7456923B2 (ja) 2020-11-27 2024-03-27 株式会社 日立産業制御ソリューションズ 検索装置、プログラムおよび検索方法

Similar Documents

Publication Publication Date Title
Wu et al. StreamExplorer: a multi-stage system for visually exploring events in social streams
US10558679B2 (en) Systems and methods for presenting a topic-centric visualization of collaboration data
US7257774B2 (en) Systems and methods for filtering and/or viewing collaborative indexes of recorded media
US8600768B2 (en) People engine optimization
US11036723B1 (en) Graphical user interface for recurring searches
JP2009238115A (ja) 情報推薦装置および情報推薦方法
Ceneda et al. Guide me in analysis: A framework for guidance designers
US6970884B2 (en) Methods and apparatus for user-centered similarity learning
Alsakran et al. Real-time visualization of streaming text with a force-based dynamic system
Shneiderman Inventing discovery tools: Combining information visualization with data mining
Liu et al. Exploring topical lead-lag across corpora
KR20150047941A (ko) 검색 시스템 및 그의 동작 방법
Knittel et al. Real-time visual analysis of high-volume social media posts
Kappe et al. Analysis of Decadal Climate Predictions with User‐guided Hierarchical Ensemble Clustering
US20090313568A1 (en) Method and System For Automated Content Generation through Selective Combination
US20030037025A1 (en) Methods and apparatus for user-centered class supervision
Pan et al. Optimizing temporal topic segmentation for intelligent text visualization
JP2005063249A (ja) 分類結果表示装置および方法
JP2023525747A (ja) 情報を分析するための方法及び装置
CN117093762A (zh) 一种舆情数据评估分析系统及方法
KR102429776B1 (ko) 사용자 정보의 유사도를 이용한 컨텐츠 추천 큐레이션 시스템
JP2009064399A (ja) 検索結果表示方法、検索結果表示プログラムおよび検索結果表示装置
Wang et al. Stac: Enhancing stacked graphs for time series analysis
JP2011158980A (ja) 消費者情報処理装置
Albanese et al. The priority curve algorithm for video summarization