JP2007334388A - クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 - Google Patents
クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP2007334388A JP2007334388A JP2006161953A JP2006161953A JP2007334388A JP 2007334388 A JP2007334388 A JP 2007334388A JP 2006161953 A JP2006161953 A JP 2006161953A JP 2006161953 A JP2006161953 A JP 2006161953A JP 2007334388 A JP2007334388 A JP 2007334388A
- Authority
- JP
- Japan
- Prior art keywords
- clustering
- cluster
- keyword
- document
- common
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】本発明は、利用者が指定した複数のクラスタ内の文書に共通して出現する共通単語を取得し、共通単語のうち、利用者が指定しなかったクラスタでの出現頻度に比べて、該利用者が指定したクラスタ内での出現頻度が相対的に高い共通単語を選択し、該共通単語をキーワードとして、キーワード記憶手段に記録し、同一もしくは他の文書集合に対してクラスタリングを実施する際に、キーワード記憶手段に記録されているキーワードの影響力を強調してクラスタリングを行う。
【選択図】図1
Description
神嶌敏弘、"データマイニング分野のクラスタリング手法(1)−クラスタリングを使ってみよう!−"人工知能学会誌、Vol.18. no.1.pp.59-65 (2003)
共通単語取得手段が、利用者が指定した複数のクラスタ内の文書に共通して出現する共通単語を取得する共通単語取得ステップ(ステップ1)と、
キーワード選択手段が、共通単語のうち、利用者が指定しなかったクラスタでの出現頻度に比べて、該利用者が指定したクラスタ内での出現頻度が相対的に高い共通単語を選択し、該共通単語をキーワードとして、キーワード記憶手段に記録するキーワード選択ステップ(ステップ2)と、
クラスタリング手段が、同一もしくは他の文書集合に対してクラスタリングを実施する際に、キーワード記憶手段に記録されているキーワードの影響力を強調してクラスタリングを行うクラスタリングステップ(ステップ4)と、を行う。
キーワード記録手段に格納されているキーワードの影響力を強調する重みを付与するキーワード加重ステップ(ステップ3)と、
重みに基づいてクラスタリングするステップ(ステップ4)と、を行う。
利用者が指定した複数のクラスタ内の文書に共通して出現する共通単語を取得する共通単語取得手段と、
共通単語のうち、利用者が指定しなかったクラスタでの出現頻度に比べて、該利用者が指定したクラスタ内での出現頻度が相対的に高い共通単語を選択し、該共通単語をキーワードとして、キーワード記憶手段に記録するキーワード選択手段と、
同一もしくは他の文書集合に対してクラスタリングを実施する際に、キーワード記憶手段に記録されているキーワードの影響力を強調してクラスタリングを行うクラスタリング手段と、有する。
キーワード記録手段に格納されているキーワードの影響力を強調する重みを付与するキーワード加重手段と、
重みに基づいてクラスタリングする手段と、を含む。
図3は、本発明の第1の実施の形態における特定単語加重クラスタリング装置の構成を示す。同図に示す特定単語加重クラスタリング装置は、文書記録部201、文書解析部202、単語記録部203、ベクトル生成部204、クラスタリング部205、指定クラスタ保持部206、共通単語取得部207、キーワード選択部208、キーワード記録部209、クラスタ記録部210から構成される。
ただし、
IDF(t)=log{N/DF(t)}+1 (2)
TFIDF(d,t)は、文書d中での単語tの出現回数が多ければ多いほど、また、全文書中で単語tが1度でも出現する文書数が小さいほど大きな値となる。
0001,0003,0022,0025,0030
が記録される。
図13は、本発明の第2の実施の形態における特定単語加重クラスタリング装置の構成を示し、図3の構成と同一構成部分には同一符号を付し、その説明を省略する。同図に示す特定単語加重クラスタリング装置は、前述の第1の実施の形態の構成に、要約情報生成部211を付加したものである。
202 文書解析部
203 単語記録部
204 キーワード加重手段、ベクトル生成部
205 クラスタリング手段、クラスタリング部
206 指定クラスタ保持部
207 共通単語取得手段、共通単語取得部
208 キーワード選択手段、キーワード選択部
209 キーワード記憶手段、キーワード記録部
210 クラスタ記録部
211 要約情報生成部
Claims (8)
- 類似文書を集約した文書クラスタが複数存在する状況において、利用者が指定した2個以上のクラスタ間の共通概念を検出して記録し、同一もしくは他の文書群に対してクラスタリングを実施する際に、該共通概念を持つ文書が同一クラスタに収まりやすくする装置におけるクラスタリング方法であって、
共通単語取得手段が、利用者が指定した複数のクラスタ内の文書に共通して出現する共通単語を取得する共通単語取得ステップと、
キーワード選択手段が、前記共通単語のうち、前記利用者が指定しなかったクラスタでの出現頻度に比べて、該利用者が指定したクラスタ内での出現頻度が相対的に高い共通単語を選択し、該共通単語をキーワードとして、キーワード記憶手段に記録するキーワード選択ステップと、
クラスタリング手段が、同一もしくは他の文書集合に対してクラスタリングを実施する際に、前記キーワード記憶手段に記録されている前記キーワードの影響力を強調してクラスタリングを行うクラスタリングステップと、
を行うことを特徴とするクラスタリング方法。 - 要約情報生成手段が、
前記クラスタに含まれる文書を用いて、1文字以上の文字列として該クラスタの要約情報を生成する要約情報生成ステップを更に行う、
請求項1記載のクラスタリング方法。 - 前記クラスタリングステップにおいて、
前記キーワード記録手段に格納されているキーワードの影響力を強調する重みを付与するキーワード加重ステップと、
前記重みに基づいてクラスタリングするステップと、
を行う請求項1または2記載のクラスタリング方法。 - 類似文書を集約した文書クラスタが複数存在する状況において、利用者が指定した2個以上のクラスタ間の共通概念を検出して記録し、同一もしくは他の文書群に対してクラスタリングを実施する際に、該共通概念を持つ文書が同一クラスタに収まりやすくするクラスタリング装置であって、
利用者が指定した複数のクラスタ内の文書に共通して出現する共通単語を取得する共通単語取得手段と、
前記共通単語のうち、前記利用者が指定しなかったクラスタでの出現頻度に比べて、該利用者が指定したクラスタ内での出現頻度が相対的に高い共通単語を選択し、該共通単語をキーワードとして、キーワード記憶手段に記録するキーワード選択手段と、
同一もしくは他の文書集合に対してクラスタリングを実施する際に、前記キーワード記憶手段に記録されている前記キーワードの影響力を強調してクラスタリングを行うクラスタリング手段と、
を有することを特徴とするクラスタリング装置。 - 前記クラスタに含まれる文書を用いて、1文字以上の文字列として該クラスタの要約情報を生成する要約情報生成手段を更に有する、
請求項4記載のクラスタリング装置。 - 前記クラスタリング手段は、
前記キーワード記録手段に格納されているキーワードの影響力を強調する重みを付与するキーワード加重手段と、
前記重みに基づいてクラスタリングする手段と、を含む
請求項4または5記載のクラスタリング装置。 - コンピュータに、
請求項4乃至6記載のクラスタリング装置の各手段を実行させることを特徴とするクラスタリングプログラム。 - コンピュータに、
請求項4乃至6記載のクラスタリング装置の各手段を実行させるクラスタリングプログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006161953A JP4795856B2 (ja) | 2006-06-12 | 2006-06-12 | クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006161953A JP4795856B2 (ja) | 2006-06-12 | 2006-06-12 | クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007334388A true JP2007334388A (ja) | 2007-12-27 |
JP4795856B2 JP4795856B2 (ja) | 2011-10-19 |
Family
ID=38933845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006161953A Expired - Fee Related JP4795856B2 (ja) | 2006-06-12 | 2006-06-12 | クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4795856B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009288999A (ja) * | 2008-05-29 | 2009-12-10 | Fujitsu Ltd | まとめ上げ作業支援処理方法、装置及びプログラム |
WO2013001893A1 (ja) | 2011-06-28 | 2013-01-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 主観的な階層クラスタリングにおける特徴量ごとの重みを求める情報処理装置、方法、およびプログラム |
JP2014167835A (ja) * | 2014-06-18 | 2014-09-11 | Ubic:Kk | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム |
JP2014215996A (ja) * | 2013-04-30 | 2014-11-17 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 重要性判定システム、重要性判定方法及びコンピュータプログラム |
US8972407B2 (en) | 2007-05-30 | 2015-03-03 | International Business Machines Corporation | Information processing method for determining weight of each feature in subjective hierarchical clustering |
JP2019168820A (ja) * | 2018-03-22 | 2019-10-03 | 株式会社日立製作所 | データ分析支援システムおよびデータ分析支援方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002117046A (ja) * | 2000-10-05 | 2002-04-19 | Just Syst Corp | 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2002202984A (ja) * | 2000-11-02 | 2002-07-19 | Fujitsu Ltd | ルールベースモデルに基づくテキスト情報自動分類装置 |
JP2003044490A (ja) * | 2001-07-30 | 2003-02-14 | Toshiba Corp | 知識分析システムおよび同システムにおける知識重複登録設定方法 |
JP2005266866A (ja) * | 2004-03-16 | 2005-09-29 | Fuji Xerox Co Ltd | 文書分類装置ならびに文書分類装置の分類体系生成装置および方法 |
JP2006099478A (ja) * | 2004-09-29 | 2006-04-13 | Toshiba Corp | 文書分類装置および文書分類方法 |
-
2006
- 2006-06-12 JP JP2006161953A patent/JP4795856B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002117046A (ja) * | 2000-10-05 | 2002-04-19 | Just Syst Corp | 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2002202984A (ja) * | 2000-11-02 | 2002-07-19 | Fujitsu Ltd | ルールベースモデルに基づくテキスト情報自動分類装置 |
JP2003044490A (ja) * | 2001-07-30 | 2003-02-14 | Toshiba Corp | 知識分析システムおよび同システムにおける知識重複登録設定方法 |
JP2005266866A (ja) * | 2004-03-16 | 2005-09-29 | Fuji Xerox Co Ltd | 文書分類装置ならびに文書分類装置の分類体系生成装置および方法 |
JP2006099478A (ja) * | 2004-09-29 | 2006-04-13 | Toshiba Corp | 文書分類装置および文書分類方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8972407B2 (en) | 2007-05-30 | 2015-03-03 | International Business Machines Corporation | Information processing method for determining weight of each feature in subjective hierarchical clustering |
JP2009288999A (ja) * | 2008-05-29 | 2009-12-10 | Fujitsu Ltd | まとめ上げ作業支援処理方法、装置及びプログラム |
WO2013001893A1 (ja) | 2011-06-28 | 2013-01-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 主観的な階層クラスタリングにおける特徴量ごとの重みを求める情報処理装置、方法、およびプログラム |
US8918396B2 (en) | 2011-06-28 | 2014-12-23 | International Business Machines Corporation | Information processing apparatus, method and program for determining weight of each feature in subjective hierarchical clustering |
JP2014215996A (ja) * | 2013-04-30 | 2014-11-17 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 重要性判定システム、重要性判定方法及びコンピュータプログラム |
JP2014167835A (ja) * | 2014-06-18 | 2014-09-11 | Ubic:Kk | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム |
JP2019168820A (ja) * | 2018-03-22 | 2019-10-03 | 株式会社日立製作所 | データ分析支援システムおよびデータ分析支援方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4795856B2 (ja) | 2011-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nagwani | Summarizing large text collection using topic modeling and clustering based on MapReduce framework | |
Liu et al. | Overview of the NTCIR-11 IMine Task. | |
Deshpande et al. | Text summarization using clustering technique | |
Shen et al. | LIEGE: link entities in web lists with knowledge base | |
US8812504B2 (en) | Keyword presentation apparatus and method | |
Al-Taani et al. | An extractive graph-based Arabic text summarization approach | |
JP4795856B2 (ja) | クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Srinivas et al. | A weighted tag similarity measure based on a collaborative weight model | |
Zhang et al. | The use of dependency relation graph to enhance the term weighting in question retrieval | |
JP2005250980A (ja) | 文書検索システム、検索条件入力装置、検索実行装置、文書検索方法、および文書検索プログラム | |
Sağlam et al. | Developing Turkish sentiment lexicon for sentiment analysis using online news media | |
JP5565568B2 (ja) | 情報推薦装置、情報推薦方法およびプログラム | |
Pudota et al. | A new domain independent keyphrase extraction system | |
JP5497105B2 (ja) | 文書検索装置および方法 | |
JP6250833B2 (ja) | 文書検索システム、ディベートシステム、文書検索プログラム | |
JP6409071B2 (ja) | 文の並び替え方法および計算機 | |
Balasubramanian et al. | Topic pages: An alternative to the ten blue links | |
JP2010198278A (ja) | 評判情報分類装置、評判情報分類方法及びプログラム | |
Ketui et al. | An EDU-based approach for Thai multi-document summarization and its application | |
Maylawati et al. | Feature-based approach and sequential pattern mining to enhance quality of Indonesian automatic text summarization | |
JP4134975B2 (ja) | 話題文書提示方法及び装置及びプログラム | |
Wang et al. | An automatic online news topic keyphrase extraction system | |
Kian et al. | An efficient approach for keyword selection; improving accessibility of web contents by general search engines | |
KR101088483B1 (ko) | 이종 분류체계들을 매핑시키는 방법 및 장치 | |
JP2002183194A (ja) | 検索式生成装置およびその方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080806 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110104 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110223 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110726 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110728 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140805 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |