JP2007102795A - 文書クラスタリング - Google Patents
文書クラスタリング Download PDFInfo
- Publication number
- JP2007102795A JP2007102795A JP2006272458A JP2006272458A JP2007102795A JP 2007102795 A JP2007102795 A JP 2007102795A JP 2006272458 A JP2006272458 A JP 2006272458A JP 2006272458 A JP2006272458 A JP 2006272458A JP 2007102795 A JP2007102795 A JP 2007102795A
- Authority
- JP
- Japan
- Prior art keywords
- observations
- grouping
- likelihood
- distribution
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 claims abstract description 45
- 238000009826 distribution Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000007476 Maximum Likelihood Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000005192 partition Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000036962 time dependent Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- FDKXTQMXEQVLRF-ZHACJKMWSA-N (E)-dacarbazine Chemical compound CN(C)\N=N\c1[nH]cnc1C(N)=O FDKXTQMXEQVLRF-ZHACJKMWSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】観測値をクラスタリングするシステムは、プロセッサ及びプロセッサ読み取り可能な記憶媒体を備えることができる。前記プロセッサ読み取り可能な記憶媒体は、観測値をクラスタリングする方法を実行するための1以上のプログラム命令を含むことができる。複数のパラメータベクトル及び複数の観測値を受け取ることができる(ステップ105,110)。また、分布を決定することもできる(ステップ115)。次に、前記分布、前記パラメータベクトル、及び尤度関数に基づいて、観測値の最適なグループ分けを選択することができる(ステップ130)。
【選択図】図1A
Description
[1d12d23d3...dN−1N]
ここで、区切り又は仕切りがiとi−1との間に存在するならdi=1であり、区切り又は仕切りがiとi−1との間に存在しないならdi=0である。この順序付けは、N個の順序付けられた要素の、順序付けられたグループ分けのすべてを列挙するために用いることができる。したがって、2N−1個の二値ベクトル(d1,...,dN−1)が存在し、よって2N−1個の可能なグループ分けが存在することを簡単に示すことができる。
1つのセグメントを有するグループ分け: [12345]
2つのセグメントを有するグループ分け: [1234][5],[123][45],[12][345],及び[1][2345]
3つのセグメントを有するグループ分け: [123][4][5],[12][34][5],[12][3][45],[1][234][5],[1][23][45],及び[1][2][345]
4つのセグメントを有するグループ分け: [12][3][4][5],[1][23][4][5],[1][2][34][5],及び[1][2][3][45]
5つのセグメントを有するグループ分け: [1][2][3][4][5]
最小のAICを有するグループ分けが、データを最もよく表すグループ分けとして返されるだろう。
{2004年2月、2004年3月、2004年4月、2004年5月}{2004年6月、2004年7月}{2004年8月}{2004年9月、2004年10月}{2004年11月、2004年12月、2005年1月}
コレクションが適切に定義されたかどうかを判定するために、各クラスタについて最もよく現れる単語が調べられた。各クラスタについて、最も確からしい単語は、次のものであった。
{2004年2月、2004年3月、2004年4月、2004年5月}:{delete, dfe, jam, end, tracking, advised, cdrom, action, diagnostics};
{2004年6月、2004年7月}:{jul, duplex, long, feed, sided, default, ftp, controller, trays, upgraded};
{2004年8月}:{aug, upgraded, digipath, development, start, unassigned, currently, onsite, sets, cc};
{2004年9月、2004年10月}:{rotation, dhl, onsite, business, ll, controller, po, sep, cc, successful};
{2004年11月、2004年12月、2005年1月}:{jan, client, implemented, dec, nov, start, shift, option, board, recreate}
Claims (4)
- 複数の観測値をクラスタリングする方法であって、
複数のパラメータベクトルを受け取るステップと、
分布を決定するステップと、
複数の観測値を受け取るステップと、
前記分布、前記パラメータベクトル、及び尤度関数に基づいて、前記観測値の最適なグループ分けを選択するステップと、
を備えることを特徴とする方法。 - 請求項1に記載の方法において、
前記観測値に対して可能なグループ分けはそれぞれ1つ以上のセグメントを有し、各セグメントは1つ以上の観測値を有し、
前記最適なグループ分けを選択するステップは、
前記可能なグループ分けのそれぞれについて、各セグメントについて最大尤度パラメータベクトルを決定するステップと、
前記可能なグループ分けのそれぞれについて、少なくとも複数の尤度に基づく前記尤度関数を用いて罰則付き尤度値を計算するステップと、
最適なグループ分けを選択するステップと、
を含み、
前記最大尤度パラメータベクトルは前記各セグメント内の各観測値についての前記分布の積を最大化するパラメータベクトルであり、
前記少なくとも複数の尤度のそれぞれは、各観測値についてのその観測値を含むセグメントの前記最大尤度パラメータベクトルに関連する前記分布であり、
前記最適なグループ分けは、最小の罰則付き尤度値を有することを特徴とする方法。 - 請求項2に記載の方法において、さらに、
前記最適なグループ分けの各セグメントについてクラスタトピックを決定するステップを含むことを特徴とする方法。 - 請求項1に記載の方法において、最適なグループ分けを選択するステップは、
1以上の観測を含む可能なセグメントのそれぞれについて、最大対数尤度値を決定するステップと、
1から観測値の個数の範囲にある可能なセグメント数のそれぞれについて、そのセグメント数を有する1以上のグループ分けから最適な下位グループ分けを決定するステップと、
1から観測値の個数の範囲にある可能なセグメント数のそれぞれについて、そのセグメント数を有する前記最適な下位グループ分けについての前記尤度関数を用いて罰則付き尤度値を計算するステップと、
最小の罰則付き尤度値を有する前記最適な下位グループ分けを含む最適なグループ分けを選択するステップと、
前記可能なセグメントのそれぞれについての最大対数尤度値は、そのセグメントに含まれる各観測値についての分布の対数の和の最大値であり、
前記可能なセグメント数のそれぞれについての最適な下位グループ分けは、1以上の対数尤度値の和の最大値を有するグループ分けであり、
前記対数尤度値のそれぞれは、観測値の前記分布の対数であり、この観測値の前記分布は、この観測値を含むセグメントについてのパラメータベクトルに関連するものであることを特徴とする方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/246,336 US7539653B2 (en) | 2005-10-07 | 2005-10-07 | Document clustering |
US11/246,336 | 2005-10-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007102795A true JP2007102795A (ja) | 2007-04-19 |
JP4885679B2 JP4885679B2 (ja) | 2012-02-29 |
Family
ID=37911914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006272458A Expired - Fee Related JP4885679B2 (ja) | 2005-10-07 | 2006-10-04 | 文書クラスタリングの方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7539653B2 (ja) |
JP (1) | JP4885679B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010015395A (ja) * | 2008-07-03 | 2010-01-21 | Kddi Corp | 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム |
US8560488B2 (en) | 2008-08-08 | 2013-10-15 | Nec Corporation | Pattern determination devices, methods, and programs |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9298722B2 (en) * | 2009-07-16 | 2016-03-29 | Novell, Inc. | Optimal sequential (de)compression of digital data |
US8352298B2 (en) * | 2010-02-08 | 2013-01-08 | Xerox Corporation | Systems and methods to detect models and accounts with anomalous revenue from color impressions |
US8782734B2 (en) * | 2010-03-10 | 2014-07-15 | Novell, Inc. | Semantic controls on data storage and access |
US8332250B2 (en) * | 2010-03-15 | 2012-12-11 | Xerox Corporation | Systems and methods for determining print revenue behavior |
US8832103B2 (en) * | 2010-04-13 | 2014-09-09 | Novell, Inc. | Relevancy filter for new data based on underlying files |
US9454528B2 (en) | 2011-10-17 | 2016-09-27 | Xerox Corporation | Method and system for creating ordered reading lists from unstructured document sets |
US8881007B2 (en) | 2011-10-17 | 2014-11-04 | Xerox Corporation | Method and system for visual cues to facilitate navigation through an ordered set of documents |
US9275044B2 (en) * | 2012-03-07 | 2016-03-01 | Searchleaf, Llc | Method, apparatus and system for finding synonyms |
RU2757592C1 (ru) | 2019-02-08 | 2021-10-19 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система для кластеризации документов |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000035963A (ja) * | 1998-07-17 | 2000-02-02 | Nec Corp | 文章自動分類装置及び方法 |
JP2006004103A (ja) * | 2004-06-16 | 2006-01-05 | Nippon Telegr & Teleph Corp <Ntt> | 文書分類体系間の構造マッチング方法、構造マッチング装置、構造マッチングプログラム及びそのプログラムを記録した記録媒体 |
JP2006338157A (ja) * | 2005-05-31 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | 文書群処理装置、文書群処理方法、文書群処理プログラム及び文書群処理プログラムを格納した記録媒体 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5442778A (en) * | 1991-11-12 | 1995-08-15 | Xerox Corporation | Scatter-gather: a cluster-based method and apparatus for browsing large document collections |
US6611825B1 (en) * | 1999-06-09 | 2003-08-26 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
US6751621B1 (en) * | 2000-01-27 | 2004-06-15 | Manning & Napier Information Services, Llc. | Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors |
WO2001099043A1 (en) * | 2000-06-19 | 2001-12-27 | Correlogic Systems, Inc. | Heuristic method of classification |
US6687696B2 (en) * | 2000-07-26 | 2004-02-03 | Recommind Inc. | System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models |
US7124353B2 (en) * | 2002-01-14 | 2006-10-17 | International Business Machines Corporation | System and method for calculating a user affinity |
US7249117B2 (en) * | 2002-05-22 | 2007-07-24 | Estes Timothy W | Knowledge discovery agent system and method |
US7451124B2 (en) * | 2005-05-12 | 2008-11-11 | Xerox Corporation | Method of analyzing documents |
US7403932B2 (en) * | 2005-07-01 | 2008-07-22 | The Boeing Company | Text differentiation methods, systems, and computer program products for content analysis |
US7502765B2 (en) * | 2005-12-21 | 2009-03-10 | International Business Machines Corporation | Method for organizing semi-structured data into a taxonomy, based on tag-separated clustering |
-
2005
- 2005-10-07 US US11/246,336 patent/US7539653B2/en not_active Expired - Fee Related
-
2006
- 2006-10-04 JP JP2006272458A patent/JP4885679B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000035963A (ja) * | 1998-07-17 | 2000-02-02 | Nec Corp | 文章自動分類装置及び方法 |
JP2006004103A (ja) * | 2004-06-16 | 2006-01-05 | Nippon Telegr & Teleph Corp <Ntt> | 文書分類体系間の構造マッチング方法、構造マッチング装置、構造マッチングプログラム及びそのプログラムを記録した記録媒体 |
JP2006338157A (ja) * | 2005-05-31 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | 文書群処理装置、文書群処理方法、文書群処理プログラム及び文書群処理プログラムを格納した記録媒体 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010015395A (ja) * | 2008-07-03 | 2010-01-21 | Kddi Corp | 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム |
US8560488B2 (en) | 2008-08-08 | 2013-10-15 | Nec Corporation | Pattern determination devices, methods, and programs |
Also Published As
Publication number | Publication date |
---|---|
US20070083368A1 (en) | 2007-04-12 |
JP4885679B2 (ja) | 2012-02-29 |
US7539653B2 (en) | 2009-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4885679B2 (ja) | 文書クラスタリングの方法 | |
US11232152B2 (en) | Efficient processing of neighborhood data | |
CN109062919B (zh) | 一种基于深度强化学习的内容推荐方法及装置 | |
Huang et al. | Dirichlet process mixture model for document clustering with feature partition | |
Kpotufe et al. | A tree-based regressor that adapts to intrinsic dimension | |
JP2005276225A (ja) | テーブルを使用したツリーの学習 | |
Haag et al. | From easy to hopeless—predicting the difficulty of phylogenetic analyses | |
Chowdhury et al. | An improved method to infer gene regulatory network using s-system | |
Böck et al. | Hub-centered gene network reconstruction using automatic relevance determination | |
Velayutham et al. | Improved Rough set algorithms for optimal attribute reduct | |
CN113033709A (zh) | 链路预测方法和装置 | |
Islamaj et al. | A feature generation algorithm for sequences with application to splice-site prediction | |
Gajawada et al. | Vinayaka: a semi-supervised projected clustering method using differential evolution | |
US11676050B2 (en) | Systems and methods for neighbor frequency aggregation of parametric probability distributions with decision trees using leaf nodes | |
CN113822390B (zh) | 用户画像构建方法、装置、电子设备和存储介质 | |
Li et al. | Extreme value distribution based gene selection criteria for discriminant microarray data analysis using logistic regression | |
Jarquin et al. | Combining phenotypic and genomic data to improve prediction of binary traits | |
LeBlanc et al. | Adaptive risk group refinement | |
Tewfik et al. | Parallel identification of gene biclusters with coherent evolutions | |
CN108491527B (zh) | 信息推荐方法、装置和电子设备 | |
CN113591458B (zh) | 基于神经网络的医学术语处理方法、装置、设备及存储介质 | |
Cubas et al. | Linear grouping of predictor instances to infer gene networks | |
CN112509640B (zh) | 基因本体项名称生成方法、装置及存储介质 | |
CN117312533B (zh) | 基于人工智能模型的文案生成方法、装置、设备及介质 | |
JP7468681B2 (ja) | 学習方法、学習装置、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090929 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110617 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111006 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111115 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111208 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141216 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |