JP2008257732A - 文書のクラスタリング又は範疇化のための方法 - Google Patents
文書のクラスタリング又は範疇化のための方法 Download PDFInfo
- Publication number
- JP2008257732A JP2008257732A JP2008095354A JP2008095354A JP2008257732A JP 2008257732 A JP2008257732 A JP 2008257732A JP 2008095354 A JP2008095354 A JP 2008095354A JP 2008095354 A JP2008095354 A JP 2008095354A JP 2008257732 A JP2008257732 A JP 2008257732A
- Authority
- JP
- Japan
- Prior art keywords
- document
- outlier
- documents
- class
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/953—Organization of data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】確率的分類器またはカテゴライザ20が、複数の文書に対して確率的クラスタリングまたは確率的範疇化を行うことにより、各文書をクラスに関連付けるモデルを生成する。アウトライヤ度計算機32が、それら複数の文書について、各文書が前記モデルにどれだけよく適合するかを示すアウライヤ度を計算する。アウトライヤ閾値処理装置34が、計算されたアウトライヤ度とユーザが選択したアウトライヤ基準とに基づいて、ユーザに対してアウトライヤ文書を特定する。
【選択図】図1
Description
であり、
となる。階層構造を生成するための別の方法では、初期クラスタリング動作の後に、2つまたは複数の話題(トピック)を包含する選択されたクラスについて、クラスタラ20の処理を再実行し、葉クラスを生成する。選択されたクラスの文書は次に、葉クラスに移動され、選択されたクラスが空になるようにし、文書は生成された葉クラスに含められる。範疇化に適したさらに別の手法において、葉ノードまたは葉クラスと非葉ノードまたは非葉クラスを含む階層構造全体が、ユーザによって、文書集合に関するクラスアノテーションとともにア・プリオリに提供され、教師あり訓練は、階層構造に一切変更を加えることなく、ユーザによって提供されたクラスアノテーションと階層的リンクを尊重する。この場合の教師あり学習の結果は本来的に階層的であるが、これは、ユーザが提供した階層が、教師あり学習プロセスにおいて尊重されるからである。ゴシエらの米国特許出願公開第2003/0101187A1号は、その他のソフト階層クラスタリング方式を開示している。上記のものは単に例にすぎず、モデルを階層化するその他の方式も使用できる。
Ambi(d)は文書dの曖昧度である。この曖昧度の数値例は、1またはそれ以上である。Ambi(d)=1の場合、文書dはそのモデルの下での1つのクラスに完全に割り当てられ、曖昧性なしの限界を表す。この式を使用した最大曖昧度は、Ambi(d)=K(Kはクラスの数)であり、これは文書dがそのモデルの下でクラス30のいずれに属する可能性も同じであることを示す。実際、曖昧度は、文書がそのモデルの下で類似性を有するクラスの数を示し、曖昧性のない分類の場合、この曖昧度は1に近いはずである。
ライヤ文書を排除する(カタログに入れられる予定の主題とは関係がない場合に適当な応答)、(ii)アウトライヤ文書に類似する別の文書を追加する(アウトライヤ文書が文書
集合10の過少代表である主題と関係がある場合に適当な応答)、アウトライヤ文書をグループにまとめる(生成されたモデルがアウトライヤ文書により代表されるクラスを捕捉しなかったと思われる場合に適当な応答)、あるいは潜在クラスの数を変更する。曖昧文書の場合、ユーザは曖昧文書にラベルを肯定的に割り当てることができる。ラベリングが誤っている文書の場合、ユーザは修正ラベルを割り当てることができる。このようなユーザによる調整が行われると、更に、変更された文書集合(つまり、ユーザが特定のアウトライヤ文書を削除するか、ユーザが別の文書を追加したもの)についてモデリング(モデル化)を繰り返してもよく、更に、ユーザが追加した制約条件(特定の文書に関する修正済みまたは追加されたクラスラベルまたは変更された潜在クラスの数等)を用いてモデリングを繰り返してもよい。モデリングを繰り返すことによって新たなモデルが得られ、このモデルは再びアウトライヤ文書、曖昧文書およびミスラベリング被疑文書について解析され、ユーザにとって容認できるモデルが得られるまで、この工程が繰り返される。
Claims (5)
- 文書のクラスタリングまたは範疇化のための方法であって、
複数の文書に対して確率的クラスタリングまたは確率的範疇化を行うことにより、各文書をクラスに関連付けるモデルを生成するステップと、
前記複数の文書について、各文書が前記モデルにどれだけよく適合するかを示すアウトライヤ度を計算するステップと、
計算されたアウトライヤ度とユーザが選択したアウトライヤ基準とに基づいて、ユーザに対してアウトライヤ文書を特定するステップと、
を含むことを特徴とする方法。 - 請求項1に記載の方法であって、さらに、
前記ユーザから、前記複数の文書における変更、あるいは前記確率的クラスタリングまたは確率的範疇化についての制約、を選択するユーザ入力を受け取るステップであって、前記ユーザ入力は少なくとも、
(1)前記特定されたアウトライヤ文書のうち排除すべき1つまたは複数、
(2)前記複数の文書に追加すべき1つまたは複数の文書、
(3)クラス数、
(4)選択されたアウトライヤ文書をひとつにまとめるという制約、
のうちの少なくともひとつを選択する入力であるステップと、
前記受け取ったユーザ入力に基づいて前記クラスタリングまたは範疇化を反復して行い、文書をクラスに関連付ける新しいモデルを生成するステップと、
を含むことを特徴とする方法。 - 請求項1に記載の方法であって、さらに、
1つのクラスではなく2つまたはそれ以上のクラスに対し確率的または統計的に類似する曖昧文書、を特定するステップを含むことを特徴とする方法。 - 請求項1に記載の方法であって、
前記確率的クラスタリングまたは確率的範疇化を行うステップにおいて前記複数の文書の中のアノテーション付けされた文書はラベルクラスに制約されており、前記方法はさらに、
前記生成されたモデルに基づいて前記アノテーション付けされた文書に対して最も適合するクラスを特定するステップと、
前記最も適合するクラスが前記ラベルクラスとは異なる場合に、前記最も適合するクラスを、前記アノテーション付けされた文書の修正のためのラベルクラスの候補として特定するステップと、
を含むことを特徴とする方法。 - 請求項4に記載の方法であって、
前記修正のためのラベルクラスの候補を特定するステップが実行されるためには、前記アノテーション付けされた文書がアウトライヤ文書として特定されていないことを条件とすることを特徴とする方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/784,321 | 2007-04-06 | ||
US11/784,321 US7711747B2 (en) | 2007-04-06 | 2007-04-06 | Interactive cleaning for automatic document clustering and categorization |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2008257732A true JP2008257732A (ja) | 2008-10-23 |
JP2008257732A5 JP2008257732A5 (ja) | 2010-12-16 |
JP4774073B2 JP4774073B2 (ja) | 2011-09-14 |
Family
ID=39766857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008095354A Expired - Fee Related JP4774073B2 (ja) | 2007-04-06 | 2008-04-01 | 文書のクラスタリング又は範疇化のための方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7711747B2 (ja) |
EP (1) | EP1988478A1 (ja) |
JP (1) | JP4774073B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012117966A1 (ja) * | 2011-02-28 | 2012-09-07 | 日本電気株式会社 | データ判別装置、方法及びプログラム |
JP2013080395A (ja) * | 2011-10-04 | 2013-05-02 | Nippon Telegr & Teleph Corp <Ntt> | 誤分類検出装置、方法、及びプログラム |
JPWO2016157467A1 (ja) * | 2015-03-31 | 2017-04-27 | 株式会社Ubic | データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体 |
US9792274B2 (en) | 2014-02-12 | 2017-10-17 | International Business Machines Corporation | Categorizing keywords |
JP2020035039A (ja) * | 2018-08-28 | 2020-03-05 | 株式会社東芝 | 更新支援装置、更新支援方法およびプログラム |
Families Citing this family (75)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9182932B2 (en) | 2007-11-05 | 2015-11-10 | Hewlett-Packard Development Company, L.P. | Systems and methods for printing content associated with a website |
US8775441B2 (en) | 2008-01-16 | 2014-07-08 | Ab Initio Technology Llc | Managing an archive for approximate string matching |
US8296301B2 (en) | 2008-01-30 | 2012-10-23 | Commvault Systems, Inc. | Systems and methods for probabilistic data classification |
US8285719B1 (en) * | 2008-08-08 | 2012-10-09 | The Research Foundation Of State University Of New York | System and method for probabilistic relational clustering |
US8447120B2 (en) * | 2008-10-04 | 2013-05-21 | Microsoft Corporation | Incremental feature indexing for scalable location recognition |
EP2342684B1 (en) | 2008-10-23 | 2024-05-29 | Ab Initio Technology LLC | Fuzzy data operations |
US20110066955A1 (en) * | 2008-12-01 | 2011-03-17 | VeraCarta Corporation | System and Method for Managing a Written Transaction |
US8339680B2 (en) * | 2009-04-02 | 2012-12-25 | Xerox Corporation | Printer image log system for document gathering and retention |
US8386437B2 (en) * | 2009-04-02 | 2013-02-26 | Xerox Corporation | Apparatus and method for document collection and filtering |
US8165974B2 (en) | 2009-06-08 | 2012-04-24 | Xerox Corporation | System and method for assisted document review |
US9405456B2 (en) * | 2009-06-08 | 2016-08-02 | Xerox Corporation | Manipulation of displayed objects by virtual magnetism |
US8713018B2 (en) | 2009-07-28 | 2014-04-29 | Fti Consulting, Inc. | System and method for displaying relationships between electronically stored information to provide classification suggestions via inclusion |
EP2471009A1 (en) | 2009-08-24 | 2012-07-04 | FTI Technology LLC | Generating a reference set for use during document review |
US8171049B2 (en) | 2009-09-18 | 2012-05-01 | Xerox Corporation | System and method for information seeking in a multimedia collection |
US8566349B2 (en) | 2009-09-28 | 2013-10-22 | Xerox Corporation | Handwritten document categorizer and method of training |
US8739032B2 (en) | 2009-10-11 | 2014-05-27 | Patrick Sander Walsh | Method and system for document presentation and analysis |
CA2777506C (en) * | 2009-10-15 | 2016-10-18 | Rogers Communications Inc. | System and method for grouping multiple streams of data |
US8392432B2 (en) * | 2010-04-12 | 2013-03-05 | Microsoft Corporation | Make and model classifier |
US8359279B2 (en) | 2010-05-26 | 2013-01-22 | Microsoft Corporation | Assisted clustering |
US8666915B2 (en) | 2010-06-02 | 2014-03-04 | Sony Corporation | Method and device for information retrieval |
US9703895B2 (en) * | 2010-06-11 | 2017-07-11 | Microsoft Technology Licensing, Llc | Organizing search results based upon clustered content |
US20110314010A1 (en) * | 2010-06-17 | 2011-12-22 | Microsoft Corporation | Keyword to query predicate maps for query translation |
US20120011112A1 (en) * | 2010-07-06 | 2012-01-12 | Yahoo! Inc. | Ranking specialization for a search |
US10089390B2 (en) | 2010-09-24 | 2018-10-02 | International Business Machines Corporation | System and method to extract models from semi-structured documents |
US8510257B2 (en) * | 2010-10-19 | 2013-08-13 | Xerox Corporation | Collapsed gibbs sampler for sparse topic models and discrete matrix factorization |
US8484245B2 (en) * | 2011-02-08 | 2013-07-09 | Xerox Corporation | Large scale unsupervised hierarchical document categorization using ontological guidance |
US8756503B2 (en) | 2011-02-21 | 2014-06-17 | Xerox Corporation | Query generation from displayed text documents using virtual magnets |
US9152357B2 (en) | 2011-02-23 | 2015-10-06 | Hewlett-Packard Development Company, L.P. | Method and system for providing print content to a client |
US9137394B2 (en) | 2011-04-13 | 2015-09-15 | Hewlett-Packard Development Company, L.P. | Systems and methods for obtaining a resource |
US8903712B1 (en) * | 2011-09-27 | 2014-12-02 | Nuance Communications, Inc. | Call steering data tagging interface with automatic semantic clustering |
US9454528B2 (en) | 2011-10-17 | 2016-09-27 | Xerox Corporation | Method and system for creating ordered reading lists from unstructured document sets |
US8881007B2 (en) | 2011-10-17 | 2014-11-04 | Xerox Corporation | Method and system for visual cues to facilitate navigation through an ordered set of documents |
WO2013059958A1 (en) | 2011-10-25 | 2013-05-02 | Hewlett-Packard Development Company, L.P. | Automatic selection of web page objects for printing |
CA2855710C (en) | 2011-11-15 | 2020-03-10 | Ab Initio Technology Llc | Data clustering based on variant token networks |
US9183293B2 (en) * | 2011-12-13 | 2015-11-10 | Xerox Corpoation | Systems and methods for scalable topic detection in social media |
US8860763B2 (en) | 2012-01-31 | 2014-10-14 | Xerox Corporation | Reversible user interface component |
US9292793B1 (en) * | 2012-03-31 | 2016-03-22 | Emc Corporation | Analyzing device similarity |
US8880525B2 (en) | 2012-04-02 | 2014-11-04 | Xerox Corporation | Full and semi-batch clustering |
US9189473B2 (en) | 2012-05-18 | 2015-11-17 | Xerox Corporation | System and method for resolving entity coreference |
US9117444B2 (en) * | 2012-05-29 | 2015-08-25 | Nuance Communications, Inc. | Methods and apparatus for performing transformation techniques for data clustering and/or classification |
US9773214B2 (en) | 2012-08-06 | 2017-09-26 | Hewlett-Packard Development Company, L.P. | Content feed printing |
US9256836B2 (en) | 2012-10-31 | 2016-02-09 | Open Text Corporation | Reconfigurable model for auto-classification system and method |
US20140180934A1 (en) * | 2012-12-21 | 2014-06-26 | Lex Machina, Inc. | Systems and Methods for Using Non-Textual Information In Analyzing Patent Matters |
US9418148B2 (en) * | 2012-12-31 | 2016-08-16 | Nuance Communications, Inc. | System and method to label unlabeled data |
US8923608B2 (en) | 2013-03-04 | 2014-12-30 | Xerox Corporation | Pre-screening training data for classifiers |
KR102242460B1 (ko) * | 2013-09-19 | 2021-04-21 | 로레알 | 표면의 색상 및 스펙트럼의 측정 및 범주화를 위한 시스템 및 방법 |
US20150127323A1 (en) * | 2013-11-04 | 2015-05-07 | Xerox Corporation | Refining inference rules with temporal event clustering |
US10599953B2 (en) | 2014-08-27 | 2020-03-24 | Verint Americas Inc. | Method and system for generating and correcting classification models |
US9183285B1 (en) * | 2014-08-27 | 2015-11-10 | Next It Corporation | Data clustering system and methods |
US9679024B2 (en) * | 2014-12-01 | 2017-06-13 | Facebook, Inc. | Social-based spelling correction for online social networks |
WO2016105334A1 (en) | 2014-12-22 | 2016-06-30 | Hewlett-Packard Development Company, L.P. | Providing a print-ready document |
US11074529B2 (en) | 2015-12-04 | 2021-07-27 | International Business Machines Corporation | Predicting event types and time intervals for projects |
TWI571756B (zh) | 2015-12-11 | 2017-02-21 | 財團法人工業技術研究院 | 用以分析瀏覽記錄及其文件之方法及其系統 |
US11120460B2 (en) | 2015-12-21 | 2021-09-14 | International Business Machines Corporation | Effectiveness of service complexity configurations in top-down complex services design |
US10896381B2 (en) * | 2016-03-18 | 2021-01-19 | Fair Isaac Corporation | Behavioral misalignment detection within entity hard segmentation utilizing archetype-clustering |
EP3436966A4 (en) * | 2016-04-01 | 2019-11-13 | INTEL Corporation | ENTROPIC CLASSIFICATION OF OBJECTS |
US11068546B2 (en) | 2016-06-02 | 2021-07-20 | Nuix North America Inc. | Computer-implemented system and method for analyzing clusters of coded documents |
US10902446B2 (en) | 2016-06-24 | 2021-01-26 | International Business Machines Corporation | Top-down pricing of a complex service deal |
US10929872B2 (en) | 2016-06-24 | 2021-02-23 | International Business Machines Corporation | Augmenting missing values in historical or market data for deals |
US10474703B2 (en) * | 2016-08-25 | 2019-11-12 | Lakeside Software, Inc. | Method and apparatus for natural language query in a workspace analytics system |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US10515379B2 (en) * | 2016-12-20 | 2019-12-24 | Adobe Inc. | Computerized detection and semantic characterization of trends in digital media content |
WO2018119684A1 (zh) * | 2016-12-27 | 2018-07-05 | 深圳前海达闼云端智能科技有限公司 | 一种图像识别系统及图像识别方法 |
CN108875760A (zh) * | 2017-05-11 | 2018-11-23 | 阿里巴巴集团控股有限公司 | 聚类方法和装置 |
KR101888683B1 (ko) * | 2017-07-28 | 2018-08-14 | 펜타시큐리티시스템 주식회사 | 비정상 트래픽을 탐지하는 방법 및 장치 |
US10896189B2 (en) * | 2017-08-11 | 2021-01-19 | Ancestry.Com Operations Inc. | Diversity evaluation in genealogy search |
US11182833B2 (en) | 2018-01-02 | 2021-11-23 | International Business Machines Corporation | Estimating annual cost reduction when pricing information technology (IT) service deals |
US20210012158A1 (en) * | 2018-02-16 | 2021-01-14 | Nippon Telegraph And Telephone Corporation | Learning apparatus, identification apparatus, methods thereof, and program |
US10162850B1 (en) * | 2018-04-10 | 2018-12-25 | Icertis, Inc. | Clause discovery for validation of documents |
WO2020046331A1 (en) * | 2018-08-30 | 2020-03-05 | Google Llc | Percentile linkage clustering |
US10936974B2 (en) | 2018-12-24 | 2021-03-02 | Icertis, Inc. | Automated training and selection of models for document analysis |
US10726374B1 (en) | 2019-02-19 | 2020-07-28 | Icertis, Inc. | Risk prediction based on automated analysis of documents |
US11361034B1 (en) | 2021-11-30 | 2022-06-14 | Icertis, Inc. | Representing documents using document keys |
US11977841B2 (en) | 2021-12-22 | 2024-05-07 | Bank Of America Corporation | Classification of documents |
US11526261B1 (en) * | 2022-02-18 | 2022-12-13 | Kpmg Llp | System and method for aggregating and enriching data |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6003027A (en) * | 1997-11-21 | 1999-12-14 | International Business Machines Corporation | System and method for determining confidence levels for the results of a categorization system |
US20030139828A1 (en) * | 2002-01-18 | 2003-07-24 | Bruce Ferguson | System and method for pre-processing input data to a support vector machine |
US6751600B1 (en) * | 2000-05-30 | 2004-06-15 | Commerce One Operations, Inc. | Method for automatic categorization of items |
US7043492B1 (en) * | 2001-07-05 | 2006-05-09 | Requisite Technology, Inc. | Automated classification of items using classification mappings |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7444308B2 (en) | 2001-06-15 | 2008-10-28 | Health Discovery Corporation | Data mining platform for bioinformatics and other knowledge discovery |
US6424971B1 (en) * | 1999-10-29 | 2002-07-23 | International Business Machines Corporation | System and method for interactive classification and analysis of data |
US7644102B2 (en) * | 2001-10-19 | 2010-01-05 | Xerox Corporation | Methods, systems, and articles of manufacture for soft hierarchical clustering of co-occurring objects |
US7050932B2 (en) | 2002-08-23 | 2006-05-23 | International Business Machines Corporation | Method, system, and computer program product for outlier detection |
US7139754B2 (en) * | 2004-02-09 | 2006-11-21 | Xerox Corporation | Method for multi-class, multi-label categorization using probabilistic hierarchical modeling |
US7426497B2 (en) | 2004-08-31 | 2008-09-16 | Microsoft Corporation | Method and apparatus for analysis and decomposition of classifier data anomalies |
US20060069667A1 (en) | 2004-09-30 | 2006-03-30 | Microsoft Corporation | Content evaluation |
US7457808B2 (en) * | 2004-12-17 | 2008-11-25 | Xerox Corporation | Method and apparatus for explaining categorization decisions |
US7849087B2 (en) * | 2005-06-29 | 2010-12-07 | Xerox Corporation | Incremental training for probabilistic categorizer |
US7630977B2 (en) * | 2005-06-29 | 2009-12-08 | Xerox Corporation | Categorization including dependencies between different category systems |
-
2007
- 2007-04-06 US US11/784,321 patent/US7711747B2/en active Active
-
2008
- 2008-03-19 EP EP08152984A patent/EP1988478A1/en not_active Ceased
- 2008-04-01 JP JP2008095354A patent/JP4774073B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6003027A (en) * | 1997-11-21 | 1999-12-14 | International Business Machines Corporation | System and method for determining confidence levels for the results of a categorization system |
US6751600B1 (en) * | 2000-05-30 | 2004-06-15 | Commerce One Operations, Inc. | Method for automatic categorization of items |
US7043492B1 (en) * | 2001-07-05 | 2006-05-09 | Requisite Technology, Inc. | Automated classification of items using classification mappings |
US20030139828A1 (en) * | 2002-01-18 | 2003-07-24 | Bruce Ferguson | System and method for pre-processing input data to a support vector machine |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012117966A1 (ja) * | 2011-02-28 | 2012-09-07 | 日本電気株式会社 | データ判別装置、方法及びプログラム |
JP2013080395A (ja) * | 2011-10-04 | 2013-05-02 | Nippon Telegr & Teleph Corp <Ntt> | 誤分類検出装置、方法、及びプログラム |
US9792274B2 (en) | 2014-02-12 | 2017-10-17 | International Business Machines Corporation | Categorizing keywords |
US10606944B2 (en) | 2014-02-12 | 2020-03-31 | International Business Machines Corporation | Categorizing keywords |
JPWO2016157467A1 (ja) * | 2015-03-31 | 2017-04-27 | 株式会社Ubic | データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体 |
US10204153B2 (en) | 2015-03-31 | 2019-02-12 | Fronteo, Inc. | Data analysis system, data analysis method, data analysis program, and storage medium |
JP2020035039A (ja) * | 2018-08-28 | 2020-03-05 | 株式会社東芝 | 更新支援装置、更新支援方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4774073B2 (ja) | 2011-09-14 |
US20080249999A1 (en) | 2008-10-09 |
US7711747B2 (en) | 2010-05-04 |
EP1988478A1 (en) | 2008-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4774073B2 (ja) | 文書のクラスタリング又は範疇化のための方法 | |
CN109446338B (zh) | 基于神经网络的药物疾病关系分类方法 | |
CN111177374B (zh) | 一种基于主动学习的问答语料情感分类方法及系统 | |
US9317569B2 (en) | Displaying search results with edges/entity relationships in regions/quadrants on a display device | |
US7813919B2 (en) | Class description generation for clustering and categorization | |
US10678769B2 (en) | Artificial intelligence system and method for auto-naming customer tree nodes in a data structure | |
EP1840772A1 (en) | Hierarchical clustering with real-time updating | |
WO2020198855A1 (en) | Method and system for mapping text phrases to a taxonomy | |
CN107451187A (zh) | 基于互约束主题模型的半结构短文本集中子话题发现方法 | |
CN112352243A (zh) | 专家报告编辑器 | |
WO2020161505A1 (en) | Improved method and system for text based searching | |
Bhutada et al. | Semantic latent dirichlet allocation for automatic topic extraction | |
CN111259156A (zh) | 一种面向时间序列的热点聚类方法 | |
CN117291192B (zh) | 一种政务文本语义理解分析方法及系统 | |
CN113158659A (zh) | 一种基于司法文本的涉案财物计算方法 | |
Heidary et al. | Automatic text summarization using genetic algorithm and repetitive patterns | |
JP5379813B2 (ja) | データ抽出装置、データ抽出方法、及びプログラム | |
Deschacht et al. | Efficient hierarchical entity classifier using conditional random fields | |
CN109117436A (zh) | 基于主题模型的同义词自动发现方法及其系统 | |
CN110399595B (zh) | 一种文本信息标注的方法以及相关装置 | |
CN108984726B (zh) | 一种基于扩展的sLDA模型对图像进行标题注释的方法 | |
Kuttiyapillai et al. | Improved text analysis approach for predicting effects of nutrient on human health using machine learning techniques | |
Zervakis et al. | On refining bert contextualized embeddings using semantic lexicons | |
CN117688354B (zh) | 一种基于进化算法的文本特征选择方法及系统 | |
Han et al. | Semi-supervised text classification from unlabeled documents using class associated words |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101027 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101027 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20101027 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20101111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101214 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110314 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110317 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110531 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110624 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140701 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4774073 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |