JP5063682B2 - 文書データベースにおける文書の領域識別のための方法 - Google Patents
文書データベースにおける文書の領域識別のための方法 Download PDFInfo
- Publication number
- JP5063682B2 JP5063682B2 JP2009509727A JP2009509727A JP5063682B2 JP 5063682 B2 JP5063682 B2 JP 5063682B2 JP 2009509727 A JP2009509727 A JP 2009509727A JP 2009509727 A JP2009509727 A JP 2009509727A JP 5063682 B2 JP5063682 B2 JP 5063682B2
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- documents
- words
- word
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 43
- 238000012545 processing Methods 0.000 claims description 12
- 238000005192 partition Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 5
- 206010028980 Neoplasm Diseases 0.000 description 12
- 201000011510 cancer Diseases 0.000 description 12
- 238000011156 evaluation Methods 0.000 description 7
- 230000007935 neutral effect Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000012800 visualization Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000013523 data management Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 208000003174 Brain Neoplasms Diseases 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 208000000453 Skin Neoplasms Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 201000000849 skin cancer Diseases 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/06—Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
- G06F7/10—Selecting, i.e. obtaining data of one kind from those record carriers which are identifiable by data of a second kind from a mass of ordered or randomly- distributed record carriers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また、この方法は、決定された語彙語の複数の上位セットを表示させるために前記ディスプレイを動作させる段階であって、前記複数の文書の中の前記語彙語の出現に基づいた、適切及び不適切なものとしての前記語彙語の数値による表示を含み、前記語彙語の前記複数の上位セットは、前記語彙語の数値による表示に基づいて、ユーザ又は前記プロセッサにより、異なる領域識別へとグループ分けされることができる、段階を含む。
a) 語数/文書数 (即ち、文書あたりの語の比率) <= 1 (語が有用な語であるためには、1つの文書に1回より多く出現する必要がある。);
b) 語数/文書数 > 20 (意味がある上限の閾値を定める。単一の閾値ではなく、閾値の範囲を用いてもよい。);及び
c) 文書数 = 1 (有用な語であるためには、その語が出現する文書は1つより多い必要がある。)
このa)〜c)の基準に基づけば、語彙は従って、有用な語の各々について、次を含むことになる:単一の文書のみにおいて、その語を用いた回数(従来の語頻度);その語を用いた文書の数(従来の文書頻度);及び、語数/文書数(文書あたりの語の比率)。
一意な適切な語の数 − 一意な不適切な語の数 −> UniqueRel (1)
この式(1)の意味は次の通りである。まず、文書中の一意な適切な語の数を数える。次に、文書中の一意な不適切な語の数を数える。不適切な語の数の総計を、適切な語の数の総計から引く。この値を、UniqueRelと呼ぶ。所見としては、この計算がより有用になるのは、個別の語のみを識別している場合である。即ち、諸文書の全体を、適切/不適切として、識別していない場合である。
語が適切な回数 − 語が不適切な回数 −> RelNOFreq (2)
この式(2)では、文書における、一意な適切な語の重要度及び一意な不適切な語の重要度を決定する。即ち、語彙におけるその語が不適切である回数の合計を、語彙におけるその語が適切である回数の合計から引く。この値を、RelNOFreqと呼ぶ。語彙でより多く現れる語が、ただ2〜3回だけ現れる語よりも、高い重みを持つことになる。所見としては、この値は、(1)のUniqueRelの値と密に関係している。とりわけ、全ての値が正である場合はそうである。
適切度の頻度の合計 − 不適切度の頻度の合計 −> RelFreq (3)
この式(3)では、文書における、一意な適切な語及び一意な不適切な語の、重要度、及び、それらの語の頻度を決定する。まず、語彙におけるその語が適切である回数の合計を、その語がその文書で用いられている回数と乗算する。この値を、適切度の頻度の合計と呼ぶ。次に、語彙におけるその語が不適切である回数の合計を、その語がその文書で用いられている回数と乗算する。この値を、不適切度の頻度の合計と呼ぶ。そして、不適切度の頻度の合計を、適切度の頻度の合計から引く。この値を、RelFreqと呼ぶ。語彙でより多く現れる語が、ただ2〜3回だけ現れる語よりも、高い重みを持つことになる。所見としては、この値がより有用であるのは、適切な文書/不適切な文書の例を十分に学習したシステムの場合である。
Claims (8)
- プロセッサ及び該プロセッサに実行可能なように接続されたディスプレイを有する、計算機により実装されるシステムを用いて文書データベースにおいて複数の文書を処理するための方法であって、
前記複数の文書の、文書の各々について、語彙語を決定すること;
前記複数の文書において、前記語彙語の出現に基づいて、前記語彙語の各々について、それぞれの適切度を決定すること;
前記語彙語の複数の上位セットを定義するために、前記語彙語のそれぞれの前記適切度に基づいて、前記語彙語の部分を選択することにより、前記語彙語と前記語彙語のそれぞれの前記適切度とに基づいて、前記複数の文書の間の類否を決定すること、ここで、前記語彙語の前記複数の上位セットは、前記複数の文書の間の類似性を示すために用いられる;及び
前記決定した類否に基づいて、前記語彙語の前記複数の上位セットについて複数の領域識別を決定すること;
を実行するように、事前計算の必要なく、前記プロセッサを動作させる段階、並びに
決定された前記語彙語の前記複数の上位セットを表示させるように前記ディスプレイを動作させる段階であって、前記複数の文書の中の前記語彙語の出現に基づいた、適切及び不適切なものとしての前記語彙語の数値による表示を含み、前記語彙語の前記複数の上位セットは、前記語彙語の数値による表示に基づいて、ユーザ又は前記プロセッサにより、異なる領域識別へとグループ分けされることができる、段階
を含む方法。 - 前記全体的な領域識別を、下位の領域識別に、前記下位の領域識別の各々に関連する語彙語を選択することに基づいて、分割するように前記プロセッサを動作させる段階を更に含み、前記下位の領域識別の各々に関連する前記語彙語の前記適切度は、前記下位の領域識別の各々について、類似する文書が共に集団化するように変化する、請求項1による方法。
- 前記語彙語の各々について、それぞれの適切度を前記決定することは:
前記複数の文書において、前記語彙語の各々が何回用いられているかを計数すること;及び
前記複数の文書のうちの何個が、前記語彙語の各々を用いているかを計数すること;
を含む、請求項1による方法。 - 前記計数に基づいて、前記語彙語の各々について、文書あたりの語の比率を生成するように前記プロセッサを動作させる段階を更に含み、文書あたりの語の前記比率が閾値より低い場合には、前記複数の文書の間の前記類否を前記決定する場合に、前記語彙語の前記適切度を用いない、請求項3の方法。
- 文書データベースにおいて複数の文書を処理するための、プロセッサ及び該プロセッサに実行可能なように接続されたディスプレイを有する、計算機により実装されるシステムであって、
前記プロセッサは複数の区画を有し、該複数の区画は:
前記複数の文書の、文書の各々について、事前計算の必要なく、語彙語を決定できる第1の区画;
前記複数の文書において、前記語彙語の出現に基づいて、前記語彙語の各々について、事前計算の必要なく、それぞれの適切度を決定できる第2の区画;
前記語彙語の複数の上位セットを定義するために、前記語彙語のそれぞれの前記適切度に基づいて、前記語彙語の部分を選択することにより、前記語彙語と前記語彙語のそれぞれの前記適切度とに基づいて、事前計算の必要なく、前記複数の文書の間の類否を決定できる第3の区画、ここで、前記語彙語の前記複数の上位セットは、前記複数の文書の間の類似性を示すために用いられ、前記語彙語の前記複数の上位セットは、前記語彙語の前記複数の上位セットに関連する全体的な領域識別を有する;及び
前記決定した類否に基づいて、事前計算の必要なく、前記語彙語の前記複数の上位セットについて複数の領域識別を決定できる第4の区画;
を有し、
前記ディスプレイは、前記複数の文書の中の前記語彙語の出現に基づいた、適切及び不適切なものとしての前記語彙語の数値による表示を含む、決定された前記語彙語の前記複数の上位セットを表示でき、前記語彙語の前記複数の上位セットは、前記語彙語の数値による表示に基づいて、ユーザ又は前記プロセッサにより、異なる領域識別へとグループ分けされることができる、
システム。 - 前記プロセッサは、前記全体的な領域識別を、下位の領域識別に、前記下位の領域識別の各々に関連する語彙語を選択することに基づいて、分割できる第5の区画を更に含み、前記下位の領域識別の各々に関連する前記語彙語の前記適切度は、前記下位の領域識別の各々について、類似する文書が共に集団化するように変化する、請求項5による、計算機により実装されるシステム。
- 前記語彙語の各々について、それぞれの適切度を決定するための前記第2の区画は:
前記複数の文書において、前記語彙語の各々が何回用いられているかを計数すること;及び
前記複数の文書のうちの何個が、前記語彙語の各々を用いているかを計数すること;
を含む、請求項5による、計算機により実装されるシステム。 - 前記第2の区画は、前記計数に基づいて、前記語彙語の各々について、文書あたりの語の比率をさらに生成でき、文書あたりの語の前記比率が閾値より低い場合には、前記複数の文書の間の前記類否を前記決定する場合に、前記語彙語の前記適切度を用いない、請求項7による、計算機により実装されるシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/381,832 US7814105B2 (en) | 2004-10-27 | 2006-05-05 | Method for domain identification of documents in a document database |
US11/381,832 | 2006-05-05 | ||
PCT/US2007/010782 WO2007130544A2 (en) | 2006-05-05 | 2007-05-03 | Method for domain identification of documents in a document database |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2009536401A JP2009536401A (ja) | 2009-10-08 |
JP2009536401A5 JP2009536401A5 (ja) | 2012-02-02 |
JP5063682B2 true JP5063682B2 (ja) | 2012-10-31 |
Family
ID=38668318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009509727A Expired - Fee Related JP5063682B2 (ja) | 2006-05-05 | 2007-05-03 | 文書データベースにおける文書の領域識別のための方法 |
Country Status (9)
Country | Link |
---|---|
US (1) | US7814105B2 (ja) |
EP (1) | EP2024883A4 (ja) |
JP (1) | JP5063682B2 (ja) |
KR (1) | KR101118454B1 (ja) |
CN (1) | CN101438285B (ja) |
CA (1) | CA2651217A1 (ja) |
IL (1) | IL195064A0 (ja) |
TW (1) | TWI341489B (ja) |
WO (1) | WO2007130544A2 (ja) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7917519B2 (en) * | 2005-10-26 | 2011-03-29 | Sizatola, Llc | Categorized document bases |
US20080228700A1 (en) | 2007-03-16 | 2008-09-18 | Expanse Networks, Inc. | Attribute Combination Discovery |
US20090043752A1 (en) | 2007-08-08 | 2009-02-12 | Expanse Networks, Inc. | Predicting Side Effect Attributes |
US7941399B2 (en) | 2007-11-09 | 2011-05-10 | Microsoft Corporation | Collaborative authoring |
US8825758B2 (en) | 2007-12-14 | 2014-09-02 | Microsoft Corporation | Collaborative authoring modes |
US10176827B2 (en) | 2008-01-15 | 2019-01-08 | Verint Americas Inc. | Active lab |
US8352870B2 (en) | 2008-04-28 | 2013-01-08 | Microsoft Corporation | Conflict resolution |
US8825594B2 (en) | 2008-05-08 | 2014-09-02 | Microsoft Corporation | Caching infrastructure |
US7917438B2 (en) * | 2008-09-10 | 2011-03-29 | Expanse Networks, Inc. | System for secure mobile healthcare selection |
US8200509B2 (en) | 2008-09-10 | 2012-06-12 | Expanse Networks, Inc. | Masked data record access |
US10489434B2 (en) | 2008-12-12 | 2019-11-26 | Verint Americas Inc. | Leveraging concepts with information retrieval techniques and knowledge bases |
US8108406B2 (en) | 2008-12-30 | 2012-01-31 | Expanse Networks, Inc. | Pangenetic web user behavior prediction system |
US8386519B2 (en) | 2008-12-30 | 2013-02-26 | Expanse Networks, Inc. | Pangenetic web item recommendation system |
US8255403B2 (en) | 2008-12-30 | 2012-08-28 | Expanse Networks, Inc. | Pangenetic web satisfaction prediction system |
US20100169338A1 (en) * | 2008-12-30 | 2010-07-01 | Expanse Networks, Inc. | Pangenetic Web Search System |
US8346768B2 (en) * | 2009-04-30 | 2013-01-01 | Microsoft Corporation | Fast merge support for legacy documents |
US8943094B2 (en) | 2009-09-22 | 2015-01-27 | Next It Corporation | Apparatus, system, and method for natural language processing |
US9201965B1 (en) | 2009-09-30 | 2015-12-01 | Cisco Technology, Inc. | System and method for providing speech recognition using personal vocabulary in a network environment |
US8990083B1 (en) | 2009-09-30 | 2015-03-24 | Cisco Technology, Inc. | System and method for generating personal vocabulary from network data |
EP2354971A1 (en) * | 2010-01-29 | 2011-08-10 | E-Therapeutics plc | Document analysis system |
US8935274B1 (en) * | 2010-05-12 | 2015-01-13 | Cisco Technology, Inc | System and method for deriving user expertise based on data propagating in a network environment |
US9122744B2 (en) | 2010-10-11 | 2015-09-01 | Next It Corporation | System and method for providing distributed intelligent assistance |
US9465795B2 (en) | 2010-12-17 | 2016-10-11 | Cisco Technology, Inc. | System and method for providing feeds based on activity in a network environment |
US8909624B2 (en) | 2011-05-31 | 2014-12-09 | Cisco Technology, Inc. | System and method for evaluating results of a search query in a network environment |
US8886797B2 (en) | 2011-07-14 | 2014-11-11 | Cisco Technology, Inc. | System and method for deriving user expertise based on data propagating in a network environment |
US20130086036A1 (en) * | 2011-09-01 | 2013-04-04 | John Rizzo | Dynamic Search Service |
US8402030B1 (en) * | 2011-11-21 | 2013-03-19 | Raytheon Company | Textual document analysis using word cloud comparison |
US9836177B2 (en) | 2011-12-30 | 2017-12-05 | Next IT Innovation Labs, LLC | Providing variable responses in a virtual-assistant environment |
US8831403B2 (en) | 2012-02-01 | 2014-09-09 | Cisco Technology, Inc. | System and method for creating customized on-demand video reports in a network environment |
JP2013239146A (ja) * | 2012-04-17 | 2013-11-28 | Panasonic Corp | 情報処理装置およびコンピュータプログラム |
US9223537B2 (en) | 2012-04-18 | 2015-12-29 | Next It Corporation | Conversation user interface |
US9536049B2 (en) | 2012-09-07 | 2017-01-03 | Next It Corporation | Conversational virtual healthcare assistant |
JP6070936B2 (ja) | 2013-01-31 | 2017-02-01 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、情報処理方法及びプログラム |
US9164667B2 (en) * | 2013-03-15 | 2015-10-20 | Luminoso Technologies, Inc. | Word cloud rotatable through N dimensions via user interface |
US10204026B2 (en) * | 2013-03-15 | 2019-02-12 | Uda, Llc | Realtime data stream cluster summarization and labeling system |
US10445115B2 (en) | 2013-04-18 | 2019-10-15 | Verint Americas Inc. | Virtual assistant focused user interfaces |
US10088972B2 (en) | 2013-12-31 | 2018-10-02 | Verint Americas Inc. | Virtual assistant conversations |
US9535910B2 (en) * | 2014-05-31 | 2017-01-03 | International Business Machines Corporation | Corpus generation based upon document attributes |
US20160071517A1 (en) | 2014-09-09 | 2016-03-10 | Next It Corporation | Evaluating Conversation Data based on Risk Factors |
US9594746B2 (en) | 2015-02-13 | 2017-03-14 | International Business Machines Corporation | Identifying word-senses based on linguistic variations |
US11409749B2 (en) * | 2017-11-09 | 2022-08-09 | Microsoft Technology Licensing, Llc | Machine reading comprehension system for answering queries related to a document |
US11568175B2 (en) | 2018-09-07 | 2023-01-31 | Verint Americas Inc. | Dynamic intent classification based on environment variables |
US11232264B2 (en) | 2018-10-19 | 2022-01-25 | Verint Americas Inc. | Natural language processing with non-ontological hierarchy models |
US11196863B2 (en) | 2018-10-24 | 2021-12-07 | Verint Americas Inc. | Method and system for virtual assistant conversations |
US11651159B2 (en) | 2019-03-01 | 2023-05-16 | International Business Machines Corporation | Semi-supervised system to mine document corpus on industry specific taxonomies |
US20230108518A1 (en) * | 2020-02-21 | 2023-04-06 | Sony Group Corporation | Information processing apparatus, information processing method, and program |
JP7416665B2 (ja) * | 2020-06-12 | 2024-01-17 | 株式会社日立製作所 | 対話システム、及び対話システムの制御方法 |
CN113032562B (zh) * | 2021-03-18 | 2024-02-02 | 中国人民解放军火箭军工程大学 | 一种多次迭代对折词汇层级分类方法及系统 |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4839853A (en) * | 1988-09-15 | 1989-06-13 | Bell Communications Research, Inc. | Computer information retrieval using latent semantic structure |
JP3566720B2 (ja) * | 1992-04-30 | 2004-09-15 | アプル・コンピュータ・インコーポレーテッド | コンピュータ・システムにおいて情報を編成する方法と装置 |
JP3614618B2 (ja) * | 1996-07-05 | 2005-01-26 | 株式会社日立製作所 | 文献検索支援方法及び装置およびこれを用いた文献検索サービス |
US5987460A (en) * | 1996-07-05 | 1999-11-16 | Hitachi, Ltd. | Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency |
US5924105A (en) * | 1997-01-27 | 1999-07-13 | Michigan State University | Method and product for determining salient features for use in information searching |
JP3173411B2 (ja) * | 1997-03-17 | 2001-06-04 | 富士ゼロックス株式会社 | 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体 |
US6167397A (en) * | 1997-09-23 | 2000-12-26 | At&T Corporation | Method of clustering electronic documents in response to a search query |
US5987457A (en) * | 1997-11-25 | 1999-11-16 | Acceleration Software International Corporation | Query refinement method for searching documents |
US6035294A (en) * | 1998-08-03 | 2000-03-07 | Big Fat Fish, Inc. | Wide access databases and database systems |
US20030069873A1 (en) * | 1998-11-18 | 2003-04-10 | Kevin L. Fox | Multiple engine information retrieval and visualization system |
AU4328000A (en) * | 1999-03-31 | 2000-10-16 | Verizon Laboratories Inc. | Techniques for performing a data query in a computer system |
JP4021583B2 (ja) * | 1999-04-08 | 2007-12-12 | 富士通株式会社 | 情報検索装置、情報検索方法、及びその方法を実現するプログラムを記録した記録媒体 |
US6711585B1 (en) * | 1999-06-15 | 2004-03-23 | Kanisa Inc. | System and method for implementing a knowledge management system |
CA2400161C (en) * | 2000-02-22 | 2015-11-24 | Metacarta, Inc. | Spatially coding and displaying information |
JP3573688B2 (ja) * | 2000-06-28 | 2004-10-06 | 松下電器産業株式会社 | 類似文書検索装置及び関連キーワード抽出装置 |
US7003513B2 (en) * | 2000-07-04 | 2006-02-21 | International Business Machines Corporation | Method and system of weighted context feedback for result improvement in information retrieval |
CN1145899C (zh) * | 2000-09-07 | 2004-04-14 | 国际商业机器公司 | 为文字文档自动生成摘要的方法 |
US6938046B2 (en) * | 2001-03-02 | 2005-08-30 | Dow Jones Reuters Business Interactive, Llp | Polyarchical data indexing and automatically generated hierarchical data indexing paths |
US7076485B2 (en) * | 2001-03-07 | 2006-07-11 | The Mitre Corporation | Method and system for finding similar records in mixed free-text and structured data |
CA2373568C (en) * | 2001-04-26 | 2008-06-17 | Hitachi, Ltd. | Method of searching similar document, system for performing the same and program for processing the same |
US7188106B2 (en) * | 2001-05-01 | 2007-03-06 | International Business Machines Corporation | System and method for aggregating ranking results from various sources to improve the results of web searching |
US6970881B1 (en) * | 2001-05-07 | 2005-11-29 | Intelligenxia, Inc. | Concept-based method and system for dynamically analyzing unstructured information |
US7194483B1 (en) * | 2001-05-07 | 2007-03-20 | Intelligenxia, Inc. | Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information |
JP3918531B2 (ja) * | 2001-11-29 | 2007-05-23 | 株式会社日立製作所 | 類似文書検索方法およびシステム |
US7139756B2 (en) * | 2002-01-22 | 2006-11-21 | International Business Machines Corporation | System and method for detecting duplicate and similar documents |
US20030154181A1 (en) * | 2002-01-25 | 2003-08-14 | Nec Usa, Inc. | Document clustering with cluster refinement and model selection capabilities |
WO2003075186A1 (en) * | 2002-03-01 | 2003-09-12 | Paul Jeffrey Krupin | A method and system for creating improved search queries |
JP3726263B2 (ja) * | 2002-03-01 | 2005-12-14 | ヒューレット・パッカード・カンパニー | 文書分類方法及び装置 |
JP4142881B2 (ja) * | 2002-03-07 | 2008-09-03 | 富士通株式会社 | 文書類似度算出装置、クラスタリング装置および文書抽出装置 |
US7260773B2 (en) * | 2002-03-28 | 2007-08-21 | Uri Zernik | Device system and method for determining document similarities and differences |
US6917936B2 (en) * | 2002-12-18 | 2005-07-12 | Xerox Corporation | Method and apparatus for measuring similarity between documents |
JP2005043977A (ja) * | 2003-07-23 | 2005-02-17 | Hitachi Ltd | 文書間の類似度算出方法および装置 |
US7203679B2 (en) * | 2003-07-29 | 2007-04-10 | International Business Machines Corporation | Determining structural similarity in semi-structured documents |
US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
US7493322B2 (en) * | 2003-10-15 | 2009-02-17 | Xerox Corporation | System and method for computing a measure of similarity between documents |
US20050149546A1 (en) * | 2003-11-03 | 2005-07-07 | Prakash Vipul V. | Methods and apparatuses for determining and designating classifications of electronic documents |
JP2005346223A (ja) * | 2004-06-01 | 2005-12-15 | Nippon Telegr & Teleph Corp <Ntt> | 文書クラスタリング方法、文書クラスタリング装置、文書クラスタリングプログラムならびにそのプログラムを記録した記録媒体 |
US20060155751A1 (en) * | 2004-06-23 | 2006-07-13 | Frank Geshwind | System and method for document analysis, processing and information extraction |
US7266548B2 (en) * | 2004-06-30 | 2007-09-04 | Microsoft Corporation | Automated taxonomy generation |
US7502783B2 (en) * | 2004-09-10 | 2009-03-10 | Suggestica, Inc. | User interface for conducting a search directed by a hierarchy-free set of topics |
US7451124B2 (en) * | 2005-05-12 | 2008-11-11 | Xerox Corporation | Method of analyzing documents |
TWM285049U (en) * | 2005-07-14 | 2006-01-01 | Top Yang Technology Entpr Co | Vertical battery holder |
-
2006
- 2006-05-05 US US11/381,832 patent/US7814105B2/en not_active Expired - Fee Related
-
2007
- 2007-05-03 CN CN2007800162574A patent/CN101438285B/zh not_active Expired - Fee Related
- 2007-05-03 WO PCT/US2007/010782 patent/WO2007130544A2/en active Application Filing
- 2007-05-03 CA CA002651217A patent/CA2651217A1/en not_active Abandoned
- 2007-05-03 EP EP07794531A patent/EP2024883A4/en not_active Ceased
- 2007-05-03 JP JP2009509727A patent/JP5063682B2/ja not_active Expired - Fee Related
- 2007-05-03 KR KR1020087029573A patent/KR101118454B1/ko not_active IP Right Cessation
- 2007-05-04 TW TW096115887A patent/TWI341489B/zh not_active IP Right Cessation
-
2008
- 2008-11-03 IL IL195064A patent/IL195064A0/en unknown
Also Published As
Publication number | Publication date |
---|---|
CN101438285B (zh) | 2011-07-27 |
TW200817998A (en) | 2008-04-16 |
KR101118454B1 (ko) | 2012-03-14 |
KR20090007626A (ko) | 2009-01-19 |
CA2651217A1 (en) | 2007-11-15 |
US7814105B2 (en) | 2010-10-12 |
WO2007130544A2 (en) | 2007-11-15 |
EP2024883A4 (en) | 2010-02-17 |
TWI341489B (en) | 2011-05-01 |
EP2024883A2 (en) | 2009-02-18 |
CN101438285A (zh) | 2009-05-20 |
IL195064A0 (en) | 2009-08-03 |
WO2007130544A3 (en) | 2008-09-04 |
JP2009536401A (ja) | 2009-10-08 |
US20060206483A1 (en) | 2006-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5063682B2 (ja) | 文書データベースにおける文書の領域識別のための方法 | |
US7801887B2 (en) | Method for re-ranking documents retrieved from a document database | |
KR101078864B1 (ko) | 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법 | |
US8661031B2 (en) | Method and apparatus for determining the significance and relevance of a web page, or a portion thereof | |
US8108405B2 (en) | Refining a search space in response to user input | |
JP3673487B2 (ja) | 階層的統計分析のシステム及び方法 | |
US8543380B2 (en) | Determining a document specificity | |
US20090204609A1 (en) | Determining Words Related To A Given Set Of Words | |
US20090094208A1 (en) | Automatically Generating A Hierarchy Of Terms | |
JP5232260B2 (ja) | 話題抽出装置及びプログラム | |
US20100169331A1 (en) | Online relevance engine | |
US20090094223A1 (en) | System and method for classifying search queries | |
JP5423676B2 (ja) | データ分類システム、データ分類方法、及びデータ分類プログラム | |
US20090094233A1 (en) | Modeling Topics Using Statistical Distributions | |
US20100257177A1 (en) | Document rating calculation system, document rating calculation method and program | |
US20090094209A1 (en) | Determining The Depths Of Words And Documents | |
Crespo Azcarate et al. | Improving image retrieval effectiveness via query expansion using MeSH hierarchical structure | |
JP5500070B2 (ja) | データ分類システム、データ分類方法、及びデータ分類プログラム | |
Moradi | Small-world networks for summarization of biomedical articles | |
Codocedo et al. | A Contribution to Semantic Indexing and Retrieval Based on FCA-An Application to Song Datasets. | |
JP4134975B2 (ja) | 話題文書提示方法及び装置及びプログラム | |
Brisebois et al. | Text and data mining & machine learning models to build an assisted literature review with relevant papers | |
EP2090992A2 (en) | Determining words related to a given set of words | |
JP2008518345A (ja) | データ処理システム及びデータ処理方法 | |
JP2004310199A (ja) | 文書分類方法及び文書分類プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110913 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20111209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120214 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120502 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120612 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120724 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120807 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150817 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |