JP2005322245A - 要約を使用して表示ページを分類する方法およびシステム - Google Patents
要約を使用して表示ページを分類する方法およびシステムInfo
- Publication number
- JP2005322245A JP2005322245A JP2005134491A JP2005134491A JP2005322245A JP 2005322245 A JP2005322245 A JP 2005322245A JP 2005134491 A JP2005134491 A JP 2005134491A JP 2005134491 A JP2005134491 A JP 2005134491A JP 2005322245 A JP2005322245 A JP 2005322245A
- Authority
- JP
- Japan
- Prior art keywords
- summarization
- sentence
- technique
- web page
- summarization technique
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 163
- 238000012706 support-vector machine Methods 0.000 claims abstract description 8
- 238000012544 monitoring process Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 description 22
- 239000013598 vector Substances 0.000 description 22
- 238000010586 diagram Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 17
- 239000011159 matrix material Substances 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 239000002131 composite material Substances 0.000 description 4
- 238000005034 decoration Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Information Transfer Between Computers (AREA)
Abstract
【解決手段】 ウェブページ分類システムは、ウェブページ要約システムを使用して、ウェブページの要約を生成する。ウェブページの要約は、そのウェブページの主要な話題に最も密接に関係するウェブページのセンテンスを含む場合がある。要約システムは、複数の要約手法の利点を組み合わせて利用し、ウェブページの主要な話題を表すウェブページのセンテンスを識別する。要約が生成されると、分類システムは、従来の分類手法を要約に適用して、ウェブページを分類する。分類システムでは、単純ベイズ分類器またはサポートベクトルマシンなどの従来の分類手法を使用し、要約システムにより生成された要約に基づいてウェブページの分類を識別する。
【選択図】 図1
Description
A=UΣVT (1)
S=Sluhn+Slsa+Scb+Ssup (3)
120 要約システム
Claims (42)
- コンピュータシステムにおけるウェブページを分類する方法であって、
ウェブページを取り出すステップと、
前記取り出されたウェブページの要約を自動的に生成するステップと、
前記自動的に生成された要約に基づいて前記取り出されたウェブページの分類を決定するステップと、
を備えることを特徴とする方法。 - 前記要約を自動生成する前記ステップは、複数の要約手法を使用して前記ウェブページのそれぞれのセンテンスに対するスコアを計算するステップを含むことを特徴とする請求項1に記載の方法。
- それぞれのセンテンスに対する前記スコアは、前記複数の要約手法の前記スコアの一次結合であることを特徴とする請求項2に記載の方法。
- 前記最高スコアを持つ前記センテンスは、前記要約を形成するように選択されることを特徴とする請求項1に記載の方法。
- 前記要約手法は、Luhn要約手法、潜在的意味分析要約手法、コンテンツ本文要約手法、および監視要約手法を含むことを特徴とする請求項2に記載の方法。
- 前記要約手法は、Luhn要約手法、潜在的意味分析要約手法、コンテンツ本文要約手法、および監視要約手法からなる要約手法の集合の2つ以上を含むことを特徴とする請求項2に記載の方法。
- 前記分類を決定する前記ステップは、単純ベイズ分類器を使用することを特徴とする請求項1に記載の方法。
- 前記分類を決定する前記ステップは、サポートベクトルマシンを使用することを特徴とする請求項1に記載の方法。
- 要約を自動的に生成する前記ステップは、Luhn要約手法を使用することを特徴とする請求項1に記載の方法。
- 要約を自動的に生成する前記ステップは、潜在的意味分析要約手法を使用することを特徴とする請求項1に記載の方法。
- 要約を自動的に生成する前記ステップは、コンテンツ本文要約手法を使用することを特徴とする請求項1に記載の方法。
- 要約を自動的に生成する前記ステップは、監視要約手法を使用することを特徴とする請求項1に記載の方法。
- コンピュータシステムにおけるウェブページを要約する方法であって、
前記ウェブページを取り出すステップと、
前記取り出されたウェブページのセンテンス毎に、複数の要約手法のそれぞれについて前記センテンスにスコアを1つ割り当てるステップと、
前記センテンスに対する組み合わせスコアを生成するために、前記センテンスに割り当てられた前記スコアを組み合わせるステップと、
前記取り出されたウェブページの要約を形成するために、前記最高の組み合わせスコアの前記センテンスを選択するステップと、
を備えることを特徴とする方法。 - それぞれのセンテンスに対する前記組み合わせられたスコアは、前記割り当てられたスコアの一次結合であることを特徴とする請求項13に記載の方法。
- 前記複数の要約手法の前記割り当てられたスコアは、組み合わせの際に異なる重み付けがされることを特徴とする請求項14に記載の方法。
- 前記要約手法は、Luhn要約手法、潜在的意味分析要約手法、コンテンツ本文要約手法、および監視要約手法を含むことを特徴とする請求項13に記載の方法。
- 前記要約手法は、Luhn要約手法、潜在的意味分析要約手法、コンテンツ本文要約手法、および監視要約手法からなる要約手法の集合の2つ以上を含むことを特徴とする請求項13に記載の方法。
- 要約手法は、分類が重要単語の集合を有するLuhn要約手法であることを特徴とする請求項13に記載の方法。
- ノイズの多い単語は、集合から破棄されることを特徴とする請求項18に記載の方法。
- 要約手法は、センテンスが前記ウェブページの前記センテンスとメタデータとの間の類似度に基づく特徴を含む特徴の集合により表される監視要約手法であることを特徴とする請求項13に記載の方法。
- 要約手法は、センテンスが前記ウェブページ内で強調表示されている前記センテンスの単語に基づく特徴を含む特徴の集合により表される監視要約手法であることを特徴とする請求項13に記載の方法。
- 要約手法は、センテンスが前記センテンス内の単語のフォントサイズに基づく特徴を含む特徴の集合により表される監視要約手法であることを特徴とする請求項13に記載の方法。
- 前記取り出されたウェブページの前記要約に基づき前記取り出されたウェブページに対する分類を識別するステップを含むことを特徴とする請求項13に記載の方法。
- 前記分類を識別する前記ステップは、単純ベイズ分類器を使用することを特徴とする請求項23に記載の方法。
- 前記分類を識別する前記ステップは、サポートベクトルマシンを使用することを特徴とする請求項23に記載の方法。
- 表示ページに対する要約を、方法によりコンピュータシステムに生成させるための命令を格納するコンピュータ読取り可能媒体であって、そのために、
前記表示ページのセンテンス毎に、複数の要約手法に基づく前記表示ページに対するスコアを生成するステップと、
前記表示ページの要約を形成するために、前記最高の生成されたスコアの前記センテンスを選択するステップと、
を備える方法を使用することを特徴とするコンピュータ読取り可能媒体。 - それぞれのセンテンスに対する前記生成されたスコアは、前記複数の要約手法のそれぞれに対するスコアの組み合わせであることを特徴とする請求項26に記載のコンピュータ読取り可能媒体。
- 前記複数の要約手法の前記スコアは、異なる重み付けがされることを特徴とする請求項27に記載のコンピュータ読取り可能媒体。
- 前記要約手法は、Luhn要約手法、潜在的意味分析要約手法、コンテンツ本文要約手法、および監視要約手法を含むことを特徴とする請求項26に記載のコンピュータ読取り可能媒体。
- 前記要約手法は、Luhn要約手法、潜在的意味分析要約手法、コンテンツ本文要約手法、および監視要約手法からなる要約手法の集合の2つ以上を含むことを特徴とする請求項26に記載のコンピュータ読取り可能媒体。
- 要約手法は、分類が重要単語の集合を有するLuhn要約手法であることを特徴とする請求項26に記載のコンピュータ読取り可能媒体。
- ノイズの多い単語は、前記集合から破棄されることを特徴とする請求項31に記載のコンピュータ読取り可能媒体。
- 要約手法は、センテンスが前記表示ページの前記センテンスとメタデータとの間の類似度に基づく特徴を含む特徴の集合により表される監視要約手法であることを特徴とする請求項26に記載のコンピュータ読取り可能媒体。
- 要約手法は、センテンスが前記表示ページ内で強調表示されている前記センテンスの単語に基づく特徴を含む特徴の集合により表される監視要約手法であることを特徴とする請求項26に記載のコンピュータ読取り可能媒体。
- 要約手法は、センテンスが前記センテンス内の単語のフォントサイズに基づく特徴を含む特徴の集合により表される監視要約手法であることを特徴とする請求項26に記載のコンピュータ読取り可能媒体。
- 前記表示ページの前記要約に基づき前記表示ページに対する分類を識別するステップを含むことを特徴とする請求項26に記載のコンピュータ読取り可能媒体。
- 表示ページを分類するコンピュータシステムであって、
前記表示ページの要約を自動的に生成する手段と、
前記自動的に生成された要約に基づいて前記表示ページの分類を識別する手段と、
を備えることを特徴とするコンピュータシステム。 - 前記要約を自動生成する前記手段は、複数の要約手法を使用して前記表示ページのそれぞれのセンテンスに対するスコアを計算することを特徴とする請求項37に記載のコンピュータシステム。
- それぞれのセンテンスに対する前記スコアは、前記複数の要約手法の前記スコアの一次結合であることを特徴とする請求項38に記載のコンピュータシステム。
- 前記要約手法は、Luhn要約手法、潜在的意味分析要約手法、コンテンツ本文要約手法、および監視要約手法を含むことを特徴とする請求項37に記載のコンピュータシステム。
- 前記要約手法は、Luhn要約手法、潜在的意味分析要約手法、コンテンツ本文要約手法、および監視要約手法からなる要約手法の集合の2つ以上を含むことを特徴とする請求項37に記載のコンピュータシステム。
- 前記表示ページのそれぞれのセンテンスは、前記複数の要約手法の前記スコアの組み合わせであるスコアを割り当てられることを特徴とする請求項41に記載のコンピュータシステム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/836,319 US7392474B2 (en) | 2004-04-30 | 2004-04-30 | Method and system for classifying display pages using summaries |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005322245A true JP2005322245A (ja) | 2005-11-17 |
JP2005322245A5 JP2005322245A5 (ja) | 2008-06-19 |
Family
ID=34939612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005134491A Pending JP2005322245A (ja) | 2004-04-30 | 2005-05-02 | 要約を使用して表示ページを分類する方法およびシステム |
Country Status (12)
Country | Link |
---|---|
US (2) | US7392474B2 (ja) |
EP (1) | EP1591924B1 (ja) |
JP (1) | JP2005322245A (ja) |
KR (1) | KR101203345B1 (ja) |
CN (1) | CN1758245B (ja) |
AT (1) | ATE470192T1 (ja) |
AU (1) | AU2005201766A1 (ja) |
BR (1) | BRPI0502155A (ja) |
CA (1) | CA2505957C (ja) |
DE (1) | DE602005021581D1 (ja) |
MX (1) | MXPA05004682A (ja) |
RU (1) | RU2377645C2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012089014A (ja) * | 2010-10-21 | 2012-05-10 | Nippon Telegr & Teleph Corp <Ntt> | 購買行動分析装置、購買行動分析方法及び購買行動分析プログラム |
JP2014056516A (ja) * | 2012-09-13 | 2014-03-27 | Canon Marketing Japan Inc | 文書集合からの知識構造の抽出装置、方法、およびプログラム |
Families Citing this family (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8868670B2 (en) * | 2004-04-27 | 2014-10-21 | Avaya Inc. | Method and apparatus for summarizing one or more text messages using indicative summaries |
US7392474B2 (en) * | 2004-04-30 | 2008-06-24 | Microsoft Corporation | Method and system for classifying display pages using summaries |
US7707265B2 (en) * | 2004-05-15 | 2010-04-27 | International Business Machines Corporation | System, method, and service for interactively presenting a summary of a web site |
US7475067B2 (en) * | 2004-07-09 | 2009-01-06 | Aol Llc | Web page performance scoring |
US7747618B2 (en) | 2005-09-08 | 2010-06-29 | Microsoft Corporation | Augmenting user, query, and document triplets using singular value decomposition |
US7739254B1 (en) * | 2005-09-30 | 2010-06-15 | Google Inc. | Labeling events in historic news |
KR100775852B1 (ko) | 2006-01-18 | 2007-11-13 | 포스데이타 주식회사 | 응용 프로그램의 자원 검색 시스템 및 방법 |
US20080077576A1 (en) * | 2006-09-22 | 2008-03-27 | Cuneyt Ozveren | Peer-To-Peer Collaboration |
US7672912B2 (en) * | 2006-10-26 | 2010-03-02 | Microsoft Corporation | Classifying knowledge aging in emails using Naïve Bayes Classifier |
US20080103849A1 (en) * | 2006-10-31 | 2008-05-01 | Forman George H | Calculating an aggregate of attribute values associated with plural cases |
US8539329B2 (en) * | 2006-11-01 | 2013-09-17 | Bloxx Limited | Methods and systems for web site categorization and filtering |
US7617182B2 (en) * | 2007-01-08 | 2009-11-10 | Microsoft Corporation | Document clustering based on entity association rules |
US8161369B2 (en) | 2007-03-16 | 2012-04-17 | Branchfire, Llc | System and method of providing a two-part graphic design and interactive document application |
CN101296155B (zh) * | 2007-04-23 | 2011-02-16 | 华为技术有限公司 | 对内容分类的方法及系统 |
CN101452470B (zh) * | 2007-10-18 | 2012-06-06 | 广州索答信息科技有限公司 | 摘要式网络搜索引擎系统及其搜索方法与应用 |
CN101184259B (zh) * | 2007-11-01 | 2010-06-23 | 浙江大学 | 垃圾短信中的关键词自动学习及更新方法 |
US9292601B2 (en) * | 2008-01-09 | 2016-03-22 | International Business Machines Corporation | Determining a purpose of a document |
CN101505295B (zh) * | 2008-02-04 | 2013-01-30 | 华为技术有限公司 | 一种内容和类别的关联方法和设备 |
US8046361B2 (en) * | 2008-04-18 | 2011-10-25 | Yahoo! Inc. | System and method for classifying tags of content using a hyperlinked corpus of classified web pages |
US20110047006A1 (en) * | 2009-08-21 | 2011-02-24 | Attenberg Joshua M | Systems, methods, and media for rating websites for safe advertising |
JP4965623B2 (ja) * | 2009-09-30 | 2012-07-04 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 所定のソフトウェアの実行パラメータを入力フィールドへ入力することを支援するための方法、システム、およびプログラム |
JP2011095905A (ja) * | 2009-10-28 | 2011-05-12 | Sony Corp | 情報処理装置および方法、並びにプログラム |
BR112012010120A2 (pt) * | 2009-10-30 | 2016-06-07 | Rakuten Inc | dispositivo e método de determinação de conteúdo característico |
US8732017B2 (en) * | 2010-06-01 | 2014-05-20 | Integral Ad Science, Inc. | Methods, systems, and media for applying scores and ratings to web pages, web sites, and content for safe and effective online advertising |
US9436764B2 (en) * | 2010-06-29 | 2016-09-06 | Microsoft Technology Licensing, Llc | Navigation to popular search results |
US8635061B2 (en) | 2010-10-14 | 2014-01-21 | Microsoft Corporation | Language identification in multilingual text |
US10534931B2 (en) | 2011-03-17 | 2020-01-14 | Attachmate Corporation | Systems, devices and methods for automatic detection and masking of private data |
CN102737017B (zh) * | 2011-03-31 | 2015-03-11 | 北京百度网讯科技有限公司 | 一种提取页面主题的方法和装置 |
US20130066814A1 (en) * | 2011-09-12 | 2013-03-14 | Volker Bosch | System and Method for Automated Classification of Web pages and Domains |
US9613135B2 (en) | 2011-09-23 | 2017-04-04 | Aol Advertising Inc. | Systems and methods for contextual analysis and segmentation of information objects |
US8793252B2 (en) * | 2011-09-23 | 2014-07-29 | Aol Advertising Inc. | Systems and methods for contextual analysis and segmentation using dynamically-derived topics |
US9916309B2 (en) * | 2011-10-14 | 2018-03-13 | Yahoo Holdings, Inc. | Method and apparatus for automatically summarizing the contents of electronic documents |
US9152730B2 (en) * | 2011-11-10 | 2015-10-06 | Evernote Corporation | Extracting principal content from web pages |
RU2491622C1 (ru) * | 2012-01-25 | 2013-08-27 | Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" | Способ классификации документов по категориям |
CN103324622A (zh) * | 2012-03-21 | 2013-09-25 | 北京百度网讯科技有限公司 | 一种自动生成首页摘要的方法及装置 |
US9223861B2 (en) * | 2012-05-10 | 2015-12-29 | Yahoo! Inc. | Method and system for automatic assignment of identifiers to a graph of entities |
US10387911B1 (en) | 2012-06-01 | 2019-08-20 | Integral Ad Science, Inc. | Systems, methods, and media for detecting suspicious activity |
US20150046562A1 (en) * | 2013-08-07 | 2015-02-12 | Convergent Development Limited | Web browser orchestration |
CN104933055B (zh) * | 2014-03-18 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 网页识别方法及网页识别装置 |
US10021102B2 (en) | 2014-10-31 | 2018-07-10 | Aruba Networks, Inc. | Leak-proof classification for an application session |
CN105786853A (zh) * | 2014-12-22 | 2016-07-20 | 北京奇虎科技有限公司 | 一种论坛帖子智能摘要的显示方法和系统 |
US10387550B2 (en) | 2015-04-24 | 2019-08-20 | Hewlett-Packard Development Company, L.P. | Text restructuring |
US20180018392A1 (en) * | 2015-04-29 | 2018-01-18 | Hewlett-Packard Development Company, L.P. | Topic identification based on functional summarization |
RU2638015C2 (ru) * | 2015-06-30 | 2017-12-08 | Общество С Ограниченной Ответственностью "Яндекс" | Способ идентификации целевого объекта на веб-странице |
US9875429B2 (en) | 2015-10-06 | 2018-01-23 | Adobe Systems Incorporated | Font attributes for font recognition and similarity |
US10074042B2 (en) | 2015-10-06 | 2018-09-11 | Adobe Systems Incorporated | Font recognition using text localization |
US10042880B1 (en) * | 2016-01-06 | 2018-08-07 | Amazon Technologies, Inc. | Automated identification of start-of-reading location for ebooks |
RU2642413C2 (ru) * | 2016-02-09 | 2018-01-24 | Общество С Ограниченной Ответственностью "Яндекс" | Способ (варианты) и сервер обработки текста |
US10007868B2 (en) | 2016-09-19 | 2018-06-26 | Adobe Systems Incorporated | Font replacement based on visual similarity |
RU2635213C1 (ru) * | 2016-09-26 | 2017-11-09 | Самсунг Электроникс Ко., Лтд. | Способ суммаризации текста и используемые для его реализации устройство и машиночитаемый носитель информации |
US10699062B2 (en) * | 2017-08-01 | 2020-06-30 | Samsung Electronics Co., Ltd. | Apparatus and method for providing summarized information using an artificial intelligence model |
US10248628B2 (en) * | 2017-08-15 | 2019-04-02 | Hybris Ag | Statistical approach for testing multiple versions of websites |
US10579698B2 (en) | 2017-08-31 | 2020-03-03 | International Business Machines Corporation | Optimizing web pages by minimizing the amount of redundant information |
KR102576267B1 (ko) * | 2018-10-10 | 2023-09-07 | 스카라망가 테크놀로지스 프라이빗 리미티드 | 다중 통신 플랫폼 환경에서 통신 이벤트에 대한 문맥 키워드 집합을 제공하는 방법, 시스템 및 장치 |
US11397776B2 (en) | 2019-01-31 | 2022-07-26 | At&T Intellectual Property I, L.P. | Systems and methods for automated information retrieval |
US10950017B2 (en) | 2019-07-08 | 2021-03-16 | Adobe Inc. | Glyph weight modification |
US11295181B2 (en) | 2019-10-17 | 2022-04-05 | Adobe Inc. | Preserving document design using font synthesis |
CN111797945B (zh) * | 2020-08-21 | 2020-12-15 | 成都数联铭品科技有限公司 | 一种文本分类方法 |
US20230222149A1 (en) * | 2022-01-11 | 2023-07-13 | Intuit Inc. | Embedding performance optimization through use of a summary model |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02254566A (ja) * | 1989-03-29 | 1990-10-15 | Nippon Telegr & Teleph Corp <Ntt> | 自動抄録生成装置 |
JPH06215049A (ja) * | 1993-01-20 | 1994-08-05 | Sharp Corp | 文書要約装置 |
JPH09319768A (ja) * | 1996-05-29 | 1997-12-12 | Oki Electric Ind Co Ltd | 要点抽出方法 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5317507A (en) | 1990-11-07 | 1994-05-31 | Gallant Stephen I | Method for document retrieval and for word sense disambiguation using neural networks |
US5918240A (en) * | 1995-06-28 | 1999-06-29 | Xerox Corporation | Automatic method of extracting summarization using feature probabilities |
US5864855A (en) | 1996-02-26 | 1999-01-26 | The United States Of America As Represented By The Secretary Of The Army | Parallel document clustering process |
US6359633B1 (en) * | 1999-01-15 | 2002-03-19 | Yahoo! Inc. | Apparatus and method for abstracting markup language documents |
JP4732593B2 (ja) * | 1999-05-05 | 2011-07-27 | ウエスト パブリッシング カンパニー | ドキュメント分類システム、ドキュメント分類方法およびドキュメント分類ソフトウェア |
JP4320491B2 (ja) * | 1999-11-18 | 2009-08-26 | ソニー株式会社 | 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体 |
US7137065B1 (en) * | 2000-02-24 | 2006-11-14 | International Business Machines Corporation | System and method for classifying electronically posted documents |
US6606644B1 (en) | 2000-02-24 | 2003-08-12 | International Business Machines Corporation | System and technique for dynamic information gathering and targeted advertising in a web based model using a live information selection and analysis tool |
US6775677B1 (en) * | 2000-03-02 | 2004-08-10 | International Business Machines Corporation | System, method, and program product for identifying and describing topics in a collection of electronic documents |
US7130848B2 (en) * | 2000-08-09 | 2006-10-31 | Gary Martin Oosta | Methods for document indexing and analysis |
US7607083B2 (en) * | 2000-12-12 | 2009-10-20 | Nec Corporation | Test summarization using relevance measures and latent semantic analysis |
US20020087326A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented web page summarization method and system |
US20020169770A1 (en) * | 2001-04-27 | 2002-11-14 | Kim Brian Seong-Gon | Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents |
US6609124B2 (en) | 2001-08-13 | 2003-08-19 | International Business Machines Corporation | Hub for strategic intelligence |
US20040205457A1 (en) * | 2001-10-31 | 2004-10-14 | International Business Machines Corporation | Automatically summarising topics in a collection of electronic documents |
US20030221163A1 (en) * | 2002-02-22 | 2003-11-27 | Nec Laboratories America, Inc. | Using web structure for classifying and describing web pages |
US6910037B2 (en) * | 2002-03-07 | 2005-06-21 | Koninklijke Philips Electronics N.V. | Method and apparatus for providing search results in response to an information search request |
US7130837B2 (en) * | 2002-03-22 | 2006-10-31 | Xerox Corporation | Systems and methods for determining the topic structure of a portion of text |
US7065707B2 (en) * | 2002-06-24 | 2006-06-20 | Microsoft Corporation | Segmenting and indexing web pages using function-based object models |
US7292972B2 (en) * | 2003-01-30 | 2007-11-06 | Hewlett-Packard Development Company, L.P. | System and method for combining text summarizations |
US7392474B2 (en) | 2004-04-30 | 2008-06-24 | Microsoft Corporation | Method and system for classifying display pages using summaries |
-
2004
- 2004-04-30 US US10/836,319 patent/US7392474B2/en not_active Expired - Fee Related
-
2005
- 2005-04-27 AU AU2005201766A patent/AU2005201766A1/en not_active Abandoned
- 2005-04-28 BR BR0502155-3A patent/BRPI0502155A/pt not_active IP Right Cessation
- 2005-04-29 CA CA2505957A patent/CA2505957C/en not_active Expired - Fee Related
- 2005-04-29 EP EP05103580A patent/EP1591924B1/en not_active Not-in-force
- 2005-04-29 MX MXPA05004682A patent/MXPA05004682A/es not_active Application Discontinuation
- 2005-04-29 RU RU2005113190/09A patent/RU2377645C2/ru not_active IP Right Cessation
- 2005-04-29 DE DE602005021581T patent/DE602005021581D1/de active Active
- 2005-04-29 AT AT05103580T patent/ATE470192T1/de not_active IP Right Cessation
- 2005-04-29 KR KR1020050036077A patent/KR101203345B1/ko active IP Right Grant
- 2005-04-30 CN CN2005100896481A patent/CN1758245B/zh not_active Expired - Fee Related
- 2005-05-02 JP JP2005134491A patent/JP2005322245A/ja active Pending
-
2008
- 2008-06-24 US US12/145,222 patent/US20090119284A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02254566A (ja) * | 1989-03-29 | 1990-10-15 | Nippon Telegr & Teleph Corp <Ntt> | 自動抄録生成装置 |
JPH06215049A (ja) * | 1993-01-20 | 1994-08-05 | Sharp Corp | 文書要約装置 |
JPH09319768A (ja) * | 1996-05-29 | 1997-12-12 | Oki Electric Ind Co Ltd | 要点抽出方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012089014A (ja) * | 2010-10-21 | 2012-05-10 | Nippon Telegr & Teleph Corp <Ntt> | 購買行動分析装置、購買行動分析方法及び購買行動分析プログラム |
JP2014056516A (ja) * | 2012-09-13 | 2014-03-27 | Canon Marketing Japan Inc | 文書集合からの知識構造の抽出装置、方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
MXPA05004682A (es) | 2005-11-17 |
US20050246410A1 (en) | 2005-11-03 |
KR20060047636A (ko) | 2006-05-18 |
CA2505957C (en) | 2014-10-21 |
AU2005201766A1 (en) | 2005-11-17 |
ATE470192T1 (de) | 2010-06-15 |
DE602005021581D1 (de) | 2010-07-15 |
CN1758245A (zh) | 2006-04-12 |
BRPI0502155A (pt) | 2006-01-10 |
KR101203345B1 (ko) | 2012-11-20 |
EP1591924B1 (en) | 2010-06-02 |
US7392474B2 (en) | 2008-06-24 |
CA2505957A1 (en) | 2005-10-30 |
EP1591924A1 (en) | 2005-11-02 |
RU2005113190A (ru) | 2006-11-10 |
US20090119284A1 (en) | 2009-05-07 |
CN1758245B (zh) | 2010-09-08 |
RU2377645C2 (ru) | 2009-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2505957C (en) | Method and system for classifying display pages using summaries | |
Zhu et al. | Learning for search result diversification | |
US9256667B2 (en) | Method and system for information discovery and text analysis | |
US8051080B2 (en) | Contextual ranking of keywords using click data | |
Shen et al. | A comparison of implicit and explicit links for web page classification | |
Macdonald et al. | Blog track research at TREC | |
US20070112720A1 (en) | Two stage search | |
Bhattacharya et al. | Unsupervised summarization approach with computational statistics of microblog data | |
US20100306214A1 (en) | Identifying modifiers in web queries over structured data | |
Zhu et al. | Exploiting link structure for web page genre identification | |
Rafeeque et al. | A survey on short text analysis in web | |
Shawon et al. | Website classification using word based multiple n-gram models and random search oriented feature parameters | |
KR100954842B1 (ko) | 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체 | |
Rajiv et al. | Keyword weight optimization using gradient strategies in event focused web crawling | |
Timonen | Term weighting in short documents for document categorization, keyword extraction and query expansion | |
Zhang et al. | A comparative study on key phrase extraction methods in automatic web site summarization | |
Sun et al. | Topic-oriented exploratory search based on an indexing network | |
Irmak et al. | Contextual ranking of keywords using click data | |
Moumtzidou et al. | Discovery of environmental nodes in the web | |
WO2008032037A1 (en) | Method and system for filtering and searching data using word frequencies | |
Dorado | Focused Crawling: algorithm survey and new approaches with a manual analysis | |
Selvadurai | A natural language processing based web mining system for social media analysis | |
Sun et al. | Annotation-aware web clustering based on topic model and random walks | |
Pendharkar et al. | Topic categorization of rss news feeds | |
Bamane et al. | A WEB PAGE CLASSIFICATION SURVEY ON TECHNIQUES USING TEXT MINING |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080501 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080501 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101007 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101015 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110114 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110314 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110517 |