JP2005322245A - 要約を使用して表示ページを分類する方法およびシステム - Google Patents

要約を使用して表示ページを分類する方法およびシステム

Info

Publication number
JP2005322245A
JP2005322245A JP2005134491A JP2005134491A JP2005322245A JP 2005322245 A JP2005322245 A JP 2005322245A JP 2005134491 A JP2005134491 A JP 2005134491A JP 2005134491 A JP2005134491 A JP 2005134491A JP 2005322245 A JP2005322245 A JP 2005322245A
Authority
JP
Japan
Prior art keywords
summarization
sentence
technique
web page
summarization technique
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005134491A
Other languages
English (en)
Other versions
JP2005322245A5 (ja
Inventor
Benyu Zhang
チャン ベンユー
Dou Shen
シェン ドウ
Hua-Jun Zeng
ツェン ホア−ジュン
Wei-Ying Ma
マ ウェイ−イン
Zheng Chen
ツェン チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005322245A publication Critical patent/JP2005322245A/ja
Publication of JP2005322245A5 publication Critical patent/JP2005322245A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】 表示ページの自動生成要約に基づいて表示ページを分類する方法およびシステムを提供する。
【解決手段】 ウェブページ分類システムは、ウェブページ要約システムを使用して、ウェブページの要約を生成する。ウェブページの要約は、そのウェブページの主要な話題に最も密接に関係するウェブページのセンテンスを含む場合がある。要約システムは、複数の要約手法の利点を組み合わせて利用し、ウェブページの主要な話題を表すウェブページのセンテンスを識別する。要約が生成されると、分類システムは、従来の分類手法を要約に適用して、ウェブページを分類する。分類システムでは、単純ベイズ分類器またはサポートベクトルマシンなどの従来の分類手法を使用し、要約システムにより生成された要約に基づいてウェブページの分類を識別する。
【選択図】 図1

Description

ここで説明した技術は、一般に、情報の自動分類に関する。
GoogleおよびOvertureなどの、多くの検索エンジンサービスは、インターネットを介してアクセス可能な情報の検索機能を備えている。これらの検索エンジンサービスを使用することにより、ユーザは、関心のあるウェブページなどの表示ページを検索することができる。ユーザが検索条件を含む検索要求を送信(subimit)した後、検索エンジンサービスは、それらの検索条件に関係する可能性があるウェブページを識別する。関係のあるウェブページを素早く識別するために、検索エンジンサービスでは、ウェブページへのキーワードのマッピングを保持することができる。このマッピングは、ウェブ(つまり、World Wide ウェブ)を「クロール(crawl)」して、それぞれのウェブページのキーワードを識別することにより生成することができる。ウェブをクロールするために、検索エンジンサービスはルートウェブページのリストを使用し、それらのルートウェブページを通じてアクセス可能なすべてのウェブページを識別する。特定のウェブページのキーワードを識別するには、見出しの単語、ウェブページのメタデータ内に用意されている単語、強調表示されている単語など、さまざまなよく知られている情報検索手法を使用する。検索エンジンサービスは、ウェブページの情報が検索要求にどれだけ関連しているかをそれぞれの一致の近さ、ウェブページの人気度(例えば、ウェブページのGoogleのPageRank)などに基づいて示す関連性スコアを生成することができる。その後、検索エンジンは、その順位に基づく順序でそれらのウェブページへのリンクをユーザに対し表示する。
H.P. Luhn, The Automatic Creation of Literature Abstracts, 2 IBM J. OF RES. & DEV. No. 2, 159-65 (April 1958) Y.H. Gong & X. Liu, Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis, in PROC. OF THE 24TH ANNUAL INTERNATIONAL ACM SIGIR, New Orleans, Louisiana, 19-25 (2001) J.L. Chen, et al., Function-based Object Model Towards ウェブsite Adaptation, PROC. OF WWW1O, Hong Kong, China (2001) A. McCallum & K Nigam, A Comparison of Event Models for Naive Bayes Text Classification, in AAAI-98 WORKSHOP ON LEARNING FOR TEXT CATEGORIZATION (1998) Sequential Minimal Optimization (http://research.micro-soft.com/〜jplatt/smo.html)
しかしながら、検索エンジンサービスは検索結果として多数のウェブページを返すが、順位でウェブページを提示するため、ユーザが特に関心を持つウェブページを実際に見つけることはユーザにとっては難しい場合がある。最初に提示されるウェブページは人気のある話題を対象としている場合があるため、漠然とした話題に関心があるユーザは、関心のあるウェブページを見つけるために何ページもの検索結果をスキャンしなければならないことがある。ユーザが関心のあるウェブページを簡単に見つけられるようにするために、ウェブページの何らかの分類またはカテゴリ化に基づいて、検索結果のウェブページを階層構成で提示することも可能である。例えば、ユーザが「court battles」の検索要求を送信した場合、検索結果に、スポーツ関連または法律関連として分類されうるウェブページが含まれることがある。ユーザは、関心のあるウェブページの分類を選択できるようにウェブページの分類のリストが最初に提示されることを好む場合がある。例えば、ユーザは、まず、検索結果のウェブページがスポーツ関連および法律関連として分類されているという指示が提示されるであろう。その後、ユーザは、法律関連のウェブページを閲覧するために法律関連分類を選択することができる。それとは対照的に、スポーツウェブページは法律ウェブページよりも人気度が高いため、ユーザは、人気の最も高いウェブページが最初に提示された場合、法律関連ウェブページを見つけるために何ページもスキャンしなければならないこともある。
現在利用できる数百万ものウェブページを、手作業で分類することは非現実的であろう。テキストベースのコンテンツを分類するために自動分類手法が使用されてきたが、一般的に、これらの手法はウェブページの分類に適用することはできない。ウェブページは、ウェブページの主要な話題に直接は関連していない広告またはナビゲーションバーなどの、ノイズの多いコンテンツを含む編成をとることができる。従来のテキストベースの分類手法では、ウェブページを分類するときにそのようなノイズの多いコンテンツを使用するため、それらの手法は、ウェブページの間違った分類を行う傾向がある。ウェブページの主要な話題にウェブページの分類に基づき、ウェブページのノイズの多いコンテンツに少しだけ重みを付ける、ウェブページの分類手法を実現することが望ましいであろう。
分類および要約システムは、表示ページの自動生成要約に基づいてウェブページなどの表示ページを分類する。一実施形態では、ウェブページ分類システムは、ウェブページ要約システムを使用して、ウェブページの要約を生成する。ウェブページの要約は、そのウェブページの主要な話題に最も密接に関係するウェブページのセンテンスを含む場合がある。要約システムは、複数の要約手法の利点を組み合わせて利用することにより、ウェブページの主要な話題を表すウェブページのセンテンスを識別することができる。要約が生成されると、分類システムは、従来の分類手法を要約に適用して、ウェブページを分類することができる。
表示ページの自動生成要約に基づいて表示ページを分類する方法およびシステムを提供する。一実施形態では、ウェブページ分類システムは、ウェブページ要約システムを使用して、ウェブページの要約を生成する。ウェブページの要約は、そのウェブページの主要な話題に最も密接に関係するウェブページのセンテンスを含む場合がある。要約が生成されると、分類システムは、従来の分類手法を要約に適用して、ウェブページを分類することができる。要約システムは、複数の要約手法の利点を組み合わせて利用することにより、ウェブページの主要な話題を表すウェブページのセンテンスを識別することができる。一実施形態では、要約システムは、Luhn要約手法、潜在的意味分析要約手法、コンテンツ本文要約手法(content body summarization technique)、および監視要約手法(supervised summarization technique)を個別にまたは組み合わせて使用して、要約を生成する。要約システムでは、要約手法のそれぞれを使用して、要約手法特有のスコアをウェブページのセンテンス毎に生成する。その後、要約システムは、センテンスに対して要約手法特有のスコアを組み合わせて、そのセンテンスに対する総スコアを生成する。要約システムは、最高の総スコアを持つウェブページのいくつかのセンテンスを選択して、ウェブページの要約を形成する。分類システムでは、単純ベイズ分類器またはサポートベクトルマシンなどの従来の分類手法を使用し、要約システムにより生成された要約に基づいてウェブページの分類を識別することができる。このようにして、ウェブページは、ウェブページの自動生成要約に基づいて、自動的に分類されるようにできる。
一実施形態では、要約システムは、Luhn要約手法の修正版を使用して、ウェブページのそれぞれのセンテンスに対するLuhnスコアを生成する。Luhn要約手法では、センテンス内にある「重要単語」に基づいてセンテンスに対しスコアを生成する。センテンスに対するスコアを生成するため、Luhn要約手法では、特定の個数以下の非重要単語分だけ隔たっている複数の重要単語で囲まれたセンテンスの一部を識別する。Luhn要約手法においては、囲まれている部分に含まれる重要単語の個数の二乗を、囲まれている部分内の単語の個数で割った比として、センテンスのスコアを計算する(例えば、非特許文献1を参照)。要約システムは、それぞれの分類について重要単語の集合(collection)を定義することにより、Luhn要約手法を修正する。例えば、スポーツ関係分類は、「court」、「basketball」、および「sport」を含む重要単語の集合を持つことができるが、法律関係分類は、「court」、「attorney」、および「criminal」を含む重要単語の集合を持つことができる。要約システムは、事前に分類されているウェブページの学習集合に基づいて、重要単語の集合を識別することができる。要約システムは、ある分類が設定されたウェブページ上の最も頻繁に使用される単語を、その分類に対する重要単語の集合として選択することができる。要約システムは、ノイズの多いコンテンツを表すことができる集合から、いくつかの停止語を削除することもできる。修正されたLuhn要約手法では、ウェブページのセンテンスのスコアを付ける際に、それぞれの分類に対してスコアを1つ計算する。その後、要約手法においては、それぞれの分類についてしきい値レベルを超えるスコアの平均をとり、そのセンテンスに対する組み合わせたLuhnスコアを出す。要約システムでは、Luhnスコアが最高のセンテンスを選択して、要約を形成することができる。
一実施形態では、要約システムは、潜在的意味分析要約手法を使用して、ウェブページのそれぞれのセンテンスに対する潜在的意味分析スコアを生成する。潜在的意味分析要約手法では、特異値分解を使用して、それぞれのセンテンスに対するスコアを生成する。要約システムは、各単語−センテンスの組み合わせに対する重み付き項−頻度値を含むウェブページの単語−センテンス行列を生成する。行列は、以下の式で表すことができる。
A=UΣV (1)
ただし、Aは、単語−センテンス行列を表し、Uは、列が左特異ベクトルである列直交行列であり、Σは、対角要素が降順で並べ替えられた非負特異値である対角行列であり、Vは、列が右特異ベクトルである直交行列である。行列をU、Σ、およびVに分解した後、要約システムは、右特異ベクトルを使用して、センテンスのスコアを生成する。(例えば、非特許文献2を参照。)要約システムでは、第1の右特異ベクトルを選択し、そのベクトル内の最高のインデックス値をとるセンテンスを選択することができる。その後、要約システムは、そのセンテンスに最高のスコアを付ける。続いて、要約システムでは、第2の右特異ベクトルを選択し、そのベクトル内の最高のインデックス値をとるセンテンスに第2の最高のスコアを付ける。続いて、要約システムは、類似の方法で続行し、他のセンテンスに対するスコアを生成する。要約システムでは、スコアが最高のセンテンスを選択して、ウェブページの要約を形成することができる。
一実施形態では、要約システムは、コンテンツ本文要約手法を使用して、ウェブページのそれぞれのセンテンスに対するコンテンツ本文スコアを生成する。コンテンツ本文要約手法では、ウェブページのコンテンツ本文(content body)を識別し、高いスコアをコンテンツ本文内のセンテンスに付ける。ウェブページのコンテンツ本文を識別するため、コンテンツ本文要約手法で、ウェブページの基本オブジェクトおよび複合オブジェクトを識別する。基本オブジェクトは、それ以上分割できない最小の情報領域である。例えば、HTMLでは、基本オブジェクトは、2つのタグまたは埋め込みオブジェクト内の改行できない要素である。複合オブジェクトは、組み合わせで機能を実行する基本オブジェクトまたはその他の複合オブジェクトの集合である。オブジェクトを識別した後、要約システムは、それらのオブジェクトを情報、ナビゲーション、対話、装飾、または特殊機能などのカテゴリに分類する。情報カテゴリはコンテンツ情報を示すオブジェクト用であり、ナビゲーションカテゴリはナビゲーションガイドを示すオブジェクト用であり、対話カテゴリはユーザの対話を示すオブジェクト用であり(例えば、入力フィールド)、装飾カテゴリは装飾を示すオブジェクト用であり、特種機能カテゴリは法律情報、連絡先情報、ロゴ情報などの情報を示すオブジェクト用である。(例えば、非特許文献3を参照。)一実施形態では、要約システムは、それぞれのオブジェクトに対する反転されたドキュメント出現頻度インデックス(つまり、TF*IDF)により項の出現頻度を作成する。その後、要約システムは、コサイン類似度などの類似度計算を使用してオブジェクトのペアの類似度を計算する。ペアのオブジェクトの間の類似度がしきい値レベルよりも大きい場合、要約システムは、ペアのオブジェクトをリンクする。その後、要約システムは、それへの最も多くのリンクを持つオブジェクトを、ウェブページの主要な話題を表すコアオブジェクトとして識別する。ウェブページのコンテンツ本文は、コアオブジェクトとこれに伴うコアオブジェクトへのリンクを持つそれぞれのオブジェクトである。要約システムは、高スコアをコンテンツ本文のそれぞれのセンテンスに付け、低スコアをウェブページの他のすべてのセンテンスに付ける。要約システムでは、高いスコアのセンテンスを選択して、ウェブページの要約を形成することができる。
一実施形態では、要約システムは、監視要約手法(supervised summarization technique)を使用して、ウェブページのそれぞれのセンテンスに対する監視スコアを生成する。監視要約手法では、学習データを使用して、センテンスを要約の一部として選択すべきかどうかを識別する要約機能を学習する。監視要約手法では、特徴ベクトルによりそれぞれのセンテンスを表す。一実施形態では、監視要約手法は、fijはセンテンスjのi番目の特徴の値を表す、表1で定義されている特徴を使用する。
Figure 2005322245
要約システムでは、単純ベイズ分類器を使用して、要約機能を学習することができる。要約機能は、以下の式で表すことができる。
Figure 2005322245
ただし、p(s∈S)は要約器の圧縮率を表し(異なるアプリケーションに対し事前に定義することができる)、p(f)は各特徴jの確率であり、p(f|s∈S)は各特徴jの条件付き確率である。後者の2つの係数は学習集合から推定することができる。
一実施形態では、要約システムは、Luhn要約手法、潜在的意味分析要約手法、コンテンツ本文要約手法、および監視要約手法のスコアを組み合わせて、総スコアを生成する。これらのスコアは、以下のように組み合わせることができる。
S=Sluhn+Slsa+Scb+Ssup (3)
ただし、Sは組み合わせたスコアを表し、SluhnはLuhnスコアを表し、Slsaは潜在的意味分析スコアを表し、Scbはコンテンツ本文スコアを表し、Ssupは監視スコアを表す。もうひとつの方法として、要約システムは、すべての要約手法スコアが等しく重み付けされないように、重み係数をそれぞれの要約手法スコアに適用することができる。例えば、Luhnスコアがウェブページの主要な話題に対するセンテンスの関連度のより正確な反映であると考えられる場合、Luhnスコアに対する重み係数は.7とし、他のスコアに対する重み係数は.1とすることができる。要約手法の重み係数が0に設定されている場合、要約システムは、その要約手法を使用しない。当業者であれば、その重みを0に設定する要約手法はいくつもあることを理解するであろう。例えば、Luhnスコアには1、他のスコアには0の重み係数を使用する場合、「組み合わせた」スコアは、単にLuhnスコアになるであろう。さらに、要約システムは、要約手法スコアのそれぞれを正規化することができる。要約システムは、さらに、要約手法スコアの非線形結合を使用することもできる。要約システムでは、最高の組み合わせスコアのセンテンスを選択して、ウェブページの要約を形成することができる。
一実施形態では、分類システムは、単純ベイズ分類器を使用し、その要約に基づいてウェブページを分類する。単純ベイズ分類器は、ベイズのルールを使用するが、これは以下のように定義できる。
Figure 2005322245
ただし、
Figure 2005322245
は、学習データ内に出現するカテゴリc毎に頻度をカウントすることにより計算することができ、|C|は、カテゴリの個数であり、p(w|c)は、単語wがクラスc内に出現する確率であり、N(w,d)は、di内の単語wの出現回数であり、nは、学習データ内の単語の個数である。(例えば、非特許文献4を参照。)wは学習データ内では小さい場合があるので、ラプラススムージング(Laplace smoothing)を使用してその値を推定することができる。
他の実施形態では、分類システムは、サポートベクトルマシンを使用し、その要約に基づいてウェブページを分類する。サポートベクトルマシンは、可能な入力の空間内に超曲面を見つけるという方式で動作する。超曲面では、正例と負例のうちの最も近いものと超曲面との間の距離が最大になるようにして負例から正例を分割しようとする。これにより、学習データに類似しているが同一ではないデータを、正しく分類することができる。サポートベクトルマシンの学習にはさまざまな手法を使用することができる。一手法では、大きな二次計画問題を解析的に解くことができる一連の小さな二次計画問題に分けるSequential Minimal Optimizationアルゴリズムを使用する。(例えば、非特許文献5を参照。)
図1は、一実施形態における分類システムおよび要約システムのコンポーネントを例示するブロック図である。分類システム110は、ウェブページ分類コンポーネント111および分類器コンポーネント112を備える。要約システム120は、ウェブページ要約コンポーネント121、センテンス並べ替えコンポーネント122、スコア計算コンポーネント123、および上位センテンス選択コンポーネント124を備える。ウェブページ分類コンポーネント111は、ウェブページ要約コンポーネント121を使用して、ウェブページの要約を生成し、その後、分類器コンポーネント112を使用し要約に基づいてウェブページを分類する。ウェブページ要約コンポーネント121は、スコア計算コンポーネント123を使用して、ウェブページのそれぞれのセンテンスに対するスコアを計算する。ウェブページ要約コンポーネント121は、その後、センテンス並べ替えコンポーネント122を使用して、そのスコアに基づきウェブページのセンテンスを並べ替え、上位センテンス選択コンポーネント124を使用して、スコアが最高のセンテンスを選択し、ウェブページの要約を形成する。スコア計算コンポーネント123は、Luhnスコア計算コンポーネント125、潜在的意味分析スコア計算コンポーネント126、コンテンツ本文スコア計算コンポーネント127、および監視スコア計算コンポーネント128を使用して、さまざまな要約手法に対するスコアを生成する。その後、スコア計算コンポーネントは、それらの要約手法に対するスコアを組み合わせて、各センテンスの総スコアを与える。
要約システムが実装されるコンピューティングデバイスは、中央演算処理装置、メモリ、入力デバイス(例えば、キーボードおよびポインティングデバイス)、出力デバイス(例えば、ディスプレイデバイス)、および記憶デバイス(例えば、ディスクドライブ)を含むことができる。メモリおよび記憶デバイスは、要約システムを実装する命令を格納することができるコンピュータ読取り可能媒体である。さらに、通信リンク以上の信号など、データ伝送媒体を介して、データ構造およびメッセージ構造を格納または送信することができる。インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、またはポイントツーポイントダイアルアップ接続などのさまざまな通信リンクを使用できる。
要約システムは、さまざまな動作環境に実装することができる。本明細書で説明されている動作環境は、好適な動作環境の一例にすぎず、要約システムの用途または機能性の範囲に関する制限を示唆する意図はない。使用するのに好適と思われるよく知られている他のコンピューティングシステム、環境、および構成としては、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、プログラム可能な家電製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記システムまたはデバイスを含む分散コンピューティング環境などがある。
要約システムは、1つまたは複数のコンピュータまたはその他のデバイスにより実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的状況において説明することができる。一般に、プログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。通常、プログラムモジュールの機能は、さまざまな実施形態で望まれているように組み合わせるか、または分散させることができる。
図2は、一実施形態のウェブページ分類コンポーネントの処理を例示する流れ図である。ウェブページ分類コンポーネント111は、ウェブページを渡され、その分類を返す。ブロック201で、ウェブページ分類コンポーネント111は、ウェブページ要約コンポーネント121を呼び出して、ウェブページの要約を生成する。ブロック202で、コンポーネントは、単純ベイズ分類器またはサポートベクトルマシンなどの分類器を使用してウェブページの要約に基づきウェブページを分類する。その後、コンポーネントは完了する。
図3は、一実施形態のウェブページ要約コンポーネントの処理を例示する流れ図である。ウェブページ要約コンポーネント121は、ウェブページを渡され、ウェブページの各センテンスに対するスコアを計算し、スコアが最高のセンテンスを選択して、ウェブページの要約を形成する。ブロック301で、ウェブページ要約コンポーネント121は、スコア計算コンポーネント123を呼び出し、各センテンスに対するスコアを計算する。ブロック302で、このコンポーネントは、計算されたスコアに基づいてセンテンスを並べ替える。ブロック303で、コンポーネントは、最高スコアのセンテンスを選択して、ウェブページの要約を形成する。その後、コンポーネントは要約を返す。
図4は、一実施形態のスコア計算コンポーネントの処理を例示する流れ図である。コンポーネントは、ウェブページを受け渡され、ウェブページのセンテンスに対してさまざまな要約手法のスコアを計算し、それらの要約手法のスコアに基づいてそれぞれのセンテンスに対する組み合わせたスコアを計算する。コンポーネントは、代替えとして、ただ1つの要約手法または複数の要約手法のさまざまな組み合わせを使用してスコアを計算することができる。ブロック401で、コンポーネントは、Luhnスコア計算コンポーネント125を呼び出し、ウェブページの各センテンスに対するLuhnスコアを計算する。ブロック402で、コンポーネントは、潜在的意味分析スコア計算コンポーネント126を呼び出し、ウェブページの各センテンスに対する潜在的意味分析スコアを計算する。ブロック403で、コンポーネントは、コンテンツ本文スコア計算コンポーネント127を呼び出し、ウェブページの各センテンスに対するコンテンツ本文スコアを計算する。ブロック404で、コンポーネントは、監視スコア計算コンポーネント128を呼び出し、ウェブページの各センテンスに対する監視スコアを計算する。ブロック405で、コンポーネントは、スコア組み合わせコンポーネントを呼び出し、ウェブページの各センテンスに対する組み合わせスコアを計算する。その後、コンポーネントは組み合わせスコアを返す。
図5は、一実施形態のLuhnスコア計算コンポーネントの処理を例示する流れ図である。このコンポーネントは、ウェブページを渡され、渡されたウェブページの各センテンスに対するLuhnスコアを計算する。ブロック501で、コンポーネントはウェブページの次のセンテンスを選択する。決定ブロック502で、ウェブページのすべてのセンテンスがすでに選択されていれば、このコンポーネントはLuhnスコアを返し、そうでなければ、コンポーネントはブロック503に進む。ブロック503〜509で、コンポーネントは、ループして、分類毎に選択されたセンテンスのクラススコアを生成する。ブロック503で、コンポーネントは次の分類を選択する。決定ブロック504で、すべての分類がすでに選択されていれば、コンポーネントはブロック510に進み、そうでなければ、コンポーネントはブロック505に進む。ブロック505で、コンポーネントは、選択された分類の重要単語により囲まれている選択されたセンテンスの複数の単語を識別する。決定ブロック506で、囲まれている単語が識別されれば、コンポーネントはブロック507に進み、そうでなければ、コンポーネントはループしてブロック503に進み、次の分類を選択する。ブロック507で、コンポーネントは、選択されたセンテンスの囲まれた部分内の重要単語をカウントする。ブロック508で、コンポーネントは、選択されたセンテンスの囲まれた部分内の単語をカウントする。ブロック509で、コンポーネントは、分類に対するスコアを重要単語のカウントの二乗を単語のカウント数で割った値として計算する。その後、コンポーネントはループして、ブロック503に進み、次の分類を選択する。ブロック510で、コンポーネントは、選択されたセンテンスのLuhnスコアをクラススコアの総和を選択されたセンテンスの囲まれた部分が識別された分類の個数で割った値として計算する(つまり、計算されたクラススコアの平均)。その後、コンポーネントはループして、ブロック501に進み、次のセンテンスを選択する。
図6は、一実施形態の潜在的意味分析スコア計算コンポーネントの処理を例示する流れ図である。このコンポーネントは、ウェブページを渡され、渡されたウェブページの各センテンスに対する潜在的意味分析スコアを計算する。ブロック601〜603で、コンポーネントは、ループして、ウェブページの各センテンスに対する項×重みベクトルを構成する。ブロック601で、コンポーネントはウェブページの次のセンテンスを選択する。決定ブロック602で、ウェブページのすべてのセンテンスがすでに選択されていれば、コンポーネントはブロック604に進み、そうでなければ、コンポーネントはブロック603に進む。ブロック603で、コンポーネントは、選択されたセンテンスに対する項×重みベクトルを構成し、その後、ループしてブロック601に進み、次のセンテンスを選択する。センテンスに対する項×重みベクトルは、右特異ベクトルの行列を与えるように分解される行列を形成する。ブロック604で、コンポーネントは、その行列の特異値分解を実行し、右特異ベクトルを生成する。ブロック605〜607で、コンポーネントは、ループして、右特異ベクトルに基づき各センテンスに対するスコアを設定する。ブロック605で、コンポーネントは次の右特異ベクトルを選択する。決定ブロック606で、すべての右特異ベクトルがすでに選択されていれば、このコンポーネントは潜在的意味分析スコアとしてそれらのスコアを返し、そうでなければ、コンポーネントはブロック607に進む。ブロック607で、コンポーネントは、選択された右特異ベクトルのインデックス値が最高のセンテンスのスコアを設定し、その後、ループしてブロック605に進み、次の右特異ベクトルを選択する。
図7は、一実施形態のコンテンツ本文スコア計算コンポーネントの処理を例示する流れ図である。このコンポーネントは、ウェブページを渡され、渡されたウェブページの各センテンスに対するコンテンツ本文スコアを計算する。ブロック701で、コンポーネントはウェブページの基本オブジェクトを識別する。ブロック702で、コンポーネントはウェブページの複合オブジェクトを識別する。ブロック703〜705で、コンポーネントは、ループして、オブジェクト毎に項出現頻度/反転ドキュメント出現頻度ベクトルを生成する。ブロック703で、コンポーネントは次のオブジェクトを選択する。決定ブロック704で、すべてのオブジェクトがすでに選択されていれば、コンポーネントはブロック706に進み、そうでなければ、コンポーネントはブロック705に進む。ブロック705で、コンポーネントは、選択されたオブジェクトに対する項出現頻度/反転ドキュメント出現頻度ベクトルを生成し、その後、ループしてブロック703に進み、次のオブジェクトを選択する。ブロック706〜710で、コンポーネントはループして、オブジェクトのペアの間の類似度を計算する。ブロック706で、コンポーネントは次のオブジェクトのペアを選択する。決定ブロック707で、オブジェクトのすべてのペアがすでに選択されていれば、コンポーネントはブロック711に進み、そうでなければ、コンポーネントはブロック708に進む。ブロック708で、コンポーネントはオブジェクトの選択されたペアの間の類似度を計算する。決定ブロック709で、類似度が類似度のしきい値レベルよりも高ければ、コンポーネントはブロック710に進み、そうでなければ、コンポーネントはブロック706にループし、オブジェクトの次のペアを選択する。ブロック710で、コンポーネントは、オブジェクトの選択されたペア間のリンクを追加し、その後、ループしてブロック706に進み、オブジェクトの次のペアを選択する。ブロック711〜715で、コンポーネントは、1つのコアオブジェクトとそのコアオブジェクトへのリンクを持つすべてのオブジェクトを識別することによりウェブページのコンテンツ本文を識別する。ブロック711で、コンポーネントは、そのコアオブジェクトを、それへのリンクの個数が最大のオブジェクトとして識別する。ブロック712で、コンポーネントはウェブページの次のセンテンスを選択する。決定ブロック713で、すべてのセンテンスがすでに選択されていれば、このコンポーネントはコンテンツ本文スコアを返し、そうでなければ、コンポーネントはブロック714に進む。決定ブロック714で、センテンスがコアオブジェクトにリンクされているオブジェクト内にあれば、そのセンテンスはコンテンツ本文内にあり、コンポーネントは715に進み、そうでなければ、コンポーネントは、選択されたセンテンスのスコアを0に設定し、ブロック712にループして次のセンテンスを選択する。ブロック715で、コンポーネントは、選択されたセンテンスのスコアを高スコアに設定し、その後、ブロック712にループし、次のセンテンスを選択する。
図8は、一実施形態の監視スコア計算コンポーネントの処理を例示する流れ図である。このコンポーネントは、ウェブページを渡され、そのウェブページの各センテンスに対する監視スコアを計算する。ブロック801で、コンポーネントはウェブページの次のセンテンスを選択する。決定ブロック802で、ウェブページのすべてのセンテンスがすでに選択されていれば、このコンポーネントは監視スコアを返し、そうでなければ、コンポーネントはブロック803に進む。ブロック803で、コンポーネントは選択されたセンテンスに対する特徴ベクトルを生成する。ブロック804で、コンポーネントは、生成された特徴ベクトルおよび学習された要約機能を使用して選択されたセンテンスに対するスコアを計算する。その後、コンポーネントは、ブロック801にループし、次のセンテンスを選択する。
図9は、一実施形態の組み合わせ計算コンポーネントの処理を例示する流れ図である。コンポーネントは、Luhnスコアに基づくウェブページの各センテンスに対する組み合わせスコア、潜在的意味分析スコア、コンテンツ本文スコア、および監視スコアを生成する。ブロック901で、コンポーネントはウェブページの次のセンテンスを選択する。決定ブロック902で、すべてのセンテンスがすでに選択されていれば、このコンポーネントは組み合わせスコアを返し、そうでなければ、コンポーネントはブロック903に進む。ブロック903で、コンポーネントは、選択されたセンテンスに対するスコアを組み合わせ、その後、ブロック901にループし、次のセンテンスを選択する。
本明細書では例示を目的として要約システムの特定の実施形態が説明されているが、当業者であれば、本発明の精神および範囲を逸脱することなくさまざまな修正を加えられることを理解するであろう。当業者であれば、分類とは、表示ページに関連付けられたクラスまたはカテゴリを識別するプロセスを指すことを理解するであろう。これらのクラスは事前に定義することができる。分類される表示ページの属性は、分類された他の表示ページから派生した属性と比較することができる(例えば、学習集合)。表示ページは、この比較に基づいて、表示ページ属性が分類される表示ページの属性に類似しているクラスに分類される。それとは対照的に、クラスタ化は、互いに類似している表示ページの表示ページグループの集合から識別するプロセスを意味する。したがって、付属の請求項以外によって、本発明が限定されることはない。
一実施形態における分類システムおよび要約システムのコンポーネントを例示するブロック図である。 一実施形態のウェブページ分類コンポーネントの処理を例示する流れ図である。 一実施形態のウェブページ要約コンポーネントの処理を例示する流れ図である。 一実施形態のスコア計算コンポーネントの処理を例示する流れ図である。 一実施形態のLuhnスコア計算コンポーネントの処理を例示する流れ図である。 一実施形態の潜在的意味分析スコア計算コンポーネントの処理を例示する流れ図である。 一実施形態のコンテンツ本文スコア計算コンポーネントの処理を例示する流れ図である。 一実施形態の監視スコア計算コンポーネントの処理を例示する流れ図である。 一実施形態の組み合わせスコアコンポーネントの処理を例示する流れ図である。
符号の説明
110 分類システム
120 要約システム

Claims (42)

  1. コンピュータシステムにおけるウェブページを分類する方法であって、
    ウェブページを取り出すステップと、
    前記取り出されたウェブページの要約を自動的に生成するステップと、
    前記自動的に生成された要約に基づいて前記取り出されたウェブページの分類を決定するステップと、
    を備えることを特徴とする方法。
  2. 前記要約を自動生成する前記ステップは、複数の要約手法を使用して前記ウェブページのそれぞれのセンテンスに対するスコアを計算するステップを含むことを特徴とする請求項1に記載の方法。
  3. それぞれのセンテンスに対する前記スコアは、前記複数の要約手法の前記スコアの一次結合であることを特徴とする請求項2に記載の方法。
  4. 前記最高スコアを持つ前記センテンスは、前記要約を形成するように選択されることを特徴とする請求項1に記載の方法。
  5. 前記要約手法は、Luhn要約手法、潜在的意味分析要約手法、コンテンツ本文要約手法、および監視要約手法を含むことを特徴とする請求項2に記載の方法。
  6. 前記要約手法は、Luhn要約手法、潜在的意味分析要約手法、コンテンツ本文要約手法、および監視要約手法からなる要約手法の集合の2つ以上を含むことを特徴とする請求項2に記載の方法。
  7. 前記分類を決定する前記ステップは、単純ベイズ分類器を使用することを特徴とする請求項1に記載の方法。
  8. 前記分類を決定する前記ステップは、サポートベクトルマシンを使用することを特徴とする請求項1に記載の方法。
  9. 要約を自動的に生成する前記ステップは、Luhn要約手法を使用することを特徴とする請求項1に記載の方法。
  10. 要約を自動的に生成する前記ステップは、潜在的意味分析要約手法を使用することを特徴とする請求項1に記載の方法。
  11. 要約を自動的に生成する前記ステップは、コンテンツ本文要約手法を使用することを特徴とする請求項1に記載の方法。
  12. 要約を自動的に生成する前記ステップは、監視要約手法を使用することを特徴とする請求項1に記載の方法。
  13. コンピュータシステムにおけるウェブページを要約する方法であって、
    前記ウェブページを取り出すステップと、
    前記取り出されたウェブページのセンテンス毎に、複数の要約手法のそれぞれについて前記センテンスにスコアを1つ割り当てるステップと、
    前記センテンスに対する組み合わせスコアを生成するために、前記センテンスに割り当てられた前記スコアを組み合わせるステップと、
    前記取り出されたウェブページの要約を形成するために、前記最高の組み合わせスコアの前記センテンスを選択するステップと、
    を備えることを特徴とする方法。
  14. それぞれのセンテンスに対する前記組み合わせられたスコアは、前記割り当てられたスコアの一次結合であることを特徴とする請求項13に記載の方法。
  15. 前記複数の要約手法の前記割り当てられたスコアは、組み合わせの際に異なる重み付けがされることを特徴とする請求項14に記載の方法。
  16. 前記要約手法は、Luhn要約手法、潜在的意味分析要約手法、コンテンツ本文要約手法、および監視要約手法を含むことを特徴とする請求項13に記載の方法。
  17. 前記要約手法は、Luhn要約手法、潜在的意味分析要約手法、コンテンツ本文要約手法、および監視要約手法からなる要約手法の集合の2つ以上を含むことを特徴とする請求項13に記載の方法。
  18. 要約手法は、分類が重要単語の集合を有するLuhn要約手法であることを特徴とする請求項13に記載の方法。
  19. ノイズの多い単語は、集合から破棄されることを特徴とする請求項18に記載の方法。
  20. 要約手法は、センテンスが前記ウェブページの前記センテンスとメタデータとの間の類似度に基づく特徴を含む特徴の集合により表される監視要約手法であることを特徴とする請求項13に記載の方法。
  21. 要約手法は、センテンスが前記ウェブページ内で強調表示されている前記センテンスの単語に基づく特徴を含む特徴の集合により表される監視要約手法であることを特徴とする請求項13に記載の方法。
  22. 要約手法は、センテンスが前記センテンス内の単語のフォントサイズに基づく特徴を含む特徴の集合により表される監視要約手法であることを特徴とする請求項13に記載の方法。
  23. 前記取り出されたウェブページの前記要約に基づき前記取り出されたウェブページに対する分類を識別するステップを含むことを特徴とする請求項13に記載の方法。
  24. 前記分類を識別する前記ステップは、単純ベイズ分類器を使用することを特徴とする請求項23に記載の方法。
  25. 前記分類を識別する前記ステップは、サポートベクトルマシンを使用することを特徴とする請求項23に記載の方法。
  26. 表示ページに対する要約を、方法によりコンピュータシステムに生成させるための命令を格納するコンピュータ読取り可能媒体であって、そのために、
    前記表示ページのセンテンス毎に、複数の要約手法に基づく前記表示ページに対するスコアを生成するステップと、
    前記表示ページの要約を形成するために、前記最高の生成されたスコアの前記センテンスを選択するステップと、
    を備える方法を使用することを特徴とするコンピュータ読取り可能媒体。
  27. それぞれのセンテンスに対する前記生成されたスコアは、前記複数の要約手法のそれぞれに対するスコアの組み合わせであることを特徴とする請求項26に記載のコンピュータ読取り可能媒体。
  28. 前記複数の要約手法の前記スコアは、異なる重み付けがされることを特徴とする請求項27に記載のコンピュータ読取り可能媒体。
  29. 前記要約手法は、Luhn要約手法、潜在的意味分析要約手法、コンテンツ本文要約手法、および監視要約手法を含むことを特徴とする請求項26に記載のコンピュータ読取り可能媒体。
  30. 前記要約手法は、Luhn要約手法、潜在的意味分析要約手法、コンテンツ本文要約手法、および監視要約手法からなる要約手法の集合の2つ以上を含むことを特徴とする請求項26に記載のコンピュータ読取り可能媒体。
  31. 要約手法は、分類が重要単語の集合を有するLuhn要約手法であることを特徴とする請求項26に記載のコンピュータ読取り可能媒体。
  32. ノイズの多い単語は、前記集合から破棄されることを特徴とする請求項31に記載のコンピュータ読取り可能媒体。
  33. 要約手法は、センテンスが前記表示ページの前記センテンスとメタデータとの間の類似度に基づく特徴を含む特徴の集合により表される監視要約手法であることを特徴とする請求項26に記載のコンピュータ読取り可能媒体。
  34. 要約手法は、センテンスが前記表示ページ内で強調表示されている前記センテンスの単語に基づく特徴を含む特徴の集合により表される監視要約手法であることを特徴とする請求項26に記載のコンピュータ読取り可能媒体。
  35. 要約手法は、センテンスが前記センテンス内の単語のフォントサイズに基づく特徴を含む特徴の集合により表される監視要約手法であることを特徴とする請求項26に記載のコンピュータ読取り可能媒体。
  36. 前記表示ページの前記要約に基づき前記表示ページに対する分類を識別するステップを含むことを特徴とする請求項26に記載のコンピュータ読取り可能媒体。
  37. 表示ページを分類するコンピュータシステムであって、
    前記表示ページの要約を自動的に生成する手段と、
    前記自動的に生成された要約に基づいて前記表示ページの分類を識別する手段と、
    を備えることを特徴とするコンピュータシステム。
  38. 前記要約を自動生成する前記手段は、複数の要約手法を使用して前記表示ページのそれぞれのセンテンスに対するスコアを計算することを特徴とする請求項37に記載のコンピュータシステム。
  39. それぞれのセンテンスに対する前記スコアは、前記複数の要約手法の前記スコアの一次結合であることを特徴とする請求項38に記載のコンピュータシステム。
  40. 前記要約手法は、Luhn要約手法、潜在的意味分析要約手法、コンテンツ本文要約手法、および監視要約手法を含むことを特徴とする請求項37に記載のコンピュータシステム。
  41. 前記要約手法は、Luhn要約手法、潜在的意味分析要約手法、コンテンツ本文要約手法、および監視要約手法からなる要約手法の集合の2つ以上を含むことを特徴とする請求項37に記載のコンピュータシステム。
  42. 前記表示ページのそれぞれのセンテンスは、前記複数の要約手法の前記スコアの組み合わせであるスコアを割り当てられることを特徴とする請求項41に記載のコンピュータシステム。
JP2005134491A 2004-04-30 2005-05-02 要約を使用して表示ページを分類する方法およびシステム Pending JP2005322245A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/836,319 US7392474B2 (en) 2004-04-30 2004-04-30 Method and system for classifying display pages using summaries

Publications (2)

Publication Number Publication Date
JP2005322245A true JP2005322245A (ja) 2005-11-17
JP2005322245A5 JP2005322245A5 (ja) 2008-06-19

Family

ID=34939612

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005134491A Pending JP2005322245A (ja) 2004-04-30 2005-05-02 要約を使用して表示ページを分類する方法およびシステム

Country Status (12)

Country Link
US (2) US7392474B2 (ja)
EP (1) EP1591924B1 (ja)
JP (1) JP2005322245A (ja)
KR (1) KR101203345B1 (ja)
CN (1) CN1758245B (ja)
AT (1) ATE470192T1 (ja)
AU (1) AU2005201766A1 (ja)
BR (1) BRPI0502155A (ja)
CA (1) CA2505957C (ja)
DE (1) DE602005021581D1 (ja)
MX (1) MXPA05004682A (ja)
RU (1) RU2377645C2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012089014A (ja) * 2010-10-21 2012-05-10 Nippon Telegr & Teleph Corp <Ntt> 購買行動分析装置、購買行動分析方法及び購買行動分析プログラム
JP2014056516A (ja) * 2012-09-13 2014-03-27 Canon Marketing Japan Inc 文書集合からの知識構造の抽出装置、方法、およびプログラム

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8868670B2 (en) * 2004-04-27 2014-10-21 Avaya Inc. Method and apparatus for summarizing one or more text messages using indicative summaries
US7392474B2 (en) * 2004-04-30 2008-06-24 Microsoft Corporation Method and system for classifying display pages using summaries
US7707265B2 (en) * 2004-05-15 2010-04-27 International Business Machines Corporation System, method, and service for interactively presenting a summary of a web site
US7475067B2 (en) * 2004-07-09 2009-01-06 Aol Llc Web page performance scoring
US7747618B2 (en) 2005-09-08 2010-06-29 Microsoft Corporation Augmenting user, query, and document triplets using singular value decomposition
US7739254B1 (en) * 2005-09-30 2010-06-15 Google Inc. Labeling events in historic news
KR100775852B1 (ko) 2006-01-18 2007-11-13 포스데이타 주식회사 응용 프로그램의 자원 검색 시스템 및 방법
US20080077576A1 (en) * 2006-09-22 2008-03-27 Cuneyt Ozveren Peer-To-Peer Collaboration
US7672912B2 (en) * 2006-10-26 2010-03-02 Microsoft Corporation Classifying knowledge aging in emails using Naïve Bayes Classifier
US20080103849A1 (en) * 2006-10-31 2008-05-01 Forman George H Calculating an aggregate of attribute values associated with plural cases
US8539329B2 (en) * 2006-11-01 2013-09-17 Bloxx Limited Methods and systems for web site categorization and filtering
US7617182B2 (en) * 2007-01-08 2009-11-10 Microsoft Corporation Document clustering based on entity association rules
US8161369B2 (en) 2007-03-16 2012-04-17 Branchfire, Llc System and method of providing a two-part graphic design and interactive document application
CN101296155B (zh) * 2007-04-23 2011-02-16 华为技术有限公司 对内容分类的方法及系统
CN101452470B (zh) * 2007-10-18 2012-06-06 广州索答信息科技有限公司 摘要式网络搜索引擎系统及其搜索方法与应用
CN101184259B (zh) * 2007-11-01 2010-06-23 浙江大学 垃圾短信中的关键词自动学习及更新方法
US9292601B2 (en) * 2008-01-09 2016-03-22 International Business Machines Corporation Determining a purpose of a document
CN101505295B (zh) * 2008-02-04 2013-01-30 华为技术有限公司 一种内容和类别的关联方法和设备
US8046361B2 (en) * 2008-04-18 2011-10-25 Yahoo! Inc. System and method for classifying tags of content using a hyperlinked corpus of classified web pages
US20110047006A1 (en) * 2009-08-21 2011-02-24 Attenberg Joshua M Systems, methods, and media for rating websites for safe advertising
JP4965623B2 (ja) * 2009-09-30 2012-07-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 所定のソフトウェアの実行パラメータを入力フィールドへ入力することを支援するための方法、システム、およびプログラム
JP2011095905A (ja) * 2009-10-28 2011-05-12 Sony Corp 情報処理装置および方法、並びにプログラム
BR112012010120A2 (pt) * 2009-10-30 2016-06-07 Rakuten Inc dispositivo e método de determinação de conteúdo característico
US8732017B2 (en) * 2010-06-01 2014-05-20 Integral Ad Science, Inc. Methods, systems, and media for applying scores and ratings to web pages, web sites, and content for safe and effective online advertising
US9436764B2 (en) * 2010-06-29 2016-09-06 Microsoft Technology Licensing, Llc Navigation to popular search results
US8635061B2 (en) 2010-10-14 2014-01-21 Microsoft Corporation Language identification in multilingual text
US10534931B2 (en) 2011-03-17 2020-01-14 Attachmate Corporation Systems, devices and methods for automatic detection and masking of private data
CN102737017B (zh) * 2011-03-31 2015-03-11 北京百度网讯科技有限公司 一种提取页面主题的方法和装置
US20130066814A1 (en) * 2011-09-12 2013-03-14 Volker Bosch System and Method for Automated Classification of Web pages and Domains
US9613135B2 (en) 2011-09-23 2017-04-04 Aol Advertising Inc. Systems and methods for contextual analysis and segmentation of information objects
US8793252B2 (en) * 2011-09-23 2014-07-29 Aol Advertising Inc. Systems and methods for contextual analysis and segmentation using dynamically-derived topics
US9916309B2 (en) * 2011-10-14 2018-03-13 Yahoo Holdings, Inc. Method and apparatus for automatically summarizing the contents of electronic documents
US9152730B2 (en) * 2011-11-10 2015-10-06 Evernote Corporation Extracting principal content from web pages
RU2491622C1 (ru) * 2012-01-25 2013-08-27 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Способ классификации документов по категориям
CN103324622A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种自动生成首页摘要的方法及装置
US9223861B2 (en) * 2012-05-10 2015-12-29 Yahoo! Inc. Method and system for automatic assignment of identifiers to a graph of entities
US10387911B1 (en) 2012-06-01 2019-08-20 Integral Ad Science, Inc. Systems, methods, and media for detecting suspicious activity
US20150046562A1 (en) * 2013-08-07 2015-02-12 Convergent Development Limited Web browser orchestration
CN104933055B (zh) * 2014-03-18 2020-01-31 腾讯科技(深圳)有限公司 网页识别方法及网页识别装置
US10021102B2 (en) 2014-10-31 2018-07-10 Aruba Networks, Inc. Leak-proof classification for an application session
CN105786853A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种论坛帖子智能摘要的显示方法和系统
US10387550B2 (en) 2015-04-24 2019-08-20 Hewlett-Packard Development Company, L.P. Text restructuring
US20180018392A1 (en) * 2015-04-29 2018-01-18 Hewlett-Packard Development Company, L.P. Topic identification based on functional summarization
RU2638015C2 (ru) * 2015-06-30 2017-12-08 Общество С Ограниченной Ответственностью "Яндекс" Способ идентификации целевого объекта на веб-странице
US9875429B2 (en) 2015-10-06 2018-01-23 Adobe Systems Incorporated Font attributes for font recognition and similarity
US10074042B2 (en) 2015-10-06 2018-09-11 Adobe Systems Incorporated Font recognition using text localization
US10042880B1 (en) * 2016-01-06 2018-08-07 Amazon Technologies, Inc. Automated identification of start-of-reading location for ebooks
RU2642413C2 (ru) * 2016-02-09 2018-01-24 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) и сервер обработки текста
US10007868B2 (en) 2016-09-19 2018-06-26 Adobe Systems Incorporated Font replacement based on visual similarity
RU2635213C1 (ru) * 2016-09-26 2017-11-09 Самсунг Электроникс Ко., Лтд. Способ суммаризации текста и используемые для его реализации устройство и машиночитаемый носитель информации
US10699062B2 (en) * 2017-08-01 2020-06-30 Samsung Electronics Co., Ltd. Apparatus and method for providing summarized information using an artificial intelligence model
US10248628B2 (en) * 2017-08-15 2019-04-02 Hybris Ag Statistical approach for testing multiple versions of websites
US10579698B2 (en) 2017-08-31 2020-03-03 International Business Machines Corporation Optimizing web pages by minimizing the amount of redundant information
KR102576267B1 (ko) * 2018-10-10 2023-09-07 스카라망가 테크놀로지스 프라이빗 리미티드 다중 통신 플랫폼 환경에서 통신 이벤트에 대한 문맥 키워드 집합을 제공하는 방법, 시스템 및 장치
US11397776B2 (en) 2019-01-31 2022-07-26 At&T Intellectual Property I, L.P. Systems and methods for automated information retrieval
US10950017B2 (en) 2019-07-08 2021-03-16 Adobe Inc. Glyph weight modification
US11295181B2 (en) 2019-10-17 2022-04-05 Adobe Inc. Preserving document design using font synthesis
CN111797945B (zh) * 2020-08-21 2020-12-15 成都数联铭品科技有限公司 一种文本分类方法
US20230222149A1 (en) * 2022-01-11 2023-07-13 Intuit Inc. Embedding performance optimization through use of a summary model

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02254566A (ja) * 1989-03-29 1990-10-15 Nippon Telegr & Teleph Corp <Ntt> 自動抄録生成装置
JPH06215049A (ja) * 1993-01-20 1994-08-05 Sharp Corp 文書要約装置
JPH09319768A (ja) * 1996-05-29 1997-12-12 Oki Electric Ind Co Ltd 要点抽出方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5317507A (en) 1990-11-07 1994-05-31 Gallant Stephen I Method for document retrieval and for word sense disambiguation using neural networks
US5918240A (en) * 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
US5864855A (en) 1996-02-26 1999-01-26 The United States Of America As Represented By The Secretary Of The Army Parallel document clustering process
US6359633B1 (en) * 1999-01-15 2002-03-19 Yahoo! Inc. Apparatus and method for abstracting markup language documents
JP4732593B2 (ja) * 1999-05-05 2011-07-27 ウエスト パブリッシング カンパニー ドキュメント分類システム、ドキュメント分類方法およびドキュメント分類ソフトウェア
JP4320491B2 (ja) * 1999-11-18 2009-08-26 ソニー株式会社 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体
US7137065B1 (en) * 2000-02-24 2006-11-14 International Business Machines Corporation System and method for classifying electronically posted documents
US6606644B1 (en) 2000-02-24 2003-08-12 International Business Machines Corporation System and technique for dynamic information gathering and targeted advertising in a web based model using a live information selection and analysis tool
US6775677B1 (en) * 2000-03-02 2004-08-10 International Business Machines Corporation System, method, and program product for identifying and describing topics in a collection of electronic documents
US7130848B2 (en) * 2000-08-09 2006-10-31 Gary Martin Oosta Methods for document indexing and analysis
US7607083B2 (en) * 2000-12-12 2009-10-20 Nec Corporation Test summarization using relevance measures and latent semantic analysis
US20020087326A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented web page summarization method and system
US20020169770A1 (en) * 2001-04-27 2002-11-14 Kim Brian Seong-Gon Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents
US6609124B2 (en) 2001-08-13 2003-08-19 International Business Machines Corporation Hub for strategic intelligence
US20040205457A1 (en) * 2001-10-31 2004-10-14 International Business Machines Corporation Automatically summarising topics in a collection of electronic documents
US20030221163A1 (en) * 2002-02-22 2003-11-27 Nec Laboratories America, Inc. Using web structure for classifying and describing web pages
US6910037B2 (en) * 2002-03-07 2005-06-21 Koninklijke Philips Electronics N.V. Method and apparatus for providing search results in response to an information search request
US7130837B2 (en) * 2002-03-22 2006-10-31 Xerox Corporation Systems and methods for determining the topic structure of a portion of text
US7065707B2 (en) * 2002-06-24 2006-06-20 Microsoft Corporation Segmenting and indexing web pages using function-based object models
US7292972B2 (en) * 2003-01-30 2007-11-06 Hewlett-Packard Development Company, L.P. System and method for combining text summarizations
US7392474B2 (en) 2004-04-30 2008-06-24 Microsoft Corporation Method and system for classifying display pages using summaries

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02254566A (ja) * 1989-03-29 1990-10-15 Nippon Telegr & Teleph Corp <Ntt> 自動抄録生成装置
JPH06215049A (ja) * 1993-01-20 1994-08-05 Sharp Corp 文書要約装置
JPH09319768A (ja) * 1996-05-29 1997-12-12 Oki Electric Ind Co Ltd 要点抽出方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012089014A (ja) * 2010-10-21 2012-05-10 Nippon Telegr & Teleph Corp <Ntt> 購買行動分析装置、購買行動分析方法及び購買行動分析プログラム
JP2014056516A (ja) * 2012-09-13 2014-03-27 Canon Marketing Japan Inc 文書集合からの知識構造の抽出装置、方法、およびプログラム

Also Published As

Publication number Publication date
MXPA05004682A (es) 2005-11-17
US20050246410A1 (en) 2005-11-03
KR20060047636A (ko) 2006-05-18
CA2505957C (en) 2014-10-21
AU2005201766A1 (en) 2005-11-17
ATE470192T1 (de) 2010-06-15
DE602005021581D1 (de) 2010-07-15
CN1758245A (zh) 2006-04-12
BRPI0502155A (pt) 2006-01-10
KR101203345B1 (ko) 2012-11-20
EP1591924B1 (en) 2010-06-02
US7392474B2 (en) 2008-06-24
CA2505957A1 (en) 2005-10-30
EP1591924A1 (en) 2005-11-02
RU2005113190A (ru) 2006-11-10
US20090119284A1 (en) 2009-05-07
CN1758245B (zh) 2010-09-08
RU2377645C2 (ru) 2009-12-27

Similar Documents

Publication Publication Date Title
CA2505957C (en) Method and system for classifying display pages using summaries
Zhu et al. Learning for search result diversification
US9256667B2 (en) Method and system for information discovery and text analysis
US8051080B2 (en) Contextual ranking of keywords using click data
Shen et al. A comparison of implicit and explicit links for web page classification
Macdonald et al. Blog track research at TREC
US20070112720A1 (en) Two stage search
Bhattacharya et al. Unsupervised summarization approach with computational statistics of microblog data
US20100306214A1 (en) Identifying modifiers in web queries over structured data
Zhu et al. Exploiting link structure for web page genre identification
Rafeeque et al. A survey on short text analysis in web
Shawon et al. Website classification using word based multiple n-gram models and random search oriented feature parameters
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
Rajiv et al. Keyword weight optimization using gradient strategies in event focused web crawling
Timonen Term weighting in short documents for document categorization, keyword extraction and query expansion
Zhang et al. A comparative study on key phrase extraction methods in automatic web site summarization
Sun et al. Topic-oriented exploratory search based on an indexing network
Irmak et al. Contextual ranking of keywords using click data
Moumtzidou et al. Discovery of environmental nodes in the web
WO2008032037A1 (en) Method and system for filtering and searching data using word frequencies
Dorado Focused Crawling: algorithm survey and new approaches with a manual analysis
Selvadurai A natural language processing based web mining system for social media analysis
Sun et al. Annotation-aware web clustering based on topic model and random walks
Pendharkar et al. Topic categorization of rss news feeds
Bamane et al. A WEB PAGE CLASSIFICATION SURVEY ON TECHNIQUES USING TEXT MINING

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080501

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080501

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101015

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110114

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110314

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110517