JP2005317018A - 表示ページ内のブロックの重要度を計算するための方法およびシステム - Google Patents

表示ページ内のブロックの重要度を計算するための方法およびシステム Download PDF

Info

Publication number
JP2005317018A
JP2005317018A JP2005129811A JP2005129811A JP2005317018A JP 2005317018 A JP2005317018 A JP 2005317018A JP 2005129811 A JP2005129811 A JP 2005129811A JP 2005129811 A JP2005129811 A JP 2005129811A JP 2005317018 A JP2005317018 A JP 2005317018A
Authority
JP
Japan
Prior art keywords
block
importance
page
function
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005129811A
Other languages
English (en)
Inventor
Haifeng Liu
リュー ハイフェン
Ji-Rong Wen
ウェン ジー−ロン
Ruihua Song
ソング ルイファー
Wei-Ying Ma
マ ウェイ−イン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005317018A publication Critical patent/JP2005317018A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47JKITCHEN EQUIPMENT; COFFEE MILLS; SPICE MILLS; APPARATUS FOR MAKING BEVERAGES
    • A47J39/00Heat-insulated warming chambers; Cupboards with heating arrangements for warming kitchen utensils
    • A47J39/02Dish-warmers; Devices to keep food hot
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47JKITCHEN EQUIPMENT; COFFEE MILLS; SPICE MILLS; APPARATUS FOR MAKING BEVERAGES
    • A47J36/00Parts, details or accessories of cooking-vessels
    • A47J36/24Warming devices
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Food Science & Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】 表示ページの情報エリアの重要度を識別するための方法およびシステムを提供すること。
【解決手段】 重要度システムは、ウェブページの情報エリアまたはブロックを識別する(101)。ウェブページのブロックは、類似のトピックに関係があると思われるウェブページのエリアに相当する。重要度システムは、ブロックの特色または特徴を、そのウェブページにとってのそのブロックの重要度を示す表示を生成する重要度関数に提供する。重要度システムは、ブロックの特徴およびそれらのブロックに関するユーザ指定の重要度に基づいてモデルを生成することによって、重要度関数を「学習」する。重要度関数を学習するために、重要度システムは、ウェブページの集まりに属するウェブページのブロックの重要度を示す表示を提供するようユーザに求める。
【選択図】 図1

Description

本明細書で説明する技術は一般に、表示ページの主要トピックが表現された、表示ページ内のブロックの識別に関する。
Google(登録商標)やOverture(登録商標)などの多くの検索エンジンサービスは、インターネットを介してアクセスできる情報の検索を提供する。ユーザは、これらの検索エンジンサービスによって、ユーザが関心を持つかもしれないウェブページなどの表示ページを検索することができる。ユーザが検索語を含む検索リクエストをサブミットすると、検索エンジンサービスは、それらの検索語に関連があるかもしれないウェブページを識別する。関連ウェブページを素早く識別するために、検索エンジンサービスは、キーワードのウェブページとのマッピングを維持することができる。このマッピングは、ウェブ(すなわち、ワールドワイドウェブ)を「クロール」して、各ウェブページのキーワードを識別することによって生成することができる。ウェブをクロールするために、検索エンジンサービスは、ルートウェブページの一覧を使用して、それらのルートウェブページからアクセスできるすべてのウェブページを識別することができる。個々のウェブページのキーワードは、ヘッドライン中のワード、ウェブページのメタデータで与えられるワード、強調表示されたワードなどを識別するなど、様々な周知の情報検索技法を使用して識別することができる。検索エンジンサービスは次に、それぞれの一致の度合い、ウェブページの人気(例えば、Google(登録商標)のPageRank(登録商標))などに基づいて、検索結果のウェブページをランク付けする。検索エンジンサービスは、ウェブページの情報が検索リクエストとどのように関連しているかを示す関連性(relevance)スコアを生成することもできる。検索エンジンサービスは次に、それらのウェブページへのリンクをランキングに基づいた順序でユーザに表示する。
検索結果のウェブページがユーザに関心があるものかどうかは、検索エンジンサービスによって識別されたキーワードが、どれだけ適切にウェブページの主要トピックを表現しているかに大きく依存している。ウェブページは数多くの異なるタイプの情報を含んでいるので、ウェブページの主要トピックを見定めるのは難しい。例えば、多くのウェブページは、ウェブページの主要トピックとは関係のない広告を含んでいる。ニュースウェブサイトのウェブページには、国際政治情勢に関する記事の他に、人気のダイエット(diet)の広告、法定通知に関するエリア、およびナビゲーションバーなどの「雑音情報(noise information)」も含むものがある。ウェブページのどの情報が雑音情報であり、どの情報がウェブページの主要トピックに関連する情報であるのかを検索エンジンサービスが識別することは、これまでは非常に難しかった。その結果、検索エンジンサービスが、ウェブページの主要トピックではなく、雑音情報に基づいてキーワードを選択することもあり得る。例えば、主要トピックが国際政治情勢であるウェブページがダイエットの広告を含んでいるために、検索エンジンサービスが、そのウェブページをキーワード「ダイエット(diet)」にマップすることも起こり得る。そうした状況で、ユーザが検索語「ダイエット(diet)」を含む検索リクエストをサブミットすると、検索エンジンサービスは、ユーザには関心がないであろうダイエットの広告を含むウェブページを返すかもしれない。
ウェブページの主要トピックに関しての、ウェブページの様々な情報エリアの重要度を計算するための技法が存在すれば望ましいであろう。
重要度システム(importance system)は、表示ページの情報エリアの重要度を識別するものである。本重要度システムは、類似のトピックに関係があると思われるウェブページのエリアを表すウェブページ情報エリアまたはブロックを識別する。あるウェブページのブロックを識別すると、本重要度システムは、あるブロックの特色または特徴を、そのブロックの、そのウェブページに対する重要度の表示(indication)を生成する重要度関数(importance function)に提供する。本重要度システムは、この重要度関数を、ブロックの特徴、および、ユーザ指定の、それらのブロックの重要度に基づいてモデルを生成することで、学習することができる。
表示ページの情報エリアの重要度を識別するための方法およびシステムが提供される。一実施形態において、重要度システムはウェブページ情報エリアまたはブロックを識別する。ウェブページのブロックは、類似のトピックと関係がありそうなウェブページのエリアに相当する。例えば、あるウェブページのニュース記事は、1つのブロックに、そのウェブページの食品広告は、また別のブロックに相当し得る。あるウェブページのブロックを識別すると重要度システムは、あるブロックの特色または特徴を、そのブロックの、そのウェブページに対する重要度の表示を生成する重要度関数に提供する。重要度システムは、この重要度関数を、ブロックの特徴、および、ユーザ指定の、それらのブロックの重要度に基づいてモデルを生成することで「学習」する。重要度関数を学習するために、重要度システムは、ウェブページの集まりに属するウェブページのブロックの重要度の表示を提供するようユーザに求める。例えば、あるユーザは、あるブロックをあるウェブページにとって一級の重要度のブロックとして認識することがあり、別のユーザは、同じブロックをそのウェブページにとって二級の重要度のブロックとして認識することがある。重要度システムはまた、ブロックの様々な空間的および内容的特徴を表現できる、各ブロックの特徴ベクトル(feature vector)を識別する。例えば、空間的特徴としてはブロックのサイズまたはロケーション、内容的特徴としてはブロック内のリンク数またはワード数が挙げられる。重要度システムは次に、ユーザ指定の重要度およびブロックの特徴ベクトルに基づいて、ブロックの特徴ベクトルを入力してそのブロックの重要度を出力する重要度関数を学習する。重要度システムは、ユーザ指定のブロック重要度と重要度関数によって計算される重要度との差の2乗を最小化する関数を学習することを試みることができる。このように、重要度システムは、ユーザが重要であると考えるブロックの特徴に基づいて、ウェブページの主要トピックに関係があるであろうウェブページのブロックを識別することができる。
学習が済めば、重要度関数を使用して、ウェブページのトピックをどう見定めるかでその結果が左右される多種多様なアプリケーションの精度を向上させることができる。検索エンジンサービスは、重要度関数を使用して、検索結果のウェブページの検索リクエストに対する関連性を計算することができる。検索結果を取得した後、検索エンジンサービスは、重要度関数を使用して、各ウェブページの最も重要なブロックを識別し、最も重要なブロック(または重要なブロックのグループ)の検索リクエストに対する関連性を計算することができる。この関連性はウェブページの最も重要なブロックの情報に基づくので、雑音情報を含み得るウェブページの全情報に基づいた関連性よりも、精度の高い関連性の尺度になり得る。
検索エンジンサービスはまた、重要度関数を使用して、あるウェブページに関連があるウェブページを識別することができる。検索エンジンサービスは、重要度関数を使用して、そのウェブページの最も重要なブロックを識別し、次に識別したブロックのテキストに基づいて検索リクエストを組み立てることができる。検索エンジンサービスは、その組み立てた検索リクエストを使用して検索を実行し、あるウェブページに関連があるウェブページを識別することができる。
検索エンジンサービスはまた、重要度関数を使用して、ウェブページを分類することができる。例えば、その主要トピックに基づいて、ウェブページが分類され。検索エンジンサービスは、重要度関数を使用して、ウェブページの最も重要なブロックを識別し、次に、識別したブロックのテキストに基づいてウェブページを分類することができる。
ウェブページのすべての内容を表示装置に表示しきれない場合、ウェブブラウザも、重要度関数を使用して、ウェブページの表示すべき部分を識別することができる。例えば、携帯電話または携帯情報端末などの装置は、非常に狭い画面しか備えておらず、ウェブページの大部分は、ウェブページの情報の量、サイズ、および複雑さのせいで、無理なく表示することができない。表示内容が小さくなり過ぎて、人がはっきり見ることができないようでは、ウェブページを無理なく表示しているとは言えない。そのような装置を使用して、ウェブページをブラウズする場合、重要度関数を使用して、ウェブページの最も重要なブロックを識別し、識別したブロックだけを狭い画面に表示することができる。これとは別に、ウェブブラウザは、重要度関数によって示されるブロック重要度に基づいて、ウェブページのブロックを再配置すること、ウェブページのブロックを強調表示すること、ウェブページのブロックを削除することなどもできる。
重要度システムは、ドキュメントオブジェクトモデル(document object model)ベース(DOMベース)の区分化アルゴリズム、ロケーションベースの区分化アルゴリズム、およびビジョン(vision)ベースの区分化アルゴリズムなど、様々な区分化技法を使用して、ウェブページの情報エリアを識別することができる。DOMベースの区分化アルゴリズムは、ウェブページのHTML階層を使用して、ウェブページの様々なブロックを識別する。ロケーションベースの区分化アルゴリズムは、エリアの物理的特色に基づいて、一単位であると見なし得るウェブページのエリアを識別することを試みる。ビジョンベースの区分化アルゴリズムについては、2003年7月28日出願の米国特許出願第10/628766号明細書(発明の名称 ”Vision-Based Document Segmentation”)に記載があり、その文献は参照により本明細書に組み込まれる。なお、米国特許出願第10/628766号は2005年2月3日に許可されUSP20050028077A1として公開されている。ビジョンベースの区分化アルゴリズムは、各ブロックの情報内容の一貫性に基づいて、ブロックを識別する。例えば、食品広告は、その内容が1つのトピックを指向しており、高い一貫性を有するので、1つのブロックに相当し得る。多くの異なるトピックを含む表示ページのエリアは、多くの異なるブロックに分割することができる。
重要度システムは、ブロックを表現する特徴ベクトルとユーザ指定のブロック重要度から重要度関数を学習するために、様々な技法を使用することができる。例えば、以下で詳しく説明するように、重要度システムは、ニューラルネットワーク(neural network)またはサポートベクトルマシン(support vector machine)を使用して、重要度関数を学習することができる。さらに、重要度システムは、ブロックの特徴ベクトル表現において、ブロックの様々な空間的特徴および内容的特徴を使用することができる。例えば、空間的特徴としては、ブロックの中心位置、およびブロックの大きさを挙げることができ、これらは「絶対空間的特徴(absolute spatial feature)」と呼ばれる。これらの絶対空間的特徴は、ウェブページのサイズまたはウィンドウのサイズに基づいて正規化することができ、前者は「相対空間的特徴(relative spatial feature)」、後者は「ウィンドウ空間的特徴(window spatial feature)」と呼ばれる。内容的特徴は、ブロック内の画像(例えば、画像の数およびサイズ)、ブロック内のリンク(例えば、リンクの数および各リンクのワード数)、ブロック内のテキスト(例えば、ブロック内のワード数)、ブロック内のユーザ対話(例えば、入力フィールドの数およびサイズ)、およびブロック内のフォーム(例えば、数およびサイズ)に関連したものとすることができる。様々な内容的特徴も正規化することができる。例えば、ブロック内のリンク数は、ウェブページ内のリンク総数を基準に正規化することができ、あるいはブロック内のテキストのワード数は、ウェブページのすべてのブロック内のテキストのワード数を基準に正規化することができる。
本発明の一実施形態では、ユーザは、重要度システムを利用して、ブロックの重要度を離散値または連続値で指定することができる。ウェブページにとってブロックの重要度がより高いことを、より高い値で表すことができる。1〜4の離散値を使用する場合、値1で、広告、著作権表示、装飾などの雑音情報を表すことができる。値2では、ナビゲーション情報やディレクトリ情報など、有用な情報ではあるが、ページの主要トピックとは特に関係のない情報を表すことができる。値3では、関連トピックやトピックインデックスなど、ページの主要トピックと関係があるが、際立って重要ではない情報を表すことができる。値4では、ヘッドラインや主内容など、ウェブページの最も特徴的な部分を示すことができる。
図1は、本発明の一実施形態による重要度システムの構成要素を示すブロック図である。重要度システムは、コンポーネント101〜105、データストア111〜114を含む。コンポーネントには、ブロック識別コンポーネント101、ユーザ指定重要度収集コンポーネント102、重要度関数生成コンポーネント103、重要度関数適用コンポーネント104、特徴ベクトル生成コンポーネント105が含まれ得る。データストアには、ウェブページストア111、ブロックストア112、ユーザ指定重要度ストア113、重要度関数ストア114が含まれ得る。ウェブページストアは、重要度関数の生成または学習の際に使用されるウェブページの集まりを含むことができる。ブロック識別コンポーネントは、ウェブページストアに含まれる各ウェブページのブロックを識別する。ユーザ指定重要度収集コンポーネントは、ウェブページストアに含まれる各ウェブページを、ウェブページの各ブロックを強調してユーザに表示し、各ブロックの重要度を指定するようユーザに求め、重要度指定をユーザ指定重要度ストアに保存する。重要度関数生成コンポーネントは、特徴ベクトル生成コンポーネントを使用して、ブロックストアに含まれる各ブロックの特徴ベクトルを生成する。重要度関数生成コンポーネントは次に、ブロックの特徴ベクトルおよびユーザ指定のブロック重要度をモデル化することで、重要度関数を学習する。重要度関数ストアは、重要度関数生成コンポーネントによって計算された、学習した重要度関数を定義する係数やパラメータなどの情報を含むことができる。重要度関数適用コンポーネントは、ウェブページのブロックを渡され、ブロックの特徴ベクトルを生成するために特徴ベクトル生成コンポーネントを起動し、重要度関数を生成された特徴ベクトルに適用して、ブロック重要度を示す表示を生成する。
重要度システムを実施できるコンピューティング装置は、中央処理装置、メモリ、入力装置(例えば、キーボードやポインティングデバイス)、出力装置(例えば、表示装置)、記憶装置(例えば、ディスクドライブ)を含むことができる。メモリと記憶装置は、重要度システムを実施する命令を含むことができるコンピュータ可読媒体である。さらに、データ構造およびメッセージ構造を含むこともでき、データ構造およびメッセージ構造は、通信リンク上の信号など、データ送信媒体を介して送信することもできる。インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、またはポイントツーポイントダイアルアップ接続など、様々な通信リンクを使用することができる。
図1には、重要度システムを実施できる適切な動作環境の一例が示されている。この動作環境は、適切な動作環境の一例に過ぎず、重要度システムの用途または機能の範囲に対していかなる限定も示唆しようとするものではない。使用に適し得るその他の周知のコンピューティングシステム、環境、構成には、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースシステム、プログラム可能消費者家電、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記の任意のシステムまたは装置を含む分散コンピューティング環境が含まれる。
重要度システムは、1つまたは複数のコンピュータまたはその他の装置によって実行される、プログラムモジュールなどのコンピュータ実行可能命令という一般的コンテキストにおいて説明することができる。一般に、プログラムモジュールには、特定のタスクを実行し、あるいは特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。通常、プログラムモジュールの機能は、様々な実施形態での必要に応じて、結合させたり、分散させたりすることができる。
本発明の一実施形態では、重要度システムは、ウェブページの集まりに属するブロックのユーザ指定重要度に基づいて、最小2乗目的関数(least squares objective function)を最小化することによって、ブロックの重要度関数を学習する。各ブロックは、特徴ベクトルと重要度のペア(x,y)によって表現することができるが、xはブロックの特徴ベクトルであり、yはその重要度である。ウェブページの集まりに関する特徴ベクトルと重要度のペアの集合は、トレーニング集合(training set)Tと呼ばれる。重要度システムは、以下の目的関数を最小化する重要度関数fを学習しようと試みる。
Σ(x,y)∈T|f(x)−y| (1)
目的関数は、yが離散値をとるならば、サポートベクトルマシンなどの分類技法を使用して、yが連続値をとるならば、ニューラルネットワークなどの回帰技法を使用して、求めることができる。
重要度が連続な実数値によって表される場合、重要度システムは、以下の目的関数を最小化することによって与えられる最適なfを学習するために、ニューラルネットワーク学習を利用することができる。
Figure 2005317018
ただし、mはトレーニング集合に属するブロックの数である。推定される本当の回帰関数の形式についての事前知識がないので、これは多変量ノンパラメトリック回帰問題(multivariate non-parametric regression problem)となる。
ニューラルネットワークモデルは、3つの主要な構成要素であるアーキテクチャ(architecture)、コスト関数(cost function)、探索アルゴリズム(search algorithm)を有する。アーキテクチャは、入力を出力に関係付ける関数形式を定義する(ネットワークトポロジーの用語では、ユニット接続性(unit connectivity)、および活性化関数(activation function))。目的関数を最小化する1組の重みを探すための重み空間(weight space)における探索を、トレーニングプロセスという。本発明の一実施形態では、重要度システムは、探索技法として、動径基底関数(「RBF」:radial basis function)ネットワーク、および標準的な勾配法(gradient descent)を使用する。
重要度システムは、異なる役割を持った3つの層を用いてRBFネットワークを構成する。入力層は、ネットワークをその環境(すなわち、低レベル特徴空間(low-level feature space))に接続するソースノード(すなわち、知覚ユニット(sensory unit))を含む。隠れ層(hidden layer)は、入力空間から隠れ空間への非線形変換を実行する。一般に、隠れ空間(hidden space)は、高い次元数を有する。隠れ層は、重み付き入力とバイアスとを結合することによって隠れ層の入力を計算するRBFニューロンを有する。出力層は線形であり、入力層に低レベルブロック表現が与えられれば、ブロック重要度を供給する。
RBFネットワークによって学習される関数は、次式によって表すことができる。
Figure 2005317018
ただし、iはトレーニング集合に属するブロック、hは隠れ層のニューロン数、ωij∈Rは重み、Gは次式によって定義される動径関数である。
Figure 2005317018
ただし、cはGの中心、σは基底関数の幅である。k次元マッピングは、次式で表すことができる。
x→f(x)=(f(x),f(x),...,f(x)) (5)
ただし、f=[f,f,...,f]は、マッピング関数である。
RBFニューラルネットワークは、特徴空間からブロック重要度への最適な回帰関数を近似する。重要度システムは、トレーニング集合Tに属するトレーニングサンプル{x,y}(i=1,...,m)を用いて、オフラインでRBFニューラルネットワークをトレーニングすることができる。これまで処理したことのない新しいブロックの場合、重要度システムは、そのブロックの特徴ベクトルが与えられれば、回帰関数fを使用して、そのブロックの重要度を計算することができる。
重要度が離散値によって表される場合、重要度システムは、重要度関数を学習するために、サポートベクトルマシンを利用する。サポートベクトルマシンは、経験的リスクよりも、構造的リスクを最小化しようと試みる。サポートベクトルマシンは、トレーニング集合が次式によって定義されるように、2進分類(binary classification)を使用することができる。
Figure 2005317018
ただし、Dはトレーニング集合、tはトレーニングサンプル数であり、y∈{−1,1}である。重要度システムは、データを分離する無限個の線形分類器(linear classifier)の中から、最小の汎化誤差(generalization error)を有する線形分類器を選択しようと試みる。この特性を持つ超平面(hyperplane)は、2つのクラスの間に最大マージンを残す超平面である。重要度関数は、次式で表すことができる。
Figure 2005317018
ただし、トレーニングサンプルxに関連付けられたαは、そのサンプル点が最終的な関数に埋め込まれる強度(strength)を表し、bは、マシン学習におけるバイアスとしても知られるインタセプト(intercept)である。この表現の特性は、しばしばサンプル点の部分集合だけが、非ゼロのαに関連付けられることである。これらの点は、サポートベクトルと呼ばれ、分離超平面(separating hyperplane)に最も近く存在する点である。非線形サポートベクトルマシンは、入力変数を高次元(しばしば無限次元)空間にマッピングし、その空間において線形サポートベクトルマシンを利用する。計算面では、これは(再生)カーネル((reproducing) kernel)の利用によって達成することができる。対応する非線形決定関数は、次式で表される。
Figure 2005317018
ただし、Kはカーネル関数(kernel function)である。いくつかの典型的なカーネル関数には、多項式カーネル(polynomial kernel)、ガウシアンRBFカーネル(Gaussian RBF kernel)、シグモイドカーネル(sigmoid kernel)が含まれる。多重クラス分類(multi-class classification)問題の場合、重要度システムは、ワンアゲンストオール方式(one-against-all scheme)を利用することができる。
図2は、本発明の一実施形態による重要度システムの重要度関数生成コンポーネントの処理を示すフローチャートである。ブロック201で、コンポーネントは、ウェブページストアからウェブページの集まりを取り出す。ブロック202で、コンポーネントは、取り出したウェブページ内のブロックを識別し、ブロックの表示(indication)をブロックストアに保存する。ブロック203で、コンポーネントは、ブロックのユーザ指定の重要度データを収集する。コンポーネントは、ウェブページのブロックの表示と共に各ウェブページを表示し、ウェブページにとっての各ブロックの重要度を評価するようユーザに求める。コンポーネントは、ユーザ指定の重要度をユーザ指定重要度ストアに保存する。ブロック204で、コンポーネントは、各ブロックの特徴ベクトルを生成し、特徴ベクトルをブロックストアに保存することができる。ブロック205で、コンポーネントは、上で説明したようなニューラルネットワーク技法またはサポートベクトルマシン技法を使用して、重要度関数を学習する。
図3は、本発明の一実施形態による、重要度システムの特徴ベクトル生成コンポーネントの処理を示すフローチャートである。コンポーネントは、重要度を計算するウェブページのブロックの表示と共に、ウェブページの表示(indication)を渡される。ブロック301で、コンポーネントは、ブロックの絶対空間的特徴を識別する。ブロック302で、コンポーネントは、ブロックのウィンドウ空間的特徴を計算する。コンポーネントは、例えば、ウィンドウ空間的特徴がy座標に関するブロックの中心であれば、次式に従って計算することができる。
Figure 2005317018
ただし、ヘッダー高およびフッター高は、ページのヘッダーおよびフッターの高さに関する事前定義された定数値である。ブロック303で、コンポーネントは、ブロックの内容的特徴を識別する。ブロック304で、コンポーネントは、必要に応じて内容的特徴を正規化し、次に特徴ベクトルを戻り値として返す。
図4は、本発明の一実施形態による、重要度システムのブロック重要度計算コンポーネントの処理を示すフローチャートである。コンポーネントは、ウェブページの表示を渡され、学習した重要度関数を適用することによって、ウェブページの各ブロックの重要度を計算する。ブロック401で、コンポーネントは、渡されたウェブページのブロックを識別する。ブロック402〜ブロック406で、コンポーネントは、渡されたウェブページの各ブロックの重要度をループを繰り返しながら計算する。ブロック402で、コンポーネントは、渡されたウェブページの次のブロックを選択する。判断ブロック403で、渡されたウェブページのすべてのブロックがすでに選択されたと判断された場合、コンポーネントは、各ブロックの重要度を戻り値として返し、それ以外の場合、コンポーネントは、ブロック404に進む。ブロック404で、コンポーネントは、選択ブロックの特徴ベクトルを生成するために、特徴ベクトル生成コンポーネントを起動する。ブロック405で、コンポーネントは、学習した重要度関数を、生成された特徴ベクトルに適用して、選択ブロックの重要度を計算する。ブロック406で、コンポーネントは、計算した重要度をセーブし、渡されたウェブページの次のブロックを選択するためにブロック402に復帰する。
図5〜図8には、学習した重要度関数を様々な用途に使用する例が示されている。図5は、本発明の一実施形態による、学習した重要度関数を使用する検索結果順序付けコンポーネントの処理を示すフローチャートである。コンポーネントは、ウェブページの検索結果を渡され、学習した重要度関数によって計算されたブロック重要度に基づいて再順序付けされた検索結果を戻り値として返す。ブロック501で、コンポーネントは、検索結果の次のウェブページを選択する。判断ブロック502で、検索結果のすべてのウェブページがすでに選択されたと判断された場合、コンポーネントは、ブロック505に進み、それ以外の場合、コンポーネントは、ブロック503に進む。ブロック503で、コンポーネントは、選択したウェブページの各ブロックの重要度を計算するために、ブロック重要度計算コンポーネントを起動する。ブロック504で、コンポーネントは、最高の重要度を持つブロックに基づいてウェブページの関連性を設定する。コンポーネントは、最重要ブロック(または複数の最重要ブロック)のテキストが、その求めで検索結果が識別された検索リクエストにどれだけ良く一致しているかに基づいて、関連性を計算することができる。コンポーネントは、この関連性を、検索エンジンによって計算された各ウェブページの関連性と結合することもできる。次いで、コンポーネントはブロック501にループし、検索結果の次のウェブページを選択する。ブロック505で、コンポーネントは、設定された関連性に基づいてウェブページを並べ替え、再順序付けされた検索結果のウェブページを戻り値として返す。
図6は、本発明の一実施形態による、学習した重要度関数を使用する検索結果拡張コンポーネントの処理を示すフローチャートである。コンポーネントは、ウェブページを渡され、渡されたウェブページに関係付けることができるウェブページを識別する。ブロック601で、コンポーネントは、渡されたウェブページの各ブロックの重要度を計算するために、ブロック重要度計算コンポーネントを起動する。ブロック602で、コンポーネントは、渡されたウェブページから最高の重要度を持つブロックを選択する。ブロック603で、コンポーネントは、選択したブロックに関連付けられたテキストを取り出す。ブロック604で、コンポーネントは、取り出したテキストに基づいて検索リクエストを組み立てる。ブロック605で、コンポーネントは、組み立てた検索リクエストを検索エンジンサービスにサブミットし、検索エンジンサービスから検索結果を受け取る。コンポーネントは、検索結果を戻り値として返す。
図7は、本発明の一実施形態による学習した重要度関数を使用するウェブページ表示コンポーネントの処理を示すフローチャートである。このコンポーネントは、ウェブページのユニフォームリソースロケータを渡され、そのウェブページの中で最高の重要度を持つブロックの内容を、ウェブページ自体の内容として表示する。ブロック701で、コンポーネントは、渡されたユニフォームリソースロケータを使用して、ウェブページを取得する。ブロック702で、コンポーネントは、取得したウェブページの各ブロックの重要度を計算するために、ブロック重要度計算関数を起動する。ブロック703で、コンポーネントは、取得したウェブページから最高の重要度を持つブロックを選択する。ブロック704で、コンポーネントは、選択したブロックをウェブページの内容として表示する。
図8は、本発明の一実施形態による、学習した重要度関数を使用するウェブページ分類コンポーネントの処理を示すフローチャートである。コンポーネントは、ウェブページを渡され、そのウェブページを分類する。ブロック801で、コンポーネントは、渡されたウェブページの各ブロックの重要度を計算するために、ブロック重要度関数を起動する。ブロック802で、コンポーネントは、渡されたウェブページから最高の重要度を持つブロック(またはブロックのグループ)を選択する。ブロック803で、コンポーネントは、選択した最高の重要度を持つブロックのテキストを取り出す。ブロック804で、コンポーネントは、取り出したテキストに基づいて分類を生成する。分類は選択したブロック内のリンクに基づいたものであって良い。コンポーネントは分類を戻り値として返す。
本明細書では例示の目的で重要度システムの具体的な実施形態について説明してきたが、本発明の主旨および範囲から逸脱することなく様々な変更を施し得ることは、当業者であれば理解されよう。重要度システムの原理は、ウェブページ以外の様々な情報ソース内の情報エリアの重要度を判定するために使用することができる。そのような情報ソースとして、HTML、XML、またはその他のマークアップ言語を使用して表現される文書を挙げることができる。ブロック重要度の用途によっては、「学習」されない重要度関数も使用できることは、当業者であれば理解されよう。例えば、開発者は、ユーザ評価によるブロック重要度といった経験的データの収集に頼ることなく、ブロック重要度に対する自身の考えを反映させた重要度関数を単に定義することができる。そのような重要度関数は、ブロックのサイズおよびロケーションの組み合わせに基づいて、ブロックの重要度を評価することができる。したがって、本発明は、添付の特許請求の範囲による以外は、限定されることがない。
本発明の一実施形態における重要度システムの構成要素を示すブロック図である。 本発明の一実施形態における重要度システムの重要度関数生成コンポーネントの処理を示すフローチャートである。 本発明の一実施形態における重要度システムの特徴ベクトル生成コンポーネントの処理を示すフローチャートである。 本発明の一実施形態における重要度システムのブロック重要度計算コンポーネントの処理を示すフローチャートである。 本発明の一実施形態における学習済重要度関数を使用する検索結果順序付けコンポーネントの処理を示すフローチャートである。 本発明の一実施形態における学習済重要度関数を使用する検索結果拡張コンポーネントの処理を示すフローチャートである。 本発明の一実施形態における学習済重要度関数を使用するウェブページ表示コンポーネントの処理を示すフローチャートである。 本発明の一実施形態における学習済重要度関数を使用するウェブページ分類コンポーネントの処理を示すフローチャートである。
符号の説明
101 ブロック識別
102 ユーザ指定重要度収集
103 重要度関数生成
104 重要度関数適用
105 特徴ベクトル生成
111 ウェブページストア
112 ブロックストア
113 ユーザ指定重要度ストア
114 重要度関数ストア

Claims (40)

  1. コンピュータシステムにおいて、ブロックの、該ブロックを含むページに対する重要度を識別するための方法であって、
    ブロックを含むページの集まりを提供するステップ、
    各ブロックについて、
    該ブロックを表現する特徴ベクトルを生成するステップ、および、
    該ブロックの、そのページに対する重要度の表示を収集するステップ、
    特徴ベクトルから重要度へのマッピングを表す関数を、前記各ブロックについて生成された前記特徴ベクトルおよび表示された前記重要度から、学習するステップ、並びに、
    学習した前記関数を前記ページの前記ブロックの特徴ベクトル表現に適用して、前記ブロックの、前記ページに対する前記重要度の表示を生成するステップ
    を含むことを特徴とする方法。
  2. 前記特徴ベクトルは空間的特徴を含む、請求項1の方法。
  3. 前記特徴ベクトルは内容的特徴を含む、請求項1の方法。
  4. 前記内容的特徴は画像特徴を含む、請求項3の方法。
  5. 前記内容的特徴はリンク特徴を含む、請求項3の方法。
  6. 前記内容的特徴は対話特徴を含む、請求項3の方法。
  7. 前記特徴ベクトルは空間的特徴と内容的特徴とを含む、請求項1の方法。
  8. 前記学習するステップはニューラルネットワークベースの回帰分析を利用するステップを含む、請求項1の方法。
  9. 前記ニューラルネットワークは動径基底ニューラルネットワークである、請求項8の方法。
  10. 前記マッピングを表す関数は、該関数により計算される重要度と収集された前記重要度の差の平方和を最小化する傾向がある関数を選択することで学習される、請求項1の方法。
  11. 前記学習するステップは、サポートベクトルマシンアルゴリズムを使用することを含む、請求項1の方法。
  12. コンピュータシステムにおいて、検索結果に対するページの関連性を設定するための方法であって、
    前記検索結果の各ページのブロックを識別するステップ、並びに、
    前記検索結果の各ページについて、
    該ページの、最高の重要度のブロックを選択するステップ、および、
    該ページの前記関連性を、選択した前記ブロックに基づいて設定するステップ
    を含むことを特徴とする方法。
  13. 前記設定するステップは、先に計算された関連性を調整することを含む、請求項12の方法。
  14. 前記選択するステップは、前記ページの各ブロックについて、前記ブロックの特徴ベクトルを生成することと、生成された該特徴ベクトルに重要度関数を適用することを含む、請求項12の方法。
  15. 前記重要度関数は、ページの集まりに属するブロックのユーザ指定の重要度に基づいて学習される、請求項14の方法。
  16. 設定された前記関連性に基づいて前記ページを順序付けるステップを含む、請求項12の方法。
  17. コンピュータシステムにおいて、あるページに関係があるページを識別するための方法であって、
    前記あるページのブロックを識別するステップ、
    該ページの、最高の重要度を有するブロックを選択するステップ、
    選択した前記ブロックに基づいて検索リクエストを生成するステップ、および、
    生成した前記検索リクエストをサブミットして、前記あるページに関係があるページを識別するステップ
    を含むことを特徴とする方法。
  18. 前記選択するステップは、前記ページの各ブロックについて、前記ブロックの特徴ベクトルを生成することと、生成された該特徴ベクトルに重要度関数を適用することを含む、請求項17の方法。
  19. 前記重要度関数はページの集まりに属するブロックのユーザ指定の重要度に基づいて学習される、請求項18の方法。
  20. 前記あるページは検索結果の一部である、請求項17の方法。
  21. 前記検索リクエストは、選択した前記ブロックに関連付けられたテキストに基づいて生成される、請求項17の方法。
  22. コンピュータシステムにおいて、表示装置に表示するページの部分を選択するための方法であって、
    前記ページのブロックを識別するステップ、
    前記ページの、最高の重要度を有するブロックを選択するステップ、および、
    選択した前記ブロックを前記表示装置に表示するステップ
    を含むことを特徴とする方法。
  23. 前記表示装置はページ全体を無理なく表示することができない、請求項22の方法。
  24. 前記表示装置は携帯電話に結合される、請求項22の方法。
  25. 前記表示装置は携帯情報端末に結合される、請求項22の方法。
  26. 選択した前記ブロックは前記表示装置に表示される唯一のブロックである、請求項22の方法。
  27. 識別した前記ブロックの部分集合が、それらの重要度に基づいて表示される、請求項22の方法。
  28. 前記選択するステップは、前記ページの各ブロックについて、前記ブロックの特徴ベクトルを生成することと、生成された該特徴ベクトルに重要度関数を適用することを含む、請求項22の方法。
  29. 前記重要度関数はページの集まりに属するブロックのユーザ指定の重要度に基づいて学習される、請求項28の方法。
  30. コンピュータシステムにおいて、ページを分類するための方法であって、
    前記ページのブロックを識別するステップと、
    前記ページの、最高の重要度を有するブロックを選択するステップと、
    選択した前記ブロックに基づいて前記ページの分類を生成するステップと
    を含むことを特徴とする方法。
  31. 前記選択するステップが、前記ページの各ブロックについて、前記ブロックの特徴ベクトルを生成することと、生成された該特徴ベクトルに重要度関数を適用することを含む、請求項30の方法。
  32. 前記重要度関数はページの集まりに属するブロックのユーザ指定の重要度に基づいて学習される、請求項31の方法。
  33. 前記生成するステップは、選択した前記ブロックに関連付けられたテキストにさらに基づく、請求項30の方法。
  34. 前記生成するステップは、高い重要度を有する複数のブロックにさらに基づく、請求項30の方法。
  35. コンピュータシステムにページのブロックの重要度を、ある方法によって判定させる命令を含むコンピュータ可読媒体であって、該方法が、
    ページのブロックを識別するステップ、並びに、
    該ページの各ブロックについて、
    該ブロックを表現する特徴ベクトルを生成するステップ、および、該特徴ベクトルに重要度関数を適用して、該ブロックの、該ページに対する重要度を判定するステップ
    を含むことを特徴とする媒体。
  36. 前記重要度関数はページの集まりに属するブロックのユーザ指定の重要度に基づいて学習される、請求項35の媒体。
  37. 前記重要度関数はニューラルネットワークを使用して学習される、請求項36の媒体。
  38. 前記重要度関数はサポートベクトルマシンを使用して学習される、請求項36の媒体。
  39. 前記特徴ベクトルは空間的特徴を含む、請求項35の媒体。
  40. 前記特徴ベクトルは内容的特徴を含む、請求項35の媒体。
JP2005129811A 2004-04-29 2005-04-27 表示ページ内のブロックの重要度を計算するための方法およびシステム Pending JP2005317018A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/834,639 US7363279B2 (en) 2004-04-29 2004-04-29 Method and system for calculating importance of a block within a display page

Publications (1)

Publication Number Publication Date
JP2005317018A true JP2005317018A (ja) 2005-11-10

Family

ID=34939568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005129811A Pending JP2005317018A (ja) 2004-04-29 2005-04-27 表示ページ内のブロックの重要度を計算するための方法およびシステム

Country Status (10)

Country Link
US (3) US7363279B2 (ja)
EP (1) EP1591922B1 (ja)
JP (1) JP2005317018A (ja)
KR (1) KR20060045873A (ja)
CN (1) CN1702654B (ja)
AU (1) AU2005201765A1 (ja)
BR (1) BRPI0501441A (ja)
CA (1) CA2505317A1 (ja)
MX (1) MXPA05004680A (ja)
RU (1) RU2387004C2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180275435A1 (en) * 2017-03-23 2018-09-27 Boe Technology Group Co., Ltd. Method for Manufacturing Display Substrate, Method for Manufacturing Display Panel, and Display Panel

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7752266B2 (en) 2001-10-11 2010-07-06 Ebay Inc. System and method to facilitate translation of communications between entities over a network
US8078505B2 (en) 2002-06-10 2011-12-13 Ebay Inc. Method and system for automatically updating a seller application utilized in a network-based transaction facility
US7363279B2 (en) 2004-04-29 2008-04-22 Microsoft Corporation Method and system for calculating importance of a block within a display page
IL162411A0 (en) * 2004-06-08 2005-11-20 Picscout Ltd Method for presenting visual assets for sale, using search engines
WO2006093394A1 (en) * 2005-03-04 2006-09-08 Chutnoon Inc. Server, method and system for providing information search service by using web page segmented into several information blocks
US7672916B2 (en) * 2005-08-16 2010-03-02 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for music classification
US7546280B1 (en) * 2005-08-30 2009-06-09 Quintura, Inc. Use of neural networks for keyword generation
US7620607B1 (en) * 2005-09-26 2009-11-17 Quintura Inc. System and method for using a bidirectional neural network to identify sentences for use as document annotations
US7475072B1 (en) 2005-09-26 2009-01-06 Quintura, Inc. Context-based search visualization and context management using neural networks
JP4908813B2 (ja) 2005-09-30 2012-04-04 エプソンイメージングデバイス株式会社 電気光学装置、電気光学装置の駆動方法、電子機器
US7949646B1 (en) 2005-12-23 2011-05-24 At&T Intellectual Property Ii, L.P. Method and apparatus for building sales tools by mining data from websites
US20070156523A1 (en) * 2005-12-30 2007-07-05 Deborah Yee-Ky Liu Method and system to process an incentive
US20070220421A1 (en) * 2006-03-16 2007-09-20 Microsoft Corporation Adaptive Content Service
US8639782B2 (en) 2006-08-23 2014-01-28 Ebay, Inc. Method and system for sharing metadata between interfaces
KR100832859B1 (ko) * 2006-08-30 2008-05-28 한양대학교 산학협력단 모바일 웹 콘텐츠 서비스 시스템 및 그 방법
US7437370B1 (en) * 2007-02-19 2008-10-14 Quintura, Inc. Search engine graphical interface using maps and images
US7895148B2 (en) * 2007-04-30 2011-02-22 Microsoft Corporation Classifying functions of web blocks based on linguistic features
US20090248707A1 (en) * 2008-03-25 2009-10-01 Yahoo! Inc. Site-specific information-type detection methods and systems
US8180754B1 (en) 2008-04-01 2012-05-15 Dranias Development Llc Semantic neural network for aggregating query searches
US8051083B2 (en) * 2008-04-16 2011-11-01 Microsoft Corporation Forum web page clustering based on repetitive regions
US20090265611A1 (en) * 2008-04-18 2009-10-22 Yahoo ! Inc. Web page layout optimization using section importance
US8593666B2 (en) * 2009-02-11 2013-11-26 Hewlett-Packard Development Company, L.P. Method and system for printing a web page
US8429110B2 (en) * 2010-06-10 2013-04-23 Microsoft Corporation Pattern tree-based rule learning
EP2431889A1 (en) * 2010-09-01 2012-03-21 Axel Springer Digital TV Guide GmbH Content transformation for lean-back entertainment
US8650143B2 (en) * 2011-08-30 2014-02-11 Accenture Global Services Limited Determination of document credibility
CN102708244B (zh) * 2012-05-08 2016-01-20 清华大学 一种基于重要度度量的概念图自动布图方法
CN103546505B (zh) * 2012-07-12 2018-03-06 百度在线网络技术(北京)有限公司 将页面分块按优先级顺序显示的方法、系统及装置
US9773182B1 (en) * 2012-09-13 2017-09-26 Amazon Technologies, Inc. Document data classification using a noise-to-content ratio
CN103970749B (zh) * 2013-01-25 2017-08-25 北京百度网讯科技有限公司 一种网页中的块重要性计算方法及系统
WO2015041578A1 (en) 2013-09-18 2015-03-26 Telefonaktiebolaget L M Ericsson (Publ) Handling digital advertisements in a communication network
CN103678259B (zh) * 2013-12-18 2016-08-17 小米科技有限责任公司 一种页面的适配方法、装置和终端设备
US10152540B2 (en) * 2014-10-10 2018-12-11 Qualcomm Incorporated Linking thumbnail of image to web page
US9747382B1 (en) 2014-10-20 2017-08-29 Amazon Technologies, Inc. Measuring page value
CN104281714A (zh) * 2014-10-29 2015-01-14 南通大学 医院门户网站门诊专家信息抽取系统
CN104751148B (zh) * 2015-04-16 2018-09-07 同方知网数字出版技术股份有限公司 一种版式文件中识别科学公式的方法
CN106503012A (zh) * 2015-09-07 2017-03-15 阿里巴巴集团控股有限公司 页面展示方法及装置
EP3430577A1 (en) * 2016-03-18 2019-01-23 Google LLC Globally normalized neural networks
CN114037828A (zh) * 2021-11-26 2022-02-11 北京沃东天骏信息技术有限公司 组件识别方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06130921A (ja) * 1992-10-19 1994-05-13 Fujitsu Ltd データ表示処理システム
JP2001014326A (ja) * 1999-06-29 2001-01-19 Hitachi Ltd 構造指定による類似文書の検索装置及び検索方法
JP2004086849A (ja) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd 情報処理装置および方法

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5835905A (en) * 1997-04-09 1998-11-10 Xerox Corporation System for predicting documents relevant to focus documents by spreading activation through network representations of a linked collection of documents
US6032182A (en) * 1997-07-11 2000-02-29 International Business Machines Corporation Method, apparatus and computer program product for user selected refreshing of internet web pages
US20020002488A1 (en) * 1997-09-11 2002-01-03 Muyres Matthew R. Locally driven advertising system
US20020004744A1 (en) * 1997-09-11 2002-01-10 Muyres Matthew R. Micro-target for broadband content
US20010042016A1 (en) * 1997-09-11 2001-11-15 Muyres Matthew R. Local portal
US6067565A (en) * 1998-01-15 2000-05-23 Microsoft Corporation Technique for prefetching a web page of potential future interest in lieu of continuing a current information download
US6182133B1 (en) * 1998-02-06 2001-01-30 Microsoft Corporation Method and apparatus for display of information prefetching and cache status having variable visual indication based on a period of time since prefetching
US6446095B1 (en) 1998-06-09 2002-09-03 Matsushita Electric Industrial Co., Ltd. Document processor for processing a document in accordance with a detected degree of importance corresponding to a data link within the document
US6334131B2 (en) * 1998-08-29 2001-12-25 International Business Machines Corporation Method for cataloging, filtering, and relevance ranking frame-based hierarchical information structures
US6985781B2 (en) * 1999-01-12 2006-01-10 Pavilion Technologies, Inc. Residual activation neural network
US6449636B1 (en) * 1999-09-08 2002-09-10 Nortel Networks Limited System and method for creating a dynamic data file from collected and filtered web pages
US6700590B1 (en) * 1999-11-01 2004-03-02 Indx Software Corporation System and method for retrieving and presenting data using class-based component and view model
US6647410B1 (en) * 1999-11-05 2003-11-11 Reuters Limited Method, apparatus and program for delivery and display of information from dynamic and static data sources
US20020003547A1 (en) * 2000-05-19 2002-01-10 Zhi Wang System and method for transcoding information for an audio or limited display user interface
US6670968B1 (en) * 2000-07-10 2003-12-30 Fuji Xerox Co., Ltd. System and method for displaying and navigating links
US7130848B2 (en) * 2000-08-09 2006-10-31 Gary Martin Oosta Methods for document indexing and analysis
US6744447B2 (en) * 2000-12-29 2004-06-01 International Business Machines Corporation Method and system for compiling and using placebot agents for automatically accessing, processing, and managing the data in a place
US6694307B2 (en) * 2001-03-07 2004-02-17 Netvention System for collecting specific information from several sources of unstructured digitized data
US7310666B2 (en) * 2001-06-29 2007-12-18 International Business Machines Corporation Method and system for restricting and enhancing topology displays for multi-customer logical networks within a network management system
US7200662B2 (en) * 2001-07-06 2007-04-03 Juniper Networks, Inc. Integrated rule network management system
EP1421518A1 (en) * 2001-08-08 2004-05-26 Quiver, Inc. Document categorization engine
US6915025B2 (en) * 2001-11-27 2005-07-05 Microsoft Corporation Automatic image orientation detection based on classification of low-level image features
US6965900B2 (en) * 2001-12-19 2005-11-15 X-Labs Holdings, Llc Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
US7035467B2 (en) * 2002-01-09 2006-04-25 Eastman Kodak Company Method and system for processing images for themed imaging services
US7343365B2 (en) * 2002-02-20 2008-03-11 Microsoft Corporation Computer system architecture for automatic context associations
US20040024598A1 (en) * 2002-07-03 2004-02-05 Amit Srivastava Thematic segmentation of speech
US20040049374A1 (en) * 2002-09-05 2004-03-11 International Business Machines Corporation Translation aid for multilingual Web sites
US20040076345A1 (en) * 2002-09-18 2004-04-22 Olszak Artur G. Method for referencing image data
US7363279B2 (en) * 2004-04-29 2008-04-22 Microsoft Corporation Method and system for calculating importance of a block within a display page
US7580931B2 (en) * 2006-03-13 2009-08-25 Microsoft Corporation Topic distillation via subsite retrieval

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06130921A (ja) * 1992-10-19 1994-05-13 Fujitsu Ltd データ表示処理システム
JP2001014326A (ja) * 1999-06-29 2001-01-19 Hitachi Ltd 構造指定による類似文書の検索装置及び検索方法
JP2004086849A (ja) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd 情報処理装置および方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180275435A1 (en) * 2017-03-23 2018-09-27 Boe Technology Group Co., Ltd. Method for Manufacturing Display Substrate, Method for Manufacturing Display Panel, and Display Panel
US11003001B2 (en) * 2017-03-23 2021-05-11 Boe Technology Group Co., Ltd. Method for manufacturing a curved display substrate using a tape casting method, method for manufacturing a curved display panel using the same

Also Published As

Publication number Publication date
CA2505317A1 (en) 2005-10-29
CN1702654B (zh) 2012-03-28
CN1702654A (zh) 2005-11-30
EP1591922B1 (en) 2013-04-17
RU2387004C2 (ru) 2010-04-20
AU2005201765A1 (en) 2005-11-17
US20120109950A1 (en) 2012-05-03
EP1591922A1 (en) 2005-11-02
US20080256068A1 (en) 2008-10-16
RU2005113003A (ru) 2006-11-10
US8401977B2 (en) 2013-03-19
US8095478B2 (en) 2012-01-10
MXPA05004680A (es) 2005-11-17
US7363279B2 (en) 2008-04-22
KR20060045873A (ko) 2006-05-17
BRPI0501441A (pt) 2006-01-10
US20050246296A1 (en) 2005-11-03

Similar Documents

Publication Publication Date Title
JP2005317018A (ja) 表示ページ内のブロックの重要度を計算するための方法およびシステム
KR101203345B1 (ko) 요약을 이용하여 디스플레이 페이지를 분류하는 방법 및시스템
US7895148B2 (en) Classifying functions of web blocks based on linguistic features
US7917514B2 (en) Visual and multi-dimensional search
US9152723B2 (en) Method and apparatus for providing internet service in mobile communication terminal
US8965865B2 (en) Method and system for adaptive discovery of content on a network
CN101408897B (zh) 一种基于协作过滤的个性化查询扩展方法
MXPA05004679A (es) Metodo y sistema para identificar relevancia de imagen utilizando un analisis de enlace y diseno de pagina.
JP2009528628A (ja) ラベル付きドキュメントからラベルなしドキュメントへの関連度の伝播
JP6680956B1 (ja) 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法
JP2008176511A (ja) コンピュータネットワークにおける情報処理方法および情報処理装置
CN115659008B (zh) 大数据信息反馈的信息推送系统、方法、电子设备及介质
US7774340B2 (en) Method and system for calculating document importance using document classifications
CN118467851A (zh) 人工智能数据搜索与分发方法及系统
KR101827338B1 (ko) 이동통신 단말기에서 인터넷 서비스 제공 방법 및 장치
US20200226159A1 (en) System and method of generating reading lists
Makvana et al. Comprehensive analysis of personalized web search engines through information retrieval feedback system and user profiling
WO2023079703A1 (ja) 処理実行システム、処理実行方法、及びプログラム
Basile et al. Augmenting a content-based recommender system with tags for cultural heritage personalization
JP2001297115A (ja) ハイパーテキストアクセスパターン解析装置
Raza et al. Computer Science Review
CN118485502A (zh) 个性定制商品标签的生成方法、装置、设备及存储介质
CN117575744A (zh) 一种基于用户关联关系的物品推荐方法及系统
MX2008010488A (en) Propagating relevance from labeled documents to unlabeled documents
Zhang et al. On web communities mining and analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110405

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110705

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110804

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111222