JP5438218B2 - ウェブ・ページへのキーワード割り当て - Google Patents

ウェブ・ページへのキーワード割り当て Download PDF

Info

Publication number
JP5438218B2
JP5438218B2 JP2012522891A JP2012522891A JP5438218B2 JP 5438218 B2 JP5438218 B2 JP 5438218B2 JP 2012522891 A JP2012522891 A JP 2012522891A JP 2012522891 A JP2012522891 A JP 2012522891A JP 5438218 B2 JP5438218 B2 JP 5438218B2
Authority
JP
Japan
Prior art keywords
keyword
keywords
link
self
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012522891A
Other languages
English (en)
Other versions
JP2013500541A (ja
Inventor
コディアラム,ムラリドハラン,サンパス
ムクヘルジー,サリト
ワン、リミン
イフム,ソンファン
Original Assignee
アルカテル−ルーセント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルカテル−ルーセント filed Critical アルカテル−ルーセント
Publication of JP2013500541A publication Critical patent/JP2013500541A/ja
Application granted granted Critical
Publication of JP5438218B2 publication Critical patent/JP5438218B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Description

本発明は、一般的に、ウェブ・ページ分類の分野に関するものであり、より具体的には、関連性のあるキーワードに応じてウェブ・ページを分類することに関するものである。
ウェブ・ページへのキーワード割り当ては、ウェブ・ページの分類および検索を行う上で重要なステップである。キーワードは、ページに含まれている情報を捕捉できるように十分な代表性を有していなければならず、また実用になるように十分な共通性と社会的許容性を有していなければならない(例えば、ユーザ指定の検索キーワードに応じて関連性のあるウェブ・ページをユーザに対して識別する)。
通常、1つのウェブ・ページは、デザイナーによってそのウェブ・ページに割り当てられた少数のキーワードを含む。例えば、HTMLタグ「title」またはメタ・タグ「keywords」もしくは「description」の下にキーワードを見つけることができる。ウェブ・デザイナーが異なればキーワードの割り当て方も、その使用目的も異なるため、これらのキーワードは必ずしも実用となる十分な許容性を有していない。
ウェブ・ページへのキーワード割り当てに使用できる異なる技術がいくつかある。人工知能ベースの技術ではアルゴリズムを用いてウェブ・ページを解析し、ウェブ・ページの特性を学習し、それに応じて、キーワードをウェブ・ページに割り当てる。このアルゴリズムは、解析されるウェブ・ページの数とともに改善する。データ・マイニング・ベースの技術では、アルゴリズムを用いてページに存在するデータ内のトレンドを探し、次いで、そのページに対するキー属性を識別する。キーワード密度ベースの技術では、アルゴリズムを用いてウェブ・ページ内に存在する単語を調べて、得られた密度関数に基づきキーワードをウェブ・ページに割り当てる。
これらの技術は、非常に大きな計算量を伴い、ページ・コンテンツを解析する必要があるためページ毎に大きな記憶領域を必要とする。それに加えて、ページ・コンテンツの修正があれば、ページ全体の再解析も必要になる。さらに、これらの技術は、ページのコンテンツに依存しているため、Google(商標) Mapページなどの、JavaScript(登録商標)を使用して動的に構築されるページなど、単語が少ししかないウェブ・ページへのキーワード割り当てには適さない。
従来技術のさまざまな欠陥は、ウェブ・ページにキーワードを割り当てることを、そのウェブ・ページ自体からのキーワード・データ、そのウェブ・ページを指しているリンクを有するウェブ・ページ、およびそのウェブ・ページ内のリンクが指しているウェブ・ページを使用して行うための方法、システム、および装置の本発明によって対処され、複数のウェブ・ページからのキーワード・データは、そのウェブ・ページに対するキーワード・データの関連性のある集合を構成するように処理される。
キーワードをウェブ・ページに割り当てるための方法の一実施形態は、そのウェブ・ページに関連付けられている、そのウェブ・ページからのキーワード・データを含むセルフ・キーワード(self keywords)を識別することと、そのウェブ・ページに関連付けられている、そのウェブ・ページへのリンクを含む他のウェブ・ページからのキーワード・データを含むイン・リンク・キーワード(in−link keyword)を識別することと、そのウェブ・ページに関連付けられている、そのウェブ・ページからのリンクを有する他のウェブ・ページからのキーワード・データを含むアウト・リンク・キーワード(out−link keywords)を識別することと、セルフ・キーワード、イン・リンク・キーワード、およびアウト・リンク・キーワードを組み合わせてそのウェブ・ページに対するキーワードの集合を形成することとを含む。それに加えて、セルフ・キーワード、イン・リンク・キーワード、およびアウト・リンク・キーワードは、セルフ・キーワード、イン・リンク・キーワード、およびアウト・リンク・キーワードの各ランク順序付け集合を構成するようにさらに処理することができる。それに加えて、ヒューリスティック関数の1つまたは複数を使用して、セルフ・キーワード、イン・リンク・キーワード、およびアウト・リンク・キーワードの集合内のそれぞれのキーワードの相対的重要度を決定することができる。
本発明の教示は、付属の図面とともに以下の説明を考察することによりよく理解できる。
本発明の実施形態の理解に役立つネットワーク化されたコンピュータ・システムの高水準ブロック図である。 リンクされているウェブ・ページ間のキーワード関係を図形で表した図である。 一実施形態によるキーワードをウェブ・ページに割り当てるための方法を示す流れ図である。 ウェブ・ページ内の適当なキーワードを識別する方法を示す流れ図である。 ウェブ・ページに関連付けられているキーワードをランク付けする方法を示す流れ図である。 本明細書で説明されている機能を実行する際に使用するのに適している汎用コンピュータの高水準ブロック図である。
理解しやすくするために、同一の参照番号を使用し、これらの図に共通の同一の要素をできる限り指定する。
本発明は、特定のウェブ・ページ、その特定のウェブ・ページを指しているリンクを中に有する他のウェブ・ページ、およびその特定のウェブ・ページ内のリンクが指している他のウェブ・ページからのデータを使用してキーワードを特定のウェブ・ページに割り当てるための方法、システム、および装置という文脈の中でもっぱら説明される。複数のウェブ・ページを反復処理して、それらのウェブ・ページの各キーワードの関連性を高めることができる。複数のウェブ・ページ、場合によっては利用可能なすべてのウェブ・ページに関連付けられているキーワードが、探索アルゴリズム、分類アルゴリズム、および同様のものの文脈の中でキーワード・データベースの高速探索が行われるように構成されているウェブ・ページ・キーワード・データベースを形成することができる。本明細書の教示を納得した当業者であれば、これらの実施形態がウェブ・ページ分類(複数のウェブ・ページにキーワードを割り当てることによる)、ユーザ追跡(ユーザが訪問したページのキーワードを調査することによる)、および同様のものなどの多数の他の用途に応用可能であることを理解するであろう。
通常、1つのウェブ・ページは、設計者によってそのウェブ・ページに割り当てられた少数のキーワードを含む。例えば、キーワードは、「title」などのHTMLタグもしくは他のHTMLタグを調べることによって、または「keyword」タグもしくは「description」タグなどのメタ・タグを調べることによって、ウェブ・ページ内に見つけることができる。さまざまな実施形態において、特定の方ウェブ・ページにキーワードを割り当てるための反復的または非反復的方法の文脈内でこれらのキーワードを利用する。これらの実施形態は、ウェブ・ページに、そのウェブ・ページもしくは関係するウェブ・ページがキーワード関係タグを含んでいないとしてもキーワードを割り当てるように動作することに留意されたい。
概して、これらのさまざまな実施形態による方法、システム、および装置では、キーワードを特定のウェブ・ページに割り当てることを、そのウェブ・ページ(本明細書では「セルフ」ウェブ・ページと称される)、そのセルフ・ウェブ・ページを指しているリンクを有するウェブ・ページ(本明細書では「イン・リンク」ウェブ・ページと称される)、およびセルフ・ウェブ・ページが指しているウェブ・ページ(本明細書では「アウト・リンク」ウェブ・ページと称される)からキーワードを取り出すことによって行う。
図1は、本発明の実施形態の理解に役立つネットワーク化されたコンピュータ・システムの高水準ブロック図である。特に、複数のネットワーク要素またはノード110が標準的な方法で相互接続され、インターネットなどのネットワーク120を形成する。さまざまなネットワーク要素またはノードは、ウェブ・ページ、ストリーミング・メディア、および同様のものの共通もしくは統一アドレッシング(common or uniform addressing)をサポートするさまざまなプロトコルに準拠するハードウェアおよびソフトウェア・コンポーネントを備える。本発明の文脈内において、説明は、ハイパーテキスト・マークアップ言語(HTML)、拡張マークアップ言語(XML)、ユニフォーム・リソース・ロケータ(URL)、およびワールド・ワイド・ウェブを熟知する者によって理解される他の標準化されたプロトコルを使用するウェブ・ページに限定される。
本発明の説明を目的として、ネットワーク要素またはノード110のそれぞれは、汎用コンピュータを含むものと仮定するが、専用コンピュータおよび/または他のデバイス(例えば、ルーター、ブリッジ、スイッチ、および同様のもの)も、さまざまな実施形態の文脈内で使用することができる。本明細書で説明されている汎用コンピュータのオペレーションの詳細については、簡潔にのみ説明する。汎用コンピュータ110のそれぞれは、ネットワーク120内の他の汎用コンピュータ110のうちの1つまたは複数と通信する。それらの汎用コンピュータ110の1つまたは複数がソフトウェア命令を実行し、これにより、さまざまな実施形態に関して本明細書で説明されている方法、システム、および技術を実装する。
汎用コンピュータ110は、プロセッサ111、入出力インターフェース117、およびメモリ112を備えるものとして示されている。プロセッサ111は、メモリ112および入出力インターフェース117のそれぞれに結合されている。入出力インターフェース117は、ネットワーク120内の他のノードまたはネットワーク要素との通信が円滑に行われるように適合される。
汎用コンピュータ110のメモリ112は、アプリケーション113に関連付けられているデータおよびウェブ・ページ114に関連付けられているデータを格納するものとして示されている。ウェブ・ページは1つしか示されていないが、汎用コンピュータ110のメモリ114の文脈内においてウェブ・ページの複数のインスタンスをサポートすることができることに留意されたい。さらに、さまざまな実施形態を実装するうえで、汎用コンピュータ110のメモリ内にウェブ・ページが存在することは必須でないことにも留意されたい。アプリケーション113は、プロセッサ111によって実行されたときにさまざまな実施形態に関して本明細書で説明されているさまざまなステップを実行するソフトウェア命令を備える。
ウェブ・ページ114は、コンテンツC、メタデータMD、説明D、およびリンクLを含むものとして示されている。コンテンツCは、任意のテキスト、画像、または他のコンテンツ・データを含むことができる。メタデータMDおよび説明Dは、さまざまな実施形態に関して本明細書で説明されているようなウェブ・ページに関係する任意の標準的な、または非標準的な情報を含むことができる。リンクLは、例えば、URL、または他のウェブ・ページを指す他のタイプのリンクを含むことができる。
サービス・プロバイダ・ノード130は、プロセッサ131、入出力インターフェース137、およびメモリ132を備えるものとして示されている。プロセッサ131は、メモリ132および入出力インターフェース137のそれぞれに結合されている。入出力インターフェース137は、上述の汎用コンピュータ110などの、ネットワーク120内の他のノードまたはネットワーク要素との通信が円滑に行われるように適合される。サービス・プロバイダ・ノードは、例えば、ネットワーク120を介して複数のノードと通信するサーバーおよび/または管理機能をサポートするノードを含む。概して、どのようなサーバー、クライアント、または他のデバイスも、実施形態に関して本明細書で説明されているさまざまな機能を実行することができる。さらに、複数のサーバー、クライアント、および/または他のデバイスは、さまざまな機能をより高速に実行するため並列動作させることができる。例えば、一方のデバイスがインリンク・リストを更新するように適合され、他方のデバイスがアウトリンク・リストを更新するように適合されうる。処理されるべきウェブ・ページの数の増大に合わせていずれかのリストを更新するためにサーバーを追加して使用することもできる。
サービス・プロバイダ・ノード130のメモリ132は、アプリケーション133に関連付けられているデータおよびキーワード格納データベース139に関連付けられているデータを格納するものとして示されている。アプリケーション133は、プロセッサ111によって実行されたときにさまざまな実施形態に関して本明細書で説明されているさまざまなステップを実行するソフトウェア命令を備える。キーワード割り当てデータベース139は、1つまたは複数のウェブ・ページに関連付けられているキーワード・データが格納されるデータベースを含む。キーワード割り当てデータベース139は、例示的なサービス・プロバイダ・ノード130の一コンポーネントとして示されている。しかし、キーワード割り当てデータベース139は、さまざまな実施形態に従って動作する処理回路(サービス・プロバイダ・ノード130など)に関してリモートであるものとしてよいことは、当業者に理解されるであろう。一実施形態では、ウェブ・ページに関連付けられているキーワード情報を格納するために外部データベース140が用意される。
概して、さまざまな実施形態に関して本明細書で説明されている方法は、サービス・プロバイダ・ノード132内で実行され、ネットワーク120内のノード110の一部または(理想的には)全部の中のウェブ・ページに関連付けられているキーワード・データを抽出する。したがって、さまざまな実施形態において、キーワード格納データベース139および/またはデータベース140は、ネットワーク120内のさまざまなノード110によってサポートされるか、またはホストされているウェブ・ページ114のそれぞれに関連付けられているキーワード・データを格納するために使用される。したがって、一実施形態は、ネットワーク管理システム(network management system)(NMS)、ネットワーク・アドミニストレーション・システム(network administration system)、サービス・プロバイダ・ノード、またはこれらの実施形態に関して以下で説明されているさまざまなパラメータを計算するためにソフトウェアを実行する他のネットワークもしくは管理要素を含む。これらの実施形態のハードウェア/ソフトウェア要素をサポートすることについて、本明細書においてさまざまな図に関して説明されている。
図2は、リンクされているウェブ・ページ間のキーワード関係を図形で表した図である。特に、図2は、セルフ・ウェブ・ページ210、複数のイン・リンク・ウェブ・ページ220、220、220、などから220まで(総称的に、イン・リンク・ウェブ・ページ220)、および複数のアウト・リンク・ウェブ・ページ230、230、230、などから例示的に230まで(総称的に、アウト・リンク・ウェブ・ページ230)を図形で示している。
セルフ・ウェブ・ページ210は、キーワード割り当てを決定するために処理されているウェブ・ページを含む。イン・リンク・ウェブ・ページ220は、HTML、XML、href、もしくは他のリンクなどのリンク、またはセルフ・ページの方を指すか、セルフ・ページをアドレス指定するか、またはユーザをセルフ・ページへリダイレクトするアドレス指定メカニズムを備えるウェブ・ページからなる。アウト・リンク・ウェブ・ページ230は、HTML、XML、hrefもしくは他のリンクまたはセルフ・ページ内のアドレス指定メカニズムによって指し示されるか、または他の何らかの方法でアドレス指定されるウェブ・ページを含む。
セルフ・ページ210は、各キーワードを1つ関連付けられるか、または複数関連付けられるか、または1つも関連付けられないものとしてよい。図2に示されている、セルフ・ページ210は、キーワードの各集合[k1]を関連付けられている。セルフ・ページ・キーワードの集合は、重みw0として表される、各重みを関連付けられている。
イン・リンク・ウェブ・ページ220は、各キーワードを1つ関連付けられるか、または複数関連付けられるか、または1つも関連付けられないものとしてよい。例えば、各イン・リンク・ウェブ・ページ220は、キーワードの各集合[k1、k2、...]を関連付けられており、イン・リンク・ウェブ・ページ220は、キーワードの各集合[k3、k4、...]を関連付けられており、イン・リンク・ウェブ・ページ220は、キーワードの各集合[k2、k4、...]を関連付けられており、イン・リンク・ウェブ・ページ220は、NULL集合(つまり、キーワードなし)を含むキーワードの各集合を関連付けられている。イン・リンク・ウェブ・ページ・キーワードの集合のそれぞれは、重みw1からwnで表される、各重みwを関連付けられている。
イン・リンク・ウェブ・ページ230のそれぞれは、各キーワードを1つ関連付けられるか、または複数関連付けられるか、または1つも関連付けられないものとしてよい。例えば、アウト・リンク・ウェブ・ページ230は、キーワードの各集合[k1、k2、...]を関連付けられており、アウト・リンク・ウェブ・ページ230は、キーワードの各NULL集合[]を関連付けられており、アウト・リンク・ウェブ・ページ230は、キーワードの各集合[k2、k4、...]を関連付けられており、アウト・リンク・ウェブ・ページ230は、キーワードの各集合[k1、k3、...]を関連付けられている。アウト・リンク・ウェブ・ページ・キーワードの集合のそれぞれは、重みw5からw8で表される、各重みwを関連付けられている。
セルフ・ウェブ・ページ210に割り当てられるべきキーワードの集合を形成するために、オリジナルのセルフ・ウェブ・ページ・キーワード、イン・リンク・ウェブ・ページ・キーワード、およびアウト・リンク・ウェブ・ページ・キーワードを収集して、さまざまな実施形態に従って処理し、例えば、セルフ・ノードに関連付けられているキーワードのランク順序を形成する。キーワードのこの収集および処理は、複数のセルフ・ノード(例えば、イン・リンクおよびアウト・リンク・ノード)のそれぞれについて、これらの追加のノードもランク順序でリストされている各収集/処理されたキーワードを含むように反復することができる。この方法は、どの特定のセルフ・ノードにも関連付けられているキーワードもしくはランク順序付けされたキーワードがそのセルフ・ノードに対する関連性に関して絶えず変化し、および/または改善している連続プロセスを含むことができる。例えば、どの特定のセルフ・ウェブ・ページにも関連付けられているイン・リンク・ウェブ・ページは、その特定のセルフ・ウェブ・ページを指すウェブ・ページが増える(または減る)につれ時間とともにほとんど確実に変化する。したがって、さまざまな実施形態において、本明細書に提示されている方法は、割り当てられたキーワード集合が継続的に改善または拡大されうるウェブ・ページに対する代表的キーワード集合割り当てを行う。
概して、ウェブ・ページは、典型的には、コンテンツ部分と非コンテンツ部分とを備える。コンテンツ部分もしくは非コンテンツ部分のいずれかが、本発明の実施形態の文脈内でキーワードとして使用するのに適したテキストを含む。複雑さを減らした実施形態(つまり、より少ない計算リソースを使用する実施形態)では、ウェブ・ページの非コンテンツ部分内に含まれるテキストのみがキーワード集合内に含まれる。より複雑な実施形態(つまり、計算リソースの要求にあまり関係しない実施形態)では、ウェブ・ページのコンテンツ部分内に含まれるテキストも、ウェブ・ページに関連付けられているキーワード集合内に含めることができる。
図3は、一実施形態によるキーワードをウェブ・ページに割り当てるための方法を示す流れ図である。特に、図3の方法300は、1つまたは複数のセルフ・ページに関連付けられているキーワード集合を生成するように適合される。図3の方法300は、必要に応じて1つまたは複数のウェブ・ページに対して繰り返すことができる。
ステップ310で、セルフ・ページ・キーワードを識別する。つまり、キーワード割り当てのために処理されているウェブ・ページ内のキーワードを識別する。
ステップ320で、イン・リンク・ページ・キーワードを識別する。つまり、キーワード割り当てのために処理されているウェブ・ページを指しているリンクを有するウェブ・ページ内のキーワードを識別する。ボックス325を参照すると、イン・リンク・ページのリストが適宜更新されることがわかる。そのような更新は、検索エンジン、ウェブ・クローラー、または他のメカニズムを呼び出して処理されているウェブ・ページを指しているリンクを含むウェブ・ページを識別することを含むことができる。例えば、www.example.comとして示されているセルフ・ウェブ・ページが処理されると仮定すると、ウェブを巡回することによって、または検索語「link:www.example.com」を使用してYahooまたはGoogleなどの検索エンジンを使用することによって、そのセルフ・ウェブ・ページにリンクするウェブ・ページすべてのリストを時間の経過とともに形成することができる。ウェブ・ページの結果リスト(Inlink_listと表される)から、そのセルフ・ページに関係するイン・リンク・キーワード・データの参照元となっているウェブ・ページに関連付けられているアドレス/識別情報が得られる。一実施形態では、Inlink_list内のイン・リンク・ウェブ・ページは、強度、関連性、または他のランク付けの枠組みに従ってランク順序付けされる。さらに別の実施形態では、キーワードを供給するために、定義済みの数のランク付けされたイン・リンク・ウェブ・ページからのキーワードのみを使用する。
ステップ330で、アウト・リンク・ページ・キーワードを識別する。つまり、キーワード割り当てのために処理されているウェブ・ページ内のリンクが指しているウェブ・ページ内のキーワードを識別する。Outlink_listは、セルフ・ページ(例えば、www.example.com)のソース・ファイルを解析し、そのページ内のhrefデータを収集することによって取得することができるけれども、画像ページに関連付けられているhrefデータは、有用なテキスト・コンテンツが入っていない可能性があるため、Outlink_listから無視してよい。ボックス335を参照すると、アウト・リンク・ページのリスト(Outlink_listと表されている)が適宜更新されることがわかる。このような更新は、アウト・リンクへの変更/更新が発生したかどうかを判定するためにそのセルフ・ウェブ・ページを調べることを含むことができる。Outlink_listから、そのセルフ・ページに関係するアウト・リンク・キーワード・データの参照元となっているウェブ・ページに関連付けられているアドレス/識別情報が得られる。
一実施形態では、Inlink_listとOutlink_listの中で識別されているそれぞれのページを処理して、図2に関して示されているリンクされているウェブ・ページ間の図形で表されているキーワード関係に関して上で説明されているような表示用の各Keyword_setを形成する。
本明細書のステップ310、320、および330で使用するのに適しているキーワードを識別するための一実施形態について、図4に関して以下でさらに詳しく説明する。
ステップ340で、識別されたキーワードに重みを割り当てる。本発明の文脈内で、さまざまな重み付け技術を使用することができる。一実施形態では、それぞれのキーワードに同じ重みを割り当てる。別の実施形態では、キーワードの重みは、キーワードの導き出し元であるウェブ・ページの強度に応じて適合される。他の重み付け方式について、以下でさらに詳しく説明する。別の実施形態では、キーワードの重みは、ウェブ・ページへのキーワードのリンク(つまり、セルフ、イン・リンク、アウト・リンク)に基づいており、異なるリンクが、同じ、または異なる重みに関連付けられうる。
ステップ350で、セルフ・ウェブ・ページに対して、重み付けされたキーワードの集合を形成する。つまり、セルフ・ページに関連付けられるべき重み付けされたキーワードの集合は、セルフ・ページ、イン・リンク・ページ、およびアウト・リンク・ページから導き出された重み付けされたキーワードを使用して形成される。
ステップ360で、セルフ・ページに関連付けられている重み付けされたキーワードの集合は、必要に応じて格納され、および/または処理される。ボックス365を参照すると、ステップ360は、データベースを更新することと、データをアプリケーションに提供することと、ランク順序付けされたキーワードおよび/または他の処理/格納オペレーションを形成することとを含むことができることがわかる。図5に関して以下で説明されている一実施形態では、ウェブ・ページに対するランク順序付けされたキーワードは、Count、Unique Count、およびWeighted Unique Countヒューリスティック関数を使用して生成される。次いで、順序付けされたキーワードの部分集合(例えば、上位M個のキーワード)をセルフ・ウェブ・ページに割り当てる。他の関数も、さまざまな実施形態の文脈内で使用することができる。
ステップ370で、セルフ・ページとして処理されるべき次のページを選択し、その新しく選択されたセルフ・ページに対して方法30を繰り返す。
図4は、ウェブ・ページ内の適当なキーワードを識別する方法を示す流れ図である。特に、図4の方法400は、図3の方法300のステップ310、320、および330を実装する際に使用するのに適している。本明細書で説明されている実施形態は、特定の順序で出現するいくつかのヒューリスティック関数を利用することを示しているが、それよりも多いまたは少ないヒューリスティック関数を使用することができ、使用されるヒューリスティック関数の特定の順序を変更することができ、識別方法に対して他の修正を加えることができることに留意されたい。
ステップ410で方法400に入り、ウェブ・ページに関連付けられている定義済みキーワードが識別される。ボックス415を参照すると、これらの定義済みキーワードは、titleフィールド、method keywordフィールド、meta−descriptionフィールド、他のフィールド、または処理されているウェブ・ページ内のタグ内の情報を含むことができることがわかる。すでに述べているように、さまざまな実施形態の文脈内で、キーワード・データを構成するためにウェブ・ページのコンテンツ部分および非コンテンツ部分のいずれかまたは両方からのテキスト・ベースのデータを選択的に使用する。
ステップ420で、潜在的なキーワード・フレーズを抽出する。キーワード・フレーズは、キーワードとして機能しうる複数の隣接する単語を含む。潜在的なキーワード・フレーズのコンポーネント・キーワードが定義可能であるか、または他の何らかの点で何らかの意味を持つ場合、コンポーネント・キーワードは、有効なキーワード・フレーズを形成する。潜在的なキーワード・フレーズのコンポーネント・キーワードが定義可能でないか、またはキーワード・フレーズの文脈内において他の何らかの点で役立たない場合、コンポーネント・キーワードは、有効なキーワード・フレーズを形成しない。ボックス425を参照すると、キーワード・フレーズは、1つまたは複数の単語がカンマ、タブ、セミコロン、ブランク、空白、または線によって分離された区切りが入っているフレーズを含むことができることがわかる。
潜在的なキーワード・フレーズのコンポーネント・キーワードを第1の区切り(例えば、空白またはブランク)によって分離される一実施形態では、Nが1より大きい整数であるとして、それぞれのグループがN個の隣接するキーワードを含む潜在的なキーワード・フレーズのグループが確立される。このステップは、1より大きいサイズNを使用することができる。したがって、潜在的なキーワード・フレーズの第1のグループは、隣接するコンポーネント・キーワードのそれぞれの対を組み合わせて各潜在的なキーワード・フレーズを形成することによって形成されうる(つまり、N=2)。同様に、潜在的なキーワード・フレーズの第2のグループが、隣接するコンポーネント・キーワードのそれぞれの三つ組みを組み合わせて各潜在的なキーワード・フレーズを形成することによって形成されうる(つまり、N=3)。
潜在的なキーワード・フレーズのコンポーネント・キーワードが第2の区切り(例えば、カンマ)によって分離される一実施形態では、第2の区切りの2つのインスタンスの間の潜在的なキーワードが、潜在的なキーワード・フレーズとして一緒に定義される。この実施形態の精密化において、2つの区切りの間のコンポーネント・キーワードを処理して、上述のように、それぞれのグループが長さNのキーワード・フレーズを含む潜在的なキーワード・フレーズの1つまたは複数のグループを形成する。
ステップ430で、ステップ420において抽出された潜在的なキーワード・フレーズを評価して有効なキーワードとキーワード・フレーズのみを含むキーワード・リストを形成する。ボックス435を参照すると、この評価は、Wikipedia、辞書または文法校正サービス事業者、第三者の評価業者、キーワードもしくはキーワード・フレーズ・データベース、および同様のものによって提供されるようなリファレンス機能またはウェブサイトを使用して実行できることがわかる。つまり、スペリング・エンジン、文法エンジン、および検索エンジンのどれかを使用して、潜在的な一意的キーワードが有効なフレーズを表すかどうかを判定することができる。この機能を有効にするエンジンもしくはソフトウェアは、サードパーティ製のアプリケーション、スタンドアロンのアプリケーション、および同様のものであってよい。ステップ430は、特定のキーワード・フレーズがさまざまな実施形態の文脈内でキーワードとして使用するのに適しているかどうかを判定することを対象としている。ナンセンスである、誤っている、および/または許可されていない、もしくは嫌悪されているキーワードおよびキーワード・フレーズは、一般的に、ウェブ・ページの記述内では有用でない。
例えば、N=3で、ステップ420において抽出された3つのコンポーネント・キーワードが順に潜在的なキーワード・フレーズ「new york times」を形成する場合、Wikipediaで検索語「new york times」を検索すると、キーワード・フレーズ「new york times」が有効であることがわかる。
ステップ440で、どのストップ・ワードおよびエクストラ・ワードもキーワード・リストから除去される。ストップ・ワードは、ふつうの接続詞、前置詞、および同様のものなどの、キーワードとして特に有用ではない単語および/またはフレーズである。ストップ・ワードのリストには、「a、about、above、across、after、afterwards、again、against、all、almost、alone、along、already、also、although、always、am、among、amongst、amongst、amount、amp、an、and、another、any、anyhow、anyone、anything、anyway、anywhere、are、around、as、at、back、be、became、because、become、becomes、becoming、been、before、beforehand、behind、being、below、beside、besides、between、beyond、bill、both、bottom、but、by、call、can、cannot、cant、co、computer、con、could、couldn’t、cry、de、describe、detail、do、done、down、due、during、each、e.g.、eight、either、eleven、else、elsewhere、empty、enough、etc、even、ever、every、everyone、everything」などを含めることができる。いくつかのストップ・ワードは、フレーズの文脈内で関連性を有していることがあり、したがって、関連性のあるフレーズの一部をなす場合に除去されない。
ステップ450で、ウェブ・ページに関連付けられている識別されたキーワードのリストを、図4の方法400のオペレーションを呼び出す方法ステップ(例えば、図3の方法300のステップ310、320、または330)などに供給する。
図5は、ウェブ・ページに関連付けられているのキーワードをランク付けする方法を示す流れ図を示している。特に、図5の方法500は、図3の方法300のステップ360/365を実装する際に使用するのに適している。方法500は、Count、Unique Count、および/またはWeighted Unique Countヒューリスティック関数の1つまたは複数を使用してウェブ・ページに関連付けられているキーワードのリスト内のM個の最も目立つキーワードのリストを生成することを企図している。他のヒューリスティック関数も、さまざまな実施形態の文脈内で使用することができる。
本明細書で説明されているさまざまなヒューリスティック関数がキーワード・データの同じ集合を処理するものとして提示されているが、キーワード・データの縮小された、または他の何らかの方法で処理された集合に作用する他の関数も使用することができることに留意されたい。
以下の記法を使用する。
n(i,j)は、ノードjに関連付けられているドキュメント内のキーワードkiの出現回数である。
u(i,j)は、キーワードkiがノードjに関連付けられているドキュメント内に出現する場合に1に設定され、そうでない場合には0に設定される。
wj:は、セルフ・ページとノードjとの間のリンクの重みである。
キーワードのリスト(つまり、図3の方法300のステップ360で与えられるリスト)を受け取ると、ステップ510で方法500に入る。
オプションのステップ520で、Count関数をそれぞれのキーワードに適用する。ボックス525を参照すると、Count関数Cは関係式
C(i,j)=n(i,j)
によって定義されることがわかる。
オプションのステップ530で、Unique Count関数をそれぞれのキーワードに適用する。ボックス535を参照すると、Unique Count関数UCは関係式
UC(i,j)=u(i,j)
によって定義されることがわかる。
オプションのステップ540で、Weighted Unique Count関数をそれぞれのキーワードに適用する。ボックス545を参照すると、Weighted Unique Count関数UCは関係式
WUC(i,j)=wj*u(i,j)
によって定義されることがわかる。
ステップ550で、Count、Unique Count、および/またはWeighted Unique Countヒューリスティック関数を使用して、キーワードki毎にスコアを計算する。
ステップ560で、上位M個のキーワードを、処理されているウェブ・ページ(つまり、セルフ・ウェブ・ページ)に関連付けられているキーワード集合の構成要素として選択する。つまり、キーワード集合を、その後、キーワードのスコアに基づいてソートし、上位M個のキーワードをSelfノードに対する代表Keyword_setとして選択する。
オプションのステップ570で、キーワードのランク付けは、上位M個のキーワードki内でSum、Max、Vote、および/または他のComposite Score関数のうちの1つまたは複数を使用して(ボックス575を参照)さらに修正する。概して、これらの、および/または他の複合スコア関数またはヒューリスティック関数は、初期キーワード集合、または1つまたは複数のヒューリスティック関数を使用して処理されたキーワード集合に適用することができる。Sum、Max、およびVote Composite Score関数は、以下のように、ヒューリスティック関数ランク付けプロセスによって与えられたランク付けされたキーワード集合に対し、ランク付けの調整をさらに行う。
Sum(i)=rank(score(i,C))+rank(score(i,UC))
Max(i)=max(rank(score(i,C)),rank(score(i,UC)))
Vote(i)=score(i,C)とscore(i,UC)との多数決
一実施形態では、上述の複合スコア関数は、
Figure 0005438218
のように、関数「score(i,h)」に対し等式を使用する。
式中、iは考察対象のキーワードを表し、hはヒューリスティック関数であり、αはセルフ・ノードに割り当てられた重みであり(これは、上述のようにw0と同じであっても異なっていてもよい)、βはイン・リンク関係キーワードに割り当てられた重みであり、χはアウト・リンク関係キーワードに割り当てられた重みであり、h(i,j)はノードjに関連付けられているドキュメント内のキーワードiに対するヒューリスティック関数の結果である。
この式ではセルフ・ノード関係キーワードのすべてに第1の重みαを割り当て、イン・リンク関係キーワードのすべてに第2の重みβを割り当て、アウト・リンク関係キーワードのすべてに第3の重みχを割り当てることを企図していることに留意されたい。しかし、この式は、セルフ、イン・リンク、および/またはアウト・リンク・キーワード集合内の異なるキーワードが異なる割り当てられた重み値を有することができると規定するように修正できる。
一実施形態では、キーワードの各集合の文脈内におけるキーワードの相対的重要度または相対価値は、ヒューリスティック関数の1つまたは複数を使用して決定される、したがって、より大きなカウントC、一意的なカウントUC、および/または重み付きの一意的なカウントWUCを提示するキーワードは、それに呼応して、他のキーワードに比べて高い重要度または価値を有するものとみなすことができる。
一実施形態では、キーワードに割り当てられた重みは、キーワードのセルフ、イン・リンク、およびアウト・リンク集合内におけるそのキーワードに関連付けられているヒューリスティックのそれぞれの総和を含む。例えば、単語「car」がセルフ・ページ内に5回、イン・リンク・ページ内に10回、アウト・リンク・ページ内に1回出現する場合、「car」は重みとして16(つまり、5+10+1)を割り当てられる。
図6は、本明細書で説明されている機能を実行する際に使用するのに適している汎用コンピュータの高水準ブロック図を示している。図6に示されているように、システム600は、プロセッサ要素602(例えば、中央演算処理装置(CPU))、メモリ604、例えば、ランダム・アクセス・メモリ(RAM)および/または読み出し専用メモリ(ROM)、ディスクリプタ管理モジュール605、およびさまざまな入力/出力デバイス606(例えば、限定はしないが、テープ・ドライブ、フロッピ・ドライブ、ハードディスク・ドライブまたはコンパクト・ディスク・ドライブ、受信機、送信機、スピーカ、ディスプレー、出力ポート、およびユーザ入力デバイス(キーボード、マウス、および同様のものなど)を含む、ストレージ・デバイス)を備える。
本発明は、ソフトウェアおよび/またはソフトウェアとハードウェアの組み合わせにより、例えば、特定用途向け集積回路(ASIC)、汎用コンピュータ、または他の任意のハードウェア同等物を使用して実装することができることに留意されたい。一実施形態では、本発明のディスクリプタ管理プロセス605は、メモリ604内にロードされ、プロセッサ602によって実行されることで、上述の機能を実装することができる。したがって、本発明のディスクリプタ管理プロセス605(関連付けられているデータ構造体を含む)は、コンピュータ可読媒体またはキャリア、例えば、RAMメモリ、磁気もしくは光ドライブもしくはディスケット、および同様のものに格納することができる。
本明細書でソフトウェア方法として説明される工程のいくつかは、ハードウェア内に、例えば、プロセッサと連携してさまざまな方法ステップを実行する回路として実装することができることが企図されている。本発明のいくつかの部分は、コンピュータ命令がコンピュータにより処理されると、本発明に方法および/または技術が呼び出されるか、または何らかの方法により提供されるようにコンピュータの動作を適合させるコンピュータ・プログラム製品として実装することができる。本発明の方法を呼び出す命令は、固定または取り外し可能媒体に格納するか、放送または他の信号伝送媒体でデータ・ストリームを介して送信するか、および/または命令に従って動作するコンピューティング・デバイス内の作業用メモリ内に格納することができる。したがって、一実施形態は、ソフトウェア命令を格納するためのメモリとソフトウェア命令を実行するためのプロセッサとを備え、ソフトウェア命令は、プロセッサによって実行されたときに、本明細書で説明されているさまざまな実施形態に従ってキーワードをウェブ・ページに割り当てるための方法を装置に実行させる、装置を含む。
本明細書で説明されているように、ウェブ・ページへのキーワード割り当ては、非常に重要な問題であり、ユーザ・プロファイル生成、ウェブサイト分類およびフィルタリング(例えば、WebSense)、検索エンジン(例えば、Google)、キーワード・リサーチ(例えば、AdSense)などの文脈内で適用可能であることがわかる。上述の実施形態は、代表的キーワードの集合をウェブ・ページに割り当てるために複数のウェブ・ページに関連付けられているデータ、メタデータなどを使用するキーワード割り当てのための新規性のある方法、システム、および装置を実現する。
有利には、これらのさまざまな実施形態は、ページのメタデータのみを解析し、コンテンツを無視する場合に比較的軽量の(計算効率が高く、メモリ使用効率が高い)方法を実現する。これらの技術は、セルフ・ページだけではなく「近傍」ページからもキーワードを学習するという点でロバストなものである。
計算効率の高い実施形態の例
例えば、Kelley Blue Book(商標)自動車評価ウェブサイト・ページ(www.kbb.com)は、表1の表形式で以下に示すキーワード割り当てデータを生成するために本発明の一実施形態により評価される。特に、図3〜5の実施形態により処理される上位10個の(つまり、M=10)キーワードは、表1に関して以下に示されている。さまざまなプロセスによって使用される生データも以下に示す。例の中で使用されているパラメータは以下のとおりである。
URL:www.kbb.com
重み:self=10、Outlinks=2、Inlinks=1
イン・リンク・ソース:Yahoo(これは、Google、Bing、サービス・プロバイダのクローラーおよび/または検索エンジンもしくはクローラーとすることも可能である)
上位10個のキーワード(この例では239個のうちの)に対するランク順序付けられた結果を表1に関して以下に示す。
Figure 0005438218
セルフ、アウト・リンク、およびイン・リンク・ページから抽出されたキーワードのリストを以下に示す(リストは、簡単のため3つのアウト・リンクと3つのイン・リンクとに限定されている)。
セルフ(http://www.kbb.com)
● New Cars, Used Cars, Blue Book Prices & Car Values − Kelley Blue Book
○URL:http://www.kbb.com
○タイトル:[’new’, ’car’, ’new cars’, ’used cars’, ’blue’, ’blue book’, ’book’, ’price’, ’blue book prices’, ’car’, ’values’, ’car values’, ’kelley’, ’blue’, ’blue book’, ’book’, ’kelley blue book’]
○メタキーワード:[’car’, ’car’, ’new’, ’car’, ’new cars’, ’used cars’, ’vehicle’, ’vehicle’, ’auto’, ’automobile’, ’automobile’, ’blue’, ’blue book’, ’book’, ’book value’, ’value’, ’blue book value’, ’kelley’, ’blue’, ,’blue book’, ’book’, ’kelley blue book’, ’kelly’, ’blue’, ’blue book’, ’book’, ’kelly blue book’, ’kbb’]
○メタ記述:[’kelley’, ’blue’, ’blue book’, ’book’, ’trust’, ’resource’, ’price’, ’values’, ’review’, ’new’, ’car’, ’use’, ’car’, ’buying’, ’selling’, ’car’, ’visit’, ’visit kbb.com’]
Outlinks:
1. Kelley Blue Book
○URL:http://www.kbb.com/kbb/search/searchresult.aspx
○タイトル:[’kelley’, ’blue’, ’blue book’, ’book’]
○メタキーワード:[]
○メタ記述:[]
2. New Car − New Car Prices & Reviews − Kelley Blue Book
○URL:http://www.kbb.com/kbb/NewCars
○リダイレクト:http://www.kbb.com/kbb/NewCars/
○タイトル:[’new’, ’car’, ’new car’, ’new’, ’car’, ’price’, ’new car prices’, ’review’, ’kelley’, ’blue’, ’blue book’, ’book’, ’kelley blue book’]
○メタキーワード:[’new’, ’car’, ’new car’, ’new’, ’car’, ’price’, ’new car prices’, ’car’, ’price’, ’car price’, ’new’, ’car’, ’pricing’, ’new car pricing’, ’new’, ’car’, ’price’, ’new car price’, ’car’, ’price’, ’car price’, ’vehicle’, ’price’, ’vehicle price’, ’kelley’, ’blue’, ’blue book’, ’book’, ’kelley blue book’, ’kelly’, ’blue’, ’blue book’, ’book’, ’kelly blue book’, ’kbb’]
○メタ記述:[’kelley’, ’blue’, ’blue book’, ’book’, ’trust’, ’resource’, ’new’, ’car’, ’price’, ’research’, ’compare’, ’new’, ’car’, ’pricing’, ’read’, ’review’, ’read reviews’, ’rating’, ’browse’, ’video’, ’local’, ’dealer’]
3. Used Car − Used Car Prices, Used Car Values & Reviews − Kelley Blue Book
○URL:http://www.kbb.com/kbb/UsedCars
○リダイレクト:http://www.kbb.com/kbb/UsedCars/
○タイトル:[’used car’, ’use’, ’used car’, ’car’, ’price’, ’used car prices’, ’use’, ’used car’, ’car’, ’values’, ’used car values’, ’review’, ’kelley’, ’blue’, ’blue book’, ’book’, ’kelley blue book’]
○メタキーワード:[’used car’, ’usedcars’, ’use’, ’vehicle’, ’used vehicle’, ’use’, ’vehicles’, ’used vehicles’, ’use’, ’used car’, ’car’, ’price’, ’used car prices’, ’blue’, ’blue book’, ’book’, ’book values’, ’values’, ’blue book values’, ’use’, ’used car’, ’car’, ’pricing’, ’used car pricing’, ’use’, ’used car’, ’car’, ’values’, ’used car values’, ’use’, ’used car’, ’car’, ’value’, ’used car value’, ’car’, ’worth’, ’car’, ’kelley’, ’blue’, ’blue book’, ’book’, ’kelley blue book’, ’kelly’, ’blue’, ’blue book’, ’book’, ’kelly blue book’, ’kelly’, ’blue’, ’blue book’, ’book’, ’kellys blue book’]
○メタ記述:[’kelley’, ’blue’, ’blue book’, ’book’, ’trust’, ’resource’, ’use’, ’used car’, ’car’, ’price’, ’values’, ’research’, ’latest’, ’blue’, ’blue book’, ’book’, ’use’, ’used car’, ’car’, ’values’, ’read’, ’review’]
Inlinks:
1.Reference, Facts, News − Free and Family−friendly Resources − Refdesk.com
○URL:http://www.refdesk.com/
○タイトル:[’reference’, ’fact’, ’news’, ’free’, ’family−friendly’, ’resource’]
○メタキーワード:[’reference’, ’fact’, ’news’, ’family’, ’friendly’, ’family friendly’, ’refdesk’]
○メタ記述:[’refdesk’, ’free’, ’family’, ’friendly’, ’web’, ’web site’, ’site’, ’index’, ’review’, ’quality’, ’credible’, ’current’, ’web−based’, ’reference’, ’resource’]
2. CEOExpress: Business portal for executives created by a busy executive
○URL:http://www.ceoexpress.com/
○リダイレクト:http://www.ceoexpress.com/default.asp
○タイトル:[’ceoexpress’, ’business’, ’portal’, ’executive’, ’create’, ’busy’, ’executive’]
○メタキーワード:[’business’, ’links’, ’business links’, ’ceo’, ’chief executive officer’, ’senior’, ’executive’, ’senior executives’, ’ceo’, ’links’, ’ceo links’, ’business’, ’portal’, ’business portal’, ’business’, ’directory’, ’business directory’, ’small’, ’business’, ’directory’, ’small business directory’, ’ceo’, ’homepage’, ’ceo homepage’, ’cfo’, ’portal’, ’cfo portal’, ’cfo’, ’links’, ’cfo links’, ’cio’, ’portal’, ’cio portal’, ’cio’, ’links’, ’cio links’, ’international’, ’business’, ’portal’, ’international business portal’, ’c−level’]
○メタ記述:[’ceoexpress’, ’business’, ’portal’, ’executive’, ’create’, ’ceo’]
3. Auto Warranty: Extended Warranty Quotes Online
○URL:http://www.warrantyheadquarters.com/
○タイトル:[’auto’, ’warranty’, ’auto warranty’, ’extend’, ’warranty’, ’quote’, ’online’]
○メタキーワード:[’auto’, ’warranty’, ’auto warranty’, ’auto’, ’warranty’, ’research’, ’auto warranty research’, ’extend’, ’warranty’, ’extended warranties’, ’vehicle’, ’maintenance’, ’vehicle maintenance’, ’coverage’, ’plan’, ’coverage plans’, ’coverage’, ’car’]
○メタ記述:[’auto’, ’warranty’, ’auto warranty’, ’receive’, ’extend’, ’auto’, ’warranty’, ’quote’, ’instantly’, ’have’, ’provide’, ’personal’, ’information’, ’discount’, ’pricing’, ’great’, ’service’]
前記の説明は本発明のさまざまな実施形態を対象としているが、本発明の基本的範囲から逸脱することなく本発明の他の実施形態およびさらなる実施形態を考案することができる。したがって、本発明の適切な範囲は、請求項により決定されるものとする。

Claims (9)

  1. キーワードをウェブ・ページに割り当てるための方法であって、
    前記ウェブ・ページに関連付けられているセルフ・キーワード、イン・リンク・キーワード、アウト・リンク・キーワードを識別するステップであって、前記セルフ・キーワード、前記イン・リンク・キーワード、および前記アウト・リンク・キーワードは一意的キーワードを含む、ステップと、
    第1の区切りによって分離されている前記セルフ・キーワードリスト、前記イン・リンク・キーワードリスト、および前記アウト・リンク・キーワードリスト内の1つまたは複数の単語の出現を潜在的な一意的キーワードとして識別するステップと、
    前記ウェブ・ページに対する前記キーワード集合内に有効なフレーズを表す前記潜在的な一意的キーワードを含めるステップであって、スペリング・エンジン、文法エンジン、および検索エンジンのどれかが潜在的な一意的キーワードが有効なフレーズを表すかどうかを判定するために使用される、ステップと、
    前記セルフ・キーワードに含まれる前記一意的キーワード、前記イン・リンク・キーワードに含まれる前記一意的キーワード、および前記アウト・リンク・キーワードに含まれる前記一意的キーワードを組み合わせて前記ウェブ・ページに対するキーワードの集合を形成するステップとを含む方法。
  2. セルフ・キーワード、イン・リンク・キーワード、およびアウト・リンク・キーワードの前記集合を処理して、セルフ・キーワード、イン・リンク・キーワード、およびアウト・リンク・キーワードの各ランク順序付け集合を構成するステップをさらに含む請求項1に記載の方法。
  3. ヒューリスティック関数の1つまたは複数を使用して、前記セルフ・キーワード、イン・リンク・キーワード、およびアウト・リンク・キーワードの集合内のそれぞれのキーワードの相対的重要度を決定するステップをさらに含む請求項2に記載の方法。
  4. 重みを前記セルフ・キーワード、イン・リンク・キーワード、およびアウト・リンク・キーワードに割り当てるステップをさらに含み、
    組み合わせる前記ステップは、前記キーワード重みに従ってセルフ・キーワード、イン・リンク・キーワード、およびアウト・リンク・キーワードを組み合わせるステップを含む請求項2に記載の方法。
  5. 識別されたキーワード・データは、タイトル・フィールド、メタキーワード・フィールド、およびメタ記述フィールドのうちの1つまたは複数からのデータを含む請求項1に記載の方法。
  6. Nを1より大きい整数として、前記セルフ・キーワードリスト、前記イン・リンク・キーワードリスト、および前記アウト・リンク・キーワードリスト内のN個の隣接する空白で分離されている単語の出現を潜在的な一意的キーワードとして識別するステップと、
    前記ウェブ・ページに対する前記キーワード集合内に有効なフレーズを表す前記潜在的な一意的キーワードを含めるステップとをさらに含む請求項1に記載の方法。
  7. 前記イン・リンク・キーワードとアウト・リンク・キーワードのそれぞれは、前記キーワードの各ソース・ウェブ・ページのランク付けに従って重みを割り当てられ、前記ソース・ウェブ・ページのランク付けは検索エンジンを使用することによって決定される請求3に記載の方法。
  8. 前記イン・リンク・キーワードを含む前記ウェブ・ページは、ウェブ・クローラーおよび検索エンジンのうちの1つまたは複数を使用して識別される請求項1に記載の方法。
  9. ソフトウェア命令を格納するためのメモリと前記ソフトウェア命令を実行するためのプロセッサとを備える装置であって、前記ソフトウェア命令は前記プロセッサによって実行されたときにキーワードをウェブ・ページに割り当てるための方法を装置に実行させ、前記方法は
    前記ウェブ・ページに関連付けられているセルフ・キーワード、イン・リンク・キーワード、アウト・リンク・キーワードを識別するステップであって、前記セルフ・キーワード、前記イン・リンク・キーワード、および前記アウト・リンク・キーワードは一意的なキーワードを含む、ステップと、
    第1の区切りによって分離されている前記セルフ・キーワードリスト、前記イン・リンク・キーワードリスト、および前記アウト・リンク・キーワードリスト内の1つまたは複数の単語の出現を潜在的な一意的キーワードとして識別するステップと、
    前記ウェブ・ページに対する前記キーワード集合内に有効なフレーズを表す前記潜在的な一意的キーワードを含めるステップであって、スペリング・エンジン、文法エンジン、および検索エンジンのどれかが潜在的な一意的キーワードが有効なフレーズを表すかどうかを判定するために使用される、ステップと、
    前記セルフ・キーワードに含まれる前記一意的キーワード、前記イン・リンク・キーワードに含まれる前記一意的キーワード、および前記アウト・リンク・キーワードに含まれる前記一意的キーワードを組み合わせて前記ウェブ・ページに対するキーワードの集合を形成するステップとを含む装置。
JP2012522891A 2009-07-30 2010-07-20 ウェブ・ページへのキーワード割り当て Expired - Fee Related JP5438218B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/512,702 US8959091B2 (en) 2009-07-30 2009-07-30 Keyword assignment to a web page
US12/512,702 2009-07-30
PCT/US2010/042496 WO2011014381A1 (en) 2009-07-30 2010-07-20 Keyword assignment to a web page

Publications (2)

Publication Number Publication Date
JP2013500541A JP2013500541A (ja) 2013-01-07
JP5438218B2 true JP5438218B2 (ja) 2014-03-12

Family

ID=42556473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012522891A Expired - Fee Related JP5438218B2 (ja) 2009-07-30 2010-07-20 ウェブ・ページへのキーワード割り当て

Country Status (6)

Country Link
US (1) US8959091B2 (ja)
EP (1) EP2460095A1 (ja)
JP (1) JP5438218B2 (ja)
KR (1) KR101315554B1 (ja)
CN (1) CN102473190B (ja)
WO (1) WO2011014381A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120066359A1 (en) * 2010-09-09 2012-03-15 Freeman Erik S Method and system for evaluating link-hosting webpages
JP5786458B2 (ja) * 2011-05-30 2015-09-30 富士通株式会社 キーワード抽出及びウエブコンテンツアクセス情報の収集装置
US9613135B2 (en) 2011-09-23 2017-04-04 Aol Advertising Inc. Systems and methods for contextual analysis and segmentation of information objects
US8793252B2 (en) * 2011-09-23 2014-07-29 Aol Advertising Inc. Systems and methods for contextual analysis and segmentation using dynamically-derived topics
KR20130065802A (ko) * 2011-11-30 2013-06-20 삼성전자주식회사 키워드를 이용한 애플리케이션 추천 시스템 및 방법
US20130238470A1 (en) * 2012-03-07 2013-09-12 Z:Wordz, LLC Substituting a user-defined word set in place of a formatted network resource address
US9159067B1 (en) * 2012-06-22 2015-10-13 Google Inc. Providing content
US20140031693A1 (en) * 2012-07-26 2014-01-30 Interson Corporation Portable ultrasonic imaging probe including transducer array
CN103870446B (zh) * 2012-12-18 2016-12-28 阿里巴巴集团控股有限公司 一种描述词筛选方法及装置
US9621662B1 (en) * 2013-03-04 2017-04-11 Yelp Inc. Surfacing relevant reviews
US9734174B1 (en) 2013-06-28 2017-08-15 Google Inc. Interactive management of distributed objects
RU2530671C1 (ru) * 2013-07-24 2014-10-10 Общество С Ограниченной Ответственностью "Балакам" Способ проверки веб-страниц на содержание в них целевого аудио и/или видео (av) контента реального времени
US11257115B2 (en) 2014-09-02 2022-02-22 Gil Emanuel Fuchs Providing additional digital content or advertising based on analysis of specific interest in the digital content being viewed
EP3250037A4 (en) * 2015-01-16 2018-06-20 The Board of Regents of The University of Texas System Compositions and methods for creating pancreatic cancer animal model
CN104965918B (zh) * 2015-07-06 2018-09-25 无锡天脉聚源传媒科技有限公司 一种基于查询关键词的搜索方法和装置
US10430427B2 (en) * 2016-05-25 2019-10-01 Microsoft Technology Licensing, Llc Partitioning links to JSERPs amongst keywords in a manner that maximizes combined weighted gain in a metric associated with events of certain type observed in the on-line social network system with respect to JSERPs represented by keywords
US10261971B2 (en) 2016-05-25 2019-04-16 Microsoft Technology Licensing, Llc Partitioning links to JSERPs amongst keywords in a manner that maximizes combined improvement in respective ranks of JSERPs represented by respective keywords
CN107545020A (zh) * 2017-05-10 2018-01-05 新华三信息安全技术有限公司 一种网页分类的确定方法及装置

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5878386A (en) 1996-06-28 1999-03-02 Microsoft Corporation Natural language parser with dictionary-based part-of-speech probabilities
US5857179A (en) * 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
WO1999014690A1 (fr) * 1997-09-17 1999-03-25 Hitachi, Ltd. Procede d'addition d'un mot cle au moyen d'informations de liaison
US6728752B1 (en) * 1999-01-26 2004-04-27 Xerox Corporation System and method for information browsing using multi-modal features
US6651059B1 (en) * 1999-11-15 2003-11-18 International Business Machines Corporation System and method for the automatic recognition of relevant terms by mining link annotations
US6862586B1 (en) * 2000-02-11 2005-03-01 International Business Machines Corporation Searching databases that identifying group documents forming high-dimensional torus geometric k-means clustering, ranking, summarizing based on vector triplets
US6895406B2 (en) * 2000-08-25 2005-05-17 Seaseer R&D, Llc Dynamic personalization method of creating personalized user profiles for searching a database of information
US6684205B1 (en) * 2000-10-18 2004-01-27 International Business Machines Corporation Clustering hypertext with applications to web searching
JP2002245089A (ja) * 2001-02-19 2002-08-30 Hitachi Eng Co Ltd ウェブページ検索システム、二次情報収集装置、インターフェース装置
US20030221163A1 (en) 2002-02-22 2003-11-27 Nec Laboratories America, Inc. Using web structure for classifying and describing web pages
CA2387451A1 (en) * 2002-05-24 2003-11-24 Petr Hejl Virtual friend with special features
JP4423841B2 (ja) 2002-08-14 2010-03-03 日本電気株式会社 キーワード決定装置、決定方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラム
CN1519752A (zh) 2003-01-20 2004-08-11 黄致辉 一种自然语言语法分析器及其方法
US7536408B2 (en) * 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7516397B2 (en) * 2004-07-28 2009-04-07 International Business Machines Corporation Methods, apparatus and computer programs for characterizing web resources
US7222288B2 (en) * 2004-07-30 2007-05-22 Hellosoft, Inc. Modified soft output Viterbi algorithm for truncated trellis
US8078602B2 (en) * 2004-12-17 2011-12-13 Claria Innovations, Llc Search engine for a computer network
US7810035B2 (en) * 2004-10-15 2010-10-05 Microsoft Corporation Browsing web content using predictive navigation links
JP4940606B2 (ja) 2005-09-22 2012-05-30 富士ゼロックス株式会社 翻訳システム、翻訳装置、翻訳方法及びプログラム
US7814098B2 (en) * 2006-06-14 2010-10-12 Yakov Kamen Method and apparatus for keyword mass generation
US7664740B2 (en) * 2006-06-26 2010-02-16 Microsoft Corporation Automatically displaying keywords and other supplemental information
CN100520778C (zh) * 2006-07-25 2009-07-29 腾讯科技(深圳)有限公司 一种互联网主题文件搜索方法、爬虫系统和搜索引擎
US8661035B2 (en) * 2006-12-29 2014-02-25 International Business Machines Corporation Content management system and method
US8166045B1 (en) * 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US8166021B1 (en) * 2007-03-30 2012-04-24 Google Inc. Query phrasification
WO2010042983A1 (en) * 2008-10-14 2010-04-22 Remarqueble Pty Ltd Search, analysis and categorization
US20100131563A1 (en) * 2008-11-25 2010-05-27 Hongfeng Yin System and methods for automatic clustering of ranked and categorized search objects

Also Published As

Publication number Publication date
US20110029511A1 (en) 2011-02-03
CN102473190A (zh) 2012-05-23
CN102473190B (zh) 2014-06-04
JP2013500541A (ja) 2013-01-07
EP2460095A1 (en) 2012-06-06
US8959091B2 (en) 2015-02-17
KR101315554B1 (ko) 2013-10-10
KR20120087881A (ko) 2012-08-07
WO2011014381A1 (en) 2011-02-03

Similar Documents

Publication Publication Date Title
JP5438218B2 (ja) ウェブ・ページへのキーワード割り当て
Khan et al. A distinctive approach to obtain higher page rank through search engine optimization
CA2490594C (en) Building and using subwebs for focused search
US8086591B2 (en) Combining domain-tuned search systems
CN102054004B (zh) 一种网页推荐方法和装置
US20130282693A1 (en) Object oriented data and metadata based search
US7698329B2 (en) Method for improving quality of search results by avoiding indexing sections of pages
CN102037464A (zh) 具有最多点击的下一个对象的搜索结果
US20110238653A1 (en) Parsing and indexing dynamic reports
Kao et al. Entropy-based link analysis for mining web informative structures
Gupta et al. A review on search engine optimization: Basics
Kumar World towards advance web mining: A review
Tyagi et al. Web structure mining algorithms: A survey
Yen The design and evaluation of accessibility on web navigation
Roumeliotis et al. An effective SEO techniques and technologies guide-map
KR20070065774A (ko) 온톨로지를 이용한 시맨틱 블로그 관리 시스템 및 방법
Bello et al. Conversion of website users to customers-The black hat SEO technique
Martínez‐Torres et al. Web site structure mining using social network analysis
HANDE et al. SEO tools and techniques: a comparative Study
CN102314442A (zh) 一种增值浏览的方法与设备
Färber Linked Crunchbase: A linked data API and RDF data set about innovative companies
Mukhopadhyay et al. Domain-specific crawler design
KR101628511B1 (ko) 검색 엔진 최적화 방법 및 그를 이용한 서버 장치
Zhang et al. Web service ranking based on context
Pursky et al. Recommender System of Site Information Content for Optimal Display in Search Engines

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131212

R150 Certificate of patent or registration of utility model

Ref document number: 5438218

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees