JP2005302041A - キーワードとWebサイトのコンテンツとの間の関連性の検証 - Google Patents

キーワードとWebサイトのコンテンツとの間の関連性の検証 Download PDF

Info

Publication number
JP2005302041A
JP2005302041A JP2005118049A JP2005118049A JP2005302041A JP 2005302041 A JP2005302041 A JP 2005302041A JP 2005118049 A JP2005118049 A JP 2005118049A JP 2005118049 A JP2005118049 A JP 2005118049A JP 2005302041 A JP2005302041 A JP 2005302041A
Authority
JP
Japan
Prior art keywords
term
content
similarity
bid
site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005118049A
Other languages
English (en)
Other versions
JP2005302041A5 (ja
Inventor
Benyu Zhang
チャン ベンユー
Hua-Jun Zeng
チェン ホア−ジュン
Li Li
リー リー
Tarek Najm
ナジム タレク
Wei-Ying Ma
マ ウェイ−イェン
Ying Li
リー イェン
Zheng Chen
ツェン チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005302041A publication Critical patent/JP2005302041A/ja
Publication of JP2005302041A5 publication Critical patent/JP2005302041A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F04POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
    • F04CROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT MACHINES FOR LIQUIDS; ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT PUMPS
    • F04C13/00Adaptations of machines or pumps for special use, e.g. for extremely high pressures
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61MDEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
    • A61M1/00Suction or pumping devices for medical purposes; Devices for carrying-off, for treatment of, or for carrying-over, body-liquids; Drainage systems
    • A61M1/80Suction pumps
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F04POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
    • F04CROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT MACHINES FOR LIQUIDS; ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT PUMPS
    • F04C14/00Control of, monitoring of, or safety arrangements for, machines, pumps or pumping installations
    • F04C14/18Control of, monitoring of, or safety arrangements for, machines, pumps or pumping installations characterised by varying the volume of the working chamber
    • F04C14/22Control of, monitoring of, or safety arrangements for, machines, pumps or pumping installations characterised by varying the volume of the working chamber by changing the eccentricity between cooperating members
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F04POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
    • F04CROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT MACHINES FOR LIQUIDS; ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT PUMPS
    • F04C2/00Rotary-piston machines or pumps
    • F04C2/02Rotary-piston machines or pumps of arcuate-engagement type, i.e. with circular translatory movement of co-operating members, each member having the same number of teeth or tooth-equivalents
    • F04C2/063Rotary-piston machines or pumps of arcuate-engagement type, i.e. with circular translatory movement of co-operating members, each member having the same number of teeth or tooth-equivalents with coaxially-mounted members having continuously-changing circumferential spacing between them
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F04POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
    • F04CROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT MACHINES FOR LIQUIDS; ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT PUMPS
    • F04C2230/00Manufacture
    • F04C2230/20Manufacture essentially without removing material
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F04POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
    • F04CROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT MACHINES FOR LIQUIDS; ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT PUMPS
    • F04C2240/00Components
    • F04C2240/20Rotors
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F04POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
    • F04CROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT MACHINES FOR LIQUIDS; ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT PUMPS
    • F04C2240/00Components
    • F04C2240/80Other components
    • F04C2240/805Fastening means, e.g. bolts
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Anesthesiology (AREA)
  • Biomedical Technology (AREA)
  • Hematology (AREA)
  • Vascular Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 用語とWebサイトのコンテンツとの間の関連性を検証するシステムおよび方法を提供する。
【解決手段】 入札URLからのサイトのコンテンツが取り出される。入札用語に意味上、コンテキスト上関連する拡張用語が計算される。入札用語、サイトのコンテンツ、拡張用語の組合せからコンテンツの類似度測定値および拡張の類似度測定値が計算される。拡張用語とサイトのコンテンツとの間のカテゴリの類似度測定値は、トレーニングされた類似性の分類を考慮して決定される。類似性分類器は、ディレクトリデータに関連付けられたマイニングされたWebサイトのコンテンツからトレーニングされている。入札用語とサイトのコンテンツとの間の関連性の信頼度は、複数の類似度スコアを評価するコンテンツ類似度測定値、拡張の類似度測定値、およびカテゴリの類似度測定値から決定される。
【選択図】 図1

Description

本発明のシステムおよび方法はデータマイニングに関する。
キーワードまたはキーフレーズとは、WWW上の関連のWebページ/サイトを検索するときにWebサーファによって検索エンジンに提示される単語または1組の用語である。検索エンジンは、ページ/サイトに表示されるキーワードおよびキーフレーズに基づいてWebサイトの関連性を決定する。Webサイトトラフィックのかなりの割合は検索エンジンの使用に起因するため、Webサイトのプロモータ(promoter)は、サイトトラフィックを増加させて所望のサイトを公開するのに適切なキーワードを選択することが不可欠であることを知っている。検索エンジンの結果の最適化のためにWebサイトに関連するキーワードを識別する技術には、例えば、関連のキーワードを識別するためのWebサイトのコンテンツおよび目的の人間による評価などがある。この評価は、人気キーワードツール(keyword popularity tool)の使用を含み得る。こうしたツールは、どのぐらいの人が特定のキーワード、またはそのキーワードを含むフレーズを検索エンジンに提示したかを決定する。一般に、Webサイトに関連し、検索クエリの生成時により頻繁に使用されると決定されたキーワードがそのWebサイトに関する検索エンジンの結果の最適化のために選択される。
Webサイトの検索エンジン結果の最適化のための1組のキーワードを識別した後、プロモータは、Webサイトを検索エンジンの結果内の(他のWebサイトの検索エンジン結果の表示位置に比べて)より高い位置に進めることを望む場合がある。このために、プロモータは、特定のURLとともに使用するキーワードに入札(bid on)する。入札(bidding)は、Webサーファがそのキーワードに関連付けられているプロモータのリストをクリックするたびにプロモータがどれだけ支払うかを示す。言い換えれば、キーワードの入札は、特定のURL(Webサイト)の宣伝のためにクリックごとに支払う指値である。同じキーワードの他の入札に比べてそのキーワードの入札の額が高くなればなるほど、検索エンジンは、キーワードに基づいた検索結果に関連するWebサイトを上位に(有意性を基準により目立つように)表示する。残念ながら、広告主が入札する用語はWebサイトのコンテンツに関連していない場合があり、その結果、エンドユーザによって使用される用語または言語に一致しない場合がある。
キーワードをWebサイト(すなわちWebサイトのコンテンツ)と検証する最も簡単な方法は、データポイントをさらに比較すること無しにキーワードとWebサイトとの間のみの類似性を測定する従来の取り出し手法を使用することであるように思われる。しかし、この技術は実質的に限られている。キーワードがWebサイトに関連している場合でさえ、そのWebサイト自体は、所望のキーワードをサポートする閾値基準(例えば直接的な一致、出現回数など)を含んでおらず、潜在的に貴重な入札用語が拒否される。例えば、関連のWebサイトを含むオンラインショッピングの会社が「オンラインショッピング」というフレーズに入札することについて考える。従来の取り出し手法が使用され、Webサイトにおいてキーワード「ショッピング」の出現頻度が相対的に少なく、キーワード「オンライン」の出現がない場合、「オンラインショッピング」という潜在的に貴重なキーフレーズは、入札用語の対象から誤って外される可能性がある。
別の従来の技術は、提示された入札用語/フレーズおよびWebサイトを分類して2つのカテゴリの確率ベクトルを取得することである。こうした確率ベクトルは、次いで結合されて最終的な関連度スコア(relevance score)になる。この従来の技術に関する問題は、そのWebサイトに対して用語/フレーズを直接評価しないことであり、これはかなり問題となり得る。例えば、広告主が「イタリアンシューズ」という用語に入札し、そのWebサイトが靴を販売し、しかしその靴がイタリアの靴ではない場合、従来の分類技術は、「イタリアンシューズ」という入札フレーズがそのWebサイトと無関係であることを広告主に示す。
上記を考えると、Webサイトのコンテンツに関連するキーワードをよりよく識別するシステムおよび方法がWebサイトのプロモータによって歓迎されることになる。これによってプロモータは、エンドユーザによって使用される可能性の高い用語に入札することができる。これらのシステムおよび方法は、検索エンジンの最適化およびキーワードの入札に関連するキーワードを識別するために、Webサイトのコンテンツを人間が評価する必要がないことが理想的である。
用語とWebサイトのコンテンツとの間の関連性を検証するためのシステムおよび方法について説明する。一態様では、入札URLからサイトのコンテンツが取り出される。入札用語に意味上および/またはコンテキスト上関連する拡張用語(expanded term)が計算される。入札用語、サイトのコンテンツ、および拡張用語のそれぞれの組合せからコンテンツの類似度測定値および拡張の類似度測定値が計算される。拡張用語とサイトのコンテンツとの間のカテゴリの類似度測定値は、トレーニングされた類似性分類器を考慮して決定される。トレーニングされた類似性分類器は、ディレクトリデータに関連付けられたマイニングされたWebサイトのコンテンツからトレーニングされている。入札用語とサイトのコンテンツとの間の関連性の客観的測定値を提供する信頼度は、トレーニングされた関連性分類器モデルを考慮して複数の類似度スコアを評価するコンテンツの類似度測定値、拡張の類似度測定値、およびカテゴリの類似度測定値から決定される。
図中、構成要素の参照番号の一番左の桁は、構成要素が最初に表示されている特定の図面を識別する。
(概要)
以下のシステムおよび方法は、従来の用語認定技術の制限に対処するために、用語とWebサイトのコンテンツとの間の関連性を検証する。このために、このシステムおよび方法は、トレーニングされた分類器モデルを介して複数の類似度測定値を結合して、入札用語が特定のWebサイトのコンテンツに関連しているかどうかを示す単一の信頼度を提供する。より詳細には、この実装において、複数の類似度測定値は、コンテンツ、カテゴリ、および適切な名前の類似度スコアを含む。
コンテンツの類似度スコアは、直接的な、および拡張されたコンテンツの類似性を含む。直接的なコンテンツの類似性は、提示されたWebサイトの入札用語とサイトのコンテンツとのベクトルモデルを評価することによって決定される。拡張された類似性は、拡張用語のベクトルモデルとサイトのコンテンツとの間の類似性を評価することによって決定される。拡張用語は、出現頻度がより高い履歴のクエリ用語を考慮して検索エンジンからマイニングされ、入札用語と意味上および/またはコンテキスト上類似していると決定される。カテゴリの類似性は、トレーニングされた類似性のカテゴリ化(分類器)モデルを拡張用語およびWebサイトのコンテンツに適用して、これらの入力の間のカテゴリの関係を決定することによって決定される。適切な名前の類似性は、適切な名前のデータベースを考慮して、入札用語およびWebサイトのコンテンツを評価することによって決定される。これらの複数の類似度測定値は、承諾/拒否の閾値を考慮してこれらのスコアから単一の関連性の信頼度を生成するためにトレーニングされた、結合された関連性分類器モデルを使用して結合される。信頼度は、これらの異なる複数の類似度測定値を考慮して、入札用語の関連性の客観的測定値をWebサイトに提供する。
次に、用語とWebサイトのコンテンツとの間の関連性を検証するためのシステムおよび方法のこれらおよび別の態様についてより詳しく説明する。
(編集検証(editorial verification)のシステム例)
図面を参照すると、同様の参照番号は同様の要素を示しており、用語とWebサイトのコンテンツとの間の関連性を検証するシステムおよび方法が、適当な編集検証コンピューティング環境で実施されるものとして記載され、示されている。必須ではないが、本発明は、パーソナルコンピュータによって実行されるコンピュータ実行可能命令(プログラムモジュール)の一般的なコンテキストで説明する。一般にプログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。システムおよび方法を上記の状況で説明しているが、以下に記載した動作および操作は、ハードウェアでも実装することができる。
図1は、入札用語と入札Webサイトのコンテンツとの間の関連性を検証するシステム100を示している。この実装では、システム100は、ネットワーク104を介して検索エンジン106に結合される編集検証サーバ102を含む。ネットワーク104は、オフィス、全社規模のコンピュータネットワーク、イントラネット、インターネットでごく一般的なものなど、ローカルエリアネットワーク(LAN)および一般の広域ネットワーク(WAN)の通信環境の任意の組合せを含む。編集検証サーバ102は、例えば検索用語提案(STS)モジュール110、関連性検証モジュール112、分類モジュール114、用語照合モジュール116、およびWebサイトを識別する入札ユニバーサルリソースロケータ(URL)からサイトのコンテンツを取り出すWebページ巡回プログラム(crawler)などの他のプログラムモジュール118など、いくつかのプログラムモジュール108を含む。
エンドユーザ(広告主、Webサイトのプロモータなど)は、入札URLのサイトのコンテンツとの入札用語の関連性を検証するために、編集検証サーバ102に入札入力120を提供する。入札入力120は、入札用語122および入札URL124を含む。一実装形態では、エンドユーザが入札入力120を編集検証サーバ102に提供できるように、編集検証サーバ102は、キーボード、マウス、音声認識システムなど、1つまたは複数のユーザ入力インターフェース(例えば図4のユーザ入力インターフェース460を参照)を含む。別の実装形態では、エンドユーザが入札入力120を編集検証サーバ102に提供できるように、編集検証サーバ102がネットワーク104を介してクライアントコンピューティングデバイス(図4のリモートコンピュータ480など)に結合される。
(検索用語提案の例)
エンドユーザからの入札入力120の受信に応答して、検索用語提案モジュール102は、検索用語提案リスト126を生成して、意味上および/またはコンテキスト上関連する用語によって用語122を拡張する。用語122の複数の意味またはコンテキストは、以下に示すように、追加の用語の意味を提供し得る。表1は、「mail」の用語122に関連すると決定された用語の提案用語リスト126の例を示している。用語122に関連する用語は、この例では「提案用語」という名称の列1に示している。
Figure 2005302041
表1を参照すると、提案用語(列1)ごとに、検索用語提案リスト126は、提案用語と用語122との間の関連を示すそれぞれの類似度測定値(列2参照)、および列1の提案用語がどのぐらいの頻度で検索エンジン106に提示されたかの表示を提供するそれぞれの使用頻度スコア(列3参照)も含むことに留意されたい。この例では、列2の各類似度値は、対応する提案用語(列1)と、この例では「mail」である入札用語122との間の類似度の測定値またはスコアを提供する。頻度の各値またはスコアは、提案用語がエンドユーザの検索クエリで特定の検索エンジン106によって使用された回数を示す。提案用語リスト126は、エンドユーザに提示される場合、ビジネスゴールのファンクション、例えば提案用語、類似度、および/または頻度のスコアによってソートされる。
任意の所与の用語122(mailなど)は、入札用語がその中で使用される可能性がある複数のコンテキストを有する可能性がある。これを考慮するために、検索用語提案モジュール110は、コンテキストによって提案用語を分離する。例えば、表1を参照すると、「mail」の用語122は、(1)従来のオフラインの郵便物、および(2)オンラインの電子メールという2つのコンテキストを有している。提案用語のそれぞれの(分離されたまたは独立した)リストは、こうした2つの入札用語のコンテキストごとに示されていることに留意されたい。
提案用語リスト126の提案用語は、単に用語122の類義語にとどまらない場合がある。例えば、表1を参照すると、提案用語「usps」はメールを扱う組織の頭文字であり、「mail」の入札用語の類義語ではない。しかし、「usps」は、「mail」入札用語にコンテキスト上非常に関連性のある用語でもあり、したがって提案用語リスト126に示されている。一実装形態では、検索用語提案モジュール110は、「itr」が「関係がある」ことを表す場合、相関規則:itr(T)→itr(R)のファンクションのように、関連用語R(「usps」など)とターゲット用語T(「mail」など)との間の関係を決定する。すなわち、エンドユーザ(広告主、Webサイトのプロモータなど)がRに関心がある場合、エンドユーザはTにも関心がある可能性がある。
検索用語提案リスト126を生成するために、検索用語提案モジュール110は、クエリログ130からマイニングされた履歴クエリのうちの選択したものを検索エンジン106に提示する。検索エンジン106に提示するための履歴クエリのうちの選択したものは、検索用語提案モジュール126によって、クエリログ130からマイニングされた履歴クエリ用語の他のものに比べて、実質的に高い出現頻度(FOO)を有するものとして識別される。この実装形態では、設定可能な閾値を使用して、履歴クエリが相対的に高い出現頻度を有しているか、低い出現頻度を有しているかが決定される。例えば、少なくとも閾値回数出現する履歴クエリ用語は出現頻度がより高いと言われる。同じように、閾値回数未満出現する履歴クエリ用語は出現頻度が低いと言われる。説明上、こうした閾値を「他のデータ」132のそれぞれの部分として示している。FOOが高いおよび低いクエリ用語を「他のデータ」132の「FOOが高い/低いクエリ」部分として示している。
検索用語提案モジュール110は、クエリ用語ごとに、返却された検索結果のうちの選択されたもの(1つまたは複数の上位にランクされた検索結果など)から1組の特徴または説明文(snippet description)を抽出する。検索用語提案モジュール110は、抽出されたデータに対してテキストの前処理操作を実行して、個々の用語トークンを生成する。トークンの次元数を低減するために、検索用語提案モジュール110は、任意のストップワード(「the」、「a」、「is」など)を削除し、共通の接尾語を削除し、それによって例えば既知のPorterステミングアルゴリズムを使用して用語を正規化する。検索用語提案モジュール110は、結果として得られた用語および抽出された他の特徴を1つまたは複数の検索用語提案(STS)ベクトル(用語ベクトル134のそれぞれの部分として示した)にまとめる。各STSベクトル134は、用語の頻度と逆文書頻度(inverted document frequency)(TFIDF)のスコアに基づく次元を有する。
i番目のベクトルのj番目の用語の重みは、次のように計算される。
ij=TFijxlog(N/DF
式中、TFijは用語頻度(i番目のレコード内の用語jの出現回数)、Nはクエリ用語の総数、DFは用語jを含むレコード数である。検索用語提案モジュール110は、これらのそれぞれの重みを使用して、STSベクトル134からの類似の用語およびコンテキストをグループ化して用語クラスタ136を生成する。このため、この実装形態では、各用語のベクトル表現が与えられると、余弦関数を使用して1対の用語の間の類似性が測定される(用語が正規化されたことを思い出されたい)。
Figure 2005302041
したがって、2つの用語の間の距離(類似度測定値)は次のように定義される。
dist(q,q)=1−sim(q,q
こうした検索用語提案(STS)類似度測定値は、「他のデータ」132のそれぞれの部分として示される。こうした類似度例を、上記の表1の提案用語リスト例126に示している。
検索用語提案モジュール110は、計算された用語の類似度測定値を使用して、STSベクトル134内の用語を、用語クラスタ136のFOOが高い履歴クエリ用語ベース部分にクラスタ化/グループ化する。より詳細には、この実装形態では、検索用語提案モジュール110は、既知の密度ベースのクラスタ化アルゴリズム(DBSCAN)を使用して、これらの用語クラスタ136を生成する。DBSCANは、EpsおよびMinPtsの2つのパラメータを使用する。Epsは、用語クラスタ136内のポイント間の最大距離を表す。1つのポイントは、ある用語の特徴ベクトルである。高次元空間において、ベクトルはポイントと等しい。MinPtsは、用語クラスタ136内の最小数のポイントを表す。クラスタ136を生成するために、DBSCANは、任意のポイントpで始まり、EpsおよびMinPtsに関してpから密度的に到達可能(density-reachable)なすべてのポイントを取り出す。pが中心的ポイントである場合、この操作によって、EpsおよびMinPtsに関して用語クラスタ136が得られる。pがより広いポイントである場合、pから密度的に到達可能なポイントはなく、DBSCANは次のポイントにアクセスする。
次いで検索用語提案モジュール110は、用語122を用語クラスタ136内の用語のそれぞれと比較する。用語クラスタは意味上および/またはコンテキスト上互いに関連する特徴を含むため、用語122は、拡張用語122に関連する複数のコンテキストまたは「意味」を考慮して評価され、それによって検索用語提案リスト126が生成される。一実装形態では、検索用語提案モジュール110が用語122はたった1つのクラスタ136からの用語に一致すると決定した場合、検索用語提案モジュール110は、提案用語リスト126を単一のクラスタ136から生成する。この実装形態では、一致とは、完全一致、または単一/複数の形、ミススペル、句読点など、わずかなバリエーションとの一致とすることができる。生成された用語リストは、ある基準によって順序付けられる。これは例えばFOO、および用語122と提案用語との間の類似性の線形結合とすることができる。
Score(q)=αFOO(q)+βsim(q,Q)
ここでは、α+β=1である。
検索用語提案モジュール110が用語122は複数の用語クラスタ136内の用語に一致すると決定した場合、検索用語提案モジュール110は、複数の用語クラスタの用語から提案用語リスト126を生成する。各クラスタからの提案用語は、上述の方法を使用して順序付けられる。
(関連性の検証例)
関連性検証モジュール112は、検索用語提案リスト126の提案用語(入札入力120の用語122を拡張する用語)、および入札入力120(すなわち用語122およびURL124からのサイトコンテンツ)を使用して、入札用語122と入札URL124のサイトのコンテンツとの間の関連性を測定する信頼度138を生成する。このために、関連性検証モジュール112は、説明上、関連性検証(RV)の類似度測定値140として示されている複数の類似度測定値から信頼度138を計算する。この実装形態では、RV類似度測定値140は、例えばコンテンツの類似性、分類の類似性、および適切な名前の類似性のスコアを含む。次に、RV類似度測定値140のこうした各タイプについて説明する。
RV類似度測定値140のコンテンツの類似度測定値部分は、直接の類似度測定値、および拡張された類似度測定値を含む。直接の類似度を計算するには、関連性検証モジュール112は、いずれもベクトル空間でモデル化される用語122とURL13のサイトコンテンツとの間の類似性/関連を測定する。拡張された類似性を計算するために、例えば「他のプログラムモジュール」118のそれぞれの部分によって表されるWebページ巡回プログラムモジュールによってURL124のサイトのコンテンツが取り出される。関連性検証モジュール112は、検索用語提案リスト126の提案用語とURL124のサイトコンテンツとの間の類似性を決定する。また、これらの両方の入力はベクトル空間でモデル化されている。上述したように、検索用語提案リスト126の提案用語は、(a)提示されたFOOが高い履歴クエリ用語を考慮して検索エンジン106によって返却された結果からマイニングされた。したがって、提案用語は、入札用語122に意味上および/またはコンテキスト上関連していると決定される。
RV類似度測定値140の適切な名前の類似度測定値部分は、入札用語122で検出された任意の適切な名前とURL124のサイトのコンテンツとの間の類似性/関連を示す。説明上、適切な名前のデータベースは、「他のデータ」132のそれぞれの部分で表される。こうした適切な名前は、例えば国、市、有名な登録商標の名前などを含む。より詳細には、入札入力120内の任意の適切な名前を検出すると、関連性検証モジュール112は、適切な名前の類似性を次のように計算する。
Prop_Sim(term,page)=
・ 1−termが適切な名前Pを含んでおり、pageが適合した適切な名前Qを含んでいる場合
・ 0−termが適切な名前Pを含んでおり、pageは適合しない適切な名前Qのみを含んでいる場合
・ 0.5−その他
適切な名前は、それ自体およびその祖先に適合する。例えばミラノはイタリアに適合するなど、低レベルの地理的位置は、それを含む高レベルの地理的位置に適合する。
RV類似度測定値140の分類の類似度測定値部分は、検索用語提案リスト126の提案用語とURL124のサイトのコンテンツとの間の関連を測定する。より詳細には、分類の類似度測定値は、提案用語およびWebサイトのコンテンツをトレーニングされた類似性分類器(カテゴリ化)142に提示することによって生成される。関連性検証モジュール122は、次に説明するように、いくつかの異なる分類技術(ナイーブベイズ(NB)、サポートベクトルマシン(SVM)、N−gram統計ベースのナイーブベイズ(statistical n−gram based naive Bayesian)(N−Gram)、最近傍法(KNN)、決定ツリー、co−training、ブースト法(boosting)など)のうちのいずれかで類似性分類器142をトレーニングする。
(オフラインの類似性分類器トレーニング例)
関連性検証モジュール112は、ディレクトリデータ(「他のデータ132」参照)に対してΦ:X→Lとして類似性分類器142をトレーニングする。この場合、Xは入力(単一の用語からいくつかのWebページのコンテンツまでのスケールの文字列ストリーム)、Lは出力(カテゴリの上位2レベル全体にわたる確率)である。カテゴリの分類は、階層構造のものである。この実装形態では、LookSmart(登録商標)ディレクトリデータの第2レベルのカテゴリを使用し、これらのカテゴリの合計は、分類の何らかの数(例えば74)である。関連性検証モジュール112は、ディレクトリデータに対して特徴の抽出および特徴の選択の操作を実行する。さらに、関連性検証モジュール112は、ディレクトリデータによって識別されたWebページから説明文(抽出データ)を抽出する。Webページは、例えば「他のプログラムモジュール」118のそれぞれの部分で表されるWebページ巡回プログラムモジュールによって取り出される。特定のWebページの各説明文は、例えばタイトル、メタデータ、本文、アンカーテキスト、フォントサイズ、ハイパーリンク、画像、生のHTML(要約、ページレイアウト情報など)などのうちの1つまたは複数を含む。
関連性検証モジュール112は、簡単なテキストの前処理を適用して、抽出された特徴/データから言語トークンを生成する(すなわち個々の用語をトークン化する)。トークンの次元数を低減するために、関連性検証モジュール112は、任意のストップワードを削除し、共通の接頭語を削除して、例えば既知のPorterステミングアルゴリズムを使用して用語を正規化する。関連性検証モジュール112は、結果として得られた抽出された特徴を1つまたは複数の関連性検証(RV)用語ベクトル(すなわちRVベクトル134)にまとめる。したがって、各Webは、特徴ベクトルとして表され、その要素は、重み付けx=<xi1,xi2...xin>を備える単語である。重み付けxijは、以下の形式を有する、長さが正規化されたlog(tf).idfによって計算される。
Figure 2005302041
式中、dは元の文書、tは用語、fd,tはd内の用語tの出現頻度、idfは用語tの逆文書頻度、dlbはd内の一意の用語の数、avefはd内の用語の出現頻度の平均、およびavedlbは集合内のdlbの平均を表す。
関連性検証モジュール112の特徴選択操作は、さらにRVベクトル134の特徴を低減する(特徴が多すぎると、分類システムの性能および精度を低下させる可能性がある)。この実装形態では、特徴の選択のために情報利得(IG)選択方法が使用される。用語の情報利得は、次のように、文書内の用語の有無によってカテゴリ予測のために取得される情報のビット数を測定する。
Figure 2005302041
式中、tは用語、cはカテゴリ、mはカテゴリの合計数を表す。相互情報量(MI)、文書頻度(DF)、および線形判別分析(LDA)など、他の特徴選択方法を使用することもできる。
この実装形態では、関連性検証モジュール112の分類器トレーニング操作はN−gram統計モデルベースのナイーブベイズ分類器(N−Gram)を使用しているが、他のタイプの分類器を使用することもできる。特に、N−gram統計モデルは、ナイーブベイズ分類器とは異なり、単語ストリームに無関係であることを前提としていない。マルコフのN−gramの独立性を前提としており、すなわちある単語は、次の式に従って前のn−1の単語に依存する。
p(w|w,w,...,wi−1)=p(w|wi−n+1,...,wi−l
トレーニングコーパスからのこの確率の単純な推測が次の観察された頻度によって得られる。
Figure 2005302041
#(wi−n+1,...w),#(wi−n+1,...wi−l)の値のほとんどは、トレーニングデータにおいてゼロである。そのため、任意のデータの過疎性を扱うためにゼロ確率を予測するためのスムージング技術が提案される。バックオフN−gramモデルは、次のように、この問題を扱う1つの方法である。
Figure 2005302041
式中、
Figure 2005302041
は条件付き割引確率(discounted conditional probability)であり、β(wi−n+1,...,wi−l)はn−gramを(n−1)−gramにバックオフさせるためのバックオフ係数である。
Figure 2005302041
割引確率を計算するアルゴリズムはいくつかある。この実装形態では、次のように「絶対的スムージング(absolute smoothing)」が使用される。
Figure 2005302041
式中、
Figure 2005302041
は、トレーニングデータ中に正確にi回出現する単語の数である。したがって、NB分類器をN−gram分類器として変更することができる。
Figure 2005302041
この実装形態では、n=3であり、N−gram分類器は3−gram分類器と呼ばれる。
(類似度測定値の上手な組合せ)
関連性検証モジュール112は、結合済み関連性分類器144を考慮して複数のRV類似性測定値140を評価して信頼度138を生成する。信頼度は、入札用語122の入札URL124のサイトのコンテンツとの客観的関連性を示す。結合済み関連性分類器144は、用語/フレーズの拒否/承諾閾値を考慮して、<用語、Webページ(URL)、承諾/拒否>の形のデータで、例えばSVM分類器など、教師有り学習(supervised learning)でトレーニングされる。説明上、用語の拒否/承諾閾値を「他のデータ」132のそれぞれの部分として示している。
RV類似度測定値140は、入札入力120の特徴ベクトル(すなわち<用語、ページ>の対)として扱われる。説明上、特徴ベクトルとしてのRV類似度測定値(SM)は、RVSM特徴ベクトル140として示されている。以下の入札入力120およびRV類似度測定値140の計算がある。
・ 入札入力120:<用語122、URL124>
・ 用語122、URL124のコンテンツベースのRV類似度測定値140。Sim(用語122、URL124)として表される
・ 拡張されたコンテンツベースのRV類似度測定値140−Ex_Sim(拡張用語126、URL124)
・ 類似性分類器142ベースのRV類似度測定値140−Cate_Sim(拡張用語126のカテゴリ、URLのカテゴリ)
・ 適切な名前ベースのRV類似度測定値140−Proper_Sim(適切な名前、用語122、URL124)
関連性検証モジュール112は、<用語、クエリ>のRVSM特徴ベクトル140を結合済み関連性分類器144に適用して、関連性の拒否/承諾閾値を考慮して複数のRV類似度140をマッピングして、それぞれのRV類似度タイプの重み(すなわちコンテンツ、拡張されたカテゴリ、および適切な名前の類似度測定値タイプ)、および最終的な信頼度138を計算する。
(FOOが低い用語の分類)
設定可能な閾値を考慮して、信頼度138がURL124のサイトのコンテンツとは無関係なものとして用語122を拒否すべきであることを示した場合、分類モジュール114は、エンドユーザがURL124のサイトのコンテンツを考慮して評価できるように、出現頻度(FOO)が低いクエリ用語に基づいて提案用語リスト126を生成する。この実装形態では、提案用語リスト126は、評価するためにエンドユーザに伝えられるメッセージ146として示される。特に、分類モジュール114は、上述したように、出現頻度(FOO)が高いクエリログ用語から生成された用語クラスタ136からのSTS分類器148を使用する。分類モジュール114は、STS分類器148を使用して、それぞれの用語のコンテンツに応じて、高FOOベースの用語クラスタ136を1つまたは複数のSTSカテゴリ(「他のデータ」132参照)にグループ化する。用語クラスタ136は、分類操作に適したベクトル空間モデルにすでにある。さらに、ストップワードの削除およびワードステミング(接頭語の削除)によって、用語クラスタ136のコンテンツの次元数がすでに低減されている。一実装形態では、追加の次元数の低減技術、例えば特徴の選択または再パラメータ化を使用してもよい。
この実装形態では、クラスのわからない用語クラスタ136を分類するために、分類モジュール114は、k最近傍法分類器アルゴリズムを使用して、用語ベクトル間のクラスのわからないクラスタの近傍データをランク付けし、k個の最も類似の近傍データのクラスラベルを使用して、クラスのわからない用語のクラスを予想する。これらの近傍データのクラスに、Xへの各近傍データの類似性を使用して重みが付けられる。この場合、類似性は、2つの文書ベクトル間のユークリッド距離または余弦値によって測定される。余弦類似度は次の通りである。
Figure 2005302041
式中、Xはベクトルで表されるテスト文書、Dはj番目のトレーニング文書、tはXおよびDによって共有される単語、xはX内の用語tの重み、dijは文書内の用語tの重み、
Figure 2005302041
はXの平均、および‖DはDの平均である。カットオフ閾値は、新しい文書を既知のクラスに割り当てるために使用される。
別の実装形態では、最近傍法分類技術以外の異なる統計分類および機械学習技術(例えば回帰モデル、ベイズ分類器、決定ツリー、ニューラルネットワーク、およびサポートベクトルマシンなどを含む)を使用してトレーニングされたSTS分類器を生成する。
分類モジュール114は、出現頻度(FOO)が低いクエリ用語(「他のデータ」132の高い/低いクエリ用語部分を参照)を1つずつ検索エンジン106に提示する。検索エンジンに提示されたクエリごとの対応する検索結果の受信に応答して、上述した技術を使用して、分類モジュール114は、検索結果で識別された1つまたは複数の取り出されたWebページのそれぞれから説明文等の特徴を抽出する。この実装形態では、特徴は、最上位にランク付けされたWebページから抽出される。抽出されたこうした特徴は、「他のデータ」132のそれぞれの部分に表される。別の実装形態では、特徴は、上位にランク付けされた複数のWebページから抽出される。取り出され、構文解析されたWebページごとに、分類モジュール114は、抽出された特徴のそれぞれのレコードに、説明文、取り出されたWebページの取得に使用した検索クエリ、および取り出されたWebページのユニバーサルリソース識別子(URI)の情報を格納する。次に、分類モジュール114は、次元数をトークン化し、低減し、FOOが低いクエリ用語から導出された抽出された特徴138を正規化して、別の組の用語ベクトル(すなわちSTSベクトル134)を生成する。
分類114は、STSベクトル134内の用語をそれぞれの組の用語クラスタ136にクラスタ化する。これらは、FOOが低いクエリ用語に基づいてクラスタ化される。このクラスタ化操作は、上述したように、FOOが高いクエリ用語から生成されたトレーニングされたSTS分類器148を使用して実行される。分類モジュール114は、これらの用語クラスタを考慮して用語を評価して、これらの他の用語を含む提案用語リスト126を識別し、エンドユーザに戻す。
(用語の照合例)
設定可能な閾値を考慮して、信頼度138がURL124のサイトのコンテンツとは無関係なものとして用語122を承諾すべきであることを示した場合、入札入力120は、エンドユーザから受信したその後のクエリ152の解決用に入札データベース150に格納される。例えば、Webページを検索しているエンドユーザからのクエリ152の受信に応答して、用語照合モジュール116は、クエリ152の用語と入札データベース150からの用語との間の距離を編集して、クエリ152の用語の入札用語122との関連を決定する。特に、用語照合モジュール116は、関連性を次のように決定する。
Figure 2005302041
式中、fCommonは共通の用語の数、fDistanceは入札用語122がクエリ152の用語と交換された回数を表す。
(手順例)
図2は、用語とWebサイトのコンテンツとの間の関連性を検証する手順例200を示している。説明上、手順の操作は、図1の構成要素と関連して説明する(参照番号はすべて、構成要素が最初に導入された図面の数字で始まる)。ブロック202で、検索用語提案モジュール110は、検索エンジン106の検索結果から第1の組の用語クラスタ136を生成する。説明上、こうした検索結果を「他のデータ」132のそれぞれの部分として示す。検索結果を取得するために、検索用語提案モジュール110は、クエリログ130からマイニングされた出現頻度が高い履歴クエリを伝える。用語クラスタ136は、検索用語提案モジュール110によって、提示された出現頻度が高い履歴クエリに意味上および/またはコンテキスト上関連すると決定された説明文、対応する検索クエリ、Webページを含む。
ブロック204で、編集検証サーバ102が用語122およびURL124を含む入札入力120を受信することに応答して、検索用語提案モジュール110は、出現頻度が高い履歴クエリから生成された用語クラスタ136から拡張用語を識別する。こうした拡張用語は、用語122および/または入札URL124のサイトのコンテンツに意味上および/またはコンテキスト上関連する用語を含む。拡張用語を図1の提案用語リスト126として示している。ブロック206で、関連性検証モジュール112は、入札用語122、入札URL124、提案用語リスト126の拡張用語、トレーニングされた類似性分類器142、および/または適切な名前のデータベースの組合せからそれぞれコンテンツの類似度、拡張の類似度、分類の類似度、および適切な名前の類似度(すなわちRV類似度測定値140)を計算する。ブロック208で、関連性検証モジュール112は、トレーニングされた結合済み関連性分類器144および承諾/拒否閾値(「他データ」132参照)を考慮して、RV類似度測定値140を結合して信頼度138を取得する。信頼度138は、入札用語122と入札URL124との間の関連性の客観的測定値を提供する。
ブロック210で、関連性検証モジュール112は、承諾/拒否閾値を考慮して信頼度138が低すぎるかどうかを決定する。そうである場合、手順はブロック212に進む。ブロック212で、分類モジュール114は、FOOが低い履歴クエリに対する検索エンジン106の結果に基づいた第2の組の用語クラスタ136、および第1の組の用語クラスタ136に対してトレーニングされた分類器から提案用語リスト126を生成する。提案用語リスト126の用語は、分類モジュール114によって、入札URL124に関連付けられたサイトのコンテンツと意味上および/またはコンテキスト上類似していると決定される。説明上、分類器をSTS分類器148として示している。この例では、提案用語リスト126は、評価するためにエンドユーザに伝えられるメッセージ146として示される。
ブロック208で、関連性検証モジュール112が信頼度138は承諾可能である(承諾/拒否閾値を考慮して低すぎない)と決定した場合、ページ上の参照「A」によって示すように、手順は図3のブロック302に進む。
図3は、用語とWebサイトのコンテンツとの間の関連性を検証する手順例300を示している。特に、図3は図2の操作例の続きである。ブロック302で、関連性検証モジュール112は、入札用語122および入札URL124を入札データベース150に格納/キャッシュする。ブロック304で、任意のエンドユーザクエリ152の編集検証サーバ102による受信に応答して、用語照合モジュール116は、クエリ用語が入札用語122に正確には一致しない確率を考慮して、検索クエリ152の用語が入札データベース150に格納されている用語122に関連しているかどうかを決定する。ブロック306で、クエリ152の用語が入札用語122に関連していることが決定されると、編集検証サーバ102は、対応する入札URL124を検索結果としてエンドユーザに伝える。
(動作環境例)
図4は、用語とWebサイトのコンテンツとの間の関連性を検証するための図1のシステム100および図2および図3の方法を完全にまたは部分的に実施するのに適したコンピューティング環境例400を示している。コンピューティング環境例400は、適したコンピューティング環境の一例にすぎず、本明細書に記載したシステムおよび方法の使用または機能の範囲に関する限定を示唆するものではない。また、コンピューティング環境400を、コンピューティング環境400に示した構成要素のいずれか1つ、またはその組合せに関連する依存性または必要条件を有しているものと解釈すべきではない。
本明細書に記載した方法およびシステムは、他の多くの汎用または専用コンピューティングシステム環境または構成で動作可能である。本発明との使用に適したよく知られているコンピューティングシステム、環境、および/または構成の例には、それだけには限定されないが、パーソナルコンピュータ、サーバコンピュータ、マルチプロセッサシステム、マイクロプロセッサベースのシステム、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記の任意のシステムまたはデバイスを含む分散コンピューティング環境などがある。フレームワークのコンパクトまたはサブセットバージョンは、ハンドヘルドコンピュータや他のコンピューティングデバイスなど、限定されたリソースのクライアントにおいても実装できる。本発明は、タスクが通信ネットワークによってリンクされているリモート処理デバイスによって実行される分散コンピューティング環境で実施される。分散コンピューティング環境では、プログラムモジュールを、ローカルおよびリモートのメモリ記憶デバイスに置くことができる。
図4を参照すると、用語とWebサイトのコンテンツとの間の関連性を検証するシステムの例は、汎用コンピューティングデバイスをコンピュータ410の形で含んでいる。コンピュータ410の以下に記載した態様は、クライアントコンピューティングデバイスPSSサーバ102(図1)および/またはクライアントコンピューティングデバイス106の実装例である。コンピュータ410の構成要素は、それだけには限定されないが、処理ユニット420、システムメモリ430、およびシステムメモリを含む様々なシステム構成要素を処理ユニット420に結合するシステムバス421を含み得る。システムバス421は、様々なバスアーキテクチャのうちの任意のものを使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含むいくつかのタイプのバス構造のうちどんなものでもよい。こうしたアーキテクチャには、それだけには限定されないが一例として、業界標準アーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MCA)バス、拡張ISA(EISA)バス、ビデオ電子装置規格化協会(VESA)ローカルバス、およびメザニンバスとしても知られている周辺部品相互接続(PCI)バスなどがある。
コンピュータ410は、一般に様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ410からアクセスできる使用可能な任意の媒体とすることができ、揮発性および不揮発性の媒体、取外式および固定式の媒体を含む。コンピュータ可読媒体は、それだけには限定されないが一例として、コンピュータ記憶媒体および通信媒体を含み得る。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、他のデータなど、情報を格納するための任意の方法または技術で実施される揮発性および不揮発性の取外式および固定式媒体がある。コンピュータ記憶媒体には、それだけには限定されないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶デバイス、磁気カセット、磁気テープ、磁気ディスク記憶デバイスまたは他の磁気記憶デバイス、または所望の情報の格納に使用でき、コンピュータ410からアクセスできる他の任意の媒体などがある。
通信媒体は一般に、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを搬送波または他の移送機構などの変調されたデータ信号に組み込む。これには任意の情報配送媒体がある。「変調されたデータ信号」という用語は、信号に情報を符号化するように1つまたは複数のその特性が設定または変更された信号を意味する。通信媒体には、それだけには限定されないが一例として、有線ネットワーク、直接配線された接続などの有線媒体、および音響、RF、赤外線、その他の無線媒体などの無線媒体がある。また、上記のどんな組合せでもコンピュータ可読媒体の範囲内に含まれるものとする。
システムメモリ430は、読み取り専用メモリ(ROM)431やランダムアクセスメモリ(RAM)432など、揮発性および/または不揮発性メモリの形のコンピュータ記憶媒体を含む。基本入出力システム433(BIOS)は、例えば起動中など、コンピュータ410内の要素間での情報の転送を助ける基本ルーチンを含み、一般にROM431に格納されている。RAM432は一般に、処理ユニット420から直接アクセス可能な、かつ/または処理ユニット420が現在処理しているデータおよび/またはプログラムモジュールを含む。図4は、それだけには限定されないが一例として、オペレーティングシステム434、アプリケーションプログラム435、他のプログラムモジュール436、およびプログラムデータ437を示している。一実装形態では、アプリケーションプログラム435は、図1のプログラムモジュール108を含む。この同じシナリオでは、プログラムデータ437は、図1のプログラムデータ128を含む。
コンピュータ410は、他の取外式/固定式、揮発性/不揮発性コンピュータ記憶媒体を含むこともできる。一例にすぎないが、図4は、固定式不揮発性磁気媒体から読み取り、あるいはそこに書き込むハードディスクドライブ441、取外式不揮発性磁気ディスク452から読み取り、あるいはそこに書き込む磁気ディスクドライブ451、およびCD−ROMや他の光媒体など、取外式不揮発性光ディスク456から読み取り、あるいはそこに書き込む光ディスクドライブ455を示している。動作環境の例で使用できる他の取外式/固定式、揮発性/不揮発性コンピュータ記憶媒体には、それだけには限定されないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、半導体RAM、半導体ROMなどがある。ハードディスクドライブ441は一般に、インターフェース440などの固定式メモリインターフェースを介してシステムバス421に接続され、磁気ディスクドライブ451および光ディスクドライブ455は一般に、インターフェース450などの取外式メモリインターフェースによってシステムバス421に接続される。
上述し、図4に示したドライブおよびその関連のコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、およびコンピュータ410の他のデータの記憶域を提供する。図4では例えば、ハードディスクドライブ441は、オペレーティングシステム444、アプリケーションプログラム445、他のプログラムモジュール446、およびプログラムデータ447を記憶するものとして示されている。これらの構成要素は、オペレーティングシステム434、アプリケーションプログラム435、他のプログラムモジュール436、およびプログラムデータ437と同じであっても、異なっていてもよいことに留意されたい。オペレーティングシステム444、アプリケーションプログラム445、他のプログラムモジュール446、およびプログラムデータ447は少なくとも異なるコピーであることを示すために、ここではそれらに異なる番号を付している。
ユーザは、キーボード462、および一般にマウス、トラックボール、またはタッチパッドと呼ばれるポインティングデバイス461などの入力デバイスを介してコマンドおよび情報をコンピュータ410に入力することができる。他の入力デバイス(図示せず)には、マイクロフォン、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどがある。これらおよび他の入力デバイスは、しばしばシステムバス420に結合されているユーザ入力インターフェース460を介して処理ユニット421に接続されるが、パラレルポート、ゲームポート、ユニバーサルシリアルバス(USB)など他のインターフェースおよびバス構造で接続してもよい。
モニタ491または他のタイプの表示デバイスもまた、ビデオインターフェース490などのインターフェースを介してシステムバス421に接続される。モニタに加えて、コンピュータは、出力周辺インターフェース495を介して接続できるスピーカ497、プリンタ496などの他の周辺出力デバイスを含むこともできる。
コンピュータ410は、リモートコンピュータ480など1つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク式環境で動作する。リモートコンピュータ480は、パーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ピアデバイス、または他の一般のネットワークノードでよく、その特定の実装に応じて、コンピュータ410に関連して上述した多くまたはすべての要素を含むが、図4にはメモリ記憶デバイス481のみを示している。図4に示した論理接続は、ローカルエリアネットワーク(LAN)471および広域ネットワーク(WAN)473を含むが、他のネットワークを含んでいてもよい。こうしたネットワーキング環境は、オフィス、全社規模のコンピュータネットワーク、イントラネット、およびインターネットではごく一般的である。
LANネットワーキング環境で使用する場合、コンピュータ410は、ネットワークインターフェースまたはアダプタ471を介してLAN470に接続される。WANネットワーキング環境で使用する場合、コンピュータ410は一般に、モデム472、またはインターネットなどWAN473を介して通信を確立する他の手段を含む。モデム472は、内蔵のものでも外付けのものでもよく、ユーザ入力インターフェース460または他の適切な機構を介してシステムバス421に接続することができる。ネットワーク式環境では、コンピュータ410に関連して示したプログラムモジュール、またはその一部をリモートメモリ記憶デバイスに格納することができる。図4は、それだけには限定されないが一例として、リモートアプリケーションプログラム485をメモリデバイス481上に存在するものとして示している。図示したネットワーク接続は例であり、コンピュータ間の通信リンクを確立する他の手段を使用してもよい。
(結言)
用語とWebサイトのコンテンツとの間の関連性を検証するシステムおよび方法について、構造的な特徴および/または方法の操作または動作に限定した言葉で説明してきたが、添付の特許請求の範囲で定義した実装は、記載した特定の特徴または動作に必ずしも限定されるものではないことを理解されたい。したがって、特定の特徴および動作は、請求した主題を実施する形式例として開示される。
用語とWebサイトのコンテンツとの間の関連性を検証するシステム例を示す図である。 用語とWebサイトのコンテンツとの間の関連性を検証する手順例を示す図である。 用語とWebサイトのコンテンツとの間の関連性を検証する手順例を示す図である。特に図3は、図2の操作例の続きを示す。 用語とWebサイトのコンテンツとの間の関連性を検証する上記のシステム、デバイス、および方法を完全にまたは部分的に実装するのに適したコンピューティング環境例を示す図である。
符号の説明
102 編集検証サーバ
106 検索エンジン
108 プログラムモジュール
110 検索用語提案
112 関連性検証
114 分類モジュール
116 用語照合
118 他のプログラムモジュール
120 入札入力
122 用語
126 提案用語リスト
128 プログラムデータ
130 クエリログ
132 他のデータ
134 用語ベクトル(STSベクトルおよびRVベクトル)
136 用語クラスタ(高/低FOOベースのクラスタ)
138 信頼度
140 RV類似度測定値およびRVSM特徴ベクトル
142 類似性分類器
144 結合済み関連性分類器
148 STS分類器
150 入札データベース
152 クエリ
420 処理ユニット
421 システムバス
430 システムメモリ
434 オペレーティングシステム
435 アプリケーションプログラム
436 他のプログラムモジュール
437 プログラムデータ
440 固定式不揮発性インターフェース
444 オペレーティングシステム
445 アプリケーションプログラム
446 他のプログラムモジュール
447 プログラムデータ
450 取外式不揮発性インターフェース
460 ユーザ入力インターフェース
461 マウス
462 キーボード
470 ネットワークインターフェース
471 ローカルエリアネットワーク
472 モデム
473 広域ネットワーク
480 リモートコンピュータ
485 リモートアプリケーションプログラム
490 ビデオインターフェース
491 モニタ
494 入力周辺インターフェース
495 出力周辺インターフェース
496 プリンタ
497 スピーカ

Claims (45)

  1. 用語とWebサイトのコンテンツとの間の関連性を検証する方法であって、
    入札URLからサイトのコンテンツを取り出すステップと、
    入札用語に意味上および/またはコンテキスト上関連する拡張用語を構築するステップと、
    前記入札用語、前記サイトのコンテンツ、および前記拡張用語のそれぞれの組合せからコンテンツの類似度測定値および拡張の類似度測定値を生成するステップであって、前記類似度測定値は前記入札用語、サイトのコンテンツ、および/または拡張用語のそれぞれのものの間の関連性を示すステップと、
    類似性分類器を考慮して前記拡張用語と前記サイトのコンテンツとの間のカテゴリの類似度測定値を計算するステップであって、前記類似性分類器は、ディレクトリデータに関連付けられたマイニングされたWebサイトのコンテンツからトレーニングされているステップと、
    複数の類似度測定値のうちの結合されたものから信頼度を計算するステップであって、前記結合されたものはコンテンツの類似度測定値、拡張の類似度測定値、およびカテゴリの類似度測定値を含み、前記信頼度は前記入札用語と前記サイトのコンテンツとの間の関連性の客観的測定値を提供するステップと
    を含むことを特徴とする方法。
  2. 前記類似性分類器は、N−gram統計ベースのナイーブベイズ(N−Gram)、ナイーブベイズ(NB)、サポートベクトルマシン(SVM)、最近傍法(KNN)、決定ツリー、co−training、またはブースト分類モデルに基づくことを特徴とする請求項1に記載の方法。
  3. 前記拡張用語を構築するステップは、計算された用語の類似性に基づいて用語ベクトルから用語クラスタを生成するステップであって、前記用語ベクトルは履歴クエリから生成され、各履歴クエリは高い出現頻度を有し、前記用語クラスタは前記拡張用語を含むステップをさらに含むことを特徴とする請求項1に記載の方法。
  4. 前記コンテンツの類似度測定値を生成するステップは、前記入札用語および前記サイトのコンテンツからそれぞれの用語ベクトルを生成するステップと、前記それぞれの用語ベクトル間の類似性を計算して前記入札用語と前記サイトのコンテンツとの間の直接の類似性を決定するステップとをさらに含むことを特徴とする請求項1に記載の方法。
  5. 前記拡張の類似度測定値を生成するステップは、
    前記入札用語、前記サイトのコンテンツ、および前記拡張用語からそれぞれの用語ベクトルを生成するステップと、
    前記それぞれの用語ベクトル間の類似性を計算して、前記入札用語と前記サイトのコンテンツとの間の前記拡張の類似度測定値を決定するステップと
    をさらに含むことを特徴とする請求項1に記載の方法。
  6. 前記カテゴリの類似度測定値を生成するステップは、
    前記ディレクトリデータに関連付けられているWebサイトのコンテンツから特徴を抽出するステップであって、前記特徴は、タイトル、メタデータ、本文、ハイパーテキストリンク、視覚的特徴、および/またはページレイアウト分析情報による要約の組合せを含むステップと、
    特徴の選択を介して前記特徴の次元数を低減するステップと、
    分類器モデルを介して前記特徴をカテゴリ化して前記類似性分類器を生成するステップと、
    前記入札用語、前記サイトのコンテンツ、および前記拡張用語からそれぞれの用語ベクトルを生成するステップと、
    前記類似性分類器に応じて前記それぞれの用語ベクトル間の類似性を計算して、前記カテゴリの類似度測定値を決定するステップと
    をさらに含むことを特徴とする請求項1に記載の方法。
  7. 前記信頼度を計算するステップは、
    承諾/拒否閾値を考慮して、<用語、Webサイトのコンテンツ、承諾/拒否>の形のデータで結合済み関連性分類器をトレーニングするステップと、
    前記コンテンツの類似度測定値、拡張の類似度測定値、およびカテゴリの類似度測定値から関連性検証の類似度測定値(RSVM)の特徴ベクトルを生成するステップと、
    前記結合済み関連性分類器を介して前記RSVM特徴ベクトルから前記信頼度に複数のスコアをマッピングするステップと
    をさらに含むことを特徴とする請求項1に記載の方法。
  8. 前記方法は、
    前記入札用語および入札URLを入札データベースにキャッシュするステップと、
    検索クエリの受信に応答して、前記検索クエリの用語が前記入札用語に正確には一致していない確率を考慮して、前記検索クエリの前記用語が前記入札用語に関連しているかどうかを決定するステップと、
    検索クエリの前記用語が前記入札用語に関連していると決定されると、前記入札URLを前記エンドユーザに伝えるステップと
    をさらに含むことを特徴とする請求項1に記載の方法。
  9. 前記方法は、
    前記入札用語およびサイトのコンテンツから適切な名前の類似度測定値を決定するステップであって、前記適切な名前の類似度測定値は、1組の適切な名前を考慮して前記入札用語で検出された任意の適切な名前と前記サイトのコンテンツとの間の関連を示すステップ
    をさらに含み、複数の類似度測定値のうちの前記結合したものは前記適切な名前の類似度測定値を含む
    ことを特徴とする請求項1に記載の方法。
  10. 前記適切な名前の類似度測定値を決定するステップは、
    前記入札用語および/または前記サイトのコンテンツでの適切な名前の検出に応答して、
    Prop_Sim(用語、サイトのコンテンツ)
    の適切な名前の類似度スコアを算出するステップ
    をさらに含み、Prop_Sim(用語、サイトのコンテンツ)は、用語が適切な名前Pを含み、サイトのコンテンツが適合する適切な名前Qを含む場合は1、用語が適切な名前Pを含み、サイトのコンテンツが適合しない適切な名前のみを含む場合は0、そうでない場合は0.5に等しい
    ことを特徴とする請求項9に記載の方法。
  11. 前記方法は、
    前記信頼度は相対的に低いと決定するステップと、
    前記決定に応答して、前記入札URLに意味上および/またはコンテキスト上関連する1つまたは複数の他の用語を識別するステップと
    をさらに含むことを特徴とする請求項1に記載の方法。
  12. 識別するステップは、
    計算された用語の類似性に基づいて用語ベクトルから1組の用語クラスタを生成するステップであって、前記用語ベクトルは提示された履歴クエリの検索エンジン結果から生成され、各履歴クエリはクエリログ内の他のクエリ用語に比べて相対的に低い出現頻度を有するステップと、
    前記用語クラスタによって指定された用語を考慮して前記サイトのコンテンツを評価して意味上および/またはコンテキスト上関連する1つまたは複数の用語を識別するステップであって、前記用語は前記1つまたは複数の他の用語であるステップと
    をさらに含むことを特徴とする請求項11に記載の方法。
  13. 用語とWebサイトのコンテンツとの間の関連性を検証するコンピュータ実行可能命令を含むコンピュータ可読媒体であって、前記コンピュータ実行可能命令は
    入札URLからサイトのコンテンツを取り出す命令と、
    入札用語に意味上および/またはコンテキスト上関連する拡張用語を構築する命令と、
    前記入札用語、前記サイトのコンテンツ、および前記拡張用語のそれぞれの組合せからコンテンツの類似度測定値および拡張の類似度測定値を生成する命令であって、前記類似度測定値は前記入札用語、サイトのコンテンツ、および/または拡張用語のそれぞれのものの間の関連性を示す命令と、
    類似性分類器を考慮して前記拡張用語と前記サイトのコンテンツとの間のカテゴリの類似度測定値を計算する命令であって、前記類似性分類器は、ディレクトリデータに関連付けられたマイニングされたWebサイトのコンテンツからトレーニングされている命令と、
    複数の類似度測定値のうちの結合されたものから信頼度を計算する命令であって、前記結合されたものはコンテンツの類似度測定値、拡張の類似度測定値、およびカテゴリの類似度測定値を含み、前記信頼度は前記入札用語と前記サイトのコンテンツとの間の関連性の客観的測定値を提供する命令と
    を含むことを特徴とするコンピュータ可読媒体。
  14. 前記類似性分類器は、N−gram統計ベースのナイーブベイズ(N−Gram)、ナイーブベイズ(NB)、サポートベクトルマシン(SVM)、最近傍法(KNN)、決定ツリー、co−training、またはブースト分類モデルに基づくことを特徴とする請求項13に記載のコンピュータ可読媒体。
  15. 前記拡張用語を構築する前記コンピュータ実行可能命令は、計算された用語の類似性に基づいて用語ベクトルから用語クラスタを生成する命令であって、前記用語ベクトルは履歴クエリから生成され、各履歴クエリは高い出現頻度を有し、前記用語クラスタは前記拡張用語を含む命令をさらに含むことを特徴とする請求項13に記載のコンピュータ可読媒体。
  16. 前記コンテンツの類似度測定値を生成する前記コンピュータ実行可能命令は、前記入札用語および前記サイトのコンテンツからそれぞれの用語ベクトルを生成する命令、および前記それぞれの用語ベクトル間の類似性を計算して前記入札用語と前記サイトのコンテンツとの間の直接の類似性を決定する命令をさらに含むことを特徴とする請求項13に記載のコンピュータ可読媒体。
  17. 前記拡張の類似度測定値を生成する前記コンピュータ実行可能命令は、
    前記入札用語、前記サイトのコンテンツ、および前記拡張用語からそれぞれの用語ベクトルを生成する命令と、
    前記それぞれの用語ベクトル間の類似性を計算して、前記入札用語と前記サイトのコンテンツとの間の前記拡張の類似度測定値を決定する命令と
    をさらに含むことを特徴とする請求項13に記載のコンピュータ可読媒体。
  18. 前記カテゴリの類似度測定値を生成する前記コンピュータ実行可能命令は、
    前記ディレクトリデータに関連付けられているWebサイトのコンテンツから特徴を抽出する命令であって、前記特徴は、タイトル、メタデータ、本文、ハイパーテキストリンク、視覚的特徴、および/またはページレイアウト分析情報による要約の組合せを含む命令と、
    特徴の選択を介して前記特徴の次元数を低減する命令と、
    分類器モデルを介して前記特徴をカテゴリ化して前記類似性分類器を生成する命令と、
    前記入札用語、前記サイトのコンテンツ、および前記拡張用語からそれぞれの用語ベクトルを生成する命令と、
    前記類似性分類器に応じて前記それぞれの用語ベクトル間の類似性を計算して、前記カテゴリの類似度測定値を決定する命令と
    をさらに含むことを特徴とする請求項13に記載のコンピュータ可読媒体。
  19. 前記信頼度を計算する前記コンピュータ実行可能命令は、
    承諾/拒否閾値を考慮して、<用語、Webサイトのコンテンツ、承諾/拒否>の形のデータで結合済み関連性分類器をトレーニングする命令と、
    前記コンテンツの類似度測定値、拡張の類似度測定値、およびカテゴリの類似度測定値から関連性検証の類似度測定値(RSVM)の特徴ベクトルを生成する命令と、
    前記結合済み関連性分類器を介して前記RSVM特徴ベクトルから前記信頼度に複数のスコアをマッピングする命令と
    をさらに含むことを特徴とする請求項13に記載のコンピュータ可読媒体。
  20. 前記コンピュータ実行可能命令は、
    前記入札用語および入札URLを入札データベースにキャッシュする命令と、
    検索クエリの受信に応答して、前記検索クエリの用語が前記入札用語に正確には一致していない確率を考慮して、前記検索クエリの前記用語が前記入札用語に関連しているかどうかを決定する命令と、
    検索クエリの前記用語が前記入札用語に関連していると決定されると、前記入札URLを前記エンドユーザに伝える命令と
    をさらに含むことを特徴とする請求項13に記載のコンピュータ可読媒体。
  21. 前記コンピュータ実行可能命令は、
    前記入札用語およびサイトのコンテンツから適切な名前の類似度測定値を決定する命令であって、前記適切な名前の類似度測定値は、1組の適切な名前を考慮して前記入札用語で検出された任意の適切な名前と前記サイトのコンテンツとの間の関連を示す命令
    をさらに含み、複数の類似度測定値のうちの前記結合したものは前記適切な名前の類似度測定値を含む
    ことを特徴とする請求項13に記載のコンピュータ可読媒体。
  22. 前記適切な名前の類似度測定値を決定する前記コンピュータ実行可能命令は、
    前記入札用語および/または前記サイトのコンテンツでの適切な名前の検出に応答して、
    Prop_Sim(用語、サイトのコンテンツ)
    の適切な名前の類似度スコアを算出する命令
    をさらに含み、Prop_Sim(用語、サイトのコンテンツ)は、用語が適切な名前Pを含み、サイトのコンテンツが適合する適切な名前Qを含む場合は1、用語が適切な名前Pを含み、サイトのコンテンツが適合しない適切な名前のみを含む場合は0、そうでない場合は0.5に等しい
    ことを特徴とする請求項21に記載のコンピュータ可読媒体。
  23. 前記コンピュータ実行可能命令は、
    前記信頼度は相対的に低いと決定する命令と、
    前記決定に応答して、前記入札URLに意味上および/またはコンテキスト上関連する1つまたは複数の他の用語を識別する命令と
    をさらに含むことを特徴とする請求項13に記載のコンピュータ可読媒体。
  24. 識別する前記コンピュータ実行可能命令は、
    計算された用語の類似性に基づいて用語ベクトルから1組の用語クラスタを生成する命令であって、前記用語ベクトルは提示された履歴クエリの検索エンジン結果から生成され、各履歴クエリはクエリログ内の他のクエリ用語に比べて相対的に低い出現頻度を有する命令と、
    前記用語クラスタによって指定された用語を考慮して前記サイトのコンテンツを評価して意味上および/またはコンテキスト上関連する1つまたは複数の用語を識別する命令であって、前記用語は前記1つまたは複数の他の用語である命令と
    をさらに含むことを特徴とする請求項23に記載のコンピュータ可読媒体。
  25. 用語とWebサイトのコンテンツとの間の関連性を検証するコンピューティングデバイスであって、
    プロセッサと、
    入札URLからサイトのコンテンツを取り出す命令と、
    入札用語に意味上および/またはコンテキスト上関連する拡張用語を構築する命令と、
    前記入札用語、前記サイトのコンテンツ、および前記拡張用語のそれぞれの組合せからコンテンツの類似度測定値および拡張の類似度測定値を生成する命令であって、前記類似度測定値は前記入札用語、サイトのコンテンツ、および/または拡張用語のそれぞれのものの間の関連性を示す命令と、
    類似性分類器を考慮して前記拡張用語と前記サイトのコンテンツとの間のカテゴリの類似度測定値を計算する命令であって、前記類似性分類器は、ディレクトリデータに関連付けられたマイニングされたWebサイトのコンテンツからトレーニングされている命令と、
    複数の類似度測定値のうちの結合されたものから信頼度を計算する命令であって、前記結合されたものはコンテンツの類似度測定値、拡張の類似度測定値、およびカテゴリの類似度測定値を含み、前記信頼度は前記入札用語と前記サイトのコンテンツとの間の関連性の客観的測定値を提供する命令と
    を前記プロセッサによって実行可能なコンピュータプログラム命令を含む、前記プロセッサに結合されるメモリと
    を含むことを特徴とするコンピューティングデバイス。
  26. 前記類似性分類器は、N−gram統計ベースのナイーブベイズ(N−Gram)、ナイーブベイズ(NB)、サポートベクトルマシン(SVM)、最近傍法(KNN)、決定ツリー、co−training、またはブースト分類モデルに基づくことを特徴とする請求項25に記載のコンピューティングデバイス。
  27. 前記拡張用語を構築する前記コンピュータ実行可能命令は、計算された用語の類似性に基づいて用語ベクトルから用語クラスタを生成する命令であって、前記用語ベクトルは履歴クエリから生成され、各履歴クエリは高い出現頻度を有し、前記用語クラスタは前記拡張用語を含む命令をさらに含むことを特徴とする請求項25に記載のコンピューティングデバイス。
  28. 前記コンテンツの類似度測定値を生成する前記コンピュータ実行可能命令は、前記入札用語および前記サイトのコンテンツからそれぞれの用語ベクトルを生成する命令、および前記それぞれの用語ベクトル間の類似性を計算して前記入札用語と前記サイトのコンテンツとの間の直接の類似性を決定する命令をさらに含むことを特徴とする請求項25に記載のコンピューティングデバイス。
  29. 前記拡張の類似度測定値を生成する前記コンピュータ実行可能命令は、
    前記入札用語、前記サイトのコンテンツ、および前記拡張用語からそれぞれの用語ベクトルを生成する命令と、
    前記それぞれの用語ベクトル間の類似性を計算して、前記入札用語と前記サイトのコンテンツとの間の前記拡張の類似度測定値を決定する命令と
    をさらに含むことを特徴とする請求項25に記載のコンピューティングデバイス。
  30. 前記カテゴリの類似度測定値を生成する前記コンピュータ実行可能命令は、
    前記ディレクトリデータに関連付けられているWebサイトのコンテンツから特徴を抽出する命令であって、前記特徴は、タイトル、メタデータ、本文、ハイパーテキストリンク、視覚的特徴、および/またはページレイアウト分析情報による要約の組合せを含む命令と、
    特徴の選択を介して前記特徴の次元数を低減する命令と、
    分類器モデルを介して前記特徴をカテゴリ化して前記類似性分類器を生成する命令と、
    前記入札用語、前記サイトのコンテンツ、および前記拡張用語からそれぞれの用語ベクトルを生成する命令と、
    前記類似性分類器に応じて前記それぞれの用語ベクトル間の類似性を計算して、前記カテゴリの類似度測定値を決定する命令と
    をさらに含むことを特徴とする請求項25に記載のコンピューティングデバイス。
  31. 前記信頼度を計算する前記コンピュータ実行可能命令は、
    承諾/拒否閾値を考慮して、<用語、Webサイトのコンテンツ、承諾/拒否>の形のデータで結合済み関連性分類器をトレーニングするステップと、
    前記コンテンツの類似度測定値、拡張の類似度測定値、およびカテゴリの類似度測定値から関連性検証の類似度測定値(RSVM)の特徴ベクトルを生成する命令と、
    前記結合済み関連性分類器を介して前記RSVM特徴ベクトルから前記信頼度に複数のスコアをマッピングする命令と
    をさらに含むことを特徴とする請求項25に記載のコンピューティングデバイス。
  32. 前記コンピュータ実行可能命令は、
    前記入札用語およびサイトのコンテンツから適切な名前の類似度測定値を決定する命令であって、前記適切な名前の類似度測定値は、1組の適切な名前を考慮して前記入札用語で検出された任意の適切な名前と前記サイトのコンテンツとの間の関連を示す命令
    をさらに含み、複数の類似度測定値のうちの前記結合したものは前記適切な名前の類似度測定値を含む
    ことを特徴とする請求項25に記載のコンピューティングデバイス。
  33. 前記適切な名前の類似度測定値を決定する前記コンピュータ実行可能命令は、
    前記入札用語および/または前記サイトのコンテンツでの適切な名前の検出に応答して、
    Prop_Sim(用語、サイトのコンテンツ)
    の適切な名前の類似度スコアを算出する命令
    をさらに含み、Prop_Sim(用語、サイトのコンテンツ)は、用語が適切な名前Pを含み、サイトのコンテンツが適合する適切な名前Qを含む場合は1、用語が適切な名前Pを含み、サイトのコンテンツが適合しない適切な名前のみを含む場合は0、そうでない場合は0.5に等しい
    ことを特徴とする請求項32に記載のコンピューティングデバイス。
  34. 前記コンピュータ実行可能命令は、
    前記信頼度は相対的に低いと決定する命令と、
    前記決定に応答して、前記入札URLに意味上および/またはコンテキスト上関連する1つまたは複数の他の用語を識別する命令と
    をさらに含むことを特徴とする請求項25に記載のコンピューティングデバイス。
  35. 識別する前記コンピュータ実行可能命令は、
    計算された用語の類似性に基づいて用語ベクトルから1組の用語クラスタを生成する命令であって、前記用語ベクトルは提示された履歴クエリの検索エンジン結果から生成され、各履歴クエリはクエリログ内の他のクエリ用語に比べて相対的に低い出現頻度を有する命令と、
    前記用語クラスタによって指定された用語を考慮して前記サイトのコンテンツを評価して意味上および/またはコンテキスト上関連する1つまたは複数の用語を識別する命令であって、前記用語は前記1つまたは複数の他の用語である命令と
    をさらに含むことを特徴とする請求項34に記載のコンピューティングデバイス。
  36. 用語とWebサイトのコンテンツとの間の関連性を検証するコンピューティングデバイスであって、
    入札URLからサイトのコンテンツを取得する取り出し手段と、
    入札用語に意味上および/またはコンテキスト上関連する拡張用語を識別する構築手段と、
    前記入札用語、前記サイトのコンテンツ、および前記拡張用語のそれぞれの組合せからコンテンツの類似度測定値および拡張の類似度測定値を作成する生成手段あって、前記類似度測定値は前記入札用語、サイトのコンテンツ、および/または拡張用語のそれぞれのものの間の関連性を示す手段と、
    類似性分類器を考慮して前記拡張用語と前記サイトのコンテンツとの間のカテゴリの類似度測定値を決定する計算手段であって、前記類似性分類器は、ディレクトリデータに関連付けられたマイニングされたWebサイトのコンテンツからトレーニングされている手段と、
    複数の類似度測定値のうちの結合されたものから信頼度を生成する計算手段であって、前記結合されたものはコンテンツの類似度測定値、拡張の類似度測定値、およびカテゴリの類似度測定値を含み、前記信頼度は前記入札用語と前記サイトのコンテンツとの間の関連性の客観的測定値を提供する手段と
    を含むことを特徴とするコンピューティングデバイス。
  37. 前記コンピュータ構築手段は、計算された用語の類似性に基づいて用語ベクトルから用語クラスタを作成する生成手段であって、前記用語ベクトルは履歴クエリから生成され、各履歴クエリは高い出現頻度を有し、前記用語クラスタは前記拡張用語を含む手段をさらに含むことを特徴とする請求項36に記載のコンピューティングデバイス。
  38. 前記生成手段は、前記入札用語および前記サイトのコンテンツからそれぞれの用語ベクトルを生成する作成手段と、前記それぞれの用語ベクトル間の類似性を決定して前記入札用語と前記サイトのコンテンツとの間の直接の類似性を決定する計算手段をさらに含むことを特徴とする請求項36に記載のコンピューティングデバイス。
  39. 前記生成手段は、
    前記入札用語、前記サイトのコンテンツ、および前記拡張用語からそれぞれの用語ベクトルを生成する作成手段と、
    前記それぞれの用語ベクトル間の類似性を決定して、前記入札用語と前記サイトのコンテンツとの間の前記拡張の類似度測定値を決定する計算手段と
    をさらに含むことを特徴とする請求項36に記載のコンピューティングデバイス。
  40. 前記生成手段は、
    前記ディレクトリデータに関連付けられているWebサイトのコンテンツから特徴を取得する抽出手段であって、前記特徴は、タイトル、メタデータ、本文、ハイパーテキストリンク、視覚的特徴、および/またはページレイアウト分析情報による要約の組合せを含む手段と、
    特徴の選択を介して前記特徴の次元数を低減する低減手段と、
    分類器モデルを介して前記特徴を整理して前記類似性分類器を生成するカテゴリ化手段と、
    前記入札用語、前記サイトのコンテンツ、および前記拡張用語からそれぞれの用語ベクトルを作成する生成手段と、
    前記類似性分類器に応じて前記それぞれの用語ベクトル間の類似性を識別して、前記カテゴリの類似度測定値を決定する計算手段と
    をさらに含むことを特徴とする請求項36に記載のコンピューティングデバイス。
  41. 前記計算手段は、
    承諾/拒否閾値を考慮して、<用語、Webサイトのコンテンツ、承諾/拒否>の形のデータで結合済み関連性分類器をトレーニングするトレーニング手段と、
    前記コンテンツの類似度測定値、拡張の類似度測定値、およびカテゴリの類似度測定値から関連性検証の類似度測定値(RSVM)の特徴ベクトルを生成する生成手段と、
    前記結合済み関連性分類器を介して前記RSVM特徴ベクトルから前記信頼度に複数のスコアを関連付けるマッピング手段と
    をさらに含むことを特徴とする請求項36に記載のコンピューティングデバイス。
  42. 前記コンピューティングデバイスは、
    前記入札用語およびサイトのコンテンツから適切な名前の類似度測定値を決定する決定手段であって、前記適切な名前の類似度測定値は、1組の適切な名前を考慮して前記入札用語で検出された任意の適切な名前と前記サイトのコンテンツとの間の関連を示す手段
    をさらに含み、複数の類似度測定値のうちの前記結合したものは、前記適切な名前の類似度測定値を含む
    ことを特徴とする請求項36に記載のコンピューティングデバイス。
  43. 前記適切な名前の類似度測定値を決定する前記決定手段は、前記入札用語および/または前記サイトのコンテンツでの適切な名前の検出に応答して、適切な名前の類似度スコアを算出する計算手段をさらに含むことを特徴とする請求項42に記載のコンピューティングデバイス。
  44. 前記コンピューティングデバイスは、
    前記信頼度は相対的に低いと決定する決定手段と、
    前記決定に応答して、前記入札URLに意味上および/またはコンテキスト上関連する1つまたは複数の他の用語を識別する識別手段と
    をさらに含むことを特徴とする請求項36に記載のコンピューティングデバイス。
  45. 前記識別手段は、
    計算された用語の類似性に基づいて用語ベクトルから1組の用語クラスタを生成する生成手段であって、前記用語ベクトルは提示された履歴クエリの検索エンジン結果から生成され、各履歴クエリはクエリログ内の他のクエリ用語に比べて相対的に低い出現頻度を有する手段と、
    前記用語クラスタによって指定された用語を考慮して前記サイトのコンテンツを評価して意味上および/またはコンテキスト上関連する1つまたは複数の用語を識別する評価手段であって、前記用語は前記1つまたは複数の他の用語である手段と
    をさらに含むことを特徴とする請求項44に記載のコンピューティングデバイス。
JP2005118049A 2004-04-15 2005-04-15 キーワードとWebサイトのコンテンツとの間の関連性の検証 Pending JP2005302041A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/826,162 US7260568B2 (en) 2004-04-15 2004-04-15 Verifying relevance between keywords and web site contents

Publications (2)

Publication Number Publication Date
JP2005302041A true JP2005302041A (ja) 2005-10-27
JP2005302041A5 JP2005302041A5 (ja) 2008-02-07

Family

ID=34939282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005118049A Pending JP2005302041A (ja) 2004-04-15 2005-04-15 キーワードとWebサイトのコンテンツとの間の関連性の検証

Country Status (10)

Country Link
US (1) US7260568B2 (ja)
EP (1) EP1587010A3 (ja)
JP (1) JP2005302041A (ja)
KR (1) KR101201037B1 (ja)
CN (1) CN100476814C (ja)
AU (1) AU2005201684A1 (ja)
BR (1) BRPI0503051A (ja)
CA (1) CA2504181C (ja)
MX (1) MXPA05004098A (ja)
RU (1) RU2375747C2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011096073A (ja) * 2009-10-30 2011-05-12 Rakuten Inc 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及びコンテンツ生成装置
JP2011096078A (ja) * 2009-10-30 2011-05-12 Rakuten Inc 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置
JP2018060468A (ja) * 2016-10-07 2018-04-12 ヤフー株式会社 集計装置、集計方法、及び集計プログラム
KR102068507B1 (ko) * 2019-07-11 2020-01-21 (주)시큐레이어 기계 학습 모델의 신뢰도를 판단하기 위한 후처리 방법 및 이를 사용한 후처리 장치
US10614134B2 (en) 2009-10-30 2020-04-07 Rakuten, Inc. Characteristic content determination device, characteristic content determination method, and recording medium

Families Citing this family (200)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8630984B1 (en) 2003-01-17 2014-01-14 Renew Data Corp. System and method for data extraction from email files
US8065277B1 (en) 2003-01-17 2011-11-22 Daniel John Gardner System and method for a data extraction and backup database
US8375008B1 (en) 2003-01-17 2013-02-12 Robert Gomes Method and system for enterprise-wide retention of digital or electronic data
US8943024B1 (en) 2003-01-17 2015-01-27 Daniel John Gardner System and method for data de-duplication
US7599938B1 (en) 2003-07-11 2009-10-06 Harrison Jr Shelton E Social news gathering, prioritizing, tagging, searching, and syndication method
WO2006008733A2 (en) * 2004-07-21 2006-01-26 Equivio Ltd. A method for determining near duplicate data objects
US8635217B2 (en) 2004-09-15 2014-01-21 Michael J. Markus Collections of linked databases
US8880521B2 (en) * 2004-09-15 2014-11-04 3Degrees Llc Collections of linked databases
US8412706B2 (en) 2004-09-15 2013-04-02 Within3, Inc. Social network analysis
US7801899B1 (en) * 2004-10-01 2010-09-21 Google Inc. Mixing items, such as ad targeting keyword suggestions, from heterogeneous sources
KR100669971B1 (ko) * 2004-11-24 2007-01-16 엔에이치엔(주) 검색 서비스 제공 방법 및 상기 방법을 수행하는 검색시스템
US7428533B2 (en) * 2004-12-06 2008-09-23 Yahoo! Inc. Automatic generation of taxonomies for categorizing queries and search query processing using taxonomies
US7620628B2 (en) * 2004-12-06 2009-11-17 Yahoo! Inc. Search processing with automatic categorization of queries
US8069151B1 (en) 2004-12-08 2011-11-29 Chris Crafford System and method for detecting incongruous or incorrect media in a data recovery process
US7698270B2 (en) * 2004-12-29 2010-04-13 Baynote, Inc. Method and apparatus for identifying, extracting, capturing, and leveraging expertise and knowledge
US8375017B1 (en) * 2005-01-28 2013-02-12 Manta Media, Inc. Automated keyword analysis system and method
US8527468B1 (en) 2005-02-08 2013-09-03 Renew Data Corp. System and method for management of retention periods for content in a computing system
US7685195B2 (en) * 2005-03-24 2010-03-23 Sas Institute Inc. Systems and methods for analyzing web site search terms
US8346757B1 (en) 2005-03-28 2013-01-01 Google Inc. Determining query terms of little significance
US8453044B2 (en) * 2005-06-29 2013-05-28 Within3, Inc. Collections of linked databases
US20070011020A1 (en) * 2005-07-05 2007-01-11 Martin Anthony G Categorization of locations and documents in a computer network
KR20080024530A (ko) * 2005-07-15 2008-03-18 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘 피 커뮤니티 특유 표현 검출 장치 및 방법
US7548929B2 (en) 2005-07-29 2009-06-16 Yahoo! Inc. System and method for determining semantically related terms
US7725485B1 (en) * 2005-08-01 2010-05-25 Google Inc. Generating query suggestions using contextual information
US7711851B2 (en) * 2005-09-16 2010-05-04 Sendori, Inc. Domain name marketplace
US20070094250A1 (en) * 2005-10-20 2007-04-26 Yahoo! Inc. Using matrix representations of search engine operations to make inferences about documents in a search engine corpus
CN1955991A (zh) * 2005-10-25 2007-05-02 国际商业机器公司 在业务模型中集成模型语义和领域语义的方法和装置
US8015065B2 (en) * 2005-10-28 2011-09-06 Yahoo! Inc. Systems and methods for assigning monetary values to search terms
US7472131B2 (en) * 2005-12-12 2008-12-30 Justsystems Evans Research, Inc. Method and apparatus for constructing a compact similarity structure and for using the same in analyzing document relevance
US7660786B2 (en) * 2005-12-14 2010-02-09 Microsoft Corporation Data independent relevance evaluation utilizing cognitive concept relationship
US7949646B1 (en) 2005-12-23 2011-05-24 At&T Intellectual Property Ii, L.P. Method and apparatus for building sales tools by mining data from websites
US20070156654A1 (en) * 2005-12-29 2007-07-05 Kalpana Ravinarayanan Method for displaying search results and contextually related items
US7877392B2 (en) 2006-03-01 2011-01-25 Covario, Inc. Centralized web-based software solutions for search engine optimization
US7698332B2 (en) * 2006-03-13 2010-04-13 Microsoft Corporation Projecting queries and images into a similarity space
US9497314B2 (en) * 2006-04-10 2016-11-15 Microsoft Technology Licensing, Llc Mining data for services
US20070244925A1 (en) * 2006-04-12 2007-10-18 Jean-Francois Albouze Intelligent image searching
US7493293B2 (en) * 2006-05-31 2009-02-17 International Business Machines Corporation System and method for extracting entities of interest from text using n-gram models
US8150827B2 (en) * 2006-06-07 2012-04-03 Renew Data Corp. Methods for enhancing efficiency and cost effectiveness of first pass review of documents
US7711736B2 (en) * 2006-06-21 2010-05-04 Microsoft International Holdings B.V. Detection of attributes in unstructured data
US8140267B2 (en) * 2006-06-30 2012-03-20 International Business Machines Corporation System and method for identifying similar molecules
US7970934B1 (en) 2006-07-31 2011-06-28 Google Inc. Detecting events of interest
US7693805B2 (en) * 2006-08-01 2010-04-06 Yahoo, Inc. Automatic identification of distance based event classification errors in a network by comparing to a second classification using event logs
US20080046429A1 (en) * 2006-08-16 2008-02-21 Yahoo! Inc. System and method for hierarchical segmentation of websites by topic
US8838560B2 (en) * 2006-08-25 2014-09-16 Covario, Inc. System and method for measuring the effectiveness of an on-line advertisement campaign
US8972379B1 (en) 2006-08-25 2015-03-03 Riosoft Holdings, Inc. Centralized web-based software solution for search engine optimization
US8943039B1 (en) 2006-08-25 2015-01-27 Riosoft Holdings, Inc. Centralized web-based software solution for search engine optimization
US7752557B2 (en) * 2006-08-29 2010-07-06 University Of Regina Method and apparatus of visual representations of search results
US7774360B2 (en) * 2006-09-08 2010-08-10 Microsoft Corporation Building bridges for web query classification
US7689548B2 (en) * 2006-09-22 2010-03-30 Microsoft Corporation Recommending keywords based on bidding patterns
FI120807B (fi) * 2006-09-26 2010-03-15 Whitevector Oy Tietokohteiden suodatus
US8943401B2 (en) * 2006-09-29 2015-01-27 Yahoo! Inc. Script-based content-embedding code generation in digital media benefit attachment mechanism
US7996393B1 (en) 2006-09-29 2011-08-09 Google Inc. Keywords associated with document categories
US20080103886A1 (en) * 2006-10-27 2008-05-01 Microsoft Corporation Determining relevance of a term to content using a combined model
US7941436B2 (en) * 2006-11-30 2011-05-10 Yahoo, Inc. Keyword bidding strategy for novel concepts
CA2571172C (en) * 2006-12-14 2012-02-14 University Of Regina Interactive web information retrieval using graphical word indicators
US9582804B2 (en) * 2006-12-22 2017-02-28 Excalibur Ip, Llc Link retrofitting of digital media objects
US7562088B2 (en) * 2006-12-27 2009-07-14 Sap Ag Structure extraction from unstructured documents
US7809718B2 (en) * 2007-01-29 2010-10-05 Siemens Corporation Method and apparatus for incorporating metadata in data clustering
US7685084B2 (en) * 2007-02-09 2010-03-23 Yahoo! Inc. Term expansion using associative matching of labeled term pairs
US8332207B2 (en) * 2007-03-26 2012-12-11 Google Inc. Large language models in machine translation
US8041694B1 (en) 2007-03-30 2011-10-18 Google Inc. Similarity-based searching
US7856433B2 (en) * 2007-04-06 2010-12-21 Yahoo! Inc. Dynamic bid pricing for sponsored search
US8117137B2 (en) * 2007-04-19 2012-02-14 Microsoft Corporation Field-programmable gate array based accelerator system
US20080270364A1 (en) * 2007-04-30 2008-10-30 Google Inc. Expansion rule evaluation
US20080301096A1 (en) * 2007-05-29 2008-12-04 Microsoft Corporation Techniques to manage metadata fields for a taxonomy system
US9015279B2 (en) * 2007-06-15 2015-04-21 Bryte Computer Technologies Methods, systems, and computer program products for tokenized domain name resolution
US20090037399A1 (en) * 2007-07-31 2009-02-05 Yahoo! Inc. System and Method for Determining Semantically Related Terms
US8005782B2 (en) * 2007-08-10 2011-08-23 Microsoft Corporation Domain name statistical classification using character-based N-grams
US8041662B2 (en) * 2007-08-10 2011-10-18 Microsoft Corporation Domain name geometrical classification using character-based n-grams
KR100910521B1 (ko) * 2007-08-14 2009-07-31 엔에이치엔비즈니스플랫폼 주식회사 광고 키워드 제안 방법 및 그 시스템
KR100936595B1 (ko) * 2007-08-14 2010-01-13 엔에이치엔비즈니스플랫폼 주식회사 단어 연관도를 기반으로 카테고리 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템
US20090070310A1 (en) * 2007-09-07 2009-03-12 Microsoft Corporation Online advertising relevance verification
US9058608B2 (en) 2007-09-12 2015-06-16 Google Inc. Placement attribute targeting
US8195634B2 (en) * 2007-09-28 2012-06-05 Microsoft Corporation Domain-aware snippets for search results
US8463779B2 (en) * 2007-10-30 2013-06-11 Yahoo! Inc. Representative keyword selection
US9400843B2 (en) * 2007-12-04 2016-07-26 Yahoo! Inc. Adjusting stored query relevance data based on query term similarity
US8126881B1 (en) 2007-12-12 2012-02-28 Vast.com, Inc. Predictive conversion systems and methods
US8615490B1 (en) 2008-01-31 2013-12-24 Renew Data Corp. Method and system for restoring information from backup storage media
US10269024B2 (en) * 2008-02-08 2019-04-23 Outbrain Inc. Systems and methods for identifying and measuring trends in consumer content demand within vertically associated websites and related content
US20090248534A1 (en) * 2008-03-31 2009-10-01 Yahoo! Inc. System and method for offering an auction bundle in an online advertising auction
CN101571890A (zh) * 2008-04-28 2009-11-04 国际商业机器公司 自动评估病历质量的方法和系统
US20120053990A1 (en) * 2008-05-07 2012-03-01 Nice Systems Ltd. System and method for predicting customer churn
US8918369B2 (en) * 2008-06-05 2014-12-23 Craze, Inc. Method and system for classification of venue by analyzing data from venue website
US8171021B2 (en) * 2008-06-23 2012-05-01 Google Inc. Query identification and association
US8290946B2 (en) * 2008-06-24 2012-10-16 Microsoft Corporation Consistent phrase relevance measures
US8065310B2 (en) * 2008-06-25 2011-11-22 Microsoft Corporation Topics in relevance ranking model for web search
WO2009157339A1 (ja) * 2008-06-26 2009-12-30 日本電気株式会社 コンテンツ話題性判定システム、その方法及びプログラム
US20090327913A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Using web revisitation patterns to support web interaction
US8521731B2 (en) 2008-07-09 2013-08-27 Yahoo! Inc. Systems and methods for query expansion in sponsored search
US8108537B2 (en) * 2008-07-24 2012-01-31 International Business Machines Corporation Method and system for improving content diversification in data driven P2P streaming using source push
US20100070339A1 (en) * 2008-09-15 2010-03-18 Google Inc. Associating an Entity with a Category
US8301638B2 (en) * 2008-09-25 2012-10-30 Microsoft Corporation Automated feature selection based on rankboost for ranking
US8131659B2 (en) * 2008-09-25 2012-03-06 Microsoft Corporation Field-programmable gate array based accelerator system
US8484014B2 (en) * 2008-11-03 2013-07-09 Microsoft Corporation Retrieval using a generalized sentence collocation
US8396742B1 (en) 2008-12-05 2013-03-12 Covario, Inc. System and method for optimizing paid search advertising campaigns based on natural search traffic
US8799279B2 (en) 2008-12-31 2014-08-05 At&T Intellectual Property I, L.P. Method and apparatus for using a discriminative classifier for processing a query
US20100191731A1 (en) * 2009-01-23 2010-07-29 Vasile Rus Methods and systems for automatic clustering of defect reports
US8370119B2 (en) * 2009-02-19 2013-02-05 Microsoft Corporation Website design pattern modeling
US8843476B1 (en) * 2009-03-16 2014-09-23 Guangsheng Zhang System and methods for automated document topic discovery, browsable search and document categorization
US8185432B2 (en) 2009-05-08 2012-05-22 Sas Institute Inc. Computer-implemented systems and methods for determining future profitability
US20100293184A1 (en) * 2009-05-13 2010-11-18 Yahoo! Inc. Identification of related bid phrases and categories using co-bidding information
US20110040604A1 (en) * 2009-08-13 2011-02-17 Vertical Acuity, Inc. Systems and Methods for Providing Targeted Content
US8612364B2 (en) * 2009-10-29 2013-12-17 Xerox Corporation Method for categorizing linked documents by co-trained label expansion
BR112012010120A2 (pt) * 2009-10-30 2016-06-07 Rakuten Inc dispositivo e método de determinação de conteúdo característico
KR101252245B1 (ko) * 2009-11-13 2013-04-05 고려대학교 산학협력단 주제 분류 모듈 및 그를 이용한 문맥 광고 시스템
US8738668B2 (en) 2009-12-16 2014-05-27 Renew Data Corp. System and method for creating a de-duplicated data set
US20110161091A1 (en) * 2009-12-24 2011-06-30 Vertical Acuity, Inc. Systems and Methods for Connecting Entities Through Content
US8868402B2 (en) * 2009-12-30 2014-10-21 Google Inc. Construction of text classifiers
US20120259829A1 (en) * 2009-12-30 2012-10-11 Xin Zhou Generating related input suggestions
CN102770860A (zh) * 2009-12-30 2012-11-07 西班牙电信公司 用于在语义数据与微件的运行之间建立联系的方法
US9336315B2 (en) 2010-01-19 2016-05-10 Ebay Inc. Personalized recommendation of a volatile item
US8560466B2 (en) * 2010-02-26 2013-10-15 Trend Micro Incorporated Method and arrangement for automatic charset detection
US8275771B1 (en) * 2010-02-26 2012-09-25 Google Inc. Non-text content item search
US9792638B2 (en) 2010-03-29 2017-10-17 Ebay Inc. Using silhouette images to reduce product selection error in an e-commerce environment
US8861844B2 (en) 2010-03-29 2014-10-14 Ebay Inc. Pre-computing digests for image similarity searching of image-based listings in a network-based publication system
US9405773B2 (en) * 2010-03-29 2016-08-02 Ebay Inc. Searching for more products like a specified product
US20120130816A1 (en) * 2010-03-31 2012-05-24 Rakuten, Inc. Search system, search method, search program and recording medium
US8788260B2 (en) 2010-05-11 2014-07-22 Microsoft Corporation Generating snippets based on content features
US8595207B2 (en) 2010-06-14 2013-11-26 Salesforce.Com Methods and systems for dynamically suggesting answers to questions submitted to a portal of an online service
US20110314001A1 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Performing query expansion based upon statistical analysis of structured data
WO2012021820A2 (en) * 2010-08-13 2012-02-16 Ii James Duncan Mcrae System and method for utilizing media content to initiate conversations between businesses and consumers
US8650191B2 (en) * 2010-08-23 2014-02-11 Vistaprint Schweiz Gmbh Search engine optimization assistant
US8412594B2 (en) 2010-08-28 2013-04-02 Ebay Inc. Multilevel silhouettes in an online shopping environment
US20120089456A1 (en) * 2010-10-06 2012-04-12 Yahoo! Inc. System for search bid term selection
US20120158712A1 (en) * 2010-12-16 2012-06-21 Sushrut Karanjkar Inferring Geographic Locations for Entities Appearing in Search Queries
US9342590B2 (en) * 2010-12-23 2016-05-17 Microsoft Technology Licensing, Llc Keywords extraction and enrichment via categorization systems
CN102646103B (zh) * 2011-02-18 2016-03-16 腾讯科技(深圳)有限公司 检索词的聚类方法和装置
US9043358B2 (en) * 2011-03-09 2015-05-26 Microsoft Technology Licensing, Llc Enterprise search over private and public data
US8719192B2 (en) 2011-04-06 2014-05-06 Microsoft Corporation Transfer of learning for query classification
US20120265784A1 (en) * 2011-04-15 2012-10-18 Microsoft Corporation Ordering semantic query formulation suggestions
US20120310690A1 (en) * 2011-06-06 2012-12-06 Winshuttle, Llc Erp transaction recording to tables system and method
US20120323627A1 (en) * 2011-06-14 2012-12-20 Microsoft Corporation Real-time Monitoring of Public Sentiment
US9519726B2 (en) 2011-06-16 2016-12-13 Amit Kumar Surfacing applications based on browsing activity
US8417718B1 (en) 2011-07-11 2013-04-09 Google Inc. Generating word completions based on shared suffix analysis
US8838575B2 (en) * 2011-08-03 2014-09-16 Sap Ag Generic framework for historical analysis of business objects
US20140278947A1 (en) * 2011-10-31 2014-09-18 Pureclick Llc System and method for click fraud protection
US20130110648A1 (en) * 2011-10-31 2013-05-02 Simon Raab System and method for click fraud protection
US20140324573A1 (en) * 2011-10-31 2014-10-30 Simon Raab System and method for click fraud protection
WO2013066755A1 (en) * 2011-10-31 2013-05-10 Pureclick Llc System and method for click fraud protection
US20130211915A1 (en) * 2012-02-14 2013-08-15 Erick Tseng Advertising Based on Customized User Dictionary
US9330082B2 (en) 2012-02-14 2016-05-03 Facebook, Inc. User experience with customized user dictionary
US9330083B2 (en) 2012-02-14 2016-05-03 Facebook, Inc. Creating customized user dictionary
US9235565B2 (en) 2012-02-14 2016-01-12 Facebook, Inc. Blending customized user dictionaries
CN103631769B (zh) * 2012-08-23 2017-10-17 北京音之邦文化科技有限公司 一种判断文件内容与标题间一致性的方法及装置
CN103678320B (zh) * 2012-09-03 2017-10-27 腾讯科技(深圳)有限公司 网络信息的挖掘方法和装置
US9384244B1 (en) * 2012-11-28 2016-07-05 BloomReach Inc. Search with autosuggest and refinements
US8972435B2 (en) 2012-12-14 2015-03-03 Microsoft Corporation Automatic generation of semantically similar queries
US9104718B1 (en) 2013-03-07 2015-08-11 Vast.com, Inc. Systems, methods, and devices for measuring similarity of and generating recommendations for unique items
US10007946B1 (en) 2013-03-07 2018-06-26 Vast.com, Inc. Systems, methods, and devices for measuring similarity of and generating recommendations for unique items
US9465873B1 (en) 2013-03-07 2016-10-11 Vast.com, Inc. Systems, methods, and devices for identifying and presenting identifications of significant attributes of unique items
US9830635B1 (en) 2013-03-13 2017-11-28 Vast.com, Inc. Systems, methods, and devices for determining and displaying market relative position of unique items
CN103136372B (zh) * 2013-03-21 2016-03-02 陕西通信信息技术有限公司 网络可信性行为管理中url快速定位、分类和过滤方法
US9674132B1 (en) * 2013-03-25 2017-06-06 Guangsheng Zhang System, methods, and user interface for effectively managing message communications
KR101485940B1 (ko) * 2013-08-23 2015-01-27 네이버 주식회사 시멘틱 뎁스 구조 기반의 검색어 제시 시스템 및 방법
US10235681B2 (en) 2013-10-15 2019-03-19 Adobe Inc. Text extraction module for contextual analysis engine
US9990422B2 (en) 2013-10-15 2018-06-05 Adobe Systems Incorporated Contextual analysis engine
US10430806B2 (en) * 2013-10-15 2019-10-01 Adobe Inc. Input/output interface for contextual analysis engine
US9450953B2 (en) * 2013-11-06 2016-09-20 Blackberry Limited Blacklisting of frequently used gesture passwords
US10127596B1 (en) 2013-12-10 2018-11-13 Vast.com, Inc. Systems, methods, and devices for generating recommendations of unique items
US9569536B2 (en) 2013-12-17 2017-02-14 Microsoft Technology Licensing, Llc Identifying similar applications
TWI567574B (zh) * 2014-02-20 2017-01-21 南臺科技大學 探勘搜尋關鍵字與網站關聯性之分群方法及其系統
CN103870553B (zh) * 2014-03-03 2018-07-10 百度在线网络技术(北京)有限公司 一种输入资源推送方法及系统
US9836765B2 (en) 2014-05-19 2017-12-05 Kibo Software, Inc. System and method for context-aware recommendation through user activity change detection
US9697286B2 (en) 2015-03-16 2017-07-04 International Business Machines Corporation Shared URL content update to improve search engine optimization
US9836435B2 (en) 2015-03-19 2017-12-05 International Business Machines Corporation Embedded content suitability scoring
US10089578B2 (en) 2015-10-23 2018-10-02 Spotify Ab Automatic prediction of acoustic attributes from an audio signal
US9589237B1 (en) 2015-11-17 2017-03-07 Spotify Ab Systems, methods and computer products for recommending media suitable for a designated activity
RU2632134C2 (ru) * 2015-12-28 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система обработки поисковых запросов
US11436610B2 (en) * 2016-03-31 2022-09-06 ZenDesk, Inc. Automatically clustering customer-support requests to form customer-support topics
US10699183B2 (en) * 2016-03-31 2020-06-30 ZenDesk, Inc. Automated system for proposing help center articles to be written to facilitate resolving customer-service requests
CN106095798A (zh) * 2016-05-31 2016-11-09 北京红马传媒文化发展有限公司 一种基于特征数据库的性别特征的识别方法、系统及终端
CN105975639B (zh) * 2016-07-04 2019-12-06 北京百度网讯科技有限公司 搜索结果排序方法和装置
RU2747425C2 (ru) * 2016-10-24 2021-05-04 Конинклейке Филипс Н.В. Система ответа на вопросы из разных областей знаний в режиме реального времени
US20200151591A1 (en) * 2017-01-31 2020-05-14 Mocsy Inc. Information extraction from documents
RU2656982C1 (ru) * 2017-03-27 2018-06-07 Федеральное государственное автономное образовательное учреждение высшего образования "Волгоградский государственный университет" Способ информационного поиска лингвистических моделей выражения деловых отношений в документах архивного фонда
US10810685B1 (en) * 2017-05-31 2020-10-20 Intuit Inc. Generation of keywords for categories in a category hierarchy of a software product
US10241716B2 (en) 2017-06-30 2019-03-26 Microsoft Technology Licensing, Llc Global occupancy aggregator for global garbage collection scheduling
KR101972660B1 (ko) * 2017-08-18 2019-04-25 주식회사 포스코아이씨티 팩트체크 시스템 및 방법
US10268704B1 (en) 2017-10-12 2019-04-23 Vast.com, Inc. Partitioned distributed database systems, devices, and methods
US11308128B2 (en) * 2017-12-11 2022-04-19 International Business Machines Corporation Refining classification results based on glossary relationships
CN108427720B (zh) * 2018-02-08 2020-12-29 中国科学院计算技术研究所 系统日志分类方法
US10970471B2 (en) * 2018-04-23 2021-04-06 International Business Machines Corporation Phased collaborative editing
RU2692045C1 (ru) * 2018-05-18 2019-06-19 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для рекомендации свежих саджестов поисковых запросов в поисковой системе
FR3083949B1 (fr) * 2018-07-16 2021-08-06 Ismart Procede de fiabilisation d'une communication entre au moins un serveur distant et un serveur, par appariement automatique de donnees de referencement
CN109299357B (zh) * 2018-08-31 2022-04-12 昆明理工大学 一种老挝语文本主题分类方法
US10783175B2 (en) * 2018-09-28 2020-09-22 Microsoft Technology Licensing, Llc Expanding search queries using query term weighting
US11100287B2 (en) * 2018-10-30 2021-08-24 International Business Machines Corporation Classification engine for learning properties of words and multi-word expressions
CN109783631B (zh) * 2019-02-02 2022-05-17 北京百度网讯科技有限公司 社区问答数据的校验方法、装置、计算机设备和存储介质
CN110163245A (zh) * 2019-04-08 2019-08-23 阿里巴巴集团控股有限公司 业务类别预测方法及系统
CN110580286A (zh) * 2019-08-09 2019-12-17 中山大学 一种基于类间信息熵的文本特征选择方法
US11134054B2 (en) 2019-11-05 2021-09-28 International Business Machines Corporation Classification of a domain name
CN111324701B (zh) * 2020-02-24 2023-04-07 腾讯科技(深圳)有限公司 内容补充方法、装置、计算机设备和存储介质
KR102425770B1 (ko) * 2020-04-13 2022-07-28 네이버 주식회사 급상승 검색어 제공 방법 및 시스템
US20230004619A1 (en) * 2021-07-02 2023-01-05 Vmware, Inc. Providing smart web links
CN113448918B (zh) * 2021-08-31 2021-11-12 中国建筑第五工程局有限公司 一种企业科研成果管理方法及管理平台、设备、存储介质
US12008054B2 (en) * 2022-01-31 2024-06-11 Walmart Apollo, Llc Systems and methods for determining and utilizing search token importance using machine learning architectures
US20230306466A1 (en) * 2022-03-28 2023-09-28 The Dun & Bradstreet Corporation Artificial intellegence engine for generating semantic directions for websites for entity targeting
KR102535698B1 (ko) * 2022-07-13 2023-05-30 한선주 블록체인 기반 대체 불가능 토큰을 이용한 자산 관리 서비스 제공 방법 및 상기 방법을 수행하는 자산 관리 서비스 제공 시스템
CN116628201B (zh) * 2023-05-18 2023-10-20 浙江数洋科技有限公司 一种文本资料库的智能化分群和推送方法
CN117093548B (zh) * 2023-10-20 2024-01-26 公诚管理咨询有限公司 一种招投标管理稽核系统

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03122770A (ja) * 1989-10-05 1991-05-24 Ricoh Co Ltd キーワード連想文書検索方法
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5488725A (en) * 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
US7251637B1 (en) * 1993-09-20 2007-07-31 Fair Isaac Corporation Context vector generation and retrieval
US5576954A (en) * 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
US5812134A (en) * 1996-03-28 1998-09-22 Critical Thought, Inc. User interface navigational system & method for interactive representation of information contained within a database
JP3108015B2 (ja) 1996-05-22 2000-11-13 松下電器産業株式会社 ハイパーテキスト検索装置
AU3484897A (en) 1996-06-17 1998-01-07 Idd Enterprises, L.P. Hypertext document retrieval system and method
US6457004B1 (en) * 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
US5987460A (en) * 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
GB9701866D0 (en) * 1997-01-30 1997-03-19 British Telecomm Information retrieval
US6112202A (en) * 1997-03-07 2000-08-29 International Business Machines Corporation Method and system for identifying authoritative information resources in an environment with content-based links between information resources
US6470307B1 (en) * 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
US5845278A (en) * 1997-09-12 1998-12-01 Inioseek Corporation Method for automatically selecting collections to search in full text searches
US6003027A (en) * 1997-11-21 1999-12-14 International Business Machines Corporation System and method for determining confidence levels for the results of a categorization system
US6421675B1 (en) 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
JPH11328724A (ja) * 1998-05-18 1999-11-30 Fuji Photo Film Co Ltd 3次元光メモリ
US6006225A (en) 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6742003B2 (en) * 2001-04-30 2004-05-25 Microsoft Corporation Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications
US6598054B2 (en) * 1999-01-26 2003-07-22 Xerox Corporation System and method for clustering data objects in a collection
US7225182B2 (en) 1999-05-28 2007-05-29 Overture Services, Inc. Recommending search terms using collaborative filtering and web spidering
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
US6556983B1 (en) * 2000-01-12 2003-04-29 Microsoft Corporation Methods and apparatus for finding semantic information, such as usage logs, similar to a query using a pattern lattice data space
US6615209B1 (en) * 2000-02-22 2003-09-02 Google, Inc. Detecting query-specific duplicate documents
DE10029644B4 (de) 2000-06-16 2008-02-07 Deutsche Telekom Ag Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine
US7490092B2 (en) * 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US7587428B2 (en) * 2000-10-13 2009-09-08 Microsoft Corporation Maintaining a relationship between two different items of data
US6560600B1 (en) * 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
US7356530B2 (en) * 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
US6892193B2 (en) * 2001-05-10 2005-05-10 International Business Machines Corporation Method and apparatus for inducing classifiers for multimedia based on unified representation of features reflecting disparate modalities
US20030065632A1 (en) * 2001-05-30 2003-04-03 Haci-Murat Hubey Scalable, parallelizable, fuzzy logic, boolean algebra, and multiplicative neural network based classifier, datamining, association rule finder and visualization software tool
US20030046389A1 (en) 2001-09-04 2003-03-06 Thieme Laura M. Method for monitoring a web site's keyword visibility in search engines and directories and resulting traffic from such keyword visibility
US7167871B2 (en) * 2002-05-17 2007-01-23 Xerox Corporation Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections
JP3918664B2 (ja) 2002-07-10 2007-05-23 ヤマハ株式会社 音響信号処理装置
EP1540514B1 (en) * 2002-07-23 2010-12-22 Quigo Technologies Inc. System and method for automated mapping of keywords and key phrases to documents
US7225184B2 (en) * 2003-07-18 2007-05-29 Overture Services, Inc. Disambiguation of search phrases using interpretation clusters
US7165119B2 (en) 2003-10-14 2007-01-16 America Online, Inc. Search enhancement system and method having rankings, explicitly specified by the user, based upon applicability and validity of search parameters in regard to a subject matter

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011096073A (ja) * 2009-10-30 2011-05-12 Rakuten Inc 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及びコンテンツ生成装置
JP2011096078A (ja) * 2009-10-30 2011-05-12 Rakuten Inc 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置
US10614134B2 (en) 2009-10-30 2020-04-07 Rakuten, Inc. Characteristic content determination device, characteristic content determination method, and recording medium
JP2018060468A (ja) * 2016-10-07 2018-04-12 ヤフー株式会社 集計装置、集計方法、及び集計プログラム
KR102068507B1 (ko) * 2019-07-11 2020-01-21 (주)시큐레이어 기계 학습 모델의 신뢰도를 판단하기 위한 후처리 방법 및 이를 사용한 후처리 장치

Also Published As

Publication number Publication date
KR20060045786A (ko) 2006-05-17
CN100476814C (zh) 2009-04-08
RU2005111001A (ru) 2006-10-20
US7260568B2 (en) 2007-08-21
AU2005201684A1 (en) 2005-10-27
MXPA05004098A (es) 2005-10-19
RU2375747C2 (ru) 2009-12-10
CA2504181C (en) 2013-08-06
EP1587010A3 (en) 2006-11-02
EP1587010A2 (en) 2005-10-19
CN1691019A (zh) 2005-11-02
CA2504181A1 (en) 2005-10-15
KR101201037B1 (ko) 2012-11-14
BRPI0503051A (pt) 2005-12-06
US20050234953A1 (en) 2005-10-20

Similar Documents

Publication Publication Date Title
KR101201037B1 (ko) 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증
JP4726528B2 (ja) マルチセンスクエリについての関連語提案
JP4838529B2 (ja) 検索語提案のためのマルチ型データオブジェクトの強化されたクラスタリング
US10956518B2 (en) Systems and methods for improved web searching
US9804838B2 (en) Systems and methods for finding project-related information by clustering applications into related concept categories
US7809715B2 (en) Abbreviation handling in web search
Broder et al. Search advertising using web relevance feedback
US8073877B2 (en) Scalable semi-structured named entity detection
JP5990178B2 (ja) キーワード抽出に関するシステム及び方法
US20110270815A1 (en) Extracting structured data from web queries
US20110055192A1 (en) Full text query and search systems and method of use
JP2013516022A (ja) 検索提案のクラスタ化及び提示
US9164981B2 (en) Information processing apparatus, information processing method, and program
US8065311B2 (en) Relevance score in a paid search advertisement system

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071218

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071218

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20071218

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20080110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080205

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20080319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080319

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080507

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080512

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080801