JP2005302041A - キーワードとWebサイトのコンテンツとの間の関連性の検証 - Google Patents
キーワードとWebサイトのコンテンツとの間の関連性の検証 Download PDFInfo
- Publication number
- JP2005302041A JP2005302041A JP2005118049A JP2005118049A JP2005302041A JP 2005302041 A JP2005302041 A JP 2005302041A JP 2005118049 A JP2005118049 A JP 2005118049A JP 2005118049 A JP2005118049 A JP 2005118049A JP 2005302041 A JP2005302041 A JP 2005302041A
- Authority
- JP
- Japan
- Prior art keywords
- term
- content
- similarity
- bid
- site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000005259 measurement Methods 0.000 claims abstract description 5
- 238000011524 similarity measure Methods 0.000 claims description 124
- 239000013598 vector Substances 0.000 claims description 82
- 238000012795 verification Methods 0.000 claims description 38
- 230000004044 response Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 13
- 238000012706 support-vector machine Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000003066 decision tree Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims 4
- 230000000007 visual effect Effects 0.000 claims 4
- 238000013145 classification model Methods 0.000 claims 3
- 238000010276 construction Methods 0.000 claims 2
- 238000004590 computer program Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 description 7
- 230000002093 peripheral effect Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000005055 memory storage Effects 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- JTJMJGYZQZDUJJ-UHFFFAOYSA-N phencyclidine Chemical compound C1CCCCN1C1(C=2C=CC=CC=2)CCCCC1 JTJMJGYZQZDUJJ-UHFFFAOYSA-N 0.000 description 2
- 235000020004 porter Nutrition 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- HCDMJFOHIXMBOV-UHFFFAOYSA-N 3-(2,6-difluoro-3,5-dimethoxyphenyl)-1-ethyl-8-(morpholin-4-ylmethyl)-4,7-dihydropyrrolo[4,5]pyrido[1,2-d]pyrimidin-2-one Chemical compound C=1C2=C3N(CC)C(=O)N(C=4C(=C(OC)C=C(OC)C=4F)F)CC3=CN=C2NC=1CN1CCOCC1 HCDMJFOHIXMBOV-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F04—POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
- F04C—ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT MACHINES FOR LIQUIDS; ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT PUMPS
- F04C13/00—Adaptations of machines or pumps for special use, e.g. for extremely high pressures
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M1/00—Suction or pumping devices for medical purposes; Devices for carrying-off, for treatment of, or for carrying-over, body-liquids; Drainage systems
- A61M1/80—Suction pumps
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F04—POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
- F04C—ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT MACHINES FOR LIQUIDS; ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT PUMPS
- F04C14/00—Control of, monitoring of, or safety arrangements for, machines, pumps or pumping installations
- F04C14/18—Control of, monitoring of, or safety arrangements for, machines, pumps or pumping installations characterised by varying the volume of the working chamber
- F04C14/22—Control of, monitoring of, or safety arrangements for, machines, pumps or pumping installations characterised by varying the volume of the working chamber by changing the eccentricity between cooperating members
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F04—POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
- F04C—ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT MACHINES FOR LIQUIDS; ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT PUMPS
- F04C2/00—Rotary-piston machines or pumps
- F04C2/02—Rotary-piston machines or pumps of arcuate-engagement type, i.e. with circular translatory movement of co-operating members, each member having the same number of teeth or tooth-equivalents
- F04C2/063—Rotary-piston machines or pumps of arcuate-engagement type, i.e. with circular translatory movement of co-operating members, each member having the same number of teeth or tooth-equivalents with coaxially-mounted members having continuously-changing circumferential spacing between them
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F04—POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
- F04C—ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT MACHINES FOR LIQUIDS; ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT PUMPS
- F04C2230/00—Manufacture
- F04C2230/20—Manufacture essentially without removing material
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F04—POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
- F04C—ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT MACHINES FOR LIQUIDS; ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT PUMPS
- F04C2240/00—Components
- F04C2240/20—Rotors
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F04—POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
- F04C—ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT MACHINES FOR LIQUIDS; ROTARY-PISTON, OR OSCILLATING-PISTON, POSITIVE-DISPLACEMENT PUMPS
- F04C2240/00—Components
- F04C2240/80—Other components
- F04C2240/805—Fastening means, e.g. bolts
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Mechanical Engineering (AREA)
- Heart & Thoracic Surgery (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Anesthesiology (AREA)
- Biomedical Technology (AREA)
- Hematology (AREA)
- Vascular Medicine (AREA)
- Animal Behavior & Ethology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】 入札URLからのサイトのコンテンツが取り出される。入札用語に意味上、コンテキスト上関連する拡張用語が計算される。入札用語、サイトのコンテンツ、拡張用語の組合せからコンテンツの類似度測定値および拡張の類似度測定値が計算される。拡張用語とサイトのコンテンツとの間のカテゴリの類似度測定値は、トレーニングされた類似性の分類を考慮して決定される。類似性分類器は、ディレクトリデータに関連付けられたマイニングされたWebサイトのコンテンツからトレーニングされている。入札用語とサイトのコンテンツとの間の関連性の信頼度は、複数の類似度スコアを評価するコンテンツ類似度測定値、拡張の類似度測定値、およびカテゴリの類似度測定値から決定される。
【選択図】 図1
Description
以下のシステムおよび方法は、従来の用語認定技術の制限に対処するために、用語とWebサイトのコンテンツとの間の関連性を検証する。このために、このシステムおよび方法は、トレーニングされた分類器モデルを介して複数の類似度測定値を結合して、入札用語が特定のWebサイトのコンテンツに関連しているかどうかを示す単一の信頼度を提供する。より詳細には、この実装において、複数の類似度測定値は、コンテンツ、カテゴリ、および適切な名前の類似度スコアを含む。
図面を参照すると、同様の参照番号は同様の要素を示しており、用語とWebサイトのコンテンツとの間の関連性を検証するシステムおよび方法が、適当な編集検証コンピューティング環境で実施されるものとして記載され、示されている。必須ではないが、本発明は、パーソナルコンピュータによって実行されるコンピュータ実行可能命令(プログラムモジュール)の一般的なコンテキストで説明する。一般にプログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。システムおよび方法を上記の状況で説明しているが、以下に記載した動作および操作は、ハードウェアでも実装することができる。
エンドユーザからの入札入力120の受信に応答して、検索用語提案モジュール102は、検索用語提案リスト126を生成して、意味上および/またはコンテキスト上関連する用語によって用語122を拡張する。用語122の複数の意味またはコンテキストは、以下に示すように、追加の用語の意味を提供し得る。表1は、「mail」の用語122に関連すると決定された用語の提案用語リスト126の例を示している。用語122に関連する用語は、この例では「提案用語」という名称の列1に示している。
式中、TFijは用語頻度(i番目のレコード内の用語jの出現回数)、Nはクエリ用語の総数、DFjは用語jを含むレコード数である。検索用語提案モジュール110は、これらのそれぞれの重みを使用して、STSベクトル134からの類似の用語およびコンテキストをグループ化して用語クラスタ136を生成する。このため、この実装形態では、各用語のベクトル表現が与えられると、余弦関数を使用して1対の用語の間の類似性が測定される(用語が正規化されたことを思い出されたい)。
こうした検索用語提案(STS)類似度測定値は、「他のデータ」132のそれぞれの部分として示される。こうした類似度例を、上記の表1の提案用語リスト例126に示している。
Score(qi)=αFOO(qi)+βsim(qi,Q)
ここでは、α+β=1である。
関連性検証モジュール112は、検索用語提案リスト126の提案用語(入札入力120の用語122を拡張する用語)、および入札入力120(すなわち用語122およびURL124からのサイトコンテンツ)を使用して、入札用語122と入札URL124のサイトのコンテンツとの間の関連性を測定する信頼度138を生成する。このために、関連性検証モジュール112は、説明上、関連性検証(RV)の類似度測定値140として示されている複数の類似度測定値から信頼度138を計算する。この実装形態では、RV類似度測定値140は、例えばコンテンツの類似性、分類の類似性、および適切な名前の類似性のスコアを含む。次に、RV類似度測定値140のこうした各タイプについて説明する。
Prop_Sim(term,page)=
・ 1−termが適切な名前Pを含んでおり、pageが適合した適切な名前Qを含んでいる場合
・ 0−termが適切な名前Pを含んでおり、pageは適合しない適切な名前Qのみを含んでいる場合
・ 0.5−その他
適切な名前は、それ自体およびその祖先に適合する。例えばミラノはイタリアに適合するなど、低レベルの地理的位置は、それを含む高レベルの地理的位置に適合する。
関連性検証モジュール112は、ディレクトリデータ(「他のデータ132」参照)に対してΦ:X→Lとして類似性分類器142をトレーニングする。この場合、Xは入力(単一の用語からいくつかのWebページのコンテンツまでのスケールの文字列ストリーム)、Lは出力(カテゴリの上位2レベル全体にわたる確率)である。カテゴリの分類は、階層構造のものである。この実装形態では、LookSmart(登録商標)ディレクトリデータの第2レベルのカテゴリを使用し、これらのカテゴリの合計は、分類の何らかの数(例えば74)である。関連性検証モジュール112は、ディレクトリデータに対して特徴の抽出および特徴の選択の操作を実行する。さらに、関連性検証モジュール112は、ディレクトリデータによって識別されたWebページから説明文(抽出データ)を抽出する。Webページは、例えば「他のプログラムモジュール」118のそれぞれの部分で表されるWebページ巡回プログラムモジュールによって取り出される。特定のWebページの各説明文は、例えばタイトル、メタデータ、本文、アンカーテキスト、フォントサイズ、ハイパーリンク、画像、生のHTML(要約、ページレイアウト情報など)などのうちの1つまたは複数を含む。
トレーニングコーパスからのこの確率の単純な推測が次の観察された頻度によって得られる。
関連性検証モジュール112は、結合済み関連性分類器144を考慮して複数のRV類似性測定値140を評価して信頼度138を生成する。信頼度は、入札用語122の入札URL124のサイトのコンテンツとの客観的関連性を示す。結合済み関連性分類器144は、用語/フレーズの拒否/承諾閾値を考慮して、<用語、Webページ(URL)、承諾/拒否>の形のデータで、例えばSVM分類器など、教師有り学習(supervised learning)でトレーニングされる。説明上、用語の拒否/承諾閾値を「他のデータ」132のそれぞれの部分として示している。
・ 入札入力120:<用語122、URL124>
・ 用語122、URL124のコンテンツベースのRV類似度測定値140。Sim(用語122、URL124)として表される
・ 拡張されたコンテンツベースのRV類似度測定値140−Ex_Sim(拡張用語126、URL124)
・ 類似性分類器142ベースのRV類似度測定値140−Cate_Sim(拡張用語126のカテゴリ、URLのカテゴリ)
・ 適切な名前ベースのRV類似度測定値140−Proper_Sim(適切な名前、用語122、URL124)
関連性検証モジュール112は、<用語、クエリ>のRVSM特徴ベクトル140を結合済み関連性分類器144に適用して、関連性の拒否/承諾閾値を考慮して複数のRV類似度140をマッピングして、それぞれのRV類似度タイプの重み(すなわちコンテンツ、拡張されたカテゴリ、および適切な名前の類似度測定値タイプ)、および最終的な信頼度138を計算する。
設定可能な閾値を考慮して、信頼度138がURL124のサイトのコンテンツとは無関係なものとして用語122を拒否すべきであることを示した場合、分類モジュール114は、エンドユーザがURL124のサイトのコンテンツを考慮して評価できるように、出現頻度(FOO)が低いクエリ用語に基づいて提案用語リスト126を生成する。この実装形態では、提案用語リスト126は、評価するためにエンドユーザに伝えられるメッセージ146として示される。特に、分類モジュール114は、上述したように、出現頻度(FOO)が高いクエリログ用語から生成された用語クラスタ136からのSTS分類器148を使用する。分類モジュール114は、STS分類器148を使用して、それぞれの用語のコンテンツに応じて、高FOOベースの用語クラスタ136を1つまたは複数のSTSカテゴリ(「他のデータ」132参照)にグループ化する。用語クラスタ136は、分類操作に適したベクトル空間モデルにすでにある。さらに、ストップワードの削除およびワードステミング(接頭語の削除)によって、用語クラスタ136のコンテンツの次元数がすでに低減されている。一実装形態では、追加の次元数の低減技術、例えば特徴の選択または再パラメータ化を使用してもよい。
設定可能な閾値を考慮して、信頼度138がURL124のサイトのコンテンツとは無関係なものとして用語122を承諾すべきであることを示した場合、入札入力120は、エンドユーザから受信したその後のクエリ152の解決用に入札データベース150に格納される。例えば、Webページを検索しているエンドユーザからのクエリ152の受信に応答して、用語照合モジュール116は、クエリ152の用語と入札データベース150からの用語との間の距離を編集して、クエリ152の用語の入札用語122との関連を決定する。特に、用語照合モジュール116は、関連性を次のように決定する。
図2は、用語とWebサイトのコンテンツとの間の関連性を検証する手順例200を示している。説明上、手順の操作は、図1の構成要素と関連して説明する(参照番号はすべて、構成要素が最初に導入された図面の数字で始まる)。ブロック202で、検索用語提案モジュール110は、検索エンジン106の検索結果から第1の組の用語クラスタ136を生成する。説明上、こうした検索結果を「他のデータ」132のそれぞれの部分として示す。検索結果を取得するために、検索用語提案モジュール110は、クエリログ130からマイニングされた出現頻度が高い履歴クエリを伝える。用語クラスタ136は、検索用語提案モジュール110によって、提示された出現頻度が高い履歴クエリに意味上および/またはコンテキスト上関連すると決定された説明文、対応する検索クエリ、Webページを含む。
図4は、用語とWebサイトのコンテンツとの間の関連性を検証するための図1のシステム100および図2および図3の方法を完全にまたは部分的に実施するのに適したコンピューティング環境例400を示している。コンピューティング環境例400は、適したコンピューティング環境の一例にすぎず、本明細書に記載したシステムおよび方法の使用または機能の範囲に関する限定を示唆するものではない。また、コンピューティング環境400を、コンピューティング環境400に示した構成要素のいずれか1つ、またはその組合せに関連する依存性または必要条件を有しているものと解釈すべきではない。
用語とWebサイトのコンテンツとの間の関連性を検証するシステムおよび方法について、構造的な特徴および/または方法の操作または動作に限定した言葉で説明してきたが、添付の特許請求の範囲で定義した実装は、記載した特定の特徴または動作に必ずしも限定されるものではないことを理解されたい。したがって、特定の特徴および動作は、請求した主題を実施する形式例として開示される。
106 検索エンジン
108 プログラムモジュール
110 検索用語提案
112 関連性検証
114 分類モジュール
116 用語照合
118 他のプログラムモジュール
120 入札入力
122 用語
126 提案用語リスト
128 プログラムデータ
130 クエリログ
132 他のデータ
134 用語ベクトル(STSベクトルおよびRVベクトル)
136 用語クラスタ(高/低FOOベースのクラスタ)
138 信頼度
140 RV類似度測定値およびRVSM特徴ベクトル
142 類似性分類器
144 結合済み関連性分類器
148 STS分類器
150 入札データベース
152 クエリ
420 処理ユニット
421 システムバス
430 システムメモリ
434 オペレーティングシステム
435 アプリケーションプログラム
436 他のプログラムモジュール
437 プログラムデータ
440 固定式不揮発性インターフェース
444 オペレーティングシステム
445 アプリケーションプログラム
446 他のプログラムモジュール
447 プログラムデータ
450 取外式不揮発性インターフェース
460 ユーザ入力インターフェース
461 マウス
462 キーボード
470 ネットワークインターフェース
471 ローカルエリアネットワーク
472 モデム
473 広域ネットワーク
480 リモートコンピュータ
485 リモートアプリケーションプログラム
490 ビデオインターフェース
491 モニタ
494 入力周辺インターフェース
495 出力周辺インターフェース
496 プリンタ
497 スピーカ
Claims (45)
- 用語とWebサイトのコンテンツとの間の関連性を検証する方法であって、
入札URLからサイトのコンテンツを取り出すステップと、
入札用語に意味上および/またはコンテキスト上関連する拡張用語を構築するステップと、
前記入札用語、前記サイトのコンテンツ、および前記拡張用語のそれぞれの組合せからコンテンツの類似度測定値および拡張の類似度測定値を生成するステップであって、前記類似度測定値は前記入札用語、サイトのコンテンツ、および/または拡張用語のそれぞれのものの間の関連性を示すステップと、
類似性分類器を考慮して前記拡張用語と前記サイトのコンテンツとの間のカテゴリの類似度測定値を計算するステップであって、前記類似性分類器は、ディレクトリデータに関連付けられたマイニングされたWebサイトのコンテンツからトレーニングされているステップと、
複数の類似度測定値のうちの結合されたものから信頼度を計算するステップであって、前記結合されたものはコンテンツの類似度測定値、拡張の類似度測定値、およびカテゴリの類似度測定値を含み、前記信頼度は前記入札用語と前記サイトのコンテンツとの間の関連性の客観的測定値を提供するステップと
を含むことを特徴とする方法。 - 前記類似性分類器は、N−gram統計ベースのナイーブベイズ(N−Gram)、ナイーブベイズ(NB)、サポートベクトルマシン(SVM)、最近傍法(KNN)、決定ツリー、co−training、またはブースト分類モデルに基づくことを特徴とする請求項1に記載の方法。
- 前記拡張用語を構築するステップは、計算された用語の類似性に基づいて用語ベクトルから用語クラスタを生成するステップであって、前記用語ベクトルは履歴クエリから生成され、各履歴クエリは高い出現頻度を有し、前記用語クラスタは前記拡張用語を含むステップをさらに含むことを特徴とする請求項1に記載の方法。
- 前記コンテンツの類似度測定値を生成するステップは、前記入札用語および前記サイトのコンテンツからそれぞれの用語ベクトルを生成するステップと、前記それぞれの用語ベクトル間の類似性を計算して前記入札用語と前記サイトのコンテンツとの間の直接の類似性を決定するステップとをさらに含むことを特徴とする請求項1に記載の方法。
- 前記拡張の類似度測定値を生成するステップは、
前記入札用語、前記サイトのコンテンツ、および前記拡張用語からそれぞれの用語ベクトルを生成するステップと、
前記それぞれの用語ベクトル間の類似性を計算して、前記入札用語と前記サイトのコンテンツとの間の前記拡張の類似度測定値を決定するステップと
をさらに含むことを特徴とする請求項1に記載の方法。 - 前記カテゴリの類似度測定値を生成するステップは、
前記ディレクトリデータに関連付けられているWebサイトのコンテンツから特徴を抽出するステップであって、前記特徴は、タイトル、メタデータ、本文、ハイパーテキストリンク、視覚的特徴、および/またはページレイアウト分析情報による要約の組合せを含むステップと、
特徴の選択を介して前記特徴の次元数を低減するステップと、
分類器モデルを介して前記特徴をカテゴリ化して前記類似性分類器を生成するステップと、
前記入札用語、前記サイトのコンテンツ、および前記拡張用語からそれぞれの用語ベクトルを生成するステップと、
前記類似性分類器に応じて前記それぞれの用語ベクトル間の類似性を計算して、前記カテゴリの類似度測定値を決定するステップと
をさらに含むことを特徴とする請求項1に記載の方法。 - 前記信頼度を計算するステップは、
承諾/拒否閾値を考慮して、<用語、Webサイトのコンテンツ、承諾/拒否>の形のデータで結合済み関連性分類器をトレーニングするステップと、
前記コンテンツの類似度測定値、拡張の類似度測定値、およびカテゴリの類似度測定値から関連性検証の類似度測定値(RSVM)の特徴ベクトルを生成するステップと、
前記結合済み関連性分類器を介して前記RSVM特徴ベクトルから前記信頼度に複数のスコアをマッピングするステップと
をさらに含むことを特徴とする請求項1に記載の方法。 - 前記方法は、
前記入札用語および入札URLを入札データベースにキャッシュするステップと、
検索クエリの受信に応答して、前記検索クエリの用語が前記入札用語に正確には一致していない確率を考慮して、前記検索クエリの前記用語が前記入札用語に関連しているかどうかを決定するステップと、
検索クエリの前記用語が前記入札用語に関連していると決定されると、前記入札URLを前記エンドユーザに伝えるステップと
をさらに含むことを特徴とする請求項1に記載の方法。 - 前記方法は、
前記入札用語およびサイトのコンテンツから適切な名前の類似度測定値を決定するステップであって、前記適切な名前の類似度測定値は、1組の適切な名前を考慮して前記入札用語で検出された任意の適切な名前と前記サイトのコンテンツとの間の関連を示すステップ
をさらに含み、複数の類似度測定値のうちの前記結合したものは前記適切な名前の類似度測定値を含む
ことを特徴とする請求項1に記載の方法。 - 前記適切な名前の類似度測定値を決定するステップは、
前記入札用語および/または前記サイトのコンテンツでの適切な名前の検出に応答して、
Prop_Sim(用語、サイトのコンテンツ)
の適切な名前の類似度スコアを算出するステップ
をさらに含み、Prop_Sim(用語、サイトのコンテンツ)は、用語が適切な名前Pを含み、サイトのコンテンツが適合する適切な名前Qを含む場合は1、用語が適切な名前Pを含み、サイトのコンテンツが適合しない適切な名前のみを含む場合は0、そうでない場合は0.5に等しい
ことを特徴とする請求項9に記載の方法。 - 前記方法は、
前記信頼度は相対的に低いと決定するステップと、
前記決定に応答して、前記入札URLに意味上および/またはコンテキスト上関連する1つまたは複数の他の用語を識別するステップと
をさらに含むことを特徴とする請求項1に記載の方法。 - 識別するステップは、
計算された用語の類似性に基づいて用語ベクトルから1組の用語クラスタを生成するステップであって、前記用語ベクトルは提示された履歴クエリの検索エンジン結果から生成され、各履歴クエリはクエリログ内の他のクエリ用語に比べて相対的に低い出現頻度を有するステップと、
前記用語クラスタによって指定された用語を考慮して前記サイトのコンテンツを評価して意味上および/またはコンテキスト上関連する1つまたは複数の用語を識別するステップであって、前記用語は前記1つまたは複数の他の用語であるステップと
をさらに含むことを特徴とする請求項11に記載の方法。 - 用語とWebサイトのコンテンツとの間の関連性を検証するコンピュータ実行可能命令を含むコンピュータ可読媒体であって、前記コンピュータ実行可能命令は
入札URLからサイトのコンテンツを取り出す命令と、
入札用語に意味上および/またはコンテキスト上関連する拡張用語を構築する命令と、
前記入札用語、前記サイトのコンテンツ、および前記拡張用語のそれぞれの組合せからコンテンツの類似度測定値および拡張の類似度測定値を生成する命令であって、前記類似度測定値は前記入札用語、サイトのコンテンツ、および/または拡張用語のそれぞれのものの間の関連性を示す命令と、
類似性分類器を考慮して前記拡張用語と前記サイトのコンテンツとの間のカテゴリの類似度測定値を計算する命令であって、前記類似性分類器は、ディレクトリデータに関連付けられたマイニングされたWebサイトのコンテンツからトレーニングされている命令と、
複数の類似度測定値のうちの結合されたものから信頼度を計算する命令であって、前記結合されたものはコンテンツの類似度測定値、拡張の類似度測定値、およびカテゴリの類似度測定値を含み、前記信頼度は前記入札用語と前記サイトのコンテンツとの間の関連性の客観的測定値を提供する命令と
を含むことを特徴とするコンピュータ可読媒体。 - 前記類似性分類器は、N−gram統計ベースのナイーブベイズ(N−Gram)、ナイーブベイズ(NB)、サポートベクトルマシン(SVM)、最近傍法(KNN)、決定ツリー、co−training、またはブースト分類モデルに基づくことを特徴とする請求項13に記載のコンピュータ可読媒体。
- 前記拡張用語を構築する前記コンピュータ実行可能命令は、計算された用語の類似性に基づいて用語ベクトルから用語クラスタを生成する命令であって、前記用語ベクトルは履歴クエリから生成され、各履歴クエリは高い出現頻度を有し、前記用語クラスタは前記拡張用語を含む命令をさらに含むことを特徴とする請求項13に記載のコンピュータ可読媒体。
- 前記コンテンツの類似度測定値を生成する前記コンピュータ実行可能命令は、前記入札用語および前記サイトのコンテンツからそれぞれの用語ベクトルを生成する命令、および前記それぞれの用語ベクトル間の類似性を計算して前記入札用語と前記サイトのコンテンツとの間の直接の類似性を決定する命令をさらに含むことを特徴とする請求項13に記載のコンピュータ可読媒体。
- 前記拡張の類似度測定値を生成する前記コンピュータ実行可能命令は、
前記入札用語、前記サイトのコンテンツ、および前記拡張用語からそれぞれの用語ベクトルを生成する命令と、
前記それぞれの用語ベクトル間の類似性を計算して、前記入札用語と前記サイトのコンテンツとの間の前記拡張の類似度測定値を決定する命令と
をさらに含むことを特徴とする請求項13に記載のコンピュータ可読媒体。 - 前記カテゴリの類似度測定値を生成する前記コンピュータ実行可能命令は、
前記ディレクトリデータに関連付けられているWebサイトのコンテンツから特徴を抽出する命令であって、前記特徴は、タイトル、メタデータ、本文、ハイパーテキストリンク、視覚的特徴、および/またはページレイアウト分析情報による要約の組合せを含む命令と、
特徴の選択を介して前記特徴の次元数を低減する命令と、
分類器モデルを介して前記特徴をカテゴリ化して前記類似性分類器を生成する命令と、
前記入札用語、前記サイトのコンテンツ、および前記拡張用語からそれぞれの用語ベクトルを生成する命令と、
前記類似性分類器に応じて前記それぞれの用語ベクトル間の類似性を計算して、前記カテゴリの類似度測定値を決定する命令と
をさらに含むことを特徴とする請求項13に記載のコンピュータ可読媒体。 - 前記信頼度を計算する前記コンピュータ実行可能命令は、
承諾/拒否閾値を考慮して、<用語、Webサイトのコンテンツ、承諾/拒否>の形のデータで結合済み関連性分類器をトレーニングする命令と、
前記コンテンツの類似度測定値、拡張の類似度測定値、およびカテゴリの類似度測定値から関連性検証の類似度測定値(RSVM)の特徴ベクトルを生成する命令と、
前記結合済み関連性分類器を介して前記RSVM特徴ベクトルから前記信頼度に複数のスコアをマッピングする命令と
をさらに含むことを特徴とする請求項13に記載のコンピュータ可読媒体。 - 前記コンピュータ実行可能命令は、
前記入札用語および入札URLを入札データベースにキャッシュする命令と、
検索クエリの受信に応答して、前記検索クエリの用語が前記入札用語に正確には一致していない確率を考慮して、前記検索クエリの前記用語が前記入札用語に関連しているかどうかを決定する命令と、
検索クエリの前記用語が前記入札用語に関連していると決定されると、前記入札URLを前記エンドユーザに伝える命令と
をさらに含むことを特徴とする請求項13に記載のコンピュータ可読媒体。 - 前記コンピュータ実行可能命令は、
前記入札用語およびサイトのコンテンツから適切な名前の類似度測定値を決定する命令であって、前記適切な名前の類似度測定値は、1組の適切な名前を考慮して前記入札用語で検出された任意の適切な名前と前記サイトのコンテンツとの間の関連を示す命令
をさらに含み、複数の類似度測定値のうちの前記結合したものは前記適切な名前の類似度測定値を含む
ことを特徴とする請求項13に記載のコンピュータ可読媒体。 - 前記適切な名前の類似度測定値を決定する前記コンピュータ実行可能命令は、
前記入札用語および/または前記サイトのコンテンツでの適切な名前の検出に応答して、
Prop_Sim(用語、サイトのコンテンツ)
の適切な名前の類似度スコアを算出する命令
をさらに含み、Prop_Sim(用語、サイトのコンテンツ)は、用語が適切な名前Pを含み、サイトのコンテンツが適合する適切な名前Qを含む場合は1、用語が適切な名前Pを含み、サイトのコンテンツが適合しない適切な名前のみを含む場合は0、そうでない場合は0.5に等しい
ことを特徴とする請求項21に記載のコンピュータ可読媒体。 - 前記コンピュータ実行可能命令は、
前記信頼度は相対的に低いと決定する命令と、
前記決定に応答して、前記入札URLに意味上および/またはコンテキスト上関連する1つまたは複数の他の用語を識別する命令と
をさらに含むことを特徴とする請求項13に記載のコンピュータ可読媒体。 - 識別する前記コンピュータ実行可能命令は、
計算された用語の類似性に基づいて用語ベクトルから1組の用語クラスタを生成する命令であって、前記用語ベクトルは提示された履歴クエリの検索エンジン結果から生成され、各履歴クエリはクエリログ内の他のクエリ用語に比べて相対的に低い出現頻度を有する命令と、
前記用語クラスタによって指定された用語を考慮して前記サイトのコンテンツを評価して意味上および/またはコンテキスト上関連する1つまたは複数の用語を識別する命令であって、前記用語は前記1つまたは複数の他の用語である命令と
をさらに含むことを特徴とする請求項23に記載のコンピュータ可読媒体。 - 用語とWebサイトのコンテンツとの間の関連性を検証するコンピューティングデバイスであって、
プロセッサと、
入札URLからサイトのコンテンツを取り出す命令と、
入札用語に意味上および/またはコンテキスト上関連する拡張用語を構築する命令と、
前記入札用語、前記サイトのコンテンツ、および前記拡張用語のそれぞれの組合せからコンテンツの類似度測定値および拡張の類似度測定値を生成する命令であって、前記類似度測定値は前記入札用語、サイトのコンテンツ、および/または拡張用語のそれぞれのものの間の関連性を示す命令と、
類似性分類器を考慮して前記拡張用語と前記サイトのコンテンツとの間のカテゴリの類似度測定値を計算する命令であって、前記類似性分類器は、ディレクトリデータに関連付けられたマイニングされたWebサイトのコンテンツからトレーニングされている命令と、
複数の類似度測定値のうちの結合されたものから信頼度を計算する命令であって、前記結合されたものはコンテンツの類似度測定値、拡張の類似度測定値、およびカテゴリの類似度測定値を含み、前記信頼度は前記入札用語と前記サイトのコンテンツとの間の関連性の客観的測定値を提供する命令と
を前記プロセッサによって実行可能なコンピュータプログラム命令を含む、前記プロセッサに結合されるメモリと
を含むことを特徴とするコンピューティングデバイス。 - 前記類似性分類器は、N−gram統計ベースのナイーブベイズ(N−Gram)、ナイーブベイズ(NB)、サポートベクトルマシン(SVM)、最近傍法(KNN)、決定ツリー、co−training、またはブースト分類モデルに基づくことを特徴とする請求項25に記載のコンピューティングデバイス。
- 前記拡張用語を構築する前記コンピュータ実行可能命令は、計算された用語の類似性に基づいて用語ベクトルから用語クラスタを生成する命令であって、前記用語ベクトルは履歴クエリから生成され、各履歴クエリは高い出現頻度を有し、前記用語クラスタは前記拡張用語を含む命令をさらに含むことを特徴とする請求項25に記載のコンピューティングデバイス。
- 前記コンテンツの類似度測定値を生成する前記コンピュータ実行可能命令は、前記入札用語および前記サイトのコンテンツからそれぞれの用語ベクトルを生成する命令、および前記それぞれの用語ベクトル間の類似性を計算して前記入札用語と前記サイトのコンテンツとの間の直接の類似性を決定する命令をさらに含むことを特徴とする請求項25に記載のコンピューティングデバイス。
- 前記拡張の類似度測定値を生成する前記コンピュータ実行可能命令は、
前記入札用語、前記サイトのコンテンツ、および前記拡張用語からそれぞれの用語ベクトルを生成する命令と、
前記それぞれの用語ベクトル間の類似性を計算して、前記入札用語と前記サイトのコンテンツとの間の前記拡張の類似度測定値を決定する命令と
をさらに含むことを特徴とする請求項25に記載のコンピューティングデバイス。 - 前記カテゴリの類似度測定値を生成する前記コンピュータ実行可能命令は、
前記ディレクトリデータに関連付けられているWebサイトのコンテンツから特徴を抽出する命令であって、前記特徴は、タイトル、メタデータ、本文、ハイパーテキストリンク、視覚的特徴、および/またはページレイアウト分析情報による要約の組合せを含む命令と、
特徴の選択を介して前記特徴の次元数を低減する命令と、
分類器モデルを介して前記特徴をカテゴリ化して前記類似性分類器を生成する命令と、
前記入札用語、前記サイトのコンテンツ、および前記拡張用語からそれぞれの用語ベクトルを生成する命令と、
前記類似性分類器に応じて前記それぞれの用語ベクトル間の類似性を計算して、前記カテゴリの類似度測定値を決定する命令と
をさらに含むことを特徴とする請求項25に記載のコンピューティングデバイス。 - 前記信頼度を計算する前記コンピュータ実行可能命令は、
承諾/拒否閾値を考慮して、<用語、Webサイトのコンテンツ、承諾/拒否>の形のデータで結合済み関連性分類器をトレーニングするステップと、
前記コンテンツの類似度測定値、拡張の類似度測定値、およびカテゴリの類似度測定値から関連性検証の類似度測定値(RSVM)の特徴ベクトルを生成する命令と、
前記結合済み関連性分類器を介して前記RSVM特徴ベクトルから前記信頼度に複数のスコアをマッピングする命令と
をさらに含むことを特徴とする請求項25に記載のコンピューティングデバイス。 - 前記コンピュータ実行可能命令は、
前記入札用語およびサイトのコンテンツから適切な名前の類似度測定値を決定する命令であって、前記適切な名前の類似度測定値は、1組の適切な名前を考慮して前記入札用語で検出された任意の適切な名前と前記サイトのコンテンツとの間の関連を示す命令
をさらに含み、複数の類似度測定値のうちの前記結合したものは前記適切な名前の類似度測定値を含む
ことを特徴とする請求項25に記載のコンピューティングデバイス。 - 前記適切な名前の類似度測定値を決定する前記コンピュータ実行可能命令は、
前記入札用語および/または前記サイトのコンテンツでの適切な名前の検出に応答して、
Prop_Sim(用語、サイトのコンテンツ)
の適切な名前の類似度スコアを算出する命令
をさらに含み、Prop_Sim(用語、サイトのコンテンツ)は、用語が適切な名前Pを含み、サイトのコンテンツが適合する適切な名前Qを含む場合は1、用語が適切な名前Pを含み、サイトのコンテンツが適合しない適切な名前のみを含む場合は0、そうでない場合は0.5に等しい
ことを特徴とする請求項32に記載のコンピューティングデバイス。 - 前記コンピュータ実行可能命令は、
前記信頼度は相対的に低いと決定する命令と、
前記決定に応答して、前記入札URLに意味上および/またはコンテキスト上関連する1つまたは複数の他の用語を識別する命令と
をさらに含むことを特徴とする請求項25に記載のコンピューティングデバイス。 - 識別する前記コンピュータ実行可能命令は、
計算された用語の類似性に基づいて用語ベクトルから1組の用語クラスタを生成する命令であって、前記用語ベクトルは提示された履歴クエリの検索エンジン結果から生成され、各履歴クエリはクエリログ内の他のクエリ用語に比べて相対的に低い出現頻度を有する命令と、
前記用語クラスタによって指定された用語を考慮して前記サイトのコンテンツを評価して意味上および/またはコンテキスト上関連する1つまたは複数の用語を識別する命令であって、前記用語は前記1つまたは複数の他の用語である命令と
をさらに含むことを特徴とする請求項34に記載のコンピューティングデバイス。 - 用語とWebサイトのコンテンツとの間の関連性を検証するコンピューティングデバイスであって、
入札URLからサイトのコンテンツを取得する取り出し手段と、
入札用語に意味上および/またはコンテキスト上関連する拡張用語を識別する構築手段と、
前記入札用語、前記サイトのコンテンツ、および前記拡張用語のそれぞれの組合せからコンテンツの類似度測定値および拡張の類似度測定値を作成する生成手段あって、前記類似度測定値は前記入札用語、サイトのコンテンツ、および/または拡張用語のそれぞれのものの間の関連性を示す手段と、
類似性分類器を考慮して前記拡張用語と前記サイトのコンテンツとの間のカテゴリの類似度測定値を決定する計算手段であって、前記類似性分類器は、ディレクトリデータに関連付けられたマイニングされたWebサイトのコンテンツからトレーニングされている手段と、
複数の類似度測定値のうちの結合されたものから信頼度を生成する計算手段であって、前記結合されたものはコンテンツの類似度測定値、拡張の類似度測定値、およびカテゴリの類似度測定値を含み、前記信頼度は前記入札用語と前記サイトのコンテンツとの間の関連性の客観的測定値を提供する手段と
を含むことを特徴とするコンピューティングデバイス。 - 前記コンピュータ構築手段は、計算された用語の類似性に基づいて用語ベクトルから用語クラスタを作成する生成手段であって、前記用語ベクトルは履歴クエリから生成され、各履歴クエリは高い出現頻度を有し、前記用語クラスタは前記拡張用語を含む手段をさらに含むことを特徴とする請求項36に記載のコンピューティングデバイス。
- 前記生成手段は、前記入札用語および前記サイトのコンテンツからそれぞれの用語ベクトルを生成する作成手段と、前記それぞれの用語ベクトル間の類似性を決定して前記入札用語と前記サイトのコンテンツとの間の直接の類似性を決定する計算手段をさらに含むことを特徴とする請求項36に記載のコンピューティングデバイス。
- 前記生成手段は、
前記入札用語、前記サイトのコンテンツ、および前記拡張用語からそれぞれの用語ベクトルを生成する作成手段と、
前記それぞれの用語ベクトル間の類似性を決定して、前記入札用語と前記サイトのコンテンツとの間の前記拡張の類似度測定値を決定する計算手段と
をさらに含むことを特徴とする請求項36に記載のコンピューティングデバイス。 - 前記生成手段は、
前記ディレクトリデータに関連付けられているWebサイトのコンテンツから特徴を取得する抽出手段であって、前記特徴は、タイトル、メタデータ、本文、ハイパーテキストリンク、視覚的特徴、および/またはページレイアウト分析情報による要約の組合せを含む手段と、
特徴の選択を介して前記特徴の次元数を低減する低減手段と、
分類器モデルを介して前記特徴を整理して前記類似性分類器を生成するカテゴリ化手段と、
前記入札用語、前記サイトのコンテンツ、および前記拡張用語からそれぞれの用語ベクトルを作成する生成手段と、
前記類似性分類器に応じて前記それぞれの用語ベクトル間の類似性を識別して、前記カテゴリの類似度測定値を決定する計算手段と
をさらに含むことを特徴とする請求項36に記載のコンピューティングデバイス。 - 前記計算手段は、
承諾/拒否閾値を考慮して、<用語、Webサイトのコンテンツ、承諾/拒否>の形のデータで結合済み関連性分類器をトレーニングするトレーニング手段と、
前記コンテンツの類似度測定値、拡張の類似度測定値、およびカテゴリの類似度測定値から関連性検証の類似度測定値(RSVM)の特徴ベクトルを生成する生成手段と、
前記結合済み関連性分類器を介して前記RSVM特徴ベクトルから前記信頼度に複数のスコアを関連付けるマッピング手段と
をさらに含むことを特徴とする請求項36に記載のコンピューティングデバイス。 - 前記コンピューティングデバイスは、
前記入札用語およびサイトのコンテンツから適切な名前の類似度測定値を決定する決定手段であって、前記適切な名前の類似度測定値は、1組の適切な名前を考慮して前記入札用語で検出された任意の適切な名前と前記サイトのコンテンツとの間の関連を示す手段
をさらに含み、複数の類似度測定値のうちの前記結合したものは、前記適切な名前の類似度測定値を含む
ことを特徴とする請求項36に記載のコンピューティングデバイス。 - 前記適切な名前の類似度測定値を決定する前記決定手段は、前記入札用語および/または前記サイトのコンテンツでの適切な名前の検出に応答して、適切な名前の類似度スコアを算出する計算手段をさらに含むことを特徴とする請求項42に記載のコンピューティングデバイス。
- 前記コンピューティングデバイスは、
前記信頼度は相対的に低いと決定する決定手段と、
前記決定に応答して、前記入札URLに意味上および/またはコンテキスト上関連する1つまたは複数の他の用語を識別する識別手段と
をさらに含むことを特徴とする請求項36に記載のコンピューティングデバイス。 - 前記識別手段は、
計算された用語の類似性に基づいて用語ベクトルから1組の用語クラスタを生成する生成手段であって、前記用語ベクトルは提示された履歴クエリの検索エンジン結果から生成され、各履歴クエリはクエリログ内の他のクエリ用語に比べて相対的に低い出現頻度を有する手段と、
前記用語クラスタによって指定された用語を考慮して前記サイトのコンテンツを評価して意味上および/またはコンテキスト上関連する1つまたは複数の用語を識別する評価手段であって、前記用語は前記1つまたは複数の他の用語である手段と
をさらに含むことを特徴とする請求項44に記載のコンピューティングデバイス。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/826,162 US7260568B2 (en) | 2004-04-15 | 2004-04-15 | Verifying relevance between keywords and web site contents |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005302041A true JP2005302041A (ja) | 2005-10-27 |
JP2005302041A5 JP2005302041A5 (ja) | 2008-02-07 |
Family
ID=34939282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005118049A Pending JP2005302041A (ja) | 2004-04-15 | 2005-04-15 | キーワードとWebサイトのコンテンツとの間の関連性の検証 |
Country Status (10)
Country | Link |
---|---|
US (1) | US7260568B2 (ja) |
EP (1) | EP1587010A3 (ja) |
JP (1) | JP2005302041A (ja) |
KR (1) | KR101201037B1 (ja) |
CN (1) | CN100476814C (ja) |
AU (1) | AU2005201684A1 (ja) |
BR (1) | BRPI0503051A (ja) |
CA (1) | CA2504181C (ja) |
MX (1) | MXPA05004098A (ja) |
RU (1) | RU2375747C2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011096073A (ja) * | 2009-10-30 | 2011-05-12 | Rakuten Inc | 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及びコンテンツ生成装置 |
JP2011096078A (ja) * | 2009-10-30 | 2011-05-12 | Rakuten Inc | 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置 |
JP2018060468A (ja) * | 2016-10-07 | 2018-04-12 | ヤフー株式会社 | 集計装置、集計方法、及び集計プログラム |
KR102068507B1 (ko) * | 2019-07-11 | 2020-01-21 | (주)시큐레이어 | 기계 학습 모델의 신뢰도를 판단하기 위한 후처리 방법 및 이를 사용한 후처리 장치 |
US10614134B2 (en) | 2009-10-30 | 2020-04-07 | Rakuten, Inc. | Characteristic content determination device, characteristic content determination method, and recording medium |
Families Citing this family (200)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8630984B1 (en) | 2003-01-17 | 2014-01-14 | Renew Data Corp. | System and method for data extraction from email files |
US8065277B1 (en) | 2003-01-17 | 2011-11-22 | Daniel John Gardner | System and method for a data extraction and backup database |
US8375008B1 (en) | 2003-01-17 | 2013-02-12 | Robert Gomes | Method and system for enterprise-wide retention of digital or electronic data |
US8943024B1 (en) | 2003-01-17 | 2015-01-27 | Daniel John Gardner | System and method for data de-duplication |
US7599938B1 (en) | 2003-07-11 | 2009-10-06 | Harrison Jr Shelton E | Social news gathering, prioritizing, tagging, searching, and syndication method |
WO2006008733A2 (en) * | 2004-07-21 | 2006-01-26 | Equivio Ltd. | A method for determining near duplicate data objects |
US8635217B2 (en) | 2004-09-15 | 2014-01-21 | Michael J. Markus | Collections of linked databases |
US8880521B2 (en) * | 2004-09-15 | 2014-11-04 | 3Degrees Llc | Collections of linked databases |
US8412706B2 (en) | 2004-09-15 | 2013-04-02 | Within3, Inc. | Social network analysis |
US7801899B1 (en) * | 2004-10-01 | 2010-09-21 | Google Inc. | Mixing items, such as ad targeting keyword suggestions, from heterogeneous sources |
KR100669971B1 (ko) * | 2004-11-24 | 2007-01-16 | 엔에이치엔(주) | 검색 서비스 제공 방법 및 상기 방법을 수행하는 검색시스템 |
US7428533B2 (en) * | 2004-12-06 | 2008-09-23 | Yahoo! Inc. | Automatic generation of taxonomies for categorizing queries and search query processing using taxonomies |
US7620628B2 (en) * | 2004-12-06 | 2009-11-17 | Yahoo! Inc. | Search processing with automatic categorization of queries |
US8069151B1 (en) | 2004-12-08 | 2011-11-29 | Chris Crafford | System and method for detecting incongruous or incorrect media in a data recovery process |
US7698270B2 (en) * | 2004-12-29 | 2010-04-13 | Baynote, Inc. | Method and apparatus for identifying, extracting, capturing, and leveraging expertise and knowledge |
US8375017B1 (en) * | 2005-01-28 | 2013-02-12 | Manta Media, Inc. | Automated keyword analysis system and method |
US8527468B1 (en) | 2005-02-08 | 2013-09-03 | Renew Data Corp. | System and method for management of retention periods for content in a computing system |
US7685195B2 (en) * | 2005-03-24 | 2010-03-23 | Sas Institute Inc. | Systems and methods for analyzing web site search terms |
US8346757B1 (en) | 2005-03-28 | 2013-01-01 | Google Inc. | Determining query terms of little significance |
US8453044B2 (en) * | 2005-06-29 | 2013-05-28 | Within3, Inc. | Collections of linked databases |
US20070011020A1 (en) * | 2005-07-05 | 2007-01-11 | Martin Anthony G | Categorization of locations and documents in a computer network |
KR20080024530A (ko) * | 2005-07-15 | 2008-03-18 | 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘 피 | 커뮤니티 특유 표현 검출 장치 및 방법 |
US7548929B2 (en) | 2005-07-29 | 2009-06-16 | Yahoo! Inc. | System and method for determining semantically related terms |
US7725485B1 (en) * | 2005-08-01 | 2010-05-25 | Google Inc. | Generating query suggestions using contextual information |
US7711851B2 (en) * | 2005-09-16 | 2010-05-04 | Sendori, Inc. | Domain name marketplace |
US20070094250A1 (en) * | 2005-10-20 | 2007-04-26 | Yahoo! Inc. | Using matrix representations of search engine operations to make inferences about documents in a search engine corpus |
CN1955991A (zh) * | 2005-10-25 | 2007-05-02 | 国际商业机器公司 | 在业务模型中集成模型语义和领域语义的方法和装置 |
US8015065B2 (en) * | 2005-10-28 | 2011-09-06 | Yahoo! Inc. | Systems and methods for assigning monetary values to search terms |
US7472131B2 (en) * | 2005-12-12 | 2008-12-30 | Justsystems Evans Research, Inc. | Method and apparatus for constructing a compact similarity structure and for using the same in analyzing document relevance |
US7660786B2 (en) * | 2005-12-14 | 2010-02-09 | Microsoft Corporation | Data independent relevance evaluation utilizing cognitive concept relationship |
US7949646B1 (en) | 2005-12-23 | 2011-05-24 | At&T Intellectual Property Ii, L.P. | Method and apparatus for building sales tools by mining data from websites |
US20070156654A1 (en) * | 2005-12-29 | 2007-07-05 | Kalpana Ravinarayanan | Method for displaying search results and contextually related items |
US7877392B2 (en) | 2006-03-01 | 2011-01-25 | Covario, Inc. | Centralized web-based software solutions for search engine optimization |
US7698332B2 (en) * | 2006-03-13 | 2010-04-13 | Microsoft Corporation | Projecting queries and images into a similarity space |
US9497314B2 (en) * | 2006-04-10 | 2016-11-15 | Microsoft Technology Licensing, Llc | Mining data for services |
US20070244925A1 (en) * | 2006-04-12 | 2007-10-18 | Jean-Francois Albouze | Intelligent image searching |
US7493293B2 (en) * | 2006-05-31 | 2009-02-17 | International Business Machines Corporation | System and method for extracting entities of interest from text using n-gram models |
US8150827B2 (en) * | 2006-06-07 | 2012-04-03 | Renew Data Corp. | Methods for enhancing efficiency and cost effectiveness of first pass review of documents |
US7711736B2 (en) * | 2006-06-21 | 2010-05-04 | Microsoft International Holdings B.V. | Detection of attributes in unstructured data |
US8140267B2 (en) * | 2006-06-30 | 2012-03-20 | International Business Machines Corporation | System and method for identifying similar molecules |
US7970934B1 (en) | 2006-07-31 | 2011-06-28 | Google Inc. | Detecting events of interest |
US7693805B2 (en) * | 2006-08-01 | 2010-04-06 | Yahoo, Inc. | Automatic identification of distance based event classification errors in a network by comparing to a second classification using event logs |
US20080046429A1 (en) * | 2006-08-16 | 2008-02-21 | Yahoo! Inc. | System and method for hierarchical segmentation of websites by topic |
US8838560B2 (en) * | 2006-08-25 | 2014-09-16 | Covario, Inc. | System and method for measuring the effectiveness of an on-line advertisement campaign |
US8972379B1 (en) | 2006-08-25 | 2015-03-03 | Riosoft Holdings, Inc. | Centralized web-based software solution for search engine optimization |
US8943039B1 (en) | 2006-08-25 | 2015-01-27 | Riosoft Holdings, Inc. | Centralized web-based software solution for search engine optimization |
US7752557B2 (en) * | 2006-08-29 | 2010-07-06 | University Of Regina | Method and apparatus of visual representations of search results |
US7774360B2 (en) * | 2006-09-08 | 2010-08-10 | Microsoft Corporation | Building bridges for web query classification |
US7689548B2 (en) * | 2006-09-22 | 2010-03-30 | Microsoft Corporation | Recommending keywords based on bidding patterns |
FI120807B (fi) * | 2006-09-26 | 2010-03-15 | Whitevector Oy | Tietokohteiden suodatus |
US8943401B2 (en) * | 2006-09-29 | 2015-01-27 | Yahoo! Inc. | Script-based content-embedding code generation in digital media benefit attachment mechanism |
US7996393B1 (en) | 2006-09-29 | 2011-08-09 | Google Inc. | Keywords associated with document categories |
US20080103886A1 (en) * | 2006-10-27 | 2008-05-01 | Microsoft Corporation | Determining relevance of a term to content using a combined model |
US7941436B2 (en) * | 2006-11-30 | 2011-05-10 | Yahoo, Inc. | Keyword bidding strategy for novel concepts |
CA2571172C (en) * | 2006-12-14 | 2012-02-14 | University Of Regina | Interactive web information retrieval using graphical word indicators |
US9582804B2 (en) * | 2006-12-22 | 2017-02-28 | Excalibur Ip, Llc | Link retrofitting of digital media objects |
US7562088B2 (en) * | 2006-12-27 | 2009-07-14 | Sap Ag | Structure extraction from unstructured documents |
US7809718B2 (en) * | 2007-01-29 | 2010-10-05 | Siemens Corporation | Method and apparatus for incorporating metadata in data clustering |
US7685084B2 (en) * | 2007-02-09 | 2010-03-23 | Yahoo! Inc. | Term expansion using associative matching of labeled term pairs |
US8332207B2 (en) * | 2007-03-26 | 2012-12-11 | Google Inc. | Large language models in machine translation |
US8041694B1 (en) | 2007-03-30 | 2011-10-18 | Google Inc. | Similarity-based searching |
US7856433B2 (en) * | 2007-04-06 | 2010-12-21 | Yahoo! Inc. | Dynamic bid pricing for sponsored search |
US8117137B2 (en) * | 2007-04-19 | 2012-02-14 | Microsoft Corporation | Field-programmable gate array based accelerator system |
US20080270364A1 (en) * | 2007-04-30 | 2008-10-30 | Google Inc. | Expansion rule evaluation |
US20080301096A1 (en) * | 2007-05-29 | 2008-12-04 | Microsoft Corporation | Techniques to manage metadata fields for a taxonomy system |
US9015279B2 (en) * | 2007-06-15 | 2015-04-21 | Bryte Computer Technologies | Methods, systems, and computer program products for tokenized domain name resolution |
US20090037399A1 (en) * | 2007-07-31 | 2009-02-05 | Yahoo! Inc. | System and Method for Determining Semantically Related Terms |
US8005782B2 (en) * | 2007-08-10 | 2011-08-23 | Microsoft Corporation | Domain name statistical classification using character-based N-grams |
US8041662B2 (en) * | 2007-08-10 | 2011-10-18 | Microsoft Corporation | Domain name geometrical classification using character-based n-grams |
KR100910521B1 (ko) * | 2007-08-14 | 2009-07-31 | 엔에이치엔비즈니스플랫폼 주식회사 | 광고 키워드 제안 방법 및 그 시스템 |
KR100936595B1 (ko) * | 2007-08-14 | 2010-01-13 | 엔에이치엔비즈니스플랫폼 주식회사 | 단어 연관도를 기반으로 카테고리 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템 |
US20090070310A1 (en) * | 2007-09-07 | 2009-03-12 | Microsoft Corporation | Online advertising relevance verification |
US9058608B2 (en) | 2007-09-12 | 2015-06-16 | Google Inc. | Placement attribute targeting |
US8195634B2 (en) * | 2007-09-28 | 2012-06-05 | Microsoft Corporation | Domain-aware snippets for search results |
US8463779B2 (en) * | 2007-10-30 | 2013-06-11 | Yahoo! Inc. | Representative keyword selection |
US9400843B2 (en) * | 2007-12-04 | 2016-07-26 | Yahoo! Inc. | Adjusting stored query relevance data based on query term similarity |
US8126881B1 (en) | 2007-12-12 | 2012-02-28 | Vast.com, Inc. | Predictive conversion systems and methods |
US8615490B1 (en) | 2008-01-31 | 2013-12-24 | Renew Data Corp. | Method and system for restoring information from backup storage media |
US10269024B2 (en) * | 2008-02-08 | 2019-04-23 | Outbrain Inc. | Systems and methods for identifying and measuring trends in consumer content demand within vertically associated websites and related content |
US20090248534A1 (en) * | 2008-03-31 | 2009-10-01 | Yahoo! Inc. | System and method for offering an auction bundle in an online advertising auction |
CN101571890A (zh) * | 2008-04-28 | 2009-11-04 | 国际商业机器公司 | 自动评估病历质量的方法和系统 |
US20120053990A1 (en) * | 2008-05-07 | 2012-03-01 | Nice Systems Ltd. | System and method for predicting customer churn |
US8918369B2 (en) * | 2008-06-05 | 2014-12-23 | Craze, Inc. | Method and system for classification of venue by analyzing data from venue website |
US8171021B2 (en) * | 2008-06-23 | 2012-05-01 | Google Inc. | Query identification and association |
US8290946B2 (en) * | 2008-06-24 | 2012-10-16 | Microsoft Corporation | Consistent phrase relevance measures |
US8065310B2 (en) * | 2008-06-25 | 2011-11-22 | Microsoft Corporation | Topics in relevance ranking model for web search |
WO2009157339A1 (ja) * | 2008-06-26 | 2009-12-30 | 日本電気株式会社 | コンテンツ話題性判定システム、その方法及びプログラム |
US20090327913A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Using web revisitation patterns to support web interaction |
US8521731B2 (en) | 2008-07-09 | 2013-08-27 | Yahoo! Inc. | Systems and methods for query expansion in sponsored search |
US8108537B2 (en) * | 2008-07-24 | 2012-01-31 | International Business Machines Corporation | Method and system for improving content diversification in data driven P2P streaming using source push |
US20100070339A1 (en) * | 2008-09-15 | 2010-03-18 | Google Inc. | Associating an Entity with a Category |
US8301638B2 (en) * | 2008-09-25 | 2012-10-30 | Microsoft Corporation | Automated feature selection based on rankboost for ranking |
US8131659B2 (en) * | 2008-09-25 | 2012-03-06 | Microsoft Corporation | Field-programmable gate array based accelerator system |
US8484014B2 (en) * | 2008-11-03 | 2013-07-09 | Microsoft Corporation | Retrieval using a generalized sentence collocation |
US8396742B1 (en) | 2008-12-05 | 2013-03-12 | Covario, Inc. | System and method for optimizing paid search advertising campaigns based on natural search traffic |
US8799279B2 (en) | 2008-12-31 | 2014-08-05 | At&T Intellectual Property I, L.P. | Method and apparatus for using a discriminative classifier for processing a query |
US20100191731A1 (en) * | 2009-01-23 | 2010-07-29 | Vasile Rus | Methods and systems for automatic clustering of defect reports |
US8370119B2 (en) * | 2009-02-19 | 2013-02-05 | Microsoft Corporation | Website design pattern modeling |
US8843476B1 (en) * | 2009-03-16 | 2014-09-23 | Guangsheng Zhang | System and methods for automated document topic discovery, browsable search and document categorization |
US8185432B2 (en) | 2009-05-08 | 2012-05-22 | Sas Institute Inc. | Computer-implemented systems and methods for determining future profitability |
US20100293184A1 (en) * | 2009-05-13 | 2010-11-18 | Yahoo! Inc. | Identification of related bid phrases and categories using co-bidding information |
US20110040604A1 (en) * | 2009-08-13 | 2011-02-17 | Vertical Acuity, Inc. | Systems and Methods for Providing Targeted Content |
US8612364B2 (en) * | 2009-10-29 | 2013-12-17 | Xerox Corporation | Method for categorizing linked documents by co-trained label expansion |
BR112012010120A2 (pt) * | 2009-10-30 | 2016-06-07 | Rakuten Inc | dispositivo e método de determinação de conteúdo característico |
KR101252245B1 (ko) * | 2009-11-13 | 2013-04-05 | 고려대학교 산학협력단 | 주제 분류 모듈 및 그를 이용한 문맥 광고 시스템 |
US8738668B2 (en) | 2009-12-16 | 2014-05-27 | Renew Data Corp. | System and method for creating a de-duplicated data set |
US20110161091A1 (en) * | 2009-12-24 | 2011-06-30 | Vertical Acuity, Inc. | Systems and Methods for Connecting Entities Through Content |
US8868402B2 (en) * | 2009-12-30 | 2014-10-21 | Google Inc. | Construction of text classifiers |
US20120259829A1 (en) * | 2009-12-30 | 2012-10-11 | Xin Zhou | Generating related input suggestions |
CN102770860A (zh) * | 2009-12-30 | 2012-11-07 | 西班牙电信公司 | 用于在语义数据与微件的运行之间建立联系的方法 |
US9336315B2 (en) | 2010-01-19 | 2016-05-10 | Ebay Inc. | Personalized recommendation of a volatile item |
US8560466B2 (en) * | 2010-02-26 | 2013-10-15 | Trend Micro Incorporated | Method and arrangement for automatic charset detection |
US8275771B1 (en) * | 2010-02-26 | 2012-09-25 | Google Inc. | Non-text content item search |
US9792638B2 (en) | 2010-03-29 | 2017-10-17 | Ebay Inc. | Using silhouette images to reduce product selection error in an e-commerce environment |
US8861844B2 (en) | 2010-03-29 | 2014-10-14 | Ebay Inc. | Pre-computing digests for image similarity searching of image-based listings in a network-based publication system |
US9405773B2 (en) * | 2010-03-29 | 2016-08-02 | Ebay Inc. | Searching for more products like a specified product |
US20120130816A1 (en) * | 2010-03-31 | 2012-05-24 | Rakuten, Inc. | Search system, search method, search program and recording medium |
US8788260B2 (en) | 2010-05-11 | 2014-07-22 | Microsoft Corporation | Generating snippets based on content features |
US8595207B2 (en) | 2010-06-14 | 2013-11-26 | Salesforce.Com | Methods and systems for dynamically suggesting answers to questions submitted to a portal of an online service |
US20110314001A1 (en) * | 2010-06-18 | 2011-12-22 | Microsoft Corporation | Performing query expansion based upon statistical analysis of structured data |
WO2012021820A2 (en) * | 2010-08-13 | 2012-02-16 | Ii James Duncan Mcrae | System and method for utilizing media content to initiate conversations between businesses and consumers |
US8650191B2 (en) * | 2010-08-23 | 2014-02-11 | Vistaprint Schweiz Gmbh | Search engine optimization assistant |
US8412594B2 (en) | 2010-08-28 | 2013-04-02 | Ebay Inc. | Multilevel silhouettes in an online shopping environment |
US20120089456A1 (en) * | 2010-10-06 | 2012-04-12 | Yahoo! Inc. | System for search bid term selection |
US20120158712A1 (en) * | 2010-12-16 | 2012-06-21 | Sushrut Karanjkar | Inferring Geographic Locations for Entities Appearing in Search Queries |
US9342590B2 (en) * | 2010-12-23 | 2016-05-17 | Microsoft Technology Licensing, Llc | Keywords extraction and enrichment via categorization systems |
CN102646103B (zh) * | 2011-02-18 | 2016-03-16 | 腾讯科技(深圳)有限公司 | 检索词的聚类方法和装置 |
US9043358B2 (en) * | 2011-03-09 | 2015-05-26 | Microsoft Technology Licensing, Llc | Enterprise search over private and public data |
US8719192B2 (en) | 2011-04-06 | 2014-05-06 | Microsoft Corporation | Transfer of learning for query classification |
US20120265784A1 (en) * | 2011-04-15 | 2012-10-18 | Microsoft Corporation | Ordering semantic query formulation suggestions |
US20120310690A1 (en) * | 2011-06-06 | 2012-12-06 | Winshuttle, Llc | Erp transaction recording to tables system and method |
US20120323627A1 (en) * | 2011-06-14 | 2012-12-20 | Microsoft Corporation | Real-time Monitoring of Public Sentiment |
US9519726B2 (en) | 2011-06-16 | 2016-12-13 | Amit Kumar | Surfacing applications based on browsing activity |
US8417718B1 (en) | 2011-07-11 | 2013-04-09 | Google Inc. | Generating word completions based on shared suffix analysis |
US8838575B2 (en) * | 2011-08-03 | 2014-09-16 | Sap Ag | Generic framework for historical analysis of business objects |
US20140278947A1 (en) * | 2011-10-31 | 2014-09-18 | Pureclick Llc | System and method for click fraud protection |
US20130110648A1 (en) * | 2011-10-31 | 2013-05-02 | Simon Raab | System and method for click fraud protection |
US20140324573A1 (en) * | 2011-10-31 | 2014-10-30 | Simon Raab | System and method for click fraud protection |
WO2013066755A1 (en) * | 2011-10-31 | 2013-05-10 | Pureclick Llc | System and method for click fraud protection |
US20130211915A1 (en) * | 2012-02-14 | 2013-08-15 | Erick Tseng | Advertising Based on Customized User Dictionary |
US9330082B2 (en) | 2012-02-14 | 2016-05-03 | Facebook, Inc. | User experience with customized user dictionary |
US9330083B2 (en) | 2012-02-14 | 2016-05-03 | Facebook, Inc. | Creating customized user dictionary |
US9235565B2 (en) | 2012-02-14 | 2016-01-12 | Facebook, Inc. | Blending customized user dictionaries |
CN103631769B (zh) * | 2012-08-23 | 2017-10-17 | 北京音之邦文化科技有限公司 | 一种判断文件内容与标题间一致性的方法及装置 |
CN103678320B (zh) * | 2012-09-03 | 2017-10-27 | 腾讯科技(深圳)有限公司 | 网络信息的挖掘方法和装置 |
US9384244B1 (en) * | 2012-11-28 | 2016-07-05 | BloomReach Inc. | Search with autosuggest and refinements |
US8972435B2 (en) | 2012-12-14 | 2015-03-03 | Microsoft Corporation | Automatic generation of semantically similar queries |
US9104718B1 (en) | 2013-03-07 | 2015-08-11 | Vast.com, Inc. | Systems, methods, and devices for measuring similarity of and generating recommendations for unique items |
US10007946B1 (en) | 2013-03-07 | 2018-06-26 | Vast.com, Inc. | Systems, methods, and devices for measuring similarity of and generating recommendations for unique items |
US9465873B1 (en) | 2013-03-07 | 2016-10-11 | Vast.com, Inc. | Systems, methods, and devices for identifying and presenting identifications of significant attributes of unique items |
US9830635B1 (en) | 2013-03-13 | 2017-11-28 | Vast.com, Inc. | Systems, methods, and devices for determining and displaying market relative position of unique items |
CN103136372B (zh) * | 2013-03-21 | 2016-03-02 | 陕西通信信息技术有限公司 | 网络可信性行为管理中url快速定位、分类和过滤方法 |
US9674132B1 (en) * | 2013-03-25 | 2017-06-06 | Guangsheng Zhang | System, methods, and user interface for effectively managing message communications |
KR101485940B1 (ko) * | 2013-08-23 | 2015-01-27 | 네이버 주식회사 | 시멘틱 뎁스 구조 기반의 검색어 제시 시스템 및 방법 |
US10235681B2 (en) | 2013-10-15 | 2019-03-19 | Adobe Inc. | Text extraction module for contextual analysis engine |
US9990422B2 (en) | 2013-10-15 | 2018-06-05 | Adobe Systems Incorporated | Contextual analysis engine |
US10430806B2 (en) * | 2013-10-15 | 2019-10-01 | Adobe Inc. | Input/output interface for contextual analysis engine |
US9450953B2 (en) * | 2013-11-06 | 2016-09-20 | Blackberry Limited | Blacklisting of frequently used gesture passwords |
US10127596B1 (en) | 2013-12-10 | 2018-11-13 | Vast.com, Inc. | Systems, methods, and devices for generating recommendations of unique items |
US9569536B2 (en) | 2013-12-17 | 2017-02-14 | Microsoft Technology Licensing, Llc | Identifying similar applications |
TWI567574B (zh) * | 2014-02-20 | 2017-01-21 | 南臺科技大學 | 探勘搜尋關鍵字與網站關聯性之分群方法及其系統 |
CN103870553B (zh) * | 2014-03-03 | 2018-07-10 | 百度在线网络技术(北京)有限公司 | 一种输入资源推送方法及系统 |
US9836765B2 (en) | 2014-05-19 | 2017-12-05 | Kibo Software, Inc. | System and method for context-aware recommendation through user activity change detection |
US9697286B2 (en) | 2015-03-16 | 2017-07-04 | International Business Machines Corporation | Shared URL content update to improve search engine optimization |
US9836435B2 (en) | 2015-03-19 | 2017-12-05 | International Business Machines Corporation | Embedded content suitability scoring |
US10089578B2 (en) | 2015-10-23 | 2018-10-02 | Spotify Ab | Automatic prediction of acoustic attributes from an audio signal |
US9589237B1 (en) | 2015-11-17 | 2017-03-07 | Spotify Ab | Systems, methods and computer products for recommending media suitable for a designated activity |
RU2632134C2 (ru) * | 2015-12-28 | 2017-10-02 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система обработки поисковых запросов |
US11436610B2 (en) * | 2016-03-31 | 2022-09-06 | ZenDesk, Inc. | Automatically clustering customer-support requests to form customer-support topics |
US10699183B2 (en) * | 2016-03-31 | 2020-06-30 | ZenDesk, Inc. | Automated system for proposing help center articles to be written to facilitate resolving customer-service requests |
CN106095798A (zh) * | 2016-05-31 | 2016-11-09 | 北京红马传媒文化发展有限公司 | 一种基于特征数据库的性别特征的识别方法、系统及终端 |
CN105975639B (zh) * | 2016-07-04 | 2019-12-06 | 北京百度网讯科技有限公司 | 搜索结果排序方法和装置 |
RU2747425C2 (ru) * | 2016-10-24 | 2021-05-04 | Конинклейке Филипс Н.В. | Система ответа на вопросы из разных областей знаний в режиме реального времени |
US20200151591A1 (en) * | 2017-01-31 | 2020-05-14 | Mocsy Inc. | Information extraction from documents |
RU2656982C1 (ru) * | 2017-03-27 | 2018-06-07 | Федеральное государственное автономное образовательное учреждение высшего образования "Волгоградский государственный университет" | Способ информационного поиска лингвистических моделей выражения деловых отношений в документах архивного фонда |
US10810685B1 (en) * | 2017-05-31 | 2020-10-20 | Intuit Inc. | Generation of keywords for categories in a category hierarchy of a software product |
US10241716B2 (en) | 2017-06-30 | 2019-03-26 | Microsoft Technology Licensing, Llc | Global occupancy aggregator for global garbage collection scheduling |
KR101972660B1 (ko) * | 2017-08-18 | 2019-04-25 | 주식회사 포스코아이씨티 | 팩트체크 시스템 및 방법 |
US10268704B1 (en) | 2017-10-12 | 2019-04-23 | Vast.com, Inc. | Partitioned distributed database systems, devices, and methods |
US11308128B2 (en) * | 2017-12-11 | 2022-04-19 | International Business Machines Corporation | Refining classification results based on glossary relationships |
CN108427720B (zh) * | 2018-02-08 | 2020-12-29 | 中国科学院计算技术研究所 | 系统日志分类方法 |
US10970471B2 (en) * | 2018-04-23 | 2021-04-06 | International Business Machines Corporation | Phased collaborative editing |
RU2692045C1 (ru) * | 2018-05-18 | 2019-06-19 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система для рекомендации свежих саджестов поисковых запросов в поисковой системе |
FR3083949B1 (fr) * | 2018-07-16 | 2021-08-06 | Ismart | Procede de fiabilisation d'une communication entre au moins un serveur distant et un serveur, par appariement automatique de donnees de referencement |
CN109299357B (zh) * | 2018-08-31 | 2022-04-12 | 昆明理工大学 | 一种老挝语文本主题分类方法 |
US10783175B2 (en) * | 2018-09-28 | 2020-09-22 | Microsoft Technology Licensing, Llc | Expanding search queries using query term weighting |
US11100287B2 (en) * | 2018-10-30 | 2021-08-24 | International Business Machines Corporation | Classification engine for learning properties of words and multi-word expressions |
CN109783631B (zh) * | 2019-02-02 | 2022-05-17 | 北京百度网讯科技有限公司 | 社区问答数据的校验方法、装置、计算机设备和存储介质 |
CN110163245A (zh) * | 2019-04-08 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 业务类别预测方法及系统 |
CN110580286A (zh) * | 2019-08-09 | 2019-12-17 | 中山大学 | 一种基于类间信息熵的文本特征选择方法 |
US11134054B2 (en) | 2019-11-05 | 2021-09-28 | International Business Machines Corporation | Classification of a domain name |
CN111324701B (zh) * | 2020-02-24 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 内容补充方法、装置、计算机设备和存储介质 |
KR102425770B1 (ko) * | 2020-04-13 | 2022-07-28 | 네이버 주식회사 | 급상승 검색어 제공 방법 및 시스템 |
US20230004619A1 (en) * | 2021-07-02 | 2023-01-05 | Vmware, Inc. | Providing smart web links |
CN113448918B (zh) * | 2021-08-31 | 2021-11-12 | 中国建筑第五工程局有限公司 | 一种企业科研成果管理方法及管理平台、设备、存储介质 |
US12008054B2 (en) * | 2022-01-31 | 2024-06-11 | Walmart Apollo, Llc | Systems and methods for determining and utilizing search token importance using machine learning architectures |
US20230306466A1 (en) * | 2022-03-28 | 2023-09-28 | The Dun & Bradstreet Corporation | Artificial intellegence engine for generating semantic directions for websites for entity targeting |
KR102535698B1 (ko) * | 2022-07-13 | 2023-05-30 | 한선주 | 블록체인 기반 대체 불가능 토큰을 이용한 자산 관리 서비스 제공 방법 및 상기 방법을 수행하는 자산 관리 서비스 제공 시스템 |
CN116628201B (zh) * | 2023-05-18 | 2023-10-20 | 浙江数洋科技有限公司 | 一种文本资料库的智能化分群和推送方法 |
CN117093548B (zh) * | 2023-10-20 | 2024-01-26 | 公诚管理咨询有限公司 | 一种招投标管理稽核系统 |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03122770A (ja) * | 1989-10-05 | 1991-05-24 | Ricoh Co Ltd | キーワード連想文書検索方法 |
US5265065A (en) * | 1991-10-08 | 1993-11-23 | West Publishing Company | Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query |
US5488725A (en) * | 1991-10-08 | 1996-01-30 | West Publishing Company | System of document representation retrieval by successive iterated probability sampling |
US7251637B1 (en) * | 1993-09-20 | 2007-07-31 | Fair Isaac Corporation | Context vector generation and retrieval |
US5576954A (en) * | 1993-11-05 | 1996-11-19 | University Of Central Florida | Process for determination of text relevancy |
US5812134A (en) * | 1996-03-28 | 1998-09-22 | Critical Thought, Inc. | User interface navigational system & method for interactive representation of information contained within a database |
JP3108015B2 (ja) | 1996-05-22 | 2000-11-13 | 松下電器産業株式会社 | ハイパーテキスト検索装置 |
AU3484897A (en) | 1996-06-17 | 1998-01-07 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
US6457004B1 (en) * | 1997-07-03 | 2002-09-24 | Hitachi, Ltd. | Document retrieval assisting method, system and service using closely displayed areas for titles and topics |
US5987460A (en) * | 1996-07-05 | 1999-11-16 | Hitachi, Ltd. | Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency |
GB9701866D0 (en) * | 1997-01-30 | 1997-03-19 | British Telecomm | Information retrieval |
US6112202A (en) * | 1997-03-07 | 2000-08-29 | International Business Machines Corporation | Method and system for identifying authoritative information resources in an environment with content-based links between information resources |
US6470307B1 (en) * | 1997-06-23 | 2002-10-22 | National Research Council Of Canada | Method and apparatus for automatically identifying keywords within a document |
US5845278A (en) * | 1997-09-12 | 1998-12-01 | Inioseek Corporation | Method for automatically selecting collections to search in full text searches |
US6003027A (en) * | 1997-11-21 | 1999-12-14 | International Business Machines Corporation | System and method for determining confidence levels for the results of a categorization system |
US6421675B1 (en) | 1998-03-16 | 2002-07-16 | S. L. I. Systems, Inc. | Search engine |
JPH11328724A (ja) * | 1998-05-18 | 1999-11-30 | Fuji Photo Film Co Ltd | 3次元光メモリ |
US6006225A (en) | 1998-06-15 | 1999-12-21 | Amazon.Com | Refining search queries by the suggestion of correlated terms from prior searches |
US6742003B2 (en) * | 2001-04-30 | 2004-05-25 | Microsoft Corporation | Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications |
US6598054B2 (en) * | 1999-01-26 | 2003-07-22 | Xerox Corporation | System and method for clustering data objects in a collection |
US7225182B2 (en) | 1999-05-28 | 2007-05-29 | Overture Services, Inc. | Recommending search terms using collaborative filtering and web spidering |
US6711585B1 (en) * | 1999-06-15 | 2004-03-23 | Kanisa Inc. | System and method for implementing a knowledge management system |
US6556983B1 (en) * | 2000-01-12 | 2003-04-29 | Microsoft Corporation | Methods and apparatus for finding semantic information, such as usage logs, similar to a query using a pattern lattice data space |
US6615209B1 (en) * | 2000-02-22 | 2003-09-02 | Google, Inc. | Detecting query-specific duplicate documents |
DE10029644B4 (de) | 2000-06-16 | 2008-02-07 | Deutsche Telekom Ag | Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine |
US7490092B2 (en) * | 2000-07-06 | 2009-02-10 | Streamsage, Inc. | Method and system for indexing and searching timed media information based upon relevance intervals |
US7587428B2 (en) * | 2000-10-13 | 2009-09-08 | Microsoft Corporation | Maintaining a relationship between two different items of data |
US6560600B1 (en) * | 2000-10-25 | 2003-05-06 | Alta Vista Company | Method and apparatus for ranking Web page search results |
US7356530B2 (en) * | 2001-01-10 | 2008-04-08 | Looksmart, Ltd. | Systems and methods of retrieving relevant information |
US6892193B2 (en) * | 2001-05-10 | 2005-05-10 | International Business Machines Corporation | Method and apparatus for inducing classifiers for multimedia based on unified representation of features reflecting disparate modalities |
US20030065632A1 (en) * | 2001-05-30 | 2003-04-03 | Haci-Murat Hubey | Scalable, parallelizable, fuzzy logic, boolean algebra, and multiplicative neural network based classifier, datamining, association rule finder and visualization software tool |
US20030046389A1 (en) | 2001-09-04 | 2003-03-06 | Thieme Laura M. | Method for monitoring a web site's keyword visibility in search engines and directories and resulting traffic from such keyword visibility |
US7167871B2 (en) * | 2002-05-17 | 2007-01-23 | Xerox Corporation | Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections |
JP3918664B2 (ja) | 2002-07-10 | 2007-05-23 | ヤマハ株式会社 | 音響信号処理装置 |
EP1540514B1 (en) * | 2002-07-23 | 2010-12-22 | Quigo Technologies Inc. | System and method for automated mapping of keywords and key phrases to documents |
US7225184B2 (en) * | 2003-07-18 | 2007-05-29 | Overture Services, Inc. | Disambiguation of search phrases using interpretation clusters |
US7165119B2 (en) | 2003-10-14 | 2007-01-16 | America Online, Inc. | Search enhancement system and method having rankings, explicitly specified by the user, based upon applicability and validity of search parameters in regard to a subject matter |
-
2004
- 2004-04-15 US US10/826,162 patent/US7260568B2/en not_active Expired - Fee Related
-
2005
- 2005-04-13 AU AU2005201684A patent/AU2005201684A1/en not_active Abandoned
- 2005-04-13 CN CNB2005100783089A patent/CN100476814C/zh not_active Expired - Fee Related
- 2005-04-14 CA CA2504181A patent/CA2504181C/en not_active Expired - Fee Related
- 2005-04-14 EP EP05102952A patent/EP1587010A3/en not_active Withdrawn
- 2005-04-14 RU RU2005111001/09A patent/RU2375747C2/ru not_active IP Right Cessation
- 2005-04-15 BR BR0503051-0A patent/BRPI0503051A/pt not_active IP Right Cessation
- 2005-04-15 KR KR1020050031630A patent/KR101201037B1/ko not_active IP Right Cessation
- 2005-04-15 JP JP2005118049A patent/JP2005302041A/ja active Pending
- 2005-04-15 MX MXPA05004098A patent/MXPA05004098A/es active IP Right Grant
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011096073A (ja) * | 2009-10-30 | 2011-05-12 | Rakuten Inc | 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及びコンテンツ生成装置 |
JP2011096078A (ja) * | 2009-10-30 | 2011-05-12 | Rakuten Inc | 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置 |
US10614134B2 (en) | 2009-10-30 | 2020-04-07 | Rakuten, Inc. | Characteristic content determination device, characteristic content determination method, and recording medium |
JP2018060468A (ja) * | 2016-10-07 | 2018-04-12 | ヤフー株式会社 | 集計装置、集計方法、及び集計プログラム |
KR102068507B1 (ko) * | 2019-07-11 | 2020-01-21 | (주)시큐레이어 | 기계 학습 모델의 신뢰도를 판단하기 위한 후처리 방법 및 이를 사용한 후처리 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR20060045786A (ko) | 2006-05-17 |
CN100476814C (zh) | 2009-04-08 |
RU2005111001A (ru) | 2006-10-20 |
US7260568B2 (en) | 2007-08-21 |
AU2005201684A1 (en) | 2005-10-27 |
MXPA05004098A (es) | 2005-10-19 |
RU2375747C2 (ru) | 2009-12-10 |
CA2504181C (en) | 2013-08-06 |
EP1587010A3 (en) | 2006-11-02 |
EP1587010A2 (en) | 2005-10-19 |
CN1691019A (zh) | 2005-11-02 |
CA2504181A1 (en) | 2005-10-15 |
KR101201037B1 (ko) | 2012-11-14 |
BRPI0503051A (pt) | 2005-12-06 |
US20050234953A1 (en) | 2005-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101201037B1 (ko) | 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증 | |
JP4726528B2 (ja) | マルチセンスクエリについての関連語提案 | |
JP4838529B2 (ja) | 検索語提案のためのマルチ型データオブジェクトの強化されたクラスタリング | |
US10956518B2 (en) | Systems and methods for improved web searching | |
US9804838B2 (en) | Systems and methods for finding project-related information by clustering applications into related concept categories | |
US7809715B2 (en) | Abbreviation handling in web search | |
Broder et al. | Search advertising using web relevance feedback | |
US8073877B2 (en) | Scalable semi-structured named entity detection | |
JP5990178B2 (ja) | キーワード抽出に関するシステム及び方法 | |
US20110270815A1 (en) | Extracting structured data from web queries | |
US20110055192A1 (en) | Full text query and search systems and method of use | |
JP2013516022A (ja) | 検索提案のクラスタ化及び提示 | |
US9164981B2 (en) | Information processing apparatus, information processing method, and program | |
US8065311B2 (en) | Relevance score in a paid search advertisement system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071218 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071218 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20071218 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20080110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080205 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20080319 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20080319 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20080507 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20080512 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080801 |