JP3905498B2 - 分散型データベースの文書をカテゴリー分けしてプレゼンテーションする方法及び装置 - Google Patents

分散型データベースの文書をカテゴリー分けしてプレゼンテーションする方法及び装置 Download PDF

Info

Publication number
JP3905498B2
JP3905498B2 JP2003183555A JP2003183555A JP3905498B2 JP 3905498 B2 JP3905498 B2 JP 3905498B2 JP 2003183555 A JP2003183555 A JP 2003183555A JP 2003183555 A JP2003183555 A JP 2003183555A JP 3905498 B2 JP3905498 B2 JP 3905498B2
Authority
JP
Japan
Prior art keywords
page
commercial
pages
result
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003183555A
Other languages
English (en)
Other versions
JP2004164578A (ja
Inventor
シー フェイン ダニエル
ティー ライヤン ポール
サヴィッチ ピーター
Original Assignee
オーバーチュア サービシズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オーバーチュア サービシズ インコーポレイテッド filed Critical オーバーチュア サービシズ インコーポレイテッド
Publication of JP2004164578A publication Critical patent/JP2004164578A/ja
Application granted granted Critical
Publication of JP3905498B2 publication Critical patent/JP3905498B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure

Description

【0001】
【背景技術】
コンピュータネットワークを経て情報を転送することは、団体や会社や個人がビジネスを行う上で益々重要な手段になってきている。コンピュータネットワークは、単一グループのニーズにサービスするために確立された独立した分離したエンティティから、個別の物理的ネットワークを相互接続しそしてそれらが整合したシステムとして機能できるようにする広大なインターネットまで、長年にわたって成長してきた。現在存在する最大のコンピュータネットワークは、インターネットである。インターネットが、共通のプロトコルを使用して通信するコンピュータネットワークのワールドワイド相互接続である。下端のパーソナルコンピュータから、上端のスーパーコンピュータまで数百万のコンピュータがインターネットに接続されている。
【0002】
インターネットは、膨大な量の情報を容易に且つ定期的に交換する世界中に居住する電子的に接続されたユーザの大きなコミュニティとして出現した。インターネットは、政府当局、研究所及び大学の間で調査及び教育のために情報にアクセスしそして交換するという最初の目的を果たし続けている。更に、インターネットは、その最初の目標を越えて種々の関心事やフォーラムにサービスするように進化した。特に、インターネットは、商品及びサービスや、アイデア及び情報のグローバルな電子マーケットプレースへと急速に変化しつつある。
【0003】
このようにインターネットがグローバルなマーケットプレースへと変化することは、情報の発行や交換を容易にするためのHTTP(ハイパーテキスト転送プロトコル)やTCP/IP(送信コントロールプロトコル/インターネットプロトコル)のような共通プロトコルの導入によりその大部分が推進された。従って、インターネットは、無制限の数のユーザやソースから発行された文書(ドキュメント)の大きな領域へ広範囲なアクセスを与えるように設計された独特の分散型データベースである。インターネットのデータベース記録は、「ページ」として知られている文書の形態であるか又は「サイト」として知られているページの集合の形態である。それ故、インターネットは、常時変化して集中的組織をもたない外見上数え切れない個々のコンピュータシステムにわたって分散された広大な情報データベースである。
【0004】
インターネットに接続されたコンピュータは、ブラウザとして知られたプログラムを経てページにアクセスし、ブラウザは、学習が容易なパワフルなユーザインターフェイスで、通常グラフィックであり、そしてインターネットに接続された各コンピュータが情報の発行者及び消費者の両方になり得るようにする。ブラウザによってイネーブルされる別のパワフルな技術は、ハイパーリンクとして知られており、これは、ページの著者が他のページへのリンクを形成できるようにし、ユーザは、例えば、ブラウザ内でポインティング及びクリックするといった簡単なコマンドを使用することによりそれを検索することができる。従って、各ページは、それがハイパーリンクに対するターゲット及びソースの両方であり得るので、意味的に関連したページのネクサス(nexus)内に存在し、この接続性は、これらハイパーリンクがいかに相関しているかマッピング及び比較することによりある程度捕えることができる。更に、ページは、ハイパーテキストマークアップ言語(HTML)又は拡張可能なマークアップ言語(XML)のような種々のシンタックスの1つにおいて構成され、グラフィック、音声、静止画及び動画のようなマルチメディア情報コンテンツを含む。
【0005】
コンピュータをもっていてインターネットに接続できる個人であれば、自分のページをインターネットに発行できると共に、誰もが使用できる他のページにもアクセスできるので、インターネットは、オフラインの世界では不可能であるか又は実際的でなかった情報生成及び消費の「多数対多数(many-to-many)」モデルを形成できる。サーチエンジンを含む有効なサーチサービスは、多数対多数モデルの重要な部分であって、情報消費者が、大量の無関係であるが同様のページの中で、関連ページを迅速に且つ確実に識別できるようにする。多数対多数モデルであるために、インターネット上に存在することで、潜在的な顧客である消費者に製品やサービスを広告するように求める企業や個人や団体に消費者のワールドワイドベースを導入することができる。更に、データ送信レートやコンピュータ処理速度やブラウザの機能が指数関数的に高まることによりページ設計が益々精巧なものになってきているために、インターネットは、コマーシャルトランザクションを容易にしそして実行すると共に、このようなトランザクションを広告しそしてイネーブルするための益々魅力的な媒体となってきている。インターネットは、企業及びターゲットとする消費者を直接的に識別しそしてそれらの間を結ぶことができるので、パワフルで効果的な広告媒体であるという潜在性をもつ。
【0006】
インターネットコンテンツ(これは、任意の種類の情報を任意のフォーム又はフォーマットで含む)の開発及び配布を容易にするパワフルな新規なツールが使用できることにより、インターネットを経てオファーされる情報、製品及びサービスが増殖されると共に、インターネットを利用する消費者の人数及び形式が急激に成長した。一般にIDCと称されるインターナショナル・データ・コーポレーションは、インターネット利用者の人数は、2002年の終りまでに世界中で約3億2千万人に達すると推定している。更に、インターネットを経て行われる商取引も成長し、急激に増加することが期待される。IDCは、インターネットユーザがインターネットで商品及びサービスを購入する割合は、2002年中に約40%に増加し、そしてインターネットを経て購入される商品及びサービスの総額は、約$4257億に増加すると推定している。
【0007】
従って、インターネットは、情報、製品及びサービスの広告主(アドバタイザー)が一般的に消費者に到達するだけでなく、好みや特性や行動に基づいて消費者の特定グループを識別しそしてターゲットとする高い能力をもてるようにする魅力的な新規な媒体として出現した。しかしながら、インターネットは、世界中の数百万の異なるコンピュータシステム全体にわたって分散された無制限の数のサイトより成り、従って、広告主は、それらの情報、製品及び/又はサービスに潜在的に関心のある消費者の特定グループ又はサブグループを探索してターゲットとするという怖気付くようなタスクに直面する。
【0008】
広告主は、消費者が広告主のサイトを探索するのを助けるためにサーチサービスに依存している。ディレクトリ及びサーチエンジンを含むサーチサービスは、インターネットで利用できる情報をインデックしそしてサーチし、従って、消費者を含むユーザが関心のある情報、製品及びサービスを探索する助けとするために開発されている。これらのサーチサービスは、消費者を含むユーザが、ユーザにより自分の言語で記述された関心のある特定キーワードの話題、製品又はサービスに基づいてサイトのリストについてインターネットをサーチできるようにする。サーチサービスは、e−メールに続いてインターネット上で最も頻繁に使用されるツールであるから、サーチサービスを提供するサイトは、広告主にインターネット観客への高い到達性を与えると共に、キーワード又は話題サーチ要求に基づいて関心のある消費者をターゲットとする機会を作り出す。
【0009】
サーチサービスは、一般に、インターネットのページを電子的にレビューし、そしてそのレビューに基づいてインデックス及びデータベースを形成するサーチエンジンプロバイダーにより形成される。サーチエンジンプロバイダーは、サーチサービスを消費者に直接オファーしてもよいし、又はサーチサービスを第三者に提供し、この第三者がサーチサービスを消費者に提供するようにしてもよい。通常、データベースは、インターネットをクロール(crawl)しそして各ページのローカルコピー又はそのアスペクトをメモリデバイスに作るか、或いはページのプロバイダーからの提示(「結果ページ(Resulting Page)」を収集するかのいずれかにより形成される。これは、テキスト、映像、オーディオ、ビデオ又は静止画像に関わらず、静的及び/又は動的コンテンツを含むことができる。或いは又、URL、タイトル又はテキストのようなページのあるアスペクトのみがコピーされてもよい。各結果ページは、後で参照のためにインデックスされる。従って、インターネットのサーチがユーザにより要求されたときには、サーチエンジンは、実際にはインターネットをリアルタイムでサーチせず、むしろ、それ自身のインデックス及びデータベースを当該結果ページ(「サーチ結果」又は「リスティング」)についてサーチする。次いで、サーチ結果は、ハイパーリンクを経てアクセスできる実際のページのコピー又はページのリスティングとしてユーザへプレゼンテーションされる。
【0010】
多数の既知のサーチエンジンは、自動サーチ技術を使用して、サイトプロモーターにより創作された「メタタグ」として知られている目に見えないサイト記述に一般に依存するサーチ結果を目録にする。広告主は、それらのサイトをそれらが選択したときに自由にタグ付けでき又はタグ付けしているので、多数のページに同様のメタタグが与えられ、当該サーチ結果を与えるのを益々困難にする。更に、ほとんどの既知のサーチエンジンは、インデックスされたページがカテゴリー分けされた意味的カテゴリーのそれ自身のハイアラーキーに依存している。これは、カテゴリーがそれらのコマーシャル性質又は非コマーシャル性質に関わらず意味的に関係しているトップダウン式カテゴリー分け解決策である。それ故、既知のサーチエンジンは、ページ又はサイトのコマーシャル性質及び関連性に基づくサーチ結果のボトムアップ式のカスタマイズ可能なカテゴリー分けを与えるものではない。
【0011】
更に、ある広告主及び他のサイトプロモーターは、それらのページに関係のないサイトのメタタグに人気のあるサーチ項を挿入し、従って、これらページは、限界コストをほとんど又は全く掛けない状態で消費者の付加的な注意を引くことができる。このようなページは、多数の望ましからぬ結果を招き、「スパムページ(spam page)」と称される。一般に、ページは、サーチエンジン及び/又は関連オーダーアルゴリズムを欺く目的で何らかのメカニズムを含み且つユーザの最初のサーチに関係ないサイトへユーザを再指向する場合に「スパム」と称される。多数のこのようなメカニズム及び技術が存在し、ページの真の性質を反映しないメタタグを含む(これに限定されない)。通常、スパムページは、コマーシャルの性質である。即ち、それらは、ユーザに何かを販売しようと試みる。
【0012】
多数の既知のサーチエンジンは、消費者の好みに基づいて結果を優先順位決めするだけのために設けられているのではない。又、既知のサーチエンジンは、リスティング内の各ページがコマーシャル性質であるかどうか決定しそして各ページのコマーシャル性質に基づいてリスティングをカテゴリー分けする方法を与えるものではない。これを行うときには、サーチ結果を処理して、サーチを開始する際に消費者の意志に基づいて(コマーシャルトランザクションを行おうとするか又は情報を求めるか)更に有用な編成を与えることができる。例えば、所与の話題で情報を求める消費者は、主として情報の性質であるページを、主としてコマーシャルの性質であるページから区別しようとする。別の例では、消費者は、主としてコマーシャル性質であって消費者の要求に関連したページを、望ましからぬページ又はスパムページから区別しようとする。
【0013】
更に、既知のサーチエンジンでは、商品又はサービスを購入するためのサイトを探索するよう試みる消費者には、その項目に関連しているがその項目の購入を容易にするものではない膨大な数のサイトがプレゼンテーションされる。同様に、ある項目についての情報サイトを探索することにのみ関心のある消費者にも、それらが求めている情報を与えない、項目を購入するための多数のコマーシャルサイトがプレゼンテーションされる。それ故、消費者の希望する結果ページは、消費者の最終的な目標に対応しない多数のページの中に隠されてしまう。というのは、既知のサーチエンジンは、サーチに対する消費者の意志も、サーチ結果のコマーシャル性質又は非コマーシャル性質も区別できないからである。
【0014】
従って、既知のサーチエンジンは、ユーザが探しているサーチ結果の形式即ち情報又はコマーシャルをユーザがカテゴリー分けし、又は広告主がそれらの発表を制御しそして関心のある消費者をターゲットに情報を配布しようとする有効な手段を与えるものではない。サーチ結果をプレゼンテーションするための現在のパラダイムは、情報と情報のコマーシャルソースとの間をページごとに区別するものではなく、むしろ、両方の結果形式を、ユーザの最初のサーチ問合せに対する応答としてそれらに指定された関連性のみに基づいて混合する。
【0015】
バナー広告のように、発表を管理しそして配布のターゲットを決めるために広告主により使用される既知の方法は、従来の広告パラダイムに従うもので、インターネットの多数対多数発行モデルの独特の属性を利用するものではない。更に、バナー広告がサーチ結果において見つかる程度に、それらは、しばしば消費者の関心を引くことがない。というのは、消費者は、バナーではなく、そのページのサーチ結果を、指示されたやり方で探すからである。
【0016】
【発明が解決しようとする課題】
従って、インターネット広告及びサーチエンジンに関連した従来のパラダイムは、関連情報を効果的にカテゴリー分けして関心のある当事者に適時に且つコスト効率の良いやり方で送付するものではない。それ故、消費者は、全てのサーチ結果を通して手動で分類し、関心のある結果の形式(コマーシャル又は非コマーシャル)を最終的に探索しなければならない。しかしながら、インターネット広告は、他の媒体では一般に得られないようなレベルのターゲット性、対話性及び測定性を与えるので、コマーシャル及び非コマーシャル結果の識別されたセットをカテゴリー分けして明確にプレゼンテーションする能力があれば、ユーザに要求される手動分類の量を減少することにより、消費者の満足度を高めると共に、経済効率を容易に高めることができる。
【0017】
理想的に、広告主は、それらのページがリスティングにおいて際立って見えるだけでなく、多数の他の非コマーシャルページによりマスクされないようにインターネットサーチ結果リストにおいて見易さを改善できねばならない。(参考としてここに援用する米国特許第6,269,361号を参照されたい。)同様に、消費者は、それらのサーチ結果を確実にカテゴリー分けして、情報又はコマーシャルのいずれかとして明確にプレゼンテーションすることができねばならない。コマーシャルページと非コマーシャルページとを区別する信頼性のある手段がないと、既知のサーチエンジンは、インターネットにより可能にされるターゲット決めされるマーケット解決策の真の潜在性を利用することができない。
【0018】
従って、インターネットのサーチエンジン機能は、消費者にカスタマイズ可能な当該サーチ結果を迅速に与えると同時に、広告主には消費者をターゲットとしそして広告主の製品及びサービスをリスティング内に配置する高信頼性の、照合可能な且つコスト効率の良い方法を与えるオンラインマーケットプレースを容易にするための新たな方向に焦点を合わせることが必要である。このオンラインマーケットプレースを容易にするサーチエンジンを利用する消費者は、非コマーシャルページで惑わされずに、消費者が求めている製品又はサービスをオファーする会社や企業を見出すことができる。更に、ユーザが厳密な情報リソースを求める間に、スパムページや、無関係なコマーシャルページによって悩まされることはない。
【0019】
【課題を解決するための手段】
そこで、本発明の目的は、分散型データベースにおいて記録を検査してコマーシャル記録又は非コマーシャル記録としてカテゴリー分けし、次いで、それらの記録を、ユーザにより提示されたデータベース問合せ又はネットワークで定義された設定に応答してプレゼンテーションするシステム及び方法を提供することである。
【0020】
又、本発明の目的は、ユーザがサーチ結果のコマーシャル性質に基づいてサーチ結果リスティングを編成できると共に、ユーザがカテゴリー及びユーザの好みに基づいてプレゼンテーションルールを指定できるようにするカスタマイズ可能なサーチエンジンをユーザに与えることである。
【0021】
本発明の更に別の目的は、各サーチエンジンサービス顧客がサーチ結果のコマーシャル性質に基づいてサーチ結果リスティングを編成できると共に、サーチエンジンサービス顧客がカテゴリー及びサーチエンジンサービス顧客の好みに基づいてサーチ結果のプレゼンテーションルールを指定できるようにするカスタマイズ可能なサーチエンジンをサーチエンジンサービス顧客に与えることである。
【0022】
又、本発明の目的は、サーチエンジンサービスプロバイダー又はユーザが種々のトランザクション基準及びスレッシュホールド値の重要度を動的に指定して、記録のコマーシャル性質に基づいて値の柔軟なスケールを形成し、トランザクションレーティング、ひいては、各記録に対するコマーシャル又は非コマーシャル呼称を指定できるようにするシステム及び方法を提供することである。
【0023】
本発明の更に別の目的は、トランザクションレーティングをクオリティスコア及びスパムスコアと結合して、コマーシャルスコアを指定し、次いで、そのような結果をそのようなスコアに基づいてランク付け又は分類することによりサーチ結果をカテゴリー分けしてプレゼンテーションするシステム及び方法を提供することである。
【0024】
又、本発明の目的は、最初に全ての文書が非コマーシャルであると仮定し、全てのコマーシャル文書をフィルタリングしそしてそれらを第1カテゴリーに入れて、その第1カテゴリーを、パーフォーマンスサーチエンジンのための支払いに対する広告主の見込みの集合として使用することにより、分散型データベースにおいて文書をカテゴリー分けして、カテゴリー分けされた文書を形成するためのシステム及び方法を提供することである。
【0025】
本発明の更に別の目的は、最初にページをコマーシャル又は非コマーシャルとしてカテゴリー分けし、次いで、コマーシャルページを既存顧客又はセールスリードとして更にカテゴリー分けすることにより、広告主のセールスリードを自動的に発生することによって、パーフォーマンスサーチエンジンに対する支払のオペレーションを管理するコスト効率の良いシステム及び方法を提供することである。
【0026】
本発明の更に別の目的は、分散型データベースにおいて記録をカテゴリー分けして、コマーシャル記録を識別すると共に、これら記録をパーフォーマンスサーチエンジンのリスティングに対する支払について比較して、コマーシャル記録を参加広告主又は非参加広告主として更にカテゴリー分けするためのシステム及び方法を提供することである。
【0027】
本発明の更に別の目的は、動的に指定される基準に基づいてパーフォーマンスサーチエンジンセールススタッフに対する支払に対し非参加コマーシャル記録を編成してプレゼンテーションすることにより、パーフォーマンスサーチエンジン広告主に対する支払のセールスリードを発生するシステム及び方法を提供することである。
【0028】
以下、カテゴリー分けされた文書を形成し、分散型データベースにおいて文書をカテゴリー分けし、そして「結果ページ」をカテゴリー分けするための方法を説明する。又、分散型データベースをサーチするための装置も説明する。
カテゴリー分けされた文書を形成するための方法は、一般に、最初に全ての文書が形式1であると仮定し、全ての形式2文書をフィルタリングして、それらを第1カテゴリーに入れ、全ての形式3文書をフィルタリングして、それらを第2カテゴリーに入れ、そして残りの全ての文書を形式4文書として定義して、全ての形式4文書を第3カテゴリーに入れるという段階を備えている。
【0029】
分散型データベースにおいて文書をカテゴリー分けする方法は、一般に、分散型データベースの全ての文書が非コマーシャル性質であると仮定し、コマーシャル性質である全ての文書を文書からフィルタリングし、コマーシャル性質である文書は、コマーシャル文書とし、そしてコマーシャル文書からセールスリードを作成するという段階を備えている。この方法の1つの実施形態において、文書はページであり、そして分散型データベースは、インターネットである。
【0030】
「結果ページ(Resulting Page)」をカテゴリーに分類する方法は、一般に、第1のカテゴリーをコマーシャルページとしてそして第2のカテゴリーを情報ページとして指定し、各結果ページに対してクオリティスコアq(wi)を決定し、各結果ページに対してトランザクションレーティングτ(wi)を決定し、伝播マトリクスPを導出し、各結果ページに対してコマーシャルスコアκを決定し、コマーシャルスコアのスレッシュホールド値に合致するか又はそれを越える全ての結果ページをフィルタリングするという段階を備え、コマーシャルページのスレッシュホールド値に合致するか又はそれを越える結果ページは、上記第1カテゴリーに入れ、そして残りの全ての結果ページは、第2カテゴリーに入れるようにする。
【0031】
複数の結果ページをカテゴリーに分類する更に別の方法は、一般に、複数の結果ページの各々がスパムページであるかどうか決定し、複数の結果ページの各々に対してクオリティスコアq(wi)を決定し、複数の結果ページの各々に対しトランザクションレーティングτ(wi)を決定し、伝播マトリクスPを導出し、複数の結果ページの各々に対しコマーシャルスコアκを決定し、複数の結果ページから全てのスパム含有コマーシャルページをフィルタリングし、上記スパム含有コマーシャルページから全てのスパムページをフィルタリングし、全てのコマーシャルページをコマーシャルカテゴリーに入れ、そして全ての残りの結果ページを情報カテゴリーに入れるという段階を備えている。
【0032】
分散型データベースをサーチする方法は、一般に、(a)サーチ項又はフレーズをシステムに入力し、(b)そのサーチ項又はフレーズに一致するキーワードを含む文書を発生し、(c)サーチ結果をカテゴリー分け基準に基づいてカテゴリーに分類して、カテゴリー分けされた文書を作成し、そして(d)そのカテゴリー分けされた文書をプレゼンテーションするという段階を備えている。
【0033】
又、一般に、少なくとも1つのメモリデバイスであって、少なくとも1つのインターネットキャッシュ及びインターネットインデックスを含むメモリデバイスと、計算装置であって、上記インターネットキャッシュ及びインターネットと通信するクローラー(crawler)、上記インターネットインデックス及びインターネットキャッシュと通信するインデクサー、上記インターネットキャッシュと通信するトランザクションスコアジェネレータ、及び上記インターネットキャッシュと通信するカテゴリーアサイナー(assignor)を含む計算装置と、上記インターネットキャッシュ及びインターネットインデックスと通信するサーチサーバーと、該サーチサーバーと通信するユーザインターフェイスとを備えた分散型データベースのためのサーチエンジン及びデータベースについても説明する。
【0034】
【発明の実施の形態】
上記システムは、ここでの開示に基づいて当業者により理解される多数の実施形態を与える。これら実施形態の幾つかを図示して以下に詳細に述べる。
分散型データベースにおいて文書を識別するための方法及び装置について説明する。1つの実施形態は、コマーシャル性質のページを識別するためのヒューリスティックを備え、そしてコマーシャルページ及び情報ページの両方をリアルタイムで動的にカテゴリー分けして広告主、サーチエンジンプロバイダー又はユーザにプレゼンテーションするシステム及び方法を提供する。このシステムは、これらページのコマーシャル性質に基づいてサーチ結果をカテゴリー分けすることが有用ないかなる状況にも使用できると共に、スタンドアローンアプリケーションへのブラウザプラグインからバックエンドサーチエンジン又はサーチエンジンツールまでの多数の形態で使用することができる。更に、このシステムは、セールスサイクルの一部分を自動化し、そして広告主間の共同口座管理環境と、パーフォーマンスサーチエンジンプロバイダーに対する支払とを可能にすることによりパーフォーマンスサーチエンジンプロバイダーに対する支払に対し独特の操作上の利益を与えるように使用できる。
【0035】
ユーザが定義した問合せに応答して返送されるコマーシャルページ及び情報ページに対するサーチ結果の個別セットが広告主、サーチエンジンサービスプロバイダー及びユーザに与えられる。このシステムは、ページを各ページのコマーシャル性質に基づいて区別し、従って、サーチ結果の2つのカテゴリーを混同せずに、情報を求めるユーザに関連サーチ結果を与えるか又はそれをコマーシャルトランザクションに入力することにより、更に関連性のある結果を与える。又、このシステムは、サーチ結果をカテゴリー分けするのに使用される1組の基準、このようなカテゴリーを決定する際のこのような各基準の重要性、及びこのようなサーチ結果を最終的にカテゴリー分けしてユーザへプレゼンテーションすることに関して完全にカスタマイズできるようにする。
【0036】
分散型データベースの記録を静的及び動的にカテゴリー分けしてプレゼンテーションする方法及び装置について開示する。特定の実施形態を一例として説明するが、種々の変更が当業者に明らかであろうから、本発明は、これら実施形態に限定されるものではない。添付図面において同じ特徴部を同じ参照記号で示す。
【0037】
ここでは、分散型データベースにおける記録又は記録のサーチ結果を識別しそしてカテゴリー分けし、更に、記録又はサーチ結果を記録のコマーシャル性質に基づいて、より編成され、より容易に理解され、ひいては、より有用なやり方でカテゴリー分けしそしてプレゼンテーションするためのカスタマイズ可能なシステムを説明する。以下、インターネットのページ又はサーチ結果をコマーシャル及び非コマーシャル(情報)としていかに識別及び分類するかを詳細に説明するが、インターネットを含む分散型データベースの記録は、コマーシャル及び非コマーシャルカテゴリーのサブカテゴリーを含む無制限の種々のカテゴリーに分類できることが容易に理解されよう。他のカテゴリーは、慣習的な店舗及びサービスに対するオンラインショッピング及び広告を含む。それとは別に又はそれに加えて、分散型データベースにおける記録又は記録のサーチ結果は、地理的に、価格の範囲により、そして種々のユーザ指定変数に基づく多数の他の基準により、カテゴリー分けされてプレゼンテーションされてもよい。更に、ここに開示する方法は、ローカルエリアネットワーク(LAN)及びワイドエリアネットワーク(WAN)、並びにインターネット以外のものを含む任意の種類のネットワークへ任意のやり方で接続された分散型データベースにわたって使用されてもよい。
【0038】
添付図面を参照すれば、図1A及び1Bは、インターネットのサーチのサーチ結果をいかにカテゴリー分けできるかを示す。インターネットのサーチは、実際には、クローラーの使用により発生できるインターネットのコンテンツのデータベースのサーチである。クローラーは、インターネットをクロールし、そして見つかった各ページの複写又はその一部分の複写をローカルデータベースにセーブする(その一部分は、見つかった各インターネットページの次の特徴部分、即ちURL、タイトル、コンテンツ、コンテンツの簡単な記述、ハイパーリンク、又はその組合せのいずれかを含む)。次いで、サーチエンジンを使用して、ページのローカルコピー又はその一部分がサーチされる。上記サーチの結果であるページのローカルコピー、その一部分、或いは任意のページ又はその一部分は、全て、「結果ページ(Resulting Page)」と考えられる。
【0039】
図1A及び1Bに示すように、結果ページ50は、一般に、コマーシャル及び非コマーシャルとしてカテゴリー分けすることができる。コマーシャルカテゴリー(コマーシャルページ)52、62における結果ページは、一般に、商品及び/又はサービスの買取及び/又は販売を容易にするか、或いはそのページ(コマーシャル性質の)の発行者によりコマーシャル活動を行う意志を明示する結果ページを含む。例えば、コマーシャルページ52、62は、セール、リース、トレード、又は他のトランザクションにより商品及び/又はサービスをオファーするか、或いはファクシミリ、電話又はインパーソン(in-person)のような他の手段によりこのようなトランザクションを実行するための連絡情報を与えるページを含む。非コマーシャルカテゴリー(非コマーシャルページ)54、64における結果ページは、一般に、情報性質のページで、商品及び/又はサービスの買取及び/又は販売を容易にせず、ひいては、コマーシャル性質でないページを含む。非コマーシャルページは、「情報ページ」とも称される。
【0040】
スパム(spam)である結果ページ(スパムページ)は、一般に、コマーシャルページ52、62のサブセットであると考えられる。というのは、スパムページ56は、一般に、コマーシャル性質だからである。しかしながら、スパムページは、主として情報性質であることも考えられる。というのは、スパムページは、商品及び/又はサービスに関する情報を与えるが、それ自身、商品及び/又はサービスの買取を容易にしないからである。スパムページは、関連性オーダーのヒューリスティックを含むサーチエンジンを欺くか又は質低下するように構成されているので、一般的に望ましいものでなく、サーチ結果から除去又は除外されてもよい。通常、スパムページは、コマーシャル性質の他のページへの直接的なリンクを与えるので、コマーシャル性質であると考えられる。スパムページは、図1A及び1Bに示すように、コマーシャルページとして分類することができるし、或いはコマーシャルカテゴリーから除外することもできる。
【0041】
本発明の1つの実施形態では、結果ページは、更に、プレミアコンテンツ含有カテゴリー(PCCページ)で分類される。このPCCページは、コンテンツへのアクセスを得るためにプレミアの支払が要求されるページである。ある場合には、プレミアの支払は、協約又は契約により左右される。次のURL、即ちwww.law.com及びwww.northernlight.com.に見られるもののような多数のPCCページの例がある。PCCページは、ユーザ又はサーチエンジンサービス顧客の好みに基づき、コマーシャルページのサブセットであってコマーシャルカテゴリーに入れられるか、或いは非コマーシャルページのサブセットであって非コマーシャルカテゴリーに入れられるかのいずれかであると考えられる。例えば、PCCページ58は、アクセスを得るためにプレミアの支払を必要とする。支払が必要であるために、それらは、コマーシャル性質を有し、図1Aに示すように、コマーシャルページのサブセットであると考えられる。一方、PCCページは、一般に、情報を与えるもので、PCCページそれ自体に含まれた情報以外、商品及び/又はサービスの買取及び/又は販売を容易にするものではない。それ故、それらは、情報の性質を有し、図1Bに示すように、非コマーシャルページのサブセットと考えられる。
【0042】
コマーシャルページをフィルタリングしてそれらをコマーシャルカテゴリーに入れる更に別の実施形態は、一般に、図2に参照番号10で示されたステップを備えている。これらのステップは、各ページがスパムページであるかどうか決定し(12)、各ページのクオリティスコアを決定し(14)、各ページのトランザクションレーティングを決定し(16)、伝播マトリクスを導出し(18)、各ページのコマーシャルスコアを決定し(20)、スレッシュホールド値を満足するか又はそれを越えるコマーシャルスコアをもつ全てのページ(スパム含有コマーシャルページ)をフィルタリングし(22)、スパム含有コマーシャルページからスパムページをフィルタリングし(24)、そしてコマーシャルページをコマーシャルカテゴリーに入れる(26)。
【0043】
1つの実施形態において、ページがスパムページであるかどうかの決定は、各ページに対するスパムスコアσ(wi)を計算し、そしてそのスパムスコアが、そのスパムスコアに指定されたスレッシュホールド値に合致するか又はそれを越えるか決定することを含む。スパムスコアスレッシュホールド値に合致するか又はそれを越えるページは、スパムページである。スパムスコアの決定は、人間がスコアを指定する既知の技術と、参考としてここに取り上げる次の論文、即ち「The Classification of Search Engine Spam」と題するebrandmanagement.comによる白書;及び「Search Engine Spamming」と題するダニー・サリバン著の論文に示された自動化技術とを使用して、達成することができる。上記両論文は、「Proceedings of Search Engine Strategies」、2002年3月4−5、マサチューセッツ州ボストン、ダニー・サリバン編集に見られる。又、これらの方法及び同様の機械学習技術を、以下に述べる式(12)の初期ベクトルであるタウ(τ)の計算に適用することができる。
【0044】
クオリティスコアq(wi)は、ページのクオリティの尺度であるスカラー値である。1つの実施形態では、ページのクオリティスコアの決定は、基準の選択グループに対してページのサブセットを評価することを含む。ページのクオリティを判断する基準は、コンテンツのクオリティ、著者又は情報ソースの評判、ページの使い易さ、及び多数の他のこのような基準を含む。クオリティスコアは、人間が指定してもよいし又は自動的に決定されてもよく、そして明確に評価されないページにはデフォールト値が指定されてもよい。
【0045】
トランザクションレーティングは、ページが、セール、リース、レンタル又はオークションのようなトランザクションを容易にするかどうか又はいかに強力に容易にするかを表わすスカラー値である。1つの実施形態では、各ページに対するトランザクションレーティングを決定するステップは、図3に参照番号16で一般的に示されている。トランザクションレーティングは、トランザクションスコアから決定される。トランザクションスコアは、各ページが指定の基準セットに合致するかどうか又はいかに強力に合致するかを示すベクトルである。
【0046】
それ故、第1ステップは、ページ及び/又はページのURLが選択基準に合致するかどうか決定することである(32)。ページがトランザクションの性質であるかどうか最終的に決定するために検査することのできる多数の特性がページにある。これらの基準は、ページが次のものを含むかどうか決定することを含む。即ち、クレジットカード情報を入力するフィールド;PayPal(登録商標)又はBidPay(登録商標)のようなオンライン支払システムのためのユーザ名及び/又はパスワードのためのフィールド;「セールスオフィス」、「セールス代表者」、「更なる情報についてのコール」又は他のトランザクション向けフレーズについて識別される電話番号;「ここをクリックして購入する」、「One−Click(登録商標)購入」、又は同様のフレーズのテキスト、「your shopping cart contains」又は「has been added to your cart」のようなテキスト、及び/又は会話追跡のために使用される1ピクセルGIFのようなタグを伴うリンク又はボタン。テキストの合致は、ユニコード又はASCIIキャラクタセットにおける一連のキャラクタのようなテキストストリング上で生じるか、或いは像においてレンダリングされるテキストの光学的キャラクタ認識、又はhttp(ハイパーテキスト転送プロトコル)要求に応答して与えられる音声記録におけるスピーチ認識から導出されるテキスト上で生じる。基準は、いかなる組合せで使用することもでき、そして個々の基準を使用しても使用しなくてもよい。更に、これらの基準は、一例に過ぎず、余すところのないリストを構成するものではない。
【0047】
各ページに対し、そのページが、選択された基準にいかに強力に合致するか決定しなければならない(ブロック34)。ページが、ある基準に合致するかどうか決定し(32)、そしてそれがいかに強力にその基準に合致するか決定する(34)ために種々の技術が存在する。例えば、各ページは、人間の編集者により検査され、基準に関して評価され、ブール値又は重み値のいずれかが指定される。しかしながら、これは、非常に低速な主観的プロセスである。非常に高速な自動化技術は、ストリングの一致、像の一致又はストリング長さの一致及び/又はデータエントリーフィールド形式(ニューメリック又はアルファニューメリックのような)の一致を自動的にチェック又はカウントし、そして言語モデルを使用してログ見込み(log-likelihood)スコアを指定することを含む。言語モデルは、例えば、1999年、ジェネクの「Statistical Methods for Speech Recognition」に示されたn−グラムワード遷移モデルを含む。これらの方法は、ブール数又は重み値を指定することができる。
【0048】
各ページ及び/又はそのURLが選択基準に合致するかどうか決定し(32)、そしてそのページ及び/又はそのURLが選択基準にいかに強力に合致するか決定する(34)ことにより得られた結果を使用して、トランザクションスコアが決定される(35)。各ページに対するトランザクションスコアの決定(35)は、ブロック32及び34の結果から各々ベクトルαk(wi)又はベクトルβk(wi)を形成することを含む。各ページ「wi」に対してこれらベクトルの1つが形成され、ここで、インデックス「i」は、特定のページを表わし、そしてインデックス「k」は、ページを評価する特定の基準を表わす。ベクトル「n」(1≦j≦n)におけるエレメントの数は、使用する基準の数により決定され、そしてベクトルの数は、ページ数「m」により決定される。トランザクションスコアαn(wi)は、ブール値のベクトルであり、所与の基準に対する「0」は、その基準に合致しない(偽である)ことを示し、そして所与の基準に対する選択された整数「p」は、その基準に合致する(真である)ことを示す。トランザクションスコアベクトルβn(wi)は、α(wi)と同じ数のエレメントを有する。しかしながら、βn(wi)のエレメントは、ある範囲の実数を含むことができ、その各数は、ページが基準にいかに強力に合致するかを示す。例えば、βn(wi)は、「0」と「1」との間の実数を含み(いかなる範囲の実数を含むこともできるが)、ここで、「0」は、基準に全く合致しないことを示し、そして「1」は、基準に完全に合致することを示す。「0」と「1」との間の実数は、基準に合致する種々の程度を表わす。
【0049】
トランザクションスコアαkn(wi)及びβkn(wi)は、各ページのトランザクションレーティングτ(wi)に対する別々の値を決定するのに使用される。
【数11】
Figure 0003905498
或いは
【数12】
Figure 0003905498
【0050】
トランザクションレーティングτ(wi)は、ベクトルαn(wi)又はベクトルβn(wi)のいずれかのρノルマであるスカラー値である。「n」は、各サイトwiを評価するのに使用される基準の数である。一般に、ρ=2であり、単一の重み付けされた基準が他より優勢になることはない。しかしながら、ρは、もし必要であれば、最も優勢な基準に大きな重みを与えるように変更できる。式(1)又は(2)のいずれかを使用して、トランザクションレーティングを決定してもよい。式(2)は、個々の基準が合致する程度を反映する。
【0051】
伝播マトリクスを導出するステップが図4に参照番号18で一般的に示されている。これらステップは、ハイパーリンク接続性マトリクスを形成し(42)、遷移カウント及びページビューを計算し(44)、そして伝播マトリクスを形成する(46)ことを含む。ハイパーリンク接続性マトリクスは、インターネット、ワールドワイドウェブ又は任意の1組のハイパードキュメントのリンク構造と、各ページの相対的重要度又は関連性とを表わすものである。この実施形態では、各ページの相対的な重要度は、各ページwiから各ページwjへ及び各ページwjから各ページwiへのリンクの数を検査することにより決定される。これらのリンクは、ハイパーリンク接続性マトリクスで表わされる。ハイパーリンク接続性マトリクス「C」は、「m」行「m」列である。行及び列の数「m」は、ページ数に等しく、ここで、特定の行はインデックス「i」で指示され、そして特定の列は列「j」で指示される。このマトリクスの各エレメントCijは、ページwiが別のページwjにリンクされる場合及びその場合にのみ値「1」を含み、さもなければ、「0」を含む。
【0052】
次いで、ハイパーリンク接続性マトリクスは、2つのスカラー値、即ち各ページwiに対するオーソリティスコアai及びハブスコアhiを計算するのに使用される。一般に、ハブとは、多数の出て行くリンクを伴うページであり、そしてオーソリティとは、多数の到来するリンクを伴うページである。ハブ及びオーソリティスコアは、ページがいかに厳しく基準として働くか又はそれ自身を基準とするかを反映する。ハブ及びオーソリティスコアの値は、各々、次のように決定される。
【数13】
Figure 0003905498
【数14】
Figure 0003905498
【0053】
伝播マトリクスを決定する次のステップは、遷移カウント及びページビューを決定することである(ブロック44)。ある実施形態では、各遷移カウントTi,jは、ユーザがページwiを何回見たかそして別のページwjを直接(介在するページを見ずに)何回見たかに関してインターネットにおけるユーザの実際の行動を表わす。全ての遷移カウントがマトリクス形態で表わされ、Ti,jは、各個々の遷移カウントを表わす。ページビューは、ページが見られた回数を表わし、これは、遷移カウントに関連している。
【数15】
Figure 0003905498
【0054】
次いで、ハイパーリンク接続性マトリクス、ハブスコア、オーソリティスコア、遷移カウント及びページビューの全てを使用して、伝播マトリクスが形成される(ブロック46)。伝播マトリクスPは、次の式を用いて形成される。
【数16】
Figure 0003905498
【0055】
関数F(hi)、G(ai)及びH(vi)は、ハブスコア、オーソリティスコア及びページビューに重みを与える。これらの関数F(hi)、G(ai)及びH(vi)は、各々、負でない整数hi、ai及びviの単調に増加するスカラー関数である。これら関数の各々は、ステップ関数のような重み付け関数に対応する。例えば、
(7) F(0)=0;
(8) F(hi)=F’、 1≦Σhi≦xの場合;及び
(9) F(hi)=F”、 Σhi>xの場合。
但し、F’>F”である。これは、ハブスコアがスレッシュホールド値「x」より低くて、データが充分累積されないことを指示する場合に、ハブスコアに低い重要度を与える。G(ai)及びH(vi)も、同様に決定される。しかしながら、G(ai)のスレッシュホールド値は、aiの値「y」であり、そしてH(vi)のスレッシュホールド値は、viの値「z」である。
【0056】
関数f(Ci,j,hi)、g(Ci,j,ai)及びh(Ti,j,vi)は、リンク及び遷移の貢献を表わす。各関数は、その分母がゼロであるときを除き、引数の重み付けされた商である。例えば、f(Ci,j):
【数17】
Figure 0003905498
(11) f(Ci,j,0)=0
関数g(Ci,j,ai)及びh(Ti,j,vi)も同様に決定される。
【0057】
図1に示すように、各ページがコマーシャルであるかどうか決定する次の段階は、各ページに対してコマーシャルスコアを決定する。この決定は、伝播マトリクスP及びトランザクションレーティングτ(wi)を含むだけでなく、スパムスコアσ(wi)及びクオリティスコアq(wi)も含む。トランザクションレーティングτ(wi)及びスパムスコアσ(wi)は、異なるコンポーネントの重みを決定する。コマーシャルスコアは、各ページwiに対して次のように反復式に決定される。
【数18】
Figure 0003905498
【数19】
Figure 0003905498
(14) κ=κ’(t’)
【0058】
但し、κ’(0)は、トランザクションレーティングτ(wi)、スパムスコアσ(wi)及びクオリティスコアq(wi)の重み付けされた平均である。A及びBは、各々、τ(wi)及びq(wi)に与えられる重みを決定する重み付けファクタである。A及びBは、サーチエンジンプロバイダー又はクリエーターにより選択することができる。ベクトルκ’(t)は、検査された各ページwiに対してエレメントκ’i(t)を有する。ηは、伝播マトリクスの重みであり、サーチエンジンプロバイダー又はクリエーターによりセットすることもできる。ηは、伝播マトリクスが初期の繰り返しにおいてコマーシャルスコアに影響する程度を決定する。記号「t」は、1でスタートして各繰り返しに1だけ増加する増加整数を示す。各繰り返しは、全てのwiに影響を及ぼす潜在性を有する。繰り返しは、所定の繰り返し数「t」だけ続くか、又はコマーシャルスコアの値にほとんど変化がなくなるまで続く。
【数20】
Figure 0003905498
ρは、ノルマレベルであり、そしてΔは、コマーシャルスコア変化値である。2回のその後の繰り返しから得られた値の差がコマーシャルスコア変化値に等しいか又はそれより小さい場合には、繰り返しが停止されそしてコマーシャルスコアが得られる(22)。
【0059】
コマーシャルスコアがコマーシャルスコアスレッシュホールド値以上である全てのページは、フィルタリングされ、スパム含有コマーシャルページを含む(22)。スパムページは、コマーシャルページのサブセットであるとしばしば考えられるが、スパム含有ページからフィルタリングされて(24)、コマーシャルページを生成する。というのは、スパムページは、一般的に、望ましくないからである。次いで、コマーシャルページは、コマーシャルカテゴリーに入れられる(26)。コマーシャルページ及びスパムページがページからフィルタリングされると、残りのページが非コマーシャルカテゴリーに入れられる。非コマーシャルカテゴリーは、PCCページも含む。
【0060】
別の実施形態では、ページは、上述したように、コマーシャル及び非コマーシャルカテゴリーに分類されるが、スパムページは、個別のカテゴリーに分離されない。むしろ、スパムページは、そのページに指定された基礎となるコマーシャルスコア及び各指定カテゴリーのスレッシュホールドスコアに基づいてコマーシャルページ又は非コマーシャルページとして分類される。スパムページは理論的にコマーシャル又は非コマーシャルであり、そしてスパムページを含むことは、あるユーザ及び/又はあるアプリケーションでは有用であるから、この実施形態は、スパムページを識別しそしてフィルタリングするステップを含まない。スパムページの識別及びフィルタリングを除去することにより、この実施形態は、既存のサーチエンジンにモジュール式に適合する。というのは、多数の既存のサーチエンジンには、スパムページを識別して排除するためのそれ自身のシステムが設けられているからである。更に別の実施形態では、スパムページは、コマーシャルカテゴリーから除去されない。というのは、スパムページは、例えば、パーフォーマンスサーチエンジンに対する支払のためのセールスリードとしての潜在値を有するからである。
【0061】
別の実施形態では、結果ページのカテゴリー分けは、ユーザ(消費者、サイトプロバイダー及び広告主を含む)により又はユーザに対してカスタマイズされてもよい。プロセスの第1段階では、ユーザは、システムのユーザインターフェイスを経てカテゴリー分けの好みを入力し、次いで、希望のカテゴリーに到達するまでそれらの選択を精製することにより、カテゴリー分けの好みを定義する。カテゴリーそれ自体と、結果ページをいかにカテゴリー分けするかの両方をカスタマイズすることができる。システムは、結果ページを、上述した方法を使用してユーザにより指定されたカテゴリーに分類するようにカスタマイズすることができる。所与の結果ページがどのカテゴリーに分類されるかは、次のいずれかを単独で又は組み合わせて選択することにより決定できる。即ち、PCCページがいかにカテゴリー分けされるか、スレッシュホールドレベル、ρノルマレベル、式(12)におけるパラメータA及びB、コマーシャルスコアを計算するための繰り返し数t’、コマーシャルスコア変化値Δ、どの結果ページがコマーシャルページ又はPPCページかを決定するのに使用される基準、各基準にどれほど大きな重みを与えるか、トランザクションスコアを決定するのに使用される基準、並びにトランザクションレーティングを決定するのに使用されるトランザクションスコア方程式(カテゴリー分け基準)。
【0062】
カテゴリー分け基準は、全て、ユーザの好みを満足するために種々のやり方で結果ページをカテゴリー分けしてプレゼンテーションするよう選択できる。一般に、カテゴリー分け基準は、予め選択されたページをシステムに手動でシーディングし、予め選択されたページが分類されたカテゴリーを検査し、次いで、所望のカテゴリーに達するまでシステムを同調するようにカテゴリー分け基準を調整することにより、経験的に選択できる。例えば、図5Aに200で示すように、ユーザは、置かれるべきカテゴリーをユーザが知っている予め選択されたページを、システムに手動でシード(供給)する(210)。次いで、ユーザは、ページを分類すべきカテゴリーと、その分類された結果を表示すべきフォーマットとに関してユーザの好みを入力する(212)。次いで、ユーザは、カテゴリー分け基準をセットする(214)。次いで、システムは、結果を分類し、そしてその分類された結果をユーザにプレゼンテーションする(216)。次いで、ユーザは、システムが、予め選択されたページを所望のカテゴリーに分類したかどうか決定する(218)。予め選択されたページが所望のカテゴリーに分類されない場合には、カテゴリー分け基準の1つ又は組合せを変更してシステムにセットする(214)。ステップ214、216及び218は、所望のカテゴリー分けが達成されるまで繰り返される。
【0063】
ステップ212において、ユーザは、分類された結果をいかに表示するかについて好みをセットすることができる。結果ページをカテゴリー分けすることにより得られた結果は、種々の方法で表示することができる。例えば、ユーザは、キーワードサーチに一致する結果ページのみをカテゴリー分けしてプレゼンテーションするか、又は例えば、ポルノグラフや借金救済広告のような特定形式又はカテゴリーのページを常に除外することを指定することができる。それに加えて、又はそれとは別に、ユーザは、あるカテゴリーに含まれた分類されたページを、そのカテゴリーによって表示するか、或いは特定のカテゴリーのみを表示し他のカテゴリーは表示しないことを含む種々の方法で見ることができる。それに加えて、又はそれとは別に、ユーザは、分類されたページを表示すべき順序を指定することもできる。例えば、分類されたページは、好ましいカテゴリーが最初に現れるようにカテゴリーで表示することができる。それに加えて、又はそれとは別に、トランザクションスコア、トランザクションレーティング、ハイパーリンク接続マトリクス、伝播マトリクス、トランザクションオーソリティ及びハブスコア、コマーシャル、スパム及びクオリティスコアのような中間値も表示できる。それに加えて、又はそれとは別に、ユーザは、アンカーテキスト又はリンクを検査することも要求できる。アンカーテキストがキーワードを含む場合には、任意の数のキーワードを含むページに、いずれのキーワードも含まないリンクよりも高い重み付けが与えられる。或いは又、多数のキーワードを含みリンクに、少数のキーワードをもつリンクより高い重み付けを与えることができる。分類されたページの表示をカスタマイズすることは、既知の表示及びプレゼンテーション技術を使用して達成される。
【0064】
ユーザがカテゴリー、カテゴリー分け基準及び表示の好みを指定すると、サーチ250を実行することができる。図6に示すように、サーチ250は、ユーザが、ユーザインターフェイスを使用してサーチ項又はフレーズをシステムに入力したときに始まる(260)。次いで、システムは、サーチ項又はフレーズに一致するキーワード(1つ又は複数)を含む結果ページ(サーチ結果)を返送することを含む種々の既知の関連方法のいずれかに基づいて結果ページを発生する(262)。次いで、システムは、ユーザにより指定されたカテゴリー分け基準を満足するように、ユーザにより指定されたカテゴリーにサーチ結果を分類する(264)。次いで、システムは、その分類されたページを、ユーザのプレゼンテーションの好みに基づいてプレゼンテーションする(266)。
【0065】
更に別の実施形態では、コマーシャルページを使用してセールスリードが発生される。コマーシャルページのURLを使用して、コマーシャルページのホストである会社の連絡先情報をドメイン名レジストリーから得ることができる。会社及び連絡先情報のリストをコンパイルして、セールスリードのリストを開発することができる。図7に示すように、結果ページをカテゴリー分けするシステム270は、一般に、次のステップ、即ち(a)各結果ページが非コマーシャル性質であると仮定し(272)、(b)コマーシャル性質のページを第1カテゴリーへと識別及びフィルタリングし(274)、(c)既存の広告主クライアントページを第1カテゴリーのページから識別及びフィルタリングし(276)、(d)残りのページ(リードページ)に対する連絡先情報を収集し(278)、そして(e)リードページ及びそれに関連した連絡先情報を、例えば、パーフォーマンスサーチエンジンプロバイダー又は他の関心のある当事者に対する支払へのセールスリードとして与える(280)というステップを含む。
【0066】
別の実施形態では、参考としてここに取り上げる米国特許第6,269,361号に開示された技術を使用して、広告主に、それらのリスティングをあるカテゴリーに含ませるか又はそこから除外するために支払する機会が与えられる。広告主により支払われる料金は、選択カテゴリーにおいてそれらのリスティングがどれほど目立つかに基づく。更に別の実施形態では、料金が支払われたページのみがコマーシャル(又は他の指定の)カテゴリーに現れる。ある実施形態では、分散型データベースにおいて記録又は記録のサーチ結果をカテゴリー分けしてプレゼンテーションするためのカスタマイズ可能なシステムは、上記米国特許第6,269,361号に開示された形式のようなデータベースサーチ装置に関連した口座管理サーバー又はサーチエンジンサーバーとして構成される。ここに説明しそして図1ないし8に示された機能は、適当なやり方で実施できる。
【0067】
1つの実施形態は、ここに述べる機能を遂行するようにサーバー又は他の計算装置のプロセッサを制御するコンピュータ読み取り可能なソース又はオブジェクトコードである。コンピュータ読み取り可能なコードは、コンピュータ読み取り可能な信号保持媒体を含む品目として実施される。ある実施形態では、この媒体は、コンピュータのフロッピーディスク又はハードディスクドライブ或いは不揮発性の半導体メモリのような記録可能なデータ記憶媒体である。別の実施形態では、媒体は、インターネットのようなネットワークを経て読み取られるデータのような変調された搬送波信号である。媒体は、ページがトランザクションであるかどうか決定するための媒体の手段と、ページに対する伝播マトリクスを導出するための媒体の手段と、ページに対する伝播マトリクスの関数としてコマーシャルスコアを定義するための媒体の手段とを備えている。種々の手段は、コンピュータソースコード、コンピュータ読み取り可能なオブジェクトコード、又はここに述べる機能を実行するように処理装置を制御するための他の適当な装置として実施できる。
【0068】
本発明の別の実施形態は、図8に示すように、分散型クライアント−サーバーアーキテクチャー上で分散型データベースにおいて記録又は記録のサーチ結果をカテゴリー分けしてプレゼンテーションする装置を構成する。図8に示されたこのサーチエンジン及びデータベース100は、一般に、計算装置110、114、118、120と、メモリデバイス112及び116と、サーバー124と、インターフェイス122とを備えている。計算装置110、114、118、120は、計算を実行できるプロセッサを含む。クローラー110は、ネットワークを経てインターネットに接続されて、各ページへ進み、そしてテキスト、映像、音声、ビデオ又は静止映像であるかどうかに関わらず静的及び/又は動的コンテンツを含むページ(結果ページ)のコピーを作成し、そしてそのコピーをインターネットキャッシュ112に記憶する計算装置である。或いは又、URL及び/又はタイトルのような各結果ページの個々の数の部分だけがコピーされて、インターネットキャッシュ112に記憶されてもよい。次いで、インデクサー114が、各結果ページのコピー又はその一部分に、インターネットキャッシュ112におけるアドレス(インターネットキャッシュアドレス)を指定する。又、このインデクサーは、各結果ページに対してサーチ項を発生し、それらサーチ項を関連インターネットキャッシュアドレスと共にインターネットインデックス116に記憶する。インターネットキャッシュ及びインターネットインデックスは、インターネットの現在規模では、約30テラバイト及び5テラバイトを各々使用する。
【0069】
トランザクションスコアジェネレータ118は、インターネットキャッシュ112に記憶された各結果ページ(又はその一部分)のコピーに含まれた情報を使用して、トランザクションスコアを発生する。これらのトランザクションスコアは、それに関連した結果インターネットページと共にインターネットキャッシュ112に記憶される。カテゴリーアサイナー120は、インターネットキャッシュ112に記憶されたトランザクションスコア及び他の情報を使用して、伝播マトリクスを発生しそして各結果ページにカテゴリーを指定する。各ページに対するトランザクションスコア、コマーシャルスコア、クオリティスコア、スパムスコア及びカテゴリーは、その関連ページと共にインターネットキャッシュ112に記憶される。カスタマイズ可能なスレッシュホールド値p、ノルマパラメータp、コマーシャルスコア変化値Δ等は、当業者によく知られたように、システムのクライアント側又はサーバー側に記憶される。サーチサーバー124は、インターネットインデックス116及びインターネットキャッシュ112に接続され、システムのユーザインターフェイス122を経てユーザに装置を接続できるようにする。システムのユーザインターフェイス122は、ブラウザであってもよいし、エージェント又はアプリケーションソフトウェアであってもよい。
【0070】
インターネットをサーチしたいユーザは、システムユーザインターフェイス122を使用して、インターネットを経てサーチサーバー124に接続する。システムユーザインターフェイス122がブラウザである場合には、それがインターネットを経てサーチサーバー124へユーザサーチ要求を送信する。或いは又、ユーザインターフェイス122がエージェントソフトウェアである場合には、そのエージェントがインターネットを経て自動化サーチ要求を送信する。更に、ユーザインターフェイス122は、ブラウザ及びエージェントソフトウェアの両方を備えていて、インターネットを経てサーチサーバー124へ自動化サーチ要求を送信してもよい。サーチサーバー124は、次いで、インターネットインデックス116を使用して、どの結果ページにユーザのサーチ項が関連しているか決定する。これらの結果ページは、次いで、インターネットキャッシュ112から検索され、そしてユーザにより指定されたやり方でユーザインターフェイス122を経てユーザへプレゼンテーションされる。
【0071】
以上の説明から、ここに開示した実施形態は、分散型データベースの選択エレメントをカテゴリー分けしてプレゼンテーションする方法及び装置を提供することが明らかであろう。更に別の効果は、サーチ結果のカスタマイズ可能なカテゴリー分けを許すサーチエンジン及びデータベースを広告主、サーチサービスプロバイダー及びユーザに提供すると共に、サーチ結果の希望のカテゴリー(1つ又は複数)のみが返送又は表示されるようにサーチ結果をフィルタリングする方法及び装置を提供することである。
【0072】
ここに開示した実施形態の更に別の効果は、カテゴリー又は基準に基づきサーチ結果をサーチ及び/又は表示するようにサーチをカスタマイズする方法をユーザ、広告主、サーチサイトプロバイダー及びサーチエンジンプロバイダーに提供すると共に、広告主の製品及び/又はサービスを他のリンクのどれと共にカテゴリー分けして表示するかを制御する方法を広告主に提供することである。更に、ここに示す実施形態は、サイトの性質を識別する方法を提供し、サーチ結果をカテゴリー分けすることのできるサーチエンジンを提供し、そしてユーザ及び広告主によりカスタマイズできるサーチエンジンを提供することを開示した。
【0073】
以上、特定の実施形態及びアプリケーションについて本発明を説明したが、当業者であれば、この開示に鑑み、本発明の範囲を越えたりその精神から逸脱したりせずに、付加的な実施形態もなし得るであろう。例えば、ここに開示したシステム及び方法は、インターネットを経てアクセスされるデータベースに適用されるだけでなく、いかなる分散型データベースにも適用できる。更に、ページ又は文書を分けるカテゴリー、及びそれらを分けるのに使用される基準は、種々様々なものがある。従って、添付図面及び上記説明は、本発明の理解を容易にするためのもので、本発明の範囲を限定するものではないことを理解されたい。
【図面の簡単な説明】
【図1A】本発明の一実施形態に基づくページ分類のブロック図である。
【図1B】本発明の別の実施形態に基づくページ分類のブロック図である。
【図2】本発明の実施形態に基づきページがコマーシャルページであるかどうか決定するためのシステムのフローチャートである。
【図3】本発明の実施形態に基づきページに対するトランザクションレーティングを決定するためのシステムのフローチャートである。
【図4】本発明の実施形態に基づき伝播マトリクスを形成するためのシステムのフローチャートである。
【図5】本発明の実施形態に基づきサーチ結果のカスタマイズされたカテゴリー分けを行うシステムのフローチャートである。
【図6】本発明の実施形態に基づきカスタマイズされたサーチ結果を与えそしてカスタマイズされたサーチ結果をプレゼンテーションするシステムのフローチャートである。
【図7】本発明の実施形態に基づきパーフォーマンスサーチエンジンセールススタッフに対する支払についてのセールスリードの収集を自動化するシステムのフローチャートである。
【図8】本発明の実施形態に基づきサーチ結果をカテゴリー分けしそして表示するための装置を示す図である。

Claims (18)

  1. 結果ページをカテゴリーに分類し、第1のカテゴリーをコマーシャルページとしてそして第2のカテゴリーを情報ページとして指定する方法において、
    サーバまたは他の計算装置のプロセッサにより各結果ページに対しクオリティスコアq(wi)を決定し、前記クオリティスコアは、コンテンツのクオリティ、著者またはソースの評判、および使い易さのいずれかの組合せを含み、クオリティスコアq(wi)を決定する上記段階が、結果ページのサブセットを選択基準グループに対して評価すること、および上記結果ページのサブセットに含まれない結果ページにはデフォールト値を指定することを含み、
    サーバまたは他の計算装置のプロセッサにより各結果ページに対しトランザクションレーティングτ(wi)を決定し、前記トランザクションレーティングは、結果のページがトランザクションを容易にするかどうか又はいかに強力に容易にするかを表し、トランザクションレーティングτ(wi)を決定する上記段階が、
    各結果ページが選択基準に合致するかどうか決定し、
    各結果ページが選択基準にいかに強力に合致するか決定し、
    各ページに対するトランザクションスコアを決定し、そして
    そのトランザクションスコアから各ページに対するトランザクションレーティングを決定することを含み、
    各ページに対するトランザクションスコアを決定する上記段階は、各結果ページに対するベクトルαk(wi)を形成することを含み、各ベクトルは、複数のエレメントαk n (wi)を含み、そしてそれら複数のエレメントαk n (wi)の各々は、各結果ページが各選択基準にいかに強力に合致するかを反映するブール値であり、各ページに対するトランザクションスコアを決定する上記段階は、更に各結果ページに対するベクトルβk(wi)を形成することを含み、各ベクトルは、複数のエレメントβk n (wi)を含み、そしてそれら複数のエレメントβk n (wi)の各々は、各結果ページが各選択基準にいかに強力に合致するかを反映する重み付け値であり、
    各結果ページから他の結果ページへのリンクの数、および各結果ページを見たユーザが他の結果ページを直接何回見たかに依存して、伝播マトリクスPをサーバまたは他の計算装置のプロセッサにより導出し、
    サーバまたは他の計算装置のプロセッサにより各結果ページに対しコマーシャルスコアκを決定し、前記コマーシャルスコアは、前記トランザクションレーティングと前記クオリティスコアとを含むコマーシャルスコア初期値と、前記伝播マトリックスとの間の繰り返し演算によって決定され、
    サーバまたは他の計算装置のプロセッサによりコマーシャルスコアのスレッシュホールド値に合致するか又はそれを越える全ての結果ページをフィルタリングする、
    という段階を備え、コマーシャルページのスレッシュホールド値に合致するか又はそれを越える結果ページは、上記第1カテゴリーに入れ、そして残りの全ての結果ページは、第2カテゴリーに入れるようにした方法。
  2. 各結果ページが選択基準にいかに強力に合致するか決定する上記段階は、各結果ページを選択基準に関して評価し、そして各結果ページが各選択基準にいかに強力に合致するかを各々反映するブール値又は重み付け値を各結果ページに指定することを含む請求項1に記載の結果ページをカテゴリーに分類する方法。
  3. トランザクションスコアから各ページに対するトランザクションレーティングτ(wi)を決定する上記段階は、トランザクションレーティングτ(wi)と各結果ページに対するベクトルαk(wi)のρノルマとの間の関係を評価することを含み、この関係は、
    Figure 0003905498
    により定義される請求項1に記載の結果ページをカテゴリーに分類する方法。
  4. ρ=2である請求項3に記載の結果ページをカテゴリーに分類する方法。
  5. トランザクションスコアから各ページに対するトランザクションレーティングτ(wi)を決定する上記段階は、トランザクションレーティングτ(wi)と各結果ページに対するベクトルβk(wi)のρノルマとの間の関係を評価することを含み、この関係は、
    Figure 0003905498
    により定義される請求項1に記載の結果ページをカテゴリーに分類する方法。
  6. ρ=2である請求項5に記載の結果ページをカテゴリーに分類する方法。
  7. 伝播マトリクスを導出する上記段階は、
    エレメントCi,jを含むハイパーリンク接続性マトリクスCを形成し、
    複数のオーソリティスコアai及び複数のハブスコアhiを計算し、
    各結果ページに対して複数の遷移カウントTi,j及び複数のページビューviを計算し、そして
    伝播マトリクスエレメントPi,jを含む伝播マトリクスPを形成する、
    という段階を含む請求項1に記載の結果ページをカテゴリーに分類する方法。
  8. ハイパーリンク接続性マトリクスCを形成する上記の段階は、インターネットのリンク構造をマトリクスで表わすことを含む請求項7に記載の結果ページをカテゴリーに分類する方法。
  9. インターネットのリンク構造は、各結果ページから各結果ページへのリンクの数を検査することによって表わされる請求項8に記載の結果ページをカテゴリーに分類する方法。
  10. 上記複数のハブスコアhi及び複数のオーソリティスコアは、ハイパーリンク接続性マトリクスCに関係し、そして上記複数のオーソリティスコアaiは、
    Figure 0003905498
    として定義され、そして上記複数のハブスコアは、
    Figure 0003905498
    として定義される請求項7に記載の結果ページをカテゴリーに分類する方法。
  11. 上記複数のページビューviは、上記複数の遷移カウントTi,jに関係し、そして
    Figure 0003905498
    により定義される請求項7に記載の結果ページをカテゴリーに分類する方法。
  12. 上記伝播マトリクスは、ハイパーリンク接続性マトリクス、複数のハブスコア、複数のオーソリティスコア、複数の遷移カウント及び複数のページビューの関数である請求項11に記載の結果ページをカテゴリーに分類する方法。
  13. 伝播マトリクスを計算する上記段階は、複数のハブスコア、複数のオーソリティスコア及び複数のページビューを重み付けすることを含む請求項11に記載の結果ページをカテゴリーに分類する方法。
  14. 上記伝播マトリクスPは、重み付け関数F(hi)、G(ai)及びH(vi)の更なる関数であり、そして上記伝播マトリクスPは、
    Figure 0003905498
    として定義される請求項11に記載の結果ページをカテゴリーに分類する方法。
  15. 上記重み付け関数の各々は、ステップ関数より成る請求項14に記載の結果ページをカテゴリーに分類する方法。
  16. 各結果ページwiに対する上記コマーシャルスコアκは、反復式に決定される請求項15に記載の結果ページをカテゴリーに分類する方法。
  17. 上記コマーシャルスコアκは、伝播マトリクスの転置PT、伝播マトリクスの重みη及びコマーシャルスコアの初期値κ'(0)、並びにコマーシャルスコアの以前の繰り返しκ'(t)からt回の繰り返しにわたって反復式に決定され、但し、κ'(0)は、選択量A及びBにより重み付けされ、そして次のように定義され、
    Figure 0003905498
    そしてκ'(t)は、次のように定義され、
    Figure 0003905498
    ここで、κ=κ'(t')である請求項16に記載の結果ページをカテゴリーに分類する方法。
  18. 第3のカテゴリーをスパムページとして指定し、そして各結果ページに対してスパムスコアσ(wi)を決定する段階を更に備え、
    各結果ページに対してコマーシャルスコアκを決定する上記段階は、伝播マトリクスの転置PT、伝播マトリクスの重みη及びコマーシャルスコアの初期値κ'(0)、並びにコマーシャルスコアの以前の繰り返しκ'(t)から、t回の繰り返しにわたって反復式に決定され、但し、κ'(0)は、選択量A及びBにより重み付けされ、そして次のように定義され、
    Figure 0003905498
    そしてκ'(t)は、次のように定義され、
    Figure 0003905498
    ここで、κ=κ'(t')である請求項16に記載の結果ページをカテゴリーに分類する方法。
JP2003183555A 2002-05-24 2003-05-23 分散型データベースの文書をカテゴリー分けしてプレゼンテーションする方法及び装置 Expired - Fee Related JP3905498B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/155,290 US7231395B2 (en) 2002-05-24 2002-05-24 Method and apparatus for categorizing and presenting documents of a distributed database

Publications (2)

Publication Number Publication Date
JP2004164578A JP2004164578A (ja) 2004-06-10
JP3905498B2 true JP3905498B2 (ja) 2007-04-18

Family

ID=22554828

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003183555A Expired - Fee Related JP3905498B2 (ja) 2002-05-24 2003-05-23 分散型データベースの文書をカテゴリー分けしてプレゼンテーションする方法及び装置

Country Status (10)

Country Link
US (2) US7231395B2 (ja)
EP (1) EP1367509A3 (ja)
JP (1) JP3905498B2 (ja)
KR (1) KR100852034B1 (ja)
CN (1) CN100517304C (ja)
AU (1) AU2003204327B2 (ja)
CA (1) CA2429338C (ja)
DE (1) DE10323444A1 (ja)
FR (1) FR2840088B1 (ja)
GB (1) GB2389682A (ja)

Families Citing this family (167)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6269361B1 (en) * 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US6754873B1 (en) * 1999-09-20 2004-06-22 Google Inc. Techniques for finding related hyperlinked documents using link-based analysis
US6625595B1 (en) * 2000-07-05 2003-09-23 Bellsouth Intellectual Property Corporation Method and system for selectively presenting database results in an information retrieval system
US8209246B2 (en) 2001-03-20 2012-06-26 Goldman, Sachs & Co. Proprietary risk management clearinghouse
US8121937B2 (en) 2001-03-20 2012-02-21 Goldman Sachs & Co. Gaming industry risk management clearinghouse
US8140415B2 (en) * 2001-03-20 2012-03-20 Goldman Sachs & Co. Automated global risk management
US7899722B1 (en) * 2001-03-20 2011-03-01 Goldman Sachs & Co. Correspondent bank registry
US20030101191A1 (en) * 2001-11-28 2003-05-29 Yu-Chwin Lin Publication of commercial entity information and method for classifying commercial entity information
US20110264508A1 (en) * 2002-03-29 2011-10-27 Harik George R Scoring, modifying scores of, and/or filtering advertisements using advertiser information
US7231395B2 (en) * 2002-05-24 2007-06-12 Overture Services, Inc. Method and apparatus for categorizing and presenting documents of a distributed database
US8260786B2 (en) * 2002-05-24 2012-09-04 Yahoo! Inc. Method and apparatus for categorizing and presenting documents of a distributed database
US20040049514A1 (en) * 2002-09-11 2004-03-11 Sergei Burkov System and method of searching data utilizing automatic categorization
US7461051B2 (en) * 2002-11-11 2008-12-02 Transparensee Systems, Inc. Search method and system and system using the same
US7373300B1 (en) 2002-12-18 2008-05-13 At&T Corp. System and method of providing a spoken dialog interface to a website
US8065151B1 (en) * 2002-12-18 2011-11-22 At&T Intellectual Property Ii, L.P. System and method of automatically building dialog services by exploiting the content and structure of websites
EP1584013A4 (en) * 2002-12-20 2007-09-19 Shailen V Banker RELATED INFORMATION SYSTEM
US7111000B2 (en) * 2003-01-06 2006-09-19 Microsoft Corporation Retrieval of structured documents
US7792828B2 (en) 2003-06-25 2010-09-07 Jericho Systems Corporation Method and system for selecting content items to be presented to a viewer
US7206780B2 (en) * 2003-06-27 2007-04-17 Sbc Knowledge Ventures, L.P. Relevance value for each category of a particular search result in the ranked list is estimated based on its rank and actual relevance values
US20050125290A1 (en) * 2003-08-01 2005-06-09 Gil Beyda Audience targeting system with profile synchronization
US9928522B2 (en) 2003-08-01 2018-03-27 Oath (Americas) Inc. Audience matching network with performance factoring and revenue allocation
US8464290B2 (en) 2003-08-01 2013-06-11 Tacoda, Inc. Network for matching an audience with deliverable content
US9118812B2 (en) 2003-08-01 2015-08-25 Advertising.Com Llc Audience server
US7805332B2 (en) * 2003-08-01 2010-09-28 AOL, Inc. System and method for segmenting and targeting audience members
US8150732B2 (en) * 2003-08-01 2012-04-03 Tacoda Llc Audience targeting system with segment management
US9117217B2 (en) * 2003-08-01 2015-08-25 Advertising.Com Llc Audience targeting with universal profile synchronization
US8554601B1 (en) 2003-08-22 2013-10-08 Amazon Technologies, Inc. Managing content based on reputation
US8046350B1 (en) * 2003-09-24 2011-10-25 Google Inc. Systems and methods for detecting commercial queries
US7783637B2 (en) 2003-09-30 2010-08-24 Microsoft Corporation Label system-translation of text and multi-language support at runtime and design
US7617205B2 (en) 2005-03-30 2009-11-10 Google Inc. Estimating confidence for query revision models
US7715059B2 (en) * 2003-10-22 2010-05-11 International Business Machines Corporation Facsimile system, method and program product with junk fax disposal
US7814101B2 (en) * 2003-10-30 2010-10-12 Microsoft Corporation Term database extension for label system
US7873536B2 (en) * 2003-12-11 2011-01-18 Google Inc. Systems and methods for providing advertisements in a communications network
CN100495392C (zh) * 2003-12-29 2009-06-03 西安迪戈科技有限责任公司 一种智能搜索方法
US8392249B2 (en) * 2003-12-31 2013-03-05 Google Inc. Suggesting and/or providing targeting criteria for advertisements
US7693825B2 (en) * 2004-03-31 2010-04-06 Google Inc. Systems and methods for ranking implicit search results
US7664734B2 (en) * 2004-03-31 2010-02-16 Google Inc. Systems and methods for generating multiple implicit search queries
US8631001B2 (en) * 2004-03-31 2014-01-14 Google Inc. Systems and methods for weighting a search query result
US7707142B1 (en) * 2004-03-31 2010-04-27 Google Inc. Methods and systems for performing an offline search
US20080040315A1 (en) * 2004-03-31 2008-02-14 Auerbach David B Systems and methods for generating a user interface
US7272601B1 (en) * 2004-03-31 2007-09-18 Google Inc. Systems and methods for associating a keyword with a user interface area
US8041713B2 (en) * 2004-03-31 2011-10-18 Google Inc. Systems and methods for analyzing boilerplate
US9009153B2 (en) 2004-03-31 2015-04-14 Google Inc. Systems and methods for identifying a named entity
US7386572B2 (en) * 2004-04-14 2008-06-10 Nancy Kramer System and method for a modular user controlled search engine
US9223868B2 (en) 2004-06-28 2015-12-29 Google Inc. Deriving and using interaction profiles
US8131754B1 (en) 2004-06-30 2012-03-06 Google Inc. Systems and methods for determining an article association measure
US7788274B1 (en) 2004-06-30 2010-08-31 Google Inc. Systems and methods for category-based search
US8442953B2 (en) 2004-07-02 2013-05-14 Goldman, Sachs & Co. Method, system, apparatus, program code and means for determining a redundancy of information
US8762191B2 (en) 2004-07-02 2014-06-24 Goldman, Sachs & Co. Systems, methods, apparatus, and schema for storing, managing and retrieving information
US8510300B2 (en) 2004-07-02 2013-08-13 Goldman, Sachs & Co. Systems and methods for managing information associated with legal, compliance and regulatory risk
US8996481B2 (en) 2004-07-02 2015-03-31 Goldman, Sach & Co. Method, system, apparatus, program code and means for identifying and extracting information
JP2006048536A (ja) * 2004-08-06 2006-02-16 Canon Inc 情報処理装置、文書検索方法、ならびにプログラム、記憶媒体
US8799079B2 (en) * 2004-10-22 2014-08-05 Adknowledge, Inc. System for prioritizing advertiser communications over a network
US20060095322A1 (en) * 2004-11-03 2006-05-04 Dierks Timothy M Determining prospective advertising hosts using data such as crawled documents and document access statistics
US7953725B2 (en) 2004-11-19 2011-05-31 International Business Machines Corporation Method, system, and storage medium for providing web information processing services
US20060149710A1 (en) 2004-12-30 2006-07-06 Ross Koningstein Associating features with entities, such as categories of web page documents, and/or weighting such features
US20060173822A1 (en) * 2005-02-03 2006-08-03 Microsoft Corporation System and method for optimization of results based on monetization intent
US7962510B2 (en) * 2005-02-11 2011-06-14 Microsoft Corporation Using content analysis to detect spam web pages
US7870147B2 (en) * 2005-03-29 2011-01-11 Google Inc. Query revision using known highly-ranked queries
US20060230009A1 (en) * 2005-04-12 2006-10-12 Mcneely Randall W System for the automatic categorization of documents
US7660792B2 (en) * 2005-04-29 2010-02-09 Microsoft Corporation System and method for spam identification
US7765481B2 (en) * 2005-05-03 2010-07-27 Mcafee, Inc. Indicating website reputations during an electronic commerce transaction
US9384345B2 (en) * 2005-05-03 2016-07-05 Mcafee, Inc. Providing alternative web content based on website reputation assessment
US8566726B2 (en) * 2005-05-03 2013-10-22 Mcafee, Inc. Indicating website reputations based on website handling of personal information
US7822620B2 (en) * 2005-05-03 2010-10-26 Mcafee, Inc. Determining website reputations using automatic testing
US20060253584A1 (en) * 2005-05-03 2006-11-09 Dixon Christopher J Reputation of an entity associated with a content item
US8438499B2 (en) 2005-05-03 2013-05-07 Mcafee, Inc. Indicating website reputations during user interactions
US7562304B2 (en) * 2005-05-03 2009-07-14 Mcafee, Inc. Indicating website reputations during website manipulation of user information
US20060253582A1 (en) * 2005-05-03 2006-11-09 Dixon Christopher J Indicating website reputations within search results
US7467146B2 (en) * 2005-05-05 2008-12-16 International Business Machines Corporation System, method and program product for determining whether a web page returned to a web browser is a redirected web page
US20060253423A1 (en) * 2005-05-07 2006-11-09 Mclane Mark Information retrieval system and method
US7996391B2 (en) * 2005-06-20 2011-08-09 Google Inc. Systems and methods for providing search results
US20070005564A1 (en) * 2005-06-29 2007-01-04 Mark Zehner Method and system for performing multi-dimensional searches
US7653617B2 (en) 2005-08-29 2010-01-26 Google Inc. Mobile sitemaps
US8161044B2 (en) * 2005-10-26 2012-04-17 International Business Machines Corporation Faceted web searches of user preferred categories throughout one or more taxonomies
US7917519B2 (en) * 2005-10-26 2011-03-29 Sizatola, Llc Categorized document bases
US7457801B2 (en) * 2005-11-14 2008-11-25 Microsoft Corporation Augmenting a training set for document categorization
US7890502B2 (en) * 2005-11-14 2011-02-15 Microsoft Corporation Hierarchy-based propagation of contribution of documents
IL172551A0 (en) * 2005-12-13 2006-04-10 Grois Dan Method for assigning one or more categorized scores to each document over a data network
US7529761B2 (en) * 2005-12-14 2009-05-05 Microsoft Corporation Two-dimensional conditional random fields for web extraction
US8572560B2 (en) * 2006-01-10 2013-10-29 International Business Machines Corporation Collaborative software development systems and methods providing automated programming assistance
US7933890B2 (en) * 2006-03-31 2011-04-26 Google Inc. Propagating useful information among related web pages, such as web pages of a website
US8701196B2 (en) 2006-03-31 2014-04-15 Mcafee, Inc. System, method and computer program product for obtaining a reputation associated with a file
US7831658B2 (en) * 2006-05-22 2010-11-09 Google Inc. Generating landing page variants
US7526486B2 (en) 2006-05-22 2009-04-28 Initiate Systems, Inc. Method and system for indexing information about entities with respect to hierarchies
US8682712B2 (en) * 2006-05-22 2014-03-25 Google Inc. Monitoring landing page experiments
US8332366B2 (en) 2006-06-02 2012-12-11 International Business Machines Corporation System and method for automatic weight generation for probabilistic matching
FR2902907B1 (fr) * 2006-06-21 2008-10-17 Gerald Poitevineau Procede de recherche d'informations sur un reseau intranet, extranet, internet ou toute autre source de diffusion d'informations numeriques et moteur de recherche pour la mise en oeuvre dudit procede
US8001130B2 (en) * 2006-07-25 2011-08-16 Microsoft Corporation Web object retrieval based on a language model
US7720830B2 (en) * 2006-07-31 2010-05-18 Microsoft Corporation Hierarchical conditional random fields for web extraction
US7921106B2 (en) * 2006-08-03 2011-04-05 Microsoft Corporation Group-by attribute value in search results
US7698268B1 (en) 2006-09-15 2010-04-13 Initiate Systems, Inc. Method and system for filtering false positives
US7685093B1 (en) 2006-09-15 2010-03-23 Initiate Systems, Inc. Method and system for comparing attributes such as business names
US8356009B2 (en) 2006-09-15 2013-01-15 International Business Machines Corporation Implementation defined segments for relational database systems
TWI337712B (en) * 2006-10-30 2011-02-21 Inst Information Industry Systems and methods for measuring behavior characteristics, and machine readable medium thereof
US7885952B2 (en) * 2006-12-20 2011-02-08 Microsoft Corporation Cloaking detection utilizing popularity and market value
US9092434B2 (en) * 2007-01-23 2015-07-28 Symantec Corporation Systems and methods for tagging emails by discussions
US8359339B2 (en) 2007-02-05 2013-01-22 International Business Machines Corporation Graphical user interface for configuration of an algorithm for the matching of data records
US20080222725A1 (en) * 2007-03-05 2008-09-11 Microsoft Corporation Graph structures and web spam detection
US8515926B2 (en) 2007-03-22 2013-08-20 International Business Machines Corporation Processing related data from information sources
WO2008121700A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for managing entities
WO2008121170A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for parsing languages
WO2008121824A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for data exchange among data sources
US8423514B2 (en) 2007-03-29 2013-04-16 International Business Machines Corporation Service provisioning
US7698261B1 (en) * 2007-03-30 2010-04-13 A9.Com, Inc. Dynamic selection and ordering of search categories based on relevancy information
US8768932B1 (en) * 2007-05-14 2014-07-01 Google Inc. Method and apparatus for ranking search results
US7831611B2 (en) 2007-09-28 2010-11-09 Mcafee, Inc. Automatically verifying that anti-phishing URL signatures do not fire on legitimate web sites
US8713434B2 (en) 2007-09-28 2014-04-29 International Business Machines Corporation Indexing, relating and managing information about entities
EP2193415A4 (en) 2007-09-28 2013-08-28 Ibm METHOD AND SYSTEM FOR ANALYZING A SYSTEM FOR THE ADJUSTMENT OF DATA SETS
EP2198374A4 (en) 2007-09-28 2013-07-17 Ibm METHOD AND SYSTEM FOR ASSOCIATING DATA SETS IN SEVERAL LANGUAGES
US8103676B2 (en) * 2007-10-11 2012-01-24 Google Inc. Classifying search results to determine page elements
US8296643B1 (en) 2007-10-18 2012-10-23 Google Inc. Running multiple web page experiments on a test page
US20090119276A1 (en) * 2007-11-01 2009-05-07 Antoine Sorel Neron Method and Internet-based Search Engine System for Storing, Sorting, and Displaying Search Results
US7877369B2 (en) * 2007-11-02 2011-01-25 Paglo Labs, Inc. Hosted searching of private local area network information
US7877368B2 (en) * 2007-11-02 2011-01-25 Paglo Labs, Inc. Hosted searching of private local area network information with support for add-on applications
TWI352934B (en) * 2007-11-27 2011-11-21 Inst Information Industry Advertisement selection systems and methods for in
NO20076159A (no) * 2007-11-29 2009-05-04 Fast Search & Transfer Asa Fremgangsmåte til forbedring av søkeeffektiviteten i et bedriftssøkesystem
US7991777B2 (en) 2007-12-03 2011-08-02 Microsoft International Holdings B.V. Method for improving search efficiency in enterprise search system
JP5309543B2 (ja) * 2007-12-06 2013-10-09 日本電気株式会社 情報検索サーバ、情報検索方法及びプログラム
US8402025B2 (en) * 2007-12-19 2013-03-19 Google Inc. Video quality measures
US7996390B2 (en) * 2008-02-15 2011-08-09 The University Of Utah Research Foundation Method and system for clustering identified forms
US8965865B2 (en) * 2008-02-15 2015-02-24 The University Of Utah Research Foundation Method and system for adaptive discovery of content on a network
US7895293B1 (en) 2008-02-25 2011-02-22 Google Inc. Web page experiments with fragmented section variations
US8010482B2 (en) * 2008-03-03 2011-08-30 Microsoft Corporation Locally computable spam detection features and robust pagerank
JP5020152B2 (ja) * 2008-04-10 2012-09-05 ヤフー株式会社 スパム宣言を利用したウェブページ検索装置、方法及びコンピュータ・プログラム
US8112404B2 (en) * 2008-05-08 2012-02-07 Microsoft Corporation Providing search results for mobile computing devices
US8625642B2 (en) 2008-05-23 2014-01-07 Solera Networks, Inc. Method and apparatus of network artifact indentification and extraction
US8521732B2 (en) * 2008-05-23 2013-08-27 Solera Networks, Inc. Presentation of an extracted artifact based on an indexing technique
US8527339B2 (en) 2008-06-26 2013-09-03 Microsoft Corporation Quality based pricing and ranking for online ads
US8793249B2 (en) * 2008-09-24 2014-07-29 Yahoo! Inc. Optimization filters for user generated content searches
US8494857B2 (en) 2009-01-06 2013-07-23 Regents Of The University Of Minnesota Automatic measurement of speech fluency
US8543569B2 (en) * 2009-01-13 2013-09-24 Infotrieve, Inc. System and method for the centralized management of a document ordering and delivery program
US8484200B2 (en) * 2009-01-13 2013-07-09 Infotrieve, Inc. System and method for the centralized management of a document ordering and delivery program
US8412749B2 (en) 2009-01-16 2013-04-02 Google Inc. Populating a structured presentation with new values
US8977645B2 (en) 2009-01-16 2015-03-10 Google Inc. Accessing a search interface in a structured presentation
US8615707B2 (en) 2009-01-16 2013-12-24 Google Inc. Adding new attributes to a structured presentation
US8452791B2 (en) 2009-01-16 2013-05-28 Google Inc. Adding new instances to a structured presentation
US8689117B1 (en) 2009-10-30 2014-04-01 Google Inc. Webpages with conditional content
EP2533163A4 (en) 2010-02-04 2015-04-15 Ebay Inc VISUALIZATION OF LISTS BASED ON LIST ACTIVITY
US9390139B1 (en) 2010-06-23 2016-07-12 Google Inc. Presentation of content items in view of commerciality
US20150242884A1 (en) * 2010-12-13 2015-08-27 David K. Goodman Cross-vertical publisher and advertiser reporting
US8849991B2 (en) 2010-12-15 2014-09-30 Blue Coat Systems, Inc. System and method for hypertext transfer protocol layered reconstruction
US9436437B2 (en) 2010-12-17 2016-09-06 Microsoft Technology Licensing, Llc Creation, editing and navigation of diagrams
US9384408B2 (en) 2011-01-12 2016-07-05 Yahoo! Inc. Image analysis system and method using image recognition and text search
US20120179544A1 (en) * 2011-01-12 2012-07-12 Everingham James R System and Method for Computer-Implemented Advertising Based on Search Query
US8909619B1 (en) 2011-02-03 2014-12-09 Google Inc. Providing search results tools
US8666985B2 (en) 2011-03-16 2014-03-04 Solera Networks, Inc. Hardware accelerated application-based pattern matching for real time classification and recording of network traffic
US8635519B2 (en) 2011-08-26 2014-01-21 Luminate, Inc. System and method for sharing content based on positional tagging
US20130086112A1 (en) 2011-10-03 2013-04-04 James R. Everingham Image browsing system and method for a digital content platform
US8737678B2 (en) 2011-10-05 2014-05-27 Luminate, Inc. Platform for providing interactive applications on a digital content platform
USD736224S1 (en) 2011-10-10 2015-08-11 Yahoo! Inc. Portion of a display screen with a graphical user interface
USD737290S1 (en) 2011-10-10 2015-08-25 Yahoo! Inc. Portion of a display screen with a graphical user interface
US8868536B1 (en) * 2012-01-04 2014-10-21 Google Inc. Real time map spam detection
US9576593B2 (en) 2012-03-15 2017-02-21 Regents Of The University Of Minnesota Automated verbal fluency assessment
US8255495B1 (en) 2012-03-22 2012-08-28 Luminate, Inc. Digital image and content display systems and methods
US8234168B1 (en) 2012-04-19 2012-07-31 Luminate, Inc. Image content and quality assurance system and method
US8495489B1 (en) 2012-05-16 2013-07-23 Luminate, Inc. System and method for creating and displaying image annotations
US10366401B1 (en) 2012-06-29 2019-07-30 Google Llc Content placement optimization
US20140122663A1 (en) * 2012-10-31 2014-05-01 Brown Paper Tickets Llc Overload protection based on web traffic volumes
CN104281560B (zh) * 2013-07-05 2020-06-30 腾讯科技(深圳)有限公司 一种记忆文本信息的显示方法、装置及终端
JP5882272B2 (ja) * 2013-08-30 2016-03-09 京セラドキュメントソリューションズ株式会社 資料評価プログラムおよび資料評価装置
CN104933570A (zh) * 2014-03-20 2015-09-23 阿里巴巴集团控股有限公司 用户侦测方法及装置
US10796321B1 (en) * 2014-08-05 2020-10-06 Groupon, Inc. Method and system for generating purchase recommendations based on purchase category associations
US10853317B2 (en) * 2015-08-07 2020-12-01 Adp, Llc Data normalizing system
GB2571686B (en) * 2016-11-28 2022-02-02 Cloudamize Inc System and method for analyzing and associating elements of a computer system by shared characteristics
WO2021163521A1 (en) * 2020-02-13 2021-08-19 Verity Platforms Inc. Information platform systems and methods
KR102244699B1 (ko) * 2020-06-15 2021-04-27 주식회사 크라우드웍스 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 문장 유사도를 이용한 감정 라벨링 방법

Family Cites Families (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4735A (en) * 1846-09-03 Improvement in separating oleic and stearic agios
US855008A (en) * 1906-03-21 1907-05-28 Homer G Kellogg Coin-controlled apparatus.
EP1235177A3 (en) 1993-12-16 2003-10-08 divine technology ventures Digital active advertising
US5623660A (en) * 1994-04-22 1997-04-22 Josephson; Jeffrey L. System for regulating access to data base for purposes of data base management
US5768521A (en) 1994-05-16 1998-06-16 Intel Corporation General purpose metering mechanism for distribution of electronic information
US5515488A (en) * 1994-08-30 1996-05-07 Xerox Corporation Method and apparatus for concurrent graphical visualization of a database search and its search history
US5826241A (en) 1994-09-16 1998-10-20 First Virtual Holdings Incorporated Computerized system for making payments and authenticating transactions over the internet
US5752238A (en) 1994-11-03 1998-05-12 Intel Corporation Consumer-driven electronic information pricing mechanism
US5717923A (en) 1994-11-03 1998-02-10 Intel Corporation Method and apparatus for dynamically customizing electronic information to individual end users
US5724521A (en) 1994-11-03 1998-03-03 Intel Corporation Method and apparatus for providing electronic advertisements to end users in a consumer best-fit pricing manner
US5659732A (en) 1995-05-17 1997-08-19 Infoseek Corporation Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents
US5704060A (en) 1995-05-22 1997-12-30 Del Monte; Michael G. Text storage and retrieval system and method
US5748954A (en) 1995-06-05 1998-05-05 Carnegie Mellon University Method for searching a queued and ranked constructed catalog of files stored on a network
US5742816A (en) 1995-09-15 1998-04-21 Infonautics Corporation Method and apparatus for identifying textual documents and multi-mediafiles corresponding to a search topic
US5794210A (en) 1995-12-11 1998-08-11 Cybergold, Inc. Attention brokerage
US5788367A (en) * 1995-12-13 1998-08-04 Jury Alexeevich Budaev Pneumatic vibrator
US5778367A (en) 1995-12-14 1998-07-07 Network Engineering Software, Inc. Automated on-line information service and directory, particularly for the world wide web
AU1522797A (en) 1995-12-15 1997-07-03 Softpages, Inc. (Delaware Corporation), The Method for computer aided advertisement
US5724524A (en) 1995-12-15 1998-03-03 Pitney Bowes, Inc. Method and system for listing, brokering, and exchanging carrier capacity
US5918014A (en) 1995-12-27 1999-06-29 Athenium, L.L.C. Automated collaborative filtering in world wide web advertising
US5826267A (en) * 1996-03-20 1998-10-20 Mcmillan; James Michael Web information kiosk
US5848397A (en) 1996-04-19 1998-12-08 Juno Online Services, L.P. Method and apparatus for scheduling the presentation of messages to computer users
JP3108015B2 (ja) 1996-05-22 2000-11-13 松下電器産業株式会社 ハイパーテキスト検索装置
US5920859A (en) 1997-02-05 1999-07-06 Idd Enterprises, L.P. Hypertext document retrieval system and method
US5864845A (en) 1996-06-28 1999-01-26 Siemens Corporate Research, Inc. Facilitating world wide web searches utilizing a multiple search engine query clustering fusion strategy
US5864846A (en) 1996-06-28 1999-01-26 Siemens Corporate Research, Inc. Method for facilitating world wide web searches utilizing a document distribution fusion strategy
US6457004B1 (en) * 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
US5862223A (en) 1996-07-24 1999-01-19 Walker Asset Management Limited Partnership Method and apparatus for a cryptographically-assisted commercial network system designed to facilitate and support expert-based commerce
US5852820A (en) 1996-08-09 1998-12-22 Digital Equipment Corporation Method for optimizing entries for searching an index
US5920854A (en) 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
US5788357A (en) 1996-08-28 1998-08-04 K. W. Muth Company, Inc. Mirror assembly
GB2331166B (en) 1997-11-06 2002-09-11 Ibm Database search engine
US5903882A (en) 1996-12-13 1999-05-11 Certco, Llc Reliance server for electronic transaction system
US5966126A (en) * 1996-12-23 1999-10-12 Szabo; Andrew J. Graphic user interface for database system
US6285999B1 (en) 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US6285987B1 (en) 1997-01-22 2001-09-04 Engage, Inc. Internet advertising system
US6041331A (en) * 1997-04-01 2000-03-21 Manning And Napier Information Services, Llc Automatic extraction and graphic visualization system and method
US5895470A (en) 1997-04-09 1999-04-20 Xerox Corporation System for categorizing documents in a linked collection of documents
US5930777A (en) 1997-04-15 1999-07-27 Barber; Timothy P. Method of charging for pay-per-access information over a network
US5933145A (en) * 1997-04-17 1999-08-03 Microsoft Corporation Method and system for visually indicating a selection query
US5886698A (en) * 1997-04-21 1999-03-23 Sony Corporation Method for filtering search results with a graphical squeegee
US5924090A (en) 1997-05-01 1999-07-13 Northern Light Technology Llc Method and apparatus for searching a database of records
US6012053A (en) * 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
US6014664A (en) 1997-08-29 2000-01-11 International Business Machines Corporation Method and apparatus for incorporating weights into data combinational rules
US6389436B1 (en) 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
US6028605A (en) 1998-02-03 2000-02-22 Documentum, Inc. Multi-dimensional analysis of objects by manipulating discovered semantic properties
US6073135A (en) 1998-03-10 2000-06-06 Alta Vista Company Connectivity server for locating linkage information between Web pages
US6421675B1 (en) 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US6038574A (en) * 1998-03-18 2000-03-14 Xerox Corporation Method and apparatus for clustering a collection of linked documents using co-citation analysis
JP3696731B2 (ja) 1998-04-30 2005-09-21 株式会社日立製作所 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US6356898B2 (en) 1998-08-31 2002-03-12 International Business Machines Corporation Method and system for summarizing topics of documents browsed by a user
US6078866A (en) 1998-09-14 2000-06-20 Searchup, Inc. Internet site searching and listing service based on monetary ranking of site listings
US6385602B1 (en) 1998-11-03 2002-05-07 E-Centives, Inc. Presentation of search results using dynamic categorization
AU2604100A (en) 1999-01-08 2000-07-24 Micro-Integration Corporation Search engine database and interface
US6907566B1 (en) 1999-04-02 2005-06-14 Overture Services, Inc. Method and system for optimum placement of advertisements on a webpage
US6836768B1 (en) * 1999-04-27 2004-12-28 Surfnotes Method and apparatus for improved information representation
EP1212699A4 (en) 1999-05-05 2006-01-11 West Publishing Co SYSTEM, METHOD AND SOFTWARE FOR CLASSIFYING DOCUMENTS
US6269361B1 (en) 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US6606657B1 (en) * 1999-06-22 2003-08-12 Comverse, Ltd. System and method for processing and presenting internet usage information
US6353825B1 (en) 1999-07-30 2002-03-05 Verizon Laboratories Inc. Method and device for classification using iterative information retrieval techniques
US6665665B1 (en) * 1999-07-30 2003-12-16 Verizon Laboratories Inc. Compressed document surrogates
US6775665B1 (en) * 1999-09-30 2004-08-10 Ricoh Co., Ltd. System for treating saved queries as searchable documents in a document management system
JP2001134616A (ja) 1999-10-25 2001-05-18 Nec Corp 特定の話題に関するウェブ情報の構成方法とその構成システム
US6785671B1 (en) * 1999-12-08 2004-08-31 Amazon.Com, Inc. System and method for locating web-based product offerings
EP1240605A4 (en) 1999-12-08 2006-09-27 Amazon Com Inc SYSTEM AND METHOD FOR LOCATING AND PRESENTING OFFERS OF ACCESSIBLE PRODUCTS ON THE INTERNET
EP1120722A3 (en) 2000-01-13 2004-01-14 Applied Psychology Research Limited Method and apparatus for generating categorization data
US20020004735A1 (en) 2000-01-18 2002-01-10 William Gross System and method for ranking items
US20040230461A1 (en) 2000-03-30 2004-11-18 Talib Iqbal A. Methods and systems for enabling efficient retrieval of data from data collections
KR20010102687A (ko) 2000-05-04 2001-11-16 정만원 카테고리 학습 기법을 이용한 주제별 웹 문서 자동 분류방법 및 시스템
US6721721B1 (en) * 2000-06-15 2004-04-13 International Business Machines Corporation Virus checking and reporting for computer database search results
DE10029644B4 (de) 2000-06-16 2008-02-07 Deutsche Telekom Ag Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine
US6826594B1 (en) * 2000-07-15 2004-11-30 Commission Junction Method and system for remote content management of a designated portion of a web page
WO2002007010A1 (en) 2000-07-17 2002-01-24 Asymmetry, Inc. System and method for storage and processing of business information
US6654743B1 (en) * 2000-11-13 2003-11-25 Xerox Corporation Robust clustering of web documents
US20020077998A1 (en) * 2000-12-08 2002-06-20 Brian Andrews Web based system and method for managing sales deals
US6594670B1 (en) * 2000-12-22 2003-07-15 Mathias Genser System and method for organizing search criteria match results
US6694307B2 (en) * 2001-03-07 2004-02-17 Netvention System for collecting specific information from several sources of unstructured digitized data
US20020169770A1 (en) * 2001-04-27 2002-11-14 Kim Brian Seong-Gon Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents
US6965900B2 (en) * 2001-12-19 2005-11-15 X-Labs Holdings, Llc Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
US7231395B2 (en) * 2002-05-24 2007-06-12 Overture Services, Inc. Method and apparatus for categorizing and presenting documents of a distributed database
US20040103073A1 (en) * 2002-11-21 2004-05-27 Blake M. Brian System for and method of using component-based development and web tools to support a distributed data management system

Also Published As

Publication number Publication date
KR20030091751A (ko) 2003-12-03
US7792818B2 (en) 2010-09-07
CN1462005A (zh) 2003-12-17
EP1367509A3 (en) 2005-08-31
DE10323444A1 (de) 2003-12-11
US20060265400A1 (en) 2006-11-23
FR2840088A1 (fr) 2003-11-28
CA2429338C (en) 2007-01-16
CN100517304C (zh) 2009-07-22
CA2429338A1 (en) 2003-11-24
US7231395B2 (en) 2007-06-12
GB2389682A (en) 2003-12-17
EP1367509A2 (en) 2003-12-03
GB0311975D0 (en) 2003-06-25
KR100852034B1 (ko) 2008-08-13
US20030220912A1 (en) 2003-11-27
AU2003204327B2 (en) 2006-12-21
JP2004164578A (ja) 2004-06-10
AU2003204327A1 (en) 2003-12-11
FR2840088B1 (fr) 2008-05-16

Similar Documents

Publication Publication Date Title
JP3905498B2 (ja) 分散型データベースの文書をカテゴリー分けしてプレゼンテーションする方法及び装置
US8260786B2 (en) Method and apparatus for categorizing and presenting documents of a distributed database
US9430471B2 (en) Personalization engine for assigning a value index to a user
US7451135B2 (en) System and method for retrieving and displaying information relating to electronic documents available from an informational network
US7668821B1 (en) Recommendations based on item tagging activities of users
US8170916B1 (en) Related-item tag suggestions
US8751430B2 (en) Methods and system of filtering irrelevant items from search and match operations using emotional codes
US8086504B1 (en) Tag suggestions based on item metadata
KR20080024245A (ko) 검색에서의 키워드의 값을 결정하는 데이터베이스 검색시스템 및 방법
US8046237B1 (en) Method, medium, and system for tag forum interaction in response to a tag score reaching a threshold value
EP2384476A1 (en) Personalization engine for building a user profile
Neumann Recommender systems for information providers: designing customer centric paths to information
EP1259895A2 (en) Dynamic targeting with experimentation over a network
AU2007201222A1 (en) Method and apparatus for categorizing and presenting documents of a distributed database
Wan The impact of Web-based product comparison agent on choice overload in online individual decision-making
Sharma et al. ChatterCrop: Reaping the benefits of online product reviews
Sinalkar et al. E-Commerce Product Recommendations by Analyzing Customer Personality
Sen et al. Web query reformulation by knowledgeable agents
Liu et al. The Effectiveness of Online Sponsored Search from Search Users’ Perspective

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070111

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100119

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100119

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110119

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110119

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120119

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130119

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130119

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees