JP2012523626A - ドメイン状態、目的、およびカテゴリ - Google Patents

ドメイン状態、目的、およびカテゴリ Download PDF

Info

Publication number
JP2012523626A
JP2012523626A JP2012504817A JP2012504817A JP2012523626A JP 2012523626 A JP2012523626 A JP 2012523626A JP 2012504817 A JP2012504817 A JP 2012504817A JP 2012504817 A JP2012504817 A JP 2012504817A JP 2012523626 A JP2012523626 A JP 2012523626A
Authority
JP
Japan
Prior art keywords
page
domain
content
state
identifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012504817A
Other languages
English (en)
Inventor
レオナルド・オレンタス
マーク・コスターズ
デイヴ・モストン
カーシック・シャムサンダー
スリニヴァス・スンカラ
エドゥアルド・ヒメネス
ファニ・パッタプ
アレックス・ホームズ
アンドリュー・シンプソン
Original Assignee
ベリサイン・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US12/428,208 external-priority patent/US9292612B2/en
Application filed by ベリサイン・インコーポレイテッド filed Critical ベリサイン・インコーポレイテッド
Publication of JP2012523626A publication Critical patent/JP2012523626A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)

Abstract

ドメインプロファイルを作成および使用するためのシステムおよび方法は、ドメインに関連する第1のページの状態を識別することを含む。第1のページが読出され、このドメインからの追加のページが第1のページからのハイパーリンクに基づいて識別される。追加のページの状態が識別され、状態および/または既定のデータとの比較に基づいて、ハイパーリンクが優先順位化される。第1のページ、および追加のページの中から選択されたページから、コンテンツが抽出される。特定の追加のページが、優先順位化に基づいて選択されてもよい。読出されたコンテンツは、文脈的一致を判断するように、シグネチャマーカセットを介して処理することができる。該ドメインの目的が、第1のページの状態、追加のページの状態、およびコンテンツの処理の結果に従って判断される。ドメインプロファイルは、関心対象のウェブサイトまたは属性を識別するように、表示、記憶、および/または検索することができる。

Description

本発明は、ドメイン状態、目的、およびカテゴリに関する。
インターネットにおいてアクティブなウェブサイトの数が増大するにつれ、利用可能なコンテンツの組織化および評価に対する需要が増加している。検索エンジンにより、個々のユーザが利用可能な情報を見つけ、アクセスすることが容易になってきている。典型的な検索エンジンは、ユーザの検索語に基づいて、関連するコンテンツを識別することに助力するアルゴリズムを含み得る。これらには、例えば、ウェブトラフィックに基づいて、要求されたコンテンツを含む特定のページの表面的人気を考慮することが含まれ得る。しかしながら、典型的に、ウェブサイトからコンテンツをダウンロードし、それをインデックス化し、次いで、ユーザが、ダウンロードされたコンテンツに基づいて検索することを可能にする、従来のサービスの能力には限界がある。
インターネットが本質的に組織化される方法を理解することは、インターネットを介してアクセス可能である情報のすべての範囲を効率的に利用することに関する課題を理解する上で役立ち得る。ドメインネームシステム(DNS)は、ヒトが読み取り可能なドメイン名を、インターネット上でのTCP/IP通信を確立するために必要とされるインターネットプロトコル(IP)番号に翻訳する、インターネット基盤の一部である。即ち、DNSによって、ユーザは、インターネットでコンピュータに割り当てられる「123.4.56.78」のような数字のIPアドレスではなく、「www.example.com」のような覚えやすいドメイン名を使用して、ウェブサイトおよび他のリソースを参照することが可能になる。各ドメイン名は、ドットによって区切られる一連の文字列(ラベル)から構成される。ドメイン名の右端のラベルは、「トップレベルドメイン」(TLD)として知られる。公知のTLDの例には、「.com」、「.net」、「.org」等がある。各TLDは、例えば、「www.example.com」の「example」レベルといった、TLDのすぐ左に列記される、セカンドレベルドメインをサポートする。各セカンドレベルドメインは、例えば、「www.example.com」の「www」レベルといった、セカンドレベルドメインのすぐ左にあるいくつかのサードレベルドメインを含むことができる。追加のレベルドメインも、事実上、無制限に存在することができる。例えば、追加のドメインレベルを含むドメインは、「www.photos.example.com」であり得る。
例えば、単一のサーバといった、単一のIPアドレスが、多数のドメイン名をサポートすることができることに留意されたい。即ち、異なるドメイン名を、同一のサーバに解決し、次いで、要求されたドメイン名および/または追加の非ドメイン情報に基づいて、どのコンテンツを提供するかを判断することができる。これは、仮想ホストと称されることもある。
追加の非ドメイン情報が、ドメイン名を含む、ユニフォームリソース識別子(「URI」)構造に含まれてもよい。例えば、「パス」部分は、フォワードスラッシュ(「/」)によって区切られる一連のセグメント(概念的にはディレクトリに類似しているが、必ずしもそれらを表しているわけではない)である。この情報は、「www.example.com/blog」の「blog」といった、ドメイン名のすぐ右に含まれ得、サーバまたは他の受信デバイスによって使用され、特定のコンテンツを識別および配信するか、特定のコードを実行することができる。非ドメイン情報の他の例としては、クエリおよびフラグメントが挙げられるが、これらの詳細は、当業者によって理解されるものであり、本明細書において詳述しない。この情報の組み合わせは、ユーザを同一のページの別の部分へ、または同一もしくは異なるドメインの一部である場合もある別のウェブページへナビゲートするウェブページハイパーリンクに含まれてもよい。
関連するドメイン名、およびコンテンツは、各々異なる重要性を有する、「www.example.com」、「www.blog.example.com」、「www.example.com/blog」、または「blog.example.com」等といった、階層状もしくはネスト状に組織化することができる。かかる関連するドメインは、種々のドメイン名が解決される実際のIPアドレスにおいて類似性を共有する必要はない。この点において、ドメイン名の一部は、所望される特定のサーバを示し、例えば、「mail.example.com」および「www.example.com」は、同一のセカンドレベルドメインに対して異なる機能を有する異なるサーバに解決することができる。
各TLDの操作(TLD内におけるセカンドレベルドメインのレジストリの維持を含む)に対する責任は、ドメイン名レジストリ(「レジストリ」)として知られる、特定の組織に委譲される。レジストリは、主に、大規模なデータベースにおいてかかる情報を維持するDNSサーバを介して、ドメイン名をIPアドレスに変換(「解決」)することと、そのトップレベルドメインを操作することとを担う。
本主題は、ドメインに関連するコンテンツのアクセス性、および有意味性を改善する上で、利益を提供することができる。系統的に認識されているドメイン特性を考慮することにより、ユーザは、ドメインの属性で検索することができ、より幅広い用途においては、DNSサーバおよびウェブサイトを介して、公的に利用可能であり得る情報を使用して、ドメインのウェブサイトに関して、プロファイルを構築することができる。本明細書において使用する際、ドメイン特性には、ウェブページの一部であるデータコンテンツ、ウェブページにリンクするデータコンテンツ、ウェブページのDNS解決サポートアーキテクチャの一部であるデータコンテンツ等が挙げられるが、これらに限定されない。したがって、ドメイン名を考慮すると、ドメイン名に基づく拡張検索に基づいて、ウェブサイトの属性および特徴といった関連情報を提供することができる。また、関連情報は、ドメインおよび/またはドメインのコンテンツを説明する属性に基づいて、改善された検索結果を提供することができる。これらのプロファイルから、一般に、個々のユーザ、事業活動、およびウェブコンテンツサポートサービスの効率性および生産性を改善するためにも用いることができる、インターネットで利用可能なコンテンツのサブセットの改善された分析を行うことができる。
本発明の実施形態は、ドメインを分析するためのシステムおよび方法に関する。実施形態は、ドメインに関連する第1のページの状態を識別することを含むことができる。状態を識別することは、第1のページのドメイン名の解決を試行することと、ドメイン名の解決に失敗した場合、ドメインの状態を非機能的であるとして識別することと、を含むことができる。ドメイン名は解決されるが、コンテンツがアクセス可能ではない場合、その状態は、アクセス不可能であるとして識別されてもよい。
第1のページがアクセス可能である場合、第1のページのコンテンツを読出することができる。次いで、第1のページからのハイパーリンクに基づいて、そのドメインの複数の追加のページを識別することができる。次いで、第1のページの状態と同様に、追加のページの状態を、識別することができる。即ち、追加のページの状態を識別することは、第1の追加のページのドメイン名またはネットワークアドレスの解決を試行することを含むことができ、ドメイン名またはネットワークアドレスの解決に失敗した場合、第1の追加のページの状態を、非機能的であるとして識別することができる。ドメイン名は解決されるが、コンテンツがアクセス可能ではない場合、第1の追加のページの状態を、アクセス不可能であるとして識別することができ、他のページに関してもその他諸々であり得る。
さらに、ハイパーリンクを、状態および/または既定のデータとの比較に基づいて、優先順位化することができる。例えば、URI内の文字列は、重要性が特に高いまたは低いとして既定されてもよい。したがって、かかる文字列を含むハイパーリンクは、適宜優先順位化することができる。コンテンツは、第1のページ、および複数の追加のページのうちの選択されたページから抽出されてもよい。コンテンツは、本明細書に記載されるドメイン特性のすべての範囲を含むことができる。追加のページの中からの特定のページの選択は、それらの優先順位化に基づいてもよい。
コンテンツの中の文脈的一致を判断するための、一組の既定のデータまたは生成されたデータによって、第1のページおよび追加のページのコンテンツを処理することができる。既定のデータまたは生成されたデータは、シグネチャマーカセットと称される。シグネチャマーカセットは、既知の要素を何らかの他の対象に相関させる、データの表であるとして理解されたい。例えば、既知の用語は、その用語がドメイン名のサンプリングにおいて出現する頻度に関連してもよい。その用語のドメインの頻度に対する、あるページで見つけられる用語との比較が、シグネチャマーカセットによってその用語を処理する上での第1のステップであってもよい。実施形態において、これは、ドメインの頻度が低い用語に焦点を当てることによって、より正確にドメインプロファイルを判断するのに役立つことができ、これは、ドメインの頻度が高い用語よりも弁別的であり得る。また、シグネチャマーカセットは、潜在的な用語の曖昧性を低減するための技術を使用することができる。例えば、コンテンツは、複数のデータコンテンツの既知の関連を表す既定のデータに対して、比較されてもよい。これは、既知のテキストの関連、既知のデータタイプの関連、およびドメイン特性に含まれる同様のデータの種々の組み合わせを含むことができる。したがって、第1のオブジェクトの重要性は、ドメイン特性における第2の関連するオブジェクトの識別によって、より正確に判断されてもよい。上に示すとおり、ドメイン特性は、ウェブページ自体からのデータもしくはウェブページ自体にリンクされるデータ、またはIPアドレスもしくはURLといったDNS情報を含むことができる。
文脈的一致、第1のページの状態、および追加のページの状態に基づいて、ドメインの目的を判断することができる。実施形態は、コンテンツが、第1のページまたは追加のページに埋め込まれた実行可能なコードを含むことと、シグネチャマーカセットが、実行可能なコード内の文脈的一致を判断するように構成されることとを含むことができる。また、実施形態は、コンテンツが、第1のページまたは追加のページに埋め込まれた画像、ビデオ、および音声情報を含むことと、シグネチャマーカセットが、画像、ビデオ、および音声情報内の文脈的一致を判断するように構成されることとを含むことができる。
一度判断されると、ドメイン目的は、ドメインの判断された目的を検索、表示、記憶、および/または送信することを含む、多くの異なる方法で使用することができる。実施形態は、ドメインの判断された状態および目的に基づいて、関連するドメインを識別および読出することを含むことができる。
実施形態は、コンテンツにおける、判断されたドメイン名、レジストラリセラーマーカ、特定のデータタイプの不存在、ページの代替の発行元、ソーシャルコミュニティ識別子、およびデータタイプのうちの少なくとも1つに基づいて、ドメインの目的を判断することを含むことができる。
また、実施形態は、1つ以上のドメインの目的に基づいて、それらを識別することを含むことができる。次いで、識別されたドメインのあるカテゴリは、ドメインのそれぞれの目的とは異なることを判断される可能性もある。次いで、ドメインの判断された目的およびカテゴリに基づいて、関連するドメインを識別および読出することができる。
実施形態は、ウェブページのhttpsバージョンへのリダイレクトをトラバースすることによって、第1のページからのハイパーリンクを追跡することを含むことができる。
また、実施形態は、ユーザからドメインの入力セットを受信することと、文脈的に一致したコンテンツの中から入力ドメインで共通する属性を識別することと、識別された属性をユーザに出力することと、を含むことができる。
実施形態は、ユーザから目的および/またはカテゴリの入力セットを受信することと、目的および/またはカテゴリの入力セットに対応するドメインを識別することと、識別されたドメインをユーザに出力することと、を含むことができる。
実施形態は、記載される方法を、多様なドメインにおいて反復的に実施することと、関連するドメイン空間の歴史的分析の結果をコンパイルすることと、を含むことができる。
また、本発明の実施形態は、記載される方法を実行するためのシステム、ならびに記載される方法をコンピュータに実行させるための命令でコード化された、コンピュータで読み取り可能な記憶媒体を含むことができる。例えば、プロセッサ、メモリ、および電子通信デバイスを含む、電子システムが、ドメインに関連する第1のページの状態を識別し、電子通信デバイスを介して第1のページを読出し、第1のページからのハイパーリンクに基づいて、ドメインから複数の追加のページを識別し、電子通信デバイスを介して、追加のページの状態を識別し、既定のデータとの比較に基づいて、ハイパーリンクを優先順位化し、電子通信デバイスを介して、第1のページ、および複数の追加のページのうちの少なくとも1つのページからコンテンツを抽出し(複数の追加のページの少なくとも1つのページは、優先順位化に基づいて選択される)、シグネチャマーカセットを介してコンテンツを処理して文脈的一致を判断し、第1のページの状態、追加のページの状態、およびコンテンツの処理の結果に従って、ドメインの目的を判断し、ドメインの判断された目的の表示、記憶、および送信のうちの少なくとも1つを行うように、構成されてもよい。
本主題のさらなる利点は、以下の好ましい実施形態の詳細な説明を一読および理解すれば、当業者には明白となろう。
本発明の実施形態に係る、例示的なシステムを図示する。 本発明の実施形態に係る、例示的な方法を図示する。 本発明の実施形態に係る、例示的なウェブページ、および関連するコンテンツを図示する。 本発明の実施形態に係る、例示的な層状のデータ解決を図示する。 本発明の実施形態に係る、例示的なプロセスフローを図示する。 本発明の実施形態に係る、例示的な方法の態様を描写する。
本発明の実施形態は、ユーザ、ウェブコンテンツプロバイダ、および/またはレジストリが、どのようにドメイン名が目的化されるかを理解するのに役立つことができる。産業分野によるオンライン活動の全体論的視野を構築して、オンライン環境の理解を向上し、他のマイクロ分析ツールを補完することができる。したがって、本明細書に記載するシステムおよび方法は、ドメインサイトを目的としたデータを提供することができる結果を生成することができる。
ドメイン名を考慮すると、記載されるシステムおよび方法は、ドメイン名を介してアクセス可能なウェブサイトに関する属性/特徴を導出することができる。また、このサービスは、ユーザが、ドメインまたはドメイン上のコンテンツを説明するいくつかの属性を含み得る基準に基づいて、ドメインを検索することを可能にすることができる。実施形態は、公的に利用可能なDNSサーバに含まれる情報、および公的に利用可能なウェブサイトで利用可能なコンテンツを使用して、ドメインのウェブサイトに関するプロファイルを作成することができる。
実施形態は、例えば、図1に描写されるように、層状に、ドメインに関連する異なるタイプのデータを収集および提供することができる。実施形態は、ウェブページのロードを試行することによって、ドメイン状態を判断することができ、かつ、ウェブサイトからテキストデータまたは他のデータを収集し、それをシグネチャマーカセットを介して渡すことによって、ドメイン目的およびドメインカテゴリを判断することができる。
本システムおよび方法は、ドメインのウェブサイトについて、以下の例示的な属性に関する情報の収集を試行する。ドメイン状態、ドメイン目的、ドメインカテゴリ、ドメイントラフィック、ドメインキー用語、ドメインプロパティ/特性/機能、およびドメインコンテンツ。これらの属性は、以下でさらに説明する。記載されるデータ収集および分析により、本発明の実施形態はまた、.comおよび.net TLDといったTLDの改善されたディレクトリ、ならびにウェブサイトホスティングのためのそれらの使用の概要を提供することができる。例えば、TLD内のドメインのすべてまたはサブセットに対するドメインプロファイルを判断することによって、個々のウェブページコンテンツに従って判断および適用されるカテゴリではなく、ドメイン空間に存在するパターンに従って、関連するドメインを分類する、改善されたディレクトリを作成することができる。これは、種々のレベルのインターネットアーキテクチャおよびサービスを管理する上で、これまでに認識されていない利点を提供することができる。例えば、個々のウェブページのみではなく、ドメインの状態、目的、およびカテゴリを判断することによって、個々のユーザ、コンテンツプロバイダ、およびレジストリは、よりコンテンツの関連性を理解し、マーケティングに直接関連するパターン、およびインターネットの種々の用途の他の重要な態様を認識することができる。
以下の例示的な方法は、図2および3を参照して説明する。図2に描写されるように、本方法は、ステップS1000から開始することができ、ここで、第1のページの状態が判断される。ドメイン状態は、概して、ドメインが解決されるかどうか、およびどのようにされるかということに関する。例えば、ドメインに関連するウェブサーバがあるかどうかということと、ある場合には、ウェブサーバに接触できるかどうかということとを判断することができる。さらなる情報には、何らかの明確に識別されたウェブサーバエラーがあるかどうかということが含まれてもよい。例えば、ドメイン名は、DNSサーバに入力および送信され、ドメイン名の解決を試行する。ドメイン名の解決に失敗した場合、ドメインの状態を、非機能的であるとして判断することができる。ドメイン名は解決されるが、コンテンツがアクセス可能ではない場合、その状態を、アクセス不可能であるとして識別することができる。他の状態識別子もまた可能である。
ドメイン状態は、例えば、アクティブ、HTTPエラー等の、関連するウェブサイトの動作状態を示してもよい。ドメイン状態は、ウェブサイトが特定のドメインからアクセス可能であるかどうかということと、そうでない場合、そのウェブサイトへのアクセスを試行するどの段階で失敗しているかということとを示してもよい。アクセス失敗には、表1に示されるものといった、ドメインウェブサイトに割り当てられるエラーコードが含まれてもよい。
Figure 2012523626
ドメインの1つ以上のクエリが、非機能的、ないしはアクセス不可能なエラーとなった場合、本方法は、ステップS1010からステップS1700に進み、ここで、ドメインの目的が、判断された状態に基づいて、判断される。例えば、ネームサーバエラーといった、状態コードを使用して、一般的な非機能的な目的、またはエラーコードに関連するより特定の非機能的な目的を判定してもよい。
ドメイン名は解決されるが、リダイレクトになる場合、これは、ドメインの状態を判断することに含まれてもよい。例えば、その状態を、アクティブコンテンツを有しない、「リダイレクト」ドメインであると判断することができる。
ドメイン名に対するウェブサーバが、無事に接続され、リダイレクトにならない場合、ステップS1100で、図3に実施例が描写される、第1ページ500のコンテンツを読出することができる。
ステップS1100において、例えば、要素502、504、506、および508である、第1のページからのコンテンツが、読出される。このコンテンツは、例えば、テキスト、マルチメディア、ハイパーリンク、または他の実行可能なコードを含む、当業者に既知の種々の形態であることが可能である。一例として、要素502、504、および506は、それぞれ、ウェブページ510、520、および530へのハイパーリンクを起動するウェブページボタンであってもよい。要素508は、テキスト、画像、または他のマルチメディアデータコンテンツであってもよい。コンテンツは、本明細書において記載される、少なくとも2つの目的のために使用することができる。一方の目的は、例えば、要素502、504、506である、第1のページに埋め込まれたハイパーリンクに基づいて、例えば、第1のページを介してアクセス可能である、第1のページに関連する任意の他のページを識別することであってもよい。この機能は、ステップS1200で実施することができる。即ち、例えば、510、520、530である、複数の追加のページが、第1のページで検出されるハイパーリンクに基づいて、識別されてもよい。例示的なページ510、520、および530は、同一のセカンドレベルドメインを共有するが、例えば、ページ500からハイパーリンクされる、関連する他のページは、必ずしも同一のドメインを共有する必要がないことに留意されたい。コンテンツの他方の目的は、ドメインの目的を判断することを支援することであってもよく、これは以下でさらに論述する。本方法は、ステップS1300を継続する。
ステップS1300において、例えば、510、520、530である、追加のページの状態を識別することができる。追加のページの状態を識別することには、第1の追加のページのドメイン名またはネットワークアドレスの解決を試行することを含むことができ、ドメイン名またはネットワークアドレスの解決に失敗した場合、第1の追加のページの状態を、非機能的であるとして識別することができる。ドメイン名は解決されるが、コンテンツがアクセス可能ではない場合、第1の追加のページの状態を、機能的ではあるが、アクセス不可能であるとして識別することができる。第1のページ500の状態を判断することに関して上に説明するとおり、他の状態識別子もまた可能である。本方法は、ステップS1400を継続する。
ステップS1400において、既定のデータとの比較に基づいて、識別されたハイパーリンクおよび関連する追加のウェブページを優先順位化することができる。例えば、ドメインおよび非ドメインURI情報を含む、ハイパーリンクデータは、所望のコンテンツを示唆する、重要なキーワード、文字列、または他の値の一覧といった、既定のマーカと比較されてもよい。また、ハイパーリンクデータの構造は、例えば、特定のネスト形式等である、情報のパターンを認識するためのプロセスの一部として分析されてもよい。結果として、識別されたハイパーリンクの優先順位化された一覧を生成することができる。
ユーザは、優先順位化をカスタマイズするために、特定のマーカを選択して、使用することができる。これは、ユーザに、識別されたハイパーリンクデータで認識されたマーカの一覧を提示することと、ユーザが、これらのマーカから選択することを可能にすることと、を含むことができる。ユーザをさらに支援するために、認識されたマーカに関連する任意選択的な追加の情報を、ユーザに提供することができる。例えば、認識されたマーカの各々は、どのマーカが、ユーザまたは問題のドメインに最も重要であるかを評価する上で、ユーザを支援する、量的または質的値を付与されてもよい。例えば、ユーザは、ある識別されたマーカに特定の関心を有する可能性があり、あるいは、一組のマーカが、ハイパーリンクデータにおけるマーカの存在の量的値に基づいて、より関連するものであると考えられる可能性もある。したがって、ユーザは、ユーザに提示される特定のマーカに関連する、追加の既定の情報に基づいて、マーカから選択することができる。これは、ドメインプロファイリングの一部として、そのコンテンツを抽出すべき、より該当するウェブページを識別する上で、利益を提供することができる。本方法は、ステップS1500を継続する。
ステップS1500において、必要な場合、コンテンツ508といった、追加のコンテンツを、第1のページ500から抽出することができ、かつコンテンツを、複数の追加のページのうちの選択されたページから抽出することができる。追加のページの中からの特定のページの選択は、それらの優先順位化に基づいてもよい。例えば、追加のページ510、520、および530が、ページ530が優先順位において最低となるように優先順位化される場合、コンテンツは、ページ510および520から収集されるのみであってもよい。実施形態において、ページ530は、ドメイン名内の「mail」というテキスト文字列に基づいて、優先順位が低いとして指定されてもよい。これは、リソースを節約し、また、最も関連する追加のページおよびコンテンツを識別することによって、後のステップにおいて、より正確な結果をもたらすことができる。また、収集されたコンテンツのタイプは、以下でさらに論述されるシグネチャマーカセットのパラメータに基づいて、判断されてもよい。例えば、テキストコンテンツは、シグネチャマーカセットがテキストのみのために構成されている場合、必要とされるすべてのデータであってもよい。この弁別はまた、大規模なデータの収集および分析において、効率性を提供することができる。シグネチャマーカセットが、複数のデータタイプを処理するように構成されている場合、これは、分析の全体的な正確性を向上することができる。
また、第1のページからハイパーリンクデータを追跡することは、リダイレクトをトラバースすることを含むことができる。例えば、ハイパーリンクデータは、別のウェブページに直接解決されない場合もあるが、代わりに、少なくとも1つのリダイレクトを要求する場合もある。したがって、「追加のページ」は、間接的に第1のページにリンクまたは関連してもよい。これはまた、ウェブページのhttpsバージョンへのリダイレクトをトラバースすることを含んでもよい。本方法は、ステップS1600に継続する。
ステップS1600において、第1のページおよび追加のページから収集されたコンテンツを、シグネチャマーカセットを介して処理し、コンテンツ中の文脈的一致を判断することができる。上述のとおり、シグネチャマーカセットは、データ要素のうちの1つに対する文脈的一致または重要性を提供する、リンクされたデータ要素を含むことができる。収集されたコンテンツの文脈的一致を識別することによって、コンテンツの種々の部分の重要性に、適切な重みを付与することができる。例えば、「Ford」という用語は、自動車製造業者である一方、一般的な苗字でもあり、かつそれだけでは、重要性が不明確である。これは、ウェブページコンテンツの一部としてのこの用語を不適切に考慮すること、または軽視することを招く可能性がある。用語の曖昧性解消には、「Ford」および他の識別された自動車用語が、自動車の部類に関連すると見なされるように、「Ford」という用語の使用に対して近接していることが必要である可能性がある。N−gramモデルは、ある配列において、次の項目を予測するための一種の確率的モデルである。N−gramは、統計的自然言語処理および遺伝子配列分析の種々の領域において使用され、本明細書に記載されるコンテンツ処理を改良するために、本主題に適用することができる。例えば、N−gramモデルは、xi−1、xi−2、...xi−nに基づいて、xを予測する。ハイパーリンクデータおよび追加のページを優先順位化するために使用されるマーカに関して上に示すとおり、本方法は、ユーザが、識別された関連の中から所望の関連を選択することを可能にすることができる。例えば、ユーザは、ある識別された文脈的一致を有効、および他の文脈的一致を無効であるとして、または無視されるべきとして識別することができる。さらに、本方法は、文脈的一致と併せて、追加の量的または質的情報を提供することによって、文脈的一致の重要性を識別する上で、ユーザを支援することができる。したがって、自動化された方法は、抽出されたコンテンツに自動的に適用される既定のシグネチャマーカセットの場合と同様に、文脈的一致に付与される重みを評価するために使用することができるか、または、ユーザが、識別された文脈的一致を受け入れる、重み付けする、または拒絶することが可能になる場合と同様に、ユーザがそのようにすることを支援することができる。
シグネチャマーカセットに関して、コンテンツから処理されるデータのうちの特定のタイプは、テキストまたは他の特定のデータに限定されない。例えば、実施形態は、コンテンツが、第1のページまたは追加のページに埋め込まれた実行可能なコードを含むことと、シグネチャマーカセットが、実行可能なコード、または実行可能なコードの結果内での文脈的一致を判断するように構成されることと、を含むことができる。また、実施形態は、コンテンツが、第1のページまたは追加のページに埋め込まれた画像、ビデオ、および/または音声情報を含むことと、シグネチャマーカセットが、画像、ビデオ、および音声情報のうちのいずれかにおける文脈的一致を判断するように構成されることと、を含むことができる。例えば、パターン認識結果、音声タイプ、音声の長さ、または任意の数の関連する属性といった、種々の音声データにおける文脈的一致が存在してもよい。多数の同様にパターン化された音声情報は、例えば、特定の音楽芸術家のコンテンツに向けられ、かつ特定の重要性を有する、特定のタイプのウェブページの強力なインジケータである場合もある。
ハイパーリンクマーカおよびシグネチャマーカセットの双方の場合、マーカパフォーマンスレポートは、改善されたパフォーマンスを提供するように含まれてもよい。例えば、ユーザは、個々のマーカのパフォーマンスの質的評価を提示されてもよい。代替として、または自動化された評価と併せて、ユーザは、マーカの有効性を独立して評価およびランク付けすることができる。したがって、本システムは、マーカパフォーマンスに関するレポートを提供し、マーカの使用における変更を可能にすることによって、使用されるマーカが有効であることを確実とすることができる。変更を実施し得るユーザにレポートを提示することができるか、または、本システムを、ある閾値を下回るものといった、パフォーマンスが不十分なマーカを破棄するように、自動化することができる。コンテンツを処理した後、本方法は、ステップS1700に継続する。
ステップS1700において、第1のページの状態、任意の追加のページの状態、および文脈的一致化の任意の結果に基づいて、ドメインの目的を判断することができる。ドメイン目的は、テーマもしくは全体的意味、または意図される用途もしくはドメインに関連するコンテンツの使用に関連することができる。目的は、ドメインが使用される明白な理由を反映してもよい。解決に失敗する、または、他のアクセスエラーを返すドメインの場合、目的は、ドメインが使用されていないか、または制限されていることであってもよい。他の識別された目的としては、以下の表2に詳述される、クリック保証型(PPC)パーク、目的、マスクリダイレクト、リダイレクト、ブログ等が挙げられる。
文脈的一致の結果は、アクティブドメインの特殊化した目的を判断する上で、特に有効であり得る。この評価の正確性は、優先順位化された追加のページの追加の分析によって改善される。したがって、機能するウェブサイトは、表2に識別されるものといった、割り当てられた非排他的な目的コード、および他の目的を指定するための任意の他の好適なコードであってもよい。
Figure 2012523626
また、追加の情報は、目的判断に含まれてもよい。例えば、主にDNSトラフィックプロセッサからの統計といった、ドメイントラフィックの測定が、あるウェブサイトが信憑性のある小売サイトであるかどうかを評価するために含まれてもよい。また、上で説明する文脈的一致の重み因子に加えて、見出し、名称、および説明といった、ドメインキー用語は、特定の重みを付与されてもよい。共通する特性がウェブサイトおよび追加のページに存在するかどうかを示す、ドメインプロパティ、特性、および/または機能は、ブログ、小売等といった目的を判断する上で使用されてもよい。
また、目的を判断する上で、コンテンツの技術的詳細を考慮することも有利であり得る。例えば、どのタイプの技術をウェブサイトが使用しているか(例えば、ドメイン、クッキー、マルチメディア、データを保護するためのSSL証明書等に関連するメールサーバ)を識別することは、個人的または他の目的に対して、小売といった、目的の指標を提供することができる。また、関連するページ上のコンテンツをレンダリングするための平均時間、ウェブサーバの地理的位置等といった、特定のコンテンツを超えた追加の技術的データも指標となってよい。
実施形態は、コンテンツにおける、判断されたドメイン名、レジストラリセラーマーカ、特定のデータタイプの不存在、ページの代替の発行元、ソーシャルコミュニティ識別子、およびデータタイプのうちの少なくとも1つに基づいて、ドメインの目的を判断することを含むことができる。即ち、上に列記したものといった、特定のコンテンツの存在または不存在は、ドメインの全体的な目的を確立する上で、独立した重要性を有してもよい。例としては、広告主情報の指標、もしくはその欠如、または画像データといったデータタイプ、もしくはその欠如が挙げられる。一度ドメイン目的が判断されると、本方法は、ステップS1800に継続する。
ステップS1800において、ドメインのカテゴリは、ドメインのそれぞれの目的とは異なることを判断される可能性がある。ドメインカテゴリは、サイトのコンテンツに関する事業分野に関連するカテゴリを反映してもよい。これは、どのカテゴリに、第1のページおよび追加のページからのコンテンツが属するかを判断することを含むことができる。例えば、ドメインカテゴリは、ドメインを、北米産業分類システムに準ずる、事業分類学のシステムに分類してもよい。表3は、例示的なカテゴリの部分的な一覧であり、これは、カテゴリコード内のカテゴリの割り当てられた優先順位化を含んでもよい。
Figure 2012523626
ドメインカテゴリを判断するために使用される情報は、第1のページおよび追加のページから取得されたコンテンツを含んでもよく、さらにドメイン目的を判断するために使用される同一のコンテンツでもあってもよい。しかしながら、種々の情報に起因する重要性は、各プロセスにおいて異なってもよい。例えば、上述のとおり、他の文脈的な法人関連の情報を伴う「Ford」の存在を使用して、ウェブページの企業/組織目的を判断してもよい。また、他の自動車情報を伴う「Ford」という同一の情報の存在を使用して、自動車分野におけるドメインカテゴリを判断してもよい。
ドメイン目的の判断と同様に、ドメイン分類は、特定のウェブページのコンテンツに限定されない。むしろ、ドメイン分類は、ドメインの総合的分類に至るように、第1のページおよび優先順位化された追加のページのコンテンツから導出されてもよい。また、実施形態は、ドメインの分類を実施する前に、1つ以上のドメインの目的に基づいて、それらを識別することを含むことができる。これは、ユーザインタラクションを用いて、または用いずに、かかるドメインをある分類に正確にカテゴリ化する上で、利点を提供することができる。
本発明の実施形態を論述するとおり、ドメイン目的およびドメインカテゴリの特性は、異なる可能性がある。即ち、ドメイン目的は、例えば、ニュース、ブログ、パーク等のドメインに関連するウェブサイトの目的を含んでもよい。ドメイン目的は、ドメインのウェブサイトの主目的であってもよい。この目的は、特定のウェブサイトのコンテンツに関連し得、必ずしもそれを所有する企業である必要はない。即ち、所与の企業の法人のウェブサイトは、例えば、企業のための販売促進ブログサイトとは異なる目的を有してもよい。
ドメインカテゴリが判断された後、例示的な方法は、ステップS1900で、結果をコンピュータで読み取り可能な記憶媒体に記憶すること、結果をユーザに表示すること、ないしは結果を電子通信ネットワーク上で要求元に電子的に通信することのうちの少なくとも1つを続行することができる。以下でさらに論述するとおり、実施形態は、保存されたデータ内で標的とする検索を実施すること、および/または記載される方法を、多様なドメインにおいて反復的に実施すること、および関連するドメイン空間の歴史的分析に関する結果をコンパイルすることをさらに含むことができる。
図4は、本発明の実施形態に係る、毎月の反復サイクルに関する高レベルプロセスフローの実施例を描写する。これは、概して、入力610、構成要素620、および出力630からなる。追加のツール690もまた、含まれてもよい。かかる追加のツールは、例えば、識別されたハイパーリンク、用語等を優先順位化するといった、種々の選択/入力610を実施する上で、ユーザを支援することができる。入力には、例えば、ゾーンファイル612、シグネチャマーカセット614、およびトレーニングセット618が含まれてもよい。実施形態において、ユーザは、シグネチャマーカセット614および/もしくはトレーニングセット618内の項目を入力または選択することができる。構成要素には、ウェブクローラ622および分析器624が含まれてもよい。分析器は、カテゴリ化626および分類628部に機能的に分割することができる。レジストリ616は、産業分野による関連するオンライン活動をより理解するために、種々のプロセス(入力、構成要素および出力)を維持し、ウェブ空間650の指定された部分でそれらを実施することができる。例えば、レジストリは、所与のサーバからすべてのDNSトラフィックを収集することができる。TLDに対するすべてのサブドメイン名に関するデータを、周期的に収集し、ファイル記憶装置632に一定期間に保持することができる。また、レポート634は、ウェブ空間650の指定された部分からの情報を処理するように、追加のツール690と協働するトレーニングセット616を含む方法に基づいて生成されてもよい。これは、一定期間にわたって、DNSトラフィック値、ならびに各ドメイン名に関するドメイン状態、目的、およびカテゴリを提供し、かつ過去に利用可能でなかった情報へのアクセスを提供することができる。
また、実施形態は、ステップS2000のクエリの一部として、分析のためにユーザからドメインの入力セットを受信することを含むことができる。本システムは、入力ドメインの中で共通する属性を自動的に識別することができる。これらの属性は、文脈的に一致したコンテンツまたは他の収集された情報からのものであってもよい。この分析の結果は、ステップS2100において、識別された共通の属性をユーザに出力することを含むことができる。この能力は、追加の識別されたページを含む、ドメインの共通の目的に関する属性を自動的に識別することができるといった、利点を提供することができる。
また、実施形態は、ステップS2000のクエリの一部として、例えば、ユーザから、目的および/またはカテゴリの入力セットを受信することを含むことができる。記載される方法に基づいて、目的および/またはカテゴリの入力セットに対応するドメインを識別することができ、ステップS2100において、識別されたドメインを、ユーザへ出力することができる。この能力は、従来のウェブページコンテンツを分析する方法だけからでは可能ではないであろう、関連する情報および/またはドメインの改善された分類ならびに識別を提供する上で、有利であり得る。記載される方法は、ダウンロードされたコンテンツの優先順位化および構文解析、直接的および間接的コンテンツの種々のカテゴリ化を含む、ドメインに関する重要な属性の識別ならびに収集を行うことができ、かつユーザまたは管理者が、ドメインの属性に基づいて検索することを可能にすることができる。
例示的なプロセスフローの追加の詳細は、図6に提供される。図6に示されるとおり、本プロセスは、S600から開始し、S610へ進むことができ、ここで、標的ゾーンファイルが取得される。例えば、標的ゾーンは、本明細書に論述される、指定されたドメインであってもよい。本方法は、S620へ進む。
S620において、本プロセスは、標的ゾーンへの接続を試行するが、これは、指定されたドメインであってもよい。標的ゾーンへの接続の試行に基づいて、異なるタイプのエラーが生じる可能性がある。例えば、DNSサーバが動作不可能である、不完全委譲が存在する可能性がある。DNSが識別されない場合、または上に記載するものと同様の他のエラーが、S620で発生した場合、本方法はS624へ進み、これは、「DNSなし」エラーと称される。この判断に基づいて、S680で状態を報告することができる。
標的ゾーンへの接続の試行が成功した場合、本方法は、S630へ進む。試行の成功は、DNSサーバによってIPアドレスへ解決されている、要求されたドメイン名を含むことができる。しかしながら、要求されたアドレスからコンテンツを取得することを禁止することができる、ウェブサーバレベルで発生する可能性があるエラーが存在する。例えば、S634において、ネームサーバタイムアウトといった、サーバエラーが識別される、ないしは、IPアドレスに接続するための要求に応答して、サーバに関連するエラーを示す可能性もある。S634でサーバエラーが識別された場合、本方法は、S680へ進むことができ、ここでエラーを報告することができる。
S630の間にサーバによって、あるサーバが見つかった場合、本方法は、S640〜648へ進むことができ、ここで、種々の応答を、指定されたウェブサイトまたはアドレスのクロールの試行に基づいて受信することができる。これは、S640のように、要求されたドメインが、アクティブウェブサイトを有しないという指標を含んでもよい。また、S642のように、サーバが見つかった後で示される、ウェブサイトを担うウェブサーバにもエラーが存在する可能性がある。また、サーバまたはウェブサイトは、S644のように、ウェブクローラがコンテンツを読出する能力を制限する可能性があるか、または、S646のように、ウェブクローラを別のサイトにリダイレクトする可能性がある。ウェブサイトのコンテンツへ完全にアクセスではないことを表す、これらの応答および他の応答は、S680で報告することができる。
ウェブサイトにアクセスされ、コンテンツが利用可能である場合、本方法はS648に進むことができ、ここで、ウェブサイトからのコンテンツは、見つかったと認識される。本明細書においてさらに論述されるように、一度ウェブサイトからのコンテンツ、または標的ドメインが見つかると、S660のように、見つかったコンテンツにアクセスおよび分析することによって、本方法は継続することができる。コンテンツ読出および/または分析の結果は、S680で報告することができる。
したがって、図6に描写される方法論は、本方法が、標的ゾーンへのアクセスを試行するステップを進行する程度に応じて、S680においていくつかの種々のレポートをもたらすことができる。これらの一部は、DNSもしくはウェブサーバエラーの場合と同様に、ドメインの非機能的な状態、または本プロセス中に取得された、コンテンツを含む、情報の量およびタイプに応じて、追加の状態、目的、およびカテゴリを反映することができる。
本発明の実施形態は、記載される方法を実行するためのシステム、ならびに記載される方法をコンピュータに実行させるための命令でコード化された、コンピュータで読み取り可能な記憶媒体を含むことができる。例えば、図5に示されるように、プロセッサ、メモリ、および電子通信デバイスを含む、電子システム100は、DNSサーバ140を介して、ドメインに関連する第1のページの状態を識別するように構成されてもよい。システム100は、ユーザコンピュータシステム、120、170といった、無線通信デバイス、130、190といった、サブネットワーク、サーバ、または必要不可欠な機能的能力を有する任意の他のネットワーク対応デバイスであってもよい。システム100は、レジストリに関連するDNSサーバの一部として、またはそれとは別に、動作してもよい。
第1のページは、インターネットといった電子通信ネットワーク170を介して、サーバ150からシステム100によって受信されてもよい。システム100は、第1のページからのハイパーリンクに基づいて、ドメインから複数の追加のページを識別することができる。次いで、システム100は、DNSサーバ140を介して、追加のページの状態を識別することができる。また、システム100は、上述のとおり、既定のデータとの比較に基づいて、ハイパーリンクを優先順位化することができる。第1のページ、および複数の追加のページのうちの少なくとも1つのページからのコンテンツは、例えば、ウェブホスティングサーバから、サーバ150、160を介して、抽出されてもよい。次いで、システム100は、システム100に記憶される、ないしはシステム100によって電子的にアクセスされる、シグネチャマーカセットを介して、コンテンツを処理し、文脈的一致を判断することができる。
システム100は、さらに、第1のページの状態、追加のページの状態、およびコンテンツの処理の結果に従って、ドメインの目的を判断することができる。システム100は、そのデータコンテンツを抽出すべき識別されたウェブページの選択、用語の選択といった、上に記載される種々のユーザ入力を受信することができ、かつシステム100によって実施される記載される処理の結果は、既知の技術に従って、表示、記憶、および/または送信することができる。
システム100は、第1の記憶装置(図示せず、典型的にランダムアクセスメモリ、即ち「RAM」)、第2の記憶装置(図示せず、典型的に読み取り専用メモリ、即ち「ROM」)を含む、記憶デバイスに連結された、任意の数のプロセッサ(図示せず)を含む。これらの記憶デバイスの双方は、上で説明および/または言及される、任意の好適なタイプのコンピュータで読み取り可能な媒体を含んでもよい。また、プログラム、データ等を記憶するように、大容量記憶デバイス(図示せず)が使用されてもよく、これは典型的に、主記憶装置よりも低速である、ハードディスクといった二次記憶媒体である。適切な例において、大容量記憶デバイス内に保持される情報は、仮想メモリとして主記憶装置の一部として標準的な方法で組み込まれてもよいことが理解されよう。CD−ROMといった特定の大容量記憶デバイスもまた、プロセッサへ一方向にデータを渡すことができる。
また、システム100は、ビデオモニタ、トラックボール、マウス104、キーボード、マイクロホン、タッチセンサ表示装置、変換器カードリーダ、磁気もしくは紙テープリーダ、タブレット、スタイラス、音声もしくは手書き文字認識器、または他のコンピュータ110を含む他の既知の入力デバイスといった、1つ以上の入力/出力デバイスを含む、インターフェースを含むことができる。システム100は、概して101で示されるネットワーク接続を使用して、コンピュータ、または他の電子通信ネットワーク170、180に連結されてもよい。ネットワークは、コンピュータ110、サーバ160、無線通信デバイス120、170、およびサブネットワーク190、130の間で情報を交換するように、種々の有線、光、電子、および他の既知のネットワークを接続することができる。かかるネットワーク接続により、システム100およびその中のプロセッサは、上記の方法ステップを実施する過程で、ネットワークから情報を受信することができること、または情報をネットワークに出力することができることが企図される。上記のデバイスおよび器具は、コンピュータハードウェアおよびソフトウェア技術分野の当業者にはよく知られ、当業者によって理解されるように個々にまたは完全に描写する必要はない。上に記載されるハードウェア要素は、上に記載される動作を実施するための1つ以上のモジュールとしての機能を果たすように構成(通常、一時的に)されてもよい。
加えて、本発明の実施形態は、種々のコンピュータで実施される操作を実行するためのプログラム命令を含む、コンピュータで読み取り可能な記憶媒体をさらに含む。本媒体はまた、単独、またはプログラム命令と併せて、データファイル、データ構造、表等を含んでもよい。媒体およびプログラム命令は、本主題の目的に対して特別に設計および構築されたものであってもよく、またはコンピュータソフトウェア技術分野の当業者に利用可能な種類のものであってもよい。コンピュータで読み取り可能な記憶媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープといった、磁気媒体、CD−ROMディスクといった光媒体、フロプティカルディスクといった光磁気媒体、ならびに読み出し専用メモリデバイス(ROM)およびランダムアクセスメモリ(RAM)といった、プログラム命令を記憶および実施するように特別に構成された、ハードウェアデバイスが挙げられる。プログラム命令の例としては、例えば、コンパイラによって生成される機械コード、およびインタプリタを使用するコンピュータによって実行することができる高レベルコードを含むファイルの双方が挙げられる。
本発明を、例示的な実施形態を参照して説明してきた。記載される実施形態の修正および変更は、本明細書を一読および理解すれば、当業者には明らかであり得る。本発明は、すべてのかかる修正および変更が、添付の特許請求の範囲またはその同等物内にある限りにおいて、それらを含むことを意図する。
610 入力
612 ゾーンファイル
614 シグネチャマーカセット
616 レジストリ
618 トレーニングセット
620 構成要素
622 ウェブクローラ
624 分析器
626 カテゴリ化
628 分類
630 出力
632 ファイル記憶装置
634 レポート
690 追加のツール

Claims (21)

  1. ドメイン名プロファイルを判断する自動化された方法であって、
    (a)第1のウェブページの解決を試行することによって、前記ドメイン名に関連する前記第1のウェブページの状態を識別することと、
    (b)前記第1のウェブページの解決の試行が、エラーとなった場合、前記第1のウェブページの状態に基づいて、前記ドメイン名の目的を判断することと、
    (c)前記第1のウェブページの解決の試行が成功した場合にのみ、ステップ(d)〜(j):
    (d)コンピュータ通信ネットワークを介して、前記ドメイン名の前記第1のウェブページを読出すること、
    (e)前記第1のウェブページから読出されるハイパーリンクに基づいて、前記ドメイン名に関連する複数の追加のウェブページを識別すること、
    (f)前記追加のウェブページの解決を試行することによって、前記追加のページの状態を識別すること、
    (g)既定のデータとの比較に基づいて、前記第1のウェブページから読出された前記ハイパーリンクを優先順位化すること、
    (h)前記コンピュータ通信ネットワークを介して、前記第1のページ、および前記複数の追加のページのうちの少なくとも1つのページから、コンテンツを抽出することであって、前記複数の追加のページのうちの前記少なくとも1つのページは、前記優先順位化に基づいて選択される、抽出すること、
    (i)既定の関連するデータ要素の表を介して、前記コンテンツを処理し、前記コンテンツに存在する文脈的一致を判断すること、
    (j)前記第1のウェブページの状態、前記追加のウェブページの状態、および前記コンテンツを処理することによって識別される文脈的一致に基づいて、前記ドメイン名の目的を判断すること、を続行することと、
    (k)前記ドメインの前記判断された目的の表示、記憶、および送信のうちの少なくとも1つを行うことと、を含む、方法。
  2. ドメインを分析する自動化された方法であって、
    ドメインに関連する第1のページの状態を識別することと、
    前記第1のページを読出することと、
    前記第1のページからのハイパーリンクに基づいて、前記ドメインから複数の追加のページを識別することと、
    前記追加のページの状態を識別することと、
    既定のデータとの比較に基づいて、前記ハイパーリンクを優先順位化することと、
    前記第1のページ、および前記複数の追加のページのうちの少なくとも1つのページから、コンテンツを抽出することであって、前記複数の追加のページのうちの前記少なくとも1つのページは、前記優先順位化に基づいて選択される、抽出することと、
    シグネチャマーカセットを介して前記コンテンツを処理し、文脈的一致を判断することと、
    前記第1のページの状態、前記追加のページの状態、および前記コンテンツの処理の結果に従って、前記ドメインの目的を判断することと、
    前記ドメインの判断された目的の表示、記憶、および送信のうちの少なくとも1つを行うことと、を含む、方法。
  3. 前記ドメインの目的を判断することは、前記コンテンツにおける、判断されたドメイン名、レジストラリセラーマーカ、特定のデータタイプの不存在、前記ページの代替の発行元、ソーシャルコミュニティ識別子、およびデータタイプのうちの少なくとも1つにさらに基づく、請求項2に記載の方法。
  4. 前記目的に基づいて、1つ以上のドメインを識別することと、
    前記識別されたドメインのカテゴリを判断することであって、前記ドメインのそれぞれのカテゴリは、当該ドメインのそれぞれの目的とは異なる、判断することと、をさらに含む、請求項2に記載の方法。
  5. 前記ドメインの前記判断されたカテゴリおよび主目的に基づいて、関連するドメインを識別し、読出することをさらに含む、請求項4に記載の方法。
  6. 前記ドメインの前記判断された状態および目的に基づいて、関連するドメインを識別し、読出することをさらに含む、請求項2に記載の方法。
  7. 前記コンテンツは、前記第1のページまたは前記追加のページに埋め込まれた実行可能なコードを含み、前記シグネチャマーカセットは、前記実行可能なコード内の文脈的一致を判断するように構成される、請求項2に記載の方法。
  8. 前記コンテンツは、前記第1のページまたは前記追加のページに埋め込まれた画像、ビデオ、および音声情報を含み、前記シグネチャマーカセットは、前記画像、ビデオ、および音声情報内の文脈的一致を判断するように構成される、請求項2に記載の方法。
  9. 前記第1のページからのハイパーリンクを追跡することは、前記ウェブページのhttpsバージョンへのリダイレクトをトラバースすることを含む、請求項2に記載の方法。
  10. ユーザからドメインの入力セットを受信することと、
    前記文脈的に一致したコンテンツの中から前記入力ドメインで共通する属性を識別することと、
    前記識別された属性を前記ユーザに出力することと、をさらに含む、請求項2に記載の方法。
  11. ユーザから目的の入力セットを受信することと、
    前記目的の入力セットに対応するドメインを識別することと、
    前記識別されたドメインを前記ユーザに出力することと、をさらに含む、請求項2に記載の方法。
  12. ユーザから目的およびカテゴリの入力セットを受信することと、
    前記目的およびカテゴリの入力セットに対応するドメインを識別することと、
    前記識別されたドメインを前記ユーザに出力することと、をさらに含む、請求項4に記載の方法。
  13. 前記第1のページの状態を識別することは、
    前記第1のページのドメイン名の解決を試行することと、
    前記ドメイン名の解決に失敗した場合、前記ドメインの状態を非機能的であるとして識別することと、
    前記ドメイン名は解決されるが、コンテンツがアクセス可能ではない場合、前記状態をアクセス不可能であるとして識別することと、を含み、
    前記追加のページの状態を識別することは、
    第1の追加のページのドメイン名またはネットワークアドレスの解決を試行することと、
    前記ドメイン名またはネットワークアドレスの解決に失敗した場合、前記第1の追加のページの状態を非機能的であるとして識別することと、
    前記ドメイン名は解決されるが、コンテンツがアクセス可能ではない場合、前記第1の追加のページの状態をアクセス不可能であるとして識別することと、を含む、請求項2に記載の方法。
  14. コンピュータで読み取り可能な記憶媒体であって、
    ドメインに関連する第1のページの状態を識別することと、
    前記第1のページを読出することと、
    前記第1のページからのハイパーリンクに基づいて、前記ドメインから複数の追加のページを識別することと、
    前記追加のページの状態を識別することと、
    既定のデータとの比較に基づいて、前記ハイパーリンクを優先順位化することと、
    前記第1のページ、および前記複数の追加のページのうちの少なくとも1つのページから、コンテンツを抽出することであって、前記複数の追加のページのうちの前記少なくとも1つのページは、前記優先順位化に基づいて選択される、抽出することと、
    シグネチャマーカセットを介して前記コンテンツを処理し、文脈的一致を判断することと、
    前記第1のページの状態、前記追加のページの状態、および前記コンテンツの処理の結果に従って、前記ドメインの目的を判断することと、
    前記ドメインの判断された目的の表示、記憶、および送信のうちの少なくとも1つを行うことと、を含むステップを実施するように、コンピュータによって実行されるように適応された命令を記憶する、コンピュータで読み取り可能な記憶媒体。
  15. 前記ドメインの目的を判断することは、前記コンテンツにおいて、判断されたドメイン名、レジストラリセラーマーカ、特定のデータタイプの不存在、前記ページの代替の発行元、ソーシャルコミュニティ識別子、およびデータタイプのうちの少なくとも1つにさらに基づく、請求項14に記載のコンピュータで読み取り可能な記憶媒体。
  16. 前記命令は、
    前記目的に基づいて、1つ以上のドメインを識別することと、
    前記識別されたドメインのカテゴリを判断することであって、前記ドメインのそれぞれのカテゴリは、当該ドメインのそれぞれの目的とは異なる、判断することと、をさらに含む、請求項14に記載のコンピュータで読み取り可能な記憶媒体。
  17. 前記コンテンツは、前記第1のページまたは前記追加のページに埋め込まれた実行可能なコードを含み、前記シグネチャマーカセットは、前記実行可能なコード内の文脈的一致を判断するように構成される、請求項14に記載のコンピュータで読み取り可能な記憶媒体。
  18. 前記コンテンツは、前記第1のページまたは前記追加のページに埋め込まれた画像、ビデオ、および音声情報を含み、前記シグネチャマーカセットは、前記画像、ビデオ、および音声情報内の文脈的一致を判断するように構成される、請求項14に記載のコンピュータで読み取り可能な記憶媒体。
  19. 前記命令は、
    ユーザから目的およびカテゴリの入力セットを受信することと、
    前記目的およびカテゴリの入力セットに対応するドメインを識別することと、
    前記識別されたドメインを前記ユーザに出力することと、をさらに含む、請求項16に記載のコンピュータで読み取り可能な記憶媒体。
  20. 前記第1のページの状態を識別することは、
    前記第1のページのドメイン名の解決を試行することと、
    前記ドメイン名の解決に失敗した場合、前記ドメインの状態を非機能的であるとして識別することと、
    前記ドメイン名は解決されるが、コンテンツがアクセス可能ではない場合、前記状態をアクセス不可能であるとして識別することと、を含み、
    前記追加のページの状態を識別することは、
    第1の追加のページのドメイン名またはネットワークアドレスの解決を試行することと、
    前記ドメイン名またはネットワークアドレスの解決に失敗した場合、前記第1の追加のページの状態を非機能的であるとして識別することと、
    前記ドメイン名は解決されるが、コンテンツがアクセス可能ではない場合、前記第1の追加のページの状態をアクセス不可能であるとして識別することと、を含む、請求項14に記載のコンピュータで読み取り可能な記憶媒体。
  21. 電子ネットワーク上でデータを交換するように構成される電子通信ユニットと、
    ドメインに関連する第1のページの状態を識別するための手段と、
    前記第1のページを読出するための手段と、
    前記第1のページからのハイパーリンクに基づいて、前記ドメインから複数の追加のページを識別するための手段と、
    前記追加のページの状態を識別するための手段と、
    既定のデータとの比較に基づいて、前記ハイパーリンクを優先順位化するための手段と、
    前記第1のページ、および前記複数の追加のページのうちの少なくとも1つのページから、コンテンツを抽出するための手段であって、前記複数の追加のページのうちの前記少なくとも1つのページは、前記優先順位化に基づいて選択される、手段と、
    シグネチャマーカセットを介して前記コンテンツを処理し、文脈的一致を判断するための手段と、
    前記第1のページの状態、前記追加のページの状態、および前記コンテンツの処理の結果に従って、前記ドメインの目的を判断するための手段と、
    それぞれ前記ドメインの前記判断された目的を表示または記憶する、表示装置および記憶装置のうちの少なくとも1つと、を含む、装置。
JP2012504817A 2009-04-07 2010-04-07 ドメイン状態、目的、およびカテゴリ Pending JP2012523626A (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US16752809P 2009-04-07 2009-04-07
US16752109P 2009-04-07 2009-04-07
US16752309P 2009-04-07 2009-04-07
US61/167,528 2009-04-07
US61/167,521 2009-04-07
US61/167,523 2009-04-07
US12/428,208 2009-04-22
US12/428,208 US9292612B2 (en) 2009-04-22 2009-04-22 Internet profile service
PCT/US2010/030211 WO2010118115A1 (en) 2009-04-07 2010-04-07 Domain status, purpose and categories

Publications (1)

Publication Number Publication Date
JP2012523626A true JP2012523626A (ja) 2012-10-04

Family

ID=42936554

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012504817A Pending JP2012523626A (ja) 2009-04-07 2010-04-07 ドメイン状態、目的、およびカテゴリ

Country Status (9)

Country Link
EP (1) EP2417536A4 (ja)
JP (1) JP2012523626A (ja)
KR (1) KR101670700B1 (ja)
CN (1) CN102460417B (ja)
AU (1) AU2010234488B2 (ja)
BR (1) BRPI1014177A2 (ja)
CA (1) CA2757833C (ja)
RU (1) RU2011144859A (ja)
WO (1) WO2010118115A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104104556B (zh) 2013-04-12 2018-09-28 腾讯科技(北京)有限公司 进行推荐信息展现的方法及系统
CN105243073A (zh) * 2014-07-11 2016-01-13 北京金山安全软件有限公司 一种书签访问方法、装置及终端
US10608972B1 (en) 2016-08-23 2020-03-31 Microsoft Technology Licensing, Llc Messaging service integration with deduplicator
CN111291284A (zh) * 2018-12-10 2020-06-16 北京京东金融科技控股有限公司 一种多级页面的重定向方法和装置
CN110211581B (zh) * 2019-05-16 2021-04-20 济南市疾病预防控制中心 一种实验室自动语音识别记录标识系统及方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7114177B2 (en) * 2001-03-28 2006-09-26 Geotrust, Inc. Web site identity assurance
US7565402B2 (en) * 2002-01-05 2009-07-21 Eric Schneider Sitemap access method, product, and apparatus
US20030225876A1 (en) * 2002-05-31 2003-12-04 Peter Oliver Method and apparatus for graphically depicting network performance and connectivity
US7457958B2 (en) * 2003-09-22 2008-11-25 Proofprint, Inc. System for detecting authentic e-mail messages
US20080028443A1 (en) * 2004-10-29 2008-01-31 The Go Daddy Group, Inc. Domain name related reputation and secure certificates
CN100432996C (zh) * 2004-12-07 2008-11-12 国际商业机器公司 基于网页页面布局提取网页核心内容的系统、方法
US7475069B2 (en) * 2006-03-29 2009-01-06 International Business Machines Corporation System and method for prioritizing websites during a webcrawling process
US20080082662A1 (en) * 2006-05-19 2008-04-03 Richard Dandliker Method and apparatus for controlling access to network resources based on reputation
US20080163369A1 (en) * 2006-12-28 2008-07-03 Ming-Tai Allen Chang Dynamic phishing detection methods and apparatus

Also Published As

Publication number Publication date
CN102460417A (zh) 2012-05-16
CN102460417B (zh) 2015-07-29
EP2417536A1 (en) 2012-02-15
AU2010234488A1 (en) 2011-11-17
WO2010118115A1 (en) 2010-10-14
BRPI1014177A2 (pt) 2016-04-05
CA2757833C (en) 2018-09-18
AU2010234488B2 (en) 2015-01-22
KR20120005012A (ko) 2012-01-13
KR101670700B1 (ko) 2016-10-31
RU2011144859A (ru) 2013-05-20
EP2417536A4 (en) 2016-08-31
CA2757833A1 (en) 2010-10-14

Similar Documents

Publication Publication Date Title
US9742723B2 (en) Internet profile service
KR100478019B1 (ko) 지역 정보 검색 결과 제공 방법 및 시스템
US7974970B2 (en) Detection of undesirable web pages
JP5727512B2 (ja) 検索提案のクラスタ化及び提示
US20110289068A1 (en) Personalized navigation using a search engine
JP5329540B2 (ja) ユーザ中心の情報探索方法、コンピュータ読み取り可能な記録媒体およびユーザ中心の情報探索システム
US8838643B2 (en) Context-aware parameterized action links for search results
JP2008507041A (ja) 検索結果内におけるプレーストコンテンツの順序付けのパーソナライズ
JP2008547119A (ja) サーチ結果を提供するためのシステムおよび方法
JP2009532766A (ja) ウェブサイトのウェブページのような関連するウェブページの間での有用な情報の伝搬
KR20110009198A (ko) 최다 클릭된 다음 객체들을 갖는 검색 결과
US9367638B2 (en) Surfacing actions from social data
JP5514486B2 (ja) Webページの関連性抽出方法、装置、及びプログラム
US10095788B2 (en) Context-sensitive deeplinks
US20150058339A1 (en) Method for automating search engine optimization for websites
CA2757833C (en) Domain status, purpose and categories
US20130031075A1 (en) Action-based deeplinks for search results
JP2011515754A (ja) 新規広告可能なurl提供方法およびシステム
RU2709647C9 (ru) Способ ассоциирования доменного имени с характеристикой посещения веб-сайта
Barifah et al. Exploring usage patterns of a large-scale digital library
KR100469825B1 (ko) 지역의 인기 정보를 제공하는 방법 및 지역 인기 정보제공 시스템
KR20060115488A (ko) 웹 브라우저의 즐겨찾기 리스트를 이용한 개인화 검색 방법및 검색 서버
KR101020895B1 (ko) 지역 정보 검색 결과 제공 방법 및 시스템
KR100909561B1 (ko) 지역 정보 검색 결과 제공 시스템
KR100458458B1 (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템