JP6254355B2 - リファレンスウェブクロールの支援によるウェブコーパスの構築 - Google Patents

リファレンスウェブクロールの支援によるウェブコーパスの構築 Download PDF

Info

Publication number
JP6254355B2
JP6254355B2 JP2013083171A JP2013083171A JP6254355B2 JP 6254355 B2 JP6254355 B2 JP 6254355B2 JP 2013083171 A JP2013083171 A JP 2013083171A JP 2013083171 A JP2013083171 A JP 2013083171A JP 6254355 B2 JP6254355 B2 JP 6254355B2
Authority
JP
Japan
Prior art keywords
web
resource
computer
crawler
crawl
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013083171A
Other languages
English (en)
Other versions
JP2013222463A (ja
Inventor
リチャード セバスチアン
リチャード セバスチアン
グレハント ザビエル
グレハント ザビエル
フェレンツィ ジム
フェレンツィ ジム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dassault Systemes SE
Original Assignee
Dassault Systemes SE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dassault Systemes SE filed Critical Dassault Systemes SE
Publication of JP2013222463A publication Critical patent/JP2013222463A/ja
Application granted granted Critical
Publication of JP6254355B2 publication Critical patent/JP6254355B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Description

本発明は、ネットワーク情報ソフトウェアの分野に関し、特に、「ウェブクローラ」として知られるものなどのインターネットからデータを検索して、コーパス(corpus)を構築するための方法およびシステムに関する。
WWW(ワールドワイドウェブ)は、大規模データのリポジトリとして考えることができ、当該リポジトリは、非常に貴重なビジネス価値を有するとして大いに考えられる。したがって、インターネットの分野においてアクティブな企業に対し、ウェブ上で利用可能なリソースからこの価値を作り出すためのツールを提供する必要がある。これらの企業は、個々のユーザに特化したサービス(例えば、サーチエンジン)、あるいはBtoB(ビジネスツービジネス)モデルにおけるその他の企業に特化したサービス(特定のビジネス分野においてマーケティングデータを収集するなど)を提供する場合がある。
情報を分析し、かつ安定させることを可能にするために、第1のおよび必須のステップは、ウェブ上で利用可能な情報を検索すること、ならびに当該情報から「ウェブコーパス」、すなわち実行される専用コンピュータプログラム上の資源の組、を構築することである。これらのウェブコーパスは、市販のサーチエンジンの場合は汎用的である場合があり、または所与のビジネス領域もしくはテーマにより限定される場合がある。
リソース(ウェブページ、マルチメディアファイルなど)などの情報を検索することは時間のかかるタスクである。単一のリソースを検索することの遅延は、何百ミリ秒から何百秒もの時間を要する場合がある。この遅延はまた、ウェブサイトおよび根本的な通信ネットワークの健全性に依存するので、予測ができない。
また、ウェブ上で利用可能なリソースの全体的なビュー(global view)が存在しない。したがって、このようなビューを構築するために、例えば、サーチエンジンのユーザにより入力されたクエリに応答するために、第1のリソースにアクセスし、次に、ウェブの十分なビューを取得したと考えられるまでなど、これらのリソースにおいて参照されるリソースにアクセスすることにより、対話的なプロセスを実行する必要が生じる。
このプロセスを行うために、遅延が累積され、ユーザの要求に回答することができる最終的な遅延は妥当ではない。
多数のリソースにアクセスする必要があるサーチエンジンもしくは任意のその他のコンピュータプログラムに対し、このような遅延を回避するためにウェブクローラが導入されている。
ウェブクローラは、ウェブのウェブサイト上で利用可能なリソースを探し出し、探索しおよびダウンロードして、コーパス、すなわちその他のプログラムにより使用することができるリソースの組を構築するために使用されるプログラムである。それらはまた、アント(ants)、ボット(bots)、ウェブスパイダなどと呼ばれる。以下では、それらを「ウェブクローラ」またはより簡潔に「クローラ」と称する。
より簡潔にかつ一般的に、クローラはURL(Unified Resource Locators)のリストによりアクセスを開始し、「シーズ」と呼ばれる。クローラがこれらのURLにより識別されたリソースをアクセスするので、当該クローラはリソースにより含まれるすべてのURLを識別し(ハイパーリンクの形式で)、当該URLをURLのリストに追加してアクセスする。次に、これらのURLは再帰的にアクセスされ、対応するリソースがダウンロードされて、漸次、ウェブクロールを構築する。
本明細書では、ウェブクロールは、ウェブクローラにより記憶されたデジタルコンテンツとして定義される。
これらのウェブクローラは図1で示すようなサーチエンジンにより頻繁に使用される。
ウェブクローラWCは、ウェブをクロールし、ダウンロードされたリソースのリポジトリであるウェブクロールWCDを構築する。インデックスプログラムIDPは、このウェブクロールを使用して、インデックスIDを構築している。
このインデックスプログラムIDPは、ウェブクロールWCDのロー(raw)リソースを分析して、よりインデックス化に適合したフォーマットに準拠した「オブジェクト」に当該リソースを変換することを目的とした処理パイプラインを備えてもよい。例えば、当該インデックスプログラムIDPは、あるダウンロードされたリソースのコンテンツ(広告バナー、画像など)の一部分を隠蔽し、および/またはダウンロードされたリソース内部のあるデータを探索して、インデックス化されるオブジェクトの特定のフィールドに当該データを置くこと、などをしてもよい。
インデックスプログラムIDPはまた、「オブジェクト」もしくはローリソースを処理して、クエリの処理を早めるために当該オブジェクトもしくアローリソースに関連するアイテムを記憶する。
ユーザUが、サーチエンジンSEによりクエリを開始するときに、当該サーチエンジンSEはインデックスIDを参照して、クエリの基準にマッチするアイテムを検索する。次に、これらのアイテムはユーザUに提示される。ユーザUは、提示されたアイテムに対応するリソースのダウンロードの有無を選択することができる(例えば、アイテムと関連付けられたハイパーリンクをクリックすることにより)。
また、ウェブクロールWCDを、バッチ分析プログラムなどの、その他のコンピュータプログラムProgにより使用することができる(例えばグラフモデリングの手段による)。
したがって、ウェブクローラは、リソースの検索を、処理および応用から分断することを可能にする。ウェブからのリソースの検索による遅延は、コンピュータプログラムProg、SEの応答性に影響を与えず、インデックスIDのリアルタイムな合成にも影響を与えない。当該遅延は単に、特定時間において利用可能な情報に影響を与える(すなわち、ダウンロードされたリソース)。特に、当該遅延は、インデックスID上で見ることができるコーパス(新たなリソース、削除されたリソースもしくは修正されたリソース)を変更するための時間に影響を与える。
このことは、アプリケーションが、クローラにより実行されるリソース検索タスクのスケジューリングに直接は依存しないことを意味する。このタスクに結び付けられる遅延および時間的制約は単に、特定の時間において利用可能な情報の量(すなわちダウンロードされたリソース)、当該情報の年数および新しさ(freshness)に影響を与える。
このことはまた、ウェブクローラはウェブからダウンロードされたデータ上のメタデータを構成することができることを意味する、特に、単一のインデックスフィールドは単一のリソース上では発見されないが、複数のリソースの分析により提供される情報を必要とする場合がある。また、Google(登録商標)社のページランク(PageRank)アルゴリズムは、リソース間のハイパーリンクのグラフ表現を使用する。このグラフを構築することは、コーパスのリソース毎の検査を必要とする。
概して、インデックスの作成は、同一のリソースへの複数のアクセスを必要とする。クロールがなければ、ウェブからリソースを検索する遅延は、数倍に感じるであろう。
また、インデックスの構造を一部でまたは全体で変更する必要がある場合がある。リソース検索の遅延を回避するために、インデックスプログラムIDPは、ウェブからリソースをダウンロードする代わりに、ウェブクロールWCDにおいて利用可能なダウンロードされたリソースを使用することができる。
この分断にかかわらず、ウェブクローリングタスクに含まれる遅延はボトルネックが依然として残り、一部の動作は、ウェブコーパス内の変更をウェブクロールに反映するのに必要な時間を低減させること、もしくはウェブクローリングを最も関連する変更に第1に重点的に取り組むことのいずれかを引き受けていることになる。
しかしながら、これらの取り組みは主として、ウェブコーパス内の変更を捉え、その変更を最も少ない遅延でウェブクロールに反映させる問題に対処する。
上記取り組みは、新たなウェブコーパスを初期に構築する問題には対処しない。
ウェブクローリングは、少なくとも以下の理由で、依然として非常に遅い処理のままでいる。その理由は、「ネチケット」により許可された限定されたクロールの頻度があり、ウェブクローラに結びつくトラフィックによるウェブサイトの過負荷を回避するために、クローラは2.5秒毎に1回よりも少ない頻度で同一のホストのウェブサイト(すなわちホスト)にアクセスすることが許可されることである。また、ウェブサイトは自身のポリシーを施行することがあり、かつ許可された頻度を超えるクローラへのサービスを拒否することがある。このような場合に、クローラは、一時的なものとなることがあり、または断定的にウェブサイトへ再びアクセスすることを禁止されることがある。また別の理由は、上述したように、ウェブサイトは一般に要求に応じるために何百ミリ秒から何百秒を要することである。さらに別の理由は、クローリング処理は並列にすることができないことである。リソース上で発見されたURLは、アクセスする新たなリソースを判定するのに使用されることが多い。この場合、リソースを並列にダウンロードすることができず、遅延がさらに加算される。
このことに加えて、限られた領域においてウェブコーパスが必要とされる場合でさえ、ウェブクローリング処理は、この限られた領域に関連しないリソースを含めた大量のリソースを考慮すべきである。このことの理由は、クローリング処理が以下のことにおいて非選択的であるからである。1つは、ウェブのあるサブセットのみが興味をもつアプリケーションにとって、当該関心のあるリソースが関心のないリソースにより参照されるので、それでもなおウェブ全体のクロールが必要とされることである。言い換えれば、関心のないリソースが除去されると(filtered out)、多くの関心のあるリソースが見逃されることがある。2つ目は、リソースのURLにより提供される情報、ならびに当該情報を参照するリソースは、リソース自体により提供される情報よりも少ないので、リソースがクロールされた後に、リソースが関心のあるものであるか否かの決定をなすことができることである。
ハードウェアリソースを増強して、ウェブクロールを構築するのに必要とされる時間を低減させることが可能となる。しかしながら、この解決法は、拡張可能でなく、非常にコストがかかる。また、処理のタスク間において依存関係が存在するために、時間の利益の観点からは(無限のリソースの処理に等しく)完全に満足できる解決法ではなく、ウェブの相当の部分をクロールするのに数ヶ月を要するであろう。このことは、例えば、非特許文献1において示される。
Steve Lawrence and C. Lee Giles, Accessibility of Information on the Web, Nature vol. 400, pp. 107-109, 1999.
本発明の目的は、少なくとも部分的に、上述した欠点を緩和することである。特に本発明は、効率的な方法で、すなわち、さらなるハードウェアリソースを必要とせずにウェブコーパスの構築に集中することにより、当該構築をすることをも目的とする。
この目的は、コンピュータにより実行される、ウェブコーパスを構築するための方法であって、ウェブクローラがリファレンスウェブクロールエージェントにクエリを送信するステップであって、このクエリは少なくとも1つのリソースの識別子を含むことと、ウェブクローラがリファレンスウェブクロールエージェントからレスポンスを受信するステップと、このレスポンスが識別子により識別されたリソースを含まない場合、ウェブクローラが識別子に対応するウェブサイト(WS)からリソースをダウンロードし、リソースをウェブコーパスに追加するステップと、レスポンスが識別子により識別されたリソースを含む場合、リソースをウェブコーパスに追加するステップとを備える方法により達成される。
好ましい実施形態は、リファレンスウェブクロールのコンテンツに準じてレスポンスを形成するリファレンスウェブクロールエージェントであって、リファレンスウェブクロールエージェントが、リソースがリファレンスウェブクロールに含まれていないと判定した場合に、当該リファレンスウェブクロールエージェントがリソースのダウンロード、および当該リソースをリファレンスウェブクロールに追加することを開始する、ことの特徴の1つまたは複数を備える。
一実施形態に準じて、本発明の方法は、リファレンスウェブクロールからリファレンスインデックスを作成するステップと、ウェブクローラがリファレンスインデックスにインデックスクエリを送信するステップと、ウェブクローラがリファレンスインデックスからレスポンスを受信するステップと、レスポンスの内容に応じて、リファレンスウェブクロールエージェントにクエリを送信するステップとを備える。
この実施形態はまた、リソースの識別子を含むことができるインデックスクエリであって、レスポンスがリソースに関連するインデックス付き情報を含む場合、レスポンスは当該インデックス付き情報に準じてリファレンスウェブクロールエージェントにクエリを送信するかを決定することができることと、インデックスクエリは、クエリ基準を含み、リファレンスインデックスのレスポンスは識別子のリストを含むことと、リファレンスインデックスのレスポンスはさらに、識別子に対応するインデックス付き情報を含むことと、インデックスクエリは識別子を含み、リファレンスインデックスは識別子により識別されたリソースに含まれる識別子の組を含むレスポンスを送信することと、の特徴の1つまたは複数を備えることができる。
識別子は、URL(Unified Resource Locator)であることができる。
本発明の別の目的は、ウェブクローラをウェブコーパスの構築に適合することであり、リファレンスウェブクロールエージェントにクエリを送信することであって、当該クエリは少なくとも1つのリソースの識別子を含むことと、リファレンスウェブクロールエージェントからレスポンスを受信することと、レスポンスが識別子により識別されたリソースを含まない場合、当該識別子に対応するウェブサイトからリソースをダウンロードし、ウェブコーパスに当該リソースを追加することと、レスポンスが識別子により識別されたリソースを含む場合、ウェブコーパスに当該リソースを追加することと、の手段を備える。
本発明のさらなる特徴および利点は、以下に記載された添付図面への参照とともに、日限定的な例として与えられる、本発明の実施形態の以下の詳細な説明から明らかになるであろう。
既に説明したように、ウェブクローラを配置することができる機能的アーキテクチャを示す。 本発明の配置を可能にする機能的アーキテクチャを示す。 通常、どのようにして現状技術に準じたウェブからリソースを取り出すかを示す。 本発明の種々の実施形態およびオプションを説明する2つのタイムシーケンスを示す。 本発明の種々の実施形態およびオプションを説明する2つのタイムシーケンスを示す。
図2により説明される本発明の実施形態においては、リファレンスエリアRAはリファレンスウェブクローラRWC、リファレンスウェブクロールRWCDおよびリファレンスウェブクロールエージェントRWCAを含む。
このリファレンスウェブクローラRWCは、現状技術に準じたリファレンスウェブクローラを含む、任意のウェブクローラであることができる。ワード「リファレンス」は、本発明に準じたウェブクローラWCについての「リファレンス」以外の特徴をもたらさない。
リファレンスエリアRAは、機能的またはビジネス的な意味を有する。
リファレンスエリアRAは、その他の企業もしくはエンドユーザにクローリングサービスを提供する同一の企業を引き受ける施設もしくはサーバを意味する。例として、ウェブクローラWCは、このリファレンスエリアの外側にいることができ、リファレンスエリアRAをサービスする会社により開放させるインタフェースを使用して、リファレンスウェブクローラエージェントRWCAにアクセスすることができる。
ウェブクローラWCおよびリファレンスエリアRAはまた、同一の企業を引き受けることができる。このような場合、リファレンスエリアRAは機能的な意味のみを有することができ、各ウェブクローラWC、リファレンスウェブクローラRWCに関連付けられたエリアを分離することができる。リファレンスエリアは、レガシーウェブクローラプログラムを配置することができる(必ずしも必須ではないが)。
また、本発明に準じて、リファレンスウェブクローラRWCを配置することができる。用語「リファレンス」はそれらの間の機能的関係を区別するであろう。
この実施形態に準じて、リファレンスエリアRAはまた、リファレンスウェブクロールエージェントRWCAを含む。この要素はウェブクローラWCとリファレンスウェブクロールRWCDとのインタフェースの役割を担う。とりわけ、当該要素は、必要であるときは任意のプロトコル変換の側面を担当することができる。リファレンスウェブクロールエージェントRWCAは、ウェブクローラWCにより送信されたクエリを受信し、当該ウェブクローラWCにレスポンスを送信し返す。これらのレスポンスはリファレンスウェブクロールRWCDの内容に準じて作成される。
アーキテクチャの観点から、本発明は単に、ウェブクロールエージェントRWCAの追加はリファレンスエリアRAに影響を与えることがある。リファレンスエリアのその他すべての機能的要素が修正されないままであってもよく、現状技術のメカニズムに完全に準拠してもよい。
このリファレンスウェブクローラRWCは、上記説明したようにリファレンスウェブクロールRWCDを構築することができる。特に、リファレンスウェブクローラRWCはウェブから再帰的にリソースをダウンロードし、ダウンロードしたリソースのコンテンツを分析することにより、新たなリソースを識別してダウンロードする。
これらのダウンロードしたリソースは、リソースの識別子を含むハイパーリンクを含むことができる。これらの識別子は通常、URL(Unified Resource Locator)であり、例えば、IETF(Internet Engineering Task Force)のRFC3986により規定される。
ダウンロードしたリソースがウェブページの場合、識別子は主として、HTML(HyperText Mark-up Language)に組み込まれたURLの形式をとる。この実施形態の例は、
<a href=”resource1”>link</a>
のようにすることができる。
この言語は、ワード「link」がハイパーリンクに対応する強調とともにウェブページに表示されることを意味する。この強調は、リーダ(reader)がこのワードをクリックして「resource1」にアクセスすることができることを当該リーダに示すであろう。キーワード<href>は、URLの形式における「resource1」の識別子を導入する。
したがって、リファレンスウェブクローラRWCは、ダウンロードしたリソースを構文解析して、これらのURLのすべて(もしくは一部)を識別し、当該URLを、アクセスするための新たなリソースとしてみなすことができる。リファレンスウェブクローラRWCは、一部のポリシーに準じて、アクセスをスケジュールし、および/またはアクセスする部分のみを選択することができる。
ダウンロードしたリソースを、リファレンスウェブクロールRWCDに追加することができる。
図4は、本発明の実施形態に含まれる要素間におけるメッセージの交換を示す。
本発明の一側面に準じて、ウェブクローラWCはリファレンスウェブクロールエージェントRWCAにクエリM1を送信する。
このクエリM1は、少なくとも1つのリソースの識別子を含む。この識別子はURLであることができ、リソースはウェブページ、マルチメディアファイル(ビデオ、写真、ミュージック)などを含む、いかなる種類のものであることができる。
一般的なケースでは、クエリM1はURLのリストを含む。しかしながら、より簡潔に、以下の詳細な説明はクエリとともに含まれる1つのURLのみに基づくであろう。異なる要素は単純にそれらの要素を順に処理することができるので、1つから多数のURLへ拡張して処理することは容易である。
次に、リファレンスウェブクロールエージェントRWCAは、リファレンスウェブクロールRWCDをチェックして、リソースに対応するこのURLが既にこのリファレンスウェブクロールRWCDにダウンロードおよび追加されているかを判定することができる。
この第1の状況では、リソースが発見されることが仮定される。次に、リファレンスウェブクロールエージェントRWCAは当該リソースを、ウェブクローラWCに送信し返されるレスポンスM2に挿入することができる。
ウェブクローラWCがこのレスポンスM2を受信するときに、当該ウェブクローラWCはそのレスポンスM2の内容をチェックすることができる。ここで、当該レスポンスはリソースを含み、ウェブクローラWCはこのリソースがURLにより識別された1つであると仮定することができる。次に、ウェブクローラWCはウェブコーパスWCDに当該リソースを追加することができる。
ここで、ウェブサーバがクエリされていないが、ウェブコーパスWCDの改良が、単にリファレンスウェブクロールRWCDからリソースをコピーすることにより実施されていることが理解できる。リファレンスウェブクロールのレスポンスタイムは通常、ウェブサイトのレスポンスタイムよりも短いので、このメカニズムはインターネット上のトラフィックを低減させ、ウェブコーパスを構築するのに必要な時間を劇的に低減させるのに役立つ。
第2の状況では、ウェブクローラWCはリファレンスウェブクロールエージェントRWCAに第2のクエリM3を送信する。この第2のクエリは別のリソースのURLを含む。
上記のように、レファレンスウェブクロールエージェントRWCAは、リソースに対応するこのURLが既にダウンロードされ、かつこのリファレンスウェブクロールRWCDに追加されているかをチェックする。しかしながら、このときは、当該リソースがこれまでにダウンロードされていないと仮定する。
第1のオプションに準じて、リファレンスウェブクロールエージェントRWCAはリソースを含まないレスポンスM4は送信し返すことができる。レスポンスM4はこのリソース不存在を表すステータスインジケーションを含んでもよい。例えば、このようなステータスインジケーションは、HTTP204ステータス(「コンテンツなし」)であってもよい。
ウェブクローラWCがこのレスポンスM4を受信するときに、当該ウェブクローラWCはそのレスポンスM4の中身をチェックして、要求されるリソースおよび/またはエラーメッセージが含まれていないかを判定することができる。
本発明の実施形態に準じて、このような状況では、ウェブクローラWCは別のリファレンスウェブクロールエージェントに(図2では示していないが)別のクエリを送信してもよい。ウェブクローラWCは、いくつかのリファレンスウェブクロールエージェント(およびリファレンスエリア)を使用することができる。このような実施形態において、リファレンスウェブクロールエージェントを、リソースを含むレスポンスが受信されるまで連続してクエリすることができ、または並列でクエリすることができる。並列オプションは、リソースを含むレスポンスを取得する時間を低減させる利点をもたらすが、リファレンスウェブクロールエージェントの負荷を増大させる。
リソースを含むレスポンスが受信された場合、ウェブクローラWCは前にレスポンスM2を受信したときにように動作することができる。
ウェブクローラWCがリソースを含むレスポンスをいまだに受信していない場合(いくつかのもしくは1つのみがクエリされた状況において)、このことは、ウェブクローラWCがURLに対応するウェブサイトWSからこのリソースをダウンロードすることへのトリガとなることができる。
現状技術のメカニズムに準じて、ウェブクローラはこのURLを認識してリソースをダウンロードすることを実行する。簡潔に述べると、このことはURLに対応するウェブサイトWSにリクエストM5を送信し、当該ウェブサイトWSからこのリソースを含むレスポンスM6を受信することにある。
図3は、ウェブクローラWCどのようにURLを認識してウェブのリソースにアクセスすることができるかを示す。
インターネットの任意のクライアントとして、ウェブクローラWCを、1つの(または複数の)DNS(Domain Name Server)のアドレスにより構成する。
ウェブクローラWCは、最初に、このDNSに(またはDNSのリストの最初の1つに)リクエストMR1を、パラメータとしてのURLとともに送信する。DNSを動的に構成して、リソースのURLを、当該リソースを発見することができるウェブサイトのIPアドレスに関連付ける。DNSは、要求されたURLに対応するIPアドレスのリストを含むメッセージMR2によりこのリクエストに対して応答する。
次に、ウェブクローラWCは、このリストのIPアドレスの1つにより識別されたウェブサイトWSに、IETFのRFC2616により定義されるようなHTTP(HyperText Transfer Protocol)リクエストM5を送信することができる。このリクエストは主として、GETリクエストであり、URLを含む。
ウェブサイトWCに関連付けられたHTTPサーバは、このURLにより識別されたリソースを含む、このリクエストへのレスポンスM6を送信する。
ウェブクローラWCは、このリソースをウェブコーパスWCDに追加することができる。
第2のオプションに準じて、リソースおよび/またはエラーインジケーションを含まないメッセージM4を送信し返す代わりに、リファレンスウェブクロールエージェントRWCAは要求されたリソースのダウンロードを開始することができる。
リファレンスウェブクロールエージェントRWCA自身がこのダウンロードを実行することができ、またはリファレンスウェブクローラRWCがリソースのリストに挿入して、ダウンロードすることができる。
これらの状況では、レスポンスをウェブクローラWCに送信し返して、ウェブクローラWCに対し、クエリが処理されること、およびウェブサイトWSからリソースがダウンロードされた後に、ウェブクローラWCが当該リソースを含む別のレスポンスを要求してもよいことを通知することができる。この条件付きのレスポンスは、この状況を示すステータス情報を含むことができる。このようなステータス情報は、例えば、HTTP202ステータスであってもよい。このような条件付きのレスポンスを受信するときに、ウェブクローラは、すべてのレスポンスを受信するまで、またはウェブサイトWSからリソース自体をダウンロードするまで、待機することができる。
リファレンスウェブクローラ側では、上記説明したように、URLに対応するウェブサイトWSからリソースをダインロードして、HTTPリクエストM7をウェブサイトに送信する。当該ウェブサイトはリソースを含むレスポンスM8により応答する。
リファレンスウェブクローラRWCの自身のポリシーに準じて、リソースをリファレンスウェブクロールRWCDに追加することができ、または追加しないこともできる。これらのポリシーは、本発明の範囲外である。
次に、リファレンスウェブクロールエージェントRWCAは、ウェブクローラWCにリソースを含むレスポンスM9を送信することができる。それからは、ウェブクローラWCは、メッセージM2の受信と関連して、上記説明した状況のように動作することができる。
この第2のオプションは、第1のオプションよりも、リファレンスウェブクローラRWCがその他の当事者のクエリについて認識可能となる利点を有する。特に、いくつかのウェブクローラWCがリファレンスウェブクロールRWCDを使用する場合には、リソースをダウンロードする指示を受けてウェブクローラWC自身のウェブクロールRWCを強化する利点を得ることができる。
このことは、とりわけ、リファレンスウェブクロールRWCDが、より特定のウェブクローラWCにより使用されるジェネラリスト(generalist)ウェブコーパスを形成するときに有用となり得る。専門家された特定分野のビジネスプレイヤのおかげで、より特定のコンテンツによりウェブクロールを強化することができる。
同一の企業がリファレンスウェブクローラRWCおよびウェブクローラWCを引き受けない状況では、この振舞いは認識を管理する観点で両当事者に利点を提供する。
本発明の実施形態に準じて、リファレンスウェブクロールエージェントRWCAに送信されるクエリM1およびM3は、識別子(URL)よりはむしろ追加的なパラメータを含むことができる。特に、それらクエリは、リソースがウェブから最後にダウンロードされてからの最大期間を特定する期間制約(age constraint)を含むことができる。
リファレンスウェブクロールRWCDにおけるURLに対応するリソースが、クエリM1およびM3内部の期間制約よりも直近にダウンロードされていない場合、リファレンスウェブクロールエージェントは、当該リソースがリファレンスウェブクロールRWCDにおいていまだ発見されていないと見なすことができる。次に、リファレンスウェブクロールエージェントはウェブサイトWSからリソースをダウンロードし、またはエラーメッセージを送信し返すなど(すなわち、リソースがリファレンスウェブクロールRWCDに含まれていなかったのと同じような振舞い)のような、上記説明したオプションのいずれかを開始することができる。
図5は本発明の別の実施形態を示し、ウェブクローラWCはリファレンスインデックスRIDを利用する。用語「リファレンス」は単に、リファレンスウェブクロールRWCDからこのインデックスを作成し、当該インデックスはリファレンスエリアRAの一部であることを意味する。
本分野における既知のメカニズムに準じて、インデックスプログラムはリファレンスウェブクロールRWCDを使用して、このリファレンスインデックスRIDを作成する。リファレンスインデックス内の内容およびフォーマットは本発明の対象外である。リファレンスインデックスは、既存技術の任意のインデックスであることができる。
リファレンスインデックスは、Google(登録商標)、Microsoft(登録商標)もしくはExalead(登録商標)などのこの分野で活動する企業により提供されるインデックスであってもよい。
ここでは、リファレンスインデックスRIDは、部分的には、クライアントにより送信されるクエリの処理および応答に必要となる情報リポジトリならびにプログラムであるものとして理解すべきである。
本発明の実施形態に準じて、リファレンスクロールエージェントRWCAにクエリを送信する前に、ウェブクローラWCはリファレンスインデックスRIDにインデックスクエリを送信することができる。このような実施形態では、リファレンスウェブクロールエージェントへのクエリの送信は、これらのインデックスクエリに関連して受信されるレスポンスの内容に応じて決定されてもよい。
いくつかのオプションが可能になる。
再び図5を参照すると、第1のオプションに準じて、1つの(またはいくつかの)URLを含むインデックスクエリM10をリファレンスインデックスに送信する。
第1の状況では、リファレンスインデックスRIDは、要求されたURLに関するいかなる情報をも含まない。リファレンスインデックスRIDはウェブクローラWCに、URLがインデックス付けされていないことを示すレスポンスM11を送信し返す。
リファレンスインデックスはリファレンスウェブクロールRWCDから取得されるので、リソースがダウンロードされてなく、かつこのリファレンスウェブクロールに追加されていないことを意味することに留意するべきである。
次に、ウェブクローラWCは、このURLに対応するウェブサイトWSから、当該URLにより識別されたリソースをダウンロードすることができる。ウェブクローラWCは、ウェブサイトWSにメッセージM12を送信し、レスポンスM13内のリソースを受信する。
第2の状況では、リファレンスインデックスRIDは、URLに関連するインデックス付けされた情報を含む。次に、リファレンスインデックスRIDは、インデックスクエリM14に応答する、URL関連したインデックス付けされた情報のすべてまたは一部である情報(一般的なケースでは、インデックス付けされた情報の一部のみが送信される)を含む、レスポンスM15を送信する。
インデックスレスポンス内部の送信情報は、タグ、キーワード、情報フィールドなどのリソースの詳細を含むが、当該リソースの抜粋もしくは要約したバージョンをも含んでもよい。先に述べたように、ウェブページに関して、インデックス付けされた情報は、広告バナー、画像などを有さないページのバージョンを含むことができる。ビデオリソースに関して、インデックス付けされた情報は、ビデオのみのテキストの詳細などを含むことができる。
本発明の実施形態に準じて、ウェブクローラWCは、このインデックスレスポンスに基づいて、リソースをウェブコーパスWCDに追加することを試みる機会について決定することができる。
リソースが、ウェブクローラが構築することを目的とするウェブコーパスWCDに関連するか否かに準じて、この決定をすることができる。例えば、ウェブクローラWCが、与えられたテーマに関連したウェブコーパスを構築している場合に、ウェブクローラWCは、リファレンスインデックスが、リソースがこのテーマに対応しないことのヒントを返す場合に、当該リソースをウェブコーパスに追加しなければならないわけではない。
インデックスレスポンスから、ウェブクローラWCが、対応するリソースについてのポジティブインタレスト(positive interest)を決定する状況においては、ウェブクローラWCは、上記説明したように、リファレンスウェブクロールエージェントRWCAにURLを含むクエリM16を送信する。ウェブクローラWCがリソースを含むレスポンスM17を受信するときに、リソースはウェブコーパスWCDに追加される。
インデックスレスポンスから、ウェブクローラWCが、対応するリソースについてのインタレストを有さないと決定する状況においては、処理がここで終了することができ、リファレンスウェブクロールエージェントRWCAにはメッセージM16が送信されない。次に、ウェブクローラは別のURLを処理することができる。
別のオプションに準じて、リファレンスインデックスRIDに、クエリ言語に準じたクエリ基準を含むインデックスクエリM18が送信される。このクエリ言語は複合のものもしくは単一のものであり得る(例えば、ブール結合によりリンクされたキーワードのリスト)。
このオプションは、特に、構築されるウェブコーパスが、与えられたテーマに関連する特定のウェブコーパスであるときに意味をもつ。
リファレンスインデックスRIDは、クエリ基準にマッチする情報を送信することにより、このようなリクエストに応答してもよい。特に、レスポンスM19は、クエリ基準にマッチするリソースに対応したURLのリスト、またはURLに対応するリソースのインデックス付けされた情報に関連するURLのリストを含んでもよい。
第1のケースでは、ウェブクローラWCは受信したリストに含まれるURL毎にクエリM20を送信する必要がある場合がある。
第2のケースでは、ウェブクローラは、受信したインデックス付けされた情報を使用して、リソースの各々をクエリするのに関与するか否かを判定してもよい。次に、ウェブクローラは、受信したリストのURLの各々もしくは一部に対してクエリM20を送信してもよく、当該URLのいずれにも送信しなくてもよい。ウェブクローラは、クエリされたURLに対応するレスポンスM21を受信する。
別のオプションは、ウェブクローラが、リソースそのものをクエリすることなしに、当該リソースに含まれるURLのリストについてクエリすることを可能にさせることにある。
ウェブクローラWCは、リファレンスインデックスRIDに、URLおよびインジケータを含むインデックスクエリM22を送信する。
このインジケータを認識するために、リファレンスインデックスRIDは、このインデックスクエリM22と、上記説明したインデックスクエリM10、M14のような「通常の」インデックスクエリとを区別するであろう。リファレンスインデックスRIDは、上記のようなこのURLに関連するインデックス付けされた情報を含むかを確認するであろう。
このオプションの好ましい実施形態では、インデックス付けされた情報は、リソースに含まれるURL(ハイパーリンク)に関する情報を含む。リファレンスインデックスRIDを作成するときに、リソースを構文解析することにより、この情報が検索された可能性がある。この実施形態では、リファレンスインデックスRIDは、リソースの更なる構文解析の処理を必要とせずに、インデックスクエリに対して素早く応答することができる。インデックス付けされた情報が発見された場合、リファレンスインデックスRIDはこれらのURLを含む(もしあれば)レスポンスM23を送信する。
次に、ウェブクローラWCは、以下のクエリ、すなわち、これらのURLにより識別されたリソースについてのリファレンスウェブクロールエージェントRWCAへのクエリ、リソース自体を取得することなしにさらなるURLを取得するためのリファレンスインデックスRIDについてのクエリ、の任意のタイプに対し、これらのURLを使用することができる。
リクエストのこのタイプは、1つのリソースがこのコーパスに関与しないが(テーマなどに関連しない)、関与しているその他のリソースへのハイパーリンクをいまだに含み得る状況において、不要なリソースをウェブコーパスWCDに追加することを回避するために有用となる。
同一のウェブクローラは、これらのオプションの1つまたは複数を実装し、そのアルゴリズムに準じて当該オプションを利用して、最も効率的な方法でウェブを発見し、ウェブコーパスを構築することができる。
本発明は、好ましい実施形態を参照して説明してきた。しかしながら、本発明の範囲内で多くの変更が可能となる。

Claims (12)

  1. ウェブコーパス(WCD)を構築するための、コンピュータにより実行される方法であって、
    それぞれのリソースの各々のシーズ識別子の第1のリストに基づいて、リファレンスウェブクローラ(RWC)によるリファレンスウェブクロール(RWCD)を作成するステップと、
    それぞれのリソースの各々のシーズ識別子の第2のリストを提供するステップと、
    前記シーズ識別子の第2のリストに基づいて、ウェブクローラ(WC)によるウェブクロール(WCD)を作成するステップと
    を備え、
    前記ウェブクロール(WCD)を作成するステップは、
    コンピュータ上で稼動する前記ウェブクローラ(WC)が、リファレンスウェブクロールエージェント(RWCA)にクエリを送信するステップであって、前記クエリは少なくとも1つのリソースの識別子を含む、ステップと、
    前記ウェブクローラ(WC)が、前記リファレンスウェブクロールエージェント(RWCA)からレスポンスを受信するステップと、
    前記レスポンスが前記識別子により識別されたリソースを含まない場合、前記ウェブクローラ(WC)が、前記識別子に対応するウェブサイト(WS)から前記リソースをダウンロードし、前記リソースを前記ウェブコーパス(WCD)に追加するステップと、
    前記レスポンスが前記識別子により識別されたリソースを含む場合、前記リソースを前記ウェブコーパス(WCD)に追加するステップと
    を含み、
    前記リファレンスウェブクロールエージェント(RWCA)は、前記リファレンスウェブクロール(RWCD)のコンテンツに準じてレスポンスを作成する
    ことを特徴とするコンピュータにより実行される方法。
  2. 前記コンピュータ上で稼動する前記リファレンスウェブクロールエージェント(RWCA)が、前記リソースが前記リファレンスウェブクロール(RWCD)に含まれないと判定する場合は、前記リファレンスウェブクロールエージェント(RWCA)が、前記リソースのダウンロードならびに前記リファレンスウェブクロール(RWCD)への追加を開始することを特徴とする請求項に記載のコンピュータにより実行される方法。
  3. 前記リファレンスウェブクロール(RWCD)からリファレンスインデックス(RID)を作成するステップと、
    前記ウェブクローラ(WC)が、前記リファレンスインデックス(RID)にインデックスクエリを送信するステップと、
    前記ウェブクローラ(WC)が、前記リファレンスインデックスからレスポンスを受信するステップと、
    前記レスポンスの内容に応じて、前記リファレンスウェブクロールエージェント(RWCA)への前記クエリの送信を行うステップと
    をさらに備えることを特徴とする請求項1または2に記載のコンピュータにより実行される方法。
  4. 前記インデックスクエリは、リソースの識別子を含み、前記レスポンスが前記リソースに関連するインデックス付けされた情報を含む場合は、前記インデックス付けされた情報に準じて前記リファレンスウェブクロールエージェント(RWCA)にクエリを送信するかを決定することを特徴とする請求項に記載のコンピュータにより実行される方法。
  5. 前記インデックスクエリはクエリ基準を含み、前記リファレンスインデックスの前記レスポンスは識別子のリストを含むことを特徴とする請求項に記載のコンピュータにより実行される方法。
  6. 前記リファレンスインデックスの前記レスポンスは、前記識別子に対応するインデックス付けされた情報をさらに含むことを特徴とする請求項に記載のコンピュータにより実行される方法。
  7. 前記インデックスクエリは識別子を含み、前記リファレンスインデックスは、前記識別子により識別されたリソースに含まれる識別子の組を含むレスポンスを送信することを特徴とする請求項に記載のコンピュータにより実行される方法。
  8. 前記識別子はURLであることを特徴とする請求項1乃至7のいずれか一つに記載のコンピュータにより実行される方法。
  9. ウェブコーパス(WCD)を構築するように適合されたウェブクローラ(WC)であって、リファレンスウェブクロールエージェント(RWCA)と通信することによって、請求項1乃至8のいずれか一つに記載の方法をコンピュータに実行させるコンピュータ実行可能命令を有することを特徴とするウェブクローラ。
  10. ウェブクローラ(WC)と通信することによって、請求項1乃至8のいずれか一つに記載の方法をコンピュータに実行させるコンピュータ実行可能命令を有することを特徴とするリファレンスウェブクローラエージェント(RWCA)。
  11. 請求項9に記載のウェブクローラ、請求項10に記載のリファレンスウェブクロールエージェント、リファレンスウェブクロール、および/またはリファレンスレブクローラを備えたことを特徴とするシステム。
  12. 請求項9に記載のウェブクローラをコンピュータに実行させ、および/または請求項10に記載のリファレンスウェブクロールエージェントを前記コンピュータに実行させるコンピュータ実行可能命令を含むコンピュータプログラム。
JP2013083171A 2012-04-12 2013-04-11 リファレンスウェブクロールの支援によるウェブコーパスの構築 Active JP6254355B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP12305432.2A EP2650802B1 (en) 2012-04-12 2012-04-12 Building of a web corpus with the help of a reference web crawl
EP12305432.2 2012-04-12

Publications (2)

Publication Number Publication Date
JP2013222463A JP2013222463A (ja) 2013-10-28
JP6254355B2 true JP6254355B2 (ja) 2017-12-27

Family

ID=46022143

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013083171A Active JP6254355B2 (ja) 2012-04-12 2013-04-11 リファレンスウェブクロールの支援によるウェブコーパスの構築

Country Status (6)

Country Link
US (1) US9529911B2 (ja)
EP (1) EP2650802B1 (ja)
JP (1) JP6254355B2 (ja)
KR (1) KR102054020B1 (ja)
CN (1) CN103377291B (ja)
CA (1) CA2812439C (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8560604B2 (en) 2009-10-08 2013-10-15 Hola Networks Ltd. System and method for providing faster and more efficient data communication
CN106919696B (zh) * 2017-03-07 2020-08-14 上海携程商务有限公司 Seo站点构建方法及seo请求的响应方法
LT3780547T (lt) 2019-02-25 2023-03-10 Bright Data Ltd. Turinio parsisiuntimo, naudojant url bandymų mechanizmą, sistema ir būdas
US11394799B2 (en) 2020-05-07 2022-07-19 Freeman Augustus Jackson Methods, systems, apparatuses, and devices for facilitating for generation of an interactive story based on non-interactive data

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185789A (ja) * 1997-09-10 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 分散検索装置
JP2002351873A (ja) * 2001-05-23 2002-12-06 Hitachi Ltd メタデータ管理システムおよび検索方法
CA2588219C (en) * 2004-11-22 2014-05-20 Truveo, Inc. Method and apparatus for an application crawler
US7653617B2 (en) * 2005-08-29 2010-01-26 Google Inc. Mobile sitemaps
US20080071830A1 (en) * 2006-09-14 2008-03-20 Bray Pike Method of indexing and streaming media files on a distributed network
US20090287684A1 (en) * 2008-05-14 2009-11-19 Bennett James D Historical internet
US8346755B1 (en) * 2010-05-04 2013-01-01 Google Inc. Iterative off-line rendering process
CN102402627B (zh) * 2011-12-31 2013-08-14 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法

Also Published As

Publication number Publication date
CN103377291B (zh) 2019-09-17
CA2812439C (en) 2020-09-15
KR20130116032A (ko) 2013-10-22
JP2013222463A (ja) 2013-10-28
US20130275406A1 (en) 2013-10-17
EP2650802B1 (en) 2018-10-24
CA2812439A1 (en) 2013-10-12
KR102054020B1 (ko) 2019-12-09
CN103377291A (zh) 2013-10-30
EP2650802A1 (en) 2013-10-16
US9529911B2 (en) 2016-12-27

Similar Documents

Publication Publication Date Title
US8799262B2 (en) Configurable web crawler
US9836544B2 (en) Methods and systems for prioritizing a crawl
AU2009277143B2 (en) Federated community search
US20050149500A1 (en) Systems and methods for unification of search results
US20090100015A1 (en) Web-based workspace for enhancing internet search experience
JP2011530118A (ja) 検索クエリーに応答したディスカッションスレッドへの投稿の提供
US8930437B2 (en) Systems and methods for deterring traversal of domains containing network resources
JP2007233856A (ja) 情報処理装置、情報処理システム、および方法、並びにコンピュータ・プログラム
US20100125781A1 (en) Page generation by keyword
US20110238653A1 (en) Parsing and indexing dynamic reports
JP6254355B2 (ja) リファレンスウェブクロールの支援によるウェブコーパスの構築
JP2010257453A (ja) サーチクエリデータを用いて文書にタグ付けするシステム
JP2008287458A (ja) ブックマークサービス方法およびブックマークサービスサーバ
JP4653805B2 (ja) 意味検索プログラム
Khare et al. Smart crawler for harvesting deep web with multi-classification
UTKALUNIVERSITY Integration of web mining and web crawler: Relevance and state of art
US7502773B1 (en) System and method facilitating page indexing employing reference information
JP2003271647A (ja) 閲覧ファイルデータ提供方法、閲覧頻度データ提供方法、そのための中継装置、プログラム及び記録媒体
Ganibardi et al. Web Usage Data Cleaning: A Rule-Based Approach for Weblog Data Cleaning
Chumbe et al. Overcoming the obstacles of harvesting and searching digital repositories from federated searching toolkits, and embedding them in VLEs
Angioni et al. User Oriented Information Retrieval in a Collaborative and Context Aware Search Engine
WO2008030568A2 (en) Feed crawling system and method and spam feed filter
JP2007026457A (ja) 閲覧頻度データ提供方法、そのための中継装置、プログラム及び記録媒体
O'Riordan et al. Engineering an Open Web Syndication Interchange with Discovery and Recommender Capabilities
Builders' Guide TAPIR-TDWG Access Protocol for Information Retrieval

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20141222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150202

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160411

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170221

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171130

R150 Certificate of patent or registration of utility model

Ref document number: 6254355

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250