JP5165717B2 - デッドリンク判定装置及び方法 - Google Patents

デッドリンク判定装置及び方法 Download PDF

Info

Publication number
JP5165717B2
JP5165717B2 JP2010073420A JP2010073420A JP5165717B2 JP 5165717 B2 JP5165717 B2 JP 5165717B2 JP 2010073420 A JP2010073420 A JP 2010073420A JP 2010073420 A JP2010073420 A JP 2010073420A JP 5165717 B2 JP5165717 B2 JP 5165717B2
Authority
JP
Japan
Prior art keywords
url
unit
content
dead link
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010073420A
Other languages
English (en)
Other versions
JP2011204184A (ja
Inventor
雄作 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2010073420A priority Critical patent/JP5165717B2/ja
Publication of JP2011204184A publication Critical patent/JP2011204184A/ja
Application granted granted Critical
Publication of JP5165717B2 publication Critical patent/JP5165717B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、デッドリンク判定装置及び方法に関する。特に、通信ネットワーク上のWebコンテンツのリンク切れを検出するデッドリンク判定装置及び方法に関する。
インターネット上には、膨大な情報が開示されている。ユーザがインターネットからこのユーザが所望する情報を取得するには、端末を使って検索サイトに接続し、検索サイトから得られる検索結果から、ユーザが所望する情報が含まれると思われるWebページに接続する場合が多い。
検索エンジンがインターネット上の膨大な情報に基づいて検索結果を提供するには、予めインターネット上の情報を収集しておく必要がある。まず、検索エンジンのクローラがインターネット上の各Webサイトを巡回し、Webサイトに含まれるリンク先のURL(Uniform Resouece Locator)やWebサイトの情報を取得しデータベースに蓄積する。次にインデクサが、蓄積された情報に対してインデックスを付与する。そして、検索エンジンは、検索要求があった場合、インデックスが付与された情報を検索して検索結果を端末に送信する。
ところで、検索エンジンが最新の情報に基づく検索結果を返すためには、データベースに蓄積された情報は、常に最新の情報であることが好ましい。しかし、データベースに蓄積された情報も膨大なものとなるので、クローラがこの蓄積された情報全てについて、くまなく収集し、最新の状態に更新するにも限界がある。
一方、Webサイトによっては、URLで指定されたアドレスからコンテンツが削除又は移動されるものもある。このため、検索エンジンに蓄積されたURLが、コンテンツが削除又は移動される前の古いURLとなり、デッドリンク(リンク切れ)となることもある。そして、このデッドリンクとなったURLが検索結果に含まれる場合、ユーザに不要な情報を提供することになり、検索サービスの低下につながるおそれもある。
そこで、デッドリンクとなったURLを効率よく探し出す装置及び方法が求められている(例えば、特許文献1及び特許文献2)。
特開2001−282604号公報 特開2003−280974号公報
特許文献1に記載の装置は、Webページの構造をツリー表示し、デッドリンクとなったURLがある場合にはその旨を表示する。すなわち、特許文献1に記載の装置は、個々のWebサイトについてデッドリンクの有無を報知する。しかし、特許文献1に記載の装置では、検索エンジンに蓄積された全てのURLに対してデッドリンクの有無を判定するには非効率的である。
特許文献2に記載の装置は、アクセスログファイルを参照してリンク切れを示すエラーコードを検出することで、そのときにアクセスしたWebページのURLがデッドリンクであると判定する。しかし、検索エンジンのデータベースには膨大な量のURLが蓄積されており、クローラがデータベースに蓄積されている全てのURLに基づいてWebサイトを巡回するにも多大な時間を要する。このため、クローラがアクセスする度に網羅的にデッドリンクを検出するのは効率的ではない。
そこで、本発明は、デッドリンクの発生を効率的に検出することができるデッドリンク判定装置及び方法を提供することを目的とする。
(1)検索サーバ及びWebサーバに通信可能に接続され、前記Webサーバのコンテンツがデッドリンクであるか否かを判定するデッドリンク判定装置であって、前記検索サーバで使用されたクエリの中で使用頻度が所定値より高いクエリを記憶するクエリ記憶手段と、前記検索サーバ及び前記Webサーバの巡回用のURLを記憶するURL記憶手段と、前記検索サーバの検索結果を得るためのURLに、前記クエリ記憶手段に記憶されている前記クエリをパラメータとして含むURLを生成するURL生成手段と、前記URL生成手段により生成された前記URLを前記URL記憶手段に記憶させる第1URL記憶制御手段と、前記URL記憶手段に記憶されているURLを取得して、当該URLに基づいて前記検索サーバ又は前記Webサーバを巡回し、当該URLのコンテンツを取得する巡回取得手段と、前記巡回取得手段により取得したコンテンツを解析して、デッドリンクであるか否かの判定及び前記コンテンツに含まれるURLの抽出を行う解析手段と、前記解析手段により抽出された前記URLを前記URL記憶手段に記憶させる第2URL記憶制御手段と、前記解析手段により前記デッドリンクであると判定されたURLを出力する出力手段と、を、備えるデッドリンク判定装置。
(1)に記載の発明によれば、デッドリンク判定装置は、前記検索サーバで使用されたクエリの中で使用頻度が所定値より高いクエリに基づいて、当該クエリをパラメータとして含むURLを生成し、巡回取得手段が当該URLに基づいて検索サーバ又はWebサーバを巡回して当該URLのコンテンツを取得する。また、デッドリンク判定装置は、巡回取得手段が取得したコンテンツを解析して、当該コンテンツがデッドリンクであるか否かを判定すると共に、コンテンツが検索サーバから得られたものである場合にコンテンツに含まれるURLの抽出を行う。そして、デッドリンク判定装置は、デッドリンクであると判定されたコンテンツのURLを出力する。
これにより、デッドリンク判定装置は、使用頻度の高いクエリに基づく検索結果として取得されるURLのコンテンツに対してデッドリンクの判定を行うことができる。使用頻度の高いクエリの検索結果として取得されるコンテンツは、ユーザによりアクセスされる可能性が高いコンテンツである場合が多い。したがって、デッドリンク判定装置は、参照されやすいコンテンツに対して選択的にデッドリンクの判定を行うことができ、またデッドリンクの発生を効率的に検出することができる。
(2)前記URL記憶手段は、キューにより実装される(1)に記載のデッドリンク判定装置。
(2)に記載の発明によれば、(1)に記載の発明に加えて、URL記憶手段はキューにより実装される。キューは先入れ先出しのデータ構造である。このため、巡回取得手段は、URL記憶手段に記憶されたURLのうち、一番古いURLから順番に取り出して巡回することができる。
(3)前記URL記憶手段は、前記URLのうち所定の部分が共通する複数のWebページにより構成されるWebサイト毎に記憶領域を有し、前記解析手段は、前記コンテンツに含まれるURLを抽出し、抽出したURLが、前記URL記憶手段に前記記憶領域を有する前記WebサイトのURLの前記所定の部分と共通するか否かを判定し、前記第2URL記憶制御手段は、前記解析手段の判定に応じて、前記解析手段により抽出された前記URLを前記Webサイト毎の記憶領域に振り分けて記憶させる(1)又は(2)に記載のデッドリンク判定装置。
(3)に記載の発明によれば、(1)又は(2)に記載の発明に加えて、URL記憶手段は、Webサイト毎の記憶領域を有する。解析手段は、抽出したURLが、URL記憶手段に記憶領域を有するWebサイトに属するものであるかを判定する。そして、第2URL記憶制御手段は、解析手段の判定に応じて、解析手段が抽出したURLをURL記憶手段においてWebサイト毎に設けられた記憶領域に振り分けて記憶させる。例えば、頻繁に検索対象となるWebサイト毎に記憶領域を設けた場合に、巡回取得手段は、その当該Webサイト用に設けられた記憶領域からURLを取得する。このため、デッドリンク判定装置は、当該Webサイトに含まれるURLを集中的に巡回してデッドリンクの判定を行うことができる。
(4)通信ネットワーク上にある前記Webサーバのコンテンツがデッドリンクであるか否かを判定するデッドリンク判定方法であって、検索に使用された回数が平均値より高いクエリを記憶するクエリ記憶手段と、検索サーバ及び前記Webサーバの巡回用のURLを記憶するURL記憶手段と、を備え、コンピュータに、検索結果を得るためのURLとして、前記クエリ記憶手段に記憶されている前記クエリをパラメータとして含むURLを生成するステップと、前記URL生成手段により生成された前記URLを前記URL記憶手段に記憶させるステップと、前記URL記憶手段に記憶されているURLを取得して、当該URLに基づいて前記通信ネットワークを巡回し、当該URLのコンテンツを取得するステップと、取得したコンテンツを解析して、デッドリンクであるか否かの判定及び前記コンテンツに含まれるURLの抽出を行うステップと、抽出された前記URLを前記URL記憶手段に記憶させるステップと、前記デッドリンクであると判定されたURLを出力するステップと、を実行させるデッドリンク判定方法。
(4)に記載の発明によれば、(1)と同様の効果を奏することができる方法を提供することができる。
本発明によれば、デッドリンクの発生を効率的に検出することができるデッドリンク判定装置及び方法を提供することができる。
本発明の実施形態に係るWeb検索システムの全体構成及びデッドリンク判定装置の機能構成を示す図である。 本発明の実施形態に係るURL記憶部の内部構成を示す概念図である。 本発明の実施形態に係る管理テーブルを示す図である。 本発明の実施形態に係るデッドリンク判定装置の制御部がURLを生成して記憶する処理の流れを示すフローチャートである。 本発明の実施形態に係るデッドリンク判定装置の制御部がデッドリンクを判定する処理の流れを示すフローチャートである。
以下、本発明の実施形態について図面を参照して説明する。なお、以下に説明する実施形態は、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
図1を参照して、本実施形態の一例である、Web検索システム1の全体構成について説明する。図1は、本発明の実施形態に係るWeb検索システム1の全体構成及びデッドリンク判定装置10の機能構成を示す図である。
Web検索システム1は、デッドリンク判定装置10と、検索サーバ20と、Webサーバ30と、で構成される。デッドリンク判定装置10と、検索サーバ20と、Webサーバ30とはそれぞれ通信ネットワークNを介して互いに通信可能である。
デッドリンク判定装置10は、Webサーバ30上に公開され、検索サーバ20により提供されるコンテンツについて、当該コンテンツのURLがデッドリンク(リンク切れ)となっているか否かを判定する。詳細は後述する。
検索サーバ20は、検索エンジン21を有し、検索サービスを提供する。この検索サーバ20は、検索結果として、Webサーバ30で提供するコンテンツにアクセスするためのURLを提供する。
Webサーバ30は、通信ネットワークN上でWebサイト等のコンテンツを提供する。
通信ネットワークNは、光回線やADSL(Asymmetric Digital Subscriber Line)等の有線通信網(公衆回線網)や、携帯電話機あるいはPHS等を端末とした移動体通信網により形成される。通信ネットワークNは、具体的には、LAN(Local Area Network)やインターネット等のコンピュータネットワークにより構成される。
図1を参照して、デッドリンク判定装置10の構成について説明する。
デッドリンク判定装置10は、記憶部11と、操作部12と、表示部13と、制御部14とを備える。
記憶部11は、ハードディスク装置や光磁気ディスク装置、ROM(Read Only Memory)等の不揮発性のメモリ、RAM(Random Access Memory)等の揮発性のメモリ、あるいはこれらの組み合わせによるコンピュータ読み取り可能及び書き込み可能な記憶媒体により構成される。
記憶部11は、クエリ記憶手段としてのクエリ記憶部111と、URL記憶手段としてのURL記憶部112とを備える。
クエリ記憶部111は、検索サーバ20の検索エンジン21において使用されたクエリの中で使用頻度が所定値より高いクエリを記憶する。本実施形態では、このクエリは、検索サーバ20において検索に使用されたクエリについて集計されて昇順に順位付けが行われた結果、上位から所定順位内にあるクエリである。クエリ記憶部111は、後述の制御部14が定期的に検索サーバ20に接続して取得したクエリを記憶する。なお、クエリ記憶部111は、集計された結果、使用回数の平均値より高いクエリを記憶してもよい。
URL記憶部112は、後述の巡回取得部143が巡回するためのURLを記憶する。URL記憶部112は、キューにより実装される。
ここで、図2を参照してURL記憶部112の内部構成について説明する。図2は、URL記憶部112の内部構成を示す概念図である。
URL記憶部112は、複数のキューにより実装される。本実施形態では、URL記憶部112は、第1キュー112aと、第2キュー112bと、第3キュー112cと、第4キュー112dとを備える。
第1キュー112a及び第2キュー112bは、所定のWebサイト毎に設けられた記憶領域であり、指定されたWebサイトに属するコンテンツのURLがそれぞれ格納される。本実施形態では、例えば、Webサイト「a」用の記憶領域として第1キュー112aが設けられており、また、Webサイト「b」用の記憶領域として第2キュー112bが設けられている。
第3キュー112cは、後述の巡回取得部143が検索サーバ20にアクセスするためのキューであり、後述のURL生成部141が生成したURLが格納される。
第4キュー112dは、後述の巡回取得部143が収集したURLのうち、第1キュー112a、第2キュー112b又は第3キュー112cに格納されないURLが格納される。
図1に戻って、操作部12は、デッドリンク判定装置10に対する入力の受け付けを行うものであり、キーボード、マウス、タッチペン、タッチパネル等により構成されるものとする。
表示部13は、デッドリンク判定装置10の管理者にデータの入力を受け付ける画面を表示したり、デッドリンク判定装置10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
制御部14は、CPU(Central Processing Unit:中央処理装置)等により構成されており、デッドリンク判定装置10の各処理の実行を制御する。制御部14は、下記の各部の機能を実現するためのプログラムを記憶部11から読み込んで実行することによりその機能を実現させるものであってもよいし、また、専用のハードウェアにより実現されるものであってもよい。
制御部14は、URL生成手段としてのURL生成部141と、第1URL記憶制御手段としての第1URL記憶制御部142と、巡回取得手段としての巡回取得部143と、解析手段としての解析部144と、第2URL記憶制御手段としての第2URL記憶制御部145と、出力手段としての出力部146と、を備える。
URL生成部141は、後述の巡回取得部143が巡回するためのURLを生成する。詳細には、URL生成部141は、検索エンジン21から、クエリ記憶部111に記憶されているクエリの検索結果を得るために検索サーバ20に送信されるURLを生成する。すなわち、URL生成部141は、クエリ記憶部111から読み込んだクエリをパラメータとして含むURLを生成する。
第1URL記憶制御部142は、URL生成部141が生成したURLをURL記憶部112に記憶させる。本実施形態では、第1URL記憶制御部142は、当該URLをURL記憶部112の第3キュー112cに記憶させる。
巡回取得部143は、URL記憶部112に記憶されているURLを読み出して、当該URLに基づいて通信ネットワークN上の検索サーバ20又はWebサーバ30を巡回する。巡回取得部143は、いわゆるクローラであり、URL記憶部112から読み出したURLに基づいて検索サーバ20又はWebサーバ30に接続し、当該検索サーバ20又はWebサーバ30から提供されるデータを取得して、取得したデータを解析部144に出力する。
ここで、URL記憶部112には、URL生成部141が生成したURLが記憶されているので、巡回取得部143は、当該URLに基づいて検索サーバ20に接続する。URL生成部141が生成したURLは、クエリ記憶部111から読み込んだクエリをパラメータとして含む。したがって、巡回取得部143は、当該URLに基づいて検索サーバ20の検索エンジン21に当該クエリについての検索結果を出力させる検索命令を送信することになる。具体的には、巡回取得部143は、HTTP(Hyper Text Transfer Protocol)プロトコルのGETメソッドを使用して、検索エンジン21から検索結果を取得する。
したがって、このURLのコンテンツは、検索サーバ20において使用頻度の高いクエリの検索結果を含むため、結果として検索サーバ20のユーザにアクセスされやすいURLをリンク先として含むことになる。
ここで、巡回取得部143がURL記憶部112からURLを取得するタイミングは、URL記憶部112に設けられた複数のキュー毎にそれぞれ異なるようにしてもよい。URL記憶部112に設けられた複数のキューのうち、第1キュー112a及び第2キュー112bは、所定のWebサイトに属するコンテンツのURLのみがそれぞれ格納される。このため、巡回取得部143は、指定されたWebサイト毎(当該WebサイトのWebサーバ30)に、間隔を調整して接続し、コンテンツを取得することができる。
巡回取得部143がURL記憶部112からURLを取り出すタイミングは、例えば、図3に示すような管理テーブル50により管理される。この管理テーブル50は、記憶部11に記憶される。ここで図3を参照して、管理テーブル50について説明する。図3は、管理テーブル50を示す図である。
管理テーブル50は、クロール対象のWebサイト名と、後述の解析部144が参照する解析内容と、クロール間隔と、記憶先キューとがそれぞれ関連付けられている。
例えば、図3の管理テーブル50によると、クロール対象のWebサイトのうち、Webサイト「a」というサイトの場合、クロール間隔は2秒であり、記憶先キューは、第1キュー112aである。したがって、巡回取得部143は、第1キュー112aから2秒間隔でURLを取り出し、当該URLに基づいてコンテンツを取得する。
図1に戻って、解析部144は、巡回取得部143が取得したコンテンツについて、管理テーブル50の解析内容を参照して、解析を行う。管理テーブル50の解析内容には、解析部144がどのように解析するかについて記載されている。例えば、管理テーブル50の解析内容は、クロール対象サイトごとに、「検索結果からURLを抽出する」といった内容や、「HTTPプロトコルのステータスコードが「303」の場合はデッドリンクと判定する」といった内容のように、解析の指示内容が記載されている。
まず、解析部144は、巡回取得部143が取得したコンテンツが検索サーバ20から取得した検索結果であるか否かを判定する。
解析部144は、当該コンテンツが検索サーバ20から取得した検索結果であると判定した場合、当該コンテンツを解析して、当該コンテンツに含まれるURLを第2URL記憶制御部145に出力する。
また、解析部144は、当該コンテンツが検索サーバ20から取得した検索結果ではないと判定した場合、当該コンテンツについて、デッドリンクであるか否かを判定する。
デッドリンクの判定は、上述のように、管理テーブル50を参照して行われ、例えば、コンテンツのURLのWebサーバ30にリクエストを送信し、返信されるレスポンス・データに含まれるステータス・コードにより判定できる。例えば、HTTPプロトコルでステータス・コードが「404 (Not Found)」であれば、URLで指定したファイルが存在しなかったことを示すため、解析部144は、当該コンテンツがデッドリンクであると判定できる。また、解析部144は、管理テーブル50を参照し、ステータス・コードが「303」や「403」であってもデッドリンクであると判定する場合もある。
解析部144は、当該コンテンツがデッドリンクであると判定した場合には、当該URLを出力部146に出力する。また、解析部144は、コンテンツのURLがデッドリンクでないと判定した場合、解析に係る処理を終了する。
第2URL記憶制御部145は、解析部144が検索サーバ20から取得したコンテンツであると判定したコンテンツに含まれるURLをURL記憶部112に記憶させる。このとき、第2URL記憶制御部145は、当該URLが所定のWebサイトに属するコンテンツのURLであるか否かを判定する。所定のWebサイトは、URL記憶部112の第1キュー112a又は第2キュー112bに関連付けられたサイトである。
また、第2URL記憶制御部145は、例えば、所定のWebサイトのURLと解析部144から入力されたURLとを比較して所定の部分が共通するか否かを判定する。所定の部分とは、例えば、当該Webサイトのドメイン名を示す部分である。そして、第2URL記憶制御部145は、解析部144から入力されたURLが所定のWebサイトに属するコンテンツのURLであると判定した場合、URL記憶部112における当該Webサイト用に設けられたキュー(第1キュー112a又は第2キュー112b)に記憶させる。
例えば、第2URL記憶制御部145は、解析部144から受け取ったURLをWebサイト「a」に属するコンテンツのURLであると判定した場合、本実施形態では、当該URLを第1キュー112aに記憶させる。
また、第2URL記憶制御部145は、解析部144から入力されたURLが所定のサイトに属さないコンテンツのURLであると判定した場合、本実施形態では第4キュー112dに当該URLを記憶させる。
出力部146は、解析部144がデッドリンクであると判定したコンテンツのURLを出力する。例えば、出力部146は、検索サーバ20の検索エンジン21や表示部13等に、当該URLを出力する。
続いて、図4及び図5を参照して、デッドリンク判定装置10が行う処理について説明する。図4はデッドリンク判定装置10の制御部14がURLを生成して記憶する処理の流れを示すフローチャートである。
ステップS11では、制御部14のURL生成部141は、クエリ記憶部111からクエリを取得する。そして、URL生成部141は、検索エンジン21から、クエリ記憶部111に記憶されているクエリの検索結果を得るため、検索結果のURLを生成する(ステップS12)。
ステップS13では、第1URL記憶制御部142は、URL生成部141が生成したURLをURL記憶部112(第3キュー112c)に記憶させる。
図5は、デッドリンク判定装置10の制御部14がデッドリンクを判定する処理の流れを示すフローチャートである。
ステップS21では、制御部14の巡回取得部143は、URL記憶部112から巡回用のURLを取得する。そして、巡回取得部143は、取得したURLに基づいて検索サーバ20又はWebサーバ30に接続し、当該URLのコンテンツを取得する(ステップS22)。
ステップS23では、制御部14の解析部144は、コンテンツが検索サーバ20から取得した検索結果であるか否かを判定する。解析部144は、この判定がYESの場合、ステップS24に処理を移し、この判定がNOの場合、ステップS26に処理を移す。
ステップS24では、解析部144は、検索サーバ20から取得したコンテンツ、すなわち、検索結果を解析し、URLを抽出する。このとき、第2URL記憶制御部145は、解析部144が出力したURLについて、所定のWebサイトに属するコンテンツのURLであるかを判定し、所定のWebサイトに属すると判定した場合は、当該Webサイト用に設けられたURL記憶部112の記憶領域(本実施形態では第1キュー112a又は第2キュー112b)に振り分けて記憶させる。
ステップS25では、第2URL記憶制御部145は、ステップS24にて抽出されたURLをURL記憶部112に記憶させる。この処理が終了すると、第2URL記憶制御部145は、処理をステップS28に移す。
ステップS26では、制御部14の解析部144は、コンテンツがデッドリンクであるか否かを判定する。解析部144は、この判定がYESの場合、ステップS27に処理を移し、この判定がNOの場合、ステップS28に処理を移す。
ステップS27では、制御部14の解析部144は、デッドリンクであると判定したコンテンツのURLを出力部146に出力する。そして出力部146は、当該コンテンツのURLを出力する。
ステップS28では、制御部14は、終了指示があったか否かを判定する。終了指示は、例えば、デッドリンク判定装置10の管理者が操作部12により上記の処理を終了する指示を入力することにより行われる。制御部14は、この判定がYESの場合、本フローチャートの処理を終了し、この判定がNOの場合、ステップS21に処理を移す。
上述の実施形態によれば、デッドリンク判定装置10は、検索サーバ20で使用されたクエリの中で使用頻度が所定値より高いクエリをクエリ記憶部111に記憶しておき、URL生成部141がクエリ記憶部111からクエリを読み出して、当該クエリをパラメータとして含むURLを生成する。そして、デッドリンク判定装置10は、URL記憶部112に生成されたURLを記憶させ、URL記憶部112からURLを順次読み出して当該URLが示すWebページのコンテンツ(データ)を取得する。そして、デッドリンク判定装置10は、コンテンツがデッドリンクであるか否かを判定し、デッドリンクである場合は、当該コンテンツのURLを出力する。また、デッドリンク判定装置10は、検索サーバ20の検索結果である場合は当該コンテンツに含まれるURLをURL記憶部112に記憶させ、さらにそのURLについてのデッドリンクの判定を繰り返す。このため、デッドリンク判定装置10は、使用頻度の高いクエリの検索結果に基づいて巡回取得部143がクロールするURLを定めることができる。使用頻度の高いクエリの検索結果として示されたURLは、頻繁にアクセスされやすいURLということができる。したがって、デッドリンク判定装置10は、アクセス頻度が高いと想定されるURLについて選択的にクロールし、デッドリンクの判定を行うことができるため効率的である。
また、上述の実施形態によれば、URL記憶部112は、キューにより実装され、巡回取得部143が取得したコンテンツであって、検索サーバ20の検索結果であるコンテンツに含まれるURLは全てURL記憶部112に記憶される。キューは先入れ先出しのデータ構造であるため、巡回取得部143は、キューに記憶された順に巡回することができる。
また、上述の実施形態によれば、URL記憶部112は、所定のWebサイト毎に複数の記憶領域(キュー)を有する。そして、解析部144がデッドリンクでないと判定したコンテンツに含まれるURLについて、第2URL記憶制御部145は、URL記憶部112に記憶領域が設けられたWebサイトに属するコンテンツのURLであるか否かを判定し、それぞれの記憶領域に振り分けて記憶させる。また、記憶部11には、管理テーブル50が記憶されており、制御部14は当該管理テーブル50にしたがって巡回取得部143の挙動を管理し、巡回取得部143の管理手段として機能する。このため、例えば、著名な検索ポータルサイトや通販サイト等のようにアクセス頻度が高くかつ更新頻度の高いWebサイトに対して、巡回取得部143が巡回する頻度を調節してデッドリンクの判定を行うことができる。そして、デッドリンク判定装置10は、巡回取得部143が短時間で大量のアクセスを行い、接続先のサーバに多大な負荷をかけるような事態を防止できる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
本実施形態では、URL記憶部112には、所定のWebサイトに対応して設けられた第1キュー112a及び第2キュー112bと、検索サーバ20に対応して設けられた第3キュー112cと、所定のWebサイト以外のサイトに対応して設けられた第4キュー112dの4つの記憶領域を有するとしたが、記憶領域(キュー)の数は4つに限らず、これより多くの数の記憶領域(キュー)を設けてもよい。
10 デッドリンク判定装置
14 制御部
20 検索サーバ
30 Webサーバ
111 クエリ記憶部
112 URL記憶部
112a 第1キュー
112b 第2キュー
112c 第3キュー
112d 第4キュー
141 URL生成部
142 第1URL記憶制御部
143 巡回取得部
144 解析部
145 第2URL記憶制御部
146 出力部
N 通信ネットワーク

Claims (5)

  1. 互いに異なるURLを記憶する複数の記憶領域を有する記憶手段と、
    前記複数の記憶領域のそれぞれと、巡回対象サイトと、解析内容とが対応付けられて設定されているテーブルと、
    前記複数の領域の各々からURLを読み出し、読み出したURLに基づいて前記巡回対象サイトを巡回してコンテンツを取得する取得手段と、
    前記テーブルを参照し、取得されたコンテンツの取得元の前記巡回対象サイトに対応する前記解析内容に基づいて前記取得されたコンテンツを解析して、前記取得されたコンテンツがデッドリンクであるか否か判定する判定手段と、
    を具備するデッドリンク判定装置。
  2. 前記テーブルにおいて、検索サーバ以外の巡回対象サイトに対しては、前記解析内容として、デッドリンクの判定が設定される、
    請求項1に記載のデッドリンク判定装置。
  3. 前記テーブルにおいて、さらに、前記複数の記憶領域のそれぞれと、巡回間隔とが対応付けられて設定されている、
    請求項1又は2に記載のデッドリンク判定装置。
  4. 前記テーブルにおいて、検索サーバに対する巡回間隔は、検索サーバ以外の巡回対象サイトに対する巡回間隔よりも短く設定される、
    請求項3に記載のデッドリンク判定装置。
  5. コンピュータが、
    互いに異なるURLを記憶する複数の記憶領域の各々からURLを読み出し、
    読み出されたURLに基づいて巡回対象サイトを巡回してコンテンツを取得し、
    前記複数の記憶領域のそれぞれと、巡回対象サイトと、解析内容とが対応付けられて設定されているテーブルを参照し、取得されたコンテンツの取得元の前記巡回対象サイトに対応する前記解析内容に基づいて前記取得されたコンテンツを解析して、前記取得されたコンテンツがデッドリンクであるか否か判定する、
    デッドリンク判定方法。
JP2010073420A 2010-03-26 2010-03-26 デッドリンク判定装置及び方法 Active JP5165717B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010073420A JP5165717B2 (ja) 2010-03-26 2010-03-26 デッドリンク判定装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010073420A JP5165717B2 (ja) 2010-03-26 2010-03-26 デッドリンク判定装置及び方法

Publications (2)

Publication Number Publication Date
JP2011204184A JP2011204184A (ja) 2011-10-13
JP5165717B2 true JP5165717B2 (ja) 2013-03-21

Family

ID=44880733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010073420A Active JP5165717B2 (ja) 2010-03-26 2010-03-26 デッドリンク判定装置及び方法

Country Status (1)

Country Link
JP (1) JP5165717B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220140403A (ko) * 2021-04-09 2022-10-18 쿠팡 주식회사 키워드 광고와 관련된 링크를 관리하는 방법 및 장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331335B (zh) * 2014-11-20 2018-03-23 国家电网公司 门户网站的死链检查方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3987690B2 (ja) * 1996-02-28 2007-10-10 Gmoインターネット株式会社 通信システム及びホストコンピュータ
JP2001265695A (ja) * 2000-03-16 2001-09-28 Makiko Ishikawa 共有url管理方法
JP4606548B2 (ja) * 2000-05-25 2011-01-05 富士通株式会社 検索システムのメンテナンス方法及び検索システム
JP2004102470A (ja) * 2002-09-06 2004-04-02 Global Vision:Kk 掲示板情報表示方法、掲示板情報表示システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220140403A (ko) * 2021-04-09 2022-10-18 쿠팡 주식회사 키워드 광고와 관련된 링크를 관리하는 방법 및 장치
KR102569862B1 (ko) * 2021-04-09 2023-08-24 쿠팡 주식회사 키워드 광고와 관련된 링크를 관리하는 방법 및 장치
KR20230124874A (ko) * 2021-04-09 2023-08-28 쿠팡 주식회사 키워드 광고와 관련된 링크를 관리하는 방법 및 장치

Also Published As

Publication number Publication date
JP2011204184A (ja) 2011-10-13

Similar Documents

Publication Publication Date Title
US8903800B2 (en) System and method for indexing food providers and use of the index in search engines
US9940391B2 (en) System, method and computer readable medium for web crawling
US20120016857A1 (en) System and method for providing search engine optimization analysis
CN109033403B (zh) 用于搜索区块链数据的方法、装置及存储介质
US9323861B2 (en) Method and apparatus for enhanced web browsing
CN111814024B (zh) 分布式数据采集方法、系统及存储介质
CN106250454A (zh) 一种页面脚本的加载方法及装置
CN106776983A (zh) 搜索引擎优化装置和方法
Dividino et al. Strategies for efficiently keeping local linked open data caches up-to-date
CN110555146A (zh) 一种网络爬虫伪装数据的生成方法及系统
CN103902667A (zh) 一种基于元搜索的网络信息采集器简单实现方法
US10491606B2 (en) Method and apparatus for providing website authentication data for search engine
Singh et al. Enhancing the performance of web proxy server through cluster based prefetching techniques
JP5364012B2 (ja) データ抽出装置、データ抽出方法、および、データ抽出プログラム
CN109086414B (zh) 用于搜索区块链数据的方法、装置及存储介质
JP5165717B2 (ja) デッドリンク判定装置及び方法
Deka NoSQL web crawler application
KR20120071827A (ko) 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치 및 수집 방법
Chen et al. Optimization research and application of enterprise website based on web service
CN109246069B (zh) 网页登录方法、装置和可读存储介质
CN110677270B (zh) 一种域名的可缓存性分析方法及系统
US8117148B2 (en) Automatic updating apparatus, automatic updating method, and programmable storage medium embodying program to perform method for automatic updating
KR20120090131A (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
Bai et al. Discovering URLs through user feedback
Liu et al. WRT: Constructing Users' Web Request Trees from HTTP Header Logs

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120612

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121219

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5165717

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350