JP2008257695A - 情報収集方法及び情報収集装置 - Google Patents

情報収集方法及び情報収集装置 Download PDF

Info

Publication number
JP2008257695A
JP2008257695A JP2008032331A JP2008032331A JP2008257695A JP 2008257695 A JP2008257695 A JP 2008257695A JP 2008032331 A JP2008032331 A JP 2008032331A JP 2008032331 A JP2008032331 A JP 2008032331A JP 2008257695 A JP2008257695 A JP 2008257695A
Authority
JP
Japan
Prior art keywords
information
time
date
recollection
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008032331A
Other languages
English (en)
Other versions
JP4917057B2 (ja
Inventor
Kenji Yoshida
健児 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008032331A priority Critical patent/JP4917057B2/ja
Publication of JP2008257695A publication Critical patent/JP2008257695A/ja
Application granted granted Critical
Publication of JP4917057B2 publication Critical patent/JP4917057B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】Webサイトから収集したデータの更新処理の効率化を図り、検索サービスの品質向上を実現する方法及び情報収集装置を提供する。
【解決手段】通信ネットワーク30を介してWebサイト20と接続可能な情報収集装置10が、収集したWebサイト20の情報を再収集する日時を再収集予定データとしてWebサイト20の特定情報と関連付けてリクロールDB60に記憶し、リクロールDB60の記憶内容に基づいて、当該再収集予定データが示す日時が現在日時に達しているか否かを判定し、現在日時に達していると判定された場合に、前記再収集予定データに関連付けられた特定情報に基づいたWebサイト20の情報を再収集し、現在日時に達していないと判定された場合に、前記情報の再収集を一時的に停止する。
【選択図】図1

Description

本発明は、情報収集方法及び情報収集装置に関する。
従来、インターネットの検索サイトでは、ユーザによるキーワード入力等の検索要求に応じて、検索結果をリストとしてユーザに提供するサービスが行われている。このような検索サイトの運営側は、通常、クローラ或いはロボット型検索エンジン等と呼ばれるプログラムを用いて、インターネット上のWebサイトにある文書や画像等のデータを収集している。そして、当該収集したデータに索引(インデクス)等をつけてデータベースに記憶し、ユーザによる検索要求に応じた検索結果リストを、当該データベースを参照して作成し、ユーザの端末に送信している。
このように、検索サイトは、ユーザの端末から検索要求があったときに、インターネット上のWebサイトを検索するのではなく、収集したデータを保存したデータベースを検索して検索結果をユーザに返すことが出来る。
ところで、現在世界中のWebサイトは次々に更新され、また新たなサイトが追加されているため、上述のような予め収集したデータベースの内容と実際のWebサイトの内容との間には差異が生じることになる。従って、検索サイトの運営者にとって、上述のデータの収集の頻度を高め、データベースに記憶したデータの「鮮度」を保つことにより、最新のデータに基づいた検索結果をユーザに提供することが、検索サービスの品質向上を図るための重要な課題となっている。
このような状況において、特許文献1に記載の技術によれば、Webサイトの情報を現在時刻の経過に応じて収集することができる。具体的には、サイト情報登録部には、アクセスすべき特定サイトに関する情報、収集を開始する日時を示す情報等を記憶しておき、サイト管理部が、情報収集開始時刻を読み出して現在時刻が情報収集開始時刻と一致するものがあると判定した場合に情報収集を開始する。
特開2004−318746号公報
しかしながら、特許文献1に記載の技術によって、Webサイトから収集した膨大なデータを、効率よく更新することはできない。より具体的には、インターネット上のWebサイトの情報を収集するとコンテンツDBには膨大な量のデータが記憶されるため、一度、収集したデータを更新するには、そのデータ量に比例した処理時間を要する。このため、コンテンツDBのデータ更新にも膨大な処理時間がかかり、最新のデータに基づいた検索結果をユーザに提供することが困難であった。
ここで、図に基づき、従来の技術について説明する。図10は、従来の情報収集装置によるデータ更新処理のシステム概要を示す図である。図11は、従来のデータ更新処理を示すフローチャートである。
まず、検索サイトのクローラが、Webサイト20上のコンテンツのデータを収集して(ステップS501)、そのコンテンツの情報にその情報収集した日時(最終クロール日時)やURL等を関連付けて、コンテンツDB50に記憶する(ステップS502)。
次に、クロールキッカーが、コンテンツDB50から1レコード読み込み、情報収集したデータを更新するか否かを判定する(ステップS503)。その後、当該判定の結果に応じてキューイング(ステップS504)、ディスパッチ(ステップS505)を行って、再びWebサイト20を参照して同様の処理を繰り返し行う(ステップS501)。
ステップS503におけるクロールキッカーは、コンテンツDB50から1レコード読み込み(ステップS601)、その読み込んだレコードから最終クロール日時を抽出する(ステップS602)。そして、最終クロール日時にクロール間隔(例えば、2週間)を加算した日時が、現在日時に達しているかどうか判定する(ステップS603)。
ここで、最終クロール日時にクロール間隔を加算した日時が、現在日時に達していないと判定した場合(ステップS603:NO)は、クロールキッカーが、コンテンツDB50から次のレコードを読み込み(ステップS601)、現在日時に達していると判定した場合(ステップS603:YES)は、読み出したレコードからURLを抽出して、スケジューラにキューイングする(ステップS605)。
そして、コンテンツDB50の全レコードに対して処理が終わると、クロールキッカーは検索サイトの運営者が設定する所定期間の間、適時スリープした後に(ステップS604)、再起動してデータ更新処理を行う。
以上のような処理でクロールキッカーは、Webサイト20上のコンテンツのデータの再収集を行う。しかし、コンテンツDB50は、クローラにより上書き更新されて検索用のインデクスの作成やクロールの履歴管理のため等に用いられるので、レコードが時系列には並んでいない。そのため、クロールキッカーは、当該コンテンツDB50の全レコードについて最終クロール日時を抽出して、更新するか否かを判定する必要がある。
更に、コンテンツDB50は、新しいWebサイト20のデータを記憶する処理や、ユーザからの検索要求に応じてデータを送信する処理等が並行して行われるため、頻繁にアクセスされて負荷となってしまう。このため、このコンテンツDB50に対するアクセス頻度を少なくして負荷を軽減させることが課題となっている。
そこで、本発明は、Webサイトから収集したデータの更新処理の効率化を図り、検索サービスの品質向上を実現することを目的とする。
より具体的には、本発明は、次のようなものを提供する。
(1) 通信ネットワークを介してWebサイトと接続可能な情報収集装置が前記Webサイトの情報を収集する情報収集方法であって、
前記収集した前記Webサイトの情報を再収集する日時を再収集予定データとして当該Webサイトの特定情報と関連付けてデータベース(例えば、リクロールDB60)に記憶する記憶ステップと、
前記データベース(例えば、リクロールDB60)の記憶内容に基づいて、当該再収集予定データが示す日時が現在日時に達しているか否かを判定する判定ステップと、
前記判定ステップにおいて現在日時に達していると判定された場合に、前記再収集予定データに関連付けられた特定情報に基づいた前記Webサイトの情報を再収集する再収集ステップと、
前記判定ステップにおいて現在日時に達していないと判定された場合に、前記情報の再収集を一時的に停止する一時停止ステップと、
を含む方法。
本発明のこのような構成によれば、前記情報収集装置は、前記収集した前記Webサイトの情報を再収集する日時を再収集予定データとして当該Webサイトの特定情報と関連付けてデータベースに記憶し、
前記データベースの記憶内容に基づいて、当該再収集予定データが示す日時が現在日時に達しているか否かを判定し、
前記判定ステップにおいて現在日時に達していると判定された場合に、前記再収集予定データに関連付けられた特定情報に基づいた前記Webサイトの情報を再収集する再収集し、
前記判定ステップにおいて現在日時に達していないと判定された場合に、前記情報の再収集を一時的に停止する。
このことにより、前記情報収集装置は、前記データベースから読み出した前記再収集予定データに基づいて、当該再収集予定データが示す日時が現在日時に達している場合にのみ、前記Webサイトの情報を再収集することができる。従って、2回目以降の前記Webサイトの参照時において、効率的に前記Webサイトの情報を収集することができる。ここで、更にWebサイトの情報の再収集を行った再収集予定データをデータベースから削除してもよい。この場合、当該データベースを参照することで、再収集の必要なWebサイトを確認することができる。
(2) (1)に記載の方法であって、
前記一時停止ステップは、
前記判定ステップにおいて現在日時に達していないと判定された再収集予定データが示す日時までの間、前記Webサイトの情報の再収集を一時的に停止した後に当該情報の再収集を再開する方法。
本発明のこのような構成によれば、前記情報収集装置は、前記判定ステップにおいて現在日時に達していないと判定された再収集予定データが示す日時までの間、前記Webサイトの情報の再収集を一時的に停止した後に当該情報の再収集を再開する。
このことにより、前記情報収集装置は再収集を行う予定ではない日時の再収集予定データの読み込みを回避することができる。その結果、前記情報収集装置の前記データベースへのアクセス回数を削減することができる。
(3) (1)又は(2)に記載の方法であって、
前記記憶ステップは、前記再収集予定データを前記再収集する日時の順番にソートして記憶する方法。
本発明のこのような構成によれば、前記情報収集装置は、前記再収集予定データを前記再収集する日時の順番にソートして記憶する。
このことにより、前記情報収集装置は、前記Webサイトの情報を再収集する予定の日時の順序で再収集予定データをデータベースから逐次読み出すことができる。その結果、前記情報収集装置は、前記データベースの全てを必ずしも参照することなく、前記Webサイトの情報の再収集を行うことができる。従って、前記情報収集装置は、データベースへのアクセスの際のシステム負荷を更に削減することができる。
(4) (1)から(3)のいずれか一項に記載の方法であって、
前記記憶ステップは、前記Webサイトの情報を収集した日時に所定の期間を加算して前記再収集予定データを決定する方法。
本発明のこのような構成によれば、前記情報収集装置は、前記Webサイトの情報を収集した日時に所定の期間を加算して前記再収集予定データを決定する。
このことにより、前記情報収集装置は、前記所定の期間毎に前記再収集予定データに関連付けられた前記Webサイトを参照することができる。
(5) (4)に記載の方法であって、
前記記憶ステップは、前記再収集予定データの決定の度に、前記所定の期間を変化させる方法。
本発明のこのような構成によれば、前記情報収集装置は、前記再収集予定データの決定の度に、前記所定の期間を変化させる。
このことにより、前記情報収集装置は、前記再収集予定データの決定の度に、異なる期間を前記所定期間として設定することができる。
その結果、前記情報収集装置が、前記Webサイトの情報を再収集する際に、毎回異なる期間の経過後に当該再収集処理を行うことができる。
このようにすることにより、前記Webサイトの管理者等が、次回の情報の再収集時期を予測してタイミングを合わせて前記Webサイトの更新を行ったりすることで、恣意的に最新情報を反映させる、といった運用を防ぐことができる。
(6) (1)から(5)のいずれか一項に記載の方法であって、
前記記憶ステップは、前記再収集する日時のデータに前記Webサイトの特定情報を連結したものを前記再収集予定データとして記憶する方法。
本発明のこのような構成によれば、前記情報収集装置は、前記再収集する日時のデータに前記Webサイトの特定情報を連結したものを前記再収集予定データとして記憶する。
このことにより、前記情報収集装置は、前記再収集予定データから再収集する日時のデータを抽出することにより当該日時を確認し、Webサイトの情報の再収集を行うことができる。
その結果、前記情報収集装置は、前記再収集予定データを読み込むだけで、その後の一連の処理を行うことができるので、データベースへのアクセスに要するシステム負荷をより低減することができる。
(7) (1)から(6)のいずれか一項に記載の方法であって、
前記Webサイトの情報の収集の成否を判定する成否判定ステップを更に含み、
前記記憶ステップは、前記成否判定ステップにおいて前記情報の収集が失敗したと判定された場合に、前記Webサイトの情報の収集を行った日時を基準として、前記情報の収集が成功した場合より相対的に短い期間経過後の日時を前記再収集予定データとして決定する方法。
本発明のこのような構成によれば、前記情報収集装置は、前記Webサイトの情報の収集の成否を判定し、
更に、前記情報の収集が失敗したと判定された場合に、前記Webサイトの情報の収集を行った日時を基準として、前記情報の収集が成功した場合より相対的に短い期間経過後の日時を前記再収集予定データとして決定する。
このことにより、前記情報収集装置は、前記Webサイトの情報の収集に失敗した場合に、より短い期間の経過後に当該Webサイトの情報を収集することができる。その結果、前記情報収集装置は、何らかの理由により情報の収集に失敗したWebサイトについて、収集した情報が古いまま放置される長くなることを防止できる。
(8) (1)から(7)のいずれか一項に記載の方法であって、
前記情報を収集された前記Webサイトの情報を再収集するか否かを所定条件に基づいて判定する再収集要否判定ステップを更に含み、
前記記憶ステップは、前記再収集要否判定ステップにおいて再収集すると判定された場合にのみ、前記再収集予定データを前記データベースに記憶する方法。
本発明のこのような構成によれば、前記情報収集装置は、前記情報を収集された前記Webサイトの情報を再収集するか否かを所定条件に基づいて判定し、
前記再収集要否判定ステップにおいて再収集すると判定された場合にのみ、前記再収集予定データを前記データベースに記憶する。
このことにより、前記データベースには所定条件を満たすWebサイトについての再収集予定データが記憶されるため、データベースへのアクセスに要するシステム負荷をより低減することができる。
(9) 通信ネットワークを介してWebサイトと接続可能であり、前記Webサイトの情報を収集する情報収集装置であって、
前記収集した前記Webサイトの情報を再収集する日時を再収集予定データとして当該Webサイトの特定情報と関連付けてデータベースに記憶する記憶手段と、
前記データベースの記憶内容に基づいて、当該再収集予定データが示す日時が現在日時に達しているか否かを判定する判定手段と、
前記判定手段が現在日時に達していると判定された場合に、前記再収集予定データに関連付けられた特定情報に基づいた前記Webサイトの情報を再収集する再収集手段と、
前記判定手段が現在日時に達していないと判定された場合に、前記情報の再収集を一時的に停止する一時停止手段と、
を備える情報収集装置。
本発明のこのような構成によれば、前記情報収集装置は(1)と同様の作用及び効果を有する。
本発明によれば、前記情報収集装置は、前記データベースから読み出した前記再収集予定データに基づいて、再収集する日時が現在日時に達している場合にのみ、前記Webサイトの情報の収集を行うことができる。このため、2回目以降の前記Webサイトの参照時において、効率的に前記Webサイトの情報を収集することができる。従って、Webサイトから収集したデータの更新処理の効率化を図り、検索サービスの品質向上を実現することができる。
以下、図面を参照しながら本発明の最良の実施形態の一例について述べる。
図1は、本実施形態の一例に係るシステム1の全体構成を示す図である。図2は、本実施形態の一例に係る情報収集装置10の構成を示す図である。図3は、本実施形態の一例に係る情報収集装置10の機能ブロック図である。図4は、本実施形態の一例に係る情報収集装置10によるリクロール処理の概要を示す図である。図5は、本実施形態の一例に係るコンテンツDB50を示す図である。図6は、本実施形態の一例に係るリクロールDB60を示す図である。図7は、本実施形態の一例に係るクロールキッカーによる処理のフローチャートである。図8は、本実施形態の一例に係るリクロールDB60の先頭レコードに対する処理を示す図である。図9は、本実施形態の一例に係るクローラによるクロール処理のフローチャートである。図9Aは、本実施形態の一例に係るクローラによるクロール処理におけるX±αの計算処理を示すフローチャートである。
[システムの全体構成]
図1は、本実施形態の一例に係るシステム1の全体構成を示す図である。
システム1は、情報収集装置10が、通信ネットワーク30を介してWebサイト20と接続可能な状態で構成される。
Webサイト20は、文書や画像等の情報(Webページともいう)を蓄積しており、通信ネットワーク30、例えば、インターネット等のネットワークを通じて、これらの情報を端末に送信する機能を有している。更に、現在では動画やゲーム等の動的な情報等を、ネットワークを通じて提供するサービスもある。これらの情報を総称して、以下「コンテンツデータ」という。なお、個人や会社のホームページ等のコンテンツデータ群、又はコンテンツデータ群が置いてあるインターネット上の場所を、Webサイトという。
通信ネットワーク30は、情報収集装置10とWebサイト20とを接続する。ここで、通信ネットワーク30は、有線により実現するものだけではなく、携帯電話等のように、基地局を介して一部を無線により実現するもの、アクセスポイントを介して無線LANにより実現するもの等、本発明の技術的思想に合致するものであれば様々な通信ネットワークにより実現してよい。
情報収集装置10は、コンテンツDB50とリクロールDB60とを備えて構成されている。情報収集装置10は、インターネット上のWebサイト20をクロールして、収集したコンテンツデータの中から、ユーザが所望するコンテンツデータをリストにする機能等を有している。なお、クロールとは、クローラが、Webサイト20を参照し、コンテンツデータを収集することである。クローラについては、図3で詳述する。
コンテンツDB50は、コンテンツデータ、最終クロール日時等を記憶するデータベースである。ここで、最終クロール日時は、コンテンツデータをコンテンツDB50に記憶した日時を示す。なお、コンテンツデータは所定の期間後にリクロールして更新する。リクロールとは、コンテンツDB50に記憶したコンテンツデータのWebサイト20に再びアクセスして再収集することである。リクロールすることでコンテンツデータが最新の情報に更新される。
なお、管理者がリクロールをさせたい「所定の期間」を設定することで、「最終クロール日時」+「所定の期間」によりリクロール予定日時が決まる。ここで、「所定の期間」は複数設定してもよい。例えば、コンテンツデータが正常に収集された場合には「2週間」、収集に失敗したと判定される場合には「5日間」と設定する。このようにして、クロール先のWebサイト20に異常が発生した場合等の何らかの理由によりコンテンツデータの収集が失敗した場合は、当該コンテンツデータの収集を、正常に収集されたコンテンツデータの次回の収集より優先させてもよい。
リクロールDB60は、再収集予定データ等を記憶するデータベースである。ここで、再収集予定データとは、コンテンツDB50に記憶されたコンテンツデータの再収集を行う日時を示すデータであり、更新するリクロール予定日時等を含む。
[情報収集装置10のハードウェア構成]
図2は、図1で説明した本実施形態の一例に係る情報収集装置10のハードウェア構成の一例を示す図である。
情報収集装置10は、制御部110を構成するCPU(Central Processing Unit)111(マルチプロセッサ構成ではCPU112等複数のCPUが追加されてもよい)、バスライン105、通信部140、メインメモリ150、BIOS(Basic Input Output System)160、USBポート190、I/Oコントローラ130、並びにキーボード及びマウス181等の入力部180や表示部120を備える。
BIOS160は、情報収集装置10の起動時に制御部110が実行するブートプログラムや、情報収集装置10のハードウェアに依存するプログラム等を格納する。
I/Oコントローラ130には、テープドライブ172、ハードディスク173、光ディスクドライブ175、半導体メモリ176等の記憶手段を接続することができる。
記憶部170を構成するハードディスク173は、情報収集装置10が情報収集装置として機能するための各種プログラム及び本実施形態を実行するプログラムを記憶しており、更に必要に応じて各種データベースを構成可能である。
光ディスクドライブ175としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク174を使用する。光ディスク174から光ディスクドライブ175によりプログラム又はデータを読み取り、I/Oコントローラ130を介してメインメモリ150又はハードディスク173に提供することもできる。また、同様にテープドライブ172に対応したテープメディア171を主としてバックアップのために使用することもできる。
情報収集装置10に提供されるプログラムは、ハードディスク173、光ディスク174、又はメモリーカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ130を介して記録媒体から読み出され、又は通信部140を介してダウンロードされることによって、情報収集装置10にインストールされ実行されてもよい。
また、当該プログラムは、内部又は外部の記憶媒体に格納されてもよい。この記憶部170を構成する記憶媒体としては、ハードディスク173、光ディスク174、又はメモリーカードの他に、MD等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバに設けたハードディスク173又は光ディスクライブラリー等の記憶装置を記録媒体として使用し、通信回線を介してプログラムを情報収集装置10に提供してもよい。
表示部120は、情報収集装置10の運営者にデータの入力を受け付ける画面を表示したり、情報収集装置10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
入力部180は、情報収集装置10の運営者による入力の受け付けを行うものであり、キーボード及びマウス181等により構成してよい。
また、通信部140は、情報収集装置10を専用ネットワーク又は公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信部140は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
以上の例は、情報収集装置10について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。従って、本実施形態として説明した情報収集装置10により実現される機能は、上述の方法を当該コンピュータにより実行することにより、或いは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
[システムの機能構成]
図3は、本実施形態の一例に係る情報収集装置10の機能ブロック図である。
情報収集装置10は、通信部140、制御部110、及び記憶部170を含んで構成される。そして、通信部140は、送受信手段を有している。また、制御部110は、クローラ、コンテンツDB更新手段、リクロールDB登録手段、クロールキッカー、及びスケジューラを有している。更に、記憶部170は、コンテンツDB50及びリクロールDB60を格納する。
通信部140が有する送受信手段は、Webサイト20からコンテンツデータを受信する。
情報収集装置10のクローラは、Webサイト20を参照し、コンテンツデータを収集する。なお、クローラとは一般的に検索ロボットともいわれ、通信ネットワーク30を通じて、Webサイト20からコンテンツを収集するプログラムである。なお、クローラが、Webサイトを探し出す手段や、対象とするコンテンツデータの種類は様々であり、クローラの管理者の設定により、収集されるコンテンツデータの種類や分野も異なる。
コンテンツDB更新手段は、クローラが収集したコンテンツデータを、コンテンツDB50に記憶する。或いはコンテンツデータを上書き更新する。また、リクロールDB登録手段は、コンテンツデータをコンテンツDB50に記憶したことに応じて、当該コンテンツデータのリクロール予定日時を含む再収集予定データ等を、リクロールDB60に登録する。
クロールキッカーは、リクロールDB60を参照して、リクロール予定日時を基に、クロールすべきWebサイト20のURLをスケジューラに送信する役割を持ったプログラムである。クロールキッカーは、リクロールDB60からのデータの読み出しを適宜一時停止することで情報収集装置10の処理能力を他のプロセスの処理に分散させることができる。ここで、他のプロセスとは、例えば情報収集装置10のクローラが、コンテンツDB50にコンテンツデータを記憶する処理等である。
スケジューラは、クローラに対してリクロールの予定をディスパッチする役割を持ったプログラムである。
記憶部170のコンテンツDB50は、クローラにより収集されたコンテンツデータに、当該コンテンツデータのURL、初回クロール日時、及び最終クロール日時等を関連付けて記憶する。ここで、初回クロール日時は、当該コンテンツデータを初めてコンテンツDB50に記憶した日時を示す。
このコンテンツDB50に記憶するコンテンツデータは、コンテンツデータの書式やアクセス方法といった情報等を含む。また、コンテンツデータの書式とは、ファイルの形式等であり、例えば、JPEG、GIF等の画像データの形式がある。アクセス情報とは、例えば、携帯電話だけからアクセスできるWebサイトといった、コンテンツデータへのアクセス経路を特定する情報等である。
記憶部170のリクロールDB60は、再収集予定データ等を記憶する。ここで、再収集予定データは、リクロール予定日時を付加した当該コンテンツデータのURL、当該コンテンツデータのURL、IPアドレス等を含む。このURLやIPアドレス等のWebサイト20を特定する情報を「特定情報」という。
[リクロール処理の概要]
図4は、本発明の好適な実施形態の一例に係る情報収集装置10によるリクロール処理の概要を示す図である。ステップS101はコンテンツデータのコピー、ステップS102並びにステップS103はデータの記憶、ステップS104は再収集予定データの読み出し、ステップS106はディスパッチ、ステップS105並びにステップS107はキューイングの各ステップを示す。
まず、情報収集装置10のクローラが、通信部140を介して、Webサイト20を参照し、コンテンツデータを収集する(ステップS101)。
次に、クローラが、収集したコンテンツデータに、URL、最終クロール日時等を関連付けて、記憶部170のコンテンツDB50に記憶する(ステップS102)。ここで、具体的なコンテンツDB50の一例として、図5を参照しながら説明する。
図5は、クローラが、Webサイト20をクロールして、Webサイト20のコンテンツデータをコンテンツDB50に記憶した状態の一例を示す。ここで、コンテンツDB50は、Webサイト20のURLをKEYとして、最終クロール日時、初回クロール日時、及びコンテンツデータを格納している。例えば、先頭のレコードにおいては、クローラが‘http://www.aaa01.com’をクロールし、最終クロール日時、初回クロール日時とコンテンツそのままのデータ(HTML等)が、URLをKEYとして関連付けられて1レコードで格納されている。
また、次のレコードは、‘http://www.bbb02.com’に係るデータが同様に格納されている。なお、最終クロール日時が初回クロール日時より更新されている場合は、リクロールして更新されていると捉えてよい。
次に、図4に戻り、情報収集装置10のリクロールDB登録手段により、クローラが収集したコンテンツデータをコンテンツDB50に記憶する、上述のステップS102と共に、当該コンテンツデータのリクロール予定日時を付加したURL、IPアドレス、及びリンクの深さ等をリクロールDB60に記憶する(ステップS103)。具体的なリクロールDB60の一例として、図6を参照しながら説明する。
図6は、クローラが、Webサイト20をクロールして、Webサイト20のコンテンツデータをコンテンツDB50に記憶した際の、当該コンテンツデータのリクロール予定日時がリクロールDB60に登録されている状態を示す。ここで、リクロールDB60は、Webサイト20のリクロール予定日時を示す文字列にWebサイト20のURLを示す文字列を付加したもの(DATE+URL)をKEYとして、URL、IP、リンクの深さ等を格納している。
まず、クローラが‘http://www.aaa01.com’をクロールし、当該クロールした日時に所定の期間を足したリクロール予定日時を示す文字列にURLを示す文字列を付加して、「20070223225845http://www.aaa01.com」をKEYとして、URL、IP、リンクの深さ:100等を1レコードに格納している。また、‘http://www.bbb02.com’についても同様に格納している。
なお、Webサイト20のリクロール予定日時を示す文字列にWebサイト20のURLを示す文字列を付加した文字列(DATE+URL)をKEYとすることで、リクロール予定日時とURLを一つのまとまったデータで記憶しておくことができる。また、Webサイト20のURLは当該Webサイトを一意に識別することができるユニークな情報であるため、リクロール予定日時に付加することで、ユニークなKEYを作成することができる。
また、このように記憶したレコードを予定日時(KEYに含まれる)の時系列にソートしておいてもよい。すなわち、レコードを予定日時でソートして記憶しておくことにより、クロールキッカーがリクロールDB60の先頭レコードを読み出すことで、リクロールするURLをリクロールDB60から逐次検索するという処理を省くことができる。なお、ここではKEYにURLを含めることでユニークなKEYを作成することとしたが、この目的に合致する限りにおいて、付加する文字列はURLに限られない。
そして、図6のリンク先の深さとは、Webサイト20のコンテンツの階層数をいう。例えば、「リンク先の深さ:100」と設定される場合は、WebサイトのTOPページをゼロとし、当該TOPページにリンクされたページを深さ1として、リンク先の100ページ目までをリクロールの対象としている。このように、Webサイトのリンクを辿っていく階層の限度を、リンク先の深さとして設定できるようにしている。
次に、図4に戻り、情報収集装置10が、クロールキッカーを起動する。そして、情報収集装置10のクロールキッカーが、リクロールDB60の先頭からレコードを読み込む(ステップS104)。リクロールDB60には、リクロールする予定日時が時系列で記憶されている。従って、先頭レコードはリクロールする予定日時が最も早いものとなる。
そして、クロールキッカーが、リクロールDB60から取得したレコードのリクロール予定日時を参照する(ステップS105)。現在日時がリクロール予定日時に達している場合には、スケジューラに、取得したレコードのURLを送信する(キューイング)。更に、逐次リクロールDB60に記憶されているレコードを参照して、現在日時がリクロール予定日時に達していないと判定した場合は、それ以降のリクロールDB60の読み込みを一時的に停止してクロールキッカーは所定時間待機する。
このようにしてリクロールを一時停止するのは、リクロールDB60にリクロール予定日時が時系列に記憶されているために、それ以降のレコードがリクロール予定日時に達していないことが明らかであるからである。
そして、クロールキッカーが、ステップS107でキューイングしたURLを含むレコードをリクロールDB60から削除する。これにより、その削除したレコードの次のレコードがリクロールDBの先頭レコードになる。すなわち、そのリクロールDBの先頭になったレコードは、リクロールDB60の中でリクロール予定日時が最も早いレコードとなる。
次に、スケジューラが、次にクロールするタスクをクローラに割り当てる(ディスパッチ)。すなわち、スケジューラが、クロールキッカーから受信して保持しているURLについて、次にクロールを実行する対象としてクローラに命令する(ステップS106)。
次に、情報収集装置10のクローラが、スケジューラにクロールの予定をキューイングする(ステップS107)。このようにステップS101乃至ステップS107により、クローラは、クロール及びリクロールを繰り返して、コンテンツDB50及びリクロールDB60を更新する。
[クロールキッカーの処理]
図7は、本実施形態の一例に係るクロールキッカーによる処理のフローチャートである。
まず、情報収集装置10が、クロールキッカーを起動する。そして、情報収集装置10のクロールキッカーが、リクロールDB60から先頭のレコードを読み込む(ステップS201)。
次に、クロールキッカーが、読み出したレコードのKEYを、リクロール予定日時とURLとに分割する(ステップS202)。
そして、現在日時がリクロール予定日時に達していないと判定した場合(ステップS203:NOの場合)には、クロールキッカーは当該リクロール予定日時までの間スリープ状態に移行される。そして、現在日時がリクロール予定日時に達したと判定すると、クロールキッカーを再起動して、上述のステップS201からの処理を再開する(ステップS204)。
又、ステップS203において現在日時がリクロール予定日時に達していると判定した場合(ステップS203:YESの場合)には、クロールキッカーはスケジューラにURL等をキューイングする(ステップS205)。スケジューラは、クローラの現在の処理が終わると、キューイングされたURLのコンテンツをクロールするタスクをディスパッチする(図4参照)。
次に、クロールキッカーが、リクロールDB60の先頭レコードが、スケジューラにURLをキューイングされたことに応じて、リクロールDB60の当該先頭レコードを削除する(ステップS206)。
そして、クロールキッカーが、リクロールDB60から先頭のレコードを抽出する(ステップS201)。このようにして、リクロールDB60の逐次更新される先頭レコードに対する処理を繰り返す。具体的なリクロールDB60の先頭レコードに対する処理の一例として、図8を参照しながら説明する。
図8の(a)において、まず、クロールキッカーが、リクロールDB60の先頭レコードAを読み込む。ここで、先頭レコードAは、現在日時がリクロール予定日時に達していると判定した場合、クロールキッカーがスケジューラにレコードAのURLをキューイングする。次に、クロールキッカーは、リクロールDB60からレコードAを削除する。これにより、リクロールDB60は先頭レコードがBになる。
次に、クロールキッカーが、先頭レコードBを読み込む。ここで、先頭レコードBは、レコードAと同様に、現在日時がリクロール予定日時に達していると判定された場合、クロールキッカーがスケジューラにレコードBのURLをキューイングする。次に、クロールキッカーは、リクロールDB60からレコードBを削除する。これにより、リクロールDB60は先頭レコードがCになる。
次に、クロールキッカーが、先頭レコードCを読み込む。ここで、先頭レコードCが、現在日時がリクロール予定日時に達していないと判定された場合、クロールキッカーは、レコードCのリクロール予定日時までの間スリープ状態に移行して待機する(図8の(b))。その後、クロールキッカーは、現在日時がレコードCのリクロール予定日時になると再起動する。
次に、図8の(c)において、クロールキッカーが、リクロールDB60の先頭レコードCを読み込む。ここで、先頭レコードCは、現在日時がリクロール予定日時に達していると判定した場合、クロールキッカーがスケジューラにレコードCのURLをキューイングする。次に、クロールキッカーは、リクロールDB60からレコードCを削除する。これにより、リクロールDB60は先頭レコードがDになる。
次に、クロールキッカーが、の先頭レコードDを読み込む。ここで、先頭レコードDは、現在日時がリクロール予定日時に達していないと判定された場合に、クロールキッカーは、レコードDのリクロール予定日時までの間スリープ状態に移行して待機する(図8の(d))。その後、現在日時がレコードDのリクロール予定日時に達し再起動したクロールキッカーが、リクロールDB60(図8の(e))の先頭レコードDを読み込む。このようにしてクロールキッカーは実行と待機を繰り返してリクロールしてリクロールDB60を更新する。
このように、クロールキッカーが、リクロールDB60の先頭レコードを逐次読み出し、当該レコード内のリクロール予定日時に基づいてクロールキッカーのプロセスを起動させる。そして、リクロールを行って、次のリクロール予定日時が未来である場合には予定日時までの間スリープ状態に移行してクロールキッカーのプロセスを再起動させる。従って、クロールキッカーが、現在日時においてリクロールするドキュメントの数だけを処理をすることで、無駄のない処理となる。そして、情報収集装置10の処理効率を向上させることができる。
なお、クロールキッカーは、ハードウェアタイマーにより、スリープ、又は再起動するようにしてもよい。ここで、ハードウェアタイマーは、制御部110(メインCPU)とは別に配置されるカウンターで、例えば、制御部110が他のプログラムによって占有されているときにも、クロールキッカーを、リクロール予定日時に再起動させることができる。
[クロール実行処理]
図9は、本実施形態の一例に係るクローラによるクロール処理のフローチャートである。
まず、クローラが、スケジューラから投入されたURLのWebサイト20にアクセスし、送受信手段を介して、Webサイト20のコンテンツデータを取得する。そして、その取得したコンテンツデータを、コンテンツDB50に書き込む(ステップS401及びステップS402)。
次に、クローラが、Webサイト20のコンテンツデータのチェックを行う(ステップS403)。このコンテンツデータのチェックでは、必要なコンテンツデータと、不必要なコンテンツとを判定する。そして、クローラが、不必要なコンテンツデータと判定した場合は、上述のステップS401に戻り、別のコンテンツデータに対する処理を行う。
なお、不必要なコンテンツデータとは、例えば、クローラが収集しているコンテンツデータの分野が異なる場合である。携帯電話向けのWebサイトをクロールするクローラが、パソコンのブラウザで閲覧可能なWebサイトをクロールしてしまった場合、当該Webサイトを不必要なコンテンツデータと判定する。また、クロール先のWebサイトに異常(HTTPステータス)が発生して、コンテンツデータが正常に得られない場合にも不要と判定してもよい。
次に、情報収集装置10のクローラが、必要なコンテンツと判定した場合(上述のステップS403)は、リクロールDB登録手段が、当該必要なコンテンツデータのリクロール予定日時、URL等をリクロールDB60のレコードに追加する(ステップS404)。このようにして、一つのコンテンツのクロール処理が完了すると、クローラは、スケジューラから新しいURLを取得して、ステップS401乃至ステップS404の処理を行う。
ここで、ステップS404において、リクロール予定日時の計算は、現在日時に所定の期間X(例えば、1週間)を加算することで行う。具体的には、この加算の際に、図9に示す所定の期間Xを毎回変化させると、より好適である。即ち、図9Aに示すように、クローラは、所定の期間Xを計算する度に、乱数αを発生させて(ステップS404a)、その乱数αをXに加減算することで±αの範囲でランダムにXを変化させてもよい(ステップS404b)。例えば、次回のスクロールに予定日時として7日後を設定する場合には、発生させた乱数に基づいて、5日から9日の間でランダムに変化させる。同様に、15日後を設定する場合には、12日から18日の間でランダムに変化させる。
このようにすることにより、クロール先のWebサイトが、次回リクロール予定日時を予測してタイミングを合わせて更新を行ったりすることで、恣意的に最新情報を反映させる、といった運用を防ぐことができる。
[本実施形態による作用及び効果]
図10及び図11で示すように、従来のクロールキッカーは、コンテンツDB50の全レコードの処理が終わるまで、1レコードずつ読み込んで処理をすることによりリクロールを行っており、コンテンツDBのレコード数によっては、クロールキッカーが、コンテンツDB50にアクセスする回数は、膨大なものとなる。例えば、クロールキッカーがx回起動するとして、コンテンツDB50にアクセスする回数を計算すると次のようになる。すなわち、従来の技術によれば、コンテンツDB50へのアクセス回数は、
Figure 2008257695
となる(M:コンテンツDB50に記憶した総URL数)。
これに対し、本実施形態のクロールキッカーがx回起動して、リクロールDB60にアクセスする回数は、
Figure 2008257695
となる(N:リクロールDB60におけるリクロール対象のURL数)。
次に、本実施形態において、コンテンツDB50に記憶された全てのURLを各1回リクロールするために必要なDBアクセス回数は、
Figure 2008257695
となる。尚、リクロールDB60からのレコードの削除もDBへのアクセスとして捉えると2Mとなる。
これに対し、従来の技術によれば、コンテンツDB50に記憶された全てのURLを各1回クロールするために必要なDBアクセス回数は、
Figure 2008257695
となる(A:リクロールの間にキッカーが起動する回数(リクロール最大間隔/クロールキッカーの起動間隔))。
例えば、リクロールの最大間隔が2週間で、クロールキッカーの起動間隔が1時間であった場合、本実施形態によれば、
Figure 2008257695
ただし、リクロールDB60からの削除もDBへのアクセスとすると2M
であるのに対し、従来の技術によれば、
Figure 2008257695
となる。
この例で示すように、リクロールDB60を用いてコンテンツDB50にアクセスする場合は、URLに1回アクセスするだけであるが、リクロールDB60を用いず、コンテンツDB50だけでリクロールをする場合は、コンテンツDB50にアクセスする回数は336倍となる。本実施形態は、このように、コンテンツDB50へのアクセス回数を減らして時間的なロスを削減し、ディスクI/Oの負担も軽減することができる。
なお、実際の運用時においては、通常コンテンツDB50には億単位の件数のデータ(レコード)が記憶されている。従って、前記コンテンツDB50のレコード件数が例えば約5億件であった場合、1回のアクセスで0.1ミリ秒を要するとすれば、全てのレコードにアクセスするためには5.78日を要する。その結果、従来のように、前記Webサイトが次回参照時に達しているか否かを確認するために前記コンテンツDB50を参照する場合には、一連のプロセスを完了するために5.78日(確認のためのアクセス)+5.78日(記憶のためのアクセス)=11.56日を要することになる。
ところで、画像データ等を含む前記Webサイトの情報がコンテンツデータとして記憶されているコンテンツDB50と比較して、再収集予定データが前記Webサイトの特定情報と関連付けて記憶されているリクロールDB60は、日時やURL等で構成されているためにそのデータサイズは、コンテンツDB50よりもはるかに小さなものとなる。
従って、例えば、リクロールDB60の1回のアクセスに0.01ミリ秒を要したとすると、本実施形態の構成のようにコンテンツDB50の代わりにリクロールDB60を参照することにより、一連のプロセスを完了するために要する日数は0.58日(確認のためのリクロールDB60へのアクセス)+5.78日(記憶のためのコンテンツDB50へのアクセス)=6.36日となり、5.20日(約45%)短縮することができる。
通常、Webサイトの参照は数日から数週間に1回の割合で行われており、上述のアクセス時間を想定した場合、従来、2週間近くを要する一連のプロセスを、本実施形態の構成によれば、1週間以内に終了させることができる。
なお、コンテンツDB50は、Webサイトの一部でもあるため、外部からの検索エンジンからアクセスされることもあり得る。従来のクロール方法の場合、コンテンツDB50は、クローラによる書き込み、検索エンジンによる検索、クロールキッカーによるリクロールするかどうかの判定をするプロセス等が競合することになる。このことにより、コンテンツDB50を使用中のプロセスから、次のプロセスがコンテンツDB50を使用できるまでの待ち時間が発生する。
従って、従来の技術においては、クロールキッカーにより、リクロールするかどうかの判定をコンテンツDB50のリクロールがまだ必要のないレコードを含む全レコードを読み込んで行うので、リクロールの効率が悪くなる。本実施形態は、リクロールの際にコンテンツDB50の読み込みを行わないため、効率的にリクロールを実施することができる。そして、クロールキッカーによるコンテンツDB50を用いたリクロールするかどうかの判定をするプロセスを必要としないので、その分、クロール処理にかかるプロセス以外の他のプロセスに待ち時間を与えることがなくなる。
このため、コンテンツDB50が更に巨大化した場合においても、本実施形態によれば、そのデータサイズに影響されることなく、リクロールの管理を容易に行うことができる。
具体的には、M×1レコードの処理時間がクロールキッカーの起動間隔よりも大きくなった場合に、本実施形態は特に好適である。なぜなら、従来の技術によれば、コンテンツDB50を全部読み込むまで、次のキッカーを起動することができないため、必然的にクロールキッカーの起動がコンテンツDB50の処理が終わるまで延長されてしまうことになるからである。更に、仮に次のキッカーが起動できたとしても、すでにその時点で遅延が発生しているため、コンテンツDB50に対して2つのキッカーから重複アクセスをすることになり、更に遅延の悪化が進むことになる。本実施形態はこのような事態を回避することができる。
このように、本実施形態によれば、クロールキッカーをクロール予定日時までの間、スリープさせることにより、プロセスの処理効率を向上させることができる。具体的には、コンテンツDB50を変更することなく、リクロールDB60によってリクロールの管理を高速化できる。更に、リクロールDB60に必要と判定したURLを追加することで、リクロール時の処理工程を少なくすることができる。更に、リクロール予定日時をリクロールDB60のKEYの先頭とすることにより、リクロールDB60のソートを容易に行うことができる。特に、本実施形態は、リンク巡回型の大規模なクローラ、リアルタイムに近いリクロールが必要になる場合、特定のコンテンツ(例えば、モバイル、画像といったWeb検索用コンテンツ)のみをクロールする場合等に好適である。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
本実施形態の一例に係るシステム1の全体構成を示す図である。 本実施形態の一例に係る情報収集装置10の構成を示す図である。 本実施形態の一例に係る情報収集装置10の機能ブロック図である。 本実施形態の一例に係る情報収集装置10によるリクロール処理の概要を示す図である。 本実施形態の一例に係るコンテンツDB50を示す図である。 本実施形態の一例に係るリクロールDB60を示す図である。 本実施形態の一例に係るクロールキッカーによる処理のフローチャートである。 本実施形態の一例に係るリクロールDB60の先頭レコードに対する処理を示す図である。 本実施形態の一例に係るクローラによるクロール処理のフローチャートである。 本実施形態の一例に係るクローラによるクロール処理におけるX±αの計算処理を示すフローチャートである。 従来の情報収集装置によるデータ更新処理のシステム概要を示す図である。 従来のデータ更新処理を示すフローチャートである。
符号の説明
1 システム
10 情報収集装置
20 Webサイト
30 通信ネットワーク
50 コンテンツDB
60 リクロールDB

Claims (9)

  1. 通信ネットワークを介してWebサイトと接続可能な情報収集装置が前記Webサイトの情報を収集する情報収集方法であって、
    前記収集した前記Webサイトの情報を再収集する日時を再収集予定データとして当該Webサイトの特定情報と関連付けてデータベースに記憶する記憶ステップと、
    前記データベースの記憶内容に基づいて、当該再収集予定データが示す日時が現在日時に達しているか否かを判定する判定ステップと、
    前記判定ステップにおいて現在日時に達していると判定された場合に、前記再収集予定データに関連付けられた特定情報に基づいた前記Webサイトの情報を再収集する再収集ステップと、
    前記判定ステップにおいて現在日時に達していないと判定された場合に、前記情報の再収集を一時的に停止する一時停止ステップと、
    を含む方法。
  2. 請求項1に記載の方法であって、
    前記一時停止ステップは、
    前記判定ステップにおいて現在日時に達していないと判定された再収集予定データが示す日時までの間、前記Webサイトの情報の再収集を一時的に停止した後に当該情報の再収集を再開する方法。
  3. 請求項1又は請求項2に記載の方法であって、
    前記記憶ステップは、前記再収集予定データを前記再収集する日時の順番にソートして記憶する方法。
  4. 請求項1から請求項3のいずれか一項に記載の方法であって、
    前記記憶ステップは、前記Webサイトの情報を収集した日時に所定の期間を加算して前記再収集予定データを決定する方法。
  5. 請求項4に記載の方法であって、
    前記記憶ステップは、前記再収集予定データの決定の度に、前記所定の期間を変化させる方法。
  6. 請求項1から請求項5のいずれか一項に記載の方法であって、
    前記記憶ステップは、前記再収集する日時のデータに前記Webサイトの特定情報を連結したものを前記再収集予定データとして記憶する方法。
  7. 請求項1から請求項6のいずれか一項に記載の方法であって、
    前記Webサイトの情報の収集の成否を判定する成否判定ステップを更に含み、
    前記記憶ステップは、前記成否判定ステップにおいて前記情報の収集が失敗したと判定された場合に、前記Webサイトの情報の収集を行った日時を基準として、前記情報の収集が成功した場合より相対的に短い期間経過後の日時を前記再収集予定データとして決定する方法。
  8. 請求項1から請求項7のいずれか一項に記載の方法であって、
    前記情報を収集された前記Webサイトの情報を再収集するか否かを所定条件に基づいて判定する再収集要否判定ステップを更に含み、
    前記記憶ステップは、前記再収集要否判定ステップにおいて再収集すると判定された場合にのみ、前記再収集予定データを前記データベースに記憶する方法。
  9. 通信ネットワークを介してWebサイトと接続可能であり、前記Webサイトの情報を収集する情報収集装置であって、
    前記収集した前記Webサイトの情報を再収集する日時を再収集予定データとして当該Webサイトの特定情報と関連付けてデータベースに記憶する記憶手段と、
    前記データベースの記憶内容に基づいて、当該再収集予定データが示す日時が現在日時に達しているか否かを判定する判定手段と、
    前記判定手段が現在日時に達していると判定された場合に、前記再収集予定データに関連付けられた特定情報に基づいた前記Webサイトの情報を再収集する再収集手段と、
    前記判定手段が現在日時に達していないと判定された場合に、前記情報の再収集を一時的に停止する一時停止手段と、
    を備える情報収集装置。
JP2008032331A 2007-03-15 2008-02-13 情報収集方法及び情報収集装置 Expired - Fee Related JP4917057B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008032331A JP4917057B2 (ja) 2007-03-15 2008-02-13 情報収集方法及び情報収集装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007066217 2007-03-15
JP2007066217 2007-03-15
JP2008032331A JP4917057B2 (ja) 2007-03-15 2008-02-13 情報収集方法及び情報収集装置

Publications (2)

Publication Number Publication Date
JP2008257695A true JP2008257695A (ja) 2008-10-23
JP4917057B2 JP4917057B2 (ja) 2012-04-18

Family

ID=39981159

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008032331A Expired - Fee Related JP4917057B2 (ja) 2007-03-15 2008-02-13 情報収集方法及び情報収集装置

Country Status (1)

Country Link
JP (1) JP4917057B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016081096A (ja) * 2014-10-10 2016-05-16 Jcc株式会社 情報取得サーバー、情報取得方法、及び情報取得配信システム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002099460A (ja) * 2000-09-22 2002-04-05 Ntt Hokkaido Telemart Inc Web情報収集方法および装置
JP2003099353A (ja) * 2001-09-25 2003-04-04 Casio Comput Co Ltd 自動巡回装置及び自動巡回プログラム
JP2003271494A (ja) * 2002-03-13 2003-09-26 Ntt Comware Corp 情報収集システム、情報収集方法、情報収集プログラムおよび記録媒体
JP2004013749A (ja) * 2002-06-10 2004-01-15 Sharp Corp Edaツールのライセンス取得状況調査システム、edaツールのライセンス取得状況調査方法、その制御プログラムおよび可読記録媒体
JP2004280210A (ja) * 2003-03-13 2004-10-07 Hitachi Ltd データベース情報通信制御装置
JP2004318746A (ja) * 2003-04-21 2004-11-11 Toward Inc 情報収集システム、情報収集方法、及び情報収集プログラム
JP2006040135A (ja) * 2004-07-29 2006-02-09 Ntt Docomo Inc 電子メール配信装置、電子メール配信時制御方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002099460A (ja) * 2000-09-22 2002-04-05 Ntt Hokkaido Telemart Inc Web情報収集方法および装置
JP2003099353A (ja) * 2001-09-25 2003-04-04 Casio Comput Co Ltd 自動巡回装置及び自動巡回プログラム
JP2003271494A (ja) * 2002-03-13 2003-09-26 Ntt Comware Corp 情報収集システム、情報収集方法、情報収集プログラムおよび記録媒体
JP2004013749A (ja) * 2002-06-10 2004-01-15 Sharp Corp Edaツールのライセンス取得状況調査システム、edaツールのライセンス取得状況調査方法、その制御プログラムおよび可読記録媒体
JP2004280210A (ja) * 2003-03-13 2004-10-07 Hitachi Ltd データベース情報通信制御装置
JP2004318746A (ja) * 2003-04-21 2004-11-11 Toward Inc 情報収集システム、情報収集方法、及び情報収集プログラム
JP2006040135A (ja) * 2004-07-29 2006-02-09 Ntt Docomo Inc 電子メール配信装置、電子メール配信時制御方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016081096A (ja) * 2014-10-10 2016-05-16 Jcc株式会社 情報取得サーバー、情報取得方法、及び情報取得配信システム

Also Published As

Publication number Publication date
JP4917057B2 (ja) 2012-04-18

Similar Documents

Publication Publication Date Title
JP4786945B2 (ja) インデックス付与強制クエリ
US10089579B1 (en) Predicting user navigation events
AU2005231112B2 (en) Methods and systems for structuring event data in a database for location and retrieval
US9672232B1 (en) Systems and methods for selectively storing event data
KR100711023B1 (ko) 즐겨찾기 자동 등록 방법 및 즐겨찾기 자동 등록 시스템
US20090119278A1 (en) Continual Reorganization of Ordered Search Results Based on Current User Interaction
US20090119254A1 (en) Storing Accessible Histories of Search Results Reordered to Reflect User Interest in the Search Results
JP2007534057A (ja) 情報を取り込み抽出する方法及びシステム
JP5121194B2 (ja) 組織内情報検索システム及び組織内情報検索プログラム
JPH1125059A (ja) ネットワークライブラリ運用方法及びシステム及びネットワークライブラリ運用プログラムを格納した記憶媒体
US7529771B2 (en) Method of and apparatus for gathering information, system for gathering information, and computer program
JP2006099341A (ja) 更新履歴生成装置及びプログラム
JP5345582B2 (ja) シソーラス構築システム、シソーラス構築方法およびシソーラス構築プログラム
US8712992B2 (en) Method and apparatus for web crawling
JP4917057B2 (ja) 情報収集方法及び情報収集装置
JP3612185B2 (ja) 文書情報更新監視装置
JP4253315B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP2002197100A (ja) 検索サービスシステムと方法及び記録媒体並びに情報仲介方法
JP2001184355A (ja) 情報収集システム、コンテンツサーバ、情報収集装置及び記録媒体
JP2007193408A (ja) 文書管理システムにおけるディスク運用制御方法
JP4468978B2 (ja) 情報提供システム、方法およびプログラム
JP2005078334A (ja) 文書管理システムにおける検索方法
JP3708893B2 (ja) 知識情報収集システムおよび知識情報収集方法
US8166018B2 (en) Browsing a list of data items
JP3708894B2 (ja) 知識情報収集システムおよび知識情報収集方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090415

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090415

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120110

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120125

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150203

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4917057

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees