JP4808357B2 - 情報収集装置 - Google Patents

情報収集装置 Download PDF

Info

Publication number
JP4808357B2
JP4808357B2 JP2002076651A JP2002076651A JP4808357B2 JP 4808357 B2 JP4808357 B2 JP 4808357B2 JP 2002076651 A JP2002076651 A JP 2002076651A JP 2002076651 A JP2002076651 A JP 2002076651A JP 4808357 B2 JP4808357 B2 JP 4808357B2
Authority
JP
Japan
Prior art keywords
url
information
www
www server
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002076651A
Other languages
English (en)
Other versions
JP2003271670A (ja
Inventor
優 喜連川
孝之 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2002076651A priority Critical patent/JP4808357B2/ja
Publication of JP2003271670A publication Critical patent/JP2003271670A/ja
Application granted granted Critical
Publication of JP4808357B2 publication Critical patent/JP4808357B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は通信ネットワークに接続する複数の情報提供サーバが管理する情報を網羅的に収集する情報収集装置に係り、特にインターネットを介して複数のWWW(World Wide Web)サーバから取得したURL(Uniform Resource Locator)をWWWサーバごとに管理して各WWWサーバに対するアクセス順序を制御する情報収集装置及び情報収集方法に関するものである。
【0002】
【従来の技術】
インターネット上で用いられる情報検索システムであるWWW(World Wide Web)では、テキスト、音声、画像、動画などを含む様々な情報を検索し利用することができる。このWWWが提供する情報は、HTML(Hyper Text Markup Language)などの構造化タグ言語で記述されたテキストファイルを中心に構成されている。一般的に、これらの情報は、利用者の端末装置におけるブラウザ機能によって閲覧・取得を行うことができ、ウェブページと呼ばれている。また、WWWでは、URL(Uniform Resource Locator)と呼ばれる文字列によって、インターネットに接続する複数のコンピュータ(WWWサーバ)上の個々の情報(ウェブページに相当する情報)を一意に識別することができる。
【0003】
図16は上述したURLを表す文字列の一例を示す図である。図において、100はURL、101はURL100内で目的の情報があるWWWサーバ名を特定する文字列で、102はWWWサーバ内識別子であって、文字列101で特定されるWWWサーバ内で目的の情報が格納される場所を特定する。URL100についてもう少し具体的に説明すると、「http://」なる文字列は、通信プロトコルとしてHTTP(Hyper Text Transfer Protocol)を用いることを示している。また、これに続く文字列101によってWWWサーバ名(ドメイン名)として「www.xxx.co.jp」で表されるWWWサーバが特定される。最後に、WWWサーバ内識別子102として「/products/order.html」を記述することで、目的の情報(ウェブページ)のWWWサーバ内での格納場所が特定される。
【0004】
上述したように、URLを利用することでWWW上の情報を一意に識別することができるが、WWW上の情報は膨大にあることから、利用者がURLを直接指定して情報を取得することは稀である。多くの場合、利用者が所望の情報に関するキーワードを指定し、これを含むウェブページのURLを検索するWWW検索エンジンが利用される。
【0005】
上述したようなWWW検索エンジンには、ロボット型と呼ばれるサーチ手法をとるものがある。この基本的な仕組みは、予めWWW上のウェブページを網羅的に収集し、その内容を解析して検索インデックスを作成するものである。この検索インデックスを利用することによって、大量のウェブページの中から、利用者が指定するキーワードを含むウェブページの検索を実用的な時間内で実行することができる。
【0006】
図17は、例えば米国特許5748954号に開示された「Method For Searching A Queued And Ranked Constructed Catalog Of Files Stored On A Network」を適用したWWW検索エンジンにおける従来のWWW情報収集装置の構成を示す図である。このWWW情報収集装置は、一般的にウェブロボットやクローラなどと呼ばれるものに相当する。図において、103はインターネット、104はロボット型のWWW検索エンジンを構成するWWW情報収集装置で、例えばWWW上のウェブページを網羅的に収集するプログラムを実行するコンピュータ装置によって実現される。105は取得要求URLキューであって、収集すべきウェブページのURLを保持する。106はインターネット103を介してWWWサーバA〜Cとの通信を行うダウンロード手段で、WWWサーバA〜Cからウェブページをダウンロードする。107は既取得URL記憶手段であって、同じURLのウェブページの重複したダウンロードを防ぐために既に取得したウェブページのURLの一覧を格納する。108はURLコンテンツ記憶手段で、ダウンロードしたウェブページの内容を格納する。109はウェブページからHTMLのハイパーリンクを抽出して取得要求URLキュー105に挿入するリンク抽出手段である。A〜Cはインターネット103に接続する任意のWWWサーバである。
【0007】
次に動作について説明する。
WWW情報収集装置104は、取得要求URLキュー105に初期値として1つ以上のURLを挿入することで動作を開始する。先ず、WWW情報収集装置104は、取得要求URLキュー105から取り出したURLをダウンロード手段106に設定する。ダウンロード手段106は、WWWサーバA〜Cにアクセスして当該URLに対応するウェブページをからダウンロードし、URLコンテンツ記憶手段108に格納する。このあと、リンク抽出手段109が当該ウェブページの内容を解析して他のウェブページへのリンクを取り出し、当該リンクのURLを取得要求URLキュー105に挿入する。
このように、WWW情報収集装置104は、ウェブページに含まれるリンクを次々とたどることで、インターネット103上の膨大な量のウェブページをダウンロードする。
【0008】
このあと、WWW情報収集装置104が収集した情報は、インデクサ(不図示)と呼ばれる検索インデックスを作成するコンピュータ装置に送出される。インデクサは、例えば検索インデックスを作成するプログラムを実行するコンピュータ装置であり、これによってWWW情報収集装置104が収集したウェブページ内の文字情報から検索インデックスとなるデータベースが作成される。この検索インデックスを利用することで、ロボット型の検索エンジンを実現することができる。具体的には、WWWサーバが利用者からの検索要求を受け付けると、それを当該検索サービスを提供する検索サーバに送出する。検索サーバでは、上記検索インデックスを利用して検索を行い、検索結果を利用者の端末装置に送信する。これによって、利用者は、端末装置のブラウザ機能によって検索結果を閲覧することができる。
【0009】
図18は図17中のWWWサーバ上におけるウェブページ配置の一例を示す図である。図において、A1〜A7,B1,C1はウェブページのURLであって、WWWサーバA〜C内のウェブページの格納場所を規定する。また、図19は図17中のWWW情報収集装置によるウェブページのダウンロード順とWWWサーバのアクセス順の一例を示す図である。
【0010】
ここで、図18及び図19を参照して、WWW情報収集装置104によるウェブページの探索動作を詳細に説明する。先ず、WWW情報収集装置104は、ウェブページのダウンロードをリンクの抽出順に行う。つまり、リンク抽出手段109は、ダウンロードしたウェブページからリンクのURLを抽出するごとに、取得要求URLキュー105の末尾に挿入する。一方、取得要求URLキュー105では、URLを格納された順(FIFO;First−In First−Out)に取り出してダウンロード手段106に設定する。このため、ウェブページのダウンロードがリンクの抽出順に行われる。この探索法は、一般的に幅優先探索と呼ばれている。
【0011】
ここで、図18に示すようなウェブページの配置がなされたWWWサーバにおいて幅優先探索を行うことで、図19に示すようなウェブページのダウンロード順と各WWWサーバへのアクセス順の関係が得られる。具体的に説明すると、URLがA1であるウェブページをダウンロードする。該ウェブページにはURLがA2,A3である2つのリンクが含まれており、これらはA2,A3の順で抽出される。このあと、URLがA2,A3のウェブページを逐次ダウンロードする。URLがA2のウェブページには、URLがB1,A4,A5である3つのリンクが含まれており、これらはB1,A4,A5の順で抽出される。一方、URLがA3のウェブページには、URLがA6,C1,A7である3つのリンクが含まれており、これらはA6,C1,A7の順で抽出される。続いて、リンクが抽出された順に、URLがB1,A4,A5,A6,C1,A7のウェブページが逐次ダウンロードされる。この挙動を記述したものが図19であり、時間軸に対応する列方向に沿って、収集されるウェブページのURL、その際アクセスされたWWWサーバが示されている。
【0012】
インターネット上にはWWWサーバやウェブページが膨大な量存在し、更新や追加も頻繁に行なわれることから、上述した検索インデックスの作成に要する情報の収集は高速に行われる必要がある。このため、ダウンロード手段106が、上述のように逐次的にダウンロードを行なうのではなく、同時に複数のWWWサーバから並行してダウンロードを行なうことで高速なウェブページの収集を実現する技術も提案・実施されている。
【0013】
【発明が解決しようとする課題】
従来の情報収集装置は以上のように構成されているので、収集したウェブページから抽出したリンクのURLを取得要求URLキュー105からその抽出順に取り出してアクセスするため、複数のWWWサーバに対するアクセス順序を制御することができないという課題があった。
【0014】
また、取得要求URLキュー105において同一WWWサーバ内のウェブページに対するリンクが連続した場合、当該WWWサーバに対する負荷が増加する。この負荷増加を抑制するため、従来では先行するURLのダウンロード完了後、一定の時間間隔を空けてから続くURLのウェブページをダウンロードすることが行われていた。
【0015】
しかしながら、この探索方式では、異なるWWWサーバから並行してウェブページをダウンロードするにあたり、リンクが連続するWWWサーバに対するアクセスの時間間隔が他のWWWサーバに対する時間間隔と異なってしまうため、実質的に異なるWWWサーバから並行してウェブページのダウンロードを行なえる可能性が低くなる。このため、ウェブページの収集速度が低下してしまうという課題があった。
【0016】
さらに、ウェブページの収集速度を上げるために、取得要求URLキュー105の格納された先頭のURLから検索して異なるWWWサーバを見つけ、並行してダウンロードを行なう探索方式も提案・実施されている。しかしながら、取得要求URLキュー105の容量が大きくなった場合、実質的に後から格納されたURLは検索待ちの状態になることから、検索効率が低下すると共に、ウェブページの収集速度の低下を招くという課題があった。
【0017】
以上のように、従来のWWW情報収集装置ではウェブページ収集速度の向上とWWWサーバに対する負荷抑制とを両立させることができなかった。
【0018】
この発明は上記のような課題を解決するためになされたもので、通信ネットワークを介して複数の情報提供サーバからウェブページなどのハイパテキスト情報を網羅的に収集するにあたり、収集したハイパテキスト情報から抽出したURLを各情報提供サーバごとに管理して各サーバに対するアクセス順序を制御することで、情報収集速度の向上とサーバに対する負荷抑制とを両立させることができる情報収集装置、情報収集方法及びこれをコンピュータ装置に具現化させるプログラムを得ることを目的とする。
【0021】
【課題を解決するための手段】
この発明に係る情報収集装置は、ハイパテキスト情報に含まれるリンク情報を解析して、リンク先に対応するURL(Uniform Resource Locator)を抽出するリンク抽出手段と、URLが、該URLに記述される各情報をその文字列順にページに割り当ててなるB木によって索引付けして登録されるURLインデックス部、URLに記述されたリンク先のサーバ装置を特定するサーバ名情報を、該サーバ名情報で特定されるサーバ装置との通信順に格納するサーバ名情報記憶手段、及び収集済みハイパテキスト情報数と未収集ハイパテキスト情報数とを用いて、サーバ装置ごとの優先度を設定する優先度設定テーブル部を有し、上記優先度設定テーブル部によって設定された優先度に応じた通信順で上記サーバ名情報を上記サーバ名情報記憶手段に格納し、上記リンク抽出手段が抽出した上記URLに基づいて上記URLインデックス部を検索して未登録であれば、該URLを上記URLインデックス部に上記索引付けを施して登録すると供に、上記サーバ名情報記憶手段から通信順に読み出したサーバ名情報に基づいて、上記URLインデックス部を検索して通信対象のURLを読み出すURL管理手段と、該URL管理手段によって、上記URLインデックス部から読み出された上記URLに対応する上記ハイパテキスト情報を収集する通信手段とを備えるものである。
【0022】
この発明に係る情報収集装置は、URLインデックス部が、ディレクトリ階層の深さに応じてURLの読み出し順を設定するものである。
【0023】
この発明に係る情報収集装置は、ハイパテキスト情報に含まれるリンク情報を解析して、リンク先に対応するURL(Uniform Resource Locator)を抽出するリンク抽出手段と、URLが、該URLに記述されたリンク先のサーバ装置を特定するサーバ名情報をキーとするハッシュによって索引付けして登録されるURLインデックス部、上記サーバ名情報を、該サーバ名情報で特定されるサーバ装置との通信順に格納するサーバ名情報記憶手段、及び収集済みハイパテキスト情報数と未収集ハイパテキスト情報数とを用いて、サーバ装置ごとの優先度を設定する優先度設定テーブル部を有し、上記優先度設定テーブル部によって設定された優先度に応じた通信順で上記サーバ名情報を上記サーバ名情報記憶手段に格納し、上記リンク抽出手段が抽出した上記URLに基づいて上記URLインデックス部を検索して未登録であれば、該URLを上記URLインデックス部に上記索引付けを実施して登録すると共に、上記サーバ名情報記憶手段から通信順に読み出したサーバ名情報に基づいて、上記URLインデックス部を検索して通信対象のURLを読み出すURL管理手段と、該URL管理手段によって上記URLインデックス部から読み出された上記URLに対応する上記ハイパテキスト情報を収集する通信手段とを備えるものである。
【0024】
この発明に係る情報収集装置は、ハイパテキスト情報の内容及び/又は他のハイパテキスト情報からの参照数を用いて、URLごとに読み出しの優先度を設定する優先度設定手段と、上記URL管理手段は、サーバ名情報と、上記優先度設定手段に設定されたURLの優先度との組み合わせを、ページに各々割り当ててなるB木によって索引付けしてURLインデックス部に登録し、サーバ名情報記憶手段から通信順に読み出したサーバ名情報に基づいて、上記URLインデックス部を検索して通信対象のURLを読み出すものである。
【0025】
この発明に係る情報収集装置は、URL管理手段が、複数のサーバ装置の各々に対応するURLを逐次読み出し、通信手段が、上記URL管理手段により逐次読み出されたURLに対応するサーバ装置にアクセスし、上記複数のサーバ装置との間でハイパテキスト情報の収集を並行して実行するものである。
【0027】
この発明に係る情報収集装置は、URL管理手段が、収集済みハイパテキスト情報数と未収集ハイパテキスト情報数とが所定の閾値を超えると、新たなURLの格納を行わないものである。
【0028】
この発明に係る情報収集装置は、収集済みハイパテキスト情報のURLを登録する既取得URL登録手段を備え、URL管理手段が、通信手段によるハイパテキスト情報の収集が完了すると、該ハイパテキスト情報に対応するURLを既取得URL登録手段に登録したのち、該URLを削除するものである。
【0029】
この発明に係る情報収集装置は、URL管理手段が、読み出すべきURLを予め読み出して格納するURLキャッシュを備えるものである。
【0037】
【発明の実施の形態】
以下、この発明の実施の一形態を説明するものである。
実施の形態1.
図1はこの発明の実施の形態1によるWWW情報収集装置の構成を示す図である。図において、1は実施の形態1によるWWW情報収集装置(情報収集装置)であって、取得要求URL管理手段3に管理される取得要求URLを読み出してWWW上のウェブページ(ハイパテキスト情報)を網羅的に収集する。2はインターネットで、任意のWWWサーバA〜Cが接続すると共に、WWW情報収集装置1及びこれを用いた検索システムと接続している。3は取得要求URL管理手段(URL管理手段)であって、収集すべきウェブページのURLをその文字列順に格納し、これらURLに対応するWWWサーバとの通信状態を管理すると共に、これらに対応する「WWWサーバ名」(サーバ名情報)を先入れ先出し順で格納する。4はインターネット2を介してWWWサーバA〜Cとの通信を行うダウンロード手段(通信手段)で、WWWサーバA〜Cからウェブページをダウンロードする。5は既取得URL記憶手段(既取得URL登録手段)であって、同じURLのウェブページの重複したダウンロードを防ぐために既に取得したウェブページのURLの一覧を格納する。6はURLコンテンツ記憶手段で、ダウンロードしたウェブページの内容を格納する。7はリンク抽出手段であって、URLコンテンツ記憶手段6が格納するウェブページからHTMLのハイパーリンクを抽出して取得要求URL管理手段3に送出する。A〜Cはインターネット2に接続する任意のWWWサーバ(サーバ装置)である。
【0038】
図2は図1中の取得要求URL管理手段の構成を示すブロック図である。図において、8はURLインデックス(URLインデックス部)であって、URLを文字列順にソートし索引付けして記憶する。9はWWWサーバテーブルで、現在までに取得要求URL管理手段3に登録された全てのURLに含まれる「WWWサーバ名」とこれに対応するWWWサーバの通信状態とが登録される。10は「WWWサーバ名」を先入れ先出し順に格納するWWWサーバキュー(サーバ名情報記憶手段)であって、WWWサーバテーブル9において「ダウンロード待ち状態」のWWWサーバに対応する「WWWサーバ名」が格納される。なお、図1と同一構成要素には同一符号を付して重複する説明を省略する。
【0039】
ここで、WWWサーバテーブル9及びWWWサーバキュー10の概要を説明する。
先ず、WWWサーバテーブル9において、1つのWWWサーバに対応するエントリ数は1又は0(未登録)であり、「WWWサーバ名」をキーとしてB木やハッシュなどのインデックスを作成することで探索を効率化することができる。また、各WWWサーバの通信状態(各WWWサーバの「WWWサーバ名」とこれの通信状態とを入力するエントリの内容)は、「休止」、「ダウンロード待ち」、「ダウンロード中」のいずれか1つであり、それぞれダウンロードすべきURLがない状態、WWWサーバキュー10に登録された状態、ダウンロードを行なっている状態を表している。さらに、WWWサーバキュー10は先入れ先出し順で「WWWサーバ名」を管理し、「WWWサーバ名」自体での探索は行なわない。このため、「WWWサーバ名」の代わりに、WWWサーバを一意に識別できる情報、例えばWWWサーバテーブル9におけるエントリの位置などを利用してもよい。
【0040】
次に、URLインデックス8の概要を説明する。
図3は図2中のURLインデックスを示す図である。図において、11は取得要求URLを文字列順にソートして格納するリーフページであって、URLを文字列順に格納する格納領域とポインタ12との対で構成される。12は複数のリーフページ11を連結するポインタで、次に連結すべきリーフページ11内の最初のURL文字列の格納場所(アドレス)を示す情報である。13はリーフページ11の上位階層を有するノードページであって、各リーフページ11を導くポインタ14と、参照先のリーフページ11内の最後に位置するURL文字列を格納する格納領域とから構成されている。14はリーフページ11を参照する際に各リーフページ11を導くポインタで、参照すべきリーフページ11の格納場所(アドレス)を示す情報である。
【0041】
図3に示すように、URLインデックス8において、取得要求URLは1つ以上の固定サイズのリーフページ11に格納される。また、各リーフページ11に対しては当該リーフページに対するポインタ14を格納する固定サイズのノードページ13がただ一つ存在する。このノードページ13は1つ以上存在し、複数のノードページ13が存在すると、当該ノードページ13を参照するさらに上位のノードページが作られる。この最上位のノードページをルートページと呼ぶ。
【0042】
以上に述べたURLインデックス8の構造は、URL文字列に対してB+木インデックスを作成したものに相当する。B+木インデックスの探索、挿入、削除のアルゴリズムは、例えばDonald E.Knuth著「The Art of Computer Programming,Volume3,Sorting and Searching」(Reading,Massachusetts:Addison−Wesley刊,1973年,ISBN 0−201−03803−X)に詳しく説明されているものを適用する。
【0043】
また、URLの格納順はURL文字列から一意に決定できれば十分であり、ソートの基準は必ずしも文字コードの単純比較に限らない。例えば、URLのWWWサーバ内識別子は階層的なファイル名に対応しており、WWWサーバ内識別子の「/」記号に先行する部分はディレクトリを表すものと考えることができる。通常、同じディレクトリ内には関連するファイルやサブディレクトリを配置し、より一般的な情報は上位のディレクトリに格納して下位のディレクトリには詳細な情報を格納する。
【0044】
そこで、URL文字列を「/」記号で規定されるディレクトリごとに分割してページ11,13などに割り当て、各ディレクトリ階層の深さの順を優先して、同一深さのディレクトリ間で文字列順に格納する。これにより、ディレクトリ階層の浅いURLを先頭近くに格納することもできる。このようなソート順を採用すると、WWWサーバごとに重要性の高いURLから並べることができるようになる。
【0045】
次に動作について説明する。
図4は図1中のWWW情報収集装置の動作を概略的に示すフロー図であり、この図に沿ってWWW情報収集装置の動作概要を説明する。
先ず、取得要求URL管理手段3は、既知のURLを初期URLとして登録する(ステップST1)。この取得要求URL管理手段3によるURLの登録手順は後述する。ここで、初期URLとしては、多くのウェブページをダウンロードするために、多くのリンクを含むウェブページのURLを指定することが望ましい。
【0046】
次に、取得要求URL管理手段3は、WWWサーバキュー10の状態を調べ、URLの構成要素を分解して抽出した「WWWサーバ名」に対応する文字列が格納されていれば、ステップST3の処理に移行し、格納されておらず空であればステップST11の処理に移行する(ステップST2)。
【0047】
ステップST3において、取得要求URL管理手段3は、WWWサーバキュー10の先頭のエントリの内容を読み出し、「WWWサーバ名」を取得する。次いで、URLインデックス8を探索して、当該「WWWサーバ名」に対応するURLがに登録されているか否かを調べる。このとき、上記URLがURLインデックス8に登録されていれば、ステップST5の処理に移行し、登録されていなければステップST10の処理に移行する(ステップST4)。ここで、「WWWサーバ名」が、例えば「www.bbb.co.jp」なる文字列であると、これに対応するURLは「http://www.bbb.co.jp」で始まる文字列となる。即ち、URLを文字列順で配置すると、同一の「WWWサーバ名」に対応するURLが必ず連続的に配置されることになる。これによる効果としては、URLインデックス8ではリーフページ11にURLを文字列順で格納していることから、例えば「http://www.bbb.co.jp」で始まるURLが、WWWサーバ「www.bbb.co.jp」に対応するURLであることを容易に探索することができる。従って、URLを文字列順で配置することで、URLインデックス8内に対象とする「WWWサーバ名」に対応するURLが存在するか否かを効率的に探索することができる。
【0048】
ステップST5において、「WWWサーバ名」に対応するURLがURLインデックス8に登録されている場合、取得要求URL管理手段3は、当該「WWWサーバ名」に対応するURLのうち文字列順で登録された先頭のURLをURLインデックス8から読み出してダウンロード手段4に送出する。この段階で、当該URLはURLインデックス8に登録された状態を維持し、URLインデックス8から削除されない。これは、以降のダウンロードの最中にWWW情報収集装置1に障害が発生した場合に、当該URLの取得要求が失われるのを防ぐためである。よって、ダウンロードが完了した時点で、当該URLがURLインデックス8から削除される。
【0049】
次に、ダウンロード手段4は、当該URLが既取得URL記憶手段5に格納されているか否かを調べ、当該URLが格納されていないとステップST7の処理に移行し、格納されているとステップST9の処理に移行する(ステップST6)。ステップST9において、ダウンロード手段4は、当該URLが取得済みであると判断し、これをURLインデックス8から削除した後、ステップST4の処理に戻って、上記「WWWサーバ名」に対応する別のURLを探索する。
【0050】
一方、既取得URL記憶手段5に格納されておらず、当該URLが未取得であると判断されると、ダウンロード手段4は、その旨を取得要求URL管理手段3に通知して、WWWサーバテーブル9の当該WWWサーバに対応するエントリの状態を「ダウンロード中」に変更させる(ステップST7)。
【0051】
続いて、ダウンロード手段4は、当該URLのダウンロードを起動し、上記「WWWサーバ名」に対応するWWWサーバと通信接続してウェブページをダウンロードする(ステップST8)。このあと、WWW情報収集装置1は、ステップST2の処理に戻って別のWWWサーバに対するダウンロードを試みる。ここで、上述したダウンロード動作は、図4に示す動作と並行して実行される。このため、ステップST8において、ダウンロード手段4は、先行するURLに対応するウェブページのダウンロード完了を待たない。このような並行動作は、例えば既存のマルチスレッドの技法によって新たなスレッドを生成してダウンロードを実行することで実現される。ダウンロード動作自体の詳細は後述する。
【0052】
一方、ステップST4において、URLインデックス8内に当該「WWWサーバ名」に対応するURLがなかった場合、取得要求URL管理手段3は、WWWサーバテーブル9における上記「WWWサーバ名」に対応するエントリの内容を「休止」に変更する(ステップST10)。このあと、ステップST2の処理に戻って、別のWWWサーバに対するダウンロードを試みる。
【0053】
また、ステップST2において、WWWサーバキュー10に「WWWサーバ名」が格納されていなかった場合、取得要求URL管理手段3は、WWWサーバテーブル9中にエントリの内容が「ダウンロード中」の通信状態に対応する「WWWサーバ名」が存在するか否かを調べる(ステップST11)。このとき、「ダウンロード中」のエントリが存在する場合、取得要求URL管理手段3は、ステップST2に戻ってWWWサーバキュー10に他の「WWWサーバ名」が格納されるまで待機する(待機ループ)。一方、WWWサーバキュー10に「WWWサーバ名」が格納されておらず、且つ、WWWサーバテーブル9に「ダウンロード中」状態のエントリが存在しない場合、取得要求URL管理手段3は、全てのWWWサーバが「休止」状態になったと判断して動作を終了する。
【0054】
図5は図1中の取得要求URL管理手段による動作を示すフロー図であり、この図に沿ってURLの登録動作について詳細に説明する。
先ず、取得要求URL管理手段3は、ダウンロード手段4から登録しようとするURLが既取得URL記憶手段5に既に存在しているか否かの通知を受ける。このとき、対象とするURLが既取得URL記憶手段5に存在しているとの通知を受けると、取得要求URL管理手段3は、当該URLが取得済みであると判断して登録せずに動作を終了する一方、対象とするURLが存在しない旨の通知である場合、当該URLが未取得であると判断してステップST2aの処理に移行する(ステップST1a)。
【0055】
ステップST2aにおいて、取得要求URL管理手段3は、URLインデックス8を検索して当該URLが存在するか否かを調べる。このとき、URLインデックス8に存在する場合、当該URLの登録は不要であるので動作を終了する。一方、当該URLがURLインデックス8に存在しない場合、取得要求URL管理手段3は、ステップST3aの処理に進み、URLインデックス8への挿入を行う。
【0056】
次に、取得要求URL管理手段3は、当該URLを構成する文字列から「WWWサーバ名」部分を取り出し(ステップST4a)、当該「WWWサーバ名」がWWWサーバテーブル9に登録されているかどうかを調べる(ステップST5a)。このとき、WWWサーバテーブル9に当該「WWWサーバ名」が既に登録されていると、取得要求URL管理手段3は、直ちにステップST7aの処理に進み、未登録の場合はステップST6aの処理に進む。ステップST6aにおいて、取得要求URL管理手段3は、WWWサーバテーブル9に当該「WWWサーバ名」とその通信状態の登録を行い、ステップST7aの処理に進む。ここで、WWWサーバテーブル9に登録するエントリの内容としては、当該「WWWサーバ名」と、その通信状態である「休止」が設定される。
【0057】
続いて、取得要求URL管理手段3は、当該「WWWサーバ名」に対応するWWWサーバテーブル9のエントリの通信状態に関する内容を調べ、「休止」でなければ動作を終了し、通信状態が「休止」であるとステップST8aの処理に移行する(ステップST7a)。
【0058】
ステップST8aにおいて、取得要求URL管理手段3は、WWWサーバテーブル9の当該エントリの通信状態に関する内容を「ダウンロード待ち」に設定する。このあと、当該「WWWサーバ名」をWWWサーバキュー10の末尾に挿入し、動作を終了する(ステップST9a)。
【0059】
図6は実施の形態1によるWWW情報収集装置のウェブページの収集動作を示すフロー図であり、この図に沿ってダウンロード動作の詳細を説明する。
先ず、ダウンロード手段4は、取得要求URL管理手段3から設定されたダウンロード対象のURLに対応する「WWWサーバ名」で特定されるWWWサーバのIPアドレスを取得する(ステップST1b)。次いで、ダウンロード手段4は、上記WWWサーバとのHTTP接続を確立し、GET要求を発行する(ステップST2b)。
【0060】
これにより、ダウンロード手段4は、インターネット2を介してWWWサーバから上記URLに対応するウェブページを収集し、これをURLコンテンツ記憶手段6に格納する(ステップST3b)。このあと、ダウンロード手段4は、直ちに当該URLを既取得URL記憶手段5に格納する(ステップST4b)。これに伴って、取得要求URL管理手段3は、当該URLをURLインデックス8から削除する(ステップST5b)。
【0061】
上述したステップST4b及びステップST5bを不可分の操作として実行することで、当該URLはURLインデックス8に存在するか、既取得URL記憶手段5に存在するかのいずれかの状態になる。つまり、何らかの障害があってその障害から回復したとき、ダウンロードすべきウェブページのURLが既取得URL記憶手段5に存在する場合、障害発生前にダウンロードが完了していたものと判断され、当該URLがURLインデックス8から削除される。一方、ダウンロードすべきウェブページのURLが既取得URL記憶手段5に存在しない場合、URLインデックス8に存在する当該URLをダウンロード手段4に設定してダウンロードを再開する。このようにすることで、何らかの障害により当該URLのダウンロードが完了しなかった場合、回復時に当該URLに対応するウェブページの再ダウンロードを行なうことが可能になると共に、当該URLが既取得URL記憶手段5に存在するにも関わらず、再度ダウンロードされることを防ぐことができる。
【0062】
続いて、リンク抽出手段7は、収集したウェブページをURLコンテンツ記憶手段6から読み出しそのHTMLデータからリンク情報を抽出して、1つ以上のリンクがあればリンク先URLを取得要求URL管理手段3に送出し登録させる(ステップST6b)。取得要求URL管理手段3によるURLの登録動作は上記と同様である。
【0063】
次に、当該WWWサーバに対応するURLが連続している場合、ダウンロード手段4は、当該WWWサーバに対する次のアクセスまでの間隔が一定時間以上空くように待機する(ステップST7b)。これに伴って、取得要求URL管理手段3は、WWWサーバテーブル9の当該WWWサーバに対応するエントリの通信状態に関する内容を「ダウンロード待ち」に変更する(ステップST8b)。
【0064】
このあと、取得要求URL管理手段3は、当該WWWサーバに対応する「WWWサーバ名」をWWWサーバキュー10の末尾に挿入して動作を終了する(ステップST9b)。上述したように、ダウンロード手段4によるダウンロード動作は、スレッドなどの並行処理機構を用いて実現され、他のWWWサーバに対するダウンロードとは独立して実行される。例えば、ステップST1bからステップST5bまでの処理を実現するプログラムや、ステップST7bからステップST9bまでの処理を実現するプログラムをスレッドとし、WWWサーバキュー10に格納される複数の「WWWサーバ名」に対応する処理を並行して実行する。
【0065】
以上のように、この実施の形態1によれば、収集すべき情報に対応する複数のURLをその文字列順に格納するURLインデックス8と、これらURLに含まれる「WWWサーバ名」を先入れ先出し順で格納するWWWサーバキュー10を備え、該WWWサーバキュー10から逐次読み出される複数の「WWWサーバ名」に対応するURLをURLインデックス8に従って読み出して、各WWWサーバごとに独立してダウンロードを実行するので、同一WWWサーバに対するアクセス間隔を制御しつつ、同時に最大限のWWWサーバからダウンロードを実行し収集速度を向上させることができる。
【0066】
また、この実施の形態1によれば、URLの文字列順としてURL文字列中の「/」記号で区切った文字列をページに割り当てて階層化して、いわゆるB+木を適用したURLインデックス8で管理し、ディレクトリの階層の浅いURLを優先して読み出すようにしたので、収集したHTMLデータからのURLの抽出順に関わらず、重要なウェブページから順にダウンロードすることができる。
【0067】
さらに、この実施の形態1によれば、不可分の操作でダウンロード済URLのURLインデックス8からの削除と既取得URL記憶手段5への登録を行なうので、ダウンロード途中で障害が発生しても元の状態に回復することができる。
【0068】
なお、WWW情報収集装置1は、その構成要素をICなどの専用のハードウェアを用いて構成してもよいし、ソフトウェア(WWW情報収集プログラム)を実行するコンピュータ装置を用いて構成してもよい。
【0069】
図7は、例えば図1中のWWW情報収集装置をコンピュータ装置で具現化した際のハードウェア構成を示す図である。図において、15は当該コンピュータ装置のCPUであって、上述したWWW情報収集装置1の各構成手段3〜7の機能を実現するWWW情報収集プログラムを実行する。16はWWW情報収集プログラムや該プログラムの実行に必要なデータを格納するメモリであり、取得要求URL管理手段3のWWWサーバテーブル9及びWWWサーバキュー10の機能を有している。17はコンソールインタフェースで、コンソール入出力装置21と装置1内部の構成部との間の情報送受を中継する。18はハードディスク装置22に対するアクセスを中継するディスクインタフェースで、19はインターネット2との接続を中継するネットワークインタフェースである。また、20は装置1の内部バスであって、CPU15、メモリ16、コンソールインタフェース17、ディスクインタフェース18、及び、ネットワークインタフェース19を接続する。21はコンソール機能を実現するコンソール入出力装置で、装置1の制御や保守などを行うためのコマンド入力やフレームを表示する手段を有している。22はハードディスク装置であり、既取得URL記憶手段5、URLコンテンツ記憶手段6、取得要求URL管理手段3のURLインデックス8の機能を実現する。ハードディスク装置22へのアクセスを高速化するため、メモリ16の一部をキャッシュ領域に割り当て、頻繁にアクセスされるデータを常駐させるようにしてもよい。
【0070】
次に動作について説明する。
先ず、WWW情報収集プログラムを実行するCPU15は、取得要求URL管理手段3として機能し、上記実施の形態1と同様に、既知のURLを初期URLとして、ディスクインタフェース18を介してハードディスク装置22に記憶する。次いで、WWWサーバキュー10として機能するメモリ16の内容をチェックする。このとき、「WWWサーバ名」に関する情報が格納されていれば、メモリ16に格納された順にそれを読み出す。続いて、CPU15は、読み出した「WWWサーバ名」に対応するURLが、URLインデックス8として機能するハードディスク装置22に登録されているか探索する。
【0071】
上記「WWWサーバ名」に対応するURLがハードディスク装置22に登録されている場合、当該URLのうち文字列順で登録された先頭の1つを読み出す。続いて、CPU15は、当該URLがハードディスク装置22内の既取得URL記憶手段5として割り当てられた記憶領域に格納されているかどうか調べる。これによって、当該URLが上記記憶領域に格納されていると、ハードディスク装置22内のURLインデックス8として割り当てられた記憶領域から削除した後、上記「WWWサーバ名」に対応する別のURLを探索する。
【0072】
一方、当該URLが既取得URL記憶手段5として割り当てられた記憶領域に格納されていない場合、CPU15は、WWWサーバテーブル9として機能するメモリ16の上記「WWWサーバ名」に対応するエントリの状態を「ダウンロード中」に変更する。次いで、CPU15は、WWW情報収集プログラム内の通信プログラムを実行して、ネットワークインタフェース19と共にダウンロード手段として機能し、当該URLに対応するWWWサーバにアクセスして対応するウェブページがダウンロードされる。このあと、CPU15は、上記と同様にしてWWWサーバキュー10として機能するメモリ16の内容をチェックし、逐次ウェブページのダウンロードを実行する。
【0073】
なお、上記構成では、URLインデックス8及び既取得URL記憶手段5がハードディスク装置22を共有し、不可分の操作でダウンロード済URLのURLインデックス8からの削除と既取得URL記憶手段5への登録を行なうことができる。これにより、ダウンロード途中で障害が発生しても元の状態に回復することができる。
【0074】
実施の形態2.
この実施の形態2では、上記実施の形態1で示したURLインデックス8をB+木の代わりに「WWWサーバ名」をキーとするハッシュを用いて実現するものである。
【0075】
図8はこの発明の実施の形態2による取得要求URL管理手段の構成を示す図である。図において、3aは実施の形態2による取得要求URL管理手段(URL管理手段)であって、収集すべきウェブページのURLをWWWサーバごとに先入れ先出し順で格納し、これらURLに対応するWWWサーバとの通信状態を管理すると共に、これらに対応する「WWWサーバ名」を先入れ先出し順で格納する。8aはURLインデックス(URLインデックス部)で、収集すべき複数のURLををWWWサーバごとに先入れ先出し順で格納する。23はURLキャッシュであって、URL文字列をキーとする有限サイズのハッシュテーブルである。なお、図2と同一構成要素には同一符号を付して重複する説明を省略する。
【0076】
図9は図8中のURLインデックスを示す図である。図において、24は複数のポインタ25を配列要素とするヘッダであって、「WWWサーバ名」に適当なハッシュ関数を適用して得られる数値(ハッシュ値)を配列の項番として1つのポインタ25が選択される。ここで、ハッシュ関数は、例えば「WWWサーバ名」の文字コードの総和をヘッダ24の配列要素数で割った剰余とすることができる。25は固定サイズを有するバケット26の格納場所を指定するポインタで、「WWWサーバ名」に対応するハッシュ値によって特定される。26はポインタ25によって特定されるバケットであって、各ハッシュ値に対応するWWWサーバに属するURL文字列が登録順に格納される。27はバケット26の格納領域以上の数のURLを格納する際に複数のバケット26間を連結するあふれポインタである。
【0077】
また、URLインデックス8aにおいて、異なる「WWWサーバ名」が同一のハッシュ値を持つこともあり、その場合は1つのバケット26に複数のWWWサーバに対応するURLが混在することになる。さらに、同一のハッシュ値に対応するURLが多く、1つのバケット26では格納領域が不足する場合は、あふれポインタ27を用いて複数のバケット26が連結される。
【0078】
次に動作について説明する。
先ず、この実施の形態2と上記実施の形態1とにおいて動作が相違する箇所について説明する。上述したように、この実施の形態2では、URLインデックスの実現方式がB木からハッシュに変更されている。このため、上記実施の形態1によるWWW情報収集装置1の概略的な動作を示す図4のうち、ステップST4、ステップST5及びステップST9の処理が、URLインデックス8aの特徴に応じて変更される。具体的には、ステップST4において、取得要求URL管理手段3aは、WWWサーバキュー10の先頭から読み出した「WWWサーバ名」に対応するURLがURLインデックス8aに存在するか否かを、当該「WWWサーバ名」にハッシュ関数を適用して算出したハッシュ値に対応するポインタ25がヘッダ24に存在するか否かで判断する。また、ステップST5やステップST9における処理は、当該「WWWサーバ名」に対応するハッシュ値で特定されるポインタ25によってバケット26を読み出し、適宜URLを探索してその取り出しや削除が行われる。
【0079】
一方、上記実施の形態1によるWWW情報収集装置1におけるURLの登録動作の詳細を示す図5のうち、ステップST2a及びステップST3aの処理も、当該「WWWサーバ名」にハッシュ関数を適用して算出したハッシュ値に対応するポインタ25がヘッダ24に存在するか否かで判断し、このハッシュ値で特定されるポインタ25によって読み出されるバケット26から適宜URLを探索して取り出しが行われる。
【0080】
さらに、上記実施の形態1によるWWW情報収集装置1におけるダウンロード動作の詳細を示す図6のうち、ステップST5bの処理も同様に、当該「WWWサーバ名」にハッシュ関数を適用して算出したハッシュ値で特定されるポインタ25によってバケット26を読み出し、適宜URLを探索して削除が行われる。
【0081】
ここで、この実施の形態2では、URLインデックス8aのバケット26中ではURLが登録順に格納されている。このため、上記実施の形態1のように、URL文字列をキーとする検索は線形探索が必要となって効率的でない。そこで、URLインデックス8a中のURLの重複を許容して、図5におけるステップST2aの処理を取り除いてもよい。この場合も、当該URLに関するダウンロードを行うにあたり、図4中のステップST6において、既取得URL記憶手段5が参照されてURLの重複除去が行なわれる。これにより、URLインデックス8a中にURLが重複して格納されてもダウンロード動作には影響を与えない。
【0082】
また、図5のステップST2aにおいて、URLインデックス8aの代わりにURL文字列をキーとするハッシュテーブルを用いて重複除去を行なうこともできる。
【0083】
図10は図8中の取得要求URL管理手段の動作を示すフロー図であり、URLインデックス8a中のURLの重複を許容した際、図5中のステップST2aに代わって行われる処理を示している。
先ず、取得要求URL管理手段3aは、上記実施の形態1と同様に、ダウンロード手段4から登録しようとするURLが既取得URL記憶手段5に既に存在しているか否かの通知を受ける。このとき、対象とするURLが既取得URL記憶手段5に既に存在しているとの通知であると、取得要求URL管理手段3aは、当該URLが取得済みであると判断して登録せずに動作を終了する一方、対象とするURLが存在しない旨の通知である場合、当該URLが未取得であると判断してステップST2A−1の処理に移行する(ステップST1a)。
【0084】
ステップST2A−1において、取得要求URL管理手段3aは、URLキャッシュ23を構成するURL文字列のハッシュテーブルを検索して、当該URLが存在するか否かを調べる。このとき、URLキャッシュ23に存在する場合、当該URLの登録は不要であるので動作を終了する。一方、当該URLがURLキャッシュ23に存在しない場合、取得要求URL管理手段3aは、ステップST2A−2の処理に進み、URLキャッシュ23に新たなURLを登録する空き領域があるか否かを判断する。
【0085】
ここで、URLキャッシュ23に全てのURLを保持することはその記憶領域の浪費につながるため、登録するURL数に制限を設けて、最近登録されたURLのみを保持するようにする。つまり、ステップST2A−2において、取得要求URL管理手段3aは、URLキャッシュ23に空き領域がないと判断すると、ステップST2A−3の処理に進んで最も古いURLをURLキャッシュ23から削除して、URLの格納領域を確保したあと、ステップST2A−4の処理に進む。このとき、削除するURLは登録順で選択してもよいし、LRU(Least Recently Used)方式に基づいて参照された順を基準に用いてもよい。
【0086】
一方、ステップST2A−2において、取得要求URL管理手段3aがURLキャッシュ23に空き領域があると判断すると、ステップST2A−4の処理に進んで取得要求URLをURLキャッシュ23に登録したあと、図5におけるステップST4aの処理に移行する。
【0087】
以上のように、この実施の形態2によれば、収集すべき複数のURL自体をWWWサーバ毎に先入れ先出し順で格納するURLインデックス8aと、「WWWサーバ名」を先入れ先出し順で格納するWWWサーバキュー10とを備え、該WWWサーバキュー10から逐次読み出される複数の「WWWサーバ名」に対応するURLをURLインデックス8aに従って読み出し、これに対応するWWWサーバとの通信状態を各々管理しながらダウンロード動作を並行して実行するので、同一WWWサーバに対するアクセス間隔を制御しつつ、同時に最大限のWWWサーバからダウンロードを実行し収集速度を向上させることができる。
【0088】
なお、上記実施の形態2のハードウェア構成も、上記実施の形態1と同様に、専用のハードウェア又はWWW情報収集プログラムを実行するコンピュータ装置を用いて実現することができる。
【0089】
実施の形態3.
この実施の形態3では、上記実施の形態1のWWWサーバテーブル9に対して特定の情報を付加し、当該情報に基づいてWWWサーバに対する優先度を付与してWWWサーバキューへの挿入位置を決定するものである。
【0090】
図11はこの発明の実施の形態3によるWWW情報収集装置のWWWサーバテーブルを示す図である。図において、9aは実施の形態3によるWWWサーバテーブル(優先度設定テーブル部)であり、WWWサーバごとに、「WWWサーバ名」及びその通信状態に加えて、URLインデックス8に格納されたURL数を示す取得要求URL数、既取得URL記憶手段5に格納されたURL数を示す既取得URL数、及び、これらから算出した優先度を格納する。なお、WWWサーバテーブル9a以外の構成は、上記実施の形態1で示したものと同一であるものとする。
【0091】
次に動作について説明する。
図12は実施の形態3の取得要求URL管理手段による動作を示すフロー図であり、この図に示すフローは上記実施の形態1におけるURLの登録動作の詳細を示す図5のうち、ステップST4a以降の処理に置き換わるものである。
図5中のステップST1aからステップST3aまでの処理が行った後、取得要求URL管理手段3は、取得要求URLを構成する文字列から「WWWサーバ名」部分を取り出す(ステップST4a)。続いて、取得要求URL管理手段3は、当該URLから取り出した「WWWサーバ名」がWWWサーバテーブル9aに登録されているか判断し、登録済みであればステップST7Aに進み、未登録であればステップST6Aに進む(ステップST5A)。
【0092】
ステップST6Aでは、取得要求URL管理手段3によって当該「WWWサーバ名」を設定した新規のエントリがWWWサーバテーブル9aに追加され、ステップST7Aに進む。ここで、新規のエントリの各項目は、通信状態=「休止」、取得要求URL数=既取得URL数=0に設定される。
【0093】
次に、取得要求URL管理手段3は、WWWサーバテーブル9aの当該WWWサーバに対応するエントリの取得要求URL数に1を加える(ステップST7A)。このあと、取得要求URL管理手段3は、当該エントリの通信状態に関する内容を調べて「休止」でなければステップST10Aの処理に移行し、「休止」であればステップST9Aの処理に進む(ステップST8A)。ステップST9Aでは、取得要求URL管理手段3によって当該エントリの通信状態に関する内容が「ダウンロード待ち」に設定されたのち、ステップST10Aの処理に移行する。
【0094】
ステップST10Aにおいて、取得要求URL管理手段3は、当該エントリの通信状態に関する内容を調べ、「ダウンロード中」であれば処理を終了する。一方、「ダウンロード中」でなければ、ステップST11Aの処理に進む。ステップST11Aでは、取得要求URL管理手段3によって当該エントリの優先度が設定され、当該優先度に基づいてWWWサーバキュー10の適切な位置に当該「WWWサーバ名」を挿入あるいは移動する。
【0095】
ここで、上述した優先度の設定方法としては、例えば(取得要求URL数−既取得URL数)による差分値が大きいものを優先するように設定する。この場合、新たに発見されたWWWサーバのうち、他のWWWサーバから多数参照されているものから優先的にダウンロードすることになる。つまり、取得要求URL数が多いと、当該WWWサーバに対するリンクが、他のWWWサーバが保持する多くのウェブページに含まれており、他のWWWサーバから多数参照されるものと推察することができる。この参照の多さは、そのWWWサーバの重要度を反映している。また、既取得URL数が少ないほど新たなウェブページに対するリンクが発見される可能性が高いと考えられる。
【0096】
図13は実施の形態3によるWWW情報収集装置のウェブページの収集動作を示すフロー図であり、この図に沿ってダウンロード動作を説明する。なお、この図13は、上記実施の形態1におけるダウンロード動作の詳細を示す図6のうちステップST4bとステップST5bの間に追加する動作及びステップST9bに置き換わる動作を示している。
ステップST4bにおいて、ダウンロードしたURLを既取得URL記憶手段5に格納すると、取得要求URL管理手段3は、WWWサーバテーブル9aの当該WWWサーバに対応するエントリの既取得URL数に1を加算する(ステップST4b−1)。
これによって、後述するステップST9Bの処理において、ダウンロードがされるごとにWWWサーバテーブル9aの当該WWWサーバの優先度が動的に変更される。このあと、ステップST5bの処理に進み、ステップST8bまで上記実施の形態1と同様の動作がなされる。
【0097】
続いて、WWWサーバテーブル9aの当該WWWサーバに対応するエントリの通信状態に関する内容が「ダウンロード待ち」に設定される(ステップST8b)と、取得要求URL管理手段3は、ステップST11Aと同様に、当該WWWサーバに対応するエントリの取得要求URL数及び既取得URL数に基づいてその優先度を設定し、当該優先度に基づいてWWWサーバキュー10の適切な位置に(優先度順となるように)当該「WWWサーバ名」を挿入する(ステップST9B)。
【0098】
以上のように、この実施の形態3によれば、WWWサーバキュー10に対してWWWサーバごとの取得要求URL数及び既取得URL数に基づいて設定した優先度順に「WWWサーバ名」を格納するので、同一WWWサーバに対するアクセス間隔を制御しつつ、重要なウェブページやリンクを含むWWWサーバに優先的にアクセスすることができ、収集した情報の質を高めることができる。
【0099】
なお、上記実施の形態3では、各WWWサーバの優先度が同じ初期値を有する例を示したが、以前に実施したウェブページ収集完了時の優先度に基づいてWWWサーバごとに異なる初期優先度を与えるようにしてもよい。このようにすることで、収集ページが少ない初期段階においても適切にWWWサーバの優先度設定を行うことができる。
【0100】
なお、上記実施の形態3におけるURLインデックスは、上記実施の形態2のURLインデックス8aを用いてもよい。また、URLキャッシュ23と組み合わせてもよい。
【0101】
また、上記実施の形態3において、WWWサーバテーブル9aの取得要求URL数及び既取得URL数に基づいて取得要求URLの廃棄を行なうようにしてもよい。
つまり、図5及び図12に示したURLの登録動作に先立って、取得要求URL管理手段3がWWWサーバテーブル9aの当該WWWサーバに対応するエントリを調べ、取得要求URL数又は既取得URL数が一定値を越えていたらURLの登録を行なわずにURLを廃棄する。このようにすることで、WWWサーバごとの取得要求URL数及び既取得URL数を制限することができる。これにより、優先度の低いWWWサーバのURL格納に関わる性能や記憶領域のオーバヘッドが除外されて、より効率的に優先度の高いWWWサーバ対するアクセスを実現することができる。
【0102】
さらに、上記実施の形態3において、WWWサーバテーブル9aにエラー発生回数を追加し、優先度の設定や取得要求URLの廃棄に反映させてもよい。
つまり、図6のステップST3bにおいて、WWWサーバからのダウンロードが正常に完了しなかった際に、図13のステップST4b−1においてWWWサーバテーブルのエラー発生回数も+1加算する。エラー発生回数は、重み付けして優先度から差し引いたり、一定値を越えた場合に取得要求URLを廃棄するのに用いられる。これにより、通信状態が良好でないWWWサーバに繰り返しアクセスするオーバヘッドが除外されて、より効率的に正常なWWWサーバに対するアクセスを実現することができる。
【0103】
実施の形態4.
この実施の形態4では、上記実施の形態1のURLインデックス8においてURLを文字列順に格納する代わりに、URLに設定した優先度順に格納するものである。
【0104】
図14はこの発明の実施の形態4によるWWW情報収集装置の構成を示す図である。図において、1aは実施の形態4によるWWW情報収集装置(情報収集装置)であって、取得要求URL管理手段3bによって優先度順に管理される取得要求URLを読み出してWWW上のウェブページを網羅的に収集する。3bは取得要求URL管理手段(URL管理手段)で、収集すべきウェブページのURLをその優先度順に格納し、これらURLに対応するWWWサーバとの通信状態を管理すると共に、これらに対応する「WWWサーバ名」を先入れ先出し順で格納する。28は優先度設定手段であって、ウェブページから抽出されたリンクのURLに対して優先度を設定する。
【0105】
次に動作について説明する。
この実施の形態4によるWWW情報収集装置1aの基本的な動作としては、先ず、ダウンロード手段4がウェブページをダウンロードすると、URLコンテンツ記憶手段6に格納する。このあと、リンク抽出手段7は、受信したウェブページをURLコンテンツ記憶手段6から読み出しそのHTMLデータからリンク情報を抽出する。
【0106】
このとき、優先度設定手段28は、リンク抽出手段7が読み出したウェブページやこれを解析して抽出したリンク情報に対して、予め与えたキーワードの出現頻度や他のウェブページからの参照数などに基づいてウェブページの優先度を設定する。これに続いて、当該優先度を元に当該ウェブページから抽出されたリンクのURLに対しても優先度を設定する。これら優先度は、リンク抽出手段7を介して取得要求URL管理手段3bに送出されてURLインデックス8bに登録される。
【0107】
次にURLインデックス8bについて説明する。
図15は図14中の取得要求URL管理手段を構成するURLインデックスを示す図である。図において、8bは実施の形態4によるURLインデックス(URLインデックス部)であって、URLが文字列順ではなく、URLの優先度順にソートされ記憶される。11aは取得要求URLを対応する「WWWサーバ名」と当該URLの優先度との組み合わせをキーとしてソートして格納するリーフページであって、URLに関する情報の格納領域とポインタ12aとの対で構成される。12aは複数のリーフページ11aを連結するポインタで、次に連結すべきリーフページ11aの最初のURL文字列の格納場所(アドレス)を示す情報である。13aはリーフページ11aの上位階層を有するノードページであって、各リーフページ11aを導くポインタ14aと参照先のリーフページ11a内の最後に位置するURL文字列を格納する格納領域とから構成されている。14aはリーフページ11aを参照する際に各リーフページ11aを導くポインタで、参照すべきリーフページ11aの格納場所(アドレス)を示す情報である。
【0108】
URLインデックス8bにおいて、図15に示すように、取得要求URLに対応するキーは、例えば(www.aaa.co.jp(WWWサーバ名),20(優先度))なる組み合わせで表される。また、リーフページ11aには、上記組み合わせに加えて、元のURLを復元することができるように、キーに対応するデータとしてURLのWWWサーバ内識別子も格納する。
【0109】
上述したように、URLインデックス8bは、取得要求URLを「WWWサーバ名」とその優先度の組み合わせをキーとして管理する。このため、上記実施の形態1によるWWW情報収集装置1の概略的な動作を示す図4のうち、ステップST4、ステップST5及びステップST9の処理が、URLインデックス8bの特徴に応じて変更される。具体的には、ステップST4において、取得要求URL管理手段3bは、WWWサーバキュー10の先頭から読み出した「WWWサーバ名」に対応するURLがURLインデックス8bに存在するか否かを判断するにあたり、当該「WWWサーバ名」とURLの優先度の組み合わせをキーとしてノードページ13a、リーフページ11aを探索する。つまり、当該「WWWサーバ名」に関する上記組み合わせがあるかどうかで判断する。また、ステップST5における処理では、当該「WWWサーバ名」とURLの優先度の組み合わせのうち最大の優先度を有する組み合わせを順次読み出し、当該「WWWサーバ名」とWWWサーバ内識別子とを組み合わせて復元したURLを取り出す。ステップST9における処理では、URLインデックス8bから当該「WWWサーバ名」に関する上記組み合わせ及びこれに対応するWWWサーバ内識別子を削除することで、当該URLの削除が行われる。
【0110】
一方、上記実施の形態1によるWWW情報収集装置1におけるURLの登録動作の詳細を示す図5のうち、ステップST2aの処理も、ノードページ13a、リーフページ11a内に、当該「WWWサーバ名」に関する上記組み合わせがあるかどうかで判断する。また、この組み合わせから、当該「WWWサーバ名」を抽出しWWWサーバ内識別子と組み合わせてURLを復元して取り出しが行われる。ステップST3aの処理では、リーフページ11a内に、当該「WWWサーバ名」の文字列順に当該URLの優先度と組み合わせて挿入される。このとき、WWWサーバ内識別子も上記組み合わせに関連付けられて格納される。
【0111】
さらに、上記実施の形態1によるWWW情報収集装置1におけるダウンロード動作の詳細を示す図6のうち、ステップST5bの処理も、URLインデックス8bから当該「WWWサーバ名」に関する上記組み合わせ及びこれに対応するWWWサーバ内識別子を削除することで、当該URLの削除が行われる。
【0112】
また、このURLインデックス8bでは、URL文字列をキーとする検索は非効率になる。このため、上記実施の形態2と同様に、URLの重複した登録を防止するためのステップST2aの処理を省略することができ、また、URLキャッシュ23と組み合わせて用いることもできる。
【0113】
以上のように、この実施の形態4によれば、収集すべきURLに優先度を設定する優先度設定手段28と、WWWサーバ毎に優先度順にURLを格納するURLインデックス8bとを備えるので、WWWサーバに対するアクセス間隔を制御しつつ、予め与えたキーワードや参照数などに基づいて重要度の高いウェブページからダウンロードすることができ、収集した情報の質を高めることができる。
【0114】
【発明の効果】
以上のように、この発明によれば、ハイパテキスト情報に含まれるリンク情報を解析して、リンク先に対応するURL(Uniform Resource Locator)を抽出し、URLに記述されるリンク先のサーバ装置を特定するサーバ名情報に基づいてサーバ装置ごとのURLの読み出し順を管理して、サーバ名情報を用いて読み出したURLに対応するハイパテキスト情報を収集するので、同一サーバ装置に対するアクセス間隔を制御しつつ、同時に複数のサーバ装置からハイパテキスト情報の収集を実行することができ、情報の収集速度を向上させることができるという効果がある。
【0115】
この発明によれば、ハイパテキスト情報に含まれるリンク情報を解析して、リンク先に対応するURL(Uniform Resource Locator)を抽出し、ハイパテキスト情報の内容及び/又は他のハイパテキスト情報からの参照数を用いて、URLごとに読み出しの優先度を設定し、URLに記述されるリンク先のサーバ装置を特定するサーバ名情報、及び優先度に基づいてサーバ装置ごとのURLの読み出し順を管理して、サーバ名情報を用いて読み出したURLに対応するハイパテキスト情報を収集するので、同一サーバ装置に対するアクセス間隔を制御しつつ、重要なハイパテキスト情報の収集を優先して実行することができ、情報の質を向上させることができるという効果がある。
【0116】
この発明によれば、URLに記述される各情報をその文字列順にページに割り当ててなるB木によってサーバ装置ごとのURLの読み出し順を管理するので、単一のインデックスで複数のサーバ装置の各々に対応するURLを管理することができるという効果がある。
【0117】
この発明によれば、ディレクトリ階層の深さに応じてURLの読み出し順を設定するので、単一のインデックスで複数のサーバ装置の各々に対応するURLを管理することができると共に、重要な情報を優先的に収集することができるという効果がある。
【0118】
この発明によれば、サーバ名情報をキーとするハッシュによってサーバ装置ごとのURLの読み出し順を管理するので、単一のインデックスで複数のサーバ装置の各々に対応するURLを管理することができるという効果がある。
【0119】
この発明によれば、サーバ名情報とURLの優先度の組み合わせをページに各々割り当ててなるB木によってサーバ装置ごとのURLの読み出し順を管理するので、単一のインデックスで複数のサーバ装置の各々に対応するURLを管理することができると共に、重要な情報を優先的に収集することができるという効果がある。
【0120】
この発明によれば、ハイパテキスト情報の収集を複数のサーバ装置との間で並行して実行するので、情報の収集速度を向上させることができるという効果がある。
【0121】
この発明によれば、収集済みハイパテキスト情報数と未収集ハイパテキスト情報数とを用いてサーバ装置ごとに優先度を設定し、該優先度に応じて各サーバ名情報の一意な読み出しを管理するので、重要な情報を有するサーバ装置に優先してアクセスすることができるという効果がある。
【0122】
この発明によれば、収集済みハイパテキスト情報数と未収集ハイパテキスト情報数とが所定の閾値を超えると、新たなURLの格納を行わないので、重要性の低い情報を管理することによるURLの探索効率の低下を防ぎ、重要な情報を高速に収集することができるという効果がある。
【0123】
この発明によれば、ハイパテキスト情報の収集を完了すると、該ハイパテキスト情報に対応するURLを既取得として登録したのち、該URLを削除するので、障害の発生により情報収集が完了していないURLに対する取得要求が失われることを防ぐことができるという効果がある。
【0124】
この発明によれば、読み出すべきURLを予め読み出して格納するURLキャッシュを備えるので、URLの重複した登録が防がれ、URLの登録処理の効率を向上させることができるという効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1によるWWW情報収集装置の構成を示す図である。
【図2】 図1中の取得要求URL管理手段の構成を示すブロック図である。
【図3】 図2中のURLインデックスを示す図である。
【図4】 図1中のWWW情報収集装置の動作を概略的に示すフロー図である。
【図5】 図1中の取得要求URL管理手段による動作を示すフロー図である。
【図6】 実施の形態1によるWWW情報収集装置のウェブページの収集動作を示すフロー図である。
【図7】 図1中のWWW情報収集装置をコンピュータ装置で具現化した際のハードウェア構成を示す図である。
【図8】 この発明の実施の形態2による取得要求URL管理手段の構成を示す図である。
【図9】 図8中のURLインデックスを示す図である。
【図10】 図8中の取得要求URL管理手段の動作を示すフロー図である。
【図11】 この発明の実施の形態3によるWWW情報収集装置のWWWサーバテーブルを示す図である。
【図12】 実施の形態3の取得要求URL管理手段による動作を示すフロー図である。
【図13】 実施の形態3によるWWW情報収集装置のウェブページの収集動作を示すフロー図である。
【図14】 この発明の実施の形態4によるWWW情報収集装置の構成を示す図である。
【図15】 図14中の取得要求URL管理手段を構成するURLインデックスを示す図である。
【図16】 URLを表す文字列の一例を示す図である。
【図17】 従来のWWW情報収集装置の構成を示す図である。
【図18】 図17中のWWWサーバ上におけるウェブページ配置の一例を示す図である。
【図19】 図17中のWWW情報収集装置によるウェブページのダウンロード順とWWWサーバのアクセス順の一例を示す図である。
【符号の説明】
1,1a WWW情報収集装置(情報収集装置)、2 インターネット、3,3a,3b 取得要求URL管理手段(URL管理手段)、4 ダウンロード手段(通信手段)、5 既取得URL記憶手段(既取得URL登録手段)、6 URLコンテンツ記憶手段、7 リンク抽出手段、8,8a,8b URLインデックス(URLインデックス部)、9 WWWサーバテーブル、9a WWWサーバテーブル(優先度設定テーブル部)、10 WWWサーバキュー(サーバ名情報記憶手段)、11,11a リーフページ、12,12a ポインタ、13,13a ノードページ、14,14a ポインタ、15 CPU、16 メモリ、17 コンソールインタフェース、18 ディスクインタフェース、19 ネットワークインタフェース、20 内部バス、21 コンソール入出力装置、22 ハードディスク装置、23 URLキャッシュ、24 ヘッダ、25 ポインタ、26 バケット、27 あふれポインタ、28 優先度設定手段、A〜C WWWサーバ(サーバ装置)。

Claims (8)

  1. ハイパテキスト情報に含まれるリンク情報を解析して、リンク先に対応するURL(Uniform Resource Locator)を抽出するリンク抽出手段と、
    URLが、該URLに記述される各情報をその文字列順にページに割り当ててなるB木によって索引付けして登録されるURLインデックス部、URLに記述されたリンク先のサーバ装置を特定するサーバ名情報を、該サーバ名情報で特定されるサーバ装置との通信順に格納するサーバ名情報記憶手段、及び収集済みハイパテキスト情報数と未収集ハイパテキスト情報数とを用いて、サーバ装置ごとの優先度を設定する優先度設定テーブル部を有し、上記優先度設定テーブル部によって設定された優先度に応じた通信順で上記サーバ名情報を上記サーバ名情報記憶手段に格納し、上記リンク抽出手段が抽出した上記URLに基づいて上記URLインデックス部を検索して未登録であれば、該URLを上記URLインデックス部に上記索引付けを施して登録すると供に、上記サーバ名情報記憶手段から通信順に読み出したサーバ名情報に基づいて、上記URLインデックス部を検索して通信対象のURLを読み出すURL管理手段と、
    該URL管理手段によって、上記URLインデックス部から読み出された上記URLに対応する上記ハイパテキスト情報を収集する通信手段とを備えた情報収集装置。
  2. URLインデックス部は、ディレクトリ階層の深さに応じてURLの読み出し順を設定することを特徴とする請求項1記載の情報収集装置。
  3. ハイパテキスト情報に含まれるリンク情報を解析して、リンク先に対応するURL(Uniform Resource Locator)を抽出するリンク抽出手段と、
    URLが、該URLに記述されたリンク先のサーバ装置を特定するサーバ名情報をキーとするハッシュによって索引付けして登録されるURLインデックス部、上記サーバ名情報を、該サーバ名情報で特定されるサーバ装置との通信順に格納するサーバ名情報記憶手段、及び収集済みハイパテキスト情報数と未収集ハイパテキスト情報数とを用いて、サーバ装置ごとの優先度を設定する優先度設定テーブル部を有し、上記優先度設定テーブル部によって設定された優先度に応じた通信順で上記サーバ名情報を上記サーバ名情報記憶手段に格納し、上記リンク抽出手段が抽出した上記URLに基づいて上記URLインデックス部を検索して未登録であれば、該URLを上記URLインデックス部に上記索引付けを実施して登録すると共に、上記サーバ名情報記憶手段から通信順に読み出したサーバ名情報に基づいて、上記URLインデックス部を検索して通信対象のURLを読み出すURL管理手段と、
    該URL管理手段によって上記URLインデックス部から読み出された上記URLに対応する上記ハイパテキスト情報を収集する通信手段とを備えた情報収集装置。
  4. ハイパテキスト情報の内容及び/又は他のハイパテキスト情報からの参照数を用いて、URLごとに読み出しの優先度を設定する優先度設定手段と、
    上記URL管理手段は、サーバ名情報と、上記優先度設定手段に設定されたURLの優先度との組み合わせを、ページに各々割り当ててなるB木によって索引付けしてURLインデックス部に登録し、サーバ名情報記憶手段から通信順に読み出したサーバ名情報に基づいて、上記URLインデックス部を検索して通信対象のURLを読み出すことを特徴とする請求項1記載の情報収集装置。
  5. URL管理手段は、複数のサーバ装置の各々に対応するURLを逐次読み出し、
    通信手段は、上記URL管理手段により逐次読み出されたURLに対応するサーバ装置にアクセスし、上記複数のサーバ装置との間でハイパテキスト情報の収集を並行して実行することを特徴とする請求項1から請求項4のうちのいずれか1項記載の情報収集装置。
  6. URL管理手段は、収集済みハイパテキスト情報数と未収集ハイパテキスト情報数とが所定の閾値を超えると、新たなURLの格納を行わないことを特徴とする請求項1から請求項のうちのいずれか1項記載の情報収集装置。
  7. 収集済みハイパテキスト情報のURLを登録する既取得URL登録手段を備え、
    URL管理手段は、通信手段がハイパテキスト情報の収集を完了すると、該ハイパテキスト情報に対応するURLを上記既取得URL登録手段に登録したのち、該URLを削除することを特徴とする請求項1から請求項のうちのいずれか1項記載の情報収集装置。
  8. URL管理手段は、読み出すべきURLを予め読み出して格納するURLキャッシュを備えたことを特徴とする請求項3又は請求項4記載の情報収集装置。
JP2002076651A 2002-03-19 2002-03-19 情報収集装置 Expired - Lifetime JP4808357B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002076651A JP4808357B2 (ja) 2002-03-19 2002-03-19 情報収集装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002076651A JP4808357B2 (ja) 2002-03-19 2002-03-19 情報収集装置

Publications (2)

Publication Number Publication Date
JP2003271670A JP2003271670A (ja) 2003-09-26
JP4808357B2 true JP4808357B2 (ja) 2011-11-02

Family

ID=29205353

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002076651A Expired - Lifetime JP4808357B2 (ja) 2002-03-19 2002-03-19 情報収集装置

Country Status (1)

Country Link
JP (1) JP4808357B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4035623B2 (ja) * 2004-07-16 2008-01-23 国立大学法人 東京大学 情報処理装置およびプログラム
JP4718205B2 (ja) * 2005-02-22 2011-07-06 三菱電機株式会社 選択的Web情報収集装置
JP2007122450A (ja) * 2005-10-28 2007-05-17 Nippon Telegr & Teleph Corp <Ntt> 自動情報取得装置および自動情報取得方法
JP2007241378A (ja) * 2006-03-06 2007-09-20 Data Henkan Kenkyusho:Kk 検索装置及びそのプログラム
JP2007241819A (ja) * 2006-03-10 2007-09-20 Sharp Corp 端末装置およびコンテンツ受信方法
US20090019015A1 (en) * 2006-03-15 2009-01-15 Yoshinori Hijikata Mathematical expression structured language object search system and search method
JP4914644B2 (ja) * 2006-05-17 2012-04-11 Jx日鉱日石エネルギー株式会社 水素化精製方法及び環境低負荷型ガソリン基材
ITMI20062436A1 (it) 2006-12-19 2008-06-20 Revamping S R L Metodo di classificazione di pagine web e di organizzazione dei corrispondenti contenuti
JP5014252B2 (ja) * 2008-05-20 2012-08-29 ヤフー株式会社 コンテンツを検索する索引データを管理する方法、サーバ、およびプログラム
KR100993818B1 (ko) 2009-02-18 2010-11-12 고려대학교 산학협력단 웹 크롤링 시스템 및 그 방법
JP5231604B2 (ja) * 2011-06-07 2013-07-10 ヤフー株式会社 クロールサーバ及び方法
KR101244357B1 (ko) * 2011-08-11 2013-03-18 한국과학기술정보연구원 웹 자원 아카이빙을 위한 장치 및 방법
JP2015207027A (ja) * 2012-08-31 2015-11-19 パナソニック株式会社 ウェブページキャッシュ装置、ウェブページキャッシュ方法、プログラム、および集積回路
CN111782914B (zh) * 2020-06-22 2023-05-26 杭州迪普科技股份有限公司 一种Web服务器防护方法、装置和网络设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3298516B2 (ja) * 1998-08-28 2002-07-02 日本電気株式会社 インターネット情報探索システムと方法

Also Published As

Publication number Publication date
JP2003271670A (ja) 2003-09-26

Similar Documents

Publication Publication Date Title
Najork et al. High-performance web crawling
JP3160719B2 (ja) コンピュータのネットワークからワールドワイドウェッブ上のページを捜し出したり、ドキュメントを捜し出したりするためのシステム及び方法
US11645183B1 (en) User interface for correlation of virtual machine information and storage information
JP4808357B2 (ja) 情報収集装置
US8812478B1 (en) Distributed crawling of hyperlinked documents
US6754799B2 (en) System and method for indexing and retrieving cached objects
AU754816B2 (en) High performance object cache
US8560569B2 (en) Method and apparatus for performing bulk file system attribute retrieval
US6321228B1 (en) Internet search system for retrieving selected results from a previous search
US9229940B2 (en) Method and apparatus for improving the integration between a search engine and one or more file servers
KR100971863B1 (ko) 네트워크 문서의 배치화된 인텍싱을 위한 시스템 및 방법
JP4832061B2 (ja) コンテンツ収集装置およびコンテンツ収集システム
EP0898754B1 (en) Information retrieval in cache database
JP2002132832A (ja) 画像検索方法及び画像検索エンジン装置
JP2001518668A (ja) 情報を事前に取り出すための方法およびシステム
CN1517885A (zh) 关于利用原子性更新的中央高速缓冲存储器的方法和系统
CN1575464A (zh) 利用事务语义法分段和处理连续数据流
KR100359233B1 (ko) 웹 정보 추출 방법 및 시스템
JP3698242B2 (ja) 情報セット重要度判定システム及びその判定方法、及び情報セット重要度判定プログラムを記録した記録媒体
JP4259858B2 (ja) Wwwサイト履歴検索装置及び方法並びにプログラム
JP3664923B2 (ja) 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体
US7502773B1 (en) System and method facilitating page indexing employing reference information
JP2002342371A (ja) Www検索システムおよび方法
JP3699267B2 (ja) 検索方法及び検索装置並びにデータベース方法及びデータベース装置
JP3725835B2 (ja) 知識情報収集システムおよび知識情報収集方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050316

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080707

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081201

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090106

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20090213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110712

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110817

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140826

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4808357

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term