JP4259858B2 - Wwwサイト履歴検索装置及び方法並びにプログラム - Google Patents
Wwwサイト履歴検索装置及び方法並びにプログラム Download PDFInfo
- Publication number
- JP4259858B2 JP4259858B2 JP2002351405A JP2002351405A JP4259858B2 JP 4259858 B2 JP4259858 B2 JP 4259858B2 JP 2002351405 A JP2002351405 A JP 2002351405A JP 2002351405 A JP2002351405 A JP 2002351405A JP 4259858 B2 JP4259858 B2 JP 4259858B2
- Authority
- JP
- Japan
- Prior art keywords
- url
- www
- document
- collection
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
この発明はWWW(World Wide Web、ウェブ)サイトで公開される情報を構成するWWW文書を定期的に収集・保存し、無効になったURL(Uniform Resource Locator)でのアクセス要求に対して適切なWWW文書内容を出力することができるWWWサイト履歴検索装置及びWWWサイト履歴検索方法並びにWWWサイト履歴検索装置としてコンピュータを機能させるプログラムに関するものである。
【0002】
【従来の技術】
今日、インターネット上では急速に普及したWWW(World Wide Web、ウェブ)サービスに基づく種々の情報が公開されている。このWWWにおける情報は、WWW文書と呼ばれるHTML(Hyper Text Markup Language)で記述されたテキストファイルを中心とした情報で構成されている。また、複数のコンピュータ(WWWサーバ)によりインターネットを介して提供される種々の情報は、URL(Uniform Resource Locator)と呼ばれる文字列により一意に識別される。
【0003】
ここで、URL文字列の例を以下に示す。
http://www.xxx.co.jp/products/order.html
【0004】
URLは、通信プロトコルとしてHTTP(Hyper Text Transfer Protocol)を用いることを示すキーワード「http://」で始まり、続いてWWWサーバ名(ドメイン名)を示す「www.xxx.co.jp」、WWWサーバ内識別子として「/products/order.html」が記述される。通常、URLは、WWWサーバに内容が静的に(予め)管理されたファイルに対応しており、静的URLと呼ばれる。
【0005】
一方、下記のURLは、動的URLと呼ばれるものである。
http://www.xxx.co.jp/view.cgi?item=123&sortby=date
【0006】
WWWサーバ内識別子に対応する文字列のうち、「?」以降の部分は、パラメータ名(「item」及び「sortby」)とパラメータ値(123及び「date」)の組を列挙したものである。この部分は、「?」以前の文字列「view.cgi」にて指定されるWWWサーバ上のプログラムに設定されるパラメータを示している。つまり、動的URLは、内容が静的に管理されたファイルを指定するものではなく、上記パラメータが設定されたプログラムをWWWサーバが実行することで動的に得られる情報を指定する。以降、静的URL及び動的URLにおけるパラメータに関する部分(パラメータ名及びパラメータ値)以外をURLパスと呼ぶこととする。
【0007】
また、動的URLは、静的URLと同様にWWW文書中のリンクとして指定される一方、WWWブラウザによってフォームと呼ばれる形式のWWW文書から動的に生成される。ここで、フォームとは、URLパスと各パラメータとが個別に記述される形式であり、WWWブラウザを介して閲覧者が各パラメータの値を選択することや記述することができる。
【0008】
フォームで使用されるWWWサーバへのアクセス方法としては2種類が一般的である。すなわち、1つはURLパスとパラメータから動的URLを生成するGETメソッド、もう1つはURLパスとパラメータを別々の情報としてWWWサーバに送るPOSTメソッドである。以降では、GETメソッドを例として説明する。
【0009】
先ず、一般的なWWWサーバの構成及び動作について説明する。
WWWサーバは、インターネットを介してWWWブラウザが動作する端末装置と通信可能なコンピュータによって具現化される。WWWサーバには、WWWブラウザからのHTTP要求に応答するプログラムであるHTTPサーバが動作している。このHTTPサーバは、静的URLによる要求があると静的にファイル内容を記憶する記憶装置から静的URLに対応するファイルを取得する。この記憶装置は、WWWサーバを具現化するコンピュータに標準的に搭載された磁気ディスク装置等により構成され、ファイルの読み出しや書き込みを制御する処理部を含めたファイル管理システムとして実現される。このとき、上記記憶装置は、静的URLのWWWサーバ内識別子をファイル名として解釈し、これに対応するファイルの内容を特定する。
【0010】
一方、動的URLによる要求があると、HTTPサーバは、当該動的URLに設定されたパラメータと、動的コンテンツとして提供すべき情報をまとめた動的コンテンツデータベースから読み出される情報とに基づいて、動的URLによる要求がある度に動的コンテンツ内容を生成する。
【0011】
上述したようなWWW文書を指定するURL自体は、ブックマークとしてWWWブラウザに格納されたり、リンクとして他のWWW文書に埋め込まれたりする。一方、URLとWWW文書との関連付けは、WWWサーバの運用者に一任されている。これにより、WWWサーバの運用者は、随時WWW文書の内容を変更したり、URLの変更や廃止を行うことができる。
【0012】
また、動的URLでは、動的コンテンツ生成プログラムである上記機能部の変更や、動的コンテンツデータベースの更新によってもWWW文書の内容やURLが変更され得る。このため、上述した変更がWWWサーバにおいて頻繁に行われると、閲覧者が指定したURLが無効になっていたり、以前と内容が異なっているという事態が発生する。
【0013】
特に、企業の商業サイトなど多くの商品を扱うようなWWWサイトでは、掲載内容が刻々と変化する上、より多くの顧客を引き付けようとサイトの構成(具体的には、WWW文書の配置など)も頻繁に変更される場合が多々ある。これにより、無効なURLを作らないように作業することや過去のWWW文書の内容を網羅的に保存しておくことが極めて困難になっている。この結果として生じる無効URLは、閲覧者の利便性を阻害するだけでなく、WWWサーバの運用者にとっても閲覧者に不快感を与えることによる損失を被る可能性がある。
【0014】
このような不具合を解消する技術として、あるURLで指定されるWWW文書の内容を当該URLに関連付けてWWWブラウザ側に予め保存しておき、当該URLが指定するWWW文書のWWWサイト内での配置変更の有無を閲覧時に検知して移動先などを探索するシステムが提案されている(例えば、特許文献1参照)。このシステムは、アクセス要求したURLで指定されるWWW文書がWWWサイト内で配置変更されていると、当該URLに関連付けて保存されたWWW文書から抽出したキーワードにてWWWサイト内から配置変更後のWWW文書を検出し、閲覧者に提供する。このように、本システムでは、閲覧者が過去に参照したWWW文書に関して、参照時点の内容を保存したり、移動先を追跡することが可能である。
【0015】
しかしながら、閲覧者が管理するWWWブラウザ側からWWWサーバにアクセスしてWWW文書の移動の有無の検出や移動情報の取得を行うことから、これらの処理を実行する際に必要とする通信費用は、WWWブラウザを管理する閲覧者が負担しなければならない。このように、特許文献1に開示される発明では、閲覧者の自発的な協力を前提としており、WWWサイトの運営者側があらゆる閲覧者に不快感を抱かせず、当該サイトに閲覧者を引き止めるための方法としては効果を期待できない。
【0016】
また、上述したものの他に、無効なURLが要求された場合に、WWWサーバ側から「NOT FOUND」などのエラーメッセージを返す代わりに、URL文字列の一部から推定した移動先URLの候補を提示したり、移動先をキーワードで検索するインタフェースを提示する技術もある。しかしながら、当該技術を適用したシステムでは、WWWサイトのエントランスページなどのように移動先が明確な場合を除き、アクセス要求したURLに対応する移動先URLを閲覧者が上記移動先URL候補のうちから判断する必要がある。また、キーワードによる検索では必ずしも移動先のWWW文書の内容が検索結果として抽出されるかどうか定かではない。このように、当該技術では、上述した不具合の抜本的な解決にはなっておらず、閲覧者の利便性の向上には至っていない。
【0017】
一方、第3者であるインターネット検索エンジンにおいて、例えばGoogle(登録商標)(http://www.google.com/)では検索結果のURLだけではなく、内容をキャッシュとして保存し、利用者に提供するサービスを実施している。これにより、当該検索エンジンが検索対象としたWWW文書に関しては、オリジナルのWWWサーバ上のURLが無効になっても元の内容を参照することができる。
【0018】
また、インターネットアーカイブが提供するWayBack Machine(http://web.archive.org/)では、定期的に収集したインターネット上のWWWサイトの網羅的なスナップショットを保存しており、URLに対する過去の内容を提供するサービスを提供している。これにより、収集されたURLに関しては、内容が上書きされた場合に元の内容を参照することが可能である。
【0019】
上述したような第3者の検索エンジンによって収集・保存されたWWW文書の内容を利用する技術では、第3者の検索エンジンによる収集対象がインターネット上の全てのWWW文書となる。このようにインターネット上の全てのWWW文書を収集対象とすると、多大な通信費用が必要となる上、収集した情報を格納する大容量の記憶装置などの高価なハードウェア資源も必要となる。これにより、上述したような第3者の検索エンジンを利用するシステムでは、情報収集の間隔を空けざるを得なくなり、その周期は通常1ヵ月程度と比較的長い。また、WWW文書を収集するWWWサイトも特定のものに限られる場合が一般的であり、必ずしも全てのWWW文書が保存される保証はない。
【0020】
また、動的URLでは、パラメータ名とパラメータ値との組み合わせが膨大な数になる可能性があり、これら全ての組み合わせに関するURLで指定される情報を収集するには通信量が増加して通信費用も膨大なものになる。このため、情報収集を実行する周期を長くせざるを得ない。これにより、WWWサイトの構成変更を完全に網羅することができず、必ずしも望ましい処理内容を閲覧者に提供することができない。
【0021】
【特許文献1】
特開2000−207418
【0022】
【発明が解決しようとする課題】
特許文献1に開示される従来のシステムでは、WWWブラウザ側に保存しておいたWWW文書から抽出したキーワードにてWWWサイト内から配置変更後の上記WWW文書の内容及びそのURLを検出することから、閲覧者が当該WWWサイト内において初めて辿ったURLについては全く対応することができないという課題があった。つまり、閲覧者が過去にアクセスして内容及びURLが保存されたWWW文書でないと、配置変更後のWWW文書を検出することができない。
【0023】
この発明は上記のような課題を解決するためになされたもので、WWWサイト上で本質的に重要なWWW文書を収集対象として設定する収集ルールを設け、当該収集ルールに従ってWWW文書内容を網羅的に収集・保存しておくことで、本質的な内容が不足しない程度にWWW文書の収集規模を抑えながら、WWWサイトの無効URLを防止することができ、上記収集ルールに基づいて収集対象外とされたURLを収集済みのURLに変換することで、閲覧者が初めて辿ったURLが指定するWWW文書内容に変更があった場合にも、リアルタイムに元のWWW文書内容やこれに類似する内容を指定するURLを返信することができるWWWサイト履歴検索装置及びWWWサイトの履歴検索方法並びにWWWサイト履歴検索装置としてコンピュータを機能させるプログラムを得ることを目的とする。
【0024】
【課題を解決するための手段】
この発明に係るWWWサイト履歴検索装置は、URLパスが収集対象であるか否か、及び収集対象のURLパスに対応するパラメータ名及びパラメータ値の組み合わせが収集対象であるか否かが記述された収集ルールに従って収集対象のURLを特定し、電気通信回線を介して、WWWサイトで公開されるWWW文書のうち、当該特定された収集対象のURLに対応するWWW文書を選択的に収集する収集部と、上記収集部が収集したWWW文書をそのURLに関連付けて保存する履歴格納部と、履歴検索要求として入力されたURLに基づいて上記履歴格納部に保存したWWW文書を検索する履歴検索部と、上記履歴検索に用いるURLが選択的に収集されなかったWWW文書を指定する場合、当該URLを、上記WWWサイトにおいて既に収集を行ったWWW文書を指定するURLであって、上記収集ルールで収集対象として設定されたURLパス、パラメータ名及びパラメータ値の組み合わせから特定したURLに変換して上記履歴検索部に出力するURL正規化部とを備えるものである。
【0025】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1によるWWWサイト履歴検索装置の構成及びその動作に関与する装置を示す図である。WWWサイト履歴検索装置1は、インターネット(電気通信回線)4を介して、WWWサイトを管理するWWWサーバ2及びWWWブラウザが動作する端末装置3と双方向の通信が可能な状態で接続している。WWWサーバ2は、従来の技術で説明したものと同様に構成され、同様な動作をするものとする。また、WWWサーバ2は、WWWサイト履歴検索装置1においてWWW文書の収集対象に設定されているものとする。端末装置3としては、WWWブラウザとしてのソフトウェアが動作するパーソナルコンピュータ(以下、PCと略す)、携帯情報端末や携帯電話などが考えられる。
【0026】
また、WWWサイト履歴検索装置1は、WWW文書収集部(収集部)5、URLリスト5a、WWW文書履歴記憶部(履歴格納部)6、収集ルール記憶部7、URL正規化部8、履歴検索部9、文書特徴抽出部10、文書特徴索引記憶部11、及び、類似文書検索部12から構成される。
各構成部の概要を説明すると、WWW文書収集部5は、インターネット4を介してWWWサーバ2と通信接続し、URLリスト5aから読み出したURLで指定されるWWW文書を収集ルールに従って自動的に収集する。URLリスト5aは、WWW文書収集部5が収集すべきWWW文書のURLを格納するリスト情報である。WWW文書履歴記憶部6は、WWW文書収集部5が収集したWWW文書を格納する記憶部である。
【0027】
ここで、収集ルールとは、予め定めたWWWサイトにて公開される情報を構成するWWW文書を指定するURL群のうち、本質的に重要な情報を指定するURLを収集対象として定めた情報である。具体例を挙げて説明すると、一部のパラメータ値のみが異なる複数の動的URLが類似した内容のWWW文書をそれぞれ指定する場合である。このような類似した内容のWWW文書群は、互いに新規な情報を与えるものではなく、上記WWWサイトで公開される情報を構成する上で本質的に重要なものではない。そこで、これらWWW文書群をそれぞれ指定するURL群から代表して少なくとも1つのURLを選択して収集対象とし、収集ルールを構成する。この収集ルールに従ってWWW文書を収集することで、収集対象のWWWサイトで公開される情報を構成する上で本質的に重要なもののみが収集され、収集すべき情報量の増加を抑えることができる。この収集ルールの具体的な内容については、後述する。
【0028】
収集ルール記憶部7は、収集ルールを格納する記憶部であって、WWW文書収集部5及びURL正規化部8によって収集ルールが適宜読み出されるよう構成されている。URL正規化部8は、履歴検索部9がWWW文書履歴記憶部6からWWW文書を検索する際に用いるURLを収集ルールに従って既に収集されたWWW文書に対応するURLに書き換える、いわゆるURL正規化を実行する。履歴検索部9は、WWW文書履歴記憶部6からWWW文書を検索する。文書特徴抽出部10は、WWW文書の特徴を抽出する。文書特徴索引記憶部11は、文書特徴と各WWW文書との対応を格納する。類似文書検索部12は、指定されたWWW文書と文書特徴が類似するWWW文書を検索する。
【0029】
図2は図1中のWWWサイト履歴検索装置を具現化するコンピュータの構成を示す図であり、図1中に示した各構成部の機能をコンピュータに実現させるWWWサイト履歴検索プログラムを実行することでWWWサイト履歴検索装置1を具現化した例を示している。CPU13は、内部バス19を介して、WWWサイト履歴検索プログラムやプログラムの実行に必要なデータを格納するメモリ14、現在時刻を得るためのリアルタイムクロック部15、コンソール入出力装置20との入出力を中継するコンソールインタフェース部16、図1中の各記憶部6,7,11などを具現化するハードディスク装置21とのアクセスを中継するディスクインタフェース部17、インターネット4などの外部通信網に接続するためのネットワークインタフェース部18と接続している。WWWサイト履歴検索プログラムからの制御指令によって、CPU13が上記ハードウェア部を動作させることで、図1中のWWWサイト履歴検索装置1内の各構成部が具現化される。詳細な動作については、後述する。
【0030】
図3は図1中の収集ルール記憶部に格納される収集ルールの具体的な内容を示した図である。上述したように、収集ルール7aは、予め定めたWWWサイトにて公開される情報を構成するWWW文書を指定するURL群のうち、収集対象として定めたURLをまとめた情報である。図示の例において、URLパス7bは、収集対象のURLを構成する文字列のうち、WWWサーバ2に内容が静的に(予め)管理されたファイル(静的コンテンツ)を指定したり、動的コンテンツを生成するプログラム名を指定する部分である。また、収集ルール7aには、動的コンテンツを生成するプログラム名を指定するURLパス7bに対応して、上記プログラムの実行時に利用されるパラメータ及びその値を指定するパラメータ名7c及びパラメータ値7dが設定される。
【0031】
ここで、パラメータ名7cに「−」以外の値が指定されている場合、当該URLパスのパラメータとしてパラメータ値7dに指定された値に対応するもののみを収集対象とすることを意味する。例えば、「http://www.aaa/products.cgi」で指定されるプログラムに設定されるパラメータ「sortby」の値としては、文字列「id」のみが収集対象とされる。一方、パラメータ「category」の値としては、特殊な値「*」が指定されているので全ての値を収集対象とする。また、「http://www.aaa/products.cgi」で指定されるプログラムは、一般にCGI(Common Gateway Interface)プログラムなどと呼ばれている。
【0032】
WWW文書収集部5は、この収集ルール7aに従ってWWWサーバ2からWWW文書を収集する。このとき、収集ルール7aに設定されている「http://www.aaa/products.cgi?category=camera&sortby=id」は収集対象であり、パラメータ「sortby」の値が文字列「id」でない「http://www.aaa/products.cgi?category=audio&sortby=date」は収集対象とされない。また、同様に「http://www.aaa/support.pl」で指定されるプログラムに対しては、パラメータ「subject」の値として「trouble」、「upgrade」、または「contact」のいずれかに該当するものが収集対象となる。
【0033】
一方、パラメータ名7cの値として「−」が指定されている場合は、当該URLパスで始まるURLを全て収集対象外とすることを意味する。例えば、「http://www.aaa/search.asp」で始まる「http://www.aaa/search.asp?query=dvd」は、収集対象外となる。
【0034】
なお、収集ルールは、WWWサーバ2の管理者などが自己の提供する情報を構成する上で重要なWWW文書(例えば、閲覧者に最も提示したいWWW文書)を指定するURLを予め設定しておくことによって構成する。この場合、例えば装置1の管理者は、コンソール入出力装置20を用いて、コンソールインタフェース部16及び内部バス19を介して収集ルール記憶部7として機能するハードディスク装置21に適宜収集ルール内容を設定するように構成する。
【0035】
次に動作について説明する。
図4は図1中のWWW文書収集部の動作を示すフローチャートであり、この図に沿ってWWWサイト履歴検索装置1によるWWW文書収集を説明する。
WWW文書収集部5は、検索エンジンなどにおいてWWW文書の収集に用いられるクローラやロボットなどと呼ばれるプログラムと同様に動作するが、収集ルール記憶部7から読み出した収集ルールに従って収集すべきWWW文書のURLを決定する点が異なる。
【0036】
先ず、WWW文書収集部5は、管理者から指示されたURLや特定のファイルから読み込んだURLを、URLリスト5aに設定して初期化する(ステップST1)。当該処理を図2の構成で説明すると、例えば、CPU13が、メモリ14に格納されたWWWサイト履歴検索プログラムからの制御指令によって、ディスクインタフェース部17及び内部バス19を介して、URLリスト5aとして機能するメモリ14かハードディスク装置21に収集対象のURLを設定することに対応する。
【0037】
次に、WWW文書収集部5は、URLリスト5a内にURLが設定されているか否かを判定する(ステップST2)。このとき、URLリスト5aにWWW文書を収集すべきURLがなければ(空であれば)、処理を終了する。また、URLリスト5aにWWW文書を収集すべきURLがある場合は、URLリスト5aからURLを1つ取り出して当該URLに対応するWWW文書をWWWサーバ2から取得する(ステップST3)。
【0038】
図2の構成で説明すると、CPU13が、メモリ14上のWWWサイト履歴検索プログラムからの制御指令によって、URLリスト5aとして機能するメモリ14かハードディスク装置21から収集対象のURLを逐次読み出し、ネットワークインタフェース部18及びインターネット4を介して、当該URLによって指定されるWWWサーバ2にアクセスしてWWW文書を収集する。一方、URLリスト5a内に収集対象のURLがなければ、WWW文書収集の終了処理に移行する。
【0039】
続いて、WWW文書収集部5は、WWWサーバ2から取得したWWW文書の形式がHTMLあるいはXHTML(eXtensible Hyper Text Markup Language)などで記述されたハイパーテキスト形式であるか否かを判別する(ステップST4)。当該処理は、例えばWWWサーバ2から取得した情報のHTTPヘッダ情報からファイル種別情報(Content−Typeヘッダ)などを抽出してファイル形式を判別する機能をWWWサイト履歴検索プログラムに設けておくことで実現することができる。
【0040】
ここで、WWWサーバ2から取得したWWW文書がハイパーテキスト形式の文書であると、WWW文書収集部5は、当該WWW文書中のリンク又はフォームが参照するURLを抽出し、後述する方法で収集対象のURLが生成される。このとき、収集対象とされたURLは、URLリスト5aの末尾に追加される(ステップST5)。
【0041】
ステップST5の処理が完了すると、WWW文書収集部5は、ステップST6の処理に移行する。また、ステップST4において、WWWサーバ2から取得したWWW文書の形式がハイパーテキスト形式ではなく、その他の単純なテキスト形式や画像などであると、WWW文書収集部5は、ステップST6の処理に移行する。
【0042】
ステップST6において、WWW文書収集部5は、取得したWWW文書の内容、URL、その取得日時をWWW文書履歴記憶部6に格納して、ステップST2の処理に戻る。これにより、URLリスト5aに未処理のURLがなくなるまで、上述した処理が繰り返される。
【0043】
図5は図4中のステップST5におけるWWW文書収集部の詳細な動作を示すフローチャートであり、この図に沿って上述した収集対象URLの判定処理を詳細に説明する。
先ず、WWW文書収集部5は、WWWサーバ2から取得したWWW文書からリンクまたはフォームを1つ読み込む(ステップST1a)。そして、リンク又はフォームを読み込む度に、WWW文書収集部5は、当該WWW文書の終端位置に到達したか否かを判定する(ステップST2a)。このとき、WWW文書の終端位置に到達していれば、当該処理を終了し、未だに終端位置に到達していなければ、ステップST3aの処理に移行する。
【0044】
上述した動作を図2の構成と関連付けて説明すると、WWWサイト履歴検索プログラムを実行するCPU13の制御によって、図4中のステップST4にてハイパーテキスト形式と判定されたWWW文書について、その文書の始めからリンク又は当該WWW文書に対してデータ書き込みをするためのフォーム(記入フォーム)を定義するタグの検出が実行される。そして、リンク又はフォームを定義するタグが検出されるごとに、当該WWW文書中の終端位置を定義するタグの有無を検査して、検査対象の文書内位置が終端位置であるか否かが判定される。
【0045】
ステップST3aにおいて、WWW文書収集部5は、読み込んだリンク又はフォームが参照するURLが収集対象のWWWサーバ2に対応するか否かを判断し、対応していればステップST4aの処理に進み、そうでなければステップST1aに戻ってWWW文書の残りの部分を処理する。ここで、収集対象のWWWサーバ2は、複数であってもよい。これは、例えば検索用サーバや購買用サーバなどのように、WWWサイトの構成として利用者に提供するサービスに応じて異なるWWWサーバを用いることも一般的だからである。
【0046】
続いて、WWW文書収集部5は、ステップST1aで読み込んだリンク又はフォームが参照するURLの文字列の先頭部分が、収集ルール7a中で収集対象外、即ちパラメータ名7cの値が「−」と指定されたURLパスのいずれかと一致するかどうかを判定する(ステップST4a)。このとき、一致する場合はステップST1aの処理に戻り、一致しない場合はステップST5aの処理に進む。
【0047】
ステップST5aで、WWW文書収集部5は、ステップST1aで読み込んだ内容にて参照されるURL中にパラメータ名及びパラメータ値を表す文字列があるかどうかを調べて、当該内容が静的URLを参照するリンクであるか否かを判断する。ここで、静的URLであるか否かは、履歴検索要求されたURL中に動的URLを特定するURLパスとパラメータ名の区切り文字「?」が含まれるかどうかで判断することができる。
【0048】
このとき、静的URLへのリンクでなければ、WWW文書収集部5は、ステップST1aで読み込んだ内容がWWWサーバ2に対するアクセスメソッドがHTTPのPOSTを用いるフォームであるかどうかを判断する(ステップST6a)。例えば、フォームを定義するタグの有無及び当該タグ内にPOSTが設定されているかどうかで判断する。
【0049】
ステップST6aにおいてPOST型のフォームと判断されれば、WWW文書収集部5は、ステップST1aの処理に戻り、POSTメソッドに対する処理を行なわない。これは、POSTの場合ではパラメータの値がURL内に設定されないことによる。つまり、POSTでアクセスした結果に対してリンクを張ってもパラメータの値を渡すことができず、同じ結果が得られないため、当該URLについては収集対象外とする。
【0050】
一方、ステップST6aにおいてPOST型フォームと判断されなければ、WWW文書収集部5は、後述する方法に従って、ステップST1aにて読み込んだリンク又はフォーム内のパラメータと収集ルール7aに基づいて、収集対象のURLを生成する。このとき生成される収集対象のURL数は、条件によって異なるが0個、1個、あるいは複数個となる。
【0051】
最後に、WWW文書収集部5は、ステップST5aで判別されたリンクが参照する静的URLや、ステップST7aで生成された動的URLのうち、WWW文書が未収集であるものを抽出し、URLリスト5aの末尾に追加する(ステップST8a)。このあと、再びステップST1aからの処理に戻り、ステップST2aにて当該WWW文書の終端位置が検出されるまで、WWW文書収集部5は、上述した処理を繰り返す。また、ステップST7aにおいて収集対象のURLが生成されなかった場合も同様に、ステップST1aからの処理に戻り、上述した処理が繰り返される。
【0052】
図6は図5中のステップST7aにおけるWWW文書収集部の詳細な動作を示すフローチャートであり、この図に沿って上述した収集対象URLの生成動作の詳細を説明する。
先ず、WWW文書収集部5は、リンク又はフォームを定義するタグの有無から図5中のステップST1aにて読み込まれた内容がリンクかフォームかを判定する(ステップST1b)。このとき、上記内容がリンクであれば、当該リンクが参照するURLの文字列をパス部分とパラメータ名及びパラメータ値との組み合わせに分解する(ステップST2b)。
【0053】
一方、ステップST1bにて上記内容をフォームと判定すると、WWW文書収集部5は、当該フォームに設定されている各入力項目のパラメータ名とその取り得る値(パラメータ値)の全ての組み合わせを生成する(ステップST3b)。例えば、アクション部のパスが「http://www.aaa/products.cgi」で示されるフォームにおいて、パラメータ「category」が「camera」、「audio」、「PC」からの択一であり、パラメータ「sortby」が「id」、「date」、「price」からの択一である場合、9通りのパラメータ名及びパラメータ値の組み合わせが生成される。一般に、フォームにおいては、入力項目毎の入力パターン数の直積に対応する組み合わせが生じる。
【0054】
続いて、WWW文書収集部5は、リンクが参照するURLから取り出したURLパス又はフォームのアクション部に指定されたパス(URLパス)が、収集ルール7a中のURLパスと一致するか否かを判定する(ステップST4b)。ここで、URLパスが一致するものがあると、WWW文書収集部5は、当該リンクが参照するURLから取り出したパラメータ名及びパラメータ値の組み合わせ、又は、当該フォームの入力項目から生成したパラメータ名及びパラメータ値の組み合わせのうち、収集ルール7a中のURLパス7bに対応するものとして設定されたパラメータ名7c及びパラメータ値7dの組み合わせに含まれるもののみを残し、それ以外の組み合わせを除去する(ステップST5b)。但し、収集ルール7a中のパラメータ値7dとして「*」が指定されていた場合には、全ての値を含むとみなす。
【0055】
例えば、図3中の収集ルール7aが与えられていたとすると、「category」に対応するパラメータ値に「*」が設定されていることから、ステップST5bの処理後に除去されずに残るのは、「category=camera,sortby=id」、「category=audio,sortby=id」、及び「category=PC,sortby=id」の3通りの組み合わせとなる。このように、本発明では、収集ルール7aを設け、ステップST5bにおける除去処理を施すことによって、パラメータ名及びパラメータ値の組み合わせから本質的に重要なもののみを選択して、類似するWWW文書が不要に収集されることを防止している。
【0056】
次に、WWW文書収集部5は、ステップST4bにて収集ルール7aに設定されたURLパスと一致しないと判定されたリンク又はフォームに係るパラメータ名及びパラメータ値の組み合わせや、ステップST5bにて除去されずに残ったパラメータ名及びパラメータ値の組み合わせを用いて、収集対象とすべきURLの文字列を生成する(ステップST6b)。
【0057】
上述した例のように、「category=camera,sortby=id」、「category=audio,sortby=id」、及び「category=PC,sortby=id」の3通りの組み合わせがステップST5bにて除去されずに残ったとすると、「http://www.aaa/products.cgi?category=camera&sortby=id」、「http://www.aaa/products.cgi?category=audio&sortby=id」、及び「http://www.aaa/products.cgi?category=PC&sortby=id」の3つのURL文字列が生成される。また、パラメータ名及びパラメータ値の全ての組み合わせが除去された場合、URL文字列は生成しない。
【0058】
次にWWW文書収集部5による処理を具体例を挙げて説明する。
先ず、WWW文書収集部5によるWWW文書収集の周期処理を説明する。
図7は図1中のWWW文書収集部によるWWW文書の収集処理の時間シーケンスを示す図である。図中のT0,T1,・・・,T11は、時刻を表している。図に示すように、本発明のWWW文書収集部5によるWWW文書の収集は、時間間隔を空けて繰り返し行なわれる。ここで、時刻T1からT4までの期間で第n次の収集を実施し、T5>T4となる時刻T5からT8にかけての期間で第n+1次の収集を実施する。時刻T9からT11までの期間は、T11から現在日時T0までの期間に収集が実施されていないことから、最終収集期間と呼ぶこととする。但し、nは1以上の正の整数とする。
【0059】
図2の構成で説明すると、CPU13が、メモリ14上のWWWサイト履歴検索プログラムからの制御指令によって、URLリスト5aとして機能するメモリ14かハードディスク装置21から収集対象のURLを逐次読み出し、リアルタイムクロック部15によって取得日時を記録しながら、ネットワークインタフェース部18及びインターネット4を介して、当該URLによって指定されるWWWサーバ2にアクセスしてWWW文書を取得する。これにより、取得日時とそのURLとを関連付けて記録することができる。
【0060】
また、第n次収集期間において、WWW文書収集部5が、あるURL(例えば、URLxとする)が指定するWWW文書内容を取得した日時を、当該URLxの第n次取得日時と呼び、最も大きなnに対応するものを当該URLxの最終取得日時と呼ぶことにする。図7の例では、時刻T6はURLxの第n+1次取得日時であり、時刻T7はURLyの第n+1次取得日時である。ここで、URLyについては、時刻T7以降にWWW文書内容が取得されていないので、当該時刻T7が最終取得日時となる。一方、URLxについては、最終収集期間でもWWW文書内容が取得されており、時刻T10が最終取得日時となっていることがわかる。なお、上述した収集日時に関する用語定義は、以下の説明においても同様であるものとする。
【0061】
次に、WWW文書収集部5によって異なる時点で収集されたWWW文書の具体的な処理について説明する。
図8は同一WWWサイトで公開されるWWW文書の異なる時点における内容を示す図であり、(A)は例えば2002年1月1日の時点の内容を示し、(B)は(A)の時点より時間経過した例えば2002年2月1日の時点の内容を示している。(A)で示す時点において、「http://www.aaa/products.cgi?category=camera&sortby=id」というURLで指定されるWWW文書は、製品の発売日とこれに対応する製品番号(図中にA010、D22M、X123で示す)との組み合わせが、製品番号順(図示の例では、製品番号の先頭文字のアルファベット順)に配置された内容を示している。
【0062】
また、当該WWW文書には、「新着順へ」というリンクがはられている。当該リンクが参照するURLは「http://www.aaa/products.cgi?category=camera&sortby=date」であり、これが指定するWWW文書は、製品の発売日と製品番号との組み合わせが、新着順(製品の発売日順)に配置されたものを示している。さらに、各製品番号には、それぞれの製品概要を参照するリンクがはられている。例えば、製品番号X123では、「http://www.aaa/x123.html」なるURLによって上記製品番号にて特定される製品の概要を示すWWW文書が指定される。
【0063】
一方、(B)で示す時点においても、「http://www.aaa/products.cgi?category=camera&sortby=id」という同一のURLでWWW文書を指定することができる。但し、(B)で示す時点では、製品名と製品番号との組み合わせが、製品番号順に配置された内容となっている。また、当該WWW文書には、各製品番号についてそれぞれに対応する製品の特徴を示すWWW文書を参照するリンクがはられている。
【0064】
例えば、製品番号X123には、「http://www.aaa/info.cgi?id=x123&show=feature」というURLで指定される、当該製品番号X123にて特定されるカメラの高画質機の特徴を示すWWW文書を参照することができる。さらに、当該製品の特徴を示すWWW文書中に、その仕様を示すWWW文書を参照するリンクがはられている。図示の例において、上記製品の特徴を示すWWW文書中の「仕様」では、「http://www.aaa/info.cgi?id=x123&show=spec」というURLによって上記製品の仕様を示すWWW文書が指定される。
【0065】
図9は図1中のWWW文書履歴記憶部に記憶される内部情報形式の一例を示す図であり、図8中のWWWサイトで公開される2つの時点(A)及び(B)におけるWWW文書内容が記憶されている。WWW文書アーカイブ22は、WWW文書収集部5が取得したWWW文書の内容を格納するアーカイブであって、WWW文書履歴記憶部6として機能する記憶装置、例えば図2中のハードディスク装置21の記憶領域に設けられる。このWWW文書アーカイブ22では、WWW文書収集部5が取得した複数のWWW文書がそれぞれ連結されてディスク装置21上のファイルとして格納される。
【0066】
図示の例では、個々のURLにて指定される複数のWWW文書(図中、文書1、文書2、・・・で示す)を連結して構成したファイル2を示している(ファイル1も同様にWWW文書を複数連結して構成する)。このように複数のWWW文書を1つのファイルにまとめることで、ファイル毎に発生する未使用ディスク領域を減らし、また管理を容易にする効果が得られる。1つのファイルにいくつのWWW文書を格納するかは任意であり、例えば格納すべき文書数を一定にする、ファイルのサイズを一定値以下にする、あるいは一定期間内に取得したWWW文書を同一のファイルに格納する、などの方法が考えられる。
【0067】
WWW文書索引23は、WWW文書を指定するURL及びその最終取得日時とWWW文書アーカイブ22中での格納位置を対応付ける情報であって、WWW文書履歴記憶部6として機能する記憶装置、例えば図2中のハードディスク装置21のWWW文書アーカイブ22とは別の記憶領域に設けられる。このWWW文書索引23には、WWW文書毎に、例えばURL、最終取得日時、WWW文書アーカイブ22中のファイル名、及び当該ファイル中に占めるバイト位置を表す開始オフセットとサイズを格納する。図中のバイト位置欄に記載されたハイフン(−)を挟んで示される2つの数値のうち、ハイフンの前がWWW文書のファイル中の開始オフセットであり、その後に続く数値が当該WWW文書内容のサイズである。
【0068】
WWW文書収集部5は、新たなWWW文書の収集により、同一URLで指定される取得結果が得られた場合、WWW文書索引23の当該URLに対応するエントリを上書きする。反対に、同一URLで指定される取得結果が以前の内容と同一であった場合、最終取得日時は変化するので、前回取得日時の内容及び最終取得日時でWWW文書索引23の当該URLに対応するエントリを上書きする。
【0069】
また、図9中でWWW文書索引23を表形式で示したが、例えばB木の構造でディスク装置上に格納するように構成しても良い。このようにすることで、URLをキーとした検索を高速化することができる。
【0070】
ここで、WWW文書収集部5によって図8中の2つの時点(A)、(B)で収集したWWW文書内容を、図9で示したWWW文書履歴記憶部6の内部情報形式にて格納する場合について説明する。
先ず、図8中のWWW文書において、同一のURLである「http://www.aaa/products.cgi?category=camera&sortby=id」にて指定されるWWW文書は、(A)及び(B)のいずれの時点においてもアクセスすることができる。このため、両時点にて上記WWW文書を収集した場合、図9に示すように、WWW文書索引23には、最終取得日時となる時点(B)の内容が記録される。
【0071】
一方、時点(A)において、製品番号X123にて特定される製品の概要を示すWWW文書を指定するURLである「http://www.aaa/x123.html」は、時点(B)においてアクセスすることができない。このため、当該WWW文書については、時点(A)が最終取得日時となり、WWW文書索引23には、時点(A)での内容の記録が残る。
【0072】
また、時点(A)で「http://www.aaa/products.cgi?category=camera&sortby=id」なるURLで指定されるWWW文書からリンクされている、「http://www.aaa/products.cgi?category=camera&sortby=date」なるURLにて指定されるWWW文書については、図3で示した収集ルール7aによって収集対象外となるので収集されない。これにより、当該WWW文書の内容は、WWW文書履歴記憶部6に格納されない。
【0073】
これに対して、図3で示した収集ルール7aによって収集対象となるURLである「http://www.aaa/info.cgi?id=x123&show=feature」及び「http://www.aaa/info.cgi?id=x123&show=spec」でそれぞれ指定される、時点(B)における各WWW文書の内容は、最終取得日時を時点(B)としてWWW文書索引23に記録される。
【0074】
このように、WWWサイトで公開される情報のうち、収集ルール7aによって本質的に重要なWWW文書のみを選択して記憶することで、WWW文書の収集規模を抑えることができる。
【0075】
次に上述のようにして収集したWWW文書の特徴抽出処理について説明する。WWW文書特徴抽出部10は、WWW文書履歴記憶部6内のWWW文書索引23に記録されたファイル名やバイト位置に従ってWWW文書アーカイブ22から読み出したWWW文書の形式に応じてその特徴を抽出し、当該WWW文書に関する文書特徴ベクトルを生成する。文書特徴ベクトルとしては、例えば単純なテキスト形式の文書に対してはその内容を形態素解析により単語ごとに分割し、各単語の出現頻度を要素とするベクトルを使用する。また、HTMLやXML(eXtensible Markup Language)などの言語で記述された文書に対しては、単語の出現頻度の他に文書中の見出しや強調文字などの属性に応じた重み付けを加えた要素を含むベクトルを文書特徴ベクトルとしてもよい。
【0076】
ここで、図10は図1中の文書特徴索引記憶部に格納される文書特徴索引情報の一例を示す図である。文書特徴索引情報11aは、WWW文書特徴抽出部10が生成した文書特徴ベクトルを、これに対応するWWW文書のURLやその取得日時に関連付けて文書特徴索引記憶部11に記憶した情報である。図示の例は、図8に示したWWW文書の文書特徴ベクトルをまとめたもので、例えば2002/01/01が最終取得日時であるX123製品の概要を示すWWW文書が、その取得日時及びURL「http://www.aaa/x123.html」に関連づけられて、文書特徴ベクトルを構成する各単語の出現頻度(例えば、単語「X123」は5回、単語「概要」が5回、単語「画素」が4回など)が格納されている。
【0077】
また、WWW文書特徴抽出部10は、例えば図2中の構成を用いると、WWWサイト履歴検索プログラムを実行するCPU13の制御によって、WWW文書履歴記憶部6として機能するハードディスク装置21からWWW文書を読み出し、メモリ14上に展開して上記文書特徴の抽出処理を実行することで具現化することができる。
【0078】
さらに、文書特徴索引記憶部11は、文書特徴索引情報31を文書特徴ベクトルをキーとした多次元索引の構造として格納する記憶部であって、例えば図2中のハードディスク装置21のWWW文書履歴記憶部6とは別の記憶領域に設けられる。多次元索引の手法としては、既存の技術を適宜利用する。例えば、R木構造の索引とすれば、特徴ベクトル空間上で近傍の要素、すなわち類似した特徴を持つ文書の検索を効率的に行うことができる。
【0079】
続いて、WWWブラウザ機能を有する端末装置3からアクセス要求されたWWW文書がWWWサーバ2に存在しなかった場合におけるWWWサーバ2及びWWWサイト履歴検索装置1の動作について説明する。
先ず、端末装置3からWWW文書のアクセスが要求されると、WWWサーバ2は、当該アクセス要求されたWWW文書が存在するか否かを判定する。ここで、URLに対応づけて管理しているWWW文書群のうち、アクセス要求されたWWW文書のURLに合致するものが存在しないことを検出すると、WWWサーバ2は、WWWサイト履歴検索装置1に対して履歴検索要求を発行する。そして、当該履歴検索要求に応じてWWWサイト履歴検索装置1から検索結果が返信されると、WWWサーバ2は、当該検索結果を上記アクセス要求を行った端末装置3に送信する。
【0080】
上述したような履歴検索処理は、WWWサーバ2からの検索要求に基づいて、WWWサイト履歴検索装置1内の履歴検索部9と類似文書検索部12によって、随時実行される。
図11は図1中のWWWサイト履歴検索装置による履歴検索処理を示すフローチャートであり、この図に沿って履歴検索処理を詳細に説明する。
先ず、WWWサーバ2は、端末装置3からのアクセス要求されたWWW文書が存在しないことを検出すると、当該アクセス要求に関するURLを含む履歴検索要求をWWWサイト履歴検索装置1に送信する。WWWサイト履歴検索装置1内の履歴検索部9は、WWWサーバ2から履歴検索要求を受けると、当該要求に含まれる検索対象のURLを抽出して、URL正規化部8に出力する。
【0081】
URL正規化部8は、履歴検索部9から受け取った検索対象WWW文書のURLを正規化する(ステップST1c)。図2中の構成で説明すると、CPU13が、メモリ14上のWWWサイト履歴検索プログラムからの制御指令によって、ネットワークインタフェース部18及びインターネット4を介してWWWサーバ2からの履歴検索要求中のURLを取得してメモリ14の処理作業領域上に展開し、さらに、収集ルール記憶部7として機能するハードディスク装置21の記憶領域から収集ルール(以下、説明の簡単のため、図3中の収集ルール7aを用いることとする)を適宜読み出して、メモリ14上に展開されたURLに対して、後述する要領で正規化処理を実行する。
【0082】
ここで、図12は図1中のURL正規化部の動作を示すフローチャートであり、この図に沿ってURLの正規化処理について説明する。
URL正規化部8は、履歴検索要求に関するURLがパラメータを含む動的URLか否かを判定する(ステップST1d)。ここで、動的URLであれば、ステップST2dの処理に進み、動的URLでなければステップST6dの処理を実行する。前述したように、動的URLであるか否かは、履歴検索要求されたURL中にURLパスとパラメータ名の区切り文字「?」を含むかどうかで判断することができる。
【0083】
ステップST2dにおいて、URL正規化部8は、収集ルール記憶部7から収集ルール7aを読み出し、履歴検索要求されたURLのパス部分が当該収集ルール7a中のURLパスと一致するかどうかを判定する。ここで、一致するものがある場合はステップST3dの処理に進み、一致するものがない場合はステップST6dの処理を実行する。URL正規化部8は、履歴検索要求されたURLのパス部分が収集ルール7a中のURLパスと一致すると、履歴検索要求されたURLの文字列をパス部分とパラメータ名及びパラメータ値の組に分解する(ステップST3d)。
【0084】
続いて、URL正規化部8は、分解したパラメータ名及びパラメータ値の組のうち、図3中の収集ルール7aのURLパス7bに対応するパラメータ名7c及びパラメータ値7dの組と一致するものはそのまま処理をせず、一致しないものを収集ルール7a中のパラメータ名7cやパラメータ値7dで置き換える(ステップST4d)。但し、収集ルール7aのパラメータ値7dとして「*」が指定されている場合には全ての値と一致するとみなす。また、収集ルール7aのパラメータ値7dとして複数の値が指定されている場合は、デフォルト値としていずれかの値を用いることとする。
【0085】
履歴検索要求されたURLのうち、ステップST2dにて収集ルール7aのURLパス7bにパス部分が一致し、ステップST4dにて収集ルール7aのURLパス7bに対応するパラメータ名7c及びパラメータ値7dの組と一致するURLは、まさに収集ルール7a中に設定されていたURLと一致する。従って、当該URLついては、WWW文書収集部5によって収集対象とされて対応するWWW文書が収集されている。このため、当該URLの変更処理を実行する必要がない。
【0086】
一方、ステップST2dにて収集ルール7aのURLパス7bにパス部分が一致し、ステップST4dにて収集ルール7aのURLパス7bに対応するパラメータ名7c及びパラメータ値7dの組と一致しないURLは、収集ルール7aに従って選択的に収集対象外に設定された動的URLに相当する。つまり、収集対象のWWWサーバ2が提供する情報を構成するWWW文書を指定する動的URLであるが、パラメータ値が異なるだけで類似した内容を指定する本質的に重要でないURLである。
【0087】
このようなURLについて履歴検索要求された場合、本発明では、WWWサーバ2で公開される情報を構成する上で本質的に重要であるものとして収集ルール7aに設定された動的URLに当該URLを変換することで、WWW文書収集部5が既に収集したWWW文書内容を返信する。この際、履歴検索要求されたURLを、収集ルール7aに従って既に収集されたWWW文書内容のうち最も関連深い内容を指定するURLに置換するために、URLパス及びこれに対応するパラメータ名までが一致する場合、収集ルール中のパラメータ値で置換する。また、パラメータ名及びパラメータ値が両方一致しなければ、収集ルール中のパラメータ名及びパラメータ値の組み合わせで置換する。
【0088】
このように、本発明におけるURLの正規化とは、履歴検索要求された動的URLのうち、収集ルール7a中に設定されたURLと一致しないものを、収集ルール7a中に設定されたWWW文書内容が既に収集済みのURLに変換することをいうものとする。
【0089】
次に、ステップST5dにおいて、URL正規化部8は、置換後のパラメータ名及びパラメータ値の組み合わせを元にして、これに対応するURL文字列を生成し、正規化結果のURLとして履歴検索部9に出力する。一方、ステップST6dにて、履歴検索要求されたURLのうち、動的URLでなかったり、動的URLでも収集ルール7a中のURLパスと一致しないものは正規化処理されず、URL正規化部8から履歴検索部9に出力される。
【0090】
図2中の構成で説明すると、CPU13が、メモリ14上のWWWサイト履歴検索プログラムからの制御指令によって、メモリ14内の処理作業領域上に履歴検索要求されたURL及び収集ルール7aを展開し、上述したURL正規化部8によるURLのパス部分とパラメータ名及びパラメータ値との分解処理及び収集ルール7aとの比較処理並びにURL正規化処理を実行する。
【0091】
ここで、図3及び図8の例を用いて具体的に説明すると、WWWサーバ2から受け取ったURLが、図8(A)に示す「http://www.aaa/products.cgi?category=camera&sortby=date」であった場合、図3中の収集ルール7aに従ってURLの正規化を行なうと、「http://www.aaa/products.cgi?category=camera&sortby=id」が得られる。また、WWWサーバ2から受け取ったURLが、図8(A)に示す「http://www.aaa/x123.html」であった場合、当該URLは、動的URLではないので正規化による変更を受けない。
【0092】
図11のフローの説明に戻ると、履歴検索部9は、URL正規化部8から取得したURLに基づいてWWW文書履歴記憶部6を検索する(ステップST2c)。このとき、当該URLに対応するWWW文書が存在しなければ、ステップST6cの処理に進み、存在する場合はステップST3cの処理に進む。ステップST6cにおいて、履歴検索部9は、WWWサーバ2に対して履歴検索が失敗したことを示す応答を送信して履歴検索処理を終了する。この場合、WWWサーバ2は、端末装置3に対してアクセス要求したURLが無効である旨を示すエラー応答を返信する。
【0093】
一方、ステップST3cにおいて、履歴検索部9は、WWW文書履歴記憶部6内のWWW文書索引23を読み出して、当該URLの最終取得日時と、WWW文書収集部5が最後にWWW文書の収集を行った期間、即ち最終収集期間とを比較する。このとき、当該URLの最終取得日時が最終収集期間内であれば、履歴検索部9は、WWWサーバ2に対して検索の成功を示す応答を送信すると共に、当該URLの最終取得日時における内容を返し、履歴検索処理を終了する(ステップST7c)。
【0094】
ここで、最終収集期間は、例えばWWW文書収集部5によりWWW文書索引23に記憶しておく。URLの最終取得日時が最終収集期間内である場合は、当該URLがまだ有効であることを意味する。また、最終収集期間に取得されなかったURLは、当該URLで指定されるWWW文書がWWWサーバ2から削除又は移動されて無効になったことに対応している。
【0095】
ステップST3cにて、当該URLの最終取得日時が最終収集期間内でないと判断されると、履歴検索部9は、WWW文書索引23に基づいて当該URLの最終取得日時に対応するWWW文書内容をWWW文書アーカイブ22から読み出して類似文書検索部12に出力する。このあと、類似文書検索部12は、当該URLの最終取得日時に対応するWWW文書内容を文書特徴抽出部10に出力する。
【0096】
これにより、文書特徴抽出部10は、当該WWW文書内容から、上述した要領で文書特徴ベクトルを抽出して類似文書検索部12に返信する。類似文書検索部12では、文書特徴抽出部10が抽出した文書特徴ベクトルに類似する文書特徴ベクトルを有する文書を文書特徴索引記憶部11から検索する。ここまでの処理がステップST4cに相当する。
【0097】
ステップST4cにて一定の類似度を満たす文書が検索されると、類似文書検索部12は、検索結果の文書のうち、最終取得日時が最終収集期間内のものが存在するか否かを判定する(ステップST5c)。このとき、最終取得日時が最終収集期間内のものが存在すればステップST8cの処理に進み、存在しなければ、その旨を履歴検索部9に通知してステップST7cの処理に進む。
【0098】
上述したように、ステップST7cにおいて、履歴検索部9は、WWWサーバ2に対して検索の成功を示す応答を送信すると共に、当該URLの最終取得日時における内容を返し、履歴検索処理を終了する。この場合、当該URLにて指定されるWWW文書内容が最終取得日時における収集データに含まれず、最終取得日時における収集データ中に類似するWWW文書もないため、当該URLで指定されるWWW文書内容は削除されたものと考えられる。
【0099】
最終取得日時が最終収集期間内の類似内容のWWW文書が存在する場合、類似文書検索部12は、その旨の通知と類似内容のWWW文書を指定するURLとを履歴検索部9に送信する。このあと、履歴検索部9は、WWWサーバ2に対して検索の成功を示す応答を送信すると共に、類似文書検索部12から取得した類似文書のURLを返信して、履歴検索処理を終了する(ステップST8c)。この場合、WWW文書内容が最終取得日時における収集データに含まれず、最終取得日時における収集データ中に類似するWWW文書が含まれるので、当該URLで指定されるWWW文書は新たなURLに移動したと考えられる。
【0100】
ここで、類似文書の最終取得日時の内容ではなく、URLをWWWサーバ2に返信するのは、WWWサーバ2上で最終収集期間後に更新された内容を端末装置3に返すことができるからである。一方、WWWサーバ2上で類似文書のURLが存在しなくなっている場合は、WWWサーバ2から類似文書のURLに対する履歴検索要求が再度発行され、類似文書の最終取得日時の内容が返される。
【0101】
図3及び図8の例を用いて具体的に説明すると、WWWサーバ2から受け取ったURLが図8(A)に示す「http://www.aaa/products.cgi?category=camera&sortby=date」であった場合、URL正規化部8が、図3中の収集ルール7aに従ってURLの正規化を行なうと、「http://www.aaa/products.cgi?category=camera&sortby=id」が得られる。その結果、履歴検索部9は、WWW文書履歴記憶部6に格納された「http://www.aaa/products.cgi?category=camera&sortby=id」の内容を取得する。
【0102】
また、WWWサーバ2から受け取ったURLが「http://www.aaa/x123.html」であった場合、当該URLは、動的URLでないので正規化による変更を受けない。一方、当該URLについて図9中のWWW文書索引23の最終取得日時は時点(A)のものであり、最終収集期間のものではない。これにより、図11中のステップST4cの処理に進んで、類似文書検索部12は、最終収集期間に取得された類似文書を検索する。その結果「http://www.aaa/info.cgi?id=x123&show=spec」が得られる。
【0103】
なお、上述した履歴検索部9及び類似文書検索部12は、WWWサイト履歴検索プログラムを実行するCPU13の制御によって、WWW文書履歴記憶部6や文書特徴索引記憶部11として機能するハードディスク装置21の各記憶領域からそれぞれの処理に使用するデータを適宜読み出して、メモリ14上に展開されたURLに対して履歴検索処理や類似文書検索処理を実行することで具現化することができる。
【0104】
以上のように、この実施の形態1によれば、収集ルール7aに従ってWWWサイトで公開される情報を構成する上で本質的に重要なWWW文書内容を網羅的に収集しておき、各WWW文書内容の履歴を保持しておくことで、過去に有効だったURLが指定するWWW文書がWWWサイト内で削除や移動された場合、当該URLについてのアクセス要求があると削除前の内容や、上述した本質的に重要なWWW文書内容を即座に提供することができる。これにより、WWWサイト内で無効になったURLでアクセスした閲覧者に対する利便性を向上させることができる。
【0105】
また、この実施の形態1によれば、WWWサイト内で収集対象のWWW文書の内容が変更されて異なるURLに移動したと考えられる場合、類似文書検索部12によって当該WWWサイトの最新の収集期間(最終取得期間)における収集データから当該WWW文書の特徴に基づいた類似文書検索を行なうことで、無効になったURLでアクセスした閲覧者を新たなURLに導き、最新のWWW文書内容を提供することができる。
【0106】
さらに、この実施の形態1によれば、動的URLにて指定されるCGIプログラムなどの動的な手段で生成されたWWW文書に対して、当該CGIプログラムに渡すパラメータの値を予め指定したものに制限する収集ルールに基づいてWWW文書の収集を行なうことで、類似した大量のWWW文書を収集することを避けることができ、WWW文書収集の効率化や高速化を実現することができる。
【0107】
さらに、この実施の形態1によれば、URL正規化部8が、WWW文書履歴を検索する際に使用した収集ルールに基づいて、アクセス無効とされたURLをWWW文書内容が収集済みのURLに変換する、いわゆるURLの正規化を実行することで、収集ルールに基づいて収集対象とされなかったWWW文書を指定するURLが、これと類似してほぼ等価な内容の収集済みのWWW文書を指定するURLに置換される。これにより、閲覧者が初めて辿ったURLが指定するWWW文書内容に変更があった場合にも、元の内容やそれに類似する内容を返信することができ、閲覧者に対する利便性を向上させることができる上に、実効的により広範なURLを網羅することができる。
【0108】
実施の形態2.
図13はこの発明の実施の形態2によるWWWサイト履歴検索装置の構成及びその動作に関与する装置を示す図である。上記実施の形態1の構成と比較して、WWWサーバ2内に暗号化部24と復号化部25とを備える点と、装置1内で文書特徴抽出部10、文書特徴索引記憶部11、及び類似文書検索部12が除かれている点が異なる。
【0109】
本実施の形態2では、WWW文書収集部5が収集するWWW文書内容がWWWサーバ2の暗号化部24により暗号化されたものであり、WWW文書履歴記憶部6には暗号化された内容が格納される。また、履歴検索部9は、暗号化された内容を取得するため、類似文書の検索は行なわない。即ち、図11に示したフローチャートのうちステップST3cからステップST5cまでの処理、及びステップST8cの処理が除かれる。
【0110】
さらに、ステップST2cにおいて、履歴検索部9は、WWW文書履歴記憶部6から正規化されたURLに対応する内容の検索に成功した場合、ステップST7cの処理に進み、その内容をWWWサーバ2に返す。WWWサーバ2では、復号化部25によって、履歴検索部9から取得したWWW文書内容が復号され、当該内容をWWWブラウザに返信する。なお、WWWサーバ2にて使用されるWWW文書の暗号化及び復号処理は、既存の技術を適宜利用する。
【0111】
以上のように、この実施の形態2によれば、WWW文書内容の履歴を暗号化した状態で格納し、WWWサーバ2のみによって復号化を可能とすることで、特に、WWWサイト履歴検索装置1がWWWサーバ2と異なる主体により運用・管理される場合において、装置1に収集させたWWW文書の内容が不正に利用される危険を防ぐことができる。
【0112】
実施の形態3.
図14はこの発明の実施の形態3によるWWWサイト履歴検索装置のWWW文書履歴記憶部に記憶される内部情報形式の一例を示す図である。この実施の形態3の基本的な構成は上記実施の形態1と同様であるが、WWW文書履歴記憶部6中にWWW文書アーカイブ22内に格納されたWWW文書をその取得日時に関連付けて格納するWWW文書索引23aを設けた点と、WWWサーバ2が端末装置3からアクセス要求されたURLが無効である旨を検出すると、WWWサイト履歴検索装置1に対して当該URLと共に基準日時を含めた履歴検索要求を送信する点で異なる。
【0113】
WWW文書索引23aには、最終取得日時の代わりに取得日時を格納し、同一URLに対して取得日時毎に複数のエントリが用いられる。上記実施の形態1におけるWWW文書索引23では、URLに対応する内容が変化してもその内容を有効とみなし、新たな内容で古いエントリを上書きする。一方、WWW文書索引23aでは、あるURLが指定するWWW文書の過去の時点における内容を検索可能にするために、取得日時毎にエントリが割り当てられる。
【0114】
HTTPでは、URLが指定するWWW文書の内容が以前に取得したものと変わっている場合だけ実際のデータ転送を行なうためのIf−Modified−Sinceヘッダ情報が用意されている。このヘッダ情報には、WWWブラウザがそのページを最後に取得した日時が格納されており、基本的にはWWWサーバ2に対して「この日時以降に更新されている場合にだけページを送る」旨を指示する情報である。
【0115】
通常、上記ヘッダ情報は、端末装置3のWWWブラウザがキャッシュした内容の有効性を確認するために用いられているが、閲覧者が保存したWWWブラウザのブックマークを介してアクセスする際に、当該ブックマークの作成日時をWWWサーバ2に通知することもできる。そこで、本発明では、端末装置3のWWWブラウザから受け取ったURLが指定するWWW文書がWWWサーバ2内に存在しない場合、あるいはWWWブラウザから上記ヘッダ情報を介して受け取った日時以降に更新されていることを検出した場合、WWWサーバ2によって、WWWサイト履歴検索装置1に対して上記ヘッダ情報から抽出した日時を指定する日時指定付きの履歴検索要求が発行される。
【0116】
図15は実施の形態3によるWWWサイト履歴検索装置の履歴検索部及び類似文書検索部の動作を示すフローチャートであり、この図に沿って日時指定付き履歴検索要求に対する処理について説明する。
先ず、WWWサーバ2は、端末装置3からのアクセス要求されたWWW文書が存在しないことを検出すると、当該アクセス要求に関するURL及び指定日時を含む履歴検索要求をWWWサイト履歴検索装置1に送信する。
WWWサイト履歴検索装置1内の履歴検索部9は、WWWサーバ2から履歴検索要求を受けると、当該要求に含まれる検索対象のURLを抽出して、URL正規化部8に出力する。
【0117】
URL正規化部8は、履歴検索部9から受け取った検索対象WWW文書のURLを正規化する(ステップST1e)。図2中の構成で説明すると、CPU13が、メモリ14上のWWWサイト履歴検索プログラムからの制御指令によって、ネットワークインタフェース部18及びインターネット4を介してWWWサーバ2からの履歴検索要求中のURL及び日時(指定日時であり、履歴検索の基準日時となる)を取得してメモリ14の処理作業領域上に展開し、上記実施の形態1と同様の手順でURLの正規化処理を実行する。
【0118】
URL正規化部8からURLを受け取ると、履歴検索部9は、当該URLに基づいてWWW文書履歴記憶部6を検索する(ステップST2e)。このとき、当該URLに対応するWWW文書が存在しなければ、ステップST6eの処理に進み、存在する場合はステップST3eの処理に進む。ステップST6eにおいて、履歴検索部9は、WWWサーバ2に対して履歴検索が失敗したことを示す応答を送信して履歴検索処理を終了する。この場合、WWWサーバ2は、端末装置3に対してアクセス要求したURLが無効である旨を示すエラー応答を返信する。
【0119】
一方、ステップST3eにおいて、履歴検索部9は、WWW文書履歴記憶部6内のWWW文書索引23aを読み出して、当該URLに対応する1つ以上の取得日時のうち、指定日時直前の収集期間中の取得日時が存在するか判断する。このような取得日時が存在すれば、履歴検索部9は、WWWサーバ2に対して検索の成功を示す応答を送信すると共に、当該URLの最終取得日時及び当該最終取得日時におけるWWW文書内容を返し、履歴検索処理を終了する(ステップST7e)。
【0120】
ステップST3eにて、当該URLに対応する1つ以上の取得日時のうちには、指定日時直前の収集期間中の取得日時が存在しないと判断されると、履歴検索部9は、WWW文書索引23aに基づいて、当該URLの指定日時以前の最終取得日時に対応するWWW文書内容をWWW文書アーカイブ22から読み出して類似文書検索部12に出力する。このあと、類似文書検索部12は、当該URLの指定日時以前の最終取得日時に対応するWWW文書内容を文書特徴抽出部10に出力する。
【0121】
これにより、文書特徴抽出部10は、当該WWW文書内容から上記実施の形態1と同様な要領で文書特徴ベクトルを抽出して類似文書検索部12に返信する。類似文書検索部12では、文書特徴抽出部10が抽出した文書特徴ベクトルに類似する文書特徴ベクトルを有する文書を文書特徴索引記憶部11から検索する。ここまでの処理がステップST4eに相当する。
【0122】
ステップST4eにて一定の類似度を満たす文書が検索されると、類似文書検索部12は、検索結果の文書のうち、最終取得日時が指定日時以前の収集期間に対応するものが存在するか否かを判定する(ステップST5e)。このとき、最終取得日時が指定日時以前の収集期間に対応するものが存在すればステップST8eの処理に進み、存在しなければ、その旨を履歴検索部9に通知してステップST7eの処理に進む。
【0123】
上述したように、ステップST7eにおいて、履歴検索部9は、WWWサーバ2に対して検索の成功を示す応答を送信すると共に、当該URLの指定日時以前の最終取得日時及び当該最終取得日時におけるWWW文書内容を返し、履歴検索処理を終了する。
【0124】
最終取得日時が指定日時以前の収集期間に対応するものが存在する場合、類似文書検索部12は、その旨の通知と類似内容のWWW文書の内容及び指定日時以前の収集期間における最終取得日時とを履歴検索部9に送信する。このあと、履歴検索部9は、WWWサーバ2に対して検索の成功を示す応答を送信すると共に、類似文書検索部12から取得した類似文書の指定日時以前の取得日時とこの取得日時における内容を返信して履歴検索処理を終了する(ステップST8e)。
【0125】
以上のように、この実施の形態3によれば、収集ルールに従って収集したWWW文書を収集日時ごとに時系列に保存しておき、当該WWWサイトのURLと指定された日時に基づいて上記WWW文書を抽出し、閲覧者に提供するので、WWW文書の過去にわたる履歴が維持され、過去に有効だったURLが削除や更新を受けた場合にも元の内容を表示することができる。
【0126】
なお、上記実施の形態1から3では、WWWサーバ2及び端末装置3と別個の装置としてWWWサイト履歴検索装置1を設ける例について説明したが、WWWサーバ2又は端末装置3の1つの機能としてWWWサイト履歴検索装置1を設けても良い。例えば、装置1をWWWサーバ2に設けた場合、収集ルールによって自己が管理する情報のうち、バックアップすべき内容を本質的に重要なものに抑えることができ、本発明を適用することにより必要な記憶装置などのハードウェア資源を最小限に抑えることができる。
【0127】
また、端末装置3のWWWブラウザの1つの機能として装置1を設ける場合、例えば記憶部6,7,11を構成する記憶装置を別個のデータサーバにて実現し、当該データサーバと連携して動作させることで、本発明を適用することにより必要な記憶装置などのハードウェア資源を最小限に抑えながら、その効果を得ることができる。この場合、記憶部6,7,11は、装置1として機能するコンピュータに実行されることで、上記データサーバとの間で本発明の処理に使用するデータを送受する機能を備えたプログラムによって実現される。さらに、装置1としてコンピュータを機能させるWWWサイト履歴検索プログラムをASP(Application Service Provider)にて提供し、端末装置3にて利用できるようにしても良い。
【0128】
さらに、上記実施の形態1から3では、履歴検索要求をWWWサーバ2からWWWサイト履歴検索装置1に発行する例を示したが、WWWサーバ2からアクセス要求したURLが無効である旨の通知を受けた端末装置3が直接装置1に履歴検索要求を送信するようにしても構わない。
【0129】
【発明の効果】
以上のように、この発明によれば、電気通信回線を介して、WWWサイトで公開されるWWW文書のうちの一部を選択的に収集する収集部と、上記収集部が収集したWWW文書をそのURLに関連付けて保存する履歴格納部と、履歴検索要求として入力されたURLに基づいて上記履歴格納部に保存したWWW文書を検索する履歴検索部と、上記履歴検索に用いるURLが選択的に収集されなかったWWW文書を指定する場合、当該URLを上記WWWサイトにおいて既に収集を行ったWWW文書を指定するURLに変換して上記履歴検索部に出力するURL正規化部とを備えたので、過去に有効だったURLが指定するWWW文書がWWWサイト内で削除や移動された場合、当該URLについてのアクセス要求があると削除前の内容や、上述した本質的に重要なWWW文書内容を即座に提供することができるという効果がある。これにより、WWWサイト内で無効になったURLでアクセスした閲覧者に対する利便性を向上させることができる。
【0130】
また、履歴検索に用いるURLが選択的に収集されなかったWWW文書を指定する場合、当該URLを上記WWWサイトにおいて既に収集を行ったWWW文書を指定するURLに変換することで、閲覧者が初めて辿ったURLが指定するWWW文書内容に変更があった場合にも、元の内容やそれに類似する内容を返信することができ、閲覧者に対する利便性を向上させることができる上に、実効的により広範なURLを網羅することができるという効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1によるWWWサイト履歴検索装置の構成及びその動作に関与する装置を示す図である。
【図2】 図1中のWWWサイト履歴検索装置を具現化するコンピュータの構成を示す図である。
【図3】 図1中の収集ルール記憶部に格納される収集ルールの具体的な内容を示した図である。
【図4】 図1中のWWW文書収集部の動作を示すフローチャートである。
【図5】 図4中のステップST5におけるWWW文書収集部の詳細な動作を示すフローチャートである。
【図6】 図5中のステップST7aにおけるWWW文書収集部の詳細な動作を示すフローチャートである。
【図7】 図1中のWWW文書収集部によるWWW文書の収集処理の時間シーケンスを示す図である。
【図8】 同一WWWサイトで公開されるWWW文書の異なる時点における内容を示す図である。
【図9】 図1中のWWW文書履歴記憶部に記憶される内部情報形式の一例を示す図である。
【図10】 図1中の文書特徴索引記憶部に格納される文書特徴索引情報の一例を示す図である。
【図11】 図1中のWWWサイト履歴検索装置による履歴検索処理を示すフローチャートである。
【図12】 図1中のURL正規化部の動作を示すフローチャートである。
【図13】 この発明の実施の形態2によるWWWサイト履歴検索装置の構成及びその動作に関与する装置を示す図である。
【図14】 この発明の実施の形態3によるWWWサイト履歴検索装置のWWW文書履歴記憶部に記憶される内部情報形式の一例を示す図である。
【図15】 実施の形態3によるWWWサイト履歴検索装置の履歴検索部及び類似文書検索部の動作を示すフローチャートである。
【符号の説明】
1 WWWサイト履歴検索装置、2 WWWサーバ、3 端末装置、4 インターネット(電気通信回線)、5 WWW文書収集部(収集部)、5a URLリスト、6 WWW文書履歴記憶部(履歴格納部)、7 収集ルール記憶部、7a 収集ルール、7b URLパス、7c パラメータ名、7d パラメータ値、8 URL正規化部、9 履歴検索部、10 文書特徴抽出部、11 文書特徴索引記憶部、11a 文書特徴索引情報、12 類似文書検索部、13 CPU、14 メモリ、15 リアルタイムクロック部、16 コンソールインタフェース部、17 ディスクインタフェース部、18 ネットワークインタフェース部、19 内部バス、20 コンソール入出力装置、21 ハードディスク装置、22 WWW文書アーカイブ、23,23a WWW文書索引、24 暗号化部、25 復号化部。
Claims (8)
- URLパスが収集対象であるか否か、及び収集対象のURLパスに対応するパラメータ名及びパラメータ値の組み合わせが収集対象であるか否かが記述された収集ルールに従って収集対象のURLを特定し、電気通信回線を介して、WWWサイトで公開されるWWW文書のうち、当該特定された収集対象のURLに対応するWWW文書を選択的に収集する収集部と、
上記収集部が収集したWWW文書をそのURLに関連付けて保存する履歴格納部と、
履歴検索要求として入力されたURLに基づいて上記履歴格納部に保存したWWW文書を検索する履歴検索部と、
上記履歴検索に用いるURLが選択的に収集されなかったWWW文書を指定する場合、当該URLを、上記WWWサイトにおいて既に収集を行ったWWW文書を指定するURLであって、上記収集ルールで収集対象として設定されたURLパス、パラメータ名及びパラメータ値の組み合わせから特定したURLに変換して上記履歴検索部に出力するURL正規化部とを備えたWWWサイト履歴検索装置。 - 履歴格納部に保存されたWWW文書のうち、内容が類似するWWW文書を検索して出力する類似文書検索部を備え、
収集部は、WWW文書の収集を定期的に実行し、
履歴格納部は、上記収集部が収集したWWW文書をそのURL及び最新の収集日時に関連付けて保存し、
履歴検索部は、履歴検索要求されたURLに基づいて上記履歴格納部から抽出したWWW文書の収集日時が、上記履歴検索要求されたURLに対応するWWWサイトについて最後にWWW文書収集処理が実施された期間内にない場合、当該期間内で最新の収集日時を有し、且つその内容が類似するWWW文書を履歴検索結果とすることを特徴とする請求項1記載のWWWサイト履歴検索装置。 - URLパスが収集対象であるか否か、及び収集対象のURLパスに対応するパラメータ名及びパラメータ値の組み合わせが収集対象であるか否かが記述された収集ルールに従って収集対象のURLを特定し、電気通信回線を介して、WWWサイトで公開されるWWW文書のうち、当該特定された収集対象のURLに対応するWWW文書を選択的に且つ定期的に収集する収集部と、
上記収集部が収集したWWW文書をそのURLに関連付けて収集日時ごとに時系列に保存する履歴格納部と、
履歴検索要求として入力されたURL及び指定日時に基づいて上記履歴格納部に保存したWWW文書を検索し、検索結果として抽出したWWW文書のうち上記指定日時以前で最も新しい日時に対応する内容のWWW文書を履歴検索結果とする履歴検索部と、
上記履歴検索に用いるURLが選択的に収集されなかったWWW文書を指定する場合、当該URLを、上記WWWサイトにおいて既に収集を行ったWWW文書を指定するURLであって、上記収集ルールで収集対象として設定されたURLパス、パラメータ名及びパラメータ値の組み合わせから特定したURLに変換して上記履歴検索部に出力するURL正規化部とを備えたWWWサイト履歴検索装置。 - 履歴格納部に保存されたWWW文書のうち、内容が類似するWWW文書を検索して出力する類似文書検索部を備え、
収集部は、WWW文書の収集を定期的に実行し、
履歴検索部は、履歴検索要求されたURLに基づいて上記履歴格納部から抽出したWWW文書の収集日時が、上記履歴検索要求にて指定された指定日時以前で最新の収集日時以前の場合、上記指定日時以前で最新の収集日時を有し、且つその内容が類似するWWW文書を履歴検索結果とすることを特徴とする請求項3記載のWWWサイト履歴検索装置。 - URL正規化部は、履歴検索に用いるURLが収集部によって選択的に収集されなかったパラメータ値を有する場合、当該URLのパラメータ値を、上記収集部が収集を行ったWWW文書を指定するURLのパラメータ値であって、収集ルールで収集対象として設定されたパラメータ値に置換して、当該URLを履歴検索部に出力することを特徴とする請求項1から請求項4のうちのいずれか1項記載のWWWサイト履歴検索装置。
- 収集部は、暗号化されたWWW文書を収集し、
履歴格納部は、暗号化されたWWW文書を格納し、
履歴検索部は、暗号化されたWWW文書を出力することを特徴とする請求項1又は請求項3記載のWWWサイト履歴検索装置。 - 収集部が、URLパスが収集対象であるか否か、及び収集対象のURLパスに対応するパラメータ名及びパラメータ値の組み合わせが収集対象であるか否かが記述された収集ルールに従って収集対象のURLを特定し、電気通信回線を介してWWWサイトで公開されるWWW文書のうち、当該特定された収集対象のURLに対応するWWW文書を選択的に収集する収集ステップと、
履歴格納部が、上記収集ステップにて収集されたWWW文書をそのURLに関連付けた電子情報としてメモリ領域に保存する履歴格納ステップと、
履歴検索部が、履歴検索要求として入力されたURLに基づいて上記メモリ領域内のWWW文書を検索する履歴検索ステップと、
URL正規化部が、上記履歴検索用に入力されたURLが選択的に収集されなかったWWW文書を指定する場合、当該URLを、上記WWWサイトにおいて既に収集を行ったWWW文書を指定するURLであって、上記収集ルールで収集対象として設定されたURLパス、パラメータ名及びパラメータ値の組み合わせから特定したURLに変換して上記履歴検索ステップにおける履歴検索用のURLとするURL正規化ステップとを備えたWWWサイト履歴検索方法。 - URLパスが収集対象であるか否か、及び収集対象のURLパスに対応するパラメータ名及びパラメータ値の組み合わせが収集対象であるか否かが記述された収集ルールに従って収集対象のURLを特定し、電気通信回線を介して、WWWサイトで公開されるWWW文書のうち、当該特定された収集対象のURLに対応するWWW文書を選択的に収集する収集部、
収集されたWWW文書をそのURLに関連付けた電子情報としてメモリ領域に保存する履歴格納部、
履歴検索要求として入力されたURLに基づいて上記メモリ領域内のWWW文書を検索する履歴検索部、
上記履歴検索用に入力されたURLが選択的に収集されなかったWWW文書を指定する場合、当該URLを、上記WWWサイトにおいて既に収集を行ったWWW文書を指定するURLであって、上記収集ルールで収集対象として設定されたURLパス、パラメータ名及びパラメータ値の組み合わせから特定したURLに変換して履歴検索用のURLとするURL正規化部としてコンピュータを機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002351405A JP4259858B2 (ja) | 2002-12-03 | 2002-12-03 | Wwwサイト履歴検索装置及び方法並びにプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002351405A JP4259858B2 (ja) | 2002-12-03 | 2002-12-03 | Wwwサイト履歴検索装置及び方法並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004185303A JP2004185303A (ja) | 2004-07-02 |
JP4259858B2 true JP4259858B2 (ja) | 2009-04-30 |
Family
ID=32753335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002351405A Expired - Fee Related JP4259858B2 (ja) | 2002-12-03 | 2002-12-03 | Wwwサイト履歴検索装置及び方法並びにプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4259858B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5203762B2 (ja) * | 2008-03-24 | 2013-06-05 | 日立メディカルコンピュータ株式会社 | 医用画像診断支援装置及び医用画像診断支援プログラム |
JP5193912B2 (ja) * | 2009-03-12 | 2013-05-08 | 株式会社日立製作所 | Web画面表示方法、画像配信方法、サーバ、クライアント及びサーバ・クライアントシステム |
JP5427478B2 (ja) * | 2009-06-03 | 2014-02-26 | 株式会社Nttドコモ | ログ加工装置、該ログ加工装置を備えた情報収集装置、及びログ加工方法 |
JP2012032903A (ja) * | 2010-07-29 | 2012-02-16 | Kddi Corp | 書き込み情報収集システム、方法、およびプログラム |
CN106874474A (zh) * | 2017-02-16 | 2017-06-20 | 维沃移动通信有限公司 | 一种网页收藏的无效网页处理方法、服务器及终端 |
-
2002
- 2002-12-03 JP JP2002351405A patent/JP4259858B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004185303A (ja) | 2004-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7702681B2 (en) | Query-by-image search and retrieval system | |
JP4007596B2 (ja) | サーバ及びプログラム | |
US6510461B1 (en) | System for managing and automatically deleting network address identified and stored during a network communication session when the network address is visited | |
US7062475B1 (en) | Personalized multi-service computer environment | |
US7702811B2 (en) | Method and apparatus for marking of web page portions for revisiting the marked portions | |
EP1536350A2 (en) | System and method for creating dynamic internet bookmark | |
JP4716778B2 (ja) | 代行処理システム及び代行処理方法 | |
JP2011034399A (ja) | Webページの関連性抽出方法、装置、及びプログラム | |
JP2002140224A (ja) | コンテンツ変更管理方法 | |
CN101551813A (zh) | 网络连接设备、搜索设备及搜集搜索引擎数据源的方法 | |
WO2005121982A1 (ja) | 情報提供システム、方法、プログラム、情報通信端末、および情報表示切り替えプログラム | |
JP2005275488A (ja) | 入力支援方法およびプログラム | |
JP4259858B2 (ja) | Wwwサイト履歴検索装置及び方法並びにプログラム | |
JP2004206492A (ja) | ドキュメント表示方法およびそれを用いたリンク先選択機能付ゲートウェイ装置 | |
JP4649036B2 (ja) | 検索サーバーによるカテゴリの報告方法、レコードの報告方法、検索サービス装置 | |
JP5297295B2 (ja) | WWW情報閲覧システムと方法およびWebブラウザとプログラム | |
JP2007058804A (ja) | コンテンツ配信システム、コンテンツ配信方法、およびコンテンツ配信プログラム | |
JP2002342371A (ja) | Www検索システムおよび方法 | |
JP2005071319A (ja) | ホームページ用キーワード取得装置 | |
JP2003271647A (ja) | 閲覧ファイルデータ提供方法、閲覧頻度データ提供方法、そのための中継装置、プログラム及び記録媒体 | |
JP3732826B2 (ja) | 文書出力装置およびこれに用いる静的ウェブページ合成方法 | |
JP4104878B2 (ja) | ウェブページ誘導方法及びウェブページ誘導プログラム | |
JP4013354B2 (ja) | データ固定化システム、データ固定化装置、データ中継装置、情報端末装置、データ固定化プログラムを記録したコンピュータ読み取り可能な記録媒体、データ中継プログラムを記録したコンピュータ読み取り可能な記録媒体、及び情報端末用プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2002132768A (ja) | 文書処理システム | |
JPH11175448A (ja) | データ中継装置、情報端末装置、要求中継装置、データ中継プログラムを記録したコンピュータ読み取り可能な記録媒体、情報閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体及び要求中継プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051011 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20071026 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071026 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071026 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080813 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080924 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080930 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090106 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090203 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130220 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130220 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140220 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |