JP3859985B2 - 情報自動識別装置、情報自動識別方法、情報自動識別プログラム、および記録媒体 - Google Patents

情報自動識別装置、情報自動識別方法、情報自動識別プログラム、および記録媒体 Download PDF

Info

Publication number
JP3859985B2
JP3859985B2 JP2001137367A JP2001137367A JP3859985B2 JP 3859985 B2 JP3859985 B2 JP 3859985B2 JP 2001137367 A JP2001137367 A JP 2001137367A JP 2001137367 A JP2001137367 A JP 2001137367A JP 3859985 B2 JP3859985 B2 JP 3859985B2
Authority
JP
Japan
Prior art keywords
information
homepage
storing
home page
dynamically created
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001137367A
Other languages
English (en)
Other versions
JP2002334090A (ja
Inventor
聡哉 栗島
大二郎 森
博人 稲垣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001137367A priority Critical patent/JP3859985B2/ja
Publication of JP2002334090A publication Critical patent/JP2002334090A/ja
Application granted granted Critical
Publication of JP3859985B2 publication Critical patent/JP3859985B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、インターネット等で利用される動的に変化するホームページの情報の中から、動的に変化する情報と変化しない情報を識別することのできる、情報提供システムに用いられる情報自動識別装置およびその方法に関する。
【0002】
【従来の技術】
インターネット上で、主にニュースなどのように情報量が多く、新しい情報を提供する必要があるコンテンツを提供しているコンテンツ提供者は、ホームページの内容を手入力により変更するのは労力を要するため、動的にホームページを変更して情報を提供する方法を主に用いている。
上記したように、動的にホームページの内容を変更して情報を提供する情報提供システムでは、提供する情報の中に、中心となる記事以外に記事に関連性のある情報や最新のニュースの情報や広告に関するリンク情報などのメニュー情報を追加して提供している。
【0003】
一方、プログラムがホームページの情報を収集し、検索を行うのに、収集したホームページの情報を用いて検索を行う情報検索システムが用いられる。またこの情報検索システムにおいて、ホームページの更新日時を推定し、先の検索結果に加味して情報提供することも行なわれている。
【0004】
【発明が解決しようとする課題】
上記したように、従来、ホームページの検索を行うのに、ホームページを収集した情報をそのまま利用して検索が行なわれる。従って、利用者が必要と考えているような情報について検索を行うと、記事の本文だけではなく同じページ上に動的に作成された関連するニュースや最新のニュースなどのメニューも検索されてしまう。このため、検索した結果に不必要な情報が含まれ、利用者が必要とする情報を入手するため余分な負担を強いるといった問題があった。
【0005】
また、プログラムが自動的にホームページを収集して検索する情報検索システムがホームページの更新日時を推定する場合には、収集を行ったときにサーバから更新日時を取得し、内容が変化したときに情報が更新されたと判断する方法が用いられている。
しかしながら、ホームページの内容が動的に変化するときは、サーバから更新日時を取得すると収集を行った時間が更新日時として取得される。また、内容の変化から情報が更新しているかどうかを推定する場合には、記事の本文が変化しない時にも動的に変化する部分が存在すると、情報が更新されたと判断されてしまう。このように、従来技術によれば、ホームページの内容が動的に変化する場合には正確な更新日時を推定することが出来ないといった問題があった。
【0006】
【課題を解決するための手段】
本発明は上記事情に鑑みてなされたものであり、ホームページの検索を行なう際、収集されたホームページの情報の中から変化しない本文のみを抽出して利用者に提供することにより、利用者の負担を軽減した情報自動識別装置およびその方法を提供することを目的とする。
また、動的に作成されている情報を削除して残ったホームページの情報に対してキーワードを用いた検索を行うことにより、精度の高い情報検索を実現する情報自動識別装置およびその方法を提供することも目的とする。更に、動的に作成されている情報を削除して残ったホームページの情報を比較することにより、当該ホームページの更新日時を推定することにより、更新日時を精度良く提供可能な情報自動識別装置およびその方法を提供することも目的とする。
【0007】
上記した課題を解決するために本発明は、動的にホームページの内容を変更して情報を提供する情報提供システムに用いられる情報自動識別装置であって、前記ホームページの情報を収集し、当該収集されたホームページの情報を、当該ホームページのアドレスを基にしてサイト別に分別し保存する手段と、前記分別が行なわれたホームページの情報の中から共通する文字列を抽出して動的に作成されている情報を特定する手段と、前記特定された情報を保存する手段と、前記特定された情報に基づいて、対象ホームページから動的に作成されている情報を削除し、残ったホームページの情報を保存する手段と、前記動的に作成されている情報を削除して残ったホームページの情報に対してキーワードを用いた検索を行う手段と、を備えたことを特徴とする。
【0010】
また、上記した課題を解決するために本発明は、動的にホームページの内容を変更して情報を提供する情報提供システムに用いられる情報自動識別装置であって、前記ホームページの情報を収集し、当該収集されたホームページの情報を、当該ホームページのアドレスを基にしてサイト別に分別し保存する手段と、前記分別が行なわれたホームページの情報の中から共通する文字列を抽出して動的に作成されている情報を特定する手段と、前記特定された情報を保存する手段と、前記特定された情報に基づいて、対象ホームページから動的に作成されている情報を削除し、残ったホームページの情報を保存する手段と、前記動的に作成されている情報を削除して残ったホームページの情報を比較することにより、当該ホームページの更新日時を推定し、保存する手段とを備えたことを特徴とする。
【0011】
上記構成により、動的に変化するようなホームページを変化する部分と変化しない部分を自動的に識別することが可能になり、ホームページの中から変化しない本文だけを抜き出してユーザに提供することが可能になる。従って、ホームページの検索を行なう際、収集されたホームページの情報の中から変化しない本文のみを抽出して利用者に提供することにより、検索した結果に不必要な情報が含まれないため利用者に余分な負担を強いることがなくなり、検索結果を参照する際の利用者の負担が軽減される。
また、動的に作成されている情報を削除して残ったホームページの情報に対してキーワードを用いた検索を行うことにより、精度の高い情報検索をおこなうことができ、また、動的に作成されている情報を削除して残ったホームページの情報を比較することにより、当該ホームページの更新日時を推定することができ、従って、ホームページの検索が行なわれたときに更新日時を考慮した情報を検索結果に含めることが可能となり、最新の情報を入手したいと考えているユーザに対して最新の情報のみを提供することが可能になる。
【0012】
上記した課題を解決するために本発明は、動的にホームページの内容を変更して情報を提供する情報提供システムに用いられる情報自動識別方法であって、前記情報提供システムにおいて、同一提供者分別手段が、前記ホームページの情報を収集し、当該収集されたホームページの情報を、当該ホームページのアドレスを基にしてサイト別に分別し、動的情報特定手段が、前記分別が行なわれたホームページの情報の中から共通する文字列を抽出して動的に作成されている情報を特定し、検索手段が、前記動的に作成されている情報を削除して残ったホームページの情報に対してキーワードを用いた検索を行うことを特徴とする。
【0013】
また、本発明において、前記情報提供システムにおいて、更新日時推定手段が、前記動的に作成されている情報を削除して残ったホームページの情報を比較することにより、当該ホームページの更新日時を推定することを特徴とする。
【0014】
上記した課題を解決するために本発明は、動的にホームページの内容を変更して情報を提供する情報提供システムに用いられる情報自動識別プログラムであって、前記ホームページの情報を収集し、当該収集されたホームページの情報を、当該ホームページのアドレスを基にしてサイト別に分別し保存するステップと、前記分別が行なわれたホームページの情報の中から共通する文字列を抽出して動的に作成されている情報を特定するステップと、前記特定された情報を保存するステップと、前記特定された情報に基づいて、対象ホームページから動的に作成されている情報を削除し、残ったホームページの情報を保存するステップと、前記動的に作成されている情報を削除して残ったホームページの情報に対してキーワードを用いた検索を行うステップとをコンピュータに実行させることを特徴とする。
【0015】
上記した課題を解決するために本発明は、動的にホームページの内容を変更して情報を提供する情報提供システムに用いられる情報自動識別プログラムであって、前記ホームページの情報を収集し、当該収集されたホームページの情報を、当該ホームページのアドレスを基にしてサイト別に分別し保存するステップと、前記分別が行なわれたホームページの情報の中から共通する文字列を抽出して動的に作成されている情報を特定するステップと、前記特定された情報を保存するステップと、前記特定された情報に基づいて、対象ホームページから動的に作成されている情報を削除し、残ったホームページの情報を保存するステップと、前記動的に作成されている情報を削除して残ったホームページの情報を比較することにより、当該ホームページの更新日時を推定し、保存するステップとをコンピュータに実行させることを特徴とする。これにより、上述の情報提供システムがコンピュータを利用して実現できる。
【0016】
上記した課題を解決するために本発明は、動的にホームページの内容を変更して情報を提供する情報提供システムに用いられる情報自動識別プログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記ホームページの情報を収集し、当該収集されたホームページの情報を、当該ホームページのアドレスを基にしてサイト別に分別し保存するステップと、前記分別が行なわれたホームページの情報の中から共通する文字列を抽出して動的に作成されている情報を特定するステップと、前記特定された情報を保存するステップと、前記特定された情報に基づいて、対象ホームページから動的に作成されている情報を削除し、残ったホームページの情報を保存するステップと、前記動的に作成されている情報を削除して残ったホームページの情報に対してキーワードを用いた検索を行うステップとをコンピュータに実行させるための情報自動識別プログラムを記録した記録媒体であることを特徴とする。
【0017】
上記した課題を解決するために本発明は、動的にホームページの内容を変更して情報を提供する情報提供システムに用いられる情報自動識別プログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記ホームページの情報を収集し、当該収集されたホームページの情報を、当該ホームページのアドレスを基にしてサイト別に分別し保存するステップと、前記分別が行なわれたホームページの情報の中から共通する文字列を抽出して動的に作成されている情報を特定するステップと、前記特定された情報を保存するステップと、前記特定された情報に基づいて、対象ホームページから動的に作成されている情報を削除し、残ったホームページの情報を保存するステップと、前記動的に作成されている情報を削除して残ったホームページの情報を比較することにより、当該ホームページの更新日時を推定し、保存するステップとをコンピュータに実行させるための情報自動識別プログラムを記録した記録媒体であることを特徴とする。
【0018】
上記プログラムおよび記録媒体により、上述の情報提供システムがコンピュータを利用して実現できる。
【0019】
【発明の実施の形態】
図1は、本発明が実現される情報提供システムの接続構成を示すブロック図である。
図1に示す情報提供システムは、ウェブサーバ1と、ウェブサーバ1からホームページの情報を収集するクローラ2と、図2にその詳細が示される情報自動識別装置3、そして、クローラ2あるいは情報自動識別装置3によって作成され参照される各種データベース4、5、6、7、8で構成される。
【0020】
データベースとしては、クローラ2により収集されるウェブページの情報が保存されるウェブページデータベース4、サイト毎のウェブページの情報が分別されそれぞれ保存されるサイト毎ウェブページデータベース5、分別が行なわれたホームページの情報の中から動的に作成されている情報が特定され、その特定された情報が保存される削除テキストデータベース6、動的に作成されている情報を削除して残ったホームページの情報が保存される本文テキストデータベース7、その更新日時が保存される更新日時データベース8が用意される。
【0021】
図2は、図1に示す情報自動識別装置3の内部構成を含む周辺の詳細構成を示すブロック図である。
以下に示す各ブロックは、具体的には、CPUならびにメモリを含む周辺LSIで構成され、CPUがメモリに記録されたプログラムを逐次読み出し実行することによりそのブロックが持つ機能を実現するものである。
情報自動識別装置3は、同一提供者分別保存手段31と、動的情報特定手段32と、動的情報保存手段33と、動的情報削除&本文保存手段34と、検索手段35と、更新日時推定&保存手段36で構成される。
【0022】
同一提供者分別保存手段31は、クローラ2によりホームページの情報が収集され保存されたウェブページデータベース4からその情報を読み出し、同一の提供者毎に分別してサイト毎ウェブページデータベース5に保存する機能を持つ。また、動的情報特定手段32は、分別が行なわれたホームページの情報の中から共通する文字列を抽出して動的に作成されている情報を特定する機能を持つ。更に、動的情報保存手段33は、特定された情報を削除テキストデータベース6に保存する機能を持つ。
【0023】
動的情報削除&本文保存手段34は、動的情報特定手段32によって特定された情報に基づいて、対象ホームページから動的に作成されている情報を削除し、残ったホームページの情報を本文テキストデータベース7に保存する機能を持つ。
また、検索手段35は、動的に作成されている情報を削除して残ったホームページの情報に対してキーワードを用いた検索を行う機能を持つ。更に、更新日時推定&保存手段36は、動的に作成されている情報を削除して残ったホームページの情報を比較することにより、当該ホームページの更新日時を推定し、更新日時データベース8に保存する機能を持つ。
【0024】
以下、図1、図2に示す情報自動識別装置3の動作について説明する。まず、同一提供者分別保存手段31は、ホームページの位置を示すアドレスからそのホームページがおかれているサーバを特定し、同一のサーバにあるホームページをそれぞれのサイトに振り分けることで、同一の情報提供者毎の情報を取得する。また、このようにして取得した情報をサイト毎ウェブデータベース5に保存する。
動的情報特定手段32は、上記のように取得した情報を基に、同一サーバ上の異なるホームページを比較し、その中で共通して存在する文字列を取得する。共通する文字列を取得するためには、タグと称されるホームページを記述する文字列を基にブロックごとに分割し、ブロックが共通か否かを調べる方法や、二つの文章の差分を取り共通部分を検出する方法などが考えられる。
【0025】
動的情報特定手段32は、更に取得した共通文字列を、サイト毎ウェブデータベース5から取り出した同一サーバ上のホームページの情報を参照することにより同一の文字列が存在するか否かを調べる。動的情報特定手段32は、同一サーバ上のホームページの中で検査を行った文字列がある一定以上の長さと、ある一定数以上の回数が検査されたときには、この共通する文字列は自動的に作成されたものと判断し、動的情報保存手段33が削除テキストデータベース6に保存する。また、他に共通する文字列がないか調べ、もし存在すれば上記の処理を繰り返すことで、同一サーバ上の共通する文字列を取得する。
また、動的情報削除&本文保存手段34は、上記のようにして取得した共通する文字列を、削除テキストデータベース6から読み込み、サイト毎ウェブページデータベース5から取り出した同一サーバ上のホームページの中から削除する。このようにして作成した、ホームページの内容に該当する情報を本文テキストデータベース7に保存する。
【0026】
このようにして取得し作成される本文テキストデータベース7に対し、検索手段35がキーワードを入力し、そのキーワードが含まれるテキストを取得することでキーワードによる検索を行う。
また、更新日時推定&保存手段36は、本文テキストデータベース7から保存された情報を読み出し、また、新規に収集されたウェブ情報から取得される本文テキスト情報とを比較することにより、内容が変化している場合にのみその情報が更新されているものと判断し、その収集を行った日時を更新日時として更新日時データベース8に保存する。
【0027】
このことにより、ホームページの情報からユーザが必要としているホームページの本文のみを検索することが可能になり、検索結果に含まれるユーザが必要としない情報が含まれる頻度を減らすことができる。
また、ホームページの情報からホームページの更新日時を高い精度で特定することが可能になり、ニュースなどのように新しい情報を必要としているユーザに対してホームページの検索を行ったときに更新日時を考慮した情報を検索結果に含めることが可能となり、ユーザが必要としている情報を得ることができる。
【0028】
上記した動作は、図3、図4にフローチャートとして示されている。図3に、ホームページの検索を行うための処理の流れを、図4に、更新日時を推定するための処理の流れを示す。
以下、図3、図4に示すフローチャートを参照しながらホームページの検索処理、および更新日時を推定するための処理のそれぞれについて詳細に説明する。
【0029】
図3を参照しながらホームページの検索を行う処理から説明する。まず、クローラ2がウェブサーバ1からホームページの情報を収集し、収集したホームページの情報をウェブページデータベース4に保存する(ステップS101)。
次に、情報自動識別装置3、詳しくは同一提供者分別保存手段31は、ウェブページデータベース4からホームページの情報を取り出し、そのホームページのアドレスを基にそれぞれのサイト別にサイト毎ウェブページデータベース5に保存する(ステップS102)。
【0030】
そして、動的情報特定手段32は、同一サイト別に保存したウェブページの情報同士を比較して共通する部分を抽出し(ステップS103)、ここで抽出した共通する部分が存在するウェブページを同一サイト内で検索してカウントする(ステップS104)。そして、共通する部分の文字数が一定数以上の場合で、一定数以上カウントされた共通部分が存在する場合、ステップS106の処理に、その他の場合、ステップS107の処理に移行するように制御する。
【0031】
ステップS106では、動的情報保存手段33がその共通する部分を削除テキストデータベース6に保存する。ステップS107では、動的情報特定手段32が他に同一サイトに共通する部分が存在するウェブページがあるか否かを調べる。もし存在すればステップS103の処理に移り、他に存在しなければステップS108の処理に移行するように制御する。
ステップS108では、動的情報削除&本文保存手段34が削除テキストデータベース6から保存した共通分の情報を読出し、ウェブページから共通する部分を削除して本文テキストデータベース7に保存する。続いて検索手段35がステップS109で保存した本文テキストデータベース7に対し、キーワード検索を行う。
【0032】
次に、図4を参照しながら更新日時を推定する場合の処理について説明する。ステップS201からステップS208に至る各ステップの処理は、図3に示すステップS101からステップS108に示すそれぞれの処理に相当し、全く同じ処理となるため、ここでは重複を避ける意味で説明を省略し、ステップS209移行の処理についてのみ説明する。
【0033】
すなわち、ステップS209で、更新日時推定&保存手段36は、先に動的に作成されている情報を削除して残ったホームページの情報が保存された本文テキストデータベース7を参照することにより、内容に変化があるか否かを調べ、内容に変化があった場合は新規に情報収集を行なった日時を更新日時として更新日時データベース8に保存し(ステップS210)、そうでなければ終了する。
このことにより、ホームページの検索が行なわれたときに更新日時を考慮した情報を検索結果に含めることが可能となり、ユーザが必要としている情報を提供することができる。
【0034】
なお、上記した本発明実施形態においては、情報自動識別装置3中に検索手段35および更新日時推定&保存手段36を含むものとして説明したが、情報自動識別装置3から独立した装置、あるいはシステムとして設計しても同様の効果が得られる。
また、上記した同一提供者分別保存手段31と、動的情報特定手段32と、動的情報保存手段33と、動的情報削除&本文保存手段34と、検索手段35と、更新日時推定&保存手段36のそれぞれで実行される手順をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述した各装置における機能が実行される。
ここでいうコンピュータシステムとは、OSや周辺機器等のハードウアを含むものとする。
【0035】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のシステムやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0036】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0037】
以上、この発明の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【0038】
【発明の効果】
以上説明のように本発明によれば、ホームページの検索を行なう際、収集されたホームページの情報の中から変化しない本文のみを抽出して利用者に提供するものであり、また、動的に作成されている情報を削除して残ったホームページの情報に対してキーワードを用いた検索を行うことができ、このことにより精度の高い情報検索を実現し、更に、動的に作成されている情報を削除して残ったホームページの情報を比較することにより、当該ホームページの更新日時を推定することが可能である。
【0039】
このことにより、動的に変化するようなホームページを変化する部分と変化しない部分を自動的に識別することが可能になり、ホームページの中から変化しない本文だけを抜き出してユーザに提供することが可能になる。従って、不要な部分が削除され提供されるため、利用者が必要とする情報を入手するために余分な負担を強いることがなくなり、利用者の負担が軽減される。また、ホームページの検索を行った時に、検索したいキーワードが含まれる本文のみ検索することが可能になり、従ってより精度の高い検索を行うことが出来るようになる。更に、動的に変化するホームページで情報の更新日時を精度よく特定することが可能になり、最新の情報を入手したいと考えているユーザに対して最新の情報を提供することが可能になる。
【図面の簡単な説明】
【図1】 本発明が実現される情報提供システムの接続構成を示すブロック図である。
【図2】 図1に示す情報自動識別装置の内部構成を含む周辺の詳細構成を示すブロック図である。
【図3】 ホームページの検索を行うための処理の流れをフローチャートで示した図である。
【図4】 更新日時を推定するための処理の流れをフローチャートで示した図である。
【符号の説明】
1…ウェブサーバ、2…クローラ、3…情報自動識別装置、4…ウェブページデータベース、5…サイト毎ウェブページデータベース、6…削除テキストデータベース、7…本文テキストデータベース、8…更新日時データベース、31…同一提供者分別保存手段、32…動的情報特定手段、33…動的情報保存手段、34…動的情報削除&本文保存手段、35…検索手段、36…更新日時推定&保存手段

Claims (8)

  1. 動的にホームページの内容を変更して情報を提供する情報提供システムに用いられる情報自動識別装置であって、
    前記ホームページの情報を収集し、当該収集されたホームページの情報を、当該ホームページのアドレスを基にしてサイト別に分別し保存する手段と、
    前記分別が行なわれたホームページの情報の中から共通する文字列を抽出して動的に作成されている情報を特定する手段と、
    前記特定された情報を保存する手段と、
    前記特定された情報に基づいて、対象ホームページから動的に作成されている情報を削除し、残ったホームページの情報を保存する手段と、
    前記動的に作成されている情報を削除して残ったホームページの情報に対してキーワードを用いた検索を行う手段と、を備えたことを特徴とする情報自動識別装置。
  2. 動的にホームページの内容を変更して情報を提供する情報提供システムに用いられる情報自動識別装置であって、
    前記ホームページの情報を収集し、当該収集されたホームページの情報を、当該ホームページのアドレスを基にしてサイト別に分別し保存する手段と、
    前記分別が行なわれたホームページの情報の中から共通する文字列を抽出して動的に作成されている情報を特定する手段と、
    前記特定された情報を保存する手段と、
    前記特定された情報に基づいて、対象ホームページから動的に作成されている情報を削除し、残ったホームページの情報を保存する手段と、
    前記動的に作成されている情報を削除して残ったホームページの情報を比較することにより、当該ホームページの更新日時を推定し、保存する手段とを備えたことを特徴とする情報自動識別装置。
  3. 動的にホームページの内容を変更して情報を提供する情報提供システムに用いられる情報自動識別方法であって、
    前記情報提供システムにおいて、
    同一提供者分別手段が、前記ホームページの情報を収集し、当該収集されたホームページの情報を、当該ホームページのアドレスを基にしてサイト別に分別し、
    動的情報特定手段が、前記分別が行なわれたホームページの情報の中から共通する文字列を抽出して動的に作成されている情報を特定し、
    検索手段が、前記動的に作成されている情報を削除して残ったホームページの情報に対してキーワードを用いた検索を行うことを特徴とする情報自動識別方法。
  4. 前記情報提供システムにおいて、
    更新日時推定手段が、前記動的に作成されている情報を削除して残ったホームページの情報を比較することにより、当該ホームページの更新日時を推定することを特徴とする請求項に記載の情報自動識別方法。
  5. 動的にホームページの内容を変更して情報を提供する情報提供システムに用いられる情報自動識別プログラムであって、
    前記ホームページの情報を収集し、当該収集されたホームページの情報を、当該ホームページのアドレスを基にしてサイト別に分別し保存するステップと、
    前記分別が行なわれたホームページの情報の中から共通する文字列を抽出して動的に作成されている情報を特定するステップと、
    前記特定された情報を保存するステップと、
    前記特定された情報に基づいて、対象ホームページから動的に作成されている情報を削除し、残ったホームページの情報を保存するステップと、
    前記動的に作成されている情報を削除して残ったホームページの情報に対してキーワードを用いた検索を行うステップと
    をコンピュータに実行させるためのプログラム。
  6. 動的にホームページの内容を変更して情報を提供する情報提供システムに用いられる情報自動識別プログラムであって、
    前記ホームページの情報を収集し、当該収集されたホームページの情報を、当該ホームページのアドレスを基にしてサイト別に分別し保存するステップと、
    前記分別が行なわれたホームページの情報の中から共通する文字列を抽出して動的に作成されている情報を特定するステップと、
    前記特定された情報を保存するステップと、
    前記特定された情報に基づいて、対象ホームページから動的に作成されている情報を削除し、残ったホームページの情報を保存するステップと、
    前記動的に作成されている情報を削除して残ったホームページの情報を比較することにより、当該ホームページの更新日時を推定し、保存するステップと
    をコンピュータに実行させるためのプログラム。
  7. 動的にホームページの内容を変更して情報を提供する情報提供システムに用いられる情報自動識別プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
    前記ホームページの情報を収集し、当該収集されたホームページの情報を、当該ホームページのアドレスを基にしてサイト別に分別し保存するステップと、
    前記分別が行なわれたホームページの情報の中から共通する文字列を抽出して動的に作成されている情報を特定するステップと、
    前記特定された情報を保存するステップと、
    前記特定された情報に基づいて、対象ホームページから動的に作成されている情報を削除し、残ったホームページの情報を保存するステップと、
    前記動的に作成されている情報を削除して残ったホームページの情報に対してキーワードを用いた検索を行うステップと
    をコンピュータに実行させるための情報自動識別プログラムを記録した記録媒体。
  8. 動的にホームページの内容を変更して情報を提供する情報提供システムに用いられる情報自動識別プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
    前記ホームページの情報を収集し、当該収集されたホームページの情報を、当該ホームページのアドレスを基にしてサイト別に分別し保存するステップと、
    前記分別が行なわれたホームページの情報の中から共通する文字列を抽出して動的に作成されている情報を特定するステップと、
    前記特定された情報を保存するステップと、
    前記特定された情報に基づいて、対象ホームページから動的に作成されている情報を削除し、残ったホームページの情報を保存するステップと、
    前記動的に作成されている情報を削除して残ったホームページの情報を比較することにより、当該ホームページの更新日時を推定し、保存するステップ
    をコンピュータに実行させるための情報自動識別プログラムを記録した記録媒体。
JP2001137367A 2001-05-08 2001-05-08 情報自動識別装置、情報自動識別方法、情報自動識別プログラム、および記録媒体 Expired - Lifetime JP3859985B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001137367A JP3859985B2 (ja) 2001-05-08 2001-05-08 情報自動識別装置、情報自動識別方法、情報自動識別プログラム、および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001137367A JP3859985B2 (ja) 2001-05-08 2001-05-08 情報自動識別装置、情報自動識別方法、情報自動識別プログラム、および記録媒体

Publications (2)

Publication Number Publication Date
JP2002334090A JP2002334090A (ja) 2002-11-22
JP3859985B2 true JP3859985B2 (ja) 2006-12-20

Family

ID=18984480

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001137367A Expired - Lifetime JP3859985B2 (ja) 2001-05-08 2001-05-08 情報自動識別装置、情報自動識別方法、情報自動識別プログラム、および記録媒体

Country Status (1)

Country Link
JP (1) JP3859985B2 (ja)

Also Published As

Publication number Publication date
JP2002334090A (ja) 2002-11-22

Similar Documents

Publication Publication Date Title
US6883001B2 (en) Document information search apparatus and method and recording medium storing document information search program therein
EP0926606A2 (en) Document data linking apparatus
KR100509276B1 (ko) 웹페이지별 방문인기도에 기반한 웹페이지 검색방법 및 그장치
KR100359233B1 (ko) 웹 정보 추출 방법 및 시스템
JP3698242B2 (ja) 情報セット重要度判定システム及びその判定方法、及び情報セット重要度判定プログラムを記録した記録媒体
JP2007256992A (ja) コンテンツ特定方法及び装置
US20060143242A1 (en) Content management device
JP2003141155A (ja) Webページ検索システムおよびWebページ検索プログラム
JP3859985B2 (ja) 情報自動識別装置、情報自動識別方法、情報自動識別プログラム、および記録媒体
JP4253315B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP2940488B2 (ja) 文書グループ化装置および文書グループ化方法
JPH10143418A (ja) 文書情報更新監視装置および文書情報の更新監視方法
KR100496384B1 (ko) 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스 작성방법 및, 기억매체
JP4259858B2 (ja) Wwwサイト履歴検索装置及び方法並びにプログラム
JP2003173351A (ja) 情報解析、収集、検索方法、装置、プログラム、および記録媒体
JP2002049638A (ja) 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体
JP3655495B2 (ja) 情報検索方法および装置と情報検索プログラムを記録した記録媒体
JP2003186901A (ja) Webサイト検索方法とシステム、並びに、この方法の実行プログラムとこの方法の実行プログラムを記録した記録媒体
KR100371805B1 (ko) 관련 웹 사이트 제공 방법 및 시스템
JP2004264928A (ja) Webサイト内検索方法と装置、Webサイト内検索プログラムおよびこのプログラムを記録した記録媒体
JP3725087B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP4028795B2 (ja) 電子メール収集・検索システム
JP3708893B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP2001282837A (ja) 情報収集装置
JP3725835B2 (ja) 知識情報収集システムおよび知識情報収集方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060627

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060821

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060920

R151 Written notification of patent or utility model registration

Ref document number: 3859985

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090929

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100929

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100929

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110929

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120929

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130929

Year of fee payment: 7

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term