JP3673859B2 - Web page group development process presentation system - Google Patents

Web page group development process presentation system Download PDF

Info

Publication number
JP3673859B2
JP3673859B2 JP2002130250A JP2002130250A JP3673859B2 JP 3673859 B2 JP3673859 B2 JP 3673859B2 JP 2002130250 A JP2002130250 A JP 2002130250A JP 2002130250 A JP2002130250 A JP 2002130250A JP 3673859 B2 JP3673859 B2 JP 3673859B2
Authority
JP
Japan
Prior art keywords
group
development process
database
control means
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002130250A
Other languages
Japanese (ja)
Other versions
JP2003323451A (en
Inventor
優 喜連川
正史 豊田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokyo NUC
Original Assignee
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokyo NUC filed Critical University of Tokyo NUC
Priority to JP2002130250A priority Critical patent/JP3673859B2/en
Publication of JP2003323451A publication Critical patent/JP2003323451A/en
Application granted granted Critical
Publication of JP3673859B2 publication Critical patent/JP3673859B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ウェブページグループの発展過程提示システムに関するものである。
【0002】
【従来の技術】
従来、インターネット等のネットワーク上には多数のホームページ、情報提供ページ等のウェブページが開設されており、多数のウェブページ利用者が、パーソナルコンピュ−タ、携帯電話機等のインターネットに接続された端末機器から自由にアクセス(訪問)して、各種の情報の収集等を短時間で、かつ、容易に行うことができるようになっている。特に、最近では、端末機器の普及、通信回線の高速化、ウェブページのコンテンツ、提供する情報等の充実等に伴い、ウェブページの利便性が高まるとともに、ポータルサイトのように検索サービスを提供するウェブサイトの数や機能が充実し、ウェブページにアクセスして所望の情報を入手する利用者数、回数、時間等が大幅に増加している。
【0003】
この場合、利用者が必要とする情報を入手しやすいようにするために、前記利用者から与えられた検索語を含むウェブページのリスト中から必要とする情報が含まれているウェブページが選択されると、該ウェブページに掲載された情報に関連する情報が掲載されたウェブページのリストを出力するような関連ページ検索機能を備えた情報検索システムが提供されている(www.google.com参照)。また、様々なウェブページを種類毎に分類して提供し、利用者が関連するウェブページを次々に閲覧することができるポータルサイトも存在する(www.yahoo.com 参照)。さらに、本発明の発明者は、利用者が指定したウェブページに掲載される情報と同一の分野の情報が掲載されるウェブページを同一のグループに分類するとともに、複数のグループ間の関連度を算出してデータベースを自動的に作成することによって、利用者が興味を有する分野の情報を掲載するウェブページのグループを閲覧することができるとともに、前記グループに関連するグループのウェブページを効率的に閲覧することができる情報検索システムを提案している(特願2001−108581、及び、特願2001−108675参照)。
【0004】
【発明が解決しようとする課題】
しかしながら、ネットワーク上では多くのウェブページが日々作成されたり、削除されたりしている。また、内容が頻繁に書き換えられるウェブページも数多く存在する。そのため、利用者が過去のある時点でのウェブページの内容を知りたい場合には、前記従来のシステムでは対応することができない。
【0005】
すなわち、前記従来のシステムは、現時点においてアクセス可能なウェブページの内容に基づいて検索するようになっているので、ウェブページの過去における内容や、過去において存在していたが現時点では削除されてしまったウェブページを知ることはできない。そこで、このような問題を解決するために、定期的に広範囲に渡るウェブページを収集し、指定されたウェブページの履歴を収集された時期とともに提示する情報検索システムが提供されている( http://www.archive.org 参照)。しかし、該情報検索システムにおいては指定されたウェブページのみの変化しか提示されないため、ネットワーク上に前記ウェブページに関連するウェブページがどのぐらい存在し、また、その数が時間とともにどのように変化してきたかを知ることはできない。
【0006】
本発明は、前記従来の問題点を解決して、関連するウェブページから成るグループの発展過程に関する検索要求を受信すると、前記グループをウェブページの収集時期毎に格納する関連ページデータベースにアクセスし、前記検索要求に含まれる検索条件に基づいてグループを検索し、検索されたグループを前後の収集時期におけるグループと比較して発展過程を算出し、前記検索要求において指定された発展の尺度に基づいて前記検索されたグループを並べ替え、閲覧可能な状態に編集して出力することによって、利用者が興味を有する分野の情報を掲載するウェブページの時系列的な変化を把握することができるウェブページグループ発展過程提示システムを提供することを目的とする。
【0007】
【課題を解決するための手段】
そのために、本発明のウェブページグループ発展過程提示システムにおいては、関連するウェブページから成るグループの発展過程に関する検索要求を受信して制御手段に送信する入力制御手段と、前記検索要求を受信すると、前記グループをウェブページの収集時期毎に格納する関連ページデータベースにアクセスし、前記検索要求に含まれる検索条件に基づいてグループを検索し、検索されたグループを前後の収集時期におけるグループと比較して発展過程を算出し、前記検索要求において指定された発展の尺度に基づいて前記検索されたグループを並べ替えて出力する制御手段とを有する。
【0008】
本発明の他のウェブページグループ発展過程提示システムにおいては、関連するウェブページから成るグループの発展過程に関する検索要求を受信して制御手段に送信する入力制御手段と、前記グループをウェブページの収集時期毎に格納する関連ページデータベースにアクセスし、それぞれのグループを前後の収集時期におけるグループと比較し、グループの時系列的な変化を算出して発展過程データベースを作成する発展過程データベース作成手段と、前記検索要求を受信すると、前記関連ページデータベース及び発展過程データベースにアクセスし、前記検索要求に含まれる検索条件に基づいてグループを検索し、検索されたグループの発展過程を算出し、前記検索要求において指定された発展の尺度に基づいて前記検索されたグループを並べ替えて出力する制御手段とを有する。
【0009】
本発明の更に他のウェブページグループ発展過程提示システムにおいては、定期的にウェブページを収集して収集時期毎に格納するページ収集手段と、ウェブページ間に張られたハイパーリンクの相関関係に基づいて、ウェブぺ−ジをグループに分類するとともに、グループ間の関連度を算出して、該グループ間の関連度を収集時期毎に格納する関連ページデータベースを作成する関連ページデータベース作成手段と、前記グループの発展過程に関する検索要求を受信して制御手段に送信する入力制御手段と、前記グループをウェブページの収集時期毎に格納する関連ページデータベースにアクセスし、それぞれのグループを前後の収集時期におけるグループと比較し、グループの時系列的な変化を算出して発展過程データベースを作成する発展過程データベース作成手段と、前記検索要求を受信すると、前記関連ページデータベース及び発展過程データベースにアクセスし、前記検索要求に含まれる検索条件に基づいてグループを検索し、検索されたグループの発展過程を算出し、前記検索要求において指定された発展の尺度に基づいて前記検索されたグループを並べ替えて出力制御手段に送信する制御手段と、受信したグループを閲覧可能な状態に編集して出力する出力制御手段とを有する。
【0010】
本発明のウェブページグループ発展過程提示プログラムにおいては、ウェブページグループの発展過程を提示するためにコンピュータを、関連するウェブページから成るグループの発展過程に関する検索要求を受信して制御手段に送信する入力制御手段、及び、前記検索要求を受信すると、前記グループをウェブページの収集時期毎に格納する関連ページデータベースにアクセスし、前記検索要求に含まれる検索条件に基づいてグループを検索し、検索されたグループを前後の収集時期におけるグループと比較して発展過程を算出し、前記検索要求において指定された発展の尺度に基づいて前記検索されたグループを並べ替えて出力する制御手段として機能させる。
【0011】
本発明の他のウェブページグループ発展過程提示プログラムにおいては、ウェブページグループの発展過程を提示するためにコンピュータを、関連するウェブページから成るグループの発展過程に関する検索要求を受信して制御手段に送信する入力制御手段、前記グループをウェブページの収集時期毎に格納する関連ページデータベースにアクセスし、それぞれのグループを前後の収集時期におけるグループと比較し、グループの時系列的な変化を算出して発展過程データベースを作成する発展過程データベース作成手段、及び、前記検索要求を受信すると、前記関連ページデータベース及び発展過程データベースにアクセスし、前記検索要求に含まれる検索条件に基づいてグループを検索し、検索されたグループの発展過程を算出し、前記検索要求において指定された発展の尺度に基づいて前記検索されたグループを並べ替えて出力する制御手段として機能させる。
【0012】
本発明の更に他のウェブページグループ発展過程提示プログラムにおいては、ウェブページグループの発展過程を提示するためにコンピュータを、定期的にウェブページを収集して収集時期毎に格納するページ収集手段、ウェブページ間に張られたハイパーリンクの相関関係に基づいて、ウェブぺ−ジをグループに分類するとともに、グループ間の関連度を算出して、該グループ間の関連度を収集時期毎に格納する関連ページデータベースを作成する関連ページデータベース作成手段、前記グループの発展過程に関する検索要求を受信して制御手段に送信する入力制御手段、前記グループをウェブページの収集時期毎に格納する関連ページデータベースにアクセスし、それぞれのグループを前後の収集時期におけるグループと比較し、グループの時系列的な変化を算出して発展過程データベースを作成する発展過程データベース作成手段、前記検索要求を受信すると、前記関連ページデータベース及び発展過程データベースにアクセスし、前記検索要求に含まれる検索条件に基づいてグループを検索し、検索されたグループの発展過程を算出し、前記検索要求において指定された発展の尺度に基づいて前記検索されたグループを並べ替えて出力制御手段に送信する制御手段、及び、受信したグループを閲覧可能な状態に編集して出力する出力制御手段として機能させる。
【0013】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照しながら詳細に説明する。
【0014】
図1は本発明の第1の実施の形態におけるウェブページグループ発展過程提示システムの概念図である。
【0015】
図において、21はインターネット、22は、有線又は無線の公衆通信回線網、専用通信回線網等を介して直接に又は他のネットワークを経由して間接に、前記インターネット21に通信可能に接続された利用者端末である。なお、該利用者端末22は、例えば、パーソナルコンピュータ、電子手帳、携帯電話機、PDA(Personal Digital Assistant:携帯情報端末)、テレビ電話、ゲーム機等であるが、前記インターネット21に通信可能に接続して双方向の情報通信が可能な機器であればいかなる形態のものであってもよい。
【0016】
また、前記インターネット21には、図示されない多数のWWW(World Wide Web)ページ、すなわち、ウェブページが開設されている。そして、該ウェブページは、仮想店舗、電子カタログ等のEC(電子商取引)を行うためのECサイト、娯楽情報、交通情報、科学技術情報、会社案内、金融取引情報、学術情報等の情報を掲示する情報提供サイト、サイト検索サービスを提供するポータルサイト、音楽やソフトウェアの配信ような各種アプリケーションサービスを提供するASPサイト、個人、企業、団体、政府等のホームページ等である。そして、前記ウェブページは、一般に、演算手段、記憶手段、通信インターフェイス、入出力手段等を有するパーソナルコンピュータ、サーバ等のコンピュータに開設され、多数の利用者が前記利用者端末22から、前記インターネット21を経由してアクセスすることができるようになっている。
【0017】
なお、前記ウェブページは、個人、企業、団体等いかなる者によって運営されていてもよい。また、前記ウェブページへのアクセスは、無料、有料、一部有料であってもよく、不特定多数がアクセス可能なものであっても、登録された者や契約を締結した者だけがアクセス可能なものであってもよい。
【0018】
さらに、前記ウェブページは、前記利用者端末22からの情報も受け入れることのできる双方向性(インタラクティブ)のものであっても、掲示された情報の全部又は一部を無料又は有料でダウンロードすることができるものであってもよい。
【0019】
そして、10は、公衆通信回線網又は専用通信回線網を介して、前記インターネット21と通信可能に接続されたウェブページグループ発展過程提示システムであり、演算手段、記憶手段、通信インターフェイス、入出力手段等を有するコンピュータの中に構築される。なお、該コンピュータは、単独に存在するものであってもよいし、複数のコンピュータが有機的に結合した分散型サーバのようなものであってもよい。さらに、前記コンピュータの中に他のシステムが構築されていてもよい。
【0020】
また、前記ウェブページグループ発展過程提示システム10は、定期的にウェブページを収集するページ収集手段11、収集されたウェブページが収集時期毎に格納される収集ページデータベース12、収集時期毎に関連するウェブページのグループとグループ間の関連度に関するデータベースを作成する関連ページデータベース作成手段13、前記関連するウェブページのグループとグループ間の関連度を収集時期毎に格納するデータベースである関連ページデータベース14、収集時期による前記グループの変化に関するデータベースを作成する発展過程データベース作成手段15、前記収集時期によるグループの変化に関するデータベースである発展過程データベース16、前記関連ページデータベース14と前記発展過程データベース16にアクセスして必要な情報を取得する制御手段17、前記ウェブページグループ発展過程提示システム10への外部からのアクセスを受け付ける入力制御手段18、及び、前記ウェブページグループ発展過程提示システム10の外部へ情報を発信する出力制御手段19を有する。
【0021】
次に、前記構成のウェブページグループ発展過程提示システムの動作について説明する。
【0022】
図2は本発明の第1の実施の形態におけるハイパーリンクデータベースを作成するための構成を示す図、図3は本発明の第1の実施の形態におけるウェブページ間のハイパーリンクの張り方の1例を示す図、図4は本発明の第1の実施の形態における関連ページデータベースに格納されるデータの形態の1例を示す図である。
【0023】
まず、ページ収集手段11は、自動的にインターネット21を経由して該インターネット21上に開設されているウェブページにアクセスし、該ウェブページのURL(Uniform Resource Locator)、掲載されている情報等をコピーする、すなわち、ウェブページを収集する。そして、収集した該ウェブページを収集ページデータベース12に格納する。ここで、前記ページ収集手段11は、ウェブページを所定の収集時期毎に定期的に収集する。該所定の収集時期の周期は、例えば、数日であってもよいし、1週間であっても、1月であっても、また、1年であってもよい。さらに、前記周期はより短い周期であってもよいし、より長い周期であってもよい。
【0024】
また、前記ページ収集手段11は、広範囲に集められるウェブページをすべて集めるものでもよく、ある範囲に限ってウェブページを収集するものでもよい。さらに、例えば、指定されたキーワードを含むウェブページだけ収集するというように、条件付でウェブページを収集するものでもよい。そして、前記ページ収集手段11は、収集したウェブページを収集時期毎にまとめて、別々に収集ページデータベース12に格納する。
【0025】
そして、該記収集ページデータベース12は、ページ収集手段11によって収集されたウェブページを収集時期毎に格納し、収集時期及びURLを指定すると、該収集時期及びURLに対応するウェブページを取り出すことができるようになっている。ここで、前記収集ページデータベース12に格納されるウェブページの数はいくつであってもよい。なお、前記収集ページデータベース12に格納されるウェブページは人手によって収集されてもよい。
【0026】
また、関連ページデータベース作成手段13は、前記所定の収集時期毎に、その時期に収集したウェブページをグループに分類し、グループ間の関連度を算出し、グループのデータベースを作成する。なお、ウェブページをグループに分類する方法は、例えば、「従来の技術」において説明した本発明の発明者が既に提案した情報検索システム(特願2001−108581、及び、特願2001−108675参照)と同様の方法であってもよい。
【0027】
この場合、ウェブページグループ発展過程提示システム10は、図1に示されるような構成に加え、図2に示されるようなハイパーリンクデータベース作成手段13aとハイパーリンクデータベース14aとを有する。そして、前記ハイパーリンクデータベース作成手段13aは、収集ページデータベース12にアクセスして、格納されているウェブページ間に張られているハイパーリンクを抽出して、前記ハイパーリンクデータベース14aに格納する。ここで、ハイパーリンクは、HTML(Hyper Text Markup Language)においてアンカータグに挟まれた文字列をクリックすると、前記アンカータグが指定するファイルや文字列にジャンプする仕組みである。これにより、前記ハイパーリンクデータベース14aには、ハイパーリンクがどのウェブページからどのウェブページに張られたか、すなわち、リンク元のウェブページとリンク先のウェブページに関する情報が格納される。
【0028】
そして、関連ページデータベース作成手段13は、ハイパーリンクデータベース14aにアクセスして、ウェブページ間にどのようにハイパーリンクが張られているかを解析する。そして、前記所定の収集時期毎に、その時期に収集したウェブページをいくつものグループに分類し、該グループ間の関連度を算出して、関連ページデータベース14に格納する。
【0029】
ここで、関連ページデータベース作成手段13の動作を詳細に説明する。
【0030】
(1)各ウェブページについて関連するウェブページリストを作成する。なお、説明の都合上、単純なアルゴリズムを使用して、前記ウェブページリストを作成する場合について説明する。
【0031】
まず、ハイパーリンクデータベース14aに含まれるウェブページ(P1 、P2 、・・・PN )のそれぞれに関連するウェブページリストを作成する。ここで、あるウェブページPk について関連するウェブページリストLk は、以下の(a)〜(c)のようにして作成される。
【0032】
(a)ハイパーリンクデータベース14aにアクセスして、ウェブページPk にハイパーリンクを張っているウェブページ、すなわち、ウェブページPk をリンク先とするハイパーリンクのリンク元のウェブページ(B1 、B2 、・・・BM )のリストを取得する。
【0033】
(b)そして、ハイパーリンクデータベース14aにアクセスして、前記ウェブページ(B1 、B2 、・・・BM )をリンク元とするすべてのハイパーリンクのリンク先のウェブページのリストを取得する。続いて、該リスト中にウェブページのそれぞれがリストアップされる回数をカウントする。
【0034】
図3に示される例の場合、ウェブページPk をリンク先とするハイパーリンクのリンク元のウェブページはB1 及びB2 である。そして、ウェブページB1 及びB2 をリンク元とするハイパーリンクのリンク先のウェブページのリスト中には、ウェブページPk 、Pm 及びPn がリストアップされる。また、リストアップされる回数は、ウェブページPk が2回、ウェブページPm が2回、及び、ウェブページPn が1回である。
【0035】
(c)リストアップされる回数の多い順に上位からいくつか(例えば、上位十)のウェブページを抽出して、ウェブページPk についての関連するウェブページリストLk を作成する。
【0036】
図3に示される例の場合、例えば、上位二つのウェブページを抽出すると、ウェブページPk 及びPm がリストアップされたリストが作成される。
【0037】
そして、ハイパーリンクデータベース14aに含まれるすべてのウェブページ(P1 、P2 、・・・PN )について、前記(a)〜(c)のようにして、それぞれに関連するウェブページリストを作成する。
【0038】
なお、各ウェブページについての関連するウェブページリストを作成する場合、前述されたような単純なアルゴリズムを使用せずに、他のアルゴリズム、例えば、Companionと称されるアルゴリズム(Jeffrey Dean and Monika R.Henzinger. Finding related pages in the World Wide Web. Proceedngs of the 8th International World Wide Web Conference,1999.:参照)を使用することもできる。
【0039】
(2)ウェブページを複数のグループに分類する。
【0040】
次に、前記(1)で作成したウェブページリストに基づいて、ハイパーリンクデータベース14aに含まれるウェブページ(P1 、P2 、・・・PN )を複数のグループ(G1 、G2 、・・・GM )に分類する。なお、前記ウェブページリストは、前記(1)の(a)〜(c)で説明したアルゴリズムを使用して作成されたものであってもよいし、他のアルゴリズム、例えば、Companionのようなアルゴリズムを使用して作成されたものであってもよい。
【0041】
ここで、二つのウェブページ、すなわち、ウェブページPi 及びウェブページPj から成る組み合わせについて、前記ウェブページPi 及びウェブページPj が以下の条件(a)を満たす場合に同一のグループに分類し、満たさない場合に同一のグループに分類しないようにする。
【0042】
条件(a):ウェブページPi についての関連するウェブページリストLi にウェブページPj が含まれ、かつ、ウェブページPj についての関連するウェブページリストLj にウェブページPi が含まれる。
【0043】
前記条件(a)を満たすということは、ウェブページPi に掲載された情報の観点から観て関連する情報がウェブページPj に掲載され、かつ、ウェブページPj に掲載された情報の観点から観て関連する情報がウェブページPi に掲載されているということなので、前記ウェブページPi 及びウェブページPj に掲載された情報は互いに関連するものであると言える。したがって、前記条件(a)を満たす場合、ウェブページPi 及びウェブページPj は、同一のグループ、例えば、グループGi に分類される。
【0044】
一方、前記条件(a)を満たさない場合、ウェブページPi 及びウェブページPj に掲載された情報は互いに関連するものと言えないので、ウェブページPi とウェブページPj とは、同一のグループに分類されない。
【0045】
そして、ハイパーリンクデータベース14aに含まれるすべてのウェブページ(P1 、P2 、・・・PN )の組み合わせについて、前記条件(a)を満たすか否かを調べることによって、すべてのウェブページ(P1 、P2 、・・・PN )を複数のグループ(G1 、G2 、・・・GM )に分類する。すなわち、それぞれのグループに含まれるすべてのウェブページは、前記条件(a)を互いに満たすものである。
【0046】
なお、前記条件(a)に代えて、別の条件を設定することもできる。例えば、
条件(b):ウェブページPi についての関連するウェブページリストLi に含まれるn個以上のウェブページPk が、ウェブページPj についての関連するウェブページリストLj に含まれる(但し、nは1以上の整数)。
という条件を設定してもよいし、前記ウェブページPi 及びウェブページPj 間の関連を定義して、グループに分類することができる条件であれば、他のいかなる条件を設定してもよい。
【0047】
(3)各グループ間の関連度を算出する。
【0048】
次に、前記(1)で作成したウェブページリストに基づいて、前記(2)で作成されたすべてのグループ間の関連度を算出する。ここで、二つのグループ、すなわち、グループGi とグループGj との間の関連度は以下の(a)〜(c)のように求められる。
【0049】
(a)グループGi に含まれるすべてのウェブページのそれぞれについての関連するウェブページリストの中に、グループGj に含まれるウェブページがリストアップされる回数をカウントし、該回数を合計したものをRijとする。
【0050】
(b)グループGj に含まれるすべてのウェブページのそれぞれについての関連するウェブページリストの中に、グループGi に含まれるウェブページがリストアップされる回数をカウントし、該回数を合計したものをRjiとする。
【0051】
(c)前記RijとRjiとの合計値をグループGi とグループGj との間の関連度とする。
【0052】
そして、前記(2)で作成されたすべてのグループ(G1 、G2 、・・・GM )について、前記(a)〜(c)のようにして、それぞれの間の関連度を算出して、図4に示されるように、関連ページデータベース14に格納する。
【0053】
該関連ページデータベース16に格納されるデータには、各グループに含まれるウェブページのURL及び各グループ間の関連度が含まれる。
【0054】
これにより、あるウェブページを指定すると、どのようなグループに前記ウェブページが属しているのか、前記グループには他にどのようなウェブページが含まれているのか、前記グループと関連するグループにはどのようなグループが存在するのか、前記関連するグループにはどのようなウェブページが含まれているのか、前記関連するグループはどの程度の関連度を有しているのか等の事項を容易に把握することができる。
【0055】
図4において、各グループは矩(く)形A〜Fで示され、それぞれのグループに含まれるウェブページのURLが矩形A〜Fの中に示される。すなわち、各グループに含まれるウェブページのURLが、グループ毎に矩形A〜Fの中に群となるように表示されている。この場合、指定されたウェブページを含むグループが、矩形Aとして示されるように、画面の中心付近に位置し、前記グループと関連するグループが、矩形B〜Fとして示されるように、その周辺を取り囲むように配置される。また、指定されたウェブページを含むグループと、前記関連するグループとは直線によって結合され、さらに、該直線にグループ間の関連度を示す指標としての数字が付与される。
【0056】
なお、以上のような関連ページデータベース作成手段13の動作は、前記所定の収集時期毎に、その時期に収集したウェブページに関して行われる。
【0057】
これにより、収集時期毎に、その時期に収集されたウェブページがグループに分類されるとともにグループ間の関連度が算出されたグループのデータベースが作成される。なお、ウェブページをグループに分類する方法は、ウェブページがグループに分類され、該グループ間の関連度が定義されるものであれば、他の方法であってもよい。例えば、ウェブページに含まれる単語の頻度を抽出し、所定の頻度以上で同じ単語が現れるウェブページをグループにまとめる方法を利用してウェブページをグループに分類してもよい。また、関連ページデータベース作成手段13は、単語を指定すると該単語を含むグループを取り出すことができるデータベースも作成する。
【0058】
そして、関連ページデータベース14には、各グループに含まれるウェブページのURLと該URLの数、各グループ間の関連度、及び、単語からグループを引用する索引が、収集時期毎に別々に格納される。
【0059】
また、発展過程データベース作成手段15は、前記関連ページデータベース14にアクセスして、各グループが収集時期によってどのように変化したかを解析し、その変化を様々な尺度で算出するための数値を、発展過程データベース16に格納する。
【0060】
次に、発展過程データベース作成手段15の動作を詳細に説明する。なお、ウェブページの収集時期をt1、 t2 、・・・ tn と表し、ある収集時期tkにおけるグループは、G(tk,1)、G(tk,2)、・・・G(tk,m)と表すものとする。
【0061】
図5は本発明の第1の実施の形態における関連ページデータベースに格納されるデータの形態の例を示す図、図6は本発明の第1の実施の形態における利用者端末に表示されるグループ群の例を示す第1の図、図7は本発明の第1の実施の形態における利用者端末に表示されるグループ群の例を示す第2の図、図8は本発明の第1の実施の形態における利用者端末に表示されるグループ群の例を示す第3の図、図9は本発明の第1の実施の形態における利用者端末に表示されるグループ群の例を示す第4の図である。
【0062】
本実施の形態において、発展過程データベース作成手段15は、収集時期毎にグループに分類されたウェブページを格納する関連ページデータベース14にアクセスし、それぞれのグループを前後の収集時期におけるグループと比較し、グループの時系列的な変化を算出して発展過程データベース16を作成するようになっている。そして、制御手段17は、検索要求を受信すると、前記関連ページデータベース14及び発展過程データベース16にアクセスし、前記検索要求に含まれる検索条件に基づいてグループを検索し、検索されたグループの発展過程を算出し、前記検索要求に含まれる発展の尺度に基づいて前記検索されたグループを並べ替えて出力するようになっている。
【0063】
そして、発展過程データベース作成手段15は、各収集時期tkにおける各グループG(tk,a)について以下の処理を行う。まず、発展過程データベース作成手段15は、関連ページデータベース14にアクセスして、グループG(tk,a)が、tk以外のすべての収集時期におけるすべてのグループとどの程度一致しているかを表す一致度を算出し、該一致度を発展過程データベース16に格納する。
【0064】
図5には、グループと他のグループとの一致度を関連ページデータベース14に格納する方法の1例として表が示されている。該表において、左側欄にはグループが示され、中央欄には該グループと正の一致度を持つグループが示され、右側欄には、左側欄に示されるグループと中央欄に示されるグループとの一致度が示されている。この場合、グループG(tk,a)とグループG(tm,b)との一致度がCである時、(G(tk,a)、G(tm,b)、C)という三つ1組みのデータとして、発展過程データベース16に格納される。なお、一致度としては、例えば、グループG(tk,a)とグループG(tm,b)との間で共有されているURLの数を利用する。また、一つのグループが、図5に示されるように、複数のグループと正の一致度を持つ場合があるので、グループのすべての組み合わせについて一致度が計算され、前記三つ1組みのデータが作成されて発展過程データベース16に格納される。
【0065】
なお、一致度としては、グループG(tk,a)とグループG(tm,b)との間で共有されているURLの数だけでなく、グループG(tk,a)とグループG(tm,b)とに含まれるURLの中で、両方のグループに共通して含まれるURL数の比率を使うこともできる。また、URLが一致しているか否かは、URLを構成する文字列が一致するか否かによって判断するが、URLを構成する文字列が一致していなくても、ウェブページの内容が同一であると判断することができる場合には、URLが一致しているとしてもよい。さらに、一致度は、グループのすべての組み合わせについて計算されなくてもよい。例えば、収集時期が近い範囲にあるグループの組み合わせについてだけ一致度を計算するようにしてもよい。この場合、収集時期tkにおけるグループの場合、収集時期tkに隣接する収集時期(tk-1, tk+1)におけるグループとの一致度だけを計算するようにしてもよい。また、収集時期tkの前後数期間分の収集時期におけるグループとの一致度だけを計算するようにしてもよい。
【0066】
このように、発展過程データベース16には、各収集時期における各グループについて他のグループとの一致度に関するデータが格納されているので、発展過程データベース16にアクセスすることによって、所定の収集時期tkにおけるグループG(tk,a)が他の収集時期におけるどのグループと、どの程度一致しているかを容易に知ることができる。また、前記発展過程データベース16に格納されたデータは、所定のグループが時系列的にどのように変化したか、すなわち、グループの発展過程を判断するのに利用することができる。
【0067】
次に、インターネット21を経由した利用者端末22からのアクセスが入力制御手段18によって受け付けられ、利用者の検索要求が制御手段17に送信される。すると、該制御手段17は、関連ページデータベース14と発展過程データベース16にアクセスして、検索要求において指定されたグループの発展過程を算出する。また、利用者の要求に応じて、グループを様々な発展の尺度によって並べ替えて、出力制御手段19に送信する。
【0068】
ここでは、まず、制御手段17が用いる発展の尺度について説明し、その後、処理の手順を説明する。
【0069】
通常、ウェブページのグループは、時間とともに成長したり、縮小したり、分裂したり、合併したりする。この成長や縮小などの度合いを表すのが発展の尺度である。そして、該発展の尺度を利用すると、例えば、グループを成長度で並べ替えることによって、急激に成長したり、縮小したりしたグループを容易に発見することができる。
【0070】
ここで、所定の収集時期tkにおけるグループG(tk,a)の発展の尺度は、隣接する収集時期においてG(tk,a)と正の一致度を持つグループG(tk-1,b)又はグループG(tk+1,c)との比較によって算出される。なお、グループG(tk-1,b)又はグループG(tk+1,c)を選ぶ際には、グループG(tk,a)と最も一致度の高いグループを選ぶのが望ましいが、正の一致度を持つグループならば、最も一致度の高いグループでなくてもよい。また、発展の尺度は、過去との比較(例えば、グループG(tk,a)とグループG(tk-1,b)との比較)、未来との比較(例えば、グループG(tk,a)とグループG(tk+1,c)との比較)の2通りで計算することができるが、ここでは、過去との比較による発展の尺度の計算方法を説明する。なお、未来との比較による発展の尺度の計算方法は、過去との比較による発展の尺度の計算方法と同様なので、説明を省略する。
【0071】
そして、グループの成長度は、グループがどの程度成長したかを表す指標である。ここで、成長度は、例えば、グループに含まれるURLの数の増加分で表すことができる。所定の収集時期tkにおけるグループG(tk,a)に含まれるURLの数を#G(tk,a)とすると、#G(tk,a)−#G(tk-1,b)、#G(tk,a)/#G(tk-1,b)等を成長度として定義することができる。そして、該成長度は、グループG(tk,a)に含まれるURLの数が増加していれば正の値となり、減少していれば負の値となる。
【0072】
また、グループの新規度は、過去に存在しなかったURLがどの程度前記グループに新しく含まれるようになったかを表す指標である。ここで、新規度は次のように定義することができる。例えば、所定の収集時期tkにおけるグループG(tk,a)に含まれるが、1回前の収集時期tk-1におけるどのグループにも含まれないURLの数Nを新規度とすることができる。また、N/#G(tk,a)という割合を新規度としてもよい。
【0073】
さらに、グループの消滅度は、過去の収集時期におけるグループに含まれていたURLがどの程度消滅したかを表す指標である。なお、URLが他のグループに移動した場合は、消滅したと考えないものとする。ここで、消滅度は次のように定義することができる。例えば、過去の収集時期tk-1におけるグループG(tk-1,b)に含まれるが、現時点での収集時期tkにおけるどのグループにも含まれないURLの数Dを消滅度とすることができる。また、D/#G(tk-1,b)という割合を消滅度としてもよい。
【0074】
そして、グループの分離度は、過去の収集時期におけるグループに含まれていたURLがどの程度他のグループに移動したかを表す指標である。ここで、分離度は次のように定義することができる。例えば、過去の収集時期tk-1におけるグループG(tk-1,b ) に含まれ、かつ、現時点での収集時期tkにおけるグループG(tk,a)以外のグループに含まれるURLの数Sを分離度とすることができる。なお、S/#G(tk-1,b)という割合を分離度としてもよい。
【0075】
また、グループの合併度は、所定の収集時期におけるグループに、他のグループに含まれていたURLがどの程度移動してきたかを表す指標である。ここで、合併度は次のように定義することができる。例えば、所定の収集時期tkにおけるグループG(tk,a)に含まれ、かつ、過去の収集時期tk-1におけるグループG(tk-1,b ) 以外のグループに含まれるURLの数Mを合併度とすることができる。また、M/#G(tk,a)という割合を合併度としてもよい。
【0076】
さらに、グループの安定度は、グループがどの程度安定していたか、すなわち、変化がどの程度少なかったかを表す指標である。ここで、安定度は次のように定義することができる。例えば、所定の収集時期tkにおけるグループG(tk,a)と、過去の収集時期tk-1におけるグループG(tk-1,b ) とに共通して含まれるURLの数をCとすると、C/#G(tk-1,b)を安定度として定義することができる。また、C/#G(tk,a)を安定度としてもよいし、C/#G(tk-1,b)とC/#G(tk,a)との平均値を安定度としてもよい。さらに、C/(#G(tk-1,b)+#G(tk,a)−C)を安定度とすることもできる。
【0077】
続いて、制御手段17及び出力制御手段19が実行する処理の手順を説明する。本実施の形態において、制御手段17は、次の(1)〜(5)に示されるように利用者の要求を処理する。
【0078】
(1)まず、利用者が検索要求に含まれる検索条件として収集時期tk及びURLを指定すると、指定された収集時期tkにおけるグループの中から指定されたURLを含むグループが検索され、該グループの発展過程が提示される場合の動作について説明する。この場合、前記制御手段17及び出力制御手段19は次の(ア)〜(ウ)に示されるように動作する。
【0079】
(ア) まず、制御手段17は、関連ページデータベース14にアクセスして、指定されたURLを含むグループG(tk,a)を検索する。
【0080】
(イ) 次に、制御手段17は、発展過程データベース16にアクセスして、前記指定された収集時期tkよりも一期前の収集時期tk-1におけるグループの中からグループG(tk,a)と正の一致度を持つグループのすべてをグループ群として取得する。同様に、前記指定された収集時期tkよりも一期後の収集時期tk+1におけるグループの中から、グループG(tk,a) と正の一致度を持つグループのすべてをグループ群として取得する。そして、取得された収集時期tk-1におけるグループ群及び収集時期tk+1におけるグループ群は、出力制御手段19に送信される。
【0081】
なお、制御手段17は、前記指定された収集時期tkよりも二期前の収集時期tk-2及び二期後の収集時期tk+2におけるグループの中から、前記収集時期tk-1におけるグループ群及び収集時期tk+1におけるグループ群と、それぞれ正の一致度を持つグループのすべてをグループ群として取得してもよい。さらに、前記指定された収集時期tkよりも三期前の収集時期tk-3及び三期後の収集時期tk+3におけるグループの中から、前記収集時期tk-2におけるグループ群及び収集時期tk+2におけるグループ群と、それぞれ正の一致度を持つグループのすべてをグループ群として取得してもよい。
【0082】
このようにして、対象となる収集時期を一期ずつ広げていくことにより、制御手段17は、すべての収集時期におけるグループの中から正の一致度を持つグループのすべてをグループ群として順次取得することができる。なお、対象となる収集時期の範囲は、利用者が適宜設定することができるようにしてもよい。これにより、利用者は所望の期間に渡るグループG(tk,a)の発展過程を把握することができる。
【0083】
(ウ) そして、出力制御手段19は、受信したグループ群を閲覧可能な状態に編集し、インターネット21を経由して、前記利用者端末22に送信する。すると、該利用者端末22の表示手段には、前記グループ群が図6に示されるように表示される。この場合、各グループはURLの集まりとして表示され、利用者が指定したグループが中央付近に表示され、他のグループは対応する収集時期に従って左から右へ時系列的に並べて表示される。
【0084】
なお、各収集時期において、前記グループは、一致度の高い順に上から下へ並べられるようにするのが望ましいが、他の順序で並べても良いし、利用者が並べ替えられるようにしても良い。また、低い一致度をもつグループは表示しなくてもよい。そして、正の一致度を持つグループの間には対応関係が表示される。
【0085】
これにより、利用者は自分の興味のあるウェブページのURLを指定すると、該ウェブページが含まれるグループがどのように発展してきたかを容易に把握することができる。
【0086】
(2)続いて、利用者が検索要求に含まれる検索条件として収集時期tkを指定すると、指定された収集時期tkにおけるすべてのグループの発展過程が提示される場合の動作について説明する。この場合、前記制御手段17及び出力制御手段19は次の(ア)〜(ウ)に示されるように動作する。
【0087】
(ア) まず、制御手段17は、関連ページデータベース14にアクセスして、指定された収集時期tkにおけるすべてのグループを取得する。
【0088】
(イ) 次に、制御手段17は、取得したグループのそれぞれに対し、前記(1)における(イ)と同様に、収集時期tkの前後の収集時期におけるグループの中から、正の一致度を持つグループのすべてをグループ群として取得し、出力制御手段19に送信する。
【0089】
(ウ) そして、出力制御手段19は、受信したグループ群を閲覧可能な状態に編集し、インターネット21を経由して、前記利用者端末22に送信する。すると、該利用者端末22の表示手段には、前記グループ群が、図7に示されるように、表示される。この場合、図6に示されるように表示されたような関係のグループ群が、縦方向に複数個並べられていることが分かる。
【0090】
また、前記グループ群は、図8に示されるように表示されてもよい。この場合、縦方向に時間の経過が示されるようになっている。
【0091】
なお、正の一致度を持つすべてのグループを表示すると、画面スペースを非常に消費するので、最大の一致度を持つグループのみを表示するようにしてもよい。また、一致度が上位であるいくつかのグループのみを表示するようにしてもよい。この場合、グループ群は図9に示されるように表示される。これにより、利用者は指定した収集時期tkを中心にして、すべてのグループがどのように発展してきたかを把握することができる。
【0092】
(3)続いて、利用者が検索要求に含まれる検索条件として収集時期tk及び検索語を指定すると、指定された収集時期tkにおけるグループの中から指定された検索語を含む情報が掲載されたウェブページのグループが検索され、該グループの発展過程が提示される場合の動作について説明する。この場合、前記制御手段17及び出力制御手段19は次の(ア)〜(ウ)に示されるように動作する。
【0093】
(ア) まず、制御手段17は、関連ページデータベース14にアクセスして、指定された検索語を含む情報が掲載されたウェブページを含むグループを検索する。
【0094】
(イ) 次に、制御手段17は、取得したグループのそれぞれに対し、前記(1)における(イ)と同様に、収集時期tkの前後の収集時期におけるグループの中から、正の一致度を持つグループのすべてをグループ群として取得し、出力制御手段19に送信する。
【0095】
(ウ) そして、出力制御手段19は、受信したグループ群を閲覧可能な状態に編集し、インターネット21を経由して、前記利用者端末22に送信する。すると、該利用者端末22の表示手段には、前記グループ群が、図7又は図8に示されるように、表示される。この場合、図6に示されるように表示されたような関係のグループ群が、縦方向に複数個並べられていることが分かる。
【0096】
なお、正の一致度を持つすべてのグループを表示すると、画面スペースを非常に消費するので、最大の一致度を持つグループのみを表示するようにしてもよい。また、一致度が上位であるいくつかのグループのみを表示するようにしてもよい。この場合、グループ群は図9に示されるように表示される。
【0097】
これにより、利用者は自分の興味のあるウェブページの検索語を指定すると、該検索語を含む情報が掲載されたウェブページを含むグループがどのように発展してきたかを把握することができる。
【0098】
(4)続いて、利用者が、前記(1)〜(3)において説明した動作によって利用者端末22の表示手段に表示されたグループ群の中から所定のグループを選択して指定すると、指定されたグループに関連するグループの発展過程が提示される場合の動作について説明する。この場合、前記制御手段17及び出力制御手段19は次の(ア)〜(ウ)に示されるように動作する。
【0099】
(ア) まず、制御手段17は、関連ページデータベース14にアクセスして、指定されたグループに関連するすべてのグループを取得する。
【0100】
(イ) 次に、制御手段17は、取得したグループのそれぞれに対し、前記(1)における(イ)と同様に、収集時期tkの前後の収集時期におけるグループの中から、正の一致度を持つグループのすべてをグループ群として取得し、出力制御手段19に送信する。
【0101】
(ウ) そして、出力制御手段19は、受信したグループ群を閲覧可能な状態に編集し、インターネット21を経由して、前記利用者端末22に送信する。すると、該利用者端末22の表示手段には、前記グループ群が、図7又は図8に示されるように、表示される。この場合、図6に示されるように表示されたような関係のグループ群が、縦方向に複数個並べられていることが分かる。
【0102】
なお、正の一致度を持つすべてのグループを表示すると、画面スペースを非常に消費するので、最大の一致度を持つグループのみを表示するようにしてもよい。また、一致度が上位であるいくつかのグループのみを表示するようにしてもよい。この場合は図9に示されるように表示される。
【0103】
これにより、利用者は自分の興味のあるウェブページのグループに関連するグループがどのように発展してきたかを把握することができる。
【0104】
(5)続いて、前記(1)〜(4)において説明した動作によって得られたグループ群の中のグループを、利用者が指定した検索要求に含まれる発展の尺度に基づいて並べ替える場合の動作について説明する。この場合、前記制御手段17及び出力制御手段19は次の(ア)〜(ウ)に示されるように動作する。
【0105】
(ア) まず、制御手段17は、収集時期tkの前後における所定範囲の収集時期(例えば、(tk-1,tk) 、 (tk,tk+1))におけるグループのそれぞれについて、利用 者によって指定された発展の尺度を計算する。そして、制御手段17は、算出された発展の尺度の統計的値を取って、該当するグループについての発展の尺度とする。この場合、前記統計的値として、発展の尺度の平均値、発展の尺度の和等を使用することができる。
【0106】
(イ) 次に、制御手段17は、算出されたグループについての発展の尺度に基づいてグループを並べ替え、出力制御手段19に送信する。
【0107】
(ウ) そして、出力制御手段19は、受信したグループ群を閲覧可能な状態に編集し、インターネット21を経由して、前記利用者端末22に送信する。すると、該利用者端末22の表示手段には、前記グループ群が、図7又は図8に示されるように、表示される。この場合、図6に示されるように表示されたような関係のグループ群が、縦方向に複数個並べられていることが分かる。
【0108】
なお、正の一致度を持つすべてのグループを表示すると、画面スペースを非常に消費するので、最大の一致度を持つグループのみを表示するようにしてもよい。また、一致度が上位であるいくつかのグループのみを表示するようにしてもよい。この場合は図9に示されるように表示される。
【0109】
これにより、利用者は自分の興味のある尺度でグループを並べ替えて、該グループの発展を把握することができる。例えば、最も急速に成長したグループを順番に見ることができる。
【0110】
なお、グループ群を図6〜9に示されるように利用者端末22の表示手段に表示する際には、表示されたウェブページのタイトルにハイパーリンクを形成し、利用者端末22の表示手段に表示されたタイトルにポインタを当ててクリックすると該当するウェブページにアクセスできるようにすることが望ましい。
【0111】
また、図6〜9に示された表示例において、画面の上部にグループの収集時期として、tk-1、 tk 、及び、tk+1が表示されているが、前記収集時期を日付によって表すこともできる。例えば、「20××年○○月」など収集時期を含む月を表示しても良いし、「20××年△△月○○日〜△△月××日」と実際に収集した期間を表示しても良い。
【0112】
さらに、図6〜9に示された表示例においては、利用者の指定した収集時期の前後一期ずつにおけるグループしか表示されていないが、より広い範囲の収集時期が指定された場合には、表示画面を上下又は左右に広げて表示することができる。なお、利用者端末22の表示手段が小さくて、幅の狭い画面しか表示することができない場合には、一部のみを表示して、利用者がカーソルキーやスクロールバーで表示画面を移動させながら閲覧できるようにすることが望ましい。
【0113】
なお、図6〜9に示された表示例においては、各グループに含まれるURLを矩形で囲むことで、前記グループを表示しているが、例えば、各グループに含まれるURLを丸で囲んだりしてもよいし、他の方法によって表示しても良い。また、URLはウェブページのタイトルに変換して表示することが望ましいが、URLのままでも良いし、タイトルとURLを併記しても良い。
【0114】
さらに、前記ウェブページの一部がそれぞれのタイトルの下に表示されるようにしても良い。また、各URLのタイトルや内容に頻繁に現れる語を、グループを表す矩形の上部に表示することで、グループの見出しを付与するようにしても良い。
【0115】
なお、図6〜9に示された表示例においては、正の一致度を持つグループ同士は、直線で結ばれているが、該直線のそれぞれに、一致度を表す指標を付加しても良い。例えば、一致度を表す数値を直線に付与しても良いし、前記直線の太さを一致度に対応させて変化させも良いし、前記直線の色を一致度に対応させて変化させても良い。また、前記直線に代えて、曲線や折れ線を使用することもできる。
【0116】
このように、本実施の形態においては、時系列的に収集されたウェブページの中から、同一の分野の情報が掲載されるウェブページを同一のグループに分類するとともに、時系列的なグループ間の関連度の変化を算出してデータベースを自動的に作成することによって、利用者が興味を有する分野の情報を掲載するウェブページの時系列的な変化を把握することができるようになっている。そのため、利用者は互いに関連するウェブページから成るグループの変化を追跡することができる。
【0117】
例えば、BSE(Bovine Spongiform Encephalopathy:いわゆる、狂牛病)はいつごろ問題となり、それに関連するホームページが過去どのぐらい作られてきたか、というような事柄を調べることが可能となる。この場合、「従来の技術」において説明した本発明の発明者が既に提案した情報検索システムに、本実施の形態におけるウェブページグループ発展過程提示システム10を組み合わせて、機能を拡張するために使用することができる。
【0118】
また、本実施の形態におけるウェブページグループ発展過程提示システム10は、市場調査のための道具としても使用することができる。例えば、急激に成長しているウェブページのグループは社会での流行を表すことがある。そこで、ある分野において新しく発生したウェブページのグループや急成長したウェブページのグループを発見し調査することで、どういう商品やサービスが求められているのかを判断する手段となる。
【0119】
さらに、ある商品に関するウェブページ(例えば、商品のユーザが使用感を述べているウェブページ等)のグループを発見し、該グループの発展を調査することで、前記商品の評判がどのように変遷しているかを調べることもできる。また、競合商品に関するグループ等を発見し調査することも可能である。これらの情報は商品の改良点を見出したり、商品の生産を止める時期を判断するのに有用であり、コンサルティングの道具としても利用可能である。
【0120】
さらに、本実施の形態におけるウェブページグループ発展過程提示システム10は、商品のみならず、会社や組織などの重要度を調査するのにも使用することができる。例えば、ある分野の会社に関するウェブページのグループが急速に成長しているのを発見できれば、その分野が実社会においても急速に発展していると推測することができる。そのため、投資などの対象とする分野や会社を判断する際の材料として利用することができる。
【0121】
また、利用者がキーワードなどを用いて登録しておいた分野について、ウェブページのグループに急激な変化があったり、新しいグループの出現があった際に、自動的に前記利用者に対して電子メール等によって報告を行うというサービスに利用することも可能である。
【0122】
次に、本発明の第2の実施の形態について説明する。なお、前記第1の実施の形態と同じ構造を有するものについては、同じ符号を扶養することにより、その説明を省略する。
【0123】
図10は本発明の第2の実施の形態におけるウェブページグループ発展過程提示システムの概念図である。
【0124】
本実施の形態において、ウェブページグループ発展過程提示システム20は、ページ収集手段11、収集ページデータベース12、関連ページデータベース作成手段13、関連ページデータベース14、制御手段17、入力制御手段18及び出力制御手段19を有するが、前記第1の実施の形態における発展過程データベース作成手段15及び発展過程データベース16を有していない。この場合、制御手段17は、関連ページデータベース14にアクセスして、利用者の検索要求に応じて、必要な分だけの発展過程の算出を行うようになっている。ここでは、前記第1の実施の形態と同様の動作については説明を省略し、相違する動作についてのみ説明する。
【0125】
まず、インターネット21を経由した利用者端末22からのアクセスが入力制御手段18によって受け付けられ、利用者の検索要求が制御手段17に送信される。すると、該制御手段17は、関連ページデータベース14にアクセスして、検索要求において指定されたグループの発展過程を算出する。また、利用者の要求に応じて、グループを様々な発展の尺度によって並べ替えて、出力制御手段19に送信する。ここで、グループの様々な発展の尺度は、前記第1の実施の形態と同様にして算出される。
【0126】
続いて、制御手段17及び出力制御手段19が実行する処理の手順を説明するが、本実施の形態において、制御手段17は、前記第1の実施の形態において説明した(1)〜(5)に示される動作とほぼ同様の動作である(1’)〜(5’)の動作を行い、利用者の要求を処理する。ここでは、前記第1の実施の形態において説明した(1)に示される動作に対応する(1’)の動作について説明する。
【0127】
(1’)まず、利用者が検索要求に含まれる検索条件として収集時期tk及びURLを指定すると、指定された収集時期tkにおけるグループの中から指定されたURLを含むグループが検索され、該グループの発展過程が提示される場合の動作について説明する。この場合、前記制御手段17及び出力制御手段19は次の(ア)〜(ウ)に示されるように動作する。
【0128】
(ア) まず、制御手段17は、関連ページデータベース14にアクセスして、指定されたURLを含むグループG(tk,a)を検索する。
【0129】
(イ) 次に、制御手段17は、関連ページデータベース14にアクセスして、前記指定された収集時期tkよりも一期前の収集時期tk-1における各グループとグループG(tk,a)との一致度を算出し、収集時期tk-1におけるグループの中からグループG(tk,a)と正の一致度を持つグループのすべてをグループ群として取得する。同様に、前記指定された収集時期tkよりも一期後の収集時期tk+1におけるグループの中から、グループG(tk,a) と正の一致度を持つグループのすべてをグループ群として取得する。そして、取得された収集時期tk-1におけるグループ群及び収集時期tk+1におけるグループ群は、出力制御手段19に送信される。
【0130】
なお、制御手段17は、前記第1の実施の形態と同様に、対象となる収集時期の範囲を広げることができる。また、対象となる収集時期の範囲は、利用者が適宜設定することができるようにしてもよい。
【0131】
(ウ) そして、出力制御手段19は、受信したグループ群を閲覧可能な状態に編集し、インターネット21を経由して、前記利用者端末22に送信する。なお、前記グループ群の表示の方法は、前記第1の実施の形態と同様である。
【0132】
このように、本実施の形態における制御手段17は、関連ページデータベース14にアクセスして、前記指定された収集時期tkよりも一期前の収集時期tk-1における各グループとグループG(tk,a)との一致度を算出するようになっている。そのため、前記第1の実施の形態における発展過程データベース16にアクセスすることなく、収集時期tk-1におけるグループの中からグループG(tk,a)と正の一致度を持つグループのすべてをグループ群として取得することができる。
【0133】
なお、前記(1’)に示される動作は、(イ)の点のみが前記第1の実施の形態において説明した(1)に示される動作と相違する。そして、制御手段17は、続いて、前記第1の実施の形態において説明した(2)〜(5)に示される動作とほぼ同様の動作である(2’)〜(5’)の動作を行う。しかしながら、(2’)〜(4’)の動作においては、(1’)と同様に、(イ)の点のみが相違し、他の点については前記第1の実施の形態において説明した(2)〜(4)に示される動作と同様である。しかも、(2’)〜(4’)における(イ)の点の動作は、前記(1’)と同様である。そのため、(2’)〜(4’)の動作の説明は省略する。また、(5’)の動作は、前記第1の実施の形態において説明した(5)に示される動作と同様なので、説明を省略する。
【0134】
このように、本実施の形態において、ウェブページグループ発展過程提示システム20は、前記第1の実施の形態と同様の効果を奏することに加え、発展過程データベース作成手段15及び発展過程データベース16を有していないので、構成を簡素化することができる。
【0135】
なお、本発明は前記実施の形態に限定されるものではなく、本発明の趣旨に基づいて種々変形させることが可能であり、それらを本発明の範囲から排除するものではない。
【0136】
【発明の効果】
以上詳細に説明したように、本発明によれば、ウェブページグループ発展過程提示システムにおいては、関連するウェブページから成るグループの発展過程に関する検索要求を受信して制御手段に送信する入力制御手段と、前記検索要求を受信すると、前記グループをウェブページの収集時期毎に格納する関連ページデータベースにアクセスし、前記検索要求に含まれる検索条件に基づいてグループを検索し、検索されたグループを前後の収集時期におけるグループと比較して発展過程を算出し、前記検索要求において指定された発展の尺度に基づいて前記検索されたグループを並べ替えて出力制御手段に送信する制御手段と、受信したグループを閲覧可能な状態に編集して出力する出力制御手段とを有する。
【0137】
この場合、利用者が興味を有する分野の情報を掲載するウェブページの時系列的な変化を把握することができる。
【0138】
本発明の他のウェブページグループ発展過程提示システムにおいては、関連するウェブページから成るグループの発展過程に関する検索要求を受信して制御手段に送信する入力制御手段と、前記グループをウェブページの収集時期毎に格納する関連ページデータベースにアクセスし、それぞれのグループを前後の収集時期におけるグループと比較し、グループの時系列的な変化を算出して発展過程データベースを作成する発展過程データベース作成手段と、前記検索要求を受信すると、前記関連ページデータベース及び発展過程データベースにアクセスし、前記検索要求に含まれる検索条件に基づいてグループを検索し、検索されたグループの発展過程を算出し、前記検索要求において指定された発展の尺度に基づいて前記検索されたグループを並べ替えて出力制御手段に送信する制御手段と、受信したグループを閲覧可能な状態に編集して出力する出力制御手段とを有する。
【0139】
この場合、発展過程データベースにもアクセスするので、利用者が興味を有する分野の情報を掲載するウェブページの時系列的な変化を短時間で把握することができる。
【0140】
本発明の更に他のウェブページグループ発展過程提示システムにおいては、定期的にウェブページを収集して収集時期毎に格納するページ収集手段と、ウェブページ間に張られたハイパーリンクの相関関係に基づいて、ウェブぺ−ジをグループに分類するとともに、グループ間の関連度を算出して、該グループ間の関連度を収集時期毎に格納する関連ページデータベースを作成する関連ページデータベース作成手段と、前記グループの発展過程に関する検索要求を受信して制御手段に送信する入力制御手段と、前記グループをウェブページの収集時期毎に格納する関連ページデータベースにアクセスし、それぞれのグループを前後の収集時期におけるグループと比較し、グループの時系列的な変化を算出して発展過程データベースを作成する発展過程データベース作成手段と、前記検索要求を受信すると、前記関連ページデータベース及び発展過程データベースにアクセスし、前記検索要求に含まれる検索条件に基づいてグループを検索し、検索されたグループの発展過程を算出し、前記検索要求において指定された発展の尺度に基づいて前記検索されたグループを並べ替えて出力制御手段に送信する制御手段と、受信したグループを閲覧可能な状態に編集して出力する出力制御手段とを有する。
【0141】
この場合、利用者が興味を有する分野の情報を掲載するウェブページの時系列的な変化を把握することができる。さらに、人手によることなく、定期的にウェブページを収集し、所定のアルゴリズムを使用して、ハイパーリンクを解析し、ウェブページリストを作成し、ウェブページをグループに分類し、グループ間の関連度を算出するので、グループ間の関連度を収集時期毎に格納する関連ページデータベースを短時間で、容易に、正確に、かつ、低コストで作成することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態におけるウェブページグループ発展過程提示システムの概念図である。
【図2】本発明の第1の実施の形態におけるハイパーリンクデータベースを作成するための構成を示す図である。
【図3】本発明の第1の実施の形態におけるウェブページ間のハイパーリンクの張り方の1例を示す図である。
【図4】本発明の第1の実施の形態における関連ページデータベースに格納されるデータの形態の1例を示す図である。
【図5】本発明の第1の実施の形態における関連ページデータベースに格納されるデータの形態の例を示す図である。
【図6】本発明の第1の実施の形態における利用者端末に表示されるグループ群の例を示す第1の図である。
【図7】本発明の第1の実施の形態における利用者端末に表示されるグループ群の例を示す第2の図である。
【図8】本発明の第1の実施の形態における利用者端末に表示されるグループ群の例を示す第3の図である。
【図9】本発明の第1の実施の形態における利用者端末に表示されるグループ群の例を示す第4の図である。
【図10】本発明の第2の実施の形態におけるウェブページグループ発展過程提示システムの概念図である。
【符号の説明】
10 ウェブページグループ発展過程提示システム
11 ページ収集手段
13 関連ページデータベース作成手段
14 関連ページデータベース
15 発展過程データベース作成手段
16 発展過程データベース
17 制御手段
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a web page group development process presentation system.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, a large number of web pages such as homepages and information providing pages have been established on networks such as the Internet, and many webpage users are connected to the Internet such as personal computers and mobile phones. The information can be freely accessed (visited), and various types of information can be collected in a short time and easily. In particular, recently, with the spread of terminal devices, speeding up of communication lines, web page content, enhancement of provided information, etc., the convenience of web pages has increased and search services like portal sites have been provided. The number and functions of websites are enriched, and the number of users, the number of times, the time, etc. for accessing web pages and obtaining desired information have increased significantly.
[0003]
In this case, in order to make it easy to obtain the information required by the user, a web page including the necessary information is selected from the list of web pages including the search term given by the user. An information search system having a related page search function that outputs a list of web pages on which information related to information posted on the web page is output is provided (www.google.com). reference). There are also portal sites that provide various web pages classified by type and allow users to browse related web pages one after another (see www.yahoo.com). Furthermore, the inventor of the present invention classifies web pages on which information in the same field as the information posted on the web page designated by the user is classified into the same group, and determines the degree of association between a plurality of groups. By calculating and automatically creating a database, it is possible to browse a group of web pages that publish information in a field that the user is interested in, and to efficiently browse the web pages of the group related to the group An information search system that can be browsed has been proposed (see Japanese Patent Application Nos. 2001-108581 and 2001-108675).
[0004]
[Problems to be solved by the invention]
However, many web pages are created and deleted every day on the network. There are also many web pages whose contents are frequently rewritten. Therefore, when the user wants to know the contents of the web page at a certain point in the past, the conventional system cannot cope with it.
[0005]
In other words, since the conventional system searches based on the contents of the web page that can be accessed at the present time, the past contents of the web page or the contents that existed in the past but have been deleted at the present time are deleted. You can't know what web page you have. To solve this problem, an information search system that collects a wide range of web pages on a regular basis and presents the history of the specified web page along with the collected time is provided (http: // See www.archive.org). However, in the information retrieval system, only the change of the designated web page is presented, so how many web pages related to the web page exist on the network, and how the number changes with time. I can't know.
[0006]
The present invention solves the above-mentioned conventional problems, and upon receiving a search request related to the development process of a group of related web pages, accesses the related page database storing the group for each web page collection time, A group is searched based on a search condition included in the search request, a development process is calculated by comparing the searched group with a group at the previous and subsequent collection times, and based on a development scale specified in the search request A web page that can grasp time-series changes of a web page on which information on a field in which a user is interested is arranged by rearranging the searched groups, editing them into a viewable state, and outputting them. The purpose is to provide a group development process presentation system.
[0007]
[Means for Solving the Problems]
Therefore, in the web page group development process presentation system of the present invention, when receiving the search request for receiving the search request regarding the development process of the group consisting of related web pages and transmitting to the control means, and receiving the search request, Access the related page database that stores the group for each collection time of the web page, search for the group based on the search condition included in the search request, and compare the searched group with the group at the previous and subsequent collection time Control means for calculating an evolution process and rearranging and outputting the retrieved groups based on a development scale designated in the search request.
[0008]
In another web page group development process presentation system of the present invention, input control means for receiving a search request related to the development process of a group of related web pages and transmitting it to the control means; A development process database creating means for accessing a related page database stored for each, comparing each group with a group at the previous and subsequent collection times, and calculating a time series change of the group to create a development process database; When a search request is received, the related page database and the development process database are accessed, a group is searched based on a search condition included in the search request, a development process of the searched group is calculated, and specified in the search request The retrieved glue based on the developed development measure. Rearranged by a control means for outputting.
[0009]
In yet another web page group development process presentation system according to the present invention, the web page group is periodically collected and stored at each collection time, and based on the correlation between hyperlinks between the web pages. A related page database creating means for classifying web pages into groups, calculating a degree of association between groups, and creating a related page database for storing the degree of association between the groups for each collection period; Input control means for receiving a search request relating to the development process of the group and transmitting it to the control means, and a related page database for storing the group at every collection time of the web page. And create a development process database by calculating time-series changes of groups Upon receiving the search process database creation means and the search request, the related page database and the development process database are accessed, a group is searched based on the search condition included in the search request, and the development process of the searched group is determined. Control means for calculating, rearranging the searched groups based on the scale of development specified in the search request and transmitting them to the output control means, and output for editing the received groups so that they can be viewed Control means.
[0010]
In the web page group development process presentation program of the present invention, in order to present the development process of the web page group, the computer receives the search request regarding the development process of the group consisting of the related web pages and transmits it to the control means. Upon receiving the control means and the search request, the group is accessed by accessing a related page database that stores the group for each web page collection period, and the group is searched based on the search condition included in the search request. A development process is calculated by comparing the group with the group at the previous and subsequent collection times, and the group is made to function as control means for rearranging and outputting the searched group based on the scale of development designated in the search request.
[0011]
In another web page group development process presentation program of the present invention, a computer receives a search request related to the development process of a group of related web pages and sends it to the control means to present the development process of the web page group. Input control means to access the related page database that stores the group at each web page collection time, compare each group with the group at the previous and next collection time, calculate the time series change of the group and develop An evolution process database creation means for creating a process database, and upon receiving the search request, the related page database and the evolution process database are accessed, and a group is searched based on a search condition included in the search request. Calculate the development process of the group It sorts the retrieved group based on a measure of the specified developments in the search request to function as a control means for outputting.
[0012]
In still another web page group development process presentation program of the present invention, a computer for periodically presenting the development process of a web page group, a page collection means for periodically collecting web pages and storing them at each collection time, a web A web page is classified into groups based on the correlation of hyperlinks between pages, and the degree of association between groups is calculated, and the degree of association between the groups is stored for each collection period. A related page database creating means for creating a page database, an input control means for receiving a search request relating to the development process of the group and transmitting it to the control means, and a related page database for storing the group at every web page collection time. Compare each group with previous and subsequent collection groups An evolution process database creating means for calculating an evolution process database by calculating a time series change of the search process, receiving the search request, accessing the related page database and the evolution process database, and satisfying a search condition included in the search request A control unit that searches for a group based on the group, calculates a development process of the searched group, rearranges the searched group based on a scale of development specified in the search request, and transmits the group to the output control unit; Then, the received group is made to function as output control means for editing and outputting in a viewable state.
[0013]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[0014]
FIG. 1 is a conceptual diagram of a web page group development process presentation system according to the first embodiment of the present invention.
[0015]
In the figure, 21 is the Internet, 22 is communicably connected to the Internet 21 directly through a wired or wireless public communication network, a dedicated communication network, or indirectly through another network. It is a user terminal. The user terminal 22 is, for example, a personal computer, an electronic notebook, a mobile phone, a PDA (Personal Digital Assistant: personal digital assistant), a video phone, a game machine, or the like. Any device can be used as long as it is capable of bidirectional information communication.
[0016]
The Internet 21 has a number of WWW (World Wide Web) pages, that is, web pages, not shown. The web page displays information such as virtual stores, electronic catalogs for EC (electronic commerce), entertainment information, traffic information, science and technology information, company information, financial transaction information, academic information, etc. Information providing sites, portal sites providing site search services, ASP sites providing various application services such as music and software distribution, home pages of individuals, companies, organizations, governments, and the like. The web page is generally established in a computer such as a personal computer or server having a computing means, a storage means, a communication interface, an input / output means, etc., and a large number of users can access the Internet 21 from the user terminal 22. Can be accessed via.
[0017]
The web page may be managed by any person such as an individual, a company, or an organization. In addition, access to the web page may be free, paid, or partially paid, and can be accessed only by registered persons or those who have signed a contract, even if it can be accessed by an unspecified number of people. It may be anything.
[0018]
Furthermore, even if the web page is interactive (interactive) that can also accept information from the user terminal 22, all or part of the posted information can be downloaded for free or for a fee. It may be possible.
[0019]
A web page group development process presentation system 10 is communicably connected to the Internet 21 via a public communication line network or a dedicated communication line network. The calculation means, storage means, communication interface, input / output means Etc. are built in a computer having The computer may exist alone or may be a distributed server in which a plurality of computers are organically coupled. Furthermore, another system may be constructed in the computer.
[0020]
The web page group development process presentation system 10 is related to page collection means 11 for periodically collecting web pages, a collection page database 12 in which collected web pages are stored for each collection time, and for each collection time. Related page database creation means 13 for creating a database on web page groups and the degree of association between groups, and a related page database 14 which is a database for storing the degree of association between groups of related web pages for each collection period; Development process database creating means 15 for creating a database relating to the change of the group according to the collection time, development process database 16 which is a database relating to the change of the group according to the collection time, the related page database 14 and the development process database. 16, the control means 17 for obtaining necessary information by accessing 16, the input control means 18 for accepting external access to the web page group development process presentation system 10, and the outside of the web page group development process presentation system 10 Output control means 19 for transmitting information to
[0021]
Next, the operation of the web page group development process presentation system configured as described above will be described.
[0022]
FIG. 2 is a diagram showing a configuration for creating a hyperlink database according to the first embodiment of the present invention, and FIG. 3 is a diagram showing a method for creating hyperlinks between web pages according to the first embodiment of the present invention. FIG. 4 is a diagram showing an example, and FIG. 4 is a diagram showing an example of the form of data stored in the related page database according to the first embodiment of the present invention.
[0023]
First, the page collection means 11 automatically accesses a web page established on the Internet 21 via the Internet 21, and obtains the URL (Uniform Resource Locator) of the web page, information posted, and the like. Copy, that is, collect web pages. The collected web pages are stored in the collected page database 12. Here, the page collection unit 11 periodically collects web pages at predetermined collection times. The cycle of the predetermined collection time may be, for example, several days, one week, one month, or one year. Further, the cycle may be a shorter cycle or a longer cycle.
[0024]
The page collection means 11 may collect all web pages collected over a wide range, or may collect web pages only within a certain range. Further, for example, web pages may be collected conditionally, such as collecting only web pages including a specified keyword. The page collection means 11 collects the collected web pages for each collection time and stores them separately in the collection page database 12.
[0025]
The collection page database 12 stores the web pages collected by the page collection unit 11 for each collection time, and when the collection time and URL are specified, the web page corresponding to the collection time and URL can be taken out. It can be done. Here, the number of web pages stored in the collection page database 12 may be any number. The web pages stored in the collection page database 12 may be collected manually.
[0026]
The related page database creation means 13 classifies the web pages collected at the predetermined collection time into groups, calculates the degree of relevance between groups, and creates a database of groups. The method for classifying the web pages into groups is, for example, an information search system already proposed by the inventor of the present invention described in “Prior Art” (see Japanese Patent Application Nos. 2001-108581 and 2001-108675). The same method may be used.
[0027]
In this case, the web page group development process presentation system 10 includes a hyperlink database creating means 13a and a hyperlink database 14a as shown in FIG. 2 in addition to the configuration as shown in FIG. The hyperlink database creating means 13a accesses the collected page database 12, extracts hyperlinks stretched between stored web pages, and stores them in the hyperlink database 14a. Here, the hyperlink is a mechanism for jumping to a file or character string designated by the anchor tag when a character string sandwiched between anchor tags in HTML (Hyper Text Markup Language) is clicked. As a result, the hyperlink database 14a stores information about which web page the hyperlink is extended from which web page, that is, information on the link source web page and the link destination web page.
[0028]
Then, the related page database creation unit 13 accesses the hyperlink database 14a and analyzes how hyperlinks are provided between web pages. For each predetermined collection period, the web pages collected at that period are classified into a number of groups, the degree of association between the groups is calculated, and stored in the related page database 14.
[0029]
Here, the operation of the related page database creation means 13 will be described in detail.
[0030]
(1) Create a related web page list for each web page. For convenience of explanation, a case where the web page list is created using a simple algorithm will be described.
[0031]
First, the web page (P 1 , P 2 ・ ・ ・ ・ ・ ・ P N ) Create a list of web pages related to each. Here, a certain web page P k Related web page list L k Is created as follows (a) to (c).
[0032]
(A) Access to the hyperlink database 14a and the web page P k A web page that has a hyperlink to it, that is, web page P k The link source web page (B 1 , B 2 ・ ・ ・ ・ ・ ・ B M ) List.
[0033]
(B) Then, the hyperlink database 14a is accessed and the web page (B 1 , B 2 ・ ・ ・ ・ ・ ・ B M ) To get a list of web pages linked to all hyperlinks. Subsequently, the number of times each web page is listed in the list is counted.
[0034]
In the case of the example shown in FIG. k The link source web page of the hyperlink that links to is B 1 And B 2 It is. And web page B 1 And B 2 In the list of web pages linked by hyperlinks with the link source, the web page P k , P m And P n Are listed. The number of times listed is the web page P k Twice, web page P m Twice and web page P n Is once.
[0035]
(C) Extract several (for example, top ten) web pages from the top in the descending order of the number of times listed, and the web page P k Related web page list about L k Create
[0036]
In the case of the example shown in FIG. 3, for example, when the top two web pages are extracted, the web page P k And P m A list in which is listed is created.
[0037]
Then, all web pages (P 1 , P 2 ・ ・ ・ ・ ・ ・ P N ), A web page list related to each is created as in (a) to (c) above.
[0038]
When creating a related web page list for each web page, other algorithms such as an algorithm called Companion (Jeffrey Dean and Monika R. Henzinger. Finding related pages in the World Wide Web. Proceedngs of the 8th International World Wide Web Conference, 1999.
[0039]
(2) Classify web pages into a plurality of groups.
[0040]
Next, based on the web page list created in (1), the web page (P 1 , P 2 ・ ・ ・ ・ ・ ・ P N ) Multiple groups (G 1 , G 2 ... G M ). The web page list may be created using the algorithm described in (a) to (c) of (1) above, or other algorithms such as an algorithm such as Companion. It may be created using.
[0041]
Here, two web pages, namely web page P i And web page P j For the combination consisting of: i And web page P j Are classified into the same group when the following condition (a) is satisfied, and are not classified into the same group when not satisfying the following condition (a).
[0042]
Condition (a): Web page P i Related web page list about L i Web page P j And web page P j Related web page list about L j Web page P i Is included.
[0043]
Satisfying the condition (a) means that the web page P i Related information from the viewpoint of the information posted on the web page P j And web page P j Related information from the viewpoint of the information posted on the web page P i So that the web page P i And web page P j It can be said that the information posted in is related to each other. Therefore, if the condition (a) is satisfied, the web page P i And web page P j Are the same group, eg group G i are categorized.
[0044]
On the other hand, if the condition (a) is not satisfied, the web page P i And web page P j Since the information posted on is not related to each other, i And web page P j Are not classified into the same group.
[0045]
Then, all web pages (P 1 , P 2 ・ ・ ・ ・ ・ ・ P N ) For all web pages (P) by checking whether the condition (a) is satisfied. 1 , P 2 ・ ・ ・ ・ ・ ・ P N ) Multiple groups (G 1 , G 2 ... G M ). That is, all the web pages included in each group satisfy the condition (a).
[0046]
Instead of the condition (a), another condition can be set. For example,
Condition (b): Web page P i Related web page list about L i N or more web pages P included in k But web page P j Related web page list about L j (Where n is an integer of 1 or more).
Or the web page P i And web page P j Any other condition may be set as long as it is a condition that can be classified into a group by defining the relationship between them.
[0047]
(3) The degree of association between each group is calculated.
[0048]
Next, based on the web page list created in (1), the relevance between all the groups created in (2) is calculated. Here, two groups, namely group G i And group G j The degree of association between and is obtained as in the following (a) to (c).
[0049]
(A) Group G i In the related web page list for each of all web pages included in j Count the number of times web pages included in are listed, and add the number of times to R ij And
[0050]
(B) Group G j In the related web page list for each of all web pages included in i Count the number of times web pages included in are listed, and add the number of times to R ji And
[0051]
(C) R ij And R ji And the total value of group G i And group G j Relevance between
[0052]
Then, all the groups (G 1 , G 2 ... G M )), The degree of association between them is calculated as in (a) to (c) and stored in the associated page database 14 as shown in FIG.
[0053]
The data stored in the related page database 16 includes the URL of the web page included in each group and the degree of association between the groups.
[0054]
Thus, when a certain web page is specified, to which group the web page belongs, what other web pages are included in the group, and groups related to the group include Easily understand matters such as what kind of group exists, what web pages are included in the related group, and how much the related group has. can do.
[0055]
In FIG. 4, each group is indicated by rectangles A to F, and URLs of web pages included in the respective groups are indicated in rectangles A to F. That is, the URLs of the web pages included in each group are displayed in groups in the rectangles A to F for each group. In this case, the group including the designated web page is located near the center of the screen as indicated by the rectangle A, and the group associated with the group is surrounded by the rectangles B to F. Arranged to surround. In addition, the group including the designated web page and the related group are joined by a straight line, and a number as an index indicating the degree of association between the groups is given to the straight line.
[0056]
The operation of the related page database creation means 13 as described above is performed for the web pages collected at the predetermined collection time for each predetermined collection time.
[0057]
As a result, for each collection period, the web page collected at that period is classified into a group, and a group database in which the degree of association between the groups is calculated is created. The method for classifying web pages into groups may be other methods as long as the web pages are classified into groups and the degree of association between the groups is defined. For example, the web pages may be classified into groups using a method of extracting the frequency of words included in the web page and grouping together web pages in which the same word appears at a predetermined frequency or higher. The related page database creation means 13 also creates a database that can retrieve a group including the word when a word is designated.
[0058]
In the related page database 14, URLs of web pages included in each group, the number of the URLs, the degree of association between the groups, and an index for quoting the group from words are stored separately for each collection period. The
[0059]
Further, the development process database creation means 15 accesses the related page database 14, analyzes how each group has changed according to the collection time, and calculates numerical values for calculating the change on various scales. Store in the development process database 16.
[0060]
Next, the operation of the development process database creation means 15 will be described in detail. The collection time of the web page is expressed as t1, t2,... Tn, and the group at a certain collection time tk is G (tk, 1), G (tk, 2),... G (tk, m) It shall be expressed as
[0061]
FIG. 5 is a diagram showing an example of the form of data stored in the related page database in the first embodiment of the present invention, and FIG. 6 is a group displayed on the user terminal in the first embodiment of the present invention. FIG. 7 is a second diagram illustrating an example of a group group displayed on the user terminal according to the first embodiment of the present invention, and FIG. 8 is a diagram illustrating the first example of the present invention. FIG. 9 is a third diagram illustrating an example of a group group displayed on the user terminal according to the embodiment, and FIG. 9 is a fourth diagram illustrating an example of the group group displayed on the user terminal according to the first embodiment of the present invention. FIG.
[0062]
In the present embodiment, the development process database creating means 15 accesses the related page database 14 storing the web pages classified into groups for each collection period, compares each group with the group at the previous and subsequent collection periods, A development process database 16 is created by calculating time-series changes of groups. When receiving the search request, the control unit 17 accesses the related page database 14 and the development process database 16 to search for a group based on the search condition included in the search request, and develops the searched group. Is calculated, and the searched groups are rearranged and output based on the scale of development included in the search request.
[0063]
Then, the development process database creation means 15 performs the following processing for each group G (tk, a) at each collection time tk. First, the development process database creation means 15 accesses the related page database 14, and the degree of coincidence indicating how much the group G (tk, a) matches all the groups at all the collection periods other than tk. And the degree of coincidence is stored in the development process database 16.
[0064]
FIG. 5 shows a table as an example of a method for storing the degree of coincidence between a group and another group in the related page database 14. In the table, a group is shown in the left column, a group having a positive agreement with the group is shown in the center column, a group shown in the left column and a group shown in the center column are shown in the right column. The degree of matching is shown. In this case, when the degree of coincidence between the group G (tk, a) and the group G (tm, b) is C, three groups of (G (tk, a), G (tm, b), C) Is stored in the development process database 16. As the degree of coincidence, for example, the number of URLs shared between the group G (tk, a) and the group G (tm, b) is used. In addition, as shown in FIG. 5, one group may have a positive coincidence with a plurality of groups. Therefore, the coincidence is calculated for all combinations of groups, and the three sets of data are It is created and stored in the development process database 16.
[0065]
The degree of coincidence includes not only the number of URLs shared between the group G (tk, a) and the group G (tm, b), but also the group G (tk, a) and the group G (tm, b Among the URLs included in b), the ratio of the number of URLs included in both groups can be used. Whether or not the URLs match is determined by whether or not the character strings constituting the URL match. Even if the character strings constituting the URL do not match, the content of the web page is the same. If it can be determined that there is a URL, the URLs may match. Furthermore, the degree of coincidence may not be calculated for all combinations of groups. For example, the degree of coincidence may be calculated only for the combination of groups in the range where the collection times are close. In this case, in the case of the group at the collection time tk, only the degree of coincidence with the group at the collection time (tk-1, tk + 1) adjacent to the collection time tk may be calculated. Alternatively, only the degree of coincidence with the group at the collection time for several periods before and after the collection time tk may be calculated.
[0066]
In this way, since the development process database 16 stores data on the degree of coincidence with other groups for each group at each collection time, the development process database 16 can be accessed at a predetermined collection time tk by accessing the development process database 16. It is easy to know how much the group G (tk, a) matches with which group at other collection times. The data stored in the development process database 16 can be used to determine how a predetermined group has changed in time series, that is, the development process of the group.
[0067]
Next, access from the user terminal 22 via the Internet 21 is accepted by the input control means 18, and a user search request is transmitted to the control means 17. Then, the control means 17 accesses the related page database 14 and the development process database 16 and calculates the development process of the group designated in the search request. Also, according to the user's request, the groups are rearranged according to various development scales and transmitted to the output control means 19.
[0068]
Here, first, the scale of development used by the control means 17 will be described, and then the processing procedure will be described.
[0069]
Usually a group of web pages grows, shrinks, splits and merges over time. The scale of development represents the degree of growth or shrinkage. By using the scale of development, for example, by rearranging the groups according to the degree of growth, it is possible to easily find a group that has grown rapidly or has shrunk.
[0070]
Here, the scale of the development of the group G (tk, a) at a predetermined collection time tk is a group G (tk-1, b) or a group G (tk-1, b) having a positive coincidence with G (tk, a) at the adjacent collection time. Calculated by comparison with group G (tk + 1, c). When selecting group G (tk-1, b) or group G (tk + 1, c), it is desirable to select the group having the highest degree of coincidence with group G (tk, a). As long as the group has a matching level, the group need not have the highest matching level. The scale of development is the comparison with the past (for example, comparison between group G (tk, a) and group G (tk-1, b)) and the comparison with the future (for example, group G (tk, a)). And comparison with the group G (tk + 1, c)), here, a method of calculating the scale of development by comparison with the past will be described. Note that the method of calculating the scale of development by comparison with the future is the same as the method of calculating the scale of development by comparison with the past, so the description thereof is omitted.
[0071]
The group growth level is an index indicating how much the group has grown. Here, the degree of growth can be represented by, for example, an increase in the number of URLs included in the group. If the number of URLs included in the group G (tk, a) at a predetermined collection time tk is #G (tk, a), #G (tk, a)-# G (tk-1, b), #G (tk, a) / # G (tk-1, b) etc. can be defined as the degree of growth. The degree of growth becomes a positive value when the number of URLs included in the group G (tk, a) increases, and becomes a negative value when it decreases.
[0072]
Moreover, the novelty level of a group is an index indicating how much URLs that did not exist in the past are newly included in the group. Here, the novelty level can be defined as follows. For example, the number N of URLs included in the group G (tk, a) at the predetermined collection time tk but not included in any group at the previous collection time tk-1 can be set as the novelty level. Further, the ratio of N / # G (tk, a) may be set as the novelty level.
[0073]
Furthermore, the disappearance degree of the group is an index indicating how much URLs included in the group at the past collection time have disappeared. Note that if the URL moves to another group, it is not considered to have disappeared. Here, the extinction degree can be defined as follows. For example, the number D of URLs that are included in the group G (tk-1, b) at the past collection time tk-1 but are not included in any group at the current collection time tk can be defined as the extinction degree. . The ratio of D / # G (tk-1, b) may be used as the extinction degree.
[0074]
The degree of group separation is an index indicating how much the URL included in the group at the past collection time has moved to another group. Here, the degree of separation can be defined as follows. For example, the number S of URLs included in the group G (tk-1, b) at the past collection time tk-1 and included in the group other than the group G (tk, a) at the current collection time tk. It can be the degree of separation. The ratio S / # G (tk-1, b) may be used as the degree of separation.
[0075]
Further, the degree of merger of groups is an index representing how much URLs included in other groups have moved to the group at a predetermined collection time. Here, the degree of merger can be defined as follows. For example, the number M of URLs included in a group G (tk, a) at a predetermined collection time tk and included in a group other than the group G (tk-1, b) at a past collection time tk-1 is merged. Can be degrees. Further, the ratio of M / # G (tk, a) may be used as the degree of merger.
[0076]
Furthermore, the stability of the group is an index indicating how stable the group is, that is, how much the change is small. Here, the stability can be defined as follows. For example, let C be the number of URLs that are commonly included in the group G (tk, a) at the predetermined collection time tk and the group G (tk-1, b) at the previous collection time tk-1. / # G (tk-1, b) can be defined as the stability. Further, C / # G (tk, a) may be set as the stability, or an average value of C / # G (tk-1, b) and C / # G (tk, a) may be set as the stability. . Furthermore, C / (# G (tk-1, b) + # G (tk, a) -C) can be set as the stability.
[0077]
Subsequently, a procedure of processing executed by the control unit 17 and the output control unit 19 will be described. In the present embodiment, the control means 17 processes user requests as shown in the following (1) to (5).
[0078]
(1) First, when the user specifies the collection time tk and the URL as the search conditions included in the search request, a group including the specified URL is searched from among the groups at the specified collection time tk, and the group The operation when the development process is presented will be described. In this case, the control means 17 and the output control means 19 operate as shown in the following (a) to (c).
[0079]
(A) First, the control means 17 accesses the related page database 14 and searches for a group G (tk, a) including the designated URL.
[0080]
(A) Next, the control means 17 accesses the development process database 16 and selects the group G (tk, a) from among the groups at the collection time tk-1 one period before the specified collection time tk. All the groups having a positive coincidence with are acquired as a group group. Similarly, all the groups having a positive coincidence with group G (tk, a) are acquired as a group from among the groups at the collection time tk + 1 one period after the specified collection time tk. . The acquired group group at the collection time tk-1 and the group group at the collection time tk + 1 are transmitted to the output control means 19.
[0081]
Note that the control means 17 selects a group group at the collection time tk-1 from among the groups at the collection time tk-2 before the specified collection time tk and at the collection time tk + 2 after the second time. In addition, the group group at the collection time tk + 1 and all the groups having a positive degree of coincidence may be acquired as the group group. Further, among the groups at the collection time tk-3 three periods before the designated collection time tk and the collection time tk + 3 after the third period, the group group at the collection time tk-2 and the collection time tk + The group group in 2 and all the groups having a positive degree of coincidence may be acquired as the group group.
[0082]
In this way, by expanding the target collection period one by one, the control means 17 sequentially acquires all the groups having a positive coincidence among the groups at all the collection periods as a group group. be able to. Note that the target collection time range may be set as appropriate by the user. As a result, the user can grasp the development process of the group G (tk, a) over a desired period.
[0083]
(C) Then, the output control means 19 edits the received group group so that it can be browsed, and transmits it to the user terminal 22 via the Internet 21. Then, the group group is displayed on the display means of the user terminal 22 as shown in FIG. In this case, each group is displayed as a collection of URLs, the group designated by the user is displayed near the center, and the other groups are displayed chronologically from left to right according to the corresponding collection time.
[0084]
In each collection period, the groups are preferably arranged from top to bottom in descending order of coincidence. However, the groups may be arranged in other orders or users may be rearranged. . Further, a group having a low matching degree may not be displayed. Correspondences are displayed between groups having a positive degree of coincidence.
[0085]
Thus, when the user designates the URL of a web page that is of interest to the user, the user can easily grasp how the group including the web page has developed.
[0086]
(2) Next, an operation will be described in which when the user designates the collection time tk as the search condition included in the search request, the development processes of all the groups at the designated collection time tk are presented. In this case, the control means 17 and the output control means 19 operate as shown in the following (a) to (c).
[0087]
(A) First, the control means 17 accesses the related page database 14 and acquires all groups at the specified collection time tk.
[0088]
(A) Next, the control means 17 gives a positive coincidence to each of the acquired groups from among the groups at the collection times before and after the collection time tk, as in (A) in (1) above. All of the possessed groups are acquired as a group group and transmitted to the output control means 19.
[0089]
(C) Then, the output control means 19 edits the received group group so that it can be browsed, and transmits it to the user terminal 22 via the Internet 21. Then, the group group is displayed on the display means of the user terminal 22 as shown in FIG. In this case, it can be seen that a plurality of groups having the relationship as shown in FIG. 6 are arranged in the vertical direction.
[0090]
Further, the group group may be displayed as shown in FIG. In this case, the passage of time is shown in the vertical direction.
[0091]
Note that displaying all groups with a positive degree of matching consumes a lot of screen space, so only the group with the highest degree of matching may be displayed. In addition, only some groups having higher matching degrees may be displayed. In this case, the group group is displayed as shown in FIG. As a result, the user can grasp how all the groups have developed around the specified collection time tk.
[0092]
(3) Subsequently, when the user specified a collection time tk and a search word as a search condition included in the search request, information including the search word specified from the group at the specified collection time tk was posted. An operation when a group of web pages is searched and an evolution process of the group is presented will be described. In this case, the control means 17 and the output control means 19 operate as shown in the following (a) to (c).
[0093]
(A) First, the control means 17 accesses the related page database 14 and searches for a group including a web page on which information including a designated search word is posted.
[0094]
(A) Next, the control means 17 gives a positive coincidence to each of the acquired groups from among the groups at the collection times before and after the collection time tk, as in (A) in (1) above. All of the possessed groups are acquired as a group group and transmitted to the output control means 19.
[0095]
(C) Then, the output control means 19 edits the received group group so that it can be browsed, and transmits it to the user terminal 22 via the Internet 21. Then, the group group is displayed on the display means of the user terminal 22 as shown in FIG. 7 or FIG. In this case, it can be seen that a plurality of groups having the relationship as shown in FIG. 6 are arranged in the vertical direction.
[0096]
Note that displaying all groups with a positive degree of matching consumes a lot of screen space, so only the group with the highest degree of matching may be displayed. In addition, only some groups having higher matching degrees may be displayed. In this case, the group group is displayed as shown in FIG.
[0097]
Thus, when the user designates a search word for a web page that is of interest to the user, the user can grasp how the group including the web page on which information including the search word has been developed has been developed.
[0098]
(4) Subsequently, when the user selects and designates a predetermined group from the group groups displayed on the display means of the user terminal 22 by the operation described in the above (1) to (3), the designation is performed. The operation when the group development process related to the selected group is presented will be described. In this case, the control means 17 and the output control means 19 operate as shown in the following (a) to (c).
[0099]
(A) First, the control means 17 accesses the related page database 14 and acquires all groups related to the designated group.
[0100]
(A) Next, the control means 17 gives a positive coincidence to each of the acquired groups from among the groups at the collection times before and after the collection time tk, as in (A) in (1) above. All of the possessed groups are acquired as a group group and transmitted to the output control means 19.
[0101]
(C) Then, the output control means 19 edits the received group group so that it can be browsed, and transmits it to the user terminal 22 via the Internet 21. Then, the group group is displayed on the display means of the user terminal 22 as shown in FIG. 7 or FIG. In this case, it can be seen that a plurality of groups having the relationship as shown in FIG. 6 are arranged in the vertical direction.
[0102]
Note that displaying all groups with a positive degree of matching consumes a lot of screen space, so only the group with the highest degree of matching may be displayed. In addition, only some groups having higher matching degrees may be displayed. In this case, it is displayed as shown in FIG.
[0103]
Thereby, the user can grasp how the group related to the group of the web page in which he is interested has developed.
[0104]
(5) Subsequently, when rearranging the groups in the group obtained by the operations described in the above (1) to (4) based on the scale of development included in the search request designated by the user The operation will be described. In this case, the control means 17 and the output control means 19 operate as shown in the following (a) to (c).
[0105]
(A) First, the control means 17 specifies by the user for each group in a predetermined collection period (eg, (tk-1, tk), (tk, tk + 1)) before and after the collection period tk. Calculate the scale of development made. Then, the control means 17 takes a statistical value of the calculated scale of development and sets it as a scale of development for the corresponding group. In this case, the average value of the development scale, the sum of the development scale, or the like can be used as the statistical value.
[0106]
(A) Next, the control means 17 rearranges the groups based on the calculated scale of development for the groups, and transmits them to the output control means 19.
[0107]
(C) Then, the output control means 19 edits the received group group so that it can be browsed, and transmits it to the user terminal 22 via the Internet 21. Then, the group group is displayed on the display means of the user terminal 22 as shown in FIG. 7 or FIG. In this case, it can be seen that a plurality of groups having the relationship as shown in FIG. 6 are arranged in the vertical direction.
[0108]
Note that displaying all groups with a positive degree of matching consumes a lot of screen space, so only the group with the highest degree of matching may be displayed. In addition, only some groups having higher matching degrees may be displayed. In this case, it is displayed as shown in FIG.
[0109]
Thus, the user can rearrange the groups according to the scale of his / her interest and grasp the development of the groups. For example, the fastest growing group can be viewed in turn.
[0110]
When the group group is displayed on the display means of the user terminal 22 as shown in FIGS. 6 to 9, a hyperlink is formed on the displayed web page title, and the display means of the user terminal 22 is displayed. It is desirable to access the corresponding web page by clicking the displayed title with the pointer.
[0111]
In the display examples shown in FIGS. 6 to 9, tk-1, tk, and tk + 1 are displayed at the top of the screen as group collection times. You can also. For example, a month including the collection time such as “20xx year XX month” may be displayed, or “20xx year △△ month XX day to △△ month xx day” may be actually collected. May be displayed.
[0112]
Furthermore, in the display examples shown in FIGS. 6 to 9, only groups in the period before and after the collection time designated by the user are displayed, but when a wider range of collection time is designated, The display screen can be displayed vertically or horizontally. If the display means of the user terminal 22 is small and only a narrow screen can be displayed, only a part is displayed and the user moves the display screen with the cursor key or scroll bar. It is desirable to be able to browse.
[0113]
In the display examples shown in FIGS. 6 to 9, the groups are displayed by enclosing the URLs included in each group with a rectangle. For example, the URLs included in each group may be encircled. Alternatively, it may be displayed by other methods. The URL is preferably converted to the title of the web page and displayed. However, the URL may be left as it is, or the title and the URL may be written together.
[0114]
Further, a part of the web page may be displayed under each title. In addition, a headline of a group may be given by displaying words frequently appearing in the title or content of each URL in the upper part of a rectangle representing the group.
[0115]
In the display examples shown in FIGS. 6 to 9, groups having a positive matching degree are connected by straight lines, but an index indicating the matching degree may be added to each of the straight lines. . For example, a numerical value indicating the degree of coincidence may be given to a straight line, the thickness of the straight line may be changed according to the degree of coincidence, or the color of the straight line may be changed according to the degree of coincidence. good. Further, a curved line or a broken line can be used instead of the straight line.
[0116]
As described above, in the present embodiment, among web pages collected in time series, web pages on which information in the same field is posted are classified into the same group, and between time series groups. By calculating the change in the degree of relevance and automatically creating a database, it is possible to grasp the time-series change of the web page that publishes information on the field in which the user is interested . Thus, the user can track changes in groups of web pages that are related to each other.
[0117]
For example, BSE (Bovine Spongiform Encephalopathy: so-called mad cow disease) becomes a problem, and it is possible to examine the past how many homepages have been created. In this case, the information search system already proposed by the inventor of the present invention described in “Prior Art” is combined with the web page group development process presentation system 10 in the present embodiment, and used to expand the function. be able to.
[0118]
In addition, the web page group development process presentation system 10 in the present embodiment can be used as a tool for market research. For example, a rapidly growing group of web pages may represent a social trend. Therefore, by discovering and investigating newly generated web page groups or rapidly growing web page groups in a certain field, it becomes a means for determining what kind of products and services are required.
[0119]
Furthermore, by discovering a group of web pages related to a certain product (for example, a web page in which a user of the product describes a feeling of use) and investigating the development of the group, how the reputation of the product changes. You can also check if you are. It is also possible to discover and investigate groups related to competing products. These pieces of information are useful for finding improvements to products and determining when to stop production of products, and can also be used as consulting tools.
[0120]
Furthermore, the web page group development process presentation system 10 according to the present embodiment can be used not only for checking products but also for investigating the importance of companies and organizations. For example, if a group of web pages about a company in a certain field can be found to be growing rapidly, it can be assumed that the field is rapidly developing in the real world. Therefore, it can be used as a material for determining a target field or company for investment.
[0121]
In addition, in areas that the user has registered using keywords, etc., when there is a sudden change in the group of web pages or when a new group appears, the user is automatically It can also be used for a service that reports by e-mail or the like.
[0122]
Next, a second embodiment of the present invention will be described. In addition, about the thing which has the same structure as the said 1st Embodiment, the description is abbreviate | omitted by cultivating the same code | symbol.
[0123]
FIG. 10 is a conceptual diagram of a web page group development process presentation system according to the second embodiment of the present invention.
[0124]
In this embodiment, the web page group development process presentation system 20 includes a page collection unit 11, a collection page database 12, a related page database creation unit 13, a related page database 14, a control unit 17, an input control unit 18, and an output control unit. 19, the development process database creating means 15 and the development process database 16 in the first embodiment are not provided. In this case, the control means 17 accesses the related page database 14 and calculates the development process for the necessary amount according to the user's search request. Here, description of operations similar to those of the first embodiment will be omitted, and only different operations will be described.
[0125]
First, access from the user terminal 22 via the Internet 21 is accepted by the input control means 18, and a user search request is transmitted to the control means 17. Then, the control means 17 accesses the related page database 14 and calculates the development process of the group designated in the search request. Also, according to the user's request, the groups are rearranged according to various development scales and transmitted to the output control means 19. Here, various scales of development of the group are calculated in the same manner as in the first embodiment.
[0126]
Subsequently, a procedure of processing executed by the control unit 17 and the output control unit 19 will be described. In the present embodiment, the control unit 17 has the (1) to (5) described in the first embodiment. The operations (1 ′) to (5 ′) that are substantially the same as the operations shown in FIG. Here, the operation (1 ′) corresponding to the operation shown in (1) described in the first embodiment will be described.
[0127]
(1 ′) First, when the user designates the collection time tk and the URL as the search conditions included in the search request, a group including the designated URL is retrieved from the groups at the designated collection time tk, and the group The operation when the development process is presented will be described. In this case, the control means 17 and the output control means 19 operate as shown in the following (a) to (c).
[0128]
(A) First, the control means 17 accesses the related page database 14 and searches for a group G (tk, a) including the designated URL.
[0129]
(A) Next, the control means 17 accesses the related page database 14, and each group and group G (tk, a) at the collection time tk-1 one period before the designated collection time tk The degree of coincidence is calculated, and all of the groups having a positive degree of coincidence with the group G (tk, a) are acquired as a group from among the groups at the collection time tk-1. Similarly, all the groups having a positive coincidence with group G (tk, a) are acquired as a group from among the groups at the collection time tk + 1 one period after the specified collection time tk. . The acquired group group at the collection time tk-1 and the group group at the collection time tk + 1 are transmitted to the output control means 19.
[0130]
In addition, the control means 17 can expand the range of the collection time which becomes object similarly to the said 1st Embodiment. Further, the target collection time range may be appropriately set by the user.
[0131]
(C) Then, the output control means 19 edits the received group group so that it can be browsed, and transmits it to the user terminal 22 via the Internet 21. Note that the method of displaying the group group is the same as that in the first embodiment.
[0132]
In this way, the control means 17 in the present embodiment accesses the related page database 14, and each group and group G (tk, tk, at the collection time tk-1 one period before the specified collection time tk. The degree of coincidence with a) is calculated. Therefore, all the groups having a positive coincidence with the group G (tk, a) among the groups at the collection time tk-1 are accessed without accessing the development process database 16 in the first embodiment. Can be obtained as
[0133]
The operation shown in (1 ′) is different from the operation shown in (1) described in the first embodiment only in the point (a). Subsequently, the control means 17 performs the operations (2 ′) to (5 ′) which are substantially the same operations as the operations shown in (2) to (5) described in the first embodiment. Do. However, in the operations (2 ′) to (4 ′), as in (1 ′), only the point (a) is different, and the other points are described in the first embodiment ( The operations are the same as those shown in 2) to (4). In addition, the operation at point (a) in (2 ′) to (4 ′) is the same as (1 ′). Therefore, the description of the operations (2 ′) to (4 ′) is omitted. The operation (5 ′) is the same as the operation shown in (5) described in the first embodiment, and thus the description thereof is omitted.
[0134]
Thus, in the present embodiment, the web page group development process presentation system 20 has the development process database creation means 15 and the development process database 16 in addition to the same effects as the first embodiment. Since this is not done, the configuration can be simplified.
[0135]
In addition, this invention is not limited to the said embodiment, It can change variously based on the meaning of this invention, and does not exclude them from the scope of the present invention.
[0136]
【The invention's effect】
As described above in detail, according to the present invention, in the web page group development process presentation system, the input control means for receiving a search request related to the development process of a group of related web pages and transmitting it to the control means; When the search request is received, the related page database storing the group for each collection time of the web page is accessed, the group is searched based on the search condition included in the search request, and the searched group A control unit that calculates an evolution process in comparison with the group at the collection time, rearranges the searched group based on the scale of development designated in the search request, and transmits the group to the output control unit; and the received group Output control means for editing and outputting in a viewable state.
[0137]
In this case, it is possible to grasp a time-series change of a web page on which information on a field in which the user is interested is posted.
[0138]
In another web page group development process presentation system of the present invention, input control means for receiving a search request related to the development process of a group of related web pages and transmitting it to the control means; A development process database creating means for accessing a related page database stored for each, comparing each group with a group at the previous and subsequent collection times, and calculating a time series change of the group to create a development process database; When a search request is received, the related page database and the development process database are accessed, a group is searched based on a search condition included in the search request, a development process of the searched group is calculated, and specified in the search request The retrieved glue based on the developed development measure. A control means for transmitting the output control means rearranges, and an output control means for outputting by editing the group received a browsable state.
[0139]
In this case, since the development process database is also accessed, it is possible to grasp in a short time a time-series change of the web page on which information on a field in which the user is interested is posted.
[0140]
In yet another web page group development process presentation system according to the present invention, the web page group is periodically collected and stored at each collection time, and based on the correlation between hyperlinks between the web pages. A related page database creating means for classifying web pages into groups, calculating a degree of association between groups, and creating a related page database for storing the degree of association between the groups for each collection period; Input control means for receiving a search request relating to the development process of the group and transmitting it to the control means, and a related page database for storing the group at every collection time of the web page. And create a development process database by calculating time-series changes of groups Upon receiving the search process database creation means and the search request, the related page database and the development process database are accessed, a group is searched based on the search condition included in the search request, and the development process of the searched group is determined. Control means for calculating, rearranging the searched groups based on the scale of development specified in the search request and transmitting them to the output control means, and output for editing the received groups so that they can be viewed Control means.
[0141]
In this case, it is possible to grasp a time-series change of a web page on which information on a field in which the user is interested is posted. In addition, web pages are collected regularly without human intervention, using a predetermined algorithm, analyzing hyperlinks, creating web page lists, classifying web pages into groups, and the degree of relevance between groups Therefore, a related page database that stores the degree of association between groups for each collection time can be created in a short time, easily, accurately, and at low cost.
[Brief description of the drawings]
FIG. 1 is a conceptual diagram of a web page group development process presentation system according to a first embodiment of the present invention.
FIG. 2 is a diagram showing a configuration for creating a hyperlink database according to the first embodiment of the present invention.
FIG. 3 is a diagram showing an example of how to link hyperlinks between web pages in the first embodiment of the present invention.
FIG. 4 is a diagram showing an example of a form of data stored in a related page database according to the first embodiment of the present invention.
FIG. 5 is a diagram showing an example of a form of data stored in a related page database according to the first embodiment of the present invention.
FIG. 6 is a first diagram illustrating an example of a group group displayed on the user terminal according to the first embodiment of the present invention.
FIG. 7 is a second diagram illustrating an example of a group group displayed on the user terminal according to the first embodiment of the present invention.
FIG. 8 is a third diagram illustrating an example of a group group displayed on the user terminal according to the first embodiment of the present invention.
FIG. 9 is a fourth diagram illustrating an example of a group group displayed on the user terminal according to the first embodiment of the present invention.
FIG. 10 is a conceptual diagram of a web page group development process presentation system according to a second embodiment of the present invention.
[Explanation of symbols]
10 Web page group development process presentation system
11 page collection means
13 Related page database creation means
14 Related page database
15 Development process database creation means
16 Development process database
17 Control means

Claims (6)

(a)関連するウェブページから成るグループの発展過程に関する検索要求を受信して制御手段に送信する入力制御手段と、
(b)前記検索要求を受信すると、前記グループをウェブページの収集時期毎に格納する関連ページデータベースにアクセスし、前記検索要求に含まれる検索条件に基づいてグループを検索し、検索されたグループを前後の収集時期におけるグループと比較して発展過程を算出し、前記検索要求において指定された発展の尺度に基づいて前記検索されたグループを並べ替えて出力する制御手段とを有することを特徴とするウェブページグループ発展過程提示システム。
(A) input control means for receiving a search request relating to the development process of a group of related web pages and sending it to the control means;
(B) When the search request is received, the related page database storing the group for each collection time of the web page is accessed, the group is searched based on the search condition included in the search request, and the searched group is Control means for calculating an evolution process in comparison with groups at previous and subsequent collection times, and rearranging and outputting the retrieved groups based on a scale of development designated in the search request. Web page group development process presentation system.
(a)関連するウェブページから成るグループの発展過程に関する検索要求を受信して制御手段に送信する入力制御手段と、
(b)前記グループをウェブページの収集時期毎に格納する関連ページデータベースにアクセスし、それぞれのグループを前後の収集時期におけるグループと比較し、グループの時系列的な変化を算出して発展過程データベースを作成する発展過程データベース作成手段と、
(c)前記検索要求を受信すると、前記関連ページデータベース及び発展過程データベースにアクセスし、前記検索要求に含まれる検索条件に基づいてグループを検索し、検索されたグループの発展過程を算出し、前記検索要求において指定された発展の尺度に基づいて前記検索されたグループを並べ替えて出力する制御手段とを有することを特徴とするウェブページグループ発展過程提示システム。
(A) input control means for receiving a search request relating to the development process of a group of related web pages and sending it to the control means;
(B) Access the related page database that stores the group at each collection time of the web page, compare each group with the group at the previous and next collection time, calculate the time series change of the group, and develop the development process database Development process database creation means to create,
(C) receiving the search request, accessing the related page database and the development process database, searching a group based on a search condition included in the search request, calculating a development process of the searched group, A web page group development process presentation system comprising: control means for rearranging and outputting the retrieved groups based on a development scale designated in a search request.
(a)定期的にウェブページを収集して収集時期毎に格納するページ収集手段と、
(b)ウェブページ間に張られたハイパーリンクの相関関係に基づいて、ウェブぺ−ジをグループに分類するとともに、グループ間の関連度を算出して、該グループ間の関連度を収集時期毎に格納する関連ページデータベースを作成する関連ページデータベース作成手段と、
(c)前記グループの発展過程に関する検索要求を受信して制御手段に送信する入力制御手段と、
(d)前記グループをウェブページの収集時期毎に格納する関連ページデータベースにアクセスし、それぞれのグループを前後の収集時期におけるグループと比較し、グループの時系列的な変化を算出して発展過程データベースを作成する発展過程データベース作成手段と、
(e)前記検索要求を受信すると、前記関連ページデータベース及び発展過程データベースにアクセスし、前記検索要求に含まれる検索条件に基づいてグループを検索し、検索されたグループの発展過程を算出し、前記検索要求において指定された発展の尺度に基づいて前記検索されたグループを並べ替えて出力制御手段に送信する制御手段と、
(f)受信したグループを閲覧可能な状態に編集して出力する出力制御手段とを有することを特徴とするウェブページグループ発展過程提示システム。
(A) page collection means for periodically collecting web pages and storing them at each collection time;
(B) Based on the correlation of hyperlinks between web pages, the web pages are classified into groups, the degree of association between groups is calculated, and the degree of association between groups is calculated for each collection period. Related page database creation means for creating a related page database to be stored in
(C) input control means for receiving a search request regarding the development process of the group and transmitting it to the control means;
(D) Access the related page database that stores the group at each web page collection time, compare each group with the group at the previous and next collection time, calculate the time series change of the group, and develop process database Development process database creation means to create,
(E) Upon receipt of the search request, the related page database and the development process database are accessed, a group is searched based on a search condition included in the search request, a development process of the searched group is calculated, Control means for rearranging the searched groups based on the scale of development specified in the search request and sending them to the output control means;
And (f) an output control unit that edits and outputs the received group in a viewable state, and presents a web page group development process presentation system.
(a)ウェブページグループの発展過程を提示するためにコンピュータを、
(b)関連するウェブページから成るグループの発展過程に関する検索要求を受信して制御手段に送信する入力制御手段、及び、
(c)前記検索要求を受信すると、前記グループをウェブページの収集時期毎に格納する関連ページデータベースにアクセスし、前記検索要求に含まれる検索条件に基づいてグループを検索し、検索されたグループを前後の収集時期におけるグループと比較して発展過程を算出し、前記検索要求において指定された発展の尺度に基づいて前記検索されたグループを並べ替えて出力する制御手段として機能させることを特徴とするウェブページグループ発展過程提示プログラム。
(A) a computer to present the development process of the web page group,
(B) input control means for receiving a search request relating to the development process of a group of related web pages and sending it to the control means; and
(C) When the search request is received, the related page database storing the group for each web page collection time is accessed, the group is searched based on the search condition included in the search request, and the searched group is A development process is calculated in comparison with the groups at the previous and next collection times, and the search function is functioned as a control unit that rearranges and outputs the searched groups based on the development scale specified in the search request. Web page group development process presentation program.
(a)ウェブページグループの発展過程を提示するためにコンピュータを、
(b)関連するウェブページから成るグループの発展過程に関する検索要求を受信して制御手段に送信する入力制御手段、
(c)前記グループをウェブページの収集時期毎に格納する関連ページデータベースにアクセスし、それぞれのグループを前後の収集時期におけるグループと比較し、グループの時系列的な変化を算出して発展過程データベースを作成する発展過程データベース作成手段、及び、
(d)前記検索要求を受信すると、前記関連ページデータベース及び発展過程データベースにアクセスし、前記検索要求に含まれる検索条件に基づいてグループを検索し、検索されたグループの発展過程を算出し、前記検索要求において指定された発展の尺度に基づいて前記検索されたグループを並べ替えて出力する制御手段として機能させるウェブページグループ発展過程提示プログラム。
(A) a computer to present the development process of the web page group,
(B) input control means for receiving a search request relating to the development process of a group of related web pages and sending it to the control means;
(C) Access the related page database that stores the group at each web page collection period, compare each group with the group at the previous and subsequent collection periods, and calculate the time series change of the group to develop the development process database. Development process database creation means for creating, and
(D) receiving the search request, accessing the related page database and the development process database, searching for a group based on a search condition included in the search request, calculating a development process of the searched group, A web page group development process presentation program that functions as a control unit that rearranges and outputs the searched groups based on a development scale specified in a search request.
(a)ウェブページグループの発展過程を提示するためにコンピュータを、
(b)定期的にウェブページを収集して収集時期毎に格納するページ収集手段、
(c)ウェブページ間に張られたハイパーリンクの相関関係に基づいて、ウェブぺ−ジをグループに分類するとともに、グループ間の関連度を算出して、該グループ間の関連度を収集時期毎に格納する関連ページデータベースを作成する関連ページデータベース作成手段、
(d)前記グループの発展過程に関する検索要求を受信して制御手段に送信する入力制御手段、
(e)前記グループをウェブページの収集時期毎に格納する関連ページデータベースにアクセスし、それぞれのグループを前後の収集時期におけるグループと比較し、グループの時系列的な変化を算出して発展過程データベースを作成する発展過程データベース作成手段、
(f)前記検索要求を受信すると、前記関連ページデータベース及び発展過程データベースにアクセスし、前記検索要求に含まれる検索条件に基づいてグループを検索し、検索されたグループの発展過程を算出し、前記検索要求において指定された発展の尺度に基づいて前記検索されたグループを並べ替えて出力制御手段に送信する制御手段、及び、
(g)受信したグループを閲覧可能な状態に編集して出力する出力制御手段として機能させるウェブページグループ発展過程提示プログラム。
(A) a computer to present the development process of the web page group,
(B) page collection means for periodically collecting web pages and storing them at each collection time;
(C) Based on the correlation of hyperlinks between web pages, the web pages are classified into groups, the degree of association between groups is calculated, and the degree of association between groups is calculated for each collection period. Related page database creation means for creating a related page database to be stored in
(D) input control means for receiving a search request regarding the development process of the group and transmitting it to the control means;
(E) Access the related page database that stores the group at each web page collection time, compare each group with the group at the previous and next collection time, calculate the time series change of the group, and develop the development process database Development process database creation means to create
(F) receiving the search request, accessing the related page database and the development process database, searching for a group based on a search condition included in the search request, calculating a development process of the searched group, Control means for rearranging the searched groups based on the scale of development specified in the search request and sending them to the output control means; and
(G) A web page group development process presentation program that functions as output control means for editing and outputting a received group in a viewable state.
JP2002130250A 2002-05-02 2002-05-02 Web page group development process presentation system Expired - Lifetime JP3673859B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002130250A JP3673859B2 (en) 2002-05-02 2002-05-02 Web page group development process presentation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002130250A JP3673859B2 (en) 2002-05-02 2002-05-02 Web page group development process presentation system

Publications (2)

Publication Number Publication Date
JP2003323451A JP2003323451A (en) 2003-11-14
JP3673859B2 true JP3673859B2 (en) 2005-07-20

Family

ID=29543379

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002130250A Expired - Lifetime JP3673859B2 (en) 2002-05-02 2002-05-02 Web page group development process presentation system

Country Status (1)

Country Link
JP (1) JP3673859B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4567580B2 (en) * 2005-11-25 2010-10-20 日本電信電話株式会社 Browsing history search / display method and apparatus and computer-readable recording medium
US20070143692A1 (en) * 2005-12-21 2007-06-21 International Business Machines Corporation Multi-type field processing in a Wiki page
JP5281990B2 (en) * 2009-08-26 2013-09-04 日本電信電話株式会社 Clustering apparatus, clustering method, and program
JP7001559B2 (en) * 2018-07-19 2022-01-19 ヤフー株式会社 Publishing device, publishing method and publishing program

Also Published As

Publication number Publication date
JP2003323451A (en) 2003-11-14

Similar Documents

Publication Publication Date Title
JP3717808B2 (en) Information retrieval system
TWI461939B (en) Method, apparatus, computer-readable media, computer program product and computer system for supplementing an article of content
US7634466B2 (en) Realtime indexing and search in large, rapidly changing document collections
CN110597981B (en) Network news summary system for automatically generating summary by adopting multiple strategies
TWI280492B (en) Web search system and method thereof
TW200925970A (en) Customized today module
US20080059454A1 (en) Search document generation and use to provide recommendations
JP2009503751A (en) Relevance determination method, information collection method, object organization method, and search system
JP2008097351A (en) Advertisement distribution device and program
US20130238649A1 (en) Visual and context-oriented curation and knowledge/insight discovery platform
US9129024B2 (en) Graphical user interface in keyword search
JP5284064B2 (en) Product ID server device and method for controlling product ID server device
JP3673859B2 (en) Web page group development process presentation system
JP6554306B2 (en) Information processing system, information processing method, and computer program
KR100495034B1 (en) Information suppling system and method with info-box
KR20080028031A (en) System extracting and displaying keyword and contents related with the keyword and method using the system
KR101132431B1 (en) System and method for providing interest information
WO2008032037A1 (en) Method and system for filtering and searching data using word frequencies
JP2010282403A (en) Document retrieval method
JP3967230B2 (en) Image information display system
Al-Abdullatif et al. Using online hotel customer reviews to improve the booking process
JP4385087B2 (en) Living information support system
JP2002304402A (en) Information retrieval system
KR101083669B1 (en) Expert website searching system using internet and method thereof
JP4876706B2 (en) Image search system

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20040809

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050405

R150 Certificate of patent or registration of utility model

Ref document number: 3673859

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

EXPY Cancellation because of completion of term