JP2001134616A - Method and system for constructing web information on specific topic - Google Patents

Method and system for constructing web information on specific topic

Info

Publication number
JP2001134616A
JP2001134616A JP2000296646A JP2000296646A JP2001134616A JP 2001134616 A JP2001134616 A JP 2001134616A JP 2000296646 A JP2000296646 A JP 2000296646A JP 2000296646 A JP2000296646 A JP 2000296646A JP 2001134616 A JP2001134616 A JP 2001134616A
Authority
JP
Japan
Prior art keywords
web
web page
step
topic
pages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000296646A
Other languages
Japanese (ja)
Inventor
Mukkerujaa Sougata
ムッケルジャー ソウガタ
Original Assignee
Nec Corp
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US16108099P priority Critical
Priority to US47174599A priority
Priority to US09/471745 priority
Priority to US60/161080 priority
Application filed by Nec Corp, 日本電気株式会社 filed Critical Nec Corp
Publication of JP2001134616A publication Critical patent/JP2001134616A/en
Application status is Pending legal-status Critical

Links

Abstract

PROBLEM TO BE SOLVED: To provide an Web topic management system which enables a user to collect and edit information related to a specific topic, also to easily navigate an information space and to represent the information on various abstract levels and also integrates the retrieval inquiry of relevant information and browsing. SOLUTION: This system is provided with a gather 203 which collects Web pages related to a preliminarily defined topic, attaches indexes to the Web pages and edits them and a user interface that navigates in the collected Web pages. The gather 203 is provided with a crawler 207 collecting the Web pages, a full text search engine 208 attaching the indexes to the Web pages and an organizer 209 classifying the Web pages on the basis of many abstract levels. The user interface navigating in the collected Web pages is defined as a Java applet.

Description

【発明の詳細な説明】 DETAILED DESCRIPTION OF THE INVENTION

【0001】 [0001]

【発明の属する技術分野】本発明は、ワールド・ワイド・ウェブから特定の話題に関連する適切な情報を検索する方法及びシステムに関する。 The present invention relates to relates to a method and system for retrieving the appropriate information related to a specific topic from the World Wide Web. また、本発明は、検索された話題情報の管理に関係し、特に、検索された話題情報の収集、索引付け、及び分類をする方法及びシステムを提供する。 The present invention is related to the management of the retrieved topic information, in particular, provides a method and system for the retrieved collection topic information, indexing, and classification. 更に、本発明は、情報の空間を利用者が容易にナビゲートすることができるインタフェースの提供に関する。 Furthermore, the present invention relates to the provision of interfaces that can be the spatial information user easily navigate.

【0002】 [0002]

【従来の技術】ワールド・ワイド・ウェブ(以下、WW BACKGROUND OF THE INVENTION World Wide Web (hereinafter, WW
W又ウェブ)は、まさに任意の話題に関する最良の情報源である。 W The Web) is the very best source of information on any topic. これにより、ますます多くの人々が、ウェブを情報資源の収集、評価、整理のために使用することになる。 As a result, more and more people, collection of information resources on the web, evaluation, will be used for organizing.

【0003】例えば、“B. Amento, W. Hill, L. Terve [0003] For example, "B. Amento, W. Hill, L. Terve
en, D. Hix, and P. Ju, An Empirical Evaluation of en, D. Hix, and P. Ju, An Empirical Evaluation of
User Interfaces for Topic Management of Web Sites, User Interfaces for Topic Management of Web Sites,
Proceedings of the ACM SIGCHI '99 Conference on H Proceedings of the ACM SIGCHI '99 Conference on H
uman Factors in ComputingSystems, pages 552-559, P uman Factors in ComputingSystems, pages 552-559, P
ittsburgh, PA, May 1999.”においては、ウェブからの特定の話題に関する情報資源の、収集、評価、整理の前述のプロセスが、トピック管理(topic management)として述べられている。 ittsburgh, PA, in May 1999. ", of information resources about a particular topic from the web, collection, evaluation, the above-mentioned process of organizing has been described as the topic management (topic management).

【0004】利用者は、仕事上の又個人的な興味により、話題を調査する。 [0004] The user, by also personal interests on the work, to investigate the topic.

【0005】一般に、人気のあるポータルサイトやヤフー(登録商標)(Yahoo(登録商標))やアルタビスタ(AltaVista)のようなサーチエンジンが、ウェブ上の情報収集に用いられている。 [0005] In general, search engines, such as the popular portal sites and Yahoo (registered trademark) (Yahoo (registered trademark)) and Altavista (AltaVista) have been used to gather information on the web. しかしながら、ウェブの爆発的な拡大により、話題管理はますます困難な仕事となってきている。 However, by the explosive expansion of the web, topic management is becoming an increasingly difficult task.

【0006】第1に、ウェブの発展は、サーチエンジンによるほとんどのクエリーに対する検索ドキュメントの数の増加を導く。 [0006] First, the development of the web, lead to an increase in the number of search documents for most of the query by the search engine. 検索結果は、通常、スクロールされるドキュメントの多数のページにより利用者に示される。 The search results, usually, is shown to the user by a number of pages of the document to be scrolled.
ほとんどの利用者は、関連する情報を検索するためにこれらのページを手動で通り抜けることを退屈に感じている。 Most of the users, are bored to feel that pass through these pages manually to search for relevant information.

【0007】更に、1999年時点では、ウェブは3億5千万ページ以上が開設され、一日に百万ページぐらいの割合の急速な増加を続けている(参照、K. Bharat and A. [0007] Furthermore, at the time in 1999, the web was opened more than 350 million pages, and are (see continued rapid increase in the proportion of about one million pages a day, K. Bharat and A.
Erode, A Technique for Measuring the Relative Siz Erode, A Technique for Measuring the Relative Siz
e and Overlap of Public Web Search Engines, Comput e and Overlap of Public Web Search Engines, Comput
er Networks and ISDN Systems, Special Issue on the er Networks and ISDN Systems, Special Issue on the
Seventh International World-Wide Web Conference, Seventh International World-Wide Web Conference,
Brisbane, Australia,30(1-7), April 1998)。 Brisbane, Australia, 30 (1-7), April 1998).

【0008】このような急速な成長と情報の絶え間なく増加する情報の流れが、今日の一般的なサーチエンジンの効率を本質的に制限している。 [0008] The flow of information to be constantly increased without such rapid growth and information, it is inherently limited the efficiency of the general search engine of today. 従って、最新の情報に更新がされていない情報が検索されることがあるため、 Therefore, since there is the information that may not be is updated to the latest information is retrieved,
利用者により発行されたウェブ検索クエリーが、全ての関連する情報を返すとは限らない。 Web search query issued by the user, not necessarily return all of the relevant information. こうした欠点のために、思慮の深いウェブ利用者は、トピック管理のためには、総括的なポータル(portals)よりも集中したポータルの方がより役立つことを知ったのである(参照、例えば、“S. Chakrabarti, M. van den Berg, and B. Do Because of these drawbacks, thoughtful deep web users, because of the topic management is to know that the people of the portal centered than the generic portal (portals) is more useful (see, for example, " S. Chakrabarti, M. van den Berg, and B. Do
m, Focussed Crawling: a New Approach to Topic-Spec m, Focussed Crawling: a New Approach to Topic-Spec
ific Web Resource Discovery, Proceedings of the Ei ific Web Resource Discovery, Proceedings of the Ei
ghth International World-Wide Web Conference, page ghth International World-Wide Web Conference, page
s 545-562, May 1999.”)。 s 545-562, May 1999. ").

【0009】従って、利用者が特別のトピックに関連する情報を収集して編成し、更に、収集された情報の空間を容易にナビゲートすることを可能にするシステムは、 [0009] Thus, a system that allows the user to organize and gather information related to a particular topic, further, easily navigate the space of the collected information,
ウェブを利用する極めて重要なツールとなる。 It becomes an extremely important tool to use the web. このようなウェブトピック管理システムは、いくつかの主要な特長を備える持つ必要がある。 Such a web topic management system, it is necessary to have provided some of the key features.

【0010】第1に、このようなトピック管理システムは、様々な抽象的なレベルに情報を整理する機能が必要である。 [0010] First, such a topic management system is, there is a need for the ability to organize information in a variety of abstract level. これは、利用者のクエリー(query、問い合わせ、検索の要求)に応じて、サーチエンジンは、一般に前に説明されたように関連するウェブページの一覧を表示する。 This is, the user of the query in accordance with the (query, query, search request), search engine displays a list of web pages associated as has been generally described before.

【0011】しかしながら、著者は、トピック情報をウェブページのコレクションに整理する場合もある。 [0011] However, the author, there is also a case to organize the topic information to a collection of web pages. このような場合、読者にとって、全てのコレクションを参照することが有用である。 In such a case, for the reader, reference is made to all of the collection is useful. 実際に、あるウェブサイトが関連するページを多く備える場合には、そのウェブサイトの全てのウェブページのリストは有用であるかもしれない。 In fact, in the case of providing a lot of pages that are related is a web site, a list of all of the web page of the web site may be useful. 更に、特定のトピックの情報が、多くのウェブサイトにある場合には、関連するウェブサイトをまとめてグループ化することは更に便利かもしれない。 In addition, information for a particular topic, in some cases in a number of web sites, grouping together related web site might be more convenient. 従って、効率的なトピック管理システムは、利用者の要求に応じた様々な抽象的なレベルに情報をグループ化し、示すことができるべきなのである。 Therefore, efficient Topics management system groups the information into various abstract level according to user's demand, it we should be able to show.

【0012】第2に、このようなトピック管理システムは、効率的にクエリーとブラウジング(browsing)を統合する必要がある。 [0012] Second, such topic management system efficiently it is necessary to integrate queries and browsing (browsing). クエリーとブラウジングは、ウェブにおける情報にアクセスするための主要な2つの方法である。 Queries and browsing are two main ways to access the information in the web.

【0013】もし利用者が、どのような情報を必要とするかということと、検索式の組み方の確固たる理解を持つ場合においては、クエリーにより検索を行うことは適切である。 [0013] If the user, and that either requires what information, when having a solid understanding of how to construct the search expression, it is appropriate to search the query. しかしながら、多くの場合においては、利用者は望むべき情報について確かではなく、その情報空間の内容に関してもっと学習する必要がある。 However, in many cases, it is not sure about the information to be desired by the user, there is a need to learn more about the contents of the information space. こうした場合においては、ブラウジングを行うことが理想的なナビゲートの方法である。 In such cases, to perform the browsing is ideal navigation methods. またブラウジングは、クエリーと組み合わせることにより、例えば検索結果が、利用者が理解するために大きすぎる場合には、その検索結果を利用者にブラウズさせることができ、逆に小さすぎる場合には、利用者に他の関連する情報を示すことができるのである。 The browsing, by combining the query, for example, search results, if the user if too large in order to understand, it is possible to browse the search result to the user, is too small to reverse the utilization it is possible to indicate other relevant information to the user. 効率的なトピック管理システムにおいては、利用者がスムーズにクエリーとブラウズを統合して関連する情報を検索できることが求められる。 In Efficient topics management system, it is required to retrieve information which the user is associated by integrating the query and browse smoothly.

【0014】最後に、このようなトピック管理システムは、収集した情報を容易に共有する手段を提供することが必要である。 [0014] Finally, such a topic management system, it is necessary to provide a means to easily share the collected information. つまり、一度特定のトピックの情報が集められ編成された場合には、このトピックへの共通の関心を持つ様々な利用者によって、情報を共有して共同で扱えることが必要である。 That is, when the information for a specific topic has been collected knitted once, by a common interest various users to this topic, it is necessary to handle jointly share information.

【0015】 ハイパーテキストのクラスタリング(Clus [0015] of hypertext clustering (Clus
tering) tering) 関連する情報ノードをグループ化することにより、ハイパーテキスト・ネットワークの複雑さを減少させるアイデアは、初期のハイパーテキスト・システムにおいても使用されていた。 By grouping related information nodes, the idea of ​​reducing the complexity of hypertext networks, was also used in the initial hypertext system. これらの初期のシステムのいくつかは、ハイパーテキストをドキュメントの1つのセットとして表現している。 Some of these early systems, which represent the hypertext as one of a set of documents.

【0016】このモデルによれば、ドキュメントの本文解析に基づくクラスター化アルゴリズムは、関連する情報のクループ化のために用いられた(参照、“D. Crouc According to this model, the clustering algorithm based on body analysis of documents, was used for croup of relevant information (see, "D. Crouc
h, C. Crouch, and G. Andreas, The Use of Cluster H h, C. Crouch, and G. Andreas, The Use of Cluster H
ierarchies in Hypertext Information Retrieval, Pro ierarchies in Hypertext Information Retrieval, Pro
ceedings of ACM Hypertext '89 Conference, pages225 ceedings of ACM Hypertext '89 Conference, pages225
-237, Pittsburgh, PA, November 1989 and P. Gloor, -237, Pittsburgh, PA, November 1989 and P. Gloor,
Cybermap: Yet Another Way of Navigating in Hypersp Cybermap: Yet Another Way of Navigating in Hypersp
ace, Proceedings of ACM Hypertext'91 Conference, p ace, Proceedings of ACM Hypertext'91 Conference, p
ages 107-121, San Antonio, TX, December 199 ages 107-121, San Antonio, TX, December 199
1.”)。 1. ").

【0017】また、他の場合においては、ハイパーテキストの構造を説明するグラフに基づいて、クラスタリングのための類似性を判定するものである。 [0017] In other cases, based on the graph describing the structure of the hypertext, it is to determine the similarity for clustering. よって、クラスタリングのためにグラフアルゴリズムを用いるのである。 Therefore, it is to use a graph algorithm for clustering. 例えば、リンクにより接続されたノードを、類似していると考えるのである(参照、“R. Botafogo andB. For example, the connected nodes by the link is to assume similar (see, "R. Botafogo andB.
Shneiderman, Identifying Aggregates in Hypertext S Shneiderman, Identifying Aggregates in Hypertext S
tructures, In Proceedings of ACM Hypertext '91 Con tructures, In Proceedings of ACM Hypertext '91 Con
ference, pages 63-74, San Antonio, TX, December 19 ference, pages 63-74, San Antonio, TX, December 19
91 and Y. Hara, A. Keller, and G. Wiederhold, Impl 91 and Y. Hara, A. Keller, and G. Wiederhold, Impl
ementing Hypertext Database Relationships Through ementing Hypertext Database Relationships Through
Aggregations and Exceptions, Proceedings of ACM Hy Aggregations and Exceptions, Proceedings of ACM Hy
pertext'91 Conference, pages 75-90, San Antonio, T pertext'91 Conference, pages 75-90, San Antonio, T
X, December 1991.”)。 X, December 1991. ").

【0018】最近では、従来のクラスタリングの技術の修正により、ウェブに用いることができるものに発展されている。 [0018] In recent years, by the modification of the technology of the conventional clustering, it has been developed into those that can be used in the web. 例えば、XEROX PARC(Palo Alto For example, XEROX PARC (Palo Alto
Reseach Center)において研究された、クラスタリングを用いてウェブから有用な構造を抜き出す技術が、“P. Was studied in Reseach Center), is a technique for extracting useful structure from the web by using the clustering, "P.
Pirolli, J. Pitkow, and R. Rao, Silk from a Sow's Pirolli, J. Pitkow, and R. Rao, Silk from a Sow's
Ear: Extracting Usable Structures from the Web, P Ear: Extracting Usable Structures from the Web, P
roceedings of the ACM SIGCHI'96 Conference on Huma roceedings of the ACM SIGCHI'96 Conference on Huma
n Factors in Computing Systems, pages 118-125, Van n Factors in Computing Systems, pages 118-125, Van
couver, Canada, April 1996 and J. Pitkow and P. Pi couver, Canada, April 1996 and J. Pitkow and P. Pi
rolli, Life, Death and Lawfulness on the Electroni rolli, Life, Death and Lawfulness on the Electroni
c Frontier, in Proceedings of the ACM SIGCHI'97 Co c Frontier, in Proceedings of the ACM SIGCHI'97 Co
nference on Human Factors in Computing Systems, pa nference on Human Factors in Computing Systems, pa
ges 383-390, Atlanta, GA, March 1997.”において述べられている。これは、共通の引用の解析(co-citatio ges 383-390, Atlanta, GA, has been described in March 1997. ". This is the analysis of the common citation (co-citatio
n analysis)等の、様々な基準に基づいてクラスターを定めている。 Of n analysis) and the like, defines a cluster based on various criteria.

【0019】 ワールド・ワイド・ウェブの視覚化 [0019] The visualization of the World Wide Web ウェブサイト上に含まれている情報を視覚化するための、いくつかのシステムが開発されている。 In order to visualize the information contained on the web site, it is some of the systems have been developed. 例えば、ナビゲーショナル・ビュー・ビルダー(Navigational Vie For example, Navigational View Builder (Navigational Vie
w Builder)や、ハーモニー・インターネット・ブラウザ(Harmony Internet Browser)や、ナルシサスシステム(Narcissus system)がある。 w Builder) and, Harmony Internet browser (Harmony Internet Browser) and, there is a null Shi suspension system (Narcissus system).

【0020】ナビゲーショナル・ビュー・ビルダー(Na [0020] Navigational View Builder (Na
vigational View Builder)は、“S. Mukherjea and J. vigational View Builder) is, "S. Mukherjea and J.
Foley, Visualizing the World-Wide Web with the Na Foley, Visualizing the World-Wide Web with the Na
vigational View Builder, Computer Networks and ISD vigational View Builder, Computer Networks and ISD
N Systems, Special Issue on the Third Internationa N Systems, Special Issue on the Third Internationa
l World-Wide Web Conference, Darmstadt, Gerntany, l World-Wide Web Conference, Darmstadt, Gerntany,
27(6), pages 1075-1087, April 1995.”において説明されている。 27 (6), pages 1075-1087, is described in April 1995. Detailed ".

【0021】ハーモニー・インターネット・ブラウザ(Harmony Internet Browser)は、“K. Andrews, Visu [0021] Harmony Internet browser (Harmony Internet Browser) is, "K. Andrews, Visu
alizing Cyberspace: Information Visualization in t alizing Cyberspace: Information Visualization in t
he Harmony Internet Browser, Proceedings of the 19 he Harmony Internet Browser, Proceedings of the 19
95 Information VisualizationSymposium, pages 97-10 95 Information VisualizationSymposium, pages 97-10
4, Atlanta, GA, 1995.”において説明されている。 4, Atlanta, GA, are described in 1995. ".

【0022】ナルシサスシステム(Narcissus system) [0022] Naru Shi suspension system (Narcissus system)
は、“R. Hendley, N. Drew, A. Wood, and R. Beale, Is, "R. Hendley, N. Drew, A. Wood, and R. Beale,
Narcissus: Visualizing Information, Proceedings of Narcissus: Visualizing Information, Proceedings of
the1995 Information Visualization Symposium, page the1995 Information Visualization Symposium, page
s 90-96, Atlanta, GA, 1995.”において説明されている。 s 90-96, are described in Atlanta, GA, 1995. ".

【0023】ワールド・ワイド・ウェブの検索結果のための視覚化の様々な技術が、更に発展をしてきている。 [0023] A variety of techniques of visualization for the World Wide Web search results, has been further development.

【0024】例えば、ウェブクエリー・システム(WebQ [0024] For example, web query system (WebQ
uery system)においては、オリジナルの検索結果のリスト内のページから、又そのリスト内のページに対してリンクする全てのページに対する検索結果を、視覚化することができる。 In uery system), from the page in the list of the original search results, and the search results for all pages that link to the page of the list, it can be visualized. このウェブクエリー・システム(WebQ This web query system (WebQ
uery system)は、“J. Carriere and R. Kazman, Sear uery system) is, "J. Carriere and R. Kazman, Sear
ching and Visualizing the Web through Connectivit ching and Visualizing the Web through Connectivit
y, Proceedings of theSixth International World-Wid y, Proceedings of theSixth International World-Wid
e Web Conference, pages 701-711, Santa Clara, CA, e Web Conference, pages 701-711, Santa Clara, CA,
April 1997.”において説明されている。 It is described in April 1997. ".

【0025】他の例として、ウェブブック(WebBook) [0025] As another example, web book (WebBook)
があり、これは、三次元空間の様々な状態の中に、検索結果を編成し処理することを潜在的に可能にする(参照、“S. Card, G. Robertson, and W. York, The WebB There is, this is in various states of the three-dimensional space, find that the results organize the process potentially possible to (see, "S. Card, G. Robertson, and W. York, The WebB
ook and the Web Forager: An Information Workspace ook and the Web Forager: An Information Workspace
for the World-Wide Web, Proceedings of the ACM SIG for the World-Wide Web, Proceedings of the ACM SIG
CHI '96 Conference on Human Factors in Computing S CHI '96 Conference on Human Factors in Computing S
ystems, pages 112-117, Vancouver, Canada, April 19 ystems, pages 112-117, Vancouver, Canada, April 19
96.”)。 96. ").

【0026】 ワールド・ワイド・ウェブのトピック管理 [0026] The topic management of the World Wide Web 最近では、特定のトピックに関連するウェブページを収集し、そのコレクション内の重要なページを決定することに、多くの関心が集まっている。 In recent years, collects the web page associated with a particular topic, to be used to determine an important page in the collection, there has been a lot of interest. 指定されたトピックのウェブページを集中して収集するクローラ(crawle Crawler to collect and concentrate the web page of the specified topic (crawle
r)は、“S. Chakrabarti, M. van den Berg, and B. D r) is, "S. Chakrabarti, M. van den Berg, and B. D
om, Focussed Crawling: a New Approachto Topic-spec om, Focussed Crawling: a New Approachto Topic-spec
ific Web Resource Discovery, Proceedings of the Ei ific Web Resource Discovery, Proceedings of the Ei
ghth International World-Wide Web Conference, page ghth International World-Wide Web Conference, page
s 545-562, May 1999.”において説明されている。 s 545-562, are described in May 1999. ".

【0027】他のアプローチとしては、HITSアルゴリズムにおいて実現するものであり、コレクション内のオーソリティページやハブ・ページを識別するために開発されたこのアプローチは、“J. Kleinberg, Authorit [0027] The other approach, is intended to achieve in the HITS algorithm, this approach has been developed in order to identify the authority page or hub page in the collection, "J. Kleinberg, Authorit
ative Sources in a Hyperlinked Environment, Procee ative Sources in a Hyperlinked Environment, Procee
dings of the 9th ACM-SIAM Symposium on DiscreteAlg dings of the 9th ACM-SIAM Symposium on DiscreteAlg
orithms, May 1998.”において説明されている。 orithms, it is described in May 1998. ".

【0028】オーソリティページは、かかるトピックにおける他のドキュメントから頻繁に引用されるページであり、このため数多くのリンクがこのページに向けられている。 [0028] The authority page is a page that is frequently quoted from other documents in such a topic, a number of links for this purpose are directed to this page.

【0029】一方、ハブは、かかるトピックに関連する他の多くのページに対してリンクするものであり、よってハブは多くのアウトリンクを持つ。 [0029] On the other hand, the hub, is intended to link to other many pages associated with such topics, thus hub has a lot of out link.

【0030】上記のアルゴリズムは、CLEVERや、 [0030] The above algorithm, and CLEVER,
Topic Distillation system Topic Distillation system
において、更に洗練された。 In, it has been further refined.

【0031】このCLEVERシステムは、“S. Chakr [0031] The CLEVER system, "S. Chakr
abarti, B. Dom, D. Gibson, J. Kleinberg, P. Raghav abarti, B. Dom, D. Gibson, J. Kleinberg, P. Raghav
an, and S. Rajagopalan, Automatic Resource Compila an, and S. Rajagopalan, Automatic Resource Compila
tionby Analyzing Hyperlink Structure and Associate tionby Analyzing Hyperlink Structure and Associate
d Text, Computer Networksand ISDN Systems, Special d Text, Computer Networksand ISDN Systems, Special
Issue on the Seventh International World-WideWeb Issue on the Seventh International World-WideWeb
Conference, Brisbane, Australia, 30(1-7), April 19 Conference, Brisbane, Australia, 30 (1-7), April 19
98.”において説明されている。 It is described in 98. ".

【0032】Topic Distillation [0032] Topic Distillation
systemは、“K. Bharat andM. Henzinger, Impro system is, "K. Bharat andM. Henzinger, Impro
ved Algorithms for Topic Distillation in a Hyperli ved Algorithms for Topic Distillation in a Hyperli
nked Environment, Proceedings of the ACM SIGIR '98 nked Environment, Proceedings of the ACM SIGIR '98
Conference on Research and Development in Informa Conference on Research and Development in Informa
tion Retrieval, pages 104-111, Melbourne, Australi tion Retrieval, pages 104-111, Melbourne, Australi
a, August 1998.”において説明されている。 a, it is described in August 1998. ".

【0033】この技術は、ウェブトピック管理においてとても重要である。 [0033] This technique is very important in the web topic management.

【0034】Mapuccino (以前は、WebC [0034] Mapuccino (formerly, WebC
utter)と、TopicShopは、ウェブトピック管理の為に開発された2つのシステムである。 And utter), TopicShop are two systems that have been developed for the web topic management.

【0035】Mapuccinoは、“I. Shaul, WebC [0035] Mapuccino is, "I. Shaul, WebC
utter: A System for Dynamic andTailorable Site Map utter: A System for Dynamic andTailorable Site Map
ping, In Proceedings of the Sixth International Wo ping, In Proceedings of the Sixth International Wo
rld-Wide Web Conference, pages 713-722, Santa Clar rld-Wide Web Conference, pages 713-722, Santa Clar
a, CA, April 1997; M. Hersovici, M. Jacovi, Y Maar a, CA, April 1997; M. Hersovici, M. Jacovi, Y Maar
ek, D. Pelleg, M. Shtalheim, and S. Ur, The Shark- ek, D. Pelleg, M. Shtalheim, and S. Ur, The Shark-
Search Algorithm - an Application: Tailored Web Si Search Algorithm - an Application: Tailored Web Si
te Mapping, Computer Networks and ISDN Systems, Sp te Mapping, Computer Networks and ISDN Systems, Sp
ecial Issue on the Seventh InternationalWorld-Wide ecial Issue on the Seventh InternationalWorld-Wide
Web Conference, Brisbane, Australia, 30(1-7), Apr Web Conference, Brisbane, Australia, 30 (1-7), Apr
il 1998; andI. Ben Shaul, M. Hersovici, M. Jacovi, il 1998;. andI Ben Shaul, M. Hersovici, M. Jacovi,
Y. Maarek, D. Pelleg, M. Shtalheim, V. Soroka, an Y. Maarek, D. Pelleg, M. Shtalheim, V. Soroka, an
d S. Ur, Adding Support for Dynamic and Focussed S d S. Ur, Adding Support for Dynamic and Focussed S
earchwith Fetuccino, Proceedings of the Eighth Int earchwith Fetuccino, Proceedings of the Eighth Int
ernational World-Wide WebConference, pages 575-58 ernational World-Wide WebConference, pages 575-58
8, May 1999.”において説明されている。 It is described in 8, May 1999. ".

【0036】TopicShopは、“L. Terveen and [0036] TopicShop is, "L. Terveen and
H. Will, Finding and Visualizing Intersite Clan G H. Will, Finding and Visualizing Intersite Clan G
raphs, In Proceedings of the ACM SIGCHI '98 Confer raphs, In Proceedings of the ACM SIGCHI '98 Confer
enceon Human Factors in Computing Systems, pages 4 enceon Human Factors in Computing Systems, pages 4
48-455, Los Angeles, CA,April 1998 and B. Amento, 48-455, Los Angeles, CA, April 1998 and B. Amento,
W. Hill, L. Terveen, D. Hix, and P. Ju, An Empiric W. Hill, L. Terveen, D. Hix, and P. Ju, An Empiric
al Evaluation of User Interfaces for Topic Managem al Evaluation of User Interfaces for Topic Managem
ent of Web Sites,In Proceedings of the ACM SIGCHI ent of Web Sites, In Proceedings of the ACM SIGCHI
'99 Conference on Human Factors in Computing Syst '99 Conference on Human Factors in Computing Syst
ems, pages 552-559, Pittsburgh, PA, May 1999.”において説明されている。 ems, pages 552-559, is described Pittsburgh, PA, in May 1999. In ".

【0037】 [0037]

【発明が解決しようとする課題】この双方のシステムは、特定のトピックに関連するウェブページを収集するためにクローラを使用している。 THE INVENTION The problem to be solved by the system of the two sides, are using a crawler to collect the web page associated with a particular topic. これらのシステムは、 These systems,
利用者が検索結果の情報空間をナビゲートできるように様々なタイプの視覚化を使用する。 User uses the visualization of various types so as to be able to navigate the information space of the search results. Mapuccino Mapuccino
がウェブページのコレクションとして情報を示す一方で、TopicShopはウェブサイトのコレクションとして情報を示す。 But while indicating information as a collection of web pages, TopicShop shows the information as a collection of web site.

【0038】これらのシステムの重要な欠点は、特定のトピックの情報のコレクションを、1つの抽象的レベルのみに表示することである。 The significant drawback of these systems, a collection of information for a specific topic is to display only one abstract level. 更に、これらのシステムは、問い合わせと閲覧(querying and browsing)を統合していない。 In addition, these systems are not integrated query and browse the (querying and browsing).

【0039】前に強調したように、利用者の焦点に基づく様々な抽象的レベルに情報を表すことは、とても効果的である。 [0039] As highlighted before, to represent the information in a variety of abstract level based on the focus of the user, it is very effective. 更に、トピック管理システムが、利用者に対し、関連する情報の検索の問い合わせとブラウジングの統合を可能にすべきである。 In addition, topics management system, to the user, should allow the integration of the search query and browsing of related information.

【0040】従って、利用者が特定のトピックに関連する情報を収集し編成することができ、かつ情報空間を容易にナビゲートする手段を提供するウェブトピック管理システムを備えることは、強く広くその必要が認識され、また高い利益がある。 [0040] Therefore, it is the user to collect information related to a particular topic can be organized, and equipped with a web topic management system to provide a means to easily navigate through the information space, strongly widely need the there are recognized, also have higher profits.

【0041】本発明の第1の目的は、上記従来技術の欠点を解決し、利用者が特定のトピックに関連する情報を収集し編成することができ、かつ情報空間を容易にナビゲートすることができるウェブトピック管理システムを提供することである。 The first object of the present invention is to solve the drawbacks of the prior art, to collect information the user about a specific topic can be organized, and the information space easily navigate it is to provide a web topic management system that can.

【0042】本発明の第2の目的は、上記従来技術の欠点を解決し、情報を様々な抽象的レベルに表すことができ、また関連する情報の検索の問い合わせとブラウジングを統合したウェブトピック管理システムを提供することである。 The second object of the present invention, the solve the drawbacks of the prior art, information can be represented in a variety of abstraction levels, also web topic management integrated search query and browsing of related information it is to provide a system.

【0043】 [0043]

【課題を解決するための手段】上記目的を達成するため本発明のウェブトピック管理システムは、予め定められたトピックに関連するウェブページを収集し、インデックスを付し、編成する情報収集手段と、前記収集されたウェブページの中をナビゲートするユーザインタフェースを備えることを特徴とする。 Means for Solving the Problems] Web topics management system of the present invention for achieving the above object, collects the web page associated with the predetermined topic, given the index, the information collecting means for organizing, characterized in that it comprises a user interface to navigate among the collected web pages.

【0044】請求項2の本発明のウェブトピック管理システムは、前記情報収集手段は、前記ウェブページを収集するクローラを備えることを特徴とする。 [0044] Web topics management system of the present invention of claim 2, wherein the information collecting means, characterized in that it comprises a crawler collecting the web page.

【0045】請求項3の本発明のウェブトピック管理システムは、前記情報収集手段は、前記収集されたウェブページにインデックスを付す、フルテキストサーチエンジンと、前記ウェブページを多数の抽象的レベルに基づいて分類する、オーガナイザを備えることを特徴とする。 [0045] Web topics management system of the present invention of claim 3, wherein the information collection means, subjecting the index to the collected web pages, the basis of the full-text search engine, the web page into a number of abstract level classifying Te, characterized in that it comprises the organizer.

【0046】請求項4の本発明のウェブトピック管理システムは、前記収集されたウェブページの中をナビゲートするユーザインタフェースを、Javaアプレットとすることを特徴とする。 [0046] Web topics management system of the present invention of claim 4, the user interface to navigate among the collected web pages, characterized by a Java applet.

【0047】請求項5の本発明のウェブトピック管理方法は、ウェブにおける話題の情報を管理するウェブトピック管理方法において、(a)予め定められたトピックに関連するウェブページを収集し、インデックスを付し、編成するステップと、(b)前記収集されたウェブページの中をナビゲートするユーザインタフェースを提供するステップを備えることを特徴とする。 The web topic management method of the present invention of claim 5 is, in the web topic management method for managing the information of the topic in the web, collect the web pages related to a predetermined topic (a), with the index and, to the steps of knitting, characterized in that it comprises the step of providing a user interface to navigate through the web page (b) the collection.

【0048】請求項6の本発明のウェブトピック管理方法は、前記ステップ(a)は、クローラを用いて、前記ウェブページを収集することを特徴とする。 The web topic management method of the present invention of claim 6, wherein step (a), using the crawler, characterized by collecting the web page.

【0049】請求項7の本発明のウェブトピック管理方法は、前記ステップ(a)は、(1)クローラを用いて、前記ウェブページを収集するステップと、(2)フルテキストサーチエンジンを用いて、前記収集されたウェブページにインデックスを付すステップと、(3)オーガナイザを用いて、前記インデックスを付されたウェブページを、多数の抽象的レベルに基づいて、多数のグループに分類するステップを、備えることを特徴とする。 The web topic management method of the present invention of claim 7, wherein step (a), (1) the crawler with, and collecting the web page, using a (2) full-text search engine a step of subjecting an index to the collected web pages, and (3) Organizer with the step of the web pages indexed, based on a number of abstract level, classified into multiple groups, characterized in that it comprises.

【0050】請求項8の本発明のウェブトピック管理方法は、前記ステップ(b)は、前記提供するユーザインタフェースが、前記多数のグループの少なくとも1つをグラフィカルエレメントにより表示することを特徴とする。 The web topic management method of the present invention of claim 8, wherein step (b) includes a user interface to the provided, and displaying at least one graphical element of the plurality of groups.

【0051】請求項9の本発明のウェブトピック管理方法は、前記グラフィカルエレメントの画像の属性により、前記多数のグループの当該グラフィカルエレメントに対応する抽象的なレベルを表現することを特徴とする。 The web topic management method of the present invention of claim 9, the image attribute of the graphical element, characterized in that to represent the abstract level corresponding to the graphical element of the plurality of groups.

【0052】請求項10の本発明のウェブトピック管理方法は、前記グラフィカルエレメントの画像の属性により、前記多数のグループの当該グラフィカルエレメントにおける、前回情報を編集した日付を表現することを特徴とする。 [0052] Web topics management method of the present invention of claim 10, the image attribute of the graphical elements, in the graphical elements of the plurality of groups, characterized in that representing the date edited last information.

【0053】請求項11の本発明のウェブトピック管理方法は、前記ステップ(b)は、前記収集されたウェブページの中をナビゲートするユーザインタフェースを、 [0053] Web topics management method of the present invention of claim 11, wherein step (b) is a user interface to navigate among the collected web pages,
Javaアプレットとすることを特徴とする。 Characterized by a Java applet.

【0054】請求項12の本発明のウェブトピック管理方法は、前記ステップ(a)は、利用者が、前記予め定められたトピックに関連する少なくとも1つのシードウェブページを指定するステップと、少なくとも1つの前記シードウェブページを用いて、当該シードウェブページにおいて頻繁に生じる文言に基づき、標本文書ベクトルを生成するステップと、前記標本文書ベクトルを用いて、前記収集されたウェブページの、前記予め定められたトピックへの関連性を決定するステップを備えることを特徴とする。 [0054] Web topics management method of the present invention of claim 12, wherein step (a) includes the steps user, specifying at least one seed web page associated with the predetermined topic, at least 1 One of the uses of the seed web pages, based on the wording frequently occurring in the seed web pages, and generating a sample document vector, using said sample document vector, of the collected web pages, the predetermined characterized in that it comprises the step of determining the relevance to the topic.

【0055】請求項13の本発明のウェブトピック管理方法は、前記ステップ(a)は、利用者が、前記予め定められたトピックのための少なくとも1つのキーワードを指定するステップと、少なくとも1つの前記キーワードを用いて、少なくとも1つのシードウェブページを探し出すステップと、少なくとも1つの前記シードウェブページを用いて、当該シードウェブページにおいて頻繁に生じる文言に基づき、標本文書ベクトルを生成するステップと、前記標本文書ベクトルを用いて、前記収集されたウェブページの、前記予め定められたトピックへの関連性を決定するステップを備えることを特徴とする。 [0055] Web topics management method of the present invention of claim 13, wherein step (a), the user, the step of designating at least one keyword for the predetermined topic, at least one of the using keywords, comprising the steps of locating the at least one seed webpage comprising the steps of using at least one of the seed web page, based on the wording frequently occurring in the seed web page to generate a sample document vector, the specimen using the document vector, the web page said collection, characterized in that it comprises the step of determining the relevance to the predetermined topic.

【0056】請求項14の本発明のウェブトピック管理方法は、前記ステップ(a)は、(1)少なくとも1つのシードウェブページにインデックスを付すステップと、(2)少なくとも1つの前記シードウェブページを用いて、当該シードウェブページにおいて頻繁に生じる文言に基づき、標本文書ベクトルを生成するステップと、(3)前記シードウェブページにより参照される多数のウェブページをダウンロードするステップと、 [0056] Web topics management method of the present invention of claim 14, wherein step (a) includes the steps of subjecting the index to at least one seed web page (1), at least one of the seed web page (2) using the steps based on the wording frequently occurring in the seed web page to generate a sample document vector, the step of downloading a plurality of web pages referenced by (3) the seed web page,
(4)前記ダウンロードされた多数のウェブページのそれぞれと、前記標本文書ベクトルとの類似性が、予め定められたしきい値を越えるかどうかを判定するステップと、(5)前記ダウンロードされた多数のウェブページの内の、前記ステップ(4)において類似性が予め定められた前記しきい値を越えると判定された各ウェブページに、インデックスを付するステップと、(6)前記ダウンロードされた多数のウェブページの内の、前記ステップ(4)において類似性が予め定められた前記しきい値を越えると判定された各ウェブページを、待ち行列に追加するステップと、(7)前記待ち行列に含まれるウェブページによりリンクされる、第2の多数のウェブページをダウンロードするステップと、当該第2の多数のウェブページを、 (4) respectively of the downloaded multiple web pages were similarity between the sample document vector, determining whether more than a predetermined threshold, (5) the downloaded many of of the web pages, each web page is determined to exceed the threshold similarity predetermined in step (4), a step of subjecting the index, (6) the downloaded many of of the web pages, each web page is determined to exceed the threshold similarity predetermined in step (4), a step of adding to the queue, (7) in the queue are linked by the web page included, the step of downloading a second plurality of web pages, the second number of web pages, 記多数のウェブページに追加するステップと、前記待ち行列から、前記ダウンロードされた第2の多数のウェブページを削除するステップと、 And the step of adding comes to the large number of web pages, comprising the steps of: from the queue, to delete the second of a number of web pages that are the download,
(8)前記ステップ(4)からステップ(7)までの処理を、前記待ち行列が空となるまで繰り返すステップを、備えることを特徴とする。 (8) The processing of the steps (4) to step (7), wherein the queue is a step of repeating until empty, characterized in that it comprises.

【0057】請求項15の本発明のウェブトピック管理方法は、前記ステップ(3)の、前記シードウェブページにより参照されるダウンロード対象の多数のウェブページを、ウェブサイトのディレクトリ構造において、前記シードウェブページから近くにあるウェブページのみとすることを特徴とする。 [0057] Web topics management method of the present invention of claim 15, the step (3), a number of web pages to be downloaded to the referenced by seed webpage, in the directory structure of the web site, the seed web near from the page, characterized in that only the web page.

【0058】請求項16の本発明のウェブトピック管理方法は、前記ステップ(7)の、前記待ち行列に含まれるダウンロード対象の第2の多数のウェブページを、ウェブサイトのディレクトリ構造において、前記シードウェブページから近くにあるウェブページのみとすることを特徴とする。 [0058] Web topics management method of the present invention of claim 16, the step (7), a second plurality of web pages to be downloaded contained in the queue, the directory structure of the web site, the seed characterized in that it only web page in the vicinity from the web page.

【0059】請求項17の本発明のウェブトピック管理方法は、前記ステップ(3)の、前記シードウェブページにより参照される多数のウェブページのダウンロードにおいて、ウェブサイトのある1つのディレクトリから25ページ以上のウェブページをダウンロードし、かつ当該1つのディレクトリからダウンロードしたウェブページの90%以上が前記トピックに関連しない場合においては、当該1つのディレクトリからは、これ以上のウェブページをダウンロードしないことを特徴とする。 [0059] Web topics management method of the present invention of claim 17, wherein the step of (3), the download of a large number of web pages that are referenced by the seed web page, 25 or more pages from one directory with websites the download web pages, and when more than 90% of the web pages downloaded from the one directory not associated with the topic, from the one directory, and characterized in that it does not download any more webpages to.

【0060】請求項18の本発明のウェブトピック管理方法は、前記ステップ(7)の、前記待ち行列に含まれる第2の多数のウェブページのダウンロードにおいて、 [0060] Web topics management method of the present invention of claim 18, wherein the step of (7), the download of the second plurality of web pages contained in the queue,
ウェブサイトのある1つのディレクトリから25ページ以上のウェブページをダウンロードし、かつ当該1つのディレクトリからダウンロードしたウェブページの90 Download the web page of more than 25 pages from one of the directory that contains the web site, and the web page you downloaded from the one directory 90
%以上が前記トピックに関連しない場合においては、当該1つのディレクトリからは、これ以上のウェブページをダウンロードしないことを特徴とする。 % Or more in the case that is not related to the topic, from the one directory, characterized in that it does not download any more web pages.

【0061】請求項19の本発明のウェブトピック管理方法は、前記ステップ(a)は、(1)少なくとも1つのシードウェブページにインデックスを付すステップと、(2)少なくとも1つの前記シードウェブページを用いて、当該シードウェブページにおいて頻繁に生じる文言に基づき、標本文書ベクトルを生成するステップと、(3)前記シードウェブページにより参照される多数のウェブページをダウンロードするステップと、 [0061] Web topics management method of the present invention of claim 19, wherein step (a) includes the steps of subjecting the index to at least one seed web page (1), at least one of the seed web page (2) using the steps based on the wording frequently occurring in the seed web page to generate a sample document vector, the step of downloading a plurality of web pages referenced by (3) the seed web page,
(4)前記ダウンロードされた多数のウェブページのそれぞれと、前記標本文書ベクトルとの類似性が、予め定められたしきい値を越えるかどうかを判定するステップと、(5)前記ダウンロードされた多数のウェブページの内の、前記ステップ(4)において類似性が予め定められた前記しきい値を越えると判定された各ウェブページに、インデックスを付するステップと、(6)前記ダウンロードされた多数のウェブページの内の、前記ステップ(4)において類似性が予め定められた前記しきい値を越えると判定された各ウェブページを、待ち行列に追加するステップと、(7)前記待ち行列に含まれるウェブページによりリンクされる、第2の多数のウェブページをダウンロードするステップと、当該第2の多数のウェブページを、 (4) respectively of the downloaded multiple web pages were similarity between the sample document vector, determining whether more than a predetermined threshold, (5) the downloaded many of of the web pages, each web page is determined to exceed the threshold similarity predetermined in step (4), a step of subjecting the index, (6) the downloaded many of of the web pages, each web page is determined to exceed the threshold similarity predetermined in step (4), a step of adding to the queue, (7) in the queue are linked by the web page included, the step of downloading a second plurality of web pages, the second number of web pages, 記多数のウェブページに追加するステップと、前記待ち行列から、前記ダウンロードされた第2の多数のウェブページを削除するステップと、 And the step of adding comes to the large number of web pages, comprising the steps of: from the queue, to delete the second of a number of web pages that are the download,
(8)前記ステップ(4)からステップ(7)までの処理を、ダウンロードが指定された深さに達するまで繰り返すステップを、備えることを特徴とする。 (8) The processing of the steps (4) to step (7), the step of repeating until reaching the depth where download is specified, characterized in that it comprises.

【0062】請求項20の本発明のウェブトピック管理方法は、前記ステップ(1)の少なくとも1つの前記シードウェブページは、前記トピックに関連する利用者の指定したウェブページであることを特徴とする。 [0062] Web topics management method of the present invention of claim 20, at least one of the seed web page of the step (1) is characterized in that a web page specified by the user associated with the topic .

【0063】請求項21の本発明のウェブトピック管理方法は、前記ステップ(1)の少なくとも1つの前記シードウェブページを、前記トピックを表す利用者の指定したキーワードに基づくクエリーを用いて定められたウェブページとすることを特徴とする。 [0063] Web topics management method of the present invention of claim 21, at least one of the seed web page of the step (1) was determined using a query based on the keyword specified by the user indicating the topic It is characterized in that a web page.

【0064】請求項22の本発明のウェブトピック管理方法は、前記ステップ(a)の前記トピックに関連する前記ウェブページは、少なくとも1つのシードウェブページと、少なくとも1つの前記シードウェブページへのパスを備える、又は少なくとも1つの前記シードウェブページからのパスを備える前記シードウェブページの、 [0064] Web topics management method of the present invention of claim 22, wherein the web page associated with the topic of the step (a) includes at least one seed web page, at least one of said paths to seed webpage the provided, or the seed web page comprising a path from at least one of the seed web page,
少なくとも1つと類似する全てのページを備えることを特徴とする。 Characterized in that it comprises all the pages of at least one similar.

【0065】請求項23の本発明のウェブトピック管理方法は、少なくとも1つの前記シードウェブページは、 [0065] Web topics management method of the present invention of claim 23, at least one of the seed web page,
前記トピックに関連する利用者の指定したウェブページであることを特徴とする。 Characterized in that it is a web page specified by the user associated with the topic.

【0066】請求項24の本発明のウェブトピック管理方法は、少なくとも1つの前記シードウェブページは、 [0066] web topic management method of the present invention of claim 24, at least one of the seed web page,
前記トピックを表す利用者の指定したキーワードに基づくクエリーを用いて定められたウェブページとすることを特徴とする。 It is characterized in that a web page that is determined by using a query based on the keywords specified by the user representative of the topic.

【0067】請求項25の本発明のウェブトピック管理方法は、少なくとも1つの前記シードウェブページへのパスを備えるウェブページにおける、又は少なくとも1 [0067] Web topics management method of the present invention of claim 25, in a web page comprising at least one of said paths to seed a web page, or at least 1
つの前記シードウェブページからのパスを備えるウェブページにおける、少なくとも1つの前記シードウェブページとの類似性の判定を、前記トピックを参照して決定することを特徴とする。 One of the web pages comprising a path from the seed web page, the similarity determination that at least one of the seed web page, and determines by referring to the topic.

【0068】請求項26の本発明のウェブトピック管理方法は、前記ステップ(a)は、前記収集されたウェブページを、前記ウェブページの公開元のウェブサイトのディレクトリ構造を基に編成するステップを備えることを特徴とする。 [0068] Web topics management method of the present invention of claim 26, wherein step (a) is a web page said collection, the step of organizing based on the directory structure of the publisher of the website of the web page characterized in that it comprises.

【0069】請求項27の本発明のウェブトピック管理方法は、前記ステップ(a)は、前記収集されたウェブページを、前記ウェブページの公開元のウェブサイトの物理ドメインネームを基に編成するステップを備えることを特徴とする。 [0069] Web topics management method of the present invention of claim 27, wherein step (a), the collected web pages, organized on the basis of the physical domain name of publisher website of the web page step characterized in that it comprises a.

【0070】請求項28の本発明のウェブトピック管理方法は、前記ステップ(a)は、前記収集されたウェブページを、前記ウェブページの公開元の論理ウェブサイトに基づいて編成するステップを備えることを特徴とする。 [0070] Web topics management method of the present invention of claim 28, wherein step (a), the collected web page, further comprising the step of organizing based on the public source logical website of the web page the features.

【0071】請求項29の本発明のウェブトピック管理方法は、前記ステップ(a)は、前記収集されたウェブページを含む任意のウェブサイトの組において、前記ウェブサイトの組の第1ウェブサイトが、前記ウェブサイトの組の第2ウェブサイトにおける第2ウェブページへのリンクを持つ第1ウェブページを含み、かつ更に、前記ウェブサイトの組の第2ウェブサイトが、前記ウェブサイトの組の第1ウェブサイトにおける第4ウェブページへのリンクを持つ第3ウェブページを含む、場合でありかつこの場合に限り、前記ウェブサイトの組を互いにより強く結びついたコンポーネントに分類することを特徴とする。 [0071] Web topics management method of the present invention of claim 29, wherein step (a), the set of any web site that contains the collected web page, the first web site set of web sites includes a first web page with a link to a second web page in the set of second website of the website, and further, the second set website of the website, the set of the web site a third web page with a link to the fourth web page of the first web site, a is and only this case, characterized by classifying said set of website strongly associated components from each other.

【0072】請求項30の本発明のウェブトピック管理方法は、前記ステップ(a)は、前記収集されたウェブページを含む任意のウェブサイトの組において、前記収集されたウェブページを含む任意のウェブサイトの組において、前記ウェブサイトの組の第1ウェブサイトが、 [0072] Web topics management method of the present invention of claim 30, wherein step (a), the set of any web site that contains the collected web pages, any web comprising the collected web pages in the set of sites, the first web site set of web sites,
前記ウェブサイトの組の第2ウェブサイトにおける第2 The second in the set of the second web site of the web site
ウェブページへのリンクを持つ第1ウェブページを含み、かつ更に、前記ウェブサイトの組の第2ウェブサイトが、前記ウェブサイトの組の第1ウェブサイトにおける第4ウェブページへのリンクを持つ第3ウェブページを含む、場合でありかつこの場合に限り、前記ウェブサイトの組を互いに結びついたコンポーネントに分類することを特徴とする。 Includes a first web page with a link to a web page, and further, the second set website of the website, the with a link to the fourth web page in the set of the first web site of the web site 3 includes a web page, a is and only this case, characterized by classifying a set of components associated with each other of the web site.

【0073】請求項31の本発明のウェブトピック管理方法は、前記ステップ(a)は、前記ウェブページを収集し、インデックスを付し、分類した後に、当該ウェブページを複数の利用者により利用可能とすることを特徴とする。 [0073] Web topics management method of the present invention of claim 31, wherein step (a) collects the web page, given the index, after classification, can utilize the web page of a plurality of users characterized by a.

【0074】請求項32の本発明のウェブトピック管理方法は、前記ステップ(a)は、前記収集されたウェブページを表形式に表示するステップを備えることを特徴とする。 [0074] Web topics management method of the present invention of claim 32, wherein step (a) is characterized by comprising the step of displaying the collected web page table format.

【0075】請求項33の本発明のウェブトピック管理方法は、前記表形式によるウェブページの表示においては、多数のフィールドを備え、前記多数のフィールドは、URLのフィールド、ページ数のフィールド、ハブスコアのフィールド、を備えることを特徴とする。 [0075] Web topics management method of the present invention of claim 33 is a display of a web page according to the table format, comprises a number of fields, said plurality of fields, field URL, the number of pages of the fields, the hub score field, characterized in that it comprises a.

【0076】請求項34の本発明のウェブトピック管理方法は、前記収集されたウェブページは、前記多数のフィールドのそれぞれに基づいてソートできることを特徴とする。 [0076] Web topics management method of the present invention of claim 34, the collected web pages, characterized by their ability to sort on the basis of each of the plurality of fields.

【0077】請求項35の本発明のウェブトピック管理方法は、前記ステップ(b)は、前記多数のグループを表示するステップと、前記多数のグループのそれぞれをグラフィカルエレメントにより表示するステップと、前記多数のグループのそれぞれを、利用者がその抽象的な階層を参照するために選択するステップを備えることを特徴とする。 [0077] Web topics management method of the present invention of claim 35, wherein step (b) includes the step of displaying the plurality of groups, and displaying each of the plurality of groups by the graphical elements, the number each group and user, characterized in that it comprises the step of selecting to refer to the abstract hierarchy.

【0078】請求項36の本発明のウェブトピック管理方法は、前記多数のグループの内で、予め定められた選別基準を満たすグループのみを表示することを特徴とする。 [0078] Web topics management method of the present invention of claim 36, among the plurality of groups, and displaying only a group that meet the screening criteria determined in advance.

【0079】請求項37の本発明のウェブトピック管理方法は、グループが前記予め定められた選別基準を満たすことを、前記グループが最適オーソリティカバー内にあり、かつこの場合のみとすることを特徴とする。 [0079] Web topics management method of the present invention of claim 37 has a feature that the group to satisfy the selection criteria set in advance, the group is in the best authority within the cover, and the only this case to.

【0080】請求項38の本発明のウェブトピック管理方法は、グループが前記予め定められた選別基準を満たすことを、前記グループが最適ハブカバー内ににあり、 [0080] Web topics management method of the present invention of claim 38, that satisfies the selection criteria a group the predetermined said group is in within an optimal hub cover,
かつこの場合のみとすることを特徴とする。 And characterized by only this case.

【0081】請求項39の本発明のウェブトピック管理方法は、前記グラフィカルエレメントの画像の属性により、当該グループ内のウェブページの数を表現することを特徴とする。 [0081] Web topics management method of the present invention of claim 39, the image attribute of the graphical element, characterized in that to represent the number of web pages in the group.

【0082】請求項40の本発明のウェブトピック管理方法は、前記グラフィカルエレメントの画像の属性により、当該グループ内のウェブページを前回編集した日付を表現することを特徴とする。 [0082] Web topics management method of the present invention of claim 40, the image attribute of the graphical element, characterized in that to represent the date on which the web page has been edited last in the group.

【0083】請求項41の本発明のウェブトピック管理方法は、前記グラフィカルエレメントの画像の属性により、当該グループの抽象的なレベルを表現することを特徴とする。 [0083] Web topics management method of the present invention of claim 41, the image attribute of the graphical element, characterized in that to represent the abstract level of the group.

【0084】請求項42の本発明のウェブトピック管理方法は、前記多数のグループのそれぞれを、当該グループに含まれるウェブページの権限スコアに応じて表示することを特徴とする。 [0084] Web topics management method of the present invention of claim 42, wherein each of the plurality of groups, and displaying in response to the authority score of the web pages included in the group.

【0085】請求項43の本発明のウェブトピック管理方法は、前記収集されたウェブページを、少なくとも1 [0085] Web topics management method of the present invention of claim 43, the collected web pages, at least 1
つの基準に基づいて選別されたものとすることを特徴とする。 One of the features that shall sorted based on the reference.

【0086】請求項44の本発明のウェブトピック管理方法は、少なくとも1つの前記基準を、前記ウェブページの更新日時とすることを特徴とする。 [0086] Web topics management method of the present invention of claim 44, at least one of said reference, characterized in that the modification date and time of the web page.

【0087】請求項45の本発明の視覚化方法は、多数のウェブページのそれぞれの、予め選択されたウェブページとの関連の視覚化方法において、前記多数のウェブページのそれぞれを、2次元の座標による画像フォーマットにより表示するステップと、表示された各前記ウェブページの第1座標により、前記予め選択されたウェブページと表示された当該ウェブページとの間の、意味的な類似性を表現するステップと、表示された各前記ウェブページの第2座標により、前記予め選択されたウェブページと表示された当該ウェブページとの間の、構造的な類似性を表現するステップを備えることを特徴とする。 [0087] Visualization method of the present invention of claim 45, each of a number of web pages, in the context of the visualization method of the preselected web page, the respective number of web pages, the two-dimensional and displaying the image format by the coordinate, the first coordinate of each of the web page displayed, between the preselected web page as displayed the web page, to express semantic similarity a step, by the second coordinate of each of the web page displayed, between the preselected web page as displayed the web page, and further comprising a step of expressing a structural similarity to.

【0088】請求項46の本発明の視覚化方法は、前記選択されたウェブページと表示された前記ウェブページとの間の構造的な類似性を、当該選択されたウェブページと当該表示されたウェブページとの間の、直接又間接のリンクの存在を基に算出することを特徴とする。 [0088] Visualization method of the present invention of claim 46, the structural similarities between the web page displayed to the selected web page, which is a web page and the display, which is the selected and calculating on the basis between the web page, the presence of a direct addition indirect link.

【0089】請求項47の本発明の視覚化方法は、前記選択されたウェブページと表示された前記ウェブページとが、直接のリンクにより結合されている場合には、前記構造的な類似性の値を“1”増加させるステップと、 [0089] Visualization method of the present invention of claim 47, said web page which the labeled selected web page, if they are coupled by direct link, the structural similarities comprising the steps of "1" increases the value,
前記選択されたウェブページと表示された前記ウェブページとが、間接的なリンクにより結合されている場合には、前記構造的な類似性の値を“0.5”増加させるステップを備えることを特徴とする。 And the web page that the labeled selected web page, if they are bound by the indirect link, further comprising the step of "0.5" to increase the value of the structural similarity and features.

【0090】請求項48の本発明の視覚化方法は、前記間接的なリンクを、中間リンク、共通参照リンク、共通引用リンク、のいずれか1つとすることを特徴とする。 [0090] Visualization method of the present invention of claim 48, the indirect link, the intermediate link, the common reference links, characterized by one common reference links, either.

【0091】 [0091]

【発明の実施の形態】以下、本発明の実施の形態について図面を参照して詳細に説明する。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, will be described in detail with reference to the drawings, embodiments of the present invention.

【0092】 情報の収集と編成 [0092] collection of information and organization 本発明のウェブトピック管理システム(Web topic mana Web topic management system of the present invention (Web topic mana
gement system)は、情報収集を行うギャザー(gathere gement system) is, gather to perform the information collection (gathere
r)とユーザインタフェースとの2つを、主な構成要素として備える。 Two of r) and the user interface comprises a main component.

【0093】この情報収集においては、利用者により特定されたトピックに関連するウェブページを集めるクローラ(crawler)を用いる。 [0093] In this information collection, use a crawler to collect the web page associated with the specified by the user topic (crawler). フルテキストサーチエンジンは、これらのページにインデックスを付けるために使用され、オーガナイザ(organizer)は、これらのページを様々な抽象的なレベルに分類する。 Full-text search engine is used to index these pages, organizer (organizer) is, to classify these pages in a variety of abstract level.

【0094】本実施の形態のウェブトピック管理システムのユーザインタフェースは、Javaアプレット(Ja [0094] The user interface of the web topic management system of the present embodiment, Java applets (Ja
va applet)を用いて、集められた情報空間をナビゲートする。 Using va applet), the collected information space to navigate.

【0095】次に、情報を収集し編成するための、このギャザー(gatherer)による処理を説明する。 [0095] Next, for organizing and gathering information, the processing by the gather (gatherer). また、ここで特定のトピックに関して集められた情報を、以下そのトピックのコレクションと呼ぶものとする。 Further, where the collected information with respect to a particular topic, shall be hereinafter referred to as the collection of the topic.

【0096】 クローリング(Crawling) [0096] crawling (Crawling) 個々の話題に関連するウェブページを収集するためには、利用者はまず、その話題に適したあるシードドキュメント(seed document)を指定しなくてはならない。 In order to collect the web page associated with individual topic, the user first, must specify the topic a seed document that is suitable for (seed document).

【0097】インターネット上の情報検索の熟練者においては、このシードドキュメントを、インターネット上のドキュメントの位置を記述するユニフォーム・リソース・ロケーター(URL)を用いて容易に指定することができるだろう。 [0097] In the person of ordinary skill in information retrieval on the Internet, the seed document, will be able to easily specified using to describe the position of the document on the Internet Uniform Resource Locator (URL). しかし、そうでない場合には、利用者が、 However, if this is not the case, the user,
興味のあるトピックのための一揃いのキーワードを指定し、そしてクローラ(crawler)が、指定されたキーワードによる検索を人気のあるウェブサーチエンジンに対して要求する。 Specify one set of keywords for a topic of interest, and the crawler (crawler) is, to request a search by the specified keyword to the web search engine that popular. また、クローラは、こうした検索の結果をシードドキュメントとして用いることができる。 Also, the crawler may use the results of such search as a seed document.

【0098】シードドキュメントが識別された後にクローラは、それらをダウンロードして、シードドキュメントの中で頻繁に生じるキーワードに基づく標本文書ベクトル(RDV、representative document vector)を生成する。 [0098] crawler after the seed document is identified, then download them, to produce a sample document vector based on the keywords that frequently occur in the seed document (RDV, representative document vector).

【0099】続いて、クローラは、シードドキュメントが参照するページをダウンロードする。 [0099] Subsequently, the crawler downloads a page that seed document refers to. ここでもし、ダウンロードされたページとRDVとの類似性が、予め定められた第1の閾値よりも大きい場合には、そのダウンロードされたページをテキストサーチエンジンによりインデックスを付し、更にダウンロードされたページからのリンク先を待ち行列に追加する。 And again, similarity between downloaded pages and RDV is greater even than the first predetermined threshold value, the downloaded pages attaching an index by the text search engine, which is further downloaded to add to the link destination queue from the page.

【0100】ここで、シードドキュメント又は待ち行列の中の他のドキュメントからのリンクを、アウトリンク(out-links)と呼ぶこととする。 [0100] In this case, the links from other documents in the seed document or queue, will be referred to as out link (out-links). そして、この待ち行列が空になるか、利用者が指定した制限に達するまで、 And, until the queue is put in the sky, it reaches the limit specified by the user,
クローラはアウトリンク(out-links)をたどり続けるのである。 Crawler is to continue to follow the out link (out-links).

【0101】クローラは、同様に、シードURL(シードドキュメントのURL)に向けられているページ(例えば、シードURLへのリンクを備えるページ)を決定する。 [0101] crawler, as well, to determine the page that is directed to seed URL (URL of the seed document) (for example, a page with a link to the seed URL). 例えば、アルタビスタ(AltaVista)やグーグリ(Google)のようなサーチエンジンに対して、“link: For example, with respect to search engines such as AltaVista (AltaVista) and Guguri (Google), "link:
u”の検索要求を行うと、当該URL“u”に向けられている全ての利用可能なページが返されるのである。 "When you do a search request, the URL" u is that all of the available pages that are directed to u "is returned.

【0102】そして同様にして、クローラは、こうしたページをダウンロードし、もし、ダウンロードされたページとRDVとの類似性が、予め定められた第2の閾値よりも大きい場合には、そのダウンロードされたページにインデックスを付し、更にこれらのページに向けられたURLを待ち行列に追加する。 [0102] Then in a similar manner, the crawler downloads these pages, if the similarity between the downloaded pages and RDV is greater even than the second predetermined threshold value, which is the downloaded denoted by the index page, further added to the URL queue directed to these pages. ここで、第1と第2の閾値の値は、同じ値であっても異なる値であってもよい。 Here, the value of the first and second threshold may be either the same value different values.

【0103】ここで、シードドキュメント又は待ち行列の中の他のドキュメントに対して向けられたリンクを、 [0103] In this case, the link that has been directed against the other documents in the seed document or queue,
インリンク(in-links)と呼ぶこととする。 Will be referred to as in-link (in-links). そして、この待ち行列が空になるか、利用者が指定した制限に達するまで、クローラはインリンク(in-links)をたどり続けるのである。 And, if this queue is empty, until it reaches the limit specified by the user, the crawler is to continue to follow the in-link (in-links).

【0104】こうしたクローラによるクローリング(情報の収集)の処理が終わると、収集されたウェブページのコレクションは、当該シードURLにより構成されたのであり、その全てのページは、シードURLのページに類似し、シードURLへのパス又はシードURLからのパスを備える。 [0104] When the process of crawling by such crawler (collection of information) is completed, the collected of the web page collection is than constructed by the seed URL, all of its pages, similar to the page of the seed URL , and a path from the path or seed URL to the seed URL. このコレクションにより、利用者が指定したトピックの、ウェブ上で入手可能な好ましい情報源が提供されるのである。 With this collection, the topics specified by the user, is the preferred source of information available on the web is provided.

【0105】また、注意すべき点として、コレクション内にいくつかの著名なページ(ヤフーやネットスケープ等)が含まれてしまうことを防止するために、本実施の形態のクローラに、ダウンロードの回避先を指定する“停止URLリスト”を備えるものとしてもよい。 [0105] In addition, it should be noted, in order to prevent that contains some of the prominent page (Yahoo and Netscape, etc.) in the collection, the crawler of the present embodiment, download of avoidance destination it may be as comprising the designation to "stop URL list" to.

【0106】 クローラの情報収集の効率を改良する方法 [0106] method for improving the efficiency of the crawler of information collection 本実施の形態のクローラの処理を妨げる主要な要因は、 Major obstacle to the processing of the crawler of the embodiment,
ウェブページのダウンロードに費やされる時間である。 Is the time spent in the download of the web page.
ネットワークの輻輳に加えて、クローラはダウンロード要求の規定に基づき、サイトに対して30秒内に1度以上のダウンロード要求を行う必要がある。 In addition to network congestion, the crawler based on the provisions of the download request, it is necessary to perform once more download request within 30 seconds for the site. このため、1 For this reason, 1
つのウェブサイトから多数のウェブページをダウンロードする場合には多くの時間が必要となる。 One of the If you want to download a large number of web page from a web site requires a lot of time.

【0107】このためクローラは、ここに説明されたように、特定のトピックに関連するダウンロードの必要なウェブページのみを集中して集めたい。 [0107] For this reason crawler, as herein described, I want to collect and concentrate only the necessary web page of the download to be related to a specific topic. もし、クローラが、興味を持つトピックとの関連を第1に評価することなくウェブページをダウンロードしたならば、そのダウンロードされたページの多くはその後廃棄されなければならないかもしれない。 If, crawler, if you downloaded the web page without having to assess the association of the topics that interested in first, many of the downloaded page may not have to be then discarded. 実際に、「ワールドカップサッカー」、「情報の視覚化」、「タイタニック」等の様々なトピックを、基本的な(ダウンロード対象を集中させる機能を備えない)クローラを用いて関連するウェブページを収集すると、ダウンロードされたウェブページの In fact, "World Cup Soccer", "visualization of information", a variety of topics such as "Titanic", (does not include a function to concentrate the download target) Basic collect the web page associated with the crawler Then, it downloaded the web page
50%未満が関連するのみであった。 Less than 50% were only related.

【0108】もし、ページの内容を実際に調べることなく、そのページが指定されたトピックに関連するものであるか否かを判定することができるのであれば、ページの不必要なダウンロードを回避することができ、これにより性能が向上されるのである。 [0108] If, without examining the contents of the page In fact, if it is possible to determine whether or not associated with the page is specified topic, avoiding unnecessary download of the page it can, thereby at the performance is improved.

【0109】ここでは、クローラの性能を向上させる2 [0109] In this case, 2 to improve the performance of the crawler
つの問題解決方法を用いる。 One of problem-solving methods used.

【0110】 現在のページからリンクされたページへの [0110] from the current page to the linked page
近さ The closeness 複数のトピックに関連する情報をウェブサイトが備える場合においては、そのウェブサイト内における指定されたトピックに関連するページにおいても、ナビゲートを容易にするために、他のトピックに関連するページへのリンクや当該サイトのメインページへのリンクを備えることがある。 In the case of providing information related to a plurality of topics website, even pages associated with the specified topic within that website, to facilitate navigation, to the page associated with other topic it is provided with a link or links to the site of the main page.

【0111】例えば、タイタニックのトピックに関連するページである“http://www.discovery.com/area/scie [0111] For example, a page associated with the Titanic of the topic "http://www.discovery.com/area/scie
nce/titanic/weblinks.html”は、タイタニックのトピックに関連しないページであるDiscovery o nce / titanic / weblinks.html "is a page that is not related to the Titanic of topics Discovery o
nlineのメインページ“http://www.discovery.com nline of the main page "http://www.discovery.com
/online.html”へのリンクを備えている。 And it includes a link to the /online.html ".

【0112】しかしながら、ほとんどのウェブサイトは上手に構成されているため、相違するトピックのページは、互いに近くのディレクトリ階層には記憶させていない。 [0112] However, because it is composed very well most of the web site, the pages of topics that difference is not to be stored in the vicinity of the directory hierarchy with each other. このため、本実施の形態のクローラがページを調べる場合においては、ウェブページにリンクされ又はウェブページからリンクするページは、元のページから近くにある場合に限りダウンロードするのである。 Therefore, when the crawler of the embodiment checks pages, pages that link from the linked or web page in the web page is to download only when near the original page.

【0113】この近さの決定においては、ダウンロードされる関連しないページ数や、ダウンロードされない関連するページを最適化するために、様々な異なる基準を用いるものとしてもよい。 [0113] In determining this closeness, the number of pages or unrelated be downloaded, in order to optimize the page associated not downloaded, or as using a variety of different criteria. 2つのページの近さを決定するために厳密な基準を使用する場合には、関連しないページがダウンロードされる数は少ないが、関連するページが誤ってダウンロードされないことも発生する。 When using a strict criterion for determining the closeness of the two pages, the number of pages that are not related are downloaded less, also occur that not downloaded incorrectly associated page. その一方で、軽い基準を適応する場合には、全ての関連するページが検索されるが、ダウンロードされるページ数の増加によるコストが大きい。 On the other hand, in the case of adapting the light standard, although all relevant page is found, the higher cost due to an increase in the number of pages to be downloaded.

【0114】図14は、本発明のクローラによるページの近さの判定処理の一実施例を説明するための図であり、あるウェブサイトのディレクトリ階層の一部を示すものである。 [0114] Figure 14 is a diagram for explaining an embodiment of a proximity determination processing of a page crawler of the present invention, showing a portion of the directory hierarchy of the websites. ここでは、ディレクトリBをカレントディレクトリとし、カレントディレクトリにあるウェブページを、カレントウェブページ(current webpage)と呼ぶものとする。 In this case, the directory B as the current directory, the web page in the current directory, is referred to as a current web page (current webpage).

【0115】クローラは、同じウェブサイトのディレクトリが図14に示される範囲内にある場合に、かつその場合に限り、そのディレクトリが(ディレクトリBから)近い(又、よってダウンロードが要求される)と判定する。 [0115] The crawler, if the directory of the same website is within the range shown in FIG. 14, and only if the, the directory (the directory from B) close (also thus downloaded is required) judge.

【0116】例えば、親ディレクトリAにあるページや、子ディレクトリCにおけるページを、クローラは近いページであると判定しダウンロードする。 [0116] For example, a page in the parent directory A, the page in the child directory C, crawler to download and determined to be a close page. 兄弟ディレクトリであるE、F、Gのディレクトリのページもまたダウンロードする。 A brother directory E, F, also the pages of the directory of G also to download.

【0117】いくつものウェブサイトに対して行ったクローリングに関わる実験により、この近さの定義が、最適の結果を与えることが明らかになった。 By [0117] a number of related to crawling you have made to the web site experiments, the definition of this proximity, it became clear that to give optimum results.

【0118】注意すべき点は、もしこれらのページが、 [0118] It should be noted, is if these pages,
他のウェブサイトのページに対しリンクしたり又リンクされる場合においては、他のウェブサイトの当該ページをダウンロードする(ただし、停止URLリストに登録されていない場合に限る)。 In the case where the other web site also links and link to the page of, to download the pages of other websites (however, only if it is not registered to stop URL list). 同様に、URLを示す文字列にトピックキーワードのいずれかが含まれている場合には、そのURLのページをダウンロードする。 Similarly, if it contains any of the topic keyword to a string that indicates the URL is, the download page of the URL. このようにして、例えば、タイタニックに関するウェブページのコレクションの収集において、前述のウェブサイトからクローリングを開始した場合においても、他のウェブサイトである“http://www.titanicmovie.com”の全てのページをダウンロードすることができる。 In this way, for example, in the collection of the collection of web pages on the Titanic, in a case that started crawling from the web site of the above-mentioned also, all of a is "http://www.titanicmovie.com" other web sites it is possible to download the page.

【0119】 関連しないディレクトリ [0119] are not related directory インターネット等における各ウェブサイトは、良好なディレクトリ構成がなされるため、一般に同一のディレクトリ内に置かれるページの殆どは、同様のテーマを持っている。 Each website in the Internet, etc., since the good directory structure is made, most of the pages are generally placed in the same directory has the same theme.

【0120】よって、例えば“http://www.murthy.com/ [0120] Thus, for example, "http://www.murthy.com/
txlaw/”における全てのページは、税法について語るものである。このページの1つには、“http://www.murth txlaw / "all of the pages in are those that talk about the tax laws One of this page,." http: //www.murth
y.com/txlaw/txwomsoc.html”のように、“ワールドカップサッカー”のキーワードによるグーグリでの検索に該当するページもある(これは、女性ワールドカップサッカートーナメントへのビザ発光について話すウェブページである)。しかしながら、このディレクトリ内のいずれのページも、ワールドカップサッカーの情報の収集において目的とするものではなく、このディレクトリは当該情報収集において関連しないディレクトリである。 y.com/txlaw/txwomsoc.html "as in," there is also a page corresponding to the search in the Guguri by keyword of the World Cup soccer "(This is a web page to talk about visas emission of the women World Cup soccer tournament there). However, none of the pages in the directory, not of interest in the collection of World Cup soccer information, the directory is a directory that is not associated in the information collection.
しかしながら、基本的な機能のみを備えるクローラにおいては、これらの関連しないディレクトリにおいてもその全てのページをダウンロードし、シードドキュメントとの関連性を判定した後に廃棄するのであった。 However, in the crawler with only basic functions, also download all of the pages in these unrelated directory, it was to discard after determining the relevance of the seed document.

【0121】この従来の問題点を解決するため本実施の形態のクローラは、ダウンロードされたページの、インデックスが付された数(関連するページの数)と削除された数(関連しないページの数)とを数える機能を備える。 [0121] The number of pages this conventional problem crawler of the embodiment for solving the that of the downloaded pages, the number (not associated Remove number indexed (number of related pages) ) has a function of counting and.

【0122】この関連しないページの数は、ウェブサイト内の各ディレクトリ毎に別々に数える。 [0122] The number of pages that do not this association, counted separately for each directory in the web site. ここで、1つのディレクトリから、25ページ以上のページをダウンロードし、その内の90%以上が関連しないページとして削除された場合には、本実施の形態のクローラは、そのディレクトリを関連しないディレクトリと判断し、以後そのディレクトリからのダウンロードを行わないように制御するのである。 Here, from one directory to download pages over 25 pages, if more than 90% of them have been removed as a page that is not relevant, the crawler of the present embodiment includes a directory that is not associated with the directory judges, is to control so as not to perform the download from that directory thereafter.

【0123】 性能の改善方法の評価 [0123] Evaluation of the method of improving performance 図12は、基本的な機能のみを備えるクローラと、本発明における前述の方法を用いて性能を強化したクローラとの性能の対比を示す図であり、ここでは、情報の視覚化と、ワールドカップサッカーと、タイタニックとの3 Figure 12 is a view showing a crawler having only basic functions, the contrast performance of the crawler with enhanced performance using the methods described above in the present invention, where, and visualization of information, the World Cup and soccer, 3 of the Titanic
つのテーマに関連するウェブページを収集する処理を比較している。 It compares the process of collecting web pages related to One of the theme.

【0124】以下のような統計が示されている。 [0124] such as the following statistics are shown.

【0125】1. [0125] 1. 「ダウンロード」の項目においては、 In the item of "download",
性能を強化したクローラによりダウンロードされたページ数を、基本的な機能のみを備えるクローラによりダウンロードされたページ数により割り算をして得られた数を、パーセント(%)表示により示すものである。 Number pages downloaded by the crawler with enhanced performance, in which indicated by a number obtained by a division by Number of pages downloaded by the crawler with only basic functionality, percent (%) display.

【0126】3つのテーマの全てにおいて、性能を強化したクローラによってダウンロードされたURLの数に著しい減少がある。 [0126] In all of the three themes, there is a significant decrease in the number of URL that have been downloaded by the crawler with enhanced performance. ネットワークオーバーヘッドの減少のみではなく、同一のサーバへの逐次的なダウンロード要求において必要とされる次のダウンロードまでの待ち時間もまた短縮される。 Not only reduces network overhead, waiting time until the next download required in sequential download request to the same server is also reduced.

【0127】2. [0127] 2. 「近さ」の項目においては、リンクするページ又リンクされるページが、元のページから近い場所にないという理由により、ダウンロードをしないページの割合をパーセント(%)表示により示すものである。 In the item of "closeness", pages that are linked to the page also links, by reason of not as close from the original page, it shows the percentage of pages not to download percent (%) by the display.

【0128】かなりの数のページが、この近さに基づく判定によりダウンロードされないことが示されている。 [0128] quite a number of pages, it has been shown that not downloaded by the determination based on this proximity.

【0129】3. [0129] 3. 「排除ディレクトリ」の項目においては、前述の様に、そのディレクトリからダウンロードされる殆どのページが収集対象と関連しないために、そのディレクトリを関連しないディレクトリと判断し新たなウェブページのダウンロードを行わないように制御したディレクトリ数の、収集を行ったディレクトリの総数に占める割合を、パーセント(%)表示により示すものである。 In the item of "exclusion Directory", as described above, in order to most of the pages that are downloaded from the directory is not associated with the collection target, does not perform the download of the new web page is determined that the directory that is not associated with the directory control the number of directories to the percentage of the total number of directories were collected, percent (%) illustrates the display.

【0130】少数のディレクトリのみが、残念ながらこの基準に該当することとなりページ収集処理が省略されることとなった。 [0130] only a small number of directories, was decided that unfortunately page collection process will be applicable to this criterion is omitted.

【0131】また、このページ収集処理の省略の対象は、この例のようにディレクトリとすることに限らず、 [0131] In addition, the omission of the subject of this page collection process is not limited to the directory as in this example,
例えば、同様にして各ウェブサイトをも対象とし、関連しないウェブサイトを判定するように基準を拡張することも可能であり、これによってもクローラの性能が向上される。 For example, the same way also directed to the website, it is also possible to extend the reference to determine a website that is not associated, this performance of the crawler is improved by.

【0132】4. [0132] 4. 「取り落とし」の項目においては、基本的な機能のみを備えるクローラによりインデックスが付された関連するページの内で、性能を強化したクローラによってダウンロードされなかったページの占める割合を、パーセント(%)表示により示すものである。 In the item "Toriotoshi", among pages related to indexed by crawlers with only basic functionality, a proportion of the pages that have not been downloaded by the crawler with enhanced performance, percent (%) Display It illustrates by.

【0133】よって、この項目においては、性能を強化したクローラにおいては、そのダウンロードが省かれてしまった関連するページの数の情報が含まれている。 [0133] Thus, in this item, in the crawler with enhanced performance, contains information about the number of pages that are related to the download had been omitted. この項目によって、性能を強化したクローラによりダウンロードされなかった殆どのページは、トピックに関連するものではなく、またインデックスが付けられなかったことを示している。 This item, most of the pages that have not been downloaded by the crawler with enhanced performance, not related to the topic, also shows that the index was not attached.

【0134】5. [0134] 5. 「平均スコア」の項目においては、基本的な機能のみを備えるクローラによりインデックスが付された関連するページであって、かつ性能を強化したクローラによってダウンロードされなかった各ページの平均スコアを示すものである。 In the item "average score" indicates the average score of each page that has not been downloaded by the crawler with only basic functions a page associated indexed, and the crawler with enhanced performance is there. これは、取り落とした各ページの重要性をスコアの点数により評価してそのスコアを算出することにより、取り落とされたページの重要性を判定するのである。 This can be achieved by calculating the score of the importance of each page Toriotoshi assessed by scores score is to determine the importance of the pages Toriotosa.

【0135】もし、ある関連するページを性能を強化したクローラが取り落とした場合に、、そのミスを許容し得るためには、この情報収集におけるとても重要なページを取り落としていてはならないのである。 [0135] If, in order to ,, can tolerate the mistakes when the crawler to strengthen the page to be a relevant performance was Toriotoshi is, have Toriotoshi a very important page in this information collection is not must. そこで、取り落とされたページの重要性を判定するために、その各ページの類似性のスコアの平均を計算するのである。 Therefore, in order to determine the importance of a page Toriotosa is to calculate the average similarity score for each of its pages.

【0136】本実施の形態のクローラは、標本文書ベクトルとの類似性のスコアが“0.25”以上の全てのページに、インデックスを付ける(本実施の形態では、ページの類似性を“0”と“1”との間の数により示すベクトル空間モデルを用いる)。 [0136] crawler of the present embodiment, all of the page score of similarity is greater than or equal to "0.25" of the specimen document vector, in the form of indexing (present embodiment, the similarity of the page "0 "and" using a vector space model shown by number between 1 ").

【0137】ここで、取り落とされたページの平均のスコアが“0.25”に近い値であることにより、この取り落とされたページは、インデックスを付するページの中でも類似性の低いものが殆どであり、収集されたウェブページのコレクションにおける最も重要なページではないことが明らかとなる。 [0137] Here, by a value close to the average score "0.25" of pages Toriotosa, this Toriotosa page is those low even similarity in the page denoted with the index It is almost, will become apparent that it is not the most important page in the collection of the collected web page. 従って、本実施の形態において提供されるクローラの性能の強化によって、コレクションのトピックに関連するページをあまり取り落とすことなく、ダウンロード時間を大幅に短縮することができる。 Therefore, the enhancement of the performance of the crawler provided in the present embodiment, without much Toriotosu pages about a collection of topics, can significantly reduce the download time.

【0138】 情報の整理 [0138] Organization of information 殆どのトピックにおいては、クローラは何千ものウェブページをダウンロードするだろう。 In most of the topic, the crawler will download the web page of thousands. 利用者に対して情報空間についてのよりよい理解を提供するために、オーガナイザ(organizer)は、様々な抽象的なレベルにページをまとめる。 In order to provide a better understanding of the information space to the user, organizer (organizer) summarizes the pages to different abstract level.

【0139】図1は、本発明における抽象的な階層構造を示す図である。 [0139] Figure 1 is a diagram illustrating an abstract hierarchical structure in the present invention. 以下、本発明において用いられる抽象的な階層を形成するための技術を述べる。 Hereinafter, we described a technique for forming an abstract hierarchy used in the present invention.

【0140】図1を参照すると、本発明における抽象的な階層構造の第1の階層(ステップ1)は、トピックに関連する情報の発信元であるウェブサイトのディレクトリ構造を用いる。 [0140] Referring to FIG. 1, a first hierarchy of abstract hierarchical structure in the present invention (step 1) uses a directory structure of the web site is the source of information relevant to the topic. ウェブページ106は、この階層の末端であると考えられる。 Web page 106 is considered to be the end of this hierarchy.

【0141】重要なこととして、殆どのウェブサイトは、そのディレクトリ階層に意味を持たせて各ページを構成している。 [0141] Importantly, most of the web site, constituting each page to have a meaning in the directory hierarchy. 例えば、“www.cnn.com/WORLD”は国際的なニュースを扱い、“www.cnn.com/US”はアメリカ合衆国のニュースを扱う。 For example, "www.cnn.com/WORLD" deals with international news, "www.cnn.com/US" is dealing with the news of the United States. 更に、“www.cnn.com/WORLD/af In addition, "www.cnn.com/WORLD/af
rica”と“www.cnn.com/WORLD/europe”は、それぞれ、 rica "and" www.cnn.com/WORLD/europe ", respectively,
アフリカとヨーロッパのニュースを扱う。 Dealing with Africa and Europe of the news.

【0142】このように、本発明においては、個々のウェブサイトのディレクトリ構造を、最も低い抽象的なレベルにおけるページの編成に用いるのである。 [0142] Thus, in the present invention, a directory structure of individual websites is used to organize the pages in the lowest abstract level. この処理の終わりには、各ページを“www.cnn.com.”のようなそれぞれの物理ドメインによりまとめる。 At the end of this process, summarized by each of the physical domain, such as each page "www.cnn.com.".

【0143】本発明による抽象的な階層の次のレベル(ステップ2)では、情報資源(information resource [0143] In the next level of abstract hierarchy according to the invention (step 2), information resources (information resource
s)を論理ウェブサイトにまとめる。 Summary s) to the logical web site. 多くの大企業においては、その機能や地理に基づいたURLを備えるいくつかのウェブサーバを使用している。 In many large companies, we are using some of the web server with a URL that is based on the function and geography. 例えば、“www.ne For example, "www.ne
c.com”と“www.nec.co.jp”は、それぞれ日本電気株式会社の日本とアメリカ合衆国のウェブサイトである。同様に、“shopping.yahoo.com”は、ポータルサイトのヤフー“www.yahoo.com”におけるショッピングの部分である。これにより、本発明によるこのステップ2の抽象的な階層では、個々の物理ドメインを論理ウェブサイトにまとめるのである。 c.com "and" www.nec.co.jp "is a Japan and the web site of the United States of each of NEC Corporation. Similarly," shopping.yahoo.com "is, the portal site Yahoo" www. a shopping part of the yahoo.com ". Thus, an abstract hierarchy of step 2 according to the invention is put together individual physical domain into logical website.

【0144】また場合によっては、物理ドメインをより小さな論理ウェブサイトに分けることが必要となるかもしれない。 [0144] In some cases, it may be necessary to divide the physical domain into smaller logical web site. 例えば、ジオシティーズ(Geocities)やT For example, Geocities (Geocities) and T
ripodのように、ホームページ開設の無料サービスを提供する企業において、そのウェブサイトである“ww As of ripod, in companies that provide the free services of the website opened, which is the web site "ww
w.geocities.com”や“members.tripod.com”は、各利用者によるホームページの内容は互いに関係が無いため、論理ウェブサイトの階層においてはこの物理ドメインを各利用者毎に分けるものとしてもよい。 w.geocities.com "Ya" members.tripod.com ", because there is no relationship to each other the contents of the home page by each user, in the hierarchy of the logical web site is also as to divide this physical domain for each user good.

【0145】本発明による抽象的な階層の次のレベル(ステップ3)では、情報資源を強く結合したコンポーネント(強連結コンポーネント、strongly connected c [0145] In the next level of abstract hierarchy according to the invention (step 3), components that strongly bound information resources (strongly connected components, Strongly the connected c
omponent)にまとめる。 Summarized in omponent).

【0146】前述の2つの抽象化技術(ステップ1、 [0146] The foregoing two abstraction techniques (Step 1,
2)は、個別のトピックに関連する情報を含むウェブサイトのコレクションを生成する。 2), to produce a collection of web sites that contain information relating to the individual topics. しかし、多くの場合はトピックに関連するウェブサイトは何百にも及ぶため、 However, in order to extend to the web site is hundreds related to the topic in many cases,
よって一層の抽象化を行うことは有用となるだろう。 Therefore, be carried out to further abstraction would be useful.

【0147】本発明では、関連するウェブサイトを識別するために、サイトグラフを生成する。 [0147] In the present invention, in order to identify relevant web sites to generate a site graph. ここでサイトグラフとは、各ノードにウェブサイトを備える有向グラフである。 Here site graph and is a directed graph with the website to each node. サイトグラフにおける各ノード間の方向は、もし、ウェブサイトA内のページが他のウェブサイトB内のページへのリンクを備える場合には、ウェブサイトA The direction between each node in the site graph If the pages of the web site A comprises a link to a page in another website B is website A
のノードからウェブサイトBのノードへ方向を設定する(矢印を向ける)のである。 It is to set the direction from the node to the node website B (direct arrow). そして、サイトグラフ内の強連結コンポーネントを計算する。 Then, calculating the strongly connected components in the site graph. 2つのノードが、サイトグラフにおいて設定された矢印に従い互いに到達可能である場合には、これらのノードは互いに関連するものと考えられ、これを強連結コンポーネントと呼ぶものとする。 Two nodes, if it is reachable from one another following the arrow which is set in the site graph, the nodes are considered to be related to each other, it is referred to as a strongly connected component of this. 従って、この抽象的な階層においては、これら強く結びつくノードを一まとめにするのである。 Thus, in this abstract layer, which these strongly linked nodes of being grouped together.

【0148】本発明による抽象的な階層の次のレベル(ステップ4)は、最終の抽象的レベルであり、情報資源を結合コンポーネント(connected component)にまとめる。 [0148] The next level of abstract hierarchy according to the invention (step 4) is the final abstract level, summarized information resources binding component (the connected component). このレベルにおいては、前述の強連結コンポーネントを作成する手順により、各コンポーネントのグラフ(コンポーネントグラフ、component graph)を作成する。 In this level, the steps to create a strongly connected component of the above, to create components of the graph (components graph, component `graph) a. このコンポーネントグラフのノードは、先のレベルのステップ3においてまとめられた強連結コンポーネントである。 Node of this component graph is a strongly connected component gathered in step 3 of the previous level. 異なる強連結コンポーネントにおいて、そのそれぞれに属する2つのウェブサイトのいくつかの組が結びついている場合には、その強連結コンポーネントを互いに結びつけるのである。 In different strongly connected components, in which case some of the set of two web sites belonging to each is bound is to link the strongly connected components to each other.

【0149】この抽象的な階層を形成する最終段階においては、このコンポーネントグラフを無向グラフとして考える。 [0149] In the final step of forming the abstract hierarchy, consider the component graph as an undirected graph. その結合コンポーネントは、これに応じて決定される。 The bond component is determined accordingly. また、同じ結合コンポーネント内のノードは、 Further, nodes within the same coupling component,
クラスターを形成する。 To form a cluster.

【0150】図1は、論理ウェブサイトの強連結コンポーネント102や連結コンポーネント103へのグループ化を説明している。 [0150] Figure 1 illustrates a grouping of the strongly connected components 102 and connected components 103 of the logical website. 図1では、階層の末端であるウェブページに106の番号を付して識別している。 In Figure 1, are identified are assigned the 106 number of the web page is a terminus of the hierarchy.

【0151】抽象化の最初の階層であるステップ1においては、ウェブページ106は、これらを含むウェブサイトのディレクトリ105や104にまとめられる。 [0151] In step 1 a first level of abstraction, the web page 106 are summarized in the directory 105 or 104 of websites that contain them. そして、ディレクトリ105、104は、前に説明されたように物理ドメイン101にまとめられる。 The directory 105 and 104 is summarized in the physical domain 101 as described before.

【0152】以後の抽象的レベルであるステップ2、3 [0152] step 2 and 3 is a subsequent abstract level
により、物理ドメイン101は強連結コンポーネント1 Accordingly, the physical domain 101 strongly connected components 1
02にまとめられ、最終の抽象的レベルであるステップ4により、強連結コンポーネント102は連結コンポーネント103にまとめられる。 02 are grouped, in step 4 is the final abstract level, the strongly connected components 102 are summarized in connected components 103.

【0153】ここでもし、2つのウェブサイトA及びB [0153] and even here, the two web sites A and B
が同じ強連結コンポーネント内にある場合、BからAまでのパス及びAからBまでのパスの双方がある。 If There are in the same strongly connected component, there is both a path from the path and A from A to B from B. また一方で、この2つのウェブサイトが同じ連結成分の中にある場合には、AからBまでのパス又はBからAまでのパスのいずれか一方を少なくとも備えるのであり、双方のパスを備えるとは限らない。 On the other hand, if the two websites is in the same connected component is than comprising at least one of the path from the path or B from A to B to A, when provided with both of the path not necessarily. 従って、同じ強連結コンポーネント内のウェブサイトは、同じ連結成分内のウェブサイトよりも類似性が高いと考えることができる。 Thus, the web site in the same strongly connected component can be considered to have a high similarity than websites in the same connected component. またこれにより明らかに、異なる連結コンポーネントに属するウェブサイトは、それらの間のリンクを備えていない。 Further Thus clearly, the website belonging to different connected components, does not have a link between them.

【0154】また、強連結コンポーネントを用いる情報のグループ化についてのより詳しい情報については、 [0154] In addition, for more information about the grouping of information using the strongly connected components,
“T. Cormen, C. Leiserson, and R. Rivest, Introduc "T. Cormen, C. Leiserson, and R. Rivest, Introduc
tion to Algorithms, The MIT Press, 1992.”に記載されている。 tion to Algorithms, The MIT Press, has been described in 1992. ".

【0155】ここでの抽象的な階層を形成する手順が、 [0155] procedure for forming an abstract hierarchy of here,
一連の処理を順次実行する方式である線形であることは、本発明の重要な特徴である。 It is an important feature of the present invention is linear is a method for sequentially performing a series of processes. また、従って、本発明の抽象的な階層を形成処理は、極めて多数のウェブページを備えるコレクションにも適用可能である。 Moreover, thus, form processing abstract hierarchy of the present invention is also applicable to the collection with a large number of web pages. またUR The UR
Lの分析によって、ディレクトリ構造及び論理ウェブサイトを決定することができる。 The L analysis can determine the directory structure and logical website. 一方、強連結コンポーネントや連結コンポーネントを見つけるために必要な計算量は、そのグラフ内におけるノード数とエッジ数(各ノード間の結びつきの数、矢印の数)との和に比例し、O On the other hand, the amount of computation required to find the strongly connected components and coupling components is proportional to the sum of the number of nodes in the graph and the number of edges (number of links between nodes, the number of arrows) and, O
((ノード数)+(エッジ数))と表される。 It represented as ((number of nodes) + (number of edges)).

【0156】図2は、本発明によるトピック管理システムの構造の一例を示すブロック図である。 [0156] Figure 2 is a block diagram showing an example of a structure of a topic management system according to the present invention.

【0157】図2に示されるように、本発明によるウェブトピック管理システムは、収集された情報の割当てが容易にできるように、クライアントサーバの構造を用いる。 [0157] As shown in FIG. 2, the web topic management system according to the present invention, the assignment of the collected information to allow easy, using the structure of the client server.

【0158】個々のトピックについての情報が収集された後には、その情報にインデックスが付され、編成され、ウェブトピック管理システムのサーバ210が初期化される。 [0158] After the information about the individual topics have been collected, the index is attached to the information, is organized, the server 210 of the web topic management system is initialized.

【0159】ウェブトピック管理システムのサーバ21 [0159] of the web topic management system server 21
0は、ウェブサーバ201をもとに構成される。 0 is constructed on the basis of the web server 201. このサーバ210は、ウェブトピック管理システムのギャザー(情報収集部)203から情報を受け取る。 The server 210 receives information from the web topic management system gathers (information collecting unit) 203. また、ギャザー(情報収集部)203は、ウェブ上の情報204を収集するためのクローラ207と、収集した情報にテキストインデックス205を付するためのテキストサーチエンジン208と、収集された情報を編成して編成された情報206を生成するオーガナイザ209を備えている。 Further, gather (information collecting unit) 203 organizes the crawler 207 for collecting information 204 on the Web, text search engine 208 for subjecting the text index 205 on the information collected, the collected information and a organizer 209 for generating information 206 that is organized Te.

【0160】クライアントは、サーバ210に記録された集められた情報をクライアントサイト202からアクセスすることができ、その情報は一般のウェブブラウザにより表示される本発明のウェブトピック管理システムのユーザインタフェース211により参照することができる。 [0160] The client information collected recorded in the server 210 can be accessed from the client site 202, the user interface 211 of the Web topics management system of the information present invention displayed by a general web browser it is possible to see. また、サーチエンジン等におけるように、サーバ210は、利用者がコレクションを調べることを可能にする。 Further, as in a search engine or the like, the server 210 allows the user to examine the collection.

【0161】本発明のウェブトピック管理システムの独特の特徴として、ナビゲーションのために収集したコレクションの全体像を利用者に提供するユーザインタフェースがある。 [0161] as a unique feature of web topics management system of the present invention, there is a user interface to provide an overall picture of the collected collection for the navigation to the user. このユーザインタフェースは、クライアントのブラウザにおいてJavaアプレットにより表示される。 This user interface is displayed by the Java applet in the client's browser.

【0162】ほとんどの利用者は、収集された情報の全てを要求するものではないため、ユーザインタフェースであるJavaアプレットにおいては、最初の時点(起動した時点)においてはコレクションのごく一部のみを読み込むものとしてもよい。 [0162] Most of the users, because it is not intended to request all of the collected information, in the Java applet is a user interface, in the first time (the time of the start-up) read only a small part of the collection it may be a thing. そして、利用者からの操作に従い、ユーザインタフェースのJavaアプレットから、ウェブトピック管理システムのサーバに対して更に詳しい情報を要求し、これを表示することができる。 Then, in accordance with the operation from the user, from a Java applet of the user interface, it is possible to request more detailed information to the server of the web topic management system, and displays it.

【0163】ウェブトピック管理システムのサーバとクライアントの間の情報の交換には、例えば、XML(Ex [0163] for the exchange of information between the server and the client's web topic management system, for example, XML (Ex
tensible Markup Language、エクステンシブル・マークアップ・ランゲージ)のシステムを用いることができる。 tensible Markup Language, it is possible to use a system of Extensible Markup Language). XML(Extensible Markup Language)は、著名な技術であり、詳しくは“Natanya Pitts-Moultis and Ch XML (Extensible Markup Language) is a well-known technology, details, "Natanya Pitts-Moultis and Ch
eryl Kirk, "XML black book", Coriolis Group Books, eryl Kirk, "XML black book", Coriolis Group Books,
1999.”に説明されている。 1999. are described in the ".

【0164】 最適なハブカバー(Hub Covers)、オーソ [0164] optimal hub cover (Hub Covers), Ortho
リティカバー(Authority Covers) Utility cover (Authority Covers) 殆どのトピックにおいては、そのコレクションには何百もの論理サイトが含まれる。 In most of the topic, in the collection include logical site of hundreds. このため利用者は時々、様々な基準に基づいてこの情報の空間を選別したいと思うかもしれない。 For this reason the user from time to time, you might want to sort the space of this information based on various criteria. また明らかに、ハブや、オーソリティのウェブサイトは、情報のコレクションにおいて最も重要なサイトとなる。 Also Obviously, hub and, authority web sites, the most important site in the collection of information. このため、情報収集時における付加的な機能として、ある任意の整数“n”を用いてコレクションの内のn個又はn%を、重要なサイトであるハブやオーソリティのサイトを用いる等の選別を行いたい。 Thus, as an additional function during the information collection, the n number or n% of the collection by using an arbitrary integer "n", the selection of such use is an important site hub and authority sites I want to do. またしかしながら、任意の整数を選ぶ方式の他にも、いくつかの状況においては他の技法がより適切となる場合もある。 Further, however, in addition to the method of selecting an arbitrary integer, although other techniques is more appropriate in some circumstances.

【0165】情報空間を選別する2つの技法を以下に定義する。 [0165] The two techniques of selecting information space defined below.

【0166】以下、サイトグラフSを、いくつかのウェブサイトの集まりであるサイト集合Vと、そのサイト間のリンクの集合Eによるサイトグラフとする。 [0166] In the following, the site graph S, a site set V is a collection of some of the web site, the site graph due to the set E of links between the site. また、リンクEに含まれる各リンクを、リンク元のサイトuとリンク先のサイトvを用いて(u、v)と表すものとする。 Further, it denotes the respective links included in the link E, using the link source site u and landing site v and (u, v).

【0167】ここでサイトグラフSのハブカバー(Hub [0167] Here, the site graph S hub cover (Hub
Covers)を、サイト集合V内のウェブサイトの部分集合V_hであって、リンクE内の全てのリンク(u、v) The Covers), a subset V_h of the web site in the site set V, all of the links in the link E (u, v)
のリンク元のウェブサイトuをV_hが含むものと定義する。 Of the link source web site u is defined as including the V_h.

【0168】また、与えられたサイトグラフにおける最小のサイズのハブカバーを、最適ハブカバーと呼ぶこととする。 [0168] Further, the hub cover of minimum size at a given site graph is called a best hub cover. 言いかえれば、コレクションの最適ハブカバーとは、コレクション内の全てのサイトへのリンクを備える、最小個のウェブサイトの集合である。 In other words, a collection of the best hub cover, provided with a link to all sites in the collection, is a set of minimum number of web site.

【0169】最適ハブカバー内のサイトのみから、利用者はコレクション内の全てのサイトに達することができるため、最適ハブカバーのみを表示するようにコレクションを選別することは有用である。 [0169] only site in optimal hub cover, the user because it can reach all sites in the collection, it is useful to screen the collection to display only optimal hub cover.

【0170】また一方で、上述のサイト集合Vとそのサイト間のリンクの集合Eを備えるサイトグラフSのオーソリティカバーを、サイト集合V内のウェブサイトの可能な限り小さい部分集合V_aであって、リンクE内の全てのリンク(u、v)のリンク先のウェブサイトvをV_aが含むものと定義する。 [0170] On the other hand, the authority cover site graph S comprising a set E of links between the site and the above site set V, a small subset V_a as possible website in the site set V, all of the link (u, v) linked web site v of the link E is defined as including the V_a.

【0171】また、与えられたサイトグラフにおける最小のサイズのオーソリティカバーを、最適オーソリティカバーと呼ぶこととする。 [0171] In addition, the minimum size of the authority cover in a given site graph is called a best authority cover. これは、コレクションの最適オーソリティカバーとは、コレクション内の全てのサイトからのリンクを備える、最小個のウェブサイトの集合である。 This is, the best authority cover of the collection, including a link from all sites in the collection, is a set of minimum number of web site. ハブカバーと同様に、最適ハブカバーによりコレクションを選別することは明らかに有用である。 Like the hub cover, it is clearly useful to screen collections by optimal hub cover.

【0172】サイトグラフに対するハブカバーやオーソリティカバーの決定は、前述の“T.Cormen, et al.”による頂点カバー問題(the vertex cover problem)に類似している。 [0172] Determination of the hub cover and authority cover for the site graph is similar to the above-mentioned "T.Cormen, et al." Vertex cover problem by (the vertex cover problem). 無向グラフG=(V、E)の頂点カバー問題は、Vの可能な限り最小の部分集合V'であって、リンク(u、v)がEに含まれる場合にはそのu又はvを必ず含むものを決定する問題である。 Undirected graph G = (V, E) vertex cover problem is a minimum as possible V subset V ', the link (u, v) in the case where is contained in E is the u or v is a problem of determining what always include. しかし不幸にして、頂点カバー問題はNP−完全である(“T. Cormen, But Unfortunately, the vertex cover problem is NP- complete ( "T. Cormen,
et al.”を参照)。 See et al. ").

【0173】本実施の形態のウェブトピック管理システムでは、ハブカバーやオーソリティカバーを近似的に決定する。 [0173] In the web topic management system of the present embodiment, to approximately determine the hub cover and authority cover. そのハブカバーやオーソリティカバーを近似的に決定するアルゴリズムは以下の通りである。 Algorithm to determine the hub cover and authority cover approximately is as follows.

【0174】1. [0174] 1. まず、G=(V、E)としてサイトグラフを設定する。 First, G = (V, E) as to set the site graph.

【0175】2. [0175] 2. V_h=();として空の集合を設定する。 V_h = (); as to set the empty set.

【0176】3. [0176] 3. サイトグラフ内のノードを、各ノードに入るリンクの数によりソートしてV_sに記録する。 The site node in the graph, and records the V_s sorted by the number of links entering each node.

【0177】4. [0177] 4. V_s内の、他のノードからのリンクを受けないノードを削除する。 In V_s, to delete a node that does not receive a link from the other node.

【0178】5. [0178] 5. V_sが空になるまで、以下の(a)から(d)までの処理を繰り返し実行する。 V_s until empty, repeatedly executes the following processes (a) to (d).

【0179】(a) V_s内から、ノードvを1つ任意に取り出す。 [0179] (a) from the V_s, retrieve the node v in one arbitrary.

【0180】(b) このノードvに対しリンクする、 [0180] (b) to link to this node v,
最もハブスコア(hub score)の高いノードuをVから取り出す。 Most retrieve hub score higher node u of (hub score) from V.

【0181】(c) ノードuをV_hに追加する。 [0181] (c) a node u want to add to the V_h.

【0182】(d) V_s内から、ノードu及び、ノードuからリンクされる全てのノードを削除する。 [0182] From (d) in V_s, nodes u and deletes all nodes that are linked from the node u.

【0183】6. [0183] 6. 得られたV_hを、サイトグラフG The resulting V_h, site graph G
=(V、E)の近似された最適ハブカバーとして出力する。 = (V, E) is output as the approximated optimal hub cover of.

【0184】この本実施の形態の最適ハブカバーを近似するアルゴリズムにおいては、グラフ内の各ノードを、 [0184] In the algorithm for approximating the optimum hub cover of this embodiment, each node in the graph,
他のノードからのリンク数を基に昇順にソートしている。 They are sorted in ascending order based on the number of links from other nodes. また、ただ1つのリンク元からのリンクを受けるノードある場合には、そのリンク元のノードは必ずハブカバーに加えられなくてはならない。 Further, if only one node for receiving a link from one link source must be added to the link source node always hub cover. また、複数のリンク元があるノードは、上記のアルゴリズムにおいては最も高いハブスコアを持つリンク元のノードをハブカバーに加える。 The node with multiple link source, in the above algorithm adds link origin node with the highest hub score the hub cover. また、ノードをハブカバーに加えた場合には、 Also, when added node to the hub cover is
当該ノードからリンクされる全てのノードをV_sから省略することができる。 All nodes that are linked from the node can be omitted from V_s.

【0185】また、上述の本発明のアルゴリズムにおいては、“5.”におけるループに入る前にインリンクのないサイトがV_sから削除されるが、この削除されたサイトはハブカバーに入りうることは注意すべき点である。 [0185] In the algorithm of the present invention described above, "5." Although no in-link site is removed from V_s before entering the loop in this deleted site is noted that may enter the hub cover it is a should do point. しかし、インリンクとアウトリンクの双方の無いサイトは、このアルゴリズムによりハブカバーに入ることはない。 However, both free site of the in-link and out-link, not to enter the hub cover by this algorithm. こうした孤立したサイトは、上述の連結コンポーネントの説明におけるように、コレクションにおいて重要ではないと考えられるためである。 Such isolated site, as in the description of the coupling components mentioned above, in order not believed to be important in the collection.

【0186】最適のオーソリティカバーも、これと同様のアルゴリズムにより近似的に求めることができる。 [0186] Optimal authority cover can also be obtained approximately by this and similar algorithms.

【0187】また、ここではハブカバーやオーソリティカバーを、ウェブサイトに関して求める方法を説明したが、同様にして、このアルゴリズムを当てはめることによりウェブページのためのハブカバーやオーソリティカバーを求めることができる。 [0187] In addition, here in the hub cover and authority cover has been described a method for determining with respect to the web site, in the same manner, it is possible to obtain the hub cover and authority cover for the web page by fitting this algorithm.

【0188】図13は、各テーマ毎に収集されたコレクションにおける、上記のアルゴリズムによる近似により得られた最適ハブカバー及び最適オーソリティカバーのサイズを示している。 [0188] Figure 13 is the collected collection for each theme, which indicates the size of the optimum hub cover and optimal authority cover obtained by the approximation by the above algorithm. 図13の例に示されるように、いずれのテーマにおいても、コレクションのサイトへのリンクを持つサイト、及びコレクションのサイトからのリンクを持るサイトの総和よりも、著しく少ないサイト数によるカバーサイトが得られた。 As shown in the example of FIG. 13, in any of the theme, the site with links to a collection site, and than link the sum of Jill site from the collection site, cover the site by significantly fewer Sites obtained.

【0189】 トピック管理のインタフェース [0189] topic management interface 本発明のウェブトピック管理システムのインタフェースは、この情報空間の中を容易にナビゲートできるように、収集された情報の様々なタイプのビュー(見方、vi Web topics management system interface of the present invention, as can easily navigate through the information space, various types of views of collected information (perspective, vi
ews)を提供する。 ews) to provide.

【0190】このウェブトピック管理システムのインタフェースであるアプレットを、次に説明する。 [0190] The applet is an interface of this web topic management system, it will now be described.

【0191】 表形式のビュー [0191] Table style view 図3は、本発明のウェブトピック管理システムのユーザインタフェースにおいて、ワールドカップサッカーのトピックの情報のコレクションを表示した場合に、最初に表示されるビューの一例を示す図である。 3, the user interface of the web topic management system of the present invention, when displaying a collection of topics of information World Cup Soccer is a diagram showing an example of a view that is displayed first. これの左側には、ワールドカップサッカーのトピックについて見つけられた、論理ウェブサイトを示すテーブルがある。 On the left side of this, I found for the World Cup soccer topics, there is a table showing the logical web site. このように論理ウェブサイトを表示することは、利用者にトピックに関する情報を最初に表示する場合において、好ましい方法である。 Displaying the logical website Thus, in the case of initial display information relating to the topic the user, is the preferred method.

【0192】このアプローチに関する更なる情報は情報は、“L. Terveen and H. Will, Finding and Visualiz [0192] Further information is information about this approach, "L. Terveen and H. Will, Finding and Visualiz
ing Intersite Clan Graphs, Proceedings of the ACM ing Intersite Clan Graphs, Proceedings of the ACM
SIGCHI '98 Conference on Human Factors in Computin SIGCHI '98 Conference on Human Factors in Computin
g Systems, pages 448-455,Los Angeles, CA, April 19 g Systems, pages 448-455, Los Angeles, CA, April 19
98.”に見つけられる。 98. be found in ".

【0193】この論理ウェブサイトを示すテーブルは、 [0193] table showing this logic web site,
利用者に対し論理サイトに関する補足的な情報を提供することもできる。 It is also possible to provide additional information about the logical site for the user. 図3の例においては、各論理ウェブサイトのURL及びそのサイト内のウェブページ数の表示に加えて、更にハブスコア(hub score)及びオーソリティスコア(authority score)を表示している。 In the example of Figure 3, in addition to the display of web pages in the URL and the site of each logic website, and further displaying a hub score (hub score) and authority score (authority score).

【0194】これらのスコアは、“J. Kleinberg, Auth [0194] These scores, "J. Kleinberg, Auth
oritative Sources in a Hyperlinked Environment, Pr oritative Sources in a Hyperlinked Environment, Pr
oceedings of the 9th ACM-SIAM Symposium on Discret oceedings of the 9th ACM-SIAM Symposium on Discret
e Algorithms, May 1998.”に述べられたものと同様のアルゴリズムを用いても研鑚することができる。しかし、本実施の形態においては、これを個々のウェブページに対して適応するのではなく、サイトグラフに対して適応するのである。 e Algorithms, can be training process also using the same algorithm as that stated in May 1998. Detailed ". However, in this embodiment, instead of adapting it for individual web pages is to adapt to the site graph.

【0195】また図3の論理サイトのテーブルにおいては、各サイトのメインページのタイトルをも表示している。 [0195] Also, in the table of the logical site of FIG. 3, it is also displayed the title of the main page of each site. ここで各サイトのメインページは、他のウェブページとのリンク関係や、そのページのサイト内の階層での深さ等を元にして識別することができる(参照、“S. M Here the main page of the site, and link relation to other web pages can be identified based on the depth or the like in the hierarchy of the site of the page (see, "S. M
ukherjea and Y. Hara, Focus+Context Views of World ukherjea and Y. Hara, Focus + Context Views of World
-Wide Web Nodes, Proceedings of the Eight ACM Conf -Wide Web Nodes, Proceedings of the Eight ACM Conf
erence on Hypertext,pages 187-196, Southampton, En erence on Hypertext, pages 187-196, Southampton, En
gland, April 1997.”)。 gland, April 1997. ").

【0196】ハブスコアやオーソリティスコアの計算中には、サイト内部のリンクを考慮しなくてもよいことは注意すべき点である(参照、“K. Bharat and M. Henzi [0196] During the calculation of the hub score and authority score, it is that it is not necessary to take into account the site inside of the link should be noted (see, "K. Bharat and M. Henzi
nger, Improved Algorithms for Topic Distillation i nger, Improved Algorithms for Topic Distillation i
na Hyperlinked Environment, Proceedings of the AC na Hyperlinked Environment, Proceedings of the AC
M SIGIR '98 Conference on Research and Development M SIGIR '98 Conference on Research and Development
in Information Retrieval, pages 104-111, Melbourn in Information Retrieval, pages 104-111, Melbourn
e, Australia, August1998.”)。 e, Australia, August1998. ").

【0197】ウェブサイト内の全てのウェブページが、 [0197] all of the web pages of the web site,
全て同じ製作者により作成されたものであると考えることにより、コレクションの全体的に各ページのグローバルな重要性を正確に判定している時においては、サイト内のリンクにおける製作者の判断は無視することもできる。 By considering all those created by the same creator, at the time that accurately determine the overall global importance of each page of the collection, the producer of judgment in the link in the site ignore it is also possible to. しかしながら、各ウェブページのサイト内における局所的な重要性を判定するためには、この製作者の判断は重要となる。 However, in order to determine the local significance within the site of each web page, the producer of determination is important. よって、サイト内部のリンク関係は、そのサイトのメインページを識別する際に欠くことはできない。 Thus, the link relationship between the internal site can not be lacking in identifying the main page of the site.

【0198】図3の論理ウェブサイトを示すテーブルは、そのコレクションのよい全体像を与えている。 [0198] Table showing the logical website Figure 3 gives an overview good that collection. また、テーブルの一番上に示される各項目のラベル(メインタイトル、ドメイン等)をクリックすることにより、 By clicking the top items of the labels shown in the table (main title, domain, etc.),
利用者はその指定した項目によりテーブルをソートすることができる。 The user can sort the table by the specified item. ここで、図3において示されるテーブルの各ウェブサイトレコードは、サイト内のウェブページ数によってソートされたものである。 Here, each web site record table shown in FIG. 3 are those that have been sorted by the web pages in the site. また、1番目に表示される“www.sportsline.com”のサイトは、高いオーソリティ(権威)が判定されており、オーソリティスコアの最高点である“1.0”を持っている。 Also, sites are the "Www.Sportsline.Com" displayed on the first is determined higher authority (authority) is has a "1.0" is the highest point of the authority score.

【0199】 抽象的階層ビュー [0199] abstract hierarchical view 図3の右側の部分には、最初に表示される時点での抽象的階層が示されている。 The right part of Figure 3 shows the abstract hierarchy at the time it is first displayed. この部分においては、様々な連結コンポーネント(又グループ)を表示しており、これはコレクションの収集において見つけられたものである。 In this part, which displays various connected components (also groups), which are those found in the collection of the collection. もし、ある連結コンポーネントが単にただ1つのウェブサイトのみを含む場合には、そのサイトにおいてはそれ自身が表示される(例えば、“www.iranian.co If, in some cases connected components simply comprising only only one website in the site are displayed itself (e.g., "Www.Iranian.Co
m”)。 m ").

【0200】また、各コンポーネントには、グラフィカルエレメント(graphical element)であるアイコン等の記号(glyph)が表示されている。 [0200] Further, each component symbols such as icons, a graphical element (graphical element) (glyph) is displayed. 例えば、図3の例においては、このグラフィカルエレメントの幾何学的なサイズを、当該コンポーネントのグループが含むウェブページ数に対応させている。 For example, in the example of FIG. 3, and the geometric size of the graphical element, to correspond to the number of web pages that contain the group of the component. また、このグラフィカルエレメントの色及び(又は)明るさを、当該当該コンポーネントのグループの最終更新日時に対応させている。 Moreover, the color and (or) the brightness of the graphical elements, thereby corresponding to the last update date and time of a group of the said components. 例えば、明るく赤いグラフィカルエレメントは、そのグループがとても新しいページを含むことを示しており、黒いグラフィカルエレメントは、ここしばらくの間ページが更新されていないことを示している。 For example, red graphical element bright, indicates that the group, including the very new page, black graphical elements, some time between page indicates that it has not been updated.

【0201】また、この図3の右側に表示される各又グループは、そのグループ内のサイトの最大のオーソリティスコアを基に順に並べている。 [0202] Furthermore, each also group appears to the right of FIG. 3 is arranged in order based on the maximum authority score sites within that group. このため、“www.spor For this reason, "www.spor
tsline.com”のサイトを含むグループがテーブルの1番目に位置しているのである。各連結コンポーネント(又グループ)の題名には、それに含まれる最もオーソリティスコアの高いサイトのタイトルを表示している。 Group that contains the site of Tsline.Com "is the located in the first table. The title of each connecting component (also groups), displaying the highest authority score site title contained therein .

【0202】利用者は、この各グループのグラフィカルエレメントを(右マウスボタンにより)クリックすることにより、そのグループに関連する一連の情報の詳細が参照でき、この表示された抽象的階層をナビゲートすることができる。 [0202] The user, by clicking on the graphical elements of each group (by the right mouse button), can see the details of a series of information related to the group, to navigate the displayed abstract hierarchy be able to.

【0203】例えば、図4、図5においては、“www.sp [0203] For example, FIG. 4, in FIG. 5, "www.sp
ortsline.com”のサイトの詳細を示している。図4は、 Shows site of the details of the ortsline.com ". Figure 4,
その論理ウェブサイトが利用者により選択され、詳細が最初に表示された状態を示している。 The logical web site is selected by the user, it shows a state in which the detail is first displayed. 利用者による選択の結果、本実施の形態のユーザインタフェースは、そのサイトが属する連結コンポーネントや強連結コンポーネントであるそのサイトの先祖(ancestors)を、子(chi Selection by the user results, the user interface of the present embodiment, the ancestors (ancestors) of the site that site is connected components and strongly connected components that belong, child (chi
ldren)のサイトと共に表示する。 Be displayed along with the site of ldren).

【0204】表示された論理ウェブサイトには、多くの物理ドメインが含まれており、例えば“www3.sportslin [0204] The display logical web site, includes a number of physical domain, for example "www3.sportslin
e.com”や“cbs.sportsline.com”等がある。また、ここで1つのページのみを含む物理ドメインにおいては、 E.Com "Ya" Cbs.Sportsline.Com is ", and the like. Further, in the physical domain containing only one page where
そのページ自身のアドレスを表示している(例えば、 Displaying the address of the page itself (for example,
“www2.sportsline.com/u/soccer”)。 "Www2.sportsline.com/u/soccer").

【0205】図5は、図4において表示される“www.sp [0205] FIG. 5, is displayed in Figure 4 "www.sp
ortsline.com/u/soccer/worldcup98”のディレクトリを、利用者が選択しそのディレクトリの内容を更に詳しく表示させたものである。注意する点として、グラフィカルエレメントであるアイコンの形に、ウェブページを示す星型「*」と、クラスターを示す(ディレクトリを示す)四角形を用いていることがある。 ortsline.com/u/soccer/worldcup98 the directory of "one in which the user was allowed to display more detail selected the contents of that directory. as a point to note, in the form of icon is a graphical element, the web page a star "*", which indicates, shows the cluster (indicates the directory) is that you are using the square. 更に現在選択されているノードは強調表示されており、選択されたパスにおける四角形のグラフィカルエレメントは塗りつぶさずに「□」として表示している。 Is further node currently selected highlighted, is displayed as "□" without filled graphical elements square in the selected path.

【0206】ここに示されたビューでは、現在選択されたウェブサイトに至る(又は、現在選択されたウェブサイトからの)リンクを表示している。 [0206] In the view shown here, leading to the currently selected web site (or, from the currently selected web sites) are viewing the link. もし、他のサイトが、この選択されたウェブサイトへのリンクを持つ場合には、これを矢線(矢印による線)により示している。 If other sites, if they have a link to the selected website has This is illustrated by the arrow line (the line by arrow).
同様に、もしあるサイトが、この選択されたウェブサイトからのリンクを持つ場合には,これを矢線により示している。 Similarly, if one site, if they have a link from the selected website has This is shown by the arrow line. この矢線の厚さは、リンクの数に対応させて厚くしている。 The thickness of the arrow is thicker in correspondence to the number of links. これにより、図4の下方に示されている“www.sports.com”のサイトは、“www.sportsline.co Thus, the site of which "www.sports.com" shown in the lower part of FIG. 4, "Www.Sportsline.Co
m”のサイトに対しインリンクとアウトリンクの双方を持つことが、グラフィカルエレメントにより示されている。 To the site of m "to have both in-link and out-link, it has been shown by the graphical element.

【0207】また、選択されたサイトの子(ウェブページ等)からの矢線(又、子への矢線)は、それらの関連性を示すものである。 [0207] In addition, a child of the selected site arrow line from the (web pages, etc.) (also, arrow to the child) are those that show their relevance. 例えば、図5においては、“www. For example, in Figure 5, "www.
sportsline.com/u/soccer/worldcup98/dm62598.htm”のページは、このページから発信されるいくつかのリンクを備えている。 Page of sportsline.com/u/soccer/worldcup98/dm62598.htm "is equipped with some of the links that originate from this page.

【0208】注目されるべき点として、コレクションの内容を表示するためには、様々な描画アルゴリズムを使用することができることがある(例えば次を参照、“G. [0208] It should be noted, in order to display the contents of the collection may be able to use the various drawing algorithms (e.g. see below, "G.
Battista, P. fades, R. Thmassia, and I. Tollis, A Battista, P. fades, R. Thmassia, and I. Tollis, A
lgorithms for Drawing Graphs: an Annotated Bibliog lgorithms for Drawing Graphs: an Annotated Bibliog
raphy, Technical Report, Brown University, June199 raphy, Technical Report, Brown University, June199
3.”)。しかし、殆どの描画アルゴリズムは、拡張性が無くその機能の割に高価であるため、本実施の形態においては上述の様に、何千ものウェブページを含む巨大なコレクションを効果的に表示することのできる、より単純な視覚化を用いるのである。 3. "). However, most of the drawing algorithm, since scalability is expensive in spite of without its function, as described above in the present embodiment, effect a huge collection, including the web page of thousands capable of displaying is to use a simpler visualization.

【0209】この表形式のビューと抽象的階層ビューは、統合されている。 [0209] Abstract hierarchical view and a view of the table format are integrated. 例えば、左側の抽象的階層ビューにおけるウェブサイトを選択すると、右側の論理ウェブサイトのテーブルの当該サイトを強調表示するのである。 For example, if you select a website in abstract hierarchical view on the left, it is to highlight the site of the right logical website table. また、同様に論理ウェブサイトのテーブルに示されるサイトを利用者が選択することにより、その抽象的階層を参照することができる。 Similarly, by the user of the site shown in the logical website table is selected, it is possible to refer to that abstract hierarchy. これらのビューを合わせることにより、利用者は、このコレクションについての理解を得ることができ、また次に述べられるような有用な見通しを引き出すことができる。 By combining these views, the user can pull out the understanding of the collection can be obtained, also then said are such useful outlook.

【0210】 ページレベルビュー [0210] page-level view アイコン等のグラフィカルエレメントを(右マウスボタンにより)クリックすることにより、そのクラスターやウェブページのより詳細な情報が表示される。 By clicking a graphical element such as an icon (by the right mouse button), more detailed information of the cluster and the web page is displayed. えば、図6では、「情報の視覚化」のコレクション内の“http:/ Example, in FIG. 6, in the collection of "information visualization" "http: /
/www.infovis.org/infovis99/cfp.html”のウェブページにおける、タイトルや、最後の修正日時等の情報をダイアログボックス内に表示している。また、表示されたダイアログボックスから、利用者がそのページに訪れたり、またそのページからリンクする(されるページ)に訪れることができるものとしてもよい。同様に、図7 In the web page of /www.infovis.org/infovis99/cfp.html ", and the title, and display information such as the last modification date and time in the dialog box. In addition, from the displayed dialog box, the user visit to the page, or may be what can be visited to link from that page (as page). Similarly, FIG. 7
は、「infovis99論文募集」を発表するページに、リンクするページの一覧を示すものである。 It is, to a page to announce the "infovis99 Call for Papers", shows a list of the page you want to link. このページは、インリンクのみを持つものである。 This page is intended to have the only-in link.

【0211】本発明により提供される他の有用な視覚化モードには、図8の例に示されるように、利用者が予め選択したページと他のウェブページとの関係を見ることを可能にする、散布ビュー(scatterplot view)がある。 [0211] Other useful visualization modes provided by the present invention, as shown in the example of FIG. 8, possible to see the relationship between the page and another web page selected by the user in advance to, there is a scatter-view (scatterplot view).

【0212】本発明のビジュアル化テクニックによれば、各ウェブページ(右側のトップコーナーの中に表示された予め選択されたページ)は、グラフィカルエレメントによって2次元X−Y座標により表示される。 According to visualize techniques [0212] The present invention, (preselected page is displayed in the top corner to the right) each web page is displayed by two-dimensional X-Y coordinate by a graphical element.

【0213】このビューでは、予め選択されたページの意味的類似性がベクトル空間モデルを用いて決定され、 [0213] In this view, the semantic similarity of preselected page is determined using a vector space model,
それをページ内にY座標により表示している。 It is displayed by the Y coordinate to it within the page. このベクトル空間モデルは、“G. Salton and M. McGill, Intro The vector space model, "G. Salton and M. McGill, Intro
duction to Modem Information Retrieval, McGraw-Hil duction to Modem Information Retrieval, McGraw-Hil
l, 1983.”において詳しく説明されている。一方で、予め選択されたページの構造的類似性をX座標により表示している。 l, is described in detail in 1983. ". On the other hand, displaying the structural similarity of preselected pages by X-coordinate.

【0214】例えば、選択されたページAと他のページBとの構造的類似性は、次のように計算することができる。 [0214] For example, the structural similarity between the pages A and another page B, which is selected can be calculated as follows.

【0215】1. [0215] 1. ページAとページBとが、直接にリンクする場合には、構造的類似性のスコアに“1.0” The pages A and B is, when the direct link to the score of the structural similarity "1.0"
を加える。 It is added.

【0216】2. [0216] 2. ページAとページBとが、次の(a)、(b)、(c)のような間接的なリンクの関係にある場合には、構造的類似性のスコアに“0.5”を加える。 The pages A and B is the following (a), is added (b), "0.5" indirectly in some cases the link relationship, the score of structural similarities, such as (c) .

【0217】この間接リンクは、他のページCを介するものであって次の3つがある。 [0217] This indirect link, 3 of the following be one through the other pages C Tsugaaru.

【0218】(a) 中間リンク(Transitive): BがCにリンクし、かつCがAにリンクする。 [0218] (a) intermediate link (Transitive): B is linked and C, and C is linked to A. この逆も同様。 The vice versa.

【0219】(b) 共通参照リンク(Social Filteri [0219] (b) common reference link (Social Filteri
ng):AとBが、共にCにリンクする。 ng): A and B are linked together to C.

【0220】(c) 共通引用リンク(Co-citation): [0220] (c) common citation link (Co-citation):
Cが、AとBの双方にリンクする。 C is linked to both the A and B.

【0221】3. [0221] 3. こうして得られたスコアを、構造的類似性を決定するために正規化する。 The thus obtained score, normalized to determine the structural similarity.

【0222】本実施の形態の散布図による視覚化は、各ページの選択されたURLに対する関連を表示する上でとても有用であり、意味的かつ構造的に高く類似するページは右上の側に示されるのである。 [0222] visualization scatter diagram of the present embodiment is very useful in view related to the selected URL of each page, a page that is similar semantically and structurally high illustrated on the side of the upper right than it is.

【0223】利用者は、グラフィカルエレメントをクリックすることにより、URLや、タイトルや、リンクや、関連するページ等の詳細を参照することができる。 [0223] The user, by clicking a graphical element, URL or, or title, or link, it is possible to see the details, such as the relevant page.

【0224】 問い合わせの統合 [0224] integration of inquiry 本発明のウェブトピック管理システムのインタフェースでは、様々な基準に基づいて利用者が情報空間を選別する(フィルターを掛ける)ことができる。 The interface of Web topics management system of the present invention, it is possible for a user to sort the information space based on various criteria (to filter). 例えば、利用者は、指定した日付よりも後に(又は前に)修正が行われたページのみを表示させることができる。 For example, the user (or before) later than the specified date can be displayed only modifications were made pages. 更に、前述の散布による視覚化(scatterplot visualization)によって、利用者は、選択したページと共通引用リンクを備えるページや、直接にリンクするページや、ドメインを同じくする(又は異なる)ページのみを表示させることができる。 Furthermore, the visualization spraying the above-mentioned (scatterplot visualization), the user displays or pages comprising a common reference link and the selected page, a page or a direct link, the like-domain (or a different) pages only be able to.

【0225】また、本発明の別の重要な特徴は、利用者指定したキーワードに基づき、関連するウェブページあるいはウェブサイトを決定する機能を備えることである。 [0225] Another important feature of the present invention is based on the keyword specified user is to a function to determine an associated web page or website. 例えば、図9及び図10では、、映画“タイタニック”の情報によるコレクションにおいて、“セリーヌ・ For example, in the collection by the information of FIGS. 9 and 10 in ,, movie "Titanic", "Celine
ディオン”のキーワードによる検索の結果を示している。 It shows the results of a search by keyword of Dion ".

【0226】図9は、本発明のウェブトピック管理システムのユーザインタフェースであるJavaアプレットを利用して、上記のクエリーに基づく検索を示すものである。 [0226] Figure 9, by using the Java applet is a user interface of a web topic management system of the present invention shows a search based on the query. 左側の表形式のビューにおいては、このタイタニック”のコレクションが表示されており、右側の抽象的階層ビューにおいては、“セリーヌ・ディオン”のキーワードに関連するグループのみを表示していることが容易に理解されるだろう。ここではまた、コレクションの20の連結コンポーネント(図11を参照)の中から、 In table view of the left side, the "are collections displayed in the right side of abstract hierarchical view," Titanic it is easily displaying only the group related to the keyword Celine Dion " will be understood. Again, from the 20 coupling component of the collection (see Figure 11),
4つのみが検索に該当したこともわかるであろう。 Only four will be seen also that corresponding to the search.

【0227】本発明のシステムの利用者は、関連する情報を決定するために、このように選別された情報の空間をナビゲートすることができる。 [0227] The system of the user of the present invention, in order to determine the relevant information, the space thus selected information can be navigated. もちろん、利用者は図10に示されるように、HTML文によるウェブページ内に関連するページの一覧を表示して参照することもできるのである。 Of course, the user as shown in FIG. 10, it is in the range can be referred to display a list of pages related to the web page by the HTML statement. またこのため、クエリーに対する検索結果は、連結コンポーネント、ウェブサイト、ウェブページの少なくとも3つの抽象的レベルに基づいて参照をすることができるものとしてもよい。 Since this, search results for the query, the connecting component, the website may be what can be referred to based on at least three abstract level of the web page.

【0228】この方法により、本発明のウェブトピック管理システムは、滑らかにかつ効率的に検索とブラウジング(browsing)を統合するのである。 [0228] By this method, the web topic management system of the present invention is to integrate smoothly and efficiently search and browsing (browsing).

【0229】注意すべき点として、キーワードによる検索では、散布ビューにおける視覚化において用いられた選択されたノードに類似するノードの識別と同様に、本発明のウェブトピック管理システムのユーザインタフェースから、ウェブトピック管理システムのサーバにクエリーを送信するのである。 [0229] It should be noted, in the search by keyword, similarly to the identification of the node that is similar to the selected node used in the visualization of the spraying view, from the user interface of the web topic management system of the present invention, the web topic than is to send a query to the management system server. そしてサーバから送られる検索結果を、視覚化して表示するのである。 And a search result sent from the server, it is to display the visualization.

【0230】この有効性を検討するために、本発明のシステムを、いくつかのトピックに関連する情報のウェブからの収集と編成に使用した。 [0230] In order to examine the effectiveness, the system of the present invention, was used for the collection and organization from the web of information related to some of the topics. トピックのキーワードは、サーチエンジン “Google”(グーグリ)に対して検索が行われ、シードURLとして先頭から100の関連するページをダウンロードした。 Keyword of the topic, the search engine "Google" (Guguri) search is performed on, download the pages that are related from the beginning of the 100 as a seed URL.

【0231】ダウンロードしたページはインデックスが付され、また、標本文書ベクトルが、これらのURL内から25の最も頻繁に生じる単語から生成された。 [0231] The downloaded page index is assigned, also, the sample document vector is generated from the most frequently occurring words of 25 from these in the URL. この実験においては、“及び”等のようにありふれた単語や、前述の停止リスト(stoplist)に含まれる単語は、 In this experiment, common words and the like, such as "and", the words included in the aforementioned stop list (STOPLIST),
キーワードのリストから特別に除外している。 It is specifically excluded from the list of keywords.

【0232】そしてクローラは、このシードURLや、 [0232] and crawler, and this seed URL,
RDVに関連するインデックスが付されたページから、 From a page indexed related to the RDV,
リンクされる又はリンクする回数が2回以内のパスをたどる。 The number of times that link is is or link to follow the path of less than 2 times. クローラは、それぞれのページに対して、100 Crawler, for each page, 100
ページを上限としてインリンク及びアウトリンクをたどる。 Follow the in-link and out the link to the page as the upper limit. このクローラによる収集の後には、前述の様に収集されたページを編成する。 After collection by this crawler, to organize a page that has been collected as described above.

【0233】図11は、情報の視覚化、ワールドカップサッカー、タイタニックの3つのテーマのコレクションに対する、本発明の編成処理の統計を示している。 [0233] FIG. 11, visualization of information, World Cup soccer, for the three themes collection of the Titanic, shows the statistics of the organization process of the present invention. この統計のテーブルには、インデックスが付されたウェブページ数と同様に、見つけられた物理ドメイン数, 論理ウェブサイト数, 強連結コンポーネント数、連結コンポーネント数を示している。 This statistics table, like the number of web pages indexed, the found physical domain number, the number of logical website, strongly connected component count indicates the number of connected components.

【0234】この実験により、上記の3つのコレクションにおいては、それぞれの強連結コンポーネントの数は、それぞれの論理サイトよりもたいして少なくはないことが明らかとなった。 [0234] This experiment in three collections of the number of each strongly connected component may not be much less than the respective logical sites revealed. この事実は、各ウェブサイトの間を循環して参照することは、本質的な意味を欠くものであることを指し示すのもであるように見える。 This fact, refer circulates between each web site, it appears to be also the point to be those lacking intrinsic meaning. この理由のために、ウェブサイトを強連結コンポーネントに効果的にまとめることができないのかもしれない。 For this reason, it might not be able to put together to effectively strongly connected component of the web site. しかしながら、情報の視覚化(Information Visualization) However, visualization of information (Information Visualization)
のような学術的なトピックの強連結コンポーネントの数は、一般の関心を集めているトピックであるワールドカップサッカーのものよりも多くなることは、注意されるべき点である。 The number of strongly connected component of academic topics such as is, is to become more than that of the World Cup soccer is a topic that has attracted public interest, is the point should be noted. このウェブトピック管理システムのインタフェースを用いるコレクションの分析において、これの理由は、情報の視覚化のコレクションは、頻繁に相互に参照される様々な研究グループのウェブサイトから構成されるためであることが示された。 In analyzing the collection using interface of the web topic management system, it is this reason, collection of information visualization is to frequently be configured from the website of various research groups referenced to each other It was shown.

【0235】一方で、ワールドカップサッカーのコレクションにおいては、その大部分が、このトピックの情報を備えるいくつかの商用ウェブサイトと同様に、このトピックに関心を持つ人々の個人的なページから構成されるのである。 [0235] On the other hand, in the collection of World Cup soccer, the most part, as well as some of the commercial web site with the information in this topic, is composed of a personal page of people who are interested in this topic it's that. 個人のページにおいては、いくつかの商用サイトに対してリンクを備えることが多いが、逆に、商用サイトが個人のページに対してリンクを備えることはあまりない。 In the personal page, it is often provided with a link for some commercial sites, on the contrary, it is not much with a link to the personal page commercial site. そしてもちろん、商用サイトにおいては、 And of course, in the commercial sites,
競合する他の商用サイトにたどり着くいかなるリンクをも備えないことがある。 It may not comprise any link to reach the competing other commercial sites.

【0236】図11においては、更に連結コンポーネントの数が少ないことが示されている。 [0236] In FIG 11 is shown to be more number of connected components is less. こうして、本発明の編成テクニックでは、数多くのリンクする(よって関連する)サイトを、少数の重要な集まりにまとめているのである。 Thus, in organizing techniques of the present invention, it is of a large number of links (and thus relevant) site, are summarized in a small number of important gatherings.

【0237】図3の右側の抽象的階層のビューにおいて示されるように、トピックに関連する情報は殆どの場合に、そのトップの少数のコンポーネントにより見つけることができるのである。 [0237] As shown in the right side view of the abstract hierarchy in Figure 3, the information related to the topic in most cases, it is possible to find a small number of components of the top.

【0238】他のサイトのリンクを備えない孤立したサイトは、一般にコレクションの主要テーマとは異なる情報により構成されている。 [0238] orphaned site does not include the link of the other site is composed of the different information from the general to the main theme of the collection. 例えば、図3に示されるように“www.ee.umd.edu”のサイトは、ワールドカップサッカーのコレクションに属している。 For example, site of the "www.ee.umd.edu" as shown in FIG. 3, belong to the collection of World Cup soccer. しかしながら、このサイトのメインページを(このコレクションから)調べると、そこにあるのは“http://www.ee.umd.edu/dstewa However, when examining the main page of this site (from this collection), for there is "http://www.ee.umd.edu/dstewa
rt/pinball/PAPA6/”という1998年の世界ピンボールチャンピオンシップ(1998 World Pinball Champions rt / pinball / PAPA6 / World Pinball Championship in 1998 called "(1998 World Pinball Champions
hip)のページである。 Is a page of the hip). これに参加するチームの1つが、“ワールドカップサッカー”であるために、このページがサーチエンジンにより検索されたのである。 One of the team to participate in this, but, because of the "World Cup Soccer", is that this page has been retrieved by the search engine. 同様に,“www.hp.com”がこのコレクションに含まれるのは、そのサイトを開設する企業がワールドカップサッカーの情報を配信することが報道されたためである(参照、“http://www.hp.com/pressrel/jun99/07jun99g.ht Similarly, "www.hp.com" is included in this collection, it is because the was reported the company to open its site to deliver the information of the World Cup soccer (see, "http: // www .hp.com / pressrel / jun99 / 07jun99g.ht
m”)。同様に、タイタニックのコレクションには、孤立サイトであるタイタニックという名前のカジノのサイト“www.casino-titanic.com”が見つけられる。 m "). Similarly, the Titanic of the collection, the Titanic site of the casino named an isolated site" is found is www.casino-titanic.com ".

【0239】このように、本発明の抽象的階層ビューが、コレクションの中心にないページを切り離すことに有効であることが明らかとなる。 [0239] Thus, abstractly hierarchical view of the present invention will become apparent to be effective to detach the page is not in the center of the collection. この種の分析を、従来のサーチエンジンや既存のシステムを使用して、トピック管理のために導くことは難しい。 This type of analysis, using a conventional search engine and existing systems, it is difficult to lead for the topic management. 一方で、ここに明白に示された本発明の実施例により、本発明のウェブトピック管理システムの有用性が示されている。 On the other hand, the embodiment of the present invention shown herein clearly, and utility of the web topic management system of the present invention is shown.

【0240】本発明の他の重要な特徴としては、収集されたトピックの情報の編成において、各ページの本文解析を役立たせることに関係する。 [0240] Another important feature of the present invention, in the organization of information collected topics related to of help text analysis of each page. 本実施の形態における各ウェブページは、ウェブサイトのディレクトリ階層に基づいて、ウェブサイト内に編成されている。 Each web page in this embodiment, based on the directory hierarchy of the web site, are organized in the web site. ウェブサイトの管理者は、そのサイト内のページがどのように編成されなくてはならないかを判断する最良の者であるので、このグループ化へのアプローチは特に有効である。 The administrator of the web site, because it is the best person to determine must be how organized the page in the site, approach to this grouping is particularly effective.
しかしながら、関連するサイトをグループ化するために、本実施の形態ではサイト間のリンクのみを用いる。 However, in order to group related sites, is used in this embodiment only links between sites.
この本実施の形態では、殆どの場合に意味のある抽象的階層を生成することができるが、さらによりよい結果が、本文解析に基づくグラフアルゴリズムを増やすことにより達成されるかもしれない。 In this embodiment, it is possible to generate the abstract hierarchical meaningful in most cases, even better results may be achieved by increasing the graph algorithm based on body analysis.

【0241】本発明のシステムは、個々の利用者が共同して、インターネット上の共用の情報空間をナビゲートするために用いることができる。 [0241] The system of the present invention can be used in association each user, the information space shared on the Internet in order to navigate. 例えば、仲間により特定のトピックに対する文献調査等を協力して行うことができる。 For example, it can be carried out in cooperation of the literature survey for a particular topic by fellow. 本発明のクライアントサーバの構成によって、 The configuration of the client server of the present invention,
こうした協力的な環境を促進することができる。 It is possible to promote such a supportive environment.

【0242】また、本発明の技術に関わる当業者においては、本発明のウェブトピック管理システムのようなシステムが、ウェブがより巨大化すると共に、有益な情報を検索するために不可欠なものとなることは容易に明らかである。 [0242] Further, those skilled in the art related to the technology of the present invention, a system such as a web topics management system of the present invention, the web is more gigantic, it becomes essential to find useful information it is readily apparent.

【0243】以上好ましい実施の形態及び実施例をあげて本発明を説明したが、本発明は必ずしも上記実施の形態及び実施例に限定されるものではなく、その技術的思想の範囲内において様々に変形して実施することができる。 [0243] The above preferred embodiments and the invention has been described by way of examples, the present invention is not necessarily limited to the embodiments and the examples, various within the scope of its technical idea it can be carried deform to.

【0244】 [0244]

【発明の効果】以上説明したように本発明のウェブトピック管理システムによれば、以下のような効果が達成される。 According to the web topic management system of the present invention as described in the foregoing, the following advantages are achieved.

【0245】第1に、利用者が特定のトピックに関連する情報を収集し編成することができ、かつ情報空間を容易にナビゲートすることができる。 [0245] First, collect the information that the user associated with a particular topic can be organized, and the information space can be easily navigate.

【0246】第2に、情報を様々な抽象的レベルに表すことができ、また関連する情報の検索の問い合わせとブラウジングを統合することができる。 [0246] Second, it is possible to represent information in a variety of abstraction levels, also can be integrated queries and browsing search of related information.

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

【図1】 本発明による話題収集の抽象的な階層構造を示す図である。 It is a diagram illustrating an abstract hierarchical structure of topics collected according to the invention; FIG.

【図2】 本発明によるウェブトピック管理システムの構造の一例を示すブロック図である。 Is a block diagram showing an example of a structure of the web topic management system according to the invention, FIG.

【図3】 本発明によるウェブトピック管理システムが提供するユーザインタフェースの一例を示す図である。 Is a diagram illustrating an example of a user interface provided by the web topics management system according to the present invention; FIG.

【図4】 本発明によるウェブトピック管理システムが表示する抽象的な階層の一例を示す図である。 Is a diagram illustrating an example of an abstract hierarchical web topic management system displays according to the present invention; FIG.

【図5】 本発明によるウェブトピック管理システムが表示する抽象的な階層の一例を示す図である。 Is a diagram illustrating an example of an abstract hierarchical web topic management system display by the present invention; FIG.

【図6】 本発明によるウェブトピック管理システムが表示するウェブドキュメントの情報の一例を示す図である。 Is a diagram showing an example of the information of the web document to display a web topic management system according to the present invention; FIG.

【図7】 本発明によるウェブトピック管理システムが表示するページレベルビューの一例を示す図である。 Is a diagram illustrating an example of a page-level view of the Web topics management system display by the present invention; FIG.

【図8】 本発明によるウェブトピック管理システムが表示するページレベルビューの一例を示す図である。 Is a diagram illustrating an example of a page-level view of the Web topics management system display by the present invention; FIG.

【図9】 本発明のウェブトピック管理システムによる「タイタニック」コレクションに対し発行した、「セリーヌ・ディオン」のキーワードによる検索結果の一例を示す図である。 [9] was issued to the "Titanic" collection by web topic management system of the present invention, is a diagram showing an example of a search result by the keyword "Celine Dion."

【図10】 本発明のウェブトピック管理システムによる「タイタニック」コレクションに対し発行した、「セリーヌ・ディオン」のキーワードによる検索結果の一例を示す図である。 [Figure 10] was issued to the "Titanic" collection by web topic management system of the present invention, is a diagram showing an example of a search result by the keyword "Celine Dion."

【図11】 本発明のウェブトピック管理システムによる階層形成の処理の統計の一例を示す図である。 Is a diagram illustrating an example of the statistical processing of the hierarchy formed by webs topic management system 11 present invention.

【図12】 本発明のクローリングの性能を向上させる方法に基づく処理結果のデータの一例を示す図である。 12 is a diagram showing an example of data processing results based on the method of improving the crawling of performance of the present invention.

【図13】 本発明による近似の最適ハブカバー及び最適オーソリティカバーを求めた統計の一例を示す。 Figure 13 shows an example of statistics to determine the optimal hub cover and optimum authority cover approximation according to the present invention.

【図14】 本発明のクローラがディレクトリ階層中の2つのウェブページの近さを決定する方法を説明するための図である。 14 is a diagram for explaining a method of determining the closeness of the two web page crawler in a directory hierarchy of the present invention.

【符号の説明】 DESCRIPTION OF SYMBOLS

101 物理ドメイン 102 強連結コンポーネント 103 連結コンポーネント 104、105 ディレクトリ 106 ウェブページ 201 ウェブサーバ 202 クライアントサイト 203 ギャザー 204 ウェブ上の情報 205 テキストインデックス 206 編成された情報 207 クローラ 208 テキストサーチエンジン 209 オーガナイザ 210 サーバ 211 ユーザインタフェース 101 physical domain 102 strongly connected components 103 connected components 104, 105 directory 106 web pages 201 web server 202 client site 203 gathers 204 information 205 text index 206 organized information 207 crawler 208 text search engine 209 Organizer 210 server 211 the user on the web interface

Claims (48)

    【特許請求の範囲】 [The claims]
  1. 【請求項1】 予め定められたトピックに関連するウェブページを収集し、インデックスを付し、編成する情報収集手段と、 前記収集されたウェブページの中をナビゲートするユーザインタフェースを備えることを特徴とするウェブトピック管理システム。 1. A collects web pages associated with the predetermined topic, attaching an index, comprising: a data collection means for organizing the user interface to navigate among the collected web pages web topic management system that.
  2. 【請求項2】 前記情報収集手段は、 前記ウェブページを収集するクローラを備えることを特徴とする請求項1に記載のウェブトピック管理システム。 2. A web topic management system of claim 1 wherein the information collecting means, characterized in that it comprises a crawler collecting the web page.
  3. 【請求項3】 前記情報収集手段は、 前記収集されたウェブページにインデックスを付す、フルテキストサーチエンジンと、 前記ウェブページを多数の抽象的レベルに基づいて分類する、オーガナイザを備えることを特徴とする請求項1 Wherein said information collecting means, subjecting the index to the collected web pages, and full-text search engine, classified on the basis of the web page into a number of abstract level, and characterized in that it comprises Organizer claim to 1
    に記載のウェブトピック管理システム。 Web topic management system according to.
  4. 【請求項4】 前記収集されたウェブページの中をナビゲートするユーザインタフェースを、Javaアプレットとすることを特徴とする請求項1に記載のウェブトピック管理システム。 4. A web topic management system according to claim 1, wherein the user interface to navigate through the web page the collection, characterized in that a Java applet.
  5. 【請求項5】 ウェブにおける話題の情報を管理するウェブトピック管理方法において、 (a)予め定められたトピックに関連するウェブページを収集し、インデックスを付し、編成するステップと、 (b)前記収集されたウェブページの中をナビゲートするユーザインタフェースを提供するステップを備えることを特徴とするウェブトピック管理方法。 5. The web topic management method for managing information of a topic in the web, and collecting the web page associated with the predetermined topic (a), designated by the index, the steps of knitting, (b) the web topic management method, characterized in that it comprises the step of providing a user interface to navigate through the collected web page.
  6. 【請求項6】 前記ステップ(a)は、 クローラを用いて、前記ウェブページを収集することを特徴とする請求項5に記載のウェブトピック管理方法。 Wherein said step (a) using the crawlers, web topic management method according to claim 5, characterized in that collecting the web page.
  7. 【請求項7】 前記ステップ(a)は、 (1)クローラを用いて、前記ウェブページを収集するステップと、 (2)フルテキストサーチエンジンを用いて、前記収集されたウェブページにインデックスを付すステップと、 (3)オーガナイザを用いて、前記インデックスを付されたウェブページを、多数の抽象的レベルに基づいて、 Wherein said step (a) using (1) the crawler, the subjecting the steps of collecting a web page, the index and the collected web pages with (2) full-text search engine a step, using a (3) Organizer, a web page having said index, based on a number of abstract level,
    多数のグループに分類するステップを、 備えることを特徴とする請求項5に記載のウェブトピック管理方法。 The step of classifying the plurality of groups, web topic management method according to claim 5, characterized in that it comprises.
  8. 【請求項8】 前記ステップ(b)は、 前記提供するユーザインタフェースが、前記多数のグループの少なくとも1つをグラフィカルエレメントにより表示することを特徴とする請求項7に記載のウェブトピック管理方法。 Wherein said step (b) includes a user interface to the provided web topic management method according to claim 7, characterized in that display at least one graphical element of the plurality of groups.
  9. 【請求項9】 前記グラフィカルエレメントの画像の属性により、前記多数のグループの当該グラフィカルエレメントに対応する抽象的なレベルを表現することを特徴とする請求項8に記載のウェブトピック管理方法。 By 9. The image attribute of the graphical elements, the web topic management method according to claim 8, characterized in that to represent the abstract level corresponding to the graphical element of the plurality of groups.
  10. 【請求項10】 前記グラフィカルエレメントの画像の属性により、前記多数のグループの当該グラフィカルエレメントにおける、前回情報を編集した日付を表現することを特徴とする請求項8に記載のウェブトピック管理方法。 By 10. attributes of the image of the graphical element, wherein in the graphical elements of the plurality of groups, web topic management method according to claim 8, characterized in that representing the date edited last information.
  11. 【請求項11】 前記ステップ(b)は、 前記収集されたウェブページの中をナビゲートするユーザインタフェースを、Javaアプレットとすることを特徴とする請求項5に記載のウェブトピック管理方法。 Wherein said step (b) is a user interface to navigate among the collected web pages, web topic management method according to claim 5, characterized in that a Java applet.
  12. 【請求項12】 前記ステップ(a)は、 利用者が、前記予め定められたトピックに関連する少なくとも1つのシードウェブページを指定するステップと、 少なくとも1つの前記シードウェブページを用いて、当該シードウェブページにおいて頻繁に生じる文言に基づき、標本文書ベクトルを生成するステップと、 前記標本文書ベクトルを用いて、前記収集されたウェブページの、前記予め定められたトピックへの関連性を決定するステップを備えることを特徴とする請求項5に記載のウェブトピック管理方法。 12. The method of claim 11, wherein step (a), the user, by using the step of designating at least one seed web page associated with the predetermined topic, at least one of the seed web page, the seed based on the wording frequently occurring in a web page, generating a sample document vector, using said sample document vector, of the collected web pages, determining the relevance to the predetermined topic web topics management method according to claim 5, characterized in that it comprises.
  13. 【請求項13】 前記ステップ(a)は、 利用者が、前記予め定められたトピックのための少なくとも1つのキーワードを指定するステップと、 少なくとも1つの前記キーワードを用いて、少なくとも1つのシードウェブページを探し出すステップと、 少なくとも1つの前記シードウェブページを用いて、当該シードウェブページにおいて頻繁に生じる文言に基づき、標本文書ベクトルを生成するステップと、 前記標本文書ベクトルを用いて、前記収集されたウェブページの、前記予め定められたトピックへの関連性を決定するステップを備えることを特徴とする請求項5に記載のウェブトピック管理方法。 Wherein said step (a), the user, the step of designating at least one keyword for the predetermined topic, using at least one of said keywords, the at least one seed webpage comprising the steps of locating, using at least one of the seed web page, based on the wording frequently occurring in the seed web pages, and generating a sample document vector, using said sample document vector, the collected web pages, web topic management method according to claim 5, characterized in that it comprises the step of determining the relevance to the predetermined topic.
  14. 【請求項14】 前記ステップ(a)は、 (1)少なくとも1つのシードウェブページにインデックスを付すステップと、 (2)少なくとも1つの前記シードウェブページを用いて、当該シードウェブページにおいて頻繁に生じる文言に基づき、標本文書ベクトルを生成するステップと、 (3)前記シードウェブページにより参照される多数のウェブページをダウンロードするステップと、 (4)前記ダウンロードされた多数のウェブページのそれぞれと、前記標本文書ベクトルとの類似性が、予め定められたしきい値を越えるかどうかを判定するステップと、 (5)前記ダウンロードされた多数のウェブページの内の、前記ステップ(4)において類似性が予め定められた前記しきい値を越えると判定された各ウェブページに、インデッ 14. The method of claim 13, wherein step (a), (1) a step of subjecting the index to at least one seed webpage, using at least one of the seed web page (2), occurs frequently in the seed Webpage based on language, and generating a sample document vector, the respective steps and, (4) a number of web pages that the downloaded to download a number of web pages that are referenced by (3) the seed web page, the similarity between the sample document vector, determining whether more than a predetermined threshold, the similarity in (5) of a number of web pages that the downloaded, the step (4) each web page is determined to exceed the predetermined said threshold, indexes スを付するステップと、 (6)前記ダウンロードされた多数のウェブページの内の、前記ステップ(4)において類似性が予め定められた前記しきい値を越えると判定された各ウェブページを、待ち行列に追加するステップと、 (7)前記待ち行列に含まれるウェブページによりリンクされる、第2の多数のウェブページをダウンロードするステップと、 当該第2の多数のウェブページを、前記多数のウェブページに追加するステップと、 前記待ち行列から、前記ダウンロードされた第2の多数のウェブページを削除するステップと、 (8)前記ステップ(4)からステップ(7)までの処理を、前記待ち行列が空となるまで繰り返すステップを、 備えることを特徴とする請求項5に記載のウェブトピック管理方法。 A step of subjecting the scan, each web page is determined to exceed the threshold similarity predetermined in the (6) of a number of web pages that the downloaded, the step (4), a step of adding to the queue, (7) are linked by the web pages contained in the queue, the step of downloading a second plurality of web pages, the second number of web pages, the number of a step of adding to the web page, from the queue, the steps for deleting the second plurality of web pages the download, the processing up to step (7) (8) step (4), the waiting web topics management method according to claim 5 which matrix the step of repeating until empty, characterized in that it comprises.
  15. 【請求項15】 前記ステップ(3)の、前記シードウェブページにより参照されるダウンロード対象の多数のウェブページを、 ウェブサイトのディレクトリ構造において、前記シードウェブページから近くにあるウェブページのみとすることを特徴とする請求項14に記載のウェブトピック管理方法。 Of 15. step (3), a number of web pages to be downloaded to the referenced by seed webpage, in the directory structure of the web site, that only the web page in the vicinity from the seed webpage web topics management method according to claim 14, wherein.
  16. 【請求項16】 前記ステップ(7)の、前記待ち行列に含まれるダウンロード対象の第2の多数のウェブページを、 ウェブサイトのディレクトリ構造において、前記シードウェブページから近くにあるウェブページのみとすることを特徴とする請求項14に記載のウェブトピック管理方法。 Of 16. step (7), a second plurality of web pages to be downloaded contained in the queue, the directory structure of the web site, only the web page in the vicinity of the seed webpage web topics management method according to claim 14, characterized in that.
  17. 【請求項17】 前記ステップ(3)の、前記シードウェブページにより参照される多数のウェブページのダウンロードにおいて、 ウェブサイトのある1つのディレクトリから25ページ以上のウェブページをダウンロードし、かつ当該1つのディレクトリからダウンロードしたウェブページの90 Of 17. step (3), the download of a large number of web pages that are referenced by the seed web page, downloading a web page over 25 pages from one directory with the website, and the one of web pages downloaded from the directory 90
    %以上が前記トピックに関連しない場合においては、 当該1つのディレクトリからは、これ以上のウェブページをダウンロードしないことを特徴とする請求項14に記載のウェブトピック管理方法。 In the case where% or more is not related to the topic, from the one directory, web topic management method according to claim 14, characterized in that not to download more of the web page.
  18. 【請求項18】 前記ステップ(7)の、前記待ち行列に含まれる第2の多数のウェブページのダウンロードにおいて、 ウェブサイトのある1つのディレクトリから25ページ以上のウェブページをダウンロードし、かつ当該1つのディレクトリからダウンロードしたウェブページの90 18. in step (7), the download of the second plurality of web pages contained in the queue, download a directory from more than 25 pages web page of the website, and the 1 90 of the web page that you downloaded from One of directory
    %以上が前記トピックに関連しない場合においては、 当該1つのディレクトリからは、これ以上のウェブページをダウンロードしないことを特徴とする請求項14に記載のウェブトピック管理方法。 In the case where% or more is not related to the topic, from the one directory, web topic management method according to claim 14, characterized in that not to download more of the web page.
  19. 【請求項19】 前記ステップ(a)は、 (1)少なくとも1つのシードウェブページにインデックスを付すステップと、 (2)少なくとも1つの前記シードウェブページを用いて、当該シードウェブページにおいて頻繁に生じる文言に基づき、標本文書ベクトルを生成するステップと、 (3)前記シードウェブページにより参照される多数のウェブページをダウンロードするステップと、 (4)前記ダウンロードされた多数のウェブページのそれぞれと、前記標本文書ベクトルとの類似性が、予め定められたしきい値を越えるかどうかを判定するステップと、 (5)前記ダウンロードされた多数のウェブページの内の、前記ステップ(4)において類似性が予め定められた前記しきい値を越えると判定された各ウェブページに、インデッ 19. wherein step (a), (1) a step of subjecting the index to at least one seed webpage, using at least one of the seed web page (2), occurs frequently in the seed Webpage based on language, and generating a sample document vector, the respective steps and, (4) a number of web pages that the downloaded to download a number of web pages that are referenced by (3) the seed web page, the similarity between the sample document vector, determining whether more than a predetermined threshold, the similarity in (5) of a number of web pages that the downloaded, the step (4) each web page is determined to exceed the predetermined said threshold, indexes スを付するステップと、 (6)前記ダウンロードされた多数のウェブページの内の、前記ステップ(4)において類似性が予め定められた前記しきい値を越えると判定された各ウェブページを、待ち行列に追加するステップと、 (7)前記待ち行列に含まれるウェブページによりリンクされる、第2の多数のウェブページをダウンロードするステップと、 当該第2の多数のウェブページを、前記多数のウェブページに追加するステップと、 前記待ち行列から、前記ダウンロードされた第2の多数のウェブページを削除するステップと、 (8)前記ステップ(4)からステップ(7)までの処理を、ダウンロードが指定された深さに達するまで繰り返すステップを、 備えることを特徴とする請求項5に記載のウェブトピック管理方法。 A step of subjecting the scan, each web page is determined to exceed the threshold similarity predetermined in the (6) of a number of web pages that the downloaded, the step (4), a step of adding to the queue, (7) are linked by the web pages contained in the queue, the step of downloading a second plurality of web pages, the second number of web pages, the number of a step of adding to the web page, from the queue, the steps for deleting the second plurality of web pages the download, the processing up to step (7) (8) step (4), the download web topics management method according to claim 5, the step of repeating until a specified depth, characterized in that it comprises.
  20. 【請求項20】 前記ステップ(1)の少なくとも1つの前記シードウェブページは、 前記トピックに関連する利用者の指定したウェブページであることを特徴とする請求項14に記載のウェブトピック管理方法。 20. At least one of the seed web page of the step (1) is a web topic management method according to claim 14, characterized in that a web page specified by the user associated with the topic.
  21. 【請求項21】 前記ステップ(1)の少なくとも1つの前記シードウェブページを、前記トピックを表す利用者の指定したキーワードに基づくクエリーを用いて定められたウェブページとすることを特徴とする請求項14 21. The method of claim, characterized in that a web page at least one of the seed webpage defined using a query based on the keyword specified by the user to represent the topic of the step (1) 14
    に記載のウェブトピック管理方法。 Web topic management method according to.
  22. 【請求項22】 前記ステップ(a)の前記トピックに関連する前記ウェブページは、 少なくとも1つのシードウェブページと、 少なくとも1つの前記シードウェブページへのパスを備える、又は少なくとも1つの前記シードウェブページからのパスを備える前記シードウェブページの、少なくとも1つと類似する全てのページを備えることを特徴とする請求項5に記載のウェブトピック管理方法。 The web page associated with the topic 22. wherein step (a) comprises at least one seed webpage, at least one of said paths to seed a web page, or at least one of the seed webpage the seed web pages, web topic management method according to claim 5, characterized in that it comprises all the pages that are similar, at least one with a path from.
  23. 【請求項23】 少なくとも1つの前記シードウェブページは、前記トピックに関連する利用者の指定したウェブページであることを特徴とする請求項22に記載のウェブトピック管理方法。 23. At least one of the seed web page, web topic management method according to claim 22, characterized in that a web page specified by the user associated with the topic.
  24. 【請求項24】 少なくとも1つの前記シードウェブページは、前記トピックを表す利用者の指定したキーワードに基づくクエリーを用いて定められたウェブページとすることを特徴とする請求項22に記載のウェブトピック管理方法。 24. At least one of the seed web page, web topic of claim 22, characterized in that a web page defined using a query based on the keyword specified by the user indicating the topic Management method.
  25. 【請求項25】 少なくとも1つの前記シードウェブページへのパスを備えるウェブページにおける、又は少なくとも1つの前記シードウェブページからのパスを備えるウェブページにおける、少なくとも1つの前記シードウェブページとの類似性の判定を、前記トピックを参照して決定することを特徴とする請求項22に記載のウェブトピック管理方法。 In 25. At least one web page comprising a path of the to seed a web page, or at least one of said at web page comprising a path from the seed web pages, at least one said similarity between the seed webpage web topics management method of claim 22, determining, and determines by referring to the topic.
  26. 【請求項26】 前記ステップ(a)は、 前記収集されたウェブページを、前記ウェブページの公開元のウェブサイトのディレクトリ構造を基に編成するステップを備えることを特徴とする請求項5に記載のウェブトピック管理方法。 26. The method of claim 25, wherein step (a), according to claim 5, characterized in that it comprises the step of the web page the collected, organized on the basis of the directory structure of the publisher of the website of the web page web topic how to manage.
  27. 【請求項27】 前記ステップ(a)は、 前記収集されたウェブページを、前記ウェブページの公開元のウェブサイトの物理ドメインネームを基に編成するステップを備えることを特徴とする請求項5に記載のウェブトピック管理方法。 27. The method of claim 26, wherein step (a), the collected web pages, to claim 5, characterized in that it comprises the step of organizing the basis of the physical domain name of publisher website of the web page web topic management method according.
  28. 【請求項28】 前記ステップ(a)は、 前記収集されたウェブページを、前記ウェブページの公開元の論理ウェブサイトに基づいて編成するステップを備えることを特徴とする請求項5に記載のウェブトピック管理方法。 28. wherein step (a), the collected web pages, web according to claim 5, characterized in that it comprises the step of organizing based on the public source logical website of the web page topic management method.
  29. 【請求項29】 前記ステップ(a)は、 前記収集されたウェブページを含む任意のウェブサイトの組において、 前記ウェブサイトの組の第1ウェブサイトが、前記ウェブサイトの組の第2ウェブサイトにおける第2ウェブページへのリンクを持つ第1ウェブページを含み、 かつ更に、前記ウェブサイトの組の第2ウェブサイトが、前記ウェブサイトの組の第1ウェブサイトにおける第4ウェブページへのリンクを持つ第3ウェブページを含む、 場合でありかつこの場合に限り、前記ウェブサイトの組を互いにより強く結びついたコンポーネントに分類することを特徴とする請求項5に記載のウェブトピック管理方法。 29. wherein step (a), the set of any web site that contains the collected web pages, the set of first web site website, the second set website of the website includes a first web page with a link to a second web page in, and further, the link of the set of second website website, the fourth web page in the set of the first web site of the web site the third includes a web page only if a is and in this case, web topic management method according to claim 5, characterized in that classifying the web site component associated more strongly with each other pairs of with.
  30. 【請求項30】 前記ステップ(a)は、 前記収集されたウェブページを含む任意のウェブサイトの組において、 前記収集されたウェブページを含む任意のウェブサイトの組において、 前記ウェブサイトの組の第1ウェブサイトが、前記ウェブサイトの組の第2ウェブサイトにおける第2ウェブページへのリンクを持つ第1ウェブページを含み、 かつ更に、前記ウェブサイトの組の第2ウェブサイトが、前記ウェブサイトの組の第1ウェブサイトにおける第4ウェブページへのリンクを持つ第3ウェブページを含む、 場合でありかつこの場合に限り、前記ウェブサイトの組を互いに結びついたコンポーネントに分類することを特徴とする請求項5に記載のウェブトピック管理方法。 30. wherein step (a), the set of any web site that contains a Web page that is the collector, the set of any web site that contains a Web page that is the collection, a set of the web site first web site, the comprises a first web page with a link to a second web page in the set of second website website, and further, the second set website of the website, the web a third web page with a link to the fourth web page of the site set in the first web site, and it and only this case, characterized by classifying the components associated with each other set of said websites web topic management method according to claim 5,.
  31. 【請求項31】 前記ステップ(a)は、 前記ウェブページを収集し、インデックスを付し、分類した後に、当該ウェブページを複数の利用者により利用可能とすることを特徴とする請求項5に記載のウェブトピック管理方法。 31. wherein said step (a) collects the web page, given the index, after classification, in claim 5, characterized in that available the web page by a plurality of users web topic management method according.
  32. 【請求項32】 前記ステップ(a)は、 前記収集されたウェブページを表形式に表示するステップを備えることを特徴とする請求項5に記載のウェブトピック管理方法。 32. wherein said step (a), web topic management method according to claim 5, characterized in that it comprises the step of displaying the collected web page table format.
  33. 【請求項33】 前記表形式によるウェブページの表示においては、 多数のフィールドを備え、 前記多数のフィールドは、 URLのフィールド、ページ数のフィールド、ハブスコアのフィールド、を備えることを特徴とする請求項32 In 33. The display of the web page by the table format, comprises a number of fields, said plurality of field claims, characterized in that it comprises field of URL, the field of the number of pages, field hub score, the 32
    に記載のウェブトピック管理方法。 Web topic management method according to.
  34. 【請求項34】 前記収集されたウェブページは、前記多数のフィールドのそれぞれに基づいてソートできることを特徴とする請求項33に記載のウェブトピック管理方法。 34. the collected web pages, web topic management method according to claim 33, characterized in that can be sorted on the basis of each of the plurality of fields.
  35. 【請求項35】 前記ステップ(b)は、 前記多数のグループを表示するステップと、 前記多数のグループのそれぞれをグラフィカルエレメントにより表示するステップと、 前記多数のグループのそれぞれを、利用者がその抽象的な階層を参照するために選択するステップを備えることを特徴とする請求項7に記載のウェブトピック管理方法。 35. wherein step (b), said displaying a large number of groups, and displaying each of the plurality of groups by graphical elements, each of said plurality of groups, the user that abstract web topics management method according to claim 7, characterized in that it comprises the step of selecting to reference the hierarchy.
  36. 【請求項36】 前記多数のグループの内で、予め定められた選別基準を満たすグループのみを表示することを特徴とする請求項35に記載のウェブトピック管理方法。 36. Among the plurality of groups, web topic management method according to claim 35, wherein the displaying only a group that satisfy a predetermined selection criterion.
  37. 【請求項37】 グループが前記予め定められた選別基準を満たすことを、前記グループが最適オーソリティカバー内にあり、かつこの場合のみとすることを特徴とする請求項36に記載のウェブトピック管理方法。 The 37. Groups that meet the selection criteria set in advance, is in the group best authority within the cover, and the web topic management method according to claim 36, characterized in that only in this case .
  38. 【請求項38】 グループが前記予め定められた選別基準を満たすことを、前記グループが最適ハブカバー内ににあり、かつこの場合のみとすることを特徴とする請求項36に記載のウェブトピック管理方法。 That satisfy 38. screening criteria a group is said predetermined located in the group within the optimum hub cover, and web topic management method according to claim 36, characterized in that only in this case .
  39. 【請求項39】 前記グラフィカルエレメントの画像の属性により、当該グループ内のウェブページの数を表現することを特徴とする請求項35に記載のウェブトピック管理方法。 By 39. attributes of the image of the graphical elements, the web topic management method according to claim 35, characterized in that to represent the number of web pages in the group.
  40. 【請求項40】 前記グラフィカルエレメントの画像の属性により、当該グループ内のウェブページを前回編集した日付を表現することを特徴とする請求項35に記載のウェブトピック管理方法。 By 40. attributes of the image of the graphical elements, the web topic management method according to claim 35, characterized in that to represent the date on which the web pages in the group previously edited.
  41. 【請求項41】前記グラフィカルエレメントの画像の属性により、当該グループの抽象的なレベルを表現することを特徴とする請求項35に記載のウェブトピック管理方法。 By 41. attributes of the image of the graphical elements, the web topic management method according to claim 35, characterized in that to represent the abstract level of the group.
  42. 【請求項42】 前記多数のグループのそれぞれを、当該グループに含まれるウェブページの権限スコアに応じて表示することを特徴とする請求項35に記載のウェブトピック管理方法。 42. wherein each of the plurality of groups, web topic management method according to claim 35, characterized in that the display in accordance with the authority score of the web pages included in the group.
  43. 【請求項43】 前記収集されたウェブページを、少なくとも1つの基準に基づいて選別されたものとすることを特徴とする請求項5に記載のウェブトピック管理方法。 43. A web topic management method according to claim 5, a web page said collection, characterized in that it is assumed that sorted based on at least one criterion.
  44. 【請求項44】 少なくとも1つの前記基準を、前記ウェブページの更新日時とすることを特徴とする請求項4 The method according to claim 44 wherein at least one of the reference, claims, characterized in that the modification date and time of the web page 4
    3に記載のウェブトピック管理方法。 Web topic management method according to 3.
  45. 【請求項45】 多数のウェブページのそれぞれの、予め選択されたウェブページとの関連の視覚化方法において、 前記多数のウェブページのそれぞれを、2次元の座標による画像フォーマットにより表示するステップと、 表示された各前記ウェブページの第1座標により、前記予め選択されたウェブページと表示された当該ウェブページとの間の、意味的な類似性を表現するステップと、 表示された各前記ウェブページの第2座標により、前記予め選択されたウェブページと表示された当該ウェブページとの間の、構造的な類似性を表現するステップを備えることを特徴とする視覚化方法。 Of 45. Each of the large number of web pages, in the context of the visualization method of the preselected web page, the steps of said each of a number of web pages, and displays the image format by the two-dimensional coordinates, the first coordinate of each of the web page displayed, the between the pre-selected web page and displayed the web page, semantic and steps to express similarity, displaying each said web page was the by two coordinates, the between the pre-selected web page and displayed the web page, the visualization method characterized by comprising the step of expressing a structural similarity.
  46. 【請求項46】 前記選択されたウェブページと表示された前記ウェブページとの間の構造的な類似性を、当該選択されたウェブページと当該表示されたウェブページとの間の、直接又間接のリンクの存在を基に算出することを特徴とする請求項45に記載の視覚化方法。 The structural similarity between 46. the web page displayed to the selected web pages, between the selected web page and the displayed web page, directly also indirectly visualization method of claim 45, wherein the calculating of the existence of a link to the group.
  47. 【請求項47】 前記選択されたウェブページと表示された前記ウェブページとが、直接のリンクにより結合されている場合には、前記構造的な類似性の値を“1”増加させるステップと、 前記選択されたウェブページと表示された前記ウェブページとが、間接的なリンクにより結合されている場合には、前記構造的な類似性の値を“0.5”増加させるステップを備えることを特徴とする請求項46に記載の視覚化方法。 And 47. the web page displayed to the selected web page, if they are coupled by direct link, the steps of "1" increases the value of the structural similarity, and the web page that the labeled selected web page, if they are bound by the indirect link, further comprising the step of "0.5" to increase the value of the structural similarity visualization method of claim 46, wherein.
  48. 【請求項48】 前記間接的なリンクを、中間リンク、 48. the indirect link, an intermediate link,
    共通参照リンク、共通引用リンク、のいずれか1つとすることを特徴とする請求項47に記載の視覚化方法。 Common reference links, visualization method according to claim 47, characterized in that the common reference link to any one of.
JP2000296646A 1999-10-25 2000-09-28 Method and system for constructing web information on specific topic Pending JP2001134616A (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US16108099P true 1999-10-25 1999-10-25
US47174599A true 1999-12-23 1999-12-23
US09/471745 1999-12-23
US60/161080 1999-12-23

Publications (1)

Publication Number Publication Date
JP2001134616A true JP2001134616A (en) 2001-05-18

Family

ID=26857489

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000296646A Pending JP2001134616A (en) 1999-10-25 2000-09-28 Method and system for constructing web information on specific topic

Country Status (1)

Country Link
JP (1) JP2001134616A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7231395B2 (en) 2002-05-24 2007-06-12 Overture Services, Inc. Method and apparatus for categorizing and presenting documents of a distributed database
KR100802511B1 (en) * 2005-10-11 2008-02-13 주식회사 코리아 와이즈넛 System and method for offering searching service based on topics
JP2008077573A (en) * 2006-09-25 2008-04-03 Toshiba Corp Medical diagnostic device
WO2008069307A1 (en) * 2006-12-08 2008-06-12 Cyber Laser Inc. Method and apparatus for modifying integrated circuit by laser
JP2008537809A (en) * 2005-03-04 2008-09-25 チョンヌン インコーポレイテッド Information search service providing server, method and system using page group
US8260786B2 (en) 2002-05-24 2012-09-04 Yahoo! Inc. Method and apparatus for categorizing and presenting documents of a distributed database
US8560631B2 (en) 2002-06-03 2013-10-15 Hitachi, Ltd. Storage system

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7231395B2 (en) 2002-05-24 2007-06-12 Overture Services, Inc. Method and apparatus for categorizing and presenting documents of a distributed database
US8260786B2 (en) 2002-05-24 2012-09-04 Yahoo! Inc. Method and apparatus for categorizing and presenting documents of a distributed database
KR100852034B1 (en) * 2002-05-24 2008-08-13 오버처 서비시스, 인코포레이티드 Method and apparatus for categorizing and presenting documents of a distributed database
US7792818B2 (en) 2002-05-24 2010-09-07 Overture Services, Inc. Method and apparatus for categorizing and presenting documents of a distributed database
US8560631B2 (en) 2002-06-03 2013-10-15 Hitachi, Ltd. Storage system
JP4769822B2 (en) * 2005-03-04 2011-09-07 チョンヌン インコーポレイテッド Information search service providing server, method and system using page group
JP2008537809A (en) * 2005-03-04 2008-09-25 チョンヌン インコーポレイテッド Information search service providing server, method and system using page group
KR100802511B1 (en) * 2005-10-11 2008-02-13 주식회사 코리아 와이즈넛 System and method for offering searching service based on topics
JP2008077573A (en) * 2006-09-25 2008-04-03 Toshiba Corp Medical diagnostic device
WO2008069307A1 (en) * 2006-12-08 2008-06-12 Cyber Laser Inc. Method and apparatus for modifying integrated circuit by laser

Similar Documents

Publication Publication Date Title
Cockburn et al. What do web users do? An empirical analysis of web use
Cooley et al. Web Mining: Information and Pattern Discovery on the World Wide Web.
van Der Aalst Workflow patterns
Wu et al. Query selection techniques for efficient crawling of structured web sources
Tanudjaja et al. Persona: A contextualized and personalized web search
US7539693B2 (en) Spatially directed crawling of documents
Pirolli et al. Silk from a sow's ear: Extracting usable structures from the web
Chen Structuring and visualising the WWW by generalised similarity analysis
Benz et al. The social bookmark and publication management system bibsonomy
US6363377B1 (en) Search data processor
US8019752B2 (en) System and method for information retrieval from object collections with complex interrelationships
Bar-Ilan Data collection methods on the Web for infometric purposes—A review and analysis
JP2008071372A (en) Method and device for searching data of database
Carpineto et al. Exploiting the potential of concept lattices for information retrieval with CREDO.
US7305399B2 (en) Method and apparatus for applying a parametric search methodology to a directory tree database format
US7065532B2 (en) System and method for evaluating information aggregates by visualizing associated categories
US8122016B1 (en) Determining concepts associated with a query
US20090119268A1 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
US6311194B1 (en) System and method for creating a semantic web and its applications in browsing, searching, profiling, personalization and advertising
CN100495392C (en) Intelligent search method
US20100005061A1 (en) Information processing with integrated semantic contexts
Chen et al. Trailblazing the literature of hypertext: author co-citation analysis (1989–1998)
US20050216447A1 (en) Methods and systems for enabling efficient retrieval of documents from a document archive
Zhang et al. The impact of metadata implementation on webpage visibility in search engine results (Part II)
Terveen et al. Constructing, organizing, and visualizing collections of topically related web resources