JP2001325272A - Information arrangement method, information processor, storage medium and program transmitter - Google Patents

Information arrangement method, information processor, storage medium and program transmitter

Info

Publication number
JP2001325272A
JP2001325272A JP2000144016A JP2000144016A JP2001325272A JP 2001325272 A JP2001325272 A JP 2001325272A JP 2000144016 A JP2000144016 A JP 2000144016A JP 2000144016 A JP2000144016 A JP 2000144016A JP 2001325272 A JP2001325272 A JP 2001325272A
Authority
JP
Japan
Prior art keywords
information
word
clustering
words
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000144016A
Other languages
Japanese (ja)
Other versions
JP3606556B2 (en
Inventor
Hiroshi Nomiyama
浩 野美山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2000144016A priority Critical patent/JP3606556B2/en
Publication of JP2001325272A publication Critical patent/JP2001325272A/en
Application granted granted Critical
Publication of JP3606556B2 publication Critical patent/JP3606556B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To freely combine plural information sources and to display information which is the topic of the conversation in an easy-to-understand form. SOLUTION: By periodically observing the dynamically changing plural information sources acquired from the Internet, support relation between sites and the degree of the interest of an individual, etc., are taken into consideration, the more important topics of the conversation are automatically extracted from extracted information elements and they are gathered and easily understandably visualized. That is, this method is provided with a step (S102) for periodically going round the registered plural information sources and gathering the information, a step (S103) for selecting words to be the elements of the topic from the gathered information, a step (S104) for executing clustering to the set of the selected words and a step (S105) for displaying the information elements in respective clusters based on a time base on the basis of the result of clustering and displaying a main keyword from the set of the words in the respective clusters.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、情報源からの情報
検索に係り、特に、インターネット上の複数の情報源か
ら話題となっている情報を抽出して視覚化する方法等に
関する。
The present invention relates to information retrieval from information sources, and more particularly to a method for extracting topical information from a plurality of information sources on the Internet and visualizing the information.

【0002】[0002]

【従来の技術】近年、インターネットの整備に伴い、ユ
ーザが入手できる情報の量は膨大となっている。この膨
大な情報源の中から、ユーザの欲する情報を出来るだけ
早く、正確に、そしてユーザの使い易い形で整理して提
供する情報検索技術は、ますます重要性が増している。
2. Description of the Related Art In recent years, with the development of the Internet, the amount of information available to users has become enormous. Among these enormous sources, information search technology for organizing and providing information desired by users as quickly as possible, accurately, and in a form that is easy for users to use is becoming increasingly important.

【0003】従来の情報検索技術として、例えば、登録
された情報源(サイト)から情報を伝える要素(リンクと
そのタイトル、テキストの連続等)を抽出し、そのテキ
スト部分を言語解析するものがある。また、検索サービ
ス、ニュースなどの情報提供サービスを行なうポータル
サイト(portal site)を利用して話題を抽出する技術も
存在する。このポータルサイトでは、人手による作成に
よって話題となっているキーワードを提供するサービス
を行なっており、例えば検索者にとっての話題であるキ
ーワードランキング等を利用してユーザに提供するサー
ビスが存在する。
[0003] As a conventional information retrieval technique, for example, there is a technique of extracting an element (link and its title, continuation of text, etc.) that conveys information from a registered information source (site), and performing a language analysis of the text part. . There is also a technology for extracting topics using a portal site that provides information providing services such as search services and news. This portal site provides a service that provides a keyword that has been a topic by manual creation. For example, there is a service that provides a user with a keyword ranking or the like that is a topic for a searcher.

【0004】また、文献1(J. Kleinberg. Authoritati
ve sources in a hyperlinked environment. Proc. 9th
ACM-SIAM Symposium on Discrete Algorithms, . Also
appears as IBM Research Report RJ 10076, May 199
7.)には、インターネット上のある一瞬における静的な
構造上の参照関係(サポート)を考慮して重要度の計算を
行なう技術について開示されている。ここでは、指定さ
れた検索式に対する権威のあるページ(Authority)と、
権威のあるページを多く含むページ(Hub)を抽出してい
る。また、文献2(柳瀬,仲尾 "メールマガジンを利用し
た注目ニュースの自動抽出," 57-20, p. 151- 158,情報
処理学会情報学基礎研究会予稿集, 3/22/2000.)には、
複数の情報源(メールマガジン)を情報源とし、そこから
注目ニュースの自動抽出を行なう技術について開示され
ている。ここでは、クラスタリングされた結果の重要度
として情報源の数が多い(メールマガジンの種類が多い)
という指標が用いられている。
[0004] Reference 1 (J. Kleinberg. Authoritati)
ve sources in a hyperlinked environment.Proc. 9th
ACM-SIAM Symposium on Discrete Algorithms,. Also
appears as IBM Research Report RJ 10076, May 199
7.) discloses a technique for calculating importance in consideration of a static structural reference relationship (support) at a certain moment on the Internet. Here, the authoritative page (Authority) for the specified search expression,
Pages (Hub) containing many authoritative pages are extracted. Also, in Reference 2 (Yanagase, Nakao, "Automatic Extraction of Hot News Using Email Magazine," 57-20, p. 151-158, Proc. Of the Information Processing Society of Japan, 3/22/2000.) Is
A technology is disclosed in which a plurality of information sources (e-mail magazines) are used as information sources, and a noticeable news is automatically extracted therefrom. Here, the number of information sources is large as the importance of the clustered result (many types of e-mail magazines)
The index is used.

【0005】一方、特開平8-287074号公報で
は、継続的に発行される文書等、最近の文書に現われる
未登録語の発生頻度をリアルタイムに監視し、現在注目
を集めつつあるトピックに関係する用語および文書を利
用者に定義する技術について開示されている。また、特
開平11-143892号公報では、文章中に出現する
キーワードの重みとカテゴリ情報を考慮した重みを合成
してキーワードの重みを生成する技術について示されて
いる。更に、特開平11-143796号公報では、メ
ーリングリストサービスにおいて、各メーリングリスト
でやり取りされている主な話題を抽出する技術が開示さ
れている。
[0005] On the other hand, in Japanese Patent Application Laid-Open No. Hei 8-287074, the frequency of occurrence of unregistered words appearing in recent documents, such as continuously issued documents, is monitored in real time and relates to topics that are currently attracting attention. A technique for defining terms and documents to a user is disclosed. Japanese Patent Application Laid-Open No. H11-143892 discloses a technique of generating a keyword weight by combining a keyword weight appearing in a sentence and a weight in consideration of category information. Furthermore, Japanese Patent Application Laid-Open No. H11-143796 discloses a technique for extracting main topics exchanged in each mailing list in a mailing list service.

【0006】[0006]

【発明が解決しようとする課題】このように、情報を整
理して話題となっていることを自動的に抽出し、それら
を解かり易く表示することは非常に有用であり、従来か
ら幾つかの提案がなされている。しかしながら、上述し
たポータルサイトなどでは、重要な分野のニュースに関
して話題の抽出を人手で行なっているが、単一のサイト
だけでは情報の評価基準が偏っている可能性があり、重
要な情報を見逃す恐れがあったり、1つの話題に関する
全ての情報が得られない恐れがある。この恐れを回避す
るために複数のサイトを見ようとすると、情報が重複し
てしまう問題がある。また、観点がまちまちとなること
から、ユーザに対して理解を容易にするためには別の観
点から整理し直す必要性がある。更に、多くの読者が期
待できない分野のニュースに関しては、人手で情報を整
理するというようなサービスは行なわれておらず、ユー
ザが自分自身で複数のサイトを集め、纏めることが必要
となってしまう。
As described above, it is very useful to sort information and automatically extract topics that are topical, and to display them in an easily understandable manner. The proposal has been made. However, in the portal sites mentioned above, topics are extracted manually for news in important fields, but there is a possibility that the evaluation criteria for information is biased in a single site, and important information is overlooked There is a fear that there may be fear or that all information on one topic cannot be obtained. If you try to view multiple sites to avoid this fear, there is a problem that information is duplicated. In addition, since the viewpoints vary, it is necessary to rearrange from another viewpoint in order to facilitate understanding for the user. In addition, for news in fields that many readers cannot expect, there is no service such as manually organizing information, and users need to collect and organize multiple sites themselves. .

【0007】一方、上記文献1では、話題になっている
ものを抽出する技術については含まれておらず、また、
参照関係の重み付けに検索式中のキーワードを利用して
いるが、結果に単語そのものを含めるものではない。文
献2では、単語が新しく出現したかどうかは考慮してい
ない。また、情報源の数が多いという指標をクラスタの
重要度の判定に用いており、単語の重要度の判定ではな
いので、サポートの導入はクラスタリングの結果に影響
を与えることができない。
On the other hand, the above-mentioned Document 1 does not include a technique for extracting a topic of interest,
Although the keywords in the search expression are used to weight the reference relationship, the results do not include the words themselves. Reference 2 does not consider whether a word has newly appeared. In addition, since the index indicating that the number of information sources is large is used for determining the importance of a cluster and not for determining the importance of a word, the introduction of support cannot affect the result of clustering.

【0008】更に、特開平8-287074号公報で
は、あくまでも静的な情報源(文書)を対象としており、
インターネットなどの同一の情報源からの情報は別の文
書として認識されてしまう。このため、重要度の計算に
おいては文書の数のみを考慮しているに過ぎない。ま
た、文書間の構造化を含まず、ある文書集合に頻出する
単語を識別するなどの文書分類の性質を利用することが
できない。更に、辞書に登録されていない単語あるいは
複合語だけを抽出の対象としており、登録後を組み合わ
せて文章となっている場合は新出概念として抽出できな
い。その結果、例えば、「日本IBMが新しいデータベ
ース製品を発表」などの文は全て登録語で構成されてお
り、この手法では新出概念として抽出することができな
いのである。また更に、関連する新出語があってもその
類似性が考慮されていないため、関連する新語を同時に
見ることができず、関連する新語の登録作業が別々にな
り、その都度同じような文書集合が提示され、作業の効
率化が図れない。また、特開平11-143892号公
報では、時間的な側面への考慮がなく、動的な情報源に
対する考慮もない。更に、特開平11-143796号
公報では、対象がメーリングリストに限定されており、
また、単一のメーリングリストを対象とするものに過ぎ
ず、複数の情報源から話題を抽出するような情報検索は
困難である。
[0008] Further, Japanese Patent Laid-Open No. 8-287070 discloses a static information source (document).
Information from the same source, such as the Internet, is recognized as a separate document. For this reason, only the number of documents is considered in the calculation of importance. In addition, it does not include structuring between documents and cannot utilize the characteristics of document classification such as identifying words that frequently appear in a certain document set. Furthermore, only words or compound words that are not registered in the dictionary are to be extracted, and if a sentence is created by combining the words after registration, it cannot be extracted as a new concept. As a result, for example, sentences such as "Japan IBM announces a new database product" are all composed of registered words, and cannot be extracted as new concepts by this method. Furthermore, even if there is a related new word, since the similarity is not considered, the related new words cannot be viewed at the same time, and the registration work of the related new words is separated, and the same document is obtained each time. A set is presented, and work efficiency cannot be improved. Further, in Japanese Patent Application Laid-Open No. 11-143892, there is no consideration in terms of time and no consideration is given to dynamic information sources. Furthermore, in JP-A-11-143796, the target is limited to a mailing list,
In addition, it is only for a single mailing list, and it is difficult to retrieve information by extracting topics from a plurality of information sources.

【0009】本発明は、以上のような技術的課題を解決
するためになされたものであって、その目的とするとこ
ろは、複数の情報源を自由に組み合わせて、そこから話
題となっている情報を解かり易い形で表示することにあ
る。また他の目的は、ユーザの興味に沿ったクラスタリ
ングの結果を得ることにある。
The present invention has been made in order to solve the above technical problems, and an object of the present invention is to freely combine a plurality of information sources and become a topic from there. Displaying information in an easy-to-understand form. Another object is to obtain a result of clustering according to the user's interest.

【0010】[0010]

【課題を解決するための手段】かかる目的のもと、本発
明は、インターネットなどから獲得される動的に変化す
る複数の情報源(URLなどで参照される)を定期的に観
察することによって、抽出される情報要素の中から、サ
イト間のサポート関係、個人の興味の度合いなどを考慮
してより重要な話題を自動的に抽出し、それらを纏めて
解かり易く視覚化するものである。即ち、本発明は、ネ
ットを介して接続された情報源からの情報を整理する情
報整理方法であって、登録された複数の情報源を定期的
に巡回して情報を収集する情報収集ステップと、収集さ
れた情報の中から話題の要素となる単語を選別する単語
選別ステップと、選別された単語の集合に対してクラス
タリングを施すクラスタリングステップと、施されたク
ラスタリングの結果に基づいて、各クラスタにおける情
報要素を時間軸に基づいて表示すると共に、各クラスタ
における単語の集合の中から主となるキーワードをクラ
スタの代表キーワードとして表示する表示ステップとを
含むことを特徴としている。
SUMMARY OF THE INVENTION With this object in mind, the present invention provides a method for periodically observing a plurality of dynamically changing information sources (referred to as URLs or the like) obtained from the Internet or the like. , Automatically extract more important topics from the extracted information elements in consideration of the support relationship between sites, the degree of personal interest, etc., and collectively visualize them in an easy-to-understand manner . That is, the present invention is an information organizing method for organizing information from information sources connected via a network, comprising an information collecting step of periodically patrol a plurality of registered information sources to collect information. A word selecting step of selecting words that are topic elements from the collected information; a clustering step of performing clustering on a set of selected words; and a clustering step based on a result of the performed clustering. And a display step of displaying, as a representative keyword of the cluster, a main keyword from a set of words in each cluster, while displaying the information elements of the cluster based on the time axis.

【0011】この表示ステップは、各クラスタにおける
情報要素からそのテキスト部分に含まれるキーワードに
基づく補足情報を表示することを特徴としている。ま
た、複数の単語が1つに縮退できる場合には縮退された
ものを1つの縮退表現とする縮退ステップとを更に含
み、表示ステップは、各クラスタに新しく出現した縮退
表現を補足情報として表示することを特徴としている。
これらの発明によれば、得られた情報をユーザに対して
より解かり易く視覚化して表現することが可能となる点
で好ましい。
This display step is characterized by displaying, from the information elements in each cluster, supplementary information based on the keywords contained in the text portion. When a plurality of words can be reduced to one, the method further includes a reduction step of using the reduced form as one reduced expression, and the display step displays the reduced expression newly appearing in each cluster as supplementary information. It is characterized by:
According to these inventions, it is preferable in that the obtained information can be visualized and expressed more easily for the user.

【0012】また、単語選別ステップは、新しく出現し
た単語に対して重み付けを高くして選別することを特徴
とすれば、新出したニュースをユーザに対して優先的に
提供できる。更に、この単語選別ステップは、特定の単
語を選別した特定の情報源に対し、単語レベルで複数の
情報源における他の情報源からのサポートを考慮して話
題の要素となる単語を選別することを特徴とすれば、話
題となっている情報を選別してユーザに提供できる点で
優れている。
Further, if the word selecting step is characterized by selecting a newly appearing word with a high weight, the newly issued word can be provided to the user preferentially. Further, in the word selecting step, for a specific information source from which a specific word has been selected, a word which is a topic element is selected in consideration of support from other information sources among a plurality of information sources at a word level. The feature is that it is possible to select the topic information and provide it to the user.

【0013】本発明を他の観点から把えると、本発明が
適用された情報整理方法は、情報を入手すべき情報源と
ユーザが興味のある単語とのユーザによる登録を受け付
け、登録された情報源に対して定期的に巡回して情報要
素を入手し、入手された情報要素の中からユーザの興味
があるとされる単語に対して重要度を増して単語を選別
し、選別された単語を有する情報要素の集合に対してク
ラスタリングを施し、クラスタリングが施された情報要
素をクラスタの結果と共に表示することを特徴とするこ
とができる。更に、ユーザによる個々の情報源に対する
興味の度合いを判断し、判断された興味の度合いの高い
情報源に出現した単語に対して重要度を増して単語を選
別することを特徴とすることができる。このユーザによ
る興味の度合いの判断としては、例えば、ユーザによる
特定サイトの指定の他、例えば、ユーザによって対応す
る情報要素が過去において選択されたサイトを興味の度
合いが高いとして判断すること等が可能である。
[0013] When the present invention is grasped from another viewpoint, the information organizing method to which the present invention is applied accepts a user's registration of an information source from which information is to be obtained and a word of interest to the user, and registers the registered information. Information elements are obtained by periodically patrol the information source, and words are selected with increasing importance from the obtained information elements to words considered to be of interest to the user. Clustering is performed on a set of information elements having words, and the clustered information elements are displayed together with the cluster result. Furthermore, it is possible to determine the degree of interest in the individual information source by the user, and select words with increased importance for words that appear in the determined information source with a high degree of interest. . As the determination of the degree of interest by the user, for example, in addition to the designation of a specific site by the user, for example, it is possible to determine that the site whose information element corresponding to the user has been selected in the past has a high degree of interest. It is.

【0014】更に他の観点から把えると、本発明が適用
された情報整理方法は、情報を入手すべき複数のサイト
を登録し、登録された複数のサイトを定期的に巡回し、
例えば指定された期間にて新出した単語等による内容の
変化分を調べることによって巡回された複数のサイトか
ら情報を収集し、特定のサイトから収集された情報に対
して、単語レベルで複数のサイトにおける他のサイトか
らのサポートを考慮して重要な話題を抽出することを特
徴とすることができる。また、抽出された重要な話題を
有する情報要素に対してクラスタリングを行い、獲得さ
れた情報要素をクラスタリングの結果と共に表示するこ
とを特徴とすることができる。このクラスタリングの結
果の表示とは、例えば、各クラスタ毎に時系列表示する
ものや、各クラスタの代表キーワードや補足情報を表示
すること等が挙げられる。また、抽出された情報要素の
数に基づいて個々のサイトが提供した話題の量を計算
し、計算された話題の量に基づいてサイトの話題供給能
力を示す指標を蓄積することを特徴とすれば、例えば蓄
積された話題供給能力に基づいてサイトや単語の重み付
けを行なうこと等に利用できる点で好ましい。更に、こ
の応用としては、サイトを話題供給能力指標順に並べ、
また、その数値を表示すること等が可能である。
From another viewpoint, the information organizing method to which the present invention is applied is such that a plurality of sites from which information is to be obtained are registered, and the registered plurality of sites are periodically visited.
For example, by collecting information from multiple sites visited by examining changes in content due to words etc. newly added in a specified period, information collected from specific sites can be An important topic can be extracted in consideration of support from other sites in the site. In addition, clustering is performed on the extracted information elements having an important topic, and the obtained information elements are displayed together with the clustering result. The display of the result of the clustering includes, for example, displaying a time-series display for each cluster, displaying a representative keyword and supplementary information of each cluster, and the like. Further, the amount of topics provided by each site is calculated based on the number of extracted information elements, and an index indicating the topic supply capability of the site is accumulated based on the calculated amount of topics. For example, it is preferable in that it can be used for weighting sites and words based on the accumulated topic supply capability. Furthermore, as an application of this, the sites are arranged in the order of the topic supply ability index,
In addition, it is possible to display the numerical value.

【0015】一方、上記目的を達成するために、本発明
が適用される情報処理装置は、巡回すべき複数のサイト
を指定する指定手段と、指定された複数のサイトを記憶
する記憶手段と、記憶された複数のサイトを定期的に巡
回して情報を収集する情報収集手段と、収集された情報
の中から話題の要素となる単語を選別する単語選別手段
と、選別された単語の集合に対してクラスタリングを施
すクラスタリング手段と、施されたクラスタリングの結
果に基づいて、各クラスタにおける情報要素と共に、各
クラスタにおける単語の集合の中に存在するキーワード
を出力する出力手段とを含むことを特徴とすることがで
きる。
[0015] On the other hand, in order to achieve the above object, an information processing apparatus to which the present invention is applied includes a designating means for designating a plurality of sites to be visited, a storage means for storing the designated sites, An information collection unit that periodically visits a plurality of stored sites to collect information, a word selection unit that selects words that are topic elements from the collected information, and a set of selected words. Clustering means for performing clustering on the cluster, and output means for outputting a keyword present in a set of words in each cluster together with information elements in each cluster based on a result of the performed clustering. can do.

【0016】ここで、この出力手段は、各クラスタにお
ける情報要素を時系列順に出力すると共に、情報要素の
テキスト部分に含まれるキーワードで補足情報を出力す
ることを特徴とすれば、抽出された個々の話題がどのよ
うに変化していったかを解かり易く出力することができ
る点で優れている。尚、この出力手段は、表示装置に対
して表示する態様の他、ネットを介して接続された端末
に対して電子情報として出力する態様とすることが可能
である。
Here, the output means outputs the information elements in each cluster in chronological order and outputs supplementary information using a keyword included in the text part of the information element. It is excellent in that it can easily output how the topic has changed. Note that this output means may be configured to output electronic information to a terminal connected via a network, in addition to the mode of displaying on a display device.

【0017】他の観点から把えると、本発明が適用され
た情報処理装置は、情報を入手すべき情報源とユーザが
興味のある単語とのユーザによる登録を受け付ける登録
受付手段と、受け付けられた情報源に対して定期的に巡
回して情報要素を入手する巡回手段と、入手された情報
要素の中からユーザの興味があるとされる単語に対して
重要度を増して単語を選別する選別手段と、選別された
単語を有する情報要素の集合に対してクラスタリングを
施すクラスタリング手段と、クラスタリングが施された
情報要素をクラスタの結果と共に表示する表示手段とを
備えたことを特徴とすることができる。また、ユーザに
よる登録があった情報源またはユーザにより対応する情
報要素が過去に選択された情報源に対して情報源の重要
度を高く設定する設定手段とを備え、選別手段は、この
設定手段によって重要度が高く設定された情報源に出現
した単語に対して重要度を増して単語を選別することを
特徴とすることができる。
From another point of view, the information processing apparatus to which the present invention is applied includes a registration accepting unit for accepting a user to register an information source from which information is to be obtained and a word of interest to the user; Means for periodically circulating information sources to obtain information elements, and selecting words from the obtained information elements with increasing importance for words considered to be of interest to the user Selection means, clustering means for performing clustering on a set of information elements having the selected words, and display means for displaying the clustered information elements together with the result of the cluster. Can be. Setting means for setting the information source registered by the user or the information element corresponding to the user to be higher in importance than the information source selected in the past; Therefore, it is possible to increase the degree of importance for words appearing in the information source set to have a high degree of importance and select words.

【0018】一方、本発明は、コンピュータに実行させ
るプログラムをコンピュータの入力手段(例えばCD-R
OMドライバ等)が読取可能に記憶した記憶媒体(例えば
CD-ROM等)において、このプログラムは、登録され
た複数の情報源を定期的に巡回して情報を収集する処理
と、収集された情報の中から話題の要素となる単語を選
別する処理と、選別された単語の集合に対してクラスタ
リングを施す処理と、施されたクラスタリングの結果に
基づいて、各クラスタにおける情報要素を時間軸に基づ
いて表示すると共に、所定のキーワードとして、例えば
各クラスタにおける単語の集合の中から主となるキーワ
ードをクラスタの代表キーワードとして表示する処理と
をコンピュータに実行させることを特徴としている。こ
こで、この各クラスタにおける情報要素からそのテキス
ト部分に含まれるキーワードに基づく補足情報を各クラ
スタに新しく出現した縮退表現を用いて表示する処理と
を含むことを特徴とすれば、ユーザに対して更に解かり
易い表示を提供することができる点で好ましい。
On the other hand, according to the present invention, a program to be executed by a computer is input to a computer by input means (for example, a CD-R).
On a storage medium (for example, a CD-ROM or the like) readable by an OM driver or the like, this program executes a process of periodically circulating through a plurality of registered information sources and collecting information. A process of selecting words that are topic elements from among the above, a process of performing clustering on a set of selected words, and, based on a result of the performed clustering, an information element in each cluster based on a time axis. And displaying the main keyword from a set of words in each cluster, for example, as a representative keyword of the cluster, as a predetermined keyword. And displaying the supplementary information based on the keyword included in the text portion from the information element in each cluster by using a degenerated expression newly appearing in each cluster. This is preferable because it is possible to provide a display that is easy to understand.

【0019】また本発明は、コンピュータに実行させる
プログラムをコンピュータの入力手段が読取可能に記憶
した記憶媒体において、このプログラムは、情報を入手
すべき複数のサイトを登録する処理と、登録された複数
のサイトを定期的に巡回する処理と、内容の変化分を調
べることによって巡回された複数のサイトから情報を収
集する処理と、収集された情報に対して、単語レベルで
他のサイトからのサポートを考慮して重要な話題を抽出
する処理とをコンピュータに実行させることを特徴とす
ることができる。
According to the present invention, there is provided a storage medium in which a program to be executed by a computer is stored so as to be readable by an input means of the computer. Process of periodically traversing the site, collecting information from multiple sites traversed by examining changes in content, and supporting the collected information from other sites at the word level And causing the computer to execute a process of extracting an important topic in consideration of the above.

【0020】更に、本発明は、コンピュータに実行させ
るプログラムを記憶する記憶手段と、この記憶手段に記
憶されたプログラムをインターネット等を介してユーザ
端末に対して送信する送信手段とを備えたプログラム伝
送装置であって、この記憶手段に格納されるプログラム
は、登録された複数の情報源を定期的に巡回して情報を
収集する処理と、収集された情報の中から話題の要素と
なる単語を選別する処理と、選別された単語の集合に対
してクラスタリングを施す処理と、施されたクラスタリ
ングの結果に基づいて、各クラスタにおける情報要素を
時間軸に基づいて表示すると共に、各クラスタにおける
単語の集合の中から所定のキーワードを表示する処理と
を備え、この送信手段によって送信可能に構成されるこ
とを特徴とすることができる。
Further, the present invention provides a program transmission comprising storage means for storing a program to be executed by a computer, and transmission means for transmitting the program stored in the storage means to a user terminal via the Internet or the like. The program stored in the storage means is a device that periodically traverses a plurality of registered information sources to collect information, and a word that is a topic element from the collected information. A process of selecting, a process of performing clustering on a set of selected words, and displaying information elements in each cluster on a time axis based on a result of the performed clustering, and Displaying a predetermined keyword from the set, and transmitting the keyword by the transmitting means. Can.

【0021】[0021]

【発明の実施の形態】以下、添付図面に示す実施の形態
に基づいてこの発明を詳細に説明する。まず、本実施の
形態におけるシステム構成の説明に入る前に、本方式の
理解を容易にするために、その概要について説明する。
図1は、本実施の形態における情報抽出/表示手法の概
要を示す図である。本手法は、個人が自由に情報源を選
択し、更に、それらに対し興味の度合いに応じて自由に
重要度を付与することによって情報を整理し、自分専用
の情報サイト(Personal Portal)あるいは、特定の分野
専用のサイト(Vertial Portal)を自動的に実現するもの
である。そのために、まず、ユーザによって好みのサイ
トの登録がなされる(ステップ101)。登録する際に
は、例えば、その名前とその参照(URL:Uniform Res
ource Locators)を指定する。次にシステムは、登録さ
れたサイトを指定された時刻に定期的に巡回し、その内
容をデータベースに登録されているものと比較する。そ
の内容が異なった場合には、新しいバージョンとして登
録し、メタデータを作成する(ステップ102)。このメ
タデータは、URLで参照される内容から、情報を選ぶ
要素を抽出したものである。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be described below in detail based on an embodiment shown in the accompanying drawings. First, before the description of the system configuration in the present embodiment, an outline of the system will be described to facilitate understanding of the system.
FIG. 1 is a diagram showing an outline of an information extraction / display method according to the present embodiment. In this method, individuals can freely select information sources and further organize them by freely assigning importance according to the degree of interest to them, and their own information site (Personal Portal) or A site (Vertial Portal) dedicated to a specific field is automatically realized. For this purpose, the user first registers a favorite site (step 101). When registering, for example, its name and its reference (URL: Uniform Res
ource Locators). Next, the system periodically traverses the registered site at the designated time, and compares the contents with those registered in the database. If the contents are different, it is registered as a new version and metadata is created (step 102). This metadata is obtained by extracting elements for selecting information from the contents referred to by the URL.

【0022】次に、登録されているサイトの集合中にお
ける個々のサイトにおいて、指定された期間の直前のバ
ージョンと、指定された期間のバージョンに出現したキ
ーワードをカウントし、キーワードの集合に重み付けを
施して新規な単語(キーワード)を抽出する(ステップ1
03)。その後、選別されたキーワードの集合を、個々
のキーワードが含まれる情報要素集合の包含関係および
付与された重みを用いてクラスタリングを行う(ステッ
プ104)。このクラスタリングとは、何らかの観点で
意味のある集合で分けていく作業と言える。そして、こ
のクラスタリングの結果から、各クラスタのキーワード
集合の主となる代表キーワード(ホットワード)を表示
し、情報要素集合を時間順に表示すると共に、補足情報
としてのキーワード(サブワード)を用いてクラスタリン
グの結果を表示する(ステップ105)。この一連の処理
によって、サイト間のサポート関係、個人の興味の度合
いなどを考慮してより重要な話題を自動的に抽出でき、
また、それらを纏めて解かり易く視覚化することが可能
となる。その後、このようにして抽出されたクラスタに
対して、そのキーワードの重要度に基づいて、個々のサ
イトがどれくらい話題を提供する能力があるかを示す指
標である話題供給能力指標を計算する(ステップ10
6)。これにより、話題抽出の際に計算された重要度を
用いて、話題供給能力の高いサイト、あるいは特定の単
語に対してより話題供給能力の高いサイトを提示するこ
とができる。
Next, at each site in the set of registered sites, the keywords appearing in the version immediately before the designated period and in the version in the designated period are counted, and the set of keywords is weighted. To extract new words (keywords) (step 1
03). Thereafter, the set of selected keywords is clustered using the inclusion relation of the information element set including the individual keywords and the assigned weight (step 104). This clustering can be said to be an operation of dividing into a set that is meaningful from some viewpoint. Then, based on the result of the clustering, the main representative keyword (hot word) of the keyword set of each cluster is displayed, the information element set is displayed in chronological order, and the clustering is performed using the keyword (subword) as supplementary information. The result is displayed (step 105). Through this series of processes, we can automatically extract more important topics in consideration of the support relationship between sites, the degree of personal interest, etc.
In addition, it is possible to collectively visualize them collectively. Then, for the cluster extracted in this way, a topic supply capability index, which is an index indicating the ability of each site to provide a topic, is calculated based on the importance of the keyword (step 10
6). Thus, a site having a high topic supply capability or a site having a higher topic supply capability for a specific word can be presented using the importance calculated at the time of topic extraction.

【0023】次に、システム構成を用いて、本手法を更
に詳述する。図2は、本実施の形態におけるシステムの
全体構成を説明するための図である。本システムは、イ
ンターネット10に接続されるパーソナルコンピュータ
(PC)等にてアプリケーションソフトの処理プログラム
として実行される。また、インターネット10に接続さ
れたユーザのPC端末に情報を提供するサーバとして構
成することも可能である。この処理プログラムによる出
力は、ユーザのPC端末ではディスプレイに表示される
場合の他、サーバである場合にはインターネット10を
介してユーザのPC端末に提供するように構成される。
尚、本実施の形態では、ユーザのPC端末における処理
の流れを中心に説明している。更に、このシステムを実
行する処理プログラムは、ハードディスクドライブ(図
示せず)に格納され、実行時にはメインメモリ(図示せ
ず)にロードされてCPU(図示せず)によって処理され
るのが一般的である。また、この処理プログラムは、例
えばCD-ROM(図示せず)による記憶媒体を介してユ
ーザのPC端末等に供給される場合の他、例えばインタ
ーネット10を介してユーザが処理プログラムをダウン
ロードすることによって提供される形態も考えられる。
Next, the present method will be described in further detail using a system configuration. FIG. 2 is a diagram for explaining the overall configuration of the system according to the present embodiment. This system is a personal computer connected to the Internet 10
It is executed as a processing program of application software by a (PC) or the like. Moreover, it is also possible to configure as a server that provides information to a user's PC terminal connected to the Internet 10. The output by the processing program is configured to be provided to the user's PC terminal via the Internet 10 in the case of a server, in addition to being displayed on the display at the user's PC terminal.
In the present embodiment, the flow of processing in the user's PC terminal is mainly described. Further, a processing program for executing this system is generally stored in a hard disk drive (not shown), and is loaded into a main memory (not shown) at the time of execution, and is generally processed by a CPU (not shown). is there. The processing program may be supplied to a user's PC terminal or the like via a storage medium such as a CD-ROM (not shown), or may be downloaded by the user via the Internet 10, for example. The form provided is also conceivable.

【0024】図2において、符号11はユーザが登録し
たサイトを保存する登録サイトDB(データベース)、1
2は前述したメタデータを格納するメタデータDB、1
3はキーワードの重要度から計算により得られたサイト
の重要度を格納するサイト話題供給能力DB、17はユ
ーザが指定した好みのキーワードあるいはサイトの重要
度を格納するユーザ指定重み付けDBであり、これら
は、例えばPCに設けられたハードディスクドライブ等
の記憶手段の一部を利用している。14は登録されたサ
イトをインターネット10から自動巡回するクローラで
ある。15は登録されたサイトのメタデータを保存、管
理するバージョン管理機能付きDBMS(データベース
マネージメントシステム)であり、HTML(Hypertext
Markup Language)の中から情報要素を抽出し、そのテキ
スト部分を解析して、それに含まれるキーワードとその
分類を保存するメタデータ作成機構20を備えている。
16はメタデータDB12中に蓄積されているデータへ
のアクセス手段を提供するメタデータアクセスメソッド
である。また、30は新規情報抽出表示機構であり、メ
タデータDB12に蓄積された情報を元に、新しい話題
を抽出して表示する機構である。
In FIG. 2, reference numeral 11 denotes a registered site DB (database) for storing sites registered by the user;
Reference numeral 2 denotes a metadata DB that stores the above-described metadata, and 1
Reference numeral 3 denotes a site topic supply capability DB that stores the importance of the site obtained by calculation from the importance of the keyword, and 17 denotes a user-designated weighting DB that stores a favorite keyword designated by the user or the importance of the site. Uses a part of storage means such as a hard disk drive provided in a PC, for example. Reference numeral 14 denotes a crawler that automatically traverses registered sites from the Internet 10. Reference numeral 15 denotes a DBMS (database management system) with a version management function for storing and managing metadata of registered sites, and is an HTML (Hypertext).
An information element is extracted from the Markup Language, a text part thereof is analyzed, and a metadata generation mechanism 20 is provided for storing a keyword included therein and a classification thereof.
Reference numeral 16 denotes a metadata access method that provides access to data stored in the metadata DB 12. Reference numeral 30 denotes a new information extraction and display mechanism that extracts and displays a new topic based on information accumulated in the metadata DB 12.

【0025】登録サイトDB11に登録されるサイト
は、前述したようにユーザの好みによって登録されるサ
イトである。ユーザは、登録する際にその名前とその参
照(URL)を指定する。図3は、登録されたサイトの例
を示している。図3に示される例では、4つのサイトが
登録されており、その登録の形式はXML(eXtensible
Markup Language)である。尚、例えば、特定のポータル
サイトのディレクトリ・リストをカットアンドペースト
して登録する方法がユーザにとっては簡単な操作と言え
るであろう。
The sites registered in the registration site DB 11 are sites registered according to the user's preference as described above. When registering, the user specifies its name and its reference (URL). FIG. 3 shows an example of a registered site. In the example shown in FIG. 3, four sites are registered, and the registration format is XML (extensible).
Markup Language). It should be noted that, for example, a method in which a directory list of a specific portal site is cut and pasted and registered is a simple operation for the user.

【0026】クローラ14では、登録サイトDB11に
登録されたサイトを指定された時刻に定期的に巡回す
る。例えば、毎日午前7時30分に巡回する等である。
指定されたサイト全体を同一時刻で巡回してもよいし、
個々のサイトに対して異なった時刻を指定することも可
能である。バージョン管理機能付きDBMS15は、ク
ローラ14による巡回時に内容が異なっていた場合に新
しいバージョンとして管理し、更にメタデータ作成機構
20によってそれに対するメタデータを作成して、その
結果をメタデータDB12に保存している。このよう
に、サイトの新しいバージョンが作成された場合には、
そのメタデータが作成される。このメタデータは、前述
したようにURLで参照される内容から情報を運ぶ要素
を抽出したものである。それには、リンクとそのテキス
ト部分、あるいは連続したテキスト部分がある。これら
情報要素のテキスト部分に関しては属性抽出が適用さ
れ、キーワードとその分類が抽出される。
The crawler 14 periodically visits sites registered in the registered site DB 11 at a designated time. For example, the tour goes around at 7:30 am every day.
You may visit the entire designated site at the same time,
It is also possible to specify different times for individual sites. The DBMS 15 with the version management function manages the content as a new version when the content is different at the time of patrol by the crawler 14, creates metadata for the new version by the metadata creation mechanism 20, and saves the result in the metadata DB 12. ing. Thus, when a new version of your site is created,
The metadata is created. As described above, the metadata is obtained by extracting elements that carry information from the contents referred to by the URL. It has a link and its text portion, or a continuous text portion. Attribute extraction is applied to the text portion of these information elements, and keywords and their classifications are extracted.

【0027】図4は、メタデータ作成機構20の構成を
更に詳述したものである。このメタデータ作成機構20
は、図4に示されるように、HTMLなどの入力ファイ
ルからメタデータを作成して出力ファイルとして出力し
ている。符号21は情報要素抽出機構であり、HTML
などの内容を解析して情報要素となるもの(リンク、テ
キストなど)を抽出している。22は属性抽出機構であ
り、情報要素抽出機構21により抽出された情報要素の
テキストからキーワードを抽出し、それにカテゴリを付
与している。この属性抽出機構22は、形態素解析機構
23、キーワード抽出機構24、およびキーワード分類
機構25を備えている。この形態素解析機構23は情報
要素抽出機構21により抽出された情報要素のテキスト
部分を単語に分割している。キーワード抽出機構24は
形態素解析機構23により分割された結果の単語列から
キーワードとなるものだけを抽出している。キーワード
分類機構25はキーワード抽出機構24により抽出され
たキーワードの分類を付与する機能を備えている。
FIG. 4 shows the configuration of the metadata creation mechanism 20 in more detail. This metadata creation mechanism 20
Creates metadata from an input file such as HTML and outputs it as an output file, as shown in FIG. Reference numeral 21 denotes an information element extraction mechanism, which is HTML
By analyzing the contents such as, the information elements (links, text, etc.) are extracted. An attribute extraction mechanism 22 extracts a keyword from the text of the information element extracted by the information element extraction mechanism 21 and assigns a category to the keyword. The attribute extraction mechanism 22 includes a morphological analysis mechanism 23, a keyword extraction mechanism 24, and a keyword classification mechanism 25. The morphological analysis mechanism 23 divides the text part of the information element extracted by the information element extraction mechanism 21 into words. The keyword extracting mechanism 24 extracts only those that become keywords from the word strings resulting from the division by the morphological analyzing mechanism 23. The keyword classification mechanism 25 has a function of assigning a classification of the keyword extracted by the keyword extraction mechanism 24.

【0028】図5は作成されたメタデータの例としてリ
ンクの例を示した図である。また、図6は作成されたメ
タデータの例としてテキストブロックの例を示してい
る。図5において、リンクの場合におけるHTMLファ
イル中の表現は、リンク先を示すタグを用いた a タグ
で示されており、抽出された情報要素は anchor タグに
よって構成される。また、図6において、テキストブロ
ックの場合におけるHTMLファイル中の表現は、テキ
スト表現であり、抽出された情報要素は text タグによ
って構成されている。以上の処理によって、登録サイト
DB11に登録されたサイトにおいて、クローラ14に
よる巡回時に変化があった場合には、その全ての内容
と、メタデータ作成機構20によってそこから作成され
たメタデータがメタデータDB12に登録される。ま
た、内容に変更のあった日時(ウェブサーバから更新日
時が得られる場合にはその日時、得られない場合には巡
回した日時など)が、同様にメタデータDB12に保存
される。
FIG. 5 is a diagram showing an example of a link as an example of the created metadata. FIG. 6 shows an example of a text block as an example of the created metadata. In FIG. 5, the expression in the HTML file in the case of a link is indicated by an a tag using a tag indicating a link destination, and the extracted information element is configured by an anchor tag. In FIG. 6, the expression in the HTML file in the case of the text block is a text expression, and the extracted information element is configured by a text tag. With the above processing, if there is a change during the patrol by the crawler 14 in the site registered in the registration site DB 11, all the contents and the metadata created from the metadata by the metadata creation mechanism 20 are stored in the metadata. Registered in DB12. In addition, the date and time when the content has been changed (the date and time when the update date and time is obtained from the web server, and the date and time when the content has been visited when the update date and time are not obtained) are similarly stored in the metadata DB 12.

【0029】次に、新規情報抽出表示機構30にて新規
な単語の抽出とそのクラスタリングが行なわれる。図7
は、この新規情報抽出表示機構30における構成を説明
するための図である。同図において、符号31はキーワ
ード統計機構であり、メタデータDB12から得られ
る、指定されたサイトに対するメタデータから、指定さ
れた期間内のバージョンに新たに出現した情報要素に含
まれるキーワードと、指定された期間の直前のバージョ
ンに含まれる情報要素中に含まれるキーワードとをカウ
ントしている。情報要素が新たに出現したかどうかの判
断は、リンクに対しては、異なったURLのリンクが出
現したか、あるいは、同じURLがすでに存在していた
がその対応するテキストが異なった場合に新しいリンク
と判断される。テキストブロックに対しては、異なった
テキストが出現したかどうかによって判断される。32
はキーワード重要度計算機構であり、抽出されたキーワ
ードに対して重要度を付与している。このキーワード重
要度計算機構32では、サイト話題供給能力DB13を
参照して、サイトの重要度を加味した重要度の設定を行
なうことが可能である。33はクラスタリング機構であ
り、抽出された重要度付きキーワードを用いてクラスタ
リングを行なっている。この抽出されたクラスタに対し
て、後述するようにキーワードの重要度に基づいて重要
度を計算して、その結果をサイト話題供給能力DB13
に格納している。34はクラスタリング結果表示機構で
あり、クラスタリングの結果を表示する機能を有する。
Next, a new word is extracted and clustered by the new information extracting and displaying mechanism 30. FIG.
FIG. 3 is a diagram for explaining the configuration of the new information extraction and display mechanism 30. In the figure, reference numeral 31 denotes a keyword statistical mechanism. From the metadata for a designated site obtained from the metadata DB 12, a keyword included in an information element newly appearing in a version within a designated period and a designated keyword are designated. And the keywords included in the information elements included in the version immediately before the specified period. Judgment as to whether an information element has newly appeared can be made based on whether a link having a different URL has appeared or if the same URL already exists but its corresponding text is different. It is determined to be a link. For a text block, it is determined by whether a different text has appeared. 32
Is a keyword importance calculation mechanism that assigns importance to extracted keywords. The keyword importance calculation mechanism 32 can set the importance in consideration of the importance of the site with reference to the site topic supply ability DB 13. Reference numeral 33 denotes a clustering mechanism, which performs clustering using the extracted keywords with importance. For the extracted cluster, the importance is calculated based on the importance of the keyword as described later, and the result is stored in the site topic supply capability DB 13.
Is stored in Reference numeral 34 denotes a clustering result display mechanism, which has a function of displaying a result of clustering.

【0030】図8は、指定された期間とバージョンとの
関係を示した図である。図7に示したキーワード統計機
構31では、登録サイトDB11に登録されているサイ
ト集合中の個々のサイトにおいて、図8に示す指定され
た期間の直前のバージョンと指定された期間のバージョ
ンとに出現したキーワードがカウントされる。ここで
は、指定された開始日時に直前のバージョン(Version N
-3)に含まれるカウント(Fs(w))と、その後のバージョン
(Version N-2からVersion N)に含まれるカウント(Fn
(w))が区別される。キーワード重要度計算機構32で
は、これらのキーワード集合に重み付けを施すことによ
って、新規なキーワードであるかどうかの判断が行なわ
れる。選別する方法は、例えば、単語の重要度やサイト
の重要度といった重みを単独あるいは組み合わせて、そ
れが閾値以下のものを排除する方法が考えられる。
FIG. 8 is a diagram showing the relationship between the designated period and the version. In the keyword statistical mechanism 31 shown in FIG. 7, at each site in the set of sites registered in the registration site DB 11, a version immediately before the specified period and a version during the specified period shown in FIG. 8 appear. Keywords are counted. Here, the previous version (Version N
-3) contains the count (Fs (w)) and subsequent versions
(Fn included in (Version N-2 to Version N))
(w)). The keyword importance calculation mechanism 32 determines whether the keyword set is a new keyword by weighting these keyword sets. As a sorting method, for example, a method in which weights such as the importance of a word and the importance of a site are used alone or in combination, and those in which the weight is equal to or less than a threshold can be considered.

【0031】単語の重要度としては、以下のような検討
例が考えられる。 (a) 単純な新出語の割合(Fn(w)/(Fs(w)+ Fn(w)))を考
慮する。 (b) 過去のバージョン(Version N-3以前の全てのバー
ジョン)におけるキーワードの情報量を計算し、情報量
が低いキーワードは重要度を下げる。これにより、例え
ば「新製品の発売情報」等における“発売”等、必ず個
々の情報に付与されるような単語は、重要度を低くする
ことができる。 (c) 単語が複数のサイトに含まれるか(複数のサイト
からサポートされているか)どうかを考慮する。 (d) ユーザ指定による重み付けを行なう。即ち、ユー
ザが特に興味のある(或いは興味のない)単語を重要度と
共に登録し、それが出現した場合は重要度を高く(低く)
する。 指定の方法は、ユーザが明示的に個々のサイトに対して
重要度を記述する方法、或いは最終的に表示されたクラ
スタリングの結果を表示したときに、その対応する情報
要素が選択された場合は、その情報要素を含むサイトの
重みを高くする方法等が考えられる。
The following study examples can be considered as the importance of words. (a) Consider the ratio of simple new words (Fn (w) / (Fs (w) + Fn (w))). (b) Calculate the information amount of keywords in the past version (all versions before Version N-3), and reduce the importance of keywords with low information amount. This makes it possible to reduce the importance of words that are always added to individual information, such as “release” in “new product release information”. (c) Consider whether a word is included in multiple sites (is supported by multiple sites). (d) Weighting by the user is performed. That is, the user registers a word of particular interest (or not interest) along with the importance, and when it appears, increases the importance (lower)
I do. The specified method is a method in which the user explicitly describes the importance for each site, or when the corresponding information element is selected when displaying the finally displayed clustering result For example, a method of increasing the weight of a site including the information element can be considered.

【0032】サイトの重要度としては、ユーザによる個
々のサイトに対する重要視の度合いを基準とする方法が
ある。例えば、ユーザが特に興味のある(或いは興味の
ない)サイトを登録し、そのサイトに出現した単語は重
要度を高くする(低くする)等である。指定の方法は、ユ
ーザが明示的に個々のサイトに対して重要度を記述する
方法、或いは、最終的に表示されたクラスタリングの結
果を表示したときに、その対応する情報要素が選択され
た場合には、その情報要素を含むサイトの重みを高くす
る方法がある。
As the importance of a site, there is a method based on the degree of importance of a user to each site. For example, a user registers a site of particular interest (or not interest), and words appearing on that site are given higher (lower) importance. The specified method is a method in which the user explicitly describes the importance for each site, or when the corresponding information element is selected when displaying the finally displayed clustering result There is a method of increasing the weight of the site including the information element.

【0033】次に、選別されたキーワード集合のクラス
タリングについて説明する。図7に示したクラスタリン
グ機構33では、キーワード統計機構31で選別された
キーワード集合を、キーワード重要度計算機構32で付
与された重みを用いてクラスタリングが行なわれる。こ
のクラスタリングの手法としてはどのようなものでも構
わないが、クラスタリングの前処理として、複数のキー
ワードが全く同一のキーワード集合を含み、かつ、それ
らのキーワードが1つに縮退できる場合には、縮退され
たものを1つのキーワードとしている。
Next, clustering of the selected keyword set will be described. In the clustering mechanism 33 shown in FIG. 7, the keyword set selected by the keyword statistical mechanism 31 is clustered using the weight given by the keyword importance calculation mechanism 32. Any method may be used for this clustering. However, as a pre-processing of the clustering, if a plurality of keywords include exactly the same keyword set and the keywords can be reduced to one, the keywords are reduced. Are used as one keyword.

【0034】ここで、縮退とは、例えば以下のようなも
のを含むものである。 - 正書 正書辞書を用いて正書に変換する。 "コンピュータ", "コンピューター"などの表記の揺れ
→ 正書"コンピュータ"に変換する。 - 同義語 同義語辞書を用いて正規表現に変換する。 "米国", "アメリカ合衆国" → "米国" - 複合語 すべてのテキスト中で複合語として隣接して出現する単
語を1つの複合語に変換する。 "小渕", "首相" → "小渕首相" - 依存構造 すべてのテキスト中で同じ依存関係を持つ語を1つの表
現に変換する。ケースマーカ(case marker)が得られる
場合はそれも付与する。ケースマーカは、日本語の場合
は助詞など、英語の場合は前置詞などが対応する。以下
の例ではケースマーカとして助詞“が”が付与されてい
る。 "内閣", "総辞職" → "内閣が総辞職"
Here, the degeneracy includes, for example, the following. -Orthography Convert to an orthography using an orthography dictionary. Notation fluctuation such as "computer" and "computer"
→ Convert to the original "computer". -Synonyms Convert to regular expressions using a synonym dictionary. "United States", "United States"->"UnitedStates"-Compound Words that appear adjacently as compound words in all texts are converted into one compound word. "Obuchi", "Prime Minister" → "Prime Minister Obuchi"-Dependency structure Convert words that have the same dependency in all texts into one expression. If a case marker is obtained, it is also added. The case marker corresponds to a particle or the like in Japanese and a preposition or the like in English. In the following example, the particle “GA” is added as a case marker. "Cabinet", "General resignation" → "Cabinet resignation"

【0035】次に、クラスタリングの一例を説明する。
ここでは、まず最初に選別されたキーワードを重要度順
にソートする。そして、個々のキーワードに対して、そ
のキーワードが含まれる情報要素を割り当てる。その
後、包含関係(強い包含関係と弱い包含関係)の決定がな
される。この包含関係を決定する際には、個々のキーワ
ードは必ず重要度の高いキーワードに含まれるというこ
とを前提としている。この包含関係の決定では、全ての
キーワードについて、それより重要度が高い全てのキー
ワードに対して包含関係の有無を調べる。包含関係の有
無は、キーワードに対応付けられた情報要素を集合とし
て見た場合、その共通する要素の割合が閾値より大きい
場合に強い包含関係があるものとする。また、何らかの
共通の情報要素はあるがその割合が閾値に満たないもの
は、弱い包含関係にあるものとする。強い包含関係があ
るとみなされたキーワードは1つのクラスタに纏められ
る。弱い包含関係にあるとみなされたキーワードは別の
クラスタとなる。ここで、弱い包含関係に含まれる情報
要素集合は、より重要度の高いキーワードに対応付けら
れたクラスタの情報要素集合に含まれるものは除かれて
いる。また、そのキーワードは、より重要度の高いクラ
スタのキーワード集合に加えられる。
Next, an example of clustering will be described.
Here, the keywords selected first are sorted in order of importance. Then, an information element including the keyword is assigned to each keyword. Thereafter, the inclusion relation (strong inclusion relation and weak inclusion relation) is determined. In determining this inclusion relation, it is assumed that each keyword is always included in a keyword having high importance. In the determination of the inclusion relation, the presence / absence of the inclusion relation is checked for all keywords having higher importance than all the keywords. The presence / absence of the inclusion relationship is determined to be a strong inclusion relationship when the information elements associated with the keywords are viewed as a set and the proportion of the common elements is greater than a threshold. If there is some common information element but the ratio is less than the threshold value, it is assumed that the information element has a weak inclusion relation. Keywords deemed to have a strong inclusion relationship are grouped into one cluster. Keywords that are deemed to have a weak containment relationship form another cluster. Here, the information element set included in the weak inclusion relation is excluded from the information element set of the cluster associated with the keyword of higher importance. In addition, the keyword is added to a keyword set of a cluster having higher importance.

【0036】図9は、このようなクラスタリングの結果
として得られたものの構造の例と、その解釈について示
している。図9に示す例では、キーワード1は、キーワ
ード2およびキーワード3と強い包含関係がある。ま
た、キーワード4とキーワードN-1とも強い包含関係
がある。また、キーワード4はキーワード3と弱い包含
関係にある。クラスタリングの結果により、クラスタ
1、クラスタ2およびクラスタmの集合が形成されてい
る。このクラスタ1のキーワード集合としては、強い包
含関係のあるキーワード1〜3が纏められ、また、補足
として弱い包含関係のあるキーワード4も集合化されて
いる。一方、情報要素集合では、強い包含関係のあるキ
ーワード1〜3に対応する情報要素集合1〜3で集合化
されており、情報要素集合4は除かれている。この情報
要素集合4はフル状態でテキストが出力されることか
ら、情報量を減らす意味で弱い包含関係にある情報要素
集合が除かれている。
FIG. 9 shows an example of the structure of the result obtained as a result of such clustering and its interpretation. In the example shown in FIG. 9, keyword 1 has a strong inclusion relationship with keyword 2 and keyword 3. There is also a strong inclusion relationship between keyword 4 and keyword N-1. The keyword 4 has a weak inclusion relationship with the keyword 3. As a result of the clustering, a set of cluster 1, cluster 2, and cluster m is formed. As a keyword set of the cluster 1, keywords 1 to 3 having a strong inclusion relation are collected, and keywords 4 having a weak inclusion relation are also collected as a supplement. On the other hand, in the information element set, information element sets 1 to 3 corresponding to keywords 1 to 3 having a strong inclusion relation are grouped, and information element set 4 is excluded. Since the information element set 4 outputs a text in a full state, the information element set having a weak inclusion relation in the sense of reducing the amount of information is excluded.

【0037】図10は、クラスタリングが行なわれた具
体例を示した図である。ここでは、クラスタ1〜3の3
つのクラスタを示しており、それぞれ、キーワード集合
と情報要素集合が形成されている。このクラスタ2とク
ラスタ3は、クラスタ1に対して弱い包含関係にある。
FIG. 10 is a diagram showing a specific example in which clustering has been performed. Here, 3 of clusters 1-3
One cluster is shown, and a keyword set and an information element set are formed respectively. The cluster 2 and the cluster 3 have a weak inclusion relation with the cluster 1.

【0038】次に、クラスタリングの結果の表示につい
て説明する。図7に示したクラスタリング結果表示機構
34は、上述したクラスタリングの結果から、各クラス
タのキーワード集合の主となるキーワード(最も重要度
の高いキーワード)を、クラスタの代表キーワード(ホッ
トワード)として表示する。更に、そのクラスタに含ま
れる情報要素集合の中から、情報集合を時間順に表示す
る。その際、その情報要素のテキスト部分に含まれるキ
ーワードで補足情報をサブワードとして表示する。この
補足情報は、そのクラスタのキーワード集合に含まれる
キーワードの、単一縮退表現、或いは複数のキーワード
或いは縮退表現、が最初に出現した場合に表示する。キ
ーワードおよび縮退表現の表示順序は、テキストに現わ
れた出現順と同じ順序とする。
Next, the display of the result of the clustering will be described. The clustering result display mechanism 34 shown in FIG. 7 displays, as a representative keyword (hot word) of the cluster, a main keyword (keyword with the highest importance) of the keyword set of each cluster from the result of the clustering described above. . Further, the information sets are displayed in chronological order from the information element sets included in the cluster. At this time, the supplementary information is displayed as a subword using the keyword included in the text part of the information element. This supplementary information is displayed when a single reduced expression or a plurality of keywords or reduced expressions of a keyword included in the keyword set of the cluster first appear. The display order of the keywords and the reduced expressions is the same as the order of appearance in the text.

【0039】図10で挙げた具体例で説明すると、クラ
スタ1の表示において、まず最も古い情報要素から表示
される。その情報要素「開発ツール、e-コマース、オペ
レーティング・システム、データベース、ロータス製
品、ネットワーク関連」には、キーワード集合の中の1
つのキーワードである「データベース」しか含まれてい
ないので、サブワードは表示されない。次の情報要素
「JDBCコンプライアント・リレーショナル・データベー
ス管理システム(DB2, Oracle等)に格納されたリレーシ
ョナル・テーブルのセットにより、XMLアクセスサービ
スLightweight Extractor(XLE)は、データベースよりデ
ータを抽出し、その抽出データをXML文書に変換、アセ
ンブルします。」には、キーワード集合の中の「データ
ベース」と「DB」が含まれている。ここには複数のキ
ーワードが含まれているので、これらを用いてサブワー
ドが作成される。その表示の順番は、情報要素集合の中
におけるテキスト中の順番で表示されることから、「D
B,データベース」となる。もしも、テキスト中にこれ
らのキーワードが連続して出現している場合には、その
縮退表現「DBデータベース」(カンマがない)で表示さ
れる。このサブワードは記憶され、クラスタ1の表示に
おいて「データベース」、「DB」のみが含まれる場合
には、再び表示されることはない。
Referring to the specific example shown in FIG. 10, when displaying the cluster 1, the oldest information element is displayed first. The information elements “development tools, e-commerce, operating systems, databases, Lotus products, and networks” include one of the keywords
Since only one keyword, "database", is included, no subword is displayed. The next information element, "XML Access Service Lightweight Extractor (XLE) extracts data from the database and extracts the data using a set of relational tables stored in a JDBC compliant relational database management system (DB2, Oracle, etc.) "Convert and assemble data into XML document." Includes "database" and "DB" in the keyword set. Here, since a plurality of keywords are included, a subword is created using these keywords. Since the display order is displayed in the order of the text in the information element set, "D
B, database ". If these keywords appear consecutively in the text, they are displayed in the reduced expression “DB database” (without commas). This subword is stored, and if only “database” and “DB” are included in the display of cluster 1, it is not displayed again.

【0040】次に、そのクラスタと弱い包含関係のある
クラスタがあれば、それを表示する。ホットワードの表
示においては、包含関係があることを示すために「段付
け」を行なう。サブワードの表示も同様にして行なわれ
る。このようにして、全てのクラスタが表示される。弱
い包含関係のクラスタと弱い包含関係にあるクラスタの
ホットワードとは、そのレベルの数だけ「段付け」されて
表示される。
Next, if there is a cluster that has a weak inclusion relation with the cluster, it is displayed. In displaying a hot word, "stepping" is performed to indicate that there is an inclusion relationship. The display of the subword is performed in the same manner. In this way, all clusters are displayed. The clusters having a weak containment relationship and the hot words of the clusters having a weak containment relationship are displayed “staged” by the number of levels.

【0041】図11は、これらの一連の処理によって得
られた表示例を示した図である。図11に示す表示例で
は、最も左端にホットワード51が表示され、その隣に
サブワード52が表示される。また、日付53から理解
できるように、最も古い情報要素から表示されている。
また、参照記事54では、情報要素としてテキストブロ
ックとアンダーラインで示されるリンク文章とが表示さ
れている。更に、ホットワードの1段目のキーワード
「データベース」に対して包含関係のある「バージョン」
と「DB」とは、「段付け」されて1段下げて表示されてい
るのが理解できる。このように、本実施の形態では、ク
ラスタリングされた結果を時系列に表示し、各クラスタ
の主となるキーワード(ホットワード)に加えて、新しく
出現した縮退表現を補足情報(サブワード)として表示
し、対応する情報要素を時系列順に表示している。これ
によって、ユーザに対してより新しく、且つ、ユーザの
欲する情報を、整理された状態で提供することが可能と
なる。
FIG. 11 is a diagram showing a display example obtained by a series of these processes. In the display example shown in FIG. 11, a hot word 51 is displayed at the leftmost end, and a subword 52 is displayed next to it. In addition, as can be understood from the date 53, the oldest information elements are displayed.
In the reference article 54, a text block and a link text indicated by an underline are displayed as information elements. Furthermore, the "version" which has an inclusive relation to the keyword "database" in the first row of the hot word
It can be understood that “DB” and “DB” are displayed “stepped down” and one step lower. As described above, in this embodiment, clustered results are displayed in chronological order, and in addition to the main keywords (hot words) of each cluster, newly appearing degenerated expressions are displayed as supplementary information (subwords). , The corresponding information elements are displayed in chronological order. As a result, it is possible to provide the user with new and desired information in an organized state.

【0042】最後に、本実施の形態では、話題供給能力
指標の計算を行なっている。即ち、このようにして抽出
されたクラスタに対して、そのキーワードの重要度に基
づいて重要度を計算することができる。この結果得られ
た重要度は、サイト話題供給能力DB13に対して加算
的に蓄積され、更新が行なわれ、サイトの重要度の計算
に用いることが可能となる。その際、過去の値を減少さ
せることによってできるだけ最新の状況を反映するよう
にする。より具体的には、抽出されたクラスタに含まれ
る単語、情報要素の数、或いはその重みを組み合わせる
ことによって個々のサイトが提供した話題の量を計算
し、それを元にサイトの話題供給能力を示す指標として
蓄積している。また、クラスタに含まれる単語に関して
も、個々のサイトにおける単語別の話題供給能力指標と
して蓄積する。また、サイトを個々のサイトに付与され
た話題供給能力指標順に並べる、或いはその数値を表示
することによって、サイトがどれくらい新しい情報を提
供してきたかをユーザに提示する。更に、個々のサイト
に付与された単語毎の話題供給能力指標を用いて、個々
のサイトにおける特定の単語に対する情報供給能力指標
を提示することも可能である。また更に、個々のサイト
に付与された話題供給能力指標付き単語集合に対し、ユ
ーザが指定したキーワードに一致するサイトを表示する
ことによって、ユーザが求めるキーワードに対して話題
供給能力の高いサイトを提示することも可能である。
Finally, in the present embodiment, the topic supply ability index is calculated. That is, importance can be calculated for the clusters extracted in this manner based on the importance of the keyword. The importance obtained as a result is additionally stored in the site topic supply ability DB 13, updated, and used for calculating the importance of the site. At that time, the latest situation is reflected as much as possible by decreasing the past value. More specifically, the amount of topics provided by each site is calculated by combining the number of words and information elements included in the extracted clusters, or the weight thereof, and the topic supply capability of the site is calculated based on the calculated amount. It is accumulated as an indicator to show. The words included in the cluster are also accumulated as the topic supply ability index for each word in each site. Also, by arranging the sites in the order of the topic supply ability index assigned to each site, or displaying the numerical value, the user is presented with how much new information the site has provided. Furthermore, it is also possible to present an information supply ability index for a specific word in each site by using a topic supply ability index for each word assigned to each site. Furthermore, by displaying a site that matches the keyword specified by the user with respect to the word set with the topic supply capability index assigned to each site, a site having a high topic supply capability for the keyword desired by the user is presented. It is also possible.

【0043】このように、本実施の形態によれば、複数
の情報源を自由に組み合わせて、そこから話題となって
いる情報を取り出すことで、単一情報源ではなく情報源
の集合内で話題となっている情報を獲得することができ
る。即ち、複数のサイトを登録し、それを定期的に巡回
し、その内容の変化分を調べることによって、より重要
な話題を抽出することができる。また、複数の情報源の
サポートを考慮することで単語に対する重みが変わるの
で、クラスタリングの結果が変わり、サイト集合内でよ
り一般的なクラスタを得ることが可能となる。即ち、単
語レベルで他のサイトからのサポートを考慮することに
より、より重要な話題を抽出することができる。同様
に、単語やサイトに対するユーザの興味の度合いを変え
ることによって、ユーザの興味に沿ったクラスタリング
の結果を得ることができる。更に、例えば、補足情報を
用いて獲得されたテキストをクラスタリングの結果と共
に表示することによって、抽出された個々の話題がどの
ように変化していったかを解かり易く表示することが可
能となる。
As described above, according to the present embodiment, by freely combining a plurality of information sources and extracting information of a topic therefrom, not a single information source but a set of information sources You can get the information that has become a topic. In other words, a more important topic can be extracted by registering a plurality of sites, periodically patrol the sites, and examining changes in the contents. In addition, since the weight for a word is changed by considering the support of a plurality of information sources, the result of clustering is changed, and a more general cluster can be obtained within the site set. That is, by considering support from other sites at the word level, more important topics can be extracted. Similarly, by changing the degree of the user's interest in words and sites, it is possible to obtain a result of clustering according to the user's interest. Further, for example, by displaying the text obtained using the supplementary information together with the result of the clustering, it is possible to easily display how the extracted individual topics have changed.

【0044】[0044]

【発明の効果】以上説明したように、本発明によれば、
複数の情報源を自由に組み合わせて、そこから話題とな
っている情報を解かり易い形で表示することが可能とな
る。
As described above, according to the present invention,
It is possible to freely combine a plurality of information sources and to display information that is a topic from the information sources in an easily understandable manner.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本実施の形態における情報抽出/表示手法の
概要を示す図である。
FIG. 1 is a diagram showing an outline of an information extraction / display method according to the present embodiment.

【図2】 本実施の形態におけるシステムの全体構成を
説明するための図である。
FIG. 2 is a diagram for describing an overall configuration of a system according to the present embodiment.

【図3】 登録されたサイトの例を示した図である。FIG. 3 is a diagram showing an example of a registered site.

【図4】 メタデータ作成機構20の構成を更に詳述し
た図である。
FIG. 4 is a diagram further illustrating the configuration of a metadata creation mechanism 20 in further detail.

【図5】 作成されたメタデータの例としてリンクの例
を示した図である。
FIG. 5 is a diagram showing an example of a link as an example of created metadata.

【図6】 作成されたメタデータの例としてテキストブ
ロックの例を示した図である。
FIG. 6 is a diagram showing an example of a text block as an example of created metadata.

【図7】 新規情報抽出表示機構30における構成を説
明するための図である。
FIG. 7 is a diagram for explaining a configuration of a new information extracting and displaying mechanism 30.

【図8】 指定された期間とバージョンとの関係を示し
た図である。
FIG. 8 is a diagram showing a relationship between a designated period and a version.

【図9】 クラスタリングの結果として得られたものの
構造の例とその解釈について示した図である。
FIG. 9 is a diagram showing an example of the structure of a result obtained as a result of clustering and its interpretation.

【図10】 クラスタリングが行なわれた具体例を示し
た図である。
FIG. 10 is a diagram showing a specific example in which clustering is performed.

【図11】 これらの一連の処理によって得られた表示
例を示した図である。
FIG. 11 is a diagram showing a display example obtained by a series of these processes.

【符号の説明】[Explanation of symbols]

10…インターネット、11…登録サイトDB、12…
メタデータDB、13…サイト話題供給能力DB、14
…クローラ、15…バージョン管理機能付きDBMS、
16…メタデータアクセスメソッド、17…ユーザ指定
重み付けDB、20…メタデータ作成機構、21…情報
要素抽出機構、22…属性抽出機構、23…形態素解析
機構、24…キーワード抽出機構、25…キーワード分
類機構、30…新規情報抽出表示機構、31…キーワー
ド統計機構、32…キーワード重要度計算機構、33…
クラスタリング機構、34…クラスタリング結果表示機
構、51…ホットワード、52…サブワード、53…日
付、54…参照記事
10 Internet, 11 Registration DB, 12
Metadata DB, 13 ... Site topic supply capability DB, 14
... Crawler, 15 ... DBMS with version control function,
16: Metadata access method, 17: User-designated weighting DB, 20: Metadata creation mechanism, 21: Information element extraction mechanism, 22: Attribute extraction mechanism, 23: Morphological analysis mechanism, 24: Keyword extraction mechanism, 25: Keyword classification Mechanism, 30: new information extraction and display mechanism, 31: keyword statistical mechanism, 32: keyword importance calculation mechanism, 33 ...
Clustering mechanism, 34 Clustering result display mechanism, 51 Hot word, 52 Subword, 53 Date, 54 Reference article

フロントページの続き (72)発明者 野美山 浩 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 Fターム(参考) 5B075 NK31 NR03 NR12 PQ02 PQ34 PR08 Continuation of the front page (72) Inventor Hiroshi Nomiyama 1623-14 Shimotsuruma, Yamato-shi, Kanagawa Prefecture IBM Japan, Ltd. Tokyo Basic Research Laboratory F-term (reference) 5B075 NK31 NR03 NR12 PQ02 PQ34 PR08

Claims (19)

【特許請求の範囲】[Claims] 【請求項1】 ネットを介して接続された情報源からの
情報を整理する情報整理方法であって、 登録された複数の情報源を定期的に巡回して情報を収集
する情報収集ステップと、 収集された前記情報の中から話題の要素となる単語を選
別する単語選別ステップと、 選別された前記単語の集合に対してクラスタリングを施
すクラスタリングステップと、 施された前記クラスタリングの結果に基づいて、各クラ
スタにおける情報要素を時間軸に基づいて表示すると共
に、当該各クラスタにおける単語の集合の中から主とな
るキーワードを当該クラスタの代表キーワードとして表
示する表示ステップとを含むことを特徴とする情報整理
方法。
1. An information organizing method for organizing information from information sources connected via a net, comprising: an information collecting step of periodically patrol a plurality of registered information sources to collect information; A word selecting step of selecting a word that is a topic element from the collected information; a clustering step of performing clustering on the set of the selected words; based on a result of the performed clustering, Displaying an information element in each cluster based on a time axis and displaying a main keyword from a set of words in each cluster as a representative keyword of the cluster. Method.
【請求項2】 前記表示ステップは、前記各クラスタに
おける前記情報要素からそのテキスト部分に含まれるキ
ーワードに基づく補足情報を表示することを特徴とする
請求項1記載の情報整理方法。
2. The information organizing method according to claim 1, wherein said displaying step displays supplementary information based on a keyword included in a text portion of the information element in each of the clusters.
【請求項3】 複数の単語が1つに縮退できる場合には
縮退されたものを1つの縮退表現とする縮退ステップと
を更に含み、 前記表示ステップは、前記各クラスタに新しく出現した
前記縮退表現を前記補足情報として表示することを特徴
とする請求項2記載の情報整理方法。
3. When the plurality of words can be reduced to one, a reduced step of using the reduced word as one reduced expression is further included. The displaying step further includes the reduced expression newly appearing in each of the clusters. The information arrangement method according to claim 2, wherein the information is displayed as the supplementary information.
【請求項4】 前記単語選別ステップは、新しく出現し
た単語に対して重み付けを高くして選別することを特徴
とする請求項1記載の情報整理方法。
4. The information organizing method according to claim 1, wherein said word selecting step selects a newly appearing word with a higher weight.
【請求項5】 前記単語選別ステップは、特定の単語を
選別した特定の情報源に対し、単語レベルで前記複数の
情報源における他の情報源からのサポートを考慮して話
題の要素となる単語を選別することを特徴とする請求項
1記載の情報整理方法。
5. The word selecting step includes, for a specific information source that has selected a specific word, a word that becomes a topic element in consideration of support from another information source among the plurality of information sources at a word level. 2. The information sorting method according to claim 1, wherein the information is sorted.
【請求項6】 情報を入手すべき情報源とユーザが興味
のある単語とのユーザによる登録を受け付け、 登録された前記情報源に対して定期的に巡回して情報要
素を入手し、 入手された前記情報要素の中からユーザの興味があると
される単語に対して重要度を増して単語を選別し、 選別された前記単語を有する情報要素の集合に対してク
ラスタリングを施し、クラスタリングが施された情報要
素をクラスタの結果と共に表示することを特徴とする情
報整理方法。
6. A user receives registration of an information source from which information is to be obtained and a word of interest to the user, and periodically visits the registered information source to obtain an information element. From the information elements that have been selected, words with increasing importance are selected for words considered to be of interest to the user, clustering is performed on a set of the information elements having the selected words, and clustering is performed. An information organizing method characterized by displaying the selected information element together with the result of the cluster.
【請求項7】 ユーザによる個々の情報源に対する興味
の度合いを判断し、 判断された興味の度合いの高い情報源に出現した単語に
対して重要度を増して単語を選別することを特徴とする
請求項6記載の情報整理方法。
7. A method for determining a degree of interest in an individual information source by a user, and selecting words that appear in an information source having a high degree of interest and selecting words with increasing importance. The information organizing method according to claim 6.
【請求項8】 情報を入手すべき複数のサイトを登録
し、 登録された前記複数のサイトを定期的に巡回し、 内容の変化分を調べることによって巡回された複数のサ
イトから情報を収集し、 特定のサイトから収集された情報に対して、単語レベル
で前記複数のサイトにおける他のサイトからのサポート
を考慮して重要な話題を抽出することを特徴とする情報
整理方法。
8. Registering a plurality of sites from which information is to be obtained, periodically patrol the plurality of registered sites, and collecting information from the plurality of visited sites by examining changes in the contents. An information organizing method, wherein an important topic is extracted from information collected from a specific site at a word level in consideration of support from other sites in the plurality of sites.
【請求項9】 抽出された前記重要な話題を有する情報
要素に対してクラスタリングを行い、獲得された情報要
素をクラスタリングの結果と共に表示することを特徴と
する請求項8記載の情報整理方法。
9. The information organizing method according to claim 8, wherein clustering is performed on the extracted information elements having the important topic, and the obtained information elements are displayed together with a result of the clustering.
【請求項10】 抽出された情報要素の数に基づいて個
々のサイトが提供した話題の量を計算し、 計算された話題の量に基づいて前記サイトの話題供給能
力を示す指標を蓄積することを特徴とする請求項8記載
の情報整理方法。
10. Calculating the amount of topics provided by each site based on the number of extracted information elements, and accumulating an index indicating the topic supply capability of the site based on the calculated amount of topics. 9. The information organizing method according to claim 8, wherein:
【請求項11】 巡回すべき複数のサイトを指定する指
定手段と、 前記指定手段により指定された前記複数のサイトを記憶
する記憶手段と、 前記記憶手段に記憶された前記複数のサイトを定期的に
巡回して情報を収集する情報収集手段と、 前記情報収集手段によって収集された情報の中から話題
の要素となる単語を選別する単語選別手段と、 前記単語選別手段により選別された単語の集合に対して
クラスタリングを施すクラスタリング手段と、 前記クラスタリング手段によって施されたクラスタリン
グの結果に基づいて、各クラスタにおける情報要素と共
に、当該各クラスタにおける単語の集合の中に存在する
キーワードを出力する出力手段とを含むことを特徴とす
る情報処理装置。
11. A designating means for designating a plurality of sites to be visited, a storage means for storing the plurality of sites designated by the designating means, and a method for periodically storing the plurality of sites stored in the storage means. Information collecting means for circulating and collecting information; word selecting means for selecting words that are elements of topics from the information collected by the information collecting means; and a set of words selected by the word selecting means. Clustering means for performing clustering on, and output means for outputting, based on a result of the clustering performed by the clustering means, a keyword present in a set of words in each cluster together with information elements in each cluster. An information processing apparatus comprising:
【請求項12】 前記出力手段は、前記各クラスタにお
ける情報要素を時系列順に出力すると共に、当該情報要
素のテキスト部分に含まれるキーワードで補足情報を出
力することを特徴とする請求項11記載の情報処理装
置。
12. The information processing apparatus according to claim 11, wherein the output unit outputs information elements in each of the clusters in chronological order, and outputs supplementary information using a keyword included in a text portion of the information element. Information processing device.
【請求項13】 前記出力手段は、表示装置に対してま
たはネットを介して接続された端末に対して出力するこ
とを特徴とする請求項11記載の情報処理装置。
13. The information processing apparatus according to claim 11, wherein said output means outputs to a display device or a terminal connected via a network.
【請求項14】 情報を入手すべき情報源とユーザが興
味のある単語とのユーザによる登録を受け付ける登録受
付手段と、 前記登録受付手段により受け付けられた前記情報源に対
して定期的に巡回して情報要素を入手する巡回手段と、 前記巡回手段により入手された前記情報要素の中からユ
ーザの興味があるとされる単語に対して重要度を増して
単語を選別する選別手段と、 前記選別手段により選別された前記単語を有する情報要
素の集合に対してクラスタリングを施すクラスタリング
手段と、 前記クラスタリング手段によりクラスタリングが施され
た情報要素をクラスタの結果と共に表示する表示手段と
を備えたことを特徴とする情報処理装置。
14. A registration accepting unit for accepting registration of an information source from which information is to be obtained and a word of interest to the user by the user, and periodically patrols the information source accepted by the registration accepting unit. Circulating means for obtaining an information element by means of: selecting means for increasing the importance of a word considered to be of interest to a user from among the information elements obtained by the circulating means, and selecting the word; Clustering means for clustering a set of information elements having the word selected by the means, and display means for displaying the information elements clustered by the clustering means together with the result of the cluster. Information processing device.
【請求項15】 ユーザによる登録があった情報源また
はユーザにより対応する情報要素が過去に選択された情
報源に対して情報源の重要度を高く設定する設定手段と
を備え、 前記選別手段は、前記設定手段によって重要度が高く設
定された情報源に出現した単語に対して重要度を増して
単語を選別することを特徴とする請求項14記載の情報
処理装置。
15. A setting means for setting an information source registered by a user or an information element corresponding to the user to be higher in importance of an information source with respect to an information source selected in the past; 15. The information processing apparatus according to claim 14, wherein a word that appears in an information source set with a high degree of importance by the setting unit is selected with a higher degree of importance.
【請求項16】 コンピュータに実行させるプログラム
を当該コンピュータの入力手段が読取可能に記憶した記
憶媒体において、 前記プログラムは、 登録された複数の情報源を定期的に巡回して情報を収集
する処理と、収集された前記情報の中から話題の要素と
なる単語を選別する処理と、選別された前記単語の集合
に対してクラスタリングを施す処理と、施された前記ク
ラスタリングの結果に基づいて、各クラスタにおける情
報要素を時間軸に基づいて表示すると共に、当該各クラ
スタにおける単語の集合の中から所定のキーワードを表
示する処理とを前記コンピュータに実行させることを特
徴とする記憶媒体。
16. A storage medium storing a program to be executed by a computer in a manner readable by an input means of the computer, the program comprising: a process of periodically traveling a plurality of registered information sources to collect information; A process of selecting a word that is a topic element from the collected information; a process of performing clustering on the set of the selected words; and a process for selecting each cluster based on a result of the performed clustering. And displaying the information elements on the basis of the time axis and displaying a predetermined keyword from a set of words in each of the clusters.
【請求項17】 前記各クラスタにおける前記情報要素
からそのテキスト部分に含まれるキーワードに基づく補
足情報を当該各クラスタに新しく出現した縮退表現を用
いて表示する処理とを含むことを特徴とする請求項16
記載の記憶媒体。
17. A process for displaying supplementary information based on a keyword included in a text portion from the information element in each of the clusters using a degenerated expression newly appearing in each of the clusters. 16
The storage medium according to the above.
【請求項18】 コンピュータに実行させるプログラム
を当該コンピュータの入力手段が読取可能に記憶した記
憶媒体において、 前記プログラムは、 情報を入手すべき複数のサイトを登録する処理と、登録
された前記複数のサイトを定期的に巡回する処理と、内
容の変化分を調べることによって巡回された複数のサイ
トから情報を収集する処理と、収集された情報に対し
て、単語レベルで他のサイトからのサポートを考慮して
重要な話題を抽出する処理とを前記コンピュータに実行
させることを特徴とする記憶媒体。
18. A storage medium storing a program to be executed by a computer in a manner readable by an input means of the computer, the program comprising: a process of registering a plurality of sites from which information is to be obtained; Regular site patrol, collecting information from multiple sites visited by examining changes in content, and providing word-level support for collected information from other sites A storage medium for causing the computer to execute a process of extracting an important topic in consideration of the processing.
【請求項19】 コンピュータに実行させるプログラム
を記憶する記憶手段と、当該記憶手段に記憶された当該
プログラムを送信する送信手段とを備えたプログラム伝
送装置であって、 前記記憶手段に格納される前記プログラムは、登録され
た複数の情報源を定期的に巡回して情報を収集する処理
と、収集された前記情報の中から話題の要素となる単語
を選別する処理と、選別された前記単語の集合に対して
クラスタリングを施す処理と、施された前記クラスタリ
ングの結果に基づいて、各クラスタにおける情報要素を
時間軸に基づいて表示すると共に、当該各クラスタにお
ける単語の集合の中から所定のキーワードを表示する処
理とを備え、前記送信手段によって送信可能に構成され
ることを特徴とするプログラム伝送装置。
19. A program transmission device comprising: a storage unit for storing a program to be executed by a computer; and a transmission unit for transmitting the program stored in the storage unit, wherein the transmission unit stores the program stored in the storage unit. The program includes a process of periodically traveling a plurality of registered information sources to collect information, a process of selecting a word that is a topic element from the collected information, and a process of selecting the selected word. Based on the process of performing clustering on the set and displaying the information elements in each cluster on the time axis based on the result of the clustering performed, a predetermined keyword is selected from the set of words in each cluster. A program transmission device comprising: a display unit for displaying the program;
JP2000144016A 2000-05-16 2000-05-16 Information organizing method, information processing apparatus, storage medium, and program transmission apparatus Expired - Fee Related JP3606556B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000144016A JP3606556B2 (en) 2000-05-16 2000-05-16 Information organizing method, information processing apparatus, storage medium, and program transmission apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000144016A JP3606556B2 (en) 2000-05-16 2000-05-16 Information organizing method, information processing apparatus, storage medium, and program transmission apparatus

Publications (2)

Publication Number Publication Date
JP2001325272A true JP2001325272A (en) 2001-11-22
JP3606556B2 JP3606556B2 (en) 2005-01-05

Family

ID=18650747

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000144016A Expired - Fee Related JP3606556B2 (en) 2000-05-16 2000-05-16 Information organizing method, information processing apparatus, storage medium, and program transmission apparatus

Country Status (1)

Country Link
JP (1) JP3606556B2 (en)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002334106A (en) * 2001-05-11 2002-11-22 Fujitsu Ltd Device, method, program for extracting topic and recording medium to record the same program
JP2005100363A (en) * 2003-08-14 2005-04-14 Internatl Business Mach Corp <Ibm> Method and apparatus for clustering data stream in progress through online and offline components
JP2005122683A (en) * 2003-09-22 2005-05-12 Nippon Telegr & Teleph Corp <Ntt> Information providing method and system, and information providing program
WO2008072459A1 (en) 2006-12-11 2008-06-19 Nec Corporation Active studying system, active studying method and active studying program
JP2009043125A (en) * 2007-08-10 2009-02-26 Kddi Corp User classifier, advertisement distribution device, user classifying method, advertisement distribution method, and program
JP2009064435A (en) * 2007-09-06 2009-03-26 Nhn Corp Method and system for providing up-to-date information
JP2009526281A (en) * 2006-01-24 2009-07-16 ゲーミング・ソリューションズ・インターナショナル・リミテッド・ライアビリティ・カンパニー System and method for data mining and interactive presentation of data
WO2009108534A2 (en) * 2008-02-19 2009-09-03 Motorola, Inc. Aggregated view of local and remote social information
JP2010055159A (en) * 2008-08-26 2010-03-11 Nec Biglobe Ltd Information retrieval device, information retrieval method, and program
JP2010055155A (en) * 2008-08-26 2010-03-11 Nec Biglobe Ltd Server device, information processing method, and program
JP2010117761A (en) * 2008-11-11 2010-05-27 Yahoo Japan Corp Advertisement-providing device
US8065145B2 (en) 2007-06-25 2011-11-22 Kabushiki Kaisha Toshiba Keyword outputting apparatus and method
WO2013047512A1 (en) * 2011-09-26 2013-04-04 日本電気株式会社 Information processing device, information processing method, and information processing program
JP2014174465A (en) * 2013-03-12 2014-09-22 Ricoh Co Ltd Information processor, information processing method and program
JP2016062338A (en) * 2014-09-18 2016-04-25 株式会社東芝 Tag giving device, method and program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175530A (en) * 1997-12-08 1999-07-02 Nippon Telegr & Teleph Corp <Ntt> Information flow presenting method and device therefor and recording medium for storing information flow presentation program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175530A (en) * 1997-12-08 1999-07-02 Nippon Telegr & Teleph Corp <Ntt> Information flow presenting method and device therefor and recording medium for storing information flow presentation program

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4489994B2 (en) * 2001-05-11 2010-06-23 富士通株式会社 Topic extraction apparatus, method, program, and recording medium for recording the program
JP2002334106A (en) * 2001-05-11 2002-11-22 Fujitsu Ltd Device, method, program for extracting topic and recording medium to record the same program
JP2005100363A (en) * 2003-08-14 2005-04-14 Internatl Business Mach Corp <Ibm> Method and apparatus for clustering data stream in progress through online and offline components
JP2005122683A (en) * 2003-09-22 2005-05-12 Nippon Telegr & Teleph Corp <Ntt> Information providing method and system, and information providing program
JP2009526281A (en) * 2006-01-24 2009-07-16 ゲーミング・ソリューションズ・インターナショナル・リミテッド・ライアビリティ・カンパニー System and method for data mining and interactive presentation of data
WO2008072459A1 (en) 2006-12-11 2008-06-19 Nec Corporation Active studying system, active studying method and active studying program
US8065145B2 (en) 2007-06-25 2011-11-22 Kabushiki Kaisha Toshiba Keyword outputting apparatus and method
JP2009043125A (en) * 2007-08-10 2009-02-26 Kddi Corp User classifier, advertisement distribution device, user classifying method, advertisement distribution method, and program
JP2011118946A (en) * 2007-09-06 2011-06-16 Nhn Corp Method for providing the newest information
JP2009064435A (en) * 2007-09-06 2009-03-26 Nhn Corp Method and system for providing up-to-date information
WO2009108534A3 (en) * 2008-02-19 2009-12-03 Motorola, Inc. Aggregated view of local and remote social information
WO2009108534A2 (en) * 2008-02-19 2009-09-03 Motorola, Inc. Aggregated view of local and remote social information
JP2010055159A (en) * 2008-08-26 2010-03-11 Nec Biglobe Ltd Information retrieval device, information retrieval method, and program
JP2010055155A (en) * 2008-08-26 2010-03-11 Nec Biglobe Ltd Server device, information processing method, and program
JP4587236B2 (en) * 2008-08-26 2010-11-24 Necビッグローブ株式会社 Information search apparatus, information search method, and program
JP4640554B2 (en) * 2008-08-26 2011-03-02 Necビッグローブ株式会社 Server apparatus, information processing method, and program
US8838616B2 (en) 2008-08-26 2014-09-16 Nec Biglobe, Ltd. Server device for creating list of general words to be excluded from search result
JP2010117761A (en) * 2008-11-11 2010-05-27 Yahoo Japan Corp Advertisement-providing device
WO2013047512A1 (en) * 2011-09-26 2013-04-04 日本電気株式会社 Information processing device, information processing method, and information processing program
JP2014174465A (en) * 2013-03-12 2014-09-22 Ricoh Co Ltd Information processor, information processing method and program
JP2016062338A (en) * 2014-09-18 2016-04-25 株式会社東芝 Tag giving device, method and program

Also Published As

Publication number Publication date
JP3606556B2 (en) 2005-01-05

Similar Documents

Publication Publication Date Title
US7302646B2 (en) Information rearrangement method, information processing apparatus and information processing system, and storage medium and program transmission apparatus therefor
US6389412B1 (en) Method and system for constructing integrated metadata
KR101063364B1 (en) System and method for prioritizing websites during the web crawling process
US6457028B1 (en) Method and apparatus for finding related collections of linked documents using co-citation analysis
Schwartz Web search engines
US7836083B2 (en) Intelligent search and retrieval system and method
US8725732B1 (en) Classifying text into hierarchical categories
KR100567005B1 (en) Information retrieval from hierarchical compound documents
JP3717808B2 (en) Information retrieval system
US20030033333A1 (en) Hot topic extraction apparatus and method, storage medium therefor
JP3606556B2 (en) Information organizing method, information processing apparatus, storage medium, and program transmission apparatus
US20060179041A1 (en) Search system and search method
JP2008071372A (en) Method and device for searching data of database
US20040015485A1 (en) Method and apparatus for improved internet searching
JPH0749875A (en) Document information classifying method, and method and system for document information collection using the same
Watanabe et al. A paper recommendation mechanism for the research support system papits
Uyar Google stemming mechanisms
US20020169872A1 (en) Method for arranging information, information processing apparatus, storage media and program tranmission apparatus
KR20050074058A (en) System for automatically sending to other web site news automatically classified on internet, and control method thereof
KR20020014026A (en) News tracker and analysis service based on web personalization
Murata Visualizing the structure of web communities based on data acquired from a search engine
JP2002157270A (en) System and method for distributing interesting article
JP2006277061A (en) Knowledge retrieval system, method and program
JP2002073639A (en) Knowledge management system
KR20010107810A (en) Web search system and method

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040914

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20040916

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041004

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071015

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081015

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees