JP3606556B2 - 情報整理方法、情報処理装置、記憶媒体、およびプログラム伝送装置 - Google Patents

情報整理方法、情報処理装置、記憶媒体、およびプログラム伝送装置 Download PDF

Info

Publication number
JP3606556B2
JP3606556B2 JP2000144016A JP2000144016A JP3606556B2 JP 3606556 B2 JP3606556 B2 JP 3606556B2 JP 2000144016 A JP2000144016 A JP 2000144016A JP 2000144016 A JP2000144016 A JP 2000144016A JP 3606556 B2 JP3606556 B2 JP 3606556B2
Authority
JP
Japan
Prior art keywords
information
keyword
new
new keyword
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000144016A
Other languages
English (en)
Other versions
JP2001325272A (ja
Inventor
浩 野美山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2000144016A priority Critical patent/JP3606556B2/ja
Publication of JP2001325272A publication Critical patent/JP2001325272A/ja
Application granted granted Critical
Publication of JP3606556B2 publication Critical patent/JP3606556B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、情報源からの情報検索に係り、特に、インターネット上の複数の情報源から話題となっている情報を抽出して視覚化する方法等に関する。
【0002】
【従来の技術】
近年、インターネットの整備に伴い、ユーザが入手できる情報の量は膨大となっている。この膨大な情報源の中から、ユーザの欲する情報を出来るだけ早く、正確に、そしてユーザの使い易い形で整理して提供する情報検索技術は、ますます重要性が増している。
【0003】
従来の情報検索技術として、例えば、登録された情報源(サイト)から情報を伝える要素(リンクとそのタイトル、テキストの連続等)を抽出し、そのテキスト部分を言語解析するものがある。また、検索サービス、ニュースなどの情報提供サービスを行なうポータルサイト(portal site)を利用して話題を抽出する技術も存在する。このポータルサイトでは、人手による作成によって話題となっているキーワードを提供するサービスを行なっており、例えば検索者にとっての話題であるキーワードランキング等を利用してユーザに提供するサービスが存在する。
【0004】
また、文献1(J. Kleinberg. Authoritative sources in a hyperlinked environment. Proc. 9th ACM−SIAM Symposium on Discrete Algorithms, . Also appears as IBM Research Report RJ 10076, May 1997.)には、インターネット上のある一瞬における静的な構造上の参照関係(サポート)を考慮して重要度の計算を行なう技術について開示されている。ここでは、指定された検索式に対する権威のあるページ(Authority)と、権威のあるページを多く含むページ(Hub)を抽出している。また、文献2(柳瀬,仲尾 ”メールマガジンを利用した注目ニュースの自動抽出,” 57−20, p. 151− 158,情報処理学会情報学基礎研究会予稿集, 3/22/2000.)には、複数の情報源(メールマガジン)を情報源とし、そこから注目ニュースの自動抽出を行なう技術について開示されている。ここでは、クラスタリングされた結果の重要度として情報源の数が多い(メールマガジンの種類が多い)という指標が用いられている。
【0005】
一方、特開平8−287074号公報では、継続的に発行される文書等、最近の文書に現われる未登録語の発生頻度をリアルタイムに監視し、現在注目を集めつつあるトピックに関係する用語および文書を利用者に定義する技術について開示されている。また、特開平11−143892号公報では、文章中に出現するキーワードの重みとカテゴリ情報を考慮した重みを合成してキーワードの重みを生成する技術について示されている。更に、特開平11−143796号公報では、メーリングリストサービスにおいて、各メーリングリストでやり取りされている主な話題を抽出する技術が開示されている。
【0006】
【発明が解決しようとする課題】
このように、情報を整理して話題となっていることを自動的に抽出し、それらを解かり易く表示することは非常に有用であり、従来から幾つかの提案がなされている。しかしながら、上述したポータルサイトなどでは、重要な分野のニュースに関して話題の抽出を人手で行なっているが、単一のサイトだけでは情報の評価基準が偏っている可能性があり、重要な情報を見逃す恐れがあったり、1つの話題に関する全ての情報が得られない恐れがある。この恐れを回避するために複数のサイトを見ようとすると、情報が重複してしまう問題がある。また、観点がまちまちとなることから、ユーザに対して理解を容易にするためには別の観点から整理し直す必要性がある。更に、多くの読者が期待できない分野のニュースに関しては、人手で情報を整理するというようなサービスは行なわれておらず、ユーザが自分自身で複数のサイトを集め、纏めることが必要となってしまう。
【0007】
一方、上記文献1では、話題になっているものを抽出する技術については含まれておらず、また、参照関係の重み付けに検索式中のキーワードを利用しているが、結果に単語そのものを含めるものではない。文献2では、単語が新しく出現したかどうかは考慮していない。また、情報源の数が多いという指標をクラスタの重要度の判定に用いており、単語の重要度の判定ではないので、サポートの導入はクラスタリングの結果に影響を与えることができない。
【0008】
更に、特開平8−287074号公報では、あくまでも静的な情報源(文書)を対象としており、インターネットなどの同一の情報源からの情報は別の文書として認識されてしまう。このため、重要度の計算においては文書の数のみを考慮しているに過ぎない。また、文書間の構造化を含まず、ある文書集合に頻出する単語を識別するなどの文書分類の性質を利用することができない。更に、辞書に登録されていない単語あるいは複合語だけを抽出の対象としており、登録後を組み合わせて文章となっている場合は新出概念として抽出できない。その結果、例えば、「日本IBMが新しいデータベース製品を発表」などの文は全て登録語で構成されており、この手法では新出概念として抽出することができないのである。また更に、関連する新出語があってもその類似性が考慮されていないため、関連する新語を同時に見ることができず、関連する新語の登録作業が別々になり、その都度同じような文書集合が提示され、作業の効率化が図れない。また、特開平11−143892号公報では、時間的な側面への考慮がなく、動的な情報源に対する考慮もない。更に、特開平11−143796号公報では、対象がメーリングリストに限定されており、また、単一のメーリングリストを対象とするものに過ぎず、複数の情報源から話題を抽出するような情報検索は困難である。
【0009】
本発明は、以上のような技術的課題を解決するためになされたものであって、その目的とするところは、複数の情報源を自由に組み合わせて、そこから話題となっている情報を解かり易い形で表示することにある。
また他の目的は、ユーザの興味に沿ったクラスタリングの結果を得ることにある。
【0010】
【課題を解決するための手段】
かかる目的のもと、本発明は、インターネットなどから獲得される動的に変化する複数の情報源(URLなどで参照される)を定期的に観察することによって、抽出される情報要素の中から、サイト間のサポート関係、個人の興味の度合いなどを考慮してより重要な話題を自動的に抽出し、それらを纏めて解かり易く視覚化するものである。即ち、本発明は、ネットを介して接続された情報源からの情報を整理する情報整理方法であって、登録された複数の情報源を定期的に巡回して情報を収集する情報収集ステップと、収集された情報の中から話題の要素となる単語を選別する単語選別ステップと、選別された単語の集合に対してクラスタリングを施すクラスタリングステップと、施されたクラスタリングの結果に基づいて、各クラスタにおける情報要素を時間軸に基づいて表示すると共に、各クラスタにおける単語の集合の中から主となるキーワードをクラスタの代表キーワードとして表示する表示ステップとを含むことを特徴としている。
【0011】
この表示ステップは、各クラスタにおける情報要素からそのテキスト部分に含まれるキーワードに基づく補足情報を表示することを特徴としている。また、複数の単語が1つに縮退できる場合には縮退されたものを1つの縮退表現とする縮退ステップとを更に含み、表示ステップは、各クラスタに新しく出現した縮退表現を補足情報として表示することを特徴としている。これらの発明によれば、得られた情報をユーザに対してより解かり易く視覚化して表現することが可能となる点で好ましい。
【0012】
また、単語選別ステップは、新しく出現した単語に対して重み付けを高くして選別することを特徴とすれば、新出したニュースをユーザに対して優先的に提供できる。更に、この単語選別ステップは、特定の単語を選別した特定の情報源に対し、単語レベルで複数の情報源における他の情報源からのサポートを考慮して話題の要素となる単語を選別することを特徴とすれば、話題となっている情報を選別してユーザに提供できる点で優れている。
【0013】
本発明を他の観点から把えると、本発明が適用された情報整理方法は、情報を入手すべき情報源とユーザが興味のある単語とのユーザによる登録を受け付け、登録された情報源に対して定期的に巡回して情報要素を入手し、入手された情報要素の中からユーザの興味があるとされる単語に対して重要度を増して単語を選別し、選別された単語を有する情報要素の集合に対してクラスタリングを施し、クラスタリングが施された情報要素をクラスタの結果と共に表示することを特徴とすることができる。更に、ユーザによる個々の情報源に対する興味の度合いを判断し、判断された興味の度合いの高い情報源に出現した単語に対して重要度を増して単語を選別することを特徴とすることができる。このユーザによる興味の度合いの判断としては、例えば、ユーザによる特定サイトの指定の他、例えば、ユーザによって対応する情報要素が過去において選択されたサイトを興味の度合いが高いとして判断すること等が可能である。
【0014】
更に他の観点から把えると、本発明が適用された情報整理方法は、情報を入手すべき複数のサイトを登録し、登録された複数のサイトを定期的に巡回し、例えば指定された期間にて新出した単語等による内容の変化分を調べることによって巡回された複数のサイトから情報を収集し、特定のサイトから収集された情報に対して、単語レベルで複数のサイトにおける他のサイトからのサポートを考慮して重要な話題を抽出することを特徴とすることができる。また、抽出された重要な話題を有する情報要素に対してクラスタリングを行い、獲得された情報要素をクラスタリングの結果と共に表示することを特徴とすることができる。このクラスタリングの結果の表示とは、例えば、各クラスタ毎に時系列表示するものや、各クラスタの代表キーワードや補足情報を表示すること等が挙げられる。
また、抽出された情報要素の数に基づいて個々のサイトが提供した話題の量を計算し、計算された話題の量に基づいてサイトの話題供給能力を示す指標を蓄積することを特徴とすれば、例えば蓄積された話題供給能力に基づいてサイトや単語の重み付けを行なうこと等に利用できる点で好ましい。更に、この応用としては、サイトを話題供給能力指標順に並べ、また、その数値を表示すること等が可能である。
【0015】
一方、上記目的を達成するために、本発明が適用される情報処理装置は、巡回すべき複数のサイトを指定する指定手段と、指定された複数のサイトを記憶する記憶手段と、記憶された複数のサイトを定期的に巡回して情報を収集する情報収集手段と、収集された情報の中から話題の要素となる単語を選別する単語選別手段と、選別された単語の集合に対してクラスタリングを施すクラスタリング手段と、施されたクラスタリングの結果に基づいて、各クラスタにおける情報要素と共に、各クラスタにおける単語の集合の中に存在するキーワードを出力する出力手段とを含むことを特徴とすることができる。
【0016】
ここで、この出力手段は、各クラスタにおける情報要素を時系列順に出力すると共に、情報要素のテキスト部分に含まれるキーワードで補足情報を出力することを特徴とすれば、抽出された個々の話題がどのように変化していったかを解かり易く出力することができる点で優れている。
尚、この出力手段は、表示装置に対して表示する態様の他、ネットを介して接続された端末に対して電子情報として出力する態様とすることが可能である。
【0017】
他の観点から把えると、本発明が適用された情報処理装置は、情報を入手すべき情報源とユーザが興味のある単語とのユーザによる登録を受け付ける登録受付手段と、受け付けられた情報源に対して定期的に巡回して情報要素を入手する巡回手段と、入手された情報要素の中からユーザの興味があるとされる単語に対して重要度を増して単語を選別する選別手段と、選別された単語を有する情報要素の集合に対してクラスタリングを施すクラスタリング手段と、クラスタリングが施された情報要素をクラスタの結果と共に表示する表示手段とを備えたことを特徴とすることができる。
また、ユーザによる登録があった情報源またはユーザにより対応する情報要素が過去に選択された情報源に対して情報源の重要度を高く設定する設定手段とを備え、選別手段は、この設定手段によって重要度が高く設定された情報源に出現した単語に対して重要度を増して単語を選別することを特徴とすることができる。
【0018】
一方、本発明は、コンピュータに実行させるプログラムをコンピュータの入力手段(例えばCD−ROMドライバ等)が読取可能に記憶した記憶媒体(例えばCD−ROM等)において、このプログラムは、登録された複数の情報源を定期的に巡回して情報を収集する処理と、収集された情報の中から話題の要素となる単語を選別する処理と、選別された単語の集合に対してクラスタリングを施す処理と、施されたクラスタリングの結果に基づいて、各クラスタにおける情報要素を時間軸に基づいて表示すると共に、所定のキーワードとして、例えば各クラスタにおける単語の集合の中から主となるキーワードをクラスタの代表キーワードとして表示する処理とをコンピュータに実行させることを特徴としている。
ここで、この各クラスタにおける情報要素からそのテキスト部分に含まれるキーワードに基づく補足情報を各クラスタに新しく出現した縮退表現を用いて表示する処理とを含むことを特徴とすれば、ユーザに対して更に解かり易い表示を提供することができる点で好ましい。
【0019】
また本発明は、コンピュータに実行させるプログラムをコンピュータの入力手段が読取可能に記憶した記憶媒体において、このプログラムは、情報を入手すべき複数のサイトを登録する処理と、登録された複数のサイトを定期的に巡回する処理と、内容の変化分を調べることによって巡回された複数のサイトから情報を収集する処理と、収集された情報に対して、単語レベルで他のサイトからのサポートを考慮して重要な話題を抽出する処理とをコンピュータに実行させることを特徴とすることができる。
【0020】
更に、本発明は、コンピュータに実行させるプログラムを記憶する記憶手段と、この記憶手段に記憶されたプログラムをインターネット等を介してユーザ端末に対して送信する送信手段とを備えたプログラム伝送装置であって、この記憶手段に格納されるプログラムは、登録された複数の情報源を定期的に巡回して情報を収集する処理と、収集された情報の中から話題の要素となる単語を選別する処理と、選別された単語の集合に対してクラスタリングを施す処理と、施されたクラスタリングの結果に基づいて、各クラスタにおける情報要素を時間軸に基づいて表示すると共に、各クラスタにおける単語の集合の中から所定のキーワードを表示する処理とを備え、この送信手段によって送信可能に構成されることを特徴とすることができる。
【0021】
【発明の実施の形態】
以下、添付図面に示す実施の形態に基づいてこの発明を詳細に説明する。
まず、本実施の形態におけるシステム構成の説明に入る前に、本方式の理解を容易にするために、その概要について説明する。
図1は、本実施の形態における情報抽出/表示手法の概要を示す図である。本手法は、個人が自由に情報源を選択し、更に、それらに対し興味の度合いに応じて自由に重要度を付与することによって情報を整理し、自分専用の情報サイト(Personal Portal)あるいは、特定の分野専用のサイト(Vertial Portal)を自動的に実現するものである。そのために、まず、ユーザによって好みのサイトの登録がなされる(ステップ101)。登録する際には、例えば、その名前とその参照(URL:Uniform Resource Locators)を指定する。次にシステムは、登録されたサイトを指定された時刻に定期的に巡回し、その内容をデータベースに登録されているものと比較する。その内容が異なった場合には、新しいバージョンとして登録し、メタデータを作成する(ステップ102)。このメタデータは、URLで参照される内容から、情報を選ぶ要素を抽出したものである。
【0022】
次に、登録されているサイトの集合中における個々のサイトにおいて、指定された期間の直前のバージョンと、指定された期間のバージョンに出現したキーワードをカウントし、キーワードの集合に重み付けを施して新規な単語(キーワード)を抽出する(ステップ103)。その後、選別されたキーワードの集合を、個々のキーワードが含まれる情報要素集合の包含関係および付与された重みを用いてクラスタリングを行う(ステップ104)。このクラスタリングとは、何らかの観点で意味のある集合で分けていく作業と言える。そして、このクラスタリングの結果から、各クラスタのキーワード集合の主となる代表キーワード(ホットワード)を表示し、情報要素集合を時間順に表示すると共に、補足情報としてのキーワード(サブワード)を用いてクラスタリングの結果を表示する(ステップ105)。この一連の処理によって、サイト間のサポート関係、個人の興味の度合いなどを考慮してより重要な話題を自動的に抽出でき、また、それらを纏めて解かり易く視覚化することが可能となる。その後、このようにして抽出されたクラスタに対して、そのキーワードの重要度に基づいて、個々のサイトがどれくらい話題を提供する能力があるかを示す指標である話題供給能力指標を計算する(ステップ106)。これにより、話題抽出の際に計算された重要度を用いて、話題供給能力の高いサイト、あるいは特定の単語に対してより話題供給能力の高いサイトを提示することができる。
【0023】
次に、システム構成を用いて、本手法を更に詳述する。
図2は、本実施の形態におけるシステムの全体構成を説明するための図である。本システムは、インターネット10に接続されるパーソナルコンピュータ(PC)等にてアプリケーションソフトの処理プログラムとして実行される。また、インターネット10に接続されたユーザのPC端末に情報を提供するサーバとして構成することも可能である。この処理プログラムによる出力は、ユーザのPC端末ではディスプレイに表示される場合の他、サーバである場合にはインターネット10を介してユーザのPC端末に提供するように構成される。尚、本実施の形態では、ユーザのPC端末における処理の流れを中心に説明している。
更に、このシステムを実行する処理プログラムは、ハードディスクドライブ(図示せず)に格納され、実行時にはメインメモリ(図示せず)にロードされてCPU(図示せず)によって処理されるのが一般的である。また、この処理プログラムは、例えばCD−ROM(図示せず)による記憶媒体を介してユーザのPC端末等に供給される場合の他、例えばインターネット10を介してユーザが処理プログラムをダウンロードすることによって提供される形態も考えられる。
【0024】
図2において、符号11はユーザが登録したサイトを保存する登録サイトDB(データベース)、12は前述したメタデータを格納するメタデータDB、13はキーワードの重要度から計算により得られたサイトの重要度を格納するサイト話題供給能力DB、17はユーザが指定した好みのキーワードあるいはサイトの重要度を格納するユーザ指定重み付けDBであり、これらは、例えばPCに設けられたハードディスクドライブ等の記憶手段の一部を利用している。14は登録されたサイトをインターネット10から自動巡回するクローラである。15は登録されたサイトのメタデータを保存、管理するバージョン管理機能付きDBMS(データベースマネージメントシステム)であり、HTML(Hypertext Markup Language)の中から情報要素を抽出し、そのテキスト部分を解析して、それに含まれるキーワードとその分類を保存するメタデータ作成機構20を備えている。16はメタデータDB12中に蓄積されているデータへのアクセス手段を提供するメタデータアクセスメソッドである。また、30は新規情報抽出表示機構であり、メタデータDB12に蓄積された情報を元に、新しい話題を抽出して表示する機構である。
【0025】
登録サイトDB11に登録されるサイトは、前述したようにユーザの好みによって登録されるサイトである。ユーザは、登録する際にその名前とその参照(URL)を指定する。図3は、登録されたサイトの例を示している。図3に示される例では、4つのサイトが登録されており、その登録の形式はXML(eXtensible Markup Language)である。尚、例えば、特定のポータルサイトのディレクトリ・リストをカットアンドペーストして登録する方法がユーザにとっては簡単な操作と言えるであろう。
【0026】
クローラ14では、登録サイトDB11に登録されたサイトを指定された時刻に定期的に巡回する。例えば、毎日午前7時30分に巡回する等である。指定されたサイト全体を同一時刻で巡回してもよいし、個々のサイトに対して異なった時刻を指定することも可能である。バージョン管理機能付きDBMS15は、クローラ14による巡回時に内容が異なっていた場合に新しいバージョンとして管理し、更にメタデータ作成機構20によってそれに対するメタデータを作成して、その結果をメタデータDB12に保存している。このように、サイトの新しいバージョンが作成された場合には、そのメタデータが作成される。このメタデータは、前述したようにURLで参照される内容から情報を運ぶ要素を抽出したものである。それには、リンクとそのテキスト部分、あるいは連続したテキスト部分がある。これら情報要素のテキスト部分に関しては属性抽出が適用され、キーワードとその分類が抽出される。
【0027】
図4は、メタデータ作成機構20の構成を更に詳述したものである。このメタデータ作成機構20は、図4に示されるように、HTMLなどの入力ファイルからメタデータを作成して出力ファイルとして出力している。符号21は情報要素抽出機構であり、HTMLなどの内容を解析して情報要素となるもの(リンク、テキストなど)を抽出している。22は属性抽出機構であり、情報要素抽出機構21により抽出された情報要素のテキストからキーワードを抽出し、それにカテゴリを付与している。この属性抽出機構22は、形態素解析機構23、キーワード抽出機構24、およびキーワード分類機構25を備えている。この形態素解析機構23は情報要素抽出機構21により抽出された情報要素のテキスト部分を単語に分割している。キーワード抽出機構24は形態素解析機構23により分割された結果の単語列からキーワードとなるものだけを抽出している。キーワード分類機構25はキーワード抽出機構24により抽出されたキーワードの分類を付与する機能を備えている。
【0028】
図5は作成されたメタデータの例としてリンクの例を示した図である。また、図6は作成されたメタデータの例としてテキストブロックの例を示している。図5において、リンクの場合におけるHTMLファイル中の表現は、リンク先を示すタグを用いた a タグで示されており、抽出された情報要素は anchor タグによって構成される。また、図6において、テキストブロックの場合におけるHTMLファイル中の表現は、テキスト表現であり、抽出された情報要素は text タグによって構成されている。
以上の処理によって、登録サイトDB11に登録されたサイトにおいて、クローラ14による巡回時に変化があった場合には、その全ての内容と、メタデータ作成機構20によってそこから作成されたメタデータがメタデータDB12に登録される。また、内容に変更のあった日時(ウェブサーバから更新日時が得られる場合にはその日時、得られない場合には巡回した日時など)が、同様にメタデータDB12に保存される。
【0029】
次に、新規情報抽出表示機構30にて新規な単語の抽出とそのクラスタリングが行なわれる。図7は、この新規情報抽出表示機構30における構成を説明するための図である。同図において、符号31はキーワード統計機構であり、メタデータDB12から得られる、指定されたサイトに対するメタデータから、指定された期間内のバージョンに新たに出現した情報要素に含まれるキーワードと、指定された期間の直前のバージョンに含まれる情報要素中に含まれるキーワードとをカウントしている。情報要素が新たに出現したかどうかの判断は、リンクに対しては、異なったURLのリンクが出現したか、あるいは、同じURLがすでに存在していたがその対応するテキストが異なった場合に新しいリンクと判断される。テキストブロックに対しては、異なったテキストが出現したかどうかによって判断される。32はキーワード重要度計算機構であり、抽出されたキーワードに対して重要度を付与している。このキーワード重要度計算機構32では、サイト話題供給能力DB13を参照して、サイトの重要度を加味した重要度の設定を行なうことが可能である。33はクラスタリング機構であり、抽出された重要度付きキーワードを用いてクラスタリングを行なっている。この抽出されたクラスタに対して、後述するようにキーワードの重要度に基づいて重要度を計算して、その結果をサイト話題供給能力DB13に格納している。34はクラスタリング結果表示機構であり、クラスタリングの結果を表示する機能を有する。
【0030】
図8は、指定された期間とバージョンとの関係を示した図である。図7に示したキーワード統計機構31では、登録サイトDB11に登録されているサイト集合中の個々のサイトにおいて、図8に示す指定された期間の直前のバージョンと指定された期間のバージョンとに出現したキーワードがカウントされる。ここでは、指定された開始日時に直前のバージョン(Version N−3)に含まれるカウント(Fs(w))と、その後のバージョン(Version N−2からVersion N)に含まれるカウント(Fn(w))が区別される。キーワード重要度計算機構32では、これらのキーワード集合に重み付けを施すことによって、新規なキーワードであるかどうかの判断が行なわれる。選別する方法は、例えば、単語の重要度やサイトの重要度といった重みを単独あるいは組み合わせて、それが閾値以下のものを排除する方法が考えられる。
【0031】
単語の重要度としては、以下のような検討例が考えられる。
(a) 単純な新出語の割合(Fn(w)/(Fs(w)+ Fn(w)))を考慮する。
(b) 過去のバージョン(Version N−3以前の全てのバージョン)におけるキーワードの情報量を計算し、情報量が低いキーワードは重要度を下げる。これにより、例えば「新製品の発売情報」等における“発売”等、必ず個々の情報に付与されるような単語は、重要度を低くすることができる。
(c) 単語が複数のサイトに含まれるか(複数のサイトからサポートされているか)どうかを考慮する。
(d) ユーザ指定による重み付けを行なう。即ち、ユーザが特に興味のある(或いは興味のない)単語を重要度と共に登録し、それが出現した場合は重要度を高く(低く)する。
指定の方法は、ユーザが明示的に個々のサイトに対して重要度を記述する方法、或いは最終的に表示されたクラスタリングの結果を表示したときに、その対応する情報要素が選択された場合は、その情報要素を含むサイトの重みを高くする方法等が考えられる。
【0032】
サイトの重要度としては、ユーザによる個々のサイトに対する重要視の度合いを基準とする方法がある。例えば、ユーザが特に興味のある(或いは興味のない)サイトを登録し、そのサイトに出現した単語は重要度を高くする(低くする)等である。
指定の方法は、ユーザが明示的に個々のサイトに対して重要度を記述する方法、或いは、最終的に表示されたクラスタリングの結果を表示したときに、その対応する情報要素が選択された場合には、その情報要素を含むサイトの重みを高くする方法がある。
【0033】
次に、選別されたキーワード集合のクラスタリングについて説明する。
図7に示したクラスタリング機構33では、キーワード統計機構31で選別されたキーワード集合を、キーワード重要度計算機構32で付与された重みを用いてクラスタリングが行なわれる。このクラスタリングの手法としてはどのようなものでも構わないが、クラスタリングの前処理として、複数のキーワードが全く同一のキーワード集合を含み、かつ、それらのキーワードが1つに縮退できる場合には、縮退されたものを1つのキーワードとしている。
【0034】
ここで、縮退とは、例えば以下のようなものを含むものである。
− 正書
正書辞書を用いて正書に変換する。
”コンピュータ”, ”コンピューター”などの表記の揺れ → 正書”コンピュータ”に変換する。
− 同義語
同義語辞書を用いて正規表現に変換する。
”米国”, ”アメリカ合衆国” → ”米国”
− 複合語
すべてのテキスト中で複合語として隣接して出現する単語を1つの複合語に変換する。
”小渕”, ”首相” → ”小渕首相”
− 依存構造
すべてのテキスト中で同じ依存関係を持つ語を1つの表現に変換する。ケースマーカ(case marker)が得られる場合はそれも付与する。ケースマーカは、日本語の場合は助詞など、英語の場合は前置詞などが対応する。以下の例ではケースマーカとして助詞“が”が付与されている。
”内閣”, ”総辞職” → ”内閣が総辞職”
【0035】
次に、クラスタリングの一例を説明する。
ここでは、まず最初に選別されたキーワードを重要度順にソートする。そして、個々のキーワードに対して、そのキーワードが含まれる情報要素を割り当てる。その後、包含関係(強い包含関係と弱い包含関係)の決定がなされる。この包含関係を決定する際には、個々のキーワードは必ず重要度の高いキーワードに含まれるということを前提としている。この包含関係の決定では、全てのキーワードについて、それより重要度が高い全てのキーワードに対して包含関係の有無を調べる。包含関係の有無は、キーワードに対応付けられた情報要素を集合として見た場合、その共通する要素の割合が閾値より大きい場合に強い包含関係があるものとする。また、何らかの共通の情報要素はあるがその割合が閾値に満たないものは、弱い包含関係にあるものとする。強い包含関係があるとみなされたキーワードは1つのクラスタに纏められる。弱い包含関係にあるとみなされたキーワードは別のクラスタとなる。ここで、弱い包含関係に含まれる情報要素集合は、より重要度の高いキーワードに対応付けられたクラスタの情報要素集合に含まれるものは除かれている。また、そのキーワードは、より重要度の高いクラスタのキーワード集合に加えられる。
【0036】
図9は、このようなクラスタリングの結果として得られたものの構造の例と、その解釈について示している。図9に示す例では、キーワード1は、キーワード2およびキーワード3と強い包含関係がある。また、キーワード4とキーワードN−1とも強い包含関係がある。また、キーワード4はキーワード3と弱い包含関係にある。クラスタリングの結果により、クラスタ1、クラスタ2およびクラスタmの集合が形成されている。このクラスタ1のキーワード集合としては、強い包含関係のあるキーワード1〜3が纏められ、また、補足として弱い包含関係のあるキーワード4も集合化されている。一方、情報要素集合では、強い包含関係のあるキーワード1〜3に対応する情報要素集合1〜3で集合化されており、情報要素集合4は除かれている。この情報要素集合4はフル状態でテキストが出力されることから、情報量を減らす意味で弱い包含関係にある情報要素集合が除かれている。
【0037】
図10は、クラスタリングが行なわれた具体例を示した図である。ここでは、クラスタ1〜3の3つのクラスタを示しており、それぞれ、キーワード集合と情報要素集合が形成されている。このクラスタ2とクラスタ3は、クラスタ1に対して弱い包含関係にある。
【0038】
次に、クラスタリングの結果の表示について説明する。
図7に示したクラスタリング結果表示機構34は、上述したクラスタリングの結果から、各クラスタのキーワード集合の主となるキーワード(最も重要度の高いキーワード)を、クラスタの代表キーワード(ホットワード)として表示する。更に、そのクラスタに含まれる情報要素集合の中から、情報集合を時間順に表示する。その際、その情報要素のテキスト部分に含まれるキーワードで補足情報をサブワードとして表示する。この補足情報は、そのクラスタのキーワード集合に含まれるキーワードの、単一縮退表現、或いは複数のキーワード或いは縮退表現、が最初に出現した場合に表示する。キーワードおよび縮退表現の表示順序は、テキストに現われた出現順と同じ順序とする。
【0039】
図10で挙げた具体例で説明すると、クラスタ1の表示において、まず最も古い情報要素から表示される。その情報要素
「開発ツール、e−コマース、オペレーティング・システム、データベース、ロータス製品、ネットワーク関連」
には、キーワード集合の中の1つのキーワードである「データベース」しか含まれていないので、サブワードは表示されない。
次の情報要素
「JDBCコンプライアント・リレーショナル・データベース管理システム(DB2, Oracle等)に格納されたリレーショナル・テーブルのセットにより、XMLアクセスサービスLightweight Extractor(XLE)は、データベースよりデータを抽出し、その抽出データをXML文書に変換、アセンブルします。」
には、キーワード集合の中の「データベース」と「DB」が含まれている。ここには複数のキーワードが含まれているので、これらを用いてサブワードが作成される。その表示の順番は、情報要素集合の中におけるテキスト中の順番で表示されることから、「DB,データベース」となる。もしも、テキスト中にこれらのキーワードが連続して出現している場合には、その縮退表現「DBデータベース」(カンマがない)で表示される。このサブワードは記憶され、クラスタ1の表示において「データベース」、「DB」のみが含まれる場合には、再び表示されることはない。
【0040】
次に、そのクラスタと弱い包含関係のあるクラスタがあれば、それを表示する。ホットワードの表示においては、包含関係があることを示すために「段付け」を行なう。サブワードの表示も同様にして行なわれる。
このようにして、全てのクラスタが表示される。弱い包含関係のクラスタと弱い包含関係にあるクラスタのホットワードとは、そのレベルの数だけ「段付け」されて表示される。
【0041】
図11は、これらの一連の処理によって得られた表示例を示した図である。図11に示す表示例では、最も左端にホットワード51が表示され、その隣にサブワード52が表示される。また、日付53から理解できるように、最も古い情報要素から表示されている。また、参照記事54では、情報要素としてテキストブロックとアンダーラインで示されるリンク文章とが表示されている。更に、ホットワードの1段目のキーワード「データベース」に対して包含関係のある「バージョン」と「DB」とは、「段付け」されて1段下げて表示されているのが理解できる。このように、本実施の形態では、クラスタリングされた結果を時系列に表示し、各クラスタの主となるキーワード(ホットワード)に加えて、新しく出現した縮退表現を補足情報(サブワード)として表示し、対応する情報要素を時系列順に表示している。これによって、ユーザに対してより新しく、且つ、ユーザの欲する情報を、整理された状態で提供することが可能となる。
【0042】
最後に、本実施の形態では、話題供給能力指標の計算を行なっている。即ち、このようにして抽出されたクラスタに対して、そのキーワードの重要度に基づいて重要度を計算することができる。この結果得られた重要度は、サイト話題供給能力DB13に対して加算的に蓄積され、更新が行なわれ、サイトの重要度の計算に用いることが可能となる。その際、過去の値を減少させることによってできるだけ最新の状況を反映するようにする。より具体的には、抽出されたクラスタに含まれる単語、情報要素の数、或いはその重みを組み合わせることによって個々のサイトが提供した話題の量を計算し、それを元にサイトの話題供給能力を示す指標として蓄積している。また、クラスタに含まれる単語に関しても、個々のサイトにおける単語別の話題供給能力指標として蓄積する。また、サイトを個々のサイトに付与された話題供給能力指標順に並べる、或いはその数値を表示することによって、サイトがどれくらい新しい情報を提供してきたかをユーザに提示する。更に、個々のサイトに付与された単語毎の話題供給能力指標を用いて、個々のサイトにおける特定の単語に対する情報供給能力指標を提示することも可能である。また更に、個々のサイトに付与された話題供給能力指標付き単語集合に対し、ユーザが指定したキーワードに一致するサイトを表示することによって、ユーザが求めるキーワードに対して話題供給能力の高いサイトを提示することも可能である。
【0043】
このように、本実施の形態によれば、複数の情報源を自由に組み合わせて、そこから話題となっている情報を取り出すことで、単一情報源ではなく情報源の集合内で話題となっている情報を獲得することができる。即ち、複数のサイトを登録し、それを定期的に巡回し、その内容の変化分を調べることによって、より重要な話題を抽出することができる。
また、複数の情報源のサポートを考慮することで単語に対する重みが変わるので、クラスタリングの結果が変わり、サイト集合内でより一般的なクラスタを得ることが可能となる。即ち、単語レベルで他のサイトからのサポートを考慮することにより、より重要な話題を抽出することができる。同様に、単語やサイトに対するユーザの興味の度合いを変えることによって、ユーザの興味に沿ったクラスタリングの結果を得ることができる。
更に、例えば、補足情報を用いて獲得されたテキストをクラスタリングの結果と共に表示することによって、抽出された個々の話題がどのように変化していったかを解かり易く表示することが可能となる。
【0044】
【発明の効果】
以上説明したように、本発明によれば、複数の情報源を自由に組み合わせて、そこから話題となっている情報を解かり易い形で表示することが可能となる。
【図面の簡単な説明】
【図1】本実施の形態における情報抽出/表示手法の概要を示す図である。
【図2】本実施の形態におけるシステムの全体構成を説明するための図である。
【図3】登録されたサイトの例を示した図である。
【図4】メタデータ作成機構20の構成を更に詳述した図である。
【図5】作成されたメタデータの例としてリンクの例を示した図である。
【図6】作成されたメタデータの例としてテキストブロックの例を示した図である。
【図7】新規情報抽出表示機構30における構成を説明するための図である。
【図8】指定された期間とバージョンとの関係を示した図である。
【図9】クラスタリングの結果として得られたものの構造の例とその解釈について示した図である。
【図10】クラスタリングが行なわれた具体例を示した図である。
【図11】これらの一連の処理によって得られた表示例を示した図である。
【符号の説明】
10…インターネット、11…登録サイトDB、12…メタデータDB、13…サイト話題供給能力DB、14…クローラ、15…バージョン管理機能付きDBMS、16…メタデータアクセスメソッド、17…ユーザ指定重み付けDB、20…メタデータ作成機構、21…情報要素抽出機構、22…属性抽出機構、23…形態素解析機構、24…キーワード抽出機構、25…キーワード分類機構、30…新規情報抽出表示機構、31…キーワード統計機構、32…キーワード重要度計算機構、33…クラスタリング機構、34…クラスタリング結果表示機構、51…ホットワード、52…サブワード、53…日付、54…参照記事

Claims (16)

  1. ネットを介して接続された情報源からの情報をコンピュータにより整理する情報整理方法であって、
    前記コンピュータが、登録された複数の情報源を定期的に巡回して情報を収集する情報収集ステップと、
    前記コンピュータが、収集された前記情報の内容が前回巡回時と異なっていた場合に当該情報に含まれる情報要素を日時情報と共に記憶する記憶ステップと、
    前記コンピュータが、前記日時情報に基づいて、指定された期間の直前に収集された前記情報中の前記情報要素に含まれるキーワードをカウントして第1のカウント値を求めると共に、当該期間内に収集された前記情報において新たに出現した又は変更された前記情報要素に含まれるキーワードをカウントして第2のカウント値を求めるカウントステップと、
    前記コンピュータが、前記第1のカウント値と前記第2のカウント値とからキーワードの重要度を計算し、当該重要度に基づいて新規キーワードを選別する選別ステップと、
    前記コンピュータが、選別された前記新規キーワードに、当該新規キーワードを含む情報要素を割り当て、一の新規キーワードと、当該一の新規キーワードより重要度の高い任意の新規キーワードとの包含関係の有無を、当該一の新規キーワードに割り当てられた情報要素と当該任意の新規キーワードに割り当てられた情報要素との共通する割合に基づいて決定し、包含関係がある場合に当該一の新規キーワードと当該任意の新規キーワードとを1つのクラスタに纏めるようなクラスタリングを施すクラスタリングステップと、
    前記コンピュータが、施された前記クラスタリングの結果に基づいて、各クラスタに含まれる新規キーワードのうちの主となるキーワードを当該各クラスタの代表キーワードとして表示すると共に、当該キーワードに割り当てられた情報要素を時間軸に基づいて表示する表示ステップとを含むことを特徴とする情報整理方法。
  2. 前記表示ステップは、前記各クラスタに含まれる1つの新規キーワードを縮退して得られる縮退表現、複数の新規キーワード、複数の新規キーワードを縮退して得られる縮退表現のいずれかを補足情報として表示することを特徴とする請求項1記載の情報整理方法。
  3. 前記選別ステップは、前記複数の情報源のうちの2以上の情報源に含まれるキーワードに対して重要度を増してキーワードを選別することを特徴とする請求項1記載の情報整理方法。
  4. コンピュータが、
    情報を入手すべき情報源とユーザが興味のあるキーワードとのユーザによる登録を受け付け、
    登録された前記情報源に対して定期的に巡回して当該情報源に含まれる前記情報を入手し、
    入手された前記情報の内容が前回巡回時と異なっていた場合に、当該情報に含まれる情報要素を日時情報と共に記憶し、
    前記日時情報に基づいて、指定された期間の直前に収集された前記情報中の前記情報要素に含まれるキーワードをカウントして第1のカウント値を求めると共に、当該期間内に入手された前記情報において新たに出現した又は変更された前記情報要素に含まれるキーワードをカウントして第2のカウント値を求め、
    前記第1のカウント値と前記第2のカウント値とからキーワードの重要度を計算し、当該重要度に基づいて抽出されるキーワードのうち、ユーザの興味があるキーワードとして登録されたものを、新規キーワードとして選別し、
    選別された前記新規キーワードに、当該新規キーワードを含む情報要素を割り当て、一の新規キーワードと、当該一の新規キーワードより重要度の高い任意の新規キーワードとの包含関係の有無を、当該一の新規キーワードに割り当てられた情報要素と当該任意の新規キーワードに割り当てられた情報要素との共通する割合に基づいて決定し、包含関係がある場合に当該一の新規キーワードと当該任意の新規キーワードとを1つのクラスタに纏 めるようなクラスタリングを施し、
    クラスタリングの結果を、各キーワードに割り当てられた情報要素と共に表示することを特徴とする情報整理方法。
  5. 前記コンピュータが、
    ユーザによる個々の情報源に対する興味の度合いを判断し、
    判断された興味の度合いの高い情報源に出現したキーワードに対して重要度を増してキーワードを選別することを特徴とする請求項4記載の情報整理方法。
  6. コンピュータが、
    情報を入手すべき複数のサイトを登録し、
    登録された前記複数のサイトを定期的に巡回して当該複数のサイトから前記情報を収集し、
    収集された前記情報の内容が前回巡回時と異なっていた場合に、当該情報に含まれる情報要素を日時情報と共に記憶し、
    前記日時情報に基づいて、指定された期間の直前に収集された前記情報中の前記情報要素に含まれるキーワードをカウントして第1のカウント値を求めると共に、当該期間内に収集された前記情報において新たに出現した又は変更された前記情報要素に含まれるキーワードをカウントして第2のカウント値を求め、
    前記第1のカウント値と前記第2のカウント値からキーワードの重要度を計算し、当該重要度に基づいて抽出されるキーワードのうち、前記複数のサイトのうちの2以上のサイトに含まれるキーワードを、新規キーワードとして抽出し、
    抽出された前記新規キーワードに、当該新規キーワードを含む情報要素を割り当て、一の新規キーワードと、当該一の新規キーワードより重要度の高い任意の新規キーワードとの包含関係の有無を、当該一の新規キーワードに割り当てられた情報要素と当該任意の新規キーワードに割り当てられた情報要素との共通する割合に基づいて決定し、包含関係がある場合に当該一の新規キーワードと当該任意の新規キーワードとを1つのクラスタに纏めるようなクラスタリングを行い、
    各クラスタに含まれるキーワードに割り当てられた情報要素をクラスタリングの結果と共に表示することを特徴とする情報整理方法。
  7. 前記コンピュータが、
    抽出された前記新規キーワードの重要度に基づいて個々のサイトが提供した話題の量を計算し、
    計算された話題の量に基づいて前記サイトの話題供給能力を示す指標を蓄積することを特徴とする請求項6記載の情報整理方法。
  8. 巡回すべき複数のサイトを指定する指定手段と、
    前記指定手段により指定された前記複数のサイトを記憶する記憶手段と、
    前記記憶手段に記憶された前記複数のサイトを定期的に巡回して情報を収集する情報収集手段と、
    前記情報収集手段によって収集された情報の内容が前回巡回時と異なっていた場合に、当該情報の中から情報要素を抽出して日時情報と共に記憶する情報要素抽出手段と、
    前記日時情報に基づいて、指定された期間の直前に収集された前記情報中の前記情報要素に含まれるキーワードをカウントして第1のカウント値を求めると共に、当該期間内に収集された前記情報において新たに出現した又は変更された前記情報要素に含まれるキーワードをカウントして第2のカウント値を求めるキーワード統計手段と、
    前記キーワード統計手段により求められた前記第1のカウント値と前記第2のカウント値とから重要度を計算し、当該重要度に基づいて新規キーワードを抽出する抽出手段と、
    前記抽出手段により抽出された前記新規キーワードに、当該新規キーワードを含む情報要素を割り当て、一の新規キーワードと、当該一の新規キーワードより重要度の高い任意の新規キーワードとの包含関係の有無を、当該一の新規キーワードに割り当てられた情報要素と当該任意の新規キーワードに割り当てられた情報要素との共通する割合に基づいて決定し、包含関係がある場合に当該一の新規キーワードと当該任意の新規キーワードとを 1つのクラスタに纏めるようなクラスタリングを施すクラスタリング手段と、
    前記クラスタリング手段によって施されたクラスタリングの結果に基づいて、各クラスタに含まれる新規キーワードおよび当該新規キーワードに割り当てられた情報要素を出力する出力手段とを含むことを特徴とする情報処理装置。
  9. 前記出力手段は、前記各クラスタに含まれる新規キーワードのうちの主となるキーワードを当該各クラスタの代表キーワードとして表示すると共に、当該キーワードに割り当てられた情報要素を時系列順に出力し、当該各クラスタに含まれる1つの新規キーワードを縮退して得られる縮退表現、複数の新規キーワード、複数の新規キーワードを縮退して得られる縮退表現のいずれかを補足情報として出力することを特徴とする請求項8記載の情報処理装置。
  10. 前記出力手段は、表示装置に対してまたはネットを介して接続された端末に対して出力することを特徴とする請求項8記載の情報処理装置。
  11. 情報を入手すべき情報源とユーザが興味のあるキーワードとのユーザによる登録を受け付ける登録受付手段と、
    前記登録受付手段により受け付けられた前記情報源に対して定期的に巡回して前記情報を入手する巡回手段と、
    前記巡回手段により入手された前記情報の内容が前回巡回時と異なっていた場合に、当該情報の中から情報要素を抽出して日時情報と共に記憶する情報要素抽出手段と、
    前記日時情報に基づいて、指定された期間の直前に収集された前記情報中の前記情報要素に含まれるキーワードをカウントして第1のカウント値を求めると共に、当該期間内に入手された前記情報において新たに出現した又は変更された前記情報要素に含まれるキーワードをカウントして第2のカウント値を求めるキーワード統計手段と、
    前記キーワード統計手段により求められた前記第1のカウント値と前記第2のカウント値とから重要度を計算し、当該重要度に基づいて抽出されるキーワードのうち、ユーザが興味のあるキーワードとして登録されたものを、新規キーワードとして選別する選別手段と、
    前記選別手段により選別された前記新規キーワードに、当該新規キーワードを含む情報要素を割り当て、一の新規キーワードと、当該一の新規キーワードより重要度の高い任意の新規キーワードとの包含関係の有無を、当該一の新規キーワードに割り当てられた情報要素と当該任意の新規キーワードに割り当てられた情報要素との共通する割合に基づいて決定し、包含関係がある場合に当該一の新規キーワードと当該任意の新規キーワードとを1つのクラスタに纏めるようなクラスタリングを施すクラスタリング手段と、
    前記クラスタリング手段によりクラスタリングが施された前記新規キーワードを、当該新規キーワードに割り当てられた情報要素と共に表示する表示手段とを備えたことを特徴とする情報処理装置。
  12. 特定の情報源の重要度を、ユーザの指示があった場合、または、当該特定の情報源に含まれる情報要素を過去にユーザが選択した場合に、高く設定する設定手段とを備え、
    前記選別手段は、前記設定手段によって重要度が高く設定された情報源に出現したキーワードに対して重要度を増してキーワードを選別することを特徴とする請求項11記載の情報処理装置。
  13. コンピュータに実行させるプログラムを当該コンピュータの入力手段が読取可能に記憶した記憶媒体において、
    前記プログラムは、
    登録された複数の情報源を定期的に巡回して情報を収集する処理と、収集された前記情報の内容が前回巡回時と異なっていた場合に、当該情報の中から情報要素を抽出して日時情報と共に記憶する処理と、前記日時情報に基づいて、指定された期間の直前に収集された前記情報中の前記情報要素に含まれるキーワードをカウントして第1のカウント値を求めると共に、当該期間内に収集された前記情報において新たに出現した又は変更された前記情報要素に含まれるキーワードをカウントして第2のカウント値を求める処理と、前記 第1のカウント値と前記第2のカウント値とから重要度を計算し、当該重要度に基づいて新規キーワードを選別する処理と、選別された前記新規キーワードに、当該新規キーワードを含む情報要素を割り当て、一の新規キーワードと、当該一の新規キーワードより重要度の高い任意の新規キーワードとの包含関係の有無を、当該一の新規キーワードに割り当てられた情報要素と当該任意の新規キーワードに割り当てられた情報要素との共通する割合に基づいて決定し、包含関係がある場合に当該一の新規キーワードと当該任意の新規キーワードとを1つのクラスタに纏めるようなクラスタリングを施す処理と、施された前記クラスタリングの結果に基づいて、各クラスタに含まれる新規キーワードのうちの所定のキーワードを表示すると共に、当該キーワードに割り当てられた情報要素を時間軸に基づいて表示する処理とを前記コンピュータに実行させることを特徴とする記憶媒体。
  14. 前記プログラムは、前記各クラスタに含まれる新規キーワードのうちの主となるキーワードを当該各クラスタの代表キーワードとして表示すると共に、当該各クラスタに含まれる1つの新規キーワードを縮退して得られる縮退表現、複数の新規キーワード、複数のキーワードを縮退して得られる縮退表現のいずれかを補足情報として表示する処理を前記コンピュータに更に実現させることを特徴とする請求項13記載の記憶媒体。
  15. コンピュータに実行させるプログラムを当該コンピュータの入力手段が読取可能に記憶した記憶媒体において、
    前記プログラムは、
    情報を入手すべき複数のサイトを登録する処理と、登録された前記複数のサイトを定期的に巡回して当該複数のサイトから前記情報を収集する処理と、収集された前記情報の内容が前回巡回時と異なっていた場合に、当該情報に含まれる情報要素を日時情報と共に記憶する処理と、前記日時情報に基づいて、指定された期間の直前に収集された前記情報中の前記情報要素に含まれるキーワードをカウントして第1のカウント値を求めると共に、当該期間内に収集された前記情報において新たに出現した又は変更された前記情報要素に含まれるキーワードをカウントして第2のカウント値を求める処理と、前記第1のカウント値と前記第2のカウント値とからキーワードの重要度を計算し、当該重要度に基づいて新規キーワードを抽出する処理と、抽出された前記新規キーワードに、当該新規キーワードを含む情報要素を割り当て、一の新規キーワードと、当該一の新規キーワードより重要度の高い任意の新規キーワードとの包含関係の有無を、当該一の新規キーワードに割り当てられた情報要素と当該任意の新規キーワードに割り当てられた情報要素との共通する割合に基づいて決定し、包含関係がある場合に当該一の新規キーワードと当該任意の新規キーワードとを1つのクラスタに纏めるようなクラスタリングを施す処理とを前記コンピュータに実行させることを特徴とする記憶媒体。
  16. コンピュータに実行させるプログラムを記憶する記憶手段と、当該記憶手段に記憶された当該プログラムを送信する送信手段とを備えたプログラム伝送装置であって、
    前記記憶手段に格納される前記プログラムは、登録された複数の情報源を定期的に巡回して情報を収集する処理と、収集された前記情報の内容が前回巡回時と異なっていた場合に、当該情報の中から情報要素を抽出して日時情報と共に記憶する処理と、前記日時情報に基づいて、指定された期間の直前に収集された前記情報中の前記情報要素に含まれるキーワードをカウントして第1のカウント値を求めると共に、当該期間内に収集された前記情報において新たに出現した又は変更された前記情報要素に含まれるキーワードをカウントして第2のカウント値を求める処理と、前記第1のカウント値と前記第2のカウント値とからキーワードの重要度を計算し、当該重要度に基づいて新規キーワードを選別する処理と、選別された前記新規キーワードに、当該新規キーワードを含む情報要素を割り当て、一の新規キーワードと、当該一の新規キーワードより重要度の高い任意の新規キーワードとの包含関係の有無を、当該一の新規キーワードに割り当てられた情報要素と当該任意の新規キーワードに割り当てられた情報要素との共通する割合に基づいて決定し、包含関係がある場合に当該一の新規キーワードと当該任意の新規キーワードとを1つのクラスタ に纏めるようなクラスタリングを施す処理と、施された前記クラスタリングの結果に基づいて、各クラスタに含まれる新規キーワードのうちの所定のキーワードを表示すると共に、当該キーワードに割り当てられた情報要素を時間軸に基づいて表示する処理とを前記コンピュータに実行させ、前記送信手段によって送信可能に構成されることを特徴とするプログラム伝送装置。
JP2000144016A 2000-05-16 2000-05-16 情報整理方法、情報処理装置、記憶媒体、およびプログラム伝送装置 Expired - Fee Related JP3606556B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000144016A JP3606556B2 (ja) 2000-05-16 2000-05-16 情報整理方法、情報処理装置、記憶媒体、およびプログラム伝送装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000144016A JP3606556B2 (ja) 2000-05-16 2000-05-16 情報整理方法、情報処理装置、記憶媒体、およびプログラム伝送装置

Publications (2)

Publication Number Publication Date
JP2001325272A JP2001325272A (ja) 2001-11-22
JP3606556B2 true JP3606556B2 (ja) 2005-01-05

Family

ID=18650747

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000144016A Expired - Fee Related JP3606556B2 (ja) 2000-05-16 2000-05-16 情報整理方法、情報処理装置、記憶媒体、およびプログラム伝送装置

Country Status (1)

Country Link
JP (1) JP3606556B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4489994B2 (ja) * 2001-05-11 2010-06-23 富士通株式会社 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
US7353218B2 (en) * 2003-08-14 2008-04-01 International Business Machines Corporation Methods and apparatus for clustering evolving data streams through online and offline components
JP2005122683A (ja) * 2003-09-22 2005-05-12 Nippon Telegr & Teleph Corp <Ntt> 情報提供方法及びシステム及び情報提供プログラム
JP2009526281A (ja) * 2006-01-24 2009-07-16 ゲーミング・ソリューションズ・インターナショナル・リミテッド・ライアビリティ・カンパニー データマイニングおよびデータのインタラクティブな提示のためのシステムおよび方法
JP5187635B2 (ja) 2006-12-11 2013-04-24 日本電気株式会社 能動学習システム、能動学習方法、及び能動学習用プログラム
JP4342575B2 (ja) 2007-06-25 2009-10-14 株式会社東芝 キーワード提示のための装置、方法、及びプログラム
JP2009043125A (ja) * 2007-08-10 2009-02-26 Kddi Corp ユーザ分類装置、広告配信装置、ユーザ分類方法、広告配信方法およびプログラム
KR100953491B1 (ko) * 2007-09-06 2010-04-16 엔에이치엔(주) 최신정보 제공 방법 및 시스템
US20090209286A1 (en) * 2008-02-19 2009-08-20 Motorola, Inc. Aggregated view of local and remote social information
JP4587236B2 (ja) * 2008-08-26 2010-11-24 Necビッグローブ株式会社 情報検索装置、情報検索方法、およびプログラム
JP4640554B2 (ja) * 2008-08-26 2011-03-02 Necビッグローブ株式会社 サーバ装置、情報処理方法およびプログラム
JP5215816B2 (ja) * 2008-11-11 2013-06-19 ヤフー株式会社 広告提供装置
JP2015018289A (ja) * 2011-09-26 2015-01-29 日本電気株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP6375592B2 (ja) * 2013-03-12 2018-08-22 株式会社リコー 情報処理装置及び情報処理方法並びにプログラム
JP6208105B2 (ja) * 2014-09-18 2017-10-04 株式会社東芝 タグ付与装置、方法、及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175530A (ja) * 1997-12-08 1999-07-02 Nippon Telegr & Teleph Corp <Ntt> 情報潮流提示方法および装置ならび情報潮流提示プログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2001325272A (ja) 2001-11-22

Similar Documents

Publication Publication Date Title
JP4489994B2 (ja) 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
US6457028B1 (en) Method and apparatus for finding related collections of linked documents using co-citation analysis
Schwartz Web search engines
KR101063364B1 (ko) 웹 크롤링 프로세스 동안 웹 사이트에 우선순위를 부여하기위한 시스템 및 방법
US6389412B1 (en) Method and system for constructing integrated metadata
US7836083B2 (en) Intelligent search and retrieval system and method
KR100567005B1 (ko) 계층 복합 문서로부터의 정보 검색
US6038574A (en) Method and apparatus for clustering a collection of linked documents using co-citation analysis
Adar et al. The web changes everything: understanding the dynamics of web content
JP3606556B2 (ja) 情報整理方法、情報処理装置、記憶媒体、およびプログラム伝送装置
US6286018B1 (en) Method and apparatus for finding a set of documents relevant to a focus set using citation analysis and spreading activation techniques
JP2008071372A (ja) データベースのデータを検索するための方法と装置
US20040015485A1 (en) Method and apparatus for improved internet searching
CN108520007B (zh) 万维网网页信息提取方法、存储介质及计算机设备
KR20070089898A (ko) 사용자 피드백을 이용하여 검색된 컨텐츠를 평가하고 평가결과를 이용하여 검색 결과를 제공하는 방법 및 장치
JP2007219929A (ja) 感性評価システム及び方法
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
JP2003173352A (ja) 検索ログ解析方法および装置、文書情報検索方法および装置、検索ログ解析プログラム、文書情報検索プログラム、および記録媒体
KR100616152B1 (ko) 인터넷상에서 기사를 자동분류하여 타 웹사이트에 자동송출하는 제어방법
Nazemi et al. Comparison of full-text articles and abstracts for visual trend analytics through natural language processing
US20020169872A1 (en) Method for arranging information, information processing apparatus, storage media and program tranmission apparatus
JP2004030202A (ja) 特徴語抽出システム
JP2006277061A (ja) 知識検索システム、知識検索方法及びプログラム
JP2002073639A (ja) ナレッジマネジメントシステム
JP2000105769A (ja) 文書表示方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040914

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20040916

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041004

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071015

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081015

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees