JP2001513242A

JP2001513242A - テキスト処理及び検索システム及び方法

Info

Publication number: JP2001513242A
Application number: JP53770498A
Authority: JP
Inventors: クロードヴォジェ
Original assignee: セミオコーポレイション
Priority date: 1997-02-18
Filing date: 1998-02-18
Publication date: 2001-08-28
Anticipated expiration: 2018-02-18
Also published as: EP0960376B1; HK1024076A1; DE69834386T2; CA2281645A1; JP4241934B2; EP0960376A2; CA2281645C; EP0960376A4; DE69834386D1; WO1998038560A2; US5963965A; WO1998038560A3; ATE325387T1; AU6327898A

Abstract

(57)【要約】検索をテキスト処理するための内容ベースシステムおよび方法が提供され、これにおいては、テキストの複数の片が各片に対する索引を発生するため内容に基づいて処理される。その索引は、テキストの片の内容を表すフレーズのリストを備える。それらのフレーズは、それらフレーズの関係の度合に基づいてクラスタを発生するためグループ分けされる。また、複数のマップを備える階層構造が発生される。各マップは、関係の所定の度合に対応しており、関係の所定の度合でのクラスタを図形的に表現し、また、各々が１つのクラスタを表す複数のノードおよび関連するノードを接続する複数のリンクを備える。マップは、ユーザに対して表示され、ユーザは、そのマップ上の特定のクラスタを選択し、ユーザによって選択されたクラスタに基づいてテキストの片からテキストの一部分が抽出される。本システムは、マップに基づいて、それらマップによって示された関係における変化を指示するシナリオをも発生しうる。

Description

【発明の詳細な説明】テキスト処理及び検索システム及び方法発明の背景本発明は、一般的にはテキストを処理し、検索するためのシステム及び方法に関し、特定的には大量のテキストを処理し、そのテキストの可視ディスプレイを生成してユーザが迅速に探索できるようにするシステム及び方法に関する。記憶容量の劇的な増加及びコンピュータハードドライブの費用の減少、及びコンピュータ通信の伝送速度及びコンピュータの処理速度の増加、及び会報ボードまたはインターネットのようなコンピュータ通信ネットワークの拡大は、全て、コンピュータデータベースを使用するテクスチャル（textual）データ情報の大規模な記憶及び検索に貢献してきた。また現在、人々はこれらのデータベースを通して大量のテクスチャルデータへアクセスしている。この技術は、テクスチャルデータを記憶し、それへアクセスすることを容易にするが、使用可能になった大量なテクスチャルデータによって創り出された新たな問題が存在している。詳しく説明すると、大量のデータを有するコンピュータデータベース内のテクスチャルデータへアクセスすることを試みる人は、無関係な情報を検索せずに、所望の情報を迅速且つ効率的に検索するために、データを解析するためのシステムを必要とする。多くの典型的なテキスト探索及び検索システムは「トップダウン」システムであり、このシステムにおいては、ユーザは探索要求をフォーミュレートするが、実際のテクスチャルデータへのアクセスは有していないので、所望のデータを入手するためにはユーザが適切な要求で推測しなければならない。テクスチャルデータを検索する従来の１つの「トップダウン」システムは、キーワード探索システムである。キーワード探索システムにおいては、ユーザが１つまたはそれ以上のキーワードを使用して「照会」として知られる探索要求を作ると、そのキーワードを使用してデータベースの探索が遂行される。もしユーザが所望のデータベースを検索する正確なキーワードを知っていれば、そのキーワード検索は有用な結果をもたらすことができる。しかしながら、殆どのユーザは所望のデータを発生する正確なキーワード、またはキーワードの組合せを知っていない。更に、たとえ特定的に焦点を合わせたキーワードが所望のデータを検索できるとしても、それらは偶然にその、またはそれらのキーワードを含む大量の無関係なデータを検索するかも知れない。そのため、ユーザは所望のデータを見出すために全ての無関係データを通してシフトしなければならなくなり、これは時間を消費するプロセスであり得る。更に、コンピュータデータベース内の探索可能なデータの量が増加するにつれて、このシフティングプロセスはより時間を消費するようになる。これらの従来のキーワードをベースとする検索システムは、人の言語に固有の特性に関する別の問題をも有している。詳しく説明すれば、ユーザが選択したキーワードはテキスト内のワードと一致しないかも知れず、または２つの理由から無関係な情報を検索してしまうかも知れない。第１に、キーワードの選択はその人のニーズ、知識、または言語に依存するので、人が違えば同じオブジェクトを記述するのに異なるキーワードを選択することになろう。例えば、１人の人はある特定のオブジェクトを「バンク（銀行）」と呼び、別の人は同じオブジェクトを「預金及び融資」と呼ぶかも知れない。従って、「バンク」を探索するキーワードは、たとえあるアーティクルがデータの関連片であり得るとしても、預金及び融資を使用するより洗練されたユーザによるそのアーティクルの検索はなされないであろう。第２に、同じワードが１つより多くの別個の意味を有することができる。即ち、異なる文脈に使用される、または異なる人が使用した場合の同一のワードが異なる意味を有し得る。例えば、貯蓄銀行に関するアーティクルだけを望んでいるのに、キーワード「バンク」は、川岸または貯蓄銀行についてのテキストを検索し得る。従って、テキストの片が関連キーワードの全てを含んでいても、完全に無関係であることがあり得る。上述したようなキーワードをベースとするテキスト解析及び検索システムは、トップダウンテキスト検索システムである。トップダウンテキスト検索システムにおいては、キーワード探索を行うユーザは、彼が探している情報を知っているものとしており、それによりユーザは所望の情報を探知するためにデータベースに照会することができる。しかしながら、トップダウンシステムにおいては、ユーザは実際のテクスチャルデータへのアクセスを有しておらず、所望のテクスチャルデータを検索する適切なキーワードの選択を行うためにテキスト内のワードをサンプルすることはできない。他のトップダウンテキスト検索システムは、フレーズをベースとする探索を行うことによって、キーワードテキスト検索システムの欠点の若干を補正することを試みている。これらは完全に無関係なテキスト片を検索する恐れは無いように思えるが、所望のテキスト内に正確なフレーズが存在しないかも知れないので、所望のテキストを見失う可能性が高くなり得る。これらの全てのテキスト検索システムは、テクスチャルデータの片を検索するためにキーワードを使用し、そのテクスチャルデータの内容をベースとする索引を生成しないトップダウンテキスト検索システムである。これらのシステムは何れも、ユーザが実際のテクスチャルデータの構造化バージョンを見ることがないボトムアップアプローチを使用していない。テクスチャルデータの構造化バージョンは、テクスチャルデータの内容及び／または文脈の指示を与えるテクスチャルデータから抽出されたワード及びフレーズを有しているので、ユーザは使用可能なテクスチャルデータの内容及び文脈をベースとするビューを有することができ、内容をベースとするフレーズまたはワードに基づいてテクスチャルデータの探索を遂行することができる。内容をベースとするフレーズは多数のフレーズを迅速に審査する容易な手法を提供するので、構造化された内容をベースとするフレーズによってユーザは大量のデータを通って容易に移動（ナビゲート）することができる。以上のように、既知のシステム及び方法のこれらの、及び他の問題を回避する改善されたテキスト検索システム及び方法に対するニーズが存在しており、本発明はこの目的を指向しているのである。発明の概要本発明は、内容をベースとするテキストの図形的なロードマップをユーザに提供し、それによりユーザが所望のデータを決定するために実際のテクスチャルデータのフレーズを見ることができるように、効率的なマッピングプロセスを使用して全てのテキストを処理するボトムアップアプローチを使用するテキスト解析及び検索システムを提供する。また本システムは、内容をベースとするマップを走査することができ、テクスチャルデータの変化に関する情報を生成する。詳しく説明すると、マッピングプロセス中に、本発明はテクスチャルデータからワードまたはフレーズを抽出し、それらをワードクラスタとしてクラスタ化し、これらのワードクラスタを組合せて内容をベースとする図形マップを形成することができる。図形的に表示されるこれらのマップによって、ユーザは、キーワード探索を行わずに実際のテクスチャルデータを通って迅速に移動し、関連情報を探知することができる。走査プロセスは、時間に関して複数のマップ及びワードのクラスタを記号論的に処理し、マップ及びクラスタの変化を指示するシナリオを発生する。このボトムアップアプローチを用いると、ユーザはテクスチャルデータ内の実際のワード及びフレーズを見るので、ユーザはテクスチャルデータ内で使用されるキーワードを推定する必要はない。内容をベースとするロードマップを生成するために、テクスチャルデータの各片をパーズすることができ、テクスチャルデータ内のワードまたはフレーズを抽出することができる。殆どの典型的な情報テクスチャルデータでは、テクスチャルデータの内容は、テクスチャルデータ内に含まれる１つより多くのワード（即ち、フレーズ）のグループを審査することによって最も容易に決定することができる。フレーズは、２ワードであるか、または６ワード程度まで多いことができる。これらのフレーズはテクスチャルデータの片の内容に関する殆どの情報を提供し、ユーザはテクスチャルデータのその片が適切であるのか否かを決定することができる。本発明は、どのような内容をも失うことなく、テクスチャルデータの各片を要約するために、テクスチャルデータの各片を処理する際にフレーズを利用する。本発明は、より特定のテクスチャルデータ情報を含んでいる他のマップへのリンクをユーザが選択できるように、全体的なマップをユーザに表示できるシステム及び方法を更に提供する。即ち、システムは、異なるマップを生成することができ、各マップは異なる程度の特異性を有することができ、そしてテクスチャルデータの異なるサブセットを表すために使用できることからスケール可能である。ユーザは、所望のデータに依存して、多くの異なる程度の特異性でテクスチャルデータを探索することができる。またシステムは、テクスチャルデータのその片が適切であるか否かをユーザが迅速に決定できるように、ユーザが選択したワードクラスタを有するテクスチャルデータの抄本を表示可能にする。本発明によれば、テクスチャルデータを処理し、検索するためのシステム及び方法が提供され、本システム及び方法においては、テキストの複数の片を内容に基づいて処理し、テキストの各片毎にテキストの片の内容を表すフレーズのリストからなる索引を生成し、フレーズをグループ化してフレーズの関係の程度に基づいてクラスタを生成し、そして複数のマップからなる階層構造を生成する。各マップは所定の関係の程度に対応し、マップはこの所定の関係の程度におけるクラスタを図形的に描くものであって各々がクラスタを表す複数のノードからなり、関連し合うノードを複数のリンクが接続している。マップがユーザに対して表示され、ユーザがマップ上の特定のクラスタを選択すると、ユーザが選択したクラスタに基づいてテキストの一部が上記テキストの片から抽出される。本発明によれば、内容をベースとするテキスト処理及び検索システム及び方法が提供される。本システム及び方法は、テキストの複数の片を内容に基づいで処理し、テキストの各片毎にテキストの片の内容を表すフレーズのリストからなる索引を生成し、フレーズをグループ化してフレーズ間の関係の所定の程度に基づいてクラスタを生成し、そして複数のマップからなる階層構造を生成する。各マップは所定の関係の程度に対応し、マップはこの所定の関係の程度におけるクラスタを図形的に描くものであって各々がクラスタを表す複数のノードからなり、関連し合うノードを複数のリンクが接続している。上記テキストの複数の片から記号論的データ構造を生成させることができ、この記号論的データ構造はテキストの上記の片の内容を指示するフレーズのリストからなる。上記記号論的データ構造内の各フレーズにはその内容によってワードを分類するタグが組合されている。複数のマップは記号論的データ構造に基づいて互いに比較することができ、上記マップによって図形的に描かれた関係の変化を指示するシナリオが生成される。図面の簡単な説明図１は、従来のトップダウンテキスト検索システムの概要図である。図２は、本発明による総合的なボトムアップ文脈及び内容をベースとするテキスト処理及び検索システムの概要図である。図３は、図２のボトムアップ文脈及び内容をベースとするテキスト処理及び検索システムの一部の概要図である。図４は、本発明によるテキスト処理及び検索システムに使用することができるコンピュータクライアント・サーバを示す図である。図５は、本発明によるテキスト処理及び検索システムの概要図である。図６Ａは、本発明によるテクスチャルデータを処理し、検索するための総合的な方法の流れ図である。図６Ｂは、本発明によるシナリオを生成するための方法の流れ図である。図７は、本発明によるテキストの片と記号論的データ構造との比較から生成されたマップを示す図である。図８は、図６Ａに示す総合的な方法の一部である本発明によるテクスチャルデータを処理するための方法の流れ図である。図９は、本発明による辞典を生成するための方法の流れ図である。図１０は、本発明による辞書を生成するための方法の流れ図である。図１１は、本発明によるクラスタ及びマップを生成するための方法の流れ図である。図１２は、２つのサンプルテキスト片から作成されたマップの例の概要図である。図１３は、図６Ａに示す総合的な方法の一部である本発明によるテクスチャルデータを検索するための方法の流れ図である。図１４は、本発明によるメタマップ及び幾つかのサブマップの図である。図１５は、テクスチャルデータのサンプル片のためのメタマップの例である。図１６は、図１５のテクスチャルデータのサンプル片のためのサブマップの例である。図１７は、ユーザが図１６に示すサブマップから種々のクラスタを選択することを示す図である。図１８は、図１７に示すユーザ選択に基づいてテクスチャルデータのサンプル片から抽出されたテキスト抄録を示す図である。好ましい実施例の詳細な説明本発明は、特にクライアント−サーバーネットワーク環境におけるテキストデータの処理及び検索システムに好適である。本発明はこのような文脈にしたがって説明される。しかし、本発明に従うシステムと方法は、利用性が高いことを理解されたい。図１は、従来のトップダウンテキスト検索システム３０の概略図である。トップダウンシステムは、テスキトデータの複数の片を含むテキストデータベース３２を有する。テキストデータベースからのデータを検索しようとするユーザは所望の情報について思考し、そのデータベースからその情報を得るのに助けとなる質問を考える。特に、ユーザーは、所望の情報を特徴づける質問の”最良”の推考であるような、論理演算子によっておそらく接続された１つ以上のキーワードを有するキーワード質問３６を発生する。そのキーワード質問はつぎに、データベースに送られ、その質問に基づいて、データベースは関連するあるいは関連しないテキストデータを含むキーワードを含むテスキトデータ応答３８を返信する。このシステムはキーワード質問を発生する前には、データベース内で実際のテキストデータをユーザーがプレビューすることが許されないので、サーチの成功割合は低いものと考えられる。さらに、データベースから戻されたテキストデータは、ユーザーがフィルターをかけねばらならい、ドキュメントとして知られる多くの関係のないテキストデータを含む可能性がある。したがって、このシステムは極めて非効率で、時間浪費的である。これらの問題を回避する本発明に従うボトム−アップテキスト処理及び検索システムをここに説明する。図２は、本発明に従うボトム−アップ文脈及び内容ベーステキスト処理及び検索システム２４の概略図である。このシステムは、図３及び図６Ａを参照しで記載されるマッピングサブ−システム２５及び、図６Ｂを参照して記載されているスキャンニングサブ−システム２６を備えている。このマッピングシステムは、ユーザーのシステムがテキストの片を検索するために実際のテキストの構築されたバージョンを見ることができるようになっている。スキャンニングサブ−システムはマップとして知られる、マッピング部分によって発生する実際のテキストの構築されたバージョン及び当該マップ内で発生するを活用することができるリトリーブ”ストーリー”の変化を発生するために異なる時間で複数のマップを ”スキャン”することができるようになっている。例えば、会社の役員会に関連して記載された人が変わった場合には、スキャンニング部分はその変更をハイライトるすることができる。このシステムのユーザーはマッピング部分あるいはスキャンニング部分を別々にあるは組合せた形態として利用することができる。マッピングサブ−システム２４は、複数のロケーションからテキスト２７を収集することができる。エキストラクタ（ｅｘｔｒａｃｔｏｒ）２８は辞典（１ｅｘｉｃｏｎ）２９を発生するためにテキストを処理する。辞典はそれらの能力に対して選択されたワード（単語）あるいはフレーズのリストとすることができ、これによって１つのセンテンスに対する文脈を与えることができる。辞典は、図９を参照して以下に記載する。テキスト２７は、次に、情報クラスタリング処理３０において、辞典２９と比較される。この処理においては、索引がテキストのそれぞれの片に対して生成される。その索引は、辞典及びテキストに存在するワードあるいはフレーズを含むことができる。複数のマップ３１−３３をこれらの索引から生成することができ、これらの索引は図１５−１７に示して以下に説明するようにワードあるいはフレーズの互いの関係を図形的に表すようになっている。これらのマップは、たとえば、第１時間ｔ₀、第２時間ｔ₁第３時間ｔ₂、で発生させることができる。これらのマッピングサブ−システムはユーザーに対して、以下にのべるように大きな最初の数のテキストの片を迅速に形成するテキストを検索する能力を与える。マッピングサブ−システムはスキャンニングサブ−システムと結合して使用することも可能であり、これによってユーザーのサーチ能力を増大させることができる。スキャンニングサブ−システム２６は最初に辞書ジェネレータ３４を使用して、辞典から辞書３５を発生させることができる。辞書は、辞典において、ワードあるいはフレーズのリストとすることができる。この場合、図６Ｂを参照して以下に説明するように、たとえば、俳優、機能、トピックといったワードあるいはフレーズを分類することに関連するタグを各ワードあるいはフレーズは持っている。マップ３１−３３の内部のワード群は辞書３５を用いて記号として処理することができ、これによってシナリオ（ｓｃｅｎａｒｉｏ）３７を発生する。そのシナリオは、たとえば、ある会社に以前全く関係していない人がその会社についてのストーリーに割り当てられたようなマップ間の変更を指示することができる。したがって、シナリオは時間を越えて発生するテキストデータにおける変更及び傾向を追跡することができる。したがって、会社は、周に１度特定に会社についてマップを発生することができ、次に、たとえば、コンペティターに対する価値のあるビジネス情報であるような、会社における変更を追跡することができる、マップに対するシナリオを作成する。動作中、会社は、農業のような特定の産業についての情報を要望することができ、また農業産業の会社”Ｘ”に、更に興味をもつことがあろう。ユーザは、マッピングサブシステムを使用して、会社Ｘについて関連するワード又はフレーズ (phrase)を探し出し、及びマッピングサブシステムは、マップを生成することができる。マッピングサブシステムは、会社Ｘと同じ主眼(focus)で、毎週、新しいテキストの片(piece)を組込むため、自動的に新しいマップを生成できる。スキャニングサブシステムは、次に、マップを処理し、例えば、その会社の社長が離れていることを示すことがあるシナリオを生成する。以下に記述するように、それぞれの異なるユーザは、異なる主眼又は興味を持つことができ、またこのようにしてそれぞれのユーザに関する異なるシナリオが生成されることがある。ここで、マッピングサブシステムをより詳細に説明していく。図３は、本発明による、ボトムアップ文脈及び内容ベース(content-based)のテキストの、処理及び検索(retrieval)システムのマッピングサブシステム４０の概略図である。ボトムアップテキストの処理及び検索システムのマッピングサブシステムでは、図６Ａに関して、以下により詳細に説明するように、テクスチャルデータ(textual data)４２が処理されることができ、後述するように、テクスチャルデータのそれぞれの片に、ワード及び／又はフレーズのいくつかを含むことができる、テクスチャルデータ４４の構造化された形態(structured versio n)を生成するために解析されることがある。テクスチャルデータの構造化された形態は、ユーザに、テクスチャルデータのそれぞれの片の内容及び／又は文脈についての知識を提供するワード又はフレーズを含むことができ、それにより、ユーザは、テクスチャルデータの１つの片が関係があるかどうかを、簡単に決定することができる。上述のように、テクスチャルデータの一断片の内容は、２語から約６語であり得るフレーズから最も簡単に決定されるであろうが、しかし単一の単語が、President Clintonのような適切な名詞のような、テクスチャルデータの内容のいくつかを伝達することもできる。テクスチャルデータの部分から、フレーズを抽出(extract)する方法の詳細は、図９に関して以下に説明していく。構造化されたテキスト(structured text)のいくつかを、フィルタにより取り除くために、ユーザは、ユーザが捜している情報の種類を通常記述する、広いフィルタワード(broad filter word)４６をシステムに提供することができる。広いフィルタワードは、OR,AND及び同様のものような、ブール連結子(Boolean con nectors)により分離される、複数のワードを含むことができる。テクスチャルデータの範囲を更に制限するために、ユーザは、該テクスチャルデータの日付、出所(origin)又は位置(location)に基づいて制限されたテクスチャルデータを要求することもできる。例えば、ユーザは、１９９５年より新しいデータのみ、又はウェブベージからのテクスチャルデータのみを要求することができる。構造化されたテキストは、ユーザのフィルタワードに基づいてフィルタにかけられ、及びユーザが、閲覧命令(browse command)４９を使用して、テクスチャルデータの構造化された形態を通して閲覧できるように、該フィルタにかけられた構造化されたデータは、ディスプレイ４７上に、後述のようにマップとして知られる、ワード４８の群(cluster)の関連(associations)として図示されよう。閲覧中、ユーザは、後述のように、種々の異なるワード群を選択でき、及びこれらのワード群に関連するテクスチャルデータを見ることができる。ひとたびユーザが、ワード群の閲覧を完了し、所望のテクスチャルデータを特徴づける、適当な１又はそれより多いワード群を探し出したら、ユーザはこれらのワード群を選択でき、及びシステムは、適当なワード群を含むテキストの全ての片の抄録５０を表示できる。その抄録は、テキストの任意の特定の片の関連性を確定するために、ユーザにより簡単に検討されることができる。もし正しいデータが探し出されていなかったら、ユーザは、任意の点から検索を再開始し、関連する情報が探し出されるまで抄録を見続けることもできる。本発明による、ボトムアップシステムの、このマッピングサブシステムでは、ユーザは、テキストから抽出されたワード群のみを見るが、それは、これらのワードは、ユーザに、テクスチャルデータのそれぞれの片の内容及び／又は文脈についての知識を提供するからである。後述するように、テクスチャルデータの内容及び／又は文脈の理解に貢献しない、テクスチャルデータのそれぞれの片内のワードは、除去してもよい。このように、ユーザは、最も関係のあるワード群のみを見て、及び知識に基づいたキーワードの推量を行う必要なしに、適切なワード群を選択することができる。本発明に従った、ボトムアップ手法による、テキストの処理及び検索システムの詳細は、以下により詳細に説明していく。今から、本発明による、テキストの処理及び検索のためのシステムを含むことができる、クライアント−サーバネットワークコンピュータシステムの例を説明していく。図４は、本発明によるテキストの処理及び検索システムを含むことができる、クライアント−サーバベースコンピュータシステム６０の概略図である。示すように、本発明によるテキストの処理及び検索システムは、企業又は個人のネットワーク６２内で完全に、動作することができるが、企業ネットワークの外部からの原文データにアクセスすることもできる。本発明に従って、テキストの処理及び検索を行う、ソフトウェア及び／又はハードウェアを格納(store)するコンピュータは、企業ネットワーク内に設置することができるが、インターネットのような、公開の(public)ワイドエリアネットワーク上に設置することもできる。企業ネットワーク６２はイントラネットとして知られ、また企業ネットワークを無許可の外部アクセスから保護するファイヤウォール６４内で完全に、設置することができる。テキストの処理及び検索システムは、安全な方法で、イントラネットの外部から、ファイヤウォールを通してきたテキストを検索することができる。一般的に、クライアント−サーバシステムは、データベースを格納するサーバコンピュータと、サーバコンピュータと対話(interact)できるクライアントソフトウェアの断片を実行している、１又はそれより多い、遠隔コンピュータシステムとを含むことができる。クライアント−サーバコンピュータシステムは周知であり、そのためここでは記述しない。イントラネットクライアントサーバシステムに関して、ファイアウォール６４内に位置するグローバルサーバ６６は、以下に記述される様に、マップを生成するためにテキストを処理し、ユーザが処理されたテキストを図形的に閲覧し且つ関連するテキストデータを検索することを可能にするソフトウエアを含むことができる。このソフトウエアは、マップを記号論的に処理して、マップ内の変化を示すシナリオを発生することもできる。グローバルサーバによって処理されるテキストは、第１のデータベース６８及び第２のデータベース７０の様な一つ以上のデータベース内から引き出すことができる。テキストデータをグローバルデータから閲覧して取り出し且つシナリオを発生するために、プライベイトな又は共同のネットワークに取り付けられるコンピュータは、ＪＡＶＡベースのソフトウエアアプリケーションの様な、クライアントソフトウエア７２の一部を有することができる。このソフトウエアの一部は、グローバルサーバと相互作用して、ユーザが一組の語を図形的に検索して、図１５−１８に示される様なテキストデータの関連する部分を引き出することを可能にし且つシナリオを発生する。第１及び第２のワークグループ７４、７６は、クライアントソフトウエア７２によってアクセスすることができ、このソフトウエアは、ワークグループサーバのフォルダに位置するテキストの一部分に位置する語のクラスターをユーザが検索することを可能にする。ファイアウォール内に位置する保護グローバルサーバ６６に接続するのに加えて、クライアントソウトウエアは、例えば、インターネット上の保護ファイアウォールの外部に位置する第２のグローバルサーバ７８にも接続することができる。第２のグローバルサーバは、一つ以上のウェブサイト８０、８２からの複数のウエブページを集め、本発明に従ってウェブページ内のテキストデータを処理して語のクラスターにする。このことは、クライアントソフトウエアを有するユーザが、ウェブページと関係する語のクラスターをグラフィカルに検索して、関連するウェブページを検索することを可能とする。テキスト処理検索システムは、ｅ−メールメッセージ、テキストデータベース、ウェブページ、及び他の形態のテキストデータを処理するのに使用することができる。従って、システムは種々の異なる形態のテキストデータを処理することができる。ウェブページ、ｅ−メール、ニュース及び団体情報の様な異なる形態のテキストデータの各々は、異なる特徴を有する。各ウェブページは、テキストの断片であり、多量のテキストが存在し、ウェブページによってアドレスされる話題は広い範囲に渡る可能性がある。ウェブから発生された情報に付いては確実性がない。他方、Ｅメールは、返答等のために断片データではなく、個人の特異性のために様々な話題を有しているが、年代的に整理される。ニュースは、ほどほどの数のドキュメントを有する傾向があり、話題が集中しており、年代的に整理される。団体情報は、通常より個人的なドキュメントであり、団体内の品質制御のために一層話題が集中している。これら異なる形態のテキストデータの各々は、それを一義的なものとする特徴を有しているが、テキストデータの異なる形態の全てを処理することができ、且つボトムアップアプローチを使用して検索することができる。ボトムアップアプローチにおいては、各クラスターがテキストの各組から構築され、マップとして知られるこのクラスターのグラフィカルな表現は、ユーザにテキストデータを案内するインタフェースとして使用することができる。マップ内の時間変化を示すシナリオを、テキストデータから発生することができる。本発明に従うテキスト処理検索システムは、スタンドアローンコンピュータシステム内に完全に位置している。例えば、コンピュータは、例えば、経理部門がテキストデータを検索することを望むテキストデータの大規模データベースを有することができる。本発明に従うシステムは、異なるコンピュータシステム上で作動することができる。本発明に従うテキスト処理検索は高速であり、大容量のテキストデータを容易に扱うことができるので、通常、本システムは、より大きなコンピュータシステムで作動することができる。本発明に従うテキストデータ処理検索システムのアーキテクチャを、次に記述する。図５は、本発明に従うテキスト処理検索システム９０のアーキテクチャを図示している。サーバ９１は、サーバ上で作動するソフトウエアを使用して、テキストデータ９２の複数の部分を処理するが、この間、ユーザがサーバと相互作用することを可能にするクライアントソフトウエア９３の一部は、一つ以上の選択（要求）９４に基づいてテキストデータをユーザが図形的に閲覧することを可能にする。サーバ及びグライアント内に示されるエレメントは、機能ブロックダイアグラムであり、インデクサの様な機能は、サーバ内のプロセッサを制御するサーバ上で作動するソフトウエアとすることが出来る。この機能は、この機能を達成するサーバ内のハードウエア回路によって実行することもできる。システム内の機能ユニットの詳細を記述する前に、システムの全体動作が記述される。初めに、テキストデータの複数の片を、インターネットの様な異なる位置から集めることができる。次に、テキストデータのこれらの部分が処理され、以下に記述される様に、テキストデータの片の内容を伝えるフレーズ及びワードのリストが発生される。通常、これらのフレーズ及びワードは、名詞がテキストデータの片の内容に関して最大の情報を一般的に与える理由から、名詞である。テキストデータの処理は、ユーザがデータをシステムから検索しようとする試みに先立って、発生することができる。テキストデータの各片は次にフレーズと比較されて、各テキストデータの文脈又は内容を伝えるワード又はフレーズを含むテキストデータの各片に対する索引を発生する。ユーザは次にフィルタワードをシステムに与えることができ、次いで、このシステムはフィルタワードを含まない索引を除去する。次に、残りの索引は以下に記述される様に、クラスター状に一緒のグループにされ、ある程度の関係を有するフレーズが一緒のグループにされる。これらのクラスター及びこれらクラスターの関係の度合いは、システムのユーザにマップとして図形的に表示することができ、マップは、階層的構造を有することができ、異なる度合いの関係を有するクラスターは異なるマップ上に位置される。これらのマップはユーザに対して表示するとこができ、このユーザは、関連するクラスターの位置を見いだすために、マップを見、且つマップの階層構造を通して移動することができるる。一つ以上の表示クラスターがユーザによって選択される場合は、システムは、選択されたクラスターを含むテキストデータの各部分の抄録を表示することができる。システムは、テキストデータを索引に還元し、階層構造を有する複数のマップを発生し、ユーザが閲覧する情報を図形的に表示し、ユーザが、多量のテキストデータからテキストデータを検索することができるが、以前として実際のテキストデータを見ることができる様にする。このシステムは、異なった時間に自動的にマップを発生することができ、位置を定めるために辞書を使用してマップを互いに比較し、シナリオとして知られるマップ内に示される関係の変化を表示する。次に、システムの詳細が記述される。サーバ９１の内部で、テキスト９２をエクストラクタ９６に入力してよく、そこで該テキストを以下に記載するように加工し、テキストデータに基づく辞典１００を生成する。該辞典を、データベース・マネージメント・システム（ＤＢＭＳ）９８に保存してもよい。辞書は、以下にＦｉｇ．９を参照して記載するように、テキストから抽出されたワードの１種又は２種以上のクラスタのリストであってよい。辞書１０２は、さらに複雑なデータ構造であり、辞典から始まり、ワードのクラスタにタグを付け、それにより、例えば行為者、機能及びトピックスなどの内容に基づく概念によって、各ワードのクラスタを分類する。該辞書（マップを記号論的に加工するのに使用されるもの）について、以下にＦｉｇ．１０を参照して記載する。以下に記載するように、辞典及び辞書は、いずれもテキストデータの内容又は文脈の理解に寄与しないワード又はフレーズを含むものではない。辞典は、テキストデータの内容を伝達する句のリストであってよい。例えば、ウェブページは、次のようなキャプション：『左から右へ：私が最近追加したもの、紫色のバラ−1995年2月−「ビッグ・ジョン」、インクとアイロン。黄色のバラとハート。「スネーク」サウスウェスト刺青』を有する刺青を表示し、かつ本発明に従ってそこから抽出された、テキストデータの内容を決定するのに十分な文脈を提供する句を有していてよい。抽出された句は、『最近追加したもの』、『紫色のバラ』、『ビッグ・ジョン』、『黄色のバラ』及び『サウスウェスト刺青』であってよい。これらの句は、ウェブページの内容を決定するのに十分なテキストデータに関する情報を、読み手に提供する。レキシコンを生成する場合、バイグラム（bigrams）として知られている２語の句が重要である。バイグラムが重要な理由は、それが、上記の通り、単一の単語はその単語が使用されている文脈によって複数の意味を持ち得る、という言語に関する問題を解決し得ることにある。上記の例では、"bank"は『銀行(saving bank)』であるかあるいは『川岸（river bank）』であって、"bank"というワードだけに基づいて決定することは不可能である。他の例として、"Internet"というワードはファジーな範囲を有しており、複数の異なる文脈を持ち得るのに対し、"Internet protocol"というバイグラムによれば、文脈を即座に決定することが可能になる。さらに他の例として、"plot"というワードは、不動産の区画、あるいは物語の筋を意味し得る。しかしながら、"garden plot" 及び"seamless plot"というバイグラムによれば、"plot"というワードの意味が明確になる。"Clinton"などの、内容をも伝達し得る単一の語もある。辞典について、以下にさらに詳細に説明する。Ｆｉｇ．５に戻って、インデクサ（indexer）・ユニット１０４は、Ｆｉｇ．７に示しかつ以下にさらに詳細に説明するように、辞典を生成するのに使用したテキストデータと異なるか又は同じであり得るテキストデータ９２を、辞典１００と比較し、テキストデータの各部分について索引１０６を生成する。該索引をＤＢＭＳ９８に保存してもよく、また同様に辞典中に含まれているテキストデータの各片におけるフレーズのリストとしてもよい。該索引をクラスタライザ（cl usterizer）・ユニット１０８に供給してもよく、下記の通り、そこである程度相互に関連を有するインデックスの範囲内で句を分類してよく、同様にＤＢＭＳに保存してよいクラスタ１１０を生成してもよい。クラスタのグラフィック表示を、以下に説明しかつＦｉｇ．１５〜１７に示すように、マップ・ジェネレータ・ユニット１１１により生成してもよい。クラスタ１１２のグラフィック表示は、マップとして知られ、ＤＢＭＳに保存してもよく、またクライアント・ソフトウェア９３にダウンロードして、マップがクライアント・ソフトウェアに表示されるようにしてもよい。複数のマップを階層構造にまとめあげ、関連の程度の相違するクラスタを異なるマップに配置してもよい。するとユーザは、上記の通り、マップを見て、該ユーザの選択（要求）に基づいて階層構造中をナビゲートしてよく、また関連すると思われる１又は２以上のクラスタを選択してもよい。各クラスタは、テキストの１又は２以上の部分に対応していてよい。ついで、サーバ９１は、選択されたクラスタを含むテキストの部分の一部を含む抄録を生成してよく、また該抄録１１６はクライアント・コンピュータ９３上に表示される。マップ１１２に対し、辞書１０２を使用して記号論的加工１１８を施し、シナリオ１２０を生成してよい。該シナリオをクライアント・コンピュータ９３上に表示してもよく、マップ中に示された関連性の変化を一定期間示してもよい。ここで、テキストデータの加工及び検索に関する全体的な方法を、Ｆｉｇ．６Ａ及び６Ｂを参照して説明する。Ｆｉｇ．６Ａは、本発明により、Ｆｉｇ．４のシステムに使用するテキストデータを加工し検索するためのマッピング法１３０を示す、フローチャートである。まず、上記の通り、テキストデータの複数の片を異なる場所から集め、データベースに保存し、次いで加工１３２を施して辞典を生成してよい。この加工は、『空の』ワードとして知られる、テキストデータに何らの文脈をも付与しないワードを、テキストデータの部分から除去するものであってよい。例えば、様々なワードのうち、"a"及び"the"などの冠詞、前置詞、及び動詞は、除去されてもよい。なぜなら、これらの空のワードは、テキストデータに何らの文脈をも付与しないからである。例えば、『クリントン大統領は今朝ボブ・ドール上院議員とともにランニングに出かけた。（"President Clinton went running this morning with Senator Bob Dole"）』という句の意味のある単語は、『クリントン大統領（"President Clinton"）』、『ランニング（"running"）』、『朝（"morning "）』、『ボブ・ドール上院議員（"Senator Bob Dole"）』である。このテキストの加工について、Ｆｉｇ．８を参照してさらに詳細に説明する。テキストの加工の間、テキストデータの各部分を辞典と比較し、テキストデータの各部分について索引を生成してよい。このようにして、加工の出力は、テキストデータの部分中及び辞典中に出現するフレーズのリストを含む、テキストデータの各部分について索引となる。該索引は、テキストデータの片の内容についての何らかの理解を提供するワード又はフレーズのみを含む、テキストデータの片のバージョンである。ステップ１３４において、下記の通り、分離して出現するよりも一緒に出現することの多いフレーズを相互に関連付けて、索引をクラスタ化してもよい。かくして、テキストデータの各片は、そこに関連付けられた１又は２以上のフレーズのクラスタを有することとなる。処理は、いずれかのユーザーがシステムからいずれかのテクスチャルデータを検索することを試みる前の時点で発生し、ユーザーの検索が処理ステップによって遅延されないようにするのが好ましいが、処理は検索中に発生するかもしれない。そのステップの結果は、ユーザーが文字データを検索することを試みている時に、リアルタイムで発生するかもしれない。生成されるクラスタをサーバーに記憶し、ステップ１３６でフィルタして、ユーザーが関心を持つ情報のタイプを広く記述する、ユーザーによって入力された広いフィルタワードに基づいて、フィルタされたインデックスを生成するようにすることができる。この広いフィルタワードはキーワード照会ではなく、ユーザーが検索しなければならないデータ量を減少するためにインデックスに加えられた文脈ベースのフィルタである。また、広いフィルタワードは、例えば日付け、出所に基づくテクスチャルデータを制限することによって、テクスチャルデータの量を制限することもできる。このように、テクスチャルデータをいくつかの異なる基準に基づいてフィルタすることができる。例えば、もし、ユーザーが航空機会社役員に関する記事を探しているならば、広いフィルタワードは、「航空機」もしくは「飛行機」となり得る。ステップ１３８では、サーバーは、以下に記述するように、ワードもしくはフレーズのフィルタされた索引もしくはクラスタを使用し、図１５−１７に示すように、クラスタを共に１もしくは１よりも多数の図表のマップに接続する。これらのテキスト処理ステップは、システムのユーザーが、テクスチャルデータ内の実ワード及びワードのクラスタを見て、ワードのクラスタ中を検索して、所望の情報を探し出すことを可能にする。これらのテキスト処理ステップは、本発明に従うシステムのボトム−アップアプローチの部分である。本発明に従うテクスチャルデータを検索するための方法の概要を説明する。以下のステップは、本発明に従って、どのようにユーザーがテクスチャルデータを検索し、シナリオを生成するかを記述する。これらの検索ステップは、ユーザーが、迅速に、図表で表示されたクラスタ中を検索し、テクスチャルデータの相当する部分を探し出すことを可能にする。最初に、ステップ１４０では、ユーザーが見るために、先に生成されたマップがクライアントのソフトウェアによって表示される。以下に説明し、図１５−１７に示すように、マップは、より詳細なクラスタを有するかもしれない他のマップへのリンクを有することもできる。図６Ｂを参照して以下に説明するように、マップは記号的に処理され１４１、シナリオを生成する。ユーザーは、ステップ１４２でマップから１もしくは１よりも多数のクラスタを選択でき、システムは、ユーザーによって検索された１もしくは１よりも多数のクラスタを含むステップ１４３でデータベース内のテキスト部分の要約を表示する。ステップ１４４では、ユーザーは、別の検索を実施することを選択できる。本発明によると、更なる検索をいずれのポイントからても開始でき、ユーザーが更なる検索の開始を望む場所に応じて、本方法がステップ１３６もしくはステップ１４０のどちらか一方に戻れるようにしている。もし、更なる検索が要求されないならば、本方法は終了する。図７及び図８を参照して、図６Ａに示される全体的な方法の一部であるテキスト処理ステップの詳細を説明する。図６Ｂは、全体的な方法の一部であるスキャニング方法１４５のフローチャートであり、マッピング方法と組み合わせることができる。ステップ１４６では、辞書が辞典に基づいて生成される。辞書の詳細は図１０に関して説明され、図１０では、辞典のワード及びフレーズは、ワードもしくはフレーズが例えば関係者、職業、主題かどうかを示すそれらに関するタグを有する。次に、ステップ１４７では、１もしくは１よりも多数のマップ上のクラスタは辞書を使用して処理され、ステップ１４８でシナリオを生成する。マップは、異なる時間（例えば、１週間に１度）に生成され、処理は、シナリオとして知られるマップ上のクラスタの関係の変化を検知する。例えば、会社Ｘに焦点をあわせられた多数のマップが処理されて、ある技術に関して主要な従業員が会社Ｘを去ったことを示すシナリオを生成するようにする。このタイプのシナリオデータは、会社Ｘと競争しているか、会社Ｘの取得を考えている別の会社にとって貴重であるかもしれない。辞書を使用する記号処理は、マップの情報を減少して、３つの基本タイプの情報、１）誰がテキスト中にいるのか（人）、２）その人の職業は何か（職業）、３）文脈は何か（主題）のフォーマットを調べるのを容易にする。このように、スキャニングマップによって、例えば、通常の産業の会社が新しい産業に入ることを決定できる。辞書を使用する記号処理は、マップに基づくビルディングストーリー（誰、何、コンテキスト）に焦点をあて、ユーザがテキストの一部を容易に調べることができるようにする。例えば、２つの別個の会社に関連する１人の人に関する長い記事を、その人、及び、両方の会社に対するその人の関係に縮小することができる。記号処理は関係の変化を検知することもできる。マップを生成するための方法を説明する。図７は、本発明によるマップを形成するための方法１５０を図示する。辞書１５２及び一つのテキスト１５４を互いに比較する。文字及び及び記号論的データ構造のデータのフレーズの交差部分１５５が索引としてストアされうる。次いで、複数のテクスチャルデータの索引が以下に示すようにクラスタになり、マップ１５６に変換される。マップは、索引に包含されるフレーズを表す複数のノード１５７と、複数のリンク１５８とを有し、該リンクは互いにクラスタとなるノードと一緒にリンクする。図８は、図６Ａに示した全体の方法の一部である発明に関するテキスト処理に関する方法１６０を図示するフローチャートである。これらのテキスト処理ステップは、いつでも実行されるが、テキスト処理が生じておらず、ユーザの試みがテクスチャルデータを検索するようにサーバ内のテクスチャルデータが更新され又は追加されるときに実行されるのが好ましい。最初のステップ１６２では、複数の一つのテキスト（該テキストは、ドキュメント、ウェブページ、Ｅメールメッセージ、若しくはニュースポスト、又はそれらの全ての組み合わせであってよい）が、互いに集まり、システム内にストアされる。インターネットコンテキストでは、これらの一つのテキストは、ロボットとして知られるサーバで実行されるテキストギャザリングソフトウェアアプリケーションによって集められ、インターネットのような広域ネットワークにおける複数の本質的に異なる場所から集められる。インターネットシステムに関して、一つのテキストは、データベース、又は、会社の全てのＥメールメッセージをストアしたコンピュータに既に配置されうる。いったん、一つのテキストが集められたならば、ステップ１６４において、辞書が集められた一つのテキストから抽出されうる。辞書は図９を参照して説明されうる。全ての文字データの一つにおけるテキスト処理フィルターは、「ａ」、「ｔｈｅ」、「ａｔ」のようなストップワードのような、テキストの一つのコンテキストに寄与しない空虚なワードを除去し、テキストの特定のピースのコンテキストを伝えるようなフレーズだけを保持する。一般的には、これらのフレーズは、６ワードまでの２つを包含する。従って、出力は、テキストのピースを満たすように伝えるワードの実質的なクラスタにテキストの各ピースを落とす目的に価値があるように考慮されるフレーズのリストであってよい辞書である。辞書の生成は連続的に発生し、索引が生成され、テキストの追加の片が集められ、解析されたワードが辞書に加えられ、次いでインデックス化される。辞書が生成されているとき、又は、辞書が生成された後、テキストの各片は、ステップ１６９において索引を生成するためにステップ１６８において辞書と比較される。索引は、フレーズ（２又はそれ以上のワード）又は、テクスチャルデータ及び辞書のピースの両方に現れるワードのリストを包含する。従って、テクスチャルデータの各片に関する索引は、ワード又は、テクスチャルデータの各片の内容及び／又は文脈を伝達するフレーズを包含する。全ての空虚なワードが除去され、テキストの各ピース内に残った文脈ワードがストアされるので、この索引はテキストの各片の低減したバージョンであると考えられ得る。空虚なワードは、以下に示したように、句読点に沿ってストップリストに包含されうる。これらの空虚なワードは文脈をテキストに加えることはなく、テクスチャルデータの各片をストップリストと比較し、ストップリストワードを除去することによって除去されうる。いったん、テキストの各ピースがインデックス付けされたならば、いくつかのインデックスは上述のように、クラスタ及びこれらのクラスタのマップを生成するために使用され、ユーザは、再ソートすることなく大量の文字データからキーワード検索までのテキストの関係するピースを突き止め、検索する。いま、本発明による辞書を生成する方法を記載する。図９は、本発明により辞書を生成するための方法１７０のフローチャートである。上述のように、辞書は、フレーズのリストであって良く、各フレーズは２乃至６ワードからなるのが好ましく、テキストの片に最大量の文脈を与える。辞書はまた個々のワードから成っても良い。いったん、テキストの片が集められたならば、一連の３つの処理ステップは、文字データから所定のアイテムを抽出するように実行されうる。これらの処理ステップは、例えば、適当な名詞及び普通名詞抽出、繰り返されるセグメント抽出、及び、ステップ１７２、１７４及び１７６に示したようなシンタックス解析を含む。以下に示すこれらの処理ステップの各々は、テクスチャルデータからの所定のワード又はワードのクラスタを抽出するサーバで稼働するソフトウェアの異なるピースによって各々、テキストのピースを通る単一のパスで生じるが、各ステップは別々に記載する。これらのテキスト処理ステップを理解するために、本発明によるシステムが、システム内にストアされたストップワードのリストを有することを理解する必要がある。ストップリストは、図６Ａを参照して上で記載した。以下で記載するいかなるテキスト処理ステップの前に、ストップリスト内に包含される全てのワードは、文字データの各片から除去されうる。適当な名詞及び普通名詞抽出ステップ１７２において、適当な名詞及び普通名詞は、テキストの各ピースから識別され、抽出される。適当な名詞を抽出するために、テキストは解析され、「ＢｉｌｌＣｌｉｎｔｏｎ」のような大文字の最初の文字を備えるワードが抽出される。抽出されたワードは適当な名詞と仮定され、スローガンのようなシーケンスを排除するために簡単な経験上のルールに基づいてフィルタにかける。普通名詞を抽出するために、テキストは解析され、全てのストップリスト、全ての句読点、及び全ての不定詞動詞は無視される。連字（ｂｉｇｒａｍ）として知られる少なくとも２つのワードを備える残りのフレーズは、普通名詞と仮定され、辞書に配置される。例として、短い段落を示し、普通名詞フレーズを本発明によるそれから抽出する。段落は以下のものである： "As mentioned in the topic summary，Designer does not allow for placemen t of dimensions against features which might be considered as theoretica l representations．Examples include profile，or silhouette，outlines of cylinders and other curved parts，where the representative geometry is d irectly dependent on current viewpoint." ストップリスト（stoplist）に属している全ての語に対してスラッシュ（斜線）、（スペース及び句読点のような）全てのブレークに対してダッシュ、及び全ての不定詞に対してスキップ（“＞”）を代入した場合には、以下に示すような３つのダイグラフが抽出されうる。段落（パラグラフ）は、処理の後、 -/mentioned//topic summary-Designer//>/placement/ >/>///mconsidered/theoretical representations-Examples >>-/>->/cylinders//curved＞-//representative geometry//dependent/current viewpoint-- のようになる。理解できるように、段落は、かなり低減されかつ以下の通常名詞ダイグラフ “topic summary”、“theoretical representation”、“representative geom etry”、及び“current view point”が抽出されうる。更に、“Designer”は、固有名詞として抽出されうる。ここで、繰り返し区分抽出を説明する。繰り返し区分抽出段階１７４では、上述したように、ストップ−リスト及びいずれかの他の虚語を取り除くことによって２〜６語の句又はシーケンスがテキストの各部分内に見出されうる。繰り返し区分抽出では、繰り返される語の区分は、それらの慣用的重要度を捕らえるべく検出され、かつ抽出されうる。一般的に、語の最も頻繁に繰り返された群は、ダイグラフとして知られる、二語の句である。あらゆる繰り返し句が語彙辞書内に含まれうる。語彙辞書を生成する目的に最適な句は、通常、二つ又は三つの語を含む。繰り返されるこれらの句又はシーケンスは、語彙辞書に記憶される。繰り返し区分抽出の例をここで説明する。大きなニュース記事では、３７，９７６の繰り返し区分が存在したが、繰り返し区分の２５，０００以上がダイグラフであり、ストップワード(stopwords)を含んでいるので取り除かれうる“in the”、“of the”、及び“on the”を含んでいる。しかしながら、繰り返し区分は、他のダイグラフと共に、ダイグラフ“op erating system”、“hard disk”、“cd-rom drive”、及び“homepage”も含みうる。それらはストップワードを含まずかつテキストの理解に寄与するので、これらのダイグラフは、記号データ構造に記憶されうる。構文解析段階１７６は、上述したように、イントラネットシステムに対して用いうるが、効率がよく、適時な構文解析を許可するにはインターネットコンテキストにおけるテキスト情報のボリュームがあまりにも大きすぎるので、インターネットコンテクストに対して、通常、使い勝手がよくない。構文解析パーサは、テキストの各部分を分析しかつ、例えば、名詞、動詞、形容詞、又は副詞のような、その品詞によって各語を分類しうる。このパーシング（構文解析）を実行するために、システムは、語彙辞書に追加すべき品詞又は品詞の組合せのリストを含みうる複数のテンプレートを有しうる。例えば、テンプレートは、全ての動詞−動詞結合が語彙辞書内に記憶されるべきでないということを示しうる。本発明によれば、これらのテンプレートは、動詞句を避けて名詞句に集中する。上述したように、文“Bill Clinton might go to Asia”の“might go”のような、文中の動詞句は、いかなるコンテクストも文に加えない。文中のコンテクスト語は、名詞句である“Bill Clinton”及び“Asia”である。これらのテンプレート及び構文解析は、テキストから不要な句及び語を更に取り除くことを支援する。上述したように、記号論的データ構造の生成は、追加のテキストデータが集められるときに定期的に生じ、記号論的データ構造は、これらの新しいテキストデータからのあらゆる句を含むべく更新される。そこで、記号論的データ構造は、定期的に構築されかつ新しいテキストデータが見出されたときにはいつでも改良される。そこで、時間の経過と共に、記号論的データ構造は、不要なフレーズを除去することでより鋭くなりかつ、事実、ある一定のユーザに対して訓練されうる。例えば、本発明を設置した航空機会社は、大部分が航空機に関連するフレーズを記号データ構造に記憶するように航空機部品を用いて記号データ構造を最初に生成しうる。そこで、他の文書がシステムに追加される場合には、大部分が航空機に関連するフレーズが抽出されるであろう。ここで、本発明による辞書を生成する方法を説明する。図１０は、本発明による辞書を生成する方法１８０を示すフローチャートである。上述したように、辞書が語彙辞書に基づくので、辞書を生成する方法は、語彙辞書を生成することによってステップ１８２で開始する。辞書は、以下に説明するようにより内容−ベースであるような語彙辞書である。語彙辞書は、ステップ１８４において種々の内容−ベース類に対してパーズされうるしかつ内容− ベース類は、ステップ１８６における語彙辞書の各パーズに対して生成されうる。内容−ベース類に対して語彙辞書をパーズするために、語彙辞書内のフレーズ又はワードクラスタのそれぞれは、例えば、“an actor”、“a function”、又は“a topic”のいずれかに分類されうる。Actorは、人間でありうるし、topic は、ある形の活動又は物理的対象物でありうるし、かつfunctionは、actor又はt opicを詳細に説明するものである。例えば、フェーズ“Bill Clinton has signe d a deal relating to a joint venture between companies for a new persona l computer.”は、以下の方法で分類されうる。“Bill Clinton”は、an actorであり、“signed a deal”及び“joint venture”は、functionsでありかつ“personal computer”は、topicでありうる。Topicsは、かなり多くの異なるクラス及びサブクラスが存在しうるので、規定することが更に難しいが、Roget' s Thesaurusのような一般的な資料が、語彙辞書内の句を分類するために用いられる種々のtopicクラスを生成するために用いられうる。コンテンツ−ベース類パーサの出力は、語彙辞書内の各パーサが又は語クラスタが一つ以上のコンテンツ−ベース類タグを割り当てたような辞書である。例えば、句“super weather ”は、主要topicタグ（即ち、“weather”）、及びfunctionでありうる補助的タグ（即ち、“super”）を有しうる。そこで、辞書は、語彙辞書を使用しうるが、actor、function、又はtopicのような、語彙辞書における句のコンテンツ−ベース類を追加することによって語彙辞書を更に精緻なものにする。上述したように、語彙辞書又は辞書のいずれかが収集されたテキストを処理するためにシステムによって用いられうる。ここで、本発明によるクラスタ及びマップを構築する方法を説明する。図１１は本発明によるクラスタ及びクラスタのマップを生成する方法のフローチャートである。ステップ１９２では、ユーザーの選択した広範なフィルタワードを含むすべての部分のテキストデータの指標が集められてもよい。ステップ１９４〜１９８では、指標は後述するようにクラスタ化されてもよい。クラスタ化システムへの入力はテキストの各部分のためには、複数の指標である。お互いにしばしば関連して認識されるフレーズはクラスタ化される。使用されるクラスタ化アルゴリズムは、Bertrand Michelet博士により創出されたような公知の幾つかのクラスタ化アルゴリズムの１つであってもよい。Bertrand Michelet博士のアルゴリズムの基本原理は２つの所定ワードのためのものであり、お互いに別となるワードの確率及びワードが一緒と認識される確率は両方共計算される。一緒と認識されるワードの確率がお互いに別と認識されるワードの確率より大きい場合には、その後、ワードは一緒にクラスタ化される。一度、フレーズが一緒にクラスタ化されると、テキストデータのすべての部分のクラスタ化されたフレーズは図解マップに変換され、その例は図１２及び図１５〜１７に示されている。マップはお互いのワードクラスタの関係を示す線と同様に、ワードクラスタの図解表現を含んでいる。クラスタは異なる関係の度合いを有しているので、階層構造で組織化された複数のマップがあり、同じ関係の度合いのクラスタは通常同じマップに配置されるようになっている。マップはまた、後述するように、一緒にマップに接続されるシステムを有している。ステップ１９４では、図１５〜１７に示されているように、太線がワードクラスタ間に形成され、ワードクラスタ間の関係を示している。ステップ１９６では、各マップはまた他のマップへのリンクとして動作するワードクラスタを有している。例えば、ワードクラスタは図１６に示されるように、リンクに接続されるマップにユーザーを移動するクリック可能なボタンであってもよい。したがって、本発明によると、関連しているが異なるワードのクラスタを示すマップの階層がある。図１５〜１７に示されているように、上記クラスタ化を基にして、フレーズの関係がマップとして図解的に描かれている。クラスタをマップ化する目的のため、メタマップとして公知である第１の最高レベルのマップはユーザーのフィルタワード及び幾つかの最も近いフレーズを含んでいる。例えば、メタマップは画面上のクラスタを最小にするために一緒にリンクされた１５のフレーズの合計を示している。各マップに示されるクラスタの数は明瞭さを増加させるために減少されてもよい。マップはテキスト部分のワード及びフレーズのパターンをユーザーに迅速かつ容易に見えるようにさせ、ユーザーは彼らの探索の目的のためにどれがもっとも適切なフレーズであるかを決定するようになっている。図１２は１つのマップ上の２つの異なるテキスト部分のワードのマップ化の１つの例を示している。もっと複雑な例は図１５〜１８に関連させて後述されるだろう。テキスト２０２の第２部分はテキスト内にフレーズＡ及びＣを有しているが、テキスト２００の第１部分はテキスト内にフレーズＡ及びＢを有している。この例の目的のため、古典語辞書または辞典が少なくともＡ，Ｂ及びＣを含んでいると仮定しなさい。異なる位置に配置されるこれら２つのテキスト部分から、マップ２０４が生成されていもよい。マップはＡとＢ間の第１リンク２０６及びＡとＣ間の第２リンク２０８を有していてもよい。これらのリンクはＡとＢが関連し、ＡとＣが関連しているが、ＢとＣがお互いに関連していないことを図解的に描いている。次に、本発明によるマップを使用してテキストを検索する方法を説明しよう。図１３は本発明による図解マップに基づいてテキストを検索する方法２２０のフローチャートである。その方法は図６Ａで示されている全体の方法の一部である。ステップ２２２では、メタマップとして公知である最高レベルのマップがユーザのため表示されてもよい。メタマップはシステムのユーザーにより選択されたフィルタワードとフィルタワードに近接に関連するクラスタを含んでいてもよい。メタマップの例は図１４に示され、後述されるだろう。ステップ２２４では、ユーザーは選択し、上述したクリック可能なボタンを使用して図１６に示したようにマップのより低いレベルまで動かす。そうでなければ、その後ステップ２２６で、ユーザーはメタマップ内の適切なクラスタを選択し、ステップ２２８で、選択したクラスタに基づいて図１８に示されているように、システムは選択したクラスタを含むテキスト部分からの抜粋を表示する。ユーザーがより低いレベルのマップを選択したい場合には、その後ステップ２３０で、システムはズーミングとして公知のプロセスをより低いレベルのマップに動かす。ユーザーがズームし続けると適当なマップが表示されるようになる。その後、ステップ２３２で、ユーザーは適切なクラスタを選択し、ステップ２２８で、それらのクラスタを含むテキスト部分からの抜粋が表示される。ステップ２３４では、ユーザーは更なる探索を実行するために選択されてもよい。もっと探索がなされるようになると、その後、その方法はステップ２２２にループバックし、再び始まる。さもなければ、その方法は終了する。本発明によるズーミングプロセスは幾つかのレベルで生じてもよい。例えば、ブロードマップはＷＷＷの全体をリストしてもよいし、一方、ズームすることができるより低いレベルマップは、ある特別のウエブサイトに関連するクラスタを含んでもよいし、一方、もっと低いレベルマップは、個々のウエブページに関連するクラスタを含んでもよいし、最も低いレベルマップは、ウエブページ内のパラグラフに関連するクラスタを含んでもよい。別の例では、高いレベルマップは多数回生じたクラスタをリストしてもよいし、一方、最も低いレベルマップは、一度現れたクラスタをリストしてもよい。このように、ユーザは、自身が再検討したい詳細のレベルを選択することもできるし、また、いずれかのレベルから他のいずれのレベルにでも迅速に移動することもできる。ここで、メタ−マップと幾つかのより低いレベルマップの一例を記述する。図１４は、互いに関連する第１のクラスタ２４２、第２のクラスタ２４４、および第３のクラスタ２４６を有するメタ−マップ２４０の一例を示す図である。これらのクラスタは、あるテクスチュアルデータ内で互いに近接して現れるため、互いに関連付けられている。これらのトップレベルのクラスタは各々、より低いレベルマップに属してもよい。例えば、第１のクラスタ２４２は、この第１のクラスタに関連付けられている他のクラスタをも含んだマップＢ１２４８に属するが、メタ−マップ内のクラスタには関連付けられていない。同様に、第２のクラスタ２４４は、それに関連付けられている他のクラスタをも含んだマップ１３２２５０に属する。同様に、第３のクラスタ２４６は、この第３のクラスタ２４６に関連付けられている他のクラスタをも含んだマップＢ３２５２にも属するが、メタ−マップ上に表示されたクラスタには関連付けられていない。ユーザがより低いレベルマップへ移動したときは、クラスタの更に詳細を示すこともできる。スクリーン上に表示されるデータ量は制限されることから、メタ−マップとより低いレベルマップと階層構造とによって、ユーザは、より多量のデータにわたってナビゲートすることができる。ここで、本発明によるテキスト検索システムの動作の一例を記述する。図１５乃至図１８は、本発明によるテキスト検索システムの動作の一例を示している。この例では、一般に普及しているｅ−メールアプリケーションのためのドキュメンテーションである単一のテクスチュアルデータが用いられている。ドキュメンテーションは、上述したシステムを用いて、先ず、このドキュメンテーションのコンテント（内容）若しくはコンテクスト（文脈）を伝達するようなワード（単語）若しくはフレーズ（句）のリストを含んだ記号論データ構造を発生するために処理され、その後、この記号論データ構造に対してドキュメンテーションを比較することによって、ドキュメンテーションの索引が発生され得る。この索引は、ドキュメンテーションに加えて、記号論データ構造に含まれるワードのリストを含んでおり、また、単一のテクスチュアルデータがこの例では用いられたことから、記号論データ構造とインデックスは同一である。インデックスはドキュメンテーションのコンテントとコンテクストを伝達するものであり、また、ドキュメンテーションの構造化サマリ（要約）であってもよい。インデックスのワード若しくはフレーズは、その後、クラスタを発生するべく、上述したワード若しくはフレーズの関係の度合いに基づいて互いにグループ化されてもよい。図形マップは、これらのクラスタから発生され得る。この図形マップは、各々がクラスタを含んでいるような複数のノードや、互いに関連付けられたノードを接続する複数のリンクを含んでいてもよい。図１５に示されたトップレベル・メターマップ２６０が発生される。このトップレベル・メターマップは、「ｄｏｃｕｍｅｎｔ（ドキュメント）」のようなユーザのフィルター・ワードを含むノード２６２と、このフィルター・ワードに関連付けられた複数の他のノード２６４、２６６を表示する。メターマップは、より低いレベルマップに対するリンクに加えて、双方がメタ−マップ内のクラスタであるようなクラスタを含んでいてもよい。例えば、クラスタ２６６は、フレーズ「ａｐｐｌｅｄｏｕｂｌｅ」を含んでもよい。図１６に示されているように、ユーザが「ａｐｐｌｅｄｏｕｂｌｅ」クラスタ２６６をクリック・オンしたときは、「ａｐｐｌｅｄｏｕｂｌｅ」クラスタ２６６を含んでいるより低いレベルマップ２７０が表示されてもよい。より低いレベルマップはまた、フレーズ「ａｐｐｌｅｄｏｕｂｌｅ」に関連付けられたクラスタを含んでいてもよいが、メタ−マップ２６０に示されたクラスタには関連付けられていない。メタ−マップへ戻すように移動させるため、より低いレベルマップはまた、「ドキュメント」ノード２６２を含んでいてもよい。このように、クラスタは、いずれの一時においてもスクリーン上には制限量のクラスタが示されるように階層方法で構成される。この方法で、ユーザは、全てのマップにわたって迅速に移動して、関連クラスタを突き止めることができる。一旦ユーザが関係あるマップを突き止めると、図１７に示されているように、ユーザは、関連フレーズを含んでいると思われる１つ若しくは２つ以上のクラスタを選択することもできる。この例では、ユーザは、以下のクラスタ、即ち、１）ｂｉｎｈｅｘ、２）ｆｏｒｍａｔ、３）ｐｒｅｖｉｏｕｓｖｅｒｓｉｏｎｏｆｅｕｄｏｒａ、および４）ｏｌｄＭａｃｉｎｔｏｓｈｍａｉｌｅｒ、を選択することができる。システムは、その後、選択されたこれらのクラスタを用いて、選択されたクラスタを含んでいる複数のテクスチュアルデータのエキストラクト（抽出物）を検索する。この例では、図１８に示されているように、２つの異なるエキストラクトが表示され、これによって、ユーザは、それらのドキュメントの全体を見ることなしに、それらが関連するかどうかを判断することができる。ユーザは、エキストラクトを見た後に、階層内のマップのうちの１つに戻って、他のクラスタにわたって拾い読みし続ける。要約すると、本発明によるテキストデータを処理し検索するシステム及び方法は、キーワード検索を使用せずに大量のテキストデータを検索する効率的な方法を提供する。そのシステムは、まず、テキストデータに何らの文脈も与えない任意のワードを除去して１つのテキストデータの内容を決定するためにユーザによって使用されるワードまたはフレーズのみを残す辞典を生成する。内容ベースのテキストデータが各テキストデータと比較され、各テキストデータについてそのテキストデータに文脈を与える内容ベースのフレーズのみを含むインデックスが生成される。その後、上述したようにフレーズを相互に関連させるために、それらのインデックスがクラスタ化される。これらのクラスタ化されたインデックスに基づいて、ワードのクラスタとそのクラスタの相互の関係を図解的に示すマップが生成される。そのマップも、階層構造を有し、その結果、ユーザにディスプレイされるクラスタの数は少なくなる。マップは、ユーザに、複数のテキストデータをブラウジングして最小の努力で所望数のテキストデータを探し出す効率的で迅速な方法を提供する。複数のマップが、異なる時間において、マップに示される関係の変化を表すシナリオを生成する辞書を使用して処理される。これらの変化は、例えば、会社または業界の傾向についての有益な情報を与える。そのシステムは、大量のデータを効率的に処理し、ユーザがテキストデータを迅速に検索することをさらに可能にしている。以上、本発明の特定の実施例について説明したが、当業者であれば、この実施例の変更が、請求の範囲により定められる本発明の原理及び精神から逸脱することなく可能であることを理解するであろう。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＧＨ，ＨＵ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＷ

Claims

【特許請求の範囲】 1. 内容ベースのテキスト処理検索システムにおいて、内容に基づいて複数のテキストを処理して各テキストについて索引を生成する手段を備え、前記索引は、テキストの内容を表すフレーズのリストを含み、フレーズをグループ化してフレーズ間の所定の関係の程度に基づいてクラスタを生成する手段を備え、階層構造を生成する手段を備え、前記階層構造は複数のマップを含み、各マップは１つの所定の関係の程度に対応し、前記マップは所定の関係の程度においてクラスタを図解的に示し且つ複数のノードを含み、各ノードは１つのクラスタを表し、複数のリンクが関係のあるノードを接続し、所定のマップを選択する手段を備え、前記選択されたマップをユーザに表示する手段を備え、前記選択されたマップに表示された特定のクラスタを選択する手段を備え、そして、前記選択されたクラスタに基づいて前記テキストの片からテキストの一部分を抽出する手段を備える、ことを特徴とするシステム。 2. 前記処理手段は、複数のテキストの片を収集する手段と、前記収集された複数のテキストの片からその複数のテキストの内容を表すフレーズのリストを含む辞典を抽出する手段と、前記辞典を各テキストと比較して各テキストについて索引を生成する手段とを含む、ことを特徴とする請求項１に記載のシステム。 3. 前記収集手段は、インターネットから複数のテキストの片を収集するソフトウェアアプリケーションを含む、ことを特徴とする請求項２に記載のシステム。 4. 前記辞典抽出手段は、前記複数のテキストの片から空のワードを除去する手段と、前記複数のテキストの片から適当な共通の名詞を抽出する手段と、１つのテキスト内で繰返されるフレーズを抽出する手段と、前記複数のテキストから名詞のフレーズを抽出する手段とを含む、ことを特徴とする請求項２に記載のシステム。 5. 前記名詞のフレーズを抽出する手段は、名詞を有するフレーズを抽出するために１つのテンプレートに対して前記複数のテキスト内に複数のフレーズを含む手段を含む、ことを特徴とする請求項４に記載のシステム。 6. さらに、前記辞典に基づいて記号論的データ構造を生成する手段を含み、前記記号論的データ構造は、前記辞典の各ワードに関係してそのワードを内容により分類するタグを含み、さらに、前記記号論的データ構造に基づいて複数のマップを相互に比較して、前記マップにより図形的に示される関係における変化を表すシナリオを生成する手段を含む、ことを特徴とする請求項２に記載のシステム。 7. 前記タグは、人を表すタグ、ファンクションを表すタグ、トピックを表すタグの１つから選択されることを特徴とする請求項６に記載のシステム。 8. 所定数のテキストの片を選択するためユーザーにより選択されるフイルタ基準に基づいて前記の索引をフイルタする手段と、前記の所定数のテキスト片の索引から一つもしくはそれ以上のワード・クラスタを発生する手段とを更に備えている請求項２に記載のシステム。 9. 内容に基づいて複数のテキスト片を処理して、各テキスト片の内容を表しているフレーズの表から成るテキスト区分の指標を発生する段階、フレーズをグループにまとめ、それらのフレーズの間の所定の関係程度に基づいてクラスタを発生する段階、複数のマップから成る階層構造を発生する段階（各マップは所定の関係程度に対応しており、マップは所定の関係程度におけるクラスタを図形的に記述していて、それぞれのノードがクラスタを表している複数のノードと、関係づけられるノードを接続している複数のリンクとから成っている）、所定のマップを選択する段階、この選択したマップをユーザーに表示する段階、前記の選択したマップに表示された特定のクラスタを選択し、そしてこの選択したクラスタに基づいて前記の複数のテキスト区分から一部分のテキストを抜き出す段階を備えている、内容準拠のテキスト処理・検索法。 10．処理が、複数のテキスト片をグループにまとめる段階、テキスト片の内容を指示するフレーズのリストから成る辞典を前記のグループにまとめたテキスト片から抜き出す段階、そして前記の辞典を各テキスト片と比較する段階を備えている請求項９に記載の方法。 11．グループにまとめる段階では辞典からテキスト片を集めるソフトウエア・アプリケーションを使用する請求項10に記載の方法。 12．辞典を抜き出す段階が、前記のテキスト片から空のワードを除く段階、前記のテキスト片から固有名詞と普通名詞とを抜き出す段階、一つのテキスト片内で反復されるフレーズを抜き出す段階、そして前記のテキスト片から名詞フレーズを抜き出す段階を備えている請求項１０に記載の方法。 13．名詞フレーズを抜き出す段階が、名詞を有するフレーズを抜き出すためテンプレートと前記のテキスト片内の複数のフレーズとを比較する段階を備えている請求項１２に記載の方法。 14．その内部の各ワードと関連したタグを備え、各ワードを区分するようになっているセミオティック・データ構造を辞典に基づいて発生する段階、このセミオティック・データ構造に基づいて複数のマップを相互に比較し、前記のマップにより示される関係における変化を示しているシナリオを発生する段階を備えている請求項１０に記載の方法。 15．タグは、人を示しているタグ、機能を示しているタグそしてトピックを示しているタグの一つから選択される請求項１４に記載の方法。 16．ユーザーが選択したフイルタ基準に基づいて前記の表示をフイルタして所定数のテキスト片を選択する段階と、所定数のテキスト片の索引から一つもしくはそれ以上のワードクラスタを発生する段階とを更に備えた請求項１０に記載の方法。 17．内容に基づいて複数のテキスト片を処理して、各テキスト片の内容を表しているフレーズの表から成る各テキスト片の索引を発生する手段、フレーズをグループにまとめ、それらのフレーズの間の所定の関係程度に基づいてクラスタを発生する手段、複数のマップから成る階層構造を発生する手段（各マップは所定の関係程度に対応しており、マップは所定の関係程度におけるクラスタを図形的に記述していて、それぞれのノードがクラスタを表している複数のノードと、関係づけられるノードを接続している複数のリンクとから成っている）を備えている、内容準拠のテキスト処理・検索システム。 18．複数のテキスト片をまとめる手段、テキスト片の内容を指示するフレーズのリストから成る辞典を前記のまとめたテキスト片から抜き出す手段、そして前記の辞典を各テキスト片と比較して各テキスト片の索引を発生する手段を備えている請求項１７に記載のシステム。 19．辞典からテキスト片を集めるソフトウエア・アプリケーションを備える請求項１８に記載のシステム。 20．前記の辞典抜き出し手段が、前記のテキスト片から空のワードを除く手段、前記のテキスト片から固有名詞と普通名詞とを抜き出す手段、一つのテキスト片内で反復されるフレーズを抜き出す手段、そして前記のテキスト片から名詞フレーズを抜き出す手段を備えている請求項１８に記載のシステム。 21．名詞フレーズを抜き出す手段が、名詞を有するフレーズを抜き出すためテンプレートと前記のテキスト片内の複数のフレーズとを比較する手段を備えている請求項２０に記載のシステム。 22．その内部の各ワードと関連したタグを備え、内容によりワードを区分するようになっているセミオティック・データ構造を辞典に基づいて発生する手段、そしてこのセミオティック・データ構造に基づいて複数のマップを相互に比較してシナリオを発生する手段を更に備え、前記のシナリオは前記のマップにより図形的に記述される関係における変化を示している請求項１８に記載のシステム。 23．前記タグは、人を指示するタグ、機能を指示するタグおよびトピックを指示するタグのうちの１つから選択される請求項２２記載のシステム。 24．テキストの所定数の片を選択するためユーザによって選択されたフィルタ基準に基づいて前記索引をフィルタリングする手段と、前記テキストの所定数の片の索引から１つまたはそれ以上のワードクラスタを発生する手段とをさらに備える請求項１８記載のシステム。 25．内容ベーステキスト処理および検索システムのための方法において、テキストの片の内容を表すフレーズのリストを備える索引を各片に対して発生するため内容に基づいてテキストの複数の片を処理し、前記フレーズの間の関係の所定の度合に基づいてクラスタを発生するためフレーズをグループ分けし、階層構造を発生し、該階層構造は、関係の所定の度合に各々対応する複数のマップを備え、前記マップは、前記関係の所定の度合でクラスタを図形的に表現し、１つのクラスタを各々が表す複数のノードおよび関連するノードを接続する複数のリンクを備えていることを特徴とする方法。 26．前記処理は、テキストの複数の片を収集し、該収集されたテキストの片から、前記テキストの片の内容を指示するフレーズのリストを備える辞典を抽出し、各テキストの片に対する索引を発生するため前記辞典を各テキストの片と比較することを含む請求項２５記載の方法。 27．前記収集は、インターネットからテキストの片を収集するためソフトウエラアプリケーションを使用する請求項２６記載の方法。 28．前記辞典の抽出は、前記テキストの片から空のワードを除去し、前記テキストの片から固有および普通名詞を抽出し、１つのテキストの片内で繰り返されるフレーズを抽出し、前記テキストの片から名詞のフレーズを抽出することを含む請求項２６記載の方法。 29．前記名詞のフレーズの抽出は、名詞を有するフレーズを抽出するため前記テキストの片内の複数のフレーズを１つのテンプレートと比較することを含む請求項２８記載の方法。 30．前記辞典に基づいて記号論的データ構造を発生することをさらに含み、前記記号論的データ構造は、各ワードをその内容によって類別するため該記号論的データ構造における各ワードに関連付けられたタグを備えており、さらにまた、前記記号論的データ構造に基づいて複数のマップを互いに比較してあるシナリオを発生することを含み、前記シナリオは、前記マップによって示された関係の変化を指示する請求項２６記載の方法。 31．前記タグは、人を指示するタグ、機能を指示するタグおよびトピックを指示するタグのうちの１つから選択される請求項３０記載の方法。 32．テキストの所定数の片を選択するためユーザによって選択されたフィルタ基準に基づいて前記索引をフィルタリングし、前記テキストの所定数の片の索引から１つまたはそれ以上のクラスタを発生することをさらに含む請求項２６記載の方法。 33．内容ベーステキスト処理および検索システムにおいて、テキストの片の内容を表すフレーズのリストを備える索引を各テキストの片に対して発生するため内容に基づいて複数のテキストの片を処理する手段と、フレーズの間の関係の所定の度合に基づいてクラスタを発生するためフレーズをグループ分けする手段と、階層構造を発生する手段であって、前記階層構造は、関係の所定の度合に各々が対応する複数のマップを備え、該マップは、前記関係の所定の度合での前記クラスタを図形的に表現し、各々が１つのクラスタを表す複数のノードおよび関連するノードを接続する複数のリンクを備えるような手段と、前記テキストの複数の片から記号論的データ構造を発生する手段であって、前記記号論的データ構造は、前記テキストの片の内容を指示するフレーズのリストおよび内容によってワードを類別するため前記記号論的データ構造における各フレーズに関連付けられるタグを備えるような手段と、前記マップによって図形的に表現された関係における変化を指示するシナリオを発生するため複数のマップを互いに比較する手段と、を備えることを特徴とするシステム。 34．前記タグは、人を指示するタグ、機能を指示するタグおよびトピックを指示するタグのうちの１つから選択される請求項３３記載のシステム。