JP2001513242A - テキスト処理及び検索システム及び方法 - Google Patents

テキスト処理及び検索システム及び方法

Info

Publication number
JP2001513242A
JP2001513242A JP53770498A JP53770498A JP2001513242A JP 2001513242 A JP2001513242 A JP 2001513242A JP 53770498 A JP53770498 A JP 53770498A JP 53770498 A JP53770498 A JP 53770498A JP 2001513242 A JP2001513242 A JP 2001513242A
Authority
JP
Japan
Prior art keywords
text
phrases
map
dictionary
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP53770498A
Other languages
English (en)
Other versions
JP4241934B2 (ja
Inventor
クロード ヴォジェ
Original Assignee
セミオ コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by セミオ コーポレイション filed Critical セミオ コーポレイション
Publication of JP2001513242A publication Critical patent/JP2001513242A/ja
Application granted granted Critical
Publication of JP4241934B2 publication Critical patent/JP4241934B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)

Abstract

(57)【要約】 検索をテキスト処理するための内容ベースシステムおよび方法が提供され、これにおいては、テキストの複数の片が各片に対する索引を発生するため内容に基づいて処理される。その索引は、テキストの片の内容を表すフレーズのリストを備える。それらのフレーズは、それらフレーズの関係の度合に基づいてクラスタを発生するためグループ分けされる。また、複数のマップを備える階層構造が発生される。各マップは、関係の所定の度合に対応しており、関係の所定の度合でのクラスタを図形的に表現し、また、各々が1つのクラスタを表す複数のノードおよび関連するノードを接続する複数のリンクを備える。マップは、ユーザに対して表示され、ユーザは、そのマップ上の特定のクラスタを選択し、ユーザによって選択されたクラスタに基づいてテキストの片からテキストの一部分が抽出される。本システムは、マップに基づいて、それらマップによって示された関係における変化を指示するシナリオをも発生しうる。

Description

【発明の詳細な説明】 テキスト処理及び検索システム及び方法 発明の背景 本発明は、一般的にはテキストを処理し、検索するためのシステム及び方法に 関し、特定的には大量のテキストを処理し、そのテキストの可視ディスプレイを 生成してユーザが迅速に探索できるようにするシステム及び方法に関する。 記憶容量の劇的な増加及びコンピュータハードドライブの費用の減少、及びコ ンピュータ通信の伝送速度及びコンピュータの処理速度の増加、及び会報ボード またはインターネットのようなコンピュータ通信ネットワークの拡大は、全て、 コンピュータデータベースを使用するテクスチャル(textual)データ情報の大 規模な記憶及び検索に貢献してきた。また現在、人々はこれらのデータベースを 通して大量のテクスチャルデータへアクセスしている。この技術は、テクスチャ ルデータを記憶し、それへアクセスすることを容易にするが、使用可能になった 大量なテクスチャルデータによって創り出された新たな問題が存在している。 詳しく説明すると、大量のデータを有するコンピュータデータベース内のテク スチャルデータへアクセスすることを試みる人は、無関係な情報を検索せずに、 所望の情報を迅速且つ効率的に検索するために、データを解析するためのシステ ムを必要とする。多くの典型的なテキスト探索及び検索システムは「トップダウ ン」システムであり、このシステムにおいては、ユーザは探索要求をフォーミュ レートするが、実際のテクスチャルデータへのアクセスは有していないので、所 望のデータを入手するためにはユーザが適切な要求で推測しなければならない。 テクスチャルデータを検索する従来の1つの「トップダウン」システムは、キー ワード探索システムである。キーワード探索システムにおいては、ユーザが1つ またはそれ以上のキーワードを使用して「照会」として知られる探索要求を作る と、そのキーワードを使用してデータベースの探索が遂行される。もしユーザが 所望のデータベースを検索する正確なキーワードを知っていれば、そのキーワー ド検索は有用な結果をもたらすことができる。しかしながら、殆どのユーザは所 望のデータを発生する正確なキーワード、またはキーワードの組合せを知ってい ない。更に、たとえ特定的に焦点を合わせたキーワードが所望のデータを検索で きるとしても、それらは偶然にその、またはそれらのキーワードを含む大量の無 関係なデータを検索するかも知れない。そのため、ユーザは所望のデータを見出 すために全ての無関係データを通してシフトしなければならなくなり、これは時 間を消費するプロセスであり得る。更に、コンピュータデータベース内の探索可 能なデータの量が増加するにつれて、このシフティングプロセスはより時間を消 費するようになる。 これらの従来のキーワードをベースとする検索システムは、人の言語に固有の 特性に関する別の問題をも有している。詳しく説明すれば、ユーザが選択したキ ーワードはテキスト内のワードと一致しないかも知れず、または2つの理由から 無関係な情報を検索してしまうかも知れない。第1に、キーワードの選択はその 人のニーズ、知識、または言語に依存するので、人が違えば同じオブジェクトを 記述するのに異なるキーワードを選択することになろう。例えば、1人の人はあ る特定のオブジェクトを「バンク(銀行)」と呼び、別の人は同じオブジェクト を「預金及び融資」と呼ぶかも知れない。従って、「バンク」を探索するキーワ ードは、たとえあるアーティクルがデータの関連片であり得るとしても、預金及 び融資を使用するより洗練されたユーザによるそのアーティクルの検索はなされ ないであろう。第2に、同じワードが1つより多くの別個の意味を有することが できる。即ち、異なる文脈に使用される、または異なる人が使用した場合の同一 のワードが異なる意味を有し得る。例えば、貯蓄銀行に関するアーティクルだけ を望んでいるのに、キーワード「バンク」は、川岸または貯蓄銀行についてのテ キストを検索し得る。従って、テキストの片が関連キーワードの全てを含んでい ても、完全に無関係であることがあり得る。 上述したようなキーワードをベースとするテキスト解析及び検索システムは、 トップダウンテキスト検索システムである。トップダウンテキスト検索システム においては、キーワード探索を行うユーザは、彼が探している情報を知っている ものとしており、それによりユーザは所望の情報を探知するためにデータベース に照会することができる。しかしながら、トップダウンシステムにおいては、ユ ーザは実際のテクスチャルデータへのアクセスを有しておらず、所望のテクスチ ャルデータを検索する適切なキーワードの選択を行うためにテキスト内のワード をサンプルすることはできない。他のトップダウンテキスト検索システムは、フ レーズをベースとする探索を行うことによって、キーワードテキスト検索システ ムの欠点の若干を補正することを試みている。これらは完全に無関係なテキスト 片を検索する恐れは無いように思えるが、所望のテキスト内に正確なフレーズが 存在しないかも知れないので、所望のテキストを見失う可能性が高くなり得る。 これらの全てのテキスト検索システムは、テクスチャルデータの片を検索する ためにキーワードを使用し、そのテクスチャルデータの内容をベースとする索引 を生成しないトップダウンテキスト検索システムである。これらのシステムは何 れも、ユーザが実際のテクスチャルデータの構造化バージョンを見ることがない ボトムアップアプローチを使用していない。テクスチャルデータの構造化バージ ョンは、テクスチャルデータの内容及び/または文脈の指示を与えるテクスチャ ルデータから抽出されたワード及びフレーズを有しているので、ユーザは使用可 能なテクスチャルデータの内容及び文脈をベースとするビューを有することがで き、内容をベースとするフレーズまたはワードに基づいてテクスチャルデータの 探索を遂行することができる。内容をベースとするフレーズは多数のフレーズを 迅速に審査する容易な手法を提供するので、構造化された内容をベースとするフ レーズによってユーザは大量のデータを通って容易に移動(ナビゲート)するこ とができる。 以上のように、既知のシステム及び方法のこれらの、及び他の問題を回避する 改善されたテキスト検索システム及び方法に対するニーズが存在しており、本発 明はこの目的を指向しているのである。発明の概要 本発明は、内容をベースとするテキストの図形的なロードマップをユーザに提 供し、それによりユーザが所望のデータを決定するために実際のテクスチャルデ ータのフレーズを見ることができるように、効率的なマッピングプロセスを使用 して全てのテキストを処理するボトムアップアプローチを使用するテキスト解析 及び検索システムを提供する。また本システムは、内容をベースとするマップを 走査することができ、テクスチャルデータの変化に関する情報を生成する。詳し く説明すると、マッピングプロセス中に、本発明はテクスチャルデータからワー ドまたはフレーズを抽出し、それらをワードクラスタとしてクラスタ化し、これ らのワードクラスタを組合せて内容をベースとする図形マップを形成することが できる。図形的に表示されるこれらのマップによって、ユーザは、キーワード探 索を行わずに実際のテクスチャルデータを通って迅速に移動し、関連情報を探知 することができる。走査プロセスは、時間に関して複数のマップ及びワードのク ラスタを記号論的に処理し、マップ及びクラスタの変化を指示するシナリオを発 生する。このボトムアップアプローチを用いると、ユーザはテクスチャルデータ 内の実際のワード及びフレーズを見るので、ユーザはテクスチャルデータ内で使 用されるキーワードを推定する必要はない。 内容をベースとするロードマップを生成するために、テクスチャルデータの各 片をパーズすることができ、テクスチャルデータ内のワードまたはフレーズを抽 出することができる。殆どの典型的な情報テクスチャルデータでは、テクスチャ ルデータの内容は、テクスチャルデータ内に含まれる1つより多くのワード(即 ち、フレーズ)のグループを審査することによって最も容易に決定することがで きる。フレーズは、2ワードであるか、または6ワード程度まで多いことができ る。これらのフレーズはテクスチャルデータの片の内容に関する殆どの情報を提 供し、ユーザはテクスチャルデータのその片が適切であるのか否かを決定するこ とができる。本発明は、どのような内容をも失うことなく、テクスチャルデータ の各片を要約するために、テクスチャルデータの各片を処理する際にフレーズを 利用する。 本発明は、より特定のテクスチャルデータ情報を含んでいる他のマップへのリ ンクをユーザが選択できるように、全体的なマップをユーザに表示できるシステ ム及び方法を更に提供する。即ち、システムは、異なるマップを生成することが でき、各マップは異なる程度の特異性を有することができ、そしてテクスチャル データの異なるサブセットを表すために使用できることからスケール可能である 。ユーザは、所望のデータに依存して、多くの異なる程度の特異性でテクスチャ ルデータを探索することができる。またシステムは、テクスチャルデータのその 片 が適切であるか否かをユーザが迅速に決定できるように、ユーザが選択したワー ドクラスタを有するテクスチャルデータの抄本を表示可能にする。 本発明によれば、テクスチャルデータを処理し、検索するためのシステム及び 方法が提供され、本システム及び方法においては、テキストの複数の片を内容に 基づいて処理し、テキストの各片毎にテキストの片の内容を表すフレーズのリス トからなる索引を生成し、フレーズをグループ化してフレーズの関係の程度に基 づいてクラスタを生成し、そして複数のマップからなる階層構造を生成する。各 マップは所定の関係の程度に対応し、マップはこの所定の関係の程度におけるク ラスタを図形的に描くものであって各々がクラスタを表す複数のノードからなり 、関連し合うノードを複数のリンクが接続している。マップがユーザに対して表 示され、ユーザがマップ上の特定のクラスタを選択すると、ユーザが選択したク ラスタに基づいてテキストの一部が上記テキストの片から抽出される。 本発明によれば、内容をベースとするテキスト処理及び検索システム及び方法 が提供される。本システム及び方法は、テキストの複数の片を内容に基づいで処 理し、テキストの各片毎にテキストの片の内容を表すフレーズのリストからなる 索引を生成し、フレーズをグループ化してフレーズ間の関係の所定の程度に基づ いてクラスタを生成し、そして複数のマップからなる階層構造を生成する。各マ ップは所定の関係の程度に対応し、マップはこの所定の関係の程度におけるクラ スタを図形的に描くものであって各々がクラスタを表す複数のノードからなり、 関連し合うノードを複数のリンクが接続している。上記テキストの複数の片から 記号論的データ構造を生成させることができ、この記号論的データ構造はテキス トの上記の片の内容を指示するフレーズのリストからなる。上記記号論的データ 構造内の各フレーズにはその内容によってワードを分類するタグが組合されてい る。複数のマップは記号論的データ構造に基づいて互いに比較することができ、 上記マップによって図形的に描かれた関係の変化を指示するシナリオが生成され る。図面の簡単な説明 図1は、従来のトップダウンテキスト検索システムの概要図である。 図2は、本発明による総合的なボトムアップ文脈及び内容をベースとするテキ スト処理及び検索システムの概要図である。 図3は、図2のボトムアップ文脈及び内容をベースとするテキスト処理及び検 索システムの一部の概要図である。 図4は、本発明によるテキスト処理及び検索システムに使用することができる コンピュータクライアント・サーバを示す図である。 図5は、本発明によるテキスト処理及び検索システムの概要図である。 図6Aは、本発明によるテクスチャルデータを処理し、検索するための総合的 な方法の流れ図である。 図6Bは、本発明によるシナリオを生成するための方法の流れ図である。 図7は、本発明によるテキストの片と記号論的データ構造との比較から生成さ れたマップを示す図である。 図8は、図6Aに示す総合的な方法の一部である本発明によるテクスチャルデ ータを処理するための方法の流れ図である。 図9は、本発明による辞典を生成するための方法の流れ図である。 図10は、本発明による辞書を生成するための方法の流れ図である。 図11は、本発明によるクラスタ及びマップを生成するための方法の流れ図で ある。 図12は、2つのサンプルテキスト片から作成されたマップの例の概要図であ る。 図13は、図6Aに示す総合的な方法の一部である本発明によるテクスチャル データを検索するための方法の流れ図である。 図14は、本発明によるメタマップ及び幾つかのサブマップの図である。 図15は、テクスチャルデータのサンプル片のためのメタマップの例である。 図16は、図15のテクスチャルデータのサンプル片のためのサブマップの例 である。 図17は、ユーザが図16に示すサブマップから種々のクラスタを選択するこ とを示す図である。 図18は、図17に示すユーザ選択に基づいてテクスチャルデータのサンプル 片から抽出されたテキスト抄録を示す図である。好ましい実施例の詳細な説明 本発明は、特にクライアント−サーバーネットワーク環境におけるテキストデ ータの処理及び検索システムに好適である。本発明はこのような文脈にしたがっ て説明される。しかし、本発明に従うシステムと方法は、利用性が高いことを理 解されたい。 図1は、従来のトップダウンテキスト検索システム30の概略図である。トッ プダウンシステムは、テスキトデータの複数の片を含むテキストデータベース3 2を有する。テキストデータベースからのデータを検索しようとするユーザは所 望の情報について思考し、そのデータベースからその情報を得るのに助けとなる 質問を考える。特に、ユーザーは、所望の情報を特徴づける質問の”最良”の推 考であるような、論理演算子によっておそらく接続された1つ以上のキーワード を有するキーワード質問36を発生する。そのキーワード質問はつぎに、データ ベースに送られ、その質問に基づいて、データベースは関連するあるいは関連し ないテキストデータを含むキーワードを含むテスキトデータ応答38を返信する 。このシステムはキーワード質問を発生する前には、データベース内で実際のテ キストデータをユーザーがプレビューすることが許されないので、サーチの成功 割合は低いものと考えられる。さらに、データベースから戻されたテキストデー タは、ユーザーがフィルターをかけねばらならい、ドキュメントとして知られる 多くの関係のないテキストデータを含む可能性がある。したがって、このシステ ムは極めて非効率で、時間浪費的である。これらの問題を回避する本発明に従う ボトム−アップテキスト処理及び検索システムをここに説明する。 図2は、本発明に従うボトム−アップ文脈及び内容ベーステキスト処理及び検 索システム24の概略図である。このシステムは、図3及び図6Aを参照しで記 載されるマッピングサブ−システム25及び、図6Bを参照して記載されている スキャンニングサブ−システム26を備えている。このマッピングシステムは、 ユーザーのシステムがテキストの片を検索するために実際のテキストの構築され たバージョンを見ることができるようになっている。スキャンニングサブ−シス テムはマップとして知られる、マッピング部分によって発生する実際のテキスト の構築されたバージョン及び当該マップ内で発生するを活用することができる リトリーブ”ストーリー”の変化を発生するために異なる時間で複数のマップを ”スキャン”することができるようになっている。例えば、会社の役員会に関連 して記載された人が変わった場合には、スキャンニング部分はその変更をハイラ イトるすることができる。このシステムのユーザーはマッピング部分あるいはス キャンニング部分を別々にあるは組合せた形態として利用することができる。 マッピングサブ−システム24は、複数のロケーションからテキスト27を収 集することができる。エキストラクタ(extractor)28は辞典(1e xicon)29を発生するためにテキストを処理する。辞典はそれらの能力に 対して選択されたワード(単語)あるいはフレーズのリストとすることができ、 これによって1つのセンテンスに対する文脈を与えることができる。辞典は、図 9を参照して以下に記載する。テキスト27は、次に、情報クラスタリング処理 30において、辞典29と比較される。この処理においては、索引がテキストの それぞれの片に対して生成される。その索引は、辞典及びテキストに存在するワ ードあるいはフレーズを含むことができる。複数のマップ31−33をこれらの 索引から生成することができ、これらの索引は図15−17に示して以下に説明 するようにワードあるいはフレーズの互いの関係を図形的に表すようになってい る。 これらのマップは、たとえば、第1時間t0、第2時間t1第3時間t2、で発 生させることができる。これらのマッピングサブ−システムはユーザーに対して 、以下にのべるように大きな最初の数のテキストの片を迅速に形成するテキスト を検索する能力を与える。マッピングサブ−システムはスキャンニングサブ−シ ステムと結合して使用することも可能であり、これによってユーザーのサーチ能 力を増大させることができる。 スキャンニングサブ−システム26は最初に辞書ジェネレータ34を使用して 、辞典から辞書35を発生させることができる。辞書は、辞典において、ワード あるいはフレーズのリストとすることができる。この場合、図6Bを参照して以 下に説明するように、たとえば、俳優、機能、トピックといったワードあるいは フレーズを分類することに関連するタグを各ワードあるいはフレーズは持ってい る。マップ31−33の内部のワード群は辞書35を用いて記号として処理する こと ができ、これによってシナリオ(scenario)37を発生する。そのシナ リオは、たとえば、ある会社に以前全く関係していない人がその会社についての ストーリーに割り当てられたようなマップ間の変更を指示することができる。し たがって、シナリオは時間を越えて発生するテキストデータにおける変更及び傾 向を追跡することができる。したがって、会社は、周に1度特定に会社について マップを発生することができ、次に、たとえば、コンペティターに対する価値の あるビジネス情報であるような、会社における変更を追跡することができる、マ ップに対するシナリオを作成する。 動作中、会社は、農業のような特定の産業についての情報を要望することがで き、また農業産業の会社”X”に、更に興味をもつことがあろう。ユーザは、マ ッピングサブシステムを使用して、会社Xについて関連するワード又はフレーズ (phrase)を探し出し、及びマッピングサブシステムは、マップを生成することが できる。マッピングサブシステムは、会社Xと同じ主眼(focus)で、毎週、新し いテキストの片(piece)を組込むため、自動的に新しいマップを生成できる。ス キャニングサブシステムは、次に、マップを処理し、例えば、その会社の社長が 離れていることを示すことがあるシナリオを生成する。以下に記述するように、 それぞれの異なるユーザは、異なる主眼又は興味を持つことができ、またこのよ うにしてそれぞれのユーザに関する異なるシナリオが生成されることがある。こ こで、マッピングサブシステムをより詳細に説明していく。 図3は、本発明による、ボトムアップ文脈及び内容ベース(content-based)の テキストの、処理及び検索(retrieval)システムのマッピングサブシステム40 の概略図である。ボトムアップテキストの処理及び検索システムのマッピングサ ブシステムでは、図6Aに関して、以下により詳細に説明するように、テクスチ ャルデータ(textual data)42が処理されることができ、後述するように、テク スチャルデータのそれぞれの片に、ワード及び/又はフレーズのいくつかを含む ことができる、テクスチャルデータ44の構造化された形態(structured versio n)を生成するために解析されることがある。テクスチャルデータの構造化された 形態は、ユーザに、テクスチャルデータのそれぞれの片の内容及び/又は文脈に ついての知識を提供するワード又はフレーズを含むことができ、それにより、ユ ーザは、 テクスチャルデータの1つの片が関係があるかどうかを、簡単に決定することが できる。上述のように、テクスチャルデータの一断片の内容は、2語から約6語 であり得るフレーズから最も簡単に決定されるであろうが、しかし単一の単語が 、President Clintonのような適切な名詞のような、テクスチャルデータの内容 のいくつかを伝達することもできる。テクスチャルデータの部分から、フレーズ を抽出(extract)する方法の詳細は、図9に関して以下に説明していく。 構造化されたテキスト(structured text)のいくつかを、フィルタにより取り 除くために、ユーザは、ユーザが捜している情報の種類を通常記述する、広いフ ィルタワード(broad filter word)46をシステムに提供することができる。広 いフィルタワードは、OR,AND及び同様のものような、ブール連結子(Boolean con nectors)により分離される、複数のワードを含むことができる。テクスチャルデ ータの範囲を更に制限するために、ユーザは、該テクスチャルデータの日付、出 所(origin)又は位置(location)に基づいて制限されたテクスチャルデータを要求 することもできる。例えば、ユーザは、1995年より新しいデータのみ、又は ウェブベージからのテクスチャルデータのみを要求することができる。構造化さ れたテキストは、ユーザのフィルタワードに基づいてフィルタにかけられ、及び ユーザが、閲覧命令(browse command)49を使用して、テクスチャルデータの構 造化された形態を通して閲覧できるように、該フィルタにかけられた構造化され たデータは、ディスプレイ47上に、後述のようにマップとして知られる、ワー ド48の群(cluster)の関連(associations)として図示されよう。閲覧中、ユー ザは、後述のように、種々の異なるワード群を選択でき、及びこれらのワード群 に関連するテクスチャルデータを見ることができる。ひとたびユーザが、ワード 群の閲覧を完了し、所望のテクスチャルデータを特徴づける、適当な1又はそれ より多いワード群を探し出したら、ユーザはこれらのワード群を選択でき、及び システムは、適当なワード群を含むテキストの全ての片の抄録50を表示できる 。その抄録は、テキストの任意の特定の片の関連性を確定するために、ユーザに より簡単に検討されることができる。もし正しいデータが探し出されていなかっ たら、ユーザは、任意の点から検索を再開始し、関連する情報が探し出されるま で抄録を見続けることもできる。 本発明による、ボトムアップシステムの、このマッピングサブシステムでは、 ユーザは、テキストから抽出されたワード群のみを見るが、それは、これらのワ ードは、ユーザに、テクスチャルデータのそれぞれの片の内容及び/又は文脈に ついての知識を提供するからである。後述するように、テクスチャルデータの内 容及び/又は文脈の理解に貢献しない、テクスチャルデータのそれぞれの片内の ワードは、除去してもよい。このように、ユーザは、最も関係のあるワード群の みを見て、及び知識に基づいたキーワードの推量を行う必要なしに、適切なワー ド群を選択することができる。本発明に従った、ボトムアップ手法による、テキ ストの処理及び検索システムの詳細は、以下により詳細に説明していく。今から 、本発明による、テキストの処理及び検索のためのシステムを含むことができる 、クライアント−サーバネットワークコンピュータシステムの例を説明していく 。 図4は、本発明によるテキストの処理及び検索システムを含むことができる、 クライアント−サーバベースコンピュータシステム60の概略図である。示すよ うに、本発明によるテキストの処理及び検索システムは、企業又は個人のネット ワーク62内で完全に、動作することができるが、企業ネットワークの外部から の原文データにアクセスすることもできる。本発明に従って、テキストの処理及 び検索を行う、ソフトウェア及び/又はハードウェアを格納(store)するコンピ ュータは、企業ネットワーク内に設置することができるが、インターネットのよ うな、公開の(public)ワイドエリアネットワーク上に設置することもできる。企 業ネットワーク62はイントラネットとして知られ、また企業ネットワークを無 許可の外部アクセスから保護するファイヤウォール64内で完全に、設置するこ とができる。テキストの処理及び検索システムは、安全な方法で、イントラネッ トの外部から、ファイヤウォールを通してきたテキストを検索することができる 。一般的に、クライアント−サーバシステムは、データベースを格納するサーバ コンピュータと、サーバコンピュータと対話(interact)できるクライアントソフ トウェアの断片を実行している、1又はそれより多い、遠隔コンピュータシステ ムとを含むことができる。クライアント−サーバコンピュータシステムは周知で あり、そのためここでは記述しない。 イントラネットクライアントサーバシステムに関して、ファイアウォール64 内に位置するグローバルサーバ66は、以下に記述される様に、マップを生成す るためにテキストを処理し、ユーザが処理されたテキストを図形的に閲覧し且つ 関連するテキストデータを検索することを可能にするソフトウエアを含むことが できる。このソフトウエアは、マップを記号論的に処理して、マップ内の変化を 示すシナリオを発生することもできる。グローバルサーバによって処理されるテ キストは、第1のデータベース68及び第2のデータベース70の様な一つ以上 のデータベース内から引き出すことができる。テキストデータをグローバルデー タから閲覧して取り出し且つシナリオを発生するために、プライベイトな又は共 同のネットワークに取り付けられるコンピュータは、JAVAベースのソフトウ エアアプリケーションの様な、クライアントソフトウエア72の一部を有するこ とができる。このソフトウエアの一部は、グローバルサーバと相互作用して、ユ ーザが一組の語を図形的に検索して、図15−18に示される様なテキストデー タの関連する部分を引き出することを可能にし且つシナリオを発生する。 第1及び第2のワークグループ74、76は、クライアントソフトウエア72 によってアクセスすることができ、このソフトウエアは、ワークグループサーバ のフォルダに位置するテキストの一部分に位置する語のクラスターをユーザが検 索することを可能にする。ファイアウォール内に位置する保護グローバルサーバ 66に接続するのに加えて、クライアントソウトウエアは、例えば、インターネ ット上の保護ファイアウォールの外部に位置する第2のグローバルサーバ78に も接続することができる。第2のグローバルサーバは、一つ以上のウェブサイト 80、82からの複数のウエブページを集め、本発明に従ってウェブページ内の テキストデータを処理して語のクラスターにする。このことは、クライアントソ フトウエアを有するユーザが、ウェブページと関係する語のクラスターをグラフ ィカルに検索して、関連するウェブページを検索することを可能とする。テキス ト処理検索システムは、e−メールメッセージ、テキストデータベース、ウェブ ページ、及び他の形態のテキストデータを処理するのに使用することができる。 従って、システムは種々の異なる形態のテキストデータを処理することができる 。 ウェブページ、e−メール、ニュース及び団体情報の様な異なる形態のテキス トデータの各々は、異なる特徴を有する。各ウェブページは、テキストの断片で あり、多量のテキストが存在し、ウェブページによってアドレスされる話題は広 い範囲に渡る可能性がある。ウェブから発生された情報に付いては確実性がない 。他方、Eメールは、返答等のために断片データではなく、個人の特異性のため に様々な話題を有しているが、年代的に整理される。ニュースは、ほどほどの数 のドキュメントを有する傾向があり、話題が集中しており、年代的に整理される 。団体情報は、通常より個人的なドキュメントであり、団体内の品質制御のため に一層話題が集中している。これら異なる形態のテキストデータの各々は、それ を一義的なものとする特徴を有しているが、テキストデータの異なる形態の全て を処理することができ、且つボトムアップアプローチを使用して検索することが できる。ボトムアップアプローチにおいては、各クラスターがテキストの各組か ら構築され、マップとして知られるこのクラスターのグラフィカルな表現は、ユ ーザにテキストデータを案内するインタフェースとして使用することができる。 マップ内の時間変化を示すシナリオを、テキストデータから発生することができ る。 本発明に従うテキスト処理検索システムは、スタンドアローンコンピュータシ ステム内に完全に位置している。例えば、コンピュータは、例えば、経理部門が テキストデータを検索することを望むテキストデータの大規模データベースを有 することができる。本発明に従うシステムは、異なるコンピュータシステム上で 作動することができる。本発明に従うテキスト処理検索は高速であり、大容量の テキストデータを容易に扱うことができるので、通常、本システムは、より大き なコンピュータシステムで作動することができる。本発明に従うテキストデータ 処理検索システムのアーキテクチャを、次に記述する。 図5は、本発明に従うテキスト処理検索システム90のアーキテクチャを図示 している。サーバ91は、サーバ上で作動するソフトウエアを使用して、テキス トデータ92の複数の部分を処理するが、この間、ユーザがサーバと相互作用す ることを可能にするクライアントソフトウエア93の一部は、一つ以上の選択( 要求)94に基づいてテキストデータをユーザが図形的に閲覧することを可能に する。サーバ及びグライアント内に示されるエレメントは、機能ブロックダイア グラムであり、インデクサの様な機能は、サーバ内のプロセッサを制御するサー バ上で作動するソフトウエアとすることが出来る。この機能は、この機能を達 成するサーバ内のハードウエア回路によって実行することもできる。 システム内の機能ユニットの詳細を記述する前に、システムの全体動作が記述 される。初めに、テキストデータの複数の片を、インターネットの様な異なる位 置から集めることができる。次に、テキストデータのこれらの部分が処理され、 以下に記述される様に、テキストデータの片の内容を伝えるフレーズ及びワード のリストが発生される。通常、これらのフレーズ及びワードは、名詞がテキスト データの片の内容に関して最大の情報を一般的に与える理由から、名詞である。 テキストデータの処理は、ユーザがデータをシステムから検索しようとする試み に先立って、発生することができる。テキストデータの各片は次にフレーズと比 較されて、各テキストデータの文脈又は内容を伝えるワード又はフレーズを含む テキストデータの各片に対する索引を発生する。ユーザは次にフィルタワードを システムに与えることができ、次いで、このシステムはフィルタワードを含まな い索引を除去する。次に、残りの索引は以下に記述される様に、クラスター状に 一緒のグループにされ、ある程度の関係を有するフレーズが一緒のグループにさ れる。これらのクラスター及びこれらクラスターの関係の度合いは、システムの ユーザにマップとして図形的に表示することができ、マップは、階層的構造を有 することができ、異なる度合いの関係を有するクラスターは異なるマップ上に位 置される。これらのマップはユーザに対して表示するとこができ、このユーザは 、関連するクラスターの位置を見いだすために、マップを見、且つマップの階層 構造を通して移動することができるる。一つ以上の表示クラスターがユーザによ って選択される場合は、システムは、選択されたクラスターを含むテキストデー タの各部分の抄録を表示することができる。システムは、テキストデータを索引 に還元し、階層構造を有する複数のマップを発生し、ユーザが閲覧する情報を図 形的に表示し、ユーザが、多量のテキストデータからテキストデータを検索する ことができるが、以前として実際のテキストデータを見ることができる様にする 。このシステムは、異なった時間に自動的にマップを発生することができ、位置 を定めるために辞書を使用してマップを互いに比較し、シナリオとして知られる マップ内に示される関係の変化を表示する。次に、システムの詳細が記述される 。 サーバ91の内部で、テキスト92をエクストラクタ96に入力してよく、そ こで該テキストを以下に記載するように加工し、テキストデータに基づく辞典1 00を生成する。該辞典を、データベース・マネージメント・システム(DBM S)98に保存してもよい。辞書は、以下にFig.9を参照して記載するよう に、テキストから抽出されたワードの1種又は2種以上のクラスタのリストであ ってよい。辞書102は、さらに複雑なデータ構造であり、辞典から始まり、ワ ードのクラスタにタグを付け、それにより、例えば行為者、機能及びトピックス などの内容に基づく概念によって、各ワードのクラスタを分類する。該辞書(マ ップを記号論的に加工するのに使用されるもの)について、以下にFig.10 を参照して記載する。以下に記載するように、辞典及び辞書は、いずれもテキス トデータの内容又は文脈の理解に寄与しないワード又はフレーズを含むものでは ない。 辞典は、テキストデータの内容を伝達する句のリストであってよい。例えば、 ウェブページは、次のようなキャプション: 『左から右へ:私が最近追加したもの、紫色のバラ−1995年2月−「ビッグ・ジ ョン」、インクとアイロン。黄色のバラとハート。「スネーク」サウスウェスト 刺青』 を有する刺青を表示し、かつ本発明に従ってそこから抽出された、テキストデー タの内容を決定するのに十分な文脈を提供する句を有していてよい。抽出された 句は、『最近追加したもの』、『紫色のバラ』、『ビッグ・ジョン』、『黄色の バラ』及び『サウスウェスト刺青』であってよい。これらの句は、ウェブページ の内容を決定するのに十分なテキストデータに関する情報を、読み手に提供する 。 レキシコンを生成する場合、バイグラム(bigrams)として知られている2語 の句が重要である。バイグラムが重要な理由は、それが、上記の通り、単一の単 語はその単語が使用されている文脈によって複数の意味を持ち得る、という言語 に関する問題を解決し得ることにある。上記の例では、"bank"は『銀行(saving bank)』であるかあるいは『川岸(river bank)』であって、"bank"というワー ドだけに基づいて決定することは不可能である。他の例として、"Internet"とい うワードはファジーな範囲を有しており、複数の異なる文脈を持ち得るのに対し 、"Internet protocol"というバイグラムによれば、文脈を即 座に決定することが可能になる。さらに他の例として、"plot"というワードは、 不動産の区画、あるいは物語の筋を意味し得る。しかしながら、"garden plot" 及び"seamless plot"というバイグラムによれば、"plot"というワードの意味が 明確になる。"Clinton"などの、内容をも伝達し得る単一の語もある。辞典につ いて、以下にさらに詳細に説明する。 Fig.5に戻って、インデクサ(indexer)・ユニット104は、Fig. 7に示しかつ以下にさらに詳細に説明するように、辞典を生成するのに使用した テキストデータと異なるか又は同じであり得るテキストデータ92を、辞典10 0と比較し、テキストデータの各部分について索引106を生成する。該索引を DBMS98に保存してもよく、また同様に辞典中に含まれているテキストデー タの各片におけるフレーズのリストとしてもよい。該索引をクラスタライザ(cl usterizer)・ユニット108に供給してもよく、下記の通り、そこである程度 相互に関連を有するインデックスの範囲内で句を分類してよく、同様にDBMS に保存してよいクラスタ110を生成してもよい。クラスタのグラフィック表示 を、以下に説明しかつFig.15〜17に示すように、マップ・ジェネレータ ・ユニット111により生成してもよい。クラスタ112のグラフィック表示は 、マップとして知られ、DBMSに保存してもよく、またクライアント・ソフト ウェア93にダウンロードして、マップがクライアント・ソフトウェアに表示さ れるようにしてもよい。複数のマップを階層構造にまとめあげ、関連の程度の相 違するクラスタを異なるマップに配置してもよい。するとユーザは、上記の通り 、マップを見て、該ユーザの選択(要求)に基づいて階層構造中をナビゲートし てよく、また関連すると思われる1又は2以上のクラスタを選択してもよい。各 クラスタは、テキストの1又は2以上の部分に対応していてよい。ついで、サー バ91は、選択されたクラスタを含むテキストの部分の一部を含む抄録を生成し てよく、また該抄録116はクライアント・コンピュータ93上に表示される。 マップ112に対し、辞書102を使用して記号論的加工118を施し、シナリ オ120を生成してよい。該シナリオをクライアント・コンピュータ93上に表 示してもよく、マップ中に示された関連性の変化を一定期間示してもよい。ここ で、テキストデータの加工及び検索に関する全体的な方法を、Fig.6A及び 6Bを参照して説明する。 Fig.6Aは、本発明により、Fig.4のシステムに使用するテキストデ ータを加工し検索するためのマッピング法130を示す、フローチャートである 。まず、上記の通り、テキストデータの複数の片を異なる場所から集め、データ ベースに保存し、次いで加工132を施して辞典を生成してよい。この加工は、 『空の』ワードとして知られる、テキストデータに何らの文脈をも付与しないワ ードを、テキストデータの部分から除去するものであってよい。例えば、様々な ワードのうち、"a"及び"the"などの冠詞、前置詞、及び動詞は、除去されてもよ い。なぜなら、これらの空のワードは、テキストデータに何らの文脈をも付与し ないからである。例えば、『クリントン大統領は今朝ボブ・ドール上院議員とと もにランニングに出かけた。("President Clinton went running this morning with Senator Bob Dole")』という句の意味のある単語は、『クリントン大統 領("President Clinton")』、『ランニング("running")』、『朝("morning ")』、『ボブ・ドール上院議員("Senator Bob Dole")』である。このテキス トの加工について、Fig.8を参照してさらに詳細に説明する。テキストの加 工の間、テキストデータの各部分を辞典と比較し、テキストデータの各部分につ いて索引を生成してよい。このようにして、加工の出力は、テキストデータの部 分中及び辞典中に出現するフレーズのリストを含む、テキストデータの各部分に ついて索引となる。該索引は、テキストデータの片の内容についての何らかの理 解を提供するワード又はフレーズのみを含む、テキストデータの片のバージョン である。ステップ134において、下記の通り、分離して出現するよりも一緒に 出現することの多いフレーズを相互に関連付けて、索引をクラスタ化してもよい 。かくして、テキストデータの各片は、そこに関連付けられた1又は2以上のフ レーズのクラスタを有することとなる。 処理は、いずれかのユーザーがシステムからいずれかのテクスチャルデータを 検索することを試みる前の時点で発生し、ユーザーの検索が処理ステップによっ て遅延されないようにするのが好ましいが、処理は検索中に発生するかもしれな い。そのステップの結果は、ユーザーが文字データを検索することを試みている 時に、リアルタイムで発生するかもしれない。生成されるクラスタをサーバーに 記憶し、ステップ136でフィルタして、ユーザーが関心を持つ情報のタイプを 広く記述する、ユーザーによって入力された広いフィルタワードに基づいて、フ ィルタされたインデックスを生成するようにすることができる。この広いフィル タワードはキーワード照会ではなく、ユーザーが検索しなければならないデータ 量を減少するためにインデックスに加えられた文脈ベースのフィルタである。ま た、広いフィルタワードは、例えば日付け、出所に基づくテクスチャルデータを 制限することによって、テクスチャルデータの量を制限することもできる。この ように、テクスチャルデータをいくつかの異なる基準に基づいてフィルタするこ とができる。例えば、もし、ユーザーが航空機会社役員に関する記事を探してい るならば、広いフィルタワードは、「航空機」もしくは「飛行機」となり得る。 ステップ138では、サーバーは、以下に記述するように、ワードもしくはフレ ーズのフィルタされた索引もしくはクラスタを使用し、図15−17に示すよう に、クラスタを共に1もしくは1よりも多数の図表のマップに接続する。これら のテキスト処理ステップは、システムのユーザーが、テクスチャルデータ内の実 ワード及びワードのクラスタを見て、ワードのクラスタ中を検索して、所望の情 報を探し出すことを可能にする。これらのテキスト処理ステップは、本発明に従 うシステムのボトム−アップアプローチの部分である。本発明に従うテクスチャ ルデータを検索するための方法の概要を説明する。 以下のステップは、本発明に従って、どのようにユーザーがテクスチャルデー タを検索し、シナリオを生成するかを記述する。これらの検索ステップは、ユー ザーが、迅速に、図表で表示されたクラスタ中を検索し、テクスチャルデータの 相当する部分を探し出すことを可能にする。最初に、ステップ140では、ユー ザーが見るために、先に生成されたマップがクライアントのソフトウェアによっ て表示される。以下に説明し、図15−17に示すように、マップは、より詳細 なクラスタを有するかもしれない他のマップへのリンクを有することもできる。 図6Bを参照して以下に説明するように、マップは記号的に処理され141、シ ナリオを生成する。ユーザーは、ステップ142でマップから1もしくは1より も多数のクラスタを選択でき、システムは、ユーザーによって検索された1もし くは1よりも多数のクラスタを含むステップ143でデータベース内のテキスト 部分の要約を表示する。ステップ144では、ユーザーは、別の検索を実施する ことを選択できる。本発明によると、更なる検索をいずれのポイントからても開 始でき、ユーザーが更なる検索の開始を望む場所に応じて、本方法がステップ1 36もしくはステップ140のどちらか一方に戻れるようにしている。もし、更 なる検索が要求されないならば、本方法は終了する。図7及び図8を参照して、 図6Aに示される全体的な方法の一部であるテキスト処理ステップの詳細を説明 する。 図6Bは、全体的な方法の一部であるスキャニング方法145のフローチャー トであり、マッピング方法と組み合わせることができる。ステップ146では、 辞書が辞典に基づいて生成される。辞書の詳細は図10に関して説明され、図1 0では、辞典のワード及びフレーズは、ワードもしくはフレーズが例えば関係者 、職業、主題かどうかを示すそれらに関するタグを有する。次に、ステップ14 7では、1もしくは1よりも多数のマップ上のクラスタは辞書を使用して処理さ れ、ステップ148でシナリオを生成する。マップは、異なる時間(例えば、1 週間に1度)に生成され、処理は、シナリオとして知られるマップ上のクラスタ の関係の変化を検知する。例えば、会社Xに焦点をあわせられた多数のマップが 処理されて、ある技術に関して主要な従業員が会社Xを去ったことを示すシナリ オを生成するようにする。このタイプのシナリオデータは、会社Xと競争してい るか、会社Xの取得を考えている別の会社にとって貴重であるかもしれない。 辞書を使用する記号処理は、マップの情報を減少して、3つの基本タイプの情 報、1)誰がテキスト中にいるのか(人)、2)その人の職業は何か(職業)、 3)文脈は何か(主題)のフォーマットを調べるのを容易にする。このように、 スキャニングマップによって、例えば、通常の産業の会社が新しい産業に入るこ とを決定できる。 辞書を使用する記号処理は、マップに基づくビルディングストーリー(誰、何 、コンテキスト)に焦点をあて、ユーザがテキストの一部を容易に調べることが できるようにする。例えば、2つの別個の会社に関連する1人の人に関する長い 記事を、その人、及び、両方の会社に対するその人の関係に縮小することができ る。記号処理は関係の変化を検知することもできる。マップを生成するための方 法を説明する。 図7は、本発明によるマップを形成するための方法150を図示する。辞書1 52及び一つのテキスト154を互いに比較する。文字及び及び記号論的データ 構造のデータのフレーズの交差部分155が索引としてストアされうる。次いで 、複数のテクスチャルデータの索引が以下に示すようにクラスタになり、マップ 156に変換される。マップは、索引に包含されるフレーズを表す複数のノード 157と、複数のリンク158とを有し、該リンクは互いにクラスタとなるノー ドと一緒にリンクする。 図8は、図6Aに示した全体の方法の一部である発明に関するテキスト処理に 関する方法160を図示するフローチャートである。これらのテキスト処理ステ ップは、いつでも実行されるが、テキスト処理が生じておらず、ユーザの試みが テクスチャルデータを検索するようにサーバ内のテクスチャルデータが更新され 又は追加されるときに実行されるのが好ましい。最初のステップ162では、複 数の一つのテキスト(該テキストは、ドキュメント、ウェブページ、Eメールメ ッセージ、若しくはニュースポスト、又はそれらの全ての組み合わせであってよ い)が、互いに集まり、システム内にストアされる。インターネットコンテキス トでは、これらの一つのテキストは、ロボットとして知られるサーバで実行され るテキストギャザリングソフトウェアアプリケーションによって集められ、イン ターネットのような広域ネットワークにおける複数の本質的に異なる場所から集 められる。インターネットシステムに関して、一つのテキストは、データベース 、又は、会社の全てのEメールメッセージをストアしたコンピュータに既に配置 されうる。いったん、一つのテキストが集められたならば、ステップ164にお いて、辞書が集められた一つのテキストから抽出されうる。辞書は図9を参照し て説明されうる。全ての文字データの一つにおけるテキスト処理フィルターは、 「a」、「the」、「at」のようなストップワードのような、テキストの一 つのコンテキストに寄与しない空虚なワードを除去し、テキストの特定のピース のコンテキストを伝えるようなフレーズだけを保持する。一般的には、これらの フレーズは、6ワードまでの2つを包含する。従って、出力は、テキストのピー スを満たすように伝えるワードの実質的なクラスタにテキストの各ピースを 落とす目的に価値があるように考慮されるフレーズのリストであってよい辞書で ある。辞書の生成は連続的に発生し、索引が生成され、テキストの追加の片が集 められ、解析されたワードが辞書に加えられ、次いでインデックス化される。 辞書が生成されているとき、又は、辞書が生成された後、テキストの各片は、 ステップ169において索引を生成するためにステップ168において辞書と比 較される。索引は、フレーズ(2又はそれ以上のワード)又は、テクスチャルデ ータ及び辞書のピースの両方に現れるワードのリストを包含する。従って、テク スチャルデータの各片に関する索引は、ワード又は、テクスチャルデータの各片 の内容及び/又は文脈を伝達するフレーズを包含する。全ての空虚なワードが除 去され、テキストの各ピース内に残った文脈ワードがストアされるので、この索 引はテキストの各片の低減したバージョンであると考えられ得る。空虚なワード は、以下に示したように、句読点に沿ってストップリストに包含されうる。これ らの空虚なワードは文脈をテキストに加えることはなく、テクスチャルデータの 各片をストップリストと比較し、ストップリストワードを除去することによって 除去されうる。いったん、テキストの各ピースがインデックス付けされたならば 、いくつかのインデックスは上述のように、クラスタ及びこれらのクラスタのマ ップを生成するために使用され、ユーザは、再ソートすることなく大量の文字デ ータからキーワード検索までのテキストの関係するピースを突き止め、検索する 。いま、本発明による辞書を生成する方法を記載する。 図9は、本発明により辞書を生成するための方法170のフローチャートであ る。上述のように、辞書は、フレーズのリストであって良く、各フレーズは2乃 至6ワードからなるのが好ましく、テキストの片に最大量の文脈を与える。辞書 はまた個々のワードから成っても良い。いったん、テキストの片が集められたな らば、一連の3つの処理ステップは、文字データから所定のアイテムを抽出する ように実行されうる。これらの処理ステップは、例えば、適当な名詞及び普通名 詞抽出、繰り返されるセグメント抽出、及び、ステップ172、174及び17 6に示したようなシンタックス解析を含む。以下に示すこれらの処理ステップの 各々は、テクスチャルデータからの所定のワード又はワードのクラスタを抽出す るサーバで稼働するソフトウェアの異なるピースによって各々、テキストのピー スを通る単一のパスで生じるが、各ステップは別々に記載する。これらのテキス ト処理ステップを理解するために、本発明によるシステムが、システム内にスト アされたストップワードのリストを有することを理解する必要がある。ストップ リストは、図6Aを参照して上で記載した。以下で記載するいかなるテキスト処 理ステップの前に、ストップリスト内に包含される全てのワードは、文字データ の各片から除去されうる。 適当な名詞及び普通名詞抽出ステップ172において、適当な名詞及び普通名 詞は、テキストの各ピースから識別され、抽出される。適当な名詞を抽出するた めに、テキストは解析され、「Bill Clinton」のような大文字の最 初の文字を備えるワードが抽出される。抽出されたワードは適当な名詞と仮定さ れ、スローガンのようなシーケンスを排除するために簡単な経験上のルールに基 づいてフィルタにかける。普通名詞を抽出するために、テキストは解析され、全 てのストップリスト、全ての句読点、及び全ての不定詞動詞は無視される。連字 (bigram)として知られる少なくとも2つのワードを備える残りのフレー ズは、普通名詞と仮定され、辞書に配置される。例として、短い段落を示し、普 通名詞フレーズを本発明によるそれから抽出する。段落は以下のものである: "As mentioned in the topic summary,Designer does not allow for placemen t of dimensions against features which might be considered as theoretica l representations.Examples include profile,or silhouette,outlines of cylinders and other curved parts,where the representative geometry is d irectly dependent on current viewpoint." ストップリスト(stoplist)に属している全ての語に対してスラッシュ(斜 線)、(スペース及び句読点のような)全てのブレークに対してダッシュ、及び 全ての不定詞に対してスキップ(“>”)を代入した場合には、以下に示すよう な3つのダイグラフが抽出されうる。段落(パラグラフ)は、処理の後、 -/mentioned//topic summary-Designer//>/placement/ >/>///mconsidered/theoretical representations-Examples >>-/>->/cylinders//curved>-//representative geometry//dependent/current viewpoint-- のようになる。 理解できるように、段落は、かなり低減されかつ以下の通常名詞ダイグラフ “topic summary”、“theoretical representation”、“representative geom etry”、及び“current view point”が抽出されうる。更に、“Designer”は、 固有名詞として抽出されうる。ここで、繰り返し区分抽出を説明する。 繰り返し区分抽出段階174では、上述したように、ストップ−リスト及び いずれかの他の虚語を取り除くことによって2〜6語の句又はシーケンスがテキ ストの各部分内に見出されうる。繰り返し区分抽出では、繰り返される語の区分 は、それらの慣用的重要度を捕らえるべく検出され、かつ抽出されうる。一般的 に、語の最も頻繁に繰り返された群は、ダイグラフとして知られる、二語の句で ある。あらゆる繰り返し句が語彙辞書内に含まれうる。語彙辞書を生成する目的 に最適な句は、通常、二つ又は三つの語を含む。繰り返されるこれらの句又はシ ーケンスは、語彙辞書に記憶される。繰り返し区分抽出の例をここで説明する。 大きなニュース記事では、37,976の繰り返し区分が存在したが、繰り返し 区分の25,000以上がダイグラフであり、ストップワード(stopwords)を含 んでいるので取り除かれうる“in the”、“of the”、及び“on the”を含んで いる。しかしながら、繰り返し区分は、他のダイグラフと共に、ダイグラフ“op erating system”、“hard disk”、“cd-rom drive”、及び“homepage”も含 みうる。それらはストップワードを含まずかつテキストの理解に寄与するので、 これらのダイグラフは、記号データ構造に記憶されうる。 構文解析段階176は、上述したように、イントラネットシステムに対して 用いうるが、効率がよく、適時な構文解析を許可するにはインターネットコンテ キストにおけるテキスト情報のボリュームがあまりにも大きすぎるので、インタ ーネットコンテクストに対して、通常、使い勝手がよくない。構文解析パーサは 、テキストの各部分を分析しかつ、例えば、名詞、動詞、形容詞、又は副詞のよ うな、その品詞によって各語を分類しうる。このパーシング(構文解析)を実行 するために、システムは、語彙辞書に追加すべき品詞又は品詞の組合せのリスト を含みうる複数のテンプレートを有しうる。例えば、テンプレートは、全ての動 詞−動詞結合が語彙辞書内に記憶されるべきでないということを示しうる。本発 明 によれば、これらのテンプレートは、動詞句を避けて名詞句に集中する。上述し たように、文“Bill Clinton might go to Asia”の“might go”のような、文 中の動詞句は、いかなるコンテクストも文に加えない。文中のコンテクスト語は 、名詞句である“Bill Clinton”及び“Asia”である。これらのテンプレート及 び構文解析は、テキストから不要な句及び語を更に取り除くことを支援する。 上述したように、記号論的データ構造の生成は、追加のテキストデータが集 められるときに定期的に生じ、記号論的データ構造は、これらの新しいテキスト データからのあらゆる句を含むべく更新される。そこで、記号論的データ構造は 、定期的に構築されかつ新しいテキストデータが見出されたときにはいつでも改 良される。そこで、時間の経過と共に、記号論的データ構造は、不要なフレーズ を除去することでより鋭くなりかつ、事実、ある一定のユーザに対して訓練され うる。例えば、本発明を設置した航空機会社は、大部分が航空機に関連するフレ ーズを記号データ構造に記憶するように航空機部品を用いて記号データ構造を最 初に生成しうる。そこで、他の文書がシステムに追加される場合には、大部分が 航空機に関連するフレーズが抽出されるであろう。ここで、本発明による辞書を 生成する方法を説明する。 図10は、本発明による辞書を生成する方法180を示すフローチャートで ある。上述したように、辞書が語彙辞書に基づくので、辞書を生成する方法は、 語彙辞書を生成することによってステップ182で開始する。辞書は、以下に説 明するようにより内容−ベースであるような語彙辞書である。語彙辞書は、ステ ップ184において種々の内容−ベース類に対してパーズされうるしかつ内容− ベース類は、ステップ186における語彙辞書の各パーズに対して生成されうる 。内容−ベース類に対して語彙辞書をパーズするために、語彙辞書内のフレーズ 又はワードクラスタのそれぞれは、例えば、“an actor”、“a function”、又 は“a topic”のいずれかに分類されうる。Actorは、人間でありうるし、topic は、ある形の活動又は物理的対象物でありうるし、かつfunctionは、actor又はt opicを詳細に説明するものである。例えば、フェーズ“Bill Clinton has signe d a deal relating to a joint venture between companies for a new persona l computer.”は、以下の方法で分類されうる。“Bill Clinton”は、an actorであり、“signed a deal”及び“joint venture”は、functionsでありか つ“personal computer”は、topicでありうる。Topicsは、かなり多くの異なる クラス及びサブクラスが存在しうるので、規定することが更に難しいが、Roget' s Thesaurusのような一般的な資料が、語彙辞書内の句を分類するために用いら れる種々のtopicクラスを生成するために用いられうる。コンテンツ−ベース類 パーサの出力は、語彙辞書内の各パーサが又は語クラスタが一つ以上のコンテン ツ−ベース類タグを割り当てたような辞書である。例えば、句“super weather ”は、主要topicタグ(即ち、“weather”)、及びfunctionでありうる補助的タ グ(即ち、“super”)を有しうる。そこで、辞書は、語彙辞書を使用しうるが 、actor、function、又はtopicのような、語彙辞書における句のコンテンツ−ベ ース類を追加することによって語彙辞書を更に精緻なものにする。上述したよう に、語彙辞書又は辞書のいずれかが収集されたテキストを処理するためにシステ ムによって用いられうる。ここで、本発明によるクラスタ及びマップを構築する 方法を説明する。 図11は本発明によるクラスタ及びクラスタのマップを生成する方法のフロー チャートである。ステップ192では、ユーザーの選択した広範なフィルタワー ドを含むすべての部分のテキストデータの指標が集められてもよい。ステップ1 94〜198では、指標は後述するようにクラスタ化されてもよい。クラスタ化 システムへの入力はテキストの各部分のためには、複数の指標である。お互いに しばしば関連して認識されるフレーズはクラスタ化される。使用されるクラスタ 化アルゴリズムは、Bertrand Michelet博士により創出されたような公知の幾つ かのクラスタ化アルゴリズムの1つであってもよい。Bertrand Michelet博士の アルゴリズムの基本原理は2つの所定ワードのためのものであり、お互いに別と なるワードの確率及びワードが一緒と認識される確率は両方共計算される。一緒 と認識されるワードの確率がお互いに別と認識されるワードの確率より大きい場 合には、その後、ワードは一緒にクラスタ化される。 一度、フレーズが一緒にクラスタ化されると、テキストデータのすべての部分 のクラスタ化されたフレーズは図解マップに変換され、その例は図12及び図1 5〜17に示されている。マップはお互いのワードクラスタの関係を示す線と同 様に、ワードクラスタの図解表現を含んでいる。クラスタは異なる関係の度合い を有しているので、階層構造で組織化された複数のマップがあり、同じ関係の度 合いのクラスタは通常同じマップに配置されるようになっている。マップはまた 、後述するように、一緒にマップに接続されるシステムを有している。ステップ 194では、図15〜17に示されているように、太線がワードクラスタ間に形 成され、ワードクラスタ間の関係を示している。ステップ196では、各マップ はまた他のマップへのリンクとして動作するワードクラスタを有している。例え ば、ワードクラスタは図16に示されるように、リンクに接続されるマップにユ ーザーを移動するクリック可能なボタンであってもよい。したがって、本発明に よると、関連しているが異なるワードのクラスタを示すマップの階層がある。 図15〜17に示されているように、上記クラスタ化を基にして、フレーズの 関係がマップとして図解的に描かれている。クラスタをマップ化する目的のため 、メタマップとして公知である第1の最高レベルのマップはユーザーのフィルタ ワード及び幾つかの最も近いフレーズを含んでいる。例えば、メタマップは画面 上のクラスタを最小にするために一緒にリンクされた15のフレーズの合計を示 している。各マップに示されるクラスタの数は明瞭さを増加させるために減少さ れてもよい。マップはテキスト部分のワード及びフレーズのパターンをユーザー に迅速かつ容易に見えるようにさせ、ユーザーは彼らの探索の目的のためにどれ がもっとも適切なフレーズであるかを決定するようになっている。 図12は1つのマップ上の2つの異なるテキスト部分のワードのマップ化の1 つの例を示している。もっと複雑な例は図15〜18に関連させて後述されるだ ろう。テキスト202の第2部分はテキスト内にフレーズA及びCを有している が、テキスト200の第1部分はテキスト内にフレーズA及びBを有している。 この例の目的のため、古典語辞書または辞典が少なくともA,B及びCを含んで いると仮定しなさい。異なる位置に配置されるこれら2つのテキスト部分から、 マップ204が生成されていもよい。マップはAとB間の第1リンク206及び AとC間の第2リンク208を有していてもよい。これらのリンクはAとBが関 連し、AとCが関連しているが、BとCがお互いに関連していないことを図解的 に描いている。次に、本発明によるマップを使用してテキストを検索する方法を 説明しよう。 図13は本発明による図解マップに基づいてテキストを検索する方法220の フローチャートである。その方法は図6Aで示されている全体の方法の一部であ る。ステップ222では、メタマップとして公知である最高レベルのマップがユ ーザのため表示されてもよい。メタマップはシステムのユーザーにより選択され たフィルタワードとフィルタワードに近接に関連するクラスタを含んでいてもよ い。メタマップの例は図14に示され、後述されるだろう。ステップ224では 、ユーザーは選択し、上述したクリック可能なボタンを使用して図16に示した ようにマップのより低いレベルまで動かす。そうでなければ、その後ステップ2 26で、ユーザーはメタマップ内の適切なクラスタを選択し、ステップ228で 、選択したクラスタに基づいて図18に示されているように、システムは選択し たクラスタを含むテキスト部分からの抜粋を表示する。 ユーザーがより低いレベルのマップを選択したい場合には、その後ステップ2 30で、システムはズーミングとして公知のプロセスをより低いレベルのマップ に動かす。ユーザーがズームし続けると適当なマップが表示されるようになる。 その後、ステップ232で、ユーザーは適切なクラスタを選択し、ステップ22 8で、それらのクラスタを含むテキスト部分からの抜粋が表示される。ステップ 234では、ユーザーは更なる探索を実行するために選択されてもよい。もっと 探索がなされるようになると、その後、その方法はステップ222にループバッ クし、再び始まる。さもなければ、その方法は終了する。 本発明によるズーミングプロセスは幾つかのレベルで生じてもよい。例えば、 ブロードマップはWWWの全体をリストしてもよいし、一方、ズームすることが できるより低いレベルマップは、ある特別のウエブサイトに関連するクラスタを 含んでもよいし、一方、もっと低いレベルマップは、個々のウエブページに関連 するクラスタを含んでもよいし、最も低いレベルマップは、ウエブページ内のパ ラグラフに関連するクラスタを含んでもよい。別の例では、高いレベルマップは 多数回生じたクラスタをリストしてもよいし、一方、最も低いレベルマップは、 一度現れたクラスタをリストしてもよい。このように、ユーザは、自身が再検討 したい詳細のレベルを選択することもできるし、また、いずれかのレベルから他 のいずれのレベルにでも迅速に移動することもできる。ここで、メタ−マップと 幾つかのより低いレベルマップの一例を記述する。 図14は、互いに関連する第1のクラスタ242、第2のクラスタ244、お よび第3のクラスタ246を有するメタ−マップ240の一例を示す図である。 これらのクラスタは、あるテクスチュアルデータ内で互いに近接して現れるため 、互いに関連付けられている。これらのトップレベルのクラスタは各々、より低 いレベルマップに属してもよい。例えば、第1のクラスタ242は、この第1の クラスタに関連付けられている他のクラスタをも含んだマップB1 248に属 するが、メタ−マップ内のクラスタには関連付けられていない。同様に、第2の クラスタ244は、それに関連付けられている他のクラスタをも含んだマップ1 32250に属する。同様に、第3のクラスタ246は、この第3のクラスタ2 46に関連付けられている他のクラスタをも含んだマップB3 252にも属す るが、メタ−マップ上に表示されたクラスタには関連付けられていない。ユーザ がより低いレベルマップへ移動したときは、クラスタの更に詳細を示すこともで きる。スクリーン上に表示されるデータ量は制限されることから、メタ−マップ とより低いレベルマップと階層構造とによって、ユーザは、より多量のデータに わたってナビゲートすることができる。ここで、本発明によるテキスト検索シス テムの動作の一例を記述する。 図15乃至図18は、本発明によるテキスト検索システムの動作の一例を示し ている。この例では、一般に普及しているe−メールアプリケーションのための ドキュメンテーションである単一のテクスチュアルデータが用いられている。ド キュメンテーションは、上述したシステムを用いて、先ず、このドキュメンテー ションのコンテント(内容)若しくはコンテクスト(文脈)を伝達するようなワ ード(単語)若しくはフレーズ(句)のリストを含んだ記号論データ構造を発生 するために処理され、その後、この記号論データ構造に対してドキュメンテーシ ョンを比較することによって、ドキュメンテーションの索引が発生され得る。こ の索引は、ドキュメンテーションに加えて、記号論データ構造に含まれるワード のリストを含んでおり、また、単一のテクスチュアルデータがこの例では用いら れたことから、記号論データ構造とインデックスは同一である。インデックスは ドキュメンテーションのコンテントとコンテクストを伝達するものであり、また 、ドキュメンテーションの構造化サマリ(要約)であってもよい。インデックス のワード若しくはフレーズは、その後、クラスタを発生するべく、上述したワー ド若しくはフレーズの関係の度合いに基づいて互いにグループ化されてもよい。 図形マップは、これらのクラスタから発生され得る。この図形マップは、各々が クラスタを含んでいるような複数のノードや、互いに関連付けられたノードを接 続する複数のリンクを含んでいてもよい。図15に示されたトップレベル・メタ ーマップ260が発生される。このトップレベル・メターマップは、「docu ment(ドキュメント)」のようなユーザのフィルター・ワードを含むノード 262と、このフィルター・ワードに関連付けられた複数の他のノード264、 266を表示する。メターマップは、より低いレベルマップに対するリンクに加 えて、双方がメタ−マップ内のクラスタであるようなクラスタを含んでいてもよ い。例えば、クラスタ266は、フレーズ「appledouble」を含んで もよい。図16に示されているように、ユーザが「appledouble」ク ラスタ266をクリック・オンしたときは、「appledouble」クラス タ266を含んでいるより低いレベルマップ270が表示されてもよい。より低 いレベルマップはまた、フレーズ「appledouble」に関連付けられた クラスタを含んでいてもよいが、メタ−マップ260に示されたクラスタには関 連付けられていない。メタ−マップへ戻すように移動させるため、より低いレベ ルマップはまた、「ドキュメント」ノード262を含んでいてもよい。このよう に、クラスタは、いずれの一時においてもスクリーン上には制限量のクラスタが 示されるように階層方法で構成される。この方法で、ユーザは、全てのマップに わたって迅速に移動して、関連クラスタを突き止めることができる。 一旦ユーザが関係あるマップを突き止めると、図17に示されているように、 ユーザは、関連フレーズを含んでいると思われる1つ若しくは2つ以上のクラス タを選択することもできる。この例では、ユーザは、以下のクラスタ、即ち、1 )bin hex、2)format、3)previous version of eudora、および4)old Macintosh mailer 、を選択することができる。システムは、その後、選択されたこれらのクラス タを用いて、選択されたクラスタを含んでいる複数のテクスチュアルデータのエ キストラクト(抽出物)を検索する。この例では、図18に示されているように 、2つの異なるエキストラクトが表示され、これによって、ユーザは、それらの ドキュメントの全体を見ることなしに、それらが関連するかどうかを判断するこ とができる。ユーザは、エキストラクトを見た後に、階層内のマップのうちの1 つに戻って、他のクラスタにわたって拾い読みし続ける。 要約すると、本発明によるテキストデータを処理し検索するシステム及び方法 は、キーワード検索を使用せずに大量のテキストデータを検索する効率的な方法 を提供する。そのシステムは、まず、テキストデータに何らの文脈も与えない任 意のワードを除去して1つのテキストデータの内容を決定するためにユーザによ って使用されるワードまたはフレーズのみを残す辞典を生成する。内容ベースの テキストデータが各テキストデータと比較され、各テキストデータについてその テキストデータに文脈を与える内容ベースのフレーズのみを含むインデックスが 生成される。その後、上述したようにフレーズを相互に関連させるために、それ らのインデックスがクラスタ化される。これらのクラスタ化されたインデックス に基づいて、ワードのクラスタとそのクラスタの相互の関係を図解的に示すマッ プが生成される。そのマップも、階層構造を有し、その結果、ユーザにディスプ レイされるクラスタの数は少なくなる。マップは、ユーザに、複数のテキストデ ータをブラウジングして最小の努力で所望数のテキストデータを探し出す効率的 で迅速な方法を提供する。複数のマップが、異なる時間において、マップに示さ れる関係の変化を表すシナリオを生成する辞書を使用して処理される。これらの 変化は、例えば、会社または業界の傾向についての有益な情報を与える。そのシ ステムは、大量のデータを効率的に処理し、ユーザがテキストデータを迅速に検 索することをさらに可能にしている。 以上、本発明の特定の実施例について説明したが、当業者であれば、この実施 例の変更が、請求の範囲により定められる本発明の原理及び精神から逸脱するこ となく可能であることを理解するであろう。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),OA(BF,BJ,CF ,CG,CI,CM,GA,GN,ML,MR,NE, SN,TD,TG),AP(GH,GM,KE,LS,M W,SD,SZ,UG,ZW),EA(AM,AZ,BY ,KG,KZ,MD,RU,TJ,TM),AL,AM ,AT,AU,AZ,BA,BB,BG,BR,BY, CA,CH,CN,CU,CZ,DE,DK,EE,E S,FI,GB,GE,GH,HU,IL,IS,JP ,KE,KG,KP,KR,KZ,LC,LK,LR, LS,LT,LU,LV,MD,MG,MK,MN,M W,MX,NO,NZ,PL,PT,RO,RU,SD ,SE,SG,SI,SK,SL,TJ,TM,TR, TT,UA,UG,UZ,VN,YU,ZW

Claims (1)

  1. 【特許請求の範囲】 1. 内容ベースのテキスト処理検索システムにおいて、 内容に基づいて複数のテキストを処理して各テキストについて索引を生成す る手段を備え、前記索引は、テキストの内容を表すフレーズのリストを含み、 フレーズをグループ化してフレーズ間の所定の関係の程度に基づいてクラス タを生成する手段を備え、 階層構造を生成する手段を備え、前記階層構造は複数のマップを含み、各マ ップは1つの所定の関係の程度に対応し、前記マップは所定の関係の程度にお いてクラスタを図解的に示し且つ複数のノードを含み、各ノードは1つのクラ スタを表し、複数のリンクが関係のあるノードを接続し、 所定のマップを選択する手段を備え、 前記選択されたマップをユーザに表示する手段を備え、 前記選択されたマップに表示された特定のクラスタを選択する手段を備え、 そして、 前記選択されたクラスタに基づいて前記テキストの片からテキストの一部分 を抽出する手段を備える、 ことを特徴とするシステム。 2. 前記処理手段は、複数のテキストの片を収集する手段と、前記収集された複 数のテキストの片からその複数のテキストの内容を表すフレーズのリストを含 む辞典を抽出する手段と、前記辞典を各テキストと比較して各テキストについ て索引を生成する手段とを含む、ことを特徴とする請求項1に記載のシステム 。 3. 前記収集手段は、インターネットから複数のテキストの片を収集するソフト ウェアアプリケーションを含む、ことを特徴とする請求項2に記載のシステム 。 4. 前記辞典抽出手段は、前記複数のテキストの片から空のワードを除去する手 段と、前記複数のテキストの片から適当な共通の名詞を抽出する手段と、1つ のテキスト内で繰返されるフレーズを抽出する手段と、前記複数のテキストか ら名詞のフレーズを抽出する手段とを含む、ことを特徴とする請求項2に記載 のシステム。 5. 前記名詞のフレーズを抽出する手段は、名詞を有するフレーズを抽出するた めに1つのテンプレートに対して前記複数のテキスト内に複数のフレーズを含 む手段を含む、ことを特徴とする請求項4に記載のシステム。 6. さらに、前記辞典に基づいて記号論的データ構造を生成する手段を含み、前 記記号論的データ構造は、前記辞典の各ワードに関係してそのワードを内容に より分類するタグを含み、さらに、前記記号論的データ構造に基づいて複数の マップを相互に比較して、前記マップにより図形的に示される関係における変 化を表すシナリオを生成する手段を含む、ことを特徴とする請求項2に記載の システム。 7. 前記タグは、人を表すタグ、ファンクションを表すタグ、トピックを表すタ グの1つから選択されることを特徴とする請求項6に記載のシステム。 8. 所定数のテキストの片を選択するためユーザーにより選択されるフイルタ基 準に基づいて前記の索引をフイルタする手段と、前記の所定数のテキスト片の 索引から一つもしくはそれ以上のワード・クラスタを発生する手段とを更に備 えている請求項2に記載のシステム。 9. 内容に基づいて複数のテキスト片を処理して、各テキスト片の内容を表して いるフレーズの表から成るテキスト区分の指標を発生する段階、 フレーズをグループにまとめ、それらのフレーズの間の所定の関係程度に基 づいてクラスタを発生する段階、 複数のマップから成る階層構造を発生する段階(各マップは所定の関係程度 に対応しており、マップは所定の関係程度におけるクラスタを図形的に記述し ていて、それぞれのノードがクラスタを表している複数のノードと、関係づけ られるノードを接続している複数のリンクとから成っている)、 所定のマップを選択する段階、 この選択したマップをユーザーに表示する段階、 前記の選択したマップに表示された特定のクラスタを選択し、そして この選択したクラスタに基づいて前記の複数のテキスト区分から一部分のテ キストを抜き出す段階 を備えている、内容準拠のテキスト処理・検索法。 10.処理が、 複数のテキスト片をグループにまとめる段階、 テキスト片の内容を指示するフレーズのリストから成る辞典を前記のグルー プにまとめたテキスト片から抜き出す段階、そして 前記の辞典を各テキスト片と比較する段階 を備えている請求項9に記載の方法。 11.グループにまとめる段階では辞典からテキスト片を集めるソフトウエア・ア プリケーションを使用する請求項10に記載の方法。 12.辞典を抜き出す段階が、 前記のテキスト片から空のワードを除く段階、 前記のテキスト片から固有名詞と普通名詞とを抜き出す段階、 一つのテキスト片内で反復されるフレーズを抜き出す段階、そして 前記のテキスト片から名詞フレーズを抜き出す段階 を備えている請求項10に記載の方法。 13.名詞フレーズを抜き出す段階が、名詞を有するフレーズを抜き出すためテン プレートと前記のテキスト片内の複数のフレーズとを比較する段階を備えてい る請求項12に記載の方法。 14.その内部の各ワードと関連したタグを備え、各ワードを区分するようになっ ているセミオティック・データ構造を辞典に基づいて発生する段階、 このセミオティック・データ構造に基づいて複数のマップを相互に比較し、 前記のマップにより示される関係における変化を示しているシナリオを発生す る段階 を備えている請求項10に記載の方法。 15.タグは、人を示しているタグ、機能を示しているタグそしてトピックを示し ているタグの一つから選択される請求項14に記載の方法。 16.ユーザーが選択したフイルタ基準に基づいて前記の表示をフイルタして所定 数のテキスト片を選択する段階と、所定数のテキスト片の索引から一つもしく はそれ以上のワードクラスタを発生する段階とを更に備えた請求項10に記載 の方法。 17.内容に基づいて複数のテキスト片を処理して、各テキスト片の内容を表して いるフレーズの表から成る各テキスト片の索引を発生する手段、 フレーズをグループにまとめ、それらのフレーズの間の所定の関係程度に基 づいてクラスタを発生する手段、 複数のマップから成る階層構造を発生する手段(各マップは所定の関係程度 に対応しており、マップは所定の関係程度におけるクラスタを図形的に記述し ていて、それぞれのノードがクラスタを表している複数のノードと、関係づけ られるノードを接続している複数のリンクとから成っている) を備えている、内容準拠のテキスト処理・検索システム。 18.複数のテキスト片をまとめる手段、 テキスト片の内容を指示するフレーズのリストから成る辞典を前記のまとめ たテキスト片から抜き出す手段、そして 前記の辞典を各テキスト片と比較して各テキスト片の索引を発生する手段 を備えている請求項17に記載のシステム。 19.辞典からテキスト片を集めるソフトウエア・アプリケーションを備える請求 項18に記載のシステム。 20.前記の辞典抜き出し手段が、 前記のテキスト片から空のワードを除く手段、 前記のテキスト片から固有名詞と普通名詞とを抜き出す手段、 一つのテキスト片内で反復されるフレーズを抜き出す手段、そして 前記のテキスト片から名詞フレーズを抜き出す手段 を備えている請求項18に記載のシステム。 21.名詞フレーズを抜き出す手段が、名詞を有するフレーズを抜き出すためテン プレートと前記のテキスト片内の複数のフレーズとを比較する手段を備えてい る請求項20に記載のシステム。 22.その内部の各ワードと関連したタグを備え、内容によりワードを区分するよ うになっているセミオティック・データ構造を辞典に基づいて発生する手段、 そして このセミオティック・データ構造に基づいて複数のマップを相互に比較して シナリオを発生する手段を更に備え、前記のシナリオは前記のマップにより図 形的に記述される関係における変化を示している請求項18に記載のシステム 。 23.前記タグは、人を指示するタグ、機能を指示するタグおよびトピックを指示 するタグのうちの1つから選択される請求項22記載のシステム。 24.テキストの所定数の片を選択するためユーザによって選択されたフィルタ基 準に基づいて前記索引をフィルタリングする手段と、前記テキストの所定数の 片の索引から1つまたはそれ以上のワードクラスタを発生する手段とをさらに 備える請求項18記載のシステム。 25.内容ベーステキスト処理および検索システムのための方法において、 テキストの片の内容を表すフレーズのリストを備える索引を各片に対して発 生するため内容に基づいてテキストの複数の片を処理し、 前記フレーズの間の関係の所定の度合に基づいてクラスタを発生するためフ レーズをグループ分けし、 階層構造を発生し、該階層構造は、関係の所定の度合に各々対応する複数の マップを備え、前記マップは、前記関係の所定の度合でクラスタを図形的に表 現し、1つのクラスタを各々が表す複数のノードおよび関連するノードを接続 する複数のリンクを備えていることを特徴とする方法。 26.前記処理は、テキストの複数の片を収集し、該収集されたテキストの片から 、前記テキストの片の内容を指示するフレーズのリストを備える辞典を抽出し 、各テキストの片に対する索引を発生するため前記辞典を各テキストの片と比 較することを含む請求項25記載の方法。 27.前記収集は、インターネットからテキストの片を収集するためソフトウエラ アプリケーションを使用する請求項26記載の方法。 28.前記辞典の抽出は、前記テキストの片から空のワードを除去し、前記テキス トの片から固有および普通名詞を抽出し、1つのテキストの片内で繰り返され るフレーズを抽出し、前記テキストの片から名詞のフレーズを抽出することを 含む請求項26記載の方法。 29.前記名詞のフレーズの抽出は、名詞を有するフレーズを抽出するため前記テ キストの片内の複数のフレーズを1つのテンプレートと比較することを含む請 求項28記載の方法。 30.前記辞典に基づいて記号論的データ構造を発生することをさらに含み、前記 記号論的データ構造は、各ワードをその内容によって類別するため該記号論的 データ構造における各ワードに関連付けられたタグを備えており、さらにまた 、前記記号論的データ構造に基づいて複数のマップを互いに比較してあるシナ リオを発生することを含み、前記シナリオは、前記マップによって示された関 係の変化を指示する請求項26記載の方法。 31.前記タグは、人を指示するタグ、機能を指示するタグおよびトピックを指示 するタグのうちの1つから選択される請求項30記載の方法。 32.テキストの所定数の片を選択するためユーザによって選択されたフィルタ基 準に基づいて前記索引をフィルタリングし、前記テキストの所定数の片の索引 から1つまたはそれ以上のクラスタを発生することをさらに含む請求項26記 載の方法。 33.内容ベーステキスト処理および検索システムにおいて、 テキストの片の内容を表すフレーズのリストを備える索引を各テキストの片 に対して発生するため内容に基づいて複数のテキストの片を処理する手段と、 フレーズの間の関係の所定の度合に基づいてクラスタを発生するためフレー ズをグループ分けする手段と、 階層構造を発生する手段であって、前記階層構造は、関係の所定の度合に各 々が対応する複数のマップを備え、該マップは、前記関係の所定の度合での前 記クラスタを図形的に表現し、各々が1つのクラスタを表す複数のノードおよ び関連するノードを接続する複数のリンクを備えるような手段と、 前記テキストの複数の片から記号論的データ構造を発生する手段であって、 前記記号論的データ構造は、前記テキストの片の内容を指示するフレーズのリ ストおよび内容によってワードを類別するため前記記号論的データ構造におけ る各フレーズに関連付けられるタグを備えるような手段と、 前記マップによって図形的に表現された関係における変化を指示するシナリ オを発生するため複数のマップを互いに比較する手段と、 を備えることを特徴とするシステム。 34.前記タグは、人を指示するタグ、機能を指示するタグおよびトピックを指示 するタグのうちの1つから選択される請求項33記載のシステム。
JP53770498A 1997-02-18 1998-02-18 テキスト処理及び検索システム及び方法 Expired - Fee Related JP4241934B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/801,970 1997-02-18
US08/801,970 US5963965A (en) 1997-02-18 1997-02-18 Text processing and retrieval system and method
PCT/US1998/002981 WO1998038560A2 (en) 1997-02-18 1998-02-18 System and method for semiotically processing text

Publications (2)

Publication Number Publication Date
JP2001513242A true JP2001513242A (ja) 2001-08-28
JP4241934B2 JP4241934B2 (ja) 2009-03-18

Family

ID=25182484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP53770498A Expired - Fee Related JP4241934B2 (ja) 1997-02-18 1998-02-18 テキスト処理及び検索システム及び方法

Country Status (9)

Country Link
US (1) US5963965A (ja)
EP (1) EP0960376B1 (ja)
JP (1) JP4241934B2 (ja)
AT (1) ATE325387T1 (ja)
AU (1) AU6327898A (ja)
CA (1) CA2281645C (ja)
DE (1) DE69834386T2 (ja)
HK (1) HK1024076A1 (ja)
WO (1) WO1998038560A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004021763A (ja) * 2002-06-19 2004-01-22 Hitachi Ltd テキストマイニングプログラム、方法、及び装置
JP2006031577A (ja) * 2004-07-21 2006-02-02 Hideki Mima 情報の検索俯瞰方法および装置

Families Citing this family (189)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6178396B1 (en) * 1996-08-02 2001-01-23 Fujitsu Limited Word/phrase classification processing method and apparatus
US6311182B1 (en) * 1997-11-17 2001-10-30 Genuity Inc. Voice activated web browser
US6498921B1 (en) 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US5836771A (en) 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
JP3001047B2 (ja) * 1997-04-17 2000-01-17 日本電気株式会社 文書要約装置
US6910184B1 (en) 1997-07-25 2005-06-21 Ricoh Company, Ltd. Document information management system
US6038668A (en) 1997-09-08 2000-03-14 Science Applications International Corporation System, method, and medium for retrieving, organizing, and utilizing networked data
US6799174B2 (en) 1997-09-08 2004-09-28 Science Applications International Corporation Retrieving, organizing, and utilizing networked data using databases
US6272492B1 (en) * 1997-11-21 2001-08-07 Ibm Corporation Front-end proxy for transparently increasing web server functionality
JP4286345B2 (ja) * 1998-05-08 2009-06-24 株式会社リコー 検索支援システム及びコンピュータ読み取り可能な記録媒体
US7152031B1 (en) * 2000-02-25 2006-12-19 Novell, Inc. Construction, manipulation, and comparison of a multi-dimensional semantic space
US7197451B1 (en) * 1998-07-02 2007-03-27 Novell, Inc. Method and mechanism for the creation, maintenance, and comparison of semantic abstracts
US6169969B1 (en) * 1998-08-07 2001-01-02 The United States Of America As Represented By The Director Of The National Security Agency Device and method for full-text large-dictionary string matching using n-gram hashing
AU1122100A (en) * 1998-10-30 2000-05-22 Justsystem Pittsburgh Research Center, Inc. Method for content-based filtering of messages by analyzing term characteristicswithin a message
US6411950B1 (en) * 1998-11-30 2002-06-25 Compaq Information Technologies Group, Lp Dynamic query expansion
US6665681B1 (en) * 1999-04-09 2003-12-16 Entrieva, Inc. System and method for generating a taxonomy from a plurality of documents
US8327265B1 (en) 1999-04-09 2012-12-04 Lucimedia Networks, Inc. System and method for parsing a document
US6424982B1 (en) * 1999-04-09 2002-07-23 Semio Corporation System and method for parsing a document using one or more break characters
US7275061B1 (en) 2000-04-13 2007-09-25 Indraweb.Com, Inc. Systems and methods for employing an orthogonal corpus for document indexing
US6400845B1 (en) * 1999-04-23 2002-06-04 Computer Services, Inc. System and method for data extraction from digital images
US6714936B1 (en) * 1999-05-25 2004-03-30 Nevin, Iii Rocky Harry W. Method and apparatus for displaying data stored in linked nodes
US7086007B1 (en) 1999-05-27 2006-08-01 Sbc Technology Resources, Inc. Method for integrating user models to interface design
US7224790B1 (en) 1999-05-27 2007-05-29 Sbc Technology Resources, Inc. Method to identify and categorize customer's goals and behaviors within a customer service center environment
JP2003505778A (ja) * 1999-05-28 2003-02-12 セーダ インコーポレイテッド 音声制御ユーザインタフェース用の認識文法作成の特定用途を有する句ベースの対話モデル化
US6326988B1 (en) * 1999-06-08 2001-12-04 Monkey Media, Inc. Method, apparatus and article of manufacture for displaying content in a multi-dimensional topic space
US7181438B1 (en) 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
AU4476200A (en) * 1999-09-08 2001-04-10 James J. Andrus Global communications network mapping protocol
US6898530B1 (en) 1999-09-30 2005-05-24 Battelle Memorial Institute Method and apparatus for extracting attributes from sequence strings and biopolymer material
US7106329B1 (en) 1999-09-30 2006-09-12 Battelle Memorial Institute Methods and apparatus for displaying disparate types of information using an interactive surface map
US6990238B1 (en) 1999-09-30 2006-01-24 Battelle Memorial Institute Data processing, analysis, and visualization system for use with disparate data types
US6546387B1 (en) * 1999-11-15 2003-04-08 Transcom Software Inc. Computer network information management system and method using intelligent software agents
US6704722B2 (en) * 1999-11-17 2004-03-09 Xerox Corporation Systems and methods for performing crawl searches and index searches
US6868525B1 (en) 2000-02-01 2005-03-15 Alberti Anemometer Llc Computer graphic display visualization system and method
US6571240B1 (en) * 2000-02-02 2003-05-27 Chi Fai Ho Information processing for searching categorizing information in a document based on a categorization hierarchy and extracted phrases
US6834280B2 (en) * 2000-02-07 2004-12-21 Josiah Lee Auspitz Systems and methods for determining semiotic similarity between queries and database entries
US6473749B1 (en) * 2000-02-22 2002-10-29 Robert Scott Smith System and method for managing file content
US6564209B1 (en) * 2000-03-08 2003-05-13 Accenture Llp Knowledge management tool for providing abstracts of information
US6778643B1 (en) 2000-03-21 2004-08-17 Sbc Technology Resources, Inc. Interface and method of designing an interface
US20040006473A1 (en) * 2002-07-02 2004-01-08 Sbc Technology Resources, Inc. Method and system for automated categorization of statements
US7013323B1 (en) * 2000-05-23 2006-03-14 Cyveillance, Inc. System and method for developing and interpreting e-commerce metrics by utilizing a list of rules wherein each rule contain at least one of entity-specific criteria
US6983320B1 (en) * 2000-05-23 2006-01-03 Cyveillance, Inc. System, method and computer program product for analyzing e-commerce competition of an entity by utilizing predetermined entity-specific metrics and analyzed statistics from web pages
DE60119934D1 (de) 2000-05-25 2006-06-29 Manyworlds Inc Netzwerkverwaltungs- und zugriffssystem für unscharfe inhalte
GB2379539A (en) * 2000-05-26 2003-03-12 Ideaspace Inc Method and apparatus for organizing information and conducting thematic inquiry
US7822735B2 (en) * 2000-05-29 2010-10-26 Saora Kabushiki Kaisha System and method for saving browsed data
US7653530B2 (en) * 2000-07-13 2010-01-26 Novell, Inc. Method and mechanism for the creation, maintenance, and comparison of semantic abstracts
US7672952B2 (en) * 2000-07-13 2010-03-02 Novell, Inc. System and method of semantic correlation of rich content
US7389225B1 (en) 2000-10-18 2008-06-17 Novell, Inc. Method and mechanism for superpositioning state vectors in a semantic abstract
US7286977B1 (en) * 2000-09-05 2007-10-23 Novell, Inc. Intentional-stance characterization of a general content stream or repository
US7503000B1 (en) * 2000-07-31 2009-03-10 International Business Machines Corporation Method for generation of an N-word phrase dictionary from a text corpus
EP1182581B1 (en) * 2000-08-18 2005-01-26 Exalead Searching tool and process for unified search using categories and keywords
US7177922B1 (en) 2000-09-05 2007-02-13 Novell, Inc. Policy enforcement using the semantic characterization of traffic
US20090234718A1 (en) * 2000-09-05 2009-09-17 Novell, Inc. Predictive service systems using emotion detection
US20100122312A1 (en) * 2008-11-07 2010-05-13 Novell, Inc. Predictive service systems
US6718336B1 (en) 2000-09-29 2004-04-06 Battelle Memorial Institute Data import system for data analysis system
US6665661B1 (en) * 2000-09-29 2003-12-16 Battelle Memorial Institute System and method for use in text analysis of documents and records
US6940509B1 (en) 2000-09-29 2005-09-06 Battelle Memorial Institute Systems and methods for improving concept landscape visualizations as a data analysis tool
US20020146129A1 (en) * 2000-11-09 2002-10-10 Kaplan Ari D. Method and system for secure wireless database management
US7069310B1 (en) 2000-11-10 2006-06-27 Trio Systems, Llc System and method for creating and posting media lists for purposes of subsequent playback
US6721728B2 (en) * 2001-03-02 2004-04-13 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for discovering phrases in a database
US20020147775A1 (en) * 2001-04-06 2002-10-10 Suda Aruna Rohra System and method for displaying information provided by a provider
US7155668B2 (en) * 2001-04-19 2006-12-26 International Business Machines Corporation Method and system for identifying relationships between text documents and structured variables pertaining to the text documents
US7698651B2 (en) * 2001-06-28 2010-04-13 International Business Machines Corporation Heuristic knowledge portal
US7065201B2 (en) * 2001-07-31 2006-06-20 Sbc Technology Resources, Inc. Telephone call processing in an interactive voice response call management system
AUPR958901A0 (en) * 2001-12-18 2002-01-24 Telstra New Wave Pty Ltd Information resource taxonomy
JP2003216650A (ja) * 2002-01-28 2003-07-31 Sony Corp 情報媒介システムのためのグラフィカルユーザインターフェイス
US7305070B2 (en) 2002-01-30 2007-12-04 At&T Labs, Inc. Sequential presentation of long instructions in an interactive voice response system
US6914975B2 (en) 2002-02-21 2005-07-05 Sbc Properties, L.P. Interactive dialog-based training method
JP2003337699A (ja) * 2002-03-13 2003-11-28 Saora Inc 情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体
US7120641B2 (en) * 2002-04-05 2006-10-10 Saora Kabushiki Kaisha Apparatus and method for extracting data
US20030195896A1 (en) * 2002-04-15 2003-10-16 Suda Aruna Rohra Method and apparatus for managing imported or exported data
US7266553B1 (en) * 2002-07-01 2007-09-04 Microsoft Corporation Content data indexing
GB2390704A (en) * 2002-07-09 2004-01-14 Canon Kk Automatic summary generation and display
US7493253B1 (en) 2002-07-12 2009-02-17 Language And Computing, Inc. Conceptual world representation natural language understanding system and method
US7519607B2 (en) * 2002-08-14 2009-04-14 Anderson Iv Robert Computer-based system and method for generating, classifying, searching, and analyzing standardized text templates and deviations from standardized text templates
WO2004030532A1 (en) * 2002-10-03 2004-04-15 The University Of Queensland Method and apparatus for assessing psychiatric or physical disorders
US7158957B2 (en) * 2002-11-21 2007-01-02 Honeywell International Inc. Supervised self organizing maps with fuzzy error correction
US7197503B2 (en) 2002-11-26 2007-03-27 Honeywell International Inc. Intelligent retrieval and classification of information from a product manual
GB2395806A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
GB2395808A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
GB2395805A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
GB2395804A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
GB2395807A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
US7313527B2 (en) * 2003-01-23 2007-12-25 Intel Corporation Registering an utterance and an associated destination anchor with a speech recognition engine
US6961733B2 (en) * 2003-03-10 2005-11-01 Unisys Corporation System and method for storing and accessing data in an interlocking trees datastore
US7539725B2 (en) 2003-04-03 2009-05-26 Zix Corporation Auditor system
US7188308B2 (en) 2003-04-08 2007-03-06 Thomas Weise Interface and method for exploring a collection of data
US20040243531A1 (en) * 2003-04-28 2004-12-02 Dean Michael Anthony Methods and systems for representing, using and displaying time-varying information on the Semantic Web
US7149748B1 (en) * 2003-05-06 2006-12-12 Sap Ag Expanded inverted index
US20070022110A1 (en) * 2003-05-19 2007-01-25 Saora Kabushiki Kaisha Method for processing information, apparatus therefor and program therefor
GB2403636A (en) * 2003-07-02 2005-01-05 Sony Uk Ltd Information retrieval using an array of nodes
US8516004B2 (en) * 2003-09-19 2013-08-20 Unisys Corporation Method for processing K node count fields using an intensity variable
US20060101018A1 (en) 2004-11-08 2006-05-11 Mazzagatti Jane C Method for processing new sequences being recorded into an interlocking trees datastore
US7606772B2 (en) 2003-11-28 2009-10-20 Manyworlds, Inc. Adaptive social computing methods
US7539652B2 (en) 2003-11-28 2009-05-26 Manyworlds, Inc. Adaptive self-modifying and recombinant systems
US8566263B2 (en) 2003-11-28 2013-10-22 World Assets Consulting Ag, Llc Adaptive computer-based personalities
US20090018918A1 (en) 2004-11-04 2009-01-15 Manyworlds Inc. Influence-based Social Network Advertising
USRE45770E1 (en) 2003-11-28 2015-10-20 World Assets Consulting Ag, Llc Adaptive recommendation explanations
US7526459B2 (en) 2003-11-28 2009-04-28 Manyworlds, Inc. Adaptive social and process network systems
US8600920B2 (en) 2003-11-28 2013-12-03 World Assets Consulting Ag, Llc Affinity propagation in adaptive network-based systems
US7526458B2 (en) 2003-11-28 2009-04-28 Manyworlds, Inc. Adaptive recommendations systems
US7027586B2 (en) 2003-12-18 2006-04-11 Sbc Knowledge Ventures, L.P. Intelligently routing customer communications
US7340471B2 (en) * 2004-01-16 2008-03-04 Unisys Corporation Saving and restoring an interlocking trees datastore
US7254774B2 (en) * 2004-03-16 2007-08-07 Microsoft Corporation Systems and methods for improved spell checking
US7593923B1 (en) 2004-06-29 2009-09-22 Unisys Corporation Functional operations for accessing and/or building interlocking trees datastores to enable their use with applications software
US8051096B1 (en) 2004-09-30 2011-11-01 Google Inc. Methods and systems for augmenting a token lexicon
US7213041B2 (en) 2004-10-05 2007-05-01 Unisys Corporation Saving and restoring an interlocking trees datastore
US7716241B1 (en) 2004-10-27 2010-05-11 Unisys Corporation Storing the repository origin of data inputs within a knowledge store
US7908240B1 (en) 2004-10-28 2011-03-15 Unisys Corporation Facilitated use of column and field data for field record universe in a knowledge store
US7499932B2 (en) * 2004-11-08 2009-03-03 Unisys Corporation Accessing data in an interlocking trees data structure using an application programming interface
US20070162508A1 (en) * 2004-11-08 2007-07-12 Mazzagatti Jane C Updating information in an interlocking trees datastore
US7348980B2 (en) 2004-11-08 2008-03-25 Unisys Corporation Method and apparatus for interface for graphic display of data from a Kstore
US7676477B1 (en) 2005-10-24 2010-03-09 Unisys Corporation Utilities for deriving values and information from within an interlocking trees data store
CA2500573A1 (en) * 2005-03-14 2006-09-14 Oculus Info Inc. Advances in nspace - system and method for information analysis
KR100568977B1 (ko) * 2004-12-20 2006-04-07 한국전자통신연구원 생물학적 관계 추출 시스템 및 생물 정보 처리 방법
US7684974B2 (en) * 2005-03-03 2010-03-23 Infotrend, Inc. Systems for displaying conversions of text equivalents
JP4826120B2 (ja) * 2005-04-01 2011-11-30 株式会社日立製作所 業務仕様作成支援システム及び方法
US7409380B1 (en) 2005-04-07 2008-08-05 Unisys Corporation Facilitated reuse of K locations in a knowledge store
US7912701B1 (en) * 2005-05-04 2011-03-22 IgniteIP Capital IA Special Management LLC Method and apparatus for semiotic correlation
JP4772378B2 (ja) * 2005-05-26 2011-09-14 株式会社東芝 Webページから時系列データを生成する方法及び装置
US7389301B1 (en) 2005-06-10 2008-06-17 Unisys Corporation Data aggregation user interface and analytic adapted for a KStore
US8117203B2 (en) * 2005-07-15 2012-02-14 Fetch Technologies, Inc. Method and system for automatically extracting data from web sites
US7747937B2 (en) * 2005-08-16 2010-06-29 Rojer Alan S Web bookmark manager
US20070067348A1 (en) * 2005-09-18 2007-03-22 Andreyev Dmitriy S Repeated Segment Manager
US7475072B1 (en) 2005-09-26 2009-01-06 Quintura, Inc. Context-based search visualization and context management using neural networks
US7620607B1 (en) * 2005-09-26 2009-11-17 Quintura Inc. System and method for using a bidirectional neural network to identify sentences for use as document annotations
US20070174255A1 (en) * 2005-12-22 2007-07-26 Entrieva, Inc. Analyzing content to determine context and serving relevant content based on the context
US8271542B1 (en) 2006-01-03 2012-09-18 Robert V London Metadata producer
US20090055390A1 (en) * 2006-02-01 2009-02-26 Matsushita Electric Industrial Co., Ltd. Information sorting device and information retrieval device
US20070214153A1 (en) * 2006-03-10 2007-09-13 Mazzagatti Jane C Method for processing an input particle stream for creating upper levels of KStore
US20080275842A1 (en) * 2006-03-20 2008-11-06 Jane Campbell Mazzagatti Method for processing counts when an end node is encountered
US7734571B2 (en) * 2006-03-20 2010-06-08 Unisys Corporation Method for processing sensor data within a particle stream by a KStore
US20070220069A1 (en) * 2006-03-20 2007-09-20 Mazzagatti Jane C Method for processing an input particle stream for creating lower levels of a KStore
US7689571B1 (en) 2006-03-24 2010-03-30 Unisys Corporation Optimizing the size of an interlocking tree datastore structure for KStore
US8238351B2 (en) * 2006-04-04 2012-08-07 Unisys Corporation Method for determining a most probable K location
US20070260600A1 (en) * 2006-05-08 2007-11-08 Mita Group Information discovery and group association
US7676330B1 (en) 2006-05-16 2010-03-09 Unisys Corporation Method for processing a particle using a sensor structure
US7865513B2 (en) * 2006-06-30 2011-01-04 Rearden Commerce, Inc. Derivation of relationships between data sets using structured tags or schemas
US20080005148A1 (en) * 2006-06-30 2008-01-03 Rearden Commerce, Inc. Automated knowledge base of feed tags
US20080040288A1 (en) * 2006-07-10 2008-02-14 Rearden Commerce, Inc. Method and system for using RSS-Type feeds in an E-Commerce environment
US7752328B2 (en) * 2006-10-16 2010-07-06 Rearden Commerce, Inc. System and method for view of transactions and events with dynamic updates
US20080091828A1 (en) * 2006-10-16 2008-04-17 Rearden Commerce, Inc. Method and system for fine and course-grained authorization of personal feed contents
US7860704B2 (en) * 2006-12-13 2010-12-28 Microsoft Corporation Lexicon-based content correlation and navigation
US7739247B2 (en) * 2006-12-28 2010-06-15 Ebay Inc. Multi-pass data organization and automatic naming
US20080160490A1 (en) * 2006-12-29 2008-07-03 Google Inc. Seeking Answers to Questions
US8131536B2 (en) 2007-01-12 2012-03-06 Raytheon Bbn Technologies Corp. Extraction-empowered machine translation
US7437370B1 (en) * 2007-02-19 2008-10-14 Quintura, Inc. Search engine graphical interface using maps and images
US7693813B1 (en) 2007-03-30 2010-04-06 Google Inc. Index server architecture using tiered and sharded phrase posting lists
US8166021B1 (en) 2007-03-30 2012-04-24 Google Inc. Query phrasification
US7702614B1 (en) * 2007-03-30 2010-04-20 Google Inc. Index updating using segment swapping
US8166045B1 (en) 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US8086594B1 (en) 2007-03-30 2011-12-27 Google Inc. Bifurcated document relevance scoring
US7925655B1 (en) 2007-03-30 2011-04-12 Google Inc. Query scheduling using hierarchical tiers of index servers
US9135362B2 (en) * 2007-09-28 2015-09-15 Microsoft Technology Licensing, Llc Visualizing changes to content over time
US7890539B2 (en) * 2007-10-10 2011-02-15 Raytheon Bbn Technologies Corp. Semantic matching using predicate-argument structure
US8812508B2 (en) * 2007-12-14 2014-08-19 Hewlett-Packard Development Company, L.P. Systems and methods for extracting phases from text
US20090187401A1 (en) * 2008-01-17 2009-07-23 Thanh Vuong Handheld electronic device and associated method for obtaining new language objects for a temporary dictionary used by a disambiguation routine on the device
US8180754B1 (en) 2008-04-01 2012-05-15 Dranias Development Llc Semantic neural network for aggregating query searches
US7644071B1 (en) * 2008-08-26 2010-01-05 International Business Machines Corporation Selective display of target areas in a document
US8689143B2 (en) * 2008-10-03 2014-04-01 Word Diamonds, Llc Graphically representing content relationships on a surface of graphical object
US8296297B2 (en) * 2008-12-30 2012-10-23 Novell, Inc. Content analysis and correlation
US8301622B2 (en) * 2008-12-30 2012-10-30 Novell, Inc. Identity analysis and correlation
US8386475B2 (en) * 2008-12-30 2013-02-26 Novell, Inc. Attribution analysis and correlation
US9569770B1 (en) 2009-01-13 2017-02-14 Amazon Technologies, Inc. Generating constructed phrases
US8706644B1 (en) * 2009-01-13 2014-04-22 Amazon Technologies, Inc. Mining phrases for association with a user
US8423349B1 (en) * 2009-01-13 2013-04-16 Amazon Technologies, Inc. Filtering phrases for an identifier
US8768852B2 (en) * 2009-01-13 2014-07-01 Amazon Technologies, Inc. Determining phrases related to other phrases
US8706643B1 (en) * 2009-01-13 2014-04-22 Amazon Technologies, Inc. Generating and suggesting phrases
US20100250479A1 (en) * 2009-03-31 2010-09-30 Novell, Inc. Intellectual property discovery and mapping systems and methods
WO2010135375A1 (en) * 2009-05-20 2010-11-25 Hotgrinds, Inc. Semiotic square search and/or sentiment analysis system and method
US20100332217A1 (en) * 2009-06-29 2010-12-30 Shalom Wintner Method for text improvement via linguistic abstractions
US9298700B1 (en) 2009-07-28 2016-03-29 Amazon Technologies, Inc. Determining similar phrases
US10007712B1 (en) 2009-08-20 2018-06-26 Amazon Technologies, Inc. Enforcing user-specified rules
US8954893B2 (en) * 2009-11-06 2015-02-10 Hewlett-Packard Development Company, L.P. Visually representing a hierarchy of category nodes
US8799658B1 (en) 2010-03-02 2014-08-05 Amazon Technologies, Inc. Sharing media items with pass phrases
US8423392B2 (en) 2010-04-01 2013-04-16 Google Inc. Trusted participants of social network providing answers to questions through on-line conversations
US8983960B1 (en) * 2011-03-28 2015-03-17 Google Inc. Opportunistic job processing
US9076172B1 (en) * 2011-06-29 2015-07-07 Amazon Technologies, Inc. Generating item suggestions from a profile-based group
US20140108006A1 (en) * 2012-09-07 2014-04-17 Grail, Inc. System and method for analyzing and mapping semiotic relationships to enhance content recommendations
US9372850B1 (en) * 2012-12-19 2016-06-21 Amazon Technologies, Inc. Machined book detection
US9501506B1 (en) 2013-03-15 2016-11-22 Google Inc. Indexing system
US9483568B1 (en) 2013-06-05 2016-11-01 Google Inc. Indexing system
EP3031004A4 (en) * 2013-08-09 2016-08-24 Behavioral Recognition Sys Inc SECURITY OF COGNITIVE INFORMATION USING BEHAVIOR RECOGNITION SYSTEM
US9858260B2 (en) * 2014-04-01 2018-01-02 Drumright Group LLP System and method for analyzing items using lexicon analysis and filtering process
US10691893B2 (en) * 2016-02-29 2020-06-23 International Business Machines Corporation Interest highlight and recommendation based on interaction in long text reading
US11093706B2 (en) 2016-03-25 2021-08-17 Raftr, Inc. Protagonist narrative balance computer implemented analysis of narrative data
US9842100B2 (en) 2016-03-25 2017-12-12 TripleDip, LLC Functional ontology machine-based narrative interpreter
US10467277B2 (en) 2016-03-25 2019-11-05 Raftr, Inc. Computer implemented detection of semiotic similarity between sets of narrative data
US10534755B2 (en) * 2016-10-13 2020-01-14 International Business Machines Corporation Word, phrase and sentence deduplication for text repositories
US10606878B2 (en) 2017-04-03 2020-03-31 Relativity Oda Llc Technology for visualizing clusters of electronic documents

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5157783A (en) * 1988-02-26 1992-10-20 Wang Laboratories, Inc. Data base system which maintains project query list, desktop list and status of multiple ongoing research projects
US5325298A (en) * 1990-11-07 1994-06-28 Hnc, Inc. Methods for generating or revising context vectors for a plurality of word stems
AU2476192A (en) * 1991-08-16 1993-03-16 Multichip Technology High-performance dynamic memory system
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5517783A (en) * 1994-02-14 1996-05-21 Edgar; Dwight A. Lure container
US5694594A (en) * 1994-11-14 1997-12-02 Chang; Daniel System for linking hypermedia data objects in accordance with associations of source and destination data objects and similarity threshold without using keywords or link-difining terms
US5625767A (en) * 1995-03-13 1997-04-29 Bartell; Brian Method and system for two-dimensional visualization of an information taxonomy and of text documents based on topical content of the documents
US5708825A (en) * 1995-05-26 1998-01-13 Iconovex Corporation Automatic summary page creation and hyperlink generation
US5768580A (en) * 1995-05-31 1998-06-16 Oracle Corporation Methods and apparatus for dynamic classification of discourse
US5708822A (en) * 1995-05-31 1998-01-13 Oracle Corporation Methods and apparatus for thematic parsing of discourse

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004021763A (ja) * 2002-06-19 2004-01-22 Hitachi Ltd テキストマイニングプログラム、方法、及び装置
JP2006031577A (ja) * 2004-07-21 2006-02-02 Hideki Mima 情報の検索俯瞰方法および装置

Also Published As

Publication number Publication date
EP0960376B1 (en) 2006-05-03
HK1024076A1 (en) 2000-09-29
DE69834386T2 (de) 2007-04-12
CA2281645A1 (en) 1998-09-03
JP4241934B2 (ja) 2009-03-18
EP0960376A2 (en) 1999-12-01
CA2281645C (en) 2007-01-09
EP0960376A4 (en) 2003-01-08
DE69834386D1 (de) 2006-06-08
WO1998038560A2 (en) 1998-09-03
US5963965A (en) 1999-10-05
WO1998038560A3 (en) 1999-02-25
ATE325387T1 (de) 2006-06-15
AU6327898A (en) 1998-09-18

Similar Documents

Publication Publication Date Title
JP4241934B2 (ja) テキスト処理及び検索システム及び方法
Carpineto et al. Exploiting the potential of concept lattices for information retrieval with CREDO.
JP4944405B2 (ja) 情報検索システムにおけるフレーズに基づくインデックス化方法
JP5175005B2 (ja) 情報検索システムにおけるフレーズに基づく検索方法
JP4944406B2 (ja) フレーズに基づく文書説明の生成方法
JP4976666B2 (ja) 情報検索システムにおけるフレーズ識別方法
JP4274689B2 (ja) データ組を選ぶための方法とシステム
US20060047649A1 (en) Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US20060106793A1 (en) Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US6772148B2 (en) Classification of information sources using graphic structures
US20090070322A1 (en) Browsing knowledge on the basis of semantic relations
US20050021545A1 (en) Very-large-scale automatic categorizer for Web content
WO2003056467A2 (en) Method for gathering and summarizing internet information
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
US20050114317A1 (en) Ordering of web search results
Zhou et al. CMedPort: An integrated approach to facilitating Chinese medical information seeking
WO2009035871A1 (en) Browsing knowledge on the basis of semantic relations
KR20030034265A (ko) 인터넷 게시판 통합 서비스 장치 및 방법
Chen et al. Using data mining to construct an intelligent web search system
Westbrook et al. Using semantic analysis to classify search engine spam
Hu et al. World wide web search technologies
Chung et al. Web-based business intelligence systems: a review and case studies
Sugiyama Studies on Improving Retrieval Accuracy in Web Information Retrieval
Poo et al. Online catalog subject searching
Li et al. C-CIS: A Chinese competitive intelligence system based on the internet

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080408

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080708

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081008

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081224

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130109

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees