JPH06504858A - テキスト管理システム - Google Patents

テキスト管理システム

Info

Publication number
JPH06504858A
JPH06504858A JP3504913A JP50491391A JPH06504858A JP H06504858 A JPH06504858 A JP H06504858A JP 3504913 A JP3504913 A JP 3504913A JP 50491391 A JP50491391 A JP 50491391A JP H06504858 A JPH06504858 A JP H06504858A
Authority
JP
Japan
Prior art keywords
word
words
group
input
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3504913A
Other languages
English (en)
Inventor
カダシェヴィッチ,ジュリー・エイ
ハーヴェイ,メアリー・エフ
クラーク,チェリル
Original Assignee
ウォング・ラボラトリーズ・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ウォング・ラボラトリーズ・インコーポレーテッド filed Critical ウォング・ラボラトリーズ・インコーポレーテッド
Priority claimed from CA002100956A external-priority patent/CA2100956C/en
Publication of JPH06504858A publication Critical patent/JPH06504858A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は、広くはテキスト管理システムに関するものである。
様々な組織において、文書や画像のサーチを行なうために、或いはファイリング ・システムやデータベースを編成するために、毎年費やされている時間は計り知 れない。たとえ大規模な情報検索システムを使用している場合であっても、文書 (ドキュメント)の索引付けや、必要な情報の位置を突き止めることのできるキ ーワードの推測、一度に1件ずつ照会について実行するページのサーチ、それに 、サーチの結果として実際に出てきたデータのうちの不適当な全てのデータのソ ートには、かなりの資源が必要とされる。
大規模情報検索システムの性能評価を扱った多数の研究の結果、判明したところ によれば、その種のシステムでは、特定のサーチに該当する全ての文書のうちの 20%以下の文書しか取り出されておらず、また、取り出される情報のうち、実 際にサーチ要求の真意に適している情報は30%以下に過ぎない。このように検 索結果が思わしくないことの主たる原因の1つに、検索実行者が知っているのは 、彼らの関心事の大まかな主題に過ぎず、テキストの中に実際に使用されている 単語や、文書の索引を作成するために用いられているキーワード記述子の中に使 用されている単語を知らないということがある。
更に別の研究として、5000件のレポートに索引付けするのに、どれほどの時 間がかかるかを解析(analyze)する研究を行なった。そこでは、各ユー ザが、レポートに目を通し、キーワードの選択によって索引付けの決定を行ない 、そしてその情報を記録するまでに許される時間は、10分間であるものと仮定 した。
1件あたりの時間がこの長さである場合には、1人でそれだけの量の文書の処理 を完了するためには、833時間を要し、その人がフルタイムで(1週間に40 時間ずつ)働くものとして、21週間かかることが判明した。ユーザは更に、デ ータの確認と訂正のために余分の時間を取られる。この方式では、ユーザは日常 、的作業として、新たに入って(る文書の索引付けを行なわねばならず、さもな くばシステムが絶望的に時代後れのものとなってしまう。更に加えて、ユーザが 適当なサーチ用語を選択するので、指定されなかった用語は全て、サーチの目的 のために排除されてしまう。これによって大きな不都合が発生するおそれが生じ ており、それは、ユーザがキーワードを選択する際に主観的判断を行なうために 、該当する情報を包含している文書が、サーチを行なっても表に出てこなくなっ てしまうことがあり得るということである。
テキスト検索システムの多くは、索引ファイルを使用しており、索引ファイルに は、文書中に使用されている単語を記録しておくと共に、それら各単語の、文書 中における位置を記録しである。索引ファイルを使用することによって検索速度 に関する大きな利点が得られる。ただしこの方式には1つの大きな不都合があり 、それは、殆どのシステムにおいて、索引のためのオーバーヘッドが文書データ ベースの50ないし100%にも達するということである。これは、100メガ バイトの文書データベースであれば、50ないし100メガバイトの索引が必要 であることを意味している。そのため、システムには、大容量記憶装置のための 費用とオーバーヘッドとが余計に加わることになる。
発明の概要 その概要を述べるならば、本発明はその1つの局面においては、入力単語に基づ いて単語集合体のサーチを行なう装置である。この装置は、前記入力単語に給量 的に関連した単語であって規則的屈折変化名詞(regular 1nflec tional noun)以外の単語を含んでいる第1の単語の集合(第1単語 集合)を生成するための生成手段と、前記入力単語と前記第1単語集合の単語と を含んでいるサーチ単語群に所属している単語のうちのいずれかの単語の存在を 検出するために前記単語集、合体をサーチするためのサーチ・エンジンと、を備 えている。
好適実施例は以下の特徴を備えている。前記生成手段が形態構造解析器(mor phological analyzer)であること。前記単語集合体が索引 またはテキストであること。前記生成手段が、第1接尾辞群のうちから選択した 接尾辞だけを前記入力単語から取り去ることによって、前記第1単語集合のうち の、ある単語を生成するようにしたものであること。前記第1接尾辞群が、単語 から取り去られてもその単語の意味を実質的に変化させない接尾辞だけを、該接 尾辞群の構成要素として含んでいること。より詳しくは、前記第1接尾辞群が、 いずれも屈折接尾辞(inflectional 5uffix)である#fu l、Wish、 +ous、 +ic、 +al、@ars @er。
#or、 +ive、 +ory、 #able、 +able、 +1ble 、 #l1ent、 #ness、 +ity、 +etyA +ty、 #1 y。
#ize、 +1fy1+fy、及び#yを含んでいる第1部分集合のうちから 選択した要素を、該接尾辞群の構成要素として含んでいること。前記形態構造解 析器が、入力単語を認識してその認識した入力単語についての派生情報を返す認 識エンジンを備えたものであること。前記認識エンジンが、入力単語を分解して その入力単語の中の語幹の全てを識別し、且つ、識別した各語幹に関して、その 語幹に付加することによって入力単語を発生する接尾辞を識別するように、動作 するものであること。前記認識エンジンが、該認識エンジンが前記入力単語に対 して実行して成功したあらゆる分解(parse)についての情報を包含してい る派生の経過記録(history)を返すようにしたものであること。そして 、前記派生の経過記録が、入力単語の成功した分解の仕方の各々に関して、その 特定の分解における入力単語の品詞を包含していること。
更に好適実施例においては、前記装置が類語データベースを備えており、前記生 成手段が該類語データベースを用いて類語群を生成するようにしてあり、該類語 群の構成要素は、前記第1単語集合の集合要素である給電的に関連した単語のう ちの、ある単語の類語である。前記サーチ単語群は更に前記類語群を含んでいる 。前記生成手段は、前記類語群のうちから選択した類語に、第2接尾辞群のうち から選択した接尾辞だけを付加することによって、前記類語群のうちから選択し た類語に基づいた第2単語群を生成するようにしたものである。前記サーチ単語 群は更に前記第2単語群を含んでいる。前記第2接尾辞群は、単語に付加されて もその単語の意味を実質的に変化させない接尾辞だけを、該接尾辞群の構成要素 として含んでいる。より詳しくは、前記第2接尾辞群は、いずれも屈折接尾辞□ である#ful、#ish、 +ous、 +ic、 +al、#ar、 #e r、 #or、 +ive、 +ory、 #able、@+ab le、 +1ble、 #ment、 #ness、 +1ty1+ety、  +ty、 #ly、及び#yを含んでいる第2部分集合のうちから選択した要素 を含んでいる。
加えて、前記形態構造解析器が更に、前記類語群のうちから選択した類語に給量 的に関連した単語から成る第2単語集合を生成するための生成エンジンを含んで いること。前記生成エンジンが、入力単語に関する前記認識エンジンから供給さ れる情報に基づいて、前記第2単語集合を生成するものであること。前記サーチ 単語群が更に前記第2単語集合を含んでいること。前記装置が更に、前記類語群 の構成要素である類語を選択してその選択した類語を識別するための選択手段を 備えていること。
また概要を述べるならば、本発明は別の1つの局面においては、1つの入力単語 に拡張処理を施してその入力単語から複数の関連単語を生成する対象(subj ect)拡張システムである。このシステムは、入力単語を受け取るための手段 と、入力単語から第1単語群を生成するための生成手段を含み、該生成手段は、 単語から取り去られてもその単語の意味を実質的に変化させない接尾辞だけを構 成要素として含んでいる第1接尾辞群のうちから選択した接尾辞だけを、入力単 語から取り去ることによって、前記第1単語群に所属する単語のうちの少なくと も幾つかの単語を生成する。
好適実施例は以下の特徴を備えている。前記生成手段が更に、単語に付加されて もその単語の意味を実質的に変化させない接尾辞だけを構成要素として含んでい る第2接尾辞群のうちから選択した接尾辞だけを、前記入力単語から導出された 単語に付加することによって、前記第1単語群に所属する単語のうちの少なくと も幾つかの単語を生成するようにしたものであること。前記対象拡張システムが 更に類語データベースを備えており、前記生成手段が該類語データベースを用い て類語群を生成するようにしてあり、該類語群の構成要素は、前記第1単語群の 構成要素である単語のうちの、ある単語の類語であること。前記生成手段が、第 2接尾辞群のうちから選択した接尾辞だけを、前記類語群の構成要素である類語 のうちから選択した類語に付加することによって、前記類語群を拡張してより大 きな単語群を生成するようにしたものであること。前記生成手段が形態構造解析 器を備えており、そして更に、該形態構造解析器が、前記入力単語の基体の経過 記録を生成するための認識エンジンを備えていること。そして、該基体径の過記 録は、前記入力単語の1つないし複数の基体語を識別している記録であり、基体 語の各々は、前記入力単語から1つないし複数の接尾辞を取り去った形の単語で あること。
また概要を述べるならば、本発明はその更に別の1つの局面においては、1つの 入力単語から単語群を生成する対象拡張システムである。このシステムは、前記 入力単語から接尾辞を取り去ることによって1つないし複数の基体語を生成する ための生成手段と、前記1つないし複数の基体語を受けとって、それらのうちの ある基体語に対する類語群を生成するように構成しである類語手段とを備えてい る。前記生成手段は、前記入力単語の基体の経過記録を生成するための認識エン ジンを備えており、該基体の経過記録は、前記1つないし複数の基体語を識別す る。前記生成手段は更に、前記類語群の構成要素である類語のうちから選択した 類語に誘電的に関連した単語を集合要素として含んでいる第2単語集合を生成す るための生成エンジンを備えている。このシステムは更に、前記類語群の構成要 素である類語を選択してその選択した類語を識別するための選択手段を備えてい る。
また概要を述べるならば、本発明はその更に別の1つの局面においては、単語集 合体のための索引を生成する装置である。この装置は、前記単語集合体の複数の 単語のうちから入力単語を選択するための、選択手段と、前記入力単語に給量的 に関連した単語を生成する手段であって、該入力単語と該入力単語に給電的に関 連した単語とが含まれる単語群が形成されるようにする、生成手段と、前記単語 群の構成要素である複数の単語のうちのいずれかの単語が前記単語集合体の中に 存在していることを、前記単語群の構成要素である複数の単語のうちの1つの単 語によって表わすようにする、索引作成エンジン(indexing engi ne)とを備えている。
また概要を述べるならば、本発明はその別の1つの局面においては、何らかの情 報内容を有する単語集合体から、複数のトビツク・ワードを生成する装置である 。本発明は、前記単語集合体の複数の単語のうちから、単語部分集合を成す複数 の単語を選択するための選択手段と、前記単語部分集合の複数の単語の各々に関 する形態構造情報を生成するための形態構造解析器と、前記単語部分集合の複数 の単語のうちの所与の単語が前記単語集合体の内容に関する情報を包含している か否かを、前記形態構造解析器が生成した前記形態構造情報に基づいて評価する ための、評価手段と、前記所与の単語が前記単語集合体の内容に関する情報を包 含していると前記評価手段が判定した場合に該所与の単語に対応したトビツク・ ワードを生成する、トビツク・ワード生成手段とを備えている。
好適実施例は、以下の特徴を備えている。前記単語集合体がテキストであること 。前記選択手段が、トビツク・ワードとして適格ではない単語を含むストップ・ リストを備えており、該選択手段は、前記単語集合体に所属している単語のうち 該ストップ・リストに載せられている単語は、前記単語部分集合から除外するよ うにしであること。前記選択手段が、更に、無条件でトビツク・ワードとしての 資格を持つ単語を含むキープ・リストを備えており、該選択手段は、前記単語集 合体に所属している単語のうち該キープ・リストに載せられている単語は、前記 単語部分集合に含めるようにしであること。
好適実施例においては更に、前記形態構造解析器が、認識エンジンを備えており 、該認識エンジンは、前記所与の単語の1つないし複数通りの成功した分解を認 識するものであり、該認識エンジンが前記所与の単語をその根本的語幹(und erlying stem)と、該根本的語幹に付加されることによって前記所 与の単語を形成する1つないし複数の接尾辞から成るシーケンスとに、分解可能 である場合に、成功した分解が存在するものとしている。前記認識エンジンは、 前記所与の単語の成功した分解の各々について1つずつの形態構造の経過記録を 生成する。1つの成功した分解に対応した形態構造の経過記録は、前記所与の単 語の品詞と、前記所与の単語に関連する1つないし複数の基体語と、該基体語の 各々についての品詞とを特定している。前記評価手段は、前記所与の単語が前記 単語集合体の内容に関する情報を包含しているか否かを、前記所与の単語の成功 した分解の仕方の数に基づいて、また、前記所与の単語に関して識別されている 1つない−し複数の品詞に基づいて、評価する。前記トビツク・ワード生成手段 は、前記所与の単語、または前記所与の単語の1つの成功した分解に関連した1 つの形態構造の経過記録の中において識別される基体語のうちの1つの、いずれ かを、前記トビツク・ワードとして選択する。
本発明の利点の1つは、本発明によって、文書ないしテキストのサーチにおける 、サーチ結果の完成度が大幅に向上することにある。更に本発明においては、サ ーチにおけるキーワードが自動的に拡張され、給食的に関連した単語、その給量 的に関連した単語のうちのあるものの類語、それにその類語に給食的に関連した 単語がキーワードに含められるようになる。更に加えて、本発明を採用すること によって、ユーザは、コンセントを捜しめてテキストやその他の文書をサーチす る際に、そのコンセントの正確な表現を知らなくても、そのサーチを行なうこと ができるようになる。更に本発明によれば、たとえキーワードが類語辞書にない 場合でも、そのキーワードを解析して拡張することにより、その類語を含めるこ とが可能である。
本発明の更なる1つの利点は、本発明を用いることによって、文書の索引付けに おけるオーバーヘッドを大幅に軽減することができることにあり、これは、文書 の内容にとって重要な単語を識別し、そして、その種の単語から成る単語部分集 合を包含した索引を生成することによって達成されている。このことは、ディス ク装置の必要記憶容量を減少させるのに役立つばかりでなく、更に処理時間の短 縮にも役立つ。なぜならば、より小さな索引にサーチ処理が実行されるからであ る。本発明は、テキストから、各々がそのテキストの内容についての情報を包含 しているトビツク・ワードから成る、トビツク・ワードのリストを作成し、また その際に、テキストからの、たいして情報を包含していない単語を排除する。
語学的情報を活用してこのタスクを実行するようにすれば、情報内容を多く含む 単語を情報内容を僅かしか含まない単語から区別するための、理論に裏付けられ た幾つかの方法が可能となる。
更なる1つの利点は、本発明は、テキストの中に包含されているコンセントの索 引における、余分な冗長性を排除するのに役立つことであり、これは、屈折な・ いし派生によって関連している複数の単語(例えばrcategoryJと[c ategoriesJ、また、rsubjectJとrsubjectsJとr subjectnessJ等)を識別することによって可能にしている。即ち、 ある単語について、その単語の以前のインスタンスとは僅かに異なった、別のイ ンスタンスの各々を表示するのではなく、その単語の基体を格納しておき、その 基体を用いて、その基体から導出される全ての形態を表示するようにしている。
従って、例えば「categoryJをリストの中に一度格納したならば、この rcategoryJが、rcategoryJの他にrcategories Jも表わし、更にはrcategoricalJまでも表わすことができるよう にしている。これによってテキストに対する索引に必要な記憶容量を大幅に減少 させている。
本願において説明する、このふるい分けの処理手順を、その性能評価のために幾 つかのテキスト・サンプルに対して実際に適用したところ、その結果は次のよう であった。テキスト・サンプルには、言語学の論文から抜粋した153語の1つ のパラグラフ、447語の財務メモ、それに、機能仕様書から抜粋した550語 から成る1つの頁が含まれていた。これら3件のテキスト・サンプルに関して得 られた結果リストは、夫々、元のテキストの、23%、25%、それに17%の 単語を含むものとなっていた。これら3件以外のテキスト・サンプルについてテ ストを行なって得られた結果も、これらの数字と大差はなかった。従って本発明 のこのふるい分けのメカニズムは、テキストのうちの75ないし80%の部分を 、そのテキストの主旨とは無関係な部分であると識別し得るものである。
その他の利点並びにその他の特徴は、以下の好適実施例の説明、並びに請求の範 囲において明らかにする。
好適実施例の説明 図1は、形態構造解析器及び辞書を示したブロック図である。
図2は、rfishJの基体の経過記録、図3は、インテリジェント・フィルタ を含んでいる索引作成システムのブロック図、 図4a〜図4dは、インテリジェント・フィルタの処理動作の疑似コード記述を 示しており、 図5は、インテリジェント・フィルタが、アプリケーションへトビツク情報を返 す際に使用するトビツク・データ構造体、図6は、インテリジェント・フィルタ を用いてテキストを一度にブロック1つ分ずつ解析する場合の、その用い方を示 しており、図7は、対象拡張モジュールを含んでいるテキスト・サーチ・システ ムのブロック図、 図8は、図7に示した対象拡張モジュールのブロック図、図9a〜図9bは、S ESrecwordの処理動作の疑似コード記述を示しており、図10は、SE Srecwordが作成する情報リストのデータ構造体の構成要素である情報オ ブジェクトであり、 図11は、単語の意味を太き(変化させることなく、単語に付加することのでき る接尾辞のリストと、単語から取り去ることのできる接尾辞のリスト、図12は 、図7に示した対象拡張モジュールの別実施例のブロック図、図13は、5ES explistの処理動作の疑似コード記述、そして、図1.4は、SESge nの処理動作の疑似コード記述である。
構造及び動作 図1に示すように、ここに説明する実施例の主要構成要素は2つであり、それら は、形態構造解析器10と辞書12とである。
辞! 辞書12は、形態構造解析器10によって発生され、ないしは(その表面形にお いて)認識されることのできる全ての単語の、根本(underlying)  (語11(lexical) )形についての情報を包含している。辞書12は 、根本形で表わされたそれら単語の全てを単に列挙しただけのリストではなく、 更に、形態素と呼ばれる形態論上の単位項を包含しており、形態素は、互いに結 合することによって、様々な誘電形の単語を形成する。例えば、形態素jsuc cessJとrfulJとrlyJとが結合することによって、rsucces sfullyJという単語が形成される。更に、各々の形態素には情報を付随さ せてあり、その情報には、その形態素が形成する品詞と、関連形と、現在の形態 素の後に続き得る形態素の種類のリストとを含ませることかできる。
形態構造解析器 形態構造解析器10の主たる機能は、認識と生成とである。この形態構造解析器 10の認識能力は、fFsrecognize (WFS認識)と名付けた内部 機能によって得られている。この形態構造解析器10の生成能力は、WFSge nerate (WFS生成)と名付けた、もう1つの別の内部機能によって得 られている。WFSrecognizeは、゛単語を解析してその単語の形態構 造を判別する機能であり、一方、fFsgenerateは、ある単語の根本形 態構造が与えられたときに、その単語の正しいスペルを生成する機能である。
認識を実行する際には、形態構造解析器10は入力ストリングを解析して、その 入力ストリングの語根(1つのストリングに複数の語根が含まれていることもあ る)と、もしあればその入力ストリングの派生過程における全ての中間語と、そ の入力ストリングが含み得る接尾辞と、その派生過程の中の全ての単語の給電カ テゴリとを識別する。そして、その入力ストリングの分解に成功したならば(即 ち、その入力単語を形成するために必要な語幹及びそれに付随する接尾辞が判明 したならば)、形態構造解析器10は基体の過程記録を返す。もしその入力単語 に2通り以上の分解の仕方があったならば、それら分解の各々ごとに1つずつの 基体の過程記録を返し、それら基体の過程記録(即ち経路)は、その各々が、そ の入力単語から一連の接尾辞を1つ1つ取り去って行くときの、入力単語のその 都度の形を列挙したリストとして提示される。従って、例えば入力単語が「fi shesJであったならば、図2に示した2通りの過程記録が返される。
各々の基体の過程記録は1つないし複数のレコードを含んでおり、それらレコー ドは、接尾辞を次々と取り去って行くときに、その都度得られる基体を示してい る。尚、1つの接尾辞を取り去ったときに後に残される単語のことを、その接尾 辞を含んでいた元の単語の基体と呼ぶ。ある単語からそれ以上接尾辞を取り去る ことができなくなったとき、その単語を、それまでの他の単語の語根であるとい う。各々のレコードは、そこから1つの接尾辞を取り去ろうとしている単語と、 その単語の品詞と、その過程記録の中のレコードのうち、当該接尾辞を取り去っ た後に形成される基体を包含しているレコードを参照するインデックスと、その 基体に付加されることによって当該単語を形成する当該接尾辞と、付加された当 該接尾辞の等級とを包含している。接尾辞の等級というのは、接尾辞とその接尾 辞が形成する単語とを分類するために使用している数字である。即ち、接尾辞を 付加する前と後とで意味がどれほど変わるか、或いは変わらないかに応じて接尾 辞を分類し、接尾辞群を編成している。例えば、屈折語尾(活用語尾)は、元の 単語の文法上の特徴を変化させるだけのものであり、その等級を「1」としてい る。一方、派生語尾は、多くの場合、元の単語の品詞を変化させ、より遠く意味 の隔たった単語を生成するものであり、その等級を「2」としている。
生成を実行する際には、形態構造解析器10は、所与の単語に誘電的に関連を有 する単語を合成し、付加すべき接尾辞があれば付加し、その際に、接尾辞や給量 カテゴリに関する制約条件がその入力に指定されていたならば、その制約条件に 従って、返すべき単語集合の大きさ及び内容を制御する。生成は、以下のサブタ スクを含む。先ず、形態構造解析器10は、入力ストリングを対象とした認識を 実行し、それによって、その入力ストリングに幾通りの分解の仕方があるかとい うことと、その入力ストリングの語幹と、その入力ストリングが既に接尾辞を含 んでいるか否かということとを判定する。続いて形態構造解析器10は、合成に 使用する1つの語幹を識別する。続いて形態構造解析器10は、その語幹に付加 することのできる接尾辞を判定し、そして、誘電的入力単語から合成することの できる全ての表面形ストリング(surface string)を返す。
テキスト管理機能 本発明の1つの局面においては、形態構造解析器を、索引作成やサーチ等のテキ スト管理機能の支援のために使用する。このテキスト管理機能を実行するための 実施例について以下に説明する。
図3に示すように、索引作成システム100においては、テキストの1つのブロ ックからの複数の入力単語102が、インテリジェント・フィルタ104へ受け 渡され、このインテリジェント・フィルタ104が、それら入力単語のうちのど の単語がトビツク・ワードないしコンセプト・ワード、即ち、それら入力単語が 使用されている元のテキストの主旨を表現している単語、であるかの判定を自動 的に行なう。インテリジェント・フィルタ104は、幾つかの機構を使用してト ビツク・ワードの識別を行ない、それら機構のうちには、自動的にトビツク・ワ ードとして失格であると判定すべき単語を列挙したストップ・リスト106、自 動的にトビツク・ワードとしての資格を有すると判定すべき単語を列挙したキー プ・リスト108、それに、入力単語を解析してその形態構造を識別する形態構 造解析器110が含まれている。形態構造解析器110は、みずからに受け渡さ れた入力単語の形態構造解析を実行するために、辞書116を使用する。インテ リジェント・フィルタ104は、形態構造解析器110へ送られた入力単語につ いて導出された形態構造情報を用いて、それら入力単語のうちのどの単語が、ト ビツク・ワードである可能性が最も高いかを判定する。インテリジェント・フィ ルタ104が生成したトビツク・ワードのリストは、一般的な構成の索引作成エ ンジン114へ受け渡され、この索引作成エンジン114がそれらトビツク・・  ワードを用いて、複数の入力単語がそこから抽出されたところの元のテキスト に対する索引を作成する。索引作成エンジン114は、その索引付けされようと しているテキストに対応した索引カードを作成する方式や、そのテキストの本体 の中のトビツク・ワードの位置を識別する索引を生成する方式の、公知の幾つも の索引作成法のうちの、いずれを使用したものであっても良い。
ストップ・リスト106は、一般的にトビツク情報を包含することのない単語の リストを含んでおり、これに該当するのは、例えば、冠詞、前置詞、接続詞、等 々をはじめとする、種々の機能語である。このリストの単語の殆どは、一般の辞 典を使用して、その単語の品詞に基づいて識別することができる。ストップ・リ ストにその種の単語の全てを列挙しておくことの利点は、インテリジェント・フ ィルタ104が、それら単語を解析するために時間と形態構造解析器110の計 算処理資源とを浪費せずに済むようになることにある。ストップ・リスト106 には更に、幾つかのテキストのサンプルをインテリジェント・フィルタ104の 中で走らせて、その結果を解析し、出力として発生されはしたがトビツク情報を 包含していないことが明らかな単語を識別するという方法によって識別した単語 も含ませである。従って、ストップ・リスト106にはもう1つの利点があり、 それは、インテリジェント・フィルタ104の解析実行部では捕捉されない、そ の種の僅かな単語を、このストップ・リストで捕捉できることにある。
キープ・リスト108は、ストップ・リスト106の機能とは丁度反対の機能を 果たすものである。キープ・リスト108は、ある単語がトビツク情報を包含し ているにもかかわらず、インテリジェント・フィルタ104の解析実行部が、そ の単語をトビツク・ワードとして失格である判定するかも知れない場合に、その 単語を特定しておくためのリストである。このキープ・リスト108を生成する には、経験的方法を用いることができ、即ち、幾つかのサンプル文書をインテリ ジェント・フィルタ104の中で走らせ、続いて、トビツク・ワードとして失格 であると判定されたものの、ユーザにはトビツク・ワードのリストに含めるべき であると思われる単語を特定するという方法を用いることができる。これによっ てキープ・リスト108は、システムに精密調節を施すための、また、システム を、特定の要求事項や、特定のユーザの独特の給量に適合させるための機構とし て機能するものとなっている。
これより、図4a〜図4dに示した流れ図を参照しつつ、インテリジェント・フ ィルタ104の動作について説明して行く。テキストの索引作成のためのアプリ ケーション・プログラムが、あるテキストのブロックの索引を作成することが必 要になったならば、先ず、初期設定機能をコールして、インテリジェント・フィ ルタ104がみずからに受け渡された単語を解析するために使用する、様々な機 能及び辞書(即ち、参照作業領域)をオーブンする。インテリジェント・フィル タ104をコールするそのアプリケーションは、更に、インテリジェント・フィ ルタ104がそのアプリケーションへトビツク情報を受け渡す際に使用するトビ ツク構造124(図5参照)のための空間の割り振りを行なう。トビツク構造1 24は、解析された入力単語のためのフィールド115と、その入力単語の中に 発見された基体を指し示すポインタのアレイのためのフィールド119と、その アレイの中の基体の数のためのフィールド117とを含んでいる。
そのアプリケーションは、インテリジェント・フィルタ104をコールする際に 1つの入力単語102を受け渡し、このとき受け渡される入力単語が、即ち、現 在単語である。図4a〜図4dについて説明すると、インテリジェント・フィル タ104は、先ず最初に、現在単語が形態構造解析の対象となり得るものか否か を判定するために、現在単語が英文字を含んでいるか否かを調べる(ステップ1 30)。現在単語が英文字を含んでいなかったならば、フィルタ104は、その 現在単語はトビツク・ワードとして失格であると判定して、アプリケーション・ プログラムに対して、続(次の単語を要求する(ステップ132)。一方、現在 単語が英文字を含んでいたならば、フィルタ104は、現在単語はその先頭と末 尾とに引用符が付いているか否かを調べる(ステップ134)。現在単語が引用 符付きストリングであったならば、フィルタ104は、現在単語がトビツク・ワ ードであると識別し、トビツク用データ構造124を利用してその情報を索引作 成エンジン114へ受け渡し、これによって索引作成エンジン114は、その現 在単語を索引付けすることができるようになる(ステップ136)。続いて、フ ィルタ104は、次の単語を要求する。一方、現在単語が引用符付きストリング ではなかった場合には、フィルタ104は、キープ・リスト108の中の単語を 参照する(ステップ138)。
現在単語がキープ・リスト108の中に載っていたならば、フィルタ104は現 在単語を索引に加えて、次の単語の処理に取りかかる(ステップ140)。一方 、現在単語がキープ・リスト108の中に載9ていなかったならば、フィルタ1 04は、現在単語をストップ・リスト106と照合する(ステップ142)。
そして、現在単語がストップ・リスト106の中に載りていたならば、フィルタ 104は現在単語を失格と判定して、次の単語を要求する(ステップ144)。
一方、現在単語がストップ・リスト106の中に載っていなかったならば、フィ ルタ104は、形態構造解析器110の認識能力、即ち、lFsrecogni zeの助けを借りて、現在単語の形態構造解析結果を得るようにする(ステップ 146)。
WFSrecognizeは、現在単語の中の語幹を識別し、また、識別した語 幹にいかなる接尾辞が付加されて現在単語が形成されているかを判別する。この 解析は、先ず最初に、現在単語の中の第1番目の文字について行ない、更に一度 に1文字ずつ処理を進めて、最終的には、全ての語幹と、各語幹に接尾辞が付加 されていればその接尾辞とを、突き止めるようにする。即ち、WFSrecog nizeは入力単語を分解する。この解析が完了したならば、lFsrecog nizeは、現在単語の基体の過程記録を返す。基体の過程記録は、過程記録ア レイのリストで構成され、それら過程記録アレイの各々が、発見されたそれら複 数の分解の仕方のうちの1つに対応した複数のレコードを包含している。
WFSrecognizeが、辞書116の中に、現在単語も、また、現在単語 の基体の単語も発見できないということもあり得る。この場合には、fFsre cognizeは、現在単語が認識されなかった旨を表示する。かかる事態が発 生するのは、例えば、現在単語が、ある種の固有名称(例えば「N1xonJ  )であった場合等である。11FSrecognizeから、現在単語が認識さ れなかった旨の報告を受けたならば、フィルタ104は、現在単語をトビツク・ ワードとして扱い、現在単語を索引に加え、そして次の単語を要求する(ステッ プ148)。
更には、現在単語に、lFsrecognizeが処理することのできない文字 が含まれているということもあり得る。この場合にもフィルタ104は、その単 語を索引に加えた上で、次の単語の処理に取りかかる(ステップ150)。
fFsrecognizeが現在単語の分解に成功したならば、インテリジェン ト・フィルタ104は、返されてきた基体の経過記録の情報を用いて、現在単語 がトビツク・ワードであるか否かについての評価を行なう。フィルタ104は、 先ず最初に、現在単語に関して判定された品詞が1種類だけであるか否か(即ち 、その単語について成功した分解の仕方が1通りだけであるか否か)を調べる( ステップ152)。もし返されてきた品詞が1種類だけであったならば、フィル タ104は、・その品詞が何であるかを調べる。そして、その品詞が名詞であっ たならば、フィルタ104は、現在単語を索引に加え、次の単語の処理に取りか かる(ステップ154)、例えば、現在単語がrhistoryJ或いはrsc ienceJであったならば、これらはいずれも名詞であり、このような場合に はフィルタ104はその単語を索引に加える。
一方、その品詞が形容詞であった場合、例えばrhistoricJやrsci entificJという単語であった場合には、フィルタ104は、現在単語の 基体を取り出してその品詞を調べる(ステップ156)。(既述の如(、現在単 語の基体は、現在単語に対応した経過記録のレコードの基体フィールドの中に表 示されている。)そして、現在単語の基体の品詞が颯詞であったならば、フィル タ104は、その基体を索引に加え、次の単語の処理に取りかかる(ステップ1 58〜160)。
また、その基体の品詞が形容詞であったならば、フィルタ104は、その基体の 基体を取り出してその品詞を調べる(ステップ162〜164)。基体が形容詞 であった場合には、フィルタ104は、基体の基体が名詞である場合にのみ、基 体を索引に加える(ステップ168)。その他の場合には、フィルタ104は現 在単語を失格と判定し、次の単語の処理に取りかかる(ステップ170)。例え ば、現在単語がrhistorical Jであったならば、これはrhist oryJという名詞の基体を有する形容詞であり、この場合には、フィルタ10 4はrhistoryJを索引に加える。基体が名詞と形容詞とのいずれでもな かった場合にも、フィルタ104は現在単語を失格と判定し、次の単語の処理に 取りかかる。
現在単語が副詞であった場合にも、フィルタ104は、現在単語が形容詞であっ た場合に実行する解析と同様の解析を実行する(ステップ174〜202)。
即ち、フィルタ104は、現在単語の基体を取り出してその品詞を調べる。その 基体が名詞であったならば、フィルタはその基体を索引に加え、次の単語の処理 に取りかかる。一方、その基体が形容詞であったならば、フィルタ114は、そ の次のレベル、即ち基体の基体を調べる。例えばrscientificall yJのように、基体の基体が名詞であったならば、フィルタ104は、その、基 体の基体(この場合ではrscienceJ )を索引に加え、次の単語の処理 に取りかかる。一方、その、基体の基体が形容詞であったならば、フィルタは、 現在単語に対応した経過記録の更に次のレベルへ移り、基体の基体の基体を(も し存在していれば)調べる。そして、その、基体の基体の基体が名詞であったな らば、フィルタ104はその、基体の基体の基体を索引に加えるが、そうでなか ったならば、現在単語を失格と判定して、次の単語の処理に取りかかる。
現在単語が1種類の品詞しか持っておらず、しかも、その品詞が、名詞、形容詞 、及び副詞のうちのいずれでもなかった場合には、フィルタ104は現在単語を 失格と判定する。同様に、現在単語は副詞であるが、その基体が名詞でも形容詞 でもないという場合にも、フィルタ104は現在単語を失格と判定する。
現在単語が2種類の品詞を持っている場合(しかも2種類しか持っていない場合 。即ち、両義牲を有する場合)には、フィルタ104は、それら2種類の品詞の うちの一方が名詞で、且つ、他方が副詞で姪場合にのみ、現在単語を索引に加え る(ステップ206〜212)。
現在単語が3種類の品詞を持っている場合(しかも3種類しか持っていない場合 )には、フィルタ104は、それら3種類の品詞のうちの1つが名詞である場合 にのみ、現在単語を索引に加える(ステップ214〜220)。
最後に、現在単語が4種類以上の品詞を持っている場合には、フィルタは現在単 語を索引に加えない(ステップ222〜224)。
以上の説明において注意すべきことは、現在単語が両義性ないし多義性を有する ものである場合(例えば、rleavesJは、rleafJの複数形でもあり 得るし、rleaveJという動詞の三人称単数形でもあり得る)には、フィル タ104は、現在単語の基体として、2通り以上の基体を出力するということで ある。
フィルタ104が、そのテキスト内で使用されている全ての単語に対する処理を 完了したならば、アプリケーションは、それまで使用されていた割り振られてい たテーブルを全て解放し、参照作業をクローズする。
更にアプリケーションは、みずからに渡されたトビツク構造体の中の情報を利用 した後、そのトビツク構造体に割り振られていた記憶空間を解放する。
以上に説明した実施例では、テキストの処理は一度に単語1つずつについて行な われている。即ち、アプリケーション・プログラムは、インテリジェント・フィ ルタ104へ、一度に単語を1つずつ受け渡し、そして、返されて(る結果を用 いて索引を生成するようにしている。また、アプリケーションがインテリジェン ト・フィルタ104ヘテキストのブロックを渡すようにすることも可能であり、 そうした場合には、フィルタ104は、複数のトビツク構造体から成るトビツク 構造体のアレイを作成する。このトビツク構造体は、そのテキストのブロックの 中でトビツク・ワードであると識別された単語の各々に対して1つずつ作成され ているものである。また、この場合には、アプリケーション・プログラムは、テ キスト解析プログラムをコールし、このテキスト解析プログラムは、図6のフロ ーチャートに示したように処理を実行する。
アプリケーション・プログラムは、先ず最初に、このテキスト解析プログラムと 、必要なデータ構造体とを初期設定し、そして、索引を作成すべきテキストを包 含している参照作業をオープンする(ステップ225)。アプリケーション・プ ログラムは続いて、バッファの中に、解析の対象となる、そのテキストの第1番 目のブロックを書き込んで、そのブロックをテキスト解析プログラムへ渡し、テ キスト解析プログラムの側では、そのテキストをトークン化(tokenize ) L/て、その中の個々の単語を識別する(ステップ229及び231)。テ キストのトークン化のためには公知の様々な技法を利用することができ、例えば 、スペース、及び/または、引用符を、単語間境界の標識として利用するという 方法を用いても良い。テキスト解析プログラムは、テキストのそのブロックの中 にある各々の単語に対して、インテリジェント・フィルタ104をコールする( ステップ233)。インテリジェント・フィルタ104は、みずからへ渡される 単語を処理し、トビツク構造体アレイを作成し、このトビツク構造体アレイに含 まれている個々のトビツク構造体は、テキストのそのブロック内の単語のうちか ら発見されたトビツク・ワードの各々に対して作成されるものである。テキスト のそのブロックの全体に対するトビツク構造体アレイが完成したならば、アプリ ケーション・プログラムは、そのトビツク構造体アレイの中から個々のトビツク 構造体を検索し、各々のトビツク・ワードが、そのテキストに関するそれまでの 処理において既にトビツク・ワードとして識別されていないかどうかを調べる。
そして、そのトビツク・ワードが未だ識別されていなかったならば、そのトビツ ク・ワードを、そのテキストに関連したコンセントのリストに加える(ステップ 235〜237)。
アプリケーション・プログラムは、以上のようにして、そのテキストを一度にブ ロック1つ分ずつ次々と処理して行き、最終的には、そのテキストの全体に対応 した索引を完成する(ステップ239)。そして、そのテキストの全体の処理を 完了したならば、アプリケーション・プログラムは、テキスト解析処理の実行中 に使用していた記憶空間を解放し、その処理に関係していた全てのファイルをク ローズする。
インテリジェント・フィルタ104は、所与のテキストに必要とされる索引の大 きさを圧縮する性質を備えており、それは、少な(とも次の2つのことによるも のである。第1に、インテリジェント・フィルタ104は、トビツク・ワードと しての資格を備えた単語を識別し、テキストの内容に関係していないその他の単 語をトビツク・ワードとして失格であると判定する。更に、インテリジェント・  □フィルタ104は、多(のテキスト内使用単語に対して、そのテキスト内使 用単語に給電的に関連した単語を供給し、索引作成エンジンは、その給電的に関 連した単語を索引に加える。そのため、テキスト内で使用されている誘電的に関 連した一群の単語が、その、互いに給量的に関連した一群の単語の中から選択さ れた、1つの単語によって代表して表わされるようになるのである。
テキストの索引において、ただ1つの単語によりて、互いに給量的に関連した一 群の単語を代表して表わすようにするこの方式は、この方式だけを単独で利用す ることも可能である。その場合には、例えば、ユーザが、テキストの中から、索 引の中に表示させる1つの単語を手動操作で選択するようにし、続いて、形態構 造解析器の認識能力を利用して、その選択した単語に語索的に関連した一群の単 語を発生させるようにすることが考えられる。索引に加える単語については、こ の後、索引作成エンジンが、元の単語と、その単語に給電的に関連した複数の単 語とから成る単語集合のうちから選択した1つの単語を使用する。即ち、結果的 に作成される索引における各々の単語が、テキスト内で使用されている互いに誘 電的に関連した複数の単語から成る1つの単語集合を、代表して表わすようにな る。これによって、テキスト内で使用されている互いに給電的に関連した複数の 単語の各々が、索引の中に独立した1つずつの単語として含められることがなく なる。
図7に示したシステム10は、形態構造解析器110によって、テキストのサー チを支援するように構成したシステムである。このテキスト・サーチ・システム 201においては、ユーザが発したサーチ要求の一部分である入力単語203が 対象拡張モジュール(SESモジュール)205へ渡され、このSESモジュー ル205において、その入力単語に拡張処理が施されて、複数の関連対象のリス トが作成される。続いてサーチ・エンジン213が、その入力単語から作成され たこの拡張リストを使用して、記憶装置207の中に格納されているテキストの サーチを行ない、この拡張リストに列挙されている項目のうちのいずれかに言及 している文書を特定した情報を出力として返す。SESモジュールは、この対・  象拡張機能を実行するために、形態構造解析器110に、入力単語に誘電的に 関連した単語のリストを作成させる。形態構造解析器110は、辞書110の中 に格納されている情報に基づいて、その入力単語の構造形態解析を実行し、その 入力単語に対応した基体の経過記録を作成する。この経過記録は、その入力単語 の中に発見された幾つかの基体と、それら基体に付加されることによってその入 力単語を形成する接尾辞とを包含している。SESモジュール205は、形態構 造解析器110が発生したこの情報に基づき、類語辞書211を参照して、語儀 的に関連した単語のうちの、ある単語に拡張処理を施し、当該単語の類語を列挙 した拡張リストを作成する。一般的に、この拡張処理は、入力単語に関して発見 された複数の定義、即ち複数の品詞の、各々について実行される。ただし、いか なる単語についても必ずその類語が得られるとは限らないため、SESモジュー ル205は、入力単語の類語が発見されなかったかった場合には、その入力単語 に対応して生成された基体の経過記録の中に包含されている誘電的に関連した単 語を使用する。
SESモジュール205の処理動作は、図8に示したブロック図にその概要を示 しである。SESモジュール205は、1つの入力単語を受け渡されたなら、5 ESinit機能215をコールして、みずからの処理動作の間に使用するデー タ構造と、機能と、辞書とを初期設定する。この初期設定が完了したならば、S ESrecword (SESrec単語)機能217が、形態構造解析器11 0に入力単語の基体の経過記録を作成さ、その基体の経過記録から得られる情報 を用いて、類語辞書211から類語のリストを作成する。このSESrecwo rdが個々の単語及び類語を発生する度に、第2の機能である5ESexpli st (SESexpリスト)219が、SESrecword 2・ 17が 発生するその単語及び類語を採取して、給電的に関連した単語と、類語と、給量 的に関連した類語とから成る単語集合を生成し、そしてその単語集合を、入力単 語、及び入力単語に給量的に関連した単語と併せて、サーチに使用すべき拡張リ ストとして、サーチ・エンジン213へ受け渡す。以上の拡張処理が完了したな らば、5ESfini機能221が、この拡張処理のために初期設定された記憶 空間を解放し、辞書をクローズする。以下に、SESrecword217と5 ESexplist 219とについて更に詳細に説明する。
SESrecword 217は、図9a及び図9bに示したようにして、処理 動作を行なう。即ち、このSESrecword機能は、初めてコールされたと きには、WFSrecognize機能に、このSESrecword機能のコ ールの一部分として渡された入力単語の解析を行なわせる(ステップ230)。
lFsrecognizeは、入力単語をある1つの分解の仕方で分解すること に成功する度に、1つの経過記録を返して(る。経過記録の各々は、様々な情報 を含んでいるが、その中に、語幹と、その語幹に付加されることによって入力単 語を形成する接尾辞と、入力単語の品詞とを含んでいる。入力単語の定義が2つ 以上存在していることもあるため、WFSrecognizeが2通り以上の分 解の仕方で分解に成功することもあり得る。
fFsrecognizeが、その認識機能を完了して然るべき情報を返してき たならば、5ESrecvord 217は、返されてきた各々の定義(即ち、 経過記録中の経路)の中をループして(ステップ232)、それら各々の経路ご とに以下の処理を実行する。SESrecword 217は、先ず最初に、現 在経路の品詞が、それまでに既に処理した、他のいずれかの経路の品詞と同じで あるか否かを調べる(ステップ254)。
現在経路の品詞が、既に処理したある経路の品詞と同じものであったならば、S ESrecword217は、現在経路をスキップしてとばし、次の経路の処理 に取りかかる(ステップ236)。尚これに関して、既に拡張処理を施した経路 と同じ品詞に至る別の経路に拡張処理を施しても、得られる拡張結果は同じであ ることに注意されたい。
一方、現在経路の品詞が初めてのものであったならば、SESrecword  217は、その現在の品詞が屈折変化(活用変化)を伴う品詞であるか否かを調 べる(ステップ236)。もし現在品詞が屈折変化を伴う品詞であったならば、 現在経路の基体が、以前に処理した経路に関して既に発見されている可能性があ る。例えば、1つの動詞の過去形と過去分詞とでは基体が互いに同一であるため 、拡張処理の結果も同一になる。SESrecword217は、既に一度実行 した作業を重複して実行することを避けるために、そして屈折変化する単語につ いては、現在経路の基体を、他の経路に関して既に発見されている他の基体と比 較対照するようにしている(ステップ240)。他の経路についての情報は、S ESrecword217がこの処理を実行している間に作成している、この処 理の結果をアプリケーション・プログラムへ返すための情報リストの中に格納さ れている。この情報リストは、入力単語に関して認識された様々な語形の集合体 であって、図10に例示したような情報オブジェクト223の、連係リストであ る。この情報リストの中にその基体が既に含まれていたならば、SESrecw ord217は、現在経路をスキップしてとばしてしまう。そうでなかった場合 には、SESrecword217は、その基体の形が類語辞書211に載って いるか否かを調べる。そして、その基体の形が類語辞書に載っていたならば、S ESrecword217はその基体に対応した新たな情報オブジェクト223 を作成して、その新たなオブジェクトを情報リストに追加する。
この新たなオブジェクトは、類語辞書の中にその基体の類語として載せられてい る全ての類語を包含している。
再び図10について説明すると、オブジェクト223の各々は、その類語を発見 したところの単語を記入するフィールド223(aLその単語に関連している品 詞を表示するpos−1ist (pos−リスト)223(b)、その単語の 全ての類語を格納してお(ための類語バッファ(THバッファ)223(cLそ れに、リストの中の次のオブジェクトを指し示すポインタ223 (i)を含ん でいる。情報オブジェクトの各々は、更に、THバッファ223 (c)の中に 格納されている類語の数を示すnun−words (null−単語)フィー ルド223 (d)と、リストの中にそれまでに入れられた、その単語の互いに 異なった意味ないし含意の数を表示するnua+−meanings (nun −意味)フィールド223 (c)と、それにpos−sumフィールド322 (f)とを含んでいる。pos−sumフィールド322 (f)は、その単語 に拡張処理を施したときに通常その結果として得られる複数の形の、平均数につ いての所定の統計量を、その単語の品詞の関数として表示している。換言すれば 、このかりを提供している。経験的に判明しているところによれば、ある単語に 拡張処理を施して得られる単語の個数は、その単語の品詞の種類によって左右さ れる。
例えば、1個の名詞に拡張処理を施した場合には、一般的に3個の単語が得られ る。1個の動詞からは7個の単語が得られ、また、1個の形容詞からは4個の単 語が得られる。この情報は、後に拡張機能が、THバッファの中に格納されてい る単語のうちの幾つの単語に拡張処理を施すべきかを判定する際に使用する。
情報オブジェクト223の各々は更に、サンプル情報フィールド(sample infoフィールド)223(q)と、5election−info (選択 −1nfo)フィールド223(b)とを含んでいる。サンプル情報フィールド 223 (q)は、ポインタ・アレイを包含しているフィールドであり、そのポ インタ・アレイの中の個々のポインタは、THバッファ223 (c)の中の各 々の考慮されるサンプルを指し示している。サンプルは、入力単語の意味ないし 含意が存在する場合の、その意味ないし含意として定義される。カレッジ・シソ ーラス(the CoCo11e Thesaurus )という類語辞書では 類語が種々の意味カテゴリに分類されて編成されている。sample−inf oフィールド233 (q)の中のポインタは、THバッファ223 (c)の 中の各カテゴリの開始点を識別している。すぐ後に更に詳細に説明するように、 幾つかの実施例においては、サンプルのうちのどれを、5ESexplist2 19が実行する拡張処理に含ませるかを選択する機会が、ユーザに与えられる。
これに対するユーザの指示内容は、後に用いるために、5election−i nfoフィールド223 (k)の中に記録される。
再び説明を図9aに戻してステップ238〜248について説明すると、基体に 対応した情報オブジェクトを生成した後には、或いは、その基体形が類語辞書の 中に載っていないことが判明した後には、SESrecword 217は更に 、入力単語が類語辞書の中に屈折形で示されているか否かを調べる(ステップ2 46)。
もしそうであったならば、SESrecwordは、入力単語に対応したもう1 つの情報オブジェクトを作成する(ステップ248)。
現在経路に関する品詞が、屈折変化を伴っていない品詞であった場合には、SE Srecword 217は、入力単語が類語辞書に載っているか否かを調べる −(ステップ、252)。そして、入力単語が類語辞書に載っていたならば、入 力単語に対応する情報オブジェクトを作成して情報リストに追加する(ステップ 256)。一方、□入力単語が類語辞書に載っていなかったならば、5ESre cvord217は、入力単語の経過記録を調べて、入力単語から1つの接尾辞 を取り去ることによって入力単語と実質的に同じ意味を持った基体を形成するこ とができるか否かを判定する(ステップ258〜260)。ここで、単語どうし が実質的に同じ意味を持つというのは、例えば、接尾辞を取り去ることによって 形成される単語の機能が、その接尾辞を取り去る前の元の単語の機能と意味論的 に同一であることを言う。単語の意味を実質的に変化させることな(取り去るこ とのできる接尾辞の種類は限られている。その種の接尾辞のリストを、図11に 示した。(尚、「+」及び「#」は、^ronoff、 Mark (1976 ) Word For+aation in Generative Gram marA Lin guistic Inquiry Monograph 1. MIT Pre ss、 Cambridge、 Massachusett刀@に従っ た、境界文字ないし境界マーカーである)。このリストは、テーブルの中に格納 してあり、SESrecwordが、そのテーブルにアクセスして、現在接尾辞 を取り去ることによって形成される単語から類語を生成しても構わないか否かを 判定するようにしている。そして、現在接尾辞が取り去り可能なものであったな らば、SESrecword 217は、それを取り去って得られる基体が、類 語辞書に載っているか否かを調べる。その基体が載っていたならば、その基体に 対応した単語情報オブジェクトを作成する。一方、その基体が載っていなかった ならば、入力単語に対応した、類語情報を含まない単語情報オブジェクトを作成 する。
5ESrecvordは、全ての経路の中をループし終って、以上に説明した処 理を完了したならば、複数の情報オブジェクトから成る、完成した1つのリスト をアプリケーション・プログラムへ返す。
図12に示したように、別実施例においては、SESモジュール205を変更し て、ユーザが、拡張処理の際にある情報オブジェクトをスキップしてとばすよう にしたり、情報オブジェクトの中の特定の類語を、拡張処理を施すべき類語とし て選択したりすること(この操作を包括的にサンプリングと呼んでいる)ができ るようにしである。この変更構成のSESモジュール205においては、アプリ ケーションが、SESrecword217の出力をSESsample機能2 23へ渡し、このSESsample機能223が、各々のカテゴリ(即ち各々 の意味)から単語部分集合を成す複数の単語を選択し、そして、選択された単語 部分集合を、アプリケーションがディスプレイに表示して、ユーザに提示するよ うにしている。本実施例では(即ち、カレッジ・シソーラスを使用している場合 には)、SESsample 223は、各々のカテゴリから先頭の2つずつの 単語を選択してディスプレイに表示させる。続いてユーザは、どの情報オブジェ クトをスキップしてとばすべきかを選択し、また、情報オブジェクトの中のカテ ゴリのうち、拡張処理を施すことを23(b)(図10参照)に格納する。
以上に説明した2つの実施例のいずれにおいても、SESrecword 21 7から返されてきた単語に対して実際に拡張処理を施すのは、他の2つの機能、 即ち、5ESexplist219と、SESgen221とであり、図13と 図14のフローチャートに示しである。以下にこれら2つの機能の各々について 説明して行(。
5ESexplist219は、SESrecword217から返されてきた 情報リストを取り、それに拡張処理を施し、それによって、認識された語形の入 力単語とSESrecword217によって発見された類語とから生成した、 それらに誘電的に関連した単語を、その情報リストに追加する。図13に示すよ うに、5ESexplist219は、初めてコールされたならば、リストの複 数の情報オブジェクトの中をループして(ステップ27 Q) 、nuIIl− wordsフィールド223(d)(図10参照)の中の数字を用いて、THバ ッファの中の単語の合計数を算出する(ステップ272)。
いる情報を用いて、類語辞書から得られたサンプリングされたカテゴリの全てに 対して拡張処理を施した場合に発生することが見込まれる単語の総数を見積る( ステップ274)。(サンプリングという特徴を採用していない場合には、全て のカテゴリの単語に対して拡張処理を施すべきものと見なす)。続いて、使用可 能な記憶空間に関する制約条件が存在している場合には、その制約条件を反映す るために個数を減少させる。例えばDOS環境では、記憶空間に関する制約条件 が非常に厳しいものとなることがあり、一方、その他の環境においては、例えば 仮想記憶システム等のように、生成する単語の個数に制限を設ける必要がない場 合もある。5ESexplist219は、この減少させた個数に従って、サン プリングされたカテゴリの各々から選択する単語の個数を夫々何個にすれば、拡 張処理に際して使用可能な記憶空間を超過せずに済むかという、個数を算出する 。複数のカテゴリから選択され単語を配分する際には、THバッファ223 ( c)の中の、サンプリングされたそれらカテゴリの全てを平等に表わせるような 配分の仕方とする。即ち、選択されたカテゴリの全てから、夫々に幾つかずつの 個数の単語を選択すると共に、より大きいカテゴリからは、より小さいカテゴリ よりも、多くを代表として出せるように割り振りを行なう。
5ESexplist219は、各々のカテゴリについての、拡張処理を施して 良い単語の個数を決定したならば、続いて、情報オブジェクトのリスト中を再び ループして、実際の拡張処理を実行して行く(ステップ276)。このとき、5 ESexplist219は、現在情報オブジェクトに対し、先ず最初に、その オブジェクトが、スキップしてとばすべきものとして選択されているか否かを調 べる(ステップ278)。そして、現在情報オブジェクトに、スキップすべきも のであることを表わすマーク付けがなされていたならば、5ESexplist  219は、その次の情報オブジェクトの処理に取りかかる。一方、現在情報オ ブジェクトがスキップすべきオブジェクトとして選択されていなかったならば、 5ESexplist219は、現在情報オブジェクトの5election− infoフィールド223 (h)の内容を調べることによって、現在情報オブ ジェクトが、サンプリングされたものであるか否かを判定する。
現在情報オブジェクトがサンプリングされたオブジェクトであって、然るべき選 択がなされているものであったならば、5ESexplistは、その選択され ているものを処理をさせるために、SESgen 221をコールする。この処 理段階において、SESgen 221は、サンプリングされているカテゴリの 中の単語のうち、上述のステップ272及び274で実行された算出処理の結果 に基づき許された個数の単語に拡張処理を施す。
もし現在情報オブジェクトが、スキップすべきものとされたオブジェクトでもな (、また、サンプリングされたオブジェクトでもなかったならば、5ESexp list219は、現在情報オブジェクトの中に包含されている全てのデータに 関して、SESgen 221をコールする(ステップ282)。このステップ の実行中に、SESgen221は、各々のカテゴリにおいて、上述のステップ 272及び274で算出された制限個数によって許されている個数の単語だけ拡 張処理を施す。
5ESexplist219は、所与の情報オブジェクトの中の単語に対する拡 張処理を完了すると、その情報オブジェクトに関連した記憶空間の全てを解放す る(ステップ284)。5ESexplistは、全ての情報オブジェクトの中 をループし終ったならば、その拡張処理の結果を、サーチ・エンジン213へ返 し、サーチ・エン・ジン213は、その拡張リストの中の情報に基づいてサーチ を実行する。換言すれば、サーチ・エンジン213は、みずからのサーチを実行 するに際して、入力単語と、入力単語に給量的に関連した単語と、入力単語及び 入力単語に給量的に関連した単語の類語(ただし該当する類語が存在している場 合)と、それら類語に給量的に関連した単語とを使用して、そのサーチを実行す るのである。サーチ・エンジン213は、公知の多くの技法のうちの任意のもの を用い、拡張リストを使用して、その拡張リストに載せられている単語のうちの いずれかに言及している文書ないしは文書内の部分の位置の全てをサーチによっ て見つけ出す。
SESgen 221を反復してコールして、結果リストが生成され、この結果 リストが返される。図14に示したように、SESgenは、コールされたなら ば、先ず最初に、現在情報オブジェクトの、該当する夫々のフィールドの中に格 納されている情報から、入力単語と、その品詞とを識別する(ステップ290) 。入力単語に関しては、SESgenは、生成機能であるWFSgenerat eをコールする。するとこのWFSgenerateが、形態構造解析器110 に、入力単語に1つの接尾辞を付加することによって形成することのできる全て の屈折形及び派生形を発生させる。形態構造解析器110は更に、派生形の屈折 形についてもあり得る語形を発生する。
WFSgenerateは、output−history (出力−経過記録 )データ構造体を返し、この0utput−historyデータ構造体は、得 られた全ての拡張に対する経過記蝉のアレイである。それら経過記録の各々の、 先頭のレコードは、入力単語を包含しており、また末尾のレコードは、屈折形、 派生形、或いは派生形の屈折形を包含している。
この最後の場合、中間のレコードが、派生形、即ち、入力単語に1つの派生接尾 辞を付加して得られた単語を包含している。
SESgen 221は、生成されたそれら経過記録の中から、全ての屈折形を 選択して結果リストに加える(ステップ294)。更に、0utput−his toryデータ構造体の中に派生形も含まれている場合には、SESgen22 1は、単語の意味を大きく変化させることなく、現在品詞の入力単語に付加する ことのできる接尾辞を有する派生形だけを選択する。基体の意味を太き(変化さ せることな(その基体に付加することのできる派生接尾辞の種類は限られている 。接尾辞を取り去る場合と同様に、接尾辞を付加することによって形成される単 語が基体語と実質的に同一の意味を持つことになるのは、例えば、その接尾辞の 付加によって形成される単語・の機能が、その接尾辞を付加する前の基体語の機 能と意味論的に同一である場合である。これに該当する接尾辞のリストを、図1 1の中のその旨を記した縦列に示しである。この接尾辞のリストはテーブルの中 に格納してあり、SESgenが、そのテーブルにアクセスして、いずれかの派 生形が、その現在品詞に付加することのできる接尾辞を有しているか否かを判定 するようにしている。そして該当するエントリだけを結果リストに加える。
SESgenは、情報オブジェクトの入力単語の処理を完了したら、情報オブジ ェクトの、THバッファの中に格納されている類語の中をループする(ステップ 296)。SESgen 221は、現在類語に関して、その品詞を入力単語の 品詞と比較対照する(ステップ298)。もしそれら双方の品詞が同じであった ならば、SESgen221は、以上に説明した拡張処理と同じ拡張処理を実行 する。即ち、SESgen221は、その類語に接尾辞を1つ付加するだけで形 成することのできる、その類語の全ての屈折形と派生形とを発生し、そして、屈 折形と、派生形のうちでその類語の現在品詞に付加することのできる接尾辞を有 する派生形だけとを、情報オブジェクトに対する結果リストに加える(ステップ 300及び302)。
SESgen 221は、その拡張を生成すべき全ての類語の中をループし終っ たならば、結果リストを5ESexplist 219 ヘ返す(ステップ30 0)。
尚、類語辞書を使用しない制限した形態の対象拡張を行うようにすることも可能 である。その場合には、入力単語に、形態構造解析器に発生させたその入力単語 に誘電的に関連した一群の単語を加えたものを使用して、サーチを行なう。
その他の実施例としては、請求の範囲に包含されるものがある。
浄書(内容に変更なし) FIG、 I FIG、 2 FIG、 3 FIG、 5 子六スト解析アログラムを初廟設定する (225)−rべ又トをトー7ンイこ する (231)バッファの子キストの翅理を完了い−ならI’ (239)− rqストの次の10ツクをpjJ(ブ、収るFIG、6 FIG、 8 FIG、 12 喪 FIG、 10 屈竹槓尾評 屈′!#拌尾辞 = ;鳳 #ar #ar #er 二 − FIG、 11 手続補正書 1、事件の表示 PCT/US91100739 2、発明の名称 テキスト管理システム 3、補正をする者 事件との関係 特許出願人 住所 名 称 ウォング・ラボラトリーズ・インコーホレーテッド4、代理人 住 所 東京都千代田区大手町二丁目2番1号新大手町ビル 206区 5、補正の対象 国際調査報告 US 9100739 S^ 44650 フロントページの続き (72)発明者 クラーク、チェリル アメリカ合衆国マサチューセッツ州02174゜アーリントン、ボウ・ストリー ト96

Claims (60)

    【特許請求の範囲】
  1. 1.入力単語に基づいて単語集合体のサーチを行なう装置において、前記入力単 語に語■的に関連した単語を含む第1単語集合を生成するための手段であって、 該第1単語集合は規則的屈折変化名詞以外の単語を要素として含んでいる、生成 手段と、 前記入力単語と前記第1単語集合の単語とを含んでいるサーチ単語群に所属して いる単語のうちのいずれかの単語の存在を検出するべく前記単語集合体をサーチ するためのサーチ・エンジンと、 を備えたことを特徴とする装置。
  2. 2.前記生成手段が形態構造解析器であることを特徴とする請求の範囲第1項記 載の装置。
  3. 3.前記単語集合体が索引であることを特徴とする請求の範囲第1項記載の装置 。
  4. 4.前記単語集合体がテキストであることを特徴とする請求の範囲第1項記載の 装置。
  5. 5.前記生成手段が、第1接尾辞群のうちから選択した接尾辞だけを前記入力単 語から取り去ることによって、前記第1単語集合の要素であるある単語を生成す ることを特徴とする請求の範囲第1項記載の装置。
  6. 6.前記第1接尾辞群の要素が、単語から取り去られてもその単語の意味を実質 的に変化させない接尾辞だけを含んでいることを特徴とする請求の範囲第5項記 載の装置。
  7. 7.前記第1接尾辞群が、すべて屈折接尾辞である#ful、#ish、+ou s、+ic、十a1、#ar、#er、#or、+ive、+ory、#abl e、+able、+ible、#ment、#ness、+ity、+ety、 +ty、#ly、#ize、+ify、+fy、及び#yを含んでいる第1部分 集合のうちから選択した要素を含んでいることを特徴とする請求の範囲第8項記 載の装置。
  8. 8.前記形態構造解析器が、入力単語を認識してその認識した入力単語について の派生情報を返す認識エンジンを備えたものであることを特徴とする請求の範囲 第2項記載の装置。
  9. 9.前記認識エンジンが、入力単語を分解してその入力単語の中の語幹の全てを 識別し、且つ、識別した各語幹に関して、その語幹に付加することによってその 入力単語を発生する接尾辞を識別するように、動作することを特徴とする請求の 範囲第8項記載の装置。
  10. 10.前記認識エンジンが、該認識エンジンが前記入力単語に対して実行して成 功したあらゆる分解についての情報を包含している派生の経過記録を返すことを 特徴とする請求の範囲第9項記載の装置。
  11. 11.前記派生の過程記録が、入力単語の成功した分解の各々に関して、その特 定の分解における入力単語の品詞を包含していることを特徴とする請求の範囲第 10項記載の装置。
  12. 12.更に類語データベースを備えており、前記生成手段が該類語データベース を用いて類語群を生成し、該類語群の構成要素は、前記第1単語集合の要素であ る語■的に関連した単語のうちの、ある単語の類語であることを特徴とする請求 の範囲第1項記載の装置。
  13. 13.前記サーチ単語群が更に前記類語群を含んでいることを特徴とする請求の 範囲第12項記載の装置。
  14. 14.前記生成手段が、前記類語群のうちから選択した類語に、第2接尾辞群の うちから選択した接尾辞だけを付加することによって、前記類語群のうちから選 択した類語から第2単語群を生成することを特徴とする請求の範囲第12項記載 の装置。
  15. 15.前記サーチ単語群が更に前記第2単語群を含んでいることを特徴とする請 求の範囲第14項記載の装置。
  16. 16.前記第2接尾辞群の要素が、単語に付加されてもその単語の意味を実質的 に変化させない接尾辞だけを含んでいることを特徴とする請求の範囲第14項記 載の装置。
  17. 17.前記第2接尾辞群が、すべて屈折接尾辞である#ful、#ish、+o us、+ic、+al、#ar、#er、#or、+ive、+ory、#ab le、+able、+ible、#ment、#ness、+ity、+ety 、+ty、#ly、及び#yを含んでいる第2部分集合のうちから選択した要素 を含んでいることを特徴とする請求の範囲第16項記載の装置。
  18. 18.前記形態構造解析器が更に、前記類語群のうちから選択した類語に語■的 に関連した単語から成る第2単語集合を生成するための生成エンジンを含んでい ることを特徴とする請求の範囲第12項記載の装置。
  19. 19.前記生成エンジンが、入力単語に関する前記認識エンジンから供給される 情報に基づいて、前記第2単語集合を生成することを特徴とする請求の範囲第1 8項記載の装置。
  20. 20.前記サーチ単語群が更に前記第2単語集合を含んでいることを特徴とする 請求の範囲第18項記載の装置。
  21. 21.前記類語群の構成要素である類語を選択してその選択した類語を識別する ための選択手段を更に備えたことを特徴とする請求の範囲第14項記載の装置。
  22. 22.1つの入力単語に拡張処理を施して複数の関連単語を生成する対象拡張シ ステムにおいて、 入力単語を受け取るための手段と、 入力単語から第1単語群を生成するための生成手段であって、単語から取り去ら れてもその単語の意味を実質的に変化させない接尾辞だけを構成要素として含ん でいる第1接尾辞群のうちから選択した接尾辞だけを、入力単語から取り去るこ とによって、前記第1単語群のうちの少なくとも幾つかの単語を生成するように した生成手段と、 を備えたことを特徴とする対象拡張システム。
  23. 23.前記第1接尾辞群が、屈折接尾辞と派生接尾辞とを含んでいることを特徴 とする請求の範囲第22項記載の対象拡張システム。
  24. 24.前記第1接尾辞群が、すべて屈折接尾辞である#ful、#ish、+o us、+ic、+al、#ar、#er、#or、+ive、+ory、#ab le、+able、+ible、#ment、#ness、+ity、+ety 、+ty、#ly、#ize、+ify、+fy、及び#yを含んでいる第1部 分集合のうちから選択した要素を含んでいることを特徴とする請求の範囲第23 項記載の対象拡張システム。
  25. 25.前記生成手段が、単語に付加されてもその単語の意味を実質的に変化させ ない接尾辞だけを構成要素として含んでいる第2接尾辞群のうちから選択した接 尾辞だけを、前記入力単語から導出された単語に付加することによって、前記第 1単語群のうちの少なくとも幾つかの単語を生成するようにしたものであること を特徴とする請求の範囲第22項記載の対象拡張システム。
  26. 26.前記第2接尾辞群が、屈折接尾辞と派生接尾辞とを含んでいることを特徴 とする請求の範囲第25項記載の対象拡張システム。
  27. 27.前記第2接尾辞群が、すべて屈折接尾辞である#ful、#ish、+o us、+ic、+al、#ar、#er、#or、十ive、+ory、#ab le、+able、+ible、#ment、#ness、+ity、+ety 、+ty、#ly、及び#yを含んでいる第2部分集合のうちから選択した要素 を含んでいることを特徴とする請求の範囲第26項記載の対象拡張システム。
  28. 28.更に類語データベースを備えており、前記生成手段が該類語データベース を用いて類語群を生成し、該類語群の構成要素は、前記第1単語群のうちのある 単語の類語であることを特徴とする請求の範囲第22項記載の対象拡張システム 。
  29. 29.前記生成手段が、単語に付加されてもその単語の意味を実質的に変化させ ない接尾辞だけを構成要素として含んでいる第2接尾辞群のうちから選択した接 尾辞だけを、前記類語群のうちから選択した類語に付加することによって、前記 類語群をより大きな単語群に拡張することを特徴とする請求の範囲第28項記載 の対象拡張システム。
  30. 30.前記第2接尾辞群が、屈折接尾辞と派生接尾辞とを含んでいることを特徴 とする請求の範囲第29項記載の対象拡張システム。
  31. 31.前記第2接尾辞群が、すべて屈折接尾辞である#ful、#ish、+o us、+ic、+al、#ar、#er、#or、+ive、+ory、#ab le、+able、+ible、#ment、#ness、+ity、+ety 、+ty、#ly、及び#yを含んでいる第2部分集合のうちから選択した要素 を含んでいることを特徴とする請求の範囲第30項記載の対象拡張システム。
  32. 32.前記生成手段が、形態構造解析器を備えていることを特徴とする請求の範 囲第21項記載の対象拡張システム。
  33. 33.前記形態構造解析器が、前記入力単語の基体の経過記録を生成するための 認識エンジンを備えており、該基体の経過記録は、前記入力単語の1つないし複 数の基体語を識別している記録であり、該1つないし複数の基体語は、前記入力 単語から1つないし複数の接尾辞を取り去った形を表している、ことを特徴とす る請求の範囲第33項記載の対象拡張システム。
  34. 34.1つの入力単語から単語群を生成する対象拡張システムにおいて、前記入 力単語から接尾辞を取り去ることによって1つないし複数の基体語を生成するた めの、生成手段と、 前記1つないし複数の基体語を受けとって、該1つないし複数の基体語のうちの 或る基体語に対する類語群を生成するように構成してある、類語手段と、を備え たことを特徴とする対象拡張システム。
  35. 35.前記生成手段が、前記入力単語の基体の経過記録を生成するための認識エ ンジンを備えており、該基体の経過記録は、前記1つないし複数の基体語を識別 する、ことを特徴とする請求の範囲第34項記載の対象拡張システム。
  36. 36.前記生成手段が更に、前記類語群のうちから選択した類語に語■的に関連 した単語を集合要素として含んでいる第2単語集合を生成するための生成エンジ ンを備えていることを特徴とする請求の範囲第34項記載の対象拡張システム。
  37. 37.前記類語群の類語を選択してその選択した類語を識別するための選択手段 を更に備えたことを特徴とする請求の範囲第36項記載の装置。
  38. 38.入力単語に基づいて単語集合体のサーチを行なう方法において、前記入力 単語に語■的に関連した単語を含む第1単語集合を生成するステップであって、 該第1単語集合は規則的屈折変化名詞以外の単語を集合要素として含んでいる、 生成ステップと、 前記入力単語と前記第1単語集合の単語とを含んでいるサーチ単語群に所属して いる単語のうちのいずかの単語の存在を検出するべく前記単語集合体をサーチす る、サーチ・ステップと、 を含んでいることを特徴とする方法。
  39. 39.1つの入力単語に拡張処理を施してその入力単語から複数の関連単語を生 成する方法において、 入力単語を受け取るステップと、 前記入力単語から第1単語群を生成する生成ステップであって、単語から取り去 られてもその単語の意味を実質的に変化させない接尾辞だけを構成要素として含 んでいる第1接尾辞群のうちから選択した接尾辞だけを、前記入力単語から取り 去ることによって、前記第1単語群のうちの少なくとも幾つかの単語を生成する ようにした生成ステップと、 を含んでいることを特徴とする方法。
  40. 40.1つの入力単語から単語群を生成する方法において、前記入力単語から接 尾辞を取り去ることによって1つないし複数の基体語を生成するステップと、 類語データベースを用いて、前記1つないし複数の基体語のうちの或る基体語に 対する類語群を生成するステップと、を含んでいることを特徴とする方法。
  41. 41.単語集合体のための索引を生成する装置において、前記単語集合体の複数 の単語のうちから入力単語を選択するための、選択手段と、 前記入力単語に語■的に関連した単語を生成する生成手段であって、該入力単語 と該入力単語に語■的に関連した単語とが単語群を形成する、生成手段と、前記 単語群の構成要素である単語のうちのいずれかの単語が前記単語集合体の中に存 在していることを、前記単語群の構成要素のうちの1つの単語によって表わすよ うにする、索引作成エンジンと、を備えたことを特徴とする装置。
  42. 42.前記単語集合体がテキストであることを特徴とする請求の範囲第41項記 載の装置。
  43. 43.前記生成手段が、形態構造解析器を備えていることを特徴とする請求の範 囲第41項記載の装置。
  44. 44.前記形態構造解析器が、前記入力単語に関する形態構造情報を生成するた めの認識エンジンを備えていることを特徴とする請求の範囲第43項記載の装置 。
  45. 45.前記認識エンジンが、前記入力単語の基体の経過記録を返すようにしてあ り、該基体の経過記録は、前記入力単語の1つないし複数の基体語を識別し、該 1つないし複数の基体語の各々は、前記入力単語から1つないし複数の接尾辞を 取り去った形を表していることを特徴とする請求の範囲第44項記載の装置。
  46. 46.前記単語群が、前記1つないし複数の基体語のうちの少なくとも幾つかを 含んでいることを特徴とする請求項45記載の装置。
  47. 47.何らかの情報内容を有する単語集合体から複数のトピック・ワードを生成 する装置において、 前記単語集合体の単語のうちから、単語部分集合を成す単語を選択するための選 択手段と、 前記単語部分集合の単語の各々に関する形態構造情報を生成するための形態構造 解析器と、 前記単語部分集合の複数の単語のうちの所与の単語が前記単語集合体の内容に関 する情報を包含しているか否かを評価する評価手段であって、前記形態構造解析 器が生成した前記形態構造情報に基づいて評価する、評価手段と、前記所与の単 語が前記単語集合体の内容に関する情報を包含していると前記評価手段が判定し た場合に、該所与の単語に対応したトピック・ワードを生成する、トピック・ワ ード生成手段と、 を備えたことを特徴とする装置。
  48. 48.前記単語集合体がテキストであることを特徴とする請求の範囲第47項記 載の装置。
  49. 49.前記選択手段が、トピック・ワードとしての資格を持たない単語を含むス トップ・リストを備えており、該選択手段は、前記単語集合体に所属している単 語のうち該ストップ・リストに載せられている単語は、前記単語部分集合から除 外する、ことを特徴とする請求の範囲第47項記載の装置。
  50. 50.前記選択手段が、自動的にトピック・ワードとしての資格を持つ単語を含 むキープ・リストを備えており、該選択手段は、前記単語集合体に所属している 単語のうち該キープ・リストに載せられている単語は、前記単語部分集合に含め る、ことを特徴とする請求の範囲第47項記載の装置。
  51. 51.更に索引作成エンジンを備えており、該索引作成エンジンは、前記所与の 単語に対して生成された前記トピック・ワードを用いて前記単語集合体のための 索引を作成するようにしたものであることを特徴とする請求の範囲第47項記載 の装置。
  52. 52.前記形態構造解析器が認識エンジンを備えており、該認識エンジンは、前 記所与の単語の1つないし複数の成功した分解を認識するものであり、該認識エ ンジンが前記所与の単語を、その根本的語幹と、該根本的語幹に付加されること によって前記所与の単語を形成する1つないし複数の接尾辞のシーケンスとに分 解可能である場合に、成功した分解が存在する、ことを特徴とする請求の範囲第 47項記載の装置。
  53. 53.前記認識エンジンが、前記所与の単語の成功した分解の各々について1つ ずつの形態構造の経過記録を生成することを特徴とする請求の範囲第52項記載 の装置。
  54. 54.1つの成功した分解に対した前記形態構造の経過記録は、前記所与の単語 の品詞と、前記所与の単語に関連する1つないし複数の基体語と、該1つないし 複数の基体語の各々についての品詞とを識別している、ことを特徴とする請求の 範囲第53項記載の装置。
  55. 55.前記評価手段が、前記所与の単語が前記単語集合体の内容に関する情報を 包含しているか否かを、前記所与の単語の成功した分解の数に基づいて評価する ことを特徴とする請求の範囲第54項記載の装置。
  56. 56.前記評価手段が、前記所与の単語が前記単語集合体の内容に関する情報を 包含しているか否かを、前記所与の単語に関して識別されている1つないし複数 の品詞に基づいて評価することを特徴とする請求の範囲第54項記載の装置。
  57. 57.前記トピック・ワード生成手段が、前記所与の単語、または前記所与の単 語の1つの成功した分解に関連した形態構造の経過記録の中に識別されている基 体語のうちの1つ、のいずれかを、前記トピック・ワードとして選択することを 特徴とする請求の範囲第54項記載の装置。
  58. 58.単語集合体のための索引を生成する方法において、前記単語集合体の複数 の単語のうちから入力単語を選択するステップと、前記入力単語に語■的に関連 した単語を生成する生成ステップであって、該入力単語と該入力単語に語■的に 関連した単語とが単語群を形成する、生成ステップと、 前記単語群の構成要素である単語のうちのいずれかの単語が前記単語集合体の中 に存在していることを、前記単語群の1つの単語によって表すステップと、を含 んでいることを特徴とする方法。
  59. 59.前記単語集合体がテキストであることを特徴とする請求の範囲第58項記 載の方法。
  60. 60.何らかの情報内容を有する単語集合体から複数のトピック・ワードを生成 する方法において、 前記単語集合体の複数の単語のうちから、単語部分集合を成す複数の単語を選択 するステップと、 形態構造解析器に、前記単語部分集合の単語の各々に関する形態構造情報を生成 させるステップと、 前記単語部分集合の複数の単語のうちの所与の単語が前記単語集合体の内容に関 する情報を包含しているか否かを、前記形態構造解析器が生成した前記形態構造 情報に基づいて評価する、評価ステップと、前記評価ステップにおいて前記所与 の単語が前記単語集合体の内容に関する情報を包含していると判定された場合に 、該所与の単語に対応したトピック・ワードを生成するステップと、 を含んでいることを特徴とする方法。
JP3504913A 1991-02-01 1991-02-01 テキスト管理システム Pending JPH06504858A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CA002100956A CA2100956C (en) 1991-02-01 1991-02-01 Text searching and indexing system
PCT/US1991/000739 WO1992014214A1 (en) 1991-02-01 1991-02-01 A text management system

Publications (1)

Publication Number Publication Date
JPH06504858A true JPH06504858A (ja) 1994-06-02

Family

ID=4151960

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3504913A Pending JPH06504858A (ja) 1991-02-01 1991-02-01 テキスト管理システム

Country Status (3)

Country Link
EP (1) EP0592402B1 (ja)
JP (1) JPH06504858A (ja)
AU (1) AU668073B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004501424A (ja) * 2000-04-18 2004-01-15 コリア・テレコム 中心用語辞典を利用した表題語の中心用語抽出方法及びそれを利用した情報検索システム及びその方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417256B (zh) * 2020-10-20 2024-05-24 中国环境科学研究院 一种基于互联网的自然保护地认知评价系统及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004501424A (ja) * 2000-04-18 2004-01-15 コリア・テレコム 中心用語辞典を利用した表題語の中心用語抽出方法及びそれを利用した情報検索システム及びその方法

Also Published As

Publication number Publication date
EP0592402B1 (en) 2001-08-01
AU7318391A (en) 1992-09-07
AU668073B2 (en) 1996-04-26
EP0592402A1 (en) 1994-04-20

Similar Documents

Publication Publication Date Title
US5940624A (en) Text management system
Anick et al. The paraphrase search assistant: terminological feedback for iterative information seeking
US6295529B1 (en) Method and apparatus for indentifying clauses having predetermined characteristics indicative of usefulness in determining relationships between different texts
US7970768B2 (en) Content data indexing with content associations
US7389224B1 (en) Natural language search method and apparatus, including linguistically-matching context data
US5926808A (en) Displaying portions of text from multiple documents over multiple databases related to a search query in a computer network
US5642502A (en) Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5708829A (en) Text indexing system
US7809551B2 (en) Concept matching system
US6055528A (en) Method for cross-linguistic document retrieval
CA2551803C (en) Method and system for enhanced data searching
US5369577A (en) Text searching system
US6601059B1 (en) Computerized searching tool with spell checking
US5926811A (en) Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
US6859800B1 (en) System for fulfilling an information need
EP0378848A2 (en) Method for use of morphological information to cross reference keywords used for information retrieval
US20100077001A1 (en) Search system and method for serendipitous discoveries with faceted full-text classification
US7024405B2 (en) Method and apparatus for improved internet searching
JPH11120203A (ja) データベースを合併する方法およびデータベースからドキュメントを検索する装置
US5978798A (en) Apparatus for and method of accessing a database
DE69933123T2 (de) Zugriff auf eine semi-strukturierte datenbank
Hammwöhner et al. Content oriented relations between text units—a structural model for hypertexts
JPH0944523A (ja) 関連語提示装置
JPH06504858A (ja) テキスト管理システム
JP2002183175A (ja) テキストマイニング方法