JP4274689B2

JP4274689B2 - データ組を選ぶための方法とシステム

Info

Publication number: JP4274689B2
Application number: JP2000509044A
Authority: JP
Inventors: デイビス、ニコラス・ジョン; ウイークス、リチャード
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1997-09-04
Filing date: 1998-08-28
Publication date: 2009-06-10
Anticipated expiration: 2018-08-28
Also published as: EP1010105A1; DE69809263D1; AU8876298A; DE69809263T2; EP1010105B1; CN1269897A; CA2302264C; US6353827B1; JP2001515245A; AU742831B2; CA2302264A1; NZ503279A; WO1999012108A1

Description

【０００１】
発明の属する技術分野
この発明はデータ組（データセット）を選ぶための方法及び／又はシステムに係り、この発明は例えばインターネットに用いてアクセスできるような情報ベースから文書を選択するのにとくに応用が見出されるものである
インターネットワールドワイドウェブ（ＷＷＷ，Ｗ３）は複数の別個の通信網が一緒に接続されているものを応用した既知の通信システムである。それが数多くの異なるプロバイダからの豊かな情報源を提供しているが、この非常な豊かさが特定の情報にアクセスする際の問題を作り出しているのであり、中央の監視と制限がないことが理由となっている。
【０００２】
従来の技術
１９８２年には科学的な団体と技術的な情報の量は毎５年間で倍増してきた。１９８８年には毎２．２年で、１９９２年には毎１．６年でそれぞれ倍増している。インターネットと他の網の拡大によって、増加の割合は増し続けている。このような網の実行可能性の鍵は情報を管理して、ユーザにほしい情報をほしいときに提供する能力となる。
【０００３】
しかしここで、Ｗ３のような検索システム用の別のツールを提供することにこの発明は関係してはおらず、このようなものはすでに多く存在していて、しばしば常に増大しているウェブのカバー範囲と検索エンジンの高度化に加えられているところである。
【０００４】
発明が解決しようとする課題
これとは違って、この発明の実施態様は次のような問題に関係している。Ｗ３上で有用な情報が見付かったとして、簡単な検索をするためにそれがどう記憶できるか、またその情報に関心をもつことになりそうな他のユーザにどのように識別ができまた通知がされるかという問題である。
【０００５】
さらに特定すると、この出願人がした係属中の出願PCT/GB96/00132は情報検索エージェントでＪＡＳＰＥＲ（ジャスパ）エージェントと知られるものを提供しており、これがＷ３のような分散形情報システムから情報を識別して検索するために使用されている。
【０００６】
それは階層構造をもつ膠着性の（agglomerative，言語学用語のagglutinativeと同義、塊を作る、集塊性の意）クラスタ化のような技術を用いてＷ３上にすでに存在している各種情報源の間の関係を定義する。しかし、こうした定義された関係の内部には不正確さが生ずることができ、これが似ていない主題事項をもつ文書が一緒にクラスタを作るという結果を生じさせることができることになる。このクラスタ化技術の本質が、１つの不正確にクラスタ形成された文書をいくつかに増殖させることになり得る。
【０００７】
課題を解決するための手段
この発明の第１の特徴によると、少くとも第１と第２のデータ組の間の類似性の尺度を判断するための装置であって、その構成は：
ｉ）少くとも該１と第２のデータ組を受領する入力手段と、
ii）少くとも該第１のデータ組の中のキーワードの組を識別するための、少くとも１つの規則組へのアクセスを備えて該少くとも１つの規則組を使用して該キーワードの組を識別し、さらに該類似性の尺度を出力する処理用手段と、
iii)該類似性の尺度を出力する出力手段とで成り、
前記規則組はそれぞれのデータ組内のデータアイテムの相対的な位置に関する規則を含み、また前記処理用手段は該第１のデータ組の中で処理用手段により識別された少くとも１つのキーワードの組を前記第２のデータ組を含むかそれから求めたキーワードの組と比較することにより類似性の尺度を判断する装置が提供されている。
【０００８】
この発明の実施態様はデータ組内部で２以上のキーワードが互いに他と関係づけられるようにしており、例えば語句（フレーズ）を形成し、データ組の類似性の比較の精度が改善されるような結果をもたらしている。
【０００９】
好ましいのは、この装置がさらに情報検索手段とデータメモリとを含み、前記第１のデータ組は該情報検索手段により情報ベースから検索されたデータを含み、また前記第２のデータ組は該データメモリ内に記憶されたキーワードの組を含んでいることである。例えば、キーワードの組はユーザによって用意されたものでよいし、あるいはユーザプロフィル内に記憶されていてもよい。
【００１０】
規則の組は、単一のキーワードとして一緒に取扱うことができるデータ組内の隣接するアイテムを識別するための手段を用意することができる。これは位置情報に限らず、例えば次のうちの１つもしくは複数のような隣接するアイテムについての文法的な試験も含んでいる。すなわち、
１）名詞が続く名詞もしくは予め定めた指標の組；
２）名詞が続く動詞もしくは予め定めた指標の組；
３）名詞が続く形容詞もしくは予め定めた指標の組；及び、
４）名詞もしくは動詞もしくは別の予め定めた指標の組が続く予め定めた指標の組。
【００１１】
この発明の第２の特徴によると第１と第２のデータ組の間の類似性のレベルを判断する方法が提供されていて、
ｉ）少くとも第１の規則により、少くとも第１のデータ組内で選んだデータアイテムに識別用タグを付ける段階と；
ii）該識別用タグの存在もしくは欠如のいずれかを参照することにより一組の可能性のあるキーワードを識別する段階と；
iii)少くとも第２の規則を適用することにより隣接している２以上の可能性のあるキーワードの組を選ぶ段階と；
iv）可能性のあるキーワードの各選んだ組を単一のキーワードとして分類する段階と；
ｖ）可能性のあるキーワードについての単一のキーワードとして分類された各組を含む一組のキーワードを可能性のあるキーワードについての識別された組からの残されたキーワード一緒に生成する段階と；
vi）キーワードについての該生成された組を、第２のデータ組を含むかその組から得られたキーワードの組と比較する段階とから成る方法である。
【００１２】
例えば、前記台１の規則はデータアイテムの文法的なカテゴリィの少くとも一部と関係しているのが好都合である。
【００１３】
少くとも前記第の規則は次の組から１もしくは複数を含んでいてよい。すなわち、
１）名詞が続く名詞もしくは予め定めた指標の組；
２）名詞が続く動詞もしくは予め定めた指標の組；
３）名詞が続く形容詞もしくは予め定めた指標の組；及び、
４）名詞もしくは動詞もしくは別の予め定めた指標の組が続く予め定めた指標の組。
【００１４】
文書内部から関係するキーワードをまたＷ３上に置かれた情報の他の形式を識別することは、先行技術のシステムと方法と比較して、こういった文書や情報の他の形式間で定義された関係の精度に改善を与えている。
【００１５】
実施の形態
データ組を選ぶための方法及び／又はシステムを例をあげて添付の図面を参照して記述して行くこととする。
【００１６】
この発明の実施形態は情報アクセスと情報検索システム、例えばジャスパ（ＪＡＳＰＥＲ）エージエントとして以下に記述するようなものに対して改良を与えている。この発明の実施形態についての記述は以下ではこのジャスパエージェントの記述について行う。しかし、この発明はジャスパエージェントに限定されない。この発明は他の領域にも別な応用があり、例えばユーザプロフィル作成技術を採用している情報システムとか、キーワード検索及びキーワード検索技術を採用している情報システムなどである。
【００１７】
実施例
情報アクセスシステム
ソフトウェアエージエントは、中央に集めた計算機応用システムではなく分散して取扱いをする既知のやり方を提供している。各エージェントは（人間とか機械に基いた）エンティティに代って自治的なやり方でタスクをローカルデータとともに、あるいはタスクを支援するためにデータにアクセスする手段とともに実行する機能を備えている。この明細書では、この発明の実施形態内で情報を記憶もしくは検索するのに使用するためのエージエントは簡単にするために“ジャスパエージェント（Jasper agents）”と呼ぶことにするがこれは“Joint Access to Stored Pages with Easy Retrieval，容易な検索で、記憶したページへの協同アクセス”に基いた頭字語である。
【００１８】
Ｗ３上で利用可能な莫大な量の情報が与えられると、もとの場所からローカルサーバへの情報のコピィをすることは避けるのが好ましい。実際にこのようなやり方はウェブの全体のエートス（精神）に反するとして論じられるところである。情報をコピィするのではなく、そこで、ジャスパエージェントは関連の“メタ（meta変成，超越）情報”だけを記憶する。後述するように、このメタ情報は情報それ自体の上位のレベルにあるものとして考えることができ実際の情報であるのではなく、その辺りにあるものとして考えられる。例えばキーワード、要約、文書題名、ユニバーサルリゾースロケータ（ＵＲＬ）及びアクセスの日時などを含むことができるものである。このメタ情報が次に使われて、検索要求が行なわれたときに実際の情報に対するポインタを与えたり、そこにインデックスをあてる（“インデックスオン”）ために使用される。
【００１９】
大部分の既知のＷ３クライアント（Mosaic^TMとかNetscape^TMなどがその例である）はユーザにとって関心のあるページについての情報を記憶するための若干の手段を用意している。一般に、これはユーザにとって（恐らくは階層構造をもつ）メニュを特定のＵＲＬと関係した名前について作れるようにすることによって行なわれる。このメニュ機能は有用ではあるが、合理的な程度で大きな数のＷ３ページが含まれるときにはすぐに広いものではなくなってしまう。本質的に見て、用意される表現されたものが記憶された情報について必要とされることになるもののすべてを捕捉できるようにするというには十分に豊富なものでなくなり、ユーザはページに名前を付けるストリングを与えることができるだけとなってしまう。そのページについてのアクセスの日付といった有用なメタ情報が失なわれるという事実と同様に、単一の語句（フレーズ，前記名前）は全てのコンテキスト内のページに正確にインデックスを付けるのには十分でなくなる。
【００２０】
薬理学的データの情報検索で知識ベースシステム（ＫＢＳ）を使用することについての情報を簡単な例として考えることとする。異なるコンテキストでは、どんなＫＢＳ、情報検索もしくは薬理学関連のものでも関心のあるものであればよい。名前を注意して選んですべての三つの特徴を述べるようにしないと、これらの情報は有用なコンテキストについてのより大きなものの中の１つで失なわれることになる。この問題はUnix（もしくは他）のファイルシステム内で所望の情報を含んでいるファイルを見付けるときの問題に類推できる（このことはJones,W.P.;“On the applied use of human memory models:the memory extender personal filing system”Int J.Man-Machine Studies,25,191〜228,1986出版物に記述されている）。大部分のファイリングシステムでは、しかしながら、創生日付によってファイルを種分けする機能は少くとも置かれている。
【００２１】
ジャスパエージェントの実施形態で採用されたこの問題に対する解はもっとずっと豊富なメタ情報の組によって情報にアクセスすることがユーザにできるようにしていることである。
【００２２】
図１を参照すると、この発明の実施例による情報アクセスシステムはインターネットに接続されたクライアントサーバ形式の構造のような情報検索構造の既知の形式の中に組み込んでもよいようにしている。
【００２３】
もっと詳しく言うと、国際的な会社といった顧客はパーソナルコンピュータもしくはワークステーション４０５を備えた複数のユーザをかかえていてよい。こういったものが顧客のクライアントコンテキスト内でワールドウェブ（ＷＷＷ）ビューワ４００を経由して顧客のＷＷＷファイルサーバ４１０に接続できるようにしている。ジャスパエージエント１０５はビューワ４００の効果的な拡張であり、ＷＷＷファイルサーバ４１０上に実際には置かれている。
【００２４】
顧客のＷＷＷファイルサーバ４１０は既知のやり方でインターネットに接続され、例えば顧客自身の網４１５とルータ４２０とがそこで介在している。サービスプロバイダのファイルサーバ４２５はここでもまたルータを経て、インターネット経由でアクセスできる。
【００２５】
また、顧客のファイルサーバ４１０上に置かれているか、それによってアクセスされて、テキスト要約用ツール１２０と２つのデータメモリとがあり、メモリの一方はユーザプロフィル（プロフィルメモリ４３０）を保持し、他方（インテリジェントページメモリ１００）は文書のコレクションについてのメタ情報を主として保存している。
【００２６】
ジャスパエージェント応用システムでは、エージエント１０５自体はNetscapeのような既知のビューワの拡張として構築できる。このエージェント１０５は効率よくビューワ４００でNetscapeもしくはMosaicなどによって提供されるものと、統合されて、ビューワ４００からＷ３ページを抽出できる。
【００２７】
上述したように、クライアントサーバ構造では、テキスト要約器１２０とユーザプロフィルとは共に顧客ファイルサーバ４１０内のファイル上に置いてあって、そこにはジャスパエージェントが置かれている。しかしジャスパエージェント１０５は顧客のクライアントコンテキスト内に代って出現できる。
【００２８】
ジャスパエージェントはソフトウェアエージエントであり、ソフトウェアエントリィとして一般に記述できるものであり、ユーザに代ってタスクを実行するための機能を組込んであり、タスクを支援するためにローカルデータと一緒にあるいはローカルデータにアクセスするようにしている。ジャスパシステムに関連しているタスクで、ジャスパエージェントによって実行できるもののいくつかについては後述する。ローカルデータは通常はインテリジェントページメモリ（ＩＰＳ）１００とプロフィルメモリ４３０からのデータを含んでおり、またジャスパエージェントにより用意されることになる機能はテキスト要約用ツールを応用して結果を記憶する手段、アクセスまたは読取ったりまた更新したりを少くとも１つのユーザプロフィルについてする手段、キーワード組を他のキーワード組と比較する手段、及びユーザに告知メッセージをトリガするための手段を含んでいる。
【００２９】
好ましい実施例では、ジャスパエージェントがユーザ入力を監視するための手段とともに用意されていて、比較することになるキーワード組を選ぶ目的にあてられる。
【００３０】
別な好ましい実施例では、ジャスパエージェントが第１と第２のキーワード組と関係して両者間の類似性尺度を生成するためのアルゴリズムを応用する手段をも備えるようにしている。類似性の尺度に従うと、第１か第２のキーワードの組のいずれかがジャスパエージェントによって先見性をもって更新されるか、あるいは第１もしくは第２のキーワード組を第３のキーワード組ともしくはメタ情報と比較した結果が修正される。
【００３１】
この発明の実施例は異なるソフトウェアシステムにより作られてもよい。例えばオブジェクト指向技術が応用されると便利である。しかし、以下で記述する実施例ではサーバはUnix応用であり、ConTex^TMを実行できるものとする。これは既知の自然言語処理システムであり、Oracle Corporationにより提供されるものであり、またＷ３ビューワもサーバで使用される。このシステムは一般に“Ｃ”で実現されるが、クライアントはＷ３ビューワを支持できるのであればどんな機械でも可能性があることになる。
【００３２】
以下の章節では、情報管理に当りジャスパエージェントがユーザに提供している機能を論ずる。これらは２つのカテゴリィすなわち記憶と検索（読出し）とに分けられる。
【００３３】
記憶
図２と５とは、ジャスパエージェント１０５がインテリジェントページメモリ（ＩＰＳ）１００内に情報を記憶するときにとられる動作を示す。ユーザ１１０は先ずそのユーザと関係しているＩＰＳ１００内にジャスパシステムにより記憶されることになる十分に関心のあるＷ３ページを見付ける（段階５０１）。ユーザ１１０はそこで‘メモリ’要求を顧客のＷＷＷファイルサーバ４１０上にあるジャスパエージェント１０５に送るが、これはユーザの選んだＷ３クライアント１１５（MosaicとNetscapeバージョンが全プラットホーム上で現在使用可能となっている）上でのメニュオプションを介して送られる（段階５０２）。ジャスパエージェント１０５は次にユーザ１１０を呼んで関係する注釈（アノテーション）を供給するようにさせ、また記憶されるようにする（段階５０３）。一般に、これはユーザが関心をもっているページであるとされ、またＩＰＳ１００から検索されたどのページを訪ねるかをきめるのに他のユーザにとって非常に有用なものとすることができる。（情報共用については別に以下で記述する。）
ジャスパエージェント１０５は次に問題となっているページからソーステキストを抽出する。ここでもまたＷ３上のＷ３クライアント１１５を介して行なわれる（段階５０４）。ソーステキストが“ハイパーテキスト（HyperText）”形式で用意されて、ジャスパエージェント１０５は最初にハイパーテキストマークアップ言語（ＨＴＭＬ）タブをはぎとる（段階５０５）。次にジャスパエージェント１０５はこのテキストを“ConText”１２０のようなテキスト要約器に送る（段階５０６）。
【００３４】
ConText１２０は先ずある文書を解析（解剖とも言う）してシンタックス（文法）構造を各文について判断する（段階５０７）。ConText解析器（パーサ）は頑丈なもので英文中に出てくるシンタックス現象についての広範囲のものを取扱うことができる。文レベルの解析に続いて、ConText１２０は“コンセプトプロセッシング（概念処理）”フェーズに入る（段階５０８）。提供される処理の中には次のものがある：
・情報抽出：文書の内容のマスターインデックスが計算されて、テキスト内でコンセプト、事実、及び定義についてインデックスが付けられる。
【００３５】
・内容の低減（コンテントレダクション）：幾つかのレベルの要約が利用可能とされていて、文書の主題（メインテーマ）のリストから、全文書の大意（プレイシス）までに及ぶ。
【００３６】
・論義追跡（ディスコーストラッキング）：文書の論義を追跡することにより、ConTextはあるコンセプトと特に関連がある文書の全ての部分を抽出することができる。
【００３７】
ConText１２０はジャスパエージェント１０５によりクライアント・サーバ構造内で使用される：その文書の解析後に、サーバは応用と独立しているマークアップバージョンを生成する（段階５９）。ジャスパエージェント１０５からの応用プログラミングインターフェース（ＡＰＩ）を用いた呼出しがそこでマークアップに割込みをかけることができる。これらＡＰＩ呼出しを利用して、メタ情報がソーステキストから得られる（段階５１０）。ジャスパエージェントは最初にそのページのテキストの要約を抽出する。要約の大きさはConText１２０に送られたパラメータによって制御でき、ジャスパエージェント１０５は１００ないし１５０語の要約が得られることを確かとしている。そこで、ConText１２０への別の呼出しを用いて、ジャスパエージェント１０５はソーステキストからキーワードの組を得る。これに続いて、ユーザは選択肢としてＨＴＭＬ形式１２５を介して別のキーワードを加えるための機会を与えられてもよい（段階５１１）。このようにして、ユーザに特に関連したキーワードが用意でき、しかもジャスパエージェント１０５はもっと広いユーザのコミュニティとより大きく関連性をもっているキーワードの組を供給する。
【００３８】
このプロセスの終りには、ジャスパエージェント１０５は関心のあるＷ３ページについての次のメタ情報を生成している。
【００３９】
・ConTextが供給した一般的なキーワード；
・ユーザ固有のキーワード；
・ユーザの注釈；
・ページの内容の要約；
・文書の題名；
・ユニバーサルリソースロケーション（ＵＲＬ）及び、
・記憶の日時。
【００４０】
加えて図３を参照すると、ジャスパエージェント１０５はそこでこのページについてのメタ情報をＩＰＳ１００のファイル１３０に加える（段階５１２）。ＩＰＳ１００では、（両形式の）キーワードがそこで使用されて、他のページについてのメタ情報を含んでいるファイル上でインデックスを付けるために使用される。
【００４１】
検索
ジャスパエージェント１０５を用いてＩＰＳ１００から情報が検索できる３つのモードがある。１つは標準のキーワード検索機能であり、また他の２つはエージェントのコミュニティとそのユーザとの間で共用する情報に関係するものである。各々について以下の章節で記述する。
【００４２】
ジャスパエージェント１０５がユーザの機械上にインストールされると、ユーザは個人的な（パーソナル）プロフィルを用意する：Ｗ３を経て得ることにユーザが関心をもっている情報を記述しているキーワードの組である。このプロフィルはエージェント１０５によって保存されるが少くとも維持されていて、あるユーザにとって関心のある可能性をもっているページがどれかを判断するためにあてられる。
【００４３】
キーワード検索
図４，６，７，８に直接的なキーワード検索について示すように、ユーザは１組のキーワードをジャスパエージェント１０５によって用意されたＨＴＭＬ形式３００を介してジャスパエージェント１０５に向けて供給する（段階６０１）。ジャスパエージェント１０５はそこでＩＰＳ１００内に保存されている最もよく整合している１０のページを、簡単なキーワード整合と得点アルゴリズムを用いて、検索する（段階６０２）。ページが記憶されたときにユーザにより供給されたキーワードは（ConTextによって自動的に抽出さたものとは対象的に）、整合プロセスでは追加の重み付けを与えられるようにできる。ユーザは前もって検索しきい値を特定できて、それ以下ではページが表示されないようにする。エージエント１０５はそこでＨＴＭＬ形式３０５を検索されたページとその要約に対するリンクについてのランク付けしたリストと共に動的に構築する（段階６０３）。もとのユーザによって作られた注釈はいずれも各検索したページの得点と一緒に示される。このページは次にＷ３クライアント上でユーザに向けて呈示される（段階６０４）。
【００４４】
“何が新しいか？（ What ’ s New ? ）”機能
どのユーザもジャスパエージェント“何が新しいか？”を尋ねることができる（段階７０１）。エージェント１０５はそこでＩＰＳ１００に質問をして、一番最近に記憶したページを検索する（段階７０２）。エージェントは次にこういったページのうちのどれがユーザのプロフィルと一番よく整合するかを、ここでもまた簡単なキーワード整合と得点アルゴリズムに基いて判断する（段階７０３）。次に、ＨＴＭＬページがユーザに呈示されて、ユーザのプロフィルに一番よく整合している最近に記憶されたページへのリンクについてのランク付けしたリストを示し、またＩＰＳ内に一番最近に記憶した他のページに対するリンクについてのランク付けしたリストも呈示し、（段階７０４）、それには用意されていれば注釈も付ける。こうしてユーザは最近に記憶され、ユーザにとって最も関心のあることとなりそうなページと、最近記憶されたページでもっと一般的に選んだものとの両方を眺められるような提供を受ける（段階７０５）。
【００４５】
ユーザはその者のジャスパエージェント１０５が保存しているプロフィルをいつでも更新できて、それはＨＴＭＬ形式を介して行なわれ、この形式はユーザがプロフィルにキーワードを加えたり、そこからキーワードを削除したり、あるいはその両方ができるようにする。このやり方で、ユーザは効率よく異なる“コンテキスト”を選ぶことができて、そこで作業をする。コンテキストはキーワードの組として定義されており（この組はプロフィルを作り上げているか、検索問合せで特定されたものである）、ある時刻にユーザが関心をもっている情報の形式として考えることができる。
【００４６】
人間の記憶モデルを情報のファイリングに応用するというアイデアは上述の参考文献中でJonesによってコンピュータファイリングシステムのコンテキストで探究されている。従来形式のファイリングシステムの範疇でJonesが指摘しているように、ファイルシステム内のディレクトリィとジャスパエージエント１０５により検索されるページの１組との間には類推（アナロジィ）が存在している。ページの組は動的に構築されたディレクトリィであって、それが検索されるコンテキストによって定義されたものとして考えることができる。これは２つの文内の“ディレクトリィ”を高度にフレキシブルに（融通性をもたせて）記述したものであり、第１には、この検索で生じたページは無論他でもコンテキストに依存して生ずることができるものであり、また第２には、ディレクトリィに対する鋭い境界は存在しないことである。ページは現在のコンテキストとの整合に依存してより大きな程度になったり小さな程度になったりしてディレクトリィの‘中に’ある。このやり方では、ページ上で情報を区分するやり方の数は情報そのものの広がり（ダイバシティ）と豊富さとによってのみ限定が加えられる。
【００４７】
他の関心のあるエージェントとの通信
図８を参照すると、ジャスパエージェント１０５により、ＩＰＳ１００内にページが記憶されると（段階８０１）、エージェント１０５は“ローカルコミュニティ”内の他のエージェントのユーザのプロフィルをチェックする（段階８０２）。このローカルコミュニティは予め定めたコミュニティのどれであってもよい。もしページがあるユーザのプロフィルとある種のしきい値を越える得点で整合していると（段階８０３）、例えば“ｅメール”メッセージといったメッセージがエージエント１０５によって自動的に生成されて、関係するユーザに送られ（段階８０４）、ページが見付かったことをその者に知らせる。
【００４８】
ｅメールヘッダは例えば次の形式をとることになる。
【００４９】
Jasper KW: (keyword)
これがユーザにとってメッセージの本体を読み取る前にジャスパシステムからのものであるとそれを識別できるようにする。好ましいのはキーワードのリストが用意されて、メッセージが参照している情報の相対的な重要性をユーザが評価できることである。メッセージヘッダ内のキーワードはユーザ毎に、ユーザプロフィル内のキーワードと整合するページからのキーワードに依って変り、したがって各ユーザの関心に対するメッセージを個人的なものと（パーソナライズ）する。メッセージ本体自体はページ題名とＵＲＬのような別の情報を与えることができ、誰がそのページを記憶し、その記憶者が用意したページ上に何らかの別の情報を記憶したかという情報を与えられる。
【００５０】
ジャスパエージェント１０５と上述のシステムとはＷ３のような分散形構成内での関連情報をアクセスする極めて有用なやり方の基礎を提供する。変形と拡張とがこの発明の範疇から逸脱することなくシステム内で行なえる。例えば、比較的簡単なレベルでは、改善された検索技術が採用できよう。例を挙げると、ベクトル空間とか確率論的モデルとかが、 G Salton “Automatic Text Processing” 1989, Addison-Wesley, Reading, Massachussetts, USAに記載されているように使用されよう。
【００５１】
これに代って、インデックス付けがもっと簡便にキーワードのほかにメタ情報上でインデックスを付けるようにすることで行なわれる。例えば、超メタ情報はあるページの記憶日付とそのページのもともとのサイト（これはＵＲＬからジャスパが抽出できるものである）であってよい。こういった超インデックスはユーザが（ＨＴＭＬ形式を介して）形式についてのコマンドをフレーム形成できるようにする。この形式は次による。
【００５２】
Show me all pages I stored in 1994 from Cambriage University about artificial intelligence and information retrieval.（私が１９９４年に剣橋大学から人工知能と情報検索について記憶した全ページを私に示せ）。
【００５３】
別の代りのバージョンではキーワード同義語を活用するためにジャスパエージェント１０５によってシソーラスが使用できる。これはあるページが記憶されたときと同一のキーワードを正しく入力することの重要性を軽減させる。実際に、いくつかの別の領域でシソーラスの使用を活用することは可能であり、その中にはユーザのためにあるジェント１０５が保存している個人的なプロフィルを含んでいる。
【００５４】
適応性エージェント
ユーザプロフィルをジャスパエージェント１０５によって使用してエージェントのユーザ関連の情報を判断することは、効果的なことであり、改善できる。ユーザがコンテキストを変更したいとき（多分１つのタスクから別なタスクへとか、仕事からレジャーへフォーカスをあて直すことであるが）、ユーザプロフィルはキーワードを添加削除することによって再度特定されなければならない。よりよいやり方は、そのエージェントについてユーザのプロフィルをそのユーザの関心が時間切れで変るとして変更することである。このコンテキストの変更は２つのやり方で発生できる：例えば仕事からレジャーへのコンテキストの短期間切換えをとることができる。エージェントはユーザのために保持している現在のコンテキストのリストからこれを識別して、新しいコンテキスト内へと変更できる。この変更は、例えば異なる情報形式の新しいページがそのユーザによって訪ねられるときにトリガできる。ユーザが発展させている関心に基いた、エージェントが保存しているコンテキスト内でのもっと長期間の変更もあり得る。こういった変更はエージェントによるそのユーザの観察から推論ができる。例えば、適応性エージェント内で採用することができる既知の技術は遺伝学的な（genetic）アルゴリズムと、帰還からの学習と、メモリ応用の理由付けとを含んでいる。このような技術は１９９３に入手可能となったＭＩＴの内部報告、 Sheth B. & Maes P., “Evolving Agents for Personalised Information Filtering” に開示されている。
【００５５】
遠隔及びローカル情報の統合
ジャスパシステムの別の可能な変形はユーザ自身のコンピュータファイリングシステムをＩＰＳ１００と統合することであり、それによってＷ３上とローカル機械上で見付かる情報が最上位レベルではユーザにとって均質に出現するようになることである。そのときはファイルはジャスパエージエント１０５がＷ３ページをアクセスするのと同じやり方でアクセスできて、ユーザは名前指向のファイリングシステムがもつ拘束条件から解放されて、あらゆる種類の、ローカル及び遠隔の両情報に対して内容でアドレスできるインターフェースを用意できるようになる。
【００５６】
ジャスパシステム内でのクラスタ形成
ジャスパＩＰＳ１００と関連の文書とは、本質的にコレクションと呼ぶことができ、キーワードによってインデックスを付けた１組の文書である。これは“伝統的な”コレクションとは違っていて、この文書が一般にインデックスからは遠くに置かれていて、インデックス（ＩＰＳ１００）は現実にはインターネット上の文書の位置を特定するあるＵＲＬを指している。さらに、メタ情報についての各種の追加片がジャスパシステム内の文書には取付けられていて、例えばそのページをメモリに入れているユーザとか、それが記憶された時とか、ユーザが用意してもよい注釈などといったものである。
【００５７】
ジャスパシステムが大部分の文書コレクションと違っている１つの重要な領域は、あるユーザによってＩＰＳ１００内に各文書が入力されたことであり、このユーザはその者とその者の対等者とが将来有用として見付けそうな情報片であるとしてその文書にしるしをつける知的判断を下している。これが、保存しているメタ情報と一緒になって、ジャスパＩＰＳ１００を非常に豊富な情報源とする。
【００５８】
既知の情報検索（ＩＲ）技術がジャスパＩＰＳ１００に有用に適用されるかどうかを調べた。特にクラスタ形成（クラスタリング）の使用については調査が進められている。
【００５９】
文書のクラスタ形成
既知のＩＲ技術を用いて、ジャスパの用語（ターム）−文書マトリックスが使用されてジャスパＩＰＳ１００で識別された文書についての類似性マトリックスを計算できる。類似性マトリックスはメモリ内で識別された文書の類似性の尺度を与える。文書の各対についてダイス（Ｄｉｃｅ）係数が計算される。２つの文書Ｄi とＤj とについて
２^* ［Ｄi ∩Ｄj ］／［Ｄi ］＋［Ｄj ］
ここで［Ｘ］はＸ内の用語の数であり、Ｘ∩ＹはＸとＹとで共に発生する用語の数である。この係数は０と１との間の数となる。係数０は２つの文書が共通の用語をもたないことを意味し、また係数１は各文書内で発生する用語の組が同一であることを意味する。類似性マトリクス、Ｓimはメモリ内の文書の各対の類似性をあらわしているので文書ｉとｊとの各対に対しては
Ｓim(i,j)＝２^* ［Ｄi ∩Ｄj ］／［Ｄi ］＋［Ｄj ］
である。
【００６０】
このマトリックスは関連文書のクラスを自動的に生成するために使用でき、ここでは“Hierarchic Agglomerative Clustering Methods for Automatic Document Classification” by Griffiths A et al, Journal of Documentation, 40:3, September 1984, pp 175〜205に記述されている階層構造をもつ膠着性クラスタリングプロセスが使用されている。このようなプロセスでは、各文書は最初に自身により、クラスタ内に置かれて、２つの最も類似しているそういったクラスタがより大きなクラスタに結合され、そのクラスタについては他の各クラスタとの類似性が計算されなければならないとされる。この結合プロセスはたった一個の文書のクラスタが最高位レベルに残るようになるまで続けられる。
【００６１】
クラスタ間の類似性（個々の文書に対するのではない）が計算される方法は変えることができる。ジャスパメモリについては、“Complete-link clustering（完全リンククラスタリング）”が採用できる。完全リンククラスタリングでは、２つのクラスタからの文書の一番類似していない対の間の類似性がクラスタ類似性として使用される。
【００６２】
ジャスパメモリの結果として生じたクラスタ構造はＶＲＭＬ（Virtual Reality Modelling Language）を用いてジャスパシステム上で三次元（３Ｄ）フロントエンドを作るために使用できることになる。ＶＲＭＬは３Ｄグラヒカル空間もしくは仮想世界でグローバルインターネットを介して網形成されまたＷＷＷ内部でハイパーリンクされたもので知られている言語である。
【００６３】
クラスタ形成用キーワード
特定のジャスパ文書コレクションと関係して発生するキーワード（用語）もまた上述した文書のクラスタ形成技術を正確に鏡像をとったやり方でクラスタ形成できる。ジャスパメモリ内のキーワードについての類似性マトリックスはメモリ内のキーワードの“類似性”の尺度を与えるものとして構築できる。文書の各対に対して、ダイス係数が計算される。２つのキーワードＫi とＫj についてのダイス係数は次のように与えられる。
【００６４】
２^* ［Ｋi ∩Ｋj ］／［Ｋi ］＋［Ｋj ］
ここで［Ｘ］はＸが発生する文書の数であり、またＸ∩ＹはＸとＹとが同時発生する文書の数である。
【００６５】
ジャスパメモリについての類似性が計算されると、文書がクラスタ形成されたときのようにキーワードをクラスタ形成することは必要でない。その代わりに、以下に記述するように、２つのやり方でマトリックス自体を活用することも可能である。
【００６６】
第１のやり方はプロフィル強化（profile enhancement）である。ここでは、ユーザプロフィルが、ユーザのプロフィル内のキーワードと一番よく似ているキーワードを用いて強調されるようにできる。したがって、例えばもし単語として、virtual，reality，及びInternetがユーザのプロフィルの一部ではあるがＶＲＭＬはそうでないとすると、強化されたプロフィルはもとのプロフィルにＶＲＭＬを加えたことになる（ここでＶＲＭＬはvirtual，reality，及びInternetに近いとしてクラスタされていると仮定する）。このやり方では、ＶＲＭＬを含んでファイルがvirtual，reality，及びInternetを含んでいない文書が（こういった用語は強化されていないプロフィルとは係りがなかったが）検索される。
【００６７】
図９は現在のジャスパメモリから抽出されたキーワード類似性マトリックスから構築されたキーワードの網９００の例を示す。アルゴリズムは直截的であり、最初の出発点となるキーワードが与えられると、それと一番よく似ている４つの単語が類似性マトリックスから見付けられる。もとの単語とこの４つとがリンクされ、この４つの新しい単語の各々についてプロセスが繰返される。これは何回も繰返すことができ、図９では３回となっている。２つの単語間での二重線９０１は他の４つの最高類似キーワード内で両方の単語が発生することを示している。無論単語間の類似性の程度に関して精細に磨かれた情報（finer grained information）について各リンクに対して特定の類似性係数を付与することが無論可能である。
【００６８】
第２のやり方は先を見越した検査（proactive searching）である。ユーザのプロフィルを含んでいるキーワードが、関心のあるものと関連がある新しいＷＷＷページを探してジャスパにより先を見越して行うために使用できる。ジャスパは次にユーザが検査を明確に実行する必要なしに、関心のある新しいページのリストを呈示できる。こういった先を見越した検査は例えば週毎といった何らかの与えられた間隔でジャスパシステムによって実行できる。クラスタ形成はここでも有用であり、その理由はプロフィルが複数の関心を反映できるからである。例えば次のようなユーザプロフィルを考えるとする：Internet, WWW, html, football, Manchester, united, linguistics, parsing, pragmatics.明らかに、３つの別個の関心が上のプロフィルの中に表現されていて、各別個の検査は、所与のユーザについての照会として全体のプロフィルを単に入力するよりも遙かに優れた結果を生じさせそうである。文書コレクションからのキーワードをクラスタ形成することは、ユーザのジャスパエージェントによって先を見越した検査用の照会生成プロセスを自動化できるようにする。
【００６９】
検査結果がジャスパにより得られるときは、結果が要約され通常のやり方でユーザのプロフィルに対して整合がとられて、ローカルに保存された要約に沿って新しいＵＲＬの優先順位を付けたリストを与えるようにする。
【００７０】
ジャスパシステムに対する改良
この発明の実施形態は上記ジャスパシステムに改良をもたらす。こういった実施形態は図１０を参照して記述されることになるが、そこではジャスパエージエンと内部の要素で文書内部の関連するキーワードを識別するために使用されているものを識別している。ここでいう文書は上記ジャスパシステムの性質を改善することができるものである。
【００７１】
上述のクラスタ形成技術は互いに関係している２以上のキーワードを、例えば一つの語句（フレーズ）を形成するキーワードを識別することによって強化できる。こういった関係しているキーワードはそこで単一の用語として文書マトリックス内部に入れられる。
【００７２】
例えば、標準のクラスタ化技術は“Information Technology（情報技術）”という表現が一文書内での２つの別個のエントリィすなわち“Information”と“Technology”の別個のエントリィを形成していると考えていた。この発明の実施形態により強化された技術は単語“Information”と“Technology”とが関係付けられていて、文書−用語マトリックス内では単一のエントリィを形成しなければならないと認識することになる。２つのエントリィを単一のエントリィで置換えることは文書間の類似性を測るために使用されるDice係数の値を著しく変更できる。
【００７３】
例えば次の２つの文節を考えるとする。
【００７４】
1) The people in my company only use the latest information technology when transferring copies of files across our local area network.
2) My company has transferred a lot of people into the latest areas of technology. There is a file on the network with a lot of information in it about the transfers. I also have a local copy of the file.
明らかに各文節の主題事項は違っているが、なお各文節は同じキーワードをもつ。それは次の通り。
【００７５】
“people”，“company”，“latest”，“information”，“technology”，“copy”，“transfer”，“file”，“local”，“area”及び“network”である。
【００７６】
１）の意味：我社の人々は最新のＩＴを、我々のＬＡＮ上でファイルのコピィを転送するときに、使うだけである。
【００７７】
２）の意味：私の会社は多くの人々を最新分野の技術に移動した。移動についての沢山の情報をもつファイルが網上にある。私もファイルのローカルなコピィを持っている。
【００７８】
標準のクラスタ形成でされるように、もしキーワード“information”と“technology”、それに“local”と“area”と“network”が独立したキーワードとして取扱われるとすると、そのときは２つの文節のDice係数は１という値をとる。以下に示す例のように、文書用語マトリックスで標準クラスタ形成技術を用いたものは次のように計算される。
【００７９】
【表１】

【００８０】
しかしながら、キーワード“information”と“technology”とは文書用語マトリックス内で単一エントリィを形成するように関係付けられ、またキーワード“local”と“area”と“network”とが文書用語マトリックス内で単一エントリィを形成するように関係付けられるとすると、そのときにはDice係数は２つの文節について再度計算されて０．６となる。この計算は次による。
【００８１】
【表２】

【００８２】
Dice係数が０．６というのは２つの文節の主題事項間での類似性と差異とをより正確に反映していると考えられる。
【００８３】
各種の語句と文法的構造とがキーワードの組を識別する高い確率を有している。ここで言うキーワードは互に関係付けらけれていて、関係付けは類似性マトリックス内に単一のエントリィとして含まれることがその結果を強化するようになるというやり方で行なわれている。２つの名詞で成る、あるいは名詞に続く動詞で成る、隣り合ったキーワードは短い語句の中で発生することになる文法上の構造の形式に見られる普通の例であり、したがって、類似性マトリックスの品質を改善すると思われる。動詞に続く形容詞は短い語句中では発生しそうにない組合せであり、したがって類似性マトリックスの品質を強化しそうにないと考えられる。
【００８４】
この発明の実施形態はこのような語句構造と文法上の構造についてのリストを含むことになる。解析される文書のテキストはこのような構造を形成しているキーワードの組が存在するかについて調べられることになる。これはキーワードを識別する最初のプロセスへの追加である。
【００８５】
ある状況では例外があって、それによると、特定組のキーワードで特定の文法上の構造に一致しているとして識別されたものが類似性マトリックスの結果を強化しない。他の組のキーワードでこういった識別された文法上の構造の１つに従わないものがある状況下では類似性マトリックスを強化する。
【００８６】
したがって、この発明の実施形態は類似性マトリックスを強化する高確率をもつ文法上の構造だけを識別することと、類似性マトリックスを強化することのより低い確率をもつ沢山の文法上の構造を識別することとの間で妥協点を見付ける必要があることになる。
【００８７】
図１０は文書内部で関係しているキーワードを識別するために使用されるジャスパエージェント１０５内部にある要素を示したものである。入力テキスト１０００がＷ３クライアント１１５からジャスパエージェント１０５にダウンロードされて、そこで第１のパーサ（解剖器）１００５、“パーサ１”によって解析される。パーサ１１００５は入力テキスト１０００を省略記法と頭字語とについて解析する。
【００８８】
解析は入力テキスト１０００の各単語を省略記法と頭字語のデータベース１０１０に対して比較することにより実行される。パーサ１１００５は識別した省略記法と頭字語とにタグを付ける。
【００８９】
省略記法と頭字語とで入力テキスト１０００内部のあるものがタグを付けられると、入力テキスト１０００は次に再度パーサ１１００５によって解析されて単語群１０１０に分けられる。この群は文、文節、ヘッダ（ＨＴＭＬヘッダのようなもの）、あるいはブランクの行によって隔離された事項などである。
【００９０】
省略記法と頭字語とを識別するタグはパーサ１１００５の第２の解析プロセスが省略記法もしくは頭字語の終りに現れるフルストップ（読点）と文の終りにあるフルストップとを識別する。これは、省略記法もしくは頭字語の終りのフルストップの存在によって生ずる原因となっている、文中にある単語群１０１０の余計な分離を妨げる。
【００９１】
パーサ１１００５により２度目の解析がされた後に、単語群１０１０は第２のパーサ１０２０、“パーサ２”に入力される。パーサ２１０２０は各単語群１０１０について４つの動作を実行する。
【００９２】
第１に、パーサ２が単語群１０１０を単語について普通とは違った大文字使用（capitalisation）で解析する。このような単語はしばしばエンティティ（企業体）の名称として使用され、例えば企業体通信網とかコンピュータシステムがある。例を挙げると、ある企業体がそのコンピュータシステムの１つを“Over”と呼ぶように選んだときを想像すると、文章の中間に“Over”として現れてよいことになり、この場合には普通とは違った大文字使用の単語としてタグを付けられることになる。予想されるこの種の他の変形にはOvErとかOveRとかが含まれる。普通とは違った大文字使用を有するとして識別された単語は“ストップリスト（stop list）”オーバーライドとしるしが付けられる。
【００９３】
ストップリストは文章の情報内容（information content）を一般には反映しない単語のリストを含んでいる。例えば“as”，“is”，“are”，“the”，“they”，“where”，“by”，“my”などの単語である。
【００９４】
ストップリストはプレフィックス（接頭辞）やサフィックス（接尾辞）のリスも含んでいてもよい。ストリップリストはこの場合にはプレフィックスかサフィックスで、あるいはその両方でプレフィックスやサフィックスなしの基本形式に対する単語を減らすためである。このことはステミング（語幹処理）として知られているところであり、その例は“manufacturing（製造）”であって、これが“manufacture”に、“predetermination（予定）”が“determine”に、また“preselect（予選）”が“select”になる。
【００９５】
第２に、単語群１０１０が“ストップリスト”データベース１０２５と比較される。
【００９６】
第３に、ストップリスト内にない単語とストップリストオーバーライドとしてしるしを付けた単語とが文書の情報内容と関連しているとしてタグを付けられる。
【００９７】
第４に、ある文書の情報内容と関連があるとしてタグを付けられた単語の各隣り合った対が、さらに類似性マトリックスの結果を強化できるキーワードの組であるとしてタグを付けられる。好ましいのは、ある文書の情報内容と関連があるとしてタグを付けられ、またストップリスト上の単語により分離された単語の各対が関係するキーワードを形成するとしては考えられないことである。
【００９８】
最後に、動詞／副詞／名詞／形容詞の１つであるとして単語をカテゴリィに分ける辞書１０３０を用いて、キーワードのこういった組がその文法上の構造により識別される。こういった構造はキーワード組内の単語形式の組合せによって定義されており、例えば、第１の構造は名詞に動詞が続くものであり、また別の構造は形容詞に名詞が続くものである。
【００９９】
文法上の構造についての好ましいリスト内部に入るキーワードの組が、次に、個別エントリィとしてではなく、単一エントリィとして類似性マトリックス内に含まれているとしてタグを付けられる。
【０１００】
次のリストは好ましい文法上の構造であり、類似性マトリックスを強化するものとして考えられている。
【０１０１】
【表３】

【０１０２】
ここで“？”はジャスパエージェントにより使用された辞書内にはない単語を表わす。代って、“？”は頭文語か、普通でない大文字使用がある文書内に現れる単語もまた表わしていてよい。このような単語の例にはIT，LAN，WAN，xDSL及びOveRがある。
【０１０３】
これらの例では、ITはInformation Technologyを、LANはLocal Area Networkを、WANはWide Area Networkを意味し、xDSLは一般にDigital Subscriber Line（ディジタル加入者線）技術として知られている技術のクラスを参照するときに、またOveRは通信網といった企業体施設の名称であってよい。
【０１０４】
こういった構造は決定論的なリストを形成していない。形容詞に２つの名詞が続いているLocal Area Networkのような三つのキーワード組についての他の構造もまた定義できる。４つ以上のキーワード組の構造で類似性マトリックスを強化しそうなものもまた名詞に続く形容詞とそれに続く２つの名詞として識別されてよく、この例はAsymmetric Digital Subscriber Line（非対称ディジタル加入者線）である。もっともこれらは２つとか３つのキーワードの組ほどに共通性がない。
【０１０５】
こういった文法上の構造は関係するキーワードを使用しないことと、隣接するキーワードの対もしくは３つ組の各々が関係しているキーワードであると仮定することとの間の妥協を与えている。法律論文（article）といった、ある話題について、特定のカテゴリィは技術論文についてよりも大きな利点があることが証明できる。したがって、ジャスパエージェント１１５によって解析されている論文の形式に依存してカテゴリィが調節されてもよい。
【０１０６】
こういった関係したキーワードの各々がジャスパキーワードメモリ内に、単一であるが複合したキーワードとして、入力されるときには、キーワードクラスタ形成技術でそのキーワードを使うことができて、この技術を上で詳述したように、ユーザプロフィルを強化するために使用される。これがジャスパエージェント１１５により実行される先を見越した検査の質を改良できる。また検査エンジンとか類似の装置で使用されて、検索の目標情報を定義するために使用された関係するキーワードを含んでいる文書を識別するのに使用することもできる。
【０１０７】
このプロセスは英語文書に限定されない。同様の技術は他の言語についても使用できる。
【０１０８】
上述した実施形態についての一般的コメント
技術にたけた者はここで記述した実施形態を考慮して Contextの代りに他のテキスト要約器を使用してもよいことに気が付くであろう。例えば、ProSumはインターネット上で、British Telecommunications plcによってhttp://WWW.labs.bt.Com.にあるＢＴ研究所ショップで利用可能とされた要約用のツールである。
【０１０９】
インターネット経由で情報の場所を決めることに関係して記述してきたが、この発明の実施態様は他のシステム上で情報の場所を決めるのにも有用であることが見付けられ、例えばハイパーテキストとなっているユーザの内部システム上の文書であってもよい。
【図面の簡単な説明】
【図１】ジャスパエージェントシステムにより提供される記憶プロセスを模式的な形式で示す図。
【図２】アクセスシステムにより提供される記憶プロセスを模式的な形式で示す図。
【図３】図１の記憶プロセスで使用するためのインテリジェントページメモリの構造を示す図。
【図４】アクセスシステムにより提供される検索プロセスを模式的に示す図。
【図５】図２の記憶プロセス用の流れ図。
【図６】３つの情報検索プロセスでジャスパアクセスシステムを使用するものの１つの流れ図。
【図７】３つの情報検索プロセスでジャスパアクセスシステムを使用するものの１つの流れ図。
【図８】３つの情報検索プロセスでジャスパアクセスシステムを使用するものの１つの流れ図。
【図９】ジャスパシステムにおけるユーザプロフィルの拡張及び／又は応用で使用するための、クラスタ技術を使用して生成したキーワード網。
【図１０】関係するキーワードを識別するために使用される図１のジャスパエージェントの一部分を示す図。

Claims

少くとも第１と第２のデータ組の間の類似性の尺度を判断する装置であって、前記装置は：
ｉ）少くとも該第１と第２のデータ組を受信する入力手段と、
ii）少くとも該第１のデータ組の中のキーワードの組を識別し、少くとも１つの規則組へのアクセスを行い該少くとも１つの規則組を使用して該キーワードの組を識別し、さらに該類似性の尺度を判断する処理用手段と、
iii)該類似性の尺度を出力する出力手段とを含み、
前記規則組はそれぞれのデータ組内のデータアイテムの相対的な位置に関する規則を含み、また、
前記処理用手段は該第１のデータ組の中で処理用手段により識別された少くとも１つのキーワードの組を、前記第２のデータ組に含まれるか前記第２のデータ組から求めたキーワードの組と比較することにより類似性の尺度を判断し、
それぞれのデータ組内のデータアイテムの前記相対的な位置は、該データ組の中で互いに関係がある少くとも２つの候補キーワードについての隣接する位置を含み、また前記処理用手段はこのような隣接している候補キーワードを識別して、識別されたキーワードの組の中の単一のキーワードとして提供し、
前記少くとも１つの規則組は、
１）名詞の次に、名詞もしくは予め定めた指標の組が続く基準；
２）動詞の次に、名詞もしくは予め定めた指標の組が続く基準；
３）形容詞の次に、名詞もしくは予め定めた指標の組が続く基準；及び
４）予め定めた指標の組の次に、名詞、動詞、もしくは別の予め定めた指標の組が続く基準のうち少くとも１つを含み、
前記処理用手段は、隣接している候補キーワードが少くとも１つの前記基準に合致するときに限って、隣接している候補キーワードを識別して、識別されたキーワードの組の中の単一のキーワードとして提供する、装置。
さらに情報検索手段とデータメモリとを含む装置であって、
前記第１のデータ組は該情報検索手段により情報ベースから検索されたデータを含み、
前記第２のデータ組は該データメモリ内に記憶された前記キーワードの組を含む請求項１記載の装置。
前記第２のデータ組は、前記情報検索手段により、前記情報ベースからのデータ検索で使用するためのターゲットデータ組を表し、それによって前記類似性の尺度が所定のしきい値を越えるときには前記第１のデータ組は前記処理用手段により該ターゲットデータ組を含むとして識別される請求項２記載の装置。
前記データメモリは、前記処理用手段によって識別された複数のキーワードの組を記憶し、このキーワードの組は前記情報ベースから前記情報検索手段により検索された複数のデータ組から識別されたものであり、前記処理用手段はデータ組の各対に対して計算された類似性の尺度に依存して前記データ組の間の複数の関係を定義する請求項２または３のいずれか１項記載の装置。
さらに情報検索手段を含む装置であって、
前記第１と第２のデータ組は該情報検索手段により情報ベースから検索したデータを含み、
前記処理用手段は第１と第２のデータ組の各々の中のキーワードの組を識別し、該第１のデータ組の中で処理用手段により識別された少くとも１つのキーワードの組を、前記第２のデータ組に含まれるか前記第２のデータ組から求めたキーワードの組と比較することにより類似性の尺度を判断する請求項１記載の装置。