JP4274689B2 - データ組を選ぶための方法とシステム - Google Patents

データ組を選ぶための方法とシステム Download PDF

Info

Publication number
JP4274689B2
JP4274689B2 JP2000509044A JP2000509044A JP4274689B2 JP 4274689 B2 JP4274689 B2 JP 4274689B2 JP 2000509044 A JP2000509044 A JP 2000509044A JP 2000509044 A JP2000509044 A JP 2000509044A JP 4274689 B2 JP4274689 B2 JP 4274689B2
Authority
JP
Japan
Prior art keywords
data
keywords
information
keyword
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000509044A
Other languages
English (en)
Other versions
JP2001515245A (ja
Inventor
デイビス、ニコラス・ジョン
ウイークス、リチャード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JP2001515245A publication Critical patent/JP2001515245A/ja
Application granted granted Critical
Publication of JP4274689B2 publication Critical patent/JP4274689B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/918Location
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Description

【0001】
発明の属する技術分野
この発明はデータ組(データセット)を選ぶための方法及び/又はシステムに係り、この発明は例えばインターネットに用いてアクセスできるような情報ベースから文書を選択するのにとくに応用が見出されるものである
インターネットワールドワイドウェブ(WWW,W3)は複数の別個の通信網が一緒に接続されているものを応用した既知の通信システムである。それが数多くの異なるプロバイダからの豊かな情報源を提供しているが、この非常な豊かさが特定の情報にアクセスする際の問題を作り出しているのであり、中央の監視と制限がないことが理由となっている。
【0002】
従来の技術
1982年には科学的な団体と技術的な情報の量は毎5年間で倍増してきた。1988年には毎2.2年で、1992年には毎1.6年でそれぞれ倍増している。インターネットと他の網の拡大によって、増加の割合は増し続けている。このような網の実行可能性の鍵は情報を管理して、ユーザにほしい情報をほしいときに提供する能力となる。
【0003】
しかしここで、W3のような検索システム用の別のツールを提供することにこの発明は関係してはおらず、このようなものはすでに多く存在していて、しばしば常に増大しているウェブのカバー範囲と検索エンジンの高度化に加えられているところである。
【0004】
発明が解決しようとする課題
これとは違って、この発明の実施態様は次のような問題に関係している。W3上で有用な情報が見付かったとして、簡単な検索をするためにそれがどう記憶できるか、またその情報に関心をもつことになりそうな他のユーザにどのように識別ができまた通知がされるかという問題である。
【0005】
さらに特定すると、この出願人がした係属中の出願PCT/GB96/00132は情報検索エージェントでJASPER(ジャスパ)エージェントと知られるものを提供しており、これがW3のような分散形情報システムから情報を識別して検索するために使用されている。
【0006】
それは階層構造をもつ膠着性の(agglomerative,言語学用語のagglutinativeと同義、塊を作る、集塊性の意)クラスタ化のような技術を用いてW3上にすでに存在している各種情報源の間の関係を定義する。しかし、こうした定義された関係の内部には不正確さが生ずることができ、これが似ていない主題事項をもつ文書が一緒にクラスタを作るという結果を生じさせることができることになる。このクラスタ化技術の本質が、1つの不正確にクラスタ形成された文書をいくつかに増殖させることになり得る。
【0007】
課題を解決するための手段
この発明の第1の特徴によると、少くとも第1と第2のデータ組の間の類似性の尺度を判断するための装置であって、その構成は:
i)少くとも該1と第2のデータ組を受領する入力手段と、
ii)少くとも該第1のデータ組の中のキーワードの組を識別するための、少くとも1つの規則組へのアクセスを備えて該少くとも1つの規則組を使用して該キーワードの組を識別し、さらに該類似性の尺度を出力する処理用手段と、
iii)該類似性の尺度を出力する出力手段とで成り、
前記規則組はそれぞれのデータ組内のデータアイテムの相対的な位置に関する規則を含み、また前記処理用手段は該第1のデータ組の中で処理用手段により識別された少くとも1つのキーワードの組を前記第2のデータ組を含むかそれから求めたキーワードの組と比較することにより類似性の尺度を判断する装置が提供されている。
【0008】
この発明の実施態様はデータ組内部で2以上のキーワードが互いに他と関係づけられるようにしており、例えば語句(フレーズ)を形成し、データ組の類似性の比較の精度が改善されるような結果をもたらしている。
【0009】
好ましいのは、この装置がさらに情報検索手段とデータメモリとを含み、前記第1のデータ組は該情報検索手段により情報ベースから検索されたデータを含み、また前記第2のデータ組は該データメモリ内に記憶されたキーワードの組を含んでいることである。例えば、キーワードの組はユーザによって用意されたものでよいし、あるいはユーザプロフィル内に記憶されていてもよい。
【0010】
規則の組は、単一のキーワードとして一緒に取扱うことができるデータ組内の隣接するアイテムを識別するための手段を用意することができる。これは位置情報に限らず、例えば次のうちの1つもしくは複数のような隣接するアイテムについての文法的な試験も含んでいる。すなわち、
1)名詞が続く名詞もしくは予め定めた指標の組;
2)名詞が続く動詞もしくは予め定めた指標の組;
3)名詞が続く形容詞もしくは予め定めた指標の組;及び、
4)名詞もしくは動詞もしくは別の予め定めた指標の組が続く予め定めた指標の組。
【0011】
この発明の第2の特徴によると第1と第2のデータ組の間の類似性のレベルを判断する方法が提供されていて、
i)少くとも第1の規則により、少くとも第1のデータ組内で選んだデータアイテムに識別用タグを付ける段階と;
ii)該識別用タグの存在もしくは欠如のいずれかを参照することにより一組の可能性のあるキーワードを識別する段階と;
iii)少くとも第2の規則を適用することにより隣接している2以上の可能性のあるキーワードの組を選ぶ段階と;
iv)可能性のあるキーワードの各選んだ組を単一のキーワードとして分類する段階と;
v)可能性のあるキーワードについての単一のキーワードとして分類された各組を含む一組のキーワードを可能性のあるキーワードについての識別された組からの残されたキーワード一緒に生成する段階と;
vi)キーワードについての該生成された組を、第2のデータ組を含むかその組から得られたキーワードの組と比較する段階とから成る方法である。
【0012】
例えば、前記台1の規則はデータアイテムの文法的なカテゴリィの少くとも一部と関係しているのが好都合である。
【0013】
少くとも前記第の規則は次の組から1もしくは複数を含んでいてよい。すなわち、
1)名詞が続く名詞もしくは予め定めた指標の組;
2)名詞が続く動詞もしくは予め定めた指標の組;
3)名詞が続く形容詞もしくは予め定めた指標の組;及び、
4)名詞もしくは動詞もしくは別の予め定めた指標の組が続く予め定めた指標の組。
【0014】
文書内部から関係するキーワードをまたW3上に置かれた情報の他の形式を識別することは、先行技術のシステムと方法と比較して、こういった文書や情報の他の形式間で定義された関係の精度に改善を与えている。
【0015】
実施の形態
データ組を選ぶための方法及び/又はシステムを例をあげて添付の図面を参照して記述して行くこととする。
【0016】
この発明の実施形態は情報アクセスと情報検索システム、例えばジャスパ(JASPER)エージエントとして以下に記述するようなものに対して改良を与えている。この発明の実施形態についての記述は以下ではこのジャスパエージェントの記述について行う。しかし、この発明はジャスパエージェントに限定されない。この発明は他の領域にも別な応用があり、例えばユーザプロフィル作成技術を採用している情報システムとか、キーワード検索及びキーワード検索技術を採用している情報システムなどである。
【0017】
実施例
情報アクセスシステム
ソフトウェアエージエントは、中央に集めた計算機応用システムではなく分散して取扱いをする既知のやり方を提供している。各エージェントは(人間とか機械に基いた)エンティティに代って自治的なやり方でタスクをローカルデータとともに、あるいはタスクを支援するためにデータにアクセスする手段とともに実行する機能を備えている。この明細書では、この発明の実施形態内で情報を記憶もしくは検索するのに使用するためのエージエントは簡単にするために“ジャスパエージェント(Jasper agents)”と呼ぶことにするがこれは“Joint Access to Stored Pages with Easy Retrieval,容易な検索で、記憶したページへの協同アクセス”に基いた頭字語である。
【0018】
W3上で利用可能な莫大な量の情報が与えられると、もとの場所からローカルサーバへの情報のコピィをすることは避けるのが好ましい。実際にこのようなやり方はウェブの全体のエートス(精神)に反するとして論じられるところである。情報をコピィするのではなく、そこで、ジャスパエージェントは関連の“メタ(meta変成,超越)情報”だけを記憶する。後述するように、このメタ情報は情報それ自体の上位のレベルにあるものとして考えることができ実際の情報であるのではなく、その辺りにあるものとして考えられる。例えばキーワード、要約、文書題名、ユニバーサルリゾースロケータ(URL)及びアクセスの日時などを含むことができるものである。このメタ情報が次に使われて、検索要求が行なわれたときに実際の情報に対するポインタを与えたり、そこにインデックスをあてる(“インデックスオン”)ために使用される。
【0019】
大部分の既知のW3クライアント(MosaicTMとかNetscapeTMなどがその例である)はユーザにとって関心のあるページについての情報を記憶するための若干の手段を用意している。一般に、これはユーザにとって(恐らくは階層構造をもつ)メニュを特定のURLと関係した名前について作れるようにすることによって行なわれる。このメニュ機能は有用ではあるが、合理的な程度で大きな数のW3ページが含まれるときにはすぐに広いものではなくなってしまう。本質的に見て、用意される表現されたものが記憶された情報について必要とされることになるもののすべてを捕捉できるようにするというには十分に豊富なものでなくなり、ユーザはページに名前を付けるストリングを与えることができるだけとなってしまう。そのページについてのアクセスの日付といった有用なメタ情報が失なわれるという事実と同様に、単一の語句(フレーズ,前記名前)は全てのコンテキスト内のページに正確にインデックスを付けるのには十分でなくなる。
【0020】
薬理学的データの情報検索で知識ベースシステム(KBS)を使用することについての情報を簡単な例として考えることとする。異なるコンテキストでは、どんなKBS、情報検索もしくは薬理学関連のものでも関心のあるものであればよい。名前を注意して選んですべての三つの特徴を述べるようにしないと、これらの情報は有用なコンテキストについてのより大きなものの中の1つで失なわれることになる。この問題はUnix(もしくは他)のファイルシステム内で所望の情報を含んでいるファイルを見付けるときの問題に類推できる(このことはJones,W.P.;“On the applied use of human memory models:the memory extender personal filing system”Int J.Man-Machine Studies,25,191〜228,1986出版物に記述されている)。大部分のファイリングシステムでは、しかしながら、創生日付によってファイルを種分けする機能は少くとも置かれている。
【0021】
ジャスパエージェントの実施形態で採用されたこの問題に対する解はもっとずっと豊富なメタ情報の組によって情報にアクセスすることがユーザにできるようにしていることである。
【0022】
図1を参照すると、この発明の実施例による情報アクセスシステムはインターネットに接続されたクライアントサーバ形式の構造のような情報検索構造の既知の形式の中に組み込んでもよいようにしている。
【0023】
もっと詳しく言うと、国際的な会社といった顧客はパーソナルコンピュータもしくはワークステーション405を備えた複数のユーザをかかえていてよい。こういったものが顧客のクライアントコンテキスト内でワールドウェブ(WWW)ビューワ400を経由して顧客のWWWファイルサーバ410に接続できるようにしている。ジャスパエージエント105はビューワ400の効果的な拡張であり、WWWファイルサーバ410上に実際には置かれている。
【0024】
顧客のWWWファイルサーバ410は既知のやり方でインターネットに接続され、例えば顧客自身の網415とルータ420とがそこで介在している。サービスプロバイダのファイルサーバ425はここでもまたルータを経て、インターネット経由でアクセスできる。
【0025】
また、顧客のファイルサーバ410上に置かれているか、それによってアクセスされて、テキスト要約用ツール120と2つのデータメモリとがあり、メモリの一方はユーザプロフィル(プロフィルメモリ430)を保持し、他方(インテリジェントページメモリ100)は文書のコレクションについてのメタ情報を主として保存している。
【0026】
ジャスパエージェント応用システムでは、エージエント105自体はNetscapeのような既知のビューワの拡張として構築できる。このエージェント105は効率よくビューワ400でNetscapeもしくはMosaicなどによって提供されるものと、統合されて、ビューワ400からW3ページを抽出できる。
【0027】
上述したように、クライアントサーバ構造では、テキスト要約器120とユーザプロフィルとは共に顧客ファイルサーバ410内のファイル上に置いてあって、そこにはジャスパエージェントが置かれている。しかしジャスパエージェント105は顧客のクライアントコンテキスト内に代って出現できる。
【0028】
ジャスパエージェントはソフトウェアエージエントであり、ソフトウェアエントリィとして一般に記述できるものであり、ユーザに代ってタスクを実行するための機能を組込んであり、タスクを支援するためにローカルデータと一緒にあるいはローカルデータにアクセスするようにしている。ジャスパシステムに関連しているタスクで、ジャスパエージェントによって実行できるもののいくつかについては後述する。ローカルデータは通常はインテリジェントページメモリ(IPS)100とプロフィルメモリ430からのデータを含んでおり、またジャスパエージェントにより用意されることになる機能はテキスト要約用ツールを応用して結果を記憶する手段、アクセスまたは読取ったりまた更新したりを少くとも1つのユーザプロフィルについてする手段、キーワード組を他のキーワード組と比較する手段、及びユーザに告知メッセージをトリガするための手段を含んでいる。
【0029】
好ましい実施例では、ジャスパエージェントがユーザ入力を監視するための手段とともに用意されていて、比較することになるキーワード組を選ぶ目的にあてられる。
【0030】
別な好ましい実施例では、ジャスパエージェントが第1と第2のキーワード組と関係して両者間の類似性尺度を生成するためのアルゴリズムを応用する手段をも備えるようにしている。類似性の尺度に従うと、第1か第2のキーワードの組のいずれかがジャスパエージェントによって先見性をもって更新されるか、あるいは第1もしくは第2のキーワード組を第3のキーワード組ともしくはメタ情報と比較した結果が修正される。
【0031】
この発明の実施例は異なるソフトウェアシステムにより作られてもよい。例えばオブジェクト指向技術が応用されると便利である。しかし、以下で記述する実施例ではサーバはUnix応用であり、ConTexTMを実行できるものとする。これは既知の自然言語処理システムであり、Oracle Corporationにより提供されるものであり、またW3ビューワもサーバで使用される。このシステムは一般に“C”で実現されるが、クライアントはW3ビューワを支持できるのであればどんな機械でも可能性があることになる。
【0032】
以下の章節では、情報管理に当りジャスパエージェントがユーザに提供している機能を論ずる。これらは2つのカテゴリィすなわち記憶と検索(読出し)とに分けられる。
【0033】
記憶
図2と5とは、ジャスパエージェント105がインテリジェントページメモリ(IPS)100内に情報を記憶するときにとられる動作を示す。ユーザ110は先ずそのユーザと関係しているIPS100内にジャスパシステムにより記憶されることになる十分に関心のあるW3ページを見付ける(段階501)。ユーザ110はそこで‘メモリ’要求を顧客のWWWファイルサーバ410上にあるジャスパエージェント105に送るが、これはユーザの選んだW3クライアント115(MosaicとNetscapeバージョンが全プラットホーム上で現在使用可能となっている)上でのメニュオプションを介して送られる(段階502)。ジャスパエージェント105は次にユーザ110を呼んで関係する注釈(アノテーション)を供給するようにさせ、また記憶されるようにする(段階503)。一般に、これはユーザが関心をもっているページであるとされ、またIPS100から検索されたどのページを訪ねるかをきめるのに他のユーザにとって非常に有用なものとすることができる。(情報共用については別に以下で記述する。)
ジャスパエージェント105は次に問題となっているページからソーステキストを抽出する。ここでもまたW3上のW3クライアント115を介して行なわれる(段階504)。ソーステキストが“ハイパーテキスト(HyperText)”形式で用意されて、ジャスパエージェント105は最初にハイパーテキストマークアップ言語(HTML)タブをはぎとる(段階505)。次にジャスパエージェント105はこのテキストを“ConText”120のようなテキスト要約器に送る(段階506)。
【0034】
ConText120は先ずある文書を解析(解剖とも言う)してシンタックス(文法)構造を各文について判断する(段階507)。ConText解析器(パーサ)は頑丈なもので英文中に出てくるシンタックス現象についての広範囲のものを取扱うことができる。文レベルの解析に続いて、ConText120は“コンセプトプロセッシング(概念処理)”フェーズに入る(段階508)。提供される処理の中には次のものがある:
・情報抽出:文書の内容のマスターインデックスが計算されて、テキスト内でコンセプト、事実、及び定義についてインデックスが付けられる。
【0035】
・内容の低減(コンテントレダクション):幾つかのレベルの要約が利用可能とされていて、文書の主題(メインテーマ)のリストから、全文書の大意(プレイシス)までに及ぶ。
【0036】
・論義追跡(ディスコーストラッキング):文書の論義を追跡することにより、ConTextはあるコンセプトと特に関連がある文書の全ての部分を抽出することができる。
【0037】
ConText120はジャスパエージェント105によりクライアント・サーバ構造内で使用される:その文書の解析後に、サーバは応用と独立しているマークアップバージョンを生成する(段階59)。ジャスパエージェント105からの応用プログラミングインターフェース(API)を用いた呼出しがそこでマークアップに割込みをかけることができる。これらAPI呼出しを利用して、メタ情報がソーステキストから得られる(段階510)。ジャスパエージェントは最初にそのページのテキストの要約を抽出する。要約の大きさはConText120に送られたパラメータによって制御でき、ジャスパエージェント105は100ないし150語の要約が得られることを確かとしている。そこで、ConText120への別の呼出しを用いて、ジャスパエージェント105はソーステキストからキーワードの組を得る。これに続いて、ユーザは選択肢としてHTML形式125を介して別のキーワードを加えるための機会を与えられてもよい(段階511)。このようにして、ユーザに特に関連したキーワードが用意でき、しかもジャスパエージェント105はもっと広いユーザのコミュニティとより大きく関連性をもっているキーワードの組を供給する。
【0038】
このプロセスの終りには、ジャスパエージェント105は関心のあるW3ページについての次のメタ情報を生成している。
【0039】
・ConTextが供給した一般的なキーワード;
・ユーザ固有のキーワード;
・ユーザの注釈;
・ページの内容の要約;
・文書の題名;
・ユニバーサルリソースロケーション(URL)及び、
・記憶の日時。
【0040】
加えて図3を参照すると、ジャスパエージェント105はそこでこのページについてのメタ情報をIPS100のファイル130に加える(段階512)。IPS100では、(両形式の)キーワードがそこで使用されて、他のページについてのメタ情報を含んでいるファイル上でインデックスを付けるために使用される。
【0041】
検索
ジャスパエージェント105を用いてIPS100から情報が検索できる3つのモードがある。1つは標準のキーワード検索機能であり、また他の2つはエージェントのコミュニティとそのユーザとの間で共用する情報に関係するものである。各々について以下の章節で記述する。
【0042】
ジャスパエージェント105がユーザの機械上にインストールされると、ユーザは個人的な(パーソナル)プロフィルを用意する:W3を経て得ることにユーザが関心をもっている情報を記述しているキーワードの組である。このプロフィルはエージェント105によって保存されるが少くとも維持されていて、あるユーザにとって関心のある可能性をもっているページがどれかを判断するためにあてられる。
【0043】
キーワード検索
図4,6,7,8に直接的なキーワード検索について示すように、ユーザは1組のキーワードをジャスパエージェント105によって用意されたHTML形式300を介してジャスパエージェント105に向けて供給する(段階601)。ジャスパエージェント105はそこでIPS100内に保存されている最もよく整合している10のページを、簡単なキーワード整合と得点アルゴリズムを用いて、検索する(段階602)。ページが記憶されたときにユーザにより供給されたキーワードは(ConTextによって自動的に抽出さたものとは対象的に)、整合プロセスでは追加の重み付けを与えられるようにできる。ユーザは前もって検索しきい値を特定できて、それ以下ではページが表示されないようにする。エージエント105はそこでHTML形式305を検索されたページとその要約に対するリンクについてのランク付けしたリストと共に動的に構築する(段階603)。もとのユーザによって作られた注釈はいずれも各検索したページの得点と一緒に示される。このページは次にW3クライアント上でユーザに向けて呈示される(段階604)。
【0044】
“何が新しいか?( What s New ? )”機能
どのユーザもジャスパエージェント“何が新しいか?”を尋ねることができる(段階701)。エージェント105はそこでIPS100に質問をして、一番最近に記憶したページを検索する(段階702)。エージェントは次にこういったページのうちのどれがユーザのプロフィルと一番よく整合するかを、ここでもまた簡単なキーワード整合と得点アルゴリズムに基いて判断する(段階703)。次に、HTMLページがユーザに呈示されて、ユーザのプロフィルに一番よく整合している最近に記憶されたページへのリンクについてのランク付けしたリストを示し、またIPS内に一番最近に記憶した他のページに対するリンクについてのランク付けしたリストも呈示し、(段階704)、それには用意されていれば注釈も付ける。こうしてユーザは最近に記憶され、ユーザにとって最も関心のあることとなりそうなページと、最近記憶されたページでもっと一般的に選んだものとの両方を眺められるような提供を受ける(段階705)。
【0045】
ユーザはその者のジャスパエージェント105が保存しているプロフィルをいつでも更新できて、それはHTML形式を介して行なわれ、この形式はユーザがプロフィルにキーワードを加えたり、そこからキーワードを削除したり、あるいはその両方ができるようにする。このやり方で、ユーザは効率よく異なる“コンテキスト”を選ぶことができて、そこで作業をする。コンテキストはキーワードの組として定義されており(この組はプロフィルを作り上げているか、検索問合せで特定されたものである)、ある時刻にユーザが関心をもっている情報の形式として考えることができる。
【0046】
人間の記憶モデルを情報のファイリングに応用するというアイデアは上述の参考文献中でJonesによってコンピュータファイリングシステムのコンテキストで探究されている。従来形式のファイリングシステムの範疇でJonesが指摘しているように、ファイルシステム内のディレクトリィとジャスパエージエント105により検索されるページの1組との間には類推(アナロジィ)が存在している。ページの組は動的に構築されたディレクトリィであって、それが検索されるコンテキストによって定義されたものとして考えることができる。これは2つの文内の“ディレクトリィ”を高度にフレキシブルに(融通性をもたせて)記述したものであり、第1には、この検索で生じたページは無論他でもコンテキストに依存して生ずることができるものであり、また第2には、ディレクトリィに対する鋭い境界は存在しないことである。ページは現在のコンテキストとの整合に依存してより大きな程度になったり小さな程度になったりしてディレクトリィの‘中に’ある。このやり方では、ページ上で情報を区分するやり方の数は情報そのものの広がり(ダイバシティ)と豊富さとによってのみ限定が加えられる。
【0047】
他の関心のあるエージェントとの通信
図8を参照すると、ジャスパエージェント105により、IPS100内にページが記憶されると(段階801)、エージェント105は“ローカルコミュニティ”内の他のエージェントのユーザのプロフィルをチェックする(段階802)。このローカルコミュニティは予め定めたコミュニティのどれであってもよい。もしページがあるユーザのプロフィルとある種のしきい値を越える得点で整合していると(段階803)、例えば“eメール”メッセージといったメッセージがエージエント105によって自動的に生成されて、関係するユーザに送られ(段階804)、ページが見付かったことをその者に知らせる。
【0048】
eメールヘッダは例えば次の形式をとることになる。
【0049】
Jasper KW: (keyword)
これがユーザにとってメッセージの本体を読み取る前にジャスパシステムからのものであるとそれを識別できるようにする。好ましいのはキーワードのリストが用意されて、メッセージが参照している情報の相対的な重要性をユーザが評価できることである。メッセージヘッダ内のキーワードはユーザ毎に、ユーザプロフィル内のキーワードと整合するページからのキーワードに依って変り、したがって各ユーザの関心に対するメッセージを個人的なものと(パーソナライズ)する。メッセージ本体自体はページ題名とURLのような別の情報を与えることができ、誰がそのページを記憶し、その記憶者が用意したページ上に何らかの別の情報を記憶したかという情報を与えられる。
【0050】
ジャスパエージェント105と上述のシステムとはW3のような分散形構成内での関連情報をアクセスする極めて有用なやり方の基礎を提供する。変形と拡張とがこの発明の範疇から逸脱することなくシステム内で行なえる。例えば、比較的簡単なレベルでは、改善された検索技術が採用できよう。例を挙げると、ベクトル空間とか確率論的モデルとかが、 G Salton “Automatic Text Processing” 1989, Addison-Wesley, Reading, Massachussetts, USAに記載されているように使用されよう。
【0051】
これに代って、インデックス付けがもっと簡便にキーワードのほかにメタ情報上でインデックスを付けるようにすることで行なわれる。例えば、超メタ情報はあるページの記憶日付とそのページのもともとのサイト(これはURLからジャスパが抽出できるものである)であってよい。こういった超インデックスはユーザが(HTML形式を介して)形式についてのコマンドをフレーム形成できるようにする。この形式は次による。
【0052】
Show me all pages I stored in 1994 from Cambriage University about artificial intelligence and information retrieval.(私が1994年に剣橋大学から人工知能と情報検索について記憶した全ページを私に示せ)。
【0053】
別の代りのバージョンではキーワード同義語を活用するためにジャスパエージェント105によってシソーラスが使用できる。これはあるページが記憶されたときと同一のキーワードを正しく入力することの重要性を軽減させる。実際に、いくつかの別の領域でシソーラスの使用を活用することは可能であり、その中にはユーザのためにあるジェント105が保存している個人的なプロフィルを含んでいる。
【0054】
適応性エージェント
ユーザプロフィルをジャスパエージェント105によって使用してエージェントのユーザ関連の情報を判断することは、効果的なことであり、改善できる。ユーザがコンテキストを変更したいとき(多分1つのタスクから別なタスクへとか、仕事からレジャーへフォーカスをあて直すことであるが)、ユーザプロフィルはキーワードを添加削除することによって再度特定されなければならない。よりよいやり方は、そのエージェントについてユーザのプロフィルをそのユーザの関心が時間切れで変るとして変更することである。このコンテキストの変更は2つのやり方で発生できる:例えば仕事からレジャーへのコンテキストの短期間切換えをとることができる。エージェントはユーザのために保持している現在のコンテキストのリストからこれを識別して、新しいコンテキスト内へと変更できる。この変更は、例えば異なる情報形式の新しいページがそのユーザによって訪ねられるときにトリガできる。ユーザが発展させている関心に基いた、エージェントが保存しているコンテキスト内でのもっと長期間の変更もあり得る。こういった変更はエージェントによるそのユーザの観察から推論ができる。例えば、適応性エージェント内で採用することができる既知の技術は遺伝学的な(genetic)アルゴリズムと、帰還からの学習と、メモリ応用の理由付けとを含んでいる。このような技術は1993に入手可能となったMITの内部報告、 Sheth B. & Maes P., “Evolving Agents for Personalised Information Filtering” に開示されている。
【0055】
遠隔及びローカル情報の統合
ジャスパシステムの別の可能な変形はユーザ自身のコンピュータファイリングシステムをIPS100と統合することであり、それによってW3上とローカル機械上で見付かる情報が最上位レベルではユーザにとって均質に出現するようになることである。そのときはファイルはジャスパエージエント105がW3ページをアクセスするのと同じやり方でアクセスできて、ユーザは名前指向のファイリングシステムがもつ拘束条件から解放されて、あらゆる種類の、ローカル及び遠隔の両情報に対して内容でアドレスできるインターフェースを用意できるようになる。
【0056】
ジャスパシステム内でのクラスタ形成
ジャスパIPS100と関連の文書とは、本質的にコレクションと呼ぶことができ、キーワードによってインデックスを付けた1組の文書である。これは“伝統的な”コレクションとは違っていて、この文書が一般にインデックスからは遠くに置かれていて、インデックス(IPS100)は現実にはインターネット上の文書の位置を特定するあるURLを指している。さらに、メタ情報についての各種の追加片がジャスパシステム内の文書には取付けられていて、例えばそのページをメモリに入れているユーザとか、それが記憶された時とか、ユーザが用意してもよい注釈などといったものである。
【0057】
ジャスパシステムが大部分の文書コレクションと違っている1つの重要な領域は、あるユーザによってIPS100内に各文書が入力されたことであり、このユーザはその者とその者の対等者とが将来有用として見付けそうな情報片であるとしてその文書にしるしをつける知的判断を下している。これが、保存しているメタ情報と一緒になって、ジャスパIPS100を非常に豊富な情報源とする。
【0058】
既知の情報検索(IR)技術がジャスパIPS100に有用に適用されるかどうかを調べた。特にクラスタ形成(クラスタリング)の使用については調査が進められている。
【0059】
文書のクラスタ形成
既知のIR技術を用いて、ジャスパの用語(ターム)−文書マトリックスが使用されてジャスパIPS100で識別された文書についての類似性マトリックスを計算できる。類似性マトリックスはメモリ内で識別された文書の類似性の尺度を与える。文書の各対についてダイス(Dice)係数が計算される。2つの文書Di とDj とについて
* [Di ∩Dj ]/[Di ]+[Dj ]
ここで[X]はX内の用語の数であり、X∩YはXとYとで共に発生する用語の数である。この係数は0と1との間の数となる。係数0は2つの文書が共通の用語をもたないことを意味し、また係数1は各文書内で発生する用語の組が同一であることを意味する。類似性マトリクス、Simはメモリ内の文書の各対の類似性をあらわしているので文書iとjとの各対に対しては
Sim(i,j)=2* [Di ∩Dj ]/[Di ]+[Dj ]
である。
【0060】
このマトリックスは関連文書のクラスを自動的に生成するために使用でき、ここでは“Hierarchic Agglomerative Clustering Methods for Automatic Document Classification” by Griffiths A et al, Journal of Documentation, 40:3, September 1984, pp 175〜205に記述されている階層構造をもつ膠着性クラスタリングプロセスが使用されている。このようなプロセスでは、各文書は最初に自身により、クラスタ内に置かれて、2つの最も類似しているそういったクラスタがより大きなクラスタに結合され、そのクラスタについては他の各クラスタとの類似性が計算されなければならないとされる。この結合プロセスはたった一個の文書のクラスタが最高位レベルに残るようになるまで続けられる。
【0061】
クラスタ間の類似性(個々の文書に対するのではない)が計算される方法は変えることができる。ジャスパメモリについては、“Complete-link clustering(完全リンククラスタリング)”が採用できる。完全リンククラスタリングでは、2つのクラスタからの文書の一番類似していない対の間の類似性がクラスタ類似性として使用される。
【0062】
ジャスパメモリの結果として生じたクラスタ構造はVRML(Virtual Reality Modelling Language)を用いてジャスパシステム上で三次元(3D)フロントエンドを作るために使用できることになる。VRMLは3Dグラヒカル空間もしくは仮想世界でグローバルインターネットを介して網形成されまたWWW内部でハイパーリンクされたもので知られている言語である。
【0063】
クラスタ形成用キーワード
特定のジャスパ文書コレクションと関係して発生するキーワード(用語)もまた上述した文書のクラスタ形成技術を正確に鏡像をとったやり方でクラスタ形成できる。ジャスパメモリ内のキーワードについての類似性マトリックスはメモリ内のキーワードの“類似性”の尺度を与えるものとして構築できる。文書の各対に対して、ダイス係数が計算される。2つのキーワードKi とKj についてのダイス係数は次のように与えられる。
【0064】
* [Ki ∩Kj ]/[Ki ]+[Kj ]
ここで[X]はXが発生する文書の数であり、またX∩YはXとYとが同時発生する文書の数である。
【0065】
ジャスパメモリについての類似性が計算されると、文書がクラスタ形成されたときのようにキーワードをクラスタ形成することは必要でない。その代わりに、以下に記述するように、2つのやり方でマトリックス自体を活用することも可能である。
【0066】
第1のやり方はプロフィル強化(profile enhancement)である。ここでは、ユーザプロフィルが、ユーザのプロフィル内のキーワードと一番よく似ているキーワードを用いて強調されるようにできる。したがって、例えばもし単語として、virtual,reality,及びInternetがユーザのプロフィルの一部ではあるがVRMLはそうでないとすると、強化されたプロフィルはもとのプロフィルにVRMLを加えたことになる(ここでVRMLはvirtual,reality,及びInternetに近いとしてクラスタされていると仮定する)。このやり方では、VRMLを含んでファイルがvirtual,reality,及びInternetを含んでいない文書が(こういった用語は強化されていないプロフィルとは係りがなかったが)検索される。
【0067】
図9は現在のジャスパメモリから抽出されたキーワード類似性マトリックスから構築されたキーワードの網900の例を示す。アルゴリズムは直截的であり、最初の出発点となるキーワードが与えられると、それと一番よく似ている4つの単語が類似性マトリックスから見付けられる。もとの単語とこの4つとがリンクされ、この4つの新しい単語の各々についてプロセスが繰返される。これは何回も繰返すことができ、図9では3回となっている。2つの単語間での二重線901は他の4つの最高類似キーワード内で両方の単語が発生することを示している。無論単語間の類似性の程度に関して精細に磨かれた情報(finer grained information)について各リンクに対して特定の類似性係数を付与することが無論可能である。
【0068】
第2のやり方は先を見越した検査(proactive searching)である。ユーザのプロフィルを含んでいるキーワードが、関心のあるものと関連がある新しいWWWページを探してジャスパにより先を見越して行うために使用できる。ジャスパは次にユーザが検査を明確に実行する必要なしに、関心のある新しいページのリストを呈示できる。こういった先を見越した検査は例えば週毎といった何らかの与えられた間隔でジャスパシステムによって実行できる。クラスタ形成はここでも有用であり、その理由はプロフィルが複数の関心を反映できるからである。例えば次のようなユーザプロフィルを考えるとする:Internet, WWW, html, football, Manchester, united, linguistics, parsing, pragmatics.明らかに、3つの別個の関心が上のプロフィルの中に表現されていて、各別個の検査は、所与のユーザについての照会として全体のプロフィルを単に入力するよりも遙かに優れた結果を生じさせそうである。文書コレクションからのキーワードをクラスタ形成することは、ユーザのジャスパエージェントによって先を見越した検査用の照会生成プロセスを自動化できるようにする。
【0069】
検査結果がジャスパにより得られるときは、結果が要約され通常のやり方でユーザのプロフィルに対して整合がとられて、ローカルに保存された要約に沿って新しいURLの優先順位を付けたリストを与えるようにする。
【0070】
ジャスパシステムに対する改良
この発明の実施形態は上記ジャスパシステムに改良をもたらす。こういった実施形態は図10を参照して記述されることになるが、そこではジャスパエージエンと内部の要素で文書内部の関連するキーワードを識別するために使用されているものを識別している。ここでいう文書は上記ジャスパシステムの性質を改善することができるものである。
【0071】
上述のクラスタ形成技術は互いに関係している2以上のキーワードを、例えば一つの語句(フレーズ)を形成するキーワードを識別することによって強化できる。こういった関係しているキーワードはそこで単一の用語として文書マトリックス内部に入れられる。
【0072】
例えば、標準のクラスタ化技術は“Information Technology(情報技術)”という表現が一文書内での2つの別個のエントリィすなわち“Information”と“Technology”の別個のエントリィを形成していると考えていた。この発明の実施形態により強化された技術は単語“Information”と“Technology”とが関係付けられていて、文書−用語マトリックス内では単一のエントリィを形成しなければならないと認識することになる。2つのエントリィを単一のエントリィで置換えることは文書間の類似性を測るために使用されるDice係数の値を著しく変更できる。
【0073】
例えば次の2つの文節を考えるとする。
【0074】
1) The people in my company only use the latest information technology when transferring copies of files across our local area network.
2) My company has transferred a lot of people into the latest areas of technology. There is a file on the network with a lot of information in it about the transfers. I also have a local copy of the file.
明らかに各文節の主題事項は違っているが、なお各文節は同じキーワードをもつ。それは次の通り。
【0075】
“people”,“company”,“latest”,“information”,“technology”,“copy”,“transfer”,“file”,“local”,“area”及び“network”である。
【0076】
1)の意味:我社の人々は最新のITを、我々のLAN上でファイルのコピィを転送するときに、使うだけである。
【0077】
2)の意味:私の会社は多くの人々を最新分野の技術に移動した。移動についての沢山の情報をもつファイルが網上にある。私もファイルのローカルなコピィを持っている。
【0078】
標準のクラスタ形成でされるように、もしキーワード“information”と“technology”、それに“local”と“area”と“network”が独立したキーワードとして取扱われるとすると、そのときは2つの文節のDice係数は1という値をとる。以下に示す例のように、文書用語マトリックスで標準クラスタ形成技術を用いたものは次のように計算される。
【0079】
【表1】
Figure 0004274689
【0080】
しかしながら、キーワード“information”と“technology”とは文書用語マトリックス内で単一エントリィを形成するように関係付けられ、またキーワード“local”と“area”と“network”とが文書用語マトリックス内で単一エントリィを形成するように関係付けられるとすると、そのときにはDice係数は2つの文節について再度計算されて0.6となる。この計算は次による。
【0081】
【表2】
Figure 0004274689
【0082】
Dice係数が0.6というのは2つの文節の主題事項間での類似性と差異とをより正確に反映していると考えられる。
【0083】
各種の語句と文法的構造とがキーワードの組を識別する高い確率を有している。ここで言うキーワードは互に関係付けらけれていて、関係付けは類似性マトリックス内に単一のエントリィとして含まれることがその結果を強化するようになるというやり方で行なわれている。2つの名詞で成る、あるいは名詞に続く動詞で成る、隣り合ったキーワードは短い語句の中で発生することになる文法上の構造の形式に見られる普通の例であり、したがって、類似性マトリックスの品質を改善すると思われる。動詞に続く形容詞は短い語句中では発生しそうにない組合せであり、したがって類似性マトリックスの品質を強化しそうにないと考えられる。
【0084】
この発明の実施形態はこのような語句構造と文法上の構造についてのリストを含むことになる。解析される文書のテキストはこのような構造を形成しているキーワードの組が存在するかについて調べられることになる。これはキーワードを識別する最初のプロセスへの追加である。
【0085】
ある状況では例外があって、それによると、特定組のキーワードで特定の文法上の構造に一致しているとして識別されたものが類似性マトリックスの結果を強化しない。他の組のキーワードでこういった識別された文法上の構造の1つに従わないものがある状況下では類似性マトリックスを強化する。
【0086】
したがって、この発明の実施形態は類似性マトリックスを強化する高確率をもつ文法上の構造だけを識別することと、類似性マトリックスを強化することのより低い確率をもつ沢山の文法上の構造を識別することとの間で妥協点を見付ける必要があることになる。
【0087】
図10は文書内部で関係しているキーワードを識別するために使用されるジャスパエージェント105内部にある要素を示したものである。入力テキスト1000がW3クライアント115からジャスパエージェント105にダウンロードされて、そこで第1のパーサ(解剖器)1005、“パーサ1”によって解析される。パーサ1 1005は入力テキスト1000を省略記法と頭字語とについて解析する。
【0088】
解析は入力テキスト1000の各単語を省略記法と頭字語のデータベース1010に対して比較することにより実行される。パーサ1 1005は識別した省略記法と頭字語とにタグを付ける。
【0089】
省略記法と頭字語とで入力テキスト1000内部のあるものがタグを付けられると、入力テキスト1000は次に再度パーサ1 1005によって解析されて単語群1010に分けられる。この群は文、文節、ヘッダ(HTMLヘッダのようなもの)、あるいはブランクの行によって隔離された事項などである。
【0090】
省略記法と頭字語とを識別するタグはパーサ1 1005の第2の解析プロセスが省略記法もしくは頭字語の終りに現れるフルストップ(読点)と文の終りにあるフルストップとを識別する。これは、省略記法もしくは頭字語の終りのフルストップの存在によって生ずる原因となっている、文中にある単語群1010の余計な分離を妨げる。
【0091】
パーサ1 1005により2度目の解析がされた後に、単語群1010は第2のパーサ1020、“パーサ2”に入力される。パーサ2 1020は各単語群1010について4つの動作を実行する。
【0092】
第1に、パーサ2が単語群1010を単語について普通とは違った大文字使用(capitalisation)で解析する。このような単語はしばしばエンティティ(企業体)の名称として使用され、例えば企業体通信網とかコンピュータシステムがある。例を挙げると、ある企業体がそのコンピュータシステムの1つを“Over”と呼ぶように選んだときを想像すると、文章の中間に“Over”として現れてよいことになり、この場合には普通とは違った大文字使用の単語としてタグを付けられることになる。予想されるこの種の他の変形にはOvErとかOveRとかが含まれる。普通とは違った大文字使用を有するとして識別された単語は“ストップリスト(stop list)”オーバーライドとしるしが付けられる。
【0093】
ストップリストは文章の情報内容(information content)を一般には反映しない単語のリストを含んでいる。例えば“as”,“is”,“are”,“the”,“they”,“where”,“by”,“my”などの単語である。
【0094】
ストップリストはプレフィックス(接頭辞)やサフィックス(接尾辞)のリスも含んでいてもよい。ストリップリストはこの場合にはプレフィックスかサフィックスで、あるいはその両方でプレフィックスやサフィックスなしの基本形式に対する単語を減らすためである。このことはステミング(語幹処理)として知られているところであり、その例は“manufacturing(製造)”であって、これが“manufacture”に、“predetermination(予定)”が“determine”に、また“preselect(予選)”が“select”になる。
【0095】
第2に、単語群1010が“ストップリスト”データベース1025と比較される。
【0096】
第3に、ストップリスト内にない単語とストップリストオーバーライドとしてしるしを付けた単語とが文書の情報内容と関連しているとしてタグを付けられる。
【0097】
第4に、ある文書の情報内容と関連があるとしてタグを付けられた単語の各隣り合った対が、さらに類似性マトリックスの結果を強化できるキーワードの組であるとしてタグを付けられる。好ましいのは、ある文書の情報内容と関連があるとしてタグを付けられ、またストップリスト上の単語により分離された単語の各対が関係するキーワードを形成するとしては考えられないことである。
【0098】
最後に、動詞/副詞/名詞/形容詞の1つであるとして単語をカテゴリィに分ける辞書1030を用いて、キーワードのこういった組がその文法上の構造により識別される。こういった構造はキーワード組内の単語形式の組合せによって定義されており、例えば、第1の構造は名詞に動詞が続くものであり、また別の構造は形容詞に名詞が続くものである。
【0099】
文法上の構造についての好ましいリスト内部に入るキーワードの組が、次に、個別エントリィとしてではなく、単一エントリィとして類似性マトリックス内に含まれているとしてタグを付けられる。
【0100】
次のリストは好ましい文法上の構造であり、類似性マトリックスを強化するものとして考えられている。
【0101】
【表3】
Figure 0004274689
【0102】
ここで“?”はジャスパエージェントにより使用された辞書内にはない単語を表わす。代って、“?”は頭文語か、普通でない大文字使用がある文書内に現れる単語もまた表わしていてよい。このような単語の例にはIT,LAN,WAN,xDSL及びOveRがある。
【0103】
これらの例では、ITはInformation Technologyを、LANはLocal Area Networkを、WANはWide Area Networkを意味し、xDSLは一般にDigital Subscriber Line(ディジタル加入者線)技術として知られている技術のクラスを参照するときに、またOveRは通信網といった企業体施設の名称であってよい。
【0104】
こういった構造は決定論的なリストを形成していない。形容詞に2つの名詞が続いているLocal Area Networkのような三つのキーワード組についての他の構造もまた定義できる。4つ以上のキーワード組の構造で類似性マトリックスを強化しそうなものもまた名詞に続く形容詞とそれに続く2つの名詞として識別されてよく、この例はAsymmetric Digital Subscriber Line(非対称ディジタル加入者線)である。もっともこれらは2つとか3つのキーワードの組ほどに共通性がない。
【0105】
こういった文法上の構造は関係するキーワードを使用しないことと、隣接するキーワードの対もしくは3つ組の各々が関係しているキーワードであると仮定することとの間の妥協を与えている。法律論文(article)といった、ある話題について、特定のカテゴリィは技術論文についてよりも大きな利点があることが証明できる。したがって、ジャスパエージェント115によって解析されている論文の形式に依存してカテゴリィが調節されてもよい。
【0106】
こういった関係したキーワードの各々がジャスパキーワードメモリ内に、単一であるが複合したキーワードとして、入力されるときには、キーワードクラスタ形成技術でそのキーワードを使うことができて、この技術を上で詳述したように、ユーザプロフィルを強化するために使用される。これがジャスパエージェント115により実行される先を見越した検査の質を改良できる。また検査エンジンとか類似の装置で使用されて、検索の目標情報を定義するために使用された関係するキーワードを含んでいる文書を識別するのに使用することもできる。
【0107】
このプロセスは英語文書に限定されない。同様の技術は他の言語についても使用できる。
【0108】
上述した実施形態についての一般的コメント
技術にたけた者はここで記述した実施形態を考慮して Contextの代りに他のテキスト要約器を使用してもよいことに気が付くであろう。例えば、ProSumはインターネット上で、British Telecommunications plcによってhttp://WWW.labs.bt.Com.にあるBT研究所ショップで利用可能とされた要約用のツールである。
【0109】
インターネット経由で情報の場所を決めることに関係して記述してきたが、この発明の実施態様は他のシステム上で情報の場所を決めるのにも有用であることが見付けられ、例えばハイパーテキストとなっているユーザの内部システム上の文書であってもよい。
【図面の簡単な説明】
【図1】 ジャスパエージェントシステムにより提供される記憶プロセスを模式的な形式で示す図。
【図2】 アクセスシステムにより提供される記憶プロセスを模式的な形式で示す図。
【図3】 図1の記憶プロセスで使用するためのインテリジェントページメモリの構造を示す図。
【図4】 アクセスシステムにより提供される検索プロセスを模式的に示す図。
【図5】 図2の記憶プロセス用の流れ図。
【図6】 3つの情報検索プロセスでジャスパアクセスシステムを使用するものの1つの流れ図。
【図7】 3つの情報検索プロセスでジャスパアクセスシステムを使用するものの1つの流れ図。
【図8】 3つの情報検索プロセスでジャスパアクセスシステムを使用するものの1つの流れ図。
【図9】 ジャスパシステムにおけるユーザプロフィルの拡張及び/又は応用で使用するための、クラスタ技術を使用して生成したキーワード網。
【図10】 関係するキーワードを識別するために使用される図1のジャスパエージェントの一部分を示す図。

Claims (5)

  1. 少くとも第1と第2のデータ組の間の類似性の尺度を判断する装置であって、前記装置は:
    i)少くとも該1と第2のデータ組を受信する入力手段と、
    ii)少くとも該第1のデータ組の中のキーワードの組を識別、少くとも1つの規則組へアクセスを行い該少くとも1つの規則組を使用して該キーワードの組を識別し、さらに該類似性の尺度を判断する処理用手段と、
    iii)該類似性の尺度を出力する出力手段とを含み
    前記規則組はそれぞれのデータ組内のデータアイテムの相対的な位置に関する規則を含み、また、
    前記処理用手段は該第1のデータ組の中で処理用手段により識別された少くとも1つのキーワードの組を、前記第2のデータ組に含まれる前記第2のデータ組から求めたキーワードの組と比較することにより類似性の尺度を判断し、
    それぞれのデータ組内のデータアイテムの前記相対的な位置は、該データ組の中で互いに関係がある少くとも2つの候補キーワードについての隣接する位置を含み、また前記処理用手段はこのような隣接している候補キーワードを識別して、識別されたキーワードの組の中の単一のキーワードとして提供し、
    前記少くとも1つの規則組は、
    1)名詞の次に、名詞もしくは予め定めた指標の組が続く基準;
    2)動詞の次に、名詞もしくは予め定めた指標の組が続く基準;
    3)形容詞の次に、名詞もしくは予め定めた指標の組が続く基準;及び
    4)予め定めた指標の組の次に、名詞、動詞、もしくは別の予め定めた指標の組が続く基準のうち少くとも1つを含み、
    前記処理用手段は、隣接している候補キーワードが少くとも1つの前記基準に合致するときに限って、隣接している候補キーワードを識別して、識別されたキーワードの組の中の単一のキーワードとして提供する、装置。
  2. さらに情報検索手段とデータメモリとを含む装置であって
    前記第1のデータ組は該情報検索手段により情報ベースから検索されたデータを含み、
    前記第2のデータ組は該データメモリ内に記憶された前記キーワードの組を含む請求項1記載の装置。
  3. 前記第2のデータ組は、前記情報検索手段により、前記情報ベースからのデータ検索で使用するためのターゲットデータ組を表し、それによって前記類似性の尺度が所定のしきい値を越えるときには前記第1のデータ組は前記処理用手段により該ターゲットデータを含むとして識別される請求項2記載の装置。
  4. 前記データメモリは、前記処理用手段によって識別された複数のキーワード組を記憶し、このキーワード組は前記情報ベースから前記情報検索手段により検索された複数のデータ組から識別されたものであり、前記処理用手段はデータ組の各対に対して計算された類似性の尺度に依存して前記データ組の間の複数の関係を定義する請求項2または3のいずれか1項記載の装置。
  5. さらに情報検索手段を含む装置であって
    前記第1と第2のデータ組は該情報検索手段により情報ベースから検索したデータを含み、
    前記処理用手段は第1と第2のデータ組の各々の中のキーワードの組を識別し、該第1のデータ組の中で処理用手段により識別された少くとも1つのキーワードの組を、前記第2のデータ組に含まれるか前記第2のデータ組から求めたキーワードの組と比較することにより類似性の尺度を判断する請求項1記載の装置。
JP2000509044A 1997-09-04 1998-08-28 データ組を選ぶための方法とシステム Expired - Lifetime JP4274689B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP97306878.6 1997-09-04
EP97306878 1997-09-04
PCT/GB1998/002611 WO1999012108A1 (en) 1997-09-04 1998-08-28 Methods and/or systems for selecting data sets

Publications (2)

Publication Number Publication Date
JP2001515245A JP2001515245A (ja) 2001-09-18
JP4274689B2 true JP4274689B2 (ja) 2009-06-10

Family

ID=8229494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000509044A Expired - Lifetime JP4274689B2 (ja) 1997-09-04 1998-08-28 データ組を選ぶための方法とシステム

Country Status (9)

Country Link
US (1) US6353827B1 (ja)
EP (1) EP1010105B1 (ja)
JP (1) JP4274689B2 (ja)
CN (1) CN1269897A (ja)
AU (1) AU742831B2 (ja)
CA (1) CA2302264C (ja)
DE (1) DE69809263T2 (ja)
NZ (1) NZ503279A (ja)
WO (1) WO1999012108A1 (ja)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6115709A (en) * 1998-09-18 2000-09-05 Tacit Knowledge Systems, Inc. Method and system for constructing a knowledge profile of a user having unrestricted and restricted access portions according to respective levels of confidence of content of the portions
US6549897B1 (en) * 1998-10-09 2003-04-15 Microsoft Corporation Method and system for calculating phrase-document importance
JP3685938B2 (ja) * 1998-12-18 2005-08-24 富士通株式会社 通信支援方法及び通信支援システム
AU4954200A (en) * 1999-06-04 2000-12-28 Seiko Epson Corporation Document sorting method, document sorter, and recorded medium on which document sorting program is recorded
US7213198B1 (en) * 1999-08-12 2007-05-01 Google Inc. Link based clustering of hyperlinked documents
BE1013153A3 (fr) * 1999-11-25 2001-10-02 Datastat S A Procede et systeme de prelevement d'information.
US20020059223A1 (en) * 1999-11-30 2002-05-16 Nash Paul R. Locator based assisted information browsing
US8478732B1 (en) * 2000-05-02 2013-07-02 International Business Machines Corporation Database aliasing in information access system
US6704728B1 (en) * 2000-05-02 2004-03-09 Iphase.Com, Inc. Accessing information from a collection of data
US6711561B1 (en) 2000-05-02 2004-03-23 Iphrase.Com, Inc. Prose feedback in information access system
US7383299B1 (en) * 2000-05-05 2008-06-03 International Business Machines Corporation System and method for providing service for searching web site addresses
CA2410747C (en) 2000-05-29 2011-01-04 Aruna Rohra Suda System and method for saving browsed data
US9699129B1 (en) 2000-06-21 2017-07-04 International Business Machines Corporation System and method for increasing email productivity
US6408277B1 (en) 2000-06-21 2002-06-18 Banter Limited System and method for automatic task prioritization
US8290768B1 (en) 2000-06-21 2012-10-16 International Business Machines Corporation System and method for determining a set of attributes based on content of communications
JP2002140339A (ja) * 2000-10-31 2002-05-17 Tonfuu:Kk 法律等検索システムおよび法律等検索装置ならびに法律等検索プログラム
GB2368670A (en) * 2000-11-03 2002-05-08 Envisional Software Solutions Data acquisition system
US6978419B1 (en) * 2000-11-15 2005-12-20 Justsystem Corporation Method and apparatus for efficient identification of duplicate and near-duplicate documents and text spans using high-discriminability text fragments
US7644057B2 (en) * 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
US20040111386A1 (en) * 2001-01-08 2004-06-10 Goldberg Jonathan M. Knowledge neighborhoods
US7136846B2 (en) 2001-04-06 2006-11-14 2005 Keel Company, Inc. Wireless information retrieval
AU2002256868B2 (en) * 2001-05-10 2007-08-16 Amdocs Software Systems Limited Intelligent internet website with hierarchical menu
US20040205454A1 (en) * 2001-08-28 2004-10-14 Simon Gansky System, method and computer program product for creating a description for a document of a remote network data source for later identification of the document and identifying the document utilizing a description
US8078545B1 (en) 2001-09-24 2011-12-13 Aloft Media, Llc System, method and computer program product for collecting strategic patent data associated with an identifier
US20030074409A1 (en) * 2001-10-16 2003-04-17 Xerox Corporation Method and apparatus for generating a user interest profile
US7343372B2 (en) * 2002-02-22 2008-03-11 International Business Machines Corporation Direct navigation for information retrieval
US7120641B2 (en) 2002-04-05 2006-10-10 Saora Kabushiki Kaisha Apparatus and method for extracting data
US9805373B1 (en) 2002-11-19 2017-10-31 Oracle International Corporation Expertise services platform
JP4024137B2 (ja) * 2002-11-28 2007-12-19 沖電気工業株式会社 数量表現検索装置
US8495002B2 (en) * 2003-05-06 2013-07-23 International Business Machines Corporation Software tool for training and testing a knowledge base
US20050187913A1 (en) 2003-05-06 2005-08-25 Yoram Nelken Web-based customer service interface
US7752200B2 (en) 2004-08-09 2010-07-06 Amazon Technologies, Inc. Method and system for identifying keywords for use in placing keyword-targeted advertisements
US20070061158A1 (en) * 2005-09-09 2007-03-15 Qwest Communications International Inc. Compliance management using complexity factors
US20070061157A1 (en) * 2005-09-09 2007-03-15 Qwest Communications International Inc. Obligation assignment systems and methods
US8290962B1 (en) * 2005-09-28 2012-10-16 Google Inc. Determining the relationship between source code bases
US8799512B2 (en) * 2005-10-19 2014-08-05 Qwest Communications International Inc. Cross-platform support for a variety of media types
US8170189B2 (en) 2005-11-02 2012-05-01 Qwest Communications International Inc. Cross-platform message notification
US20070143355A1 (en) * 2005-12-13 2007-06-21 Qwest Communications International Inc. Regulatory compliance advisory request system
EP1798678A1 (en) * 2005-12-15 2007-06-20 Sap Ag Method and system for automatically controlling forum posting
US8122049B2 (en) * 2006-03-20 2012-02-21 Microsoft Corporation Advertising service based on content and user log mining
US20070239895A1 (en) * 2006-04-05 2007-10-11 Qwest Communications International Inc. Cross-platform push of various media types
US20070239832A1 (en) * 2006-04-05 2007-10-11 Qwest Communications International Inc. Communication presentation in a calendar perspective
US9323821B2 (en) * 2006-04-05 2016-04-26 Qwest Communications International Inc. Network repository auto sync wireless handset
US8320535B2 (en) * 2006-04-06 2012-11-27 Qwest Communications International Inc. Selectable greeting messages
US7603351B2 (en) * 2006-04-19 2009-10-13 Apple Inc. Semantic reconstruction
US7890521B1 (en) 2007-02-07 2011-02-15 Google Inc. Document-based synonym generation
US20080208852A1 (en) * 2007-02-26 2008-08-28 Yahoo! Inc. Editable user interests profile
US8780130B2 (en) 2010-11-30 2014-07-15 Sitting Man, Llc Methods, systems, and computer program products for binding attributes between visual components
US8661361B2 (en) 2010-08-26 2014-02-25 Sitting Man, Llc Methods, systems, and computer program products for navigating between visual components
US9715332B1 (en) 2010-08-26 2017-07-25 Cypress Lake Software, Inc. Methods, systems, and computer program products for navigating between visual components
US10397639B1 (en) 2010-01-29 2019-08-27 Sitting Man, Llc Hot key systems and methods
US9760634B1 (en) * 2010-03-23 2017-09-12 Firstrain, Inc. Models for classifying documents
US9495357B1 (en) * 2013-05-02 2016-11-15 Athena Ann Smyros Text extraction
US9892723B2 (en) * 2013-11-25 2018-02-13 Rovi Guides, Inc. Systems and methods for presenting social network communications in audible form based on user engagement with a user device
WO2015165112A1 (en) * 2014-04-30 2015-11-05 Pivotal Software, Inc. Validating analytics results
WO2016043609A1 (en) * 2014-09-18 2016-03-24 Empire Technology Development Llc Three-dimensional latent semantic analysis
CN108205553B (zh) * 2016-12-19 2021-12-28 深圳联友科技有限公司 一种基于文本文件的接口处理系统以及方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU607963B2 (en) * 1986-12-04 1991-03-21 Tnet, Inc. Information retrieval system and method
US5210868A (en) * 1989-12-20 1993-05-11 Hitachi Ltd. Database system and matching method between databases
JPH04127370A (ja) * 1990-09-19 1992-04-28 Toshiba Corp 情報収集システム
JP2943447B2 (ja) * 1991-01-30 1999-08-30 三菱電機株式会社 テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
GB9220404D0 (en) * 1992-08-20 1992-11-11 Nat Security Agency Method of identifying,retrieving and sorting documents
US5598557A (en) * 1992-09-22 1997-01-28 Caere Corporation Apparatus and method for retrieving and grouping images representing text files based on the relevance of key words extracted from a selected file to the text files
US5724567A (en) * 1994-04-25 1998-03-03 Apple Computer, Inc. System for directing relevance-ranked data objects to computer users
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
JPH10513587A (ja) * 1995-01-23 1998-12-22 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 情報にアクセスするための方法、システム
US5819260A (en) * 1996-01-22 1998-10-06 Lexis-Nexis Phrase recognition method and apparatus
US5794233A (en) * 1996-04-09 1998-08-11 Rubinstein; Seymour I. Browse by prompted keyword phrases
US5721897A (en) * 1996-04-09 1998-02-24 Rubinstein; Seymour I. Browse by prompted keyword phrases with an improved user interface
US5857184A (en) * 1996-05-03 1999-01-05 Walden Media, Inc. Language and method for creating, organizing, and retrieving data from a database
US5956711A (en) * 1997-01-16 1999-09-21 Walter J. Sullivan, III Database system with restricted keyword list and bi-directional keyword translation
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6055528A (en) * 1997-07-25 2000-04-25 Claritech Corporation Method for cross-linguistic document retrieval

Also Published As

Publication number Publication date
EP1010105A1 (en) 2000-06-21
DE69809263D1 (de) 2002-12-12
AU8876298A (en) 1999-03-22
DE69809263T2 (de) 2003-07-10
EP1010105B1 (en) 2002-11-06
CN1269897A (zh) 2000-10-11
CA2302264C (en) 2009-09-15
US6353827B1 (en) 2002-03-05
JP2001515245A (ja) 2001-09-18
AU742831B2 (en) 2002-01-10
CA2302264A1 (en) 1999-03-11
NZ503279A (en) 2001-07-27
WO1999012108A1 (en) 1999-03-11

Similar Documents

Publication Publication Date Title
JP4274689B2 (ja) データ組を選ぶための方法とシステム
US6289337B1 (en) Method and system for accessing information using keyword clustering and meta-information
US5931907A (en) Software agent for comparing locally accessible keywords with meta-information and having pointers associated with distributed information
JP4241934B2 (ja) テキスト処理及び検索システム及び方法
EP1466273B1 (en) Information data retrieval, where the data is organized in terms, documents and document corpora
EP1678639B1 (en) Systems and methods for search processing using superunits
US20060026113A1 (en) Information nervous system
US20020133483A1 (en) Systems and methods for computer based searching for relevant texts
US7099870B2 (en) Personalized web page
JP2003114906A (ja) ユーザ定義可能なパーソナリティを備えたメタ文書管理システム
JP4428850B2 (ja) 情報検索装置及び情報検索方法
US7483877B2 (en) Dynamic comparison of search systems in a controlled environment
O’Riordan et al. Information filtering and retrieval: An overview
JP2002183175A (ja) テキストマイニング方法
Holowczak Extractors for digital library objects
Davare et al. Text Mining Scientific Data to Extract Relevant Documents and Auto-Summarization
Nogueras-Iso et al. Exploiting disambiguated thesauri for information retrieval in metadata catalogs
Abuzir et al. E-newspaper classification and distribution based on user profiles and thesaurus
MXPA97005582A (en) Methods and / or systems to access information
Watcholder et al. Automatic identification of index terms for interactive browsing
Eskicioğlu A Search Engine for Turkish with Stemming
Bernard et al. Modeling the efficient access of full-text information
Karkaletsis et al. Cross-lingual Information Management from the Web
Şimşek Categorization of web sites in Turkey with SVM
WO2005111789A2 (en) The information nervous system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050602

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080624

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080924

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090203

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090303

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120313

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130313

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140313

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term