JP2002259429A - コンピュータベースの適合テキスト検索システムおよび方法 - Google Patents

コンピュータベースの適合テキスト検索システムおよび方法

Info

Publication number
JP2002259429A
JP2002259429A JP2002007154A JP2002007154A JP2002259429A JP 2002259429 A JP2002259429 A JP 2002259429A JP 2002007154 A JP2002007154 A JP 2002007154A JP 2002007154 A JP2002007154 A JP 2002007154A JP 2002259429 A JP2002259429 A JP 2002259429A
Authority
JP
Japan
Prior art keywords
graph
text
word
query
strength
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002007154A
Other languages
English (en)
Other versions
JP3755134B2 (ja
Inventor
Juergen Klenk
ジュルゲン・クレンク
Dieter Jaepel
ディーター・イェスペル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2002259429A publication Critical patent/JP2002259429A/ja
Application granted granted Critical
Publication of JP3755134B2 publication Critical patent/JP3755134B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Abstract

(57)【要約】 (修正有) 【課題】 ユーザがテキストの集合内で適合情報をより
容易に見つけることができるようにする方式を提供する
こと。 【解決手段】 複数のm個のテキスト(17)を格納す
るデータベース(10)と、該テキスト中から検索照会
(15)と一致するk個のテキスト(11、12、1
3)を特定するための検索エンジン(16)とを含む。
システムはさらに検索照会(15)と一致するk個のテ
キスト(11、12、13)の各テキストの特性記述強
度(C)を計算する計算エンジン(18)を含む。該エ
ンジンは、テキストの語を節点とし、語間の関係がリン
クで表されたグラフを生成し、事前定義された規則のセ
ットに従ってグラフを展開し、語に1つまたは複数のリ
ンクを介して結合された近隣語を判断し、近隣語のトポ
ロジ構造に基づいて特性記述強度(C)を計算する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンピュータベー
スのテキスト検索のためのシステムおよび方法に関し、
より詳細には、データベースから検索照会に関連すると
見なされるテキストの検索を可能にするシステムおよび
方法に関する。
【0002】
【従来の技術】現在、発行されている電子文書の数は増
大する一方である。その一例として、情報検索が困難に
なっている。検索エンジンは一般に、ユーザが対処でき
ないほどの多くの結果を示すが、検索エンジンによって
関連があると判断されたすべての文書に目を通すことは
不可能である。検索結果を簡約化して提示したり、関心
のある情報を含む可能性が高い文書のみを提示すれば、
きわめて有用である。
【0003】キーワード・コレクタを使用する方式が知
られている。この種の方式は、語の強調や文書内の場所
(すなわち、最上部にある語をより重視する)などを考
慮に入れる。文書中の語の統計的出現率、語の対や名詞
句を使用して統計学的重み(点数)を計算することがで
きる。文書の内容を計算するには、TFIDF(termfr
equency times inverse document frequency)と呼ばれ
る単純なキーワード出現頻度指標を使用することができ
る。この公知の技法は、ある文書中では比較的よく使わ
れるキーワードであるが一般には比較的まれなキーワー
ドは、その文書の内容を示す有効な標識であるという考
えに基づいている。この発見的手法は、あまり信頼性は
高くないが、計算は迅速である。
【0004】検索結果の提示を改善することができるよ
うに、精度を定義する手法がある。この精度は、検索に
よって取り出された適合する文書の数を、取り出された
文書の総数で割った値と定義される。通常、再現率と呼
ばれるもう一つのパラメータも求められる。
【0005】さらに高度な技法もある。たとえば、ユー
ザがページを明示的に評価する手法である。システム
が、見込みがありそうなリンクを自動的にマークするこ
とができる。
【0006】他の高度な技法では、ユーザにとって関心
のない情報と関心のある可能性が高い情報とを区別する
ことができるように、(たとえばユーザの選好を記録す
ることによって)ユーザを監視する。
【0007】このようなあらゆる手法にもかかわらず、
対象となる情報を含む1つの文書または1組の文書を見
つけようとする場合、インターネット内やインターネッ
トの1つのサイト内を見て回るのは厄介である。
【0008】
【発明が解決しようとする課題】本発明の目的は、ユー
ザがテキストの集合内で適合する情報をより容易に見つ
けることができるようにする方式を提供することであ
る。
【0009】本発明の他の目的は、ユーザがテキストの
集合内またはテキストの小区分内で、ユーザが探索する
語、センテンス、またはテキストに関連するテキスト
を、ユーザが探し出すのを支援するシステムを提供する
ことである。
【0010】
【課題を解決するための手段】本発明によると、データ
ベースに記憶されたテキストが照会をどの程度よく記述
しているかを示す特性記述強度を自動的に判断する方法
であって、照会語を含む照会を定義するステップと、テ
キストの語が節点によって表され、語の間の関係がリン
クによって表された、節点とリンクとを備えたグラフを
作成するステップと、事前定義された規則のセットに従
ってグラフを展開するステップと、照会語への1つまた
は複数のリンクによって結合された節点を含む、照会語
の近隣語を判断するステップと、近隣語に基づいて特性
記述強度を計算するステップとを含む方法が提供され
る。
【0011】本発明を他の面から見ると、データベース
に記憶されたテキストが検索照会をどの程度よく記述し
ているかを示す特性記述強度を自動的に判断するシステ
ムであって、複数のm個のテキストを格納するデータベ
ースと、複数のm個のテキストから検索照会と一致する
k個のテキストを特定するために検索照会を処理する検
索エンジンと、テキストの語が節点によって表され、語
間の関係がリンクで表された、節点とリンクとを備える
グラフを生成し、事前定義された規則のセットに従って
グラフを展開し、語に1つまたは複数のリンクを介して
結合された節点を含む、語の近隣語を判断し、近隣語の
トポロジ構造に基づいて特性記述強度を計算することに
よって、検索照会と一致するk個のテキストの各テキス
トの特性記述強度を計算する計算エンジンとを含むシス
テムが提供される。
【0012】本発明を他の面から見ると、データベース
内のテキストが照会をどの程度よく記述しているかを示
す特性記述強度を自動的に判断するソフトウェア・モジ
ュールであって、プログラム可能データ処理システムに
よって実行されると、語を含む照会をユーザが定義する
ことができるようにするステップと、テキストの語が節
点によって表され、語の間の関係がリンクによって表さ
れた、節点とリンクとを備えたグラフを作成するステッ
プと、事前定義された規則のセットに従ってグラフを展
開するステップと、近隣語が語に1つまたは少数のリン
クを介して結合された節点を含む、語の近隣語を判断す
るステップと、近隣語のトポロジ構造に基づいて特性記
述強度を計算するステップとを実行するソフトウェア・
モジュールが提供される。
【0013】本発明の方式は、ユーザが対象となる情報
を実際に含む文書を検索することができ、したがって
「誤った」リンクをたどって無用な文書に到達する可能
性が低いシステムを実現するのに有効である。本明細書
に記載のシステムは、関連する文書の示唆のみを示すよ
うにする。
【0014】本発明の一態様によると、情報検索システ
ム、方法、および様々なソフトウェア・モジュールが、
各文書の特性記述強度を考慮に入れて文書の特別な評価
を行うことによって、文書データベースからの改良され
た情報検索を実現する。
【0015】本発明によると、ユーザの意図および必要
を把握することができる検索エンジン、検索エージェン
ト、およびウェブ・サービスを実現することができる。
【0016】本発明は、情報検索一般に使用することが
でき、特に情報の検索と呼出しに使用することができ
る。
【0017】本発明の利点は、文書データベース内でユ
ーザの照会を正確に満足させる文書が取出しのために提
供されることである。
【0018】
【発明の実施の形態】文書の特性記述強度Cは、当該文
書がユーザの情報の必要をどの程度満たしているかを示
す抽象的な指標である。システムはユーザにとって関係
のある文書のみを取り出すのが理想的である。しかし残
念ながら、これは主観的概念であって、定量化するのは
困難である。本明細書では、特性記述強度Cとは、文書
の適合度を示す信頼性の高い指標であり、自動的に再現
性をもって求めることができる。
【0019】テキストとは、ユーザが取り出したい1つ
の情報である。これは、テキスト・ファイル、wwwペ
ージ、ニューズグループの掲示、文書、または本などか
らのセンテンスであってもよい。テキストは、ユーザの
コンピュータ・システム内、またはサーバ・システムに
記憶することができる。テキストは、インターネット内
の場所など、分散環境でも記憶することができる。
【0020】ユーザが所望の情報を見つけることができ
るためには、電子テキストの集まり(たとえば適切なデ
ータベース)が使用可能であることが望ましいであろ
う。ユーザが質問を出したり、検索照会を定義したりす
ることができるようにするインタフェースが必要であ
る。このためには標準インタフェースを使用することが
できる。
【0021】照会とは、ユーザが求める情報を特徴づけ
る語または語のストリングである。照会は人間が読める
照会である必要はないことに留意されたい。
【0022】本発明の第1の実施態様について、一例を
示しながら以下に説明する。詳細を図1に示す。m個の
テキスト17の集合を含むデータベース10がある。こ
の例では、ユーザは「agent」という語に関する情報を
探索している。そのために、ユーザは、単に語「agen
t」を含む照会15を作成する。ユーザは、コンピュー
タ画面上に表示される(たとえばブラウザ内の)検索イ
ンタフェースを使用してこの照会を作成する。
【0023】本発明の好ましい実施形態では、データベ
ース10内で語「agent」を含むすべてのテキスト17
を見つけることができる検索エンジン16を使用する。
このためには従来の検索エンジンを使用することができ
る。検索エンジン16は、ユーザのコンピュータ内また
はサーバに配置することができる。ボックス14に示す
ように、語「agent」を含む3つのテキスト11、1
2、および13(k=3)がある。もっとも適合性の高
い1つまたは複数のテキストを見つけるために、追加の
ステップのシーケンスで各テキストの特性記述強度Cを
求める。このために、計算エンジン18を使用する。こ
の計算エンジン18は、ボックス19に示す形式で結果
を出力することができる。この出力ボックス19では、
3つのテキスト11〜13のそれぞれに特性記述強度C
1が与えられている。
【0024】このステップのシーケンスは、計算エンジ
ン18によって図2のフローチャートに示すように行わ
れる。次のステップのシーケンスは、語「agent」を含
むと特定された各テキスト11〜13について行われ
る。
【0025】第1のステップ20で、1つのテキスト
(たとえばテキスト11)を取り出す。次に(ステップ
21)、テキストの語と語の関係、たとえば語「agen
t」とテキストの他の語との関係を示す仮想ネットワー
ク(本明細書ではグラフと呼ぶ)を作成する。テキスト
の語は、ネットワーク要素(節点)によって表され、語
と語の関係はリンク(エッジ)によって表される。2つ
の語が1本のリンクによって連結されている場合、その
2語の間には密接な関係があるとみなされる。2語がリ
ンク2本以上離れている場合、密接な関係はない。この
ようなネットワークを生成するために、パーサを使用す
ることができる。英語スロット文法(ESG)パーサが
適している。あるいは、本発明の他の実施形態と共に説
明するように、ネットワーク・ジェネレータによって生
成される自己編成グラフを使用することもできる。
【0026】次のステップ22で、このグラフを展開す
る。グラフは、たとえばその複雑度を簡約することによ
って展開することができる。これは、特定の語およびリ
ンクを削除するか、特定の語を置き換えるか、またはそ
の両方によって行うことができる。このステップでは、
グラフ全体を再編成することもできる。これは、事前定
義された規則のセットに従って行う。
【0027】次に、近傍のトポロジ構造に基づいて特性
記述強度(C)を計算する。語「agent」の直接近隣語
の数を求める(ステップ23)。直接近隣語とは、語
「agent」に1本のリンクで結合されている近隣語であ
る。直接近隣語の数は、語「agent」に1本のリンクで
結合された近隣語(第1近隣語)の数を計算することに
よって求める。直接近隣語の数を数えることで、グラフ
のトポロジ構造を判断することができる。後述するよう
に、グラフのトポロジ構造を判断する方法はほかにもあ
る。
【0028】次に、直接近隣語の数に基づいてそれぞれ
のテキストの特性記述強度C1を計算する(ステップ2
4)。
【0029】特性記述強度C1を求めた後、以降の処理
に使用することができるようにその結果を出力する(ス
テップ25)。特性記述強度C1は、たとえば他のアプ
リケーションが取り出したり、表示画面上に表示するこ
とができるように処理したりすることができる。
【0030】以上のステップ20〜25の全部または一
部を、語「agent」を含むと特定されたk個のテキスト
11〜13すべてについて繰り返すことができる。これ
らのステップの繰り返しをループ26によって略示す
る。
【0031】テキスト11を表1に示す。
【表1】
【0032】テキスト11は4つのセンテンスを含む。
ステップ21に従い、英語スロット文法パーサを使用し
て各センテンスごとに木構造のグラフ30を生成する。
第1のセンテンス・グラフ30を図3に示す。このグラ
フ30は、(ボックスで表された)節点と(ボックス間
を結ぶリンクで表された)リンクとを含む。この例で
は、第1のセンテンスは12語を含むため、パーサは1
2個の節点を持つ木構造グラフ30を生成する。語「ag
ent」は、この第1のセンテンス中に1回のみ出現す
る。本動詞「offer」がこの木構造グラフ30の根を形
成している。
【0033】図4に、第2のセンテンス・グラフ31を
示す。このセンテンスでは語「agent」が2回使われて
いる。本動詞「say」が木構造グラフ31の根を形成し
ている。
【0034】図5に、第3のセンテンス・グラフ32を
示す。語「agent」が1回だけ使われている。本動詞「m
ay」がこの木構造グラフ32の根を形成している。
【0035】図6に、第4のセンテンス・グラフ33を
示す。語「agent」が1回出現している。本動詞「be」
がこの木構造グラフ33の根を形成している。
【0036】次のステップ22で、グラフ30〜33の
複雑さを簡約することによってグラフを展開する。これ
は、事前定義された規則のセットに従って、特定の語お
よびリンクの除去、特定の語の置き換え、あるいはその
両方によって行う。この例では、少なくとも以下の3つ
の規則を使用する。 1.名詞と動詞のみを残し、 2.助動詞を本動詞に置き換え、 3.動詞がシーケンスから成る場合は動詞群を作成す
る。
【0037】上記の3つの規則を図3のグラフ30に適
用すると、5つの節点40〜44を含むグラフ30’が
生成される。このグラフ30’を図7に示す。ネットワ
ーク30から、「I」、「a」、「of」、「can」、「w
e」、「all」、「probably」、「on」の各語が除去され
ている。グラフ30’をさらに展開する準備として、第
1のセンテンスの主語を特定する。テキスト11の第1
のセンテンスには主語がないため、空の主語ボックス4
4が生成される。
【0038】同じ規則1.〜3.のセットを第2のセン
テンスに適用すると、図8に示すような単純化されたグ
ラフ31’が得られる。第2のセンテンスにも主語がな
いため、空の主語ボックス45が生成される。
【0039】同じ手法を使用して、図9に示すような単
純化されたグラフ32’を得る。第3のセンテンスで主
語として語「agent」46が特定される。ボックス46
に識別子SUBを付与することによってこの主語をマー
クする。
【0040】単純化されたグラフ33’を図10に示
す。このセンテンスの主語47も語「agent」である。
【0041】追加の事前定義された規則のセットに従っ
て、グラフ30’〜33’の複雑さをさらに簡約する。
この例では、以下の追加の規則を使用する。 4.動詞を除去し、 5.(本動詞の代わりに)主語を根に配置する。
【0042】上記の規則4.および5.を適用すると、
図11ないし図14に示すようなグラフ30”、3
1”、32”、および33”が得られる。
【0043】次に、各グラフ30”、31”、32”、
および33”について、語「agent」の直接近隣語の数
を求める(ステップ23)。直接近隣語の数を図11な
いし図14に示す。第1のセンテンスのグラフ30”で
は、語「agent」42には1個の直接近隣語41しかな
い(図11参照))。第2のセンテンスのグラフ31”
では、2つの語「agent」48および49には、直接近
隣語がない(図12参照)。空の主語節点45は近隣語
に数えられないことに留意されたい。第3のセンテンス
のグラフ32”では、語「agent」46には2つの直接
近隣語50および51がある(図13参照)。第4のセ
ンテンスのグラフ33”では、語「agent」47には2
つの直接近隣語52および53がある。
【0044】後で他の実施形態と共に述べるように、任
意選択のステップで第2の近隣語を求めることもできる
(図16参照)。簡単にするために、図11ないし図1
4には第2の近隣語の数も示してある。
【0045】特性記述強度Cの計算を、図15に略図で
示す。表60の第1列64に、テキスト11の4つのセ
ンテンスのそれぞれの直接近隣語の数を示す。列内のす
べての数の合計を行62に示す。語「agent」の直接近
隣語のみを考慮に入れた特性記述強度C1を、行63に
示す。この例では、特性記述強度C1は、列64内のす
べての結果の平均である。より一般的に示すと、特性記
述強度は以下のようにして計算される。 C1=(cs1+cs2+cs3+...+cs(n-1)+csn)
/n 上式で、nは所与のテキスト中のセンテンスの数、cs
iはi番目のセンテンスの直接近隣語の数であり、i=
1、2、...nである。この例では、テキスト11の
特性記述強度C1は以下のように求められる。 C1=(1+0+2+2)/4=1.25
【0046】テキストの特性記述強度C1は、他のアル
ゴリズムを使用して求めることもできることに留意され
たい。
【0047】本発明の好都合な実施態様を、図16のフ
ローチャートで示す。第1の例と同様、ユーザは語「ag
ent」をよく記述しているテキストを探索している。語
「agent」を含むと特定されたk個のテキスト11〜1
3のそれぞれについて以下のステップのシーケンスを行
う。
【0048】第1のステップ70で、1つのテキスト
(たとえばテキスト11)を取り出す。次に(ステップ
71)、グラフを生成する。このようなグラフを生成す
るためには、パーサ(たとえばESGパーサ)を使用す
ることができる。
【0049】次のステップ72で、グラフ30〜33を
展開する。これは、事前定義された規則のセットに従っ
て行う。この例でも、規則1.〜5.を使用する。グラ
フ30〜33をさらに展開するために、ステップ73を
行う。このステップでは、(本動詞ではなく)主語を中
心に置くことによってグラフの中心を規定する。木構造
グラフで、根を中心として定義する。
【0050】語「agent」に1本のリンクで結合された
近隣語(第1の近隣語)の数をカウントすることによっ
て、直接近隣語の数を求める(ステップ74)。
【0051】任意選択のステップ75で、語「agent」
の第2の近隣語も求める。第2の近隣語は、語「agen
t」に2本のリンクで結合された語である。この語とど
の第2の近隣語との間にも常に直接近隣語があることに
留意されたい。
【0052】次に、直接近隣語と第2の近隣語の数に基
づいて、それぞれのテキストの特性記述強度C2を計算
する(ステップ76)。
【0053】特性記述強度C2を求めた後、さらに処理
するために使用することができるように、その結果を出
力する(ステップ77)。次に、語「agent」を含むと
特定されたすべてのテキスト11〜13について上記の
ステップ70〜77の一部または全部を繰り返すことが
できる。これらのステップの繰り返しをループ78で略
示する。
【0054】特性記述強度C2の計算を図15に略示す
る。表60の2番目の列61に、テキスト11の4つの
センテンスのそれぞれについて、直接近隣語数に第2の
近隣語の数を加えた数を示す。1列のすべての数値の合
計を、行62に示す。語「agent」の直接近隣語と第2
の近隣語を考慮に入れた特性記述強度C2を行63に示
す。この例では、特性記述強度C2は、列61のすべて
の結果の平均である。より一般的に示すと、特性記述強
度は以下のように計算される。 C2=(^cs1+^cs2+^cs3+...+^cs(n-1)
+^csn)/n 上式で、nは所与のテキスト中のセンテンスの数、^c
siはn番目のセンテンスの直接近隣語に第2の近隣語を
加えた数であり、i=1、2、...nである。この例
では、テキスト11の特性記述強度C2は以下のように
計算される。 C2=(1+5+3+5)/4=3.5
【0055】テキストの特性記述強度C2は、他のアル
ゴリズムを使用して求めることもできることに留意され
たい。テキスト12を表2に示す。
【表2】
【0056】第1の実施形態による前述の規則のセット
とステップ(図2参照)に従うと、以下のように特性記
述強度C1を求めることができる。 C1=(0+0+0+1)/4=1/4=0.25 C2は以下のように求められる。 C2=(0+0+0+2)/4=2/4=0.5
【0057】テキスト13を表3に示す。
【表3】
【0058】第1の実施形態による前述の規則のセット
とステップ(図2参照)に従うと、特性記述強度C1を
以下のように求めることができる。 C1=(2+0+0+0)/4=1/2=0.5 C2は以下のように求められる。 C2=(5+0+0+0)/4=5/4=1.25
【0059】これら3つのテキスト11、12、および
13のすべての結果を比較すると、テキスト11のC1
が1.25であるため、最も適合性が高いという結論を
導き出すことができる。
【表4】
【0060】C1の代わりにC2を使用すると、結果は
さらに明白になる。テキスト11は、語「agent」を最
もよく特性記述しているテキストであることが明らかで
ある。次に適合度が高いのはテキスト13である。した
がって、計算エンジン18(図1参照)は、3つのテキ
スト11、12、および13のすべてが特性記述強度C
1に従って順序づけられた出力ボックス19を出力する
ことができる。これと同じ評価をC2の結果を使用して
行うことができる。これでユーザは、出力ボックス19
内のhttpリンクの1つをクリックすることによっ
て、それぞれのテキストを取り出すことができる。これ
らのリンクを下線で示す。
【0061】本発明の他の実施形態では、意味ネットワ
ーク・ジェネレータ(意味プロセッサとも呼ぶ)を使用
する。この意味ネットワーク・ジェネレータは、検索照
会を処理するときに検索エンジンによって返される各テ
キストのグラフを生成する。意味ネットワーク・ジェネ
レータの詳細は、現在本特許出願の譲受人に譲渡されて
いる同時係属特許出願EP962873−A1号に記載
されている。この同時係属特許出願は、1999年12
月8日に公開された。意味ネットワーク・ジェネレータ
は、フラクタル階層構造を有するグラフを作成する。こ
のグラフは意味単位とポインタを含む。上記公開EP特
許出願によると、ポインタは重みを持つことができ、重
みは隣接意味単位間の意味論上の距離を表す。
【0062】本発明によると、意味ネットワーク・ジェ
ネレータによって生成されるこのようなグラフは、規則
のセットを適用することによって展開することができ
る。たとえば、特定のしきい値を超えるかまたは下回る
照会によって与えられた語を基準にした意味論的距離を
有するすべてのポインタおよび意味単位を除去すること
ができる。言い換えると、ユーザが照会でリストした語
の近隣語のみがグラフ内に残される。他のすべての意味
単位およびポインタは、それぞれのテキストの特性記述
強度を求める際に考慮されない。前記2つの実施形態に
関して前述した規則の一部または全部を同様に使用する
ことができる。また、特性記述強度(C1またはC2あ
るいはその両方)を求める前に、自己編成グラフを使用
して複雑さを少なくすることもできる。このような自己
編成グラフについては、1999年2月11日出願の同
時係属特許出願PCT/IB99/00231号および
1999年2月25日出願のドイツ国特許出願DE19
908204.9号に記載されている。
【0063】図19および図20を参照しながら、他の
実施形態について説明する。上記の特許出願EP962
873−A1号にに記載されているものと同様の意味ネ
ットワーク・ジェネレータを使用してグラフを生成する
ことができる。再びテキスト11を参照すると、このよ
うなネットワーク・ジェネレータは、テキスト11中の
各センテンスに1つずつ、4つの別々のグラフを生成す
るか(第1の手法)、またはテキスト11全体の1つの
共通のグラフを生成する(第2の手法)ように作成され
る。別々のグラフを生成する場合、それらのグラフを後
のステップで組み合わせて1つの共通のグラフにする。
これは、各センテンス中の同一の語を特定し、それらの
同一の語を介してグラフを結合(マップ)することによ
って行うことができる。
【0064】第2の手法の結果を図19に示す。この共
通のグラフ100は、意味単位102〜124を含む。
このグラフ100は、特定に規則を使用することによっ
て自動的に展開することができる。たとえば、グラフ1
00の意味単位を関係づけることでこのプロセスを開始
することができる。この例では、テキスト11のすべて
のセンテンスが同じ人物(作者または話者)によって書
かれているため、2つの主語{}SUB1109と{}
SUB2110とが同じであるものとみなす。したがっ
て、図20に示すように、2つのボックス109と11
0を結合して共通のボックス{}SUB125とするこ
とができる。グラフ100の構造は、言語または文法あ
るいはその両方の規則を使用してさらに展開することが
できる。グラフ100を展開する際に、システムは、テ
キスト11の2番目のセンテンスのように、類比による
定義が事柄を記述するのにきわめてよく使用されること
を考慮に入れることができる。このことを、図20に示
すグラフ101で表す。グラフ101で、「processo
r」111と「spreadsheet」113の2つの類比が、語
「agent」102と同じ階層にある。システムはさら
に、2回(ボックス122および124)現れる語「hu
man」が同じ人間を指すものとみなす。したがって、図
20の左側に示すように、語「human」のこの2つのイ
ンスタンス122および124を結合することができ
る。その結果がボックス126に図示されている。同じ
理由で、語「action」(ボックス118および119)
も結合することができる。その結果がボックス127に
図示されている。
【0065】本発明によると、節点またはリンクあるい
はその両方の除去、節点またはリンクあるいはその両方
の追加、節点またはリンクあるいはその両方の置き換
え、および節点またはリンクあるいはその両方の融合に
よってグラフを展開することができる。これは、事前定
義された規則のセットに従って行われる。これらは、グ
ラフを結合し、事前定義規則に従って展開する方法の例
の一部に過ぎないことに留意されたい。規則は、グラフ
の近似度を使用してグラフを一致させることができるよ
うに定義される。グラフを展開する操作の詳細は、「Me
aning Understanding by Means of Local Pervasive In
telligence」という名称の同時係属特許出願CH9−2
000−0036号で扱っている。
【0066】テキストの各センテンスのグラフ(センテ
ンス・グラフ)を展開してからそれらを結合して1つの
共通グラフにするか、または各センテンスのグラフ(セ
ンテンス・グラフ)を結合して1つの共通グラフにして
からその共通グラフを展開することができる。本発明に
よると、グラフは同一インスタンス(節点)の融合によ
って結合することができる。言い換えると、2つの同一
節点を結合して単一の節点にする。
【0067】本発明の改良された実施態様では、照会の
拡張を行う。このような照会拡張によって、ユーザによ
ってキー入力された照会から改良された照会を作成する
ことができる。これは、他の文書から用語を追加するこ
とによって、または照会中の用語の(シソーラスにある
ような)同義語を追加することによって作成することが
できる。
【0068】他の実施形態では、木構造グラフではなく
網状のグラフを生成するパーサを使用する。意味グラフ
・ジェネレータは、網状グラフを生成するこのようなパ
ーサの一例である。
【0069】本発明の特徴付け方式は、テキストを適合
性に従って分類する他の方式と共に使用することもでき
る。たとえば、文書の特性記述強度Cを、TFIDなど
の他の抽象手段と組み合わせることができる。これは、
ユーザにさらに有用な手がかりを与える。
【0070】本発明を実施する方法は様々ある。本発明
はクライアント・システム、サーバ・システム、または
クライアントとサーバにわたる分散方式で実現すること
ができる。本発明は、汎用コンピュータまたは特殊目的
コンピュータによって、あるいは汎用コンピュータ上ま
たは特殊目的コンピュータ上で実施することができる。
【0071】本明細書の文脈におけるコンピュータ・プ
ログラムとは、情報処理機能を備えた装置に特定の機能
を実行させることを意図した命令のセットを表した任意
の言語、コード、または表記の表現を意味する。
【0072】図17に第1の例を示す。この例では、ク
ライアント・システム80は、図1について前述したす
べての要素10〜18を含む。ユーザが照会をキー入力
するために使用することができるキーボード81があ
る。結果は、クライアント・システム80によって、表
示画面82上に表示することができるように処理され
る。
【0073】本発明のクライアント−サーバ実施態様を
図18に示す。図に示すように、コンピュータ・システ
ム93とキーボード91と表示装置92とを含むクライ
アント・コンピュータがある。このクライアント・コン
ピュータは、ネットワーク94(たとえばインターネッ
ト)を介してサーバ90に接続する。このサーバ90
は、要素10〜18を含む。照会はサーバによって処理
され、サーバによって特性記述強度Cが計算される。こ
の実施形態では、結果はネットワーク94を介してクラ
イアント・コンピュータに送ることができる方式で出力
される。同様に、結果は、クライアント・コンピュータ
がサーバ90から取り出すことができる。結果は、クラ
イアント・コンピュータによって、表示装置92上に表
示することができるように処理される。ユーザが表示装
置92上のテキストの1つを選択すると、それに対応す
るフルテキストが、サーバ側にあるデータベース10か
ら取り出される。データベース10は、第3のコンピュ
ータ上にあってもよく、文書17は複数のコンピュータ
に分散していてもよい。本発明の範囲に入る変形態様を
いくつか挙げると、検索エンジンも他のコンピュータ上
にあってもよい。
【0074】テキストの特性記述強度を計算する多くの
異なる方法があることに留意されたい。基本概念は、グ
ラフを展開した後に、トポロジ的不変量を計算すること
である。言い換えると、特性記述強度(C)は、近隣語
のトポロジ構造に基づいて計算される。グラフのトポロ
ジ的不変量を求める方法は様々ある。たとえば、距離、
グラフの次元、または接続構成要素を求めることができ
る。また、節点間の距離を定義するためのグラフ上の測
定基準を定義することも考えられる。グラフの節点は、
それに関連づけられたトポロジ・テーブルも有すること
ができ、トポロジ・テーブルでは近隣語の構造が定義さ
れている。これらの両方を使用して、最も近い近隣語の
カウントなど、トポロジ的不変量を求めることもでき
る。
【0075】上記の各実施形態に関して前述したよう
に、特性記述強度(C)を判断するために、第1の近隣
語(第1の実施形態参照)または第1および第2の近隣
語(図16参照)をカウントすることができる。
【0076】近隣語をカウントする代わりに、または近
隣語のカウントに加えて、グラフ101から語「agen
t」102とその語の周囲のリンクを除去して、図21
に示すようにグラフ101を分解することもできる。語
「agent」102とその語の周囲のリンクを除去するこ
とによって、5つの別々のサブグラフ130、131、
132、133、および134を得る。最大のサブグラ
フの節点の数をカウントすることによって、特性記述強
度(C)を判断することができる。この例では、最大の
サブグラフはグラフ130である。このグラフには14
個の節点がある。この例では、特性記述強度(C)は1
4になる。
【0077】最大サブグラフの単なる節点数を使用する
代わりに、すべてのサブグラフ130、131、13
2、133、および134の節点数をサブグラフの数で
割った平均を求めることができる。この結果、C=(1
4+1+2+1+1)/5=3.8となる。
【0078】他の手法は、語「agent」102を他の節
点と結ぶリンクの数を求めることである。この場合も図
20の例を使用すると、結果はC=6となる。
【0079】また、1節点当たりのリンク数を分析する
ことによって特性記述強度(C)を判断することもでき
る。グラフ内のリンク数が多いほど、そのグラフが語
「agent」102を完全に記述している可能性が高い。
【0080】特性記述強度(C)の実際の定義に応じ
て、Cの値は0と無限大の間の特定の範囲内で変わるこ
とがある。たとえば、Cは下限(たとえば0)と上限
(たとえば100)の間で変化するように標準化するこ
とができる。
【0081】わかりやすいように別々の実施形態の文脈
で説明した本発明の様々な特徴は、単一の実施形態で組
み合わせて備えることもできることがわかる。逆に、わ
かりやすいように単一の実施形態の文脈で説明した本発
明の様々な特徴は、別々に備えたり、どのような個別の
組合せでも備えることができる。
【0082】まとめとして、本発明の構成に関して以下
の事項を開示する。
【0083】(1)データベース(10)に記憶された
テキスト(11)が照会(15)をどの程度よく記述し
ているかを示す特性記述強度(C)を自動的に判断する
方法であって、 a)照会語を含む照会(15)を定義するステップと、 b)前記テキスト(11)の語が節点によって表され、
前記語の間の関係がリンクによって表された、節点とリ
ンクとを備えたグラフ(30)を作成するステップ(7
1)と、 c)事前定義された規則のセットに従って前記グラフ
(30)を展開するステップ(72)と、 d)前記照会語への1つまたは複数のリンクによって結
合された節点を含む、前記照会語の近隣語を判断するス
テップと、 e)前記近隣語に基づいて前記特性記述強度(C)を計
算するステップとを含む方法。 (2)特性記述強度(C)が、ステップe)で前記照会
語の直接の近隣語の数をカウントすることによって計算
され、直接の近隣語が前記照会語に1つのリンクで結合
された語である、上記(1)に記載の方法。 (3)前記データベース(10)が複数のテキスト(1
7)を格納する、上記(1)に記載の方法。 (4)前記データベース(10)内で前記照会語を含む
テキスト(11、12、13)を見つけるための検索を
行うステップを含む、上記(1)に記載の方法。 (5)前記照会語を含む各テキスト(11、12、1
3)について前記ステップb)ないしe)を繰り返す、
上記(4)に記載の方法。 (6)前記語を含む各テキスト(11、12、13)の
特性記述強度(C)を示すリスト(82)を表示するス
テップを含む、上記(5)に記載の方法。 (7)ステップb)でパーサを使用して前記グラフを生
成する、上記(1)ないし(6)のいずれか一項に記載
の方法。 (8)ステップb)で意味ネットワーク・ジェネレータ
を使用して前記グラフ(30)を生成する、上記(1)
ないし(6)のいずれか一項に記載の方法。 (9)前記テキスト内の各センテンスについて1つのグ
ラフを生成し、ステップb)ないしe)を実行すること
によって各センテンスについて特性記述強度(C)を計
算する、上記(1)ないし(3)のいずれか一項に記載
の方法。 (10)前記テキストの前記特性記述強度(C)がそれ
ぞれの前記テキストのすべてのセンテンスの特性記述強
度(C)に基づいて計算される、上記(9)に記載の方
法。 (11)前記グラフがステップc)で前記テキストから
名詞または動詞あるいはその両方ではない語を除去する
ことによって展開される、上記(1)ないし(3)のい
ずれか一項に記載の方法。 (12)前記グラフがステップc)で助動詞を本動詞に
置き換えることによって展開される、上記(1)ないし
(3)のいずれか一項に記載の方法。 (13)前記グラフがステップc)で動詞を除外するこ
とによって展開される、上記(1)ないし(3)のいず
れか一項に記載の方法。 (14)ステップd)を行う前に、前記グラフ内で前記
センテンスの主語を特定して中心に置き、前記主語が根
にある木状のグラフ構造を生成する、上記(1)ないし
(3)のいずれか一項に記載の方法。 (15)第2の近隣語が前記照会語に2つのリンクを介
して結合された語である、前記照会語の第2の近隣語の
数を求めるステップを含む、上記(2)に記載の方法。 (16)前記テキストの前記特性記述強度(C)が、そ
れぞれの前記テキストのすべてのセンテンスの特性記述
強度(C)を加算し、次に前記ステップの結果をセンテ
ンスの数で割ることによって計算された平均である、上
記(2)または(15)に記載の方法。 (17)データベース(10)に記憶されたテキスト
(17)が照会(15)をどの程度よく記述しているか
を示す特性記述強度(C)を自動的に判断するシステム
であって、複数のm個のテキスト(17)を格納するデ
ータベース(10)と、前記複数のm個のテキスト(1
7)から検索照会(15)と一致するk個のテキスト
(11、12、13)を特定するために前記検索照会
(15)を処理する検索エンジン(16)と、前記テキ
ストの語が節点によって表され、語間の関係がリンクで
表された、節点とリンクとを備えるグラフを生成し、事
前定義された規則のセットに従って前記グラフを展開
し、前記語に1つまたは複数のリンクを介して結合され
た節点を含む、前記語の近隣語を判断し、前記近隣語の
トポロジ構造に基づいて前記特性記述強度(C)を計算
することによって、前記検索照会(15)と一致する前
記k個のテキスト(11、12、13)の各テキストの
特性記述強度(C)を計算する計算エンジン(18)と
を含むシステム。 (18)前記データベース(11)がネットワーク(9
4)を介してクライアント・システム(91、92、9
3)に接続されたサーバ(90)内に格納された、上記
(17)に記載のシステム。 (19)前記グラフを生成するパーサを含む、上記(1
7)に記載のシステム。 (20)前記グラフを生成する意味ネットワーク・ジェ
ネレータを含む、上記(17)に記載のシステム。 (21)前記計算エンジンが、前記語に1つのリンクを
介して結合された語である前記語の直接の近隣語の数を
カウントすることによって前記特性記述強度(C)を計
算する、上記(17)に記載のシステム。 (22)上記(17)ないし(21)のいずれか一項に
記載のシステムを含む情報検索システム。 (23)上記(17)ないし(21)のいずれか一項に
記載のシステムを含むサーバ・コンピュータ・システ
ム。 (24)上記(17)ないし(21)のいずれか一項に
記載のシステムを含むクライアント・コンピュータ・シ
ステム。 (25)データベース内のテキストが照会をどの程度よ
く記述しているかを示す特性記述強度(C)を自動的に
判断するソフトウェア・モジュールであって、プログラ
ム可能データ処理システムによって実行されると、 a)語を含む照会(15)をユーザが定義することがで
きるようにするステップと、 b)前記テキスト(17)の語が節点によって表され、
前記語の間の関係がリンクによって表された、節点とリ
ンクとを備えたグラフ(30)を作成するステップ(7
1)と、 c)事前定義された規則のセットに従って前記グラフ
(30)を展開するステップ(72)と、 d)近隣語が前記語に1つまたは少数のリンクを介して
結合された節点を含む、前記語の近隣語を判断するステ
ップと、 e)前記近隣語のトポロジ構造に基づいて前記特性記述
強度(C)を計算するステップと、 f)前記特性記述強度(C)を表示するステップとを実
行するソフトウェア・モジュール。 (26)複数のテキスト(17)の中で前記照会と一致
するテキスト(11、12、13)を特定する検索エン
ジン(16)を含む、上記(25)に記載のソフトウェ
ア・モジュール。
【図面の簡単な説明】
【図1】本発明による一実施形態を示す略ブロック図で
ある。
【図2】本発明の一実施形態による略フローチャートで
ある。
【図3】本発明の一実施形態により作成された第1のグ
ラフである。
【図4】本発明の一実施形態により作成された第2のグ
ラフである。
【図5】本発明の一実施形態により作成された第3のグ
ラフである。
【図6】本発明の一実施形態により作成された第4のグ
ラフである。
【図7】グラフを展開した後の本発明の一実施形態によ
る第1のグラフである。
【図8】グラフを展開した後の本発明の一実施形態によ
る第2のグラフである。
【図9】グラフを展開した後の本発明の一実施形態によ
る第3のグラフである。
【図10】グラフを展開した後の本発明の一実施形態に
よる第4のグラフである。
【図11】グラフをさらに展開した後の本発明の一実施
形態による第1のグラフである。
【図12】グラフをさらに展開した後の本発明の一実施
形態による第2のグラフである。
【図13】グラフをさらに展開した後の本発明の一実施
形態による第3のグラフである。
【図14】グラフをさらに展開した後の本発明の一実施
形態による第4のグラフである。
【図15】特性記述強度の計算方法を例示するために使
用する、本発明の一実施形態による概略表である。
【図16】本発明の他の実施形態による略フローチャー
トである。
【図17】本発明による他の実施形態を示す略ブロック
図である。
【図18】本発明による他の実施形態を示す略ブロック
図である。
【図19】本発明の一実施形態による他のグラフであ
る。
【図20】グラフを展開した後の図19のグラフを示す
図である。
【図21】グラフから語「agent」を除去した後の図2
0のグラフである。
【符号の説明】
10 データベース 11 テキスト 15 照会 16 検索エンジン 17 テキスト 18 計算エンジン 80 クライアント・システム 81 キーボード 82 表示画面 90 サーバ 91 キーボード 92 表示装置 93 コンピュータ・システム 94 ネットワーク
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジュルゲン・クレンク スイス アドリスヴィル シー・エイチ− 8134 トーベルホフ 7 (72)発明者 ディーター・イェスペル スイス リヒタースヴィル シー・エイチ −8805 エルレンシュトラーセ 43 Fターム(参考) 5B075 ND02 ND35 QM08

Claims (26)

    【特許請求の範囲】
  1. 【請求項1】データベース(10)に記憶されたテキス
    ト(11)が照会(15)をどの程度よく記述している
    かを示す特性記述強度(C)を自動的に判断する方法で
    あって、 a)照会語を含む照会(15)を定義するステップと、 b)前記テキスト(11)の語が節点によって表され、
    前記語の間の関係がリンクによって表された、節点とリ
    ンクとを備えたグラフ(30)を作成するステップ(7
    1)と、 c)事前定義された規則のセットに従って前記グラフ
    (30)を展開するステップ(72)と、 d)前記照会語への1つまたは複数のリンクによって結
    合された節点を含む、前記照会語の近隣語を判断するス
    テップと、 e)前記近隣語に基づいて前記特性記述強度(C)を計
    算するステップとを含む方法。
  2. 【請求項2】特性記述強度(C)が、ステップe)で前
    記照会語の直接の近隣語の数をカウントすることによっ
    て計算され、直接の近隣語が前記照会語に1つのリンク
    で結合された語である、請求項1に記載の方法。
  3. 【請求項3】前記データベース(10)が複数のテキス
    ト(17)を格納する、請求項1に記載の方法。
  4. 【請求項4】前記データベース(10)内で前記照会語
    を含むテキスト(11、12、13)を見つけるための
    検索を行うステップを含む、請求項1に記載の方法。
  5. 【請求項5】前記照会語を含む各テキスト(11、1
    2、13)について前記ステップb)ないしe)を繰り
    返す、請求項4に記載の方法。
  6. 【請求項6】前記語を含む各テキスト(11、12、1
    3)の特性記述強度(C)を示すリスト(82)を表示
    するステップを含む、請求項5に記載の方法。
  7. 【請求項7】ステップb)でパーサを使用して前記グラ
    フを生成する、請求項1ないし6のいずれか一項に記載
    の方法。
  8. 【請求項8】ステップb)で意味ネットワーク・ジェネ
    レータを使用して前記グラフ(30)を生成する、請求
    項1ないし6のいずれか一項に記載の方法。
  9. 【請求項9】前記テキスト内の各センテンスについて1
    つのグラフを生成し、ステップb)ないしe)を実行す
    ることによって各センテンスについて特性記述強度
    (C)を計算する、請求項1ないし3のいずれか一項に
    記載の方法。
  10. 【請求項10】前記テキストの前記特性記述強度(C)
    がそれぞれの前記テキストのすべてのセンテンスの特性
    記述強度(C)に基づいて計算される、請求項9に記載
    の方法。
  11. 【請求項11】前記グラフがステップc)で前記テキス
    トから名詞または動詞あるいはその両方ではない語を除
    去することによって展開される、請求項1ないし3のい
    ずれか一項に記載の方法。
  12. 【請求項12】前記グラフがステップc)で助動詞を本
    動詞に置き換えることによって展開される、請求項1な
    いし3のいずれか一項に記載の方法。
  13. 【請求項13】前記グラフがステップc)で動詞を除外
    することによって展開される、請求項1ないし3のいず
    れか一項に記載の方法。
  14. 【請求項14】ステップd)を行う前に、前記グラフ内
    で前記センテンスの主語を特定して中心に置き、前記主
    語が根にある木状のグラフ構造を生成する、請求項1な
    いし3のいずれか一項に記載の方法。
  15. 【請求項15】第2の近隣語が前記照会語に2つのリン
    クを介して結合された語である、前記照会語の第2の近
    隣語の数を求めるステップを含む、請求項2に記載の方
    法。
  16. 【請求項16】前記テキストの前記特性記述強度(C)
    が、 それぞれの前記テキストのすべてのセンテンスの特性記
    述強度(C)を加算し、 次に前記ステップの結果をセンテンスの数で割ることに
    よって計算された平均である、請求項2または15に記
    載の方法。
  17. 【請求項17】データベース(10)に記憶されたテキ
    スト(17)が照会(15)をどの程度よく記述してい
    るかを示す特性記述強度(C)を自動的に判断するシス
    テムであって、 複数のm個のテキスト(17)を格納するデータベース
    (10)と、 前記複数のm個のテキスト(17)から検索照会(1
    5)と一致するk個のテキスト(11、12、13)を
    特定するために前記検索照会(15)を処理する検索エ
    ンジン(16)と、 前記テキストの語が節点によって表され、語間の関係が
    リンクで表された、節点とリンクとを備えるグラフを生
    成し、 事前定義された規則のセットに従って前記グラフを展開
    し、 前記語に1つまたは複数のリンクを介して結合された節
    点を含む、前記語の近隣語を判断し、 前記近隣語のトポロジ構造に基づいて前記特性記述強度
    (C)を計算することによって、前記検索照会(15)
    と一致する前記k個のテキスト(11、12、13)の
    各テキストの特性記述強度(C)を計算する計算エンジ
    ン(18)とを含むシステム。
  18. 【請求項18】前記データベース(11)がネットワー
    ク(94)を介してクライアント・システム(91、9
    2、93)に接続されたサーバ(90)内に格納され
    た、請求項17に記載のシステム。
  19. 【請求項19】前記グラフを生成するパーサを含む、請
    求項17に記載のシステム。
  20. 【請求項20】前記グラフを生成する意味ネットワーク
    ・ジェネレータを含む、請求項17に記載のシステム。
  21. 【請求項21】前記計算エンジンが、前記語に1つのリ
    ンクを介して結合された語である前記語の直接の近隣語
    の数をカウントすることによって前記特性記述強度
    (C)を計算する、請求項17に記載のシステム。
  22. 【請求項22】請求項17ないし21のいずれか一項に
    記載のシステムを含む情報検索システム。
  23. 【請求項23】請求項17ないし21のいずれか一項に
    記載のシステムを含むサーバ・コンピュータ・システ
    ム。
  24. 【請求項24】請求項17ないし21のいずれか一項に
    記載のシステムを含むクライアント・コンピュータ・シ
    ステム。
  25. 【請求項25】データベース内のテキストが照会をどの
    程度よく記述しているかを示す特性記述強度(C)を自
    動的に判断するソフトウェア・モジュールであって、プ
    ログラム可能データ処理システムによって実行される
    と、 a)語を含む照会(15)をユーザが定義することがで
    きるようにするステップと、 b)前記テキスト(17)の語が節点によって表され、
    前記語の間の関係がリンクによって表された、節点とリ
    ンクとを備えたグラフ(30)を作成するステップ(7
    1)と、 c)事前定義された規則のセットに従って前記グラフ
    (30)を展開するステップ(72)と、 d)近隣語が前記語に1つまたは少数のリンクを介して
    結合された節点を含む、前記語の近隣語を判断するステ
    ップと、 e)前記近隣語のトポロジ構造に基づいて前記特性記述
    強度(C)を計算するステップと、 f)前記特性記述強度(C)を表示するステップとを実
    行するソフトウェア・モジュール。
  26. 【請求項26】複数のテキスト(17)の中で前記照会
    と一致するテキスト(11、12、13)を特定する検
    索エンジン(16)を含む、請求項25に記載のソフト
    ウェア・モジュール。
JP2002007154A 2001-01-17 2002-01-16 コンピュータベースの適合テキスト検索システムおよび方法 Expired - Fee Related JP3755134B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP01810040 2001-01-17
EP01103933.6 2001-02-19
EP01810040.4 2001-02-19
EP01103933A EP1225517B1 (en) 2001-01-17 2001-02-19 System and methods for computer based searching for relevant texts

Publications (2)

Publication Number Publication Date
JP2002259429A true JP2002259429A (ja) 2002-09-13
JP3755134B2 JP3755134B2 (ja) 2006-03-15

Family

ID=26076482

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002007154A Expired - Fee Related JP3755134B2 (ja) 2001-01-17 2002-01-16 コンピュータベースの適合テキスト検索システムおよび方法

Country Status (3)

Country Link
US (1) US20020133483A1 (ja)
EP (1) EP1225517B1 (ja)
JP (1) JP3755134B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008538016A (ja) * 2004-11-12 2008-10-02 メイク センス インコーポレイテッド 概念または項目を用いて知識相関を構成することによる知識発見技術

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2403636A (en) * 2003-07-02 2005-01-05 Sony Uk Ltd Information retrieval using an array of nodes
US8126890B2 (en) 2004-12-21 2012-02-28 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US9330175B2 (en) 2004-11-12 2016-05-03 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
EP1848192A4 (en) * 2005-02-08 2012-10-03 Nippon Telegraph & Telephone END DEVICE, SYSTEM, METHOD AND PROGRAM FOR INFORMATION COMMUNICATION AND RECORDING MEDIUM WHICH RECORDED THE PROGRAM
US7849090B2 (en) 2005-03-30 2010-12-07 Primal Fusion Inc. System, method and computer program for faceted classification synthesis
US9104779B2 (en) 2005-03-30 2015-08-11 Primal Fusion Inc. Systems and methods for analyzing and synthesizing complex knowledge representations
US10002325B2 (en) 2005-03-30 2018-06-19 Primal Fusion Inc. Knowledge representation systems and methods incorporating inference rules
US9177248B2 (en) 2005-03-30 2015-11-03 Primal Fusion Inc. Knowledge representation systems and methods incorporating customization
US8849860B2 (en) 2005-03-30 2014-09-30 Primal Fusion Inc. Systems and methods for applying statistical inference techniques to knowledge representations
US9378203B2 (en) 2008-05-01 2016-06-28 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
US8898134B2 (en) 2005-06-27 2014-11-25 Make Sence, Inc. Method for ranking resources using node pool
US8140559B2 (en) 2005-06-27 2012-03-20 Make Sence, Inc. Knowledge correlation search engine
US8024653B2 (en) 2005-11-14 2011-09-20 Make Sence, Inc. Techniques for creating computer generated notes
US7756855B2 (en) * 2006-10-11 2010-07-13 Collarity, Inc. Search phrase refinement by search term replacement
US8429184B2 (en) 2005-12-05 2013-04-23 Collarity Inc. Generation of refinement terms for search queries
US8903810B2 (en) 2005-12-05 2014-12-02 Collarity, Inc. Techniques for ranking search results
US8442972B2 (en) * 2006-10-11 2013-05-14 Collarity, Inc. Negative associations for search results ranking and refinement
US20080158585A1 (en) * 2006-12-27 2008-07-03 Seiko Epson Corporation Apparatus, method, program for supporting printing, system, method, and program for printing, and recording medium
US7970721B2 (en) * 2007-06-15 2011-06-28 Microsoft Corporation Learning and reasoning from web projections
US8209214B2 (en) * 2007-06-26 2012-06-26 Richrelevance, Inc. System and method for providing targeted content
US20090028164A1 (en) * 2007-07-23 2009-01-29 Semgine, Gmbh Method and apparatus for semantic serializing
US9361365B2 (en) 2008-05-01 2016-06-07 Primal Fusion Inc. Methods and apparatus for searching of content using semantic synthesis
US8676732B2 (en) 2008-05-01 2014-03-18 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
CA2723179C (en) 2008-05-01 2017-11-28 Primal Fusion Inc. Method, system, and computer program for user-driven dynamic generation of semantic networks and media synthesis
US8438178B2 (en) 2008-06-26 2013-05-07 Collarity Inc. Interactions among online digital identities
JP4587236B2 (ja) * 2008-08-26 2010-11-24 Necビッグローブ株式会社 情報検索装置、情報検索方法、およびプログラム
CA2988181C (en) 2008-08-29 2020-03-10 Primal Fusion Inc. Systems and methods for semantic concept definition and semantic concept relationship synthesis utilizing existing domain definitions
US10108616B2 (en) 2009-07-17 2018-10-23 International Business Machines Corporation Probabilistic link strength reduction
US9292855B2 (en) 2009-09-08 2016-03-22 Primal Fusion Inc. Synthesizing messaging using context provided by consumers
US9262520B2 (en) 2009-11-10 2016-02-16 Primal Fusion Inc. System, method and computer program for creating and manipulating data structures using an interactive graphical interface
US8875038B2 (en) 2010-01-19 2014-10-28 Collarity, Inc. Anchoring for content synchronization
US9235806B2 (en) 2010-06-22 2016-01-12 Primal Fusion Inc. Methods and devices for customizing knowledge representation systems
US10474647B2 (en) 2010-06-22 2019-11-12 Primal Fusion Inc. Methods and devices for customizing knowledge representation systems
US11294977B2 (en) 2011-06-20 2022-04-05 Primal Fusion Inc. Techniques for presenting content to a user based on the user's preferences
US9092516B2 (en) 2011-06-20 2015-07-28 Primal Fusion Inc. Identifying information of interest based on user preferences
US8965882B1 (en) * 2011-07-13 2015-02-24 Google Inc. Click or skip evaluation of synonym rules
US8909627B1 (en) 2011-11-30 2014-12-09 Google Inc. Fake skip evaluation of synonym rules
US8965875B1 (en) 2012-01-03 2015-02-24 Google Inc. Removing substitution rules based on user interactions
US9152698B1 (en) 2012-01-03 2015-10-06 Google Inc. Substitute term identification based on over-represented terms identification
US9141672B1 (en) 2012-01-25 2015-09-22 Google Inc. Click or skip evaluation of query term optionalization rule
US8959103B1 (en) 2012-05-25 2015-02-17 Google Inc. Click or skip evaluation of reordering rules
US9146966B1 (en) 2012-10-04 2015-09-29 Google Inc. Click or skip evaluation of proximity rules
CN105900081B (zh) * 2013-02-19 2020-09-08 谷歌有限责任公司 基于自然语言处理的搜索
US20180341871A1 (en) * 2017-05-25 2018-11-29 Accenture Global Solutions Limited Utilizing deep learning with an information retrieval mechanism to provide question answering in restricted domains
CN112000788B (zh) * 2020-08-19 2024-02-09 腾讯云计算(长沙)有限责任公司 一种数据处理方法、装置以及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1074210A (ja) * 1996-07-05 1998-03-17 Hitachi Ltd 文献検索支援方法及び装置およびこれを用いた文献検索サービス
JPH1185786A (ja) * 1997-09-05 1999-03-30 Hitachi Ltd 文書検索方法、文書検索サービスおよび文書検索支援サービス

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5056021A (en) * 1989-06-08 1991-10-08 Carolyn Ausborn Method and apparatus for abstracting concepts from natural language
JP3334807B2 (ja) * 1991-07-25 2002-10-15 株式会社日立製作所 ニュ−ラルネットを利用したパタ−ン分類方法および装置
US5487132A (en) * 1992-03-04 1996-01-23 Cheng; Viktor C. H. End user query facility
US5471382A (en) * 1994-01-10 1995-11-28 Informed Access Systems, Inc. Medical network management system and process
US5644686A (en) * 1994-04-29 1997-07-01 International Business Machines Corporation Expert system and method employing hierarchical knowledge base, and interactive multimedia/hypermedia applications
WO1997008604A2 (en) * 1995-08-16 1997-03-06 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5893088A (en) * 1996-04-10 1999-04-06 Altera Corporation System and method for performing database query using a marker table
US5819271A (en) * 1996-06-04 1998-10-06 Multex Systems, Inc. Corporate information communication and delivery system and method including entitlable hypertext links
US5784539A (en) * 1996-11-26 1998-07-21 Client-Server-Networking Solutions, Inc. Quality driven expert system
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6243670B1 (en) * 1998-09-02 2001-06-05 Nippon Telegraph And Telephone Corporation Method, apparatus, and computer readable medium for performing semantic analysis and generating a semantic structure having linked frames
US6167370A (en) * 1998-09-09 2000-12-26 Invention Machine Corporation Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
US6564263B1 (en) * 1998-12-04 2003-05-13 International Business Machines Corporation Multimedia content description framework
US6556983B1 (en) * 2000-01-12 2003-04-29 Microsoft Corporation Methods and apparatus for finding semantic information, such as usage logs, similar to a query using a pattern lattice data space
US20030061202A1 (en) * 2000-06-02 2003-03-27 Coleman Kevin B. Interactive product selector with fuzzy logic engine

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1074210A (ja) * 1996-07-05 1998-03-17 Hitachi Ltd 文献検索支援方法及び装置およびこれを用いた文献検索サービス
JPH1185786A (ja) * 1997-09-05 1999-03-30 Hitachi Ltd 文書検索方法、文書検索サービスおよび文書検索支援サービス

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008538016A (ja) * 2004-11-12 2008-10-02 メイク センス インコーポレイテッド 概念または項目を用いて知識相関を構成することによる知識発見技術

Also Published As

Publication number Publication date
EP1225517A2 (en) 2002-07-24
EP1225517B1 (en) 2006-05-17
US20020133483A1 (en) 2002-09-19
EP1225517A3 (en) 2003-06-18
JP3755134B2 (ja) 2006-03-15

Similar Documents

Publication Publication Date Title
JP3755134B2 (ja) コンピュータベースの適合テキスト検索システムおよび方法
US8090724B1 (en) Document analysis and multi-word term detector
US8751484B2 (en) Systems and methods of identifying chunks within multiple documents
US7933896B2 (en) Systems and methods of searching a document for relevant chunks in response to a search request
US8001140B2 (en) Systems and methods of refining a search query based on user-specified search keywords
US8352485B2 (en) Systems and methods of displaying document chunks in response to a search request
US20110191325A1 (en) Systems and Methods of Displaying and Re-Using Document Chunks in a Document Development Application
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
US20090216715A1 (en) Systems and Methods of Semantically Annotating Documents of Different Structures
JP2005276183A (ja) グラフベースの順位付けを使用してテキスト内の単語および概念に順位付けする方法およびシステム
US20090217159A1 (en) Systems and Methods of Performing a Text Replacement Within Multiple Documents
US9129036B2 (en) Systems and methods of identifying chunks within inter-related documents
US8126880B2 (en) Systems and methods of adaptively screening matching chunks within documents
Alotaibi et al. A cognitive inspired unsupervised language-independent text stemmer for Information retrieval
JP4967037B2 (ja) 情報検索装置、情報検索方法、端末装置、およびプログラム
Danilova Cross-language plagiarism detection methods
JP5146108B2 (ja) 文書重要度算出システム、文書重要度算出方法およびプログラム
US8924421B2 (en) Systems and methods of refining chunks identified within multiple documents
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2019021194A (ja) 情報処理システムおよび情報処理方法
JP4499179B1 (ja) 端末装置
JPH1145257A (ja) Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP5439028B2 (ja) 情報検索装置、情報検索方法、およびプログラム
US8001162B2 (en) Systems and methods of pipelining multiple document node streams through a query processor
JPH1145254A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040928

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20041215

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20041220

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050713

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050921

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20050921

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051122

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20051124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051209

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees