JPH1125129A - テキスト・データベース内の情報の検索方法 - Google Patents

テキスト・データベース内の情報の検索方法

Info

Publication number
JPH1125129A
JPH1125129A JP10172467A JP17246798A JPH1125129A JP H1125129 A JPH1125129 A JP H1125129A JP 10172467 A JP10172467 A JP 10172467A JP 17246798 A JP17246798 A JP 17246798A JP H1125129 A JPH1125129 A JP H1125129A
Authority
JP
Japan
Prior art keywords
expression
natural language
text
user
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP10172467A
Other languages
English (en)
Inventor
Laurent Julliard
ジュリアール ローラン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH1125129A publication Critical patent/JPH1125129A/ja
Abandoned legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Abstract

(57)【要約】 【課題】 テキスト・データベース内の情報を検索する
方法を提供する。 【解決手段】 本方法は、自然言語表現を定義する少な
くとも1つのユーザ入力を受け取るステップ(s1)
と、自然言語表現を品詞タグを含むタグ付きフォーム
(50,51)へ変換するステップ(s2,s3)と、
自然言語表現(49)の言語の1つ又はそれ以上の文法
規則をタグ付きフォーム(51)に適用して正則表現
(52)を得るステップ(s5)と、テキストデータベ
ースを分析して、ゼログラフィー正則表現(52)とテ
キストデータベースの一部のマッチが存在するかどうか
を決定するステップとから成る。ユーザは与えたマルチ
ワード表現とマッチするテキストの部分を見つけ出すこ
とができる。マッチは、複数形/単数形、男性形/女性
形又は活用した動詞のような簡単な語形変化や、ユーザ
が指定したワードの間に追加の形容詞、副詞、等の挿入
のようなもっと複雑な変化を含み、言語学上の見地から
初期の基準に関係があると考えられる変化を含む。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、データ処理、より詳細
には、テキスト・データベースすなわちコーパス内の情
報を検索(seach) する技法に関するものである。
【0002】
【従来の技術】テキスト・コーパス内の一片の情報を検
索するのに使用されるほとんどの技法は、サブストリン
グ検索(フルテキスト検索とも呼ばれる)に基づいてい
る。この基本的なストリング検索メカニズムは、ユーザ
が簡単な文字列以上のものを見つけたい場合に弱いの
で、データプロバイダによって、サブストリング・マッ
チングを向上させる種々の技法(ワイルドカード、正則
表現、ブール演算子、近接ファクタ(たとえば、ワード
は2つのワードの間の同じ文すなわちN個未満のワード
の中になければならない)、およびステミング)が開発
された。
【0003】
【発明が解決しようとする課題】既存の技法は、ユーザ
が自然言語の可変性をよりうまく表現できるようにする
という同じような目標を達成しようとしていることが多
い。その場合、ストリング表現が現れるどんな場所も見
落とさないように、ストリング表現が検索されることに
なっている。
【0004】しかし、既知の技法は幾つかの欠点に悩ん
でいる。すなわち、エンドユーザは検索エンジンが提案
した問合せ言語を学習しなければならない。さらに、2
つの検索エンジンは同じ問合せ言語を持っていない。さ
らに、もしユーザが検索した表現のすべての考えられる
変化を想像していなければ、幾つかの関係のあるドキュ
メントを見落とすことがある。さらに他方では、もし検
索の表現が「あいまい」過ぎれば、多くの関係のないド
キュメントが検索され、ノイズを発生するであろう。
【0005】
【課題を解決するための手段】本発明は、テキストデー
タベース内の情報を検索する方法を提供する。本方法
は、(a)1つ又はそれ以上のワードを含む自然言語表
現を定義する、少なくとも1つのユーザ入力を受け取る
ステップと、(b)前記自然言語表現を、前記1つ又は
それ以上のワードと、それに関連する品詞タグを含む、
タグ付きフォームの表現へ変換するステップと、(c)
前記のタグ付きフォームに、自然言語表現の言語の1つ
又はそれ以上の文法規則を適用して、正則表現を得るス
テップと、(d)テキストデータベースを分析して、前
記正則表現と前記テキストデータベースの部分とがマッ
チしているかどうかを決定するステップから成る。
【0006】ステップ(b)は、前記自然言語表現内の
そのワード又は各ワードについて、(b1)ワードをそ
のルート(語幹)フォームへ変換し、(b2)品詞タグ
をワードに付けて複合(complex) タグ付きフォームを生
成することにより、自然言語表現にタグを付けるステッ
プから成ることが好ましい。
【0007】品詞タグは、構文カテゴリーマーカとモル
フォロジー的特徴マーカとを含んでおり、ステップ
(b)は、さらに、そのモルフォロジー的特徴マーカを
除去することによって前記複合タグ付きフォームを簡単
化して、該タグ付きフォームを生成するステップ(b
3)を含んでいることが好ましい。
【0008】本方法は、さらに、(e)前記正則表現と
マッチする前記テキスト・データベースの部分のロケー
ションを決定するステップを含んでいることが好まし
い。
【0009】本方法は、さらに、特許請求の範囲に記載
のどれかの方法を実施するように、すなわちここに記載
した特定の実施例のどれかに従って、適当にプログラム
されたときのプログラム可能なデータ処理装置を提供す
る。
【0010】本発明に係る言語学的検索技法は、上に述
べた問題の少なくとも一部を解決する。それらは、言語
学的ツール(たとえばトークナイザー(tokeniser)、モ
ルフォロジー的アナライザー(morphological analyse
r) 及びディスアンビギュエータ(disambiguator) )
と、テキスト・データベースにマッチさせるために複合
正則表現を生成することとの両方に頼っている。
【0011】本メカニズムは、エンドユーザが難解な問
合せ言語を学習する必要がないので、基本的なフルテキ
スト検索エンジンにまさる利点を有する。エンドユーザ
は探しているマルチワード表現を自然言語でタイプする
だけでよい。
【0012】さらに別の利点は、検索したドキュメント
が、言語学上の見地からの問合せによりいっそう意義を
有することである(すべての有効なドキュメントが、意
味の見地から、検索されることは保証しなけれど)。
【0013】さらに別の利点は、言語学的処理によって
多くの変化が捕らえられることである。その結果、検索
したドキュメントが書かれた言語に慣れ親しんでいない
ユーザが、起きるかもしれない言語学的変化を知ってい
る必要はない。
【0014】本発明に係る言語学的検索技法は、テキス
ト・データベース内の情報を検索する新しい方法を提供
する。それらの技法により、ユーザは与えたマルチワー
ドとマッチするテキストの部分を見つけ出すことができ
る。前記マッチは、複数形/単数形、男性形/女性形、
又は活用した動詞のような簡単な語形変化や、ユーザが
指定したワードの間に追加の形容詞、副詞、等の挿入の
ようなもっと複雑な変化を含み、言語学上の見地から初
期の基準に関係がある考えられる変化を含む。この技法
は、問合せとマッチしない検索したドキュメントの数を
減らすことによって、通常のフルテキスト検索エンジン
を補完することができる。
【0015】
【発明の実施の形態】次に添付図面を参照して、本発明
の実施例を例として説明する。本発明を通常のコンピュ
ータ技術を使用して実施することができることは理解さ
れるであろう。本発明は Sun workstation running Sun
OS で Perl & C++ で実施した。本発明をこの分野で周
知の PC running Windows(登録商標) 、Mac running Ma
cOS 、又は minicomputer running UNIX を使用して実
施することができることは理解されるであろう。たとえ
ば、図1に示したPCハードウェア構成は、The Art of
Electronics, 2nd Edn, Ch. 10, P. Horowiz and W. H
ill. Cambridge University Press, 1989 に詳細に論じ
られている。簡単に述べると、システムは共通バス30
に接続された、中央処理装置32、ランダムアクセスメ
モリ(RAM)34、読出し専用メモリ(ROM)3
6、及びディスク又はテープ又はCD−ROMドライブ
を含む記憶装置38、キーボード12(図示せず)、マ
ウス14(図示せず)、プリンタ又はプロッタ又はリー
ダー40、および外部装置46(たとえばLAN(図示
せず)のその他の部分)に対するインタフェースとなる
A/D,D/A装置42と、ディジタル入出力装置44
とで構成されている。
【0016】図2は、本発明の実施例に従って言語学的
検索を実施するステップのフローチャートである。本発
明に係る技法を説明するために、ユーザが、フランス語
コーパスの中からフランス語の表現“syste(アクサン
"、" 付き)me distribue(アクサン"/" 付き) ”を検索
することになっている場合について考えてみる。
【0017】最初に(ステップs1)、ユーザは、たと
えばこの分野で周知のグラフィックユーザインタフェー
スのタイプを使用して、探しているマルチワード表現を
指定する。この表現のフォーミュレーション(formulat
ion)には注意を払う必要はない。すなわち、名詞および
(又は)形容詞は複数形又は単数形のことがあるし、動
詞は活用形、等のことがある。
【0018】次に、ステップs2において、その表現
は、ゼロックス社などから入手できるタガー(tagger)
(又はディスアンビギュエータ(disambiguator)へ送ら
れる。タガーは、 McEnery T. and Wilson A., Corpus
Linguistics, Ch. 5, section 3and Appendix B に詳
しく論じられている。タガー(又はディスアンビギュエ
ータ)は以下の2つのことを行う。すなわち、(1)各
ワードをそのルートフォームに変える(たとえば、dist
ribue(アクサン付き) は distribue(動詞の不定詞形)
になる) 、および(2)各ワードの品詞を決定する(た
とえば、syste(アクサン付き)me は、単数名詞−NOU
N_SG−であり、distribue(アクサン付き) は、単数
形容詞−ADJ_SG−である)。NOUN_SGと、
ADJ_SGは、タグと呼ばれる。各タグは、2つの部
分、すなわち構文上のカテゴリー(すなわちNOUN,
ADJ,VERB,等のような品詞)と、ワードの語形
変化を反映するモルフォロジー上の特徴(SG,PL,
等のような)から成っている。
【0019】タグ付きフォーム50が得られたら、ステ
ップs3において、タグ付きフォーム50は簡単化され
る。すなわち、言語学的検索プロセスはワードの考えら
れるすべての語形変化を検索することが望ましいので、
各タグは最初にその構文上の種別へ変えられる。ワード
の性、数、又は人称は言語学的検索には無用であるので
除去される。これは、形態構造特徴のすべての可能性を
包含するように“SG”,“PL”,等をそれぞれ中立
記号( * ) で置き換えることから成る。
【0020】続いてステップs4において、簡単化され
たタグ付きフォーム51が処理される。言語の文法が与
えられれば、マルチワード表現が最初の意味を変えず
に、どんな種類の変化を受けることができるかを決定す
ることは可能である。以下の説明は、フランス語につい
て、名詞句の周囲に変化を生成するのに使用した規則の
一部を示す。 (1)名詞と形容詞の間に、形容詞、副詞又は et (an
d), ou(or), etc. のような等位接続詞によって接続さ
れた過去分詞を挿入することができる。図2は、表現 s
yste( アクサン付き)me distribue(アクサン付き)sへこ
の規則の適用を示し、得られた正規表現の簡単化された
バージョンを示す(記号☆はタグに先行するワードを表
す)。例として、この正則表現によって見つかる幾つか
の言語学的変化を以下に示す。 → syste( アクサン付き)me distribue(アクサン付き)s
(distributed systems−複数形) → syste( アクサン付き)me relationnels distribue
(アクサン付き)s (distributed relational systems−
挿入された形容詞) → syste( アクサン付き)me redondant et totalement
distribues (fully redundant and distributed syste
m −挿入された形容詞と、等位接続詞によって結合され
た副詞) (2)名詞と前置詞の間、又は前置詞と名詞の間に追加
の形容詞を挿入することができる。
【0021】(3)2つの名詞の間に追加の形容詞を挿
入することができる。 上に挙げた規則はフランス語の名詞句に適用される。そ
れらは、副詞を含む語句を含め、他のあらゆる種類の語
句へ、さらに他のあらゆる言語へ拡張することができ
る。
【0022】もしテキストの選択した部分について最初
の問合せとなお関係があるようにする良い機会があると
思われれば、これらの規則をほとんど望むように複雑に
することができることに注意されたい。たとえば、“sy
ste(アクサン付き)me a tole( アクサン付き)rance de
panne distribue(アクサン付き) ”(distributed fault
tolerant system) のように、名詞と形容詞の間に新し
い名詞句を挿入することができるであろう。あるいはさ
らに複雑なのは、“un syste( アクサン付き)me qui, p
ar nature, est totalement distribue(アクサン付き)
”(a system which, by essence, is fully distrebut
ed) のような関係節の挿入である。
【0023】ステップs4で表現された文法規則は正則
表現で符号化され、ユーザ問合せの簡単化されたタグ付
きフォーム51とマッチさせられる。もしそれらの規則
の1つがマッチすれば、ユーザ問合せの簡単化されたタ
グ付きフォーム51は文法変化を表す複雑な正則表現に
変わる。
【0024】文法規則がその自身又はそれ以外へ繰り返
して適用されるのを避けるために、各規則は順次一度だ
け適用される。
【0025】マッチ用正則表現52は、そのあと、ステ
ップs5において更に処理される。最終的な正則表現5
2が生成されたら、それはコーパスのタグ付きバージョ
ンとマッチさせされる。このステップに関して、以下の
ことに注意することが大切である。 (1)上に述べたように、テキスト・コーパスのタグ付
きバージョンに対しマッチ処理を実施しなければならな
い。これは、前に述べたように、たとえばゼロックス社
から入手できるタガーを使用して行うことができる。タ
グ付け語句は、もしテキストが頻繁に変わるならば、オ
ンザフライで作ることもできるし、もしテキストが変わ
らなければ、すべてに対し一度作ることができる。 (2)もしコーパスが大きければ、タグ付きテキストに
関する簡単な逐次検索は時間がかかり過ぎるであろう。
このタグ付け語句をスピードアップするため、フルテキ
スト索引付けエンジンを使用することができる。しか
し、ほとんどのフルテキスト検索エンジンがするように
原テキストに索引をつける代わりに、索引付けメカニズ
ムがテキスト・コーパスのタグ付きバージョンに適用さ
れる。
【0026】(3)ほとんどの既存フルテキスト索引付
けエンジンは、複雑な正則表現で表現された検索問合せ
を扱うことができない。それゆえ、本発明に係る言語学
的検索システムによって生成された表現は、その状態で
検索エンジンへ与えることができない。実際には、簡単
化されたタグ付き表現の個々のワードに対し、予備検索
が行われる(ステップs2)。索引付けエンジンがどの
くらい複雑であるかに従って、ワードが見つかったファ
イルの名前のような非常に基本的な情報(グリムプス
(glimpse)検索エンジンが行うように) 、あるいは、ワ
ードが見つかった文の位置のようなさらに正確な情報
( Xerox PATC Text Database TDB が行うように) をユ
ーザに与えることができる。この予備ステップは関係の
あるドキュメント(の一部)の範囲を狭くし、かつ正則
表現マッチプロセスの所要時間を減らす。
【0027】(4)本発明に係る言語学的検索システム
の実施例の具体化は、 Perl の正則表現上の約束(又は
any flavour of awk) に基づいている。その具体化
は、ゼロックス社が開発した有限状態トランスジューサ
によって使用される正則表現形式で容易に置き換えるこ
とが可能なことは理解されるであろう。(EP−A−5
83,083号参照)。Perl (および awk) はユーザに
テキストのどんな部分がマッチしたかのほか、それがコ
ーパス内のどこに位置しているかを知らせるので、マッ
チメカニズムはゼロックス社が開発した有限状態トラン
スジューサでなく、 Perl の正則表現に基づいている。
この情報は、マッチが起きた場所を強調するために特に
重要である。この機能は2つの利点を有する。 (1)マッチが起きた場所を見つけ出すため長いドキュ
メントのページをめくることを避けること、および
(2)もし文法規則によって許された言語学的変化が複
雑であれば、ユーザがタイプしたものとは全く異なるこ
とがある全体マッチ用マルチワード表現を示すこと。
【0028】ステップs6は、正則表現をコーパスのタ
グ付きバージョンとマッチさせた後に実行される。上に
述べたように、Perl (又は awk) の正則表現メカニズム
はユーザにどんなストリングがマッチするかのほかに、
このストリングがテキスト内のどこに位置しているかを
知らすことができる。しかし、本発明に従って、正則表
現のマッチはコーパスのタグ付きバージョンに対し行わ
れるので、この位置確認情報は原テキストには適してい
ない。そこで、もしマッチを強調表示することを望むな
らば、タグ付きテキスト内のオフセットから原テキスト
内の実際のオフセットに進む方法を与えなければならな
い。一般に、これはコーパスのタグ付け中に作られた簡
単なオフセット・テーブルによって行われる。
【0029】本発明に係る技法を実施する際にさまざま
な修正を行うことができることは理解されるであろう。
【0030】言語学的検索はWEB検索エンジンに適用
することができるであろう。それらの問合せ言語はます
ます洗練化される傾向にあるが、今のところ言語学的検
索にぴったりしない。
【0031】以上説明したプロセスは、最初に、検索す
ることになっているコーパスをディスアンビギュエート
する(タグを付ける)ことを仮定している。しかし、本
発明に係る技法を、たとえばWEB検索エンジンの前ス
テップとして使用することができることは理解されるで
あろう。ここで、必要なことは、ワードのすべての考え
られる形を生成し、それらのすべてを通常の検索エンジ
ン(すなわち、ワードのすべての得られた形に共通な少
なくともサブストリング)で検索することである。後
で、言語学的検索を適用することができる前に、その後
の処理(タグ付け)のために選択したドキュメントを検
索する必要がある。
【0032】(参考文献) 1.LOCOLEX: Translation Rolls off Your Tongue. Da
niel Bauer, Frederique Segond and Annie Zaenen, RX
RC, Grenoble, FRANCE, in the Proceedingsof the con
ference of the Association for Computers and the H
umanities and the Association for Literary and Lin
guestic Computing,(ACH-ALLC'95) Santa Barbara, US
A, July 1995. 2.SEXTANT: Extracting Semantics from Raw Text. G
regory Gregenstette, RXRC, Grenoble, FRANCE, in In
tegrated Computer-aided Engineering July1993. 3.Constructing Lexical Transducers. Lauri Karttu
nen, RXRC, Grenoble, FRANCE, in COLING'94 Proceedi
ngs. 4.Creating a tagset, lexicon and guesser for a F
rench tagger. Jean-Pierre Chanod and Pasi Tapanain
en, in Proceedings of ACL-SIGDAT, 1995. 5.Creating a terms and their Variats in a Lexica
lized Unification-Based Framework. Christian JACQU
EMIN and Jean ROYAUTE, in Proceedings ofACM-SIG In
formation Retrieval, July 1994. 6.Automatic Search Term Viant Generation. K. Spa
rc Jones, ComputerLaboratory, Unversity of Cambrid
ge, UK in Journal of Documentation, Vol. 40, No.
1, March 1984, pp.50-66. 7.Natural Language Processing: the PLNLP Approac
h. Karen Jensen, George E. Heirdon, Stephen D. Ric
hardson. Microsoft Corporation. KLUWER ACADEMIC PU
BLISHERS. 8.Information Retrieval and Virtual Libraries: t
he Callimaque model. Monica Beltrametti, Laurent J
ulliard, Francoise Renzetti. Proceedingsof CAIS'9
5.
【図面の簡単な説明】
【図1】本発明の実施例に係る技法を実施するため使用
できるコンピュータのブロック図である。
【図2】本発明の実施例に係る言語学的検索を実施する
場合のステップのフローチャートである。
【符号の説明】
12 キーボード 14 マウス 30 共通バス 32 中央処理装置 34 RAM 36 ROM 38 記憶装置 40 プリンタ、プロッタ、リーダー 42 A/D変換器、D/A変換器 44 ディジタル入出力装置 46 LAN等の外部装置 49 自然言語表現 50 ,51 自然言語表現のタグ付きフォーム 52 正則表現

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 テキスト・データベース内の情報の検索
    方法において、 (a)1つ又はそれ以上のワードを含む自然言語表現
    (49)を定義する、少なくとも1つのユーザ入力を受
    け取るステップと、 (b)前記自然言語表現を、前記1つ又はそれ以上のワ
    ードとそれに関連する品詞タグとを含む、該表現のタグ
    付きのフォーム(50,51)へ変換するステップと、 (c)前記タグ付きフォーム(51)に、前記自然言語
    表現(49)の言語の係る1つ又はそれ以上の文法規則
    を適用して、正則表現(52)を得るステップと、 (d)テキストデータベースを分析して、前記正則表現
    (52)と前記テキストデータベースの一部とのマッチ
    が存在するかどうかを決定するステップとから成ること
    を特徴とする方法。
  2. 【請求項2】 請求項1に記載の方法において、 前記ステップ(b)は、前記自然言語表現(49)内の
    そのワード又は各ワードについて、(b1)そのワード
    をそのルートフォームへ変換して、(b2)品詞タグを
    ワードに付けて複合タグ付きフォーム(50)を生成す
    ることにより、該自然言語表現にタグを付けるステップ
    から成ることを特徴とする方法。
  3. 【請求項3】 プロセッサ、メモリ、およびユーザイン
    タフェースを備え、請求項1および2のいずれかに記載
    の方法を実施するように適当にプログラムされたときの
    プログラム可能なデータ処理装置。
JP10172467A 1997-06-20 1998-06-19 テキスト・データベース内の情報の検索方法 Abandoned JPH1125129A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB9713019.9A GB9713019D0 (en) 1997-06-20 1997-06-20 Linguistic search system
GB9713019:9 1997-06-20

Publications (1)

Publication Number Publication Date
JPH1125129A true JPH1125129A (ja) 1999-01-29

Family

ID=10814626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10172467A Abandoned JPH1125129A (ja) 1997-06-20 1998-06-19 テキスト・データベース内の情報の検索方法

Country Status (5)

Country Link
US (1) US6202064B1 (ja)
EP (1) EP0886226B1 (ja)
JP (1) JPH1125129A (ja)
DE (1) DE69820343T2 (ja)
GB (1) GB9713019D0 (ja)

Families Citing this family (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6498921B1 (en) * 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US6912523B2 (en) * 1998-08-18 2005-06-28 Mitsubishi Denki Kabushiki Kaisha Object data retrieving device, object data retrieving method, and computer-readable recording medium containing recorder data
US6405199B1 (en) * 1998-10-30 2002-06-11 Novell, Inc. Method and apparatus for semantic token generation based on marked phrases in a content stream
JP3817378B2 (ja) * 1998-12-15 2006-09-06 富士通株式会社 情報入力装置
US6768997B2 (en) * 1999-05-24 2004-07-27 International Business Machines Corporation System and method for creating a search query using movable elements in a graphical user interface
US20010032112A1 (en) * 1999-12-30 2001-10-18 Linz Aaron M. Method and system for improved matching and scheduling
US6341959B1 (en) * 2000-03-23 2002-01-29 Inventec Besta Co. Ltd. Method and system for learning a language
US20040117352A1 (en) * 2000-04-28 2004-06-17 Global Information Research And Technologies Llc System for answering natural language questions
US20020123994A1 (en) * 2000-04-26 2002-09-05 Yves Schabes System for fulfilling an information need using extended matching techniques
SE517496C2 (sv) 2000-06-22 2002-06-11 Hapax Information Systems Ab Metod och system för informationsextrahering
US20020194223A1 (en) * 2000-10-16 2002-12-19 Text Analysis International, Inc. Computer programming language, system and method for building text analyzers
US6983240B2 (en) * 2000-12-18 2006-01-03 Xerox Corporation Method and apparatus for generating normalized representations of strings
US6910004B2 (en) 2000-12-19 2005-06-21 Xerox Corporation Method and computer system for part-of-speech tagging of incomplete sentences
SE0101127D0 (sv) * 2001-03-30 2001-03-30 Hapax Information Systems Ab Method of finding answers to questions
WO2002091234A1 (fr) * 2001-04-24 2002-11-14 Takahiro Nakamura Dispositif de recuperation destine a une base de donnees de textes joints contenant des informations secondaires
US6754650B2 (en) * 2001-05-08 2004-06-22 International Business Machines Corporation System and method for regular expression matching using index
US7398201B2 (en) * 2001-08-14 2008-07-08 Evri Inc. Method and system for enhanced data searching
US7526425B2 (en) * 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
US7283951B2 (en) * 2001-08-14 2007-10-16 Insightful Corporation Method and system for enhanced data searching
US6778995B1 (en) 2001-08-31 2004-08-17 Attenex Corporation System and method for efficiently generating cluster groupings in a multi-dimensional concept space
US6888548B1 (en) * 2001-08-31 2005-05-03 Attenex Corporation System and method for generating a visualized data representation preserving independent variable geometric relationships
US6978274B1 (en) 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
US20030105622A1 (en) * 2001-12-03 2003-06-05 Netbytel, Inc. Retrieval of records using phrase chunking
US7271804B2 (en) * 2002-02-25 2007-09-18 Attenex Corporation System and method for arranging concept clusters in thematic relationships in a two-dimensional visual display area
US20030187843A1 (en) * 2002-04-02 2003-10-02 Seward Robert Y. Method and system for searching for a list of values matching a user defined search expression
US7266553B1 (en) * 2002-07-01 2007-09-04 Microsoft Corporation Content data indexing
US7567902B2 (en) * 2002-09-18 2009-07-28 Nuance Communications, Inc. Generating speech recognition grammars from a large corpus of data
US20050171948A1 (en) * 2002-12-11 2005-08-04 Knight William C. System and method for identifying critical features in an ordered scale space within a multi-dimensional feature space
US7610313B2 (en) * 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
GB2407657B (en) * 2003-10-30 2006-08-23 Vox Generation Ltd Automated grammar generator (AGG)
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
US20050273450A1 (en) * 2004-05-21 2005-12-08 Mcmillen Robert J Regular expression acceleration engine and processing model
US7404151B2 (en) 2005-01-26 2008-07-22 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US7356777B2 (en) 2005-01-26 2008-04-08 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US20060224569A1 (en) * 2005-03-31 2006-10-05 Desanto John A Natural language based search engine and methods of use therefor
US7555475B2 (en) * 2005-03-31 2009-06-30 Jiles, Inc. Natural language based search engine for handling pronouns and methods of use therefor
US7447683B2 (en) * 2005-03-31 2008-11-04 Jiles, Inc. Natural language based search engine and methods of use therefor
US20060224566A1 (en) * 2005-03-31 2006-10-05 Flowers John S Natural language based search engine and methods of use therefor
US8046348B1 (en) 2005-06-10 2011-10-25 NetBase Solutions, Inc. Method and apparatus for concept-based searching of natural language discourse
US7574675B1 (en) * 2005-06-14 2009-08-11 Adobe Systems Incorporated Methods and apparatus to display content selections
NZ569107A (en) 2005-11-16 2011-09-30 Evri Inc Extending keyword searching to syntactically and semantically annotated data
CN101346716A (zh) 2005-12-22 2009-01-14 国际商业机器公司 通过利用查找和替换输入的派生的查找和替换功能来编辑文本的方法和系统
US8060357B2 (en) * 2006-01-27 2011-11-15 Xerox Corporation Linguistic user interface
US20070179940A1 (en) * 2006-01-27 2007-08-02 Robinson Eric M System and method for formulating data search queries
US7958164B2 (en) * 2006-02-16 2011-06-07 Microsoft Corporation Visual design of annotated regular expression
US7860881B2 (en) * 2006-03-09 2010-12-28 Microsoft Corporation Data parsing with annotated patterns
US7512634B2 (en) * 2006-06-05 2009-03-31 Tarari, Inc. Systems and methods for processing regular expressions
CA2717462C (en) * 2007-03-14 2016-09-27 Evri Inc. Query templates and labeled search tip system, methods, and techniques
US7899904B2 (en) * 2007-04-30 2011-03-01 Lsi Corporation Hardware processing of regular expressions
US20090077180A1 (en) * 2007-09-14 2009-03-19 Flowers John S Novel systems and methods for transmitting syntactically accurate messages over a network
US8594996B2 (en) 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
WO2009052308A1 (en) 2007-10-17 2009-04-23 Roseman Neil S Nlp-based content recommender
US20090234638A1 (en) * 2008-03-14 2009-09-17 Microsoft Corporation Use of a Speech Grammar to Recognize Instant Message Input
US9047285B1 (en) * 2008-07-21 2015-06-02 NetBase Solutions, Inc. Method and apparatus for frame-based search
US8935152B1 (en) 2008-07-21 2015-01-13 NetBase Solutions, Inc. Method and apparatus for frame-based analysis of search results
US8768852B2 (en) * 2009-01-13 2014-07-01 Amazon Technologies, Inc. Determining phrases related to other phrases
US9569770B1 (en) 2009-01-13 2017-02-14 Amazon Technologies, Inc. Generating constructed phrases
US20100268600A1 (en) * 2009-04-16 2010-10-21 Evri Inc. Enhanced advertisement targeting
US9298700B1 (en) * 2009-07-28 2016-03-29 Amazon Technologies, Inc. Determining similar phrases
US8515957B2 (en) 2009-07-28 2013-08-20 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via injection
US10007712B1 (en) 2009-08-20 2018-06-26 Amazon Technologies, Inc. Enforcing user-specified rules
WO2011028553A1 (en) 2009-08-24 2011-03-10 Fti Technology Llc Generating a reference set for use during document review
US9201965B1 (en) 2009-09-30 2015-12-01 Cisco Technology, Inc. System and method for providing speech recognition using personal vocabulary in a network environment
US20110099052A1 (en) * 2009-10-28 2011-04-28 Xerox Corporation Automatic checking of expectation-fulfillment schemes
WO2011053755A1 (en) * 2009-10-30 2011-05-05 Evri, Inc. Improving keyword-based search engine results using enhanced query strategies
US9710556B2 (en) 2010-03-01 2017-07-18 Vcvc Iii Llc Content recommendation based on collections of entities
US8799658B1 (en) 2010-03-02 2014-08-05 Amazon Technologies, Inc. Sharing media items with pass phrases
US8645125B2 (en) 2010-03-30 2014-02-04 Evri, Inc. NLP-based systems and methods for providing quotations
US9026529B1 (en) 2010-04-22 2015-05-05 NetBase Solutions, Inc. Method and apparatus for determining search result demographics
US8935274B1 (en) * 2010-05-12 2015-01-13 Cisco Technology, Inc System and method for deriving user expertise based on data propagating in a network environment
US9507880B2 (en) * 2010-06-30 2016-11-29 Oracle International Corporation Regular expression optimizer
JP5573457B2 (ja) * 2010-07-23 2014-08-20 ソニー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
US8838633B2 (en) 2010-08-11 2014-09-16 Vcvc Iii Llc NLP-based sentiment analysis
US9405848B2 (en) 2010-09-15 2016-08-02 Vcvc Iii Llc Recommending mobile device activities
US8725739B2 (en) 2010-11-01 2014-05-13 Evri, Inc. Category-based content recommendation
US9465795B2 (en) 2010-12-17 2016-10-11 Cisco Technology, Inc. System and method for providing feeds based on activity in a network environment
US9116995B2 (en) 2011-03-30 2015-08-25 Vcvc Iii Llc Cluster-based identification of news stories
US8909624B2 (en) 2011-05-31 2014-12-09 Cisco Technology, Inc. System and method for evaluating results of a search query in a network environment
US9390525B1 (en) 2011-07-05 2016-07-12 NetBase Solutions, Inc. Graphical representation of frame instances
US10643355B1 (en) 2011-07-05 2020-05-05 NetBase Solutions, Inc. Graphical representation of frame instances and co-occurrences
US10872082B1 (en) 2011-10-24 2020-12-22 NetBase Solutions, Inc. Methods and apparatuses for clustered storage of information
US9075799B1 (en) 2011-10-24 2015-07-07 NetBase Solutions, Inc. Methods and apparatus for query formulation
US9934218B2 (en) * 2011-12-05 2018-04-03 Infosys Limited Systems and methods for extracting attributes from text content
US8949263B1 (en) 2012-05-14 2015-02-03 NetBase Solutions, Inc. Methods and apparatus for sentiment analysis
US9135243B1 (en) 2013-03-15 2015-09-15 NetBase Solutions, Inc. Methods and apparatus for identification and analysis of temporally differing corpora
US10380203B1 (en) 2014-05-10 2019-08-13 NetBase Solutions, Inc. Methods and apparatus for author identification of search results
WO2017210618A1 (en) 2016-06-02 2017-12-07 Fti Consulting, Inc. Analyzing clusters of coded documents
CN110895961A (zh) * 2019-10-29 2020-03-20 泰康保险集团股份有限公司 医疗数据中的文本匹配方法及装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4688195A (en) * 1983-01-28 1987-08-18 Texas Instruments Incorporated Natural-language interface generating system
US4674066A (en) * 1983-02-18 1987-06-16 Houghton Mifflin Company Textual database system using skeletonization and phonetic replacement to retrieve words matching or similar to query words
CA1265871A (en) 1986-11-18 1990-02-13 Yawar Bakht Ali Domain-independent natural language database interface
JP2830097B2 (ja) * 1989-07-06 1998-12-02 日本電気株式会社 文章検索方式
US5418716A (en) 1990-07-26 1995-05-23 Nec Corporation System for recognizing sentence patterns and a system for recognizing sentence patterns and grammatical cases
US5559693A (en) * 1991-06-28 1996-09-24 Digital Equipment Corporation Method and apparatus for efficient morphological text analysis using a high-level language for compact specification of inflectional paradigms
US5442780A (en) 1991-07-11 1995-08-15 Mitsubishi Denki Kabushiki Kaisha Natural language database retrieval system using virtual tables to convert parsed input phrases into retrieval keys
US5278980A (en) * 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same
US5625554A (en) 1992-07-20 1997-04-29 Xerox Corporation Finite-state transduction of related word forms for text indexing and retrieval
IL107482A (en) 1992-11-04 1998-10-30 Conquest Software Inc A method for solving questions in natural language from databases of full texts
US5715468A (en) * 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
US5717913A (en) * 1995-01-03 1998-02-10 University Of Central Florida Method for detecting and extracting text data using database schemas
US5794050A (en) * 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
US5995922A (en) * 1996-05-02 1999-11-30 Microsoft Corporation Identifying information related to an input word in an electronic dictionary
US5937422A (en) * 1997-04-15 1999-08-10 The United States Of America As Represented By The National Security Agency Automatically generating a topic description for text and searching and sorting text by topic using the same
US5999664A (en) * 1997-11-14 1999-12-07 Xerox Corporation System for searching a corpus of document images by user specified document layout components
US5983221A (en) * 1998-01-13 1999-11-09 Wordstream, Inc. Method and apparatus for improved document searching

Also Published As

Publication number Publication date
EP0886226A1 (en) 1998-12-23
DE69820343D1 (de) 2004-01-22
EP0886226B1 (en) 2003-12-10
DE69820343T2 (de) 2004-06-03
GB9713019D0 (en) 1997-08-27
US6202064B1 (en) 2001-03-13

Similar Documents

Publication Publication Date Title
JPH1125129A (ja) テキスト・データベース内の情報の検索方法
Levow et al. Dictionary-based techniques for cross-language information retrieval
US7587389B2 (en) Question answering system, data search method, and computer program
Smeaton Natural language processing and information retrieval
US8041697B2 (en) Semi-automatic example-based induction of semantic translation rules to support natural language search
JP4714400B2 (ja) スケーラブル機械翻訳システム
US20020078090A1 (en) Ontological concept-based, user-centric text summarization
US10296584B2 (en) Semantic textual analysis
US6101492A (en) Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis
Azmi et al. A text summarizer for Arabic
Alwaneen et al. Arabic question answering system: a survey
Beirade et al. Semantic query for Quranic ontology
JP2001511564A (ja) 全体の精度を高めるためにサーチ結果の自然言語処理を用いる情報検索システムのための装置および方法
KR20080084803A (ko) 교차-언어 지식 검색을 위한 시스템 및 방법
KR20040111715A (ko) 검색 시스템에 사용하기 위해 텍스트 문서로부터 정보를검색하기 위한 자기 학습 시스템의 합성 방법
Ekmekcioglu et al. Stemming and n-gram matching for term conflation in Turkish texts
Girardi et al. A similarity measure for retrieving software artifacts.
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
Chien et al. Internet Chinese information retrieval using unconstrained mandarin speech queries based on a client-server architecture and a PAT-tree-based language model
Lazarinis et al. Current research issues and trends in non-English Web searching
Ding et al. IR and AI: Using co-occurrence theory to generate lightweight ontologies
Torres-Parejo et al. MTCIR: A multi-term tag cloud information retrieval system
Senellart Locating noun phrases with finite state transducers
Moghadam et al. Comparative study of various Persian stemmers in the field of information retrieval
Litkowski Question Answering Using XML-Tagged Documents.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050617

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20070514