JPH1125129A - テキスト・データベース内の情報の検索方法 - Google Patents
テキスト・データベース内の情報の検索方法Info
- Publication number
- JPH1125129A JPH1125129A JP10172467A JP17246798A JPH1125129A JP H1125129 A JPH1125129 A JP H1125129A JP 10172467 A JP10172467 A JP 10172467A JP 17246798 A JP17246798 A JP 17246798A JP H1125129 A JPH1125129 A JP H1125129A
- Authority
- JP
- Japan
- Prior art keywords
- expression
- natural language
- text
- user
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Abstract
(57)【要約】
【課題】 テキスト・データベース内の情報を検索する
方法を提供する。 【解決手段】 本方法は、自然言語表現を定義する少な
くとも1つのユーザ入力を受け取るステップ(s1)
と、自然言語表現を品詞タグを含むタグ付きフォーム
(50,51)へ変換するステップ(s2,s3)と、
自然言語表現(49)の言語の1つ又はそれ以上の文法
規則をタグ付きフォーム(51)に適用して正則表現
(52)を得るステップ(s5)と、テキストデータベ
ースを分析して、ゼログラフィー正則表現(52)とテ
キストデータベースの一部のマッチが存在するかどうか
を決定するステップとから成る。ユーザは与えたマルチ
ワード表現とマッチするテキストの部分を見つけ出すこ
とができる。マッチは、複数形/単数形、男性形/女性
形又は活用した動詞のような簡単な語形変化や、ユーザ
が指定したワードの間に追加の形容詞、副詞、等の挿入
のようなもっと複雑な変化を含み、言語学上の見地から
初期の基準に関係があると考えられる変化を含む。
方法を提供する。 【解決手段】 本方法は、自然言語表現を定義する少な
くとも1つのユーザ入力を受け取るステップ(s1)
と、自然言語表現を品詞タグを含むタグ付きフォーム
(50,51)へ変換するステップ(s2,s3)と、
自然言語表現(49)の言語の1つ又はそれ以上の文法
規則をタグ付きフォーム(51)に適用して正則表現
(52)を得るステップ(s5)と、テキストデータベ
ースを分析して、ゼログラフィー正則表現(52)とテ
キストデータベースの一部のマッチが存在するかどうか
を決定するステップとから成る。ユーザは与えたマルチ
ワード表現とマッチするテキストの部分を見つけ出すこ
とができる。マッチは、複数形/単数形、男性形/女性
形又は活用した動詞のような簡単な語形変化や、ユーザ
が指定したワードの間に追加の形容詞、副詞、等の挿入
のようなもっと複雑な変化を含み、言語学上の見地から
初期の基準に関係があると考えられる変化を含む。
Description
【0001】
【産業上の利用分野】本発明は、データ処理、より詳細
には、テキスト・データベースすなわちコーパス内の情
報を検索(seach) する技法に関するものである。
には、テキスト・データベースすなわちコーパス内の情
報を検索(seach) する技法に関するものである。
【0002】
【従来の技術】テキスト・コーパス内の一片の情報を検
索するのに使用されるほとんどの技法は、サブストリン
グ検索(フルテキスト検索とも呼ばれる)に基づいてい
る。この基本的なストリング検索メカニズムは、ユーザ
が簡単な文字列以上のものを見つけたい場合に弱いの
で、データプロバイダによって、サブストリング・マッ
チングを向上させる種々の技法(ワイルドカード、正則
表現、ブール演算子、近接ファクタ(たとえば、ワード
は2つのワードの間の同じ文すなわちN個未満のワード
の中になければならない)、およびステミング)が開発
された。
索するのに使用されるほとんどの技法は、サブストリン
グ検索(フルテキスト検索とも呼ばれる)に基づいてい
る。この基本的なストリング検索メカニズムは、ユーザ
が簡単な文字列以上のものを見つけたい場合に弱いの
で、データプロバイダによって、サブストリング・マッ
チングを向上させる種々の技法(ワイルドカード、正則
表現、ブール演算子、近接ファクタ(たとえば、ワード
は2つのワードの間の同じ文すなわちN個未満のワード
の中になければならない)、およびステミング)が開発
された。
【0003】
【発明が解決しようとする課題】既存の技法は、ユーザ
が自然言語の可変性をよりうまく表現できるようにする
という同じような目標を達成しようとしていることが多
い。その場合、ストリング表現が現れるどんな場所も見
落とさないように、ストリング表現が検索されることに
なっている。
が自然言語の可変性をよりうまく表現できるようにする
という同じような目標を達成しようとしていることが多
い。その場合、ストリング表現が現れるどんな場所も見
落とさないように、ストリング表現が検索されることに
なっている。
【0004】しかし、既知の技法は幾つかの欠点に悩ん
でいる。すなわち、エンドユーザは検索エンジンが提案
した問合せ言語を学習しなければならない。さらに、2
つの検索エンジンは同じ問合せ言語を持っていない。さ
らに、もしユーザが検索した表現のすべての考えられる
変化を想像していなければ、幾つかの関係のあるドキュ
メントを見落とすことがある。さらに他方では、もし検
索の表現が「あいまい」過ぎれば、多くの関係のないド
キュメントが検索され、ノイズを発生するであろう。
でいる。すなわち、エンドユーザは検索エンジンが提案
した問合せ言語を学習しなければならない。さらに、2
つの検索エンジンは同じ問合せ言語を持っていない。さ
らに、もしユーザが検索した表現のすべての考えられる
変化を想像していなければ、幾つかの関係のあるドキュ
メントを見落とすことがある。さらに他方では、もし検
索の表現が「あいまい」過ぎれば、多くの関係のないド
キュメントが検索され、ノイズを発生するであろう。
【0005】
【課題を解決するための手段】本発明は、テキストデー
タベース内の情報を検索する方法を提供する。本方法
は、(a)1つ又はそれ以上のワードを含む自然言語表
現を定義する、少なくとも1つのユーザ入力を受け取る
ステップと、(b)前記自然言語表現を、前記1つ又は
それ以上のワードと、それに関連する品詞タグを含む、
タグ付きフォームの表現へ変換するステップと、(c)
前記のタグ付きフォームに、自然言語表現の言語の1つ
又はそれ以上の文法規則を適用して、正則表現を得るス
テップと、(d)テキストデータベースを分析して、前
記正則表現と前記テキストデータベースの部分とがマッ
チしているかどうかを決定するステップから成る。
タベース内の情報を検索する方法を提供する。本方法
は、(a)1つ又はそれ以上のワードを含む自然言語表
現を定義する、少なくとも1つのユーザ入力を受け取る
ステップと、(b)前記自然言語表現を、前記1つ又は
それ以上のワードと、それに関連する品詞タグを含む、
タグ付きフォームの表現へ変換するステップと、(c)
前記のタグ付きフォームに、自然言語表現の言語の1つ
又はそれ以上の文法規則を適用して、正則表現を得るス
テップと、(d)テキストデータベースを分析して、前
記正則表現と前記テキストデータベースの部分とがマッ
チしているかどうかを決定するステップから成る。
【0006】ステップ(b)は、前記自然言語表現内の
そのワード又は各ワードについて、(b1)ワードをそ
のルート(語幹)フォームへ変換し、(b2)品詞タグ
をワードに付けて複合(complex) タグ付きフォームを生
成することにより、自然言語表現にタグを付けるステッ
プから成ることが好ましい。
そのワード又は各ワードについて、(b1)ワードをそ
のルート(語幹)フォームへ変換し、(b2)品詞タグ
をワードに付けて複合(complex) タグ付きフォームを生
成することにより、自然言語表現にタグを付けるステッ
プから成ることが好ましい。
【0007】品詞タグは、構文カテゴリーマーカとモル
フォロジー的特徴マーカとを含んでおり、ステップ
(b)は、さらに、そのモルフォロジー的特徴マーカを
除去することによって前記複合タグ付きフォームを簡単
化して、該タグ付きフォームを生成するステップ(b
3)を含んでいることが好ましい。
フォロジー的特徴マーカとを含んでおり、ステップ
(b)は、さらに、そのモルフォロジー的特徴マーカを
除去することによって前記複合タグ付きフォームを簡単
化して、該タグ付きフォームを生成するステップ(b
3)を含んでいることが好ましい。
【0008】本方法は、さらに、(e)前記正則表現と
マッチする前記テキスト・データベースの部分のロケー
ションを決定するステップを含んでいることが好まし
い。
マッチする前記テキスト・データベースの部分のロケー
ションを決定するステップを含んでいることが好まし
い。
【0009】本方法は、さらに、特許請求の範囲に記載
のどれかの方法を実施するように、すなわちここに記載
した特定の実施例のどれかに従って、適当にプログラム
されたときのプログラム可能なデータ処理装置を提供す
る。
のどれかの方法を実施するように、すなわちここに記載
した特定の実施例のどれかに従って、適当にプログラム
されたときのプログラム可能なデータ処理装置を提供す
る。
【0010】本発明に係る言語学的検索技法は、上に述
べた問題の少なくとも一部を解決する。それらは、言語
学的ツール(たとえばトークナイザー(tokeniser)、モ
ルフォロジー的アナライザー(morphological analyse
r) 及びディスアンビギュエータ(disambiguator) )
と、テキスト・データベースにマッチさせるために複合
正則表現を生成することとの両方に頼っている。
べた問題の少なくとも一部を解決する。それらは、言語
学的ツール(たとえばトークナイザー(tokeniser)、モ
ルフォロジー的アナライザー(morphological analyse
r) 及びディスアンビギュエータ(disambiguator) )
と、テキスト・データベースにマッチさせるために複合
正則表現を生成することとの両方に頼っている。
【0011】本メカニズムは、エンドユーザが難解な問
合せ言語を学習する必要がないので、基本的なフルテキ
スト検索エンジンにまさる利点を有する。エンドユーザ
は探しているマルチワード表現を自然言語でタイプする
だけでよい。
合せ言語を学習する必要がないので、基本的なフルテキ
スト検索エンジンにまさる利点を有する。エンドユーザ
は探しているマルチワード表現を自然言語でタイプする
だけでよい。
【0012】さらに別の利点は、検索したドキュメント
が、言語学上の見地からの問合せによりいっそう意義を
有することである(すべての有効なドキュメントが、意
味の見地から、検索されることは保証しなけれど)。
が、言語学上の見地からの問合せによりいっそう意義を
有することである(すべての有効なドキュメントが、意
味の見地から、検索されることは保証しなけれど)。
【0013】さらに別の利点は、言語学的処理によって
多くの変化が捕らえられることである。その結果、検索
したドキュメントが書かれた言語に慣れ親しんでいない
ユーザが、起きるかもしれない言語学的変化を知ってい
る必要はない。
多くの変化が捕らえられることである。その結果、検索
したドキュメントが書かれた言語に慣れ親しんでいない
ユーザが、起きるかもしれない言語学的変化を知ってい
る必要はない。
【0014】本発明に係る言語学的検索技法は、テキス
ト・データベース内の情報を検索する新しい方法を提供
する。それらの技法により、ユーザは与えたマルチワー
ドとマッチするテキストの部分を見つけ出すことができ
る。前記マッチは、複数形/単数形、男性形/女性形、
又は活用した動詞のような簡単な語形変化や、ユーザが
指定したワードの間に追加の形容詞、副詞、等の挿入の
ようなもっと複雑な変化を含み、言語学上の見地から初
期の基準に関係がある考えられる変化を含む。この技法
は、問合せとマッチしない検索したドキュメントの数を
減らすことによって、通常のフルテキスト検索エンジン
を補完することができる。
ト・データベース内の情報を検索する新しい方法を提供
する。それらの技法により、ユーザは与えたマルチワー
ドとマッチするテキストの部分を見つけ出すことができ
る。前記マッチは、複数形/単数形、男性形/女性形、
又は活用した動詞のような簡単な語形変化や、ユーザが
指定したワードの間に追加の形容詞、副詞、等の挿入の
ようなもっと複雑な変化を含み、言語学上の見地から初
期の基準に関係がある考えられる変化を含む。この技法
は、問合せとマッチしない検索したドキュメントの数を
減らすことによって、通常のフルテキスト検索エンジン
を補完することができる。
【0015】
【発明の実施の形態】次に添付図面を参照して、本発明
の実施例を例として説明する。本発明を通常のコンピュ
ータ技術を使用して実施することができることは理解さ
れるであろう。本発明は Sun workstation running Sun
OS で Perl & C++ で実施した。本発明をこの分野で周
知の PC running Windows(登録商標) 、Mac running Ma
cOS 、又は minicomputer running UNIX を使用して実
施することができることは理解されるであろう。たとえ
ば、図1に示したPCハードウェア構成は、The Art of
Electronics, 2nd Edn, Ch. 10, P. Horowiz and W. H
ill. Cambridge University Press, 1989 に詳細に論じ
られている。簡単に述べると、システムは共通バス30
に接続された、中央処理装置32、ランダムアクセスメ
モリ(RAM)34、読出し専用メモリ(ROM)3
6、及びディスク又はテープ又はCD−ROMドライブ
を含む記憶装置38、キーボード12(図示せず)、マ
ウス14(図示せず)、プリンタ又はプロッタ又はリー
ダー40、および外部装置46(たとえばLAN(図示
せず)のその他の部分)に対するインタフェースとなる
A/D,D/A装置42と、ディジタル入出力装置44
とで構成されている。
の実施例を例として説明する。本発明を通常のコンピュ
ータ技術を使用して実施することができることは理解さ
れるであろう。本発明は Sun workstation running Sun
OS で Perl & C++ で実施した。本発明をこの分野で周
知の PC running Windows(登録商標) 、Mac running Ma
cOS 、又は minicomputer running UNIX を使用して実
施することができることは理解されるであろう。たとえ
ば、図1に示したPCハードウェア構成は、The Art of
Electronics, 2nd Edn, Ch. 10, P. Horowiz and W. H
ill. Cambridge University Press, 1989 に詳細に論じ
られている。簡単に述べると、システムは共通バス30
に接続された、中央処理装置32、ランダムアクセスメ
モリ(RAM)34、読出し専用メモリ(ROM)3
6、及びディスク又はテープ又はCD−ROMドライブ
を含む記憶装置38、キーボード12(図示せず)、マ
ウス14(図示せず)、プリンタ又はプロッタ又はリー
ダー40、および外部装置46(たとえばLAN(図示
せず)のその他の部分)に対するインタフェースとなる
A/D,D/A装置42と、ディジタル入出力装置44
とで構成されている。
【0016】図2は、本発明の実施例に従って言語学的
検索を実施するステップのフローチャートである。本発
明に係る技法を説明するために、ユーザが、フランス語
コーパスの中からフランス語の表現“syste(アクサン
"、" 付き)me distribue(アクサン"/" 付き) ”を検索
することになっている場合について考えてみる。
検索を実施するステップのフローチャートである。本発
明に係る技法を説明するために、ユーザが、フランス語
コーパスの中からフランス語の表現“syste(アクサン
"、" 付き)me distribue(アクサン"/" 付き) ”を検索
することになっている場合について考えてみる。
【0017】最初に(ステップs1)、ユーザは、たと
えばこの分野で周知のグラフィックユーザインタフェー
スのタイプを使用して、探しているマルチワード表現を
指定する。この表現のフォーミュレーション(formulat
ion)には注意を払う必要はない。すなわち、名詞および
(又は)形容詞は複数形又は単数形のことがあるし、動
詞は活用形、等のことがある。
えばこの分野で周知のグラフィックユーザインタフェー
スのタイプを使用して、探しているマルチワード表現を
指定する。この表現のフォーミュレーション(formulat
ion)には注意を払う必要はない。すなわち、名詞および
(又は)形容詞は複数形又は単数形のことがあるし、動
詞は活用形、等のことがある。
【0018】次に、ステップs2において、その表現
は、ゼロックス社などから入手できるタガー(tagger)
(又はディスアンビギュエータ(disambiguator)へ送ら
れる。タガーは、 McEnery T. and Wilson A., Corpus
Linguistics, Ch. 5, section 3and Appendix B に詳
しく論じられている。タガー(又はディスアンビギュエ
ータ)は以下の2つのことを行う。すなわち、(1)各
ワードをそのルートフォームに変える(たとえば、dist
ribue(アクサン付き) は distribue(動詞の不定詞形)
になる) 、および(2)各ワードの品詞を決定する(た
とえば、syste(アクサン付き)me は、単数名詞−NOU
N_SG−であり、distribue(アクサン付き) は、単数
形容詞−ADJ_SG−である)。NOUN_SGと、
ADJ_SGは、タグと呼ばれる。各タグは、2つの部
分、すなわち構文上のカテゴリー(すなわちNOUN,
ADJ,VERB,等のような品詞)と、ワードの語形
変化を反映するモルフォロジー上の特徴(SG,PL,
等のような)から成っている。
は、ゼロックス社などから入手できるタガー(tagger)
(又はディスアンビギュエータ(disambiguator)へ送ら
れる。タガーは、 McEnery T. and Wilson A., Corpus
Linguistics, Ch. 5, section 3and Appendix B に詳
しく論じられている。タガー(又はディスアンビギュエ
ータ)は以下の2つのことを行う。すなわち、(1)各
ワードをそのルートフォームに変える(たとえば、dist
ribue(アクサン付き) は distribue(動詞の不定詞形)
になる) 、および(2)各ワードの品詞を決定する(た
とえば、syste(アクサン付き)me は、単数名詞−NOU
N_SG−であり、distribue(アクサン付き) は、単数
形容詞−ADJ_SG−である)。NOUN_SGと、
ADJ_SGは、タグと呼ばれる。各タグは、2つの部
分、すなわち構文上のカテゴリー(すなわちNOUN,
ADJ,VERB,等のような品詞)と、ワードの語形
変化を反映するモルフォロジー上の特徴(SG,PL,
等のような)から成っている。
【0019】タグ付きフォーム50が得られたら、ステ
ップs3において、タグ付きフォーム50は簡単化され
る。すなわち、言語学的検索プロセスはワードの考えら
れるすべての語形変化を検索することが望ましいので、
各タグは最初にその構文上の種別へ変えられる。ワード
の性、数、又は人称は言語学的検索には無用であるので
除去される。これは、形態構造特徴のすべての可能性を
包含するように“SG”,“PL”,等をそれぞれ中立
記号( * ) で置き換えることから成る。
ップs3において、タグ付きフォーム50は簡単化され
る。すなわち、言語学的検索プロセスはワードの考えら
れるすべての語形変化を検索することが望ましいので、
各タグは最初にその構文上の種別へ変えられる。ワード
の性、数、又は人称は言語学的検索には無用であるので
除去される。これは、形態構造特徴のすべての可能性を
包含するように“SG”,“PL”,等をそれぞれ中立
記号( * ) で置き換えることから成る。
【0020】続いてステップs4において、簡単化され
たタグ付きフォーム51が処理される。言語の文法が与
えられれば、マルチワード表現が最初の意味を変えず
に、どんな種類の変化を受けることができるかを決定す
ることは可能である。以下の説明は、フランス語につい
て、名詞句の周囲に変化を生成するのに使用した規則の
一部を示す。 (1)名詞と形容詞の間に、形容詞、副詞又は et (an
d), ou(or), etc. のような等位接続詞によって接続さ
れた過去分詞を挿入することができる。図2は、表現 s
yste( アクサン付き)me distribue(アクサン付き)sへこ
の規則の適用を示し、得られた正規表現の簡単化された
バージョンを示す(記号☆はタグに先行するワードを表
す)。例として、この正則表現によって見つかる幾つか
の言語学的変化を以下に示す。 → syste( アクサン付き)me distribue(アクサン付き)s
(distributed systems−複数形) → syste( アクサン付き)me relationnels distribue
(アクサン付き)s (distributed relational systems−
挿入された形容詞) → syste( アクサン付き)me redondant et totalement
distribues (fully redundant and distributed syste
m −挿入された形容詞と、等位接続詞によって結合され
た副詞) (2)名詞と前置詞の間、又は前置詞と名詞の間に追加
の形容詞を挿入することができる。
たタグ付きフォーム51が処理される。言語の文法が与
えられれば、マルチワード表現が最初の意味を変えず
に、どんな種類の変化を受けることができるかを決定す
ることは可能である。以下の説明は、フランス語につい
て、名詞句の周囲に変化を生成するのに使用した規則の
一部を示す。 (1)名詞と形容詞の間に、形容詞、副詞又は et (an
d), ou(or), etc. のような等位接続詞によって接続さ
れた過去分詞を挿入することができる。図2は、表現 s
yste( アクサン付き)me distribue(アクサン付き)sへこ
の規則の適用を示し、得られた正規表現の簡単化された
バージョンを示す(記号☆はタグに先行するワードを表
す)。例として、この正則表現によって見つかる幾つか
の言語学的変化を以下に示す。 → syste( アクサン付き)me distribue(アクサン付き)s
(distributed systems−複数形) → syste( アクサン付き)me relationnels distribue
(アクサン付き)s (distributed relational systems−
挿入された形容詞) → syste( アクサン付き)me redondant et totalement
distribues (fully redundant and distributed syste
m −挿入された形容詞と、等位接続詞によって結合され
た副詞) (2)名詞と前置詞の間、又は前置詞と名詞の間に追加
の形容詞を挿入することができる。
【0021】(3)2つの名詞の間に追加の形容詞を挿
入することができる。 上に挙げた規則はフランス語の名詞句に適用される。そ
れらは、副詞を含む語句を含め、他のあらゆる種類の語
句へ、さらに他のあらゆる言語へ拡張することができ
る。
入することができる。 上に挙げた規則はフランス語の名詞句に適用される。そ
れらは、副詞を含む語句を含め、他のあらゆる種類の語
句へ、さらに他のあらゆる言語へ拡張することができ
る。
【0022】もしテキストの選択した部分について最初
の問合せとなお関係があるようにする良い機会があると
思われれば、これらの規則をほとんど望むように複雑に
することができることに注意されたい。たとえば、“sy
ste(アクサン付き)me a tole( アクサン付き)rance de
panne distribue(アクサン付き) ”(distributed fault
tolerant system) のように、名詞と形容詞の間に新し
い名詞句を挿入することができるであろう。あるいはさ
らに複雑なのは、“un syste( アクサン付き)me qui, p
ar nature, est totalement distribue(アクサン付き)
”(a system which, by essence, is fully distrebut
ed) のような関係節の挿入である。
の問合せとなお関係があるようにする良い機会があると
思われれば、これらの規則をほとんど望むように複雑に
することができることに注意されたい。たとえば、“sy
ste(アクサン付き)me a tole( アクサン付き)rance de
panne distribue(アクサン付き) ”(distributed fault
tolerant system) のように、名詞と形容詞の間に新し
い名詞句を挿入することができるであろう。あるいはさ
らに複雑なのは、“un syste( アクサン付き)me qui, p
ar nature, est totalement distribue(アクサン付き)
”(a system which, by essence, is fully distrebut
ed) のような関係節の挿入である。
【0023】ステップs4で表現された文法規則は正則
表現で符号化され、ユーザ問合せの簡単化されたタグ付
きフォーム51とマッチさせられる。もしそれらの規則
の1つがマッチすれば、ユーザ問合せの簡単化されたタ
グ付きフォーム51は文法変化を表す複雑な正則表現に
変わる。
表現で符号化され、ユーザ問合せの簡単化されたタグ付
きフォーム51とマッチさせられる。もしそれらの規則
の1つがマッチすれば、ユーザ問合せの簡単化されたタ
グ付きフォーム51は文法変化を表す複雑な正則表現に
変わる。
【0024】文法規則がその自身又はそれ以外へ繰り返
して適用されるのを避けるために、各規則は順次一度だ
け適用される。
して適用されるのを避けるために、各規則は順次一度だ
け適用される。
【0025】マッチ用正則表現52は、そのあと、ステ
ップs5において更に処理される。最終的な正則表現5
2が生成されたら、それはコーパスのタグ付きバージョ
ンとマッチさせされる。このステップに関して、以下の
ことに注意することが大切である。 (1)上に述べたように、テキスト・コーパスのタグ付
きバージョンに対しマッチ処理を実施しなければならな
い。これは、前に述べたように、たとえばゼロックス社
から入手できるタガーを使用して行うことができる。タ
グ付け語句は、もしテキストが頻繁に変わるならば、オ
ンザフライで作ることもできるし、もしテキストが変わ
らなければ、すべてに対し一度作ることができる。 (2)もしコーパスが大きければ、タグ付きテキストに
関する簡単な逐次検索は時間がかかり過ぎるであろう。
このタグ付け語句をスピードアップするため、フルテキ
スト索引付けエンジンを使用することができる。しか
し、ほとんどのフルテキスト検索エンジンがするように
原テキストに索引をつける代わりに、索引付けメカニズ
ムがテキスト・コーパスのタグ付きバージョンに適用さ
れる。
ップs5において更に処理される。最終的な正則表現5
2が生成されたら、それはコーパスのタグ付きバージョ
ンとマッチさせされる。このステップに関して、以下の
ことに注意することが大切である。 (1)上に述べたように、テキスト・コーパスのタグ付
きバージョンに対しマッチ処理を実施しなければならな
い。これは、前に述べたように、たとえばゼロックス社
から入手できるタガーを使用して行うことができる。タ
グ付け語句は、もしテキストが頻繁に変わるならば、オ
ンザフライで作ることもできるし、もしテキストが変わ
らなければ、すべてに対し一度作ることができる。 (2)もしコーパスが大きければ、タグ付きテキストに
関する簡単な逐次検索は時間がかかり過ぎるであろう。
このタグ付け語句をスピードアップするため、フルテキ
スト索引付けエンジンを使用することができる。しか
し、ほとんどのフルテキスト検索エンジンがするように
原テキストに索引をつける代わりに、索引付けメカニズ
ムがテキスト・コーパスのタグ付きバージョンに適用さ
れる。
【0026】(3)ほとんどの既存フルテキスト索引付
けエンジンは、複雑な正則表現で表現された検索問合せ
を扱うことができない。それゆえ、本発明に係る言語学
的検索システムによって生成された表現は、その状態で
検索エンジンへ与えることができない。実際には、簡単
化されたタグ付き表現の個々のワードに対し、予備検索
が行われる(ステップs2)。索引付けエンジンがどの
くらい複雑であるかに従って、ワードが見つかったファ
イルの名前のような非常に基本的な情報(グリムプス
(glimpse)検索エンジンが行うように) 、あるいは、ワ
ードが見つかった文の位置のようなさらに正確な情報
( Xerox PATC Text Database TDB が行うように) をユ
ーザに与えることができる。この予備ステップは関係の
あるドキュメント(の一部)の範囲を狭くし、かつ正則
表現マッチプロセスの所要時間を減らす。
けエンジンは、複雑な正則表現で表現された検索問合せ
を扱うことができない。それゆえ、本発明に係る言語学
的検索システムによって生成された表現は、その状態で
検索エンジンへ与えることができない。実際には、簡単
化されたタグ付き表現の個々のワードに対し、予備検索
が行われる(ステップs2)。索引付けエンジンがどの
くらい複雑であるかに従って、ワードが見つかったファ
イルの名前のような非常に基本的な情報(グリムプス
(glimpse)検索エンジンが行うように) 、あるいは、ワ
ードが見つかった文の位置のようなさらに正確な情報
( Xerox PATC Text Database TDB が行うように) をユ
ーザに与えることができる。この予備ステップは関係の
あるドキュメント(の一部)の範囲を狭くし、かつ正則
表現マッチプロセスの所要時間を減らす。
【0027】(4)本発明に係る言語学的検索システム
の実施例の具体化は、 Perl の正則表現上の約束(又は
any flavour of awk) に基づいている。その具体化
は、ゼロックス社が開発した有限状態トランスジューサ
によって使用される正則表現形式で容易に置き換えるこ
とが可能なことは理解されるであろう。(EP−A−5
83,083号参照)。Perl (および awk) はユーザに
テキストのどんな部分がマッチしたかのほか、それがコ
ーパス内のどこに位置しているかを知らせるので、マッ
チメカニズムはゼロックス社が開発した有限状態トラン
スジューサでなく、 Perl の正則表現に基づいている。
この情報は、マッチが起きた場所を強調するために特に
重要である。この機能は2つの利点を有する。 (1)マッチが起きた場所を見つけ出すため長いドキュ
メントのページをめくることを避けること、および
(2)もし文法規則によって許された言語学的変化が複
雑であれば、ユーザがタイプしたものとは全く異なるこ
とがある全体マッチ用マルチワード表現を示すこと。
の実施例の具体化は、 Perl の正則表現上の約束(又は
any flavour of awk) に基づいている。その具体化
は、ゼロックス社が開発した有限状態トランスジューサ
によって使用される正則表現形式で容易に置き換えるこ
とが可能なことは理解されるであろう。(EP−A−5
83,083号参照)。Perl (および awk) はユーザに
テキストのどんな部分がマッチしたかのほか、それがコ
ーパス内のどこに位置しているかを知らせるので、マッ
チメカニズムはゼロックス社が開発した有限状態トラン
スジューサでなく、 Perl の正則表現に基づいている。
この情報は、マッチが起きた場所を強調するために特に
重要である。この機能は2つの利点を有する。 (1)マッチが起きた場所を見つけ出すため長いドキュ
メントのページをめくることを避けること、および
(2)もし文法規則によって許された言語学的変化が複
雑であれば、ユーザがタイプしたものとは全く異なるこ
とがある全体マッチ用マルチワード表現を示すこと。
【0028】ステップs6は、正則表現をコーパスのタ
グ付きバージョンとマッチさせた後に実行される。上に
述べたように、Perl (又は awk) の正則表現メカニズム
はユーザにどんなストリングがマッチするかのほかに、
このストリングがテキスト内のどこに位置しているかを
知らすことができる。しかし、本発明に従って、正則表
現のマッチはコーパスのタグ付きバージョンに対し行わ
れるので、この位置確認情報は原テキストには適してい
ない。そこで、もしマッチを強調表示することを望むな
らば、タグ付きテキスト内のオフセットから原テキスト
内の実際のオフセットに進む方法を与えなければならな
い。一般に、これはコーパスのタグ付け中に作られた簡
単なオフセット・テーブルによって行われる。
グ付きバージョンとマッチさせた後に実行される。上に
述べたように、Perl (又は awk) の正則表現メカニズム
はユーザにどんなストリングがマッチするかのほかに、
このストリングがテキスト内のどこに位置しているかを
知らすことができる。しかし、本発明に従って、正則表
現のマッチはコーパスのタグ付きバージョンに対し行わ
れるので、この位置確認情報は原テキストには適してい
ない。そこで、もしマッチを強調表示することを望むな
らば、タグ付きテキスト内のオフセットから原テキスト
内の実際のオフセットに進む方法を与えなければならな
い。一般に、これはコーパスのタグ付け中に作られた簡
単なオフセット・テーブルによって行われる。
【0029】本発明に係る技法を実施する際にさまざま
な修正を行うことができることは理解されるであろう。
な修正を行うことができることは理解されるであろう。
【0030】言語学的検索はWEB検索エンジンに適用
することができるであろう。それらの問合せ言語はます
ます洗練化される傾向にあるが、今のところ言語学的検
索にぴったりしない。
することができるであろう。それらの問合せ言語はます
ます洗練化される傾向にあるが、今のところ言語学的検
索にぴったりしない。
【0031】以上説明したプロセスは、最初に、検索す
ることになっているコーパスをディスアンビギュエート
する(タグを付ける)ことを仮定している。しかし、本
発明に係る技法を、たとえばWEB検索エンジンの前ス
テップとして使用することができることは理解されるで
あろう。ここで、必要なことは、ワードのすべての考え
られる形を生成し、それらのすべてを通常の検索エンジ
ン(すなわち、ワードのすべての得られた形に共通な少
なくともサブストリング)で検索することである。後
で、言語学的検索を適用することができる前に、その後
の処理(タグ付け)のために選択したドキュメントを検
索する必要がある。
ることになっているコーパスをディスアンビギュエート
する(タグを付ける)ことを仮定している。しかし、本
発明に係る技法を、たとえばWEB検索エンジンの前ス
テップとして使用することができることは理解されるで
あろう。ここで、必要なことは、ワードのすべての考え
られる形を生成し、それらのすべてを通常の検索エンジ
ン(すなわち、ワードのすべての得られた形に共通な少
なくともサブストリング)で検索することである。後
で、言語学的検索を適用することができる前に、その後
の処理(タグ付け)のために選択したドキュメントを検
索する必要がある。
【0032】(参考文献) 1.LOCOLEX: Translation Rolls off Your Tongue. Da
niel Bauer, Frederique Segond and Annie Zaenen, RX
RC, Grenoble, FRANCE, in the Proceedingsof the con
ference of the Association for Computers and the H
umanities and the Association for Literary and Lin
guestic Computing,(ACH-ALLC'95) Santa Barbara, US
A, July 1995. 2.SEXTANT: Extracting Semantics from Raw Text. G
regory Gregenstette, RXRC, Grenoble, FRANCE, in In
tegrated Computer-aided Engineering July1993. 3.Constructing Lexical Transducers. Lauri Karttu
nen, RXRC, Grenoble, FRANCE, in COLING'94 Proceedi
ngs. 4.Creating a tagset, lexicon and guesser for a F
rench tagger. Jean-Pierre Chanod and Pasi Tapanain
en, in Proceedings of ACL-SIGDAT, 1995. 5.Creating a terms and their Variats in a Lexica
lized Unification-Based Framework. Christian JACQU
EMIN and Jean ROYAUTE, in Proceedings ofACM-SIG In
formation Retrieval, July 1994. 6.Automatic Search Term Viant Generation. K. Spa
rc Jones, ComputerLaboratory, Unversity of Cambrid
ge, UK in Journal of Documentation, Vol. 40, No.
1, March 1984, pp.50-66. 7.Natural Language Processing: the PLNLP Approac
h. Karen Jensen, George E. Heirdon, Stephen D. Ric
hardson. Microsoft Corporation. KLUWER ACADEMIC PU
BLISHERS. 8.Information Retrieval and Virtual Libraries: t
he Callimaque model. Monica Beltrametti, Laurent J
ulliard, Francoise Renzetti. Proceedingsof CAIS'9
5.
niel Bauer, Frederique Segond and Annie Zaenen, RX
RC, Grenoble, FRANCE, in the Proceedingsof the con
ference of the Association for Computers and the H
umanities and the Association for Literary and Lin
guestic Computing,(ACH-ALLC'95) Santa Barbara, US
A, July 1995. 2.SEXTANT: Extracting Semantics from Raw Text. G
regory Gregenstette, RXRC, Grenoble, FRANCE, in In
tegrated Computer-aided Engineering July1993. 3.Constructing Lexical Transducers. Lauri Karttu
nen, RXRC, Grenoble, FRANCE, in COLING'94 Proceedi
ngs. 4.Creating a tagset, lexicon and guesser for a F
rench tagger. Jean-Pierre Chanod and Pasi Tapanain
en, in Proceedings of ACL-SIGDAT, 1995. 5.Creating a terms and their Variats in a Lexica
lized Unification-Based Framework. Christian JACQU
EMIN and Jean ROYAUTE, in Proceedings ofACM-SIG In
formation Retrieval, July 1994. 6.Automatic Search Term Viant Generation. K. Spa
rc Jones, ComputerLaboratory, Unversity of Cambrid
ge, UK in Journal of Documentation, Vol. 40, No.
1, March 1984, pp.50-66. 7.Natural Language Processing: the PLNLP Approac
h. Karen Jensen, George E. Heirdon, Stephen D. Ric
hardson. Microsoft Corporation. KLUWER ACADEMIC PU
BLISHERS. 8.Information Retrieval and Virtual Libraries: t
he Callimaque model. Monica Beltrametti, Laurent J
ulliard, Francoise Renzetti. Proceedingsof CAIS'9
5.
【図1】本発明の実施例に係る技法を実施するため使用
できるコンピュータのブロック図である。
できるコンピュータのブロック図である。
【図2】本発明の実施例に係る言語学的検索を実施する
場合のステップのフローチャートである。
場合のステップのフローチャートである。
12 キーボード 14 マウス 30 共通バス 32 中央処理装置 34 RAM 36 ROM 38 記憶装置 40 プリンタ、プロッタ、リーダー 42 A/D変換器、D/A変換器 44 ディジタル入出力装置 46 LAN等の外部装置 49 自然言語表現 50 ,51 自然言語表現のタグ付きフォーム 52 正則表現
Claims (3)
- 【請求項1】 テキスト・データベース内の情報の検索
方法において、 (a)1つ又はそれ以上のワードを含む自然言語表現
(49)を定義する、少なくとも1つのユーザ入力を受
け取るステップと、 (b)前記自然言語表現を、前記1つ又はそれ以上のワ
ードとそれに関連する品詞タグとを含む、該表現のタグ
付きのフォーム(50,51)へ変換するステップと、 (c)前記タグ付きフォーム(51)に、前記自然言語
表現(49)の言語の係る1つ又はそれ以上の文法規則
を適用して、正則表現(52)を得るステップと、 (d)テキストデータベースを分析して、前記正則表現
(52)と前記テキストデータベースの一部とのマッチ
が存在するかどうかを決定するステップとから成ること
を特徴とする方法。 - 【請求項2】 請求項1に記載の方法において、 前記ステップ(b)は、前記自然言語表現(49)内の
そのワード又は各ワードについて、(b1)そのワード
をそのルートフォームへ変換して、(b2)品詞タグを
ワードに付けて複合タグ付きフォーム(50)を生成す
ることにより、該自然言語表現にタグを付けるステップ
から成ることを特徴とする方法。 - 【請求項3】 プロセッサ、メモリ、およびユーザイン
タフェースを備え、請求項1および2のいずれかに記載
の方法を実施するように適当にプログラムされたときの
プログラム可能なデータ処理装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GBGB9713019.9A GB9713019D0 (en) | 1997-06-20 | 1997-06-20 | Linguistic search system |
GB9713019:9 | 1997-06-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH1125129A true JPH1125129A (ja) | 1999-01-29 |
Family
ID=10814626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10172467A Abandoned JPH1125129A (ja) | 1997-06-20 | 1998-06-19 | テキスト・データベース内の情報の検索方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6202064B1 (ja) |
EP (1) | EP0886226B1 (ja) |
JP (1) | JPH1125129A (ja) |
DE (1) | DE69820343T2 (ja) |
GB (1) | GB9713019D0 (ja) |
Families Citing this family (89)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6498921B1 (en) * | 1999-09-01 | 2002-12-24 | Chi Fai Ho | Method and system to answer a natural-language question |
US5836771A (en) * | 1996-12-02 | 1998-11-17 | Ho; Chi Fai | Learning method and system based on questioning |
US6912523B2 (en) * | 1998-08-18 | 2005-06-28 | Mitsubishi Denki Kabushiki Kaisha | Object data retrieving device, object data retrieving method, and computer-readable recording medium containing recorder data |
US6405199B1 (en) * | 1998-10-30 | 2002-06-11 | Novell, Inc. | Method and apparatus for semantic token generation based on marked phrases in a content stream |
JP3817378B2 (ja) * | 1998-12-15 | 2006-09-06 | 富士通株式会社 | 情報入力装置 |
US6768997B2 (en) * | 1999-05-24 | 2004-07-27 | International Business Machines Corporation | System and method for creating a search query using movable elements in a graphical user interface |
US20010032112A1 (en) * | 1999-12-30 | 2001-10-18 | Linz Aaron M. | Method and system for improved matching and scheduling |
US6341959B1 (en) * | 2000-03-23 | 2002-01-29 | Inventec Besta Co. Ltd. | Method and system for learning a language |
US20040117352A1 (en) * | 2000-04-28 | 2004-06-17 | Global Information Research And Technologies Llc | System for answering natural language questions |
US20020123994A1 (en) * | 2000-04-26 | 2002-09-05 | Yves Schabes | System for fulfilling an information need using extended matching techniques |
SE517496C2 (sv) | 2000-06-22 | 2002-06-11 | Hapax Information Systems Ab | Metod och system för informationsextrahering |
US20020194223A1 (en) * | 2000-10-16 | 2002-12-19 | Text Analysis International, Inc. | Computer programming language, system and method for building text analyzers |
US6983240B2 (en) * | 2000-12-18 | 2006-01-03 | Xerox Corporation | Method and apparatus for generating normalized representations of strings |
US6910004B2 (en) | 2000-12-19 | 2005-06-21 | Xerox Corporation | Method and computer system for part-of-speech tagging of incomplete sentences |
SE0101127D0 (sv) * | 2001-03-30 | 2001-03-30 | Hapax Information Systems Ab | Method of finding answers to questions |
WO2002091234A1 (fr) * | 2001-04-24 | 2002-11-14 | Takahiro Nakamura | Dispositif de recuperation destine a une base de donnees de textes joints contenant des informations secondaires |
US6754650B2 (en) * | 2001-05-08 | 2004-06-22 | International Business Machines Corporation | System and method for regular expression matching using index |
US7398201B2 (en) * | 2001-08-14 | 2008-07-08 | Evri Inc. | Method and system for enhanced data searching |
US7526425B2 (en) * | 2001-08-14 | 2009-04-28 | Evri Inc. | Method and system for extending keyword searching to syntactically and semantically annotated data |
US7283951B2 (en) * | 2001-08-14 | 2007-10-16 | Insightful Corporation | Method and system for enhanced data searching |
US6778995B1 (en) | 2001-08-31 | 2004-08-17 | Attenex Corporation | System and method for efficiently generating cluster groupings in a multi-dimensional concept space |
US6888548B1 (en) * | 2001-08-31 | 2005-05-03 | Attenex Corporation | System and method for generating a visualized data representation preserving independent variable geometric relationships |
US6978274B1 (en) | 2001-08-31 | 2005-12-20 | Attenex Corporation | System and method for dynamically evaluating latent concepts in unstructured documents |
US20030105622A1 (en) * | 2001-12-03 | 2003-06-05 | Netbytel, Inc. | Retrieval of records using phrase chunking |
US7271804B2 (en) * | 2002-02-25 | 2007-09-18 | Attenex Corporation | System and method for arranging concept clusters in thematic relationships in a two-dimensional visual display area |
US20030187843A1 (en) * | 2002-04-02 | 2003-10-02 | Seward Robert Y. | Method and system for searching for a list of values matching a user defined search expression |
US7266553B1 (en) * | 2002-07-01 | 2007-09-04 | Microsoft Corporation | Content data indexing |
US7567902B2 (en) * | 2002-09-18 | 2009-07-28 | Nuance Communications, Inc. | Generating speech recognition grammars from a large corpus of data |
US20050171948A1 (en) * | 2002-12-11 | 2005-08-04 | Knight William C. | System and method for identifying critical features in an ordered scale space within a multi-dimensional feature space |
US7610313B2 (en) * | 2003-07-25 | 2009-10-27 | Attenex Corporation | System and method for performing efficient document scoring and clustering |
GB2407657B (en) * | 2003-10-30 | 2006-08-23 | Vox Generation Ltd | Automated grammar generator (AGG) |
US7191175B2 (en) | 2004-02-13 | 2007-03-13 | Attenex Corporation | System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space |
US20050273450A1 (en) * | 2004-05-21 | 2005-12-08 | Mcmillen Robert J | Regular expression acceleration engine and processing model |
US7404151B2 (en) | 2005-01-26 | 2008-07-22 | Attenex Corporation | System and method for providing a dynamic user interface for a dense three-dimensional scene |
US7356777B2 (en) | 2005-01-26 | 2008-04-08 | Attenex Corporation | System and method for providing a dynamic user interface for a dense three-dimensional scene |
US20060224569A1 (en) * | 2005-03-31 | 2006-10-05 | Desanto John A | Natural language based search engine and methods of use therefor |
US7555475B2 (en) * | 2005-03-31 | 2009-06-30 | Jiles, Inc. | Natural language based search engine for handling pronouns and methods of use therefor |
US7447683B2 (en) * | 2005-03-31 | 2008-11-04 | Jiles, Inc. | Natural language based search engine and methods of use therefor |
US20060224566A1 (en) * | 2005-03-31 | 2006-10-05 | Flowers John S | Natural language based search engine and methods of use therefor |
US8046348B1 (en) | 2005-06-10 | 2011-10-25 | NetBase Solutions, Inc. | Method and apparatus for concept-based searching of natural language discourse |
US7574675B1 (en) * | 2005-06-14 | 2009-08-11 | Adobe Systems Incorporated | Methods and apparatus to display content selections |
NZ569107A (en) | 2005-11-16 | 2011-09-30 | Evri Inc | Extending keyword searching to syntactically and semantically annotated data |
CN101346716A (zh) | 2005-12-22 | 2009-01-14 | 国际商业机器公司 | 通过利用查找和替换输入的派生的查找和替换功能来编辑文本的方法和系统 |
US8060357B2 (en) * | 2006-01-27 | 2011-11-15 | Xerox Corporation | Linguistic user interface |
US20070179940A1 (en) * | 2006-01-27 | 2007-08-02 | Robinson Eric M | System and method for formulating data search queries |
US7958164B2 (en) * | 2006-02-16 | 2011-06-07 | Microsoft Corporation | Visual design of annotated regular expression |
US7860881B2 (en) * | 2006-03-09 | 2010-12-28 | Microsoft Corporation | Data parsing with annotated patterns |
US7512634B2 (en) * | 2006-06-05 | 2009-03-31 | Tarari, Inc. | Systems and methods for processing regular expressions |
CA2717462C (en) * | 2007-03-14 | 2016-09-27 | Evri Inc. | Query templates and labeled search tip system, methods, and techniques |
US7899904B2 (en) * | 2007-04-30 | 2011-03-01 | Lsi Corporation | Hardware processing of regular expressions |
US20090077180A1 (en) * | 2007-09-14 | 2009-03-19 | Flowers John S | Novel systems and methods for transmitting syntactically accurate messages over a network |
US8594996B2 (en) | 2007-10-17 | 2013-11-26 | Evri Inc. | NLP-based entity recognition and disambiguation |
WO2009052308A1 (en) | 2007-10-17 | 2009-04-23 | Roseman Neil S | Nlp-based content recommender |
US20090234638A1 (en) * | 2008-03-14 | 2009-09-17 | Microsoft Corporation | Use of a Speech Grammar to Recognize Instant Message Input |
US9047285B1 (en) * | 2008-07-21 | 2015-06-02 | NetBase Solutions, Inc. | Method and apparatus for frame-based search |
US8935152B1 (en) | 2008-07-21 | 2015-01-13 | NetBase Solutions, Inc. | Method and apparatus for frame-based analysis of search results |
US8768852B2 (en) * | 2009-01-13 | 2014-07-01 | Amazon Technologies, Inc. | Determining phrases related to other phrases |
US9569770B1 (en) | 2009-01-13 | 2017-02-14 | Amazon Technologies, Inc. | Generating constructed phrases |
US20100268600A1 (en) * | 2009-04-16 | 2010-10-21 | Evri Inc. | Enhanced advertisement targeting |
US9298700B1 (en) * | 2009-07-28 | 2016-03-29 | Amazon Technologies, Inc. | Determining similar phrases |
US8515957B2 (en) | 2009-07-28 | 2013-08-20 | Fti Consulting, Inc. | System and method for displaying relationships between electronically stored information to provide classification suggestions via injection |
US10007712B1 (en) | 2009-08-20 | 2018-06-26 | Amazon Technologies, Inc. | Enforcing user-specified rules |
WO2011028553A1 (en) | 2009-08-24 | 2011-03-10 | Fti Technology Llc | Generating a reference set for use during document review |
US9201965B1 (en) | 2009-09-30 | 2015-12-01 | Cisco Technology, Inc. | System and method for providing speech recognition using personal vocabulary in a network environment |
US20110099052A1 (en) * | 2009-10-28 | 2011-04-28 | Xerox Corporation | Automatic checking of expectation-fulfillment schemes |
WO2011053755A1 (en) * | 2009-10-30 | 2011-05-05 | Evri, Inc. | Improving keyword-based search engine results using enhanced query strategies |
US9710556B2 (en) | 2010-03-01 | 2017-07-18 | Vcvc Iii Llc | Content recommendation based on collections of entities |
US8799658B1 (en) | 2010-03-02 | 2014-08-05 | Amazon Technologies, Inc. | Sharing media items with pass phrases |
US8645125B2 (en) | 2010-03-30 | 2014-02-04 | Evri, Inc. | NLP-based systems and methods for providing quotations |
US9026529B1 (en) | 2010-04-22 | 2015-05-05 | NetBase Solutions, Inc. | Method and apparatus for determining search result demographics |
US8935274B1 (en) * | 2010-05-12 | 2015-01-13 | Cisco Technology, Inc | System and method for deriving user expertise based on data propagating in a network environment |
US9507880B2 (en) * | 2010-06-30 | 2016-11-29 | Oracle International Corporation | Regular expression optimizer |
JP5573457B2 (ja) * | 2010-07-23 | 2014-08-20 | ソニー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
US8838633B2 (en) | 2010-08-11 | 2014-09-16 | Vcvc Iii Llc | NLP-based sentiment analysis |
US9405848B2 (en) | 2010-09-15 | 2016-08-02 | Vcvc Iii Llc | Recommending mobile device activities |
US8725739B2 (en) | 2010-11-01 | 2014-05-13 | Evri, Inc. | Category-based content recommendation |
US9465795B2 (en) | 2010-12-17 | 2016-10-11 | Cisco Technology, Inc. | System and method for providing feeds based on activity in a network environment |
US9116995B2 (en) | 2011-03-30 | 2015-08-25 | Vcvc Iii Llc | Cluster-based identification of news stories |
US8909624B2 (en) | 2011-05-31 | 2014-12-09 | Cisco Technology, Inc. | System and method for evaluating results of a search query in a network environment |
US9390525B1 (en) | 2011-07-05 | 2016-07-12 | NetBase Solutions, Inc. | Graphical representation of frame instances |
US10643355B1 (en) | 2011-07-05 | 2020-05-05 | NetBase Solutions, Inc. | Graphical representation of frame instances and co-occurrences |
US10872082B1 (en) | 2011-10-24 | 2020-12-22 | NetBase Solutions, Inc. | Methods and apparatuses for clustered storage of information |
US9075799B1 (en) | 2011-10-24 | 2015-07-07 | NetBase Solutions, Inc. | Methods and apparatus for query formulation |
US9934218B2 (en) * | 2011-12-05 | 2018-04-03 | Infosys Limited | Systems and methods for extracting attributes from text content |
US8949263B1 (en) | 2012-05-14 | 2015-02-03 | NetBase Solutions, Inc. | Methods and apparatus for sentiment analysis |
US9135243B1 (en) | 2013-03-15 | 2015-09-15 | NetBase Solutions, Inc. | Methods and apparatus for identification and analysis of temporally differing corpora |
US10380203B1 (en) | 2014-05-10 | 2019-08-13 | NetBase Solutions, Inc. | Methods and apparatus for author identification of search results |
WO2017210618A1 (en) | 2016-06-02 | 2017-12-07 | Fti Consulting, Inc. | Analyzing clusters of coded documents |
CN110895961A (zh) * | 2019-10-29 | 2020-03-20 | 泰康保险集团股份有限公司 | 医疗数据中的文本匹配方法及装置 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4688195A (en) * | 1983-01-28 | 1987-08-18 | Texas Instruments Incorporated | Natural-language interface generating system |
US4674066A (en) * | 1983-02-18 | 1987-06-16 | Houghton Mifflin Company | Textual database system using skeletonization and phonetic replacement to retrieve words matching or similar to query words |
CA1265871A (en) | 1986-11-18 | 1990-02-13 | Yawar Bakht Ali | Domain-independent natural language database interface |
JP2830097B2 (ja) * | 1989-07-06 | 1998-12-02 | 日本電気株式会社 | 文章検索方式 |
US5418716A (en) | 1990-07-26 | 1995-05-23 | Nec Corporation | System for recognizing sentence patterns and a system for recognizing sentence patterns and grammatical cases |
US5559693A (en) * | 1991-06-28 | 1996-09-24 | Digital Equipment Corporation | Method and apparatus for efficient morphological text analysis using a high-level language for compact specification of inflectional paradigms |
US5442780A (en) | 1991-07-11 | 1995-08-15 | Mitsubishi Denki Kabushiki Kaisha | Natural language database retrieval system using virtual tables to convert parsed input phrases into retrieval keys |
US5278980A (en) * | 1991-08-16 | 1994-01-11 | Xerox Corporation | Iterative technique for phrase query formation and an information retrieval system employing same |
US5625554A (en) | 1992-07-20 | 1997-04-29 | Xerox Corporation | Finite-state transduction of related word forms for text indexing and retrieval |
IL107482A (en) | 1992-11-04 | 1998-10-30 | Conquest Software Inc | A method for solving questions in natural language from databases of full texts |
US5715468A (en) * | 1994-09-30 | 1998-02-03 | Budzinski; Robert Lucius | Memory system for storing and retrieving experience and knowledge with natural language |
US5717913A (en) * | 1995-01-03 | 1998-02-10 | University Of Central Florida | Method for detecting and extracting text data using database schemas |
US5794050A (en) * | 1995-01-04 | 1998-08-11 | Intelligent Text Processing, Inc. | Natural language understanding system |
US5995922A (en) * | 1996-05-02 | 1999-11-30 | Microsoft Corporation | Identifying information related to an input word in an electronic dictionary |
US5937422A (en) * | 1997-04-15 | 1999-08-10 | The United States Of America As Represented By The National Security Agency | Automatically generating a topic description for text and searching and sorting text by topic using the same |
US5999664A (en) * | 1997-11-14 | 1999-12-07 | Xerox Corporation | System for searching a corpus of document images by user specified document layout components |
US5983221A (en) * | 1998-01-13 | 1999-11-09 | Wordstream, Inc. | Method and apparatus for improved document searching |
-
1997
- 1997-06-20 GB GBGB9713019.9A patent/GB9713019D0/en not_active Ceased
-
1998
- 1998-06-18 US US09/099,909 patent/US6202064B1/en not_active Expired - Lifetime
- 1998-06-19 DE DE69820343T patent/DE69820343T2/de not_active Expired - Lifetime
- 1998-06-19 EP EP98304842A patent/EP0886226B1/en not_active Expired - Lifetime
- 1998-06-19 JP JP10172467A patent/JPH1125129A/ja not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
EP0886226A1 (en) | 1998-12-23 |
DE69820343D1 (de) | 2004-01-22 |
EP0886226B1 (en) | 2003-12-10 |
DE69820343T2 (de) | 2004-06-03 |
GB9713019D0 (en) | 1997-08-27 |
US6202064B1 (en) | 2001-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH1125129A (ja) | テキスト・データベース内の情報の検索方法 | |
Levow et al. | Dictionary-based techniques for cross-language information retrieval | |
US7587389B2 (en) | Question answering system, data search method, and computer program | |
Smeaton | Natural language processing and information retrieval | |
US8041697B2 (en) | Semi-automatic example-based induction of semantic translation rules to support natural language search | |
JP4714400B2 (ja) | スケーラブル機械翻訳システム | |
US20020078090A1 (en) | Ontological concept-based, user-centric text summarization | |
US10296584B2 (en) | Semantic textual analysis | |
US6101492A (en) | Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis | |
Azmi et al. | A text summarizer for Arabic | |
Alwaneen et al. | Arabic question answering system: a survey | |
Beirade et al. | Semantic query for Quranic ontology | |
JP2001511564A (ja) | 全体の精度を高めるためにサーチ結果の自然言語処理を用いる情報検索システムのための装置および方法 | |
KR20080084803A (ko) | 교차-언어 지식 검색을 위한 시스템 및 방법 | |
KR20040111715A (ko) | 검색 시스템에 사용하기 위해 텍스트 문서로부터 정보를검색하기 위한 자기 학습 시스템의 합성 방법 | |
Ekmekcioglu et al. | Stemming and n-gram matching for term conflation in Turkish texts | |
Girardi et al. | A similarity measure for retrieving software artifacts. | |
JP4065346B2 (ja) | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
Chien et al. | Internet Chinese information retrieval using unconstrained mandarin speech queries based on a client-server architecture and a PAT-tree-based language model | |
Lazarinis et al. | Current research issues and trends in non-English Web searching | |
Ding et al. | IR and AI: Using co-occurrence theory to generate lightweight ontologies | |
Torres-Parejo et al. | MTCIR: A multi-term tag cloud information retrieval system | |
Senellart | Locating noun phrases with finite state transducers | |
Moghadam et al. | Comparative study of various Persian stemmers in the field of information retrieval | |
Litkowski | Question Answering Using XML-Tagged Documents. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050617 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20070514 |