JPH1125129A

JPH1125129A - テキスト・データベース内の情報の検索方法

Info

Publication number: JPH1125129A
Application number: JP10172467A
Authority: JP
Inventors: Laurent Julliard; ジュリアールローラン
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1997-06-20
Filing date: 1998-06-19
Publication date: 1999-01-29
Also published as: EP0886226A1; DE69820343D1; EP0886226B1; DE69820343T2; GB9713019D0; US6202064B1

Abstract

(57)【要約】【課題】テキスト・データベース内の情報を検索する
方法を提供する。【解決手段】本方法は、自然言語表現を定義する少な
くとも１つのユーザ入力を受け取るステップ（ｓ１）
と、自然言語表現を品詞タグを含むタグ付きフォーム
（５０，５１）へ変換するステップ（ｓ２，ｓ３）と、
自然言語表現（４９）の言語の１つ又はそれ以上の文法
規則をタグ付きフォーム（５１）に適用して正則表現
（５２）を得るステップ（ｓ５）と、テキストデータベ
ースを分析して、ゼログラフィー正則表現（５２）とテ
キストデータベースの一部のマッチが存在するかどうか
を決定するステップとから成る。ユーザは与えたマルチ
ワード表現とマッチするテキストの部分を見つけ出すこ
とができる。マッチは、複数形／単数形、男性形／女性
形又は活用した動詞のような簡単な語形変化や、ユーザ
が指定したワードの間に追加の形容詞、副詞、等の挿入
のようなもっと複雑な変化を含み、言語学上の見地から
初期の基準に関係があると考えられる変化を含む。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、データ処理、より詳細
には、テキスト・データベースすなわちコーパス内の情
報を検索(seach) する技法に関するものである。

【０００２】

【従来の技術】テキスト・コーパス内の一片の情報を検
索するのに使用されるほとんどの技法は、サブストリン
グ検索（フルテキスト検索とも呼ばれる）に基づいてい
る。この基本的なストリング検索メカニズムは、ユーザ
が簡単な文字列以上のものを見つけたい場合に弱いの
で、データプロバイダによって、サブストリング・マッ
チングを向上させる種々の技法（ワイルドカード、正則
表現、ブール演算子、近接ファクタ（たとえば、ワード
は２つのワードの間の同じ文すなわちＮ個未満のワード
の中になければならない）、およびステミング）が開発
された。

【０００３】

【発明が解決しようとする課題】既存の技法は、ユーザ
が自然言語の可変性をよりうまく表現できるようにする
という同じような目標を達成しようとしていることが多
い。その場合、ストリング表現が現れるどんな場所も見
落とさないように、ストリング表現が検索されることに
なっている。

【０００４】しかし、既知の技法は幾つかの欠点に悩ん
でいる。すなわち、エンドユーザは検索エンジンが提案
した問合せ言語を学習しなければならない。さらに、２
つの検索エンジンは同じ問合せ言語を持っていない。さ
らに、もしユーザが検索した表現のすべての考えられる
変化を想像していなければ、幾つかの関係のあるドキュ
メントを見落とすことがある。さらに他方では、もし検
索の表現が「あいまい」過ぎれば、多くの関係のないド
キュメントが検索され、ノイズを発生するであろう。

【０００５】

【課題を解決するための手段】本発明は、テキストデー
タベース内の情報を検索する方法を提供する。本方法
は、（ａ）１つ又はそれ以上のワードを含む自然言語表
現を定義する、少なくとも１つのユーザ入力を受け取る
ステップと、（ｂ）前記自然言語表現を、前記１つ又は
それ以上のワードと、それに関連する品詞タグを含む、
タグ付きフォームの表現へ変換するステップと、（ｃ）
前記のタグ付きフォームに、自然言語表現の言語の１つ
又はそれ以上の文法規則を適用して、正則表現を得るス
テップと、（ｄ）テキストデータベースを分析して、前
記正則表現と前記テキストデータベースの部分とがマッ
チしているかどうかを決定するステップから成る。

【０００６】ステップ（ｂ）は、前記自然言語表現内の
そのワード又は各ワードについて、（ｂ１）ワードをそ
のルート（語幹）フォームへ変換し、（ｂ２）品詞タグ
をワードに付けて複合(complex) タグ付きフォームを生
成することにより、自然言語表現にタグを付けるステッ
プから成ることが好ましい。

【０００７】品詞タグは、構文カテゴリーマーカとモル
フォロジー的特徴マーカとを含んでおり、ステップ
（ｂ）は、さらに、そのモルフォロジー的特徴マーカを
除去することによって前記複合タグ付きフォームを簡単
化して、該タグ付きフォームを生成するステップ（ｂ
３）を含んでいることが好ましい。

【０００８】本方法は、さらに、（ｅ）前記正則表現と
マッチする前記テキスト・データベースの部分のロケー
ションを決定するステップを含んでいることが好まし
い。

【０００９】本方法は、さらに、特許請求の範囲に記載
のどれかの方法を実施するように、すなわちここに記載
した特定の実施例のどれかに従って、適当にプログラム
されたときのプログラム可能なデータ処理装置を提供す
る。

【００１０】本発明に係る言語学的検索技法は、上に述
べた問題の少なくとも一部を解決する。それらは、言語
学的ツール（たとえばトークナイザー（tokeniser)、モ
ルフォロジー的アナライザー（morphological analyse
r) 及びディスアンビギュエータ（disambiguator) )
と、テキスト・データベースにマッチさせるために複合
正則表現を生成することとの両方に頼っている。

【００１１】本メカニズムは、エンドユーザが難解な問
合せ言語を学習する必要がないので、基本的なフルテキ
スト検索エンジンにまさる利点を有する。エンドユーザ
は探しているマルチワード表現を自然言語でタイプする
だけでよい。

【００１２】さらに別の利点は、検索したドキュメント
が、言語学上の見地からの問合せによりいっそう意義を
有することである（すべての有効なドキュメントが、意
味の見地から、検索されることは保証しなけれど）。

【００１３】さらに別の利点は、言語学的処理によって
多くの変化が捕らえられることである。その結果、検索
したドキュメントが書かれた言語に慣れ親しんでいない
ユーザが、起きるかもしれない言語学的変化を知ってい
る必要はない。

【００１４】本発明に係る言語学的検索技法は、テキス
ト・データベース内の情報を検索する新しい方法を提供
する。それらの技法により、ユーザは与えたマルチワー
ドとマッチするテキストの部分を見つけ出すことができ
る。前記マッチは、複数形／単数形、男性形／女性形、
又は活用した動詞のような簡単な語形変化や、ユーザが
指定したワードの間に追加の形容詞、副詞、等の挿入の
ようなもっと複雑な変化を含み、言語学上の見地から初
期の基準に関係がある考えられる変化を含む。この技法
は、問合せとマッチしない検索したドキュメントの数を
減らすことによって、通常のフルテキスト検索エンジン
を補完することができる。

【００１５】

【発明の実施の形態】次に添付図面を参照して、本発明
の実施例を例として説明する。本発明を通常のコンピュ
ータ技術を使用して実施することができることは理解さ
れるであろう。本発明は Sun workstation running Sun
OS で Perl & C++ で実施した。本発明をこの分野で周
知の PC running Windows(登録商標) 、Mac running Ma
cOS 、又は minicomputer running UNIX を使用して実
施することができることは理解されるであろう。たとえ
ば、図１に示したＰＣハードウェア構成は、The Art of
Electronics, 2nd Edn, Ch. 10, P. Horowiz and W. H
ill. Cambridge University Press, 1989 に詳細に論じ
られている。簡単に述べると、システムは共通バス３０
に接続された、中央処理装置３２、ランダムアクセスメ
モリ（ＲＡＭ）３４、読出し専用メモリ（ＲＯＭ）３
６、及びディスク又はテープ又はＣＤ−ＲＯＭドライブ
を含む記憶装置３８、キーボード１２（図示せず）、マ
ウス１４（図示せず）、プリンタ又はプロッタ又はリー
ダー４０、および外部装置４６（たとえばＬＡＮ（図示
せず）のその他の部分）に対するインタフェースとなる
Ａ／Ｄ，Ｄ／Ａ装置４２と、ディジタル入出力装置４４
とで構成されている。

【００１６】図２は、本発明の実施例に従って言語学的
検索を実施するステップのフローチャートである。本発
明に係る技法を説明するために、ユーザが、フランス語
コーパスの中からフランス語の表現“syste(アクサン
"、" 付き)me distribue(アクサン"/" 付き) ”を検索
することになっている場合について考えてみる。

【００１７】最初に（ステップｓ１）、ユーザは、たと
えばこの分野で周知のグラフィックユーザインタフェー
スのタイプを使用して、探しているマルチワード表現を
指定する。この表現のフォーミュレーション（formulat
ion)には注意を払う必要はない。すなわち、名詞および
（又は）形容詞は複数形又は単数形のことがあるし、動
詞は活用形、等のことがある。

【００１８】次に、ステップｓ２において、その表現
は、ゼロックス社などから入手できるタガー(tagger)
（又はディスアンビギュエータ（disambiguator)へ送ら
れる。タガーは、 McEnery T. and Wilson A., Corpus
Linguistics, Ch. 5, section 3and Appendix B に詳
しく論じられている。タガー（又はディスアンビギュエ
ータ）は以下の２つのことを行う。すなわち、（１）各
ワードをそのルートフォームに変える（たとえば、dist
ribue(アクサン付き) は distribue（動詞の不定詞形）
になる) 、および（２）各ワードの品詞を決定する（た
とえば、syste(アクサン付き)me は、単数名詞−ＮＯＵ
Ｎ＿ＳＧ−であり、distribue(アクサン付き) は、単数
形容詞−ＡＤＪ＿ＳＧ−である）。ＮＯＵＮ＿ＳＧと、
ＡＤＪ＿ＳＧは、タグと呼ばれる。各タグは、２つの部
分、すなわち構文上のカテゴリー（すなわちＮＯＵＮ，
ＡＤＪ，ＶＥＲＢ，等のような品詞）と、ワードの語形
変化を反映するモルフォロジー上の特徴（ＳＧ，ＰＬ，
等のような）から成っている。

【００１９】タグ付きフォーム５０が得られたら、ステ
ップｓ３において、タグ付きフォーム５０は簡単化され
る。すなわち、言語学的検索プロセスはワードの考えら
れるすべての語形変化を検索することが望ましいので、
各タグは最初にその構文上の種別へ変えられる。ワード
の性、数、又は人称は言語学的検索には無用であるので
除去される。これは、形態構造特徴のすべての可能性を
包含するように“ＳＧ”，“ＰＬ”，等をそれぞれ中立
記号( ^*) で置き換えることから成る。

【００２０】続いてステップｓ４において、簡単化され
たタグ付きフォーム５１が処理される。言語の文法が与
えられれば、マルチワード表現が最初の意味を変えず
に、どんな種類の変化を受けることができるかを決定す
ることは可能である。以下の説明は、フランス語につい
て、名詞句の周囲に変化を生成するのに使用した規則の
一部を示す。（１）名詞と形容詞の間に、形容詞、副詞又は et (an
d), ou(or), etc. のような等位接続詞によって接続さ
れた過去分詞を挿入することができる。図２は、表現 s
yste( アクサン付き)me distribue(アクサン付き)sへこ
の規則の適用を示し、得られた正規表現の簡単化された
バージョンを示す（記号☆はタグに先行するワードを表
す）。例として、この正則表現によって見つかる幾つか
の言語学的変化を以下に示す。 → syste( アクサン付き)me distribue(アクサン付き)s
（distributed systems−複数形) → syste( アクサン付き)me relationnels distribue
(アクサン付き)s (distributed relational systems−
挿入された形容詞) → syste( アクサン付き)me redondant et totalement
distribues (fully redundant and distributed syste
m −挿入された形容詞と、等位接続詞によって結合され
た副詞）（２）名詞と前置詞の間、又は前置詞と名詞の間に追加
の形容詞を挿入することができる。

【００２１】（３）２つの名詞の間に追加の形容詞を挿
入することができる。上に挙げた規則はフランス語の名詞句に適用される。そ
れらは、副詞を含む語句を含め、他のあらゆる種類の語
句へ、さらに他のあらゆる言語へ拡張することができ
る。

【００２２】もしテキストの選択した部分について最初
の問合せとなお関係があるようにする良い機会があると
思われれば、これらの規則をほとんど望むように複雑に
することができることに注意されたい。たとえば、“sy
ste(アクサン付き)me a tole( アクサン付き)rance de
panne distribue(アクサン付き) ”(distributed fault
tolerant system) のように、名詞と形容詞の間に新し
い名詞句を挿入することができるであろう。あるいはさ
らに複雑なのは、“un syste( アクサン付き)me qui, p
ar nature, est totalement distribue(アクサン付き)
”(a system which, by essence, is fully distrebut
ed) のような関係節の挿入である。

【００２３】ステップｓ４で表現された文法規則は正則
表現で符号化され、ユーザ問合せの簡単化されたタグ付
きフォーム５１とマッチさせられる。もしそれらの規則
の１つがマッチすれば、ユーザ問合せの簡単化されたタ
グ付きフォーム５１は文法変化を表す複雑な正則表現に
変わる。

【００２４】文法規則がその自身又はそれ以外へ繰り返
して適用されるのを避けるために、各規則は順次一度だ
け適用される。

【００２５】マッチ用正則表現５２は、そのあと、ステ
ップｓ５において更に処理される。最終的な正則表現５
２が生成されたら、それはコーパスのタグ付きバージョ
ンとマッチさせされる。このステップに関して、以下の
ことに注意することが大切である。（１）上に述べたように、テキスト・コーパスのタグ付
きバージョンに対しマッチ処理を実施しなければならな
い。これは、前に述べたように、たとえばゼロックス社
から入手できるタガーを使用して行うことができる。タ
グ付け語句は、もしテキストが頻繁に変わるならば、オ
ンザフライで作ることもできるし、もしテキストが変わ
らなければ、すべてに対し一度作ることができる。（２）もしコーパスが大きければ、タグ付きテキストに
関する簡単な逐次検索は時間がかかり過ぎるであろう。
このタグ付け語句をスピードアップするため、フルテキ
スト索引付けエンジンを使用することができる。しか
し、ほとんどのフルテキスト検索エンジンがするように
原テキストに索引をつける代わりに、索引付けメカニズ
ムがテキスト・コーパスのタグ付きバージョンに適用さ
れる。

【００２６】（３）ほとんどの既存フルテキスト索引付
けエンジンは、複雑な正則表現で表現された検索問合せ
を扱うことができない。それゆえ、本発明に係る言語学
的検索システムによって生成された表現は、その状態で
検索エンジンへ与えることができない。実際には、簡単
化されたタグ付き表現の個々のワードに対し、予備検索
が行われる（ステップｓ２）。索引付けエンジンがどの
くらい複雑であるかに従って、ワードが見つかったファ
イルの名前のような非常に基本的な情報（グリムプス
（glimpse)検索エンジンが行うように) 、あるいは、ワ
ードが見つかった文の位置のようなさらに正確な情報
（ Xerox PATC Text Database TDB が行うように) をユ
ーザに与えることができる。この予備ステップは関係の
あるドキュメント（の一部）の範囲を狭くし、かつ正則
表現マッチプロセスの所要時間を減らす。

【００２７】（４）本発明に係る言語学的検索システム
の実施例の具体化は、 Perl の正則表現上の約束（又は
any flavour of awk) に基づいている。その具体化
は、ゼロックス社が開発した有限状態トランスジューサ
によって使用される正則表現形式で容易に置き換えるこ
とが可能なことは理解されるであろう。（ＥＰ−Ａ−５
８３，０８３号参照）。Perl (および awk) はユーザに
テキストのどんな部分がマッチしたかのほか、それがコ
ーパス内のどこに位置しているかを知らせるので、マッ
チメカニズムはゼロックス社が開発した有限状態トラン
スジューサでなく、 Perl の正則表現に基づいている。
この情報は、マッチが起きた場所を強調するために特に
重要である。この機能は２つの利点を有する。（１）マッチが起きた場所を見つけ出すため長いドキュ
メントのページをめくることを避けること、および
（２）もし文法規則によって許された言語学的変化が複
雑であれば、ユーザがタイプしたものとは全く異なるこ
とがある全体マッチ用マルチワード表現を示すこと。

【００２８】ステップｓ６は、正則表現をコーパスのタ
グ付きバージョンとマッチさせた後に実行される。上に
述べたように、Perl (又は awk) の正則表現メカニズム
はユーザにどんなストリングがマッチするかのほかに、
このストリングがテキスト内のどこに位置しているかを
知らすことができる。しかし、本発明に従って、正則表
現のマッチはコーパスのタグ付きバージョンに対し行わ
れるので、この位置確認情報は原テキストには適してい
ない。そこで、もしマッチを強調表示することを望むな
らば、タグ付きテキスト内のオフセットから原テキスト
内の実際のオフセットに進む方法を与えなければならな
い。一般に、これはコーパスのタグ付け中に作られた簡
単なオフセット・テーブルによって行われる。

【００２９】本発明に係る技法を実施する際にさまざま
な修正を行うことができることは理解されるであろう。

【００３０】言語学的検索はＷＥＢ検索エンジンに適用
することができるであろう。それらの問合せ言語はます
ます洗練化される傾向にあるが、今のところ言語学的検
索にぴったりしない。

【００３１】以上説明したプロセスは、最初に、検索す
ることになっているコーパスをディスアンビギュエート
する（タグを付ける）ことを仮定している。しかし、本
発明に係る技法を、たとえばＷＥＢ検索エンジンの前ス
テップとして使用することができることは理解されるで
あろう。ここで、必要なことは、ワードのすべての考え
られる形を生成し、それらのすべてを通常の検索エンジ
ン（すなわち、ワードのすべての得られた形に共通な少
なくともサブストリング）で検索することである。後
で、言語学的検索を適用することができる前に、その後
の処理（タグ付け）のために選択したドキュメントを検
索する必要がある。

【００３２】（参考文献）１．LOCOLEX: Translation Rolls off Your Tongue. Da
niel Bauer, Frederique Segond and Annie Zaenen, RX
RC, Grenoble, FRANCE, in the Proceedingsof the con
ference of the Association for Computers and the H
umanities and the Association for Literary and Lin
guestic Computing,(ACH-ALLC'95) Santa Barbara, US
A, July 1995. ２．SEXTANT: Extracting Semantics from Raw Text. G
regory Gregenstette, RXRC, Grenoble, FRANCE, in In
tegrated Computer-aided Engineering July1993. ３．Constructing Lexical Transducers. Lauri Karttu
nen, RXRC, Grenoble, FRANCE, in COLING'94 Proceedi
ngs. ４．Creating a tagset, lexicon and guesser for a F
rench tagger. Jean-Pierre Chanod and Pasi Tapanain
en, in Proceedings of ACL-SIGDAT, 1995. ５．Creating a terms and their Variats in a Lexica
lized Unification-Based Framework. Christian JACQU
EMIN and Jean ROYAUTE, in Proceedings ofACM-SIG In
formation Retrieval, July 1994. ６．Automatic Search Term Viant Generation. K. Spa
rc Jones, ComputerLaboratory, Unversity of Cambrid
ge, UK in Journal of Documentation, Vol. 40, No.
1, March 1984, pp.50-66. ７．Natural Language Processing: the PLNLP Approac
h. Karen Jensen, George E. Heirdon, Stephen D. Ric
hardson. Microsoft Corporation. KLUWER ACADEMIC PU
BLISHERS. ８．Information Retrieval and Virtual Libraries: t
he Callimaque model. Monica Beltrametti, Laurent J
ulliard, Francoise Renzetti. Proceedingsof CAIS'9
5.

【図面の簡単な説明】

【図１】本発明の実施例に係る技法を実施するため使用
できるコンピュータのブロック図である。

【図２】本発明の実施例に係る言語学的検索を実施する
場合のステップのフローチャートである。

【符号の説明】

１２キーボード１４マウス３０共通バス３２中央処理装置３４ＲＡＭ３６ＲＯＭ３８記憶装置４０プリンタ、プロッタ、リーダー４２Ａ／Ｄ変換器、Ｄ／Ａ変換器４４ディジタル入出力装置４６ＬＡＮ等の外部装置４９自然言語表現５０，５１自然言語表現のタグ付きフォーム５２正則表現

Claims

【特許請求の範囲】

【請求項１】テキスト・データベース内の情報の検索
方法において、（ａ）１つ又はそれ以上のワードを含む自然言語表現
（４９）を定義する、少なくとも１つのユーザ入力を受
け取るステップと、（ｂ）前記自然言語表現を、前記１つ又はそれ以上のワ
ードとそれに関連する品詞タグとを含む、該表現のタグ
付きのフォーム（５０，５１）へ変換するステップと、（ｃ）前記タグ付きフォーム（５１）に、前記自然言語
表現（４９）の言語の係る１つ又はそれ以上の文法規則
を適用して、正則表現（５２）を得るステップと、（ｄ）テキストデータベースを分析して、前記正則表現
（５２）と前記テキストデータベースの一部とのマッチ
が存在するかどうかを決定するステップとから成ること
を特徴とする方法。
【請求項２】請求項１に記載の方法において、前記ステップ（ｂ）は、前記自然言語表現（４９）内の
そのワード又は各ワードについて、（ｂ１）そのワード
をそのルートフォームへ変換して、（ｂ２）品詞タグを
ワードに付けて複合タグ付きフォーム（５０）を生成す
ることにより、該自然言語表現にタグを付けるステップ
から成ることを特徴とする方法。
【請求項３】プロセッサ、メモリ、およびユーザイン
タフェースを備え、請求項１および２のいずれかに記載
の方法を実施するように適当にプログラムされたときの
プログラム可能なデータ処理装置。