JP2005174336A - 情報抽出のための一般化文字列パターンの学習および使用 - Google Patents

情報抽出のための一般化文字列パターンの学習および使用 Download PDF

Info

Publication number
JP2005174336A
JP2005174336A JP2004354479A JP2004354479A JP2005174336A JP 2005174336 A JP2005174336 A JP 2005174336A JP 2004354479 A JP2004354479 A JP 2004354479A JP 2004354479 A JP2004354479 A JP 2004354479A JP 2005174336 A JP2005174336 A JP 2005174336A
Authority
JP
Japan
Prior art keywords
pattern
generalized
extraction
patterns
elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004354479A
Other languages
English (en)
Inventor
Hang Li
リ ハング
Cao Yunbo
カオ ユンボー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005174336A publication Critical patent/JP2005174336A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Abstract

【課題】 本発明は、情報源から情報を抽出することに関する。
【解決手段】 抽出時に、情報源の中の文字列がアクセスされる。情報源に含まれるこれらの文字列と、単語およびワイルドカードを含む一般化された抽出パターンとの照合が行われる。ワイルドカードは、個々の文字列と個々の一般化された抽出パターンとの照合のため個々の文字列の中の少なくとも1つの単語をスキップできることを表す。
【選択図】 図3

Description

本発明は、情報抽出に関する。特に、本発明は情報抽出を実行するシステムと方法に関する。
大量の情報を含む多くのデータベース、Webページ、およびドキュメントが存在する。従来、このような大量の既存の情報に対し、特定の主題に関係する関連情報を収集するためにさまざまな方法が用いられてきた。情報抽出とは、これらの情報源から有用な情報を抽出する手法を意味する。一般的に、情報抽出システムは、抽出パターン(または抽出規則)に基づいて情報を抽出する。
手作業で信頼できる抽出パターンを書いて開発するのは、困難であり、また時間もかかる。そのため、注釈付きの例から抽出パターンを自動的に学習する方法に対し多くの努力が費やされてきた。いくつかの自動学習システム(automatic learning systems)は、文章を構文解析し、その解析結果から文または句パターンを取得することにより自然言語パターンを学習する。他のアプローチは、構文的および意味論的制約を使用してパターンを発見する。
しかし、これらのアプローチは一般的に、開発コストが高い。他のアプローチでは、連続する表層文字列のパターン(consecutive surface string patterns)を使用して、情報の特定のペアについて情報を抽出する。これら連続するパターンは、抽出すべき少量の情報のみを対象としており、したがって信頼できる抽出を行えるように大量の情報に対しては十分に一般化できない。
上記の問題を解決するために、多くのさまざまな方法が考案されている。情報抽出に使用するパターンを正確にかつ効率よく学習するためのシステムおよび方法があれば、これらの問題および/または他の問題もさらに解消し、より信頼できる、費用効果の高い情報抽出システムを実現できるであろう。
本発明は、情報源から情報を抽出することに関する。抽出時に、情報源の中の文字列がアクセスされる。情報源に含まれるこれらの文字列と、単語およびワイルドカードを含む一般化された抽出パターンとの照合が行われる。ワイルドカードは、個々の文字列と個々の一般化された抽出パターンとの照合のため個々の文字列の中の少なくとも1つの単語をスキップできることを表す。
本発明の他の態様は、情報源から情報を抽出するためのコンピュータ読取り可能媒体である。媒体は、単語を含む一般化された抽出パターンの集合と少なくとも1つのオプション単語の位置を示す標識とからなるデータ構造を含む。媒体は、さらに、一般化された抽出パターンの集合を使用して情報源の中の文字列と一般化された抽出パターンとの照合を行う抽出モジュールも含む。
本発明のさらに他の態様は、情報源から情報を抽出する際に使用するパターンを生成する方法である。この方法は、主題に対応する少なくとも2つの要素を含む文字列の集合を確定することを含む。その文字列の集合に対応する一般化された抽出パターンの集合が生成される。一般化された抽出パターンは、少なくとも2つの要素、単語、および少なくとも1つのオプション単語の位置を示す標識を含む。
情報源から情報を抽出する際に使用するパターンを生成する他の方法も本発明に関係する。この方法では、主題に対応する少なくとも2つの要素を含み、単語および少なくとも2つの要素を含む文字列の集合内の連続するパターンを識別する文字列の集合を確定する。一般化された抽出パターンの集合は、識別された連続パターンから生成される。一般化された抽出パターンは、少なくとも2つの要素、単語、およびワイルドカードを含む。ワイルドカードは、連続パターンの組み合わせを表現する。
本発明は、情報抽出に関する。本明細書では情報抽出のためのパターンの作成に関して説明しているが、本発明は、他の種類の情報処理にも適用可能である。本発明について詳細に説明する前に、本発明を使用することができる具体的な環境の実施形態について説明する。
図1は、本発明を実装できる好適なコンピュータシステム環境100の一実施例の図である。コンピュータシステム環境100は、適切なコンピューティング環境の一例にすぎず、本発明の用途または機能性の範囲に関する制限を示唆する意図はない。コンピュータシステム環境100は、コンピュータシステム環境100に例示されている1つのコンポーネントまたはその組み合わせに関係する何らかの依存関係または要求条件があるものと解釈すべきでない。
本発明は、他の数多くの汎用または専用コンピュータシステム環境または構成で動作する。本発明とともに使用するのに好適と思われるよく知られているコンピュータシステム、環境、および/または構成の例として、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家電製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記システムまたはデバイスを含む分散コンピューティング環境などがあるがこれに限定されない。
本発明は、コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的文脈において説明することができる。一般に、プログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。また、本発明を、通信ネットワークを通じてリンクされているリモートプロセッシングデバイスによりタスクが実行される分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、プログラムモジュールをメモリ記憶デバイスなどのローカルとリモートの両方のコンピュータ記憶媒体に配置できる。以下では、図の助けを借りて、プログラムおよびモジュールにより実行されるタスクについて説明する。当業者であれば、説明および図を、プロセッサ実行可能命令として実装することができる。プロセッサ実行可能命令は、いかなる形態のコンピュータ読取り可能な媒体にも書き込むことが出来る。
図1を参照すると、本発明を実装するシステム例は、汎用コンピューティングデバイスをコンピュータ110の形で備えている。コンピュータ110が備えるコンポーネントとしては、処理ユニット120、システムメモリ130、およびシステムメモリを備えるさまざまなシステムコンポーネントを処理ユニット120に結合するシステムバス121などがあるがこれに限定されない。システムバス121には、メモリバスまたはメモリコントローラ、周辺機器バス、およびさまざまなバスアーキテクチャを使用するローカルバスを含む数種類のバス構造がありえる。例えば、このようなアーキテクチャとしては、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、およびメザニンバスとも呼ばれるPCI(Peripheral Component Interconnect)バスがあるがこれに限定されない。
コンピュータ110は通常、さまざまなコンピュータ読取り可能媒体を含む。コンピュータ読取り可能媒体は、コンピュータ110によってアクセスできる媒体であればどのような媒体でも1つであろうと複数であろうと使用でき、揮発性および不揮発性媒体、取り外し可能および取り外し不可能媒体を含むがこれに限定されない。例えば、コンピュータ読取り可能媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ読取り可能命令、データ構造体、プログラムモジュール、またはその他のデータなどの情報を格納する方法または技術で実装される揮発性および不揮発性、取り外し可能および取り外し不可能媒体を含む。
コンピュータ記憶媒体としては、RAM、ROM、EEPROM、フラッシュメモリまたはその他のメモリ技術、CD−ROM、デジタル多目的ディスク(DVD)またはその他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶デバイス、または目的の情報を格納するために使用することができコンピュータ110によりアクセスできるその他の媒体があるがこれに限定されない。
通信媒体は、通常、コンピュータ読取り可能命令、データ構造体、プログラムモジュール、または搬送波もしくはその他のトランスポートメカニズムなどの変調データ信号によるその他のデータを具現するものであり、任意の情報配信媒体を含む。「変調データ信号」という用語は、信号において情報を符号化する方法により信号の特性のうち1つまたは複数が設定または変更された信号を意味する。例えば、通信媒体としては、有線ネットワークまたは直接配線接続などの有線媒体、および、音響、RF、赤外線、およびその他の無線媒体などの無線媒体があるがこれに限定されない。上記のいずれの組み合わせもコンピュータ読取り可能媒体の範囲に収まらなければならない。
システムメモリ130は、読み取り専用メモリ(ROM)131およびランダムアクセスメモリ(RAM)132などの揮発性および/または不揮発性メモリの形態のコンピュータ記憶媒体を含む。起動時などにコンピュータ110内の要素間の情報伝送を助ける基本ルーチンを含む基本入出力システム(BIOS)133は、通常、ROM131に格納される。通常、RAM132は、処理ユニット120によって即座にアクセス可能な、および/または処理ユニット120によって現在操作されているデータおよび/またはプログラムモジュールを格納する。例えば、図1は、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、およびプログラムデータ137を例示しているがこれに限定されない。
コンピュータ110はさらに、その他の取り外し可能/取り外し不可能な揮発性/不揮発性コンピュータ記憶媒体を備えることもできる。例えば、図1は、取り外し不可能な不揮発性磁気媒体の読み書きを行うハードディスクドライブ141、取り外し可能な不揮発性磁気ディスク152の読み書きを行う磁気ディスクドライブ151、およびCD−ROMまたはその他の光媒体などの取り外し可能な不揮発性光ディスク156の読み書きを行う光ディスクドライブ155を示している。典型的なオペレーティング環境例で使用される得る他の取り外し可能/取り外し不可能な揮発性/不揮発性コンピュータ記憶媒体としては、磁気テープカセット、フラッシュメモリカード、デジタル多目的ディスク、デジタルビデオテープ、固体RAM、固体ROMなどがあるがこれに限定されない。ハードディスクドライブ141は、通常、インターフェース140などの取り外し不可能なメモリインターフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は、通常、インターフェース150などの取り外し可能なメモリインターフェースによりシステムバス121に接続される。
図1に示されている上記のドライブおよび関連するコンピュータ記憶媒体は、コンピュータ110用のコンピュータ読取り可能命令、データ構造体、プログラムモジュール、およびその他のデータを格納する機能を備える。例えば、図1では、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、およびプログラムデータ147を格納するものとして示されている。これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、およびプログラムデータ137と同じである場合もあれば異なる場合もあることに注意されたい。オペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、およびプログラムデータ147に対しては、ここで、異なる番号を割り当てて、最低でも、それが異なるコピーであることを示している。
ユーザは、キーボード162、マイク163、およびマウス、トラックボール、タッチパッドなどのポインティングデバイス161などの入力デバイスを介してコンピュータ110にコマンドおよび情報を入力できる。他の入力デバイス(図に示されていない)としては、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、スキャナなどがある。これらの入力デバイスやその他の入力デバイスは、システムバス121に結合されているユーザ入力インターフェース160を介して処理ユニット120に接続されることが多いが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)などの他のインターフェースおよびバス構造により接続することもできる。モニタ191またはその他の種類の表示デバイスも、ビデオインターフェース190などのインターフェースを介してシステムバス121に接続される。モニタの他に、コンピュータはさらにスピーカ197およびプリンタ196などの他の周辺出力デバイスも備えることができ、これらは出力周辺インターフェース195を介して接続することができる。
コンピュータ110は、リモートコンピュータ180などの1つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク環境で動作することもできる。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、またはその他の共通ネットワークノードでもよく、通常は、コンピュータ110に関係する上述の要素の多くまたはすべてを含む。図1に示されている論理接続は、ローカルエリアネットワーク(LAN)171とワイドエリアネットワーク(WAN)173を含むが、他のネットワークを含むこともできる。このようなネットワーキング環境は、オフィス、企業全体にわたるコンピュータネットワーク、イントラネット、およびインターネットでは一般的なものである。
LANネットワーキング環境で使用される場合、コンピュータ110はネットワークインターフェースまたはアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用される場合、コンピュータ110は、通常、モデム172またはインターネットなどのWAN173上で通信を確立するためのその他の手段を備える。モデム172は、内蔵でも外付けでもよいが、ユーザ入力インターフェース160またはその他の適切なメカニズムを介してシステムバス121に接続できる。ネットワーク接続環境では、コンピュータ110またはその一部に関して示されているプログラムモジュールは、リモートメモリ記憶デバイスに格納されることができる。例えば、図1には、リモートアプリケーションプログラム185がリモートコンピュータ180に常駐しているように示されている。図1に示されているネットワーク接続は典型例であり、コンピュータ間の通信リンクを確立するのに他の手段が使用可能であることは理解されるであろう。
図2は、データベース202から情報を抽出し、抽出された情報204の出力を供給する抽出モジュール200を例示している。後述のように、抽出モジュール200は、学習またはテスト用コーパスから学習した抽出パターンに基づいて動作する。当業者であれば理解するであろうが、抽出モジュール200は、抽出パターンを含み、および/または抽出を実行するためのパターンを含むデータ構造体にアクセスすることができる。抽出時に、抽出パターンにより、データベース202内の文字列の照合が行われる。本発明の実施例では、抽出パターンは、学習用コーパスに基づいて生成された単語、要素、およびワイルドカードを含む。本明細書で使用されているように、文字列は一連の単語を含み、単語は英語、ドイツ語、中国語、および日本語などのさまざまな種類の言語の単語とすることができる。要素は、特定の主題に関係する情報を含む変数であり、ワイルドカードは、文字列内の単語をスキップできること、および/または照合時のオプション単語の位置を示す標識である。データベース202は、さまざまな異なる情報源とすることができる。例えば、データベース202は、ドキュメントの集合体、ニュースグループ記事、顧客フィードバックデータの集合体、および/または他の種類の情報とすることができ、ローカルシステム上にまたはインターネットなどのワイドエリアネットワーク上に格納することができる。情報は、テキストまたは例えばテキストに変換できる音声データを含むその他の形式のものとすることができる。抽出された情報204は、データベース202内のデータを適切に分析するためにレビューするかまたはさらに処理できる特定の主題に関係する複数のドキュメントからの抜粋とすることができる。
情報抽出は、特定の主題に関係する情報を抽出することに関係する。抽出された情報は、その主題に関連する関係要素の対、3つ組などを含むことができる。例えば、製品リリース情報を抽出する場合、これらの要素は会社要素と製品要素を含むことができる。主題が書籍に関係する場合、要素は書籍のタイトルおよび著者の情報を含むことができる。他の関係する要素として、発明者および発明情報、質問および回答の対を含めることもできる。一般に、ある一つの主題に関連している要素のうち1つまたは複数を「アンカー」と呼ぶことがあり、これは、通常、文字列に含まれる情報が特定の主題に関連付けられていることを示す。例えば、製品は、製品リリース情報に関係する会社/製品対におけるアンカーとすることができる。本発明の一態様は、抽出のための要素を含むパターンを生成することに関係する。
図3は、抽出モジュール200により使用されるパターンを作成するためのさまざまなモジュールの流れ図を例示している。これらのモジュールは、パターン生成モジュール210およびパターンランク付けモジュール212を含む。パターン生成モジュール210は、正例コーパス(positive example corpus)214に基づいてパターンを作成する。正例コーパス214には、抽出すべき情報の主題に関係する要素を含むテキストの文字列が入っている。パターン生成モジュール210では、正例コーパス214内の正例を使用して連続パターンを生成する。さらに、パターン生成モジュール210は、ワイルドカードを使用してパターンの組み合わせを表すことができる。結果として、ランク付けされていないパターン216に示されている、パターン生成モジュール210により生成されるパターンは、一般化された文字列を含む一つの組み合わせを表す。
以下に、典型的な正例コーパス214の一部をなす学習事例を示す。これらの事例は、それぞれ<company>タグおよび<product>タグを使って注釈を入れた会社要素および製品要素を含んでいる。正例コーパス214内の肯定的学習事例は以下のとおりである。
Figure 2005174336
Figure 2005174336
正学習事例(positive training instances)が与えられた場合、主題に関係する要素を含む連続パターンを識別できる。例えば、以下の3つのパターンは上記事例から生成された連続パターンを表し、変数<company>および<product>は、特定の会社および製品情報を置き換えている。
Figure 2005174336
これらの連続パターンが与えられた場合、ワイルドカードを含む連続パターンの要素を表現する一般化された抽出パターンをパターン生成モジュール210により、以下のように作成することができる。
Figure 2005174336
ここで、ワイルドカード{\w+3}は、「the」と「availability」との間で最大3個までの単語をスキップできることを表す。上記の一般化された抽出パターンは、それぞれの連続パターンを「カバー」する、つまりそれぞれの連続パターンは一般化された抽出パターンによって表現することができる。一般化された抽出パターンをワイルドカードとともに使用することにより、以下の文から製品情報「Microsoft Office 60 Minute Internet Kit Version 2.0」が抽出されるが、それは単語「immediate worldwide」を含む連続パターンをわざわざ追加しなくても、このパターンで単語「immediate worldwide」をスキップすることができるからである。
Figure 2005174336
上記のように、パターン生成モジュール210は、ワイルドカードを含む正例コーパス214から生成されたランク付けされていないパターン216の出力をパターンランク付けモジュール212に供給する。パターンランク付けモジュール212は、正例および負例コーパス218を使用してパターン生成モジュール210から受け取ったパターンをランク付けする。負例は、1つの対のうち1つの要素を含むが、第2の要素、例えば上述のアンカーを含まない。例えば、以下の文は、会社情報を含むが、特定の製品を含まず、また製品リリースに関係していないため、負例である。
Figure 2005174336
パターン生成モジュール210から得られるパターンは、さまざまな方法を使用して、パターンランク付けモジュール212によりランク付けすることができる。一つの方法では、特定のパターンPの精度を計算するには、正例および負例コーパス218から抽出された正しい事例の数を、パターンPを使用して正例および負例コーパス218から抽出された事例の数で除算する。より高い精度値を持つパターンは、パターンランク付けモジュール212により高いランクが付けられる。さらに、一つの対応するパターンが、その対応するパターンが照合できるすべての正事例と一致する場合に、これらのパターンは削除することができる。そこで、精度値が低いパターンは削除することができる。
ランク付けされたパターン220は、抽出モジュール200を使用して抽出する際の基盤となる。その後、正例および/または負例222を使用することで、正しい有用な抽出された情報204を供給する抽出モジュール200のパフォーマンスを評価することができる。抽出するときに、まず高いランク付けのパターンを使用して、データベース202内の文字列の照合を行うことができる。一つの実施形態では、照合は、左から右への順序で実行される。例えば、パターン「x \w+ y \w+」では、xの出現の照合が行われ、次に、yの任意の出現の照合が行われる。
図4は、抽出モジュール200により使用されるパターンを作成しランク付けするための方法250を例示している。方法250は、アプリオリアルゴリズムと呼ばれるアルゴリズムに基づいている。アプリオリアルゴリズムは、下位集合および関連する上位集合が類似の属性を共有することを基盤としており、下位集合と上位集合の両方の特性を包含するように下位集合と上位集合の組み合わせを表現することができる。以下のアルゴリズムを使用することで、方法250に関して以下で詳しく説明する、一般化された抽出パターンを生成することができる。
以下に示すアルゴリズムでは、Sは入力文字列の集合(つまり、正例コーパス214)であり、PはSに含まれる単語の集合であり、pはPに含まれる個別の単語である。PおよびP(i−1)は、アルゴリズムのi番目の反復に対するパターンの集合であり、pおよびp(i−1)はi番目の集合内のパターンを表す。
Figure 2005174336
方法250は、ステップ252から始まり、ステップ252で入力文字列の集合が設定される。入力文字列の集合は、図3では正例コーパス214である。入力文字列の集合は、パターンを含み、要素の対の場合、情報要素の所望の対の両方の部分が含まれる。入力文字列の集合が確定した後、ワイルドカードを含む一般化された抽出パターンがステップ254で生成される。一般化された抽出パターン(上記アルゴリズム内のサブアルゴリズムfind-generalized-extraction-patterns() でもある)の生成については、図5を参照してさらに詳しく説明される。一般化された抽出パターンは単語および要素を含み、さらにはそのパターンの中に他の単語が出現することができることを示すワイルドカードをも含む。
その後、一般化された抽出パターンを評価して、それらが信頼できる抽出候補を表すかどうかを判別することができる。ステップ256で、制約条件を満たさないパターンは削除される。パターン生成モジュール210により生成された一般化された抽出パターンを削除するために、多数の異なる制約を使用することができる。「境界制約」と呼ばれる制約があり、境界制約では、アンカーの直前または直後にワイルドカードを置くことができない。この制約により、アンカー情報がどこで開始し終了するのかを判別するのが困難なパターンを排除することができる。例えば、下記の一般化された抽出パターンは削除される。
Figure 2005174336
上記の一般化された抽出パターンだと、「of Internet Explorer for no-charge download from the Internet」という文字列が、Microsoft Corp. today announced the immediate availability of Internet Explorer for no-charge download from the Internet.という文に対する製品であると不適切に判定する可能性がある。
他の制約として、「遠隔制約(distant constraint)」がある。遠隔制約では、ワイルドカードによりスキップできる単語の数を学習データに基づいてスキップされる単語の最大数以下に制限する。例えば、スキップすべき単語数を制限しない以下のパターンは使用されない。
Figure 2005174336
上記のパターンでは、「enterprise and electronic-commerce solutions based on the Microsoft Windows NT Server operating system and the BackOffice family of products」を下記の文に対応する製品情報として誤って抽出する可能性がある。
Figure 2005174336
他の制約としては「島に関する制約(island constraint)」と呼ばれる制約があり、これは、「孤立機能単語(isolated function word)」と呼ばれるものを禁止する。孤立機能単語は、一般に、抽出する情報に関係する特定の内容を含まない「the」、「a」、および「an」などの冠詞であり、ワイルドカードにより囲まれる。下記のパターンは、この島に関する制約条件を満たさない。
Figure 2005174336
上記のパターンだと、「Microsoft Entertainment Pack for the Windows CE operating system」を、以下の文に対して、リリースに関係しない製品情報として誤って抽出する可能性がある。
Figure 2005174336
ステップ258で、頻度しきい値を満たさないパターンは削除される。その結果、ふつう使用されないパターンは、このステップで削除される。ステップ260で、アンカーを含まないパターンは削除される。例えば、製品情報が関連する会社名とともに含まれないパターンは、情報抽出のためのパターンとして含まれない。これらのパターンが与えられた場合、パターンはステップ262でランク付けされる。上述のように、多くの異なるランク付け方法を使用して、パターンのランク付けを行うことができる。パターンのランクが低すぎる場合、削除することができる。
図5は、一般化された抽出パターンを生成する方法280を例示している。以下のアルゴリズムは、一般化された抽出パターンを生成するために使用することができ、上述のアルゴリズムのサブアルゴリズムとなっている。同じ変数が以下のアルゴリズムに適用される。
Figure 2005174336
方法280のステップ282で、正例コーパス214内の正事例から連続パターンが識別される。このステップは、上述のサブアルゴリズムの3行目から5行目に対応する。これらの連続パターンは、抽出する主題に関係する要素、例えば、会社と製品を含む。一方法では、類似の属性を共有する文字列の下位集合と上位集合とを組み合わせることにより入力文字列が与えられた場合に、パターンを再帰的に生成することができる。連続パターンが識別された後、方法280はステップ284に進み、そこで、連続パターンを組み合わせ、連続パターンをカバーする一般化された抽出パターンを表現することにより、ワイルドカードの位置および長さが識別される。このステップは、上述のサブアルゴリズムの6行目から8行目に対応する。次に、ステップ286でワイルドカードを含む一般化された抽出パターンが出力される。一般化された抽出パターンは、方法250に関して上で説明したようにさらに分析され、パターンの削除とランク付けが行われる。
上述の本発明を実装することにより、パターンの組み合わせを表し、より信頼性の高い情報抽出システムを実現する一般化された抽出パターンを作成できる。一般化された抽出パターンは、オプションの単語および/またはパターンの組み合わせが表現できる単語を照合時にスキップできることを表すワイルドカードに対する位置を含むことができる。抽出時に一般化されたパターンを使用することで、情報源に含まれる照合文字列を識別するためにさまざまな文字列の照合を行うことができる。
本発明は、特定の実施形態を参照しながら説明したが、当業者は本発明の精神と範囲を逸脱することなく形式と詳細に変更を加えられることを理解するであろう。
例示的なコンピュータシステム環境例の図である。 情報抽出の流れを示す図である。 情報抽出のためパターンを生成しランク付けする流れを示す図である。 一般化された抽出パターンを生成しランク付けする方法を説明する図である。 一般化された抽出パターンを生成する方法を説明する図である。
符号の説明
130 システムメモリ
134 オペレーティングシステム
135 アプリケーションプログラム
136 その他のプログラムモジュール
137 プログラムデータ
120 処理ユニット
190 ビデオインターフェース
195 出力周辺インターフェース
140 取り外し不可能不揮発性メモリインターフェース
150 取り外し可能不揮発性メモリインターフェース
160 ユーザ入力インターフェース
170 ネットワークインターフェース
144 オペレーティングシステム
145 アプリケーションプログラム
146 その他のプログラムモジュール
147 プログラムデータ
191 モニタ
196 プリンタ
197 スピーカ
171 ローカルエリアネットワーク
173 ワイドエリアネットワーク
172 モデム
162 キーボード
161 ポインティングデバイス
163 マイク
180 リモートコンピュータ
185 リモートアプリケーションプログラム
202 データ
200 抽出モジュール
204 抽出された情報
214 正例コーパス
210 パターン生成モジュール
216 ランク付けされていないパターン
218 正例および負例コーパス
212 パターンランク付けモジュール
220 ランク付けされたパターン
200 抽出モジュール
204 抽出された情報
222 正例および/または負例

Claims (24)

  1. 情報源から情報を抽出するコンピュータに実装された方法であって、
    前記情報源内の文字列にアクセスすることと、
    前記情報源に含まれる前記文字列と一般化された抽出パターンとを比較し、少なくとも1つの一般化された抽出パターンと照合する前記情報源の中の文字列を識別することであって、前記一般化された抽出パターンは、単語およびワイルドカードを含み、前記ワイルドカードは、個々の文字列と個々の一般化された抽出パターンとの照合を行うために前記個々の文字列の中の少なくとも1つの単語をスキップできることを表すこととを備えたことを特徴とするコンピュータに実装された方法。
  2. 前記情報源の中の文字列から照合のため識別されている少なくとも2つの要素を抽出することをさらに含み、前記少なくとも2つの要素は対応する一般化された抽出パターン内の少なくとも2つの対応する要素に基づいていることを特徴とする請求項1に記載のコンピュータに実装された方法。
  3. 前記一般化された抽出パターンのそれぞれにおける前記対応する要素の少なくとも1つについて、前記対応する要素のうちの前記少なくとも1つと前記ワイルドカードとの間に少なくとも1つの単語が配置されていることを特徴とする請求項2に記載のコンピュータに実装された方法。
  4. 前記ワイルドカードはスキップできる単語の数を示すことを特徴とする請求項1に記載のコンピュータに実装された方法。
  5. 情報源から情報を抽出するためのコンピュータ読取り可能媒体であって、
    単語を含む一般化された抽出パターンの集合と少なくとも1つのオプション単語の位置を示す標識を含むデータ構造と、
    一般化された抽出パターンの前記集合を使用して前記情報源の中の文字列と前記一般化された抽出パターンとの照合を行う抽出モジュールとを備えたことを特徴とするコンピュータ読取り可能媒体。
  6. 前記一般化された抽出パターンは、さらに、主題に関係する少なくとも2つの要素を含むことを特徴とする請求項5に記載のコンピュータ読取り可能媒体。
  7. 前記一般化された抽出パターンについて、前記要素のうちの少なくとも1つと前記標識との間に少なくとも1つの単語が配置されていることを特徴とする請求項6に記載のコンピュータ読取り可能媒体。
  8. 前記標識は情報抽出時にスキップできる単語の数を含むことを特徴とする請求項5に記載のコンピュータ読取り可能媒体。
  9. 情報源から情報を抽出する際に使用するパターンを生成する方法であって、
    主題に対応する少なくとも2つの要素を含む文字列の集合を確定することと、
    前記文字列集合に対応する一般化された抽出パターンの集合を生成することであって、前記一般化された抽出パターンは、前記少なくとも2つの要素、単語、および少なくとも1つのオプション単語の位置を示す標識を含むこととを備えたことを特徴とする方法。
  10. 前記文字列集合における頻度しきい値の条件を満たさないパターンを前記一般化された抽出パターンの集合から削除することをさらに含むことを特徴とする請求項9に記載の方法。
  11. 前記一般化された抽出パターン内の前記少なくとも2つの要素のうちの1つの隣にある前記標識を含むパターンを前記一般化された抽出パターンの集合から削除することを含むことを特徴とする請求項9に記載の方法。
  12. 前記標識によりスキップされる単語の数がしきい値よりも多いパターンを前記一般化された抽出パターンの集合から削除することを含むことを特徴とする請求項9に記載の方法。
  13. さらに前記一般化された抽出パターンの集合において前記一般化された抽出パターンをランク付けすることを含むことを特徴とする請求項9に記載の方法。
  14. ランク付けする前記ステップは、さらに、それぞれの一般化された抽出パターンの精度スコアを計算することを含むことを特徴とする請求項13に記載の方法。
  15. ランク付けしきい値の条件を満たさないパターンを前記一般化された抽出パターンの集合から削除することをさらに含むことを特徴とする請求項13に記載の方法。
  16. さらに特定の標識によりスキップされる単語の数を判別することを含むことを特徴とする請求項9に記載の方法。
  17. 情報源から情報を抽出する際に使用するパターンを生成する方法であって、
    主題に対応する少なくとも2つの要素を含む文字列の集合を確定することと、
    複数の単語を含む前記文字列集合内の連続パターンと前記少なくとも2つの要素を識別することと、
    識別された前記連続パターンから一般化された抽出パターンの集合を生成することであって、前記一般化された抽出パターンは、前記少なくとも2つの要素、単語およびワイルドカードを含み、前記ワイルドカードは前記連続パターンの組み合わせを表現することとを備えたことを特徴とする方法。
  18. 前記文字列集合における頻度しきい値の条件を満たさないパターンを前記一般化された抽出パターンの集合から削除することをさらに含むことを特徴とする請求項17に記載の方法。
  19. 前記一般化された抽出パターン内の前記少なくとも2つの要素のうちの1つの隣にあるワイルドカードを含むパターンを前記一般化された抽出パターンの集合から削除することを含むことを特徴とする請求項17に記載の方法。
  20. ワイルドカードによりスキップされる単語の数がしきい値よりも多いパターンを前記一般化された抽出パターンの集合から削除することを含むことを特徴とする請求項17に記載の方法。
  21. 前記一般化された抽出パターンの集合において前記一般化された抽出パターンをランク付けすることをさらに含むことを特徴とする請求項17に記載の方法。
  22. ランク付けする前記ステップは、さらに、それぞれの一般化された抽出パターンの精度スコアを計算することを含むことを特徴とする請求項21に記載の方法。
  23. ランク付けしきい値の条件を満たさないパターンを前記一般化された抽出パターンの集合から削除することをさらに含むことを特徴とする請求項21に記載の方法。
  24. 特定のワイルドカードによりスキップされる単語の数を判別することをさらに含むことを特徴とする請求項17に記載の方法。
JP2004354479A 2003-12-11 2004-12-07 情報抽出のための一般化文字列パターンの学習および使用 Withdrawn JP2005174336A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/733,541 US7299228B2 (en) 2003-12-11 2003-12-11 Learning and using generalized string patterns for information extraction

Publications (1)

Publication Number Publication Date
JP2005174336A true JP2005174336A (ja) 2005-06-30

Family

ID=34523068

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004354479A Withdrawn JP2005174336A (ja) 2003-12-11 2004-12-07 情報抽出のための一般化文字列パターンの学習および使用

Country Status (11)

Country Link
US (1) US7299228B2 (ja)
EP (1) EP1542138A1 (ja)
JP (1) JP2005174336A (ja)
KR (1) KR20050058189A (ja)
CN (1) CN1627300A (ja)
AU (1) AU2004229097A1 (ja)
BR (1) BRPI0404954A (ja)
CA (1) CA2487606A1 (ja)
MX (1) MXPA04011788A (ja)
RU (1) RU2004132977A (ja)
TW (1) TW200527229A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016134175A (ja) * 2015-01-21 2016-07-25 ゼロックス コーポレイションXerox Corporation ワイルドカードを用いてテキスト−画像クエリを実施するための方法およびシステム
JP2020064630A (ja) * 2019-10-11 2020-04-23 株式会社野村総合研究所 文章記号挿入装置及びその方法
JP2020064370A (ja) * 2018-10-15 2020-04-23 株式会社野村総合研究所 文章記号挿入装置及びその方法

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3962382B2 (ja) * 2004-02-20 2007-08-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 表現抽出装置、表現抽出方法、プログラム及び記録媒体
US7606797B2 (en) * 2005-02-24 2009-10-20 Kaboodle, Inc. Reverse value attribute extraction
US7630968B2 (en) * 2005-02-24 2009-12-08 Kaboodle, Inc. Extracting information from formatted sources
JP4645242B2 (ja) * 2005-03-14 2011-03-09 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
CN101779200B (zh) * 2007-06-14 2013-03-20 谷歌股份有限公司 词典词和短语确定方法和设备
US8332394B2 (en) 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
WO2010026804A1 (ja) * 2008-09-05 2010-03-11 日本電信電話株式会社 近似照合装置、近似照合方法、プログラム及び記録媒体
US8447632B2 (en) * 2009-05-29 2013-05-21 Hyperquest, Inc. Automation of auditing claims
US8255205B2 (en) 2009-05-29 2012-08-28 Hyperquest, Inc. Automation of auditing claims
US8346577B2 (en) 2009-05-29 2013-01-01 Hyperquest, Inc. Automation of auditing claims
US8073718B2 (en) 2009-05-29 2011-12-06 Hyperquest, Inc. Automation of auditing claims
US8892550B2 (en) 2010-09-24 2014-11-18 International Business Machines Corporation Source expansion for information retrieval and information extraction
RU2498401C2 (ru) * 2012-02-14 2013-11-10 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Способ обнаружения текстовых объектов
US10614725B2 (en) 2012-09-11 2020-04-07 International Business Machines Corporation Generating secondary questions in an introspective question answering system
US9262938B2 (en) 2013-03-15 2016-02-16 International Business Machines Corporation Combining different type coercion components for deferred type evaluation
WO2014193379A1 (en) * 2013-05-30 2014-12-04 Empire Technology Development Llc Controlling a massively multiplayer online role-playing game
KR101586258B1 (ko) 2014-09-30 2016-01-18 경북대학교 산학협력단 링크드 데이터 생성을 위한 패턴 충돌 해소 방법, 이를 수행하기 위한 기록 매체 및 장치
US10062208B2 (en) 2015-04-09 2018-08-28 Cinemoi North America, LLC Systems and methods to provide interactive virtual environments
CN109313650B (zh) * 2017-03-16 2023-05-26 微软技术许可有限责任公司 在自动聊天中生成响应
US10620945B2 (en) * 2017-12-21 2020-04-14 Fujitsu Limited API specification generation
US11023095B2 (en) 2019-07-12 2021-06-01 Cinemoi North America, LLC Providing a first person view in a virtual world using a lens
US10817576B1 (en) * 2019-08-07 2020-10-27 SparkBeyond Ltd. Systems and methods for searching an unstructured dataset with a query

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5606690A (en) * 1993-08-20 1997-02-25 Canon Inc. Non-literal textual search using fuzzy finite non-deterministic automata
US6785417B1 (en) * 2000-08-22 2004-08-31 Microsoft Corp Method and system for searching for words in ink word documents

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016134175A (ja) * 2015-01-21 2016-07-25 ゼロックス コーポレイションXerox Corporation ワイルドカードを用いてテキスト−画像クエリを実施するための方法およびシステム
JP2020064370A (ja) * 2018-10-15 2020-04-23 株式会社野村総合研究所 文章記号挿入装置及びその方法
JP2020064630A (ja) * 2019-10-11 2020-04-23 株式会社野村総合研究所 文章記号挿入装置及びその方法
JP7229144B2 (ja) 2019-10-11 2023-02-27 株式会社野村総合研究所 文章記号挿入装置及びその方法

Also Published As

Publication number Publication date
RU2004132977A (ru) 2006-04-27
BRPI0404954A (pt) 2005-08-30
AU2004229097A1 (en) 2005-06-30
US20050131896A1 (en) 2005-06-16
US7299228B2 (en) 2007-11-20
KR20050058189A (ko) 2005-06-16
EP1542138A1 (en) 2005-06-15
TW200527229A (en) 2005-08-16
CA2487606A1 (en) 2005-06-11
CN1627300A (zh) 2005-06-15
MXPA04011788A (es) 2005-07-05

Similar Documents

Publication Publication Date Title
JP2005174336A (ja) 情報抽出のための一般化文字列パターンの学習および使用
US10489439B2 (en) System and method for entity extraction from semi-structured text documents
JP7251181B2 (ja) 対訳処理方法および対訳処理プログラム
US8458198B1 (en) Document analysis and multi-word term detector
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
US20020046018A1 (en) Discourse parsing and summarization
KR20190062391A (ko) 전자 기록의 문맥 리트리벌을 위한 시스템 및 방법
US20170075983A1 (en) Subject-matter analysis of tabular data
Schofield et al. Quantifying the effects of text duplication on semantic models
US20150100308A1 (en) Automated Formation of Specialized Dictionaries
US9697099B2 (en) Real-time or frequent ingestion by running pipeline in order of effectiveness
JP2006073012A (ja) 予め定められた個数の予め定義された質問に応答することによって情報を管理するシステムおよび方法
WO2002021324A1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
Gupta et al. Designing and development of stemmer of Dogri using unsupervised learning
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2006343925A (ja) 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
Alsmadi et al. Issues related to the detection of source code plagiarism in students assignments
JP2009104296A (ja) 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP2008129943A (ja) 構造化文書生成方法及び装置及びプログラム
US20220179894A1 (en) Automatic document classification
Truskinger et al. Reconciling folksonomic tagging with taxa for bioacoustic annotations
US20220358287A1 (en) Text mining based on document structure information extraction
Husák Automatic retrieval of good dictionary examples
Denecke et al. Text classification based on limited bibliographic metadata

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080304