JP2011204225A

JP2011204225A - 属性抽出装置および方法

Info

Publication number: JP2011204225A
Application number: JP2011012566A
Authority: JP
Inventors: Qiangze Feng; フェンクアンゼ; Hongwei Qi; ザイホンウェイ
Original assignee: NEC China Co Ltd
Current assignee: NEC China Co Ltd
Priority date: 2010-03-25
Filing date: 2011-01-25
Publication date: 2011-10-13
Anticipated expiration: 2031-01-25
Also published as: CN102200983A; JP5054210B2

Abstract

【課題】非構造化テキストから新規属性を抽出するための装置および方法であって、属性相関知識に基づいて、シード属性と同じ出現パターンを有さない新規属性を抽出することのできる装置および方法を提供する。
【解決手段】この属性抽出装置は、入力された１つのインスタンスと少なくとも１つのシード属性とから、属性相関知識データベースに基づいて１つ以上の構文に合致するクエリを作成するクエリ作成ユニットと、当該クエリを使用して非構造化テキストデータベース内の非構造化テキストを検索するテキスト検索ユニットと、検索されたテキストに対して上記の構文に従ってテキスト照合を実行することにより、当該インスタンスの他の属性を抽出するテキスト照合ユニットとを備える。
【選択図】図１Ａ

Description

本発明はプレーンテキスト処理の分野に関し、特に、非構造化テキストから属性を抽出するための装置および方法に関する。

属性抽出プロセスとは、特定のデータソース（例：非構造化テキスト、構造化データ）から、所与のインスタンス（例：“中国”）に関する属性（例：“首都”、“人口”）を抽出するプロセスである。ブートストラップ属性抽出法とは、所与のインスタンスに関する既知のシード属性に基づいて、特定のデータソースから関連する新規属性を抽出する方法である。

このシード属性に基づく属性抽出法を使用すると、ユーザは属性知識を迅速に構築することができる。この場合、ユーザは１つのインスタンスに関していくつかの属性を構築するだけでよく、後はこの属性抽出法により新規属性が自動的に取得される。

この分野でこれまで提案された関連技術には、以下のようなものがある。

特許文献１（ＷＯ２００６／１３２７９３Ａ２）では、半構造化テキストから属性を抽出する方法が開示されている。この方法では、パターン学習法を使用して、テキスト内においてシード属性と同じ出現パターンで出現する新規属性のみが抽出される。

特許文献２（ＵＳ２００６／０１９０６８４Ａ１）では、半構造化テキストから属性を抽出する方法が開示されている（ｈｔｍｌタグを伴う属性）。この方法では、シード属性に基づいて関連する新規属性を抽出することはできない。

非特許文献１（ＢｏｏｔｓｔｒａｐｐｅｄＥｘｔｒａｃｔｉｏｎｏｆＣｌａｓｓＡｔｔｒｉｂｕｔｅｓ（クラス属性のブートストラップ抽出）（ＪｏｓｅｐｈＲｅｉｓｉｎｇｅｒおよびＭａｒｉｕｓＰａｓｃａ、２００９年ＷＷＷ会議（２００９年４月２４日）））では、非構造化テキストから属性を抽出するための方法が開示されている。この方法では、パターン学習法を使用して、テキスト内においてシード属性と同じ出現パターンで出現する新規属性のみが抽出される。

ＷＯ２００６／１３２７９３Ａ２ＵＳ２００６／０１９０６８４Ａ１

ＢｏｏｔｓｔｒａｐｐｅｄＥｘｔｒａｃｔｉｏｎｏｆＣｌａｓｓＡｔｔｒｉｂｕｔｅｓ（クラス属性のブートストラップ抽出）（ＪｏｓｅｐｈＲｅｉｓｉｎｇｅｒおよびＭａｒｉｕｓＰａｓｃａ、２００９年ＷＷＷ会議（２００９年４月２４日））

上述した既存の方法の多くは、構造化または半構造化テキストから属性を抽出することしかできない。非構造化テキストから属性を抽出できる方法は確かに存在するが、テキスト内においてシード属性と同じ出現パターンで出現する新規属性を抽出できるのみなので、十分な数の新規属性を取得することはできない。

本発明の目的は、非構造化テキストから新規属性を抽出するため、シード属性と同じ出現パターンを有さない新規属性を属性相関知識に基づいて抽出することのできる、シード属性に基づいて非構造化テキストから新規属性を自動的に抽出するための装置および方法を提供することにある。

本発明による属性抽出装置は、入力された１つのインスタンスと少なくとも１つのシード属性とから、属性相関知識データベースに基づいて１つ以上の構文に合致するクエリを作成するクエリ作成手段と、当該クエリを使用して非構造化テキストデータベース内の非構造化テキストを検索するテキスト検索手段と、検索されたテキストに対して上記の構文に従ってテキスト照合を実行することにより、当該インスタンスの他の属性を抽出するテキスト照合手段とを含む。

好ましい態様では、属性抽出装置は、入力されたインスタンスまたは少なくとも１つのシード属性から、同義語構文データベースに基づいてインスタンスまたはシード属性を拡張することにより、当該インスタンスまたはシード属性のすべての同義語を取得する拡張手段をさらに備え、かつクエリ作成手段は、インスタンスおよびシード属性のすべての同義語から、属性相関知識データベースに基づいて構文に合致するクエリをさらに作成する。

好ましくは、構文が、非構造化テキスト内に複数属性が頻繁に同時出現するパターンを表現した同時構文である。属性抽出装置は、１つのトレーニング専用インスタンスと少なくとも１つのトレーニング専用シード属性とから同時構文用クエリを作成し、同時構文用クエリを使用して非構造化テキストデータベースを検索し、さらに、検索されたテキストに基づいて、同時構文を抽出して属性相関知識データベースに格納する同時構文生成手段をさらに備える。

好ましくは、構文が、プレフィックス辞書を使用して、常に非構造化テキスト内の属性名の先頭に出現するプレフィックスを表現するプレフィックス構文である。属性抽出装置は、２つ以上の属性名の先頭に出現するプレフィックスを、候補プレフィックスとして属性辞書から抽出し、事前に設定された頻度を上回る出現頻度を有する１つの候補プレフィックスを選択し、それを属性相関知識データベース内のプレフィックス辞書に格納するプレフィックス構文生成手段をさらに備える。

好ましくは、構文が、サフィックス辞書を使用して、常に非構造化テキスト内の属性名の末尾に出現するサフィックスを表現するサフィックス構文である。属性抽出装置は、２つ以上の属性名の末尾に出現するサフィックスを、候補サフィックスとして属性辞書から抽出し、事前に設定された頻度を上回る出現頻度を有する１つの候補サフィックスを選択し、それを属性相関知識データベース内のサフィックス辞書に格納するサフィックス構文生成手段をさらに備える。

好ましくは、属性抽出装置は、シード同義語辞書から同義語構文用クエリを作成し、同義語構文用クエリを使用して非構造化テキストデータベースを検索し、さらに、検索されたテキストに基づいて候補同義語構文を抽出し、各候補同義語構文を検証し、検証済み同義語構文を同義語構文データベースに格納する同義語構文生成手段をさらに備える。

本発明による属性抽出方法は、入力された１つのインスタンスと少なくとも１つのシード属性とから、属性相関知識データベースに基づいて１つ以上の構文に合致するクエリを作成するステップと、当該クエリを使用して非構造化テキストデータベース内の非構造化テキストを検索するステップと、検索されたテキストに対して上記の構文に従ってテキスト照合を実行することにより、当該インスタンスの他の属性を抽出するステップとを含む。

好ましくは、属性抽出方法は、入力されたインスタンスまたは少なくとも１つのシード属性から、同義語構文データベースに基づいてインスタンスまたはシード属性を拡張することにより、当該インスタンスまたはシード属性のすべての同義語を取得するステップと、インスタンスおよびシード属性のすべての同義語から、属性相関知識データベースに基づいて構文に合致するクエリを作成するステップとをさらに含む。

好ましくは、構文は、非構造化テキスト内に複数属性が頻繁に同時出現するパターンを表現した同時構文である。属性抽出方法は、１つのトレーニング専用インスタンスと少なくとも１つのトレーニング専用シード属性とから同時構文用クエリを作成するステップと、同時構文用クエリを使用して非構造化テキストデータベースを検索するステップと、検索されたテキストに基づいて、同時構文を抽出して属性相関知識データベースに格納するステップとをさらに含む。

好ましくは、構文は、プレフィックス辞書を使用して、常に非構造化テキスト内の属性名の先頭に出現するプレフィックスを表現するプレフィックス構文である。属性抽出方法は、属性辞書から、２つ以上の属性名の先頭に出現するプレフィックスを候補プレフィックスとして抽出するステップと、事前に設定された頻度を上回る出現頻度を有する１つの候補プレフィックスを選択し、それを属性相関知識データベース内のプレフィックス辞書に格納するステップとをさらに含む。

好ましくは、構文は、サフィックス辞書を使用して、常に非構造化テキスト内の属性名の末尾に出現するサフィックスを表現するサフィックス構文である。属性抽出方法は、属性辞書から、２つ以上の属性名の末尾に出現するサフィックスを候補サフィックスとして抽出するステップと、事前に設定された頻度を上回る出現頻度を有する１つの候補サフィックスを選択し、それを属性相関知識データベース内のサフィックス辞書に格納するステップとをさらに含む。

好ましくは、属性抽出方法は、シード同義語辞書から同義語構文用クエリを作成するステップと、同義語構文用クエリを使用して非構造化テキストデータベースを検索するステップと、検索されたテキストに基づいて候補同義語構文を抽出するステップと、各候補同義語構文を検証し、検証済み同義語構文を同義語構文データベースに格納するステップとをさらに含む。

本発明によれば、シード属性に基づいて非構造化テキストから新規属性を自動的に抽出することができる。

以下では添付図面を参照して本発明の好適な実施例について説明するが、本発明を特徴付ける上記およびその他の目的、機能、および利点はこれにより明らかとなるであろう。

本発明による属性抽出装置１０００の概略ブロック図を示す。本発明による属性抽出方法２０００の概略フローチャートを示す。非構造化テキストデータベース１１１０の具体例を示す。同時構文の具体例を示す。プレフィックス辞書の具体例を示す。サフィックス辞書の具体例を示す。同時構文生成ユニット１４１０とその具体的な動作フローを示す。プレフィックス構文生成ユニット１４２０とその具体的な動作フローを示す。サフィックス構文生成ユニット１４３０とその具体的な動作フローを示す。属性相関知識データベース１１２０内で同時構文を生成する動作の具体例を示す。属性相関知識データベース１１２０内でプレフィックス辞書を生成する動作の具体例を示す。属性相関知識データベース１１２０内でサフィックス辞書を生成する動作の具体例を示す。同義語構文データベース１１３０の具体例を示す。同義語構文生成ユニット１４４０とその具体的な動作フローを示す。同義語構文データベース１１３０内で同義語構文を生成する動作の具体例を示す。インスタンスとシード属性を拡張する際の具体的なステップを示す。インスタンスとシード属性を拡張する際の具体的な拡張を示す。新規属性抽出の概略図を示す。同時構文に基づく新規属性抽出の具体例を示す。プレフィックス辞書に基づく新規属性抽出の具体例を示す。プレフィックス辞書に基づく新規属性抽出の具体例を示す。

上記図面においては、同じ部品は同じ参照記号を用いて示している。

以下では、図面を参照して本発明の好適な実施例を詳細に説明する。この説明においては、本発明の明確な理解が阻害されるのを回避するため、本発明にとって重要ではない詳細や機能は省略している。

図１Ａは、本発明による属性抽出装置１０００の概略ブロック図を示す。図１Ａに示すように、属性抽出装置１０００は、各非構造化テキストを１つの属性抽出データソースとして格納する非構造化テキストデータベース１１１０、属性相関知識を格納する属性相関知識データベース１１２０、および非構造化テキスト内の同義語関係を記述するすべての構文パターンを格納するオプションの同義語構文データベース１１３０（図１Ａでは破線で示す）のうち少なくとも１つのデータベースを格納するための、属性抽出装置１０００に外付けすることも可能な記憶ユニット１１００と、同義語構文データベース１１３０に基づいてインスタンスおよびシード属性の様々な同義語を取得するためのオプションの拡張ユニット１２００（図１Ａでは破線で示す）と、インスタンスおよびシード属性を元に、属性相関知識データベース１１２０に基づいて非構造化テキストからインスタンスの他の属性を抽出するための新規属性抽出ユニット１３００とを主に備える。

図１Ａに示すように、新規属性抽出装置１３００は、入力された１つのインスタンスおよび少なくとも１つのシード属性（もしくは当該インスタンスやシード属性のすべての同義語、またはその両方）から、属性相関知識データベース１１２０に基づいて１つ以上の構文に合致するクエリを作成する（これについては後述する）ためのクエリ作成ユニット１３１０と、当該クエリを使用して非構造化テキストデータベース１１１０内の非構造化テキストを検索するためのテキスト検索ユニット１３２０と、検索されたテキストに対して上記の構文に従ってテキスト照合を実行することにより、当該インスタンスの他の属性を抽出するためのテキスト照合ユニット１３３０とを備える。

図１Ｂは、本発明による属性抽出方法２０００の概略フローチャートを示す。図１Ｂに示すように、属性抽出方法２０００は主に、シード拡張ユニット１２００によって、同義語構文データベース１１３０に基づいて、入力されたインスタンスまたは少なくとも１つのシード属性から、当該インスタンスまたはシード属性を拡張することにより当該インスタンスまたはシード属性のすべての同義語を取得するためのオプションのステップＳ２１００（図１Ｂでは破線で示す）と、新規属性抽出ユニット１３００によって、入力された１つのインスタンスおよび少なくとも１つのシード属性（もしくは当該インスタンスやシード属性のすべての同義語、またはその両方）から、属性相関知識データベース１１２０に基づいて１つ以上の構文に合致するクエリを作成する（これについては後述する）ためのステップＳ２２００と、新規属性抽出ユニット１３００によって、当該クエリを使用して、非構造化テキストデータベース１１１０内のテキストを検索するためのステップＳ２３００と、新規属性抽出ユニット１３００によって、検索されたテキストに対して上記の構文に従ってテキスト照合を実行することにより、当該インスタンスの他の属性（新規属性）を抽出するための最終ステップＳ２４００とを主に備える。

図１Ａに戻ると、非構造化テキストデータベース１１１０はすべての非構造化テキストを格納し、属性抽出のデータソースとなる。非構造化テキストは、ウェブページ、文書、プレーンテキストなどの形式をとることができる。図２に、コンピュータに関するウェブページを格納する非構造化テキストデータベース１１１０の具体例を示す。

図１Ａに戻ると、属性相関知識データベース１１２０はすべての属性相関知識を格納する。属性相関知識の例としては、１）同時構文、２）プレフィックス辞書（プレフィックス構文）、および３）サフィックス辞書（サフィックス構文）、の３種類が挙げられる。

１）同時構文
同時構文は、非構造化テキスト内に複数属性が頻繁に同時出現するパターンを表現するものである。同時構文には、以下のような特殊記号が含まれる。
・＜？Ｃ＞：任意インスタンス
・＜Ａｉ＞：任意属性
・＜Ｘ１｜Ｘ２｜…＞：Ｘ１、Ｘ２、または他の語がここに出現する可能性がある。
・［Ｘ］：Ｘがここに出現するかもしれないし、出現しないかもしれない。
・｛Ｘ｝：複数個のＸがここに繰り返し出現する可能性がある。

図３Ａに、同時構文の具体例を示す。“＜Ａ１＞｛＜，｜ａｎｄ｜ｗｉｔｈ｜ｏｒ｜ａｓｗｅｌｌａｓ｜ａｎｄｉｔｓ｜…＞＜Ａ２＞｝［ｏｆ］＜？Ｃ＞”は同時構文である。この構文は、例えば、“ｈａｒｄｄｉｓｋ，ｍｅｍｏｒｙａｎｄＣＰＵｏｆｃｏｍｐｕｔｅｒ”（コンピュータのハードディスク、メモリ、およびＣＰＵ）という非構造化テキストと一致する。

２）プレフィックス辞書（プレフィックス構文）
プレフィックス辞書は、属性名でよく使われる接頭語（すなわち、常に属性名の先頭に出現する語）を格納する。

図３Ｂに、プレフィックス辞書の具体例を示す。“ａｖｅｒａｇｅ”（平均）、“ｍａｘｉｍｕｍ”（最大）、“ｓｔａｎｄａｒｄ”（標準）は、いずれも属性名の先頭にしばしば出現する接頭語である。例えば、“ａｖｅｒａｇｅｗａｇｅ”（平均賃金）、“ａｖｅｒａｇｅｐｅｒｆｏｒｍａｎｃｅ”（平均成績）、“ａｖｅｒａｇｅｌｏａｄ”（平均負荷）という属性はすべて、“ａｖｅｒａｇｅ”（平均）で始まっている。

３）サフィックス辞書（サフィックス構文）
サフィックス辞書は、属性名でよく使われる接尾語（すなわち、常に属性名の末尾に出現する語）を格納する。

図３Ｃに、サフィックス辞書の具体例を示す。“ｒａｔｉｏ”（率）、“ａｍｏｕｎｔ”（額）、“ｖａｌｕｅ”（値）は、いずれも属性名の末尾にしばしば出現する接頭語である。例えば、“ｒｅｓｏｌｕｔｉｏｎｒａｔｉｏ”（解像率）、“ｉｎｃｒｅａｓｅｒａｔｉｏ”（増加率）、“ｕｎｅｍｐｌｏｙｍｅｎｔｒａｔｉｏ”（失業率）という属性はすべて、“ｒａｔｉｏ”（率）で終わっている。

属性相関知識データベース１１２０内の同時構文は、同時構文生成ユニット１４１０によって、トレーニング専用インスタンスと少なくとも１つのトレーニング専用シード属性とから生成できる。図４Ａに示すように、同時構文生成ユニット１４１０の動作フローは具体的には以下のステップで構成される。

Ｓ４１０Ａ（クエリの作成）：クエリ『＜ｓｅｅｄａｔｔｒｉｂｕｔｅ１＞＊＜ｓｅｅｄａｔｔｒｉｂｕｔｅ２＞ｏｆ＜ｉｎｓｔａｎｃｅ＞』（＜インスタンス＞の＜シード属性１＞＊＜シード属性２＞）を生成する。
Ｓ４２０Ａ（テキストの検索）：クエリを使用して非構造化テキストデータベース１１１０を検索し、同時構文を含むすべてのテキストを取得する。ステップＳ４２０Ａにおいては、よく知られた任意のテキスト検索方法（ＡＰＩを起動するなど）を使用することができる。
Ｓ４３０Ａ（同時構文の抽出）：ステップＳ４２０Ａで検索された各テキストをクエリ『＜ｓｅｅｄａｔｔｒｉｂｕｔｅ１＞＊＜ｓｅｅｄａｔｔｒｉｂｕｔｅ２＞ｏｆ＜ｉｎｓｔａｎｃｅ＞』と照合し、その後同時構文を生成する。

図５Ａは、属性相関知識データベースにおいて同時構文によって生成された具体例を示す。“ｃｏｍｐｕｔｅｒ”（コンピュータ）は、“ｈａｒｄｄｉｓｋ”（ハードディスク）と“ｍｅｍｏｒｙ”（メモリ）という属性を有する。まず、クエリ『ｈａｒｄｄｉｓｋ＊ｍｅｍｏｒｙｏｆｃｏｍｐｕｔｅｒ』（コンピュータのハードディスク＊メモリ）（ステップＳ４１０Ａ）が作成される。その後、ＧｏｏｇｌｅＡＰＩを起動して、クエリと一致する１つの文を含む２つの検索済みテキスト『ｈａｒｄｄｉｓｋａｎｄｍｅｍｏｒｙｏｆｃｏｍｐｕｔｅｒ』（コンピュータのハードディスクおよびメモリ）および『ｈａｒｄｄｉｓｋｏｒｍｅｍｏｒｙｏｆｃｏｍｐｕｔｅｒ』（コンピュータのハードディスクまたはメモリ）が取得される（ステップＳ４２０Ａ）。これにより、同時構文“＜Ａ１＞＜ａｎｄ｜ｏｒ＞＜Ａ２＞ｏｆ＜？Ｃ＞”が抽出される（ステップＳ４３０Ａ）。

属性相関知識データベース１１２０内のプレフィックス辞書（プレフィックス構文）は、プレフィックス構文生成ユニット１４２０によって属性辞書から生成することができる。図４Ｂに、プレフィックス構文生成ユニット１４２０とその具体的な動作フローを示す。図４Ｂに示すように、プレフィックス構文生成ユニット１４２０の動作フローは具体的には以下のステップで構成される。

Ｓ４１０Ｂ（候補プレフィックスの抽出）：属性辞書から、２つ以上の属性名の先頭に出現するプレフィックスを候補プレフィックスとして抽出する。属性辞書は各インスタンスのすべての属性を含むものであり、よく知られた属性辞書を使用することができる。
Ｓ４２０Ｂ（候補プレフィックスの検証）：高い出現頻度を有する１つの候補プレフィックスを選択し、プレフィックス辞書に追加する。例えば、Ｎより大きい（＞）出現頻度を有するプレフィックスを選択することができる。ここで、Ｎはシステム構築時にユーザが設定できる自然数である。

図５Ｂに、属性相関知識データベース内でプレフィックス辞書を生成する動作の具体例を示す（Ｎ＝２）。属性辞書は、“ａｖｅｒａｇｅｗａｇｅ”（平均賃金）、“ａｖｅｒａｇｅｐｅｒｆｏｒｍａｎｃｅ”（平均成績）、“ｓｔａｎｄａｒｄｃｏｎｆｉｇｕｒａｔｉｏｎ”（標準構成）、“ｓｔａｎｄａｒｄ”（標準）などを含んでいる。まず、“ａｖｅｒａｇｅ”（出現頻度＝３）と“ｓｔａｎｄａｒｄ”（出現頻度＝２）というすべての候補プレフィックスが抽出される（ステップＳ４１０Ｂ）。そして、“ａｖｅｒａｇｅ”（出現頻度＝３＞Ｎ＝２）がプレフィックスとして選択される（ステップＳ４２０Ｂ）。

属性相関知識データベース１１２０内のサフィックス辞書（サフィックス構文）は、サフィックス構文生成ユニット１４３０によって属性辞書から生成することができる。図４Ｃに、サフィックス構文生成ユニット１４３０とその具体的な動作フローを示す。図４Ｃに示すように、サフィックス構文生成ユニット１４３０の動作フローは具体的には以下のステップで構成される。

Ｓ４１０Ｃ（候補サフィックスの抽出）：属性辞書から、２つ以上の属性名の末尾に出現するサフィックスを候補サフィックスとして抽出する。属性辞書は各インスタンスのすべての属性を含むものであり、よく知られた属性辞書を使用することができる。
Ｓ４２０Ｃ（候補サフィックスの検証）：高い出現頻度を有する１つの候補サフィックスを選択し、サフィックス辞書に追加する。例えば、Ｎより大きい（＞）出現頻度を有するサフィックスを選択することができる。ここで、Ｎはシステム構築時にユーザが設定できる自然数である。

図５Ｃに、属性相関知識データベース内でサフィックス辞書を生成する動作の具体例を示す（Ｎ＝２）。属性辞書は、“ｒｅｓｏｌｕｔｉｏｎｒａｔｉｏ”（解像率）、“ｉｎｃｒｅａｓｅｒａｔｉｏ”（増加率）、“ｕｎｅｍｐｌｏｙｍｅｎｔｒａｔｉｏ”（失業率）、““ｃａｐａｂｉｌｉｔｙ”（機能）、“ａｂｉｌｉｔｙ”（能力）などを含んでいる。まず、“ｒａｔｉｏ”（出現頻度＝３）と“ａｂｉｌｉｔｙ”（出現頻度＝２）というすべての候補サフィックスが抽出される（ステップＳ４１０Ｃ）。そして、“ｒａｔｉｏ”（出現頻度＝３＞Ｎ＝２）がサフィックスとして選択される（ステップＳ４２０Ｃ）。

図１Ａに戻ると、オプションの同義語構文データベース１１３０は、非構造化テキストの同義語関係を記述するすべての構文パターンを格納する。同義語構文のフォーマットは、属性相関知識データベース１１２０内の同時構文と同じである。図６に、同義語構文データベース１１３０の具体例を示す。

同義語構文とは、例えば、“＜ｆｕｌｌｎａｍｅ｜ａｂｂｒｅｖｉａｔｉｏｎ＞［ｏｆ］＜？Ｃ１＞［ｉｓ］＜？Ｃ２＞”、“＜ｓｙｎｏｎｙｍ｜ａｌｉａｓ｜ｂｙｎａｍｅ＞［ｏｆ］＜？Ｃ１＞［ｉｓ］＜？Ｃ２＞”、“＜Ｅｎｇｌｉｓｈ｜Ｅｎｇｌｉｓｈｎａｍｅ｜ｔｒａｎｓｌａｔｉｏｎ＞［ｏｆ］＜？Ｃ１＞［ｉｓ］＜？Ｃ２＞”のようなものである。この場合は、インスタンスＣ１およびＣ２は同義語関係を有する。

同義語構文データベース１１３０内の同義語構文は、同義語構文生成ユニット１４４０によってシード同義語辞書から生成することができる。図７に、同義語構文生成ユニット１４４０とその具体的な動作フローを示す。図７に示すように、同義語構文生成ユニット１４４０の動作フローは具体的には以下のステップで構成される。

Ｓ７１０（クエリの作成）：シード同義語辞書からクエリ『＜ｗｏｒｄ１＞＊＜ｗｏｒｄ２＞』（＜語１＞＊＜語２＞）を生成する。シード辞書はよく知られているが、すべての同義語をカバーすることはできない。シード同義語辞書内の各行は、“ｗｏｒｄ１ｗｏｒｄ２”である。これは、ｗｏｒｄ１とｗｏｒｄ２が同義語であることを示す。
Ｓ７２０（テキストの検索）：クエリを使用して非構造化テキストデータベース１１１０を検索し、同義語構文を含むすべてのテキストを取得する。ステップＳ７２０においては、よく知られた任意のテキスト検索方法（ＧｏｏｇｌｅＡＰＩを起動するなど）を使用することができる。
Ｓ７３０（候補構文の抽出）：Ｓ７２０において検索された各テキストをクエリ『＜ｗｏｒｄ１＞＊＜ｗｏｒｄ２＞』と照合して“＊”に対応する語を抽出することにより、候補同義語構文を生成する。
Ｓ７４０（候補同義語構文の検証）：各候補同義語構文を検証する。検証方法としては、以下のような方法を採用することができる。すなわち、候補同義語構文を特定の語（ｗｏｒｄ１ｗｏｒｄ２）で置換して、テキスト検索のためのクエリを生成する。そして、検索結果が事前に設定したしきい値ＴＨを下回る場合は、その構文を無効とみなす。ここで、ＴＨは、システム構築時にユーザが設定できる自然数である。

図８は、同義語構文生成の具体例を示す（ＴＨ＝１００）。“ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ”（パーソナルコンピュータ）の同義語は“ＰＣ”であることが既知とする。まず、“ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ＊ＰＣ”（パーソナルコンピュータ＊ｐｃ）というクエリが作成される（ステップＳ７１０）。続いて、ＧｏｏｇｌｅＡＰＩを起動して、各センテンスはクエリと一致する１つの文を含む検索済みの２つのテキスト“ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ２００ＰＣ”（パーソナルコンピュータ２００ＰＣ）および“ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ（ａｂｂｒｅｖｉａｔｅｄｔｏＰＣ”（パーソナルコンピュータ（略してＰＣ））が取得される（ステップＳ７２０）。その後、２つの候補同義語構文、“＜？Ｃ１＞２００＜？Ｃ２＞”および“＜？Ｃ１＞（ａｂｂｒｅｖｉａｔｅｄｔｏ＜？Ｃ２＞”が抽出される（ステップＳ７３０）。最後に、“ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ２００ＰＣ”で検索して取得されるテキストは４つのみ（＜ＴＨ＝１００）であるが、“ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ（ａｂｂｒｅｖｉａｔｅｄｔｏＰＣ”で検索して取得されるテキストは２０００個を超える（＞ＴＨ＝１００）。そのため、“＜？Ｃ１＞（ａｂｂｒｅｖｉａｔｅｄｔｏ＜？Ｃ２＞”が同義語構文として同義語構文データベース１１３０に格納される。

図１Ａに戻ると、オプションの拡張ユニット１２００は、同義語構文データベース１１３０から、インスタンスのすべての同義語とシード属性を取得する。

図９に、インスタンスとシード属性を拡張する際の具体的なステップを示す。

Ｓ９１０（クエリの作成）：各インスタンスまたはシード属性を同義語構文データベース１１３０内の各々のキーワードと連結することにより、クエリを生成する（例：『“＜ｉｎｓｔａｎｃｅｏｒｓｅｅｄａｔｔｒｉｂｕｔｅ＞”＜ｓｙｎｏｎｙｍ｜ａｌｉａｓ｜ｂｙｎａｍｅ｜…＞』（“＜インスタンスまたはシード属性＞”＜同義語｜別名｜通称｜…＞））。
Ｓ９２０（テキストの検索）：各クエリを使用して非構造化テキストデータベース１１１０を検索する。なお、ステップＳ９０２においては、ＧｏｏｇｌｅＡＰＩを起動するなどのよく知られた任意のテキスト検索方法を使用することができる。
Ｓ９３０（同義語の抽出）：ステップＳ９２０で検索された各テキストを同義語構文データベース１１３０内の個々の構文と照合し、対応する同義語を抽出する。

図１０に、インスタンスとシード属性を拡張する際の具体的なステップを示す。入力されたインスタンスは“ｃｏｍｐｕｔｅｒ”（コンピュータ）、シード属性は“ｒｅｓｏｌｕｔｉｏｎｒａｔｉｏ”（解像率）である。まず、“ｃｏｍｐｕｔｅｒ”と“ｒｅｓｏｌｕｔｉｏｎｒａｔｉｏ”に関して、『（ｓｙｎｏｎｙｍ｜ａｌｉａｓ｜ｂｙｎａｍｅ｜…）ｏｆ“ｃｏｍｐｕｔｅｒ”』（“ｃｏｍｐｕｔｅｒ”の（同義語｜別名｜通称｜…）および『（ｓｙｎｏｎｙｍ｜ａｌｉａｓ｜ｂｙｎａｍｅ｜…）ｏｆ “ｒｅｓｏｌｕｔｉｏｎｒａｔｉｏ”』（“ｒｅｓｏｌｕｔｉｏｎｒａｔｉｏ”の（同義語｜別名｜通称｜…））というクエリが生成される（ステップＳ９１０）。そして、テキストを検索して、“Ｗｈｙｔｈｅａｌｉａｓｏｆａｃｏｍｐｕｔｅｒｉｓｃｏｍｐｕｔｉｎｇｄｅｖｉｃｅ？”（コンピュータの別名が計算装置なのは何故ですか）や“Ｔｈｅｂｙｎａｍｅｏｆｒｅｓｏｌｕｔｉｏｎｒａｔｉｏｉｓｒｅｓｏｌｖｉｎｇｐｏｗｅｒ”（解像率の通称は解像力です）といった対応するテキストが取得される（ステップＳ９２０）。その後、これらのテキストが個々の同義語構文と照合され、“ｃｏｍｐｕｔｅｒ”と“ｒｅｓｏｌｕｔｉｏｎｒａｔｉｏ”の同義語としてそれぞれ“ｃｏｍｐｕｔｉｎｇｄｅｖｉｃｅ”と“ｒｅｓｏｌｖｉｎｇｐｏｗｅｒ”が抽出される（ステップＳ９３０）。

図１Ａに戻ると、新規属性抽出ユニット１３００は、インスタンスとシード属性を元に、属性相関知識データベース１１２０に基づいてインスタンスの他の属性（あるいは、拡張ユニット１２００によって拡張されている場合は、インスタンスおよびシード属性のすべての同義語）を抽出する。

図１１に、新規属性抽出の概略ブロック図を示す。これは、以下の３つの方法のうち少なくとも１つを使用して実装することができる。

１）同時構文に基づく新規属性の抽出
・同時構文に合致するクエリを作成するため、クエリ作成ユニット１３１０が、インスタンスおよびシード属性から、クエリ『“＜ｉｎｓｔａｎｃｅ＞”＜ｓｅｅｄａｔｔｒｉｂｕｔｅ１｜ｓｅｅｄａｔｔｒｉｂｕｔｅ２｜…＞』（“＜インスタンス＞”＜シード属性１｜シード属性２｜…＞）を生成する。
・テキスト検索を実行するため、テキスト検索ユニット１３２０が、当該クエリを使用して非構造化テキストデータベース１１１０を検索する。ここでは、よく知られた任意のテキスト検索方法（ＧｏｏｇｌｅＡＰＩを起動するなど）を使用することができる。
・同時構文と一致する新規属性を抽出するため、テキスト照合ユニット１３３０が、各検索済みテキストを個々の同時構文と照合して対応する新規属性を抽出する。

図１２に、同時構文に基づく新規属性抽出の具体例を示す。

・入力されたインスタンスは“ｃｏｍｐｕｔｅｒ”（コンピュータ）、シード属性は“ｐｒｉｃｅ”（価格）と“ｐｅｒｆｏｒｍａｎｃｅ”（性能）である。
・最初に、同時構文クエリ『“ｃｏｍｐｕｔｅｒ”（ｐｒｉｃｅ｜ｐｅｒｆｏｒｍａｎｃｅ）』（“コンピュータ”（価格｜性能））が作成される。
・次に、テキスト検索が実行され、“…ｏｆｃｏｍｐｕｔｅｒｐｅｒｆｏｒｍａｎｃｅａｎｄｉｔｓｅｖａｌｕａｔｉｏｎｃｒｉｔｅｒｉｏｎ，ｄａｔａｔｙｐｅａｎｄｄａｔａｒｅｐｒｅｓｅｎｔａｔｉｏｎ，ｐｒｉｎｃｉｐｌｅａｎｄｓｔｙｌｅｆｏｒｉｎｓｔｒｕｃｔｉｏｎｓｙｓｔｅｍｄｅｓｉｇｎ，ｓｃａｌａｒｐｉｐｅｌｉｎｅｔｅｃｈｎｏｌｏｇｙ…”（コンピュータ性能の…、およびその評価基準、データ型およびデータ表現、教示システム設計の原則およびスタイル、スカラーパイプライン技術…）のような相関テキストが取得される。
・最後に、テキストが同時構文“＜？Ｃ＞＜Ａ１＞｛＜、｜ａｎｄ｜ｗｉｔｈ｜ｏｒ｜ａｓｗｅｌｌａｓ｜ａｎｄｉｔｓ｜…＞＜Ａ２＞｝”と一致する。これにより、新規属性として“ｅｖａｌｕａｔｉｏｎｃｒｉｔｅｒｉｏｎ”（評価基準）、“ｄａｔａｔｙｐｅ”（データ型）、“ｄａｔａｒｅｐｒｅｓｅｎｔａｔｉｏｎ”（データ表現）が抽出される。

２）プレフィックス構文に基づく属性抽出
・プレフィックス構文に従ったクエリを作成するため、クエリ作成ユニット１３１０が、プレフィックス辞書に基づいてシード属性に含まれる接頭語を取得し、インスタンスを結合してクエリ“（＜ｐｒｅｆｉｘｗｏｒｄ１｜ｐｒｅｆｉｘｗｏｒｄ２｜…＞）＊ｏｆ＜ｉｎｓｔａｎｃｅ＞”（＜インスタンス＞の＜接頭語１｜接頭語２｜…＞）＊）を生成する。
・テキスト検索を実行するため、テキスト検索ユニット１３２０が、当該クエリを使用して非構造化テキストデータベース１１１０を検索する。ここでは、よく知られた任意のテキスト検索方法（ＧｏｏｇｌｅＡＰＩを起動するなど）を使用することができる。
・同じプレフィックスを有する新規属性を抽出するため、テキスト照合ユニット１３３０が、各検索済みテキストをクエリと照合して、同じ接頭語を有する新規属性をシード属性として抽出する。

図１３に、プレフィックス辞書に基づく新規属性抽出の具体例を示す。

・入力されたインスタンスは“ｃｏｍｐｕｔｅｒ”（コンピュータ）、シード属性は“ｐｅｒｆｏｒｍａｎｃｅ”（性能）および“ｍａｘｉｍｕｍｄｉｓｋｖｏｌｕｍｅ”（最大ディスク容量）である。・プレフィックス辞書が検索されて接頭語“ｍａｘｉｍｕｍ”（最大）が取得され、クエリ『ｍａｘｉｍｕｍ＊ｏｆｃｏｍｐｕｔｅｒ』（コンピュータの最大＊）が作成される。
・次に、テキスト検索によって、“…ｍａｘｉｍｕｍｃｏｎｎｅｃｔｉｏｎｓｏｆｃｏｍｐｕｔｅｒ”（…コンピュータの最大接続数）のような対応するテキストが取得される。
・最後に、新規属性“ｍａｘｉｍｕｍｃｏｎｎｅｃｔｉｏｎｓ”（最大接続数）が抽出される。

３）サフィックス構文に基づく属性抽出
・サフィックス構文に従ったクエリを作成するため、クエリ作成ユニット１３１０が、サフィックス辞書に基づいてシード属性に含まれる接尾語を取得し、インスタンスを結合してクエリ“（＜ｓｕｆｆｉｘｗｏｒｄ１｜ｓｕｆｆｉｘｗｏｒｄ２｜…＞）＊ｏｆ＜ｉｎｓｔａｎｃｅ＞”（＜インスタンス＞の＜接尾語１｜接尾語２｜…＞）＊）を生成する。
・テキスト検索を実行するため、テキスト検索ユニット１３２０が、当該クエリを使用して非構造化テキストデータベース１１１０を検索する。ここでは、よく知られた任意のテキスト検索方法（ＧｏｏｇｌｅＡＰＩを起動するなど）を使用することができる。
・同じサフィックスを有する新規属性を抽出するため、テキスト照合ユニット１３３０が、各検索済みテキストをクエリと照合して、同じ接尾語を有する新規属性をシード属性として抽出する。

図１４に、サフィックス辞書に基づく新規属性抽出の具体例を示す。

・入力されたインスタンスは“ｃｏｍｐｕｔｅｒ”（コンピュータ）、シード属性は“ｐｅｒｆｏｒｍａｎｃｅ”（性能）、“ｖｉｓｕａｌｍｅｍｏｒｙｖａｌｕｅ”（ビジュアルメモリ値）、および“ｒｅｓｏｌｕｔｉｏｎｒａｔｉｏ”（解像率）である。
・サフィックス辞書が検索されて接尾語“ｖａｌｕｅ”（値）および“ｒａｔｉｏ”（率）が取得され、クエリ『＊（ｖａｌｕｅ｜ｒａｔｉｏ）ｏｆｃｏｍｐｕｔｅｒ』（コンピュータの＊（値｜率））が作成される。
・次に、テキスト検索により、“ＭＡＣｖａｌｕｅｏｆｃｏｍｐｕｔｅｒ”（コンピュータのＭＡＣ値）と“ｐｏｐｕｌａｒｉｚａｔｉｏｎｒａｔｉｏｏｆｃｏｍｐｕｔｅｒ”（コンピュータの普及率）のような対応するテキストが取得される。
・最後に、新規属性“ＭＡＣｖａｌｕｅ”と“ｐｏｐｕｌａｒｉｚａｔｉｏｎｒａｔｉｏ”が抽出される。

上記の説明では、各ステップに関連していくつかの具体例を示した。発明者はこれらの具体例を相互に関連して列記するよう努めたが、列記された具体例が参照番号によって示唆される対応関係を有する必要があるわけではない。異なるステップにおいて参照番号の面で対応関係にない具体例を選択したとしても、選択した具体例の基礎を成す条件が相互に対立しない限り、これらの具体例によって複数の解決法を達成することが可能である。本発明の範囲にはこうした解決策がすべて内包される。

上記の説明では、本発明の解決法は例として示したに過ぎないことに留意されたい。本発明は上記のステップおよび要素構造に限定されるものではなく、実際の使用条件に合わせてこれらのステップや要素構造を変更および修正することが可能である。また、ステップおよび要素の中には、本発明の全体概念の実装において必須ではないものもある。したがって、本発明の重要な技術的特徴は、上記の特定の具体例にではなく、本発明の全体概念の実装における最低限の要件に限定される。

開示した本発明の実施例のさらに他の構成は、最初に簡単に説明し、その後方法の実施例において詳述したステップおよび動作のためのソフトウェアプログラムから成る。具体的には、このコンピュータプログラム製品は、計算装置上で稼働する間に関連の動作を提供するコンピュータプログラム論理が符号化された、コンピュータ可読媒体を備える実施例である。コンピュータプログラム論理が計算システムの少なくとも１つのプロセッサ上で実行されると、当該プロセッサを介して実施例の動作（ステップ）が実行される。本発明のこうした構成は、典型的には、光媒体（例：ＣＤ−ＲＯＭ）を始めとするコンピュータ可読媒体や、フロッピーディスクもしくはハードディスク等の各種タイプの媒体上で提供されるかもしくは符号化されたソフトウェア、コード、またはその他のデータ構造体、１つ以上のＲＯＭ、ＲＡＭ、もしくはＰＲＯＭチップ上のファームウェアもしくはマイクロコード、特定用途向け集積回路（ＡＳＩＣ）、ダウンロード可能なソフトウェアイメージ、または単一もしくは複数モジュール上の共有データベースとして提供される。ソフトウェアまたはファームウェアの形態をとる構成は、計算装置上にインストールし、当該計算装置内の１つ以上のプロセッサを介して本発明の実施例を実装することができる。ソフトウェアプロセスを、例えば他のエンティティ内のデータ通信装置や計算装置と共に稼働させると、本発明のシステムが提供される。本発明のシステムは、いくつかのソフトウェアプロセスを複数のデータ通信装置間に分散させたり、一連の小型専用コンピュータ上ですべてのソフトウェアプロセスを稼働させたり、あるいは単一のコンピュータ上ですべてのソフトウェアプロセスを稼働させたりすることにより実現することも可能である。

本発明の実施例は、厳密には、ソフトウェアプログラム、１台のデータ通信装置上のソフトウェアおよびハードウェア、独立したソフトウェア、または独立した回路として実装できることに留意されたい。

以上、本発明についてその好適な実施例を参照して説明してきたが、当該技術に精通した当業者には、本発明の精神と範囲から逸脱することなく様々な修正、変更、追加を行うことが可能なことは明らかであろう。したがって、本発明の範囲は上記の特定の実施例に限定されず、付記した請求項によってのみ限定される。

なお、上記実施形態の一部又は全部は、以下の付記のようにも記載されうるが、これに限定されない。

（付記１）
入力された１つのインスタンスと少なくとも１つのシード属性とから、属性相関知識データベースに基づいて１つ以上の構文に合致するクエリを作成するクエリ作成手段と、
前記クエリを使用して非構造化テキストデータベース内の非構造化テキストを検索するテキスト検索手段と、
検索されたテキストに対して前記構文に従ってテキスト照合を実行することにより、当該インスタンスの他の属性を抽出するテキスト照合手段と
を備えることを特徴とする属性抽出装置。

（付記２）
入力されたインスタンスまたは少なくとも１つのシード属性から、同義語構文データベースに基づいてインスタンスまたはシード属性を拡張することにより、前記インスタンスまたはシード属性のすべての同義語を取得する拡張手段をさらに備え、
前記クエリ作成手段は、インスタンスおよびシード属性のすべての同義語から、前記属性相関知識データベースに基づいて前記構文に合致するクエリをさらに作成することを特徴とする付記１に記載の属性抽出装置。

（付記３）
前記構文が、非構造化テキスト内に複数属性が頻繁に同時出現するパターンを表現した同時構文であることを特徴とする付記１又は付記２に記載の属性抽出装置。
（付記４）
１つのトレーニング専用インスタンスと少なくとも１つのトレーニング専用シード属性とから同時構文用クエリを作成し、同時構文用クエリを使用して非構造化テキストデータベースを検索し、さらに、検索されたテキストに基づいて、同時構文を抽出して前記属性相関知識データベースに格納する同時構文生成手段をさらに備えることを特徴とする付記３に記載の属性抽出装置。

（付記５）
前記構文が、プレフィックス辞書を使用して、常に非構造化テキスト内の属性名の先頭に出現するプレフィックスを表現するプレフィックス構文であることを特徴とする付記１又は付記２に記載の属性抽出装置。

（付記６）
２つ以上の属性名の先頭に出現するプレフィックスを、候補プレフィックスとして属性辞書から抽出し、事前に設定された頻度を上回る出現頻度を有する１つの候補プレフィックスを選択し、それを前記属性相関知識データベース内のプレフィックス辞書に格納するプレフィックス構文生成手段をさらに備えることを特徴とする付記５に記載の属性抽出装置。

（付記７）
前記構文が、サフィックス辞書を使用して、常に非構造化テキスト内の属性名の末尾に出現するサフィックスを表現するサフィックス構文であることを特徴とする付記１又は付記２に記載の属性抽出装置。

（付記８）
２つ以上の属性名の末尾に出現するサフィックスを、候補サフィックスとして属性辞書から抽出し、事前に設定された頻度を上回る出現頻度を有する１つの候補サフィックスを選択し、それを前記属性相関知識データベース内のサフィックス辞書に格納するサフィックス構文生成手段をさらに備えることを特徴とする付記７に記載の属性抽出装置。

（付記９）
シード同義語辞書から同義語構文用クエリを作成し、同義語構文用クエリを使用して非構造化テキストデータベースを検索し、さらに、検索されたテキストに基づいて候補同義語構文を抽出し、各候補同義語構文を検証し、検証済みの同義語構文を前記同義語構文データベースに格納する同義語構文生成手段をさらに備えることを特徴とする付記２に記載の属性抽出装置。

（付記１０）
入力された１つのインスタンスと少なくとも１つのシード属性とから、属性相関知識データベースに基づいて１つ以上の構文に合致するクエリを作成するステップと、
当該クエリを使用して非構造化テキストデータベース内の非構造化テキストを検索するステップと、
検索されたテキストに対して上記の構文に従ってテキスト照合を実行することにより、当該インスタンスの他の属性を抽出するステップと
を有することを特徴とする属性抽出方法。

（付記１１）
入力されたインスタンスまたは少なくとも１つのシード属性から、同義語構文データベースに基づいてインスタンスまたはシード属性を拡張することにより、前記インスタンスまたはシード属性のすべての同義語を取得するステップと、
インスタンスおよびシード属性のすべての同義語から、前記属性相関知識データベースに基づいて構文に合致するクエリを作成するステップとをさらに有することを特徴とする付記１０に記載の属性抽出方法。

（付記１２）
前記構文が、非構造化テキスト内に複数属性が頻繁に同時出現するパターンを表現した同時構文であることを特徴とする付記１０又は付記１１に記載の属性抽出方法。

（付記１３）
１つのトレーニング専用インスタンスと少なくとも１つのトレーニング専用シード属性とから同時構文用クエリを作成するステップと、
同時構文用クエリを使用して非構造化テキストデータベースを検索するステップと、
検索されたテキストに基づいて、同時構文を抽出して前記属性相関知識データベースに格納するステップとをさらに有することを特徴とする付記１２に記載の属性抽出方法。

（付記１４）
前記構文が、プレフィックス辞書を使用して、常に非構造化テキスト内の属性名の先頭に出現するプレフィックスを表現するプレフィックス構文であることを特徴とする付記１０又は付記１１に記載の属性抽出方法。

（付記１５）
属性辞書から、２つ以上の属性名の先頭に出現するプレフィックスを候補プレフィックスとして抽出するステップと、
事前に設定された頻度を上回る出現頻度を有する１つの候補プレフィックスを選択すし、それを前記属性相関知識データベース内のプレフィックス辞書に格納するステップとをさらに有することを特徴とする付記１４に記載の属性抽出方法。

（付記１６）
前記構文が、サフィックス辞書を使用して、常に非構造化テキスト内の属性名の末尾に出現するサフィックスを表現するサフィックス構文であることを特徴とする付記１０又は付記１１に記載の属性抽出方法。

（付記１７）
属性辞書から、２つ以上の属性名の末尾に出現するサフィックスを候補サフィックスとして抽出するステップと、
事前に設定された頻度を上回る出現頻度を有する１つの候補サフィックスを選択し、それを属性相関知識データベース内のサフィックス辞書に格納するステップとをさらに有することを特徴とする付記１６に記載の属性抽出方法。

（付記１８）
シード同義語辞書から同義語構文用クエリを作成するステップと、
同義語構文用クエリを使用して非構造化テキストデータベースを検索するステップと、
検索されたテキストに基づいて候補同義語構文を抽出するステップと、
各候補同義語構文を検証し、検証済み同義語構文を同義語構文データベースに格納するステップとをさらに有することを特徴とする付記１１に記載の属性抽出方法。

１２００：拡張ユニット
１３１０：クエリ作成ユニット
１３２０：テキスト検索ユニット
１３３０：テキスト照合ユニット
１３００：新規属性抽出ユニット
１０００：属性抽出手段
１１００：記憶ユニット
１１３０：同義語構文データベース
１１２０：属性相関知識データベース
１１１０：非構造化テキストデータベース
２０００：属性抽出方法
１４１０：同時構文生成ユニット
１４２０：プレフィックス構文生成ユニット
１４３０：サフィックス構文生成ユニット
１４４０：同義語構文生成ユニット

Claims

入力された１つのインスタンスと少なくとも１つのシード属性とから、属性相関知識データベースに基づいて１つ以上の構文に合致するクエリを作成するクエリ作成手段と、
前記クエリを使用して非構造化テキストデータベース内の非構造化テキストを検索するテキスト検索手段と、
検索されたテキストに対して前記構文に従ってテキスト照合を実行することにより、当該インスタンスの他の属性を抽出するテキスト照合手段と
を備えることを特徴とする属性抽出装置。
入力されたインスタンスまたは少なくとも１つのシード属性から、同義語構文データベースに基づいてインスタンスまたはシード属性を拡張することにより、前記インスタンスまたはシード属性のすべての同義語を取得する拡張手段をさらに備え、
前記クエリ作成手段は、インスタンスおよびシード属性のすべての同義語から、前記属性相関知識データベースに基づいて前記構文に合致するクエリをさらに作成することを特徴とする請求項１に記載の属性抽出装置。
前記構文が、非構造化テキスト内に複数属性が頻繁に同時出現するパターンを表現した同時構文であることを特徴とする請求項１又は請求項２に記載の属性抽出装置。
１つのトレーニング専用インスタンスと少なくとも１つのトレーニング専用シード属性とから同時構文用クエリを作成し、同時構文用クエリを使用して非構造化テキストデータベースを検索し、さらに、検索されたテキストに基づいて、同時構文を抽出して前記属性相関知識データベースに格納する同時構文生成手段をさらに備えることを特徴とする請求項３に記載の属性抽出装置。
前記構文が、プレフィックス辞書を使用して、常に非構造化テキスト内の属性名の先頭に出現するプレフィックスを表現するプレフィックス構文であることを特徴とする請求項１又は請求項２に記載の属性抽出装置。
２つ以上の属性名の先頭に出現するプレフィックスを、候補プレフィックスとして属性辞書から抽出し、事前に設定された頻度を上回る出現頻度を有する１つの候補プレフィックスを選択し、それを前記属性相関知識データベース内のプレフィックス辞書に格納するプレフィックス構文生成手段をさらに備えることを特徴とする請求項５に記載の属性抽出装置。
前記構文が、サフィックス辞書を使用して、常に非構造化テキスト内の属性名の末尾に出現するサフィックスを表現するサフィックス構文であることを特徴とする請求項１又は請求項２に記載の属性抽出装置。
２つ以上の属性名の末尾に出現するサフィックスを、候補サフィックスとして属性辞書から抽出し、事前に設定された頻度を上回る出現頻度を有する１つの候補サフィックスを選択し、それを前記属性相関知識データベース内のサフィックス辞書に格納するサフィックス構文生成手段をさらに備えることを特徴とする請求項７に記載の属性抽出装置。
シード同義語辞書から同義語構文用クエリを作成し、同義語構文用クエリを使用して非構造化テキストデータベースを検索し、さらに、検索されたテキストに基づいて候補同義語構文を抽出し、各候補同義語構文を検証し、検証済みの同義語構文を前記同義語構文データベースに格納する同義語構文生成手段をさらに備えることを特徴とする請求項２に記載の属性抽出装置。
入力された１つのインスタンスと少なくとも１つのシード属性とから、属性相関知識データベースに基づいて１つ以上の構文に合致するクエリを作成するステップと、
当該クエリを使用して非構造化テキストデータベース内の非構造化テキストを検索するステップと、
検索されたテキストに対して上記の構文に従ってテキスト照合を実行することにより、当該インスタンスの他の属性を抽出するステップと
を有することを特徴とする属性抽出方法。