JP2011204225A - 属性抽出装置および方法 - Google Patents

属性抽出装置および方法 Download PDF

Info

Publication number
JP2011204225A
JP2011204225A JP2011012566A JP2011012566A JP2011204225A JP 2011204225 A JP2011204225 A JP 2011204225A JP 2011012566 A JP2011012566 A JP 2011012566A JP 2011012566 A JP2011012566 A JP 2011012566A JP 2011204225 A JP2011204225 A JP 2011204225A
Authority
JP
Japan
Prior art keywords
attribute
syntax
text
query
synonym
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011012566A
Other languages
English (en)
Other versions
JP5054210B2 (ja
Inventor
Qiangze Feng
フェン クアンゼ
Hongwei Qi
ザイ ホンウェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Publication of JP2011204225A publication Critical patent/JP2011204225A/ja
Application granted granted Critical
Publication of JP5054210B2 publication Critical patent/JP5054210B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 非構造化テキストから新規属性を抽出するための装置および方法であって、属性相関知識に基づいて、シード属性と同じ出現パターンを有さない新規属性を抽出することのできる装置および方法を提供する。
【解決手段】 この属性抽出装置は、入力された1つのインスタンスと少なくとも1つのシード属性とから、属性相関知識データベースに基づいて1つ以上の構文に合致するクエリを作成するクエリ作成ユニットと、当該クエリを使用して非構造化テキストデータベース内の非構造化テキストを検索するテキスト検索ユニットと、検索されたテキストに対して上記の構文に従ってテキスト照合を実行することにより、当該インスタンスの他の属性を抽出するテキスト照合ユニットとを備える。
【選択図】 図1A

Description

本発明はプレーンテキスト処理の分野に関し、特に、非構造化テキストから属性を抽出するための装置および方法に関する。
属性抽出プロセスとは、特定のデータソース(例:非構造化テキスト、構造化データ)から、所与のインスタンス(例:“中国”)に関する属性(例:“首都”、“人口”)を抽出するプロセスである。ブートストラップ属性抽出法とは、所与のインスタンスに関する既知のシード属性に基づいて、特定のデータソースから関連する新規属性を抽出する方法である。
このシード属性に基づく属性抽出法を使用すると、ユーザは属性知識を迅速に構築することができる。この場合、ユーザは1つのインスタンスに関していくつかの属性を構築するだけでよく、後はこの属性抽出法により新規属性が自動的に取得される。
この分野でこれまで提案された関連技術には、以下のようなものがある。
特許文献1(WO 2006/132793 A2)では、半構造化テキストから属性を抽出する方法が開示されている。この方法では、パターン学習法を使用して、テキスト内においてシード属性と同じ出現パターンで出現する新規属性のみが抽出される。
特許文献2(US 2006/0190684 A1)では、半構造化テキストから属性を抽出する方法が開示されている(htmlタグを伴う属性)。この方法では、シード属性に基づいて関連する新規属性を抽出することはできない。
非特許文献1(Bootstrapped Extraction of Class Attributes(クラス属性のブートストラップ抽出)(Joseph ReisingerおよびMarius Pasca、2009年WWW会議(2009年4月24日)))では、非構造化テキストから属性を抽出するための方法が開示されている。この方法では、パターン学習法を使用して、テキスト内においてシード属性と同じ出現パターンで出現する新規属性のみが抽出される。
WO 2006/132793 A2 US 2006/0190684 A1
Bootstrapped Extraction of Class Attributes(クラス属性のブートストラップ抽出)(Joseph ReisingerおよびMarius Pasca、2009年WWW会議(2009年4月24日))
上述した既存の方法の多くは、構造化または半構造化テキストから属性を抽出することしかできない。非構造化テキストから属性を抽出できる方法は確かに存在するが、テキスト内においてシード属性と同じ出現パターンで出現する新規属性を抽出できるのみなので、十分な数の新規属性を取得することはできない。
本発明の目的は、非構造化テキストから新規属性を抽出するため、シード属性と同じ出現パターンを有さない新規属性を属性相関知識に基づいて抽出することのできる、シード属性に基づいて非構造化テキストから新規属性を自動的に抽出するための装置および方法を提供することにある。
本発明による属性抽出装置は、入力された1つのインスタンスと少なくとも1つのシード属性とから、属性相関知識データベースに基づいて1つ以上の構文に合致するクエリを作成するクエリ作成手段と、当該クエリを使用して非構造化テキストデータベース内の非構造化テキストを検索するテキスト検索手段と、検索されたテキストに対して上記の構文に従ってテキスト照合を実行することにより、当該インスタンスの他の属性を抽出するテキスト照合手段とを含む。
好ましい態様では、属性抽出装置は、入力されたインスタンスまたは少なくとも1つのシード属性から、同義語構文データベースに基づいてインスタンスまたはシード属性を拡張することにより、当該インスタンスまたはシード属性のすべての同義語を取得する拡張手段をさらに備え、かつクエリ作成手段は、インスタンスおよびシード属性のすべての同義語から、属性相関知識データベースに基づいて構文に合致するクエリをさらに作成する。
好ましくは、構文が、非構造化テキスト内に複数属性が頻繁に同時出現するパターンを表現した同時構文である。属性抽出装置は、1つのトレーニング専用インスタンスと少なくとも1つのトレーニング専用シード属性とから同時構文用クエリを作成し、同時構文用クエリを使用して非構造化テキストデータベースを検索し、さらに、検索されたテキストに基づいて、同時構文を抽出して属性相関知識データベースに格納する同時構文生成手段をさらに備える。
好ましくは、構文が、プレフィックス辞書を使用して、常に非構造化テキスト内の属性名の先頭に出現するプレフィックスを表現するプレフィックス構文である。属性抽出装置は、2つ以上の属性名の先頭に出現するプレフィックスを、候補プレフィックスとして属性辞書から抽出し、事前に設定された頻度を上回る出現頻度を有する1つの候補プレフィックスを選択し、それを属性相関知識データベース内のプレフィックス辞書に格納するプレフィックス構文生成手段をさらに備える。
好ましくは、構文が、サフィックス辞書を使用して、常に非構造化テキスト内の属性名の末尾に出現するサフィックスを表現するサフィックス構文である。属性抽出装置は、2つ以上の属性名の末尾に出現するサフィックスを、候補サフィックスとして属性辞書から抽出し、事前に設定された頻度を上回る出現頻度を有する1つの候補サフィックスを選択し、それを属性相関知識データベース内のサフィックス辞書に格納するサフィックス構文生成手段をさらに備える。
好ましくは、属性抽出装置は、シード同義語辞書から同義語構文用クエリを作成し、同義語構文用クエリを使用して非構造化テキストデータベースを検索し、さらに、検索されたテキストに基づいて候補同義語構文を抽出し、各候補同義語構文を検証し、検証済み同義語構文を同義語構文データベースに格納する同義語構文生成手段をさらに備える。
本発明による属性抽出方法は、入力された1つのインスタンスと少なくとも1つのシード属性とから、属性相関知識データベースに基づいて1つ以上の構文に合致するクエリを作成するステップと、当該クエリを使用して非構造化テキストデータベース内の非構造化テキストを検索するステップと、検索されたテキストに対して上記の構文に従ってテキスト照合を実行することにより、当該インスタンスの他の属性を抽出するステップとを含む。
好ましくは、属性抽出方法は、入力されたインスタンスまたは少なくとも1つのシード属性から、同義語構文データベースに基づいてインスタンスまたはシード属性を拡張することにより、当該インスタンスまたはシード属性のすべての同義語を取得するステップと、インスタンスおよびシード属性のすべての同義語から、属性相関知識データベースに基づいて構文に合致するクエリを作成するステップとをさらに含む。
好ましくは、構文は、非構造化テキスト内に複数属性が頻繁に同時出現するパターンを表現した同時構文である。属性抽出方法は、1つのトレーニング専用インスタンスと少なくとも1つのトレーニング専用シード属性とから同時構文用クエリを作成するステップと、同時構文用クエリを使用して非構造化テキストデータベースを検索するステップと、検索されたテキストに基づいて、同時構文を抽出して属性相関知識データベースに格納するステップとをさらに含む。
好ましくは、構文は、プレフィックス辞書を使用して、常に非構造化テキスト内の属性名の先頭に出現するプレフィックスを表現するプレフィックス構文である。属性抽出方法は、属性辞書から、2つ以上の属性名の先頭に出現するプレフィックスを候補プレフィックスとして抽出するステップと、事前に設定された頻度を上回る出現頻度を有する1つの候補プレフィックスを選択し、それを属性相関知識データベース内のプレフィックス辞書に格納するステップとをさらに含む。
好ましくは、構文は、サフィックス辞書を使用して、常に非構造化テキスト内の属性名の末尾に出現するサフィックスを表現するサフィックス構文である。属性抽出方法は、属性辞書から、2つ以上の属性名の末尾に出現するサフィックスを候補サフィックスとして抽出するステップと、事前に設定された頻度を上回る出現頻度を有する1つの候補サフィックスを選択し、それを属性相関知識データベース内のサフィックス辞書に格納するステップとをさらに含む。
好ましくは、属性抽出方法は、シード同義語辞書から同義語構文用クエリを作成するステップと、同義語構文用クエリを使用して非構造化テキストデータベースを検索するステップと、検索されたテキストに基づいて候補同義語構文を抽出するステップと、各候補同義語構文を検証し、検証済み同義語構文を同義語構文データベースに格納するステップとをさらに含む。
本発明によれば、シード属性に基づいて非構造化テキストから新規属性を自動的に抽出することができる。
以下では添付図面を参照して本発明の好適な実施例について説明するが、本発明を特徴付ける上記およびその他の目的、機能、および利点はこれにより明らかとなるであろう。
本発明による属性抽出装置1000の概略ブロック図を示す。 本発明による属性抽出方法2000の概略フローチャートを示す。 非構造化テキストデータベース1110の具体例を示す。 同時構文の具体例を示す。 プレフィックス辞書の具体例を示す。 サフィックス辞書の具体例を示す。 同時構文生成ユニット1410とその具体的な動作フローを示す。 プレフィックス構文生成ユニット1420とその具体的な動作フローを示す。 サフィックス構文生成ユニット1430とその具体的な動作フローを示す。 属性相関知識データベース1120内で同時構文を生成する動作の具体例を示す。 属性相関知識データベース1120内でプレフィックス辞書を生成する動作の具体例を示す。 属性相関知識データベース1120内でサフィックス辞書を生成する動作の具体例を示す。 同義語構文データベース1130の具体例を示す。 同義語構文生成ユニット1440とその具体的な動作フローを示す。 同義語構文データベース1130内で同義語構文を生成する動作の具体例を示す。 インスタンスとシード属性を拡張する際の具体的なステップを示す。 インスタンスとシード属性を拡張する際の具体的な拡張を示す。 新規属性抽出の概略図を示す。 同時構文に基づく新規属性抽出の具体例を示す。 プレフィックス辞書に基づく新規属性抽出の具体例を示す。 プレフィックス辞書に基づく新規属性抽出の具体例を示す。
上記図面においては、同じ部品は同じ参照記号を用いて示している。
以下では、図面を参照して本発明の好適な実施例を詳細に説明する。この説明においては、本発明の明確な理解が阻害されるのを回避するため、本発明にとって重要ではない詳細や機能は省略している。
図1Aは、本発明による属性抽出装置1000の概略ブロック図を示す。図1Aに示すように、属性抽出装置1000は、各非構造化テキストを1つの属性抽出データソースとして格納する非構造化テキストデータベース1110、属性相関知識を格納する属性相関知識データベース1120、および非構造化テキスト内の同義語関係を記述するすべての構文パターンを格納するオプションの同義語構文データベース1130(図1Aでは破線で示す)のうち少なくとも1つのデータベースを格納するための、属性抽出装置1000に外付けすることも可能な記憶ユニット1100と、同義語構文データベース1130に基づいてインスタンスおよびシード属性の様々な同義語を取得するためのオプションの拡張ユニット1200(図1Aでは破線で示す)と、インスタンスおよびシード属性を元に、属性相関知識データベース1120に基づいて非構造化テキストからインスタンスの他の属性を抽出するための新規属性抽出ユニット1300とを主に備える。
図1Aに示すように、新規属性抽出装置1300は、入力された1つのインスタンスおよび少なくとも1つのシード属性(もしくは当該インスタンスやシード属性のすべての同義語、またはその両方)から、属性相関知識データベース1120に基づいて1つ以上の構文に合致するクエリを作成する(これについては後述する)ためのクエリ作成ユニット1310と、当該クエリを使用して非構造化テキストデータベース1110内の非構造化テキストを検索するためのテキスト検索ユニット1320と、検索されたテキストに対して上記の構文に従ってテキスト照合を実行することにより、当該インスタンスの他の属性を抽出するためのテキスト照合ユニット1330とを備える。
図1Bは、本発明による属性抽出方法2000の概略フローチャートを示す。図1Bに示すように、属性抽出方法2000は主に、シード拡張ユニット1200によって、同義語構文データベース1130に基づいて、入力されたインスタンスまたは少なくとも1つのシード属性から、当該インスタンスまたはシード属性を拡張することにより当該インスタンスまたはシード属性のすべての同義語を取得するためのオプションのステップS2100(図1Bでは破線で示す)と、新規属性抽出ユニット1300によって、入力された1つのインスタンスおよび少なくとも1つのシード属性(もしくは当該インスタンスやシード属性のすべての同義語、またはその両方)から、属性相関知識データベース1120に基づいて1つ以上の構文に合致するクエリを作成する(これについては後述する)ためのステップS2200と、新規属性抽出ユニット1300によって、当該クエリを使用して、非構造化テキストデータベース1110内のテキストを検索するためのステップS2300と、新規属性抽出ユニット1300によって、検索されたテキストに対して上記の構文に従ってテキスト照合を実行することにより、当該インスタンスの他の属性(新規属性)を抽出するための最終ステップS2400とを主に備える。
図1Aに戻ると、非構造化テキストデータベース1110はすべての非構造化テキストを格納し、属性抽出のデータソースとなる。非構造化テキストは、ウェブページ、文書、プレーンテキストなどの形式をとることができる。図2に、コンピュータに関するウェブページを格納する非構造化テキストデータベース1110の具体例を示す。
図1Aに戻ると、属性相関知識データベース1120はすべての属性相関知識を格納する。属性相関知識の例としては、1)同時構文、2)プレフィックス辞書(プレフィックス構文)、および3)サフィックス辞書(サフィックス構文)、の3種類が挙げられる。
1)同時構文
同時構文は、非構造化テキスト内に複数属性が頻繁に同時出現するパターンを表現するものである。同時構文には、以下のような特殊記号が含まれる。
・ <?C>:任意インスタンス
・ <Ai>:任意属性
・ <X1|X2|…>:X1、X2、または他の語がここに出現する可能性がある。
・ [X]:Xがここに出現するかもしれないし、出現しないかもしれない。
・ {X}:複数個のXがここに繰り返し出現する可能性がある。
図3Aに、同時構文の具体例を示す。“<A1>{<,|and|with|or|as well as|and its|…><A2>}[of]<?C>”は同時構文である。この構文は、例えば、“hard disk, memory and CPU of computer”(コンピュータのハードディスク、メモリ、およびCPU)という非構造化テキストと一致する。
2)プレフィックス辞書(プレフィックス構文)
プレフィックス辞書は、属性名でよく使われる接頭語(すなわち、常に属性名の先頭に出現する語)を格納する。
図3Bに、プレフィックス辞書の具体例を示す。“average”(平均)、“maximum”(最大)、“standard”(標準)は、いずれも属性名の先頭にしばしば出現する接頭語である。例えば、“average wage”(平均賃金)、“average performance”(平均成績)、“average load”(平均負荷)という属性はすべて、“average”(平均)で始まっている。
3)サフィックス辞書(サフィックス構文)
サフィックス辞書は、属性名でよく使われる接尾語(すなわち、常に属性名の末尾に出現する語)を格納する。
図3Cに、サフィックス辞書の具体例を示す。“ratio”(率)、“amount”(額)、“value”(値)は、いずれも属性名の末尾にしばしば出現する接頭語である。例えば、“resolution ratio”(解像率)、“increase ratio”(増加率)、“unemployment ratio”(失業率)という属性はすべて、“ratio”(率)で終わっている。
属性相関知識データベース1120内の同時構文は、同時構文生成ユニット1410によって、トレーニング専用インスタンスと少なくとも1つのトレーニング専用シード属性とから生成できる。図4Aに示すように、同時構文生成ユニット1410の動作フローは具体的には以下のステップで構成される。
S410A(クエリの作成):クエリ『<seed attribute 1>*<seed attribute 2>of<instance>』(<インスタンス>の<シード属性1>*<シード属性2>)を生成する。
S420A(テキストの検索):クエリを使用して非構造化テキストデータベース1110を検索し、同時構文を含むすべてのテキストを取得する。ステップS420Aにおいては、よく知られた任意のテキスト検索方法(APIを起動するなど)を使用することができる。
S430A(同時構文の抽出):ステップS420Aで検索された各テキストをクエリ『<seed attribute 1>*<seed attribute 2>of<instance>』と照合し、その後同時構文を生成する。
図5Aは、属性相関知識データベースにおいて同時構文によって生成された具体例を示す。“computer”(コンピュータ)は、“hard disk”(ハードディスク)と“memory”(メモリ)という属性を有する。まず、クエリ『hard disk * memory of computer』(コンピュータのハードディスク*メモリ)(ステップS410A)が作成される。その後、Google APIを起動して、クエリと一致する1つの文を含む2つの検索済みテキスト『hard disk and memory of computer』(コンピュータのハードディスクおよびメモリ)および『hard disk or memory of computer』(コンピュータのハードディスクまたはメモリ)が取得される(ステップS420A)。これにより、同時構文“<A1><and|or><A2>of<?C>”が抽出される(ステップS430A)。
属性相関知識データベース1120内のプレフィックス辞書(プレフィックス構文)は、プレフィックス構文生成ユニット1420によって属性辞書から生成することができる。図4Bに、プレフィックス構文生成ユニット1420とその具体的な動作フローを示す。図4Bに示すように、プレフィックス構文生成ユニット1420の動作フローは具体的には以下のステップで構成される。
S410B(候補プレフィックスの抽出):属性辞書から、2つ以上の属性名の先頭に出現するプレフィックスを候補プレフィックスとして抽出する。属性辞書は各インスタンスのすべての属性を含むものであり、よく知られた属性辞書を使用することができる。
S420B(候補プレフィックスの検証):高い出現頻度を有する1つの候補プレフィックスを選択し、プレフィックス辞書に追加する。例えば、Nより大きい(>)出現頻度を有するプレフィックスを選択することができる。ここで、Nはシステム構築時にユーザが設定できる自然数である。
図5Bに、属性相関知識データベース内でプレフィックス辞書を生成する動作の具体例を示す(N=2)。属性辞書は、“average wage”(平均賃金)、“average performance”(平均成績)、“standard configuration”(標準構成)、“standard”(標準)などを含んでいる。まず、“average”(出現頻度=3)と“standard”(出現頻度=2)というすべての候補プレフィックスが抽出される(ステップS410B)。そして、“average”(出現頻度=3>N=2)がプレフィックスとして選択される(ステップS420B)。
属性相関知識データベース1120内のサフィックス辞書(サフィックス構文)は、サフィックス構文生成ユニット1430によって属性辞書から生成することができる。図4Cに、サフィックス構文生成ユニット1430とその具体的な動作フローを示す。図4Cに示すように、サフィックス構文生成ユニット1430の動作フローは具体的には以下のステップで構成される。
S410C(候補サフィックスの抽出):属性辞書から、2つ以上の属性名の末尾に出現するサフィックスを候補サフィックスとして抽出する。属性辞書は各インスタンスのすべての属性を含むものであり、よく知られた属性辞書を使用することができる。
S420C(候補サフィックスの検証):高い出現頻度を有する1つの候補サフィックスを選択し、サフィックス辞書に追加する。例えば、Nより大きい(>)出現頻度を有するサフィックスを選択することができる。ここで、Nはシステム構築時にユーザが設定できる自然数である。
図5Cに、属性相関知識データベース内でサフィックス辞書を生成する動作の具体例を示す(N=2)。属性辞書は、“resolution ratio”(解像率)、“increase ratio”(増加率)、“unemployment ratio”(失業率)、““capability”(機能)、“ability”(能力)などを含んでいる。まず、“ratio”(出現頻度=3)と“ability”(出現頻度=2)というすべての候補サフィックスが抽出される(ステップS410C)。そして、“ratio”(出現頻度=3>N=2)がサフィックスとして選択される(ステップS420C)。
図1Aに戻ると、オプションの同義語構文データベース1130は、非構造化テキストの同義語関係を記述するすべての構文パターンを格納する。同義語構文のフォーマットは、属性相関知識データベース1120内の同時構文と同じである。図6に、同義語構文データベース1130の具体例を示す。
同義語構文とは、例えば、“<full name|abbreviation>[of]<?C1>[is]<?C2>”、“<synonym|alias|byname>[of]<?C1>[is]<?C2>”、“<English|English name|translation>[of]<?C1>[is]<?C2>”のようなものである。この場合は、インスタンスC1およびC2は同義語関係を有する。
同義語構文データベース1130内の同義語構文は、同義語構文生成ユニット1440によってシード同義語辞書から生成することができる。図7に、同義語構文生成ユニット1440とその具体的な動作フローを示す。図7に示すように、同義語構文生成ユニット1440の動作フローは具体的には以下のステップで構成される。
S710(クエリの作成):シード同義語辞書からクエリ『<word1>*<word2>』(<語1>*<語2>)を生成する。シード辞書はよく知られているが、すべての同義語をカバーすることはできない。シード同義語辞書内の各行は、“word1 word2”である。これは、word1とword2が同義語であることを示す。
S720(テキストの検索):クエリを使用して非構造化テキストデータベース1110を検索し、同義語構文を含むすべてのテキストを取得する。ステップS720においては、よく知られた任意のテキスト検索方法(Google APIを起動するなど)を使用することができる。
S730(候補構文の抽出):S720において検索された各テキストをクエリ『<word1>*<word2>』と照合して“*”に対応する語を抽出することにより、候補同義語構文を生成する。
S740(候補同義語構文の検証):各候補同義語構文を検証する。検証方法としては、以下のような方法を採用することができる。すなわち、候補同義語構文を特定の語(word1 word2)で置換して、テキスト検索のためのクエリを生成する。そして、検索結果が事前に設定したしきい値THを下回る場合は、その構文を無効とみなす。ここで、THは、システム構築時にユーザが設定できる自然数である。
図8は、同義語構文生成の具体例を示す(TH=100)。“personal computer”(パーソナルコンピュータ)の同義語は“PC”であることが既知とする。まず、“personal computer*PC”(パーソナルコンピュータ*pc)というクエリが作成される(ステップS710)。続いて、Google APIを起動して、各センテンスはクエリと一致する1つの文を含む検索済みの2つのテキスト“personal computer 200 PC”(パーソナルコンピュータ200 PC)および“personal computer (abbreviated to PC”(パーソナルコンピュータ(略してPC))が取得される(ステップS720)。その後、2つの候補同義語構文、“<?C1>200<?C2>”および“<?C1>(abbreviated to<?C2>”が抽出される(ステップS730)。最後に、“personal computer 200 PC”で検索して取得されるテキストは4つのみ(<TH=100)であるが、“personal computer(abbreviated to PC”で検索して取得されるテキストは2000個を超える(>TH=100)。そのため、“<?C1>(abbreviated to<?C2>”が同義語構文として同義語構文データベース1130に格納される。
図1Aに戻ると、オプションの拡張ユニット1200は、同義語構文データベース1130から、インスタンスのすべての同義語とシード属性を取得する。
図9に、インスタンスとシード属性を拡張する際の具体的なステップを示す。
S910(クエリの作成):各インスタンスまたはシード属性を同義語構文データベース1130内の各々のキーワードと連結することにより、クエリを生成する(例:『“<instance or seed attribute>”<synonym|alias|byname|…>』(“<インスタンスまたはシード属性>”<同義語|別名|通称|…>))。
S920(テキストの検索):各クエリを使用して非構造化テキストデータベース1110を検索する。なお、ステップS902においては、Google APIを起動するなどのよく知られた任意のテキスト検索方法を使用することができる。
S930(同義語の抽出):ステップS920で検索された各テキストを同義語構文データベース1130内の個々の構文と照合し、対応する同義語を抽出する。
図10に、インスタンスとシード属性を拡張する際の具体的なステップを示す。入力されたインスタンスは“computer”(コンピュータ)、シード属性は“resolution ratio”(解像率)である。まず、“computer”と“resolution ratio”に関して、『(synonym|alias|byname|…)of“computer”』(“computer”の(同義語|別名|通称|…)および『(synonym|alias|byname|…) of “resolution ratio”』(“resolution ratio”の(同義語|別名|通称|…))というクエリが生成される(ステップS910)。そして、テキストを検索して、“Why the alias of a computer is computing device?”(コンピュータの別名が計算装置なのは何故ですか)や“The byname of resolution ratio is resolving power”(解像率の通称は解像力です)といった対応するテキストが取得される(ステップS920)。その後、これらのテキストが個々の同義語構文と照合され、“computer”と“resolution ratio”の同義語としてそれぞれ“computing device”と“resolving power”が抽出される(ステップS930)。
図1Aに戻ると、新規属性抽出ユニット1300は、インスタンスとシード属性を元に、属性相関知識データベース1120に基づいてインスタンスの他の属性(あるいは、拡張ユニット1200によって拡張されている場合は、インスタンスおよびシード属性のすべての同義語)を抽出する。
図11に、新規属性抽出の概略ブロック図を示す。これは、以下の3つの方法のうち少なくとも1つを使用して実装することができる。
1)同時構文に基づく新規属性の抽出
・ 同時構文に合致するクエリを作成するため、クエリ作成ユニット1310が、インスタンスおよびシード属性から、クエリ『“<instance>”<seed attribute 1|seed attribute 2|…>』(“<インスタンス>”<シード属性1|シード属性2|…>)を生成する。
・テキスト検索を実行するため、テキスト検索ユニット1320が、当該クエリを使用して非構造化テキストデータベース1110を検索する。ここでは、よく知られた任意のテキスト検索方法(Google APIを起動するなど)を使用することができる。
・同時構文と一致する新規属性を抽出するため、テキスト照合ユニット1330が、各検索済みテキストを個々の同時構文と照合して対応する新規属性を抽出する。
図12に、同時構文に基づく新規属性抽出の具体例を示す。
・ 入力されたインスタンスは“computer”(コンピュータ)、シード属性は“price”(価格)と“performance”(性能)である。
・最初に、同時構文クエリ『“computer”(price|performance)』(“コンピュータ”(価格|性能))が作成される。
・ 次に、テキスト検索が実行され、“…of computer performance and its evaluation criterion, data type and data representation, principle and style for instruction system design, scalar pipeline technology…”(コンピュータ性能の…、およびその評価基準、データ型およびデータ表現、教示システム設計の原則およびスタイル、スカラーパイプライン技術…)のような相関テキストが取得される。
・ 最後に、テキストが同時構文“<?C><A1>{<、|and|with|or|as well as|and its|…><A2>}”と一致する。これにより、新規属性として“evaluation criterion”(評価基準)、“data type”(データ型)、“data representation”(データ表現)が抽出される。
2)プレフィックス構文に基づく属性抽出
・ プレフィックス構文に従ったクエリを作成するため、クエリ作成ユニット1310が、プレフィックス辞書に基づいてシード属性に含まれる接頭語を取得し、インスタンスを結合してクエリ“(<prefix word1|prefix word2|…>) * of<instance>”(<インスタンス>の<接頭語1|接頭語2|…>) *)を生成する。
・ テキスト検索を実行するため、テキスト検索ユニット1320が、当該クエリを使用して非構造化テキストデータベース1110を検索する。ここでは、よく知られた任意のテキスト検索方法(Google APIを起動するなど)を使用することができる。
・ 同じプレフィックスを有する新規属性を抽出するため、テキスト照合ユニット1330が、各検索済みテキストをクエリと照合して、同じ接頭語を有する新規属性をシード属性として抽出する。
図13に、プレフィックス辞書に基づく新規属性抽出の具体例を示す。
・ 入力されたインスタンスは“computer”(コンピュータ)、シード属性は“performance”(性能)および“maximum disk volume”(最大ディスク容量)である。・ プレフィックス辞書が検索されて接頭語“maximum”(最大)が取得され、クエリ『maximum * of computer』(コンピュータの最大*)が作成される。
・ 次に、テキスト検索によって、“…maximum connections of computer”(…コンピュータの最大接続数)のような対応するテキストが取得される。
・ 最後に、新規属性“maximum connections”(最大接続数)が抽出される。
3)サフィックス構文に基づく属性抽出
・ サフィックス構文に従ったクエリを作成するため、クエリ作成ユニット1310が、サフィックス辞書に基づいてシード属性に含まれる接尾語を取得し、インスタンスを結合してクエリ“(<suffix word1|suffix word2|…>) * of<instance>”(<インスタンス>の<接尾語1|接尾語 2|…>) *)を生成する。
・ テキスト検索を実行するため、テキスト検索ユニット1320が、当該クエリを使用して非構造化テキストデータベース1110を検索する。ここでは、よく知られた任意のテキスト検索方法(Google APIを起動するなど)を使用することができる。
・ 同じサフィックスを有する新規属性を抽出するため、テキスト照合ユニット1330が、各検索済みテキストをクエリと照合して、同じ接尾語を有する新規属性をシード属性として抽出する。
図14に、サフィックス辞書に基づく新規属性抽出の具体例を示す。
・ 入力されたインスタンスは“computer”(コンピュータ)、シード属性は“performance”(性能)、“visual memory value”(ビジュアルメモリ値)、および“resolution ratio”(解像率)である。
・ サフィックス辞書が検索されて接尾語“value”(値)および“ratio”(率)が取得され、クエリ『*(value|ratio) of computer』(コンピュータの*(値|率))が作成される。
・ 次に、テキスト検索により、“MAC value of computer”(コンピュータのMAC値)と“popularization ratio of computer”(コンピュータの普及率)のような対応するテキストが取得される。
・ 最後に、新規属性“MAC value”と“popularization ratio”が抽出される。
上記の説明では、各ステップに関連していくつかの具体例を示した。発明者はこれらの具体例を相互に関連して列記するよう努めたが、列記された具体例が参照番号によって示唆される対応関係を有する必要があるわけではない。異なるステップにおいて参照番号の面で対応関係にない具体例を選択したとしても、選択した具体例の基礎を成す条件が相互に対立しない限り、これらの具体例によって複数の解決法を達成することが可能である。本発明の範囲にはこうした解決策がすべて内包される。
上記の説明では、本発明の解決法は例として示したに過ぎないことに留意されたい。本発明は上記のステップおよび要素構造に限定されるものではなく、実際の使用条件に合わせてこれらのステップや要素構造を変更および修正することが可能である。また、ステップおよび要素の中には、本発明の全体概念の実装において必須ではないものもある。したがって、本発明の重要な技術的特徴は、上記の特定の具体例にではなく、本発明の全体概念の実装における最低限の要件に限定される。
開示した本発明の実施例のさらに他の構成は、最初に簡単に説明し、その後方法の実施例において詳述したステップおよび動作のためのソフトウェアプログラムから成る。具体的には、このコンピュータプログラム製品は、計算装置上で稼働する間に関連の動作を提供するコンピュータプログラム論理が符号化された、コンピュータ可読媒体を備える実施例である。コンピュータプログラム論理が計算システムの少なくとも1つのプロセッサ上で実行されると、当該プロセッサを介して実施例の動作(ステップ)が実行される。本発明のこうした構成は、典型的には、光媒体(例:CD−ROM)を始めとするコンピュータ可読媒体や、フロッピーディスクもしくはハードディスク等の各種タイプの媒体上で提供されるかもしくは符号化されたソフトウェア、コード、またはその他のデータ構造体、1つ以上のROM、RAM、もしくはPROMチップ上のファームウェアもしくはマイクロコード、特定用途向け集積回路(ASIC)、ダウンロード可能なソフトウェアイメージ、または単一もしくは複数モジュール上の共有データベースとして提供される。ソフトウェアまたはファームウェアの形態をとる構成は、計算装置上にインストールし、当該計算装置内の1つ以上のプロセッサを介して本発明の実施例を実装することができる。ソフトウェアプロセスを、例えば他のエンティティ内のデータ通信装置や計算装置と共に稼働させると、本発明のシステムが提供される。本発明のシステムは、いくつかのソフトウェアプロセスを複数のデータ通信装置間に分散させたり、一連の小型専用コンピュータ上ですべてのソフトウェアプロセスを稼働させたり、あるいは単一のコンピュータ上ですべてのソフトウェアプロセスを稼働させたりすることにより実現することも可能である。
本発明の実施例は、厳密には、ソフトウェアプログラム、1台のデータ通信装置上のソフトウェアおよびハードウェア、独立したソフトウェア、または独立した回路として実装できることに留意されたい。
以上、本発明についてその好適な実施例を参照して説明してきたが、当該技術に精通した当業者には、本発明の精神と範囲から逸脱することなく様々な修正、変更、追加を行うことが可能なことは明らかであろう。したがって、本発明の範囲は上記の特定の実施例に限定されず、付記した請求項によってのみ限定される。
なお、上記実施形態の一部又は全部は、以下の付記のようにも記載されうるが、これに限定されない。
(付記1)
入力された1つのインスタンスと少なくとも1つのシード属性とから、属性相関知識データベースに基づいて1つ以上の構文に合致するクエリを作成するクエリ作成手段と、
前記クエリを使用して非構造化テキストデータベース内の非構造化テキストを検索するテキスト検索手段と、
検索されたテキストに対して前記構文に従ってテキスト照合を実行することにより、当該インスタンスの他の属性を抽出するテキスト照合手段と
を備えることを特徴とする属性抽出装置。
(付記2)
入力されたインスタンスまたは少なくとも1つのシード属性から、同義語構文データベースに基づいてインスタンスまたはシード属性を拡張することにより、前記インスタンスまたはシード属性のすべての同義語を取得する拡張手段をさらに備え、
前記クエリ作成手段は、インスタンスおよびシード属性のすべての同義語から、前記属性相関知識データベースに基づいて前記構文に合致するクエリをさらに作成することを特徴とする付記1に記載の属性抽出装置。
(付記3)
前記構文が、非構造化テキスト内に複数属性が頻繁に同時出現するパターンを表現した同時構文であることを特徴とする付記1又は付記2に記載の属性抽出装置。
(付記4)
1つのトレーニング専用インスタンスと少なくとも1つのトレーニング専用シード属性とから同時構文用クエリを作成し、同時構文用クエリを使用して非構造化テキストデータベースを検索し、さらに、検索されたテキストに基づいて、同時構文を抽出して前記属性相関知識データベースに格納する同時構文生成手段をさらに備えることを特徴とする付記3に記載の属性抽出装置。
(付記5)
前記構文が、プレフィックス辞書を使用して、常に非構造化テキスト内の属性名の先頭に出現するプレフィックスを表現するプレフィックス構文であることを特徴とする付記1又は付記2に記載の属性抽出装置。
(付記6)
2つ以上の属性名の先頭に出現するプレフィックスを、候補プレフィックスとして属性辞書から抽出し、事前に設定された頻度を上回る出現頻度を有する1つの候補プレフィックスを選択し、それを前記属性相関知識データベース内のプレフィックス辞書に格納するプレフィックス構文生成手段をさらに備えることを特徴とする付記5に記載の属性抽出装置。
(付記7)
前記構文が、サフィックス辞書を使用して、常に非構造化テキスト内の属性名の末尾に出現するサフィックスを表現するサフィックス構文であることを特徴とする付記1又は付記2に記載の属性抽出装置。
(付記8)
2つ以上の属性名の末尾に出現するサフィックスを、候補サフィックスとして属性辞書から抽出し、事前に設定された頻度を上回る出現頻度を有する1つの候補サフィックスを選択し、それを前記属性相関知識データベース内のサフィックス辞書に格納するサフィックス構文生成手段をさらに備えることを特徴とする付記7に記載の属性抽出装置。
(付記9)
シード同義語辞書から同義語構文用クエリを作成し、同義語構文用クエリを使用して非構造化テキストデータベースを検索し、さらに、検索されたテキストに基づいて候補同義語構文を抽出し、各候補同義語構文を検証し、検証済みの同義語構文を前記同義語構文データベースに格納する同義語構文生成手段をさらに備えることを特徴とする付記2に記載の属性抽出装置。
(付記10)
入力された1つのインスタンスと少なくとも1つのシード属性とから、属性相関知識データベースに基づいて1つ以上の構文に合致するクエリを作成するステップと、
当該クエリを使用して非構造化テキストデータベース内の非構造化テキストを検索するステップと、
検索されたテキストに対して上記の構文に従ってテキスト照合を実行することにより、当該インスタンスの他の属性を抽出するステップと
を有することを特徴とする属性抽出方法。
(付記11)
入力されたインスタンスまたは少なくとも1つのシード属性から、同義語構文データベースに基づいてインスタンスまたはシード属性を拡張することにより、前記インスタンスまたはシード属性のすべての同義語を取得するステップと、
インスタンスおよびシード属性のすべての同義語から、前記属性相関知識データベースに基づいて構文に合致するクエリを作成するステップとをさらに有することを特徴とする付記10に記載の属性抽出方法。
(付記12)
前記構文が、非構造化テキスト内に複数属性が頻繁に同時出現するパターンを表現した同時構文であることを特徴とする付記10又は付記11に記載の属性抽出方法。
(付記13)
1つのトレーニング専用インスタンスと少なくとも1つのトレーニング専用シード属性とから同時構文用クエリを作成するステップと、
同時構文用クエリを使用して非構造化テキストデータベースを検索するステップと、
検索されたテキストに基づいて、同時構文を抽出して前記属性相関知識データベースに格納するステップとをさらに有することを特徴とする付記12に記載の属性抽出方法。
(付記14)
前記構文が、プレフィックス辞書を使用して、常に非構造化テキスト内の属性名の先頭に出現するプレフィックスを表現するプレフィックス構文であることを特徴とする付記10又は付記11に記載の属性抽出方法。
(付記15)
属性辞書から、2つ以上の属性名の先頭に出現するプレフィックスを候補プレフィックスとして抽出するステップと、
事前に設定された頻度を上回る出現頻度を有する1つの候補プレフィックスを選択すし、それを前記属性相関知識データベース内のプレフィックス辞書に格納するステップとをさらに有することを特徴とする付記14に記載の属性抽出方法。
(付記16)
前記構文が、サフィックス辞書を使用して、常に非構造化テキスト内の属性名の末尾に出現するサフィックスを表現するサフィックス構文であることを特徴とする付記10又は付記11に記載の属性抽出方法。
(付記17)
属性辞書から、2つ以上の属性名の末尾に出現するサフィックスを候補サフィックスとして抽出するステップと、
事前に設定された頻度を上回る出現頻度を有する1つの候補サフィックスを選択し、それを属性相関知識データベース内のサフィックス辞書に格納するステップとをさらに有することを特徴とする付記16に記載の属性抽出方法。
(付記18)
シード同義語辞書から同義語構文用クエリを作成するステップと、
同義語構文用クエリを使用して非構造化テキストデータベースを検索するステップと、
検索されたテキストに基づいて候補同義語構文を抽出するステップと、
各候補同義語構文を検証し、検証済み同義語構文を同義語構文データベースに格納するステップとをさらに有することを特徴とする付記11に記載の属性抽出方法。
1200:拡張ユニット
1310:クエリ作成ユニット
1320:テキスト検索ユニット
1330:テキスト照合ユニット
1300:新規属性抽出ユニット
1000:属性抽出手段
1100:記憶ユニット
1130:同義語構文データベース
1120:属性相関知識データベース
1110:非構造化テキストデータベース
2000:属性抽出方法
1410:同時構文生成ユニット
1420:プレフィックス構文生成ユニット
1430:サフィックス構文生成ユニット
1440:同義語構文生成ユニット

Claims (10)

  1. 入力された1つのインスタンスと少なくとも1つのシード属性とから、属性相関知識データベースに基づいて1つ以上の構文に合致するクエリを作成するクエリ作成手段と、
    前記クエリを使用して非構造化テキストデータベース内の非構造化テキストを検索するテキスト検索手段と、
    検索されたテキストに対して前記構文に従ってテキスト照合を実行することにより、当該インスタンスの他の属性を抽出するテキスト照合手段と
    を備えることを特徴とする属性抽出装置。
  2. 入力されたインスタンスまたは少なくとも1つのシード属性から、同義語構文データベースに基づいてインスタンスまたはシード属性を拡張することにより、前記インスタンスまたはシード属性のすべての同義語を取得する拡張手段をさらに備え、
    前記クエリ作成手段は、インスタンスおよびシード属性のすべての同義語から、前記属性相関知識データベースに基づいて前記構文に合致するクエリをさらに作成することを特徴とする請求項1に記載の属性抽出装置。
  3. 前記構文が、非構造化テキスト内に複数属性が頻繁に同時出現するパターンを表現した同時構文であることを特徴とする請求項1又は請求項2に記載の属性抽出装置。
  4. 1つのトレーニング専用インスタンスと少なくとも1つのトレーニング専用シード属性とから同時構文用クエリを作成し、同時構文用クエリを使用して非構造化テキストデータベースを検索し、さらに、検索されたテキストに基づいて、同時構文を抽出して前記属性相関知識データベースに格納する同時構文生成手段をさらに備えることを特徴とする請求項3に記載の属性抽出装置。
  5. 前記構文が、プレフィックス辞書を使用して、常に非構造化テキスト内の属性名の先頭に出現するプレフィックスを表現するプレフィックス構文であることを特徴とする請求項1又は請求項2に記載の属性抽出装置。
  6. 2つ以上の属性名の先頭に出現するプレフィックスを、候補プレフィックスとして属性辞書から抽出し、事前に設定された頻度を上回る出現頻度を有する1つの候補プレフィックスを選択し、それを前記属性相関知識データベース内のプレフィックス辞書に格納するプレフィックス構文生成手段をさらに備えることを特徴とする請求項5に記載の属性抽出装置。
  7. 前記構文が、サフィックス辞書を使用して、常に非構造化テキスト内の属性名の末尾に出現するサフィックスを表現するサフィックス構文であることを特徴とする請求項1又は請求項2に記載の属性抽出装置。
  8. 2つ以上の属性名の末尾に出現するサフィックスを、候補サフィックスとして属性辞書から抽出し、事前に設定された頻度を上回る出現頻度を有する1つの候補サフィックスを選択し、それを前記属性相関知識データベース内のサフィックス辞書に格納するサフィックス構文生成手段をさらに備えることを特徴とする請求項7に記載の属性抽出装置。
  9. シード同義語辞書から同義語構文用クエリを作成し、同義語構文用クエリを使用して非構造化テキストデータベースを検索し、さらに、検索されたテキストに基づいて候補同義語構文を抽出し、各候補同義語構文を検証し、検証済みの同義語構文を前記同義語構文データベースに格納する同義語構文生成手段をさらに備えることを特徴とする請求項2に記載の属性抽出装置。
  10. 入力された1つのインスタンスと少なくとも1つのシード属性とから、属性相関知識データベースに基づいて1つ以上の構文に合致するクエリを作成するステップと、
    当該クエリを使用して非構造化テキストデータベース内の非構造化テキストを検索するステップと、
    検索されたテキストに対して上記の構文に従ってテキスト照合を実行することにより、当該インスタンスの他の属性を抽出するステップと
    を有することを特徴とする属性抽出方法。

JP2011012566A 2010-03-25 2011-01-25 属性抽出装置および方法 Expired - Fee Related JP5054210B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2010101357889A CN102200983A (zh) 2010-03-25 2010-03-25 属性提取装置和方法
CN201010135788.9 2010-03-25

Publications (2)

Publication Number Publication Date
JP2011204225A true JP2011204225A (ja) 2011-10-13
JP5054210B2 JP5054210B2 (ja) 2012-10-24

Family

ID=44661667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011012566A Expired - Fee Related JP5054210B2 (ja) 2010-03-25 2011-01-25 属性抽出装置および方法

Country Status (2)

Country Link
JP (1) JP5054210B2 (ja)
CN (1) CN102200983A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200125372A (ko) * 2019-04-25 2020-11-04 주식회사 마이셀럽스 속성 언어 관리 방법 및 장치
US11645312B2 (en) 2018-10-18 2023-05-09 Hitachi, Ltd. Attribute extraction apparatus and attribute extraction method

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186633B (zh) * 2011-12-31 2016-08-17 北京百度网讯科技有限公司 一种结构化信息抽取方法、搜索方法和装置
CN103440252B (zh) * 2013-07-25 2016-11-16 北京师范大学 一种中文句子中并列信息提取方法及装置
CN104573009B (zh) * 2015-01-08 2018-08-24 南通大学 一种领域知识库属性扩展的方法
CN104778268B (zh) * 2015-04-23 2018-01-30 江苏省现代企业信息化应用支撑软件工程技术研发中心 一种知识查询方法
CN105488105B (zh) * 2015-11-19 2019-11-05 百度在线网络技术(北京)有限公司 信息提取模板的建立方法、知识数据的处理方法和装置
CN107871078A (zh) * 2016-09-27 2018-04-03 北京计算机技术及应用研究所 非结构化文本中提取漏洞信息的方法
CN108197151B (zh) * 2017-12-06 2021-08-03 创新先进技术有限公司 文法库的更新方法及装置
CN109783651B (zh) * 2019-01-29 2022-03-04 北京百度网讯科技有限公司 提取实体相关信息的方法、装置、电子设备和存储介质
CN113157819A (zh) * 2021-03-25 2021-07-23 东南大学 基于规则挖掘的实例匹配方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137720A (ja) * 1998-10-29 2000-05-16 Nippon Telegr & Teleph Corp <Ntt> 情報統合作表装置,情報統合作表方法および情報統合作表プログラムを記録した記録媒体
JP2008071320A (ja) * 2006-09-15 2008-03-27 Fuji Xerox Co Ltd 概念ネットワーク生成システム、概念ネットワーク生成方法及び概念ネットワーク生成プログラム
JP2008217529A (ja) * 2007-03-06 2008-09-18 Nippon Hoso Kyokai <Nhk> テキスト分析装置およびテキスト分析プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7146356B2 (en) * 2003-03-21 2006-12-05 International Business Machines Corporation Real-time aggregation of unstructured data into structured data for SQL processing by a relational database engine
US7769579B2 (en) * 2005-05-31 2010-08-03 Google Inc. Learning facts from semi-structured text

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137720A (ja) * 1998-10-29 2000-05-16 Nippon Telegr & Teleph Corp <Ntt> 情報統合作表装置,情報統合作表方法および情報統合作表プログラムを記録した記録媒体
JP2008071320A (ja) * 2006-09-15 2008-03-27 Fuji Xerox Co Ltd 概念ネットワーク生成システム、概念ネットワーク生成方法及び概念ネットワーク生成プログラム
JP2008217529A (ja) * 2007-03-06 2008-09-18 Nippon Hoso Kyokai <Nhk> テキスト分析装置およびテキスト分析プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11645312B2 (en) 2018-10-18 2023-05-09 Hitachi, Ltd. Attribute extraction apparatus and attribute extraction method
KR20200125372A (ko) * 2019-04-25 2020-11-04 주식회사 마이셀럽스 속성 언어 관리 방법 및 장치
KR102263317B1 (ko) 2019-04-25 2021-06-14 주식회사 마이셀럽스 속성 언어 관리 방법 및 장치

Also Published As

Publication number Publication date
CN102200983A (zh) 2011-09-28
JP5054210B2 (ja) 2012-10-24

Similar Documents

Publication Publication Date Title
JP5054210B2 (ja) 属性抽出装置および方法
JP6829559B2 (ja) 固有表現抽出用ドキュメント専用地名辞典
US10585924B2 (en) Processing natural-language documents and queries
US9147007B2 (en) Query expression conversion apparatus, query expression conversion method, and computer program product
JP4645242B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US20080091413A1 (en) Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary
JP2007257644A (ja) 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置
JP2008287406A (ja) 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
JPWO2010047286A1 (ja) 検索システム、検索方法およびプログラム
EP2927825A1 (en) Input string matching for domain names
US8583415B2 (en) Phonetic search using normalized string
Wu et al. Searching services" on the web": A public web services discovery approach
KR20090061844A (ko) 온톨로지 기반 시맨틱 메타데이터 추출 시스템 및 그 방법
JP2008299675A (ja) かな混在表記抽出装置、方法及びプログラム
JP6705352B2 (ja) 言語処理装置、言語処理方法、及び言語処理プログラム
US20140358522A1 (en) Information search apparatus and information search method
JP6787755B2 (ja) 文書検索装置
JP2011028379A (ja) データ構造変換プログラムおよびデータ構造変換装置
JP2009086979A (ja) 組織名抽出装置、方法及びプログラム
JP2007200252A (ja) 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2010198525A (ja) 言語横断型情報検索システムおよび言語横断型情報検索方法
JP2016189154A (ja) 翻訳方法、装置、及びプログラム
JP7022789B2 (ja) 文書検索装置、文書検索方法およびコンピュータプログラム
JP5182960B2 (ja) 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120717

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120720

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120726

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150803

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees