JP2008198132A

JP2008198132A - 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置

Info

Publication number: JP2008198132A
Application number: JP2007035434A
Authority: JP
Inventors: Tomoya Iwakura; 友哉岩倉; Aoshi Okamoto; 青史岡本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-02-15
Filing date: 2007-02-15
Publication date: 2008-08-28
Anticipated expiration: 2027-02-15
Also published as: US20080201134A1; JP5245255B2

Abstract

【課題】多大な労力を要することなく、テキストデータから固有表現を抽出する手がかりを得るための辞書情報を簡易に作成することを課題とする。
【解決手段】固有表現抽出装置は、各ＮＥ抽出器から取得した複数のＮＥ抽出結果から単語（例えば、「山田」や「さん」など）をそれぞれ抽出する。そして、抽出した各単語について順番に処理をそれぞれ実行する。固有表現抽出装置は、抽出した各単語の中のどれか一つについて各ＮＥ抽出結果をそれぞれ順番にチェックしてＮＥ候補分類を抽出する。ＮＥ候補分類を抽出した後、抽出したＮＥ候補分類の各ＮＥ抽出結果における出現頻度を計数する。出現頻度を計数した後、出現頻度に応じたＮＥ候補分類の順位を決定する。
【選択図】図２

Description

この発明は、テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理をコンピュータに実行させる固有表現抽出プログラム、当該固有表現抽出処理を行う固有表現抽出方法および固有表現抽出装置に関する。

従来より、入力されたテキストデータから固有表現（例えば、人名や場所などの固有名詞、日付や金額などの数値表現など）を抽出する技術が存在する（特許文献１参照）。そして、この従来技術の中には、機械学習アルゴリズムおよび学習データを用いて生成された固有表現抽出モデル（規則）に基づいて、テキストデータから固有表現を抽出する技術が存在する。

また、上記した固有表現抽出モデルの作成では、入力されたテキストデータから固有表現を抽出するための手がかりとして、「辞書情報」を利用するのが一般的である。この「辞書情報」は、例えば、「宮崎」という単語であれば、「人名」あるいは「場所」の可能性がある、「社長」や「さん」は人名を示唆する単語、といった手がかりを得るための情報を備えている。

特開２００２−１８３１３３号公報

しかしながら、上記した従来の技術は、固有表現をテキストデータから抽出する手がかりを得るための辞書を作成するために多大な労力を要するという問題点があった。すなわち、従来、上記した「辞書情報」の作成は人手で行われていたので、テキストデータから抽出されることが予想される単語ごとに、固有表現のカテゴリ候補（例えば、「宮崎」や「佐藤」「人名」などの項目）ごとに辞書を作成するのに多大な労力を要するといった問題点があった。

また、人手で辞書情報を作成していたのでは、入力が想定されるテキストデータのパタン（例えば、言語や文脈など）の変更に対して臨機応変に対応することも困難である。

そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、多大な労力を要することなく、テキストデータから固有表現を抽出する手がかりを得るための辞書情報を簡易に作成することが可能な固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置を提供することを目的とする。

上述した課題を解決し、目的を達成するため、請求項１に係る発明は、テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理をコンピュータに実行させる固有表現抽出プログラムであって、前記固有表現抽出処理の結果得られる固有表現抽出結果を取得する抽出結果取得手順と、テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を、前記抽出結果取得手順により取得された固有表現抽出結果に基づいて作成する辞書情報作成手順と、をコンピュータに実行させることを特徴とする。

また、請求項２に係る発明は、上記の発明において、前記抽出結果取得手順は、テキストデータから固有表現を抽出するための固有表現抽出モデルを複数用いて固有表現抽出処理を行い、当該固有表現抽出処理の結果得られる複数の固有表現抽出結果を取得することを特徴とする。

また、請求項３に係る発明は、上記の発明において、前記辞書情報作成手順は、前記抽出結果取得手順により取得された各固有表現抽出結果に基づいて、テキストデータ内に含まれる単語および当該単語を中心として前後に出現する他の単語ごとに、固有表現としての分類候補を示す分類候補情報と、全固有表現抽出結果における各分類候補の出現頻度を示す出現頻度情報と、出現頻度情報に応じて各分類候補情報を順位付けした順位情報とからなる辞書情報を作成することを特徴とする。

また、請求項４に係る発明は、上記の発明において、テキストデータから固有表現を抽出するための固有表現抽出モデルを、前記辞書情報作成手順により作成された辞書情報を用いて新たに作成するモデル作成手順をさらにコンピュータに実行させることを特徴とする。

また、請求項５に係る発明は、テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理を行う固有表現抽出方法であって、前記固有表現抽出処理の結果得られる固有表現抽出結果を取得する抽出結果取得工程と、テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を、前記抽出結果取得工程により取得された固有表現抽出結果に基づいて作成する辞書情報作成工程と、を含んだことを特徴とする。

また、請求項６に係る発明は、テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理を行う固有表現抽出装置であって、前記固有表現抽出処理の結果得られる固有表現抽出結果を取得する抽出結果取得手段と、テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を、前記抽出結果取得手段により取得された固有表現抽出結果に基づいて作成する辞書情報作成手段と、を備えたことを特徴とする。

本発明によれば、固有表現抽出処理の結果得られる固有表現抽出結果を取得しておき、テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を取得された固有表現抽出結果に基づいて作成するので、多大な労力を要することなく、固有表現をテキストデータから抽出する手がかりを得るための辞書を簡易に作成することが可能である。また、入力が想定されるテキストデータのパタン（例えば、言語や文脈など）が変更された場合には、辞書情報をすぐに更新して新しいものを作成するなど、テキストデータのパタンの変更に対して臨機応変に対応することが可能である。

また、本発明によれば、テキストデータから固有表現を抽出するためのモデルを複数用いて固有表現抽出処理を行って、その結果得られる複数の固有表現抽出結果を取得するので、テキストデータから固有表現を抽出する際に手がかりとして信頼性の高い辞書情報を作成することが可能である。

また、本発明によれば、各固有表現抽出結果に基づいて、テキストデータ内に含まれる単語およびその単語を中心として前後に出現する他の単語ごとに、固有表現としての分類候補を示した分類候補情報（例えば、「宮崎」という単語であれば、「人名」や「場所」といった情報）と、全固有表現抽出結果における各分類候補の出現頻度を示した出現頻度情報（例えば、「宮崎」を「人名」として出力されている回数や、「場所」として出力されている回数からなる情報）と、出現頻度情報に応じて各分類候補情報を順位付けした順位情報（例えば、「宮崎」を「人名」とする出現頻度情報が“１００”で、「場所」とする出現頻度情報が“５０”である場合には、「人名」を順位“１”、「場所」を順位“２”とする情報）とからなる辞書情報を作成するので、テキストデータから固有表現を抽出する際に手がかりとして、詳細かつ有益な情報を得ることが可能である。

また、本発明によれば、各固有表現抽出結果の一致度に応じて分類候補情報、出現頻度情報および順位情報を採用するか否か決定し、採用することを決定した分類候補情報、出現頻度情報および順位情報からなる辞書を作成する、例えば、「宮崎」に対する固有表現抽出結果が全て「人名」あるいは「場所」とする抽出結果である場合に、分類候補情報である「人名」および「場所」、「人名」および「場所」としての各出現頻度情報、および各出現頻度に応じた「人名」および「場所」の順位情報を辞書として採用するので、テキストデータから固有表現を抽出する際に手がかりとして利用する辞書情報として、より信頼性の高い辞書情報を作成することが可能である。

また、本発明によれば、テキストデータから固有表現を抽出するための固有表現抽出モデルを、複数の固有表現抽出結果から作成された辞書情報を用いて新たに作成するので、テキストデータから固有表現を抽出する場合に、より信頼性の高い手がかりを得ることができる結果、テキストデータから固有表現を精度よく抽出することが可能である。

以下に添付図面を参照して、本発明に係る固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置の実施例を詳細に説明する。なお、以下では、本発明に係る固有表現抽出プログラムを実行する固有表現抽出装置を例に挙げて実施例１として説明した後に、本発明の含まれる他の実施例を説明する。

［用語の説明］
まず最初に、以下に説明する実施例で用いる主要な用語を説明する。以下の実施例で用いる「ＮＥ」とは、固有表現（ＮａｍｅｄＥｎｔｉｔｙ）のことであり、例えば、固有名詞や数値表現がこれに該当する。なお、以下の実施例１では、固有名詞については「人名」や「場所」、数値表現については「日付」や「金額」、固有名詞や数値表現以外については「その他」というように、所定のＮＥ分類候補を設定する。

また、以下の実施例で用いる「学習データ」とは、正解付きの事例データ（例えば、「山田」という単語は「人名」であるという正解を付与したデータ）であり、「機械学習アルゴリズム」とは、テキストデータから固有表現を抽出するためのモデル（規則）を学習データから自動作成するための手法である。

［固有表現抽出装置の概要および特徴（実施例１）］
次に、図１および図２を用いて、実施例１に係る固有表現抽出装置の概要および特徴を説明する。図１は、実施例１に係る固有表現抽出装置の概要および特徴を説明するための図であり、図２は、実施例１に係る辞書情報の構成例を示す図である。

実施例１に係る固有表現抽出装置は、テキストデータから固有表現（ＮＥ）を抽出するためのモデルを用いた固有表現抽出処理（ＮＥ抽出処理）を行うことを概要とするが、多大な労力を要することなく、テキストデータから固有表現を抽出する手がかりを得るための辞書情報を簡易に作成することが可能である点に主たる特徴がある。

この主たる特徴について具体的に説明すると、図１に示すように、実施例１に係る固有表現抽出装置は、複数のＮＥ抽出器を用いて複数のテキストデータに関するＮＥ抽出処理を実行することによりＮＥ抽出結果を複数取得する。すなわち、各ＮＥ抽出器（ＮＥ抽出器１やＮＥ抽出器２など）を用いてテキストデータごとにＮＥ抽出処理を実行し、テキストデータ内の各単語についてＮＥ分類候補のラベル（例えば、「人名」や「場所」などのＮＥ分類候補を示すラベル）を付与したＮＥ抽出結果を出力する。

例えば、図１に示すように、ＮＥ抽出器１を用いて、「山田さんは宮崎出身」というテキストデータに関するＮＥ抽出処理を実行すると、テキストデータ内の単語「山田」に「人名」のＮＥ分類候補のラベル、単語「さん」に「その他」のＮＥ分類候補ラベル、単語「は」に「その他」のＮＥ分類候補ラベル、単語「宮崎」に「人名」のＮＥ分類候補のラベル、単語「出身」に「その他」のＮＥ分類候補ラベルが付与されたＮＥ抽出結果が出力される。

そして、実施例１に係る固有表現抽出装置は、各ＮＥ抽出器から取得した複数のＮＥ抽出結果を用いて、テキストデータから固有表現を抽出する手がかりを得るための辞書情報を自動作成する。

具体的に説明すると、実施例１に係る固有表現抽出装置は、図２に示すように、複数のＮＥ抽出結果から重複することなく単語を抽出して（例えば、「山田」や「さん」などの単語を抽出して）、例えば、最初に抽出された単語から順に以下に説明するような処理を実行する。

まず、実施例１に係る固有表現抽出装置は、各ＮＥ抽出結果を順番にチェックしてＮＥ候補分類を抽出する。具体的に説明すると、各ＮＥ抽出結果を順番にチェックして、例えば、各ＮＥ抽出結果から最初に抽出された単語についてＮＥ候補分類を抽出するとともに、その単語を現在位置として、その前後に位置するＮＥ候補分類を抽出する。

例えば、実施例１に係る固有表現抽出装置は、ＮＥ抽出結果から最初に抽出された単語である「山田」についてＮＥ候補分類（例えば、「人名」または「場所」）を抽出するとともに、「山田」を現在位置（ｗ０）として、その一つ後（ｗ＋１）に位置するＮＥ候補分類（例えば、「その他」）を抽出する（図２参照）。

ＮＥ候補分類を抽出した後、実施例１に係る固有表現抽出装置は、ＮＥ抽出結果におけるＮＥ候補分類の出現頻度を計数する。例えば、全てのＮＥ抽出結果において、「山田」に関するＮＥ候補分類が「人名」または「場所」として出力されている回数を計数するとともに、「山田」を現在位置（ｗ０）として、その一つ後（ｗ＋１）に位置するＮＥ候補分類が「その他」として出力されている出現回数を計数する（図２参照）。

出現頻度を計数した後、実施例１に係る固有表現抽出装置は、出現頻度に応じたＮＥ候補分類の順位を決定する。例えば、「山田」についてＮＥ候補分類を「人名」とする出現頻度が“２５５”、「場所」とする出現頻度が“１３”である場合には、「人名」を順位“１”に決定し、「場所」を順位“２”に決定する。なお、「山田」の一つ後に位置するＮＥ候補分類が一つしか抽出されていない（「その他」しか抽出されていない）ので、「その他」を順位“１”に決定する（図２参照）。

そして、実施例１に係る固有表現抽出装置は、ＮＥ抽出結果から抽出された全ての単語について、上記で説明してきたような処理（ＮＥ候補分類の抽出、出現頻度の計数および順位の決定）を実行したか否か確認する。確認の結果、全ての単語について処理が終了している場合には処理を終了する。一方、抽出された全ての単語について上述してきた処理が終了していない場合には、残りの単語についてそれぞれ順番にＮＥ候補分類の抽出から処理を実行する。例えば、「山田」についての処理を終了した場合には、次に「さん」についてＮＥ候補分類の抽出から処理を実行する（図２参照）。

このようなことから、実施例１に係る固有表現抽出装置は、上述した主たる特徴のごとく、多大な労力を要することなく、テキストデータから固有表現を抽出する手がかりを得るための辞書情報を簡易に作成することが可能である。

［固有表現抽出装置の構成（実施例１）］
次に、図３を用いて、実施例１に係る固有表現抽出装置の構成を説明する。図３は、実施例１に係る固有表現抽出装置の構成を示すブロック図である。

同図に示すように、実施例１に係る固有表現抽出装置１０は、入力部１１と、出力部１２と、記憶部１３と、制御部１４とから構成される。

このうち、入力部１１は、各種の情報の入力を受付ける入力部であり、キーボードやマウス、マイクなどを備えて構成され、例えば、テキストデータなどの入力を受け付ける。なお、スキャナなどのデータ読取機能を備えて入力部１１を構成し、データ読取機能により読取られたテキストデータの入力を受け付けるようにしてもよい。

また、出力部１２は、各種の情報を出力する出力部であり、モニタ（若しくはディスプレイ、タッチパネル）やスピーカを備えて構成され、例えば、後述するＮＥ抽出処理実行部１４ｂによる抽出結果などを表示出力する。

記憶部１３は、制御部１４による各種処理に必要なデータおよびプログラムを記憶する記憶部であり、特に本発明に密接に関連するものとしては、辞書情報記憶部１３ａを備える。この辞書情報記憶部１３ａは、後述する辞書情報作成部１４ｃにより生成された辞書情報（図２参照）を記憶して構成される。

制御部１４は、所定の制御プログラム、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する処理部であり、特に本発明に密接に関連するものとしては、ＮＥ抽出器作成部１４ａと、ＮＥ抽出処理実行部１４ｂと、辞書情報作成部１４ｃとを備える。

このうち、ＮＥ抽出器作成部１４ａは、テキストデータからＮＥ（固有表現）抽出処理を実行するためのＮＥ抽出器を作成する処理部である。具体的に説明すると、ＮＥ抽出器作成部１４ａは、正解付きの事例データある学習データ（例えば、図４参照）をデータ内の位置に応じた内部表現（例えば、図５参照）に変換する。

なお、ＮＥ抽出器作成部１４ａは、図６に例示するように、内部表現内に設定される位置情報（例えば、現在位置であれば「ｗ０」、現在位置から一つ後であれば「ｗ＋１」とする情報）をテキストデータ内の位置に基づいて設定する。そして、ＮＥ抽出器作成部１４ａは、このようにして得られた内部表現を複数の機械学習アルゴリズムにあてはめて解析することにより、テキストデータからＮＥを抽出するためのＮＥ抽出モデル（規則）を作成し、作成された各ＮＥ抽出モデルを動作させるＮＥ抽出器をそれぞれ作成する。

ＮＥ抽出処理実行部１４ｂは、入力されたテキストデータについてＮＥ抽出処理を実行する処理部である。具体的に説明すると、ＮＥ抽出器作成部１４ａにより作成された各ＮＥ抽出器を用いて、入力部１１から受け付けたテキストデータごとにＮＥ抽出処理を実行し、テキストデータ内の単語ごとにＮＥ分類候補のラベル（例えば、「人名」や「場所」などのＮＥ分類候補を示すラベル）を付与したＮＥ抽出結果を辞書情報作成部１４ｃに出力する。

辞書情報作成部１４ｃは、ＮＥ抽出処理実行部１４ｂから取得した複数のＮＥ抽出結果を用いて、テキストデータから固有表現を抽出する手がかりを得るための辞書情報を自動作成する処理部である。具体的に説明すると、複数のＮＥ抽出結果から重複することなく単語を抽出して（例えば、「山田」や「さん」などの単語を抽出して）、抽出した順番に並べておく。そして、抽出した各単語について、例えば、一番先頭に並べられた単語から順に以下に説明するような処理を実行する。

まず、辞書情報作成部１４ｃは、各ＮＥ抽出結果を順番にチェックしてＮＥ候補分類を抽出する。具体的に説明すると、各ＮＥ抽出結果を順番にチェックして、例えば、各ＮＥ抽出結果から最初に抽出された単語についてＮＥ候補分類を抽出するとともに、その単語を現在位置として、その前後に位置するＮＥ候補分類を抽出する。

例えば、辞書情報作成部１４ｃは、ＮＥ抽出結果から最初に抽出された単語である「山田」についてＮＥ候補分類（例えば、「人名」または「場所」）を抽出するとともに、「山田」を現在位置（ｗ０）として、その一つ後（ｗ＋１）に位置するＮＥ候補分類（例えば、「その他」）を抽出する（図２参照）。

ＮＥ候補分類を抽出した後、辞書情報作成部１４ｃは、ＮＥ抽出結果におけるＮＥ候補分類の出現頻度を計数する。例えば、全てのＮＥ抽出結果において、「山田」に関するＮＥ候補分類が「人名」または「場所」として出力されている回数を計数するとともに、「山田」を現在位置（ｗ０）として、その一つ後（ｗ＋１）に位置するＮＥ候補分類が「その他」として出力されている出現回数を計数する（図２参照）。

出現頻度を計数した後、辞書情報作成部１４ｃは、出現頻度に応じたＮＥ候補分類の順位を決定する。例えば、「山田」についてＮＥ候補分類を「人名」とする出現頻度が“２５５”、「場所」とする出現頻度が“１３”である場合には、「人名」を順位“１”に決定し、「場所」を順位“２”に決定する（図２参照）。なお、「山田」の一つ後に位置するＮＥ候補分類が一つしか抽出されていない（「その他」しか抽出されていない）ので、「その他」を順位“１”に決定する（図２参照）。

そして、辞書情報作成部１４ｃは、ＮＥ抽出結果から抽出された全ての単語について、上記で説明してきたような処理（ＮＥ候補分類の抽出、出現頻度の計数および順位の決定）を実行したか否か確認する。確認の結果、全ての単語について処理が終了している場合には処理を終了する。一方、抽出された全ての単語について上述してきた処理が終了していない場合には、残りの単語についてそれぞれ順番にＮＥ候補分類の抽出から処理を実行する。例えば、「山田」についての処理を終了した場合には、次に「さん」についてＮＥ候補分類の抽出から処理を実行する（図２参照）。

なお、実施例１に係る固有表現抽出装置１０は、既知のパーソナルコンピュータ、ワークステーションなどの情報処理装置に、上記した各機能を搭載することによって実現することもできる。

［固有表現抽出装置の処理（実施例１）］
続いて、図７を用いて、実施例１に係る固有表現抽出装置の処理を説明する。図７は、実施例１に係る固有表現抽出装置の処理の流れを示すフローチャートである。

同図に示すように、辞書情報作成部１４ｃは、ＮＥ抽出処理実行部１４ｂから複数のＮＥ抽出結果を取得すると（ステップＳ７０１）、テキストデータから固有表現を抽出する手がかりを得るための辞書情報を自動作成する。まず、辞書情報作成部１４ｃは、複数のＮＥ抽出結果から重複することなく単語（例えば、「山田」や「さん」などの単語）を抽出する（ステップＳ７０２）。そして、例えば、最初に抽出された単語から順に以下に説明するような処理を実行する。

まず、辞書情報作成部１４ｃは、各ＮＥ抽出結果を順番にチェックしてＮＥ候補分類を抽出する（ステップＳ７０３）。具体的に説明すると、各ＮＥ抽出結果を順番にチェックして、例えば、各ＮＥ抽出結果から最初に抽出された単語についてＮＥ候補分類を抽出するとともに、その単語を現在位置として、その前後に位置するＮＥ候補分類を抽出する。

例えば、辞書情報作成部１４ｃは、ＮＥ抽出結果から抽出した単語である「山田」についてＮＥ候補分類（例えば、「人名」または「場所」）を抽出するとともに、「山田」を現在位置（ｗ０）として、その一つ後（ｗ＋１）に位置するＮＥ候補分類（例えば、「その他」）を抽出する（図２参照）。

ＮＥ候補分類を抽出した後、辞書情報作成部１４ｃは、ＮＥ抽出結果におけるＮＥ候補分類の出現頻度を計数する（ステップＳ７０４）。例えば、全てのＮＥ抽出結果において、「山田」に関するＮＥ候補分類が「人名」または「場所」として出力されている回数を計数するとともに、「山田」を現在位置（ｗ０）として、その一つ後（ｗ＋１）に位置するＮＥ候補分類が「その他」として出力されている出現回数を計数する（図２参照）。

出現頻度を計数した後、辞書情報作成部１４ｃは、出現頻度に応じたＮＥ候補分類の順位を決定する（ステップＳ７０５）。例えば、「山田」についてＮＥ候補分類を「人名」とする出現頻度が“２５５”、「場所」とする出現頻度が“１３”である場合には、「人名」を順位“１”に決定し、「場所」を順位“２”に決定する（図２参照）。なお、「山田」の一つ後に位置するＮＥ候補分類が一つしか抽出されていない（「その他」しか抽出されていない）ので、「その他」を順位“１”に決定する（図２参照）。

そして、辞書情報作成部１４ｃは、ＮＥ抽出結果から抽出された全ての単語について、上記で説明してきたような処理（ＮＥ候補分類の抽出、出現頻度の計数および順位の決定）を実行したか否か確認する（ステップＳ７０６）。確認の結果、全ての単語について処理が終了している場合には（ステップＳ７０６肯定）、処理を終了する。一方、抽出された全ての単語について上述してきた処理が終了していない場合には（ステップＳ７０６否定）、残りの単語についてそれぞれ順番にＮＥ候補分類の抽出から処理を実行する。例えば、「山田」についての処理を終了した後、「さん」についてＮＥ候補分類の抽出から処理を実行する（図２参照）。

［実施例１による効果］
上述してきたように、実施例１によれば、ＮＥ（固有表現）抽出処理の結果得られるＮＥ抽出結果を取得しておき、テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を取得されたＮＥ抽出結果に基づいて作成するので、多大な労力を要することなく、固有表現をテキストデータから抽出する手がかりを得るための辞書を簡易に作成することが可能である。

また、実施例１によれば、テキストデータから固有表現を抽出するためのＮＥ抽出器を複数用いてＮＥ抽出処理を行って、その結果得られる複数のＮＥ抽出結果を取得するので、テキストデータから固有表現を抽出する際に手がかりとして信頼性の高い辞書情報を作成することが可能である。

また、実施例１によれば、各ＮＥ抽出結果に基づいて、テキストデータ内に含まれる単語およびその単語を中心として前後に出現する他の単語ごとに、ＮＥ分類候補（例えば、「宮崎」という単語であれば、「人名」や「場所」といった情報）と、各ＮＥ抽出結果における各ＮＥ分類候補の出現頻度（例えば、「宮崎」を「人名」として出力されている回数や、「場所」として出力されている回数からなる情報）と、出現頻度に応じて各ＮＥ分類候補を順位付けした順位情報（例えば、「宮崎」を「人名」とする出現頻度情報が“１００”で、「場所」とする出現頻度情報が“５０”である場合には、「人名」を順位“１”、「場所」を順位“２”とする情報）とからなる辞書情報を作成するので、テキストデータから固有表現を抽出する際に手がかりとして、詳細かつ有益な情報を得ることが可能である。

また、上記の実施例１では、複数のＮＥ抽出結果から取得した全ての情報を用いて辞書情報を自動作成する場合を説明したが、本発明はこれに限定されるものではない。例えば、「山田」という単語に対するＮＥ分類候補が全て「人名」である場合には辞書情報として採用することを決定するなど、複数のＮＥ抽出器によって出力された各ＮＥ抽出結果の一致度（例えば、一致度１００％、一致度８０％など）に応じて、各ＮＥ抽出結果から得られる情報（ＮＥ候補分類、出現頻度および順位）を辞書情報として採用するようにしてもよい。また、一つのテキストデータについてＮＥ抽出処理を実行するごとに、辞書情報を作成するための情報として各ＮＥ抽出結果から得られる情報を採用するか否か決定するようにしてもよい（情報の取捨選択）。すなわち、テキストデータ内のある箇所に出現した「山田」に対するＮＥ抽出結果が各ＮＥ抽出器で全て同じである場合には辞書情報を作成するための情報として採用するなど、テキストデータ内のある箇所に出現した単語に対するＮＥ抽出結果の一致度（例えば、一致度１００％、一致度８０％など）に応じて、辞書情報を作成するための情報として各ＮＥ抽出結果から得られる情報（ＮＥ候補分類、出現頻度および順位）を採用するか否かを決定するようにしてもよい。

このようなことから、テキストデータから固有表現を抽出する際に手がかりとして利用する辞書情報として、より信頼性の高い辞書情報を作成することが可能である。

上記の実施例１では、複数のＮＥ抽出結果を用いて辞書情報を自動作成する場合を説明したが、本発明はこれに限定されるものではなく、テキストデータから固有表現を抽出するためのＮＥ抽出モデルを、自動作成した辞書情報を用いて新たに作成するようにしてもよい。そこで、以下の実施例２では、図８および図９を用いて、実施例２に係る固有表現抽出装置の概要および特徴を説明し、最後に実施例２による効果を説明する。図８は、実施例２に係る固有表現抽出装置の概要および特徴を説明するための図であり、図９は、実施例２に係るＮＥ抽出モデルの構成例を示す図である。

実施例２に係る固有表現抽出装置は、テキストデータから固有表現を抽出するためのＮＥ抽出モデルを作成することを概要とするが、自動作成した辞書情報を用いてＮＥ抽出モデルを新たに作成する点に特徴がある。

すなわち、実施例２に係る固有表現抽出装置のＮＥ抽出器作成部１４ａ（図３参照）は、図８に示すように、正解付きの事例データある学習データをデータ内の位置に応じた内部表現に変換するが、その際に、辞書情報作成部１４ｃにより作成された辞書情報を利用して、辞書情報から得られる情報を内部表現に追加する。

例えば、現在位置の単語に関するＮＥ候補分類の情報や、現在位置の単語の前後に位置する単語から見た現在位置の単語のＮＥ候補分類の情報を追加するとともに、各ＮＥ候補分類に対応付けて、出現頻度および順位に関する情報を追加する。

そして、実施例２に係る固有表現抽出装置のＮＥ抽出器作成部１４ａは、辞書情報から得られる情報が追加された内部表現を機械学習アルゴリズムにあてはめて解析することにより、テキストデータからＮＥを抽出するためのＮＥ抽出モデル（規則）を新たに作成し、作成された新たなＮＥ抽出モデルを動作させるＮＥ抽出器を作成する。図９に示すように、辞書情報から得られる情報が追加された内部表現から、機械学習アルゴリズムに基づいてＮＥ抽出モデルが複数見出される。

また、実施例２に係る固有表現抽出装置のＮＥ抽出処理実行部１４ｂ（図３参照）は、ＮＥ抽出器作成部１４ａにより新たに作成されたＮＥ抽出モデルを動作させるＮＥ抽出器を用いて、入力されたテキストデータについてＮＥ抽出処理を実行する。

［実施例２による効果］
上述してきたように、実施例２によれば、テキストデータから固有表現を抽出するためのＮＥ抽出モデルを、複数のＮＥ抽出結果から作成された辞書情報を用いて新たに作成するので、テキストデータから固有表現を抽出する場合に、より信頼性の高い手がかりを得ることができる結果、テキストデータから固有表現を精度よく抽出することが可能である。

さて、これまで本発明の実施例１および実施例２について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では本発明に含まれる他の実施例を説明する。

（１）装置構成等
図３に示した固有表現抽出装置１０の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、固有表現抽出装置１０の分散・統合の具体的形態は図示のものに限られず、辞書情報作成部１４ｃをＮＥ分類候補抽出機能、出現頻度計数機能およびＮＥ分類候補順位決定機能にそれぞれ分散するなど、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、固有表現抽出装置１０にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

（２）固有表現抽出プログラム
ところで、上記の実施例１または実施例２で説明した各種の処理（図７等参照）は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現することができる。そこで、以下では、図１０を用いて、上記の実施例１または実施例２と同様の機能を有する固有表現抽出プログラムを実行するコンピュータの一例を説明する。図１０は、固有表現抽出プログラムを実行するコンピュータを示す図である。

同図に示すように、固有表現抽出装置としてコンピュータ２０は、入力部２１、出力部２２と、ＨＤＤ２３、ＲＡＭ２４、ＲＯＭ２５およびＣＰＵ２６をバス３０で接続して構成される。なお、入力部２１および出力部２２は、図３に示した固有表現抽出装置１０の入力部１１および出力部１２にそれぞれ対応する。

そして、ＲＯＭ２５には、上記の実施例１に示した固有表現抽出装置と同様の機能を発揮する固有表現抽出プログラム、つまり、図１０に示すように、ＮＥ抽出器作成プログラム２５ａ、ＮＥ抽出処理実行プログラム２５ｂおよび辞書情報作成プログラム２５ｃがあらかじめ記憶されている。なお、これらのプログラム２５ａ、２５ｂおよび２５ｃについては、図３に示した固有表現抽出装置１０の各構成要素と同様、適宜統合または分散してもよい。なお、ＲＯＭ２５は、不揮発性の「ＲＡＭ」でもよい。

そして、ＣＰＵ２６が、これらのプログラム２５ａ、２５ｂおよび２５ｃをＲＯＭ２５から読み出して実行することで、図１０に示すように、各プログラム２５ａ、２５ｂおよび２５ｃは、ＮＥ抽出器作成プロセス２６ａ、ＮＥ抽出処理実行プロセス２６ｂおよび辞書情報作成プロセス２６ｃとして機能するようになる。なお、各プロセス２６ａ、２６ｂおよび２６ｃは、図３に示した固有表現抽出装置１０のＮＥ抽出器作成部１４ａ、ＮＥ抽出処理実行部１４ｂおよび辞書情報作成部１４ｃにそれぞれ対応する。

また、ＨＤＤ２３には、図１０に示すように、辞書情報データテーブル２３ａが設けられる。なお、辞書情報データテーブル２３ａは、図３に示した辞書情報記憶部１３ａに対応する。そして、ＣＰＵ２６は、辞書情報データテーブル２３ａから、辞書情報データ２４ａを読み出してＲＡＭ２４に格納し、ＲＡＭ２４に格納された辞書情報データ２４ａに基づいて処理を実行する。

なお、上記した各プログラム２５ａ、２５ｂおよび２５ｃについては、必ずしも最初からＲＯＭ２５に記憶させておく必要はなく、例えば、コンピュータ２０に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」、または、コンピュータ２０の内外に備えられるＨＤＤなどの「固定用の物理媒体」、さらには、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ２０に接続される「他のコンピュータ（またはサーバ）」などに各プログラムを記憶させておき、コンピュータ２０がこれらから各プログラムを読み出して実行するようにしてもよい。

（付記１）テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理をコンピュータに実行させる固有表現抽出プログラムであって、
前記固有表現抽出処理の結果得られる固有表現抽出結果を取得する抽出結果取得手順と、
テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を、前記抽出結果取得手順により取得された固有表現抽出結果に基づいて作成する辞書情報作成手順と、
をコンピュータに実行させることを特徴とする固有表現抽出プログラム。

（付記２）前記抽出結果取得手順は、テキストデータから固有表現を抽出するための固有表現抽出モデルを複数用いて固有表現抽出処理を行い、当該固有表現抽出処理の結果得られる複数の固有表現抽出結果を取得することを特徴とする付記１に記載の固有表現抽出プログラム。

（付記３）前記辞書情報作成手順は、前記抽出結果取得手順により取得された各固有表現抽出結果に基づいて、テキストデータ内に含まれる単語および当該単語を中心として前後に出現する他の単語ごとに、固有表現としての分類候補を示す分類候補情報と、全固有表現抽出結果における各分類候補の出現頻度を示す出現頻度情報と、出現頻度情報に応じて各分類候補情報を順位付けした順位情報とからなる辞書情報を作成することを特徴とする付記１または２に記載の固有表現抽出プログラム。

（付記４）前記辞書情報作成手順は、前記抽出結果取得手順により取得された各固有表現抽出結果の一致度に応じて前記分類候補情報、前記出現頻度情報および前記順位情報を採用するか否か決定し、採用することを決定した分類候補情報、出現頻度情報および順位情報からなる辞書を作成することを特徴とする付記３に記載の固有表現抽出プログラム。

（付記５）テキストデータから固有表現を抽出するための固有表現抽出モデルを、前記辞書情報作成手順により作成された辞書情報を用いて新たに作成するモデル作成手順をさらにコンピュータに実行させることを特徴とする付記１〜４のいずれか一つに記載の固有表現抽出プログラム。

（付記６）テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理を行う固有表現抽出方法であって、
前記固有表現抽出処理の結果得られる固有表現抽出結果を取得する抽出結果取得工程と、
テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を、前記抽出結果取得工程により取得された固有表現抽出結果に基づいて作成する辞書情報作成工程と、
を含んだことを特徴とする固有表現抽出方法。

（付記７）前記抽出結果取得工程は、テキストデータから固有表現を抽出するための固有表現抽出モデルを複数用いて固有表現抽出処理を行い、当該固有表現抽出処理の結果得られる複数の固有表現抽出結果を取得することを特徴とする付記６に記載の固有表現抽出方法。

（付記８）前記辞書情報作成工程は、前記抽出結果取得工程により取得された各固有表現抽出結果に基づいて、テキストデータ内に含まれる単語および当該単語を中心として前後に出現する他の単語ごとに、固有表現としての分類候補を示す分類候補情報と、全固有表現抽出結果における各分類候補の出現頻度を示す出現頻度情報と、出現頻度情報に応じて各分類候補情報を順位付けした順位情報とからなる辞書情報を作成することを特徴とする付記６または７に記載の固有表現抽出方法。

（付記９）前記辞書情報作成工程は、前記抽出結果取得工程により取得された各固有表現抽出結果の一致度に応じて前記分類候補情報、前記出現頻度情報および前記順位情報を採用するか否か決定し、採用することを決定した分類候補情報、出現頻度情報および順位情報からなる辞書を作成することを特徴とする付記８に記載の固有表現抽出方法。

（付記１０）テキストデータから固有表現を抽出するための固有表現抽出モデルを、前記辞書情報作成工程により作成された辞書情報を用いて新たに作成するモデル作成工程をさらに含んだことを特徴とする付記６〜９のいずれか一つに記載の固有表現抽出方法。

（付記１１）テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理を行う固有表現抽出装置であって、
前記固有表現抽出処理の結果得られる固有表現抽出結果を取得する抽出結果取得手段と、
テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を、前記抽出結果取得手段により取得された固有表現抽出結果に基づいて作成する辞書情報作成手段と、
を備えたことを特徴とする固有表現抽出装置。

（付記１２）前記抽出結果取得手段は、テキストデータから固有表現を抽出するための固有表現抽出モデルを複数用いて固有表現抽出処理を行い、当該固有表現抽出処理の結果得られる複数の固有表現抽出結果を取得することを特徴とする付記１１に記載の固有表現抽出装置。

（付記１３）前記辞書情報作成手段は、前記抽出結果取得手段により取得された各固有表現抽出結果に基づいて、テキストデータ内に含まれる単語および当該単語を中心として前後に出現する他の単語ごとに、固有表現としての分類候補を示す分類候補情報と、全固有表現抽出結果における各分類候補の出現頻度を示す出現頻度情報と、出現頻度情報に応じて各分類候補情報を順位付けした順位情報とからなる辞書情報を作成することを特徴とする付記１１または１２に記載の固有表現抽出装置。

（付記１４）前記辞書情報作成手段は、前記抽出結果取得手段により取得された各固有表現抽出結果の一致度に応じて前記分類候補情報、前記出現頻度情報および前記順位情報を採用するか否か決定し、採用することを決定した分類候補情報、出現頻度情報および順位情報からなる辞書を作成することを特徴とする付記１３に記載の固有表現抽出装置。

（付記１５）テキストデータから固有表現を抽出するための固有表現抽出モデルを、前記辞書情報作成手段により作成された辞書情報を用いて新たに作成するモデル作成手段をさらに備えたことを特徴とする付記１１〜１４のいずれか一つに記載の固有表現抽出装置。

以上のように、本発明に係る固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置は、テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理をコンピュータに実行させる場合等に有用であり、特に、多大な労力を要することなく、テキストデータから固有表現を抽出する手がかりを得るための辞書情報を簡易に作成することに適する。

実施例１に係る固有表現抽出装置の概要および特徴を説明するための図である。実施例１に係る辞書情報の構成例を示す図である。実施例１に係る固有表現抽出装置の構成を示すブロック図である。実施例１に係る学習データの構成例を示す図である。実施例１に係る内部表現の構成例を示す図である。テキストデータ内の単語の位置に関する位置情報の設定例を示す図である。実施例１に係る固有表現抽出装置の処理の流れを示すフローチャートである。実施例２に係る固有表現抽出装置の概要および特徴を説明するための図である。実施例２に係るＮＥ抽出モデルの構成例を示す図である。固有表現抽出プログラムを実行するコンピュータを示す図である。

符号の説明

１０固有表現抽出装置
１１入力部
１２出力部
１３記憶部
１３ａ辞書情報記憶部
１４制御部
１４ａＮＥ抽出器作成部
１４ｂＮＥ抽出処理実行部
１４ｃ辞書情報作成部
２０コンピュータ
２１入力部
２２出力部
２３ＨＤＤ（Hard Disk Drive）
２４ＲＡＭ（Random Access Memory）
２５ＲＯＭ（Read Only Memory）
２６ＣＰＵ（Central Processing Unit）
３０バス

Claims

テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理をコンピュータに実行させる固有表現抽出プログラムであって、
前記固有表現抽出処理の結果得られる固有表現抽出結果を取得する抽出結果取得手順と、
テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を、前記抽出結果取得手順により取得された固有表現抽出結果に基づいて作成する辞書情報作成手順と、
をコンピュータに実行させることを特徴とする固有表現抽出プログラム。
前記抽出結果取得手順は、テキストデータから固有表現を抽出するための固有表現抽出モデルを複数用いて固有表現抽出処理を行い、当該固有表現抽出処理の結果得られる複数の固有表現抽出結果を取得することを特徴とする請求項１に記載の固有表現抽出プログラム。
前記辞書情報作成手順は、前記抽出結果取得手順により取得された各固有表現抽出結果に基づいて、テキストデータ内に含まれる単語および当該単語を中心として前後に出現する他の単語ごとに、固有表現としての分類候補を示す分類候補情報と、全固有表現抽出結果における各分類候補の出現頻度を示す出現頻度情報と、出現頻度情報に応じて各分類候補情報を順位付けした順位情報とからなる辞書情報を作成することを特徴とする請求項１または２に記載の固有表現抽出プログラム。
テキストデータから固有表現を抽出するための固有表現抽出モデルを、前記辞書情報作成手順により作成された辞書情報を用いて新たに作成するモデル作成手順をさらにコンピュータに実行させることを特徴とする請求項１〜３のいずれか一つに記載の固有表現抽出プログラム。
テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理を行う固有表現抽出方法であって、
前記固有表現抽出処理の結果得られる固有表現抽出結果を取得する抽出結果取得工程と、
テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を、前記抽出結果取得工程により取得された固有表現抽出結果に基づいて作成する辞書情報作成工程と、
を含んだことを特徴とする固有表現抽出方法。
テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理を行う固有表現抽出装置であって、
前記固有表現抽出処理の結果得られる固有表現抽出結果を取得する抽出結果取得手段と、
テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を、前記抽出結果取得手段により取得された固有表現抽出結果に基づいて作成する辞書情報作成手段と、
を備えたことを特徴とする固有表現抽出装置。