JP5591870B2

JP5591870B2 - 固有表現抽出装置、方法、及びプログラム

Info

Publication number: JP5591870B2
Application number: JP2012122359A
Authority: JP
Inventors: 九月貞光; 義博松尾; 俊朗牧野; 邦子齋藤; 竜一郎東中
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-05-29
Filing date: 2012-05-29
Publication date: 2014-09-17
Anticipated expiration: 2032-05-29
Also published as: JP2013246795A

Description

本発明は、固有表現抽出推定装置、方法、及びプログラムに係り、特に、固有表現のカテゴリを示すラベルが付与された固有表現を抽出する固有表現抽出装置、方法、及びプログラムに関する。

固有表現とは、固有名詞のような、特定の場所や物事を指す表現のことである。たとえば、「ＮＴＴ（登録商標）」や「大阪」は、「組織」、「場所」についての固有表現である。ここで、「組織」や「場所」は固有表現のカテゴリと呼ばれる。従来、ＩＲＥＸという会議において定義された、8つの固有表現カテゴリが、標準の固有表現カテゴリとして用いられてきた。しかしながら、「場所」や「組織」では粒度が粗く、アプリケーションによっては、より詳細なカテゴリ分類が必要なことがある。ニューヨーク大の関根らは、固有表現を細分化した、拡張固有表現という概念を提案しており、その枠組みでは、200クラスの固有表現カテゴリが定義されている。

また、「ナイル川は世界で一番長い川」という文章から、自動的に「ナイル川」という固有物を指す表現、「固有表現」を抽出し、詳細なラベル（例えば「河川名」）を付与する技術が知られている（例えば、非特許文献１）。非特許文献１では、拡張固有表現を従来の手掛かり情報（周辺文脈情報）と、機械学習法の１つであるCRFによって解いている。ここで、CRF（Conditional Random Fields）とは、形態素解析や固有表現抽出等の系列ラベリング問題を解くのに用いられる識別学習器である。

橋本、中村、「拡張固有表現タグ付きコーパスの構築-白書，書籍，Yahoo!知恵袋コアデータ-」、言語処理学会第16回年次大会、２０１０年、３月

上記の非特許文献１に記載の技術では、従来の固有表現抽出技術と同じく、周辺文脈を手掛かり情報として用いているが、それ故「［ナイル川］に行く」と「［多摩川動物園］に行く」では周辺文脈（「に行く」）が同じになってしまい、これらを「河川名」と「遊園施設名」に識別できない。一方、従来の固有表現定義の場合、これらはいずれも「場所名」であり、識別する必要はなかった。

また、各クラス用の識別器を複数走らせるため、１つの固有表現に対し、複数のクラスラベルが付与され、それを後から一意に定めるための明示的な手段がない。

また、非特許文献１に記載の手法を単純に変更し、全クラスに対応した固有表現抽出器を作った場合に、使用するメモリ量が大きくなりすぎて、実運用上の問題が生じる。

本発明は、上記の事情を鑑みてなされたもので、固有表現のカテゴリが、詳細なカテゴリ分類であっても、ラベル付きの固有表現を精度よく抽出することができる固有表現抽出装置、方法、及びプログラムを提供することを目的とする。

上記の目的を達成するために第１の発明に係る固有表現抽出装置は、形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する素性算出手段と、前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリを示す特定のラベルが付与された固有表現であるか否かを識別するための予め学習された識別モデルを記憶する個別モデル記憶手段と、前記個別モデル記憶手段に記憶された前記識別モデルと、前記素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記特定のラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記特定のラベルが付与された固有表現を抽出する固有表現抽出手段と、を含んで構成されている。

第２の発明に係る固有表現抽出方法は、素性算出手段、個別モデル記憶手段、及び固有表現抽出手段を含む固有表現抽出装置における固有表現抽出方法であって、前記素性算出手段によって、形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、前記固有表現抽出手段によって、前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリを示す特定のラベルが付与された固有表現であるか否かを識別するための予め学習された識別モデルを記憶する前記個別モデル記憶手段に記憶された前記識別モデルと、前記素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記特定のラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記特定のラベルが付与された固有表現を抽出する。

第１の発明及び第２の発明によれば、入力文書中の各単語について、単語内の情報に関する特徴を含む素性を算出し、固有表現のカテゴリを示すラベルが付与された固有表現であるか否かを識別するための識別モデルを用いて、ラベルが付与された固有表現であるか否かを識別することにより、固有表現のカテゴリが、詳細なカテゴリ分類であっても、ラベル付きの固有表現を精度よく抽出することができる。

第３の発明に係る固有表現抽出装置は、形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する第１素性算出手段と、前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリについて予め定められた前記固有表現のカテゴリの階層構造におけるルート階層のラベルの下層である第１階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習されたルート階層識別モデルを記憶するルート階層モデル記憶手段と、前記ルート階層モデル記憶手段に記憶されたルート階層識別モデルと、前記第１素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記第１階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第１階層の各ラベルが付与された固有表現を抽出する第１固有表現抽出手段と、前記第１固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第１階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する第２素性算出手段と、前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第１階層のラベル毎に、前記ラベルの下層である第２階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第１階層識別モデルの各々を記憶する第１階層モデル記憶手段と、前記第１階層モデル記憶手段によって記憶された前記第１階層識別モデルの各々と、前記第２素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第２階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第２階層の各ラベルが付与された固有表現を抽出する第２固有表現抽出手段と、前記第２固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第２階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する第３素性算出手段と、前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第２階層のラベル毎に、前記ラベルの下層である第３階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第２階層識別モデルの各々を記憶する第２階層モデル記憶手段と、前記第２階層モデル記憶手段によって記憶された前記第２階層識別モデルの各々と、前記第３素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第３階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第３階層の各ラベルが付与された固有表現を抽出する第３固有表現抽出手段と、を含んで構成されている。

第４の発明に係る固有表現抽出方法は、第１素性算出手段、ルート階層モデル記憶手段、第１固有表現抽出手段、第２素性算出手段、第１階層モデル記憶手段、第２固有表現抽出手段、第３素性算出手段、第２階層モデル記憶手段、及び第３固有表現抽出手段を含む固有表現抽出装置における固有表現抽出方法であって、前記第１素性算出手段によって、形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、前記第１固有表現抽出手段によって、前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリについて予め定められた前記固有表現のカテゴリの階層構造におけるルート階層のラベルの下層である第１階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習されたルート階層識別モデルを記憶する前記ルート階層モデル記憶手段に記憶されたルート階層識別モデルと、前記第１素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記第１階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第１階層の各ラベルが付与された固有表現を抽出し、前記第２素性算出手段によって、前記第１固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第１階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、前記第２固有表現抽出手段によって、前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第１階層のラベル毎に、前記ラベルの下層である第２階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第１階層識別モデルの各々を記憶する前記第１階層モデル記憶手段によって記憶された前記第１階層識別モデルの各々と、前記第２素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第２階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第２階層の各ラベルが付与された固有表現を抽出し、前記第３素性算出手段によって、前記第２固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第２階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、前記第３固有表現抽出手段によって、前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第２階層のラベル毎に、前記ラベルの下層である第３階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第２階層識別モデルの各々を記憶する前記第２階層モデル記憶手段によって記憶された前記第２階層識別モデルの各々と、前記第３素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第３階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第３階層の各ラベルが付与された固有表現を抽出する。

第３の発明及び第４の発明によれば、入力文書中の各単語について、単語内の情報に関する特徴を含む素性を算出し、固有表現のカテゴリの階層構造における各階層のラベル毎に、当該ラベルの下層である各ラベルが付与された固有表現であるか否かを識別するための識別モデルを用いて、ラベルが付与された固有表現であるか否かを識別することにより、固有表現のカテゴリが、詳細なカテゴリ分類であっても、階層構造における各階層のラベル付きの固有表現を精度よく抽出することができる。

本発明に係るプログラムは、コンピュータを、上記の固有表現抽出装置の各手段として機能させるためのプログラムである。

以上説明したように、本発明の固有表現抽出装置、方法、及びプログラムによれば、入力文書中の各単語について、単語内の情報に関する特徴を含む素性を算出し、固有表現のカテゴリを示すラベルが付与された固有表現であるか否かを識別するための識別モデルを用いて、ラベルが付与された固有表現であるか否かを識別することにより、固有表現のカテゴリが、詳細なカテゴリ分類であっても、ラベル付きの固有表現を精度よく抽出することができる、という効果が得られる。

固有表現ラベルの階層構造を示す図である。本発明の第１の実施の形態に係る固有表現学習装置の構成を示す概略図である。識別モデルを学習する方法を説明するための図である。本発明の第１の実施の形態に係る固有表現抽出装置の構成を示す概略図である。固有表現を抽出する方法を説明するための図である。本発明の第１の実施の形態に係る固有表現学習装置における階層モデル学習処理ルーチンの内容を示すフローチャートである。本発明の第１の実施の形態に係る固有表現抽出装置における固有表現ラベル抽出処理ルーチンの内容を示すフローチャートである。特定ラベルを説明するための図である。本発明の第２の実施の形態に係る固有表現学習装置の構成を示す概略図である。個別モデルを学習する方法を説明するための図である。本発明の第２の実施の形態に係る固有表現抽出装置の構成を示す概略図である。特定ラベルの固有表現を抽出する方法を説明するための図である。本発明の第２の実施の形態に係る固有表現学習装置における個別モデル学習処理ルーチンの内容を示すフローチャートである。本発明の第２の実施の形態に係る固有表現抽出装置における固有表現ラベル抽出処理ルーチンの内容を示すフローチャートである。本発明の第３の実施の形態に係る固有表現抽出装置の構成を示す概略図である。階層構造のラベル又は特定ラベルの固有表現を抽出する方法を説明するための図である。（Ａ）階層構造のラベル付きの固有表現を抽出する実験の結果を示すグラフ、及び（Ｂ）特定ラベル付きの固有表現を抽出する実験の結果を示すグラフである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

[第１の実施の形態]
＜発明の概要＞
「ナイル川 / に / 行きたい」という文章と「多摩川動物園 / に / 行きたい」という文章とに含まれる固有表現のラベルの区別を行うために、周辺文脈だけでなく、単語内の情報を素性として求める。例えば、単語「ナイル川」に対して、素性[単語内文字]={ナ，イ，ル，川}、素性[最初の文字]={ナ}、素性[最後の文字]={川}を用いて、単語「ナイル川」に対して、詳細な固有表現のラベルが付与された固有表現であるか否かを識別し、固有表現を精度よく抽出する。

また、拡張固有表現の全２００ラベルに対してラベル付けを行うと共に、省メモリ化するために、固有表現のラベルの階層構造を用いる。この階層構造はあらかじめ定義されたもの（図１参照）でもよいし、自動的にクラスタリングしたものでもよい。これを階層モデルと呼ぶ。各ノードにおいて１０程度のクラスをモデル化するのみでよいため、省メモリな動作が可能であり、並列分散処理が容易となる。また、一意にラベルを定めることが可能である。

＜システム構成＞
本発明の第１の実施の形態では、全２００ラベルに対してルート階層から第３階層までの階層構造が予め定義された拡張固有表現のラベルが付与された固有表現を抽出する固有表現抽出装置に、本発明を適用した場合を例に説明する。

図２に示すように、本発明の第１の実施の形態に係る固有表現抽出システムにおける固有表現学習装置１００は、固有表現のラベルが付与され、かつ、形態素解析済みの文書データが入力され、固有表現ラベル付きの固有表現であるか否かを識別するためのモデルを学習する。この固有表現学習装置１００は、ＣＰＵと、ＲＡＭと、後述する固有表現学習処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図２に示すように、固有表現学習装置１００は、入力部１０と、演算部２０とを備えている。

入力部１０は、固有表現のラベルが付与され、かつ、形態素解析済みの文書データの集合である学習データを、入力として受け付ける。

学習データの文書データは、図３に示すように、例えば末端階層（第３階層）の固有表現ラベルが予め付与された文書データである。

演算部２０は、文書集合データベース２１、第３階層分割部２２、素性生成部２３、素性化テキスト記憶部２４、第２階層学習部２５、第２階層モデル記憶部２６、第２階層ラベル変換部２７、素性生成部２８、素性化テキスト記憶部２９、第１階層学習部３０、第１階層モデル記憶部３１、第１階層ラベル変換部３２、素性生成部３３、素性化テキスト記憶部３４、ルート階層学習部３５、及びルート階層モデル記憶部３６を備えている。

文書集合データベース２１は、入力部１０により受け付けた、形態素解析済みの文書データの集合である学習データを記憶する。

第３階層分割部２２は、文書集合データベース２１に記憶された学習データに含まれる形態素解析済みの文書データの各々について、図３に示すように、当該文書データに付与されたラベルに従い、第３階層のラベル毎に、当該ラベル（例えば「River」）を持つもののみにラベルを残したまま、他のラベル(例えばProvince)を削除して、形態素解析済みの学習用テキストを生成する。これによって、第３階層のラベル毎に生成された学習用テキストが出力される。

素性生成部２３は、第３階層のラベル毎に生成された形態素解析済みの学習用テキストの各々について、当該学習用テキストに含まれる各単語の素性を生成する。例えば、注目する単語が、「信濃川」、かつラベル「河川名」が付与されている場合、「当該単語は[河川名]である」といったラベル情報、「当該単語内の最後の文字は『川』である」といった単語内情報、「1つ後の単語は『は』である」といった周辺文脈情報を示す素性を生成する。これによって、図３に示すような素性化されたテキストが出力される。なお、図３の例では、固有表現の抽出範囲の始まりの単語についてＢタグが付与され、抽出範囲の始まり以外の単語についてＩタグが付与され，それ以外の単語についてＯタグが付与されている。

素性化テキスト記憶部２４は、素性生成部２３によって生成された素性化テキストの集合が記憶されている。

第２階層学習部２５は、第２階層のラベル毎に、当該ラベルの下層に相当する第３階層のラベルに対する学習用テキストから生成された素性化テキストに基づいて、当該ラベルが付与された固有表現が、どの第３階層のラベルに該当するかを識別するための識別モデルを学習する。モデル学習では、素性化テキストに含まれるラベル情報を教師信号として用いて、一般の系列ラベリング問題と同様に解けばよい。識別学習を用いることで、様々な素性を利用可能となる。

これによって、図３に示すように、第２階層のラベル毎に、識別モデルが得られ、複数の第２階層モデル記憶部２６の各々に記憶される。

第２階層ラベル変換部２７は、第３階層分割部２２によって第３階層のラベル毎に生成された学習用テキストの各々について、当該学習用テキスト中の固有表現に付与された第３階層のラベルを、当該第３階層のラベルの上層に相当する第２階層のラベルに置換する。また、第３階層で異なったラベルが付与されていた場合でも、第２階層で同じラベルが付与され場合、１つの学習用テキストにまとめる。例えば、上記図３に示すように、学習用テキスト「<GPE:新潟>/を/流れる/<Geological Region:信濃川>/は/日本一/長い/川」のように、第２階層で同じラベル「Location」に属する第３階層のラベルを、１つの学習用テキストにまとめる。

これによって、第２階層のラベル毎に生成された学習用テキスト、すわなち、第２階層のラベルの下層に相当する第３階層のラベルが付与された、形態素解析済みの学習用テキストが出力される。

素性生成部２８は、第２階層のラベル毎に生成された形態素解析済みの学習用テキストの各々について、素性生成部２３と同様に、当該学習用テキストに含まれる各単語の素性（ラベル情報、単語内情報、周辺文脈情報を示す素性を含む）を生成し、素性化テキストを生成する。素性化テキスト記憶部２９は、素性生成部２８によって生成された素性化テキストの集合が記憶されている。

第１階層学習部２５は、第１階層のラベル毎に、当該ラベルの下層に相当する第２階層のラベルに対する学習用テキストから生成された素性化テキストに基づいて、第２階層学習部２５と同様に、当該ラベルが付与された固有表現が、どの第２階層のラベルに該当するかを識別するための識別モデルを学習する。これによって、図３に示すように、第１階層のラベル毎に、識別モデルが得られ、複数の第１階層モデル記憶部３１の各々に記憶される。

第１階層ラベル変換部３２は、第２階層ラベル変換部２７によって第２階層のラベル毎に生成された学習用テキストの各々について、当該学習用テキスト中の固有表現に付与された第２階層のラベルを、当該ラベルの上層に相当する第１階層のラベルに置換する。また、第２階層で異なったラベルが付与されていた場合でも、第１階層で同じラベルが付与され場合、１つの学習用テキストにまとめる。これによって、第１階層のラベル毎に生成された学習用テキスト、すわなち、第１階層のラベルの下層に相当する第２階層のラベルが付与された、形態素解析済みの学習用テキストが出力される。

素性生成部３３は、第１階層のラベル毎に生成された形態素解析済みの学習用テキストの各々について、素性生成部２３と同様に、当該学習用テキストに含まれる各単語の素性（ラベル情報、単語内情報、周辺文脈情報を示す素性を含む）を生成し、素性化テキストを生成する。素性化テキスト記憶部３４は、素性生成部３３によって生成された素性化テキストの集合が記憶されている。

ルート階層学習部３５は、ルート階層のラベルの下層に相当する第１階層のラベルに対する学習用テキストから生成された素性化テキストに基づいて、第２階層学習部２５と同様に、当該ラベルが付与された固有表現が、どの第１階層のラベルに該当するかを識別するための識別モデルを学習する。これによって、図３に示すように、ルート階層のラベルについて識別モデルが得られ、ルート階層モデル記憶部３６に記憶される。

図４に示すように、本発明の第１の実施の形態に係る固有表現抽出システムにおける固有表現抽出装置１５０は、固有表現のラベルが付与されていない、形態素解析済みの文書データが入力され、固有表現ラベル付きの固有表現を抽出した結果を出力する。この固有表現抽出装置１５０は、ＣＰＵと、ＲＡＭと、後述する固有表現ラベル抽出処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図４に示すように、固有表現抽出装置１５０は、入力部５０と、演算部６０と、出力部８０とを備えている。

入力部５０は、図５に示すような、固有表現のラベルが付与されていない、形態素解析済みの文書データを、入力として受け付ける。

演算部６０は、素性生成部６１、素性化テキスト記憶部６２、ルート階層モデル記憶部６３、ルート階層識別部６４、第１階層分割部６５、素性生成部６６、素性化テキスト記憶部６７、第１階層モデル記憶部６８、第１階層識別部６９、第２階層分割部７０、素性生成部７１、素性化テキスト記憶部７２、第２階層モデル記憶部７３、第２階層識別部７４、及び抽出結果統合部７５を備えている。なお、素性生成部６１が、第１素性算出手段の一例であり、ルート階層識別部６４が、第１固有表現抽出手段の一例であり、素性生成部６６が、第２素性算出手段の一例であり、第１階層識別部６９が、第２固有表現抽出手段の一例である。

素性生成部６１は、入力された形態素解析済みの文書データについて、当該文書データに含まれる各単語の素性を生成し、素性化テキストを生成する。単語の素性として、単語内情報及び周辺文脈情報を示す素性を生成する。

素性化テキスト記憶部６２は、素性生成部６１によって生成された素性化テキストが記憶されている。

ルート階層モデル記憶部６３は、固有表現学習装置１００のルート階層モデル記憶部３６と同じ識別モデルが記憶されている。

ルート階層識別部６４は、ルート階層モデル記憶部６３の識別モデルを用いて、素性生成部６１によって生成された素性化されたテキストに基づいて、各単語が、第１階層のラベル付きの固有表現であるか否かを識別し、第１階層のラベルの固有表現を抽出する。これによって、図５に示すように、第１階層ラベルが付与された、形態素解析済みの文書データが得られる。

第１階層分割部６５は、ルート階層識別部６４から出力された、第１階層ラベルが付与された形態素解析済みの文書データについて、図５に示すように、当該文書データに付与されたラベルに従い、第１階層のラベル毎に、当該ラベル（例えば「River」）を持つもののみにラベルを残したまま、他のラベル(例えばProvince)を削除して、形態素解析済の文書データを生成する。これによって、第１階層のラベル毎に生成された文書データが出力される。

素性生成部６６は、第１階層のラベルの各々に対応して設けられ、各素性生成部６６が並列に処理を実行する。素性生成部６６は、対応する第１階層のラベルについて第１階層分割部６５によって生成された文書データについて、各単語の素性（ラベル情報、単語内情報、周辺文脈情報を示す素性を含む）を生成し、素性化テキストを生成する。

素性化テキスト記憶部６７は、各素性生成部６６によって生成された素性化テキストの集合が記憶されている。

第１階層モデル記憶部６８は、第１階層のラベルの各々に対応して設けられ、各第１階層モデル記憶部６８は、固有表現学習装置１００の第１階層モデル記憶部３１と同じ、第１階層のラベル毎の識別モデルが記憶されている。

第１階層識別部６９は、第１階層のラベルの各々に対応して設けられ、第１階層識別部６９の各々が並列に処理を実行する。第１階層識別部６９は、対応するルート階層モデル記憶部６３の第１階層のラベルの識別モデルを用いて、素性生成部６６によって生成された、第１階層のラベルについての素性化されたテキストに基づいて、各単語が、当該第１階層のラベルの下層に相当する第２階層のラベル付きの固有表現であるか否かを識別し、第２階層のラベルの固有表現を抽出する。これによって、図５に示すように、第２階層ラベルが付与された、形態素解析済みの文書データが得られる。

第２階層分割部７０は、第１階層識別部６９の各々から出力された、第２階層ラベルが付与された形態素解析済みの文書データについて、図５に示すように、当該文書データに付与されたラベルに従い、第２階層のラベル毎に、当該ラベルを持つもののみにラベルを残したまま、他のラベルを削除して、形態素解析済の文書データを生成する。これによって、第２階層のラベル毎に生成された文書データが出力される。

素性生成部７１は、第２階層のラベルの各々に対応して設けられ、各素性生成部７１が並列に処理を実行する。素性生成部７１は、対応する第２階層のラベルについて第２階層分割部７０によって生成された文書データについて、素性生成部６６と同様に、各単語の素性（ラベル情報、単語内情報、周辺文脈情報を示す素性を含む）を生成し、素性化テキストを生成する。

素性化テキスト記憶部７２は、各素性生成部７１によって生成された素性化テキストの集合が記憶されている。

第２階層モデル記憶部７３は、第２階層のラベルの各々に対応して設けられ、各第２階層モデル記憶部７３は、固有表現学習装置１００の第２階層モデル記憶部２６と同じ、第２階層のラベル毎の識別モデルが記憶されている。

第２階層識別部７４は、第２階層のラベルの各々に対応して設けられ、第２階層識別部７４の各々が並列に処理を実行する。第２階層識別部７４は、対応する階層モデル記憶部７３の第２階層のラベルの識別モデルを用いて、素性生成部７１によって生成された、当該第２階層のラベルについての素性化されたテキストに基づいて、各単語が、当該第２階層のラベルの下層に相当する第３階層のラベル付きの固有表現であるか否かを識別し、第３階層のラベルの固有表現を抽出する。これによって、図５に示すように、第３階層ラベルが付与された、形態素解析済みの文書データが得られる。

抽出結果統合部７５は、第２階層識別部７４の各々によって出力された、第３階層ラベル付きの文の集合を、１つの文書データにまとめて出力する。ラベルの付与されている全箇所について、統合文においても、当該ラベルを付与する。例えば、図５に示すように、ラベル付き文書データ「<County:エジプト>/を/流れる/ナイル川/は/世界一/長い/川」とラベル付き文書データ「エジプト/を/流れる/<River:ナイル川>/は/世界一/長い/川」を統合し、ラベル付き文書データ「<Country:エジプト>/を/流れる/<River:ナイル側>/は/世界一/長い/川」を得る。

これによって、第３階層のラベルが付与された１つの文書データが、出力部８０により出力される。

＜固有表現抽出システムの作用＞
次に、第１の実施の形態に係る固有表現抽出システムの作用について説明する。まず、予め用意された、固有表現ラベル付きの形態素解析結果済みの文書データの集合が、固有表現学習装置１００に入力されると、固有表現学習装置１００によって、入力された文書データの集合が、文書集合データベース２１へ格納される。そして、固有表現学習装置１００によって、図６に示す階層モデル学習処理ルーチンが実行される。

まず、ステップＳ１０１において、入力された、固有表現ラベル付きの形態素解析結果済みの文書データの集合に含まれる各文書データから、第３階層のラベル毎に学習用テキストを生成する。そして、ステップＳ１０２において、上記ステップＳ１０１で生成された学習用テキストの各々について、当該学習用テキストの各単語の素性を生成し、素性化テキストを生成し、素性化テキスト記憶部２４に格納する。

次のステップＳ１０３では、予め定められたラベルの階層構造に従って、第２階層のラベル毎に、当該ラベルの下層に相当する第３階層の各ラベルについて生成された、素性化テキストの集合に基づいて、当該第２階層のラベルの識別モデルを学習し、それぞれ第２階層モデル記憶部２６に格納する。

そして、ステップＳ１０４において、上記ステップＳ１０１で生成された学習用テキストの各々について、当該学習用テキストに含まれる第３階層のラベルを、当該ラベルの上層に相当する第２階層のラベルに変換する。ステップＳ１０５では、上記ステップＳ１０４で得られた学習用テキストの各々から、第２階層のラベル毎に学習用テキストを生成する。そして、ステップＳ１０６において、上記ステップＳ１０５で生成された学習用テキストの各々について、当該学習用テキストの各単語の素性を生成し、素性化テキストを生成し、素性化テキスト記憶部２９に格納する。

次のステップＳ１０７では、予め定められたラベルの階層構造に従って、第１階層のラベル毎に、当該ラベルの下層に相当する第２階層の各ラベルについて生成された、素性化テキストの集合に基づいて、当該第１階層のラベルの識別モデルを学習し、それぞれ第１階層モデル記憶部３１に格納する。

そして、ステップＳ１０８において、上記ステップＳ１０５で生成された学習用テキストの各々について、当該学習用テキストに含まれる第２階層のラベルを、当該ラベルの上層に相当する第１階層のラベルに変換する。ステップＳ１０９では、上記ステップＳ１０８で得られた学習用テキストの各々から、第１階層のラベル毎に学習用テキストを生成する。そして、ステップＳ１１０において、上記ステップＳ１０９で生成された学習用テキストの各々について、当該学習用テキストの各単語の素性を生成し、素性化テキストを生成し、素性化テキスト記憶部３４に格納する。

次のステップＳ１１１では、予め定められたラベルの階層構造に従って、ルート階層のラベルについて、当該ラベルの下層に相当する第１階層の各ラベルについて生成された、素性化テキストの集合に基づいて、ルート階層のラベルの識別モデルを学習し、ルート階層モデル記憶部３６に格納し、階層モデル学習処理ルーチンを終了する。

そして、第２階層モデル記憶部２６の各々、第１階層モデル記憶部３１の各々、及びルート階層モデル記憶部３６に格納された識別モデルが、固有表現抽出装置１５０の第２階層モデル記憶部７３の各々、第１階層モデル記憶部６８の各々、及びルート階層モデル記憶部６３に記憶される。また、形態素解析済みの文書データが固有表現抽出装置１５０に入力されると、固有表現抽出装置１５０によって、図７に示す固有表現ラベル抽出処理ルーチンが実行される。

ステップＳ１２１において、入力された形態素解析済みの文書データについて、各単語の素性を生成し、素性化テキストを生成して、素性化テキスト記憶部６２に格納する。そして、ステップＳ１２２で、上記ステップＳ１２１で生成された素性化テキストに基づいて、ルート階層モデル記憶部６３に記憶されている階層モデルを用いて、各単語が、第１階層ラベル付きの固有表現であるか否かを識別し、第１階層ラベル付きの固有表現を抽出し、第１階層ラベル付きの文書データを得る。

次のステップＳ１２３では、上記ステップＳ１２２で得られた第１階層ラベル付きの文書データから、第１階層のラベル毎に、当該ラベルのみを付与した文書データを生成する。ステップＳ１２４では、第１階層のラベル毎に、当該ラベルのみを付与した文書データから各単語の素性を生成して素性化テキストを生成する処理を、並列計算によって行う。

そして、ステップＳ１２５において、第１階層のラベル毎に、当該ラベルについて上記ステップＳ１２４で生成された素性化テキストに基づいて、第１階層モデル記憶部６８に記憶されている階層モデルを用いて、各単語が、第２階層ラベル付きの固有表現であるか否かを識別し、第２階層ラベル付きの固有表現を抽出する処理を、並列計算によって行う。これによって、第２階層ラベル付きの文書データがそれぞれ得られる。

次のステップＳ１２６では、上記ステップＳ１２５で得られた第２階層ラベル付きの文書データから、第２階層のラベル毎に、当該ラベルのみを付与した文書データを生成する。ステップＳ１２７では、第２階層のラベル毎に、当該ラベルのみを付与した文書データから各単語の素性を生成して素性化テキストを生成する処理を、並列計算によって行う。

そして、ステップＳ１２８において、第２階層のラベル毎に、当該ラベルについて上記ステップＳ１２７で生成された素性化テキストに基づいて、第２階層モデル記憶部７３に記憶されている階層モデルを用いて、各単語が、第３階層ラベル付きの固有表現であるか否かを識別し、第３階層ラベル付きの固有表現を抽出する処理を、並列計算によって行う。これによって、第３階層ラベル付きの文書データがそれぞれ得られる。

次のステップＳ１２９では、上記ステップＳ１２８で得られた第３階層ラベル付きの文書データを統合し、階層構造の各階層のラベルが固有表現に付与された文書データを生成し、出力部８０により出力して、固有表現ラベル抽出処理ルーチンを終了する。

以上説明したように、第１の実施の形態に係る固有表現抽出システムによれば、入力文書中の各単語について、単語内情報に関する特徴を含む素性を算出し、固有表現のカテゴリの階層構造における各階層のラベル毎に学習した、当該ラベルの下層に相当する何れかのラベルが付与された固有表現であるか否かを識別するための識別モデルを用いて、ラベルが付与された固有表現であるか否かを識別することにより、固有表現のカテゴリが、詳細なカテゴリ分類であっても、階層構造における各階層のラベル付きの固有表現を精度よく抽出することができる。

[第２の実施の形態]
次に、第２の実施の形態について説明する。なお、第１の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

第２の実施の形態では、特定のラベルが付与された固有表現を抽出している点が、第１の実施の形態と異なっている。

＜発明の概要＞
特定のラベルのみを必要とする場合には、特定のラベルについてのみモデル化し、適用すれば良い。これを個別モデルと呼ぶ。全てのラベルをモデル化する必要がなく、単一クラスにおいてモデル化すればよいため、省メモリかつ高速な処理が可能となる。例えば、図８に示すように、拡張固有表現定義における末端の階層の１つのラベルのみを対象として、その場限りで必要な固有表現を高速に抽出する。

＜システム構成＞
本発明の第２の実施の形態では、拡張固有表現定義における末端階層のラベルが付与された固有表現を抽出する固有表現抽出装置に、本発明を適用した場合を例に説明する。

図９に示すように、本発明の第２の実施の形態に係る固有表現抽出システムにおける固有表現学習装置２００は、固有表現のラベルが付与され、かつ、形態素解析済みの文書データが入力され、固有表現ラベル付きの固有表現であるか否かを識別するためのモデルを学習する。この固有表現学習装置２００は、ＣＰＵと、ＲＡＭと、後述する個別モデル学習処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図９に示すように、固有表現学習装置２００は、入力部１０と、演算部２２０とを備えている。

入力部１０は、図１０に示すような、末端階層の固有表現のラベルが付与され、かつ、形態素解析済みの文書データの集合である学習データを、入力として受け付ける。

演算部２２０は、文書集合データベース２１、末端階層分割部２２２、素性生成部２２３、素性化テキスト記憶部２２４、個別モデル学習部２２５、及び個別モデル記憶部２２６を備えている。

末端階層分割部２２２は、文書集合データベース２１に記憶された学習データに含まれる形態素解析済みの文書データの各々について、図１０に示すように、当該文書データに付与されたラベルに従い、末端階層のラベル毎に、当該ラベル（例えば「River」）を持つもののみにラベルを残したまま、他のラベル(例えばProvince)を削除して、形態素解析済みの学習用テキストを生成する。これによって、末端階層のラベル毎に生成された学習用テキストが出力される。

素性生成部２２３は、末端階層のラベル毎に生成された形態素解析済みの学習用テキストの各々について、当該学習用テキストに含まれる各単語の素性を生成する。単語の素性として、例えば、ラベル情報、単語内情報、及び周辺文脈情報を示す素性を生成する。これによって、図１０に示すような素性化されたテキストが出力される。

素性化テキスト記憶部２２４は、素性生成部２２３によって生成された素性化テキストの集合が記憶されている。

個別モデル学習部２２５は、末端階層のラベル毎に、当該ラベルに対する学習用テキストから生成された素性化テキストに基づいて、当該ラベルが付与された固有表現であるか否かを識別するための識別モデルを学習する。モデル学習では、素性化テキストに含まれるラベル情報を教師信号として用いて、一般の系列ラベリング問題と同様に解けばよい。識別学習を用いることで、様々な素性を利用可能となる。

これによって、図１０に示すように、末端階層のラベル毎に、識別モデルが得られ、複数の個別モデル記憶部２２６の各々に記憶される。

図１１に示すように、本発明の第２の実施の形態に係る固有表現抽出システムにおける固有表現抽出装置２５０は、固有表現のラベルが付与されていない、形態素解析済みの文書データが入力され、固有表現ラベル付きの固有表現を抽出した結果を出力する。この固有表現抽出装置２５０は、ＣＰＵと、ＲＡＭと、後述する固有表現ラベル抽出処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図１１に示すように、固有表現抽出装置２５０は、入力部５０と、演算部２６０と、出力部８０とを備えている。

入力部５０は、図１２に示すように、固有表現のラベルが付与されていない、形態素解析済みの文書データを、入力として受け付ける。また、入力部５０は、抽出したい固有表現のラベルを、入力として受け付ける。

演算部２６０は、素性生成部６１、個別モデル記憶部２６３、及び個別モデル識別部２６４を備えている。なお、素性生成部６１が、素性算出手段の一例であり、個別モデル識別部２６４が、固有表現抽出手段の一例である。

素性生成部６１は、入力された形態素解析済みの文書データについて、当該文書データに含まれる各単語の素性を生成する。単語の素性として、単語内情報、周辺文脈情報を示す素性を生成する。これによって、図１２に示すような素性化されたテキストが出力される。

個別モデル記憶部２６３の各々は、固有表現学習装置２００の個別モデル記憶部２２６の各々と同じ識別モデルが記憶されている。

個別モデル識別部２６４は、抽出したい固有表現のラベルに対応する個別モデル記憶部２６３の識別モデルを用いて、素性生成部６１によって生成された素性化されたテキストに基づいて、各単語が、当該ラベル付きの固有表現であるか否かを識別し、抽出したい末端階層のラベルの固有表現を抽出する。これによって、図１２に示すように、抽出したい固有表現のラベルが付与された、形態素解析済みの文書データが得られる。

＜固有表現抽出システムの作用＞
次に、本実施の形態に係る固有表現抽出システムの作用について説明する。まず、予め用意された、固有表現ラベル付きの形態素解析結果済みの文書データの集合が固有表現学習装置２００に入力されると、固有表現学習装置２００によって、入力された文書データの集合が、文書集合データベース２１へ格納される。そして、固有表現学習装置２００によって、図１３に示す個別モデル学習処理ルーチンが実行される。

まず、ステップＳ２０１において、入力された、固有表現ラベル付きの形態素解析結果済みの文書データの集合に含まれる各文書データから、末端階層のラベル毎に学習用テキストを生成する。そして、ステップＳ２０２において、上記ステップＳ２０１で生成された学習用テキストの各々について、当該学習用テキストの各単語の素性を生成し、素性化テキストを生成し、素性化テキスト記憶部２２４に格納する。

次のステップＳ２０３では、末端階層のラベル毎に、当該ラベルにについて生成された、素性化テキストの集合に基づいて、当該ラベルの識別モデルを学習し、それぞれ個別モデル記憶部２２６に格納し、個別モデル学習処理ルーチンを終了する。

そして、個別モデル記憶部２２６の各々に格納された識別モデルが、固有表現抽出装置２５０の個別モデル記憶部２６３の各々に記憶される。また、形態素解析済みの文書データが固有表現抽出装置２５０に入力されると共に、抽出したい末端階層のラベル情報が固有表現抽出装置２５０に入力されると、固有表現抽出装置２５０によって、図１４に示す固有表現ラベル抽出処理ルーチンが実行される。

ステップＳ２２１において、入力された形態素解析済みの文書データについて、各単語の素性を生成し、素性化テキストを生成する。そして、ステップＳ２２２で、入力された、抽出したい末端階層のラベルに対応する識別モデルを選択して、個別モデル記憶部２６３から読み込む。

そして、ステップＳ２２３において、上記ステップＳ２２１で生成された素性化テキストに基づいて、上記ステップＳ２２２で読み込んだ階層モデルを用いて、各単語が、抽出したいラベル付きの固有表現であるか否かを識別し、当該ラベル付きの固有表現を抽出し、当該ラベル付きの文書データを得る。

次のステップＳ２２４では、上記ステップＳ２２３で得られたラベル付きの文書データを、出力部８０により出力して、固有表現ラベル抽出処理ルーチンを終了する。

以上説明したように、第２の実施の形態に係る固有表現抽出システムによれば、入力文書中の各単語について、単語内情報に関する特徴を含む素性を算出し、固有表現のカテゴリを示す特定ラベルが付与された固有表現であるか否かを識別するための識別モデルを用いて、特定ラベルが付与された固有表現であるか否かを識別することにより、固有表現のカテゴリが、詳細なカテゴリ分類であっても、抽出したい特定ラベル付きの固有表現を精度よく抽出することができる。

[第３の実施の形態]
次に、第３の実施の形態について説明する。なお、第１の実施の形態及び第２の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

第３の実施の形態では、階層構造の各ラベルが付与された固有表現を抽出するか、特定のラベルが付与された固有表現のみを抽出するかを選択することができる点が、第１の実施の形態と異なっている。

＜システム構成＞
本発明の第３の実施の形態に係る固有表現抽出システムでは、上記の第１の実施の形態と同様に、固有表現学習装置１００によって、階層構造の各識別モデルを学習すると共に、上記の第２の実施の形態と同様に、固有表現学習装置２００によって、末端階層の各ラベルの識別モデルを学習する。

図１５に示すように、本発明の第３の実施の形態に係る固有表現抽出システムにおける固有表現抽出装置３５０は、固有表現のラベルが付与されていない、形態素解析済みの文書データが入力され、固有表現ラベル付きの固有表現を抽出した結果を出力する。この固有表現抽出装置３５０は、ＣＰＵと、ＲＡＭと、プログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図１５に示すように、固有表現抽出装置３５０は、入力部５０と、演算部３６０と、出力部８０とを備えている。

入力部５０は、図１６に示すように、固有表現のラベルが付与されていない、形態素解析済みの文書データを、入力として受け付ける。また、入力部５０は、階層構造の各ラベルが付与された固有表現を抽出するか、特定のラベルが付与された固有表現のみを抽出するかの選択（以下、モデルの選択とも称する）を、入力として受け付け、特定のラベルが付与された固有表現を抽出することを選択した場合には、更に、抽出したい固有表現のラベル情報を、入力として受け付ける。

演算部３６０は、素性生成部６１、素性化テキスト記憶部６２、モデル切替部３６３、階層モデル識別部３６４、及び個別モデル識別部３６５を備えている。なお、モデル切替部３６３が、判定手段の一例である。

モデル切替部３６３は、図１６に示すように、入力されたモデルの選択（階層or個別）に従い、ラベル付きの固有表現の識別処理を、階層モデル識別部３６４により行うか、個別モデル識別部３６５により行うかを分岐制御する。

階層モデル識別部３６４は、上記の第１の実施の形態で説明した、ルート階層モデル記憶部６３、ルート階層識別部６４、第１階層分割部６５、素性生成部６６、素性化テキスト記憶部６７、第１階層モデル記憶部６８、第１階層識別部６９、第２階層分割部７０、素性生成部７１、素性化テキスト記憶部７２、第２階層モデル記憶部７３、第２階層識別部７４、及び抽出結果統合部７５で構成されている。

階層モデル識別部３６４は、階層構造の各ラベルが付与された固有表現を抽出することが選択された場合（階層モデルが選択された場合）に、図１６に示すように、階層構造の各ラベルが付与された１つの文書データを出力する。

個別モデル識別部３６５は、個別モデル記憶部２６３、及び個別モデル識別部２６４で構成されている。なお、個別モデル識別部２６４が、第３固有表現抽出手段の一例である。

個別モデル識別部３６５は、特定のラベルが付与された固有表現を抽出することが選択された場合（個別モデルが選択された場合）に、図１６に示すように、抽出したい末端階層のラベルが付与された１つの文書データを出力する。

なお、第３の実施の形態に係る固有表現抽出システムの他の構成及び作用については、第１の実施の形態、及び第２の実施の形態と同様であるため、説明を省略する。

以上説明したように、第３の実施の形態に係る固有表現抽出システムによれば、ユーザによって、階層構造の各ラベル付きの固有表現を抽出するか、抽出したい特定ラベル付きの固有表現を抽出するかを選択して切り替えることができる。

＜実施例＞

次に実施例について説明する。使用テキストデータを、新聞記事31日分の8,584文書とし、識別器として、CRFを用いて実験を行った。また、単語内文字を素性とした場合、単語内文字種を素性とした場合、単語内文字及び単語内文字種を素性とした場合、単語内文字と単語内の最初の文字と最後の文字とを素性とした場合のそれぞれについて、上記の第１の実施の形態で説明した手法により、階層構造の各ラベルが付与された固有表現の抽出を行った。また、ベースラインとして、前後３単語以内の単語/品詞を素性として用いて、階層構造の各ラベルが付与された固有表現の抽出を行った。ラベル付きの固有表現の抽出結果の精度を評価した。精度の評価値としてはＦ値を用いた。

図１７（Ａ）に示す実験結果から、「単語内の文字と最初と最後の位置情報が付与された文字」を素性として用いた場合が良い結果であると判明した。

また、単語内文字と単語内の最初の文字と最後の文字とを素性とした場合について、上記の第２の実施の形態で説明した手法により、特定ラベルが付与された固有表現の抽出を行った。また、ベースラインとして、前後３単語以内の単語/品詞を素性として用いて、特定ラベルが付与された固有表現の抽出を行った。また、使用テキストデータ内に必ず特定ラベルが含まれるよう設定した。ラベル付きの固有表現の抽出結果の精度を評価した。精度の評価値としてはＦ値を用いた。図１７（Ｂ）に示す実験結果から、「単語内の文字と最初と最後の位置情報が付与された文字」を素性として用いた場合が良い結果であると判明した。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、固有表現抽出装置と固有表現学習装置とを１つの装置によって実現するようにしてもよい。

また、形態素解析済みの文書データが固有表現抽出装置に入力される場合を例に説明したが、これに限定されるものではなく、入力された文書データに対して、固有表現抽出装置において形態素解析処理を行うようにしてもよい。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０、５０入力部
２０、６０、２２０、２６０、３６０演算部
２１文書集合データベース
２２第３階層分割部
２３、２８、３３、６１、６６、７１、２２３素性生成部
２５第２階層学習部
３０第１階層学習部
３５ルート階層学習部
６３ルート階層モデル記憶部
６４ルート階層識別部
６５第１階層分割部
６８第１階層モデル記憶部
６９第１階層識別部
７０第２階層分割部
７３第２階層モデル記憶部
７４第２階層識別部
７５抽出結果統合部
８０出力部
１００、２００固有表現学習装置
１５０、２５０、３５０固有表現抽出装置
２２２末端階層分割部
２２５個別モデル学習部
２６３個別モデル記憶部
２６４個別モデル識別部
３６３モデル切替部
３６４階層モデル識別部
３６５個別モデル識別部

Claims

形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する素性算出手段と、
前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリを示す特定のラベルが付与された固有表現であるか否かを識別するための予め学習された識別モデルを記憶する個別モデル記憶手段と、
前記個別モデル記憶手段に記憶された前記識別モデルと、前記素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記特定のラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記特定のラベルが付与された固有表現を抽出する固有表現抽出手段と、
を含む固有表現抽出装置。
形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する第１素性算出手段と、
前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリについて予め定められた前記固有表現のカテゴリの階層構造におけるルート階層のラベルの下層である第１階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習されたルート階層識別モデルを記憶するルート階層モデル記憶手段と、
前記ルート階層モデル記憶手段に記憶されたルート階層識別モデルと、前記第１素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記第１階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第１階層の各ラベルが付与された固有表現を抽出する第１固有表現抽出手段と、
前記第１固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第１階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する第２素性算出手段と、
前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第１階層のラベル毎に、前記ラベルの下層である第２階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第１階層識別モデルの各々を記憶する第１階層モデル記憶手段と、
前記第１階層モデル記憶手段によって記憶された前記第１階層識別モデルの各々と、前記第２素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第２階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第２階層の各ラベルが付与された固有表現を抽出する第２固有表現抽出手段と、
前記第２固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第２階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する第３素性算出手段と、
前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第２階層のラベル毎に、前記ラベルの下層である第３階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第２階層識別モデルの各々を記憶する第２階層モデル記憶手段と、
前記第２階層モデル記憶手段によって記憶された前記第２階層識別モデルの各々と、前記第３素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第３階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第３階層の各ラベルが付与された固有表現を抽出する第３固有表現抽出手段と、
を含む固有表現抽出装置。
ユーザからの入力に従って、前記階層構造の各階層のラベルが付与された固有表現を抽出するか、前記階層構造のラベルのうちの特定ラベルが付与された固有表現を抽出するかを判定する判定手段と、
前記判定手段によって、前記特定ラベルが付与された固有表現を抽出すると判定された場合に、前記単語が、前記特定ラベルが付与された固有表現であるか否かを識別するための予め学習された識別モデルと、前記第１素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記特定ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記特定ラベルが付与された固有表現を抽出する第４固有表現抽出手段と、
を更に含む請求項２記載の固有表現抽出装置。
前記単語内の情報に関する特徴を、前記単語内の各文字、前記単語の最初の文字、及び前記単語の最後の文字の少なくとも１つに関する特徴とした請求項１〜請求項３の何れか１項記載の固有表現抽出装置。
素性算出手段、個別モデル記憶手段、及び固有表現抽出手段を含む固有表現抽出装置における固有表現抽出方法であって、
前記素性算出手段によって、形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、
前記固有表現抽出手段によって、前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリを示す特定のラベルが付与された固有表現であるか否かを識別するための予め学習された識別モデルを記憶する前記個別モデル記憶手段に記憶された前記識別モデルと、前記素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記特定のラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記特定のラベルが付与された固有表現を抽出する
固有表現抽出方法。
第１素性算出手段、ルート階層モデル記憶手段、第１固有表現抽出手段、第２素性算出手段、第１階層モデル記憶手段、第２固有表現抽出手段、第３素性算出手段、第２階層モデル記憶手段、及び第３固有表現抽出手段を含む固有表現抽出装置における固有表現抽出方法であって、
前記第１素性算出手段によって、形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、
前記第１固有表現抽出手段によって、前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリについて予め定められた前記固有表現のカテゴリの階層構造におけるルート階層のラベルの下層である第１階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習されたルート階層識別モデルを記憶する前記ルート階層モデル記憶手段に記憶されたルート階層識別モデルと、前記第１素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記第１階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第１階層の各ラベルが付与された固有表現を抽出し、
前記第２素性算出手段によって、前記第１固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第１階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、
前記第２固有表現抽出手段によって、前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第１階層のラベル毎に、前記ラベルの下層である第２階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第１階層識別モデルの各々を記憶する前記第１階層モデル記憶手段によって記憶された前記第１階層識別モデルの各々と、前記第２素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第２階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第２階層の各ラベルが付与された固有表現を抽出し、
前記第３素性算出手段によって、前記第２固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第２階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、
前記第３固有表現抽出手段によって、前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第２階層のラベル毎に、前記ラベルの下層である第３階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第２階層識別モデルの各々を記憶する前記第２階層モデル記憶手段によって記憶された前記第２階層識別モデルの各々と、前記第３素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第３階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第３階層の各ラベルが付与された固有表現を抽出する
固有表現抽出方法。
コンピュータを、請求項１〜請求項４の何れか１項記載の固有表現抽出装置を構成する各手段として機能させるためのプログラム。