JP5591870B2 - 固有表現抽出装置、方法、及びプログラム - Google Patents

固有表現抽出装置、方法、及びプログラム Download PDF

Info

Publication number
JP5591870B2
JP5591870B2 JP2012122359A JP2012122359A JP5591870B2 JP 5591870 B2 JP5591870 B2 JP 5591870B2 JP 2012122359 A JP2012122359 A JP 2012122359A JP 2012122359 A JP2012122359 A JP 2012122359A JP 5591870 B2 JP5591870 B2 JP 5591870B2
Authority
JP
Japan
Prior art keywords
label
hierarchy
word
feature
specific expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012122359A
Other languages
English (en)
Other versions
JP2013246795A (ja
Inventor
九月 貞光
義博 松尾
俊朗 牧野
邦子 齋藤
竜一郎 東中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012122359A priority Critical patent/JP5591870B2/ja
Publication of JP2013246795A publication Critical patent/JP2013246795A/ja
Application granted granted Critical
Publication of JP5591870B2 publication Critical patent/JP5591870B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、固有表現抽出推定装置、方法、及びプログラムに係り、特に、固有表現のカテゴリを示すラベルが付与された固有表現を抽出する固有表現抽出装置、方法、及びプログラムに関する。
固有表現とは、固有名詞のような、特定の場所や物事を指す表現のことである。たとえば、「NTT(登録商標)」や「大阪」は、「組織」、「場所」についての固有表現である。ここで、「組織」や「場所」は固有表現のカテゴリと呼ばれる。従来、IREXという会議において定義された、8つの固有表現カテゴリが、標準の固有表現カテゴリとして用いられてきた。しかしながら、「場所」や「組織」では粒度が粗く、アプリケーションによっては、より詳細なカテゴリ分類が必要なことがある。ニューヨーク大の関根らは、固有表現を細分化した、拡張固有表現という概念を提案しており、その枠組みでは、200クラスの固有表現カテゴリが定義されている。
また、「ナイル川は世界で一番長い川」という文章から、自動的に「ナイル川」という固有物を指す表現、「固有表現」を抽出し、詳細なラベル(例えば「河川名」)を付与する技術が知られている(例えば、非特許文献1)。非特許文献1では、拡張固有表現を従来の手掛かり情報(周辺文脈情報)と、機械学習法の1つであるCRFによって解いている。ここで、CRF(Conditional Random Fields)とは、形態素解析や固有表現抽出等の系列ラベリング問題を解くのに用いられる識別学習器である。
橋本、中村、「拡張固有表現タグ付きコーパスの構築-白書,書籍,Yahoo!知恵袋コアデータ-」、言語処理学会第16回年次大会、2010年、3月
上記の非特許文献1に記載の技術では、従来の固有表現抽出技術と同じく、周辺文脈を手掛かり情報として用いているが、それ故「[ナイル川]に行く」と「[多摩川動物園]に行く」では周辺文脈(「に行く」)が同じになってしまい、これらを「河川名」と「遊園施設名」に識別できない。一方、従来の固有表現定義の場合、これらはいずれも「場所名」であり、識別する必要はなかった。
また、各クラス用の識別器を複数走らせるため、1つの固有表現に対し、複数のクラスラベルが付与され、それを後から一意に定めるための明示的な手段がない。
また、非特許文献1に記載の手法を単純に変更し、全クラスに対応した固有表現抽出器を作った場合に、使用するメモリ量が大きくなりすぎて、実運用上の問題が生じる。
本発明は、上記の事情を鑑みてなされたもので、固有表現のカテゴリが、詳細なカテゴリ分類であっても、ラベル付きの固有表現を精度よく抽出することができる固有表現抽出装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために第1の発明に係る固有表現抽出装置は、形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する素性算出手段と、前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリを示す特定のラベルが付与された固有表現であるか否かを識別するための予め学習された識別モデルを記憶する個別モデル記憶手段と、前記個別モデル記憶手段に記憶された前記識別モデルと、前記素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記特定のラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記特定のラベルが付与された固有表現を抽出する固有表現抽出手段と、を含んで構成されている。
第2の発明に係る固有表現抽出方法は、素性算出手段、個別モデル記憶手段、及び固有表現抽出手段を含む固有表現抽出装置における固有表現抽出方法であって、前記素性算出手段によって、形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、前記固有表現抽出手段によって、前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリを示す特定のラベルが付与された固有表現であるか否かを識別するための予め学習された識別モデルを記憶する前記個別モデル記憶手段に記憶された前記識別モデルと、前記素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記特定のラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記特定のラベルが付与された固有表現を抽出する。
第1の発明及び第2の発明によれば、入力文書中の各単語について、単語内の情報に関する特徴を含む素性を算出し、固有表現のカテゴリを示すラベルが付与された固有表現であるか否かを識別するための識別モデルを用いて、ラベルが付与された固有表現であるか否かを識別することにより、固有表現のカテゴリが、詳細なカテゴリ分類であっても、ラベル付きの固有表現を精度よく抽出することができる。
第3の発明に係る固有表現抽出装置は、形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する第1素性算出手段と、前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリについて予め定められた前記固有表現のカテゴリの階層構造におけるルート階層のラベルの下層である第1階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習されたルート階層識別モデルを記憶するルート階層モデル記憶手段と、前記ルート階層モデル記憶手段に記憶されたルート階層識別モデルと、前記第1素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記第1階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第1階層の各ラベルが付与された固有表現を抽出する第1固有表現抽出手段と、前記第1固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第1階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する第2素性算出手段と、前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第1階層のラベル毎に、前記ラベルの下層である第2階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第1階層識別モデルの各々を記憶する第1階層モデル記憶手段と、前記第1階層モデル記憶手段によって記憶された前記第1階層識別モデルの各々と、前記第2素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第2階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第2階層の各ラベルが付与された固有表現を抽出する第2固有表現抽出手段と、前記第2固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第2階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する第3素性算出手段と、前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第2階層のラベル毎に、前記ラベルの下層である第3階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第2階層識別モデルの各々を記憶する第2階層モデル記憶手段と、前記第2階層モデル記憶手段によって記憶された前記第2階層識別モデルの各々と、前記第3素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第3階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第3階層の各ラベルが付与された固有表現を抽出する第3固有表現抽出手段と、を含んで構成されている。
第4の発明に係る固有表現抽出方法は、第1素性算出手段、ルート階層モデル記憶手段、第1固有表現抽出手段、第2素性算出手段、第1階層モデル記憶手段、第2固有表現抽出手段、第3素性算出手段、第2階層モデル記憶手段、及び第3固有表現抽出手段を含む固有表現抽出装置における固有表現抽出方法であって、前記第1素性算出手段によって、形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、前記第1固有表現抽出手段によって、前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリについて予め定められた前記固有表現のカテゴリの階層構造におけるルート階層のラベルの下層である第1階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習されたルート階層識別モデルを記憶する前記ルート階層モデル記憶手段に記憶されたルート階層識別モデルと、前記第1素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記第1階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第1階層の各ラベルが付与された固有表現を抽出し、前記第2素性算出手段によって、前記第1固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第1階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、前記第2固有表現抽出手段によって、前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第1階層のラベル毎に、前記ラベルの下層である第2階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第1階層識別モデルの各々を記憶する前記第1階層モデル記憶手段によって記憶された前記第1階層識別モデルの各々と、前記第2素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第2階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第2階層の各ラベルが付与された固有表現を抽出し、前記第3素性算出手段によって、前記第2固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第2階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、前記第3固有表現抽出手段によって、前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第2階層のラベル毎に、前記ラベルの下層である第3階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第2階層識別モデルの各々を記憶する前記第2階層モデル記憶手段によって記憶された前記第2階層識別モデルの各々と、前記第3素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第3階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第3階層の各ラベルが付与された固有表現を抽出する。
第3の発明及び第4の発明によれば、入力文書中の各単語について、単語内の情報に関する特徴を含む素性を算出し、固有表現のカテゴリの階層構造における各階層のラベル毎に、当該ラベルの下層である各ラベルが付与された固有表現であるか否かを識別するための識別モデルを用いて、ラベルが付与された固有表現であるか否かを識別することにより、固有表現のカテゴリが、詳細なカテゴリ分類であっても、階層構造における各階層のラベル付きの固有表現を精度よく抽出することができる。
本発明に係るプログラムは、コンピュータを、上記の固有表現抽出装置の各手段として機能させるためのプログラムである。
以上説明したように、本発明の固有表現抽出装置、方法、及びプログラムによれば、入力文書中の各単語について、単語内の情報に関する特徴を含む素性を算出し、固有表現のカテゴリを示すラベルが付与された固有表現であるか否かを識別するための識別モデルを用いて、ラベルが付与された固有表現であるか否かを識別することにより、固有表現のカテゴリが、詳細なカテゴリ分類であっても、ラベル付きの固有表現を精度よく抽出することができる、という効果が得られる。
固有表現ラベルの階層構造を示す図である。 本発明の第1の実施の形態に係る固有表現学習装置の構成を示す概略図である。 識別モデルを学習する方法を説明するための図である。 本発明の第1の実施の形態に係る固有表現抽出装置の構成を示す概略図である。 固有表現を抽出する方法を説明するための図である。 本発明の第1の実施の形態に係る固有表現学習装置における階層モデル学習処理ルーチンの内容を示すフローチャートである。 本発明の第1の実施の形態に係る固有表現抽出装置における固有表現ラベル抽出処理ルーチンの内容を示すフローチャートである。 特定ラベルを説明するための図である。 本発明の第2の実施の形態に係る固有表現学習装置の構成を示す概略図である。 個別モデルを学習する方法を説明するための図である。 本発明の第2の実施の形態に係る固有表現抽出装置の構成を示す概略図である。 特定ラベルの固有表現を抽出する方法を説明するための図である。 本発明の第2の実施の形態に係る固有表現学習装置における個別モデル学習処理ルーチンの内容を示すフローチャートである。 本発明の第2の実施の形態に係る固有表現抽出装置における固有表現ラベル抽出処理ルーチンの内容を示すフローチャートである。 本発明の第3の実施の形態に係る固有表現抽出装置の構成を示す概略図である。 階層構造のラベル又は特定ラベルの固有表現を抽出する方法を説明するための図である。 (A)階層構造のラベル付きの固有表現を抽出する実験の結果を示すグラフ、及び(B)特定ラベル付きの固有表現を抽出する実験の結果を示すグラフである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
[第1の実施の形態]
<発明の概要>
「ナイル川 / に / 行きたい」という文章と 「多摩川動物園 / に / 行きたい」という文章とに含まれる固有表現のラベルの区別を行うために、周辺文脈だけでなく、単語内の情報を素性として求める。例えば、単語「ナイル川」に対して、素性[単語内文字]={ナ,イ,ル,川}、素性[最初の文字]={ナ}、素性[最後の文字]={川}を用いて、単語「ナイル川」に対して、詳細な固有表現のラベルが付与された固有表現であるか否かを識別し、固有表現を精度よく抽出する。
また、拡張固有表現の全200ラベルに対してラベル付けを行うと共に、省メモリ化するために、固有表現のラベルの階層構造を用いる。この階層構造はあらかじめ定義されたもの(図1参照)でもよいし、自動的にクラスタリングしたものでもよい。これを階層モデルと呼ぶ。各ノードにおいて10程度のクラスをモデル化するのみでよいため、省メモリな動作が可能であり、並列分散処理が容易となる。また、一意にラベルを定めることが可能である。
<システム構成>
本発明の第1の実施の形態では、全200ラベルに対してルート階層から第3階層までの階層構造が予め定義された拡張固有表現のラベルが付与された固有表現を抽出する固有表現抽出装置に、本発明を適用した場合を例に説明する。
図2に示すように、本発明の第1の実施の形態に係る固有表現抽出システムにおける固有表現学習装置100は、固有表現のラベルが付与され、かつ、形態素解析済みの文書データが入力され、固有表現ラベル付きの固有表現であるか否かを識別するためのモデルを学習する。この固有表現学習装置100は、CPUと、RAMと、後述する固有表現学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図2に示すように、固有表現学習装置100は、入力部10と、演算部20とを備えている。
入力部10は、固有表現のラベルが付与され、かつ、形態素解析済みの文書データの集合である学習データを、入力として受け付ける。
学習データの文書データは、図3に示すように、例えば末端階層(第3階層)の固有表現ラベルが予め付与された文書データである。
演算部20は、文書集合データベース21、第3階層分割部22、素性生成部23、素性化テキスト記憶部24、第2階層学習部25、第2階層モデル記憶部26、第2階層ラベル変換部27、素性生成部28、素性化テキスト記憶部29、第1階層学習部30、第1階層モデル記憶部31、第1階層ラベル変換部32、素性生成部33、素性化テキスト記憶部34、ルート階層学習部35、及びルート階層モデル記憶部36を備えている。
文書集合データベース21は、入力部10により受け付けた、形態素解析済みの文書データの集合である学習データを記憶する。
第3階層分割部22は、文書集合データベース21に記憶された学習データに含まれる形態素解析済みの文書データの各々について、図3に示すように、当該文書データに付与されたラベルに従い、第3階層のラベル毎に、当該ラベル(例えば「River」)を持つもののみにラベルを残したまま、他のラベル(例えばProvince)を削除して、形態素解析済みの学習用テキストを生成する。これによって、第3階層のラベル毎に生成された学習用テキストが出力される。
素性生成部23は、第3階層のラベル毎に生成された形態素解析済みの学習用テキストの各々について、当該学習用テキストに含まれる各単語の素性を生成する。例えば、注目する単語が、「信濃川」、かつラベル「河川名」が付与されている場合、「当該単語は[河川名]である」といったラベル情報、「当該単語内の最後の文字は『川』である」といった単語内情報、「1つ後の単語は『は』である」といった周辺文脈情報を示す素性を生成する。これによって、図3に示すような素性化されたテキストが出力される。なお、図3の例では、固有表現の抽出範囲の始まりの単語についてBタグが付与され、抽出範囲の始まり以外の単語についてIタグが付与され,それ以外の単語についてOタグが付与されている。
素性化テキスト記憶部24は、素性生成部23によって生成された素性化テキストの集合が記憶されている。
第2階層学習部25は、第2階層のラベル毎に、当該ラベルの下層に相当する第3階層のラベルに対する学習用テキストから生成された素性化テキストに基づいて、当該ラベルが付与された固有表現が、どの第3階層のラベルに該当するかを識別するための識別モデルを学習する。モデル学習では、素性化テキストに含まれるラベル情報を教師信号として用いて、一般の系列ラベリング問題と同様に解けばよい。識別学習を用いることで、様々な素性を利用可能となる。
これによって、図3に示すように、第2階層のラベル毎に、識別モデルが得られ、複数の第2階層モデル記憶部26の各々に記憶される。
第2階層ラベル変換部27は、第3階層分割部22によって第3階層のラベル毎に生成された学習用テキストの各々について、当該学習用テキスト中の固有表現に付与された第3階層のラベルを、当該第3階層のラベルの上層に相当する第2階層のラベルに置換する。また、第3階層で異なったラベルが付与されていた場合でも、第2階層で同じラベルが付与され場合、1つの学習用テキストにまとめる。例えば、上記図3に示すように、学習用テキスト「<GPE:新潟>/を/流れる/<Geological Region:信濃川>/は/日本一/長い/川」のように、第2階層で同じラベル「Location」に属する第3階層のラベルを、1つの学習用テキストにまとめる。
これによって、第2階層のラベル毎に生成された学習用テキスト、すわなち、第2階層のラベルの下層に相当する第3階層のラベルが付与された、形態素解析済みの学習用テキストが出力される。
素性生成部28は、第2階層のラベル毎に生成された形態素解析済みの学習用テキストの各々について、素性生成部23と同様に、当該学習用テキストに含まれる各単語の素性(ラベル情報、単語内情報、周辺文脈情報を示す素性を含む)を生成し、素性化テキストを生成する。素性化テキスト記憶部29は、素性生成部28によって生成された素性化テキストの集合が記憶されている。
第1階層学習部25は、第1階層のラベル毎に、当該ラベルの下層に相当する第2階層のラベルに対する学習用テキストから生成された素性化テキストに基づいて、第2階層学習部25と同様に、当該ラベルが付与された固有表現が、どの第2階層のラベルに該当するかを識別するための識別モデルを学習する。これによって、図3に示すように、第1階層のラベル毎に、識別モデルが得られ、複数の第1階層モデル記憶部31の各々に記憶される。
第1階層ラベル変換部32は、第2階層ラベル変換部27によって第2階層のラベル毎に生成された学習用テキストの各々について、当該学習用テキスト中の固有表現に付与された第2階層のラベルを、当該ラベルの上層に相当する第1階層のラベルに置換する。また、第2階層で異なったラベルが付与されていた場合でも、第1階層で同じラベルが付与され場合、1つの学習用テキストにまとめる。これによって、第1階層のラベル毎に生成された学習用テキスト、すわなち、第1階層のラベルの下層に相当する第2階層のラベルが付与された、形態素解析済みの学習用テキストが出力される。
素性生成部33は、第1階層のラベル毎に生成された形態素解析済みの学習用テキストの各々について、素性生成部23と同様に、当該学習用テキストに含まれる各単語の素性(ラベル情報、単語内情報、周辺文脈情報を示す素性を含む)を生成し、素性化テキストを生成する。素性化テキスト記憶部34は、素性生成部33によって生成された素性化テキストの集合が記憶されている。
ルート階層学習部35は、ルート階層のラベルの下層に相当する第1階層のラベルに対する学習用テキストから生成された素性化テキストに基づいて、第2階層学習部25と同様に、当該ラベルが付与された固有表現が、どの第1階層のラベルに該当するかを識別するための識別モデルを学習する。これによって、図3に示すように、ルート階層のラベルについて識別モデルが得られ、ルート階層モデル記憶部36に記憶される。
図4に示すように、本発明の第1の実施の形態に係る固有表現抽出システムにおける固有表現抽出装置150は、固有表現のラベルが付与されていない、形態素解析済みの文書データが入力され、固有表現ラベル付きの固有表現を抽出した結果を出力する。この固有表現抽出装置150は、CPUと、RAMと、後述する固有表現ラベル抽出処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図4に示すように、固有表現抽出装置150は、入力部50と、演算部60と、出力部80とを備えている。
入力部50は、図5に示すような、固有表現のラベルが付与されていない、形態素解析済みの文書データを、入力として受け付ける。
演算部60は、素性生成部61、素性化テキスト記憶部62、ルート階層モデル記憶部63、ルート階層識別部64、第1階層分割部65、素性生成部66、素性化テキスト記憶部67、第1階層モデル記憶部68、第1階層識別部69、第2階層分割部70、素性生成部71、素性化テキスト記憶部72、第2階層モデル記憶部73、第2階層識別部74、及び抽出結果統合部75を備えている。なお、素性生成部61が、第1素性算出手段の一例であり、ルート階層識別部64が、第1固有表現抽出手段の一例であり、素性生成部66が、第2素性算出手段の一例であり、第1階層識別部69が、第2固有表現抽出手段の一例である。
素性生成部61は、入力された形態素解析済みの文書データについて、当該文書データに含まれる各単語の素性を生成し、素性化テキストを生成する。単語の素性として、単語内情報及び周辺文脈情報を示す素性を生成する。
素性化テキスト記憶部62は、素性生成部61によって生成された素性化テキストが記憶されている。
ルート階層モデル記憶部63は、固有表現学習装置100のルート階層モデル記憶部36と同じ識別モデルが記憶されている。
ルート階層識別部64は、ルート階層モデル記憶部63の識別モデルを用いて、素性生成部61によって生成された素性化されたテキストに基づいて、各単語が、第1階層のラベル付きの固有表現であるか否かを識別し、第1階層のラベルの固有表現を抽出する。これによって、図5に示すように、第1階層ラベルが付与された、形態素解析済みの文書データが得られる。
第1階層分割部65は、ルート階層識別部64から出力された、第1階層ラベルが付与された形態素解析済みの文書データについて、図5に示すように、当該文書データに付与されたラベルに従い、第1階層のラベル毎に、当該ラベル(例えば「River」)を持つもののみにラベルを残したまま、他のラベル(例えばProvince)を削除して、形態素解析済の文書データを生成する。これによって、第1階層のラベル毎に生成された文書データが出力される。
素性生成部66は、第1階層のラベルの各々に対応して設けられ、各素性生成部66が並列に処理を実行する。素性生成部66は、対応する第1階層のラベルについて第1階層分割部65によって生成された文書データについて、各単語の素性(ラベル情報、単語内情報、周辺文脈情報を示す素性を含む)を生成し、素性化テキストを生成する。
素性化テキスト記憶部67は、各素性生成部66によって生成された素性化テキストの集合が記憶されている。
第1階層モデル記憶部68は、第1階層のラベルの各々に対応して設けられ、各第1階層モデル記憶部68は、固有表現学習装置100の第1階層モデル記憶部31と同じ、第1階層のラベル毎の識別モデルが記憶されている。
第1階層識別部69は、第1階層のラベルの各々に対応して設けられ、第1階層識別部69の各々が並列に処理を実行する。第1階層識別部69は、対応するルート階層モデル記憶部63の第1階層のラベルの識別モデルを用いて、素性生成部66によって生成された、第1階層のラベルについての素性化されたテキストに基づいて、各単語が、当該第1階層のラベルの下層に相当する第2階層のラベル付きの固有表現であるか否かを識別し、第2階層のラベルの固有表現を抽出する。これによって、図5に示すように、第2階層ラベルが付与された、形態素解析済みの文書データが得られる。
第2階層分割部70は、第1階層識別部69の各々から出力された、第2階層ラベルが付与された形態素解析済みの文書データについて、図5に示すように、当該文書データに付与されたラベルに従い、第2階層のラベル毎に、当該ラベルを持つもののみにラベルを残したまま、他のラベルを削除して、形態素解析済の文書データを生成する。これによって、第2階層のラベル毎に生成された文書データが出力される。
素性生成部71は、第2階層のラベルの各々に対応して設けられ、各素性生成部71が並列に処理を実行する。素性生成部71は、対応する第2階層のラベルについて第2階層分割部70によって生成された文書データについて、素性生成部66と同様に、各単語の素性(ラベル情報、単語内情報、周辺文脈情報を示す素性を含む)を生成し、素性化テキストを生成する。
素性化テキスト記憶部72は、各素性生成部71によって生成された素性化テキストの集合が記憶されている。
第2階層モデル記憶部73は、第2階層のラベルの各々に対応して設けられ、各第2階層モデル記憶部73は、固有表現学習装置100の第2階層モデル記憶部26と同じ、第2階層のラベル毎の識別モデルが記憶されている。
第2階層識別部74は、第2階層のラベルの各々に対応して設けられ、第2階層識別部74の各々が並列に処理を実行する。第2階層識別部74は、対応する階層モデル記憶部73の第2階層のラベルの識別モデルを用いて、素性生成部71によって生成された、当該第2階層のラベルについての素性化されたテキストに基づいて、各単語が、当該第2階層のラベルの下層に相当する第3階層のラベル付きの固有表現であるか否かを識別し、第3階層のラベルの固有表現を抽出する。これによって、図5に示すように、第3階層ラベルが付与された、形態素解析済みの文書データが得られる。
抽出結果統合部75は、第2階層識別部74の各々によって出力された、第3階層ラベル付きの文の集合を、1つの文書データにまとめて出力する。ラベルの付与されている全箇所について、統合文においても、当該ラベルを付与する。例えば、図5に示すように、ラベル付き文書データ「<County:エジプト>/を/流れる/ナイル川/は/世界一/長い/川」とラベル付き文書データ「エジプト/を/流れる/<River:ナイル川>/は/世界一/長い/川」を統合し、ラベル付き文書データ「<Country:エジプト>/を/流れる/<River:ナイル側>/は/世界一/長い/川」を得る。
これによって、第3階層のラベルが付与された1つの文書データが、出力部80により出力される。
<固有表現抽出システムの作用>
次に、第1の実施の形態に係る固有表現抽出システムの作用について説明する。まず、予め用意された、固有表現ラベル付きの形態素解析結果済みの文書データの集合が、固有表現学習装置100に入力されると、固有表現学習装置100によって、入力された文書データの集合が、文書集合データベース21へ格納される。そして、固有表現学習装置100によって、図6に示す階層モデル学習処理ルーチンが実行される。
まず、ステップS101において、入力された、固有表現ラベル付きの形態素解析結果済みの文書データの集合に含まれる各文書データから、第3階層のラベル毎に学習用テキストを生成する。そして、ステップS102において、上記ステップS101で生成された学習用テキストの各々について、当該学習用テキストの各単語の素性を生成し、素性化テキストを生成し、素性化テキスト記憶部24に格納する。
次のステップS103では、予め定められたラベルの階層構造に従って、第2階層のラベル毎に、当該ラベルの下層に相当する第3階層の各ラベルについて生成された、素性化テキストの集合に基づいて、当該第2階層のラベルの識別モデルを学習し、それぞれ第2階層モデル記憶部26に格納する。
そして、ステップS104において、上記ステップS101で生成された学習用テキストの各々について、当該学習用テキストに含まれる第3階層のラベルを、当該ラベルの上層に相当する第2階層のラベルに変換する。ステップS105では、上記ステップS104で得られた学習用テキストの各々から、第2階層のラベル毎に学習用テキストを生成する。そして、ステップS106において、上記ステップS105で生成された学習用テキストの各々について、当該学習用テキストの各単語の素性を生成し、素性化テキストを生成し、素性化テキスト記憶部29に格納する。
次のステップS107では、予め定められたラベルの階層構造に従って、第1階層のラベル毎に、当該ラベルの下層に相当する第2階層の各ラベルについて生成された、素性化テキストの集合に基づいて、当該第1階層のラベルの識別モデルを学習し、それぞれ第1階層モデル記憶部31に格納する。
そして、ステップS108において、上記ステップS105で生成された学習用テキストの各々について、当該学習用テキストに含まれる第2階層のラベルを、当該ラベルの上層に相当する第1階層のラベルに変換する。ステップS109では、上記ステップS108で得られた学習用テキストの各々から、第1階層のラベル毎に学習用テキストを生成する。そして、ステップS110において、上記ステップS109で生成された学習用テキストの各々について、当該学習用テキストの各単語の素性を生成し、素性化テキストを生成し、素性化テキスト記憶部34に格納する。
次のステップS111では、予め定められたラベルの階層構造に従って、ルート階層のラベルについて、当該ラベルの下層に相当する第1階層の各ラベルについて生成された、素性化テキストの集合に基づいて、ルート階層のラベルの識別モデルを学習し、ルート階層モデル記憶部36に格納し、階層モデル学習処理ルーチンを終了する。
そして、第2階層モデル記憶部26の各々、第1階層モデル記憶部31の各々、及びルート階層モデル記憶部36に格納された識別モデルが、固有表現抽出装置150の第2階層モデル記憶部73の各々、第1階層モデル記憶部68の各々、及びルート階層モデル記憶部63に記憶される。また、形態素解析済みの文書データが固有表現抽出装置150に入力されると、固有表現抽出装置150によって、図7に示す固有表現ラベル抽出処理ルーチンが実行される。
ステップS121において、入力された形態素解析済みの文書データについて、各単語の素性を生成し、素性化テキストを生成して、素性化テキスト記憶部62に格納する。そして、ステップS122で、上記ステップS121で生成された素性化テキストに基づいて、ルート階層モデル記憶部63に記憶されている階層モデルを用いて、各単語が、第1階層ラベル付きの固有表現であるか否かを識別し、第1階層ラベル付きの固有表現を抽出し、第1階層ラベル付きの文書データを得る。
次のステップS123では、上記ステップS122で得られた第1階層ラベル付きの文書データから、第1階層のラベル毎に、当該ラベルのみを付与した文書データを生成する。ステップS124では、第1階層のラベル毎に、当該ラベルのみを付与した文書データから各単語の素性を生成して素性化テキストを生成する処理を、並列計算によって行う。
そして、ステップS125において、第1階層のラベル毎に、当該ラベルについて上記ステップS124で生成された素性化テキストに基づいて、第1階層モデル記憶部68に記憶されている階層モデルを用いて、各単語が、第2階層ラベル付きの固有表現であるか否かを識別し、第2階層ラベル付きの固有表現を抽出する処理を、並列計算によって行う。これによって、第2階層ラベル付きの文書データがそれぞれ得られる。
次のステップS126では、上記ステップS125で得られた第2階層ラベル付きの文書データから、第2階層のラベル毎に、当該ラベルのみを付与した文書データを生成する。ステップS127では、第2階層のラベル毎に、当該ラベルのみを付与した文書データから各単語の素性を生成して素性化テキストを生成する処理を、並列計算によって行う。
そして、ステップS128において、第2階層のラベル毎に、当該ラベルについて上記ステップS127で生成された素性化テキストに基づいて、第2階層モデル記憶部73に記憶されている階層モデルを用いて、各単語が、第3階層ラベル付きの固有表現であるか否かを識別し、第3階層ラベル付きの固有表現を抽出する処理を、並列計算によって行う。これによって、第3階層ラベル付きの文書データがそれぞれ得られる。
次のステップS129では、上記ステップS128で得られた第3階層ラベル付きの文書データを統合し、階層構造の各階層のラベルが固有表現に付与された文書データを生成し、出力部80により出力して、固有表現ラベル抽出処理ルーチンを終了する。
以上説明したように、第1の実施の形態に係る固有表現抽出システムによれば、入力文書中の各単語について、単語内情報に関する特徴を含む素性を算出し、固有表現のカテゴリの階層構造における各階層のラベル毎に学習した、当該ラベルの下層に相当する何れかのラベルが付与された固有表現であるか否かを識別するための識別モデルを用いて、ラベルが付与された固有表現であるか否かを識別することにより、固有表現のカテゴリが、詳細なカテゴリ分類であっても、階層構造における各階層のラベル付きの固有表現を精度よく抽出することができる。
[第2の実施の形態]
次に、第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第2の実施の形態では、特定のラベルが付与された固有表現を抽出している点が、第1の実施の形態と異なっている。
<発明の概要>
特定のラベルのみを必要とする場合には、特定のラベルについてのみモデル化し、適用すれば良い。これを個別モデルと呼ぶ。全てのラベルをモデル化する必要がなく、単一クラスにおいてモデル化すればよいため、省メモリかつ高速な処理が可能となる。例えば、図8に示すように、拡張固有表現定義における末端の階層の1つのラベルのみを対象として、その場限りで必要な固有表現を高速に抽出する。
<システム構成>
本発明の第2の実施の形態では、拡張固有表現定義における末端階層のラベルが付与された固有表現を抽出する固有表現抽出装置に、本発明を適用した場合を例に説明する。
図9に示すように、本発明の第2の実施の形態に係る固有表現抽出システムにおける固有表現学習装置200は、固有表現のラベルが付与され、かつ、形態素解析済みの文書データが入力され、固有表現ラベル付きの固有表現であるか否かを識別するためのモデルを学習する。この固有表現学習装置200は、CPUと、RAMと、後述する個別モデル学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図9に示すように、固有表現学習装置200は、入力部10と、演算部220とを備えている。
入力部10は、図10に示すような、末端階層の固有表現のラベルが付与され、かつ、形態素解析済みの文書データの集合である学習データを、入力として受け付ける。
演算部220は、文書集合データベース21、末端階層分割部222、素性生成部223、素性化テキスト記憶部224、個別モデル学習部225、及び個別モデル記憶部226を備えている。
文書集合データベース21は、入力部10により受け付けた、形態素解析済みの文書データの集合である学習データを記憶する。
末端階層分割部222は、文書集合データベース21に記憶された学習データに含まれる形態素解析済みの文書データの各々について、図10に示すように、当該文書データに付与されたラベルに従い、末端階層のラベル毎に、当該ラベル(例えば「River」)を持つもののみにラベルを残したまま、他のラベル(例えばProvince)を削除して、形態素解析済みの学習用テキストを生成する。これによって、末端階層のラベル毎に生成された学習用テキストが出力される。
素性生成部223は、末端階層のラベル毎に生成された形態素解析済みの学習用テキストの各々について、当該学習用テキストに含まれる各単語の素性を生成する。単語の素性として、例えば、ラベル情報、単語内情報、及び周辺文脈情報を示す素性を生成する。これによって、図10に示すような素性化されたテキストが出力される。
素性化テキスト記憶部224は、素性生成部223によって生成された素性化テキストの集合が記憶されている。
個別モデル学習部225は、末端階層のラベル毎に、当該ラベルに対する学習用テキストから生成された素性化テキストに基づいて、当該ラベルが付与された固有表現であるか否かを識別するための識別モデルを学習する。モデル学習では、素性化テキストに含まれるラベル情報を教師信号として用いて、一般の系列ラベリング問題と同様に解けばよい。識別学習を用いることで、様々な素性を利用可能となる。
これによって、図10に示すように、末端階層のラベル毎に、識別モデルが得られ、複数の個別モデル記憶部226の各々に記憶される。
図11に示すように、本発明の第2の実施の形態に係る固有表現抽出システムにおける固有表現抽出装置250は、固有表現のラベルが付与されていない、形態素解析済みの文書データが入力され、固有表現ラベル付きの固有表現を抽出した結果を出力する。この固有表現抽出装置250は、CPUと、RAMと、後述する固有表現ラベル抽出処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図11に示すように、固有表現抽出装置250は、入力部50と、演算部260と、出力部80とを備えている。
入力部50は、図12に示すように、固有表現のラベルが付与されていない、形態素解析済みの文書データを、入力として受け付ける。また、入力部50は、抽出したい固有表現のラベルを、入力として受け付ける。
演算部260は、素性生成部61、個別モデル記憶部263、及び個別モデル識別部264を備えている。なお、素性生成部61が、素性算出手段の一例であり、個別モデル識別部264が、固有表現抽出手段の一例である。
素性生成部61は、入力された形態素解析済みの文書データについて、当該文書データに含まれる各単語の素性を生成する。単語の素性として、単語内情報、周辺文脈情報を示す素性を生成する。これによって、図12に示すような素性化されたテキストが出力される。
個別モデル記憶部263の各々は、固有表現学習装置200の個別モデル記憶部226の各々と同じ識別モデルが記憶されている。
個別モデル識別部264は、抽出したい固有表現のラベルに対応する個別モデル記憶部263の識別モデルを用いて、素性生成部61によって生成された素性化されたテキストに基づいて、各単語が、当該ラベル付きの固有表現であるか否かを識別し、抽出したい末端階層のラベルの固有表現を抽出する。これによって、図12に示すように、抽出したい固有表現のラベルが付与された、形態素解析済みの文書データが得られる。
<固有表現抽出システムの作用>
次に、本実施の形態に係る固有表現抽出システムの作用について説明する。まず、予め用意された、固有表現ラベル付きの形態素解析結果済みの文書データの集合が固有表現学習装置200に入力されると、固有表現学習装置200によって、入力された文書データの集合が、文書集合データベース21へ格納される。そして、固有表現学習装置200によって、図13に示す個別モデル学習処理ルーチンが実行される。
まず、ステップS201において、入力された、固有表現ラベル付きの形態素解析結果済みの文書データの集合に含まれる各文書データから、末端階層のラベル毎に学習用テキストを生成する。そして、ステップS202において、上記ステップS201で生成された学習用テキストの各々について、当該学習用テキストの各単語の素性を生成し、素性化テキストを生成し、素性化テキスト記憶部224に格納する。
次のステップS203では、末端階層のラベル毎に、当該ラベルにについて生成された、素性化テキストの集合に基づいて、当該ラベルの識別モデルを学習し、それぞれ個別モデル記憶部226に格納し、個別モデル学習処理ルーチンを終了する。
そして、個別モデル記憶部226の各々に格納された識別モデルが、固有表現抽出装置250の個別モデル記憶部263の各々に記憶される。また、形態素解析済みの文書データが固有表現抽出装置250に入力されると共に、抽出したい末端階層のラベル情報が固有表現抽出装置250に入力されると、固有表現抽出装置250によって、図14に示す固有表現ラベル抽出処理ルーチンが実行される。
ステップS221において、入力された形態素解析済みの文書データについて、各単語の素性を生成し、素性化テキストを生成する。そして、ステップS222で、入力された、抽出したい末端階層のラベルに対応する識別モデルを選択して、個別モデル記憶部263から読み込む。
そして、ステップS223において、上記ステップS221で生成された素性化テキストに基づいて、上記ステップS222で読み込んだ階層モデルを用いて、各単語が、抽出したいラベル付きの固有表現であるか否かを識別し、当該ラベル付きの固有表現を抽出し、当該ラベル付きの文書データを得る。
次のステップS224では、上記ステップS223で得られたラベル付きの文書データを、出力部80により出力して、固有表現ラベル抽出処理ルーチンを終了する。
以上説明したように、第2の実施の形態に係る固有表現抽出システムによれば、入力文書中の各単語について、単語内情報に関する特徴を含む素性を算出し、固有表現のカテゴリを示す特定ラベルが付与された固有表現であるか否かを識別するための識別モデルを用いて、特定ラベルが付与された固有表現であるか否かを識別することにより、固有表現のカテゴリが、詳細なカテゴリ分類であっても、抽出したい特定ラベル付きの固有表現を精度よく抽出することができる。
[第3の実施の形態]
次に、第3の実施の形態について説明する。なお、第1の実施の形態及び第2の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第3の実施の形態では、階層構造の各ラベルが付与された固有表現を抽出するか、特定のラベルが付与された固有表現のみを抽出するかを選択することができる点が、第1の実施の形態と異なっている。
<システム構成>
本発明の第3の実施の形態に係る固有表現抽出システムでは、上記の第1の実施の形態と同様に、固有表現学習装置100によって、階層構造の各識別モデルを学習すると共に、上記の第2の実施の形態と同様に、固有表現学習装置200によって、末端階層の各ラベルの識別モデルを学習する。
図15に示すように、本発明の第3の実施の形態に係る固有表現抽出システムにおける固有表現抽出装置350は、固有表現のラベルが付与されていない、形態素解析済みの文書データが入力され、固有表現ラベル付きの固有表現を抽出した結果を出力する。この固有表現抽出装置350は、CPUと、RAMと、プログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図15に示すように、固有表現抽出装置350は、入力部50と、演算部360と、出力部80とを備えている。
入力部50は、図16に示すように、固有表現のラベルが付与されていない、形態素解析済みの文書データを、入力として受け付ける。また、入力部50は、階層構造の各ラベルが付与された固有表現を抽出するか、特定のラベルが付与された固有表現のみを抽出するかの選択(以下、モデルの選択とも称する)を、入力として受け付け、特定のラベルが付与された固有表現を抽出することを選択した場合には、更に、抽出したい固有表現のラベル情報を、入力として受け付ける。
演算部360は、素性生成部61、素性化テキスト記憶部62、モデル切替部363、階層モデル識別部364、及び個別モデル識別部365を備えている。なお、モデル切替部363が、判定手段の一例である。
モデル切替部363は、図16に示すように、入力されたモデルの選択(階層or個別)に従い、ラベル付きの固有表現の識別処理を、階層モデル識別部364により行うか、個別モデル識別部365により行うかを分岐制御する。
階層モデル識別部364は、上記の第1の実施の形態で説明した、ルート階層モデル記憶部63、ルート階層識別部64、第1階層分割部65、素性生成部66、素性化テキスト記憶部67、第1階層モデル記憶部68、第1階層識別部69、第2階層分割部70、素性生成部71、素性化テキスト記憶部72、第2階層モデル記憶部73、第2階層識別部74、及び抽出結果統合部75で構成されている。
階層モデル識別部364は、階層構造の各ラベルが付与された固有表現を抽出することが選択された場合(階層モデルが選択された場合)に、図16に示すように、階層構造の各ラベルが付与された1つの文書データを出力する。
個別モデル識別部365は、個別モデル記憶部263、及び個別モデル識別部264で構成されている。なお、個別モデル識別部264が、第3固有表現抽出手段の一例である。
個別モデル識別部365は、特定のラベルが付与された固有表現を抽出することが選択された場合(個別モデルが選択された場合)に、図16に示すように、抽出したい末端階層のラベルが付与された1つの文書データを出力する。
なお、第3の実施の形態に係る固有表現抽出システムの他の構成及び作用については、第1の実施の形態、及び第2の実施の形態と同様であるため、説明を省略する。
以上説明したように、第3の実施の形態に係る固有表現抽出システムによれば、ユーザによって、階層構造の各ラベル付きの固有表現を抽出するか、抽出したい特定ラベル付きの固有表現を抽出するかを選択して切り替えることができる。
<実施例>
次に実施例について説明する。使用テキストデータを、新聞記事31日分の8,584文書とし、識別器として、CRFを用いて実験を行った。また、単語内文字を素性とした場合、単語内文字種を素性とした場合、単語内文字及び単語内文字種を素性とした場合、単語内文字と単語内の最初の文字と最後の文字とを素性とした場合のそれぞれについて、上記の第1の実施の形態で説明した手法により、階層構造の各ラベルが付与された固有表現の抽出を行った。また、ベースラインとして、前後3単語以内の単語/品詞を素性として用いて、階層構造の各ラベルが付与された固有表現の抽出を行った。ラベル付きの固有表現の抽出結果の精度を評価した。精度の評価値としてはF値を用いた。
図17(A)に示す実験結果から、「単語内の文字と最初と最後の位置情報が付与された文字」を素性として用いた場合が良い結果であると判明した。
また、単語内文字と単語内の最初の文字と最後の文字とを素性とした場合について、上記の第2の実施の形態で説明した手法により、特定ラベルが付与された固有表現の抽出を行った。また、ベースラインとして、前後3単語以内の単語/品詞を素性として用いて、特定ラベルが付与された固有表現の抽出を行った。また、使用テキストデータ内に必ず特定ラベルが含まれるよう設定した。ラベル付きの固有表現の抽出結果の精度を評価した。精度の評価値としてはF値を用いた。図17(B)に示す実験結果から、「単語内の文字と最初と最後の位置情報が付与された文字」を素性として用いた場合が良い結果であると判明した。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、固有表現抽出装置と固有表現学習装置とを1つの装置によって実現するようにしてもよい。
また、形態素解析済みの文書データが固有表現抽出装置に入力される場合を例に説明したが、これに限定されるものではなく、入力された文書データに対して、固有表現抽出装置において形態素解析処理を行うようにしてもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10、50 入力部
20、60、220、260、360 演算部
21 文書集合データベース
22 第3階層分割部
23、28、33、61、66、71、223素性生成部
25 第2階層学習部
30 第1階層学習部
35 ルート階層学習部
63 ルート階層モデル記憶部
64 ルート階層識別部
65 第1階層分割部
68 第1階層モデル記憶部
69 第1階層識別部
70 第2階層分割部
73 第2階層モデル記憶部
74 第2階層識別部
75 抽出結果統合部
80 出力部
100、200固有表現学習装置
150、250、350 固有表現抽出装置
222 末端階層分割部
225 個別モデル学習部
263 個別モデル記憶部
264 個別モデル識別部
363 モデル切替部
364 階層モデル識別部
365 個別モデル識別部

Claims (7)

  1. 形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する素性算出手段と、
    前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリを示す特定のラベルが付与された固有表現であるか否かを識別するための予め学習された識別モデルを記憶する個別モデル記憶手段と、
    前記個別モデル記憶手段に記憶された前記識別モデルと、前記素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記特定のラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記特定のラベルが付与された固有表現を抽出する固有表現抽出手段と、
    を含む固有表現抽出装置。
  2. 形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する第1素性算出手段と、
    前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリについて予め定められた前記固有表現のカテゴリの階層構造におけるルート階層のラベルの下層である第1階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習されたルート階層識別モデルを記憶するルート階層モデル記憶手段と、
    前記ルート階層モデル記憶手段に記憶されたルート階層識別モデルと、前記第1素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記第1階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第1階層の各ラベルが付与された固有表現を抽出する第1固有表現抽出手段と、
    前記第1固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第1階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する第2素性算出手段と、
    前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第1階層のラベル毎に、前記ラベルの下層である第2階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第1階層識別モデルの各々を記憶する第1階層モデル記憶手段と、
    前記第1階層モデル記憶手段によって記憶された前記第1階層識別モデルの各々と、前記第2素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第2階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第2階層の各ラベルが付与された固有表現を抽出する第2固有表現抽出手段と、
    前記第2固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第2階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出する第3素性算出手段と、
    前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第2階層のラベル毎に、前記ラベルの下層である第3階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第2階層識別モデルの各々を記憶する第2階層モデル記憶手段と、
    前記第2階層モデル記憶手段によって記憶された前記第2階層識別モデルの各々と、前記第3素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第3階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第3階層の各ラベルが付与された固有表現を抽出する第3固有表現抽出手段と、
    を含む固有表現抽出装置。
  3. ユーザからの入力に従って、前記階層構造の各階層のラベルが付与された固有表現を抽出するか、前記階層構造のラベルのうちの特定ラベルが付与された固有表現を抽出するかを判定する判定手段と、
    前記判定手段によって、前記特定ラベルが付与された固有表現を抽出すると判定された場合に、前記単語が、前記特定ラベルが付与された固有表現であるか否かを識別するための予め学習された識別モデルと、前記第1素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記特定ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記特定ラベルが付与された固有表現を抽出する第固有表現抽出手段と、
    を更に含む請求項2記載の固有表現抽出装置。
  4. 前記単語内の情報に関する特徴を、前記単語内の各文字、前記単語の最初の文字、及び前記単語の最後の文字の少なくとも1つに関する特徴とした請求項1〜請求項3の何れか1項記載の固有表現抽出装置。
  5. 素性算出手段、個別モデル記憶手段、及び固有表現抽出手段を含む固有表現抽出装置における固有表現抽出方法であって、
    前記素性算出手段によって、形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、
    前記固有表現抽出手段によって、前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリを示す特定のラベルが付与された固有表現であるか否かを識別するための予め学習された識別モデルを記憶する前記個別モデル記憶手段に記憶された前記識別モデルと、前記素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記特定のラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記特定のラベルが付与された固有表現を抽出する
    固有表現抽出方法。
  6. 第1素性算出手段、ルート階層モデル記憶手段、第1固有表現抽出手段、第2素性算出手段、第1階層モデル記憶手段、第2固有表現抽出手段、第3素性算出手段、第2階層モデル記憶手段、及び第3固有表現抽出手段を含む固有表現抽出装置における固有表現抽出方法であって、
    前記第1素性算出手段によって、形態素解析済みの入力文書に基づいて、前記入力文書中の各単語について、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、
    前記第1固有表現抽出手段によって、前記素性に基づいて、単語が、固有物を表す表現である固有表現のカテゴリについて予め定められた前記固有表現のカテゴリの階層構造におけるルート階層のラベルの下層である第1階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習されたルート階層識別モデルを記憶する前記ルート階層モデル記憶手段に記憶されたルート階層識別モデルと、前記第1素性算出手段によって算出された各単語の前記素性とに基づいて、前記入力文書中の各単語が、前記第1階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第1階層の各ラベルが付与された固有表現を抽出し、
    前記第2素性算出手段によって、前記第1固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第1階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、
    前記第2固有表現抽出手段によって、前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第1階層のラベル毎に、前記ラベルの下層である第2階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第1階層識別モデルの各々を記憶する前記第1階層モデル記憶手段によって記憶された前記第1階層識別モデルの各々と、前記第2素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第2階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第2階層の各ラベルが付与された固有表現を抽出し、
    前記第3素性算出手段によって、前記第2固有表現抽出手段による抽出結果に基づいて、前記入力文書中の各単語について、前記単語に付与された前記第2階層のラベルに関する特徴、前記単語内の情報に関する特徴、及び前記単語の周辺の文脈に関する特徴を示す素性を算出し、
    前記第3固有表現抽出手段によって、前記素性に基づいて、単語が、前記固有表現のカテゴリの階層構造における前記第2階層のラベル毎に、前記ラベルの下層である第3階層の各ラベルが付与された固有表現であるか否かを識別するための予め学習された第2階層識別モデルの各々を記憶する前記第2階層モデル記憶手段によって記憶された前記第2階層識別モデルの各々と、前記第3素性算出手段によって算出された各単語の前記素性とに基づいて、各単語が、前記第3階層の各ラベルが付与された固有表現であるか否かを識別し、前記入力文書から、前記第3階層の各ラベルが付与された固有表現を抽出する
    固有表現抽出方法。
  7. コンピュータを、請求項1〜請求項4の何れか1項記載の固有表現抽出装置を構成する各手段として機能させるためのプログラム。
JP2012122359A 2012-05-29 2012-05-29 固有表現抽出装置、方法、及びプログラム Active JP5591870B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012122359A JP5591870B2 (ja) 2012-05-29 2012-05-29 固有表現抽出装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012122359A JP5591870B2 (ja) 2012-05-29 2012-05-29 固有表現抽出装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2013246795A JP2013246795A (ja) 2013-12-09
JP5591870B2 true JP5591870B2 (ja) 2014-09-17

Family

ID=49846473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012122359A Active JP5591870B2 (ja) 2012-05-29 2012-05-29 固有表現抽出装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5591870B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015170370A1 (ja) * 2014-05-07 2015-11-12 株式会社日立製作所 ラベル付与装置、ラベル付与方法
CN110929520B (zh) * 2019-11-25 2023-12-08 北京明略软件系统有限公司 非命名实体对象抽取方法、装置、电子设备及存储介质
JP7364512B2 (ja) * 2020-03-25 2023-10-18 株式会社日立製作所 ラベル付与モデル生成装置、及びラベル付与モデル生成方法
CN114595686B (zh) * 2022-03-11 2023-02-03 北京百度网讯科技有限公司 知识抽取方法、知识抽取模型的训练方法及装置

Also Published As

Publication number Publication date
JP2013246795A (ja) 2013-12-09

Similar Documents

Publication Publication Date Title
CN109933686B (zh) 歌曲标签预测方法、装置、服务器及存储介质
CN108885617B (zh) 语句解析系统以及程序
JP2004110161A (ja) テキスト文比較装置
JP5591870B2 (ja) 固有表現抽出装置、方法、及びプログラム
JP7281905B2 (ja) 文書評価装置、文書評価方法及びプログラム
JP2017138655A (ja) 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム
CN110348017B (zh) 一种文本实体检测方法、系统及相关组件
JP6062879B2 (ja) モデル学習装置、方法及びプログラム
Jamatia et al. Collecting and annotating indian social media code-mixed corpora
Sasidhar et al. A survey on named entity recognition in Indian languages with particular reference to Telugu
Yeung et al. Personalized text retrieval for learners of chinese as a foreign language
CN104035955B (zh) 搜索方法和装置
CN107870900B (zh) 提供翻译文的方法、装置以及记录介质
CN109242020A (zh) 一种基于fastText和CRF的音乐领域命令理解方法
US20120150530A1 (en) Information processing device and display control method
JP6522446B2 (ja) ラベル付与装置、方法およびプログラム
JP4054046B2 (ja) 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2008225846A (ja) 単語意味タグ付与装置および方法、プログラム並びに記録媒体
CN110263163A (zh) 一种获取文本摘要的方法和装置
JP2012141679A (ja) 訓練データ獲得装置、訓練データ獲得方法、及びそのプログラム
JP5085584B2 (ja) 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム
JP2011129006A (ja) 意味分類付与装置、意味分類付与方法、意味分類付与プログラム
JP5379813B2 (ja) データ抽出装置、データ抽出方法、及びプログラム
Behera Odia parts of speech tagging corpora: suitability of statistical models
Osoolian et al. IUSTNLPLAB at SemEval-2024 Task 4: Multilingual Detection of Persuasion Techniques in Memes

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140128

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140320

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140715

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140730

R150 Certificate of patent or registration of utility model

Ref document number: 5591870

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150