JP2013254421A

JP2013254421A - 固有表現タイプ推定装置、方法、及びプログラム

Info

Publication number: JP2013254421A
Application number: JP2012130646A
Authority: JP
Inventors: Ryuichiro Higashinaka; 竜一郎東中; Kugatsu Sadamitsu; 九月貞光; Kuniko Saito; 邦子齋藤; Toshiaki Makino; 俊朗牧野; Yoshihiro Matsuo; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-06-08
Filing date: 2012-06-08
Publication date: 2013-12-19
Anticipated expiration: 2032-06-08
Also published as: JP5604475B2

Abstract

【課題】固有表現のタイプを精度よく推定することができるようにする。
【解決手段】見出し語突合部２６は、種辞書データベース２４とカテゴリ付き辞書データベース２５とにおいて、共通する見出し語を選択し、選択された見出し語の各々について、見出し語、カテゴリ、及び固有表現のタイプを対応付けたトリプルデータを生成する。固有表現タイプ学習部２８は、生成されたトリプルデータの各々について、見出し語とカテゴリとのペアに関する特徴量を抽出し、各トリプルデータの特徴量と、各トリプルデータに含まれる固有表現のタイプとに基づいて、固有表現タイプ推定器を学習する。固有表現タイプ推定部２９は、学習された固有表現タイプ推定器を用いて、カテゴリ付き辞書データベース２５中の各見出し語について固有表現のタイプを推定する。
【選択図】図１

Description

本発明は、固有表現タイプ推定装置、方法、及びプログラムに係り、特に、固有表現である見出し語に対して、固有表現のタイプを推定する固有表現タイプ推定装置、方法、及びプログラムに関する。

固有表現とは、固有名詞を含む、特定の場所や物事を指す表現、日付表現、時間表現のことである。たとえば、「ＮＴＴ（登録商標）」や「大阪」は、「組織」、「場所」についての固有表現である。ここで、「組織」や「場所」は固有表現のタイプと呼ばれる。従来、ＩＲＥＸという会議において定義された、8つの固有表現タイプが、標準の固有表現タイプとして用いられてきた。しかしながら、「場所」や「組織」では粒度が粗く、アプリケーションによっては、より詳細なタイプ分類が必要なことがある。ニューヨーク大の関根らは、固有表現を細分化した、拡張固有表現という概念を提案しており、その枠組みでは、200タイプの固有表現タイプが定義されている。

ある単語がどの固有表現タイプであるかを知ることは非常に有用である。たとえば、ある文書から、人名や場所のみを取り出したいといったとき、どの単語がどの固有表現タイプであるか知っていれば、簡単に、人名や場所のみを取り出すことができる。このような抽出処理ができれば、たとえば、トレンドワードのように、今話題になっている人物や場所を、大量のテキストデータから発見したりすることも可能である。

このような単語の固有表現タイプを当てる問題には、二通りの方法がある。一つは、辞書によるものである。予め、単語とその固有表現タイプを辞書として保持しておき、対象となる単語について、この辞書に照らし合わせて固有表現のタイプを判定する。もう一つは、固有表現抽出技術を用いる方法である。これは、辞書を持たず、単語の周辺文脈などから、単語の固有表現タイプを推定する手法である。たとえば、「さん」が直後にあれば、タイプは「人名」であろうと推定する。固有表現タイプの推定には、一般に機械学習のアプローチが用いられ、大量の学習データを元に、どの文脈でどの固有表現タイプが現れやすいかという統計情報を取得し、それによって推定を行う。固有表現抽出技術として、例えば、非特許文献１の技術が知られている。

磯崎秀樹、賀沢秀人、"固有表現抽出のためのＳＶＭの高速化"、情報処理学会論文誌、44巻、3号、pp.970-979、2003年.

固有表現抽出技術にも限界があり、学習データに現れないような状況では精度が低いという問題がある。よって、辞書との併用が望ましい。そこで、この辞書をどうやって作るかが課題となる。辞書の構築は、手動による方法と、自動的な方法が考えられる。手動による方法は、辞書の見出し語が多くなると作成コストが非常に高いという問題がある。自動的な方法として、前述の固有表現抽出技術を用いて、大量のテキストデータ中の単語について、固有表現タイプを推定し、その推定結果を用いて、辞書を構成する方法が考えられる。たとえば、「私は大阪で山田さんに会いました」という文であれば、「大阪」は「場所」、「山田」は「人名」と推定される。そして、「大阪」の固有表現タイプは「場所」、「山田」の固有表現タイプは「人名」という情報を辞書に登録すればよい。しかし、この手法では、そもそもの固有表現抽出技術による限界を超えられない。すなわち、学習データに現れないような状況では高精度に固有表現を抽出できないため、登録できる単語も限られてしまう。

本発明は、上記の事情を鑑みてなされたもので、ある単語に対して、固有表現のタイプを精度よく推定することができる固有表現タイプ推定装置、方法、及びプログラムを提供することを目的とする。

上記の目的を達成するために本発明に係る固有表現タイプ推定装置は、固有表現と前記固有表現のタイプとを対応付けて予め格納した種辞書と、固有表現である見出し語と前記見出し語のカテゴリとを対応付けて格納したカテゴリ付き辞書とに基づいて、前記種辞書に格納された固有表現と共通する、前記カテゴリ付き辞書に格納された前記見出し語を選択し、前記選択された見出し語の各々について、前記見出し語と、前記見出し語のカテゴリと、前記見出し語についての前記固有表現のタイプとを対応付けたトリプルデータを生成するトリプルデータ生成手段と、前記トリプルデータ生成手段によって生成されたトリプルデータの各々について、前記トリプルデータに含まれる前記見出し語と前記カテゴリとのペアに関する特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段によって抽出された各トリプルデータの前記特徴量と、各トリプルデータに含まれる前記固有表現のタイプとに基づいて、前記特徴量に対する前記固有表現のタイプを推定するための推定モデルを学習する固有表現タイプ学習手段と、前記固有表現タイプ学習手段によって学習された前記推定モデルと、対応付けられた見出し語と前記見出し語のカテゴリとのペアに関する前記特徴量とに基づいて、前記見出し語について前記固有表現のタイプを推定する固有表現タイプ推定手段と、を含んで構成されている。

本発明に係る固有表現タイプ推定方法は、トリプルデータ生成手段、特徴量抽出手段、固有表現タイプ学習手段、及び固有表現タイプ推定手段を含む固有表現タイプ推定装置における固有表現タイプ推定方法であって、前記トリプルデータ生成手段によって、固有表現と前記固有表現のタイプとを対応付けて予め格納した種辞書と、固有表現である見出し語と前記見出し語のカテゴリとを対応付けて格納したカテゴリ付き辞書とに基づいて、前記種辞書に格納された固有表現と共通する、前記カテゴリ付き辞書に格納された前記見出し語を選択し、前記選択された見出し語の各々について、前記見出し語と、前記見出し語のカテゴリと、前記見出し語についての前記固有表現のタイプとを対応付けたトリプルデータを生成し、前記特徴量抽出手段によって、前記トリプルデータ生成手段によって生成されたトリプルデータの各々について、前記トリプルデータに含まれる前記見出し語と前記カテゴリとのペアに関する特徴量を抽出し、前記固有表現タイプ学習手段によって、前記特徴量抽出手段によって抽出された各トリプルデータの前記特徴量と、各トリプルデータに含まれる前記固有表現のタイプとに基づいて、前記特徴量に対する前記固有表現のタイプを推定するための推定モデルを学習し、前記固有表現タイプ推定手段によって、前記固有表現タイプ学習手段によって学習された前記推定モデルと、対応付けられた見出し語と前記見出し語のカテゴリとのペアに関する前記特徴量とに基づいて、前記見出し語について前記固有表現のタイプを推定する。

本発明に係るプログラムは、コンピュータを、上記の固有表現タイプ推定装置の各手段として機能させるためのプログラムである。

以上説明したように、本発明の固有表現タイプ推定装置、方法、及びプログラムによれば、種辞書とカテゴリ付き辞書とに基づいて、見出し語、カテゴリ、及び固有表現のタイプを対応付けたトリプルデータを生成し、各トリプルデータに含まれる見出し語とカテゴリとのペアに関する特徴量を抽出して、特徴量に対する固有表現のタイプを推定するための推定モデルを学習し、学習された推定モデルを用いて、カテゴリが対応付けられた見出し語について固有表現のタイプを推定することにより、ある見出し語に対して固有表現のタイプを精度よく推定することができる、という効果が得られる。

本発明の実施の形態に係る固有表現タイプ推定装置の構成を示す概略図である。手動作成した固有表現の単語とその固有表現タイプとのペアの一例を示す図である。固有表現抽出技術のための学習データの一例を示す図である。固有表現タイプ付きデータの一例を示す図である。カテゴリ付き辞書データの一例を示す図である。トリプルデータの一例を示す図である。（Ａ）ＣａｂｏＣｈａによる形態素解析結果の一例を示す図、及び（Ｂ）ＪＴＡＧによる形態素解析結果の一例を示す図である。特徴ベクトルの各要素の値の一例を示す図である。特徴ベクトルの各要素の値の一例を示す図である。固有表現タイプ付き辞書データの一例を示す図である。本発明の実施の形態に係る固有表現タイプ推定装置における固有表現タイプ推定処理ルーチンの内容を示すフローチャートである。拡張固有表現のリストを示す図である。拡張固有表現のリストを示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜発明の概要＞
固有表現のタグが付与されたデータと、見出し語にカテゴリが付与された辞書データとを元に、辞書データの見出し語に固有表現のタグを付与することで、固有表現の辞書を自動的に構築する。固有表現のタグが付与されたデータとは、単語とその固有表現タイプとの対応を取ることが可能なデータを指す。たとえば、少量の単語について固有表現タイプを手作業で付与したものや、上述した固有表現抽出技術の学習データなどを指す。これは、小規模な固有表現辞書であり、種（シード）となる辞書とも言える。このような辞書を「種辞書」と呼ぶ。たとえば、非特許文献２（橋本泰一、乾孝司、村上浩司、”拡張固有表現タグ付きコーパスの構築”、情報処理学会研究報告自然言語処理（NL）、Vol.2008 No.113、2008）には、固有表現抽出技術の学習データとして使うことのできる、コーパスについて記述されており、このコーパスは一般公開されている。

人名辞典や百科事典などでは、見出し語について、カテゴリが付与されていることが多い。たとえば、「織田信長」の項目では「戦国武将」や「歴史上の人物」などのカテゴリが付与されている。また、「大阪」であれば、「近畿地方」や「日本の都市」などのカテゴリが付与されている。このような辞書を「カテゴリ付き辞書データ」と呼ぶ。

カテゴリ付き辞書データの見出し語のうち、種辞書の見出し語としても存在するものだけを選択し、それらの情報を統合する。そうすることで、「見出し語」、「固有表現タイプ」、及び「カテゴリ」を対応付けたトリプルのデータを作成することができる。そして、次に、「見出し語」、「カテゴリ」の情報から、「固有表現タイプ」を当てる推定器を、機械学習の手法により構築する。最後に、カテゴリ付き辞書データの見出し語すべてについて、その見出し語とカテゴリの情報から、固有表現タイプを推定し、この推定結果と見出し語をペアにして、固有表現タイプ付き辞書に登録する。

＜システム構成＞
本発明の実施の形態では、拡張固有表現辞書の構築に、本発明を適用した場合を例に説明する。この拡張固有表現辞書は、見出し語の各々について、関根らの提唱する拡張固有表現の固有表現タイプが付与されたものである。拡張固有表現辞書であるので、固有表現のタイプは全部で200ある（図１２、図１３に示す拡張固有表現のリストを参照）。種辞書として、固有表現抽出技術のための学習データと、手作業で作成した単語とその拡張固有表現のペアとを統合したものを用いる。カテゴリ付きの辞書データとして、見出し語と見出し語のカテゴリが付与された辞書を用いる。このような辞書の一例として、Wikipedia等がある。

図１に示すように、本発明の実施の形態に係る固有表現タイプ推定装置１００は、手動作成した固有表現と固有表現タイプとのペア、固有表現タグ付きデータ、カテゴリ付き辞書データが入力され、固有表現タイプ付き辞書データを生成する。この固有表現タイプ推定装置１００は、ＣＰＵと、ＲＡＭと、後述する固有表現推定タイプ推定処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図１に示すように、固有表現タイプ推定装置１００は、入力部１０と、演算部２０とを備えている。

入力部１０は、手動作成の単語及びその固有表現タイプのペアの集合と、固有表現抽出技術のための学習データである、固有表現タイプのタグが付与された言語データとを、入力として受け付ける。また、入力部１０は、カテゴリ付き辞書データを、入力として受け付ける。

手動作成のペアは、手作業で、固有表現の単語とその固有表現タイプとのペアをシードとして作成したものである。たとえば、図２は、Personについてのシードデータの一部である。左のカラムが単語（見出し語）で、右のカラムが、固有表現タイプである。「ハリー・フーディーニ」から「カーネル・サンダース」まで「Person」という固有表現タイプが付与されている。Personは人名を表わす。本実施の形態では、200種類の各固有表現タイプについて、平均100個ずつの単語からなるデータを手作業で用意した。

固有表現タイプ付きのデータは、固有表現抽出技術のための学習データであり、一般に図３に示す形式をしている。

上記図３のような形式のデータでは、固有表現が、固有表現タイプのタグで囲まれている。たとえば、「中国山地」の固有表現タイプはMountainである。「岡山県」はProvinceであり、「哲多町」はCityである。ここから、図４に示す固有表現タイプ付きデータが作成できる。左のカラムが、固有表現である見出し語であり、右のカラムが固有表現タイプである。

カテゴリ付き辞書データは、見出し語と見出し語のカテゴリが付与された辞書データから、見出し語とそのカテゴリとを抽出したものである。たとえば、図５に示すようなデータである。なお、Wikipedia等の辞書データのカテゴリはカテゴリ階層を持っているため、カテゴリ階層も抽出している。具体的には、最上位のノードである、「主要カテゴリ」という名前のカテゴリまでの最短パスを求め、求めたパス上の各カテゴリも、カテゴリ付き辞書データのカテゴリとして含めている。

上記図５において、一番左のカラムが見出し語であり、中央のカラムが見出し語のカテゴリであり、一番右のカラムが主要カテゴリまでのカテゴリパスである。このカテゴリ付き辞書データには、約120 万の見出し語が格納されている。

演算部２０は、手動作成ペア記憶部２１、固有表現タグ付きデータ記憶部２２、種辞書作成部２３、種辞書データベース２４、カテゴリ付き辞書データベース２５、見出し語突合部２６、トリプルデータ記憶部２７、固有表現タイプ学習部２８、固有表現タイプ推定部２９、及び固有表現タイプ付き辞書データベース３０を備えている。なお、見出し語突合部２６が、トリプルデータ作成手段の一例であり、固有表現タイプ学習部２８が、特徴量抽出手段及び固有表現タイプ学習手段の一例である。

手動作成ペア記憶部２１は、入力部１０により受け付けた、手動作成の単語とその固有表現タイプのペアの集合を記憶する。

固有表現タグ付きデータ記憶部２２は、入力部１０により受け付けた、固有表現タイプのタグ付きの言語データを記憶する。

種辞書作成部２３は、固有表現タグ付きデータ記憶部２２に記憶された固有表現タイプのタグ付きの言語データから、見出し語とその固有表現タイプのペアの集合を抽出し、手動作成ペア記憶部２１に記憶された手動作成の単語とその固有表現タイプのペアの集合と連結することにより、見出し語（単語）とその固有表現タイプのペアの和集合を作成し、種辞書データベース２４に登録する。このとき、重複するエントリは削除する。また、単語は同じであるが、固有表現タイプが異なるエントリが複数存在する場合は、どれか一つを選ぶ。たとえば、連結時のデータを走査する順番において、初見の単語と固有表現タイプのペアを種辞書データベース２４に登録し、以降の同じ単語については、無視すればよい。

種辞書データベース２４には、種辞書作成部２３によって作成された見出し語とその固有表現タイプのペアの集合を記憶する。

カテゴリ付き辞書データベース２５には、入力部１０により受け付けた、カテゴリ付き辞書データを記憶する。

見出し語突合部２６は、種辞書データベース２４に記憶された見出し語（単語）及びカテゴリ付き辞書データベース２５に記憶された見出し語を突合し、双方のデータベースにも存在する見出し語全てを選択し、選択された見出し語の各々について、見出し語、固有表現タイプ、及びカテゴリを対応付けたトリプルデータを生成し、トリプルデータ記憶部２７に保存する。たとえば、図６は、保存されたトリプルデータの一例である。本実施の形態では、約三万個のトリプルデータを生成した。

固有表現タイプ学習部２８は、トリプルデータ記憶部２７に記憶されたトリプルデータ中の見出し語とカテゴリから、対応する固有表現タイプを推定する推定器を、機械学習の手法により構築する。

具体的には、見出し語とカテゴリのペアから抽出される特徴量と固有表現タイプとを対応づける関数を学習する。拡張固有表現タイプは全部で200種類あるので、200タイプのどれであるかを推定する問題となる。これは、いわゆる、多クラス分類問題である。

本実施の形態では、Multiclass SVMを用いることによって、推定器を学習する。Multiclass SVMとは、二値分類器であるSupport Vector Machine(SVM)を、多クラス分類問題に拡張したものであり、特徴量を複数あるクラスのどれかに分類する手法として一般的なものである。

固有表現タイプ学習部２８は、見出し語とカテゴリとのペアから、例えば、「見出し語に含まれるIREX形式の固有表現」、「見出し語に含まれる単語」、「見出し語に含まれる意味属性」、「見出し語に含まれる固有名詞属性」、「見出し語に含まれる品詞」、「見出し語の文字unigramおよび文字bigram」、及び「カテゴリの文字unigramおよび文字bigram」に関する各特徴量を要素とする特徴量ベクトル生成する。

「見出し語に含まれるIREX形式の固有表現」に関する特徴量は、IREX形式の固有表現タイプの各々に対するバイナリ特徴量である。具体的には、固有表現タイプ学習部２８は、見出し語を形態素解析器であるCaboChaで解析し、見出し語中の単語について、CaboChaから出力されるIREX形式の固有表現タイプを取得し、見つかった固有表現タイプについて、そのタイプが存在することを表すバイナリ特徴量を抽出する。このような、ある要素の存在を表す特徴量を、bag-of-words特徴量と呼ぶ。たとえば、見出し語にIREXの固有表現タイプである、PERSONがあれば、PERSONの存在を示すバイナリ特徴量（NE-PERSON）の値は1となる。ORGANIZATIONが見出し語にあれば、バイナリ特徴量（NE-ORGANIZATION）の値が1となる。

「見出し語に含まれる単語」に関する特徴量は、見出し語をCaboChaで解析した結果から得られる単語それぞれについての標準形のbag-of-words 特徴量である。たとえば、「帝国大学」は「帝国」と「大学」の二単語に解析される。よって、「帝国」という単語特徴量、および、「大学」についての特徴量が、ともに１になる。

「見出し語に含まれる意味属性」に関する特徴量は、意味属性のbag-of-words特徴量である。具体的には、固有表現タイプ学習部２８は見出し語を形態素解析器であるJTAGで解析し、見出し語中の単語について、JTAG から出力される、形態素解析情報のほか、名詞について意味属性（一般名詞意味属性）を取得する。ここで、意味属性とは、全部で2715 ある、意味カテゴリを表す数字である。この意味属性については、非特許文献３（池原悟、宮崎正弘、白井諭、横尾昭男、中岩浩巳、小倉健太郎、大山芳史、林良彦、”日本語語彙大系”、岩波書店、1997年）に詳述されている。固有表現タイプ学習部２８は、この意味属性のbag-of-words を特徴量として抽出する。

「見出し語に含まれる固有名詞属性」に関する特徴量は、固有名詞意味属性のbag-of-words特徴量である。具体的には、固有表現タイプ学習部２８は、JTAGを用いて、見出し語中の固有名詞について、日本語語彙大系に基づく固有名詞意味属性を得る。これは、固有名詞について与えられる130の数字である。固有表現タイプ学習部２８は、見出し語に含まれる、固有名詞意味属性のbag-of-wordsを特徴量として抽出する。

「見出し語に含まれる品詞」に関する特徴量は、JTAGが出力する品詞のbag-of-words特徴量である。

「見出し語の文字unigramおよび文字bigram」に関する特徴量は、見出し語の文字unigramおよび文字bigram特徴量である。具体的には、固有表現タイプ学習部２８は、見出し語を一文字ずつ分割し、そのそれぞれの文字の存在をbag-of-words特徴量として抽出する。また、固有表現タイプ学習部２８は、見出し語を二文字単位でも分割し、それぞれの二文字の存在をbag-of-words特徴量として抽出する。なお、二文字ごとに分割する際、文頭と文末に、文頭と文末を表すシンボルを付与してから分割処理を行う。具体的には、「帝国大学」の場合、まず、「S 帝国大学E」とする。Sは文頭を、Eは文末を表すシンボルである。そして、ここから、S-帝、帝-国、国-大、大-学、学-Eというbag-of-words特徴量を抽出する。

「カテゴリの文字unigramおよび文字bigram」に関する特徴量は、カテゴリの文字unigramおよび文字bigramのbag-of-words特徴量である。具体的には、固有表現タイプ学習部２８は、見出し語のカテゴリと、見出し語から主要カテゴリまでのパス上のカテゴリとの和集合を求める。ここで、主要カテゴリはすべての見出し語について存在し、情報量がないため、カテゴリの和集合から「主要カテゴリ」は削除する。そして、固有表現タイプ学習部２８は、和集合中のカテゴリのそれぞれについて、見出し語の文字unigram、bigramを求めた時と同じように、文字unigramおよび文字bigramのbag-of-words特徴量を抽出して、bag-of-words特徴量とする。

ここで、見出し語「帝国大学」とそのカテゴリとについて各特徴量を求める例について説明する。

「帝国大学」は「School」であり、カテゴリは「日本の高等教育の歴史、日本の旧制大学」であり、主要カテゴリまでのパスは「日本の高等教育の歴史、日本の高等教育、高等教育、学問、主要カテゴリ」である。それぞれCaboChaとJTAGで解析した結果は、図７（Ａ）、（Ｂ）のようになる。

上記図７（Ａ）、（Ｂ）の形態素解析結果と、カテゴリのデータとから得られる特徴量は、図８に示す通りとなる。

上記図８において、空白区切りでそれぞれがバイナリ特徴量であり、それぞれ、素性（特徴量）番号、コロン、１（存在しているの意）で記述されている。それぞれの素性番号を説明的に書くと、図９に示す通りになる。CATはカテゴリ由来、CABはCaboCha由来、JTAGはJTAG由来の特徴量であることを示す。Prefixが無いものは、JTAG由来の特徴量である。

上述した各特徴量を要素とする特徴ベクトルを、トリプルデータの各々の、見出し語とカテゴリのペアの各々から求め、その正解ラベルを、当該トリプルデータ中に与えられた固有表現タイプとして、Multiclass SVMにより、固有表現タイプ推定器を学習する。この固有表現タイプ推定器が、推定モデルの一例であり、固有表現タイプ推定部２９で用いられる。

固有表現タイプ推定部２９は、カテゴリ付き辞書データベース２５に記憶されたカテゴリ付き辞書データを入力とし、カテゴリ付き辞書データにおける、見出し語とカテゴリのペアのすべてについて、上記の特徴ベクトルを求め、学習した固有表現タイプ推定器を用いて、各見出し語について固有表現タイプを推定する。それによって、カテゴリ付き辞書データベース２５に記憶された見出し語すべてについて、固有表現タイプを付与することができ、見出し語と固有表現タイプのペアを、固有表現タイプ付き辞書データベース３０に登録し、このデータが、最終的な固有表現辞書となる。

固有表現タイプ付き辞書データベース３０には、図１０に示すような、固有表現タイプ付き辞書データが記憶される。この辞書は、全部で約120万の見出し語からなる大きなものであり、種辞書の大きさを約三万とすると、40倍程度の大きさになっていることが分かる。

＜固有表現タイプ推定装置の作用＞
次に、本実施の形態に係る固有表現タイプ推定装置１００の作用について説明する。まず、手動で作成した固有表現である単語と固有表現タイプとのペアの集合が固有表現タイプ推定装置１００に入力されると、固有表現タイプ推定装置１００によって、入力された、単語と固有表現タイプとのペアの集合が、手動作成ペア記憶部２１へ格納される。また、固有表現タグ付きの言語データが固有表現タイプ推定装置１００に入力されると、固有表現タイプ推定装置１００によって、入力された、固有表現タグ付きの言語データが、固有表現タグ付きデータ記憶部２２へ格納される。また、カテゴリ付き辞書データが固有表現タイプ推定装置１００に入力されると、固有表現タイプ推定装置１００によって、入力されたカテゴリ付き辞書データが、カテゴリ付き辞書データベース２５へ格納される。

そして、固有表現タイプ推定装置１００の種辞書作成部２３によって、手動作成ペア記憶部２１及び固有表現タグ付きデータ記憶部２２を参照して、見出し語（単語）とその固有表現タイプのペアの和集合を作成し、種辞書データベース２４に登録する。

そして、固有表現タイプ推定装置１００によって、図１１に示す固有表現タイプ推定処理ルーチンが実行される。

まず、ステップＳ１０１において、種辞書データベース２４とカテゴリ付き辞書データベース２５とから、双方のデータベースに存在する見出し語を全て選択する。ステップＳ１０２において、上記ステップＳ１０１で選択した見出し語の各々について、トリプルデータを生成し、トリプルデータ記憶部２７に保存する。

そして、ステップＳ１０３において、トリプルデータ記憶部２７に保存されたトリプルデータの各々について、当該トリプルデータの見出し語とカテゴリとのペアから特徴ベクトルを抽出する。

次のステップＳ１０４では、トリプルデータ記憶部２７に保存されたトリプルデータの各々について、上記ステップＳ１０３で抽出した特徴ベクトルと、当該トリプルデータの固有表現タイプとに基づいて、固有表現タイプを推定する推定器を学習する。

ステップＳ１０５では、カテゴリ付き辞書データベース２５に格納されている見出し語とカテゴリとのペアの各々について、上記ステップＳ１０３と同様に特徴ベクトルを抽出すると共に、上記ステップＳ１０４で学習した推定器を用いて、当該見出し語の固有表現タイプを推定し、推定された固有表現タイプと対応付けて当該見出し語を、固有表現タイプ付き辞書データベース３０に登録し、固有表現タイプ推定処理ルーチンを終了する。

以上説明したように、本実施の形態に係る固有表現タイプ推定装置によれば、種辞書とカテゴリ付き辞書データとに基づいて、見出し語、カテゴリ、及び固有表現のタイプを対応付けたトリプルデータを生成し、各トリプルデータに含まれる見出し語とカテゴリとのペアに関する特徴ベクトルを抽出して、特徴ベクトルに対する固有表現のタイプを推定するための推定器を学習し、学習された推定器を用いて、カテゴリ付き辞書データ中の、カテゴリが対応付けられた見出し語について固有表現のタイプを推定することにより、固有表現のタイプを精度よく推定することができ、固有表現タイプ付き辞書データを自動的に構築することができる。

また、データ中の固有表現を従来よりも高精度に抽出することができるようになる。文書における、キーワードの抽出や、特定の意味内容を持つ単語のみを抽出するといった、テキスト分析作業を高度化することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、固有表現タイプ推定部の入力となるカテゴリ付き辞書データが、推定器の学習で用いるカテゴリ付き辞書データと異なるものであってもよい。また、推定器の学習で用いるカテゴリ付き辞書データで用いているカテゴリ分類と、固有表現タイプ推定部の入力となるカテゴリ付き辞書データで用いているカテゴリ分類が完全に一致していなくてもよい。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０入力部
２０演算部
２１手動作成ペア記憶部
２２固有表現タグ付きデータ記憶部
２３種辞書作成部
２４種辞書データベース
２５カテゴリ付き辞書データベース
２６見出し語突合部
２７トリプルデータ記憶部
２８固有表現タイプ学習部
２９固有表現タイプ推定部
３０固有表現タイプ付き辞書データベース
１００固有表現タイプ推定装置

Claims

固有表現と前記固有表現のタイプとを対応付けて予め格納した種辞書と、固有表現である見出し語と前記見出し語のカテゴリとを対応付けて格納したカテゴリ付き辞書とに基づいて、前記種辞書に格納された固有表現と共通する、前記カテゴリ付き辞書に格納された前記見出し語を選択し、前記選択された見出し語の各々について、前記見出し語と、前記見出し語のカテゴリと、前記見出し語についての前記固有表現のタイプとを対応付けたトリプルデータを生成するトリプルデータ生成手段と、
前記トリプルデータ生成手段によって生成されたトリプルデータの各々について、前記トリプルデータに含まれる前記見出し語と前記カテゴリとのペアに関する特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段によって抽出された各トリプルデータの前記特徴量と、各トリプルデータに含まれる前記固有表現のタイプとに基づいて、前記特徴量に対する前記固有表現のタイプを推定するための推定モデルを学習する固有表現タイプ学習手段と、
前記固有表現タイプ学習手段によって学習された前記推定モデルと、対応付けられた見出し語と前記見出し語のカテゴリとのペアに関する前記特徴量とに基づいて、前記見出し語について前記固有表現のタイプを推定する固有表現タイプ推定手段と、
を含む固有表現タイプ推定装置。
前記特徴量抽出手段は、前記見出し語に対して形態素解析を行った結果に基づく特徴量を含む、前記見出し語と前記カテゴリとのペアに関する特徴量を抽出する請求項１記載の固有表現タイプ推定装置。
前記特徴量抽出手段は、前記見出し語に含まれる文字に関する特徴量を含む、前記見出し語と前記カテゴリとのペアに関する特徴量を抽出する請求項１又は２記載の固有表現タイプ推定装置。
前記特徴量抽出手段は、前記カテゴリに含まれる文字に関する特徴量を含む、前記見出し語と前記カテゴリとのペアに関する特徴量を抽出する請求項１〜請求項３の何れか１項記載の固有表現タイプ推定装置。
手動で対応付けられた前記固有表現と前記固有表現のタイプとのペアの集合、もしくは前記固有表現のタイプを示すタグが付与された固有表現を含む言語データに基づいて、前記固有表現と前記固有表現のタイプとを対応付けて前記種辞書に格納する種辞書作成手段を更に含む請求項１〜請求項４の何れか１項記載の固有表現タイプ推定装置。
トリプルデータ生成手段、特徴量抽出手段、固有表現タイプ学習手段、及び固有表現タイプ推定手段を含む固有表現タイプ推定装置における固有表現タイプ推定方法であって、
前記トリプルデータ生成手段によって、固有表現と前記固有表現のタイプとを対応付けて予め格納した種辞書と、固有表現である見出し語と前記見出し語のカテゴリとを対応付けて格納したカテゴリ付き辞書とに基づいて、前記種辞書に格納された固有表現と共通する、前記カテゴリ付き辞書に格納された前記見出し語を選択し、前記選択された見出し語の各々について、前記見出し語と、前記見出し語のカテゴリと、前記見出し語についての前記固有表現のタイプとを対応付けたトリプルデータを生成し、
前記特徴量抽出手段によって、前記トリプルデータ生成手段によって生成されたトリプルデータの各々について、前記トリプルデータに含まれる前記見出し語と前記カテゴリとのペアに関する特徴量を抽出し、
前記固有表現タイプ学習手段によって、前記特徴量抽出手段によって抽出された各トリプルデータの前記特徴量と、各トリプルデータに含まれる前記固有表現のタイプとに基づいて、前記特徴量に対する前記固有表現のタイプを推定するための推定モデルを学習し、
前記固有表現タイプ推定手段によって、前記固有表現タイプ学習手段によって学習された前記推定モデルと、対応付けられた見出し語と前記見出し語のカテゴリとのペアに関する前記特徴量とに基づいて、前記見出し語について前記固有表現のタイプを推定する
固有表現タイプ推定方法。
コンピュータを、請求項１〜請求項５の何れか１項記載の固有表現タイプ推定装置を構成する各手段として機能させるためのプログラム。