JP2013254421A - 固有表現タイプ推定装置、方法、及びプログラム - Google Patents

固有表現タイプ推定装置、方法、及びプログラム Download PDF

Info

Publication number
JP2013254421A
JP2013254421A JP2012130646A JP2012130646A JP2013254421A JP 2013254421 A JP2013254421 A JP 2013254421A JP 2012130646 A JP2012130646 A JP 2012130646A JP 2012130646 A JP2012130646 A JP 2012130646A JP 2013254421 A JP2013254421 A JP 2013254421A
Authority
JP
Japan
Prior art keywords
headword
type
specific expression
category
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012130646A
Other languages
English (en)
Other versions
JP5604475B2 (ja
Inventor
Ryuichiro Higashinaka
竜一郎 東中
Kugatsu Sadamitsu
九月 貞光
Kuniko Saito
邦子 齋藤
Toshiaki Makino
俊朗 牧野
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012130646A priority Critical patent/JP5604475B2/ja
Publication of JP2013254421A publication Critical patent/JP2013254421A/ja
Application granted granted Critical
Publication of JP5604475B2 publication Critical patent/JP5604475B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】固有表現のタイプを精度よく推定することができるようにする。
【解決手段】見出し語突合部26は、種辞書データベース24とカテゴリ付き辞書データベース25とにおいて、共通する見出し語を選択し、選択された見出し語の各々について、見出し語、カテゴリ、及び固有表現のタイプを対応付けたトリプルデータを生成する。固有表現タイプ学習部28は、生成されたトリプルデータの各々について、見出し語とカテゴリとのペアに関する特徴量を抽出し、各トリプルデータの特徴量と、各トリプルデータに含まれる固有表現のタイプとに基づいて、固有表現タイプ推定器を学習する。固有表現タイプ推定部29は、学習された固有表現タイプ推定器を用いて、カテゴリ付き辞書データベース25中の各見出し語について固有表現のタイプを推定する。
【選択図】図1

Description

本発明は、固有表現タイプ推定装置、方法、及びプログラムに係り、特に、固有表現である見出し語に対して、固有表現のタイプを推定する固有表現タイプ推定装置、方法、及びプログラムに関する。
固有表現とは、固有名詞を含む、特定の場所や物事を指す表現、日付表現、時間表現のことである。たとえば、「NTT(登録商標)」や「大阪」は、「組織」、「場所」についての固有表現である。ここで、「組織」や「場所」は固有表現のタイプと呼ばれる。従来、IREXという会議において定義された、8つの固有表現タイプが、標準の固有表現タイプとして用いられてきた。しかしながら、「場所」や「組織」では粒度が粗く、アプリケーションによっては、より詳細なタイプ分類が必要なことがある。ニューヨーク大の関根らは、固有表現を細分化した、拡張固有表現という概念を提案しており、その枠組みでは、200タイプの固有表現タイプが定義されている。
ある単語がどの固有表現タイプであるかを知ることは非常に有用である。たとえば、ある文書から、人名や場所のみを取り出したいといったとき、どの単語がどの固有表現タイプであるか知っていれば、簡単に、人名や場所のみを取り出すことができる。このような抽出処理ができれば、たとえば、トレンドワードのように、今話題になっている人物や場所を、大量のテキストデータから発見したりすることも可能である。
このような単語の固有表現タイプを当てる問題には、二通りの方法がある。一つは、辞書によるものである。予め、単語とその固有表現タイプを辞書として保持しておき、対象となる単語について、この辞書に照らし合わせて固有表現のタイプを判定する。もう一つは、固有表現抽出技術を用いる方法である。これは、辞書を持たず、単語の周辺文脈などから、単語の固有表現タイプを推定する手法である。たとえば、「さん」が直後にあれば、タイプは「人名」であろうと推定する。固有表現タイプの推定には、一般に機械学習のアプローチが用いられ、大量の学習データを元に、どの文脈でどの固有表現タイプが現れやすいかという統計情報を取得し、それによって推定を行う。固有表現抽出技術として、例えば、非特許文献1の技術が知られている。
磯崎秀樹、賀沢秀人、"固有表現抽出のためのSVMの高速化"、情報処理学会論文誌、44巻、3号、pp.970-979、2003年.
固有表現抽出技術にも限界があり、学習データに現れないような状況では精度が低いという問題がある。よって、辞書との併用が望ましい。そこで、この辞書をどうやって作るかが課題となる。辞書の構築は、手動による方法と、自動的な方法が考えられる。手動による方法は、辞書の見出し語が多くなると作成コストが非常に高いという問題がある。自動的な方法として、前述の固有表現抽出技術を用いて、大量のテキストデータ中の単語について、固有表現タイプを推定し、その推定結果を用いて、辞書を構成する方法が考えられる。たとえば、「私は大阪で山田さんに会いました」という文であれば、「大阪」は「場所」、「山田」は「人名」と推定される。そして、「大阪」の固有表現タイプは「場所」、「山田」の固有表現タイプは「人名」という情報を辞書に登録すればよい。しかし、この手法では、そもそもの固有表現抽出技術による限界を超えられない。すなわち、学習データに現れないような状況では高精度に固有表現を抽出できないため、登録できる単語も限られてしまう。
本発明は、上記の事情を鑑みてなされたもので、ある単語に対して、固有表現のタイプを精度よく推定することができる固有表現タイプ推定装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る固有表現タイプ推定装置は、固有表現と前記固有表現のタイプとを対応付けて予め格納した種辞書と、固有表現である見出し語と前記見出し語のカテゴリとを対応付けて格納したカテゴリ付き辞書とに基づいて、前記種辞書に格納された固有表現と共通する、前記カテゴリ付き辞書に格納された前記見出し語を選択し、前記選択された見出し語の各々について、前記見出し語と、前記見出し語のカテゴリと、前記見出し語についての前記固有表現のタイプとを対応付けたトリプルデータを生成するトリプルデータ生成手段と、前記トリプルデータ生成手段によって生成されたトリプルデータの各々について、前記トリプルデータに含まれる前記見出し語と前記カテゴリとのペアに関する特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段によって抽出された各トリプルデータの前記特徴量と、各トリプルデータに含まれる前記固有表現のタイプとに基づいて、前記特徴量に対する前記固有表現のタイプを推定するための推定モデルを学習する固有表現タイプ学習手段と、前記固有表現タイプ学習手段によって学習された前記推定モデルと、対応付けられた見出し語と前記見出し語のカテゴリとのペアに関する前記特徴量とに基づいて、前記見出し語について前記固有表現のタイプを推定する固有表現タイプ推定手段と、を含んで構成されている。
本発明に係る固有表現タイプ推定方法は、トリプルデータ生成手段、特徴量抽出手段、固有表現タイプ学習手段、及び固有表現タイプ推定手段を含む固有表現タイプ推定装置における固有表現タイプ推定方法であって、前記トリプルデータ生成手段によって、固有表現と前記固有表現のタイプとを対応付けて予め格納した種辞書と、固有表現である見出し語と前記見出し語のカテゴリとを対応付けて格納したカテゴリ付き辞書とに基づいて、前記種辞書に格納された固有表現と共通する、前記カテゴリ付き辞書に格納された前記見出し語を選択し、前記選択された見出し語の各々について、前記見出し語と、前記見出し語のカテゴリと、前記見出し語についての前記固有表現のタイプとを対応付けたトリプルデータを生成し、前記特徴量抽出手段によって、前記トリプルデータ生成手段によって生成されたトリプルデータの各々について、前記トリプルデータに含まれる前記見出し語と前記カテゴリとのペアに関する特徴量を抽出し、前記固有表現タイプ学習手段によって、前記特徴量抽出手段によって抽出された各トリプルデータの前記特徴量と、各トリプルデータに含まれる前記固有表現のタイプとに基づいて、前記特徴量に対する前記固有表現のタイプを推定するための推定モデルを学習し、前記固有表現タイプ推定手段によって、前記固有表現タイプ学習手段によって学習された前記推定モデルと、対応付けられた見出し語と前記見出し語のカテゴリとのペアに関する前記特徴量とに基づいて、前記見出し語について前記固有表現のタイプを推定する。
本発明に係るプログラムは、コンピュータを、上記の固有表現タイプ推定装置の各手段として機能させるためのプログラムである。
以上説明したように、本発明の固有表現タイプ推定装置、方法、及びプログラムによれば、種辞書とカテゴリ付き辞書とに基づいて、見出し語、カテゴリ、及び固有表現のタイプを対応付けたトリプルデータを生成し、各トリプルデータに含まれる見出し語とカテゴリとのペアに関する特徴量を抽出して、特徴量に対する固有表現のタイプを推定するための推定モデルを学習し、学習された推定モデルを用いて、カテゴリが対応付けられた見出し語について固有表現のタイプを推定することにより、ある見出し語に対して固有表現のタイプを精度よく推定することができる、という効果が得られる。
本発明の実施の形態に係る固有表現タイプ推定装置の構成を示す概略図である。 手動作成した固有表現の単語とその固有表現タイプとのペアの一例を示す図である。 固有表現抽出技術のための学習データの一例を示す図である。 固有表現タイプ付きデータの一例を示す図である。 カテゴリ付き辞書データの一例を示す図である。 トリプルデータの一例を示す図である。 (A)CaboChaによる形態素解析結果の一例を示す図、及び(B)JTAGによる形態素解析結果の一例を示す図である。 特徴ベクトルの各要素の値の一例を示す図である。 特徴ベクトルの各要素の値の一例を示す図である。 固有表現タイプ付き辞書データの一例を示す図である。 本発明の実施の形態に係る固有表現タイプ推定装置における固有表現タイプ推定処理ルーチンの内容を示すフローチャートである。 拡張固有表現のリストを示す図である。 拡張固有表現のリストを示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<発明の概要>
固有表現のタグが付与されたデータと、見出し語にカテゴリが付与された辞書データとを元に、辞書データの見出し語に固有表現のタグを付与することで、固有表現の辞書を自動的に構築する。固有表現のタグが付与されたデータとは、単語とその固有表現タイプとの対応を取ることが可能なデータを指す。たとえば、少量の単語について固有表現タイプを手作業で付与したものや、上述した固有表現抽出技術の学習データなどを指す。これは、小規模な固有表現辞書であり、種(シード)となる辞書とも言える。このような辞書を「種辞書」と呼ぶ。たとえば、非特許文献2(橋本泰一、乾孝司、村上浩司、”拡張固有表現タグ付きコーパスの構築”、情報処理学会研究報告自然言語処理(NL)、Vol.2008 No.113、2008)には、固有表現抽出技術の学習データとして使うことのできる、コーパスについて記述されており、このコーパスは一般公開されている。
人名辞典や百科事典などでは、見出し語について、カテゴリが付与されていることが多い。たとえば、「織田信長」の項目では「戦国武将」や「歴史上の人物」などのカテゴリが付与されている。また、「大阪」であれば、「近畿地方」や「日本の都市」などのカテゴリが付与されている。このような辞書を「カテゴリ付き辞書データ」と呼ぶ。
カテゴリ付き辞書データの見出し語のうち、種辞書の見出し語としても存在するものだけを選択し、それらの情報を統合する。そうすることで、「見出し語」、「固有表現タイプ」、及び「カテゴリ」を対応付けたトリプルのデータを作成することができる。そして、次に、「見出し語」、「カテゴリ」の情報から、「固有表現タイプ」を当てる推定器を、機械学習の手法により構築する。最後に、カテゴリ付き辞書データの見出し語すべてについて、その見出し語とカテゴリの情報から、固有表現タイプを推定し、この推定結果と見出し語をペアにして、固有表現タイプ付き辞書に登録する。
<システム構成>
本発明の実施の形態では、拡張固有表現辞書の構築に、本発明を適用した場合を例に説明する。この拡張固有表現辞書は、見出し語の各々について、関根らの提唱する拡張固有表現の固有表現タイプが付与されたものである。拡張固有表現辞書であるので、固有表現のタイプは全部で200ある(図12、図13に示す拡張固有表現のリストを参照)。種辞書として、固有表現抽出技術のための学習データと、手作業で作成した単語とその拡張固有表現のペアとを統合したものを用いる。カテゴリ付きの辞書データとして、見出し語と見出し語のカテゴリが付与された辞書を用いる。このような辞書の一例として、Wikipedia等がある。
図1に示すように、本発明の実施の形態に係る固有表現タイプ推定装置100は、手動作成した固有表現と固有表現タイプとのペア、固有表現タグ付きデータ、カテゴリ付き辞書データが入力され、固有表現タイプ付き辞書データを生成する。この固有表現タイプ推定装置100は、CPUと、RAMと、後述する固有表現推定タイプ推定処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、固有表現タイプ推定装置100は、入力部10と、演算部20とを備えている。
入力部10は、手動作成の単語及びその固有表現タイプのペアの集合と、固有表現抽出技術のための学習データである、固有表現タイプのタグが付与された言語データとを、入力として受け付ける。また、入力部10は、カテゴリ付き辞書データを、入力として受け付ける。
手動作成のペアは、手作業で、固有表現の単語とその固有表現タイプとのペアをシードとして作成したものである。たとえば、図2は、Personについてのシードデータの一部である。左のカラムが単語(見出し語)で、右のカラムが、固有表現タイプである。「ハリー・フーディーニ」から「カーネル・サンダース」まで「Person」という固有表現タイプが付与されている。Personは人名を表わす。本実施の形態では、200種類の各固有表現タイプについて、平均100個ずつの単語からなるデータを手作業で用意した。
固有表現タイプ付きのデータは、固有表現抽出技術のための学習データであり、一般に図3に示す形式をしている。
上記図3のような形式のデータでは、固有表現が、固有表現タイプのタグで囲まれている。たとえば、「中国山地」の固有表現タイプはMountainである。「岡山県」はProvinceであり、「哲多町」はCityである。ここから、図4に示す固有表現タイプ付きデータが作成できる。左のカラムが、固有表現である見出し語であり、右のカラムが固有表現タイプである。
カテゴリ付き辞書データは、見出し語と見出し語のカテゴリが付与された辞書データから、見出し語とそのカテゴリとを抽出したものである。たとえば、図5に示すようなデータである。なお、Wikipedia等の辞書データのカテゴリはカテゴリ階層を持っているため、カテゴリ階層も抽出している。具体的には、最上位のノードである、「主要カテゴリ」という名前のカテゴリまでの最短パスを求め、求めたパス上の各カテゴリも、カテゴリ付き辞書データのカテゴリとして含めている。
上記図5において、一番左のカラムが見出し語であり、中央のカラムが見出し語のカテゴリであり、一番右のカラムが主要カテゴリまでのカテゴリパスである。このカテゴリ付き辞書データには、約120 万の見出し語が格納されている。
演算部20は、手動作成ペア記憶部21、固有表現タグ付きデータ記憶部22、種辞書作成部23、種辞書データベース24、カテゴリ付き辞書データベース25、見出し語突合部26、トリプルデータ記憶部27、固有表現タイプ学習部28、固有表現タイプ推定部29、及び固有表現タイプ付き辞書データベース30を備えている。なお、見出し語突合部26が、トリプルデータ作成手段の一例であり、固有表現タイプ学習部28が、特徴量抽出手段及び固有表現タイプ学習手段の一例である。
手動作成ペア記憶部21は、入力部10により受け付けた、手動作成の単語とその固有表現タイプのペアの集合を記憶する。
固有表現タグ付きデータ記憶部22は、入力部10により受け付けた、固有表現タイプのタグ付きの言語データを記憶する。
種辞書作成部23は、固有表現タグ付きデータ記憶部22に記憶された固有表現タイプのタグ付きの言語データから、見出し語とその固有表現タイプのペアの集合を抽出し、手動作成ペア記憶部21に記憶された手動作成の単語とその固有表現タイプのペアの集合と連結することにより、見出し語(単語)とその固有表現タイプのペアの和集合を作成し、種辞書データベース24に登録する。このとき、重複するエントリは削除する。また、単語は同じであるが、固有表現タイプが異なるエントリが複数存在する場合は、どれか一つを選ぶ。たとえば、連結時のデータを走査する順番において、初見の単語と固有表現タイプのペアを種辞書データベース24に登録し、以降の同じ単語については、無視すればよい。
種辞書データベース24には、種辞書作成部23によって作成された見出し語とその固有表現タイプのペアの集合を記憶する。
カテゴリ付き辞書データベース25には、入力部10により受け付けた、カテゴリ付き辞書データを記憶する。
見出し語突合部26は、種辞書データベース24に記憶された見出し語(単語)及びカテゴリ付き辞書データベース25に記憶された見出し語を突合し、双方のデータベースにも存在する見出し語全てを選択し、選択された見出し語の各々について、見出し語、固有表現タイプ、及びカテゴリを対応付けたトリプルデータを生成し、トリプルデータ記憶部27に保存する。たとえば、図6は、保存されたトリプルデータの一例である。本実施の形態では、約三万個のトリプルデータを生成した。
固有表現タイプ学習部28は、トリプルデータ記憶部27に記憶されたトリプルデータ中の見出し語とカテゴリから、対応する固有表現タイプを推定する推定器を、機械学習の手法により構築する。
具体的には、見出し語とカテゴリのペアから抽出される特徴量と固有表現タイプとを対応づける関数を学習する。拡張固有表現タイプは全部で200種類あるので、200タイプのどれであるかを推定する問題となる。これは、いわゆる、多クラス分類問題である。
本実施の形態では、Multiclass SVMを用いることによって、推定器を学習する。Multiclass SVMとは、二値分類器であるSupport Vector Machine(SVM)を、多クラス分類問題に拡張したものであり、特徴量を複数あるクラスのどれかに分類する手法として一般的なものである。
固有表現タイプ学習部28は、見出し語とカテゴリとのペアから、例えば、「見出し語に含まれるIREX形式の固有表現」、「見出し語に含まれる単語」、「見出し語に含まれる意味属性」、「見出し語に含まれる固有名詞属性」、「見出し語に含まれる品詞」、「見出し語の文字unigramおよび文字bigram」、及び「カテゴリの文字unigramおよび文字bigram」に関する各特徴量を要素とする特徴量ベクトル生成する。
「見出し語に含まれるIREX形式の固有表現」に関する特徴量は、IREX形式の固有表現タイプの各々に対するバイナリ特徴量である。具体的には、固有表現タイプ学習部28は、見出し語を形態素解析器であるCaboChaで解析し、見出し語中の単語について、CaboChaから出力されるIREX形式の固有表現タイプを取得し、見つかった固有表現タイプについて、そのタイプが存在することを表すバイナリ特徴量を抽出する。このような、ある要素の存在を表す特徴量を、bag-of-words特徴量と呼ぶ。たとえば、見出し語にIREXの固有表現タイプである、PERSONがあれば、PERSONの存在を示すバイナリ特徴量(NE-PERSON)の値は1となる。ORGANIZATIONが見出し語にあれば、バイナリ特徴量(NE-ORGANIZATION)の値が1となる。
「見出し語に含まれる単語」に関する特徴量は、見出し語をCaboChaで解析した結果から得られる単語それぞれについての標準形のbag-of-words 特徴量である。たとえば、「帝国大学」は「帝国」と「大学」の二単語に解析される。よって、「帝国」という単語特徴量、および、「大学」についての特徴量が、ともに1になる。
「見出し語に含まれる意味属性」に関する特徴量は、意味属性のbag-of-words特徴量である。具体的には、固有表現タイプ学習部28は見出し語を形態素解析器であるJTAGで解析し、見出し語中の単語について、JTAG から出力される、形態素解析情報のほか、名詞について意味属性(一般名詞意味属性)を取得する。ここで、意味属性とは、全部で2715 ある、意味カテゴリを表す数字である。この意味属性については、非特許文献3(池原悟、宮崎正弘、白井諭、横尾昭男、中岩浩巳、小倉健太郎、大山芳史、林良彦、”日本語語彙大系”、岩波書店、1997年)に詳述されている。固有表現タイプ学習部28は、この意味属性のbag-of-words を特徴量として抽出する。
「見出し語に含まれる固有名詞属性」に関する特徴量は、固有名詞意味属性のbag-of-words特徴量である。具体的には、固有表現タイプ学習部28は、JTAGを用いて、見出し語中の固有名詞について、日本語語彙大系に基づく固有名詞意味属性を得る。これは、固有名詞について与えられる130の数字である。固有表現タイプ学習部28は、見出し語に含まれる、固有名詞意味属性のbag-of-wordsを特徴量として抽出する。
「見出し語に含まれる品詞」に関する特徴量は、JTAGが出力する品詞のbag-of-words特徴量である。
「見出し語の文字unigramおよび文字bigram」に関する特徴量は、見出し語の文字unigramおよび文字bigram特徴量である。具体的には、固有表現タイプ学習部28は、見出し語を一文字ずつ分割し、そのそれぞれの文字の存在をbag-of-words特徴量として抽出する。また、固有表現タイプ学習部28は、見出し語を二文字単位でも分割し、それぞれの二文字の存在をbag-of-words特徴量として抽出する。なお、二文字ごとに分割する際、文頭と文末に、文頭と文末を表すシンボルを付与してから分割処理を行う。具体的には、「帝国大学」の場合、まず、「S 帝国大学E」とする。Sは文頭を、Eは文末を表すシンボルである。そして、ここから、S-帝、帝-国、国-大、大-学、学-Eというbag-of-words特徴量を抽出する。
「カテゴリの文字unigramおよび文字bigram」に関する特徴量は、カテゴリの文字unigramおよび文字bigramのbag-of-words特徴量である。具体的には、固有表現タイプ学習部28は、見出し語のカテゴリと、見出し語から主要カテゴリまでのパス上のカテゴリとの和集合を求める。ここで、主要カテゴリはすべての見出し語について存在し、情報量がないため、カテゴリの和集合から「主要カテゴリ」は削除する。そして、固有表現タイプ学習部28は、和集合中のカテゴリのそれぞれについて、見出し語の文字unigram、bigramを求めた時と同じように、文字unigramおよび文字bigramのbag-of-words特徴量を抽出して、bag-of-words特徴量とする。
ここで、見出し語「帝国大学」とそのカテゴリとについて各特徴量を求める例について説明する。
「帝国大学」は「School」であり、カテゴリは「日本の高等教育の歴史、日本の旧制大学」であり、主要カテゴリまでのパスは「日本の高等教育の歴史、日本の高等教育、高等教育、学問、主要カテゴリ」である。それぞれCaboChaとJTAGで解析した結果は、図7(A)、(B)のようになる。
上記図7(A)、(B)の形態素解析結果と、カテゴリのデータとから得られる特徴量は、図8に示す通りとなる。
上記図8において、空白区切りでそれぞれがバイナリ特徴量であり、それぞれ、素性(特徴量)番号、コロン、1(存在しているの意)で記述されている。それぞれの素性番号を説明的に書くと、図9に示す通りになる。CATはカテゴリ由来、CABはCaboCha由来、JTAGはJTAG由来の特徴量であることを示す。Prefixが無いものは、JTAG由来の特徴量である。
上述した各特徴量を要素とする特徴ベクトルを、トリプルデータの各々の、見出し語とカテゴリのペアの各々から求め、その正解ラベルを、当該トリプルデータ中に与えられた固有表現タイプとして、Multiclass SVMにより、固有表現タイプ推定器を学習する。この固有表現タイプ推定器が、推定モデルの一例であり、固有表現タイプ推定部29で用いられる。
固有表現タイプ推定部29は、カテゴリ付き辞書データベース25に記憶されたカテゴリ付き辞書データを入力とし、カテゴリ付き辞書データにおける、見出し語とカテゴリのペアのすべてについて、上記の特徴ベクトルを求め、学習した固有表現タイプ推定器を用いて、各見出し語について固有表現タイプを推定する。それによって、カテゴリ付き辞書データベース25に記憶された見出し語すべてについて、固有表現タイプを付与することができ、見出し語と固有表現タイプのペアを、固有表現タイプ付き辞書データベース30に登録し、このデータが、最終的な固有表現辞書となる。
固有表現タイプ付き辞書データベース30には、図10に示すような、固有表現タイプ付き辞書データが記憶される。この辞書は、全部で約120万の見出し語からなる大きなものであり、種辞書の大きさを約三万とすると、40倍程度の大きさになっていることが分かる。
<固有表現タイプ推定装置の作用>
次に、本実施の形態に係る固有表現タイプ推定装置100の作用について説明する。まず、手動で作成した固有表現である単語と固有表現タイプとのペアの集合が固有表現タイプ推定装置100に入力されると、固有表現タイプ推定装置100によって、入力された、単語と固有表現タイプとのペアの集合が、手動作成ペア記憶部21へ格納される。また、固有表現タグ付きの言語データが固有表現タイプ推定装置100に入力されると、固有表現タイプ推定装置100によって、入力された、固有表現タグ付きの言語データが、固有表現タグ付きデータ記憶部22へ格納される。また、カテゴリ付き辞書データが固有表現タイプ推定装置100に入力されると、固有表現タイプ推定装置100によって、入力されたカテゴリ付き辞書データが、カテゴリ付き辞書データベース25へ格納される。
そして、固有表現タイプ推定装置100の種辞書作成部23によって、手動作成ペア記憶部21及び固有表現タグ付きデータ記憶部22を参照して、見出し語(単語)とその固有表現タイプのペアの和集合を作成し、種辞書データベース24に登録する。
そして、固有表現タイプ推定装置100によって、図11に示す固有表現タイプ推定処理ルーチンが実行される。
まず、ステップS101において、種辞書データベース24とカテゴリ付き辞書データベース25とから、双方のデータベースに存在する見出し語を全て選択する。ステップS102において、上記ステップS101で選択した見出し語の各々について、トリプルデータを生成し、トリプルデータ記憶部27に保存する。
そして、ステップS103において、トリプルデータ記憶部27に保存されたトリプルデータの各々について、当該トリプルデータの見出し語とカテゴリとのペアから特徴ベクトルを抽出する。
次のステップS104では、トリプルデータ記憶部27に保存されたトリプルデータの各々について、上記ステップS103で抽出した特徴ベクトルと、当該トリプルデータの固有表現タイプとに基づいて、固有表現タイプを推定する推定器を学習する。
ステップS105では、カテゴリ付き辞書データベース25に格納されている見出し語とカテゴリとのペアの各々について、上記ステップS103と同様に特徴ベクトルを抽出すると共に、上記ステップS104で学習した推定器を用いて、当該見出し語の固有表現タイプを推定し、推定された固有表現タイプと対応付けて当該見出し語を、固有表現タイプ付き辞書データベース30に登録し、固有表現タイプ推定処理ルーチンを終了する。
以上説明したように、本実施の形態に係る固有表現タイプ推定装置によれば、種辞書とカテゴリ付き辞書データとに基づいて、見出し語、カテゴリ、及び固有表現のタイプを対応付けたトリプルデータを生成し、各トリプルデータに含まれる見出し語とカテゴリとのペアに関する特徴ベクトルを抽出して、特徴ベクトルに対する固有表現のタイプを推定するための推定器を学習し、学習された推定器を用いて、カテゴリ付き辞書データ中の、カテゴリが対応付けられた見出し語について固有表現のタイプを推定することにより、固有表現のタイプを精度よく推定することができ、固有表現タイプ付き辞書データを自動的に構築することができる。
また、データ中の固有表現を従来よりも高精度に抽出することができるようになる。文書における、キーワードの抽出や、特定の意味内容を持つ単語のみを抽出するといった、テキスト分析作業を高度化することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、固有表現タイプ推定部の入力となるカテゴリ付き辞書データが、推定器の学習で用いるカテゴリ付き辞書データと異なるものであってもよい。また、推定器の学習で用いるカテゴリ付き辞書データで用いているカテゴリ分類と、固有表現タイプ推定部の入力となるカテゴリ付き辞書データで用いているカテゴリ分類が完全に一致していなくてもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 入力部
20 演算部
21 手動作成ペア記憶部
22 固有表現タグ付きデータ記憶部
23 種辞書作成部
24 種辞書データベース
25 カテゴリ付き辞書データベース
26 見出し語突合部
27 トリプルデータ記憶部
28 固有表現タイプ学習部
29 固有表現タイプ推定部
30 固有表現タイプ付き辞書データベース
100 固有表現タイプ推定装置

Claims (7)

  1. 固有表現と前記固有表現のタイプとを対応付けて予め格納した種辞書と、固有表現である見出し語と前記見出し語のカテゴリとを対応付けて格納したカテゴリ付き辞書とに基づいて、前記種辞書に格納された固有表現と共通する、前記カテゴリ付き辞書に格納された前記見出し語を選択し、前記選択された見出し語の各々について、前記見出し語と、前記見出し語のカテゴリと、前記見出し語についての前記固有表現のタイプとを対応付けたトリプルデータを生成するトリプルデータ生成手段と、
    前記トリプルデータ生成手段によって生成されたトリプルデータの各々について、前記トリプルデータに含まれる前記見出し語と前記カテゴリとのペアに関する特徴量を抽出する特徴量抽出手段と、
    前記特徴量抽出手段によって抽出された各トリプルデータの前記特徴量と、各トリプルデータに含まれる前記固有表現のタイプとに基づいて、前記特徴量に対する前記固有表現のタイプを推定するための推定モデルを学習する固有表現タイプ学習手段と、
    前記固有表現タイプ学習手段によって学習された前記推定モデルと、対応付けられた見出し語と前記見出し語のカテゴリとのペアに関する前記特徴量とに基づいて、前記見出し語について前記固有表現のタイプを推定する固有表現タイプ推定手段と、
    を含む固有表現タイプ推定装置。
  2. 前記特徴量抽出手段は、前記見出し語に対して形態素解析を行った結果に基づく特徴量を含む、前記見出し語と前記カテゴリとのペアに関する特徴量を抽出する請求項1記載の固有表現タイプ推定装置。
  3. 前記特徴量抽出手段は、前記見出し語に含まれる文字に関する特徴量を含む、前記見出し語と前記カテゴリとのペアに関する特徴量を抽出する請求項1又は2記載の固有表現タイプ推定装置。
  4. 前記特徴量抽出手段は、前記カテゴリに含まれる文字に関する特徴量を含む、前記見出し語と前記カテゴリとのペアに関する特徴量を抽出する請求項1〜請求項3の何れか1項記載の固有表現タイプ推定装置。
  5. 手動で対応付けられた前記固有表現と前記固有表現のタイプとのペアの集合、もしくは前記固有表現のタイプを示すタグが付与された固有表現を含む言語データに基づいて、前記固有表現と前記固有表現のタイプとを対応付けて前記種辞書に格納する種辞書作成手段を更に含む請求項1〜請求項4の何れか1項記載の固有表現タイプ推定装置。
  6. トリプルデータ生成手段、特徴量抽出手段、固有表現タイプ学習手段、及び固有表現タイプ推定手段を含む固有表現タイプ推定装置における固有表現タイプ推定方法であって、
    前記トリプルデータ生成手段によって、固有表現と前記固有表現のタイプとを対応付けて予め格納した種辞書と、固有表現である見出し語と前記見出し語のカテゴリとを対応付けて格納したカテゴリ付き辞書とに基づいて、前記種辞書に格納された固有表現と共通する、前記カテゴリ付き辞書に格納された前記見出し語を選択し、前記選択された見出し語の各々について、前記見出し語と、前記見出し語のカテゴリと、前記見出し語についての前記固有表現のタイプとを対応付けたトリプルデータを生成し、
    前記特徴量抽出手段によって、前記トリプルデータ生成手段によって生成されたトリプルデータの各々について、前記トリプルデータに含まれる前記見出し語と前記カテゴリとのペアに関する特徴量を抽出し、
    前記固有表現タイプ学習手段によって、前記特徴量抽出手段によって抽出された各トリプルデータの前記特徴量と、各トリプルデータに含まれる前記固有表現のタイプとに基づいて、前記特徴量に対する前記固有表現のタイプを推定するための推定モデルを学習し、
    前記固有表現タイプ推定手段によって、前記固有表現タイプ学習手段によって学習された前記推定モデルと、対応付けられた見出し語と前記見出し語のカテゴリとのペアに関する前記特徴量とに基づいて、前記見出し語について前記固有表現のタイプを推定する
    固有表現タイプ推定方法。
  7. コンピュータを、請求項1〜請求項5の何れか1項記載の固有表現タイプ推定装置を構成する各手段として機能させるためのプログラム。
JP2012130646A 2012-06-08 2012-06-08 固有表現タイプ推定装置、方法、及びプログラム Active JP5604475B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012130646A JP5604475B2 (ja) 2012-06-08 2012-06-08 固有表現タイプ推定装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012130646A JP5604475B2 (ja) 2012-06-08 2012-06-08 固有表現タイプ推定装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2013254421A true JP2013254421A (ja) 2013-12-19
JP5604475B2 JP5604475B2 (ja) 2014-10-08

Family

ID=49951851

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012130646A Active JP5604475B2 (ja) 2012-06-08 2012-06-08 固有表現タイプ推定装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5604475B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112585611A (zh) * 2018-09-28 2021-03-30 株式会社东芝 固有表达提取装置、方法以及存储介质
WO2022172437A1 (ja) * 2021-02-15 2022-08-18 日本電信電話株式会社 影響推定装置、影響推定方法、および、影響推定プログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200800063016; 新納 浩幸,関根 聡: '拡張固有表現タガーの作成とその問題点の考察' 言語処理学会第12回年次大会発表論文集 , 20060313, p.105-p.108, 言語処理学会 *
CSNG201000591001; 齋藤 邦子,今村 賢治: 'タグ信頼度に基づく半自動自己更新型固有表現抽出' 自然言語処理 第17巻 第4号 第17巻第4号【ISSN】1340-7619, 20100730, p.3-p.21, 言語処理学会 *
JPN6014005417; 齋藤 邦子,今村 賢治: 'タグ信頼度に基づく半自動自己更新型固有表現抽出' 自然言語処理 第17巻 第4号 第17巻第4号【ISSN】1340-7619, 20100730, p.3-p.21, 言語処理学会 *
JPN6014005419; 新納 浩幸,関根 聡: '拡張固有表現タガーの作成とその問題点の考察' 言語処理学会第12回年次大会発表論文集 , 20060313, p.105-p.108, 言語処理学会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112585611A (zh) * 2018-09-28 2021-03-30 株式会社东芝 固有表达提取装置、方法以及存储介质
WO2022172437A1 (ja) * 2021-02-15 2022-08-18 日本電信電話株式会社 影響推定装置、影響推定方法、および、影響推定プログラム

Also Published As

Publication number Publication date
JP5604475B2 (ja) 2014-10-08

Similar Documents

Publication Publication Date Title
US10628528B2 (en) System and method for domain-independent aspect level sentiment detection
Rathan et al. Consumer insight mining: aspect based Twitter opinion mining of mobile phone reviews
CN105988990B (zh) 汉语零指代消解装置和方法、模型训练方法和存储介质
JP5356197B2 (ja) 単語意味関係抽出装置
Gooding et al. CAMB at CWI shared task 2018: Complex word identification with ensemble-based voting
CN108885617B (zh) 语句解析系统以及程序
US9645988B1 (en) System and method for identifying passages in electronic documents
WO2020199600A1 (zh) 情感极性分析方法及相关装置
KR101851790B1 (ko) 질문 데이터 세트 확장 장치 및 방법
US9262400B2 (en) Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents
JP6062879B2 (ja) モデル学習装置、方法及びプログラム
CN111353306A (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
Esparza et al. Proposal of a Sentiment Analysis Model in Tweets for improvement of the teaching-learning process in the classroom using a corpus of subjectivity
Moradi et al. A hybrid approach for Persian named entity recognition
JP2005181928A (ja) 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム
Tran et al. Named entity recognition in Vietnamese documents
JP5604475B2 (ja) 固有表現タイプ推定装置、方法、及びプログラム
Nandan et al. SAP-RI: a constrained and supervised approach for aspect-based sentiment analysis
JP2013246795A (ja) 固有表現抽出装置、方法、及びプログラム
CN113705198B (zh) 场景图生成方法、装置、电子设备及存储介质
JP2012141679A (ja) 訓練データ獲得装置、訓練データ獲得方法、及びそのプログラム
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
Wu et al. Sentence extraction with topic modeling for question–answer pair generation
Ramadasa et al. Analysis of the effectiveness of using google translations api for nlp of sinhalese
Charoenpornsawat et al. Feature-based proper name identification in Thai

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140212

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140729

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140825

R150 Certificate of patent or registration of utility model

Ref document number: 5604475

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150