JP2011198051A - 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム - Google Patents

固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム Download PDF

Info

Publication number
JP2011198051A
JP2011198051A JP2010064243A JP2010064243A JP2011198051A JP 2011198051 A JP2011198051 A JP 2011198051A JP 2010064243 A JP2010064243 A JP 2010064243A JP 2010064243 A JP2010064243 A JP 2010064243A JP 2011198051 A JP2011198051 A JP 2011198051A
Authority
JP
Japan
Prior art keywords
specific expression
character string
class
label
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010064243A
Other languages
English (en)
Other versions
JP5506482B2 (ja
Inventor
Nozomi Kobayashi
のぞみ 小林
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010064243A priority Critical patent/JP5506482B2/ja
Publication of JP2011198051A publication Critical patent/JP2011198051A/ja
Application granted granted Critical
Publication of JP5506482B2 publication Critical patent/JP5506482B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】固有表現を正しくかつ詳細に分類することを可能とする固有表現抽出装置、固有表現抽出方法、固有表現抽出プログラムを提供する。
【解決手段】テキストを入力とし、形態素と係り受け解析結果と固有表現を出力するテキスト解析部1100と、形態素と固有表現を入力とし、トピックを抽出するトピック抽出部1210と、係り受け解析結果を入力とし、文構造を出力する文構造抽出部1220と、固有表現クラスを判定して出力するクラス判定部1230と、シソーラス1240と、文字列−固有表現クラス対データベース1250と、トピックと文構造と固有表現クラスを入力とし、ラベルスコアを出力とするラベルスコア計算部1300と、ラベルごとのラベルスコア計算に用いられるラベル判定モデル1310と、ラベルスコア最大値からラベルを判定するラベル判定部1400と、前記判定されたラベルと固有表現の組を出力する出力部1500とを備える。
【選択図】図1

Description

本発明は、入力されたテキストに含まれる情報をデータベースから検索する検索システムや入力されたテキストを要約する要約システムなどに用いることができる、入力されたテキストから固有表現を抽出する固有表現抽出技術に関する。
日本語の固有表現抽出において、抽出対象とする固有表現クラスの代表的な例として、日本語の固有表現抽出技術のワークショップ(Information Retrieval and Extraction eXercise,以下IREX)で定義される人名、地名、組織名、金額、日付、時間、割合、固有物名の8クラスがある。
また、IREXで定義される固有表現よりも詳細な階層分類を定義する拡張固有表現階層(Extended Named Entity Hierarchy,以下ENE)が知られている(非特許文献1)。ENEは、例えばIREXにおいて地名とクラス分けされる固有表現を、地域名、地形名、アドレスなどの中間ノードに分類し、さらに、例えば地形名にクラス分けされた固有表現を、山地名、島名、河川名などの末端ノードに分類する。
固有表現抽出装置として特許文献1記載の装置が知られている。この固有表現抽出装置は、入力されたテキストを形態素解析し、当該テキストに含まれる固有表現を抽出する。ここで、形態素解析とは、対象言語の文法の知識(文法のルールの集まり)や辞書(品詞などの情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(言語で意味を持つ最小単位)の列に分割し、それぞれの品詞を判別する処理を意味する。
次に当該テキストの各形態素に固有表現クラスを表す固有表現識別子を付与して固有表現付き形態素列を作成する。
次に前記作成された固有表現付き形態素列と、その前後にある形態素とを1つずつ連結して連結候補を作成し、当該連結候補と予め用意した辞書とを照合して、正しい固有表現クラスを割り当てる。
特開2007−323271号公報
Satoshi Sekine, Kiyoshi Sudo, Chikashi Nobata 'Extended Named Entity Hierarchy',[online], Proceedings of 3rd International Language Resources and Evaluation Conference (LREC-2002),[平成22年3月10日検索]、インターネット<URL: http://nlp.cs.nyu.edu/pubs/papers/sekine-lrec02.pdf>
例えば、ENEで定義される詳細な階層分類を用いて固有表現を詳細に分類することとすると、特許文献1記載の固有表現抽出装置のように、固有表現付き形態素列の周辺にある形態素のみで分類を行うことは困難である。
例えば、「楽天は、福岡市から長崎市に移動し、横浜とのオープン戦を行う長崎県営野球場で練習した。」と「楽天は、ゴールデンイーグルスや仙台市とともにエコ活動に取り組んでいる。」という2つのテキストに共通する固有表現「楽天」についてであるが、正しくは、前者の「楽天」は、「競技組織」に分類され、後者の「楽天」は「会社」に分類される。しかしながら特許文献1記載の固有表現抽出装置のように、固有表現の前後に存在する限られた形態素から詳細かつ正しい分類を行うことは難しい。特に後者のテキストでは固有表現「楽天」の近傍に、固有表現「ゴールデンイーグルス」が出現するため、特許文献1記載の固有表現抽出装置は、後者のテキストに出現する「楽天」を、誤って「競技組織」に分類してしまう可能性もある。
テキスト中の固有表現を、より詳細かつ正しく分類するためには、文構造や固有表現そのものから得られる情報のほかに、例えば前者のテキストは野球について語っており、後者のテキストは会社の活動について語っている記事であるといったテキスト中のトピックを抽出する必要がある。しかしながら、特許文献1記載の固有表現抽出装置のように、固有表現周辺の限られた範囲の形態素を連結して連結候補を作成し、辞書を参照することでは、テキスト中のトピックを抽出することができないし、より詳細な分類においては誤りが生じるという課題がある。
本発明は、これらの課題を解決するためになされたもので、テキスト中のトピックが抽出されることにより、テキスト中に出現する固有表現をIREXで定義される固有表現クラスよりも詳細に、かつ正しく分類することを可能とする固有表現抽出装置、固有表現抽出方法、固有表現抽出プログラムを提供することを目的とする。
本発明の固有表現抽出装置は、テキスト解析部と、素性抽出部と、ラベルスコア計算部と、ラベル判定モデルと、ラベル判定部と、出力部とを有する。テキスト解析部は形態素解析部と、係り受け解析部と、固有表現抽出部とを有する。素性抽出部は、トピック抽出部と、文構造抽出部と、クラス判定部と、シソーラスと、文字列−固有表現クラス対データベースとを有する。クラス判定部は、固有表現文字列分割部と、固有表現クラススコア計算部とを有する。
テキスト解析部は、テキストを入力とし、形態素と、係り受け解析結果と、固有表現とを出力する。シソーラスは、任意の形態素と固有表現のシソーラス番号を予め記憶する。トピック抽出部は、形態素と固有表現とを入力とし、当該形態素と固有表現のうち、出現頻度が1位からN位(ただしNは1以上の整数)までの形態素または固有表現のシソーラス番号を前記シソーラスから取得し、当該出現頻度1位からN位までの形態素または固有表現、前記取得されたシソーラス番号のうち少なくとも1つをトピックとして出力する。文構造抽出部は、係り受け解析結果を入力とし、文構造を抽出して出力する。文字列−固有表現クラス対データベースは、任意の文字列で固有表現クラスごとのクラススコアを予め記憶する。固有表現文字列分割部は、固有表現を入力とし、入力されたM文字(ただしMは1以上の整数)からなる固有表現について、当該固有表現の最後尾から数えてm番目(ただしmは1以上M以下の整数)の文字よりも先頭側にある文字をすべて削除した前記固有表現をm番目の文字列とし、1番目からM番目までの計M個の文字列からなる群を、前記固有表現の文字列リストとして出力する。固有表現クラススコア計算部は、文字列リストを入力とし、前記文字列リスト内の全ての文字列の固有表現クラスごとのクラススコアを前記文字列−固有表現クラス対データベースから取得し、前記文字列リスト内の全ての文字列のクラススコアを前記固有表現クラスごとに合計し、当該合計クラススコアが最大となる固有表現クラスを前記文字列リスト生成元の固有表現の固有表現クラスとして出力する。ラベルスコア計算部は、前記トピックと、前記文構造と、前記文字列リスト生成元の固有表現の固有表現クラスとを入力とし、ラベル判定モデルごとにラベルスコアを計算し出力する。ラベル判定部は、前記ラベルスコア計算部が出力したラベルスコアが最大となるラベル判定モデルのラベルを前記文字列リスト生成元の固有表現のラベルと判定する。出力部は前記ラベル判定部が前記固有表現について判定したラベルと、前記固有表現の組とを出力する。
本発明の文字列−固有表現クラス対データベース作成装置は、対抽出部と、文字列分割部と、文字列頻度計算部と、クラススコア計算部とを有する。対抽出部は、固有表現について書かれた事典から任意の固有表現と固有表現クラスの対を抽出し、前記対を構成する前記固有表現と前記固有表現クラスを対応させて出力する。文字列分割部は、前記対抽出部から出力されたM文字(ただしMは1以上の整数)からなる固有表現について、当該固有表現の最後尾から数えてm番目(ただしmは1以上M以下の整数)の文字よりも先頭側にある文字をすべて削除した前記固有表現をm番目の文字列とし、1番目からM番目までの計M個の文字列からなる群を、前記固有表現の文字列リストとして、出力する。文字列頻度計算部は、任意の固有表現クラスと対応させて出力された全ての固有表現から生成した前記文字列リスト中の全ての文字列を、当該固有表現クラスに属すると判定し、文字列ごとに、任意の固有表現クラスに属すると判定された頻度を計算し、出力する。クラススコア計算部は前記文字列頻度計算部から出力された頻度を用いて、文字列ごとに、固有表現クラスごとにクラススコアを計算する。
ここで、前記文字列−固有表現クラス対データベース作成装置が、前記文字列−固有表現クラス対データベースを作成することとしてもよい。
また、前記固有表現抽出装置が、前記文字列−固有表現クラス対データベース作成装置をさらに備えることもできる。
本発明の固有表現抽出装置によれば、テキスト中の固有表現を詳細に分類する際に、素性抽出部がテキスト中のトピックと、文構造と、固有表現の固有表現クラスとを抽出して素性として出力し、ラベルスコア計算部がラベル判定モデルごとに、前記抽出された素性のラベルスコアを計算し、ラベル判定部が、ラベルスコアが最大値となるラベル判定モデルのラベルをその固有表現のラベルと判定することにより、IREXで定義される固有表現クラスよりも詳細かつ正しく固有表現を分類することができる。
本発明の文字列−固有表現クラス対データベース作成装置によれば、対抽出部が固有表現について書かれた事典から、固有表現と固有表現クラスの対を抽出し、文字列分割部が事典に出現する全ての固有表現を文字列に分割し、クラススコア計算部が任意の文字列−固有表現クラスの組み合わせの共起尺度をクラススコアとして計算するため、前記固有表現抽出装置に必要な文字列−固有表現クラス対データベースを自動にて獲得することができる。
実施例1に係る固有表現抽出装置の構成を示すブロック図。 実施例1に係る固有表現抽出装置の動作を示すフローチャート。 実施例1に係る固有表現抽出装置の素性抽出部の出力例を表す図。 実施例1に係る文字列−固有表現クラス対データベース作成装置の構成を示すブロック図。 実施例1に係る文字列−固有表現クラス対データベース作成装置の動作を示すフローチャート。 実施例1に係る文字列−固有表現クラス対データベース作成装置の出力例を表す図。 実施例1に係る固有表現抽出装置に文字列−固有表現クラス対データベース作成装置を組み合わせた固有表現抽出装置の構成を示すブロック図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
図1、2、3を参照して本発明の実施例1に係る固有表現抽出装置および、固有表現抽出方法を説明する。図1は実施例1に係る固有表現抽出装置1000の構成を示すブロック図である。図2は、実施例1に係る固有表現抽出装置1000の動作を示すフローチャートである。図3は実施例1に係る固有表現抽出装置1000の素性抽出部1200の出力例を表す図である。固有表現抽出装置1000は、テキスト解析部1100と、素性抽出部1200と、ラベルスコア計算部1300と、ラベル判定モデル1310と、ラベル判定部1400と、出力部1500とを有する。テキスト解析部1100は形態素解析部1110と、係り受け解析部1120と、固有表現抽出部1130とを有する。素性抽出部1200は、トピック抽出部1210と、文構造抽出部1220と、クラス判定部1230と、シソーラス1240と、文字列−固有表現クラス対データベース1250とを有する。クラス判定部1230は、固有表現文字列分割部1231と、固有表現クラススコア計算部1232とを有する。
テキスト解析部1100は、テキストを入力とし、形態素と、係り受け解析結果と、固有表現とを出力する(S1100)。詳細には、形態素解析部1110が入力されたテキストを形態素解析し(S1110)、係り受け解析部1120が、入力されたテキストの係り受け解析を行い(S1120)、固有表現抽出部1130が、入力されたテキストの固有表現を抽出する(S1130)。形態素解析部1110と係り受け解析部1120には、周知の手法を使用する。固有表現抽出部1130には、既存の固有表現抽出器が行うように機械学習に基づく手法を用いてもよいし、別途用意した固有表現辞書から抽出する手法を用いてもよい。例えば、図3を参照して、入力テキスト3010がテキスト解析部1100に入力された場合には、テキスト解析部1100は「京都」、「清水寺」、「日月庵」を固有表現として抽出する。
素性抽出部1200は、テキスト解析部1100から出力された形態素、係り受け解析結果、固有表現を入力とし、素性を抽出して出力する(S1200)。ここでいう素性とは、トピック、文構造、固有表現クラスを指す。詳細には、素性抽出部1200は、トピック抽出部1210と、文構造抽出部1220と、クラス判定部1230と、シソーラス1240と、文字列−固有表現クラス対データベース1250とから構成される。
シソーラス1240は、任意の形態素と固有表現のシソーラス番号を予め記憶する。ここで、シソーラスには、日本語語彙大系、もしくは分類語彙表などを用いることができる。シソーラス番号とはシソーラス上で各語彙に割り当てられている番号を意味する。
トピック抽出部1210は、形態素と固有表現とを入力とし、当該形態素と固有表現のうち、出現頻度が1位からN位(ただしNは1以上の整数)までの形態素または固有表現のシソーラス番号を前記シソーラス1240から取得し、当該出現頻度1位からN位までの形態素または固有表現、前記取得されたシソーラス番号のうち少なくとも1つをトピックとして出力する(S1210)。出現頻度のかわりに、TF−IDF法を用いて計算したスコアを使用してもよい。TF−IDF法はテキストにおける単語の出現頻度の重みを計算する手法である。TF(Term Frequency)とは、テキストにおける単語の出現頻度である。しかしながら、多くのテキストに共通して出現する単語はテキストのトピックを表す性質をもたない。このため、単語のトピックを表す性質を重みづけIDF(Inverse Document Frequency)によって反映させる。IDFは総ドキュメント数と、単語が出現したドキュメント数との割合から計算される。詳細には、テキストkにおける単語iのtfidfi,kは以下の式によって計算される。
Figure 2011198051
このようにして計算したtfidfi,kの値の高いものから順に1位からN位までの形態素、固有表現、およびそのシソーラス番号をトピックとして用いることもできる。図3の例では、トピック抽出部1210は入力テキスト3010に対して、頻出固有表現である「京都」、頻出形態素である「旅行」、それらのシソーラス番号である「83」をトピック3211として出力する。
文構造抽出部1220は、係り受け解析結果を入力とし、文構造を抽出して出力する(S1220)。詳細には、文構造抽出部1220は、係り受け解析部1120が計算したテキストの係り受け解析結果を用い、固有表現が出現したテキストを、S式などを使って木構造で表現し、前記S式などを文構造として出力する。図3の例では、文構造抽出部1220は、入力テキスト3010に対して、文構造3221を出力する。文字列−固有表現クラス対データベース1250は、任意の文字列で固有表現クラスごとのクラススコアを予め記憶する。文字列−クラス対データベース1250は、後述する文字列−クラス対データベース作成装置4000が作成することとしてもよい。
クラス判定部1230は、固有表現のみを見て、その固有表現がどの固有表現クラスかを判定する。詳細には、クラス判定部1230は、固有表現文字列分割部1231と、固有表現クラススコア計算部1232とを有する。固有表現文字列分割部1231は、固有表現を入力とし、入力されたM文字(ただしMは1以上の整数)からなる固有表現について、当該固有表現の最後尾から数えてm番目(ただしmは1以上M以下の整数)の文字よりも先頭側にある文字をすべて削除した前記固有表現をm番目の文字列とし、1番目からM番目までの計M個の文字列からなる群を、前記固有表現の文字列リストとして出力する(S1231)。図3の例では、入力テキスト3010に対して、固有表現文字列分割部1231は、固有表現「清水寺」を分割して文字列リスト3231aを生成し、固有表現「日月庵」を分割して文字列リスト3231bを生成する。固有表現クラススコア計算部1232は、文字列リストを入力とし、前記文字列リスト内の全ての文字列の固有表現クラスごとのクラススコアを前記文字列−固有表現クラス対データベース1250から取得し、前記文字列リスト内の全ての文字列のクラススコアを前記固有表現クラスごとに合計し、当該合計クラススコアが最大となる固有表現クラスを前記文字列リスト生成元の固有表現の固有表現クラスとして出力する(S1232)。図3の例では、固有表現クラススコア計算部1232は、固有表現「清水寺」の分割結果である文字列リスト3231aを入力とし、固有表現「清水寺」と固有表現クラス「寺」の対である固有表現−固有表現クラス対3232aを出力する。また、固有表現「日月庵」の分割結果である文字列リスト3231bを入力とし、固有表現「日月庵」と固有表現クラス「店舗」の対である固有表現−固有表現クラス対3232bを出力する。
ラベルスコア計算部1300は、前記トピックと、前記文構造と、前記文字列リスト生成元の固有表現の固有表現クラスとを入力とし、ラベル判定モデル1310ごとにラベルスコアを計算し出力する(S1300)。ここで固有表現のラベルとは、任意の固有表現に対して人が予め付与する、固有表現を正しく表す分類のことである。固有表現のラベルは、固有表現クラスと必ずしも同一でなければならないわけではない。例えば、固有表現「穴守稲荷神社」の固有表現クラスは「神社」であり、ラベルは、「神社寺」となる。本発明における固有表現クラスは、自動的に事典から獲得されるものであり、固有表現クラスは、素性の1つとしてラベル判定に用いられるにすぎない。
ラベル判定モデル1310は、予め人手でラベルが付与された学習データを用いて教師あり学習により学習済みであるものとする。ラベルスコア計算部1300は、素性抽出部1200が出力した素性から、固有表現がどのラベルに属する可能性が高いかを判定するためのラベルスコアをラベル判定モデルごとに計算する。例えば、店舗名判定モデルは、入力された固有表現が店舗名であるか否かを判定するモデルであり、出力されるラベルスコアは「店舗名である」「店舗名でない」のいずれかを示す2値でもよいし、店舗名である可能性の高さを示す値とすることもできる。
ラベル判定部1400は、ラベルスコア計算部1300が出力したラベルスコアが最大となるラベル判定モデルのラベルを前記文字列リスト生成元の固有表現のラベルと判定する(S1400)。出力部1500は前記ラベル判定部が前記固有表現について判定したラベルと、前記固有表現との組を出力する(S1500)。
入力されたテキスト中にラベル未判定の固有表現が存在する場合には、素性抽出ステップS1200に戻り、当該ラベルと、当該固有表現との組を出力する動作を繰り返し行う(S2600)。
図4、5、6を参照して本発明の実施例1に係る文字列−固有表現クラス対データベース作成装置および、文字列−固有表現クラス対データベース作成方法を説明する。図4は実施例1に係る文字列−固有表現クラス対データベース作成装置4000の構成を示すブロック図である。図5は実施例1に係る文字列−固有表現クラス対データベース作成装置4000の動作を示すフローチャートである。図6は実施例1に係る文字列−固有表現クラス対データベース作成装置4000の出力例を表す図である。文字列−固有表現クラス対データベース作成装置4000は、対抽出部4020と、文字列分割部4030と、文字列頻度計算部4040と、クラススコア計算部4050とを有する。
対抽出部4020は固有表現について書かれた事典4010から任意の固有表現と固有表現クラスの対を抽出し、前記対を構成する前記固有表現と前記固有表現クラスを対応させて出力する(S4020)。詳細には、対抽出部4020は、固有表現について書かれた事典4010から、一文目を抽出し、形態素解析を行う。そして「XXは…YYである」、「XXとは…YY」、「XXは…YYのこと」などの予め定めておいたパタンを用いて、固有表現とその固有表現クラスの対を抽出する。ここで、XXは辞書の見出し語、YYは名詞もしくは未知語とし、XXは固有表現、YYは固有表現クラスである。例えば、図6を参照して、対抽出部4020は、固有表現について書かれた事典4010の「日本電信電話株式会社」について書かれた項目の1文目から、固有表現と固有表現クラスの対である(日本電信電話株式会社,会社)を抽出して出力する。同様に、「穴守稲荷神社」について書かれた項目の1文目から、(穴守稲荷神社,神社)を抽出して出力する。
文字列分割部4030は、対抽出部4020から出力されたM文字(ただしMは1以上の整数)からなる固有表現について、当該固有表現の最後尾から数えてm番目(ただしmは1以上M以下の整数)の文字よりも先頭側にある文字をすべて削除した前記固有表現をm番目の文字列とし、1番目からM番目までの計M個の文字列からなる群を、前記固有表現の文字列リストとして、出力する(S4030)。図6の例では、「日本電信電話株式会社」は、「社」、「会社」、「式会社」、「株式会社」、…、「本電信電話株式会社」、「日本電信電話株式会社」の文字列からなる文字列リストに分割される。
固有表現について書かれた事典4010に、文字列リストに分割されていない固有表現が存在する場合は、対抽出ステップS4020に戻り、固有表現と固有表現クラスの対を抽出し、固有表現を文字列リストに分割する操作を繰り返し行い、事典4010中の全ての固有表現の文字列リストと固有表現クラスを得る(S5035)。
文字列頻度計算部4040は、任意の固有表現クラスと対応させて出力された全ての固有表現から生成した前記文字列リスト中の全ての文字列を、当該固有表現クラスに属すると判定し、文字列ごとに、任意の固有表現クラスに属すると判定された頻度を計算し、出力する(S4040)。図6の例では、文字列頻度計算部4040は文字列「株式会社」が固有表現クラス「会社」にクラス分けされた頻度が3353である場合に文字列、固有表現クラス、頻度からなる組(株式会社,会社,3353)を出力する。
クラススコア計算部4050は、文字列頻度計算部4040から出力された頻度を用いて、文字列ごとに、固有表現クラスごとにクラススコアを計算する(S4050)。詳細には、クラススコア計算部4050は、共起尺度を使用して、ある文字列がどういう固有表現クラスと共に出現しやすいかを表すクラススコアを計算する。ここで共起尺度には対数尤度比、相互情報量など、良く使用される尺度を使用する。例えば共起尺度として対数尤度比を用いる場合には、a,b,c,dを下表のように定義して、
対数尤度比=aloga+blogb+clogc+dlogd−(a+b)log(a+b)−(a+c)log(a+c)−(b+d)log(b+d)−(c+d)log(c+d)+(a+b+c+d)log(a+b+c+d)
にて計算することができる。
Figure 2011198051

なお、表1において、¬は出現しなかったことを表す記号である。
クラススコア計算部4050により計算されたクラススコアは文字列、固有表現クラスと対応付けられ、文字列−固有表現クラス対データベース1250に記憶される(S1250)。
図7に実施例1に係る固有表現抽出装置1000に文字列−固有表現クラス対データベース作成装置4000を組み合わせた固有表現抽出装置の構成を示すブロック図を示す。図7のように、固有表現抽出装置1000の文字列−固有表現クラス対データベース1250を、文字列−固有表現クラス対データベース作成装置4000が作成する構成とするため、固有表現抽出装置1000に、文字列−固有表現クラス対データベース4000を付加した固有表現抽出装置7000とすることもできる。
本実施例の固有表現抽出装置1000によれば、テキスト中の固有表現を詳細に分類する際に、素性抽出部1200が、テキスト中のトピックと、文構造と、固有表現の固有表現クラスとを抽出して素性として出力し(S1200)、ラベルスコア計算部1300がラベル判定モデルごとに、前記抽出された素性のラベルスコアを計算し(S1300)、ラベル判定部1400がラベルスコアが最大値となるラベル判定モデルのラベルを当該固有表現のラベルと判定する(S1400)ことにより、IREXで定義される固有表現クラスよりも詳細に、正しく分類することができる。
本実施例の文字列−固有表現クラス対データベース作成装置4000によれば、対抽出部4020が、固有表現について書かれた事典4010から、固有表現と固有表現クラスの対を抽出し(S4020)、文字列分割部4030が、事典に出現する全ての固有表現を文字列に分割し(S4030)、クラススコア計算部4050が文字列−固有表現クラスの共起尺度を使用してクラススコアを計算する(S4050)ため、前記固有表現抽出装置1000に必要な文字列−固有表現クラス対データベース1250を自動にて獲得することができる。

Claims (9)

  1. 入力されたテキストの固有表現を抽出する固有表現抽出装置であって、
    テキストを入力とし、形態素と、係り受け解析結果と、固有表現とを出力するテキスト解析部と、
    任意の形態素と固有表現のシソーラス番号を記憶するシソーラスと、
    形態素と固有表現とを入力とし、当該形態素と固有表現のうち、出現頻度が1位からN位(ただしNは1以上の整数)までの形態素または固有表現のシソーラス番号を前記シソーラスから取得し、当該出現頻度1位からN位までの形態素または固有表現、前記取得されたシソーラス番号のうち少なくとも1つをトピックとして出力するトピック抽出部と、
    係り受け解析結果を入力とし、文構造を抽出して出力する文構造抽出部と、
    任意の文字列で固有表現クラスごとのクラススコアを記憶する文字列−固有表現クラス対データベースと、
    固有表現を入力とし、入力されたM文字(ただしMは1以上の整数)からなる固有表現について、当該固有表現の最後尾から数えてm番目(ただしmは1以上M以下の整数)の文字よりも先頭側にある文字をすべて削除した前記固有表現をm番目の文字列とし、1番目からM番目までの計M個の文字列からなる群を、前記固有表現の文字列リストとして出力する固有表現文字列分割部と、
    文字列リストを入力とし、前記文字列リスト内の全ての文字列の固有表現クラスごとのクラススコアを前記文字列−固有表現クラス対データベースから取得し、前記文字列リスト内の全ての文字列のクラススコアを前記固有表現クラスごとに合計し、当該合計クラススコアが最大となる固有表現クラスを前記文字列リスト生成元の固有表現の固有表現クラスとして出力する固有表現クラススコア計算部と、
    前記トピックと、前記文構造と、前記文字列リスト生成元の固有表現の固有表現クラスとを入力とし、ラベル判定モデルごとにラベルスコアを計算し出力するラベルスコア計算部と、
    前記ラベルスコア計算部が出力したラベルスコアが最大となるラベル判定モデルのラベルを前記文字列リスト生成元の固有表現のラベルと判定するラベル判定部と、を有すること
    を特徴とする固有表現抽出装置。
  2. 任意の文字列で固有表現クラスごとのクラススコアを計算する文字列−固有表現クラス対データベース作成装置であって、
    固有表現について書かれた事典から任意の固有表現と固有表現クラスの対を抽出し、前記対を構成する前記固有表現と前記固有表現クラスを対応させて出力する対抽出部と、
    前記対抽出部から出力されたM文字(ただしMは1以上の整数)からなる固有表現について、当該固有表現の最後尾から数えてm番目(ただしmは1以上M以下の整数)の文字よりも先頭側にある文字をすべて削除した前記固有表現をm番目の文字列とし、1番目からM番目までの計M個の文字列からなる群を、前記固有表現の文字列リストとして、出力する文字列分割部と、
    任意の固有表現クラスと対応させて出力された全ての固有表現から生成した前記文字列リスト中の全ての文字列を、当該固有表現クラスに属すると判定し、文字列ごとに、任意の固有表現クラスに属すると判定された頻度を計算し、出力する文字列頻度計算部と、
    前記文字列頻度計算部から出力された頻度を用いて、文字列ごとに、固有表現クラスごとにクラススコアを計算するクラススコア計算部と、を有すること
    を特徴とする文字列−固有表現クラス対データベース作成装置。
  3. 請求項1に記載の固有表現抽出装置であって、
    前記文字列−固有表現クラス対データベースが、請求項2記載の文字列−固有表現クラス対データベース作成装置によって作成されること
    を特徴とする固有表現抽出装置。
  4. 請求項1に記載の固有表現抽出装置であって、
    請求項2記載の文字列−固有表現クラス対データベース作成装置をさらに備えること
    を特徴とする固有表現抽出装置。
  5. 任意の形態素と固有表現のシソーラス番号を記憶するシソーラスと、
    任意の文字列で固有表現クラスごとのクラススコアを記憶する文字列−固有表現クラス対データベースとを用い、
    入力されたテキストの固有表現を抽出する固有表現抽出方法であって、
    テキストを入力とし、形態素と、係り受け解析結果と、固有表現とを出力するテキスト解析ステップと、
    形態素と固有表現とを入力とし、当該形態素と固有表現のうち、出現頻度が1位からN位(ただしNは1以上の整数)までの形態素または固有表現のシソーラス番号を前記シソーラスから取得し、当該出現頻度1位からN位までの形態素または固有表現、前記取得されたシソーラス番号のうち少なくとも1つをトピックとして出力するトピック抽出ステップと、
    係り受け解析結果を入力とし、文構造を抽出して出力する文構造抽出ステップと、
    固有表現を入力とし、入力されたM文字(ただしMは1以上の整数)からなる固有表現について、当該固有表現の最後尾から数えてm番目(ただしmは1以上M以下の整数)の文字よりも先頭側にある文字をすべて削除した前記固有表現をm番目の文字列とし、1番目からM番目までの計M個の文字列からなる群を、前記固有表現の文字列リストとして出力する固有表現文字列分割ステップと、
    文字列リストを入力とし、前記文字列リスト内の全ての文字列の固有表現クラスごとのクラススコアを前記文字列−固有表現クラス対データベースから取得し、前記文字列リスト内の全ての文字列のクラススコアを前記固有表現クラスごとに合計し、当該合計クラススコアが最大となる固有表現クラスを前記文字列リスト生成元の固有表現の固有表現クラスとして出力する固有表現クラススコア計算ステップと、
    前記トピックと、前記文構造と、前記文字列リスト生成元の固有表現の固有表現クラスとを入力とし、ラベル判定モデルごとにラベルスコアを計算し出力するラベルスコア計算ステップと、
    前記ラベルスコア計算ステップが出力したラベルスコアが最大となるラベル判定モデルのラベルを前記文字列リスト生成元の固有表現のラベルと判定するラベル判定ステップと、を有すること
    を特徴とする固有表現抽出方法。
  6. 任意の文字列で固有表現クラスごとのクラススコアを計算する文字列−固有表現クラス対データベース作成方法であって、
    固有表現について書かれた事典から任意の固有表現と固有表現クラスの対を抽出し、前記対を構成する前記固有表現と前記固有表現クラスを対応させて出力する対抽出ステップと、
    前記対抽出ステップにて出力されたM文字(ただしMは1以上の整数)からなる固有表現について、当該固有表現の最後尾から数えてm番目(ただしmは1以上M以下の整数)の文字よりも先頭側にある文字をすべて削除した前記固有表現をm番目の文字列とし、1番目からM番目までの計M個の文字列からなる群を、前記固有表現の文字列リストとして、出力する文字列分割ステップと、
    任意の固有表現クラスと対応させて出力された全ての固有表現から生成した前記文字列リスト中の全ての文字列を、当該固有表現クラスに属すると判定し、文字列ごとに、任意の固有表現クラスに属すると判定された頻度を計算し、出力する文字列頻度計算ステップと、
    前記文字列頻度計算ステップにて出力された頻度を用いて、文字列ごとに、固有表現クラスごとにクラススコアを計算するクラススコア計算ステップと、を有すること
    を特徴とする文字列−固有表現クラス対データベース作成方法。
  7. 請求項5に記載の固有表現抽出方法であって、
    前記文字列−固有表現クラス対データベースが、請求項6記載の文字列−固有表現クラス対データベース作成方法によって作成されること
    を特徴とする固有表現抽出方法。
  8. 請求項6記載の文字列−固有表現クラス対データベース作成方法によって前記文字列−固有表現クラス対データベースを作成し、請求項5に記載の固有表現抽出方法によって、入力されたテキストの固有表現のラベルを判定すること
    を特徴とする固有表現抽出方法。
  9. コンピュータを請求項1乃至4の何れかに記載の固有表現抽出装置もしくは文字列−固有表現クラス対データベース作成装置として機能させるためのプログラム。
JP2010064243A 2010-03-19 2010-03-19 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム Active JP5506482B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010064243A JP5506482B2 (ja) 2010-03-19 2010-03-19 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010064243A JP5506482B2 (ja) 2010-03-19 2010-03-19 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム

Publications (2)

Publication Number Publication Date
JP2011198051A true JP2011198051A (ja) 2011-10-06
JP5506482B2 JP5506482B2 (ja) 2014-05-28

Family

ID=44876163

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010064243A Active JP5506482B2 (ja) 2010-03-19 2010-03-19 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム

Country Status (1)

Country Link
JP (1) JP5506482B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013118435A1 (ja) * 2012-02-09 2013-08-15 日本電気株式会社 意味的類似度計算方法、システム及びプログラム
JP2014119977A (ja) * 2012-12-17 2014-06-30 Nippon Telegr & Teleph Corp <Ntt> デイリーワード抽出装置、方法、及びプログラム

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG200400341005; 山田 寛康,工藤 拓,松本 裕治: 'Support Vector Machineを用いた日本語固有表現抽出' 情報処理学会論文誌 第43巻 第1号 第43巻 第1号【ISSN】0387-5806, 20020115, p.44-p.53, 社団法人情報処理学会 *
CSNG200700701010; 渡邉 陽太郎,浅原 正幸,松本 裕治: 'HTMLの木構造を利用した条件付確率場による固有表現分類 Wikipediaからのシソーラス半自動構' 情報処理学会研究報告 Vol.2007 No.47 第2007巻 第47号【ISSN】0919-6072, p.73-p.78, 社団法人情報処理学会 *
CSNG201000459004; 藤井 裕也,飯田 龍,徳永 健伸: 'Wikipedia記事を利用した曖昧性のある表現の固有表現クラス分類' 言語処理学会第16回年次大会発表論文集 , 20100308, p.15-p.18, 言語処理学会 *
JPN6013046202; 藤井 裕也,飯田 龍,徳永 健伸: 'Wikipedia記事を利用した曖昧性のある表現の固有表現クラス分類' 言語処理学会第16回年次大会発表論文集 , 20100308, p.15-p.18, 言語処理学会 *
JPN6013046203; 渡邉 陽太郎,浅原 正幸,松本 裕治: 'HTMLの木構造を利用した条件付確率場による固有表現分類 Wikipediaからのシソーラス半自動構' 情報処理学会研究報告 Vol.2007 No.47 第2007巻 第47号【ISSN】0919-6072, p.73-p.78, 社団法人情報処理学会 *
JPN6013046204; 山田 寛康,工藤 拓,松本 裕治: 'Support Vector Machineを用いた日本語固有表現抽出' 情報処理学会論文誌 第43巻 第1号 第43巻 第1号【ISSN】0387-5806, 20020115, p.44-p.53, 社団法人情報処理学会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013118435A1 (ja) * 2012-02-09 2013-08-15 日本電気株式会社 意味的類似度計算方法、システム及びプログラム
JP2014119977A (ja) * 2012-12-17 2014-06-30 Nippon Telegr & Teleph Corp <Ntt> デイリーワード抽出装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP5506482B2 (ja) 2014-05-28

Similar Documents

Publication Publication Date Title
US10496756B2 (en) Sentence creation system
Demir et al. Improving named entity recognition for morphologically rich languages using word embeddings
CN108874937B (zh) 一种基于词性结合和特征选择的情感分类方法
Ramisch et al. mwetoolkit: A framework for multiword expression identification.
JP6676110B2 (ja) 発話文生成装置とその方法とプログラム
Eskander et al. Foreign words and the automatic processing of Arabic social media text written in Roman script
Saloot et al. An architecture for Malay Tweet normalization
CN106096664A (zh) 一种基于社交网络数据的情感分析方法
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
Jayan et al. A hybrid statistical approach for named entity recognition for malayalam language
Zheng et al. Dynamic knowledge-base alignment for coreference resolution
Iosif et al. From speaker identification to affective analysis: a multi-step system for analyzing children’s stories
Vīksna et al. Sentiment analysis in Latvian and Russian: A survey
Chuan-An et al. A unified RvNN framework for end-to-end chinese discourse parsing
CN112597768B (zh) 文本审核方法、装置、电子设备、存储介质及程序产品
Tran et al. Webnlg 2020 challenge: Semantic template mining for generating references from rdf
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
Agrawal et al. Comparative analysis of NLP models for Google Meet Transcript summarization
KR101351555B1 (ko) 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템
Ouda QuranAnalysis: a semantic search and intelligence system for the Quran
Juncal-Martínez et al. GTI at SemEval-2016 Task 4: Training a naive Bayes classifier using features of an unsupervised system
Shekhar et al. Computational linguistic retrieval framework using negative bootstrapping for retrieving transliteration variants
Behera Odia parts of speech tagging corpora: suitability of statistical models
Praveena et al. Chunking based malayalam paraphrase identification using unfolding recursive autoencoders
Dandashi et al. Arabic named entity recognition—a survey and analysis

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110701

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130917

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140318

R150 Certificate of patent or registration of utility model

Ref document number: 5506482

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150