JP5506482B2

JP5506482B2 - 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム

Info

Publication number: JP5506482B2
Application number: JP2010064243A
Authority: JP
Inventors: のぞみ小林; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-03-19
Filing date: 2010-03-19
Publication date: 2014-05-28
Anticipated expiration: 2030-03-19
Also published as: JP2011198051A

Description

本発明は、入力されたテキストに含まれる情報をデータベースから検索する検索システムや入力されたテキストを要約する要約システムなどに用いることができる、入力されたテキストから固有表現を抽出する固有表現抽出技術に関する。

日本語の固有表現抽出において、抽出対象とする固有表現クラスの代表的な例として、日本語の固有表現抽出技術のワークショップ（Information Retrieval and Extraction eXercise，以下ＩＲＥＸ）で定義される人名、地名、組織名、金額、日付、時間、割合、固有物名の８クラスがある。

また、ＩＲＥＸで定義される固有表現よりも詳細な階層分類を定義する拡張固有表現階層（Extended Named Entity Hierarchy，以下ＥＮＥ）が知られている（非特許文献１）。ＥＮＥは、例えばＩＲＥＸにおいて地名とクラス分けされる固有表現を、地域名、地形名、アドレスなどの中間ノードに分類し、さらに、例えば地形名にクラス分けされた固有表現を、山地名、島名、河川名などの末端ノードに分類する。

固有表現抽出装置として特許文献１記載の装置が知られている。この固有表現抽出装置は、入力されたテキストを形態素解析し、当該テキストに含まれる固有表現を抽出する。ここで、形態素解析とは、対象言語の文法の知識（文法のルールの集まり）や辞書（品詞などの情報付きの単語リスト）を情報源として用い、自然言語で書かれた文を形態素（言語で意味を持つ最小単位）の列に分割し、それぞれの品詞を判別する処理を意味する。

次に当該テキストの各形態素に固有表現クラスを表す固有表現識別子を付与して固有表現付き形態素列を作成する。

次に前記作成された固有表現付き形態素列と、その前後にある形態素とを１つずつ連結して連結候補を作成し、当該連結候補と予め用意した辞書とを照合して、正しい固有表現クラスを割り当てる。

特開２００７−３２３２７１号公報

Satoshi Sekine, Kiyoshi Sudo, Chikashi Nobata 'Extended Named Entity Hierarchy',[online], Proceedings of 3rd International Language Resources and Evaluation Conference (LREC-2002)，[平成22年３月10日検索]、インターネット<URL: http://nlp.cs.nyu.edu/pubs/papers/sekine-lrec02.pdf>

例えば、ＥＮＥで定義される詳細な階層分類を用いて固有表現を詳細に分類することとすると、特許文献１記載の固有表現抽出装置のように、固有表現付き形態素列の周辺にある形態素のみで分類を行うことは困難である。

例えば、「楽天は、福岡市から長崎市に移動し、横浜とのオープン戦を行う長崎県営野球場で練習した。」と「楽天は、ゴールデンイーグルスや仙台市とともにエコ活動に取り組んでいる。」という２つのテキストに共通する固有表現「楽天」についてであるが、正しくは、前者の「楽天」は、「競技組織」に分類され、後者の「楽天」は「会社」に分類される。しかしながら特許文献１記載の固有表現抽出装置のように、固有表現の前後に存在する限られた形態素から詳細かつ正しい分類を行うことは難しい。特に後者のテキストでは固有表現「楽天」の近傍に、固有表現「ゴールデンイーグルス」が出現するため、特許文献１記載の固有表現抽出装置は、後者のテキストに出現する「楽天」を、誤って「競技組織」に分類してしまう可能性もある。

テキスト中の固有表現を、より詳細かつ正しく分類するためには、文構造や固有表現そのものから得られる情報のほかに、例えば前者のテキストは野球について語っており、後者のテキストは会社の活動について語っている記事であるといったテキスト中のトピックを抽出する必要がある。しかしながら、特許文献１記載の固有表現抽出装置のように、固有表現周辺の限られた範囲の形態素を連結して連結候補を作成し、辞書を参照することでは、テキスト中のトピックを抽出することができないし、より詳細な分類においては誤りが生じるという課題がある。

本発明は、これらの課題を解決するためになされたもので、テキスト中のトピックが抽出されることにより、テキスト中に出現する固有表現をＩＲＥＸで定義される固有表現クラスよりも詳細に、かつ正しく分類することを可能とする固有表現抽出装置、固有表現抽出方法、固有表現抽出プログラムを提供することを目的とする。

本発明の固有表現抽出装置は、テキスト解析部と、素性抽出部と、ラベルスコア計算部と、ラベル判定モデルと、ラベル判定部と、出力部とを有する。テキスト解析部は形態素解析部と、係り受け解析部と、固有表現抽出部とを有する。素性抽出部は、トピック抽出部と、文構造抽出部と、クラス判定部と、シソーラスと、文字列−固有表現クラス対データベースとを有する。クラス判定部は、固有表現文字列分割部と、固有表現クラススコア計算部とを有する。

テキスト解析部は、テキストを入力とし、形態素と、係り受け解析結果と、固有表現とを出力する。シソーラスは、任意の形態素と固有表現のシソーラス番号を予め記憶する。トピック抽出部は、形態素と固有表現とを入力とし、当該形態素と固有表現のうち、出現頻度が１位からＮ位（ただしＮは１以上の整数）までの形態素または固有表現のシソーラス番号を前記シソーラスから取得し、当該出現頻度１位からＮ位までの形態素または固有表現、前記取得されたシソーラス番号のうち少なくとも１つをトピックとして出力する。文構造抽出部は、係り受け解析結果を入力とし、文構造を抽出して出力する。文字列−固有表現クラス対データベースは、任意の文字列で固有表現クラスごとのクラススコアを予め記憶する。固有表現文字列分割部は、固有表現を入力とし、入力されたＭ文字（ただしＭは１以上の整数）からなる固有表現について、当該固有表現の最後尾から数えてｍ番目（ただしｍは１以上Ｍ以下の整数）の文字よりも先頭側にある文字をすべて削除した前記固有表現をｍ番目の文字列とし、１番目からＭ番目までの計Ｍ個の文字列からなる群を、前記固有表現の文字列リストとして出力する。固有表現クラススコア計算部は、文字列リストを入力とし、前記文字列リスト内の全ての文字列の固有表現クラスごとのクラススコアを前記文字列−固有表現クラス対データベースから取得し、前記文字列リスト内の全ての文字列のクラススコアを前記固有表現クラスごとに合計し、当該合計クラススコアが最大となる固有表現クラスを前記文字列リスト生成元の固有表現の固有表現クラスとして出力する。ラベルスコア計算部は、前記トピックと、前記文構造と、前記文字列リスト生成元の固有表現の固有表現クラスとを入力とし、ラベル判定モデルごとにラベルスコアを計算し出力する。ラベル判定部は、前記ラベルスコア計算部が出力したラベルスコアが最大となるラベル判定モデルのラベルを前記文字列リスト生成元の固有表現のラベルと判定する。出力部は前記ラベル判定部が前記固有表現について判定したラベルと、前記固有表現の組とを出力する。

本発明の文字列−固有表現クラス対データベース作成装置は、対抽出部と、文字列分割部と、文字列頻度計算部と、クラススコア計算部とを有する。対抽出部は、固有表現について書かれた事典から任意の固有表現と固有表現クラスの対を抽出し、前記対を構成する前記固有表現と前記固有表現クラスを対応させて出力する。文字列分割部は、前記対抽出部から出力されたＭ文字（ただしＭは１以上の整数）からなる固有表現について、当該固有表現の最後尾から数えてｍ番目（ただしｍは１以上Ｍ以下の整数）の文字よりも先頭側にある文字をすべて削除した前記固有表現をｍ番目の文字列とし、１番目からＭ番目までの計Ｍ個の文字列からなる群を、前記固有表現の文字列リストとして、出力する。文字列頻度計算部は、任意の固有表現クラスと対応させて出力された全ての固有表現から生成した前記文字列リスト中の全ての文字列を、当該固有表現クラスに属すると判定し、文字列ごとに、任意の固有表現クラスに属すると判定された頻度を計算し、出力する。クラススコア計算部は前記文字列頻度計算部から出力された頻度を用いて、文字列ごとに、固有表現クラスごとにクラススコアを計算する。

ここで、前記文字列−固有表現クラス対データベース作成装置が、前記文字列−固有表現クラス対データベースを作成することとしてもよい。

また、前記固有表現抽出装置が、前記文字列−固有表現クラス対データベース作成装置をさらに備えることもできる。

本発明の固有表現抽出装置によれば、テキスト中の固有表現を詳細に分類する際に、素性抽出部がテキスト中のトピックと、文構造と、固有表現の固有表現クラスとを抽出して素性として出力し、ラベルスコア計算部がラベル判定モデルごとに、前記抽出された素性のラベルスコアを計算し、ラベル判定部が、ラベルスコアが最大値となるラベル判定モデルのラベルをその固有表現のラベルと判定することにより、ＩＲＥＸで定義される固有表現クラスよりも詳細かつ正しく固有表現を分類することができる。

本発明の文字列−固有表現クラス対データベース作成装置によれば、対抽出部が固有表現について書かれた事典から、固有表現と固有表現クラスの対を抽出し、文字列分割部が事典に出現する全ての固有表現を文字列に分割し、クラススコア計算部が任意の文字列−固有表現クラスの組み合わせの共起尺度をクラススコアとして計算するため、前記固有表現抽出装置に必要な文字列−固有表現クラス対データベースを自動にて獲得することができる。

実施例１に係る固有表現抽出装置の構成を示すブロック図。実施例１に係る固有表現抽出装置の動作を示すフローチャート。実施例１に係る固有表現抽出装置の素性抽出部の出力例を表す図。実施例１に係る文字列−固有表現クラス対データベース作成装置の構成を示すブロック図。実施例１に係る文字列−固有表現クラス対データベース作成装置の動作を示すフローチャート。実施例１に係る文字列−固有表現クラス対データベース作成装置の出力例を表す図。実施例１に係る固有表現抽出装置に文字列−固有表現クラス対データベース作成装置を組み合わせた固有表現抽出装置の構成を示すブロック図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

図１、２、３を参照して本発明の実施例１に係る固有表現抽出装置および、固有表現抽出方法を説明する。図１は実施例１に係る固有表現抽出装置１０００の構成を示すブロック図である。図２は、実施例１に係る固有表現抽出装置１０００の動作を示すフローチャートである。図３は実施例１に係る固有表現抽出装置１０００の素性抽出部１２００の出力例を表す図である。固有表現抽出装置１０００は、テキスト解析部１１００と、素性抽出部１２００と、ラベルスコア計算部１３００と、ラベル判定モデル１３１０と、ラベル判定部１４００と、出力部１５００とを有する。テキスト解析部１１００は形態素解析部１１１０と、係り受け解析部１１２０と、固有表現抽出部１１３０とを有する。素性抽出部１２００は、トピック抽出部１２１０と、文構造抽出部１２２０と、クラス判定部１２３０と、シソーラス１２４０と、文字列−固有表現クラス対データベース１２５０とを有する。クラス判定部１２３０は、固有表現文字列分割部１２３１と、固有表現クラススコア計算部１２３２とを有する。

テキスト解析部１１００は、テキストを入力とし、形態素と、係り受け解析結果と、固有表現とを出力する（Ｓ１１００）。詳細には、形態素解析部１１１０が入力されたテキストを形態素解析し（Ｓ１１１０）、係り受け解析部１１２０が、入力されたテキストの係り受け解析を行い（Ｓ１１２０）、固有表現抽出部１１３０が、入力されたテキストの固有表現を抽出する（Ｓ１１３０）。形態素解析部１１１０と係り受け解析部１１２０には、周知の手法を使用する。固有表現抽出部１１３０には、既存の固有表現抽出器が行うように機械学習に基づく手法を用いてもよいし、別途用意した固有表現辞書から抽出する手法を用いてもよい。例えば、図３を参照して、入力テキスト３０１０がテキスト解析部１１００に入力された場合には、テキスト解析部１１００は「京都」、「清水寺」、「日月庵」を固有表現として抽出する。

素性抽出部１２００は、テキスト解析部１１００から出力された形態素、係り受け解析結果、固有表現を入力とし、素性を抽出して出力する（Ｓ１２００）。ここでいう素性とは、トピック、文構造、固有表現クラスを指す。詳細には、素性抽出部１２００は、トピック抽出部１２１０と、文構造抽出部１２２０と、クラス判定部１２３０と、シソーラス１２４０と、文字列−固有表現クラス対データベース１２５０とから構成される。

シソーラス１２４０は、任意の形態素と固有表現のシソーラス番号を予め記憶する。ここで、シソーラスには、日本語語彙大系、もしくは分類語彙表などを用いることができる。シソーラス番号とはシソーラス上で各語彙に割り当てられている番号を意味する。

トピック抽出部１２１０は、形態素と固有表現とを入力とし、当該形態素と固有表現のうち、出現頻度が１位からＮ位（ただしＮは１以上の整数）までの形態素または固有表現のシソーラス番号を前記シソーラス１２４０から取得し、当該出現頻度１位からＮ位までの形態素または固有表現、前記取得されたシソーラス番号のうち少なくとも１つをトピックとして出力する（Ｓ１２１０）。出現頻度のかわりに、ＴＦ−ＩＤＦ法を用いて計算したスコアを使用してもよい。ＴＦ−ＩＤＦ法はテキストにおける単語の出現頻度の重みを計算する手法である。ＴＦ（Term Frequency）とは、テキストにおける単語の出現頻度である。しかしながら、多くのテキストに共通して出現する単語はテキストのトピックを表す性質をもたない。このため、単語のトピックを表す性質を重みづけＩＤＦ（Inverse Document Frequency）によって反映させる。ＩＤＦは総ドキュメント数と、単語が出現したドキュメント数との割合から計算される。詳細には、テキストｋにおける単語ｉのtfidf_i,kは以下の式によって計算される。

このようにして計算したtfidf_i,kの値の高いものから順に１位からＮ位までの形態素、固有表現、およびそのシソーラス番号をトピックとして用いることもできる。図３の例では、トピック抽出部１２１０は入力テキスト３０１０に対して、頻出固有表現である「京都」、頻出形態素である「旅行」、それらのシソーラス番号である「８３」をトピック３２１１として出力する。

文構造抽出部１２２０は、係り受け解析結果を入力とし、文構造を抽出して出力する（Ｓ１２２０）。詳細には、文構造抽出部１２２０は、係り受け解析部１１２０が計算したテキストの係り受け解析結果を用い、固有表現が出現したテキストを、Ｓ式などを使って木構造で表現し、前記Ｓ式などを文構造として出力する。図３の例では、文構造抽出部１２２０は、入力テキスト３０１０に対して、文構造３２２１を出力する。文字列−固有表現クラス対データベース１２５０は、任意の文字列で固有表現クラスごとのクラススコアを予め記憶する。文字列−クラス対データベース１２５０は、後述する文字列−クラス対データベース作成装置４０００が作成することとしてもよい。

クラス判定部１２３０は、固有表現のみを見て、その固有表現がどの固有表現クラスかを判定する。詳細には、クラス判定部１２３０は、固有表現文字列分割部１２３１と、固有表現クラススコア計算部１２３２とを有する。固有表現文字列分割部１２３１は、固有表現を入力とし、入力されたＭ文字（ただしＭは１以上の整数）からなる固有表現について、当該固有表現の最後尾から数えてｍ番目（ただしｍは１以上Ｍ以下の整数）の文字よりも先頭側にある文字をすべて削除した前記固有表現をｍ番目の文字列とし、１番目からＭ番目までの計Ｍ個の文字列からなる群を、前記固有表現の文字列リストとして出力する（Ｓ１２３１）。図３の例では、入力テキスト３０１０に対して、固有表現文字列分割部１２３１は、固有表現「清水寺」を分割して文字列リスト３２３１ａを生成し、固有表現「日月庵」を分割して文字列リスト３２３１ｂを生成する。固有表現クラススコア計算部１２３２は、文字列リストを入力とし、前記文字列リスト内の全ての文字列の固有表現クラスごとのクラススコアを前記文字列−固有表現クラス対データベース１２５０から取得し、前記文字列リスト内の全ての文字列のクラススコアを前記固有表現クラスごとに合計し、当該合計クラススコアが最大となる固有表現クラスを前記文字列リスト生成元の固有表現の固有表現クラスとして出力する（Ｓ１２３２）。図３の例では、固有表現クラススコア計算部１２３２は、固有表現「清水寺」の分割結果である文字列リスト３２３１ａを入力とし、固有表現「清水寺」と固有表現クラス「寺」の対である固有表現−固有表現クラス対３２３２ａを出力する。また、固有表現「日月庵」の分割結果である文字列リスト３２３１ｂを入力とし、固有表現「日月庵」と固有表現クラス「店舗」の対である固有表現−固有表現クラス対３２３２ｂを出力する。

ラベルスコア計算部１３００は、前記トピックと、前記文構造と、前記文字列リスト生成元の固有表現の固有表現クラスとを入力とし、ラベル判定モデル１３１０ごとにラベルスコアを計算し出力する（Ｓ１３００）。ここで固有表現のラベルとは、任意の固有表現に対して人が予め付与する、固有表現を正しく表す分類のことである。固有表現のラベルは、固有表現クラスと必ずしも同一でなければならないわけではない。例えば、固有表現「穴守稲荷神社」の固有表現クラスは「神社」であり、ラベルは、「神社寺」となる。本発明における固有表現クラスは、自動的に事典から獲得されるものであり、固有表現クラスは、素性の１つとしてラベル判定に用いられるにすぎない。

ラベル判定モデル１３１０は、予め人手でラベルが付与された学習データを用いて教師あり学習により学習済みであるものとする。ラベルスコア計算部１３００は、素性抽出部１２００が出力した素性から、固有表現がどのラベルに属する可能性が高いかを判定するためのラベルスコアをラベル判定モデルごとに計算する。例えば、店舗名判定モデルは、入力された固有表現が店舗名であるか否かを判定するモデルであり、出力されるラベルスコアは「店舗名である」「店舗名でない」のいずれかを示す２値でもよいし、店舗名である可能性の高さを示す値とすることもできる。

ラベル判定部１４００は、ラベルスコア計算部１３００が出力したラベルスコアが最大となるラベル判定モデルのラベルを前記文字列リスト生成元の固有表現のラベルと判定する（Ｓ１４００）。出力部１５００は前記ラベル判定部が前記固有表現について判定したラベルと、前記固有表現との組を出力する（Ｓ１５００）。

入力されたテキスト中にラベル未判定の固有表現が存在する場合には、素性抽出ステップＳ１２００に戻り、当該ラベルと、当該固有表現との組を出力する動作を繰り返し行う（Ｓ２６００）。

図４、５、６を参照して本発明の実施例１に係る文字列−固有表現クラス対データベース作成装置および、文字列−固有表現クラス対データベース作成方法を説明する。図４は実施例１に係る文字列−固有表現クラス対データベース作成装置４０００の構成を示すブロック図である。図５は実施例１に係る文字列−固有表現クラス対データベース作成装置４０００の動作を示すフローチャートである。図６は実施例１に係る文字列−固有表現クラス対データベース作成装置４０００の出力例を表す図である。文字列−固有表現クラス対データベース作成装置４０００は、対抽出部４０２０と、文字列分割部４０３０と、文字列頻度計算部４０４０と、クラススコア計算部４０５０とを有する。

対抽出部４０２０は固有表現について書かれた事典４０１０から任意の固有表現と固有表現クラスの対を抽出し、前記対を構成する前記固有表現と前記固有表現クラスを対応させて出力する（Ｓ４０２０）。詳細には、対抽出部４０２０は、固有表現について書かれた事典４０１０から、一文目を抽出し、形態素解析を行う。そして「ＸＸは…ＹＹである」、「ＸＸとは…ＹＹ」、「ＸＸは…ＹＹのこと」などの予め定めておいたパタンを用いて、固有表現とその固有表現クラスの対を抽出する。ここで、ＸＸは辞書の見出し語、ＹＹは名詞もしくは未知語とし、ＸＸは固有表現、ＹＹは固有表現クラスである。例えば、図６を参照して、対抽出部４０２０は、固有表現について書かれた事典４０１０の「日本電信電話株式会社」について書かれた項目の１文目から、固有表現と固有表現クラスの対である（日本電信電話株式会社，会社）を抽出して出力する。同様に、「穴守稲荷神社」について書かれた項目の１文目から、（穴守稲荷神社，神社）を抽出して出力する。

文字列分割部４０３０は、対抽出部４０２０から出力されたＭ文字（ただしＭは１以上の整数）からなる固有表現について、当該固有表現の最後尾から数えてｍ番目（ただしｍは１以上Ｍ以下の整数）の文字よりも先頭側にある文字をすべて削除した前記固有表現をｍ番目の文字列とし、１番目からＭ番目までの計Ｍ個の文字列からなる群を、前記固有表現の文字列リストとして、出力する（Ｓ４０３０）。図６の例では、「日本電信電話株式会社」は、「社」、「会社」、「式会社」、「株式会社」、…、「本電信電話株式会社」、「日本電信電話株式会社」の文字列からなる文字列リストに分割される。

固有表現について書かれた事典４０１０に、文字列リストに分割されていない固有表現が存在する場合は、対抽出ステップＳ４０２０に戻り、固有表現と固有表現クラスの対を抽出し、固有表現を文字列リストに分割する操作を繰り返し行い、事典４０１０中の全ての固有表現の文字列リストと固有表現クラスを得る（Ｓ５０３５）。

文字列頻度計算部４０４０は、任意の固有表現クラスと対応させて出力された全ての固有表現から生成した前記文字列リスト中の全ての文字列を、当該固有表現クラスに属すると判定し、文字列ごとに、任意の固有表現クラスに属すると判定された頻度を計算し、出力する（Ｓ４０４０）。図６の例では、文字列頻度計算部４０４０は文字列「株式会社」が固有表現クラス「会社」にクラス分けされた頻度が３３５３である場合に文字列、固有表現クラス、頻度からなる組（株式会社，会社，３３５３）を出力する。

クラススコア計算部４０５０は、文字列頻度計算部４０４０から出力された頻度を用いて、文字列ごとに、固有表現クラスごとにクラススコアを計算する（Ｓ４０５０）。詳細には、クラススコア計算部４０５０は、共起尺度を使用して、ある文字列がどういう固有表現クラスと共に出現しやすいかを表すクラススコアを計算する。ここで共起尺度には対数尤度比、相互情報量など、良く使用される尺度を使用する。例えば共起尺度として対数尤度比を用いる場合には、ａ，ｂ，ｃ，ｄを下表のように定義して、
対数尤度比＝ａｌｏｇａ＋ｂｌｏｇｂ＋ｃｌｏｇｃ＋ｄｌｏｇｄ−（ａ＋ｂ）ｌｏｇ（ａ＋ｂ）−（ａ＋ｃ）ｌｏｇ（ａ＋ｃ）−（ｂ＋ｄ）ｌｏｇ（ｂ＋ｄ）−（ｃ＋ｄ）ｌｏｇ（ｃ＋ｄ）＋（ａ＋ｂ＋ｃ＋ｄ）ｌｏｇ（ａ＋ｂ＋ｃ＋ｄ）
にて計算することができる。

なお、表１において、¬は出現しなかったことを表す記号である。

クラススコア計算部４０５０により計算されたクラススコアは文字列、固有表現クラスと対応付けられ、文字列−固有表現クラス対データベース１２５０に記憶される（Ｓ１２５０）。

図７に実施例１に係る固有表現抽出装置１０００に文字列−固有表現クラス対データベース作成装置４０００を組み合わせた固有表現抽出装置の構成を示すブロック図を示す。図７のように、固有表現抽出装置１０００の文字列−固有表現クラス対データベース１２５０を、文字列−固有表現クラス対データベース作成装置４０００が作成する構成とするため、固有表現抽出装置１０００に、文字列−固有表現クラス対データベース４０００を付加した固有表現抽出装置７０００とすることもできる。

本実施例の固有表現抽出装置１０００によれば、テキスト中の固有表現を詳細に分類する際に、素性抽出部１２００が、テキスト中のトピックと、文構造と、固有表現の固有表現クラスとを抽出して素性として出力し（Ｓ１２００）、ラベルスコア計算部１３００がラベル判定モデルごとに、前記抽出された素性のラベルスコアを計算し（Ｓ１３００）、ラベル判定部１４００がラベルスコアが最大値となるラベル判定モデルのラベルを当該固有表現のラベルと判定する（Ｓ１４００）ことにより、ＩＲＥＸで定義される固有表現クラスよりも詳細に、正しく分類することができる。

本実施例の文字列−固有表現クラス対データベース作成装置４０００によれば、対抽出部４０２０が、固有表現について書かれた事典４０１０から、固有表現と固有表現クラスの対を抽出し（Ｓ４０２０）、文字列分割部４０３０が、事典に出現する全ての固有表現を文字列に分割し（Ｓ４０３０）、クラススコア計算部４０５０が文字列−固有表現クラスの共起尺度を使用してクラススコアを計算する（Ｓ４０５０）ため、前記固有表現抽出装置１０００に必要な文字列−固有表現クラス対データベース１２５０を自動にて獲得することができる。

Claims

入力されたテキストの固有表現を抽出する固有表現抽出装置であって、
テキストを入力とし、形態素と、係り受け解析結果と、固有表現とを出力するテキスト解析部と、
任意の形態素と固有表現のシソーラス番号を記憶するシソーラスと、
形態素と固有表現とを入力とし、当該形態素と固有表現のうち、出現頻度が１位からＮ位（ただしＮは１以上の整数）までの形態素または固有表現のシソーラス番号を前記シソーラスから取得し、当該出現頻度１位からＮ位までの形態素または固有表現、前記取得されたシソーラス番号のうち少なくとも１つをトピックとして出力するトピック抽出部と、
係り受け解析結果を入力とし、文構造を抽出して出力する文構造抽出部と、
任意の文字列で固有表現クラスごとのクラススコアを記憶する文字列−固有表現クラス対データベースと、
固有表現を入力とし、入力されたＭ文字（ただしＭは１以上の整数）からなる固有表現について、当該固有表現の最後尾から数えてｍ番目（ただしｍは１以上Ｍ以下の整数）の文字よりも先頭側にある文字をすべて削除した前記固有表現をｍ番目の文字列とし、１番目からＭ番目までの計Ｍ個の文字列からなる群を、前記固有表現の文字列リストとして出力する固有表現文字列分割部と、
文字列リストを入力とし、前記文字列リスト内の全ての文字列の固有表現クラスごとのクラススコアを前記文字列−固有表現クラス対データベースから取得し、前記文字列リスト内の全ての文字列のクラススコアを前記固有表現クラスごとに合計し、当該合計クラススコアが最大となる固有表現クラスを前記文字列リスト生成元の固有表現の固有表現クラスとして出力する固有表現クラススコア計算部と、
前記トピックと、前記文構造と、前記文字列リスト生成元の固有表現の固有表現クラスとを入力とし、ラベル判定モデルごとにラベルスコアを計算し出力するラベルスコア計算部と、
前記ラベルスコア計算部が出力したラベルスコアが最大となるラベル判定モデルのラベルを前記文字列リスト生成元の固有表現のラベルと判定するラベル判定部と、を有すること
を特徴とする固有表現抽出装置。
任意の文字列で固有表現クラスごとのクラススコアを計算する文字列−固有表現クラス対データベース作成装置であって、
固有表現について書かれた事典から任意の固有表現と固有表現クラスの対を抽出し、前記対を構成する前記固有表現と前記固有表現クラスを対応させて出力する対抽出部と、
前記対抽出部から出力されたＭ文字（ただしＭは１以上の整数）からなる固有表現について、当該固有表現の最後尾から数えてｍ番目（ただしｍは１以上Ｍ以下の整数）の文字よりも先頭側にある文字をすべて削除した前記固有表現をｍ番目の文字列とし、１番目からＭ番目までの計Ｍ個の文字列からなる群を、前記固有表現の文字列リストとして、出力する文字列分割部と、
任意の固有表現クラスと対応させて出力された全ての固有表現から生成した前記文字列リスト中の全ての文字列を、当該固有表現クラスに属すると判定し、文字列ごとに、任意の固有表現クラスに属すると判定された頻度を計算し、出力する文字列頻度計算部と、
前記文字列頻度計算部から出力された頻度を用いて、文字列ごとに、固有表現クラスごとにクラススコアを計算するクラススコア計算部と、を有すること
を特徴とする文字列−固有表現クラス対データベース作成装置。
請求項１に記載の固有表現抽出装置であって、
前記文字列−固有表現クラス対データベースが、請求項２記載の文字列−固有表現クラス対データベース作成装置によって作成されること
を特徴とする固有表現抽出装置。
請求項１に記載の固有表現抽出装置であって、
請求項２記載の文字列−固有表現クラス対データベース作成装置をさらに備えること
を特徴とする固有表現抽出装置。
任意の形態素と固有表現のシソーラス番号を記憶するシソーラスと、
任意の文字列で固有表現クラスごとのクラススコアを記憶する文字列−固有表現クラス対データベースとを用い、
入力されたテキストの固有表現を抽出する固有表現抽出装置が実行する固有表現抽出方法であって、
前記固有表現抽出装置のテキスト解析部が実行する、テキストを入力とし、形態素と、係り受け解析結果と、固有表現とを出力するテキスト解析ステップと、
前記固有表現抽出装置のトピック抽出部が実行する、形態素と固有表現とを入力とし、当該形態素と固有表現のうち、出現頻度が１位からＮ位（ただしＮは１以上の整数）までの形態素または固有表現のシソーラス番号を前記シソーラスから取得し、当該出現頻度１位からＮ位までの形態素または固有表現、前記取得されたシソーラス番号のうち少なくとも１つをトピックとして出力するトピック抽出ステップと、
前記固有表現抽出装置の文構造抽出部が実行する、係り受け解析結果を入力とし、文構造を抽出して出力する文構造抽出ステップと、
前記固有表現抽出装置の固有表現文字列分割部が実行する、固有表現を入力とし、入力されたＭ文字（ただしＭは１以上の整数）からなる固有表現について、当該固有表現の最後尾から数えてｍ番目（ただしｍは１以上Ｍ以下の整数）の文字よりも先頭側にある文字をすべて削除した前記固有表現をｍ番目の文字列とし、１番目からＭ番目までの計Ｍ個の文字列からなる群を、前記固有表現の文字列リストとして出力する固有表現文字列分割ステップと、
前記固有表現抽出装置の固有表現クラススコア計算部が実行する、文字列リストを入力とし、前記文字列リスト内の全ての文字列の固有表現クラスごとのクラススコアを前記文字列−固有表現クラス対データベースから取得し、前記文字列リスト内の全ての文字列のクラススコアを前記固有表現クラスごとに合計し、当該合計クラススコアが最大となる固有表現クラスを前記文字列リスト生成元の固有表現の固有表現クラスとして出力する固有表現クラススコア計算ステップと、
前記固有表現抽出装置のラベルスコア計算部が実行する、前記トピックと、前記文構造と、前記文字列リスト生成元の固有表現の固有表現クラスとを入力とし、ラベル判定モデルごとにラベルスコアを計算し出力するラベルスコア計算ステップと、
前記固有表現抽出装置のラベル判定部が実行する、前記ラベルスコア計算ステップが出力したラベルスコアが最大となるラベル判定モデルのラベルを前記文字列リスト生成元の固有表現のラベルと判定するラベル判定ステップと、を有すること
を特徴とする固有表現抽出方法。
任意の文字列で固有表現クラスごとのクラススコアを計算する文字列−固有表現クラス対データベース作成装置が実行する文字列−固有表現クラス対データベース作成方法であって、
前記文字列−固有表現クラス対データベース作成装置の対抽出部が実行する、固有表現について書かれた事典から任意の固有表現と固有表現クラスの対を抽出し、前記対を構成する前記固有表現と前記固有表現クラスを対応させて出力する対抽出ステップと、
前記文字列−固有表現クラス対データベース作成装置の文字列分割部が実行する、前記対抽出ステップにて出力されたＭ文字（ただしＭは１以上の整数）からなる固有表現について、当該固有表現の最後尾から数えてｍ番目（ただしｍは１以上Ｍ以下の整数）の文字よりも先頭側にある文字をすべて削除した前記固有表現をｍ番目の文字列とし、１番目からＭ番目までの計Ｍ個の文字列からなる群を、前記固有表現の文字列リストとして、出力する文字列分割ステップと、
前記文字列−固有表現クラス対データベース作成装置の文字列頻度計算部が実行する、任意の固有表現クラスと対応させて出力された全ての固有表現から生成した前記文字列リスト中の全ての文字列を、当該固有表現クラスに属すると判定し、文字列ごとに、任意の固有表現クラスに属すると判定された頻度を計算し、出力する文字列頻度計算ステップと、
前記文字列−固有表現クラス対データベース作成装置のクラススコア計算部が実行する、前記文字列頻度計算ステップにて出力された頻度を用いて、文字列ごとに、固有表現クラスごとにクラススコアを計算するクラススコア計算ステップと、を有すること
を特徴とする文字列−固有表現クラス対データベース作成方法。
請求項５に記載の固有表現抽出方法であって、
前記文字列−固有表現クラス対データベースが、請求項６記載の文字列−固有表現クラス対データベース作成方法によって作成されること
を特徴とする固有表現抽出方法。
請求項６記載の文字列−固有表現クラス対データベース作成方法によって前記文字列−固有表現クラス対データベースを作成し、請求項５に記載の固有表現抽出方法によって、入力されたテキストの固有表現のラベルを判定すること
を特徴とする固有表現抽出方法。
コンピュータを請求項１、３、４の何れかに記載の固有表現抽出装置として機能させるためのプログラム。
コンピュータを請求項２に記載の文字列−固有表現クラス対データベース作成装置として機能させるためのプログラム。