JP2005031785A - 固有表現抽出の難易度評価装置及びそのプログラム - Google Patents
固有表現抽出の難易度評価装置及びそのプログラム Download PDFInfo
- Publication number
- JP2005031785A JP2005031785A JP2003193473A JP2003193473A JP2005031785A JP 2005031785 A JP2005031785 A JP 2005031785A JP 2003193473 A JP2003193473 A JP 2003193473A JP 2003193473 A JP2003193473 A JP 2003193473A JP 2005031785 A JP2005031785 A JP 2005031785A
- Authority
- JP
- Japan
- Prior art keywords
- expression
- specific expression
- counting
- character string
- counting means
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文字列コーパス中に存在し所定の固有表現クラスに属する固有表現の総数、固有表現に現れる文字列の総数または固有表現に現れる文字の総数を計数する第一の計数手段101と、前記固有表現、前記文字列または前記文字の異なり数を計数する第二の計数手段102と、前記第一の計数手段101が計数した総数と前記第二の計数手段102が計数した異なり数との比を算出してこれを出力する指標出力手段103とを具備する装置を構成した。
【選択図】図1
Description
【発明の属する技術分野】
本発明は、自然言語処理における、情報抽出のサブタスクである固有表現抽出の難易度を評価するための手段に関する。
【0002】
【従来の技術】
情報抽出とは、与えられた文章の集合から特定の出来事に関する情報を抜出し、予め定められた形式に変換してデータベース等に格納することである。米国のワークショップMessage Understanding Conference(MUC)では、情報抽出のタスクの定義や評価が行われてきた。固有表現(Named Entity)とは、情報抽出の要素となる表現のことである。固有表現抽出(Named Entity Task)は、MUC−6(下記非特許文献1を参照)において初めて定義され、組織名(Organization)、人名(Person)、地名(Location)、日付表現(Date)、時間表現(Time)、金額表現(Money)、割合表現(Percent)という7種のクラスに属する表現が抽出すべき対象とされた。これらのうち、日付表現及び時間表現がTemporal expressions(TIMEX)、金額表現及び割合表現がnumber expressions(NUMEX)、残る3種がentity names(ENAMEX)に分類される。さらに、製品名や法律名等を含む固有物名(Artifact)というクラスを、抽出対象として加えることもできる。因みに、組織名、人名、地名及び固有物名のクラス群を「ENAMEXグループ」と称呼し、日付表現、時間表現、金額表現及び割合表現のクラス群を「TIMEX−NUMEXグループ」と称呼することがある。
【0003】
コーパスに含まれている固有表現を機械的に抽出する固有表現抽出システムの性能自体は、再現率(Recall)や適合率(Precision)、そしてこれらの調和平均であるF−measureといった客観的指標により評価される。ところが、単一システムの出力に対する評価のみでは、あるコーパスに対する固有表現抽出処理がどのように難しいのか、また、当該コーパスについて固有表現抽出処理を行う際にどのような情報が有効となるのかを知ることが困難である。例えば、あるコーパスについて所定のシステムが固有表現抽出を行い、その抽出の結果の妥当性をある方法で評価したとする。抽出結果に対する評価が高かった場合に、このシステムが良いシステムであるからなのか、あるいはコーパスが易しいからなのかを判断することはできない。
【0004】
異なる分野における情報抽出タスクの難易度を比較することは、複数分野に適用可能な情報抽出システムを作成するためにも有用であり、これまでにも複数のコーパスに対して情報抽出タスクの難易度を推定する研究が行われてきている。Bagga et al.は、MUCで用いられたテキストコーパスから意味ネットワークを作成し、これを用いてMUCに参加した情報抽出システムの性能を評価している(下記非特許文献2を参照)。固有表現抽出タスクに関しては、Palmer et al.が、6カ国語のテキストコーパスから各言語における固有表現抽出の性能の下限の推定を行っている(下記非特許文献3を参照)。
【0005】
【非特許文献1】DARPA (1995). Proceedings of the Sixth Message Understanding Conference (MUC−6), Columbia, MD, USA. Morgan Kaufmann.
【非特許文献2】Bagga, A. and Biremann, A. W. (1997). ”Analyzing the Complexity of a Domain With Respect to An Information Extraction Task.” In The Tenth International Conference on Research on Computational Linguistics (ROCLING X), pp. 175−184.
【非特許文献3】Palmer, D. D. and Day, D. S. (1997). ”A Statistical Profile of the Named Entity Task.” In Proceedings of the Fifth Conference on Applied Natural Language Processing (ANLP’97), pp. 190−193.
【0006】
【発明が解決しようとする課題】
複数のシステムに同じコーパスについて固有表現抽出を実行させ、それらの出力結果を同一の方法で評価すれば、システムの性能評価のための一般的な基準を作成することが可能である。しかしながら、相異なる種々のコーパスについて複数の固有表現抽出システムの評価を蓄積してゆくことには多大なコストがかかる。また、評価コンテストを継続的に実施するにしても、これに参加するシステムが継続的に不変であるとは限らない。相異なるコーパスについて、個々の固有表現抽出システムの出力に依存しない、固有表現抽出の難易度を測る指標が存在するならば、コーパス間の評価や固有表現抽出システム間の評価がより容易になると考えられる。
【0007】
以上に鑑みてなされた本発明は、コーパスより固有表現を抽出する固有表現抽出の難易度の指標を定義し、固有表現抽出の難易度を推定して定量的に表現しようとするものである。
【0008】
【課題を解決するための手段】
本発明が提供する固有表現抽出の難易度の指標は、コーパス内に表れる固有表現またはその周囲の表現を基に推定されるものである。指標の定義は、「表現の多様性が抽出を難しくする」という考えに基づく。文章中の固有表現を正しく認識するために必要な知識の量に着目すると、あるクラスに属する固有表現の種類が多ければ多いほど、また、固有表現の前後の表現の多様性が大きいほど、固有表現を認識するために要求される知識の量は増大すると考えられる。
【0009】
本発明では、文字列コーパスより固有表現を抽出する固有表現抽出の難易度を評価するための装置として、まず、図1に示すように、文字列コーパス中に存在し所定の一若しくは複数の固有表現クラスに属する固有表現の総数、固有表現に現れる文字列の総数または固有表現に現れる文字の総数Ntを計数する第一の計数手段101と、前記固有表現、前記文字列または前記文字の異なり数Dtを計数する第二の計数手段102と、前記第一の計数手段101が計数した総数Ntと前記第二の計数手段102が計数した異なり数Dtとの比Dt/Ntを算出してこれを前記文字列コーパスより前記固有表現クラスに属する固有表現を抽出する処理の難易度を示す指標として出力する指標出力手段103とを具備するものを構成した。
【0010】
このものは、ある固有表現クラスに含まれる固有表現/文字列/文字の頻度Ntと異なり数Dtとを用いて、固有表現抽出の難易度を示す指標値Dt/Ntを決定する。当該指標Dt/Ntは、ある固有表現クラスに内において異なる文字列が数多く表れるほどそのクラスの固有表現を認識することが困難になる、という仮定に基づいている。頻度Ntや異なり数Dtを計数する単位には、固有表現そのもの、文字列または文字をとることができる。なお、文字列には、単語、n−gram(複数文字が隣接して生じる文字の共起関係)等が含まれる。
【0011】
また、文字列コーパスより固有表現を抽出する固有表現抽出の難易度を評価するための装置として、図2に示すように、前記文字列コーパス中に存在し所定の一若しくは複数の固有表現クラスLに属する固有表現の総数、固有表現に現れる文字列の総数または固有表現に現れる文字の総数NT Lを計数する第一の計数手段111と、ある固有表現、ある文字列またはある文字tが前記固有表現に現れる出現頻度nL(t)を計数する第二の計数手段112と、前記ある固有表現、前記ある文字列または前記ある文字tの前記文字列コーパス全体での出現頻度n(t)を計数する第三の計数手段113と、前記第一の計数手段111が計数した総数NT L、前記第二の計数手段112が計数した出現頻度nL(t)及び前記第三の計数手段113が計数した出現頻度n(t)より、前記ある固有表現、前記ある文字列または前記ある文字tについて式(数1)に示すCItの値を算出する偏り算出手段114と、前記偏り算出手段114が算出した複数の固有表現、文字列または文字ついてのCItの値を合算してこれを前記文字列コーパスより前記固有表現クラスLに属する固有表現を抽出する処理の難易度を示す指標として出力する指標出力手段115とを具備するものを構成した。
【0012】
このものは、固有表現内の個々の表現について、その表現のクラス内における頻度とコーパス全体における頻度との関係を基に、固有表現抽出の難易度を示す指標値を決定する。当該指標は、あるクラスに相対的に関連の強い文字列が多いほどそのクラスの固有表現を抽出することがより易しくなる、という仮定に基づいている。なお、複数の固有表現、文字列または文字についてのCItの値を合算して指標の値を算出するに際し、前記指標出力手段115が、予め定められた閾値を上回るCItのみを選出して合算するものとすることが好ましい。
【0013】
さらに、文字列コーパスより固有表現を抽出する固有表現抽出の難易度を評価するための装置として、図3に示すように、前記文字列コーパス中に存在し所定の一若しくは複数の固有表現クラスLに属する固有表現の直前、直後または周囲の所定範囲内に現れる固有表現、文字列または文字の総数NT Lを計数する第一の計数手段121と、ある固有表現、ある文字列またはある文字tが前記所定範囲内に現れる出現頻度nL(t)を計数する第二の計数手段122と、前記ある固有表現、前記ある文字列または前記ある文字tの前記文字列コーパス全体での出現頻度n(t)を計数する第三の計数手段123と、前記第一の計数手段121が計数した総数NT L、前記第二の計数手段122が計数した出現頻度nL(t)及び前記第三の計数手段123が計数した出現頻度n(t)より、前記ある固有表現、前記ある文字列または前記ある文字について式(数2)に示すCWItの値を算出する偏り算出手段124と、前記偏り算出手段124が算出した複数の固有表現、文字列または文字についてのCItの値を合算して、これを前記文字列コーパスより前記一若しくは複数の固有表現クラスLに属する固有表現を抽出する処理の難易度を示す指標として出力する指標出力手段125とを具備するものを構成した。
【0014】
ある固有表現クラスL内の固有表現が多様であったとしても、その周囲に存在する表現が定まっているならば、当該クラスLに属する固有表現の抽出の難易度は低下すると考えられる。このものは、固有表現の周囲の表現に着目して、固有表現の難易度を示す指標値を決定する。ここで、右辺の係数Kは、(固有表現クラスLに属する固有表現の直前、直後または周囲の)所定範囲の長さに反比例する値である。典型例を挙げると、所定のクラスLに属する固有表現の直前、直後または周囲のm語(mは自然数)に現れる単語等に着目してCWItを算出するものとした場合、K=1/mである。即ち、Kは、前記所定範囲の変動に応じて出現頻度を補正するためのものである。但し、Kは必須の要素ではない。よって、mが不変であるような場合等には例えばKを定数(特に、K=1)としても構わない。なお、複数の固有表現、文字列または文字についてのCWItの値を合算して指標の値を算出するに際し、前記指標出力手段125が、予め定められた閾値を上回るCWItのみを選出して合算するものとすることが好ましい。
【0015】
【発明の実施の形態】
<第1実施形態>以下、本発明の実施の形態を、図面を参照して説明する。本実施形態における固有表現抽出の難易度評価装置は、コンピュータ1に所定のプログラムをインストールすることで構成されるものである。このコンピュータ1は、例えば、図4に示すように、プロセッサ1a、メインメモリ1b、ハードディスクドライブに代表される補助記憶デバイス1c等のハードウェア資源が、コントローラ1d(即ち、いわゆるシステムコントローラ、I/Oコントローラ等)により制御され連携して動作するものである。また、図示しないが、外部とのデータ授受を行うための通信デバイス、ユーザによる操作入力を受け付けるキーボードやポインティングデバイス等の入力デバイス、情報を画像ないし映像として表示するディスプレイ及びこのディスプレイに映像信号を送出するため表示制御デバイス(いわゆるグラフィクスチップ)等を具備するものとすることを妨げない。
【0016】
通常、プロセッサ1aによって実行されるべきプログラムが補助記憶デバイス1cに格納されており、プログラムの実行の際には補助記憶デバイス1cからメインメモリ1bに読み込まれ、プロセッサ1aによって解読される。そして、該プログラムに従い上記のハードウェア資源を作動して、少なくとも、図5に示す第一の計数手段101、第二の計数手段102、指標出力手段103としての機能を発揮するようにしている。
【0017】
第一の計数手段101は、与えられた文字列コーパス中に存在している、所定の一若しくは複数の固有表現クラスに属する固有表現の総数を計数する。与えられるコーパスは、通常、メインメモリ1bまたは補助記憶デバイス1cの所要の記憶領域に予め格納されている。よって、プロセッサ1aが、プログラムに基づき、メインメモリ1bまたは補助記憶デバイス1cに格納されているコーパスをその先頭より順次読み込みつつ、固有表現の出現回数をカウントする。なお、第一の計数手段101による出現回数のカウントの対象は、固有表現には限られない。従って、所定の固有表現クラスに属する固有表現中に現れる文字列の出現回数をカウントしてもよく、あるいは、固有表現中に現れる文字の出現回数をカウントしてもよい。
【0018】
他方、第二の計数手段102は、与えられた文字列コーパス中に存在している、所定の一若しくは複数の固有表現クラスに属する固有表現の異なり数を計数する。即ち、プロセッサ1aが、プログラムに基づき、メインメモリ1bまたは補助記憶デバイス1cに格納されているコーパスをその先頭より順次読み込みつつ、固有表現の異なり数をカウントする。なお、前記第一の計数手段101が固有表現の出現回数でなく文字列または文字の出現回数をカウントする場合には、対応して第二の計数手段102も文字列または文字の異なり数をカウントするものとする。
【0019】
しかして、指標出力手段103は、前記第一の計数手段101が計数した総数と前記第二の計数手段102が計数した異なり数との比を算出し、これを固有表現抽出の難易度の指標値として出力する。指標値の出力の態様としては、ディスプレイの画面への表示、プリンタ(図示せず)を利用したプリントアウト、通信デバイスや電気通信回線を介した外部のコンピュータへの送信、メインメモリ1bまたは補助記憶デバイス1cとりわけハードディスクやフレキシブルディスク等への書き込み、その他を挙げることができる。指標出力手段103の具体的構成は、指標値の出力の態様に応じたものとなる。
【0020】
ここで、与えられる文字列コーパスについて補足する。本発明は、コーパスより固有表現を抽出する固有表現抽出タスクの難易度を定量評価することを目的とするものである。固有表現抽出の難易度の指標値を算出するには、与えられるコーパスのどの位置にどのクラスに属する固有表現が現れるか、さらに必要な場合にはコーパスにおける各単語の区切り等について知得しなくてはならない。しかしながら、難易度評価の客観性を担保するためには、特定の形態素解析アルゴリズムや固有表現抽出アルゴリズムに依存しない方法で固有表現の位置等を知得できることが好ましい。ここでは、与えられるコーパスが予め信頼性の高い解析システム(時には、人の手による解析をも包含する)により解析処理されたテストコーパスであると仮定する。テストコーパスを以下に例示する。
<TEXT>
<ORGANIZATION>吉本工業</ORGANIZATON>の<PERSON>山田</PERSON>氏は、<LOCATION>東京都</LOCATION>から立候補の予定。
</TEXT>
上記例のテストコーパスデータでは、コーパス中に現れる固有表現の位置、範囲及びその属するクラスがタグの形で明示されている。即ち、一対のタグで挟まれた文字列が固有表現であり、それらタグに記述された要素名が当該固有表現の属するクラスを示している。この場合の第一の計数手段101、第二の計数手段102は、テストコーパス中に記述されているタグを参照することで、固有表現の位置、範囲及びその固有表現クラスを判断し、出現回数、異なり数のカウントを行うことができる。加えて、上記例はそうなってはいないが、コーパス中の各単語の区切りを示す符号が挿入されていることも好ましい。
【0021】
但し、当該難易度評価装置に、与えられるコーパスを形態素解析する形態素解析手段104としての機能や、コーパス中の固有表現を抽出する固有表現抽出手段105としての機能をも付与することを妨げない。形態素解析手段104、固有表現抽出手段105は、例えば既知の形態素解析プログラム、固有表現抽出プログラムを用いて構成できる。この場合には、まず、与えられる文字列コーパスを形態素解析手段104が形態素解析する。形態素解析の結果、コーパスにおける各単語の区切りも明らかになる。しかる後、その結果を利用して、固有表現抽出手段105がコーパス中の固有表現の列挙及び固有表現のクラス分けを行う。形態素解析、固有表現抽出の一例を、図6に示す。この例では、与えられた文字列コーパスを形態素解析して得られる形態素解析済みコーパスを固有表現抽出手段105が取得し、これを固有表現リスト(固有表現及びその属する固有表現クラスが列挙されたデータ群。通常、メインメモリ1bまたは補助記憶デバイス1cの所要の記憶領域に格納されている)に照らし合わせることで、コーパス中の固有表現を全て抽出する。しかる後、複数の固有表現が入れ子関係となっているもの(例えば、組織名クラスに属する固有表現「吉本工業」の中に、さらに人名クラスに属する固有表現「吉本」が存在)が存在しているときにはより文字列の長い固有表現を優先的に認定(即ち、「吉本」ではなく「吉本工業」という固有表現と認定)して固有表現を一意に決定し、その結果を出力する。第一の計数手段101及び第二の計数手段102は、これら形態素解析手段104、固有表現抽出手段105による出力を参照して、出現回数及び異なり数を計数する。
【0022】
以降、本実施形態における難易度評価装置が出力する指標値の有効性の検証を行う。現在、あらゆるコーパスについてその固有表現抽出の真の難易度を統一的に評価し得るような指標は現存していない。よって、本発明が提供する難易度の指標がどれほど真の難易度に近いのかを評価することは厳密には不可能である。しかしながら、複数の固有表現抽出システムが同じコーパスについて固有表現抽出を行った結果に対する評価を真の難易度の近似と見なし、これと本発明が提供する指標とを比較することにより、有効性の検証を行うことができる。
【0023】
より具体的には、1999年に開かれたIREXワークショップで行われた固有表現抽出課題(日本語新聞記事に対する固有表現抽出タスクを課し、参加システムの性能を評価)のテストコーパスについて、固有表現抽出の難易度の指標値を求め、これとIREXワークショップに参加した全システムの出力結果の評価の平均との相関を調査する。このような指標の評価を行うためには、でき得る限り性質の異なる数多くのシステムによる結果を得る必要がある。IREXワークショップでは15システムが参加しており、システムの種類も明示的なパターンを用いたものやパターンを用いずに機械学習を行ったもの、パターンと機械学習とをともに用いたもの等が存在している。かつ、機械学習の手法にも最大エントロピーやHMM、決定木、判別分析等のバラエティがある。これらのシステムに対する評価結果を難易度指標の検証のために用いることには一定の妥当性があると考えられる。
【0024】
IREXワークショップの固有表現抽出課題では、予備試験も含めて3種類のテストコーパスが用いられた。表1に、予備試験、本試験総合課題、本試験限定課題の各々において使用されたテストコーパスの記事数、単語数、文字数を示す。因みに、本試験の総合課題では新聞記事全般が対象とされ、限定課題では逮捕に関する記事のみが対象とされている。テストコーパスの単語の切り分けには日本語形態素解析システムJUMAN3.3を使用し、単語の切り分けが固有表現の開始/終了位置と異なる場合にはその位置でさらに単語を分割した。
【0025】
【表1】
【0026】
IREXワークショップに参加した固有表現抽出システムの性能評価はF−measureで示されている。表2に、各課題におけるF−measureの値を示す。表2において、本試験の評価値はIREXワークショップに参加した全15システムの平均値であるが、予備試験では全システムを利用できなかったためそのうちの一つの出力結果を評価した値としている。表2より、TIMEX−NUMEXグループ(日付表現、時間表現、金額表現、割合表現)に属する固有表現の抽出よりもENAMEXグループ(組織名、人名、地名、固有物名)に属する固有表現の抽出の方がより難しかったということが言える。
【0027】
【表2】
【0028】
本実施形態における難易度評価装置は、固有表現クラスに含まれる文字列の頻度と異なり数とを用いて、固有表現抽出の難易度を示す指標を決定する。このような指標は、ある固有表現クラスに内において異なる文字列が数多く表れるならばそのクラスの固有表現を認識することが困難になる、という仮定に基づいている。頻度や異なり数を考慮する文字列の単位には、固有表現そのもの、単語または文字をとることができる。
【0029】
まず、固有表現そのものを単位として分析を行う。このとき、第一の計数手段101、第二の計数手段102がそれぞれ、固有表現の出現回数、異なり数を計数し、指標出力手段103が、固有表現を単位とした指標を算出して出力する。表3に、上記のテストコーパスの中で出現する固有表現の各クラス毎の異なり数を示す。予備試験と本試験の総合課題では、全表現の異なり数が各クラスの異なり数の合計よりも少ない。これは、複数のクラスに分類される固有表現がそれぞれ3つずつ存在していたからである。また、限定課題には割合表現が現れなかったため、数値が示されていない。
【0030】
【表3】
【0031】
異なり数を指標として用いるには、コーパスサイズの影響を除く必要がある。最初に定義する指標は、各クラスについて固有表現の異なり数を出現頻度で正規化したものである。以下これをFE(Frequency of Entities)と称呼する。FEの定義を下式に示す。
FE=DE/NE
但し、DEは各固有表現クラスに含まれる固有表現の異なり数、NEは各固有表現クラス内の固有表現の総出現数である。DEは第二の計数手段102により計数され、NEは第一の計数手段101により計数される。そして、FEは指標出力手段103により計算される。FEは、あるクラス内の固有表現を抽出することが難しいときにその値が大きくなることを意識して定義されている。
【0032】
FEの値を求めるに際し、文字列コーパス中に現れる数字を全て所定の文字、例えば“#”に置換した。これは、各々の数字を相異なる表現と見なすよりも同じ表現と見なす方が、固有表現の多様性を捉えるためにはより適切であるという判断による。この置換処理は、図5に示している置換手段106が担う。即ち、プロセッサ1aが、プログラムに基づき、与えられたコーパス中に現れる数字を所定の文字に置換する処理を、第一の計数手段101、第二の計数手段102による計数に先んじて実行する。但し、置換手段106は必須の構成要素ではない。
【0033】
FEの算定値を、表4に示す。各固有表現クラス毎の指標FEは、それぞれのクラスに属する固有表現を当該コーパスより抽出する固有表現抽出タスクの難易度を表現する。文字列コーパス中に表れる数字をおしなべて同一の文字と見なすことにより、TIMEX−NUMEXグループに含まれる固有表現クラスのFEの値は小さくなるが、これはTIMEX−NUMEXグループに属する固有表現の認識精度が非常に高いというシステム評価結果に合致する。
【0034】
【表4】
【0035】
既に述べているように、固有表現そのものを指標計算の単位とするのでなく、単語単位または文字単位で同様の指標を定義することも可能である。固有表現よりも短く頻度の大きい単語や文字を単位とすることで、よりコーパスサイズの影響を受けにくい指標が得られると期待される。以下、単語単位の指標をFW、文字単位の指標をFCと称呼する。FW、FCの定義はFEと同様であり、それぞれ、
FW=DW/NW
FC=DC/NC
と表すことができる。但し、DWは各固有表現クラスに含まれる単語の異なり数、NWは各固有表現クラスに含まれる単語の総出現数、DCは各固有表現クラスに含まれる文字の異なり数、NCは各固有表現クラスに含まれる文字の総出現数である。DWまたはDCは第二の計数手段102により計数され、NWまたはNCは第一の計数手段101により計数される。そして、FEまたはFCが、指標出力手段103により計算される。
【0036】
FW、FCの値を求めるに際しても、文章中に現れる数字を全て所定の文字に置換しておくことが望ましい。この置換処理は、置換手段106が司る。FWとFCとの値の傾向は似通っているので、ここではFCの値のみを表5に示すこととする。FCではクラス間の差がFEよりも際だっており、特にTIMEX−NUMEXグループに含まれるクラスに対するFCの値は極めて小さい。
【0037】
【表5】
【0038】
指標FE、FW、FCの有効性を確認するために、各指標がシステムの評価結果とどの程度相関しているかを調査する。各固有表現クラスに対するFE、FW、FCの指標の値とF−measureとの相関係数を求めた結果を、表6に示す。指標FE、FW、FCは、固有表現の抽出が難しいときに値が大きくなる。表6より、FW、FCは予備試験のコーパスにおいてはFEよりも相関が弱いが、本試験のコーパスにおいては総合課題、限定課題の何れもFEより相関が強いことが分かる。上述したように予備試験に対するシステムの評価結果は単一のシステムによるものであることを考慮すると、本試験の二つの課題に対して相関が強い方が指標としてより信頼できる。本試験のコーパスに対する結果から、固有表現よりも単語の方が、単語よりも文字の方が、難易度の指標値を求める単位として安定していると言える。
【0039】
【表6】
【0040】
本実施形態によれば、文字列コーパス中に存在し所定の固有表現クラスに属する固有表現の総数NEを計数する第一の計数手段101と、前記固有表現の異なり数DEを計数する第二の計数手段102と、前記第一の計数手段101が計数した総数NEと前記第二の計数手段102が計数した異なり数DEとの比FEを算出してこれを出力する指標出力手段103とを具備する固有表現抽出の難易度評価装置を構成したため、所定の固有表現クラスに属する固有表現を文字列コーパスより抽出するタスクの難易度を定量評価することが可能となる。
【0041】
文字列コーパス中に存在し所定の固有表現クラスに属する固有表現に現れる文字列、特に単語の総数NWを計数する第一の計数手段101と、前記文字列の異なり数DWを計数する第二の計数手段102と、前記第一の計数手段101が計数した総数NWと前記第二の計数手段102が計数した異なり数DWとの比FWを算出してこれを出力する指標出力手段103とを具備する固有表現抽出の難易度評価装置を構成したため、所定の固有表現クラスに属する固有表現を文字列コーパスより抽出するタスクの難易度を定量評価することが可能となる。
【0042】
同様に、文字列コーパス中に存在し所定の固有表現クラスに属する固有表現に現れる文字NCの総数を計数する第一の計数手段101と、前記文字の異なり数DCを計数する第二の計数手段102と、前記第一の計数手段101が計数した総数NCと前記第二の計数手段102が計数した異なり数DCとの比FCを算出してこれを出力する指標出力手段103とを具備する固有表現抽出の難易度評価装置を構成したため、所定の固有表現クラスに属する固有表現を文字列コーパスより抽出するタスクの難易度を定量評価することが可能となる。
【0043】
総じて言えば、固有表現抽出タスクの難易度を定量評価するための指標FE、FW、FCを提供できる。これらの指標は、複数の固有表現抽出システムの出力に対する評価値F−measureに対して高い相関を有している。このことは、指標FE、FW、FCが、固有表現の難易度を評価するために好適なものであるということを示している。また、FEよりもFWの方が、FWよりもFCの方が、より真の難易度に迫るものであると言うことができる。
【0044】
但し、指標FWでは単語を単位としていたが、例えばn−gramのような、必ずしも単語ではない文字列を単位として指標値を算出することも考えられる。この場合には、第一の計数手段101が所定の固有表現クラスに属する固有表現中に現れるn−gram等の出現回数の総数を計数し、第二の計数手段102がその異なり数を計数する。そして、指標出力手段103が、第一の計数手段101で計数した出現回数と第二の計数手段102で計数した異なり数との比を算出して出力する。
【0045】
<第2実施形態>第1実施形態における難易度評価装置が出力する指標は、クラス内の頻度のみを用いたものであり、個々の固有表現内の文字列については考慮していなかった。本実施形態では、ある文字列と固有表現クラスとの関連の強さを、その文字列のクラス内での頻度とコーパス全体での頻度との双方を用いて定義する。つまり、ある文字列の頻度が高く、かつそのほとんどが特定の固有表現クラス内に限られるならば、その文字列とその固有表現クラスとの関連が強くなる。そして、このような文字列が多いほど、当該クラスに属する固有表現の抽出は易しくなると考えることができる。
【0046】
本実施形態における固有表現抽出の難易度評価装置もまた、上記のコンピュータ1に所定のプログラムをインストールすることで構成されるものである。通常、プロセッサ1aによって実行されるべきプログラムが補助記憶デバイス1cに格納されており、プログラムの実行の際には補助記憶デバイス1cからメインメモリ1bに読み込まれ、プロセッサ1aによって解読される。そして、該プログラムに従い上記のハードウェア資源を作動して、少なくとも、図7に示す第一の計数手段111、第二の計数手段112、第三の計数手段113、偏り算出手段114、指標出力手段115としての機能を発揮するようにしている。
【0047】
第一の計数手段111は、与えられた文字列コーパス中に存在している、所定の一若しくは複数の固有表現クラスLに属する固有表現に現れる文字の総数NC Lを計数する。与えられるコーパスは、通常、メインメモリ1bまたは補助記憶デバイス1cの所要の記憶領域に予め格納されている。よって、プロセッサ1aが、プログラムに基づき、メインメモリ1bまたは補助記憶デバイス1cに格納されているコーパスをその先頭より順次読み込みつつ、クラスLに属する固有表現に含まれている文字cの総出現数をカウントする。なお、第一の計数手段111による出現回数のカウントの対象は、固有表現中の文字には限られない。従って、クラスLに属する固有表現中に現れるある文字列(単語、n−gram、等)の総出現数をカウントしてもよく、あるいは、クラスLに属するある固有表現そのものの総出現数をカウントしてもよい。
【0048】
第二の計数手段112は、ある文字cが、所定の一若しくは複数の固有表現クラスLに属する固有表現の中に現れる出現頻度nL(c)を計数する。即ち、プロセッサ1aが、プログラムに基づき、メインメモリ1bまたは補助記憶デバイス1cに格納されているコーパスをその先頭より順次読み込みつつ、クラスLに属する固有表現における文字cの出現頻度を調査する。なお、前記第一の計数手段111がある文字の総出現数でなくある文字列またはある固有表現の総出現数をカウントする場合には、対応して第二の計数手段112もある文字列またはある固有表現の出現頻度を計数するものとする。
【0049】
第三の計数手段113は、ある文字cが、与えられた文字列コーパス全体の中に現れる出現頻度n(c)を計数する。即ち、プロセッサ1aが、プログラムに基づき、メインメモリ1bまたは補助記憶デバイス1cに格納されているコーパスをその先頭より順次読み込みつつ、文字cの出現頻度を調査する。前記第一の計数手段111がある文字の総出現数でなくある文字列またはある固有表現の総出現数をカウントする場合には、対応して第三の計数手段113もある文字列またはある固有表現のコーパス全体での出現頻度を計数するものとする。
【0050】
偏り算出手段114は、前記第一の計数手段111が計数した総数NC L、前記第二の計数手段112が計数した出現頻度nL(c)及び前記第三の計数手段113が計数した出現頻度n(c)より、下式(数3)に示すある文字cについてのCIcの値を算出する。第一の計数手段111、第二の計数手段112及び第三の計数手段113が文字単位ではなく、文字列単位または固有表現単位の計数を行う場合には、偏り算出手段114が算出する値もある文字列またはある固有表現についての値CIt(式(数1)に示す。CItは文字/文字列/固有表現の単位によらない一般表現)となる。
【0051】
【数3】
【0052】
しかして、指標出力手段115は、前記偏り算出手段114が算出した複数の文字についてのCIcの値を合算し、これを固有表現抽出の難易度の指標値として出力する。指標値の出力の態様としては、ディスプレイの画面への表示、プリンタ(図示せず)を利用したプリントアウト、メインメモリ1bまたは補助記憶デバイス1cとりわけハードディスクやフレキシブルディスク等への書き込み、その他を挙げることができる。指標出力手段115の具体的構成は、指標値の出力の態様に応じたものとなる。なお、上述したように、偏り算出手段114がある文字列またはある固有表現についての値CItを算出している場合、指標出力手段115も複数の文字列または複数の固有表現についての値CItを合算して出力するものとなる。
【0053】
与えられる文字列コーパスについては、上記第1実施形態と同じである。即ち、予め信頼性の高い解析システムにより解析処理されたテストコーパスである。テストコーパスデータでは、コーパス中に現れる固有表現の位置、範囲及びその属するクラスがタグの形で明示されている。この場合の第一の計数手段111、第二の計数手段112及び第三の計数手段113は、テストコーパス中に記述されているタグを参照することで、固有表現の位置、範囲及びその固有表現クラスを判断し、総出現数及び出現頻度の計数を行うことができる。加えて、テストコーパス中に、各単語の区切りを示す符号が挿入されているならばより好ましい。
【0054】
但し、当該難易度評価装置に、与えられるコーパスを形態素解析する形態素解析手段104としての機能や、コーパス中の固有表現を抽出する固有表現抽出手段105としての機能をも付与することを妨げない。形態素解析手段104、固有表現抽出手段105は、上記第1実施形態におけるものと同様に、例えば既知の形態素解析プログラム、固有表現抽出プログラムを用いて構成できる。この場合の第一の計数手段111、第二の計数手段112及び第三の計数手段113は、これら形態素解析手段104、固有表現抽出手段105による出力を参照して、総出現数及び出現頻度を計数するものとなる。
【0055】
なお、CIt(あるいは、CIc)の値を求めるに際し、文字列コーパス中に現れる数字を全て所定の文字、例えば“#”に置換することが好ましい。この置換処理は、図7に示している置換手段106が担う。即ち、プロセッサ1aが、プログラムに基づき、与えられたコーパス中に現れる数字を所定の文字に置換する処理を、第一の計数手段111、第二の計数手段112及び第三の計数手段113による計数に先んじて実行する。但し、置換手段106は必須の構成要素ではない。
【0056】
以降、文字を単位として定義した指標に主眼を置いて述べる。文字を単位とするのは、第1実施形態において述べたFE、FW、FCの指標の中でシステムの評価との相関が最も強かったのが文字を単位とした指標FCであったためである。
【0057】
各々の文字cの固有表現クラスLに対する指標CIcの値は、式(数1)によって与えられる。式(数1)において、nL(c)は文字cのクラスLにおける頻度、n(c)はコーパス全体での頻度を表す。NC LはクラスL内の総文字数である。つまり、nL(c)/NC LはクラスLでの文字cの相対頻度を示し、nL(c)/n(c)は文字cがクラスLにどれだけ偏って現れるかを示している。このことから、CIcは文字cのクラスLにおける偏りを相対頻度で正規化したものとなる。
【0058】
そして、下式(数4)に示すように、各固有表現クラスLに現れる全ての文字のCIcの値を合計したものを、新たな指標として用いることとする。この指標を、CI(Character Index)と称呼する。
【0059】
【数4】
【0060】
この指標CIは、固有表現の抽出が易しいときに値が大きくなることを意図して定義されたものである。
【0061】
因みに、CIcは、クラスLの表現に文字cが現れる条件付き確率p(c|L)と、文字cが存在しているときにそれがクラスLの固有表現の一部である条件付き確率p(L|c)との積を推定する式となっている。よって、CIcは、文字cの出現確率p(c)、クラスL内文字が出現する確率p(L)、文字cとクラスLとの同時確率p(c,L)を用いて次式(数5)のように変形できる。
【0062】
【数5】
【0063】
これは、文字c、クラスLに対する相互情報量に基づく尺度MIcの式(数6)に類似する。
【0064】
【数6】
【0065】
MIcとCIcとを比較した場合の相違点は、logをとっていないこと、同時確率p(c,L)が2乗になっていることである。この相異により、文字cがクラスLにのみ出現する場合に、相互情報量に基づく尺度MIcの値はその文字cの頻度にかかわらず一定となるのに対し、CIcの値ではさらにその文字cがクラスLの全表現のうちどの程度の割合を占めるのかを指標として含むことができる。また、CIcの定義は、指標CIを求めるために必要な正規化となっている。クラスL内の全ての文字が当該クラスLにのみ現れるならば、CIは最大値1をとるが、一方でMIcではそのクラス内での文字の分布により最大値は一定でない。
【0066】
指標CIの有効性を確認するために、CIの値がシステムの評価結果とどの程度相関しているかを調査する。既に述べたように、指標CIは、固有表現の抽出が易しいときにその値が大きくなる。従って、システムの評価結果と正の相関が強ければ、指標として優れているということになる。表7に、CIとシステムの評価結果との相関係数を示す。
【0067】
【表7】
【0068】
CIとシステムの評価との相関は、先に提案したFE等の指標のそれと比べると低い。相関が低い理由の一つとしては、CIの値が、各固有表現クラスに含まれる全文字のCIcの値を合計したものであることが考えられる。CIcの値が低い文字はそのクラスに属する固有表現を抽出するために有用であるとは言えないので、そのような文字はCIを求めるに際し取り除くことが望ましい。その具体的手段の一つとして、CIcの値に対する閾値を設け、閾値以上のCIcのみを選出してこれを合算することによりCIを求めることが考えられる。このような手段により、CIを指標としてより優れたものとすることができる。即ち、指標出力手段115を、予め定められた閾値以上のCItを選出しその選出したCItのみを合算した値を出力するものとすることが望ましいと言える。
【0069】
図8は、CIcに対する閾値と相関係数との関係を示すグラフである。CIcに対する閾値を示す横軸は対数軸としている。グラフから、3種類のテストコーパス全てについて相関係数の値は一旦上昇し、その後低下していることが分かる。各々の相関係数の最大値と、それに対応する閾値は表8に示してある。これらの相関係数の値は、先に提示した指標FE等の相関係数と同程度になっている。
【0070】
【表8】
【0071】
もっとも、相関係数の最大値を与える最適な閾値はシステムの評価結果を用いて初めて明らかとなるため、新しいタスクのテストコーパスにおいては、事前に閾値を何らかの方法で決定する必要がある。新しいタスクにおいて閾値を決定する一つの方法は、本当に評価したいコーパスと同じ種類のデータを(予め閾値を決定するために)用意し、同じ固有表現クラスの定義を用いて複数の参加システムについて実験を行っておき、その結果より得られる閾値を本当に難易度評価したいコーパスについて用いることが考えられる。例えば、性質の似た2種類のコーパスを用いて予備試験と本試験とを行い、それぞれについて複数システムによる出力の評価結果を得ることができれば、予備試験の結果から閾値を得てそれを本試験に適用することができる。今回の実験においては、予備試験に対して単一のシステムの結果のみを用いているが、それでもその結果から得られる閾値を本試験のコーパスに対して用いるならば、表8の最下行に示しているように、相関係数が最大値に近い値となる。即ち、上記の方法で妥当な閾値を得ることができると言える。
【0072】
CIの値の振る舞いをより詳しく調べるために、固有表現クラスをENAMEXグループとTIMEX−NUMEXグループとの二つに分け、各々についてCIcの値が大きい順に文字を並べてCIcを表したのが表9、表10である。TIMEX−NUMEXグループにおいては、CIcの値が他に比べて際立って大きい文字が幾つか存在するのに対し、ENAMEXグループにはそのような文字は存在しない。このことは、ENAMEXグループの固有表現には多くの文字がほぼ同程度に関与しているが際立って強い関連を有するものはなく、固有表現を抽出するためにはほぼ全ての文字を考慮する必要があるということを示している。一方で、TIMEX−NUMEXグループの固有表現には少数の文字が非常に強く関与していることを示唆している。
【0073】
【表9】
【0074】
【表10】
【0075】
CIcの値に基づいて、固有表現抽出の際に有用と思われる文字を具体的に挙げる。表9は、TIMEX−NUMEXグループにおいてCIcの値が大きい文字を示すものである。対象課題は本試験の総合課題である。文字“#”は数字全体を示している。CIcの値が非常に大きい幾つかの文字、例えば金額表現クラスにおける“円”、割合表現クラスにおける“%”等の文字がTIMEX−NUMEXグループの固有表現と強く結びついていることは、直感的に見て妥当であると言える。なお、数字“#”のコーパス中における出現頻度自体は非常に大きいが、TIMEX−NUMEXグループに属する各クラスに同様に現れるため、日付表現以外ではCIcの値は小さい。
【0076】
表10は、ENAMEXグループにおいてCIcの値が大きい文字を示すものである。対象課題は本試験の総合課題である。これを見ると、人名クラス以外の3つのクラスでは、接尾語として用いられる文字においてCIcの値が比較的大きいことが分かる。このことをより明確に示すために、ENAMEXグループにおいてCIcを文字bi−gramについて(言い換えるならば、連続する2文字を単位として。但し、固有表現の範囲の境界を越えて連続する2文字を除く。この境界に接する文字、即ち固有表現の先頭に当たる文字には固有表現の開始を表す符号[BOE]をその前方に付して扱い、固有表現の末尾に当たる文字には固有表現の終了を表す符号[EOE]をその後方に付して扱う)求めた結果を表11に示す。文字bi−gramに対する結果からが、組織名クラスにおける「党」や「銀」、固有名クラスにおける「法」、地名クラスにおける「市」や「国」等、幾つかの接尾語に対して高いCIcの値が得られた。これらの接尾語が特定の固有表現クラスに属する表現と強く結びついていることは、直感的に見て妥当であると言える。この実験では、文字が固有表現中の先頭にあるか末尾にあるかというような位置の情報を用いなかったが、固有表現中における文字の位置に関する情報を取り入れることで、指標の値から固有表現抽出に必要な知識の一部をより効率よく得ることができるものと考えられる。上記のように、本実施形態における難易度評価装置が具備する偏り算出手段114が算出するCItの値は、固有表現抽出の際に有用と思われる文字等の情報を獲得するためにも役立てられる。
【0077】
【表11】
【0078】
本実施形態によれば、文字列コーパス中に存在し所定の固有表現クラスLに属する固有表現に現れる文字の総数NC Lを計数する第一の計数手段111と、ある文字cが前記固有表現に現れる出現頻度nL(c)を計数する第二の計数手段112と、前記ある文字cの前記文字列コーパス全体での出現頻度n(c)を計数する第三の計数手段113と、前記第一の計数手段111が計数した総数NC L、前記第二の計数手段112が計数した出現頻度nL(c)及び前記第三の計数手段113が計数した出現頻度n(c)より、前記ある文字cについて式(数3)に示すCIcの値を算出する偏り算出手段114と、前記偏り算出手段114が算出した複数の文字についてのCIcの値を合算して、これを前記文字列コーパスより前記固有表現クラスLに属する固有表現を抽出する処理の難易度を示す指標として出力する指標出力手段115とを具備する固有表現抽出の難易度評価装置を構成したため、所定の固有表現クラスに属する固有表現を文字列コーパスより抽出するタスクの難易度を定量評価することが可能となる。
【0079】
但し、指標CIcでは文字を単位としていたが、例えば単語、n−gramのような文字列や、固有表現そのものを単位として指標値CItを算出することも当然に可能である。
【0080】
<第3実施形態>第1実施形態、第2実施形態における難易度評価装置は、固有表現内の文字列に関してのみ分析していた。だが、固有表現内の文字列に関する分析のみでは、必ずしも固有表現抽出の難易度を調査するために十分であるとは言えない。ある固有表現クラス内の固有表現が多様であったとしても、その周囲に存在する表現が定まっているならば、当該クラスの固有表現抽出の難易度は低下すると考えられるからである。ここからは、固有表現の周囲の表現に着目した新たな指標を定義し、その有効性を(上述の指標のそれと同様にして)検証することとする。
【0081】
先に、所定の固有表現クラスに属する固有表現の周囲の単語についてその頻度と異なり数とを計数し、第1実施形態において述べた指標FE、FW、FCと同様の指標FCW(Frequency of context words)を定義することを考える。なお、ここでは、指標の値を求めるための文字列の単位を単語単位としている。指標FCWの定義を下式に示す。
FCW=DCWm/NCWm
但し、DCWmは各固有表現クラスに含まれる固有表現の周囲m語以内に現れる単語の異なり数、NCWmは各固有表現クラスに含まれる固有表現の周囲m語以内に現れる単語の総出現数である。DCWmは第二の計数手段102により計数され、NCWmは第一の計数手段101により計数される。そして、FCWは指標出力手段103により計算される。
【0082】
所定の固有表現クラスに属する固有表現の周囲の範囲を定める単語数mを1から4までの範囲で変えた場合の、言い換えるならば固有表現の直前または直後1単語から最大4単語まで変えて算出した指標FCWの値と、システムの出力の評価を示すF−measureとの相関を、表12に示す。表12では、固有表現の直前のm語の範囲に現れる単語に関する指標FCWprem、並びに、固有表現の直後のm語の範囲に現れる単語に関する指標FCWfolmのそれぞれについて、単語数mを1から4まで変えたときのF−measureとの相関を示している。
【0083】
【表12】
【0084】
FCWは固有表現クラスの周囲m語以内の単語を対象とする指標である。FCWは、FW等と同じく、あるクラス内の固有表現を抽出することが難しいときにその値が大きくなることを意識して定義されている。従って、システムの出力の評価と負の相関が強ければ、指標として優れていることとなる。しかしながら、表12に示しているように、相関係数が負の相関となっているとは言い難い。即ち、FCWは、固有表現抽出の難易度評価の指標として好適とは言えない。
【0085】
次に、所定の固有表現クラスに属する固有表現の周囲の単語を用いた新たな指標として、第2実施形態において述べた指標CIと同様の指標CWI(Context Word Index)を定義することを考える。本実施形態における固有表現抽出の難易度評価装置もまた、上記のコンピュータ1に所定のプログラムをインストールすることで構成されるものである。通常、プロセッサ1aによって実行されるべきプログラムが補助記憶デバイス1cに格納されており、プログラムの実行の際には補助記憶デバイス1cからメインメモリ1bに読み込まれ、プロセッサ1aによって解読される。そして、該プログラムに従い上記のハードウェア資源を作動して、少なくとも、図9に示す第一の計数手段121、第二の計数手段122、第三の計数手段123、偏り算出手段124、指標出力手段125としての機能を発揮するようにしている。
【0086】
第一の計数手段121は、与えられた文字列コーパス中に存在し所定の固有表現クラスLに属する固有表現の直前、直後または周囲の所定範囲内に現れる単語の総数NW Lを計数する。与えられるコーパスは、通常、メインメモリ1bまたは補助記憶デバイス1cの所要の記憶領域に予め格納されている。よって、プロセッサ1aが、プログラムに基づき、メインメモリ1bまたは補助記憶デバイス1cに格納されているコーパスをその先頭より順次読み込みつつ、クラスLに属する固有表現より所定の範囲内に存在している単語の総数をカウントする。所定の範囲とは、例えば、クラスLに属する固有表現の直前、直後または周囲のm語の範囲である。mは自然数で、固有表現の周囲の単語と見なされる語の範囲を表す。なお、第一の計数手段121によるカウントの対象は、単語には限られない。従って、クラスLに属する固有表現クラスLに属する固有表現の直前、直後または周囲の所定範囲内に現れる固有表現、単語以外の(n−gram等の)文字列または文字の総数をカウントしてもよい。
【0087】
第二の計数手段122は、所定のクラスLに属する固有表現の直前、直後または周囲の所定範囲内にある単語wが現れる出現頻度、特に前記固有表現の直前、直後または周囲のm語の範囲内に現れる出現頻度nL(w)を計数する。即ち、プロセッサ1aが、プログラムに基づき、メインメモリ1bまたは補助記憶デバイス1cに格納されているコーパスをその先頭より順次読み込みつつ、クラスLに属する固有表現より所定の範囲内に存在している単語wの出現頻度を調査する。なお、前記第一の計数手段121が単語の総出現数でなく固有表現、単語以外の文字列または文字の総出現数をカウントする場合には、対応して第二の計数手段122もある固有表現、ある文字列またはある文字の出現頻度を計数するものとする。
【0088】
第三の計数手段123は、ある単語wが、与えられた文字列コーパス全体の中に現れる出現頻度n(w)を計数する。即ち、プロセッサ1aが、プログラムに基づき、メインメモリ1bまたは補助記憶デバイス1cに格納されているコーパスをその先頭より順次読み込みつつ、文字wの出現頻度を調査する。前記第一の計数手段121が単語の総出現数でなく固有表現、単語以外の文字列または文字の総出現数をカウントする場合には、対応して第三の計数手段123もある固有表現、ある文字列またはある文字のコーパス全体での出現頻度を計数するものとする。
【0089】
偏り算出手段124は、前記第一の計数手段121が計数した総数NW L、前記第二の計数手段122が計数した出現頻度nL(w)及び前記第三の計数手段123が計数した出現頻度n(w)より、下式(数7)に示すある文字wについてのCWIwの値を算出する。第一の計数手段121、第二の計数手段122及び第三の計数手段123が単語単位ではなく、固有表現単位、単語以外の文字列単位または文字単位の計数を行う場合には、偏り算出手段124が算出する値もある固有表現、ある文字列またはある文字についての値CWIt(式(数2)に示す。CWItは文字/文字列/固有表現の単位によらない一般表現)となる。
【0090】
【数7】
【0091】
しかして、指標出力手段125は、前記偏り算出手段124が算出した複数の文字についてのCWIcの値を合算し、これを固有表現抽出の難易度の指標値として出力する。指標値の出力の態様としては、ディスプレイの画面への表示、プリンタ(図示せず)を利用したプリントアウト、メインメモリ1bまたは補助記憶デバイス1cとりわけハードディスクやフレキシブルディスク等への書き込み、その他を挙げることができる。指標出力手段125の具体的構成は、指標値の出力の態様に応じたものとなる。なお、上述したように、偏り算出手段124がある固有表現、ある(単語以外の)文字列またはある文字についての値CWItを算出している場合、指標出力手段125も複数の固有表現、複数の(単語以外の)文字列または複数の文字についての値CItを合算して出力するものとなる。
【0092】
与えられる文字列コーパスについては、上記第1実施形態、第2実施形態と同じである。即ち、予め信頼性の高い解析システムにより解析処理されたテストコーパスである。テストコーパスデータでは、コーパス中に現れる固有表現の位置、範囲及びその属するクラスがタグの形で明示されている。この場合の第一の計数手段121、第二の計数手段122及び第三の計数手段123は、テストコーパス中に記述されているタグを参照することで、固有表現の位置、範囲及びその固有表現クラスを判断し、総出現数及び出現頻度の計数を行うことができる。加えて、テストコーパス中に、各単語の区切りを示す符号が挿入されているならばより好ましい。
【0093】
但し、当該難易度評価装置に、与えられるコーパスを形態素解析する形態素解析手段104としての機能や、コーパス中の固有表現を抽出する固有表現抽出手段105としての機能をも付与することを妨げない。形態素解析手段104、固有表現抽出手段105は、上記第1実施形態、第2実施形態におけるものと同様に、例えば既知の形態素解析プログラム、固有表現抽出プログラムを用いて構成できる。この場合の第一の計数手段121、第二の計数手段122及び第三の計数手段123は、これら形態素解析手段104、固有表現抽出手段105による出力を参照して、総出現数及び出現頻度を計数するものとなる。
【0094】
なお、CWIt(あるいは、CWIc)の値を求めるに際し、文字列コーパス中に現れる数字を全て所定の文字、例えば“#”に置換することが好ましい。この置換処理は、図9に示している置換手段106が担う。即ち、プロセッサ1aが、プログラムに基づき、与えられたコーパス中に現れる数字を所定の文字に置換する処理を、第一の計数手段121、第二の計数手段122及び第三の計数手段123による計数に先んじて実行する。但し、置換手段106は必須の構成要素ではない。
【0095】
以降、単語を単位として定義した指標に主眼を置いて述べる。式(数5)において、右辺の係数1/mは、範囲mを大きくしたときに頻度を補正するためのものである。nL(w)は文字wがクラスLの固有表現の周囲m語以内に現れる頻度、n(w)はコーパス全体での頻度を表す。NW LはクラスLの固有表現の周囲に現れる総単語数である。つまり、nL(w)/NW LはクラスLに対する単語wの相対頻度を示し、nL(w)/n(w)は単語wがクラスLに属する固有表現の周囲m語以内にどれだけ偏って現れるかを示している。表13に、m=1とした場合の各固有表現クラス毎のCWIの値を示す。表13は、固有表現の直前の単語に関する指標CWIpreと固有表現の直後の単語に関する指標CWIfolとを個別に算出した結果である。
【0096】
【表13】
【0097】
そして、下式(数8)に示すように、各固有表現クラスLに属する固有表現の周囲の所定範囲に現れる全ての単語のCWIwの値を合計したものを、新たな指標CWIとして用いることとする。
【0098】
【数8】
【0099】
クラスLに属する固有表現の周囲の単語と見なす範囲を固有表現の直前または直後の1単語から最大4単語まで変えて算出したCWIと、システムの出力の評価を示すF−measureとの相関は、表14に示すようなものとなる。CWIは、CIと同じく、あるクラス内の固有表現を抽出することが易しいときにその値が大きくなる。従って、システムの出力の評価と正の相関が強ければ、指標として優れていることとなる。CWIの指標としての妥当性はFCWより高いと言えるが、既に述べたその他の指標ほどには高くない。相関が低い理由の一つとしては、CWIの値が、全ての単語のCWIwの値を合計したものであることが考えられる。CWIwの値が低い文字はそのクラスに属する固有表現を抽出するために有用であるとは言えないので、そのような文字はCWIを求めるに際し取り除くことが望ましい。その具体的手段の一つとして、CWIwの値に対する閾値を設け、閾値以上のCWIwのみを選出してこれを合算することによりCWIを求めることが考えられる。このような手段により、CWIを指標としてより優れたものとすることができる。即ち、指標出力手段125を、予め定められた閾値以上のCWItを選出しその選出したCWItのみを合算した値を出力するものとすることが望ましいと言える。
【0100】
【表14】
【0101】
CWIは、固有表現の周囲の表現がもつ情報を必ずしも十分に利用しているとは言えないものの、課題や固有表現クラスによっては人間の直感に沿うような結果が得られている。m=1とした場合において、単語w毎の指標CWIwの値が比較的大きい単語の具体例を表15、表16、表17に示す。表15は総合課題のテストコーパス中の時間表現クラスに対するCWIprew(固有表現の直前の単語に関するCWIw)が大きい単語を、表16は人名クラスに対するCWIfolw(固有表現の直後の単語に関するCWIw)が大きい単語を、表17は限定課題のテストコーパスでCWIfolの値が大きい単語を、それぞれ示している。
【0102】
【表15】
【0103】
【表16】
【0104】
【表17】
【0105】
表13から、3種類の課題全てにおいて時間表現クラスは他のクラスよりCWIpreの値が大きいことが分かるが、これは表15に示すように時間表現の直前には日付表現がよく現れることによる。この逆が通用しないことは、日付表現クラスのCWIfolの値が時間表現のCWIpreの値ほど高くないことを見ても明らかである。日付表現クラスは時間表現クラスとともに現れることも多いが、単独で現れることもままあるからである。人名クラスについても、どの課題でも他のクラスよりCWIfolの値が大きいことが表13から分かる。表16に示しているように、どの課題においても敬称や呼称が人名の直後によく出現している。当然と言えば当然であるが、これらの単語は人名クラスに属する固有表現を抽出する際に有用である。
【0106】
固有物名、金額表現、時間表現の各クラスはそれぞれ、本試験の限定課題においてCWIfolの値が大きかった。表17によれば、そのほとんどが特定の一単語がもつCWIfolによるものである。これは、限定課題で与えられるコーパスが逮捕に関する新聞記事のみからなるものであるためで、単語の用いられ方が他の種類の記事と比較して固定されていることが理由と考えられる。上記のように、本実施形態における難易度評価装置が具備する偏り算出手段124が算出するCWItの値は、固有表現抽出の際に有用と思われる文字等の情報を獲得するためにも役立てられる。
【0107】
本実施形態によれば、文字列コーパス中に存在し所定の固有表現クラスLに属する固有表現の直前、直後または周囲m語の範囲内に現れる単語の総数NW Lを計数する第一の計数手段121と、ある単語wが前記固有表現の直前、直後または周囲m語の範囲内に現れる出現頻度nL(w)を計数する第二の計数手段122と、前記ある単語wの前記文字列コーパス全体での出現頻度n(w)を計数する第三の計数手段123と、前記第一の計数手段121が計数した総数NW L、前記第二の計数手段122が計数した出現頻度nL(w)及び前記第三の計数手段123が計数した出現頻度n(w)より、前記ある単語wについて式(数7)に示すCWIwの値を算出する偏り算出手段124と、前記偏り算出手段124が算出した複数の単語についてのCIwの値を合算して、これを前記文字列コーパスより前記固有表現クラスLに属する固有表現を抽出する処理の難易度を示す指標として出力する指標出力手段125とを具備する固有表現抽出の難易度評価装置を構成したため、所定の固有表現クラスに属する固有表現を文字列コーパスより抽出するタスクの難易度を定量評価することが可能となる。
【0108】
但し、指標CWIwでは文字を単位としていたが、例えば固有表現、n−gramのような単語でない文字列、または文字を単位として指標値CWItを算出することも当然に可能である。
【0109】
なお、本発明は以上に詳述した実施形態に限られるものではない。例えば、第1実施形態、第2実施形態、第3実施形態における難易度評価装置が出力する指標値の一部または全部を結合する結合手段(図示しない。この結合手段は、ソフトウェアを主体として構成される)としての機能をさらに難易度評価装置に付与し、単一の難易度の値を出力できるようにしてもよい。具体例を挙げて述べると、結合手段が、第2実施形態における難易度評価装置の出力CIと、第3実施形態における難易度評価装置の出力CWIとの重み付き線形和を出力するものとすると、最終的な固有表現抽出の難易度の指標値Vは、
V=α×CI+β×CWI
として算出される。α、βは重みである。結合手段による結合の形式は、テストコーパスについて算出したVとF−measureとの相関が高くなるようなものを重回帰分析または機械学習等を通じて導出することにより決定できる。
【0110】
その他各部の具体的構成や処理の詳細な手順等もまた、上記実施形態に限られるものではなく、本発明の趣旨を逸脱しない範囲で種々変形が可能である。勿論、パーソナルコンピュータその他の汎用的なコンピュータにプログラムをインストールすることで本発明に係る難易度評価装置を構成するのではなく、専用ハードウェアとして構成することも可能である。
【0111】
【発明の効果】
以上に詳述した本発明によれば、コーパスより固有表現を抽出する固有表現抽出の難易度を推定して定量的に表現可能である。
【図面の簡単な説明】
【図1】本発明の構成説明図。
【図2】本発明の構成説明図。
【図3】本発明の構成説明図。
【図4】固有表現抽出の難易度評価装置が具備するハードウェア資源を示す図。
【図5】本発明の一実施形態における機能ブロック図。
【図6】固有表現抽出処理の一例について説明する図。
【図7】本発明の一実施形態における機能ブロック図。
【図8】CIcに対する閾値と相関係数との関係を示すグラフ。
【図9】本発明の一実施形態における機能ブロック図。
【符号の説明】
1…コンピュータ(固有表現の難易度評価装置)
101、111、121…第一の計数手段
102、112、122…第二の計数手段
113、123…第三の計数手段
114、124…偏り算出手段
103、115、125…指標出力手段
Claims (6)
- 文字列コーパスより固有表現を抽出する固有表現抽出の難易度を評価するためのものであって、
前記文字列コーパス中に存在し所定の固有表現クラスに属する固有表現の総数、固有表現に現れる文字列の総数または固有表現に現れる文字の総数を計数する第一の計数手段と、
前記固有表現、前記文字列または前記文字の異なり数を計数する第二の計数手段と、
前記第一の計数手段が計数した総数と前記第二の計数手段が計数した異なり数との比を算出して、これを前記文字列コーパスより前記固有表現クラスに属する固有表現を抽出する処理の難易度を示す指標として出力する指標出力手段と
を具備する固有表現抽出の難易度評価装置。 - 文字列コーパスより固有表現を抽出する固有表現抽出の難易度を評価するためのものであって、
前記文字列コーパス中に存在し所定の固有表現クラスLに属する固有表現の総数、固有表現に現れる文字列の総数または固有表現に現れる文字の総数NT Lを計数する第一の計数手段と、
ある固有表現、ある文字列またはある文字tが前記固有表現に現れる出現頻度nL(t)を計数する第二の計数手段と、
前記ある固有表現、前記ある文字列または前記ある文字tの前記文字列コーパス全体での出現頻度n(t)を計数する第三の計数手段と、
前記第一の計数手段が計数した総数NT L、前記第二の計数手段が計数した出現頻度nL(t)及び前記第三の計数手段が計数した出現頻度n(t)より、前記ある固有表現、前記ある文字列または前記ある文字tについて式(数1)に示すCItの値を算出する偏り算出手段と、
前記偏り算出手段が算出した複数の固有表現、文字列または文字ついてのCItの値を合算して、これを前記文字列コーパスより前記固有表現クラスLに属する固有表現を抽出する処理の難易度を示す指標として出力する指標出力手段と
を具備する固有表現抽出の難易度評価装置。
- 文字列コーパスより固有表現を抽出する固有表現抽出の難易度を評価するためのものであって、
前記文字列コーパス中に存在し所定の固有表現クラスLに属する固有表現の直前、直後または周囲の所定範囲内に現れる固有表現、文字列または文字の総数NT Lを計数する第一の計数手段と、
ある固有表現、ある文字列またはある文字tが前記所定範囲内に現れる出現頻度nL(t)を計数する第二の計数手段と、
前記ある固有表現、前記ある文字列または前記ある文字tの前記文字列コーパス全体での出現頻度n(t)を計数する第三の計数手段と、
前記第一の計数手段が計数した総数NT L、前記第二の計数手段が計数した出現頻度nL(t)及び前記第三の計数手段が計数した出現頻度n(t)より、前記ある固有表現、前記ある文字列または前記ある文字について式(数2)に示すCWItの値を算出する偏り算出手段と、
前記偏り算出手段が算出した複数の固有表現、文字列または文字についてのCItの値を合算して、これを前記文字列コーパスより前記一若しくは複数の固有表現クラスLに属する固有表現を抽出する処理の難易度を示す指標として出力する指標出力手段と
を具備する固有表現抽出の難易度評価装置。
- 請求項1記載の固有表現抽出の難易度評価装置を構成するために用いられるものであって、コンピュータを、少なくとも、
前記文字列コーパス中に存在し所定の固有表現クラスに属する固有表現の総数、固有表現に現れる文字列の総数または固有表現に現れる文字の総数を計数する第一の計数手段、
前記固有表現、前記文字列または前記文字の異なり数を計数する第二の計数手段、及び、
前記第一の計数手段が計数した総数と前記第二の計数手段が計数した異なり数との比を算出して、これを前記文字列コーパスより前記固有表現クラスに属する固有表現を抽出する処理の難易度を示す指標として出力する指標出力手段
として機能させるプログラム。 - 請求項2記載の固有表現抽出の難易度評価装置を構成するために用いられるものであって、コンピュータを、少なくとも、
前記文字列コーパス中に存在し所定の固有表現クラスLに属する固有表現の総数、固有表現に現れる文字列の総数または固有表現に現れる文字の総数NT Lを計数する第一の計数手段、
ある固有表現、ある文字列またはある文字tが前記固有表現に現れる出現頻度nL(t)を計数する第二の計数手段、
前記ある固有表現、前記ある文字列または前記ある文字tの前記文字列コーパス全体での出現頻度n(t)を計数する第三の計数手段、
前記第一の計数手段が計数した総数NT L、前記第二の計数手段が計数した出現頻度nL(t)及び前記第三の計数手段が計数した出現頻度n(t)より、前記ある固有表現、前記ある文字列または前記ある文字tについて式(数1)に示すCItの値を算出する偏り算出手段、及び、
前記偏り算出手段が算出した複数の固有表現、文字列または文字ついてのCItの値を合算して、これを前記文字列コーパスより前記固有表現クラスLに属する固有表現を抽出する処理の難易度を示す指標として出力する指標出力手段
として機能させるプログラム。 - 請求項3記載の固有表現抽出の難易度評価装置を構成するために用いられるものであって、コンピュータを、少なくとも
前記文字列コーパス中に存在し所定の固有表現クラスLに属する固有表現の直前、直後または周囲の所定範囲内に現れる固有表現、文字列または文字の総数NT Lを計数する第一の計数手段、
ある固有表現、ある文字列またはある文字tが前記所定範囲内に現れる出現頻度nL(t)を計数する第二の計数手段、
前記ある固有表現、前記ある文字列または前記ある文字tの前記文字列コーパス全体での出現頻度n(t)を計数する第三の計数手段、
前記第一の計数手段が計数した総数NT L、前記第二の計数手段が計数した出現頻度nL(t)及び前記第三の計数手段が計数した出現頻度n(t)より、前記ある固有表現、前記ある文字列または前記ある文字について式(数2)に示すCWItの値を算出する偏り算出手段、及び、
前記偏り算出手段が算出した複数の固有表現、文字列または文字についてのCItの値を合算して、これを前記文字列コーパスより前記一若しくは複数の固有表現クラスLに属する固有表現を抽出する処理の難易度を示す指標として出力する指標出力手段
として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003193473A JP2005031785A (ja) | 2003-07-08 | 2003-07-08 | 固有表現抽出の難易度評価装置及びそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003193473A JP2005031785A (ja) | 2003-07-08 | 2003-07-08 | 固有表現抽出の難易度評価装置及びそのプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005031785A true JP2005031785A (ja) | 2005-02-03 |
Family
ID=34204926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003193473A Pending JP2005031785A (ja) | 2003-07-08 | 2003-07-08 | 固有表現抽出の難易度評価装置及びそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005031785A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011118723A1 (ja) * | 2010-03-26 | 2011-09-29 | 日本電気株式会社 | 意味抽出装置、意味抽出方法、および、記録媒体 |
CN102214164A (zh) * | 2010-04-01 | 2011-10-12 | 英业达股份有限公司 | 外语文章分析系统及其方法 |
WO2011148571A1 (ja) * | 2010-05-24 | 2011-12-01 | 日本電気株式会社 | 情報抽出システム、方法及びプログラム |
-
2003
- 2003-07-08 JP JP2003193473A patent/JP2005031785A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011118723A1 (ja) * | 2010-03-26 | 2011-09-29 | 日本電気株式会社 | 意味抽出装置、意味抽出方法、および、記録媒体 |
JP5751251B2 (ja) * | 2010-03-26 | 2015-07-22 | 日本電気株式会社 | 意味抽出装置、意味抽出方法、および、プログラム |
US9171071B2 (en) | 2010-03-26 | 2015-10-27 | Nec Corporation | Meaning extraction system, meaning extraction method, and recording medium |
CN102214164A (zh) * | 2010-04-01 | 2011-10-12 | 英业达股份有限公司 | 外语文章分析系统及其方法 |
WO2011148571A1 (ja) * | 2010-05-24 | 2011-12-01 | 日本電気株式会社 | 情報抽出システム、方法及びプログラム |
JPWO2011148571A1 (ja) * | 2010-05-24 | 2013-07-25 | 日本電気株式会社 | 情報抽出システム、方法及びプログラム |
JP5751253B2 (ja) * | 2010-05-24 | 2015-07-22 | 日本電気株式会社 | 情報抽出システム、方法及びプログラム |
US9189748B2 (en) | 2010-05-24 | 2015-11-17 | Nec Corporation | Information extraction system, method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fuchs | Do women (still) use more intensifiers than men? Recent change in the sociolinguistics of intensifiers in British English | |
US20210294974A1 (en) | Systems and methods for deviation detection, information extraction and obligation deviation detection | |
WO2017067153A1 (zh) | 基于文本分析的信用风险评估方法及装置、存储介质 | |
RU2517368C2 (ru) | Способ и устройство определения и оценки значимости слов | |
US8443008B2 (en) | Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof | |
KR20110081194A (ko) | 텍스트 세그먼트를 가진 문서로부터 용어를 추출하기 위한 시스템 | |
JP2008039983A (ja) | テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム | |
CN113076735B (zh) | 目标信息的获取方法、装置和服务器 | |
Tumitan et al. | Sentiment-based features for predicting election polls: a case study on the Brazilian scenario | |
Hernault et al. | Semi-supervised discourse relation classification with structural learning | |
CN110929520A (zh) | 非命名实体对象抽取方法、装置、电子设备及存储介质 | |
KR20140133185A (ko) | 소셜 데이터의 분석을 통한 주가 예측 방법 및 이를 적용한 주가 예측 시스템 | |
KR101593371B1 (ko) | 텍스트 데이터에 대한 성향 분류 장치 및 이를 이용한 의사 결정 지원 시스템 | |
JPWO2016189605A1 (ja) | データ分析に係るシステム、制御方法、制御プログラム、および、その記録媒体 | |
JP7216627B2 (ja) | 入力支援方法、入力支援システム、及びプログラム | |
KR101540322B1 (ko) | 소셜 데이터의 분석에 따른 감성 기반 인덱스를 이용한 주가 지수의 추세와 전환점 판정 방법 및 그 시스템 | |
JP2005031785A (ja) | 固有表現抽出の難易度評価装置及びそのプログラム | |
JP6026036B1 (ja) | データ分析システム、その制御方法、プログラム、及び、記録媒体 | |
JP2017010107A (ja) | 情報処理装置、情報処理システム及びプログラム | |
Das et al. | Language-Agnostic Modeling of Wikipedia Articles for Content Quality Assessment across Languages | |
JP6718535B2 (ja) | 評価装置、評価方法、および評価プログラム | |
KR101987301B1 (ko) | 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템 및 그 제어방법 | |
KR20170088101A (ko) | 온라인 커뮤니티 모니터링 방법 | |
Bobicev et al. | Authorship attribution in health forums | |
JP5409321B2 (ja) | 情報評価装置、情報評価方法、及び情報評価プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050121 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20050125 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050628 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20051025 |