JP4005477B2 - 固有表現抽出装置及び方法並びに固有表現抽出プログラム - Google Patents

固有表現抽出装置及び方法並びに固有表現抽出プログラム Download PDF

Info

Publication number
JP4005477B2
JP4005477B2 JP2002317435A JP2002317435A JP4005477B2 JP 4005477 B2 JP4005477 B2 JP 4005477B2 JP 2002317435 A JP2002317435 A JP 2002317435A JP 2002317435 A JP2002317435 A JP 2002317435A JP 4005477 B2 JP4005477 B2 JP 4005477B2
Authority
JP
Japan
Prior art keywords
morpheme
specific expression
extraction
appearance
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002317435A
Other languages
English (en)
Other versions
JP2004046775A (ja
Inventor
邦子 齋藤
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002317435A priority Critical patent/JP4005477B2/ja
Publication of JP2004046775A publication Critical patent/JP2004046775A/ja
Application granted granted Critical
Publication of JP4005477B2 publication Critical patent/JP4005477B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、テキストから人名・地名・組織名などの固有表現を抽出する技術に関するものであり、膨大なDBなどから効率良く情報を検索する技術やテキストを要約する技術などにおいて重要な役割を果たす。
【0002】
【従来の技術】
固有表現抽出の手法としては、大きく分けると人手で設定した規則に基づくものと、予めデータから学習した統計的モデルに基づくものがある。前者の手法では、対象とする領域や固有表現の定義が変更となった場合には、改めて規則を人手で設定し直さなければならないためコストがかかる。一方、後者の手法では、学習データを用意しておけば自動学習できるため、低コストで実現できる。そこで、近年では様々な学習モデルに基づく固有表現抽出法が研究されている。
【0003】
日本語の場合、英語など予め単語で分かち書きされている言語とは異なり、文字を続けてべた書きするため、そもそも単語認定が困難であるという問題がある。そのため、従来の技術では、予め入力文を形態素解析処理をしておき、その結果に対して固有表現を付与する処理が主流である。
【0004】
ところで、形態素解析の区切りと固有表現の区切りは通常1:1には対応せず、複数の形態素が1つの固有表現を構成する多:1の対応や、1つの形態素が複数の固有表現を校正する1:多の構成を取ることがある。このうち、1:多の対応では、形態素と固有表現の区切りがずれるために、処理誤りの重大な原因となる。
【0005】
従来の技術では、形態素解析と固有表現抽出は全く独立しており、形態素解析の品詞体系及び区切り基準から、固有表現の区切りと種類を判定する規則やモデルを考案するのが技術的課題であった。特に、形態素と固有表現の区切りの差をいかに埋めるかが1つの技術的課題である。そのため、予め形態素解析処理した結果が誤っていると、固有表現抽出に失敗する原因となる。特に日本語のように形態素解析に複数の正解があり得る言語では、1つの結果だけでは誤りの確率が高い。
【0006】
英語の固有表現抽出では、予め単語を空白で区切って分かち書きをするため、単語区切りのずれの問題がなく、形態素解析(英語の場合は品詞付け)と固有表現抽出を同時に行うモデルも提案され、高い精度をあげている。この手法では、形態素の区切りと固有表現の区切りは1:1又は多:1に絞られ、また形態素解析と固有表現抽出を同時に行うために、区切りのずれを考慮する必要がない。この手法を日本語にそのまま適用しようとすると、学習データを十分な量収集することが困難なことが原因となり、形態素解析、特に単語分割に失敗して固有表現抽出に悪影響を及ぼす。
【0007】
ところで、固有表現とは、その性質上、分野(新聞記事、Web文書、技術文書等)や時代が変われば新しい語が登場してくるものである。そのため、いずれの固有表現抽出の方法の場合も、一度作成した規則又は統計的モデルのままでは新しく出現する固有表現に対応できないという問題がある。新しく規則又は統計的モデル用学習データを作成するのは時間・コストがかかるという問題もある。そのため、できるだけ低コストで新しい規則又は統計的モデル用学習データを作成したいという要求は常に存在する。従来技術では、人手で規則を作成するコストを下げるもの(特許文献1参照)や、決定リストを用いた学習において低コストを実現するもの(非特許文献1参照)などがある。
【0008】
【特許文献1】
特開2001−318792号公報
【非特許文献1】
宇津呂武仁、颯々野学,「ブートストラップによる低人手コスト日本語固有表現抽出」,情報処理学会研究報告,Vol.2000,No2000−NL−139,pp.9−16,2000
【0009】
【発明が解決しようとする課題】
上述した従来技術では、形態素解析と固有表現抽出は全く独立しており、予め形態素解析した結果(1位のみ)に対して、規則やモデルを用いて固有表現を抽出していた。しかし、形態素解析の結果には複数の正解(区切りの単位/品詞など)が考えられることが多いので、1つの結果だけから固有表現抽出を行うと、形態素解析の曖昧性を考慮できず、特に区切りのずれの違いによりうまく抽出できないという問題がある。また、英語で成果を上げている形態素解析と固有表現抽出を同時に行うモデルでは、日本語については形態素解析部分、特に単語分割の技術的困難性があり、形態素解析に失敗して固有表現抽出がうまくできないという問題がある。
【0010】
本発明は、上記事情に鑑みてなされたものであり、その目的とするところは、入力文から固有表現を適切に抽出することができる固有表現抽出装置及び方法並びにプログラムを提供することにある。
【0011】
【課題を解決するための手段】
本発明では、予め形態素解析を一度行い、1位の結果だけでなく上位N個(Nは1より大きい自然数)の形態素列候補(Nbest形態素列候補)を求め、そのNbest形態素列候補に対して形態素解析と固有表現抽出を同時に行うモデルを適用して固有表現抽出を行う手法を提案する。
【0012】
すなわち、本発明では、1以上の単語からなる単語列とその出現確率の組を含む形態素解析モデル、並びに、固有表現を含む単語列とその出現確率の組,非終端単語列とその出現確率の組及び終端単語列とその出現確率の組を含む固有表現抽出モデルを予め記憶手段に記憶しておき、前記記憶手段に記憶されている形態素解析モデルを用いて入力文を形態素解析し、入力文全体の形態素列について出現確率が高い上位N個(Nは1より大きい自然数)の形態素列を抽出する。そして、前記記憶手段に記憶されている固有表現抽出モデルを用いて、抽出されたN個の形態素列から固有表現を含む形態素列について出現確率が高い上位M個(Mは1以上の自然数)の固有表現を含む形態素列を抽出する。
【0013】
本発明によれば、入力文から、文全体の形態素列出現確率の値の高い順に上位N個の形態素列が抽出され、このN個の形態素列から、固有表現を含む形態素列(固有表現付形態素列)について出現確率が高い上位M個の固有表現付形態素列が抽出される。すなわち、入力文から固有表現の抽出が行える。
【0014】
これにより、本発明では、従来の日本語固有表現抽出で問題であった、
・形態素の区切りが1種類に限定されるため、固有表現抽出との区切りと一致しない時(特に1:多)の処理が困難である
・英語特有表現抽出で成果を上げる手法では形態素解析部分の精度が低い
という2点を解決できる。
【0015】
さらに、本発明では、抽出されたM個(Mは2以上の自然数)の固有表現を含む形態素列及びその出現確率のうち、1位の固有表現を含む形態素列の出現確率と他の固有表現を含む形態素列の出現確率との偏差が所定基準より大きい場合に該1位の固有表現を含む出願確率に係る形態素列を選択し、該選択した固有表現を含む形態素列における、固有表現を含む単語列とその出現確率の組,非終端単語列とその出現確率の組及び終端単語列とその出現確率の組の頻度に基づき前記固有表現抽出モデルを更新する。本発明によれば、学習に適した固有表現抽出モデルが生成されるので固有表現の抽出精度が向上するとともに、モデル学習のための言語データを低コストで作成することができる。
【0016】
【発明の実施の形態】
(第1の実施の形態)
本発明の第1の実施の形態に係る固有表現抽出装置について図面を参照して説明する。図1は固有表現抽出装置の構成図、図2は固有表現抽出装置の動作を説明するフローチャートである。
【0017】
固有表現抽出装置1は、図1に示すように、形態素解析部10と、固有表現抽出部20とに大別される。
【0018】
形態素解析部10は、形態素候補作成部11と、形態素連接確率算出部12と、Nbest形態素列候補探索部13と、形態素頻度テーブル14a及び形態素連接頻度テーブル14bを有する形態素解析モデル14と、形態素解析モデル作成部15とを備えている。
【0019】
形態素解析モデル作成部15は、単語分割情報及び品詞その他の単語属性情報が対応付けられている学習データから、形態素頻度テーブル14a及び形態素連接頻度テーブル14bを作成する。形態素頻度テーブル14aは、1つの形態素の出現頻度が格納してある。また、形態素連接頻度テーブル14bは、連続する2つの形態素の出現頻度が格納してある。
【0020】
形態素候補作成部11は、入力文の各位置での形態素候補を形態素頻度テーブル14aの形態素インデクスから列挙する。
【0021】
形態素連接確率算出部12は、単語bigram確率モデルに基づき、形態素連接頻度テーブル14b及び形態素頻度テーブル14aを用いて、連続する形態素の出現確率を算出する。
【0022】
Nbest形態素列候補探索部13は、前向きDP探索及び後ろ向きA*アルゴリズムを用いて、文全体の形態素出現確率の最も大きいものから上位N個(Nは1より大きい自然数)の候補を求める。
【0023】
固有表現抽出部20は、固有表現付形態素候補作成部21と、固有表現付形態素連接確率算出部22と、Nbest固有表現付形態素列候補探索部23と、固有表現付形態素頻度テーブル24a及び固有表現付形態素連接頻度テーブル24bを有する固有表現抽出モデル24と、固有表現抽出モデル作成部25とを備えている。
【0024】
固有表現抽出モデル作成部25は、形態素情報と固有表現情報が対応付けられている学習データから、固有表現付形態素頻度テーブル24a及び固有表現付形態素連接頻度テーブル24bを作成する。固有表現付形態素頻度テーブル24aは、1つの固有表現付形態素の出現頻度が格納してある。固有表現付形態素連接頻度テーブル24bは、連続する2つの固有表現付形態素の出現頻度が格納してある。
【0025】
固有表現付形態素候補作成部21は、形態素解析部10で作成されたN個の形態列候補を入力として、各形態素に固有表現を付した固有表現付形態素列候補を作成する。
【0026】
固有表現付形態素連接確率算出部22は、固有表現抽出モデル24に基づき、固有表現付形態素連接頻度テーブル24b及び固有表現付形態素頻度テーブル24aを用いて、連続する固有表現付形態素列の出現確率を算出する。
【0027】
Nbest固有表現付形態素列候補探索部23は、前向きDP探索及び後ろ向きA*アルゴリズムを用いて、文全体の連続する固有表現付形態素列の出現確率を値の高い順に上位M個(Mは1以上の自然数)まで求める。なお、ここではM個の固有表現付形態素列候補を求めるが、便宜上名称は「Nbest」と記載することにする。
【0028】
なお、この固有表現抽出装置は、コンピュータ上にプログラムとして実装されており、上記各部はプログラムモジュールとして構成される。
【0029】
次に、固有表現抽出装置1の動作について図2を参照して説明する。なお、形態解析処理及び固有表現抽出モデルの詳細については後述し、ここでは全体の流れについて説明する。
【0030】
まず、形態素解析部10では、予め、形態素解析モデル作成部15が単語分割情報及び品詞その他単語属性情報が対応付けられている学習データから形態素解析モデル14を作成しておく(ステップS1)。また、固有表現抽出部20では、固有表現抽出モデル作成部25が形態素と固有表現が対応付けられている学習データから固有表現抽出モデル24を作成しておく(ステップS2)。
【0031】
固有表現抽出装置1に入力文が入力されると、当該入力文に対して、形態素候補作成部11が形態素解析モデル14に基づいて形態素候補を作成し(ステップS3)、形態素連接確率算出部12が形態素解析モデル14に基づいて形態素の連接出現確率を計算し(ステップS4)、Nbest形態素列候補探索部13が文全体の形態素列出現確率を値の高い順に上位N個(Nは1より大きい自然数)まで求める(ステップS5)。
【0032】
次に、固有表現抽出部20では、Nbest形態素候補を入力として、固有表現付形態素候補作成部21が固有表現付形態素を生成し(ステップS6)、固有表現付形態素連接確率算出部22が固有表現抽出モデル24に基づいて固有表現付形態素間の連接出現確率を計算する(ステップS7)。そして、Nbest固有表現付形態素候補探索部23が文全体の固有表現付形態素列出現確率を値の高い順に上位M個(Mは1以上の自然数)まで求める(ステップS8)。ステップS1及びステップS3からS5までが形態素解析部10が行う処理であり、ステップS2及びステップS6からS8が固有表現抽出部20が行う処理である。
【0033】
以下では、形態素解析処理及び固有表現抽出モデルについて詳述する。本実施の形態では、形態素解析部10の形態素解析処理として、単語bigram確率モデルに基づき統計的手法で行う。この解析処理については出願人が提案した特開平9−288673号公報に記載の技術を用いている。すなわち、形態素解析モデルとして、単語2つ組確率から文を構成する単語列の同時確率を与える単語分割モデルと、単語長確率と単語内文字列2つ組確率から単語を構成する文字列の同時確率を与える単語モデルとを利用して、入力文を構成する単語列の候補を確率が高い順番にN個求める。このモデルにおいては、文字列C=c12…cnから構成される入力文が、単語列W=w12…wnに分割されるとすると、文字列Wが与えられた時の単語列の同時確率P(W|C)は以下の式で表される。
【0034】
【数1】
Figure 0004005477
【0035】
前向きDP探索及び後ろ向きA*アルゴリズムにより、入力文章の文頭から文末まで1文字ずつ探査し、確率値上位N個の形態素列候補を得る。なお、本形態素解析処理については、M.Nagata: A stochastic Japanese morphological analyzer using a forward−dp backward A* n−best search algorithm, Proc. of the 15th Conf. on Computational Linguistics, pp.201−207(1994)を参照されたい。
【0036】
固有表現抽出部20では、このようにして得られたNbest形態素列候補を入力として、次に示す固有表現抽出モデルを用いて固有表現抽出を行う。
【0037】
本発明で用いる固有表現抽出モデルは隠れマルコフモデル(HMM)に基づくモデルであり、固有表現情報の状態遷移確率と、ある状態における単語の出現確率から構成される。なお、HMMに基づく固有表現抽出モデルについては、Daniel M. Bikel and Scott Miller and Richard Schwartz and Ralph Weischedel: Nymble: a High−Performance Learning Name Finder, Fifth Conference on Applied Natural Language Processing, pp.194−201(1997)を参照されたい。
【0038】
入力文が、形態素列W=w1…wn、固有表現情報列NC=NC1…NCnで構成されるとすると、固有表現情報抽出は形態素列と固有表現情報列の同時確率P(W,NC)=ΠP(wi,NCi)を最大化することである。P(W,NC)はHMMを用いて以下のように表される。
【0039】
【数2】
Figure 0004005477
【0040】
式1.は固有表現を含む単語列と出現確率の組を、式2.は非終端単語列と出現確率の組を、式3.は終端単語列と出現確率の組についての、確率を意味する。
【0041】
また、式3.の最終項は、単語wiがあるNCの状態で最後の単語であったことを表すものである。<end>はある状態での終端を表す特殊記号である。上記の式に基づいて各位置における出現確率を計算し、文全体で確率値が上位M個の候補を求める。
【0042】
前向きDP探索及び後ろ向きA*アルゴリズムは従来の形態素解析と同様に、各位置(文字単位)において、(1)現在の位置から始まる形態素候補(右側候補)と、(2)現在の位置で終わる形態素候補(左側候補)とを列挙し、確率テーブルを参照しながら形態素候補毎に出現確率を計算する。また、固有表現抽出では、既にNbest形態素解析が求まっているので、各文字位置で、(1)現在の位置から始まる形態素候補を列挙してそれぞれに全ての固有表現情報を仮に付与した固有表現つき形態素候補とする(右側)、(2)現在の位置で終わる形態素候補を列挙してそれぞれに全ての固有表現情報を仮に付与した固有表現つき形態素候補とする(左側)、という処理を行う。
【0043】
ここで、固有表現情報には、組織名,地名などの他に、特定の固有表現ではなないことを意味する情報も含まれる。例えば、これらを各々記号、ORG,LOC,NILで表したとすると、NTT/名詞という形態素について想定している固有表現情報を全て付与した、NTT/名詞/ORG,NTT/名詞/LOC,NTT/名詞/PSN(人名),NTT/名詞/NIL、が固有表現付き形態素候補となる。そして、これらの候補とその位置で終わる左側候補との連接確率を固有表現抽出モデルで計算する。なお、連接確率とは、単語列のi−1番目,i番目についてのP(wi|wi-1)で現れ、wi-1が出現した条件下でwiが出現するという条件付き確率を意味する。すなわち、P(wi|wi-1)=C(wi,wi-1)/C(wi-1)で計算される(C(*)は学習データ中の頻度)。
【0044】
実際の処理の流れについて説明する。形態素解析部10により得られたNbest形態素列候補を入力とする。文頭から1文字ずつ進みながら以下の処理をする。
【0045】
1.現在の位置から始まる形態素を列挙する。もし、形態素が1つも存在しなければ次の位置へ一文字すすむ
2.各形態素に固有表現情報の全ての種類について付与したものを、固有表現付形態素候補としておく(右側候補)
3.現在の位置で終わる固有表現付形態素候補を列挙する(左側候補)
4.上記2,3であがっている候補の全組み合わせについて確率を計算し、その値と右側候補の終端位置を記憶する
5.一文字すすむ。
【0046】
以上を文頭から文末まで行い(前向きDP探索)、次に後ろ向きA*アルゴリズムにより、Nbest固有表現付形態素候補を求める。なお、ここで求める候補数はM個(Mは1以上の自然数)である。
【0047】
図3に固有表現付形態素連接頻度テーブル24bの例を示す。固有表現付形態素は「表記/品詞/固有表現」という形で表されている。図4に実施例として、[a]入力文、[b]Nbest形態素列候補(3位まで)、[c]Nbest固有表現付形態素列候補(1位のみ)を確率の対数値とともに示す。ORGは組織名、LOCは地名を表しており、NTTサイバースペース研究所が組織名として、神奈川県、横須賀市、三浦半島が地名として固有表現抽出されていることが分かる。形態素解析では横須賀市を「横須賀市」「横須賀+市」とどちらにも区切る可能性があるが、本発明のようにNbest形態素列候補を入力とする場合、このような複数の候補に対して固有表現抽出モデルを適応することができる。
【0048】
以上のようにして求められた上位M個(図4の例では1個)の固有表現付形態列候補から固有表現を抽出するには、形態素に付された固有表現情報を参照して該固有表現情報がNIL(固有表現でないことを表すタグ)が付いていないものを抽出すればよい。例えば、図4の例では、NILが付されている助詞・助動詞は固有表現でないことが判別でき、一方、ORG,LOCが付されている形態素が各々組織名・地名を示す固有表現であることがわかる。
【0049】
(第2の実施の形態)
本発明の第2の実施の形態に係る固有表現抽出装置について図面を参照して説明する。図5は固有表現抽出装置の構成図、図2は固有表現抽出装置の動作を説明するフローチャートである。図中、第1の実施の形態と同じ構成については同じ符号を付した。
【0050】
本実施の形態に係る固有表現抽出装置が、第1の実施の形態と相違する点は、抽出された固有表現付き形態素列から学習に適したものを選択し、これを固有表現抽出モデル作成部の学習データとして用いる点にある。
【0051】
図5に示すように、本実施の形態に係る固有表現抽出装置2は、入力された文章に対して上位N個の形態素列解析候補を出力する形態素解析部10と、さらに該形態素解析部10の出力を元に、各形態素に固有表現を付与した固有表現付き形態素列を上位M個出力する固有表現抽出部20とを備えている。この形態素解析部10及び固有表現抽出部20の構成は、第1の実施の形態と同様である。なお図5においては、解析処理部16は第1の実施の形態における形態素候補作成部11・形態素連接確率算出部12・Nbest形態素列候補探索部13に相当し、抽出処理部26は第1の実施の形態における固有表現付形態素候補作成部21・固有表現付形態素連接確率算出部22・Nbest固有表現付形態素列候補探索部23に相当する。
【0052】
また、この固有表現抽出装置2は、固有表現抽出部20が出力するM個のNbest固有表現付き形態素列候補に対し、学習モデルとして追加可能な結果を選択する学習データ選択部31と、選択されたデータを固有表現抽出モデル作成部3へ渡す学習データ追加部32とからなる学習装置30を備えている。
【0053】
学習データ選択部31における具体的な選択方法について説明する。固有表現抽出部20が、上位M個(M>1)の固有表現付き形態素列候補を出力し、それぞれの確率がPkであるとする(M≧k≧1)。ここで、1位の結果に着目し、これが学習データとして適切かどうかを判断する上では、2位以下の確率と1位の確率の差に着目するのが簡単且つ有効である。すなわち、1位の確率が2位以下を圧倒的に引き離している場合、その結果は固有表現抽出部20がいわば確信をもって解析できた結果であると判断できる。逆に、たとえ1位のデータであっても2位以下の確率と競っているものは、1位とそれ以外との出力のうちどれが確実に正確なのか判断しかねるデータであると言える。
【0054】
ところで、確率値は入力文の長さによって大きく変わるため、P1とP2の値の差による比較では毎回条件が変わってしまう。そこで、本実施の形態では、1位の確率値が全体の確率値の和に占める割合により正規化した。
【0055】
【数3】
Figure 0004005477
【0056】
また、本実施の形態に係る固有表現抽出部20は実際の確率値の対数を取った値を出力するものとしたので、Pkは負の値をとる(絶対値が小さいものほど高い確率であることを示す)。そのためQを計算したときに、その値が小さいほどより確実に1位が正解であることを意味する。そこで、1位のデータのQ値が所定の閾値より小さい場合には、その1位のデータを固有表現抽出モデルに追加するためのデータとして選択する。
【0057】
このようにして選択されたデータを学習データ追加部32が固有表現抽出モデル作成部25に渡し、該作成部25において新しいモデルを作成する。具体的には新たに収集されたデータから、固有表現抽出モデル24である前述の数2に記載した3つの確率を計算するために、それぞれ必要な項目に関し、学習データ中の頻度を求める。そして、今まで格納してあった頻度テーブルの情報と、新しいデータから学習した頻度を合計して改めて頻度テーブルに格納し直すことにより固有表現抽出モデル24を更新する。
【0058】
なお、この固有表現抽出装置は、コンピュータ上にプログラムとして実装されており、上記各部はプログラムモジュールとして構成される。
【0059】
次に、この固有表現抽出装置2の動作について図6を参照して説明する。図6は固有表現抽出装置の動作を説明するフローチャートである。
【0060】
まず、形態素解析部10では、入力文に対して、予めモデル作成部15で作成したモデル14に基づいて形態素解析を行い、形態素列出現確率の値の高い順に上位N個まで求める(ステップS11)。次いで、固有表現抽出部20が、予めモデル作成部25で生成したモデル24に基づいて固有表現抽出を行い、文全体の固有表現付形態素列出現確率の値の高い順に上位M個まで求める(ステップS12)。次に、学習装置30が、この上位M個の結果から、学習モデルとして追加可能な結果を選択して固有表現抽出部20のモデル作成部24へ渡す(ステップS13)。そして、新たに追加されたデータから固有表現抽出モデルを再学習することにより固有表現抽出モデル24を更新する(ステップS14)。
【0061】
以上のステップにより、固有表現抽出処理を行いながら学習データが選別されモデルに反映されるので、解析精度の向上が図れる。
【0062】
次に、本発明の実施例について図7〜図12を参照して説明する。図7〜図9は、「札幌はまなすLC杯全国少年ジャンプ大会が三日、 札幌・荒井山シャンツェで開かれた。」を入力文(第一文)としたときの固有表現付き形態素列候補であり、各候補について上記Q値及びPm値とともに示している。図10〜図12は、「同日午前六時九分ごろ、青森、盛岡で震度1の地震があった。」を入力文(第二文)としたときの固有表現付き形態素列候補であり、各候補について上記Q値及び確率値Pkとともに示している。
【0063】
この解析結果をみると、第一文と比較して第二文の1位の結果はQ値が小さいことがわかる。また、第一文では「LC杯全国少年ジャンプ大会」のところで形態素解析に失敗し、結果として固有表現抽出もできておらず、これを学習データとして追加するのは不適切である。一方、第二文では、時間表現を表す<TIM>や地名を表す<LOC>も正しく抽出され、学習データとして追加するのに適したデータとなっている。従って、選択基準となるQ値の閾値を適当に設定することで適切な学習データを得ることができる。
【0064】
なお、本実施の形態で用いたQ値の算出式は一例に過ぎず、1位の確率が2位以下を圧倒的に引き離していることを表すものであれば他の式によってもよい。
【0065】
以上本発明の実施形態について説明したが本発明はこれに限定されるものではない。本発明の範囲は特許請求の範囲によって示されており、全ての変形例は本発明に含まれるものである。
【0066】
例えば、上記実施の形態では、形態素解析モデルとして単語2つ組出現確率に相当する単語bigramモデルを用いたが、他のモデルを用いてもよい。例えば、3単語からなる単語列とその出現確率の組や、単語列間とその遷移確率の組からなる隠れマルコフモデル(HMM)等を用いてもよい。
【0067】
なお、上記実施形態では、固有表現抽出装置はコンピュータ上のプログラムとして実装されているが、このプログラムはCD−ROM・DVD−ROM等の記録媒体に記録したものをコンピュータにインストールしてもよいし、通信回線を介してコンピュータにインストールしてもよい。そして、上記各モデル,テーブルを記憶した記憶手段を用い、インストールしたプログラムをCPU等の制御手段で実行することにより本発明を実施することができる。
【0068】
【発明の効果】
以上のように、Nbest形態素列候補を出力する形態素解析部と、そのNbest形態素列候補に対して形態素と固有表現の同時確率を計算する固有表現抽出部により、従来手法で問題であった「形態素候補が1つに限定されることにより形態素と固有表現の区切りが一致しない問題」及び「英語では成果を上げていたが日本語では形態素解析の精度が低くなる問題」を解決した。
【図面の簡単な説明】
【図1】固有表現抽出装置の構成図
【図2】固有表現抽出装置の動作を説明するフローチャート
【図3】固有表現付形態素連接頻度テーブルの一例を示す図
【図4】入力文とNbest形態素列候補とNbest固有表現付形態素列候補の一例を示す図
【図5】固有表現抽出装置の構成図
【図6】固有表現抽出装置の動作を説明するフローチャート
【図7】入力文とNbest固有表現付形態素列候補の一例を示す図
【図8】入力文とNbest固有表現付形態素列候補の一例を示す図
【図9】入力文とNbest固有表現付形態素列候補の一例を示す図
【図10】入力文とNbest固有表現付形態素列候補の一例を示す図
【図11】入力文とNbest固有表現付形態素列候補の一例を示す図
【図12】入力文とNbest固有表現付形態素列候補の一例を示す図
【符号の説明】
1…固有表現抽出装置、10…形態解析部、11…形態素候補作成部、12…形態素連接確率算出部、13…Nbest形態素列候補探索部、14…形態素解析モデル、15…形態素解析モデル作成部、20…固有表現抽出部、21…固有表現付形態候補作成部、22…固有表現付形態素連接確率算出部、23…Nbest固有表現付形態素列候補探索部、24…固有表現抽出モデル、25…固有表現抽出モデル作成部、30…学習装置、31…学習データ選択部、32…学習データ追加部

Claims (13)

  1. 入力文から固有表現を抽出する装置において、
    1以上の単語からなる単語列とその出現確率の組を含む形態素解析モデル、並びに、固有表現を含む単語列とその出現確率の組,非終端単語列とその出現確率の組及び終端単語列とその出現確率の組を含む固有表現抽出モデルを予め記憶した記憶手段と、
    前記記憶手段に記憶されている形態素解析モデルを用いて入力文を形態素解析し、入力文全体の形態素列について出現確率が高い上位N個(Nは1より大きい自然数)の形態素列を抽出する第1の抽出手段と、
    前記記憶手段に記憶されている固有表現抽出モデルを用いて前記第1の抽出手段で抽出されたN個の形態素列から固有表現を含む形態素列について出現確率が高い上位M個(Mは1以上の自然数)の固有表現を含む形態素列を抽出する第2の抽出手段とを備えた
    ことを特徴とする固有表現抽出装置。
  2. 前記第1の抽出手段では前向きDP探索及び後向きA*アルゴリズムを用いて上位N個の形態素列を抽出する
    ことを特徴とする請求項1記載の固有表現抽出装置。
  3. 前記第2の抽出手段では前向きDP探索及び後向きA*アルゴリズムを用いて上位M個の固有表現を含む形態素列を抽出する
    ことを特徴とする請求項1記載の固有表現抽出装置。
  4. 前記第2の抽出手段により抽出されたM個(Mは2以上の自然数)の固有表現を含む形態素列及びその出現確率のうち、1位の固有表現を含む形態素列の出現確率と他の固有表現を含む形態素列の出現確率との偏差が所定基準より大きい場合に該1位の出願確率に係る固有表現を含む形態素列を選択する手段と、
    該選択した固有表現を含む形態素列における、固有表現を含む単語列とその出現確率の組,非終端単語列とその出現確率の組及び終端単語列とその出現確率の組の頻度に基づき前記固有表現抽出モデルに更新する手段とを備えた
    ことを特徴とする請求項1乃至3何れか1項記載の固有表現抽出装置。
  5. コンピュータを用いて入力文から固有表現を抽出する方法において、
    コンピュータの第1の抽出手段が、記憶手段に予め記憶されている1以上の単語からなる単語列とその出現確率の組を含む形態素解析モデルを用いて入力文を形態素解析して、入力文全体の形態素列について出現確率が高い上位N個(Nは1より大きい自然数)の形態素列を抽出する第1の抽出ステップと、
    コンピュータの第2の抽出手段が、記憶手段に予め記憶されている固有表現を含む単語列とその出現確率の組,非終端単語列とその出現確率の組及び終端単語列とその出現確率の組を含む固有表現抽出モデルを用いて、前記抽出されたN個の形態素列から固有表現を含む形態素列について出現確率が高い上位M個(Mは1以上の自然数)の固有表現を含む形態素列を抽出する第2の抽出ステップとを備えた
    ことを特徴とする固有表現抽出方法。
  6. 前記第1の抽出ステップでは前向きDP探索及び後向きA*アルゴリズムを用いて上位N個の形態素列を抽出する
    ことを特徴とする請求項5記載の固有表現抽出方法。
  7. 前記第2の抽出ステップでは前向きDP探索及び後向きA*アルゴリズムを用いて上位M個の固有表現を含む形態素列を抽出する
    ことを特徴とする請求項5記載の固有表現抽出方法。
  8. コンピュータの選択手段が、前記第2の抽出ステップにより抽出されたM個(Mは2以上の自然数)の固有表現を含む形態素列及びその出現確率のうち、1位の固有表現を含む形態素列の出現確率と他の固有表現を含む形態素列の出現確率との偏差が所定基準より大きい場合に該1位の固有表現を含む出願確率に係る形態素列を選択するステップと、
    コンピュータの更新手段が、前記選択した固有表現を含む形態素列における、固有表現を含む単語列とその出現確率の組,非終端単語列とその出現確率の組及び終端単語列とその出現確率の組の頻度に基づき前記固有表現抽出モデルを更新するステップとを備えた
    ことを特徴とする請求項5乃至7何れか1項記載の固有表現抽出方法。
  9. コンピュータに、
    記憶手段に予め記憶されている1以上の単語からなる単語列とその出現確率の組を含む形態素解析モデルを用いて入力文を形態素解析して、入力文全体の形態素列について出現確率が高い上位N個(Nは1より大きい自然数)の形態素列を抽出する第1の抽出手段と、
    記憶手段に予め記憶されている固有表現を含む単語列とその出現確率の組,非終端単語列とその出現確率の組及び終端単語列とその出現確率の組を含む固有表現抽出モデルを用いて、前記抽出されたN個の形態素列から固有表現を含む形態素列について出現確率が高い上位M個(Mは1以上の自然数)の固有表現を含む形態素列を抽出する第2の抽出手段として機能させることにより、入力文から固有表現を抽出する
    ことを特徴とする固有表現抽出プログラム。
  10. 前記第1の抽出手段では前向きDP探索及び後向きA*アルゴリズムを用いて上位N個の形態素列を抽出する
    ことを特徴とする請求項9記載の固有表現抽出プログラム。
  11. 前記第2の抽出手段では前向きDP探索及び後向きA*アルゴリズムを用いて上位M個の固有表現を含む形態素列を抽出する
    ことを特徴とする請求項9記載の固有表現抽出プログラム。
  12. コンピュータに、
    前記第2の抽出手段により抽出されたM個(Mは2以上の自然数)の固有表現を含む形態素列及びその出現確率のうち、1位の固有表現を含む形態素列の出現確率と他の固有表現を含む形態素列の出現確率との偏差が所定基準より大きい場合に該1位の固有表現を含む出願確率に係る形態素列を選択する手段と、
    該選択した固有表現を含む形態素列における、固有表現を含む単語列とその出現確率の組,非終端単語列とその出現確率の組及び終端単語列とその出現確率の組の頻度に基づき前記固有表現抽出モデルを更新する手段として機能させる
    ことを特徴とする請求項9乃至11何れか1項記載の固有表現抽出プログラム。
  13. 請求項9乃至12何れか1項記載の固有表現抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2002317435A 2002-05-15 2002-10-31 固有表現抽出装置及び方法並びに固有表現抽出プログラム Expired - Lifetime JP4005477B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002317435A JP4005477B2 (ja) 2002-05-15 2002-10-31 固有表現抽出装置及び方法並びに固有表現抽出プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002139986 2002-05-15
JP2002317435A JP4005477B2 (ja) 2002-05-15 2002-10-31 固有表現抽出装置及び方法並びに固有表現抽出プログラム

Publications (2)

Publication Number Publication Date
JP2004046775A JP2004046775A (ja) 2004-02-12
JP4005477B2 true JP4005477B2 (ja) 2007-11-07

Family

ID=31719370

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002317435A Expired - Lifetime JP4005477B2 (ja) 2002-05-15 2002-10-31 固有表現抽出装置及び方法並びに固有表現抽出プログラム

Country Status (1)

Country Link
JP (1) JP4005477B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7831438B2 (en) 2004-12-30 2010-11-09 Google Inc. Local item extraction
WO2006134682A1 (ja) * 2005-06-15 2006-12-21 Matsushita Electric Industrial Co., Ltd. 固有表現抽出装置、方法、及びプログラム
JP5245255B2 (ja) * 2007-02-15 2013-07-24 富士通株式会社 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置
JP5041992B2 (ja) * 2007-12-04 2012-10-03 日本電信電話株式会社 新規固有表現語彙獲得装置、その方法、プログラム及び記録媒体
JP5152918B2 (ja) * 2008-11-27 2013-02-27 日本電信電話株式会社 固有表現抽出装置、その方法およびプログラム
JP5700566B2 (ja) * 2012-02-07 2015-04-15 日本電信電話株式会社 スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム
JP5770753B2 (ja) * 2013-01-15 2015-08-26 グーグル・インコーポレーテッド Cjk名前検出
JP6220767B2 (ja) * 2014-12-08 2017-10-25 日本電信電話株式会社 用語抽出装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2004046775A (ja) 2004-02-12

Similar Documents

Publication Publication Date Title
US7636657B2 (en) Method and apparatus for automatic grammar generation from data entries
JP3983265B1 (ja) 辞書作成支援システム、方法及びプログラム
US8356065B2 (en) Similar text search method, similar text search system, and similar text search program
CN112231451B (zh) 指代词恢复方法、装置、对话机器人及存储介质
CN112149386A (zh) 一种事件抽取方法、存储介质及服务器
JP4005477B2 (ja) 固有表現抽出装置及び方法並びに固有表現抽出プログラム
CN112447172B (zh) 一种语音识别文本的质量提升方法和装置
JP2010257425A (ja) 話題境界検出装置及びコンピュータプログラム
JP5152918B2 (ja) 固有表現抽出装置、その方法およびプログラム
JP2006338261A (ja) 翻訳装置、翻訳方法及び翻訳プログラム
US7853597B2 (en) Product line extraction
CN113128224B (zh) 一种中文纠错方法、装置、设备以及可读存储介质
KR101839121B1 (ko) 사용자 질의 교정 시스템 및 방법
CN107203512B (zh) 用于从用户的自然语言输入中提取关键元素的方法
JP4015661B2 (ja) 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP2009176148A (ja) 未知語判定システム、方法及びプログラム
US20190108216A1 (en) Auto-completion and auto-correction of cryptic language commands with dynamic learning of syntax rules
CN112084777B (zh) 一种实体链接方法
JP2020016939A (ja) 単語列修正装置、単語列修正方法及びプログラム
JP2019194759A (ja) 対話システム補強装置及びコンピュータプログラム
CN115905297B (zh) 用于检索数据的方法、设备和介质
KR101371649B1 (ko) 한글-한자 변환 방법 및 이를 적용한 단말 장치
US11763083B2 (en) Inference methods for word or wordpiece tokenization
JP2008217529A (ja) テキスト分析装置およびテキスト分析プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070823

R150 Certificate of patent or registration of utility model

Ref document number: 4005477

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100831

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100831

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110831

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120831

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130831

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term