JP4015661B2

JP4015661B2 - 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体

Info

Publication number: JP4015661B2
Application number: JP2004373532A
Authority: JP
Inventors: 邦子齋藤; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-12-24
Filing date: 2004-12-24
Publication date: 2007-11-28
Anticipated expiration: 2024-12-24
Also published as: JP2006178865A

Description

本発明は、膨大なＤＢから効率良く情報を検索する技術やテキストを要約する技術などにおいては重要な役割を果たす、テキストから人名・地名・組織名などの固有表現を抽出する固有表現抽出処理の技術に関する。

まず、本願で述べる固有表現抽出処理について説明する。最初に、本明細書中の固有表現抽出処理で用いる位置及び文頭文末の特殊記号について定義する。位置とは、文字列の文字と文字の間を指し示し、０から始まり、文頭から文末まで１文字ずつ増えていく数値である。また、固有表現抽出処理における入力文には文頭と文末を意味する特殊記号＜ｓ＞，＜／ｓ＞を挿入し、これ自身が１つの候補であるとみなす。例えば、入力文が「ＮＴＴ持株会社社長の和田氏」の場合、文頭文末に特殊記号を挿入すると、各位置と入力文との対応関係は以下のようになる。

本例では、位置０とは、＜ｓ＞とＮの間を、位置３とはＴと持との間を、位置１３とは氏と＜／ｓ＞の間を指す。位置が入力文の文字数と一致した時が文末に達した時である。また、本例では位置１３に達していれば文末と判断する。

各位置における、その位置の直後の文字から始まる形態素候補，固有表現付形態素候補をそれぞれ、その位置の右側形態素候補，右側固有表現付形態素候補と呼ぶ。また、その位置の直前の文字で終了する形態素候補，固有表現付形態素候補をそれぞれ、その位置の左側形態素候補，左側固有表現付形態素候補と呼ぶ。例えば、上記表１では、位置３の右側形態素候補は持株／モチカブ／名詞、左側形態素候補はＮＴＴ／ＮＴＴ／名詞：ｎｔとなる。なお、ここで形態素候補を、「表記／読み／品詞」という形式で表している。

固有表現抽出処理で抽出対象とする固有表現の代表的な例としては、日本語の固有表現抽出技術のワークショップ（略称ＩＲＥＸ）で定義されている人名，地名，組織名，金額，日付，割合，固有物名の９種がある。以下、本願ではそれぞれ＜ＰＳＮ＞，＜ＬＯＣ＞，＜ＯＲＧ＞，＜ＭＮＹ＞，＜ＤＡＴ＞，＜ＰＣＴ＞，＜ＡＲＴ＞と表し、さらにいずれの固有表現でもないことを表すためにＮＩＬを追加することにする。以上の１０種を固有表現状態と呼ぶ。各固有表現状態は１つ以上の形態素から構成されることを考慮し、固有表現状態の冒頭の形態素とそれ以外の形態素を識別するために、固有表現状態の開始、途中を区別する。以下、本願ではそれぞれＢ−，Ｉ−で表すことにする。なお、ＮＩＬはこの区別をしない。Ｂ−，Ｉ−の区別をした固有表現状態を固有表現識別子と呼ぶ。即ち、本願はＢ−＜ＰＳＮ＞，Ｉ−＜ＰＳＮ＞，Ｂ−＜ＬＯＣ＞，Ｉ−＜ＬＯＣ＞，Ｂ−＜ＯＲＧ＞，Ｉ−＜ＯＲＧ＞，…，Ｂ−＜ＡＲＴ＞，Ｉ−＜ＡＲＴ＞，ＮＩＬの１９種の固有表現識別子を使用する。例えば、ＮＴＴ／ＮＴＴ／名詞：ｎｔ／Ｂ−＜ＯＲＧ＞の固有表現識別子はＢ−＜ＯＲＧ＞であり、固有表現状態は＜ＯＲＧ＞である。

上記の条件で固有表現識別子を付与した例を示すと以下のようになる。

ＮＴＴ／ＮＴＴ／名詞：ｎｔ／Ｂ−＜ＯＲＧ＞
持株／モチカブ／名詞／Ｉ−＜ＯＲＧ＞
会社／ガイシャ／名詞／Ｉ−＜ＯＲＧ＞
社長／シャチョウ／名詞／ＮＩＬ
の／ノ／助詞／ＮＩＬ
和田／ワダ／名詞：ｎｒ／Ｂ−＜ＰＳＮ＞
氏／シ／名詞／ＮＩＬ

「ＮＴＴ／ＮＴＴ／名詞：ｎｔ持株／モチカブ／名詞会社／ガイシャ／名詞」の部分が３つの形態素から構成される固有表現状態＜ＯＲＧ＞、「和田／ワダ／名詞：ｎｒ」が１つの形態素から構成される固有表現状態＜ＰＳＮ＞である。

固有表現抽出処理とは、入力文中の形態素を認定し、１つ以上の形態素から構成される固有表現状態を認定して該当固有表現識別子を付与する処理である。入力文中の形態を認定する処理は、形態素解析処理と呼ばれる。固有表現抽出の手法としては、大きく分けると人手で設定した規則に基づくものと、予めデータから学習した統計的モデルに基づくものがある。前者は、対象とする領域や、固有表現状態の定義の違いにより、改めて設定しなおさなければならないためコストがかかる。一方後者は、学習データを用意しておけば自動学習を用いることにより低コストで実現でき、近年では様々な学習モデルに基づく固有表現抽出法が研究されている。

学習モデルには最大エントロピー法，サポートベクトルマシン，隠れマルコフモデルなど幾つかの手法がある。隠れマルコフモデルは、他の学習モデルと比べて解析精度はやや劣るが、学習時間と解析処理速度が高速で、情報検索のように実時間処理が要求されるアプリケーションに適しているのが特徴である。本件では、隠れマルコフモデルを学習モデルとして利用する固有表現抽出技術に主眼を置くこととする。

隠れマルコフモデルを用いた固有表現抽出の従来技術には、特開２００４−４６７７５「固有表現抽出装置並びに固有表現抽出プログラム」（特許文献１）がある。これは、尤度の高い順に上位Ｎ個の形態素列候補、即ちＮｂｅｓｔ形態素列候補を出力する形態素解析部と、Ｎｂｅｓｔ形態素列候補に対して形態素と固有表現状態の同時確率を隠れマルコフモデルに基づいて計算する固有表現抽出部により、従来手法で問題であった形態素候補が１つに限定されることにより形態素と固有表現状態の区切りが一致しない問題、および英語では成果をあげていたが日本語では形態素解析の精度が低くなる問題を解決した固有表現抽出装置である。なお、Ｎは１以上の整数で予め設定しておく。

従来技術の処理では、Ｎｂｅｓｔ形態素列候補の出力に含まれる全ての形態素候補に対して、前述の１９種の固有表現識別子を付与して固有表現付形態素候補を生成する。そして、連続する２つの固有表現付形態素候補の全ての組合せについて、連接確率を隠れマルコフモデルに基づいて計算し、最終的に文全体での連接確率値の積が最大のものから上位Ｍ個にあるＮｂｅｓｔ固有表現付形態素列を得ている。なおＭは１以上の整数で予め設定しておく。

このような処理で、連接確率計算が行われる組合せ数を概算すると、入力文を構成する形態素数×固有表現識別子の種類（＝１９）×Ｎの２乗となり、処理全体に占める確率計算回数が増大して処理速度が落ちるという問題がある。しかも、実際の組合せを見ると、可能性の非常に低い固有表現付形態素候補が登場したり、明らかにありえない固有表現付形態素候補の組合せが大半を占め、無駄が多い。ここでいう可能性の非常に低い固有表現付形態素候補とは、例えばＮＴＴ／ＮＴＴ／名詞：ｎｔ／Ｂ−＜ＤＡＴ＞となることで、ＮＴＴが日付である可能性は非常に低い。また、ありえない固有表現付形態素候補の組合せとは、例えばＮＴＴ／ＮＴＴ／名詞：ｎｔ／Ｂ−＜ＯＲＧ＞、持株／モチカブ／名詞／Ｉ−＜ＬＯＣ＞となることで、Ｂ−＜ＯＲＧ＞の次にＩ−＜ＬＯＣ＞が登場することはありえない。

また、固有表現抽出技術の利用目的によっては、抽出する固有表現状態をさらに細かく分類して、例えば組織名を企業名，学校名，政治団体名，…、地名を国名，県名，市名，地形名，…、のようにして、更に種類の数を増やして固有表現抽出をしたいという要求も十分想定される。その場合は益々処理中の候補数が増大し、更なる計算量の増加及び処理速度の低下を招く。
特開２００４−４６７７５号公報

隠れマルコフモデルを用いた従来技術には、処理中、各位置での右側及び左側固有表現付形態素候補の組合せ数が多く、計算量が増大して処理速度の低下を招くこと、及び計算する右側及び左側固有表現付形態素候補の組合せには、明らかにありえない、即ち計算することに意味のない組合せが非常に多く含まれ、計算機資源の無駄が多いという問題点がある。

本願発明は、これら２つの問題点を解決することを目的とする。具体的には本願発明の第１の目的は、入力文における各位置での固有表現付形態素候補から尤度の低い候補を減らすことである。また、本願発明の第２の目的は、入力文の各位置で連接する固有表現付形態素候補の組合せから明らかにありえない組合せを削除することで候補数を減らすことである。

本願発明は、前記第１の目的を達成するために、形態素の品詞及び単語タイプに対して当該品詞及び単語タイプをとる固有表現状態の出現確率（尤度）を予め記憶した品詞及び単語タイプ別固有表現出現確率記憶手段と、先行する形態素に対して他の形態素が後続している条件下において先行する形態素のとる固有表現状態の出現確率（尤度）を予め記録した次形態素別固有表現出現確率記憶手段と、入力文を形態素解析して該入力文に含まれる形態素の列の候補（形態素列候補）を抽出する形態素解析手段と、形態素解析手段で抽出した各形態素列候補中の各形態素について該形態素の取りうる固有表現識別子を付することにより固有表現付形態素候補を作成する候補作成手段と、入力文の各位置において、当該位置から始まり且つ前記候補作成手段で作成された固有表現付形態素候補について、前記品詞及び単語タイプ別固有表現出現確率記憶手段に記憶されている出現確率及び前記次形態素別固有表現出現確率記憶手段に記憶されている出現確率を参照して固有表現付形態素候補の出現確率（尤度）を求めて、出現確率が最大のものの一定割合以上の出現確率をもつ固有表現付形態素候補、または、出現確率の最大のものから上位少なくとも１つの固有表現付形態素候補を抽出する第１の絞込実行部と、第１の絞込実行部で抽出された固有表現付形態素候補と、その直前に位置する前記候補作成手段で作成された固有表現付形態素候補との組み合わせを連接ペアデータとして出力する第２の絞込実行部と、第２の絞込実行部の出力した連接ペアデータに対して連接確率値を計算し、更に文頭から当該位置の固有表現付形態素候補までの連接確率値積算値の最大のもの（最大途中確率値）を、当該位置及び当該連接ペアデータとともに最大途中確率データ記憶部に記憶する連接確率計算手段と、前記最大途中確率データ記憶部に記憶されている連接ペアデータを探索して入力文を構成し且つ出現確率の最大のものから上位少なくとも１つの固有表現付形態素候補の列を出力する探索手段とを備えたことを特徴とする。

また、本願発明は、前記第２の目的を達成するために、２つの連続する固有表現付形態素候補の固有表現識別子について接続が許可される組を予め記録した固有表現連接ペア記憶手段を備え、前記第２の絞込実行部は、更に、前記候補作成手段で作成された各固有表現付形態素候補について、固有表現連接ペア記憶手段を参照して当該固有表現付形態素候補の直前に位置し且つ前記候補作成手段で作成された固有表現付形態素候補との接続が許可されている固有表現付形態素候補のみを出力することを特徴とする。

本願発明によれば、入力文の各位置での固有表現付形態素候補から尤度の低い候補が削除されるので、従来技術より少ない演算処理量で入力文の各形態素の固有表現を抽出することができる。

さらに、連接する２つの固有表現付形態素候補の組合せから明らかに有り得ない組合せを取り除くことで候補数を減らすことができるので、さらに少ない演算処理量で入力文の各形態素の固有表現を抽出することができる。

本発明の一実施の形態に係る固有表現抽出装置について図面を参照して説明する。図１は固有表現抽出装置の機能構成図である。

固有表現抽出装置１は、図１に示すように、入力文を形態素解析して形態素候補列を出力する形態素解析部１００と、形態素候補列に固有表現状態を付して更に絞込を行うことにより固有表現付形態素候補を作成する絞込部２００と、固有表現付形態素候補から最終的な固有表現付形態素候補列を出力する探索処理部３００とを備えている。入力文はキーボード等の入力装置や所定の記憶装置やネットワークを介して他の機器から入力されるが具体的な手段は不問である。また、固有表現付形態素候補列はディスプレイ等の出力装置や所定の記憶装置やネットワークを介して他の機器に出力されるが具体的な手段は不問である。

この固有表現抽出装置１は、コンピュータにプログラムをインストールすることにより実現する。プログラムはＣＤ−ＲＯＭなどの記録媒体や通信回線等を介してインストールされる。以下、固有表現抽出装置１の各部について詳述する。

形態素解析部１００は、形態素解析モデル記憶部１１０に記憶された形態素解析モデルを参照して、入力文から尤度が最上位のものから順にＮ個の形態素列候補を抽出してＮｂｅｓｔ形態素列候補を出力する。この形態素解析処理については従来既知の種々のものと同様なので詳述は省略する。本実施の形態では、出願人が提案した特開平９−２８８６７３号公報に記載の技術を用いるものとする。なお、Ｎｂｅｓｔ形態素解析候補を出力する形態素解析装置ならば他のものに差し替えても良い。また、ここで出力するＮｂｅｓｔ形態素列候補の数であるＮ（Ｎは１以上の整数）は、予め設定しておく（本実施形態の例ではＮ＝３）。さらに、本実施の形態では各形態素列候補は、「表記／読み／品詞」で表した形態素候補の組合せで入力文の表記を表したものとするが、「表記／品詞」や「表記／原形／品詞」など、他の組合せを用いても良い。図２に「<s>ＮＴＴ持株会社社長の和田氏</s>」を入力文とした場合のＮｂｅｓｔ形態素列候補の一例を示す。

絞込部２００は、Ｎｂｅｓｔ形態素列候補から固有表現付形態素候補を作成する候補作成部２１０と、処理対象とする入力文中の位置を制御する前向制御部２２０と、入力文中の各位置における右側及び左側固有表現付形態素候補を出力する候補列挙部２３０と、右側及び左側固有表現付形態素候補を絞り込んで連接する両者の組である連接ペアデータを出力する候補絞込部２４０と、各連接ペアデータの確率値を抽出計算する連接確率計算部２５０とを備えている。

候補作成部２１０の機能構成図を図３に示す。同図に示すように、候補作成部２１０は、形態素候補作成部２１１と、固有表現付形態素候補作成部２１２とからなる。

形態素候補作成部２１１は、Ｎｂｅｓｔ形態素列候補を入力としてＮｂｅｓｔ形態素列候補に含まれる各位置の形態素候補をまとめて、各位置を示す番号とこの位置に対応するＮｂｅｓｔ形態素列候補中の形態素候補を対応付けた形態素候補データを生成して出力し、後段の固有表現付形態素候補作成部２１２に渡す。

形態素候補データの一例を図４に示す。図４に示すように形態素候補データは、それぞれの位置において、各Ｎｂｅｓｔ形態素列候補中の形態素候補がすべて異なる場合は形態素候補を全て併記する。それぞれの位置において、各Ｎｂｅｓｔ形態素列候補中の形態素候補の全てが同一である場合は、同一となった１つの形態素候補のみを記載する。

固有表現付形態素候補作成部２１１は、形態素候補データを入力とし、各位置における各形態素候補に予め指定した固有表現識別子を付した固有表現付形態素候補を固有表現付形態素候補データを作成して出力する。固有表現付形態素候補データの一例を図５に示す。図５の例は、図４に例示した形態素候補データを入力とした場合の固有表現付形態素候補データである。

図５の例に示すように、固有表現付形態素候補作成部２１１は、位置０においては「ＮＴＴ／ＮＴＴ／名詞：ｎｔ」という形態素候補には上記の固有表現識別子を全て付して計１９個の固有表現付形態素候補を生成する。同様に、位置５では２種の形態素候補である「会社／ガイシャ／名詞接尾辞，会社／カイシャ／名詞」にそれぞれ１９種の固有表現識別子を付与して計３８個の固有表現付形態素候補を生成する。なお文頭文末における特殊記号＜ｓ＞、＜／ｓ＞に対しては固有表現識別子は付与せずに、このままの状態で１つの固有表現付形態素候補として扱う。

前向制御部２２０は、以下のステップ１〜６の処理を実行する。なお、本処理の詳細については後述する。
（ステップ１）現位置を文頭（＝０）に設定し、ステップ２に進む。
（ステップ２）現位置において、右側固有表現付形態素候補の有無を調べ、あればステップ３に進み、なければステップ５に進む。
（ステップ３）候補列挙部２３０、候補絞込部２４０、連接確率計算部２５０による一連の処理（後述する）を実施させ、ステップ４に進む。
（ステップ４）現位置が文末であるかを調べ、文末でなければステップ５に進み、文末であればステップ６に進む。
（ステップ５）文字位置を１文字進め、ステップ２へ戻る。
（ステップ６）後段の探索処理部３００に処理を移す。

候補列挙部２３０の機能構成図を図６に示す。同図に示すように、候補列挙部２３０は、右側固有表現付形態素候補列挙部２３１と、左側固有表現付形態素候補列挙部２３１とからなる。

右側固有表現付形態素候補列挙部２３１は、固有表現付形態素候補データを入力として、前向制御部２２０で制御されている現位置における右側固有表現付形態素候補を列挙し、これを右側データとして出力する。図７に、図５で例示した固有表現付形態素候補データを入力データとした場合の位置３における右側データの一部を例示する。

左側固有表現付形態素候補列挙部２３１は、右側終了位置データ記憶部２６１に記憶された右側終了位置データを入力とし、現位置における左側固有表現付形態素候補を列挙し、これを左側データとして出力する。すなわち、左側固有表現付形態素候補列挙部２３１は、現位置の直前に位置する固有表現付形態素候補を取得する直前候補取得手段として機能する。図８に、位置３における左側データの一例を示す。なお、右側終了位置データ記憶部２６１には、前記前向制御部２２０により、初期状態として終了位置０、文頭を表す特殊記号＜ｓ＞が登録されている。また、右側終了位置データ記憶部２６１には、後述の処理により新しいデータが追加更新される。

候補絞込部２４０の機能構成図を図９に示す。候補絞込部２４０は、２段階の絞込処理を行う。また、この絞込処理に先立ち２種類（ここでは便宜的に絞込Ａと絞込Ｂと称する）の事前処理を行う。このような処理を実現するため、候補絞込部２４０は、図９に示すように、絞込Ａ：検索キー抽出部２４１と、絞込Ａ：確率付与部２４２と、絞込Ｂ：次形態素列挙部２４３と、絞込Ｂ：確率付与部２４４と、第１絞込実行部２４５と、第２絞込実行部２４６とを備えている。

絞込Ａ：検索キー抽出部２４１は、右側データを入力とし、後段の検索処理で用いる検索キーを抽出する。具体的には、各右側固有表現付形態素候補の品詞、単語タイプ、固有表現状態を検索キーとして抽出して、該右側固有表現付形態素候補とそれに対応する検索キーの対を右側検索キーデータとして出力する。図１０に右側検索キーデータの一例を示す。

ここで各右側固有表現付形態素候補の単語タイプは、形態素の表記に基づいて予め決められた単語タイプの中から選択して決める。ここでは、予め決められた単語タイプは、漢字、ひらがな、カタカナ、英文字、数字、記号、その他のそれぞれを＜ｋａｎ＞，＜ｈｉｒａ＞，＜ｋａｔａ＞，＜ａｌｐｈａ＞，＜ｎｕｍ＞，＜ｓｙｍ＞，＜ｍｉｓｃ＞と表したものとする。例えば、右側固有表現付形態素候補の表記「ＮＴＴ」の単語タイプは＜ａｌｐｈａ＞、右側固有表現付形態素候補の表記「社長」の単語タイプは＜ｋａｎ＞、のように決定する。形態素の表記から予め定められた単語タイプを選択する方法はパタンマッチなどの従来技術を用いて自由に設定しておけばよく、例えば表記が数字＋ある特定の漢字（例えば、年、月、日）である場合には＜ｄａｔｅ＞という単語タイプを選択するというパタンマッチ規則を定義しておいた場合には、表記「１０月」の単語タイプは＜ｄａｔｅ＞と決定する。

絞込Ａ：確率付与部２４２は、右側検索キーデータを入力とし、各右側固有表現付形態素候補の検索キーを用いて品詞及び単語タイプ別固有表現出現確率記憶部２６２に記憶されている品詞及び単語タイプ別固有表現出現確率テーブルを参照し、検索キーと合致するインデックスがあれば、対応する確率値（確率Ａ値）を抽出し、右側固有表現付形態素候補と共に右側データＡとして出力する。品詞及び単語タイプ別固有表現出現確率テーブルのインデックスに検索キーと合致するものが存在しない場合は、確率Ａ値は０として出力する。図１１に右側データＡの一例を示す。

ここで、品詞及び単語タイプ別固有表現出現確率記憶部２６２について説明する。品詞及び単語タイプ別固有表現出現確率とは、形態素が、ある品詞ｐｏｓ及び単語タイプ＜ｔｙｐｅ＞である条件下で、その形態素がどの固有表現状態ＮＣをとるかの尤度を表した条件付確率Ｐ（ＮＣ｜ｐｏｓ，＜ｔｙｐｅ＞）である。図１２に品詞及び単語タイプ別固有表現出現確率テーブルの一例を示す。同図に示すように、品詞及び単語タイプ別固有表現出現確率テーブルは、形態素の品詞、単語タイプ、固有表現状態の組からなるインデックスと、該インデックスに対応する品詞及び単語タイプ別固有表現出現確率値が格納されたテーブルである。品詞及び単語タイプ別固有表現出現確率テーブルは、予め作成しておき、品詞及び単語タイプ固有表現出現確率記憶部２６２に記憶しておく。

絞込Ｂ：次形態素列挙部２４３は、右側データ及び固有表現付形態素候補データを入力とし、右側データの各右側固有表現付形態素候補に対して、それぞれの右側固有表現付形態素候補野の次に接続する形態素候補をすべて列挙し、それぞれの右側固有表現付形態素候補について、該右側固有表現付形態素候補と接続するすべての次形態素候補とを対応付けたデータを次形態素データとして出力する。図１３に次形態素データの一例を示す。

絞込Ｂ：確率付与部２４４は、次形態素データを入力とし、各右側固有表現付形態素候補の固有表現状態と次形態素との組それぞれを検索キーとして次形態素別固有表現出現確率記憶部２６３に記憶されている次形態素別固有表現出現確率テーブルを参照し、検索キーと合致するインデックスがあれば、対応する確率値をそれぞれ取得する。次形態素別固有表現出現確率テーブルのインデックスに検索キーと合致するものが存在しない場合は確率値０とする。次に、絞込Ｂ：確率付与部２４４は、各右側固有表現付形態素候補それぞれについて、後続する全ての次形態素の前記確率値の和をとったものを確率Ｂ値として求め、該右側固有表現付形態素候補と共に対応する確率Ｂ値を右側データＢとして出力する。図１４に右側データＢの一例を示す。

ここで、次形態素別固有表現出現確率記憶部２６３について説明する。次形態素別固有表現出現確率とは、形態素の次形態素ｎｅｘｔが出現している条件下で、その形態素がどの固有表現状態ＮＣをとるかの尤度を表した条件付確率Ｐ（ＮＣ｜ｎｅｘｔ）である。図１５に次形態素別固有表現出現確率テーブルの一例を示す。同図に示すように、次形態素別固有表現出現確率テーブルは、形態素の次形態素、形態素の固有表現状態の組からなるインデックスと、該インデックスに対応する次形態素別固有表現出現確率値が格納されたテーブルである。次形態素別固有表現出現確率テーブルは、予め作成しておき、次形態素別固有表現出現確率記憶部２６３に記憶しておく。

第１絞込実行部２４５は、前記右側データＡ及び右側データＢを入力とし、各右側固有表現付形態素候補に対する確率Ａ値及び確率Ｂ値を取得し、確率Ａ値と確率Ｂ値とを重み付け加算したものを、各右側固有表現付形態素候補の絞込ＡＢ重み付け確率値として求める。重み付け係数をｋとすると絞込ＡＢ重み付け確率値の算出式は下記の通りである。重み付け係数ｋは例えば０．２を用いる。

絞込ＡＢ重み付け確率値＝ｋ×確率Ａ値＋（１−ｋ）×確率Ｂ値
次に、第１絞込実行部２４５は、全右側固有表現付形態素候補のうち、前記絞込ＡＢ重み付け確率値が最大の右側固有表現付形態素候補から、絞込ＡＢ重み付け確率値が前記最大値の１／１０である右側固有表現付形態素候補まで、を抽出することによって第１の絞込みを実施する。そして、抽出した第１絞込後右側固有表現付形態素候補とそれに対応する絞込ＡＢ重み付け確率値との組を第１絞込後右側データとして出力し、右側終了位置データ記憶部２６１に記憶する。図１６に第１絞込後右側データの一例を示す。

さらに、前記抽出した第１絞込後右側固有表現付形態素候補について、それぞれの表記の終了位置を求め、終了位置と第１絞込後右側固有表現付形態素候補の組を右側終了位置データ記憶部２６１に記憶された右側終了位置データに追加して記録する。図１７に右側終了位置データ記憶部２６１に記憶された右側終了位置データの一例を示す。

なお、上記の例では、第１の絞込みは、全ての絞込ＡＢ重み付け確率値のうち絞込ＡＢ重み付け確率値が最大の右側固有表現付形態素候補から絞込ＡＢ重み付け確率値が前記最大のものの１／１０である右側固有表現付形態素候補までを抽出する規則により行っている他の規則に従って抽出するようにしてもよい。例えば、絞込ＡＢ重み付け確率値が最大のものから上位Ｎ個の右側固有表現付形態素候補を抽出する規則としてもよい。すなわち、全右側固有表現付形態素候補から、絞込ＡＢ重み付け確率値が上位であるものを抽出する規則であれば、どのような規則を用いてもよい。なお、Ｎは１以上の整数であり、この数値はルール内で設定する。

第２絞込実行部２４６は、左側データと第１絞込後右側データとを入力とし、左側データから左側固有表現付形態素候補、第１絞込後右側データから第１絞込後右側固有表現付形態素候補を取得して、全ての組合せの連接ペアを生成する。ここで、第２絞込実行部２４６は、固有表現連接ペア記憶部２６４に記憶されている固有表現連接ペアテーブルを参照して、固有表現識別子の接続が固有表現連接ペアテーブルに記録された場合の連接ペアのみを、第２絞込後左側固有表現付形態素候補と第２絞込後右側固有表現付形態素候補との組として、この組を連接ペアデータとして出力する。図１８に連接ペアデータの一例を示す。候補絞込部２４０の絞込処理により得られた連接ペアデータは、後述するように連接確率計算部２５０を介して最大途中確率データ記憶部２６８に記憶される。

前記固有表現連接ペアテーブルは、図１９に例示するように、２つの連続する固有表現付形態素候補の固有表現識別子の連接パタンの中で、接続が許可される組合せを記録したテーブルである。例えば、Ｂ−＜ＯＲＧ＞Ｉ−＜ＯＲＧ＞の連接はテーブルに存在するが、Ｂ−＜ＯＲＧ＞Ｉ−＜ＰＳＮ＞の連接はテーブルに存在しない。固有表現連接ペアテーブルは、予め作成しておき、固有表現連接ペア記憶部２６４に記憶しておく。

なお、本発明に係る固有表現抽出装置は、第１絞込実行部２４５の処理を行っていれば、第２絞込実行部２４６の処理は必ずしも行う必要はない。この場合の固有表現抽出装置は、図１から固有表現連接ペア記憶部２６４が取り除かれた構成となる。また、候補絞込部２４０は、第２絞込実行部２４６の処理の代わりに、左側データと第１絞込後右側データを入力とし、連接ペアデータとして前者から左側固有表現付形態素候補、後者から第１絞込後右側固有表現付形態素候補を取得して、全ての組合せの連接ペアを生成し、これら全ての組を連接ペアデータとして出力する連接ペアデータ生成処理を行えばよい。さらにこの場合、候補絞込部２４０の出力である連接ペアデータは、第２絞込後左側固有表現付形態素候補と第２絞込後右側固有表現付形態素候補との組ではなく、左側固有表現付形態素候補と第１絞込後右側固有表現付形態素候補との組合せから構成されるため、後述の連接確率計算部２５０、探索処理部３００では、第２絞込後左側固有表現付形態素候補、第２絞込後右側固有表現付形態素候補、と記載されているところを、それぞれ、左側固有表現付形態素候補、第１絞込後右側固有表現付形態素候補と読み替えて処理を行えばよい。

連接確率計算部２５０の機能構成図を図２０に示す。同図に示すように、連接確率計算部２５０は、連接確率抽出計算部２５１と、最大途中確率計算部２５２とからなる。

連接確率抽出計算部２５１は、連接ペアデータを入力とし、連接ペアデータ中の各連接ペアについて、まず後述の条件判定を行って、次に前記条件判定の判定結果に基づいて３つの確率テーブルの適切なものを参照して連接確率値を抽出計算し、各連接ペアと共に対応する連接確率値を連接ペア確率データとして出力する（後述の連接確率抽出処理）。図２１に連接ペア確率データの一例を示す。

まず、条件判定処理について説明する。連接確率抽出計算部２５１は、連接ペアデータ中のそれぞれの連接ペアについて、連接ペアの第２絞込後左側固有表現付形態素候補の固有表現識別子と第２絞込後右側固有表現付形態素候補の固有表現識別子を抽出し、どちらの固有表現識別子もＮＩＬである場合と、第２絞込後右側固有表現付形態素候補の固有表現識別子がＩ−で始まっている場合は、この連接ペアの形態素候補は同じ固有表現のまとまりに属すると判定し、条件Ｓとの判定結果を得る。例えば、ＮＴＴ／ＮＴＴ／名詞：ｎｔ／Ｂ−＜ＯＲＧ＞持株／モチカブ／名詞／Ｉ−＜ＯＲＧ＞の連接ペアは条件Ｓである。これが意味するのはこの２つの形態素候補は、「ＮＴＴ／ＮＴＴ／名詞：ｎｔ持株／モチカブ／名詞」でまとまって組織名を表す同じ固有表現状態＜ＯＲＧ＞に属しているということである。

これ以外の場合は、この連接ペアの形態素候補は異なる固有表現のまとまりに属すると判定し、条件Ｃとの判定結果を得る。例えば、ＮＴＴ／ＮＴＴ／名詞：ｎｔ／Ｂ−＜ＯＲＧ＞持株／モチカブ／名詞／Ｂ−＜ＯＲＧ＞の連接ペアは条件Ｃである。これらはどちらも組織名であるが、「ＮＴＴ／ＮＴＴ／名詞：ｎｔ」と「持株／モチカブ／名詞」で、それぞれ別個の固有表現状態＜ＯＲＧ＞に属しているということである。

次に連接確率抽出処理について説明する。この処理において参照するテーブルには、固有表現遷移確率テーブルと、先頭単語出現確率テーブルと、非先頭単語出現確率テーブルの３種類がある。条件Ｃでは上記３つの確率テーブル全てを参照する。条件Ｓでは、非先頭単語出現確率テーブルのみを参照する。

以下の説明では、連接する２つの固有表現付形態素のうち、先行する形態素をｗ_i-1、固有表現状態をＮＣ_i-1、後続する形態素をｗ_i、固有表現状態をＮＣ_iと表すことにする。

固有表現遷移確率テーブルの一例を図２２に示す。同図に示すように、固有表現遷移確率テーブルは、固有表現識別子の状態遷移確率を表すものであり、後続する形態素の固有表現状態ＮＣ_i、先行する形態素の固有表現状態ＮＣ_i-1、先行する形態素ｗ_i-1の組からなるインデックスに対して、固有表現遷移確率Ｐ（ＮＣ_i｜ＮＣ_i-1，ｗ_i-1）が記録されているテーブルである。固有表現遷移確率テーブルは、予め作成しておき、固有表現遷移確率記憶部２６５に記憶しておく。

先頭単語出現確率テーブルの一例を図２３に示す。同図に示すように、先頭単語出現確率テーブルは、ある固有表現状態下における単語のｂｉｇｒａｍ出現確率のうち先頭単語の出現確率を表すものであり、後続する形態素ｗ_i、後続する形態素の固有表現状態ＮＣ_i、先行する形態素の固有表現状態ＮＣ_i-1の組からなるインデックスに対して、先頭単語出現確率Ｐ（ｗ_i｜ＮＣ_i，ＮＣ_i-1）が記録されているテーブルである。ここで先頭単語とは、前記条件判定処理において条件Ｃと判定されたときの右側形態素候補に該当する。先頭単語出現確率テーブルは、予め作成しておき、先頭単語出現確率記憶部２６６に記憶しておく。

非先頭単語出現確率テーブルの一例を図２４に示す。同図に示すように、非先頭単語出現確率テーブルは、ある固有表現状態下における単語ｂｉｇｒａｍ出現確率のうち、非先頭単語の出現確率を表すものであり、後続する形態素ｗ_i、先行する形態素ｗ_i-1、先行する形態素の固有表現状態ＮＣ_i-1のインデックスに対して非先頭単語出現確率Ｐ（ｗ_i｜ｗ_i-1，ＮＣ_i-1）が記録されているテーブルである。ここで非先頭単語とは、前記条件判定処理において条件Ｓと判定されたときの右側形態素候補に該当する。非先頭単語出現確率テーブルは、予め作成しておき、非先頭単語出現確率記憶部２６７に記憶しておく。

連接確率抽出計算部２５１は、連接ペアデータ中の各連接ペアについて、前記条件判定の判定結果が条件Ｃの場合は、以下の処理を行う。

連接確率抽出計算部２５１は、第２絞込後右側固有表現付形態素候補の固有表現状態、第２絞込後左側固有表現付形態素候補の固有表現状態、第２絞込後左側固有表現付形態素候補の形態素候補を検索キーとして固有表現遷移確率テーブルを参照し、検索キーと合致するインデックスがあれば、対応する確率値を第１の確率値として取得する。検索キーと合致するインデックスがなければｅ^-10を第１の確率値とする。

また、第２絞込後右側固有表現付形態素候補の形態素候補、第２絞込後右側固有表現付形態素候補の固有表現状態、第２絞込後左側固有表現付形態素候補の固有表現状態を検索キーとして先頭単語出現確率テーブルを参照し、検索キーと合致するインデックスがあれば、対応する確率値を第２の確率値として取得する。検索キーと合致するインデックスがなければｅ^-10を第２の確率値とする。

更に、特殊記号＜ｅｎｄ＞、第２絞込後左側固有表現付形態素候補の形態素候補、第２絞込後左側固有表現付形態素候補の固有表現状態を検索キーとして非先頭単語出現確率テーブルを参照し、検索キーと合致するインデックスがあれば、対応する確率値を第３の確率値として取得する。検索キーと合致するインデックスがなければｅ^-10を第３の確率値とする。

次に、連接確率抽出計算部２５１は、第１の確率値、第２の確率値、第３の確率値を全て積算して該連接ペアの連接確率値として、対応する連接ペアと共に連接ペア確率データとして出力する。

一方、連接確率抽出計算部２５１は、連接ペアデータ中の各連接ペアについて、前記条件判定の判定結果が条件Ｓの場合は、以下の処理を行う。

連接確率抽出計算部２５１は、第２絞込後右側固有表現付形態素候補の形態素候補、第２絞込後左側固有表現付形態素候補の形態素候補、第２絞込後左側固有表現付形態素候補の固有表現状態を検索キーとして非先頭単語出現確率テーブルを参照し、検索キーと合致するインデックスがあれば、対応する確率値を連接確率値として取得する。検索キーと合致するインデックスがなければｅ^-10を連接確率値とする。この連接確率値を、対応する連接ペアと共に連接ペア確率データとして出力する。

最大途中確率計算部２５２の処理について説明する。ここで、最大途中確率とは、ある位置において、文頭から第２絞込後右側固有表現付形態素候補までの連接確率値の積の中で最大の値のものを意味する。

また、最大途中確率データとは、ある位置における第２絞込後右側固有表現付形態素候補に接続する全ての第２絞込後左側固有表現付形態素候補のうち、最大途中確率をとるときの第２絞込後左側固有表現付形態素候補と、そのときの最大途中確率値、及びそのときの位置を、該第２絞込後左側固有表現付形態素候補と共に記録したデータである。位置０では、連接ペア確率データに記録された内容がそのまま最大途中確率データに記録される。それ以降の位置では、直前の位置までの連接ペアについての最大途中確率データが記録されており、その中には現在位置における第２絞込後左側固有表現付形態素候補が第２絞込後右側固有表現付形態素候補だったときの最大途中確率データが存在する。この最大途中確率データは、最大途中確率データ記憶部２６８に記憶されている。図２５に最大途中確率データの一例を示す。

最大途中確率計算部２５２は、この最大途中確率データ記憶部２６８に記憶された最大途中確率データを参照して文頭から第２絞込後左側固有表現付形態素候補までの連接確率値の積の最大値と、入力された連接ペア確率データの各連接ペアの連接確率値を積算し、その位置における文頭から連接ペア確率データ中の第２絞込後右側固有表現付形態素候補までの連接確率値の積を全て計算する。そして、全ての第２絞込後右側固有表現付形態素候補それぞれについて、ある第２絞込後右側固有表現付形態素候補に接続する全ての第２絞込後左側固有表現付形態素候補のうち、連接確率値の積が最大となる第２絞込後左側固有表現付形態素候補を調べ、位置と第２絞込後右側固有表現付形態素候補とその連接確率値の積が最大となる第２絞込後左側固有表現付形態素候補と前記計算した連接確率値の積の組を最大途中確率データに追加し、最大途中確率データ記憶部２６８に記録する。

探索処理部３００は、絞込部２００が文頭から文末までの処理を行った後に、最大途中確率データ記憶部に格納された最大途中確率データを入力として、固有表現付形態素候補列を出力する。以下、具体的な処理について詳述する。

探索処理部３００は、文頭から文末までの全ての最大途中確率データが記録された最大途中確率データを入力とし、位置が文末（上記表１の例では位置１３）である組の中から、最大途中確率値が最大である組を選択する。そして、選択した組の第２絞込後左側固有表現付形態素候補を固有表現付形態素候補として抽出する。また、この文末の位置を現在の位置とする。

また、以降、位置が文頭（＝位置０）に達するまで下記（ａ）、（ｂ）、（ｃ）の処理を繰り返す。

（ａ）選択した組の第２絞込後左側固有表現付形態素候補の表記の文字数を数え、現在の位置を示す数字から前記文字数を示す数字を差し引いた値の位置に存在し、かつ、選択した組の第２絞込後左側固有表現付形態素候補が第２絞込後右側固有表現付形態素候補である組を選択する。また、現在の位置を前記差し引いた位置とする。例えば現在の位置が５であり、選択した組の第２絞込後左側固有表現付形態素候補が「持株／モチカブ／名詞／Ｉ−＜ＯＲＧ＞」である場合、位置を示す数字５から表記の文字数を示す数字２を差し引いて３、即ち、位置３に存在し、「持株／モチカブ／名詞／Ｉ−＜ＯＲＧ＞」が第２絞込後右側固有表現付形態素候補である組を選択する。また、現在の位置を３とする。

（ｂ）前記（ａ）で選択した組の位置、即ち現在の位置、が文頭（＝位置０）であるか否かを判定し、文頭でない場合は（ｃ）に、文頭である場合は（ｄ）に進む。

（ｃ）前記（ａ）で選択した組の第２絞込後左側固有表現付形態素候補を固有表現付形態素候補として抽出し、前記（ａ）に戻る。

（ｄ）得られた固有表現付形態素候補の全てを組み合わせて固有表現付形態素候補列として出力する。

以上の処理により、探索処理部３００は、最終的に文頭から文末までの連接確率値の積が最大となる固有表現付形態素候補列を出力することができる。図２６に上記表１を入力文とした場合の固有表現付形態素候補列の一例を示す。

なお、探索処理部３００の処理は、最終的に文頭から文末までの連接確率値の積が最大となる固有表現付形態素候補列、または、最大のものから上位Ｍ個の固有表現付形態素候補列を出力する処理であれば、どのような処理を用いてもよい。例えば、従来技術の後向きＡ^*アルゴリズムを利用して文頭から文末までの連接確率値の積が最大のものから上位Ｍ個の固有表現付形態素候補列を探索して出力しても良い。なお、Ｍの値は１以上の整数であり、予め設定しておく。

次に、この固有表現抽出装置１の動作について図２７のフローチャートを参照して説明する。まず、形態素解析部１００が入力文に対する形態素解析処理を行いＮｂｅｓｔ形態素列候補を得る（ステップＳ１）。次に、絞込部２００の候補作成部２１０が、Ｎｂｅｓｔ形態素列候補から形態素候補作成処理及び固有表現付形態素候補作成処理を行い固有表現付形態素候補データを得る（ステップＳ２，Ｓ３）。次に、前向制御部２２０は現位置を文頭に設定し（ステップＳ４）、現位置において右側固有表現付形態素候補が存在するかを判定する（ステップＳ５）。現位置において右側固有表現付形態素候補が存在するかを判定しない場合には、当該位置について以下の処理を行う。

まず、候補列挙部２３０が、右側固有表現付形態素候補の列挙処理及び左側固有表現付形態素候補の列挙処理を行い、右側データ及び左側データを得る（ステップＳ６，Ｓ７）。次に、候補絞込部２４０が、右側データ及び左側データ並びに固有表現付形態素候補データを入力として、絞込Ａ：検索キー抽出処理（ステップＳ８）、絞込Ａ：確率付与処理（ステップＳ９）、絞込Ｂ：次形態素列挙処理（ステップＳ１０）、絞込Ｂ：確率付与処理（ステップＳ１１）を行う。次いで、候補絞込部２４０は、第１絞込実行処理（ステップＳ１２）、第２絞込実行処理（ステップＳ１３）を行うことにより連接ペアデータを出力する。次に、連接確率計算部２５０は、連接ペアデータを入力として、連接確率抽出計算処理（ステップＳ１４）、最大途中確率計算処理（ステップＳ１５）を行うことにより、最大途中確率データを最大途中確率データ記憶部２６８に記録する。

前向制御部２２０は、前記ステップＳ６において右側固有表現付形態素候補が現位置において存在していない場合、又は、上記ステップＳ６〜Ｓ１５が終了した場合には、現位置が文末であるかを判定する（ステップＳ１６）。現位置が文末でない場合には、現位置を１つ増加させ（ステップＳ１７）、上記ステップＳ５に処理を移す。これにより、最大途中確率データが最大途中確率データ記憶部２６８に蓄積される。現位置が文末の場合には、探索処理部３００が最大途中確率データ記憶部２６８の探索処理を行い、固有表現付形態素候補列が得られる（ステップＳ１８）。

ここで、本発明で用いるモデル及びその作成方法について説明する。本発明で用いるモデルはいずれも予め人手で文章データを形態素解析し、各形態素に固有表現識別子を付与したコーパスを用いて作成する。ここでのモデルとは以下の５つである。

・品詞及び単語タイプ別固有表現出現確率Ｐ（ＮＣ｜ｐｏｓ，＜ｔｙｐｅ＞）
・次形態素別固有表現出現確率Ｐ（ＮＣ｜ｎｅｘｔ）
・固有表現遷移確率Ｐ（ＮＣ_i｜ＮＣ_i-1，ｗ_i-1）
・先頭単語出現確率Ｐ（ｗ_i｜ＮＣ_i，ＮＣ_i-1）
・非先頭単語出現確率Ｐ（ｗ_i｜ｗ_i-1，ＮＣ_i-1）

一般的に、確率Ｐ（Ａ｜Ｂ）はコーパス中の出現頻度Ｃ（^*）を用いて以下のように計算できる。

Ｐ（Ａ｜Ｂ）＝Ｃ（Ｂ，Ａ）／Ｃ（Ｂ）
従って、上記の各モデルは以下のように計算できる。

・Ｐ（ＮＣ｜ｐｏｓ，＜ｔｙｐｅ＞）＝Ｃ（ｐｏｓ，＜ｔｙｐｅ＞，ＮＣ）／Ｃ（ｐｏｓ，＜ｔｙｐｅ＞）
・Ｐ（ＮＣ｜ｎｅｘｔ）＝Ｃ（ｎｅｘｔ，ＮＣ）／Ｃ（ｎｅｘｔ）
・Ｐ（ＮＣ_i｜ＮＣ_i-1，ｗ_i-1）＝Ｃ（ＮＣ_i-1，ｗ_i-1，ＮＣ_i）／Ｃ（ＮＣ_i-1，ｗ_i-1）
・Ｐ（ｗ_i｜ＮＣ_i，ＮＣ_i-1）＝Ｃ（ＮＣ_i，ＮＣ_i-1，ｗ_i）／Ｃ（ＮＣ_i，ＮＣ_i-1）
・Ｐ（ｗ_i｜ｗ_i-1，ＮＣ_i-1）＝Ｃ（ｗ_i-1，ＮＣ_i-1，ｗ_i）／Ｃ（ｗ_i-1，ＮＣ_i-1）

コーパス中の上式右辺で必要となる頻度を求め、それぞれの確率値を計算し、テーブル化しておく。この処理は予め行い、各確率テーブルは各確率記憶部に記憶しておく。以下、各モデルについて詳述する。

まず、固有表現抽出モデルについて説明する。本実施形態では、固有表現遷移確率記憶部２６５に記憶する固有表現遷移確率テーブル、先頭単語出現確率記憶部２６６に記憶する先頭単語出現確率テーブル、非先頭単語出現確率記憶部２６７に記憶する非先頭単語出現確率テーブルが該当する。

本発明で用いる固有表現抽出モデルは隠れマルコフモデル（ＨＭＭ）に基づくモデルで、固有表現情報の状態遷移確率と、ある状態における単語の出現確率から構成される。なお、ＨＭＭに基づく英語固有表現抽出モデルは、Daniel M.Bikel and Scott Miller and Richard Schwartz and Ralph Weischedel: Nymble: a High-performance Learning Name Finder, Fifth Conference on Applied Natural Language Processing, pp.194-201(1997)を参照されたい。

ある文章が、形態素列Ｗ＝ｗ₁・・・ｗ_n、固有表現情報列ＮＣ＝ＮＣ₁・・・ＮＣ_nで構成されるとすると、固有表現情報抽出は形態素列と固有表現情報列の同時確率Ｐ（Ｗ，ＮＣ）＝ΠＰ（ｗ_i，ＮＣ_i）を最大化することである。各Ｐ（ｗ_i，ＮＣ_i）はＨＭＭを用いて以下のように表される。

１．ＮＣ_i≠ＮＣ_i-1の時Ｐ（ｗ_i，ＮＣ_i）＝Ｐ（ＮＣ_i｜ＮＣ_i-1，ｗ_i-1）×Ｐ（ｗ_i｜ＮＣ_i，ＮＣ_i-1）
２．ＮＣ_i＝ＮＣ_i-1且つＮＣ_i＝ＮＣ_i+1の時Ｐ（ｗ_i，ＮＣ_i）＝Ｐ（ｗ_i｜ｗ_i-1，ＮＣ_i）
３．ＮＣ_i＝ＮＣ_i-1且つＮＣ_i≠ＮＣ_i+1の時Ｐ（ｗ_i，ＮＣ_i）＝Ｐ（ｗ_i｜ｗ_i-1，ＮＣ_i）×Ｐ（＜ｅｎｄ＞｜ｗ_i，ＮＣ_i）

式１は、固有表現が変化した時の確率モデルであり、固有表現情報の状態遷移確率Ｐ（ＮＣ_i｜ＮＣ_i-1，ｗ_i-1）とその状態遷移における最初の形態素の出現確率Ｐ（ｗ_i｜ＮＣ_i，ＮＣ_i-1）の積で表される。式２及び３はある同じ固有表現の状態の中における単語ｂｉｇｒａｍ出現確率を示しており、特に３は、単語ｗ_iがある固有表現の状態で最後の単語であったことを表すものである（既出の例では、例えばＮＴＴ持株会社の「会社」は＜ＯＲＧ＞の最後の単語である）。＜ｅｎｄ＞はある状態での終端を表す特殊記号である。上記の式に基づいて各位置における連接出現確率を計算する。

確率式右辺の項の種類はＰ（ＮＣ_i｜ＮＣ_i-1，ｗ_i-1）、Ｐ（ｗ_i｜ＮＣ_i，ＮＣ_i-1）、Ｐ（ｗ_i｜ｗ_i-1，ＮＣ_i-1）の３種類である（３番目の項にはＰ（＜ｅｎｄ＞｜ｗ_i，ＮＣ）も含まれている）。この３種類をそれぞれ、固有表現遷移確率、先頭単語出現確率、非先頭単語出現確率と呼んでいる。

計算した固有表現遷移確率については、後続する形態素の固有表現状態ＮＣ_i、先行する形態素の固有表現状態ＮＣ_i-1、先行する形態素ｗ_i-1の組からなるインデックスと、そのインデックスに対応する固有表現遷移確率Ｐ（ＮＣ_i｜ＮＣ_i-1，ｗ_i-1）とをそれぞれ対応させて固有表現遷移確率テーブルとし、固有表現遷移確率記憶部２６５に記憶する。

計算した先頭単語出現確率については、後続する形態素ｗ_i、後続する形態素の固有表現状態ＮＣ_i、先行する形態素の固有表現状態ＮＣ_i-1の組からなるインデックスと、そのインデックスに対応する先頭単語出現確率Ｐ（ｗ_i｜ＮＣ_i，ＮＣ_i-1）とをそれぞれ対応させて先頭単語出現確率テーブルとし、先頭単語出現確率記憶部２６６に記憶する。

計算した非先頭単語出現確率については、後続する形態素ｗ_i、先行する形態素ｗ_i-1、先行する形態素の固有表現状態ＮＣ_i-1の組からなるインデックスと、そのインデックスに対応する非先頭単語出現確率Ｐ（ｗ_i｜ｗ_i-1，ＮＣ_i-1）とをそれぞれ対応させて非先頭単語出現確率テーブルとし、非先頭単語出現確率記憶部２６７に記憶する。

次に、絞込モデルについて説明する。本実施形態では、品詞及び単語タイプ別固有表現出現確率記憶部２６２に記憶する品詞及び単語タイプ別固有表現出現確率テーブル、次形態素別固有表現出現確率記憶部２６３に記憶する次形態素別固有表現出現確率テーブルが該当する。

まず、品詞及び単語タイプ別固有表現出現確率について説明する。形態素自身の単語タイプと品詞は、その形態素の固有表現を左右する要素となる。例えば名詞で＜ｋａｎ＞ならば、人名、地名、組織名に多く、同じ＜ｋａｎ＞でも動詞では固有表現とはなりにくい。また＜ｎｕｍ＞は金額、日付などの数値表現にかかわる固有表現になりやすいが、人名、地名になることは少ない。このような性質を絞り込みのためにモデル化したものが絞込モデルＡであり、次式であらわされる。

Ｐ（ＮＣ｜ｐｏｓ，＜ｔｙｐｅ＞）
形態素の品詞ｐｏｓ、単語タイプ＜ｔｙｐｅ＞、固有表現状態ＮＣの組それぞれについてこの条件付確率Ｐ（ＮＣ｜ｐｏｓ，＜ｔｙｐｅ＞）を求めたものを品詞及び単語タイプ別固有表現出現確率値とする。

求めた品詞及び単語タイプ別固有表現出現確率値については、形態素の品詞、単語タイプ、固有表現状態の組からなるインデックスと、そのインデックスに対応する品詞及び単語タイプ別固有表現出現確率値Ｐ（ＮＣ｜ｐｏｓ，＜ｔｙｐｅ＞）とをそれぞれ対応させて品詞及び単語タイプ別固有表現出現確率テーブルとし、品詞及び単語タイプ別固有表現出現確率記憶部２６２に記憶する。

一方、ある形態素が、どの固有表現を構成するかを左右するもう１つの要素として、更に次の形態素が何であるか、というのがある。例えば、同じ「齋藤」であっても、次に「氏」があれば、人名であるだろうし、「医院」があれば組織名であろう。実際にはＮｂｅｓｔ形態素解析候補列を処理対象としているので、次の形態素は複数存在することがありうる。そこで、右側候補列の次の形態素集合（次形態素集合と呼び、Ｎｅｘｔと表すことにする）に着目して絞り込みのためにモデル化したものが絞込モデルＢであり、次式で表される。

Ｐ（ＮＣ｜Ｎｅｘｔ）＝ΣＰ（ＮＣ｜ｎｅｘｔ）ただしｎｅｘｔはＮｅｘｔ
に含まれる１形態素
この右辺は、次形態素集合Ｎｅｘｔに含まれる次形態素がｎｅｘｔである時に、固有表現はＮＣであるという条件付確率Ｐ（ＮＣ｜Ｎｅｘｔ）を、Ｎｅｘｔに含まれる全ての次形態素について計算して和をとったものである。形態素の次形態素、形態素の固有表現状態の組それぞれについてこの条件付確率Ｐ（ＮＣ｜Ｎｅｘｔ）を求めたものを次形態素別固有表現出現確率とする。

求めた次形態素別固有表現出現確率については、形態素の次形態素、形態素の固有表現状態の組からなるインデックスと、そのインデックスに対応する次形態素別固有表現出現確率Ｐ（ＮＣ｜Ｎｅｘｔ）とをそれぞれ対応させて次形態素別固有表現出現確率テーブルとし、次形態素別固有表現出現確率記憶部２６３に記憶する。

以上詳述したように本実施の形態に係る固有表現抽出装置によれば、第１絞込実行部２４５において、入力文の各位置での固有表現付形態素候補から尤度の低い候補が削除されるので、従来技術より少ない演算処理量で入力文の各形態素の固有表現を抽出することができる。また、第２絞込実行部２４６において、連接する２つの固有表現付形態素候補の組合せから明らかに有り得ない組合せが取り除かれるので候補数を減らすことができるので、さらに少ない演算処理量で入力文の各形態素の固有表現を抽出することができる。

以上本発明の一実施の形態について詳述したが本発明はこれに限定されるものではない。本発明の範囲は特許請求の範囲に記載されたものであり、その範囲内に含まれる種々の形態で本発明を実施できる。例えば、上記実施形態で用いた固有表現状態，固有表現識別子，品詞，単語タイプ等は一例であり、他のものを用いてもよい。

なお、上記実施の形態において各機能部でのデータの受け渡し（例えば、形態素候補作成部２１１と固有表現付形態素候補作成部２１２間の形態素候補データの受け渡し）は、一般的にはコンピュータのメモリなどの記憶手段を介して行われる。また、これらのデータは、固有表現の抽出を最終目的とする場合には一時的なものとして取り扱えば足りるが、必要に応じて別途他の装置等で利用できるよう記憶装置に保存しておいてもよい。

固有表現抽出装置の機能構成図Ｎｂｅｓｔ形態素列候補の一例候補作成部の機能構成図形態素候補データの一例固有表現付形態素候補データの一例候補列挙部の機能構成図右側データの一例左側データの一例候補絞込部の機能構成図右側検索キーデータの一例右側データＡの一例品詞及び単語タイプ別固有表現出現確率テーブルの一例次形態素データの一例右側データＢの一例次形態素別固有表現出現確率テーブルの一例第１絞込後右側データの一例右側終了位置データの一例連接ペアデータの一例固有表現連接ペアテーブルの一例連接確率計算部の機能構成図連接ペア確率データの一例固有表現遷移確率テーブルの一例先頭単語出現確率テーブルの一例非先頭単語出現確率テーブルの一例最大途中確率データの一例固有表現付形態素列候補の一例固有表現抽出装置の動作を説明するフローチャート

符号の説明

１…固有表現抽出装置、１００…形態素解析部、１１０…形態素解析モデル記憶部、２００…絞込部、２１０…候補作成部、２１１…形態素候補作成部、２１２…固有表現付形態素候補作成部、２２０…前向制御部、２３０…候補列挙部、２３１…右側固有表現付形態素候補列挙部、２３２…左側固有表現付形態素候補列挙部、２４０…候補絞込部、２４１…絞込Ａ：検索キー抽出部、２４２…検索Ａ：確率付与部、２４３…絞込Ｂ：次形態素列挙部、２４４…絞込Ｂ：確率付与部、２４５…第１絞込実行部、２４６…第２絞込実行部、２５０…連接確率計算部、２５１…連接確率抽出計算部、２５２…最大途中確率計算部、２６１…右側終了位置データ記憶部、２６２…品詞及び単語別固有表現出現確率記憶部、２６３…次形態素別固有表現出現確率記憶部、２６４…固有表現連接ペア記憶部、２６５…固有表現遷移確率記憶部、２６６…先頭単語出現確率記憶部、２６７…非先頭単語出現確率記憶部、２６８…最大途中確率データ記憶部、３００…探索処理部

Claims

入力文から該入力文に含まれる固有表現を抽出する装置において、
形態素の品詞及び単語タイプに対して当該品詞及び単語タイプをとる固有表現状態の出現確率（尤度）を予め記憶した品詞及び単語タイプ別固有表現出現確率記憶手段と、
先行する形態素に対して他の形態素が後続している条件下において先行する形態素のとる固有表現状態の出現確率（尤度）を予め記録した次形態素別固有表現出現確率記憶手段と、
入力文を形態素解析して該入力文に含まれる形態素の列の候補（形態素列候補）を抽出する形態素解析手段と、
形態素解析手段で抽出した各形態素列候補中の各形態素について該形態素の取りうる固有表現識別子を付することにより固有表現付形態素候補を作成する候補作成手段と、
入力文の各位置において、当該位置から始まり且つ前記候補作成手段で作成された固有表現付形態素候補について、前記品詞及び単語タイプ別固有表現出現確率記憶手段に記憶されている出現確率及び前記次形態素別固有表現出現確率記憶手段に記憶されている出現確率を参照して固有表現付形態素候補の出現確率（尤度）を求めて、出現確率が最大のものの一定割合以上の出現確率をもつ固有表現付形態素候補、または、出現確率の最大のものから上位少なくとも１つの固有表現付形態素候補を抽出する第１の絞込実行部と、
第１の絞込実行部で抽出された固有表現付形態素候補と、その直前に位置する前記候補作成手段で作成された固有表現付形態素候補との組み合わせを連接ペアデータとして出力する第２の絞込実行部と、
第２の絞込実行部の出力した連接ペアデータに対して連接確率値を計算し、更に文頭から当該位置の固有表現付形態素候補までの連接確率値積算値の最大のもの（最大途中確率値）を、当該位置及び当該連接ペアデータとともに最大途中確率データ記憶部に記憶する連接確率計算手段と、
前記最大途中確率データ記憶部に記憶されている連接ペアデータを探索して入力文を構成し且つ出現確率の最大のものから上位少なくとも１つの固有表現付形態素候補の列を出力する探索手段とを備えた
ことを特徴とする固有表現抽出装置。
２つの連続する固有表現付形態素候補の固有表現識別子について接続が許可される組を予め記録した固有表現連接ペア記憶手段を備え、
前記第２の絞込実行部は、更に、前記候補作成手段で作成された各固有表現付形態素候補について、固有表現連接ペア記憶手段を参照して当該固有表現付形態素候補の直前に位置し且つ前記候補作成手段で作成された固有表現付形態素候補との接続が許可されている固有表現付形態素候補のみを出力する
ことを特徴とする請求項１記載の固有表現抽出装置。
前記第１の絞込実行部は、入力文の各位置において、当該位置から始まり且つ前記候補作成手段で作成された固有表現付形態素候補について、該固有表現付形態素候補の品詞及び単語タイプ並びに固有表現状態をキーとして前記品詞及び単語タイプ別固有表現出現確率記憶手段から第１の出現確率を取得する第１の出現確率取得手段と、前記固有表現付形態素候補の固有表現状態及び該固有表現付形態素候補に後続する形態素をキーとして前記次形態素別固有表現出現確率記憶手段に記憶されている第２の出現確率を取得する第２の出現確率取得手段と、第１の出現確率と第２の出現確率とを重み付け加算して重み付け確率値を算出し、重み付け確率値が最大のものの一定の割合以上の重み付け確率値をもつ固有表現付形態素候補、または、重み付け確率値の最大のものから上位少なくとも１つの固有表現付形態素候補を抽出する
ことを特徴とする請求項１記載の固有表現抽出装置。
前記第２の絞込実行部は、入力文の各位置において、当該位置の直前に位置する固有表現付形態素候補を取得する直前候補取得手段と、取得した固有表現付形態素候補の固有表現識別子と当該位置における固有表現付形態素候補の固有表現識別子の組をキーとして固有表現連接ペア記憶手段を検索し、当該組が固有表現連接ペア記憶手段に予め記憶されている場合にのみ当該位置における固有表現付形態素候補を出力する
ことを特徴とする請求項２記載の固有表現抽出装置。
コンピュータを用いて入力文から該入力文に含まれる固有表現を抽出する方法において、
前記コンピュータは、
形態素の品詞及び単語タイプに対して当該品詞及び単語タイプをとる固有表現状態の出現確率（尤度）を予め記憶した品詞及び単語タイプ別固有表現出現確率記憶手段と、
先行する形態素に対して他の形態素が後続している条件下において先行する形態素のとる固有表現状態の出現確率（尤度）を予め記録した次形態素別固有表現出現確率記憶手段とを備えるとともに、
該コンピュータの形態素解析手段が、入力文を形態素解析して該入力文に含まれる形態素の列の候補（形態素列候補）を抽出し、
該コンピュータの候補作成手段が、形態素解析手段で抽出した各形態素列候補中の各形態素について該形態素の取りうる固有表現識別子を付することにより固有表現付形態素候補を作成し、
該コンピュータの第１の絞込実行部が、入力文の各位置において、当該位置から始まり且つ前記候補作成手段で作成された固有表現付形態素候補について、前記品詞及び単語タイプ別固有表現出現確率記憶手段に記憶されている出現確率及び前記次形態素別固有表現出現確率記憶手段に記憶されている出現確率を参照して固有表現付形態素候補の出現確率（尤度）を求めて、出現確率が最大のものの一定割合以上の出現確率をもつ固有表現付形態素候補、または、出現確率の最大のものから上位少なくとも１つの固有表現付形態素候補を抽出し、
該コンピュータの第２の絞込実行部が、第１の絞込実行部で抽出された固有表現付形態素候補と、その直前に位置する前記候補作成手段で作成された固有表現付形態素候補との組み合わせを連接ペアデータとして出力し、
該コンピュータの連接確率計算手段が、第２の絞込実行部の出力した連接ペアデータに対して連接確率値を計算し、更に文頭から当該位置の固有表現付形態素候補までの連接確率値積算値の最大のもの（最大途中確率値）を、当該位置及び当該連接ペアデータとともに最大途中確率データ記憶部に記憶し、
該コンピュータの探索手段が、前記最大途中確率データ記憶部に記憶されている連接ペアデータを探索して入力文を構成し且つ出現確率の最大のものから上位少なくとも１つの固有表現付形態素候補の列を出力する
ことを特徴とする固有表現抽出方法。
前記コンピュータは、
２つの連続する固有表現付形態素候補の固有表現識別子について接続が許可される組を予め記録した固有表現連接ペア記憶手段を備えるとともに、
前記第２の絞込実行部は、更に、前記候補作成手段で作成された各固有表現付形態素候補について、固有表現連接ペア記憶手段を参照して当該固有表現付形態素候補の直前に位置し且つ前記候補作成手段で作成された固有表現付形態素候補との接続が許可されている固有表現付形態素候補のみを出力する
ことを特徴とする請求項５記載の固有表現抽出方法。
前記第１の絞込実行部は、入力文の各位置において、当該位置から始まり且つ前記候補作成手段で作成された固有表現付形態素候補について、該固有表現付形態素候補の品詞及び単語タイプ並びに固有表現状態をキーとして前記品詞及び単語タイプ別固有表現出現確率記憶手段から第１の出現確率を取得し、前記固有表現付形態素候補の固有表現状態及び該固有表現付形態素候補に後続する形態素をキーとして前記次形態素別固有表現出現確率記憶手段に記憶されている第２の出現確率を取得し、前記第１の出現確率と第２の出現確率とを重み付け加算して重み付け確率値を算出し、重み付け確率値が最大のものの一定の割合以上の重み付け確率値をもつ固有表現付形態素候補、または、重み付け確率値の最大のものから上位少なくとも１つの固有表現付形態素候補を抽出する
ことを特徴とする請求項５記載の固有表現抽出方法。
前記第２の絞込実行部は、入力文の各位置において、当該位置の直前に位置する固有表現付形態素候補を取得し、取得した固有表現付形態素候補の固有表現識別子と当該位置における固有表現付形態素候補の固有表現識別子の組をキーとして固有表現連接ペア記憶手段を検索し、当該組が固有表現連接ペア記憶手に予め記憶されている場合にのみ当該位置における固有表現付形態素候補を出力する
ことを特徴とする請求項６記載の固有表現抽出方法。
コンピュータに前記請求項５乃至８何れか１項の固有表現抽出方法を実行させる固有表現抽出プログラム。
請求項９記載の固有表現抽出プログラムを記録した記録媒体。