JP2009140049A

JP2009140049A - 新規固有表現語彙獲得装置、その方法、プログラム及び記録媒体

Info

Publication number: JP2009140049A
Application number: JP2007313205A
Authority: JP
Inventors: Kuniko Saito; 邦子齋藤; Kenji Imamura; 賢治今村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-12-04
Filing date: 2007-12-04
Publication date: 2009-06-25
Anticipated expiration: 2027-12-04
Also published as: JP5041992B2

Abstract

【課題】テキストデータから新規の固有表現を、その愛称や略称で記述された語彙を含めて精度良くかつ効率良く抽出すること。
【解決手段】タグ信頼度付与処理部１２により、形態素解析済の大規模形態素解析済テキストから固有表現モデルを用いて各形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成し、固有表現展開処理部２２により、タグ信頼度付テキストに対し、形態素毎に信頼度が上位Ｎ個のタグを取り出して展開し、固有表現を取り出し、固有表現語彙リストにないもののみを新規固有表現語彙候補として出力し、スコア計算処理部２４により、各候補のタグ信頼度をその形態素数に対して正規化し、同一の表記及び固有表現状態を含む候補のタグ信頼度を加算してスコア化し、スコアが高い順に上位Ｍ個の候補を新規固有表現語彙リストとして出力する。
【選択図】図１

Description

本発明は、膨大なデータベースから効率良く情報を検索する技術やテキストを要約する技術などにおいて重要な役割を果たす、テキストから人名、地名、組織名などを表す固有表現を抽出する固有表現抽出技術に関する。

テキスト中に登場する人名、地名、組織名などの固有表現は、誰が、どこで、何を、といったテキストの内容と直結する役割を果たすことが多く、テキストの内容理解や情報抽出において重要な要素技術である。

固有表現抽出処理で抽出対象とする固有表現の代表的な例としては、日本語の固有表現抽出技術のワークショップ（略称ＩＲＥＸ）で定義されている人名、地名、組織名、金額、日付、時間、割合、固有物名の８種類がある。以下、本明細書ではこれらの固有表現の種類をそれぞれ、＜ＰＳＮ＞，＜ＬＯＣ＞，＜ＯＲＧ＞，＜ＭＮＹ＞，＜ＤＡＴ＞，＜ＴＩＭ＞，＜ＰＣＴ＞，＜ＡＲＴ＞と表し、さらに実際には固有表現でない形態素を固有表現の一種類として表すためにＮＩＬを追加し、以上の９種類を固有表現状態と呼ぶこととする。

各固有表現は少なくとも１つの形態素から構成されることを考慮し、固有表現の冒頭の形態素とそれ以外の形態素を識別するために、固有表現状態にさらに開始、途中の区別を与える。以下、本明細書ではそれぞれ、Ｂ−、Ｉ−で表すことにするが、ＮＩＬについてはこの区別をしない。Ｂ−、Ｉ−の区別を与えた固有表現状態を表す識別子を固有表現タグと呼ぶ。即ち、本明細書ではＢ−＜ＰＳＮ＞，Ｉ−＜ＰＳＮ＞，Ｂ−＜ＬＯＣ＞，Ｉ−＜ＬＯＣ＞，Ｂ−＜ＯＲＧ＞，Ｉ−＜ＯＲＧ＞，……Ｂ−＜ＡＲＴ＞，Ｉ−＜ＡＲＴ＞，ＮＩＬの１７種類の固有表現タグを使用する。

例えば、「ＮＴＴ／ＮＴＴ／名詞：固有：組織／Ｂ−＜ＯＲＧ＞」の固有表現タグはＢ−＜ＯＲＧ＞であり、固有表現状態は＜ＯＲＧ＞である。

固有表現抽出は、予め文章を単語に分割して品詞等の単語情報を付与する形態素解析処理を行った上で、前後の文脈をみながら適切な固有表現タグを付与する、という手法が一般的である。例えば、「ＮＴＴ持株会社社長の三浦氏」という入力文に対しては、形態素解析処理結果を表記／読み／品詞と表すとし、さらに固有表現タグを付与した例を示すと以下のようになる。

ＮＴＴ／ＮＴＴ／名詞：固有：組織／Ｂ−＜ＯＲＧ＞
持株／モチカブ／名詞／Ｉ−＜ＯＲＧ＞
会社／ガイシャ／名詞／Ｉ−＜ＯＲＧ＞
社長／シャチョウ／名詞／ＮＩＬ
の／ノ／助詞／ＮＩＬ
三浦／ミウラ／名詞：固有：姓：組織／Ｂ−＜ＰＳＮ＞
氏／シ／名詞／ＮＩＬ
「ＮＴＴ／ＮＴＴ／名詞：固有：組織持株／モチカブ／名詞会社／ガイシャ／名詞」の部分が３つの形態素から構成される固有表現状態＜ＯＲＧ＞、「三浦／ミウラ／名詞：固有：姓：組織」が１つの形態素から構成される固有表現状態＜ＰＳＮ＞である。なお、この例では「ＮＴＴ」の品詞は「名詞：固有：組織」であり、組織になり得る固有名詞となっている。また、「三浦」の品詞は「名詞：固有：姓：組織」であり、姓か組織になり得る固有名詞となっている。このように、名詞には一般名詞だけではなく固有名詞という分類も存在し得るが、本特許でいう固有表現抽出とは、単に品詞が固有名詞である一つの形態素を抽出するということではなく、少なくとも１つの形態素のまとまりからなる組織名、人名、地名等の固有表現を抽出することを意味する。

このように固有表現抽出とは、入力文中の形態素を認定し、少なくとも１つの形態素から構成される固有表現を認定して該当する固有表現状態を表す固有表現タグを付与する処理である。

これは、入力系列である形態素列ｘに対して、固有表現タグというラベル列ｙを付与するという「系列ラベリング問題」として捉えることができる。なお、入力文中の形態素を認定する処理は、形態素解析処理と呼ばれる周知の処理である。

固有表現抽出の手法としては、大きく分けると、人手で設定した規則に基づくものと、予めデータから学習した統計的モデルに基づくものがある。前者は、対象とする領域や固有表現状態の定義の違いにより、規則を改めて設定し直さなければならないためコストがかかる。一方、後者は、学習データを用意しておけば自動学習を用いることにより低コストで実現でき、近年では様々な学習モデルに基づく固有表現抽出法が研究されている。学習モデルには最大エントロピー法、サポートベクトルマシン、隠れマルコフモデル、条件付確率場など、いくつかの手法がある。

近年、系列ラベリング問題に対しては、条件付確率場（ＣＲＦ：ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓ）が好成績を挙げており、固有表現抽出技術へも適応されている。ＣＲＦでは、入力系列ｘが与えられた時のラベル列ｙの出力確率が以下のように与えられる。

但し、Ｚ（ｘ）は正規化項、Ｉは入力系列長、ｆ_k（ｘ，ｙ，ｉ）は入力系列とラベル列が位置ｉにおいて、ある条件を満たすときに１、それ以外で０となる（特徴ｋに関する）素性関数である。例えば、単語の品詞推定では、位置ｉにおいて、単語ｘ_iの表記ｘ_i,1（特徴ｋ＝１は「表記」を表す。）が「ＮＴＴ」で品詞ｙ_iが「名詞：固有：組織」であるときに１、それ以外で０となるような関数である。なお、単語の表記のような、入力の特徴を表すものを素性と呼び、表記、品詞、読みなどの形態素を構成する個々の特徴だけでなく、形態素というまとまりを素性として用いたり、または形態素を検索キーとして別の辞書情報、例えば日本語語彙体系のカテゴリ情報を取得して、そのカテゴリ情報を素性として用いたりすることも可能である。また、現在の位置ｉだけでなく、以前の位置ｉ−１，ｉ−２、あるいは以後の位置ｉ＋１，ｉ＋２などの素性も組み合わせ、例えば（ｘ_i-1,1，ｘ_i,1，ｘ_i+1,1）＝（ＮＴＴ，持株，会社）であるときに１、それ以外は０、というような素性関数も設定可能である。λ_kは（特徴ｋに関する）素性関数に対する重みである。

ところで、式（１）における正規化項Ｚ（ｘ）は、ｙには依存しないため、式（１）で示される出現確率を最大にするｙを求める上で無視しても問題は無い。即ち、式（１）の分子のみに着目して分子を最大化するｙを求めれば、式（１）全体を最大化するｙを求められる。

このことにより、入力系列ｘに対する最適なラベル列Ｙは、以下の式を満足するものを、全ラベルの組み合わせから探索することにより決定される。

本明細書では、これ以降、式（１）の分子で計算される値を確率として扱い、かつ、本文中でも確率という用語をこのまま使用することとする。重みλ_kは、予め正解データ中のｘ，ｙの組を与え、事後確率最大化学習を行うことにより算出する。具体的な学習アルゴリズムについては、例えば非特許文献１に記載されたような手法がある。

ところで、固有表現抽出において常に問題になるのが実際のテキストに次々と登場する新規語彙の扱いである。時期の移り変わりとともに、話題に上る人名、地名、組織名も変化し、システムが保有している統計モデルには登場しないような固有表現が次々に出現することは良くある。これらの未知の固有表現に対しては、学習モデルがうまく働かず、正しく固有表現として認定できないことが多い。そのような事態に対しては、また新たに最新の語彙を含むような学習データを準備してモデルを更新する、という対策もあるが、学習データの作成には時間と費用の両面でコストがかかるという問題がある。

そこで、次善の策として、新たな語彙をリストとして別に用意し、システムが出力する統計的手法に基づく抽出と、語彙リストからの単純文字列マッチに基づく抽出とを併用することも有効である。この場合は新たな語彙のリストをどのように準備するかが問題になるが、例えば、一般に公開されている有名人一覧、製品名一覧、店舗名一覧などを参考にすることが最も簡便な手段の一つである。

しかし、Ｗｅｂ上のテキスト、特にブログや掲示板など、一般のユーザが自由に記述したいわゆるＣＧＭ（ＣｏｎｓｕｍｅｒＧｅｎｅｒａｔｅｄＭｅｄｉａ）においては、人名や製品名が愛称や略称で記述されたり、正式名称の一部だけで表現されたりする事例が頻出する。そのため、一般に公開されているような、正式名称あるいはフルネームといったフォーマルな語彙リストでは、実際のデータとうまくマッチしない。そこで、実際のデータから新たな固有表現語彙を効率良く収集することが必要となる。

Ｗｅｂテキストから固有表現の語彙を獲得する従来技術としては、例えば特許文献１に記載されたような手法がある。これは種となるキーワードを用いて、このキーワードのＷｅｂ上での出現位置や出現パタンを調べ、これらと類似した出現をするキーワードを新語彙として抽出し、さらに出現回数を考慮して最終的な語彙として獲得する技術である。この技術で利用する出現パタンは文章の文脈的な意味での出現パタンではなく、ｈｔｍｌテキストのテーブル＜ｔｒ＞...＜／ｔｒ＞，＜ｔｄ＞...＜／ｔｄ＞を主に想定しており、ブログや掲示板などの本文のようにフリーに記述されたテキストについてはうまく対処できない。

フリーに記述されたテキストから新規の固有表現語彙を収集するには、統計的手法に基づく固有表現抽出処理を行った上で、解析結果から従来の語彙にはなかった固有表現を新規語彙として機械的に収集するのが解法の一つである。しかし、そもそも既存のシステムが所有する統計モデルでは新規語彙に対して正しく抽出できないことが多い、というのが問題の始まりであり、いわば鶏と卵の関係である。

ところで、統計的手法に基づく固有表現抽出では、解析結果とともに式（１）の分子で表される文全体の確率値も得られるため、確率値の高い順に任意の個数の解析結果を得ることが可能である。これらを一般に、Ｎbest出力（Ｎは１，２，３，…の１以上の整数であり、確率の高い順に上位Ｎ個の解析結果の集合を指す。）と呼ぶ。このＮbest出力を利用すれば文全体の解析結果のうち、いくつかの固有表現タグが異なった解を得られるため、１位の結果のみでは得られなかった解が２位以降の下位の出力に含まれている可能性はある。しかしながら、この場合でも２位以降の出力において、１位とは異なった固有表現の出現がどの程度尤もらしいのか、客観的に評価できないという問題がある。
特開２００７−１１８９２号公報（語彙獲得方法及び装置及びプログラム及びプログラムを格納した記憶媒体）ＳｕｚｕｋｉＪ．，ＭｃＤｅｒｍｏｔｔＥ．ａｎｄＩｓｏｚａｋｉＨ．"ＴｒａｉｎｉｎｇＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓｗｉｔｈＭｕｌｔｉｖａｒｉａｔｅＥｖａｌｕａｔｉｏｎＭｅａｓｕｒｅｓ"，Ｐｒｏｃ．ｏｆＣＯＬＩＮＧ−ＡＣＬ，２００６，ｐｐ．２１７−２２４

従来の固有表現抽出語彙獲得技術では、
１．フリーに記述されたＷｅｂテキストから前後の文脈に応じて新規語彙を獲得する技術が無い、
２．１の問題に対して既存の統計的手法で機械的な解析を行う場合は、そもそも既存の統計モデルにとっての新規語彙はうまく抽出できないという根本の問題がある、
３．２の問題に対して、既存の統計的手法のＮbest出力を利用する場合は、下位の出力で新規語彙をうまく解析できる可能性がある一方、それら下位の解析結果から得られる語彙がどの程度確からしいのか客観的に評価できない、
という問題があった。

本発明は、これらを解決することを目的とする。

具体的には式（１）で示される文全体の確率ではなく、一つ一つの単語単位で、固有表現タグがどの程度の信頼度で付与されているのかを示すタグ信頼度を利用した固有表現抽出システムを用意し、このシステムが出力する下位の侯補からタグ信頼度を利用して客観的に固有表現の確からしさを評価した上で語彙を収集する。また、大量のテキストを処理対象とし、その出現頻度も考慮することで、よりタグ信頼度の信頼性を向上させるものである。

本発明は、前記の目的を達成するために以下のような手法を用いる。

１．通常のシステムが出力する文単位の確率値ではなく、個々の単語に付与される固有表現タグ、即ちタグについて付与され得るタグ毎の信頼度を計算する。

２．タグ信頼度には、事後確率を利用する。

３．タグ信頼度を用いて上位Ｎ個の固有表現タグをシステム出力として得る。

４．３の結果から新規固有表現を収集し、同時にタグ信頼度を単語数に対して正規化する。

５．１〜４を大量のテキストに対して実行し、固有表現を蓄積するとともに正規化されたタグ信頼度を加算することでスコアとする。

６．５で得られた固有表現から、スコアの高い順に上位Ｍ個を新規語彙として獲得する。

詳細については、実施の形態にて説明するが、本発明では、文単位ではなくタグ単位で信頼度を計算すること、および、その信頼度を固有表現を構成する単語数で正規化することにより、各固有表現の信頼度として利用することが特徴である。また、この処理を大量のテキストに対して実行することで、信頼度の低い固有表現であっても、何度でも登場するものは信頼度が加算され、いわば多数決の効果により全体の中での信頼度を上げることになることが第２の特徴である。

本発明によれば、文単位ではなく各単語に付与される固有表現タグ単位についての信頼度を利用するため、収集した個々の固有表現についての客観的な尤もらしさを評価することができる。なお、このタグ信頼度はシステムが一つ一つのタグ付与に対して評価する確信度を表しており、文中のある箇所についてそれが低いということは、その部分はシステムにとって新しい事例であることが示唆される。即ち、システムが既に知っている固有表現、即ち統計モデルに収録されている固有表現は非常に高い信頼度が付くが、システムが知らない固有表現の場合はそれに比べると低い信頼度が付与される。そこで、信頼度を利用することで、システムにとって新しい事例の箇所を効率良く発見し、その様な事例では下位のタグまで採用して新規の語彙を獲得できる。また、これらの処理を大量のテキストに対して実行することにより、信頼度の低いタグの出現であっても様々な文脈で何度も出現するものはそれなりに信頼できると判断され、収集語彙の中での信頼度スコアを上昇させることができる。結果として、新しい語彙であるためにシステムがあまり信頼度高く出力できない事例であっても総合的には信頼できるものと判断して新規語彙として獲得できる。

また、通常の文単位の確率値を利用したＮbest出力を利用する場合、文全体での固有表現タグの付き方の違いによって１位、２位と解析結果が出力される。その場合、例えば１０語からなる入力文について、１位と２位の出力結果の違いは、ある１語の固有タグのみが異なるだけ、という場合も多く、そこから抽出される固有表現語彙は殆ど同じものになる。一方、文中の各単語にタグ信頼度が付与されていれば、全ての単語に対して上位２位までのタグを利用すると、単純な組み合わせとしては最大２＾１０（２の１０乗）通りの出力を得ることと同じであり、そこから抽出される固有表現語彙はたくさんのバリエーションを有する。そしてそれらの固有表現一つ一つに客観的な信頼度が付与されている点が、本発明の新規語彙獲得精度を向上させる効果として大きい。

図１は本発明の新規固有表現語彙獲得装置の実施の形態の一例を示すもので、信頼度付与処理部１０及び新規語彙収集処理部２０から構成される。

本発明の装置では、予め大規模テキストを形態素解析した結果、即ち大規模形態素解析済テキストを入力とする。形態素解析では、自然言語で記述された文が単語に分割され、各単語に品詞や読みなどの単語情報が付与された形態素の集合（形態素列）とされる。本例では、各形態素を「表記／品詞」で表すこととする。なお、形態素解析処理は、周知の形態素解析器を用いて行うことができる。

信頼度付与処理部１０は、予め所定の学習データから作成された固有表現抽出のための固有表現モデルを記憶する固有表現モデル記憶部１１と、入力された大規模形態素解析済テキストに対し、固有表現モデル記憶部１１に記憶された固有表現モデルを用いて個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成して出力するタグ信頼度付与処理部１２と、タグ信頼度付与処理部１２から出力されたタグ信頼度付テキストを記憶するタグ信頼度付テキスト記憶部１３とを有する。

新規語彙収集処理部２０は、前記所定の学習データ中に含まれる固有表現からなる固有表現語彙リストを記憶する固有表現語彙リスト記憶部２１と、タグ信頼度付テキスト記憶部１３からタグ信頼度付テキストを読み出し、形態素毎に信頼度が上位Ｎ個の固有表現タグを取り出して展開し、該展開した固有表現タグから固有表現を取り出し、固有表現語彙リスト記憶部２１に記憶された固有表現語彙リストにないもののみを新規固有表現語彙候補として出力する固有表現展開処理部２２と、固有表現展開処理部２２から出力された新規固有表現語彙候補を記憶する新規固有表現語彙候補記憶部２３と、新規固有表現語彙候補記憶部２３から新規固有表現語彙候補を読み出し、各新規固有表現語彙候補のタグ信頼度をその形態素数に対して正規化し、同一の表記及び固有表現状態を含む新規固有表現語彙候補については加算して新規固有表現語彙候補のタグ信頼度をスコア化し、スコアが高い順に上位Ｍ個の新規固有表現語彙候補を新規固有表現語彙リストとして出力するスコア計算処理部２４とを有する。

以下、前述した各部における処理の詳細について例を挙げて説明する。

［タグ信頼度付与処理部１２］
タグ信頼度付与手段１２は、入力された大規模形態素解析済テキストに対し、固有表現モデル記憶部１１に記憶された固有表現モデルを用いて個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成し、タグ信頼度付テキスト記憶部１３に記憶する。この際、信頼度には、タグ毎に算出した事後確率を用いる。

例えば、形態素解析により文ｘがｎ単語に分割されているとき、単語ｘ_iのタグ候補ｔ_i,jの信頼度は以下の式により算出する。

これは、単語ｘ_iのタグがｔ_i,jである全てのタグ列ｙの事後確率を総和したものである。従って、長さが入力単語数ｎのあらゆるタグ列の事後確率を式（１）により算出し、そのうち位置ｉのタグがｔ_i,jであるもののみを総和することにより算出される。図２にタグ候補ｔ_i,1のタグ信頼度を求める場合の計算パターンを模式図で示す。

固有表現モデルに線形連鎖条件付確率場を用いる場合、タグ信頼度は文頭から当該タグ候補ｔ_i,jに至る全ての経路（タグ列）の確率和α_i,j（前向き確率と呼ぶ）と、当該タグ候補ｔ_i,jから文末に至る全ての経路の確率和β_i,j（後ろ向き確率と呼ぶ）を乗算することによっても求めることができる。即ち、
Ｐ（ｔ_i＝ｔ_i,j｜ｘ）＝α_i,jβ_i,j （４）
前向き確率α_i,jは、当該タグ候補より前方の前向き確率から式（５）（６）を用いて再帰的に計算できる。また、後ろ向き確率β_i,jは、当該タグ候補より後方の後ろ向き確率から式（７）（８）を用いて再帰的に計算できる。従って、前向きアルゴリズムと後ろ向きアルゴリズム（例えば、北研二「言語と計算４確率的言語モデル」東京大学出版会、１９９９、１０１〜１２５頁）を用いてα_i,j、β_i,jを算出し、両者を乗算することにより、効率的に算出することも可能である。

α_0,j＝１（５）

β_n+1,j＝１（７）

ここで、ｆ_a（ｔ_i，ｘ_i）およびｇ_b（ｔ_i-1，ｔ_i）は素性関数と呼ばれ、入力文ｘと固有表現タグ列ｙが位置ｉにおいてある条件を満たすとき「１」、それ以外で「０」となる関数である。また、λ_aおよびμ_bは素性関数に対する重みであり、固有表現モデル学習時に適切な値が付与される。

図３はタグ信頼度付テキストの一例を示すものである。表記と品詞からなる形態素に対して、タグ信頼度が「固有表現タグ／信頼度」の形で付与されている。ここでは４つの文に対するタグ信頼度付テキストを示している。なお、紙面の都合上、タグ信頼度は上位２つまでを示しているが、実際にタグ信頼度付与処理部１２が付与するデータでは、とり得る全ての固有表現タグに対してのタグ信頼度が付与される。具体的には、本明細書で想定している、Ｂ−＜ＰＳＮ＞，Ｉ−＜ＰＳＮ＞，Ｂ−＜ＬＯＣ＞，Ｉ−＜ＬＯＣ＞，Ｂ−＜ＯＲＧ＞，Ｉ−＜ＯＲＧ＞，…．Ｂ−＜ＡＲＴ＞，Ｉ−＜ＡＲＴ＞，ＮＩＬの１７種の固有表現タグに対してである。

［固有表現展開処理部２２］
固有表現展開処理部２２は、図４に示すように、タグ信頼度付テキスト記憶部１３からタグ信頼度付テキストを読み出し（ｓ１）、タグ信頼度付テキストから形態素毎に信頼度が上位Ｎ個、ここでは信頼度が１位の固有表現タグ及び該１位の信頼度が所定の値以下の時のみ信頼度が２位の固有表現タグをその信頼度とともに取り出し（ｓ２）、該取り出した固有表現タグ同士を適切かつ最長一致優先で文頭から文末まで接続して展開し（ｓ３）、該展開した固有表現タグから固有表現を、１つの形態素から構成される場合はその形態素の表記とともに固有表現状態とタグ信頼度を含めて、また、複数の形態素から構成される場合は各表記をつなげた表記とともに固有表現状態と各タグ信頼度を含めて取り出し（ｓ４）、該取り出した固有表現のうち、固有表現語彙リスト記憶部２１に記憶された固有表現語彙リストにないもののみを新規固有表現語彙候補として出力し、新規固有表現語彙候補記憶部２３に記憶する（ｓ５）。

ここで、基本方針としては、信頼度が上位Ｎ個までの固有表現タグに対して全ての組み合わせで展開するのであるが、それでは膨大な固有表現が展開され得る。そこで、タグ信頼度を参照して１位のみしか考慮しないもの、上位Ｎ個まで考慮するものを判断する。以後、本明細書では図３の例を使って説明していくため、上位２位までの固有表現タグを考えることとする。

もし全ての形態素について上位２位までの固有表現タグを機械的に採用すると、１文目では「Ｗｉｎ／Ｂ−＜ＡＲＴ＞」＋「と／Ｉ−＜ＡＲＴ＞」の部分で「Ｗｉｎと」という＜ＡＲＴ＞の固有表現が生成されてしまう。しかし「と」については、１位のＮＩＬが信頼度０．９７８と非常に高いので、この場合は２位のＩ−＜ＡＲＴ＞は対象から外す、という処理を行う。

以下、さらに詳細に説明する。

信頼度の値をみると、システムがどの程度の確信度を持って各形態素ごとの固有表現タグを付与するのかがわかる。例えば、図３の１つ目の文章で「Ｍａｃ」をＢ−＜ＡＲＴ＞とする信頼度は０．７６４であるが、「Ｗｉｎ」をＮＩＬとする信頼度は０．４３７と低く、２位のＢ−＜ＡＲＴ＞が０．２８３と高くなる。これはシステムの持つ統計モデル（固有表現モデル）では「Ｗｉｎ」がＮＩＬなのかＢ−＜ＡＲＴ＞なのかを各信頼度の値が示す確からしさで想定できていることを意味する。また前述の「と」のように明らかに固有表現ではない箇所でＮＩＬが０．９以上と極めて高い信頼度になっている箇所は、システムが高い確信をもってＮＩＬと認定していることを示している。

図３の例では、「Ｗｉｎ」，「ｉＰｏｄ（登録商標）」，「９０１ｉ」、「ゴトタケ」、「ＦＦ９」といった部分でタグ信頼度１位の値が低めにでており、２位の固有表現タグの可能性が高いことが示唆されている。このように、１位のタグ信頼度が十分高ければ１位のみを信用し、低ければ２位の固有表現タグも可能性として考えるという方針で固有表現タグの侯補を選定する。即ち、全形態素に対して盲目的に２位までの固有表現タグを採用するのではなく、１位の固有表現タグの信頼性が低い時には２位までも考慮する。１位のタグ信頼度の値としてどこまでを信用できると判断するか、その閾値は実験的または直感的に決めれば良い。

実験的に決める手法の一例としては、予め正解の固有表現タグが付与された評価用データを準備し、タグ信頼度の判断結果と正解とがどの程度一致するかを、閾値をずらしながら評価する手法がある。そうして、最もタグ信頼度の判断誤りが少ない時の閾値を利用する。また、閾値の考え方にも幾つかあり、既に説明してきた１位のタグ信頼度の値の大小でのみ決定する手法の他に、１位と２位のタグ信頼度の差を利用する方法や、１位と２位のタグ信頼度の比を利用する方法なども考えられる。いずれの場合も、１位のタグ信頼度が大きいかどうか、あるいは２位の信頼度が１位に拮抗してきているか、ということを考慮できる手法を用いれば良い。また、場合によっては２位までではなく３位、４位まで考える手法、固有表現タグに応じて閾値を変更する手法などもある。

ところで、閾値は高すぎても低すぎても良くない。閾値を高く設定すればするほど、１位のタグのみが信頼されるケースは少なくなり、多くの形態素で２位までのタグを考慮することになる。即ち、本当は正しく解析できていた１位のタグを信頼できず、結果的にたくさんの誤った２位のタグを許容するリスクが高まる。一方、閾値を低くすればするほど１位のタグのみが信頼され、２位までのタグを考慮する形態素数が減っていく。即ち、本当は誤って解析した１位のタグをそのまま受け入れてしまうリスクが高まり、結果的にたくさんの正解している２位のタグを捨ててしまうことになる。

このように、閾値が高すぎれば誤った２位タグの許容リスクが発生し、閾値が低すぎれば誤った１位タグの許容リスクが発生する。最終的に固有表現を抽出する際は、閾値が高い方がよりたくさんの２位のタグを考慮できるので、収集範囲が広がるという側面もあるが、同時に無意味な固有表現侯補をたくさん集めてしまうという弊害もある。逆に、閾値が低い場合は、２位のタグをほとんど考慮できないため、収集範囲そのものが狭くなる。

いずれの場合も最終的に抽出する固有表現の精度を左右するため、閾値の設定では、両者の中間となるような値、即ち適度な範囲の２位タグまでを考慮できるような値を選ぶような注意が必要である。そのためには、前述した通り、正解データを利用して、タグ信頼度に基づく判断結果と実際の正解との一致率を実験的に評価する手法は有効である。

本明細書では、以後、１位のタグ信頼度が０．６以下の場合は２位の固有表現タグも考慮し、それ以外の場合は１位の固有表現タグのみを採用すると言う前提で説明する。図５にこの前提での固有表現展開処理の概要を示す。なお、展開処理では形態素の情報としては表記のみを利用する。

まず、各形態素に対して１位のタグ信頼度が０．６以下の時は２位までのタグ信頼度を取り出す。図３の例では「Ｗｉｎ」、「ｉＰｏｄ」、「９０１」、「ｉ」、「ゴトタケ」、「ＦＦ」、「９」の箇所が２位のタグまで取り出す。そして、図５（ａ）の展開図のように、取り出したタグを文頭から文末までつなげたものを考える。この展開図の通り、１位のみのタグしかない形態素では１本の線で繋がっていくが、２位までのタグがある形態素では線が分岐する。但し、線を分岐する際には次の２つの制約を設ける。それは、(1)不適切な接続は許可しない、と、(2)最長一致優先、の２つである。

(1)の不適切な接続とは、ＮＩＬの次にＩ−＜ｙｙｙ＞がくる接続や、Ｂ−＜ｘｘｘ＞の次にＩ−＜ｙｙｙ＞が来る接続である。即ち、Ｉ−＜ｙｙｙ＞に接続できるタグはＢ−＜ｙｙｙ＞またはＩ−＜ｙｙｙ＞のみである（ここで、＜ｙｙｙ＞は任意の固有表現状態を表し、＜ｘｘｘ＞は＜ｙｙｙ＞とは異なる任意の固有表現状態を表すものとする。）。図５では破線で表される接続が不適切な接続であり、固有表現展開処理ではこの接続は除外する。具体的には９０１／ＮＩＬとｉ／Ｉ−＜ＡＲＴ＞の接続、ＦＦ／ＮＩＬと９／Ｉ−＜ＡＲＴ＞の接続がこれに該当する。

(2)の最長一致優先とは、最終的に固有表現として最長となる接続を優先させ、部分的な接続での固有表現ができないようにするものである。即ち、ある形態素がＮＩＬとＩ−＜ｙｙｙ＞の２つに分岐している時、その直前の形態素にＩ−＜ｙｙｙ＞またはＢ−＜ｙｙｙ＞がある場合は、その直前のＩ−＜ｙｙｙ＞またはＢ−＜ｙｙｙ＞からＮＩＬへの接続は許可しない。図５では点線で表される接続が最長一致優先の制約によって除外される接続である。具体的には９０１／Ｂ＜ＡＲＴ＞とｉ／ＮＩＬの接続は、９０１／Ｂ−＜ＡＲＴ＞とｉ／Ｉ−＜ＡＲＴ＞の接続が最長一致によって優先されるために除外される。同じくＦＦ／Ｂ−＜ＡＲＴ＞と９／ＮＩＬの接続は、ＦＦ／Ｂ−＜ＡＲＴ＞と９／Ｉ−＜ＡＲＴ＞が優先されるために除外される。

このようにして信頼度の閾値に基づいて固有表現タグの展開をした後、図５（ｂ）に示すように、固有表現を「表記／固有表現状態／タグ信頼度」の形で取り出す。複数の形態素から構成される固有表現の場合、表記は繋げて１つとし、タグ信頼度はそれぞれを「／」で区切って繋げる。例えば、９０１／Ｂ−＜ＡＲＴ＞／０．２０８とｉ／Ｉ−＜ＡＲＴ＞／０．２０１の部分から取り出される固有表現は２つの表記を繋げて９０１ｉとし、固有表現状態は＜ＡＲＴ＞、そしてタグ信頼度は２つを「／」で区切って繋げて最終的には「９０１ｉ／＜ＡＲＴ＞／０．２０８／０．２０１」となる。

この例にあるように、「Ｗｉｎ」、「９０１ｉ」、「ＦＦ９」、「ゴトタケ」といった表現は、正式な製品名やフルネームとは異なった、独特の省略した言い回しであり、ブログなどではこちらの方が良く出現する。こういった表現を客観的な信頼度とともに抽出できる点が本技術の利点である。

上記のようにしてタグ信頼度を見ながらとり得る固有表現タグを展開して固有表現を取り出すが、ここでは新規語彙の獲得が目的であるため、最終的には現システムの統計モデルの語彙にはないもののみを出力する。即ち、統計モデルの学習に用いた学習データから固有表現語彙リストを作成しておき、そのリストに存在しない固有表現のみを新規固有表現語彙候補として出力する。

図６は新規固有表現語彙侯補の一例を示すものである。図５（ａ）の展開図から取り出た固有表現（途中経過）（図５（ｂ））の中から現システムの統計モデルの語彙にはないエントリだけが残る。また、処理対象とした大規模テキスト中の様々な文脈において、「９０１ｉ」、「ｉＰｏｄ」など、同じ表記の固有表現が登場した場合、その都度、その時のタグ信頼度とともに抽出される。

［スコア計算処理部２４］
スコア計算処理部２４は、図７に示すように、新規固有表現語彙候補記憶部２３から新規固有表現語彙候補を読み出し（ｓ１１）、各新規固有表現語彙候補のタグ信頼度をその形態素数に対して正規化し（ｓ１２）、同一の表記及び固有表現状態を含む新規固有表現語彙候補のタグ信頼度を加算してスコア化し（ｓ１３）、スコアが高い順に上位Ｍ個の新規固有表現語彙候補を新規固有表現語彙リストとして出力する（ｓ１４）。

スコア化では、まず、新規固有表現語彙候補に対し、構成する形態素数によるタグ信頼度の正規化を行う、即ちタグ信頼度の総和／タグ信頼度の個数を計算する。例えば、図６の９０１ｉ／＜ＡＲＴ＞／０．２０８／０．２０１の例では、（０．２０８＋０．２０１）／２＝０．２０４５がこの９０１ｉ／＜ＡＲＴ＞全体の信頼度であるとする。そして同様の計算を全ての侯補に対して行い、同じ表記及び固有表現状態を含む新規固有表現語彙候補が複数回登場する場合は信頼度を加算して最終的なそのエントリ（新規固有表現語彙候補）のスコアとする。

図６でｉＰｏｄ／＜ＡＲＴ＞は、タグ信頼度が１つずつついているので、そのままｉＰｏｄ／＜ＡＲＴ＞全体の信頼度とみなされ、そしてそれが５回登場しているので順次加算して０．９４１＋０．６４７＋０．５３６＋０．２２６＋０．３４２＝２，６９２が最終的なｉＰｏｄ／＜ＡＲＴ＞のスコアとなる。スコアが大きいエントリほど、タグ信頼度そのものが高いか、タグ信頻度は低くても大規模テキスト中での出現回数が多くて上位になったものである。そのため、信頼度が高いものが得られるだけでなく、個々の信頼度が多少低くても、何度も想定され得る表現は正しいであろうという、いわば多数決の要素が加わり、単発で登場するものは淘汰されていくという効果も生じる。

全ての侯補についてスコアが計算できたら、スコアの高い順に上位Ｍ個を取り出して新規固有表現語彙リストとする。

図８に新規固有表現語彙リストの一例を示す。これは約１０万記事のブログデータから抽出したときのものである。スコアの高い順に上位１５件を示した。このようにスコア順に数千語規模のリストが得られるが、上位のものほど正解を多く含み、下位に行くほど誤って抽出する事例も存在する。

図９に本発明による手法（タグ信頼度）と、システムＮbest出力（Ｎ＝２）から新規語彙を抽出する手法との上位Ｍ語までのリストについての正解率を示す。ここでいう正解率とは、予め人手で固有表現タグが付与された正解データに対して各手法を用いた固有表現語彙収集を行い、収集した語彙リストが、本当に正解データ中に固有表現として登場していた語彙なのかを調べ、登場していれば正解、していなければ不正解として、収集語彙に占める正解の語彙の割合を示したものである。本手法はシステムＮbest出力と比較して高い正解率で新規語彙を収集できていることが分かる。

なお、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図１の構成図に示された機能を実現するプログラムをインストールすることによっても実現可能である。

本発明の新規固有表現語彙獲得装置の実施の形態の一例を示す構成図タグ信頼度の計算パターンの一例を示す説明図タグ信頼度付テキストの一例を示す説明図固有表現展開処理の流れを示すフローチャート固有表現展開処理における処理内容の一例を示す説明図新規固有表現語彙侯補の一例を示す説明図スコア計算処理の流れを示すフローチャート新規固有表現語彙リストの一例を示す説明図本発明による効果を示す説明図

符号の説明

１０：信頼度付与処理部、１１：固有表現モデル記憶部、１２：タグ信頼度付与処理部、１３：タグ信頼度付テキスト記憶部、２０：新規語彙収集処理部、２１：固有表現語彙リスト記憶部、２２：固有表現展開処理部、２３：新規固有表現語彙候補記憶部、２４：スコア計算処理部。

Claims

形態素解析済のテキストの大規模な集合である大規模形態素解析済テキストから新規な固有表現語彙を獲得する装置であって、
予め所定の学習データから作成された固有表現抽出のための固有表現モデルを記憶する固有表現モデル記憶部と、
前記所定の学習データ中に含まれる固有表現からなる固有表現語彙リストを記憶する固有表現語彙リスト記憶部と、
入力された大規模形態素解析済テキストに対し、固有表現モデル記憶部に記憶された固有表現モデルを用いて個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成して出力するタグ信頼度付与処理部と、
タグ信頼度付与処理部から出力されたタグ信頼度付テキストに対し、形態素毎に信頼度が上位Ｎ個の固有表現タグを取り出して展開し、該展開した固有表現タグから固有表現を取り出し、固有表現語彙リスト記憶部に記憶された固有表現語彙リストにないもののみを新規固有表現語彙候補として出力する固有表現展開処理部と、
固有表現展開処理部から出力された新規固有表現語彙候補に対し、各新規固有表現語彙候補のタグ信頼度をその形態素数に対して正規化し、同一の表記及び固有表現状態を含む新規固有表現語彙候補のタグ信頼度を加算してスコア化し、スコアが高い順に上位Ｍ個の新規固有表現語彙候補を新規固有表現語彙リストとして出力するスコア計算処理部とを備えた
ことを特徴とする新規固有表現語彙獲得装置。
請求項１に記載の新規固有表現語彙獲得装置において、
タグ信頼度付与処理部から出力されたタグ信頼度付テキストを記憶するタグ信頼度付テキスト記憶部からタグ信頼度付テキストを読み出し、タグ信頼度付テキストから形態素毎に信頼度が上位Ｎ個の固有表現タグをその信頼度とともに取り出し、該取り出した固有表現タグ同士を適切かつ最長一致優先で文頭から文末まで接続して展開し、該展開した固有表現タグから固有表現を、１つの形態素から構成される場合はその形態素の表記とともに固有表現状態とタグ信頼度を含めて、また、複数の形態素から構成される場合は各表記をつなげた表記とともに固有表現状態と各タグ信頼度を含めて取り出し、該取り出した固有表現のうち、固有表現語彙リスト記憶部に記憶された固有表現語彙リストにないもののみを新規固有表現語彙候補として出力する固有表現展開処理部を備えた
ことを特徴とする新規固有表現語彙獲得装置。
形態素解析済のテキストの大規模な集合である大規模形態素解析済テキストから新規な固有表現語彙を獲得する方法であって、
タグ信頼度付与処理手段が、入力された大規模形態素解析済テキストに対し、固有表現モデル記憶部に記憶された予め所定の学習データから作成された固有表現抽出のための固有表現モデルを用いて個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成して出力するステップと、
固有表現展開処理手段が、タグ信頼度付与処理部から出力されたタグ信頼度付テキストに対し、形態素毎に信頼度が上位Ｎ個の固有表現タグを取り出して展開し、該展開した固有表現タグから固有表現を取り出し、固有表現語彙リスト記憶部に記憶された前記所定の学習データ中に含まれる固有表現からなる固有表現語彙リストにないもののみを新規固有表現語彙候補として出力するステップと、
スコア計算処理手段が、固有表現展開処理部から出力された新規固有表現語彙候補に対し、各新規固有表現語彙候補のタグ信頼度をその形態素数に対して正規化し、同一の表記及び固有表現状態を含む新規固有表現語彙候補のタグ信頼度を加算してスコア化し、スコアが高い順に上位Ｍ個の新規固有表現語彙候補を新規固有表現語彙リストとして出力するステップとを含む
ことを特徴とする新規固有表現語彙獲得方法。
請求項３に記載の新規固有表現語彙獲得方法において、
固有表現展開ステップは、
タグ信頼度付与処理部から出力されたタグ信頼度付テキストを記憶するタグ信頼度付テキスト記憶部からタグ信頼度付テキストを読み出すステップと、
タグ信頼度付テキストから形態素毎に信頼度が上位Ｎ個の固有表現タグをその信頼度とともに取り出すステップと、
該取り出した固有表現タグ同士を適切かつ最長一致優先で文頭から文末まで接続して展開するステップと、
該展開した固有表現タグから固有表現を、１つの形態素から構成される場合はその形態素の表記とともに固有表現状態とタグ信頼度を含めて、また、複数の形態素から構成される場合は各表記をつなげた表記とともに固有表現状態と各タグ信頼度を含めて取り出すステップと、
該取り出した固有表現のうち、固有表現語彙リスト記憶部に記憶された固有表現語彙リストにないもののみを新規固有表現語彙候補として出力して新規固有表現語彙候補記憶部に記憶するステップとからなる
ことを特徴とする新規固有表現語彙獲得方法。
コンピュータを、請求項１または２に記載の新規固有表現語彙獲得装置の各手段として機能させるためのプログラム。
請求項５に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。