JP2007148785A - 固有表現抽出装置および方法 - Google Patents

固有表現抽出装置および方法 Download PDF

Info

Publication number
JP2007148785A
JP2007148785A JP2005342338A JP2005342338A JP2007148785A JP 2007148785 A JP2007148785 A JP 2007148785A JP 2005342338 A JP2005342338 A JP 2005342338A JP 2005342338 A JP2005342338 A JP 2005342338A JP 2007148785 A JP2007148785 A JP 2007148785A
Authority
JP
Japan
Prior art keywords
specific expression
class
weight
specific
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005342338A
Other languages
English (en)
Other versions
JP4074316B2 (ja
Inventor
Hiroshi Sasaki
佐々木  寛
Yoshimi Saito
佳美 齋藤
Toshihiko Manabe
俊彦 真鍋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005342338A priority Critical patent/JP4074316B2/ja
Publication of JP2007148785A publication Critical patent/JP2007148785A/ja
Application granted granted Critical
Publication of JP4074316B2 publication Critical patent/JP4074316B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】文脈にそった固有表現を重要と判定することができると同時に固有表現の重み判定の一貫性を維持する。
【解決手段】少なくとも1文書を含むテキストを取得する手段101と、テキストから複数の固有表現を抽出する手段102と、各固有表現に対して、固有表現の分類名を示す固有表現クラスを算出する手段103と、各固有表現クラスがテキスト中に出現する度合いを示す出現頻度情報に基づいて、固有表現クラスのクラス重みを算出する手段103と、各クラス重みに基づいて各固有表現の固有表現重みを算出する手段104と、複数の固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離する手段105と、出力する固有表現を出力する手段106と、を具備する。
【選択図】図1

Description

本発明は、入力された文書中に出現する固有表現を抽出する固有表現抽出装置および方法に関するものである。
従来、人手により辞書やルールを作成する手法や機械学習による手法などの様々な手法によって、文書中から固有表現を抽出しようとする試みがなされてきた。固有表現を抽出するにあたって最も基本的な方法は、入力された文書中に出現する固有表現に対しその固有表現の重み評価値を付与することなく、そのまま出力するというものである。
しかし、固有表現抽出装置を検索システムにおける関連キーワードを抽出する目的に用いる場合(例えば、特許文献1参照)や、固有表現の多義曖昧性解消を行う場合(例えば、特許文献2参照)は、固有表現だけではなく、その固有表現の重みを併せて出力する必要がある。固有表現の重みを算出する方法としては、固有表現の重みをその固有表現文字列の統計情報、出現位置、他の単語との共起情報などといった、固有表現そのものの文字列に関する出現情報にのみ基づいて計算をおこなっている(例えば、特許文献1、特許文献2参照)。また、固有表現を抽出する際に、どのクラスに属するかということに関しての確からしさの評価値を設定することにより、それを固有表現の重みとして用いている。
特開平11−25108号公報 特開2002−82943公報
しかしながら、上述のように固有表現の重みを、その固有表現そのものの文字列に関する情報にのみ基づいて計算を行うか、あるいはどのクラスに属するかという確からしさの評価値を固有表現の重みとして用いると、正確性を欠く場合がある。
例として、商品比較を目的としたインターネット上の掲示板から固有表現の抽出をおこない、それを掲示板の利用者に提示することを考える。その際、掲示板中に出現するメッセージ投稿者名やメッセージ投稿時刻などの固有表現が抽出されることはのぞましくない。なぜなら、掲示板の利用者にとって商品の比較検討のために有益な情報は、商品比較をおこないたい商品の商品名、値段、スペックなどであり、メッセージ投稿者名やメッセージ投稿時刻などは不要だからである。しかし、文字列に関する出現情報を用いる場合は、メッセージ投稿者名やメッセージ投稿時刻などの固有表現が、文字列としてそのページに特有である場合は、重要と判定されてしまう。どのクラスに属するかという確からしさの評価値を用いる場合は、明白にメッセージ投稿者名やメッセージ投稿時刻などと判定することができる固有表現がある場合に、それらは重要と判定されてしまう。このように文脈にそぐわない固有表現を重要と判定してしまう場合が生じる。
また、文字列に関する出現情報を用いる場合は、そのページに出現する複数の商品名のうち、一部の商品名が文字列としてそのページに特有であり、他方は特有ではない場合に、一部の商品名のみが重要と判定され他方は重要と判定されない。どのクラスに属するかという確からしさの評価値を用いる場合は、一部の商品名が明白に商品名であることが判定でき、他方は商品名であるかもしれないが明白ではないと判定される場合に、一部の商品名のみが重要と判定され他方は重要と判定されない。しかし、商品を比較する場合にはユーザが着目している商品の商品名だけではなくその比較対照となる商品の商品名が必要であり、このように固有表現の重み判定の一貫性を欠いてしまうという場合が生じる。
本発明は、以上の問題点に鑑み、文脈にそった固有表現を重要と判定することが可能であると同時に、固有表現の重み判定の一貫性を維持することが可能な固有表現抽出装置および方法を提供することを目的とする。
上述の課題を解決するため、本発明の固有表現抽出装置は、少なくとも1文書を含むテキストを取得する手段と、前記テキストから複数の固有表現を抽出する手段と、各前記固有表現に対して、固有表現の分類名を示す固有表現クラスを算出する手段と、各前記固有表現クラスが前記テキスト中に出現する度合いを示す出現頻度情報に基づいて、前記固有表現クラスのクラス重みを算出するクラス重み算出手段と、各前記クラス重みに基づいて、各前記固有表現の固有表現重みを算出する固有表現重み算出手段と、複数の前記固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離する分離手段と、前記出力する固有表現を出力する手段と、を具備することを特徴とする。
また、本発明の固有表現抽出装置は、少なくとも1文書を含むテキストを取得する手段と、前記テキストから複数の固有表現を抽出する手段と、各前記固有表現に対して、固有表現の分類名を示す固有表現クラスを算出する手段と、各前記固有表現クラスの前記テキスト中の出現位置に基づいて、前記固有表現クラスのクラス重みを算出するクラス重み算出手段と、各前記クラス重みに基づいて、各前記固有表現の固有表現重みを算出する固有表現重み算出手段と、複数の前記固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離する分離手段と、前記出力する固有表現を出力する手段と、を具備することを特徴とする。
本発明の固有表現抽出方法は、少なくとも1文書を含むテキストを取得し、前記テキストから複数の固有表現を抽出し、各前記固有表現に対して、固有表現の分類名を示す固有表現クラスを算出し、各前記固有表現クラスが前記テキスト中に出現する度合いを示す出現頻度情報に基づいて、前記固有表現クラスのクラス重みを算出し、各前記クラス重みに基づいて、各前記固有表現の固有表現重みを算出し、複数の前記固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離し、前記出力する固有表現を出力することを特徴とする。
また、本発明の固有表現抽出方法は、少なくとも1文書を含むテキストを取得し、前記テキストから複数の固有表現を抽出し、各前記固有表現に対して、固有表現の分類名を示す固有表現クラスを算出し、各前記固有表現クラスの前記テキスト中の出現位置に基づいて、前記固有表現クラスのクラス重みを算出し、各前記クラス重みに基づいて、各前記固有表現の固有表現重みを算出し、複数の前記固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離し、前記出力する固有表現を出力することを特徴とする。
本発明の固有表現抽出装置および方法によれば、文脈にそった固有表現を重要と判定することが可能であると同時に、固有表現の重み判定の一貫性を維持することができる。
以下、図面を参照しながら本発明の実施形態に係る固有表現抽出装置および方法について詳細に説明する。
本発明の実施形態の固有表現抽出装置は、固有表現そのものではなくそのクラス(固有表現クラス)に抽象化し、固有表現クラス単位での統計情報、あるいは、その出現パターンに基づき、まず、固有表現クラスの重要度を計算し、それを固有表現の重要度に反映させることを特徴としている。
ここで、固有表現とは、人名、地名、組織名、商品名、イベント名、法律名、書籍名のような固有名や、時間表現、個数表現、価格表現のような数量表現や、化学物質名、動物名、植物名、遺伝子名のような種族名のことである。また、固有表現クラスとは、固有表現の分類名を意味する。例えば、「山田太郎」という固有表現に対する固有表現クラスは「人名」となる。
まず、本発明の実施形態に係る固有表現抽出装置について図1を参照して説明する。図1は本発明の実施形態に係る固有表現抽出装置を示すブロック図である。
本実施形態の固有表現抽出装置は、図1に示すように、文書入力部101、固有表現抽出部102、固有表現クラス重み計算部103、固有表現重み計算部104、固有表現出力制御部105、固有表現出力部106、形態素解析辞書データベース(DB)111、固有表現クラス判定知識DB112を備えている。
文書入力部101は、電子テキストを入力するためのものである。
固有表現抽出部102は、形態素解析辞書DB111および固有表現クラス判定知識DB112を参照して、文書入力部101が出力した文書から固有表現を抽出する。
固有表現クラス重み計算部103は、文書中に出現する、少なくとも固有表現クラスの統計情報に基づき、各固有表現クラスの重みを計算する。
固有表現重み計算部104は、固有表現クラス重みに基づき各固有表現の重みを計算する。
固有表現出力制御部105は、各固有表現の重みに基づき、出力する固有表現と出力しない固有表現の分離を行う。
固有表現出力部106は、出力用に分離された固有表現を出力する。
(固有表現抽出部102)
次に、固有表現抽出部102の処理について図2、図3を参照して説明する。図2は固有表現抽出部102における処理の流れを説明する図である。
(S201)文書入力部101が入力した電子テキストである固有表現抽出対象文書を受け取る。
(S202)形態素解析辞書DB111を参照して、固有表現抽出対象文書に形態素解析を行う。ここで、ステップS202による形態素解析結果について図3を参照して説明する。図3は形態素解析結果の一例を説明する図である。本実施形態での形態素解析結果は、文節、品詞、プロパティーセットなどの組がリストとなっているデータである。プロパティーセットは固有表現を抽出する際に使用する情報である。
(S203)固有表現クラス判定知識DB112を参照して、ステップS202で取得した形態素解析結果から固有表現抽出を行う。すなわち、固有表現クラス判定知識DB112を使用して、形態素解析結果から、各文節列の固有表現クラスを判定し、固有表現クラス、および、どのクラスに属するかに関しての確からしさの評価値(確信度)を算出する。そして、ステップS202で得られた形態素解析結果に、固有表現クラス、および、確信度を追加する。
(S204)ステップS202で得られた形態素解析結果に、固有表現クラス、および、確信度を追加した固有表現抽出結果を固有表現クラス重み計算部103に渡す。固有表現抽出結果については後に図5を参照して説明する。
なお、固有表現抽出部102は、上述した特許文献に開示されている公知の技術によって実現してもよい。
(固有表現クラス判定知識DB112)
次に、固有表現クラス判定知識DB112が格納している判定知識について図4を参照して説明する。図4は固有表現クラス判定知識の一例を説明する図である。
本実施形態の固有表現クラス判定知識は、「文節あるいは固有表現クラスに関する条件パターン」401と、「固有表現クラス」402と、「固有表現クラスが係る範囲」403と、「固有表現クラスに属する確からしさの評価値」404と、を関連付けたデータである。
「文節あるいは固有表現クラスに関する条件パターン」401は、複数の文節が連続する文節列において、各文節に関する品詞の種類、付属語の有無、記述長の範囲などといった条件の組を文節の順に記述したパターンであり、文節列が満たす条件を意味する。また、既にある文節列に対して固有表現クラスが付与されている場合は、その文節列に付与されている固有表現クラスが何であるかという条件も上記のパターンに含めることができる。
図4の例では、文節列がこの条件パターン401を満たすときに、「固有表現クラスが係る範囲」403に指定してある範囲に対して「固有表現クラス」402に記載されている固有表現クラスをセットするというアクションを行う。ここで、示されている固有表現クラスが係る範囲」403の例は「文節あるいは固有表現クラスに関する条件パターン」401における一番目から二番目までの範囲の文節を意味する。
「固有表現クラスに属する確からしさの評価値」404は、文節あるいは「固有表現クラスに関する条件パターン」401とアクションの結び付きの強さを表す評価値である。図4の例では、この評価値が大きいほど、このアクションの正確度が高くなることを意味する。
しかし、ここでの評価値は、連続するいくつかの文節に関する条件に対してのみ考慮される評価値であり、文書全体を考慮した結果得られる評価値ではない。そのため、この評価値が大きいことは、必ずしもその評価値をもつ固有表現が重要であることを意味するものではない。
次に、固有表現抽出結果について図5を参照して説明する。図5は固有表現抽出結果の一例を説明する図である。
本実施形態での固有表現クラス判定結果はS202の形態素解析結果に対して、固有表現クラス、および、確信度のペアを追加したデータである。その際、追加される、固有表現クラス、および、確信度のペアは1つとは限らない、例えば「山口」などの単語は地名であると判定されると同時に人名であると判定される場合がある。このような場合は、その単語を含む文節に対して複数個のペアが追加される。
(固有表現クラス重み計算部103)
次に、固有表現クラス重み計算部103の処理について図6、図9を参照して説明する。図6は固有表現クラス重み計算部103における処理の流れを説明する図である。
(S601)固有表現抽出部102から固有表現抽出結果を受け取る。
(S602)固有表現抽出結果に基づき固有表現クラス重みを計算する。
(S603)ステップS602で得られた固有表現クラス重み計算結果を固有表現重み計算部104に渡す。固有表現クラス重み計算の結果が、図5に示した固有表現抽出結果に追加される。固有表現クラス重み計算結果の一例が図9に示してある。本実施形態での固有表現クラス重み計算結果は、S203で得られた固有表現抽出結果に対して、固有表現クラス重みを追加したデータである。
以下に、ステップS602における固有表現クラス重みの計算方法の例について詳細に説明する。以下に計算方法の例を6つ挙げる。
<計算方法例1>
固有表現抽出部102によって抽出された各固有表現が属する固有表現クラスのクラス名の出現頻度情報に基づき、固有表現クラス重みを計算する。出現頻度情報は、固有表現クラス重み計算部103が固有表現抽出結果に基づき計算する。
例えば、「山田太郎」という固有表現があるとき、「山田太郎」という文字列そのものではなく、この固有表現がもつ固有表現クラス名、例えば「人名」の出現頻度情報に基づき「人名」という固有表現クラス重みの計算を行う。出現頻度情報とは、ある固有表現クラスが、文書中に出現する回数や、出現する文書数、文書長に対する出現割合などである。
ステップS602において、これらに基づく実際の、固有表現クラス重みの計算式としては、
TF(Term Frequency):固有表現クラスが文書中に出現する回数、
IDF(Inverse Document Frequency):log(固有表現抽出対象の全文書数 / 固有表現クラスが出現する文書数)+1、
TF×IDF、
などがあるが、出現頻度情報に基づくものであればどのようなものでもよい。
<計算方法例2>
固有表現抽出部102によって抽出された各固有表現がもつ文字列の出現頻度情報に基づき、固有表現暫定重みを算出した後、その固有表現暫定重みに基づき、固有表現クラス重みを計算する。
例えば、「山田太郎」および「田中花子」という固有表現があるとき、「山田太郎」および「田中花子」という文字列そのものの出現頻度情報(文字列が文書中に出現する回数や、出現する文書数、文書長に対する出現割合など)に基づき、これらの固有表現の固有表現暫定重みを計算する。実際の、固有表現暫定重みの計算式としては、
TF(Term Frequency):文字列が文書中に出現する回数、
IDF(Inverse Document Frequency):log(固有表現抽出対象の全文書数 / 文字列が出現する文書数)+1、
TF×IDF、
などがあるが、文字列そのものの出現頻度情報に基づくものであればどのようなものでもよい。
その後、例えばこれらの固有表現が「人名」の固有表現クラスを共通に持つ場合は「人名」の固有表現クラス重みを、これらの固有表現が持つ固有表現暫定重みの、
和(例:山田太郎の固有表現暫定重み+田中花子の固有表現暫定重み)、
積(例:山田太郎の固有表現暫定重み×田中花子の固有表現暫定重み)、
平均(例:(山田太郎の固有表現暫定重み+田中花子の固有表現暫定重み) / 2)
などの、固有表現暫定重みに基づく計算式によって求める。
<計算方法例3>
固有表現抽出部102によって抽出された各固有表現が属する固有表現クラスのクラス名の出現系列パターンの出現頻度情報、或いはパターンを構成するクラス名の数に基づき固有表現クラスの重みを計算する。
本実施形態の固有表現抽出装置への入力文書例として、図7のような外食店情報のリストなどを考える。図7は、<店名>→<住所>→<電話番号>→<時間帯>というクラス名の出現系列パターンが頻繁に出現していることを表している。また、図7では、クラス名の数は4つである。
このように、あるクラス名の出現系列パターンが頻繁に出現する際には、その情報作成者は、情報の一覧性、あるいは比較容易性などを高めるために意図的にそのような規則的な記述をしている場合が多いと考えられる。その場合、それらのパターン中に出現する情報は重要であると考えられる。このような考えに基づき、以下に固有表現クラスの重みの計算例を示す。
(ステップ1)
ある特定のクラス名の出現系列パターンに関する、「文書中におけるそのパターンの出現数」、「文書長に対してそのパターンの記述が占める割合」、「そのパターンを構成するクラス名の数」などといったパラメータに基づき、そのパターンの重みを計算する。ここで、クラス名の出現系列パターンとは、二つ以上の固有表現クラス名の順序付きセットにより定義される。その際、クラス名同士の位置的な関係は隣接していても、隣接していなくても良い。
文書中から出現系列パターンを発見するための手法としては例えば、「WWWページからの手順に関する箇条書きの抽出」(情報処理学会論文誌:データベース, Vol.44, No.SIG12, pp.51-63, September 2003.に掲載、著者:武智峰樹)に記載されているAprioriアルゴリズム、PrefixSpanなどがある。
出現系列パターンの出現数は、文書中においてその出現系列パターンを定義する順序付きセットの、全要素と順序を満たすパターンを数えることにより求めることができる。
実際の計算式は、例えば、
「パターンの重み」=「文書中におけるそのパターンの出現数」、
「パターンの重み」=「そのパターンを構成するクラス名の数」、
「パターンの重み」=「文書中におけるそのパターンの出現数」×「そのパターンを構成するクラス名の数」、
「パターンの重み」=「文書中におけるそのパターンの出現数」×LOG「そのパターンを構成するクラス名の数」
など、これらのパラメータに基づくものであればどのようなものでもよい。また、
「文書中におけるそのパターンの出現数が一定数以上」、
「文書長に対してそのパターンの記述が占める割合が一定数以上」、
「そのパターンを構成するクラス名の数が一定数以上」
などの条件、および、それらの組み合わせの条件を満たすときに、そのパターンに対して一定値の重みを与えるという方法でもよい。
(ステップ2)
上記のように、クラス名の出現系列パターンの重みを計算した後、その重みに基づき、そのパターンに含まれているクラス名に対する固有表現クラス重みを計算する。クラス名の出現系列パターンの重みに基づき、固有表現クラス重みを計算する計算式は、
「固有表現クラス重み」=「パターンの重み」、
「固有表現クラス重み」=「パターンの重み」/「そのパターンを構成するクラス名の数」
など、クラス名の出現系列パターンの重みに基づくものであれば、どのようなものでもよい。
このようにして固有表現クラス重みを計算することにより、ある特定の固有表現クラスの出現系列パターン中に含まれる固有表現クラスの重みを、一律に増減することが可能となる。そのため、固有表現抽出を行う際に、元情報における記述の規則性を損ねることが回避でき、結果として、固有表現を抽出する際に重要な情報の欠落防止、意味的な一貫性の確保が可能となる。
<計算方法例4>
固有表現抽出部102によって抽出された各固有表現がもつ文字列の出現系列パターンの出現頻度情報、或いはパターンを構成する固有表現文字列の数に基づき、各固有表現に対する固有表現暫定重みを計算し、その重みに基づき、固有表現クラスの重みを計算する。
本実施形態の固有表現抽出装置への入力文書例として、図8のような学会プログラムを考える。図8は<山本太郎>→<○○大学>という固有表現文字列の出現系列パターンが頻繁に出現していることを表している。
このように、ある固有表現文字列の出現系列パターンが頻繁に出現する際には、その情報作成者は、情報の一覧性、あるいは比較容易性などを高めるために意図的にそのような規則的な記述をしている場合が多いと考えられる。その場合、それらのパターン中に出現する情報は重要であると考えられる。このような考えに基づき、以下に固有表現クラスの重みの計算例を示す。
(ステップ1)
ある特定の固有表現文字列の出現系列パターンに関する、「文書中におけるそのパターンの出現数」、「文書長に対してそのパターンの記述が占める割合」、「そのパターンを構成する固有表現文字列の数」などといったパラメータに基づき、そのパターンの重みを計算する。ここで、固有表現文字列の出現系列パターンとは、二つ以上の固有表現文字列の順序付きセットにより定義される。その際、固有表現文字列同士の位置的な関係は隣接していても、隣接していなくても良い。
文書中から出現系列パターンを発見するための手法としては例えば、上記と同様の「WWWページからの手順に関する箇条書きの抽出」(情報処理学会論文誌:データベース, Vol.44, No.SIG12, pp.51-63, September 2003.に掲載、著者:武智峰樹)に記載されているAprioriアルゴリズム、PrefixSpanなどがある。
出現系列パターンの出現数は、文書中においてその出現系列パターンを定義する順序付きセットの、全要素と順序を満たすパターンを数えることにより求めることができる。
実際の計算式は、例えば、
「パターンの重み」=「文書中におけるそのパターンの出現数」、
「パターンの重み」=「文書中におけるそのパターンの出現数」×「そのパターンを構成する固有表現文字列の数」、
「パターンの重み」=「文書中におけるそのパターンの出現数」×LOG「そのパターンを構成する固有表現文字列の数」
など、これらのパラメータに基づくものであればどのようなものでもよい。また、
「文書中におけるそのパターンの出現数が一定数以上」、
「文書長に対してそのパターンの記述が占める割合が一定数以上」、
「そのパターンを構成する固有表現文字列の数が一定数以上」
などの条件、および、それらの組み合わせの条件を満たすときに、そのパターンに対して一定値の重みを与えるという方法でもよい。
(ステップ2)
上記のように、固有表現文字列の出現系列パターンの重みを計算した後、その重みに基づき、そのパターンに含まれている固有表現文字列に対する固有表現暫定重みを計算する。固有表現文字列の出現系列パターンの重みに基づき、固有表現暫定重みを計算する計算式は、
「固有表現暫定重み」=「パターンの重み」、
「固有表現暫定重み」=「パターンの重み」/「そのパターンを構成する固有表現文字列の数」
など、固有表現文字列の出現系列パターンの重みに基づくものであれば、どのようなものでもよい。
(ステップ3)
上記のように、固有表現暫定重みを計算した後、その重みに基づき固有表現クラスの重みを計算する。例えば、「山田太郎」および「田中花子」という固有表現があり、これらの固有表現文字列が固有表現文字列の出現系列パターン中に出現するものとする。これらの固有表現が「人名」の固有表現クラスを共通に持つ場合は「人名」の固有表現クラス重みを、上記ステップ2で計算した各々の固有表現暫定重みの、和、積、平均などの、固有表現暫定重みに基づく計算式によって求める。
このようにして固有表現クラス重みを計算することにより、上記「計算方法例3」の場合と同様に固有表現を抽出する際に重要な情報の欠落防止、意味的な一貫性の確保が可能となる。
<計算方法例5>
固有表現抽出部102によって抽出された各固有表現が属する固有表現クラスのクラス名の文書中における出現位置に基づき、固有表現クラスの重みを計算する。例えば、タイトル、見出しなどのあらかじめ重要な箇所であることがわかっている箇所に出現する固有表現が属する固有表現クラスには、一律に大きな一定値の固有表現クラス重みを与える。あるいは、そのような箇所に出現する回数に比例して大きな固有表現クラス重みを与えるといった方法でも良い。
<計算方法例6>
固有表現抽出部102によって抽出された各固有表現が属する固有表現クラスの重みを、以前に本実施形態の固有表現抽出装置を利用した際に、計算された固有表現クラス重みの値に基づき計算する。例えば、以前に計算された固有表現クラス重みから、抽出された各固有表現が属する固有表現クラスに対応するクラス重みを選択し、選択されたクラス重みの大きさに応じて、クラス重みを加重調整する。計算式の例を以下に示す。なお、以前に計算された固有表現クラス重みの値は、固有表現クラス重み計算部103がメモリ等を有して、そこに記憶している。
「固有表現クラス重み」=「上記計算方法例1〜5などによって計算された固有表現クラス重み」×「以前に本実施形態の固有表現抽出装置を利用した際に、計算された固有表現クラス重み」、
「固有表現クラス重み」=(0.7×「上記計算方法例1〜5などによって計算された固有表現クラス重み」)+(0.3×「以前に本実施形態の固有表現抽出装置を利用した際に、計算された固有表現クラス重み」)
このように、計算式は以前に本実施形態の固有表現抽出装置を利用した際に、計算された固有表現クラス重みの値に基づくものであればどのようなものでもよい。
(固有表現重み計算部104)
次に、図1の固有表現重み計算部104について図10、図11を参照して説明する。図10は固有表現重み計算部104における処理の流れを説明する図である。
(S1001)固有表現クラス重み計算部103から固有表現クラス重み計算結果を受け取る。
(S1002)固有表現クラス重み計算結果に基づき固有表現重みを計算する。
(S1003)固有表現重み計算結果を固有表現出力制御部に渡す。固有表現重み計算結果の一例が図11に示してある。本実施形態での固有表現重み計算結果は図9の固有表現クラス重み計算結果に、固有表現重みを追加したデータである。
以下に、ステップS1002における固有表現重みの計算方法の例について詳細に説明する。以下に計算方法の例を2つ挙げる。
<計算方法例1>
固有表現クラス重み計算部103で計算された固有表現クラス重みをそのまま、固有表現重みとみなす。これはつまり、固有表現抽出部102で与えた、どのクラスに属するかということに関しての確からしさの評価値(確信度)を考慮せずに、固有表現クラス重みのみを考慮する場合に相当する。
このような計算方法によると、どのクラスに属するかが不確定な固有表現が多く出現する場合であっても、ある特定のクラスに属する可能性のある語は一様に高い固有表現重みを与えることができるため、本実施形態の固有表現抽出装置の利用者が所望している固有表現クラスに属する固有表現の抽出漏れを少なくできるという効果が期待できる。また、利用者が所望していない固有表現クラスに属する固有表現の重みを低くすることができるため、固有表現が過剰に抽出されることを抑止する効果もある。
<計算方法例2>
固有表現クラス重み計算部103で計算された固有表現クラス重み、および、固有表現抽出部102で与えた、どのクラスに属するかということに関しての確からしさの評価値(確信度)を双方とも考慮して計算を行う。実際の計算方法としては、2つの値の和、積、荷重平均など、2つの値を計算式に反映させるものであれば、どのような計算方法でも良い。
このような計算方法によると、どのクラスに属するかが曖昧な固有表現が多く出現する場合は、それらの不確定さと、それらが属する固有表現クラスの重要度の兼ね合いによって、抽出するかしないかを決定することができる。したがって、計算方法2は、上記計算方法1と比較した場合、多少、抽出漏れは増える一方、本実施形態の固有表現抽出装置の利用者が所望している固有表現クラスに属する固有表現をより高純度に抽出することが可能となる。
(固有表現出力制御部105)
次に、図1の固有表現出力制御部105について図12を参照して説明する。図12は固有表現出力制御部105における処理の流れを説明する図である。
(S1201)固有表現重み計算部104から固有表現重み計算結果を受け取る。
(S1202)固有表現重み計算結果に従って出力する固有表現と出力しない固有表現の分離を行う。
(S1203)出力する固有表現を固有表現出力部106に渡す。
以下に、ステップS1202における、出力する固有表現と出力しない固有表現の分離方法の例について詳細に説明する。以下に分離方法の例を3つ挙げる。
<分離方法例1>
固有表現重み計算部104で計算された、固有表現重みの値がある閾値以上のものを出力し、閾値未満のものを出力しない。この方法例によると閾値を適切に設定することにより、利用者が所望していない固有表現が過剰に抽出されることを抑止すると同時に、重要な固有表現クラスの抽出漏れを防ぐことが可能となる。
<分離方法例2>
固有表現重み計算部104で計算された、固有表現重みの値によって各固有表現を順位付けした後、上位一定数を出力し、それ以外は出力しない。分離方法例1によれば、もしある文書中に閾値以上の固有表現重みを持つ固有表現がない場合は、固有表現が1つも出力されず、また逆に、全ての固有表現が閾値以上の固有表現重みを持つ場合は全ての固有表現が出力される。この方法例によると固有表現重みが比較的大きいとみなされる固有表現のうち一定数を出力することができるため、固有表現出力部106において、ある一定数の固有表現を提示したい場合などに有効である。また、一定数ではなく、ある文書における文書長の一定割合に相当する固有表現を出力したり、また、ある文書中で抽出された全固有表現のうちの一定割合を出力するなどといった方法でもよい。
<分離方法例3>
同一の文節列が複数の固有表現であると判定されている場合、つまり、上述した図11における「山口」のように地名、人名などの複数の固有表現クラスが付与されている場合には、固有表現重みの一番大きい、固有表現重みがある一定値以上、あるいは固有表現重みが大きい順に一定数固有表現を出力し、それ以外は出力しない。この方法例によると、固有表現に意味的な曖昧性がある場合にどちらの解釈が尤もらしいかを判定したり、また何れかを正しい解釈とみなし、それ以外の解釈を棄却できるため、曖昧性の解消が可能となる。
例えば、図11の例において「山口」は固有表現抽出部102によって地名の確信度が人名の確信度よりも大きいと判定されているが、固有表現クラス重み計算部103で計算された、固有表現クラス重みを考慮し、固有表現重み計算部104で固有表現重みを計算(図11の例では、固有表現クラス重み/100を確信度に掛け算)することにより、人名の固有表現クラス重みの方が地名の固有表現クラス重みよりも大きくなっている。このことは「山口」が人名であるという解釈の方が地名であるという解釈よりも、重要であるということを意味している。ことから、「山口」を人名としては出力するが、地名としては出力しないという処理が可能となる。
以上のように、本実施形態の固有表現抽出装置では、固有表現クラスの重みを計算し、これを固有表現の重み計算に用いることにより、固有表現の過剰抽出や、重要な固有表現クラスの抽出漏れを防ぐことができる。
なお、本実施形態では、図6のステップS602における固有表現クラス重みの計算方法の例や、図10のステップS1002における固有表現重みの計算例や、図12のステップS1202における固有表現の分離方法例の説明箇所ではそれぞれ、複数個の例を単独に説明したが、これらは単独にもちいる必要はなく、場合に応じて複数個の例を組み合わせることによって実施してもよい。
以上のように、本発明の実施形態によれば、固有表現が過剰に抽出されることを抑止すると同時に、重要な固有表現クラスの抽出漏れを防ぐことができる固有表現抽出装置および方法を提供することができる。したがって、文脈にそった固有表現を重要と判定することが可能であると同時に、固有表現の重み判定の一貫性を維持することが可能になる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の実施形態に係る固有表現抽出装置の一例を示すブロック図。 図1の固有表現抽出部の処理の一例を示すフローチャート。 図2のステップS202で得られる形態素解析結果の一例を示す図。 図1の固有表現クラス判定知識DBが格納している固有クラス判定知識の一例を示す図。 図1の固有表現抽出部が得る固有表現抽出結果の一例を示す図。 図1の固有表現クラス重み計算部の処理の一例を示すフローチャート。 図1の文書入力部が受け取る入力文書の一例を示す図。 図1の文書入力部が受け取る入力文書の一例を示す図。 図6のステップS602で得られる固有表現クラス重み計算結果の一例を示す図。 図1の固有表現重み計算部の処理の一例を示すフローチャート。 図10のステップS1002で得られる固有表現重み計算結果の一例を示す図。 図1の固有表現出力制御部の処理の一例を示すフローチャート。
符号の説明
101…文書入力部、102…固有表現抽出部、103…固有表現クラス重み計算部、104…固有表現重み計算部、105…固有表現出力制御部、106…固有表現出力部、111…形態素解析辞書DB、112…固有表現クラス判定知識DB。

Claims (13)

  1. 少なくとも1文書を含むテキストを取得する手段と、
    前記テキストから複数の固有表現を抽出する手段と、
    各前記固有表現に対して、固有表現の分類名を示す固有表現クラスを算出する手段と、
    各前記固有表現クラスが前記テキスト中に出現する度合いを示す出現頻度情報に基づいて、前記固有表現クラスのクラス重みを算出するクラス重み算出手段と、
    各前記クラス重みに基づいて、各前記固有表現の固有表現重みを算出する固有表現重み算出手段と、
    複数の前記固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離する分離手段と、
    前記出力する固有表現を出力する手段と、を具備することを特徴とする固有表現抽出装置。
  2. 前記クラス重み算出手段は、前記抽出された固有表現が属する固有表現クラスが前記テキストに出現する回数、および、前記テキストに含まれる文書数のうちの幾つの文書に前記固有表現クラスが含まれているかの数、の少なくともいずれかに基づいて、クラス重みを算出することを特徴とする請求項1に記載の固有表現抽出装置。
  3. 前記クラス重み算出手段は、前記抽出された各固有表現が属する固有表現クラスのクラス名の出現系列パターンの出現頻度、および、出現系列パターンに含まれるクラス名の数の少なくともいずれかに基づいて、クラス重みを算出することを特徴とする請求項1に記載の固有表現抽出装置。
  4. 前記クラス重み算出手段は、
    各前記固有表現が前記テキスト中に出現する度合いを示す出現頻度情報に基づいて、前記固有表現クラスの仮のクラス重みである暫定クラス重みを算出する暫定重み算出手段をさらに具備し、
    前記暫定クラス重みに基づいて、クラス重みを算出することを特徴とする請求項1に記載の固有表現抽出装置。
  5. 少なくとも1文書を含むテキストを取得する手段と、
    前記テキストから複数の固有表現を抽出する手段と、
    各前記固有表現に対して、固有表現の分類名を示す固有表現クラスを算出する手段と、
    各前記固有表現クラスの前記テキスト中の出現位置に基づいて、前記固有表現クラスのクラス重みを算出するクラス重み算出手段と、
    各前記クラス重みに基づいて、各前記固有表現の固有表現重みを算出する固有表現重み算出手段と、
    複数の前記固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離する分離手段と、
    前記出力する固有表現を出力する手段と、を具備することを特徴とする固有表現抽出装置。
  6. 前記暫定重み算出手段は、前記抽出された固有表現が属する固有表現クラスが前記テキストに出現する回数、および、前記テキストに含まれる文書数のうちの幾つの文書に前記固有表現クラスが含まれているかの数、の少なくともいずれかに基づいて、暫定クラス重みを算出することを特徴とする請求項5に記載の固有表現抽出装置。
  7. 前記暫定重み算出手段は、前記抽出された複数の固有表現の出現系列パターンの出現頻度、および、出現系列パターンに含まれる固有表現の数の少なくともいずれかに基づいて、暫定クラス重みを算出することを特徴とする請求項5に記載の固有表現抽出装置。
  8. 前記クラス重み算出手段が算出した、複数の固有表現クラスの複数のクラス重みを蓄積する蓄積手段をさらに具備し、
    クラス重み算出手段は、前記蓄積されている複数のクラス重みから、前記抽出された各固有表現が属する固有表現クラスに対応するクラス重みを選択し、該選択されたクラス重みの大きさに応じて、クラス重みを加重調整することを特徴とする請求項1または請求項5記載の固有表現抽出装置。
  9. 各前記固有表現が該固有表現クラスに属する確からしさを示す確信度を算出する手段をさらに具備し、
    前記固有表現重み算出手段は、各前記固有表現クラスに対応する、各前記クラス重みおよび各前記確信度に基づいて、固有表現重みを算出することを特徴とする請求項1から請求項8のいずれか1つに記載の固有表現抽出装置。
  10. 前記分離手段は、前記固有表現重みがある閾値以上である場合には該固有表現重みに対応する固有表現を出力し、前記固有表現重みが前記閾値未満である場合には該固有表現重みに対応する固有表現を出力しないように分離を行うことを特徴とする請求項1から請求項9のいずれか1つに記載の固有表現抽出装置。
  11. 前記分離手段は、前記固有表現重みの大きさ順での上位一定数に含まれるかどうかに基づいて、出力する固有表現と出力しない固有表現の分離を行うことを特徴とする請求項1から請求項9のいずれか1つに記載の固有表現抽出装置。
  12. 少なくとも1文書を含むテキストを取得し、
    前記テキストから複数の固有表現を抽出し、
    各前記固有表現に対して、固有表現の分類名を示す固有表現クラスを算出し、
    各前記固有表現クラスが前記テキスト中に出現する度合いを示す出現頻度情報に基づいて、前記固有表現クラスのクラス重みを算出し、
    各前記クラス重みに基づいて、各前記固有表現の固有表現重みを算出し、
    複数の前記固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離し、
    前記出力する固有表現を出力することを特徴とする固有表現抽出方法。
  13. 少なくとも1文書を含むテキストを取得し、
    前記テキストから複数の固有表現を抽出し、
    各前記固有表現に対して、固有表現の分類名を示す固有表現クラスを算出し、
    各前記固有表現クラスの前記テキスト中の出現位置に基づいて、前記固有表現クラスのクラス重みを算出し、
    各前記クラス重みに基づいて、各前記固有表現の固有表現重みを算出し、
    複数の前記固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離し、
    前記出力する固有表現を出力することを特徴とする固有表現抽出方法。
JP2005342338A 2005-11-28 2005-11-28 固有表現抽出装置および方法 Active JP4074316B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005342338A JP4074316B2 (ja) 2005-11-28 2005-11-28 固有表現抽出装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005342338A JP4074316B2 (ja) 2005-11-28 2005-11-28 固有表現抽出装置および方法

Publications (2)

Publication Number Publication Date
JP2007148785A true JP2007148785A (ja) 2007-06-14
JP4074316B2 JP4074316B2 (ja) 2008-04-09

Family

ID=38210132

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005342338A Active JP4074316B2 (ja) 2005-11-28 2005-11-28 固有表現抽出装置および方法

Country Status (1)

Country Link
JP (1) JP4074316B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009140049A (ja) * 2007-12-04 2009-06-25 Nippon Telegr & Teleph Corp <Ntt> 新規固有表現語彙獲得装置、その方法、プログラム及び記録媒体
JP2010128774A (ja) * 2008-11-27 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 固有表現抽出装置、その方法およびプログラム
US11868726B2 (en) 2018-09-28 2024-01-09 Kabushiki Kaisha Toshiba Named-entity extraction apparatus, method, and non-transitory computer readable storage medium

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009140049A (ja) * 2007-12-04 2009-06-25 Nippon Telegr & Teleph Corp <Ntt> 新規固有表現語彙獲得装置、その方法、プログラム及び記録媒体
JP2010128774A (ja) * 2008-11-27 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 固有表現抽出装置、その方法およびプログラム
US11868726B2 (en) 2018-09-28 2024-01-09 Kabushiki Kaisha Toshiba Named-entity extraction apparatus, method, and non-transitory computer readable storage medium

Also Published As

Publication number Publication date
JP4074316B2 (ja) 2008-04-09

Similar Documents

Publication Publication Date Title
Wu et al. Automatic generation of personalized annotation tags for twitter users
TWI536181B (zh) 在多語文本中的語言識別
US9342590B2 (en) Keywords extraction and enrichment via categorization systems
KR101548096B1 (ko) 문서 자동 요약 방법 및 서버
Xiong et al. Towards better text understanding and retrieval through kernel entity salience modeling
JP5379138B2 (ja) 領域辞書の作成
KR20190062391A (ko) 전자 기록의 문맥 리트리벌을 위한 시스템 및 방법
US20100198802A1 (en) System and method for optimizing search objects submitted to a data resource
JP2008542951A (ja) 関連性ネットワーク
US20110231411A1 (en) Topic Word Generation Method and System
JP2009508267A (ja) ブログ文書のランク付け
JP2004139553A (ja) 文書検索システムおよび質問応答システム
JP5273735B2 (ja) テキスト要約方法、その装置およびプログラム
Lahiri et al. Keyword extraction from emails
WO2015168344A1 (en) Searching locally defined entities
CN107885717B (zh) 一种关键词提取方法及装置
Barriere et al. TerminoWeb: a software environment for term study in rich contexts
Tandel et al. Multi-document text summarization-a survey
JP4074316B2 (ja) 固有表現抽出装置および方法
JP5251099B2 (ja) 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム
Ullah et al. Pattern and semantic analysis to improve unsupervised techniques for opinion target identification
JP2008102790A (ja) 検索システム
Jēkabsons Evaluation of fingerprint selection algorithms for local text reuse detection
JP5277090B2 (ja) リンク作成支援装置、リンク作成支援方法およびプログラム
JP2008282328A (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070821

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080124

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110201

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4074316

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120201

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130201

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140201

Year of fee payment: 6