JP2007148785A

JP2007148785A - 固有表現抽出装置および方法

Info

Publication number: JP2007148785A
Application number: JP2005342338A
Authority: JP
Inventors: Hiroshi Sasaki; 佐々木　　寛; Yoshimi Saito; 佳美齋藤; Toshihiko Manabe; 俊彦真鍋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-11-28
Filing date: 2005-11-28
Publication date: 2007-06-14
Anticipated expiration: 2025-11-28
Also published as: JP4074316B2

Abstract

【課題】文脈にそった固有表現を重要と判定することができると同時に固有表現の重み判定の一貫性を維持する。
【解決手段】少なくとも１文書を含むテキストを取得する手段１０１と、テキストから複数の固有表現を抽出する手段１０２と、各固有表現に対して、固有表現の分類名を示す固有表現クラスを算出する手段１０３と、各固有表現クラスがテキスト中に出現する度合いを示す出現頻度情報に基づいて、固有表現クラスのクラス重みを算出する手段１０３と、各クラス重みに基づいて各固有表現の固有表現重みを算出する手段１０４と、複数の固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離する手段１０５と、出力する固有表現を出力する手段１０６と、を具備する。
【選択図】図１

Description

本発明は、入力された文書中に出現する固有表現を抽出する固有表現抽出装置および方法に関するものである。

従来、人手により辞書やルールを作成する手法や機械学習による手法などの様々な手法によって、文書中から固有表現を抽出しようとする試みがなされてきた。固有表現を抽出するにあたって最も基本的な方法は、入力された文書中に出現する固有表現に対しその固有表現の重み評価値を付与することなく、そのまま出力するというものである。

しかし、固有表現抽出装置を検索システムにおける関連キーワードを抽出する目的に用いる場合（例えば、特許文献１参照）や、固有表現の多義曖昧性解消を行う場合（例えば、特許文献２参照）は、固有表現だけではなく、その固有表現の重みを併せて出力する必要がある。固有表現の重みを算出する方法としては、固有表現の重みをその固有表現文字列の統計情報、出現位置、他の単語との共起情報などといった、固有表現そのものの文字列に関する出現情報にのみ基づいて計算をおこなっている（例えば、特許文献１、特許文献２参照）。また、固有表現を抽出する際に、どのクラスに属するかということに関しての確からしさの評価値を設定することにより、それを固有表現の重みとして用いている。
特開平１１−２５１０８号公報特開２００２−８２９４３公報

しかしながら、上述のように固有表現の重みを、その固有表現そのものの文字列に関する情報にのみ基づいて計算を行うか、あるいはどのクラスに属するかという確からしさの評価値を固有表現の重みとして用いると、正確性を欠く場合がある。

例として、商品比較を目的としたインターネット上の掲示板から固有表現の抽出をおこない、それを掲示板の利用者に提示することを考える。その際、掲示板中に出現するメッセージ投稿者名やメッセージ投稿時刻などの固有表現が抽出されることはのぞましくない。なぜなら、掲示板の利用者にとって商品の比較検討のために有益な情報は、商品比較をおこないたい商品の商品名、値段、スペックなどであり、メッセージ投稿者名やメッセージ投稿時刻などは不要だからである。しかし、文字列に関する出現情報を用いる場合は、メッセージ投稿者名やメッセージ投稿時刻などの固有表現が、文字列としてそのページに特有である場合は、重要と判定されてしまう。どのクラスに属するかという確からしさの評価値を用いる場合は、明白にメッセージ投稿者名やメッセージ投稿時刻などと判定することができる固有表現がある場合に、それらは重要と判定されてしまう。このように文脈にそぐわない固有表現を重要と判定してしまう場合が生じる。

また、文字列に関する出現情報を用いる場合は、そのページに出現する複数の商品名のうち、一部の商品名が文字列としてそのページに特有であり、他方は特有ではない場合に、一部の商品名のみが重要と判定され他方は重要と判定されない。どのクラスに属するかという確からしさの評価値を用いる場合は、一部の商品名が明白に商品名であることが判定でき、他方は商品名であるかもしれないが明白ではないと判定される場合に、一部の商品名のみが重要と判定され他方は重要と判定されない。しかし、商品を比較する場合にはユーザが着目している商品の商品名だけではなくその比較対照となる商品の商品名が必要であり、このように固有表現の重み判定の一貫性を欠いてしまうという場合が生じる。

本発明は、以上の問題点に鑑み、文脈にそった固有表現を重要と判定することが可能であると同時に、固有表現の重み判定の一貫性を維持することが可能な固有表現抽出装置および方法を提供することを目的とする。

上述の課題を解決するため、本発明の固有表現抽出装置は、少なくとも１文書を含むテキストを取得する手段と、前記テキストから複数の固有表現を抽出する手段と、各前記固有表現に対して、固有表現の分類名を示す固有表現クラスを算出する手段と、各前記固有表現クラスが前記テキスト中に出現する度合いを示す出現頻度情報に基づいて、前記固有表現クラスのクラス重みを算出するクラス重み算出手段と、各前記クラス重みに基づいて、各前記固有表現の固有表現重みを算出する固有表現重み算出手段と、複数の前記固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離する分離手段と、前記出力する固有表現を出力する手段と、を具備することを特徴とする。

また、本発明の固有表現抽出装置は、少なくとも１文書を含むテキストを取得する手段と、前記テキストから複数の固有表現を抽出する手段と、各前記固有表現に対して、固有表現の分類名を示す固有表現クラスを算出する手段と、各前記固有表現クラスの前記テキスト中の出現位置に基づいて、前記固有表現クラスのクラス重みを算出するクラス重み算出手段と、各前記クラス重みに基づいて、各前記固有表現の固有表現重みを算出する固有表現重み算出手段と、複数の前記固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離する分離手段と、前記出力する固有表現を出力する手段と、を具備することを特徴とする。

本発明の固有表現抽出方法は、少なくとも１文書を含むテキストを取得し、前記テキストから複数の固有表現を抽出し、各前記固有表現に対して、固有表現の分類名を示す固有表現クラスを算出し、各前記固有表現クラスが前記テキスト中に出現する度合いを示す出現頻度情報に基づいて、前記固有表現クラスのクラス重みを算出し、各前記クラス重みに基づいて、各前記固有表現の固有表現重みを算出し、複数の前記固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離し、前記出力する固有表現を出力することを特徴とする。

また、本発明の固有表現抽出方法は、少なくとも１文書を含むテキストを取得し、前記テキストから複数の固有表現を抽出し、各前記固有表現に対して、固有表現の分類名を示す固有表現クラスを算出し、各前記固有表現クラスの前記テキスト中の出現位置に基づいて、前記固有表現クラスのクラス重みを算出し、各前記クラス重みに基づいて、各前記固有表現の固有表現重みを算出し、複数の前記固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離し、前記出力する固有表現を出力することを特徴とする。

本発明の固有表現抽出装置および方法によれば、文脈にそった固有表現を重要と判定することが可能であると同時に、固有表現の重み判定の一貫性を維持することができる。

以下、図面を参照しながら本発明の実施形態に係る固有表現抽出装置および方法について詳細に説明する。
本発明の実施形態の固有表現抽出装置は、固有表現そのものではなくそのクラス（固有表現クラス）に抽象化し、固有表現クラス単位での統計情報、あるいは、その出現パターンに基づき、まず、固有表現クラスの重要度を計算し、それを固有表現の重要度に反映させることを特徴としている。

ここで、固有表現とは、人名、地名、組織名、商品名、イベント名、法律名、書籍名のような固有名や、時間表現、個数表現、価格表現のような数量表現や、化学物質名、動物名、植物名、遺伝子名のような種族名のことである。また、固有表現クラスとは、固有表現の分類名を意味する。例えば、「山田太郎」という固有表現に対する固有表現クラスは「人名」となる。

まず、本発明の実施形態に係る固有表現抽出装置について図１を参照して説明する。図１は本発明の実施形態に係る固有表現抽出装置を示すブロック図である。
本実施形態の固有表現抽出装置は、図１に示すように、文書入力部１０１、固有表現抽出部１０２、固有表現クラス重み計算部１０３、固有表現重み計算部１０４、固有表現出力制御部１０５、固有表現出力部１０６、形態素解析辞書データベース（ＤＢ）１１１、固有表現クラス判定知識ＤＢ１１２を備えている。

文書入力部１０１は、電子テキストを入力するためのものである。

固有表現抽出部１０２は、形態素解析辞書ＤＢ１１１および固有表現クラス判定知識ＤＢ１１２を参照して、文書入力部１０１が出力した文書から固有表現を抽出する。

固有表現クラス重み計算部１０３は、文書中に出現する、少なくとも固有表現クラスの統計情報に基づき、各固有表現クラスの重みを計算する。

固有表現重み計算部１０４は、固有表現クラス重みに基づき各固有表現の重みを計算する。

固有表現出力制御部１０５は、各固有表現の重みに基づき、出力する固有表現と出力しない固有表現の分離を行う。

固有表現出力部１０６は、出力用に分離された固有表現を出力する。

（固有表現抽出部１０２）
次に、固有表現抽出部１０２の処理について図２、図３を参照して説明する。図２は固有表現抽出部１０２における処理の流れを説明する図である。

（Ｓ２０１）文書入力部１０１が入力した電子テキストである固有表現抽出対象文書を受け取る。
（Ｓ２０２）形態素解析辞書ＤＢ１１１を参照して、固有表現抽出対象文書に形態素解析を行う。ここで、ステップＳ２０２による形態素解析結果について図３を参照して説明する。図３は形態素解析結果の一例を説明する図である。本実施形態での形態素解析結果は、文節、品詞、プロパティーセットなどの組がリストとなっているデータである。プロパティーセットは固有表現を抽出する際に使用する情報である。

（Ｓ２０３）固有表現クラス判定知識ＤＢ１１２を参照して、ステップＳ２０２で取得した形態素解析結果から固有表現抽出を行う。すなわち、固有表現クラス判定知識ＤＢ１１２を使用して、形態素解析結果から、各文節列の固有表現クラスを判定し、固有表現クラス、および、どのクラスに属するかに関しての確からしさの評価値（確信度）を算出する。そして、ステップＳ２０２で得られた形態素解析結果に、固有表現クラス、および、確信度を追加する。

（Ｓ２０４）ステップＳ２０２で得られた形態素解析結果に、固有表現クラス、および、確信度を追加した固有表現抽出結果を固有表現クラス重み計算部１０３に渡す。固有表現抽出結果については後に図５を参照して説明する。

なお、固有表現抽出部１０２は、上述した特許文献に開示されている公知の技術によって実現してもよい。

（固有表現クラス判定知識ＤＢ１１２）
次に、固有表現クラス判定知識ＤＢ１１２が格納している判定知識について図４を参照して説明する。図４は固有表現クラス判定知識の一例を説明する図である。
本実施形態の固有表現クラス判定知識は、「文節あるいは固有表現クラスに関する条件パターン」４０１と、「固有表現クラス」４０２と、「固有表現クラスが係る範囲」４０３と、「固有表現クラスに属する確からしさの評価値」４０４と、を関連付けたデータである。
「文節あるいは固有表現クラスに関する条件パターン」４０１は、複数の文節が連続する文節列において、各文節に関する品詞の種類、付属語の有無、記述長の範囲などといった条件の組を文節の順に記述したパターンであり、文節列が満たす条件を意味する。また、既にある文節列に対して固有表現クラスが付与されている場合は、その文節列に付与されている固有表現クラスが何であるかという条件も上記のパターンに含めることができる。

図４の例では、文節列がこの条件パターン４０１を満たすときに、「固有表現クラスが係る範囲」４０３に指定してある範囲に対して「固有表現クラス」４０２に記載されている固有表現クラスをセットするというアクションを行う。ここで、示されている固有表現クラスが係る範囲」４０３の例は「文節あるいは固有表現クラスに関する条件パターン」４０１における一番目から二番目までの範囲の文節を意味する。

「固有表現クラスに属する確からしさの評価値」４０４は、文節あるいは「固有表現クラスに関する条件パターン」４０１とアクションの結び付きの強さを表す評価値である。図４の例では、この評価値が大きいほど、このアクションの正確度が高くなることを意味する。
しかし、ここでの評価値は、連続するいくつかの文節に関する条件に対してのみ考慮される評価値であり、文書全体を考慮した結果得られる評価値ではない。そのため、この評価値が大きいことは、必ずしもその評価値をもつ固有表現が重要であることを意味するものではない。

次に、固有表現抽出結果について図５を参照して説明する。図５は固有表現抽出結果の一例を説明する図である。
本実施形態での固有表現クラス判定結果はＳ２０２の形態素解析結果に対して、固有表現クラス、および、確信度のペアを追加したデータである。その際、追加される、固有表現クラス、および、確信度のペアは１つとは限らない、例えば「山口」などの単語は地名であると判定されると同時に人名であると判定される場合がある。このような場合は、その単語を含む文節に対して複数個のペアが追加される。

（固有表現クラス重み計算部１０３）
次に、固有表現クラス重み計算部１０３の処理について図６、図９を参照して説明する。図６は固有表現クラス重み計算部１０３における処理の流れを説明する図である。

（Ｓ６０１）固有表現抽出部１０２から固有表現抽出結果を受け取る。
（Ｓ６０２）固有表現抽出結果に基づき固有表現クラス重みを計算する。
（Ｓ６０３）ステップＳ６０２で得られた固有表現クラス重み計算結果を固有表現重み計算部１０４に渡す。固有表現クラス重み計算の結果が、図５に示した固有表現抽出結果に追加される。固有表現クラス重み計算結果の一例が図９に示してある。本実施形態での固有表現クラス重み計算結果は、Ｓ２０３で得られた固有表現抽出結果に対して、固有表現クラス重みを追加したデータである。

以下に、ステップＳ６０２における固有表現クラス重みの計算方法の例について詳細に説明する。以下に計算方法の例を６つ挙げる。

＜計算方法例１＞
固有表現抽出部１０２によって抽出された各固有表現が属する固有表現クラスのクラス名の出現頻度情報に基づき、固有表現クラス重みを計算する。出現頻度情報は、固有表現クラス重み計算部１０３が固有表現抽出結果に基づき計算する。
例えば、「山田太郎」という固有表現があるとき、「山田太郎」という文字列そのものではなく、この固有表現がもつ固有表現クラス名、例えば「人名」の出現頻度情報に基づき「人名」という固有表現クラス重みの計算を行う。出現頻度情報とは、ある固有表現クラスが、文書中に出現する回数や、出現する文書数、文書長に対する出現割合などである。
ステップＳ６０２において、これらに基づく実際の、固有表現クラス重みの計算式としては、
TF（Term Frequency）：固有表現クラスが文書中に出現する回数、
IDF（Inverse Document Frequency）：log（固有表現抽出対象の全文書数 / 固有表現クラスが出現する文書数）+1、
TF×IDF、
などがあるが、出現頻度情報に基づくものであればどのようなものでもよい。

＜計算方法例２＞
固有表現抽出部１０２によって抽出された各固有表現がもつ文字列の出現頻度情報に基づき、固有表現暫定重みを算出した後、その固有表現暫定重みに基づき、固有表現クラス重みを計算する。
例えば、「山田太郎」および「田中花子」という固有表現があるとき、「山田太郎」および「田中花子」という文字列そのものの出現頻度情報（文字列が文書中に出現する回数や、出現する文書数、文書長に対する出現割合など）に基づき、これらの固有表現の固有表現暫定重みを計算する。実際の、固有表現暫定重みの計算式としては、
TF（Term Frequency）：文字列が文書中に出現する回数、
IDF（Inverse Document Frequency）：log（固有表現抽出対象の全文書数 / 文字列が出現する文書数）+1、
TF×IDF、
などがあるが、文字列そのものの出現頻度情報に基づくものであればどのようなものでもよい。

その後、例えばこれらの固有表現が「人名」の固有表現クラスを共通に持つ場合は「人名」の固有表現クラス重みを、これらの固有表現が持つ固有表現暫定重みの、
和（例：山田太郎の固有表現暫定重み＋田中花子の固有表現暫定重み）、
積（例：山田太郎の固有表現暫定重み×田中花子の固有表現暫定重み）、
平均（例：（山田太郎の固有表現暫定重み＋田中花子の固有表現暫定重み） / 2）
などの、固有表現暫定重みに基づく計算式によって求める。

＜計算方法例３＞
固有表現抽出部１０２によって抽出された各固有表現が属する固有表現クラスのクラス名の出現系列パターンの出現頻度情報、或いはパターンを構成するクラス名の数に基づき固有表現クラスの重みを計算する。
本実施形態の固有表現抽出装置への入力文書例として、図７のような外食店情報のリストなどを考える。図７は、＜店名＞→＜住所＞→＜電話番号＞→＜時間帯＞というクラス名の出現系列パターンが頻繁に出現していることを表している。また、図７では、クラス名の数は４つである。

このように、あるクラス名の出現系列パターンが頻繁に出現する際には、その情報作成者は、情報の一覧性、あるいは比較容易性などを高めるために意図的にそのような規則的な記述をしている場合が多いと考えられる。その場合、それらのパターン中に出現する情報は重要であると考えられる。このような考えに基づき、以下に固有表現クラスの重みの計算例を示す。

（ステップ１）
ある特定のクラス名の出現系列パターンに関する、「文書中におけるそのパターンの出現数」、「文書長に対してそのパターンの記述が占める割合」、「そのパターンを構成するクラス名の数」などといったパラメータに基づき、そのパターンの重みを計算する。ここで、クラス名の出現系列パターンとは、二つ以上の固有表現クラス名の順序付きセットにより定義される。その際、クラス名同士の位置的な関係は隣接していても、隣接していなくても良い。
文書中から出現系列パターンを発見するための手法としては例えば、「WWWページからの手順に関する箇条書きの抽出」（情報処理学会論文誌:データベース, Vol.44, No.SIG12, pp.51-63, September 2003.に掲載、著者：武智峰樹）に記載されているAprioriアルゴリズム、PrefixSpanなどがある。

出現系列パターンの出現数は、文書中においてその出現系列パターンを定義する順序付きセットの、全要素と順序を満たすパターンを数えることにより求めることができる。
実際の計算式は、例えば、
「パターンの重み」＝「文書中におけるそのパターンの出現数」、
「パターンの重み」＝「そのパターンを構成するクラス名の数」、
「パターンの重み」＝「文書中におけるそのパターンの出現数」×「そのパターンを構成するクラス名の数」、
「パターンの重み」＝「文書中におけるそのパターンの出現数」×LOG「そのパターンを構成するクラス名の数」
など、これらのパラメータに基づくものであればどのようなものでもよい。また、
「文書中におけるそのパターンの出現数が一定数以上」、
「文書長に対してそのパターンの記述が占める割合が一定数以上」、
「そのパターンを構成するクラス名の数が一定数以上」
などの条件、および、それらの組み合わせの条件を満たすときに、そのパターンに対して一定値の重みを与えるという方法でもよい。

（ステップ２）
上記のように、クラス名の出現系列パターンの重みを計算した後、その重みに基づき、そのパターンに含まれているクラス名に対する固有表現クラス重みを計算する。クラス名の出現系列パターンの重みに基づき、固有表現クラス重みを計算する計算式は、
「固有表現クラス重み」＝「パターンの重み」、
「固有表現クラス重み」＝「パターンの重み」/「そのパターンを構成するクラス名の数」
など、クラス名の出現系列パターンの重みに基づくものであれば、どのようなものでもよい。

このようにして固有表現クラス重みを計算することにより、ある特定の固有表現クラスの出現系列パターン中に含まれる固有表現クラスの重みを、一律に増減することが可能となる。そのため、固有表現抽出を行う際に、元情報における記述の規則性を損ねることが回避でき、結果として、固有表現を抽出する際に重要な情報の欠落防止、意味的な一貫性の確保が可能となる。

＜計算方法例４＞
固有表現抽出部１０２によって抽出された各固有表現がもつ文字列の出現系列パターンの出現頻度情報、或いはパターンを構成する固有表現文字列の数に基づき、各固有表現に対する固有表現暫定重みを計算し、その重みに基づき、固有表現クラスの重みを計算する。
本実施形態の固有表現抽出装置への入力文書例として、図８のような学会プログラムを考える。図８は＜山本太郎＞→＜○○大学＞という固有表現文字列の出現系列パターンが頻繁に出現していることを表している。
このように、ある固有表現文字列の出現系列パターンが頻繁に出現する際には、その情報作成者は、情報の一覧性、あるいは比較容易性などを高めるために意図的にそのような規則的な記述をしている場合が多いと考えられる。その場合、それらのパターン中に出現する情報は重要であると考えられる。このような考えに基づき、以下に固有表現クラスの重みの計算例を示す。

（ステップ１）
ある特定の固有表現文字列の出現系列パターンに関する、「文書中におけるそのパターンの出現数」、「文書長に対してそのパターンの記述が占める割合」、「そのパターンを構成する固有表現文字列の数」などといったパラメータに基づき、そのパターンの重みを計算する。ここで、固有表現文字列の出現系列パターンとは、二つ以上の固有表現文字列の順序付きセットにより定義される。その際、固有表現文字列同士の位置的な関係は隣接していても、隣接していなくても良い。
文書中から出現系列パターンを発見するための手法としては例えば、上記と同様の「WWWページからの手順に関する箇条書きの抽出」（情報処理学会論文誌:データベース, Vol.44, No.SIG12, pp.51-63, September 2003.に掲載、著者：武智峰樹）に記載されているAprioriアルゴリズム、PrefixSpanなどがある。

出現系列パターンの出現数は、文書中においてその出現系列パターンを定義する順序付きセットの、全要素と順序を満たすパターンを数えることにより求めることができる。
実際の計算式は、例えば、
「パターンの重み」＝「文書中におけるそのパターンの出現数」、
「パターンの重み」＝「文書中におけるそのパターンの出現数」×「そのパターンを構成する固有表現文字列の数」、
「パターンの重み」＝「文書中におけるそのパターンの出現数」×LOG「そのパターンを構成する固有表現文字列の数」
など、これらのパラメータに基づくものであればどのようなものでもよい。また、
「文書中におけるそのパターンの出現数が一定数以上」、
「文書長に対してそのパターンの記述が占める割合が一定数以上」、
「そのパターンを構成する固有表現文字列の数が一定数以上」
などの条件、および、それらの組み合わせの条件を満たすときに、そのパターンに対して一定値の重みを与えるという方法でもよい。

（ステップ２）
上記のように、固有表現文字列の出現系列パターンの重みを計算した後、その重みに基づき、そのパターンに含まれている固有表現文字列に対する固有表現暫定重みを計算する。固有表現文字列の出現系列パターンの重みに基づき、固有表現暫定重みを計算する計算式は、
「固有表現暫定重み」＝「パターンの重み」、
「固有表現暫定重み」＝「パターンの重み」/「そのパターンを構成する固有表現文字列の数」
など、固有表現文字列の出現系列パターンの重みに基づくものであれば、どのようなものでもよい。

（ステップ３）
上記のように、固有表現暫定重みを計算した後、その重みに基づき固有表現クラスの重みを計算する。例えば、「山田太郎」および「田中花子」という固有表現があり、これらの固有表現文字列が固有表現文字列の出現系列パターン中に出現するものとする。これらの固有表現が「人名」の固有表現クラスを共通に持つ場合は「人名」の固有表現クラス重みを、上記ステップ２で計算した各々の固有表現暫定重みの、和、積、平均などの、固有表現暫定重みに基づく計算式によって求める。

このようにして固有表現クラス重みを計算することにより、上記「計算方法例３」の場合と同様に固有表現を抽出する際に重要な情報の欠落防止、意味的な一貫性の確保が可能となる。

＜計算方法例５＞
固有表現抽出部１０２によって抽出された各固有表現が属する固有表現クラスのクラス名の文書中における出現位置に基づき、固有表現クラスの重みを計算する。例えば、タイトル、見出しなどのあらかじめ重要な箇所であることがわかっている箇所に出現する固有表現が属する固有表現クラスには、一律に大きな一定値の固有表現クラス重みを与える。あるいは、そのような箇所に出現する回数に比例して大きな固有表現クラス重みを与えるといった方法でも良い。

＜計算方法例６＞
固有表現抽出部１０２によって抽出された各固有表現が属する固有表現クラスの重みを、以前に本実施形態の固有表現抽出装置を利用した際に、計算された固有表現クラス重みの値に基づき計算する。例えば、以前に計算された固有表現クラス重みから、抽出された各固有表現が属する固有表現クラスに対応するクラス重みを選択し、選択されたクラス重みの大きさに応じて、クラス重みを加重調整する。計算式の例を以下に示す。なお、以前に計算された固有表現クラス重みの値は、固有表現クラス重み計算部１０３がメモリ等を有して、そこに記憶している。
「固有表現クラス重み」＝「上記計算方法例１〜５などによって計算された固有表現クラス重み」×「以前に本実施形態の固有表現抽出装置を利用した際に、計算された固有表現クラス重み」、
「固有表現クラス重み」＝（０．７×「上記計算方法例１〜５などによって計算された固有表現クラス重み」）＋（０．３×「以前に本実施形態の固有表現抽出装置を利用した際に、計算された固有表現クラス重み」）
このように、計算式は以前に本実施形態の固有表現抽出装置を利用した際に、計算された固有表現クラス重みの値に基づくものであればどのようなものでもよい。

（固有表現重み計算部１０４）
次に、図１の固有表現重み計算部１０４について図１０、図１１を参照して説明する。図１０は固有表現重み計算部１０４における処理の流れを説明する図である。

（Ｓ１００１）固有表現クラス重み計算部１０３から固有表現クラス重み計算結果を受け取る。
（Ｓ１００２）固有表現クラス重み計算結果に基づき固有表現重みを計算する。
（Ｓ１００３）固有表現重み計算結果を固有表現出力制御部に渡す。固有表現重み計算結果の一例が図１１に示してある。本実施形態での固有表現重み計算結果は図９の固有表現クラス重み計算結果に、固有表現重みを追加したデータである。

以下に、ステップＳ１００２における固有表現重みの計算方法の例について詳細に説明する。以下に計算方法の例を２つ挙げる。

＜計算方法例１＞
固有表現クラス重み計算部１０３で計算された固有表現クラス重みをそのまま、固有表現重みとみなす。これはつまり、固有表現抽出部１０２で与えた、どのクラスに属するかということに関しての確からしさの評価値（確信度）を考慮せずに、固有表現クラス重みのみを考慮する場合に相当する。
このような計算方法によると、どのクラスに属するかが不確定な固有表現が多く出現する場合であっても、ある特定のクラスに属する可能性のある語は一様に高い固有表現重みを与えることができるため、本実施形態の固有表現抽出装置の利用者が所望している固有表現クラスに属する固有表現の抽出漏れを少なくできるという効果が期待できる。また、利用者が所望していない固有表現クラスに属する固有表現の重みを低くすることができるため、固有表現が過剰に抽出されることを抑止する効果もある。

＜計算方法例２＞
固有表現クラス重み計算部１０３で計算された固有表現クラス重み、および、固有表現抽出部１０２で与えた、どのクラスに属するかということに関しての確からしさの評価値（確信度）を双方とも考慮して計算を行う。実際の計算方法としては、２つの値の和、積、荷重平均など、２つの値を計算式に反映させるものであれば、どのような計算方法でも良い。
このような計算方法によると、どのクラスに属するかが曖昧な固有表現が多く出現する場合は、それらの不確定さと、それらが属する固有表現クラスの重要度の兼ね合いによって、抽出するかしないかを決定することができる。したがって、計算方法２は、上記計算方法１と比較した場合、多少、抽出漏れは増える一方、本実施形態の固有表現抽出装置の利用者が所望している固有表現クラスに属する固有表現をより高純度に抽出することが可能となる。

（固有表現出力制御部１０５）
次に、図１の固有表現出力制御部１０５について図１２を参照して説明する。図１２は固有表現出力制御部１０５における処理の流れを説明する図である。

（Ｓ１２０１）固有表現重み計算部１０４から固有表現重み計算結果を受け取る。
（Ｓ１２０２）固有表現重み計算結果に従って出力する固有表現と出力しない固有表現の分離を行う。

（Ｓ１２０３）出力する固有表現を固有表現出力部１０６に渡す。

以下に、ステップＳ１２０２における、出力する固有表現と出力しない固有表現の分離方法の例について詳細に説明する。以下に分離方法の例を３つ挙げる。

＜分離方法例１＞
固有表現重み計算部１０４で計算された、固有表現重みの値がある閾値以上のものを出力し、閾値未満のものを出力しない。この方法例によると閾値を適切に設定することにより、利用者が所望していない固有表現が過剰に抽出されることを抑止すると同時に、重要な固有表現クラスの抽出漏れを防ぐことが可能となる。

＜分離方法例２＞
固有表現重み計算部１０４で計算された、固有表現重みの値によって各固有表現を順位付けした後、上位一定数を出力し、それ以外は出力しない。分離方法例１によれば、もしある文書中に閾値以上の固有表現重みを持つ固有表現がない場合は、固有表現が１つも出力されず、また逆に、全ての固有表現が閾値以上の固有表現重みを持つ場合は全ての固有表現が出力される。この方法例によると固有表現重みが比較的大きいとみなされる固有表現のうち一定数を出力することができるため、固有表現出力部１０６において、ある一定数の固有表現を提示したい場合などに有効である。また、一定数ではなく、ある文書における文書長の一定割合に相当する固有表現を出力したり、また、ある文書中で抽出された全固有表現のうちの一定割合を出力するなどといった方法でもよい。

＜分離方法例３＞
同一の文節列が複数の固有表現であると判定されている場合、つまり、上述した図１１における「山口」のように地名、人名などの複数の固有表現クラスが付与されている場合には、固有表現重みの一番大きい、固有表現重みがある一定値以上、あるいは固有表現重みが大きい順に一定数固有表現を出力し、それ以外は出力しない。この方法例によると、固有表現に意味的な曖昧性がある場合にどちらの解釈が尤もらしいかを判定したり、また何れかを正しい解釈とみなし、それ以外の解釈を棄却できるため、曖昧性の解消が可能となる。
例えば、図１１の例において「山口」は固有表現抽出部１０２によって地名の確信度が人名の確信度よりも大きいと判定されているが、固有表現クラス重み計算部１０３で計算された、固有表現クラス重みを考慮し、固有表現重み計算部１０４で固有表現重みを計算（図１１の例では、固有表現クラス重み/１００を確信度に掛け算）することにより、人名の固有表現クラス重みの方が地名の固有表現クラス重みよりも大きくなっている。このことは「山口」が人名であるという解釈の方が地名であるという解釈よりも、重要であるということを意味している。ことから、「山口」を人名としては出力するが、地名としては出力しないという処理が可能となる。

以上のように、本実施形態の固有表現抽出装置では、固有表現クラスの重みを計算し、これを固有表現の重み計算に用いることにより、固有表現の過剰抽出や、重要な固有表現クラスの抽出漏れを防ぐことができる。

なお、本実施形態では、図６のステップＳ６０２における固有表現クラス重みの計算方法の例や、図１０のステップＳ１００２における固有表現重みの計算例や、図１２のステップＳ１２０２における固有表現の分離方法例の説明箇所ではそれぞれ、複数個の例を単独に説明したが、これらは単独にもちいる必要はなく、場合に応じて複数個の例を組み合わせることによって実施してもよい。

以上のように、本発明の実施形態によれば、固有表現が過剰に抽出されることを抑止すると同時に、重要な固有表現クラスの抽出漏れを防ぐことができる固有表現抽出装置および方法を提供することができる。したがって、文脈にそった固有表現を重要と判定することが可能であると同時に、固有表現の重み判定の一貫性を維持することが可能になる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の実施形態に係る固有表現抽出装置の一例を示すブロック図。図１の固有表現抽出部の処理の一例を示すフローチャート。図２のステップＳ２０２で得られる形態素解析結果の一例を示す図。図１の固有表現クラス判定知識ＤＢが格納している固有クラス判定知識の一例を示す図。図１の固有表現抽出部が得る固有表現抽出結果の一例を示す図。図１の固有表現クラス重み計算部の処理の一例を示すフローチャート。図１の文書入力部が受け取る入力文書の一例を示す図。図１の文書入力部が受け取る入力文書の一例を示す図。図６のステップＳ６０２で得られる固有表現クラス重み計算結果の一例を示す図。図１の固有表現重み計算部の処理の一例を示すフローチャート。図１０のステップＳ１００２で得られる固有表現重み計算結果の一例を示す図。図１の固有表現出力制御部の処理の一例を示すフローチャート。

符号の説明

１０１…文書入力部、１０２…固有表現抽出部、１０３…固有表現クラス重み計算部、１０４…固有表現重み計算部、１０５…固有表現出力制御部、１０６…固有表現出力部、１１１…形態素解析辞書ＤＢ、１１２…固有表現クラス判定知識ＤＢ。

Claims

少なくとも１文書を含むテキストを取得する手段と、
前記テキストから複数の固有表現を抽出する手段と、
各前記固有表現に対して、固有表現の分類名を示す固有表現クラスを算出する手段と、
各前記固有表現クラスが前記テキスト中に出現する度合いを示す出現頻度情報に基づいて、前記固有表現クラスのクラス重みを算出するクラス重み算出手段と、
各前記クラス重みに基づいて、各前記固有表現の固有表現重みを算出する固有表現重み算出手段と、
複数の前記固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離する分離手段と、
前記出力する固有表現を出力する手段と、を具備することを特徴とする固有表現抽出装置。
前記クラス重み算出手段は、前記抽出された固有表現が属する固有表現クラスが前記テキストに出現する回数、および、前記テキストに含まれる文書数のうちの幾つの文書に前記固有表現クラスが含まれているかの数、の少なくともいずれかに基づいて、クラス重みを算出することを特徴とする請求項１に記載の固有表現抽出装置。
前記クラス重み算出手段は、前記抽出された各固有表現が属する固有表現クラスのクラス名の出現系列パターンの出現頻度、および、出現系列パターンに含まれるクラス名の数の少なくともいずれかに基づいて、クラス重みを算出することを特徴とする請求項１に記載の固有表現抽出装置。
前記クラス重み算出手段は、
各前記固有表現が前記テキスト中に出現する度合いを示す出現頻度情報に基づいて、前記固有表現クラスの仮のクラス重みである暫定クラス重みを算出する暫定重み算出手段をさらに具備し、
前記暫定クラス重みに基づいて、クラス重みを算出することを特徴とする請求項１に記載の固有表現抽出装置。
少なくとも１文書を含むテキストを取得する手段と、
前記テキストから複数の固有表現を抽出する手段と、
各前記固有表現に対して、固有表現の分類名を示す固有表現クラスを算出する手段と、
各前記固有表現クラスの前記テキスト中の出現位置に基づいて、前記固有表現クラスのクラス重みを算出するクラス重み算出手段と、
各前記クラス重みに基づいて、各前記固有表現の固有表現重みを算出する固有表現重み算出手段と、
複数の前記固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離する分離手段と、
前記出力する固有表現を出力する手段と、を具備することを特徴とする固有表現抽出装置。
前記暫定重み算出手段は、前記抽出された固有表現が属する固有表現クラスが前記テキストに出現する回数、および、前記テキストに含まれる文書数のうちの幾つの文書に前記固有表現クラスが含まれているかの数、の少なくともいずれかに基づいて、暫定クラス重みを算出することを特徴とする請求項５に記載の固有表現抽出装置。
前記暫定重み算出手段は、前記抽出された複数の固有表現の出現系列パターンの出現頻度、および、出現系列パターンに含まれる固有表現の数の少なくともいずれかに基づいて、暫定クラス重みを算出することを特徴とする請求項５に記載の固有表現抽出装置。
前記クラス重み算出手段が算出した、複数の固有表現クラスの複数のクラス重みを蓄積する蓄積手段をさらに具備し、
クラス重み算出手段は、前記蓄積されている複数のクラス重みから、前記抽出された各固有表現が属する固有表現クラスに対応するクラス重みを選択し、該選択されたクラス重みの大きさに応じて、クラス重みを加重調整することを特徴とする請求項１または請求項５記載の固有表現抽出装置。
各前記固有表現が該固有表現クラスに属する確からしさを示す確信度を算出する手段をさらに具備し、
前記固有表現重み算出手段は、各前記固有表現クラスに対応する、各前記クラス重みおよび各前記確信度に基づいて、固有表現重みを算出することを特徴とする請求項１から請求項８のいずれか１つに記載の固有表現抽出装置。
前記分離手段は、前記固有表現重みがある閾値以上である場合には該固有表現重みに対応する固有表現を出力し、前記固有表現重みが前記閾値未満である場合には該固有表現重みに対応する固有表現を出力しないように分離を行うことを特徴とする請求項１から請求項９のいずれか１つに記載の固有表現抽出装置。
前記分離手段は、前記固有表現重みの大きさ順での上位一定数に含まれるかどうかに基づいて、出力する固有表現と出力しない固有表現の分離を行うことを特徴とする請求項１から請求項９のいずれか１つに記載の固有表現抽出装置。
少なくとも１文書を含むテキストを取得し、
前記テキストから複数の固有表現を抽出し、
各前記固有表現に対して、固有表現の分類名を示す固有表現クラスを算出し、
各前記固有表現クラスが前記テキスト中に出現する度合いを示す出現頻度情報に基づいて、前記固有表現クラスのクラス重みを算出し、
各前記クラス重みに基づいて、各前記固有表現の固有表現重みを算出し、
複数の前記固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離し、
前記出力する固有表現を出力することを特徴とする固有表現抽出方法。
少なくとも１文書を含むテキストを取得し、
前記テキストから複数の固有表現を抽出し、
各前記固有表現に対して、固有表現の分類名を示す固有表現クラスを算出し、
各前記固有表現クラスの前記テキスト中の出現位置に基づいて、前記固有表現クラスのクラス重みを算出し、
各前記クラス重みに基づいて、各前記固有表現の固有表現重みを算出し、
複数の前記固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離し、
前記出力する固有表現を出力することを特徴とする固有表現抽出方法。