JP2007148785A - 固有表現抽出装置および方法 - Google Patents
固有表現抽出装置および方法 Download PDFInfo
- Publication number
- JP2007148785A JP2007148785A JP2005342338A JP2005342338A JP2007148785A JP 2007148785 A JP2007148785 A JP 2007148785A JP 2005342338 A JP2005342338 A JP 2005342338A JP 2005342338 A JP2005342338 A JP 2005342338A JP 2007148785 A JP2007148785 A JP 2007148785A
- Authority
- JP
- Japan
- Prior art keywords
- specific expression
- class
- weight
- specific
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】少なくとも1文書を含むテキストを取得する手段101と、テキストから複数の固有表現を抽出する手段102と、各固有表現に対して、固有表現の分類名を示す固有表現クラスを算出する手段103と、各固有表現クラスがテキスト中に出現する度合いを示す出現頻度情報に基づいて、固有表現クラスのクラス重みを算出する手段103と、各クラス重みに基づいて各固有表現の固有表現重みを算出する手段104と、複数の固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離する手段105と、出力する固有表現を出力する手段106と、を具備する。
【選択図】図1
Description
本発明の実施形態の固有表現抽出装置は、固有表現そのものではなくそのクラス(固有表現クラス)に抽象化し、固有表現クラス単位での統計情報、あるいは、その出現パターンに基づき、まず、固有表現クラスの重要度を計算し、それを固有表現の重要度に反映させることを特徴としている。
本実施形態の固有表現抽出装置は、図1に示すように、文書入力部101、固有表現抽出部102、固有表現クラス重み計算部103、固有表現重み計算部104、固有表現出力制御部105、固有表現出力部106、形態素解析辞書データベース(DB)111、固有表現クラス判定知識DB112を備えている。
次に、固有表現抽出部102の処理について図2、図3を参照して説明する。図2は固有表現抽出部102における処理の流れを説明する図である。
(S202)形態素解析辞書DB111を参照して、固有表現抽出対象文書に形態素解析を行う。ここで、ステップS202による形態素解析結果について図3を参照して説明する。図3は形態素解析結果の一例を説明する図である。本実施形態での形態素解析結果は、文節、品詞、プロパティーセットなどの組がリストとなっているデータである。プロパティーセットは固有表現を抽出する際に使用する情報である。
次に、固有表現クラス判定知識DB112が格納している判定知識について図4を参照して説明する。図4は固有表現クラス判定知識の一例を説明する図である。
本実施形態の固有表現クラス判定知識は、「文節あるいは固有表現クラスに関する条件パターン」401と、「固有表現クラス」402と、「固有表現クラスが係る範囲」403と、「固有表現クラスに属する確からしさの評価値」404と、を関連付けたデータである。
「文節あるいは固有表現クラスに関する条件パターン」401は、複数の文節が連続する文節列において、各文節に関する品詞の種類、付属語の有無、記述長の範囲などといった条件の組を文節の順に記述したパターンであり、文節列が満たす条件を意味する。また、既にある文節列に対して固有表現クラスが付与されている場合は、その文節列に付与されている固有表現クラスが何であるかという条件も上記のパターンに含めることができる。
しかし、ここでの評価値は、連続するいくつかの文節に関する条件に対してのみ考慮される評価値であり、文書全体を考慮した結果得られる評価値ではない。そのため、この評価値が大きいことは、必ずしもその評価値をもつ固有表現が重要であることを意味するものではない。
本実施形態での固有表現クラス判定結果はS202の形態素解析結果に対して、固有表現クラス、および、確信度のペアを追加したデータである。その際、追加される、固有表現クラス、および、確信度のペアは1つとは限らない、例えば「山口」などの単語は地名であると判定されると同時に人名であると判定される場合がある。このような場合は、その単語を含む文節に対して複数個のペアが追加される。
次に、固有表現クラス重み計算部103の処理について図6、図9を参照して説明する。図6は固有表現クラス重み計算部103における処理の流れを説明する図である。
(S602)固有表現抽出結果に基づき固有表現クラス重みを計算する。
(S603)ステップS602で得られた固有表現クラス重み計算結果を固有表現重み計算部104に渡す。固有表現クラス重み計算の結果が、図5に示した固有表現抽出結果に追加される。固有表現クラス重み計算結果の一例が図9に示してある。本実施形態での固有表現クラス重み計算結果は、S203で得られた固有表現抽出結果に対して、固有表現クラス重みを追加したデータである。
固有表現抽出部102によって抽出された各固有表現が属する固有表現クラスのクラス名の出現頻度情報に基づき、固有表現クラス重みを計算する。出現頻度情報は、固有表現クラス重み計算部103が固有表現抽出結果に基づき計算する。
例えば、「山田太郎」という固有表現があるとき、「山田太郎」という文字列そのものではなく、この固有表現がもつ固有表現クラス名、例えば「人名」の出現頻度情報に基づき「人名」という固有表現クラス重みの計算を行う。出現頻度情報とは、ある固有表現クラスが、文書中に出現する回数や、出現する文書数、文書長に対する出現割合などである。
ステップS602において、これらに基づく実際の、固有表現クラス重みの計算式としては、
TF(Term Frequency):固有表現クラスが文書中に出現する回数、
IDF(Inverse Document Frequency):log(固有表現抽出対象の全文書数 / 固有表現クラスが出現する文書数)+1、
TF×IDF、
などがあるが、出現頻度情報に基づくものであればどのようなものでもよい。
固有表現抽出部102によって抽出された各固有表現がもつ文字列の出現頻度情報に基づき、固有表現暫定重みを算出した後、その固有表現暫定重みに基づき、固有表現クラス重みを計算する。
例えば、「山田太郎」および「田中花子」という固有表現があるとき、「山田太郎」および「田中花子」という文字列そのものの出現頻度情報(文字列が文書中に出現する回数や、出現する文書数、文書長に対する出現割合など)に基づき、これらの固有表現の固有表現暫定重みを計算する。実際の、固有表現暫定重みの計算式としては、
TF(Term Frequency):文字列が文書中に出現する回数、
IDF(Inverse Document Frequency):log(固有表現抽出対象の全文書数 / 文字列が出現する文書数)+1、
TF×IDF、
などがあるが、文字列そのものの出現頻度情報に基づくものであればどのようなものでもよい。
和(例:山田太郎の固有表現暫定重み+田中花子の固有表現暫定重み)、
積(例:山田太郎の固有表現暫定重み×田中花子の固有表現暫定重み)、
平均(例:(山田太郎の固有表現暫定重み+田中花子の固有表現暫定重み) / 2)
などの、固有表現暫定重みに基づく計算式によって求める。
固有表現抽出部102によって抽出された各固有表現が属する固有表現クラスのクラス名の出現系列パターンの出現頻度情報、或いはパターンを構成するクラス名の数に基づき固有表現クラスの重みを計算する。
本実施形態の固有表現抽出装置への入力文書例として、図7のような外食店情報のリストなどを考える。図7は、<店名>→<住所>→<電話番号>→<時間帯>というクラス名の出現系列パターンが頻繁に出現していることを表している。また、図7では、クラス名の数は4つである。
ある特定のクラス名の出現系列パターンに関する、「文書中におけるそのパターンの出現数」、「文書長に対してそのパターンの記述が占める割合」、「そのパターンを構成するクラス名の数」などといったパラメータに基づき、そのパターンの重みを計算する。ここで、クラス名の出現系列パターンとは、二つ以上の固有表現クラス名の順序付きセットにより定義される。その際、クラス名同士の位置的な関係は隣接していても、隣接していなくても良い。
文書中から出現系列パターンを発見するための手法としては例えば、「WWWページからの手順に関する箇条書きの抽出」(情報処理学会論文誌:データベース, Vol.44, No.SIG12, pp.51-63, September 2003.に掲載、著者:武智峰樹)に記載されているAprioriアルゴリズム、PrefixSpanなどがある。
実際の計算式は、例えば、
「パターンの重み」=「文書中におけるそのパターンの出現数」、
「パターンの重み」=「そのパターンを構成するクラス名の数」、
「パターンの重み」=「文書中におけるそのパターンの出現数」×「そのパターンを構成するクラス名の数」、
「パターンの重み」=「文書中におけるそのパターンの出現数」×LOG「そのパターンを構成するクラス名の数」
など、これらのパラメータに基づくものであればどのようなものでもよい。また、
「文書中におけるそのパターンの出現数が一定数以上」、
「文書長に対してそのパターンの記述が占める割合が一定数以上」、
「そのパターンを構成するクラス名の数が一定数以上」
などの条件、および、それらの組み合わせの条件を満たすときに、そのパターンに対して一定値の重みを与えるという方法でもよい。
上記のように、クラス名の出現系列パターンの重みを計算した後、その重みに基づき、そのパターンに含まれているクラス名に対する固有表現クラス重みを計算する。クラス名の出現系列パターンの重みに基づき、固有表現クラス重みを計算する計算式は、
「固有表現クラス重み」=「パターンの重み」、
「固有表現クラス重み」=「パターンの重み」/「そのパターンを構成するクラス名の数」
など、クラス名の出現系列パターンの重みに基づくものであれば、どのようなものでもよい。
固有表現抽出部102によって抽出された各固有表現がもつ文字列の出現系列パターンの出現頻度情報、或いはパターンを構成する固有表現文字列の数に基づき、各固有表現に対する固有表現暫定重みを計算し、その重みに基づき、固有表現クラスの重みを計算する。
本実施形態の固有表現抽出装置への入力文書例として、図8のような学会プログラムを考える。図8は<山本太郎>→<○○大学>という固有表現文字列の出現系列パターンが頻繁に出現していることを表している。
このように、ある固有表現文字列の出現系列パターンが頻繁に出現する際には、その情報作成者は、情報の一覧性、あるいは比較容易性などを高めるために意図的にそのような規則的な記述をしている場合が多いと考えられる。その場合、それらのパターン中に出現する情報は重要であると考えられる。このような考えに基づき、以下に固有表現クラスの重みの計算例を示す。
ある特定の固有表現文字列の出現系列パターンに関する、「文書中におけるそのパターンの出現数」、「文書長に対してそのパターンの記述が占める割合」、「そのパターンを構成する固有表現文字列の数」などといったパラメータに基づき、そのパターンの重みを計算する。ここで、固有表現文字列の出現系列パターンとは、二つ以上の固有表現文字列の順序付きセットにより定義される。その際、固有表現文字列同士の位置的な関係は隣接していても、隣接していなくても良い。
文書中から出現系列パターンを発見するための手法としては例えば、上記と同様の「WWWページからの手順に関する箇条書きの抽出」(情報処理学会論文誌:データベース, Vol.44, No.SIG12, pp.51-63, September 2003.に掲載、著者:武智峰樹)に記載されているAprioriアルゴリズム、PrefixSpanなどがある。
実際の計算式は、例えば、
「パターンの重み」=「文書中におけるそのパターンの出現数」、
「パターンの重み」=「文書中におけるそのパターンの出現数」×「そのパターンを構成する固有表現文字列の数」、
「パターンの重み」=「文書中におけるそのパターンの出現数」×LOG「そのパターンを構成する固有表現文字列の数」
など、これらのパラメータに基づくものであればどのようなものでもよい。また、
「文書中におけるそのパターンの出現数が一定数以上」、
「文書長に対してそのパターンの記述が占める割合が一定数以上」、
「そのパターンを構成する固有表現文字列の数が一定数以上」
などの条件、および、それらの組み合わせの条件を満たすときに、そのパターンに対して一定値の重みを与えるという方法でもよい。
上記のように、固有表現文字列の出現系列パターンの重みを計算した後、その重みに基づき、そのパターンに含まれている固有表現文字列に対する固有表現暫定重みを計算する。固有表現文字列の出現系列パターンの重みに基づき、固有表現暫定重みを計算する計算式は、
「固有表現暫定重み」=「パターンの重み」、
「固有表現暫定重み」=「パターンの重み」/「そのパターンを構成する固有表現文字列の数」
など、固有表現文字列の出現系列パターンの重みに基づくものであれば、どのようなものでもよい。
上記のように、固有表現暫定重みを計算した後、その重みに基づき固有表現クラスの重みを計算する。例えば、「山田太郎」および「田中花子」という固有表現があり、これらの固有表現文字列が固有表現文字列の出現系列パターン中に出現するものとする。これらの固有表現が「人名」の固有表現クラスを共通に持つ場合は「人名」の固有表現クラス重みを、上記ステップ2で計算した各々の固有表現暫定重みの、和、積、平均などの、固有表現暫定重みに基づく計算式によって求める。
固有表現抽出部102によって抽出された各固有表現が属する固有表現クラスのクラス名の文書中における出現位置に基づき、固有表現クラスの重みを計算する。例えば、タイトル、見出しなどのあらかじめ重要な箇所であることがわかっている箇所に出現する固有表現が属する固有表現クラスには、一律に大きな一定値の固有表現クラス重みを与える。あるいは、そのような箇所に出現する回数に比例して大きな固有表現クラス重みを与えるといった方法でも良い。
固有表現抽出部102によって抽出された各固有表現が属する固有表現クラスの重みを、以前に本実施形態の固有表現抽出装置を利用した際に、計算された固有表現クラス重みの値に基づき計算する。例えば、以前に計算された固有表現クラス重みから、抽出された各固有表現が属する固有表現クラスに対応するクラス重みを選択し、選択されたクラス重みの大きさに応じて、クラス重みを加重調整する。計算式の例を以下に示す。なお、以前に計算された固有表現クラス重みの値は、固有表現クラス重み計算部103がメモリ等を有して、そこに記憶している。
「固有表現クラス重み」=「上記計算方法例1〜5などによって計算された固有表現クラス重み」×「以前に本実施形態の固有表現抽出装置を利用した際に、計算された固有表現クラス重み」、
「固有表現クラス重み」=(0.7×「上記計算方法例1〜5などによって計算された固有表現クラス重み」)+(0.3×「以前に本実施形態の固有表現抽出装置を利用した際に、計算された固有表現クラス重み」)
このように、計算式は以前に本実施形態の固有表現抽出装置を利用した際に、計算された固有表現クラス重みの値に基づくものであればどのようなものでもよい。
次に、図1の固有表現重み計算部104について図10、図11を参照して説明する。図10は固有表現重み計算部104における処理の流れを説明する図である。
(S1002)固有表現クラス重み計算結果に基づき固有表現重みを計算する。
(S1003)固有表現重み計算結果を固有表現出力制御部に渡す。固有表現重み計算結果の一例が図11に示してある。本実施形態での固有表現重み計算結果は図9の固有表現クラス重み計算結果に、固有表現重みを追加したデータである。
固有表現クラス重み計算部103で計算された固有表現クラス重みをそのまま、固有表現重みとみなす。これはつまり、固有表現抽出部102で与えた、どのクラスに属するかということに関しての確からしさの評価値(確信度)を考慮せずに、固有表現クラス重みのみを考慮する場合に相当する。
このような計算方法によると、どのクラスに属するかが不確定な固有表現が多く出現する場合であっても、ある特定のクラスに属する可能性のある語は一様に高い固有表現重みを与えることができるため、本実施形態の固有表現抽出装置の利用者が所望している固有表現クラスに属する固有表現の抽出漏れを少なくできるという効果が期待できる。また、利用者が所望していない固有表現クラスに属する固有表現の重みを低くすることができるため、固有表現が過剰に抽出されることを抑止する効果もある。
固有表現クラス重み計算部103で計算された固有表現クラス重み、および、固有表現抽出部102で与えた、どのクラスに属するかということに関しての確からしさの評価値(確信度)を双方とも考慮して計算を行う。実際の計算方法としては、2つの値の和、積、荷重平均など、2つの値を計算式に反映させるものであれば、どのような計算方法でも良い。
このような計算方法によると、どのクラスに属するかが曖昧な固有表現が多く出現する場合は、それらの不確定さと、それらが属する固有表現クラスの重要度の兼ね合いによって、抽出するかしないかを決定することができる。したがって、計算方法2は、上記計算方法1と比較した場合、多少、抽出漏れは増える一方、本実施形態の固有表現抽出装置の利用者が所望している固有表現クラスに属する固有表現をより高純度に抽出することが可能となる。
次に、図1の固有表現出力制御部105について図12を参照して説明する。図12は固有表現出力制御部105における処理の流れを説明する図である。
(S1202)固有表現重み計算結果に従って出力する固有表現と出力しない固有表現の分離を行う。
固有表現重み計算部104で計算された、固有表現重みの値がある閾値以上のものを出力し、閾値未満のものを出力しない。この方法例によると閾値を適切に設定することにより、利用者が所望していない固有表現が過剰に抽出されることを抑止すると同時に、重要な固有表現クラスの抽出漏れを防ぐことが可能となる。
固有表現重み計算部104で計算された、固有表現重みの値によって各固有表現を順位付けした後、上位一定数を出力し、それ以外は出力しない。分離方法例1によれば、もしある文書中に閾値以上の固有表現重みを持つ固有表現がない場合は、固有表現が1つも出力されず、また逆に、全ての固有表現が閾値以上の固有表現重みを持つ場合は全ての固有表現が出力される。この方法例によると固有表現重みが比較的大きいとみなされる固有表現のうち一定数を出力することができるため、固有表現出力部106において、ある一定数の固有表現を提示したい場合などに有効である。また、一定数ではなく、ある文書における文書長の一定割合に相当する固有表現を出力したり、また、ある文書中で抽出された全固有表現のうちの一定割合を出力するなどといった方法でもよい。
同一の文節列が複数の固有表現であると判定されている場合、つまり、上述した図11における「山口」のように地名、人名などの複数の固有表現クラスが付与されている場合には、固有表現重みの一番大きい、固有表現重みがある一定値以上、あるいは固有表現重みが大きい順に一定数固有表現を出力し、それ以外は出力しない。この方法例によると、固有表現に意味的な曖昧性がある場合にどちらの解釈が尤もらしいかを判定したり、また何れかを正しい解釈とみなし、それ以外の解釈を棄却できるため、曖昧性の解消が可能となる。
例えば、図11の例において「山口」は固有表現抽出部102によって地名の確信度が人名の確信度よりも大きいと判定されているが、固有表現クラス重み計算部103で計算された、固有表現クラス重みを考慮し、固有表現重み計算部104で固有表現重みを計算(図11の例では、固有表現クラス重み/100を確信度に掛け算)することにより、人名の固有表現クラス重みの方が地名の固有表現クラス重みよりも大きくなっている。このことは「山口」が人名であるという解釈の方が地名であるという解釈よりも、重要であるということを意味している。ことから、「山口」を人名としては出力するが、地名としては出力しないという処理が可能となる。
Claims (13)
- 少なくとも1文書を含むテキストを取得する手段と、
前記テキストから複数の固有表現を抽出する手段と、
各前記固有表現に対して、固有表現の分類名を示す固有表現クラスを算出する手段と、
各前記固有表現クラスが前記テキスト中に出現する度合いを示す出現頻度情報に基づいて、前記固有表現クラスのクラス重みを算出するクラス重み算出手段と、
各前記クラス重みに基づいて、各前記固有表現の固有表現重みを算出する固有表現重み算出手段と、
複数の前記固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離する分離手段と、
前記出力する固有表現を出力する手段と、を具備することを特徴とする固有表現抽出装置。 - 前記クラス重み算出手段は、前記抽出された固有表現が属する固有表現クラスが前記テキストに出現する回数、および、前記テキストに含まれる文書数のうちの幾つの文書に前記固有表現クラスが含まれているかの数、の少なくともいずれかに基づいて、クラス重みを算出することを特徴とする請求項1に記載の固有表現抽出装置。
- 前記クラス重み算出手段は、前記抽出された各固有表現が属する固有表現クラスのクラス名の出現系列パターンの出現頻度、および、出現系列パターンに含まれるクラス名の数の少なくともいずれかに基づいて、クラス重みを算出することを特徴とする請求項1に記載の固有表現抽出装置。
- 前記クラス重み算出手段は、
各前記固有表現が前記テキスト中に出現する度合いを示す出現頻度情報に基づいて、前記固有表現クラスの仮のクラス重みである暫定クラス重みを算出する暫定重み算出手段をさらに具備し、
前記暫定クラス重みに基づいて、クラス重みを算出することを特徴とする請求項1に記載の固有表現抽出装置。 - 少なくとも1文書を含むテキストを取得する手段と、
前記テキストから複数の固有表現を抽出する手段と、
各前記固有表現に対して、固有表現の分類名を示す固有表現クラスを算出する手段と、
各前記固有表現クラスの前記テキスト中の出現位置に基づいて、前記固有表現クラスのクラス重みを算出するクラス重み算出手段と、
各前記クラス重みに基づいて、各前記固有表現の固有表現重みを算出する固有表現重み算出手段と、
複数の前記固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離する分離手段と、
前記出力する固有表現を出力する手段と、を具備することを特徴とする固有表現抽出装置。 - 前記暫定重み算出手段は、前記抽出された固有表現が属する固有表現クラスが前記テキストに出現する回数、および、前記テキストに含まれる文書数のうちの幾つの文書に前記固有表現クラスが含まれているかの数、の少なくともいずれかに基づいて、暫定クラス重みを算出することを特徴とする請求項5に記載の固有表現抽出装置。
- 前記暫定重み算出手段は、前記抽出された複数の固有表現の出現系列パターンの出現頻度、および、出現系列パターンに含まれる固有表現の数の少なくともいずれかに基づいて、暫定クラス重みを算出することを特徴とする請求項5に記載の固有表現抽出装置。
- 前記クラス重み算出手段が算出した、複数の固有表現クラスの複数のクラス重みを蓄積する蓄積手段をさらに具備し、
クラス重み算出手段は、前記蓄積されている複数のクラス重みから、前記抽出された各固有表現が属する固有表現クラスに対応するクラス重みを選択し、該選択されたクラス重みの大きさに応じて、クラス重みを加重調整することを特徴とする請求項1または請求項5記載の固有表現抽出装置。 - 各前記固有表現が該固有表現クラスに属する確からしさを示す確信度を算出する手段をさらに具備し、
前記固有表現重み算出手段は、各前記固有表現クラスに対応する、各前記クラス重みおよび各前記確信度に基づいて、固有表現重みを算出することを特徴とする請求項1から請求項8のいずれか1つに記載の固有表現抽出装置。 - 前記分離手段は、前記固有表現重みがある閾値以上である場合には該固有表現重みに対応する固有表現を出力し、前記固有表現重みが前記閾値未満である場合には該固有表現重みに対応する固有表現を出力しないように分離を行うことを特徴とする請求項1から請求項9のいずれか1つに記載の固有表現抽出装置。
- 前記分離手段は、前記固有表現重みの大きさ順での上位一定数に含まれるかどうかに基づいて、出力する固有表現と出力しない固有表現の分離を行うことを特徴とする請求項1から請求項9のいずれか1つに記載の固有表現抽出装置。
- 少なくとも1文書を含むテキストを取得し、
前記テキストから複数の固有表現を抽出し、
各前記固有表現に対して、固有表現の分類名を示す固有表現クラスを算出し、
各前記固有表現クラスが前記テキスト中に出現する度合いを示す出現頻度情報に基づいて、前記固有表現クラスのクラス重みを算出し、
各前記クラス重みに基づいて、各前記固有表現の固有表現重みを算出し、
複数の前記固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離し、
前記出力する固有表現を出力することを特徴とする固有表現抽出方法。 - 少なくとも1文書を含むテキストを取得し、
前記テキストから複数の固有表現を抽出し、
各前記固有表現に対して、固有表現の分類名を示す固有表現クラスを算出し、
各前記固有表現クラスの前記テキスト中の出現位置に基づいて、前記固有表現クラスのクラス重みを算出し、
各前記クラス重みに基づいて、各前記固有表現の固有表現重みを算出し、
複数の前記固有表現重みに基づいて、出力する固有表現と出力しない固有表現とに分離し、
前記出力する固有表現を出力することを特徴とする固有表現抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005342338A JP4074316B2 (ja) | 2005-11-28 | 2005-11-28 | 固有表現抽出装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005342338A JP4074316B2 (ja) | 2005-11-28 | 2005-11-28 | 固有表現抽出装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007148785A true JP2007148785A (ja) | 2007-06-14 |
JP4074316B2 JP4074316B2 (ja) | 2008-04-09 |
Family
ID=38210132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005342338A Active JP4074316B2 (ja) | 2005-11-28 | 2005-11-28 | 固有表現抽出装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4074316B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009140049A (ja) * | 2007-12-04 | 2009-06-25 | Nippon Telegr & Teleph Corp <Ntt> | 新規固有表現語彙獲得装置、その方法、プログラム及び記録媒体 |
JP2010128774A (ja) * | 2008-11-27 | 2010-06-10 | Nippon Telegr & Teleph Corp <Ntt> | 固有表現抽出装置、その方法およびプログラム |
US11868726B2 (en) | 2018-09-28 | 2024-01-09 | Kabushiki Kaisha Toshiba | Named-entity extraction apparatus, method, and non-transitory computer readable storage medium |
-
2005
- 2005-11-28 JP JP2005342338A patent/JP4074316B2/ja active Active
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009140049A (ja) * | 2007-12-04 | 2009-06-25 | Nippon Telegr & Teleph Corp <Ntt> | 新規固有表現語彙獲得装置、その方法、プログラム及び記録媒体 |
JP2010128774A (ja) * | 2008-11-27 | 2010-06-10 | Nippon Telegr & Teleph Corp <Ntt> | 固有表現抽出装置、その方法およびプログラム |
US11868726B2 (en) | 2018-09-28 | 2024-01-09 | Kabushiki Kaisha Toshiba | Named-entity extraction apparatus, method, and non-transitory computer readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP4074316B2 (ja) | 2008-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Automatic generation of personalized annotation tags for twitter users | |
TWI536181B (zh) | 在多語文本中的語言識別 | |
US9342590B2 (en) | Keywords extraction and enrichment via categorization systems | |
KR101548096B1 (ko) | 문서 자동 요약 방법 및 서버 | |
Xiong et al. | Towards better text understanding and retrieval through kernel entity salience modeling | |
JP5379138B2 (ja) | 領域辞書の作成 | |
KR20190062391A (ko) | 전자 기록의 문맥 리트리벌을 위한 시스템 및 방법 | |
US20100198802A1 (en) | System and method for optimizing search objects submitted to a data resource | |
JP2008542951A (ja) | 関連性ネットワーク | |
US20110231411A1 (en) | Topic Word Generation Method and System | |
JP2009508267A (ja) | ブログ文書のランク付け | |
JP2004139553A (ja) | 文書検索システムおよび質問応答システム | |
JP5273735B2 (ja) | テキスト要約方法、その装置およびプログラム | |
Lahiri et al. | Keyword extraction from emails | |
WO2015168344A1 (en) | Searching locally defined entities | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
Barriere et al. | TerminoWeb: a software environment for term study in rich contexts | |
Tandel et al. | Multi-document text summarization-a survey | |
JP4074316B2 (ja) | 固有表現抽出装置および方法 | |
JP5251099B2 (ja) | 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム | |
Ullah et al. | Pattern and semantic analysis to improve unsupervised techniques for opinion target identification | |
JP2008102790A (ja) | 検索システム | |
Jēkabsons | Evaluation of fingerprint selection algorithms for local text reuse detection | |
JP5277090B2 (ja) | リンク作成支援装置、リンク作成支援方法およびプログラム | |
JP2008282328A (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070821 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071022 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080124 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110201 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4074316 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120201 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130201 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140201 Year of fee payment: 6 |