JP2004341948A - Concept extraction system, concept extraction method, program therefor, and storing medium thereof - Google Patents
Concept extraction system, concept extraction method, program therefor, and storing medium thereof Download PDFInfo
- Publication number
- JP2004341948A JP2004341948A JP2003139336A JP2003139336A JP2004341948A JP 2004341948 A JP2004341948 A JP 2004341948A JP 2003139336 A JP2003139336 A JP 2003139336A JP 2003139336 A JP2003139336 A JP 2003139336A JP 2004341948 A JP2004341948 A JP 2004341948A
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- text data
- concept
- matrix
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、パーソナルコンピュータなど汎用の情報処理装置や、専用装置上に実現される文書検索システム、文書分類システム、およびテキスト情報分析システムなど、文書処理システムに用いることができる、テキストデータの概念を抽出する概念抽出技術に係り、特に、内容に基づきテキストデータを分類する文書分類技術を利用してテキストデータ集合を対象に概念抽出をおこなえる概念抽出技術に関する。
【0002】
【従来の技術】
文書クラスタリング技術の利用目的は、概ね二つに大別される。一つは膨大な文書集合を話題ごとに分類することにより、目的の文書に短時間で到達するようにすることである。もう一つは、膨大なドキュメントや自由記述回答データの集合から、典型的な内容、話題、概念を取り出し、テキストデータ集合の概要を把握することである。なお、文書クラスタリングとは、特開平8−263510号公報記載の「文章自動分類システム」、または、特開平10−171823号公報記載の「文書の自動分類方法およびその装置」に記載されているように、文書をそのなかに含まれる単語情報などを特徴とするベクトルとして表現し、各文書間の距離や余弦を類似度測度としてクラスタリングする方法である。クラスタリングの結果、対象のテキストデータ集合が類似するテキストデータから成るいくつかのクラスタに分割されるので、対象テキストデータ集合に含まれる代表的な話題や概念(トピック)が得られることになる。
このような文書クラスタリング技術のうち、Scatter/Gather方式や特開平11−213000号公報記載の従来技術では複数回のクラスタリングをおこなって文書を分類する。例えば特開平11−213000号公報記載の従来技術では、利用者の入力した検索語にマッチする文書集合に対してクラスタリングをおこない、その結果を利用者に提示する。その際、繰り返してクラスタリングがおこなわれるが、N回目のクラスタリング結果がN−1回目以前のクラスタリング結果に影響されない。
【0003】
それに対して、特開2002−183171号公報に示された従来技術では、質の良いクラスタを漸次的に求める。クラスタ数は事前に決定せず、クラスタリング対象に応じてクラスタ数を決める。具体的には、各文書の特徴ベクトルの組について特異値分解をおこない、その結果から文書類似ベクトルを作成し、その文書類似ベクトルを用いて各対象文書とクラスタ重心との距離を算出し、さらに、同一の対象文書に対して1回目の分類に利用した文書類似ベクトルの次元数を増加させて2回目の分類をおこない、双方の結果を比較し、変化の少ないクラスタを安定クラスタとする。そして、安定クラスタの文書を対象から除いて分類を繰り返すことにより、対象に応じたクラスタ数のクラスタを決定する。
【特許文献1】特開平8−263510号公報
【特許文献2】特開平10−171823号公報
【特許文献3】特開平11−213000号公報
【特許文献4】特開2002−183171号公報
【0004】
【発明が解決しようとする課題】
しかしながら、前記した特開平8−263510号公報および特開平10−171823号公報記載の従来技術は、本質的には単語で構成される多次元空間内に布置した文書を統計的に分類するので、得られるクラスタは、単語の統計的振る舞いという観点から求められたに過ぎず、しばしば理解不能なクラスタが含まれることは否めない。1回のクラスタリングでは、その一部しか利用者にとって有益でないことになる。このようなことから、前記したScatter/Gather方式や特開平11−213000号公報記載の従来技術ではクラスタリングを複数回実行させているが、これらの従来技術は、目的が文書検索であるので、複数回のクラスタリングが話題や概念の抽出のためでなく、検索対象文書の絞り込みに利用されている。
また、特開平11−213000号公報記載の従来技術では、N回目のクラスタリング結果がN−1回目以前のクラスタリング結果に影響されない。つまり、利用者が選択したクラスタの再クラスタリングを繰り返すことにより話題や概念の詳細化は可能であるが、様々な話題や概念の抽出は可能でないのである。
それに対して、特開2002−183171号公報に示された従来技術では、N回目のクラスタリング結果がN−1回目以前のクラスタリング結果に影響される。しかし、この従来技術では一般的なクラスタリングの1回分が2回のクラスタリングにより実現されるので効率が悪いし、前記したN回の繰り返しに利用者の意図を反映させることができない。
本発明の目的は、このような従来技術の問題を解決することにあり、具体的には、利用者の意図を反映させつつクラスタリングを繰り返すことにより、テキストデータの様々な話題や概念を高精度で抽出できる概念抽出技術を提供することにある。
【0005】
【課題を解決するための手段】
前記の課題を解決するために、請求項1記載の発明では、複数のテキストデータをインタラクティブに複数回にわたって自動分類することによりテキストデータの概念を抽出する概念抽出システムにおいて、テキストデータ中に出現する各言語の出現頻度をテキストデータ毎に計数し、その出現頻度を行列要素とする前記各テキストデータと前記各言語の行列情報を生成するテキストベクトル生成手段と、前記行列情報を記憶しておくテキストベクトル記憶手段と、そのテキストベクトル記憶手段に記憶されている前記行列情報に基づいて前記各テキストデータを複数のクラスタに分類するクラスタリング手段と、その複数のクラスタ中から一部のクラスタを選択させるクラスタ選択手段と、選択されたクラスタを示すクラスタ識別情報を記憶しておく選択クラスタ記憶手段と、前記クラスタ識別情報に基づき前記テキストベクトル記憶手段に記憶されている前記行列情報を修正するテキストベクトル修正手段とを備えた。
また、請求項2記載の発明では、複数のテキストデータをインタラクティブに複数回にわたって自動分類することによりテキストデータの概念を抽出する概念抽出方法において、テキストデータ中に出現する各言語の出現頻度をテキストデータ毎に計数し、その出現頻度を行列要素とする前記各テキストデータと前記各言語の行列情報を生成し、その行列情報を記憶し、さらに、その行列情報に基づき前記各テキストデータを複数のクラスタに分類するクラスタリングをおこない、その複数のクラスタ中から一部のクラスタを選択させ、選択されたクラスタに基づき前記行列情報を修正し、前記クラスタリングから後を繰り返す構成にした。
また、請求項3記載の発明では、請求項2記載の発明において、前記行列情報の修正は、前記選択されたクラスタに所属するテキストデータに対応する行列情報を保持されている行列情報から削除する構成にした。
また、請求項4記載の発明では、請求項2または請求項3記載の発明において、前記選択されたクラスタに所属するテキストデータから、選択されたクラスタごとのクラスタ特徴量を算出する構成とし、前記行列情報の修正は、そのクラスタ特徴量に基づいて前記行列情報を修正する構成にした。
また、請求項5記載の発明では、請求項4記載の発明において、前記クラスタ特徴量は前記選択されたクラスタに所属するテキストデータ中に出現する特徴的な言語およびその頻度情報であって、前記行列情報の修正は、前記行列情報の対応する行列要素の値から対応する前記頻度情報の値を減ずる構成にした。
また、請求項6記載の発明では、請求項2乃至請求項5記載の発明において、N回目までのクラスタ選択により選択されているクラスタと、N+1回目のクラスタリングにより生成されたクラスタとの間の類似度を算出する構成にした。
また、請求項7記載の発明では、請求項6記載の発明において、前記類似度の大きいクラスタをN+1回目のクラスタリング結果から除く構成にした。
また、請求項8記載の発明では、情報処理装置上で実行されるプログラムにおいて、請求項2乃至請求項7のいずれか1項に記載の概念抽出方法によった概念抽出を実行させるようにプログラミングされている構成にした。
また、請求項9記載の発明では、プログラムを記憶した記憶媒体において、請求項8記載のプログラムを記憶した。
【0006】
【発明の実施の形態】
以下、図面により本発明の実施の形態を詳細に説明する。なお、ここで扱うテキストデータとは、文書および文書の一部(例えば概要部分や、文書をいくつかの部分に分割したもの)、またはメール文書やコールセンターの問い合わせ記録など、自然言語により記述されたデータ単位である。また、以下の説明では、テキストデータ集合からの漸次的概念抽出の好適な例としてアンケート調査などにより得られた自由記述回答データの分析場面を想定する。
図1は、本発明の第1の実施例を示す、概念抽出システムの構成ブロック図である。図示したように、この実施例の概念抽出システムは、テキストデータの形態素解析をおこなって単語(またはトークン)とその品詞など言語情報を抽出するテキストデータ解析部2、および抽出された単語などの出現頻度を計数するテキストデータ計数部3を有して、その出現頻度に基づいたテキストベクトルを生成するテキストベクトル生成部1、そのテキストベクトルを記憶しておくテキストベクトル記憶部5、およびテキストデータ解析部2による形態素解析結果を記憶しておくテキスト解析結果記憶部6などから成る解析結果記憶部4、前記テキストベクトル記憶部5に記憶されているテキストベクトルに基づいてテキストデータを複数のクラスタに分類するクラスタリング部8、および分類された各クラスタの特徴を求めるクラスタ特徴算出部9などから成るクラスタ処理部7、前記各クラスタ中から一部のクラスタを選択させるクラスタ選択部10、選択されたクラスタに係るクラスタ情報を記憶しておく選択クラスタ記憶部11、そのクラスタ情報などに基づきテキストベクトル記憶部5に記憶されているテキストベクトルを修正するテキストベクトル修正部12などを備えている。
なお、請求項1記載のテキストベクトル生成手段、テキストベクトル記憶手段、クラスタリング手段、クラスタ選択手段、選択クラスタ記憶手段、およびテキストベクトル修正手段はそれぞれ、テキストベクトル生成部1、テキストベクトル記憶部5、クラスタリング部8、クラスタ選択部10、選択クラスタ記憶部11、およびテキストベクトル修正部12により実現される。また、前記したテキストベクトル生成部1、クラスタリング部8を含むクラスタ処理部7、クラスタ選択部10、およびテキストベクトル修正部12はプログラムを記憶したRAMおよびそのプログラムに従って動作するCPUなどにより実現され、テキストベクトル記憶部5を含む解析結果記憶部4および選択クラスタ記憶部11はRAMおよびハードディスク記憶装置それぞれの一記憶領域として実現される。
【0007】
図8に、この実施例の動作フローを示す。以下、図8に従って、この動作フローを説明する。
まず、テキストデータ解析部2が、公知の形態素解析アルゴリズムを用い、入力されたテキストデータに含まれる単語(または、単なる単語でなく、ルールを用いて複数の形態素を変換して新たに生成した例えば複合語や異表記を統一したものなどを含むトークンと呼ばれるもの)とその品詞など言語情報を抽出する(S1)。例えば、[ソフトウェアの操作方法は難しくいつも苦労する]というテキストデータからは、ソフトウェア−(名詞)/の−(助詞)/操作−(名詞)/方法−(名詞)/は−(助詞)/難しい−(形容詞)/いつも−(副詞)/苦労−(名詞)/する−(助動詞)が抽出される。
続いて、テキストデータ計数部3が、予め設定されたストップワード(計数除外単語や計数除外品詞)テーブルを参照して、各テキストデータにおける有効な単語(またはトークン)の出現頻度を単語(またはトークン)毎に計数し(S2)、図2に示したように、テキストデータ毎に、抽出されたすべての有効単語(または有効トークン)のベクトルとして表現される行列に計数結果を書き込んで行く(mは全テキストデータ数、nは全テキストデータ集合内に出現する全有効単語数)。なお、行列の要素に単純に出現頻度を用いるのではなく、テキストデータの長さや、単語の全テキストデータ集合内での総出現頻度を用いて重み付けをおこなってもよい。
テキストデータがある限り(S3でY)前記したステップS1、S2をくり返し、対象とするテキストデータがなくなると(S3でN)、テキストデータ計数部3は行列の生成を完了する(S4)。そして、その行列のデータをテキストベクトル記憶部5に保存する(S5)。
【0008】
次に、クラスタリング部8が、テキストベクトル記憶部5に格納された行列のデータを用い、テキストベクトル間の余弦(内積や距離でもよい)を測度としてk−means法、最大距離法などの既知のアルゴリズムを用いてクラスタを生成し、k個のクラスタに全テキストデータを割り当てる(S6)。また、クラスタ特徴算出部9は、生成された各クラスタの特徴を表すクラスタ特徴トークンを求める。この実施例では、クラスタkのクラスタ特徴トークンを、“トークンiが出現するクラスタk所属のテキストデータ数/全テキストデータセットにおけるトークンiが出現するテキストデータ数”が一定以上の値をとるトークンiを特徴トークンとしている。
例えば、クラスタkの特徴トークンは、次のようにして計算される。まず、テキストベクトル記憶部5に格納されている行列に基づいて、各トークン毎に列方向に要素が1以上であればカウンタを順次加算し、全テキストデータにおける各トークンの出現データ数を算出する。次いで、クラスタkに所属するテキストデータの識別子をもとにテキストベクトル記憶部5からそのテキストデータのみからなる部分行列を生成し、同様に、各トークン毎に列方向に要素が1以上であればカウンタを順次加算し、当該クラスタ所属のテキストデータ数を算出する。順次このような計算を繰り返すことで、各トークンの全テキストデータに対する出現データ数と、クラスタkに所属するテキストデータにおける出現データ数とが計算できる。次いで、順次各トークン毎に2つの数を用いて除算することで特徴量を求め、その値があらかじめ定めたM以上のトークンを特徴トークンとして、その識別子をクラスタ選択部10へ出力する。クラスタ選択部10は、渡されたトークン識別子をキーとして、テキスト解析結果記憶部6からそのトークン表記を検索して表示する。例えば、図3においては、クラスタ1について“管理”、“ダウン”、“多忙”、“システム”を特徴トークンとして表示するのである。
【0009】
こうして、クラスタ選択部10は、表示手段と入力手段とを用いたユーザーインターフェースにより、利用者にクラスタを選択させる。図3に示したような画面のユーザーインターフェースを用いて、利用者は有益な概念であると判断したクラスタを選択・指示するのである。なお、この実施例のクラスタ選択部10では、クラスタを表示する際、クラスタリング部8によって生成されたクラスタを以下のクラスタ重要度スコアを用いてソートし、所属テキストデータ数が多く、クラスタ凝集度が高いクラスタが上位に表示されるようしている。
Tk=(1/NkΣ(Ski−Hk)2)1/2Nk/N
Tk・・クラスタkのクラスタ重要度スコア
Nk・・クラスタk所属のテキストデータ数
N・・全テキストデータ数
Ski・・クラスタk所属のテキストiの類似度スコア(距離、内積、余弦)
Hk・・クラスタkの平均類似度スコア
クラスタ選択部10により、利用者は、保存したいクラスタ(クラスタリングが適切で、利用者が有益であると判断したクラスタ)をマウスなどを用いて選択することができる。図3において、■印は選択されたことを示し、クラスタ特徴トークンとして、特徴単語を示している。また、メンバ数とは、各クラスタに属するテキストデータ数である。
保存するクラスタを選択後、再実行ボタン(図3参照)を押下すると、クラスタ選択部10は、選択されたクラスタの識別子を選択クラスタ記憶部11に、クラスタ識別子、所属テキストデータの識別子、およびクラスタ特徴トークンの識別子をテキストベクトル修正部12に渡す(S7でY)。選択クラスタ記憶部11は渡されたクラスタ識別子を保持する。なお、終了ボタンを押下した場合は、概念抽出処理を終了する(S7でN)。
【0010】
テキストベクトル修正部12では、テキストベクトル記憶部5からそこに保持されている行列を呼び出し、選択されたクラスタに所属する所属テキストデータの識別子を用いて当該テキストデータの行を削除する修正をおこなった後(図4において右側が削除後の状態を示している)(S8)、修正した行列をテキストベクトル記憶部5に記憶する(S5)。図4はテキストベクトル修正部12にテキストデータの識別子2、4、5が渡された場合の作用を示したもので、行列からtext data−2、text data−4、text data−5が削除される。そして、修正された行列がテキストベクトル記憶部5に格納されると、再びクラスタリング部8が残りのテキストデータを対象に前回と同様にクラスタリングをおこなう(S6)。
こうして、この実施例によれば、クラスタリング処理の結果の一部しか有益でない場合でも、各回の有益なクラスタを保存し、次回のクラスタリングでは有益なクラスタのテキストデータを除いたテキストデータについてクラスタリングを再度おこなうので、漸次的に概念を抽出することができ、テキストの様々な話題や概念を高精度で抽出できる。
本発明の第2の実施例では、テキストベクトル修正部12は、テキストベクトル記憶部5からそこに記憶されている行列を呼び出し、選択されたクラスタに所属するテキストデータから選択されたクラスタ毎のクラスタ特徴トークンの識別子を用いて対応するトークン列を削除した後、修正した行列をテキストベクトル記憶部5に保存する。図5は、テキストベクトル修正部12にトークン識別子1、3、5、6が渡された場合の作用を示したもので、テキストベクトル修正部12は行列からtoken−1、token−3、token−5、token−6の列を削除する。そして、修正した行列をテキストベクトル記憶部5に格納すると、クラスタリング部8が再びクラスタリングをおこなう。
こうして、この実施例によれば、一つのテキストデータが複数のクラスタに所属しうるケースにおいて、選択しなかったクラスタに属するテキストデータ行が行列から削除されてしまうという第1の実施例の事態を避けることができるので、より精度高く、漸次的に概念を抽出することができる。
【0011】
本発明の第3の実施例では、テキストベクトル修正部12はテキストベクトル記憶部5からそこに記憶されている行列を呼び出し、選択されたクラスタに所属するテキストデータ識別子およびクラスタ特徴トークンの識別子を用いて対応する要素の値を0にした後、修正した行列をテキストベクトル記憶部5に保存する。図6では、テキストベクトル修正部12にテキストデータ識別子1、3、5、クラスタ特徴トークン識別子1、3、4、6が渡された場合の作用を示したもので、テキストデータ識別子1、3、5のクラスタ特徴トークン識別子1、3、4、6の値を0にする。そして、修正された行列がテキストベクトル記憶部5に格納されると、クラスタリング部8が再びクラスタリングをおこなう。
こうして、この実施例によれば、一つのテキストデータが複数のクラスタに所属しうるケースにおいて、選択しなかったクラスタに属するテキストデータ行が行列から削除されてしまうという第1の実施例の事態を避けることができるし、選択されたクラスタのクラスタ特徴トークンについてはそのクラスタに所属するテキストデータの要素に対してのみ選択結果を反映させるので、さらに精度高く、漸次的に概念を抽出することができる。
【0012】
図7は、本発明の第4の実施例を示す、概念抽出システムの構成ブロック図である。図示したように、この実施例の概念抽出システムは、図1に示した第1の実施例の構成に加えてクラスタ間類似度算出部13を備える。そして、クラスタ間類似度算出部13が、クラスタリング部8により生成された各クラスタと既に生成されてクラスタ記憶部11に保持される各クラスタとの間の類似度を以下のように算出する。
つまり、この実施例では、クラスタリング部8により生成されたクラスタiに所属するテキストデータの識別子集合と、クラスタ記憶部11内の各クラスタjに所属するテキストデータの識別子集合との類似度を次式により算出する。
F=(β2+1)・p・r/(β2・p+r)
ここで、pは、クラスタiとクラスタjとの積集合の要素数を、クラスタiの要素数で除したものである。また、rはクラスタiとクラスタjとの積集合の要素数を、クラスタjの要素数で除したものである。また、βは調整パラメータであり、0〜1の値をとるが、この実施例では0.5を設定している。
【0013】
ここで、クラスタリング部8により生成されたクラスタiに所属するテキストデータの識別子が“text data−246、 text data−567、 text data−12、 text data−321、 text data−9”であり、選択クラスタ記憶部11に格納されているクラスタjに所属するテキストデータの識別子が“text data−1、 text data−246、 text data−456、 text data−112、 text data−321、 text data−9”であると、その積集合は、“text data−246、 text data−321、 text data−9”である。したがって、pは3/5であり、rは3/6となる。
このようにして類似度を求めた後、クラスタ間類似度算出部13は、算出したi×j個のF値が予め与えた所定値以上の、選択済みのクラスタと類似のクラスタを破棄し、F値がその所定値より小さいクラスタの識別子をクラスタ選択部10に渡す。これにより、クラスタ選択部10は渡された識別子のクラスタを選択対象として表示させる。
こうして、この実施例によれば、選択済みのクラスタに類似したクラスタは続いておこなわれるクラスタ提示の際、自動的に除かれるので、概念抽出を効率的におこなうことができる。
以上、図1および図7に示した構成の場合で本発明の実施例を説明したが、説明したような概念抽出方法に従ってプログラミングしたプログラムを着脱可能な記憶媒体に記憶し、その記憶媒体をこれまで本発明によった概念抽出をおこなえなかったパーソナルコンピュータなど情報処理装置に装着することにより、または、そのようなプログラムをネットワークを介してそのような情報処理装置へ転送することにより、そのような情報処理装置においても本発明によった概念抽出をおこなうことができる。
【0014】
【発明の効果】
以上説明したように、本発明によれば、請求項1および請求項2記載の発明では、複数のテキストデータをインタラクティブに複数回にわたって自動分類することによりテキストデータの概念を抽出する際、テキストデータ中に出現する各言語の出現頻度をテキストデータ毎に計数し、その出現頻度を行列要素とする各テキストデータと各言語の行列情報を生成し、その行列情報を記憶し、さらに、その行列情報に基づき複数のテキストデータを複数のクラスタに分類するクラスタリングをおこない、その複数のクラスタ中から一部のクラスタを利用者に選択させ、選択されたクラスタに基づき前記行列情報を修正し、クラスタリングから後を繰り返すことができるので、利用者から見てクラスタリング処理の結果の一部しか有益でない場合でも、 N回目までに既知になったクラスタ(選択されたクラスタ)がN+1回目には算出されないように制御でき、したがって、テキストデータの様々な話題や概念を漸次的に高精度で抽出できる。
また、請求項3記載の発明では、請求項2記載の発明において、選択されたクラスタに所属するテキストデータのみに対応する行列情報を保持されている行列情報から削除するので、一つのテキストデータが複数のクラスタに所属しうるケースにおいて、選択しなかったクラスタに属するテキストデータ行が行列から削除されてしまうという事態を避けることができ、したがって、より精度高く、漸次的に概念を抽出することができる。
また、請求項4記載の発明では、請求項2または請求項3記載の発明において、選択されたクラスタに所属するテキストデータから、選択されたクラスタごとのクラスタ特徴量を算出し、そのクラスタ特徴量に基づいて行列情報を修正するので、選択しなかったクラスタに属するテキストデータ行が行列から削除されてしまうという事態を避けることができるし、選択されたクラスタのクラスタ特徴トークンについてはそのクラスタに所属するテキストデータの要素に対してのみ選択結果を反映でき、したがって、さらに精度高く、漸次的に概念を抽出することができる。
【0015】
また、請求項5記載の発明では、請求項4記載の発明において、クラスタ特徴量は選択されたクラスタに所属するテキストデータ中に出現する特徴的な言語およびその頻度情報であって、行列情報の対応する行列要素の値から対応する頻度情報の値を減ずる行列情報修正をおこなうので、請求項4記載の発明を容易に実現できる。
また、請求項6記載の発明では、請求項2乃至請求項5記載の発明において、N回目までのクラスタ選択により選択されているクラスタと、N+1回目のクラスタリングにより生成されたクラスタとの間の類似度を算出することができるので、選択済みのクラスタに類似したクラスタを、続いておこなわれるクラスタ提示の際、自動的に除くことができる。
また、請求項7記載の発明では、請求項6記載の発明において、前記類似度の大きいクラスタをN+1回目のクラスタリング結果から除くことができるので、選択済みのクラスタに類似したクラスタは続いておこなわれるクラスタ提示の際、自動的に除かれ、したがって、概念抽出を効率的におこなうことができる。
また、請求項8記載の発明では、請求項2乃至請求項7のいずれか1項に記載の概念抽出方法によった概念抽出を実行させるようにプログラミングされているプログラムを情報処理装置上で実行させることができるので、情報処理装置を用いて請求項2乃至請求項7のいずれか1項に記載の発明の効果を得ることができる。
また、請求項9記載の発明では、請求項8記載のプログラムを着脱可能な記憶媒体に記憶できるので、その記憶媒体をこれまで請求項2乃至請求項7のいずれか1項に記載の発明によった概念抽出をおこなえなかったパーソナルコンピュータなど情報処理装置に装着することにより、そのような情報処理装置においても請求項2乃至請求項7のいずれか1項に記載の発明の効果を得ることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施例を示す、概念抽出システムの構成ブロック図。
【図2】本発明の第1の実施例を示す、概念抽出システム要部のデータ構成図。
【図3】本発明の第1の実施例を示す、概念抽出システムの画面図。
【図4】本発明の第1の実施例を示す、概念抽出方法の説明図。
【図5】本発明の第2の実施例を示す、概念抽出方法の説明図。
【図6】本発明の第3の実施例を示す、概念抽出方法の説明図。
【図7】本発明の第4の実施例を示す、概念抽出システムの構成ブロック図。
【図8】本発明の第1の実施例を示す、概念抽出方法の動作フロー図。
【符号の説明】
1 テキストベクトル生成部、2 テキストデータ解析部、3 テキストデータ計数部、4 解析結果記憶部、5 テキストベクトル記憶部、6 テキスト解析結果記憶部、7 クラスタ処理部、8 クラスタリング部、9 クラスタ特徴算出部、10 クラスタ選択部、11 選択クラスタ記憶部、12 テキストベクトル修正部、13 クラスタ間類似度算出部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention describes a concept of text data that can be used in a document processing system such as a general-purpose information processing device such as a personal computer, a document search system implemented on a dedicated device, a document classification system, and a text information analysis system. The present invention relates to a concept extraction technique for extracting, and particularly to a concept extraction technique for extracting a concept from a text data set using a document classification technique for classifying text data based on contents.
[0002]
[Prior art]
The purpose of using the document clustering technology is roughly divided into two. One is to classify an enormous set of documents for each topic so that the target document can be reached in a short time. The other is to extract typical contents, topics, and concepts from a huge document and a set of freely described answer data, and grasp the outline of the text data set. The document clustering is described in “Sentence Automatic Classification System” described in JP-A-8-263510 or “Document Automatic Classification Method and Apparatus” in JP-A-10-171823. In this method, a document is represented as a vector featuring word information and the like included therein, and the distance and cosine between each document are clustered as a similarity measure. As a result of the clustering, the target text data set is divided into several clusters composed of similar text data, so that typical topics and concepts (topics) included in the target text data set can be obtained.
Among such document clustering techniques, in the Scatter / Gather method or the conventional technique described in JP-A-11-213000, documents are classified by performing clustering a plurality of times. For example, in the related art described in Japanese Patent Application Laid-Open No. 11-213000, clustering is performed on a document set that matches a search term input by a user, and the result is presented to the user. At this time, clustering is repeatedly performed, but the N-th clustering result is not affected by the (N-1) -th clustering result or earlier.
[0003]
On the other hand, in the related art disclosed in Japanese Patent Application Laid-Open No. 2002-183171, high-quality clusters are gradually obtained. The number of clusters is not determined in advance, and the number of clusters is determined according to the clustering target. Specifically, a singular value decomposition is performed on a set of feature vectors of each document, a document similarity vector is created from the result, and a distance between each target document and the cluster centroid is calculated using the document similarity vector. For the same target document, the second classification is performed by increasing the number of dimensions of the document similarity vector used for the first classification, and the two results are compared, and a cluster with little change is set as a stable cluster. Then, by repeating the classification while excluding the document of the stable cluster from the target, the number of clusters according to the target is determined.
[Patent Document 1] JP-A-8-263510
[Patent Document 2] JP-A-10-171823
[Patent Document 3] JP-A-11-213000
[Patent Document 4] JP-A-2002-183171
[0004]
[Problems to be solved by the invention]
However, the conventional techniques described in JP-A-8-263510 and JP-A-10-171823 statistically classify documents laid out in a multidimensional space consisting essentially of words. The resulting clusters are only obtained from the viewpoint of the statistical behavior of words, and it is undeniable that clusters that are often incomprehensible are included. In one clustering, only a part of the clustering is useful to the user. For this reason, clustering is performed a plurality of times in the above-described Scatter / Gather method and the related art disclosed in Japanese Patent Application Laid-Open No. H11-213000. The clustering of the times is used not for extracting topics or concepts but for narrowing down documents to be searched.
Further, in the related art described in Japanese Patent Application Laid-Open No. H11-213000, the N-th clustering result is not affected by the (N-1) -th clustering result or earlier. That is, it is possible to refine topics and concepts by repeating re-clustering of the cluster selected by the user, but it is not possible to extract various topics and concepts.
On the other hand, in the related art disclosed in Japanese Patent Application Laid-Open No. 2002-183171, the N-th clustering result is affected by the (N-1) -th clustering result and before. However, in this prior art, since one clustering operation is realized by two clustering operations, the efficiency is low, and the user's intention cannot be reflected in the N times of repetition.
An object of the present invention is to solve such a problem of the prior art. Specifically, by repeating clustering while reflecting a user's intention, various topics and concepts of text data can be accurately determined. It is an object of the present invention to provide a concept extraction technique that can be extracted by using the above.
[0005]
[Means for Solving the Problems]
In order to solve the above-mentioned problem, according to the present invention, in a concept extraction system for extracting a concept of text data by automatically classifying a plurality of text data interactively a plurality of times, the concept appears in the text data. Text vector generation means for counting the frequency of appearance of each language for each text data, generating the text data using the frequency of occurrence as a matrix element, and generating matrix information for each language, and text for storing the matrix information Vector storage means, clustering means for classifying the text data into a plurality of clusters based on the matrix information stored in the text vector storage means, and a cluster for selecting some clusters from the plurality of clusters Selection means and cluster identification information indicating the selected cluster are described. And selecting a cluster storing means for, and a text vector correction means for correcting the matrix information stored in the text vector storage means based on the cluster identification information.
According to a second aspect of the present invention, in the concept extracting method for extracting a concept of text data by automatically classifying a plurality of text data interactively a plurality of times, the frequency of occurrence of each language appearing in the text data is determined by text. Counting for each data, generating the text data and the matrix information of each language with the frequency of appearance as a matrix element, storing the matrix information, and furthermore, based on the matrix information, a plurality of text data based on the matrix information Clustering for classifying into clusters is performed, a part of clusters is selected from the plurality of clusters, the matrix information is corrected based on the selected clusters, and the process after the clustering is repeated.
According to a third aspect of the present invention, in the second aspect of the invention, the correction of the matrix information deletes the matrix information corresponding to the text data belonging to the selected cluster from the held matrix information. Was configured.
According to a fourth aspect of the present invention, in the second or third aspect, a cluster feature amount for each selected cluster is calculated from text data belonging to the selected cluster. The matrix information is modified to modify the matrix information based on the cluster feature amount.
Further, in the invention according to
According to the invention of
In the invention according to
According to an eighth aspect of the present invention, in a program executed on an information processing apparatus, a program is executed so as to execute a concept extraction by the concept extracting method according to any one of the second to seventh aspects. The configuration has been.
According to the ninth aspect of the present invention, the program according to the eighth aspect is stored in a storage medium storing the program.
[0006]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. The text data handled here is a document and a part of the document (for example, an outline part or a document obtained by dividing the document into several parts) or a natural language such as a mail document or a call center inquiry record. It is a data unit. In the following description, as a preferred example of the gradual concept extraction from the text data set, an analysis scene of free description answer data obtained by a questionnaire survey or the like is assumed.
FIG. 1 is a block diagram showing the configuration of a concept extracting system according to a first embodiment of the present invention. As shown in the figure, the concept extraction system of this embodiment performs a morphological analysis of text data to extract words (or tokens) and linguistic information such as their parts of speech, and the appearance of extracted words and the like. A text
The text vector generating means, the text vector storing means, the clustering means, the cluster selecting means, the selected cluster storing means, and the text vector correcting means according to
[0007]
FIG. 8 shows an operation flow of this embodiment. Hereinafter, this operation flow will be described with reference to FIG.
First, the text
Subsequently, the text
As long as there is text data (Y in S3), the above steps S1 and S2 are repeated. When there is no more text data to be processed (N in S3), the text
[0008]
Next, the
For example, the feature token of the cluster k is calculated as follows. First, based on the matrix stored in the text
[0009]
Thus, the
Tk = (1 / NkΣ (Ski−Hk) 2 ) 1/2 Nk / N
Tk ··· Cluster importance score of cluster k
Nk ··· Number of text data belonging to cluster k
N: Total number of text data
Ski ... Similarity score of text i belonging to cluster k (distance, inner product, cosine)
Average similarity score of Hk..cluster k
The
When the re-execute button (see FIG. 3) is pressed after selecting the cluster to be saved, the
[0010]
The text
Thus, according to this embodiment, even if only a part of the result of the clustering process is useful, each useful cluster is saved and the next clustering is performed again on the text data excluding the text data of the useful cluster. As a result, concepts can be extracted gradually, and various topics and concepts of text can be extracted with high accuracy.
In the second embodiment of the present invention, the text
Thus, according to this embodiment, in the case where one piece of text data can belong to a plurality of clusters, the text data rows belonging to the unselected cluster are deleted from the matrix. Since it can be avoided, concepts can be extracted with higher accuracy and gradually.
[0011]
In the third embodiment of the present invention, the text
Thus, according to this embodiment, in the case where one piece of text data can belong to a plurality of clusters, the text data rows belonging to the unselected cluster are deleted from the matrix. It can be avoided, and the cluster feature token of the selected cluster reflects the selection result only on text data elements belonging to that cluster, so that concepts can be extracted with higher accuracy and gradually. .
[0012]
FIG. 7 is a block diagram showing a configuration of a concept extracting system according to a fourth embodiment of the present invention. As shown in the figure, the concept extraction system of this embodiment includes an
That is, in this embodiment, the similarity between the identifier set of the text data belonging to the cluster i generated by the
F = (β 2 +1) · p · r / (β 2 ・ P + r)
Here, p is obtained by dividing the number of elements of the intersection of the cluster i and the cluster j by the number of elements of the cluster i. R is the number of elements in the intersection of cluster i and cluster j divided by the number of elements in cluster j. Β is an adjustment parameter and takes a value of 0 to 1, but in this embodiment, 0.5 is set.
[0013]
Here, the identifiers of the text data belonging to the cluster i generated by the
After calculating the similarity in this way, the inter-cluster
Thus, according to this embodiment, a cluster similar to the selected cluster is automatically removed at the time of the subsequent cluster presentation, so that concept extraction can be performed efficiently.
Although the embodiment of the present invention has been described with the configuration shown in FIGS. 1 and 7, the program programmed according to the concept extracting method described above is stored in a removable storage medium, and the storage medium is Until the concept extraction according to the present invention can not be performed by attaching to an information processing apparatus such as a personal computer, or by transferring such a program to such an information processing apparatus via a network, The concept extraction according to the present invention can also be performed in the information processing apparatus.
[0014]
【The invention's effect】
As described above, according to the present invention, according to the first and second aspects of the present invention, when extracting the concept of text data by automatically classifying a plurality of text data interactively a plurality of times, The appearance frequency of each language appearing in the text data is counted for each text data, each text data having the appearance frequency as a matrix element and matrix information of each language are generated, the matrix information is stored, and the matrix information is further stored. Performs clustering for classifying a plurality of text data into a plurality of clusters based on the selected cluster, and allows the user to select some of the plurality of clusters; corrects the matrix information based on the selected cluster; Can be repeated, so that only a part of the result of the clustering process is useful to the user. Also can be controlled so as not to be calculated in the first cluster became known (selected cluster) is N + until the N-th, thus, can extract various topics and concepts of the text data in progressively higher accuracy.
Further, in the invention according to
According to a fourth aspect of the present invention, in the second or third aspect, a cluster feature for each selected cluster is calculated from text data belonging to the selected cluster, and the cluster feature is calculated. Since the matrix information is corrected based on, the situation that text data rows belonging to the unselected cluster are deleted from the matrix can be avoided, and the cluster feature token of the selected cluster belongs to the cluster. The selection result can be reflected only on the element of the text data to be extracted, so that the concept can be extracted with higher accuracy and gradually.
[0015]
In the invention according to
According to the invention of
Further, in the invention according to
According to an eighth aspect of the present invention, a program programmed to execute the concept extraction by the concept extraction method according to any one of the second to seventh aspects is executed on the information processing apparatus. Therefore, the effect of the invention described in any one of
According to the ninth aspect of the present invention, since the program according to the eighth aspect can be stored in a removable storage medium, the storage medium can be stored in the storage medium according to any one of the second to seventh aspects. By mounting the information processing apparatus such as a personal computer that cannot extract the concept as described above, the effect of the invention according to any one of
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a concept extraction system according to a first embodiment of the present invention.
FIG. 2 is a data configuration diagram of a main part of the concept extraction system, showing the first embodiment of the present invention.
FIG. 3 is a screen view of a concept extraction system according to the first embodiment of the present invention.
FIG. 4 is an explanatory diagram of a concept extracting method according to the first embodiment of the present invention.
FIG. 5 is an explanatory diagram of a concept extracting method according to a second embodiment of the present invention.
FIG. 6 is a diagram illustrating a concept extracting method according to a third embodiment of the present invention.
FIG. 7 is a block diagram showing a configuration of a concept extracting system according to a fourth embodiment of the present invention.
FIG. 8 is an operation flowchart of a concept extracting method according to the first embodiment of the present invention.
[Explanation of symbols]
1 text vector generation section, 2 text data analysis section, 3 text data counting section, 4 analysis result storage section, 5 text vector storage section, 6 text analysis result storage section, 7 cluster processing section, 8 clustering section, 9 cluster feature calculation Section, 10 cluster selection section, 11 selected cluster storage section, 12 text vector correction section, 13 inter-cluster similarity calculation section
Claims (9)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003139336A JP4359075B2 (en) | 2003-05-16 | 2003-05-16 | Concept extraction system, concept extraction method, concept extraction program, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003139336A JP4359075B2 (en) | 2003-05-16 | 2003-05-16 | Concept extraction system, concept extraction method, concept extraction program, and storage medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004341948A true JP2004341948A (en) | 2004-12-02 |
JP4359075B2 JP4359075B2 (en) | 2009-11-04 |
Family
ID=33528461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003139336A Expired - Fee Related JP4359075B2 (en) | 2003-05-16 | 2003-05-16 | Concept extraction system, concept extraction method, concept extraction program, and storage medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4359075B2 (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008097147A (en) * | 2006-10-06 | 2008-04-24 | Yafoo Japan Corp | Method and computer for deciding primary cluster, and computer |
CN100495408C (en) * | 2007-06-22 | 2009-06-03 | 中国科学院研究生院 | Text clustering element study method and device |
JP2011198162A (en) * | 2010-03-23 | 2011-10-06 | Yahoo Japan Corp | Representative notation extracting device, method, and program |
JP6483789B1 (en) * | 2017-11-22 | 2019-03-13 | ダットジャパン株式会社 | Information analysis system |
CN110569405A (en) * | 2019-08-26 | 2019-12-13 | 中电科大数据研究院有限公司 | method for extracting government affair official document ontology concept based on BERT |
CN111353297A (en) * | 2020-02-29 | 2020-06-30 | 北京工业大学 | Biomedical literature theme extraction method based on field topic interaction density |
KR20210120236A (en) * | 2020-03-26 | 2021-10-07 | 삼성생명보험주식회사 | Method to manage data |
CN116975595A (en) * | 2023-07-03 | 2023-10-31 | 华南师范大学 | Unsupervised concept extraction method and device, electronic equipment and storage medium |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11296552A (en) * | 1998-04-13 | 1999-10-29 | Ricoh Co Ltd | Device and method for classifying document and computer-readable recording medium where program allowing computer to implement same method is recorded |
JP2000285140A (en) * | 1998-12-24 | 2000-10-13 | Ricoh Co Ltd | Device and method for processing document, device and method for classifying document, and computer readable recording medium recorded with program for allowing computer to execute these methods |
JP2001101227A (en) * | 1999-10-01 | 2001-04-13 | Ricoh Co Ltd | Document sorter and document sorting method |
JP2002149670A (en) * | 2000-11-08 | 2002-05-24 | Toshiba Corp | Method and device for classifying information |
JP2002183171A (en) * | 2000-12-12 | 2002-06-28 | Matsushita Electric Ind Co Ltd | Document data clustering system |
JP2003067398A (en) * | 2001-08-27 | 2003-03-07 | Ricoh Co Ltd | Device and method for classifying documents, and computer-readable recording medium recorded with program for executing document-classifying method by computer |
-
2003
- 2003-05-16 JP JP2003139336A patent/JP4359075B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11296552A (en) * | 1998-04-13 | 1999-10-29 | Ricoh Co Ltd | Device and method for classifying document and computer-readable recording medium where program allowing computer to implement same method is recorded |
JP2000285140A (en) * | 1998-12-24 | 2000-10-13 | Ricoh Co Ltd | Device and method for processing document, device and method for classifying document, and computer readable recording medium recorded with program for allowing computer to execute these methods |
JP2001101227A (en) * | 1999-10-01 | 2001-04-13 | Ricoh Co Ltd | Document sorter and document sorting method |
JP2002149670A (en) * | 2000-11-08 | 2002-05-24 | Toshiba Corp | Method and device for classifying information |
JP2002183171A (en) * | 2000-12-12 | 2002-06-28 | Matsushita Electric Ind Co Ltd | Document data clustering system |
JP2003067398A (en) * | 2001-08-27 | 2003-03-07 | Ricoh Co Ltd | Device and method for classifying documents, and computer-readable recording medium recorded with program for executing document-classifying method by computer |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008097147A (en) * | 2006-10-06 | 2008-04-24 | Yafoo Japan Corp | Method and computer for deciding primary cluster, and computer |
CN100495408C (en) * | 2007-06-22 | 2009-06-03 | 中国科学院研究生院 | Text clustering element study method and device |
JP2011198162A (en) * | 2010-03-23 | 2011-10-06 | Yahoo Japan Corp | Representative notation extracting device, method, and program |
JP6483789B1 (en) * | 2017-11-22 | 2019-03-13 | ダットジャパン株式会社 | Information analysis system |
JP2019096019A (en) * | 2017-11-22 | 2019-06-20 | ダットジャパン株式会社 | Information analysis system |
CN110569405A (en) * | 2019-08-26 | 2019-12-13 | 中电科大数据研究院有限公司 | method for extracting government affair official document ontology concept based on BERT |
CN111353297A (en) * | 2020-02-29 | 2020-06-30 | 北京工业大学 | Biomedical literature theme extraction method based on field topic interaction density |
CN111353297B (en) * | 2020-02-29 | 2023-12-29 | 北京工业大学 | Biomedical literature topic extraction method based on field topic interaction density |
KR20210120236A (en) * | 2020-03-26 | 2021-10-07 | 삼성생명보험주식회사 | Method to manage data |
KR102359661B1 (en) * | 2020-03-26 | 2022-02-07 | 삼성생명보험주식회사 | Method to manage data |
CN116975595A (en) * | 2023-07-03 | 2023-10-31 | 华南师范大学 | Unsupervised concept extraction method and device, electronic equipment and storage medium |
CN116975595B (en) * | 2023-07-03 | 2024-03-26 | 华南师范大学 | Unsupervised concept extraction method and device, electronic equipment and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP4359075B2 (en) | 2009-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8725717B2 (en) | System and method for identifying topics for short text communications | |
JP2940501B2 (en) | Document classification apparatus and method | |
US7809718B2 (en) | Method and apparatus for incorporating metadata in data clustering | |
CN110457672B (en) | Keyword determination method and device, electronic equipment and storage medium | |
US10482146B2 (en) | Systems and methods for automatic customization of content filtering | |
CN109783787A (en) | A kind of generation method of structured document, device and storage medium | |
CN110874531A (en) | Topic analysis method and device and storage medium | |
US8451292B2 (en) | Video summarization method based on mining story structure and semantic relations among concept entities thereof | |
CN111291177A (en) | Information processing method and device and computer storage medium | |
US20140379719A1 (en) | System and method for tagging and searching documents | |
JP2001216332A (en) | Dynamic image representing method for retrieving, browsing, or summarizing dynamic image, and its processor and processing method | |
CN108133058B (en) | Video retrieval method | |
JP2007041721A (en) | Information classifying method and program, device and recording medium | |
CN109508448A (en) | Short information method, medium, device are generated based on long article and calculate equipment | |
CN108228612B (en) | Method and device for extracting network event keywords and emotional tendency | |
JP7395377B2 (en) | Content search methods, devices, equipment, and storage media | |
US20240104302A1 (en) | Minutes processing method and apparatus, device, and storage medium | |
JP2004341948A (en) | Concept extraction system, concept extraction method, program therefor, and storing medium thereof | |
CN114090766A (en) | Video text screening method and device and electronic equipment | |
JP4143234B2 (en) | Document classification apparatus, document classification method, and storage medium | |
CN110019763B (en) | Text filtering method, system, equipment and computer readable storage medium | |
CN107807964B (en) | Digital content ordering method, apparatus and computer readable storage medium | |
JP2013174988A (en) | Similar document retrieval support apparatus and similar document retrieval support program | |
CN110209765B (en) | Method and device for searching keywords according to meanings | |
CN111831938A (en) | Information display method, information display device, electronic equipment and medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060306 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20060410 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090217 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090416 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090609 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090624 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090721 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090807 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120814 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120814 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130814 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |