JP4143234B2 - Document classification apparatus, document classification method, and storage medium - Google Patents
Document classification apparatus, document classification method, and storage medium Download PDFInfo
- Publication number
- JP4143234B2 JP4143234B2 JP28201499A JP28201499A JP4143234B2 JP 4143234 B2 JP4143234 B2 JP 4143234B2 JP 28201499 A JP28201499 A JP 28201499A JP 28201499 A JP28201499 A JP 28201499A JP 4143234 B2 JP4143234 B2 JP 4143234B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- feature vector
- classification
- feature
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、文書群を文書の内容に従って複数の文書部分集合に自動分類する文書群分類装置などに係わり、特に、分類基準の異なる部分文書集合を多数抽出することができる文書分類装置などに関する。
【0002】
【従来の技術】
近年、インターネットなどの普及により大量の文書情報へのアクセスが可能になったことなどに伴い、収集した大量の文書情報を意味のあるグループに(例えば話題毎に)分類することにより、所望の文書情報へのアクセスを効率的に行えるようにしたり、大量の文書集合の分析作業を効率的に行えるようにする必要性が高まっている。
しかし、大量の文書情報を利用者が手動で分類するのでは、人的/時間的コストが膨大なものになる。そのため、近年では、文書集合を文書の内容により自動分類できる装置が提供されるに至っている。
そのような自動分類においては、例えば、日本語形態素解析などの自然言語処理を用いて文書からそれらを構成する複数の単語を抽出することにより、文書を複数の単語の出現頻度のベクトル(文書特徴ベクトル)として空間表現する。この技術は文書のベクトル空間モデルと呼ばれ、広く用いられている。このようなベクトル空間モデルでは、空間内における任意の2つの文書特徴ベクトル間の距離、内積、余弦等を算出することでベクトル間の類似度を定義できるので、統計的手法を用いて文書の内容による自動分類をおこなうことが可能となり、種々の文書自動分類方法が提供されている(例えば、特開平7-114572号公報記載の発明など)。
これらの方法の多くは、生成する部分文書集合の質の向上を目指したものである(例えば、特開平11-45247号公報記載の発明)。生成された部分文書集合を単位としてさまざまな作業を効率的に行おうというわけであるから、確かに生成する部分文書集合の質は重要な課題である。しかし、それと同時に、分類対象の文書集合に内在している様々な話題を分類された部分文書集合がいかに多く抽出することができるかということも同様に重要な課題である。しかしながら、この課題を直接的に扱っている方法は見当たらない。
【0003】
【発明が解決しようとする課題】
前記のように、従来技術においては、部分文書集合への分類に際して、文書集合に含まれる話題の一部分しか抽出できないため、文書集合に対する包括的な分析をすることができないという問題がある。
本発明の課題は、このような従来技術の問題を解決し、特定の基準に基づき文書特徴ベクトルの特徴次元を動的に操作し、文書自動分類を繰り返し行うことにより、分類時に用いられる特徴ベクトル間の類似度が動的に異なる、つまり分類基準が異なる部分文書集合を多数、自動抽出することができるようにして、文書集合に対する包括的な分析を行うことができる文書分類装置などを提供することにある。
【0004】
前記の課題を解決するために、請求項1に記載の発明は、文書の内容に従って文書集合を自動的に分類する文書分類装置において、複数の文書から成る文書集合のそれぞれの文書データ中の単語を抽出し、該抽出された単語の出現回数を前記文書ごとに計数する文書解析手段と、前記文書解析手段で得られた単語と該単語の出現回数とに基づき、前記各文書と各文書に出現する単語とがそれぞれ行列成分に対応し、各行列要素が前記文書ごとに計数された前記単語の出現回数である行列を生成し、該行列に特異値分解を用いて文書特徴ベクトルを求める特徴ベクトル生成手段と、前記文書特徴ベクトルにおける対応する特異値が大きい順に特徴次元を削除して当該文書特徴ベクトルを修正する特徴ベクトル修正手段と、該特徴ベクトル修正手段により修正された前記文書特徴ベクトルを含む文書特徴ベクトル間の類似度に基づいて文書集合を複数の部分文書集合に分類し、分類結果を分類結果記憶手段に記憶させる文書分類手段と、を備え、前記文書分類手段が前記分類結果を記憶させた後、所定のくり返し条件を用いた判定に従い、くり返すと判定された場合、前記特徴ベクトル修正手段が文書特徴ベクトルを修正する動作および前記文書分類手段が文書集合を部分文書集合に分類して前記分類結果記憶手段に分類結果を記憶する動作をくり返すことを特徴とする。
また、請求項2に記載の発明は、請求項1記載の文書分類装置において、前記特徴ベクトル生成手段により求められた前記文書特徴ベクトルを記憶しておく特徴ベクトル記憶手段を備え、前記特徴ベクトル修正手段は、文書特徴ベクトルをくり返し修正する際、前記特徴ベクトル記憶手段に記憶されている特徴ベクトルを修正することを特徴とする。
また、請求項3に記載の発明は、請求項1又は2記載の文書分類装置において、前記分類結果記憶手段に記憶された分類結果から統計情報を算出し、算出された統計情報を用いて削除する特徴次元を決定することを特徴とする。
また、請求項4に記載の発明は、請求項3記載の文書分類装置において、前記統計情報は、それぞれの部分文書集合における特徴次元の分散値であることを特徴とする。
【0005】
また、請求項5に記載の発明は、文書解析手段と特徴ベクトル生成手段と特徴ベクトル修正手段と文書分類手段と分類結果記憶手段とを有し、文書の内容に従って文書集合を自動的に分類する文書分類装置が実行する文書分類方法において、前記文書解析手段による、複数の文書から成る文書集合のそれぞれの文書データ中の単語を抽出し、該抽出された単語の出現回数を前記文書ごとに計数するステップと、前記特徴ベクトル生成手段による、前記文書解析手段で得られた単語と、該単語の出現回数と、に基づき、行成分が各前記文書と対応し、列成分が各前記単語と対応し、各行列要素が前記文書ごとに計数された前記単語の出現回数である行列を生成し、該行列に特異値分解を用いて文書特徴ベクトルを求めるステップと、前記特徴ベクトル修正手段による、前記文書特徴ベクトルにおける対応する特異値が大きい順に特徴次元を削除して当該文書特徴ベクトルを修正するステップと、前記文書分類手段による、前記特徴ベクトル修正手段により修正された前記文書特徴ベクトルを含む文書特徴ベクトル間の類似度に基づいて文書集合を複数の部分文書集合に分類し、分類結果を前記分類結果記憶手段に記憶させるステップと、前記文書分類手段が前記分類結果を記憶させた後、所定のくり返し条件を用いた判定に従い、くり返すと判定された場合、前記特徴ベクトル修正手段が文書特徴ベクトルを修正する動作および前記文書分類手段が文書集合を部分文書集合に分類して前記分類結果記憶手段に分類結果を記憶する動作をくり返すステップと、から構成されることを特徴とする。
また、請求項6に記載の発明は、請求項5記載の文書分類方法において、特徴ベクトル記憶手段が、前記特徴ベクトル生成手段により最初に求められた前記文書特徴ベクトルを記憶しておくステップを有し、前記特徴ベクトル修正手段は、文書特徴ベクトルをくり返し修正する際、前記特徴ベクトル記憶手段に記憶されている最初に求められた文書特徴ベクトルを修正することを特徴とする。
また、請求項7に記載の発明は、請求項5又は6記載の文書分類方法において、前記分類結果記憶手段に記憶された分類結果から統計情報を算出し、算出された統計情報を用いて削除する特徴次元を決定することを特徴とする。
また、請求項8に記載の発明は、請求項7記載の文書分類方法において、前記統計情報は、それぞれの部分文書集合における特徴次元の分散値であることを特徴とする。
また、請求項9に記載の発明は、請求項5乃至8の何れか一項記載の文書分類方法を実行するためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体を特徴とする。
【0006】
前記のような手段にしたので、請求項1および請求項6記載の発明では、複数の文書から成る文書集合のそれぞれの文書データ中の単語が解析され、その解析結果に基づいて文書特徴ベクトルが求められ、文書特徴ベクトル間の類似度に基づいて文書集合が複数の部分文書集合に分類され、その後、条件によってくり返しが選択されると、所定の基準に基づき前記文書特徴ベクトルの特徴次元が修正され、修正された文書特徴ベクトルを含む文書特徴ベクトル間の類似度に基づいて文書集合が複数の部分文書集合に分類され、さらに、前記条件によってくり返しが選択されると、文書特徴ベクトルを修正する動作、および部分文書集合に分類し結果を記憶する動作がくり返される。
請求項2および請求項7記載の発明では、請求項1または請求項6記載の発明において、生成される文書特徴ベクトルの特徴次元が所定の基準に従って順序付けされ、操作する特徴次元が順序付けされた順序に従って決定される。
請求項3および請求項8記載の発明では、請求項6または請求項7記載の発明において、最初に求められた文書特徴ベクトルが記憶しておかれ、文書特徴ベクトルをくり返し修正する際、記憶されている最初に求められた特徴ベクトルが修正される。
請求項4および請求項9記載の発明では、請求項1乃至請求項3または請求項6乃至請求項8記載の発明において、記憶された分類結果から統計情報が算出され、算出された統計情報を用いて操作する特徴次元が決定される。
請求項5および請求項10記載の発明では、請求項4または請求項9記載の発明において、記憶された分類結果からそれぞれの部分文書集合における特徴次元の分散値が算出され、算出された分散値を用いて操作する特徴次元が決定される。請求項11記載の発明では、請求項6乃至請求項10記載の文書分類方法に従ってプログラミングしたプログラムが例えば着脱可能な記憶媒体に記憶される。
【0007】
【発明の実施の形態】
以下、図面により本発明の実施の形態を詳細に説明する。
図1は本発明の第1の実施形態を示す文書分類装置の構成ブロック図である。図示したように、この実施形態の文書分類装置は、複数の文書から成る文書集合のそれぞれの文書データを入力する文書入力部1、前記文書入力部1により入力されたそれぞれの文書データ中の単語を解析する文書解析手段である文書解析部2、前記文書解析部2による解析結果に基づいて文書特徴ベクトルを求める特徴ベクトル生成手段である特徴ベクトル生成部3、所定の基準に基づき前記文書特徴ベクトルの特徴次元を操作して前記文書特徴ベクトルを修正する特徴ベクトル修正手段である特徴ベクトル修正部4、修正された文書特徴ベクトルを含む文書特徴ベクトル間の類似度に基づいて文書集合を複数の部分文書集合に分類する文書分類手段である文書分類部5、前記文書分類部5により分類された分類結果を記憶しておく分類結果記憶手段である分類結果記憶部6、所定のくり返し条件に従って文書特徴ベクトル修正から後の動作をくり返させるくり返し判定部7などを備えている。なお、前記文書解析部2、特徴ベクトル生成部3、特徴ベクトル修正部4、文書分類部5、くり返し判定部7は、プログラムやデータを記憶しておく共有のメモリ(例えばRAM)およびそのプログラムに従って動作する共有または専有のCPUを有する。以下、前記各部についてさらに説明する。
まず、文書入力部1であるが、キーボード、OCR装置、着脱可能な記憶媒体、ネットワークインタフェース部などを備え、それらを用いて文書データ群を入力し、文書記憶部(図示していない)に格納する。
また、文書解析部2は、入力された文書データのそれぞれに対して自然言語解析を行い、単語やその品詞などを抽出する。さらに、文書データ内での単語の出現順序、および文書の作成者や作成日など文書のメタ情報(属性情報)などを含めた文書解析を行うこともできる。単語を抽出した後は、文書群中に出現した単語に対して一意な単語識別符号(ID)を付与し、文書毎に単語出現回数を計数する。
【0008】
特徴ベクトル生成部3では、文書解析部2で生成した単語、単語ID、単語出現回数、品詞情報などの文書解析データを基に、行成分が文書ID、列成分が単語IDであり、行列要素が前記各文書IDの文書の含む前記各単語IDの単語の出現回数となるような文書-単語行列データを生成する。そして、この文書-単語行列の各行ベクトルを文書特徴ベクトルとする。文書-単語行列データと文書特徴ベクトルの例を図2に示す。なお、この文書特徴ベクトルに対して正規化処理を行うこともできる。また、単語が有する多義性・同義性の問題に対処するために、生成した文書-単語行列に対して因子分析、数量化III類、および特異値分解などの多次元尺度手法を適用することにより文書特徴ベクトルを生成することもできる。
例えば、特異値分解を用いて文書-単語行列から文書特徴ベクトルを生成する方法では、大きさd×t(dは文書数,tは単語数)の文書-単語行列(文書特徴ベクトル)Xを式(1)のように複数の行列に分解する。なお、式(1)において、svd ( )は行列へ特異値分解を適用する演算子である。また、特異値とは、特異値分解により生成される値であり、例えば、多数の文書に共通して出現する単語を多数含む文書が、特異値から成る行列Lの特異値の高い次元で高い値になる。
式(1) X = svd(X) = ALUT [Tは行列の転置を示す]
式(1)において、A,L,Uはいずれも行列であり、行列Aは大きさd×k(kはtより小さい)の行列となる。つまり、大きさd×kの行列Aにおける各行ベクトルが文書特徴ベクトルとなる。ここで、kは1≦k≦rの整数で、rはdとtの小さい方より小さく、行列Xのランクを示す。また、行列Lは特異値からなる大きさk×kの対角行列であり、行列Uはt×kの行列で、任意の単語をk次元の潜在構造空間へ写像したものと考えることができる。
なお、文書特徴ベクトルを効率的に管理するために、特徴ベクトル生成部3は、文書-単語行列データに付随する付加的な情報、たとえば、文書-単語行列データの列成分である単語IDとその単語との対応関係を記述した単語-単語ID対応マップデータや、各単語について単語IDとその単語の有する品詞情報との対応関係を記述した単語ID-品詞対応マップデータなども同時に生成する。
【0009】
また、特徴ベクトル修正部4では、前記文書特徴ベクトルの特徴次元(ベクトルの次元であり、それぞれの次元は近似的に文書集合において振る舞いの似た複数の単語から構成されるものと考えることができる)を所定の基準に基づき逐次的に操作することにより文書特徴ベクトルを修正する。なお、特徴次元の操作とてしては、次元の重み付け、削除、および線形変換などを行うことができる。
例えば、文書特徴ベクトルから特定の次元を削除する場合では、文書特徴ベクトルをd×kの大きさの行列Aとし、削除する特徴次元に対応する列を大きさk×kの単位行列から削除した結果生成されるk×k'の大きさの修正行列をPk'とすると、修正された文書特徴ベクトルA'は式(2)のように求めることができる(この式は、前記特異値分解の場合に限定していない一般的な表現をしている)。
式(2) A' = A Pk'
また、修正行列として大きさk×kの単位行列から削除する特徴次元に対応する対角要素を0にした結果生成される行列を用いても特徴次元の削除を行えるが、この場合は修正された文書特徴ベクトルの次元数は修正前と同じになる。なお、くり返し実行の際には、式(2)に示す修正が逐次的に実行される。特徴次元を削除する順序は、特徴次元の1番目から整列順であってもよいし、1から特徴次元数までの乱数を発生させることで決めてもよい。このようにして、逐次削除した特徴次元の表現していた特徴を排除した特徴空間での文書分類が可能となり、最も中心的な話題(特徴)の陰に隠れてしまっている他の話題が分類のための視点になってくるのである。
特に、前記の特異値分解を用いて文書特徴ベクトルを生成した場合には、文書特徴ベクトルの各次元は対応する特異値の大きさで順位付けされるので、特異値の大きな特徴次元から徐々に削除していくことにより、逐次主要な話題の影響を排除した特徴空間で文書分類を行うことが可能となる。つまり、各特徴次元のそれぞれは、近似的にいくつかの振る舞いの似た単語で構成されるものと考えることができるため、文書データ内に内在するそれぞれの話題と解釈することができ、各特徴次元に対応する特異値の大きさは、文書データ内での話題の主要性をあらわすものと考えられ、特異値が大きい程、対応する特徴次元は文書データ内での主要な話題を示すものと解釈することができるので、くり返し実行の際に、特異値の大きな特徴次元から徐々に削除していくことにより、逐次主要な話題の影響を排除した特徴空間で文書分類を行うことが可能となるのである。
なお、特徴ベクトル修正部4はくり返し実行の初回にはバイパスされる。
また、文書分類部5は、生成した文書特徴ベクトルに統計的手法を適用することで文書分類を行う。文書特徴ベクトル値が近い文書は似た文書であるので、文書特徴ベクトル値の近い文書同志を集めて複数の部分文書集合を生成するのである。適用する統計的手法としては判別分析の手法やクラスタ分析の手法などの分類手法を適用することができるが、ここではベクトルデータが適用できる分類手法であれば、その手法は問わない。
【0010】
図3に、第1の実施形態の動作フローを示す。以下、図3などに従って、この実施形態の動作を説明する。
まず、文書入力部1により、キーボード、OCR装置、着脱可能な記憶媒体、またはネットワークインタフェース部などを介して分類対象の文書データ群(文書集合)を入力し、それらを文書記憶部(図示していない)に格納する(ステップS1)。
次に、文書解析部2が、入力されたそれぞれの文書データに対して自然言語解析を行い、単語やその品詞などを抽出する(ステップS2)。そして、文書データ群中に出現した単語に対して一意な単語識別符号(ID)を付与し、文書毎に単語出現回数を計数する(ステップS2)。
続いて、特徴ベクトル生成部3が、文書解析部2で生成した単語、単語ID、単語出現回数、品詞情報などの文書解析データを基に、行成分が文書ID、列成分が単語IDであり、行列要素が前記各文書IDの文書の含む前記各単語IDの単語の出現回数となるような文書-単語行列データを生成する(ステップS3)。そして、この文書-単語行列の各行ベクトルを文書特徴ベクトルとする(図2参照)。
さらに、文書分類部5が、生成した文書特徴ベクトルに統計的手法を適用することで文書分類を行う(ステップS5)。文書特徴ベクトル値が近い文書は似た文書であるので、文書特徴ベクトル値の近い文書同志を集めて複数の部分文書集合を生成するのである。
この後は、文書分類部5が、生成した文書分類結果を分類結果記憶部6に記憶させ(ステップS6)、くり返し判定部7が、文書特徴ベクトルを修正させて文書分類をくり返すかどうかを所定のくり返し条件を用いて判定する(ステップS7)。なお、前記判定を行うための所定のくり返し条件としては、予め設定されたくり返し回数を用いることができるし、文書特徴ベクトルの次元数などを参考にして決定することもできる。また、分類結果を見て、利用者がくり返すか否かを指示することも可能である。そして、くり返すと判定されたならば(ステップS7でYes)、前記のようにして文書特徴ベクトルを修正する(ステップS4)。例えば、文書特徴ベクトルを構成する一つの特徴次元を所定の基準で選択し、その特徴次元を削除するのである。
続いて、文書分類部5が修正された特徴ベクトルを用いて再び文書分類を行い(ステップS5)、分類結果を分類結果記憶部6に記憶させる(ステップS6)。
こうして、前記のように、例えば特異値分解を用いて文書特徴ベクトルを生成した場合、文書特徴ベクトルの各次元は対応する特異値の大きさで順位付けされ、特異値の大きな特徴次元から逐次削除され、逐次主要な話題の影響を排除した特徴空間で文書分類を行うことが可能となる。
【0011】
図4は本発明の第2の実施形態を示す文書分類装置の構成ブロック図である。第1の実施形態(図1参照)と同一のものに関しては同じ番号を付してある。図示したように、この実施形態では、第1の実施形態の構成に加えて、特徴ベクトル生成部3により求められた文書特徴ベクトルを記憶しておく特徴ベクトル記憶手段である特徴ベクトル記憶部8を備えている。なお、この特徴ベクトル記憶部8には、文書特徴ベクトルを効率的に管理するために特徴ベクトル生成部3が生成した、文書-単語行列データに付随する付加的な情報、たとえば、文書-単語行列データの列成分である単語IDとその単語との対応関係を記述した単語-単語ID対応マップデータや、各単語について単語IDとその単語が有する品詞情報との対応関係を記述した単語ID-品詞対応マップデータなども記憶される。
このような特徴ベクトル記憶部8を追加したことにより、この実施形態では、特徴ベクトル修正部4は、文書特徴ベクトル修正の都度、この特徴ベクトル記憶部8に記憶されている文書特徴ベクトルを操作(修正)される文書特徴ベクトルとすることが可能になる。そして、これより、文書特徴ベクトルに施す操作(例えば一つの次元の削除)の効果(結果)を継承しない文書特徴ベクトルを用いて文書分類を行うことが可能になる。
例えば、文書特徴ベクトルが特異値分解により生成されており、n回目の繰り返し時に第n次元の特徴次元を削除する場合、そのときの修正行列をPn、特徴ベクトル記憶部8に記憶されている文書特徴ベクトルをA0とし、修正された文書特徴ベクトルをAnとすると、
式(3) An = A0Pn
となる。なお、第1の実施形態の場合には、
式(4) An = A0Pn Pn-1・・・P0
となる。つまり、第2の実施形態では、削除する特徴次元の表現する話題のみを除いた特徴空間で文書分類を行うことが可能となるのである。
【0012】
図5は本発明の第3の実施形態を示す文書分類装置の構成ブロック図である。図5において、第1の実施形態(図1参照)および第2の実施形態(図4参照)と同一のものに関しては同じ番号を付してある。図示したように、第3の実施形態では、第2の実施形態の構成に加えて、記憶されている分類結果から各部分文書集合に所属する文書特徴ベクトルを抽出する部分文書集合抽出部9、抽出された各部分文書集合における各文書特徴ベクトル間での各特徴次元の分散値を算出する部分文書集合分散算出部10、算出された各特徴次元の分散値など統計情報を用いて操作する特徴次元を決定する操作対象特徴次元決定部11を備える。
このような構成で、この実施形態では、分類結果記憶部6に記憶された分類結果から統計情報として例えばそれぞれの部分文書集合における特徴次元の分散値を算出し、算出された特徴次元の分散値を用いて操作する特徴次元を決定する。なお、このような決定方法の根拠は、部分文書集合における特徴次元の分散の大きさがその特徴次元の部分文書集合を群化させる寄与率を示すものと考えることができることにある。つまり、分散の小さな特徴次元は部分文書集合を密にしていると考えられるため、群化の寄与率は高いものと考えることができる。したがって、各部分文書集合について、分散の小さな特徴次元はその部分文書集合の表現する話題と強く関連しているものと考えられるため、例えば、この特徴次元を削除した特徴ベクトル空間で文書分類を行うことにより、前記の部分文書集合が表現する話題以外の話題を表現する部分文書集合を抽出できるものと考えられるのである。以下、この実施形態において追加した前記各部について、さらに説明する。
まず、部分文書集合抽出部9であるが、これは、分類結果記憶部6に記憶されている分類結果から、生成された部分文書集合すべてについてそれぞれに所属する文書特徴ベクトルを抽出する。なお、対象とする部分文書集合は直前に生成された部分文書集合だけでもよいし、生成されている全部分文書集合でもよい。
【0013】
また、部分文書集合分散算出部10は、部分文書集合抽出部9が抽出した全部分文書集合について、それぞれに所属する各文書特徴ベクトル間での各特徴次元の分散値を算出する。この際、各部分文書集合について、各特徴次元の分散値の大きさの順位を算出すると共に、各特徴次元の分散値について、各部分文書集合の順位も合わせて算出する。
また、操作対象特徴次元決定部11は、部分文書集合分散算出部11が算出した各部分文書集合における各特徴次元の分散値、各部分文書集合おける各特徴次元の分散値の大きさの順位、および各特徴次元の分散値についての各部分文書集合の順位の情報を基にして特徴ベクトル修正部4の操作する特徴次元を決定する。例えば、全部分文書集合における特徴次元の分散値が一定値以下のものを操作対象の特徴次元として選択したり、全部分文書集合における特徴次元の分散値の大きさの順位が常に一定順位以下(分散が小さい)ものを操作対象の特徴次元として選択したりするのである。
なお、直前に生成された部分文書集合だけを抽出した場合には、その部分文書集合における各特徴次元の分散値、およびその部分文書集合おける各特徴次元の分散値の大きさの順位を基にして特徴ベクトル修正部4の操作する特徴次元を決定する。
こうして、この実施形態では、選択された特徴次元を削除した特徴ベクトル空間で文書分類を行い、前記の部分文書集合が表現する話題以外の話題を表現する部分文書集合を抽出することができる。
以上、図1、図4、および図5に示した構成の文書分類装置の場合について説明したが、各実施形態で説明したような本発明の文書分類方法に従ってプログラミングしたプログラムを、例えば、着脱可能な記憶媒体に記憶させ、その記憶媒体をこれまで本発明によった方法の文書分類を行えなかったパーソナルコンピュータなど情報処理装置に装填することにより、その情報処理装置において前記文書分類を行うこともできる。
【0014】
【発明の効果】
以上説明したように、本発明によれば、請求項1および請求項5記載の発明では、分類対象の文書集合中に内在している異なる話題の部分文書集合を多数、自動抽出することができ、したがって、文書集合に対する包括的な分析を行うことができる。さらに、特徴次元の操作を効率的に行うことができる。
また、請求項2および請求項6記載の発明では、逐次行われる文書特徴ベクトルの特徴次元の操作の効果がその直後に行われる文書分類のみに有効になる。つまり、逐次行われる特徴次元の操作の効果が継承されない部分文書集合を生成することができ、したがって、請求項1又は5記載の発明とは異なる話題も抽出できる。
【0015】
また、請求項3および請求項7記載の発明では、請求項1または請求項5記載の発明とは異なった方法で異なる話題の部分文書集合を多数、自動抽出することができ、したがって、請求項1または請求項5記載の発明の効果をさらに向上させることができる。
また、請求項4および請求項8記載の発明では、請求項3または請求項7記載の発明の効果を容易に実現することができる。
また、請求項9記載の発明では、情報処理装置において請求項5乃至8の何れか一項記載の発明の効果を得ることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態を示す文書分類装置の構成ブロック図である。
【図2】本発明の第1の実施形態を示す文書分類方法の説明図である。
【図3】本発明の第1の実施形態を示す文書分類方法の動作フロー図である。
【図4】本発明の第2の実施形態を示す文書分類装置の構成ブロック図である。
【図5】本発明の第3の実施形態を示す文書分類装置の構成ブロック図である。
【符号の説明】
1 文書入力部
2 文書解析部
3 特徴ベクトル生成部
4 特徴ベクトル修正部
5 文書分類部
6 分類結果記憶部
7 くり返し判定部
8 特徴ベクトル記憶部
9 部分文書集合抽出部
10 部分文書集合分散算出部
11操作対象特徴次元決定部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a document group classification apparatus that automatically classifies a document group into a plurality of document subsets according to the contents of the document, and more particularly to a document classification apparatus that can extract a large number of partial document sets with different classification criteria.
[0002]
[Prior art]
In recent years, with the spread of the Internet and the like, it has become possible to access a large amount of document information, and the desired document can be obtained by classifying the collected large amount of document information into meaningful groups (for example, for each topic). There is a growing need to be able to access information efficiently and to efficiently analyze a large collection of documents.
However, if a user manually classifies a large amount of document information, the human / time cost becomes enormous. Therefore, in recent years, an apparatus capable of automatically classifying a document set according to the contents of a document has been provided.
In such automatic classification, for example, by extracting a plurality of words constituting the document from the document using natural language processing such as Japanese morphological analysis, the document is expressed as a vector of appearance frequency of the plurality of words (document feature). Space) as a vector. This technique is called a vector space model of a document and is widely used. In such a vector space model, the similarity between vectors can be defined by calculating the distance, inner product, cosine, etc. between any two document feature vectors in the space. Thus, various document automatic classification methods are provided (for example, the invention described in JP-A-7-114572).
Many of these methods aim to improve the quality of the generated partial document set (for example, the invention described in Japanese Patent Laid-Open No. 11-45247). Since various operations are efficiently performed with the generated partial document set as a unit, the quality of the generated partial document set is an important issue. At the same time, however, how many partial document sets into which various topics existing in the document set to be classified can be extracted is also an important issue. However, there is no method that deals directly with this issue.
[0003]
[Problems to be solved by the invention]
As described above, the conventional technique has a problem in that a comprehensive analysis of a document set cannot be performed because only a part of topics included in the document set can be extracted when classifying the document set.
An object of the present invention is to solve such a problem of the prior art, dynamically operate a feature dimension of a document feature vector based on a specific criterion, and repeatedly perform automatic document classification, whereby a feature vector used at the time of classification To provide a document classification device and the like that can automatically extract a large number of partial document sets with different degrees of similarity between them, that is, different classification criteria, and can perform comprehensive analysis on the document set There is.
[0004]
In order to solve the above-mentioned problem, the invention according to
The invention according to
The invention according to
According to a fourth aspect of the present invention, in the document classification device according to the third aspect, the statistical information is a variance value of a feature dimension in each partial document set.
[0005]
The invention according to
The invention according to
The invention according to
The invention according to claim 8 is the document classification method according to
According to a ninth aspect of the present invention, there is provided a computer-readable storage medium storing a program for executing the document classification method according to any one of the fifth to eighth aspects.
[0006]
According to the above-described means, in the inventions according to
In the invention of
In the invention of
In the inventions of
In the inventions according to
[0007]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a block diagram showing the configuration of a document classification apparatus according to the first embodiment of the present invention. As shown in the figure, the document classification apparatus according to this embodiment includes a
First, the
In addition, the
[0008]
In the feature
For example, in a method of generating a document feature vector from a document-word matrix using singular value decomposition, a document-word matrix (document feature vector) X of size d × t (d is the number of documents, t is the number of words) It decomposes | disassembles into a some matrix like Formula (1). In equation (1), svd () is an operator that applies singular value decomposition to a matrix. The singular value is a value generated by singular value decomposition. For example, a document including a large number of words that appear in common in a large number of documents is high in the dimension with a high singular value of the matrix L composed of singular values. Value.
Formula (1) X = svd (X) = ALU T [T indicates matrix transposition]
In Expression (1), A, L, and U are all matrices, and the matrix A is a matrix of size d × k (k is smaller than t). That is, each row vector in the matrix A of size d × k is a document feature vector. Here, k is an integer of 1 ≦ k ≦ r, and r is smaller than the smaller of d and t, and indicates the rank of the matrix X. The matrix L is a diagonal matrix of singular values of size k × k, and the matrix U is a t × k matrix, which can be thought of as mapping any word to a k-dimensional latent structure space. .
In order to efficiently manage the document feature vector, the feature
[0009]
Further, the feature
For example, when deleting a specific dimension from a document feature vector, the document feature vector is a matrix A having a size of d × k, and a column corresponding to the feature dimension to be deleted is deleted from a unit matrix of size k × k. Assuming that a correction matrix having a size of k × k ′ generated as a result is Pk ′, the corrected document feature vector A ′ can be obtained as shown in the equation (2) (this equation represents the singular value decomposition). General expressions not limited to cases).
Formula (2) A '= A Pk'
The feature dimension can also be deleted by using a matrix generated as a result of setting the diagonal elements corresponding to the feature dimension to be deleted from the unit matrix of size k × k as 0 as the correction matrix. The number of dimensions of the document feature vector is the same as before modification. Note that the correction shown in the equation (2) is sequentially executed during the repeated execution. The order in which the feature dimensions are deleted may be from the first feature dimension to the sorting order, or may be determined by generating random numbers from 1 to the number of feature dimensions. In this way, it is possible to classify documents in a feature space that excludes the features that were sequentially represented by the deleted feature dimensions, and other topics hidden behind the most central topic (feature) are classified. It becomes the viewpoint for.
In particular, when a document feature vector is generated using the above singular value decomposition, each dimension of the document feature vector is ranked according to the size of the corresponding singular value. By deleting the documents, it is possible to perform document classification in a feature space in which the influence of main topics is sequentially removed. In other words, each feature dimension can be thought of as consisting of approximately similar words with similar behavior, so it can be interpreted as each topic inherent in the document data. The size of the singular value corresponding to the dimension is considered to indicate the mainity of the topic in the document data. The larger the singular value, the corresponding feature dimension indicates the main topic in the document data. Since it can be interpreted, it is possible to perform document classification in a feature space that eliminates the influence of major topics one after another by gradually deleting feature dimensions with large singular values during repeated execution. It is.
The feature
The
[0010]
FIG. 3 shows an operation flow of the first embodiment. The operation of this embodiment will be described below with reference to FIG.
First, a document data group (document set) to be classified is input by the
Next, the
Subsequently, the row component is the document ID and the column component is the word ID based on the document analysis data such as the word, word ID, word appearance count, part of speech information, etc., generated by the feature
Further, the
Thereafter, the
Subsequently, the
Thus, as described above, for example, when a document feature vector is generated using singular value decomposition, each dimension of the document feature vector is ranked by the size of the corresponding singular value, and is sequentially deleted from the feature dimension having a large singular value. Thus, it is possible to perform document classification in a feature space that eliminates the influence of major topics one after another.
[0011]
FIG. 4 is a block diagram showing the configuration of the document classification apparatus according to the second embodiment of the present invention. The same number is attached | subjected regarding the same thing as 1st Embodiment (refer FIG. 1). As illustrated, in this embodiment, in addition to the configuration of the first embodiment, a feature vector storage unit 8 that is a feature vector storage unit that stores a document feature vector obtained by the feature
By adding such a feature vector storage unit 8, in this embodiment, the feature
For example, when a document feature vector is generated by singular value decomposition and the n-th dimension feature dimension is deleted at the n-th iteration, the correction matrix at that time is Pn, and the document stored in the feature vector storage unit 8 If the feature vector is A0 and the modified document feature vector is An,
Formula (3) An = A0Pn
It becomes. In the case of the first embodiment,
Formula (4) An = A0Pn Pn-1 ... P0
It becomes. In other words, in the second embodiment, document classification can be performed in a feature space excluding only the topic expressed by the feature dimension to be deleted.
[0012]
FIG. 5 is a block diagram showing the configuration of the document classification apparatus according to the third embodiment of the present invention. In FIG. 5, the same number is attached | subjected regarding the same thing as 1st Embodiment (refer FIG. 1) and 2nd Embodiment (refer FIG. 4). As shown in the drawing, in the third embodiment, in addition to the configuration of the second embodiment, a partial document set extraction unit 9 that extracts document feature vectors belonging to each partial document set from the stored classification results, A partial document set
With this configuration, in this embodiment, for example, a variance value of the feature dimension in each partial document set is calculated as statistical information from the classification result stored in the classification
First, the partial document set extraction unit 9 extracts document feature vectors belonging to all the generated partial document sets from the classification results stored in the classification
[0013]
In addition, the partial document set
In addition, the operation target feature dimension determination unit 11 includes a distribution value of each feature dimension in each partial document set calculated by the partial document set variance calculation unit 11, a rank order of the distribution value of each feature dimension in each partial document set, The feature dimension operated by the feature
When only the partial document set generated immediately before is extracted, the distribution value of each feature dimension in the partial document set and the rank order of the distribution value of each feature dimension in the partial document set are used. Then, the feature dimension operated by the feature
Thus, in this embodiment, document classification is performed in the feature vector space from which the selected feature dimension is deleted, and a partial document set expressing a topic other than the topic expressed by the partial document set can be extracted.
In the above, the case of the document classification apparatus having the configuration shown in FIGS. 1, 4, and 5 has been described. However, for example, a program programmed according to the document classification method of the present invention as described in each embodiment is detachable. The document classification may be performed in the information processing apparatus by storing the information in a storage medium and loading the storage medium into an information processing apparatus such as a personal computer that has not been able to perform document classification according to the method of the present invention. it can.
[0014]
【The invention's effect】
As explained above, according to the present invention, claims 1 and 5 In the described invention, it is possible to automatically extract a large number of partial document sets of different topics existing in the document set to be classified, and thus it is possible to perform a comprehensive analysis on the document set. further, The feature dimension can be efficiently operated.
[0015]
Claims 9 In the described invention The affection In the information processing apparatus, the effect of the invention according to any one of
[Brief description of the drawings]
FIG. 1 is a block diagram showing the configuration of a document classification apparatus according to a first embodiment of the present invention.
FIG. 2 is an explanatory diagram of a document classification method according to the first embodiment of this invention.
FIG. 3 is an operation flowchart of the document classification method according to the first embodiment of the present invention.
FIG. 4 is a block diagram showing the configuration of a document classification apparatus according to a second embodiment of the present invention.
FIG. 5 is a block diagram showing the configuration of a document classification apparatus according to a third embodiment of the present invention.
[Explanation of symbols]
1 Document input part
2 Document Analysis Department
3 Feature vector generator
4 Feature vector correction unit
5 Document classification department
6 Classification result storage
7 Repeat judgment part
8 Feature vector storage
9 Partial document set extraction unit
10 Partial document set variance calculation unit
11 operation target feature dimension determination unit
Claims (9)
複数の文書から成る文書集合のそれぞれの文書データ中の単語を抽出し、該抽出された単語の出現回数を前記文書ごとに計数する文書解析手段と、
前記文書解析手段で得られた単語と単語の出現回数とに基づき、前記各文書と各文書に出現する単語とがそれぞれ行列成分に対応し、各行列要素が前記文書ごとに計数された前記単語の出現回数である行列を生成し、該行列に特異値分解を用いて文書特徴ベクトルを求める特徴ベクトル生成手段と、
前記文書特徴ベクトルにおける対応する特異値が大きい順に特徴次元を削除して当該文書特徴ベクトルを修正する特徴ベクトル修正手段と、
該特徴ベクトル修正手段により修正された前記文書特徴ベクトルを含む文書特徴ベクトル間の類似度に基づいて文書集合を複数の部分文書集合に分類し、分類結果を分類結果記憶手段に記憶させる文書分類手段と、
を備え、
前記文書分類手段が前記分類結果を記憶させた後、所定のくり返し条件を用いた判定に従い、くり返すと判定された場合、前記特徴ベクトル修正手段が文書特徴ベクトルを修正する動作および前記文書分類手段が文書集合を部分文書集合に分類して前記分類結果記憶手段に分類結果を記憶する動作をくり返すことを特徴とする文書分類装置。In a document classification device that automatically classifies a document set according to the contents of a document,
Document analysis means for extracting words in each document data of a document set consisting of a plurality of documents , and counting the number of appearances of the extracted words for each document;
Based on the word obtained by the document analysis means and the number of occurrences of the word, each word and each word appearing in each document correspond to a matrix component, and each word in which each matrix element is counted for each document A feature vector generating means for generating a matrix that is the number of occurrences of the document and obtaining a document feature vector using singular value decomposition on the matrix ;
Feature vector correcting means for correcting the document feature vector by deleting feature dimensions in descending order of corresponding singular values in the document feature vector;
Document classification means for classifying a document set into a plurality of partial document sets based on the similarity between the document feature vectors including the document feature vector modified by the feature vector modification means, and storing the classification result in the classification result storage means When,
With
After the document classifying means stored thereon the classification result, in accordance with the determination using a predetermined repetition condition, when it is determined that the to repeat the operation and the document classifying the feature vector correction means corrects the document feature vector An apparatus for classifying a document, wherein the means repeats the operation of classifying the document set into partial document sets and storing the classification result in the classification result storage means.
前記特徴ベクトル生成手段により求められた前記文書特徴ベクトルを記憶しておく特徴ベクトル記憶手段を備え、
前記特徴ベクトル修正手段は、文書特徴ベクトルをくり返し修正する際、前記特徴ベクトル記憶手段に記憶されている特徴ベクトルを修正することを特徴とする文書分類装置。The document classification apparatus according to claim 1, wherein
Feature vector storage means for storing the document feature vector obtained by the feature vector generation means;
The document classification apparatus characterized in that the feature vector correcting means corrects a feature vector stored in the feature vector storage means when repeatedly correcting a document feature vector.
前記分類結果記憶手段に記憶された分類結果から統計情報を算出し、算出された統計情報を用いて削除する特徴次元を決定することを特徴とする文書分類装置。The document classification apparatus according to claim 1 or 2,
A document classification apparatus, wherein statistical information is calculated from a classification result stored in the classification result storage means, and a feature dimension to be deleted is determined using the calculated statistical information.
前記文書解析手段による、複数の文書から成る文書集合のそれぞれの文書データ中の単語を抽出し、該抽出された単語の出現回数を前記文書ごとに計数するステップと、
前記特徴ベクトル生成手段による、前記文書解析手段で得られた単語と、該単語の出現回数と、に基づき、行成分が各前記文書と対応し、列成分が各前記単語と対応し、各行列要素が前記文書ごとに計数された前記単語の出現回数である行列を生成し、該行列に特異値分解を用いて文書特徴ベクトルを求めるステップと、
前記特徴ベクトル修正手段による、前記文書特徴ベクトルにおける対応する特異値が大きい順に特徴次元を削除して当該文書特徴ベクトルを修正するステップと、
前記文書分類手段による、前記特徴ベクトル修正手段により修正された前記文書特徴ベクトルを含む文書特徴ベクトル間の類似度に基づいて文書集合を複数の部分文書集合に分類し、分類結果を前記分類結果記憶手段に記憶させるステップと、
前記文書分類手段が前記分類結果を記憶させた後、所定のくり返し条件を用いた判定に従い、くり返すと判定された場合、前記特徴ベクトル修正手段が文書特徴ベクトルを修正する動作および前記文書分類手段が文書集合を部分文書集合に分類して前記分類結果記憶手段に分類結果を記憶する動作をくり返すステップと、
から構成されることを特徴とする文書分類方法。 In a document classification method executed by a document classification device that includes a document analysis unit, a feature vector generation unit, a feature vector correction unit, a document classification unit, and a classification result storage unit, and automatically classifies a document set according to the contents of the document.
According to the document analysis means, comprising the steps of counting extracting words in each document data of a document set consisting of a plurality of documents, the number of occurrences of a word issued extract for each of the document,
Based on the word obtained by the document analysis unit by the feature vector generation unit and the number of appearances of the word , a row component corresponds to each document, a column component corresponds to each word, and each matrix Generating a matrix whose elements are the number of occurrences of the word counted for each document, and obtaining a document feature vector using singular value decomposition on the matrix ;
And correcting the document feature vector for said According to a feature vector correction unit, and deletes the corresponding feature dimensions in order singular values is larger in the document feature vector,
According to the document classifying means, wherein said document set based on similarity between documents feature vectors including the document feature vector that has been modified by the vector correction means into a plurality of partial document set, classification result the classification result memory Memorizing the means;
After the document classification means stores the classification result, when it is determined to repeat according to the determination using a predetermined repetition condition, the feature vector correction means corrects the document feature vector and the document classification means Repeating the operation of classifying the document set into partial document sets and storing the classification result in the classification result storage means;
A document classification method characterized by comprising:
特徴ベクトル記憶手段が、前記特徴ベクトル生成手段により最初に求められた前記文書特徴ベクトルを記憶しておくステップを有し、
前記特徴ベクトル修正手段は、文書特徴ベクトルをくり返し修正する際、前記特徴ベクトル記憶手段に記憶されている最初に求められた文書特徴ベクトルを修正することを特徴とする文書分類方法。The document classification method according to claim 5, wherein
A feature vector storage means for storing the document feature vector first obtained by the feature vector generation means;
The feature vector correcting unit corrects a document feature vector first obtained stored in the feature vector storage unit when repeatedly correcting the document feature vector.
前記分類結果記憶手段に記憶された分類結果から統計情報を算出し、算出された統計情報を用いて削除する特徴次元を決定することを特徴とする文書分類方法。The document classification method according to claim 5 or 6,
A document classification method characterized in that statistical information is calculated from a classification result stored in the classification result storage means, and a feature dimension to be deleted is determined using the calculated statistical information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28201499A JP4143234B2 (en) | 1999-10-01 | 1999-10-01 | Document classification apparatus, document classification method, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28201499A JP4143234B2 (en) | 1999-10-01 | 1999-10-01 | Document classification apparatus, document classification method, and storage medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001101227A JP2001101227A (en) | 2001-04-13 |
JP4143234B2 true JP4143234B2 (en) | 2008-09-03 |
Family
ID=17647041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP28201499A Expired - Fee Related JP4143234B2 (en) | 1999-10-01 | 1999-10-01 | Document classification apparatus, document classification method, and storage medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4143234B2 (en) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7606819B2 (en) | 2001-10-15 | 2009-10-20 | Maya-Systems Inc. | Multi-dimensional locating system and method |
US20080058106A1 (en) | 2002-10-07 | 2008-03-06 | Maya-Systems Inc. | Multi-dimensional locating game system and method |
JP4359075B2 (en) * | 2003-05-16 | 2009-11-04 | 株式会社リコー | Concept extraction system, concept extraction method, concept extraction program, and storage medium |
CA2601154C (en) | 2007-07-07 | 2016-09-13 | Mathieu Audet | Method and system for distinguising elements of information along a plurality of axes on a basis of a commonality |
US8601392B2 (en) | 2007-08-22 | 2013-12-03 | 9224-5489 Quebec Inc. | Timeline for presenting information |
CA2657835C (en) | 2008-03-07 | 2017-09-19 | Mathieu Audet | Documents discrimination system and method thereof |
US8607155B2 (en) | 2008-09-12 | 2013-12-10 | 9224-5489 Quebec Inc. | Method of managing groups of arrays of documents |
US9122374B2 (en) | 2011-02-01 | 2015-09-01 | 9224-5489 Quebec Inc. | Expandable and collapsible arrays of documents |
CA2790799C (en) | 2011-09-25 | 2023-03-21 | Mathieu Audet | Method and apparatus of navigating information element axes |
US9519693B2 (en) | 2012-06-11 | 2016-12-13 | 9224-5489 Quebec Inc. | Method and apparatus for displaying data element axes |
US9646080B2 (en) | 2012-06-12 | 2017-05-09 | 9224-5489 Quebec Inc. | Multi-functions axis-based interface |
CA3007166A1 (en) | 2017-06-05 | 2018-12-05 | 9224-5489 Quebec Inc. | Method and apparatus of aligning information element axes |
-
1999
- 1999-10-01 JP JP28201499A patent/JP4143234B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001101227A (en) | 2001-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6173275B1 (en) | Representation and retrieval of images using context vectors derived from image information elements | |
US6760714B1 (en) | Representation and retrieval of images using content vectors derived from image information elements | |
EP1304627B1 (en) | Methods, systems, and articles of manufacture for soft hierarchical clustering of co-occurring objects | |
US6671683B2 (en) | Apparatus for retrieving similar documents and apparatus for extracting relevant keywords | |
JP3726263B2 (en) | Document classification method and apparatus | |
CN108228541B (en) | Method and device for generating document abstract | |
JP5594145B2 (en) | SEARCH DEVICE, SEARCH METHOD, AND PROGRAM | |
JP4143234B2 (en) | Document classification apparatus, document classification method, and storage medium | |
CN101138001A (en) | Learning processing method, learning processing device, and program | |
WO2022121163A1 (en) | User behavior tendency identification method, apparatus, and device, and storage medium | |
CN111797267A (en) | Medical image retrieval method and system, electronic device and storage medium | |
CN111626346A (en) | Data classification method, device, storage medium and device | |
CN113239268B (en) | Commodity recommendation method, device and system | |
Pengcheng et al. | Fast Chinese calligraphic character recognition with large-scale data | |
JP4359075B2 (en) | Concept extraction system, concept extraction method, concept extraction program, and storage medium | |
JP5463873B2 (en) | Multimedia classification system and multimedia search system | |
CN111143400A (en) | Full-stack type retrieval method, system, engine and electronic equipment | |
JP2004086262A (en) | Visual information classification method, visual information classification device, visual information classification program, and recording medium storing the program | |
CN107622048B (en) | Text mode recognition method and system | |
CN107491417A (en) | A kind of document structure tree method under topic model based on particular division | |
CN115617978A (en) | Index name retrieval method and device, electronic equipment and storage medium | |
JP5657338B2 (en) | Input information analyzer | |
CN114896398A (en) | Text classification system and method based on feature selection | |
JP4125951B2 (en) | Text automatic classification method and apparatus, program, and recording medium | |
CN107622129B (en) | Method and device for organizing knowledge base and computer storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050111 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071218 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080311 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080512 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080603 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080616 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110620 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110620 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120620 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130620 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |