JP3524846B2

JP3524846B2 - テキストマイニングにおける文書の特徴量抽出方法及びその装置

Info

Publication number: JP3524846B2
Application number: JP2000197421A
Authority: JP
Inventors: ターウォンマットラック; 明雄坂本; 真司溝渕; 倍達吉岡
Original assignee: 株式会社Ｓｓｒ
Priority date: 2000-06-29
Filing date: 2000-06-29
Publication date: 2004-05-10
Anticipated expiration: 2020-06-29
Also published as: DE10125011A1; GB0115357D0; US20020031260A1; US6882747B2; GB2369211B; GB2369211A; CA2351211A1; JP2002014982A; CA2351211C

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、テキストマイニン
グにおける文書の特徴量抽出方法及びその装置に関し、
より詳細には、特徴量を用いて文書および／またはウェ
ブ検索、関連語検索、文書分類等の応用としてテキスト
マイニングを行う場合に、特徴量の空間において互いに
関連した文書や単語が近接する特徴量を抽出するテキス
トマイニングにおける文書の特徴量抽出方法及びその装
置に関する。

【０００２】

【従来の技術】文章データを種々の観点から分析し、所
望の知識や情報を取り出す技術であるテキストマイニン
グにおいて、文書の有効な特徴量抽出は文書および／ま
たはウェブ検索、関連語検索、文書分類などを効率よく
行うための重要な課題である。一般的な文書の特徴量抽
出方法としては、「Automatic Text Processing」（Add
ison-Wesley社、１９８９年出版）の第３１３項で述べ
られているべクトル空間法（vector-space model）がよ
く用いられている。

【０００３】べクトル空間法では、文書の中で索引とし
て選ばれた単語、即ち文書の内容を代表する索引語がｔ
個ある場合、それぞれの索引語Ｔ_iにべクトルＶ_iを対応
させ、ｔ次元のべクトル空間を定義する。このように定
義されたベクトル空間を構成する全てのべクトルは、ｔ
個の索引語に対応するｔ個のべクトルの線形結合として
表現できる。このべクトル空間において、文書Ｄ_rを以
下のように表現する。

【０００４】

【数１】

【０００５】式（１）において、Ｖ_iに作用するｘ_irは
文書Ｄ_rにおける索引語Ｔ_iに対する寄与分であり、文書
Ｄ_rの特徴量を表す。特徴量とは、索引語の各文書にお
ける出現頻度を表す量である。ｔ×１（ｔ行１列）のべ
クトル［ｘ_r1，ｘ_r2，…，ｘ_rt］′は文書Ｄ_rの特徴量
べクトルとなる。最も単純な場合としては、文書Ｄ_rに
おいて索引語Ｔ_iが出現する場合には１とし、出現しな
い場合には０とする方法がとられる。より複雑な場合
は、上記の文献の第２７９項から第２８０項までで述べ
られているように、文書Ｄ_rにおける索引語Ｔ_iの出現頻
度（term frequency）ｔｆ_riや、文書データベースに登
録された全文書における索引語Ｔ_iを含む文書頻度ｄｆ_i
がｘ_irの計算に利用される。

【０００６】また、ｄ個の文書からなる文書の群に対し
ては、次のようなｔ×ｄの単語−文書行列Ｘが定義でき
る。

【０００７】Ｘ＝［ｘ₁，ｘ₂，…，ｘ_d］ここで、ｔ次元のベクトルｘ_j＝［ｘ_j1，ｘ_j2，…，ｘ
_jt］′は文書Ｄ_jの特徴量べクトルを表し、記号′は転
置を示す。

【０００８】図１は、文書データベースに登録された文
書の一例を示す図である。また、図２は、図１に示され
た文書に出現する漢字の単語を索引語とした単語−文書
行列の一例を示す図である。図２において、文書１〜３
の全てに出現している文字列「について教えて下さい」
の中に含まれる「教」の文字は索引語の対象から外され
ている。図３は、ユーザから実際に入力される質問の一
例を示す図である。この質問を図２の索引語を用いて表
すと、図４に示す文書−単語行列で表現できる。

【０００９】一般的に、べクトル空間法を用いた場合、
２つの文書Ｄ_rとＤ_sの類似度ｓｉｍ（D_r , D_s）は、以
下のようになる。

【００１０】

【数２】

【００１１】図３の質問の意味を基に、この質問と図１
の各文書との類似度を判断した場合、図３の質問は図１
の文書３に一番類似すると考えられる。しかし、図２及
び図４のような特徴量べクトルを用いると、図１におけ
る各文書と図３の質問の類似度は、それぞれ、ｓｉｍ
（文書１，質問）＝０．５４７７、ｓｉｍ（文書２，質
問）＝０．５４７７、ｓｉｍ（文書３，質問）＝０．５
４７７となり、全ての文書に対して同じ類似度になって
しまう。

【００１２】このような問題点を解決する手法として
「Journal of the American Societyfor Information S
cience」（１９９０年発行）の第４１巻第６号第３９１
項から第４０７項までの記載において提案された、単語
の共起に基づいた分析方法 (Latent Semantic Analysi
s; ＬＳＡ) は、文書のもつ潜在的意味を抽出でき、か
つ検索能率が圧倒的に優れている。ここにいう「単語の
共起」とは、同一の文書／文に複数の単語が同時に出現
することをいう。

【００１３】ＬＳＡは、単語の共起の頻度を示す単語−
文書行列を特異値分解（Singular Value Decompositio
n; ＳＶＤ）することにより、文書の潜在的意味構造を
抽出するものである。得られた特徴量の空間において、
互いに関連した文書や単語は近接するように構成され
る。「Behavior Research Methods, Instruments, & Co
mputers」（１９９１年発行）の第２３巻第２号第２２
９項から第２３６項までに掲載された論文では、ＬＳＡ
を使用した検索は、ベクトル空間法に比べ、３０％効率
が良いという結果を報告している。以下、ＬＳＡについ
て具体的に説明する。

【００１４】ＬＳＡでは、まずｔ×ｄの単語−文書行列
Ｘを以下のように特異値分解する。

【００１５】

【数３】Ｘ＝Ｔ₀Ｓ₀Ｄ₀′ 式（３）

【００１６】ここで、Ｔ₀はｔ×ｍの直交行列を表す。
Ｓ₀はｍ個の特異値を対角要素とし、かつ対角要素以外
はすべて０であるｍ×ｍの正方対角行列を表す。Ｄ′₀
はｍ×ｄの直交行列を表す。また、０≦ｄ≦ｔとし、Ｓ
₀の対角要素は値の大きい順に並んでいるものとする。

【００１７】更に、ＬＳＡでは文書Ｄ_qのｔ×１の特徴
量べクトルｘ_qに対して次のような変換を行い、ｎ×１
のＬＳＡ特徴量べクトルｙ_qを計算する。

【００１８】

【数４】ｙ_q＝Ｓ^-1Ｔ′ｘ_q 式（４）

【００１９】ここで、ＳはＳ₀の対角要素の１番目から
ｎ番目までをとったｎ×ｎの正方対角行列、ＴはＴ₀の
１列目からｎ列目まで抜き出したｔ×ｎの行列である。

【００２０】例として、図２の単語−文書行列に対して
特異値分解を行った結果を以下に示す。行列Ｔ₀、Ｓ₀、
Ｄ₀はそれぞれ以下のようになる。

【００２１】

【数５】

【００２２】

【数６】

【００２３】

【数７】

【００２４】ＬＳＡ特徴量べクトルの次元ｔを２とし、
図２の単語−文書行列の各特徴量べクトルに対して式
（４）を適用すると、文書１、２及び３のＬＳＡ特徴べ
クトルはそれぞれ［０．５０００，−０．７０７
１］′、［０．５０００，０．７０７１］′、［０．７
０７１，０．００００］′となる。また、図４の特徴べ
クトルに対して式（４）を適用すると、ユーザの質問の
ＬＳＡ特徴量べクトルは［０．６５４２，０］′とな
る。

【００２５】上記のように得られたＬＳＡ特徴量べクト
ルに対して式（２）を適用し、図３の質問と図１に示し
た各文書との類似度を求めると、図１における各文書と
図３質問の類似度は、それぞれ、ｓｉｍ（文書１，質
問）＝０．５７７４、ｓｉｍ（文書２，質問）＝０．５
７７４、ｓｉｍ（文書３，質問）＝１．００００とな
り、文書３が質問と一番類似するという結果が得られ
る。ネットワークを利用したヘルプシステムの応用など
を想定する場合、図３の質問をしたユーザに対しては文
書データベースに登録された文書３の回答文が返信され
ることになる。

【００２６】特異値分解法は、一般的にThe Johns Hopk
ins University Press社が１９９６年に出版した「Matr
ix Computations」の第４５５項から第４５７項までの
記載において提案されたアルゴリズムがよく用いられ
る。前記の「Journal of the American Society for In
formation Science」の論文によると、正方行列Ｓの行
数（または列数）ｎの値は５０〜１５０程度にすると良
いとの記載がある。また、前記の「Behavior Research
Methods, Instruments, & Computers」の論文におい
て、ＬＳＡを行う前に特徴べクトルの各要素を単に０ま
たは１の値をとると定義せずに、上記の出現頻度や文書
頻度を用いて前処理するとより効果的であるという結果
が報告されている。

【００２７】

【発明が解決しようとする課題】しかし、上述の文献に
提案されている特異値分解法のアルゴリズムでは、与え
られた単語−文書行列から特徴量の空間を張る基底べク
トルを計算する過程において行列のバイダイアゴナリゼ
ーション（bidiagonalization）のためにｔ×ｔの行列
を利用するので、最低でも索引語数ｔの二乗ｔ²のオー
ダーのメモリ空間を必要とする。従って、従来の技術
は、膨大な単語数又はデータ数を抱える文書データベー
スには適用できず、またデータ数の大小に関係なく行列
の複雑な演算が必要であるという問題点があった。

【００２８】本発明はこのような問題点に鑑みてなされ
たものであり、その目的とするところは、演算処理の容
易化および当該演算処理に必要なメモリ容量の低減を図
り、効率的に特徴量を抽出するテキストマイニングにお
ける文書の特徴量抽方法及びその装置を提供することに
ある。

【００２９】

【課題を解決するための手段】本発明は、このような目
的を達成するため、請求項１に記載の発明は、文書の内
容を代表する索引語に対応するベクトルからなる単語−
文書行列を用いて前記文書の特徴量を抽出するテキスト
マイニングにおける文書の特徴量抽出方法であって、前
記単語―文書行列の各要素には前記索引語に対する寄与
分が作用し、コストを最小化する最急降下法に基いて互
いに関連した文書および単語が近接する前記特徴量の空
間を張る基底べクトルを計算する基底ベクトル計算ステ
ップと、前記単語−文書行列及び前記基底べクトルを用
いて前記特徴量を正規化するためのパラメータを計算
し、該パラメータに基き前記特徴量を抽出する特徴量抽
出ステップと、前記単語−文書行列を更新して前記基底
べクトルを適用しない前記単語−文書行列と適用した前
記単語−文書行列との差分にする単語―文書行列更新ス
テップとを備え、前記単語−文書行列ＸをＸ＝［ｘ ₁ ，
ｘ ₂ ，…，ｘ _d ］、ここでｘ _j ＝［ｘ _j1 ，ｘ _j2 ，…，
ｘ _jt ］′、Ｅ＝［ｅ ₁ ，ｅ ₂ ，…，ｅ _d ］、ｅ _j ＝［ｅ _j1 ，
ｅ _j2 ，…，ｅ _jt ］′＝［ｘ _j1 ，ｘ _j2 ，…，ｘ _jt ］′、前
記単語−行列更新ステップにおけるＥのｉ番目の処理結
果Ｅ（ｉ）を

【数９】ここで、Ｅ（ｉ）＝［ｅ ₁ （ｉ），ｅ ₂ （ｉ），…，ｅ _d
（ｉ）］、Ｅ（ｉ）の各要素ｅ _j （ｉ）をｅ _j （ｉ）＝
［ｅ _j1 （ｉ），ｅ _j2 （ｉ），…，ｅ _jt （ｉ）］′、前記
基底ベクトル計算ステップにおけるｋ回目の繰り返しで
のｗ _i の値をｗ _i （ｋ）＝［ｗ _i1 （ｋ），ｗ _i2 （ｋ），
…，ｗ _it （ｋ）］′、ベクトル

【数１０】のｍ番目の要素を

【数１１】と定義した場合、前記基底ベクトル計算ステップは、前
記コストに

【数１２】を使用して前記基底ベクトルを計算することを特徴とす
る。

【００３０】

【００３１】また、請求項２に記載の発明は、請求項１
に記載のテキストマイニングにおける文書の特徴量抽出
方法において、前記基底ベクトル計算ステップは、前記
基底べクトルの値を初期化する初期化ステップと、前記
基底べクトルの値を更新する基底ベクトル更新ステップ
と、前記基底べクトルの値の変化度合いを求める変化度
合い計算ステップと、前記基底べクトルの値の変化度合
いを用いて繰り返し処理を終了するかどうかを判別する
判別ステップと、前記繰り返し処理の回数を数える計数
ステップとを備えたことを特徴とする。

【００３２】また、請求項３に記載の発明は、請求項２
に記載のテキストマイニングにおける文書の特徴量抽出
方法において、前記基底ベクトル更新ステップは、前記
基底ベクトルの現在値と、前記単語−文書行列と、前記
基底べクトルの更新度合いを制御する更新率とを用いて
前記基底べクトルを更新することを特徴とする。

【００３３】また、請求項４に記載の発明は、請求項１
〜３のいずれか１項に記載のテキストマイニングにおけ
る文書の特徴量抽出方法において、前記特徴量の抽出に
必要とされる全ての前記基底べクトル及び前記正規化パ
ラメータを既に取得している場合は、前記基底べクトル
計算ステップ及び前記特徴量抽出ステップにおける前記
正規化パラメータの計算を省略し、前記特徴量抽出ステ
ップは、既に取得している前記基底べクトル及び前記正
規化パラメータを用いて前記特徴量を抽出することを特
徴とする。

【００３４】また、請求項５に記載の発明は、文書の内
容を代表する索引語に対応するベクトルからなる単語−
文書行列を用いて前記文書の特徴量を抽出するテキスト
マイニングにおける文書の特徴量抽出装置であって、前
記単語―文書行列の各要素には前記索引語に対する寄与
分が作用し、コストを最小化する最急降下法に基いて互
いに関連した文書および単語が近接する前記特徴量の空
間を張る基底べクトルを計算する基底ベクトル計算手段
と、前記単語−文書行列及び前記基底べクトルを用いて
前記特徴量を正規化するためのパラメータを計算し、該
パラメータに基き前記特徴量を抽出する特徴量抽出手段
と、前記単語−文書行列を更新して前記基底べクトルを
適用しない前記単語−文書行列と適用した前記単語−文
書行列との差分にする単語―文書行列更新手段とを備
え、前記単語−文書行列ＸをＸ＝［ｘ ₁ ，ｘ ₂ ，…，
ｘ _d ］、ここでｘ _j ＝［ｘ _j1 ，ｘ _j2 ，…，ｘ _jt ］′、Ｅ＝
［ｅ ₁ ，ｅ ₂ ，…，ｅ _d ］、ｅ _j ＝［ｅ _j1 ，ｅ _j2 ，…，
ｅ _jt ］′＝［ｘ _j1 ，ｘ _j2 ，…，ｘ _jt ］′、前記単語−文
書行列更新手段によるＥのｉ番目の処理結果Ｅ（ｉ）を

【数１３】ここで、Ｅ（ｉ）＝［ｅ ₁ （ｉ），ｅ ₂ （ｉ），…，ｅ _d
（ｉ）］、Ｅ（ｉ）の各要素ｅ _j （ｉ）をｅ _j （ｉ）＝
［ｅ _j1 （ｉ），ｅ _j2 （ｉ），…，ｅ _jt （ｉ）］′、前記
基底ベクトル計算手段によるｋ回目の繰り返しでのｗ _i
の値をｗ _i （ｋ）＝［ｗ _i1 （ｋ），ｗ _i2 （ｋ），…，ｗ
_it （ｋ）］′、ベクトル

【数１４】のｍ番目の要素を

【数１５】と定義した場合、前記基底ベクトル計算手段は、前記コ
ストに

【数１６】を使用して前記基底ベクトルを計算することを特徴とす
る。

【００３５】

【００３６】また、請求項６に記載の発明は、請求項５
に記載のテキストマイニングにおける文書の特徴量抽出
装置において、前記基底ベクトル計算手段は、前記基底
べクトルの値を初期化する初期化手段と、前記基底べク
トルの値を更新する基底ベクトル更新手段と、前記基底
べクトルの値の変化度合いを求める変化度合い計算手段
と、前記基底べクトルの値の変化度合いを用いて繰り返
し処理を終了するかどうかを判別する判別手段と、前記
繰り返し処理の回数を数える計数手段とを備えたことを
特徴とする。

【００３７】また、請求項７に記載の発明は、請求項６
に記載のテキストマイニングにおける文書の特徴量抽出
装置において、前記基底ベクトル更新手段は、前記基底
ベクトルの現在値と、前記単語−文書行列と、前記基底
べクトルの更新度合いを制御する更新率とを用いて前記
基底べクトルを更新することを特徴とする。

【００３８】また、請求項８に記載の発明は、請求項５
〜７のいずれか１項に記載のテキストマイニングにおけ
る文書の特徴量抽出装置において、前記特徴量の抽出に
必要とされる全ての前記基底べクトル及び前記正規化パ
ラメータを既に取得している場合は、前記基底べクトル
計算手段及び前記特徴量抽出手段における前記正規化パ
ラメータの計算を省略し、前記特徴量抽出手段は、既に
取得している前記基底べクトル及び前記正規化パラメー
タを用いて前記特徴量を抽出することを特徴とする。

【００３９】

【００４０】本明細書によって開示される特徴量抽出装
置は、以下の手段によって構成される。即ち、元の単語
−文書行列と基底べクトルを適用した単語−文書行列と
の差分の二次関数をコストとして定義し、そのコストに
対して最急降下法を適用して基底べクトルを計算する基
底べクトル計算手段と、単語−文書行列及び基底べクト
ルを用いて、特徴量を正規化するためのパラメータを計
算し、各文書に対して特徴量を抽出する特徴量抽出手段
と、特徴量抽出手段の実行間で重複した特徴量を抽出し
ないように上記の差分で単語−文書行列を更新する単語
−文書行列更新手段と、上記各手段の実行を制御する特
徴量抽出制御手段とを備えていれば足りる。

【００４１】基底べクトル計算手段は、入力された単語
−文書行列を基に計算を繰り返し、最終的に１つの基底
べクトルを算出する。繰り返しの処理は、各繰り返し処
理間で基底べクトルの変化度合いが所定の基準値以下に
なったときに終了する。特徴量抽出手段は、入力された
基底べクトル及び単語−文書行列を基に、特徴量を正規
化するためのパラメータを計算し、各文書に対して１つ
の特徴量を抽出する。単語−文書行列更新手段は、入力
された基底べクトルを基に、単語−文書行列を更新す
る。

【００４２】特徴量抽出制御手段は、基底べクトル計算
手段、特徴量抽出手段、及び単語−文書行列更新手段を
制御し、ユーザーにより定義された特徴量の数を満たす
まで、各手段の実行を繰り返す。但し、基底べクトル及
び正規化パラメータが既に計算されている場合には、基
底べクトル計算手段の実行及び特徴量抽出手段における
正規化パラメータの計算を省略される。そして、既に取
得している基底べクトル及び正規化パラメータを組み込
んだ構成で特徴量抽出を行うことになる。

【００４３】

【発明の実施の形態】図５は、本発明に係る特徴量抽出
装置の一実施例を示す図である。図５に示すように、特
徴量抽出制御手段２００は、単語−文書行列更新手段２
１０と、基底べクトル計算手段２２０と、特徴量抽出手
段２３０とを備える。１００は単語−文書行列データフ
ァイル、３００は基底べクトルデータファイル、４００
は特徴量データファイル、４５０は正規化パラメータデ
ータファイルである。単語−文書行列データファイル１
００には、収集された文書データの単語−文書行列が記
憶されている。単語−文書行列更新手段２１０は第１回
目の繰り返し処理で単語−文書行列データファイル１０
０から単語−文書行列を読み込み、その単語−文書行列
を更新せずに基底べクトル計算手段２２０及び特徴量抽
出手段２３０に渡す。

【００４４】第２回目の繰り返し処理以降では、基底べ
クトル計算手段２２０から渡された基底べクトルを基に
単語−文書行列を更新し、その結果を基底べクトル計算
手段２２０及び特徴量抽出手段２３０に渡す。基底べク
トル計算手段２２０は、単語−文書行列更新手段２１０
から渡された単語−文書行列を基に繰り返し処理により
１つの基底べクトルを計算する。そして、各繰り返し処
理で基底べクトルの変化度合いを監視し、変化度合いが
所定の基準値以下になったときに繰り返しの処理を終了
する。基底ベクトル計算手段２２０は、計算した基底べ
クトルを基底べクトルデータファイル３００に格納する
と同時に、単語−文書行列更新手段２１０及び特徴量抽
出手段２３０に渡す。特徴量抽出手段２３０は単語−文
書行列更新手段２１０から渡された単語−文書行列及び
基底べクトル計算手段２２０から渡された基底べクトル
を基に各文書に対して１つの特徴量を抽出する。その結
果を特徴量データファイル４００に格納すると同時に、
それらの特徴量を正規化するためのパラメータを正規化
パラメータデータファイル４５０に記録する。

【００４５】単語―文書行列更新手段２１０，基底ベク
トル計算手段２２０及び特徴量抽出手段２３０による、
上述の実行を１回の繰り返しとする。繰り返し処理の回
数を添字ｉで、ユーザーが指定した特徴量の数を添字ｎ
で示す。特徴量抽出制御手段２００では、ｉ＝ｎの条件
を満たすまで、処理を一単位ずつ繰り返す。また、必要
とされる全ての基底べクトル及び正規化パラメータを既
に取得しており、これらの値が既知の場合は、基底べク
トル計算手段２２０の実行及び特徴量抽出手段２３０に
おける正規化パラメータの計算を省略し、既知の基底べ
クトル及び正規化パラメータを組み込んだ単語―文書行
列更新手段２１０及び特徴量抽出手段２３０のみで特徴
量抽出制御手段２００を構成する。

【００４６】図６は、本発明を実施するハードウェア構
成の一例を示す図である。図６に示すように、特徴量抽
出装置は、装置全体の制御を行う中央処理装置（Centra
l Processor Unit; ＣＰＵ）１０と、プログラムが格納
され又はプログラムの実行に必要な一時データ格納領域
を提供するメモリ２０と、データを入力するためのキー
ボード３０と、表示画面を生成するディスプレイ４０と
を備える。単語−文書行列データファイル１００、基底
べクトルデータファイル３００、特徴量データファイル
４００、正規化パラメータデータファイル４５０及び特
徴量抽出制御手段２００によって実行されるプログラム
はメモリ２０に格納されている。

【００４７】このような構成をとることにより、キーボ
ード３０又はディスプレイ４０上の所定の位置指定する
マウス等によりユーザーの指示を受けたＣＰＵ１０によ
って特徴量抽出が行われることとなる。なお、図５に示
す例では、特徴量抽出制御手段２００はスタンドアロン
の構成としているが、他のシステムに組み込んだ構成と
することも可能であることは言うまでもない。

【００４８】図７は、単語−文書行列データファイルの
構成図である。図７において、１０１−１，１０１−
２，…，１０１−ｄはｄ個からなるｔ次元の単語−文書
データに対応する。ここで、Ｘ＝［ｘ₁，ｘ₂，…，
ｘ_d］、ｘ_j＝［ｘ_j1，ｘ_j2，…，ｘ _jt］′を定義し、単
語―文書データ１０１をｔ×ｄの行列Ｘで示す。

【００４９】図８は、計算された基底ベクトルが格納さ
れた基底べクトルデータファイルの構成図である。図８
において、３０１−１，３０１−２，…，３０１−ｎは
ｎ個からなるｔ次元の基底べクトルデータに対応する。
ｉ番目の要素３０１−ｉは、図５におけるｉ回目の繰り
返し処理における基底べクトル計算手段２２０の出力値
に対応する。以下の説明では、この要素をｔ×１の列べ
クトルｗ_i＝［ｗ_i1，ｗ_i2，…，ｗ_it］′で示す。

【００５０】図９は、特徴量データファイルの構成図で
ある。図９において、４０１−１，４０１−２，…，４
０１−ｎはｎ個からなるｄ次元の特徴量データに対応す
る。ｉ番目の要素４０１−ｉは図５におけるｉ回目の繰
り返し処理における特徴量抽出手段２３０による特徴量
の出力値に対応する。この要素を１×ｄの行べクトルｙ
_i＝［ｙ_i1，ｙ_i2，…，ｙ_id］で示す。

【００５１】図１０は、正規化パラメータデータファイ
ルの構成図である。図１０において、４５１−１，４５
２−２，…，４５１−ｎはｎ個からなる正規化パラメー
タデータに対応する。ｉ番目の要素４５１−ｉは図５に
おけるｉ回目の繰り返し処理での特徴量抽出手段２３０
による正規化パラメータの出力値に対応する。この要素
をｐ_iで示す。

【００５２】以上の諸定義を使用し、本実施形態に係る
特徴量抽出の実現方式を詳細に説明する。単語―文書行
列更新手段２１０では、ｉ＝１の場合、即ち繰り返し処
理の１回目の実行に限り、Ｘを単語―文書行列データフ
ァイル１００から読み込み、何ら演算を行うことなくｔ
×ｄの行列Ｅに格納する。従って、Ｅ＝［ｅ₁，ｅ₂，
…，ｅ_d］、ｅ_j＝［ｅ_j1，ｅ_j2，…，ｅ_jt］′＝
［ｘ_j1，ｘ_j2，…，ｘ_jt］′となる。前の繰り返し処理
で抽出された特徴量が重複して抽出されないために、図
５におけるｉ回目の繰り返しで下のようにＥをその現在
値及び１つ前の繰り返し処理において計算された基底べ
クトルを用いて更新し、その結果を基底ベクトル計算手
段２２０に渡す。この処理によって格納される、Ｅのｉ
番目の処理結果Ｅ（ｉ）は、式（５）のように表され
る。

【００５３】

【数８】

【００５４】ここで、Ｅ（ｉ）＝［ｅ₁（ｉ），ｅ
₂（ｉ），…，ｅ_d（ｉ）］であり、Ｅ（ｉ）の各要素ｅ
_j（ｉ）はｅ_j（ｉ）＝［ｅ_j1（ｉ），ｅ_j2（ｉ），…，
ｅ_jt（ｉ）］′で定義される。即ち、ｉ≧２の場合は、
単語−文書行列は基底べクトルを適用しない単語−文書
行列から基底べクトルを適用した単語−文書行列を引い
た差分に更新される。

【００５５】図１１は、基底ベクトル計算手段における
基底べクトルの計算の流れ図である。図１１におけるｋ
回目の繰り返しでのｗ_iの値をｗ_i（ｋ）＝［ｗ
_i1（ｋ），ｗ _i2（ｋ），…，ｗ_it（ｋ）］′で示す。先
ず、ステップＳ５００にて添字ｋを１で初期化する。続
いてステップＳ５１０へ移行し、ｗ_i（１）の各要素を
−ＣからＣまでの間の任意の値で初期化する。ここで、
Ｃの値は正の小さい数であり、例えばＣ＝０．０１とし
てもよい。ステップＳ５２０では、互いに関連した文書
や単語が近接する特徴量の空間を張る基底べクトルを計
算するため、式（６）に示す二次コストを設ける。

【００５６】

【数９】

【００５７】ここで、「単語が近接する」とは、特徴量
の空間の中で複数の単語の位置が近接することを言い、
「文書が近接する」とは、複数の文書の各々に含まれる
単語の位置が特徴量の空間の中で近接することを言う。
また、コストとは最小化したい対象を言い、本実施形態
で定義されるコストは式（６）のように基底ベクトルを
適用しない単語−文書行列と基底べクトルを適用した単
語−文書行列との差分の二次関数として定義される。こ
こで、

【００５８】

【外１】

【００５９】は次のように定義される１×ｄのべクトル

【００６０】

【外２】

【００６１】のｍ番目の要素である。

【００６２】

【数１０】

【００６３】上記のコストに対して最急降下法を適用し
てｗ_iの値を式（８）のように更新する。

【００６４】

【数１１】

【００６５】ここで、μ_i（ｋ）はｋ回目の繰り返しで
の更新の度合いを制御する更新率で、ｋが１のときに正
の小さい数で初期化し、例えばμ_i（１）＝０．１とし
てもよい。ｋが加算される度に徐々に値を減少させ、あ
るいはｋの値によらず一定値とすることも可能である。
また、ｚ_i（ｋ）は次のように定義される。

【００６６】

【数１２】

【００６７】ステップＳ５３０では次のようにｗ_iの変
化度合いを示すδ_iを求める。

【００６８】

【数１３】

【００６９】ステップＳ５４０ではδ_i（ｋ）の値を基
に処理を終了するかどうかを判別する。判別の結果、終
了すると判断した場合はステップＳ５６０へ進み、そう
でない場合はステップＳ５５０へ進む。ここで、図１１
におけるβ_iは正の小さい数であり、例えばβ_i＝１×１
０^-6とすることができる。

【００７０】ステップＳ５５０ではカウンタｋの値を１
つ増やし、ステップＳ５２０に戻る。ステップＳ５６０
ではｗ_iを基底ベクトルデータファイル３００にｉ番目
のデータとして格納すると同時に、単語―文書行列更新
手段２１０及び特徴量抽出手段２３０に渡す。特徴量抽
出手段２３０では次のように特徴量ｙ_i及び正規化パラ
メータｐ_iを計算して、その結果それぞれを特徴量デー
タファイル４００及び正規化パラメータデータファイル
４５０にｉ番目のデータとして格納する。

【００７１】

【数１４】

【００７２】ここで、ｐ_iは次のように定義される。

【００７３】

【数１５】

【００７４】図１２は、本実施形態に係る特徴量抽出装
置を用いた文書自動分類装置の一例を示す図である。図
１２において、６０１は単語−文書行列計算手段、６０
２は分類手段である。分類手段６０２は、１９９３年に
発行された「Journal of Intelligent and Fuzzy Syste
ms」の第１巻第１号第１項から第２５項で述べられてい
る方法により行うことができる。

【００７５】文書データベースに格納されている文書デ
ータは、文書自動分類装置に取り込まれる。文書自動分
類装置では、単語−文書行列計算手段６０１で単語−文
書行列の計算を行い、その結果を特徴量抽出制御手段２
００に渡す。特徴量抽出制御手段２００は受け取った単
語−文書行列から特徴量を抽出し、その結果を分類手段
６０２に出力する。分類手段６０２では、入力された特
徴量を基に分類の結果が出力される。

【００７６】本発明の評価を、図１の文書や図３の質問
のような文書データを含んだ、入試制度に関する実際の
文書データにより特徴量抽出の評価を行った。本発明
は、従来のＬＳＡを使用した場合と同じ性質の特徴量を
抽出することが確認できた。

【００７７】次に、使用されるメモリ空間のサイズに関
して、単語数ｔが文書数ｄよりかなり大きい（ｔ≫ｄ）
といった実際の場合において、従来のＬＳＡが少なくと
も、ｔ²のオーダーを必要するのに対して、本発明は各
々基底べクトルの計算のために高々ｔ・ｄのオーダーの
メモリサイズで足りる。また、従来の技術を実現するに
は、複雑な行列演算装置が必要であるが、本方式は四則
演算程度を行う装置があれば容易に実現することができ
る。即ち、本発明によれば、ＬＳＡによる特徴量抽出と
同等の効果を、より小さいメモリ空間、より簡単なプロ
グラムにより得ることができる。また、この簡単なプロ
グラムはＤＳＰ（Digital Signal Processor）におとす
ことができるため、特徴量抽出専用のチップを簡単に作
成することが出来る。

【００７８】以下、図１の文書及び図３の質問に対して
本実施形態に係る特徴量抽出装置を実行した各手段の結
果を示す。

【００７９】Ａ．図１の文書まず、図２の単語−文書行列をＸとする。

【００８０】Ｉ．特徴量抽出制御手段２００における第
１回目の繰り返し（ｉ＝１）単語−文書行列更新手段２１０では式（５）より

【００８１】

【数１６】

【００８２】を基底べクトル計算手段２２０及び特徴量
抽出手段２３０へ出力する。

【００８３】基底べクトル計算手段２２０では、ｗ
₁（１）を［0.0100，−0.0100，0.0100，−0.0100，0.0100，−0.
0100，0.0100，−0.0100，0.0100，−0.0100，0.010
0］′ で、μ₁を固定の値０．１で、β₁を１×１０^-6で初期化
し、以下のように図１１の計算を１３２回繰り返した
後、基底べクトルｗ₁＝［0.1787，0.1787，0.1787，0.4
314，0.4314，0.1787，0.1787，0.4314，0.4314，0.178
7，0.2527］′ を基底べクトルデータファイル３００に格納すると共
に、特徴量抽出手段２３０、及び単語−文書行列更新手
段２１０へ出力する。

【００８４】＊基底ベクトル計算手段２２０における第
１回目の繰り返し（ｋ＝１）式（８）より、ｗ₁（２）＝［0.0103，−0.0097，0.0103，−0.0093，
0.0107，−0.0103，0.0097，−0.0100，0.0100，−0.01
03，0.0103］′ ｗ₁（２）−ｗ₁（１）＝１０^-3×［0.3332，0.3334，0.
3332，0.6668，0.6666，−0.3332，−0.3334，0.0001，
−0.0001，−0.3332，0.3332］′ δ₁（１）＝0.0013 ＊基底ベクトル計算手段２２０における第２回目の繰り
返し（ｋ＝２）式（８）より、ｗ₁（３）＝［0.0107，−0.0093，0.0107，−0.0085，
0.0115，−0.0107，0.0093，−0.0100，0.0100，−0.01
07，0.0107］′ ｗ₁（３）−ｗ₁（２）＝１０^-3×［0.4110，0.4112，0.
4110，0.8001，0.7998，−0.3665，−0.3668，0.0224，
0.0221，−0.3665，0.3887］′ δ₁（２）＝0.0015 中略＊基底ベクトル計算手段２２０における第１３２回目の
繰り返し（ｋ＝１３２）式（８）より、ｗ₁（１３３）＝［0.1787，0.1787，0.1787，0.4314，
0.4314，0.1787，0.1787，0.4314，0.4314，0.1787，0.
2527］′ ｗ₁（１３３）−ｗ₁（１３２）＝１０^-6×［−0.3020，
−0.3020，−0.3020，−0.3020，−0.3020，0.3020，0.
3020，0.3020，0.3020，0.3020，0.0000］′ δ₁（１３２）＝9.5500×１０^-7 特徴量抽出手段２３０では式（１１）及び式（１２）の
演算を行い、ｙ₁＝［0.5000，0.5000，0.7071］及びｐ₁＝2.7979 をそれぞれ特徴量データファイル４００及び正規化パラ
メータデータファイル４５０へ出力する。

【００８５】ＩＩ．特徴量抽出制御手段２００における
第２回目の繰り返し（ｉ＝２）単語−文書行列更新手段２１０では式（５）より

【００８６】

【数１７】

【００８７】を基底ベクトル計算手段２２０及び特徴量
抽出手段２３０へ出力する。

【００８８】基底ベクトル計算手段２２０では、ｗ
₂（１）を［0.0100，−0.0100，0.0100，−0.0100，0.0100，−0.
0100，0.0100，−0.0100，0.0100，−0.0100，0.010
0］′ で、μ₂を固定の値０．１で、β₂を１×１０^-6で初期化
し、図１１の計算を１１９回繰り返した後、基底ベクト
ルｗ₂＝［0.3162，0.3162，0.3162，0.3162，0.3162，
−0.3162，−0.3162，−0.3162，−0.3162，−0.3162，
0.0000］′ を基底ベクトルデータファイル３００に格納すると共
に、特徴量抽出手段２３０、及び単語−文書行列更新手
段２１０へ出力する。

【００８９】＊基底ベクトル計算手段２２０における第
１回目の繰り返し（ｋ＝１）式（８）より、ｗ₂（２）＝［0.0102，−0.0098，0.0102，−0.0096，
0.0104，−0.0105，0.0095，−0.0103，0.0097，−0.01
05，0.0102］′ ｗ₂（２）−ｗ₂（１）＝１０^-3×［0.2154，0.2156，0.
2154，0.3822，0.3821，−0.4511，−0.4513，−0.284
4，−0.2846，−0.4511，0.1666］′ δ₂（１）＝0.0011 ＊基底ベクトル計算手段２２０における第２回目の繰り
返し（ｋ＝２）式（８）より、ｗ₂（３）＝［0.0105，−0.0095，0.0105，−0.0092，
0.0108，−0.0110，0.0090，−0.0106，0.0094，−0.01
10，0.0103］′ ｗ₂（３）−ｗ₂（２）＝１０^-3×［0.2624，0.2626，0.
2624，0.4413，0.4411，−0.5152，−0.5154，−0.336
4，−0.3366，−0.5152，0.1786］′ δ₂（２）＝0.0013 中略＊基底ベクトル計算手段２２０における第１１９回目の
繰り返し（ｋ＝１１９）式（８）より、ｗ₂（１２０）＝［0.3162，0.3162，0.3162，0.3162，
0.3162，−0.3162，−0.3162，−0.3162，−0.3162，0.
0000］′ ｗ₂（１２０）−ｗ₂（１１９）＝１０^-6×［0.3327，0.
3333，0.3327，−0.1375，−0.1381，0.3332，0.3326，
−0.1377，−0.1383，0.3332，−0.4712］′ δ₂（１１９）＝9.8141×１０^-7 −特徴量抽出手段２３０では式（１１）及び式（１２）
の演算を行い、ｙ₂＝［0.7071，−0.7071，−0.0000］及びｐ₂＝2.2361 をそれぞれ特徴量データファイル４００及び正規化パラ
メータデータファイル４５０へ出力する。

【００９０】上記の結果から図１における文書１，２，
３の特徴量ベクトルはそれぞれ［0.5000，0.7071］′、
［0.5000，−0.7071］′、［0.7071，−0.0000］′とな
る。これらは、従来例の説明において示された各文書の
ＬＳＡの特徴量と比較すると、第二番目の要素の符号が
逆になっているが同一の絶対値をとる。従って、式
（２）の類似度の計算に関してＬＳＡの特徴量と同じ性
質を持つ。

【００９１】Ｂ．図３の質問ここでは、図１の文書の特徴量抽出の際に基底ベクトル
データファイル３００に格納された基底ベクトル及び正
規化パラメータデータファイル４５０に格納された正規
化パラメータを用いるので、基底ベクトル計算手段２２
０の実行及び特徴量抽出手段における正規化パラメータ
の計算を省略する。図３の質問をＸとする。

【００９２】Ｉ．特徴量抽出手段２００における第１回
目の繰り返し（ｉ＝１）単語−文書行列更新手段２１０では、式（５）より

【００９３】

【数１８】

【００９４】を特徴量抽出手段２３０へ出力する。

【００９５】特徴量抽出手段２３０では、図１の文書の
特徴量抽出の際に得られた特徴量ベクトルｗ₁及び正規
化パラメータｐ₁を用いて式（１１）及び式（１２）の
演算を行いｙ₁＝［0.6542］を特徴量データファイル４００へ出力する。

【００９６】ＩＩ．特徴量抽出制御手段２００における
第２回目の繰り返し（ｉ＝２）単語−文書行列更新手段２１０では、図１に示す文書の
特徴量抽出を行う際に得られた特徴量ベクトルｗ₁を用
いて、式（５）より

【００９７】

【数１９】

【００９８】を特徴量抽出手段２３０へ出力する。

【００９９】特徴量抽出手段２３０では図１の文書の特
徴量抽出の際に得られた特徴量ベクトルｗ₂及び正規化
パラメータｐ₂を用いて、式（１１）及び式（１２）の
演算を行い、ｙ₂＝［−0.0000］を特徴量データファイル４００へ出力する。

【０１００】上記の結果から図３の質問の特徴量ベクト
ルは［0.6542，−0.0000］′となり、従来例の説明で示
した値と比較すると２番目の要素は同一の絶対値をと
る。

【０１０１】

【発明の効果】以上説明したように、本発明によれば、
文書の内容を代表する索引語に対応するベクトルからな
る単語−文書行列を用いて前記文書の特徴量を抽出する
テキストマイニングにおける文書の特徴量抽出方法であ
って、前記単語―文書行列の各要素には前記索引語に対
する寄与分が作用し、コストを最小化する最急降下法に
基いて互いに関連した文書および単語が近接する前記特
徴量の空間を張る基底べクトルを計算する基底ベクトル
計算ステップと、前記単語−文書行列及び前記基底べク
トルを用いて前記特徴量を正規化するためのパラメータ
を計算し、該パラメータに基き前記特徴量を抽出する特
徴量抽出ステップと、前記単語−文書行列を更新して前
記基底べクトルを適用しない前記単語−文書行列と適用
した前記単語−文書行列との差分にする単語―文書行列
更新ステップとを備え、前記単語−文書行列ＸをＸ＝
［ｘ ₁ ，ｘ ₂ ，…，ｘ _d ］、ここでｘ _j ＝［ｘ _j1 ，ｘ _j2 ，
…，ｘ _jt ］′、Ｅ＝［ｅ ₁ ，ｅ ₂ ，…，ｅ _d ］、ｅ _j ＝［ｅ
_j1 ，ｅ _j2 ，…，ｅ _jt ］′＝［ｘ _j1 ，ｘ _j2 ，…，
ｘ _jt ］′、前記単語−行列更新ステップにおけるＥのｉ
番目の処理結果Ｅ（ｉ）を

【数１７】ここで、Ｅ（ｉ）＝［ｅ ₁ （ｉ），ｅ ₂ （ｉ），…，ｅ _d
（ｉ）］、Ｅ（ｉ）の各要素ｅ _j （ｉ）をｅ _j （ｉ）＝
［ｅ _j1 （ｉ），ｅ _j2 （ｉ），…，ｅ _jt （ｉ）］′、前記
基底ベクトル計算ステップにおけるｋ回目の繰り返しで
のｗ _i の値をｗ _i （ｋ）＝［ｗ _i1 （ｋ），ｗ _i2 （ｋ），
…，ｗ _it （ｋ）］′、ベクトル

【数１８】のｍ番目の要素を

【数１９】と定義した場合、前記基底ベクトル計算ステップは、前
記コストに

【数２０】を使用して前記基底ベクトルを計算するので、テキスト
マイニングにおける文書の特徴量抽出に関し、ＬＳＡを
実行可能な装置よりも小さいメモリ空間でＬＳＡと同じ
性質を持つ特徴量を抽出することができる。また、ＬＳ
Ａと同じ性質を持つ特徴量を抽出するための専用ソフト
ウェアやハードウェアを容易に作成することが可能とな
る。

【図面の簡単な説明】

【図１】文書データベースに登録された文書の一例を示
す図である。

【図２】図１に示された文書に出現する漢字の単語を索
引語とした単語−文書行列の一例を示す図である。

【図３】ユーザから実際に入力される質問の一例を示す
図である。

【図４】図３から得られた単語−文書行列を示す図であ
る。

【図５】本発明に係る特徴量抽出装置の一実施例を示す
図である。

【図６】本発明を実施するハードウェア構成の一例を示
す図である。

【図７】単語−文書行列データファイルの構成図であ
る。

【図８】計算された基底ベクトルが格納された基底べク
トルデータファイルの構成図である。

【図９】特徴量データファイルの構成図である。

【図１０】正規化パラメータデータファイルの構成図で
ある。

【図１１】基底ベクトル計算手段における基底べクトル
の計算の流れ図である。

【図１２】本発明の一実施形態に係る特徴量抽出装置を
用いた文書自動分類装置の一例を示す図である。

【符号の説明】

１０ＣＰＵ２０メモリ３０キーボード４０ディスプレイ１００単語―文書行列データファイル１０１−１、１０１−２、１０１−３、１０１−ｄ単
語−文書データ２００特徴量抽出制御手段２１０単語―文書行列更新手段２２０基底ベクトル計算手段２３０特徴量抽出手段３００基底ベクトルデータファイル３０１−１、３０１−２、３０１−３、３０１−ｎ基
底べクトルデータ４００特徴量データファイル４０１−１、４０１−２、４０１−３、４０１−ｎ特
徴量データ４５０正規化パラメータデータファイル４５１−１、４５１−２、４５１−３、４５１−ｎ正
規化パラメータデータ６０１単語―文書行列計算手段６０２分類手段

───────────────────────────────────────────────────── フロントページの続き (72)発明者吉岡倍達高知県南国市蛍が丘１−１−１株式会社エス・エス・アール内 (56)参考文献Ｋｏｌｄａ，Ｔ．Ｇ．ｅｔａｌ，ＡＳｅｍｉｄｉｓｃｒｅｔｅＭａｔｒｉｘＤｅｃｏｍｐｏｓｉｔｉｏｎｆｏｒＬａｔｅｎｔＳｅｍａｎｔｉｃＩｎｄｅｘｉｎｇｉｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ，ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ，米国，ＡＣＭＰｒｅｓｓ，1998年10月，Ｖｏｌ．16，Ｎｏ. ４，ｐｐ．322−346. (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 210 G06F 17/30 170 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】文書の内容を代表する索引語に対応する
ベクトルからなる単語−文書行列を用いて前記文書の特
徴量を抽出するテキストマイニングにおける文書の特徴
量抽出方法であって、前記単語―文書行列の各要素には
前記索引語に対する寄与分が作用し、コストを最小化す
る最急降下法に基いて互いに関連した文書および単語が
近接する前記特徴量の空間を張る基底べクトルを計算す
る基底ベクトル計算ステップと、前記単語−文書行列及
び前記基底べクトルを用いて前記特徴量を正規化するた
めのパラメータを計算し、該パラメータに基き前記特徴
量を抽出する特徴量抽出ステップと、前記単語−文書行
列を更新して前記基底べクトルを適用しない前記単語−
文書行列と適用した前記単語−文書行列との差分にする
単語―文書行列更新ステップとを備え、前記単語−文書
行列ＸをＸ＝［ｘ ₁ ，ｘ ₂ ，…，ｘ _d ］、ここでｘ _j ＝［ｘ
_j1 ，ｘ _j2 ，…，ｘ _jt ］′、Ｅ＝［ｅ ₁ ，ｅ ₂ ，…，
ｅ _d ］、ｅ _j ＝［ｅ _j1 ，ｅ _j2 ，…，ｅ _jt ］′＝［ｘ _j1 ，ｘ
_j2 ，…，ｘ _jt ］′、前記単語−行列更新ステップにおけ
るＥのｉ番目の処理結果Ｅ（ｉ）を【数１】ここで、Ｅ（ｉ）＝［ｅ ₁ （ｉ），ｅ ₂ （ｉ），…，ｅ _d
（ｉ）］、Ｅ（ｉ）の各要素ｅ _j （ｉ）をｅ _j （ｉ）＝
［ｅ _j1 （ｉ），ｅ _j2 （ｉ），…，ｅ _jt （ｉ）］′、前記
基底ベクトル計算ステップにおけるｋ回目の繰り返しで
のｗ _i の値をｗ _i （ｋ）＝［ｗ _i1 （ｋ），ｗ _i2 （ｋ），
…，ｗ _it （ｋ）］′、ベクトル【数２】のｍ番目の要素を【数３】と定義した場合、前記基底ベクトル計算ステップは、前
記コストに【数４】を使用して前記基底ベクトルを計算することを特徴とす
るテキストマイニングにおける文書の特徴量抽出方法。
【請求項２】前記基底ベクトル計算ステップは、前記
基底べクトルの値を初期化する初期化ステップと、前記
基底べクトルの値を更新する基底ベクトル更新ステップ
と、前記基底べクトルの値の変化度合いを求める変化度
合い計算ステップと、前記基底べクトルの値の変化度合
いを用いて繰り返し処理を終了するかどうかを判別する
判別ステップと、前記繰り返し処理の回数を数える計数
ステップとを備えたことを特徴とする請求項１に記載の
テキストマイニングにおける文書の特徴量抽出方法。
【請求項３】前記基底ベクトル更新ステップは、前記
基底ベクトルの現在値と、前記単語−文書行列と、前記
基底べクトルの更新度合いを制御する更新率とを用いて
前記基底べクトルを更新することを特徴とする請求項２
に記載のテキストマイニングにおける文書の特徴量抽出
方法。
【請求項４】前記特徴量の抽出に必要とされる全ての
前記基底べクトル及び前記正規化パラメータを既に取得
している場合は、前記基底べクトル計算ステップ及び前
記特徴量抽出ステップにおける前記正規化パラメータの
計算を省略し、前記特徴量抽出ステップは、既に取得し
ている前記基底べクトル及び前記正規化パラメータを用
いて前記特徴量を抽出することを特徴とする請求項１〜
３のいずれか１項に記載のテキストマイニングにおける
文書の特徴量抽出方法。
【請求項５】文書の内容を代表する索引語に対応する
ベクトルからなる単語−文書行列を用いて前記文書の特
徴量を抽出するテキストマイニングにおける文書の特徴
量抽出装置であって、前記単語―文書行列の各要素には
前記索引語に対する寄与分が作用し、コストを最小化す
る最急降下法に基いて互いに関連した文書および単語が
近接する前記特徴量の空間を張る基底べクトルを計算す
る基底ベクトル計算手段と、前記単語−文書行列及び前
記基底べクトルを用いて前記特徴量を正規化するための
パラメータを計算し、該パラメータに基き前記特徴量を
抽出する特徴量抽出手段と、前記単語−文書行列を更新
して前記基底べクトルを適用しない前記単語−文書行列
と適用した前記単語−文書行列との差分にする単語―文
書行列更新手段とを備え、前記単語−文書行列ＸをＸ＝
［ｘ ₁ ，ｘ ₂ ，…，ｘ _d ］、ここでｘ _j ＝［ｘ _j1 ，ｘ _j2 ，
…，ｘ _jt ］′、Ｅ＝［ｅ ₁ ，ｅ ₂ ，…，ｅ _d ］、ｅ _j ＝［ｅ
_j1 ，ｅ _j2 ，…，ｅ _jt ］′＝［ｘ _j1 ，ｘ _j2 ，…，
ｘ _jt ］′、前記単語−文書行列更新ステップにおけるＥ
のｉ番目の処理結果Ｅ（ｉ）を【数５】ここで、Ｅ（ｉ）＝［ｅ ₁ （ｉ），ｅ ₂ （ｉ），…，ｅ _d
（ｉ）］、Ｅ（ｉ）の各要素ｅ _j （ｉ）をｅ _j （ｉ）＝
［ｅ _j1 （ｉ），ｅ _j2 （ｉ），…，ｅ _jt （ｉ）］′、前記
基底ベクトル計算手段によるｋ回目の繰り返しでのｗ _i
の値をｗ _i （ｋ）＝［ｗ _i1 （ｋ），ｗ _i2 （ｋ），…，ｗ
_it （ｋ）］′、ベクトル【数６】のｍ番目の要素を【数７】と定義した場合、前記基底ベクトル計算手段は、前記コ
ストに【数８】を使用して前記基底ベクトルを計算することを特徴とす
るテキストマイニングにおける文書の特徴量抽出装置。
【請求項６】前記基底ベクトル計算手段は、前記基底
べクトルの値を初期化する初期化手段と、前記基底べク
トルの値を更新する基底ベクトル更新手段と、前記基底
べクトルの値の変化度合いを求める変化度合い計算手段
と、前記基底べクトルの値の変化度合いを用いて繰り返
し処理を終了するかどうかを判別する判別手段と、前記
繰り返し処理の回数を数える計数手段とを備えたことを
特徴とする請求項５に記載のテキストマイニングにおけ
る文書の特徴量抽出装置。
【請求項７】前記基底ベクトル更新手段は、前記基底
ベクトルの現在値と、前記単語−文書行列と、前記基底
べクトルの更新度合いを制御する更新率とを用いて前記
基底べクトルを更新することを特徴とする請求項６に記
載のテキストマイニングにおける文書の特徴量抽出装
置。
【請求項８】前記特徴量の抽出に必要とされる全ての
前記基底べクトル及び前記正規化パラメータを既に取得
している場合は、前記基底べクトル計算手段及び前記特
徴量抽出手段における前記正規化パラメータの計算を省
略し、前記特徴量抽出手段は、既に取得している前記基
底べクトル及び前記正規化パラメータを用いて前記特徴
量を抽出することを特徴とする請求項５〜７のいずれか
１項に記載のテキストマイニングにおける文書の特徴量
抽出装置。