JP3524846B2 - テキストマイニングにおける文書の特徴量抽出方法及びその装置 - Google Patents

テキストマイニングにおける文書の特徴量抽出方法及びその装置

Info

Publication number
JP3524846B2
JP3524846B2 JP2000197421A JP2000197421A JP3524846B2 JP 3524846 B2 JP3524846 B2 JP 3524846B2 JP 2000197421 A JP2000197421 A JP 2000197421A JP 2000197421 A JP2000197421 A JP 2000197421A JP 3524846 B2 JP3524846 B2 JP 3524846B2
Authority
JP
Japan
Prior art keywords
document
word
vector
basis vector
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000197421A
Other languages
English (en)
Other versions
JP2002014982A (ja
Inventor
ターウォンマット ラック
明雄 坂本
真司 溝渕
倍達 吉岡
Original Assignee
株式会社Ssr
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Ssr filed Critical 株式会社Ssr
Priority to JP2000197421A priority Critical patent/JP3524846B2/ja
Priority to DE10125011A priority patent/DE10125011A1/de
Priority to US09/871,272 priority patent/US6882747B2/en
Priority to CA002351211A priority patent/CA2351211C/en
Priority to GB0115357A priority patent/GB2369211B/en
Publication of JP2002014982A publication Critical patent/JP2002014982A/ja
Application granted granted Critical
Publication of JP3524846B2 publication Critical patent/JP3524846B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキストマイニン
グにおける文書の特徴量抽出方法及びその装置に関し、
より詳細には、特徴量を用いて文書および/またはウェ
ブ検索、関連語検索、文書分類等の応用としてテキスト
マイニングを行う場合に、特徴量の空間において互いに
関連した文書や単語が近接する特徴量を抽出するテキス
トマイニングにおける文書の特徴量抽出方法及びその装
置に関する。
【0002】
【従来の技術】文章データを種々の観点から分析し、所
望の知識や情報を取り出す技術であるテキストマイニン
グにおいて、文書の有効な特徴量抽出は文書および/ま
たはウェブ検索、関連語検索、文書分類などを効率よく
行うための重要な課題である。一般的な文書の特徴量抽
出方法としては、「Automatic Text Processing」(Add
ison-Wesley社、1989年出版)の第313項で述べ
られているべクトル空間法(vector-space model)がよ
く用いられている。
【0003】べクトル空間法では、文書の中で索引とし
て選ばれた単語、即ち文書の内容を代表する索引語がt
個ある場合、それぞれの索引語TiにべクトルViを対応
させ、t次元のべクトル空間を定義する。このように定
義されたベクトル空間を構成する全てのべクトルは、t
個の索引語に対応するt個のべクトルの線形結合として
表現できる。このべクトル空間において、文書Drを以
下のように表現する。
【0004】
【数1】
【0005】式(1)において、Viに作用するxir
文書Drにおける索引語Tiに対する寄与分であり、文書
rの特徴量を表す。特徴量とは、索引語の各文書にお
ける出現頻度を表す量である。t×1(t行1列)のべ
クトル[xr1,xr2,…,xrt]′は文書Drの特徴量
べクトルとなる。最も単純な場合としては、文書Dr
おいて索引語Tiが出現する場合には1とし、出現しな
い場合には0とする方法がとられる。より複雑な場合
は、上記の文献の第279項から第280項までで述べ
られているように、文書Drにおける索引語Tiの出現頻
度(term frequency)tfriや、文書データベースに登
録された全文書における索引語Tiを含む文書頻度dfi
がxirの計算に利用される。
【0006】また、d個の文書からなる文書の群に対し
ては、次のようなt×dの単語−文書行列Xが定義でき
る。
【0007】X=[x1,x2,…,xd] ここで、t次元のベクトルxj=[xj1,xj2,…,x
jt]′は文書Djの特徴量べクトルを表し、記号′は転
置を示す。
【0008】図1は、文書データベースに登録された文
書の一例を示す図である。また、図2は、図1に示され
た文書に出現する漢字の単語を索引語とした単語−文書
行列の一例を示す図である。図2において、文書1〜3
の全てに出現している文字列「について教えて下さい」
の中に含まれる「教」の文字は索引語の対象から外され
ている。図3は、ユーザから実際に入力される質問の一
例を示す図である。この質問を図2の索引語を用いて表
すと、図4に示す文書−単語行列で表現できる。
【0009】一般的に、べクトル空間法を用いた場合、
2つの文書DrとDsの類似度sim(Dr , Ds)は、以
下のようになる。
【0010】
【数2】
【0011】図3の質問の意味を基に、この質問と図1
の各文書との類似度を判断した場合、図3の質問は図1
の文書3に一番類似すると考えられる。しかし、図2及
び図4のような特徴量べクトルを用いると、図1におけ
る各文書と図3の質問の類似度は、それぞれ、sim
(文書1,質問)=0.5477、sim(文書2,質
問)=0.5477、sim(文書3,質問)=0.5
477となり、全ての文書に対して同じ類似度になって
しまう。
【0012】このような問題点を解決する手法として
「Journal of the American Societyfor Information S
cience」(1990年発行)の第41巻第6号第391
項から第407項までの記載において提案された、単語
の共起に基づいた分析方法 (Latent Semantic Analysi
s; LSA) は、文書のもつ潜在的意味を抽出でき、か
つ検索能率が圧倒的に優れている。ここにいう「単語の
共起」とは、同一の文書/文に複数の単語が同時に出現
することをいう。
【0013】LSAは、単語の共起の頻度を示す単語−
文書行列を特異値分解(Singular Value Decompositio
n; SVD)することにより、文書の潜在的意味構造を
抽出するものである。得られた特徴量の空間において、
互いに関連した文書や単語は近接するように構成され
る。「Behavior Research Methods, Instruments, & Co
mputers」(1991年発行)の第23巻第2号第22
9項から第236項までに掲載された論文では、LSA
を使用した検索は、ベクトル空間法に比べ、30%効率
が良いという結果を報告している。以下、LSAについ
て具体的に説明する。
【0014】LSAでは、まずt×dの単語−文書行列
Xを以下のように特異値分解する。
【0015】
【数3】 X=T000′ 式(3)
【0016】ここで、T0はt×mの直交行列を表す。
0はm個の特異値を対角要素とし、かつ対角要素以外
はすべて0であるm×mの正方対角行列を表す。D′0
はm×dの直交行列を表す。また、0≦d≦tとし、S
0の対角要素は値の大きい順に並んでいるものとする。
【0017】更に、LSAでは文書Dqのt×1の特徴
量べクトルxqに対して次のような変換を行い、n×1
のLSA特徴量べクトルyqを計算する。
【0018】
【数4】 yq=S-1T′xq 式(4)
【0019】ここで、SはS0の対角要素の1番目から
n番目までをとったn×nの正方対角行列、TはT0
1列目からn列目まで抜き出したt×nの行列である。
【0020】例として、図2の単語−文書行列に対して
特異値分解を行った結果を以下に示す。行列T0、S0
0はそれぞれ以下のようになる。
【0021】
【数5】
【0022】
【数6】
【0023】
【数7】
【0024】LSA特徴量べクトルの次元tを2とし、
図2の単語−文書行列の各特徴量べクトルに対して式
(4)を適用すると、文書1、2及び3のLSA特徴べ
クトルはそれぞれ[0.5000,−0.707
1]′、[0.5000,0.7071]′、[0.7
071,0.0000]′となる。また、図4の特徴べ
クトルに対して式(4)を適用すると、ユーザの質問の
LSA特徴量べクトルは[0.6542,0]′とな
る。
【0025】上記のように得られたLSA特徴量べクト
ルに対して式(2)を適用し、図3の質問と図1に示し
た各文書との類似度を求めると、図1における各文書と
図3質問の類似度は、それぞれ、sim(文書1,質
問)=0.5774、sim(文書2,質問)=0.5
774、sim(文書3,質問)=1.0000とな
り、文書3が質問と一番類似するという結果が得られ
る。ネットワークを利用したヘルプシステムの応用など
を想定する場合、図3の質問をしたユーザに対しては文
書データベースに登録された文書3の回答文が返信され
ることになる。
【0026】特異値分解法は、一般的にThe Johns Hopk
ins University Press社が1996年に出版した「Matr
ix Computations」の第455項から第457項までの
記載において提案されたアルゴリズムがよく用いられ
る。前記の「Journal of the American Society for In
formation Science」の論文によると、正方行列Sの行
数(または列数)nの値は50〜150程度にすると良
いとの記載がある。また、前記の「Behavior Research
Methods, Instruments, & Computers」の論文におい
て、LSAを行う前に特徴べクトルの各要素を単に0ま
たは1の値をとると定義せずに、上記の出現頻度や文書
頻度を用いて前処理するとより効果的であるという結果
が報告されている。
【0027】
【発明が解決しようとする課題】しかし、上述の文献に
提案されている特異値分解法のアルゴリズムでは、与え
られた単語−文書行列から特徴量の空間を張る基底べク
トルを計算する過程において行列のバイダイアゴナリゼ
ーション(bidiagonalization)のためにt×tの行列
を利用するので、最低でも索引語数tの二乗t2のオー
ダーのメモリ空間を必要とする。従って、従来の技術
は、膨大な単語数又はデータ数を抱える文書データベー
スには適用できず、またデータ数の大小に関係なく行列
の複雑な演算が必要であるという問題点があった。
【0028】本発明はこのような問題点に鑑みてなされ
たものであり、その目的とするところは、演算処理の容
易化および当該演算処理に必要なメモリ容量の低減を図
り、効率的に特徴量を抽出するテキストマイニングにお
ける文書の特徴量抽方法及びその装置を提供することに
ある。
【0029】
【課題を解決するための手段】本発明は、このような目
的を達成するため、請求項1に記載の発明は、文書の内
容を代表する索引語に対応するベクトルからなる単語−
文書行列を用いて前記文書の特徴量を抽出するテキスト
マイニングにおける文書の特徴量抽出方法であって、前
記単語―文書行列の各要素には前記索引語に対する寄与
分が作用し、コストを最小化する最急降下法に基いて互
いに関連した文書および単語が近接する前記特徴量の空
間を張る基底べクトルを計算する基底ベクトル計算ステ
ップ、前記単語−文書行列及び前記基底べクトルを用
いて前記特徴量を正規化するためのパラメータを計算
し、該パラメータに基き前記特徴量を抽出する特徴量抽
出ステップと、前記単語−文書行列を更新して前記基底
べクトルを適用しない前記単語−文書行列と適用した前
記単語−文書行列との差分にする単語―文書行列更新ス
テップとを備え、前記単語−文書行列XをX=[x 1
2 ,…,x d ]、ここでx j =[x j1 ,x j2 ,…,
jt ]′、E=[e 1 ,e 2 ,…,e d ]、e j =[e j1
j2 ,…,e jt ]′=[x j1 ,x j2 ,…,x jt ]′、前
記単語−行列更新ステップにおけるEのi番目の処理結
果E(i)を
【数9】 ここで、E(i)=[e 1 (i),e 2 (i),…,e d
(i)]、E(i)の各要素e j (i)をe j (i)=
[e j1 (i),e j2 (i),…,e jt (i)]′、前記
基底ベクトル計算ステップにおけるk回目の繰り返しで
のw i の値をw i (k)=[w i1 (k),w i2 (k),
…,w it (k)]′、ベクトル
【数10】 のm番目の要素を
【数11】 と定義した場合、前記基底ベクトル計算ステップは、前
記コストに
【数12】 を使用して前記基底ベクトルを計算することを特徴とす
る。
【0030】
【0031】また、請求項に記載の発明は、請求項
に記載のテキストマイニングにおける文書の特徴量抽出
方法において、前記基底ベクトル計算ステップは、前記
基底べクトルの値を初期化する初期化ステップと、前記
基底べクトルの値を更新する基底ベクトル更新ステップ
と、前記基底べクトルの値の変化度合いを求める変化度
合い計算ステップと、前記基底べクトルの値の変化度合
いを用いて繰り返し処理を終了するかどうかを判別する
判別ステップと、前記繰り返し処理の回数を数える計数
ステップとを備えたことを特徴とする。
【0032】また、請求項に記載の発明は、請求項
に記載のテキストマイニングにおける文書の特徴量抽出
方法において、前記基底ベクトル更新ステップは、前記
基底ベクトルの現在値と、前記単語−文書行列と、前記
基底べクトルの更新度合いを制御する更新率とを用いて
前記基底べクトルを更新することを特徴とする。
【0033】また、請求項に記載の発明は、請求項
〜3のいずれか1項に記載のテキストマイニングにおけ
る文書の特徴量抽出方法において、前記特徴量の抽出に
必要とされる全ての前記基底べクトル及び前記正規化パ
ラメータを既に取得している場合は、前記基底べクトル
計算ステップ及び前記特徴量抽出ステップにおける前記
正規化パラメータの計算を省略し、前記特徴量抽出ステ
ップは、既に取得している前記基底べクトル及び前記正
規化パラメータを用いて前記特徴量を抽出することを特
徴とする。
【0034】また、請求項5に記載の発明は、文書の内
容を代表する索引語に対応するベクトルからなる単語−
文書行列を用いて前記文書の特徴量を抽出するテキスト
マイニングにおける文書の特徴量抽出装置であって、前
記単語―文書行列の各要素には前記索引語に対する寄与
分が作用し、コストを最小化する最急降下法に基いて互
いに関連した文書および単語が近接する前記特徴量の空
間を張る基底べクトルを計算する基底ベクトル計算手段
、前記単語−文書行列及び前記基底べクトルを用いて
前記特徴量を正規化するためのパラメータを計算し、該
パラメータに基き前記特徴量を抽出する特徴量抽出手段
と、前記単語−文書行列を更新して前記基底べクトルを
適用しない前記単語−文書行列と適用した前記単語−文
書行列との差分にする単語―文書行列更新手段とを備
、前記単語−文書行列XをX=[x 1 ,x 2 ,…,
d ]、ここでx j =[x j1 ,x j2 ,…,x jt ]′、E=
[e 1 ,e 2 ,…,e d ]、e j =[e j1 ,e j2 ,…,
jt ]′=[x j1 ,x j2 ,…,x jt ]′、前記単語−文
書行列更新手段によるEのi番目の処理結果E(i)を
【数13】 ここで、E(i)=[e 1 (i),e 2 (i),…,e d
(i)]、E(i)の各要素e j (i)をe j (i)=
[e j1 (i),e j2 (i),…,e jt (i)]′、前記
基底ベクトル計算手段によるk回目の繰り返しでのw i
の値をw i (k)=[w i1 (k),w i2 (k),…,w
it (k)]′、ベクトル
【数14】 のm番目の要素を
【数15】 と定義した場合、前記基底ベクトル計算手段は、前記コ
ストに
【数16】 を使用して前記基底ベクトルを計算することを特徴とす
る。
【0035】
【0036】また、請求項に記載の発明は、請求項
に記載のテキストマイニングにおける文書の特徴量抽出
装置において、前記基底ベクトル計算手段は、前記基底
べクトルの値を初期化する初期化手段と、前記基底べク
トルの値を更新する基底ベクトル更新手段と、前記基底
べクトルの値の変化度合いを求める変化度合い計算手段
と、前記基底べクトルの値の変化度合いを用いて繰り返
し処理を終了するかどうかを判別する判別手段と、前記
繰り返し処理の回数を数える計数手段とを備えたことを
特徴とする。
【0037】また、請求項に記載の発明は、請求項
に記載のテキストマイニングにおける文書の特徴量抽出
装置において、前記基底ベクトル更新手段は、前記基底
ベクトルの現在値と、前記単語−文書行列と、前記基底
べクトルの更新度合いを制御する更新率とを用いて前記
基底べクトルを更新することを特徴とする。
【0038】また、請求項に記載の発明は、請求項
〜7のいずれか1項に記載のテキストマイニングにおけ
る文書の特徴量抽出装置において、前記特徴量の抽出に
必要とされる全ての前記基底べクトル及び前記正規化パ
ラメータを既に取得している場合は、前記基底べクトル
計算手段及び前記特徴量抽出手段における前記正規化パ
ラメータの計算を省略し、前記特徴量抽出手段は、既に
取得している前記基底べクトル及び前記正規化パラメー
タを用いて前記特徴量を抽出することを特徴とする。
【0039】
【0040】本明細書によって開示される特徴量抽出装
置は、以下の手段によって構成される。即ち、元の単語
−文書行列と基底べクトルを適用した単語−文書行列と
の差分の二次関数をコストとして定義し、そのコストに
対して最急降下法を適用して基底べクトルを計算する基
底べクトル計算手段と、単語−文書行列及び基底べクト
ルを用いて、特徴量を正規化するためのパラメータを計
算し、各文書に対して特徴量を抽出する特徴量抽出手段
と、特徴量抽出手段の実行間で重複した特徴量を抽出し
ないように上記の差分で単語−文書行列を更新する単語
−文書行列更新手段と、上記各手段の実行を制御する特
徴量抽出制御手段とを備えていれば足りる。
【0041】基底べクトル計算手段は、入力された単語
−文書行列を基に計算を繰り返し、最終的に1つの基底
べクトルを算出する。繰り返しの処理は、各繰り返し処
理間で基底べクトルの変化度合いが所定の基準値以下に
なったときに終了する。特徴量抽出手段は、入力された
基底べクトル及び単語−文書行列を基に、特徴量を正規
化するためのパラメータを計算し、各文書に対して1つ
の特徴量を抽出する。単語−文書行列更新手段は、入力
された基底べクトルを基に、単語−文書行列を更新す
る。
【0042】特徴量抽出制御手段は、基底べクトル計算
手段、特徴量抽出手段、及び単語−文書行列更新手段を
制御し、ユーザーにより定義された特徴量の数を満たす
まで、各手段の実行を繰り返す。但し、基底べクトル及
び正規化パラメータが既に計算されている場合には、基
底べクトル計算手段の実行及び特徴量抽出手段における
正規化パラメータの計算を省略される。そして、既に取
得している基底べクトル及び正規化パラメータを組み込
んだ構成で特徴量抽出を行うことになる。
【0043】
【発明の実施の形態】図5は、本発明に係る特徴量抽出
装置の一実施例を示す図である。図5に示すように、特
徴量抽出制御手段200は、単語−文書行列更新手段2
10と、基底べクトル計算手段220と、特徴量抽出手
段230とを備える。100は単語−文書行列データフ
ァイル、300は基底べクトルデータファイル、400
は特徴量データファイル、450は正規化パラメータデ
ータファイルである。単語−文書行列データファイル1
00には、収集された文書データの単語−文書行列が記
憶されている。単語−文書行列更新手段210は第1回
目の繰り返し処理で単語−文書行列データファイル10
0から単語−文書行列を読み込み、その単語−文書行列
を更新せずに基底べクトル計算手段220及び特徴量抽
出手段230に渡す。
【0044】第2回目の繰り返し処理以降では、基底べ
クトル計算手段220から渡された基底べクトルを基に
単語−文書行列を更新し、その結果を基底べクトル計算
手段220及び特徴量抽出手段230に渡す。基底べク
トル計算手段220は、単語−文書行列更新手段210
から渡された単語−文書行列を基に繰り返し処理により
1つの基底べクトルを計算する。そして、各繰り返し処
理で基底べクトルの変化度合いを監視し、変化度合いが
所定の基準値以下になったときに繰り返しの処理を終了
する。基底ベクトル計算手段220は、計算した基底べ
クトルを基底べクトルデータファイル300に格納する
と同時に、単語−文書行列更新手段210及び特徴量抽
出手段230に渡す。特徴量抽出手段230は単語−文
書行列更新手段210から渡された単語−文書行列及び
基底べクトル計算手段220から渡された基底べクトル
を基に各文書に対して1つの特徴量を抽出する。その結
果を特徴量データファイル400に格納すると同時に、
それらの特徴量を正規化するためのパラメータを正規化
パラメータデータファイル450に記録する。
【0045】単語―文書行列更新手段210,基底ベク
トル計算手段220及び特徴量抽出手段230による、
上述の実行を1回の繰り返しとする。繰り返し処理の回
数を添字iで、ユーザーが指定した特徴量の数を添字n
で示す。特徴量抽出制御手段200では、i=nの条件
を満たすまで、処理を一単位ずつ繰り返す。また、必要
とされる全ての基底べクトル及び正規化パラメータを既
に取得しており、これらの値が既知の場合は、基底べク
トル計算手段220の実行及び特徴量抽出手段230に
おける正規化パラメータの計算を省略し、既知の基底べ
クトル及び正規化パラメータを組み込んだ単語―文書行
列更新手段210及び特徴量抽出手段230のみで特徴
量抽出制御手段200を構成する。
【0046】図6は、本発明を実施するハードウェア構
成の一例を示す図である。図6に示すように、特徴量抽
出装置は、装置全体の制御を行う中央処理装置(Centra
l Processor Unit; CPU)10と、プログラムが格納
され又はプログラムの実行に必要な一時データ格納領域
を提供するメモリ20と、データを入力するためのキー
ボード30と、表示画面を生成するディスプレイ40と
を備える。単語−文書行列データファイル100、基底
べクトルデータファイル300、特徴量データファイル
400、正規化パラメータデータファイル450及び特
徴量抽出制御手段200によって実行されるプログラム
はメモリ20に格納されている。
【0047】このような構成をとることにより、キーボ
ード30又はディスプレイ40上の所定の位置指定する
マウス等によりユーザーの指示を受けたCPU10によ
って特徴量抽出が行われることとなる。なお、図5に示
す例では、特徴量抽出制御手段200はスタンドアロン
の構成としているが、他のシステムに組み込んだ構成と
することも可能であることは言うまでもない。
【0048】図7は、単語−文書行列データファイルの
構成図である。図7において、101−1,101−
2,…,101−dはd個からなるt次元の単語−文書
データに対応する。ここで、X=[x1,x2,…,
d]、xj=[xj1,xj2,…,x jt]′を定義し、単
語―文書データ101をt×dの行列Xで示す。
【0049】図8は、計算された基底ベクトルが格納さ
れた基底べクトルデータファイルの構成図である。図8
において、301−1,301−2,…,301−nは
n個からなるt次元の基底べクトルデータに対応する。
i番目の要素301−iは、図5におけるi回目の繰り
返し処理における基底べクトル計算手段220の出力値
に対応する。以下の説明では、この要素をt×1の列べ
クトルwi=[wi1,wi2,…,wit]′で示す。
【0050】図9は、特徴量データファイルの構成図で
ある。図9において、401−1,401−2,…,4
01−nはn個からなるd次元の特徴量データに対応す
る。i番目の要素401−iは図5におけるi回目の繰
り返し処理における特徴量抽出手段230による特徴量
の出力値に対応する。この要素を1×dの行べクトルy
i=[yi1,yi2,…,yid]で示す。
【0051】図10は、正規化パラメータデータファイ
ルの構成図である。図10において、451−1,45
2−2,…,451−nはn個からなる正規化パラメー
タデータに対応する。i番目の要素451−iは図5に
おけるi回目の繰り返し処理での特徴量抽出手段230
による正規化パラメータの出力値に対応する。この要素
をpiで示す。
【0052】以上の諸定義を使用し、本実施形態に係る
特徴量抽出の実現方式を詳細に説明する。単語―文書行
列更新手段210では、i=1の場合、即ち繰り返し処
理の1回目の実行に限り、Xを単語―文書行列データフ
ァイル100から読み込み、何ら演算を行うことなくt
×dの行列Eに格納する。従って、E=[e1,e2
…,ed]、ej=[ej1,ej2,…,ejt]′=
[xj1,xj2,…,xjt]′となる。前の繰り返し処理
で抽出された特徴量が重複して抽出されないために、図
5におけるi回目の繰り返しで下のようにEをその現在
値及び1つ前の繰り返し処理において計算された基底べ
クトルを用いて更新し、その結果を基底ベクトル計算手
段220に渡す。この処理によって格納される、Eのi
番目の処理結果E(i)は、式(5)のように表され
る。
【0053】
【数8】
【0054】ここで、E(i)=[e1(i),e
2(i),…,ed(i)]であり、E(i)の各要素e
j(i)はej(i)=[ej1(i),ej2(i),…,
jt(i)]′で定義される。即ち、i≧2の場合は、
単語−文書行列は基底べクトルを適用しない単語−文書
行列から基底べクトルを適用した単語−文書行列を引い
た差分に更新される。
【0055】図11は、基底ベクトル計算手段における
基底べクトルの計算の流れ図である。図11におけるk
回目の繰り返しでのwiの値をwi(k)=[w
i1(k),w i2(k),…,wit(k)]′で示す。先
ず、ステップS500にて添字kを1で初期化する。続
いてステップS510へ移行し、wi(1)の各要素を
−CからCまでの間の任意の値で初期化する。ここで、
Cの値は正の小さい数であり、例えばC=0.01とし
てもよい。ステップS520では、互いに関連した文書
や単語が近接する特徴量の空間を張る基底べクトルを計
算するため、式(6)に示す二次コストを設ける。
【0056】
【数9】
【0057】ここで、「単語が近接する」とは、特徴量
の空間の中で複数の単語の位置が近接することを言い、
「文書が近接する」とは、複数の文書の各々に含まれる
単語の位置が特徴量の空間の中で近接することを言う。
また、コストとは最小化したい対象を言い、本実施形態
で定義されるコストは式(6)のように基底ベクトルを
適用しない単語−文書行列と基底べクトルを適用した単
語−文書行列との差分の二次関数として定義される。こ
こで、
【0058】
【外1】
【0059】は次のように定義される1×dのべクトル
【0060】
【外2】
【0061】のm番目の要素である。
【0062】
【数10】
【0063】上記のコストに対して最急降下法を適用し
てwiの値を式(8)のように更新する。
【0064】
【数11】
【0065】ここで、μi(k)はk回目の繰り返しで
の更新の度合いを制御する更新率で、kが1のときに正
の小さい数で初期化し、例えばμi(1)=0.1とし
てもよい。kが加算される度に徐々に値を減少させ、あ
るいはkの値によらず一定値とすることも可能である。
また、zi(k)は次のように定義される。
【0066】
【数12】
【0067】ステップS530では次のようにwiの変
化度合いを示すδiを求める。
【0068】
【数13】
【0069】ステップS540ではδi(k)の値を基
に処理を終了するかどうかを判別する。判別の結果、終
了すると判断した場合はステップS560へ進み、そう
でない場合はステップS550へ進む。ここで、図11
におけるβiは正の小さい数であり、例えばβi=1×1
-6とすることができる。
【0070】ステップS550ではカウンタkの値を1
つ増やし、ステップS520に戻る。ステップS560
ではwiを基底ベクトルデータファイル300にi番目
のデータとして格納すると同時に、単語―文書行列更新
手段210及び特徴量抽出手段230に渡す。特徴量抽
出手段230では次のように特徴量yi及び正規化パラ
メータpiを計算して、その結果それぞれを特徴量デー
タファイル400及び正規化パラメータデータファイル
450にi番目のデータとして格納する。
【0071】
【数14】
【0072】ここで、piは次のように定義される。
【0073】
【数15】
【0074】図12は、本実施形態に係る特徴量抽出装
置を用いた文書自動分類装置の一例を示す図である。図
12において、601は単語−文書行列計算手段、60
2は分類手段である。分類手段602は、1993年に
発行された「Journal of Intelligent and Fuzzy Syste
ms」の第1巻第1号第1項から第25項で述べられてい
る方法により行うことができる。
【0075】文書データベースに格納されている文書デ
ータは、文書自動分類装置に取り込まれる。文書自動分
類装置では、単語−文書行列計算手段601で単語−文
書行列の計算を行い、その結果を特徴量抽出制御手段2
00に渡す。特徴量抽出制御手段200は受け取った単
語−文書行列から特徴量を抽出し、その結果を分類手段
602に出力する。分類手段602では、入力された特
徴量を基に分類の結果が出力される。
【0076】本発明の評価を、図1の文書や図3の質問
のような文書データを含んだ、入試制度に関する実際の
文書データにより特徴量抽出の評価を行った。本発明
は、従来のLSAを使用した場合と同じ性質の特徴量を
抽出することが確認できた。
【0077】次に、使用されるメモリ空間のサイズに関
して、単語数tが文書数dよりかなり大きい(t≫d)
といった実際の場合において、従来のLSAが少なくと
も、t2のオーダーを必要するのに対して、本発明は各
々基底べクトルの計算のために高々t・dのオーダーの
メモリサイズで足りる。また、従来の技術を実現するに
は、複雑な行列演算装置が必要であるが、本方式は四則
演算程度を行う装置があれば容易に実現することができ
る。即ち、本発明によれば、LSAによる特徴量抽出と
同等の効果を、より小さいメモリ空間、より簡単なプロ
グラムにより得ることができる。また、この簡単なプロ
グラムはDSP(Digital Signal Processor)におとす
ことができるため、特徴量抽出専用のチップを簡単に作
成することが出来る。
【0078】以下、図1の文書及び図3の質問に対して
本実施形態に係る特徴量抽出装置を実行した各手段の結
果を示す。
【0079】A.図1の文書 まず、図2の単語−文書行列をXとする。
【0080】I.特徴量抽出制御手段200における第
1回目の繰り返し(i=1) 単語−文書行列更新手段210では式(5)より
【0081】
【数16】
【0082】を基底べクトル計算手段220及び特徴量
抽出手段230へ出力する。
【0083】基底べクトル計算手段220では、w
1(1)を [0.0100,−0.0100,0.0100,−0.0100,0.0100,−0.
0100,0.0100,−0.0100,0.0100,−0.0100,0.010
0]′ で、μ1を固定の値0.1で、β1を1×10-6で初期化
し、以下のように図11の計算を132回繰り返した
後、基底べクトルw1=[0.1787,0.1787,0.1787,0.4
314,0.4314,0.1787,0.1787,0.4314,0.4314,0.178
7,0.2527]′ を基底べクトルデータファイル300に格納すると共
に、特徴量抽出手段230、及び単語−文書行列更新手
段210へ出力する。
【0084】*基底ベクトル計算手段220における第
1回目の繰り返し(k=1) 式(8)より、 w1(2)=[0.0103,−0.0097,0.0103,−0.0093,
0.0107,−0.0103,0.0097,−0.0100,0.0100,−0.01
03,0.0103]′ w1(2)−w1(1)=10-3×[0.3332,0.3334,0.
3332,0.6668,0.6666,−0.3332,−0.3334,0.0001,
−0.0001,−0.3332,0.3332]′ δ1(1)=0.0013 *基底ベクトル計算手段220における第2回目の繰り
返し(k=2) 式(8)より、 w1(3)=[0.0107,−0.0093,0.0107,−0.0085,
0.0115,−0.0107,0.0093,−0.0100,0.0100,−0.01
07,0.0107]′ w1(3)−w1(2)=10-3×[0.4110,0.4112,0.
4110,0.8001,0.7998,−0.3665,−0.3668,0.0224,
0.0221,−0.3665,0.3887]′ δ1(2)=0.0015 中 略 *基底ベクトル計算手段220における第132回目の
繰り返し(k=132) 式(8)より、 w1(133)=[0.1787,0.1787,0.1787,0.4314,
0.4314,0.1787,0.1787,0.4314,0.4314,0.1787,0.
2527]′ w1(133)−w1(132)=10-6×[−0.3020,
−0.3020,−0.3020,−0.3020,−0.3020,0.3020,0.
3020,0.3020,0.3020,0.3020,0.0000]′ δ1(132)=9.5500×10-7 特徴量抽出手段230では式(11)及び式(12)の
演算を行い、 y1=[0.5000,0.5000,0.7071] 及び p1=2.7979 をそれぞれ特徴量データファイル400及び正規化パラ
メータデータファイル450へ出力する。
【0085】II.特徴量抽出制御手段200における
第2回目の繰り返し(i=2) 単語−文書行列更新手段210では式(5)より
【0086】
【数17】
【0087】を基底ベクトル計算手段220及び特徴量
抽出手段230へ出力する。
【0088】基底ベクトル計算手段220では、w
2(1)を [0.0100,−0.0100,0.0100,−0.0100,0.0100,−0.
0100,0.0100,−0.0100,0.0100,−0.0100,0.010
0]′ で、μ2を固定の値0.1で、β2を1×10-6で初期化
し、図11の計算を119回繰り返した後、基底ベクト
ルw2=[0.3162,0.3162,0.3162,0.3162,0.3162,
−0.3162,−0.3162,−0.3162,−0.3162,−0.3162,
0.0000]′ を基底ベクトルデータファイル300に格納すると共
に、特徴量抽出手段230、及び単語−文書行列更新手
段210へ出力する。
【0089】*基底ベクトル計算手段220における第
1回目の繰り返し(k=1) 式(8)より、 w2(2)=[0.0102,−0.0098,0.0102,−0.0096,
0.0104,−0.0105,0.0095,−0.0103,0.0097,−0.01
05,0.0102]′ w2(2)−w2(1)=10-3×[0.2154,0.2156,0.
2154,0.3822,0.3821,−0.4511,−0.4513,−0.284
4,−0.2846,−0.4511,0.1666]′ δ2(1)=0.0011 *基底ベクトル計算手段220における第2回目の繰り
返し(k=2) 式(8)より、 w2(3)=[0.0105,−0.0095,0.0105,−0.0092,
0.0108,−0.0110,0.0090,−0.0106,0.0094,−0.01
10,0.0103]′ w2(3)−w2(2)=10-3×[0.2624,0.2626,0.
2624,0.4413,0.4411,−0.5152,−0.5154,−0.336
4,−0.3366,−0.5152,0.1786]′ δ2(2)=0.0013 中 略 *基底ベクトル計算手段220における第119回目の
繰り返し(k=119) 式(8)より、 w2(120)=[0.3162,0.3162,0.3162,0.3162,
0.3162,−0.3162,−0.3162,−0.3162,−0.3162,0.
0000]′ w2(120)−w2(119)=10-6×[0.3327,0.
3333,0.3327,−0.1375,−0.1381,0.3332,0.3326,
−0.1377,−0.1383,0.3332,−0.4712]′ δ2(119)=9.8141×10-7 −特徴量抽出手段230では式(11)及び式(12)
の演算を行い、 y2=[0.7071,−0.7071,−0.0000] 及び p2=2.2361 をそれぞれ特徴量データファイル400及び正規化パラ
メータデータファイル450へ出力する。
【0090】上記の結果から図1における文書1,2,
3の特徴量ベクトルはそれぞれ[0.5000,0.7071]′、
[0.5000,−0.7071]′、[0.7071,−0.0000]′とな
る。これらは、従来例の説明において示された各文書の
LSAの特徴量と比較すると、第二番目の要素の符号が
逆になっているが同一の絶対値をとる。従って、式
(2)の類似度の計算に関してLSAの特徴量と同じ性
質を持つ。
【0091】B.図3の質問 ここでは、図1の文書の特徴量抽出の際に基底ベクトル
データファイル300に格納された基底ベクトル及び正
規化パラメータデータファイル450に格納された正規
化パラメータを用いるので、基底ベクトル計算手段22
0の実行及び特徴量抽出手段における正規化パラメータ
の計算を省略する。図3の質問をXとする。
【0092】I.特徴量抽出手段200における第1回
目の繰り返し(i=1) 単語−文書行列更新手段210では、式(5)より
【0093】
【数18】
【0094】を特徴量抽出手段230へ出力する。
【0095】特徴量抽出手段230では、図1の文書の
特徴量抽出の際に得られた特徴量ベクトルw1及び正規
化パラメータp1を用いて式(11)及び式(12)の
演算を行い y1=[0.6542] を特徴量データファイル400へ出力する。
【0096】II.特徴量抽出制御手段200における
第2回目の繰り返し(i=2) 単語−文書行列更新手段210では、図1に示す文書の
特徴量抽出を行う際に得られた特徴量ベクトルw1を用
いて、式(5)より
【0097】
【数19】
【0098】を特徴量抽出手段230へ出力する。
【0099】特徴量抽出手段230では図1の文書の特
徴量抽出の際に得られた特徴量ベクトルw2及び正規化
パラメータp2を用いて、式(11)及び式(12)の
演算を行い、 y2=[−0.0000] を特徴量データファイル400へ出力する。
【0100】上記の結果から図3の質問の特徴量ベクト
ルは[0.6542,−0.0000]′となり、従来例の説明で示
した値と比較すると2番目の要素は同一の絶対値をと
る。
【0101】
【発明の効果】以上説明したように、本発明によれば、
文書の内容を代表する索引語に対応するベクトルからな
る単語−文書行列を用いて前記文書の特徴量を抽出する
テキストマイニングにおける文書の特徴量抽出方法であ
って、前記単語―文書行列の各要素には前記索引語に対
する寄与分が作用し、コストを最小化する最急降下法に
基いて互いに関連した文書および単語が近接する前記特
徴量の空間を張る基底べクトルを計算する基底ベクトル
計算ステップ、前記単語−文書行列及び前記基底べク
トルを用いて前記特徴量を正規化するためのパラメータ
を計算し、該パラメータに基き前記特徴量を抽出する特
徴量抽出ステップと、前記単語−文書行列を更新して前
記基底べクトルを適用しない前記単語−文書行列と適用
した前記単語−文書行列との差分にする単語―文書行列
更新ステップとを備え、前記単語−文書行列XをX=
[x 1 ,x 2 ,…,x d ]、ここでx j =[x j1 ,x j2
…,x jt ]′、E=[e 1 ,e 2 ,…,e d ]、e j =[e
j1 ,e j2 ,…,e jt ]′=[x j1 ,x j2 ,…,
jt ]′、前記単語−行列更新ステップにおけるEのi
番目の処理結果E(i)を
【数17】 ここで、E(i)=[e 1 (i),e 2 (i),…,e d
(i)]、E(i)の各要素e j (i)をe j (i)=
[e j1 (i),e j2 (i),…,e jt (i)]′、前記
基底ベクトル計算ステップにおけるk回目の繰り返しで
のw i の値をw i (k)=[w i1 (k),w i2 (k),
…,w it (k)]′、ベクトル
【数18】 のm番目の要素を
【数19】 と定義した場合、前記基底ベクトル計算ステップは、前
記コストに
【数20】 を使用して前記基底ベクトルを計算するので、テキスト
マイニングにおける文書の特徴量抽出に関し、LSAを
実行可能な装置よりも小さいメモリ空間でLSAと同じ
性質を持つ特徴量を抽出することができる。また、LS
Aと同じ性質を持つ特徴量を抽出するための専用ソフト
ウェアやハードウェアを容易に作成することが可能とな
る。
【図面の簡単な説明】
【図1】文書データベースに登録された文書の一例を示
す図である。
【図2】図1に示された文書に出現する漢字の単語を索
引語とした単語−文書行列の一例を示す図である。
【図3】ユーザから実際に入力される質問の一例を示す
図である。
【図4】図3から得られた単語−文書行列を示す図であ
る。
【図5】本発明に係る特徴量抽出装置の一実施例を示す
図である。
【図6】本発明を実施するハードウェア構成の一例を示
す図である。
【図7】単語−文書行列データファイルの構成図であ
る。
【図8】計算された基底ベクトルが格納された基底べク
トルデータファイルの構成図である。
【図9】特徴量データファイルの構成図である。
【図10】正規化パラメータデータファイルの構成図で
ある。
【図11】基底ベクトル計算手段における基底べクトル
の計算の流れ図である。
【図12】本発明の一実施形態に係る特徴量抽出装置を
用いた文書自動分類装置の一例を示す図である。
【符号の説明】
10 CPU 20 メモリ 30 キーボード 40 ディスプレイ 100 単語―文書行列データファイル 101−1、101−2、101−3、101−d 単
語−文書データ 200 特徴量抽出制御手段 210 単語―文書行列更新手段 220 基底ベクトル計算手段 230 特徴量抽出手段 300 基底ベクトルデータファイル 301−1、301−2、301−3、301−n 基
底べクトルデータ 400 特徴量データファイル 401−1、401−2、401−3、401−n 特
徴量データ 450 正規化パラメータデータファイル 451−1、451−2、451−3、451−n 正
規化パラメータデータ 601 単語―文書行列計算手段 602 分類手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 吉岡 倍達 高知県南国市蛍が丘1−1−1 株式会 社エス・エス・アール内 (56)参考文献 Kolda, T.G. et a l,A Semidiscrete M atrix Decompositio n for Latent Seman tic Indexing in In formation Retrieva l,ACM Transactions on Information Sy stems,米国,ACM Pres s,1998年10月,Vol.16,No. 4,pp.322−346. (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 210 G06F 17/30 170 JICSTファイル(JOIS)

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】 文書の内容を代表する索引語に対応する
    ベクトルからなる単語−文書行列を用いて前記文書の特
    徴量を抽出するテキストマイニングにおける文書の特徴
    量抽出方法であって、前記単語―文書行列の各要素には
    前記索引語に対する寄与分が作用し、コストを最小化す
    る最急降下法に基いて互いに関連した文書および単語が
    近接する前記特徴量の空間を張る基底べクトルを計算す
    る基底ベクトル計算ステップ、前記単語−文書行列及
    び前記基底べクトルを用いて前記特徴量を正規化するた
    めのパラメータを計算し、該パラメータに基き前記特徴
    量を抽出する特徴量抽出ステップと、前記単語−文書行
    列を更新して前記基底べクトルを適用しない前記単語−
    文書行列と適用した前記単語−文書行列との差分にする
    単語―文書行列更新ステップとを備え、前記単語−文書
    行列XをX=[x 1 ,x 2 ,…,x d ]、ここでx j =[x
    j1 ,x j2 ,…,x jt ]′、E=[e 1 ,e 2 ,…,
    d ]、e j =[e j1 ,e j2 ,…,e jt ]′=[x j1 ,x
    j2 ,…,x jt ]′、前記単語−行列更新ステップにおけ
    るEのi番目の処理結果E(i)を 【数1】 ここで、E(i)=[e 1 (i),e 2 (i),…,e d
    (i)]、E(i)の各要素e j (i)をe j (i)=
    [e j1 (i),e j2 (i),…,e jt (i)]′、前記
    基底ベクトル計算ステップにおけるk回目の繰り返しで
    のw i の値をw i (k)=[w i1 (k),w i2 (k),
    …,w it (k)]′、ベクトル 【数2】 のm番目の要素を 【数3】 と定義した場合、前記基底ベクトル計算ステップは、前
    記コストに 【数4】 を使用して前記基底ベクトルを計算することを特徴とす
    るテキストマイニングにおける文書の特徴量抽出方法。
  2. 【請求項2】 前記基底ベクトル計算ステップは、前記
    基底べクトルの値を初期化する初期化ステップと、前記
    基底べクトルの値を更新する基底ベクトル更新ステップ
    と、前記基底べクトルの値の変化度合いを求める変化度
    合い計算ステップと、前記基底べクトルの値の変化度合
    いを用いて繰り返し処理を終了するかどうかを判別する
    判別ステップと、前記繰り返し処理の回数を数える計数
    ステップとを備えたことを特徴とする請求項1に記載の
    テキストマイニングにおける文書の特徴量抽出方法。
  3. 【請求項3】 前記基底ベクトル更新ステップは、前記
    基底ベクトルの現在値と、前記単語−文書行列と、前記
    基底べクトルの更新度合いを制御する更新率とを用いて
    前記基底べクトルを更新することを特徴とする請求項2
    に記載のテキストマイニングにおける文書の特徴量抽出
    方法。
  4. 【請求項4】 前記特徴量の抽出に必要とされる全ての
    前記基底べクトル及び前記正規化パラメータを既に取得
    している場合は、前記基底べクトル計算ステップ及び前
    記特徴量抽出ステップにおける前記正規化パラメータの
    計算を省略し、前記特徴量抽出ステップは、既に取得し
    ている前記基底べクトル及び前記正規化パラメータを用
    いて前記特徴量を抽出することを特徴とする請求項1〜
    3のいずれか1項に記載のテキストマイニングにおける
    文書の特徴量抽出方法。
  5. 【請求項5】 文書の内容を代表する索引語に対応する
    ベクトルからなる単語−文書行列を用いて前記文書の特
    徴量を抽出するテキストマイニングにおける文書の特徴
    量抽出装置であって、前記単語―文書行列の各要素には
    前記索引語に対する寄与分が作用し、コストを最小化す
    る最急降下法に基いて互いに関連した文書および単語が
    近接する前記特徴量の空間を張る基底べクトルを計算す
    る基底ベクトル計算手段、前記単語−文書行列及び前
    記基底べクトルを用いて前記特徴量を正規化するための
    パラメータを計算し、該パラメータに基き前記特徴量を
    抽出する特徴量抽出手段と、前記単語−文書行列を更新
    して前記基底べクトルを適用しない前記単語−文書行列
    と適用した前記単語−文書行列との差分にする単語―文
    書行列更新手段とを備え、前記単語−文書行列XをX=
    [x 1 ,x 2 ,…,x d ]、ここでx j =[x j1 ,x j2
    …,x jt ]′、E=[e 1 ,e 2 ,…,e d ]、e j =[e
    j1 ,e j2 ,…,e jt ]′=[x j1 ,x j2 ,…,
    jt ]′、前記単語−文書行列更新ステップにおけるE
    のi番目の処理結果E(i)を 【数5】 ここで、E(i)=[e 1 (i),e 2 (i),…,e d
    (i)]、E(i)の各要素e j (i)をe j (i)=
    [e j1 (i),e j2 (i),…,e jt (i)]′、前記
    基底ベクトル計算手段によるk回目の繰り返しでのw i
    の値をw i (k)=[w i1 (k),w i2 (k),…,w
    it (k)]′、ベクトル 【数6】 のm番目の要素を 【数7】 と定義した場合、前記基底ベクトル計算手段は、前記コ
    ストに 【数8】 を使用して前記基底ベクトルを計算することを特徴とす
    るテキストマイニングにおける文書の特徴量抽出装置。
  6. 【請求項6】 前記基底ベクトル計算手段は、前記基底
    べクトルの値を初期化する初期化手段と、前記基底べク
    トルの値を更新する基底ベクトル更新手段と、前記基底
    べクトルの値の変化度合いを求める変化度合い計算手段
    と、前記基底べクトルの値の変化度合いを用いて繰り返
    し処理を終了するかどうかを判別する判別手段と、前記
    繰り返し処理の回数を数える計数手段とを備えたことを
    特徴とする請求項5に記載のテキストマイニングにおけ
    る文書の特徴量抽出装置。
  7. 【請求項7】 前記基底ベクトル更新手段は、前記基底
    ベクトルの現在値と、前記単語−文書行列と、前記基底
    べクトルの更新度合いを制御する更新率とを用いて前記
    基底べクトルを更新することを特徴とする請求項6に記
    載のテキストマイニングにおける文書の特徴量抽出装
    置。
  8. 【請求項8】 前記特徴量の抽出に必要とされる全ての
    前記基底べクトル及び前記正規化パラメータを既に取得
    している場合は、前記基底べクトル計算手段及び前記特
    徴量抽出手段における前記正規化パラメータの計算を省
    略し、前記特徴量抽出手段は、既に取得している前記基
    底べクトル及び前記正規化パラメータを用いて前記特徴
    量を抽出することを特徴とする請求項5〜7のいずれか
    1項に記載のテキストマイニングにおける文書の特徴量
    抽出装置。
JP2000197421A 2000-06-29 2000-06-29 テキストマイニングにおける文書の特徴量抽出方法及びその装置 Expired - Fee Related JP3524846B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2000197421A JP3524846B2 (ja) 2000-06-29 2000-06-29 テキストマイニングにおける文書の特徴量抽出方法及びその装置
DE10125011A DE10125011A1 (de) 2000-06-29 2001-05-22 Verfahren und Vorrichtung für die Textfilterung zur Extraktion von Merkmalen aus Dokumenten
US09/871,272 US6882747B2 (en) 2000-06-29 2001-05-31 Text mining method and apparatus for extracting features of documents
CA002351211A CA2351211C (en) 2000-06-29 2001-06-22 Text mining method and apparatus for extracting features of documents
GB0115357A GB2369211B (en) 2000-06-29 2001-06-22 Text mining method and apparatus for extracting features of documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000197421A JP3524846B2 (ja) 2000-06-29 2000-06-29 テキストマイニングにおける文書の特徴量抽出方法及びその装置

Publications (2)

Publication Number Publication Date
JP2002014982A JP2002014982A (ja) 2002-01-18
JP3524846B2 true JP3524846B2 (ja) 2004-05-10

Family

ID=18695752

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000197421A Expired - Fee Related JP3524846B2 (ja) 2000-06-29 2000-06-29 テキストマイニングにおける文書の特徴量抽出方法及びその装置

Country Status (5)

Country Link
US (1) US6882747B2 (ja)
JP (1) JP3524846B2 (ja)
CA (1) CA2351211C (ja)
DE (1) DE10125011A1 (ja)
GB (1) GB2369211B (ja)

Families Citing this family (144)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7124081B1 (en) * 2001-09-28 2006-10-17 Apple Computer, Inc. Method and apparatus for speech recognition using latent semantic adaptation
WO2003036425A2 (en) * 2001-10-23 2003-05-01 Electronic Data Systems Corporation System and method for managing a procurement process
DE10221606A1 (de) * 2002-05-15 2003-12-04 Georg S Wengler Verfahren und Vorrichtung zur computergestützten Durchführung einer Literaturanalyse
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8272064B2 (en) * 2005-11-16 2012-09-18 The Boeing Company Automated rule generation for a secure downgrader
US8379841B2 (en) 2006-03-23 2013-02-19 Exegy Incorporated Method and system for high throughput blockwise independent encryption/decryption
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7660793B2 (en) 2006-11-13 2010-02-09 Exegy Incorporated Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors
US8326819B2 (en) 2006-11-13 2012-12-04 Exegy Incorporated Method and system for high performance data metatagging and data indexing using coprocessors
US7963442B2 (en) * 2006-12-14 2011-06-21 Simmonds Precision Products, Inc. Spin stabilized projectile trajectory control
WO2008126184A1 (ja) * 2007-03-16 2008-10-23 Fujitsu Limited 文書重要度算出プログラム
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20080288488A1 (en) * 2007-05-15 2008-11-20 Iprm Intellectual Property Rights Management Ag C/O Dr. Hans Durrer Method and system for determining trend potentials
WO2009029842A1 (en) 2007-08-31 2009-03-05 Exegy Incorporated Method and apparatus for hardware-accelerated encryption/decryption
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US20100114890A1 (en) * 2008-10-31 2010-05-06 Purediscovery Corporation System and Method for Discovering Latent Relationships in Data
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713053B2 (en) * 2010-03-09 2014-04-29 Cisco Technology, Inc Active tags
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9208204B2 (en) 2013-12-02 2015-12-08 Qbase, LLC Search suggestions using fuzzy-score matching and entity co-occurrence
US9223833B2 (en) 2013-12-02 2015-12-29 Qbase, LLC Method for in-loop human validation of disambiguated features
WO2015084757A1 (en) * 2013-12-02 2015-06-11 Qbase, LLC Systems and methods for processing data stored in a database
US9542477B2 (en) 2013-12-02 2017-01-10 Qbase, LLC Method of automated discovery of topics relatedness
US9355152B2 (en) 2013-12-02 2016-05-31 Qbase, LLC Non-exclusionary search within in-memory databases
US9922032B2 (en) 2013-12-02 2018-03-20 Qbase, LLC Featured co-occurrence knowledge base from a corpus of documents
US9177262B2 (en) 2013-12-02 2015-11-03 Qbase, LLC Method of automated discovery of new topics
US9230041B2 (en) 2013-12-02 2016-01-05 Qbase, LLC Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching
US9424524B2 (en) 2013-12-02 2016-08-23 Qbase, LLC Extracting facts from unstructured text
US9201744B2 (en) 2013-12-02 2015-12-01 Qbase, LLC Fault tolerant architecture for distributed computing systems
US9659108B2 (en) 2013-12-02 2017-05-23 Qbase, LLC Pluggable architecture for embedding analytics in clustered in-memory databases
US9025892B1 (en) 2013-12-02 2015-05-05 Qbase, LLC Data record compression with progressive and/or selective decomposition
US9424294B2 (en) 2013-12-02 2016-08-23 Qbase, LLC Method for facet searching and search suggestions
US9547701B2 (en) 2013-12-02 2017-01-17 Qbase, LLC Method of discovering and exploring feature knowledge
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10282468B2 (en) * 2015-11-05 2019-05-07 International Business Machines Corporation Document-based requirement identification and extraction
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
WO2018119035A1 (en) 2016-12-22 2018-06-28 Ip Reservoir, Llc Pipelines for hardware-accelerated machine learning
US20180189307A1 (en) * 2016-12-30 2018-07-05 Futurewei Technologies, Inc. Topic based intelligent electronic file searching
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5857179A (en) 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
US5884305A (en) 1997-06-13 1999-03-16 International Business Machines Corporation System and method for data mining from relational data by sieving through iterated relational reinforcement
US6611825B1 (en) * 1999-06-09 2003-08-26 The Boeing Company Method and system for text mining using multidimensional subspaces
US6728728B2 (en) * 2000-07-24 2004-04-27 Israel Spiegler Unified binary model and methodology for knowledge representation and for data and information mining
AU2001286689A1 (en) 2000-08-24 2002-03-04 Science Applications International Corporation Word sense disambiguation
US6665661B1 (en) * 2000-09-29 2003-12-16 Battelle Memorial Institute System and method for use in text analysis of documents and records
US6925433B2 (en) * 2001-05-09 2005-08-02 International Business Machines Corporation System and method for context-dependent probabilistic modeling of words and documents

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Kolda, T.G. et al,A Semidiscrete Matrix Decomposition for Latent Semantic Indexing in Information Retrieval,ACM Transactions on Information Systems,米国,ACM Press,1998年10月,Vol.16,No.4,pp.322−346.

Also Published As

Publication number Publication date
DE10125011A1 (de) 2002-01-24
GB0115357D0 (en) 2001-08-15
US20020031260A1 (en) 2002-03-14
US6882747B2 (en) 2005-04-19
GB2369211B (en) 2002-11-27
GB2369211A (en) 2002-05-22
CA2351211A1 (en) 2001-12-29
JP2002014982A (ja) 2002-01-18
CA2351211C (en) 2006-10-17

Similar Documents

Publication Publication Date Title
JP3524846B2 (ja) テキストマイニングにおける文書の特徴量抽出方法及びその装置
Clark et al. Hierarchical modelling for the environmental sciences: statistical methods and applications
Lehtonen et al. Practical methods for design and analysis of complex surveys
Kirkpatrick et al. Direct estimation of genetic principal components: simplified analysis of complex phenotypes
WO2019144066A1 (en) Systems and methods for preparing data for use by machine learning algorithms
Piepho et al. Efficient computation of ridge‐regression best linear unbiased prediction in genomic selection in plant breeding
CN106126589B (zh) 简历搜索方法及装置
Narsky Estimation of upper limits using a Poisson statistic
Grund et al. Multiple imputation of missing data in multilevel models with the R package mdmb: A flexible sequential modeling approach
CN106708929A (zh) 视频节目的搜索方法和装置
Pesevski et al. Subspace clustering with the multivariate-t distribution
Chakravarthy A retrial queueing model with thresholds and phase type retrial times
Bonnéry et al. Uniform convergence of the empirical cumulative distribution function under informative selection from a finite population
CN110442674B (zh) 标签传播的聚类方法、终端设备、存储介质及装置
Gelfand et al. Modeling and inference for point-referenced binary spatial data
Kantz et al. Coarse grained dynamical entropies: Investigation of high-entropic dynamical systems
Peyhardi et al. Splitting models for multivariate count data
JP5175585B2 (ja) 文書処理装置、電子カルテ装置および文書処理プログラム
LeBlanc et al. Microbiome subcommunity learning with logistic-tree normal latent Dirichlet allocation
Zhang et al. An efficient algorithm for computation of information matrix in phase-type fitting
Milocco et al. A method to predict the response to directional selection using a Kalman filter
Ranganath Black Box variational inference: Scalable, generic Bayesian computation and its applications
Musgrove et al. A sparse areal mixed model for multivariate outcomes, with an application to zero-inflated census data
Guha et al. Gauss–seidel estimation of generalized linear mixed models with application to poisson modeling of spatially varying disease rates
Belyaev et al. Several Properties of the Model Solution after Data Assimilation into the NEMO Ocean Circulation Model

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20031210

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20031215

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040213

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090220

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100220

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees