JP3524846B2 - テキストマイニングにおける文書の特徴量抽出方法及びその装置 - Google Patents
テキストマイニングにおける文書の特徴量抽出方法及びその装置Info
- Publication number
- JP3524846B2 JP3524846B2 JP2000197421A JP2000197421A JP3524846B2 JP 3524846 B2 JP3524846 B2 JP 3524846B2 JP 2000197421 A JP2000197421 A JP 2000197421A JP 2000197421 A JP2000197421 A JP 2000197421A JP 3524846 B2 JP3524846 B2 JP 3524846B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- word
- vector
- basis vector
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
グにおける文書の特徴量抽出方法及びその装置に関し、
より詳細には、特徴量を用いて文書および/またはウェ
ブ検索、関連語検索、文書分類等の応用としてテキスト
マイニングを行う場合に、特徴量の空間において互いに
関連した文書や単語が近接する特徴量を抽出するテキス
トマイニングにおける文書の特徴量抽出方法及びその装
置に関する。
望の知識や情報を取り出す技術であるテキストマイニン
グにおいて、文書の有効な特徴量抽出は文書および/ま
たはウェブ検索、関連語検索、文書分類などを効率よく
行うための重要な課題である。一般的な文書の特徴量抽
出方法としては、「Automatic Text Processing」(Add
ison-Wesley社、1989年出版)の第313項で述べ
られているべクトル空間法(vector-space model)がよ
く用いられている。
て選ばれた単語、即ち文書の内容を代表する索引語がt
個ある場合、それぞれの索引語TiにべクトルViを対応
させ、t次元のべクトル空間を定義する。このように定
義されたベクトル空間を構成する全てのべクトルは、t
個の索引語に対応するt個のべクトルの線形結合として
表現できる。このべクトル空間において、文書Drを以
下のように表現する。
文書Drにおける索引語Tiに対する寄与分であり、文書
Drの特徴量を表す。特徴量とは、索引語の各文書にお
ける出現頻度を表す量である。t×1(t行1列)のべ
クトル[xr1,xr2,…,xrt]′は文書Drの特徴量
べクトルとなる。最も単純な場合としては、文書Drに
おいて索引語Tiが出現する場合には1とし、出現しな
い場合には0とする方法がとられる。より複雑な場合
は、上記の文献の第279項から第280項までで述べ
られているように、文書Drにおける索引語Tiの出現頻
度(term frequency)tfriや、文書データベースに登
録された全文書における索引語Tiを含む文書頻度dfi
がxirの計算に利用される。
ては、次のようなt×dの単語−文書行列Xが定義でき
る。
jt]′は文書Djの特徴量べクトルを表し、記号′は転
置を示す。
書の一例を示す図である。また、図2は、図1に示され
た文書に出現する漢字の単語を索引語とした単語−文書
行列の一例を示す図である。図2において、文書1〜3
の全てに出現している文字列「について教えて下さい」
の中に含まれる「教」の文字は索引語の対象から外され
ている。図3は、ユーザから実際に入力される質問の一
例を示す図である。この質問を図2の索引語を用いて表
すと、図4に示す文書−単語行列で表現できる。
2つの文書DrとDsの類似度sim(Dr , Ds)は、以
下のようになる。
の各文書との類似度を判断した場合、図3の質問は図1
の文書3に一番類似すると考えられる。しかし、図2及
び図4のような特徴量べクトルを用いると、図1におけ
る各文書と図3の質問の類似度は、それぞれ、sim
(文書1,質問)=0.5477、sim(文書2,質
問)=0.5477、sim(文書3,質問)=0.5
477となり、全ての文書に対して同じ類似度になって
しまう。
「Journal of the American Societyfor Information S
cience」(1990年発行)の第41巻第6号第391
項から第407項までの記載において提案された、単語
の共起に基づいた分析方法 (Latent Semantic Analysi
s; LSA) は、文書のもつ潜在的意味を抽出でき、か
つ検索能率が圧倒的に優れている。ここにいう「単語の
共起」とは、同一の文書/文に複数の単語が同時に出現
することをいう。
文書行列を特異値分解(Singular Value Decompositio
n; SVD)することにより、文書の潜在的意味構造を
抽出するものである。得られた特徴量の空間において、
互いに関連した文書や単語は近接するように構成され
る。「Behavior Research Methods, Instruments, & Co
mputers」(1991年発行)の第23巻第2号第22
9項から第236項までに掲載された論文では、LSA
を使用した検索は、ベクトル空間法に比べ、30%効率
が良いという結果を報告している。以下、LSAについ
て具体的に説明する。
Xを以下のように特異値分解する。
S0はm個の特異値を対角要素とし、かつ対角要素以外
はすべて0であるm×mの正方対角行列を表す。D′0
はm×dの直交行列を表す。また、0≦d≦tとし、S
0の対角要素は値の大きい順に並んでいるものとする。
量べクトルxqに対して次のような変換を行い、n×1
のLSA特徴量べクトルyqを計算する。
n番目までをとったn×nの正方対角行列、TはT0の
1列目からn列目まで抜き出したt×nの行列である。
特異値分解を行った結果を以下に示す。行列T0、S0、
D0はそれぞれ以下のようになる。
図2の単語−文書行列の各特徴量べクトルに対して式
(4)を適用すると、文書1、2及び3のLSA特徴べ
クトルはそれぞれ[0.5000,−0.707
1]′、[0.5000,0.7071]′、[0.7
071,0.0000]′となる。また、図4の特徴べ
クトルに対して式(4)を適用すると、ユーザの質問の
LSA特徴量べクトルは[0.6542,0]′とな
る。
ルに対して式(2)を適用し、図3の質問と図1に示し
た各文書との類似度を求めると、図1における各文書と
図3質問の類似度は、それぞれ、sim(文書1,質
問)=0.5774、sim(文書2,質問)=0.5
774、sim(文書3,質問)=1.0000とな
り、文書3が質問と一番類似するという結果が得られ
る。ネットワークを利用したヘルプシステムの応用など
を想定する場合、図3の質問をしたユーザに対しては文
書データベースに登録された文書3の回答文が返信され
ることになる。
ins University Press社が1996年に出版した「Matr
ix Computations」の第455項から第457項までの
記載において提案されたアルゴリズムがよく用いられ
る。前記の「Journal of the American Society for In
formation Science」の論文によると、正方行列Sの行
数(または列数)nの値は50〜150程度にすると良
いとの記載がある。また、前記の「Behavior Research
Methods, Instruments, & Computers」の論文におい
て、LSAを行う前に特徴べクトルの各要素を単に0ま
たは1の値をとると定義せずに、上記の出現頻度や文書
頻度を用いて前処理するとより効果的であるという結果
が報告されている。
提案されている特異値分解法のアルゴリズムでは、与え
られた単語−文書行列から特徴量の空間を張る基底べク
トルを計算する過程において行列のバイダイアゴナリゼ
ーション(bidiagonalization)のためにt×tの行列
を利用するので、最低でも索引語数tの二乗t2のオー
ダーのメモリ空間を必要とする。従って、従来の技術
は、膨大な単語数又はデータ数を抱える文書データベー
スには適用できず、またデータ数の大小に関係なく行列
の複雑な演算が必要であるという問題点があった。
たものであり、その目的とするところは、演算処理の容
易化および当該演算処理に必要なメモリ容量の低減を図
り、効率的に特徴量を抽出するテキストマイニングにお
ける文書の特徴量抽方法及びその装置を提供することに
ある。
的を達成するため、請求項1に記載の発明は、文書の内
容を代表する索引語に対応するベクトルからなる単語−
文書行列を用いて前記文書の特徴量を抽出するテキスト
マイニングにおける文書の特徴量抽出方法であって、前
記単語―文書行列の各要素には前記索引語に対する寄与
分が作用し、コストを最小化する最急降下法に基いて互
いに関連した文書および単語が近接する前記特徴量の空
間を張る基底べクトルを計算する基底ベクトル計算ステ
ップと、前記単語−文書行列及び前記基底べクトルを用
いて前記特徴量を正規化するためのパラメータを計算
し、該パラメータに基き前記特徴量を抽出する特徴量抽
出ステップと、前記単語−文書行列を更新して前記基底
べクトルを適用しない前記単語−文書行列と適用した前
記単語−文書行列との差分にする単語―文書行列更新ス
テップとを備え、前記単語−文書行列XをX=[x 1 ,
x 2 ,…,x d ]、ここでx j =[x j1 ,x j2 ,…,
x jt ]′、E=[e 1 ,e 2 ,…,e d ]、e j =[e j1 ,
e j2 ,…,e jt ]′=[x j1 ,x j2 ,…,x jt ]′、前
記単語−行列更新ステップにおけるEのi番目の処理結
果E(i)を
(i)]、E(i)の各要素e j (i)をe j (i)=
[e j1 (i),e j2 (i),…,e jt (i)]′、前記
基底ベクトル計算ステップにおけるk回目の繰り返しで
のw i の値をw i (k)=[w i1 (k),w i2 (k),
…,w it (k)]′、ベクトル
記コストに
る。
に記載のテキストマイニングにおける文書の特徴量抽出
方法において、前記基底ベクトル計算ステップは、前記
基底べクトルの値を初期化する初期化ステップと、前記
基底べクトルの値を更新する基底ベクトル更新ステップ
と、前記基底べクトルの値の変化度合いを求める変化度
合い計算ステップと、前記基底べクトルの値の変化度合
いを用いて繰り返し処理を終了するかどうかを判別する
判別ステップと、前記繰り返し処理の回数を数える計数
ステップとを備えたことを特徴とする。
に記載のテキストマイニングにおける文書の特徴量抽出
方法において、前記基底ベクトル更新ステップは、前記
基底ベクトルの現在値と、前記単語−文書行列と、前記
基底べクトルの更新度合いを制御する更新率とを用いて
前記基底べクトルを更新することを特徴とする。
〜3のいずれか1項に記載のテキストマイニングにおけ
る文書の特徴量抽出方法において、前記特徴量の抽出に
必要とされる全ての前記基底べクトル及び前記正規化パ
ラメータを既に取得している場合は、前記基底べクトル
計算ステップ及び前記特徴量抽出ステップにおける前記
正規化パラメータの計算を省略し、前記特徴量抽出ステ
ップは、既に取得している前記基底べクトル及び前記正
規化パラメータを用いて前記特徴量を抽出することを特
徴とする。
容を代表する索引語に対応するベクトルからなる単語−
文書行列を用いて前記文書の特徴量を抽出するテキスト
マイニングにおける文書の特徴量抽出装置であって、前
記単語―文書行列の各要素には前記索引語に対する寄与
分が作用し、コストを最小化する最急降下法に基いて互
いに関連した文書および単語が近接する前記特徴量の空
間を張る基底べクトルを計算する基底ベクトル計算手段
と、前記単語−文書行列及び前記基底べクトルを用いて
前記特徴量を正規化するためのパラメータを計算し、該
パラメータに基き前記特徴量を抽出する特徴量抽出手段
と、前記単語−文書行列を更新して前記基底べクトルを
適用しない前記単語−文書行列と適用した前記単語−文
書行列との差分にする単語―文書行列更新手段とを備
え、前記単語−文書行列XをX=[x 1 ,x 2 ,…,
x d ]、ここでx j =[x j1 ,x j2 ,…,x jt ]′、E=
[e 1 ,e 2 ,…,e d ]、e j =[e j1 ,e j2 ,…,
e jt ]′=[x j1 ,x j2 ,…,x jt ]′、前記単語−文
書行列更新手段によるEのi番目の処理結果E(i)を
(i)]、E(i)の各要素e j (i)をe j (i)=
[e j1 (i),e j2 (i),…,e jt (i)]′、前記
基底ベクトル計算手段によるk回目の繰り返しでのw i
の値をw i (k)=[w i1 (k),w i2 (k),…,w
it (k)]′、ベクトル
ストに
る。
に記載のテキストマイニングにおける文書の特徴量抽出
装置において、前記基底ベクトル計算手段は、前記基底
べクトルの値を初期化する初期化手段と、前記基底べク
トルの値を更新する基底ベクトル更新手段と、前記基底
べクトルの値の変化度合いを求める変化度合い計算手段
と、前記基底べクトルの値の変化度合いを用いて繰り返
し処理を終了するかどうかを判別する判別手段と、前記
繰り返し処理の回数を数える計数手段とを備えたことを
特徴とする。
に記載のテキストマイニングにおける文書の特徴量抽出
装置において、前記基底ベクトル更新手段は、前記基底
ベクトルの現在値と、前記単語−文書行列と、前記基底
べクトルの更新度合いを制御する更新率とを用いて前記
基底べクトルを更新することを特徴とする。
〜7のいずれか1項に記載のテキストマイニングにおけ
る文書の特徴量抽出装置において、前記特徴量の抽出に
必要とされる全ての前記基底べクトル及び前記正規化パ
ラメータを既に取得している場合は、前記基底べクトル
計算手段及び前記特徴量抽出手段における前記正規化パ
ラメータの計算を省略し、前記特徴量抽出手段は、既に
取得している前記基底べクトル及び前記正規化パラメー
タを用いて前記特徴量を抽出することを特徴とする。
置は、以下の手段によって構成される。即ち、元の単語
−文書行列と基底べクトルを適用した単語−文書行列と
の差分の二次関数をコストとして定義し、そのコストに
対して最急降下法を適用して基底べクトルを計算する基
底べクトル計算手段と、単語−文書行列及び基底べクト
ルを用いて、特徴量を正規化するためのパラメータを計
算し、各文書に対して特徴量を抽出する特徴量抽出手段
と、特徴量抽出手段の実行間で重複した特徴量を抽出し
ないように上記の差分で単語−文書行列を更新する単語
−文書行列更新手段と、上記各手段の実行を制御する特
徴量抽出制御手段とを備えていれば足りる。
−文書行列を基に計算を繰り返し、最終的に1つの基底
べクトルを算出する。繰り返しの処理は、各繰り返し処
理間で基底べクトルの変化度合いが所定の基準値以下に
なったときに終了する。特徴量抽出手段は、入力された
基底べクトル及び単語−文書行列を基に、特徴量を正規
化するためのパラメータを計算し、各文書に対して1つ
の特徴量を抽出する。単語−文書行列更新手段は、入力
された基底べクトルを基に、単語−文書行列を更新す
る。
手段、特徴量抽出手段、及び単語−文書行列更新手段を
制御し、ユーザーにより定義された特徴量の数を満たす
まで、各手段の実行を繰り返す。但し、基底べクトル及
び正規化パラメータが既に計算されている場合には、基
底べクトル計算手段の実行及び特徴量抽出手段における
正規化パラメータの計算を省略される。そして、既に取
得している基底べクトル及び正規化パラメータを組み込
んだ構成で特徴量抽出を行うことになる。
装置の一実施例を示す図である。図5に示すように、特
徴量抽出制御手段200は、単語−文書行列更新手段2
10と、基底べクトル計算手段220と、特徴量抽出手
段230とを備える。100は単語−文書行列データフ
ァイル、300は基底べクトルデータファイル、400
は特徴量データファイル、450は正規化パラメータデ
ータファイルである。単語−文書行列データファイル1
00には、収集された文書データの単語−文書行列が記
憶されている。単語−文書行列更新手段210は第1回
目の繰り返し処理で単語−文書行列データファイル10
0から単語−文書行列を読み込み、その単語−文書行列
を更新せずに基底べクトル計算手段220及び特徴量抽
出手段230に渡す。
クトル計算手段220から渡された基底べクトルを基に
単語−文書行列を更新し、その結果を基底べクトル計算
手段220及び特徴量抽出手段230に渡す。基底べク
トル計算手段220は、単語−文書行列更新手段210
から渡された単語−文書行列を基に繰り返し処理により
1つの基底べクトルを計算する。そして、各繰り返し処
理で基底べクトルの変化度合いを監視し、変化度合いが
所定の基準値以下になったときに繰り返しの処理を終了
する。基底ベクトル計算手段220は、計算した基底べ
クトルを基底べクトルデータファイル300に格納する
と同時に、単語−文書行列更新手段210及び特徴量抽
出手段230に渡す。特徴量抽出手段230は単語−文
書行列更新手段210から渡された単語−文書行列及び
基底べクトル計算手段220から渡された基底べクトル
を基に各文書に対して1つの特徴量を抽出する。その結
果を特徴量データファイル400に格納すると同時に、
それらの特徴量を正規化するためのパラメータを正規化
パラメータデータファイル450に記録する。
トル計算手段220及び特徴量抽出手段230による、
上述の実行を1回の繰り返しとする。繰り返し処理の回
数を添字iで、ユーザーが指定した特徴量の数を添字n
で示す。特徴量抽出制御手段200では、i=nの条件
を満たすまで、処理を一単位ずつ繰り返す。また、必要
とされる全ての基底べクトル及び正規化パラメータを既
に取得しており、これらの値が既知の場合は、基底べク
トル計算手段220の実行及び特徴量抽出手段230に
おける正規化パラメータの計算を省略し、既知の基底べ
クトル及び正規化パラメータを組み込んだ単語―文書行
列更新手段210及び特徴量抽出手段230のみで特徴
量抽出制御手段200を構成する。
成の一例を示す図である。図6に示すように、特徴量抽
出装置は、装置全体の制御を行う中央処理装置(Centra
l Processor Unit; CPU)10と、プログラムが格納
され又はプログラムの実行に必要な一時データ格納領域
を提供するメモリ20と、データを入力するためのキー
ボード30と、表示画面を生成するディスプレイ40と
を備える。単語−文書行列データファイル100、基底
べクトルデータファイル300、特徴量データファイル
400、正規化パラメータデータファイル450及び特
徴量抽出制御手段200によって実行されるプログラム
はメモリ20に格納されている。
ード30又はディスプレイ40上の所定の位置指定する
マウス等によりユーザーの指示を受けたCPU10によ
って特徴量抽出が行われることとなる。なお、図5に示
す例では、特徴量抽出制御手段200はスタンドアロン
の構成としているが、他のシステムに組み込んだ構成と
することも可能であることは言うまでもない。
構成図である。図7において、101−1,101−
2,…,101−dはd個からなるt次元の単語−文書
データに対応する。ここで、X=[x1,x2,…,
xd]、xj=[xj1,xj2,…,x jt]′を定義し、単
語―文書データ101をt×dの行列Xで示す。
れた基底べクトルデータファイルの構成図である。図8
において、301−1,301−2,…,301−nは
n個からなるt次元の基底べクトルデータに対応する。
i番目の要素301−iは、図5におけるi回目の繰り
返し処理における基底べクトル計算手段220の出力値
に対応する。以下の説明では、この要素をt×1の列べ
クトルwi=[wi1,wi2,…,wit]′で示す。
ある。図9において、401−1,401−2,…,4
01−nはn個からなるd次元の特徴量データに対応す
る。i番目の要素401−iは図5におけるi回目の繰
り返し処理における特徴量抽出手段230による特徴量
の出力値に対応する。この要素を1×dの行べクトルy
i=[yi1,yi2,…,yid]で示す。
ルの構成図である。図10において、451−1,45
2−2,…,451−nはn個からなる正規化パラメー
タデータに対応する。i番目の要素451−iは図5に
おけるi回目の繰り返し処理での特徴量抽出手段230
による正規化パラメータの出力値に対応する。この要素
をpiで示す。
特徴量抽出の実現方式を詳細に説明する。単語―文書行
列更新手段210では、i=1の場合、即ち繰り返し処
理の1回目の実行に限り、Xを単語―文書行列データフ
ァイル100から読み込み、何ら演算を行うことなくt
×dの行列Eに格納する。従って、E=[e1,e2,
…,ed]、ej=[ej1,ej2,…,ejt]′=
[xj1,xj2,…,xjt]′となる。前の繰り返し処理
で抽出された特徴量が重複して抽出されないために、図
5におけるi回目の繰り返しで下のようにEをその現在
値及び1つ前の繰り返し処理において計算された基底べ
クトルを用いて更新し、その結果を基底ベクトル計算手
段220に渡す。この処理によって格納される、Eのi
番目の処理結果E(i)は、式(5)のように表され
る。
2(i),…,ed(i)]であり、E(i)の各要素e
j(i)はej(i)=[ej1(i),ej2(i),…,
ejt(i)]′で定義される。即ち、i≧2の場合は、
単語−文書行列は基底べクトルを適用しない単語−文書
行列から基底べクトルを適用した単語−文書行列を引い
た差分に更新される。
基底べクトルの計算の流れ図である。図11におけるk
回目の繰り返しでのwiの値をwi(k)=[w
i1(k),w i2(k),…,wit(k)]′で示す。先
ず、ステップS500にて添字kを1で初期化する。続
いてステップS510へ移行し、wi(1)の各要素を
−CからCまでの間の任意の値で初期化する。ここで、
Cの値は正の小さい数であり、例えばC=0.01とし
てもよい。ステップS520では、互いに関連した文書
や単語が近接する特徴量の空間を張る基底べクトルを計
算するため、式(6)に示す二次コストを設ける。
の空間の中で複数の単語の位置が近接することを言い、
「文書が近接する」とは、複数の文書の各々に含まれる
単語の位置が特徴量の空間の中で近接することを言う。
また、コストとは最小化したい対象を言い、本実施形態
で定義されるコストは式(6)のように基底ベクトルを
適用しない単語−文書行列と基底べクトルを適用した単
語−文書行列との差分の二次関数として定義される。こ
こで、
てwiの値を式(8)のように更新する。
の更新の度合いを制御する更新率で、kが1のときに正
の小さい数で初期化し、例えばμi(1)=0.1とし
てもよい。kが加算される度に徐々に値を減少させ、あ
るいはkの値によらず一定値とすることも可能である。
また、zi(k)は次のように定義される。
化度合いを示すδiを求める。
に処理を終了するかどうかを判別する。判別の結果、終
了すると判断した場合はステップS560へ進み、そう
でない場合はステップS550へ進む。ここで、図11
におけるβiは正の小さい数であり、例えばβi=1×1
0-6とすることができる。
つ増やし、ステップS520に戻る。ステップS560
ではwiを基底ベクトルデータファイル300にi番目
のデータとして格納すると同時に、単語―文書行列更新
手段210及び特徴量抽出手段230に渡す。特徴量抽
出手段230では次のように特徴量yi及び正規化パラ
メータpiを計算して、その結果それぞれを特徴量デー
タファイル400及び正規化パラメータデータファイル
450にi番目のデータとして格納する。
置を用いた文書自動分類装置の一例を示す図である。図
12において、601は単語−文書行列計算手段、60
2は分類手段である。分類手段602は、1993年に
発行された「Journal of Intelligent and Fuzzy Syste
ms」の第1巻第1号第1項から第25項で述べられてい
る方法により行うことができる。
ータは、文書自動分類装置に取り込まれる。文書自動分
類装置では、単語−文書行列計算手段601で単語−文
書行列の計算を行い、その結果を特徴量抽出制御手段2
00に渡す。特徴量抽出制御手段200は受け取った単
語−文書行列から特徴量を抽出し、その結果を分類手段
602に出力する。分類手段602では、入力された特
徴量を基に分類の結果が出力される。
のような文書データを含んだ、入試制度に関する実際の
文書データにより特徴量抽出の評価を行った。本発明
は、従来のLSAを使用した場合と同じ性質の特徴量を
抽出することが確認できた。
して、単語数tが文書数dよりかなり大きい(t≫d)
といった実際の場合において、従来のLSAが少なくと
も、t2のオーダーを必要するのに対して、本発明は各
々基底べクトルの計算のために高々t・dのオーダーの
メモリサイズで足りる。また、従来の技術を実現するに
は、複雑な行列演算装置が必要であるが、本方式は四則
演算程度を行う装置があれば容易に実現することができ
る。即ち、本発明によれば、LSAによる特徴量抽出と
同等の効果を、より小さいメモリ空間、より簡単なプロ
グラムにより得ることができる。また、この簡単なプロ
グラムはDSP(Digital Signal Processor)におとす
ことができるため、特徴量抽出専用のチップを簡単に作
成することが出来る。
本実施形態に係る特徴量抽出装置を実行した各手段の結
果を示す。
1回目の繰り返し(i=1) 単語−文書行列更新手段210では式(5)より
抽出手段230へ出力する。
1(1)を [0.0100,−0.0100,0.0100,−0.0100,0.0100,−0.
0100,0.0100,−0.0100,0.0100,−0.0100,0.010
0]′ で、μ1を固定の値0.1で、β1を1×10-6で初期化
し、以下のように図11の計算を132回繰り返した
後、基底べクトルw1=[0.1787,0.1787,0.1787,0.4
314,0.4314,0.1787,0.1787,0.4314,0.4314,0.178
7,0.2527]′ を基底べクトルデータファイル300に格納すると共
に、特徴量抽出手段230、及び単語−文書行列更新手
段210へ出力する。
1回目の繰り返し(k=1) 式(8)より、 w1(2)=[0.0103,−0.0097,0.0103,−0.0093,
0.0107,−0.0103,0.0097,−0.0100,0.0100,−0.01
03,0.0103]′ w1(2)−w1(1)=10-3×[0.3332,0.3334,0.
3332,0.6668,0.6666,−0.3332,−0.3334,0.0001,
−0.0001,−0.3332,0.3332]′ δ1(1)=0.0013 *基底ベクトル計算手段220における第2回目の繰り
返し(k=2) 式(8)より、 w1(3)=[0.0107,−0.0093,0.0107,−0.0085,
0.0115,−0.0107,0.0093,−0.0100,0.0100,−0.01
07,0.0107]′ w1(3)−w1(2)=10-3×[0.4110,0.4112,0.
4110,0.8001,0.7998,−0.3665,−0.3668,0.0224,
0.0221,−0.3665,0.3887]′ δ1(2)=0.0015 中 略 *基底ベクトル計算手段220における第132回目の
繰り返し(k=132) 式(8)より、 w1(133)=[0.1787,0.1787,0.1787,0.4314,
0.4314,0.1787,0.1787,0.4314,0.4314,0.1787,0.
2527]′ w1(133)−w1(132)=10-6×[−0.3020,
−0.3020,−0.3020,−0.3020,−0.3020,0.3020,0.
3020,0.3020,0.3020,0.3020,0.0000]′ δ1(132)=9.5500×10-7 特徴量抽出手段230では式(11)及び式(12)の
演算を行い、 y1=[0.5000,0.5000,0.7071] 及び p1=2.7979 をそれぞれ特徴量データファイル400及び正規化パラ
メータデータファイル450へ出力する。
第2回目の繰り返し(i=2) 単語−文書行列更新手段210では式(5)より
抽出手段230へ出力する。
2(1)を [0.0100,−0.0100,0.0100,−0.0100,0.0100,−0.
0100,0.0100,−0.0100,0.0100,−0.0100,0.010
0]′ で、μ2を固定の値0.1で、β2を1×10-6で初期化
し、図11の計算を119回繰り返した後、基底ベクト
ルw2=[0.3162,0.3162,0.3162,0.3162,0.3162,
−0.3162,−0.3162,−0.3162,−0.3162,−0.3162,
0.0000]′ を基底ベクトルデータファイル300に格納すると共
に、特徴量抽出手段230、及び単語−文書行列更新手
段210へ出力する。
1回目の繰り返し(k=1) 式(8)より、 w2(2)=[0.0102,−0.0098,0.0102,−0.0096,
0.0104,−0.0105,0.0095,−0.0103,0.0097,−0.01
05,0.0102]′ w2(2)−w2(1)=10-3×[0.2154,0.2156,0.
2154,0.3822,0.3821,−0.4511,−0.4513,−0.284
4,−0.2846,−0.4511,0.1666]′ δ2(1)=0.0011 *基底ベクトル計算手段220における第2回目の繰り
返し(k=2) 式(8)より、 w2(3)=[0.0105,−0.0095,0.0105,−0.0092,
0.0108,−0.0110,0.0090,−0.0106,0.0094,−0.01
10,0.0103]′ w2(3)−w2(2)=10-3×[0.2624,0.2626,0.
2624,0.4413,0.4411,−0.5152,−0.5154,−0.336
4,−0.3366,−0.5152,0.1786]′ δ2(2)=0.0013 中 略 *基底ベクトル計算手段220における第119回目の
繰り返し(k=119) 式(8)より、 w2(120)=[0.3162,0.3162,0.3162,0.3162,
0.3162,−0.3162,−0.3162,−0.3162,−0.3162,0.
0000]′ w2(120)−w2(119)=10-6×[0.3327,0.
3333,0.3327,−0.1375,−0.1381,0.3332,0.3326,
−0.1377,−0.1383,0.3332,−0.4712]′ δ2(119)=9.8141×10-7 −特徴量抽出手段230では式(11)及び式(12)
の演算を行い、 y2=[0.7071,−0.7071,−0.0000] 及び p2=2.2361 をそれぞれ特徴量データファイル400及び正規化パラ
メータデータファイル450へ出力する。
3の特徴量ベクトルはそれぞれ[0.5000,0.7071]′、
[0.5000,−0.7071]′、[0.7071,−0.0000]′とな
る。これらは、従来例の説明において示された各文書の
LSAの特徴量と比較すると、第二番目の要素の符号が
逆になっているが同一の絶対値をとる。従って、式
(2)の類似度の計算に関してLSAの特徴量と同じ性
質を持つ。
データファイル300に格納された基底ベクトル及び正
規化パラメータデータファイル450に格納された正規
化パラメータを用いるので、基底ベクトル計算手段22
0の実行及び特徴量抽出手段における正規化パラメータ
の計算を省略する。図3の質問をXとする。
目の繰り返し(i=1) 単語−文書行列更新手段210では、式(5)より
特徴量抽出の際に得られた特徴量ベクトルw1及び正規
化パラメータp1を用いて式(11)及び式(12)の
演算を行い y1=[0.6542] を特徴量データファイル400へ出力する。
第2回目の繰り返し(i=2) 単語−文書行列更新手段210では、図1に示す文書の
特徴量抽出を行う際に得られた特徴量ベクトルw1を用
いて、式(5)より
徴量抽出の際に得られた特徴量ベクトルw2及び正規化
パラメータp2を用いて、式(11)及び式(12)の
演算を行い、 y2=[−0.0000] を特徴量データファイル400へ出力する。
ルは[0.6542,−0.0000]′となり、従来例の説明で示
した値と比較すると2番目の要素は同一の絶対値をと
る。
文書の内容を代表する索引語に対応するベクトルからな
る単語−文書行列を用いて前記文書の特徴量を抽出する
テキストマイニングにおける文書の特徴量抽出方法であ
って、前記単語―文書行列の各要素には前記索引語に対
する寄与分が作用し、コストを最小化する最急降下法に
基いて互いに関連した文書および単語が近接する前記特
徴量の空間を張る基底べクトルを計算する基底ベクトル
計算ステップと、前記単語−文書行列及び前記基底べク
トルを用いて前記特徴量を正規化するためのパラメータ
を計算し、該パラメータに基き前記特徴量を抽出する特
徴量抽出ステップと、前記単語−文書行列を更新して前
記基底べクトルを適用しない前記単語−文書行列と適用
した前記単語−文書行列との差分にする単語―文書行列
更新ステップとを備え、前記単語−文書行列XをX=
[x 1 ,x 2 ,…,x d ]、ここでx j =[x j1 ,x j2 ,
…,x jt ]′、E=[e 1 ,e 2 ,…,e d ]、e j =[e
j1 ,e j2 ,…,e jt ]′=[x j1 ,x j2 ,…,
x jt ]′、前記単語−行列更新ステップにおけるEのi
番目の処理結果E(i)を
(i)]、E(i)の各要素e j (i)をe j (i)=
[e j1 (i),e j2 (i),…,e jt (i)]′、前記
基底ベクトル計算ステップにおけるk回目の繰り返しで
のw i の値をw i (k)=[w i1 (k),w i2 (k),
…,w it (k)]′、ベクトル
記コストに
マイニングにおける文書の特徴量抽出に関し、LSAを
実行可能な装置よりも小さいメモリ空間でLSAと同じ
性質を持つ特徴量を抽出することができる。また、LS
Aと同じ性質を持つ特徴量を抽出するための専用ソフト
ウェアやハードウェアを容易に作成することが可能とな
る。
す図である。
引語とした単語−文書行列の一例を示す図である。
図である。
る。
図である。
す図である。
る。
トルデータファイルの構成図である。
ある。
の計算の流れ図である。
用いた文書自動分類装置の一例を示す図である。
語−文書データ 200 特徴量抽出制御手段 210 単語―文書行列更新手段 220 基底ベクトル計算手段 230 特徴量抽出手段 300 基底ベクトルデータファイル 301−1、301−2、301−3、301−n 基
底べクトルデータ 400 特徴量データファイル 401−1、401−2、401−3、401−n 特
徴量データ 450 正規化パラメータデータファイル 451−1、451−2、451−3、451−n 正
規化パラメータデータ 601 単語―文書行列計算手段 602 分類手段
Claims (8)
- 【請求項1】 文書の内容を代表する索引語に対応する
ベクトルからなる単語−文書行列を用いて前記文書の特
徴量を抽出するテキストマイニングにおける文書の特徴
量抽出方法であって、前記単語―文書行列の各要素には
前記索引語に対する寄与分が作用し、コストを最小化す
る最急降下法に基いて互いに関連した文書および単語が
近接する前記特徴量の空間を張る基底べクトルを計算す
る基底ベクトル計算ステップと、前記単語−文書行列及
び前記基底べクトルを用いて前記特徴量を正規化するた
めのパラメータを計算し、該パラメータに基き前記特徴
量を抽出する特徴量抽出ステップと、前記単語−文書行
列を更新して前記基底べクトルを適用しない前記単語−
文書行列と適用した前記単語−文書行列との差分にする
単語―文書行列更新ステップとを備え、前記単語−文書
行列XをX=[x 1 ,x 2 ,…,x d ]、ここでx j =[x
j1 ,x j2 ,…,x jt ]′、E=[e 1 ,e 2 ,…,
e d ]、e j =[e j1 ,e j2 ,…,e jt ]′=[x j1 ,x
j2 ,…,x jt ]′、前記単語−行列更新ステップにおけ
るEのi番目の処理結果E(i)を 【数1】 ここで、E(i)=[e 1 (i),e 2 (i),…,e d
(i)]、E(i)の各要素e j (i)をe j (i)=
[e j1 (i),e j2 (i),…,e jt (i)]′、前記
基底ベクトル計算ステップにおけるk回目の繰り返しで
のw i の値をw i (k)=[w i1 (k),w i2 (k),
…,w it (k)]′、ベクトル 【数2】 のm番目の要素を 【数3】 と定義した場合、前記基底ベクトル計算ステップは、前
記コストに 【数4】 を使用して前記基底ベクトルを計算することを特徴とす
るテキストマイニングにおける文書の特徴量抽出方法。 - 【請求項2】 前記基底ベクトル計算ステップは、前記
基底べクトルの値を初期化する初期化ステップと、前記
基底べクトルの値を更新する基底ベクトル更新ステップ
と、前記基底べクトルの値の変化度合いを求める変化度
合い計算ステップと、前記基底べクトルの値の変化度合
いを用いて繰り返し処理を終了するかどうかを判別する
判別ステップと、前記繰り返し処理の回数を数える計数
ステップとを備えたことを特徴とする請求項1に記載の
テキストマイニングにおける文書の特徴量抽出方法。 - 【請求項3】 前記基底ベクトル更新ステップは、前記
基底ベクトルの現在値と、前記単語−文書行列と、前記
基底べクトルの更新度合いを制御する更新率とを用いて
前記基底べクトルを更新することを特徴とする請求項2
に記載のテキストマイニングにおける文書の特徴量抽出
方法。 - 【請求項4】 前記特徴量の抽出に必要とされる全ての
前記基底べクトル及び前記正規化パラメータを既に取得
している場合は、前記基底べクトル計算ステップ及び前
記特徴量抽出ステップにおける前記正規化パラメータの
計算を省略し、前記特徴量抽出ステップは、既に取得し
ている前記基底べクトル及び前記正規化パラメータを用
いて前記特徴量を抽出することを特徴とする請求項1〜
3のいずれか1項に記載のテキストマイニングにおける
文書の特徴量抽出方法。 - 【請求項5】 文書の内容を代表する索引語に対応する
ベクトルからなる単語−文書行列を用いて前記文書の特
徴量を抽出するテキストマイニングにおける文書の特徴
量抽出装置であって、前記単語―文書行列の各要素には
前記索引語に対する寄与分が作用し、コストを最小化す
る最急降下法に基いて互いに関連した文書および単語が
近接する前記特徴量の空間を張る基底べクトルを計算す
る基底ベクトル計算手段と、前記単語−文書行列及び前
記基底べクトルを用いて前記特徴量を正規化するための
パラメータを計算し、該パラメータに基き前記特徴量を
抽出する特徴量抽出手段と、前記単語−文書行列を更新
して前記基底べクトルを適用しない前記単語−文書行列
と適用した前記単語−文書行列との差分にする単語―文
書行列更新手段とを備え、前記単語−文書行列XをX=
[x 1 ,x 2 ,…,x d ]、ここでx j =[x j1 ,x j2 ,
…,x jt ]′、E=[e 1 ,e 2 ,…,e d ]、e j =[e
j1 ,e j2 ,…,e jt ]′=[x j1 ,x j2 ,…,
x jt ]′、前記単語−文書行列更新ステップにおけるE
のi番目の処理結果E(i)を 【数5】 ここで、E(i)=[e 1 (i),e 2 (i),…,e d
(i)]、E(i)の各要素e j (i)をe j (i)=
[e j1 (i),e j2 (i),…,e jt (i)]′、前記
基底ベクトル計算手段によるk回目の繰り返しでのw i
の値をw i (k)=[w i1 (k),w i2 (k),…,w
it (k)]′、ベクトル 【数6】 のm番目の要素を 【数7】 と定義した場合、前記基底ベクトル計算手段は、前記コ
ストに 【数8】 を使用して前記基底ベクトルを計算することを特徴とす
るテキストマイニングにおける文書の特徴量抽出装置。 - 【請求項6】 前記基底ベクトル計算手段は、前記基底
べクトルの値を初期化する初期化手段と、前記基底べク
トルの値を更新する基底ベクトル更新手段と、前記基底
べクトルの値の変化度合いを求める変化度合い計算手段
と、前記基底べクトルの値の変化度合いを用いて繰り返
し処理を終了するかどうかを判別する判別手段と、前記
繰り返し処理の回数を数える計数手段とを備えたことを
特徴とする請求項5に記載のテキストマイニングにおけ
る文書の特徴量抽出装置。 - 【請求項7】 前記基底ベクトル更新手段は、前記基底
ベクトルの現在値と、前記単語−文書行列と、前記基底
べクトルの更新度合いを制御する更新率とを用いて前記
基底べクトルを更新することを特徴とする請求項6に記
載のテキストマイニングにおける文書の特徴量抽出装
置。 - 【請求項8】 前記特徴量の抽出に必要とされる全ての
前記基底べクトル及び前記正規化パラメータを既に取得
している場合は、前記基底べクトル計算手段及び前記特
徴量抽出手段における前記正規化パラメータの計算を省
略し、前記特徴量抽出手段は、既に取得している前記基
底べクトル及び前記正規化パラメータを用いて前記特徴
量を抽出することを特徴とする請求項5〜7のいずれか
1項に記載のテキストマイニングにおける文書の特徴量
抽出装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000197421A JP3524846B2 (ja) | 2000-06-29 | 2000-06-29 | テキストマイニングにおける文書の特徴量抽出方法及びその装置 |
DE10125011A DE10125011A1 (de) | 2000-06-29 | 2001-05-22 | Verfahren und Vorrichtung für die Textfilterung zur Extraktion von Merkmalen aus Dokumenten |
US09/871,272 US6882747B2 (en) | 2000-06-29 | 2001-05-31 | Text mining method and apparatus for extracting features of documents |
CA002351211A CA2351211C (en) | 2000-06-29 | 2001-06-22 | Text mining method and apparatus for extracting features of documents |
GB0115357A GB2369211B (en) | 2000-06-29 | 2001-06-22 | Text mining method and apparatus for extracting features of documents |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000197421A JP3524846B2 (ja) | 2000-06-29 | 2000-06-29 | テキストマイニングにおける文書の特徴量抽出方法及びその装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002014982A JP2002014982A (ja) | 2002-01-18 |
JP3524846B2 true JP3524846B2 (ja) | 2004-05-10 |
Family
ID=18695752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000197421A Expired - Fee Related JP3524846B2 (ja) | 2000-06-29 | 2000-06-29 | テキストマイニングにおける文書の特徴量抽出方法及びその装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6882747B2 (ja) |
JP (1) | JP3524846B2 (ja) |
CA (1) | CA2351211C (ja) |
DE (1) | DE10125011A1 (ja) |
GB (1) | GB2369211B (ja) |
Families Citing this family (144)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7124081B1 (en) * | 2001-09-28 | 2006-10-17 | Apple Computer, Inc. | Method and apparatus for speech recognition using latent semantic adaptation |
WO2003036425A2 (en) * | 2001-10-23 | 2003-05-01 | Electronic Data Systems Corporation | System and method for managing a procurement process |
DE10221606A1 (de) * | 2002-05-15 | 2003-12-04 | Georg S Wengler | Verfahren und Vorrichtung zur computergestützten Durchführung einer Literaturanalyse |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8272064B2 (en) * | 2005-11-16 | 2012-09-18 | The Boeing Company | Automated rule generation for a secure downgrader |
US8379841B2 (en) | 2006-03-23 | 2013-02-19 | Exegy Incorporated | Method and system for high throughput blockwise independent encryption/decryption |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7660793B2 (en) | 2006-11-13 | 2010-02-09 | Exegy Incorporated | Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors |
US8326819B2 (en) | 2006-11-13 | 2012-12-04 | Exegy Incorporated | Method and system for high performance data metatagging and data indexing using coprocessors |
US7963442B2 (en) * | 2006-12-14 | 2011-06-21 | Simmonds Precision Products, Inc. | Spin stabilized projectile trajectory control |
WO2008126184A1 (ja) * | 2007-03-16 | 2008-10-23 | Fujitsu Limited | 文書重要度算出プログラム |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US20080288488A1 (en) * | 2007-05-15 | 2008-11-20 | Iprm Intellectual Property Rights Management Ag C/O Dr. Hans Durrer | Method and system for determining trend potentials |
WO2009029842A1 (en) | 2007-08-31 | 2009-03-05 | Exegy Incorporated | Method and apparatus for hardware-accelerated encryption/decryption |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US20100114890A1 (en) * | 2008-10-31 | 2010-05-06 | Purediscovery Corporation | System and Method for Discovering Latent Relationships in Data |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713053B2 (en) * | 2010-03-09 | 2014-04-29 | Cisco Technology, Inc | Active tags |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
EP3809407A1 (en) | 2013-02-07 | 2021-04-21 | Apple Inc. | Voice trigger for a digital assistant |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
JP2016521948A (ja) | 2013-06-13 | 2016-07-25 | アップル インコーポレイテッド | 音声コマンドによって開始される緊急電話のためのシステム及び方法 |
AU2014306221B2 (en) | 2013-08-06 | 2017-04-06 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9208204B2 (en) | 2013-12-02 | 2015-12-08 | Qbase, LLC | Search suggestions using fuzzy-score matching and entity co-occurrence |
US9223833B2 (en) | 2013-12-02 | 2015-12-29 | Qbase, LLC | Method for in-loop human validation of disambiguated features |
WO2015084757A1 (en) * | 2013-12-02 | 2015-06-11 | Qbase, LLC | Systems and methods for processing data stored in a database |
US9542477B2 (en) | 2013-12-02 | 2017-01-10 | Qbase, LLC | Method of automated discovery of topics relatedness |
US9355152B2 (en) | 2013-12-02 | 2016-05-31 | Qbase, LLC | Non-exclusionary search within in-memory databases |
US9922032B2 (en) | 2013-12-02 | 2018-03-20 | Qbase, LLC | Featured co-occurrence knowledge base from a corpus of documents |
US9177262B2 (en) | 2013-12-02 | 2015-11-03 | Qbase, LLC | Method of automated discovery of new topics |
US9230041B2 (en) | 2013-12-02 | 2016-01-05 | Qbase, LLC | Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching |
US9424524B2 (en) | 2013-12-02 | 2016-08-23 | Qbase, LLC | Extracting facts from unstructured text |
US9201744B2 (en) | 2013-12-02 | 2015-12-01 | Qbase, LLC | Fault tolerant architecture for distributed computing systems |
US9659108B2 (en) | 2013-12-02 | 2017-05-23 | Qbase, LLC | Pluggable architecture for embedding analytics in clustered in-memory databases |
US9025892B1 (en) | 2013-12-02 | 2015-05-05 | Qbase, LLC | Data record compression with progressive and/or selective decomposition |
US9424294B2 (en) | 2013-12-02 | 2016-08-23 | Qbase, LLC | Method for facet searching and search suggestions |
US9547701B2 (en) | 2013-12-02 | 2017-01-17 | Qbase, LLC | Method of discovering and exploring feature knowledge |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10282468B2 (en) * | 2015-11-05 | 2019-05-07 | International Business Machines Corporation | Document-based requirement identification and extraction |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
WO2018119035A1 (en) | 2016-12-22 | 2018-06-28 | Ip Reservoir, Llc | Pipelines for hardware-accelerated machine learning |
US20180189307A1 (en) * | 2016-12-30 | 2018-07-05 | Futurewei Technologies, Inc. | Topic based intelligent electronic file searching |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5857179A (en) | 1996-09-09 | 1999-01-05 | Digital Equipment Corporation | Computer method and apparatus for clustering documents and automatic generation of cluster keywords |
US5884305A (en) | 1997-06-13 | 1999-03-16 | International Business Machines Corporation | System and method for data mining from relational data by sieving through iterated relational reinforcement |
US6611825B1 (en) * | 1999-06-09 | 2003-08-26 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
US6728728B2 (en) * | 2000-07-24 | 2004-04-27 | Israel Spiegler | Unified binary model and methodology for knowledge representation and for data and information mining |
AU2001286689A1 (en) | 2000-08-24 | 2002-03-04 | Science Applications International Corporation | Word sense disambiguation |
US6665661B1 (en) * | 2000-09-29 | 2003-12-16 | Battelle Memorial Institute | System and method for use in text analysis of documents and records |
US6925433B2 (en) * | 2001-05-09 | 2005-08-02 | International Business Machines Corporation | System and method for context-dependent probabilistic modeling of words and documents |
-
2000
- 2000-06-29 JP JP2000197421A patent/JP3524846B2/ja not_active Expired - Fee Related
-
2001
- 2001-05-22 DE DE10125011A patent/DE10125011A1/de not_active Ceased
- 2001-05-31 US US09/871,272 patent/US6882747B2/en not_active Expired - Fee Related
- 2001-06-22 GB GB0115357A patent/GB2369211B/en not_active Expired - Fee Related
- 2001-06-22 CA CA002351211A patent/CA2351211C/en not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
Kolda, T.G. et al,A Semidiscrete Matrix Decomposition for Latent Semantic Indexing in Information Retrieval,ACM Transactions on Information Systems,米国,ACM Press,1998年10月,Vol.16,No.4,pp.322−346. |
Also Published As
Publication number | Publication date |
---|---|
DE10125011A1 (de) | 2002-01-24 |
GB0115357D0 (en) | 2001-08-15 |
US20020031260A1 (en) | 2002-03-14 |
US6882747B2 (en) | 2005-04-19 |
GB2369211B (en) | 2002-11-27 |
GB2369211A (en) | 2002-05-22 |
CA2351211A1 (en) | 2001-12-29 |
JP2002014982A (ja) | 2002-01-18 |
CA2351211C (en) | 2006-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3524846B2 (ja) | テキストマイニングにおける文書の特徴量抽出方法及びその装置 | |
Clark et al. | Hierarchical modelling for the environmental sciences: statistical methods and applications | |
Lehtonen et al. | Practical methods for design and analysis of complex surveys | |
Kirkpatrick et al. | Direct estimation of genetic principal components: simplified analysis of complex phenotypes | |
WO2019144066A1 (en) | Systems and methods for preparing data for use by machine learning algorithms | |
Piepho et al. | Efficient computation of ridge‐regression best linear unbiased prediction in genomic selection in plant breeding | |
CN106126589B (zh) | 简历搜索方法及装置 | |
Narsky | Estimation of upper limits using a Poisson statistic | |
Grund et al. | Multiple imputation of missing data in multilevel models with the R package mdmb: A flexible sequential modeling approach | |
CN106708929A (zh) | 视频节目的搜索方法和装置 | |
Pesevski et al. | Subspace clustering with the multivariate-t distribution | |
Chakravarthy | A retrial queueing model with thresholds and phase type retrial times | |
Bonnéry et al. | Uniform convergence of the empirical cumulative distribution function under informative selection from a finite population | |
CN110442674B (zh) | 标签传播的聚类方法、终端设备、存储介质及装置 | |
Gelfand et al. | Modeling and inference for point-referenced binary spatial data | |
Kantz et al. | Coarse grained dynamical entropies: Investigation of high-entropic dynamical systems | |
Peyhardi et al. | Splitting models for multivariate count data | |
JP5175585B2 (ja) | 文書処理装置、電子カルテ装置および文書処理プログラム | |
LeBlanc et al. | Microbiome subcommunity learning with logistic-tree normal latent Dirichlet allocation | |
Zhang et al. | An efficient algorithm for computation of information matrix in phase-type fitting | |
Milocco et al. | A method to predict the response to directional selection using a Kalman filter | |
Ranganath | Black Box variational inference: Scalable, generic Bayesian computation and its applications | |
Musgrove et al. | A sparse areal mixed model for multivariate outcomes, with an application to zero-inflated census data | |
Guha et al. | Gauss–seidel estimation of generalized linear mixed models with application to poisson modeling of spatially varying disease rates | |
Belyaev et al. | Several Properties of the Model Solution after Data Assimilation into the NEMO Ocean Circulation Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20031210 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20031215 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040213 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090220 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100220 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |