JP2001014341A - データベース作成装置および関連文書/関連語検索装置、データベース作成方法および関連文書/関連語検索方法ならびに記憶媒体 - Google Patents
データベース作成装置および関連文書/関連語検索装置、データベース作成方法および関連文書/関連語検索方法ならびに記憶媒体Info
- Publication number
- JP2001014341A JP2001014341A JP11188613A JP18861399A JP2001014341A JP 2001014341 A JP2001014341 A JP 2001014341A JP 11188613 A JP11188613 A JP 11188613A JP 18861399 A JP18861399 A JP 18861399A JP 2001014341 A JP2001014341 A JP 2001014341A
- Authority
- JP
- Japan
- Prior art keywords
- document
- word
- search
- matrix
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
索を行うことができるようにする。 【解決手段】 文書群ファイルに含まれた各文書に対し
て自然言語解析を行い、出現単語、この出現単語の出現
頻度、およびその単語が出現した文書のIDのリストを
抽出し、単語リストファイルに保存する(ステップS
1)。次に、この単語リストファイル中の出現単語によ
る情報から、行方向に出現単語、列方向に文書番号をと
って、単語−文書行列を作成する(ステップS2)。そ
して、単語−文書行列を特異値分解して、特異値ベクト
ル、単語行列、文書行列を得(ステップS4)、この特
異値ベクトル、単語行列、文書行列の各々について要素
を大きい方からk個だけ取り出し、新たな特異値ベクト
ル、単語行列、文書行列を生成することで次元数を低減
する(ステップS5)。
Description
成装置および関連文書/関連語検索装置、データベース
作成方法および関連文書/関連語検索方法ならびに記憶
媒体に関する。
ータマイニングの分野において、その適用分野の一つで
ある文書マイニングは、インターネットのホームページ
を検索する検索エンジン利用の普及と伴って、コンピュ
ータの非専門家にとってもとりわけ注目の高いところで
ある。
である上に、実用に耐えうる速度での応答が求められる
ため、その解決方法の一つとして、我々は単語の共起に
基づいた検索アルゴリズムに注目してきた。「単語の共
起」とは、同一の文書/文に複数の単語が同時に出現す
ることをいう。
ング」には大別して2つのアプローチがあったと思われ
る。一つは、入力キーワードを含む文書集合に成立する
相関ルールを求め、そのルールに基づき検索をおこなう
ものである。発見すべき知識は、どのような単語同士が
共起しやすいかである。
/問い合わせ文と検索対象文書に現われる単語との共起
の度合いによって、より適切と考えられる文書を検索す
るものである。基本的な考え方は、検索要求ベクトルに
類似したベクトルをもつ文書は、適切な文書であると判
断するもので、一般にはベクトル空間モデル(vector-s
pace mode1)と呼ばれる。
われるが、その方法として、単一文書中で出現する頻度
(within-story term frequency)に応じて重みを与え
るtf法と、その単語が出現する文書数の逆数(inverse
document frequency)に応じて重みを与える(すなわ
ち、さまざまな文書に出現するありふれた単語の重みを
低くする)idf法とを組み合わせたtf・idfモデル、もし
くはその派生が用いられることが多い。
erによって提案された“Latent Semantic ana1ysis”が
ある(“Deerwester,S.,Dumais,S.T.,G.W.Landauer,T.
K.andHarshman,R.(1990):Indexing by 1atent sematic
ana1ysis.Journal of the American Society for Infor
mation Science,Vo1.41,No.7,PP.391-407”参照)。こ
れは、共起の頻度を示す単語−文書行列を特異値分解
(たとえば、“柳井晴夫、竹内啓(1983):射影行列・一
般逆行列・特異値分解、UP応用数学選書10、東京大学出
版会”参照)することにより、文書の潜在的意味構造を
抽出するものである。得られた意味空間において、互い
に関連した文書や単語は近接するように構成される。こ
の方法も結果的にはベクトル空間モデルの一つである
が、共起という一種のパターンマッチを間接的に用いて
いるために、「入力キーワードを全く含まないが意味的
に近い」文書をも選ぶこともできるようになる。たとえ
ば、“結婚”という語を入力キーワードにして、“結
婚”という語を含まないけれども、“披露宴”や“新婚
旅行”といった「“結婚”に関連の深い単語を含む文
書」を検索することが可能となる。
分解は巨大なメモリ空間を必要とし、データ数が数千を
越える程度の大きさの問題に対してさえ、計算量の制限
からワークステーションやパソコンの性能では実行不可
能である。
書/関連語の検索を行うことができるようにすることに
ある。
は、文書群に出現する単語の抽出を行なって当該単語に
関する情報のリストを生成する単語抽出部と、前記文書
群を構成する各文書が前記リストの単語のうちのどれを
含んでいるかを示す単語−文書行列を生成する単語−文
書対応作成部と、この単語−文書行列を特異値分解する
特異値分解部と、この特異値分解後の結果から特異値を
大きい方から所定数だけ取り出して前記結果を次元低減
したデータを作成する次数低減部とを備えている関連文
書/関連語検索用のデータベース作成装置である。
行列要素が0)であるという点と、特異値分解において
特異値の大きい方から限られた個数だけ求めれば関連文
書/関連語検索においては十分であるという点とに着目
し、特異値分解後の結果から特異値を大きい方から所定
数だけ取り出して、この結果を次元低減したデータを作
成することにより、作成した関連文書/関連語検索用の
データベースの記憶容量を低減することができる。
のデータベース作成装置において、前記単語−文書対応
作成部は、前記データを用いて関連文書検索を行う場合
に大きな文書ほど関連文書として検索されやすいことを
修正するように基準化して前記単語−文書行列を生成す
るものである。
きな文書ほど関連文書として検索されやすい弊害を防止
することができる。
2に記載のデータベース作成装置で作成された前記デー
タを記憶する記憶部と、文書検索のための問い合わせと
前記文書群の各文書との空間的距離を前記データを用い
て測ることにより前記問い合わせに関連がある文書を関
連が深い順に前記文書群から検索する関連文書検索部と
を備えている関連文書検索装置である。
関連語検索用のデータベースを用い、関連文書の検索を
行うことができる。
2に記載のデータベース作成装置で作成された前記デー
タを記憶する記憶部と、文書検索のための問い合わせと
前記文書群に含まれる各単語との空間的距離を前記デー
タを用いて測ることにより前記問い合わせに関連がある
単語を関連が深い順に前記文書群に含まれる単語から検
索する関連語検索部とを備えている関連語検索装置であ
る。
関連語検索用のデータベースを用い、関連語の検索を行
うことができる。
る単語の抽出を行なって当該単語に関する情報のリスト
を生成する工程と、前記文書群を構成する各文書が前記
リストの単語のうちのどれを含んでいるかを示す単語−
文書行列を生成する工程と、この単語−文書行列を特異
値分解する工程と、この特異値分解後の結果から特異値
を大きい方から所定数だけ取り出して前記結果を次元低
減したデータを作成する工程とを含んでなる関連文書/
関連語検索用のデータベース作成方法である。
行列要素が0)であるという点と、特異値分解において
特異値の大きい方から限られた個数だけ求めれば関連文
書/関連語検索においては十分であるという点とに着目
し、特異値分解後の結果から特異値を大きい方から所定
数だけ取り出して、この結果を次元低減したデータを作
成することにより、作成した関連文書/関連語検索用の
データベースの記憶容量を低減することができる。
のデータベース作成方法において、前記単語−文書行列
生成工程は、前記データを用いて関連文書検索を行う場
合に大きな文書ほど関連文書として検索されやすいこと
を修正するように基準化して前記単語−文書行列を生成
するものである。
きな文書ほど関連文書として検索されやすい弊害を防止
することができる。
6に記載のデータベース作成方法で作成された前記デー
タを用い、文書検索のための問い合わせと前記文書群の
各文書との空間的距離を測ることにより前記問い合わせ
に関連がある文書を関連が深い順に前記文書群から検索
する工程を含んでなる関連文書検索方法である。
関連語検索用のデータベースを用い、関連文書の検索を
行うことができる。
6に記載のデータベース作成方法で作成された前記デー
タを用い、文書検索のための問い合わせと前記文書群に
含まれる各単語との空間的距離を測ることにより前記問
い合わせに関連がある単語を関連が深い順に前記文書群
に含まれる単語から検索する工程を含んでなる関連語検
索方法である。
関連語検索用のデータベースを用い、関連語の検索を行
うことができる。
る単語の抽出を行なって当該単語に関する情報のリスト
を生成する工程と、前記文書群を構成する各文書が前記
リストの単語のうちのどれを含んでいるかを示す単語−
文書行列を生成する工程と、この単語−文書行列を特異
値分解する工程と、この特異値分解後の結果から特異値
を大きい方から所定数だけ取り出して前記結果を次元低
減したデータを作成する工程とにより、関連文書/関連
語検索用のデータベースの作成をコンピュータに実行さ
せるプログラムを記憶した、コンピュータに読み取り可
能な記憶媒体である。
行列要素が0)であるという点と、特異値分解において
特異値の大きい方から限られた個数だけ求めれば関連文
書/関連語検索においては十分であるという点とに着目
し、特異値分解後の結果から特異値を大きい方から所定
数だけ取り出して、この結果を次元低減したデータを作
成することにより、作成した関連文書/関連語検索用の
データベースの記憶容量を低減することができる。
載の記憶媒体において、前記単語−文書行列生成工程
は、前記データを用いて関連文書検索を行う場合に大き
な文書ほど関連文書として検索されやすいことを修正す
るように基準化して前記単語−文書行列を生成するもの
である。
きな文書ほど関連文書として検索されやすい弊害を防止
することができる。
は10に記載の記憶媒体を用いてコンピュータで作成し
た前記データを用い、文書検索のための問い合わせと前
記文書群の各文書との空間的距離を測ることにより前記
問い合わせに関連がある文書を関連が深い順に前記文書
群から検索することをコンピュータに実行させるプログ
ラムを記憶した、コンピュータに読み取り可能な記憶媒
体である。
関連語検索用のデータベースを用い、関連文書の検索を
行うことができる。
は10に記載の記憶媒体を用いてコンピュータで作成し
た前記データを用い、文書検索のための問い合わせと前
記文書群に含まれる各単語との空間的距離を測ることに
より前記問い合わせに関連がある単語を関連が深い順に
前記文書群に含まれる単語から検索することをコンピュ
ータに実行させるプログラムを記憶した、コンピュータ
に読み取り可能な記憶媒体である。
関連語検索用のデータベースを用い、関連語の検索を行
うことができる。
を行方向に(抽出された)単語のリスト、列方向に各文
書を取り、各文書毎に各単語が出現するかどうかを記憶
させたものと定義し、次のように表現する。
書数としたときt×d行列で表し、その各要素をxijと
したとき、 xij=1(単語i(1≦i≦t)が文書(1≦j≦d)
に含まれるとき) または xij=0(単語iが文書jに含まれないとき) …… (1) とする。
解する。
(対角要素以外はすべて0)、D0´はm×d行列であ
る。また0≦d≦tとする。“´(ダッシュ)”はD0
の転置を示す。S0の対角要素は大きい順とする。
値分解:]単語−文書行列は一般に巨大な疎行列とな
る。このような巨大な疎行列に対する特異値問題を解く
ために、最も単純なアルゴリズムである部分空間反復
(サブスペース繰返し)法を用いる。この方法は古典的
なベキ乗法(power method)のブロック化と見なすこと
ができる。この部分空間反復法にはいくつかのバリエー
ションがあるが、その内の一つは、“B=X´X”に対
して次の式を更新する。
である(“s”は、計算上の精度を高めるために必要な
特異値の数に余裕を加えた次元数。例えば、必要な特異
値の数が50なら10を加えて60とする。以下同
じ。)。iは、求めるBの特異値の数pまで繰り返す。
ここで、列べクトル“zj(1≦j≦s)”は、“‖zj‖
=1”で、かつ、互いに独立になるように適当に定め
る。このようにすれば、列ベクトルzjは行列Bの主要な
特異値に収束してゆく。これにより、行列Ziは漸次、
列ごとの線形独立性を失ってゆく。そこで行列Bの大き
なp個の特異値ペアを近似するために、各ステップにお
いて修正Gram-Scmidtプロシージャを用い、zjを互いに
直交にすれば、それらの間の線形独立性が保たれること
をBauerは示した(“Bauer,F.L.(1957年): Das Verfahr
en der Treppeniterationund verwandte zur Losung al
gebraiscer Eigenwertprobleme,ZAMP,8,214-235”参
照)。
対する収束速度はわずか1次に過ぎない。そこで部分空
間反復に、洗練されたRutishauser(1970年)のritzit
プログラム(部分空間反復に、さらにRay1eigh-Ritzプ
ロシージャとChebyshev多項式を経た高速化を行なって
いる)を使用している(“Rutishauser,H.(1970年):On
the rates of convergence of the Lanczos and the bl
ock-Lanczos methods,SIAM Jouranal of Numerical Ana
lysis, vol.17, pp687-706”参照)。
得た行列S0の対角要素のうち大きいほうからk番目ま
でを取り、これを新たな正方対角行列Sとする。それに
対応して、行列T0および行列D0もk列までを抜き出
し、これを新たな行列TおよびDとする。このとき、 X^(Xのハット)=TSD´ …… (3) として作成される行列X^は行列Xの近似となる。ここ
で行列Tはt×k行列、行列Sはk×kの正方対角行
列、行列D´はk×d行列である。本発明の実施の形態
の対象とする言語データのような場合、経験的にkは5
0〜100程度にするとよい。
わせを擬似文書qと考える。例えば、複数個の単語の組
み合わせ等から問い合わせ文を作る。この擬似文書qか
ら単語を抽出して、t次元の単語ベクトルxqで表現す
ることができる。これを用いて、文書行列Dの行に対応
する1×kの文書ベクトル dq=xq´TS-1 を導くことができる。
角行列である。“´(ダッシュ)”は転置を、“-1”は
逆行列を示し、“S=diag(μ1,μ2,…,μk)”と
したとき、“S-1=diag(1/μ1,1/μ2,…,1/
μk)”である。このとき擬似文書qの文書ベクトルdq
(k次元ベクトル)に対し、比較の対象とする文書cの
文書ベクトルをdc(k次元ベクトル)とすれば、両文
書の相関係数r(dq,dc)は、両文書がなす角の余弦
で与えられる。
t次元の単語ベクトルxcを使って“dc=xc´T
S-1”で求められる。これより、擬似文書dqに近い文
書を、近さの順に提示することが可能となる。なお
(4)式の右辺分子の括弧は、内積を示す。
の単語ベクトルxqで表現することにより、擬似文書の
座標をその擬似文書が含む単語群の中心(centoroi
d)、すなわち、 tq=(擬似文書qに含まれている単語に対応する行列Tの行ベクトルtiの平 均) …… (5) に定めることができる。このようにすれば、比較の対象
とする単語cに対する行列Tのc行で表されるk次元ベ
クトルをtcとするとき、両単語の相関係数は、(4)
式と同じように、 r(tq,tc)=(tq,tc)/‖tq‖‖tc‖ …… (6) として与えられる。これより擬似文書qに関係の深い単
語をその近さの順で提示することができるようになる。
も動作する。典型的には、図1に示すように、クライア
ント2と、データベース作成装置、関連文書/関連語検
索装置であるサーバ3とがネットワーク4で接続されて
いるクライアント/サーバシステム1で構成され、デー
タベース5を格納するサーバ3に対して、クライアント
2から検索要求を問い合わせ、その検索結果をサーバ3
がクライアント2に返すものである。
用いるコンピュータの概略構成を示すブロック図であ
る。図2に示すように、このコンピュータ2,3は、C
PU6と、ROM、RAMなどの記憶装置7とがバス8
で接続されている。また、バス8には、記憶媒体である
CD−ROM9を読み取るCD−ROMドライブ10を
制御するためのCD−ROMドライブ制御部11と、C
RTなどの表示装置12およびキーボード、マウスなど
の入力装置13を制御する入出力制御部14と、ハード
ディスク15を制御するハードディスク制御部16と、
コンピュータ2,3をネットワーク4と接続するための
LAN制御部17とが接続されている。クライアント2
のハードディスク15には、CD−ROM9から本シス
テムのクライアント用ソフトがインスツールされ、サー
バ3のハードディスク15には、CD−ROM9から本
システムのサーバ用ソフトがインスツールされている。
ァイルとしてサーバ3のハードディスク15へ保持し、
検索時に利用する。 ・検索対象となる文書群を保持する文書群ファイル21 ・文書群ファイルから抽出した単語を保持する単語リス
トファイル22 ・文書群ファイルから抽出された単語が各文書で存在す
るかどうかを示す行列(単語−文書行列X)を保持する
単語−文書ファイル23 ・単語−文書ファイルから特異値分解をした結果を保持
する特異値分解ファイル24
版社名、発行日等)、要約文等から構成される。
照) 各単語毎に、単語の表記、この単語が文書群中に出現す
る頻度、および、この単語が出現した文書IDのリスト
で構成される。
照) 次のような順序で構成する。行列の行数、行列の列数、
行列中の非ゼロ要素数、列ごとに読み込んだ場合の各列
先頭時点における非ゼロ要素の累積数+1、各列におけ
る非ゼロ要素の行番号、非ゼロ要素の値そのもの(整
数、あるいは実数)
照) このファイルには、次の3つが含まれる。特異値のリス
ト、特異値分解された単語行列T、特異値分解された文
書行列D
て予め文書群で使用している単語の抽出を行い、各文書
がこれらの単語のうちどれを含んでいるかを示す単語−
文書ファイル23を作成し、このファイルを特異値分解
し、次元の低減を行った結果を特異値分解ファイル24
に保持する。関連文書検索は、その結果を用いて、ユー
ザからの問い合わせに応じた文書を関連の度合いの大き
い順に出力する。また、関連語検索も同様に解析結果を
用いて、ユーザーからの問い合わせに応じた関連単語を
関連の度合いの大きい順に出力する。
に示すサーバ3が行う処理のフローチャートに基づい
て、本システムの予備データの生成の処理について説明
する。
ァイル21に含まれた各文書に対して自然言語解析を行
い、出現単語、この出現単語の出現頻度、およびその単
語が出現した文書のIDのリストを抽出し、単語リスト
ファイル22に保存する(ステップS1)。
単語リストファイル22中の出現単語による情報から、
行方向に出現単語、列方向に文書番号をとって、単語−
文書行列Xを作成し(ステップS2)、単語−文書ファ
イル23に出力する(ステップS3)。
いので、1文書に現れる単語数で共起頻度を割り、さら
に各文書(各列)における要素の和が1となるように基
準化する。この基準化は、関連文書検索において、大き
な文書ほど関連文書として検索されやすいことへの対処
である。また、基準化の方法としては、各文書(各列)
における要素の2乗和が1となるようにしてもよい。
語の共起関係を現したものである(列方向に文書、行方
向に単語をとってあり、[]で示した数字は行および列の
番号を示している。)。
をそのままハードディスク15に格納すると膨大な領域
を必要とするので、下記のように、Harwe11-Boeing spa
rsematrix fomatで格納することによって(“Duff, et
al.(1989年):Sparse MatrixTest problems, ACM TOMS(T
ransaction on Mathematical Software)Vol.15, No.1,
March 1989”参照)、記憶容量の節約、ならびにデータ
読み込み時間の大幅な低減をはかることができる。
は、以下の形式で単語−文書ファイル23に格納される
(なお、見やすくするために改行を入れて示す)。 12 9 28←行列の行数、列数、非ゼロ要素数 1 4 10 14 17 20 21 23 26 29←各列先頭時点における
非ゼロ要素の累積数+1 1 2 3←各列における非ゼロ要素の行番号、ここから 3 4 5 6 7 9 2 4 5 8 1 5 8 4 6 7 10 10 11 10 11 12 9 11 12←各列における非ゼロ要素の行番号、ここまで O.33 0.33 0.33←非ゼロ要素の値そのもの、ここから 0.17 0.17 0.17 0.17 0.17 0.17 0.25 0.25 0.25 0.25 0.33 0.33 0.33 1 0.5 0.5 0.33 0.33 0.33 0.33 0.33 0.33←非ゼロ要素の値そのもの、ここまで
列Xを式(2)のように特異値分解する(ステップS
4)。上記のXに対して、T0は次のようになる(S0は
対角要素のみ示す)。
る。(S0は対角要素のみ示す) [1] 1.230 0.783 0.710 0.631 0.488 0.337 0.317 0.24
6 0.136 上記のXに対してD0は次のようになる。
文書数、あるいは単語数が膨大になるとT0,S0,D0
を保持するためのメモリ空間も膨大なものとなるので、
次数低減部28で次のようにして次数の低減を図り(ス
テップS5)、その結果を記憶部である特異値分解ファ
イル24に出力する(ステップS6)。
文書行列Xのrank(本例では9)の数だけ要素が存在す
るが、この特異値のベクトルの大きい方からk個だけ取
り出し、これを新たにSと置く。これに対応し、行列T
0、D0に対しても、それぞれ先頭からk列を取り出して
新たにそれぞれ行列T,Dとおく。このようにして作成
されたT,S,Dを保持することにより大幅な資源(デ
ィスクやメモリなど)の節約を達成する。例えば、特異
値のベクトルの大きい方からk=2個だけ取り出すとす
ると、行列Sは次のようになる(以下では説明の簡便性
を考慮してk=2とするが、実際の大規模データに対し
ては経験的にk=50〜100程度とすると良い) 。 [1] 1.230 0.783 上例の行列Tは、次のようになる。
はXの近似となる。
に示すサーバ3が行う処理のフローチャートに基づい
て、本システムの関連文書検索の処理について説明す
る。
問合わせ入力部29が受け付け(ステップS11)、受
け取った文書検索文(以下、これを擬似文書qと呼ぶ)
中にある単語(複数のときもある)を、関連文書検索部
30が抽出し、この単語と文書群から抽出された単語リ
ストファイル22とを照合して、t次元の単語ベクトル
xqを作成する(要素は基準化しておく)(ステップS
12)。
るとすれば、 xq=[0.5, 0, 0.5, 0, 0, 0, 0, 0, 0, 0, 0, 0] を作成する。
た特異値ベクトルS、行列T、Dとから擬似文書qの文
書ベクトルdqは(7)式のように計算することができ
る(ステップS13)。
して、両文書の相関係数を(4)式で計算する(ステッ
プS14)。ここで各文書の文書ベクトル(文書cに対
して文書ベクトルをdcと呼ぶ)は行列Dの第c行で与
えられるから、例えば、対象文書を文書9とすると、 dc= [-0.142 -0.117] となる。これより、文書dqと文書dcとの相関係数は、 r(dq,dc)={0×(−0.142)+(−0.4
19)×(−0.117)}/[√{02+(−0.4
19)2}・√{(−0.142)2+(−0.117)
2}]=0.634 となる。
を求め、相関係数の大きい順に並べ替える。このうちの
上位10番目までの相関係数を選び、この選び出された
相関係数に対応する文書を、文書内容とともに、関連文
書表示部31でクライアント2に表示させることができ
る(ステップS15)。
に示すサーバ3が行う処理のフローチャートに基づい
て、本システムの関連語検索の処理について説明する。
合わせを、問合せ入力部29で受け取る(ステップS2
1)。この中から単語(複数も可能)を抽出する。この
単語に対する行列Tの行ベクトルを関連語検索部32で
取り出す(ステップS22)。そして、この行ベクトル
を抽出したすべての単語に対するこの行ベクトルを取り
出して平均ベクトルを計算する((5)式)。例えば、
問い合わせに単語1,3を含んでいるとすれば次のように
なる。
2]=[-0.0O1, -0.328] 次に、比較の対象となるすべての単語の単語ベクトルt
c(k次元ベクトル)に対し、両単語の相関係数を
(6)式で計算する(ステップS23)。この単語ベク
トルtcは行列Tの各行ベクトルに対応している。例え
ば、比較の対象とする単語を単語8とすると、 tc=[-0.000 -0.383] であるから、単語tqと単語tcとの相関係数は次のよう
に計算される。
(−0.000)+(−0.328)×(−0.38
3)}/[√{(−0.001)2+(−0.32
8)2}・√{(−0.000)2+(−0.38
3)2}]=0.958 このようにすべての相関係数を計算し、相関係数の大き
い順に並び替え、大きい方から相関係数に対応した単語
を表示することによって、問い合わせにある単語に関係
の深い単語をその近さの順で提示することができる(ス
テップS24)。
055文書と、そこに出現する頻度4以上の4,041
単語を用いた場合、最もオーソドックスなハウスホルダ
ー変換による特異値分解では、約12時間(60×60
×12=43,200秒)、所要メモリで約200MB
が必要であるが、本システムを用いると(特異値の大き
な方から50個を求めた場合)9.5秒、所要メモリで
12.7MBを要した。
における特異値分解では、従来法では(メモリの制約か
ら)計算不能であるが、本システムでは13.4秒、所
要メモリで53.0MBで計算できた。
列が疎(大半の行列要素が0)であるという点と、特異
値分解において特異値の大きい方から限られた個数だけ
求めれば関連文書/関連語検索においては十分であると
いう点とに着目し、特異値分解後の結果から特異値を大
きい方から所定数だけ取り出して、この結果を次元低減
したデータを作成することにより、作成した関連文書/
関連語検索用のデータベースの記憶容量を低減すること
ができる。
のデータベース作成装置において、関連文書検索を行う
場合に大きな文書ほど関連文書として検索されやすい弊
害を防止することができる。
の関連文書/関連語検索用のデータベースを用い、関連
文書の検索を行うことができる。
の関連文書/関連語検索用のデータベースを用い、関連
語の検索を行うことができる。
が疎(大半の行列要素が0)であるという点と、特異値
分解において特異値の大きい方から限られた個数だけ求
めれば関連文書/関連語検索においては十分であるとい
う点とに着目し、特異値分解後の結果から特異値を大き
い方から所定数だけ取り出して、この結果を次元低減し
たデータを作成することにより、作成した関連文書/関
連語検索用のデータベースの記憶容量を低減することが
できる。
のデータベース作成方法において、関連文書検索を行う
場合に大きな文書ほど関連文書として検索されやすい弊
害を防止することができる。
の関連文書/関連語検索用のデータベースを用い、関連
文書の検索を行うことができる。
の関連文書/関連語検索用のデータベースを用い、関連
語の検索を行うことができる。
が疎(大半の行列要素が0)であるという点と、特異値
分解において特異値の大きい方から限られた個数だけ求
めれば関連文書/関連語検索においては十分であるとい
う点とに着目し、特異値分解後の結果から特異値を大き
い方から所定数だけ取り出して、この結果を次元低減し
たデータを作成することにより、作成した関連文書/関
連語検索用のデータベースの記憶容量を低減することが
できる。
載の記憶媒体において、関連文書検索を行う場合に大き
な文書ほど関連文書として検索されやすい弊害を防止す
ることができる。
量の関連文書/関連語検索用のデータベースを用い、関
連文書の検索を行うことができる。
量の関連文書/関連語検索用のデータベースを用い、関
連語の検索を行うことができる。
/サーバシステムの概略構成を示すブロック図である。
ュータの構成を説明するブロック図である。
する図である。
明する機能ブロック図である。
明するフローチャートである。
る機能ブロック図である。
るフローチャートである。
機能ブロック図である。
フローチャートである。
装置 9 記憶媒体 24 記憶部 25 単語抽出部 26 単語−文書対応作成部 27 特異値分解部 28 次数低減部 30 関連文書検索部 31 関連語検索部
Claims (12)
- 【請求項1】 文書群に出現する単語の抽出を行なって
当該単語に関する情報のリストを生成する単語抽出部
と、 前記文書群を構成する各文書が前記リストの単語のうち
のどれを含んでいるかを示す単語−文書行列を生成する
単語−文書対応作成部と、 この単語−文書行列を特異値分解する特異値分解部と、 この特異値分解後の結果から特異値を大きい方から所定
数だけ取り出して前記結果を次元低減したデータを作成
する次数低減部とを備えている関連文書/関連語検索用
のデータベース作成装置。 - 【請求項2】 前記単語−文書対応作成部は、前記デー
タを用いて関連文書検索を行う場合に大きな文書ほど関
連文書として検索されやすいことを修正するように基準
化して前記単語−文書行列を生成するものである請求項
1に記載のデータベース作成装置。 - 【請求項3】 請求項1または2に記載のデータベース
作成装置で作成された前記データを記憶する記憶部と、 文書検索のための問い合わせと前記文書群の各文書との
空間的距離を前記データを用いて測ることにより前記問
い合わせに関連がある文書を関連が深い順に前記文書群
から検索する関連文書検索部とを備えている関連文書検
索装置。 - 【請求項4】 請求項1または2に記載のデータベース
作成装置で作成された前記データを記憶する記憶部と、 文書検索のための問い合わせと前記文書群に含まれる各
単語との空間的距離を前記データを用いて測ることによ
り前記問い合わせに関連がある単語を関連が深い順に前
記文書群に含まれる単語から検索する関連語検索部とを
備えている関連語検索装置。 - 【請求項5】 文書群に出現する単語の抽出を行なって
当該単語に関する情報のリストを生成する工程と、 前記文書群を構成する各文書が前記リストの単語のうち
のどれを含んでいるかを示す単語−文書行列を生成する
工程と、 この単語−文書行列を特異値分解する工程と、 この特異値分解後の結果から特異値を大きい方から所定
数だけ取り出して前記結果を次元低減したデータを作成
する工程とを含んでなる関連文書/関連語検索用のデー
タベース作成方法。 - 【請求項6】 前記単語−文書行列生成工程は、前記デ
ータを用いて関連文書検索を行う場合に大きな文書ほど
関連文書として検索されやすいことを修正するように基
準化して前記単語−文書行列を生成するものである請求
項5に記載のデータベース作成方法。 - 【請求項7】 請求項5または6に記載のデータベース
作成方法で作成された前記データを用い、文書検索のた
めの問い合わせと前記文書群の各文書との空間的距離を
測ることにより前記問い合わせに関連がある文書を関連
が深い順に前記文書群から検索する工程を含んでなる関
連文書検索方法。 - 【請求項8】 請求項5または6に記載のデータベース
作成方法で作成された前記データを用い、文書検索のた
めの問い合わせと前記文書群に含まれる各単語との空間
的距離を測ることにより前記問い合わせに関連がある単
語を関連が深い順に前記文書群に含まれる単語から検索
する工程を含んでなる関連語検索方法。 - 【請求項9】 文書群に出現する単語の抽出を行なって
当該単語に関する情報のリストを生成する工程と、 前記文書群を構成する各文書が前記リストの単語のうち
のどれを含んでいるかを示す単語−文書行列を生成する
工程と、 この単語−文書行列を特異値分解する工程と、 この特異値分解後の結果から特異値を大きい方から所定
数だけ取り出して前記結果を次元低減したデータを作成
する工程とにより、関連文書/関連語検索用のデータベ
ースの作成をコンピュータに実行させるプログラムを記
憶した、コンピュータに読み取り可能な記憶媒体。 - 【請求項10】 前記単語−文書行列生成工程は、前記
データを用いて関連文書検索を行う場合に大きな文書ほ
ど関連文書として検索されやすいことを修正するように
基準化して前記単語−文書行列を生成するものである請
求項9に記載の記憶媒体。 - 【請求項11】 請求項9または10に記載の記憶媒体
を用いてコンピュータで作成した前記データを用い、文
書検索のための問い合わせと前記文書群の各文書との空
間的距離を測ることにより前記問い合わせに関連がある
文書を関連が深い順に前記文書群から検索することをコ
ンピュータに実行させるプログラムを記憶した、コンピ
ュータに読み取り可能な記憶媒体。 - 【請求項12】 請求項9または10に記載の記憶媒体
を用いてコンピュータで作成した前記データを用い、文
書検索のための問い合わせと前記文書群に含まれる各単
語との空間的距離を測ることにより前記問い合わせに関
連がある単語を関連が深い順に前記文書群に含まれる単
語から検索することをコンピュータに実行させるプログ
ラムを記憶した、コンピュータに読み取り可能な記憶媒
体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11188613A JP2001014341A (ja) | 1999-07-02 | 1999-07-02 | データベース作成装置および関連文書/関連語検索装置、データベース作成方法および関連文書/関連語検索方法ならびに記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11188613A JP2001014341A (ja) | 1999-07-02 | 1999-07-02 | データベース作成装置および関連文書/関連語検索装置、データベース作成方法および関連文書/関連語検索方法ならびに記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001014341A true JP2001014341A (ja) | 2001-01-19 |
Family
ID=16226752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11188613A Pending JP2001014341A (ja) | 1999-07-02 | 1999-07-02 | データベース作成装置および関連文書/関連語検索装置、データベース作成方法および関連文書/関連語検索方法ならびに記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001014341A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006034498A (ja) * | 2004-07-26 | 2006-02-09 | Sun Corp | 遊技情報提供装置 |
US7607083B2 (en) | 2000-12-12 | 2009-10-20 | Nec Corporation | Test summarization using relevance measures and latent semantic analysis |
US8892574B2 (en) | 2008-11-26 | 2014-11-18 | Nec Corporation | Search apparatus, search method, and non-transitory computer readable medium storing program that input a query representing a subset of a document set stored to a document database and output a keyword that often appears in the subset |
JPWO2018150453A1 (ja) * | 2017-02-14 | 2019-06-27 | 三菱電機株式会社 | データ分析装置およびデータ分析方法 |
-
1999
- 1999-07-02 JP JP11188613A patent/JP2001014341A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7607083B2 (en) | 2000-12-12 | 2009-10-20 | Nec Corporation | Test summarization using relevance measures and latent semantic analysis |
JP2006034498A (ja) * | 2004-07-26 | 2006-02-09 | Sun Corp | 遊技情報提供装置 |
US8892574B2 (en) | 2008-11-26 | 2014-11-18 | Nec Corporation | Search apparatus, search method, and non-transitory computer readable medium storing program that input a query representing a subset of a document set stored to a document database and output a keyword that often appears in the subset |
JPWO2018150453A1 (ja) * | 2017-02-14 | 2019-06-27 | 三菱電機株式会社 | データ分析装置およびデータ分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844658B (zh) | 一种中文文本知识图谱自动构建方法及系统 | |
US8341095B2 (en) | Supervised semantic indexing and its extensions | |
CA2777520C (en) | System and method for phrase identification | |
US8126883B2 (en) | Method and system for re-ranking search results | |
US20060259481A1 (en) | Method of analyzing documents | |
CN1282934A (zh) | 相似字选取和文件检索的方法和系统 | |
CN112988980B (zh) | 目标产品查询方法、装置、计算机设备和存储介质 | |
KR102059743B1 (ko) | 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템 | |
Kumar et al. | Effective information retrieval and feature minimization technique for semantic web data | |
US20170185672A1 (en) | Rank aggregation based on a markov model | |
JP2010061420A (ja) | 商品情報検索装置、方法及びシステム | |
US9501559B2 (en) | User-guided search query expansion | |
JP2016018286A (ja) | 行動タイプ判定装置、行動タイプ判定方法及び行動タイプ判定プログラム | |
JP2006338342A (ja) | 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム | |
US12118314B2 (en) | Parameter learning apparatus, parameter learning method, and computer readable recording medium | |
CN117708270A (zh) | 企业数据查询方法、装置、设备及存储介质 | |
JP2005149014A (ja) | 文書関連語彙獲得方法及び装置及びプログラム | |
JP2001014341A (ja) | データベース作成装置および関連文書/関連語検索装置、データベース作成方法および関連文書/関連語検索方法ならびに記憶媒体 | |
JP4453440B2 (ja) | 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体 | |
Li et al. | Complex query recognition based on dynamic learning mechanism | |
US8745078B2 (en) | Control computer and file search method using the same | |
JP4888677B2 (ja) | 文書検索システム | |
JP2004192374A (ja) | 文書検索装置、プログラムおよび記録媒体 | |
Omri | Effects of terms recognition mistakes on requests processing for interactive information retrieval | |
JP2010009237A (ja) | 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051118 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20051021 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060811 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081104 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090331 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090522 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090721 |