JP2001014341A - データベース作成装置および関連文書/関連語検索装置、データベース作成方法および関連文書/関連語検索方法ならびに記憶媒体 - Google Patents

データベース作成装置および関連文書/関連語検索装置、データベース作成方法および関連文書/関連語検索方法ならびに記憶媒体

Info

Publication number
JP2001014341A
JP2001014341A JP11188613A JP18861399A JP2001014341A JP 2001014341 A JP2001014341 A JP 2001014341A JP 11188613 A JP11188613 A JP 11188613A JP 18861399 A JP18861399 A JP 18861399A JP 2001014341 A JP2001014341 A JP 2001014341A
Authority
JP
Japan
Prior art keywords
document
word
search
matrix
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11188613A
Other languages
English (en)
Inventor
Tsunenori Ishioka
恒憲 石岡
Masayuki Kameda
雅之 亀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP11188613A priority Critical patent/JP2001014341A/ja
Publication of JP2001014341A publication Critical patent/JP2001014341A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 小さなメモリ空間でも関連文書/関連語の検
索を行うことができるようにする。 【解決手段】 文書群ファイルに含まれた各文書に対し
て自然言語解析を行い、出現単語、この出現単語の出現
頻度、およびその単語が出現した文書のIDのリストを
抽出し、単語リストファイルに保存する(ステップS
1)。次に、この単語リストファイル中の出現単語によ
る情報から、行方向に出現単語、列方向に文書番号をと
って、単語−文書行列を作成する(ステップS2)。そ
して、単語−文書行列を特異値分解して、特異値ベクト
ル、単語行列、文書行列を得(ステップS4)、この特
異値ベクトル、単語行列、文書行列の各々について要素
を大きい方からk個だけ取り出し、新たな特異値ベクト
ル、単語行列、文書行列を生成することで次元数を低減
する(ステップS5)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、データベース作
成装置および関連文書/関連語検索装置、データベース
作成方法および関連文書/関連語検索方法ならびに記憶
媒体に関する。
【0002】
【従来の技術】近年、急速に関心の高まってきているデ
ータマイニングの分野において、その適用分野の一つで
ある文書マイニングは、インターネットのホームページ
を検索する検索エンジン利用の普及と伴って、コンピュ
ータの非専門家にとってもとりわけ注目の高いところで
ある。
【0003】文書マイニングでは、扱うデータ量が膨大
である上に、実用に耐えうる速度での応答が求められる
ため、その解決方法の一つとして、我々は単語の共起に
基づいた検索アルゴリズムに注目してきた。「単語の共
起」とは、同一の文書/文に複数の単語が同時に出現す
ることをいう。
【0004】従来、単語の共起に着目した「文書マイニ
ング」には大別して2つのアプローチがあったと思われ
る。一つは、入力キーワードを含む文書集合に成立する
相関ルールを求め、そのルールに基づき検索をおこなう
ものである。発見すべき知識は、どのような単語同士が
共起しやすいかである。
【0005】もう一つのアプローチは、入力キーワード
/問い合わせ文と検索対象文書に現われる単語との共起
の度合いによって、より適切と考えられる文書を検索す
るものである。基本的な考え方は、検索要求ベクトルに
類似したベクトルをもつ文書は、適切な文書であると判
断するもので、一般にはベクトル空間モデル(vector-s
pace mode1)と呼ばれる。
【0006】その際に、単語の重み付けがしばしば行な
われるが、その方法として、単一文書中で出現する頻度
(within-story term frequency)に応じて重みを与え
るtf法と、その単語が出現する文書数の逆数(inverse
document frequency)に応じて重みを与える(すなわ
ち、さまざまな文書に出現するありふれた単語の重みを
低くする)idf法とを組み合わせたtf・idfモデル、もし
くはその派生が用いられることが多い。
【0007】統計的色彩が強い方法としては、Deerwest
erによって提案された“Latent Semantic ana1ysis”が
ある(“Deerwester,S.,Dumais,S.T.,G.W.Landauer,T.
K.andHarshman,R.(1990):Indexing by 1atent sematic
ana1ysis.Journal of the American Society for Infor
mation Science,Vo1.41,No.7,PP.391-407”参照)。こ
れは、共起の頻度を示す単語−文書行列を特異値分解
(たとえば、“柳井晴夫、竹内啓(1983):射影行列・一
般逆行列・特異値分解、UP応用数学選書10、東京大学出
版会”参照)することにより、文書の潜在的意味構造を
抽出するものである。得られた意味空間において、互い
に関連した文書や単語は近接するように構成される。こ
の方法も結果的にはベクトル空間モデルの一つである
が、共起という一種のパターンマッチを間接的に用いて
いるために、「入力キーワードを全く含まないが意味的
に近い」文書をも選ぶこともできるようになる。たとえ
ば、“結婚”という語を入力キーワードにして、“結
婚”という語を含まないけれども、“披露宴”や“新婚
旅行”といった「“結婚”に関連の深い単語を含む文
書」を検索することが可能となる。
【0008】
【発明が解決しようとする課題】しかし、一般に特異値
分解は巨大なメモリ空間を必要とし、データ数が数千を
越える程度の大きさの問題に対してさえ、計算量の制限
からワークステーションやパソコンの性能では実行不可
能である。
【0009】この発明は、小さなメモリ空間でも関連文
書/関連語の検索を行うことができるようにすることに
ある。
【0010】
【課題を解決するための手段】請求項1に記載の発明
は、文書群に出現する単語の抽出を行なって当該単語に
関する情報のリストを生成する単語抽出部と、前記文書
群を構成する各文書が前記リストの単語のうちのどれを
含んでいるかを示す単語−文書行列を生成する単語−文
書対応作成部と、この単語−文書行列を特異値分解する
特異値分解部と、この特異値分解後の結果から特異値を
大きい方から所定数だけ取り出して前記結果を次元低減
したデータを作成する次数低減部とを備えている関連文
書/関連語検索用のデータベース作成装置である。
【0011】したがって、単語−文書行列が疎(大半の
行列要素が0)であるという点と、特異値分解において
特異値の大きい方から限られた個数だけ求めれば関連文
書/関連語検索においては十分であるという点とに着目
し、特異値分解後の結果から特異値を大きい方から所定
数だけ取り出して、この結果を次元低減したデータを作
成することにより、作成した関連文書/関連語検索用の
データベースの記憶容量を低減することができる。
【0012】請求項2に記載の発明は、請求項1に記載
のデータベース作成装置において、前記単語−文書対応
作成部は、前記データを用いて関連文書検索を行う場合
に大きな文書ほど関連文書として検索されやすいことを
修正するように基準化して前記単語−文書行列を生成す
るものである。
【0013】したがって、関連文書検索を行う場合に大
きな文書ほど関連文書として検索されやすい弊害を防止
することができる。
【0014】請求項3に記載の発明は、請求項1または
2に記載のデータベース作成装置で作成された前記デー
タを記憶する記憶部と、文書検索のための問い合わせと
前記文書群の各文書との空間的距離を前記データを用い
て測ることにより前記問い合わせに関連がある文書を関
連が深い順に前記文書群から検索する関連文書検索部と
を備えている関連文書検索装置である。
【0015】したがって、小さな記憶容量の関連文書/
関連語検索用のデータベースを用い、関連文書の検索を
行うことができる。
【0016】請求項4に記載の発明は、請求項1または
2に記載のデータベース作成装置で作成された前記デー
タを記憶する記憶部と、文書検索のための問い合わせと
前記文書群に含まれる各単語との空間的距離を前記デー
タを用いて測ることにより前記問い合わせに関連がある
単語を関連が深い順に前記文書群に含まれる単語から検
索する関連語検索部とを備えている関連語検索装置であ
る。
【0017】したがって、小さな記憶容量の関連文書/
関連語検索用のデータベースを用い、関連語の検索を行
うことができる。
【0018】請求項5に記載の発明は、文書群に出現す
る単語の抽出を行なって当該単語に関する情報のリスト
を生成する工程と、前記文書群を構成する各文書が前記
リストの単語のうちのどれを含んでいるかを示す単語−
文書行列を生成する工程と、この単語−文書行列を特異
値分解する工程と、この特異値分解後の結果から特異値
を大きい方から所定数だけ取り出して前記結果を次元低
減したデータを作成する工程とを含んでなる関連文書/
関連語検索用のデータベース作成方法である。
【0019】したがって、単語−文書行列が疎(大半の
行列要素が0)であるという点と、特異値分解において
特異値の大きい方から限られた個数だけ求めれば関連文
書/関連語検索においては十分であるという点とに着目
し、特異値分解後の結果から特異値を大きい方から所定
数だけ取り出して、この結果を次元低減したデータを作
成することにより、作成した関連文書/関連語検索用の
データベースの記憶容量を低減することができる。
【0020】請求項6に記載の発明は、請求項5に記載
のデータベース作成方法において、前記単語−文書行列
生成工程は、前記データを用いて関連文書検索を行う場
合に大きな文書ほど関連文書として検索されやすいこと
を修正するように基準化して前記単語−文書行列を生成
するものである。
【0021】したがって、関連文書検索を行う場合に大
きな文書ほど関連文書として検索されやすい弊害を防止
することができる。
【0022】請求項7に記載の発明は、請求項5または
6に記載のデータベース作成方法で作成された前記デー
タを用い、文書検索のための問い合わせと前記文書群の
各文書との空間的距離を測ることにより前記問い合わせ
に関連がある文書を関連が深い順に前記文書群から検索
する工程を含んでなる関連文書検索方法である。
【0023】したがって、小さな記憶容量の関連文書/
関連語検索用のデータベースを用い、関連文書の検索を
行うことができる。
【0024】請求項8に記載の発明は、請求項5または
6に記載のデータベース作成方法で作成された前記デー
タを用い、文書検索のための問い合わせと前記文書群に
含まれる各単語との空間的距離を測ることにより前記問
い合わせに関連がある単語を関連が深い順に前記文書群
に含まれる単語から検索する工程を含んでなる関連語検
索方法である。
【0025】したがって、小さな記憶容量の関連文書/
関連語検索用のデータベースを用い、関連語の検索を行
うことができる。
【0026】請求項9に記載の発明は、文書群に出現す
る単語の抽出を行なって当該単語に関する情報のリスト
を生成する工程と、前記文書群を構成する各文書が前記
リストの単語のうちのどれを含んでいるかを示す単語−
文書行列を生成する工程と、この単語−文書行列を特異
値分解する工程と、この特異値分解後の結果から特異値
を大きい方から所定数だけ取り出して前記結果を次元低
減したデータを作成する工程とにより、関連文書/関連
語検索用のデータベースの作成をコンピュータに実行さ
せるプログラムを記憶した、コンピュータに読み取り可
能な記憶媒体である。
【0027】したがって、単語−文書行列が疎(大半の
行列要素が0)であるという点と、特異値分解において
特異値の大きい方から限られた個数だけ求めれば関連文
書/関連語検索においては十分であるという点とに着目
し、特異値分解後の結果から特異値を大きい方から所定
数だけ取り出して、この結果を次元低減したデータを作
成することにより、作成した関連文書/関連語検索用の
データベースの記憶容量を低減することができる。
【0028】請求項10に記載の発明は、請求項9に記
載の記憶媒体において、前記単語−文書行列生成工程
は、前記データを用いて関連文書検索を行う場合に大き
な文書ほど関連文書として検索されやすいことを修正す
るように基準化して前記単語−文書行列を生成するもの
である。
【0029】したがって、関連文書検索を行う場合に大
きな文書ほど関連文書として検索されやすい弊害を防止
することができる。
【0030】請求項11に記載の発明は、請求項9また
は10に記載の記憶媒体を用いてコンピュータで作成し
た前記データを用い、文書検索のための問い合わせと前
記文書群の各文書との空間的距離を測ることにより前記
問い合わせに関連がある文書を関連が深い順に前記文書
群から検索することをコンピュータに実行させるプログ
ラムを記憶した、コンピュータに読み取り可能な記憶媒
体である。
【0031】したがって、小さな記憶容量の関連文書/
関連語検索用のデータベースを用い、関連文書の検索を
行うことができる。
【0032】請求項12に記載の発明は、請求項9また
は10に記載の記憶媒体を用いてコンピュータで作成し
た前記データを用い、文書検索のための問い合わせと前
記文書群に含まれる各単語との空間的距離を測ることに
より前記問い合わせに関連がある単語を関連が深い順に
前記文書群に含まれる単語から検索することをコンピュ
ータに実行させるプログラムを記憶した、コンピュータ
に読み取り可能な記憶媒体である。
【0033】したがって、小さな記憶容量の関連文書/
関連語検索用のデータベースを用い、関連語の検索を行
うことができる。
【0034】
【発明の実施の形態】(1)本システムの理論 [特異値分解のもととなるデータ:]単語−文書行列X
を行方向に(抽出された)単語のリスト、列方向に各文
書を取り、各文書毎に各単語が出現するかどうかを記憶
させたものと定義し、次のように表現する。
【0035】単語−文書行列Xは、tを単語数、dを文
書数としたときt×d行列で表し、その各要素をxij
したとき、 xij=1(単語i(1≦i≦t)が文書(1≦j≦d)
に含まれるとき) または xij=0(単語iが文書jに含まれないとき) …… (1) とする。
【0036】[特異値分解:]行列Xを以下のように分
解する。
【0037】 X=T000´ …… (2) ここで、T0はt×m行列、S0はm×mの正方対角行列
(対角要素以外はすべて0)、D0´はm×d行列であ
る。また0≦d≦tとする。“´(ダッシュ)”はD0
の転置を示す。S0の対角要素は大きい順とする。
【0038】[疎行列(Sparse matrix)に適した特異
値分解:]単語−文書行列は一般に巨大な疎行列とな
る。このような巨大な疎行列に対する特異値問題を解く
ために、最も単純なアルゴリズムである部分空間反復
(サブスペース繰返し)法を用いる。この方法は古典的
なベキ乗法(power method)のブロック化と見なすこと
ができる。この部分空間反復法にはいくつかのバリエー
ションがあるが、その内の一つは、“B=X´X”に対
して次の式を更新する。
【0039】Zi=Bi0 ここで、“Z0=[z1,z2,…,zs]”は“d×s”
である(“s”は、計算上の精度を高めるために必要な
特異値の数に余裕を加えた次元数。例えば、必要な特異
値の数が50なら10を加えて60とする。以下同
じ。)。iは、求めるBの特異値の数pまで繰り返す。
ここで、列べクトル“zj(1≦j≦s)”は、“‖zj
=1”で、かつ、互いに独立になるように適当に定め
る。このようにすれば、列ベクトルzjは行列Bの主要な
特異値に収束してゆく。これにより、行列Ziは漸次、
列ごとの線形独立性を失ってゆく。そこで行列Bの大き
なp個の特異値ペアを近似するために、各ステップにお
いて修正Gram-Scmidtプロシージャを用い、zjを互いに
直交にすれば、それらの間の線形独立性が保たれること
をBauerは示した(“Bauer,F.L.(1957年): Das Verfahr
en der Treppeniterationund verwandte zur Losung al
gebraiscer Eigenwertprobleme,ZAMP,8,214-235”参
照)。
【0040】しかしながら、zjのBの特異値ベクトルに
対する収束速度はわずか1次に過ぎない。そこで部分空
間反復に、洗練されたRutishauser(1970年)のritzit
プログラム(部分空間反復に、さらにRay1eigh-Ritzプ
ロシージャとChebyshev多項式を経た高速化を行なって
いる)を使用している(“Rutishauser,H.(1970年):On
the rates of convergence of the Lanczos and the bl
ock-Lanczos methods,SIAM Jouranal of Numerical Ana
lysis, vol.17, pp687-706”参照)。
【0041】[次元低減:]上記行列Xの特異値分解で
得た行列S0の対角要素のうち大きいほうからk番目ま
でを取り、これを新たな正方対角行列Sとする。それに
対応して、行列T0および行列D0もk列までを抜き出
し、これを新たな行列TおよびDとする。このとき、 X^(Xのハット)=TSD´ …… (3) として作成される行列X^は行列Xの近似となる。ここ
で行列Tはt×k行列、行列Sはk×kの正方対角行
列、行列D´はk×d行列である。本発明の実施の形態
の対象とする言語データのような場合、経験的にkは5
0〜100程度にするとよい。
【0042】[関連文書の検索:]ユーザからの問い合
わせを擬似文書qと考える。例えば、複数個の単語の組
み合わせ等から問い合わせ文を作る。この擬似文書qか
ら単語を抽出して、t次元の単語ベクトルxqで表現す
ることができる。これを用いて、文書行列Dの行に対応
する1×kの文書ベクトル dq=xq´TS-1 を導くことができる。
【0043】ここでTはt×k行列、Sはk×k正方対
角行列である。“´(ダッシュ)”は転置を、“-1”は
逆行列を示し、“S=diag(μ1,μ2,…,μk)”と
したとき、“S-1=diag(1/μ1,1/μ2,…,1/
μk)”である。このとき擬似文書qの文書ベクトルdq
(k次元ベクトル)に対し、比較の対象とする文書cの
文書ベクトルをdc(k次元ベクトル)とすれば、両文
書の相関係数r(dq,dc)は、両文書がなす角の余弦
で与えられる。
【0044】 r(dq,dc)=(dq,dc)/‖dq‖‖dc‖ …… (4) ここでdcは、単語−文書行列Xのc列を表している、
t次元の単語ベクトルxcを使って“dc=xc´T
-1”で求められる。これより、擬似文書dqに近い文
書を、近さの順に提示することが可能となる。なお
(4)式の右辺分子の括弧は、内積を示す。
【0045】[関連語の検索:]擬似文書qは、t次元
の単語ベクトルxqで表現することにより、擬似文書の
座標をその擬似文書が含む単語群の中心(centoroi
d)、すなわち、 tq=(擬似文書qに含まれている単語に対応する行列Tの行ベクトルtiの平 均) …… (5) に定めることができる。このようにすれば、比較の対象
とする単語cに対する行列Tのc行で表されるk次元ベ
クトルをtcとするとき、両単語の相関係数は、(4)
式と同じように、 r(tq,tc)=(tq,tc)/‖tq‖‖tc‖ …… (6) として与えられる。これより擬似文書qに関係の深い単
語をその近さの順で提示することができるようになる。
【0046】(2)各システムの動作環境 本システムは、システム単体でもネットワーク環境下で
も動作する。典型的には、図1に示すように、クライア
ント2と、データベース作成装置、関連文書/関連語検
索装置であるサーバ3とがネットワーク4で接続されて
いるクライアント/サーバシステム1で構成され、デー
タベース5を格納するサーバ3に対して、クライアント
2から検索要求を問い合わせ、その検索結果をサーバ3
がクライアント2に返すものである。
【0047】図2は、クライアント2、サーバ3として
用いるコンピュータの概略構成を示すブロック図であ
る。図2に示すように、このコンピュータ2,3は、C
PU6と、ROM、RAMなどの記憶装置7とがバス8
で接続されている。また、バス8には、記憶媒体である
CD−ROM9を読み取るCD−ROMドライブ10を
制御するためのCD−ROMドライブ制御部11と、C
RTなどの表示装置12およびキーボード、マウスなど
の入力装置13を制御する入出力制御部14と、ハード
ディスク15を制御するハードディスク制御部16と、
コンピュータ2,3をネットワーク4と接続するための
LAN制御部17とが接続されている。クライアント2
のハードディスク15には、CD−ROM9から本シス
テムのクライアント用ソフトがインスツールされ、サー
バ3のハードディスク15には、CD−ROM9から本
システムのサーバ用ソフトがインスツールされている。
【0048】(3)本システムで利用するデータ構造 (A)本システムで使用する各種ファイル 本システムでは、以下の種類のデータ(図3参照)をフ
ァイルとしてサーバ3のハードディスク15へ保持し、
検索時に利用する。 ・検索対象となる文書群を保持する文書群ファイル21 ・文書群ファイルから抽出した単語を保持する単語リス
トファイル22 ・文書群ファイルから抽出された単語が各文書で存在す
るかどうかを示す行列(単語−文書行列X)を保持する
単語−文書ファイル23 ・単語−文書ファイルから特異値分解をした結果を保持
する特異値分解ファイル24
【0049】(B)各種ファイルのデータ構造 ・文書群ファイル21(図3(a)参照) 各文書毎に、表題、文書の種類、書誌事項(著者名、出
版社名、発行日等)、要約文等から構成される。
【0050】・単語リストファイル22(図3(b)参
照) 各単語毎に、単語の表記、この単語が文書群中に出現す
る頻度、および、この単語が出現した文書IDのリスト
で構成される。
【0051】・単語−文書ファイル23(図3(c)参
照) 次のような順序で構成する。行列の行数、行列の列数、
行列中の非ゼロ要素数、列ごとに読み込んだ場合の各列
先頭時点における非ゼロ要素の累積数+1、各列におけ
る非ゼロ要素の行番号、非ゼロ要素の値そのもの(整
数、あるいは実数)
【0052】・特異値分解ファイル24(図3(c)参
照) このファイルには、次の3つが含まれる。特異値のリス
ト、特異値分解された単語行列T、特異値分解された文
書行列D
【0053】(4)本システムの処理 (A)全体の流れ 本システムの検索を行うためには、先ず、文書群に対し
て予め文書群で使用している単語の抽出を行い、各文書
がこれらの単語のうちどれを含んでいるかを示す単語−
文書ファイル23を作成し、このファイルを特異値分解
し、次元の低減を行った結果を特異値分解ファイル24
に保持する。関連文書検索は、その結果を用いて、ユー
ザからの問い合わせに応じた文書を関連の度合いの大き
い順に出力する。また、関連語検索も同様に解析結果を
用いて、ユーザーからの問い合わせに応じた関連単語を
関連の度合いの大きい順に出力する。
【0054】(B)予備データの生成 以下では、図4に示すサーバ3の機能ブロック図、図5
に示すサーバ3が行う処理のフローチャートに基づい
て、本システムの予備データの生成の処理について説明
する。
【0055】まず、単語抽出部25において、文書群フ
ァイル21に含まれた各文書に対して自然言語解析を行
い、出現単語、この出現単語の出現頻度、およびその単
語が出現した文書のIDのリストを抽出し、単語リスト
ファイル22に保存する(ステップS1)。
【0056】次に、単語−文書対応作成部26で、この
単語リストファイル22中の出現単語による情報から、
行方向に出現単語、列方向に文書番号をとって、単語−
文書行列Xを作成し(ステップS2)、単語−文書ファ
イル23に出力する(ステップS3)。
【0057】尚、大きな文書ほど単語の共起が起きやす
いので、1文書に現れる単語数で共起頻度を割り、さら
に各文書(各列)における要素の和が1となるように基
準化する。この基準化は、関連文書検索において、大き
な文書ほど関連文書として検索されやすいことへの対処
である。また、基準化の方法としては、各文書(各列)
における要素の2乗和が1となるようにしてもよい。
【0058】下に示した例は、9文書に出現する12単
語の共起関係を現したものである(列方向に文書、行方
向に単語をとってあり、[]で示した数字は行および列の
番号を示している。)。
【0059】
【表1】
【0060】このような疎行列である単語−文書行列X
をそのままハードディスク15に格納すると膨大な領域
を必要とするので、下記のように、Harwe11-Boeing spa
rsematrix fomatで格納することによって(“Duff, et
al.(1989年):Sparse MatrixTest problems, ACM TOMS(T
ransaction on Mathematical Software)Vol.15, No.1,
March 1989”参照)、記憶容量の節約、ならびにデータ
読み込み時間の大幅な低減をはかることができる。
【0061】例えば、上述の単語−文書行列Xに対して
は、以下の形式で単語−文書ファイル23に格納される
(なお、見やすくするために改行を入れて示す)。 12 9 28←行列の行数、列数、非ゼロ要素数 1 4 10 14 17 20 21 23 26 29←各列先頭時点における
非ゼロ要素の累積数+1 1 2 3←各列における非ゼロ要素の行番号、ここから 3 4 5 6 7 9 2 4 5 8 1 5 8 4 6 7 10 10 11 10 11 12 9 11 12←各列における非ゼロ要素の行番号、ここまで O.33 0.33 0.33←非ゼロ要素の値そのもの、ここから 0.17 0.17 0.17 0.17 0.17 0.17 0.25 0.25 0.25 0.25 0.33 0.33 0.33 1 0.5 0.5 0.33 0.33 0.33 0.33 0.33 0.33←非ゼロ要素の値そのもの、ここまで
【0062】次に、特異値分解部27で、単語−文書行
列Xを式(2)のように特異値分解する(ステップS
4)。上記のXに対して、T0は次のようになる(S0
対角要素のみ示す)。
【0063】
【表2】
【0064】上記のXに対して、S0は次のようにな
る。(S0は対角要素のみ示す) [1] 1.230 0.783 0.710 0.631 0.488 0.337 0.317 0.24
6 0.136 上記のXに対してD0は次のようになる。
【0065】
【表3】
【0066】特異値分解によって求められた各行列は、
文書数、あるいは単語数が膨大になるとT0,S0,D0
を保持するためのメモリ空間も膨大なものとなるので、
次数低減部28で次のようにして次数の低減を図り(ス
テップS5)、その結果を記憶部である特異値分解ファ
イル24に出力する(ステップS6)。
【0067】すなわち、特異値ベクトルS0は、単語−
文書行列Xのrank(本例では9)の数だけ要素が存在す
るが、この特異値のベクトルの大きい方からk個だけ取
り出し、これを新たにSと置く。これに対応し、行列T
0、D0に対しても、それぞれ先頭からk列を取り出して
新たにそれぞれ行列T,Dとおく。このようにして作成
されたT,S,Dを保持することにより大幅な資源(デ
ィスクやメモリなど)の節約を達成する。例えば、特異
値のベクトルの大きい方からk=2個だけ取り出すとす
ると、行列Sは次のようになる(以下では説明の簡便性
を考慮してk=2とするが、実際の大規模データに対し
ては経験的にk=50〜100程度とすると良い) 。 [1] 1.230 0.783 上例の行列Tは、次のようになる。
【0068】
【表4】
【0069】上例の行列Dは、次のようになる。
【0070】
【表5】
【0071】このようにしたとき、“X^=TSD´”
はXの近似となる。
【0072】
【表6】
【0073】(C)関連文書検索 以下では、図6に示すサーバ3の機能ブロック図、図7
に示すサーバ3が行う処理のフローチャートに基づい
て、本システムの関連文書検索の処理について説明す
る。
【0074】クライアント2で入力した問い合わせを、
問合わせ入力部29が受け付け(ステップS11)、受
け取った文書検索文(以下、これを擬似文書qと呼ぶ)
中にある単語(複数のときもある)を、関連文書検索部
30が抽出し、この単語と文書群から抽出された単語リ
ストファイル22とを照合して、t次元の単語ベクトル
qを作成する(要素は基準化しておく)(ステップS
12)。
【0075】例えば、擬似文書qが単語1,3を含んでい
るとすれば、 xq=[0.5, 0, 0.5, 0, 0, 0, 0, 0, 0, 0, 0, 0] を作成する。
【0076】これを用いて、特異値分解ファイルから得
た特異値ベクトルS、行列T、Dとから擬似文書qの文
書ベクトルdqは(7)式のように計算することができ
る(ステップS13)。
【0077】 dq=xq´TS-1= [0, -0.419] …… (7) 次に、このdqと検索対象である文書群の1つ1つに対
して、両文書の相関係数を(4)式で計算する(ステッ
プS14)。ここで各文書の文書ベクトル(文書cに対
して文書ベクトルをdcと呼ぶ)は行列Dの第c行で与
えられるから、例えば、対象文書を文書9とすると、 dc= [-0.142 -0.117] となる。これより、文書dqと文書dcとの相関係数は、 r(dq,dc)={0×(−0.142)+(−0.4
19)×(−0.117)}/[√{02+(−0.4
19)2}・√{(−0.142)2+(−0.117)
2}]=0.634 となる。
【0078】このようにして、全文書に対する相関係数
を求め、相関係数の大きい順に並べ替える。このうちの
上位10番目までの相関係数を選び、この選び出された
相関係数に対応する文書を、文書内容とともに、関連文
書表示部31でクライアント2に表示させることができ
る(ステップS15)。
【0079】(D)関連語検索 以下では、図8に示すサーバ3の機能ブロック図、図9
に示すサーバ3が行う処理のフローチャートに基づい
て、本システムの関連語検索の処理について説明する。
【0080】クライアント2からユーザが入力した問い
合わせを、問合せ入力部29で受け取る(ステップS2
1)。この中から単語(複数も可能)を抽出する。この
単語に対する行列Tの行ベクトルを関連語検索部32で
取り出す(ステップS22)。そして、この行ベクトル
を抽出したすべての単語に対するこの行ベクトルを取り
出して平均ベクトルを計算する((5)式)。例えば、
問い合わせに単語1,3を含んでいるとすれば次のように
なる。
【0081】tq=[(0.0000.001)/2, (-0.398-0.258)/
2]=[-0.0O1, -0.328] 次に、比較の対象となるすべての単語の単語ベクトルt
c(k次元ベクトル)に対し、両単語の相関係数を
(6)式で計算する(ステップS23)。この単語ベク
トルtcは行列Tの各行ベクトルに対応している。例え
ば、比較の対象とする単語を単語8とすると、 tc=[-0.000 -0.383] であるから、単語tqと単語tcとの相関係数は次のよう
に計算される。
【0082】r(tq,tc)={(−0.001)×
(−0.000)+(−0.328)×(−0.38
3)}/[√{(−0.001)2+(−0.32
8)2}・√{(−0.000)2+(−0.38
3)2}]=0.958 このようにすべての相関係数を計算し、相関係数の大き
い順に並び替え、大きい方から相関係数に対応した単語
を表示することによって、問い合わせにある単語に関係
の深い単語をその近さの順で提示することができる(ス
テップS24)。
【0083】(5)実際の評価データ ある全国紙の1年分(1994年)の記事から、先頭2,
055文書と、そこに出現する頻度4以上の4,041
単語を用いた場合、最もオーソドックスなハウスホルダ
ー変換による特異値分解では、約12時間(60×60
×12=43,200秒)、所要メモリで約200MB
が必要であるが、本システムを用いると(特異値の大き
な方から50個を求めた場合)9.5秒、所要メモリで
12.7MBを要した。
【0084】また20,211文書と44,883単語
における特異値分解では、従来法では(メモリの制約か
ら)計算不能であるが、本システムでは13.4秒、所
要メモリで53.0MBで計算できた。
【0085】
【発明の効果】請求項1に記載の発明は、単語−文書行
列が疎(大半の行列要素が0)であるという点と、特異
値分解において特異値の大きい方から限られた個数だけ
求めれば関連文書/関連語検索においては十分であると
いう点とに着目し、特異値分解後の結果から特異値を大
きい方から所定数だけ取り出して、この結果を次元低減
したデータを作成することにより、作成した関連文書/
関連語検索用のデータベースの記憶容量を低減すること
ができる。
【0086】請求項2に記載の発明は、請求項1に記載
のデータベース作成装置において、関連文書検索を行う
場合に大きな文書ほど関連文書として検索されやすい弊
害を防止することができる。
【0087】請求項3に記載の発明は、小さな記憶容量
の関連文書/関連語検索用のデータベースを用い、関連
文書の検索を行うことができる。
【0088】請求項4に記載の発明は、小さな記憶容量
の関連文書/関連語検索用のデータベースを用い、関連
語の検索を行うことができる。
【0089】請求項5に記載の発明は、単語−文書行列
が疎(大半の行列要素が0)であるという点と、特異値
分解において特異値の大きい方から限られた個数だけ求
めれば関連文書/関連語検索においては十分であるとい
う点とに着目し、特異値分解後の結果から特異値を大き
い方から所定数だけ取り出して、この結果を次元低減し
たデータを作成することにより、作成した関連文書/関
連語検索用のデータベースの記憶容量を低減することが
できる。
【0090】請求項6に記載の発明は、請求項5に記載
のデータベース作成方法において、関連文書検索を行う
場合に大きな文書ほど関連文書として検索されやすい弊
害を防止することができる。
【0091】請求項7に記載の発明は、小さな記憶容量
の関連文書/関連語検索用のデータベースを用い、関連
文書の検索を行うことができる。
【0092】請求項8に記載の発明は、小さな記憶容量
の関連文書/関連語検索用のデータベースを用い、関連
語の検索を行うことができる。
【0093】請求項9に記載の発明は、単語−文書行列
が疎(大半の行列要素が0)であるという点と、特異値
分解において特異値の大きい方から限られた個数だけ求
めれば関連文書/関連語検索においては十分であるとい
う点とに着目し、特異値分解後の結果から特異値を大き
い方から所定数だけ取り出して、この結果を次元低減し
たデータを作成することにより、作成した関連文書/関
連語検索用のデータベースの記憶容量を低減することが
できる。
【0094】請求項10に記載の発明は、請求項9に記
載の記憶媒体において、関連文書検索を行う場合に大き
な文書ほど関連文書として検索されやすい弊害を防止す
ることができる。
【0095】請求項11に記載の発明は、小さな記憶容
量の関連文書/関連語検索用のデータベースを用い、関
連文書の検索を行うことができる。
【0096】請求項12に記載の発明は、小さな記憶容
量の関連文書/関連語検索用のデータベースを用い、関
連語の検索を行うことができる。
【図面の簡単な説明】
【図1】この発明の一実施の形態にかかるクライアント
/サーバシステムの概略構成を示すブロック図である。
【図2】前記クライアントおよびサーバに用いるコンピ
ュータの構成を説明するブロック図である。
【図3】前記サーバで用いる各種ファイルの構成を説明
する図である。
【図4】前記サーバで行う予備データの生成の処理を説
明する機能ブロック図である。
【図5】前記サーバで行う予備データの生成の処理を説
明するフローチャートである。
【図6】前記サーバで行う関連文書検索の処理を説明す
る機能ブロック図である。
【図7】前記サーバで行う関連文書検索の処理を説明す
るフローチャートである。
【図8】前記サーバで行う関連語検索の処理を説明する
機能ブロック図である。
【図9】前記サーバで行う関連語検索の処理を説明する
フローチャートである。
【符号の説明】
3 データベース作成装置、関連文書/関連語検索
装置 9 記憶媒体 24 記憶部 25 単語抽出部 26 単語−文書対応作成部 27 特異値分解部 28 次数低減部 30 関連文書検索部 31 関連語検索部

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 文書群に出現する単語の抽出を行なって
    当該単語に関する情報のリストを生成する単語抽出部
    と、 前記文書群を構成する各文書が前記リストの単語のうち
    のどれを含んでいるかを示す単語−文書行列を生成する
    単語−文書対応作成部と、 この単語−文書行列を特異値分解する特異値分解部と、 この特異値分解後の結果から特異値を大きい方から所定
    数だけ取り出して前記結果を次元低減したデータを作成
    する次数低減部とを備えている関連文書/関連語検索用
    のデータベース作成装置。
  2. 【請求項2】 前記単語−文書対応作成部は、前記デー
    タを用いて関連文書検索を行う場合に大きな文書ほど関
    連文書として検索されやすいことを修正するように基準
    化して前記単語−文書行列を生成するものである請求項
    1に記載のデータベース作成装置。
  3. 【請求項3】 請求項1または2に記載のデータベース
    作成装置で作成された前記データを記憶する記憶部と、 文書検索のための問い合わせと前記文書群の各文書との
    空間的距離を前記データを用いて測ることにより前記問
    い合わせに関連がある文書を関連が深い順に前記文書群
    から検索する関連文書検索部とを備えている関連文書検
    索装置。
  4. 【請求項4】 請求項1または2に記載のデータベース
    作成装置で作成された前記データを記憶する記憶部と、 文書検索のための問い合わせと前記文書群に含まれる各
    単語との空間的距離を前記データを用いて測ることによ
    り前記問い合わせに関連がある単語を関連が深い順に前
    記文書群に含まれる単語から検索する関連語検索部とを
    備えている関連語検索装置。
  5. 【請求項5】 文書群に出現する単語の抽出を行なって
    当該単語に関する情報のリストを生成する工程と、 前記文書群を構成する各文書が前記リストの単語のうち
    のどれを含んでいるかを示す単語−文書行列を生成する
    工程と、 この単語−文書行列を特異値分解する工程と、 この特異値分解後の結果から特異値を大きい方から所定
    数だけ取り出して前記結果を次元低減したデータを作成
    する工程とを含んでなる関連文書/関連語検索用のデー
    タベース作成方法。
  6. 【請求項6】 前記単語−文書行列生成工程は、前記デ
    ータを用いて関連文書検索を行う場合に大きな文書ほど
    関連文書として検索されやすいことを修正するように基
    準化して前記単語−文書行列を生成するものである請求
    項5に記載のデータベース作成方法。
  7. 【請求項7】 請求項5または6に記載のデータベース
    作成方法で作成された前記データを用い、文書検索のた
    めの問い合わせと前記文書群の各文書との空間的距離を
    測ることにより前記問い合わせに関連がある文書を関連
    が深い順に前記文書群から検索する工程を含んでなる関
    連文書検索方法。
  8. 【請求項8】 請求項5または6に記載のデータベース
    作成方法で作成された前記データを用い、文書検索のた
    めの問い合わせと前記文書群に含まれる各単語との空間
    的距離を測ることにより前記問い合わせに関連がある単
    語を関連が深い順に前記文書群に含まれる単語から検索
    する工程を含んでなる関連語検索方法。
  9. 【請求項9】 文書群に出現する単語の抽出を行なって
    当該単語に関する情報のリストを生成する工程と、 前記文書群を構成する各文書が前記リストの単語のうち
    のどれを含んでいるかを示す単語−文書行列を生成する
    工程と、 この単語−文書行列を特異値分解する工程と、 この特異値分解後の結果から特異値を大きい方から所定
    数だけ取り出して前記結果を次元低減したデータを作成
    する工程とにより、関連文書/関連語検索用のデータベ
    ースの作成をコンピュータに実行させるプログラムを記
    憶した、コンピュータに読み取り可能な記憶媒体。
  10. 【請求項10】 前記単語−文書行列生成工程は、前記
    データを用いて関連文書検索を行う場合に大きな文書ほ
    ど関連文書として検索されやすいことを修正するように
    基準化して前記単語−文書行列を生成するものである請
    求項9に記載の記憶媒体。
  11. 【請求項11】 請求項9または10に記載の記憶媒体
    を用いてコンピュータで作成した前記データを用い、文
    書検索のための問い合わせと前記文書群の各文書との空
    間的距離を測ることにより前記問い合わせに関連がある
    文書を関連が深い順に前記文書群から検索することをコ
    ンピュータに実行させるプログラムを記憶した、コンピ
    ュータに読み取り可能な記憶媒体。
  12. 【請求項12】 請求項9または10に記載の記憶媒体
    を用いてコンピュータで作成した前記データを用い、文
    書検索のための問い合わせと前記文書群に含まれる各単
    語との空間的距離を測ることにより前記問い合わせに関
    連がある単語を関連が深い順に前記文書群に含まれる単
    語から検索することをコンピュータに実行させるプログ
    ラムを記憶した、コンピュータに読み取り可能な記憶媒
    体。
JP11188613A 1999-07-02 1999-07-02 データベース作成装置および関連文書/関連語検索装置、データベース作成方法および関連文書/関連語検索方法ならびに記憶媒体 Pending JP2001014341A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11188613A JP2001014341A (ja) 1999-07-02 1999-07-02 データベース作成装置および関連文書/関連語検索装置、データベース作成方法および関連文書/関連語検索方法ならびに記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11188613A JP2001014341A (ja) 1999-07-02 1999-07-02 データベース作成装置および関連文書/関連語検索装置、データベース作成方法および関連文書/関連語検索方法ならびに記憶媒体

Publications (1)

Publication Number Publication Date
JP2001014341A true JP2001014341A (ja) 2001-01-19

Family

ID=16226752

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11188613A Pending JP2001014341A (ja) 1999-07-02 1999-07-02 データベース作成装置および関連文書/関連語検索装置、データベース作成方法および関連文書/関連語検索方法ならびに記憶媒体

Country Status (1)

Country Link
JP (1) JP2001014341A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006034498A (ja) * 2004-07-26 2006-02-09 Sun Corp 遊技情報提供装置
US7607083B2 (en) 2000-12-12 2009-10-20 Nec Corporation Test summarization using relevance measures and latent semantic analysis
US8892574B2 (en) 2008-11-26 2014-11-18 Nec Corporation Search apparatus, search method, and non-transitory computer readable medium storing program that input a query representing a subset of a document set stored to a document database and output a keyword that often appears in the subset
JPWO2018150453A1 (ja) * 2017-02-14 2019-06-27 三菱電機株式会社 データ分析装置およびデータ分析方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7607083B2 (en) 2000-12-12 2009-10-20 Nec Corporation Test summarization using relevance measures and latent semantic analysis
JP2006034498A (ja) * 2004-07-26 2006-02-09 Sun Corp 遊技情報提供装置
US8892574B2 (en) 2008-11-26 2014-11-18 Nec Corporation Search apparatus, search method, and non-transitory computer readable medium storing program that input a query representing a subset of a document set stored to a document database and output a keyword that often appears in the subset
JPWO2018150453A1 (ja) * 2017-02-14 2019-06-27 三菱電機株式会社 データ分析装置およびデータ分析方法

Similar Documents

Publication Publication Date Title
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
US8341095B2 (en) Supervised semantic indexing and its extensions
CA2777520C (en) System and method for phrase identification
US8126883B2 (en) Method and system for re-ranking search results
US20060259481A1 (en) Method of analyzing documents
CN1282934A (zh) 相似字选取和文件检索的方法和系统
CN112988980B (zh) 目标产品查询方法、装置、计算机设备和存储介质
KR102059743B1 (ko) 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템
Kumar et al. Effective information retrieval and feature minimization technique for semantic web data
US20170185672A1 (en) Rank aggregation based on a markov model
JP2010061420A (ja) 商品情報検索装置、方法及びシステム
US9501559B2 (en) User-guided search query expansion
JP2016018286A (ja) 行動タイプ判定装置、行動タイプ判定方法及び行動タイプ判定プログラム
JP2006338342A (ja) 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム
US12118314B2 (en) Parameter learning apparatus, parameter learning method, and computer readable recording medium
CN117708270A (zh) 企业数据查询方法、装置、设备及存储介质
JP2005149014A (ja) 文書関連語彙獲得方法及び装置及びプログラム
JP2001014341A (ja) データベース作成装置および関連文書/関連語検索装置、データベース作成方法および関連文書/関連語検索方法ならびに記憶媒体
JP4453440B2 (ja) 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体
Li et al. Complex query recognition based on dynamic learning mechanism
US8745078B2 (en) Control computer and file search method using the same
JP4888677B2 (ja) 文書検索システム
JP2004192374A (ja) 文書検索装置、プログラムおよび記録媒体
Omri Effects of terms recognition mistakes on requests processing for interactive information retrieval
JP2010009237A (ja) 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051118

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20051021

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060811

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090331

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090522

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090721