JP2823761B2

JP2823761B2 - 文書検索装置

Info

Publication number: JP2823761B2
Application number: JP4344000A
Authority: JP
Inventors: 育雄芥子
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1992-12-24
Filing date: 1992-12-24
Publication date: 1998-11-11
Anticipated expiration: 2013-11-11
Also published as: JPH06195388A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、文書検索装置に関
し、特に検索対象となる文書データベースの内容に係る
学習を実施する学習機能付きの文書検索装置に関する。

【０００２】

【従来の技術】単語の特徴ベクトルを用いて文書を検索
する方式として、次のようなものが提案されている(Ｇa
llant,Ｓ.「A Practical Approach for Representing C
ontextand for Rerforming Word Sense Disambiguation
Using Neural Networks」：Neural Computation 3,293-
309,1991 )。

【０００３】この文書検索方式においては、数百の特徴
単語で特徴空間を定義し、各単語に上記特徴単語との関
係を付けた文脈ベクトルを用いる。例えば、上記特徴単
語として次のような単語を定義する。 [human， man， woman， machine， politics, art， science， play， sex， enterainment, walk， lie-down，motion， speak， yell, research，fun， sad， exciting，boring, … ]

【０００４】そして、上記単語の文脈ベクトルは、当該
単語と上記各特徴単語との関係をその強度によって次の
ように段階的に表現した数字を要素とするベクトルであ
る。＋２…非常に関係が強い＋１…関係あり０…全く関係なし −１…矛盾する関係 −２…強く矛盾する関係例えば、単語“astronomer(天文学者)"の文脈ベクトル
は次のようになる。つまり、“astronomer"という単語は、単語“human"と
は非常に関係があり、単語“man"とは関係があり、…、
単語“machine"とは矛盾する関係にあり、…、単語“ar
t"とは全く関係が無く、…と言う特徴を表現しているの
である。

【０００５】このようにして全単語について文脈ベクト
ルを定義する。そして、文書データベースの各レコード
中に含まれる単語の文脈ベクトルの和を正規化(ベクト
ルの絶対値を同じに)したベクトルを各レコードのイン
デックスとするのである。一方、検索要求文についても
同様にして文脈ベクトル化する。そして、上記検索要求
文の文脈ベクトルと文書データベース中の各レコードの
文脈ベクトルとの距離(内積)を算出して、最も距離が近
いレコードから順に検索して内容を表示する。

【０００６】さらに、上記文書データベース中にある新
語(文脈ベクトルが定義されていない語)の文脈ベクトル
については次のようにする。すなわち、新語から周囲の
各単語までの距離(すなわち、離れている単語数)の逆数
を重みとし、その周囲の単語の文脈ベクトルにこの重み
を掛けて得た文脈ベクトルを当該新語の文脈ベクトルと
してその都度割り当てる。そして、同じ新語が何度も出
現する場合には、その都度割り当てた文脈ベクトルの平
均を取ることで当該新語の文脈ベクトルを学習するので
ある。

【０００７】

【発明が解決しようとする課題】しかしながら、上記従
来の文書検索方式においては、単語のあらゆる意味を考
慮した文脈ベクトルをマニュアルで作成する必要があ
り、文書検索システムの構築者にとって大きな負担にな
るという問題がある。また、新語の文脈ベクトルを学習
させる際には、予め新語の周囲の単語の文脈ベクトルが
定義されている必要がある。つまり、固有名詞や専門用
語を除く普通名詞については相当語数の文脈ベクトルが
マニュアルで定義されていなければならないという問題
がある。

【０００８】ところで、文書検索装置の検索対象として
は、大きく次の二つに分類される。 (イ) 文書データベースの中身が変化するような文書デ
ータ。 (ロ) 百科事典等のように文書データベースの中身が固
定されている文書データ。上記文書検索方式は、(１)に示すタイプの文書データベ
ースに対しては比較的有効ではある。ところが、新語の
文脈ベクトルは周囲の単語の文脈ベクトルに基づいて生
成されるために、当該新語が含まれている文書全体の文
脈情報は埋め尽くされない。したがって、新語で検索し
た場合には必ずしも所望の文書が検索できないという問
題もある。

【０００９】そこで、この発明の目的は、出現率の高い
基本単語の特徴ベクトルを定義するだけで所望の文書情
報を精度良く検索することができる文書検索装置を提供
することにある。

【００１０】

【課題を解決するための手段】上記目的を達成するた
め、この発明は、単語の特徴ベクトルを格納した第１単
語辞書と,文書データを複数のレコードに区分して格納
した文書蓄積部と,インデックス生成部と,検索/表示部
を有して、上記インデックス生成部によって上記第１単
語辞書に格納された単語の特徴ベクトルに基づいて所定
の手順によって生成された各レコードの文書データの特
徴ベクトルをインデックスとしてインデックステーブル
に格納し、上記検索/表示部によって検索要求文の特徴
ベクトルと上記インデックステーブルに格納された各レ
コードの文書データの特徴ベクトルとの距離に基づいて
文書データを検索して表示する文書検索装置において、
上記文書蓄積部に格納された各レコードの文書データか
ら重要単語を抽出してこの抽出された重要単語と当該重
要単語が抽出された文書蓄積部のレコード番号との組を
逆インデックステーブルに格納する逆インデックス生成
部と、上記逆インデックス生成部によって抽出された総
ての重要単語の出現頻度の偏りに応じた重みを生成する
と共に、上記抽出された重要単語が上記第１単語辞書に
特徴ベクトルが格納されている重要単語である場合には
当該重要単語の特徴ベクトルと上記重みとを第２単語辞
書に格納する一方、上記抽出された重要単語が上記第１
単語辞書に特徴ベクトルが格納されていない重要単語
(以下、新語と言う)である場合には上記逆インデックス
テーブルを参照して上記インデックステーブルから求め
た当該新語が属する総てのレコードの文書データの特徴
ベクトルに基づいて所定の手順によって生成した当該新
語の特徴ベクトルと上記重みとを上記第２単語辞書に格
納する単語特徴ベクトル生成部を備えて、上記インデッ
クス生成部は、上記第２単語辞書に上記総ての重要単語
の特徴ベクトルと重みとが格納された後に、この第２単
語辞書における各重要単語の特徴ベクトルと重みに基づ
いて再度上記各レコードの文書データの特徴ベクトルを
生成して上記インデックステーブルの内容を更新するこ
とを特徴としている。

【００１１】

【作用】インデックス生成部によって、第１単語辞書に
格納された単語の特徴ベクトルに基づいて文書蓄積部に
格納された各レコードの文書データの特徴ベクトルが所
定の手順によって生成されてインデックスとしてインデ
ックステーブルに格納される。そうすると、逆インデッ
クス生成部によって、上記文書蓄積部に格納された各レ
コードの文書データから重要単語が抽出され、この抽出
された重要単語と当該重要単語が抽出された文書蓄積部
のレコード番号との組がインデックステーブルに格納さ
れる。

【００１２】そして、単語特徴ベクトル生成部によっ
て、上記逆インデックス生成部で抽出された総ての重要
単語の出現頻度の偏りに応じた重みが生成される。さら
に、上記抽出された重要単語が上記第１単語辞書に特徴
ベクトルが格納されている重要単語である場合には、当
該重要単語の特徴ベクトルと上記重みとが第２単語辞書
に格納される。一方、上記抽出された重要単語が上記第
１単語辞書に特徴ベクトルが格納されていない新語であ
る場合には、上記逆インデックステーブルが参照されて
上記インデックステーブルから求められた当該新語が属
する総てのレコードの文書データの特徴ベクトルに基づ
いて所定の手順によって生成された当該新語の特徴ベク
トルと上記重みとが上記第２単語辞書に格納される。

【００１３】こうして上記第２単語辞書に総ての重要単
語の特徴ベクトルと重みとが格納されると、上記インデ
ックス生成部によって、上記第２単語辞書における各重
要単語の特徴ベクトルと重みとに基づいて、再度上記各
レコードの文書データの特徴ベクトルが生成される。そ
して、この生成された各レコードの文書データの特徴ベ
クトルによって上記インデックステーブルの内容が更新
される。

【００１４】その結果、上記インデックステーブルに
は、文書データの文脈情報から自動的に付与された上記
新語の特徴ベクトルと出現頻度の偏りに応じた重みとに
基づいて生成されて、上記文書データの特徴を良く表し
ているインデックスが格納されることになる。したがっ
て、検索/表示部によって、検索要求文の特徴ベクトル
と上記インデックステーブルに格納された各インデック
ス(各レコードの文書データの特徴ベクトル)との距離に
基づいて文書データが検索されると、所望の文書情報が
精度良く検索されるのである。

【００１５】

【実施例】以下、この発明を図示の実施例により詳細に
説明する。図１は本実施例の文書検索装置の一例におけ
る各機能部の構成図であり、図２は図１の文書検索装置
のブロック図である。図１において、本実施例における
文書検索装置は、単語特徴ベクトル生成部１,インデッ
クス生成部２,検索/表示部３,逆インデックス生成部４,
第１単語辞書５,第２単語辞書６,文書蓄積部７,インデ
ックステーブル８および逆インデックステーブル９の各
機能部によって構成される。図２において、１１は補助
記憶装置、１２は中央処理装置(ＣＰＵ),主記憶装置お
よび各種入出力デバイスと上記ＣＰＵとを接続する入出
力チャネルを含む処理部、１３はカソード・レイ・チュー
ブ(ＣＲＴ)等からなる表示装置、１４はキーボードであ
る。

【００１６】以下、図１に従って本実施例における文書
検索装置の構成について詳細に説明する。上記第１単語
辞書５には、出現頻度の高い基本単語の特徴ベクトルが
事前に登録されている。この特徴ベクトルは従来例で述
べた文脈ベクトルと同じものである。また、第２単語辞
書６には学習前は何も登録されてはいない。

【００１７】上記文書蓄積部７には、検索対象となる文
書データがレコード単位で格納されている。インデック
ス生成部２は、学習時において、文書蓄積部７に格納さ
れている文書データからテキストとなる文書データをレ
コード単位で読み出して第１単語辞書５あるいは第２単
語辞書６を用いてインデックスを生成し、インデックス
テーブル８に格納する。その際において、既に学習が実
施されて第２単語辞書６に単語の特徴ベクトルが格納さ
れている場合には、第１単語辞書５の内容は検索されな
い。

【００１８】上記逆インデックス生成部４は、学習時に
おいて、上記インデックス生成部２によって文書蓄積部
７から読み出されたレコード単位の文書データから重要
単語を抽出し、この抽出された重要単語にレコード番号
を付加して逆インデックステーブル９に格納する。上記
単語特徴ベクトル生成部１は、学習時において、第１単
語辞書５,インデックステーブル８および逆インデック
ステーブル９を用いて、文書蓄積部７から抽出された上
記新単語を含む全重要単語の重みＷと特徴ベクトルとを
生成して第２単語辞書６に格納する。

【００１９】上記検索/表示部３は、文書検索時におい
て、第２単語辞書６を用いて検索要求文の特徴ベクトル
を算出する。そして、この算出した検索要求文の特徴ベ
クトルとインデックステーブル８に格納されたインデッ
クス(レコード単位の特徴ベクトル)との距離を算出して
距離の近いインデックスに対応付けられたレコードの文
書から順に表示装置１３(図２参照)に表示する。

【００２０】すなわち、上記補助記憶装置１１によっ
て、第１単語辞書５,第２単語辞書６,文書蓄積部７,イ
ンデックステーブル８および逆インデックステーブル９
を構成する。また、処理部１２によって、単語特徴ベク
トル生成部１,インデックス生成部２,検索/表示部３に
おける検索手段および逆インデックス生成部４を構成す
る。また、表示装置１３によって、検索/表示部３にお
ける表示手段を構成するのである。

【００２１】次に、学習によって検索対象文書データの
検索に最適なインデックスを生成してインデックステー
ブル８に格納する学習アルゴリズムについて説明する。
図３は上記学習アルゴリズムにおけるインデックステー
ブル作成処理動作のフローチャートである。以下、図３
に従って、処理部１２によって実施されるインデックス
テーブル作成処理動作について詳細に説明する。

【００２２】ここで、予め、上記文書蓄積部７にはレコ
ード単位で文書データが格納されており、第１単語辞書
５には出現頻度の高い基本単語の特徴ベクトルが格納さ
れているものとする。尚、この特徴ベクトルは、上記基
本単語が上記従来例で述べた各特徴単語と関係がある場
合には“１"を与える一方関係が無い場合には“０"を与
える１ビットデータを要素とするビットベクトルであ
る。

【００２３】ステップＳ1で、上記インデックス生成部
２によって、文書蓄積部７に格納されている文書データ
がレコード単位で読み出されて、上記主記憶装置の作業
領域に格納される。ステップＳ2で、上記逆インデック
ス生成部４によって、上記作業領域に格納されたレコー
ドの文書データから重要単語が抽出される。ここで、上
記重要単語は次の２つのルールを用いて抽出される。１．名詞,サ変動詞の語幹等の単語や未登録語を優先的
に重要単語とするルール２．抽出頻度や抽出単語数による足切りルールステップＳ3で、上記抽出された重要単語に当該重要単
語が抽出されたレコード番号が付加されて得られた“単
語−レコード番号"が逆インデックステーブル９に格納
される。尚、図４に、逆インデックステーブル９に格納
される“単語−レコード番号"リストの一例を示す。

【００２４】ステップＳ4で、上記インデックステーブ
ル生成部２によって、上記ステップＳ2において抽出さ
れた各重要単語の特徴ベクトルと重みが第１単語辞書５
から検索される。尚、第１単語辞書５に格納された上記
重みの値は“１"である。ステップＳ5で、上記ステップ
Ｓ4において検索された重みと特徴ベクトルと出現頻度
との積が各重要単語毎に算出され、更にそれらの和(ベ
クトル和Ｖ_L)が算出される。ステップＳ6で、上記ステ
ップＳ5において算出された当該レコードに関するベク
トル和Ｖ_Lが式(１)によって正規化されて当該レコード
の文書データ特徴ベクトル(以下、単にレコードの特徴
ベクトルと言う)が得られる。 (Ｖ_L/│Ｖ_L│)＊１０ …（１）上述のように、得られたベクトル和Ｖ_Lを正規化するこ
とによって、各レコードの特徴ベクトルの絶対値を同じ
にするのである。

【００２５】ステップＳ7で、ステップＳ6において得ら
れた当該レコードの特徴ベクトルをインデックスとし
て、当該レコードのレコード番号が付加されて、インデ
ックステーブル８に格納される。尚、図５に、インデッ
クステーブル８に格納される“レコード番号−特徴ベク
トル"リストの一例を示す。ステップＳ8で、上記文書蓄
積部７内に重要単語が抽出されていない未処理のレコー
ドがあるか否かが判別される。その結果、あればステッ
プＳ1に戻って次のレコードの文書データに対する処理
が実施される。一方、なければインデックステーブル作
成処理動作を終了する。

【００２６】図６は上記学習アルゴリズムにおける第２
単語辞書作成のフローチャートである。以下、図６に従
って、処理部１２によって実施される第２単語辞書作成
処理動作について詳細に説明する。

【００２７】ステップＳ11で、上記単語特徴ベクトル生
成部１によって、単語番号ｉに初期値“１"がセットさ
れる。ステップＳ12で、逆インデックステーブル９を検
索して、逆インデックステーブル９に格納されている各
重要単語のうちのｉ番目の重要単語(以下、単語(i)と言
う)の重みＷが式(２)によって算出されて、上記主記憶
装置の作業領域に格納される。Ｗ＝log（全レコード数/単語(i)を含むレコード数) …(２) 上記重みＷは、文書データレコード中の各レコードに満
遍なく含まれる単語ほど小さくなり、あるレコードに偏
って出現する単語ほど大きくなるような値である。

【００２８】ステップＳ13で、上記単語(i)の特徴ベク
トルが第１単語辞書５内にあるか否かが判別される。そ
の結果あればステップＳ19に進み、そうでなければステ
ップＳ14に進む。ステップＳ14で、上記逆インデックス
テーブル９を用いて単語(i)が含まれるレコードのレコ
ード番号が検索される。そして、この検索されたレコー
ド番号に基づいてインデックステーブ８を用いて単語
(i)が含まれる総てのレコードの特徴ベクトルが検索さ
れる。ステップＳ15で、上記ステップＳ14において検索
された総てのレコードの特徴ベクトルの和(特徴ベクト
ル和Ｖ_T)が算出される。ステップＳ16で、上記ステップ
Ｓ15において算出された特徴ベクトル和Ｖ_Tが式(３)に
よって正規化される。こうして得られたベクトルを第１
単語辞書５には無い当該単語(i)の特徴ベクトルとす
る。 (Ｖ_T/│Ｖ_T│)＊１０ …（３）

【００２９】ステップＳ17で、上記ステップＳ16におい
て得られた単語(i)の特徴ベクトルが上記ビットベクト
ルに変換される。ステップＳ18で、上記ステップＳ12に
おいて得られた単語(i)の重みＷ及びステップＳ17にお
いて得られた特徴ベクトルと単語とを対応付けて得られ
た“単語−重みＷ,特徴ベクトル"が第２単語辞書６に格
納されて、ステップＳ21に進む。ステップＳ19で、上記
第１単語辞書５を用いて単語(i)の特徴ベクトルが検索
される。ステップＳ20で、上記ステップＳ12において得
られた単語(i)の重みＷおよびステップＳ19において得
られた特徴ベクトルと単語とを対応付けて得られた“単
語−重みＷ,特徴ベクトル"が第２単語辞書６に格納され
る。ステップＳ21で、上記単語番号ｉが最大値“Ｉ"で
あるか否かが判別される。その結果“Ｉ"でなければス
テップＳ22に進み、“Ｉ"であれば第２単語辞書作成処
理動作を終了する。ステップＳ22で、上記単語番号ｉの
内容がインクリメントされて上記ステップＳ12に戻り、
次の単語の処理が実施される。以後、上記ステップＳ21
において単語番号ｉが最大値“Ｉ"であると判別される
と第２単語辞書作成処理動作を終了する。

【００３０】こうして、上記第２単語辞書作成処理動作
を実施することによって、予め第１単語辞書５に特徴ベ
クトルが登録されていない新語を含めた総ての重要単語
の特徴ベクトルが自動的に作成され、出現頻度の偏りに
応じた重みＷが付加されて第２単語辞書６に登録され
る。その際に、上記新語の特徴ベクトルは、その新語が
属する文書レコードの特徴ベクトルに基づいて作成され
るので、文書の文脈に即した特徴ベクトルが得られるの
である。

【００３１】したがって、このようにして第２単語辞書
６が形成された後に、インデックス生成部２によって、
図３に示すインデックステーブル作成処理動作のフロー
チャートのステップＳ4における特徴ベクトル検索の対
象を第２単語辞書６としてインデックステーブル作成処
理動作を再度実施すれば、文脈に即した新語の特徴ベク
トルが加味された各レコードの特徴ベクトルがインデッ
クスとして生成され、この新たに生成されたインデック
スによってインデックステーブル８の内容が更新され
る。つまり、上述した学習アルゴリズムを実施すること
によって、検索対象となる文書データの特徴をよく表し
たインデックス(文書蓄積部７における各レコードの特
徴ベクトル)が自動的に作成されるのである。

【００３２】以後、文書検索に際しては、上記検索/表
示部３によって、第２単語辞書６を用いて検索要求文の
中に含まれる単語の特徴ベクトルの和を正規化して検索
要求文の特徴ベクトルを算出し、この算出された検索要
求文の特徴ベクトルとインデックステーブル８に格納さ
れている検索対象文書データの特徴をよく表している学
習後の各インデックスとの距離(内積)を算出し、この距
離の最も近いインデックスに対応付けられたレコード番
号を得る。そして、文書蓄積部７における上記レコード
番号を有するレコードから文書データを読み出して表示
装置１３に表示する。以後、次に上記距離の近いインデ
クスに対応付けられた文書データから順に表示装置１３
に表示するのである。

【００３３】その際に、上記検索要求文の特徴ベクトル
とインデクステーブル８内のインデックスとの距離は、
出現頻度およびその偏りに応じた重みを付けて算出され
るので、出現頻度が高く且つ偏っている重要単語(専門
用語等)を多く含む文書ほど正確に検索されるのであ
る。

【００３４】上述のように、本実施例においては、第１
単語辞書５に予め特徴ベクトルが登録されていない新単
語の特徴ベクトルを学習するに際して、先ずインデック
ス生成部２および逆インデックス生成部４によって、第
１単語辞書５を用いてインデックステーブル作成処理動
作が実施される。すなわち、上記インデックス生成部２
は、第１単語辞書５を用いて文書蓄積部７の各レコード
の特徴ベクトルを計算してインデックステーブル８に格
納する。また、上記逆インデックス生成部４は、文書蓄
積部７の各レコードから重要単語を抽出し、抽出された
重要単語とその重要単語が抽出されたレコードのレコー
ド番号とを対応付けて逆インデックステーブル９に格納
する。

【００３５】次に、上記単語特徴ベクトル生成部１によ
って、第１単語辞書５,インデックステーブル８および
逆インデックステーブル９を用いて第２単語辞書作成処
理動作が実施される。すなわち、上記単語特徴ベクトル
生成部１は、逆インデックステーブル９に格納されてい
る全重要単語の出現頻度の偏りに応じた重みＷを算出
し、さらに第１単語辞書５から特徴ベクトルを検索す
る。そして、得られた重みＷおよび特徴ベクトルを第２
単語辞書６に格納する。その際に、上記第１単語辞書５
に特徴ベクトルが登録されていない新語については、逆
インデックステーブル９およびインデックステーブル８
を用いて上記と新語が含まれる全レコードの特徴ベクト
ルを検索し、このレコードの特徴ベクトルに基づいて新
語の特徴ベクトルが算出される。そして、得られた新語
の重みＷと特徴ベクトルを第２単語辞書６に格納する。

【００３６】このように、本実施例においては、新単語
の特徴ベクトルは、当該新単語が属する文書データの文
脈情報から自動的に付与されるので検索対象の文書デー
タに最適化された特徴ベクトルとなる。また、新語を含
む重要単語に対して出現頻度の偏りに応じた重みＷを付
与する。したがって、こうして特徴ベクトルと重みＷと
が設定された新語と予め登録されている出現頻度の高い
基本単語との特徴ベクトルを用いることによって文書デ
ータの特徴を良く表しているインデックスが生成され
る。その結果、上記インデックステーブル８と第２単語
辞書６とを用いて、検索/表示部３によって文書の検索
を実施すれば、所望の文書情報を精度良く検索できるの
である。

【００３７】また、出現頻度の高い基本単語についての
み特徴ベクトルを提供すれば、文書蓄積部７に登録され
た文書データ中における他の重要単語の特徴ベクトルは
文書の文脈情報から自動的に生成されるので、文書検索
システムの構築者は効率的に検索精度の高い文書検索シ
ステムを容易に構築できる。

【００３８】上記実施例においては、上記特徴ベクトル
をビットベクトルで表現する際に、各特徴単語が当該単
語と関係がある場合には“１"を与える一方、無い場合
には“０"を与える１ビットデータを要素とするビット
ベクトルに変換している。しかしながら、この発明はこ
れに限定されるものではなく、上記従来例の如く５段階
に分けて３ビットデータで表現してもよい。

【００３９】また、この発明におけるインデックステー
ブル作成処理動作および第２単語辞書作成処理動作のア
ルゴリズムは、図３あるいは図６に示すフローチャート
に限定されるものではない。また、この発明の文書検索
装置の構成は図２に示すブロック図に限定されるもので
はなく、他の装置を付加しても何等差し支えない。ま
た、上記逆インデックステーブル９に格納される“単語
−レコード番号"リストの形式及びインデックステーブ
ル８に格納される“レコード番号−特徴ベクトル"リス
トの形式は、図４あるいは図５に限定されるものではな
い。

【００４０】

【発明の効果】以上より明らかなように、この発明の文
書検索装置は、インデックス生成部によって、文書蓄積
部における各レコードの文書データの特徴ベクトルを単
語の特徴ベクトルが格納されている第１単語辞書を用い
て生成してインデックスとしてインデックステーブルに
格納し、逆インデックス生成部によって上記文書蓄積部
における各レコードの文書データから抽出した重要単語
とレコード番号との組を逆インデックステーブルに格納
し、単語特徴ベクトル生成部によって、総ての重要単語
の出現頻度の偏りに応じた重みを生成すると共に、上記
重要単語が上記新語である場合には上記逆インデックス
テーブルおよびインデックステーブルに基づいて生成し
た当該新語の特徴ベクトルと上記重みとを上記第２単語
辞書に格納する一方、上記新語でない場合には上記第１
単語辞書からの当該重要単語の特徴ベクトルと上記重み
とを上記第２単語辞書に格納し、上記インデックス生成
部によって、上記第２単語辞書における各重要単語の特
徴ベクトルと重みとに基づいて再度上記各レコードの文
書データの特徴ベクトルを生成して上記インデックステ
ーブルの内容を更新するようにしたので、文書データの
文脈情報から自動的に付与される新語の特徴ベクトルを
含む各重要単語の特徴ベクトルと出現頻度の偏りに応じ
た重みとに基づいて生成されるインデックスは文書デー
タの特徴をよく表している。したがって、上記インデッ
クステーブルと第２単語辞書を用いて検索/表示部によ
って文書の検索を実施すれば、所望の文書情報を精度良
く検索できる。

【００４１】また、上記第１単語辞書に出現頻度の高い
基本単語の特徴ベクトルを格納するだけで、上記文書蓄
積部に格納された文書データ中における他の重要単語の
特徴ベクトルは文脈情報から自動的に生成されるので、
上記基本単語の特徴ベクトルを定義するだけで所望の文
書情報を精度良く検索できる。

【図面の簡単な説明】

【図１】この発明の文書検索装置における各機能部の構
成図である。

【図２】図１に示す文書検索装置のブロック図である。

【図３】インデックステーブル作成処理動作のフローチ
ャートである。

【図４】図１における逆インデックステーブルの内容の
一例を示す図である。

【図５】図１におけるインデックステーブルの内容の一
例を示す図である。

【図６】第２単語辞書作成処理動作のフローチャートで
ある。

【符号の説明】

１…単語特徴ベクトル生成部、２…インデックス
生成部、３…検索/表示部、４…逆イ
ンデックス生成部、５…第１単語辞書、
６…第２単語辞書、７…文書蓄積部、
８…インデックステーブル、９…逆インデックステ
ーブル。

フロントページの続き (56)参考文献特開平４−127272（ＪＰ，Ａ) 特開平３−296863（ＪＰ，Ａ) 特開平４−135278（ＪＰ，Ａ) 特開平３−65763（ＪＰ，Ａ) 特開平３−129472（ＪＰ，Ａ) 特開平３−123972（ＪＰ，Ａ) 特開平３−131973（ＪＰ，Ａ) 芥子育雄，「ベクトル空間モデルに基づくフルテキストサーチシステム」, 1992年度人工知能学会全国大会（第６回）論文集ｐｐ343−346（平成４年６月 24日) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 17/30

Claims

(57)【特許請求の範囲】

【請求項１】単語の特徴ベクトルを格納した第１単語
辞書と、文書データを複数のレコードに区分して格納し
た文書蓄積部と、インデックス生成部と、検索/表示部
を有して、上記インデックス生成部によって上記第１単
語辞書に格納された単語の特徴ベクトルに基づいて所定
の手順によって生成された各レコードの文書データの特
徴ベクトルをインデックスとしてインデックステーブル
に格納し、上記検索/表示部によって検索要求文の特徴
ベクトルと上記インデックステーブルに格納された各レ
コードの文書データの特徴ベクトルとの距離に基づいて
文書データを検索して表示する文書検索装置において、上記文書蓄積部に格納された各レコードの文書データか
ら重要単語を抽出し、この抽出された重要単語と当該重
要単語が抽出された文書蓄積部のレコード番号との組を
逆インデックステーブルに格納する逆インデックス生成
部と、上記逆インデックス生成部によって抽出された総ての重
要単語の出現頻度の偏りに応じた重みを生成すると共
に、上記抽出された重要単語が上記第１単語辞書に特徴
ベクトルが格納されている重要単語である場合には当該
重要単語の特徴ベクトルと上記重みとを第２単語辞書に
格納する一方、上記抽出された重要単語が上記第１単語
辞書に特徴ベクトルが格納されていない重要単語である
場合には上記逆インデックステーブルを参照して上記イ
ンデックステーブルから求めた当該重要単語が属する総
てのレコードの文書データの特徴ベクトルに基づいて所
定の手順によって生成した当該重要単語の特徴ベクトル
と上記重みとを上記第２単語辞書に格納する単語特徴ベ
クトル生成部を備えて、上記インデックス生成部は、上記第２単語辞書に上記総
ての重要単語の特徴ベクトルと重みとが格納された後
に、この第２単語辞書における各重要単語の特徴ベクト
ルと重みに基づいて再度上記各レコードの文書データの
特徴ベクトルを生成して上記インデックステーブルの内
容を更新することを特徴とする文書検索装置。