JP2823761B2 - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JP2823761B2
JP2823761B2 JP4344000A JP34400092A JP2823761B2 JP 2823761 B2 JP2823761 B2 JP 2823761B2 JP 4344000 A JP4344000 A JP 4344000A JP 34400092 A JP34400092 A JP 34400092A JP 2823761 B2 JP2823761 B2 JP 2823761B2
Authority
JP
Japan
Prior art keywords
word
feature vector
document
stored
important
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP4344000A
Other languages
English (en)
Other versions
JPH06195388A (ja
Inventor
育雄 芥子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP4344000A priority Critical patent/JP2823761B2/ja
Publication of JPH06195388A publication Critical patent/JPH06195388A/ja
Application granted granted Critical
Publication of JP2823761B2 publication Critical patent/JP2823761B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、文書検索装置に関
し、特に検索対象となる文書データベースの内容に係る
学習を実施する学習機能付きの文書検索装置に関する。
【0002】
【従来の技術】単語の特徴ベクトルを用いて文書を検索
する方式として、次のようなものが提案されている(Ga
llant,S.「A Practical Approach for Representing C
ontextand for Rerforming Word Sense Disambiguation
Using Neural Networks」:Neural Computation 3,293-
309,1991 )。
【0003】この文書検索方式においては、数百の特徴
単語で特徴空間を定義し、各単語に上記特徴単語との関
係を付けた文脈ベクトルを用いる。例えば、上記特徴単
語として次のような単語を定義する。 [human, man, woman, machine, politics, art, science, play, sex, enterainment, walk, lie-down,motion, speak, yell, research,fun, sad, exciting,boring, … ]
【0004】そして、上記単語の文脈ベクトルは、当該
単語と上記各特徴単語との関係をその強度によって次の
ように段階的に表現した数字を要素とするベクトルであ
る。 +2…非常に関係が強い +1…関係あり 0…全く関係なし −1…矛盾する関係 −2…強く矛盾する関係 例えば、単語“astronomer(天文学者)"の文脈ベクトル
は次のようになる。 つまり、“astronomer"という単語は、単語“human"と
は非常に関係があり、単語“man"とは関係があり、…、
単語“machine"とは矛盾する関係にあり、…、単語“ar
t"とは全く関係が無く、…と言う特徴を表現しているの
である。
【0005】このようにして全単語について文脈ベクト
ルを定義する。そして、文書データベースの各レコード
中に含まれる単語の文脈ベクトルの和を正規化(ベクト
ルの絶対値を同じに)したベクトルを各レコードのイン
デックスとするのである。一方、検索要求文についても
同様にして文脈ベクトル化する。そして、上記検索要求
文の文脈ベクトルと文書データベース中の各レコードの
文脈ベクトルとの距離(内積)を算出して、最も距離が近
いレコードから順に検索して内容を表示する。
【0006】さらに、上記文書データベース中にある新
語(文脈ベクトルが定義されていない語)の文脈ベクトル
については次のようにする。すなわち、新語から周囲の
各単語までの距離(すなわち、離れている単語数)の逆数
を重みとし、その周囲の単語の文脈ベクトルにこの重み
を掛けて得た文脈ベクトルを当該新語の文脈ベクトルと
してその都度割り当てる。そして、同じ新語が何度も出
現する場合には、その都度割り当てた文脈ベクトルの平
均を取ることで当該新語の文脈ベクトルを学習するので
ある。
【0007】
【発明が解決しようとする課題】しかしながら、上記従
来の文書検索方式においては、単語のあらゆる意味を考
慮した文脈ベクトルをマニュアルで作成する必要があ
り、文書検索システムの構築者にとって大きな負担にな
るという問題がある。また、新語の文脈ベクトルを学習
させる際には、予め新語の周囲の単語の文脈ベクトルが
定義されている必要がある。つまり、固有名詞や専門用
語を除く普通名詞については相当語数の文脈ベクトルが
マニュアルで定義されていなければならないという問題
がある。
【0008】ところで、文書検索装置の検索対象として
は、大きく次の二つに分類される。 (イ) 文書データベースの中身が変化するような文書デ
ータ。 (ロ) 百科事典等のように文書データベースの中身が固
定されている文書データ。 上記文書検索方式は、(1)に示すタイプの文書データベ
ースに対しては比較的有効ではある。ところが、新語の
文脈ベクトルは周囲の単語の文脈ベクトルに基づいて生
成されるために、当該新語が含まれている文書全体の文
脈情報は埋め尽くされない。したがって、新語で検索し
た場合には必ずしも所望の文書が検索できないという問
題もある。
【0009】そこで、この発明の目的は、出現率の高い
基本単語の特徴ベクトルを定義するだけで所望の文書情
報を精度良く検索することができる文書検索装置を提供
することにある。
【0010】
【課題を解決するための手段】上記目的を達成するた
め、この発明は、単語の特徴ベクトルを格納した第1単
語辞書と,文書データを複数のレコードに区分して格納
した文書蓄積部と,インデックス生成部と,検索/表示部
を有して、上記インデックス生成部によって上記第1単
語辞書に格納された単語の特徴ベクトルに基づいて所定
の手順によって生成された各レコードの文書データの特
徴ベクトルをインデックスとしてインデックステーブル
に格納し、上記検索/表示部によって検索要求文の特徴
ベクトルと上記インデックステーブルに格納された各レ
コードの文書データの特徴ベクトルとの距離に基づいて
文書データを検索して表示する文書検索装置において、
上記文書蓄積部に格納された各レコードの文書データか
ら重要単語を抽出してこの抽出された重要単語と当該重
要単語が抽出された文書蓄積部のレコード番号との組を
逆インデックステーブルに格納する逆インデックス生成
部と、上記逆インデックス生成部によって抽出された総
ての重要単語の出現頻度の偏りに応じた重みを生成する
と共に、上記抽出された重要単語が上記第1単語辞書に
特徴ベクトルが格納されている重要単語である場合には
当該重要単語の特徴ベクトルと上記重みとを第2単語辞
書に格納する一方、上記抽出された重要単語が上記第1
単語辞書に特徴ベクトルが格納されていない重要単語
(以下、新語と言う)である場合には上記逆インデックス
テーブルを参照して上記インデックステーブルから求め
た当該新語が属する総てのレコードの文書データの特徴
ベクトルに基づいて所定の手順によって生成した当該新
語の特徴ベクトルと上記重みとを上記第2単語辞書に格
納する単語特徴ベクトル生成部を備えて、上記インデッ
クス生成部は、上記第2単語辞書に上記総ての重要単語
の特徴ベクトルと重みとが格納された後に、この第2単
語辞書における各重要単語の特徴ベクトルと重みに基づ
いて再度上記各レコードの文書データの特徴ベクトルを
生成して上記インデックステーブルの内容を更新するこ
とを特徴としている。
【0011】
【作用】インデックス生成部によって、第1単語辞書に
格納された単語の特徴ベクトルに基づいて文書蓄積部に
格納された各レコードの文書データの特徴ベクトルが所
定の手順によって生成されてインデックスとしてインデ
ックステーブルに格納される。そうすると、逆インデッ
クス生成部によって、上記文書蓄積部に格納された各レ
コードの文書データから重要単語が抽出され、この抽出
された重要単語と当該重要単語が抽出された文書蓄積部
のレコード番号との組がインデックステーブルに格納さ
れる。
【0012】そして、単語特徴ベクトル生成部によっ
て、上記逆インデックス生成部で抽出された総ての重要
単語の出現頻度の偏りに応じた重みが生成される。さら
に、上記抽出された重要単語が上記第1単語辞書に特徴
ベクトルが格納されている重要単語である場合には、当
該重要単語の特徴ベクトルと上記重みとが第2単語辞書
に格納される。一方、上記抽出された重要単語が上記第
1単語辞書に特徴ベクトルが格納されていない新語であ
る場合には、上記逆インデックステーブルが参照されて
上記インデックステーブルから求められた当該新語が属
する総てのレコードの文書データの特徴ベクトルに基づ
いて所定の手順によって生成された当該新語の特徴ベク
トルと上記重みとが上記第2単語辞書に格納される。
【0013】こうして上記第2単語辞書に総ての重要単
語の特徴ベクトルと重みとが格納されると、上記インデ
ックス生成部によって、上記第2単語辞書における各重
要単語の特徴ベクトルと重みとに基づいて、再度上記各
レコードの文書データの特徴ベクトルが生成される。そ
して、この生成された各レコードの文書データの特徴ベ
クトルによって上記インデックステーブルの内容が更新
される。
【0014】その結果、上記インデックステーブルに
は、文書データの文脈情報から自動的に付与された上記
新語の特徴ベクトルと出現頻度の偏りに応じた重みとに
基づいて生成されて、上記文書データの特徴を良く表し
ているインデックスが格納されることになる。したがっ
て、検索/表示部によって、検索要求文の特徴ベクトル
と上記インデックステーブルに格納された各インデック
ス(各レコードの文書データの特徴ベクトル)との距離に
基づいて文書データが検索されると、所望の文書情報が
精度良く検索されるのである。
【0015】
【実施例】以下、この発明を図示の実施例により詳細に
説明する。図1は本実施例の文書検索装置の一例におけ
る各機能部の構成図であり、図2は図1の文書検索装置
のブロック図である。図1において、本実施例における
文書検索装置は、単語特徴ベクトル生成部1,インデッ
クス生成部2,検索/表示部3,逆インデックス生成部4,
第1単語辞書5,第2単語辞書6,文書蓄積部7,インデ
ックステーブル8および逆インデックステーブル9の各
機能部によって構成される。図2において、11は補助
記憶装置、12は中央処理装置(CPU),主記憶装置お
よび各種入出力デバイスと上記CPUとを接続する入出
力チャネルを含む処理部、13はカソード・レイ・チュー
ブ(CRT)等からなる表示装置、14はキーボードであ
る。
【0016】以下、図1に従って本実施例における文書
検索装置の構成について詳細に説明する。上記第1単語
辞書5には、出現頻度の高い基本単語の特徴ベクトルが
事前に登録されている。この特徴ベクトルは従来例で述
べた文脈ベクトルと同じものである。また、第2単語辞
書6には学習前は何も登録されてはいない。
【0017】上記文書蓄積部7には、検索対象となる文
書データがレコード単位で格納されている。インデック
ス生成部2は、学習時において、文書蓄積部7に格納さ
れている文書データからテキストとなる文書データをレ
コード単位で読み出して第1単語辞書5あるいは第2単
語辞書6を用いてインデックスを生成し、インデックス
テーブル8に格納する。その際において、既に学習が実
施されて第2単語辞書6に単語の特徴ベクトルが格納さ
れている場合には、第1単語辞書5の内容は検索されな
い。
【0018】上記逆インデックス生成部4は、学習時に
おいて、上記インデックス生成部2によって文書蓄積部
7から読み出されたレコード単位の文書データから重要
単語を抽出し、この抽出された重要単語にレコード番号
を付加して逆インデックステーブル9に格納する。上記
単語特徴ベクトル生成部1は、学習時において、第1単
語辞書5,インデックステーブル8および逆インデック
ステーブル9を用いて、文書蓄積部7から抽出された上
記新単語を含む全重要単語の重みWと特徴ベクトルとを
生成して第2単語辞書6に格納する。
【0019】上記検索/表示部3は、文書検索時におい
て、第2単語辞書6を用いて検索要求文の特徴ベクトル
を算出する。そして、この算出した検索要求文の特徴ベ
クトルとインデックステーブル8に格納されたインデッ
クス(レコード単位の特徴ベクトル)との距離を算出して
距離の近いインデックスに対応付けられたレコードの文
書から順に表示装置13(図2参照)に表示する。
【0020】すなわち、上記補助記憶装置11によっ
て、第1単語辞書5,第2単語辞書6,文書蓄積部7,イ
ンデックステーブル8および逆インデックステーブル9
を構成する。また、処理部12によって、単語特徴ベク
トル生成部1,インデックス生成部2,検索/表示部3に
おける検索手段および逆インデックス生成部4を構成す
る。また、表示装置13によって、検索/表示部3にお
ける表示手段を構成するのである。
【0021】次に、学習によって検索対象文書データの
検索に最適なインデックスを生成してインデックステー
ブル8に格納する学習アルゴリズムについて説明する。
図3は上記学習アルゴリズムにおけるインデックステー
ブル作成処理動作のフローチャートである。以下、図3
に従って、処理部12によって実施されるインデックス
テーブル作成処理動作について詳細に説明する。
【0022】ここで、予め、上記文書蓄積部7にはレコ
ード単位で文書データが格納されており、第1単語辞書
5には出現頻度の高い基本単語の特徴ベクトルが格納さ
れているものとする。尚、この特徴ベクトルは、上記基
本単語が上記従来例で述べた各特徴単語と関係がある場
合には“1"を与える一方関係が無い場合には“0"を与
える1ビットデータを要素とするビットベクトルであ
る。
【0023】ステップS1で、上記インデックス生成部
2によって、文書蓄積部7に格納されている文書データ
がレコード単位で読み出されて、上記主記憶装置の作業
領域に格納される。ステップS2で、上記逆インデック
ス生成部4によって、上記作業領域に格納されたレコー
ドの文書データから重要単語が抽出される。ここで、上
記重要単語は次の2つのルールを用いて抽出される。 1.名詞,サ変動詞の語幹等の単語や未登録語を優先的
に重要単語とするルール 2.抽出頻度や抽出単語数による足切りルール ステップS3で、上記抽出された重要単語に当該重要単
語が抽出されたレコード番号が付加されて得られた“単
語−レコード番号"が逆インデックステーブル9に格納
される。尚、図4に、逆インデックステーブル9に格納
される“単語−レコード番号"リストの一例を示す。
【0024】ステップS4で、上記インデックステーブ
ル生成部2によって、上記ステップS2において抽出さ
れた各重要単語の特徴ベクトルと重みが第1単語辞書5
から検索される。尚、第1単語辞書5に格納された上記
重みの値は“1"である。ステップS5で、上記ステップ
S4において検索された重みと特徴ベクトルと出現頻度
との積が各重要単語毎に算出され、更にそれらの和(ベ
クトル和VL)が算出される。ステップS6で、上記ステ
ップS5において算出された当該レコードに関するベク
トル和VLが式(1)によって正規化されて当該レコード
の文書データ特徴ベクトル(以下、単にレコードの特徴
ベクトルと言う)が得られる。 (VL/│VL│)*10 …(1) 上述のように、得られたベクトル和VLを正規化するこ
とによって、各レコードの特徴ベクトルの絶対値を同じ
にするのである。
【0025】ステップS7で、ステップS6において得ら
れた当該レコードの特徴ベクトルをインデックスとし
て、当該レコードのレコード番号が付加されて、インデ
ックステーブル8に格納される。尚、図5に、インデッ
クステーブル8に格納される“レコード番号−特徴ベク
トル"リストの一例を示す。ステップS8で、上記文書蓄
積部7内に重要単語が抽出されていない未処理のレコー
ドがあるか否かが判別される。その結果、あればステッ
プS1に戻って次のレコードの文書データに対する処理
が実施される。一方、なければインデックステーブル作
成処理動作を終了する。
【0026】図6は上記学習アルゴリズムにおける第2
単語辞書作成のフローチャートである。以下、図6に従
って、処理部12によって実施される第2単語辞書作成
処理動作について詳細に説明する。
【0027】ステップS11で、上記単語特徴ベクトル生
成部1によって、単語番号iに初期値“1"がセットさ
れる。ステップS12で、逆インデックステーブル9を検
索して、逆インデックステーブル9に格納されている各
重要単語のうちのi番目の重要単語(以下、単語(i)と言
う)の重みWが式(2)によって算出されて、上記主記憶
装置の作業領域に格納される。 W=log(全レコード数/単語(i)を含むレコード数) …(2) 上記重みWは、文書データレコード中の各レコードに満
遍なく含まれる単語ほど小さくなり、あるレコードに偏
って出現する単語ほど大きくなるような値である。
【0028】ステップS13で、上記単語(i)の特徴ベク
トルが第1単語辞書5内にあるか否かが判別される。そ
の結果あればステップS19に進み、そうでなければステ
ップS14に進む。ステップS14で、上記逆インデックス
テーブル9を用いて単語(i)が含まれるレコードのレコ
ード番号が検索される。そして、この検索されたレコー
ド番号に基づいてインデックステーブ8を用いて単語
(i)が含まれる総てのレコードの特徴ベクトルが検索さ
れる。ステップS15で、上記ステップS14において検索
された総てのレコードの特徴ベクトルの和(特徴ベクト
ル和VT)が算出される。ステップS16で、上記ステップ
S15において算出された特徴ベクトル和VTが式(3)に
よって正規化される。こうして得られたベクトルを第1
単語辞書5には無い当該単語(i)の特徴ベクトルとす
る。 (VT/│VT│)*10 …(3)
【0029】ステップS17で、上記ステップS16におい
て得られた単語(i)の特徴ベクトルが上記ビットベクト
ルに変換される。ステップS18で、上記ステップS12に
おいて得られた単語(i)の重みW及びステップS17にお
いて得られた特徴ベクトルと単語とを対応付けて得られ
た“単語−重みW,特徴ベクトル"が第2単語辞書6に格
納されて、ステップS21に進む。ステップS19で、上記
第1単語辞書5を用いて単語(i)の特徴ベクトルが検索
される。ステップS20で、上記ステップS12において得
られた単語(i)の重みWおよびステップS19において得
られた特徴ベクトルと単語とを対応付けて得られた“単
語−重みW,特徴ベクトル"が第2単語辞書6に格納され
る。ステップS21で、上記単語番号iが最大値“I"で
あるか否かが判別される。その結果“I"でなければス
テップS22に進み、“I"であれば第2単語辞書作成処
理動作を終了する。ステップS22で、上記単語番号iの
内容がインクリメントされて上記ステップS12に戻り、
次の単語の処理が実施される。以後、上記ステップS21
において単語番号iが最大値“I"であると判別される
と第2単語辞書作成処理動作を終了する。
【0030】こうして、上記第2単語辞書作成処理動作
を実施することによって、予め第1単語辞書5に特徴ベ
クトルが登録されていない新語を含めた総ての重要単語
の特徴ベクトルが自動的に作成され、出現頻度の偏りに
応じた重みWが付加されて第2単語辞書6に登録され
る。その際に、上記新語の特徴ベクトルは、その新語が
属する文書レコードの特徴ベクトルに基づいて作成され
るので、文書の文脈に即した特徴ベクトルが得られるの
である。
【0031】したがって、このようにして第2単語辞書
6が形成された後に、インデックス生成部2によって、
図3に示すインデックステーブル作成処理動作のフロー
チャートのステップS4における特徴ベクトル検索の対
象を第2単語辞書6としてインデックステーブル作成処
理動作を再度実施すれば、文脈に即した新語の特徴ベク
トルが加味された各レコードの特徴ベクトルがインデッ
クスとして生成され、この新たに生成されたインデック
スによってインデックステーブル8の内容が更新され
る。つまり、上述した学習アルゴリズムを実施すること
によって、検索対象となる文書データの特徴をよく表し
たインデックス(文書蓄積部7における各レコードの特
徴ベクトル)が自動的に作成されるのである。
【0032】以後、文書検索に際しては、上記検索/表
示部3によって、第2単語辞書6を用いて検索要求文の
中に含まれる単語の特徴ベクトルの和を正規化して検索
要求文の特徴ベクトルを算出し、この算出された検索要
求文の特徴ベクトルとインデックステーブル8に格納さ
れている検索対象文書データの特徴をよく表している学
習後の各インデックスとの距離(内積)を算出し、この距
離の最も近いインデックスに対応付けられたレコード番
号を得る。そして、文書蓄積部7における上記レコード
番号を有するレコードから文書データを読み出して表示
装置13に表示する。以後、次に上記距離の近いインデ
クスに対応付けられた文書データから順に表示装置13
に表示するのである。
【0033】その際に、上記検索要求文の特徴ベクトル
とインデクステーブル8内のインデックスとの距離は、
出現頻度およびその偏りに応じた重みを付けて算出され
るので、出現頻度が高く且つ偏っている重要単語(専門
用語等)を多く含む文書ほど正確に検索されるのであ
る。
【0034】上述のように、本実施例においては、第1
単語辞書5に予め特徴ベクトルが登録されていない新単
語の特徴ベクトルを学習するに際して、先ずインデック
ス生成部2および逆インデックス生成部4によって、第
1単語辞書5を用いてインデックステーブル作成処理動
作が実施される。すなわち、上記インデックス生成部2
は、第1単語辞書5を用いて文書蓄積部7の各レコード
の特徴ベクトルを計算してインデックステーブル8に格
納する。また、上記逆インデックス生成部4は、文書蓄
積部7の各レコードから重要単語を抽出し、抽出された
重要単語とその重要単語が抽出されたレコードのレコー
ド番号とを対応付けて逆インデックステーブル9に格納
する。
【0035】次に、上記単語特徴ベクトル生成部1によ
って、第1単語辞書5,インデックステーブル8および
逆インデックステーブル9を用いて第2単語辞書作成処
理動作が実施される。すなわち、上記単語特徴ベクトル
生成部1は、逆インデックステーブル9に格納されてい
る全重要単語の出現頻度の偏りに応じた重みWを算出
し、さらに第1単語辞書5から特徴ベクトルを検索す
る。そして、得られた重みWおよび特徴ベクトルを第2
単語辞書6に格納する。その際に、上記第1単語辞書5
に特徴ベクトルが登録されていない新語については、逆
インデックステーブル9およびインデックステーブル8
を用いて上記と新語が含まれる全レコードの特徴ベクト
ルを検索し、このレコードの特徴ベクトルに基づいて新
語の特徴ベクトルが算出される。そして、得られた新語
の重みWと特徴ベクトルを第2単語辞書6に格納する。
【0036】このように、本実施例においては、新単語
の特徴ベクトルは、当該新単語が属する文書データの文
脈情報から自動的に付与されるので検索対象の文書デー
タに最適化された特徴ベクトルとなる。また、新語を含
む重要単語に対して出現頻度の偏りに応じた重みWを付
与する。したがって、こうして特徴ベクトルと重みWと
が設定された新語と予め登録されている出現頻度の高い
基本単語との特徴ベクトルを用いることによって文書デ
ータの特徴を良く表しているインデックスが生成され
る。その結果、上記インデックステーブル8と第2単語
辞書6とを用いて、検索/表示部3によって文書の検索
を実施すれば、所望の文書情報を精度良く検索できるの
である。
【0037】また、出現頻度の高い基本単語についての
み特徴ベクトルを提供すれば、文書蓄積部7に登録され
た文書データ中における他の重要単語の特徴ベクトルは
文書の文脈情報から自動的に生成されるので、文書検索
システムの構築者は効率的に検索精度の高い文書検索シ
ステムを容易に構築できる。
【0038】上記実施例においては、上記特徴ベクトル
をビットベクトルで表現する際に、各特徴単語が当該単
語と関係がある場合には“1"を与える一方、無い場合
には“0"を与える1ビットデータを要素とするビット
ベクトルに変換している。しかしながら、この発明はこ
れに限定されるものではなく、上記従来例の如く5段階
に分けて3ビットデータで表現してもよい。
【0039】また、この発明におけるインデックステー
ブル作成処理動作および第2単語辞書作成処理動作のア
ルゴリズムは、図3あるいは図6に示すフローチャート
に限定されるものではない。また、この発明の文書検索
装置の構成は図2に示すブロック図に限定されるもので
はなく、他の装置を付加しても何等差し支えない。ま
た、上記逆インデックステーブル9に格納される“単語
−レコード番号"リストの形式及びインデックステーブ
ル8に格納される“レコード番号−特徴ベクトル"リス
トの形式は、図4あるいは図5に限定されるものではな
い。
【0040】
【発明の効果】以上より明らかなように、この発明の文
書検索装置は、インデックス生成部によって、文書蓄積
部における各レコードの文書データの特徴ベクトルを単
語の特徴ベクトルが格納されている第1単語辞書を用い
て生成してインデックスとしてインデックステーブルに
格納し、逆インデックス生成部によって上記文書蓄積部
における各レコードの文書データから抽出した重要単語
とレコード番号との組を逆インデックステーブルに格納
し、単語特徴ベクトル生成部によって、総ての重要単語
の出現頻度の偏りに応じた重みを生成すると共に、上記
重要単語が上記新語である場合には上記逆インデックス
テーブルおよびインデックステーブルに基づいて生成し
た当該新語の特徴ベクトルと上記重みとを上記第2単語
辞書に格納する一方、上記新語でない場合には上記第1
単語辞書からの当該重要単語の特徴ベクトルと上記重み
とを上記第2単語辞書に格納し、上記インデックス生成
部によって、上記第2単語辞書における各重要単語の特
徴ベクトルと重みとに基づいて再度上記各レコードの文
書データの特徴ベクトルを生成して上記インデックステ
ーブルの内容を更新するようにしたので、文書データの
文脈情報から自動的に付与される新語の特徴ベクトルを
含む各重要単語の特徴ベクトルと出現頻度の偏りに応じ
た重みとに基づいて生成されるインデックスは文書デー
タの特徴をよく表している。したがって、上記インデッ
クステーブルと第2単語辞書を用いて検索/表示部によ
って文書の検索を実施すれば、所望の文書情報を精度良
く検索できる。
【0041】また、上記第1単語辞書に出現頻度の高い
基本単語の特徴ベクトルを格納するだけで、上記文書蓄
積部に格納された文書データ中における他の重要単語の
特徴ベクトルは文脈情報から自動的に生成されるので、
上記基本単語の特徴ベクトルを定義するだけで所望の文
書情報を精度良く検索できる。
【図面の簡単な説明】
【図1】この発明の文書検索装置における各機能部の構
成図である。
【図2】図1に示す文書検索装置のブロック図である。
【図3】インデックステーブル作成処理動作のフローチ
ャートである。
【図4】図1における逆インデックステーブルの内容の
一例を示す図である。
【図5】図1におけるインデックステーブルの内容の一
例を示す図である。
【図6】第2単語辞書作成処理動作のフローチャートで
ある。
【符号の説明】
1…単語特徴ベクトル生成部、 2…インデックス
生成部、3…検索/表示部、 4…逆イ
ンデックス生成部、5…第1単語辞書、
6…第2単語辞書、7…文書蓄積部、
8…インデックステーブル、9…逆インデックステ
ーブル。
フロントページの続き (56)参考文献 特開 平4−127272(JP,A) 特開 平3−296863(JP,A) 特開 平4−135278(JP,A) 特開 平3−65763(JP,A) 特開 平3−129472(JP,A) 特開 平3−123972(JP,A) 特開 平3−131973(JP,A) 芥子育雄,「ベクトル空間モデルに基 づくフルテキストサーチシステム」, 1992年度人工知能学会全国大会(第6 回)論文集pp343−346(平成4年6月 24日) (58)調査した分野(Int.Cl.6,DB名) G06F 17/30

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 単語の特徴ベクトルを格納した第1単語
    辞書と、文書データを複数のレコードに区分して格納し
    た文書蓄積部と、インデックス生成部と、検索/表示部
    を有して、上記インデックス生成部によって上記第1単
    語辞書に格納された単語の特徴ベクトルに基づいて所定
    の手順によって生成された各レコードの文書データの特
    徴ベクトルをインデックスとしてインデックステーブル
    に格納し、上記検索/表示部によって検索要求文の特徴
    ベクトルと上記インデックステーブルに格納された各レ
    コードの文書データの特徴ベクトルとの距離に基づいて
    文書データを検索して表示する文書検索装置において、 上記文書蓄積部に格納された各レコードの文書データか
    ら重要単語を抽出し、この抽出された重要単語と当該重
    要単語が抽出された文書蓄積部のレコード番号との組を
    逆インデックステーブルに格納する逆インデックス生成
    部と、 上記逆インデックス生成部によって抽出された総ての重
    要単語の出現頻度の偏りに応じた重みを生成すると共
    に、上記抽出された重要単語が上記第1単語辞書に特徴
    ベクトルが格納されている重要単語である場合には当該
    重要単語の特徴ベクトルと上記重みとを第2単語辞書に
    格納する一方、上記抽出された重要単語が上記第1単語
    辞書に特徴ベクトルが格納されていない重要単語である
    場合には上記逆インデックステーブルを参照して上記イ
    ンデックステーブルから求めた当該重要単語が属する総
    てのレコードの文書データの特徴ベクトルに基づいて所
    定の手順によって生成した当該重要単語の特徴ベクトル
    と上記重みとを上記第2単語辞書に格納する単語特徴ベ
    クトル生成部を備えて、 上記インデックス生成部は、上記第2単語辞書に上記総
    ての重要単語の特徴ベクトルと重みとが格納された後
    に、この第2単語辞書における各重要単語の特徴ベクト
    ルと重みに基づいて再度上記各レコードの文書データの
    特徴ベクトルを生成して上記インデックステーブルの内
    容を更新することを特徴とする文書検索装置。
JP4344000A 1992-12-24 1992-12-24 文書検索装置 Expired - Fee Related JP2823761B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4344000A JP2823761B2 (ja) 1992-12-24 1992-12-24 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4344000A JP2823761B2 (ja) 1992-12-24 1992-12-24 文書検索装置

Publications (2)

Publication Number Publication Date
JPH06195388A JPH06195388A (ja) 1994-07-15
JP2823761B2 true JP2823761B2 (ja) 1998-11-11

Family

ID=18365887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4344000A Expired - Fee Related JP2823761B2 (ja) 1992-12-24 1992-12-24 文書検索装置

Country Status (1)

Country Link
JP (1) JP2823761B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08251222A (ja) * 1995-03-14 1996-09-27 Sharp Corp メッセージ通信システム
JP3195752B2 (ja) 1997-02-28 2001-08-06 シャープ株式会社 検索装置
US6734876B2 (en) 1997-11-28 2004-05-11 Minolta Co. ,Ltd. Image display apparatus
JP3701515B2 (ja) * 1999-06-30 2005-09-28 シャープ株式会社 検索装置及び検索プログラムを記録した記録媒体
JP2001075989A (ja) 1999-09-06 2001-03-23 Sharp Corp 情報提示装置および方法、ならびに情報提示プログラムを記録したコンピュータで読取可能な記録媒体
JP2003256466A (ja) 2002-03-04 2003-09-12 Denso Corp 適応的情報検索システム
JP7013957B2 (ja) * 2018-03-12 2022-02-01 富士通株式会社 生成プログラム、生成方法、情報処理装置および情報処理システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
芥子育雄,「ベクトル空間モデルに基づくフルテキストサーチシステム」,1992年度人工知能学会全国大会(第6回)論文集pp343−346(平成4年6月24日)

Also Published As

Publication number Publication date
JPH06195388A (ja) 1994-07-15

Similar Documents

Publication Publication Date Title
JP3195752B2 (ja) 検索装置
CN106446162A (zh) 一种面向领域的本体知识库文本检索方法
WO2017215242A1 (zh) 简历搜索方法及装置
WO2021135290A1 (zh) 基于知识图谱的信息可视化方法、装置、设备及存储介质
CN113190593A (zh) 一种基于数字人文知识图谱的搜索推荐方法
JP2823761B2 (ja) 文書検索装置
JPH0816611A (ja) 自然言語に基づくデータ検索装置
JP2859771B2 (ja) 動的概念辞書を用いた類似検索方法及びその装置
JP2985805B2 (ja) 情報検索装置
JP2002140332A (ja) 特徴量重要度算出方法、それを用いたキーワード画像特徴量表現データベース作成及び画像データベース検索
JP3499658B2 (ja) 対話支援装置
JPH064584A (ja) 文章検索装置
JP2019008476A (ja) 生成プログラム、生成装置及び生成方法
JP6495206B2 (ja) 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム
CN112199461B (zh) 基于块索引结构的文档检索方法、装置、介质和设备
JP2993530B2 (ja) 文生成装置
JP3162907B2 (ja) 文書データ検索装置
JPH08171572A (ja) データベース検索システム
JPH10334105A (ja) 関連語提示装置及び関連語提示用プログラムを記録した媒体
JPH06168129A (ja) 知識抽出装置
JP3259781B2 (ja) データベース検索システムおよびデータベース検索方法
JP3019286B2 (ja) 文書検索装置
JPH0785072A (ja) データベース選択装置
JPH10232871A (ja) 検索装置
JP2002117043A (ja) 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080904

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees