JPH09311872A - 文書検索装置および方法、情報記憶媒体 - Google Patents

文書検索装置および方法、情報記憶媒体

Info

Publication number
JPH09311872A
JPH09311872A JP8193277A JP19327796A JPH09311872A JP H09311872 A JPH09311872 A JP H09311872A JP 8193277 A JP8193277 A JP 8193277A JP 19327796 A JP19327796 A JP 19327796A JP H09311872 A JPH09311872 A JP H09311872A
Authority
JP
Japan
Prior art keywords
document data
document
word
ranking
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8193277A
Other languages
English (en)
Inventor
Yasutsugu Ogawa
泰嗣 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP8193277A priority Critical patent/JPH09311872A/ja
Publication of JPH09311872A publication Critical patent/JPH09311872A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 検索要求を入力して文書データを検索する場
合に、この検索が高速に実行され、検索要求に合致した
文書データを容易に見付けられるようにする。 【解決手段】 データベース21に格納された文書デー
タの識別子を、文字成分表22の文字の一覧に設定して
おき、検索要求の文字が出現する文書データを文字成分
表22に従ってデータベース21から検索する。このデ
ータベース21における検索要求の単語の重要度を算出
し、この重要度に基づいて検索された文書データの各々
と検索要求との適合度を個々に算出し、この適合度で検
索された文書データをランキングする。検索を単語単位
でなく文字単位として処理を高速化し、検索された文書
データを検索要求との適合度に従ってランキングする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、データベースから
文書データを検索する文書検索装置および方法、文書検
索装置のプログラムが書き込まれた情報記憶媒体、に関
する。
【0002】
【従来の技術】文書管理システム等の文書検索装置は、
多数の文書データが予め格納されたデータベースを有し
ており、このデータベースから所望の文書データを検索
して出力することができる。一般的な文書検索装置で
は、データベースの文書データにキーワードとなる単語
が付与されているので、ユーザが所望の単語から検索要
求を作成して文書検索装置に入力すると、この検索要求
に整合する文書データが単語のマッチングに従って検索
される。
【0003】しかし、このような文書検索装置では、デ
ータベースに格納する文書データに、その内容を反映し
た単語を付与する必要があり、この作業が煩雑である。
文書データを解析して単語を抽出する装置も開発されて
いるが、これは処理の負担が大きいのでデータベースに
文書データを格納する作業が遅滞する。
【0004】このような課題を解決するため、特開平5-
324722号公報に開示された文書検索装置では、データベ
ースとは別個に文字成分表を設けており、この文字成分
表には、文書データと文字との関係に対応して、文字の
一覧に文書データを設定している。例えば、ある文書デ
ータに“管理”なる単語が出現する場合、文字成分表の
文字の一覧の“管”と“理”との部分に、その文書デー
タの識別子が設定される。このような文書検索装置で
は、ユーザが所望の単語から検索要求を作成して文書検
索装置に入力すると、この検索要求の単語も文字に分解
され、その文字が出現する文書データが文字成分表によ
り検索される。
【0005】このように文字成分表を設けた文書検索装
置では、データベースに文書データを格納する場合、文
書データから単語を抽出する必要がないので作業が簡易
である。文字成分表に文書データを設定する場合も、文
書データを文字に分解して対応する一覧の文字に識別子
を設定するだけなので、この作業も簡易でキーワードの
一覧に比較して記憶に必要な容量も小さい。さらに、単
語のパターンマッチングに比較して文字の照合は容易な
ので、文書データを検索する処理も簡易である。
【0006】なお、このように文字成分表を設けた文書
検索装置では、文書データを文字の単位で検索するの
で、検索要求の単語が存在しなくとも、その文字が存在
する文書データが検索されてしまう。例えば、ある文書
データに“管理”なる単語が出現せず、“管”と“理”
との文字が独立に出現しているならば、この文書データ
は検索要求の“管理”なる単語により検索されてしま
う。
【0007】このような誤検索を削減するため、特開平
5-324722号公報に開示された文書検索装置では、文字成
分表と共に隣接文字表も作成しており、この隣接文字表
には、文書データで連続する二つの文字を一組として一
覧を形成し、この一覧の文字組毎にも文書データの識別
子を設定している。この場合、文書データに“管”と
“理”との文字が連続して出現しなければ、これは検索
要求の“管理”なる単語により検索されることがない。
【0008】
【発明が解決しようとする課題】文字成分表を設けた文
書検索装置では、データベースを簡易に構築することが
でき、検索の処理も容易である。
【0009】このような文書検索装置では、ユーザの検
索要求に適合する文書データが単純に検索されるので、
検索される文書データが膨大な件数となることがある。
このような場合、作業を繰り返して検索された文書デー
タを絞り込むことになるが、これでは作業が煩雑で処理
も遅滞する。
【0010】例えば、特開平6-348757号公報に開示され
た文書検索装置では、データベースに文書データをキー
ワードと共に設定する場合に、その文書データにおける
キーワードの出現頻度も設定している。このため、検索
要求に対応して文書データを検索する場合に、検索要求
に対する文書データの適合度を算出することができるの
で、この適合度の順番に検索された文書データを配列す
ることができる。この場合、検索された文書データが膨
大な件数となっても、上位の文書データほど検索要求に
適合しているので、ユーザは所望の個数を上位から選択
すれば良い。
【0011】しかし、この文書検索装置は、データベー
スに格納する文書データから単語を抽出する必要がある
ので、前述のように作業が煩雑で記憶に必要な容量も大
きくなる。
【0012】
【課題を解決するための手段】請求項1記載の発明の文
書検索装置は、多数の文書データが識別子と共に予め格
納されたデータベースと、文字の一覧に文書データの識
別子が予め設定された文字成分表と、文書データの検索
要求の入力を受け付ける要求入力手段と、入力された検
索要求の単語の文字が出現する文書データを前記文字成
分表に従って前記データベースから検索する文書検索手
段と、検索要求と検索された文書データの各々との適合
度を個々に算出する適合度算出手段と、適合度に対応し
て検索された文書データをランキングする結果ランキン
グ手段と、ランキングされた文書データを出力する結果
出力手段とを有する。従って、文字成分表に従って文書
データは高速に検索され、この検索された文書データが
検索要求との適合度に従ってランキングされる。
【0013】請求項2記載の発明の文書検索装置では、
請求項1記載の発明において、適合度算出手段は、デー
タベースにおける検索要求の単語の重要度を算出し、こ
の重要度に基づいて検索要求と検索された文書データの
各々との適合度を個々に算出する。従って、データベー
スにおいて重要な単語で検索された文書データほど上位
にランキングされる。
【0014】請求項3記載の発明の文書検索装置では、
請求項1記載の発明において、適合度算出手段は、検索
要求における単語の重要度を算出し、この重要度に基づ
いて検索要求と検索された文書データの各々との適合度
を個々に算出する。従って、検索要求において重要な単
語で検索された文書データほど上位にランキングされ
る。
【0015】請求項4記載の発明の文書検索装置では、
請求項1記載の発明において、適合度算出手段は、検索
された文書データにおける検索要求の単語の重要度を算
出し、この重要度に基づいて検索要求と検索された文書
データの各々との適合度を個々に算出する。従って、重
要な単語が頻繁に出現する文書データほど上位にランキ
ングされる。
【0016】請求項5記載の発明の文書検索装置では、
請求項1,2,3または4記載の発明において、検索要
求の単語の有無を検索された文書データに対して照合す
る結果照合手段を設けた。従って、検索要求の単語の文
字は存在しても単語は存在しない文書データが検索結果
から排除される。
【0017】請求項6記載の発明の文書検索装置では、
請求項1,2または3記載の発明において、検索する文
書データの要望個数を設定する個数設定手段を設け、検
索要求の単語の有無を文書データに対して照合する結果
照合手段を設け、この結果照合手段の処理を実行しない
状態で文字成分表に従って検索された文書データの各々
と検索要求との適合度を仮適合度として適合度算出手段
により個々に算出させ、この仮適合度に従って結果ラン
キング手段により検索された文書データを仮ランキング
させ、この仮ランキングの上位の文書データに対して前
記結果照合手段により検索要求の単語の有無を照合さ
せ、この照合の結果に従って前記適合度算出手段により
文書データと検索要求との本適合度を算出させ、この本
適合度に従って前記結果ランキング手段により仮ランキ
ングされた文書データを本ランキングさせ、この本ラン
キングされた文書データが要望個数となるまで仮ランキ
ングの順位に従って処理を繰り返させる。従って、最初
は文書データの識別子のみが文字成分表から検索され、
このように識別子として検索された文書データが検索要
求との仮適合度に従って仮ランキングされる。この仮ラ
ンキングの順番で文書データの記載内容がデータベース
から読み出され、検索要求の単語の有無に従って要望個
数だけ本ランキングされる。
【0018】請求項7記載の発明の文書検索装置では、
請求項4記載の発明において、検索する文書データの要
望個数を設定する個数設定手段を設け、文字成分表に従
って検索された文書データの各々と検索要求との適合度
を仮適合度として適合度算出手段により個々に算出さ
せ、この仮適合度に従って結果ランキング手段により検
索された文書データを仮ランキングさせ、この仮ランキ
ングの上位の文書データに対して検索要求の単語の出現
回数を積算する単語積算手段を設け、この単語の出現回
数に従って前記適合度算出手段により文書データと検索
要求との本適合度を算出させ、この本適合度に従って前
記結果ランキング手段により仮ランキングされた文書デ
ータを本ランキングさせ、この本ランキングされた文書
データが要望個数となるまで仮ランキングの順位に従っ
て処理を繰り返させる。従って、最初は文書データの識
別子のみが文字成分表から検索され、このように識別子
として検索された文書データが検索要求との仮適合度に
従って仮ランキングされる。この仮ランキングの順番で
文書データの記載内容がデータベースから読み出され、
検索要求の単語の出現回数に従って要望個数だけ本ラン
キングされる。
【0019】請求項8記載の発明の文書検索装置では、
請求項7記載の発明において、単語積算手段は、文書デ
ータから積算する単語の出現回数に上限値が予め設定さ
れている。従って、単語の重要度は精度が低下すること
なく上限値が設定され、この重要度の上限値を次の仮適
合度に乗算した数値より本適合度が大きければ、その文
書データは本ランキングされる。
【0020】請求項9記載の発明の文書検索方法は、多
数の文書データを識別子と共にデータベースに予め格納
しておき、文字成分表の文字の一覧に文書データの識別
子を予め設定しておき、文書データの検索要求の入力を
受け付け、この入力された検索要求の単語の文字が出現
する文書データを前記文字成分表に従って前記データベ
ースから検索し、この検索された文書データの各々と検
索要求との適合度を個々に算出し、この適合度に対応し
て検索された文書データをランキングし、このランキン
グされた文書データを出力するようにした。従って、文
字成分表に従って文書データは高速に検索され、この検
索された文書データが検索要求との適合度に従ってラン
キングされる。
【0021】請求項10記載の発明の文書検索方法は、
多数の文書データを識別子と共にデータベースに予め格
納しておき、文字成分表の文字の一覧に文書データの識
別子を予め設定しておき、検索する文書データの要望個
数を設定し、文書データの検索要求の入力を受け付け、
この入力された検索要求の単語の文字が出現する文書デ
ータの識別子を前記文字成分表から検索し、この識別子
として検索された文書データの各々と検索要求との仮適
合度を個々に算出し、この仮適合度に対応して検索され
た文書データを仮ランキングし、この仮ランキングの上
位の文書データを前記データベースから読み出し、この
読み出された文書データに対して検索要求の単語の出現
回数を積算し、この単語の出現回数に従って文書データ
と検索要求との本適合度を算出し、この本適合度に従っ
て仮ランキングされた文書データを本ランキングさせ、
この本ランキングされた文書データが要望個数となるま
で仮ランキングの順位に従って処理を繰り返し、この本
ランキングされた要望個数の文書データを出力するよう
にした。文書データは識別子のみが文字成分表から検索
され、このように識別子として検索された文書データが
検索要求との仮適合度に従って仮ランキングされる。こ
の仮ランキングの順番で文書データの記載内容がデータ
ベースから読み出され、検索要求の単語の出現回数に従
って要望個数だけ本ランキングされる。
【0022】請求項11記載の発明の文書検索装置は、
多数の文書データが識別子と共に予め格納されたデータ
ベースと、文字の一覧に文書データの識別子が予め設定
された文字成分表と、文書データの検索要求の入力を受
け付ける要求入力手段と、検索する文書データの要望個
数を設定する個数設定手段と、入力された検索要求の単
語の文字が出現する文書データの識別子を前記文字成分
表から検索する文書検索手段と、この識別子として検索
された文書データの各々と検索要求との仮適合度を個々
に算出する仮適合度算出手段と、この仮適合度に従って
検索された文書データを仮ランキングさせる仮ランキン
グ手段と、この仮ランキングの上位の文書データの記載
内容を前記データベースから読み出して検索要求の単語
の有無を照合する結果照合手段と、この照合の結果に従
って文書データと検索要求との本適合度を算出する本適
合度算出手段と、この本適合度に従って仮ランキングさ
れた文書データを本ランキングさせる本ランキング手段
と、この本ランキングされた文書データが要望個数とな
るまで仮ランキングの順位に従って処理を繰り返させる
動作制御手段と、本ランキングされた要望個数の文書デ
ータを出力する結果出力手段とを有する。従って、最初
は文書データの識別子のみが文字成分表から検索され、
このように識別子として検索された文書データが検索要
求との仮適合度に従って仮ランキングされる。この仮ラ
ンキングの順番で文書データの記載内容がデータベース
から読み出され、検索要求の単語の有無に従って要望個
数だけ本ランキングされる。
【0023】請求項12記載の発明の文書検索装置は、
多数の文書データが識別子と共に予め格納されたデータ
ベースと、文字の一覧に文書データの識別子が予め設定
された文字成分表と、文書データの検索要求の入力を受
け付ける要求入力手段と、検索する文書データの要望個
数を設定する個数設定手段と、入力された検索要求の単
語の文字が出現する文書データの識別子を前記文字成分
表から検索する文書検索手段と、この識別子として検索
された文書データの各々と検索要求との仮適合度を個々
に算出する仮適合度算出手段と、この仮適合度に従って
検索された文書データを仮ランキングさせる仮ランキン
グ手段と、この仮ランキングの上位の文書データの記載
内容を前記データベースから読み出して検索要求の単語
の出現回数を積算する単語積算手段と、この単語の出現
回数に従って文書データと検索要求との本適合度を算出
する本適合度算出手段と、この本適合度に従って仮ラン
キングされた文書データを本ランキングさせる本ランキ
ング手段と、この本ランキングされた文書データが要望
個数となるまで仮ランキングの順位に従って処理を繰り
返させる動作制御手段と、本ランキングされた要望個数
の文書データを出力する結果出力手段とを有する。従っ
て、最初は文書データの識別子のみが文字成分表から検
索され、このように識別子として検索された文書データ
が検索要求との仮適合度に従って仮ランキングされる。
この仮ランキングの順番で文書データの記載内容がデー
タベースから読み出され、検索要求の単語の出現回数に
従って要望個数だけ本ランキングされる。
【0024】請求項13記載の発明の文書検索装置で
は、請求項11または12記載の発明において、本ラン
キング手段は、比較する仮適合度と本適合度との少なく
とも一方に所定の定数を乗算する。従って、定数の乗算
により仮適合度と本適合度との比較に基づいて文書デー
タが本ランキングされる割合が促進されるので、要望個
数の文書データが迅速に本ランキングされる。
【0025】請求項14記載の発明の文書検索装置で
は、請求項11または12記載の発明において、検索要
求の単語を所定条件に従って選別する単語選別手段を設
け、仮適合度算出手段は、選別された単語のみに基づい
て仮適合度を算出し、本適合度算出手段は、選別された
単語のみに基づいて本適合度を算出する。従って、検索
された文書データの一部しか仮適合度と本適合度とを算
出せず、仮適合度と本適合度との計算量も減少するの
で、その処理負担が軽減されて処理速度が向上する。
【0026】請求項15記載の発明の文書検索装置で
は、請求項11または12記載の発明において、検索要
求の単語を所定条件に従って選別する単語選別手段を設
け、仮適合度算出手段は、選別された単語が出現する文
書データのみ全部の単語に基づいて仮適合度の算出を実
行する。従って、検索された文書データの一部しか仮適
合度と本適合度とを算出しないので、その処理負担が軽
減されて処理速度が向上し、検索要求の全部の単語に基
づいて仮ランキングと本ランキングとを実行するので、
ユーザの検索要求に良好に対応して文書データが検索さ
れる。
【0027】請求項16記載の発明の文書検索装置で
は、請求項14記載の発明において、仮適合度算出手段
は、選別されない単語に関するパラメータに所定の定数
を乗算する。従って、単語の選別に起因して仮適合度が
本来の数値より増加する場合でも、これが定数の乗算に
より本来の数値に近似する。
【0028】請求項17記載の発明の文書検索装置で
は、請求項14記載の発明において、単語選別手段は、
単語の重要度を各々の構成文字に基づいて算出し、この
重要度に従って単語を選別する。従って、文書データの
検索に適切な単語が容易に選別され、単語を選別するた
めに文字成分表による検索結果を算出する必要がない。
【0029】請求項18記載の発明の情報記憶媒体は、
多数の文書データが識別子と共に予め格納されたデータ
ベースと、文字の一覧に文書データの識別子が予め設定
された文字成分表と、検索要求の文字に基づいた文書デ
ータの検索等の各種のデータ処理をプログラムに従って
実行する情報処理装置と、この情報処理装置を動作させ
るプログラムが書き込まれた情報記憶媒体と、を備えた
文書検索装置において、外部入力される検索要求の単語
の文字が出現する文書データを前記文字成分表に従って
前記データベースから検索すること、検索された文書デ
ータの各々と検索要求との適合度を個々に算出するこ
と、適合度に対応して検索された文書データをランキン
グさせて外部出力すること、が書き込まれている。従っ
て、この情報記憶媒体に書き込まれたプログラムにより
情報処理装置を動作させれば、文字成分表に従って文書
データが高速に検索され、この検索された文書データが
検索要求との適合度に従ってランキングされる。
【0030】請求項19記載の発明の情報記憶媒体は、
多数の文書データが識別子と共に予め格納されたデータ
ベースと、文字の一覧に文書データの識別子が予め設定
された文字成分表と、検索要求の文字に基づいた文書デ
ータの検索等の各種のデータ処理をプログラムに従って
実行する情報処理装置と、この情報処理装置を動作させ
るプログラムが書き込まれた情報記憶媒体と、を備えた
文書検索装置において、外部入力される検索要求の単語
の文字が出現する文書データの識別子を前記文字成分表
から検索すること、この識別子として検索された文書デ
ータの各々と検索要求との仮適合度を個々に算出するこ
と、この仮適合度に従って検索された文書データを仮ラ
ンキングさせること、この仮ランキングの上位の文書デ
ータの記載内容を前記データベースから読み出して検索
要求の単語の有無を照合すること、この照合の結果に従
って文書データと検索要求との本適合度を算出するこ
と、この本適合度に従って仮ランキングされた文書デー
タを本ランキングさせること、この本ランキングされた
文書データが要望個数となるまで仮ランキングの順位に
従って処理を繰り返すこと、が書き込まれている。従っ
て、この情報記憶媒体に書き込まれたプログラムにより
情報処理装置を動作させれば、最初は文書データの識別
子のみが文字成分表から検索され、このように識別子と
して検索された文書データが検索要求との仮適合度に従
って仮ランキングされる。この仮ランキングの順番で文
書データの記載内容がデータベースから読み出され、検
索要求の単語の有無に従って要望個数だけ本ランキング
される。
【0031】請求項20記載の発明の情報記憶媒体は、
多数の文書データが識別子と共に予め格納されたデータ
ベースと、文字の一覧に文書データの識別子が予め設定
された文字成分表と、検索要求の文字に基づいた文書デ
ータの検索等の各種のデータ処理をプログラムに従って
実行する情報処理装置と、この情報処理装置を動作させ
るプログラムが書き込まれた情報記憶媒体と、を備えた
文書検索装置において、入力された検索要求の単語の文
字が出現する文書データの識別子を前記文字成分表から
検索すること、この検索された文書データの各々と検索
要求との仮適合度を個々に算出すること、この仮適合度
に従って検索された文書データを仮ランキングさせるこ
と、この仮ランキングの上位の文書データの記載内容を
前記データベースから読み出して検索要求の単語の出現
回数を積算すること、この単語の出現回数に従って文書
データと検索要求との本適合度を算出すること、この本
適合度に従って仮ランキングされた文書データを本ラン
キングさせること、この本ランキングされた文書データ
が要望個数となるまで仮ランキングの順位に従って処理
を繰り返すこと、が書き込まれている。従って、この情
報記憶媒体に書き込まれたプログラムにより情報処理装
置を動作させれば、最初は文書データの識別子のみが文
字成分表から検索され、このように識別子として検索さ
れた文書データが検索要求との仮適合度に従って仮ラン
キングされる。この仮ランキングの順番で文書データの
記載内容がデータベースから読み出され、検索要求の単
語の出現回数に従って要望個数だけ本ランキングされ
る。
【0032】
【発明の実施の形態】本発明の文書検索装置の実施の第
一の形態を図1ないし図5に基づいて以下に説明する。
まず、本実施の形態の文書検索装置1は、図1ないし図
3に示すように、データ処理装置2と電子ファイルシス
テム3とを有している。前記データ処理装置2は、既存
のマイクロコンピュータやワークステーションからな
り、前記電子ファイルシステム3は、HD(Hard Disk)
やMO(Magneto Optical Disk)等の大容量の記憶デバイ
スのドライブ装置を主体とする。
【0033】前記データ処理装置2は、図2に示すよう
に、データ処理装置としてプロセッサ4を有しており、
このプロセッサ4には、バスライン5により、情報記憶
媒体であるメモリ6、マウス7を有するキーボード8、
ディスプレイ9、FDD(Floppy Disk Drive)10、C
D−ROM(Compact Disk-Read Only Memory)ドライブ
11、通信I/F(Interface)12が接続されている。
【0034】前記メモリ6は、例えば、RAM(Random
Access Memory)、ROM(Read OnlyMemory)、HD、等
からなり、各種のプログラムがソフトウェアとして予め
格納されている。前記プロセッサ4は、CPU(Central
Processing Unit)を有しており、適正なプログラムに
従って各種のデータ処理を実行する。なお、ここでは必
要なプログラムが前記メモリ6に予め書き込まれている
ものとして説明するが、このようなプログラムを情報記
憶媒体であるFD13やCD−ROM14からインスト
ールすることも可能である。
【0035】前記データ処理装置2の通信I/F12に
は、接続コネクタ15により前記電子ファイルシステム
3が接続されており、この電子ファイルシステム3に
は、データベース21と文字成分表22とが構築されて
いる。前記データベース21には、文書データが識別子
と共に電子ファイルとして格納されており、前記文字成
分表22には、一覧の文字毎に文書データの識別子が設
定されている。
【0036】前記プロセッサ4は、前記キーボード8か
ら入力される検索要求や前記メモリ6に予め設定された
プログラム等に従って、前記電子ファイルシステム3か
ら文書データを検索して前記ディスプレイ9に表示させ
る。このような処理を実行するため、本実施の形態の文
書検索装置1は、図1に模式的に示すように、要求入力
手段23、要求解釈手段24、文書検索手段25、適合
度算出手段26、結果ランキング手段27、結果出力手
段28、を有している。
【0037】前記要求入力手段23は、文書データの検
索要求の入力を受け付け、前記要求解釈手段24は、検
索要求を検索条件に解釈する。より具体的には、検索要
求が前記キーボード8の手動操作により自然言語の文字
列として入力されると、前記メモリ6に設定されたプロ
グラムに従って前記プロセッサ4が所定のデータ処理を
実行することにより、検索要求が言語解析されて検索条
件が生成される。
【0038】前記文書検索手段25は、前記メモリ6の
プログラムに従って前記プロセッサ4が動作することに
より、検索条件の単語の文字が出現する文書データを前
記文字成分表22に従って前記データベース21から検
索する。つまり、検索条件の単語を文字に分解して前記
文字成分表22から文書データの識別子を検出し、この
識別子の文書データを前記データベース21から読み出
す。この時、検索条件に演算子が含まれるならば、この
演算子の内容が文書データの検索に反映される。
【0039】また、前記文書検索手段25には、その一
部として結果照合手段(図示せず)が設けられており、
この結果照合手段は、検索条件の単語の有無を検索され
た文書データに対して照合する。つまり、前述のように
文字単位で文書データを検索すると、検索条件の単語の
文字は存在するが単語は存在しない文書データまで検索
されるので、結果照合手段は、検索された文書データに
対して検索条件の単語の存在をパターンマッチングによ
り確認する。
【0040】前記適合度算出手段26は、前記メモリ6
のプログラムに従って前記プロセッサ4が動作すること
により、前記データベース21における検索要求の単語
の重要度を算出し、この重要度に基づいて検索要求と検
索された文書データの各々との適合度を個々に算出す
る。前記結果ランキング手段27は、前記メモリ6のプ
ログラムに従って前記プロセッサ4が動作することによ
り、適合度の順番に検索された文書データをソートする
ことにより、検索された文書データをランキングする。
前記結果出力手段28は、前記メモリ6のプログラムに
従って前記プロセッサ4が動作することにより、ランキ
ングされた文書データを前記ディスプレイ9の表示によ
り出力する。
【0041】上述のような各種手段23〜28は、必要
により前記キーボード8や前記ディスプレイ9等のハー
ドウェアを利用して実現されるが、その主体は前記メモ
リ6に格納されたプログラムに従って前記プロセッサ4
が所定のデータ処理を実行することにより実現される。
このため、前記メモリ6には、前記キーボード8の操作
による文書データの検索要求の入力を受け付けること、
この検索要求を言語解析して検索条件を生成すること、
検索条件の単語の文字が出現する文書データを前記文字
成分表22に従って前記データベース21から検索する
こと、検索条件の単語の有無を検索された文書データに
対して照合すること、検索要求と検索された文書データ
の各々との適合度を個々に算出すること、適合度の順番
に検索された文書データをランキングすること、ランキ
ングされた文書データを前記ディスプレイ9の表示によ
り出力すること、等を前記プロセッサ4に実行させるプ
ログラムが書き込まれている。
【0042】より具体的には、前記メモリ6に格納され
たプログラム31は、図4に示すように、ユーザインタ
ーフェース32、言語解析部33、全文検索部34、ラ
ンキング部35、等をモジュールとして有しており、こ
れらのモジュールを組み合わせた構造として構築されて
いる。
【0043】前記ユーザインターフェース32は、ユー
ザとのインタラクションを司るモジュールであり、これ
に従って前記プロセッサ4が動作することにより、ユー
ザが前記キーボード8を手動操作して入力する各種デー
タが受け付けられ、各種データが前記ディスプレイ9の
表示出力によりユーザに提示される。つまり、前記要求
入力手段23による検索要求の入力受付や、前記結果出
力手段28による文書データの表示出力が実行される。
【0044】言語解析部33は、日本語の自然言語を解
析するモジュールであり、そのプログラムに従って前記
プロセッサ4が動作することにより、自然言語の文字列
から単語が抽出され、その単語の各々の品詞と相互の係
り受け関係とが判定されるので、ここに前記要求解釈手
段24による検索条件の生成動作が実行される。
【0045】前記全文検索部34は、前記文字成分表2
2を利用して文書データを検索するモジュールであり、
そのプログラムに従って前記プロセッサ4が動作するこ
とにより、前記データベース21から検索条件の単語の
文字が出現する文書データが検索されるので、ここに前
記文書検索手段25による検索動作が実行される。
【0046】前記ランキング部35は、検索結果の文書
データをランキングするモジュールであり、そのプログ
ラムに従って前記プロセッサ4が動作することにより、
検索要求と検索結果との適合度が算出され、これに対応
して検索結果の文書データがソートされる。つまり、前
記適合度算出手段26による適合度の算出動作と、前記
結果ランキング手段27による文書データのランキング
動作とが実行される。
【0047】このような構成において、本実施の形態の
文書検索装置1は、ユーザから文書データの検索要求が
入力されると、文書データを検索してユーザに出力す
る。そこで、この処理動作を図5のフローチャートに基
づいて以下に順次説明する。
【0048】まず、ユーザが文書データの検索要求を考
え、これを自然言語によりキーボード8の手動操作によ
り要求入力手段23に入力すると、要求解釈手段24
が、言語解析により検索要求を検索条件に変換する。こ
のような変換処理には既存の各種方法が適用されるが、
例えば、形態素解析と構文解析とにより、検索要求から
自立語と付属語とを抽出すると共に、検索要求の文節の
係り受け関係を解析し、付属語の各々を演算子に個々に
変換し、対応する自立語と組み合わせることにより、検
索条件を生成する。なお、このような処理動作は、例え
ば、特願平7-146680号、特開平5-298353号公報、特開平
6-149870号公報、特開平6-162077号公報、等に詳述され
ている。
【0049】上述のように検索条件を生成する場合、採
用する自立語も品詞に従って取捨選択することが好まし
く、例えば、名詞、サ変名詞、形容動詞の語幹、数詞、
助数詞、等が好ましい。上述のように形態素解析と構文
解析とを利用して言語解析を実現すれば、単語の抽出に
必要な辞書の容量を削減して処理を軽減することができ
る。このような処理動作を実現した既存の日本語解析ツ
ールとしては、例えば、“簡易日本語解析系QJP”が
ある。
【0050】このQJPを言語解析に採用した場合は単
語として複合語が抽出されるので、これを単語に分割す
る処理が必要となるが、これは文字レベルの統計情報に
より容易に実現できる。つまり、二文字間が単語の切れ
目である確率(分割確率)は、前側の文字が単語の末尾
である確率(末尾確率)と、後側の文字が単語の先頭で
ある確率(先頭確率)との積であると仮定できる。これ
らの先頭確率と末尾確率とは、コーパスにおける各文字
が単語の先頭や末尾となる出現頻度を、その出現頻度で
除算することにより、統計的に求めておくことができ
る。
【0051】そこで、文字の各々に先頭確率と末尾確率
とを求めてメモリ6に格納しておくとともに、分割確率
の閾値を適当に設定しておく。QJPにより自然言語の
検索要求から複合語が抽出されると、その二文字の分割
確率を順番に算出して閾値と個々に比較すれば、複合語
を単語に分割できる。例えば、“政治改革法案”なる複
合語の分割確率が“政 0.018 治 0.163 改 0.039 革
0.142 法 0.027 案”となる場合、閾値が“0.1 ”な
らば“政治”“改革”“法案”なる単語を獲得できる。
【0052】つぎに、文書検索手段25は、検索条件の
単語を文字に分解して文字成分表22から対応する文書
データの識別子を検出し、この識別子の文書データをデ
ータベース21から読み出す。この検索処理にも既存の
各種手法を適用することができ、例えば、特開平5-3247
22号公報、特願平6-121385号、特願平6-241658号、等に
詳述された手法を適用することができる。このように文
字成分表22を利用した検索処理では、検索条件に“管
理”なる単語が存在する場合、“管”“理”の文字の両
方が出現する文書データが検索される。なお、検索条件
は複数の単語を演算子で連結した形態に形成されるの
で、この演算子の内容が文書データの検索に反映され
る。
【0053】このように文字単位で検索された文書デー
タには、検索条件の単語の文字は存在するが単語は存在
しない文書データも含まれる可能性があるので、結果照
合手段が検索された文書データに対して検索条件の単語
の有無をパターンマッチングにより照合する。例えば、
検索条件の“管理”なる単語に対応して“管”“理”の
文字の両方が出現する文書データが検索された場合、こ
の文書データに“管理”なる単語が存在することを確認
する。
【0054】このような単語の存在が文書データから確
認されない場合、その単語のみで文書データが検索され
ていたならば、この文書データは検索結果から排除さ
れ、他の単語でも検索されていたならば、その単語でも
同様な照合を実行する。このような単語の照合を文書デ
ータに実行する過程で、その単語単位で照合された文書
データの個数を集計してメモリ6に一時記憶させる。
【0055】つぎに、適合度算出手段26がデータベー
ス21における検索要求の単語の重要度を算出し、この
重要度に基づいて検索要求と検索された文書データの各
々との適合度を個々に算出する。例えば、データベース
21において、所定の単語が出現する文書データが多数
ならば、その単語はデータベース21において重要であ
る可能性が高い。
【0056】そこで、データベース21における文書デ
ータの総数を“N”、このうち単語“t”が存在する文
書データの個数を“fa(t)”とし、この単語“t”の
重要度“va(t)”を、 va(t)=log[N/fa(t)] …(1) として算出する。そして、検索条件“q”にn個の単語
“t1,t2,…,tn”が含まれる場合、検索された文
書データ“d”に単語“t”が含まれるか含まれないか
の二値データを“δd(t)”(含まれるならば“1”、含
まれないならば“0”)とし、検索条件“q”と検索さ
れた文書データ“d”との適合度“rd(q)”を以下の
ように算出する。
【0057】
【数1】
【0058】つぎに、結果ランキング手段27が、適合
度の順番に検索された文書データをソートしてランキン
グし、結果出力手段28が、ランキングされた文書デー
タをディスプレイ9の表示により出力する。この場合、
ディスプレイ9には、検索された文書データの識別子や
題名等がランキングの順番に表示されるので、例えば、
マウス7の手動操作により所定の題名をクリックすれ
ば、その文書データの記載内容が表示される。
【0059】本実施の形態の文書検索装置1は、上述の
ように文書データを文字成分表22により文字単位で検
索するので、文書データにキーワードを付与しておく必
要がなく、簡易な処理で文書データを高速に検索するこ
とができる。それでいて、検索された文書データが検索
要求との適合度の順番で表示されるので、検索された文
書データの個数が膨大でも、ユーザは検索要求に良好に
整合した文書データを簡易に見付けることができる。特
に、検索要求と検索された文書データの各々との適合度
には、データベース21における検索要求の単語の重要
度も反映されているので、重要性が高いことが予想され
る文書データを優先的にユーザに提供することができ
る。
【0060】なお、本発明は上述した文書検索装置1に
限定されるものではなく、各種の変形を許容する。例え
ば、上述した文書検索装置1では、メモリ6にソフトウ
ェアとして格納されているプログラム31に従ってプロ
セッサ4が動作することにより各種手段24〜27等を
実現することを例示したが、このような各種手段24〜
27等の各々を固有のハードウェアとして製作すること
も可能であり、一部をソフトウェアとしてメモリ6に格
納するとともに一部をハードウェアとして製作すること
も可能である。このようなソフトウェアを格納したメモ
リ6や各種手段24〜27のハードウェアを、ファーム
ウェアにより製作することも可能である。
【0061】さらに、前述のようにプログラムをFD1
3やCD−ROM14等の情報記憶媒体に格納してお
き、この情報記憶媒体からデータ処理装置2のメモリ6
にプログラムをインストールすることでも、各種手段2
4〜27等を実現することができる。このような各種手
段24〜27等を実現するプログラムを、複数のソフト
ウェアの組み合わせにより実現することも可能であり、
この場合、単体の製品となる情報記憶媒体には必要最小
限のソフトウェアのみを格納しておけば良い。
【0062】例えば、オペレーティングシステムが実装
されているコンピュータ装置に情報記録媒体によりアプ
リケーションソフトを提供する場合、各種手段24〜2
7等を実現するプログラム31は、アプリケーションソ
フトとオペレーティングシステムとの組み合わせで実現
されるので、オペレーティングシステムに依存する処理
動作のプログラムはアプリケーションソフトの情報記憶
媒体から省略される。
【0063】また、このように情報記憶媒体に書き込ん
だプログラムをコンピュータ装置に提供する手法は、そ
の情報記憶媒体をコンピュータ装置に直接に装填するこ
とに限定されない。例えば、上述のようなプログラムを
ホストコンピュータの情報記憶媒体に書き込み、このホ
ストコンピュータを通信ネットワークにより端末コンピ
ュータに接続し、ホストコンピュータからデータ通信に
より端末コンピュータにプログラムを提供することも可
能である。
【0064】この場合、端末コンピュータが自身の情報
記憶媒体にプログラムをダウンロードした状態でスタン
ドアロンのデータ処理を実行することも可能であるが、
プログラムをダウンロードすることなくホストコンピュ
ータとのリアルタイムのデータ通信によりデータ処理を
実行することも可能である。この場合、ホストコンピュ
ータと端末コンピュータとを通信ネットワークにより接
続したシステム全体が本発明の文書検索装置1に相当す
ることになる。
【0065】また、上述した文書検索装置1では、適合
度算出手段26が検索された文書データと検索要求との
適合度を、データベース21における検索要求の単語の
重要度に基づいて算出することを例示したが、これを検
索要求における単語の重要度や、検索された文書データ
における検索要求の単語の重要度に基づいて算出するこ
とも可能である。
【0066】例えば、ユーザが作成した検索要求に所定
の単語が複数出現する場合、その単語は重要である可能
性が高く、これは特に検索要求が自然言語で作成される
場合に顕著である。これに着目して検索要求における単
語“t”の重要度“vq(t)”を算出する場合は、検索
条件“q”に単語“t”が出現する回数“fq(t)”を
積算し、 vq(t)=fq(t)/[Kq+fq(t)] …(3) として算出する。なお、上記数式の“Kq(>0)”は、
単語“t”の出現回数“fq(t)”を正規化する係数で
ある。そして、検索条件“q”と検索された文書データ
“d”との適合度“rd(q)”は、以下のように算出さ
れる。
【0067】
【数2】
【0068】この場合は検索条件“q”に単語“t”が
出現する回数“fq(t)”を算出する処理が付加される
が、これは検索要求を検索条件に変換する過程で簡易に
積算することができる。
【0069】また、ユーザが作成した検索要求の単語が
検索された文書データに頻繁に出現する場合も、その単
語は重要である可能性が高い。これに着目して検索され
た文書データ“d”における単語“t”の重要度“v
d(t)”を算出する場合は、検索された文書データ
“d”に単語“t”が出現する回数“fd(t)”を積算
し、 vd(t)=fd(t)/[Kd+fd(t)] …(5) として算出する。なお、上記数式の“Kd(>0)”も、
単語“t”が出現する回数“fd(t)”を正規化する係
数である。そして、検索条件“q”と検索された文書デ
ータ“d”との適合度“rd(q)”は、以下のように算
出される。
【0070】
【数3】
【0071】なお、この数式(6)には、前述した数式
(2)(4)とは相違して、検索された文書データ“d”に
おける単語“t”の有無を示す二値データ“δd(t)”
が省略されている。これは二値データ“δd(t)”が
“0”の場合、検索された文書データ“d”における単
語“t”の重要度“vd(t)”も“0”なので、“δ
d(t)”を数式(6)に設定する必要がないためである。
【0072】上述のように検索された文書データ“d”
における単語“t”の重要度“vd(t)”を算出する場
合は、検索された文書データ“d”に単語“t”が出現
する回数“fd(t)”を算出する必要があるが、これは
検索条件“q”の単語が存在しない文書データを結果照
合手段が検索された文書データ“d”を単語で照合する
過程で簡易に積算される。
【0073】さらに、上述のような“データベース21
における検索要求の単語の重要度”“検索要求における
単語の重要度”“検索された文書データにおける検索要
求の単語の重要度”なる三要素を組み合わせることも可
能である。これは“ Robertson”モデルに相当し、検索
精度が良好であることが確認されている。
【0074】また、上述した各種の処理においては、検
索された文書データにおける検索条件の単語の有無を結
果照合手段で照合することにより、文字成分表22を利
用した高速な文書検索の精度を向上させることを例示し
たが、このような処理を省略して動作速度を向上させる
ことも可能である。その場合、検索要求の単語の文字は
存在しても単語が存在しない文書データまで検索される
ことが問題となるが、その割合は文字成分表22を利用
した文字単位の文書検索で多くとも十数パーセント程度
である。
【0075】その反面、検索された文書データに対して
検索要求の単語の有無を照合する結果照合手段の処理で
は、検索された文書データを読み出して単語のパターン
マッチングを実行する必要があり、検索された文書デー
タが膨大な場合や文書データが長大な場合は処理負担が
多大である。特に、本実施の形態の文書検索装置1で
は、文字成分表22に基づいた文書検索はデータ処理装
置2の内部処理で高速に実行できるが、単語の照合を実
行するためには電子ファイルシステム3によるディスク
アクセス等の機械的な動作が必要となるので、これを省
略できれば全体の処理速度を大幅に向上させることがで
きる。
【0076】このため、処理の速度より精度が要求され
る場合には、単語の照合を実行することが好ましく、処
理の精度より速度が要求される場合には、単語の照合を
省略することが好ましい。なお、従来の技術において前
述した隣接文字表を併用し、検索の精度を低下させるこ
となく速度を向上させることも可能である。
【0077】ここで、隣接文字表を利用せずとも検索の
精度と速度とが両立する変形例を以下に説明する。ま
ず、文書検索装置1に個数設定手段を付加し、この個数
設定手段により検索する文書データの要望個数を設定す
る。これはデータ処理装置2に予め設定しておくこと
や、各種条件に基づいて発生させることや、ユーザによ
るキーボード8の操作により入力させることが可能であ
る。さらに、結果照合手段による単語の照合を実行しな
い状態で、結果ランキング手段27により検索された文
書データを仮ランキングさせる。この仮ランキングされ
た文書データを上位から順番に、結果照合手段と結果ラ
ンキング手段27とで交互に処理し、検索要求の単語が
照合された文書データを要望個数まで本ランキングす
る。
【0078】より具体的に図6に基づいて以下に説明す
る。なお、図面では要望個数が六個の場合を想定してい
る。まず、ユーザが検索要求と共に文書データの要望個
数も文書検索装置1に入力すると、この文書検索装置1
は、検索要求に対応して文書検索手段25により文字成
分表22に基づいて文書データを検索する。この時、結
果照合手段による単語の照合は実行しないので、文書デ
ータの記載内容をデータベース21から読み出す必要は
なく、文書データの識別子を検索するだけなので処理は
高速に完了する。
【0079】この検索された文書データから適合度算出
手段26により仮適合度を算出するが、上述のように文
書データの記載内容を読み出さないと単語の出現回数
“fd(t)”を積算できず、数式(5)(6)により適合度
を計算することはできないので、ここでは“fd(t)”
が不要な数式(1)(2)か数式(3)(4)により適合度を算
出する。
【0080】なお、数式(2)の計算も、文書データの記
載内容を読み出して単語の有無を照合する必要がある
が、これは単語の全部の文字の有無で置換することが可
能であり、このような文字単位での照合ならば文字成分
表22で可能である。この場合、多少の誤検索は発生す
るが、この誤検索は後述する本ランキングでの単語照合
により解消される。
【0081】上述のようにして仮適合度が算出される
と、図6(a)に示すように、これに従って結果ランキ
ング手段27により文書データを仮ランキングさせ、こ
の仮ランキングされた文書データに対して結果照合手段
により検索要求の単語の有無を照合する。この照合の結
果に従って適合度算出手段26により本適合度を算出さ
せ、図6(b)に示すように、この本適合度に従って結
果ランキング手段27により仮ランキングされた文書デ
ータを本ランキングさせる。このような本適合度の算出
と本ランキングとを、仮ランキングの順位に従って順番
に実行することにより、仮ランキングされた文書データ
の上位の一部を省略するだけで本ランキングを管理す
る。
【0082】つまり、本適合度は仮適合度から低下する
ことはあるが上昇することはないので、仮ランキングの
順番で文書データの本適合度を算出する場合、図6
(a)に示すように、ある文書データの本適合度が次の
文書データの仮適合度より高ければ、その文書データの
本ランキングを確定することができる。しかし、仮ラン
キングの順番で要望個数まで本適合度を算出しても、図
6(b)に示すように、この本適合度が以後の文書デー
タの仮適合度より低いと、この文書データは本ランキン
グされない。
【0083】つまり、図6(c)に示すように、以後の
文書データの仮適合度より本適合度が高い文書データが
要望個数となれば、図6(d)に示すように、これらの
文書データは本ランキングされるので、このように本ラ
ンキングされる文書データが要望個数となるまで仮ラン
キングより以後の処理を繰り返す。この場合、要望個数
の文書データには結果照合手段による単語の照合が実行
されるので検索の精度が良好であり、それでいて、この
処理は仮ランキングされた文書データの一部にしか実行
しないので検索の速度も良好であり、高精度に検索され
た文書データを必要な個数だけ高速に出力することがで
きる。
【0084】なお、上述のように文書データの記載内容
を読み出さないと数式(5)(6)で適合度は算出できない
ので、ここでは数式(1)(2)か数式(3)(4)により適合
度を算出することを想定したが、これらの数式(1)〜
(4)により仮適合度を算出し、結果照合手段の処理を実
行してから数式(5)(6)により本適合度を算出すること
も可能である。この変形例を以下に簡略に説明する。な
お、上述した変形例と同一の部分は説明を省略する。
【0085】この場合、単語を照合する結果照合手段の
一部等として単語積算手段を設け、この単語積算手段に
より、仮ランキングの上位の文書データに対し、検索要
求の単語の出現回数を積算できるようにする。そして、
適合度算出手段26により数式(1)(2)か数式(3)(4)
で仮適合度を算出させて文書データを仮ランキングさ
せ、この仮ランキングされた上位の文書データに対し、
単語積算手段により検索要求の単語の出現回数“f
d(t)”を積算させる。この単語の出現回数“f
d(t)”が判明すれば、適合度算出手段26により数式
(5)(6)で本適合度を算出し、この本適合度に従って仮
ランキングされた文書データを上位から順番に要望個数
まで本ランキングさせる。
【0086】なお、数式(5)を鑑みると、仮ランキング
された文書データ“d”における単語“t”の重要度
“vd(t)”は“1”より小さい。また、その計算に必
要な文書データ“d”に単語“t”が出現する回数“f
d(t)”は、実際には多くとも数十程度であり、これが
増加するほど重要度“vd(t)”の変化の割合は低下す
る。つまり、単語“t”の出現回数“fd(t)”に上限
値“Td”を設定しても、重要度“vd(t)”と適合度
“rd(q)”とに対する影響は小さいことになる。この
場合、前述した数式(5)は、 if fd(t)<Tdd(t)=fd(t)/[Kd+fd(t)] otherwise vd(t)=Td(t)/[Kd+Td] …(7) なる数式(7)に置換される。
【0087】このように仮ランキングされた文書データ
“d”から積算する単語“t”の出現回数“fd(t)”
に上限値“Td”を設定した場合、これは重要度“v
d(t)”に“Vd ”なる上限値を設定したことに等し
い。この場合、“vd(t)≦Vd<1”の関係が成立す
るので、仮適合度“r′d(q)”と本適合度“rd(q)”
とにも、以下のような関係が成立する。
【0088】
【数4】
【0089】この関係を利用すると、仮ランキングの順
番で検出する次の文書データの仮適合度に本適合度を比
較しなくとも、次の仮適合度に重要度の上限値“Vd
を乗算した数値より大きい本適合度の文書データは本ラ
ンキングすることができるので、より迅速に処理を完了
することができる。
【0090】ここで、この文書検索方法の実験結果を以
下に説明する。まず、この実験では文書データの仮ラン
キングに“Robertson ”モデルを基礎とした数式を利用
した。つまり、“Robertson ”モデルは、データベース
における単語の重要度、検索要求における単語の重要
度、検索された文書データにおける単語の重要度、の三
つを考慮して文書データをランキングする。しかし、本
実験の手法の場合、仮ランキングの時点では文書データ
の内容を読み出さないので、文書データにおける単語の
重要度を考慮する意味がない。そこで、この部分を“Ro
bertson ”モデルから省略した数式を作成し、これに基
づいて文書データを仮ランキングすることとした。この
数式を各種のパラメータとともに以下に示す。
【0091】
【数5】
【0092】f(DB):データベースにおいて検索要求の
単語が出現する文書データの個数 f(Q):検索要求において同一の単語が繰り返し出現す
る回数 δ(D):文書データにおける検索要求の単語の有無を示
す二値 T(D):文書データから積算する単語の出現回数の上限
値=∞,100,10,5,4,3,2,1 K(Q):f(Q)の正規化係数=0 K(D):文書データから積算する単語の出現回数の正規
化係数=0.0,0.5,1.0,2.0 N:データベースに格納された文書データの個数=55
1,163111 R:検索する文書データの個数=0,10,20,50,10
0,200 P:QJPで複合語を分割する閾値=0.00,0.05,…,
0.30,1.00 なお、ここでは“K(Q)=0”としているが、これは用
意した検索要求に単語を繰り返すものが存在しないため
である。
【0093】この文書検索方法は検索の速度と精度とを
両立することが目的なので、この両方を実験でも評価し
たが、精度の評価には人間の判断が必要で、対象文書を
増加させることが困難なので、実際には速度と精度とは
別個に評価した。
【0094】まず、検索精度を評価する実験では、デー
タベース21の文書データとして新聞記事 551件(520K
B)を用意し、検索要求を20個用意した。この20個の検
索要求は、10個が単一の複合語(例えば「非自民連立政
権」等)で、他の10個は自然言語の文章(例えば「ロシ
ア政権再建に対する資金援助や技術援助」等)である。
検索精度は、検索結果における再現率(Recall)が“0.
0,0.1,…,1.0 ”での適合度(Precision)と、これら
11箇所における平均適合度(Average Precision)とを、
検索要求の各々に対して算出し、全文の検索要求に対す
る平均値で評価した。
【0095】まず、基本性能に関係するパラメータであ
る“K(D)”と“P”との全部の組み合わせに対し、単
語の照合による誤検索の除去の有無における平均適合度
を比較した。その結果、当然ながら誤検索を除去した方
が最終的な精度は向上するが、その差は最大でも 0.015
で影響は小さいことが確認されたので、ここでは仮ラン
キングにおいて誤検索の除去を行わないものとした。
【0096】つぎに、“K(D)”を変化させて検索精度
を調査したところ、図7に示すように、“K(D)=0.0
”の場合のみ精度が低いことが判明した。“K(D)=
0.0 ”の場合には文書データの単語の出現回数を検索結
果に反映させないので、これが検索精度に重要な要因で
あることになる。“P”の変化に注目すると、その数値
が増加するほど平均適合度が低下しているので、複合語
分割が必要であることになる。なお、“P=0.0 ”の場
合には平均適合度の微少な減少が確認されるが、これは
前述のように複合語が過剰に分割されたためと考えられ
る。
【0097】また、“K(D),P”を各々変化させて再
現率と適合度との関係を調査した。まず、“P=0.05”
に固定して“K(D)”を変化させたところ、図8に示す
ように、“K(D)”により再現率が小さい部分の適合度
が向上することが判明した。再現率が小さい部分はラン
キングの上位に相当するので、“K(D)”はランキング
上位の検索精度を改善できることになる。また、“K
(D)=0.5 ”に固定して“P”を変化させたところ、図
9に示すように、“P”により再現率が大きい部分の適
合度が向上することが判明した。再現率が大きい部分は
ランキングの下位に相当するので、“P”はランキング
全体の検索洩れを軽減できることになる。
【0098】つぎに、検索速度を評価する実験について
以下に説明する。この実験では、データベース21の文
書データとして新聞記事163111件(160MB)を用意し、検
索要求は検索精度の評価実験と同一とした。“K(D)”
と“P”とを変化させて検索時間を調査したところ、図
10に示すように、“K(D)”が大きいほど検索時間が
増加することが判明した。これは“K(D)”が大きいと
本ランキングを決定するためにアクセスする文書データ
の個数が増大し、この処理に必要な時間が増加するため
である。図11に示すように、“P=0.05”に固定して
“K(D)”を変化させても、“K(D)”の増加による処
理速度の低下が確認された。図11のグラフは傾斜が本
ランキングの処理時間に対応しており、“K(D)”が大
きいほどグラフの傾斜も大きい。
【0099】一方、図10に示すように、“P”が大き
いほど検索時間が減少することが判明した。これは
“P”が大きいと検索要求の単語の出現回数が減少し、
仮ランキングの処理時間が減少するためである。図12
に示すように、“K(D)=0.50”に固定して“P”を変
化させても、“P”の増加による処理速度の向上が確認
された。図12では横軸が“0”の場合の縦軸が仮ラン
キングの処理時間に相当するが、これも“P”が大きい
ほど短縮されている。
【0100】さらに、検索する文書データの個数を“R
=20”とした場合に、本ランキングの決定のためにアク
セスした文書データの個数も調査した。すると、最も検
索時間が短くなる“P=1.00,K(D)=0.00”の場合に
“34.1”となり、“P=0.00,K(D)=2.00”の場合に
“1755.0”となった。なお、完全なランキングには多大
な時間が必要となることも確認されており、データベー
スが大規模な場合、仮ランキングの上位から本ランキン
グを順番に逐次確定する本案の手法であれば、処理時間
を有効に短縮できることが確認された。
【0101】また、前述のように文書データから積算す
る単語の出現回数の上限値“T(D)”を設定し、“K
(D)”と“P”とを変化させて検索時間を調査したとこ
ろ、図13に示すように、“T(D)≧5”の範囲では検
索精度に影響は略無く、これ以下の範囲では検索精度が
徐々に低下することが判明した。特に、“T(D)=2〜
1”の部分では検索精度が極度に低下しているが、これ
は“T(D)=1”が“K(D)=0”に相当しているため
である。
【0102】さらに、上述のように“T(D)”を設定し
た状態で検索速度を調査したところ、図14に示すよう
に、“100 ”以下程度の範囲では“T(D)”が小さいほ
ど検索時間が短縮されることが判明した。同様に、“P
=0.05,K(D)=0.50”に固定して検索件数と検索時間
との関係も調査したところ、図15に示すように、やは
り“T(D)”が小さいほど検索時間が短縮されることが
確認された。
【0103】以上のような実験により、文書検索装置1
の文書検索方法において、各種のパラメータが各種の影
響を及ぼすことが確認できた。まず、自然言語の検索要
求から複合語を検出して単語に分割する閾値“P”は、
小さいほど検索精度が向上するが検索時間は低下するの
で、所望によりユーザが調節できることが好ましい。ま
た、文書データから積算する単語の出現回数の正規化係
数“K(D)”は、“0”以上の範囲で小さいほど検索精
度と検索速度との両方が向上する。文書データから積算
する単語の出現回数の上限値“T(D)”は、検索速度を
向上させるためには小さいほど良いが、あまり小さいと
検索精度が低下するので“5”程度が良い。
【0104】つぎに、本発明の文書検索装置の実施の第
二の形態を図16および図17に基づいて以下に説明す
る。なお、本実施の形態の文書検索装置41に関し、前
述した文書検索装置1および変形例と同一の部分は、同
一の名称および符号を使用して詳細な説明は省略する。
【0105】まず、本実施の形態の文書検索装置41
も、データ処理装置42と電子ファイルシステム3とを
有しており、前記データ処理装置42のハードウェアは
前述したデータ処理装置2と同一であるが、前記データ
処理装置42のメモリ6にソフトウェアとして格納され
たプログラムが前述のデータ処理装置2とは一部相違し
ている。このデータ処理装置42は、図16に示すよう
に、要求入力手段23、要求解釈手段24、個数設定手
段51、文書検索手段52、仮適合度算出手段53、仮
ランキング手段54、単語積算手段55、本適合度算出
手段56、本ランキング手段57、動作制御手段58、
結果出力手段28、を有している。
【0106】要求入力手段23は、文書データの検索要
求の入力を受け付け、要求解釈手段24は、検索要求を
検索条件に解釈する。前記個数設定手段51は、キーボ
ード8の入力データとメモリ6のプログラムとに従って
プロセッサ4が動作することにより、文書データの検索
結果の要望個数の入力を受け付けて初期設定する。例え
ば、ユーザが六つの文書データを要望する場合、これを
“6”としてキーボード8により入力操作すれば、この
要望個数“6”がプロセッサ4によりメモリ6に格納さ
れる。
【0107】前記文書検索手段52は、メモリ6のプロ
グラムに従ってプロセッサ4が動作することにより、検
索条件の単語の文字が出現する文書データの識別子を文
字成分表22から検索する。ただし、この文書検索手段
52は、結果照合手段を有しておらず、検索された文書
データに対して検索条件の単語の有無を照合しない。そ
こで、この文書検索手段52による検索処理では、デー
タベース21から文書データの記載内容を読み出すこと
までは行なわず、文字成分表22から文書データの識別
子のみを高速に検索する。
【0108】前記仮適合度算出手段53は、メモリ6の
プログラムに従ってプロセッサ4が動作することによ
り、データベース21や検索要求における検索要求の単
語の重要度を算出し、この重要度に基づいて検索要求と
検索された文書データの各々との仮適合度を個々に算出
する。この仮適合度の算出は、前述した変形例と同様
に、文書データの記載内容の読み出しが不要な数式(1)
(2)か数式(3)(4)により実行される。前記仮ランキン
グ手段54は、メモリ6のプログラムに従ってプロセッ
サ4が動作することにより、検索された文書データを仮
適合度の順番に仮ランキングする。
【0109】前記単語積算手段55は、メモリ6のプロ
グラムに従ってプロセッサ4が動作することにより、文
書データの記載内容を仮ランキングの順番で読み出し、
その文書データにおける検索要求の単語の出現回数を積
算する。この単語積算手段55の処理動作は、仮ランキ
ングされた文書データに対して上位から順番に実行さ
れ、この実行は前記動作制御手段58により前記手段5
6,57の処理動作とともに制御される。
【0110】前記本適合度算出手段56は、メモリ6の
プログラムに従ってプロセッサ4が動作することによ
り、仮ランキングされた上位の文書データに対し、その
単語の積算個数に従って数式(5)(6)により検索要求と
の本適合度を個々に算出する。前記本ランキング手段5
7は、メモリ6のプログラムに従ってプロセッサ4が動
作することにより、仮ランキングされている文書データ
を本適合度の順番に本ランキングする。
【0111】前記動作制御手段58は、メモリ6のプロ
グラムに従ってプロセッサ4が動作することにより、前
記手段55〜57の処理動作を仮ランキングされた文書
データの順番で繰り返させ、検索要求の要望個数まで文
書データを本ランキングさせる。結果出力手段28は、
メモリ6のプログラムに従ってプロセッサ4が動作する
ことにより、本ランキングされた文書データをディスプ
レイ9の表示により出力する。
【0112】上述のような各種手段23,27,28,
51〜58も、必要によりキーボード8やディスプレイ
9等を利用して実現されるが、その主体はメモリ6に格
納されたプログラムに従ってプロセッサ4が動作するこ
とにより実現される。このため、メモリ6には、プロセ
ッサ4を動作させる制御プログラムとして、キーボード
8の操作による検索要求の入力を受け付けること、この
検索要求を言語解析して検索条件を生成すること、検索
条件の単語の文字が出現する文書データの識別子を文字
成分表22から検索すること、キーボード8の手動操作
による要望個数の入力を受け付けてメモリ6に設定する
こと、識別子として検索された文書データの各々と検索
要求との仮適合度を個々に算出すること、この仮適合度
に従って検索された文書データを仮ランキングさせるこ
と、この仮ランキングの上位の文書データの記載内容を
データベース21から読み出して検索要求の単語の出現
回数を積算すること、この単語の出現回数に従って文書
データと検索要求との本適合度を算出すること、この本
適合度に従って仮ランキングされた文書データを本ラン
キングさせること、この本ランキングされた文書データ
が要望個数となるまで仮ランキングの順位に従って処理
を繰り返すこと、本ランキングされた要望個数の文書デ
ータをディスプレイ9の表示により出力すること、等が
書き込まれている。
【0113】このような構成において、本実施の形態の
文書検索装置41は、図17に示すように、ユーザから
文書データの検索要求と要望個数とが入力されると、文
書データを検索してユーザに出力する。その場合、外部
入力された検索要求を言語解析して検索条件を生成し、
この検索条件の単語の文字が出現する文書データの識別
子を文字成分表22から検索する。この識別子として検
索された文書データの各々と検索要求との仮適合度を個
々に算出し、この仮適合度に従って文書データを仮ラン
キングさせる。この仮ランキングの上位の文書データの
記載内容をデータベース21から読み出し、検索要求の
単語の出現回数を積算する。この単語の出現回数に従っ
て文書データと検索要求との本適合度を算出し、この本
適合度に従って仮ランキングされた文書データを本ラン
キングさせる。この本ランキングされた文書データが要
望個数となるまで仮ランキングの順位に従って処理を繰
り返し、本ランキングされた文書データをディスプレイ
9の表示により出力する。
【0114】本実施の形態の文書検索装置41は、上述
のように最初は文書データの識別子のみを文字成分表2
2により検索するので、この検索を極めて高速に実行す
ることができる。このように検索された文書データを検
索要求との仮適合度に従って仮ランキングさせ、この仮
ランキングの上位から順番に文書データを読み出して要
望個数まで本ランキングさせるので、処理に時間を要す
る文書データの読み出しを極力少なくすることができ、
それでいて最終的にはユーザの検索要求に適合した文書
データをユーザの要望個数だけ提供することができる。
【0115】なお、本発明は上述した文書検索装置41
に限定されるものではなく、各種の変形を許容する。例
えば、上述した文書検索装置41では、仮ランキングさ
れた文書データを本ランキングするため、文書データを
読み出して検索要求の単語の出現回数を積算することを
例示したが、これに換えて検索要求の単語の出現の有無
を照合し、単語の出現が確認された文書データのみ本適
合度を算出することも可能である。
【0116】また、上述した文書検索装置41では、本
適合度算出手段56が前述の数式(5)(6)により本適
合度を算出することを例示したが、このように算出する
本適合度に所定の定数を乗算することも可能である。こ
の場合、仮ランキングの順番で多数の文書データの本適
合度を算出する場合に、本適合度が定数の乗算により本
来より大きく計算されるので、仮適合度と本適合度との
比較に基づいた文書データの本ランキングを迅速に完了
することができる。
【0117】このように本適合度を増加させて文書デー
タを本ランキングすると、その下位の文書データより実
際には本適合度が大きい文書データが本ランキングされ
ないことがあるが、ユーザにとって重要な上位の文書デ
ータは確実に出力されるので、実用性を低下させること
なく処理負担を軽減して処理速度を向上させることがで
きる。なお、このように本適合度を増加させる定数は、
大きすぎると検索精度が低下し、小さすぎると意味が無
いので、これは各種条件に基づいて適切に設定する必要
があり、例えば、ユーザが所望によりキーボード8の操
作等で設定できることが好ましい。
【0118】また、上述した文書検索装置41では、検
索要求から獲得した全部の単語に基づいて仮適合度や本
適合度を算出しているが、これではデータベース21の
大部分の文書データに出現する単語が検索要求に含まれ
ると、膨大な文書データが検索されて仮ランキングの処
理負担が増大する。これが問題となる場合には、検索要
求の単語を所定条件に従って選別する単語選別手段(図
示せず)を設け、選別された単語のみに基づいて仮適合
度と本適合度とを算出するよう各適合度算出手段53,
56を設定することが好ましい。
【0119】例えば、単語“t”の重要度“Va(t)”
に対して適当な閾値を設定し、検索要求“q”から獲得
した単語を、重要度が閾値以上の集合“q+”と閾値未
満の集合“q−”とに選別する。そして、重要度が閾値
以上の単語の集合“q+”に対してのみ仮適合度や本適
合度を算出すれば、例えば、前述した数式(2),(4),
(6)は各々以下のようになる。
【0120】
【数6】
【0121】この場合、検索された文書データの一部し
か仮適合度を算出せず、仮適合度と本適合度との計算量
も減少するので、その処理負担が軽減されて処理速度が
向上する。それでいて、単語を重要度に基づいて選別し
ているので、閾値を適切に設定すれば実用性も充分に維
持される。
【0122】しかし、これではユーザが意図した単語が
無視されることが発生するので、これが問題となる場合
には、上述のような単語の選別を仮適合度の計算の場合
のみ照合し、本適合度の計算では全部の単語を対象とす
ることが好ましい。この場合、上述した数式(11)等に
より仮適合度を算出して数式(2)等により本適合度を算
出すると、同一の文書データで本適合度が仮適合度より
大きくなる場合がある。これでは本ランキングの速度と
精度とが低下するので、これを防止するため、ここでは
重要度が閾値未満の集合“q−”の単語が文書データに
出現すると仮定し、仮適合度の算出を以下の数式(14)
や数式(15)により実行する。
【0123】
【数7】
【0124】この場合でも、検索された文書データの一
部しか仮適合度を算出しないので、その処理負担が軽減
されて処理速度が向上し、それでいて、検索要求の全部
の単語に基づいて文書データが本ランキングされるの
で、ユーザに適切な文書データを提供することができ
る。
【0125】しかし、この場合は上述のように重要度が
閾値未満の集合“q−”の単語が文書データに出現する
と仮定しているが、これが実際には出現していないと仮
適合度が本来より増加していることになる。これでは本
ランキングの速度と精度とが低下するので、これが問題
となる場合には、下記の数式(16)(17)のように、仮
適合度を算出する場合に、選別されない単語に関するパ
ラメータに“0”以上“1”以下の定数“β”を乗算す
る。
【0126】
【数8】
【0127】この場合、本来の数値より仮適合度が増加
する場合でも、この仮適合度を本来の数値に近似させる
ことができるので、本ランキングの速度と精度とを向上
させることができる。つまり、文書データの本ランキン
グでは本適合度を仮適合度と比較するので、仮適合度の
増加が防止されれば本ランキングが遅滞しない。
【0128】なお、前述した単語選別手段により検索要
求の単語を選別する方式では、仮適合度や本適合度の計
算を軽減することができるが、これは検索処理に利用す
る単語集合“q+”を決定するために単語“t”の重要
度“Va(t)”を利用している。しかし、この重要度
“Va(t)”の算出には文字成分表22による検索結果
“fa(t)”が必要なので、この時点で全部の単語に対
して文字成分表22での検索処理を実行する必要があ
り、あまり処理の負担軽減や速度向上を期待できない。
【0129】これを解決するためには、単語選別手段
が、単語の重要度を各々の構成文字に基づいて算出し、
この重要度に従って単語を選別することが好ましい。つ
まり、単語“t”の重要度“Va(t)”を算出する場合
に、文字成分表22による検索結果“fa(t)”を算出
せず、検索結果の推定値“fa′(t)”を単語“t”の
構成文字から算出する。
【0130】このように結果を推定する手法にも各種方
式が考えられるが、例えば、単純マルコフ過程の適用が
考えられる。つまり“文字列上のある文字の発生確率
は、前の文字の文字種のみに依存する単純マルコフ過程
である”と仮定する。この場合、ある単語“t”がm個
の文字“c”で構成されている場合(t=c12
m)、この文字“c”の種類を“s”、発生確率を
“p(c)”、文字“c”が種類“s′”の文字“c′”
に続いて発生する確率を“p(c|s′)”とすると、単
語の発生確率“p(t)”は、下記の数式(18)により算
出される。
【0131】
【数9】
【0132】さらに、文字“c”の種類“s”の発生確
率を“p(s)”、種類“s”の文字“c”が種類
“s′”の文字“c′”の次に発生する確率を“p(s|
s′)”とすると、ベイズの法則により“p(c)=p
(c|s)p(s),p(c|s′)=p(c|s)p(s|
s′)”が成立するので、この関係から上記した数式
(18)は下記の数式(19)となる。
【0133】
【数10】
【0134】このように単語の発生確率“p(t)”は単
純な演算で算出されるので、これを一文書の文字数の平
均値Cに乗算すれば、検索結果の個数の推定値“fa′
(t)”が算出される。このように単純な演算で検索結果
を推定できれば、文字成分表22による検索処理を実行
することなく単語“t”の重要度“Va(t)”を算出で
きるので、仮適合度や本適合度の算出の負担を軽減して
速度を向上させることができる。
【0135】
【発明の効果】請求項1記載の発明の文書検索装置は、
多数の文書データが識別子と共に予め格納されたデータ
ベースと、文字の一覧に文書データの識別子が予め設定
された文字成分表と、文書データの検索要求の入力を受
け付ける要求入力手段と、入力された検索要求の単語の
文字が出現する文書データを文字成分表に従ってデータ
ベースから検索する文書検索手段と、検索された文書デ
ータの各々と検索要求との適合度を個々に算出する適合
度算出手段と、適合度に対応して検索された文書データ
をランキングする結果ランキング手段と、ランキングさ
れた文書データを出力する結果出力手段と、を有するこ
とにより、文字成分表に従って文書データを高速に検索
することができ、この検索された文書データを検索要求
との適合度に従ってランキングすることができるので、
ユーザの要求に対応した文書データを高速に出力するこ
とができる。
【0136】請求項2記載の発明の文書検索装置では、
適合度算出手段は、データベースにおける検索要求の単
語の重要度を算出し、この重要度に基づいて検索要求と
検索された文書データの各々との適合度を個々に算出す
ることにより、データベースにおいて重要な単語で検索
された文書データほど上位にランキングすることができ
るので、重要であることが予想される文書データを優先
的にユーザに提供することができる。
【0137】請求項3記載の発明の文書検索装置では、
適合度算出手段は、検索要求における単語の重要度を算
出し、この重要度に基づいて検索要求と検索された文書
データの各々との適合度を個々に算出することにより、
検索要求において重要な単語で検索された文書データほ
ど上位にランキングすることができるので、重要である
ことが予想される文書データを優先的にユーザに提供す
ることができる。
【0138】請求項4記載の発明の文書検索装置では、
適合度算出手段は、検索された文書データにおける検索
要求の単語の重要度を算出し、この重要度に基づいて検
索要求と検索された文書データの各々との適合度を個々
に算出することにより、重要な単語が頻繁に出現する文
書データほど上位にランキングすることができるので、
重要であることが予想される文書データを優先的にユー
ザに提供することができる。
【0139】請求項5記載の発明の文書検索装置では、
検索要求の単語の有無を検索された文書データに対して
照合する結果照合手段を設けたことにより、検索要求の
単語の文字は存在しても単語は存在しない文書データを
検索結果から排除することができるので、検索の精度を
向上させることができる。
【0140】請求項6記載の発明の文書検索装置では、
検索する文書データの要望個数を設定する個数設定手段
を設け、検索要求の単語の有無を文書データに対して照
合する結果照合手段を設け、この結果照合手段の処理を
実行しない状態で文字成分表に従って検索された文書デ
ータの各々と検索要求との適合度を仮適合度として適合
度算出手段により個々に算出させ、この仮適合度に従っ
て結果ランキング手段により検索された文書データを仮
ランキングさせ、この仮ランキングの上位の文書データ
に対して結果照合手段により検索要求の単語の有無を照
合させ、この照合の結果に従って適合度算出手段により
文書データと検索要求との本適合度を算出させ、この本
適合度に従って結果ランキング手段により仮ランキング
された文書データを本ランキングさせ、この本ランキン
グされた文書データが要望個数となるまで仮ランキング
の順位に従って処理を繰り返させることにより、文字成
分表を利用した迅速な処理で文書データを仮ランキング
させることができ、この仮ランキングされた文書データ
の一部に対してのみ単語の照合を実行するだけで、要望
個数の文書データを本ランキングすることができるの
で、高精度に検索された文書データを必要な個数だけ高
速に出力することができる。
【0141】請求項7記載の発明の文書検索装置では、
検索する文書データの要望個数を設定する個数設定手段
を設け、文字成分表に従って検索された文書データの各
々と検索要求との適合度を仮適合度として適合度算出手
段により個々に算出させ、この仮適合度に従って結果ラ
ンキング手段により検索された文書データを仮ランキン
グさせ、この仮ランキングの上位の文書データに対して
検索要求の単語の出現回数を積算する単語積算手段を設
け、この単語の出現回数に従って適合度算出手段により
文書データと検索要求との本適合度を算出させ、この本
適合度に従って結果ランキング手段により仮ランキング
された文書データを本ランキングさせ、この本ランキン
グされた文書データが要望個数となるまで仮ランキング
の順位に従って処理を繰り返させることにより、文字成
分表を利用した迅速な処理で文書データを仮ランキング
させることができ、この仮ランキングされた文書データ
の一部に対してのみ単語の出現回数を積算するだけで、
要望個数の文書データを本ランキングすることができる
ので、高精度に検索された文書データを必要な個数だけ
高速に出力することができる。
【0142】請求項8記載の発明の文書検索装置では、
単語積算手段は、文書データから積算する単語の出現回
数に上限値が予め設定されていることにより、単語の重
要度は精度が低下することなく上限値が設定され、仮ラ
ンキングの順番で検出する次の文書データの仮適合度に
本適合度を比較しなくとも、次の仮適合度に重要度の上
限値を乗算した数値より大きい本適合度の文書データは
本ランキングすることができるので、より迅速に処理を
完了することができる。
【0143】請求項9記載の発明の文書検索方法は、多
数の文書データを識別子と共にデータベースに予め格納
しておき、文字成分表の文字の一覧に文書データの識別
子を予め設定しておき、文書データの検索要求の入力を
受け付け、この入力された検索要求の単語の文字が出現
する文書データを文字成分表に従ってデータベースから
検索し、この検索された文書データの各々と検索要求と
の適合度を個々に算出し、この適合度に対応して検索さ
れた文書データをランキングし、このランキングされた
文書データを出力するようにしたことにより、文字成分
表に従って文書データを高速に検索することができ、こ
の検索された文書データを検索要求との適合度に従って
ランキングすることができるので、ユーザの要求に対応
した文書データを高速に出力することができる。
【0144】請求項10記載の発明の文書検索方法は、
多数の文書データを識別子と共にデータベースに予め格
納しておき、文字成分表の文字の一覧に文書データの識
別子を予め設定しておき、検索する文書データの要望個
数を設定し、文書データの検索要求の入力を受け付け、
この入力された検索要求の単語の文字が出現する文書デ
ータの識別子を前記文字成分表から検索し、この識別子
として検索された文書データの各々と検索要求との仮適
合度を個々に算出し、この仮適合度に対応して検索され
た文書データを仮ランキングし、この仮ランキングの上
位の文書データを前記データベースから読み出し、この
読み出された文書データに対して検索要求の単語の出現
回数を積算し、この単語の出現回数に従って文書データ
と検索要求との本適合度を算出し、この本適合度に従っ
て仮ランキングされた文書データを本ランキングさせ、
この本ランキングされた文書データが要望個数となるま
で仮ランキングの順位に従って処理を繰り返し、この本
ランキングされた要望個数の文書データを出力するよう
にしたことにより、文字成分表を利用した迅速な処理で
文書データを仮ランキングさせることができ、この仮ラ
ンキングされた文書データの一部に対してのみ単語の出
現回数を積算するだけで、要望個数の文書データを本ラ
ンキングすることができるので、高精度に検索された文
書データを必要な個数だけ高速に出力することができ
る。
【0145】請求項11記載の発明の文書検索装置は、
多数の文書データが識別子と共に予め格納されたデータ
ベースと、文字の一覧に文書データの識別子が予め設定
された文字成分表と、文書データの検索要求の入力を受
け付ける要求入力手段と、検索する文書データの要望個
数を設定する個数設定手段と、入力された検索要求の単
語の文字が出現する文書データの識別子を文字成分表か
ら検索する文書検索手段と、この識別子として検索され
た文書データの各々と検索要求との仮適合度を個々に算
出する仮適合度算出手段と、この仮適合度に従って検索
された文書データを仮ランキングさせる仮ランキング手
段と、この仮ランキングの上位の文書データの記載内容
をデータベースから読み出して検索要求の単語の有無を
照合する結果照合手段と、この照合の結果に従って文書
データと検索要求との本適合度を算出する本適合度算出
手段と、この本適合度に従って仮ランキングされた文書
データを本ランキングさせる本ランキング手段と、この
本ランキングされた文書データが要望個数となるまで仮
ランキングの順位に従って処理を繰り返させる動作制御
手段と、本ランキングされた要望個数の文書データを出
力する結果出力手段とを有することにより、文字成分表
を利用した迅速な処理で文書データを仮ランキングさせ
ることができ、この仮ランキングされた文書データの一
部に対してのみ単語の照合を実行するだけで、要望個数
の文書データを本ランキングすることができるので、高
精度に検索された文書データを必要な個数だけ高速に出
力することができる。
【0146】請求項12記載の発明の文書検索装置は、
多数の文書データが識別子と共に予め格納されたデータ
ベースと、文字の一覧に文書データの識別子が予め設定
された文字成分表と、文書データの検索要求の入力を受
け付ける要求入力手段と、検索する文書データの要望個
数を設定する個数設定手段と、入力された検索要求の単
語の文字が出現する文書データの識別子を文字成分表か
ら検索する文書検索手段と、この識別子として検索され
た文書データの各々と検索要求との仮適合度を個々に算
出する仮適合度算出手段と、この仮適合度に従って検索
された文書データを仮ランキングさせる仮ランキング手
段と、この仮ランキングの上位の文書データの記載内容
をデータベースから読み出して検索要求の単語の出現回
数を積算する単語積算手段と、この単語の出現回数に従
って文書データと検索要求との本適合度を算出する本適
合度算出手段と、この本適合度に従って仮ランキングさ
れた文書データを本ランキングさせる本ランキング手段
と、この本ランキングされた文書データが要望個数とな
るまで仮ランキングの順位に従って処理を繰り返させる
動作制御手段と、本ランキングされた要望個数の文書デ
ータを出力する結果出力手段とを有することにより、文
字成分表を利用した迅速な処理で文書データを仮ランキ
ングさせることができ、この仮ランキングされた文書デ
ータの一部に対してのみ単語の出現回数を積算するだけ
で、要望個数の文書データを本ランキングすることがで
きるので、高精度に検索された文書データを必要な個数
だけ高速に出力することができる。
【0147】請求項13記載の発明の文書検索装置で
は、本ランキング手段は、比較する仮適合度と本適合度
との少なくとも一方に所定の定数を乗算することによ
り、文書データが本ランキングされる割合を促進させる
ことができるので、より高速に文書データを出力するこ
とができる。
【0148】請求項14記載の発明の文書検索装置で
は、検索要求の単語を所定条件に従って選別する単語選
別手段を設け、仮適合度算出手段は、選別された単語の
みに基づいて仮適合度を算出し、本適合度算出手段は、
選別された単語のみに基づいて本適合度を算出すること
により、仮適合度と本適合度との計算量を削減すること
ができるので、より高速に文書データを出力することが
できる。
【0149】請求項15記載の発明の文書検索装置で
は、検索要求の単語を所定条件に従って選別する単語選
別手段を設け、仮適合度算出手段は、選別された単語が
出現する文書データのみ全部の単語に基づいて仮適合度
の算出を実行することにより、仮適合度と本適合度とを
計算する文書データを削減することができ、しかも、検
索要求の全部の単語に基づいて仮適合度と本適合度とを
算出するので、ユーザの要求に良好に対応した文書デー
タを高速に出力することができる。
【0150】請求項16記載の発明の文書検索装置で
は、仮適合度算出手段は、選別されない単語に関するパ
ラメータに所定の定数を乗算することにより、単語の選
別に起因して仮適合度が本来の数値より増加することを
防止できるので、本適合度を算出する文書データの個数
を削減することができ、より高速に文書データを出力す
ることができる。
【0151】請求項17記載の発明の文書検索装置で
は、単語選別手段は、単語の重要度を各々の構成文字に
基づいて算出し、この重要度に従って単語を選別するこ
とにより、単語を選別するために文字成分表による検索
結果を算出する必要がないので、より高速に文書データ
を出力することができる。
【0152】請求項18記載の発明の情報記憶媒体は、
外部入力される検索要求の単語の文字が出現する文書デ
ータを文字成分表に従ってデータベースから検索するこ
と、検索された文書データの各々と検索要求との適合度
を個々に算出すること、適合度に対応して検索された文
書データをランキングさせて外部出力すること、が書き
込まれていることにより、データベースと文字成分表と
が接続された情報処理装置を、この情報記憶媒体に書き
込まれたプログラムにより動作させれば、文字成分表に
従って文書データを高速に検索することができ、この検
索された文書データが検索要求との適合度に従ってラン
キングすることができるので、ユーザの要求に対応した
文書データを高速に出力することができる。
【0153】請求項19記載の発明の情報記憶媒体は、
外部入力される検索要求の単語の文字が出現する文書デ
ータの識別子を文字成分表から検索すること、この識別
子として検索された文書データの各々と検索要求との仮
適合度を個々に算出すること、この仮適合度に従って検
索された文書データを仮ランキングさせること、この仮
ランキングの上位の文書データの記載内容をデータベー
スから読み出して検索要求の単語の有無を照合するこ
と、この照合の結果に従って文書データと検索要求との
本適合度を算出すること、この本適合度に従って仮ラン
キングされた文書データを本ランキングさせること、こ
の本ランキングされた文書データが要望個数となるまで
仮ランキングの順位に従って処理を繰り返すこと、が書
き込まれていることにより、データベースと文字成分表
とが接続された情報処理装置を、この情報記憶媒体に書
き込まれたプログラムにより動作させれば、文字成分表
を利用した迅速な処理で文書データを仮ランキングさせ
ることができ、この仮ランキングされた文書データの一
部に対してのみ単語の有無を照合するだけで、要望個数
の文書データを本ランキングすることができるので、高
精度に検索された文書データを必要な個数だけ高速に出
力することができる。
【0154】請求項20記載の発明の情報記憶媒体は、
入力された検索要求の単語の文字が出現する文書データ
の識別子を文字成分表から検索すること、この検索され
た文書データの各々と検索要求との仮適合度を個々に算
出すること、この仮適合度に従って検索された文書デー
タを仮ランキングさせること、この仮ランキングの上位
の文書データの記載内容をデータベースから読み出して
検索要求の単語の出現回数を積算すること、この単語の
出現回数に従って文書データと検索要求との本適合度を
算出すること、この本適合度に従って仮ランキングされ
た文書データを本ランキングさせること、この本ランキ
ングされた文書データが要望個数となるまで仮ランキン
グの順位に従って処理を繰り返すこと、が書き込まれて
いることにより、データベースと文字成分表とが接続さ
れた情報処理装置を、この情報記憶媒体に書き込まれた
プログラムにより動作させれば、文字成分表を利用した
迅速な処理で文書データを仮ランキングさせることがで
き、この仮ランキングされた文書データの一部に対して
のみ単語の出現回数を積算するだけで、要望個数の文書
データを本ランキングすることができるので、高精度に
検索された文書データを必要な個数だけ高速に出力する
ことができる。
【図面の簡単な説明】
【図1】本発明の実施の第一の形態の文書検索装置の論
理的構造を示す模式図である。
【図2】文書検索装置の物理的構造を示すブロック図で
ある。
【図3】文書検索装置の外観を示す斜視図である。
【図4】情報記憶媒体であるメモリに書き込まれたプロ
グラムのモジュール構造を示す模式図である。
【図5】文書検索方法を示すフローチャートである。
【図6】仮ランキングされた文書データを本ランキング
する処理動作を示す説明図である。
【図7】K(D)とPとを変化させた場合の検索精度を示
す特性図である。
【図8】Pを固定してK(D)を変化させた場合の検索精
度を示す特性図である。
【図9】K(D)を固定してPを変化させた場合の検索精
度を示す特性図である。
【図10】K(D)とPとを変化させた場合の検索時間を
示す特性図である。
【図11】Pを固定してK(D)を変化させた場合の検索
時間を示す特性図である。
【図12】K(D)を固定してPを変化させた場合の検索
時間を示す特性図である。
【図13】K(D)を固定してPとT(D)とを変化させた
場合の検索精度を示す特性図である。
【図14】K(D)を固定してPとT(D)とを変化させた
場合の検索時間を示す特性図である。
【図15】K(D)とPとを固定した場合の検索件数と検
索時間との関係を示す特性図である。
【図16】本発明の実施の第二の形態の文書検索装置の
論理的構造を示す模式図である。
【図17】文書検索方法を示すフローチャートである。
【符号の説明】
1,41 文書検索装置 6,13,14 情報記憶媒体 21 データベース 22 文字成分表 23 要求入力手段 24 要求解釈手段 25,52 文書検索手段 26 適合度算出手段 27 結果ランキング手段 28 結果出力手段 51 個数設定手段 52 文書検索手段 53 仮適合度算出手段 54 仮ランキング手段 55 単語積算手段 56 本適合度算出手段 57 本ランキング手段 58 動作制御手段
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成8年10月15日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】請求項16
【補正方法】変更
【補正内容】
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】請求項17
【補正方法】変更
【補正内容】
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0026
【補正方法】変更
【補正内容】
【0026】請求項15記載の発明の文書検索装置で
は、請求項11または12記載の発明において、検索要
求の単語を所定条件に従って選別する単語選別手段を設
け、仮適合度算出手段は、選別された単語が出現する文
書データのみ全部の単語に基づいて仮適合度の算出を実
行する。従って、検索された文書データの一部しか仮適
合度と本適合度とを算出しないので、その処理負担が軽
減されて処理速度が向上し、検索要求の全部の単語に基
づいて仮ランキングと本ランキングとを実行するので、
ユーザの検索要求に良好に対応し文書データが検索さ
れる。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0027
【補正方法】変更
【補正内容】
【0027】請求項16記載の発明の文書検索装置で
は、請求項1記載の発明において、仮適合度算出手段
は、選別されない単語に関するパラメータに所定の定数
を乗算する。従って、単語の選別に起因して仮適合度が
本来の数値より増加する場合でも、これが定数の乗算に
より本来の数値に近似する。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0028
【補正方法】変更
【補正内容】
【0028】請求項17記載の発明の文書検索装置で
は、請求項14または15記載の発明において、単語選
別手段は、単語の重要度を各々の構成文字に基づいて算
出し、この重要度に従って単語を選別する。従って、文
書データの検索に適切な単語が容易に選別され、単語を
選別するために文字成分表による検索結果を算出する必
要がない。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0086
【補正方法】変更
【補正内容】
【0086】なお、数式(5)を鑑みると、仮ランキング
された文書データ“d”における単語“t”の重要度
“vd(t)”は“1”より小さい。また、その計算に必
要な文書データ“d”に単語“t”が出現する回数“f
d(t)”は、実際には多くとも数十程度であり、これが
増加するほど重要度“vd(t)”の変化の割合は低下す
る。つまり、単語“t”の出現回数“fd(t)”に上限
値“Td”を設定しても、重要度“vd(t)”と適合度
“rd(q)”とに対する影響は小さいことになる。この
場合、前述した数式(5)は、 if fd(t)<Tdd(t)=fd(t)/[Kd+fd(t)] otherwise vd(t)=T d[Kd+Td] …(7) なる数式(7)に置換される。
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0091
【補正方法】変更
【補正内容】
【0091】
【数5】
【手続補正8】
【補正対象書類名】明細書
【補正対象項目名】0092
【補正方法】変更
【補正内容】
【0092】f a(ti):データベースにおいて検索要求
の単語i が出現する文書データの個数 f q(ti):検索要求において単i が繰り返し出現す
る回数 δ d(ti):文書データにおける検索要求の単語i の有
無を示す二値 T d :文書データから積算する単語i の出現回数の上
限値=∞,100,10,5,4,3,2,1 K q :f q(ti)の正規化係数=0 K d :文書データから積算する単語i の出現回数の正
規化係数=0.0,0.5,1.0,2.0 N:データベースに格納された文書データの個数=55
1,163111 R:検索する文書データの個数=0,10,20,50,10
0,200 P:QJPで複合語を分割する閾値=0.00,0.05,…,
0.30,1.00 なお、ここでは“K q =0”としているが、これは用意
した検索要求に単語 i を繰り返すものが存在しないた
めである。
【手続補正9】
【補正対象書類名】明細書
【補正対象項目名】0095
【補正方法】変更
【補正内容】
【0095】まず、基本性能に関係するパラメータであ
る“K d ”と“P”との全部の組み合わせに対し、単語
の照合による誤検索の除去の有無における平均適合度を
比較した。その結果、当然ながら誤検索を除去した方が
最終的な精度は向上するが、その差は最大でも 0.015で
影響は小さいことが確認されたので、ここでは仮ランキ
ングにおいて誤検索の除去を行わないものとした。
【手続補正10】
【補正対象書類名】明細書
【補正対象項目名】0096
【補正方法】変更
【補正内容】
【0096】つぎに、“K d ”を変化させて検索精度を
調査したところ、図7に示すように、“K d =0.0”の場
合のみ精度が低いことが判明した。“K d =0.0”の場合
には文書データの単語の出現回数を検索結果に反映させ
ないので、これが検索精度に重要な要因であることにな
る。“P”の変化に注目すると、その数値が増加するほ
ど平均適合度が低下しているので、複合語分割が必要で
あることになる。なお、“P=0.0 ”の場合には平均適
合度の微少な減少が確認されるが、これは前述のように
複合語が過剰に分割されたためと考えられる。
【手続補正11】
【補正対象書類名】明細書
【補正対象項目名】0097
【補正方法】変更
【補正内容】
【0097】また、“K d ,P”を各々変化させて再現
率と適合度との関係を調査した。まず、“P=0.05”に
固定して“K d ”を変化させたところ、図8に示すよう
に、“K d ”により再現率が小さい部分の適合度が向上
することが判明した。再現率が小さい部分はランキング
の上位に相当するので、“K d ”はランキング上位の検
索精度を改善できることになる。また、“K d =0.5”に
固定して“P”を変化させたところ、図9に示すよう
に、“P”により再現率が大きい部分の適合度が向上す
ることが判明した。再現率が大きい部分はランキングの
下位に相当するので、“P”はランキング全体の検索洩
れを軽減できることになる。
【手続補正12】
【補正対象書類名】明細書
【補正対象項目名】0098
【補正方法】変更
【補正内容】
【0098】つぎに、検索速度を評価する実験について
以下に説明する。この実験では、データベース21の文
書データとして新聞記事163111件(160MB)を用意し、検
索要求は検索精度の評価実験と同一とした。“K d ”と
“P”とを変化させて検索時間を調査したところ、図1
0に示すように、“K d ”が大きいほど検索時間が増加
することが判明した。これは“K d ”が大きいと本ラン
キングを決定するためにアクセスする文書データの個数
が増大し、この処理に必要な時間が増加するためであ
る。図11に示すように、“P=0.05”に固定して“K
d ”を変化させても、“K d ”の増加による処理速度の
低下が確認された。図11のグラフは傾斜が本ランキン
グの処理時間に対応しており、“K d ”が大きいほどグ
ラフの傾斜も大きい。
【手続補正13】
【補正対象書類名】明細書
【補正対象項目名】0099
【補正方法】変更
【補正内容】
【0099】一方、図10に示すように、“P”が大き
いほど検索時間が減少することが判明した。これは
“P”が大きいと検索要求の単語の出現回数が減少し、
仮ランキングの処理時間が減少するためである。図12
に示すように、“K d =0.50”に固定して“P”を変化
させても、“P”の増加による処理速度の向上が確認さ
れた。図12では横軸が“0”の場合の縦軸が仮ランキ
ングの処理時間に相当するが、これも“P”が大きいほ
ど短縮されている。
【手続補正14】
【補正対象書類名】明細書
【補正対象項目名】0100
【補正方法】変更
【補正内容】
【0100】さらに、検索する文書データの個数を“R
=20”とした場合に、本ランキングの決定のためにアク
セスした文書データの個数も調査した。すると、最も検
索時間が短くなる“P=1.00,K d =0.00”の場合に
“34.1”となり、“P=0.00,K d =2.00”の場合に
“1755.0”となった。なお、完全なランキングには多大
な時間が必要となることも確認されており、データベー
スが大規模な場合、仮ランキングの上位から本ランキン
グを順番に逐次確定する本案の手法であれば、処理時間
を有効に短縮できることが確認された。
【手続補正15】
【補正対象書類名】明細書
【補正対象項目名】0101
【補正方法】変更
【補正内容】
【0101】また、前述のように文書データから積算す
る単語の出現回数の上限値“T d ”を設定し、“K d
と“P”とを変化させて検索時間を調査したところ、図
13に示すように、“T d ≧5”の範囲では検索精度に
影響は略無く、これ以下の範囲では検索精度が徐々に低
下することが判明した。特に、“T d =2〜1”の部分
では検索精度が極度に低下しているが、これは“T d
1”が“K d =0”に相当しているためである。
【手続補正16】
【補正対象書類名】明細書
【補正対象項目名】0102
【補正方法】変更
【補正内容】
【0102】さらに、上述のように“T d ”を設定した
状態で検索速度を調査したところ、図14に示すよう
に、“100 ”以下程度の範囲では“T d ”が小さいほど
検索時間が短縮されることが判明した。同様に、“P=
0.05,K d =0.50”に固定して検索件数と検索時間との
関係も調査したところ、図15に示すように、やはり
“T d ”が小さいほど検索時間が短縮されることが確認
された。
【手続補正17】
【補正対象書類名】明細書
【補正対象項目名】0103
【補正方法】変更
【補正内容】
【0103】以上のような実験により、文書検索装置1
の文書検索方法において、各種のパラメータが各種の影
響を及ぼすことが確認できた。まず、自然言語の検索要
求から複合語を検出して単語に分割する閾値“P”は、
小さいほど検索精度が向上するが検索時間は低下するの
で、所望によりユーザが調節できることが好ましい。ま
た、文書データから積算する単語の出現回数の正規化係
数“K d ”は、“0”以上の範囲で小さいほど検索精度
と検索速度との両方が向上する。文書データから積算す
る単語の出現回数の上限値“T d ”は、検索速度を向上
させるためには小さいほど良いが、あまり小さいと検索
精度が低下するので“5”程度が良い。
【手続補正18】
【補正対象書類名】明細書
【補正対象項目名】図面の簡単な説明
【補正方法】変更
【補正内容】
【図面の簡単な説明】
【図1】本発明の実施の第一の形態の文書検索装置の論
理的構造を示す模式図である。
【図2】文書検索装置の物理的構造を示すブロック図で
ある。
【図3】文書検索装置の外観を示す斜視図である。
【図4】情報記憶媒体であるメモリに書き込まれたプロ
グラムのモジュール構造を示す模式図である。
【図5】文書検索方法を示すフローチャートである。
【図6】仮ランキングされた文書データを本ランキング
する処理動作を示す説明図である。
【図7】K d とPとを変化させた場合の検索精度を示す
特性図である。
【図8】Pを固定してK d を変化させた場合の検索精度
を示す特性図である。
【図9】K d を固定してPを変化させた場合の検索精度
を示す特性図である。
【図10】K d とPとを変化させた場合の検索時間を示
す特性図である。
【図11】Pを固定してK d を変化させた場合の検索時
間を示す特性図である。
【図12】K d を固定してPを変化させた場合の検索時
間を示す特性図である。
【図13】K d を固定してPとT d とを変化させた場合
の検索精度を示す特性図である。
【図14】K d を固定してPとT d とを変化させた場合
の検索時間を示す特性図である。
【図15】K d とPとを固定した場合の検索件数と検索
時間との関係を示す特性図である。
【図16】本発明の実施の第二の形態の文書検索装置の
論理的構造を示す模式図である。
【図17】文書検索方法を示すフローチャートである。
【符号の説明】 1,41 文書検索装置 6,13,14 情報記憶媒体 21 データベース 22 文字成分表 23 要求入力手段 24 要求解釈手段 25,52 文書検索手段 26 適合度算出手段 27 結果ランキング手段 28 結果出力手段 51 個数設定手段 52 文書検索手段 53 仮適合度算出手段 54 仮ランキング手段 55 単語積算手段 56 本適合度算出手段 57 本ランキング手段 58 動作制御手段
【手続補正19】
【補正対象書類名】図面
【補正対象項目名】図7
【補正方法】変更
【補正内容】
【図7】
【手続補正20】
【補正対象書類名】図面
【補正対象項目名】図8
【補正方法】変更
【補正内容】
【図8】
【手続補正21】
【補正対象書類名】図面
【補正対象項目名】図10
【補正方法】変更
【補正内容】
【図10】
【手続補正22】
【補正対象書類名】図面
【補正対象項目名】図11
【補正方法】変更
【補正内容】
【図11】
【手続補正23】
【補正対象書類名】図面
【補正対象項目名】図15
【補正方法】変更
【補正内容】
【図15】

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 多数の文書データが識別子と共に予め格
    納されたデータベースと、文字の一覧に文書データの識
    別子が予め設定された文字成分表と、文書データの検索
    要求の入力を受け付ける要求入力手段と、入力された検
    索要求の単語の文字が出現する文書データを前記文字成
    分表に従って前記データベースから検索する文書検索手
    段と、検索された文書データの各々と検索要求との適合
    度を個々に算出する適合度算出手段と、適合度に対応し
    て検索された文書データをランキングする結果ランキン
    グ手段と、ランキングされた文書データを出力する結果
    出力手段と、を有することを特徴とする文書検索装置。
  2. 【請求項2】 適合度算出手段は、データベースにおけ
    る検索要求の単語の重要度を算出し、この重要度に基づ
    いて検索要求と検索された文書データの各々との適合度
    を個々に算出することを特徴とする請求項1記載の文書
    検索装置。
  3. 【請求項3】 適合度算出手段は、検索要求における単
    語の重要度を算出し、この重要度に基づいて検索要求と
    検索された文書データの各々との適合度を個々に算出す
    ることを特徴とする請求項1記載の文書検索装置。
  4. 【請求項4】 適合度算出手段は、検索された文書デー
    タにおける検索要求の単語の重要度を算出し、この重要
    度に基づいて検索要求と検索された文書データの各々と
    の適合度を個々に算出することを特徴とする請求項1記
    載の文書検索装置。
  5. 【請求項5】 検索要求の単語の有無を検索された文書
    データに対して照合する結果照合手段を設けたことを特
    徴とする請求項1,2,3または4記載の文書検索装
    置。
  6. 【請求項6】 検索する文書データの要望個数を設定す
    る個数設定手段を設け、検索要求の単語の有無を文書デ
    ータに対して照合する結果照合手段を設け、この結果照
    合手段の処理を実行しない状態で文字成分表に従って検
    索された文書データの各々と検索要求との適合度を仮適
    合度として適合度算出手段により個々に算出させ、この
    仮適合度に従って結果ランキング手段により検索された
    文書データを仮ランキングさせ、この仮ランキングの上
    位の文書データに対して前記結果照合手段により検索要
    求の単語の有無を照合させ、この照合の結果に従って前
    記適合度算出手段により文書データと検索要求との本適
    合度を算出させ、この本適合度に従って前記結果ランキ
    ング手段により仮ランキングされた文書データを本ラン
    キングさせ、この本ランキングされた文書データが要望
    個数となるまで仮ランキングの順位に従って処理を繰り
    返させることを特徴とする請求項1,2または3記載の
    文書検索装置。
  7. 【請求項7】 検索する文書データの要望個数を設定す
    る個数設定手段を設け、文字成分表に従って検索された
    文書データの各々と検索要求との適合度を仮適合度とし
    て適合度算出手段により個々に算出させ、この仮適合度
    に従って結果ランキング手段により検索された文書デー
    タを仮ランキングさせ、この仮ランキングの上位の文書
    データに対して検索要求の単語の出現回数を積算する単
    語積算手段を設け、この単語の出現回数に従って前記適
    合度算出手段により文書データと検索要求との本適合度
    を算出させ、この本適合度に従って前記結果ランキング
    手段により仮ランキングされた文書データを本ランキン
    グさせ、この本ランキングされた文書データが要望個数
    となるまで仮ランキングの順位に従って処理を繰り返さ
    せることを特徴とする請求項4記載の文書検索装置。
  8. 【請求項8】 単語積算手段は、文書データから積算す
    る単語の出現回数に上限値が予め設定されていることを
    特徴とする請求項7記載の文書検索装置。
  9. 【請求項9】 多数の文書データを識別子と共にデータ
    ベースに予め格納しておき、文字成分表の文字の一覧に
    文書データの識別子を予め設定しておき、文書データの
    検索要求の入力を受け付け、この入力された検索要求の
    単語の文字が出現する文書データを前記文字成分表に従
    って前記データベースから検索し、この検索された文書
    データの各々と検索要求との適合度を個々に算出し、こ
    の適合度に対応して検索された文書データをランキング
    し、このランキングされた文書データを出力するように
    したことを特徴とする文書検索方法。
  10. 【請求項10】 多数の文書データを識別子と共にデー
    タベースに予め格納しておき、文字成分表の文字の一覧
    に文書データの識別子を予め設定しておき、検索する文
    書データの要望個数を設定し、文書データの検索要求の
    入力を受け付け、この入力された検索要求の単語の文字
    が出現する文書データの識別子を前記文字成分表から検
    索し、この識別子として検索された文書データの各々と
    検索要求との仮適合度を個々に算出し、この仮適合度に
    対応して検索された文書データを仮ランキングし、この
    仮ランキングの上位の文書データを前記データベースか
    ら読み出し、この読み出された文書データに対して検索
    要求の単語の出現回数を積算し、この単語の出現回数に
    従って文書データと検索要求との本適合度を算出し、こ
    の本適合度に従って仮ランキングされた文書データを本
    ランキングさせ、この本ランキングされた文書データが
    要望個数となるまで仮ランキングの順位に従って処理を
    繰り返し、この本ランキングされた要望個数の文書デー
    タを出力するようにしたことを特徴とする文書検索方
    法。
  11. 【請求項11】 多数の文書データが識別子と共に予め
    格納されたデータベースと、文字の一覧に文書データの
    識別子が予め設定された文字成分表と、文書データの検
    索要求の入力を受け付ける要求入力手段と、検索する文
    書データの要望個数を設定する個数設定手段と、入力さ
    れた検索要求の単語の文字が出現する文書データの識別
    子を前記文字成分表から検索する文書検索手段と、この
    識別子として検索された文書データの各々と検索要求と
    の仮適合度を個々に算出する仮適合度算出手段と、この
    仮適合度に従って検索された文書データを仮ランキング
    させる仮ランキング手段と、この仮ランキングの上位の
    文書データの記載内容を前記データベースから読み出し
    て検索要求の単語の有無を照合する結果照合手段と、こ
    の照合の結果に従って文書データと検索要求との本適合
    度を算出する本適合度算出手段と、この本適合度に従っ
    て仮ランキングされた文書データを本ランキングさせる
    本ランキング手段と、この本ランキングされた文書デー
    タが要望個数となるまで仮ランキングの順位に従って処
    理を繰り返させる動作制御手段と、本ランキングされた
    要望個数の文書データを出力する結果出力手段と、を有
    することを特徴とする文書検索装置。
  12. 【請求項12】 多数の文書データが識別子と共に予め
    格納されたデータベースと、文字の一覧に文書データの
    識別子が予め設定された文字成分表と、文書データの検
    索要求の入力を受け付ける要求入力手段と、検索する文
    書データの要望個数を設定する個数設定手段と、入力さ
    れた検索要求の単語の文字が出現する文書データの識別
    子を前記文字成分表から検索する文書検索手段と、この
    識別子として検索された文書データの各々と検索要求と
    の仮適合度を個々に算出する仮適合度算出手段と、この
    仮適合度に従って検索された文書データを仮ランキング
    させる仮ランキング手段と、この仮ランキングの上位の
    文書データの記載内容を前記データベースから読み出し
    て検索要求の単語の出現回数を積算する単語積算手段
    と、この単語の出現回数に従って文書データと検索要求
    との本適合度を算出する本適合度算出手段と、この本適
    合度に従って仮ランキングされた文書データを本ランキ
    ングさせる本ランキング手段と、この本ランキングされ
    た文書データが要望個数となるまで仮ランキングの順位
    に従って処理を繰り返させる動作制御手段と、本ランキ
    ングされた要望個数の文書データを出力する結果出力手
    段と、を有することを特徴とする文書検索装置。
  13. 【請求項13】 本ランキング手段は、比較する仮適合
    度と本適合度との少なくとも一方に所定の定数を乗算す
    ることを特徴とする請求項11または12記載の文書検
    索装置。
  14. 【請求項14】 検索要求の単語を所定条件に従って選
    別する単語選別手段を設け、仮適合度算出手段は、選別
    された単語のみに基づいて仮適合度を算出し、本適合度
    算出手段は、選別された単語のみに基づいて本適合度を
    算出することを特徴とする請求項11または12記載の
    文書検索装置。
  15. 【請求項15】 検索要求の単語を所定条件に従って選
    別する単語選別手段を設け、仮適合度算出手段は、選別
    された単語が出現する文書データのみ全部の単語に基づ
    いて仮適合度の算出を実行することを特徴とする請求項
    11または12記載の文書検索装置。
  16. 【請求項16】 仮適合度算出手段は、選別されない単
    語に関するパラメータに所定の定数を乗算することを特
    徴とする請求項14記載の文書検索装置。
  17. 【請求項17】 単語選別手段は、単語の重要度を各々
    の構成文字に基づいて算出し、この重要度に従って単語
    を選別することを特徴とする請求項14記載の文書検索
    装置。
  18. 【請求項18】 多数の文書データが識別子と共に予め
    格納されたデータベースと、文字の一覧に文書データの
    識別子が予め設定された文字成分表と、検索要求の文字
    に基づいた文書データの検索等の各種のデータ処理をプ
    ログラムに従って実行する情報処理装置と、この情報処
    理装置を動作させるプログラムが書き込まれた情報記憶
    媒体と、を備えた文書検索装置において、外部入力され
    る検索要求の単語の文字が出現する文書データを前記文
    字成分表に従って前記データベースから検索すること、
    検索された文書データの各々と検索要求との適合度を個
    々に算出すること、適合度に対応して検索された文書デ
    ータをランキングさせて外部出力すること、が書き込ま
    れていることを特徴とする情報記憶媒体。
  19. 【請求項19】 多数の文書データが識別子と共に予め
    格納されたデータベースと、文字の一覧に文書データの
    識別子が予め設定された文字成分表と、検索要求の文字
    に基づいた文書データの検索等の各種のデータ処理をプ
    ログラムに従って実行する情報処理装置と、この情報処
    理装置を動作させるプログラムが書き込まれた情報記憶
    媒体と、を備えた文書検索装置において、外部入力され
    る検索要求の単語の文字が出現する文書データの識別子
    を前記文字成分表から検索すること、この識別子として
    検索された文書データの各々と検索要求との仮適合度を
    個々に算出すること、この仮適合度に従って検索された
    文書データを仮ランキングさせること、この仮ランキン
    グの上位の文書データの記載内容を前記データベースか
    ら読み出して検索要求の単語の有無を照合すること、こ
    の照合の結果に従って文書データと検索要求との本適合
    度を算出すること、この本適合度に従って仮ランキング
    された文書データを本ランキングさせること、この本ラ
    ンキングされた文書データが要望個数となるまで仮ラン
    キングの順位に従って処理を繰り返すこと、が書き込ま
    れていることを特徴とする情報記憶媒体。
  20. 【請求項20】 多数の文書データが識別子と共に予め
    格納されたデータベースと、文字の一覧に文書データの
    識別子が予め設定された文字成分表と、検索要求の文字
    に基づいた文書データの検索等の各種のデータ処理をプ
    ログラムに従って実行する情報処理装置と、この情報処
    理装置を動作させるプログラムが書き込まれた情報記憶
    媒体と、を備えた文書検索装置において、入力された検
    索要求の単語の文字が出現する文書データの識別子を前
    記文字成分表から検索すること、この検索された文書デ
    ータの各々と検索要求との仮適合度を個々に算出するこ
    と、この仮適合度に従って検索された文書データを仮ラ
    ンキングさせること、この仮ランキングの上位の文書デ
    ータの記載内容を前記データベースから読み出して検索
    要求の単語の出現回数を積算すること、この単語の出現
    回数に従って文書データと検索要求との本適合度を算出
    すること、この本適合度に従って仮ランキングされた文
    書データを本ランキングさせること、この本ランキング
    された文書データが要望個数となるまで仮ランキングの
    順位に従って処理を繰り返すこと、が書き込まれている
    ことを特徴とする情報記憶媒体。
JP8193277A 1995-11-14 1996-07-23 文書検索装置および方法、情報記憶媒体 Pending JPH09311872A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8193277A JPH09311872A (ja) 1995-11-14 1996-07-23 文書検索装置および方法、情報記憶媒体

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP29520295 1995-11-14
JP7-295202 1996-03-18
JP8-60679 1996-03-18
JP6067996 1996-03-18
JP8193277A JPH09311872A (ja) 1995-11-14 1996-07-23 文書検索装置および方法、情報記憶媒体

Publications (1)

Publication Number Publication Date
JPH09311872A true JPH09311872A (ja) 1997-12-02

Family

ID=27297265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8193277A Pending JPH09311872A (ja) 1995-11-14 1996-07-23 文書検索装置および方法、情報記憶媒体

Country Status (1)

Country Link
JP (1) JPH09311872A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6718324B2 (en) 2000-01-14 2004-04-06 International Business Machines Corporation Metadata search results ranking system
US7986431B2 (en) 2005-09-30 2011-07-26 Ricoh Company, Limited Information processing apparatus, information processing method, and computer program product

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6718324B2 (en) 2000-01-14 2004-04-06 International Business Machines Corporation Metadata search results ranking system
US7986431B2 (en) 2005-09-30 2011-07-26 Ricoh Company, Limited Information processing apparatus, information processing method, and computer program product

Similar Documents

Publication Publication Date Title
Ahmed et al. Language identification from text using n-gram based cumulative frequency addition
JP4467791B2 (ja) 情報管理及び検索
US6418431B1 (en) Information retrieval and speech recognition based on language models
US20050203900A1 (en) Associative retrieval system and associative retrieval method
EP0751469B1 (en) Automatic method of extracting summarization using feature probabilities
US6345253B1 (en) Method and apparatus for retrieving audio information using primary and supplemental indexes
US5940624A (en) Text management system
JP2832988B2 (ja) データ検索システム
EP0378848A2 (en) Method for use of morphological information to cross reference keywords used for information retrieval
EP1927927A2 (en) Speech recognition training method for audio and video file indexing on a search engine
US20040098385A1 (en) Method for indentifying term importance to sample text using reference text
JPH03172966A (ja) 類似文書検索装置
US6278990B1 (en) Sort system for text retrieval
JP2669601B2 (ja) 情報検索方法及びシステム
JP2001084255A (ja) 文書検索装置および方法
JP3198932B2 (ja) 文書検索装置
JPH11272680A (ja) 文書データ提供装置およびそのプログラム記録媒体
JPH09311872A (ja) 文書検索装置および方法、情報記憶媒体
JP3081093B2 (ja) 索引作成方法およびその装置と文書検索装置
RU2409849C2 (ru) Способ поиска информации в политематических массивах неструктурированных текстов
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
JPH07104869B2 (ja) データ検索加工システム
EP0592402B1 (en) A text management system
WO2006046195A1 (en) Data processing system and method
JP6764973B1 (ja) 関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラム