JPH09311872A

JPH09311872A - 文書検索装置および方法、情報記憶媒体

Info

Publication number: JPH09311872A
Application number: JP8193277A
Authority: JP
Inventors: Yasutsugu Ogawa; 泰嗣小川
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1995-11-14
Filing date: 1996-07-23
Publication date: 1997-12-02

Abstract

(57)【要約】【課題】検索要求を入力して文書データを検索する場
合に、この検索が高速に実行され、検索要求に合致した
文書データを容易に見付けられるようにする。【解決手段】データベース２１に格納された文書デー
タの識別子を、文字成分表２２の文字の一覧に設定して
おき、検索要求の文字が出現する文書データを文字成分
表２２に従ってデータベース２１から検索する。このデ
ータベース２１における検索要求の単語の重要度を算出
し、この重要度に基づいて検索された文書データの各々
と検索要求との適合度を個々に算出し、この適合度で検
索された文書データをランキングする。検索を単語単位
でなく文字単位として処理を高速化し、検索された文書
データを検索要求との適合度に従ってランキングする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、データベースから
文書データを検索する文書検索装置および方法、文書検
索装置のプログラムが書き込まれた情報記憶媒体、に関
する。

【０００２】

【従来の技術】文書管理システム等の文書検索装置は、
多数の文書データが予め格納されたデータベースを有し
ており、このデータベースから所望の文書データを検索
して出力することができる。一般的な文書検索装置で
は、データベースの文書データにキーワードとなる単語
が付与されているので、ユーザが所望の単語から検索要
求を作成して文書検索装置に入力すると、この検索要求
に整合する文書データが単語のマッチングに従って検索
される。

【０００３】しかし、このような文書検索装置では、デ
ータベースに格納する文書データに、その内容を反映し
た単語を付与する必要があり、この作業が煩雑である。
文書データを解析して単語を抽出する装置も開発されて
いるが、これは処理の負担が大きいのでデータベースに
文書データを格納する作業が遅滞する。

【０００４】このような課題を解決するため、特開平5-
324722号公報に開示された文書検索装置では、データベ
ースとは別個に文字成分表を設けており、この文字成分
表には、文書データと文字との関係に対応して、文字の
一覧に文書データを設定している。例えば、ある文書デ
ータに“管理”なる単語が出現する場合、文字成分表の
文字の一覧の“管”と“理”との部分に、その文書デー
タの識別子が設定される。このような文書検索装置で
は、ユーザが所望の単語から検索要求を作成して文書検
索装置に入力すると、この検索要求の単語も文字に分解
され、その文字が出現する文書データが文字成分表によ
り検索される。

【０００５】このように文字成分表を設けた文書検索装
置では、データベースに文書データを格納する場合、文
書データから単語を抽出する必要がないので作業が簡易
である。文字成分表に文書データを設定する場合も、文
書データを文字に分解して対応する一覧の文字に識別子
を設定するだけなので、この作業も簡易でキーワードの
一覧に比較して記憶に必要な容量も小さい。さらに、単
語のパターンマッチングに比較して文字の照合は容易な
ので、文書データを検索する処理も簡易である。

【０００６】なお、このように文字成分表を設けた文書
検索装置では、文書データを文字の単位で検索するの
で、検索要求の単語が存在しなくとも、その文字が存在
する文書データが検索されてしまう。例えば、ある文書
データに“管理”なる単語が出現せず、“管”と“理”
との文字が独立に出現しているならば、この文書データ
は検索要求の“管理”なる単語により検索されてしま
う。

【０００７】このような誤検索を削減するため、特開平
5-324722号公報に開示された文書検索装置では、文字成
分表と共に隣接文字表も作成しており、この隣接文字表
には、文書データで連続する二つの文字を一組として一
覧を形成し、この一覧の文字組毎にも文書データの識別
子を設定している。この場合、文書データに“管”と
“理”との文字が連続して出現しなければ、これは検索
要求の“管理”なる単語により検索されることがない。

【０００８】

【発明が解決しようとする課題】文字成分表を設けた文
書検索装置では、データベースを簡易に構築することが
でき、検索の処理も容易である。

【０００９】このような文書検索装置では、ユーザの検
索要求に適合する文書データが単純に検索されるので、
検索される文書データが膨大な件数となることがある。
このような場合、作業を繰り返して検索された文書デー
タを絞り込むことになるが、これでは作業が煩雑で処理
も遅滞する。

【００１０】例えば、特開平6-348757号公報に開示され
た文書検索装置では、データベースに文書データをキー
ワードと共に設定する場合に、その文書データにおける
キーワードの出現頻度も設定している。このため、検索
要求に対応して文書データを検索する場合に、検索要求
に対する文書データの適合度を算出することができるの
で、この適合度の順番に検索された文書データを配列す
ることができる。この場合、検索された文書データが膨
大な件数となっても、上位の文書データほど検索要求に
適合しているので、ユーザは所望の個数を上位から選択
すれば良い。

【００１１】しかし、この文書検索装置は、データベー
スに格納する文書データから単語を抽出する必要がある
ので、前述のように作業が煩雑で記憶に必要な容量も大
きくなる。

【００１２】

【課題を解決するための手段】請求項１記載の発明の文
書検索装置は、多数の文書データが識別子と共に予め格
納されたデータベースと、文字の一覧に文書データの識
別子が予め設定された文字成分表と、文書データの検索
要求の入力を受け付ける要求入力手段と、入力された検
索要求の単語の文字が出現する文書データを前記文字成
分表に従って前記データベースから検索する文書検索手
段と、検索要求と検索された文書データの各々との適合
度を個々に算出する適合度算出手段と、適合度に対応し
て検索された文書データをランキングする結果ランキン
グ手段と、ランキングされた文書データを出力する結果
出力手段とを有する。従って、文字成分表に従って文書
データは高速に検索され、この検索された文書データが
検索要求との適合度に従ってランキングされる。

【００１３】請求項２記載の発明の文書検索装置では、
請求項１記載の発明において、適合度算出手段は、デー
タベースにおける検索要求の単語の重要度を算出し、こ
の重要度に基づいて検索要求と検索された文書データの
各々との適合度を個々に算出する。従って、データベー
スにおいて重要な単語で検索された文書データほど上位
にランキングされる。

【００１４】請求項３記載の発明の文書検索装置では、
請求項１記載の発明において、適合度算出手段は、検索
要求における単語の重要度を算出し、この重要度に基づ
いて検索要求と検索された文書データの各々との適合度
を個々に算出する。従って、検索要求において重要な単
語で検索された文書データほど上位にランキングされ
る。

【００１５】請求項４記載の発明の文書検索装置では、
請求項１記載の発明において、適合度算出手段は、検索
された文書データにおける検索要求の単語の重要度を算
出し、この重要度に基づいて検索要求と検索された文書
データの各々との適合度を個々に算出する。従って、重
要な単語が頻繁に出現する文書データほど上位にランキ
ングされる。

【００１６】請求項５記載の発明の文書検索装置では、
請求項１，２，３または４記載の発明において、検索要
求の単語の有無を検索された文書データに対して照合す
る結果照合手段を設けた。従って、検索要求の単語の文
字は存在しても単語は存在しない文書データが検索結果
から排除される。

【００１７】請求項６記載の発明の文書検索装置では、
請求項１，２または３記載の発明において、検索する文
書データの要望個数を設定する個数設定手段を設け、検
索要求の単語の有無を文書データに対して照合する結果
照合手段を設け、この結果照合手段の処理を実行しない
状態で文字成分表に従って検索された文書データの各々
と検索要求との適合度を仮適合度として適合度算出手段
により個々に算出させ、この仮適合度に従って結果ラン
キング手段により検索された文書データを仮ランキング
させ、この仮ランキングの上位の文書データに対して前
記結果照合手段により検索要求の単語の有無を照合さ
せ、この照合の結果に従って前記適合度算出手段により
文書データと検索要求との本適合度を算出させ、この本
適合度に従って前記結果ランキング手段により仮ランキ
ングされた文書データを本ランキングさせ、この本ラン
キングされた文書データが要望個数となるまで仮ランキ
ングの順位に従って処理を繰り返させる。従って、最初
は文書データの識別子のみが文字成分表から検索され、
このように識別子として検索された文書データが検索要
求との仮適合度に従って仮ランキングされる。この仮ラ
ンキングの順番で文書データの記載内容がデータベース
から読み出され、検索要求の単語の有無に従って要望個
数だけ本ランキングされる。

【００１８】請求項７記載の発明の文書検索装置では、
請求項４記載の発明において、検索する文書データの要
望個数を設定する個数設定手段を設け、文字成分表に従
って検索された文書データの各々と検索要求との適合度
を仮適合度として適合度算出手段により個々に算出さ
せ、この仮適合度に従って結果ランキング手段により検
索された文書データを仮ランキングさせ、この仮ランキ
ングの上位の文書データに対して検索要求の単語の出現
回数を積算する単語積算手段を設け、この単語の出現回
数に従って前記適合度算出手段により文書データと検索
要求との本適合度を算出させ、この本適合度に従って前
記結果ランキング手段により仮ランキングされた文書デ
ータを本ランキングさせ、この本ランキングされた文書
データが要望個数となるまで仮ランキングの順位に従っ
て処理を繰り返させる。従って、最初は文書データの識
別子のみが文字成分表から検索され、このように識別子
として検索された文書データが検索要求との仮適合度に
従って仮ランキングされる。この仮ランキングの順番で
文書データの記載内容がデータベースから読み出され、
検索要求の単語の出現回数に従って要望個数だけ本ラン
キングされる。

【００１９】請求項８記載の発明の文書検索装置では、
請求項７記載の発明において、単語積算手段は、文書デ
ータから積算する単語の出現回数に上限値が予め設定さ
れている。従って、単語の重要度は精度が低下すること
なく上限値が設定され、この重要度の上限値を次の仮適
合度に乗算した数値より本適合度が大きければ、その文
書データは本ランキングされる。

【００２０】請求項９記載の発明の文書検索方法は、多
数の文書データを識別子と共にデータベースに予め格納
しておき、文字成分表の文字の一覧に文書データの識別
子を予め設定しておき、文書データの検索要求の入力を
受け付け、この入力された検索要求の単語の文字が出現
する文書データを前記文字成分表に従って前記データベ
ースから検索し、この検索された文書データの各々と検
索要求との適合度を個々に算出し、この適合度に対応し
て検索された文書データをランキングし、このランキン
グされた文書データを出力するようにした。従って、文
字成分表に従って文書データは高速に検索され、この検
索された文書データが検索要求との適合度に従ってラン
キングされる。

【００２１】請求項１０記載の発明の文書検索方法は、
多数の文書データを識別子と共にデータベースに予め格
納しておき、文字成分表の文字の一覧に文書データの識
別子を予め設定しておき、検索する文書データの要望個
数を設定し、文書データの検索要求の入力を受け付け、
この入力された検索要求の単語の文字が出現する文書デ
ータの識別子を前記文字成分表から検索し、この識別子
として検索された文書データの各々と検索要求との仮適
合度を個々に算出し、この仮適合度に対応して検索され
た文書データを仮ランキングし、この仮ランキングの上
位の文書データを前記データベースから読み出し、この
読み出された文書データに対して検索要求の単語の出現
回数を積算し、この単語の出現回数に従って文書データ
と検索要求との本適合度を算出し、この本適合度に従っ
て仮ランキングされた文書データを本ランキングさせ、
この本ランキングされた文書データが要望個数となるま
で仮ランキングの順位に従って処理を繰り返し、この本
ランキングされた要望個数の文書データを出力するよう
にした。文書データは識別子のみが文字成分表から検索
され、このように識別子として検索された文書データが
検索要求との仮適合度に従って仮ランキングされる。こ
の仮ランキングの順番で文書データの記載内容がデータ
ベースから読み出され、検索要求の単語の出現回数に従
って要望個数だけ本ランキングされる。

【００２２】請求項１１記載の発明の文書検索装置は、
多数の文書データが識別子と共に予め格納されたデータ
ベースと、文字の一覧に文書データの識別子が予め設定
された文字成分表と、文書データの検索要求の入力を受
け付ける要求入力手段と、検索する文書データの要望個
数を設定する個数設定手段と、入力された検索要求の単
語の文字が出現する文書データの識別子を前記文字成分
表から検索する文書検索手段と、この識別子として検索
された文書データの各々と検索要求との仮適合度を個々
に算出する仮適合度算出手段と、この仮適合度に従って
検索された文書データを仮ランキングさせる仮ランキン
グ手段と、この仮ランキングの上位の文書データの記載
内容を前記データベースから読み出して検索要求の単語
の有無を照合する結果照合手段と、この照合の結果に従
って文書データと検索要求との本適合度を算出する本適
合度算出手段と、この本適合度に従って仮ランキングさ
れた文書データを本ランキングさせる本ランキング手段
と、この本ランキングされた文書データが要望個数とな
るまで仮ランキングの順位に従って処理を繰り返させる
動作制御手段と、本ランキングされた要望個数の文書デ
ータを出力する結果出力手段とを有する。従って、最初
は文書データの識別子のみが文字成分表から検索され、
このように識別子として検索された文書データが検索要
求との仮適合度に従って仮ランキングされる。この仮ラ
ンキングの順番で文書データの記載内容がデータベース
から読み出され、検索要求の単語の有無に従って要望個
数だけ本ランキングされる。

【００２３】請求項１２記載の発明の文書検索装置は、
多数の文書データが識別子と共に予め格納されたデータ
ベースと、文字の一覧に文書データの識別子が予め設定
された文字成分表と、文書データの検索要求の入力を受
け付ける要求入力手段と、検索する文書データの要望個
数を設定する個数設定手段と、入力された検索要求の単
語の文字が出現する文書データの識別子を前記文字成分
表から検索する文書検索手段と、この識別子として検索
された文書データの各々と検索要求との仮適合度を個々
に算出する仮適合度算出手段と、この仮適合度に従って
検索された文書データを仮ランキングさせる仮ランキン
グ手段と、この仮ランキングの上位の文書データの記載
内容を前記データベースから読み出して検索要求の単語
の出現回数を積算する単語積算手段と、この単語の出現
回数に従って文書データと検索要求との本適合度を算出
する本適合度算出手段と、この本適合度に従って仮ラン
キングされた文書データを本ランキングさせる本ランキ
ング手段と、この本ランキングされた文書データが要望
個数となるまで仮ランキングの順位に従って処理を繰り
返させる動作制御手段と、本ランキングされた要望個数
の文書データを出力する結果出力手段とを有する。従っ
て、最初は文書データの識別子のみが文字成分表から検
索され、このように識別子として検索された文書データ
が検索要求との仮適合度に従って仮ランキングされる。
この仮ランキングの順番で文書データの記載内容がデー
タベースから読み出され、検索要求の単語の出現回数に
従って要望個数だけ本ランキングされる。

【００２４】請求項１３記載の発明の文書検索装置で
は、請求項１１または１２記載の発明において、本ラン
キング手段は、比較する仮適合度と本適合度との少なく
とも一方に所定の定数を乗算する。従って、定数の乗算
により仮適合度と本適合度との比較に基づいて文書デー
タが本ランキングされる割合が促進されるので、要望個
数の文書データが迅速に本ランキングされる。

【００２５】請求項１４記載の発明の文書検索装置で
は、請求項１１または１２記載の発明において、検索要
求の単語を所定条件に従って選別する単語選別手段を設
け、仮適合度算出手段は、選別された単語のみに基づい
て仮適合度を算出し、本適合度算出手段は、選別された
単語のみに基づいて本適合度を算出する。従って、検索
された文書データの一部しか仮適合度と本適合度とを算
出せず、仮適合度と本適合度との計算量も減少するの
で、その処理負担が軽減されて処理速度が向上する。

【００２６】請求項１５記載の発明の文書検索装置で
は、請求項１１または１２記載の発明において、検索要
求の単語を所定条件に従って選別する単語選別手段を設
け、仮適合度算出手段は、選別された単語が出現する文
書データのみ全部の単語に基づいて仮適合度の算出を実
行する。従って、検索された文書データの一部しか仮適
合度と本適合度とを算出しないので、その処理負担が軽
減されて処理速度が向上し、検索要求の全部の単語に基
づいて仮ランキングと本ランキングとを実行するので、
ユーザの検索要求に良好に対応して文書データが検索さ
れる。

【００２７】請求項１６記載の発明の文書検索装置で
は、請求項１４記載の発明において、仮適合度算出手段
は、選別されない単語に関するパラメータに所定の定数
を乗算する。従って、単語の選別に起因して仮適合度が
本来の数値より増加する場合でも、これが定数の乗算に
より本来の数値に近似する。

【００２８】請求項１７記載の発明の文書検索装置で
は、請求項１４記載の発明において、単語選別手段は、
単語の重要度を各々の構成文字に基づいて算出し、この
重要度に従って単語を選別する。従って、文書データの
検索に適切な単語が容易に選別され、単語を選別するた
めに文字成分表による検索結果を算出する必要がない。

【００２９】請求項１８記載の発明の情報記憶媒体は、
多数の文書データが識別子と共に予め格納されたデータ
ベースと、文字の一覧に文書データの識別子が予め設定
された文字成分表と、検索要求の文字に基づいた文書デ
ータの検索等の各種のデータ処理をプログラムに従って
実行する情報処理装置と、この情報処理装置を動作させ
るプログラムが書き込まれた情報記憶媒体と、を備えた
文書検索装置において、外部入力される検索要求の単語
の文字が出現する文書データを前記文字成分表に従って
前記データベースから検索すること、検索された文書デ
ータの各々と検索要求との適合度を個々に算出するこ
と、適合度に対応して検索された文書データをランキン
グさせて外部出力すること、が書き込まれている。従っ
て、この情報記憶媒体に書き込まれたプログラムにより
情報処理装置を動作させれば、文字成分表に従って文書
データが高速に検索され、この検索された文書データが
検索要求との適合度に従ってランキングされる。

【００３０】請求項１９記載の発明の情報記憶媒体は、
多数の文書データが識別子と共に予め格納されたデータ
ベースと、文字の一覧に文書データの識別子が予め設定
された文字成分表と、検索要求の文字に基づいた文書デ
ータの検索等の各種のデータ処理をプログラムに従って
実行する情報処理装置と、この情報処理装置を動作させ
るプログラムが書き込まれた情報記憶媒体と、を備えた
文書検索装置において、外部入力される検索要求の単語
の文字が出現する文書データの識別子を前記文字成分表
から検索すること、この識別子として検索された文書デ
ータの各々と検索要求との仮適合度を個々に算出するこ
と、この仮適合度に従って検索された文書データを仮ラ
ンキングさせること、この仮ランキングの上位の文書デ
ータの記載内容を前記データベースから読み出して検索
要求の単語の有無を照合すること、この照合の結果に従
って文書データと検索要求との本適合度を算出するこ
と、この本適合度に従って仮ランキングされた文書デー
タを本ランキングさせること、この本ランキングされた
文書データが要望個数となるまで仮ランキングの順位に
従って処理を繰り返すこと、が書き込まれている。従っ
て、この情報記憶媒体に書き込まれたプログラムにより
情報処理装置を動作させれば、最初は文書データの識別
子のみが文字成分表から検索され、このように識別子と
して検索された文書データが検索要求との仮適合度に従
って仮ランキングされる。この仮ランキングの順番で文
書データの記載内容がデータベースから読み出され、検
索要求の単語の有無に従って要望個数だけ本ランキング
される。

【００３１】請求項２０記載の発明の情報記憶媒体は、
多数の文書データが識別子と共に予め格納されたデータ
ベースと、文字の一覧に文書データの識別子が予め設定
された文字成分表と、検索要求の文字に基づいた文書デ
ータの検索等の各種のデータ処理をプログラムに従って
実行する情報処理装置と、この情報処理装置を動作させ
るプログラムが書き込まれた情報記憶媒体と、を備えた
文書検索装置において、入力された検索要求の単語の文
字が出現する文書データの識別子を前記文字成分表から
検索すること、この検索された文書データの各々と検索
要求との仮適合度を個々に算出すること、この仮適合度
に従って検索された文書データを仮ランキングさせるこ
と、この仮ランキングの上位の文書データの記載内容を
前記データベースから読み出して検索要求の単語の出現
回数を積算すること、この単語の出現回数に従って文書
データと検索要求との本適合度を算出すること、この本
適合度に従って仮ランキングされた文書データを本ラン
キングさせること、この本ランキングされた文書データ
が要望個数となるまで仮ランキングの順位に従って処理
を繰り返すこと、が書き込まれている。従って、この情
報記憶媒体に書き込まれたプログラムにより情報処理装
置を動作させれば、最初は文書データの識別子のみが文
字成分表から検索され、このように識別子として検索さ
れた文書データが検索要求との仮適合度に従って仮ラン
キングされる。この仮ランキングの順番で文書データの
記載内容がデータベースから読み出され、検索要求の単
語の出現回数に従って要望個数だけ本ランキングされ
る。

【００３２】

【発明の実施の形態】本発明の文書検索装置の実施の第
一の形態を図１ないし図５に基づいて以下に説明する。
まず、本実施の形態の文書検索装置１は、図１ないし図
３に示すように、データ処理装置２と電子ファイルシス
テム３とを有している。前記データ処理装置２は、既存
のマイクロコンピュータやワークステーションからな
り、前記電子ファイルシステム３は、ＨＤ(Hard Disk）
やＭＯ(Magneto Optical Disk)等の大容量の記憶デバイ
スのドライブ装置を主体とする。

【００３３】前記データ処理装置２は、図２に示すよう
に、データ処理装置としてプロセッサ４を有しており、
このプロセッサ４には、バスライン５により、情報記憶
媒体であるメモリ６、マウス７を有するキーボード８、
ディスプレイ９、ＦＤＤ(Floppy Disk Drive）１０、Ｃ
Ｄ−ＲＯＭ(Compact Disk-Read Only Memory）ドライブ
１１、通信Ｉ／Ｆ(Interface）１２が接続されている。

【００３４】前記メモリ６は、例えば、ＲＡＭ(Random
Access Memory)、ＲＯＭ(Read OnlyMemory)、ＨＤ、等
からなり、各種のプログラムがソフトウェアとして予め
格納されている。前記プロセッサ４は、ＣＰＵ(Central
Processing Unit）を有しており、適正なプログラムに
従って各種のデータ処理を実行する。なお、ここでは必
要なプログラムが前記メモリ６に予め書き込まれている
ものとして説明するが、このようなプログラムを情報記
憶媒体であるＦＤ１３やＣＤ−ＲＯＭ１４からインスト
ールすることも可能である。

【００３５】前記データ処理装置２の通信Ｉ／Ｆ１２に
は、接続コネクタ１５により前記電子ファイルシステム
３が接続されており、この電子ファイルシステム３に
は、データベース２１と文字成分表２２とが構築されて
いる。前記データベース２１には、文書データが識別子
と共に電子ファイルとして格納されており、前記文字成
分表２２には、一覧の文字毎に文書データの識別子が設
定されている。

【００３６】前記プロセッサ４は、前記キーボード８か
ら入力される検索要求や前記メモリ６に予め設定された
プログラム等に従って、前記電子ファイルシステム３か
ら文書データを検索して前記ディスプレイ９に表示させ
る。このような処理を実行するため、本実施の形態の文
書検索装置１は、図１に模式的に示すように、要求入力
手段２３、要求解釈手段２４、文書検索手段２５、適合
度算出手段２６、結果ランキング手段２７、結果出力手
段２８、を有している。

【００３７】前記要求入力手段２３は、文書データの検
索要求の入力を受け付け、前記要求解釈手段２４は、検
索要求を検索条件に解釈する。より具体的には、検索要
求が前記キーボード８の手動操作により自然言語の文字
列として入力されると、前記メモリ６に設定されたプロ
グラムに従って前記プロセッサ４が所定のデータ処理を
実行することにより、検索要求が言語解析されて検索条
件が生成される。

【００３８】前記文書検索手段２５は、前記メモリ６の
プログラムに従って前記プロセッサ４が動作することに
より、検索条件の単語の文字が出現する文書データを前
記文字成分表２２に従って前記データベース２１から検
索する。つまり、検索条件の単語を文字に分解して前記
文字成分表２２から文書データの識別子を検出し、この
識別子の文書データを前記データベース２１から読み出
す。この時、検索条件に演算子が含まれるならば、この
演算子の内容が文書データの検索に反映される。

【００３９】また、前記文書検索手段２５には、その一
部として結果照合手段（図示せず）が設けられており、
この結果照合手段は、検索条件の単語の有無を検索され
た文書データに対して照合する。つまり、前述のように
文字単位で文書データを検索すると、検索条件の単語の
文字は存在するが単語は存在しない文書データまで検索
されるので、結果照合手段は、検索された文書データに
対して検索条件の単語の存在をパターンマッチングによ
り確認する。

【００４０】前記適合度算出手段２６は、前記メモリ６
のプログラムに従って前記プロセッサ４が動作すること
により、前記データベース２１における検索要求の単語
の重要度を算出し、この重要度に基づいて検索要求と検
索された文書データの各々との適合度を個々に算出す
る。前記結果ランキング手段２７は、前記メモリ６のプ
ログラムに従って前記プロセッサ４が動作することによ
り、適合度の順番に検索された文書データをソートする
ことにより、検索された文書データをランキングする。
前記結果出力手段２８は、前記メモリ６のプログラムに
従って前記プロセッサ４が動作することにより、ランキ
ングされた文書データを前記ディスプレイ９の表示によ
り出力する。

【００４１】上述のような各種手段２３〜２８は、必要
により前記キーボード８や前記ディスプレイ９等のハー
ドウェアを利用して実現されるが、その主体は前記メモ
リ６に格納されたプログラムに従って前記プロセッサ４
が所定のデータ処理を実行することにより実現される。
このため、前記メモリ６には、前記キーボード８の操作
による文書データの検索要求の入力を受け付けること、
この検索要求を言語解析して検索条件を生成すること、
検索条件の単語の文字が出現する文書データを前記文字
成分表２２に従って前記データベース２１から検索する
こと、検索条件の単語の有無を検索された文書データに
対して照合すること、検索要求と検索された文書データ
の各々との適合度を個々に算出すること、適合度の順番
に検索された文書データをランキングすること、ランキ
ングされた文書データを前記ディスプレイ９の表示によ
り出力すること、等を前記プロセッサ４に実行させるプ
ログラムが書き込まれている。

【００４２】より具体的には、前記メモリ６に格納され
たプログラム３１は、図４に示すように、ユーザインタ
ーフェース３２、言語解析部３３、全文検索部３４、ラ
ンキング部３５、等をモジュールとして有しており、こ
れらのモジュールを組み合わせた構造として構築されて
いる。

【００４３】前記ユーザインターフェース３２は、ユー
ザとのインタラクションを司るモジュールであり、これ
に従って前記プロセッサ４が動作することにより、ユー
ザが前記キーボード８を手動操作して入力する各種デー
タが受け付けられ、各種データが前記ディスプレイ９の
表示出力によりユーザに提示される。つまり、前記要求
入力手段２３による検索要求の入力受付や、前記結果出
力手段２８による文書データの表示出力が実行される。

【００４４】言語解析部３３は、日本語の自然言語を解
析するモジュールであり、そのプログラムに従って前記
プロセッサ４が動作することにより、自然言語の文字列
から単語が抽出され、その単語の各々の品詞と相互の係
り受け関係とが判定されるので、ここに前記要求解釈手
段２４による検索条件の生成動作が実行される。

【００４５】前記全文検索部３４は、前記文字成分表２
２を利用して文書データを検索するモジュールであり、
そのプログラムに従って前記プロセッサ４が動作するこ
とにより、前記データベース２１から検索条件の単語の
文字が出現する文書データが検索されるので、ここに前
記文書検索手段２５による検索動作が実行される。

【００４６】前記ランキング部３５は、検索結果の文書
データをランキングするモジュールであり、そのプログ
ラムに従って前記プロセッサ４が動作することにより、
検索要求と検索結果との適合度が算出され、これに対応
して検索結果の文書データがソートされる。つまり、前
記適合度算出手段２６による適合度の算出動作と、前記
結果ランキング手段２７による文書データのランキング
動作とが実行される。

【００４７】このような構成において、本実施の形態の
文書検索装置１は、ユーザから文書データの検索要求が
入力されると、文書データを検索してユーザに出力す
る。そこで、この処理動作を図５のフローチャートに基
づいて以下に順次説明する。

【００４８】まず、ユーザが文書データの検索要求を考
え、これを自然言語によりキーボード８の手動操作によ
り要求入力手段２３に入力すると、要求解釈手段２４
が、言語解析により検索要求を検索条件に変換する。こ
のような変換処理には既存の各種方法が適用されるが、
例えば、形態素解析と構文解析とにより、検索要求から
自立語と付属語とを抽出すると共に、検索要求の文節の
係り受け関係を解析し、付属語の各々を演算子に個々に
変換し、対応する自立語と組み合わせることにより、検
索条件を生成する。なお、このような処理動作は、例え
ば、特願平7-146680号、特開平5-298353号公報、特開平
6-149870号公報、特開平6-162077号公報、等に詳述され
ている。

【００４９】上述のように検索条件を生成する場合、採
用する自立語も品詞に従って取捨選択することが好まし
く、例えば、名詞、サ変名詞、形容動詞の語幹、数詞、
助数詞、等が好ましい。上述のように形態素解析と構文
解析とを利用して言語解析を実現すれば、単語の抽出に
必要な辞書の容量を削減して処理を軽減することができ
る。このような処理動作を実現した既存の日本語解析ツ
ールとしては、例えば、“簡易日本語解析系ＱＪＰ”が
ある。

【００５０】このＱＪＰを言語解析に採用した場合は単
語として複合語が抽出されるので、これを単語に分割す
る処理が必要となるが、これは文字レベルの統計情報に
より容易に実現できる。つまり、二文字間が単語の切れ
目である確率（分割確率）は、前側の文字が単語の末尾
である確率（末尾確率）と、後側の文字が単語の先頭で
ある確率（先頭確率）との積であると仮定できる。これ
らの先頭確率と末尾確率とは、コーパスにおける各文字
が単語の先頭や末尾となる出現頻度を、その出現頻度で
除算することにより、統計的に求めておくことができ
る。

【００５１】そこで、文字の各々に先頭確率と末尾確率
とを求めてメモリ６に格納しておくとともに、分割確率
の閾値を適当に設定しておく。ＱＪＰにより自然言語の
検索要求から複合語が抽出されると、その二文字の分割
確率を順番に算出して閾値と個々に比較すれば、複合語
を単語に分割できる。例えば、“政治改革法案”なる複
合語の分割確率が“政 0.018 治 0.163 改 0.039 革
0.142 法 0.027 案”となる場合、閾値が“0.1 ”な
らば“政治”“改革”“法案”なる単語を獲得できる。

【００５２】つぎに、文書検索手段２５は、検索条件の
単語を文字に分解して文字成分表２２から対応する文書
データの識別子を検出し、この識別子の文書データをデ
ータベース２１から読み出す。この検索処理にも既存の
各種手法を適用することができ、例えば、特開平5-3247
22号公報、特願平6-121385号、特願平6-241658号、等に
詳述された手法を適用することができる。このように文
字成分表２２を利用した検索処理では、検索条件に“管
理”なる単語が存在する場合、“管”“理”の文字の両
方が出現する文書データが検索される。なお、検索条件
は複数の単語を演算子で連結した形態に形成されるの
で、この演算子の内容が文書データの検索に反映され
る。

【００５３】このように文字単位で検索された文書デー
タには、検索条件の単語の文字は存在するが単語は存在
しない文書データも含まれる可能性があるので、結果照
合手段が検索された文書データに対して検索条件の単語
の有無をパターンマッチングにより照合する。例えば、
検索条件の“管理”なる単語に対応して“管”“理”の
文字の両方が出現する文書データが検索された場合、こ
の文書データに“管理”なる単語が存在することを確認
する。

【００５４】このような単語の存在が文書データから確
認されない場合、その単語のみで文書データが検索され
ていたならば、この文書データは検索結果から排除さ
れ、他の単語でも検索されていたならば、その単語でも
同様な照合を実行する。このような単語の照合を文書デ
ータに実行する過程で、その単語単位で照合された文書
データの個数を集計してメモリ６に一時記憶させる。

【００５５】つぎに、適合度算出手段２６がデータベー
ス２１における検索要求の単語の重要度を算出し、この
重要度に基づいて検索要求と検索された文書データの各
々との適合度を個々に算出する。例えば、データベース
２１において、所定の単語が出現する文書データが多数
ならば、その単語はデータベース２１において重要であ
る可能性が高い。

【００５６】そこで、データベース２１における文書デ
ータの総数を“Ｎ”、このうち単語“ｔ”が存在する文
書データの個数を“f_a(ｔ）”とし、この単語“ｔ”の
重要度“ｖ_a(ｔ)”を、ｖ_a(ｔ)＝log[Ｎ／f_a(ｔ)] …（１）として算出する。そして、検索条件“ｑ”にｎ個の単語
“ｔ₁，ｔ₂，…，ｔ_n”が含まれる場合、検索された文
書データ“ｄ”に単語“ｔ”が含まれるか含まれないか
の二値データを“δ_d(ｔ)”(含まれるならば“１”、含
まれないならば“０”）とし、検索条件“ｑ”と検索さ
れた文書データ“ｄ”との適合度“ｒ_d(ｑ)”を以下の
ように算出する。

【００５７】

【数１】

【００５８】つぎに、結果ランキング手段２７が、適合
度の順番に検索された文書データをソートしてランキン
グし、結果出力手段２８が、ランキングされた文書デー
タをディスプレイ９の表示により出力する。この場合、
ディスプレイ９には、検索された文書データの識別子や
題名等がランキングの順番に表示されるので、例えば、
マウス７の手動操作により所定の題名をクリックすれ
ば、その文書データの記載内容が表示される。

【００５９】本実施の形態の文書検索装置１は、上述の
ように文書データを文字成分表２２により文字単位で検
索するので、文書データにキーワードを付与しておく必
要がなく、簡易な処理で文書データを高速に検索するこ
とができる。それでいて、検索された文書データが検索
要求との適合度の順番で表示されるので、検索された文
書データの個数が膨大でも、ユーザは検索要求に良好に
整合した文書データを簡易に見付けることができる。特
に、検索要求と検索された文書データの各々との適合度
には、データベース２１における検索要求の単語の重要
度も反映されているので、重要性が高いことが予想され
る文書データを優先的にユーザに提供することができ
る。

【００６０】なお、本発明は上述した文書検索装置１に
限定されるものではなく、各種の変形を許容する。例え
ば、上述した文書検索装置１では、メモリ６にソフトウ
ェアとして格納されているプログラム３１に従ってプロ
セッサ４が動作することにより各種手段２４〜２７等を
実現することを例示したが、このような各種手段２４〜
２７等の各々を固有のハードウェアとして製作すること
も可能であり、一部をソフトウェアとしてメモリ６に格
納するとともに一部をハードウェアとして製作すること
も可能である。このようなソフトウェアを格納したメモ
リ６や各種手段２４〜２７のハードウェアを、ファーム
ウェアにより製作することも可能である。

【００６１】さらに、前述のようにプログラムをＦＤ１
３やＣＤ−ＲＯＭ１４等の情報記憶媒体に格納してお
き、この情報記憶媒体からデータ処理装置２のメモリ６
にプログラムをインストールすることでも、各種手段２
４〜２７等を実現することができる。このような各種手
段２４〜２７等を実現するプログラムを、複数のソフト
ウェアの組み合わせにより実現することも可能であり、
この場合、単体の製品となる情報記憶媒体には必要最小
限のソフトウェアのみを格納しておけば良い。

【００６２】例えば、オペレーティングシステムが実装
されているコンピュータ装置に情報記録媒体によりアプ
リケーションソフトを提供する場合、各種手段２４〜２
７等を実現するプログラム３１は、アプリケーションソ
フトとオペレーティングシステムとの組み合わせで実現
されるので、オペレーティングシステムに依存する処理
動作のプログラムはアプリケーションソフトの情報記憶
媒体から省略される。

【００６３】また、このように情報記憶媒体に書き込ん
だプログラムをコンピュータ装置に提供する手法は、そ
の情報記憶媒体をコンピュータ装置に直接に装填するこ
とに限定されない。例えば、上述のようなプログラムを
ホストコンピュータの情報記憶媒体に書き込み、このホ
ストコンピュータを通信ネットワークにより端末コンピ
ュータに接続し、ホストコンピュータからデータ通信に
より端末コンピュータにプログラムを提供することも可
能である。

【００６４】この場合、端末コンピュータが自身の情報
記憶媒体にプログラムをダウンロードした状態でスタン
ドアロンのデータ処理を実行することも可能であるが、
プログラムをダウンロードすることなくホストコンピュ
ータとのリアルタイムのデータ通信によりデータ処理を
実行することも可能である。この場合、ホストコンピュ
ータと端末コンピュータとを通信ネットワークにより接
続したシステム全体が本発明の文書検索装置１に相当す
ることになる。

【００６５】また、上述した文書検索装置１では、適合
度算出手段２６が検索された文書データと検索要求との
適合度を、データベース２１における検索要求の単語の
重要度に基づいて算出することを例示したが、これを検
索要求における単語の重要度や、検索された文書データ
における検索要求の単語の重要度に基づいて算出するこ
とも可能である。

【００６６】例えば、ユーザが作成した検索要求に所定
の単語が複数出現する場合、その単語は重要である可能
性が高く、これは特に検索要求が自然言語で作成される
場合に顕著である。これに着目して検索要求における単
語“ｔ”の重要度“ｖ_q(ｔ）”を算出する場合は、検索
条件“ｑ”に単語“ｔ”が出現する回数“ｆ_q(ｔ）”を
積算し、ｖ_q(ｔ)＝ｆ_q(ｔ)／[Ｋ_q＋ｆ_q(ｔ)] …（３）として算出する。なお、上記数式の“Ｋ_q（＞０)”は、
単語“ｔ”の出現回数“ｆ_q(ｔ）”を正規化する係数で
ある。そして、検索条件“ｑ”と検索された文書データ
“ｄ”との適合度“ｒ_d(ｑ)”は、以下のように算出さ
れる。

【００６７】

【数２】

【００６８】この場合は検索条件“ｑ”に単語“ｔ”が
出現する回数“ｆ_q(ｔ）”を算出する処理が付加される
が、これは検索要求を検索条件に変換する過程で簡易に
積算することができる。

【００６９】また、ユーザが作成した検索要求の単語が
検索された文書データに頻繁に出現する場合も、その単
語は重要である可能性が高い。これに着目して検索され
た文書データ“ｄ”における単語“ｔ”の重要度“ｖ
_d(ｔ）”を算出する場合は、検索された文書データ
“ｄ”に単語“ｔ”が出現する回数“ｆ_d(ｔ）”を積算
し、ｖ_d(ｔ)＝ｆ_d(ｔ)／[Ｋ_d＋ｆ_d(ｔ)] …（５）として算出する。なお、上記数式の“Ｋ_d（＞０)”も、
単語“ｔ”が出現する回数“ｆ_d(ｔ）”を正規化する係
数である。そして、検索条件“ｑ”と検索された文書デ
ータ“ｄ”との適合度“ｒ_d(ｑ)”は、以下のように算
出される。

【００７０】

【数３】

【００７１】なお、この数式(６)には、前述した数式
(２)(４)とは相違して、検索された文書データ“ｄ”に
おける単語“ｔ”の有無を示す二値データ“δ_d(ｔ)”
が省略されている。これは二値データ“δ_d(ｔ)”が
“０”の場合、検索された文書データ“ｄ”における単
語“ｔ”の重要度“ｖ_d(ｔ）”も“０”なので、“δ
_d(ｔ)”を数式(６)に設定する必要がないためである。

【００７２】上述のように検索された文書データ“ｄ”
における単語“ｔ”の重要度“ｖ_d(ｔ）”を算出する場
合は、検索された文書データ“ｄ”に単語“ｔ”が出現
する回数“ｆ_d(ｔ）”を算出する必要があるが、これは
検索条件“ｑ”の単語が存在しない文書データを結果照
合手段が検索された文書データ“ｄ”を単語で照合する
過程で簡易に積算される。

【００７３】さらに、上述のような“データベース２１
における検索要求の単語の重要度”“検索要求における
単語の重要度”“検索された文書データにおける検索要
求の単語の重要度”なる三要素を組み合わせることも可
能である。これは“ Robertson”モデルに相当し、検索
精度が良好であることが確認されている。

【００７４】また、上述した各種の処理においては、検
索された文書データにおける検索条件の単語の有無を結
果照合手段で照合することにより、文字成分表２２を利
用した高速な文書検索の精度を向上させることを例示し
たが、このような処理を省略して動作速度を向上させる
ことも可能である。その場合、検索要求の単語の文字は
存在しても単語が存在しない文書データまで検索される
ことが問題となるが、その割合は文字成分表２２を利用
した文字単位の文書検索で多くとも十数パーセント程度
である。

【００７５】その反面、検索された文書データに対して
検索要求の単語の有無を照合する結果照合手段の処理で
は、検索された文書データを読み出して単語のパターン
マッチングを実行する必要があり、検索された文書デー
タが膨大な場合や文書データが長大な場合は処理負担が
多大である。特に、本実施の形態の文書検索装置１で
は、文字成分表２２に基づいた文書検索はデータ処理装
置２の内部処理で高速に実行できるが、単語の照合を実
行するためには電子ファイルシステム３によるディスク
アクセス等の機械的な動作が必要となるので、これを省
略できれば全体の処理速度を大幅に向上させることがで
きる。

【００７６】このため、処理の速度より精度が要求され
る場合には、単語の照合を実行することが好ましく、処
理の精度より速度が要求される場合には、単語の照合を
省略することが好ましい。なお、従来の技術において前
述した隣接文字表を併用し、検索の精度を低下させるこ
となく速度を向上させることも可能である。

【００７７】ここで、隣接文字表を利用せずとも検索の
精度と速度とが両立する変形例を以下に説明する。ま
ず、文書検索装置１に個数設定手段を付加し、この個数
設定手段により検索する文書データの要望個数を設定す
る。これはデータ処理装置２に予め設定しておくこと
や、各種条件に基づいて発生させることや、ユーザによ
るキーボード８の操作により入力させることが可能であ
る。さらに、結果照合手段による単語の照合を実行しな
い状態で、結果ランキング手段２７により検索された文
書データを仮ランキングさせる。この仮ランキングされ
た文書データを上位から順番に、結果照合手段と結果ラ
ンキング手段２７とで交互に処理し、検索要求の単語が
照合された文書データを要望個数まで本ランキングす
る。

【００７８】より具体的に図６に基づいて以下に説明す
る。なお、図面では要望個数が六個の場合を想定してい
る。まず、ユーザが検索要求と共に文書データの要望個
数も文書検索装置１に入力すると、この文書検索装置１
は、検索要求に対応して文書検索手段２５により文字成
分表２２に基づいて文書データを検索する。この時、結
果照合手段による単語の照合は実行しないので、文書デ
ータの記載内容をデータベース２１から読み出す必要は
なく、文書データの識別子を検索するだけなので処理は
高速に完了する。

【００７９】この検索された文書データから適合度算出
手段２６により仮適合度を算出するが、上述のように文
書データの記載内容を読み出さないと単語の出現回数
“ｆ_d(ｔ）”を積算できず、数式(５)(６)により適合度
を計算することはできないので、ここでは“ｆ_d(ｔ）”
が不要な数式(１)(２)か数式(３)(４)により適合度を算
出する。

【００８０】なお、数式(２)の計算も、文書データの記
載内容を読み出して単語の有無を照合する必要がある
が、これは単語の全部の文字の有無で置換することが可
能であり、このような文字単位での照合ならば文字成分
表２２で可能である。この場合、多少の誤検索は発生す
るが、この誤検索は後述する本ランキングでの単語照合
により解消される。

【００８１】上述のようにして仮適合度が算出される
と、図６（ａ）に示すように、これに従って結果ランキ
ング手段２７により文書データを仮ランキングさせ、こ
の仮ランキングされた文書データに対して結果照合手段
により検索要求の単語の有無を照合する。この照合の結
果に従って適合度算出手段２６により本適合度を算出さ
せ、図６（ｂ）に示すように、この本適合度に従って結
果ランキング手段２７により仮ランキングされた文書デ
ータを本ランキングさせる。このような本適合度の算出
と本ランキングとを、仮ランキングの順位に従って順番
に実行することにより、仮ランキングされた文書データ
の上位の一部を省略するだけで本ランキングを管理す
る。

【００８２】つまり、本適合度は仮適合度から低下する
ことはあるが上昇することはないので、仮ランキングの
順番で文書データの本適合度を算出する場合、図６
（ａ）に示すように、ある文書データの本適合度が次の
文書データの仮適合度より高ければ、その文書データの
本ランキングを確定することができる。しかし、仮ラン
キングの順番で要望個数まで本適合度を算出しても、図
６（ｂ）に示すように、この本適合度が以後の文書デー
タの仮適合度より低いと、この文書データは本ランキン
グされない。

【００８３】つまり、図６（ｃ）に示すように、以後の
文書データの仮適合度より本適合度が高い文書データが
要望個数となれば、図６（ｄ）に示すように、これらの
文書データは本ランキングされるので、このように本ラ
ンキングされる文書データが要望個数となるまで仮ラン
キングより以後の処理を繰り返す。この場合、要望個数
の文書データには結果照合手段による単語の照合が実行
されるので検索の精度が良好であり、それでいて、この
処理は仮ランキングされた文書データの一部にしか実行
しないので検索の速度も良好であり、高精度に検索され
た文書データを必要な個数だけ高速に出力することがで
きる。

【００８４】なお、上述のように文書データの記載内容
を読み出さないと数式(５)(６)で適合度は算出できない
ので、ここでは数式(１)(２)か数式(３)(４)により適合
度を算出することを想定したが、これらの数式(１)〜
(４)により仮適合度を算出し、結果照合手段の処理を実
行してから数式(５)(６)により本適合度を算出すること
も可能である。この変形例を以下に簡略に説明する。な
お、上述した変形例と同一の部分は説明を省略する。

【００８５】この場合、単語を照合する結果照合手段の
一部等として単語積算手段を設け、この単語積算手段に
より、仮ランキングの上位の文書データに対し、検索要
求の単語の出現回数を積算できるようにする。そして、
適合度算出手段２６により数式(１)(２)か数式(３)(４)
で仮適合度を算出させて文書データを仮ランキングさ
せ、この仮ランキングされた上位の文書データに対し、
単語積算手段により検索要求の単語の出現回数“ｆ
_d(ｔ）”を積算させる。この単語の出現回数“ｆ
_d(ｔ）”が判明すれば、適合度算出手段２６により数式
(５)(６)で本適合度を算出し、この本適合度に従って仮
ランキングされた文書データを上位から順番に要望個数
まで本ランキングさせる。

【００８６】なお、数式(５)を鑑みると、仮ランキング
された文書データ“ｄ”における単語“ｔ”の重要度
“ｖ_d(ｔ）”は“１”より小さい。また、その計算に必
要な文書データ“ｄ”に単語“ｔ”が出現する回数“ｆ
_d(ｔ）”は、実際には多くとも数十程度であり、これが
増加するほど重要度“ｖ_d(ｔ）”の変化の割合は低下す
る。つまり、単語“ｔ”の出現回数“ｆ_d(ｔ）”に上限
値“Ｔ_d”を設定しても、重要度“ｖ_d(ｔ）”と適合度
“ｒ_d(ｑ)”とに対する影響は小さいことになる。この
場合、前述した数式(５)は、 if ｆ_d(ｔ）＜Ｔ_d ｖ_d(ｔ)＝ｆ_d(ｔ)／[Ｋ_d＋ｆ_d(ｔ)] otherwise ｖ_d(ｔ)＝Ｔ_d(ｔ)／[Ｋ_d＋Ｔ_d] …（７）なる数式(７)に置換される。

【００８７】このように仮ランキングされた文書データ
“ｄ”から積算する単語“ｔ”の出現回数“ｆ_d(ｔ）”
に上限値“Ｔ_d”を設定した場合、これは重要度“ｖ
_d(ｔ）”に“Ｖ_d ”なる上限値を設定したことに等し
い。この場合、“ｖ_d(ｔ）≦Ｖ_d＜１”の関係が成立す
るので、仮適合度“ｒ′_d(ｑ)”と本適合度“ｒ_d(ｑ)”
とにも、以下のような関係が成立する。

【００８８】

【数４】

【００８９】この関係を利用すると、仮ランキングの順
番で検出する次の文書データの仮適合度に本適合度を比
較しなくとも、次の仮適合度に重要度の上限値“Ｖ_d ”
を乗算した数値より大きい本適合度の文書データは本ラ
ンキングすることができるので、より迅速に処理を完了
することができる。

【００９０】ここで、この文書検索方法の実験結果を以
下に説明する。まず、この実験では文書データの仮ラン
キングに“Robertson ”モデルを基礎とした数式を利用
した。つまり、“Robertson ”モデルは、データベース
における単語の重要度、検索要求における単語の重要
度、検索された文書データにおける単語の重要度、の三
つを考慮して文書データをランキングする。しかし、本
実験の手法の場合、仮ランキングの時点では文書データ
の内容を読み出さないので、文書データにおける単語の
重要度を考慮する意味がない。そこで、この部分を“Ro
bertson ”モデルから省略した数式を作成し、これに基
づいて文書データを仮ランキングすることとした。この
数式を各種のパラメータとともに以下に示す。

【００９１】

【数５】

【００９２】ｆ(DB)：データベースにおいて検索要求の
単語が出現する文書データの個数ｆ(Ｑ)：検索要求において同一の単語が繰り返し出現す
る回数 δ(Ｄ)：文書データにおける検索要求の単語の有無を示
す二値Ｔ(Ｄ)：文書データから積算する単語の出現回数の上限
値＝∞，100，10，５，４，３，２，１Ｋ(Ｑ)：ｆ(Ｑ)の正規化係数＝０Ｋ(Ｄ)：文書データから積算する単語の出現回数の正規
化係数＝0.0，0.5，1.0，2.0 Ｎ：データベースに格納された文書データの個数＝55
1，163111 Ｒ：検索する文書データの個数＝０，10，20，50，10
0，200 Ｐ：ＱＪＰで複合語を分割する閾値＝0.00，0.05，…，
0.30，1.00 なお、ここでは“Ｋ(Ｑ)＝０”としているが、これは用
意した検索要求に単語を繰り返すものが存在しないため
である。

【００９３】この文書検索方法は検索の速度と精度とを
両立することが目的なので、この両方を実験でも評価し
たが、精度の評価には人間の判断が必要で、対象文書を
増加させることが困難なので、実際には速度と精度とは
別個に評価した。

【００９４】まず、検索精度を評価する実験では、デー
タベース２１の文書データとして新聞記事 551件(520K
B）を用意し、検索要求を20個用意した。この20個の検
索要求は、10個が単一の複合語（例えば「非自民連立政
権」等）で、他の10個は自然言語の文章（例えば「ロシ
ア政権再建に対する資金援助や技術援助」等）である。
検索精度は、検索結果における再現率(Recall)が“0.
0，0.1，…，1.0 ”での適合度(Precision）と、これら
11箇所における平均適合度(Average Precision）とを、
検索要求の各々に対して算出し、全文の検索要求に対す
る平均値で評価した。

【００９５】まず、基本性能に関係するパラメータであ
る“Ｋ(Ｄ)”と“Ｐ”との全部の組み合わせに対し、単
語の照合による誤検索の除去の有無における平均適合度
を比較した。その結果、当然ながら誤検索を除去した方
が最終的な精度は向上するが、その差は最大でも 0.015
で影響は小さいことが確認されたので、ここでは仮ラン
キングにおいて誤検索の除去を行わないものとした。

【００９６】つぎに、“Ｋ(Ｄ)”を変化させて検索精度
を調査したところ、図７に示すように、“Ｋ(Ｄ)＝0.0
”の場合のみ精度が低いことが判明した。“Ｋ(Ｄ)＝
0.0 ”の場合には文書データの単語の出現回数を検索結
果に反映させないので、これが検索精度に重要な要因で
あることになる。“Ｐ”の変化に注目すると、その数値
が増加するほど平均適合度が低下しているので、複合語
分割が必要であることになる。なお、“Ｐ＝0.0 ”の場
合には平均適合度の微少な減少が確認されるが、これは
前述のように複合語が過剰に分割されたためと考えられ
る。

【００９７】また、“Ｋ(Ｄ)，Ｐ”を各々変化させて再
現率と適合度との関係を調査した。まず、“Ｐ＝0.05”
に固定して“Ｋ(Ｄ)”を変化させたところ、図８に示す
ように、“Ｋ(Ｄ)”により再現率が小さい部分の適合度
が向上することが判明した。再現率が小さい部分はラン
キングの上位に相当するので、“Ｋ(Ｄ)”はランキング
上位の検索精度を改善できることになる。また、“Ｋ
(Ｄ)＝0.5 ”に固定して“Ｐ”を変化させたところ、図
９に示すように、“Ｐ”により再現率が大きい部分の適
合度が向上することが判明した。再現率が大きい部分は
ランキングの下位に相当するので、“Ｐ”はランキング
全体の検索洩れを軽減できることになる。

【００９８】つぎに、検索速度を評価する実験について
以下に説明する。この実験では、データベース２１の文
書データとして新聞記事163111件(160MB）を用意し、検
索要求は検索精度の評価実験と同一とした。“Ｋ(Ｄ)”
と“Ｐ”とを変化させて検索時間を調査したところ、図
１０に示すように、“Ｋ(Ｄ)”が大きいほど検索時間が
増加することが判明した。これは“Ｋ(Ｄ)”が大きいと
本ランキングを決定するためにアクセスする文書データ
の個数が増大し、この処理に必要な時間が増加するため
である。図１１に示すように、“Ｐ＝0.05”に固定して
“Ｋ(Ｄ)”を変化させても、“Ｋ(Ｄ)”の増加による処
理速度の低下が確認された。図１１のグラフは傾斜が本
ランキングの処理時間に対応しており、“Ｋ(Ｄ)”が大
きいほどグラフの傾斜も大きい。

【００９９】一方、図１０に示すように、“Ｐ”が大き
いほど検索時間が減少することが判明した。これは
“Ｐ”が大きいと検索要求の単語の出現回数が減少し、
仮ランキングの処理時間が減少するためである。図１２
に示すように、“Ｋ(Ｄ)＝0.50”に固定して“Ｐ”を変
化させても、“Ｐ”の増加による処理速度の向上が確認
された。図１２では横軸が“０”の場合の縦軸が仮ラン
キングの処理時間に相当するが、これも“Ｐ”が大きい
ほど短縮されている。

【０１００】さらに、検索する文書データの個数を“Ｒ
＝20”とした場合に、本ランキングの決定のためにアク
セスした文書データの個数も調査した。すると、最も検
索時間が短くなる“Ｐ＝1.00，Ｋ(Ｄ)＝0.00”の場合に
“34.1”となり、“Ｐ＝0.00，Ｋ(Ｄ)＝2.00”の場合に
“1755.0”となった。なお、完全なランキングには多大
な時間が必要となることも確認されており、データベー
スが大規模な場合、仮ランキングの上位から本ランキン
グを順番に逐次確定する本案の手法であれば、処理時間
を有効に短縮できることが確認された。

【０１０１】また、前述のように文書データから積算す
る単語の出現回数の上限値“Ｔ(Ｄ)”を設定し、“Ｋ
(Ｄ)”と“Ｐ”とを変化させて検索時間を調査したとこ
ろ、図１３に示すように、“Ｔ(Ｄ)≧５”の範囲では検
索精度に影響は略無く、これ以下の範囲では検索精度が
徐々に低下することが判明した。特に、“Ｔ(Ｄ)＝２〜
１”の部分では検索精度が極度に低下しているが、これ
は“Ｔ(Ｄ)＝１”が“Ｋ(Ｄ)＝０”に相当しているため
である。

【０１０２】さらに、上述のように“Ｔ(Ｄ)”を設定し
た状態で検索速度を調査したところ、図１４に示すよう
に、“100 ”以下程度の範囲では“Ｔ(Ｄ)”が小さいほ
ど検索時間が短縮されることが判明した。同様に、“Ｐ
＝0.05，Ｋ(Ｄ)＝0.50”に固定して検索件数と検索時間
との関係も調査したところ、図１５に示すように、やは
り“Ｔ(Ｄ)”が小さいほど検索時間が短縮されることが
確認された。

【０１０３】以上のような実験により、文書検索装置１
の文書検索方法において、各種のパラメータが各種の影
響を及ぼすことが確認できた。まず、自然言語の検索要
求から複合語を検出して単語に分割する閾値“Ｐ”は、
小さいほど検索精度が向上するが検索時間は低下するの
で、所望によりユーザが調節できることが好ましい。ま
た、文書データから積算する単語の出現回数の正規化係
数“Ｋ(Ｄ)”は、“０”以上の範囲で小さいほど検索精
度と検索速度との両方が向上する。文書データから積算
する単語の出現回数の上限値“Ｔ(Ｄ)”は、検索速度を
向上させるためには小さいほど良いが、あまり小さいと
検索精度が低下するので“５”程度が良い。

【０１０４】つぎに、本発明の文書検索装置の実施の第
二の形態を図１６および図１７に基づいて以下に説明す
る。なお、本実施の形態の文書検索装置４１に関し、前
述した文書検索装置１および変形例と同一の部分は、同
一の名称および符号を使用して詳細な説明は省略する。

【０１０５】まず、本実施の形態の文書検索装置４１
も、データ処理装置４２と電子ファイルシステム３とを
有しており、前記データ処理装置４２のハードウェアは
前述したデータ処理装置２と同一であるが、前記データ
処理装置４２のメモリ６にソフトウェアとして格納され
たプログラムが前述のデータ処理装置２とは一部相違し
ている。このデータ処理装置４２は、図１６に示すよう
に、要求入力手段２３、要求解釈手段２４、個数設定手
段５１、文書検索手段５２、仮適合度算出手段５３、仮
ランキング手段５４、単語積算手段５５、本適合度算出
手段５６、本ランキング手段５７、動作制御手段５８、
結果出力手段２８、を有している。

【０１０６】要求入力手段２３は、文書データの検索要
求の入力を受け付け、要求解釈手段２４は、検索要求を
検索条件に解釈する。前記個数設定手段５１は、キーボ
ード８の入力データとメモリ６のプログラムとに従って
プロセッサ４が動作することにより、文書データの検索
結果の要望個数の入力を受け付けて初期設定する。例え
ば、ユーザが六つの文書データを要望する場合、これを
“６”としてキーボード８により入力操作すれば、この
要望個数“６”がプロセッサ４によりメモリ６に格納さ
れる。

【０１０７】前記文書検索手段５２は、メモリ６のプロ
グラムに従ってプロセッサ４が動作することにより、検
索条件の単語の文字が出現する文書データの識別子を文
字成分表２２から検索する。ただし、この文書検索手段
５２は、結果照合手段を有しておらず、検索された文書
データに対して検索条件の単語の有無を照合しない。そ
こで、この文書検索手段５２による検索処理では、デー
タベース２１から文書データの記載内容を読み出すこと
までは行なわず、文字成分表２２から文書データの識別
子のみを高速に検索する。

【０１０８】前記仮適合度算出手段５３は、メモリ６の
プログラムに従ってプロセッサ４が動作することによ
り、データベース２１や検索要求における検索要求の単
語の重要度を算出し、この重要度に基づいて検索要求と
検索された文書データの各々との仮適合度を個々に算出
する。この仮適合度の算出は、前述した変形例と同様
に、文書データの記載内容の読み出しが不要な数式(１)
(２)か数式(３)(４)により実行される。前記仮ランキン
グ手段５４は、メモリ６のプログラムに従ってプロセッ
サ４が動作することにより、検索された文書データを仮
適合度の順番に仮ランキングする。

【０１０９】前記単語積算手段５５は、メモリ６のプロ
グラムに従ってプロセッサ４が動作することにより、文
書データの記載内容を仮ランキングの順番で読み出し、
その文書データにおける検索要求の単語の出現回数を積
算する。この単語積算手段５５の処理動作は、仮ランキ
ングされた文書データに対して上位から順番に実行さ
れ、この実行は前記動作制御手段５８により前記手段５
６，５７の処理動作とともに制御される。

【０１１０】前記本適合度算出手段５６は、メモリ６の
プログラムに従ってプロセッサ４が動作することによ
り、仮ランキングされた上位の文書データに対し、その
単語の積算個数に従って数式(５)(６)により検索要求と
の本適合度を個々に算出する。前記本ランキング手段５
７は、メモリ６のプログラムに従ってプロセッサ４が動
作することにより、仮ランキングされている文書データ
を本適合度の順番に本ランキングする。

【０１１１】前記動作制御手段５８は、メモリ６のプロ
グラムに従ってプロセッサ４が動作することにより、前
記手段５５〜５７の処理動作を仮ランキングされた文書
データの順番で繰り返させ、検索要求の要望個数まで文
書データを本ランキングさせる。結果出力手段２８は、
メモリ６のプログラムに従ってプロセッサ４が動作する
ことにより、本ランキングされた文書データをディスプ
レイ９の表示により出力する。

【０１１２】上述のような各種手段２３，２７，２８，
５１〜５８も、必要によりキーボード８やディスプレイ
９等を利用して実現されるが、その主体はメモリ６に格
納されたプログラムに従ってプロセッサ４が動作するこ
とにより実現される。このため、メモリ６には、プロセ
ッサ４を動作させる制御プログラムとして、キーボード
８の操作による検索要求の入力を受け付けること、この
検索要求を言語解析して検索条件を生成すること、検索
条件の単語の文字が出現する文書データの識別子を文字
成分表２２から検索すること、キーボード８の手動操作
による要望個数の入力を受け付けてメモリ６に設定する
こと、識別子として検索された文書データの各々と検索
要求との仮適合度を個々に算出すること、この仮適合度
に従って検索された文書データを仮ランキングさせるこ
と、この仮ランキングの上位の文書データの記載内容を
データベース２１から読み出して検索要求の単語の出現
回数を積算すること、この単語の出現回数に従って文書
データと検索要求との本適合度を算出すること、この本
適合度に従って仮ランキングされた文書データを本ラン
キングさせること、この本ランキングされた文書データ
が要望個数となるまで仮ランキングの順位に従って処理
を繰り返すこと、本ランキングされた要望個数の文書デ
ータをディスプレイ９の表示により出力すること、等が
書き込まれている。

【０１１３】このような構成において、本実施の形態の
文書検索装置４１は、図１７に示すように、ユーザから
文書データの検索要求と要望個数とが入力されると、文
書データを検索してユーザに出力する。その場合、外部
入力された検索要求を言語解析して検索条件を生成し、
この検索条件の単語の文字が出現する文書データの識別
子を文字成分表２２から検索する。この識別子として検
索された文書データの各々と検索要求との仮適合度を個
々に算出し、この仮適合度に従って文書データを仮ラン
キングさせる。この仮ランキングの上位の文書データの
記載内容をデータベース２１から読み出し、検索要求の
単語の出現回数を積算する。この単語の出現回数に従っ
て文書データと検索要求との本適合度を算出し、この本
適合度に従って仮ランキングされた文書データを本ラン
キングさせる。この本ランキングされた文書データが要
望個数となるまで仮ランキングの順位に従って処理を繰
り返し、本ランキングされた文書データをディスプレイ
９の表示により出力する。

【０１１４】本実施の形態の文書検索装置４１は、上述
のように最初は文書データの識別子のみを文字成分表２
２により検索するので、この検索を極めて高速に実行す
ることができる。このように検索された文書データを検
索要求との仮適合度に従って仮ランキングさせ、この仮
ランキングの上位から順番に文書データを読み出して要
望個数まで本ランキングさせるので、処理に時間を要す
る文書データの読み出しを極力少なくすることができ、
それでいて最終的にはユーザの検索要求に適合した文書
データをユーザの要望個数だけ提供することができる。

【０１１５】なお、本発明は上述した文書検索装置４１
に限定されるものではなく、各種の変形を許容する。例
えば、上述した文書検索装置４１では、仮ランキングさ
れた文書データを本ランキングするため、文書データを
読み出して検索要求の単語の出現回数を積算することを
例示したが、これに換えて検索要求の単語の出現の有無
を照合し、単語の出現が確認された文書データのみ本適
合度を算出することも可能である。

【０１１６】また、上述した文書検索装置４１では、本
適合度算出手段５６が前述の数式（５)(６）により本適
合度を算出することを例示したが、このように算出する
本適合度に所定の定数を乗算することも可能である。こ
の場合、仮ランキングの順番で多数の文書データの本適
合度を算出する場合に、本適合度が定数の乗算により本
来より大きく計算されるので、仮適合度と本適合度との
比較に基づいた文書データの本ランキングを迅速に完了
することができる。

【０１１７】このように本適合度を増加させて文書デー
タを本ランキングすると、その下位の文書データより実
際には本適合度が大きい文書データが本ランキングされ
ないことがあるが、ユーザにとって重要な上位の文書デ
ータは確実に出力されるので、実用性を低下させること
なく処理負担を軽減して処理速度を向上させることがで
きる。なお、このように本適合度を増加させる定数は、
大きすぎると検索精度が低下し、小さすぎると意味が無
いので、これは各種条件に基づいて適切に設定する必要
があり、例えば、ユーザが所望によりキーボード８の操
作等で設定できることが好ましい。

【０１１８】また、上述した文書検索装置４１では、検
索要求から獲得した全部の単語に基づいて仮適合度や本
適合度を算出しているが、これではデータベース２１の
大部分の文書データに出現する単語が検索要求に含まれ
ると、膨大な文書データが検索されて仮ランキングの処
理負担が増大する。これが問題となる場合には、検索要
求の単語を所定条件に従って選別する単語選別手段（図
示せず）を設け、選別された単語のみに基づいて仮適合
度と本適合度とを算出するよう各適合度算出手段５３，
５６を設定することが好ましい。

【０１１９】例えば、単語“ｔ”の重要度“Ｖ_a(ｔ）”
に対して適当な閾値を設定し、検索要求“ｑ”から獲得
した単語を、重要度が閾値以上の集合“ｑ＋”と閾値未
満の集合“ｑ−”とに選別する。そして、重要度が閾値
以上の単語の集合“ｑ＋”に対してのみ仮適合度や本適
合度を算出すれば、例えば、前述した数式(２),(４),
(６)は各々以下のようになる。

【０１２０】

【数６】

【０１２１】この場合、検索された文書データの一部し
か仮適合度を算出せず、仮適合度と本適合度との計算量
も減少するので、その処理負担が軽減されて処理速度が
向上する。それでいて、単語を重要度に基づいて選別し
ているので、閾値を適切に設定すれば実用性も充分に維
持される。

【０１２２】しかし、これではユーザが意図した単語が
無視されることが発生するので、これが問題となる場合
には、上述のような単語の選別を仮適合度の計算の場合
のみ照合し、本適合度の計算では全部の単語を対象とす
ることが好ましい。この場合、上述した数式(１１)等に
より仮適合度を算出して数式(２)等により本適合度を算
出すると、同一の文書データで本適合度が仮適合度より
大きくなる場合がある。これでは本ランキングの速度と
精度とが低下するので、これを防止するため、ここでは
重要度が閾値未満の集合“ｑ−”の単語が文書データに
出現すると仮定し、仮適合度の算出を以下の数式(１４)
や数式(１５)により実行する。

【０１２３】

【数７】

【０１２４】この場合でも、検索された文書データの一
部しか仮適合度を算出しないので、その処理負担が軽減
されて処理速度が向上し、それでいて、検索要求の全部
の単語に基づいて文書データが本ランキングされるの
で、ユーザに適切な文書データを提供することができ
る。

【０１２５】しかし、この場合は上述のように重要度が
閾値未満の集合“ｑ−”の単語が文書データに出現する
と仮定しているが、これが実際には出現していないと仮
適合度が本来より増加していることになる。これでは本
ランキングの速度と精度とが低下するので、これが問題
となる場合には、下記の数式(１６)(１７)のように、仮
適合度を算出する場合に、選別されない単語に関するパ
ラメータに“０”以上“１”以下の定数“β”を乗算す
る。

【０１２６】

【数８】

【０１２７】この場合、本来の数値より仮適合度が増加
する場合でも、この仮適合度を本来の数値に近似させる
ことができるので、本ランキングの速度と精度とを向上
させることができる。つまり、文書データの本ランキン
グでは本適合度を仮適合度と比較するので、仮適合度の
増加が防止されれば本ランキングが遅滞しない。

【０１２８】なお、前述した単語選別手段により検索要
求の単語を選別する方式では、仮適合度や本適合度の計
算を軽減することができるが、これは検索処理に利用す
る単語集合“ｑ＋”を決定するために単語“ｔ”の重要
度“Ｖａ(ｔ)”を利用している。しかし、この重要度
“Ｖａ(ｔ)”の算出には文字成分表２２による検索結果
“ｆａ(ｔ)”が必要なので、この時点で全部の単語に対
して文字成分表２２での検索処理を実行する必要があ
り、あまり処理の負担軽減や速度向上を期待できない。

【０１２９】これを解決するためには、単語選別手段
が、単語の重要度を各々の構成文字に基づいて算出し、
この重要度に従って単語を選別することが好ましい。つ
まり、単語“ｔ”の重要度“Ｖａ(ｔ)”を算出する場合
に、文字成分表２２による検索結果“ｆａ(ｔ)”を算出
せず、検索結果の推定値“ｆａ′(ｔ)”を単語“ｔ”の
構成文字から算出する。

【０１３０】このように結果を推定する手法にも各種方
式が考えられるが、例えば、単純マルコフ過程の適用が
考えられる。つまり“文字列上のある文字の発生確率
は、前の文字の文字種のみに依存する単純マルコフ過程
である”と仮定する。この場合、ある単語“ｔ”がｍ個
の文字“ｃ”で構成されている場合(ｔ＝ｃ₁ｃ₂…
ｃ_m）、この文字“ｃ”の種類を“ｓ”、発生確率を
“ｐ(ｃ)”、文字“ｃ”が種類“ｓ′”の文字“ｃ′”
に続いて発生する確率を“ｐ（ｃ|ｓ′)”とすると、単
語の発生確率“ｐ(ｔ)”は、下記の数式(１８)により算
出される。

【０１３１】

【数９】

【０１３３】

【数１０】

【０１３４】このように単語の発生確率“ｐ(ｔ)”は単
純な演算で算出されるので、これを一文書の文字数の平
均値Ｃに乗算すれば、検索結果の個数の推定値“ｆａ′
(ｔ)”が算出される。このように単純な演算で検索結果
を推定できれば、文字成分表２２による検索処理を実行
することなく単語“ｔ”の重要度“Ｖａ(ｔ)”を算出で
きるので、仮適合度や本適合度の算出の負担を軽減して
速度を向上させることができる。

【０１３５】

【発明の効果】請求項１記載の発明の文書検索装置は、
多数の文書データが識別子と共に予め格納されたデータ
ベースと、文字の一覧に文書データの識別子が予め設定
された文字成分表と、文書データの検索要求の入力を受
け付ける要求入力手段と、入力された検索要求の単語の
文字が出現する文書データを文字成分表に従ってデータ
ベースから検索する文書検索手段と、検索された文書デ
ータの各々と検索要求との適合度を個々に算出する適合
度算出手段と、適合度に対応して検索された文書データ
をランキングする結果ランキング手段と、ランキングさ
れた文書データを出力する結果出力手段と、を有するこ
とにより、文字成分表に従って文書データを高速に検索
することができ、この検索された文書データを検索要求
との適合度に従ってランキングすることができるので、
ユーザの要求に対応した文書データを高速に出力するこ
とができる。

【０１３６】請求項２記載の発明の文書検索装置では、
適合度算出手段は、データベースにおける検索要求の単
語の重要度を算出し、この重要度に基づいて検索要求と
検索された文書データの各々との適合度を個々に算出す
ることにより、データベースにおいて重要な単語で検索
された文書データほど上位にランキングすることができ
るので、重要であることが予想される文書データを優先
的にユーザに提供することができる。

【０１３７】請求項３記載の発明の文書検索装置では、
適合度算出手段は、検索要求における単語の重要度を算
出し、この重要度に基づいて検索要求と検索された文書
データの各々との適合度を個々に算出することにより、
検索要求において重要な単語で検索された文書データほ
ど上位にランキングすることができるので、重要である
ことが予想される文書データを優先的にユーザに提供す
ることができる。

【０１３８】請求項４記載の発明の文書検索装置では、
適合度算出手段は、検索された文書データにおける検索
要求の単語の重要度を算出し、この重要度に基づいて検
索要求と検索された文書データの各々との適合度を個々
に算出することにより、重要な単語が頻繁に出現する文
書データほど上位にランキングすることができるので、
重要であることが予想される文書データを優先的にユー
ザに提供することができる。

【０１３９】請求項５記載の発明の文書検索装置では、
検索要求の単語の有無を検索された文書データに対して
照合する結果照合手段を設けたことにより、検索要求の
単語の文字は存在しても単語は存在しない文書データを
検索結果から排除することができるので、検索の精度を
向上させることができる。

【０１４０】請求項６記載の発明の文書検索装置では、
検索する文書データの要望個数を設定する個数設定手段
を設け、検索要求の単語の有無を文書データに対して照
合する結果照合手段を設け、この結果照合手段の処理を
実行しない状態で文字成分表に従って検索された文書デ
ータの各々と検索要求との適合度を仮適合度として適合
度算出手段により個々に算出させ、この仮適合度に従っ
て結果ランキング手段により検索された文書データを仮
ランキングさせ、この仮ランキングの上位の文書データ
に対して結果照合手段により検索要求の単語の有無を照
合させ、この照合の結果に従って適合度算出手段により
文書データと検索要求との本適合度を算出させ、この本
適合度に従って結果ランキング手段により仮ランキング
された文書データを本ランキングさせ、この本ランキン
グされた文書データが要望個数となるまで仮ランキング
の順位に従って処理を繰り返させることにより、文字成
分表を利用した迅速な処理で文書データを仮ランキング
させることができ、この仮ランキングされた文書データ
の一部に対してのみ単語の照合を実行するだけで、要望
個数の文書データを本ランキングすることができるの
で、高精度に検索された文書データを必要な個数だけ高
速に出力することができる。

【０１４１】請求項７記載の発明の文書検索装置では、
検索する文書データの要望個数を設定する個数設定手段
を設け、文字成分表に従って検索された文書データの各
々と検索要求との適合度を仮適合度として適合度算出手
段により個々に算出させ、この仮適合度に従って結果ラ
ンキング手段により検索された文書データを仮ランキン
グさせ、この仮ランキングの上位の文書データに対して
検索要求の単語の出現回数を積算する単語積算手段を設
け、この単語の出現回数に従って適合度算出手段により
文書データと検索要求との本適合度を算出させ、この本
適合度に従って結果ランキング手段により仮ランキング
された文書データを本ランキングさせ、この本ランキン
グされた文書データが要望個数となるまで仮ランキング
の順位に従って処理を繰り返させることにより、文字成
分表を利用した迅速な処理で文書データを仮ランキング
させることができ、この仮ランキングされた文書データ
の一部に対してのみ単語の出現回数を積算するだけで、
要望個数の文書データを本ランキングすることができる
ので、高精度に検索された文書データを必要な個数だけ
高速に出力することができる。

【０１４２】請求項８記載の発明の文書検索装置では、
単語積算手段は、文書データから積算する単語の出現回
数に上限値が予め設定されていることにより、単語の重
要度は精度が低下することなく上限値が設定され、仮ラ
ンキングの順番で検出する次の文書データの仮適合度に
本適合度を比較しなくとも、次の仮適合度に重要度の上
限値を乗算した数値より大きい本適合度の文書データは
本ランキングすることができるので、より迅速に処理を
完了することができる。

【０１４３】請求項９記載の発明の文書検索方法は、多
数の文書データを識別子と共にデータベースに予め格納
しておき、文字成分表の文字の一覧に文書データの識別
子を予め設定しておき、文書データの検索要求の入力を
受け付け、この入力された検索要求の単語の文字が出現
する文書データを文字成分表に従ってデータベースから
検索し、この検索された文書データの各々と検索要求と
の適合度を個々に算出し、この適合度に対応して検索さ
れた文書データをランキングし、このランキングされた
文書データを出力するようにしたことにより、文字成分
表に従って文書データを高速に検索することができ、こ
の検索された文書データを検索要求との適合度に従って
ランキングすることができるので、ユーザの要求に対応
した文書データを高速に出力することができる。

【０１４４】請求項１０記載の発明の文書検索方法は、
多数の文書データを識別子と共にデータベースに予め格
納しておき、文字成分表の文字の一覧に文書データの識
別子を予め設定しておき、検索する文書データの要望個
数を設定し、文書データの検索要求の入力を受け付け、
この入力された検索要求の単語の文字が出現する文書デ
ータの識別子を前記文字成分表から検索し、この識別子
として検索された文書データの各々と検索要求との仮適
合度を個々に算出し、この仮適合度に対応して検索され
た文書データを仮ランキングし、この仮ランキングの上
位の文書データを前記データベースから読み出し、この
読み出された文書データに対して検索要求の単語の出現
回数を積算し、この単語の出現回数に従って文書データ
と検索要求との本適合度を算出し、この本適合度に従っ
て仮ランキングされた文書データを本ランキングさせ、
この本ランキングされた文書データが要望個数となるま
で仮ランキングの順位に従って処理を繰り返し、この本
ランキングされた要望個数の文書データを出力するよう
にしたことにより、文字成分表を利用した迅速な処理で
文書データを仮ランキングさせることができ、この仮ラ
ンキングされた文書データの一部に対してのみ単語の出
現回数を積算するだけで、要望個数の文書データを本ラ
ンキングすることができるので、高精度に検索された文
書データを必要な個数だけ高速に出力することができ
る。

【０１４５】請求項１１記載の発明の文書検索装置は、
多数の文書データが識別子と共に予め格納されたデータ
ベースと、文字の一覧に文書データの識別子が予め設定
された文字成分表と、文書データの検索要求の入力を受
け付ける要求入力手段と、検索する文書データの要望個
数を設定する個数設定手段と、入力された検索要求の単
語の文字が出現する文書データの識別子を文字成分表か
ら検索する文書検索手段と、この識別子として検索され
た文書データの各々と検索要求との仮適合度を個々に算
出する仮適合度算出手段と、この仮適合度に従って検索
された文書データを仮ランキングさせる仮ランキング手
段と、この仮ランキングの上位の文書データの記載内容
をデータベースから読み出して検索要求の単語の有無を
照合する結果照合手段と、この照合の結果に従って文書
データと検索要求との本適合度を算出する本適合度算出
手段と、この本適合度に従って仮ランキングされた文書
データを本ランキングさせる本ランキング手段と、この
本ランキングされた文書データが要望個数となるまで仮
ランキングの順位に従って処理を繰り返させる動作制御
手段と、本ランキングされた要望個数の文書データを出
力する結果出力手段とを有することにより、文字成分表
を利用した迅速な処理で文書データを仮ランキングさせ
ることができ、この仮ランキングされた文書データの一
部に対してのみ単語の照合を実行するだけで、要望個数
の文書データを本ランキングすることができるので、高
精度に検索された文書データを必要な個数だけ高速に出
力することができる。

【０１４６】請求項１２記載の発明の文書検索装置は、
多数の文書データが識別子と共に予め格納されたデータ
ベースと、文字の一覧に文書データの識別子が予め設定
された文字成分表と、文書データの検索要求の入力を受
け付ける要求入力手段と、検索する文書データの要望個
数を設定する個数設定手段と、入力された検索要求の単
語の文字が出現する文書データの識別子を文字成分表か
ら検索する文書検索手段と、この識別子として検索され
た文書データの各々と検索要求との仮適合度を個々に算
出する仮適合度算出手段と、この仮適合度に従って検索
された文書データを仮ランキングさせる仮ランキング手
段と、この仮ランキングの上位の文書データの記載内容
をデータベースから読み出して検索要求の単語の出現回
数を積算する単語積算手段と、この単語の出現回数に従
って文書データと検索要求との本適合度を算出する本適
合度算出手段と、この本適合度に従って仮ランキングさ
れた文書データを本ランキングさせる本ランキング手段
と、この本ランキングされた文書データが要望個数とな
るまで仮ランキングの順位に従って処理を繰り返させる
動作制御手段と、本ランキングされた要望個数の文書デ
ータを出力する結果出力手段とを有することにより、文
字成分表を利用した迅速な処理で文書データを仮ランキ
ングさせることができ、この仮ランキングされた文書デ
ータの一部に対してのみ単語の出現回数を積算するだけ
で、要望個数の文書データを本ランキングすることがで
きるので、高精度に検索された文書データを必要な個数
だけ高速に出力することができる。

【０１４７】請求項１３記載の発明の文書検索装置で
は、本ランキング手段は、比較する仮適合度と本適合度
との少なくとも一方に所定の定数を乗算することによ
り、文書データが本ランキングされる割合を促進させる
ことができるので、より高速に文書データを出力するこ
とができる。

【０１４８】請求項１４記載の発明の文書検索装置で
は、検索要求の単語を所定条件に従って選別する単語選
別手段を設け、仮適合度算出手段は、選別された単語の
みに基づいて仮適合度を算出し、本適合度算出手段は、
選別された単語のみに基づいて本適合度を算出すること
により、仮適合度と本適合度との計算量を削減すること
ができるので、より高速に文書データを出力することが
できる。

【０１４９】請求項１５記載の発明の文書検索装置で
は、検索要求の単語を所定条件に従って選別する単語選
別手段を設け、仮適合度算出手段は、選別された単語が
出現する文書データのみ全部の単語に基づいて仮適合度
の算出を実行することにより、仮適合度と本適合度とを
計算する文書データを削減することができ、しかも、検
索要求の全部の単語に基づいて仮適合度と本適合度とを
算出するので、ユーザの要求に良好に対応した文書デー
タを高速に出力することができる。

【０１５０】請求項１６記載の発明の文書検索装置で
は、仮適合度算出手段は、選別されない単語に関するパ
ラメータに所定の定数を乗算することにより、単語の選
別に起因して仮適合度が本来の数値より増加することを
防止できるので、本適合度を算出する文書データの個数
を削減することができ、より高速に文書データを出力す
ることができる。

【０１５１】請求項１７記載の発明の文書検索装置で
は、単語選別手段は、単語の重要度を各々の構成文字に
基づいて算出し、この重要度に従って単語を選別するこ
とにより、単語を選別するために文字成分表による検索
結果を算出する必要がないので、より高速に文書データ
を出力することができる。

【０１５２】請求項１８記載の発明の情報記憶媒体は、
外部入力される検索要求の単語の文字が出現する文書デ
ータを文字成分表に従ってデータベースから検索するこ
と、検索された文書データの各々と検索要求との適合度
を個々に算出すること、適合度に対応して検索された文
書データをランキングさせて外部出力すること、が書き
込まれていることにより、データベースと文字成分表と
が接続された情報処理装置を、この情報記憶媒体に書き
込まれたプログラムにより動作させれば、文字成分表に
従って文書データを高速に検索することができ、この検
索された文書データが検索要求との適合度に従ってラン
キングすることができるので、ユーザの要求に対応した
文書データを高速に出力することができる。

【０１５３】請求項１９記載の発明の情報記憶媒体は、
外部入力される検索要求の単語の文字が出現する文書デ
ータの識別子を文字成分表から検索すること、この識別
子として検索された文書データの各々と検索要求との仮
適合度を個々に算出すること、この仮適合度に従って検
索された文書データを仮ランキングさせること、この仮
ランキングの上位の文書データの記載内容をデータベー
スから読み出して検索要求の単語の有無を照合するこ
と、この照合の結果に従って文書データと検索要求との
本適合度を算出すること、この本適合度に従って仮ラン
キングされた文書データを本ランキングさせること、こ
の本ランキングされた文書データが要望個数となるまで
仮ランキングの順位に従って処理を繰り返すこと、が書
き込まれていることにより、データベースと文字成分表
とが接続された情報処理装置を、この情報記憶媒体に書
き込まれたプログラムにより動作させれば、文字成分表
を利用した迅速な処理で文書データを仮ランキングさせ
ることができ、この仮ランキングされた文書データの一
部に対してのみ単語の有無を照合するだけで、要望個数
の文書データを本ランキングすることができるので、高
精度に検索された文書データを必要な個数だけ高速に出
力することができる。

【０１５４】請求項２０記載の発明の情報記憶媒体は、
入力された検索要求の単語の文字が出現する文書データ
の識別子を文字成分表から検索すること、この検索され
た文書データの各々と検索要求との仮適合度を個々に算
出すること、この仮適合度に従って検索された文書デー
タを仮ランキングさせること、この仮ランキングの上位
の文書データの記載内容をデータベースから読み出して
検索要求の単語の出現回数を積算すること、この単語の
出現回数に従って文書データと検索要求との本適合度を
算出すること、この本適合度に従って仮ランキングされ
た文書データを本ランキングさせること、この本ランキ
ングされた文書データが要望個数となるまで仮ランキン
グの順位に従って処理を繰り返すこと、が書き込まれて
いることにより、データベースと文字成分表とが接続さ
れた情報処理装置を、この情報記憶媒体に書き込まれた
プログラムにより動作させれば、文字成分表を利用した
迅速な処理で文書データを仮ランキングさせることがで
き、この仮ランキングされた文書データの一部に対して
のみ単語の出現回数を積算するだけで、要望個数の文書
データを本ランキングすることができるので、高精度に
検索された文書データを必要な個数だけ高速に出力する
ことができる。

【図面の簡単な説明】

【図１】本発明の実施の第一の形態の文書検索装置の論
理的構造を示す模式図である。

【図２】文書検索装置の物理的構造を示すブロック図で
ある。

【図３】文書検索装置の外観を示す斜視図である。

【図４】情報記憶媒体であるメモリに書き込まれたプロ
グラムのモジュール構造を示す模式図である。

【図５】文書検索方法を示すフローチャートである。

【図６】仮ランキングされた文書データを本ランキング
する処理動作を示す説明図である。

【図７】Ｋ(Ｄ)とＰとを変化させた場合の検索精度を示
す特性図である。

【図８】Ｐを固定してＫ(Ｄ)を変化させた場合の検索精
度を示す特性図である。

【図９】Ｋ(Ｄ)を固定してＰを変化させた場合の検索精
度を示す特性図である。

【図１０】Ｋ(Ｄ)とＰとを変化させた場合の検索時間を
示す特性図である。

【図１１】Ｐを固定してＫ(Ｄ)を変化させた場合の検索
時間を示す特性図である。

【図１２】Ｋ(Ｄ)を固定してＰを変化させた場合の検索
時間を示す特性図である。

【図１３】Ｋ(Ｄ)を固定してＰとＴ(Ｄ)とを変化させた
場合の検索精度を示す特性図である。

【図１４】Ｋ(Ｄ)を固定してＰとＴ(Ｄ)とを変化させた
場合の検索時間を示す特性図である。

【図１５】Ｋ(Ｄ)とＰとを固定した場合の検索件数と検
索時間との関係を示す特性図である。

【図１６】本発明の実施の第二の形態の文書検索装置の
論理的構造を示す模式図である。

【図１７】文書検索方法を示すフローチャートである。

【符号の説明】

１，４１文書検索装置６，１３，１４情報記憶媒体２１データベース２２文字成分表２３要求入力手段２４要求解釈手段２５，５２文書検索手段２６適合度算出手段２７結果ランキング手段２８結果出力手段５１個数設定手段５２文書検索手段５３仮適合度算出手段５４仮ランキング手段５５単語積算手段５６本適合度算出手段５７本ランキング手段５８動作制御手段

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成８年１０月１５日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】請求項１６

【補正方法】変更

【補正内容】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】請求項１７

【補正方法】変更

【補正内容】

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】００２６

【補正方法】変更

【補正内容】

【００２６】請求項１５記載の発明の文書検索装置で
は、請求項１１または１２記載の発明において、検索要
求の単語を所定条件に従って選別する単語選別手段を設
け、仮適合度算出手段は、選別された単語が出現する文
書データのみ全部の単語に基づいて仮適合度の算出を実
行する。従って、検索された文書データの一部しか仮適
合度と本適合度とを算出しないので、その処理負担が軽
減されて処理速度が向上し、検索要求の全部の単語に基
づいて仮ランキングと本ランキングとを実行するので、
ユーザの検索要求に良好に対応した文書データが検索さ
れる。

【手続補正４】

【補正対象書類名】明細書

【補正対象項目名】００２７

【補正方法】変更

【補正内容】

【００２７】請求項１６記載の発明の文書検索装置で
は、請求項１５記載の発明において、仮適合度算出手段
は、選別されない単語に関するパラメータに所定の定数
を乗算する。従って、単語の選別に起因して仮適合度が
本来の数値より増加する場合でも、これが定数の乗算に
より本来の数値に近似する。

【手続補正５】

【補正対象書類名】明細書

【補正対象項目名】００２８

【補正方法】変更

【補正内容】

【００２８】請求項１７記載の発明の文書検索装置で
は、請求項１４または１５記載の発明において、単語選
別手段は、単語の重要度を各々の構成文字に基づいて算
出し、この重要度に従って単語を選別する。従って、文
書データの検索に適切な単語が容易に選別され、単語を
選別するために文字成分表による検索結果を算出する必
要がない。

【手続補正６】

【補正対象書類名】明細書

【補正対象項目名】００８６

【補正方法】変更

【補正内容】

【００８６】なお、数式(５)を鑑みると、仮ランキング
された文書データ“ｄ”における単語“ｔ”の重要度
“ｖ_d(ｔ）”は“１”より小さい。また、その計算に必
要な文書データ“ｄ”に単語“ｔ”が出現する回数“ｆ
_d(ｔ）”は、実際には多くとも数十程度であり、これが
増加するほど重要度“ｖ_d(ｔ）”の変化の割合は低下す
る。つまり、単語“ｔ”の出現回数“ｆ_d(ｔ）”に上限
値“Ｔ_d”を設定しても、重要度“ｖ_d(ｔ）”と適合度
“ｒ_d(ｑ)”とに対する影響は小さいことになる。この
場合、前述した数式(５)は、 if ｆ_d(ｔ）＜Ｔ_d ｖ_d(ｔ)＝ｆ_d(ｔ)／[Ｋ_d＋ｆ_d(ｔ)] otherwise ｖ_d(ｔ)＝Ｔ _d／[Ｋ_d＋Ｔ_d] …（７）なる数式(７)に置換される。

【手続補正７】

【補正対象書類名】明細書

【補正対象項目名】００９１

【補正方法】変更

【補正内容】

【００９１】

【数５】

【手続補正８】

【補正対象書類名】明細書

【補正対象項目名】００９２

【補正方法】変更

【補正内容】

【００９２】ｆ _a(t_i)：データベースにおいて検索要求
の単語ｔ_i が出現する文書データの個数ｆ _q(t_i)：検索要求において単語ｔ_i が繰り返し出現す
る回数 δ _d(t_i)：文書データにおける検索要求の単語ｔ_i の有
無を示す二値Ｔ _d ：文書データから積算する単語ｔ_i の出現回数の上
限値＝∞，100，10，５，４，３，２，１Ｋ _q ：ｆ _q(t_i)の正規化係数＝０Ｋ_d：文書データから積算する単語ｔ_i の出現回数の正
規化係数＝0.0，0.5，1.0，2.0 Ｎ：データベースに格納された文書データの個数＝55
1，163111 Ｒ：検索する文書データの個数＝０，10，20，50，10
0，200 Ｐ：ＱＪＰで複合語を分割する閾値＝0.00，0.05，…，
0.30，1.00 なお、ここでは“Ｋ _q ＝０”としているが、これは用意
した検索要求に単語ｔ _iを繰り返すものが存在しないた
めである。

【手続補正９】

【補正対象書類名】明細書

【補正対象項目名】００９５

【補正方法】変更

【補正内容】

【００９５】まず、基本性能に関係するパラメータであ
る“Ｋ_d”と“Ｐ”との全部の組み合わせに対し、単語
の照合による誤検索の除去の有無における平均適合度を
比較した。その結果、当然ながら誤検索を除去した方が
最終的な精度は向上するが、その差は最大でも 0.015で
影響は小さいことが確認されたので、ここでは仮ランキ
ングにおいて誤検索の除去を行わないものとした。

【手続補正１０】

【補正対象書類名】明細書

【補正対象項目名】００９６

【補正方法】変更

【補正内容】

【００９６】つぎに、“Ｋ_d”を変化させて検索精度を
調査したところ、図７に示すように、“Ｋ_d＝0.0”の場
合のみ精度が低いことが判明した。“Ｋ_d＝0.0”の場合
には文書データの単語の出現回数を検索結果に反映させ
ないので、これが検索精度に重要な要因であることにな
る。“Ｐ”の変化に注目すると、その数値が増加するほ
ど平均適合度が低下しているので、複合語分割が必要で
あることになる。なお、“Ｐ＝0.0 ”の場合には平均適
合度の微少な減少が確認されるが、これは前述のように
複合語が過剰に分割されたためと考えられる。

【手続補正１１】

【補正対象書類名】明細書

【補正対象項目名】００９７

【補正方法】変更

【補正内容】

【００９７】また、“Ｋ_d，Ｐ”を各々変化させて再現
率と適合度との関係を調査した。まず、“Ｐ＝0.05”に
固定して“Ｋ_d”を変化させたところ、図８に示すよう
に、“Ｋ_d”により再現率が小さい部分の適合度が向上
することが判明した。再現率が小さい部分はランキング
の上位に相当するので、“Ｋ_d”はランキング上位の検
索精度を改善できることになる。また、“Ｋ_d＝0.5”に
固定して“Ｐ”を変化させたところ、図９に示すよう
に、“Ｐ”により再現率が大きい部分の適合度が向上す
ることが判明した。再現率が大きい部分はランキングの
下位に相当するので、“Ｐ”はランキング全体の検索洩
れを軽減できることになる。

【手続補正１２】

【補正対象書類名】明細書

【補正対象項目名】００９８

【補正方法】変更

【補正内容】

【００９８】つぎに、検索速度を評価する実験について
以下に説明する。この実験では、データベース２１の文
書データとして新聞記事163111件(160MB）を用意し、検
索要求は検索精度の評価実験と同一とした。“Ｋ_d”と
“Ｐ”とを変化させて検索時間を調査したところ、図１
０に示すように、“Ｋ_d”が大きいほど検索時間が増加
することが判明した。これは“Ｋ_d”が大きいと本ラン
キングを決定するためにアクセスする文書データの個数
が増大し、この処理に必要な時間が増加するためであ
る。図１１に示すように、“Ｐ＝0.05”に固定して“Ｋ
_d”を変化させても、“Ｋ_d”の増加による処理速度の
低下が確認された。図１１のグラフは傾斜が本ランキン
グの処理時間に対応しており、“Ｋ_d”が大きいほどグ
ラフの傾斜も大きい。

【手続補正１３】

【補正対象書類名】明細書

【補正対象項目名】００９９

【補正方法】変更

【補正内容】

【００９９】一方、図１０に示すように、“Ｐ”が大き
いほど検索時間が減少することが判明した。これは
“Ｐ”が大きいと検索要求の単語の出現回数が減少し、
仮ランキングの処理時間が減少するためである。図１２
に示すように、“Ｋ_d＝0.50”に固定して“Ｐ”を変化
させても、“Ｐ”の増加による処理速度の向上が確認さ
れた。図１２では横軸が“０”の場合の縦軸が仮ランキ
ングの処理時間に相当するが、これも“Ｐ”が大きいほ
ど短縮されている。

【手続補正１４】

【補正対象書類名】明細書

【補正対象項目名】０１００

【補正方法】変更

【補正内容】

【０１００】さらに、検索する文書データの個数を“Ｒ
＝20”とした場合に、本ランキングの決定のためにアク
セスした文書データの個数も調査した。すると、最も検
索時間が短くなる“Ｐ＝1.00，Ｋ_d＝0.00”の場合に
“34.1”となり、“Ｐ＝0.00，Ｋ_d＝2.00”の場合に
“1755.0”となった。なお、完全なランキングには多大
な時間が必要となることも確認されており、データベー
スが大規模な場合、仮ランキングの上位から本ランキン
グを順番に逐次確定する本案の手法であれば、処理時間
を有効に短縮できることが確認された。

【手続補正１５】

【補正対象書類名】明細書

【補正対象項目名】０１０１

【補正方法】変更

【補正内容】

【０１０１】また、前述のように文書データから積算す
る単語の出現回数の上限値“Ｔ_d”を設定し、“Ｋ_d”
と“Ｐ”とを変化させて検索時間を調査したところ、図
１３に示すように、“Ｔ_d≧５”の範囲では検索精度に
影響は略無く、これ以下の範囲では検索精度が徐々に低
下することが判明した。特に、“Ｔ_d＝２〜１”の部分
では検索精度が極度に低下しているが、これは“Ｔ_d＝
１”が“Ｋ_d＝０”に相当しているためである。

【手続補正１６】

【補正対象書類名】明細書

【補正対象項目名】０１０２

【補正方法】変更

【補正内容】

【０１０２】さらに、上述のように“Ｔ_d”を設定した
状態で検索速度を調査したところ、図１４に示すよう
に、“100 ”以下程度の範囲では“Ｔ_d”が小さいほど
検索時間が短縮されることが判明した。同様に、“Ｐ＝
0.05，Ｋ_d＝0.50”に固定して検索件数と検索時間との
関係も調査したところ、図１５に示すように、やはり
“Ｔ_d”が小さいほど検索時間が短縮されることが確認
された。

【手続補正１７】

【補正対象書類名】明細書

【補正対象項目名】０１０３

【補正方法】変更

【補正内容】

【０１０３】以上のような実験により、文書検索装置１
の文書検索方法において、各種のパラメータが各種の影
響を及ぼすことが確認できた。まず、自然言語の検索要
求から複合語を検出して単語に分割する閾値“Ｐ”は、
小さいほど検索精度が向上するが検索時間は低下するの
で、所望によりユーザが調節できることが好ましい。ま
た、文書データから積算する単語の出現回数の正規化係
数“Ｋ_d”は、“０”以上の範囲で小さいほど検索精度
と検索速度との両方が向上する。文書データから積算す
る単語の出現回数の上限値“Ｔ_d”は、検索速度を向上
させるためには小さいほど良いが、あまり小さいと検索
精度が低下するので“５”程度が良い。

【手続補正１８】

【補正対象書類名】明細書

【補正対象項目名】図面の簡単な説明

【補正方法】変更

【補正内容】

【図面の簡単な説明】

【図３】文書検索装置の外観を示す斜視図である。

【図５】文書検索方法を示すフローチャートである。

【図７】Ｋ_dとＰとを変化させた場合の検索精度を示す
特性図である。

【図８】Ｐを固定してＫ_dを変化させた場合の検索精度
を示す特性図である。

【図９】Ｋ_dを固定してＰを変化させた場合の検索精度
を示す特性図である。

【図１０】Ｋ_dとＰとを変化させた場合の検索時間を示
す特性図である。

【図１１】Ｐを固定してＫ_dを変化させた場合の検索時
間を示す特性図である。

【図１２】Ｋ_dを固定してＰを変化させた場合の検索時
間を示す特性図である。

【図１３】Ｋ_dを固定してＰとＴ_dとを変化させた場合
の検索精度を示す特性図である。

【図１４】Ｋ_dを固定してＰとＴ_dとを変化させた場合
の検索時間を示す特性図である。

【図１５】Ｋ_dとＰとを固定した場合の検索件数と検索
時間との関係を示す特性図である。

【図１７】文書検索方法を示すフローチャートである。

【符号の説明】１，４１文書検索装置６，１３，１４情報記憶媒体２１データベース２２文字成分表２３要求入力手段２４要求解釈手段２５，５２文書検索手段２６適合度算出手段２７結果ランキング手段２８結果出力手段５１個数設定手段５２文書検索手段５３仮適合度算出手段５４仮ランキング手段５５単語積算手段５６本適合度算出手段５７本ランキング手段５８動作制御手段

【手続補正１９】

【補正対象書類名】図面

【補正対象項目名】図７

【補正方法】変更

【補正内容】

【図７】

【手続補正２０】

【補正対象書類名】図面

【補正対象項目名】図８

【補正方法】変更

【補正内容】

【図８】

【手続補正２１】

【補正対象書類名】図面

【補正対象項目名】図１０

【補正方法】変更

【補正内容】

【図１０】

【手続補正２２】

【補正対象書類名】図面

【補正対象項目名】図１１

【補正方法】変更

【補正内容】

【図１１】

【手続補正２３】

【補正対象書類名】図面

【補正対象項目名】図１５

【補正方法】変更

【補正内容】

【図１５】

Claims

【特許請求の範囲】

【請求項１】多数の文書データが識別子と共に予め格
納されたデータベースと、文字の一覧に文書データの識
別子が予め設定された文字成分表と、文書データの検索
要求の入力を受け付ける要求入力手段と、入力された検
索要求の単語の文字が出現する文書データを前記文字成
分表に従って前記データベースから検索する文書検索手
段と、検索された文書データの各々と検索要求との適合
度を個々に算出する適合度算出手段と、適合度に対応し
て検索された文書データをランキングする結果ランキン
グ手段と、ランキングされた文書データを出力する結果
出力手段と、を有することを特徴とする文書検索装置。
【請求項２】適合度算出手段は、データベースにおけ
る検索要求の単語の重要度を算出し、この重要度に基づ
いて検索要求と検索された文書データの各々との適合度
を個々に算出することを特徴とする請求項１記載の文書
検索装置。
【請求項３】適合度算出手段は、検索要求における単
語の重要度を算出し、この重要度に基づいて検索要求と
検索された文書データの各々との適合度を個々に算出す
ることを特徴とする請求項１記載の文書検索装置。
【請求項４】適合度算出手段は、検索された文書デー
タにおける検索要求の単語の重要度を算出し、この重要
度に基づいて検索要求と検索された文書データの各々と
の適合度を個々に算出することを特徴とする請求項１記
載の文書検索装置。
【請求項５】検索要求の単語の有無を検索された文書
データに対して照合する結果照合手段を設けたことを特
徴とする請求項１，２，３または４記載の文書検索装
置。
【請求項６】検索する文書データの要望個数を設定す
る個数設定手段を設け、検索要求の単語の有無を文書デ
ータに対して照合する結果照合手段を設け、この結果照
合手段の処理を実行しない状態で文字成分表に従って検
索された文書データの各々と検索要求との適合度を仮適
合度として適合度算出手段により個々に算出させ、この
仮適合度に従って結果ランキング手段により検索された
文書データを仮ランキングさせ、この仮ランキングの上
位の文書データに対して前記結果照合手段により検索要
求の単語の有無を照合させ、この照合の結果に従って前
記適合度算出手段により文書データと検索要求との本適
合度を算出させ、この本適合度に従って前記結果ランキ
ング手段により仮ランキングされた文書データを本ラン
キングさせ、この本ランキングされた文書データが要望
個数となるまで仮ランキングの順位に従って処理を繰り
返させることを特徴とする請求項１，２または３記載の
文書検索装置。
【請求項７】検索する文書データの要望個数を設定す
る個数設定手段を設け、文字成分表に従って検索された
文書データの各々と検索要求との適合度を仮適合度とし
て適合度算出手段により個々に算出させ、この仮適合度
に従って結果ランキング手段により検索された文書デー
タを仮ランキングさせ、この仮ランキングの上位の文書
データに対して検索要求の単語の出現回数を積算する単
語積算手段を設け、この単語の出現回数に従って前記適
合度算出手段により文書データと検索要求との本適合度
を算出させ、この本適合度に従って前記結果ランキング
手段により仮ランキングされた文書データを本ランキン
グさせ、この本ランキングされた文書データが要望個数
となるまで仮ランキングの順位に従って処理を繰り返さ
せることを特徴とする請求項４記載の文書検索装置。
【請求項８】単語積算手段は、文書データから積算す
る単語の出現回数に上限値が予め設定されていることを
特徴とする請求項７記載の文書検索装置。
【請求項９】多数の文書データを識別子と共にデータ
ベースに予め格納しておき、文字成分表の文字の一覧に
文書データの識別子を予め設定しておき、文書データの
検索要求の入力を受け付け、この入力された検索要求の
単語の文字が出現する文書データを前記文字成分表に従
って前記データベースから検索し、この検索された文書
データの各々と検索要求との適合度を個々に算出し、こ
の適合度に対応して検索された文書データをランキング
し、このランキングされた文書データを出力するように
したことを特徴とする文書検索方法。
【請求項１０】多数の文書データを識別子と共にデー
タベースに予め格納しておき、文字成分表の文字の一覧
に文書データの識別子を予め設定しておき、検索する文
書データの要望個数を設定し、文書データの検索要求の
入力を受け付け、この入力された検索要求の単語の文字
が出現する文書データの識別子を前記文字成分表から検
索し、この識別子として検索された文書データの各々と
検索要求との仮適合度を個々に算出し、この仮適合度に
対応して検索された文書データを仮ランキングし、この
仮ランキングの上位の文書データを前記データベースか
ら読み出し、この読み出された文書データに対して検索
要求の単語の出現回数を積算し、この単語の出現回数に
従って文書データと検索要求との本適合度を算出し、こ
の本適合度に従って仮ランキングされた文書データを本
ランキングさせ、この本ランキングされた文書データが
要望個数となるまで仮ランキングの順位に従って処理を
繰り返し、この本ランキングされた要望個数の文書デー
タを出力するようにしたことを特徴とする文書検索方
法。
【請求項１１】多数の文書データが識別子と共に予め
格納されたデータベースと、文字の一覧に文書データの
識別子が予め設定された文字成分表と、文書データの検
索要求の入力を受け付ける要求入力手段と、検索する文
書データの要望個数を設定する個数設定手段と、入力さ
れた検索要求の単語の文字が出現する文書データの識別
子を前記文字成分表から検索する文書検索手段と、この
識別子として検索された文書データの各々と検索要求と
の仮適合度を個々に算出する仮適合度算出手段と、この
仮適合度に従って検索された文書データを仮ランキング
させる仮ランキング手段と、この仮ランキングの上位の
文書データの記載内容を前記データベースから読み出し
て検索要求の単語の有無を照合する結果照合手段と、こ
の照合の結果に従って文書データと検索要求との本適合
度を算出する本適合度算出手段と、この本適合度に従っ
て仮ランキングされた文書データを本ランキングさせる
本ランキング手段と、この本ランキングされた文書デー
タが要望個数となるまで仮ランキングの順位に従って処
理を繰り返させる動作制御手段と、本ランキングされた
要望個数の文書データを出力する結果出力手段と、を有
することを特徴とする文書検索装置。
【請求項１２】多数の文書データが識別子と共に予め
格納されたデータベースと、文字の一覧に文書データの
識別子が予め設定された文字成分表と、文書データの検
索要求の入力を受け付ける要求入力手段と、検索する文
書データの要望個数を設定する個数設定手段と、入力さ
れた検索要求の単語の文字が出現する文書データの識別
子を前記文字成分表から検索する文書検索手段と、この
識別子として検索された文書データの各々と検索要求と
の仮適合度を個々に算出する仮適合度算出手段と、この
仮適合度に従って検索された文書データを仮ランキング
させる仮ランキング手段と、この仮ランキングの上位の
文書データの記載内容を前記データベースから読み出し
て検索要求の単語の出現回数を積算する単語積算手段
と、この単語の出現回数に従って文書データと検索要求
との本適合度を算出する本適合度算出手段と、この本適
合度に従って仮ランキングされた文書データを本ランキ
ングさせる本ランキング手段と、この本ランキングされ
た文書データが要望個数となるまで仮ランキングの順位
に従って処理を繰り返させる動作制御手段と、本ランキ
ングされた要望個数の文書データを出力する結果出力手
段と、を有することを特徴とする文書検索装置。
【請求項１３】本ランキング手段は、比較する仮適合
度と本適合度との少なくとも一方に所定の定数を乗算す
ることを特徴とする請求項１１または１２記載の文書検
索装置。
【請求項１４】検索要求の単語を所定条件に従って選
別する単語選別手段を設け、仮適合度算出手段は、選別
された単語のみに基づいて仮適合度を算出し、本適合度
算出手段は、選別された単語のみに基づいて本適合度を
算出することを特徴とする請求項１１または１２記載の
文書検索装置。
【請求項１５】検索要求の単語を所定条件に従って選
別する単語選別手段を設け、仮適合度算出手段は、選別
された単語が出現する文書データのみ全部の単語に基づ
いて仮適合度の算出を実行することを特徴とする請求項
１１または１２記載の文書検索装置。
【請求項１６】仮適合度算出手段は、選別されない単
語に関するパラメータに所定の定数を乗算することを特
徴とする請求項１４記載の文書検索装置。
【請求項１７】単語選別手段は、単語の重要度を各々
の構成文字に基づいて算出し、この重要度に従って単語
を選別することを特徴とする請求項１４記載の文書検索
装置。
【請求項１８】多数の文書データが識別子と共に予め
格納されたデータベースと、文字の一覧に文書データの
識別子が予め設定された文字成分表と、検索要求の文字
に基づいた文書データの検索等の各種のデータ処理をプ
ログラムに従って実行する情報処理装置と、この情報処
理装置を動作させるプログラムが書き込まれた情報記憶
媒体と、を備えた文書検索装置において、外部入力され
る検索要求の単語の文字が出現する文書データを前記文
字成分表に従って前記データベースから検索すること、
検索された文書データの各々と検索要求との適合度を個
々に算出すること、適合度に対応して検索された文書デ
ータをランキングさせて外部出力すること、が書き込ま
れていることを特徴とする情報記憶媒体。
【請求項１９】多数の文書データが識別子と共に予め
格納されたデータベースと、文字の一覧に文書データの
識別子が予め設定された文字成分表と、検索要求の文字
に基づいた文書データの検索等の各種のデータ処理をプ
ログラムに従って実行する情報処理装置と、この情報処
理装置を動作させるプログラムが書き込まれた情報記憶
媒体と、を備えた文書検索装置において、外部入力され
る検索要求の単語の文字が出現する文書データの識別子
を前記文字成分表から検索すること、この識別子として
検索された文書データの各々と検索要求との仮適合度を
個々に算出すること、この仮適合度に従って検索された
文書データを仮ランキングさせること、この仮ランキン
グの上位の文書データの記載内容を前記データベースか
ら読み出して検索要求の単語の有無を照合すること、こ
の照合の結果に従って文書データと検索要求との本適合
度を算出すること、この本適合度に従って仮ランキング
された文書データを本ランキングさせること、この本ラ
ンキングされた文書データが要望個数となるまで仮ラン
キングの順位に従って処理を繰り返すこと、が書き込ま
れていることを特徴とする情報記憶媒体。
【請求項２０】多数の文書データが識別子と共に予め
格納されたデータベースと、文字の一覧に文書データの
識別子が予め設定された文字成分表と、検索要求の文字
に基づいた文書データの検索等の各種のデータ処理をプ
ログラムに従って実行する情報処理装置と、この情報処
理装置を動作させるプログラムが書き込まれた情報記憶
媒体と、を備えた文書検索装置において、入力された検
索要求の単語の文字が出現する文書データの識別子を前
記文字成分表から検索すること、この検索された文書デ
ータの各々と検索要求との仮適合度を個々に算出するこ
と、この仮適合度に従って検索された文書データを仮ラ
ンキングさせること、この仮ランキングの上位の文書デ
ータの記載内容を前記データベースから読み出して検索
要求の単語の出現回数を積算すること、この単語の出現
回数に従って文書データと検索要求との本適合度を算出
すること、この本適合度に従って仮ランキングされた文
書データを本ランキングさせること、この本ランキング
された文書データが要望個数となるまで仮ランキングの
順位に従って処理を繰り返すこと、が書き込まれている
ことを特徴とする情報記憶媒体。