JP2001109766A - 文書検索装置及び文書検索方法 - Google Patents

文書検索装置及び文書検索方法

Info

Publication number
JP2001109766A
JP2001109766A JP28830999A JP28830999A JP2001109766A JP 2001109766 A JP2001109766 A JP 2001109766A JP 28830999 A JP28830999 A JP 28830999A JP 28830999 A JP28830999 A JP 28830999A JP 2001109766 A JP2001109766 A JP 2001109766A
Authority
JP
Japan
Prior art keywords
search
document
relevance
condition
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP28830999A
Other languages
English (en)
Other versions
JP3678615B2 (ja
Inventor
Mitsuaki Inaba
光昭 稲葉
Yuji Sugano
祐司 菅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP28830999A priority Critical patent/JP3678615B2/ja
Publication of JP2001109766A publication Critical patent/JP2001109766A/ja
Application granted granted Critical
Publication of JP3678615B2 publication Critical patent/JP3678615B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 所望の文書を効率良く探し出すことが可能な
文書検索装置を提供する。 【解決手段】 検索条件と、ソート条件と、検索条件へ
の適合度の範囲指定とから成る検索要求文字列を検索要
求入力手段107から入力し、検索手段108、109で検索条
件を満たす文書を検索し、適合度算出手段110、111で各
文書の適合度を算出し、ソート情報取得手段112でソー
ト情報を取得し、検索結果足切り手段113で適合度が範
囲指定された適合度範囲に入らない文書を除き、検索結
果並べ替え手段114で、各文書を、まず、ソート情報で
並べ替え、ソート情報が同一だった場合に適合度の順に
並べ替える。適合度がユーザの指定した範囲から外れる
文書を除いて表示することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、検索条件にしたが
って所望の文書を検索する文書検索装置と文書検索方法
に関し、特に、各文書が検索条件に合致する度合と、各
文書に付随する書誌事項、例えば新聞記事ならば日付の
新しい順などの組み合わせによって検索結果を並べ替え
て表示できるようにしたものである。
【0002】
【従来の技術】近年、文書中における検索語の出現頻度
等に基づいて、文書と検索条件との適合度を求め、その
高い順に結果を並び替えて表示する、文書ランキングの
手法が注目されてきている。さらに、文書に付随する書
誌事項、例えば新聞記事であれば日付をソート条件とし
て指定し、日付の新しい記事から優先して表示するが、
同一日付の記事については検索条件との適合度の高い順
に表示するといった、柔軟な検索が実現されてきてい
る。
【0003】従来の文書検索装置は、図13に示すよう
に、検索対象となる新聞記事の文書データ1301から辞書
1302に載る単語の単語頻度情報を抽出し、単語頻度索引
1304に格納する単語頻度情報抽出手段1303と、文書デー
タ1301から日付・紙名コードといった書誌事項の情報を
取り出し、書誌事項索引1306に格納する書誌事項抽出手
段1305と、ユーザが検索条件及びソート条件からなる検
索要求文字列を入力するための検索要求入力手段1307
と、単語頻度索引1304を調べて検索条件に含まれる検索
語の文書中での出現頻度を求める単語頻度算定手段1308
と、レコード集合間の論理演算を行う論理演算手段1309
と、検索条件と各レコードとの適合度を算出する適合度
算定手段1310と、ソート条件に指定された並べ替えのた
めの書誌情報を取得するソート情報取得手段1311と、書
誌情報と適合度とによって検索結果のレコードリストを
並べ替える結果並べ替え手段1312と、検索結果を表示す
る結果表示手段1313とを備えている。
【0004】なお、単語頻度索引1304には、単語頻度情
報抽出手段1303の抽出動作により、検索対象文書中の辞
書単語の出現頻度が格納される。
【0005】図14は、従来の文書検索装置における検
索の処理手順を示すフローチャートである。文書データ
1301は、レコード区切り文字で区切られた複数のレコー
ド(文書)から成り、各レコードは、フィールド区切り
文字で区切られた複数のフィールドから成っている。図
3は文書データの具体例を示しており、フィールド区切
り文字が「^F」、レコード区切り文字が「^R」で、
紙名コード、日付、記事本文という3つのフィールドか
ら成る新聞記事データである。
【0006】単語頻度情報抽出手段1303は、予め文書デ
ータ1301を走査し、辞書1302に登録されている単語が各
レコードの記事本文フィールドに何回出現しているかを
カウントし、当該単語が出現しているレコード数及び総
レコード数とともに、単語頻度索引1304に格納する。
【0007】また、書誌事項抽出手段1305は、予め文書
データ1301を走査し、各レコードの書誌事項フィールド
の内容を書誌事項索引1306に格納する。
【0008】まず、 ステップ1401:ユーザは検索要求入力手段1307により、
検索要求文字列を入力する。検索要求文字列は検索条
件、ソート条件の2つの部分からなる。図15は検索要
求文字列の具体例を示しており、「松下 AND 新製
品」の部分は検索条件で、「松下」と「新製品」という
2つの検索語をともに記事本文に含むような記事を検索
することを意味し、「@HIDUKE @SHIME
I」の部分はソート条件で、検索結果を日付の新しい順
で並べ、同じ日付なら紙名コードの小さい順で並べると
いうことを意味している。日付、紙名コードがどちらも
同じ場合は適合度の順に並べる。
【0009】ステップ1402:単語頻度算定手段1308は、
全ての検索語を対象として、 ステップ1403:単語頻度索引1304を参照し、検索要求入
力手段1307によって入力された検索条件に含まれる検索
語について、当該単語が記事本文に出現するレコード数
と各レコードの内部番号、各レコードにおける当該単語
の出現頻度及び総レコード数を算出する。
【0010】ステップ1404:論理演算手段1309は、単語
頻度算定手段1308の出力したレコード集合間の論理演算
を行う。
【0011】ステップ1405:適合度算定手段1310は、全
ての検索結果レコードを対象として、 ステップ1406:論理演算手段1309の出力した各レコード
について、検索条件との適合度(Rel)を、たとえば
(数1)によって算出する。 Rel = Σ(TFi・IDFi) (Σはiについて加算) IDFi =1−log2(DFi/ND) (数1) ただし、TFiは検索語Wiのレコード内出現頻度、DF
iは語Wiの出現するレコード数、NDは総レコード数を
表す。
【0012】なお、適合度の算出方法は(数1)に限ら
ない。
【0013】ステップ1407:ソート情報取得手段1311
は、書誌事項索引1306を参照し、適合度算定手段1310の
出力した各レコードの、検索要求入力手段1307から入力
されたソート条件に対応する書誌事項の値をソート情報
として取得する。
【0014】図6はソート情報取得手段1311の出力内容
例を示しており、日付と紙面コードの値をソート情報と
して取得している。
【0015】ステップ1408:結果並べ替え手段1312は、
ソート情報として取得した複数の書誌事項をソートキー
として、ソート情報取得手段1311の出力を並べ替えて出
力する。このとき、すべての書誌事項の値が同じレコー
ドがあった場合には適合度の大きい順に並べ替える。
【0016】図16は、結果並べ替え手段1312の出力内
容の例である。
【0017】ステップ1409:結果表示手段1313は、結果
並べ替え手段1312の出力を整形してユーザに提示する。
【0018】
【発明が解決しようとする課題】しかし、従来の構成で
は、並べ替えのキーとして、適合度よりも、ソート条件
に指定した書誌事項の値などが優先されるために、適合
度の低い文書が上位に、適合度の高い文書が下位にラン
クされてしまうことがあり、所望の文書を効率良く探し
出すことができないという問題点があった。
【0019】たとえば、図8において最下位にランクさ
れている文書(レコード内部番号10)がこれに当たる。
【0020】本発明は、こうした従来技術の課題を解決
するものであり、ソート条件に指定された書誌事項の値
を並べ替えのキーとして重要視しながらも、ユーザが適
合度の範囲を限定することができ、指定した適合度範囲
に入らない文書を結果から除いたり、より下位にランク
することで、所望の文書を効率良く探し出すことが可能
な文書検索装置を提供し、また、その文書検索方法を提
供することを目的としている。
【0021】
【課題を解決するための手段】そこで、本発明の文書検
索装置では、検索要求文字列として、検索条件、ソート
条件に加え、適合度範囲指定を入力する検索要求入力手
段と、適合度が指定された適合度範囲に入らない文書を
検索結果から除く検索結果足切り手段とを設けている。
【0022】また、検索要求文字列として、検索条件、
ソート条件に加え、適合度範囲指定を入力する検索要求
入力手段と、文書の適合度が、指定された適合度範囲に
該当するかどうかにより、異なる区分けフラグを付与す
る中間結果区分け手段とを設けている。
【0023】また、本発明の文書検索方法では、検索条
件とソート条件と適合度の範囲とを指定する検索要求に
対して、蓄積された文書データから検索条件を満たす文
書を検索し、検索した各文書の適合度を算出し、各文書
のソート情報を取得し、検索要求で指定された適合度の
範囲に入らない文書を検索結果から除き、検索結果に残
った各文書を、まず、ソート情報で並べ替え、ソート情
報が同一だった場合に適合度の順に並べ替えて表示する
ようにしている。
【0024】また、この各文書のソート情報を取得する
手順と、検索要求で指定された適合度の範囲に入らない
文書を検索結果から除く手順とを入れ替えている。
【0025】また、検索条件と、ソート条件と、検索条
件に合致する度合を示す適合度の範囲とを指定する検索
要求に対して、蓄積された文書データから検索条件を満
たす文書を検索し、検出した各文書の適合度を算出し、
各文書をソート条件にしたがって並べ替えるための各文
書のソート情報を取得し、各文書の適合度を検索要求で
指定された適合度の範囲と比較して、その範囲に入るか
どうかを示す区分けフラグを各文書に付与し、各文書
を、まず、区分けフラグで並べ替え、区分けフラグの値
が同一だった場合には、ソート情報で並べ替え、ソート
情報が同一だった場合に適合度の順に並べ替えて表示す
るようにしている。
【0026】そのため、適合度がユーザの指定した範囲
から外れる文書を、検索結果から除いたり、より下位に
ランク付けすることができ、ソート条件を指定した場合
の、適合度の低い文書が上位に、適合度の高い文書が下
位にランクされてしまうという問題を回避することがで
きる。
【0027】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図を参照しながら説明する。
【0028】(第1の実施の形態)図1は本発明の第1
の実施形態における文書検索装置の構成を示したブロッ
ク図である。
【0029】この装置は、従来の装置(図13)と同様
に、検索対象となる新聞記事の文書データ101から辞書1
02に載る単語の単語頻度情報を抽出して単語頻度索引10
4に格納する単語頻度情報抽出手段103、文書データ101
から日付・紙名コードといった書誌事項の情報を取り出
して書誌事項索引106に格納する書誌事項抽出手段105、
検索要求入力手段107、単語頻度算定手段108、論理演算
手段109、適合度算定手段110、ソート情報取得手段11
2、結果並べ替え手段114、及び、結果表示手段115を備
えるとともに、適合度算定手段110によって算定された
各レコードの適合度を最大値に対する相対値へ変換して
ソート情報取得手段112に出力する相対適合度算定手段1
11と、ソート情報取得手段112から出力された検索結果
から適合度の値が指定した適合度範囲に入らないレコー
ドを除く中間結果足切り手段113とを備えている。
【0030】図2のフローチャートは、第1の実施形態
における検索の処理手順を示している。文書データ101
は、レコード区切り文字で区切られた複数のレコード
(文書)から成り、各レコードは、フィールド区切り文
字で区切られた複数のフィールドから成っている。図3
は文書データの具体例であり、フィールド区切り文字が
「^F」、レコード区切り文字が「^R」で、紙名コー
ド、日付、記事本文という3つのフィールドから成る新
聞記事データである。
【0031】単語頻度情報抽出手段103は、予め文書デ
ータ101を走査し、辞書102に登録されている単語が各レ
コードの記事本文フィールドに何回出現しているかをカ
ウントし、当該単語が出現しているレコード数及び総レ
コード数とともに、単語頻度索引1304に格納する。
【0032】また、書誌事項抽出手段105は、予め前記
文書データ101を走査し、各レコードの書誌事項フィー
ルドの内容を書誌事項索引106に格納する。
【0033】まず、ステップ201:ユーザは検索要求入
力手段107により、検索要求文字列を入力する。検索要
求文字列は検索条件、ソート条件、適合度範囲指定の3
つの部分からなる。図4は検索要求文字列の具体例を示
しており、「松下 AND 新製品」の部分は検索条件
で、「松下」と「新製品」という2つの検索語をともに
記事本文に含むような記事を検索することを意味し、
「@HIDUKE @SHIMEI」の部分はソート条
件で、検索結果を日付の新しい順で並べ、同じ日付なら
紙名コードの小さい順で並べるということを意味し、
「$70:」の部分は適合度範囲指定で、適合度が最大
である記事に対する相対適合度が70以上である記事だ
けを結果に含めることを意味している。日付、紙名コー
ドがどちらも同じ場合は適合度の順に並べる。なお、
「$70:90」のように適合度範囲指定の下限と上限
とを両方指定して、適合度が70以上90以下の記事を
結果に含めるといった指定や、上限だけを指定すること
も可能である。
【0034】ステップ202:単語頻度算定手段108は、全
ての検索語を対象として、 ステップ203:単語頻度索引104を参照し、検索要求入力
手段107によって入力された検索条件に含まれる検索語
について、当該単語が記事本文に出現するレコード数と
各レコードの内部番号、各レコードにおける当該単語の
出現頻度、及び総レコード数を算出する。
【0035】ステップ204:論理演算手段109は、単語頻
度算定手段108の出力したレコード集合間の論理演算を
行う。図5は図4に示した検索要求文字列の場合の論理
演算手段109の出力内容例を示しており、「松下」と
「新製品」がともに出現するレコード集合が求められて
いる。
【0036】ステップ205:適合度算定手段110は、全て
の検索結果レコードを対象として、 ステップ206:論理演算手段109の出力した各レコードに
ついて、検索条件との適合度を、例えば、前記(数1)
によって算出する。
【0037】ステップ207:相対適合度算定手段111は、
適合度算定手段110の出力した各レコードの適合度を、
それらの最大値で除して100倍した値に変換する。
【0038】ステップ208:ソート情報取得手段112は、
検索要求入力手段107で入力されたソート条件にしたが
って書誌事項索引106を参照し、相対適合度算定手段111
の出力した各レコードの、書誌事項の値をソート情報と
して取得する。図6はソート情報取得手段112の出力内
容例で、日付と紙面コードの値をソート情報として取得
している。
【0039】ステップ209:中間結果足切り手段113は、
ソート情報取得手段112から出力される全てのレコード
を対象にして、 ステップ210:そのレコードの適合度が検索要求入力手
段107から入力された適合度範囲指定に該当しているか
をチェックし、 ステップ211:該当していないレコードは、除外する。
【0040】図7は、適合度範囲指定が70以上の場合
に中間結果足切り手段113から出力される内容の例であ
る。
【0041】ステップ212:結果並べ替え手段114は、ソ
ート情報として取得した複数の書誌事項をソートキーに
して、中間結果足切り手段113の出力を並べ替え、全て
の書誌事項の値が同じレコードの場合には適合度の大き
い順に並べ替えて出力する。図8は、この結果並べ替え
手段114の出力内容の例である。日付が新しく、紙名コ
ードの小さい順に結果文書が並べられ、かつ、適合度が
指定した範囲外だった記事は除外されているため、ユー
ザは効率良く所望の文書を見つけることができる。
【0042】ステップ213:結果出力手段115は、結果並
べ替え手段114の出力を整形してユーザに提示する。
【0043】このように、この文書検索装置では、検索
した文書の中から適合度範囲に入らない文書を除いて表
示することができるため、所望の文書を効率よく探し出
すことができる。
【0044】また、検索結果の文書を適合度で足切りす
る場合に、検索結果を一旦適合度でソートし、適合度が
所定値に満たない文書を足切りする方法も考えられる
が、足切り前の検索結果の文書数は多いため、この文書
を対象とするソートの処理負担は極めて重くなる。これ
に対して、この実施形態の方法では、文書の適合度が、
指定された適合度範囲に入るかかどうかのチェックを、
各文書に対して行うだけであるから、前記ソート処理に
比べて軽い処理になる。従って、文書検索結果を迅速に
表示することができる。
【0045】なお、ステップ208のソート情報の取得
は、ステップ209のYESの後、即ち、検索結果の足切
りをした後の文書を対象に行うようにしても良く、そう
した場合には、ソート情報の取得の作業量を減らすこと
ができる。
【0046】(第2の実施の形態)第2の実施形態で
は、適合度のランクで区別して文書を表示する文書検索
装置について説明する。
【0047】この装置は、図9に示すように、ソート情
報取得手段912から出力された検索結果のレコードに対
して、適合度の値が指定された適合度範囲に入るかどう
かによって異なる区分けフラグを付与する中間結果区分
け手段913を備えている。また、第1の実施形態と異な
り、中間結果足切り手段は持たない。その他の構成は、
第1の実施形態(図1)と変わりがない。
【0048】図10は、第2の実施形態における、検索
の処理手順を示すフローチャートである。ここで、ステ
ップ1008までの手順は、第1の実施形態と同様の処理手
順である。
【0049】ステップ1009:中間結果区分け手段913
は、ソート情報取得手段912から出力される全てのレコ
ードを対象にして、 ステップ1010:そのレコードの適合度が検索要求入力手
段907から入力された適合度範囲指定に該当しているか
をチェックし、 ステップ1011:適合度範囲に該当しないレコードについ
ては区分けフラグの値として「2」を付与し、 ステップ1012:適合度範囲に該当するレコードについて
は区分けフラグの値として「1」を付与する。
【0050】図11は、中間結果区分け手段913の出力
内容の例である。
【0051】なお、適合度範囲として下限と上限の両方
が指定された場合には、中間結果区分け手段913が、適
合度範囲に該当しないレコードをさらに細分化して、上
限を超えるレコードには区分けフラグの値として「2」
を、下限に満たないレコードには区分けフラグの値とし
て「3」を与えるようにしても良い。
【0052】ステップ1013:結果並べ替え手段914は、
中間結果区分け手段913の出力を、区分けフラグの値の
降順で並べ替え、区分けフラグの値が同じだった場合に
は、ソート情報として取得した複数の書誌事項をソート
キーとして並べ替え、すべての書誌事項の値が同じレコ
ードがあった場合には適合度の大きい順に並べ替えて出
力する。
【0053】図12は、結果並べ替え手段914の出力内
容の例である。日付が新しく、紙名コードの小さい順に
結果文書が並べられ、かつ、適合度が指定した範囲外だ
った記事は、適合度が指定範囲内にある記事群よりも下
位にランクされるため、ユーザは効率良く所望の文書を
見つけることができる。
【0054】ステップ1014:結果出力手段915は、結果
並べ替え手段914の出力を整形してユーザに提示する。
【0055】このように、この実施形態の文書検索装置
では、検索された全ての文書を、適合度範囲に入るもの
と入らないものとに区分して表示することができる。ユ
ーザは、検索の目的に応じて、適合度範囲に該当する区
分の文書だけを見て文書検索を終了することもできる
し、特許文書を検索するときのように、1つの漏れも許
されない場合には、適合度範囲から外れる区分の文書に
ついても逐一調べることが可能である。
【0056】
【発明の効果】以上の説明から明らかなように、本発明
の文書検索装置及び文書検索方法では、適合度がユーザ
の指定した範囲から外れる文書を、検索結果から除いた
り、より下位にランク付けすることができる。
【0057】そうすることにより、ソート条件を指定し
た場合の、適合度の低い文書が上位に、適合度の高い文
書が下位にランクされてしまうという問題を回避でき、
所望の文書を効率良く検索することが可能になる。
【0058】また、各文書の適合度を最大値に対する相
対値に変換し、検索要求における適合度範囲指定も相対
値で指定することにより、適切な適合度範囲を容易に指
定できる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態における文書検索装
置の構成を示すブロック図、
【図2】第1の実施の形態における検索処理の手順を示
す流れ図、
【図3】文書データの一例を示す図、
【図4】第1の実施形態における検索要求文字列の一例
を示す図、
【図5】第1の実施形態における論理演算手段の出力内
容の一例を示す図、
【図6】第1の実施形態におけるソート情報取得手段の
出力内容の一例を示す図、
【図7】第1の実施形態における中間結果足切り手段の
出力内容の一例を示す図、
【図8】第1の実施形態における結果並べ替え手段の出
力内容の一例を示す図、
【図9】本発明の第2の実施の形態における文書検索装
置の構成を示すブロック図、
【図10】第2の実施の形態における検索処理の手順を
示す流れ図、
【図11】第2の実施形態における中間結果区分け手段
の出力内容の一例を示す図、
【図12】第2の実施形態における結果並べ替え手段の
出力内容の一例を示す図、
【図13】従来の文書検索装置の構成を示すブロック
図、
【図14】従来の検索処理の手順を示す流れ図、
【図15】検索要求文字列の一例を示す図、
【図16】結果並べ替え手段の出力内容の一例を示す図
である。
【符号の説明】
101、901、1301 文書データ 102、902、1302 辞書 103、903、1303 単語頻度情報抽出手段 104、904、1304 単語頻度索引 105、905、1305 書誌事項抽出手段 106、906、1306 書誌事項索引 107、907、1307 検索要求入力手段 108、908、1308 単語頻度算定手段 109、909、1309 論理演算手段 110、910、1310 適合度算定手段 111、911 相対適合度算定手段 112、912、1311 ソート情報取得手段 113 中間結果足切り手段 114、914、1312 結果並べ替え手段 115、915、1313 結果表示手段 913 中間結果区分け手段

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 蓄積された文書データを検索条件にした
    がって検索し、検索結果をソート条件にしたがって並べ
    替えて表示する文書検索装置において、 検索条件と、ソート条件と、前記検索条件に合致する度
    合を示す適合度の範囲指定とから成る検索要求文字列を
    入力する検索要求入力手段と、 前記検索条件を満たす文書を検索する検索手段と、 前記検索手段によって検索された各文書の前記適合度を
    算出する適合度算出手段と、 検索された前記各文書について、前記ソート条件にした
    がって並べ替えを行うためのソート情報を取得するソー
    ト情報取得手段と、 検索された前記各文書から、適合度が前記範囲指定され
    た適合度範囲に入らない文書を除く検索結果足切り手段
    と、 前記検索結果足切り手段から出力された前記適合度範囲
    に入る各文書を、まず、前記ソート情報で並べ替え、前
    記ソート情報が同一だった場合に前記適合度の順に並べ
    替える検索結果並べ替え手段と、 前記検索結果並べ替え手段によって並べ替えられた検索
    結果を表示する検索結果表示手段とを備えることを特徴
    とする文書検索装置。
  2. 【請求項2】 蓄積された文書データを検索条件にした
    がって検索し、検索結果をソート条件にしたがって並べ
    替えて表示する文書検索装置において、 検索条件と、ソート条件と、前記検索条件に合致する度
    合を示す適合度の範囲指定とから成る検索要求文字列を
    入力する検索要求入力手段と、 前記検索条件を満たす文書を検索する検索手段と、 前記検索手段によって検索された各文書の前記適合度を
    算出する適合度算出手段と、 検索された前記各文書について、前記ソート条件にした
    がって並べ替えを行うためのソート情報を取得するソー
    ト情報取得手段と、 検索された前記各文書の適合度を前記範囲指定された適
    合度範囲と比較し、前記適合度範囲に入るかどうかを示
    す区分けフラグを前記各文書に付与する検索結果区分け
    手段と、 前記検索結果区分け手段から出力された前記区分けフラ
    グが付与された各文書を、まず、前記区分けフラグで並
    べ替え、前記区分けフラグの値が同一だった場合には、
    前記ソート情報で並べ替え、前記ソート情報が同一だっ
    た場合に前記適合度の順に並べ替える検索結果並べ替え
    手段と、 前記検索結果並べ替え手段によって並べ替えられた検索
    結果を表示する検索結果表示手段とを備えることを特徴
    とする文書検索装置。
  3. 【請求項3】 前記検索手段は、前記検索条件に合致す
    る文書を検索するとともに、各文書における検索語の出
    現頻度を算出し、前記適合度算出手段は、前記検索手段
    で算出された検索語の出現頻度に基づいて各文書の前記
    適合度を算出することを特徴とする請求項1または請求
    項2に記載の文書検索装置。
  4. 【請求項4】 前記検索手段は、前記検索条件に合致す
    る文書を検索するとともに、検索語の出現する文書数、
    及び各文書における検索語の出現頻度を算出し、前記適
    合度算出手段は、各文書における検索語の出現頻度と、
    検索語の出現文書数とに基づいて各文書の前記適合度を
    算出することを特徴とする請求項1または請求項2に記
    載の文書検索装置。
  5. 【請求項5】 前記適合度算出手段は、各文書の適合度
    を算定する絶対適合度算定手段と、前記絶対適合度算定
    手段によって算定された各文書の適合度を、それらの内
    の最も高い適合度に対する相対値に変換する相対適合度
    算定手段とを具備し、前記適合度算出手段は、各文書の
    適合度として前記相対値で表された相対適合度を出力
    し、前記検索要求入力手段は、適合度の前記範囲指定を
    前記相対適合度で行うことを特徴とする請求項1または
    2に記載の文書検索装置。
  6. 【請求項6】 蓄積された文書データを検索条件にした
    がって検索し、検索結果をソート条件にしたがって並べ
    替えて表示する文書検索方法において、 検索条件と、ソート条件と、前記検索条件に合致する度
    合を示す適合度の範囲とを指定する検索要求に対して、 蓄積された文書データから前記検索条件を満たす文書を
    検索し、検出した各文書の前記適合度を算出し、前記各
    文書を前記ソート条件にしたがって並べ替えるための前
    記各文書のソート情報を取得し、前記検索要求で指定さ
    れた適合度の範囲に入らない文書を検索結果から除き、
    検索結果に残った各文書を、まず、前記ソート情報で並
    べ替え、前記ソート情報が同一だった場合に前記適合度
    の順に並べ替えて表示することを特徴とする文書検索方
    法。
  7. 【請求項7】 蓄積された文書データを検索条件にした
    がって検索し、検索結果をソート条件にしたがって並べ
    替えて表示する文書検索方法において、 検索条件と、ソート条件と、前記検索条件に合致する度
    合を示す適合度の範囲とを指定する検索要求に対して、 蓄積された文書データから前記検索条件を満たす文書を
    検索し、検出した各文書の前記適合度を算出し、前記検
    索要求で指定された適合度の範囲に入らない文書を検索
    結果から除き、検索結果に残った各文書を前記ソート条
    件にしたがって並べ替えるための前記各文書のソート情
    報を取得し、前記各文書を、まず、前記ソート情報で並
    べ替え、前記ソート情報が同一だった場合に前記適合度
    の順に並べ替えて表示することを特徴とする文書検索方
    法。
  8. 【請求項8】 蓄積された文書データを検索条件にした
    がって検索し、検索結果をソート条件にしたがって並べ
    替えて表示する文書検索方法において、 検索条件と、ソート条件と、前記検索条件に合致する度
    合を示す適合度の範囲とを指定する検索要求に対して、 蓄積された文書データから前記検索条件を満たす文書を
    検索し、検出した各文書の前記適合度を算出し、前記各
    文書を前記ソート条件にしたがって並べ替えるための前
    記各文書のソート情報を取得し、前記各文書の適合度を
    前記検索要求で指定された適合度の範囲と比較して前記
    範囲に入るかどうかを示す区分けフラグを前記各文書に
    付与し、前記各文書を、まず、前記区分けフラグで並べ
    替え、前記区分けフラグの値が同一だった場合には、前
    記ソート情報で並べ替え、前記ソート情報が同一だった
    場合に前記適合度の順に並べ替えて表示することを特徴
    とする文書検索方法。
  9. 【請求項9】 検出した各文書の前記適合度として、前
    記各文書の適合度の内の最も高い適合度に対する相対適
    合度を算出し、前記検索要求において、適合度の範囲を
    前記相対適合度で指定できるようにしたことを特徴とす
    る請求項6、請求項7または請求項8に記載の文書検索
    方法。
JP28830999A 1999-10-08 1999-10-08 文書検索装置及び文書検索方法 Expired - Lifetime JP3678615B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28830999A JP3678615B2 (ja) 1999-10-08 1999-10-08 文書検索装置及び文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28830999A JP3678615B2 (ja) 1999-10-08 1999-10-08 文書検索装置及び文書検索方法

Publications (2)

Publication Number Publication Date
JP2001109766A true JP2001109766A (ja) 2001-04-20
JP3678615B2 JP3678615B2 (ja) 2005-08-03

Family

ID=17728517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28830999A Expired - Lifetime JP3678615B2 (ja) 1999-10-08 1999-10-08 文書検索装置及び文書検索方法

Country Status (1)

Country Link
JP (1) JP3678615B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2004081821A1 (ja) * 2003-03-13 2006-06-15 富士通株式会社 記事データ検索サーバ、記事データ検索方法および記事データ検索プログラム
US7610270B2 (en) 2002-12-19 2009-10-27 Fuji Xerox Co. Ltd. Service retrieval apparatus having automatic change function for retrieval conditions and method therefor
JP2010055621A (ja) * 2008-08-29 2010-03-11 Ricoh Co Ltd 検索方法及び検索システム
JP2010061322A (ja) * 2008-09-03 2010-03-18 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置および情報検索プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610270B2 (en) 2002-12-19 2009-10-27 Fuji Xerox Co. Ltd. Service retrieval apparatus having automatic change function for retrieval conditions and method therefor
JPWO2004081821A1 (ja) * 2003-03-13 2006-06-15 富士通株式会社 記事データ検索サーバ、記事データ検索方法および記事データ検索プログラム
JP2010055621A (ja) * 2008-08-29 2010-03-11 Ricoh Co Ltd 検索方法及び検索システム
JP2010061322A (ja) * 2008-09-03 2010-03-18 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置および情報検索プログラム

Also Published As

Publication number Publication date
JP3678615B2 (ja) 2005-08-03

Similar Documents

Publication Publication Date Title
JP3664874B2 (ja) 文書検索装置
US7809695B2 (en) Information retrieval systems with duplicate document detection and presentation functions
US6772170B2 (en) System and method for interpreting document contents
JPH08190564A (ja) 情報検索方法及びシステム
US6738786B2 (en) Data display method and apparatus for use in text mining
JPH11120203A (ja) データベースを合併する方法およびデータベースからドキュメントを検索する装置
CN104881398B (zh) 中国作者所发英文文献的作者机构信息抽取方法
CN111400323A (zh) 数据检索方法、系统、设备及存储介质
JPH0486950A (ja) 文書検索方法
US20040078361A1 (en) System and method for analyzing patent families
JP3333998B2 (ja) 自動分類付与装置および方法
JP2003271609A (ja) 情報監視装置及び情報監視方法
JP3678615B2 (ja) 文書検索装置及び文書検索方法
JP3693514B2 (ja) 文書検索・分類方法および装置
JPH08287086A (ja) 適合度順画像強調表示方法及び装置
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
JPH064584A (ja) 文章検索装置
JP3081093B2 (ja) 索引作成方法およびその装置と文書検索装置
JP2002215647A (ja) テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそれらに用いるプログラム
JPH06124308A (ja) 情報整理処理装置
JP2004342016A (ja) 情報探索プログラム及び情報探索プログラムを記録した媒体
JP2003345824A (ja) 文書検索装置及び文書検索方法、文書検索プログラム
JPH07262199A (ja) 検索結果分類装置
JPH11134364A (ja) 体系化知識解析方法及び装置並びに分類方法及び装置
JP6403850B1 (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050208

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050510

R150 Certificate of patent or registration of utility model

Ref document number: 3678615

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090520

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100520

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110520

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110520

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120520

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120520

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130520

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130520

Year of fee payment: 8

EXPY Cancellation because of completion of term