JPH07129622A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH07129622A
JPH07129622A JP5296093A JP29609393A JPH07129622A JP H07129622 A JPH07129622 A JP H07129622A JP 5296093 A JP5296093 A JP 5296093A JP 29609393 A JP29609393 A JP 29609393A JP H07129622 A JPH07129622 A JP H07129622A
Authority
JP
Japan
Prior art keywords
documents
search
character string
graph
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5296093A
Other languages
English (en)
Inventor
Hiroyuki Sakakura
弘行 坂倉
Motoyoshi Sawatani
元喜 澤谷
Katsunobu Shibata
克信 柴田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Steel Corp
Original Assignee
Nippon Steel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Steel Corp filed Critical Nippon Steel Corp
Priority to JP5296093A priority Critical patent/JPH07129622A/ja
Publication of JPH07129622A publication Critical patent/JPH07129622A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 特定の文字列が含まれる文書の検索時間を可
及的に短縮し、検索効率を向上することが可能な文書検
索装置を提供する。 【構成】 必要に応じて全ての文書に対して特定文字列
をあいまい検索し、その一致度を判断し、更に一致度毎
に対応する文書の数を集計してその集計結果を表及び/
またはグラフにて表示すれば、一致度の閾値の最適値を
一目で判断できるばかりでなく、指定した検索文字列等
の検索条件が適切か否かを容易に判断でき、検索時間を
短縮し、検索効率を向上することが可能となる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文書検索装置に関し、特
に対象文字列の不完全一致をも含むあいまい検索を行う
ための文書検索装置に関するものである。
【0002】
【従来の技術】従来、例えば多数の文書が記憶された記
憶装置に於ける各文書内に特定の文字列が含まれている
か否かを調べる場合、通常はその文字列全てが含まれて
いるか否かのみを調べる完全一致の検索が行われていた
が、特にカタカナ表記された長い外来語等の検索を行う
場合、表記の微妙な違いにより検索できないことがあっ
た。また、検索対象の文書が多いなど、検索対象となる
文書の全体量が大きいと検索が著しく遅くなると云う問
題があった。
【0003】そこで、本願出願人と同一出願人による特
開平4−326164号公報には、文書の記憶時に、同
時に各文字(コード)の自己相関情報を文書毎に記憶し
ておき、検索時に検索文字列の各文字の自己相関情報を
求めて、その有無を検出する構造とすることで、各検索
対象文書内に於ける検索文字列の有無のみならずその一
致度をも容易に、かつ高速に調べることが可能な検索シ
ステムが開示されている。このようなシステムにより各
文書に対する特定文字列の検索が高速化される。
【0004】上記したようなあいまい検索を行う場合、
検索文字列、検索範囲の指定、検索文字列にどの程度ま
で一致している文字列を有する文書を抽出するか、即ち
一致度の閾値の設定など、様々な検索条件の設定を行う
必要がある。ここで、一致度の閾値は、例えば0%に設
定すれば全件抽出され、100%に設定すれば、従来の
完全一致の検索と同様な検索結果となるものである。こ
の条件設定時に例えば指定した検索文字列が短すぎると
一致度の閾値を100%に設定しても抽出件数が必要以
上に多くなったり、指定した検索文字列が長すぎると一
致度の閾値を低く設定しても抽出件数が少なすぎるとい
うことが起こり得る。また、指定した検索文字列が適切
であっても一致度の閾値によっては所望の抽出件数とな
らないことがある。このような場合、従来は閾値を徐々
に変化させて所望の抽出件数となったところで抽出され
た文書を読み出したり、場合によっては検索文字列を変
えるなどの試行錯誤を繰り返して所望の検索結果を得る
ようにしていたことから、検索時間が長くなりがちにな
る問題があった。
【0005】
【発明が解決しようとする課題】本発明は上記したよう
な従来技術の問題点に鑑みなされたものであり、その主
な目的は、特定の文字列が含まれる文書の検索時間を可
及的に短縮し、検索効率を向上することが可能な文書検
索装置を提供することにある。
【0006】
【課題を解決するための手段】上述した目的は本発明に
よれば、記憶装置に記憶された複数の文書に対して特定
文字列の不完全一致をも含むあいまい検索を行うための
文書検索装置であって、前記全文書に対して前記特定文
字列を照合してその一致度を判断するための評価部と、
前記一致度毎に対応する文書の数を集計するための集計
処理部と、前記集計処理部による集計結果を表及び/ま
たはグラフにて表示するための表示部とを有し、必要に
応じて前記一致度毎に対応する文書の数を表及び/また
はグラフにて表示可能としたことを特徴とする文書検索
装置を提供することにより達成される。
【0007】
【作用】このように、必要に応じて全ての文書に対して
特定文字列をあいまい検索し、その一致度を判断し、更
に一致度毎に対応する文書の数を集計してその集計結果
を表及び/またはグラフにて表示すれば、一致度の閾値
の最適値を一目で判断できるばかりでなく、指定した検
索文字列等の検索条件が適切か否かを容易に判断でき
る。
【0008】
【実施例】以下、本発明の好適実施例を添付の図面につ
いて詳しく説明する。
【0009】図1は、本発明が適用されたクライアント
・サーバ型のワークステーションのシステム構成を示す
ブロック図である。このシステムは、大容量記憶装置2
を有するサーバ1と、このサーバ1に公知のネットワー
ク3を介して接続された複数のクライアント機4とを有
している。
【0010】記憶装置2内には多数の文書が記憶されて
いる。これら文書には、記憶時に同時に各文字(コー
ド)の自己相関情報がマップとして作成され、一種のイ
ンデックスとしてその文書と共に記憶され、サーバ1に
管理されている。
【0011】図2に示すように、サーバ1には上記した
自己相関情報から特定文字列を検索し、その一致度を判
断するため、更に必要に応じて全文書に対して特定文字
列を照合してその一致度を判断するための評価部11
と、一致度毎に対応する文書の数を集計するための集計
処理部12とが設けられ、必要に応じて特定文字列の全
文書に対する一致度を判断し、この一致度毎に対応する
文書の数を集計してその結果を表及びグラフにて表示部
13に表示することが可能となっている。
【0012】以下に、本実施例の作動要領の概略につい
て図3のフローチャートに沿って説明する。或るクライ
アント機4から特定の文字列、例えば文字列「フィード
フォワード」の検索を記憶装置2に記憶された全文書に
対して行う場合、クライアント機4から上記文字列を
「検索キー」として入力すると共にマウスなどのポイン
ティングデバイスをもって表示部13に表示された閾値
設定スライダ21の一致度の閾値を例えば70%以上と
設定する(検索条件の設定:ステップ1)。そして、こ
のクライアント機4がサーバ1にアクセスし、サーバ1
の評価部11にて全文書に対して検索が行われる(ステ
ップ2)。このとき、上記したように予め各文書の自己
相関情報がマップとして作成され記憶されていることか
ら、文字列「フィードフォワード」についても自己相関
情報を作成して上記マップに照合するのみで高速な検索
を行うことができるようになっている。この検索の速度
は全文書の容量には殆ど依存せず、検索する文字列の長
さに依存するものである。
【0013】評価部11にて行われた検索結果はそのま
まクライアント機4に送られ、そのディスプレイに上記
設定閾値以上の一致度の文書タイトルをその件数と共に
図4に示すように一括表示する(ステップ3)。そし
て、操作者が例えば図4に於ける「ソート」キー22を
ポインティングデバイスによりクリックすることにより
一致度の高い順に並べ換えて表示する。ここで、操作者
が図4に於ける「分布表示」キー23をクリックした場
合にはステップ5〜ステップ10を実行し、操作者が図
4に於ける表示された文書のうちの一つ、例えば「浮上
支持装置」を選択(クリック)した場合、ステップ11
にてその内容を表示して終了する。
【0014】操作者が「分布表示」キー23をクリック
した場合のステップ5では、評価部11にて記憶装置2
に記憶された全文書に対して上記文字列「フィードフォ
ワード」を照合してその一致度を判断すると共に集計処
理部12にて一致度毎に対応する文書の数を集計し、ス
テップ6にて、図5に示すようにポップアップウィンド
ウ24にて一致度に対する件数を表25及びグラフ26
として表示する。操作者はこの表及びグラフからステッ
プ1で設定した検索条件が適正であったか否かを判断で
き、適正でないと判断した場合、図5の「キー作成」キ
ー27をクリックすることにより(ステップ7)、ステ
ップ1に戻って検索文字列の変更などの検索条件を再設
定することができる。
【0015】一方、操作者が検索条件は適正であると判
断した場合には図5の表25の任意の一致度(例えば8
0%の位置)またはグラフ26の任意の位置(例えば右
下矢印の位置)にポインタを移動してクリックしたり、
閾値設定スライダ21を移動することにより閾値を変え
たり、抽出件数表示部28の表示件数を変えることによ
りその件数となる閾値に設定する(ステップ8)。ここ
で、件数で設定する場合には検索条件によっては丁度そ
の件数にならないことがあるが、その場合には最も近い
抽出件数となる閾値に設定されるようになっている。
【0016】次に、ステップ9にてステップ3と同様に
設定閾値以上の一致度の文書タイトルをその件数と共に
図4に示すように一括表示する。そして更に一致度の閾
値を変えたい場合には再度「分布表示」キー23をクリ
ックすれば図5の画面となり(ステップ10)、ステッ
プ8〜ステップ10を繰り返し、所望の検索結果が得ら
れたと判断したら操作者が図4に於ける表示された文書
のうちの一つを選択し、ステップ11にてその内容を表
示して終了する。
【0017】一方、図4に示すような画面上で検索する
特定文字列(検索キー)を順番に、または同時に複数個
入力し、AND、OR、ANDNOTの条件で複合検索
することも容易にできる。例えば文字列「微分」と、文
字列「フィードフォワード」と、文字列「制御」とを順
番に、または同時にAND、OR、ANDNOTの条件
での複合検索しても良い。
【0018】
【発明の効果】以上の説明により明らかなように、本発
明による文書検索装置によれば、必要に応じて全ての文
書に対して特定文字列をあいまい検索し、その一致度を
判断し、更に一致度毎に対応する文書の数を集計してそ
の集計結果を表及び/またはグラフにて表示すれば、一
致度の閾値の最適値を一目で判断できるばかりでなく、
指定した検索文字列等の検索条件が適切か否かを容易に
判断でき、検索時間を短縮し、検索効率を向上すること
が可能となる。
【図面の簡単な説明】
【図1】本発明が適用されたクライアント・サーバ型の
ワークステーションのシステム構成を示すブロック図で
ある。
【図2】本発明が適用されたクライアント・サーバ型の
ワークステーションに於けるサーバ及びクライアント機
の機能構成の一部を示すブロック図である。
【図3】本発明が適用されたクライアント・サーバ型の
ワークステーションに於ける文書の検索手順を示すフロ
ーチャートである。
【図4】クライアント機のディスプレイ画面の表示状態
を示す説明図である。
【図5】クライアント機のディスプレイ画面の表示状態
を示す説明図である。
【符号の説明】
1 サーバ 2 記憶装置 3 ネットワーク 4 クライアント機 11 評価部 12 集計処理部 13 表示部 21 閾値設定スライダ 22 「ソート」キー 23 「分布表示」キー 24 ポップアップウィンドウ 25 表 26 グラフ 27 「キー作成」キー 28 抽出件数表示部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 記憶装置に記憶された複数の文書に対
    して特定文字列の不完全一致をも含むあいまい検索を行
    うための文書検索装置であって、 前記全文書に対して前記特定文字列を照合してその一致
    度を判断するための評価部と、 前記一致度毎に対応する文書の数を集計するための集計
    処理部と、 前記集計処理部による集計結果を表及び/またはグラフ
    にて表示するための表示部とを有し、 必要に応じて前記一致度毎に対応する文書の数を表及び
    /またはグラフにて表示可能としたことを特徴とする文
    書検索装置。
JP5296093A 1993-11-01 1993-11-01 文書検索装置 Pending JPH07129622A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5296093A JPH07129622A (ja) 1993-11-01 1993-11-01 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5296093A JPH07129622A (ja) 1993-11-01 1993-11-01 文書検索装置

Publications (1)

Publication Number Publication Date
JPH07129622A true JPH07129622A (ja) 1995-05-19

Family

ID=17829038

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5296093A Pending JPH07129622A (ja) 1993-11-01 1993-11-01 文書検索装置

Country Status (1)

Country Link
JP (1) JPH07129622A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09101991A (ja) * 1995-07-31 1997-04-15 Toshiba Corp 情報フィルタリング装置
JP2001117939A (ja) * 1999-10-20 2001-04-27 Just Syst Corp クエリ出力装置、文献検索システム、クエリ出力方法、文献検索方法、並びに、記録媒体
JP2015022568A (ja) * 2013-07-19 2015-02-02 富士通株式会社 情報処理プログラム、装置、及び方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04326164A (ja) * 1991-04-25 1992-11-16 Nippon Steel Corp データベース検索システム
JPH05101107A (ja) * 1991-10-07 1993-04-23 Hitachi Ltd 適合率を用いた絞り込みデータ検索装置及び方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04326164A (ja) * 1991-04-25 1992-11-16 Nippon Steel Corp データベース検索システム
JPH05101107A (ja) * 1991-10-07 1993-04-23 Hitachi Ltd 適合率を用いた絞り込みデータ検索装置及び方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09101991A (ja) * 1995-07-31 1997-04-15 Toshiba Corp 情報フィルタリング装置
JP2001117939A (ja) * 1999-10-20 2001-04-27 Just Syst Corp クエリ出力装置、文献検索システム、クエリ出力方法、文献検索方法、並びに、記録媒体
JP2015022568A (ja) * 2013-07-19 2015-02-02 富士通株式会社 情報処理プログラム、装置、及び方法

Similar Documents

Publication Publication Date Title
US11663230B2 (en) Interface including graphic representation of relationships between search results
EP0722145B1 (en) Information retrieval system and method of operation
US11023510B2 (en) Apparatus and method for displaying records responsive to a database query
US6401087B2 (en) Information retrieval system, apparatus and method for selecting databases using retrieval terms
US7693910B2 (en) Method of searching documents and a service for searching documents
JP2003345810A (ja) 文書検索方法、文書検索システム及び文書検索結果示方システム
JP2669601B2 (ja) 情報検索方法及びシステム
JPH07129622A (ja) 文書検索装置
JP3929418B2 (ja) 情報探索プログラム及び情報探索プログラムを記録した媒体
JPH07146880A (ja) 文書検索装置及び方法
JPH03294964A (ja) 文書検索方法
JP2000163439A (ja) 電子ファイル検索装置および電子ファイル検索方法
RU2409849C2 (ru) Способ поиска информации в политематических массивах неструктурированных текстов
JPH07146872A (ja) 文書検索装置
JP2939841B2 (ja) データベース検索装置
JP3315755B2 (ja) 階層化文書の文字列検索装置
JPH06337897A (ja) 文書検索装置及び文書検索方法
US20040193589A1 (en) Key word frequency calculation method and program for carrying out the same
JPH1069490A (ja) 文書絞り込み検索装置、文書絞り込み検索方法及び文書検索装置
JP2828395B2 (ja) データベース検索システムにおける選択率予測方法および選択率算出装置
JPH04135278A (ja) 文書検索装置
JPH09269952A (ja) 文書検索装置及びその方法
JPH10320402A (ja) 検索式作成方法、検索式作成装置、及び記録媒体
JPH06301733A (ja) 情報検索表示装置
JPH03294965A (ja) 文書検索方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20021022