JPH0628403A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH0628403A
JPH0628403A JP4182438A JP18243892A JPH0628403A JP H0628403 A JPH0628403 A JP H0628403A JP 4182438 A JP4182438 A JP 4182438A JP 18243892 A JP18243892 A JP 18243892A JP H0628403 A JPH0628403 A JP H0628403A
Authority
JP
Japan
Prior art keywords
document
index
format
storage means
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4182438A
Other languages
English (en)
Inventor
Mikiro Sasaki
幹郎 佐々木
Hiromichi Ishikawa
浩通 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP4182438A priority Critical patent/JPH0628403A/ja
Publication of JPH0628403A publication Critical patent/JPH0628403A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 文書の必要な部分のみを高速に検索できる文
書検索装置を得る。 【構成】 2は入力された文書をパラグラフに分割して
インデクスを作成するインデクス作成手段、3はインデ
クスを記憶するインデクス記憶手段、5は書式を記憶す
る書式記憶手段、6はパラグラフの検索の目安となる位
置情報を作成する検索情報作成手段、7は検索情報作成
手段6により得られた情報を記憶する検索情報記憶手
段、15は文書取り出しを文書単位でなく、パラグラフ
単位で行える部分検索手段、12は検索した文書におい
て、文書単位だけでなく、パラグラフ単位で内容文章を
も出力できる検索結果出力手段である。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は蓄積された文書の中か
らキーワードを用いて、特に書式が予め決まっている文
書を検索する文書の検索装置に関するものである。
【0002】
【従来の技術】図22は第41回情報処理学会全国大会で
発表されたフルテキストデータベース検索システム「検
蔵君」の文書検索装置を示すブロック構成図である。な
お、図中実線は制御の流れを示し、点線はデータの流れ
を示している。図において、1は文書を入力するワープ
ロなどの文書入力手段であり、入力された文書は磁気デ
ィスク装置などの文書記憶手段13に格納される。8は
検索要求として検索条件となるキーワードなどを入力す
る検索要求入力手段、14は入力されたキーワードに基
づき文書記憶手段内の文書データを検索し、検索要求に
適合する文書を限定する文書検索手段、10は使用者が
どの文書を取り出すのかを指定する文書取り出し要求入
力手段、11は文書取り出し要求に基づいて文書記憶手
段13から対象文書を取り出す文書取り出し手段、12
はどの文書が検索要求に適合したかという検索結果や取
り出した文書データなどをディスプレイなどの出力装置
に示す検索結果出力手段である。
【0003】従来例の動作について、図22のブロック
図を用いて説明する。文書そのものはワープロなどの文
書入力手段1によって入力され、文書記憶手段13に記
憶される。
【0004】従来例の検索処理について説明する。文書
内容との照合を行うためのキーワードなどの検索要求が
検索要求入力手段8により入力される。入力された検索
要求は、文書検索手段14へ送られ、文書検索手段14
により文書記憶手段13内のすべての文書内容について
キーワードによる検索が行われる。検索の結果、検索要
求に適合する文書が限定されるとそれらの文書情報は検
索結果出力手段12へ送られ、検索結果出力手段12に
よりディスプレイなどに出力される。
【0005】次に文書の取り出し処理について説明す
る。使用者は出力された検索結果を見て取り出したい文
書を決め、文書取り出し要求手段10により文書番号や
文書名などの文書取り出し要求を入力する。入力された
文書取り出し要求は文書取り出し手段11に送られ、文
書記憶手段13の中から文書取り出し要求に一致する文
書のデータが文書取り出し手段11により取り出され、
検索結果出力手段12へ送られる。検索結果出力手段1
2は送られてきた文書データをディスプレイなどに出力
する。
【0006】他の従来例について説明する。図23は、
例えば、(株)平和情報センターの日本語文書情報系デ
ータベースシステム”Future/Happiness”のカタログに
記載されているような従来のキーワードを用いた文書検
索装置を示すブロック構成図である。なお、図中、実線
は制御の流れを示し、点線はデータの流れを示してい
る。
【0007】図23を参照しながらこの従来例の構成を
説明する。図において、1は文書を入力するワープロ等
の文書入力手段であり、入力された文書は磁気ディスク
装置等の文書記憶手段に格納される。231は格納され
た文書から自然言語処理機能によりキーワードを自動的
に抽出登録するキーワード登録手段であり、抽出された
キーワードは磁気ディスク装置等のキーワード記憶手段
に格納される。8は検索要求となるキーワード等を入力
するキーボードディスプレイ等の検索要求入力手段、1
4は入力されたキーワードに基づきキーワード記憶手段
16を用いて検索要求に適合する文書を限定する文書検
索手段、11はこの限定された文書の実体を、上記文書
記憶手段13より取り出す文書取り出し手段であり、こ
のようにして得られた検索結果はディスプレイ等の検索
結果出力手段12により出力される。
【0008】次に動作について説明する。先ず文書その
ものは文書入力手段1により入力され、文書記憶手段1
3に格納される。また同時に、キーワード登録手段23
1では入力された文書を文法に基づき、単語毎に分割す
る分かち書き処理を行った後、分割された単語を評価し
て、助詞等の不要な用語を除去することにより、検索時
に必要となるキーワードを自動的に抽出し、キーワード
記憶手段232に格納する。
【0009】次に、検索時について説明する。検索者は
文書記憶手段13に記憶されている文書の中から自分の
欲しい文書を検索する場合、検索要求入力手段8に検索
条件としてキーワードを入力する。文書検索手段14
は、キーワード記憶手段232に格納されているキーワ
ードと、検索要求入力手段8で入力されたキーワードと
のマッチングを行い、検索者の欲する文書を検索する。
文書取り出し手段11では、文書検索手段14で検索さ
れた文書の実体を文書記憶手段13から取り出し、検索
結果出力手段12であるディスプレイ等の表示装置に出
力する。
【0010】この従来例の文書検索装置は以上のように
して、蓄積された大量の文書からキーワードをもとにし
て検索を行うものである。
【0011】
【発明が解決しようとする課題】従来の文書検索装置は
以上のように構成されているので、キーワードなどの検
索要求により、全文書の全範囲を検索する必要があり、
検索に時間がかかるという問題点があった。また、入力
されたキーワードをもとに全文書にわたって検索される
ために、検索者が本来期待しない文書部分でのマッチン
グが行われ、不要な文書まで出力されてしまうという問
題点があった。さらに、検索結果として文書を取り出す
場合、文書単位でしか取り出せず、検索者は、その文書
の中から自分の見たい必要なところを探さなければなら
なかった。
【0012】また、従来の文書検索装置は、以上のよう
に構成されていたので、文書データに対して付加したキ
ーワードを基に検索を行うことはできても、このキーワ
ードが数および種別を限定されているために、キーワー
ドで文書の内容を詳細に表現することは困難であり、文
書の内容を示す詳細な事項を指定して文書の検索を行う
ことはできないという問題点があった。また、キーワー
ドを基に検索を行う場合、上記に示したようにキーワー
ドでは多様な意味を持つ文書の内容をすべて表現するこ
とはできないため、検索者が欲したものの他に、不要な
ものまで検索されてしまうという問題点があった。
【0013】この発明はこのような問題点を解消するた
めになされたものであり、高速に文書の検索ができ、文
書中の必要な部分だけを取り出せる文書検索装置を得る
ことを目的とする。
【0014】
【課題を解決するための手段】この発明の請求項1に係
る文書検索装置は、検索すべき対象となる文書を記憶す
る文書記憶手段と、検索する文書の書式がどのような構
成であるかを示す複数の項目を記憶する書式記憶手段
と、文書記憶手段に記憶されている文書の内容を見て、
書式記憶手段に記憶されている複数の項目に対応して文
書の部分が、文書の中にあるかどうかを識別し、項目に
対応する部分があったなら、その部分を項目に対応する
インデクスとして記憶するインデクス記憶手段と、イン
デクス記憶手段により記憶されるインデクスの中に存在
する検索すべき対象となる部分を検索するインデクス検
索手段を備えたものである。
【0015】この発明の請求項2に係る文書検索装置
は、請求項1のインデクス記憶手段において、項目の種
別に対応して、形式の異なる複数種類のインデクスを有
することができるものである。
【0016】この発明の請求項3に係る文書検索装置
は、検索すべき対象となる文書を記憶する文書記憶手段
と、検索する文書の書式がどのような構成であるかを示
す複数の項目を記憶する書式記憶手段と、書式記憶手段
により記憶される項目を特定の群として定める書式辞書
を設けて、それを記憶する書式辞書記憶手段と、文書記
憶手段に記憶されている文書の内容と、書式記憶手段に
より記憶されている書式辞書とに基づき、書式記憶手段
の項目を書式辞書の項目と比べ、書式に項目に対応する
部分が文書にあるかどうかを識別し、それにより、文書
の部分を項目に対応するインデクスを作成して、記憶す
るインデクス記憶手段と、インデクス記憶手段により記
憶されるインデクスの中に存在する検索すべき対象とな
る部分を検索するインデクス検索手段を備えたものであ
る。
【0017】この発明の請求項4に係る文書検索装置
は、検索すべき対象となる文書を記憶する文書記憶手段
と、検索する文書の書式がどのような構成であるかを示
す複数の項目を記憶する書式記憶手段と、文書記憶手段
に記憶されている文書の内容を見て、書式記憶手段に記
憶されている複数の項目に対応して文書の部分が、文書
の中にあるかどうかを識別し、項目に対応する部分があ
ったなら、その部分を項目に対応するインデクスとして
記憶するインデクス記憶手段と、インデクス記憶手段に
より記憶される文書のある部分を検索するために、イン
デクスにおける文書の部分が、文書記憶手段に記憶され
ている文書のどの部分に存在するかという位置情報を記
憶している検索情報記憶手段と、検索情報記憶手段によ
り記憶される位置情報を用いて、文書記憶手段により記
憶される文書の部分を検索する部分検索手段を備えたも
のである。
【0018】
【作用】この発明の請求項1の文書検索装置において
は、文書が一定の書式に従って書かれている点に着目
し、インデクス記憶手段はあらかじめ入力しておいた文
書書式を用いて、文書データを論理的にまとまりのある
パラグラフに分割し、インデクスとして格納し、このイ
ンデクスを検索することにより、文書全体を検索の対象
とせず、パラグラフ単位で検索ができる。また、検索時
に、このようなインデクスを用いることにより、パラグ
ラフを検索することになり、文書の内容に関する詳細な
事項を指定して検索を行うことができる。
【0019】この発明の請求項2の文書検索装置におい
ては、インデクス記憶手段は、インデクスの作成時、例
えば、特許明細書における「書類名」、「発明の名称」
などの構成を示す項目において、その項目に記される内
容文章の長さが定まるパラグラフについては、固定長で
あるパラグラフとして、その他長さが定まらないものに
ついては、可変長であるパラグラフとして、格納するこ
とができるようにインデクスの種類を分けるので、検索
要求に対して、どちらかの適切なインデクスを選択して
パラグラフの検索を行うことができる。
【0020】この発明の請求項3の文書検索装置におい
ては、辞書を設けた、書式内に含まれない任意の項目を
辞書に登録しておくことにより、書式内の項目と同様に
扱い、それに従い、インデクスを検索できる。
【0021】この発明の請求項4の文書検索装置におい
ては、検索情報記憶手段の記憶する位置情報に従い、部
分検索手段により、検索要求に適合した文書に関して適
合したパラグラフのみを検索結果として文書記憶手段か
ら取り出すことができるので、必要な情報のみ得ること
ができる。
【0022】
【実施例】
実施例1.図1は、実施例1におけるの文書検索装置の
全体構成を示すブロック図である。従来例の図22と同
一または相当部分には同一符号を用い、その説明は省略
する。図1において、2は入力された文書を書式に基づ
いて、論理的な意味を持つ文章のかたまりであるパラグ
ラフに分割して、パラグラフの種別毎にまとめたインデ
クスを作成するインデクス作成手段である。3はインデ
クス作成手段2により、パラグラフの種別ごとにまとめ
たインデクスを記憶する磁気ディスクなどのインデクス
記憶手段である。4は、1つの文書がどのようなパラグ
ラフで構成されているのかを示す書式を、文書の種別ご
とに入力する書式入力手段、5は、その書式を記憶する
磁気ディスク装置などの書式記憶手段である。6はイン
デクス作成手段2によって分割されたパラグラフが、文
書記憶手段13に記憶されている元の文書においてどの
部分だったのか、そして、インデクス記憶手段3内のど
の場所に記憶されているのかというパラグラフの検索の
目安となる位置情報を作成する検索情報作成手段、7は
検索情報作成手段6により得られた情報を記憶する磁気
ディスク装置などの検索情報記憶手段である。8は前記
図22で示した検索要求入力手段8を改良したもので、
検索要求を1つの文書全体に対してだけでなく、1つの
文書内の各パラグラフに対しても出すことができるよう
になっている。9は検索要求手段8で入力された検索要
求に対し、インデクス記憶手段3内のインデクスのパラ
グラフを検索し、1パラグラフの検索ごとに検索範囲の
絞り込みを行うインデクス検索手段である。10は前記
図22で示した文書取り出し要求入力手段10を改良し
たもので、文書取り出し要求を文書単位でなく、文書内
のパラグラフ単位で指定できるようにしたものである。
11は前記図22で示した文書取り出し手段11を改良
したもので、文書取り出し要求入力手段10の指定によ
り、文書取り出しを文書単位でなく、パラグラフ単位で
行えるようにした部分検索手段15を含んでいる。12
は前記図22で示した検索結果出力手段12を改良した
もので、文書取り出し手段11により取り出してきたデ
ータを、文書単位だけでなく、パラグラフ単位でも出力
できるようにしている。なお、新たに備えられたインデ
クス作成手段2や検索情報記憶手段7などは、計算機シ
ステムを構成するプロセッサとその上で動作するソフト
ウェアによって実現されている。
【0023】次に動作について説明する。前述したよう
に、本実施例は文書が一定の書式に従って書かれている
点に着目したものであり、例えば、規格書・仕様書など
の技術文書は図2に示すようにそれぞれ定まった書式を
有している。文書の書式は予め書式入力手段4から入力
され、書式記憶手段5に格納される。このとき、文書の
書式は、書式の同じ文書を扱う場合には1種類でよい
が、種別の異なる文書を扱う場合には文書の種別によっ
て書式が異なるために、その種別の数だけ入力される。
これらの文書の種別や構成を示す書式データは、文書を
パラグラフごとに分割する際や検索要求入力時に、その
種別が、決められた指定を用いて行われる。
【0024】一般に文書は、パラグラフ(ある意味に従
い、かたまりとみなされる論理的な単位)の集まりから
なる。このパラグラフには図3の例でいうと、「文書
名」や「適用範囲」等のように、その内容文章の長さが
何文字以内と定まっているもの(固定長パラグラフ)
と、「一般要求事項」のようにその長さが何文字以内と
いうように定まらないもの(可変長パラグラフ)があ
る。従って、書式として入力される書式データは、図4
に示すように、文書がどのようなパラグラフから構成さ
れているかを表す文書構造41、パラグラフの内容を表
す書式項目名42、書式項目名に対して付けられた書式
項目番号43、パラグラフが固定長か可変長かを表す固
定長/可変長フラグ44、書式項目名に対して付けられ
るパラグラフID45などにより構成されることにな
り、パラグラフ構成情報として対応するフラグで表現さ
れる。
【0025】文書そのものは従来例通り文書入力手段1
によって入力される。入力された文書は、インデクス作
成手段2において、書式記憶手段5内の書式データの参
照により該当する文書種別のパラグラフ構成情報が得ら
れ、複数のパラグラフへと分割される。更に、分割され
た各パラグラフは、図5のようにパラグラフの種別ごと
にまとめられ、インデクスとして作成される。そして、
インデクス作成手段2で作成されたインデクスは、イン
デクス記憶手段3により格納される。
【0026】次に、本実施例でのインデクスの詳細につ
いて説明する。図6は固定長パラグラフのインデクスを
記憶する固定長パラグラフインデクス記憶手段の構造を
示したものである。この固定長パラグラフインデクス記
憶手段については、パラグラフのデータ長が定まるた
め、インデクスデータを1つの表形式のデータで管理す
ることができる。このため固定長パラグラフインデクス
記憶手段では、リレーショナルデータベースの実現が図
れ、検索時に高速な検索を行うことができる。
【0027】図7は可変長パラグラフのインデクスを記
憶する可変長パラグラフインデクス記憶手段の構造を示
したものである。この可変長パラグラフインデクス記憶
手段については、パラグラフのデータ長が定まらないた
め、各パラグラフのインデクスごとにデータを一つの表
形式で管理する。
【0028】インデクス作成手段2により作成されるイ
ンデクスにおいてのパラグラフ分割の前の元文書に関す
る情報(文書名、作成者など)と、インデクス記憶手段
3により記憶されるパラグラフ分割後に関する情報(文
書中の位置情報、格納場所など)はリンクされ、図8に
示すように、位置情報として検索情報作成手段6により
作成され、検索情報記憶手段7に記憶される。
【0029】次に本実施例の検索処理について説明す
る。従来の検索要求入力は文書記憶手段13に登録され
ている全文書に対し、それぞれの文書の内容すべてを検
索対象として、キーワードを入力することで検索が行わ
れていた。本実施例では、図9に示すように文書の種類
を選択し、書式記憶手段5内の書式データのパラグラフ
構成情報を参照することにより、各パラグラフを検索対
象としてキーワードを入力する。入力されたキーワード
は、文書の種別の情報や検索対象のパラグラフの種別の
情報と一緒にインデクス検索手段9へと送られる。イン
デクス検索手段9では、検索要求手段8から送られてき
た検索要求に基づいて、インデクス記憶手段3に記憶さ
れたパラグラフをキーワードに基づき検索する。その結
果、検索要求に適合する文書が限定される。
【0030】なお、定型な文書書式をもつ文書において
は、文書構造、書式項目名、書式項目番号が図4に示し
たように書式データのパラグラフ構成情報として定まっ
ているが、実際には図10に示すように、書き手が自分
の使いやすいように項目名を変え、書式を変えて文書を
作成するケースがある。この様な場合には、同じ書式で
あっても、違う書式データを作成することになってしま
う。本実施例の文書検索装置は、書き手によって文書書
式が違う文書に対しても、インデクス作成手段2におい
て、書式辞書及び書式辞書記憶手段を設けたので、その
違いに対応することができる。書式辞書とは、定型な文
書書式に対して、書き手が自分の作り易いように文書書
式を変更して作成した文書からでも、インデクスの作成
を可能にするために設けられたものである。具体的には
図11に示すように、予め定まっている書式項目名に対
して、書き手が変更して書き得る可能性のある項目名を
辞書としたものであり、図4のパラグラフ構成情報のパ
ラグラフID45を書式項目名に対応して蓄積してい
る。
【0031】図12はインデックス作成手段2の構成を
示すブロック図である。16は書式記憶手段5に記憶さ
れている文書書式の各項目に対応した書式項目名をあら
かじめ辞書として入力する、ワープロ等の書式辞書入力
手段、17は入力された書式辞書を記憶する磁気ディス
ク装置等の書式辞書記憶手段、18は文書記憶手段13
に蓄積されている文書データの中からその中に書かれて
いる書式項目名を抽出し、抽出された書式項目名と書式
辞書記憶手段17に記憶されている書式辞書の項目名と
を比較することによって、分割されたパラグラフと文書
書式との対応付けを行うインデクス作成手段である。な
お、インデクス作成手段2は、計算機システムを構成す
るプロセッサとその上で動作するソフトウエアによって
実現されている。
【0032】インデクス作成の動作について図12を用
いて説明する。インデクス作成手段2において、文書入
力手段1から文書が入力され文書記憶手段13に格納さ
れる度に、書式記憶手段5に記憶されている文書の書式
データを用いて、文書記憶手段13の文書データをパラ
グラフに分割し、インデクスを作成する。
【0033】上記のインデクス作成手段2は、図13に
示すような一連の処理を行う。以下に、それぞれの処理
について図14の文書例をもとに説明を行う。
【0034】(a)書式項目名抽出処理131;文書記
憶手段13に蓄積されている文書データの中から、新た
に登録された文書データを先頭行から読みだし、書式項
目番号(図4の43参照)を検出した場合は、その次に
書かれている書式項目名を抽出する。図14の文書で
は、先ず先頭行として「1.文書名称」が読み込まれ書
式項目番号「1.」が検出され、続く「文書名称」が書
式項目名として抽出される。
【0035】(b)パラグラフID獲得処理132;
(a)で抽出された書式項目名をキーとして書式辞書の
検索を行い、マッチングしたデータのパラグラフIDを
得る。図11に示した書式辞書を例にとると、図14の
文書では、書式項目名「文書名称」はパラグラフIDが
「1」に対応することが分かる。
【0036】(c)パラグラフ抽出処理133;(a)
で書式項目名が検出された次の行から、また書式項目名
が検出されるまでデータを読み込む。この際読み込まれ
たデータがパラグラフである。図14の文書では、次の
書式項目番号「適用する範囲」が検出されるまでのデー
タ、すなわち、2行目の「△△△仕様書」がパラグラフ
データとして抽出される。
【0037】(d)インデックス作成・登録処理13
4;(b)で得られたパラグラフIDおよび、(c)で
抽出されたパラグラフデータを図15に示すように対応
付けてインデクスデータとしてインデクス記憶手段に出
力する。なお、本実施例では、検索の際に高速化を図る
ため、先に述べたように固定長パラグラフと可変長パラ
グラフの場合でインデクスの記憶手段を分けている。イ
ンデクスの登録の際には、書式記憶手段5に記憶される
書式データのパラグラフ構成情報(文書構造、書式項目
名、書式項目番号、パラグラフID、固定長/可変長フ
ラグ)を参照し、(b)で得られたパラグラフIDをキ
ーとして、該当する書式項目の固定長/可変長フラグを
チェックし、(c)で得られたパラグラフを固定長パラ
グラフインデクス記憶手段に登録するか、可変長パラグ
ラフインデクス記憶手段に登録するかを判定している。
【0038】(e)継続行の判定135;(a)〜
(d)の処理の後に、文書内に継続行がある場合は、継
続行がなくなるまで繰り返して処理する。
【0039】次に検索時について説明する。例えば、図
16(a)、(b)に示すようなインデクスデータが、
上述したインデクス作成手段2によって作成され、それ
ぞれ固定長パラグラフインデクス、可変長パラグラフイ
ンデクスに格納される。また図16(c)に示すような
書式データが書式記憶手段5に格納される。このような
場合に、検索者が「書式項目『適用範囲』の中に『文書
検索装置』というワードがあるもの」というように文書
の内容を指定して検索を行いたいときは、検索要求入力
手段8において、図17(a)に示すように書式記憶手
段5に記憶されている書式を画面上に表示し、検索者は
システムが表示したこの書式の書式項目毎に、文書の内
容を表すワードをキーワードとして入力することにより
検索が行える。上記の例では、書式項目『適用範囲』に
対して、キーワード『文書検索装置』を入力することに
なる。このようにして入力された、文書の内容を指定し
た検索条件は、図17(b)に示すように、書式データ
のパラグラフIDとキーワードを組として、文書名が検
索結果として(c)のように検索結果手段12に出力さ
れる。なお、この際、同時に、書式データのうち指定さ
れた書式項目の固定長/可変長フラグも同時に出力され
る。
【0040】ここで、文書取り出し手段11は、インデ
クス記憶手段3に記憶されたインデクスデータを用い
て、検索要求入力手段8より入力された検索条件をもと
に検索を行う。図17の例では、先ず、検索条件の中で
キーワードが設定された書式項目の固定長/可変長フラ
グを判定する。図17の例では検索条件の中で、固定長
パラグラフを表すフラグが示されているので、固定長パ
ラグラフインデクスを用いて検索を行う。具体的には、
固定長パラグラフインデクスの中で、パラグラフIDが
「2」の列に存在するパラグラフの中に、キーワードと
して入力したワードが存在するかどうかを調べ、存在し
た場合には検索条件に適合したものとみなす。この場
合、図17(c)に示すように文書Bが検索結果として
得られるが、さらに、文書取り出し手段11により、文
書記憶手段13から文書の内容が取り出され、検索結果
出力手段8であるディスプレイ等の表示装置に出力され
る。
【0041】また、上記では固定長パラグラフに対応し
た書式項目にキーワードが設定された場合について説明
したが、可変長パラグラフに対応した書式項目にキーワ
ードを設定することももちろん可能である。図18は上
記のような検索の具体例を示したものであり、可変長パ
ラグラフに対応した書式項目『一般要求事項』の中に
『マルチメディア』というワードがある文書を検索する
場合を示している。検索要求の入力は、図18(a)に
示すように、書式項目が固定長パラグラフに対応したも
のと同様に、書式項目『一般要求事項』に対して、キー
ワード『マルチメディア』を入力するだけでよい。従っ
て、検索者はキーワードを入力しようとしている書式項
目が固定長か可変長かについては意識する必要がない。
図18(b)は検索条件を示している。この場合、固定
長/可変長フラグが可変長に設定される。
【0042】ここで、文書取り出し手段11は、インデ
クス記憶手段に記憶されたインデクスデータを用いて、
検索要求入力手段8より入力された検索条件をもとに検
索を行う。この場合、可変長パラグラフを表すフラグが
示されているので、可変長パラグラフインデクスを用い
て検索を行う。具体的には、可変長パラグラフインデク
スデータの中でパラグラフIDが「4」のパラグラフデ
ータの中にキーワードとして入力したワードが存在する
かどうかを調べ、存在した場合には検索条件に適合した
ものとみなす。この場合、図18(c)に示すように文
書A、Bが検索結果として得られる。以上の検索により
検索結果として得られた文書は、文書取り出し手段11
により文書記憶手段13より取り出され、検索結果出力
手段12であるディスプレイ等の表示装置に出力され
る。
【0043】本実施例での部分検索手段15について説
明する。検索者は出力された検索結果を見て、自分の取
り出したい文書を決め、文書取り出し要求手段10によ
り、文書取り出し要求を入力する。このとき、従来方式
では文書単位でしか内容の取り出しが指定できなかった
のに対し、本実施例では図19に示すように、文書のパ
ラグラフまで指定して取り出し要求が入力できる。入力
された文書取り出し要求は文書取り出し手段11に送ら
れ、要求に適合した文書が取り出される。このとき、文
書取り出し手段11は図8に示す検索情報記憶手段7内
の位置情報を参照して、部分検索手段15により、文書
記憶手段13内の文書の内容をパラグラフ単位で取り出
すことができる。部分検索手段15により得られたパラ
グラフは、検索結果出力手段12により出力される。
【0044】実施例2.上記実施例では、一つの書式項
目に対してキーワードを入力する場合を説明したが、複
数の書式項目に対してキーワードを入力し、検索するこ
とももちろん可能である。図20は上記のような検索の
具体例を示したものであり、書式項目『適応範囲』の中
に『装置』というワードがあり、しかも、書式項目『一
般要求事項』の中に『マルチメディア』というワードが
ある文書を検索する場合を示している。この場合は、固
定長パラグラフインデクス記憶手段19と可変長パラグ
ラフインデクス記憶手段20を用いることにより検索が
行なわれる。
【0045】実施例3.実施例1の検索要求入力手段8
において、複数のパラグラフを検索対象としてキーワー
ドの入力が行われた場合、インデクス検索手段9は、検
索情報記憶手段7を参照して、1パラグラフ検索ごとに
インデクス内における検索範囲の絞り込みを行いながら
検索を行うことが可能である。図21のようにインデク
スA、B、Cに対して結合条件ANDでそれぞれのパラ
グラフに対してあるキーワードが入力された場合、イン
デクス検索手段9はまずインデクスAの検索を行う。イ
ンデクスAに対する検索の結果、文書1・文書3・文書
4が条件に適合したとする。次のインデクスBの検索を
行う際に、インデクス検索手段9は検索情報記憶手段7
を参照して、インデクスB内の文書1・文書3・文書4
の部分のみを検索対象として取り出し、検索を行う。以
降はこの繰り返しにより検索範囲の絞り込みが行われ
る。なお、検索要求の結合条件がORの場合は、条件に
適合した文書以外の文書のパラグラフを次の検索対象と
することにより、絞り込みが行われる。そして、インデ
クス検索手段9により限定された文書のパラグラフは、
検索結果出力手段12によりディスプレイなどに出力さ
れる。このように、検索要求が複数のパラグラフに対し
てある場合、パラグラフごとに検索が行われる際に、前
のパラグラフの検索結果から検索要求に適合する文書が
限定されるので、検索情報記憶手段を参照することで、
その次のパラグラフ検索では前回の検索時より範囲を限
定した検索を行うことができる。
【0046】実施例4.実施例1では、インデクス記憶
手段において、文書の分割されたパラグラフを有すると
したが、これは、文書記憶手段に対して文書検索を行う
よりも、インデクス記憶手段に対して検索を行うほう
が、より高速に検索できるためである。しかし、この方
法では、記憶容量の問題があると思われる場合には、イ
ンデクス記憶手段においてパラグラフを有さず、そのか
わり、パラグラフの存在する文書記憶手段内の文書の位
置を情報としてインデクス記憶手段で有することで、イ
ンデクス記憶手段のパラグラフの位置情報を元に、常に
文書記憶手段に対して文書を検索する方法を取ってもよ
い(ただし、この方法では、時間的問題がある)。ま
た、インデクス記憶手段では、文書記憶手段に記憶され
ている文書のパラグラフそのものと全く同じものを記憶
していてもよいし、あるいは、文書記憶手段に記憶され
ている文書のパラグラフにおいて、罫線情報や特殊な文
字コード情報などの不要な情報を除いた部分のみを記憶
しているものであってもよい。
【0047】実施例5.実施例1において、インデクス
記憶手段では、検索の高速化を狙い、固定長パラグラフ
インデクス記憶手段と可変長パラグラフインデクス記憶
手段とを分別して設けたが、特にこの2種類に分別する
必要はなく、例えば、英文と和文の区別と言うように、
他の種別による記憶手段を、インデクス記憶手段におい
て、設けるものであってもよい。また。記憶手段の分別
は、2種類以上であってもよい。
【0048】実施例6.実施例1において、書式辞書記
憶手段は、インデクス作成手段が有するとして説明した
が、特にインデクス作成手段が有さずに、独立した機能
として存在してもよい。書式辞書入力手段においても、
同様である。
【0049】実施例7.実施例1において、書式記憶手
段に記憶される書式データのパラグラフ構成情報は、図
4に示すように、数字のフラグを使用しているが、例え
ば、文字や記号を使用するものでもよい。また、書式記
憶手段に記憶される書式データの構成は、図4のような
階層構造以外に、表形式などの形式でも構わない。
【0050】実施例8.実施例1において、部分検索手
段は、文書取り出し手段に含まれるとしたが、独立した
機能として存在してもよい。また、部分検索手段の実施
方法は図19に示したが、検索対象とするパラグラフの
選択の方法に関しては、特に限定はしない。
【0051】
【発明の効果】以上のように請求項1の発明による文書
検索装置では、文書を記憶する文書記憶手段と、文書の
書式の構成を示す項目を記憶する書式記憶手段と、文書
記憶手段により記憶される文書から、書式記憶手段に記
憶されている項目に対応する部分を識別して、その部分
を項目に対応するインデクスとして記憶するインデクス
記憶手段と、インデクス記憶手段により記憶されるイン
デクスを検索するインデクス検索手段とを設けたことに
より、文書の検索時にパラグラフ単位で検索ができるの
で、検索者の目的に応じて、適格で高速な検索ができ
る。
【0052】以上のように請求項2の発明による文書検
索装置では、請求項1のインデクス記憶手段が、項目に
対応して、形式の異なるインデクスを有することによ
り、検索対象のパラグラフを固定長と可変長に分別して
管理できるので、検索者の必要な文書のみを高速に検索
することが可能である。
【0053】以上のように請求項3の発明による文書検
索装置では、文書を記憶する文書記憶手段と、文書の書
式の構成を示す項目を記憶する書式記憶手段と、書式記
憶手段により記憶される項目に対応する項目を書式辞書
として記憶する書式辞書記憶手段と、文書記憶手段によ
り記憶されている文書と、書式記憶手段に記憶されてい
る項目と、書式辞書記憶手段により記憶される書式辞書
に基づき、インデクスを作成して記憶するインデクス記
憶手段と、インデクス記憶手段により記憶されるインデ
クスを検索するインデクス検索手段とを設けたことによ
り、書式の類似している文書を同一書式とみなして検索
できるので、検索者の目的に応じた文書を適格に検索で
きる。
【0054】以上のように請求項4の発明による文書検
索装置では、文書を記憶する文書記憶手段と、文書の書
式の構成を示す項目を記憶する書式記憶手段と、文書記
憶手段により記憶される文書から、書式記憶手段に記憶
されている項目に対応する文書の部分を識別して、その
部分を項目に対応するインデクスとして記憶するインデ
クス記憶手段と、インデクス記憶手段により記憶される
インデクスに対応する文書の部分を検索するための検索
情報を記憶する検索情報記憶手段と、検索情報記憶手段
により記憶される検索情報を用いて、文書の部分を検索
する部分検索手段とを設けたことにより、検索対象の文
書を、文書の内容全体としてだけでなく、そのないよう
の一部分であるパラグラフも検索できるので、検索者の
必要な情報のみを高速に得ることができる。
【図面の簡単な説明】
【図1】本発明の実施例1における文書検索装置の全体
構成を示すブロック図である。
【図2】本発明の実施例1で用いられる一定の書式に従
って書かれている文書の一例を示す図である。
【図3】本発明の実施例1の書式と文書データにおける
パラグラフの対応を示す図である。
【図4】本発明の実施例1の書式データにおけるパラグ
ラフ構成情報の例を示す図である。
【図5】本発明の実施例1のインデクス作成手段により
分割された文書のパラグラフが、インデクス記憶手段に
より格納される例を示す図である。
【図6】本発明の実施例1の固定長パラグラフインデク
ス記憶手段の構成を示す図である。
【図7】本発明の実施例1の可変長パラグラフインデク
ス記憶手段の構成を示す図である。
【図8】本発明の実施例1のインデクス記憶手段と検索
情報記憶手段の関係を示す図である。
【図9】本発明の実施例1の検索処理の流れを示す図で
ある。
【図10】本発明の実施例1の文書書式の一例を示す図
である。
【図11】本発明の実施例1の文書書式と書式辞書の対
応を示す図である。
【図12】本発明の実施例1のインデクス作成手段の構
成を示す図である。
【図13】本発明の実施例1のインデクス作成手段の処
理の流れを示す図である。
【図14】本発明の実施例1の文書例を示す図である。
【図15】本発明の実施例1の文書データと書式データ
におけるパラグラフIDの対応を示す図である。
【図16】本発明の実施例1の固定長パラグラフインデ
クスデータと可変長パラグラフインデクスデータにおけ
るパラグラフIDの書式データへの対応を示す図であ
る。
【図17】本発明の実施例1の固定長パラグラフに対応
した検索方法の一例を示す図である。
【図18】本発明の実施例1の可変長パラグラフに対応
した検索方法の一例を示す図である。
【図19】本発明の実施例1の部分検索手段によるパラ
グラフの検索方法を示す図である。
【図20】本発明の実施例2の検索方法を示す図であ
る。
【図21】本発明の実施例3の検索においてインデクス
のパラグラフの絞り込み方法を示す図である。
【図22】従来例の文書検索装置の全体構成を示すブロ
ック図である。
【図23】従来例の文書検索装置の全体構成を示すブロ
ック図である。
【符号の説明】
1 文書入力手段 2 インデクス作成手段 3 インデクス記憶手段 4 書式入力手段 5 書式記憶手段 6 検索情報作成手段 7 検索情報記憶手段 8 検索要求入力手段 9 インデクス検索手段 10 文書取り出し要求入力手段 11 文書取り出し手段 12 検索結果出力手段 13 文書記憶手段 15 部分検索手段 17 書式辞書記憶手段 19 固定長パラグラフインデクス記憶手段 20 可変パラグラフインデクス記憶手段

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 所定の書式を有する文書を検索する文書
    検索装置において、以下の要素を有する文書検索装置 (a)文書を記憶する文書記憶手段、 (b)文書の書式の構成を示す項目を記憶する書式記憶
    手段、 (c)文書記憶手段により記憶される文書から、書式記
    憶手段に記憶されている項目に対応する部分を識別し
    て、その部分を項目に対応するインデクスとして記憶す
    るインデクス記憶手段、 (d)インデクス記憶手段により記憶されるインデクス
    を検索するインデクス検索手段。
  2. 【請求項2】 上記インデクス記憶手段は、項目に対応
    して、形式の異なるインデクスを有することを特徴とす
    る請求項1記載の文書検索装置。
  3. 【請求項3】 所定の書式を有する文書を検索する文書
    検索装置において、以下の要素を有する文書検索装置 (a)文書を記憶する文書記憶手段、 (b)文書の書式の構成を示す項目を記憶する書式記憶
    手段、 (c)書式記憶手段により記憶される項目に対応する項
    目を書式辞書として記憶する書式辞書記憶手段、 (d)文書記憶手段により記憶されている文書と、書式
    記憶手段に記憶されている項目と、書式辞書記憶手段に
    より記憶される書式辞書に基づき、インデクスを作成し
    て記憶するインデクス記憶手段、 (e)インデクス記憶手段により記憶されるインデクス
    を検索するインデクス検索手段。
  4. 【請求項4】 所定の書式を有する文書を検索する文書
    検索装置において、以下の要素を有する文書検索装置 (a)文書を記憶する文書記憶手段、 (b)文書の書式の構成を示す項目を記憶する書式記憶
    手段、 (c)文書記憶手段により記憶される文書から、書式記
    憶手段に記憶されている項目に対応する文書の部分を識
    別して、その部分を項目に対応するインデクスとして記
    憶するインデクス記憶手段、 (d)インデクス記憶手段により記憶されるインデクス
    に対応する文書の部分を検索するための検索情報を記憶
    する検索情報記憶手段、 (e)検索情報記憶手段により記憶される検索情報を用
    いて、文書の部分を検索する部分検索手段。
JP4182438A 1992-07-09 1992-07-09 文書検索装置 Pending JPH0628403A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4182438A JPH0628403A (ja) 1992-07-09 1992-07-09 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4182438A JPH0628403A (ja) 1992-07-09 1992-07-09 文書検索装置

Publications (1)

Publication Number Publication Date
JPH0628403A true JPH0628403A (ja) 1994-02-04

Family

ID=16118275

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4182438A Pending JPH0628403A (ja) 1992-07-09 1992-07-09 文書検索装置

Country Status (1)

Country Link
JP (1) JPH0628403A (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319918A (ja) * 1994-05-24 1995-12-08 Fuji Xerox Co Ltd 文書検索対象指示装置
JPH09153066A (ja) * 1995-11-29 1997-06-10 Matsushita Electric Ind Co Ltd 文書検索装置
JPH1145254A (ja) * 1997-07-25 1999-02-16 Just Syst Corp 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145255A (ja) * 1997-07-25 1999-02-16 Just Syst Corp 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
AU702753B2 (en) * 1996-04-02 1999-03-04 Norton Company Radiation curable formulations
JPH1185765A (ja) * 1997-09-08 1999-03-30 Toshiba Corp タグ付文書検索システム
JPH11224263A (ja) * 1998-02-09 1999-08-17 Fuji Xerox Co Ltd キーワード検索装置及びキーワード検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000010988A (ja) * 1998-06-19 2000-01-14 Nec Corp 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体
JP2000112953A (ja) * 1998-09-30 2000-04-21 Fujitsu Kiden Ltd 文献検索方法、及びそのシステム
JP2001195406A (ja) * 2000-01-06 2001-07-19 Media Fusion Co Ltd データベース管理システム
JP2004005714A (ja) * 1993-05-25 2004-01-08 Ricoh Co Ltd 論理構造文書検索方式
US7139971B1 (en) 1999-07-21 2006-11-21 Nec Corporation Method of searching for and retrieving information from structure documents
WO2009028513A1 (ja) * 2007-08-29 2009-03-05 Nec Corporation コンテンツの公開システム及び該システムにおける公開コンテンツの保証方法
JP2009245041A (ja) * 2008-03-31 2009-10-22 Hitachi Ltd 文書評価支援方法及びシステム
WO2016162961A1 (ja) * 2015-04-08 2016-10-13 株式会社日立製作所 文章検索装置
JP6555704B1 (ja) * 2019-04-08 2019-08-07 株式会社AI Samurai 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63217465A (ja) * 1987-03-03 1988-09-09 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 情報抽出方法
JPH0484271A (ja) * 1990-07-26 1992-03-17 Nippon Telegr & Teleph Corp <Ntt> 文書内情報検索装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63217465A (ja) * 1987-03-03 1988-09-09 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 情報抽出方法
JPH0484271A (ja) * 1990-07-26 1992-03-17 Nippon Telegr & Teleph Corp <Ntt> 文書内情報検索装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005714A (ja) * 1993-05-25 2004-01-08 Ricoh Co Ltd 論理構造文書検索方式
JPH07319918A (ja) * 1994-05-24 1995-12-08 Fuji Xerox Co Ltd 文書検索対象指示装置
JPH09153066A (ja) * 1995-11-29 1997-06-10 Matsushita Electric Ind Co Ltd 文書検索装置
AU702753B2 (en) * 1996-04-02 1999-03-04 Norton Company Radiation curable formulations
JPH1145254A (ja) * 1997-07-25 1999-02-16 Just Syst Corp 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145255A (ja) * 1997-07-25 1999-02-16 Just Syst Corp 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1185765A (ja) * 1997-09-08 1999-03-30 Toshiba Corp タグ付文書検索システム
JPH11224263A (ja) * 1998-02-09 1999-08-17 Fuji Xerox Co Ltd キーワード検索装置及びキーワード検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000010988A (ja) * 1998-06-19 2000-01-14 Nec Corp 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体
JP2000112953A (ja) * 1998-09-30 2000-04-21 Fujitsu Kiden Ltd 文献検索方法、及びそのシステム
US7139971B1 (en) 1999-07-21 2006-11-21 Nec Corporation Method of searching for and retrieving information from structure documents
JP2001195406A (ja) * 2000-01-06 2001-07-19 Media Fusion Co Ltd データベース管理システム
US6701328B1 (en) 2000-01-06 2004-03-02 Media Fusion Co., Ltd. Database management system
WO2009028513A1 (ja) * 2007-08-29 2009-03-05 Nec Corporation コンテンツの公開システム及び該システムにおける公開コンテンツの保証方法
JP5471444B2 (ja) * 2007-08-29 2014-04-16 日本電気株式会社 コンテンツの公開システム及び該システムにおける公開コンテンツの保証方法
JP2009245041A (ja) * 2008-03-31 2009-10-22 Hitachi Ltd 文書評価支援方法及びシステム
WO2016162961A1 (ja) * 2015-04-08 2016-10-13 株式会社日立製作所 文章検索装置
JP6555704B1 (ja) * 2019-04-08 2019-08-07 株式会社AI Samurai 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
US11023721B2 (en) 2019-04-08 2021-06-01 Ai Samurai Inc. Document information evaluating device, document information evaluating method, and document information evaluating program

Similar Documents

Publication Publication Date Title
US10073875B2 (en) System and method of search indexes using key-value attributes to searchable metadata
JP2896634B2 (ja) 全文登録語検索装置および全文登録語検索方法
US5745745A (en) Text search method and apparatus for structured documents
US8135717B2 (en) Processor for fast contextual matching
JP2742115B2 (ja) 類似文書検索装置
KR970076328A (ko) 문서 정보 검색 시스템
JPH0628403A (ja) 文書検索装置
JPWO2004034282A1 (ja) コンテンツ再利用管理装置およびコンテンツ再利用支援装置
JPH0484271A (ja) 文書内情報検索装置
JPH08147311A (ja) 構造化文書検索方法及び装置
JPH0944523A (ja) 関連語提示装置
JPH05128152A (ja) 文書検索支援方法
JP2503333B2 (ja) 全文インデックス検索方法
JPH0744579A (ja) 論理構造文書検索方式
JP2002183195A (ja) 概念検索方式
JPH0773187A (ja) 検索システム
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3264252B2 (ja) 文書処理装置及び処理方法並びに制御プログラムを記録した記録媒体
JP2000339342A (ja) 文書検索方法および文書検索装置
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
JP3187671B2 (ja) 電子辞書表示装置
JP2001092831A (ja) 文書検索装置及び文書検索方法
JPH08115340A (ja) 文書検索装置およびそれに用いるインデックスファイルの作成装置
JPH07182370A (ja) テキスト検索装置
JPH09212523A (ja) 全文検索方法