JPH08272822A - 文書登録装置及び文書検索装置 - Google Patents

文書登録装置及び文書検索装置

Info

Publication number
JPH08272822A
JPH08272822A JP7096106A JP9610695A JPH08272822A JP H08272822 A JPH08272822 A JP H08272822A JP 7096106 A JP7096106 A JP 7096106A JP 9610695 A JP9610695 A JP 9610695A JP H08272822 A JPH08272822 A JP H08272822A
Authority
JP
Japan
Prior art keywords
document
unit
search
keyword
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7096106A
Other languages
English (en)
Inventor
Hiroshi Yamaguchi
浩 山口
Makoto Ando
誠 安藤
Akio Yamashita
明男 山下
Kazuo Aihara
一雄 相原
Tatsuomi Kita
辰臣 喜多
Hiroko Matsuo
裕子 松尾
Shinji Kawamoto
真司 川本
Naomi Hiraoka
直美 平岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP7096106A priority Critical patent/JPH08272822A/ja
Publication of JPH08272822A publication Critical patent/JPH08272822A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 文書のフォーマットに係わらず、登録或いは
検索した文書にキーワードの文書中での位置に基づいた
重要度付けをする。 【構成】 文書登録装置では、入力手段1から入力され
た文書を分割手段2でブロック単位に分割し、付与手段
4でブロック単位に文書及びブロック単位を識別する識
別子を付与するともに、抽出手段3でブロック単位から
キーワードを抽出し、登録手段5で識別子をキーワード
とを対応付けて記憶手段6にインデック登録する。ま
た、文書検索装置では、入力手段11から入力された検
索要求を抽出手段12で解析して検索キーワードを抽出
し、検索手段13で検索キーワードに基づいて前記イン
デックスから該当する文書を検索し、更に、優先度付け
手段14で識別子によって特定されるブロック単位に基
づいて検索された文書に対して優先度付けを行い、出力
手段15に検索された文書を優先度を示して出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書情報を段落等のブ
ロック単位でキーワードと対応付けたインデックスに登
録する文書登録装置、及び、当該インデックスから検索
キーワードを用いて検索した文書に優先度付けを行う文
書検索装置に関する。
【0002】
【従来の技術】従来より、文書登録において、文書中か
ら抽出したキーワードと当該文書名等の文書識別子とを
対応付けてインデックスに登録することが行われてい
る。また、これに対応して、文書検索において、インデ
ックスから検索キーワードを用いて所望の文書を検索す
ることが行われている。ここで、検索キーワードが含ま
れる文書中の位置は当該文書の重要度を示すものである
との観点から、予め認識した登録文書のフォーマットに
基づいて、登録文書から抽出したキーワードに文書中の
位置に応じた重み付けをしてファイルを作成し、当該フ
ァイルに基づいて検索を行うことにより、重要性の高い
検索キーワードでの検索は重点的に行う一方、重要性の
低い検索キーワードでの検索は簡単に行うようにして、
検索処理の軽減を図った検索装置が知られている(特開
平3−294963号公報)。
【0003】また、全ての検索キーワードを論理積でつ
なげた検索式を用いて文書検索を行うことにより、検索
結果として得られる文書の数を複数の検索キーワードで
絞り込む検索システムとして、財団法人日本特許情報機
構が提供する特許情報オンラインシステム(Patent On-
Line Information System)が知られている。この検索
システムでは、検索キーワードを論理積の検索式として
特許文書を検索し、全ての検索キーワードを含む特許文
書を検索結果として出力する。
【0004】
【発明が解決しようとする課題】上記した従来の検索装
置(特開平3−294963号公報)は、特許文書や論
文のように文書フォーマットが一定し且つ重要な事項が
記載されている部分が予め認識できる文書に対しては或
る程度の効果が期待できる。しかしながら、この検索装
置にあっては、文書フォーマットに基づいてキーワード
に重み付けをしているため、文書フォーマットが一定し
ていない一般的な文書に対しては、検索キーワードが含
まれる文書中の位置に基づいて文書に重要度付けするこ
とはできないという問題があった。
【0005】また、上記した従来の検索システム(特許
情報オンラインシステム)は、検索キーワードの論理積
による検索で重要度の高い文書に絞り込むことができ
る。しかしながら、この検索システムにあっては、検索
の結果得られた複数の文書に対しては何ら重要度を示す
ものではなく、多くの文書が検索結果として得られた場
合には更に検索処理を続行しなければならないという問
題があった。
【0006】本発明は上記従来の事情に鑑みなされたも
ので、文書フォーマットが定まっていない文書に対して
も、検索された文書に対してキーワードの位置に基づく
重要度付けを可能にした文書登録装置及び文書検索装置
を提供することを目的とする。すなわち、請求項1及び
請求項2の発明は、文書を分割したブロック単位でキー
ワードを対応付けてインデックス登録し、文書のブロッ
ク単位での位置情報にキーワードを関連付けた文書登録
装置を提供することを目的とする。また、請求項3の発
明は、上記したブロック単位を任意に設定できる文書登
録装置を提供することを目的とする。
【0007】また、請求項4の発明は、上記の文書登録
装置で作成されたインデックスを用いて、検索した文書
をブロック単位の位置に基づいた優先度付けをして出力
する文書検索装置を提供することを目的とする。また、
請求項5の発明は、複数の検索キーワードによる論理積
検索をブロック単位で行う文書検索装置を提供すること
を目的とする。
【0008】
【課題を解決するための手段】上記の目的を達成するた
めに、請求項1に記載した文書登録装置は、登録された
文書を特定する情報とキーワードとを対応付けたインデ
ックスを保持するインデックス記憶手段と、文書を入力
する文書入力手段と、入力された文書からキーワードを
抽出するキーワード抽出手段と、入力された文書を特定
する情報と抽出されたキーワードとをインデックス記憶
手段に登録する登録手段と、を備えた文書登録装置にお
いて、更に、文書入力手段から入力された文書を所定の
ブロック単位に分割する文書ブロック分割手段と、分割
されたブロック単位に文書及びブロック単位を識別する
識別子を付与する識別子付与手段と、を備え、前記登録
手段は文書を特定する情報として前記識別子を用いてイ
ンデックス記憶手段にインデックスを登録することを特
徴とする。
【0009】また、請求項2に記載した文書登録装置
は、請求項1に記載の文書登録装置において、前記文書
ブロック分割手段は、文書を文単位或いは段落単位のブ
ロックに分割することを特徴とする。
【0010】また、請求項3に記載した文書登録装置
は、請求項1又は請求項2に記載の文書登録装置におい
て、文書をブロックに分割する単位を前記文書ブロック
分割手段に対して指定する指定手段を更に備えたことを
特徴とする。
【0011】また、請求項4に記載した文書検索装置
は、登録された文書中で分割されたブロック単位に文書
及びブロック単位を識別する識別子を付与し、当該識別
子とキーワードとを対応付けたインデックスから所望の
文書を検索する文書検索装置において、検索キーワード
を含む検索要求を入力する要求入力手段と、入力された
検索キーワードに基づいて前記インデックスから該当す
る文書を検索する検索手段と、前記識別子から判断する
検索キーワードが含まれたブロック単位に基づいて、検
索された文書に対して優先度付けを行う優先度付け手段
と、検索された文書を優先度を示して出力する出力手段
と、を備えたことを特徴とする。
【0012】また、請求項5に記載した文書検索装置は
請求項4に記載した文書検索装置において、前記優先度
付け手段は、複数の検索キーワードを同一のブロック単
位に含む文書に対して、他の文書とは相対的に優先度を
上げることを特徴とする。
【0013】
【作用】請求項1の文書登録装置によると、文書入力手
段から入力された文書は文書ブロック分割手段によって
ブロック単位に分割され、これらブロック単位毎にキー
ワード抽出手段でキーワードが抽出される。そして、こ
れらブロック単位には識別子付与手段によって識別子が
付与され、これら識別子は登録手段によって対応するキ
ーワードとともにインデックス記憶手段に格納したイン
デックスに登録される。したがって、各キーワードはブ
ロック単位が文書中に位置する情報と関連付けられてイ
ンデックスに登録される。
【0014】また、請求項2の文書登録装置によると、
文書ブロック分割手段は、登録された文書のデータ中の
句点コードや改行コードを基準として、文書を文或いは
段落単位でブロック単位に分割する。また、請求項3の
文書登録装置によると、指定手段から指定に基づいて、
文書ブロック分割手段が文書を分割する単位は、文或い
は段落、更には、複数の文或いは複数の段落毎といった
ように、使用上の状況に応じて任意に設定される。
【0015】また、請求項4の文書検索装置によると、
要求入力手段から入力された検索キーワードに基づいて
検索手段が上記のインデックスを検索し、該当するキー
ワードに対応した文書を検索する。そして、インデック
スに含まれているブロック単位毎の識別子に基づいて、
優先度付け手段が検索された文書中における検索キーワ
ードの位置を把握し、検索キーワードの位置に基づいた
当該文書の優先度付けを行い、検索された文書を当該優
先度を示してディスプレイ装置等の出力手段に出力す
る。したがって、検索された文書は当該文書中における
キーワードの位置に基づいた優先度付けがなされて出力
される。
【0016】また、請求項5の文書検索装置によると、
要求入力手段から入力された複数の検索キーワードが或
る文書中の同一のブロック単位に含まれている場合に
は、利用者の検索要求により合致したものとして、優先
度付け手段は当該文書の優先度を他の文書より高くす
る。
【0017】
【実施例】以下、本発明の一実施例に係る文書登録装置
及び文書検索装置を図面を参照して説明する。図1に示
すように、本実施例の文書登録装置は、登録対象の文書
を入力するための登録文書入力手段1と、入力手段1か
ら入力された文書を文や段落といった所定のブロック単
位に分割する文書ブロック分割手段2と、分割手段2で
分割された文書のブロックから所定のキーワードを抽出
するキーワード抽出手段3と、分割手段2で分割された
文書のブロックにそれぞれ一義的な識別子を付与する文
書ブロックID付与手段4と、付与された識別子と当該
文書ブロックから抽出されたキーワードとを対応付けて
インデックスとしてインデックスファイル6に格納する
インデックス登録手段5と、このインデックスを読出書
込自在に格納するインデックスファイル6とを備えてい
る。
【0018】登録文書入力手段1は、例えば光学的文字
読取装置(OCR)から構成されており、文書を読み取
って文書内容をコードデータに変換する。なお、登録文
書入力手段1は予めコードデータ等として記憶装置に記
憶された文書データを順次読み込むものとして構成する
こともできる。
【0019】文書ブロック分割手段2は、文書コードデ
ータ中の所定のコードに基づいて、文書をブロック単位
に分割する。例えば、文書を1文単位のブロック単位で
分割する場合には文書コードデータ中の各句点コードを
検出してブロックに分割し、文書を1段落単位のブロッ
ク単位で分割する場合には文書コードデータ中の改行コ
ードを検出してブロックに分割する。なお、本実施例の
文書登録装置には利用者が操作するキーボード等から成
る指定手段7が備えられており、この指定手段7からの
指定によってブロック分割手段2により文書を分割する
ブロック単位を任意に設定することができる。
【0020】キーワード抽出手段3には、名詞、形容詞
等の予め設定した抽出すべき多数のキーワードを格納し
たキーワード辞書8と、文書の構造を解析するための文
法規則を格納した文法辞書9とが備えられている。した
がって、キーワード抽出手段3は、キーワード辞書8や
文法辞書9を参照して形態素解析を行うことにより、文
書の各ブロック単位からキーワードを抽出する。
【0021】文書ブロックID付与手段4は入力された
各文書の各ブロック単位にそれぞれ一義的な識別子を付
与するものであり、この識別子は各文書及び各ブロック
単位を識別する要素を含んでいる。本実施例では、各文
書を識別する要素と各ブロック単位を識別する要素とを
組み合わせた識別子としており、例えば、5番目に入力
された文書を示す要素”5f”と当該文書中で3番目の
ブロック単位を示す要素”3”とを組み合わせて、5番
目に入力された文書の3番目のブロック単位に識別子”
5f3”を付与するようにしている(図6参照)。
【0022】インデックス登録手段5は上記のようにし
て抽出されたキーワード及び付与された識別子を互いに
対応付け、更には、識別子に文書名を対応付けてインデ
ックスファイル6のインデックスに順次登録する。本実
施例では、図6に示すように、インデックスはキーワー
ド毎に対応する識別子を記述した構成となっている。な
お、図6には文書名との対応部分は省略してある。な
お、本実施例の本実施例の文書登録装置には文書の内容
自体を格納する文書ファイルも備えられており、後述す
る検索処理において文書の内容をも出力できるように、
インデックス登録手段5は文書の内容データをインデッ
クスに対応付けて文書ファイル10に格納する。
【0023】また、本実施例の文書検索装置は、図2に
示すように、検索キーワードを含む検索要求を入力する
ための検索要求入力手段11と、入力手段11から入力
された検索要求から検索キーワードを抽出するキーワー
ド抽出手段12と、抽出された検索キーワードに基づい
て前記インデックスファイル6から識別子及びこれに対
応する文書名を検索する検索手段13と、識別子で示さ
れる文書中のブロック単位の位置に基づいて検索された
文書に対して優先度付けを行う文書優先度付け手段14
と、検索された文書の文書名を優先度を示して表示する
表示手段15とを備えている。
【0024】検索要求入力手段11は例えばキーボード
から構成されており、検索要求入力手段11から利用者
によって検索キーワード及びこれらキーワードに対する
論理積や論理和等といった論理条件が入力される。本実
施例では、検索キーワードは入力手段11から文節や文
の形式で入力され、この検索キーワードを含む文節や文
からキーワード抽出手段12が検索キーワードを抽出す
る。
【0025】キーワード抽出手段12には、前記したキ
ーワード辞書8と文法辞書9とが備えられており、キー
ワード辞書8や文法辞書9を参照して形態素解析を行う
ことにより、検索要求として入力された文節や文から検
索キーワードを抽出する。なお、キーワード抽出手段1
2は文書登録装置のキーワード抽出手段3と共用するこ
とができ、インデックスファイル6、キーワード辞書
8、文法辞書9、文書ファイル10等の共用と相俟っ
て、文書登録装置と文書検索装置とを1つのシステムと
して構成することができる。
【0026】検索手段13は、抽出された検索キーワー
ドを指定された論理条件によって検索式化し、当該検索
式でインデックスファイル6に格納されているインデッ
クスを検索して、検索式に合致する識別子及びこれに対
応する文書名を検索する。文書優先度付け手段14は、
予め設定された基準或いは検索要求で指示された基準に
従って、検索された文書(文書名)識別子に基づいた優
先度付けを行う。本実施例では、検索要求に含まれた全
ての検索キーワードを同一のブロック単位に含む文書を
優先度が高いものとしてマーキング(*)するようにし
ている。
【0027】表示手段15は検索手段13で検索された
文書の文書名を一覧としてディスプレイ画面に表示し、
これら文書名の内の優先度を付けられたものには前記マ
ーキング(*)を付して表示する。また、表示手段15
は、文書名に対応して文書ファイル10から文書データ
を読み出して、文書の内容をディスプレイ表示すること
も可能である。なお、表示手段15としては検索された
文書名を印刷出力するプリンタを用いることもできる。
【0028】図1に示した文書登録装置による文書登録
処理を、図3乃至図6を参照して説明する。まず、図3
に示すフローチャートにおいて、登録文書入力手段1か
ら登録対象の文書が順次入力されると(ステップS
1)、これら文書データをバッファに格納して各文書毎
に登録処理を行う(ステップS2)。すなわち、文書ブ
ロック分割手段2がバッファないから1つの文書データ
を読み出して所定のブロック単位に分割し(ステップS
3)、文書ブロックID付与手段4が各ブロックに当該
文書及びブロック単位を示す識別子を付与するととも
に、キーワード抽出手段3が各ブロックから形態素解析
により予め設定した範囲内のキーワードを抽出する(ス
テップS4)。
【0029】そして、インデックス登録手段5が、各識
別子と抽出されたキーワードとを互いに対応付けてイン
デックスファイル6のインデックスに登録し(ステップ
S5)、更には、文書データを文書ファイル10に格納
する。上記の一連の処理をバッファに格納した全ての文
書データについて順次行い(ステップS2)、登録処理
を終了する。
【0030】上記したステップS3〜S5の処理を、ブ
ロック単位を1文とした例を示す図4乃至図6を参照し
て更に詳しく説明する。まず、文書ブロック分割手段2
が文書データ中から文の区切りを示す句点コードを検索
して(ステップS11)、これら句点コード毎に区切っ
た文書データブロック単位として認識し(ステップS1
2)、更に、文書ブロックID付与手段4が各文に識別
子を付与する(ステップS13)。例えば、図5の
(a)に示すような文書データが、句点コードを区切り
にして同図の(b)に「」で囲って示すように1文単位
でブロックに分割され、同図の(c)に示すように各文
に対して当該文書と文を特定する識別子[5f1]、・
・・[5f9]が付与される。
【0031】更に、キーワード抽出手段3が各からキー
ワード辞書8及び文法辞書9を参照して形態素解析によ
りキーワード辞書8に格納された範囲内のキーワードを
抽出し(ステップS14)、インデックス登録手段5が
各識別子と抽出されたキーワードとを互いに対応付けて
インデックスファイル6のインデックスに登録する(ス
テップS15)。例えば、図6に示すように、インデッ
クスには抽出されたキーワード(開発、研究、・・・
・)を基準として記述され、各キーワードに対応して当
該キーワードを含む文(ブロック単位)の識別子がまと
めて記述される。したがって、インデックスには各キー
ワードが識別子により文書中の位置情報をもって格納さ
れる。
【0032】次に、図2に示した文書検索装置による上
記インデックスを用いた文書検索処理を、図7乃至図1
0を参照して説明する。まず、図7に示すフローチャー
トにおいて、検索要求入力手段11から検索要求が入力
されると(ステップS21)、キーワード抽出手段12
がこの検索要求をキーワード辞書8及び文法辞書9を参
照して形態素解析し、検索要求からキーワード辞書8に
格納した範囲内の検索キーワードを抽出する(ステップ
S22)。例えば、図8の(a)に示すように検索要求
として”情報を処理する”が入力されると、名詞の”情
報”と”処理”が検索キーワードとして抽出される。
【0033】そして、検索手段13が、抽出された検索
キーワードに基づいてインデックスファイル6に格納さ
れているインデックスを検索し、各検索キーワードを含
む識別子及び文書名を抽出する(ステップS23)。例
えば、複数の検索キーワードを論理和で結んだ検索式を
用いた場合にはいずれかの検索キーワードを含む文書が
検索され、複数の検索キーワードを論理積で結んだ検索
式を用いた場合には全ての検索キーワードを含む文書が
検索される。
【0034】次いで、検索された文書に対して、文書優
先度付け手段14がその識別子で示されるブロック単位
(文)内に全ての検索キーワードが含まれているかを判
断し(ステップS24)、この判断基準に該当しない場
合には、検索された全ての文書の文書名を表示手段15
にディスプレイ表示させる(ステップS25)。一方、
この判断基準に該当する場合には、全ての検索キーワー
ドが含まれているブロック単位を有する文書に対しては
優先度の高さを示すビットを立て(ステップS26)、
当該ビットに対応するマーク(*)を該当する文書名に
は付記して、検索された全ての文書の文書名を表示手段
15にディスプレイ表示させる(ステップS27)。
【0035】例えば、図9の(A)に示すように文書
名”file1”、”file4”、”file5”の
文書が検索された場合において、これら文書の内の”f
ile5”のみが上記基準に該当した時には、当該文書
名”file5”に全ての検索キーワードを含んでいる
ブロックの識別子”5f1”が添記され、文書優先度付
け手段14は、同図の(b)に示すように文書名”fi
le5”の文書を優先度を高めるためにビット”1”を
立てて検索結果を表示装置15へ出力する。この結果、
図10に示すように、表示手段15は優先度ビットに”
1”が立った文書名に対してはマーク(*)を付記し、
更には、表示順序を上段へ移動させて、検索キーワード
とともにディスプレイ表示する。
【0036】したがって、検索結果として得られた各文
書名は、全ての検索キーワードが文書中の或る限られた
位置的範囲に含まれているかといった、ブロック識別子
で特定された文書中の位置に基づいた優先度付けがなさ
れ、当該優先度をもってディスプレイ表示される。すな
わち、任意に設定できるブロック単位の識別子によっ
て、文書中の位置に基づいた重み付けをしているため、
文書フォーマットが一定していない一般的な文書に対し
ても、検索キーワードが含まれる文書中の位置に基づい
て文書に重要度付けすることができる。
【0037】なお、上記した実施例では、文書データを
ブロック単位に分割した後に各ブロックからキーワード
を抽出したが、これら処理を並行して行ったり、或い
は、逆の順序で行ってもよく、要は、ブロック単位とそ
こから抽出したキーワードとの対応付けを行えばよい。
また、本発明では、識別子は文書中の何番目のブロック
単位かを示すため、或るブロック単位から或るブロック
単位までの文書中の位置的範囲を識別子に基づいて特定
し、当該範囲内に検索キーワードが含まれるかを判断す
るようにすれば、例えば、特許文献等で、「特許請求の
範囲」や「効果」の欄に検索キーワードが含まれるかに
よって、検索された文書を優先度付けすることもでき
る。
【0038】また、上記実施例では、基準に該当する文
書の優先度を上げるようにしたが、逆に基準に該当しな
い文書の優先度を下げることにより相対的に優先度付け
を行うようにしてもよい。また、優先度付けは、同一の
ブロック単位内に含まれる複数の検索キーワードの関係
(複合語を成す隣接関係等)、文書内の検索キーワード
を含むブロック単位の数や位置関係等を加味して、複数
のランクで優先度付けを行ってもよい。
【0039】また、優先度付けした文書の表示は、文書
名を色分けして表示するようにしてもよく、複数のラン
クで優先度付けを行う場合にはランクに応じた複数の色
で文書名を表示するようにすればよい。また、検索キー
ワードを文節の形式で入力するようにしたが、検索キー
ワードを直接入力するようにしてもよく、この場合には
キーワード抽出手段12を省略することができる。
【0040】
【発明の効果】以上説明したように、請求項1に記載し
た文書登録装置によれば、入力された文書内のブロック
単位を特定する識別子と抽出されたキーワードとをイン
デックスとして登録するようにしたため、文書フォーマ
ットが定まっていない文書に対しても、文書情報をキー
ワードの文書中での位置情報を付加してインデックス登
録することができる。
【0041】更に、請求項2に記載した文書登録装置に
よれば、上記の効果に加え、文書を意味を表す最小限の
単位である文や、或るまとまった意味を表す段落の単位
でブロックに分割したため、文書の特性に応じた適切な
位置情報をもってインデックス登録することができる。
更に、請求項3に記載した文書登録装置によれば、上記
の効果に加え、ブロック単位の大きさを利用者が指定手
段から任意に設定することができるため、登録する文書
に応じた適切なインデックス登録することができる。
【0042】また、請求項4に記載した文書登録装置に
よれば、上記のインデックスを用いて、検索した文書を
ブロック単位の位置を示す識別子に基づいた優先度付け
して出力するようにしたため、文書フォーマットが一定
していない一般的な文書に対しても、検索キーワードが
含まれる文書中の位置に基づいた重要度付けをして、検
索結果を利用者に提供することができる。更に、請求項
5に記載した文書登録装置によれば、上記の効果に加
え、入力された全ての検索キーワードを同一のブロック
単位中に含む文書の優先度を上げるようにしたため、文
書中の或る限られた範囲に全ての検索キーワードを含む
文書は利用者が検索しようとする意図に合致するという
経験則に沿った文書検索を実現することができる。
【図面の簡単な説明】
【図1】 本発明の一実施例に係る文書登録装置の構成
を示すブロック図である。
【図2】 本発明の一実施例に係る文書検索装置の構成
を示すブロック図である。
【図3】 本発明の一実施例に係る文書登録処理の手順
を示すフローチャートである。
【図4】 文をブロック単位とした文書登録処理の手順
を示すフローチャートである。
【図5】 登録のために入力された文書内容の一例を示
す図であり、(a)は分割前の文書内容を示す図、
(b)は分割後の文書内容を示す図、識別子を付された
文書内容を示す図である。
【図6】 本発明の一実施例に係るインデックスの内容
を示す図である。
【図7】 本発明の一実施例に係る文書検索処理の手順
を示すフローチャートである。
【図8】 検索要求の内容の一例を示す図であり、
(a)は解析前の検索要求の文節内容を示す図、(b)
は抽出された検索キーワードの内容を示す図である。
【図9】 優先度付け処理を説明する概念図であり、
(a)は優先度付けされる前の文書名リストを示す図、
(b)は優先度付けされた文書名リストを示す図であ
る。
【図10】 検索結果のディスプレイ表示の一例を示す
図である。
【符号の説明】
1・・・登録文書入力手段、 2・・・文書ブロック分
割手段、3・・・キーワード抽出手段、 4・・・文書
ブロックID付与手段、5・・・インデックス登録手
段、 6・・・インデックスファイル、7・・・指定手
段、 11・・・検索要求入力手段、12・・・キーワ
ード抽出手段、 13・・・検索手段、14・・・文書
優先度付け手段、 15・・・表示手段、
───────────────────────────────────────────────────── フロントページの続き (72)発明者 山下 明男 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&D ビジネスパークビル 富士ゼロックス株式会社内 (72)発明者 相原 一雄 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&D ビジネスパークビル 富士ゼロックス株式会社内 (72)発明者 喜多 辰臣 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&D ビジネスパークビル 富士ゼロックス株式会社内 (72)発明者 松尾 裕子 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&D ビジネスパークビル 富士ゼロックス株式会社内 (72)発明者 川本 真司 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&D ビジネスパークビル 富士ゼロックス株式会社内 (72)発明者 平岡 直美 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&D ビジネスパークビル 富士ゼロックス株式会社内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 登録された文書を特定する情報とキーワ
    ードとを対応付けたインデックスを保持するインデック
    ス記憶手段と、文書を入力する文書入力手段と、入力さ
    れた文書からキーワードを抽出するキーワード抽出手段
    と、入力された文書を特定する情報と抽出されたキーワ
    ードとをインデックス記憶手段に登録する登録手段と、
    を備えた文書登録装置において、更に、 文書入力手段から入力された文書を所定のブロック単位
    に分割する文書ブロック分割手段と、分割されたブロッ
    ク単位に文書及びブロック単位を識別する識別子を付与
    する識別子付与手段と、を備え、 前記登録手段は文書を特定する情報として前記識別子を
    用いてインデックス記憶手段にインデックスを登録する
    ことを特徴とする文書登録装置。
  2. 【請求項2】 前記文書ブロック分割手段は、文書を文
    単位或いは段落単位のブロックに分割することを特徴と
    する請求項1に記載の文書登録装置。
  3. 【請求項3】 文書をブロックに分割する単位を前記文
    書ブロック分割手段に対して指定する指定手段を更に備
    えたことを特徴とする請求項1又は請求項2に記載の文
    書登録装置。
  4. 【請求項4】 登録された文書中で分割されたブロック
    単位に文書及びブロック単位を識別する識別子を付与
    し、当該識別子とキーワードとを対応付けたインデック
    スから所望の文書を検索する文書検索装置において、 検索キーワードを含む検索要求を入力する要求入力手段
    と、 入力された検索キーワードに基づいて前記インデックス
    から該当する文書を検索する検索手段と、 前記識別子から判断する検索キーワードが含まれたブロ
    ック単位に基づいて、検索された文書に対して優先度付
    けを行う優先度付け手段と、 検索された文書を優先度を示して出力する出力手段と、
    を備えたことを特徴とする文書検索装置。
  5. 【請求項5】 前記優先度付け手段は、複数の検索キー
    ワードを同一のブロック単位に含む文書に対して、他の
    文書とは相対的に優先度を上げることを特徴とする請求
    項4に記載の文書検索装置。
JP7096106A 1995-03-29 1995-03-29 文書登録装置及び文書検索装置 Pending JPH08272822A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7096106A JPH08272822A (ja) 1995-03-29 1995-03-29 文書登録装置及び文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7096106A JPH08272822A (ja) 1995-03-29 1995-03-29 文書登録装置及び文書検索装置

Publications (1)

Publication Number Publication Date
JPH08272822A true JPH08272822A (ja) 1996-10-18

Family

ID=14156144

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7096106A Pending JPH08272822A (ja) 1995-03-29 1995-03-29 文書登録装置及び文書検索装置

Country Status (1)

Country Link
JP (1) JPH08272822A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240744A (ja) * 1997-03-03 1998-09-11 Nec Corp レンジ分割表の検索処理方式、検索処理方法および検索 処理プログラムを記録した記録媒体
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
JP2006163723A (ja) * 2004-12-06 2006-06-22 Hitachi Software Eng Co Ltd ドキュメント検索方法
CN100424695C (zh) * 2004-09-02 2008-10-08 佳能株式会社 搜索文档的文档处理装置及其控制方法
JP2009176298A (ja) * 2008-01-28 2009-08-06 Fuji Xerox Co Ltd セグメント化及びキーフレーズを利用してモバイル機器でのドキュメントナビゲーションをサポートする方法、プログラム及びデバイス
US7743034B2 (en) * 2004-03-22 2010-06-22 Canon Kabushiki Kaisha Document management method, network system, and information processing apparatus
KR101112989B1 (ko) * 2008-04-11 2012-04-23 한국전자통신연구원 지능형 정보 서비스를 위한 계층적 문서 분류 장치 및 방법
JP2015109078A (ja) * 2013-12-03 2015-06-11 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ブロック・レベル索引を使用し及び構築して検索クエリを実行するための方法及びシステム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240744A (ja) * 1997-03-03 1998-09-11 Nec Corp レンジ分割表の検索処理方式、検索処理方法および検索 処理プログラムを記録した記録媒体
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
US7743034B2 (en) * 2004-03-22 2010-06-22 Canon Kabushiki Kaisha Document management method, network system, and information processing apparatus
CN100424695C (zh) * 2004-09-02 2008-10-08 佳能株式会社 搜索文档的文档处理装置及其控制方法
JP2006163723A (ja) * 2004-12-06 2006-06-22 Hitachi Software Eng Co Ltd ドキュメント検索方法
JP2009176298A (ja) * 2008-01-28 2009-08-06 Fuji Xerox Co Ltd セグメント化及びキーフレーズを利用してモバイル機器でのドキュメントナビゲーションをサポートする方法、プログラム及びデバイス
US8601393B2 (en) 2008-01-28 2013-12-03 Fuji Xerox Co., Ltd. System and method for supporting document navigation on mobile devices using segmentation and keyphrase summarization
KR101112989B1 (ko) * 2008-04-11 2012-04-23 한국전자통신연구원 지능형 정보 서비스를 위한 계층적 문서 분류 장치 및 방법
JP2015109078A (ja) * 2013-12-03 2015-06-11 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ブロック・レベル索引を使用し及び構築して検索クエリを実行するための方法及びシステム
US10262056B2 (en) 2013-12-03 2019-04-16 International Business Machines Corporation Method and system for performing search queries using and building a block-level index

Similar Documents

Publication Publication Date Title
US5303150A (en) Wild-card word replacement system using a word dictionary
US20080147663A1 (en) Apparatus for classifying or disambiguating data
US20030101182A1 (en) Method and system for smart search engine and other applications
JPH03172966A (ja) 類似文書検索装置
JPH11161682A (ja) 情報検索装置、情報検索方法及び記録媒体
US20040128292A1 (en) Search data management
JP2005025525A (ja) 情報検索システム、情報検索方法及び情報検索プログラム
JPH0628403A (ja) 文書検索装置
JPH08272822A (ja) 文書登録装置及び文書検索装置
JPH08171569A (ja) 文書検索装置
JP2006065366A (ja) キーワード分類装置およびその方法、端末装置ならびにプログラム
JPH08272782A (ja) 文書検索装置
JPH08263521A (ja) 文書登録検索システム
JPH01304575A (ja) 文書処理装置
JPS61248160A (ja) 文書情報登録方式
Leveling et al. On metonymy recognition for geographic IR.
JPS60176169A (ja) 文章処理装置
JPH08305726A (ja) 情報検索装置
JP2002183195A (ja) 概念検索方式
JP2005234772A (ja) 文書管理装置および方法
JPH10124524A (ja) 文書検索装置及び文書検索方法
JP3210842B2 (ja) 情報処理装置
JPH07141381A (ja) 電子辞書表示装置
Mahalingam Natural language access to Internet search engines.
WO2010106660A1 (ja) 特徴語提示装置及び特徴語提示プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040316

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040713