JPH03294963A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH03294963A
JPH03294963A JP2097396A JP9739690A JPH03294963A JP H03294963 A JPH03294963 A JP H03294963A JP 2097396 A JP2097396 A JP 2097396A JP 9739690 A JP9739690 A JP 9739690A JP H03294963 A JPH03294963 A JP H03294963A
Authority
JP
Japan
Prior art keywords
document
keyword
file
keywords
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2097396A
Other languages
English (en)
Inventor
Shinsuke Teramura
信介 寺村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2097396A priority Critical patent/JPH03294963A/ja
Publication of JPH03294963A publication Critical patent/JPH03294963A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、文書検索装置に関する。
従来の技術 従来、文書検索装置においては種々の検索方式があるが
、その一つとして、キーワード抽出手段により抽出した
キーワードから作成したインバーテツドファイルと、各
キーワード間の関連情報を記述したキーワードコネクシ
ョン表とを用いて、文書確度(利用者の検索要求に近い
ものほど大きな値を持つ評価値)を計算し、この結果に
基づいて文書を検索するようにしたものが、本出願人に
より例えば特願昭63−8291号「文書検索装置」等
により提案されている。ここに、インバーテツドファイ
ルはキーワードから文書へのポインタの集合であり、キ
ーワードコネクションは各キーワード間の関連度を数値
によって示したものである。文書検索動作の概略を説明
すると、まず、利用者から与えられるキーワードからキ
ーワードコネクション表を調べ、関連するキーワードを
リストアツブする。ついで、これらのキーワードを含む
文書をインバーテツドファイルを用いて全て検索する。
検索結果は、キーワードの関連度から計算された文書確
度の大きい順にソートして出力させる。この結果、利用
者が入力したキーワードを直接台んでいない文書であっ
ても関連度の高いキーワードを含んでいれば検索できる
ものとなる。
発明が解決しようとする課題 ところが、インバーテツドファイルはあるキーワードが
どの文書に含まれているかを示すだけであり、そのキー
ワードを含む文書中でこのキーワードがどの程度重要か
といった情報は含まれていない。よって、かなり重要な
キーワードも、あまり重要でないキーワードも同じよう
に扱われ、検索結果が必ずしも利用者の意図するものと
ならないものである。
課題を解決するための手段 ファイルに登録された文書情報からキーワード抽出手段
によりキーワードを抽出してインバーテツドファイルを
作成し、キーワードを含む検索条件入力により所望の文
書を検索するようにした文書検索装置において、前記フ
ァイルに登録される文書のフォーマットを解読する文書
フォーマット理解部を設け、前記キーワード抽出手段に
よる抽出キーワードの文書中での出現位置に応じた重み
付けをしてインバーテツドファイルを作成するようにし
た。
作用 抽出キーワードの文書中での出現位置はその文書におけ
る重要度を表すので、これに応じて重み付けをすること
により、作成されたインバーテツドファイルはそのキー
ワードを含む文書中でこのキーワードがどの程度重要で
あるかの情報を含むものとなり、キーワードを含む検索
条件入力による検索時に、そのキーワードが重要な意味
を持つ文書を上位ランク付は等により優先させ得る検索
が可能となり、利用者の意図する検索結果が得られやす
いものとなる。また、重要度の低いキーワードしか含ま
ない文書については、例えばランク付けのための文書確
度の計算を行なわない、といった処理も可能となり、処
理数を減らして検索の高速化を図ることもできる。
実施例 本発明の一実施例を図面に基づいて説明する。
まず、ファイルlに登録された文書情報からキーワード
を抽出してインバーテツドファイル2を作成するキーワ
ード抽出部(抽出手段)3が設けられている。また、抽
出されたキーワード情報を用い、各キーワード間の関連
度を記述したキーワードコネクション4を作成又は変更
するキーワードコネクション管理部5が設けられている
。さらに、インバーテツドファイル2及びキーワードコ
ネクション4を用いて、利用者の入力した検索条件中の
キーワードから該当する文書のファイル確度を計算する
ファイル確度計算部6が設けられている。
また、文書情報等の他、検索結果をファイル確度の大き
い順にソートして利用者に表示、させるソート・表示部
7も設けられている。
しかして、本実施例では、ファイル1に登録された文書
につき、そのフォーマットを調べ、アブストラクトや結
論部分を探すという解析処理を行ない、解析結果をキー
ワード抽出部3により抽出されるキーワードに重み付け
という形で反映させる文書フォーマット理解部8が設け
られている。
このような構成において、文書登録時に、文書フォーマ
ット理解部8により、文書のおおまかな分類、構成等を
決定する。例えば、文書Aは特許明細書であり、文書B
は論文であったとすると、その分類及び構成は下記のよ
うになる。
文書 分類    構成 A  特許明細書 発明の名称、特許請求の範囲、技術
分野、従来技術、実施例、 効果、・・・ B  論文    論文要旨、第1章、・・・、結論、
参考文献 これらの例の場合、重要なキーワードは、文書Aにあっ
ては特許請求の範囲の部分に、文書Bにあっては論文要
旨の部分に現れていることが予想される。換言すると、
これらの部分に現れるキーワードは他のキーワードより
も重要視することかが必要である。このため、本実施例
では、キーワード抽出部3により取り出したキーワード
からインバーテツドファイル2を作成する際に、特許請
求の範囲等の部分に現れたキーワードについては重みを
付けて登録するようにするものである。本実施例では、
この重みを「キーワードの重要度」と呼ぶことにする。
実際にキーワードから文書を検索する場合には、検索結
果の文書に対してファイル確度の計算を行なう。まず、
キーワードコネクション4を調べ、検索条件中のキーワ
ードに対する関連キーワードを調べる。次に、インバー
テツドファイル2を調べ、関連するキーワードを含む文
書をファイルl中から取り出す。取り出した文書に対す
るファイル確度の計算には、キーワード関速度とともに
、上述のように付与されたキーワードの重要度も加味し
て行なう。求められたファイル確度によって検索された
文書を順位付けし、ソート・表示部7てこの順位で文書
を表示させる。文書表示の際、その中に含まれるキーワ
ードを重要度の順にソートして表示させるようにすれば
、その文書の内容が理解しやすく、又は、その文書が何
であるかをキーワードから推測しやすいものともなる。
発明の効果 本発明は、上述したようにファイルに登録される文書の
フォーマットを解読する文書ノオーマット理解部を設け
て、キーワード抽出手段による抽出キーワードの文書に
おける重要度を表す文書中での出現位置に応じた重み付
けをしてインバーテツドファイルを作成するようにした
ので、そのキーワードを含む文書中でこのキーワードが
どの程度重要であるかの情報を含むインバーテツドファ
イルを作成して検索に供することができ、よって、検索
条件中のキーワードが重要な意味を持つ文書を上位ラン
ク付は等により優先させ得る結果が得られる検索が可能
となり、利用者の意図する検索結果が得られやすいもの
となり、さらには、重要度の低いキーワードしか含まな
い文書については、例えばランク付けのための文書確度
の計算を行なわない、といった処理も可能となり、処理
数を減らして検索の高速化を図ることもできるものであ
る。
3・・・キーワード抽出手段、8・・・文書フォーマッ
ト理解部

Claims (1)

    【特許請求の範囲】
  1. ファイルに登録された文書情報からキーワード抽出手段
    によりキーワードを抽出してインバーテッドファイルを
    作成し、キーワードを含む検索条件入力により所望の文
    書を検索するようにした文書検索装置において、前記フ
    ァイルに登録される文書のフォーマットを解読する文書
    フォーマット理解部を設け、前記キーワード抽出手段に
    よる抽出キーワードの文書中での出現位置に応じた重み
    付けをしてインバーテッドファイルを作成するようにし
    たことを特徴とする文書検索装置。
JP2097396A 1990-04-12 1990-04-12 文書検索装置 Pending JPH03294963A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2097396A JPH03294963A (ja) 1990-04-12 1990-04-12 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2097396A JPH03294963A (ja) 1990-04-12 1990-04-12 文書検索装置

Publications (1)

Publication Number Publication Date
JPH03294963A true JPH03294963A (ja) 1991-12-26

Family

ID=14191359

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2097396A Pending JPH03294963A (ja) 1990-04-12 1990-04-12 文書検索装置

Country Status (1)

Country Link
JP (1) JPH03294963A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06131225A (ja) * 1992-10-16 1994-05-13 Just Syst Corp 文書処理方法及び装置
JPH06231178A (ja) * 1993-01-28 1994-08-19 Toshiba Corp 文書検索装置
JPH06251072A (ja) * 1993-02-27 1994-09-09 Omron Corp 文書処理装置および方法
JPH08320879A (ja) * 1995-05-26 1996-12-03 Nec Corp 適合フィードバック装置
JPH09269951A (ja) * 1996-04-03 1997-10-14 Matsushita Electric Ind Co Ltd 英文要約装置
JPH11232298A (ja) * 1998-02-18 1999-08-27 Sharp Corp データ検索装置及びコンピュータ読み取り可能な記録媒体
JP2006227807A (ja) * 2005-02-16 2006-08-31 Nippon Telegr & Teleph Corp <Ntt> 概念コンテンツ検索装置および方法
JP2010225101A (ja) * 2009-03-25 2010-10-07 Toshiba Corp 検索装置、方法及びプログラム
JP2012027841A (ja) * 2010-07-27 2012-02-09 Ricoh Co Ltd 検索プログラム、検索装置、検索システム、検索方法及び記録媒体

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5844536A (ja) * 1979-12-28 1983-03-15 インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン 文書検索装置
JPS6244878A (ja) * 1985-08-23 1987-02-26 Hitachi Ltd 文書フアイリングシステム
JPH0227478A (ja) * 1988-07-18 1990-01-30 Ricoh Co Ltd 文書管理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5844536A (ja) * 1979-12-28 1983-03-15 インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン 文書検索装置
JPS6244878A (ja) * 1985-08-23 1987-02-26 Hitachi Ltd 文書フアイリングシステム
JPH0227478A (ja) * 1988-07-18 1990-01-30 Ricoh Co Ltd 文書管理装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06131225A (ja) * 1992-10-16 1994-05-13 Just Syst Corp 文書処理方法及び装置
JPH06231178A (ja) * 1993-01-28 1994-08-19 Toshiba Corp 文書検索装置
JPH06251072A (ja) * 1993-02-27 1994-09-09 Omron Corp 文書処理装置および方法
JPH08320879A (ja) * 1995-05-26 1996-12-03 Nec Corp 適合フィードバック装置
JPH09269951A (ja) * 1996-04-03 1997-10-14 Matsushita Electric Ind Co Ltd 英文要約装置
JPH11232298A (ja) * 1998-02-18 1999-08-27 Sharp Corp データ検索装置及びコンピュータ読み取り可能な記録媒体
JP2006227807A (ja) * 2005-02-16 2006-08-31 Nippon Telegr & Teleph Corp <Ntt> 概念コンテンツ検索装置および方法
JP2010225101A (ja) * 2009-03-25 2010-10-07 Toshiba Corp 検索装置、方法及びプログラム
JP2012027841A (ja) * 2010-07-27 2012-02-09 Ricoh Co Ltd 検索プログラム、検索装置、検索システム、検索方法及び記録媒体

Similar Documents

Publication Publication Date Title
US6564210B1 (en) System and method for searching databases employing user profiles
US7475074B2 (en) Web search system and method thereof
JP3099756B2 (ja) 文書処理装置、単語抽出装置及び単語抽出方法
JP3282937B2 (ja) 情報検索方法及びシステム
US20050060290A1 (en) Automatic query routing and rank configuration for search queries in an information retrieval system
EP1716511A1 (en) Intelligent search and retrieval system and method
US6278990B1 (en) Sort system for text retrieval
US20050114317A1 (en) Ordering of web search results
JPH0486950A (ja) 文書検索方法
JPH03294963A (ja) 文書検索装置
JP2000331032A (ja) 文書処理装置、単語抽出装置及び単語抽出方法
JP5964149B2 (ja) 共起語を特定する装置およびプログラム
WO1998049632A1 (en) System and method for entity-based data retrieval
JPH01145721A (ja) 文献の検索妥当性判定方式
KR19990048712A (ko) 인터넷 정보검색시 지도형 분류 검색방법
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP2003216634A (ja) 情報検索システム
JPH11154164A (ja) 全文検索処理における適合度算出方法および該方法に係るプログラムを格納した記憶媒体
JPH03294964A (ja) 文書検索方法
JP3558267B2 (ja) 文書検索装置
JP2002324077A (ja) 文書検索装置および文書検索方法
JP2012104051A (ja) 文書インデックス作成装置
JPH08305695A (ja) 文書処理装置
JPH07104869B2 (ja) データ検索加工システム
JPH11134364A (ja) 体系化知識解析方法及び装置並びに分類方法及び装置