JPH03294963A - 文書検索装置 - Google Patents
文書検索装置Info
- Publication number
- JPH03294963A JPH03294963A JP2097396A JP9739690A JPH03294963A JP H03294963 A JPH03294963 A JP H03294963A JP 2097396 A JP2097396 A JP 2097396A JP 9739690 A JP9739690 A JP 9739690A JP H03294963 A JPH03294963 A JP H03294963A
- Authority
- JP
- Japan
- Prior art keywords
- document
- keyword
- file
- keywords
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 3
- 238000000034 method Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は、文書検索装置に関する。
従来の技術
従来、文書検索装置においては種々の検索方式があるが
、その一つとして、キーワード抽出手段により抽出した
キーワードから作成したインバーテツドファイルと、各
キーワード間の関連情報を記述したキーワードコネクシ
ョン表とを用いて、文書確度(利用者の検索要求に近い
ものほど大きな値を持つ評価値)を計算し、この結果に
基づいて文書を検索するようにしたものが、本出願人に
より例えば特願昭63−8291号「文書検索装置」等
により提案されている。ここに、インバーテツドファイ
ルはキーワードから文書へのポインタの集合であり、キ
ーワードコネクションは各キーワード間の関連度を数値
によって示したものである。文書検索動作の概略を説明
すると、まず、利用者から与えられるキーワードからキ
ーワードコネクション表を調べ、関連するキーワードを
リストアツブする。ついで、これらのキーワードを含む
文書をインバーテツドファイルを用いて全て検索する。
、その一つとして、キーワード抽出手段により抽出した
キーワードから作成したインバーテツドファイルと、各
キーワード間の関連情報を記述したキーワードコネクシ
ョン表とを用いて、文書確度(利用者の検索要求に近い
ものほど大きな値を持つ評価値)を計算し、この結果に
基づいて文書を検索するようにしたものが、本出願人に
より例えば特願昭63−8291号「文書検索装置」等
により提案されている。ここに、インバーテツドファイ
ルはキーワードから文書へのポインタの集合であり、キ
ーワードコネクションは各キーワード間の関連度を数値
によって示したものである。文書検索動作の概略を説明
すると、まず、利用者から与えられるキーワードからキ
ーワードコネクション表を調べ、関連するキーワードを
リストアツブする。ついで、これらのキーワードを含む
文書をインバーテツドファイルを用いて全て検索する。
検索結果は、キーワードの関連度から計算された文書確
度の大きい順にソートして出力させる。この結果、利用
者が入力したキーワードを直接台んでいない文書であっ
ても関連度の高いキーワードを含んでいれば検索できる
ものとなる。
度の大きい順にソートして出力させる。この結果、利用
者が入力したキーワードを直接台んでいない文書であっ
ても関連度の高いキーワードを含んでいれば検索できる
ものとなる。
発明が解決しようとする課題
ところが、インバーテツドファイルはあるキーワードが
どの文書に含まれているかを示すだけであり、そのキー
ワードを含む文書中でこのキーワードがどの程度重要か
といった情報は含まれていない。よって、かなり重要な
キーワードも、あまり重要でないキーワードも同じよう
に扱われ、検索結果が必ずしも利用者の意図するものと
ならないものである。
どの文書に含まれているかを示すだけであり、そのキー
ワードを含む文書中でこのキーワードがどの程度重要か
といった情報は含まれていない。よって、かなり重要な
キーワードも、あまり重要でないキーワードも同じよう
に扱われ、検索結果が必ずしも利用者の意図するものと
ならないものである。
課題を解決するための手段
ファイルに登録された文書情報からキーワード抽出手段
によりキーワードを抽出してインバーテツドファイルを
作成し、キーワードを含む検索条件入力により所望の文
書を検索するようにした文書検索装置において、前記フ
ァイルに登録される文書のフォーマットを解読する文書
フォーマット理解部を設け、前記キーワード抽出手段に
よる抽出キーワードの文書中での出現位置に応じた重み
付けをしてインバーテツドファイルを作成するようにし
た。
によりキーワードを抽出してインバーテツドファイルを
作成し、キーワードを含む検索条件入力により所望の文
書を検索するようにした文書検索装置において、前記フ
ァイルに登録される文書のフォーマットを解読する文書
フォーマット理解部を設け、前記キーワード抽出手段に
よる抽出キーワードの文書中での出現位置に応じた重み
付けをしてインバーテツドファイルを作成するようにし
た。
作用
抽出キーワードの文書中での出現位置はその文書におけ
る重要度を表すので、これに応じて重み付けをすること
により、作成されたインバーテツドファイルはそのキー
ワードを含む文書中でこのキーワードがどの程度重要で
あるかの情報を含むものとなり、キーワードを含む検索
条件入力による検索時に、そのキーワードが重要な意味
を持つ文書を上位ランク付は等により優先させ得る検索
が可能となり、利用者の意図する検索結果が得られやす
いものとなる。また、重要度の低いキーワードしか含ま
ない文書については、例えばランク付けのための文書確
度の計算を行なわない、といった処理も可能となり、処
理数を減らして検索の高速化を図ることもできる。
る重要度を表すので、これに応じて重み付けをすること
により、作成されたインバーテツドファイルはそのキー
ワードを含む文書中でこのキーワードがどの程度重要で
あるかの情報を含むものとなり、キーワードを含む検索
条件入力による検索時に、そのキーワードが重要な意味
を持つ文書を上位ランク付は等により優先させ得る検索
が可能となり、利用者の意図する検索結果が得られやす
いものとなる。また、重要度の低いキーワードしか含ま
ない文書については、例えばランク付けのための文書確
度の計算を行なわない、といった処理も可能となり、処
理数を減らして検索の高速化を図ることもできる。
実施例
本発明の一実施例を図面に基づいて説明する。
まず、ファイルlに登録された文書情報からキーワード
を抽出してインバーテツドファイル2を作成するキーワ
ード抽出部(抽出手段)3が設けられている。また、抽
出されたキーワード情報を用い、各キーワード間の関連
度を記述したキーワードコネクション4を作成又は変更
するキーワードコネクション管理部5が設けられている
。さらに、インバーテツドファイル2及びキーワードコ
ネクション4を用いて、利用者の入力した検索条件中の
キーワードから該当する文書のファイル確度を計算する
ファイル確度計算部6が設けられている。
を抽出してインバーテツドファイル2を作成するキーワ
ード抽出部(抽出手段)3が設けられている。また、抽
出されたキーワード情報を用い、各キーワード間の関連
度を記述したキーワードコネクション4を作成又は変更
するキーワードコネクション管理部5が設けられている
。さらに、インバーテツドファイル2及びキーワードコ
ネクション4を用いて、利用者の入力した検索条件中の
キーワードから該当する文書のファイル確度を計算する
ファイル確度計算部6が設けられている。
また、文書情報等の他、検索結果をファイル確度の大き
い順にソートして利用者に表示、させるソート・表示部
7も設けられている。
い順にソートして利用者に表示、させるソート・表示部
7も設けられている。
しかして、本実施例では、ファイル1に登録された文書
につき、そのフォーマットを調べ、アブストラクトや結
論部分を探すという解析処理を行ない、解析結果をキー
ワード抽出部3により抽出されるキーワードに重み付け
という形で反映させる文書フォーマット理解部8が設け
られている。
につき、そのフォーマットを調べ、アブストラクトや結
論部分を探すという解析処理を行ない、解析結果をキー
ワード抽出部3により抽出されるキーワードに重み付け
という形で反映させる文書フォーマット理解部8が設け
られている。
このような構成において、文書登録時に、文書フォーマ
ット理解部8により、文書のおおまかな分類、構成等を
決定する。例えば、文書Aは特許明細書であり、文書B
は論文であったとすると、その分類及び構成は下記のよ
うになる。
ット理解部8により、文書のおおまかな分類、構成等を
決定する。例えば、文書Aは特許明細書であり、文書B
は論文であったとすると、その分類及び構成は下記のよ
うになる。
文書 分類 構成
A 特許明細書 発明の名称、特許請求の範囲、技術
分野、従来技術、実施例、 効果、・・・ B 論文 論文要旨、第1章、・・・、結論、
参考文献 これらの例の場合、重要なキーワードは、文書Aにあっ
ては特許請求の範囲の部分に、文書Bにあっては論文要
旨の部分に現れていることが予想される。換言すると、
これらの部分に現れるキーワードは他のキーワードより
も重要視することかが必要である。このため、本実施例
では、キーワード抽出部3により取り出したキーワード
からインバーテツドファイル2を作成する際に、特許請
求の範囲等の部分に現れたキーワードについては重みを
付けて登録するようにするものである。本実施例では、
この重みを「キーワードの重要度」と呼ぶことにする。
分野、従来技術、実施例、 効果、・・・ B 論文 論文要旨、第1章、・・・、結論、
参考文献 これらの例の場合、重要なキーワードは、文書Aにあっ
ては特許請求の範囲の部分に、文書Bにあっては論文要
旨の部分に現れていることが予想される。換言すると、
これらの部分に現れるキーワードは他のキーワードより
も重要視することかが必要である。このため、本実施例
では、キーワード抽出部3により取り出したキーワード
からインバーテツドファイル2を作成する際に、特許請
求の範囲等の部分に現れたキーワードについては重みを
付けて登録するようにするものである。本実施例では、
この重みを「キーワードの重要度」と呼ぶことにする。
実際にキーワードから文書を検索する場合には、検索結
果の文書に対してファイル確度の計算を行なう。まず、
キーワードコネクション4を調べ、検索条件中のキーワ
ードに対する関連キーワードを調べる。次に、インバー
テツドファイル2を調べ、関連するキーワードを含む文
書をファイルl中から取り出す。取り出した文書に対す
るファイル確度の計算には、キーワード関速度とともに
、上述のように付与されたキーワードの重要度も加味し
て行なう。求められたファイル確度によって検索された
文書を順位付けし、ソート・表示部7てこの順位で文書
を表示させる。文書表示の際、その中に含まれるキーワ
ードを重要度の順にソートして表示させるようにすれば
、その文書の内容が理解しやすく、又は、その文書が何
であるかをキーワードから推測しやすいものともなる。
果の文書に対してファイル確度の計算を行なう。まず、
キーワードコネクション4を調べ、検索条件中のキーワ
ードに対する関連キーワードを調べる。次に、インバー
テツドファイル2を調べ、関連するキーワードを含む文
書をファイルl中から取り出す。取り出した文書に対す
るファイル確度の計算には、キーワード関速度とともに
、上述のように付与されたキーワードの重要度も加味し
て行なう。求められたファイル確度によって検索された
文書を順位付けし、ソート・表示部7てこの順位で文書
を表示させる。文書表示の際、その中に含まれるキーワ
ードを重要度の順にソートして表示させるようにすれば
、その文書の内容が理解しやすく、又は、その文書が何
であるかをキーワードから推測しやすいものともなる。
発明の効果
本発明は、上述したようにファイルに登録される文書の
フォーマットを解読する文書ノオーマット理解部を設け
て、キーワード抽出手段による抽出キーワードの文書に
おける重要度を表す文書中での出現位置に応じた重み付
けをしてインバーテツドファイルを作成するようにした
ので、そのキーワードを含む文書中でこのキーワードが
どの程度重要であるかの情報を含むインバーテツドファ
イルを作成して検索に供することができ、よって、検索
条件中のキーワードが重要な意味を持つ文書を上位ラン
ク付は等により優先させ得る結果が得られる検索が可能
となり、利用者の意図する検索結果が得られやすいもの
となり、さらには、重要度の低いキーワードしか含まな
い文書については、例えばランク付けのための文書確度
の計算を行なわない、といった処理も可能となり、処理
数を減らして検索の高速化を図ることもできるものであ
る。
フォーマットを解読する文書ノオーマット理解部を設け
て、キーワード抽出手段による抽出キーワードの文書に
おける重要度を表す文書中での出現位置に応じた重み付
けをしてインバーテツドファイルを作成するようにした
ので、そのキーワードを含む文書中でこのキーワードが
どの程度重要であるかの情報を含むインバーテツドファ
イルを作成して検索に供することができ、よって、検索
条件中のキーワードが重要な意味を持つ文書を上位ラン
ク付は等により優先させ得る結果が得られる検索が可能
となり、利用者の意図する検索結果が得られやすいもの
となり、さらには、重要度の低いキーワードしか含まな
い文書については、例えばランク付けのための文書確度
の計算を行なわない、といった処理も可能となり、処理
数を減らして検索の高速化を図ることもできるものであ
る。
3・・・キーワード抽出手段、8・・・文書フォーマッ
ト理解部
ト理解部
Claims (1)
- ファイルに登録された文書情報からキーワード抽出手段
によりキーワードを抽出してインバーテッドファイルを
作成し、キーワードを含む検索条件入力により所望の文
書を検索するようにした文書検索装置において、前記フ
ァイルに登録される文書のフォーマットを解読する文書
フォーマット理解部を設け、前記キーワード抽出手段に
よる抽出キーワードの文書中での出現位置に応じた重み
付けをしてインバーテッドファイルを作成するようにし
たことを特徴とする文書検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2097396A JPH03294963A (ja) | 1990-04-12 | 1990-04-12 | 文書検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2097396A JPH03294963A (ja) | 1990-04-12 | 1990-04-12 | 文書検索装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH03294963A true JPH03294963A (ja) | 1991-12-26 |
Family
ID=14191359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2097396A Pending JPH03294963A (ja) | 1990-04-12 | 1990-04-12 | 文書検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH03294963A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06131225A (ja) * | 1992-10-16 | 1994-05-13 | Just Syst Corp | 文書処理方法及び装置 |
JPH06231178A (ja) * | 1993-01-28 | 1994-08-19 | Toshiba Corp | 文書検索装置 |
JPH06251072A (ja) * | 1993-02-27 | 1994-09-09 | Omron Corp | 文書処理装置および方法 |
JPH08320879A (ja) * | 1995-05-26 | 1996-12-03 | Nec Corp | 適合フィードバック装置 |
JPH09269951A (ja) * | 1996-04-03 | 1997-10-14 | Matsushita Electric Ind Co Ltd | 英文要約装置 |
JPH11232298A (ja) * | 1998-02-18 | 1999-08-27 | Sharp Corp | データ検索装置及びコンピュータ読み取り可能な記録媒体 |
JP2006227807A (ja) * | 2005-02-16 | 2006-08-31 | Nippon Telegr & Teleph Corp <Ntt> | 概念コンテンツ検索装置および方法 |
JP2010225101A (ja) * | 2009-03-25 | 2010-10-07 | Toshiba Corp | 検索装置、方法及びプログラム |
JP2012027841A (ja) * | 2010-07-27 | 2012-02-09 | Ricoh Co Ltd | 検索プログラム、検索装置、検索システム、検索方法及び記録媒体 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5844536A (ja) * | 1979-12-28 | 1983-03-15 | インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン | 文書検索装置 |
JPS6244878A (ja) * | 1985-08-23 | 1987-02-26 | Hitachi Ltd | 文書フアイリングシステム |
JPH0227478A (ja) * | 1988-07-18 | 1990-01-30 | Ricoh Co Ltd | 文書管理装置 |
-
1990
- 1990-04-12 JP JP2097396A patent/JPH03294963A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5844536A (ja) * | 1979-12-28 | 1983-03-15 | インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン | 文書検索装置 |
JPS6244878A (ja) * | 1985-08-23 | 1987-02-26 | Hitachi Ltd | 文書フアイリングシステム |
JPH0227478A (ja) * | 1988-07-18 | 1990-01-30 | Ricoh Co Ltd | 文書管理装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06131225A (ja) * | 1992-10-16 | 1994-05-13 | Just Syst Corp | 文書処理方法及び装置 |
JPH06231178A (ja) * | 1993-01-28 | 1994-08-19 | Toshiba Corp | 文書検索装置 |
JPH06251072A (ja) * | 1993-02-27 | 1994-09-09 | Omron Corp | 文書処理装置および方法 |
JPH08320879A (ja) * | 1995-05-26 | 1996-12-03 | Nec Corp | 適合フィードバック装置 |
JPH09269951A (ja) * | 1996-04-03 | 1997-10-14 | Matsushita Electric Ind Co Ltd | 英文要約装置 |
JPH11232298A (ja) * | 1998-02-18 | 1999-08-27 | Sharp Corp | データ検索装置及びコンピュータ読み取り可能な記録媒体 |
JP2006227807A (ja) * | 2005-02-16 | 2006-08-31 | Nippon Telegr & Teleph Corp <Ntt> | 概念コンテンツ検索装置および方法 |
JP2010225101A (ja) * | 2009-03-25 | 2010-10-07 | Toshiba Corp | 検索装置、方法及びプログラム |
JP2012027841A (ja) * | 2010-07-27 | 2012-02-09 | Ricoh Co Ltd | 検索プログラム、検索装置、検索システム、検索方法及び記録媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6564210B1 (en) | System and method for searching databases employing user profiles | |
US7475074B2 (en) | Web search system and method thereof | |
JP3099756B2 (ja) | 文書処理装置、単語抽出装置及び単語抽出方法 | |
JP3282937B2 (ja) | 情報検索方法及びシステム | |
US20050060290A1 (en) | Automatic query routing and rank configuration for search queries in an information retrieval system | |
EP1716511A1 (en) | Intelligent search and retrieval system and method | |
US6278990B1 (en) | Sort system for text retrieval | |
US20050114317A1 (en) | Ordering of web search results | |
JPH0486950A (ja) | 文書検索方法 | |
JPH03294963A (ja) | 文書検索装置 | |
JP2000331032A (ja) | 文書処理装置、単語抽出装置及び単語抽出方法 | |
JP5964149B2 (ja) | 共起語を特定する装置およびプログラム | |
WO1998049632A1 (en) | System and method for entity-based data retrieval | |
JPH01145721A (ja) | 文献の検索妥当性判定方式 | |
KR19990048712A (ko) | 인터넷 정보검색시 지도형 분류 검색방법 | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
JP2003216634A (ja) | 情報検索システム | |
JPH11154164A (ja) | 全文検索処理における適合度算出方法および該方法に係るプログラムを格納した記憶媒体 | |
JPH03294964A (ja) | 文書検索方法 | |
JP3558267B2 (ja) | 文書検索装置 | |
JP2002324077A (ja) | 文書検索装置および文書検索方法 | |
JP2012104051A (ja) | 文書インデックス作成装置 | |
JPH08305695A (ja) | 文書処理装置 | |
JPH07104869B2 (ja) | データ検索加工システム | |
JPH11134364A (ja) | 体系化知識解析方法及び装置並びに分類方法及び装置 |