JP3328104B2 - キーワード自動抽出装置および文書検索装置 - Google Patents

キーワード自動抽出装置および文書検索装置

Info

Publication number
JP3328104B2
JP3328104B2 JP14521195A JP14521195A JP3328104B2 JP 3328104 B2 JP3328104 B2 JP 3328104B2 JP 14521195 A JP14521195 A JP 14521195A JP 14521195 A JP14521195 A JP 14521195A JP 3328104 B2 JP3328104 B2 JP 3328104B2
Authority
JP
Japan
Prior art keywords
search
keyword
document
word
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP14521195A
Other languages
English (en)
Other versions
JPH08314974A (ja
Inventor
直彦 野口
裕文 篠木
忠一 菊池
輝一 桐生
哲也 大塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP14521195A priority Critical patent/JP3328104B2/ja
Publication of JPH08314974A publication Critical patent/JPH08314974A/ja
Application granted granted Critical
Publication of JP3328104B2 publication Critical patent/JP3328104B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、データベースに蓄積さ
れた文書や一般のワードプロセッサ、オフィスコンピュ
ータなどの記憶装置に蓄積された文書の中から所望の文
書を検索する文書検索装置と、この文書検索装置に利用
される、各文書を特徴づけるキーワードを自動的に抽出
するキーワード自動抽出装置とに関し、特に、精度の高
い文書検索を可能にしたものである。
【0002】
【従来の技術】近年、電子メールや電子カタログ、電子
出版物など、電子化された文書情報が大量に流通し始め
たことに伴って、それらの文書情報から所望の文書だけ
を検索する文書検索装置に対する関心が高まっている。
【0003】このような文書検索装置では、従来から、
文書毎に付与されたキーワードを利用して文書を検索す
るキーワード検索という手法が一般的に用いられてい
る。このキーワード検索では、蓄積文書に対して、その
文書の内容を表すキーワードを予め人手によって付与し
て、キーワードに対する転置ファイルを構成しておき、
検索時には利用者が所望のキーワードを入力すると、こ
のキーワードを含む文書を、転置ファイルを利用して高
速で検索する。
【0004】このキーワード検索においては、人が各文
書の内容を検討してキーワードを付与しているため、利
用者が望む内容の文書を高い精度で検索することができ
る。しかし、その反面、人手によるキーワード付けの作
業が蓄積文書の増加に間に合わないといった問題点も指
摘されている。
【0005】そのような問題点の解決を図るために、文
書からキーワードを自動的に抽出する装置が提案されて
いる(例えば、木本晴夫“キーワード自動抽出装置"、
特開昭63−136224など)。この従来のキーワー
ド自動抽出装置は、図19に示すように、検索対象文書
を格納する文書格納部191と、キーワード抽出時に参照
する辞書192と、単語同士の上位−下位関係などが記述
されたシソーラス193と、文書格納部191から読出した文
書のキーワードを抽出するキーワード自動抽出部194
と、抽出されたキーワードを後の検索で利用しやすいよ
うに転置ファイル形式などで格納するキーワード抽出結
果格納部195とを備えている。
【0006】この装置のキーワード自動抽出部194は、
まず、文書格納部191から検索対象文書を読出し、辞書1
92を用いて最長一致法(辞書の単語と一致する最も長い
文字列を単語として区分する)や形態素解析手法(品詞
情報、接続情報などを用いて文字列を区分する)などの
処理を行なって、この文書を単語に分割する。例えば、
図20に示すような文書(文書番号20とする)を単語
分割すると、図21に示すような単語列となる。
【0007】次に、キーワード自動抽出部194は、こう
して求めた単語列から、この文書のキーワードとして付
与するものを選択する。キーワード検索においては、で
きるだけこの文書の内容を的確に表す単語のみを抽出す
ることが好ましいので、キーワードを選択する際には、
不要語辞書などを用意して、その不要語辞書中に登録さ
れた単語は選択しないといった処理を行なったり、ある
いはキーワード辞書を用意して、そのキーワード辞書中
に登録された単語のみを選択したり、あるいは頻度計算
などを行なって重要と判断される単語のみを選択するな
どの手段がとられる。例えば、図21の単語列から、不
要な単語として、助詞などの附属語を除去することで、
図22に示す単語のみが選択される。
【0008】最後に、キーワード自動抽出部194で選択
されたキーワードをこの文書のキーワードとして、キー
ワード抽出結果格納部195に格納する。図23は、キー
ワード抽出結果格納部195の内容を示す図である。図2
2で選択された各単語について、その単語を含む文書番
号20が記録される。
【0009】検索時には、利用者からキーワード入力を
受付けて、このキーワードを含む文書をキーワード抽出
結果格納部195から検索する。例えば、利用者の入力が
「ひまわり」であった場合、キーワード抽出結果格納部
195を検索し、図23のテーブルから、「ひまわり」を
キーワードとして含む文書番号20の文書が、検索結果
として得られる。
【0010】また、人手に頼るキーワード付与を別の観
点から解決するものとして、全文検索という手法も提案
されている。この全文検索では、利用者から与えられた
文字列を検索条件として、この検索条件と、検索対象文
書を構成する全ての文字列との照合を行ない、検索条件
を満たす文書を求める。そのため、この方法では文書に
予めキーワードを付与する必要がない。
【0011】
【発明が解決しようとする課題】しかし、従来のキーワ
ード自動抽出装置では、検索対象文書から全て自動的に
キーワードを抽出しているため、必ずしもこの文書の内
容を適切に表しているとは言えないものまでキーワード
として取込んでしまうことがある。また、付与されるキ
ーワードの数は、通常の人手によるキーワード付与に比
べて可成り多くなる。その結果、キーワード自動抽出装
置でキーワードが付与された文書をキーワード検索する
場合には、検索の精度が悪化する(検索漏れ、検索のゴ
ミの両者とも増加する)という課題を有していた。
【0012】具体例で説明すると、図20に掲げた文書
のキーワードを自動抽出した場合には、図22に示すよ
うに、「月」「日」「両国」などの、文書の内容を表現
するとは思えない余計な単語までもキーワードとして登
録されるため、文書をキーワード検索するときの検索精
度が悪化する。例えば、利用者が、地名の「両国」に関
する文書を検索したい場合に、「両国」というキーワー
ドで検索を行なうと、誤って文書番号20の文書を検索
してしまう。また、衛星である「月」についての文書を
検索したい場合に、「月」というキーワードで検索を行
なうと、やはり誤って文書番号20の文書を検索してし
まう。また、利用者が有名な映画に関する文書を検索し
たい場合に、「名画」というキーワードで検索を行なう
と、文書番号20の文書には「名画」というキーワード
が付与されているために、やはり誤って文書番号20の
文書が検索されてしまう。このように、キーワード付与
を自動的に行なうと、結果的に誤って検索される文書
(検索のゴミ)が増加し、検索精度が悪化してしまうと
いう問題がある。
【0013】また、従来の全文検索では、利用者が検索
条件として入力した文字列を含む全ての文書が検索結果
として出力されるために、網羅的な検索には適している
が、やはり検索のゴミが多く、検索精度が悪いという課
題を有していた。
【0014】本発明は、こうした従来の問題点を解決す
るものであり、検索対象文書からキーワードを自動抽出
する際に、人手を最小限度介在させることで、文書の内
容を的確に表現するキーワードだけを抽出することがで
きるキーワード自動抽出装置を提供し、また、キーワー
ドが自動抽出された検索対象文書を検索する際に、人手
を最小限度介在させることで、精度の高い効率的なキー
ワード検索を行なうことができる文書検索装置を提供す
ることを目的としている。
【0015】
【課題を解決するための手段】そこで、本発明では、辞
書、またはキーワード候補語同士の上位−下位関係が記
載されたシソーラスを用いて、検索対象文書からキーワ
ードを自動抽出するキーワード自動抽出装置において、
前記シソーラスに記載されたキーワード候補語の中でキ
ーワードの選択に注意を要するキーワード候補語に予め
注意語の印を付け、検索対象文書からキーワード候補語
を切出すキーワード候補語切出し手段と、切出されたキ
ーワード候補語が、シソーラスの複数箇所に記載されて
いるとき、または、前記注意語に該当するとき、利用者
の意図を確認した上でこのキーワード候補語をキーワー
ドとして選択するキーワード候補語選択手段と、利用者
に情報を提示し、また利用者からの選択入力を受付ける
入出力手段とを設けている。
【0016】
【0017】また、文書検索装置に、辞書、またはキー
ワード候補語同士の上位−下位関係が記載されたシソー
ラスを用いて、検索対象文書からキーワードを自動抽出
する前記キーワード自動抽出装置と、前記キーワード自
動抽出装置の抽出結果を格納するキーワード抽出結果格
納手段と、利用者の入力した検索文字列をキーワードと
して、このキーワードを持つ文書をキーワード抽出結果
格納手段から検索するキーワード検索手段とを設け、前
記キーワード検索手段は、検索文字列がシソーラスの複
数箇所に記載されているとき、利用者の意図を確認し、
利用者の意図するキーワードを持つ文書をキーワード抽
出結果格納手段から検索するようにしている。
【0018】
【0019】また、検索文字列を含む検索対象文書を文
字列照合により検索する全文検索手段を設け、キーワー
ド検索手段または全文検索手段による検索を入出力手段
から選択できるようにしている。
【0020】また、同義語の関係にある単語グループと
シソーラスのキーワード候補語との対応関係を記述した
同義語辞書と、利用者の入力した検索文字列を同義語辞
書を用いて変換する検索文字列変換手段とを設け、キー
ワード検索手段に対して、検索文字列変換手段によって
変換されたシソーラスのキーワード候補語を検索文字列
として与えるように構成している。
【0021】さらに、この検索文字列変換手段が、利用
者の入力した検索文字列を、同義語辞書を用いて同義語
の単語グループに変換し、全文検索手段に対して、この
単語グループの中から利用者が選択した文字列を検索文
字列として与えるように構成している。
【0022】
【作用】本発明のキーワード自動抽出装置では、切出さ
れたキーワード候補語がシソーラスの複数箇所に載って
いるとき、つまり、その候補語が複数の意味を持つとき
は、入出力手段を介して、どの意味であるかを利用者に
訊ね、利用者が選択した意味を有するキーワードとし
て、その候補語を格納する。このように、曖昧な候補語
について、利用者に正しい意味を選択する機会が与えら
れるため、精度の高いキーワード抽出が可能になる。
【0023】また、キーワード抽出に誤りが生じやすい
キーワード候補語については、シソーラスに注意語の表
示が記入されており、この注意語が候補語として切出さ
れた場合にも、利用者の選択を待って、キーワードとし
て格納される。
【0024】また、本発明の文書検索装置では、利用者
の入力した検索文字列がシソーラスの複数箇所に記載さ
れているとき、つまり、その検索文字列が複数の意味を
持つときは、入出力手段を介して、その検索文字列がど
の意味であるかを利用者に訊ね、利用者の意図するキー
ワードを備えた文書を検索する。そのため、利用者の意
図に沿った検索を高い精度で進めることができ、全体と
して効率的な検索が可能になる。
【0025】
【0026】また、全文検索手段を併せて備えた文書検
索装置では、精度の比較的高いキーワード検索と、網羅
性の比較的高い全文検索とを適宜使い分けたり、全文検
索で集めた対象文書をキーワード検索で絞るなど、相補
的な検索を実施することが可能であり、利用者のニーズ
に即した検索を行なうことができる。
【0027】また、同義語辞書を備えた文書検索装置で
は、各文書のキーワードとして、抽出されたキーワード
候補語の外に、その候補語のシソーラス上での上位語を
併せて格納しておく。一方、キーワード検索時には、入
力された検索文字列のシソーラス上での上位語を同義語
辞書から調べて、この上位語をキーワードとして対象文
書を検索する。この場合、この上位語の下位概念となる
各同義語については個々に検索を行なわなくとも、上位
語の検索だけで求める文書を得ることができるため、極
めて効率的である。
【0028】また、全文検索時には、入力された検索文
字列の同義語を同義語辞書から調べて、入出力手段を介
して利用者に開示し、利用者がその中から選択した一ま
たは二以上の同義語を検索文字列として全文検索を実行
する。こうすることにより、利用者のニーズに即した検
索を効率的に行なうことができる。
【0029】
【実施例】
(第1実施例)第1実施例はキーワード自動抽出装置で
あり、この装置は、図1に示すように、検索対象文書を
格納する文書格納部11と、検索対象文書からキーワード
候補語を切出すために参照される辞書12と、キーワード
候補語同士の上位−下位関係などが記述されたシソーラ
ス13と、辞書12やシソーラス13を用いて検索対象文書か
らキーワード候補語を切出すキーワード候補語切出し部
14と、切出されたキーワード候補語から利用者とのやり
取りを通じてその対象文書に適するキーワードを選択す
るキーワード候補語選択部15と、利用者からの入力を受
付けるとともに利用者に情報を提示する入出力部16と、
検索対象文書と選択されたキーワードとの対応関係を記
録するキーワード抽出結果格納部17とを備えている。
【0030】シソーラス13は、図3に例示するように、
上位概念を表す上位語と、それに意味的に含まれる下位
語との関係を規定しており、また、「月」のように、複
数の意味(衛星としての月と、月日の月)を持ち、間違
い易いキーワード候補語に対しては注意語の印(*)が
付されている。なお、単語の後の数字は単語番号を示し
ている。
【0031】このキーワード自動抽出装置では、まず、
キーワード候補語切出し部14が、文書格納部11に格納さ
れている文書を順番に読み出し、各文書を、辞書12を参
照しながら最長一致手法または形態素解析手法などを用
いて単語分割し、その単語分割された結果から不要語を
削除して、キーワード候補語の列を得る。
【0032】この場合、予めキーワードになり得る単語
を辞書12またはシソーラス13に収録しておき、キーワー
ド候補語切出し部14が、読出した文書の全文を辞書12ま
たはシソーラス13と照合し、一致する単語だけを抽出し
てキーワード候補語列を求めてもよい。
【0033】こうして、例えば図20に示す文書番号2
0の文書から、図22のようなキーワード候補語列を得
る。
【0034】次に、キーワード候補語選択部15が、この
キーワード候補語列の各単語について、順番にシソーラ
ス13を参照して、各単語の上位語を求める。その際に、
シソーラス13中に、複数箇所登録されている単語があっ
た場合には、一旦その単語とこの単語の上位語との組を
全て入出力部16に表示して利用者にいずれかを選択させ
る。例えば、図22のキーワード候補語列のうち、「名
画」については、図3のシソーラス13中に2箇所登録さ
れているため、この単語を入出力部16にその上位語とと
もに表示する。図4に、このときの表示画面の例を示
す。
【0035】利用者は、表示された文書を確認し、この
文書中の「名画」という単語が絵画の「名画」を意味し
ていると判断したときは、表示画面の「2 絵画」を選
択する。キーワード候補語選択部15は、利用者からの入
力を受けて、この文書(文書番号20)のキーワードと
して、「絵画」の意味での「名画」(単語番号201)
と、その上位語である「絵画」(200)とをキーワー
ド抽出結果格納部17に格納する。
【0036】また、キーワード候補語選択部15が、キー
ワード候補語列の各単語について、順番にシソーラス13
を参照して、各単語の上位語を求める際に、シソーラス
13中に、注意語として記載されている単語があった場合
には、一旦その単語が注意語であることを入出力装置16
に表示して利用者に注意を促し、この単語をキーワード
として登録するかどうかを選択させる。図22のキーワ
ード候補語列のうち、「月」については、図3に示すよ
うに、シソーラス13中に「注意語」としての記述がある
ので、入出力部16にその旨表示する。図5に、このとき
の表示画面の例を示す。
【0037】利用者は、表示された文書を確認して、こ
の文書中での「月」という単語が、衛星の意味での
「月」ではないことを確認し、表示画面中の「2 選択
しない」を選択する。キーワード候補語選択部15は、利
用者からの入力を受けて、「月」についてはキーワード
として登録しないことに決定する。
【0038】こうしたキーワード自動抽出装置の動作手
順を、図2を用いて説明する。
【0039】ステップ1:文書格納部11に格納された検
索対象文書数Nを記憶するとともに、文書番号iを初期
値(1)にセットする。
【0040】ステップ2:キーワード候補語切出し部14
は、文書番号iの文書を文書格納部11から読出し、 ステップ3:例えば、辞書12を用いてこの文書を単語分
割し、不要語を削除して、長さKのキーワード候補語列
を得る。
【0041】ステップ4:キーワード候補語の順番jを
初期値(1)にセットする。
【0042】ステップ5:jがKに達していなければ、 ステップ6:キーワード候補語選択部15は、キーワード
候補語列のj番目の単語がシソーラス13中で複数箇所に
登録されているかどうかを調べ、 ステップ7:複数箇所に登録されているときは、その単
語をシソーラス中の上位語とともに入出力部16の画面に
表示する。
【0043】ステップ8:画面を見た利用者が適切な単
語とその上位語とを選択すると、 ステップ12:その単語と上位語とをキーワードとしてキ
ーワード抽出結果格納部17に格納する。
【0044】ステップ6において、キーワード候補語列
のj番目の単語がシソーラス13の複数箇所に登録されて
いないときは、 ステップ9:その単語がシソーラス中で注意語とされて
いるかどうかを調べ、 ステップ10:注意語であるときは、その単語をシソーラ
ス中の上位語とともに入出力部16の画面に表示し、 ステップ11:画面を見た利用者はその単語をキーワード
として選択するかどうかを決定する。
【0045】ステップ12:キーワード候補語選択部15
は、ステップ11で選択されなかった場合を除いて、その
単語と上位語とをキーワードとしてキーワード抽出結果
格納部17に格納する。
【0046】ステップ13:キーワード候補語の順番jを
1つアップして、ステップ5〜ステップ12の手順を繰り
返し、 ステップ5:jがKを超えたとき、つまり、文書番号i
の文書から求めたキーワード候補語列の各単語について
キーワード選択の処理が終了したときは、 ステップ14:文書番号を1つアップして、ステップ2〜
ステップ13の手順を繰り返し、 ステップ15:文書番号iがNを超えたとき、つまり、文
書格納部11に格納された全ての文書についてのキーワー
ド抽出が完了したときは処理を終了する。
【0047】このように、第1実施例のキーワード自動
抽出装置では、利用者のチェックを受けてキーワードが
正しい意味の下で登録される。そのため、文書の検索に
おいて、誤った文書の検出が抑制され、検索精度が向上
する。
【0048】(第2実施例)第2実施例は文書検索装置
であり、この装置は、図6に示すように、検索対象文書
を格納する文書格納部61と、検索対象文書からキーワー
ド候補語を抽出する際に参照される辞書62と、キーワー
ド候補語同士の上位−下位関係などが記述されたシソー
ラス63と、辞書62やシソーラス63を用いて検索対象文書
からキーワードを抽出するキーワード自動抽出部64と、
検索対象文書とキーワードとの対応関係を記録するキー
ワード抽出結果格納部65と、利用者からの入力を受付け
るとともに利用者に情報を提示する入出力部67と、利用
者から入力された文字列をキーワードとして対象文書を
検索するキーワード検索部66とを備えている。
【0049】シソーラス63を図8に示しているが、これ
は第1実施例のシソーラス(図3)と同じである。
【0050】この装置のキーワード自動抽出部64は、第
1実施例(図1)のキーワード候補語切出し部14及びキ
ーワード候補語選択部15に相当しており、文書格納部61
に格納された文書を順番に読出し、利用者とのやりとり
を交えながら、辞書62やシソーラス63を用いて、各文書
のキーワードを自動抽出し、抽出結果をキーワード抽出
結果格納部65に格納する。例えば、図20に示す文書
(文書番号20)に対して、キーワード自動抽出部64
は、図22のキーワードを抽出し、また、図24に示す
文書(文書番号24)に対して、図25のキーワードを
抽出する。このとき、第1実施例に示したように、シソ
ーラス63の複数箇所に登録されているキーワードについ
ては、利用者とのやりとりを通じて、正しい意味のキー
ワードが抽出される。
【0051】抽出されたキーワードは、図9に示すよう
に、キーワードとその単語番号、そのキーワードを含む
文書の総数、及びその文書の各文書番号、の形でキーワ
ード抽出結果格納部65に登録される。ここでは「名画」
というキーワードが二つ登録されているが、「名画」
(単語番号101)は、図24の文書のキーワードであ
る映画の意味を持つ「名画」であり、「名画」(単語番
号201)は、図20の文書のキーワードである絵画の
意味を持つ「名画」である。
【0052】こうして検索対象文書のキーワードの登録
を終えると、文書検索装置は、図7に示す手順で文書検
索を実行する。
【0053】ステップ21:利用者が検索キーワードとし
て、例えば「名画」を入出力部67より入力すると、 ステップ22:キーワード検索部66は、シソーラス63か
ら、この検索キーワード「名画」の上位語(「映画」
「絵画」)を求める。
【0054】ステップ23:検索キーワードの上位語がシ
ソーラス中に複数ある場合、つまり、その検索キーワー
ドがシソーラスの複数箇所に登録されている場合には、 ステップ24:この検索キーワードを含む文書数をキーワ
ード抽出結果格納部65から求め、検索キーワードと、そ
の上位語と、その検索キーワードを含む文書数とを入出
力部67の画面に表示する(この表示画面例を図10に示
している)。
【0055】ステップ25:利用者は画面を見て、検索し
ようとするキーワードがどの上位語を持つキーワードで
あるかを選択する。
【0056】ステップ26:キーワード検索部66は、検索
キーワードがシソーラスの複数箇所に登録されていない
場合にはその検索キーワードを、また、ステップ25にお
いて選択が行なわれたときは選択された検索キーワード
を含む文書の文書番号をキーワード抽出結果格納部65か
ら検索する。
【0057】従って、利用者の入力した検索キーワード
が「名画」の場合は、図10の画面が表示され、利用者
は、自身の検索意図に応じて、この画面から「1 映
画」または「2 絵画」を選択する。例えば「2 絵
画」が選択されると、キーワード検索部66は、この選択
を受けて、キーワード抽出結果格納部65から、キーワー
ド「名画(201)」のみを持つ文書を検索し、検索結
果である文書番号20を表示する。
【0058】このように、第2実施例の文書検索装置で
は、利用者の入力した検索条件文字列がシソーラスの複
数箇所に登録されているとき、つまり、その文字列が複
数の意味を持つときには、利用者の検索意図を確認し、
その後、検索を実行する。そのため、効率的、かつ高精
度の検索を行なうことができる。
【0059】(第3実施例)第3実施例の文書検索装置
は、キーワード検索と全文検索との選択が可能である。
この装置は、図11に示すように、検索対象文書の全文
と入出力部118から入力された文字列とを照合して、こ
の文字列を含む対象文書を検索する全文検索部117を備
えている。その他の構成は第2実施例の文書検索装置
(図6)と変わりがない。
【0060】この装置では、キーワード自動抽出部114
が、文書格納部111に格納されている文書を順番に読出
し、キーワードを自動抽出してキーワード抽出結果格納
部115に格納する。この動作は第2実施例と同じであ
る。いま、検索対象文書として文書格納部111に図20
の文書(文書番号20)、図24の文書(文書番号2
4)及び図26の文書(文書番号26)が格納され、こ
れらの文書から、それぞれ、図22、図25及び図27
のキーワードが抽出され、このキーワードが図13に示
す状態でキーワード抽出結果格納部115に登録されたと
する。
【0061】文書検索を行なう利用者は、入出力部118
から、検索文字列の入力と、キーワード検索モードか全
文検索モードかの選択を行なう。例えば、利用者がキー
ワード検索モードを選択して、「名画」という検索文字
列を入力した場合には、第2実施例で説明したように、
キーワード検索部116は、入出力部118を介して適宜利用
者とやりとりを行ないながら、利用者の検索意図に沿っ
た、精度の高い検索を実行する。
【0062】しかし、利用者がキーワード検索モードを
選択して、「旅行ブーム」のように、それ自身キーワー
ドとして登録されていない検索文字列を入力した場合に
は、検索結果の文書数は0件になってしまう。その場
合、利用者が新たに全文検索モードを選択すると、全文
検索部117は、「旅行ブーム」という文字列と文書格納
部111に格納された各文書との文字列照合を実行し、
「旅行ブーム」の文字列を含む文書、即ち、文書番号2
6の文書を検出する。つまり、「旅行ブーム」という文
字列を含む文書を網羅的に求めたい場合には、利用者は
全文検索モードを指定することによって、該当文書を検
索することができる。
【0063】この装置の検索動作の手順を図12のフロ
ーチャートに示している。
【0064】ステップ31:利用者が入出力部118より検
索条件の文字列と検索モードとを入力すると、 ステップ32:検索モードがキーワード検索モードである
ときは、ステップ33〜ステップ38の手順を実行する。こ
の手順は第2実施例の手順(図7)(ステップ22〜ステ
ップ26)と同じである。
【0065】ステップ32において、検索モードがキーワ
ード検索モードでないときは、 ステップ34:全文検索部117は、検索格納部111から検索
対象文書を順番に読出し、その文書の全文と検索条件の
文字列とを照合して、その文字列を含む対象文書を求め
る。
【0066】このように第3実施例の文書検索装置で
は、検索モードの選択が可能であり、利用者は、網羅的
な検索を希望する場合に全文検索モードを選択し、ま
た、精度の高い検索を希望する場合にキーワード検索モ
ードを選択することができる。また、一旦全文検索モー
ドで検索を実行し、検索結果件数が多い場合にキーワー
ド検索モードに変更して検索結果を絞り込んだり、ある
いは、一旦キーワード検索モードを実行し、検索結果件
数が0件またはそれに近い場合に、全文検索モードを選
択して更に関連文書を求める、といった、柔軟で、効率
的な検索を行なうことができる。
【0067】(第4実施例)第4実施例の文書検索装置
は、同義語による検索を効率化することができる。この
装置は、図14に示すように、入出力部150から入力さ
れる検索条件の文字列を同義語に変換する検索文字列変
換部148と、この変換に使用される同義語辞書149とを備
えている。その他の構成は第3実施例の装置(図11)
と変わりがない。
【0068】同義語辞書149には、図16に示すよう
に、同じ意味を有する同義語の単語グループと、この単
語グループに対応するシソーラス143中の上位語との関
係が記述されている。
【0069】この文書検索装置では、検索対象文書のキ
ーワード抽出に当たって、キーワード自動抽出部144
は、各文書から切出した単語と、この単語のシソーラス
143中での上位語とを全てキーワードとして抽出し、キ
ーワード抽出結果格納部145に格納する。
【0070】例えば、シソーラス143において「電子計
算機」「電算機」「コンピュータ」の上位語として「コ
ンピューター」が規定されている場合には、キーワード
自動抽出部144は、図28に示す文書(文書番号2
8)、図30に示す文書(文書番号30)及び図32に
示す文書(文書番号32)から、それぞれ図29、3
1、33のキーワードを抽出する。これらのキーワード
は、キーワード抽出結果格納部145に図17に示す状態
で登録される。
【0071】キーワードの登録後、文書検索を行なおう
とする利用者は、入出力部150から検索文字列を入力す
るとともに、キーワード検索モードか全文検索モードか
を選択する。例えば、キーワード検索モードが選択さ
れ、「電子計算機」という検索文字列が入力されると、
検索文字列変換部148は、選択されたモードがキーワー
ド検索モードであるときは、同義語辞書149から、「電
子計算機」を含む同義語グループの上位語となるキーワ
ード「コンピューター」を探して、キーワード検索部14
6に伝える。
【0072】キーワード検索部146は、これを受けて
「コンピューター」というキーワードを持つ文書をキー
ワード抽出結果格納部145から探索する。キーワード抽
出結果格納部145には、図17に示すように、文書番号
28、30、32の文書がすべて「コンピューター」と
いうキーワードを持つものとして登録されているので、
これら3つの文書は、検索の結果、検出されることにな
る。
【0073】このように、一旦検索文字列を、上位語と
なるキーワードに変換することで、「電子計算機」と同
義である「電算機」「コンピュータ」などについての検
索を個別に行なう必要が無くなり、キーワード検索を効
率化することができる。
【0074】一方、全文検索モードが選択され、「電子
計算機」という検索文字列が入力されると、検索文字列
変換部148は、選択されたモードが全文検索モードであ
るときは、「電子計算機」を含む同義語グループを同義
語辞書149より探し、この同義語グループに属する単語
を入出力部150を介して利用者に提示する。このときの
表示画面を図18に例示している。
【0075】利用者は、表示された単語の中から、一
つ、あるいは複数の単語を選択する。例えば、「コンピ
ュータ」という単語を選択すると、検索文字列変換部14
8は選択された文字列を全文検索部147に伝え、全文検索
部147は、文書格納部141から読出した文書の全文と「コ
ンピュータ」という単語との照合を行ない、この単語を
含む文書を検出する。その結果、「コンピュータ」とい
う単語を含む文書番号32の文書は検出されるが、文書
番号28、30の文書は検出されない。
【0076】こうした動作を行なう文書検索装置の動作
手順を図15に示している。 ステップ41:利用者が入出力部150から検索条件の文字
列と検索モードとを入力すると、 ステップ42:検索モードがキーワード検索モードである
ときは、 ステップ43:検索文字列変換部148は、同義語辞書149か
ら検索文字列の属する同義語の単語グループの上位語を
求め、 ステップ44〜ステップ48:キーワード検索部146が、こ
の上位語をキーワードに持つ文書を検索する。このステ
ップ44〜ステップ48の手順は、第2実施例の手順(図
7)(ステップ22〜ステップ26)と同じである。
【0077】ステップ42において、検索モードがキーワ
ード検索モードでないときは、 ステップ49:検索文字列変換部148は、同義語辞書149か
ら検索文字列の属する同義語の単語グループを求め、 ステップ50:この単語グループに含まれる単語を画面に
表示する。
【0078】ステップ51:画面を見た利用者が、全文検
索に用いる単語を選択すると、 ステップ52:全文検索部147は、文書格納部141から読出
した検索対象文書と選択された単語とを照合し、その単
語を含む全ての文書を検出する。
【0079】このように、第4実施例の文書検索装置で
は、キーワード検索の場合に、検索条件文字列の上位語
をキーワードとしているため、効率的な検索が可能であ
る。また、全文検索の場合には、利用者に対して、同義
語グループの中から検索条件文字列を選択する機会を与
えており、利用者のニーズに即した検索を実行すること
ができる。
【0080】なお、第2実施例、第3実施例及び第4実
施例の文書検索装置において、キーワード自動抽出部
は、第1実施例のキーワード自動抽出装置のキーワード
候補語切出し部及びキーワード候補語選択部に相当する
構成とすることが望ましいが、辞書及びシソーラスを用
いて検索対象文書から適切なキーワードを抽出すること
ができる他の構成を採ることも可能である。
【0081】
【発明の効果】以上の実施例の説明から明らかなよう
に、本発明のキーワード自動抽出装置は、複数の意味を
持つ単語、あるいは間違いやすい単語に対して、利用者
の意図を確認してからキーワードとして抽出しているた
め、文書の内容に即した適切なキーワードの抽出が可能
であり、その結果、キーワード検索における精度を向上
させることができる。
【0082】また、本発明の文書検索装置は、入力され
た検索キーワードが複数の意味を持つ場合に、利用者の
検索意図を明確にした上で検索を実行しているため、精
度の高い検索結果を効率的に得ることができる。
【0083】また、キーワード検索モードと全文検索モ
ードとを選択できる文書検索装置では、利用者の意図に
沿った、柔軟で精度の高い検索が可能である。
【0084】さらに、同義語辞書を備えた文書検索装置
では、同義語によるキーワード検索を効率化することが
でき、また、全文検索に際しては、検索文字列に用いる
同義語を選択することができ、利用者のニーズに即した
全文検索が可能である。
【図面の簡単な説明】
【図1】本発明の第1実施例におけるキーワード自動抽
出装置の構成を示すブロック図、
【図2】第1実施例のキーワード自動抽出装置における
動作を示すフローチャート、
【図3】第1実施例のキーワード自動抽出装置における
シソーラスの概念図、
【図4】第1実施例のキーワード自動抽出装置における
表示例(単語が複数の意味を持つ場合)、
【図5】第1実施例のキーワード自動抽出装置における
表示例(単語が注意語の場合)、
【図6】本発明の第2実施例における文書検索装置の構
成を示すブロック図、
【図7】第2実施例の文書検索装置における動作を示す
フローチャート、
【図8】第2実施例の文書検索装置におけるシソーラス
の概念図、
【図9】第2実施例の文書検索装置におけるキーワード
抽出結果格納部の概念図、
【図10】第2実施例の文書検索装置における表示例
(検索条件が複数の意味を持つ場合)、
【図11】本発明の第3実施例における文書検索装置の
構成を示すブロック図、
【図12】第3実施例の文書検索装置における動作を示
すフローチャート、
【図13】第3実施例の文書検索装置におけるキーワー
ド抽出結果格納部の概念図、
【図14】本発明の第4実施例における文書検索装置の
構成を示すブロック図、
【図15】第4実施例の文書検索装置における動作を示
すフローチャート、
【図16】第4実施例の文書検索装置における同義語辞
書の概念図、
【図17】第4実施例の文書検索装置におけるキーワー
ド抽出結果格納部の概念図、
【図18】第4実施例の文書検索装置における表示例
(同義語を表示する場合)
【図19】従来のキーワード自動抽出装置の構成を示す
ブロック図、
【図20】検索対象文書(文書番号20)の例、
【図21】検索対象文書(文書番号20)を単語分割し
た例、
【図22】検索対象文書(文書番号20)から抽出され
るキーワードの例、
【図23】従来のキーワード自動抽出装置でのキーワー
ド抽出結果格納部の概念図、
【図24】検索対象文書(文書番号24)の例、
【図25】検索対象文書(文書番号24)から抽出され
るキーワードの例、
【図26】検索対象文書(文書番号26)の例、
【図27】検索対象文書(文書番号26)から抽出され
るキーワードの例、
【図28】検索対象文書(文書番号28)の例、
【図29】検索対象文書(文書番号28)から抽出され
るキーワードの例、
【図30】検索対象文書(文書番号30)の例、
【図31】検索対象文書(文書番号30)から抽出され
るキーワードの例、
【図32】検索対象文書(文書番号32)の例、
【図33】検索対象文書(文書番号32)から抽出され
るキーワードの例である。
【符号の説明】
11、61、111、141、191 文書格納部 12、62、112、142、192 辞書 13、63、113、143、193 シソーラス 14 キーワード候補語切出し部 15 キーワード候補語選択部 16、67、118、150 入出力部 17、65、115、145、195 キーワード抽出結果格納部 64、114、144、194 キーワード自動抽出部 66、116、146 キーワード検索部 117、147 全文検索部 148 検索文字列変換部 149 同義語辞書
フロントページの続き (72)発明者 菊池 忠一 大阪府門真市大字門真1006番地 松下電 器産業株式会社内 (72)発明者 桐生 輝一 東京都千代田区一ツ橋一丁目1番1号 株式会社毎日新聞社内 (72)発明者 大塚 哲也 東京都千代田区一ツ橋一丁目1番1号 株式会社毎日新聞社内 (56)参考文献 特開 平5−120342(JP,A) 特開 平5−334364(JP,A) 特開 平2−297290(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 辞書、またはキーワード候補語同士の上
    位−下位関係が記載されたシソーラスを用いて、検索対
    象文書からキーワードを自動抽出するキーワード自動抽
    出装置において、 前記シソーラスに記載されたキーワード候補語の中でキ
    ーワードの選択に注意を要するキーワード候補語に予め
    注意語の印を付け、 検索対象文書からキーワード候補語を切出すキーワード
    候補語切出し手段と、 切出された前記キーワード候補語が、前記シソーラスの
    複数箇所に記載されているとき、または、前記注意語に
    該当するとき、利用者の意図を確認した上で前記キーワ
    ード候補語をキーワードとして選択するキーワード候補
    語選択手段と、 利用者に情報を提示し、また利用者からの選択入力を受
    付ける入出力手段とを設けたことを特徴とするキーワー
    ド自動抽出装置。
  2. 【請求項2】 辞書、またはキーワード候補語同士の上
    位−下位関係が記載されたシソーラスを用いて、検索対
    象文書からキーワードを自動抽出する請求項1に記載の
    キーワード自動抽出装置と、 前記キーワード自動抽出装置の抽出結果を格納するキー
    ワード抽出結果格納手段と、 利用者の入力した検索文字列をキーワードとして、この
    キーワードを持つ文書を前記キーワード抽出結果格納手
    段から検索するキーワード検索手段とを備え、前記キー
    ワード検索手段は、前記検索文字列が前記シソーラスの
    複数箇所に記載されているとき、利用者の意図を確認
    し、利用者の意図するキーワードを持つ文書を前記キー
    ワード抽出結果格納手段から検索することを特徴とする
    文書検索装置
  3. 【請求項3】 前記検索文字列を含む検索対象文書を文
    字列照合により検索する全文検索手段と、文書検索を行
    う利用者が前記キーワード検索手段または全文検索手段
    による検索を選択するための入出力手段とを備えること
    を特徴とする請求項2に記載の文書検索装置。
  4. 【請求項4】 同義語の関係にある単語グループと前記
    シソーラスのキーワード候補語との対応関係を記述した
    同義語辞書と、利用者の入力した検索文字列 を前記同義
    語辞書を用いて変換する検索文字列変換手段とを設け、
    前記キーワード検索手段に対して、前記検索文字列変換
    手段によって変換された前記シソーラスのキーワード候
    補語を検索文字列として与えることを特徴とする請求項
    2または3に記載の文書検索装置。
  5. 【請求項5】 前記検索文字列変換手段が、利用者の入
    力した検索文字列を、前記同義語辞書を用いて同義語の
    単語グループに変換し、前記全文検索手段に対して、前
    記単語グループの中から利用者が選択した文字列を検索
    文字列として与えることを特徴とする請求項4に記載の
    文書検索装置。
JP14521195A 1995-05-22 1995-05-22 キーワード自動抽出装置および文書検索装置 Expired - Fee Related JP3328104B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14521195A JP3328104B2 (ja) 1995-05-22 1995-05-22 キーワード自動抽出装置および文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14521195A JP3328104B2 (ja) 1995-05-22 1995-05-22 キーワード自動抽出装置および文書検索装置

Publications (2)

Publication Number Publication Date
JPH08314974A JPH08314974A (ja) 1996-11-29
JP3328104B2 true JP3328104B2 (ja) 2002-09-24

Family

ID=15379955

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14521195A Expired - Fee Related JP3328104B2 (ja) 1995-05-22 1995-05-22 キーワード自動抽出装置および文書検索装置

Country Status (1)

Country Link
JP (1) JP3328104B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254886A (ja) * 1997-03-07 1998-09-25 Fujitsu Ltd 検索システムにおける検索結果コンテンツへの付加的情報の付加及び検索システム
JPH10307836A (ja) * 1997-05-09 1998-11-17 Nec Eng Ltd データ処理システム
JP2003308324A (ja) * 2002-04-12 2003-10-31 Yomiuri Shimbun 検索語処理装置及び文書検索装置
JPWO2006098031A1 (ja) * 2005-03-17 2008-08-21 富士通株式会社 キーワード管理装置
US10824657B2 (en) 2017-06-01 2020-11-03 Interactive Solutions Inc. Search document information storage device

Also Published As

Publication number Publication date
JPH08314974A (ja) 1996-11-29

Similar Documents

Publication Publication Date Title
US6904429B2 (en) Information retrieval apparatus and information retrieval method
US7260570B2 (en) Retrieving matching documents by queries in any national language
US6952691B2 (en) Method and system for searching a multi-lingual database
US20100293162A1 (en) Automated Keyword Generation Method for Searching a Database
JP4426041B2 (ja) カテゴリ因子による情報検索方法
JP3328104B2 (ja) キーワード自動抽出装置および文書検索装置
JPH06215035A (ja) テキスト検索装置
JP3222193B2 (ja) 情報検索装置
JP2000231560A (ja) 文書自動分類方式
JP2002183195A (ja) 概念検索方式
JPH0944521A (ja) インデックス作成装置および文書検索装置
JP2002015001A (ja) 概念検索装置、概念検索方法、概念検索プログラムを記録した記録媒体およびコンピュータプログラム
JPS62191924A (ja) 情報登録検索装置
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法
JPH0756945A (ja) 全文データベースシステム
JP2752864B2 (ja) テキストベース情報検索装置
JPH08249341A (ja) 文書データベースの文書格納・検索装置
JPH09101951A (ja) 文書検索装置
JP2003263458A (ja) テキスト分析方法及び装置
JPH09269952A (ja) 文書検索装置及びその方法
JPH0410062A (ja) 語彙拡張機能を有する文書検索方法
JPH03161865A (ja) 文章の検索方法
JPH08241328A (ja) 関連項目の蓄積・提示装置、関連項目の蓄積・提示方法及びデータベース検索システム
CN117743562A (zh) 用于规章制度的检索方法及系统
JPH041853A (ja) 文書検索装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees