JPH10124524A - 文書検索装置及び文書検索方法 - Google Patents

文書検索装置及び文書検索方法

Info

Publication number
JPH10124524A
JPH10124524A JP8280878A JP28087896A JPH10124524A JP H10124524 A JPH10124524 A JP H10124524A JP 8280878 A JP8280878 A JP 8280878A JP 28087896 A JP28087896 A JP 28087896A JP H10124524 A JPH10124524 A JP H10124524A
Authority
JP
Japan
Prior art keywords
document
search
keyword
syntax
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8280878A
Other languages
English (en)
Inventor
Yasuo Tanosaki
康雄 田野崎
Kenichi Nogami
謙一 野上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Computer Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Computer Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Computer Engineering Corp filed Critical Toshiba Corp
Priority to JP8280878A priority Critical patent/JPH10124524A/ja
Publication of JPH10124524A publication Critical patent/JPH10124524A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 本発明は、ユーザが指定した文書に可能な限
り近似した文書を検索することが可能な文書検索装置を
提供する。 【解決手段】 検索語としてのキーワードの入力及び任
意数のキーワードを含む文書の指定を行う入力装置と、
任意数のキーワードを含む文書が指定されたとき、その
文書中に含まれるキーワードを抽出するキーワード抽出
部201と、入力されたキーワードを元に検索対象デー
タベース中より当該キーワードに該当する文書群を検索
する検索部201と、前記指定された文書から抽出され
るキーワードと、検索対象データベース中から検索され
た個々の文書に含まれるキーワードとを用いてキーワー
ドの一致数に応じた文書群の順位付けを行う順位計算部
208と、文書群の順位付け結果を出力する出力装置と
を有するものである。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書検索装置及び
文書検索方法に関する。
【0002】
【従来の技術】従来より、データベースに登録された大
量の文書中から、ユーザが任意に入力した文字列を含む
文書を全て検索する文書検索装置があった。この文書検
索装置は、ユーザが入力した全ての文字列を単なる文字
列マッチングで検索したり、文書中に含まれる全ての単
語や文字をインデックス化することにより高速に検索す
るものであった。
【0003】しかし、このような検索処理では、対象デ
ータベースの文書中にユーザの入力した検索キーワード
と同一のキーワードが存在していれば全て検索してくる
ものであり、文書の意味的内容を考慮して検索してくる
ものではなかった。
【0004】
【発明が解決しようとする課題】上述したように、従来
の検索処理では、ユーザの入力した任意の検索キーワー
ドを元に、その検索キーワードを含む文書を大量のデー
タベース中から抽出していた。しかし、この検索方式で
は、ユーザの入力した検索キーワードが文書中のどこに
出現していても検索されるため、ユーザが要求している
文書とは全く無関係な文書までを抽出してしまう。
【0005】このため、抽出された文書がユーザにとっ
て必要な文書であるかどうかは、内容を参照することに
より判断する必要があった。そして、対象データベース
が大容量になるにつれ、抽出される文書も大量になるの
で、文書の内容を参照して必要な文書であるかどうかを
判断するのに多大な時間を要するという課題があった。
【0006】本発明は、上記事情に鑑みてなされたもの
であり、任意の文書を指定し、その文書中に含まれてい
るキーワードや文書構造を元に検索することで、ユーザ
が指定した文書に可能な限り近似した文書を検索するこ
とが可能な文書検索装置及び文書検索方法を提供するこ
とを目的とする。
【0007】
【課題を解決するための手段】本発明は、検索語として
のキーワードを使用して検索対象データベース中からの
文書検索を行う文書検索装置において、検索語としての
キーワードの入力及び任意数のキーワードを含む文書の
指定を行う手段と、任意数のキーワードを含む文書が指
定されたとき、その文書中に含まれるキーワードを抽出
するキーワード抽出手段と、入力されたキーワードを元
に検索対象データベース中より当該キーワードに該当す
る文書群を検索する検索手段と、前記指定された文書か
ら抽出されるキーワードと、検索対象データベース中か
ら検索された個々の文書に含まれるキーワードとの間
で、キーワードの一致数を各々検索し、キーワードの一
致数に応じた文書群の順位付けを行う手段と、文書群の
順位付け結果を出力する手段とを有することを特徴とす
るものである。
【0008】この発明によれば、検索語として任意数の
キーワードを含む文書を指定することで、これまでユー
ザが無作為に選んでいたキーワードとは異なり、実際に
文書に使用されているキーワードを元に検索を行い、検
索された文書のうち使用されているキーワードの一致数
の多いほどユーザの要求する文書に近いと判断し、順位
付けを行うので、検索を開始した時点から絞り込んだ検
索処理を行うことができる。すなわち、文書内容を考慮
し、ユーザが要求している文書に類似した文書を検索し
てくるため、内容を参照して必要、不要の判断を行う場
合が激減し、検索効率が大幅に上がり、ユーザの検索処
理の負担を軽減することができる。
【0009】また、ユーザはキーワードを考える必要が
なく、欲しいと思う類似文書を検索語として指定するこ
とが可能なため、ユーザにおける複雑な検索式などの入
力負担を軽減することができる。
【0010】また、本発明は、上記発明の構成に代え
て、任意数のキーワードを含む文書が指定されたとき、
その文書中に含まれる構文を抽出する構文抽出手段と、
入力されたキーワードを元に検索対象データベース中よ
り当該キーワードに該当する文書群を検索する検索手段
と、この検索手段により検索した文書群に対し前記構文
抽出手段により抽出した構文とマッチングする構文を含
むか否かで順位付けを行う手段とを用いた構成とするこ
とで、文書の構造を示す構文とマッチングをとり、構文
のマッチング数により順位付けを行うことができ、ユー
ザの入力した検索語の文書と同じ構文を持つ文書ほど順
位を上げることができる。これは、文書内容を参照する
ことなく、高順位なものほどユーザの入力した文書に近
いことを意味するため、ユーザの要求する文書の検索処
理の負担を大きく軽減することができる。
【0011】さらに、本発明によれば、上述した各発明
の構成を組み合わせ、入力されたキーワードを元に検索
対象データベース中より当該キーワードに該当する文書
群を検索する検索手段と、前記指定された文書から抽出
されるキーワードと、検索対象データベース中から検索
された個々の文書に含まれるキーワードとの間で、キー
ワードの一致数を各々検索し、キーワードの一致数に応
じた文書群の順位付けを行う手段と、前記構文抽出手段
により抽出した構文とマッチングする構文を含むか否か
で検索手段により抽出した文書群の順位付けを行う手段
と、前記キーワードの一致数に応じた文書群の順位付け
処理若しくは構文のマッチング状態に応じた文書群の順
位付け処理又はこれら両順位付け処理の双方を加味した
順位付け処理のいずれかの処理に切り替える切替手段と
を用いた構成とすることもできる。
【0012】この構成によれば、キーワードの一致数と
一致構文数の情報による順位付けにより、指定した文書
に使用されているキーワードと、文書の構文マッチ数が
多いものほど、高順位に位置付けされるため、ユーザは
検索語として指定した文書により類似した文書を参照す
ることができる。
【0013】また、順位付けの切り替えにより、一致単
語数のみを指定した場合、検索処理において構文抽出処
理を行わないため、検索速度を上げることができる。
【0014】さらに、検索結果を文書に含まれるキーワ
ードや構文といった視点から一覧表示することができ、
ユーザが指定した文書に含まれるキーワードの一致数が
多い文書順、一致構文が多い順といった様々な視点から
参照することができるため、検索結果の文書間同士の分
析等にも利用できる。
【0015】また、本発明によれば、前記検索手段によ
り検索された文書を用いて、次回の検索に流用する検索
結果流用手段をさらに備えた構成とすることで、ユーザ
が参照文書に類似した文書を検索したい場合に、その参
照文書を新たな検索語として流用できるため、ユーザが
検索語用の文書を保有してない場合でも、ユーザが当該
文書を指定して検索することができ、ユーザにおける検
索用のキーワードの入力の手間を一層軽減することがで
きる。
【0016】本発明の文書検索方法は、検索語としての
キーワードを使用して検索対象データベース中からの文
書検索を行う文書検索方法において、検索語としてのキ
ーワードの入力及び任意数のキーワードを含む文書の指
定を入力手段により行い、任意数のキーワードを含む文
書が指定されたとき、その文書中に含まれるキーワード
の抽出及びその文書の構文の抽出を構文抽出手段により
行い、入力されたキーワードを元に検索対象データベー
ス中より当該キーワードに該当する文書群を検索手段に
より検索して、この文書群に対する前記指定文書の抽出
キーワード数に応じた順位付け及び前記指定文書の構文
とのマッチングによる順位付けを順位付手段で行って、
これらの順位付け結果を出力手段により出力することを
特徴とするものである。
【0017】この文書検索方法により、抽出キーワード
数に応じた検索文書の順位付け及び構文マッチングに応
じた検索文書の順位付けによる文書の検索処理を実現で
き、個々の検索文書の内容を参照して必要、不要の判断
を行う場合が激減し、検索効率が大幅に上がり、ユーザ
の検索処理の負担を軽減することができる。
【0018】
【発明の実施の形態】以下に、図面を参照しながら本発
明の実施の形態を具体的に説明する。
【0019】図1に示す本発明の実施の形態の文書検索
装置は、同図にブロック図で概略構成を示すように、C
PUやメモリ−等から構成される制御装置1と、ユーザ
がキーボードやマウス等によってキーワード等の検索語
(検索キー)を入力したり、検索操作を行うための入力
装置2と、この入力装置2によって入力されたキーワー
ドや検索操作の指示や検索結果および検索によって検索
された文書の内容の表示や印刷を行うディスプレイやプ
リンタ等からなる出力装置3と、検索対象文書や検索に
必要な情報等を格納する外部記憶装置4と、単語を語単
位としてキーワードを単語分割するキーワード抽出辞書
5と、検索キーに文書が指定されている場合に構文を抽
出するための構文抽出辞書6とから構成されている。
【0020】前記制御装置1は、図2に示すように、初
期化部200、キーワード抽出部201、検索部20
2、一致キーワードカウント部203、第1次ソート部
204、構文抽出部205、文書構文マッチング部20
6、第2次ソート部207、順位計算部208、最終ソ
ート部209、検索結果出力部210からなる各処理部
を具備している。
【0021】また、前記制御装置1は、検索キーワード
格納バッファ250、抽出キーワード格納バッファ25
1、キーワードチェック数格納バッファ252、第1次
文書ID格納バッファ253、一致キーワードカウント
バッファ254、第1次検索結果格納バッファ255、
検索処理フラグ格納バッファ256、順位付けフラグ格
納バッファ257、検索キー構文格納バッファ258、
抽出構文格納バッファ259、一致構文カウントバッフ
ァ260、第2次検索結果格納バッファ261、最終デ
ータカウントバッファ262、最終検索結果格納バッフ
ァ263、検索キー文書格納バッファ264の各バッフ
ァ部を具備している。
【0022】前記初期化部200は、各バッファの初期
化を行う。キーワード抽出部201は、キーワード抽出
辞書5を用いて、検索キー文書格納バッファ264に格
納されている検索キーとして用いられた文書中に含まれ
るキーワードを抽出し、抽出キーワード格納バッファ2
52への格納を行う。
【0023】検索部202は、対象データベース中によ
り、検索キーワード250、あるいは抽出キーワード格
納バッファ251に格納されているキーワードを含む文
書を検索し、該当文書の文書IDを第1次文書ID格納
バッファ253への格納を行う。
【0024】一致キーワードカウント部203は、検索
に用いた抽出キーワード格納バッファ251に格納され
ているキーワードが、抽出文書中に一致しているキーワ
ードとどれくらい一致しているかを調べ、一致キーワー
ドカウントバッファ254への格納を行う。
【0025】第1次ソート部204は、一致キーワード
カウントバッファ254に格納されているデータを元
に、ソーティングを行い、その結果を第1次検索結果格
納バッファ255への格納を行う。
【0026】構文抽出部205は、構文抽出辞書を用い
て、検索キー文書格納バッファ264に格納されている
検索キーとして用いられた文書および第1次検索結果格
納バッファ255に格納されている文書から構文を抽出
し、それぞれ検索キー格納バッファ258および抽出構
文格納バッファ259への格納を行う。
【0027】文書構文マッチング部206は、検索キー
構文格納バッファ258及び抽出構文格納バッファ25
9の各構文のマッチングをとり、一致構文カウントバッ
ファ260への格納を行う。
【0028】第2次ソート部204は、一致キーワード
カウントバッファ254に格納されている値を元に、ソ
ーティングを行い、ソーティングされた文書IDを第2
次検索結果格納バッファ261への格納を行う。
【0029】順位計算部208は、一致キーワードカウ
ントバッファ254に格納されている値と、一致構文カ
ウントバッファ260に格納されている値とを元に、点
数付けを行い、その点数付けの結果の最終データカウン
トバッファ262への格納を行う。
【0030】最終ソート部209は、最終データカウン
トバッファ262に格納されているデータのソートを行
い、その結果の最終検索結果格納バッファ263への格
納を行う。
【0031】検索結果出力部210は、最終検索結果格
納バッファ263に格納されている検索結果を出力装置
3に出力を行う。
【0032】次に、本実施の形態の操作の流れを図3及
び図4乃至23を参照して具体的に説明する。
【0033】始めに、前記初期化部200が起動し、各
バッファの初期化を行う(ステップS301)。入力装
置2によって終了が指示された場合には(ステップS3
02)、本装置の処理を終了する(ステップS31
8)。
【0034】また、入力装置2により、検索キーとして
任意の文字列からなる文書を指定した場合に、その文書
に含まれるキーワードのうち、幾つ含まれていれば検索
結果として出力するかのキーワード数(設定値、例えば
20)を入力し、そのキーワード数を図5に示すように
キーワードチェック数格納バッファ252に格納する
(ステップS303)。
【0035】前記入力装置2により、検索を後述する第
1次検索まで行うか、又は、第2次検索まで行うかのい
ずれかを選択する。選択した値(設定値:値0は第1次
検索まで、値1は第2次検索まで)は、図6に示すよう
に検索処理フラグ格納バッファ256に格納される(ス
テップS303)。
【0036】さらに、順位付けの種類も第1次検索によ
る順位付け、第2次検索による順位付け、あるいは第1
次、第2次検索による順位付けを選択することができ
る。選択した値(設定値:値1は第1次検索までの順位
付け、値2は第2次検索までの順位付け、値3は第1次
検索、第2次検索の双方の順位付け)は、図7に示すよ
うに順位付けフラグ格納バッファ257に格納される
(ステップS303)。
【0037】前記入力装置2により、検索キーとしてキ
ーワードの入力を行ったり、文書の指定を行う。入力装
置2により検索が指示されると、検索キーとしてキーワ
ード、例えば、「文書処理」が入力されている場合に
は、図8に示すように検索キーワード格納バッファ25
0に格納される(ステップS304)。
【0038】また、検索キーとして文書(本例では、明
細書 1 発明の名称 …」が指定されている場合には
(ステップS305)、図23に示すように当該指定文
書の内容が検索キー文書格納バッファ264に格納され
る。
【0039】検索キー文書格納バッファ264に、指定
文書の内容が格納されると、キーワード抽出部201が
起動し、図9に示すような格納内容のキーワード抽出辞
書5を用いて、指定文書中に含まれるキーワード(日本
語処理、文書処理、…)を抽出し、図10に示すように
抽出キーワード格納バッファ251に格納する(ステッ
プS306)。
【0040】検索キーワード格納バッファ250、ある
いは抽出キーワード格納バッファ251にキーワードが
格納された場合、検索部202が起動し、検索キーワー
ド格納バッファ250、あるいは抽出キーワード格納バ
ッファ251に格納されているキーワードを含む文書を
対象データベース中より検索する(ステップS307)
また、検索キーとして文書を指定している場合には、検
索部202は、キーワードチェック数格納バッファ25
2に格納されているユーザの指定したキーワード数以上
のキーワード数を文書中に含んでいるものをデータベー
ス中より抽出する(ステップS307)。
【0041】検索部202により検索された文書の文書
IDは、図11に示すように第1次文書ID格納バッフ
ァ253に格納される。
【0042】次に、一致キーワードカウント部203が
起動し、第1次文書ID格納バッファ253に格納され
ている文書IDの文書に、検索に用いた抽出キーワード
格納バッファ251に格納されているキーワードと一致
しているキーワードがそれぞれいくつあるかをカウント
する。そして、カウント結果を図12に示すように一致
キーワードカウントバッファ254に格納する(ステッ
プS308)。
【0043】一致キーワードカウントバッファ254
は、抽出キーワード格納バッファ251の格納内容に対
応させてカウント結果を格納する。例えば、抽出キーワ
ード格納バッファ251に「分類、表記、同義語、…」
のように格納されている場合、「0、5、8、…」のよ
うに「分類」が「0」、「表記」が「5」、「同義語」
が「8」のように対応づけて、図13に示すように一致
キーワードカウントバッファ254に格納する。
【0044】次に、第1次文書ID格納バッファ253
に格納されている全文書に対して、一致キーワードカウ
ントバッファ254に一致キーワード数の格納が終了す
ると、第1次ソート部204が起動し、検索時に一致し
たキーワードの数と一致キーワードカウントバッファ2
54に格納されている一致キーワード数のカウント数を
用いてソートを行い順位付けを行う。
【0045】そして、順位付けを行った結果を、図14
に示すように第1次検索結果格納バッファ255に格納
する(ステップS309)。
【0046】ここで、入力した検索キーが文書ではなく
キーワードのみの場合には、この段階で検索処理が終了
し、スッテプS317に進む(ステップS310)。
【0047】また、検索処理フラグ格納バッファ256
の値をチェックし、この値によって、第2次検索に処理
を進めるかどうかのチェックを行い、第2次検索処理に
進まない場合は、ここで検索処理が終了し、スッテプS
317に進む(ステップS311)。
【0048】入力した検索キーが文書の場合で、かつ、
検索処理フラグ格納バッファ256の値から、第2次検
索処理に進むと判断された場合には、構文抽出部205
が起動する。構文抽出部205では、検索キー文書格納
バッファ264に格納されている検索キーとして入力さ
れた文書から図21に示す格納内容をもった構文抽出辞
書6を用いて、文の係り受け関係を示す構文を抽出する
(ステップS312)。
【0049】例えば図22に示すように、文書中に「文
書構造を元に検索することで、可能な限り類似した文書
を検索することができる。」とあり、構文抽出文書6中
に「する−ことで,ことにより−できる,可能になる」
とあった場合、「すること〜できる」がマッチする。こ
のとき、「することで」の直前の文書の意味を示す「検
索」を同時に抽出する。すなわち、サ行変格名詞は自動
的に付け加えて構文抽出を行う。
【0050】これにより、文書中から「検索することで
〜できる」という構文が抽出され、抽出された構文は、
図15に示すように、検索キー構文格納バッファ258
に格納される。
【0051】検索キーに用いられた文書から構文抽出が
終了すると、引き続き構文抽出部205は、第1時検索
格納バッファ255に格納されている文書IDの文書か
ら構文の抽出を行う(ステップS312)。抽出された
構文は、文書IDとともに図16に示すように、抽出構
文格納バッファ259に格納される。
【0052】第1次検索結果格納バッファ255に格納
されている全ての文書の処理が終了すると、文書構文マ
ッチング部206が起動する。文書構文マッチング部2
06は、検索キー構文格納バッファ258と抽出構文格
納バッファ259に格納されている構文のマッチングを
行い、各文書ID毎にマッチ状況による点数付けを行
う。点数付けは、例えば、単純にマッチするものがあれ
ば、1点と数えることにより行う。
【0053】文書構文マッチング部206により、図1
7に示すように、付与された点数は文書IDとともに一
致構文カウントバッファ260に格納される(ステップ
S313)。
【0054】全ての文書に対して処理が終了すると、第
2次ソート部207が起動し、その結果を図18に示す
ように、第2次検索結果格納バッファ261に格納する
(ステップS314)。
【0055】順位付けフラグ格納バッファ257の値
が、第1次検索と第2次検索の順位付けを考慮するよう
に設定されている場合(ステップS315肯定)、順位
計算部208が起動し、一致キーワードカウントバッフ
ァ254と一致構文カウントバッファ255により順位
付けに必要な点数付けを行い、図19に示すように、文
書IDとともに最終データカウントバッファ262に格
納する。
【0056】第1次検索で検索された全ての文書に対し
て、点数付けが終了した場合、最終ソート部209が起
動し、そのソートを行った結果を、図20に示すよう
に、最終検索結果格納バッファ263に格納する(ステ
ップS316)。
【0057】最終検索結果格納バッファ263へのデー
タの格納が終了すると、検索結果出力部210が起動
し、前記出力装置3に検索結果を出力する(ステップS
317)。前記出力装置3における表示画面における検
索結果の表示例を図24に示す。引き続き検索を行う場
合には、ステップS302に戻る。
【0058】以上説明した本実施の形態によれば、検索
語として任意数のキーワードを含む文書を指定すること
で、これまでユーザが無作為に選んでいたキーワードと
は異なり、実際に文書に使用されているキーワードを元
に検索を行い、検索された文書のうち使用されているキ
ーワードの一致数の多いほどユーザの要求する文書に近
いと判断し、順位付けを行うので、検索を開始した時点
から絞り込んだ検索処理を行うことができる。すなわ
ち、文書内容を考慮し、ユーザが要求している文書に類
似した文書を検索してくるため、内容を参照して必要、
不要の判断を行う場合が激減するため、検索効率が大幅
に上がり、ユーザにおける検索処理の負担を軽減するこ
とができる。
【0059】また、ユーザがキーワードを考える必要が
なく、欲しいと思う類似文書を検索キーとして指定する
ことが可能なため、ユーザに対する複雑な検索式などの
入力負担を軽減することができる。
【0060】また、文書の構造を示す構文とマッチング
をとり、構文のマッチング数により順位付けを行うた
め、ユーザの入力した検索語の文書と同じ構文を持つ文
書ほど順位を上げることができる。これは、文書内容を
参照することなく、高順位なものほどユーザの入力した
文書に近いことを意味するため、ユーザの要求する文書
の検索処理の負担を大きく軽減することができる。
【0061】さらにまた、一致単語数と一致構文数の情
報による順位付けにより、指定した文書に使用されてい
るキーワードと、文書の構文マッチ数が多いものほど、
高順位に位置付けされるため、ユーザは検索語として指
定した文書により類似した文書を参照することができ
る。
【0062】また、順位付けの切り替えにより、一致単
語数のみを指定した場合、検索処理において構文抽出処
理を行わないため、検索速度を上げることができる。
【0063】さらに、検索結果を文書に含まれるキーワ
ードや構文といった視点から一覧表示することができ、
ユーザが指定した文書に含まれるキーワードの一致数が
多い文書順、一致構文が多い順といった様々な視点から
参照することができるため、検索結果の文書間同士の分
析等にも利用できる。
【0064】さらに、キーワードによる検索を行い、ユ
ーザが検索された文書の内容を参照している場合におい
て、
【0065】
【発明の効果】請求項1記載の発明によれば、文書を指
定するだけで、キーワードの一致数に応じた順位付けを
行った検索結果を得ることができ、検索を開始した時点
から絞り込んだ検索処理を行うことが可能で、内容を参
照して必要、不要の判断を行う場合が激減し、検索効率
が大幅に上がり、ユーザの検索処理の負担を軽減するこ
とができる文書検索装置を提供することができる。。
【0066】請求項2記載の発明によれば、文書を指定
するだけで、構文のマッチング状態にに応じた順位付け
を行った検索結果を得ることができ、検索を開始した時
点から絞り込んだ検索処理を行うことが可能で、内容を
参照して必要、不要の判断を行う場合が激減し、検索効
率が大幅に上がり、ユーザの検索処理の負担を軽減する
ことができる文書検索装置を提供することができる。
【0067】請求項3記載の発明によれば、キーワード
の一致数に応じた文書群の順位付け処理若しくは構文の
マッチング状態に応じた文書群の順位付け処理又はこれ
ら両順位付け処理の双方を加味した順位付け処理を行う
ことによって、指定した文書に使用されているキーワー
ド、文書の構文マッチ数が多いものほど、高順位に位置
付けされるため、ユーザは検索語として指定した文書に
より類似した文書を効率良く得て様々な視点から検索結
果の文書間同士の分析等行うことができる文書検索装置
を提供することができる。
【0068】請求項4記載の発明によれば、ユーザが検
索語用の文書を保有してない場合でも、ユーザが当該文
書を指定して検索することができ、ユーザにおける検索
用のキーワードの入力の手間を一層軽減することができ
る文書検索装置を提供することができる。
【0069】請求項5記載の発明によれば、抽出キーワ
ード数に応じた検索文書の順位付け及び構文マッチング
に応じた検索文書の順位付けによる文書の検索処理を実
現でき、個々の検索文書の内容を参照して必要、不要の
判断を行う場合が激減し、検索効率が大幅に上がり、ユ
ーザの検索処理の負担を軽減することができる文書検索
方法を提供することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態装置の構成を示す概略ブロ
ック図である。
【図2】本発明の実施の形態装置における制御装置及び
入力装置を示すブロック図である。
【図3】本発明の実施の形態装置の処理の流れを示すフ
ローチャートある。
【図4】本発明の実施の形態装置の処理の流れを示すフ
ローチャートある。
【図5】キーワードチェック数の格納バッファの格納例
を示す図である。
【図6】検索処理フラグ格納バッファの格納例を示す図
である。
【図7】順位付けフラグ格納バッファの格納例を示す図
である。
【図8】検索キーワード格納バッファの格納例を示す図
である。
【図9】キーワード抽出辞書の例を示す図である。
【図10】抽出キーワード格納バッファの格納例を示す
図である。
【図11】文書ID格納バッファの格納例を示す図であ
る。
【図12】一致キーワード数のバッファへの格納例を示
す図である。
【図13】一致キーワードカウントバッファと抽出キー
ワード格納バッファの対応例を示す図である。
【図14】第1次検索結果格納バッファへの格納例を示
す図である。
【図15】検索キー構文格納バッファの格納例を示す図
である。
【図16】抽出構文格納バッファへの格納例を示す図で
ある。
【図17】一致構文カウントバッファの格納例を示す図
である。
【図18】第2次検索結果格納バッファの格納例を示す
図である。
【図19】最終データカウントバッファの格納例を示す
図である。
【図20】最終検索結果格納バッファの格納例を示す図
である。
【図21】構文抽出辞書の例を示す図である。
【図22】構文抽出辞書による構文抽出例を示す図であ
る。
【図23】検索キー文書格納バッファの格納例を示す図
である。
【図24】出力装置の表示画面の例を示す図である。
【符号の説明】
1 制御装置 2 入力装置 3 出力装置 4 外部記憶装置 5 キーワード抽出辞書 6 構文抽出辞書 200 初期化部 201 キーワード抽出部 202 検索部、 203 一致キーワードカウント部 204 第1次ソート部 205 構文抽出部 206 文書構文マッチング部 207 第2次ソート部 208 順位計算部 209 最終ソート部 210 検索結果出力部 250 検索キーワード格納バッファ 251 抽出キーワード格納バッファ 252 キーワードチェック数格納バッファ 253 第1次文書ID格納バッファ 254 一致キーワードカウントバッファ 255 第1次検索結果格納バッファ 256 検索処理フラグ格納バッファ 257 順位付けフラグ格納バッファ 258 検索キー構文格納バッファ 259 抽出構文格納バッファ 260 一致構文カウントバッファ 261 第2次検索結果格納バッファ 262 最終データカウントバッファ 263 最終検索結果格納バッファ 264 検索キー文書格納バッファ

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 検索語としてのキーワードを使用して検
    索対象データベース中からの文書検索を行う文書検索装
    置において、 検索語としてのキーワードの入力及び任意数のキーワー
    ドを含む文書の指定を行う手段と、 任意数のキーワードを含む文書が指定されたとき、その
    文書中に含まれるキーワードを抽出するキーワード抽出
    手段と、 入力されたキーワードを元に検索対象データベース中よ
    り当該キーワードに該当する文書群を検索する検索手段
    と、 前記指定された文書から抽出されるキーワードと、検索
    対象データベース中から検索された個々の文書に含まれ
    るキーワードとの間で、キーワードの一致数を各々検索
    し、キーワードの一致数に応じた文書群の順位付けを行
    う手段と、 文書群の順位付け結果を出力する手段とを有すること、 を特徴とする文書検索装置。
  2. 【請求項2】 検索語としてのキーワードを使用して検
    索対象データベース中からの文書検索を行う文書検索装
    置において、 検索語としてのキーワードの入力及び任意数のキーワー
    ドを含む文書の指定を行う手段と、 任意数のキーワードを含む文書が指定されたとき、その
    文書中に含まれる構文を抽出する構文抽出手段と、 入力されたキーワードを元に検索対象データベース中よ
    り当該キーワードに該当する文書群を検索する検索手段
    と、 この検索手段により検索した文書群に対し前記構文抽出
    手段により抽出した構文とマッチングする構文を含むか
    否かで順位付けを行う手段と、 構文のマッチング状態に応じた順位付け結果を出力する
    手段とを有すること、 を特徴とする文書検索装置。
  3. 【請求項3】 検索語としてのキーワードを使用して検
    索対象データベース中からの文書検索を行う文書検索装
    置において、 検索語としてのキーワードの入力及び任意数のキーワー
    ドを含む文書の指定を行う手段と、 任意数のキーワードを含む文書が指定されたとき、その
    文書中に含まれるキーワードを抽出するキーワード抽出
    手段と、 任意数のキーワードを含む文書が指定されたとき、その
    文書中に含まれる構文を抽出する構文抽出手段と、 入力されたキーワードを元に検索対象データベース中よ
    り当該キーワードに該当する文書群を検索する検索手段
    と、 前記指定された文書から抽出されるキーワードと、検索
    対象データベース中から検索された個々の文書に含まれ
    るキーワードとの間で、キーワードの一致数を各々検索
    し、キーワードの一致数に応じた文書群の順位付けを行
    う手段と、 前記構文抽出手段により抽出した構文とマッチングする
    構文を含むか否かで検索手段により抽出した文書群の順
    位付けを行う手段と、 前記キーワードの一致数に応じた文書群の順位付け処理
    若しくは構文のマッチング状態に応じた文書群の順位付
    け処理又はこれら両順位付け処理の双方を加味した順位
    付け処理のいずれかの処理に切り替える切替手段と、 この切替手段により切り替えられたいずれかの順位付け
    処理の結果を出力する手段とを有すること、 を特徴とする文書検索装置。
  4. 【請求項4】 前記検索手段により検索された文書を用
    いて、次回の検索に流用する検索結果流用手段をさらに
    備えたことを特徴とする請求項1乃至3のいずれかに記
    載の文書検索装置。
  5. 【請求項5】 検索語としてのキーワードを使用して検
    索対象データベース中からの文書検索を行う文書検索方
    法において、 検索語としてのキーワードの入力及び任意数のキーワー
    ドを含む文書の指定を入力手段により行い、 任意数のキーワードを含む文書が指定されたとき、その
    文書中に含まれるキーワードの抽出及びその文書の構文
    の抽出を構文抽出手段により行い、 入力されたキーワードを元に検索対象データベース中よ
    り当該キーワードに該当する文書群を検索手段により検
    索して、この文書群に対する前記指定文書の抽出キーワ
    ード数に応じた順位付け及び前記指定文書の構文とのマ
    ッチングによる順位付けを順位付手段で行って、 これらの順位付け結果を出力手段により出力することを
    特徴とする文書検索方法。
JP8280878A 1996-10-23 1996-10-23 文書検索装置及び文書検索方法 Pending JPH10124524A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8280878A JPH10124524A (ja) 1996-10-23 1996-10-23 文書検索装置及び文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8280878A JPH10124524A (ja) 1996-10-23 1996-10-23 文書検索装置及び文書検索方法

Publications (1)

Publication Number Publication Date
JPH10124524A true JPH10124524A (ja) 1998-05-15

Family

ID=17631216

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8280878A Pending JPH10124524A (ja) 1996-10-23 1996-10-23 文書検索装置及び文書検索方法

Country Status (1)

Country Link
JP (1) JPH10124524A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000067062A (ja) * 1998-08-19 2000-03-03 Nec Corp 文書処理装置及び処理方法並びに制御プログラムを記録した記録媒体
JP2000242654A (ja) * 1999-02-18 2000-09-08 Just Syst Corp 情報処理装置、情報処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2011516989A (ja) * 2008-04-11 2011-05-26 マイクロソフト コーポレーション 編集距離および文書情報を使用する検索結果順位付け
JP2013196264A (ja) * 2012-03-19 2013-09-30 Mitsubishi Denki Information Technology Corp 類似検索装置及びコンピュータプログラム及び類似検索方法
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000067062A (ja) * 1998-08-19 2000-03-03 Nec Corp 文書処理装置及び処理方法並びに制御プログラムを記録した記録媒体
JP2000242654A (ja) * 1999-02-18 2000-09-08 Just Syst Corp 情報処理装置、情報処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2011516989A (ja) * 2008-04-11 2011-05-26 マイクロソフト コーポレーション 編集距離および文書情報を使用する検索結果順位付け
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
JP2013196264A (ja) * 2012-03-19 2013-09-30 Mitsubishi Denki Information Technology Corp 類似検索装置及びコンピュータプログラム及び類似検索方法

Similar Documents

Publication Publication Date Title
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
JPH09259140A (ja) 情報検索方法、情報検索装置及び情報検索プログラムを格納する媒体
JP2005038395A (ja) データベース検索装置
JPH09198395A (ja) 文書検索装置
JP2000132560A (ja) 中国語テレテキスト処理方法及び装置
JPH0844771A (ja) 情報検索装置
JPH10124524A (ja) 文書検索装置及び文書検索方法
JP3945075B2 (ja) 辞書機能を備えた電子装置及び情報検索処理プログラムを記憶した記憶媒体
JP4024906B2 (ja) タグ付文書検索システム
JP2004118476A (ja) 電子辞書装置、電子辞書の検索結果表示方法、プログラムおよび記録媒体
JPS61248160A (ja) 文書情報登録方式
JP2008117310A (ja) 辞書検索装置および辞書検索処理プログラム
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JPH08305726A (ja) 情報検索装置
WO2005098672A1 (ja) 電子辞書
JPH0793345A (ja) 文書検索装置
JP3187671B2 (ja) 電子辞書表示装置
JPH04290158A (ja) 文書作成装置
JP2005070856A (ja) 電子辞書における漢字熟語検索機能
JPS63278174A (ja) 翻訳装置
JPS62191924A (ja) 情報登録検索装置
JP2001202388A (ja) フルテキストサーチ方法および装置
JPH08272782A (ja) 文書検索装置
JPH03161865A (ja) 文章の検索方法
JPH07319895A (ja) 文書検索装置及び文書検索方法