JP2001184365A - 文書検索システムおよび記録媒体 - Google Patents

文書検索システムおよび記録媒体

Info

Publication number
JP2001184365A
JP2001184365A JP36976199A JP36976199A JP2001184365A JP 2001184365 A JP2001184365 A JP 2001184365A JP 36976199 A JP36976199 A JP 36976199A JP 36976199 A JP36976199 A JP 36976199A JP 2001184365 A JP2001184365 A JP 2001184365A
Authority
JP
Japan
Prior art keywords
search
document
request sentence
search request
storage device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP36976199A
Other languages
English (en)
Inventor
Yukiko Miyazaki
有貴子 宮崎
Ryoko Kitagawa
良子 北川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP36976199A priority Critical patent/JP2001184365A/ja
Publication of JP2001184365A publication Critical patent/JP2001184365A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 所要の文書を迅速、かつ、効率的に検索
することにある。 【解決手段】 予め文書データベース1に重み付きフィ
ールド項目を自動的に設定し、定型化された複数のフィ
ールドをもつ文書2を蓄積する文書データベースに対
し、自然言語による検索要求文を受けたとき、各文書の
最も重みの大きいフィールド内容を検索し、所要の文書
の検索する文書検索システムである。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書データベース
を用いて、大量の文書の中から所要とする文書を検索す
る文書検索システム及び記録媒体に関する。
【0002】
【従来の技術】従来の文書検索システムでは、検索キー
ワードに基づいて文書を検索する全文検索や自然言語に
よる検索要求文に基づいて文書を検索する概念検索など
を用いて、所要の文書を検索することが行われている。
【0003】また、全文検索により検索された文書に対
して概念検索を行ったり、概念検索により検索された文
書に対して全文検索を行うなど,いわゆる絞り込み検索
も行われている。
【0004】ここで、全文検索とは、大量の文書の中に
検索キーワードと同じ文字,記号等の文書を検索する意
味であり、一方、概念検索とは、自然言語による検索要
求文の意味と同一または近い意味をもつ文書を検索する
ことをいう。
【0005】
【発明が解決しようとする課題】しかしながら、従来の
一般的な全文検索や概念検索では、利用者が真に目的の
文書を探し出すためには、検索された文書の中から絞り
込みをかけるなど、何度も検索を繰り返すことが多く、
検索時間に多くの時間を必要とする問題がある。
【0006】本発明は上記事情に鑑みてなされたもの
で、検索精度の向上を図る文書検索システムを提供する
ことにある。
【0007】また、本発明の他の目的は、所要とする文
書を効率的、かつ、短時間に検索可能とする文書検索シ
ステムを提供することにある。
【0008】さらに、本発明の他の目的は、検索ヒット
が高くなるような検索情報を作成するためのプログラム
を記録した記録媒体を提供することにある。
【0009】さらに、本発明の他の目的は、適切な検索
要求文を作成するためのプログラムを記録した記録媒体
を提供することにある。
【0010】
【課題を解決するための手段】(1) 上記課題を解決
するために、本発明に係る文書検索システムは、自然言
語による検索要求文に基づき、文書蓄積装置に蓄積され
る文書の中から所要の文書を検索し出力する文書検索シ
ステムにおいて、前記文書蓄積装置に対して文書のフィ
ールド分けされた内容を代表するフィールド項目及び重
みを設定するフィールド設定手段と、複数のフィールド
分けされた定型化文書を前記文書蓄積装置に登録する文
書登録手段と、入力される検索要求文を受けたとき、前
記フィールド設定手段によって設定された最も大きい重
みをもつフィールド項目に対応する前記文書蓄積装置の
各文書のフィールドから所要の文書を検索する文書検索
処理手段とを備えた構成である。
【0011】本発明は、以上のような構成とすることに
より、入力される検索要求文を受けたとき、各文書の複
数のフィールドのうち、最も大きい重みをもつフィール
ドの内容を順次検索するので、所要の文書を効率的に検
索可能であり、また検索精度の向上にも寄与する。
【0012】なお、前記文書蓄積装置に対して文書のフ
ィールド分けされた内容を代表する重み付きフィールド
項目に更に最も大きい重みの新規フィールドを設定し、
また前記複数のフィールド分けされた定型化文書に更に
文書全体の内容を表す検索用文字列を記載した新規フィ
ールドを追加した文書を前記文書蓄積装置に登録し、入
力される検索要求文に基づき、最も重みの大きい新規フ
ィールド項目に基づいて、前記文書蓄積装置の各文書の
検索用文字列から所要の文書を検索することもできる。
【0013】(2) また、本発明に係る文書検索シス
テムは、文書蓄積装置に対し重み順にフィールドを設定
するフィールド設定手段と、検索対象とするフォントサ
イズデータを設定するフォントサイズ設定手段と、入力
される文書を前記文書蓄積装置に登録すると共に、当該
文書中のフォントサイズの大きい文字列を切り出し、前
記フォントサイズ設定手段に設定されるフォントサイズ
データを参照し、前記フォントサイズに応じた文字列を
該当フィールドに設定する文書登録処理手段と、検索要
求文が入力されたとき、前記フィールドの重みに従って
文字列のフォントサイズに対応する前記文書蓄積装置の
各文書のフォントサイズの文字列から所要の文書を検索
する文書検索処理手段とを備えた構成である。
【0014】本発明は、以上のような構成とすることに
より、検索要求文が入力されたとき、フィールドサイズ
の重みのうち、最も大きい重みのフォントサイズ順に各
文書のフォントサイズの文字列から順次検索するので、
所要の文書を効率的に検索可能であり、また検索精度の
向上にも寄与する。
【0015】(3) また、本発明に係る文書検索シス
テムは、特定単語を記憶する辞書記憶部と、入力される
検索要求文ごとに、前記辞書記憶部に記憶される特定単
語を参照して前記検索要求文の中から特定単語に相当す
る検索文字列を取出して所定の重みを付与すると共に、
同一の検索文字列の場合には前記所定の重みを加算する
検索文字列記憶手段と、前記検索要求文が入力されたと
き、この検索要求文に含まれる特定単語のうち、前記検
索文字列記憶手段に記憶されている最も大きい重み順の
検索文字列に基づいて、前記文書蓄積装置に蓄積される
文書の中から所要の文書を検索する文書検索手段とを備
えた構成である。
【0016】本発明は、以上のような構成とすることに
より、検索要求文に含まれる検索文字列の重みを検索を
実行するたびに大きくするので、その検索文字列を含む
文書の検索ヒットの度合いが高くなり、より効率的に検
索することが可能である。
【0017】なお、本発明の以上のような一連の手段
は、記録媒体にプログラムを記録し、コンピュータで読
取ることにより、同様に実現することも可能である。
【0018】(4) さらに、本発明に係る文書検索シ
ステムは、意味規則および構文規則を記憶する意味・構
文規則記憶部と、各種の単語を記憶する辞書記憶部と、
入力されるキーワードの意味を解析する意味解析手段
と、この意味解析手段による意味解析後、1つまたは複
数の検索要求文を生成する検索文生成手段と、この検索
文生成手段によって生成された検索要求文が1つの場合
には当該検索要求文を用い、複数の場合にはリスト表示
された中から選択された1つの検索要求文を用いて、文
書蓄積装置から所要の文書を検索する文書検索処理手段
と、この文書検索処理手段によって検索された文書を出
力する検索結果出力手段とを備えた構成である。
【0019】本発明は、以上のような構成とすることに
より、利用者が検索要求文を作成する手間を省略するこ
とが可能であり、また検索の効率が図れると共に、利用
者の負担を軽減することが可能である。
【0020】なお、本発明の以上のような一連の手段
は、記録媒体にプログラムを記録し、コンピュータで読
取ることにより、同様に実現することも可能である。
【0021】(5) さらに、本発明に係る文書検索シ
ステムは、意味規則および構文規則を記憶する意味・構
文規則記憶部と、前記入力される検索キーワードを用い
て前記文書蓄積装置に対して全文検索を行う全文検索手
段と、前記検索キーワードの意味を解析する検索キーワ
ード解析手段と、この解析された検索キーワードの意味
と前記検索された各文書とを比較し、検索要求文を作成
する検索要求文作成手段と、この検索要求文作成手段に
より作成された検索要求文を用いて前記文書蓄積装置か
ら当該検索要求文に比較的近い文書を順次検索する手段
とを備えた構成である。
【0022】本発明は、以上のような構成とすることに
より、検索要求文に対して全文検索を行ってヒットした
文書に対し、更に概念検索を行うことにより、自動的に
絞り込みを行うことが可能となり、効率的な検索が可能
である。
【0023】なお、本発明の以上のような一連の手段
は、記録媒体にプログラムを記録し、コンピュータで読
取ることにより、同様に実現することも可能である。
【0024】
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して説明する。 (第1の実施の形態)図1は本発明に係る文書検索シス
テムの一実施の形態を示す構成図である。
【0025】このシステムは、大量の文書を蓄積する文
書データベース1と、予め定めたフォーマットのもとに
記載されている文書2を文書データベース1に登録する
文書登録処理部3と、文書データベース作成時に文書デ
ータベース1に文書フィールドの重要度に応じた重みを
自動的に設定するフィールド設定手段4と、自然言語に
よる文字列の検索要求文を入力するキーボード,インタ
ーネット接続されるクライアントなどの入力部5と、こ
の入力部5から入力される検索要求文に基づき、文書デ
ータベース1に蓄積される大量の文書の中から所要の文
書を検索する文書検索処理部6と、この文書検索処理部
6で検索された文書を出力する表示装置,プリンタ等の
出力部7とによって構成されている。
【0026】前記文書2は、予め定型化されたフォーマ
ットの文書であって、図2(a)に示すような「タイト
ル」、「本文」、「あとがき」からなる例えば3つのフ
ィールドから構成されている文書であるが、必らずしも
「タイトル」、「本文」、「あとがき」に拘るものでな
く、例えば「要約」、「本文」、「あとがき」とか、或
いは「タイトル」、「本文」、「要約」という場合も有
りうる。図2(b),(c)は文書の具体例を示してい
る。これら文書2は、インターネットを介して入力され
る文書、OCRで読取った文書、或いは既にメモリに保
存されている文書ファイルの文書の場合もありうる。
【0027】前記フィールド設定手段4は、システム側
から提供されるフィールド情報を記憶するフィールド情
報保存手段4aおよび初期段階にて所要形式の文書デー
タベース1を作成するとともに、この文書データベース
1にフィールド項目を設定し、さらに前記フィールド情
報保持手段4aに保持されるフィールド情報のうちフィ
ールド項目に合致するフィールド情報の重みを自動的に
設定する重み設定機能をもったデータベース作成手段4
bからなっている。
【0028】前記フィールド情報保存手段4aは、メモ
リである必要がなく、例えば利用者が入力機器である例
えばキーボードなどから直接フィールド情報およびこれ
らフィールド情報の重要度に応じた重みを入力する形態
であってもよい。
【0029】このフィールド情報は、将来登録すべきあ
らゆる文書を想定し、その文書の内容を代表する重要度
の高い情報であって、例えば図3に示すようにタイト
ル,要約,概要その他の情報が挙げられ、これらは重要
度が高いと言う観点から実際に重みが施されていない場
合でも保持されているだけで他のフィールド例えば「本
文」や「あとがき」よりも大きい重みが付されていると
同等の役割をもっている。また、フィールド情報保持手
段4aには文書2のフィールド内容を代表するフィール
ド情報、例えば「タイトル」+最も大きい重み、「本
文」+次に大きい重み、「あとがき」+最も小さい重み
を保持させ、データベース作成時に文書データベース1
に設定する方法であってもよい。
【0030】次に、以上のような文書検索システムの処
理手順について図4を参照して説明する。
【0031】先ず、文書登録に先立ち、データベース作
成手段4bは、初期段階における文書データベース1を
所要の形式に作成した後、当該文書データベース1に対
してフィールド項目を設定する(S1)。しかる後、デ
ータベース作成手段4bは、フィールド情報保持手段4
aに保存され、または外部から入力される文書の内容を
代表する重要度の高い情報であるフィールド情報および
その情報に付された重みデータを取り込み、文書データ
ベース1に設定されているフィールド項目と比較し、合
致するフィールド情報があれば、そのフィールド情報を
設定するか、或いはそのフィールド情報に付されている
重みを自動的に設定する(S2)。なお、フィールド項
目への重みの設定は幾つかの方法があることは前述した
通りである。因みに、本実施の形態では、フィールド情
報保持手段4aにフィールド情報として「タイトル」が
リストアップされているので、フィールド項目の「タイ
トル」の重みが他のフィールドの重みよりも大きく設定
されていることになる。
【0032】その後、文書2が入力される度に、文書登
録処理部3は、それらの文書2を順次取込んで文書デー
タベース1に登録することにより、文書データベース1
には大量の文書が登録される(S3)。
【0033】しかる後、入力部5から自然言語による検
索要求文が入力されると(S4)、文章検索処理部6
は、各フィールド項目のうち「タイトル」に相当するフ
ィールド項目の重みが最も大きいので、各文書のタイト
ル相当のフィールド内容に重みをおいた検索を行い、各
文書のタイトル内に検索要求文が存在しない時、次に重
みの大きいフィールド内容について検索を行い(S
5)、その検索結果を出力部7に表示する(S6)。
【0034】従って、以上のような実施の形態によれ
ば、通常、フィールド「タイトル」にはその文書2を代
表する内容が記載していると想定されるので、そのタイ
トルに大きい重みをおいた検索を実施することにより、
迅速に所要とする文書を検索できる。よって、文書2を
フィールド分けしない場合、またフィールド分けしてフ
ィールドに重みを設定しない場合よりも、より高精度に
検索でき、ユーザにおいては所要の文書をより早く見つ
け出すことができる。
【0035】(第2の実施の形態)図5は本発明に係る
文書検索システムの他の実施形態を示す構成図である。
なお、同図において図1と同一部分には同一符号を付
し、その詳しい説明は図1に譲る。
【0036】このシステムにおいて、図1と比較して特
に異なる部分は、新たにフォントサイズ設定手段11を
設けたこと、またデータベース作成手段4bおよび文書
登録処理部3aが機能的に異なるものである。
【0037】前記データベース作成手段4bは、初期段
階にて所要形式の文書データベース1を作成するととも
に、この文書データベース1上に複数のフィールドを作
成する。この各フィールドは例えば第1フィールド、第
2フィールド,…に分けられ、第1フィールドが最も大
きい重みとし、以下,第2,第3,…のフィールドごと
に順次に小さくなる重みになっている。
【0038】前記フォントサイズ設定手段11には、文
書で使用される各文字の大きさを表すフォントサイズの
うち、一般的に文書の内容を代表する時に使用される大
きさのフォントサイズデータが設定されている。
【0039】前記文書登録処理部3aは、登録対象とな
る文書2が入力されたとき、その文書2を文書データベ
ース1に登録すると共に、当該文書中のフォントサイズ
の大きい文字列を順次切り出し、フォントサイズ設定手
段11に設定されるフォントサイズデータを参照し、先
ず最初に切り出した文字列を文書データベース1の第1
フィールドに設定し、引き続き、切り出した文字列のフ
ォントサイズが設定されたフォントサイズデータよりも
大きいとき、今回文字列を第1フィールドとし、前回文
字列を第2フィールドに設定する機能をもっている。な
お、異なる文書相互における同一フォントサイズの文字
列は同一のフィールドに設定するものとする。
【0040】次に、このシステムにおける検索処理動作
について説明する。
【0041】今、入力部5から自然言語による検索要求
文が入力されると、文章検索処理部6は、文書データベ
ース1上で最も大きい重みの第1フィルドに設定される
文字列を検索し、所要の文書を検索する。文書中のフォ
ントサイズの大きい個所は、その文書を代表する内容が
記載されていると想定されているので、フォントサイズ
の大きい順,つまり第1フィルドの文字列から順番に検
索すれば、所要の文書を出力できる度合いが高くなる。
よって、文書2をフィールド分けしない場合、またフィ
ールド分けしてフィールドに重みを設定しない場合より
も、より高精度に検索でき、ユーザにおいては所要の文
書をより迅速に見つけ出すことができる。
【0042】(第3の実施の形態)図6は本発明に係る
文書検索システムの他の実施形態を示す構成図である。
なお、同図において図1と同一部分には同一符号を付
し、その詳しい説明は図1に譲る。
【0043】このシステムにおいて、図1と比較して特
に異なる部分は、図2に示す3つのフィールドからなる
文書2ではなく、更に新たに検索用キーワードを記載し
た新規フィルドを追加した文書2aを登録対象とするこ
と、さらにデータベース作成手段4bを改良したことに
ある。
【0044】すなわち、この文書2aとしては、図7に
示すように例えば「タイトル」、「本文」、「あとが
き」からなる3つのフィールドの他に、タイトル〜あと
がきまでの文書の内容を代表ないし要約した検索用キー
ワードを記載した新規フィールド12が設けられてい
る。この新規フィールド12の検索用キーワードは他の
フィールドよりも大きな重みをもつものとする。なお、
検索用キーワードとなる単語は、1つの単語でも、複数
の単語の組み合わせであってもよい。
【0045】前記データベース作成手段4bは、初期段
階にて所要形式の文書データベース1を作成するととも
に、この文書データベース1上に図1,図2で説明した
ような複数のフィールドの他に、さらに新規フィールド
を追加し、当該新規フィールドに最も大きい,つまり最
も検索ヒットの度合いの高い重み(スコア)を設定する
機能をもっている。
【0046】このシステムの動作について説明する。
【0047】先ず、データベース作成手段4bは、初期
段階にて所要形式の文書データベース1を作成し、また
文書データベース1上に図1に示すフィールド項目の他
に、さらに最も大きい重みの新規フィールド項目を設定
する。
【0048】この状態において検索用キーワードが記載
された新規フィールド12を有する文書2aが入力され
ると、文書登録処理部3bは、その入力された文書2a
を文書データベース1に登録すると共に、その文書2a
の新規フィールド12に記載される検索用キーワードと
なる単語を文書データベース1上に設定された重みの最
も大きい新規フィールド項目を設定する。
【0049】その後、入力部5から自然言語による検索
要求文が入力されると、文章検索処理部6は、文書デー
タベース1上の最も大きい重みの新規フィールドに重き
をおいた検索を実行し、所要とする文書を検索する。
【0050】従って、以上のような実施の形態によれ
ば、文書2aに新たに追加される新規フィールド12の
検索用キーワードを文書データベース1上の最も大きい
重みのフィールドに設定することにより、自然言語によ
る検索要求文に対し、最も大きい重みの新規フィールド
の検索用キーワードから検索するので、所要の文書が検
索結果として出力される度合いが高くなり、より精度の
高い検索が実現でき、ユーザが所要とする文書をより迅
速に見つけ出すことが可能となる。
【0051】なお、この実施の形態では、文書2aの新
規フィールド12に文書の検索用キーワードとなる単語
を設定したが、例えばキーワードではなく、要はその文
書を検索する際に想定されるキーワードを含む検索用文
字列であればよい。
【0052】(第4の実施の形態)図8は本発明に係る
文書検索システムの他の実施の形態を示す構成図であ
る。
【0053】この実施の形態は、検索要求文から検索情
報を作成する例である。
【0054】このシステムは、具体的には、大量の文書
を蓄積する文書データベース21と、自然言語による文
字列の検索要求文を入力するキーボード,インターネッ
ト接続されるクライアントなどの入力部22と、検索情
報作成用の特定単語を記憶する単語辞書部23と、検索
情報を作成するプログラムを記録した記録媒体24と、
入力部22から検索要求文を受けると、記録媒体24に
記憶されるプログラムのもとに単語辞書部23の特定単
語を参照し、検索文字列及びその文字列要求頻度に応じ
た重みを順次加算してなる検索文字列重み情報を作成す
るとともに、この検索文字列重み情報に基づいて文書デ
ータベース21から所要の文書を検索するCPUで構成
された文書検索処理部25と、この文書検索処理部25
によって作成される検索文字列重み情報を保持する検索
文字列重み情報保持手段26と、前記文書検索処理部2
5による検索結果を出力する表示装置,プリンタなどの
出力部27とによって構成されている。
【0055】次に、以上のようなシステムの動作及び記
録媒体24に記録されるプログラムを読取って文書検索
処理部25で実行する一連の処理について図9及び図1
0を参照して説明する。なお、検索要求文に基づいて文
書を検索するに際し、先に検索要求文に含まれる特定単
語に重み加算した後、最も大きい重みの検索要求文に含
まれる検索文字列を用いて検索する例と、既に保存され
ている検索要求文に含まれる検索文字列のうち、最も大
きい重みの検索文字列を用いて検索する例とがあるが、
以下の説明は前者を例に挙げて説明する。
【0056】システムの動作が開始すると、文書検索処
理部25は、入力部22から検索要求文が入力されたか
否かを判断し、入力されたと判断されたとき、辞書記憶
部23の特定単語を参照しながら検索要求文の中に特定
単語,例えば名詞の単語が有れば、その単語を検索文字
列として取出し、保持手段26に登録する。そして、検
索要求文の中から全部の特定単語である検索文字列を登
録したか否かを判断する(S11〜S14:検索文字列
取得機能)。
【0057】ここで、検索文字列の登録が完了したと
き、保持手段26に今回登録された全ての検索文字列に
所定の重みを加算する(S15,S16:重み加算機
能)。なお、各検索文字列の登録時と共に、所定の重み
を加算する処理であってもよい。
【0058】この検索文字列及び重みの登録後、検索要
求文に含まれる特定単語に相当する検索文字列のうち、
最も重みの大きい検索文字列を抽出し(S17:最大重
み文字列抽出機能)、この検索文字列をキーとして文書
データベース1の多数の文書の中から所要の文書を検索
し(S18:文書検索機能)、その検索結果を出力部2
7に出力する(S19:検索結果出力機能)。
【0059】以下、具体例をもって説明すると、今、入
力部22から検索要求文である「に音の野球の歴史につ
いて知りたい」が入力されたとき、単語辞書部23を参
照し、文字列「日本」、「野球」、「歴史」が特定単語
として取出されるので、これら取出した単語を検索文字
列とし、それぞれ検索文字列重み保持手段26に登録す
るとともに、所定の重み例えば「10」を設定する(図
9(a)参照)。
【0060】引き続き、2回目の検索要求文である「今
年の高校野球優勝チームについて知りたい」が入力され
たとき、検索文字列保持手段26の文字列の重みがすべ
て同じであるが、単語辞書部23を参照したところ、文
字列「今年」、「高校」、「野球」、「優勝」、「チー
ム」が特定単語として取出されるので、これら取出され
た単語のうち新規な単語を検索文字列として追加するた
めに検索文字列重み保持手段26に登録し、同様に所定
の重み例えば「10」を加算設定する(図9(b)参
照)。その後、文書検索処理部25は、検索文字列重み
保持手段26に登録されている検索文字列のうち、検索
要求文に含まれる特定単語のうち、「野球」が最も大き
い重みであるので、より重みの大きい検索文字列である
「野球」を含む文書のヒットの度合いを高くした概念検
索が行われ、この検索結果を出力部27に出力する。な
お、検索要求文に含まれる特定単語の検索文字列の重み
が全く同一の場合には、検索材料にならないので、通常
の概念検索が行われる。
【0061】従って、以上のような実施の形態によれ
ば、検索要求文に含まれる特定単語の文字列に対する重
みを、文書検索毎に高く設定するので、文字列を含む検
索要求文から検索した場合、その文字列を含む文書の検
索ヒットの度合いが高くなり、通常の自然言語による検
索より検索者の指向に応じた効果的な検索が可能にな
る。
【0062】なお、この実施の形態では、検索要求文に
含む特定単語の検索文字列の重みに基づいて検索するよ
うにしたが、例えば検索毎にヒットした文書またはヒッ
トした文書中で検索要求文に近い上位の文書、またはヒ
ットした文書中でユーザがチェック・マークした文書を
保持手段26に登録すると共に、重み加算するようにす
れば、同様に大きい重みの文書から検索でき、検索者の
指向に応じた効果的な検索を行うことができる。
【0063】(第5の実施の形態)図11は本発明に係
る文書検索システムの他の実施形態を示す構成図であ
る。
【0064】この実施の形態は、キーワードから検索要
求文を作成するための例である。
【0065】このシステムは、具体的には、大量の文書
を蓄積する文書データベース21と、検索を行うに際し
て思い付いたキーワードを入力するキーボード,インタ
ーネット接続されるクライアントなどの入力部22と、
この入力部22から入力されるキーワードの意味を解析
し、想定される検索要求文を作成し文書検索を実行する
CPUで構成された検索処理部31と、各種の単語を記
憶する辞書記憶部32と、意味および構文規則を記憶す
る意味・構文規則記憶部33と、検索文作成及び検索処
理を行うプログラムを記録する記録媒体34とが設けら
れている。
【0066】前記検索処理部31は、入力部22から受
け取ったキーワードに基づき、意味・構文規則記憶部3
3に記憶される意味規則に従って意味を解析し、その解
析意味に基づいて意味・構文規則記憶部33に記憶され
る構文規則に従って辞書記憶部32から単語を並べて検
索要求文を生成する検索要求文生成手段311と、この
検索要求文生成手段311で作成された検索要求文に基
づいて文書データベース21に蓄積される多数の文書の
中から所要の文書を検索し出力する文書検索処理部31
2とが設けられている。
【0067】次に、以上のようなシステムの動作及び記
録媒体34に記録されるプログラムを読取って一連の処
理を実行する例について図12を参照して説明する。
【0068】先ず、入力部22から検索を行うためのキ
ーワードを入力すると(S21:キーワード取得機
能)、検索処理部31は記録媒体34のプログラムを読
取って以下の処理を実行する。
【0069】すなわち、検索処理部31における検索要
求文生成手段311は、意味・構文規則記憶部33に記
憶される意味規則および構文規則に従って意味を解析
し、その解析結果に基づいて語順を解析し(S22:意
味解析機構)、辞書記憶部32の文法データ及び単語を
取出して検索要求文を生成する(S23:検索文生成機
能)。
【0070】しかる後、文書登録処理部312は、検索
要求文生成手段311によって生成された検索要求文生
成が入力されると、文書データベース21に蓄積される
大量の文書の中から検索要求文と同一または当該検索要
求文に近い文書を検索し(S24:検索処理機能)、そ
の検索結果を出力部27に表示またはプリントアウトす
る(S25:検索結果出力機能)。
【0071】なお、具体例をもって説明すると、例えば
キーワードである「インターネット」が入力されたと
き、「インターネットについて知りたい」という検索要
求文を作成する。また、複数のキーワードが入力された
とき、それらの品詞を解析し、妥当の検索要求文を生成
する。例えばキーワードである「インターネット」(名
詞)、「パソコン」(名詞)が入力されたとき、例えば
「インターネットとパソコンに関する情報がほしい」と
いう検索要求文が生成され、またキーワード「パソコ
ン」(名詞)、「使う」(動詞)が入力されたとき、
「パソコンを使う方法が知りたい」という検索要求文が
生成される。
【0072】よって、従来では、利用者が検索要求文の
言い回すを考えて作成していたが、その手間を省くこと
ができ、検索の効率を図ることができ、利用者の負担を
軽減できる。
【0073】なお、この実施の形態では、キーワードを
入力して検索要求文を生成したが、予め多数の穴埋め形
式の想定検索要求文を幾つか用意しておき、利用者がそ
の中から選択し、想定検索要求文の穴部分にキーワード
を穴埋めすることにより、検索要求文を生成することも
可能である。
【0074】また、この実施の形態では、キーワードを
入力して1つの検索要求文を生成したが、例えば予め想
定される複数の検索要求文を作成してリスト形式で表示
し、そのリストの中から目的に応じた検索要求文を見つ
け出し、文書を検索することも可能である。
【0075】さらに、キーワードではなく、自然言語に
よる検索要求文を入力したとき、その検索要求文を解析
し、類似した複数の検索要求文を作成してリスト表示
し、このリストから目的に応じた検索要求文を選択し、
文書を検索することも可能である。
【0076】(第6の実施の形態)図13は本発明に係
る文書検索システムの他の実施形態を示す構成図であ
る。なお、同図において図11と同一部分には同一符号
を付し、その詳しい説明は図11に譲る。
【0077】このシステムは、文書データベース21、
入力部22、出力部27、辞書記憶部32、意味・構文
規則記憶部33の他、入力部22から入力される検索を
行うに必要な検索キーワードを受けたとき、文書データ
ベース21に蓄積される文書を全文検索し、この検索結
果によって得られた文書を対象に検索要求文を作成し、
この作成された検索要求文に基づいて文書データベース
21に蓄積される文書を検索する検索処理部36と、全
文検索された文書を一時保管するデータバッファ37
と、検索処理及び検索要求文作成処理を行うプログラム
を記録する記録媒体38とが設けられている。
【0078】前記検索処理部36は、記録媒体38に記
録されるプログラムに従って所定の処理を行うものであ
って、具体的には、入力部22から入力される検索キー
ワードを一時データバッファ37に一時記憶した後、文
書データベース21を全文検索し、この検索によってヒ
ットされた各文書をデータバッファに一時保存する全文
検索機能および後記する作成された検索要求文に基づい
て文書データベース21を概念検索する概念検索機能を
もった文書検索処理部361と、前記データバッファ3
7に一時保存された検索キーワードの意味を解析し、こ
の解析された意味と文書とを用いて検索要求文を作成す
る検索要求文作成手段362とが設けられている。
【0079】次に、以上のようなシステムの動作及び記
録媒体38に記録されるプログラムを読取って一連の処
理を実行する例について図13を参照して説明する。
【0080】先ず、入力部22から検索に必要なキーワ
ードが入力されると、文書検索処理部361は、そのキ
ーワードを取込んでデータバッファ37に一時保存した
後(S31:キーワード取得機能)、文書データベース
21に対して全文検索を実行し、幾つかヒットされた文
書を取出しデータバッファ37に一時保存する(S3
2:全文検索機能)。
【0081】しかる後、検索要求文作成手段362は、
意味・構文規則記憶部33の意味規則に従ってデータバ
ッファ37に保存される検索キーワードの意味を解析し
た後(S33:検索キーワード解析機能)、この検索キ
ーワードの意味とヒットされた文書の中の文章の意味と
を比較し、ほぼ類似する検索要求文を作成する(S3
4:検索要求文作成機能)。
【0082】そして、以上のようにして検索要求文が作
成されると、文書検索処理部361は、その検索要求文
を用いて、文書データベース21から当該検索要求文に
比較的近い文書を順次検索し(S35:概念検索機
能)、出力部24に表示またはプリントアウトする(S
36)。
【0083】従って、以上のような実施の形態によれ
ば、全文検索後に検索要求文を作成し、その検索要求文
に基づいて概念検索を行うことにより、自動的に絞り込
みを行って検索要求文に近い文書を出力するので、全文
検索で断片的な検索結果しか得られない文書から要求に
近い所要の文書を検索でき、効果的な検索ができる。ま
た、従来のような全文検索後に自然言語の検索要求文を
作成して概念検索を行う場合より、利用者が検索要求文
を作成する手間が省け、より効率的な検索を実行でき
る。
【0084】なお、本発明は、上記実施の形態に拘ら
ず、その要旨を逸脱しない範囲で種々変形して実施でき
る。
【0085】
【発明の効果】以上説明したように本発明によれば、予
め重み付けを付したフィールドを設定し、定型化された
複数のフィールドのうち、大きい重み付けの各文書のフ
ィールド内容を検索するので、検索精度を向上でき、ま
た所要とする文書を効率的、かつ、短時間に検索でき
る。また、検索要求ごとに検索要求文の文字列に重みを
加算し、その重みの大きい文字列を検索要求文を用いて
文書を検索するので、利用者の指向にあった効果的な検
索が可能となる。
【0086】さらに、キーワードの意味を解析し、検索
要求文を作成し検索するので、検索要求文を作成する手
間を省くことが出来、効率的に検索できる。
【0087】また、本発明は、検索ヒットの高くなるよ
うな検索情報を作成可能なプログラムを記録した記録媒
体を提供できる。
【0088】さらに、本発明は、適切な検索要求文を作
成するためのプログラムを記録した記録媒体を提供でき
る。
【図面の簡単な説明】
【図1】 本発明に係る文書検索システムの一実施の形
態を示す構成図。
【図2】 文書データベースに蓄積する定型化された3
つのフィールドをもった文書例及び実際の文書例図。
【図3】 文書データベースに設定する重み付きフィー
ルドを説明する図。
【図4】 図1に示す文書検索システムの動作手順を説
明する図。
【図5】 本発明に係る文書検索システムの他の実施形
態を示す構成図。
【図6】 本発明に係る文書検索システムの他の実施形
態を示す構成図。
【図7】 図2に示す定型化された文書に対し、新規フ
ィールドを設けた文書例図。
【図8】 本発明に係る文書検索システムの他の実施形
態を示す構成図。
【図9】 図8に示すシステムを用いて、自然言語によ
る検索要求文から検索文字列及び重みを作成する説明
図。
【図10】 図8に示すシステムの動作及び記録媒体の
プログラムによる一連の処理例を説明するフローチャー
ト。
【図11】 本発明に係る文書検索システムの他の実施
形態を示す構成図。
【図12】 図11に示すシステムの動作及び記録媒体
のプログラムによる一連の処理例を説明する処理手順
図。
【図13】 本発明に係る文書検索システムの他の実施
形態を示す構成図。
【図14】 図11に示すシステムの動作及び記録媒体
のプログラムによる一連の処理例を説明する処理手順
図。
【符号の説明】
1,21…文書データベース 2,2a…文書 3,3a,3b…文書登録処理部 4…フィールド設定手段 6,25…文書検索処理部 11…フォントサイズ設定手段 23,32…辞書記憶部 24,34,38…記録媒体 26…検索文字列重み情報保持手段 31,36…検索処理部 33…意味規則・構文規則記憶部

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 自然言語による検索要求文に基づき、文
    書蓄積装置に蓄積される文書の中から所要の文書を検索
    し出力する文書検索システムにおいて、 前記文書蓄積装置に対して文書のフィールド分けされた
    内容を代表するフィールド項目及び重みを設定するフィ
    ールド設定手段と、 複数のフィールド分けされた定型化文書を前記文書蓄積
    装置に登録する文書登録手段と、 入力される検索要求文を受けたとき、前記フィールド設
    定手段によって設定された最も大きい重みをもつフィー
    ルド項目に対応する前記文書蓄積装置の各文書のフィー
    ルドから所要の文書を検索する文書検索処理手段とを備
    えたことを特徴とする文書検索システム。
  2. 【請求項2】 自然言語による検索要求文に基づき、文
    書蓄積装置に蓄積される文書の中から所要の文書を検索
    し出力する文書検索システムにおいて、 前記文書蓄積装置上に対して重み順にフィールドを設定
    するフィールド設定手段と、 検索対象とするフォントサイズデータを設定するフォン
    トサイズ設定手段と、 入力される文書を前記文書蓄積装置に登録すると共に、
    当該文書中のフォントサイズの大きい文字列を切り出
    し、前記フォントサイズ設定手段に設定されるフォント
    サイズデータを参照し、前記フォントサイズに応じた文
    字列を該当フィールドに設定する文書登録処理手段と、 検索要求文が入力されたとき、前記フィールドの重みに
    従って文字列のフォントサイズに対応する前記文書蓄積
    装置の各文書のフォントサイズの文字列から所要の文書
    を検索する文書検索処理手段とを備えたことを特徴とす
    る文書検索システム。
  3. 【請求項3】 請求項1に記載する文書検索システムに
    おいて、 前記文書蓄積装置に対して文書のフィールド分けされた
    内容を代表する重み付きフィールド項目に更に最も大き
    い重みの新規フィールドを設定し、また前記複数のフィ
    ールド分けされた定型化文書に更に文書全体の内容を表
    す検索用文字を記載した新規フィールドを追加した文書
    を前記文書蓄積装置に登録し、入力される検索要求文に
    基づき、最も大きい重みの新規フィールド項目に基づい
    て、前記文書蓄積装置の各文書の検索用文字から所要の
    文書を検索することを特徴とする文書検索システム。
  4. 【請求項4】 自然言語による検索要求文に基づき、文
    書蓄積装置に蓄積される文書の中から所要の文書を検索
    し出力する文書検索システムにおいて、 特定単語を記憶する辞書記憶部と、 入力される検索要求文ごとに、前記辞書記憶部に記憶さ
    れる特定単語を参照して前記検索要求文の中から特定単
    語に相当する検索文字列を取出して所定の重みを付与す
    ると共に、同一の検索文字列の場合には前記所定の重み
    を加算する検索文字列記憶手段と、 前記検索要求文が入力されたとき、この検索要求文に含
    まれる特定単語のうち、前記検索文字列記憶手段に記憶
    されている最も大きい重み順の検索文字列に基づいて、
    前記文書蓄積装置に蓄積される文書の中から所要の文書
    を検索する文書検索手段とを備えたことを特徴とする文
    書検索システム。
  5. 【請求項5】 文書を蓄積する文書蓄積装置及び特定単
    語を記憶する辞書記憶部を有し、入力される検索要求文
    から検索文字列重み情報を作成するプログラムを記録し
    たコンピュータ読取可能な記録媒体において、 前記プログラムは、 検索要求文が入力されたとき、前記辞書記憶部の特定単
    語を参照しながら検索要求文に含まれる特定単語に相当
    する検索文字列を取出して登録する検索文字列取得機能
    と、この機能によって取出された検索文字列に対して所
    定の重みを付すると共に、同一の検索文字列の場合には
    所定の重みを加算する重み加算機能と、前記検索要求文
    に含まれる特定単語に相当する検索文字列のうち、最も
    重みの大きい検索文字列を抽出する最大重み文字列抽出
    機能と、この機能によって抽出された検索文字列をキー
    として前記文書蓄積装置の文書の中から所要の文書を検
    索する文書検索機能と、この機能による検索結果を出力
    する検索結果出力機能とを有することを特徴とする記録
    媒体。
  6. 【請求項6】 入力されるキーワード(自然言語による
    検索用文を含む.以下、同じ)に基づき、文書蓄積装置
    に蓄積される文書の中から所要の文書を検索し出力する
    文書検索システムにおいて、 意味規則および構文規則を記憶する意味・構文規則記憶
    部と、 各種の単語を記憶する辞書記憶部と、 入力されるキーワードの意味を解析する意味解析手段
    と、 この意味解析手段による意味解析後、1つまたは複数の
    検索要求文を生成する検索文生成手段と、 この検索文生成手段によって生成された検索要求文が1
    つの場合には当該検索要求文を用い、複数の場合にはリ
    スト表示された中から選択された1つの検索要求文を用
    いて、文書蓄積装置から所要の文書を検索する文書検索
    処理手段と、 この文書検索処理手段によって検索された文書を出力す
    る検索結果出力手段とを備えたことを特徴とする文書検
    索システム。
  7. 【請求項7】 意味規則および構文規則を記憶する意味
    ・構文規則記憶部及び各種の単語を記憶する辞書記憶部
    を有し、入力されるキーワードから検索要求文を作成す
    るプログラムを記録したコンピュータ読取可能な記録媒
    体において、 前記プログラムは、 キーコードが入力されたとき、そのキーコードの意味を
    解析する意味解析機構と、この機能による意味解析後、
    1つまたは複数の検索要求文を生成する検索文生成機能
    と、この検索部生成機能によって生成された検索要求文
    が1つの場合には当該検索要求文を用い、複数の場合に
    はリスト表示された中から選択された1つの検索要求文
    を用いて、文書蓄積装置から所要の文書を検索する検索
    処理機能と、この検索処理機能によって検索された文書
    を出力する検索結果出力機能とを有することを特徴とす
    る記録媒体。
  8. 【請求項8】 入力される検索キーワードに基づき、文
    書蓄積装置に蓄積される文書の中から所要の文書を検索
    し出力する文書検索システムにおいて、 意味規則および構文規則を記憶する意味・構文規則記憶
    部と、 前記入力される検索キーワードを用いて前記文書蓄積装
    置に対して全文検索を行う全文検索手段と、 前記検索キーワードの意味を解析する検索キーワード解
    析手段と、 この解析された検索キーワードの意味と前記検索された
    各文書とを比較し、検索要求文を作成する検索要求文作
    成手段と、 この検索要求文作成手段により作成された検索要求文を
    用いて前記文書蓄積装置から当該検索要求文に比較的近
    い文書を順次検索する手段とを備えたことを特徴とする
    文書検索システム。
  9. 【請求項9】 文書を蓄積する文書蓄積装置及び意味規
    則・構文規則を記憶する意味・構文規則記憶部を有し、
    入力される検索キーワードから検索要求文を作成するプ
    ログラムを記録したコンピュータ読取可能な記録媒体に
    おいて、 前記プログラムは、 前記入力される検索キーコードを用いて文書蓄積装置の
    文書を全文検索し、この検索された各文書を保存する全
    文検索機能と、前記検索キーワードの意味を解析する検
    索キーワード解析機能と、この解析された検索キーワー
    ドの意味と前記保存された各文書を比較し、検索要求文
    を作成する検索要求文作成機能と、この機能により作成
    された検索要求文を用いて前記文書蓄積装置から当該検
    索要求文に比較的近い文書を順次検索する概念検索機能
    と、この検索結果を出力する検索結果出力機能とを有す
    ることを特徴とする記録媒体。
JP36976199A 1999-12-27 1999-12-27 文書検索システムおよび記録媒体 Pending JP2001184365A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP36976199A JP2001184365A (ja) 1999-12-27 1999-12-27 文書検索システムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP36976199A JP2001184365A (ja) 1999-12-27 1999-12-27 文書検索システムおよび記録媒体

Publications (1)

Publication Number Publication Date
JP2001184365A true JP2001184365A (ja) 2001-07-06

Family

ID=18495264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP36976199A Pending JP2001184365A (ja) 1999-12-27 1999-12-27 文書検索システムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP2001184365A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006244028A (ja) * 2005-03-02 2006-09-14 Nippon Hoso Kyokai <Nhk> 情報提示装置及び情報提示プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006244028A (ja) * 2005-03-02 2006-09-14 Nippon Hoso Kyokai <Nhk> 情報提示装置及び情報提示プログラム
JP4568144B2 (ja) * 2005-03-02 2010-10-27 日本放送協会 情報提示装置及び情報提示プログラム

Similar Documents

Publication Publication Date Title
US7516125B2 (en) Processor for fast contextual searching
US8135717B2 (en) Processor for fast contextual matching
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4160548B2 (ja) 文書要約作成システム、方法、及びプログラム
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP2005038395A (ja) データベース検索装置
JPH09198395A (ja) 文書検索装置
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JP3937741B2 (ja) 文書の標準化
JPH10307837A (ja) 検索装置並びに検索プログラムを記録した記録媒体
JP2001184365A (ja) 文書検索システムおよび記録媒体
JP2009104475A (ja) 類似文書検索装置、類似文書検索方法およびプログラム
Mon et al. Myanmar language search engine
JP2007164462A (ja) 質問応答システム、質問応答方法及び質問応答プログラム
JP2002132789A (ja) 文書検索方法
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
JPH1145249A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001092831A (ja) 文書検索装置及び文書検索方法
JPH1185765A (ja) タグ付文書検索システム
JP3187671B2 (ja) 電子辞書表示装置
JP2000339342A (ja) 文書検索方法および文書検索装置
JP2000259629A (ja) 形態素解析方法およびその装置
JPH05158995A (ja) 文書処理装置
JP2000076254A (ja) キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070724

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080108