JP4021583B2 - 情報検索装置、情報検索方法、及びその方法を実現するプログラムを記録した記録媒体 - Google Patents
情報検索装置、情報検索方法、及びその方法を実現するプログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP4021583B2 JP4021583B2 JP10110999A JP10110999A JP4021583B2 JP 4021583 B2 JP4021583 B2 JP 4021583B2 JP 10110999 A JP10110999 A JP 10110999A JP 10110999 A JP10110999 A JP 10110999A JP 4021583 B2 JP4021583 B2 JP 4021583B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- proposition
- input
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3341—Query execution using boolean model
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、1または複数の文書データベースから、ユーザが所望する文書または文書データベースを検索する情報検索装置、情報検索方法及びその方法を実現するプログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
近年では、文書情報の電子化が急速に普及し、情報の共有化も進展している。このような文書の共有化は、一般に、データベースにより実現される。該データベースは、一般に、外部記憶装置に構築されるが、該外部記憶装置の記憶容量も、年々、拡大しており、このため、データベースに蓄積される文書の量も莫大な数になってきている。
【0003】
このようなデータベースの検索方式として、従来、ブーリアン検索、非ブーリアン検索、該2つの検索を併用する検索(以下、併用型と呼ぶ)が使用されている。以下、上記3つの検索方式について、説明する。
【0004】
ブーリアン検索とは、キーワードを含む文書(または文書集合)を“真”、キーワードを含まない文書(または文書集合)を“偽”とし、ユーザにより検索式として入力された論理式が真となる文書(または文書集合)を特定する方式である。該検索式には、複数のキーワードを、AND,OR,及びNANDなどの論理記号で結合した論理式が使用される。
【0005】
非ブーリアン検索は、一般のユーザでも容易に検索できるようにすることを目的にしたユーザ・フレンドリーな検索方式である。この非ブーリアン検索には、様々な方法が提案されている。例えば、“真”、“偽”の2値論理ではなく、多値論理を使用したファジー検索により検索を行う方法(例えば、特開平06−162101号公報に開示されている発明)や、論理式ではなく、自然言語文を検索式として受け取る入力装置及び該入力装置を介して、自然言語文により検索する方法(例えば、特開平03−130873号公報に開示されている発明)、さらには、該自然言語文による検索結果をランキングして表示する類似検索装置などが提案されている(例えば、特開平03−172966号公報に開示されている発明)。通常のランキング検索も、非ブーリアン検索に分類される。
【0006】
併用型としては、自然言語文からブーリアン検索用の論理式を作成する装置(例えば、特開平10−134078号公報に開示されている発明)が提案されている。
また、ランキング検索のランキング順位を操作する手法として、ランキングされる文書の順位に階層を設けることを特徴とした検索システム(例えば、特開平09−153066号公報に開示されている発明)が提案されている。このシステムは、ユーザの入力文から、“機能単位”と呼ばれる一種の構文を解析し、機能単位毎に、階層を設ける方式である。
【0007】
【発明が解決しようとする課題】
しかしながら、上述した従来の検索方式及びランキング検索方式には、以下のような問題があった。
まず、ブーリアン検索の場合には、真偽の2値によって、検索式が評価されるため、検索条件が厳しくなる。このため、ユーザにとって、所望の文書(または文書集合)を特定する検索式を適切に作成するのが難しく、また、該検索式の作成にも熟練を要するという問題があった。
【0008】
また、非ブーリアン検索や併用型においては、検索式と文書間の関連度はシステムによって決定されるようになっており、ユーザが該関連度を容易に変更できるようになっていなかった。この問題を補うものとして、検索にユーザの意図を反映させる目的で、キーワード間の重みを、ユーザが入力できる装置を備えた検索システム((例えば、特開平07−225772号公報に開示されている発明)も提案されているが、最終的なキーワードの重みは、検索システム内部の関連度計算機構によって決定されるため、検索結果がユーザの意図から外れたものとなってしまう危険性があった。
また、さらに、上記特開平09−153066号公報に開示されている発明においては、ユーザの入力文の機能単位と関連文書の機能単位が、必ずしも一致するとは限らないという問題があった。
【0009】
以上述べたように、ブーリアン検索では、真偽の2値によって検索式が評価されるため、検索の条件が厳しく、検索システムをユーザが有効に活用するためには、熟練する必要があった。また、このブーリアン検索の問題を解決しようと非ブーリアン検索や併用型では、検索式と文書間の関連度は、システムによって決定されるようになっており、ユーザが、容易に、ランキングされる文書の順位を変更できるものではなかった。また、自然言語を使用する非ブーリアン検索に内在する問題として、現在の自然言語処理技術は、まだ、未熟であり、自然言語情報だけからでは、ユーザの意図を十分に解析できないことが挙げられる。
【0010】
上述した従来技術の問題をまとめると、以下のようになる。
1) ブーリアン検索では、適切な文書検索を行うためには、複雑な検索式を作成する必要があるため、ユーザが所望の検索を行えるようになるまでに時間を要する。換言するならば、初心者のユーザにとっては、有効活用が困難であり、熟練したユーザでなければ、有効活用できない。
2) 単純な非ブーリアン検索では、キーワードの出現回数が関連度を決定するため、ユーザの意図に反する文書が上位にランキングされてしまう場合がある。
3) また、非ブーリアン検索は、ユーザ入力に関して、以下の問題を抱えている。
【0011】
(I) 自然言語による検索指定では、検索システムの関連度計算機構に対し、詳細な指定を行うことができない。このため、十分に、ユーザの意図を反映させた検索指定を行えない。
(II)各キーワードに重みを指定する検索方式では、検索システムで使用されている関連度計算式を、ユーザが十分に理解している必要がある。このため、一般のユーザにとって、非常に、利用しにくい。
【0012】
ところで、キーワードに重みを指定する方式が、十分に、ユーザの意図を反映できない理由として、該重みの指定が、ユーザの直感に適合していないことが挙げられる。すなわち、従来の方式では、ユーザにより指定された重みの関連度に対する影響の度合いは、検索システムの設計者によって決定されており、該設計者の思想がユーザの認識と異なっている場合には、ユーザは、自分の意図が十分に反映されるような重みを、キーワードに指定することはできない。
【0013】
また、通常の関連度計算機構では、キーワードの出現回数が関連度を決定する大きな要因となっているが、出現するキーワードの種類が多い文書または1つのキーワードが多く出現する文書の、いずれの方が関連度が高いのかを判定する手段を備えていない。しかしながら、上記2つの文書のどちらを優先するかは、ユーザの意図により決定されるものであると考えられる。このため、上記2つの文書のどちらが優先されるかは、検索式毎に、またはキーワード毎に異なるものとなるはずであるが、現在、この問題を考慮して設計された検索システムは存在しないのが実状である。
【0014】
本発明の目的は、複雑な論理式に関する知識や検索システム内部の設計思想を知る必要がなく、ブーリアン検索と同等の記述能力を有し、さらに、ユーザの意図を容易にランキング結果に反映できる情報検索システムを提供することである。
【0015】
【課題を解決するための手段】
以下に、本発明の各実施態様について説明する。尚、本発明において、「文書集合」という用語は、文書の集合を表す概念であり、複数の文書の集合を示す場合もあり、単一の文書を示す場合もある。すなわち、文書集合の要素は文書であり、文書集合は、1または複数の文書を要素とする集合である。尚、集合においては空集合もあるが、文書集合が空集合であるということは、文書データベースを検索した際に、該文書データベースから、検索式に該当する文書が1つも見つけられなかったということを意味する。
【0016】
本発明の情報検索装置の第一態様は、文書データベースから、ユーザが入力した検索式に該当する文書を検索する情報検索装置を前提とし、以下の各手段を備える。
入力手段は、様相論理で用いられる様相記号が付加された命題で表現された検索式が入力させる。文書集合特定手段は、文書データベースを検索して、該検入力手段により入力された索式の命題を真とする文書集合を特定する。関連度計算手段は、該文書集合特定手段により特定された文書集合の関連度を算出する。検索結果出力手段は、前記文書集合特定手段により特定された文書集合と、該関連度計算手段により算出された関連度を基に、前記入力手段により入力された検索式の命題に対して、真となる命題の数と偽になる数の両方を評価基準にして、前記文書集合特定手段により特定された文書集合の階層位置を決定し、前記入力手段により入力された検索式に該当する文書集合を、階層的にランキングして出力する。共通キーワード抽出手段は、該検索結果出力手段により出力された文書集合内の各文書に共通するキーワードを抽出する。
【0017】
上記構成の本発明の情報検索装置の第一の態様によれば、検索式の記述表現に、様相論理で用いられる様相記号を導入したので、ユーザの意図を検索式に反映させることが可能となる。また、様相記号を用いた検索式の作成は、ブーリアン検索の検索式の作成よりも、はるかに容易であり、ユーザは検索式の作成に要する負担が軽減される。また、様相記号の導入により、ユーザは、自分の直感に沿うような重みをキーワードに指定することができる。このため、ユーザは自分の意図を、検索式で表現することができ、システム側でも、ユーザの意図を検索式から知ることができる。
【0018】
また、様相記号には、「全ての世界で真である」という必然性の概念を命題に付与する必須性記号と、「ある世界で真である」という可能性の概念を命題に付与する可能性記号があるが、ユーザは、必須性記号の使用により、検索結果となる文書集合を限定し、可能性記号の使用によりランキングの順位に大きな影響を及ぼすことができる。
【0019】
また、前記検索結果出力手段が、入力された検索式内の命題に対して、真となる命題の数と偽になる命題の数の両方を評価基準にして、上記文書集合の階層位置を決定することにより、検索により得られ各文書集合を、階層的にランキングして、ユーザに提示することが可能になる。
【0020】
また、さらに、前記検索結果出力手段が、同一階層に配置される複数の文書集合を、関連度が高い順からランキングすることにより、各階層内で、さらに、文書集合をランキングして、ユーザに提示することが可能になる。尚、この場合、該関連度は、例えば、検索式で指定されたキーワードの出現回数の多さに対応する。
【0021】
また、ユーザが検索式により入力したキーワードとは無関係に、検索により得られた全ての文書に共通して含まれるとするキーワード、ランキングの上位に位置する文書全体に共通して含まれるとするキーワード、ランキングの下位に位置する文書全体に共通して含まれるとするキーワード等を、共通キーワード抽出手段により抽出することができる。
【0022】
また、さらに、検索結果出力手段により、文書全体に共通して含まれるとするキーワードを必須性記号の付加して出力したり、ランキングの上位に位置する文書全体に共通して含まれるとするキーワードを可能性記号を付加して出力したり、さらには、ランキングの下位に位置する文書全体に共通して含まれるキーワードを可能性記号と否定記号を付加して出力することができる。これにより、ユーザは、自分が入力したキーワードとシステムから出力されたキーワードを比較・検討することができ、ユーザは、該検討結果に応じて、次に、入力すべきキーワードの候補の選択を決定できる。
【0023】
本発明の情報検索装置の第二態様は、複数の文書データベースから、ユーザが入力した検索式に該当する文書データベースを検索する情報検索装置を前提とし、以下の各手段を備える。
入力手段は、様相論理で用いられる様相記号が付加された命題で表現された検索式が入力される。文書集合特定手段は、複数の文書データベースを検索して、該入力手段により入力された検索式の命題を真とする文書データベースを特定する。必須性・可能性条件判定手段は、(1)前記命題に付加された様相記号が必須性記号であるとき、前記文書集合特定手段により特定された文書データベースに格納されている全ての文書で上記命題が真となる必須性の条件を、前記特定された文書データベースが満たすか否かを判定し、または、(2)前記命題に付加された様相記号が可能性記号であるとき、前記特定された文書データベースに格納されている少なくとも1つの文書で上記命題が真となる可能性の条件を、前記特定された文書データベースが満たすか否かを判定する。検索結果出力手段は、該必須性・可能性条件判定手段により、前記必須性の条件または前記可能性の条件を満たすと判定された文書データベースについて、その名称を、様相記号を付加して出力する。
【0024】
上記構成の本発明の情報検索装置の第二態様によれば、複数の文書データベースを検索するための検索式に、上述した様相論理で使用される様相記号を導入したので、ユーザが必要としている専門の文書データベース、または専門ではないが関連する文書データベースを判定することが可能になる。該専門のデータベースは、例えば、格納されている全ての文書で上記命題が真となる必須性の条件を、満たす文書データベースでる。また、該専門ではないが関連する文書データベースは、例えば、格納されている少なくとも1つの文書で上記命題が真となる可能性の条件を、満たす文書データベースである。
【0025】
また、上記専門の文書データベースについて、その名称を、可能性記号を付加して出力することにより、ユーザに対し、ユーザが必要としている専門のデータベースを知らせることができる。
【0026】
また、上記専門ではないが関連する文書データベースについて、その名称を、可能性記号を付加して出力することにより、ユーザに対し、ユーザにとって有益な文書データベースを知らせることができる。
【0027】
本発明の情報検索方法の第一態様は、入力手段と文書集合特定手段と関連度計算手段と検索結果出力手段を有するコンピュータが、文書データベースから、ユーザが入力した検索式に該当する文書を検索する情報検索方法を前提とし、以下の(a)〜(e)のステップを備える。
(a) 前記入力手段に、様相論理で用いられる様相記号が付加された命題で表現された検索式が入力され、
(b) 前記文書集合特定手段が、文書データベースを検索して、該入力された検索式の命題を真とする文書集合を特定し、
(c) 前記関連度計算手段が、該特定された文書集合の関連度を算出し、
(d) 前記検索結果出力手段が、前記特定された文書集合と前記算出された関連度を基に、前記入力された検索式の命題に対して、真となる命題と偽になる命題の数の両方を評価基準にして、上記文書集合の階層位置を決定し、前記入力された検索式に該当する文書集合を、階層的にランキングして出力し、
(e) 前記抽出手段が、前記出力された文書集合内の各文書に共通するキーワードを抽出する。
本発明の情報検索方法の第一態様は、上記本発明の情報検索装置の第一態様と同様な作用・効果を有する。
【0028】
本発明の情報検索方法の第二態様は、入力手段と文書集合特定手段と必須性可能性条件判定手段と検索結果出力手段と抽出手段を有するコンピュータが、複数の文書データベースから、ユーザが入力した検索式に該当する文書を検索する情報検索方法を前提とし、以下のステップ(a)〜(d)を備える。
(a) 前記入力手段に、様相論理で用いられる様相記号が付加された命題で表現された検索式が入力され、
(b) 前記文書集合特定手段が、文書データベースを検索して、該入力された検索式の命題を真とする文書集合を特定し、
(c) 前記必須性可能性条件判定手段が、(c1)該命題に付加された様相記号が必須性記号であるとき、前記特定された文書データベースに格納されている全ての文書で上記命題が真となる必須性の条件を、前記特定された文書データベースが満たすか否かを判定し、または、(c2)前記命題に付加された様相記号が可能性記号であるとき、前記特定された文書データベースに格納されている少なくとも1つの文書で上記命題が真となる可能性の条件を、前記特定された文書データベースが満たすか否かを判定し、
(d) 前記検索結果出力手段が、前記必須性の条件または前記可能性の条件を満たすと判定された文書データベースについて、その名称を、様相記号を付加して出力する。
本発明の情報検索方法の第二態様は、上記情報検索装置の第二態様と同様な作用・効果を有する。
【0029】
本発明の記録媒体の第一態様は、文書データベースから、ユーザが入力した検索式に該当する文書を検索するコンピュータを、
様相論理で用いられる様相記号が付加された命題で表現された検索式が入力される入力手段、
文書データベースを検索して、該入力手段により入力された検索式の命題を真とする文書集合を特定する文書集合特定手段、
該文書集合特定手段により特定された文書集合の関連度を算出する関連度計算手段、
前記文書集合特定手段により特定された文書集合と前記関連度計算手段により算出された関連度を基に、前記入力手段により入力された検索式の命題に対して、真となる命題の数と偽になる命題の数の両方を評価基準にして、上記文書集合の階層位置を決定し、入力された検索式に該当する文書集合を、階層的にランキングして出力する検索結果出力手段、及び
該検索結果出力手段により出力された文書集合内の各文書に共通するキーワードを抽出する共通キーワード抽出手段、
として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明の記録媒体の第一態様は、上記第情報検索装置の第一態様と同様な作用・効果を、コンピュータにより実行されることによって実現するプログラムを記録する。
【0030】
本発明の記録媒体の第二態様は、複数の文書データベースから、ユーザが入力した検索式に該当する文書データベースを検索するコンピュータを、
様相論理で用いられる様相記号が付加された命題で表現された検索式が入力される入力手段、
複数の文書データベースを検索して、該入力手段により入力された検索式の命題を真とする文書データベースを特定する文書集合特定手段、
(1)前記命題に付加された様相記号が必須性記号であるとき、該文書集合特定手段により特定された文書データベースに格納されている全ての文書で上記命題が真となる条件を、前記特定された文書データベースが満たすか否かを判定し、または、(2)前記命題に付加された様相記号が可能性記号であるとき、前記特定された文書データベースに格納されている少なくとも1つの文書で前記命題が真となる可能性の条件を、前記特定された文書データベースが満たすか否かを判定する必須性・可能性条件判定手段、及び
該必須性・可能性条件判定手段により、前記必須性の条件または前記可能性の条件を満たすと判定された文書データベースについて、その名称を、様相記号を付加して出力する検索結果出力手段、
として機能させるプログラムを記録したコンピュータ読取可能な記録媒体である。
本発明の記録媒体の第二態様は、上記情報検索装置の第二態様と同様な作用・効果を、コンピュータにより実行されることによって実現するプログラムを記録する。
【0031】
【発明の実施の形態】
以下、図面を参照しながら、本発明の実施形態を説明する。まず、本発明の実施形態の原理を説明する。
検索システムにおいて、検索式中のキーワードは、「そのキーワードを含んでいる」という命題に置き換えることができる。このとき、キーワードを含んでいる文書は「真」(True)の値を持ち、キーワードを含んでいない文書は「偽」(False)の値を持つと考えることができる。この場合、それぞれの命題を、「AND」、「OR」、「NOT」などの論理記号で結合し、該結合により表現された論理式を真とするような文書(または文書集合)を、検索結果とするのがブーリアン検索である。
【0032】
これに対し、非ブーリアン検索は、検索式が命題の集合で与えられ、命題を真偽の2値ではなく多値で表すことにより、検索式と文書間の関連度を計算し、より大きな関連度を持つ文書の順に並べる手法であるといえる。
【0033】
〔様相記号の導入〕本発明では、検索式の表現に、様相記号(Modal Operator)を,新たに導入する。ここで、該様相記号を使用する様相論理(Model Logic)について説明する。
【0034】
様相論理は、古典論理(Classical Logic)を拡張したものであり、様相論理の他に、時相論理(Modal Logic)や認識論理(Epistemic Logic)がある。尚、古典論理とは、真偽の2値を取る論理である。
【0035】
様相論理は、古典論理の拡張として、様相記号を導入した論理体系である。尚、様相論理という用語自体は、必然性記号(□)可能性記号(◇)の2つの様相記号を古典論理に導入した論理体系を指す(狭義的な意味で)。他に、時相論理、認識論理などのように、様相記号を使用する論理体系一般の総称にも使用される(広義的な意味で)。
【0036】
狭義的な意味での様相論理では、可能世界(Possible World)という概念が導入され、ある命題Aの真偽値は、可能世界の集合に対して相対的に解釈される。例えば、以下の2つの様相記号「□」、「◇」を用いて、必然性(Necessity)と可能性(Possibility)という概念が記述される。すなわち、例えば、
□A:Aは全ての世界において真である。
◇A:Aはある世界において真である。
のように命題Aを定義することができる。
【0037】
様相論理における「世界」は、実世界と、ある関係を成していると仮定され、この関係を、到達可能関係(Accessibility Relation)と呼ぶ。つまり、様相論理では、実世界から、ある到達可能関係によって到達できる全ての可能世界の中で、「全ての世界で真(必然性)」か、または「ある世界で真(可能性)」であるかが解釈される。
【0038】
本発明の実施形態においては、様相論理において、□を必須性記号、◇を可能性記号と命名し、これらの記号が、
□:全ての世界で真である
◇:ある世界で真である
という意味(概念)を持つものとする。
【0039】
そして、「検索結果」を「到達できる可能世界の集合」、「検索結果の中の一つの文書」を「一つの可能世界」であるとものとして、様相記号の必須性記号□、◇、及び否定記号¬を用いて、キーワードに関する検索に関して、以下(I) 〜(IV)のような意味付けを行う。
【0040】
(I) □キーワード:検索結果中の全ての文書がキーワードを含んでいる
(II) ◇キーワード:検索結果中のある文書がキーワードを含んでいる
(III) □¬キーワード:検索結果中の全ての文書がキーワードを含まない
(IV) ◇¬キーワード:検索結果中のある文書がキーワードを含まない
【0041】
本発明の実施形態では、上記(I) 〜(IV)の4つの記号が付加された命題の集合を、検索式として受取り、真となる命題を多く持ち、かつ偽となる命題を少なく持つ文書から、順に並べる(ソートする)ことにより、従来の非ブーリアン検索と同様に、検索結果をランキングにより表示する。また、複数の文書において、真偽の命題の数が同じになった場合には、キーワードの出現回数を基に、関連度を算出する。つまり、通常の関連度計算の他に、様相論理を用いることにより、関連度の計算方式を多段階にする。
【0042】
様相論理の必須性(必然性)は「全ての世界で成立する」という命題であるため、必須性記号□を使用することにより、到達できる可能世界、つまり、検索結果として得られる文書集合を限定することができる。すなわち、必須性記号□は、従来のブーリアン検索の「AND」と同様の効果を持つ。
【0043】
図1は、それぞれのキーワードを含む文書集合群と、各文書集合のランキングの順位との関係を示すベン図である。図1(a)の円11はキーワード「A」を含む文書の集合(文書集合)であり、円12はキーワード「B」を含む文書集合であり、円13はキーワード「C」を含む文書集合であり、円14はキーワード「D」を含む文書集合である。
【0044】
このような円11〜14で表された、それぞれ、キーワード「A」、「B」、「C」、「D」を含む文書集合に対し、「□A」,「◇B」,「◇¬C」,「□¬D」の4つの命題を含む検索式が与えられた場合の検索結果が、太枠で囲まれた部分(太枠部分)で示されている。
【0045】
同図において、
で表された集合1は「□A」,「◇B」,「◇¬C」及び「□¬D」の全ての命題が真となる文書集合である。
で表された集合2は「□A」,「◇¬C」,「□¬D」の命題が真となるが「◇B」の命題が偽となる文書集合となる。
で表された集合2’は「□A」,「◇B」及び「□¬D」の命題が真となるが、「◇¬C」の命題が偽となる文書集合、
で表された集合3は「□A」、「□¬D」の命題が真となるが、「◇B」,「◇¬C」の命題が偽となる文書集合である。
【0046】
本発明の実施形態においては、真の命題を多く持ち、かつ偽の命題を少なく持つ順に、文書集合をランキングする。上述したように、集合1は真の命題が4個、偽の命題が0個である(真偽値は4である)。また、集合2及び集合2’は、いずれも、真の命題が3個、偽の命題が1個である(真偽値は2である)。そして、集合3は、真の命題と偽の命題が、いずれも2個である(真偽値は0である)。尚、本実施形態で使用される、“真偽値”という用語は、文書集合をランキングするための尺度として利用される値を意味しており、ある文書集合を検索した際に、真の命題の数がp,偽の命題の数がnであった場合、(p−n)の値に等しい。で表される。つまり、該真の命題の数から該偽の命題の数を引いた値を、本実施形態では真偽値と称している。尚、上記真偽値の計数方法は、これに限定されるものではなく、真となる命題と偽となる命題に、上記とは異なる値を割り当てるようにしてもよい。例えば、真となる命題にV1、偽となる命題にV2を割り当てるようにしてもよい(V1、V2は、例えば、任意の整数)。この場合、例えば、V1を正の整数、V2を負の整数とし、V1の絶対値がV2の絶対値よりも大きくなるようにしてもよい。また、V1、V2を、共に、正の整数とし、V1>V2とするようにしてもよい。これら以外にも、各種方法が考えられうる。
【0047】
この結果、図1の場合には、同図(b)に示すように、集合1が最上位の階層21に、続いて、集合2と集合2’がその次の階層22に、そして、集合3が最下位の階層23に属すように、ランキングされる。
【0048】
このように、集合2と集合2’は、真の命題の数と偽の命題の数が同数となるため、同一の階層にランキングされるが、このような場合、キーワードの出現回数(または関連度)により、同一階層に属する複数の集合を、さらに、ランキングするようにすることも可能である。
【0049】
[ユーザの直感と様相記号との対応付け]
本発明の実施形態では、さらに、様相記号とユーザの直感との対応付けを行う。
ユーザのキーワードに対する直感として、以下の(I)〜(VI)ようなものが考えられる。
(I) 検索結果となる文書に必ず含まれていて欲しいような重要なキーワードである。
(II) 検索結果となる文書に必ず含まれている必要はないが、1回でも含まれていた場合に関連性が上がるキーワードである。
(III) 検索結果となる文書に必ず含まれている必要はないが、複数含まれていた場合に関連性が上がるキーワードである。
(IV) 検索結果となる文書に含まれていてもよいが、複数含まれていた場合に関連性が下がるキーワードである。
(V) 検索結果となる文書に含まれていてもよいが、1回でも含まれていた場合に関連性が下がるキーワードである。
(VI) 検索結果となる文書中に必ず含まれていて欲しくないような不必要なキーワードである。
【0050】
本発明の実施形態では、上記(I)〜(VI)の6つの直感を、様相記号を用いて、以下の(I)’〜(V)’(但し、(III)’の場合は、様相記号は使用しない)のような方法で表現する。
(I)’ 必ず含まれていて欲しいキーワードについては、必須性記号「□」を付加することにより、検索結果中の全ての文書がキーワードを含んでいることを表現する。
(II)’ 1回でも出現すれば関連性が上がるキーワードについては、可能性記号「◇」を付加することにより、検索結果中のある文書がキーワードを含んでいることを表現する。
(III)’ 複数回、出現すれば、関連性が上がるまたは関連性が下がるキーワードについては、無印、すなわち、様相記号を付加しない。この場合、関連性が上がるキーワードであれば正の重み、関連性が下がるキーワードなら負の重みを付ける。このようにして、様相論理による真偽の値とは無縁であり、通常の関連度計算のみに影響を与えるキーワードであることを表現する。
(IV)’ 1回でも出現すれば関連性が下がるキーワードについては、可能性記号「◇」と否定記号「¬」を付加することにより、検索結果中の全ての文書がキーワードを含まないことを表現する。
(V)’ 必ず含まれていて欲しくないキーワードについては、必須性記号「□」と否定記号「¬」を付加することにより、検索結果中の全ての文書がキーワードを含まないことを表現する。
【0051】
本発明の実施形態においては、必須性記号□の使用は検索結果となる文書集合を限定し、可能性記号◇の使用はランキングの順位に大きな影響を与える。本発明の実施形態では、ユーザがこのような様相記号を、自由に、キーワード毎に指定できるため、従来の技術では備えていなっかった「出現するキーワードの種類数が多い文書の関連度が高いのか、それとも、1つのキーワードが多く出現する文書の関連度が高いのか」を判断する手段を備える検索システムを実現できる。
【0052】
[検索結果の表示]
様相記号は、図1の説明で示したように、ランキングされる文書の順位の階層を明確にする特性を持っているため、検索結果の表示にも使用できる。すなわち、実際にランキングされた文書から、検索結果全体に共通するキーワード、ランキングの上位に共通するキーワード、及びランキングの下位に共通するキーワード等を抽出し、該抽出したキーワードを、必須性もしくは可能性を表す様相記号を付けて表示することで、ユーザは、自分の意図と検索システムが返答する結果との間の相違を、一目で、視覚的に、確認することができる。尚、表示以外にも、印字や音声出力など、ユーザが知覚可能な各種出力形態を利用できる。
【0053】
図2は、このような検索結果の表示方法を説明するベン図である。同図は、検索結果からキーワードを抽出し、該抽出したキーワードを、必須性記号□、可能性記号◇を付加して表示した場合を示している。
【0054】
同図(a)の太枠の外円31が検索結果となる文書集合であり、該外円31内の細枠の円32〜35が、それぞれ、「B」、「C」、「D」、「E」のキーワードが含まれている文書集合である。また、同図(a)において、太枠の外円31内の上方の部分は上位にランキングされた文書、下方の部分は下位にランキングされた文書を表している。
【0055】
したがって、同図(a)においては、キーワード「A」は検索結果となる全ての文書に含まれており、キーワード「B」、「C」は上位にランキングされている文書にのみ含まれている。また、キーワード「D」、「E」は下位にランキングされている文書のみに含まれている。
【0056】
このような検索結果が得られた場合、本発明の実施形態では、同図(b)に示すように、キーワード「A」には必須性記号□を、キーワード「B」、「C」には可能性記号◇を、キーワード「D」、「E」には可能性記号◇と否定記号¬を、それぞれ、付加して表示する。
【0057】
この場合、抽出されるキーワードは、ユーザにより入力されたキーワードとは関係なく抽出される。このため、ユーザは、表示結果を見て、自分が入力したキーワードと、システムにより得られた実際のランキング結果に対応している様相記号付のキーワードとを比べることができ、見比べながら、ユーザは、次に入力すべきキーワードの候補を認識することができる。
【0058】
ところで、今までの説明では、説明を簡略するために、1つのキーワードのみを含む命題の例についてのみ示したが、命題においては、キーワードだけでなく、ANDやORにより表現される論理式に対しても、様相記号を付加することができるものとする。
【0059】
図3は、上記原理に基づきデータベースを検索する情報検索装置100のシステム構成を示すブロック図である。インターフェース102は、ユーザ101が検索式を入力したり、ユーザ101に検索結果等を出力するためのマン・マシン・インターフェースである。このインターフェース102は、例えば、表示装置、及びキーボードやマウス等の入力装置から成る。
【0060】
検索式入力部104は、インターフェース102から、ユーザ101により入力された検索式を受け取る。該検索式は、命題の集合として与えられる。検索式入力部104は、受け取った検索式を文書集合特定部106に出力する。
【0061】
文書集合特定部106は、検索式入力部104から受け取る検索式を解析し、該検索式内の命題の集合を満足する文書集合(該命題を満足する文書の集合)を、インデックス108を参照して特定する。そして、その特定した文書集合をワーク領域110に書き込む。このワーク領域110は、例えば、RAM等のメモリに設けられる。
【0062】
インデックス108は、予め、インデックス作成部130によって作成された、文書データベース120内の各文書122に含まれるキーワード等の情報である。また、該インデックス108には、上記キーワード以外に、例えば、該各文書122の名称及び識別子(文書識別子)等に関する情報も含まれる。このように、ユーザ101が使用する前に、予め、インデックス108を作成・保持しておく理由は、検索を高速化するためである。
【0063】
インデックス作成部130は、文書管理部114を介して、文書データベース120を検索することにより、インデックス108を作成する。尚、図3において、インデックス作成部130を破線の矩形で示しているのは、インデックス作成部130が起動されるのは、ユーザ101が文書データベース120の検索を実行する前であることを明示するためである。
【0064】
文書管理部114は、データベース管理システム(DBMS)等であり、文書データベース120を管理しており、文書データベース120に対する文書122の登録/削除や、クライアント(例えば、インデックス作成部130や共通キーワード抽出部118)からの依頼を受けて、文書データベース120内の各文書122の検索を実行し、その検索結果を、該クライアントに返す。
【0065】
文書データベース120は、複数の文書122を格納しているデータベースであり、文書管理部114によって管理される。関連度計算部112は、インデックス108を参照しながら、文書集合特定部106によって書き込まれた、ワーク領域110内の文書集合に含まれる各文書について、関連度を算出し、該各文書の関連度をワーク領域110に書き込む。
【0066】
関連度計算部112は、文書集合の関連度の算出(文書集合に含まれる各文書の関連度の算出)を、文書集合特定部106により、該文書集合がワーク領域110に書き込まれると同時に行う。
【0067】
尚、本実施態様においては、例えば、特定された文書の実体ではなく、該文書の識別子(文書識別子)をワーク領域110に書き込む。これは、処理の高速化及びワーク領域110の記憶容量を削減するためである。このことにより、キャッシュメモリをワーク領域110に使用することが可能になる。
【0068】
検索結果出力部116は、ワーク領域110内に格納されている文書集合に含まれる各文書を、同じくワーク領域110に格納されている該各文書の真偽値及び関連度を参照して、真偽値及び関連度の高い順にソートして、該ソート結果をワーク領域110に書き込む。
【0069】
共通キーワード抽出部118は、ワーク領域110に格納されている上記ソートされた文書から構成される文書集合から、出力用のキーワードを抽出し、該抽出したキーワードを、検索結果出力部116に出力する。
【0070】
共通キーワード抽出部118は、該出力用キーワードを抽出する際に、文書データベース120内の文書122へのアクセスを、文書管理部114に依頼し、該アクセス結果を文書管理部114から受け取り、該アクセス結果を基に該出力用キーワードを抽出する。
【0071】
検索結果出力部116は、共通キーワード抽出部118から出力用キーワードを受け取ると、上記ソート結果と該出力用キーワードを、インターフェース102に出力する。
【0072】
インターフェース102は、検索結果出力部116から上記ソート結果と上記出力用キーワードが入力されると、これらの情報を基に、ランキング検索結果とランキングされた文書に含まれる共通キーワードを、ユーザ101が知覚可能な形式で出力する。このとき、該共通キーワードは当該様相記号が付加されて表示される。
【0073】
次に、上記図3の情報検索装置100の動作を説明する。例えば、「検索技術における自然言語処理技術について知りたい。特に、日本語の自然言語処理は、検索分野でどのように利用されているのか。インターネット、イントラネット(特許検索サービスや論文検索サービス)の情報でもよい。あくまでも、検索技術がメインであり、機械翻訳がメインのソフトの情報はあまり欲しくない、仮名漢字変換などのワープロに関する技術の情報は対象外。」というユーザ101の検索要求を、様相記号を用いた命題で表現すると、以下の(I)〜(V)のようになる。
【0074】
(I) 必ず含まれて欲しいキーワード
□検索、□自然言語処理
(II) 1回でも出現すれば関連性が上がるキーワード
◇日本語
(III) 複数回、出現すれば関連性が上がるキーワード
インターネット、イントラネット、特許検索、論文検索
(IV) 1回でも出現すれば関連性が下がるキーワード
◇¬機械翻訳
(V) 必ず含まれて欲しくないキーワード
□¬仮名漢字変換、□¬ワープロ
以下、上記(I)〜(V)の各命題を含む検索式が、ユーザ101によりインターフェース102を介して入力されたものとして、図3の情報検索装置100の動作を、図4乃至図6を参照しながら説明する。
【0075】
図4は、上記情報検索装置100の本発明の要部に係わる動作の全体を示すフローチャートである。また、図5は、図4のフローチャートの実行による、ワーク領域110の処理を説明する図である。また、さらに、図6は図4のフローチャートのステップS23の処理の詳細を示すフローチャートである。
【0076】
図4のフローチャートの基本的なアルゴリズム及び関連度の計算方式は、本出願人が先に出願した特願平10−230470号公報の発明で開示されているランキング処理と同様であるが、命題を様相記号に従ってソートする処理、真偽カウンタを設定する処理、真偽カウンタの値に従って文書識別子をソートする処理等が異なる。尚、該真偽カウンタは、上述した真偽値を計数するために使用されるカウンタである。
【0077】
図4のアルゴリズムにおいては、ワーク領域110には1つの文書に対し、(文書識別子、関連度(部分関連度)、真偽カウンタ)の3種類の情報から成る組を格納する。
また、上記特願平10−230470号公報の発明に開示されているように、該真偽カウンタを設けずに、真となる命題の共起関係により関連度を計算する手法を採用した場合には、図1に例示されているような、正確なランキングの階層は得られないが、代わりに、検索実行時のワーク領域110の使用記憶容量を抑制することができる。この場合、ワーク領域110には、1つの文書に対し、(文書識別子、関連度(部分関連度))の2種類の情報から成る組が格納される。また、関連度計算部112は、上記特願平10−230470号公報の発明に開示されている方法やその他の評価関数等により、関連度(部分関連度)を算出する。
【0078】
以下、図4を中心としながら上記情報検索装置100の動作を説明する。まず、予め、ワーク領域110を、図5(a)に示すように初期化しておく(ステップS1)。次に、上記(I)〜(V)の各命題の集合からなる検索式を、様相記号の種類によってソートする。該検索式の場合には、□検索、□自然言語処理、◇日本語、インターネット、イントラネット、特許検索、論文検索、◇¬機械翻訳、□¬仮名漢字変換、□¬ワープロの順に、ソートされる。
【0079】
続いて、検索式中の全ての命題について処理が終了したか判別し(ステップS3)、まだ、終了していなければ(ステップS3、NO)、該ソートされた命題の中から、未処理でかつソート順位が最も高い命題を選択し、該命題を真とする文書集合を特定する(ステップS4)。この場合、上記ソート結果にしたがって、まず、「□検索」という命題を真とする、キーワード「検索」を含む文書の集合(文書集合)が特定される。
【0080】
次に、上記特定した命題に付いている様相記号が何であるか判断する(ステップS5)。そして、該様相記号が「□」であればステップS6に、「◇」であればステップS11に、無印であればステップS13に、「◇¬」であればステップS15に、「□¬」であればステップS17に移行する。この場合、「□検索」という命題が特定されたため、「□」であると判断され、ステップS6の処理に移る。
【0081】
ステップS6では、ワーク領域110が空ならステップS4で特定された文書集合をワーク領域110に登録する。一方、ワーク領域110が空でないならば、ワーク領域110に格納されている文書集合とステップS4で特定された文書集合とのAND集合を特定する。
【0082】
この時点では、ワーク領域110は初期化された状態であり、空であるため、キーワードとして「検索」を含む文書集合がワーク領域110に登録される。この場合、「検索」を含む文書が、文書識別子が1番から1000番までの文書のみであったとすると、ワーク領域110には、図5(b)に示すように文書識別子が1番から1000番までの各文書から成る文書集合が、ワーク領域110に格納される。
【0083】
続いて、ステップS6で得られた文書集合に含まれる各文書に対して部分関連度が算出されると共に、該各文書の真偽カウンタの値が1つインクリメントされる(ステップS7)。この結果、図5(b)に示すように、1番から1000番までの文書識別子、該各文書識別子を有する各文書の部分関連度がワーク領域110に設定されると共に、同じくワーク領域110において、該各文書の真偽カウンタが“1”に設定される。
【0084】
次に、ステップS6で得られた文書集合(この場合、該文書集合に含まれる各文書の文書識別子)だけをワーク領域110に格納する(ステップS8)。この場合、ワーク領域110の内容は変更されず、ワーク領域110の内容は、図5(b)に示すようになる。
【0085】
続いて、ワーク領域110が空であるか判別する(ステップS9)。ワーク領域110が空であれば(ステップS9、YES),ヒット件数は0件であるものとして(ステップS10)、処理を終了するが、空でなければ(ステップS9、NO)、ステップS3に戻る。
【0086】
この場合、ワーク領域110は空でないので、ステップS9の判別はNOとなり、ステップS3に戻る。ステップS3では、まだ、全ての命題に対する処理は終了していないので、NOと判別され、ステップS4で、今度は、「□自然言語処理」という命題が選択され、該命題を真とする、キーワード「自然言語処理」を含む文書集合が特定される。そして、ステップS5で、該命題に付いている様相記号が「□」であると判断され、ステップS6に移行する。
【0087】
この場合、文書識別子が1番から1000番までの文書の中で、文書識別子が奇数である文書のみに「自然言語処理」が含まれているとすると、AND集合として、文書識別子が1番から1000番までの文書の中から、文書識別子が奇数である文書から成る文書集合が得られる。
【0088】
次に、ステップS7で、該文書識別子が奇数である各文書の部分関連度が算出されると共に、該各文書の真偽カウンタの値が1つインクリメントされる。続いて、ステップS8で、ステップS6で得られたAND集合、すなわち、文書識別子が1番から1000番で、かつ、文書識別子が奇数である文書から成る文書集合のみをワーク領域110に残す。
【0089】
この結果、ワーク領域110の内容は、図5(c)に示すようになる。すなわち、ワーク領域110には、1番から1000番の文書識別子の中で、奇数の文書識別子(1、3、5、・・・999の文書識別子)のみが格納される共に、それらの各文書識別子に対応する真偽カウンタの値は“2”に設定される。また、該各文書識別子を有する文書の部分関連度が増加される。
【0090】
次に、ステップS9でNOと判別され、再び、ステップS3に戻る。そして、上述(II)〜(VI)の各命題に対して、ステップS3以降の処理が行われる。すなわち、「◇日本語」、「インターネット」、「イントラネット」、「特許検索」、「論文検索」、「◇¬機械翻訳」、「□¬仮名漢字変換」、「□¬ワープロ」の順に、ステップS3以降の処理が行われる。この場合、ステップS3〜S5の処理おいては、ステップS3、4の処理は、上記全ての命題について共通であり、ステップS5の判断結果が、各命題に付けられた様相記号によって異なるだけである。
【0091】
以下、ステップS4で選択される順に、上記各命題に対して行われる処理を説明する。ステップS4で、「◇日本語」という命題が選択されると、ステップS5で、該命題に付いている様相記号は「◇」であると判断され、ステップS11に移行する。ステップS11の処理は、上述したステップS6の処理と同様であり、ワーク領域110が空でない場合は、ワーク領域110に格納されている文書集合とステップS4で特定された「日本語」を含む文書集合の両方に含まれる集合(AND集合)を特定する。
【0092】
この場合、文書識別子の下一桁が「1」〜「5」の文書のみに「日本語」が含まれるとすると、ステップS11で、図5(c)に示すワーク領域110に格納されている文書識別子を有する文書の中から、文書識別子の下一桁が「1」〜「5」の文書が特定される。そして、次に、該特定された各文書について、部分関連度が算出されると共に、該各文書の真偽カウンタの値が1つインクリメントされる(ステップS12)。そして、ステップS3に戻る。この場合、ワーク領域110から除外される文書識別子は無い。
【0093】
この結果、図5(d)に示すように、ワーク領域110においては、文書識別子が「1」、「3」、及び「5」の部分関連度が増加されると共に、その真偽カウンタが1つインクリメントされ、該真偽カウンタの値は“3”に設定される。
【0094】
ステップS3に戻り、ステップS4において、命題が「インターネット」、「イントラネット」、「特許検索」、「論文検索」の順に、選択され、ステップS5で、これらの命題に付いている様相記号は無い(無印)であると判断され、続いて、ステップS13、S14の処理が、順に、行われる。
【0095】
ステップS13の処理は、上述したステップS11の処理と同様である。この場合、「インターネット」、「イントラネット」、「特許検索」、「論文検索」のいずれかを含む文書が、文書識別子の下一桁が「1」と「9」の文書であったとすると、ステップS13で、図5(d)に示すワーク領域110に格納されている文書識別子の中で、下一桁が「1」と「9」の文書識別子の文書の部分関連度が算出される。このとき、該文書の真偽カウンタは更新されない。
【0096】
この結果、図5(e)に示すように、ワーク領域110に格納されている文書識別子の中で、下一桁が「1」と「9」の文書識別子についてのみ、その部分関連度が増加される。また、この場合も、ワーク領域110から除外される文書識別子は無い。 ステップS13の処理終了後、再び、ステップS3に戻る。そして、今度は、ステップS4で「◇¬機械翻訳」の命題が選択され、ステップS5で該命題に付いている様相記号が「◇¬」であると判断され、ステップS15に移る。ステップS15の処理は上述したステップS11と同様の処理であり、ステップS4で特定された文書集合とワーク領域110に格納されている文書集合とのAND集合をとる。
【0097】
この場合、「機械翻訳」が含まれている文書が文書識別子が3の倍数である文書であるとすると、図5(e)に示すワーク領域110に文書識別子が格納されている文書の中で、文書識別子が3の倍数である文書が該AND集合に含まれることになる。すなわち、文書識別子が、「3」、「9」、・・・「999」の文書である。
【0098】
ステップS15に続いて、該AND集合に含まれる各文書について、部分関連度が算出されると共に、真偽カウンタの値が1つデクリメントされる(ステップS16)。
【0099】
この結果、ワーク領域110の内容は、図5(f)に示すようになり、「3」、「9」、・・・「999」の文書識別子を有する各文書の部分関連度が減少されると共に、該各文書の真偽カウンタの値が1つデクリメントされる。
【0100】
ステップS16の処理終了後、再び、ステップS3に戻る。そして、今度は、ステップS4で「□¬仮名漢字変換」の命題が選択され、ステップS5で該命題に付いている様相記号が「□¬」であると判断され、ステップS17に移る。ステップS17では、ステップS4で特定された文書集合とワーク領域110に文書識別子が格納されている文書集合とのAND集合をとる。この場合、「□¬仮名漢字変換」を含む文書集合とワーク領域110に文書識別子が格納されている文書集合とのAND集合をとる。
【0101】
ここで、「仮名漢字変換」を含む文書が、文書識別子が「5」の倍数である文書であるとすると、図5(f)に示すワーク領域110に文書識別子が登録されている文書の中で、文書識別子が「5」、「15」・・・「995」等の文書が該AND集合に含まれることになる。
【0102】
次に、ステップS17で特定されたAND集合に含まれる文書集合を、ワーク領域110から削除する(ステップS18)。この結果、図5(g)に示すように、ワーク領域110から文書識別子「5」、「15」・・・「995」が削除される。
【0103】
続いて、ワーク領域110が空であるか判別し(ステップS19)、空であれば(ステップS19、YES)、ヒット件数は0件であるものとして(ステップS20)、処理を終了するが、空でなければ(ステップS19、NO)、再び、ステップS3に戻る。
【0104】
ステップS4では、今度は、「□¬ワープロ」の命題が選択され、この命題に対して、上述した「□¬機械翻訳」の命題と同様の処理が行われる。すなわち、ステップS5で命題に付いている様相記号が「□¬」であると判断され、ステップS17、S18の処理が行われる。
【0105】
この場合、「□¬ワープロ」を含む文書が、文書識別子が「7」の倍数の文書であるとすると、ステップS17で、AND集合として、図5(f)に示すワーク領域110に登録されている「7」、「21」等の文書識別子を有する文書の集合が得られる。そして、ステップS18で、ワーク領域110から該AND集合が削除される。この結果、ワーク領域110の内容は、図5(g)に示すようになる。
【0106】
続いて、ステップS19でワーク領域110が空でないと判別され、再び、ステップS3に戻る。ここで、ステップS3で、全ての命題に対して処理が終了したと判別され(ステップS3、YES)、ステップS21に移る。
【0107】
ステップS21では、ワーク領域110内の真偽カウンタを参照して、該真偽カウンタの値の大きい順に、文書識別子をソートする。続いて、該ソートされた文書識別子を、更に、ワーク領域110内の該文書識別子の部分関連度を参照して、該部分関連度の大きい順にソートする(ステップS22)。
【0108】
この結果、検索された文書が、文書識別子によりランキングされる。そして、このようにして、最終的なランキング順位が得られてから、最後に、共通キーワード抽出部118により、検索結果として得られた文書集合に共通するキーワードが抽出され、(ステップS23)、処理を終了する。
【0109】
例えば、上記検索結果において、「形態要素解析」が検索結果として得られた全ての文書に、「N−gram分割」がランキングが上位の文書に、「カーソル移動」がランキングが下位の文書に含まれていた場合には、「形態要素解析」、「N−gram分割」、及び「カーソル移動」の各共通キーワードが、「□形態要素解析」、「◇N−gram分割」、及び「◇¬ カーソル移動」という、当該記号が付加された形式で、上記検索結果と共に表示される。
【0110】
次に、図6のフローチャートを参照しながら、図4のステップS23の共通キーワード抽出処理を説明する。図6は、共通キーワード抽出部118の処理を説明するフローチャートである。
【0111】
共通キーワード抽出部118は、まず、ワーク領域110に格納されている検索結果(文書識別子)を参照して、検索により得られた文書件数分のバッファをワーク領域110内に用意する(ステップS24)。 次に、ワーク領域110内に設定されている文書識別子に対応する文書を、文書管理部114を介して、文書データベース120から取り出し、これを、ワーク領域110もしくは他のメモリ領域(不図示)内に格納する(ステップS25)。
【0112】
続いて、該取り出した各文書のキーワードを抽出する(ステップS26)。次に、ステップS26で抽出した全てのキーワードを、所定の規則に従って、ソートし、該ソート結果から重複しているキーワードを除外する(ステップS27)。
【0113】
続いて、ステップS27で得られたキーワードのソート結果から、ソート順に、キーワードを一つづつ取り出す。このとき、全てのキーワードに対して処理が終了したか、すなわち、該ソート結果から取り出すキーワードが無くなったかを判別する(ステップS28)。
【0114】
キーワードが取り出せたならば、すなわち、全てのキーワードに対して処理を終了していないならば(ステップS28、NO)、ステップS29に移るが、全てのキーワードに対して処理を終了していれば(ステップS28、YES),処理を終了する。
【0115】
ステップS29では、全ての検索結果の中から1つの検索結果(1つの文書)を取り出し、該文書に、ステップS28で取り出したキーワードが含まれているか調べる。そして、該文書が該キーワードを含んでいれば、該文書に対応するバッファにフラグを立てる(ステップS29)。尚、ステップS29では、例えば、ランキングが上位の文書から、順に、当該キーワードが含まれているか調べる。
【0116】
次に、ステップS28で取り出したキーワードについて、全ての検索結果に対して処理を終了したか判別する。すなわち、ステップS25で取り出された全ての検索結果(検索式による検索により得られた全ての文書)について、該キーワードが含まれているかを調べる検索処理が終了したかを判別する。(ステップS30)。
【0117】
そして、全ての検索結果に対して処理を終了していなければ(ステップS30、NO)、ステップS29に戻って、次の検索結果(文書)を取り出す。以上のようにして、ステップS29〜S30の処理を繰り返し、ステップS28で取り出したキーワードについて、前記全ての検索結果に対する検索が終了したと判別したならば(ステップS30、YES)、ステップS29の処理で立てられたフラグの位置を確認する(ステップS31)。そして、該フラグが検索式の検索により得られた文書の集合(文書集合)の全体に出現しているならばステップS32に、該フラグが該文書集合の上位に出現しているならばステップS33に、該フラグが該文書集合の下位に出現しているならば、ステップS34に、該フラグが上記3つの出現形態のいずれにも該当しないならばステップS36に移行する。
【0118】
ステップS32においては、ステップS28で取り出したキーワードを、「□キーワード」の形式で出力する。ステップS33では、該キーワードを「◇キーワード」の形式で出力する。ステップS34では、該キーワードを「◇¬キーワード」の形式で出力する。ステップS35では該キーワードを出力しない。
【0119】
上記ステップS32、S33,S34,またはS35の処理が終了したならば、ステップS28に戻る。そして、ステップS28で、上記ステップS27で得られたソート結果から、次のキーワードを取り出し、該キーワードに対して、上述したステップS29〜S35の処理を行う。
【0120】
このようにして、ランキングされた文書から取り出されたキーワードについて、ステップS32、S33,S34,またはS35のいずれかの処理が行われる。そして、キーワードが検索により得られた文書集合全体(検索により得られた全ての文書)に含まれていれば「□キーワード」が、キーワードが該文書集合のランキングが上位の文書のみに含まれていれば「◇キーワード」が、キーワードがランキングが下位の文書のみに含まれていれば「◇¬キーワード」が出力される。
【0121】
このように、検索結果の表示時には。ランキングされた文書からキーワードを抽出し、検索結果である文書集合の全体、上位、及び下位の各集合毎に、共通して出現するキーワードを探索する。図6のフローチャートのステップS24で用意されるバッファは、単にフラグを立てるために使用されるので、検索式により検索された1文書当たりに1ビットを用意すれば良い。また、ステップS26で抽出するキーワードの数を制限することにより、処理の高速化を図ることが可能である。
【0122】
[複数の文書データベース(文書DB)の検索]
上記様相記号の概念は、上述した1つの文書データベースから関連する文書を検索するランキング検索のみならず、複数の文書データベースから関連する文書データベースを検索する文書データベース検索にも使用できる。
【0123】
すなわち、それぞれの文書データベースにおいて、「検索式に対して関連している文書」を「可能世界の集合」、「文書データベース中の1つの文書」を「1つの可能世界」とすることにより、様相記号の必須性記号□、可能性記号◇、及び否定記号¬を用いて、命題に以下(I)〜(IV)のような意味(概念)を持たせる。
【0124】
(I) □命題:全ての文書で、命題が真となる文書データベースである
(II) ◇命題:ある文書で、命題が真となる文書データベースである
(III) □¬命題:全ての文書で、命題が偽となる文書データベースである
(IV) ◇¬:ある文書で、命題が偽となる文書データベースである
つまり、例えば、「□命題」が真である文書データベースは、その命題の分野の専門データベースであり、「□命題」が偽であるが「◇命題」が真である文書データベースは、専門ではないが関連した文書も含むデータベースであるものと捉える。
【0125】
このように、文書データベース検索において、様相記号を導入することにより、ある分野に対する専門の文書データベースや、専門ではないが関連する文書データベースなどを検索できるようになる。
【0126】
次に、上記複数の文書データベース検索の原理を適用した、本発明の第2の実施形態の情報検索装置である複数文書データベース検索装置(以後、複数文書DB検索装置と記載)200について説明する。図7は、該複数文書DB検索装置200のシステム構成を示すブロック図である。尚、同図においては、複数の文書データベース及び該複数の文書データベースを管理する文書管理部が省略されている。
【0127】
この複数文書DB検索装置200のシステム構成は、上述した図3の情報検索装置100の構成と同様であるが、複数の文書データベース(不図示)を検索対象とするため、各文書データベース毎に、インデックス208が設けられており、インデックス208が文書データベースの数と同数存在すること、共通キーワード抽出部118の代わりに、必須性・可能性条件判定部219が設けられていることが、該情報検索装置100の構成と異なっている。
【0128】
図7の複数文書DB検索装置200において、図3の情報検索装置100の構成要素と同一名称の構成要素、すなわち、インターフェース202、検索入力部204、文書集合特定部206、ワーク領域210、関連度計算部212、及び検索結果出力部216は、該情報検索装置100の検索式入力部104、文書集合特定部106、ワーク領域110、関連度計算部112、及び検索結果出力部116が備える機能を有する。
【0129】
また、図7には図示していないが、処理の高速化のために、複数文書DB検索装置200内には、情報検索装置100と同様に、インデックス作成部が設けている。このインデックス作成部は、予め(システムの立ち上げ時等において)、前記文書管理部を介して、複数の文書データベースを検索し、各文書データベースからキーワードを抽出し、該各文書データベースのインデックス208を生成する。このインデックス208には、上記キーワード以外に、例えば、各文書データベースに格納されている総文書件数、各文書データベースの名称及び識別子(文書識別子)等も含まれる。
【0130】
インターフェース202は、ユーザ201が検索式を入力するための入力装置、及び、ユーザが知覚可能な形態で、検索結果を出力する出力装置である。検索入力部204は、インターフェース202から、ユーザ201により入力された検索式(命題の集合)を受け取り、これを、文書集合特定部206に出力する。
【0131】
文書集合特定部206は、検索式入力部204から入力される検索式を解析し、各文書データベースに対応するインデックス208を参照し、文書集合特定部106と同様の処理を、各文書データベース毎に行う。また、文書集合特定部206は、個々の文書データベース毎に命題が真となる文書の件数を計数し、該個々の文書データベース毎の計数値(命題が真となる文書の件数)をワーク領域210に書き込む。
【0132】
関連度計算部212は、該ワーク領域210に書き込まれた個々の文書データベース毎に、それらに含まれる文書の関連度を算出し、個々の文書データベース毎に、それらに含まれる文書の関連度をワーク領域210に書き込む。このようなワーク領域110に書き込まれる個々の文書データベースの関連度情報を評価することにより、関連度の高い順から、文書データベースをランキング表示するようにすることも可能である。
【0133】
検索結果出力部216は、必須性・可能性条件判定部219から検索結果を入力し、該検索結果をインターフェース102を介して、ユーザ201が知覚可能な形態で出力する。また、個別のデータベース検索の場合には、関連度計算部212によってワーク領域210に書き込まれた、当該文書データベースにおいて検索された個々の文書の関連度を参照して、該文書データベース内の該各文書を、関連度の高い順からソートし、該ソート結果を基に、該各文書のランキング結果を、インターフェース202を介して、ユーザ201が知覚可能な形態で出力する。
【0134】
複数文書DB検索装置200の特有の構成要素である、必須性・可能性条件判定部219の機能の詳細は、後述する。上記のような構成となっているため、複数文書DB検索装置200は、情報検索装置100が有している1つの文書データベースに対する検索機能に加え、複数の文書データベースに対する検索機能を備えている。すなわち、いずれの文書データベースが、ユーザが求める専門の文書データベースであるか、または専門ではないが関連する文書データベースである等を特定する機能を備えている。
【0135】
また、複数文書DB検索装置200が、情報検索装置100の共通キーワード抽出部118と同様な構成要素を備えるような構成とすることも可能である。このような構成にすれば、検索結果出力部216が、情報検索装置100の検索結果出力部116と同様に、様相記号が付加された共通キーワードを、検索結果と共に出力することが可能となる。
【0136】
次に、上記複数文書DB検索装置200の動作を、図8のフローチャートを参照しながら説明する。このフローチャートのアルゴリズムの基本的な処理の流れは、以下の通りである。
【0137】
すなわち、個々の文書データベースにおいて、ブーリアン検索または非ブーリアン検索を行い、検索式内の命題を真とする文書の件数を取得する。そして、検索式となる命題が、必須性記号が付いた命題である場合には、文書データベースの総文書件数と比較し、該命題が該文書データベースの全ての文書で真となるか判定する(これを、「必須性の条件」と呼ぶことにする)。一方、検索式となる命題が可能性記号が付いた命題である場合には、命題を真とする文書が、文書データベース内に少なくとも1つあるかを判定する(これを、「可能性の条件」と呼ぶことにする)。
【0138】
尚、図8のフローチャートのアルゴリズムにおいては、ユーザ201が「可能性記号が付いた命題」を入力した場合であっても、上記「必須性の条件」を満たす文書データベースが存在する場合には、この文書データベースをユーザ201に知らせるために、「□文書データベース名」を出力するようにしている(ステップS47、S48)。
【0139】
上記「必須性の条件」が厳しすぎる場合には、「必須性の条件」を、「命題を真とする文書の件数の文書データベースの総文書件数に対する割合」、または「個々の文書データベースにおいて非ブーリアン検索を行い、上位にランキングされた文書の全てが真となるか」などに変更し、該変更された「必須性の条件」を判定するようにする。尚、このような変更条件は、検索を実行する前に、予め、設定しておくようにする。また、「可能性の条件」が厳しすぎる場合にも、同様な方法を適用することができる。
【0140】
検索結果を表示する際には、基本的には、各命題に付いた様相記号を、文書データベースの名称(文書データベース名)に付加して出力する。この場合、「必須性の条件」または「可能性の条件」を満足しない文書データベースは、検索結果として表示されない。また、可能性◇が付いた命題に対する検索結果であっても、上述したように、「必須性の条件」を満足している文書データベースが存在すれば、必須性記号「□」を、該文書データベースの名称(文書データベース名)に付加して出力する。
【0141】
次に、上記処理の流れの詳細を、図8のフローチャートを参照しながら説明する。まず、上記「可能性の条件」及び「必須性の条件」を設定する(ステップS41)。次に、全ての文書データベースの検索処理が終了したか判別する(ステップS42)。そして、全ての文書データベースの検索処理が終了していれば(ステップS42、YES),処理を終了するが、まだ、全ての文書データベースについて検索処理が終了していなければ(ステップS42、NO),未検索の文書データベースを1つ選択し、該文書データベースに対して、入力された命題を真とする文書を、ブーリアン検索または非ブーリアン検索により検索する(ステップS43)。
【0142】
次に、該入力された命題に付いた記号が、必須性記号「□」または可能性記号「◇」であるか判断する(ステップS44)。そして、必須性記号「□」であれば、必須性・可能性条件判定部219が、ステップS43の検索結果を基に、ステップS43で検索した文書データベースが「必須性の条件」を満たすか判定する(ステップS45)。そして、必須性・可能性条件判定部219により、「必須性の条件」を満たすと判定された場合には(ステップS45、YES),該文書データベースの名称(文書データベース名)に必須性記号□が付加することにより、「□文書データベース名」を出力し(ステップS46)、ステップS42に戻る。
【0143】
一方、ステップS45で「必須性の条件」を満たさないと判定された場合には(ステップS46、NO),直ちに、ステップS42に戻る。 また、ステップS44で、上記命題の記号が可能性記号「◇」であると判断されれば、必須性・可能性条件判定部219が、ステップS43の検索結果を基に、ステップS43で検索した文書データベースが「必須性の条件」を満たすか判定する(ステップS47)。そして、必須性・可能性条件判定部219により、「必須性の条件」を満たすと判定されれば、該文書データベースの名称(文書データベース名)に必須性記号□を付加することにより、「□文書データベース名」を出力し(ステップS48)、ステップS42に戻る。
【0144】
一方、ステップS47で、「必須性の条件」を満たさないと判定されれば(ステップS47,NO),次に、必須性・可能性条件判定部219が、ステップS43の検索結果を基に、ステップS43で検索した文書データベースが「可能性の条件」を満たすか判定する(ステップS49)。
【0145】
そして、「可能性の条件」を満たすと判定されれば(ステップS49、YES)、該文書データベースの名称(文書データベース名)に可能性記号◇を付加することにより、「◇文書データベース名」を出力し(ステップS50)、ステップS42に戻る。
【0146】
一方、ステップS49で、「可能性の条件」を満たさないと判定された場合には(ステップS50、N0)、直ちに、ステップS42に戻る。以上のようにして、システム内の全ての文書データベースに対して、上述したステップS43〜S50の処理が行われる。そして、該全ての文書データベースに対して、該ステップS43〜S50の処理が終了すると、ステップS42で、該全ての文書データベースに対して、該処理が終了したと判別され(ステップS42、YES)、処理を終了する。
【0147】
次に、上記複数文書DB検索装置200が、図8のフローチャートのアルゴリズムを実行することにより行われる処理の具体例を説明する。例えば、下記(I)〜(IV)に示すような4つの文書データベースが、システム内に存在したとする。
(I) 「化学データベース」:化学、化合物の専門のデータベース。アルコールの話題も多く含まれる(100件以上)。
(II) 「医学データベース」:医学、薬の専門データベース。化合物及びアルコールの話題も多少含んでいる(100件以下)。
(III) 「お酒データベース」:アルコール専門のデータベース。化合物の話題は全く含まれない。
(IV) 「車データベース」 :車専門のデータベース。化合物の話題は多少含まれるが、アルコールの話題は全く含まれない。
ここで、検索式として「□化合物」の命題が入力された場合には、「化合物」に関する専門のデータベースは「化学データベース」のみなので、ステップS46で「□化学データベース」が、検索結果として出力される。
【0148】
また、検索式として「◇化合物」の命題が入力された場合には、「化合物」の話題を含んでいる文書データベースは「化学データベース」、「医学データベース」、及び「車データベース」であり、しかも、「化学データベース」は「化合物」の専門データベースでもあるので、ステップS48で「□化学データベース」が、ステップS50で「◇医学データベース」及び「◇車データベース」が、検索結果として出力される。
【0149】
次に、「必須性の条件」として、「ランキングの上位100件」が設定された場合の動作例を示す。検索式として「◇アルコール」の命題が入力されると、上記「必須性の条件」が設定されていないならば、ステップS48で「◇化学データベース」及び「◇医学データベース」が、ステップS48で「□お酒データベース」が検索結果として出力される。しかし、この場合、必須性の条件として、「ランキングの上位100件」が設定されており、「化学データベース」がこの必須性の条件を満たしているため、ステップS47で「化学データベース」がこの必須性の条件を満たしていると判定される。この結果、ステップS50で「◇医学データベース」が、ステップS48で「□化学データベース」及び「□お酒データベース」が検索結果として出力される。
【0150】
ところで、必須性の条件及び可能性の条件を、「文書データベース内のヒット件数の割合」で指定するようにしてもよい。例えば、上述したように、検索式として「◇アルコール」の命題が入力された場合、必須性の条件として「文書データベース内の半数以上の文書に含まれる」が、予め、設定されていたとすると、化学データベース内の文書数に応じて、出力される検索結果が異なる。すなわち、化学データベース内の文書数が200件以下ならば、「化学データベース」の検索結果として、ステップS47の判定がYESとなるので、ステップS48で「□化学データベース」が出力されるが、化学データベース内の文書数が200件より多いならば、ステップS47の判定がNOとなるので、ステップS50で「◇化学データベース」が出力されることになる。
【0151】
図9は、上記第1及び第2の実施形態の各構成要素の機能を、プログラムの実行により実現するコンピュータ300のハードウェア構成を示すブロック図である。
該コンピュータ300は、CPU301と、該CPU300とバス309によって接続されたROM302,RAM303,外部記憶装置304、記録媒体駆動装置305、入出力装置307、及び通信インターフェース308から構成される。
【0152】
CPU301は、バス309を介して上記各構成要素302〜308にアクセス可能であり、システム全体を制御する。本発明の実施形態のアルゴリズムを実現するプログラムは、例えば、ROM302、外部記憶装置304、または、可搬記録媒体306に格納される。
ROM302や外部記憶装置304に格納された上記プログラムは、RAM303上に、CPU301が実行可能な形式に展開されて、CPU301により実行される。また、可搬記録媒体306に格納されている上記プログラムは、該可搬記録媒体306が記録媒体駆動装置305に装着されることにより、記録媒体駆動装置305により読み取られ、RAM303上に、CPU301が実行可能な形式に展開されて、CPU301により実行される。
【0153】
また、上記プログラムは、コンピュータ300とネットワーク400を介して接続された情報提供者500が保有していてもよく、この場合には、通信インタフェース400が、ネットワーク400を介して、情報提供者500が保有していている上記プログラムを、外部記憶装置304にダウンロードする。そして、この外部記憶装置304にダウンロードされた上記プログラムは、上述した方法により、CPU301により実行される。
【0154】
入出力装置は、ユーザ101、201がコンピュータ300に検索式を入力するために使用される入力装置、及びコンピュータ300が上記プログラムを実行することによって得た検索結果や様相記号が付加された共通キーワード等を出力する出力装置である。
外部記憶装置304は、文書データベース120や複数の文書データベースを格納する。また、インデックス108、208も格納する。尚、インデックス108、208は、RAM303に格納されてもよい。RAM303には、ワーク領域110、210や前記バッファ等が確保される。
【0155】
また、情報提供者500が、上記プログラムを実行可能なコンピュータ、及び文書データベース120及び/または複数の文書データベースを備えている場合には、ユーザ101、201が入出力装置307から、上記プログラムを遠隔実行するためのコマンドを入力することにより、通信インターフェース308及びネットワーク400を介して、上記プログラムを、情報提供者500が保有するコンピュータで遠隔実行させることも可能である。この場合、情報提供者500が保有するコンピュータで得られた検索結果様相記号が付加された共通キーワード等は、コンピュータ300が、ネットワーク400及び通信インターフェース308を介して受信することが可能であり、該受信された検索結果は入出力装置307から、ユーザ101、201が知覚可能な形式で出力される。
【0156】
なお、可搬記録媒体306は、フロッピー(登録商標)ディスク、CD−ROM,CD−RAM、各種規格のDVD,光磁気記録方式もしくは相変化型の光ディスク、ICカード等である。また、外部記憶装置304は、ハードディスクやディスクアレイ等である。また、入出力装置307は、キーボードやマウス等のポインティング・デバイス、及びCRTディスプレイ、もしくは液晶ディスプレイ、プラズマ・ディスプレイ、有機EL(Electro Luminesence)ディスプレイ等の薄型ディスプレイである。
また、ネットワーク400は、LAN、MAN、WAN、もしくはインターネット等である。
【0157】
【発明の効果】
以上、説明したように、本発明によれば、検索式に様相記号を導入することにより、従来のブーリアン検索及び非ブーリアン検索と同等の記述能力を持ち、かつユーザの直感を簡略化して表現可能な検索式を、ユーザに提供することができる。そして、このことにより、ユーザは、自分の意図を、従来技術のような大きな負担を強いられることなく、はるかに、容易に、検索式として表現することができる。
【0158】
また、ユーザにより自由に指定される、様相記号付の命題の真偽値を計数することにより、ランキングされる文書の順位に階層を設定し、該真偽値によるランキングと通常のランキングとを分けて評価するため、ユーザは、容易に、ランキングの順位を指定することが可能になる。
【0159】
また、さらに、実際にランキングされた文書から、必須性及び/または可能性を持つ命題を抽出し、該抽出結果をユーザに表示するので、ユーザは、自分の入力した命題と実際の検索結果から抽出される命題とを見比べて、比較・検討することにより、次に、入力すべき命題の候補を認識することができる。
【0160】
また、さらに、複数の文書データベースの検索において、必須性記号付の命題及び/または可能性記号付の命題の真偽値を評価することにより、専門の文書データベースであるか、または専門ではないが関連する文書で文書データベースであるか等を、特定することができる。
【0161】
また、さらに、検索結果として、必須性記号付の文書データベース名、及び/または可能性記号付の文書データベース名を出力するので、ユーザは、検索された文書データベースが専門データベースであるか、または関連データベースであるのかを、直ちに(該出力が表示や印字等の場合には、一目で)、認識することができる。
【図面の簡単な説明】
【図1】 必須性記号及び可能性記号を付加したキーワードを含む文書群とランキング順位との関係を示すベン図である。
【図2】 実際のランキング結果から抽出されるキーワードと様相記号との関係を示した図である。
【図3】 本発明の第1の実施形態の情報検索装置のシステム構成を示すブロック図である。
【図4】 上記情報検索装置の本発明に係わる要部の全体動作を説明するフローチャートである。
【図5】 図4のフローチャートの処理により行われる、ワーク領域の内容の時間的推移の具体例を示す図である。
【図6】 図4のフローチャートの共通キーワード抽出処理の詳細を示すフローチャートである。
【図7】 本発明の第2の実施形態の情報検索装置である複数文書データベース検索装置のシステム構成を示すブロック図である。
【図8】 上記複数文書データベース検索装置により行われる、複数の文書データベースの検索処理を示すフローチャートである。
【図9】 上記第1及び第2の実施形態を実現するコンピュータのハードウェア構成を示すブロック図である。
【符号の説明】
11〜14、32〜35 円
21 最上位の階層
22 最上位の次の階層
23 最下位の階層
31 外円
100 情報検索装置
102 インターフェース
104 検索式入力部
106 文書集合特定部
108 インデックス
110 ワーク領域
112 関連度計算部
114 文書管理部
116 検索結果出力部
118 共通キーワード抽出部
120 文書データベース
122 文書
200 複数文書DB検索装置
202 インターフェース
204 検索式入力部
208 インデックス
210 ワーク領域
212 関連度計算部
216 検索結果出力部
219 必須性・可能性条件判定部
300 コンピュータ
301 CPU
302 ROM
303 RAM
304 外部記憶装置
305 記録媒体駆動装置
306 可搬記録媒体
307 入出力装置
308 通信インターフェース
400 ネットワーク
500 情報提供業者
Claims (6)
- 文書データベースから、ユーザが入力した検索式に該当する文書を検索する情報検索装置において、
様相論理で用いられる様相記号が付加された命題で表現された検索式が入力される入力手段と、
文書データベースを検索して、該入力手段により入力された検索式の命題を真とする文書集合を特定する文書集合特定手段と、
該文書集合特定手段により特定された文書集合の関連度を算出する関連度計算手段と、
前記文書集合特定手段により特定された文書集合と、該関連度計算手段により算出された関連度を基に、前記入力手段により入力された検索式の命題に対して、真となる命題の数と偽になる数の両方を評価基準にして、前記文書集合特定手段により特定された文書集合の階層位置を決定し、前記入力手段により入力された検索式に該当する文書集合を、階層的にランキングして出力する検索結果出力手段と、
該検索結果出力手段により出力された文書集合内の各文書に共通するキーワードを抽出する共通キーワード抽出手段と、
を備えることを特徴とする情報検索装置。 - 複数の文書データベースから、ユーザが入力した検索式に該当する文書データベースを検索する情報検索装置において、
様相論理で用いられる様相記号が付加された命題で表現された検索式が入力される入力手段と、
複数の文書データベースを検索して、該入力手段により入力された検索式の命題を真とする文書データベースを特定する文書集合特定手段と、
(1) 前記命題に付加された様相記号が必須性記号であるとき、前記文書集合特定手段により特定された文書データベースに格納されている全ての文書で上記命題が真となる必須性の条件を、前記特定された文書データベースが満たすか否かを判定し、または、
(2) 前記命題に付加された様相記号が可能性記号であるとき、前記特定された文書データベースに格納されている少なくとも1つの文書で上記命題が真となる可能性の条件を、前記特定された文書データベースが満たすか否かを判定する必須性・可能性条件判定手段と、
該必須性・可能性条件判定手段により、前記必須性の条件または前記可能性の条件を満たすと判定された文書データベースについて、その名称を、様相記号を付加して出力する検索結果出力手段と、
を備えることを特徴とする情報検索装置。 - 入力手段と文書集合特定手段と関連度計算手段と検索結果出力手段と抽出手段を有するコンピュータが、文書データベースから、ユーザが入力した検索式に該当する文書を検索する情報検索方法であって、
(a) 前記入力手段に、様相論理で用いられる様相記号が付加された命題で表現された検索式が入力され、
(b) 前記文書集合特定手段が、文書データベースを検索して、該入力された検索式の命題を真とする文書集合を特定し、
(c) 前記関連度計算手段が、該特定された文書集合の関連度を算出し、
(d) 前記検索結果出力手段が、前記特定された文書集合と前記算出された関連度を基に、前記入力された検索式の命題に対して、真となる命題と偽になる命題の数の両方を評価基準にして、上記文書集合の階層位置を決定し、前記入力された検索式に該当する文書集合を、階層的にランキングして出力し、
(e) 前記抽出手段が、前記出力された文書集合内の各文書に共通するキーワードを抽出する、
ことを特徴とする情報検索方法。 - 入力手段と文書集合特定手段と必須性可能性条件判定手段と検索結果出力手段を有するコンピュータが、複数の文書データベースから、ユーザが入力した検索式に該当する文書を検索する情報検索方法であって、
(a) 前記入力手段に、様相論理で用いられる様相記号が付加された命題で表現された検索式が入力され、
(b) 前記文書集合特定手段が、文書データベースを検索して、該入力された検索式の命題を真とする文書集合を特定し、
(c) 前記必須性可能性条件判定手段が、(c1)該命題に付加された様相記号が必須性記号であるとき、前記特定された文書データベースに格納されている全ての文書で上記命題が真となる必須性の条件を、前記特定された文書データベースが満たすか否かを判定し、または、(c2)前記命題に付加された様相記号が可能性記号であるとき、前記特定された文書データベースに格納されている少なくとも1つの文書で上記命題が真となる可能性の条件を、前記特定された文書データベースが満たすか否かを判定し、
(d) 前記検索結果出力手段が、前記必須性の条件または前記可能性の条件を満たすと判定された文書データベースについて、その名称を、様相記号を付加して出力する、
ことを特徴とする情報検索方法。 - 文書データベースから、ユーザが入力した検索式に該当する文書を検索するコンピュータを、
様相論理で用いられる様相記号が付加された命題で表現された検索式が入力される入力手段、
文書データベースを検索して、該入力手段により入力された検索式の命題を真とする文書集合を特定する文書集合特定手段、
該文書集合特定手段により特定された文書集合の関連度を算出する関連度計算手段、
前記文書集合特定手段により特定された文書集合と前記関連度計算手段により算出された関連度を基に、前記入力手段により入力された検索式の命題に対して、真となる命題の数と偽になる命題の数の両方を評価基準にして、上記文書集合の階層位置を決定し、入力された検索式に該当する文書集合を、階層的にランキングして出力する検索結果出力手段、及び
該検索結果出力手段により出力された文書集合内の各文書に共通するキーワードを抽出する共通キーワード抽出手段、
として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。 - 複数の文書データベースから、ユーザが入力した検索式に該当する文書データベースを検索するコンピュータを、
様相論理で用いられる様相記号が付加された命題で表現された検索式が入力される入力手段、
複数の文書データベースを検索して、該入力手段により入力された検索式の命題を真とする文書データベースを特定する文書集合特定手段、
(1)前記命題に付加された様相記号が必須性記号であるとき、該文書集合特定手段により特定された文書データベースに格納されている全ての文書で上記命題が真となる条件を、前記特定された文書データベースが満たすか否かを判定し、または、(2)前記命題に付加された様相記号が可能性記号であるとき、前記特定された文書データベースに格納されている少なくとも1つの文書で前記命題が真となる可能性の条件を、前記特定された文書データベースが満たすか否かを判定する必須性・可能性条件判定手段、及び
該必須性・可能性条件判定手段により、前記必須性の条件または前記可能性の条件を満たすと判定された文書データベースについて、その名称を、様相記号を付加して出力する検索結果出力手段、
として機能させるプログラムを記録したコンピュータ読取可能な記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10110999A JP4021583B2 (ja) | 1999-04-08 | 1999-04-08 | 情報検索装置、情報検索方法、及びその方法を実現するプログラムを記録した記録媒体 |
US09/539,635 US6499030B1 (en) | 1999-04-08 | 2000-03-30 | Apparatus and method for information retrieval, and storage medium storing program therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10110999A JP4021583B2 (ja) | 1999-04-08 | 1999-04-08 | 情報検索装置、情報検索方法、及びその方法を実現するプログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000293535A JP2000293535A (ja) | 2000-10-20 |
JP4021583B2 true JP4021583B2 (ja) | 2007-12-12 |
Family
ID=14291914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10110999A Expired - Lifetime JP4021583B2 (ja) | 1999-04-08 | 1999-04-08 | 情報検索装置、情報検索方法、及びその方法を実現するプログラムを記録した記録媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6499030B1 (ja) |
JP (1) | JP4021583B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108897785A (zh) * | 2018-06-08 | 2018-11-27 | Oppo(重庆)智能科技有限公司 | 搜索内容推荐方法、装置、终端设备及存储介质 |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7333983B2 (en) * | 2000-02-03 | 2008-02-19 | Hitachi, Ltd. | Method of and an apparatus for retrieving and delivering documents and a recording media on which a program for retrieving and delivering documents are stored |
NZ508695A (en) * | 2000-12-07 | 2003-04-29 | Compudigm Int Ltd | Method and system of searching a database of records |
US7890639B1 (en) | 2002-01-30 | 2011-02-15 | Novell, Inc. | Method and apparatus for controlling access to portal content from outside the portal |
US7412374B1 (en) * | 2002-01-30 | 2008-08-12 | Novell, Inc. | Method to dynamically determine a user's language for a network |
US7987421B1 (en) | 2002-01-30 | 2011-07-26 | Boyd H Timothy | Method and apparatus to dynamically provide web content resources in a portal |
JP4255239B2 (ja) * | 2002-03-29 | 2009-04-15 | 富士通株式会社 | 文書検索方法 |
US7236977B1 (en) | 2002-09-20 | 2007-06-26 | Novell, Inc. | Method for dynamically distributing items for changes based on group membership |
US7660843B1 (en) | 2003-01-21 | 2010-02-09 | Novell, Inc. | Method and apparatus for dynamically delivering a gadget |
US7536408B2 (en) | 2004-07-26 | 2009-05-19 | Google Inc. | Phrase-based indexing in an information retrieval system |
US7580929B2 (en) * | 2004-07-26 | 2009-08-25 | Google Inc. | Phrase-based personalization of searches in an information retrieval system |
US7584175B2 (en) * | 2004-07-26 | 2009-09-01 | Google Inc. | Phrase-based generation of document descriptions |
US7567959B2 (en) * | 2004-07-26 | 2009-07-28 | Google Inc. | Multiple index based information retrieval system |
US7426507B1 (en) | 2004-07-26 | 2008-09-16 | Google, Inc. | Automatic taxonomy generation in search results using phrases |
US7580921B2 (en) | 2004-07-26 | 2009-08-25 | Google Inc. | Phrase identification in an information retrieval system |
US7711679B2 (en) | 2004-07-26 | 2010-05-04 | Google Inc. | Phrase-based detection of duplicate documents in an information retrieval system |
US7702618B1 (en) | 2004-07-26 | 2010-04-20 | Google Inc. | Information retrieval system for archiving multiple document versions |
US7599914B2 (en) * | 2004-07-26 | 2009-10-06 | Google Inc. | Phrase-based searching in an information retrieval system |
US7801887B2 (en) * | 2004-10-27 | 2010-09-21 | Harris Corporation | Method for re-ranking documents retrieved from a document database |
US7814105B2 (en) * | 2004-10-27 | 2010-10-12 | Harris Corporation | Method for domain identification of documents in a document database |
CA2485814A1 (en) * | 2004-11-24 | 2006-05-24 | Auroral Zone Corporation | Method and apparatus for range processing in an n-dimensional space |
US8019749B2 (en) * | 2005-03-17 | 2011-09-13 | Roy Leban | System, method, and user interface for organizing and searching information |
US7765208B2 (en) * | 2005-06-06 | 2010-07-27 | Microsoft Corporation | Keyword analysis and arrangement |
US7752190B2 (en) * | 2005-12-21 | 2010-07-06 | Ebay Inc. | Computer-implemented method and system for managing keyword bidding prices |
US8036937B2 (en) | 2005-12-21 | 2011-10-11 | Ebay Inc. | Computer-implemented method and system for enabling the automated selection of keywords for rapid keyword portfolio expansion |
US7792858B2 (en) * | 2005-12-21 | 2010-09-07 | Ebay Inc. | Computer-implemented method and system for combining keywords into logical clusters that share similar behavior with respect to a considered dimension |
US20070263574A1 (en) * | 2006-05-10 | 2007-11-15 | Interdigital Technology Corporation | Method and apparatus for battery management in a converged wireless transmit/receive unit |
US7925655B1 (en) | 2007-03-30 | 2011-04-12 | Google Inc. | Query scheduling using hierarchical tiers of index servers |
US8166021B1 (en) | 2007-03-30 | 2012-04-24 | Google Inc. | Query phrasification |
US7693813B1 (en) | 2007-03-30 | 2010-04-06 | Google Inc. | Index server architecture using tiered and sharded phrase posting lists |
US8166045B1 (en) | 2007-03-30 | 2012-04-24 | Google Inc. | Phrase extraction using subphrase scoring |
US7702614B1 (en) | 2007-03-30 | 2010-04-20 | Google Inc. | Index updating using segment swapping |
US8086594B1 (en) | 2007-03-30 | 2011-12-27 | Google Inc. | Bifurcated document relevance scoring |
US8117223B2 (en) * | 2007-09-07 | 2012-02-14 | Google Inc. | Integrating external related phrase information into a phrase-based indexing information retrieval system |
US20090083832A1 (en) * | 2007-09-20 | 2009-03-26 | Microsoft Corporation | Modal and linear techniques for access control logic |
JP2011513811A (ja) * | 2008-02-22 | 2011-04-28 | リード ホース テクノロジーズ インコーポレイテッド | 自動化オントロジー生成システムおよび方法 |
US7730061B2 (en) * | 2008-09-12 | 2010-06-01 | International Business Machines Corporation | Fast-approximate TFIDF |
JP5308199B2 (ja) * | 2009-03-17 | 2013-10-09 | 株式会社野村総合研究所 | 文書検索システム |
JP5265420B2 (ja) * | 2009-03-17 | 2013-08-14 | 株式会社野村総合研究所 | 文書検索システム |
US8266006B2 (en) | 2009-11-03 | 2012-09-11 | Ebay Inc. | Method, medium, and system for keyword bidding in a market cooperative |
US9501506B1 (en) | 2013-03-15 | 2016-11-22 | Google Inc. | Indexing system |
US9483568B1 (en) | 2013-06-05 | 2016-11-01 | Google Inc. | Indexing system |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03130873A (ja) | 1989-10-17 | 1991-06-04 | Nippon Telegr & Teleph Corp <Ntt> | テキストベースの検索方式 |
JP2742115B2 (ja) | 1989-12-01 | 1998-04-22 | 日本電信電話株式会社 | 類似文書検索装置 |
JP2874032B2 (ja) * | 1990-11-27 | 1999-03-24 | 富士通株式会社 | ソフトウェア作業ツール |
US5481700A (en) * | 1991-09-27 | 1996-01-02 | The Mitre Corporation | Apparatus for design of a multilevel secure database management system based on a multilevel logic programming system |
JPH06162101A (ja) | 1992-11-20 | 1994-06-10 | Matsushita Electric Ind Co Ltd | 情報検索装置 |
JP3621449B2 (ja) | 1993-12-14 | 2005-02-16 | 株式会社東芝 | 類似情報検索装置とその方法 |
JP3040945B2 (ja) | 1995-11-29 | 2000-05-15 | 松下電器産業株式会社 | 文書検索装置 |
US6076088A (en) * | 1996-02-09 | 2000-06-13 | Paik; Woojin | Information extraction system and method using concept relation concept (CRC) triples |
JPH1013407A (ja) | 1996-06-25 | 1998-01-16 | Fukushima Nippon Denki Kk | スクランブルパターン設定方式 |
US5778150A (en) * | 1996-07-01 | 1998-07-07 | International Business Machines Corporation | Flexible procedural attachment to situate reasoning systems |
US6240439B1 (en) * | 1996-09-13 | 2001-05-29 | Kabushiki Kaisha Toshiba | System and method for independently executing plurality of programs for control of objects and recording medium in which the programs are recorded so as to execute independently plurality of programs for control of objects |
US5870740A (en) * | 1996-09-30 | 1999-02-09 | Apple Computer, Inc. | System and method for improving the ranking of information retrieval results for short queries |
US6314410B1 (en) * | 1997-06-04 | 2001-11-06 | Nativeminds, Inc. | System and method for identifying the context of a statement made to a virtual robot |
US5907840A (en) * | 1997-07-25 | 1999-05-25 | Claritech Corporation | Overlapping subdocuments in a vector space search process |
-
1999
- 1999-04-08 JP JP10110999A patent/JP4021583B2/ja not_active Expired - Lifetime
-
2000
- 2000-03-30 US US09/539,635 patent/US6499030B1/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108897785A (zh) * | 2018-06-08 | 2018-11-27 | Oppo(重庆)智能科技有限公司 | 搜索内容推荐方法、装置、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US6499030B1 (en) | 2002-12-24 |
JP2000293535A (ja) | 2000-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4021583B2 (ja) | 情報検索装置、情報検索方法、及びその方法を実現するプログラムを記録した記録媒体 | |
US5649193A (en) | Document detection system using detection result presentation for facilitating user's comprehension | |
JP5391633B2 (ja) | オントロジー空間を規定するタームの推奨 | |
JP5423030B2 (ja) | ワードセットに関係するワードの決定 | |
US8356036B2 (en) | Knowledge discovery tool extraction and integration | |
JP5391634B2 (ja) | 文書の段落分析によるその文書のタグの選択 | |
US20070106499A1 (en) | Natural language search system | |
US20060179027A1 (en) | Knowledge discovery tool relationship generation | |
US20050081146A1 (en) | Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus | |
US20110295857A1 (en) | System and method for aligning and indexing multilingual documents | |
US20060179025A1 (en) | Knowledge discovery tool relationship generation | |
US20070214154A1 (en) | Data Storage And Retrieval | |
JP5754019B2 (ja) | 同義語抽出システム、方法およびプログラム | |
US8660977B2 (en) | Knowledge discovery tool relationship generation | |
RU2604677C2 (ru) | Создание политики управления доступом на основе предпочтений конфиденциальности клиента | |
JP2003016089A (ja) | 情報検索システム及びサーバ | |
JP2006350398A (ja) | データ解析装置及びデータ解析方法 | |
US11294938B2 (en) | Generalized distributed framework for parallel search and retrieval of unstructured and structured patient data across zones with hierarchical ranking | |
JP4343206B2 (ja) | 構造化文書検索支援装置およびプログラム | |
US20060179024A1 (en) | Knowledge discovery tool extraction and integration | |
JP3654850B2 (ja) | 情報検索システム | |
JP5836893B2 (ja) | ファイル管理装置、ファイル管理方法、及びプログラム | |
JP3612769B2 (ja) | 情報検索装置および情報検索方法 | |
JP7428250B2 (ja) | 文書検索の性能を評価する方法、システム、および装置 | |
KR20090089096A (ko) | 질의어 개념화를 구현하는 문맥 연관 검색 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070409 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070925 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070927 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101005 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101005 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111005 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111005 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121005 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121005 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131005 Year of fee payment: 6 |
|
EXPY | Cancellation because of completion of term |