JP3621449B2 - 類似情報検索装置とその方法 - Google Patents
類似情報検索装置とその方法 Download PDFInfo
- Publication number
- JP3621449B2 JP3621449B2 JP31017994A JP31017994A JP3621449B2 JP 3621449 B2 JP3621449 B2 JP 3621449B2 JP 31017994 A JP31017994 A JP 31017994A JP 31017994 A JP31017994 A JP 31017994A JP 3621449 B2 JP3621449 B2 JP 3621449B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- keyword
- input
- parameter
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【産業上の利用分野】
本発明は、文書ベースや事例ベースなどの各種のデータを記憶したデータベースから情報あるいはデータを検索する情報検索システムに関するものであり、特に、ユーザからの検索要求に応じて、この検索要求に含まれる検索条件を満足するデータを検索する類似情報検索装置とその方法に関する。
【0002】
【従来の技術】
一般のデータベースシステムにおいては、システム設計者と一般のユーザが異なる場合が多い。この場合、システム設計者ではないユーザが、データベースのデータの分布状態を完全に把握することは難しい。したがって、このようなユーザは、試行錯誤的に検索を行うことになる。つまり、ユーザは、思いついた検索条件によって検索を開始し、ユーザの意図する検索結果が得られない場合には、検索条件を変更して再び検索を実行することになる。
【0003】
このような試行錯誤による検索の検索効率は、検索失敗時の検索条件の変更過程に依存する。なぜなら、ユーザが検索失敗となった検索条件を変更して再度検索しても、再び検索を失敗する可能性があるからである。すなわち、試行錯誤による検索過程において、ユーザが検索結果に満足した場合には、このユーザは新たな検索条件を追加してより有効な検索を行うことができ、意図する検索結果に近付けることができる。これに対して、ユーザが検索結果に満足しない場合、言い換えれば、検索失敗と判断した場合には、このユーザは検索条件を変更して再び検索を行うことになる。
【0004】
例えば、このように試行錯誤的に情報検索を行う場合、検索結果により、「制約不足」あるいは「過剰制約」という状態が生じる。このうち、「制約不足」とは、ユーザが意図する検索件数よりも検索実行後の検索件数の方が多すぎる場合であり、この場合に、ユーザは、検索条件の制約を強める方向に検索条件を変更し、検索件数の減少を図ることになる。また、「過剰制約」とは、ユーザが意図する検索件数よりも検索実行後の検索件数の方が少なすぎる場合であり、この場合に、ユーザは、検索条件の制約を緩和する方向に検索条件を変更し、検索件数の増加を図ることになる。
【0005】
また、伝統的には、検索性能は、2つの尺度、すなわち、「呼び出し率」と「精度」を用いて評価されてきた。これらの尺度は、通常、ユーザが、文章の引用や抄録などのデータベースあるいは文書ベースから目的とする情報を引き出す際に行うところの、関連性に関する主観的判断に基づいている。そして、この「呼び出し率」と「精度」は、次のように定義することができる。すなわち、「呼び出し率」とは、データベース中に存在する関連情報に対する実際に検索された関連情報の比率であり、「精度」とは、検索された情報の集合に対するこの集合中の関連情報の比率である。この2つの尺度は、一般的にトレードオフの関係にあり、情報検索において、両方の尺度を低くすることなく、最高の値である「1」に限りなく近付けることが望ましいこととされる。前述した情報検索の状態と関連付けて言えば、「制約不足」の状態は「呼び出し率」が低い状態であり、「過剰制約」の状態は「精度」が低い状態であるとも言える。
【0006】
したがって、このような試行錯誤的な情報検索において、ユーザが、「呼び出し率」と「精度」を高めながら、効率よく検索を行うためには、データベース内のデータの背景知識を用いて、検索条件を適切に変更しなければならない。すなわち、データベース内の複数のデータは、一般的に、背景知識として抽出されるような概念的関連構造を備えているため、適切な検索条件を生成するためには、このような背景知識を利用することが重要である。そのため、試行錯誤的な情報検索において検索条件を変更する場合には、ユーザは、検索意図を正確に反映させると同時に、検索対象となるデータの背景知識を適切に反映させることにより、適切な検索条件を生成しなければならない。例えば、環境汚染に関するデータベースにおいては、汚染物質、生物、媒体などの概念に関連する背景知識を用いて、調査項目の汚染物質の種類などの検索条件を変更しなければならない。
【0007】
しかしながら、一般的なユーザにおいては、このような背景知識を十分に把握していない場合が多いため、背景知識を検索条件に適切に反映させて適切な検索条件の変更を行うことは難しい。したがって、ユーザが、無駄な検索を行うことなしに、満足する検索結果を得ることは難しく、検索効率を向上することは難しい。
【0008】
ところで、以上のような試行錯誤的な検索システムの一例として、特許情報検索がある。この特許情報検索においては、インデキシング検索が中心となるが、その技術要素、目的、入出力などのキーワードをAND,OR論理結合したブール式で検索を行っている。このような検索においては、入力キーワードが適切に設定できている場合には、数十件程度の適当数の検索データが適切な内容でヒットされるが、入力キーワードの設定が不適切な場合には、数十万件程度の莫大な数の無関係なデータがヒットされてしまう可能性がある。このような不都合な事態を回避するためには、1)特許情報の分布を判断しながら初期キーワードを適切に設定し、2)実際に検索し、背景知識を用いて条件を変更しながら、試行錯誤的に関連する特許情報を妥当な件数で獲得する、という作業を行うことが重要である。
【0009】
例えば、“類似AND検索ANDデータ”というキーワードを検索装置に与えて十分な検索ができない場合には、“(類似ORあいまい)AND検索AND(情報OR文章ORデータ)”というように関連キーワードも付け足して検索条件を緩めなければならない。逆に、このように緩めた検索条件が緩すぎる場合には、“(類似ORあいまい)AND検索ANDデータ”というように、キーワードを削除して検索条件を厳しくしなければならない。このような試行錯誤的な検索を効率良く行うためには、探索戦略と呼ばれる極めて経験的な検索ノウハウにより、データの背景知識を検索条件に適切に反映させることが必要である。しかしながら、不慣れな一般のユーザがこのような探索戦略を立てることは困難であり、適切な検索条件の変更を行うことは難しい。
【0010】
一方、類似検索を目的として、一般データベースや文書ベースへの全データ検索を行った場合には、システム全体の負荷が大きくなりすぎ、検索速度が著しく低下することが大きな問題として把握されている。つまり、盲目的な全データ検索は、マッチング計算を行っている主記憶と恒久的に格納されている二次記憶との間で非常に多くの回数のページ単位のデータ転送を要求するからである。この場合、ディスクなどの二次記憶の中で最も速い装置と、主記憶用の媒体の中で最も遅いものとの間には、アクセス時間に大きなギャップがある。現段階では、このようなアクセスギャップは1000倍にも達することが知られている。
【0011】
前述したような試行錯誤的な検索は、このような全データ検索と同様に頻繁にデータ検索を必要とするため、単に試行錯誤的な検索を行った場合に、検索速度の低下を招くことは必至である。したがって、試行錯誤的な検索システムを実用に供するためには、莫大な試行錯誤により検索速度を著しく低下させることのないような何等かのメカニズムが要求される。
【0012】
また、二次記憶アクセスを行わない前処理として試行錯誤的なキーワード検索を行うことにより、類似検索すべき部分を取り込む方法がある。この方法においては、予め設定しておいた検索件数が得られるような検索条件を生成しなければならず、そのためには、前述したような極めて経験的な検索ノウハウによって、検索対象となるデータの背景知識を適切に検索条件に反映させ、適切な検索条件を生成することが必要であるが、このことはやはり、一般的なユーザには困難である。また、このように、類似検索を目的として二次記憶アクセスを伴わない試行錯誤的な検索を行う場合にも、結局は、全データ検索と同様に、非常に多くの回数のデータ転送を要求するため、単純に試行錯誤的な検索を行うだけでは、検索速度の低下を招くことは必至である。したがって、このような二次記憶アクセスを伴わない試行錯誤的な類似検索システムを実用に供するためには、やはり、検索速度を著しく低下させないような何等かのメカニズムが不可欠である。
【0013】
以上のような、試行錯誤的な検索システムの実用化に不可欠なメカニズムの要求に対して、試行錯誤的なデータベース検索、あるいは文書検索を支援するシステムがいくつか提案されている。そのような検索システムの中で、最も期待されているシステムの一つに、ユーザとの対話を念頭においた、「関連フィードバック」がある。この「関連フィードバック」は文書ベースを対象としており、質問を通じて得られた文章を調べ、タイトルや抄録をベースに関連する文書を選択し、その文書に付随する索引語を探索質問に加えて、関連する文書に現れない用語を削除するというものである。しかしながら、非形式的な関連フィードバックでは、ユーザが個々の索引語の有効性を逐一評価しなければならず、この作業は、ユーザにとって大きな負担となる。
【0014】
「関連フィードバック」におけるこのような問題点を克服するための代替案として、SMARTシステム(Salton and McGill,(1983)An Introduction to Modern Information Retrieval New York, MacGraw−Hill)でも取り入れられている「自動化関連フィードバック」である。このシステムにおいては、質問中の各索引語の関連度として一つの重みが割り当てられ、この重みは、質問を用いて検索された文書の関連性についてのユーザの判断に従って自動的に調整される。この情報検索と質問再編成のアイデアは有効なものであると思われるが、まだ広く用いられていない。その理由としては、1)文章に対する付加的な索引付けを行う負担が存在する、2)質問再編成にあたって行う重み付けの調整が極めて経験的過ぎる、および3)そのために、検索処理が発散する可能性があり、収束性が危ぶまれる、ということが挙げられる。
【0015】
その他にも、試行錯誤的な類似検索システムとして、例えば、『電子文書参照支援システムBENLIにおける内容検索機能』(石橋他、情報処理学会第45回(平成4年後期)全国大会)や、『柔軟な知識構造を持つ知的データベースシステムの構築』(緒方他、情報処理学会第45回(平成4年後期)全国大会)などの文献において、試行錯誤的なデータベース検索、あるいは文書検索を支援するシステムがいくつか提案されている。しかしながら、このようなシステムにおいては、1)検索失敗知識などの詳細かつ手続き的な戦略知識を必要とする、2)生成検査法的な盲目的な試行錯誤検索を行わざるを得ず、検索速度が著しく低下することが明らかである、3)ユーザの検索意図を反映させることが困難である、などの問題点を抱えている。
【0016】
【発明が解決しようとする課題】
以上説明したように、データベースや文書ベースや事例ベースなどの各種のデータを記憶したデータ記憶装置から情報あるいはデータを検索する情報検索システムにおいては、検索条件を設定し、その検索条件によって得られた結果を調べ、その結果に応じて新たな検索条件を設定する、という試行錯誤的な検索が要求される場合が多い。この場合、ユーザの検索意図を随時汲み取る対話型の情報検索システムが有効であるが、1)盲目な探索を行うため、対話型検索が収束しない、2)関連した情報を逸することなく、試行錯誤的に検索条件を生成することは困難である、3)データの単純な背景知識が正確に反映されない、もしくは高度な戦略知識が必要とされる、などの問題が存在する。
【0017】
本発明は、以上のような従来技術の問題点を解決するために提案されたものであり、その第1の目的は、検索速度を大幅に低下させることなく、ユーザとの対話によってユーザの検索意図を容易かつ正確に反映させながら、データの単純な背景知識を容易かつ正確に反映させて検索条件を自動的に生成し、試行錯誤的に効率よく類似検索を実行することの可能な、対話型の類似情報検索装置とその方法を提供することである。また、本発明の第2の目的は、検索速度を大幅に低下させることなく、ユーザの意図する検索結果の条件を満足させるようにしてユーザの検索意図を容易かつ正確に反映させながら、データの単純な背景知識を容易かつ正確に反映させて検索条件を自動的に生成し、試行錯誤的に効率よく類似検索を実行することの可能な、検索結果条件型の類似情報検索装置とその方法を提供することである。
【0018】
【課題を解決するための手段】
本発明の類似情報検索装置は、ユーザからの検索要求に応じて、この検索要求に含まれる検索条件を満足するデータの試行錯誤的な類似検索をデータベースに対して実行する類似情報検索装置において、基本的に、データベース管理手段、検索要求入力手段、関連キーワード生成手段、検索式生成手段、検索管理手段、および検索結果出力手段を備える。このうち、データベース管理手段は、データベースに対して検索を実行する手段である。検索要求入力手段は、ユーザの操作に基づき、入力キーワードと入力キーワードの重要度を含む検索要求を入力する手段である。関連キーワード生成手段は、背景知識と検索パラメータを用いて、検索要求入力手段によって得られた入力キーワードに関連する関連キーワードを形成する手段である。検索式生成手段は、検索要求入力手段によって得られた入力キーワードと関連キーワード生成手段によって得られた関連キーワードを用いて検索式を生成する手段である。検索管理手段は、関連キーワード生成手段によって使用される検索パラメータを設定するとともに、検索式生成手段によって得られた検索式に基づいて、データベース管理手段によって検索を実行させる手段である。検索結果出力手段は、データベース管理手段による検索の実行から得られた最終的な検索結果を出力する手段である。
【0019】
より詳細に、請求項1に記載の類似情報検索装置は、以上のような基本的な構成に加えて、関連性判断情報取得手段と関連性判断情報管理手段を備える。このうち、関連性判断情報取得手段は、データベース管理手段による検索の実行から得られた暫定的な検索結果の一部を検索データとしてユーザに提示するとともに、ユーザから検索処理の停止命令またはデータの関連性判断情報を取得する手段である。関連性判断情報管理手段は、関連性判断情報取得手段によって得られた関連性判断情報を格納、検索する手段である。さらに、この類似情報検索装置においては、検索管理手段が次のように構成される。すなわち、検索管理手段は、関連性判断情報取得手段によって検索データがユーザに提示され、ユーザがこの検索データに満足せず、検索提示手段がユーザからの関連性判断情報を取得した場合に、この関連性判断情報を用いて検索パラメータを変更し、関連キーワード生成手段によって関連キーワードを変更させ、検索式生成手段によって新たな検索式を生成させ、この新たな検索式に基づいて、データベース管理手段によって再検索を実行させるように構成される。また、検索管理手段は、関連性判断情報取得手段によって検索データがユーザに提示され、ユーザがこの検索データに満足して、検索提示手段がユーザからの検索処理の停止命令を取得した場合に、この検索データを最終的な検索結果として検索結果出力手段に送るように構成される。
【0020】
請求項2〜4に記載の各類似情報検索装置は、請求項1に記載の構成において、関連性判断情報取得手段および関連性判断情報管理手段が次のように構成されることを特徴としている。すなわち、関連性判断情報取得手段は、ユーザからの関連性判断情報として、関連データと非関連データのいずれか一方またはその指示情報、あるいは関連データと非関連データの両方または指示情報を取得するように構成される。そして、関連性判断情報管理手段は、関連性判断情報取得手段によって得られたデータまたはその指示情報を格納、検索するように構成される。
【0021】
請求項5〜8に記載の各類似情報検索装置は、請求項1に記載の構成において、関連性キーワード生成手段が次のように構成されることを特徴としている。すなわち、関連キーワード生成手段は、検索要求入力手段によって入力された入力キーワードを初期伝搬データとして伝搬操作を行い、検索管理手段によって設定された検索パラメータをしきい値として関連キーワードを生成するように構成される。請求項6に記載の類似情報検索装置において、関連性キーワード生成手段は、背景知識として連想ネットワークを使用し、入力キーワードである第1のキーワードとそれに対して間接的にリンクを張られた第2のキーワードとの関連度として、この第1、第2のキーワード間を接続するリンク列の関連度の積の最大値を求める。そして、この関連度と入力キーワードの重要度との積が検索パラメータ以上である場合に、第2のキーワードによって関連キーワードを生成する。請求項7に記載の類似情報検索装置において、関連性キーワード生成手段は、背景知識として連想ネットワークを使用し、入力キーワードである第1のキーワードとそれに対して間接的にリンクを張られた第2のキーワードの関連度として、この第1、第2のキーワード間を接続するリンク列の関連度の積の和を求める。そして、この関連度と入力キーワードの重要度との積が検索パラメータ以上である場合に、第2のキーワードによって関連キーワードを生成する。請求項8に記載の類似情報検索装置において、関連性キーワード生成手段は、背景知識として概念階層を使用し、入力キーワードである第1のキーワードとそれに対して間接的にリンクを張られた第2のキーワードとの関連度として、第1のキーワードから、第1、第2のキーワードに共通の上位のキーワードで最も下位の第3のキーワードまでのリンク列の関連度の積を求める。そして、この関連度と入力キーワードの重要度との積が検索パラメータ以上である場合に、第2のキーワードによって関連キーワードを生成する。
【0022】
請求項9に記載の類似情報検索装置は、前述したような基本的な構成において、検索要求入力手段と検索管理手段が次のように構成されることを特徴としている。すなわち、検索要求入力手段は、ユーザの操作に基づき、入力キーワードと入力キーワードの重要度を含む検索要求だけでなく、さらに検索結果の条件を入力する。検索管理手段は、データベース管理手段による検索の実行から得られた暫定的な検索結果が、検索要求入力手段によって得られた検索結果の条件を満足していない場合に、検索パラメータを変更し、関連キーワード生成手段によって関連キーワードを変更させ、検索式生成手段によって新たな検索式を生成させ、この新たな検索式に基づいて、データベース管理手段によって再検索を実行させるように構成される。また、検索管理手段は、データベース管理手段による検索の実行から得られた暫定的な検索結果が、検索要求入力手段によって得られた検索結果の条件を満足している場合に、この検索結果を最終的な検索結果として検索結果出力手段に送るように構成される。
【0023】
請求項10,11に記載の各類似情報検索装置は、請求項9に記載の構成において、検索式生成手段によって得られた検索式からこの検索式に対応する検索件数を推定する検索件数推定手段をさらに備えることを特徴としている。請求項11記載の類似情報検索装置において、検索管理手段は、前処理として、データベース管理手段によって実際のデータベース検索を行わせることなしに、検索件数推定手段を使用して検索式の検索件数を推定しながら、検索式生成手段によって試行錯誤による検索式の生成を行わせるように構成される。そして、この前処理の後、データベース管理手段によって実際のデータベース検索を行わせながら、検索式生成手段によって試行錯誤による検索式の生成を行わせるように構成される。
【0024】
請求項12〜15に記載の各類似情報検索装置は、請求項9に記載の構成において、関連性キーワード生成手段が、請求項5〜8に記載の関連キーワード生成手段と同様に構成されることを特徴としている。
【0025】
また、請求項16〜30に記載の各類似情報検索方法は、それぞれ、請求項1〜15に記載の各類似情報検索装置の動作手順に対応する方法である。
【0026】
【作用】
以上のような構成を有する本発明の類似情報検索装置とその方法によれば、ユーザの検索意図とデータの単純な背景知識とを容易かつ正確に反映させながら、検索条件である検索式を自動的に生成し、試行錯誤的に類似検索を効率よく実行することができる。
【0027】
まず、請求項1〜8に記載の類似情報検索装置、および請求項16〜23に記載の類似情報検索方法によれば、ユーザからの検索要求である入力キーワードと背景知識に基づく関連キーワードを用いて検索式を生成し、この検索式に基づいて検索を実行して暫定的な検索結果をユーザに提示し、この暫定的な検索結果がユーザの検索意図に沿わない場合には、ユーザに検索意図の情報である関連性判断情報を入力させて、この情報を取得する。そして、このようなユーザからの検索意図を反映した情報によって検索パラメータを変更し、新たな検索式を生成し、この検索式に基づいて再検索を実行することにより、ユーザの検索意図と背景知識とを反映した検索を行うことができる。すなわち、このように、ユーザから取得した関連性判断情報に基づいて検索式を生成することにより、検索式がフィードバックによって次第に洗練化されるという会話的探索過程を実現している。そして、ユーザが設定した入力キーワードとその重要度と、背景知識に基づいて生成した関連キーワード、およびユーザから取得した関連性判断情報とを使用して、検索式を生成することにより、ユーザの検索意図と背景知識の両方を検索式に確実に反映させることができる。したがって、検索速度を大幅に低下させることなく、ユーザとの対話によってユーザの検索意図を容易かつ正確に反映させながら、データの単純な背景知識を容易かつ正確に反映させて、試行錯誤的に有効な類似検索を効率よく実行することができる。
【0028】
請求項2〜4に記載の類似情報検索装置、および請求項17〜19に記載の類似情報検索方法によれば、ユーザの検索意図である関連性判断情報として、関連データ・非関連データまたはその指示情報を直接取得するため、ユーザの検索意図をより容易かつ正確に反映させることができる。
【0029】
請求項5〜8に記載の類似情報検索装置、および請求項20〜23に記載の類似情報検索方法によれば、連想ネットワークや概念階層などの背景知識を使用し、リンク列の関連度の積などの簡単な計算を行うことにより、検索パラメータをしきい値として関連キーワードを自動的に生成することができる。したがって、データの単純な背景知識をより容易かつ正確に反映させることができる。
【0030】
次に、請求項9〜15に記載の類似情報検索装置、および請求項24〜30に記載の類似情報検索方法によれば、ユーザからの検索要求である入力キーワードと背景知識に基づく関連キーワードを用いて検索式を生成し、この検索式に基づいて検索を実行する。そして、この検索の実行によって得られた暫定的な検索結果がユーザによって設定された検索結果の条件を満足しない場合には、検索パラメータを変更して、新たな検索式を生成し、この検索式に基づいて再検索を実行することにより、ユーザの検索意図と背景知識とを反映した検索を行うことができる。すなわち、このように、ユーザが設定した入力キーワードとその重要度、および検索結果の条件と、背景知識に基づいて生成した関連キーワードとを使用して、検索式を生成することにより、ユーザの検索意図と背景知識の両方を検索式に確実に反映させることができる。したがって、検索速度を大幅に低下させることなく、ユーザによって設定された検索結果の条件を使用してユーザの検索意図を容易かつ正確に反映させながら、データの単純な背景知識を正確に反映させて、試行錯誤的に有効な類似検索を効率よく実行することができる。
【0031】
請求項10,11に記載の類似情報検索装置、および請求項25,26に記載の類似情報検索方法によれば、検索式に対応する検索件数を推定することにより、推定される検索件数がユーザによって設定された検索結果の条件を満足するような検索式のみを選別することができる。これにより、前処理としての検索式の生成を探索的に行うことができるため、無駄な検索式に基づく無駄な実検索をできる限り回避することができる。
【0032】
請求項12〜15に記載の類似情報検索装置、および請求項27〜30に記載の類似情報検索方法によれば、連想ネットワークや概念階層などの背景知識を使用し、リンク列の関連度の積などの簡単な計算を行うことにより、検索パラメータをしきい値として関連キーワードを自動的に生成することができる。したがって、データの単純な背景知識をより容易かつ正確に反映させることができる。
【0033】
【実施例】
[1]第1実施例
[1−1]構成
図1は、本発明による類似情報検索装置の一実施例のシステムを示す構成図である。システムの中心に構成全体を制御する制御部100があり、この制御部100は、汎用マイクロコンピュータあるいは専用LSIなどで構成されている。そして、この制御部100には、入出力や記憶を受け持つ周辺装置として、キーボード入力部101、表示部102、印刷部103、外部記憶部104などが接続されている。また、図示していないが、制御部100には、入出力や検索を制御する下位の制御部が設けられており、これらの下位の制御部は、ROMなどのファームウェアやソフトウェアなどによって構成されている。このような階層的な制御構成は、周知の技術であるため、ここでは説明を省略する。
【0034】
そして、図1のシステムにおいては、本発明による類似情報検索機能を実現する手段として、まず、検索要求入力部110、検索管理部120、および検索結果出力部130が設けられている。これらは、制御部100によって直接的に制御される機能部である。
【0035】
また、検索管理部120の下位の機能部として、関連キーワード生成部121、検索式生成部122、関連データベース管理部123、関連データ取得部124、およびデータベース管理部125が設けられている。
【0036】
さらに、図中140は、概念階層や連想ネットワークなどの背景知識を格納した背景知識格納部であり、この背景知識格納部140は、ROMなどのファームウェア、あるいはハードディスク装置などによって構成されている。また、図中150は、関連データ取得部124で得られた関連データを格納するデータベースであり、この関連データベース150は、ハードディスク装置によって構成されている。また、図中160は、検索対象となるデータを格納したデータベースであり、このデータベース160は、ハードディスク装置によって構成されている。
【0037】
以上のような機能部110,120,130,121〜125は、それぞれ、次のような機能を有する。
【0038】
まず、検索要求入力部110は、ユーザのキーボード入力部101の操作に基づき、制御部100の制御の下で、ユーザによって設定された入力キーワードと入力キーワードの重要度からなる検索要求を入力する。
【0039】
また、検索管理部120は、検索パラメータを設定するとともに、関連キーワード生成部121、検索式生成部122、関連データベース管理部123、関連データ取得部124、およびデータベース管理部125を使用して、試行錯誤的な検索を行う。すなわち、検索管理部120は、検索パラメータを設定するとともに、関連キーワード生成部121によって関連キーワードを生成させ、検索式生成部122および関連データベース管理部123によって、ユーザの検索意図を満足させるような類似検索式を自動的に生成させ、データベース管理部125によって検索を実行させる、という一連の処理を、試行錯誤的な検索として繰り返す。このような試行錯誤的な検索の間、関連データ取得部124によって、ユーザからの関連データを受け取り、関連データベース126に蓄える。
【0040】
より詳細には、関連キーワード生成部121は、背景知識格納部140内に格納された背景知識を用いて、検索要求入力部110で得た入力キーワードから、検索パラメータをしきい値として関連キーワードを生成する。検索式生成部122は、入力キーワードと関連キーワードを用いて検索式を生成する。関連データベース管理部123は、関連データ取得部124がユーザから受け取った新たな関連データを関連データベース150に登録し、また、検索式を満足する関連データを関連データベース150から検索する、などの関連データベース150の管理を行う。データベース管理部125は、検索式生成部122で生成された検索式を用いて、データベース160内のデータの検索を実行する。関連データ取得部124は、データベース管理部125による検索結果の中のいくつかを検出データのサンプルとして取り出してユーザに提示し、このサンプル内にユーザによって関連データであると指示されたデータがある場合には、関連データベース管理部125を呼び出して、この関連データを関連データベース150に格納する。検索管理部120は、関連データベース管理部123を呼び出して、関連データベース150内のデータ内容に応じて検索パラメータを生成させ、関連キーワード生成部121を呼び出して検索パラメータをしきい値として関連キーワードを生成させ、検索式生成部122を呼び出して入力キーワードと関連キーワードを用いて検索式を生成させる。
【0041】
一方、検索結果出力部130は、検索管理部120によって得られた最終的な検索結果を出力する。この検索結果は、制御部100によって、表示部102、印刷部103、および外部記憶部104などに適宜出力される。
【0042】
[1−2]作用
[1−2−1]試行錯誤的な類似情報検索処理の概略
図2は、本実施例のシステムによる試行錯誤的な類似情報検索処理の概略を示すフローチャートである。この図2に示すように、試行錯誤的な類似情報検索処理に当たっては、まず、検索要求入力部110により、ユーザによって設定された入力キーワードと入力キーワードの重要度からなる検索要求を入力する(ステップ210)。
【0043】
次に、検索管理部120により、検索式の生成(ステップ220)、検索の実行(ステップ230)、および関連データまたは停止命令の取得(ステップ240)を行う。ステップ220の検索式の生成においては、関連キーワード生成部121、検索式生成部122、および関連データベース管理部123によって、ユーザの検索意図を満足すると推定される検索式を生成する。ステップ230の検索式の実行においては、ステップ220で生成された検索式を使用し、データベース管理部125によって、データベース160に対して検索を実行する。ステップ240の関連データの取得においては、関連データ取得部124によって、データベース160の暫定的な検索結果の中のいくつかの検索データをサンプルとして取り出してユーザに提示し、ユーザによって関連データの指示が入力された場合には、関連データベース管理部123によってこの関連データを関連データベース150に格納する。そして、このように、関連データを取得した場合には、再びステップ220に戻ってこの関連データに基づいて検索式を生成する。
【0044】
また、ステップ240において、ユーザによって検索処理の停止命令が入力された場合には、検索管理部120により、ユーザに提示した検索データを最終的な検索結果として決定し、検索結果出力部130に送る。続いて、検索結果出力部130により、検索管理部120で得られた最終的な検索結果であるデータ群を、適当なフォーマットで出力する(ステップ250)。
【0045】
[1−2−2]データと背景知識の構成
図3は、データベース160に格納されている検索対象となるデータ(レコード300)の例と、背景知識格納部140に格納されている概念階層310や連想ネットワーク320などの知識の例を示す説明図である。このうち、検索対象となる1つのレコード(あるいは事例)300は、属性(あるいはフィールド)の値の集合で表現されている。個々の属性はデータベース160のレコードの1カラムに相当し、1つの事例は、データベース160の1レコードの形で表現されている。
【0046】
この例では、レコード300において、属性1に対して“果物”という属性値が設定され、属性2に対して“値段”という属性値が設定されている。また、背景知識格納部140には、属性1に対応する背景知識という形で属性1の概念階層310が存在しており、この概念階層310においては、“果物”という属性値の下位概念として、“りんご”、“苺”、“梨”が存在している。そしてまた、属性2に対応する背景知識という形で属性2の連想ネットワーク320が存在しており、この連想ネットワーク320においては、“値段”と“プライス”との関連値が「0.8」、“値段”と“定価”の関連値が「0.5」、というように、キーワード(属性値)間の関連度を記述した背景知識が埋め込まれている。この関連度は、「0」から「1」までの値を取り得る。属性1、2には、このように、対応する背景知識が存在しているが、全ての属性に対応する知識が必ず必要なわけではない。そして、システムは、存在する背景知識を用いて、試行錯誤的な類似情報検索を実行することになる。
【0047】
[1−2−3]検索要求の入力処理
図4は、検索要求入力部110による検索要求の入力処理(図2のステップ210)の一例を示す図であり、特に、表示部102上での入力支援表示例とそれに対する検索要求の入力例を示す説明図である。
【0048】
この図4に示すように、検索要求入力部110は、属性とその値である入力キーワードとその重要度を、検索要求として入力する。この例では、検索要求入力部110は、ユーザに対し、表示部102上で、「入力キーワードと重要度を入力して下さい」という入力支援を表示している。そして、この入力支援表示に対して、ユーザが、キーボード入力部101を操作して、「属性1」に対して、入力キーワードを“苺”とし、その重要度を「0.7」とするとともに、「属性2」に対して、入力キーワードを“値段”とし、その重要度を「0.8」として検索要求を入力しており、この入力内容が、表示部102上に表示されている。
【0049】
[1−2−4]検索式の生成処理
図5は、本実施例のシステムの中枢部である検索管理部120による検索式の生成処理(図2のステップ220)を詳細に示すフローチャートである。
【0050】
この検索式の生成処理においては、検索パラメータKとこの検索パラメータKの最高値と最低値の初期設定を行い(ステップ510)、この検索パラメータKによって生成された検索式の呼び出し率に応じて検索パラメータを調整した後、検索パラメータKが収束したか否かを判定する(ステップ520)。そして、このステップ520において、検索パラメータKが収束したものと判断した場合には、検索式生成処理を停止する。なお、ステップ510は、図2におけるステップ220の第1回目に実行される初期設定処理であり、第2回目以降は、それまでの設定を流用して実行する。
【0051】
また、ステップ510の初期設定処理の後、あるいは、ステップ520において検索パラメータの変化値が任意の定数α以上である場合には、この検索パラメータKを用いて、関連キーワード生成部121により関連キーワードを生成し(ステップ530)、検索式生成部122により検索式を生成する(ステップ540)。続いて、関連データベース管理部123により関連データベース150での呼び出し率を計算する(ステップ550)。計算された呼び出し率によって、検索パラメータKを二分探索に似た手続きで変更し(ステップ560、ステップ570、またはステップ580)、検索式を変更し続けるというものである。
【0052】
この検索パラメータKは、検索条件という制約の強弱を表している。すなわち、検索パラメータKが「1」に近付く程、検索条件は厳しくなり、データベース160における実際の検索件数も減少するという傾向を示す。また、検索パラメータKが「0」に近付く程、検索条件は緩やかになり、データベース160における実際の検索件数も増加するという傾向を示す。このように、検索パラメータKは、制約不足・過剰制約の状態より脱するためのパラメータという意味を持つ。
【0053】
以下には、図5を参照しながら、検索管理部120による検索式の生成処理について、より詳細に説明する。
【0054】
まず、検索管理部120は、検索パラメータKを初期値ω(この場合、ω=0.5)に設定し、検索パラメータの最低値と最高値をそれぞれ0と1に設定する(ステップ510)。続いて、検索管理部120は、この検索パラメータKを用いて、関連キーワード生成部121により、ユーザから入力された入力キーワードに関連するキーワードを関連キーワードとして生成させる(ステップ530)。この関連キーワードは、検索パラメータKをしきい値として、入力キーワードの近傍で探索され、生成される。さらに、検索管理部120は、検索式生成部122により、入力キーワードと関連キーワードをもとにブール論理式の形式を持つ検索式を生成させる(ステップ540)。
【0055】
次に、検索管理部120は、関連データベース管理部123により、ステップ540で生成された検索式によって、関連データベース150を検索し、その呼び出し率を計算する(ステップ550)。この呼び出し率は、関連データベース150のデータ件数(A)を検索式で検索されたデータ件数(B)で割ったものである。先にも述べたように、呼び出し率を限りなく最高の値である「1」に近付けることが望ましい。しかしながら、もう一つの情報検索の評価尺度である精度と呼び出し率とは、一般的にトレードオフの関係にあるため、2つの尺度を同時に1にすることはなかなか困難であることが知られている。そこで、図5においては、呼び出し率が「1」であるか否かを判断し(ステップ560)、呼び出し率が「1」でない場合(0≦K<1)には、過剰制約の状態であると推定されるため、検索パラメータKを増加させて過剰制約の状態から脱出させる(ステップ570)。また、呼び出し率が「1」である場合には、制約不足の状態であると推定されるため、検索パラメータKを減少させて制約不足の状態から脱出させる(ステップ580)。
【0056】
より具体的に、ステップ570においては、検索パラメータKを検索パラメータKの最低値に代入し、検索パラメータKと検索パラメータKの最高値との間の中間値を検索パラメータKに代入する。例えば、初期設定時において、検索パラメータKの初期値(ω)が「0.5」であるとすれば、検索パラメータKを「0.75」に変更し、検索パラメータKの最低値を「0.5」に変更することになる。したがって、検索パラメータKは、これ以降は「0.5」以下の値を取らないことになる。
【0057】
また、ステップ580においては、検索パラメータKと検索パラメータKの最低値との間の中間値を検索パラメータKに代入する。例えば、初期設定時において、検索パラメータKの初期値(ω)が「0.5」であるとすれば、検索パラメータKを「0.25」に変更することになる。
【0058】
そして、検索管理部120は、以上のように検索パラメータKを変更した後、この検索パラメータKが停止条件を満足するか否かを判定する(ステップ520)。すなわち、検索パラメータKの変化値であるところの、変更前の検索パラメータoldKと変更後の検索パラメータKとの差を、任意の定数αと比較することで、検索パラメータKが収束したか否かを判定する。このステップ520において、検索パラメータKの変化値が任意の定数αより小さい場合には、検索パラメータKで生成された検索式を最終的な検索式として決定し、検索式生成処理を停止する。これに対し、ステップ520において、検索パラメータKの変化値が任意の定数α以上である場合には、ステップ530に進むことになる。
【0059】
[1−2−5]検索データの提示と関連データの取得処理
図6は、関連データ取得部124による検索データの提示と関連データの取得処理(図2のステップ240)の一例を示す図であり、特に、表示部102上での検索データの表示例とそれに対するユーザからの関連データ指示の入力例を示す説明図である。
【0060】
この図6に示すように、関連データ取得部124は、検索結果のレコード(図3の300)の集合から適当数をサンプルとして取り出し、表示部102に出力する。この例では、関連データ取得部124は、ユーザに対し、表示部102上で、「以下のデータの中で関連するものを選択して下さい」という入力支援を表示し、さらに、この表示の下部に、4件のレコードを表示している。そして、この入力支援表示およびレコード表示に対して、ユーザが、キーボード入力部101を操作して、1番目と3番目のレコードが関連データであることを示す「1 3」という関連データ指示を入力しており、この関連データ指示が、表示部102上に表示されている。このような関連データ指示の入力は、ユーザの関連性の判断に基づいて行われており、ユーザの検索意図に関する情報とみなすことができる。
【0061】
そして、このようにユーザによって関連データ指示の入力がなされると、関連データ取得部124は、関連データベース管理部125を呼び出して、指示された関連データを、関連データベース150に格納する。図7は、関連データベース150に格納されているデータ(レコード300)の例を示す説明図である。この図7に示すレコード300は、データベース160に格納されているレコード300(図3)と同じ形で表現されている。なお、このように、関連データ取得部124によって関連データを取得した場合には、検索管理部120は、この関連データに応じて検索パラメータを変更し、再び検索式の生成処理(図2のステップ220)に戻る。
【0062】
ここで、仮に、ユーザが表示された全てのレコードが関連データであるものと判断し、満足している場合、あるいは、検索を終了させたい場合には、停止命令として「END」を入力することにより、図2の試行錯誤的な検索式生成のループ(ステップ220、ステップ230、およびステップ240)は終了し、ステップ250において、検索結果出力部130により、ステップ240で提示されたレコードを、最終的な検索結果として出力する。
【0063】
[1−2−6]関連キーワードの生成処理
[1−2−6−1]連想ネットワークの構成
図8は、背景知識格納部140に格納されている背景知識の表現の一つである連想ネットワーク(図3の320)の一例を示す説明図である。データベース160内に格納されているデータの属性に対して、ユーザにより、このような連想ネットワークが登録される。図3の例では、“値段”、“プライス”、“定価”などのキーワードが、関連度を付加したキーワード間のリンクとともに配置されていたが、この図8では、説明の簡略化の観点から、各キーワードは、“A”、“B”、“C”、“D”などの単一符号で示されている。この図8において、キーワード“A”には、キーワード“D”、“F”との間に、各々、「0.8」、「0.6」の関連度でリンクが張られており、さらに、キーワード“D”からは、キーワード“B”、“C”との間に、各々、「0.2」、「0.5」の関連度でリンクが張られている。この関連度は、キーワード間の関連性が高いほど高い値となっており、「0」から「1」までの値を取り得る。
【0064】
ここで、間接的にリンクを張られたキーワード間の関連度を、例えば、次のように定義することができる。
【数1】
この定義1において、Rel(i,j) は、任意のキーワード“I”と任意のキーワード“J”との間の関連度であり、Lwik は、任意のキーワード“I”と任意のキーワード“J”を通過した場合における、連想ネットワーク320上の一つのリンクの関連度を示す。つまり、このRel(i,j) は、キーワード“I”−“J”間を通過した場合の関連度の積の最大値を返す関数である。例えば、キーワード“A”とキーワード“B”の関連度を計算するには、次のリンク列が考えられる。
【数2】
“A”→“F”→“E”→“B”
“A”→“D”→“B”
“A”→“D”→“C”→“B”
このリンク列から、それぞれ次のようにして、リンクの関連度の積が計算される。
【数3】
0.6×0.8×0.9=0.432
0.8×0.2 =0.16
0.8×0.5×0.7=0.28
したがって、このようにして得られた3つの積「0.432」、「0.16」、「0.28」のうち、その最大値である「0.432」が結果として返される。すなわち、この値「0.432」が、前述した定義1の関連度計算に基づくキーワード“A”とキーワード“B”の関連度として得られる。
【0065】
また、間接的にリンクを張られたキーワード間の関連度を、次のように定義することもできる。
【数4】
この定義2において、Rel(i,j) は、任意のキーワード“I”と任意のキーワード“J”との間の関連度であり、Lwik は、任意のキーワード“I”と任意のキーワード“J”を通過した場合における、連想ネットワーク上の一つのリンクの関連度を示す。つまり、このRel(i,j) は、キーワード“I”−“J”間を通過した場合の関連度の積の和を返す関数である。例えば、キーワード“A”とキーワード“B”の関連度を計算するには、次のリンク列が考えられる。
【数5】
“A”→“F”→“E”→“B”
“A”→“D”→“B”
“A”→“D”→“C”→“B”
このリンク列から、それぞれ次のようにして、リンクの関連度の積が計算される。
【数6】
0.6×0.8×0.9=0.432
0.8×0.2 =0.16
0.8×0.5×0.7=0.28
したがって、このようにして得られた3つの積「0.432」、「0.16」、「0.28」の和である「0.872」が結果として返される。すなわち、この値「0.872」が、前述した定義2の関連度計算に基づくキーワード“A”とキーワード“B”の関連度として得られる。このように、通過するリンク列の関連度の積の和から、キーワード間の関連度を計算するようにした場合には、さらに、ユーザの意識あるキーワードから複数のリンクを張り巡らして、関連度を強め、伝搬を増幅させることによって、ユーザの検索意図により適合するような隠れたキーワードを生成することもできる。そして、このような方法を採用した場合には、類似性の観点や視点といった抽象的な検索要求をも取り扱うことができる。
【0066】
[1−2−6−2]定義1の関連度計算に基づく関連キーワード生成処理
図9は、関連キーワード生成部121による、定義1の関連度計算に基づく関連キーワード生成処理を示すフローチャートである。この関連キーワード生成処理は、ユーザから入力された入力キーワードから、しきい値である検索パラメータK以上の関連キーワードを生成する処理(図5のステップ530)であり、伝搬アルゴリズムに基づき、伝搬キューとキーワードリストを初期化し(ステップ910)、伝搬キューに初期伝搬データである入力キーワードをプッシュし(ステップ920)た後、一連の伝搬ループを繰り返す処理である。
【0067】
この伝搬ループは、伝搬キューからノードを取り出し(ステップ930)、このノードが空でなく(ステップ940)、その重要度が検索パラメータK以上である場合には(ステップ950)、このノードをキーワードリストに追加し(ステップ960)、このノードよりリンクするノード群の各ノードに対して、そのノードを伝搬キューにプッシュする(ステップ970)、という一連の操作であり、取り出されたノードが空になるまでこの伝搬ループを繰り返すことで、最終的に関連キーワードをキーワードリストとして得ることができる。なお、関連キーワード生成部121は、この処理を、背景知識を持つ属性毎に行い、背景知識を持つ属性毎に関連キーワードを生成する。
【0068】
以下には、図9を参照しながら、関連キーワード生成部121による、定義1の関連度計算に基づく関連キーワード生成処理について、より詳細に説明する。まず、関連キーワード生成部121は、伝搬キューとキーワードリストを初期化して、空キューと空リストにする(ステップ910)。初期化後に、伝搬キューに入力キーワードを示すIDであるノード番号と重要度をペアにした要素をプッシュする(ステップ920)。入力キーワードが複数存在する場合には、それらすべてに対応する要素がプッシュされることになる。
【0069】
次に、関連キーワード生成部121は、伝搬ループに入り、伝搬キューから要素Eを取り出し(ステップ930)、この要素Eが空であるか否かを判断する(ステップ940)。そして、要素Eが空である場合には、キーワードリストを答えとして返し、処理を終了する。この場合、要素Eは、キーワードを示すノードMに対応するものとする。要素Eが空でない場合には、その重要度が検索パラメータK以上であるか否かを調べる(ステップ950)。重要度が検索パラメータKの値よりも小さい場合には、伝搬キューからの取り出し処理(ステップ930)に戻り、そうでない場合には、その要素Eをキーワードリストに追加する(ステップ960)。ただし、キーワードリストに同じキーワードを持つ要素が存在する場合には、キーワードリストに存在する古い要素E1を削除する。
【0070】
この後、関連キーワード生成部121は、背景知識のうちのノードMに直接リンクするノード群の各ノードNに対して、要素<ノード番号、ノードNの重要度=要素Eの重要度×ノードMからノードNへのリンクの関連度>を、伝搬キューにプッシュし(ステップ970)、伝搬キューからの取り出し処理(ステップ930)に戻る。ただし、キーワードリストに同じノードの要素が存在し、その重要度の方が大きい場合には、新しい要素を伝搬キューにプッシュしない。
【0071】
以上の処理においては、入力キーワードの重みから関連キーワードの重みを計算しているが、その関連度を求める計算の本質は、定義1の関数Rel(i,j) にある。すなわち、入力キーワード“I”の重要度がWi で、入力キーワード以外のキーワード“J”との関連度がRel(i,j) であれば、キーワード“J”の重要度は、Wi ×Rel(i,j) で計算可能である。
【0072】
[1−2−6−3]定義2の関連度計算に基づく関連キーワード生成処理
図10は、関連キーワード生成部121による、定義2の関連度計算に基づく関連キーワード生成処理を示すフローチャートである。この関連キーワード生成処理は、ユーザから入力された入力キーワードから、しきい値である検索パラメータK以上の関連キーワードを生成する処理(図5のステップ530)であり、伝搬アルゴリズムに基づき、伝搬キューとキーワードリストを初期化し(ステップ1010)、伝搬キューに初期伝搬データである入力キーワードをプッシュし(ステップ1020)た後、一連の伝搬ループを繰り返す処理である。
【0073】
この伝搬ループは、伝搬キューからノードを取り出し(ステップ1030)、このノードが空でなく(ステップ1040)、その重要度が伝搬値ψよりも大きい場合には(ステップ1050)、このノードをキーワードリストに追加し(ステップ1060)、このノードよりリンクするノード群の各ノードに対して、そのノードを伝搬キューにプッシュする(ステップ1070)、という一連の操作であり、取り出されたノードが空になるまでこの伝搬ループを繰り返すことで、最終的に関連キーワードをキーワードリストとして得ることができる。なお、関連キーワード生成部121は、この処理を、背景知識を持つ属性毎に行い、背景知識を持つ属性毎に関連キーワードを生成する。
【0074】
以下には、図10を参照しながら、関連キーワード生成部121による、定義2の関連度計算に基づく関連キーワード生成処理について、より詳細に説明する。まず、関連キーワード生成部121は、伝搬キューとキーワードリストを初期化して、空キューと空リストにする(ステップ1010)。初期化後に、伝搬キューに入力キーワードを示すIDであるノード番号と重要度をペアにした要素をプッシュする(ステップ1020)。入力キーワードが複数存在する場合には、それらすべてに対応する要素がプッシュされることになる。
【0075】
次に、関連キーワード生成部121は、伝搬ループに入り、伝搬キューから要素Eを取り出し(ステップ1030)、この要素Eが空であるか否かを判断する(ステップ1040)。そして、要素Eが空である場合には、キーワードリストから重要度が検索パラメータKの値よりも小さい要素を削除し(ステップ1080)、それを答えとして返し、処理を終了する。この場合、要素Eは、キーワードを示すノードMに対応するものとする。要素Eが空でない場合には、その重要度が予め設定された伝搬値ψよりも大きいか否かを調べる(ステップ1050)。重要度が伝搬値ψ以下である場合には、伝搬キューからの取り出し処理(ステップ1030)に戻り、そうでない場合には、その要素Eをキーワードリストに追加する(ステップ1060)。ただし、キーワードリストに同じキーワードを持つ要素が存在する場合には、キーワードリストに新たな要素Eを追加せず、重要度だけを加算する。
【0076】
この後、関連キーワード生成部121は、背景知識のうちのノードMに直接リンクするノード群の各ノードNに対して、要素<ノード番号、ノードNの重要度=要素Eの重要度×ノードMからノードNへのリンクの関連度>を、伝搬キューにプッシュし(ステップ1070)、伝搬キューからの取り出し処理(ステップ1030)に戻る。
【0077】
以上の処理においては、入力キーワードの重みから関連キーワードの重みを計算しているが、その関連度を求める計算の本質は、定義2の関数Rel(i,j) にある。すなわち、入力キーワード“I”の重要度がWi で、入力キーワード以外のキーワード“J”との関連度がRel(i,j) であれば、キーワード“J”の重要度は、Wi ×Rel(i,j) で計算可能である。
【0078】
このように、関連キーワード生成部121は、定義1、定義2ともに、類似した伝搬アルゴリズムにより関連キーワードを計算する。以下には、キーワード間の関連度Rel(i,j) の計算式として、定義1を用いることにする。
【0079】
[1−2−6−4]連想ネットワークを用いた関連キーワードの第1生成例
図11は、関連キーワード生成部121による関連キーワードの第1生成例を示す説明図であり、特に、背景知識である連想ネットワークとして、図8の連想ネットワークを用いて関連キーワードを生成した場合の一例を示している。
【0080】
まず、入力キーワードが“A”でその重要度が「0.8」であり、検索パラメータKの値が「0.4」である場合を仮定する。この場合、伝搬キューに要素<A,0.8>をプッシュする(図9のステップ920)。ここで、Aはノード番号を示す。そして、伝搬ループでは、要素<A,0.8>を取り出す(図9のステップ930)。この要素の重要度は「0.8」であり、検索パラメータKの値「0.4」よりも大きいため(図9のステップ950)、この要素<A,0.8>をキーワードリストに追加する(図9のステップ960)。次に、入力キーワード“A”に直接リンクしているキーワード“D”、“F”に伝搬し、要素<D,0.64=0.8×0.8>、<F,0.48=0.8×0.6>を伝搬キューにプッシュする(図9のステップ970)。
【0081】
続いて、伝搬ループの開始点に戻り、伝搬キューから新たな要素<D,0.64>を取り出す(図9のステップ930)。この要素の重要度は「0.64」であり、検索パラメータKの値「0.4」よりも大きいため(図9のステップ950)、この要素<D,0.64>をキーワードリストに追加する(図9のステップ960)。さらにこの要素<D,0.64>からの伝搬により、キーワード“D”に直接リンクしているキーワード“B”、“C”に伝搬し、要素<B,0.13=0.64×0.2>、<C,0.32=0.64×0.5>を伝搬キューにプッシュする(図9のステップ970)。次に、伝搬キューから新たな要素<F,0.48>を取り出す(図9のステップ930)。この要素の重要度は「0.48」であり、検索パラメータKの値「0.4」よりも大きいため(図9のステップ950)、この要素<F,0.48>をキーワードリストに追加する(図9のステップ960)。さらにこの要素<F,0.48>からの伝搬により、キーワード“F”に直接リンクしているキーワード“E”、“G”に伝搬し、要素<E,0.38=0.48×0.8>、<G,0.38=0.48×0.8>を伝搬キューにプッシュする(図9のステップ970)。
【0082】
再び、伝搬ループの開始点に戻り、伝搬キューから新たな要素<B,0.13>を取り出すが、この要素の重要度は「0.13」であり、検索パラメータKの値「0.4」よりも小さいため(図9のステップ950)、伝搬ループの開始点に戻る。また、残りの要素<C,0.32>、<E,0.38>、<G,0.38>についても、同様に、その重要度が検索パラメータKの値「0.4」よりも小さいため(図9のステップ950)、伝搬ループの開始点に戻ることになる。
以上のような伝搬ループの一連の処理の結果として、キーワードリストには、次の3つのキーワードのみが残り、それ以外のキーワードは却下されることになる。
【数7】
( <A,0.8>、
<D,0.64>、
<F,0.48> )
このキーワードリストの意味は、検索パラメータKの値を「0.4」とし、入力キーワード“A”の重要度を「0.8」とした場合に、次のような関連キーワードが得られることを示している。
【数8】
(“D”、“F”)
【0083】
[1−2−6−5]連想ネットワークを用いた関連キーワードの第2生成例
図12は、関連キーワード生成部121による関連キーワードの第2生成例を示す説明図であり、前記第1生成例と同様に、背景知識である連想ネットワークとして、図8の連想ネットワークを用いて関連キーワードを生成した場合の別の一例を示している。まず、入力キーワードが“A”でその重要度が「0.8」であり、検索パラメータKの値が「0.35」である場合を仮定する。この場合も、前記第1生成例と同様に、伝搬ループを繰り返し、結果として、キーワードリストには、次の5つのキーワードが残り、その他のキーワードは却下されることになる。
【数9】
( <A,0.8>、
<D,0.64>、
<F,0.48>、
<E,0.38>、
<G,0.38> )
このキーワードリストの意味は、検索パラメータKの値を「0.35」とし、入力キーワード“A”の重要度を「0.8」とした場合に、次のような関連キーワードが得られることを示している。
【数10】
(“D”、“F”、“E”、“G”)
【0084】
[1−2−6−6]検索パラメータの減少と関連キーワード集合の関係
以上のように、検索パラメータKの値を「0.4」(第1生成例)から「0.35」(第2生成例)へと減少させると、減少後の関連キーワード集合S1は、減少前の関連キーワード集合S2を部分集合として含みながら増大する。この関係は、次のように表現される。
【数11】
【0085】
[1−2−6−7]概念階層の構成
図13は、背景知識格納部140に格納されている背景知識の表現の一つである概念階層(図3の310)の一例を示す説明図である。図3の例では、“果物”の下位概念として、“りんご”、“苺”、“梨”などのキーワードが配置されていたが、この図13では、説明の簡略化の観点から、各キーワードは、“A”、“B”、“C”、“D”などの単一符号で示されている。この図13においては、キーワード“A”の上位概念としてキーワード“E”が存在し、キーワード“A”の下位概念としてキーワード“B”、“C”、“D”が存在することを示している。図8の連想ネットワークでは、キーワード間のリンクにそのキーワード間の関連度が記述されていたが、この図13の概念階層においては、直接リンクされたキーワード間の関連度が、すべて定数1/2に設定されている。
【0086】
そして、このような図13の概念階層を背景知識として持つ場合のキーワード間の関連度は、次のように定義することができる。
【数12】
この定義3において、Rel(i,j) は、任意のキーワード“I”と任意のキーワード“J”との間の関連度であり、Lwiは、任意のキーワード“I”と任意のキーワード“J”の共通の上位概念のうちの最も下位概念をキーワード“G”とした場合における概念階層上の一つのリンクの関連度を示す。つまり、このRel(i,j) は、キーワード“I”−“J”間を通過した場合の関連度の積を返す関数である。例えば、キーワード“B”、“G”の関連度を計算するには、その共通の上位概念として、キーワード“E”、“K”が存在するが、その中で最も下位の概念は、キーワード“E”であり、この場合のキーワード“B”−“G”間の通過ルート(リンク列)は、次のようになる。
【数13】
“B”→“A”→“E”
このリンク列から、次のようにして、リンクの関連度の積が計算される。
【数14】
1/2×1/2=1/4
【0087】
[1−2−6−8]概念階層を用いた関連キーワードの第3生成例
図14は、関連キーワード生成部121による関連キーワードの第3生成例を示す説明図であり、特に、背景知識である概念階層として、図13の概念階層を用いて関連キーワードを生成した場合の一例を示している。すなわち、入力キーワードが“A”でその重要度が「0.8」であり、検索パラメータKの値が「0.35」である場合には、図13の概念階層と前述の定義3から、次のような関連キーワードが得られる。
【数15】
( “B”、“C”、“D”、“E”、“F”、“G”、“H”、“I”、“J” )
【0088】
[1−2−7]検索式の生成処理
図15は、検索式生成部122による検索式生成処理を示すフローチャートである。この検索式生成処理は、ユーザから入力された入力キーワードと、関連キーワード生成部130によりこの入力キーワードに関連して生成された関連キーワードから検索式を生成する処理(図5のステップ540)である。すなわち、属性毎に入力キーワードと関連キーワードの等号(=)単純条件式のOR結合を生成し(ステップ1510)、属性毎の結果をAND結合する(ステップ1520)、というものである。
【0089】
図16は、検索式生成部122による検索式の第1生成例を示す説明図である。すなわち、図16の上部の表は、検索要求入力処理によって得られた入力キーワード“苺”、“値段”と、この入力キーワードに対して、関連キーワード生成処理によって得られた関連キーワード“梨”、“りんご”、“定価”、“プライス”を、属性毎に示すとともに、この場合の検索パラメータK、すなわち、関連キーワードの重要度が「0.35」以上であることを示している。この場合、検索式生成部122では、このようにして得られた入力キーワード“苺”、“値段”と、関連キーワード“梨”、“りんご”、“定価”、“プライス”を、属性毎にOR結合し、そのOR結合結果をAND結合して、図16の下部に示すような検索式を生成する。
【0090】
図17は、検索式生成部122による検索式の第2生成例を示す説明図である。すなわち、図17の上部の表は、検索要求入力処理によって得られた入力キーワード“苺”、“値段”と、この入力キーワードに対して、関連キーワード生成処理によって得られた関連キーワード“定価”を、属性毎に示すとともに、この場合の検索パラメータK、すなわち、関連キーワードの重要度が「0.50」以上であることを示している。この場合、検索式生成部122では、このようにして得られた入力キーワード“苺”、“値段”と、関連キーワード“定価”を、属性毎にOR結合し、そのOR結合結果をAND結合して、図17の下部に示すような検索式を生成する。
【0091】
[1−2−8]検索結果の出力処理
図18は、検索結果出力部130による検索結果の出力処理(図2のステップ250)の一例を示す図であり、特に、表示部102上での検索要求の出力内容表示例を示す説明図である。この図18に示すように、検索結果出力部130は、まず、「以下のデータが検索されました。」という検索終了報告と、「検索件数は25件です。」という検索件数とを表示する。次に、実際に検索された情報をレコード単位で表示する。
【0092】
[1−2−9]マルチウィンドウモード
図19〜図21は、表示部102上における各処理の表示をマルチウィンドウモードで表現した場合の一例を示している。前述した検索要求の入力処理、検索データの提示と関連データの取得処理、および検索結果の出力処理に関して、図4、図6、および図18においては、シングルウィンドウモードで表示する例をそれぞれ示しているが、図19〜図21は、これらの処理の表示を、それぞれマルチウィンドウモードで表現した場合の一例を示している。すなわち、図19は、検索要求入力部110による入力支援表示例とそれに対する検索要求の入力例であり、図20は、関連データ取得部124による検索データの表示例とそれに対する関連データ指示の入力例であり、図21は、検索結果出力部130による検索結果の出力例である。
【0093】
[2]第2実施例
[2−1]構成
図22は、本発明による類似情報検索装置の一実施例のシステムを示す構成図である。システムの中心に構成全体を制御する制御部2200があり、この制御部2200は、汎用マイクロコンピュータあるいは専用LSIなどで構成されている。そして、この制御部2200には、入出力や記憶を受け持つ周辺装置として、キーボード入力部2201、表示部2202、印刷部2203、外部記憶部2204などが接続されている。また、図示していないが、制御部2200には、入出力や検索を制御する下位の制御部が設けられており、これらの下位の制御部は、ROMなどのファームウェアやソフトウェアなどによって構成されている。
【0094】
そして、図22のシステムにおいては、本発明による類似情報検索機能を実現する手段として、まず、検索要求入力部2210、検索管理部2220、および検索結果出力部2230が設けられている。これらは、制御部2200によって直接的に制御される機能部である。
【0095】
また、検索管理部2220の下位の機能部として、関連キーワード生成部2221、検索式生成部2222、検索件数推定部2223、およびデータベース管理部2224が設けられている。
【0096】
さらに、図中2240は、概念階層や連想ネットワークなどの背景知識を格納した背景知識格納部であり、この背景知識格納部2240は、ROMなどのファームウェア、あるいはハードディスク装置によって構成されている。また、図中2250は、検索対象となるデータを格納したデータベースであり、このデータベース2250は、ハードディスク装置によって構成されている。
【0097】
以上のような機能部2210,2220,2230,2221〜2224のうち、検索要求入力部2210、検索管理部2220、および検索件数推定部2223は、それぞれ、次のように構成されている。
【0098】
まず、検索要求入力部2210は、ユーザのキーボード入力部2201の操作に基づき、制御部2200の制御の下で、ユーザによって設定された入力キーワードと入力キーワードの重要度からなる検索要求と検索結果の条件(検索件数の条件:検索最大数と検索最小数)とを入力する。
【0099】
また、検索管理部2220は、検索パラメータを設定するとともに、関連キーワード生成部2221、検索式生成部2222、および検索件数推定部2223を使用して、試行錯誤的な検索を行う。すなわち、検索管理部2220は、検索パラメータを設定するとともに、関連キーワード生成部2221によって関連キーワードを生成させ、検索式生成部2222および検索件数推定部2223によって、ユーザから提示された検索件数が得られるような検索式を生成し、データベース管理部2224によって、検索を実行させる、という一連の処理を、試行錯誤的に繰り返す。検索件数推定部2223は、得られた検索式からこの検索式に対応する検索件数を推定する。データベース管理部2224は、これらの検索式生成部2222および検索件数推定部2223を用いて、ユーザによって入力された検索結果の条件、すなわち、検索最大数と検索最小数の間の検索件数が得られるような検索式を選別する。そして、データベース管理部2224は、このようにして選別された検索式のみを用いて、データベース2250内のデータの検索を実行する。
【0100】
なお、他の各機能部、すなわち、検索結果出力部2230、関連キーワード生成部2221、および検索式生成部2222は、前述した実施例1の対応する各機能部130,121,122と同様に構成されている。
【0101】
[2−2]作用
[2−2−1]試行錯誤的な類似情報検索処理の概略
図23は、本実施例のシステムによる試行錯誤的な類似情報検索処理の概略を示すフローチャートである。この図23に示すように、試行錯誤的な類似情報検索処理に当たっては、まず、検索要求入力部2210により検索要求と検索件数の条件を入力する(ステップ2310)。次に、検索管理部2220により、二次記憶アクセスを伴わない試行錯誤による検索式の生成を行う(ステップ2320)。すなわち、前処理としての検索式の生成を探索的に行うことにより、できるだけ無駄な実検索を避けて検索速度の大幅な低下を防止する。続いて、検索管理部2220により、ステップ2320で生成された検索式を初期解として、実際に二次記憶のアクセスを伴う試行錯誤による検索式の生成と実行を行う(ステップ2330)。最終的に、検索結果出力部2230により、検索件数の条件を満足した段階で検索結果を出力する(ステップ2340)。
【0102】
[2−2−2]データと背景知識の構成
本実施例のデータベース2250および背景知識格納部2240には、前述した実施例1と同様に、図3に示すようなレコード300と、概念階層310や連想ネットワーク320などの知識がそれぞれ格納されている。
【0103】
[2−2−3]検索要求の入力処理
図24は、検索要求入力部2210による検索要求の入力処理(図23のステップ2310)の一例を示す図であり、特に、表示部2202上での検索要求の入力内容表示例を示す説明図である。この図24に示すように、検索要求入力部2210は、属性とその値(入力キーワード)とその重要度からなる検索要求と、検索最大数と検索最小数の値からなる検索件数の条件とを入力する。この例では、検索要求入力部2210は、ユーザに対し、表示部2202上で、「入力キーワードと重要度を入力して下さい」という入力支援を表示している。そして、この入力支援表示に対して、ユーザが、キーボード入力部2201を操作して、「属性1」に対して、入力キーワードを“苺”とし、その重要度を「0.7」とするとともに、「属性2」に対して、入力キーワードを“値段”とし、その重要度を「0.8」として検索要求を入力しており、この入力内容が、表示部2202上に表示されている。
【0104】
また、検索要求入力部2210は、ユーザに対し、表示部2202上で、「検索最大数と検索最小数を設定して下さい(デフォルトは 40,10です)」という入力支援を表示している。そして、この入力支援表示に対して、ユーザが、キーボード入力部2201を操作して、検索最大数と検索最小数の値をそれぞれ「30」、「10」として入力しており、この入力内容が、表示部2202上に表示されている。この場合、検索最大数と検索最小数の値がユーザによって入力されない場合には、予め設定したデフォルト値である「40」、「10」が用いられることになる。そして、以上のような表示部2202上の表示内容が、ユーザによって確認されると、検索要求入力部2210は、入力内容を検索要求および検索件数の条件として入力する。
【0105】
[2−2−4]二次記憶アクセスを伴わない検索式の生成処理
図25は、本実施例のシステムの中枢部である検索管理部2220による、二次記憶アクセスを伴わない主記憶上での検索式の生成処理(図23のステップ2320)を詳細に示すフローチャートである。この二次記憶アクセスを伴わない検索式の生成処理は、検索パラメータの初期設定を行い(ステップ2510)、検索パラメータの最高値と最低値の差が停止条件を満たさない場合には(ステップ2520)、背景知識を使用し、検索パラメータKの値をしきい値として、入力された入力キーワードに関連する関連キーワードを生成し(ステップ2530)、入力キーワードと関連キーワードより検索式を生成し(ステップ2540)、検索式の検索件数を実際のデータベース検索を行わずに推定し(ステップ2550)、推定された検索件数が、入力された検索最小数と検索最大数の間に入らない場合には(ステップ2560またはステップ2570)、検索パラメータKを二分探索に似た手続きで変更し(ステップ2580またはステップ2590)、検索式を変更し続けるというものである。
【0106】
この検索パラメータKは、検索条件という制約の強弱を表している。すなわち、まず、検索パラメータKが「1」に近付く程、検索条件は厳しくなり、データベース2250における実際の検索件数も減少するという傾向を示す。また、検索パラメータKが「0」に近付く程、検索条件は緩やかになり、データベースにおける実際の検索件数も増加するという傾向を示す。このように、検索パラメータKは、制約不足・過剰制約の状態より脱するためのパラメータという意味を持つ。
【0107】
以下には、図25を参照しながら、検索管理部2220による二次記憶アクセスを伴わない主記憶上での検索式の生成処理について、より詳細に説明する。
【0108】
まず、検索管理部2220は、検索パラメータKを初期値ω(この場合、ω=0.5)に設定し、検索パラメータの最低値と最高値をそれぞれ「0」と「1」に設定する(ステップ2510)。続いて、検索管理部2220は、検索パラメータの最高値と最低値の差が起動時に設定された定数ε(この場合、ε=0.01)よりも小さいという停止条件を満足するか否かを判断する(ステップ2520)。
【0109】
そして、このステップ2520において、停止条件を満足する場合には、この二次記憶のアクセスを伴わない検索式の生成処理の試行錯誤を終了する。これに対して、ステップ2520において、停止条件を満足しない場合、したがって、検索パラメータの最高値と最低値の差が定数ε以上である場合には、検索管理部2220は、続くステップ2530に進み、この二次記憶のアクセスを伴わない検索式の生成処理の試行錯誤を続行する。例えば、初期設定時において、検索パラメータの最高値が「1」、最低値が「0」である場合には、これらの値の差は1であり、定数ε=0.01より大きいため、ステップ2530に進むことになる。
【0110】
このステップ2530において、検索管理部2220は、関連キーワード生成部2221により、ユーザから入力された入力キーワードに関連するキーワードを関連キーワードとして生成させる。この関連キーワードは、検索パラメータをしきい値として、入力キーワードの近傍で探索され、生成される。さらに、検索管理部2220は、検索式生成部2222により、入力キーワードと関連キーワードをもとにブール論理式の形式を持つ検索式を生成させる(ステップ2540)。
【0111】
続いて、検索管理部2220は、検索件数推定部2223により、生成された検索式の検索件数を推定させる(ステップ2550)。この検索件数の推定は、例えば、以下のいずれかの方法a〜cで行われる。
a)統計情報を利用する。すなわち、関係データベースであれば、関係の組数、ある属性の異なる組の数、関係を格納しているページ数などを用いて、属性値の独立分散の仮定の下で計算する。
b)検索結果の事例を利用する。すなわち、検索式あるいは検索時期が類似している検索結果の事例を用いて、その検索件数より類推する。
c)検索件数推定関数を設定する。
【0112】
なお、以上のような方法のうち、方法aは、商用のRDBMS(relational data base management system)において一般的に採用されている方法であり、表ごとのタプル長とタプル数をある間隔でサンプリングしている。
【0113】
次に、検索管理部2220は、2つの条件分岐(ステップ2560とステップ2570)により、この推定検索件数が、検索最小数より大きく検索最大数より小さい範囲内にあるか否かを判断する。そして、ステップ2560において、推定検索件数が、検索最小数より小さい場合には、検索パラメータKの値を検索パラメータの最高値に代入し、検索パラメータの最低値と検索パラメータKとの間の中間値を検索パラメータKに代入する(ステップ2580)。例えば、初期設定時において、検索パラメータKが初期値「0.5」であり、検索パラメータの最低値と最高値がそれぞれ「0」と「1」である場合には、検索パラメータの最高値を「1」から「0.5」に変更し、検索パラメータKを0.5から0.25に変更することになる。
【0114】
逆に、ステップ2570において、推定検索件数が、検索最大数より大きい場合には、検索パラメータKの値を検索パラメータの最低値に代入し、検索パラメータの最高値と検索パラメータKとの中間値を検索パラメータKに代入する(ステップ2590)。例えば、初期設定時において、検索パラメータKが初期値{0.5」であり、検索パラメータの最低値と最高値がそれぞれ「0」と「1」である場合には、検索パラメータの最低値を「0」から「0.5」に変更し、検索パラメータKを「0.75」に変更することになる。
【0115】
したがって、検索管理部2220は、このように、ステップ2560またはステップ2570において、推定検索件数が、検索最大数と検索最小数からなる検索件数の条件の範囲内に収まっていると判断した場合に、あるいは、ステップ2520において、前述の停止条件を満足すると判断した場合に限り、この二次記憶のアクセスを伴わない検索式の生成処理を終了することになる。
【0116】
[2−2−5]二次記憶アクセスを伴う検索式の生成・実行処理
図26は、本実施例のシステムの中枢部である検索管理部2220による、二次記憶アクセスを伴う主記憶上での検索式の生成・実行処理(図23のステップ2330)を詳細に示すフローチャートである。この二次記憶アクセスを伴う検索式の生成・実行処理は、前述した二次記憶アクセスを伴わない検索式の生成処理において設定された検索パラメータとその最低値および最高値を使用し、検索パラメータの最高値と最低値の差が停止条件を満たさない場合には(ステップ2610)、背景知識を使用し、検索パラメータKの値をしきい値として、入力された入力キーワードに関連する関連キーワードを生成し(ステップ2620)、入力キーワードと関連キーワードより検索式を生成し(ステップ2630)、実際のデータベース検索を行って検索式の検索件数を求め(ステップ2640)、得られた検索件数が、入力された検索最小数と検索最大数の間に入らない場合には(ステップ2650またはステップ2660)、検索パラメータKを二分探索に似た手続きで変更し(ステップ2670またはステップ2680)、検索式を変更し続けるというものである。
【0117】
この二次記憶アクセスを伴う検索式の生成・実行処理は、前述した二次記憶アクセスを伴わない検索式の生成処理と、次の点で異なる。すなわち、1)二次記憶アクセスを伴わない検索式の生成処理において設定された検索パラメータKや最低値、最高値を初期化せずにそのまま使用する点、2)実際のデータベース検索を行う点、3)検索パラメータKが停止条件を満たす場合でも、そのまま処理を終了せずに、検索件数が検索最小数より小さいか否かを判断し(ステップ2690)、検索件数が検索最小数より小さい場合には、検索パラメータの最低値を任意の定数αだけ減少させ(ステップ2700)、検索件数が検索最小数より大きい場合には、検索パラメータの最高値を任意の定数αだけ増加させる(ステップ2710)、という点である。
【0118】
以下には、図26を参照しながら、検索管理部2220による二次記憶アクセスを伴う主記憶上での検索式の生成・実行処理についてより詳細に説明する。まず、検索管理部2220は、検索パラメータの最高値と最低値の差が起動時に設定された定数ε(この場合、ε=0.01)よりも小さいという停止条件を満足するか否かを判断する(ステップ2610)。
【0119】
このステップ2610において、停止条件を満足する場合には、検索管理部2220は、実際のデータベース検索から得られた検索件数が検索最小数より小さいか否かを判断する(ステップ2690)。このステップ2690において、検索件数が検索最小数より小さい場合には、検索パラメータの最低値を任意の定数αだけ減少させ(ステップ2700)、検索件数が検索最小数以上である場合には、検索パラメータの最高値を任意の定数αだけ増加させる(ステップ2710)。この場合、任意の定数αは、α>εとなるように起動時に設定された値である。また、このように、ステップ2700またはステップ2710において検索パラメータの最低値または最高値の変更を行った後は、再びステップ2610に戻る。
【0120】
そして、以上のような、ステップ2690、ステップ2700、およびステップ2710からなる一連の処理を行うことにより、実際のデータベース検索の結果を検索パラメータに反映させることができる。すなわち、実際のデータベース検索の結果に基づいて、検索パラメータの最高値または最低値の値を増減させることにより、制約不足・過剰制約の状態を脱することができる。
【0121】
一方、ステップ2610において、停止条件を満足しない場合には、検索管理部2220は、関連キーワード生成部2221により、ユーザから入力された入力キーワードに関連するキーワードを関連キーワードとして生成させる(ステップ2620)。この関連キーワードは、検索パラメータをしきい値として、入力キーワードの近傍で探索され、生成される。さらに、検索管理部2220は、検索式生成部2222により、入力キーワードと関連キーワードをもとにブール論理式の形式を持つ検索式を生成させる(ステップ2630)。
【0122】
続いて、検索管理部2220は、データベース管理部2224により、生成された検索式に基づくデータベース検索を行わせる(ステップ2640)。次に、検索管理部2220は、2つの条件分岐(ステップ2650とステップ2660)により、この実際のデータベース検索によって得られた検索件数が、検索最小数より大きく検索最大数より小さい範囲内にあるか否かを判断する。そして、ステップ2650において、検索件数が、検索最小数より小さい場合には、検索パラメータKの値を検索パラメータの最高値に代入し、検索パラメータの最低値と検索パラメータKとの間の中間値を検索パラメータKに代入する(ステップ2670)。逆に、ステップ2660において、検索件数が、検索最大数より大きい場合には、検索パラメータKの値を検索パラメータの最低値に代入し、検索パラメータの最高値と検索パラメータKとの中間値を検索パラメータKに代入する(ステップ2680)。
【0123】
したがって、検索管理部2220は、このように、ステップ2650またはステップ2660において、検索件数が、検索最大数と検索最小数からなる検索件数の条件の範囲内に収まっていると判断した場合に限り、この二次記憶のアクセスを伴う検索式の生成・実行処理を終了することになる。ただし、実際には、検索最大数と検索最小数の間に実際の検索件数が収まらない場合があるため、一般的に、カウンタを設けて、検索管理部2220の処理ループの回数を制限する必要がある。
【0124】
[2−2−6]関連キーワードの生成処理
本実施例における関連キーワードの生成処理は、関連キーワード生成部2221によって、図7に示すような連想ネットワーク320や概念階層310を用いて、前述した実施例1と同様の手順により行うことができる。
【0125】
[2−2−7]検索式の生成処理
本実施例における検索式の生成処理は、検索式生成部2222によって、ユーザから入力された入力キーワードと、関連キーワード生成部2221で得られた関連キーワードを用いて、前述した実施例1と同様の手順により行うことができる。
【0126】
[2−2−8]検索結果の出力処理
図27は、検索結果出力部2230による検索結果の出力処理(図23のステップ2340)の一例を示す図であり、特に、表示部2202上での検索結果の出力内容表示例を示す説明図である。この図27に示すように、検索結果出力部2230は、まず、「以下のデータが検索されました。」という検索終了報告と、」検索件数は25件です。」という検索件数とを表示する。すなわち、図24の検索要求の入力処理において検索最大数と検索最小数の値をそれぞれ「30」、「10」として入力したのに対し、この検索件数の表示は、実際の検索件数が25件であったことを示している。次に実際に検索された情報をレコード単位で表示する。
【0127】
[3]他の実施例
なお、本発明は、前記実施例に限定されるものではなく、他にも多種多様の変形例を実施可能であり、それらはすべて本発明の請求の範囲に含まれる。さらに、本発明の装置に使用する各手段の具体的な構成は適宜選択可能であり、各手段による各種の処理の具体的な内容についても適宜選択可能である。
【0128】
例えば、前述した実施例1,2では、背景知識として、概念階層310と連想ネットワーク320を示したが、背景知識の表現形式はこれらに限定されるものではなく、キーワード間のマッチ度や距離を表すマトリックス(類似行列)や関数などの、キーワード間の関連度を表現する種類の知識である限り、全く同様に適用できる。
【0129】
また、前述した実施例1,2においては、属性−属性値のレコードが格納されたデータベースに対する属性毎のキーワードでの検索について説明したが、本発明の類似情報検索装置は、各種の形式のデータを格納したデータベースを検索するための装置として同様に適用可能である。例えば、文書が格納された文書ベースに対しても、検索式生成部122,2222で生成するAND結合の検索式をOR結合の検索式とし、検索管理部120,2220での検索パラメータの変更対象に入力キーワードを含めることにより、同様に適用可能である。
【0130】
一方、前述した実施例1において、関連性判断情報取得部である関連データ取得部124は、ユーザの検索意図として、関連データのみを取得し、関連データベース150に格納している。しかしながら、この実施例の変形例として、非関連データのみを取得することも可能であり、さらに、関連データと非関連データの両方を取得することも可能である。特に、関連データと非関連データの両方を取得して関連・非関連データベースに格納すれば、呼び出し率と精度の尺度の両面から推定することが可能となり、検索意図を反映した検索式をより高速に生成することが可能となる。
【0131】
この実施例1においてはまた、関連データベース管理部123および関連データベース150を、データベース管理部125およびデータベース160と独立した構成要素とし、関連データベース150にはデータベース160の一部のレコード300を格納している。しかしながら、レコード300の第1キー(プライマリーキー)のみを関連データまたは非関連データの指示情報として関連データベース150内に格納(例えば、ファイルとして構築)するだけで、データベース160内のレコード300を同定することができる。したがって、データベース管理システムである関連データベース管理部123およびデータベース管理部125を二重に持つ必要はない。
【0132】
さらに、前述した実施例2においては、検索結果の条件として、入力キーワードの入力時に、検索要求入力部2210において、ユーザによって設定された検索最大数と検索最小数を入力し、この条件に基づいて、検索管理部2220で検索の成功、失敗を決定している。しかしながら、本発明において、このような検索結果の条件は、必ずしも入力キーワードの入力時に入力する必要はなく、暫定的な検索結果に対してユーザから対話的に成功(検索結果の条件を満足)、失敗(検索結果の条件を満足しない)の信号を得ることで、検索の成功、失敗を決定することも可能である。
【0133】
【発明の効果】
以上説明したように、請求項1〜8,16〜23に記載の発明は、ユーザによって設定された入力キーワードと背景知識に基づく関連キーワードを用いて検索式を生成し、この検索式に基づいて検索を実行し、この検索の実行によって得られた暫定的な検索結果がユーザの検索意図に沿わない場合には、ユーザの検索意図の情報である関連性判断情報を取得し、この情報に基づいて検索パラメータを変更し、新たな検索式を生成し、この検索式に基づいて再検索を実行するものである。したがって、検索速度を大幅に低下させることなく、ユーザとの対話によってユーザの検索意図を容易かつ正確に反映させながら、データの単純な背景知識を容易かつ正確に反映させて、試行錯誤的に有効な類似検索を効率よく実行することができる。
【0134】
また、請求項9〜15,24〜30に記載の発明は、ユーザによって設定された入力キーワードと背景知識に基づく関連キーワードを用いて検索式を生成し、この検索式に基づいて検索を実行し、ユーザによって設定された検索結果の条件を満足する検索結果が得られない場合には、検索結果の条件に基づいて検索パラメータを変更し、新たな検索式を生成し、この検索式に基づいて再検索を実行するものである。したがって、検索速度を大幅に低下させることなく、ユーザによって設定された検索結果の条件を使用してユーザの検索意図を容易かつ正確に反映させながら、データの単純な背景知識を正確に反映させて、試行錯誤的に有効な類似検索を効率よく実行することができる。
【図面の簡単な説明】
【図1】本発明による類似情報検索装置のシステム構成の第1実施例を示すブロック図。
【図2】図1のシステムによる試行錯誤的な類似情報検索処理の概略を示すフローチャート。
【図3】図1のデータベース160に格納されているデータの例と、背景知識格納部140に格納されている知識の例を示す説明図。
【図4】図1の検索要求入力部110による入力支援表示例とそれに対する検索要求の入力例を示す説明図。
【図5】図1の検索管理部120による検索式の生成処理を示すフローチャート。
【図6】図1の関連データ取得部124による検索データの表示例とそれに対する関連データ指示の入力例を示す説明図。
【図7】図1の関連データベース150内に格納されているデータの例を示す説明図。
【図8】図1の背景知識格納部140に格納されている連想ネットワークの一例を示す説明図。
【図9】図1の関連キーワード生成部121による、定義1の関連度計算に基づく関連キーワードの生成処理を示すフローチャート。
【図10】図1の関連キーワード生成部121による、定義2の関連度計算に基づく関連キーワードの生成処理を示すフローチャート。
【図11】図1の関連キーワード生成部121による関連キーワードの第1生成例を示す説明図。
【図12】図1の関連キーワード生成部121による関連キーワードの第2生成例を示す説明図。
【図13】図1の背景知識格納部140に格納されている概念階層の一例を示す説明図。
【図14】図1の関連キーワード生成部121による関連キーワードの第3生成例を示す説明図。
【図15】図1の検索式生成部122による検索式の生成処理を示すフローチャート。
【図16】図1の検索式生成部122による検索式の第1生成例を示す説明図。
【図17】図1の検索式生成部122による検索式の第2生成例を示す説明図。
【図18】図1の検索結果出力部130による検索結果の出力例を示す説明図。
【図19】図1の検索要求入力部110による入力支援表示例とそれに対する検索要求の入力例を、マルチウィンドウモードで示す説明図。
【図20】図1の関連データ取得部124による検索データの表示例とそれに対する関連データ指示の入力例を、マルチウィンドウモードで示す説明図。
【図21】図1の検索結果出力部130による検索結果の出力例を、マルチウィンドウモードで示す説明図。
【図22】本発明による類似情報検索装置のシステム構成の第2実施例を示すブロック図。
【図23】図22のシステムによる試行錯誤的な類似情報検索処理の概略を示すフローチャート。
【図24】図22の検索要求入力部2210による検索要求の入力例を示す説明図。
【図25】図22の検索管理部2220による、二次記憶アクセスを伴わない検索式の生成処理を示すフローチャート。
【図26】図22の検索管理部2220による、二次記憶アクセスを伴う検索式の生成・実行処理を示すフローチャート。
【図27】図22の検索結果出力部2230による検索結果の出力例を示す説明図。
【符号の説明】
100,2200…制御部
101,2201…キーボード入力部
102,2202…表示部
103,2203…印刷部
104,2204…外部記憶部
110,2210…検索要求入力部
120,2220…検索管理部
121,2221…関連キーワード生成部
122,2222…検索式生成部
123…関連データベース管理部
124…関連データ取得部
125,2224…データベース管理部
130,2230…検索結果出力部
140,2240…背景知識格納部
150…関連データベース
160,2250…データベース
2223…検索件数推定部
Claims (30)
- ユーザからの検索要求に応じて、この検索要求に含まれる検索条件を満足するデータの試行錯誤的な類似検索をデータベースに対して実行する類似情報検索装置において、
前記データベースに対して検索を実行するデータベース管理手段と、
ユーザの操作に基づき、入力キーワードと入力キーワードの重要度を含む検索要求を入力する検索要求入力手段と、
データベースに登録されているキーワード間の関連度を記述した背景知識と、検索条件の制約の強弱を設定するためにあらかじめ検索装置に与えられた検索パラメータを用いて、前記検索要求入力手段によって得られた入力キーワードに関連する関連キーワードを生成する関連キーワード生成手段と、
前記検索要求入力手段によって得られた入力キーワードと前記関連キーワード生成手段によって得られた関連キーワードを用いて検索式を生成する検索式生成手段と、
前記関連キーワード生成手段によって使用される検索パラメータを設定するとともに、前記検索式生成手段によって得られた検索式に基づいて、前記データベース管理手段によって検索を実行させる検索管理手段と、
前記データベース管理手段による検索の実行から得られた最終的な検索結果を出力する検索結果出力手段と、
前記データベース管理手段による検索の実行から得られた暫定的な検索結果の一部を検索データとしてユーザに提示するとともに、ユーザから検索処理の停止命令またはデータの関連性判断情報を取得する関連性判断情報取得手段と、
前記関連性判断情報取得手段によって得られた関連性判断情報を格納、検索する関連性判断情報管理手段と、を備え、
前記関連キーワード生成手段及び検索式生成手段は、
ユーザーから入力された検索パラメータの初期設定値及びその最低値と最大値を取得し、前記検索パラメータの初期設定値に基づいて関連キーワードの生成を行い、この生成された関連キーワードに基づいて検索式を生成し、生成された検索式による前記データベースでの呼び出し率の過剰制約あるいは制約不足を判定し、前記呼び出し率が過剰制約の場合には、前記検索パラメータをその値と前記最大値の間に増加させ、呼び出し率が制約不足の場合には、前記検索パラメータをその値と最小値との間に減少させて、新たな検索パラメータとその最大値または最小値を生成し、
この新たな検索パラメータに基づいて新たな関連キーワードの生成を行い、この新たなキーワードに基づいて再び検索式の生成処理と前記データベースでの呼び出し率を取得する処理を実行するものであり、かつ、これらの処理の繰り返しにより、前記パラメータの変化値が一定の変化値に収束した場合に、その検索パラメータにより生成された検索式を最終的な検索式とするように構成され、
前記検索管理手段は、前記関連性判断情報取得手段によって検索データがユーザに提示され、ユーザがこの検索データに満足せず、前記関連性判断情報取得手段がユーザからの関連性判断情報を取得した場合に、この関連性判断情報を用いて検索パラメータを変更し、前記関連キーワード生成手段によって関連キーワードを変更させ、前記検索式生成手段によって新たな検索式を生成させ、この新たな検索式に基づいて、前記データベース管理手段によって再検索を実行させるように構成され、
前記検索管理手段は、前記関連性判断情報取得手段によって検索データがユーザに提示され、ユーザがこの検索データに満足して、前記関連性判断情報取得手段がユーザからの検索処理の停止命令を取得した場合に、この検索データを最終的な検索結果として前記検索結果出力手段に送るように構成される、
ことを特徴とする類似情報検索装置。 - 前記関連性判断情報取得手段は、前記データベース管理手段による検索の実行から得られた暫定的な検索結果の一部を検索データとしてユーザに提示するとともに、ユーザがその検索データが関連データであるとの判断を示した場合にこの関連データまたはその指示情報を取得するように構成された関連データ取得手段であり、前記関連性判断情報管理手段は、前記関連データ取得手段によって得られた関連データまたはその指示情報を格納、検索するように構成された関連データベース管理手段である、ことを特徴とする請求項1に記載の類似情報検索装置。
- 前記関連性判断情報取得手段は、前記データベース管理手段による検索の実行から得られた暫定的な検索結果の一部を検索データとしてユーザに提示するとともに、ユーザがその検索データが非関連データであるとの判断を示した場合にこの非関連データまたはその指示情報を取得するように構成された非関連データ取得手段であり、前記関連性判断情報管理手段は、前記非関連データ取得手段によって得られた非関連データまたはその指示情報を格納、検索するように構成された非関連データベース管理手段である、ことを特徴とする請求項1に記載の類似情報検索装置。
- 前記関連性判断情報取得手段は、前記データベース管理手段による検索の実行から得られた暫定的な検索結果の一部を検索データとしてユーザに提示するとともに、ユーザがその検索データが関連・非関連データであるとの判断を示した場合にこの関連・非関連データまたはその指示情報を取得するように構成された関連・非関連データ取得手段であり、前記関連性判断情報管理手段は、前記関連・非関連データ取得手段によって得られた関連・非関連データまたはその指示情報を格納、検索するように構成された関連・非関連データベース管理手段である、ことを特徴とする請求項1に記載の類似情報検索装置。
- 前記関連キーワード生成手段は、前記検索要求入力手段によって入力された入力キーワードを初期伝搬データとして伝搬操作を行い、前記検索管理手段によって設定された検索パラメータをしきい値として関連キーワードを生成するように構成される、ことを特徴とする請求項1に記載の類似情報検索装置。
- 前記関連キーワード生成手段は、前記背景知識として、複数のキーワードを、関連度を付加したキーワード間のリンクとともに配置してなる連想ネットワークを使用し、この連想ネットワーク中の、前記検索要求入力手段によって入力された入力キーワードと一致する第1のキーワードと、
この第1のキーワードに対して間接的にリンクを張られた第2のキーワードとの間の関連度として、この第1、第2のキーワード間を接続するリンク列の関連度の積の最大値を求め、このようにして得られた第1、第2のキーワード間の関連度と前記検索要求入力手段によって入力された前記入力キーワードの前記重要度との積が、前記検索管理手段によって設定された検索パラメータ以上である場合にこの第2のキーワードによって関連キーワードを生成するように構成される、ことを特徴とする請求項5に記載の類似情報検索装置。 - 前記関連キーワード生成手段は、前記背景知識として、複数のキーワードを、関連度を付加したキーワード間のリンクとともに配置してなる連想ネットワークを使用し、この連想ネットワーク中の、前記検索要求入力手段によって入力された入力キーワードと一致する第1のキーワードと、
この第1のキーワードに対して間接的にリンクを張られた第2のキーワードとの間の関連度として、この第1、第2のキーワード間を接続するリンク列の関連度の積の和を求め、このようにして得られた第1、第2のキーワード間の関連度と前記検索要求入力手段によって入力された前記入力キーワードの前記重要度との積が、前記検索管理手段によって設定された検索パラメータ以上である場合にこの第2のキーワードによって関連キーワードを生成するように構成される、ことを特徴とする請求項5に記載の類似情報検索装置。 - 前記関連キーワード生成手段は、前記背景知識として、複数のキーワードを、上位・下位関係で表現し、関連度を付加した上位と下位のキーワード間のリンクとともに配置してなる概念階層を使用し、この概念階層中の、前記検索要求入力手段によって入力された入力キーワードと一致する第1のキーワードと、
この第1のキーワードに対して間接的にリンクを張られた第2のキーワードとの間の関連度として、第1のキーワードから、第1、第2のキーワードに共通の上位のキーワードで最も下位の第3のキーワードまでのリンク列の関連度の積を求め、このようにして得られた第1、第2のキーワード間の関連度と前記検索要求入力手段によって入力された前記入力キーワードの前記重要度との積が、前記検索管理手段によって設定された検索パラメータ以上である場合にこの第2のキーワードによって関連キーワードを生成するように構成される、ことを特徴とする請求項5に記載の類似情報検索装置。 - ユーザからの検索要求に応じて、この検索要求に含まれる検索条件を満足するデータの試行錯誤的な類似検索をデータベースに対して実行する類似情報検索装置において、
前記データベースに対して検索を実行するデータベース管理手段と、
ユーザの操作に基づき、入力キーワードと入力キーワードの重要度を含む検索要求と検索結果の条件を入力する検索要求入力手段と、
データベースに登録されているキーワード間の関連度を記述した背景知識と、検索条件の制約の強弱を設定するためにあらかじめ検索装置に与えられた検索パラメータを用いて、前記検索要求入力手段によって得られた入力キーワードに関連する関連キーワードを生成する関連キーワード生成手段と、
前記検索要求入力手段によって得られた入力キーワードと前記関連キーワード生成手段によって得られた関連キーワードを用いて検索式を生成する検索式生成手段と、
前記関連キーワード生成手段によって使用される検索パラメータを設定するとともに、前記検索式生成手段によって得られた検索式に基づいて、前記データベース管理手段によって検索を実行させる検索管理手段と、
前記データベース管理手段による検索の実行から得られた最終的な検索結果を出力する検索結果出力手段と、を備え、
前記関連キーワード生成手段及び検索式生成手段は、
ユーザーから入力された検索パラメータの初期設定値及びその最小値と最大値を取得し、前記検索パラメータの初期設定値に基づいて関連キーワードの生成を行い、この生成された関連キーワードに基づいて検索式を生成し、生成された検索式による前記データベースでの呼び出し率の過剰制約あるいは制約不足であるかを判定し、呼び出し率が過剰制約の場合には、前記検索パラメータをその値と前記最大値の間に増加させ、呼び出し率が制約不足の場合には、前記検索パラメータをその値と最小値との間に減少させて、新たな検索パラメータとその最大値または最小値を生成し、
この新たな検索パラメータに基づいて新たな関連キーワードの生成を行い、この新たなキーワードに基づいて再び検索式の生成処理と前記データベースでの呼び出し率を取得する処理を実行するものであり、かつ、これらの処理の繰り返しにより、前記パラメータの変化値が一定の変化値に収束した場合に、その検索パラメータにより生成された検索式を最終的な検索式とするように構成され、
前記検索管理手段は、前記データベース管理手段による検索の実行から得られた暫定的な検索結果が、前記検索要求入力手段によって得られた検索結果の条件を満足していない場合に、この関連性判断情報を用いて検索パラメータを変更し、前記関連キーワード生成手段によって関連キーワードを変更させ、前記検索式生成手段によって新たな検索式を生成させ、この新たな検索式に基づいて、前記データベース管理手段によって再検索を実行させるように構成され、
前記検索管理手段は、前記データベース管理手段による検索の実行から得られた暫定的な検索結果が、前記検索要求入力手段によって得られた検索結果の条件を満足している場合に、この検索結果を最終的な検索結果として前記検索結果出力手段に送るように構成される、ことを特徴とする類似情報検索装置。 - 前記検索式生成手段によって得られた検索式からこの検索式に対応する検索件数を推定する検索件数推定手段、をさらに備えることを特徴とする請求項9に記載の類似情報検索装置。
- 前記検索管理手段は、前処理として、前記データベース管理手段によって実際のデータベース検索を行わせることなしに、前記検索件数推定手段を使用して検索式の検索件数を推定しながら、前記検索式生成手段によって試行錯誤による検索式の生成を行わせ、この前処理の後、前記データベース管理手段によって実際のデータベース検索を行わせながら、前記検索式生成手段によって試行錯誤による検索式の生成を行わせるように構成される、ことを特徴とする請求項10に記載の類似情報検索装置。
- 前記関連キーワード生成手段は、前記検索要求入力手段によって入力された入力キーワードを初期伝搬データとして伝搬操作を行い、前記検索管理手段によって設定された検索パラメータをしきい値として関連キーワードを生成するように構成される、ことを特徴とする請求項9に記載の類似情報検索装置。
- 前記関連キーワード生成手段は、前記背景知識として、複数のキーワードを、関連度を付加したキーワード間のリンクとともに配置してなる連想ネットワークを使用し、この連想ネットワーク中の、前記検索要求入力手段によって入力された入力キーワードと一致する第1のキーワードと、
この第1のキーワードに対して間接的にリンクを張られた第2のキーワードとの間の関連度として、この第1、第2のキーワード間を接続するリンク列の関連度の積の最大値を求め、このようにして得られた第1、第2のキーワード間の関連度と前記検索要求入力手段によって入力された前記入力キーワードの前記重要度との積が、前記検索管理手段によって設定された検索パラメータ以上である場合にこの第2のキーワードによって関連キーワードを生成するように構成される、ことを特徴とする請求項12に記載の類似情報検索装置。 - 前記関連キーワード生成手段は、前記背景知識として、複数のキーワードを、関連度を付加したキーワード間のリンクとともに配置してなる連想ネットワークを使用し、この連想ネットワーク中の、前記検索要求入力手段によって入力された入力キーワードと一致する第1のキーワードと、
この第1のキーワードに対して間接的にリンクを張られた第2のキーワードとの間の関連度として、この第1、第2のキーワード間を接続するリンク列の関連度の積の和を求め、このようにして得られた第1、第2のキーワード間の関連度と前記検索要求入力手段によって入力された前記入力キーワードの前記重要度との積が、前記検索管理手段によって設定された検索パラメータ以上である場合にこの第2のキーワードによって関連キーワードを生成するように構成される、ことを特徴とする請求項12に記載の類似情報検索装置。 - 前記関連キーワード生成手段は、前記背景知識として、複数のキーワードを、上位・下位関係で表現し、関連度を付加した上位と下位のキーワード間のリンクとともに配置してなる概念階層を使用し、この概念階層中の、前記検索要求入力手段によって入力された入力キーワードと一致する第1のキーワードと、
この第1のキーワードに対して間接的にリンクを張られた第2のキーワードとの間の関連度として、第1のキーワードから、第1、第2のキーワードに共通の上位のキーワードで最も下位の第3のキーワードまでのリンク列の関連度の積を求め、このようにして得られた第1、第2のキーワード間の関連度と前記検索要求入力手段によって入力された前記入力キーワードの前記重要度との積が、前記検索管理手段によって設定された検索パラメータ以上である場合にこの第2のキーワードによって関連キーワードを生成するように構成される、ことを特徴とする請求項12に記載の類似情報検索装置。 - ユーザからの検索要求に応じて、この検索要求に含まれる検索条件を満足するデータの試行錯誤的な類似検索をデータベースに対して実行する類似情報検索方法において、
ユーザの操作に基づき、入力キーワードと入力キーワードの重要度を含む検索要求を入力するステップと、
データベースに登録されているキーワード間の関連度を記述した背景知識と、検索条件の制約の強弱を設定するためにあらかじめ検索装置に与えられた検索パラメータを用いて、前記入力キーワードに関連する関連キーワードを生成するステップと、
前記入力キーワードと前記関連キーワードを用いて検索式を生成するステップと、
前記検索式に基づいて前記データベースの検索を実行するステップと、
前記検索実行ステップによる暫定的な検索結果の一部を検索データとしてユーザに提示し、ユーザから検索処理の停止命令またはデータの関連性判断情報を取得するステップと、
前記関連性判断情報取得ステップにおいて、ユーザから前記関連性判断情報を取得した場合に、この関連性判断情報を用いて前記検索パラメータを変更し、前記関連キーワード生成ステップに戻るステップと、
前記関連性判断情報取得ステップにおいて、ユーザから検索処理の停止命令を取得した場合に、提示した前記検索データを最終的な検索結果として出力するステップと、を備え、
前記関連キーワード生成ステップ及び検索式生成ステップは、
ユーザーから入力された検索パラメータの初期設定値及びその最低値と最大値を取得し、前記検索パラメータの初期設定値に基づいて関連キーワードの生成を行い、この生成された関連キーワードに基づいて検索式を生成し、生成された検索式による前記データベースでの呼び出し率の過剰制約あるいは制約不足を判定し、前記呼び出し率が過剰制約の場合には、前記検索パラメータをその値と前記最大値の間に増加させ、呼び出し率が制約不足の場合には、前記検索パラメータをその値と最小値との間に減少させて、新たな検索パラメータとその最大値または最小値を生成し、
この新たな検索パラメータに基づいて新たな関連キーワードの生成を行い、この新たなキーワードに基づいて再び検索式の生成処理と前記データベースでの呼び出し率を取得する処理を実行するものであり、かつ、これらの処理の繰り返しにより、前記パラメータの変化値が一定の変化値に収束した場合に、その検索パラメータにより生成された検索式を最終的な検索式とし、
前記検索実行ステップは、前記関連性判断情報取得ステップによって検索データがユーザに提示され、ユーザがこの検索データに満足せず、関連性判断情報取得ステップがユーザからの関連性判断情報を取得した場合に、この関連性判断情報を用いて検索パラメータを変更し、前記関連キーワード生成手段によって関連キーワードを変更させ、前記検索式生成ステップによって新たな検索式を生成させ、この新たな検索式に基づいて、前記データベース管理手段によって再検索を実行させ、
前記検索実行ステップは、前記関連性判断情報取得ステップによって検索データがユーザに提示され、ユーザがこの検索データに満足して、前記関連性判断情報取得ステップがユーザからの検索処理の停止命令を取得した場合に、この検索データを最終的な検索結果として前記検索結果出力ステップに送る、ことを特徴とする類似情報検索方法。 - 前記関連性判断情報取得ステップにおいて、前記検索実行ステップによって得られた暫定的な検索結果の一部を検索データとしてユーザに提示し、ユーザがその検索データが関連データであるとの判断を示した場合にこの関連データまたはその指示情報を取得し、この関連データまたはその指示情報を関連データベースに格納する、ことを特徴とする請求項16に記載の類似情報検索方法。
- 前記関連性判断情報取得ステップにおいて、前記検索実行ステップによって得られた暫定的な検索結果の一部を検索データとしてユーザに提示し、ユーザがその検索データが非関連データであるとの判断を示した場合にこの非関連データまたはその指示情報を取得し、この非関連データまたはその指示情報を非関連データベースに格納する、ことを特徴とする請求項16に記載の類似情報検索方法。
- 前記関連性判断情報取得ステップにおいて、前記検索実行ステップによって得られた暫定的な検索結果の一部を検索データとしてユーザに提示し、ユーザがその検索データが関連・非関連データであるとの判断を示した場合にこの関連・非関連データまたはその指示情報を取得し、この関連・非関連データまたはその指示情報を関連・非関連データベースに格納する、ことを特徴とする請求項16に記載の類似情報検索方法。
- 前記関連キーワード生成ステップにおいて、前記入力キーワードを初期伝搬データとして伝搬操作を行い、前記検索パラメータをしきい値として関連キーワードを生成する、ことを特徴とする請求項16に記載の類似情報検索方法。
- 前記関連キーワード生成ステップにおいて、前記背景知識として、複数のキーワードを、関連度を付加したキーワード間のリンクとともに配置してなる連想ネットワークを使用し、この連想ネットワーク中の、前記入力キーワードと一致する第1のキーワードと、
この第1のキーワードに対して間接的にリンクを張られた第2のキーワードとの間の関連度として、この第1、第2のキーワード間を接続するリンク列の関連度の積の最大値を求め、このようにして得られた第1、第2のキーワード間の関連度と前記入力キーワードの前記重要度との積が、前記検索パラメータ以上である場合にこの第2のキーワードによって関連キーワードを生成する、ことを特徴とする請求項20に記載の類似情報検索方法。 - 前記関連キーワード生成ステップにおいて、前記背景知識として、複数のキーワードを、関連度を付加したキーワード間のリンクとともに配置してなる連想ネットワークを使用し、この連想ネットワーク中の、前記入力キーワードと一致する第1のキーワードと、
この第1のキーワードに対して間接的にリンクを張られた第2のキーワードとの間の関連度として、この第1、第2のキーワード間を接続するリンク列の関連度の積の和を求め、このようにして得られた第1、第2のキーワード間の関連度と前記入力キーワードの前記重要度との積が、前記検索パラメータ以上である場合にこの第2のキーワードによって関連キーワードを生成する、ことを特徴とする請求項20に記載の類似情報検索方法。 - 前記関連キーワード生成ステップにおいて、前記背景知識として、複数のキーワードを、上位・下位関係で表現し、関連度を付加した上位と下位のキーワード間のリンクとともに配置してなる概念階層を使用し、この概念階層中の、前記入力キーワードと一致する第1のキーワードと、
この第1のキーワードに対して間接的にリンクを張られた第2のキーワードとの間の関連度として、第1のキーワードから、第1、第2のキーワードに共通の上位のキーワードで最も下位の第3のキーワードまでのリンク列の関連度の積を求め、このようにして得られた第1、第2のキーワード間の関連度と前記入力キーワードの前記重要度との積が、前記検索パラメータ以上である場合にこの第2のキーワードによって関連キーワードを生成する、ことを特徴とする請求項20に記載の類似情報検索方法。 - ユーザからの検索要求に応じて、この検索要求に含まれる検索条件を満足するデータの試行錯誤的な類似検索をデータベースに対して実行する類似情報検索方法において、
ユーザの操作に基づき、入力キーワードと入力キーワードの重要度を含む検索要求と検索結果の条件を入力するステップと、
データベースに登録されているキーワード間の関連度を記述した背景知識と、検索条件の制約の強弱を設定するためにあらかじめ検索装置に与えられた検索パラメータを用いて、前記入力キーワードに関連する関連キーワードを生成するステップと、
前記入力キーワードと前記関連キーワードを用いて検索式を生成するステップと、
前記検索式に基づいて前記データベースの検索を実行するステップと、
前記検索実行ステップによる暫定的な検索結果が、前記検索結果の条件を満足していない場合に、前記検索パラメータを変更し、前記関連キーワード生成ステップに戻るステップと、
前記検索実行ステップによる暫定的な検索結果が、前記検索結果の条件を満足している場合に、この検索結果を最終的な検索結果として出力するステップと、を備え、
前記関連キーワード生成ステップ及び検索式生成ステップは、
ユーザーから入力された検索パラメータの初期設定値及びその最小値と最大値を取得し、前記検索パラメータの初期設定値に基づいて関連キーワードの生成を行い、この生成された関連キーワードに基づいて検索式を生成し、生成された検索式による前記データベースでの呼び出し率の過剰制約あるいは制約不足であるかを判定し、呼び出し率が過剰制約の場合には、前記検索パラメータをその値と前記最大値の間に増加させ、呼び出し率が制約不足の場合には、前記検索パラメータをその値と最小値との間に減少させて、新たな検索パラメータとその最大値または最小値を生成し、
この新たな検索パラメータに基づいて新たな関連キーワードの生成を行い、この新たなキーワードに基づいて再び検索式の生成処理と前記データベースでの呼び出し率を取得する処理を実行するものであり、かつ、これらの処理の繰り返しにより、前記パラメータの変化値が一定の変化値に収束した場合に、その検索パラメータにより生成された検索式を最終的な検索式とし、
前記検索管理ステップは、前記データベース管理ステップによる検索の実行から得られた暫定的な検索結果が、前記検索要求入力ステップによって得られた検索結果の条件を満足していない場合に、この関連性判断情報を用いて検索パラメータを変更し、前記関連キーワード生成ステップによって関連キーワードを変更させ、前記検索式生成ステップによって新たな検索式を生成させ、この新たな検索式に基づいて、前記データベース管理ステップによって再検索を実行させ、
前記検索管理ステップは、前記データベース管理ステップによる検索の実行から得られた暫定的な検索結果が、前記検索要求入力ステップによって得られた検索結果の条件を満足している場合に、この検索結果を最終的な検索結果として前記検索結果出力ステップに送る、ことを特徴とする類似情報検索方法。 - 前記検索式生成ステップは、生成した検索式からこの検索式に対応する検索件数を推定するステップ、を含むことを特徴とする請求項24に記載の類似情報検索方法。
- 前記検索式生成ステップは、前記検索実行ステップを行う前の前処理として、生成した検索式から検索件数を推定しながら試行錯誤による検索式の生成を行うステップと、
この前処理ステップの後、前記検索実行ステップと並行する実処理として、試行錯誤による検索式の生成を行うステップと、を有することを特徴とする請求項25に記載の類似情報検索方法。 - 前記関連キーワード生成ステップにおいて、前記入力キーワードを初期伝搬データとして伝搬操作を行い、前記検索パラメータをしきい値として関連キーワードを生成する、
ことを特徴とする請求項24に記載の類似情報検索方法。 - 前記関連キーワード生成ステップにおいて、前記背景知識として、複数のキーワードを、関連度を付加したキーワード間のリンクとともに配置してなる連想ネットワークを使用し、この連想ネットワーク中の、前記入力キーワードと一致する第1のキーワードと、
この第1のキーワードに対して間接的にリンクを張られた第2のキーワードとの間の関連度として、この第1、第2のキーワード間を接続するリンク列の関連度の積の最大値を求め、このようにして得られた第1、第2のキーワード間の関連度と前記入力キーワードの前記重要度との積が、前記検索パラメータ以上である場合にこの第2のキーワードによって関連キーワードを生成する、ことを特徴とする請求項27に記載の類似情報検索方法。 - 前記関連キーワード生成ステップにおいて、前記背景知識として、複数のキーワードを、関連度を付加したキーワード間のリンクとともに配置してなる連想ネットワークを使用し、この連想ネットワーク中の、前記入力キーワードと一致する第1のキーワードと、
この第1のキーワードに対して間接的にリンクを張られた第2のキーワードとの間の関連度として、この第1、第2のキーワード間を接続するリンク列の関連度の積の和を求め、このようにして得られた第1、第2のキーワード間の関連度と前記入力キーワードの前記重要度との積が、前記検索パラメータ以上である場合にこの第2のキーワードによって関連キーワードを生成する、ことを特徴とする請求項27に記載の類似情報検索方法。 - 前記関連キーワード生成ステップにおいて、前記背景知識として、複数のキーワードを、上位・下位関係で表現し、関連度を付加した上位と下位のキーワード間のリンクとともに配置してなる概念階層を使用し、この概念階層中の、前記入力キーワードと一致する第1のキーワードと、
この第1のキーワードに対して間接的にリンクを張られた第2のキーワードとの間の関連度として、第1のキーワードから、第1、第2のキーワードに共通の上位のキーワードで最も下位の第3のキーワードまでのリンク列の関連度の積を求め、このようにして得られた第1、第2のキーワード間の関連度と前記入力キーワードの前記重要度との積が、前記検索パラメータ以上である場合にこの第2のキーワードによって関連キーワードを生成する、ことを特徴とする請求項27に記載の類似情報検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31017994A JP3621449B2 (ja) | 1993-12-14 | 1994-12-14 | 類似情報検索装置とその方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5-313776 | 1993-12-14 | ||
JP31377693 | 1993-12-14 | ||
JP31017994A JP3621449B2 (ja) | 1993-12-14 | 1994-12-14 | 類似情報検索装置とその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07225772A JPH07225772A (ja) | 1995-08-22 |
JP3621449B2 true JP3621449B2 (ja) | 2005-02-16 |
Family
ID=26566222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP31017994A Expired - Fee Related JP3621449B2 (ja) | 1993-12-14 | 1994-12-14 | 類似情報検索装置とその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3621449B2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3430431B2 (ja) * | 1995-02-06 | 2003-07-28 | 日本電信電話株式会社 | データベース検索装置及びデータベース検索方法 |
JP4024906B2 (ja) * | 1997-09-08 | 2007-12-19 | 株式会社東芝 | タグ付文書検索システム |
JP3849274B2 (ja) * | 1998-01-14 | 2006-11-22 | 富士ゼロックス株式会社 | 文書検索装置および記録媒体 |
JP4021583B2 (ja) | 1999-04-08 | 2007-12-12 | 富士通株式会社 | 情報検索装置、情報検索方法、及びその方法を実現するプログラムを記録した記録媒体 |
JP3916802B2 (ja) * | 1999-05-31 | 2007-05-23 | 日本電信電話株式会社 | 映像検索方法、映像検索装置及び記憶媒体 |
JP3684951B2 (ja) | 1999-11-11 | 2005-08-17 | 松下電器産業株式会社 | 画像検索方法及びその装置 |
JP2001282839A (ja) * | 2000-03-31 | 2001-10-12 | Just Syst Corp | 情報配信システム |
JP2002140364A (ja) * | 2000-10-31 | 2002-05-17 | Seiko Epson Corp | 情報検索システム、コンテンツ検索システム、コンテンツ配信システム及び記憶媒体 |
JP4532774B2 (ja) * | 2001-04-18 | 2010-08-25 | 三井化学株式会社 | 情報の抽出方法 |
CA2609916A1 (en) * | 2005-05-31 | 2006-12-07 | Siemens Medical Solutions Usa, Inc. | System and method for data sensitive filtering of patient demographic record queries |
JP4469818B2 (ja) * | 2006-07-18 | 2010-06-02 | 株式会社東芝 | データ管理装置、データプログラム及びデータ管理方法 |
US10255318B2 (en) | 2013-02-25 | 2019-04-09 | Facebook, Inc. | Sampling a set of data |
JP6959659B2 (ja) * | 2019-11-28 | 2021-11-02 | 有限会社アクアプラネット | 対話型創造活動支援装置およびそのプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6325774A (ja) * | 1986-07-18 | 1988-02-03 | Matsushita Electric Ind Co Ltd | 情報登録検索装置 |
JPS63261424A (ja) * | 1987-04-17 | 1988-10-28 | Matsushita Electric Ind Co Ltd | 文書検索装置 |
JPH02189680A (ja) * | 1989-01-18 | 1990-07-25 | Nec Corp | 情報検索方式 |
JP2792287B2 (ja) * | 1991-10-31 | 1998-09-03 | 日本電気株式会社 | 情報検索装置 |
JPH05204978A (ja) * | 1992-01-23 | 1993-08-13 | Nec Home Electron Ltd | 情報検索装置 |
-
1994
- 1994-12-14 JP JP31017994A patent/JP3621449B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH07225772A (ja) | 1995-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9990421B2 (en) | Phrase-based searching in an information retrieval system | |
CN104834735B (zh) | 一种基于词向量的文档摘要自动提取方法 | |
CA2513853C (en) | Phrase-based indexing in an information retrieval system | |
CA2513850C (en) | Phrase identification in an information retrieval system | |
CA2813644C (en) | Phrase-based searching in an information retrieval system | |
US7428538B2 (en) | Retrieval of structured documents | |
AU2005203237B2 (en) | Phrase-based generation of document description | |
JP3621449B2 (ja) | 類似情報検索装置とその方法 | |
US20020073079A1 (en) | Method and apparatus for searching a database and providing relevance feedback | |
US20100325133A1 (en) | Determining a similarity measure between queries | |
US20080319971A1 (en) | Phrase-based personalization of searches in an information retrieval system | |
US7747555B2 (en) | System and method for retrieving and intelligently grouping definitions found in a repository of documents | |
US6278990B1 (en) | Sort system for text retrieval | |
Mali | Spam Detection Using Bayesian with Pattern Discovery | |
JP3930168B2 (ja) | 文書検索方法、装置および文書検索プログラムを記録した記録媒体 | |
JP7428250B2 (ja) | 文書検索の性能を評価する方法、システム、および装置 | |
Hendry et al. | INSTRUCT: a teaching package for experimental methods in information retrieval. Part II. Computational aspects | |
Gulla et al. | A hybrid approach to ontology relationship learning | |
Goker et al. | Towards an adaptive information retrieval system | |
Zhang et al. | Research on Retrieval Ranking Based on Deep Reinforcement Learning | |
Agrawal et al. | Minimizing Web Diversion Using Query Classification and Text Mining Check for updates | |
Meng et al. | T $ k $ QS: A Top-$ k $ Keyword Query Suggestion System | |
Torres-Parejo et al. | Text retrieval and visualization in databases using tag clouds | |
JPH09153055A (ja) | 情報検索方法 | |
DEOGUN | INFORMATION RETRIEVAL, RESEARCH: STRATEGIES AND USER IMPLICATIONS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040127 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040329 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040907 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041118 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071126 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081126 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091126 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |