JP4189387B2

JP4189387B2 - 知識検索システム、知識検索方法及びプログラム

Info

Publication number: JP4189387B2
Application number: JP2005092196A
Authority: JP
Inventors: 奈帆子大下
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2005-03-28
Filing date: 2005-03-28
Publication date: 2008-12-03
Anticipated expiration: 2025-03-28
Also published as: JP2006277061A

Description

本発明は、知識データベースからデータを検索するのに好適な知識検索システム、知識検索方法及びプログラムに関する。

様々な形式で公に供されている公開情報、例えばファイルサーバ上のファイル、Ｗｅｂサイト上のＨＴＭＬ（Hyper Text Markup Language）文書などを有効に活用するシステムとして、従来からナレッジマネジメントシステムが知られている。多くのナレッジマネジメントシステムでは、このような情報を「知識」として集積する「知識データベース」を構築するために、公開情報からテキスト部分を抽出してインデックスとして管理し、自然言語検索などの検索用に提供することにより、蓄積された知識情報の効率的な活用を実現している。これらの情報（文書）は、論理的または物理的に複合構成（論理構造、添付などの親子関係）をとっていることが多い。そこで従来は、これらの構成を要素ごとに分け、別々の文書としてインデックスを構築する技術（第１の先行技術）を適用するのが一般的である。

また、より最近にデータベースに格納された情報、或いは参照回数の多い情報に高いスコアを与えることで、ユーザにとってより必要となる情報が検索結果の上位となるようにする技術（第２の先行技術）が知られている（例えば、特許文献１参照）。

また、文書を構成する要素（パラグラフ）ごとに、当該要素の、日付、著者、表題、概要、本文等の記述内容を特定するためのタグを付与すると共に、各タグごとに重要度を表す重みを付与する検索技術（第３の先行技術）も知られている。この第３の先行技術では、キーワードとタグとを含む検索条件に従って、タグの重みを考慮したスコア計算を行うことで、ユーザにとってより必要となる情報を検索結果の上位とすることが可能となる。
特開２００１−８４２５６号公報（段落００１２乃至００１５）特開平１１−８５７６５号公報（段落００１５乃至００１８）

上記第１の先行技術において、文書を構成する論理的／物理的要素ごとに、知識データベース内のインデックスを構築することは、知識検索の精度を向上させるために必要な技術である。しかしながら、第１の先行技術では、元の文書同士、もしくは文書の構成要素の関係が、知識データベース内では維持されない。この場合、例えば、知識の検索でヒットした文書が添付文書（添付ファイル）の場合に、当該文書が添付されていた「親」文書や前後の文書の内容を辿ることができず、それ以上の「知識」を得ることは難しい。また、第１の先行技術では、文書間の関連性を検索結果の順位に反映させることは考慮されていない。例えば、関連する文書の数が多い文書ほど、検索でユーザが目的とする内容に近い文書であると考えられるが、第１の先行技術では、関連する文書の数が多い文書を検索結果の順位にさせることは考慮されていない。

一方、上記第２の先行技術では、より最近にデータベースに格納された情報、或いは参照回数の多い情報ほど、ユーザが目的とする内容に近い情報であるとして、検索結果の順位に反映させている。同様に、上記第３の先行技術では、文書を構成する要素ごとに付与されるタグの重みが大きいほど、ユーザが目的とする内容に近い要素であるとして、検索結果の順位に反映させている。しかし上記第２及び第３の先行技術では、文書間の関連性を検索結果の順位に反映させることは考慮されていない。

よって、上記第１乃至第３の先行技術では、関連する文書の数が多い文書であっても、必ずしも検索結果の上位に設定されるとは限らない。このため、例えば関連する文書の数を考慮しない場合のスコアが同一の複数の文書が存在する場合に、その複数の文書から関連する文書の数がより多い文書をユーザが目的とする文書であるとして選択することは困難である。

本発明は上記事情を考慮してなされたものでその目的は、文書検索結果の順位に他の文書との関連性を反映させることで、当該検索結果からユーザが要求した内容に近い文書を当該ユーザが容易に見つけることができる知識検索システム、知識検索方法及びプログラムを提供することにある。

本発明の１つの観点によれば、文書情報から生成された検索用のインデックス情報が格納されたインデックスデータベースを対象にユーザからの検索要求に基づく検索を実行する知識検索システムが提供される。この知識検索システムは、前記インデックスデータベースに格納されたインデックス情報の示す文書の文書ＩＤ及び当該文書に関連する文書の文書ＩＤの対を含む関連文書情報を格納するリンクデータベースと、公開されている文書情報を収集する情報収集手段と、前記情報収集手段によって収集された文書情報から、検索用のインデックス情報を生成して前記インデックスデータベースに格納するインデックス更新手段であって、前記収集された文書情報の示す文書の文書ＩＤ及び当該文書に関連する文書の文書ＩＤの対を含む関連文書情報を前記リンクデータベースに格納するインデックス更新手段と、前記ユーザからの検索要求を入力すると共に、当該検索要求に従う検索の結果をユーザに提示するユーザインタフェースと、前記ユーザインタフェースによって入力された検索要求に基づいて前記インデックスデータベースを検索し、少なくとも前記検索要求にヒットしたヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得する検索手段とから構成される。

このような構成においては、収集された文書情報の示す文書の集合に含まれる文書間の関連性を解析し、当該文書間の関連性を表す関連文書情報をリンクデータベースに格納することで、ユーザからの知識検索要求に基づいてインデックスデータベースを検索した場合には、上記リンクデータベースに格納された関連文書情報を利用して、ヒット文書ごとの検索スコアだけでなく、当該ヒット文書と他の文書との関連性が検索結果順位に反映された検索結果を取得することができる。これにより、他の文書との関連性が強いヒット文書（例えば、関連する文書の数がより多いヒット文書）の検索結果順位を相対的に高くすることができるようになるため、ユーザは同じような文書が多数ヒットした場合でも、自身が要求した内容に近い文書を容易に見つけることが可能となる。

ここで、上記インデックス更新手段を次の２つの手段、即ち上記情報収集手段によって収集された文書情報の示す文書の各々について、当該文書の構造を解析して当該文書を文書要素ごとに分割し、当該文書を親文書とし、当該分割された文書要素を当該文書の子文書とする上記関連文書情報を生成して上記リンクデータベースに格納する関係解析手段と、この関係解析手段によって分割された文書要素ごとに上記インデックス情報を生成する文書解析手段とから構成とする良い。

このように、文書を当該文書の構造に基づいて文書要素（文書構成要素）ごとに分割して、それそれ独立した文書（子文書）としてインデックス情報を生成することにより、各文書要素の内容に応じた検索スコアを得ることができる。しかも、各文書要素である各子文書と元の文書である親文書との間の関連性を示す関連文書情報がリンクデータベースに格納されるため、つまり文書と文書要素間の関係（元の文書の表現された前後関係）がリンクデータベース（とインデックスデータベースとから構成される知識データベース）により維持されるため、文書間や文書の構成要素間の関係に内在する「知識」を活用して、ユーザが要求した内容に近い文書を容易に検索することが可能となる。

また、知識検索手段に以下の機能、即ちヒット文書ごとに、上記リンクデータベースに格納された関連文書情報に従って親文書が存在するかを判定すると共に、当該親文書が存在する場合には、当該親文書がヒット文書であるかを判定し、当該親文書がヒット文書である場合、ヒット文書の集合に含まれている当該親文書の全ての子文書について、当該子文書及び当該親文書のスコアを比較して、当該親文書のスコアより低い子文書をヒット文書の集合から削除し、当該全ての子文書のどれよりもスコアの低い親文書をヒット文書の集合から削除し、ヒット文書の集合に残っているヒット文書について、当該ヒット文書ごとの検索スコアと当該ヒット文書に対応する上記リンクデータベース内の関連文書情報の示す当該文書と他の文書との関連性とが検索結果順位に反映された検索結果を取得する機能を持たせると良い。このようにすると、ユーザが要求した内容から遠い文書を検索結果から外すことができるため、ユーザは要求した内容に近い文書を容易に見つけることが可能となる。

また、知識検索手段に以下の機能、即ち子文書及び当該子文書の親文書の検索スコアを比較した結果、親文書の方が検索スコアが高い場合には、当該親文書と他の文書との関連性の度合いを表す当該親文書の重みをインクリメントし、子文書の方が検索スコアが高い場合には、当該子文書と他の文書との関連性の度合いを表す当該子文書の重みをインクリメントし、ヒット文書ごとの検索スコアと当該文書の重みとが検索結果順位に反映された検索結果を取得する機能を持たせると良い。このようにすると、ユーザが要求した内容に近い文書の検索結果順位を相対的に高くすることができるようになるため、ユーザは要求した内容に近い文書を容易に見つけることが可能となる。

また、上記インデックス更新手段に以下の機能、即ち上記文書間の関連性として、一方の文書から他方の文書へのハイパーリンクによる参照関係、一方の文書の構造上他方の文書が当該一方の文書に含まれている包含関係、他方の文書が一方の文書に添付されている添付ファイルである関係、及び他方の文書が一方の文書に圧縮されて添付されているデータが解凍されたものである文書要素の親子関係のうちの少なくとも１つの関係を解析する機能を持たせると良い。このようにすると、Ｗｅｂサイトなどを情報ソースとする知識データベース、一般的な文書の電子データ、メールなどを情報ソースとする知識データベース、論文、書籍などを情報ソースとする知識データベース、或いは通常はインデックス検索の対象とならないような電子データも含めて知識データベースを構築することが可能となる。

また、上記ユーザインタフェースに以下の機能、即ち、知識検索要求に従う知識検索の結果を、ヒット文書と当該ヒット文書の検索結果順位とが識別可能な文書一覧の形式でユーザに提示し、上記文書一覧から任意の文書が選択され、かつ当該選択された文書と関連している文書が存在する場合には、当該選択された文書のテキストまたは実体と、当該関連している文書の存在が識別可能でかつユーザにより選択可能な識別情報とをユーザに提示する機能を持たせると良い。このようにすると、選択された文書の内容だけでなく、ユーザが次の「知識」を得るためのヒントとなるような情報を提示できる。

また、上記ユーザインタフェースに以下の機能、即ち、上記識別情報がユーザによって選択され、かつ当該選択された文書と関連している文書が存在する場合には、当該選択された文書のテキストまたは実体と、当該関連している文書の存在が識別可能でかつユーザにより選択可能な識別情報とをユーザに提示する機能を持たせると良い。このようにすると、選択された文書の内容だけでなく、ユーザが次の「知識」を得るためのヒントとなるような情報を提示できる。

本発明によれば、収集された文書情報の示す文書の集合に含まれる文書間の関連性を表す関連文書情報をリンクデータベースに格納することで、ユーザからの知識検索要求に基づいてインデックスデータベースを検索した場合には、上記リンクデータベースに格納された関連文書情報を利用して、ヒット文書ごとの検索スコアだけでなく、当該ヒット文書と他の文書との関連性が検索結果順位に反映された検索結果を取得することができるため、他の文書との関連性が強いヒット文書の検索結果順位を相対的に高くすることができるようになり、ユーザは同じような文書が多数ヒットした場合でも、自身が要求した内容に近い文書を容易に見つけることができる。

以下、本発明の実施の形態につき図面を参照して説明する。
図１は本発明の一実施形態に係るナレッジマネジメントシステム１の構成を示すブロック図である。このナレッジマネジメントシステム１は、知識情報の収集、分析及び検索等のサービスを提供する、広義の知識検索システムである。ナレッジマネジメントシステム１は、主として、狭義の知識検索システム１１と、知識データベース構築システム１２と、ユーザインタフェース１３とから構成される。

知識検索システム１１は、知識データベース１１１と、知識検索部１１２とを含む。知識データベース１１１は知識検索用のデータベースであり、インデックスデータベース（インデックスＤＢ）１１１ａと、リンクデータベース（リンクＤＢ）１１１ｂとから構成される。インデックスＤＢ１１１ａは、公開情報ソース２から抽出されたテキストデータをもとに生成された検索用インデックス情報（インデックス）を格納する。公開情報ソース２は、情報をネットワーク上に公開している、例えばＷｅｂサーバ、或いはファイルサーバである。リンクＤＢ１１１ｂは、知識データベース１１１に格納されている文書間の関係（リンク）、更に詳細に述べるならば、知識データベース１１１のインデックスＤＢ１１１ａに格納されているインデックス情報間の関係を示す関係情報（関連文書情報）を格納する。知識検索部１１２は、ユーザ３からの検索要求に従い、当該検索要求で指定された検索条件に合致するインデックスを知識データベース１１１から検索することで、当該インデックスに対応する文書ごとの検索スコアを取得する検索エンジンである。知識検索部１１２は、少なくとも、知識検索要求にヒットしたヒット文書について、当該ヒット文書ごとの検索スコアと当該ヒット文書に対応するリンクＤＢ１１１ｂ内の関連文書情報の示す当該ヒット文書と他の文書との関連性とが検索結果順位に反映された検索結果を取得する。

知識データベース構築システム１２は、情報収集部１２１と、中間データ格納ユニット１２２と、インデックス更新部１２３とから構成される。情報収集部１２１は、公開情報ソース２により公開されている情報（公開情報）を例えば管理者（管理ユーザ）によって与えられる知識情報収集条件に従って収集する。中間データ格納ユニット１２２は、情報収集部１２１によって収集された情報を中間データとして一時的に格納する。インデックス更新部１２３は、中間データ格納ユニット１２２に格納されている情報（ここでは文書集合）から知識検索用のインデックスを生成して、知識データベース１１１のインデックスＤＢ１１１ａに格納する。インデックス更新部１２３はまた、上記文書集合に含まれる文書間の関係を解析してその関係を示す関連文書情報をリンクＤＢ１１１ｂに格納する。

ユーザインタフェース１３は、ユーザ４とナレッジマネジメントシステム１との間の対話を可能とする。ユーザインタフェース１３は、ユーザ４のクライアント端末３と直接またはネットワークを介して接続されている。ユーザインタフェース１３は、ユーザ４がクライアント端末３の図示せぬ入力装置（例えば、キーボードまたはマウス）を操作して知識検索を指示した場合に、当該クライアント端末３から与えられる知識検索のための検索要求を示す問い合わせ（クエリ）を入力して受け付ける。ユーザインタフェース１３は、受け付けられたクエリを知識検索部１１２に通知する。ユーザインタフェース１３はまた、知識検索部１１２に通知したクエリ（検索要求）に対する当該知識検索部１１２による検索結果をクライアント端末３に通知することで、当該検索結果をクライアント端末３によりユーザ４に提示させる。

本実施形態において、ナレッジマネジメントシステム１内の、知識検索部１１２、情報収集部１２１、インデックス更新部１２３及びユーザインタフェース１３は、コンピュータにインストールされた特別のソフトウェアプログラムを当該コンピュータ（内のＣＰＵ）が読み取って実行することにより実現される。このプログラムは、コンピュータで読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラムが、ネットワークを介してダウンロード（頒布）されても構わない。

クライアント端末３は、ユーザ４からの知識検索のための検索要求を知識検索部１１２で適用されるプロトコルに変換することで、ナレッジマネジメントシステム１に対するクエリ（問い合わせ）を発行する検索発行機能と、当該クエリに対する知識検索部１１２による検索結果をユーザインタフェース１３から受け取ってクライアント端末３の表示装置に表示させる検索結果表示機能とを有する。このクライアント端末３の有する検索発行機能及び検索結果表示機能は、例えば、Ｗｅｂブラウザ、或いはナレッジマネジメントシステム１を利用するための専用のクライアントソフトウェアを当該クライアント端末３が実行することにより実現されるものとする。

図２は、図１中のインデックス更新部１２３の構成を、中間データ格納ユニット１２２及び知識データベース１１１と関連付けて示すブロック図である。
インデックス更新部１２３は、関係解析部１２３ａと文書解析部１２３ｂとを含む。関係解析部１２３ａは、中間データ格納ユニット１２２に一時的に格納されている情報（中間データ）の中から順に文書（以下、元文書と称する）を取り出して、当該元文書の例えば論理構造を解析する。関係解析部１２３ａはまた、元文書に関連する文書（関連文書）を中間データから取得する。関係解析部１２３ａは、取得された関連文書の情報を関連文書情報としてリンクＤＢ１１１ｂに格納する。図２の例では、元文書Ｍの関連文書が文書Ｎであることが示されている。関係解析部１２３ａはまた、文書（元文書及び関連文書）の解析結果に従って、当該文書を当該文書の要素（構成要素）に分割する。図２では、文書（元文書）Ｍが要素Ｍ１乃至Ｍ３に分割される例が示されている。文書解析部１２３ｂは、関係解析部１２３ａによって分割された文書の要素ごとに、その文書のテキストデータを抽出して知識検索用のインデックスを生成する。

次に、ナレッジマネジメントシステム１における動作について、知識データベース構築システム１２による知識データベース構築処理を例に図３のフローチャートを参照して説明する。

まず情報収集部１２１は、例えば管理者によって与えられた知識情報収集条件に従って、当該収集条件に合致した公開データを公開情報ソース２から収集し、当該収集された公開データをインデックス構築のための中間データとして中間データ格納ユニット１２２に一時的に格納する（ステップＳ１）。ここでは、収集条件で指定された公開情報ソース２内の起点ＵＲＬから、任意の階層数のハイパーリンクを辿って当該収集条件で指定された件数の文書が収集される。中間データ格納ユニット１２２に格納された中間データは、文書（元文書）Ｘ，Ｙ及びＺを含む文書（文書データ）の集合であるものとする。情報収集部１２１によって収集された文書集合中の各文書には、当該情報収集部１２１によって当該文書に固有の識別子（文書ＩＤ）が付与される。

インデックス更新部１２３の関係解析部１２３ａは、中間データ格納ユニット１２２に格納されている公開データ（つまり中間データ）から未処理の文書（元文書）を１つ取り出す（ステップＳ２，Ｓ３）。関係解析部１２３ａは、取り出された文書の論理構造（例えば章立て）を解析し、その解析結果に基づいて当該文書を文書の要素に分割する（ステップＳ４）。

関係解析部１２３ａは、取り出された文書（元文書）内の添付ファイル、或いは当該文書内に埋め込まれているハイパーリンク等に基づき、当該文書の関連文書（子文書）が存在するかを調べる（ステップＳ５）。もし、取り出された文書の関連文書が存在するならば、関係解析部１２３ａは当該関連文書の情報を関連文書情報としてリンクＤＢ１１１ｂに格納する（ステップＳ６）。このリンクＤＢ１１１ｂに格納される関連文書情報は、関連文書の実体へのパス（関連文書の実体の所在）を表す情報、例えばＵＲＬ（Uniform Resource Locator）と、当該関連文書の文書ＩＤ及び当該関連文書の親文書（元文書）の文書ＩＤの対（つまり親−子の関係を表す文書ＩＤの対）とを含む。

関係解析部１２３ａによってステップＳ４で元文書から分割された文書要素は文書解析部１２３ｂに渡される。文書解析部１２３ｂは、関係解析部１２３ａから渡された文書要素の各々から、テキスト部分（テキストデータ）を取得する（ステップＳ７）。文書解析部１２３ｂは、取得されたテキストの各々を例えば形態素解析することで、検索用のインデックス（インデックス情報）を生成して、当該インデックスをインデックスＤＢ１１１ａに格納する（ステップＳ８）。

関係解析部１２３ａは、文書解析部１２３ｂによってインデックスＤＢ１１１ａに格納されたインデックス情報に対応する元文書のＵＲＬ及び当該元文書の文書ＩＤを含む情報を関連文書情報としてリンクＤＢ１１１ｂに格納する（ステップＳ９）。ここで、元文書の親文書が存在するならば、当該親文書の文書ＩＤが関連文書情報に付される。

知識データベース構築システム１２における上述の処理、即ちステップＳ４乃至Ｓ９は、中間データに含まれている全ての文書について繰り返される（ステップＳ２）。

以上の知識データベース構築処理の具体例について、図３のフローチャートに加えて図４乃至図８をも参照して説明する。図４及び図５は情報収集部１２１によって収集される文書の例を示す図、図６は収集された文書の集合が中間データとして中間データ格納ユニット１２２に格納される様子を示す図、図７は文書の分割例を示す図、図８はインデックスＤＢ１１１ａに格納される文書のインデックス情報とリンクＤＢ１１１ｂに格納される関連文書情報の具体例を示す図である。

まず、図４に示す文書Ｘ（文書４１）、文書Ｙ（文書４２）、文書Ｙ１（文書４２１）及び文書Ｙ２（文書４２２）と、図５に示す文書Ｚ（文書４３）とが情報収集部１２１によって収集されたものとする（ステップＳ１）。ここで、文書Ｙは、図４に示されるように、文書Ｙ１及びＹ２へのリンク（ハイパーリンク）を含むものとする。図６には、収集された文書の一覧がテーブル形式で示されている。図６の例では、文書Ｘ，Ｙ，Ｙ１，Ｙ２及びＺには、文書ＩＤとして、それぞれ１００，２００，３００，４００及び５００が付与されている。これらの文書（元文書）Ｘ，Ｙ，Ｙ１，Ｙ２及びＺの各々のデータは、上記ステップＳ１の処理でファイルデータとして、図４において矢印６０で示すように中間データ格納ユニット１２２に格納される。

中間データ格納ユニット１２２に格納された文書Ｘ，Ｙ，Ｙ１，Ｙ２及びＺはインデックス更新部１２３内の関係解析部１２３ａによって順次取り出される（ステップＳ３）。今、文書Ｘが取り出されたものとする。文書Ｘは、他の文書へのリンクを有しておらず、かつ他の文書からもリンクされていない（図４参照）。つまり文書Ｘの関連文書は存在しない。この場合、リンクＤＢ１１１ｂには、図８に示すように、文書ＸのＵＲＬ及び文書ＩＤ＝１００を含む関連文書情報８１が格納される（ステップＳ９）。この文書Ｘの関連文書情報８１は、当該文書Ｘの親文書が存在しないことから、親文書のＩＤを含まない。また、文書Ｘ（文書ＩＤ＝１００）の（テキスト部分の）インデックス（文書Ｘが複数の文書要素に分割された場合には、当該要素ごとのインデックス）がインデックスＤＢ１１１ａに格納される（ステップＳ８）。

次に、文書Ｙが取り出されたものとする。文書Ｙは、文書Ｙ１及びＹ２へのリンクを有する（図４参照）。このため、リンクＤＢ１１１ｂには、図８に示すように、文書Ｙ１のＵＲＬ及び文書ＩＤ＝３００を含む関連文書情報８３と、文書Ｙ２のＵＲＬ及び文書ＩＤ＝４００を含む関連文書情報８４とが格納される（ステップＳ６）。関連文書情報８３及び８４は、それぞれ文書ＩＤ＝３００及び文書ＩＤ＝４００の文書の親文書が文書Ｙであることから、当該文書Ｙの文書ＩＤ＝２００を親文書ＩＤとして含む。また、文書Ｙ（文書ＩＤ＝２００）の要素ごとのインデックスがインデックスＤＢ１１１ａに格納される（ステップＳ８）。更に、文書ＹのＵＲＬ及び文書ＩＤ＝２００を含む関連文書情報８２が格納される（ステップＳ９）。この文書Ｙの関連文書情報８２は、当該文書Ｙの親文書が存在しないことから、親文書のＩＤを含まない。

次に、文書Ｙ１及びＹ２が順次取り出された場合には、当該文書Ｙ１（文書ＩＤ＝３００）及びＹ２（文書ＩＤ＝４００）のインデックスがインデックスＤＢ１１１ａに格納される（ステップＳ８）。

次に、文書Ｚが取り出された場合には、当該文書Ｚの論理構造の解析により、箇条書きの各項目がそれぞれ１文書として扱われる。これにより文書Ｚが、図７に示すように、３つの文書Ｚ１，Ｚ２及びＺ３に分割される。この文書Ｚ１，Ｚ２及びＺ３は、文書Ｚの子文書と見なされて、文書ＩＤとしてそれぞれ５１０，５２０及び５３０が付与される。この場合、リンクＤＢ１１１ｂには、図８に示すように、文書Ｚ１のＵＲＬ及び文書ＩＤ＝５１０を含む関連文書情報８６と、文書Ｚ２のＵＲＬ及び文書ＩＤ＝５２０を含む関連文書情報８７と、文書Ｚ３のＵＲＬ及び文書ＩＤ＝５３０を含む関連文書情報８８とが格納される（ステップＳ６）。関連文書情報８６，８７及び８８は、いずれも文書Ｚの文書ＩＤ＝５００を親文書ＩＤとして含む。

また、文書Ｚ（文書ＩＤ＝５００）の要素ごと（文書Ｚ１，Ｚ２，Ｚ３の各々）のインデックスがインデックスＤＢ１１１ａに格納される（ステップＳ８）。更に、文書ＺのＵＲＬ及び文書ＩＤ＝５００を含む関連文書情報８５が格納される（ステップＳ９）。この文書Ｚの関連文書情報８５は、当該文書Ｚの親文書が存在しないことから、親文書のＩＤを含まない。

次に、ナレッジマネジメントシステム１の知識検索システム１１に含まれている知識検索部１１２による知識検索処理について説明する。
まず、本実施形態の知識検索処理で適用される判定手法の概要について説明する。この判定手法は、ユーザからの検索のための問い合わせに従う検索で知識データベース１１１から取得された文書の内容のユーザにとっての重要さ（つまり内容の「濃さ」）を判定するのに用いられる。以下の説明では、ユーザの問い合わせた条件に合致する程度を表す評価値をスコア（検索スコア）と呼ぶ。

本実施形態で適用される判定手法の概要は次の通りである。
（１）ユーザの問い合わせた条件に合致（ヒット）した文書のスコアを親子間（親文書と子文書との間）で比較することで、子文書の内容の「濃さ」の程度を判定
親文書のスコア＞子文書のスコア
→子文書にはユーザにとってそれほど必要でないインデックスやサマリが記載されている
→子文書の内容の「濃さ」の程度は低い
親文書のスコア＜子文書のスコア
→子文書には親文書よりも詳細なユーザにとって必要な内容が記載されている
→子文書の内容の「濃さ」の程度は高い
（２）どの子文書よりもスコアの低い親文書にはインデックスやサマリが記載されている。
（３）親子で共通してヒットしている文書の群は意味のあるまとまりである。
（４）他から参照されている文書は、単独の文書よりまとまった意味を持つ。

また、上記判定手法では、「重み」と呼ぶ概念が適用される。「重み」を適用する前提として、関連する文書（後述する出典文書、関連文書）の数が多い文書ほど、検索で目的とする内容（ユーザの問い合わせに合致した内容）に近い文書であるとする。この近さを文書の「重み」と呼び、検索結果の処理時に、ヒット文書ごとに当該「重み」がカウントされる。「重み」の初期値は０である。文書の「重み」は、当該文書と関連する文書が検出されるごとに１インクリメントされる。したがって、他の文書との関連を全く持たない文書の「重み」は初期値０のままとなる。

次に、上述の判定手法を適用する知識検索システム１１による知識検索処理について図９のフローチャートを参照して説明する。
まずユーザ４は、クライアント端末３の入力装置を用いて知識検索のための検索要求を入力するための操作を行ったものとする。すると、この検索要求を示す問い合わせ（クエリ）がクライアント端末３によりナレッジマネジメントシステム１に発行される。このクエリは、キーワードまたは自然文（質問文）で記述することができる。ナレッジマネジメントシステム１内のユーザインタフェース１３は、クライアント端末３により発行されたクエリを入力して受け付ける（ステップＳ１１）。

ユーザインタフェース１３は、受け付けたクエリを、知識検索部１１２で適用されるプロトコル（検索プロトコル）に変換する（ステップＳ１２）。ユーザインタフェース１３によって変換されたクエリは、当該インタフェース１３によって知識検索システム１１の知識検索部１１２に転送される。

知識検索部１１２は、ユーザインタフェース１３から転送されたクエリに基づき、知識データベース１１１内のインデックスＤＢ１１１ａを検索し、検索された文書ごとにスコア計算を行うことで、スコアを含む検索結果を表す文書群（検索結果文書群）を取得する（ステップＳ１３）。この文書群は、例えばスコアの高い順にソートされる。この点は、従来技術と同様である。知識検索部１１２は、検索結果文書群の中に、予め定められた閾値よりも高いスコアの文書、つまりヒット文書があるかを調べる（ステップＳ１４）。

もし、ヒット文書が１件もなければ、知識検索部１１２は後述するステップＳ１７に進む。これに対し、ヒット文書があるならば、知識検索部１１２はヒット文書ごとに、ステップＳ１５１から開始される以下の処理をループする（ステップＳ１５）。

まず知識検索部１１２は、未処理のヒット文書Ｄｉを１つ選択して、当該ヒット文書（現文書）Ｄｉの親文書のＩＤを取得するために、当該文書ＤｉのＩＤをもとにリンクＤＢ１１１ｂから当該文書Ｄｉの関連文書情報を検索する（ステップＳ１５１）。次に知識検索部１１２は、ヒット文書Ｄｉの関連文書情報を参照して、当該文書Ｄｉの親文書ＤｐのＩＤが含まれているか、つまり当該文書Ｄｉの親文書Ｄｐが存在するかを判定する（ステップＳ１５２）。

もし、文書Ｄｉの親文書Ｄｐが存在しないならば、知識検索部１１２は当該文書Ｄｉを他の文書との関連性では評価できないとして、当該文書Ｄｉの「重み」を操作するのを控える。これに対し、文書Ｄｉの親文書Ｄｐが存在するならば、知識検索部１１２は当該親文書Ｄｐがヒット文書であるかを判定する（ステップＳ１５３）。もし、親文書Ｄｐがヒット文書でないならば、知識検索部１１２は文書Ｄｉ自体にユーザにとって必要な内容が含まれている可能性があることから、当該文書Ｄｉの「重み」を１インクリメントする（ステップＳ１５４）。これに対し、親文書Ｄｐがヒット文書であるならば、知識検索部１１２は、ヒット文書群の中から、文書Ｄｉと同じように、当該文書Ｄｐを親とする文書（子文書）Ｄｊの集合を取り出す（ステップＳ１５５）。このステップＳ１５５において、知識検索部１１２は、当該文書Ｄｐを親とするヒット文書（子文書）Ｄｊの数を、当該文書（親文書）Ｄｐから参照される文書の数を表す参照数の初期値として保持する。

次に知識検索部１１２は、文書Ｄｐを親とするヒット文書（子文書）Ｄｊごとに、ステップＳ１５６ａから開始される以下の処理をループする（ステップＳ１５６）。
まず知識検索部１１２は、未処理のヒット文書Ｄｊを１つ選択して、当該文書ＤｊのスコアＳｊと当該文書Ｄｊの親文書ＤｐのスコアＳｐとを比較する（ステップＳ１５６ａ）。もし、Ｓｊ＜Ｓｐである場合、知識検索部１１２は親文書Ｄｐの方が文書（子文書）Ｄｊより重要であると判定して、当該親文書Ｄｐの「重み」を１インクリメントする（ステップＳ１５６ｂ）。また知識検索部１１２は、ヒット文書群から現在処理対象となっている文書（子文書）Ｄｊを取り除き、当該文書Ｄｊを文書Ｄｐの「関連文書」として保持する（ステップＳ１５６ｃ）。

一方、Ｓｊ≧Ｓｐである場合には、知識検索部１１２は現在処理対象となっている文書（子文書）Ｄｊの方が親文書Ｄｐより重要であると判定して、当該文書Ｄｊの「重み」を１インクリメントする（ステップＳ１５６ｄ）。また知識検索部１１２は、文書Ｄｐの参照数を１つ減らし、当該文書Ｄｐを当該文書Ｄｐの子文書Ｄｊの「出典文書」として保持する（ステップＳ１５６ｅ）。

知識検索部１１２は、ステップＳ１５５で取り出された、文書Ｄｐを親とする全ての子文書Ｄｊについて、ステップＳ１５６ａ乃至Ｓ１５６ｅの処理をループすると（ステップＳ１５６）ステップＳ１５７に進む。このステップＳ１５７において、知識検索部１１２は、現在処理対象となっているヒット文書Ｄｉの親文書Ｄｐの参照数が０である場合、つまり当該親文書ＤｐのスコアＳｐがどの子文書ＤｊのスコアＳｊよりも低かった場合、当該文書Ｄｐをヒット文書群から取り除く。

知識検索部１１２は、１つのヒット文書ＤｉについてステップＳ１５１乃至Ｓ１５７の処理を実行すると、ステップＳ１５へ戻り、次のヒット文書Ｄｉを処理する。知識検索部１１２は、全てのヒット文書Ｄｉについて、ステップＳ１５１乃至Ｓ１５７の処理をループすると、ステップＳ１６に進む。このステップＳ１６において、知識検索部１１２は現時点におけるヒット文書群をソートする。ここで知識検索部１１２は、ソートの１次キーを「スコア」とし、２次キーを「重み」とする。知識検索部１１２は、このソート後のヒット文書群の情報を、ユーザからのクエリに対する検索結果としてユーザインタフェース１３に送出する。ユーザインタフェース１３は、知識検索部１１２から送られた検索結果からユーザ４に提示するための検索結果（検索結果画面情報）を生成してクライアント端末３に返す。

次に、上述の知識検索システム１１（内の知識検索部１１２）による知識検索処理の具体例について、図１０乃至図１３を参照して説明する。図１０は収集された文書群の階層構造を当該文書群を対象とする検索処理で得られる文書毎のスコアと共に示す図、図１１は図１０の文書群に対する検索処理の結果であって、ヒット文書をスコア順にソートした結果を示す図である。また、図１２は図１１の検索結果に含まれる各ヒット文書の「重み」を、当該「重み」の内訳と共に示す図、図１３は図１２に示す「重み」取得後のヒット文書を、スコアを最優先に、次に「重み」を優先させてソートした検索結果を示す図である。

まず、公開情報ソース２（例えばＷｅｂサーバまたはＷｅｂサイト）から図１０に示すツリー構造を持つ文書群が収集されて、当該文書群の文書毎のインデックス情報がインデックスＤＢ１１１ａに格納されているものとする。ここでは、説明を簡略化するために、１つの文書が複数の親文書を持たないことを前提としている。この状態で、ユーザ指定のクエリに基づき、インデックスＤＢ１１１ａを検索した結果、図１０中の各文書ごとに、図１０において括弧で示されるスコアが検索結果として得られたものとする（ステップＳ１３）。この場合、スコアが予め定められた閾値（例えば１０）以上の検索結果（検索結果文書群）は、図１１に示すように、スコアの高い順にソートされる。また、同一スコアの文書群は図１１に示すようにＩＤ順にソートされる。従来技術では、この図１１に示すソート結果が検索結果としてユーザ４に提示される。しかし、図１１に示す検索結果では、例えばスコアが同じ複数の文書が存在する場合に、いずれの文書の方がユーザにとってより必要な内容を多く含むか識別できない。また、あるヒット文書が添付されていた親文書や当該ヒット文書の前後の文書の内容を辿ることができず、それ以上の「知識」を得ることは難しい。

そこで本実施形態では、上述した図９のフローチャートに従う知識検索処理の中で、全てのヒット文書について、当該文書と関連する文書（出典文書、関連文書）の数を反映した「重み」が取得される構成を適用している。

図１１の検索結果に含まれる各ヒット文書の「重み」を、当該「重み」の内訳と共に図１２に示す。なお、図１２における順位には、図１１に示す順位が用いられている。図１２の例では、同一スコアの例えば文書Ｃ及びＤ（文書ＩＤが、それぞれＣ及びＤの文書）の間で「重み」が異なる。また、ヒット文書群の中で、親文書よりスコアの低い子文書、例えば文書Ｄ２，Ｄ３及びＡ３２は、ユーザにとって必要な内容を十分に含んでいないとして、ヒット文書群から削除される（Ｓ１５６ｃ）。同様に、ヒット文書群の中で、どの子文書よりもスコアが低い親文書、例えば文書Ａも、ユーザにとって必要な内容を十分に含んでいないとして、ヒット文書群から削除される（Ｓ１５７）。

図１２に示す「重み」取得後のヒット文書を、スコアを最優先に、次に「重み」を優先させてソートすると、図１３に示すソート結果が得られる（ステップＳ１６）。但し、図１２に示すヒット文書は既にスコア順、ＩＤ順にソートされていることから、同一スコアのヒット文書の集合の中で、重み順にソートすれば良い。図１３のソート結果では、スコアが最も高い２つのヒット文書Ｃ及びＤのうち重みが高い方の文書Ｄが第１位となっている。したがって、この図１３のソート結果をユーザインタフェース１３が知識検索部１１２から受けてクライアント端末３を介してユーザ４に提示することで、ユーザ４は同一スコアのヒット文書Ｃ及びＤのうちの文書Ｄを、自身にとってより必要な内容を多く含むと判断することができる。

また、本実施形態においては、図７に示す文書Ｚ（４３）の例のように、文書の論理構造に従って、当該文書を要素ごとに分割し、各要素を元の文書の子文書（図７の例では文書Ｚ１，Ｚ２，Ｚ３）として関連付けて、対応するインデックスを生成している。これにより、ユーザの要求した内容に近い文書を容易に検索することが可能である。しかも、文書の要素ごとに単に当該文書から独立した文書としてインデックスが生成されるのと異なり、文書の各要素を当該文書の子文書として扱いながら、その要素の特徴に対応したスコアが、元の文書と関連付けて取得される。このため、後述するように、ヒット文書（要素）の内容が、どのような構文（シンタックス）や前後関係で記述されたか識別可能となる。よって、ユーザが望んだ検索結果を効率的に得ることができる。

次に、図１３に示す検索結果をユーザインタフェース１３によりクライアント端末３を介してユーザ４に提示するための処理について、（１）Ｗｅｂサーバ（Ｗｅｂサイト）から収集された文書の集合を対象とした検索、及び、（２）添付ファイルのあるファイルの集合を対象とした検索とに分けて、それぞれ図１４及び図１５を参照して説明する。図１４は図１３に示す検索結果がＷｅｂサーバから収集された文書の集合を対象とした検索の結果である場合において、当該検索結果に基づいてユーザに提示される検索結果一覧画面と、当該一覧画面内のタイトルが選択されることによりユーザに提示される確認画面の例とを示す図である。図１５は図１３に示す検索結果が添付ファイルのあるファイルの集合を対象とした検索の結果である場合において、当該検索結果に基づいてユーザに提示される検索結果一覧画面と、当該一覧画面内のタイトルが選択されることによりユーザに提示される、リンクボタン領域１５３を含む確認画面の例とを示す図である。

（１）Ｗｅｂサーバから収集された文書の集合を対象とした検索の場合の表示
ユーザインタフェース１３は、図１３に示す検索結果に基づき、図１４に示す検索結果一覧画面１４１の情報を生成してクライアント端末３に送出することで、当該検索結果一覧画面１４１をクライアント端末３の表示装置に表示させる。この検索結果一覧画面１４１には、検索された文書（ヒット文書）の識別情報としての例えばタイトルが、検索結果順位の並びで表示される。また、タイトルの近傍には、当該タイトルの文書の識別情報としての当該文書の要約（要旨）が表示される。

また、検索結果一覧画面１４１に表示されるタイトル（下線部）には、例えば当該タイトルの文書の本文（テキスト）へのリンク（ハイパーリンク）が設定されている。このため、検索結果一覧画面１４１からユーザ４がクライアント端末３の入力装置（例えばマウス）を用いて任意のタイトルを選択する操作を行うと、ユーザインタフェース１３は、選択されたタイトルの文書の本文をクライアント端末３により表示させることができる。これにより、例えば検索結果順位が１位の文書Ｄのタイトルが選択された場合、当該文書Ｄの本文を含む確認画面１４２が表示される。ここでは、確認画面１４２は、文書Ｄの本文の他に、当該文書Ｄのタイトル及び要約を含む。確認画面１４２に表示される本文には、関連文書Ｄ２及びＤ３へのリンク１４２ａ及び１４２ｂがそれぞれ設定されている。このリンクの設定により、検索された文書の内容だけでなく、次の「知識」を得るためのヒントとなるような情報を提示できる。しかも、ユーザ４がリンク１４２ａまたは１４２ｂを選択するならば、ユーザインタフェース１３は、関連文書Ｄ２またはＤ３の本文を含む確認画面をクライアント端末３の表示装置に表示させることができる。

同様に、例えば検索結果順位が４位の文書Ａ３のタイトルが選択された場合、当該文書Ａ３の本文を含む確認画面１４３が表示される。この確認画面１４３に表示される本文には、関連文書Ａ３２へのリンク１４３ａが設定されている。したがって、ユーザ４がリンク１４３ａを選択するならば、ユーザインタフェース１３は、関連文書Ａ３２の本文を含む確認画面を表示させることができる。確認画面１４３は、文書Ａ３の出典文書Ａへのリンク１４３ｂを含む。このリンク１４３ｂが選択された場合、出典文書Ａの本文を含む確認画面が表示される。また、確認画面１４３は、出典文書Ａを共通に持つ他の文書（ここでは文書Ａ２）へのリンク１４３ｃも含む。このリンク１４３ｃが選択された場合、文書Ａ２の本文を含む確認画面が表示される。

（２）添付ファイルのあるファイルの集合を対象とした検索の場合の表示
ユーザインタフェース１３は、図１３に示す検索結果に基づき、図１４の検索結果一覧画面１４１と同様の、図１５に示す検索結果一覧画面１５１をクライアント端末３の表示装置に表示させる。タイトルには、当該タイトルの文書に添付されているファイルへのリンクが設定されている。

検索結果一覧画面１５１からユーザ４が任意のタイトルを選択する操作を行うと、ユーザインタフェース１３は、選択されたタイトルに添付されているファイルを知識検索部１１２を介して取得して、当該ファイルの実体を確認画面上で開かせる。図１５には、検索結果順位が４位の文書Ａ３のファイルの実体が確認画面１５２上で開かれている状態が示されている。この確認画面１５２上にはリンクボタン領域１５３が確保されている。リンクボタン領域１５３には、文書Ａ３の関連文書Ａ３２であるとされた添付ファイルＡ３２へのリンクが設定されたリンクボタン１５３ａと、文書Ａ３の出典文書Ａであるとされた添付元ファイルＡへのリンクが設定されたリンクボタン１５３ｂとが配置されている。これにより、検索された文書の内容だけでなく、次の「知識」を得るためのヒントとなるような情報を提示できる。

リンクボタン領域１５３中のリンクボタン１５３ａが選択されると、確認画面１５２上に開かれているファイルＡ３の実体中の、当該リンクボタン１５３ａでリンクされているファイルＡ３２の添付位置へ例えばカーソルがジャンプする。同様に、リンクボタン領域１５３中のリンクボタン１５３ｂが選択されると、当該リンクボタン１５３ｂでリンクされているファイルＡの実体が開かれて、当該ファイルＡの実体中の、当該リンクボタン１５３ａでリンクされたファイルＡ３２が添付されている位置へ例えばカーソルがジャンプする。

なお、リンクボタン領域１５３を確認画面１５２から分離されたウィンドウに配置して、確認画面１５２から独立させることも可能である。図１６は、図１５中のリンクボタン領域１５３に相当するウィンドウ画面１６０の一例を示す。

また、図１３の検索結果の中に、関連文書として親文書が存在するヒット文書（つまり子文書）が含まれている場合、ユーザインタフェース１３が、図１４または図１５に示す検索結果一覧画面１４１または１５１で、当該ヒット文書（のタイトル）に代えて当該ヒット文書の親文書（のタイトル）を用いるようにしても良い。また、ヒット文書を当該ヒット文書の親文書に代える代わりに、当該ヒット文書の要約に代えて当該ヒット文書の親文書の要約をユーザインタフェース１３が用いるようにしても良い。この他に、ヒット文書自身の要約と当該文書の親文書の要約とを組み合わせた（例えば併記した）要約を用いても良い。図１４に示す確認画面１４２でも同様である。このようにすると、検索結果からユーザが要求した内容に最も近いと判断できる文書を選択する際にヒントとなるような情報を提示できることから、知識データベースを検索した結果を効果的にユーザに提示することができる
上記実施形態では、文書間の関連性（親子関係）として、上述のＷｅｂサーバから収集される文書群のような一方の文書から他方の文書へのハイパーリンクによる参照関係（第１の関係）、上記他方の文書が上記一方の文書に添付されている添付ファイルである関係（第２の関係）、及び上記一方の文書の構造上上記他方の文書が当該一方の文書に含まれている包含関係（第３の関係）が適用される。しかし、これらの関連性の他に、上記他方の文書が上記一方の文書に圧縮されて添付されているデータが解凍されたものである文書要素の親子関係（第４の関係）を適用することも可能である。また、これら第１乃至第４の関係の少なくとも１つを、文書間の関連性として適用することも可能である。

上記第１の関係を適用することにより、Ｗｅｂサイトなどを情報ソースとする知識データベース１１１を構築することが可能となる。また、上記第２の関係を適用することにより、一般的な文書の電子データ、メール、Ｗｅｂサイトなどを情報ソースとする知識データベース１１１を構築することが可能となる。また、上記第３の関係を適用することにより、論文、書籍などを情報ソースとする知識データベース１１１を構築することが可能となる。また、上記第４の関係を適用することにより、上記第２の関係を適用した場合の効果に加えて、通常はインデックス検索の対象とならないような電子データも含めて知識データベース１１１を構築することが可能となる。

また、上記第１乃至第４の関係の中から、ナレッジマネジメントシステム１にて適用すべき関係を、ユーザインタフェース１３がクライアント端末３を介してユーザ４に指定させることも可能である。この場合、１つの文書について、様々な視点から関連文書情報を抽出して、より精度の高い検索が行える知識データベース１１１を構築することが可能となる。

また、ヒット文書に関連文書（親文書）がある場合に、知識検索部１１２が親文書とヒット文書とを併せてスコアを再計算し、その再計算されたスコアを例えば親文書のスコアとする検索結果をユーザインタフェース１３がユーザに提示するようにしても良い。このようにすると、ユーザが要求した内容に近い文書のスコアを相対的に高くすることができるため、ユーザが文書を選択しやすくなる。これにより、効果的な検索結果の提示が可能となる。

また、上記実施形態では、ソートの１次キーに「スコア」が、２次キーに「重み」が、それぞれ用いられている。しかし、ヒット文書ごとの「重み」（または重みに一定の係数を乗じた値）を当該ヒット文書のスコアに加算して、その加算後のスコアで検索結果をソートしても良い。この場合でも、上記実施形態と同様に、ヒット文書ごとのスコアと当該ヒット文書と他の文書との関連性とが検索結果順位に反映された検索結果を取得することができ、ユーザが要求した内容に近い文書のスコアを相対的に高くすることができるため、ユーザが文書を選択しやすくなる。

なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。

本発明の一実施形態に係るナレッジマネジメントシステム１の構成を示すブロック図。図１中のインデックス更新部１２３の構成を、中間データ格納ユニット１２２及び知識データベース１１１と関連付けて示すブロック図。知識データベース構築システム１２による知識データベース構築処理の手順を示すフローチャート。情報収集部１２１によって収集される文書の例を示す図。情報収集部１２１によって収集される文書の例を示す図。収集された文書の集合が中間データとして中間データ格納ユニット１２２に格納される様子を示す図。文書の分割例を示す図。インデックスＤＢ１１１ａに格納される文書のインデックス情報とリンクＤＢ１１１ｂに格納される関連文書情報の具体例を示す図。知識検索システム１１による知識検索処理の手順を示すフローチャート。収集された文書群の階層構造を当該文書群を対象とする検索処理で得られる文書毎のスコアと共に示す図。図１０の文書群に対する検索処理の結果であって、スコアが閾値以上の文書（ヒット文書）をスコア順にソートした結果を示す図。図１１の検索結果に含まれる各ヒット文書の「重み」を、当該「重み」の内訳と共に示す図。図１２に示す「重み」取得後のヒット文書を、スコアを最優先に、次に「重み」を優先させてソートした検索結果を示す図。図１３に示す検索結果がＷｅｂサーバから収集された文書の集合を対象とした検索の結果である場合において、当該検索結果に基づいてユーザに提示される検索結果一覧画面と、当該一覧画面内のタイトルが選択されることによりユーザに提示される確認画面の例とを示す図。図１３に示す検索結果が添付ファイルのあるファイルの集合を対象とした検索の結果である場合において、当該検索結果に基づいてユーザに提示される検索結果一覧画面と、当該一覧画面内のタイトルが選択されることによりユーザに提示される、リンクボタン領域１５３を含む確認画面の例とを示す図。リンクボタン領域１５３に相当するウィンドウ画面１６０の一例を示す図。

符号の説明

１…ナレッジマネジメントシステム（広義の知識検索システム）、２…公開情報ソース、３…クライアント端末、４…ユーザ、１１…知識検索システム（狭義の知識検索システム）、１２…知識データベース構築システム、１３…ユーザインタフェース、１１１…知識データベース、１１１ａ…インデックスＤＢ（インデックスデータベース）、１１１ｂ…リンクＤＢ（リンクデータベース）、１２１…情報収集部、１２２…中間データ格納ユニット、１２３…インデックス更新部、１２３ａ…関係解析部、１２３ｂ…文書解析部。

Claims

文書情報から生成された検索用のインデックス情報が格納されたインデックスデータベースを対象にユーザからの検索要求に基づく検索を実行する知識検索システムにおいて、
前記インデックスデータベースに格納されたインデックス情報の示す文書の文書ＩＤ及び当該文書に関連する文書の文書ＩＤの対を含む関連文書情報を格納するリンクデータベースと、
公開されている文書情報を収集する情報収集手段と、
前記情報収集手段によって収集された文書情報から、検索用のインデックス情報を生成して前記インデックスデータベースに格納するインデックス更新手段であって、前記収集された文書情報の示す文書の文書ＩＤ及び当該文書に関連する文書の文書ＩＤの対を含む関連文書情報を前記リンクデータベースに格納するインデックス更新手段と、
前記ユーザからの検索要求を入力すると共に、当該検索要求に従う検索の結果をユーザに提示するユーザインタフェースと、
前記ユーザインタフェースによって入力された検索要求に基づいて前記インデックスデータベースを検索し、少なくとも前記検索要求にヒットしたヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得する検索手段と
を具備し、
前記インデックス更新手段は、
前記情報収集手段によって収集された文書情報の示す文書の各々について、当該文書を当該文書の構造に基づく文書要素ごとに分割し、当該文書を親文書とし、当該分割された文書要素を当該文書の子文書とし、当該親文書の文書ＩＤ及び当該子文書の文書ＩＤの対を含む前記関連文書情報を生成して前記リンクデータベースに格納する関係解析手段と、
前記関係解析手段によって分割された文書要素ごとに前記インデックス情報を生成する文書解析手段と
を含み、
前記検索手段は、前記ヒット文書ごとに、前記リンクデータベースに格納された関連文書情報に従って親文書が存在するかを判定すると共に、当該親文書が存在する場合には、当該親文書がヒット文書であるかを判定し、当該親文書がヒット文書である場合、ヒット文書の集合に含まれている当該親文書の全ての子文書について、当該子文書及び当該親文書の検索スコアを比較して、当該親文書の検索スコアより低い子文書を前記ヒット文書の集合から削除し、当該ヒット文書の集合に含まれている当該親文書の全ての子文書のどれよりも検索スコアの低い親文書を前記ヒット文書の集合から削除し、前記ヒット文書の集合に残っているヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得する
ことを特徴とする知識検索システム。
文書情報から生成された検索用のインデックス情報が格納されたインデックスデータベースを対象にユーザからの検索要求に基づく検索を実行する知識検索システムにおいて、
前記インデックスデータベースに格納されたインデックス情報の示す文書の文書ＩＤ及び当該文書に関連する文書の文書ＩＤの対を含む関連文書情報を格納するリンクデータベースと、
公開されている文書情報を収集する情報収集手段と、
前記情報収集手段によって収集された文書情報から、検索用のインデックス情報を生成して前記インデックスデータベースに格納するインデックス更新手段であって、前記収集された文書情報の示す文書の文書ＩＤ及び当該文書に関連する文書の文書ＩＤの対を含む関連文書情報を前記リンクデータベースに格納するインデックス更新手段と、
前記ユーザからの検索要求を入力すると共に、当該検索要求に従う検索の結果をユーザに提示するユーザインタフェースと、
前記ユーザインタフェースによって入力された検索要求に基づいて前記インデックスデータベースを検索し、少なくとも前記検索要求にヒットしたヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得する検索手段と
を具備し、
前記インデックス更新手段は、前記収集された文書情報の示す文書及び当該文書に関連する文書間において、一方の文書から他方の文書へのハイパーリンクによる参照関係、前記他方の文書が前記一方の文書に含まれている包含関係、前記他方の文書が前記一方の文書に添付されている添付ファイルである関係、または前記他方の文書が前記一方の文書に圧縮されて添付されているデータが解凍されたものである関係の場合、前記一方の文書を親文書、前記他方の文書を子文書として、当該親文書の文書ＩＤ及び当該子文書の文書ＩＤの対を含む関連文書情報を前記リンクデータベースに格納し、
前記検索手段は、前記ヒット文書ごとに、前記リンクデータベースに格納された関連文書情報に従って親文書が存在するかを判定すると共に、当該親文書が存在する場合には、当該親文書がヒット文書であるかを判定し、当該親文書がヒット文書である場合、ヒット文書の集合に含まれている当該親文書の全ての子文書について、当該子文書及び当該親文書の検索スコアを比較して、当該親文書の検索スコアより低い子文書を前記ヒット文書の集合から削除し、当該ヒット文書の集合に含まれている当該親文書の全ての子文書のどれよりも検索スコアの低い親文書を前記ヒット文書の集合から削除し、前記ヒット文書の集合に残っているヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得する
ことを特徴とする知識検索システム。
前記検索手段は、前記子文書及び当該子文書の親文書の検索スコアを比較した結果、前記親文書の方が前記検索スコアが高い場合には、当該親文書が前記検索で目的とする内容に近い文書であることを表す当該親文書の重みをインクリメントし、前記子文書の方が前記検索スコアが高い場合には、当該子文書が前記検索で目的とする内容に近い文書であることを表す当該子文書の重みをインクリメントし、前記ヒット文書ごとの検索スコア及び当該文書の重みの順に当該ヒット文書がソートされた検索結果を取得することを特徴とする請求項１または２記載の知識検索システム。
前記ユーザインタフェースは、検索要求に従う検索の結果を、ヒット文書と当該ヒット文書の検索結果順位とが識別可能な文書一覧の形式でユーザに提示し、前記文書一覧から任意の文書が選択され、かつ当該選択された文書と関連している文書が存在する場合には、当該選択された文書の内容と、当該関連している文書の存在が識別可能でかつユーザにより選択可能な識別情報とをユーザに提示することを特徴とする請求項１または２記載の知識検索システム。
前記ユーザインタフェースは、前記識別情報がユーザによって選択され、かつ当該選択された識別情報によって識別される文書と関連している文書が存在する場合には、当該選択された文書の内容と、当該関連している文書の存在が識別可能でかつユーザにより選択可能な識別情報とをユーザに提示することを特徴とする請求項４記載の知識検索システム。
文書情報から生成された検索用のインデックス情報が格納されたインデックスデータベースを対象にユーザからの検索要求に基づく検索を実行し、前記インデックスデータベースに格納されたインデックス情報の示す文書の文書ＩＤ及び当該文書に関連する文書の文書ＩＤの対を含む関連文書情報を格納するリンクデータベースと、情報収集手段と、インデックス更新手段と、ユーザインタフェースと、検索手段とを備える知識検索システムが実行する知識検索方法であって、
前記情報収集手段が、公開されている文書情報を収集するステップと、
前記インデックス更新手段が、前記収集された文書情報から、検索用のインデックス情報を生成して前記インデックスデータベースに格納し、前記収集された文書情報の示す文書の文書ＩＤ及び当該文書に関連する文書の文書ＩＤの対を含む関連文書情報を前記リンクデータベースに格納するステップと、
前記ユーザインタフェースが、前記ユーザからの検索要求を入力すると共に、当該検索要求に従う検索の結果をユーザに提示するステップと、
前記検索手段が、前記入力された検索要求に基づいて前記インデックスデータベースを検索し、少なくとも前記検索要求にヒットしたヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得するステップと、
前記インデックス更新手段が、前記収集された文書情報の示す文書の各々について、当該文書を当該文書の構造に基づく文書要素ごとに分割し、当該文書を親文書とし、当該分割された文書要素を当該文書の子文書とし、当該親文書の文書ＩＤ及び当該子文書の文書ＩＤの対を含む前記関連文書情報を生成して前記リンクデータベースに格納するステップと、
前記インデックス更新手段が、前記分割された文書要素ごとに前記インデックス情報を生成するステップと、
前記検索手段が、前記ヒット文書ごとに、前記リンクデータベースに格納された関連文書情報に従って親文書が存在するかを判定すると共に、当該親文書が存在する場合には、当該親文書がヒット文書であるかを判定し、当該親文書がヒット文書である場合、ヒット文書の集合に含まれている当該親文書の全ての子文書について、当該子文書及び当該親文書の検索スコアを比較して、当該親文書の検索スコアより低い子文書を前記ヒット文書の集合から削除し、当該ヒット文書の集合に含まれている当該親文書の全ての子文書のどれよりも検索スコアの低い親文書を前記ヒット文書の集合から削除し、前記ヒット文書の集合に残っているヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得するステップと
を具備することを特徴とする知識検索方法。
文書情報から生成された検索用のインデックス情報が格納されたインデックスデータベースを対象にユーザからの検索要求に基づく検索を実行し、前記インデックスデータベースに格納されたインデックス情報の示す文書の文書ＩＤ及び当該文書に関連する文書の文書ＩＤの対を含む関連文書情報を格納するリンクデータベースと、情報収集手段と、インデックス更新手段と、ユーザインタフェースと、検索手段とを備える知識検索システムが実行する知識検索方法であって、
前記情報収集手段が、公開されている文書情報を収集するステップと、
前記インデックス更新手段が、前記収集された文書情報から、検索用のインデックス情報を生成して前記インデックスデータベースに格納し、前記収集された文書情報の示す文書の文書ＩＤ及び当該文書に関連する文書の文書ＩＤの対を含む関連文書情報を前記リンクデータベースに格納するステップと、
前記ユーザインタフェースが、前記ユーザからの検索要求を入力すると共に、当該検索要求に従う検索の結果をユーザに提示するステップと、
前記検索手段が、前記入力された検索要求に基づいて前記インデックスデータベースを検索し、少なくとも前記検索要求にヒットしたヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得するステップと、
前記インデックス更新手段が、前記収集された文書情報の示す文書及び当該文書に関連する文書間において、一方の文書から他方の文書へのハイパーリンクによる参照関係、前記他方の文書が前記一方の文書に含まれている包含関係、前記他方の文書が前記一方の文書に添付されている添付ファイルである関係、または前記他方の文書が前記一方の文書に圧縮されて添付されているデータが解凍されたものである関係の場合、前記一方の文書を親文書、前記他方の文書を子文書として、当該親文書の文書ＩＤ及び当該子文書の文書ＩＤの対を含む関連文書情報を前記リンクデータベースに格納するステップと、
前記検索手段が、前記ヒット文書ごとに、前記リンクデータベースに格納された関連文書情報に従って親文書が存在するかを判定すると共に、当該親文書が存在する場合には、当該親文書がヒット文書であるかを判定し、当該親文書がヒット文書である場合、ヒット文書の集合に含まれている当該親文書の全ての子文書について、当該子文書及び当該親文書の検索スコアを比較して、当該親文書の検索スコアより低い子文書を前記ヒット文書の集合から削除し、当該ヒット文書の集合に含まれている当該親文書の全ての子文書のどれよりも検索スコアの低い親文書を前記ヒット文書の集合から削除し、前記ヒット文書の集合に残っているヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得するステップと
を具備することを特徴とする知識検索方法。
文書情報から生成された検索用のインデックス情報が格納されたインデックスデータベースを対象にユーザからの検索要求に基づく検索を実行し、前記インデックスデータベースに格納されたインデックス情報の示す文書の文書ＩＤ及び当該文書に関連する文書の文書ＩＤの対を含む関連文書情報を格納するリンクデータベースを備える知識検索システムのコンピュータによって実行されるプログラムであって、
前記コンピュータに、
公開されている文書情報を収集するステップと、
前記収集された文書情報から、検索用のインデックス情報を生成して前記インデックスデータベースに格納し、前記収集された文書情報の示す文書の文書ＩＤ及び当該文書に関連する文書の文書ＩＤの対を含む関連文書情報を前記リンクデータベースに格納するステップと、
前記ユーザからの検索要求を入力すると共に、当該検索要求に従う検索の結果をユーザに提示するステップと、
前記入力された検索要求に基づいて前記インデックスデータベースを検索し、少なくとも前記検索要求にヒットしたヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得するステップと、
前記収集された文書情報の示す文書の各々について、当該文書を当該文書の構造に基づく文書要素ごとに分割し、当該文書を親文書とし、当該分割された文書要素を当該文書の子文書とし、当該親文書の文書ＩＤ及び当該子文書の文書ＩＤの対を含む前記関連文書情報を生成して前記リンクデータベースに格納するステップと、
前記分割された文書要素ごとに前記インデックス情報を生成するステップと、
前記ヒット文書ごとに、前記リンクデータベースに格納された関連文書情報に従って親文書が存在するかを判定すると共に、当該親文書が存在する場合には、当該親文書がヒット文書であるかを判定し、当該親文書がヒット文書である場合、ヒット文書の集合に含まれている当該親文書の全ての子文書について、当該子文書及び当該親文書の検索スコアを比較して、当該親文書の検索スコアより低い子文書を前記ヒット文書の集合から削除し、当該ヒット文書の集合に含まれている当該親文書の全ての子文書のどれよりも検索スコアの低い親文書を前記ヒット文書の集合から削除し、前記ヒット文書の集合に残っているヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得するステップと
を実行させるためのプログラム。
文書情報から生成された検索用のインデックス情報が格納されたインデックスデータベースを対象にユーザからの検索要求に基づく検索を実行し、前記インデックスデータベースに格納されたインデックス情報の示す文書の文書ＩＤ及び当該文書に関連する文書の文書ＩＤの対を含む関連文書情報を格納するリンクデータベースを備える知識検索システムのコンピュータによって実行されるプログラムであって、
前記コンピュータに、
公開されている文書情報を収集するステップと、
前記収集された文書情報から、検索用のインデックス情報を生成して前記インデックスデータベースに格納し、前記収集された文書情報の示す文書の文書ＩＤ及び当該文書に関連する文書の文書ＩＤの対を含む関連文書情報を前記リンクデータベースに格納するステップと、
前記ユーザからの検索要求を入力すると共に、当該検索要求に従う検索の結果をユーザに提示するステップと、
前記入力された検索要求に基づいて前記インデックスデータベースを検索し、少なくとも前記検索要求にヒットしたヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得するステップと、
前記収集された文書情報の示す文書及び当該文書に関連する文書間において、一方の文書から他方の文書へのハイパーリンクによる参照関係、前記他方の文書が前記一方の文書に含まれている包含関係、前記他方の文書が前記一方の文書に添付されている添付ファイルである関係、または前記他方の文書が前記一方の文書に圧縮されて添付されているデータが解凍されたものである関係の場合、前記一方の文書を親文書、前記他方の文書を子文書として、当該親文書の文書ＩＤ及び当該子文書の文書ＩＤの対を含む関連文書情報を前記リンクデータベースに格納するステップと、
前記ヒット文書ごとに、前記リンクデータベースに格納された関連文書情報に従って親文書が存在するかを判定すると共に、当該親文書が存在する場合には、当該親文書がヒット文書であるかを判定し、当該親文書がヒット文書である場合、ヒット文書の集合に含まれている当該親文書の全ての子文書について、当該子文書及び当該親文書の検索スコアを比較して、当該親文書の検索スコアより低い子文書を前記ヒット文書の集合から削除し、当該ヒット文書の集合に含まれている当該親文書の全ての子文書のどれよりも検索スコアの低い親文書を前記ヒット文書の集合から削除し、前記ヒット文書の集合に残っているヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得するステップと
を実行させるためのプログラム。