JP4189387B2 - 知識検索システム、知識検索方法及びプログラム - Google Patents

知識検索システム、知識検索方法及びプログラム Download PDF

Info

Publication number
JP4189387B2
JP4189387B2 JP2005092196A JP2005092196A JP4189387B2 JP 4189387 B2 JP4189387 B2 JP 4189387B2 JP 2005092196 A JP2005092196 A JP 2005092196A JP 2005092196 A JP2005092196 A JP 2005092196A JP 4189387 B2 JP4189387 B2 JP 4189387B2
Authority
JP
Japan
Prior art keywords
document
search
hit
information
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005092196A
Other languages
English (en)
Other versions
JP2006277061A (ja
Inventor
奈帆子 大下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2005092196A priority Critical patent/JP4189387B2/ja
Publication of JP2006277061A publication Critical patent/JP2006277061A/ja
Application granted granted Critical
Publication of JP4189387B2 publication Critical patent/JP4189387B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、知識データベースからデータを検索するのに好適な知識検索システム、知識検索方法及びプログラムに関する。
様々な形式で公に供されている公開情報、例えばファイルサーバ上のファイル、Webサイト上のHTML(Hyper Text Markup Language)文書などを有効に活用するシステムとして、従来からナレッジマネジメントシステムが知られている。多くのナレッジマネジメントシステムでは、このような情報を「知識」として集積する「知識データベース」を構築するために、公開情報からテキスト部分を抽出してインデックスとして管理し、自然言語検索などの検索用に提供することにより、蓄積された知識情報の効率的な活用を実現している。これらの情報(文書)は、論理的または物理的に複合構成(論理構造、添付などの親子関係)をとっていることが多い。そこで従来は、これらの構成を要素ごとに分け、別々の文書としてインデックスを構築する技術(第1の先行技術)を適用するのが一般的である。
また、より最近にデータベースに格納された情報、或いは参照回数の多い情報に高いスコアを与えることで、ユーザにとってより必要となる情報が検索結果の上位となるようにする技術(第2の先行技術)が知られている(例えば、特許文献1参照)。
また、文書を構成する要素(パラグラフ)ごとに、当該要素の、日付、著者、表題、概要、本文等の記述内容を特定するためのタグを付与すると共に、各タグごとに重要度を表す重みを付与する検索技術(第3の先行技術)も知られている。この第3の先行技術では、キーワードとタグとを含む検索条件に従って、タグの重みを考慮したスコア計算を行うことで、ユーザにとってより必要となる情報を検索結果の上位とすることが可能となる。
特開2001−84256号公報(段落0012乃至0015) 特開平11−85765号公報(段落0015乃至0018)
上記第1の先行技術において、文書を構成する論理的/物理的要素ごとに、知識データベース内のインデックスを構築することは、知識検索の精度を向上させるために必要な技術である。しかしながら、第1の先行技術では、元の文書同士、もしくは文書の構成要素の関係が、知識データベース内では維持されない。この場合、例えば、知識の検索でヒットした文書が添付文書(添付ファイル)の場合に、当該文書が添付されていた「親」文書や前後の文書の内容を辿ることができず、それ以上の「知識」を得ることは難しい。また、第1の先行技術では、文書間の関連性を検索結果の順位に反映させることは考慮されていない。例えば、関連する文書の数が多い文書ほど、検索でユーザが目的とする内容に近い文書であると考えられるが、第1の先行技術では、関連する文書の数が多い文書を検索結果の順位にさせることは考慮されていない。
一方、上記第2の先行技術では、より最近にデータベースに格納された情報、或いは参照回数の多い情報ほど、ユーザが目的とする内容に近い情報であるとして、検索結果の順位に反映させている。同様に、上記第3の先行技術では、文書を構成する要素ごとに付与されるタグの重みが大きいほど、ユーザが目的とする内容に近い要素であるとして、検索結果の順位に反映させている。しかし上記第2及び第3の先行技術では、文書間の関連性を検索結果の順位に反映させることは考慮されていない。
よって、上記第1乃至第3の先行技術では、関連する文書の数が多い文書であっても、必ずしも検索結果の上位に設定されるとは限らない。このため、例えば関連する文書の数を考慮しない場合のスコアが同一の複数の文書が存在する場合に、その複数の文書から関連する文書の数がより多い文書をユーザが目的とする文書であるとして選択することは困難である。
本発明は上記事情を考慮してなされたものでその目的は、文書検索結果の順位に他の文書との関連性を反映させることで、当該検索結果からユーザが要求した内容に近い文書を当該ユーザが容易に見つけることができる知識検索システム、知識検索方法及びプログラムを提供することにある。
本発明の1つの観点によれば、文書情報から生成された検索用のインデックス情報が格納されたインデックスデータベースを対象にユーザからの検索要求に基づく検索を実行する知識検索システムが提供される。この知識検索システムは、前記インデックスデータベースに格納されたインデックス情報の示す文書の文書ID及び当該文書に関連する文書の文書IDの対を含む関連文書情報を格納するリンクデータベースと、公開されている文書情報を収集する情報収集手段と、前記情報収集手段によって収集された文書情報から、検索用のインデックス情報を生成して前記インデックスデータベースに格納するインデックス更新手段であって、前記収集された文書情報の示す文書の文書ID及び当該文書に関連する文書の文書IDの対を含む関連文書情報を前記リンクデータベースに格納するインデックス更新手段と、前記ユーザからの検索要求を入力すると共に、当該検索要求に従う検索の結果をユーザに提示するユーザインタフェースと、前記ユーザインタフェースによって入力された検索要求に基づいて前記インデックスデータベースを検索し、少なくとも前記検索要求にヒットしたヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得する検索手段とから構成される。
このような構成においては、収集された文書情報の示す文書の集合に含まれる文書間の関連性を解析し、当該文書間の関連性を表す関連文書情報をリンクデータベースに格納することで、ユーザからの知識検索要求に基づいてインデックスデータベースを検索した場合には、上記リンクデータベースに格納された関連文書情報を利用して、ヒット文書ごとの検索スコアだけでなく、当該ヒット文書と他の文書との関連性が検索結果順位に反映された検索結果を取得することができる。これにより、他の文書との関連性が強いヒット文書(例えば、関連する文書の数がより多いヒット文書)の検索結果順位を相対的に高くすることができるようになるため、ユーザは同じような文書が多数ヒットした場合でも、自身が要求した内容に近い文書を容易に見つけることが可能となる。
ここで、上記インデックス更新手段を次の2つの手段、即ち上記情報収集手段によって収集された文書情報の示す文書の各々について、当該文書の構造を解析して当該文書を文書要素ごとに分割し、当該文書を親文書とし、当該分割された文書要素を当該文書の子文書とする上記関連文書情報を生成して上記リンクデータベースに格納する関係解析手段と、この関係解析手段によって分割された文書要素ごとに上記インデックス情報を生成する文書解析手段とから構成とする良い。
このように、文書を当該文書の構造に基づいて文書要素(文書構成要素)ごとに分割して、それそれ独立した文書(子文書)としてインデックス情報を生成することにより、各文書要素の内容に応じた検索スコアを得ることができる。しかも、各文書要素である各子文書と元の文書である親文書との間の関連性を示す関連文書情報がリンクデータベースに格納されるため、つまり文書と文書要素間の関係(元の文書の表現された前後関係)がリンクデータベース(とインデックスデータベースとから構成される知識データベース)により維持されるため、文書間や文書の構成要素間の関係に内在する「知識」を活用して、ユーザが要求した内容に近い文書を容易に検索することが可能となる。
また、知識検索手段に以下の機能、即ちヒット文書ごとに、上記リンクデータベースに格納された関連文書情報に従って親文書が存在するかを判定すると共に、当該親文書が存在する場合には、当該親文書がヒット文書であるかを判定し、当該親文書がヒット文書である場合、ヒット文書の集合に含まれている当該親文書の全ての子文書について、当該子文書及び当該親文書のスコアを比較して、当該親文書のスコアより低い子文書をヒット文書の集合から削除し、当該全ての子文書のどれよりもスコアの低い親文書をヒット文書の集合から削除し、ヒット文書の集合に残っているヒット文書について、当該ヒット文書ごとの検索スコアと当該ヒット文書に対応する上記リンクデータベース内の関連文書情報の示す当該文書と他の文書との関連性とが検索結果順位に反映された検索結果を取得する機能を持たせると良い。このようにすると、ユーザが要求した内容から遠い文書を検索結果から外すことができるため、ユーザは要求した内容に近い文書を容易に見つけることが可能となる。
また、知識検索手段に以下の機能、即ち子文書及び当該子文書の親文書の検索スコアを比較した結果、親文書の方が検索スコアが高い場合には、当該親文書と他の文書との関連性の度合いを表す当該親文書の重みをインクリメントし、子文書の方が検索スコアが高い場合には、当該子文書と他の文書との関連性の度合いを表す当該子文書の重みをインクリメントし、ヒット文書ごとの検索スコアと当該文書の重みとが検索結果順位に反映された検索結果を取得する機能を持たせると良い。このようにすると、ユーザが要求した内容に近い文書の検索結果順位を相対的に高くすることができるようになるため、ユーザは要求した内容に近い文書を容易に見つけることが可能となる。
また、上記インデックス更新手段に以下の機能、即ち上記文書間の関連性として、一方の文書から他方の文書へのハイパーリンクによる参照関係、一方の文書の構造上他方の文書が当該一方の文書に含まれている包含関係、他方の文書が一方の文書に添付されている添付ファイルである関係、及び他方の文書が一方の文書に圧縮されて添付されているデータが解凍されたものである文書要素の親子関係のうちの少なくとも1つの関係を解析する機能を持たせると良い。このようにすると、Webサイトなどを情報ソースとする知識データベース、一般的な文書の電子データ、メールなどを情報ソースとする知識データベース、論文、書籍などを情報ソースとする知識データベース、或いは通常はインデックス検索の対象とならないような電子データも含めて知識データベースを構築することが可能となる。
また、上記ユーザインタフェースに以下の機能、即ち、知識検索要求に従う知識検索の結果を、ヒット文書と当該ヒット文書の検索結果順位とが識別可能な文書一覧の形式でユーザに提示し、上記文書一覧から任意の文書が選択され、かつ当該選択された文書と関連している文書が存在する場合には、当該選択された文書のテキストまたは実体と、当該関連している文書の存在が識別可能でかつユーザにより選択可能な識別情報とをユーザに提示する機能を持たせると良い。このようにすると、選択された文書の内容だけでなく、ユーザが次の「知識」を得るためのヒントとなるような情報を提示できる。
また、上記ユーザインタフェースに以下の機能、即ち、上記識別情報がユーザによって選択され、かつ当該選択された文書と関連している文書が存在する場合には、当該選択された文書のテキストまたは実体と、当該関連している文書の存在が識別可能でかつユーザにより選択可能な識別情報とをユーザに提示する機能を持たせると良い。このようにすると、選択された文書の内容だけでなく、ユーザが次の「知識」を得るためのヒントとなるような情報を提示できる。
本発明によれば、収集された文書情報の示す文書の集合に含まれる文書間の関連性を表す関連文書情報をリンクデータベースに格納することで、ユーザからの知識検索要求に基づいてインデックスデータベースを検索した場合には、上記リンクデータベースに格納された関連文書情報を利用して、ヒット文書ごとの検索スコアだけでなく、当該ヒット文書と他の文書との関連性が検索結果順位に反映された検索結果を取得することができるため、他の文書との関連性が強いヒット文書の検索結果順位を相対的に高くすることができるようになり、ユーザは同じような文書が多数ヒットした場合でも、自身が要求した内容に近い文書を容易に見つけることができる。
以下、本発明の実施の形態につき図面を参照して説明する。
図1は本発明の一実施形態に係るナレッジマネジメントシステム1の構成を示すブロック図である。このナレッジマネジメントシステム1は、知識情報の収集、分析及び検索等のサービスを提供する、広義の知識検索システムである。ナレッジマネジメントシステム1は、主として、狭義の知識検索システム11と、知識データベース構築システム12と、ユーザインタフェース13とから構成される。
知識検索システム11は、知識データベース111と、知識検索部112とを含む。知識データベース111は知識検索用のデータベースであり、インデックスデータベース(インデックスDB)111aと、リンクデータベース(リンクDB)111bとから構成される。インデックスDB111aは、公開情報ソース2から抽出されたテキストデータをもとに生成された検索用インデックス情報(インデックス)を格納する。公開情報ソース2は、情報をネットワーク上に公開している、例えばWebサーバ、或いはファイルサーバである。リンクDB111bは、知識データベース111に格納されている文書間の関係(リンク)、更に詳細に述べるならば、知識データベース111のインデックスDB111aに格納されているインデックス情報間の関係を示す関係情報(関連文書情報)を格納する。知識検索部112は、ユーザ3からの検索要求に従い、当該検索要求で指定された検索条件に合致するインデックスを知識データベース111から検索することで、当該インデックスに対応する文書ごとの検索スコアを取得する検索エンジンである。知識検索部112は、少なくとも、知識検索要求にヒットしたヒット文書について、当該ヒット文書ごとの検索スコアと当該ヒット文書に対応するリンクDB111b内の関連文書情報の示す当該ヒット文書と他の文書との関連性とが検索結果順位に反映された検索結果を取得する。
知識データベース構築システム12は、情報収集部121と、中間データ格納ユニット122と、インデックス更新部123とから構成される。情報収集部121は、公開情報ソース2により公開されている情報(公開情報)を例えば管理者(管理ユーザ)によって与えられる知識情報収集条件に従って収集する。中間データ格納ユニット122は、情報収集部121によって収集された情報を中間データとして一時的に格納する。インデックス更新部123は、中間データ格納ユニット122に格納されている情報(ここでは文書集合)から知識検索用のインデックスを生成して、知識データベース111のインデックスDB111aに格納する。インデックス更新部123はまた、上記文書集合に含まれる文書間の関係を解析してその関係を示す関連文書情報をリンクDB111bに格納する。
ユーザインタフェース13は、ユーザ4とナレッジマネジメントシステム1との間の対話を可能とする。ユーザインタフェース13は、ユーザ4のクライアント端末3と直接またはネットワークを介して接続されている。ユーザインタフェース13は、ユーザ4がクライアント端末3の図示せぬ入力装置(例えば、キーボードまたはマウス)を操作して知識検索を指示した場合に、当該クライアント端末3から与えられる知識検索のための検索要求を示す問い合わせ(クエリ)を入力して受け付ける。ユーザインタフェース13は、受け付けられたクエリを知識検索部112に通知する。ユーザインタフェース13はまた、知識検索部112に通知したクエリ(検索要求)に対する当該知識検索部112による検索結果をクライアント端末3に通知することで、当該検索結果をクライアント端末3によりユーザ4に提示させる。
本実施形態において、ナレッジマネジメントシステム1内の、知識検索部112、情報収集部121、インデックス更新部123及びユーザインタフェース13は、コンピュータにインストールされた特別のソフトウェアプログラムを当該コンピュータ(内のCPU)が読み取って実行することにより実現される。このプログラムは、コンピュータで読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラムが、ネットワークを介してダウンロード(頒布)されても構わない。
クライアント端末3は、ユーザ4からの知識検索のための検索要求を知識検索部112で適用されるプロトコルに変換することで、ナレッジマネジメントシステム1に対するクエリ(問い合わせ)を発行する検索発行機能と、当該クエリに対する知識検索部112による検索結果をユーザインタフェース13から受け取ってクライアント端末3の表示装置に表示させる検索結果表示機能とを有する。このクライアント端末3の有する検索発行機能及び検索結果表示機能は、例えば、Webブラウザ、或いはナレッジマネジメントシステム1を利用するための専用のクライアントソフトウェアを当該クライアント端末3が実行することにより実現されるものとする。
図2は、図1中のインデックス更新部123の構成を、中間データ格納ユニット122及び知識データベース111と関連付けて示すブロック図である。
インデックス更新部123は、関係解析部123aと文書解析部123bとを含む。関係解析部123aは、中間データ格納ユニット122に一時的に格納されている情報(中間データ)の中から順に文書(以下、元文書と称する)を取り出して、当該元文書の例えば論理構造を解析する。関係解析部123aはまた、元文書に関連する文書(関連文書)を中間データから取得する。関係解析部123aは、取得された関連文書の情報を関連文書情報としてリンクDB111bに格納する。図2の例では、元文書Mの関連文書が文書Nであることが示されている。関係解析部123aはまた、文書(元文書及び関連文書)の解析結果に従って、当該文書を当該文書の要素(構成要素)に分割する。図2では、文書(元文書)Mが要素M1乃至M3に分割される例が示されている。文書解析部123bは、関係解析部123aによって分割された文書の要素ごとに、その文書のテキストデータを抽出して知識検索用のインデックスを生成する。
次に、ナレッジマネジメントシステム1における動作について、知識データベース構築システム12による知識データベース構築処理を例に図3のフローチャートを参照して説明する。
まず情報収集部121は、例えば管理者によって与えられた知識情報収集条件に従って、当該収集条件に合致した公開データを公開情報ソース2から収集し、当該収集された公開データをインデックス構築のための中間データとして中間データ格納ユニット122に一時的に格納する(ステップS1)。ここでは、収集条件で指定された公開情報ソース2内の起点URLから、任意の階層数のハイパーリンクを辿って当該収集条件で指定された件数の文書が収集される。中間データ格納ユニット122に格納された中間データは、文書(元文書)X,Y及びZを含む文書(文書データ)の集合であるものとする。情報収集部121によって収集された文書集合中の各文書には、当該情報収集部121によって当該文書に固有の識別子(文書ID)が付与される。
インデックス更新部123の関係解析部123aは、中間データ格納ユニット122に格納されている公開データ(つまり中間データ)から未処理の文書(元文書)を1つ取り出す(ステップS2,S3)。関係解析部123aは、取り出された文書の論理構造(例えば章立て)を解析し、その解析結果に基づいて当該文書を文書の要素に分割する(ステップS4)。
関係解析部123aは、取り出された文書(元文書)内の添付ファイル、或いは当該文書内に埋め込まれているハイパーリンク等に基づき、当該文書の関連文書(子文書)が存在するかを調べる(ステップS5)。もし、取り出された文書の関連文書が存在するならば、関係解析部123aは当該関連文書の情報を関連文書情報としてリンクDB111bに格納する(ステップS6)。このリンクDB111bに格納される関連文書情報は、関連文書の実体へのパス(関連文書の実体の所在)を表す情報、例えばURL(Uniform Resource Locator)と、当該関連文書の文書ID及び当該関連文書の親文書(元文書)の文書IDの対(つまり親−子の関係を表す文書IDの対)とを含む。
関係解析部123aによってステップS4で元文書から分割された文書要素は文書解析部123bに渡される。文書解析部123bは、関係解析部123aから渡された文書要素の各々から、テキスト部分(テキストデータ)を取得する(ステップS7)。文書解析部123bは、取得されたテキストの各々を例えば形態素解析することで、検索用のインデックス(インデックス情報)を生成して、当該インデックスをインデックスDB111aに格納する(ステップS8)。
関係解析部123aは、文書解析部123bによってインデックスDB111aに格納されたインデックス情報に対応する元文書のURL及び当該元文書の文書IDを含む情報を関連文書情報としてリンクDB111bに格納する(ステップS9)。ここで、元文書の親文書が存在するならば、当該親文書の文書IDが関連文書情報に付される。
知識データベース構築システム12における上述の処理、即ちステップS4乃至S9は、中間データに含まれている全ての文書について繰り返される(ステップS2)。
以上の知識データベース構築処理の具体例について、図3のフローチャートに加えて図4乃至図8をも参照して説明する。図4及び図5は情報収集部121によって収集される文書の例を示す図、図6は収集された文書の集合が中間データとして中間データ格納ユニット122に格納される様子を示す図、図7は文書の分割例を示す図、図8はインデックスDB111aに格納される文書のインデックス情報とリンクDB111bに格納される関連文書情報の具体例を示す図である。
まず、図4に示す文書X(文書41)、文書Y(文書42)、文書Y1(文書421)及び文書Y2(文書422)と、図5に示す文書Z(文書43)とが情報収集部121によって収集されたものとする(ステップS1)。ここで、文書Yは、図4に示されるように、文書Y1及びY2へのリンク(ハイパーリンク)を含むものとする。図6には、収集された文書の一覧がテーブル形式で示されている。図6の例では、文書X,Y,Y1,Y2及びZには、文書IDとして、それぞれ100,200,300,400及び500が付与されている。これらの文書(元文書)X,Y,Y1,Y2及びZの各々のデータは、上記ステップS1の処理でファイルデータとして、図4において矢印60で示すように中間データ格納ユニット122に格納される。
中間データ格納ユニット122に格納された文書X,Y,Y1,Y2及びZはインデックス更新部123内の関係解析部123aによって順次取り出される(ステップS3)。今、文書Xが取り出されたものとする。文書Xは、他の文書へのリンクを有しておらず、かつ他の文書からもリンクされていない(図4参照)。つまり文書Xの関連文書は存在しない。この場合、リンクDB111bには、図8に示すように、文書XのURL及び文書ID=100を含む関連文書情報81が格納される(ステップS9)。この文書Xの関連文書情報81は、当該文書Xの親文書が存在しないことから、親文書のIDを含まない。また、文書X(文書ID=100)の(テキスト部分の)インデックス(文書Xが複数の文書要素に分割された場合には、当該要素ごとのインデックス)がインデックスDB111aに格納される(ステップS8)。
次に、文書Yが取り出されたものとする。文書Yは、文書Y1及びY2へのリンクを有する(図4参照)。このため、リンクDB111bには、図8に示すように、文書Y1のURL及び文書ID=300を含む関連文書情報83と、文書Y2のURL及び文書ID=400を含む関連文書情報84とが格納される(ステップS6)。関連文書情報83及び84は、それぞれ文書ID=300及び文書ID=400の文書の親文書が文書Yであることから、当該文書Yの文書ID=200を親文書IDとして含む。また、文書Y(文書ID=200)の要素ごとのインデックスがインデックスDB111aに格納される(ステップS8)。更に、文書YのURL及び文書ID=200を含む関連文書情報82が格納される(ステップS9)。この文書Yの関連文書情報82は、当該文書Yの親文書が存在しないことから、親文書のIDを含まない。
次に、文書Y1及びY2が順次取り出された場合には、当該文書Y1(文書ID=300)及びY2(文書ID=400)のインデックスがインデックスDB111aに格納される(ステップS8)。
次に、文書Zが取り出された場合には、当該文書Zの論理構造の解析により、箇条書きの各項目がそれぞれ1文書として扱われる。これにより文書Zが、図7に示すように、3つの文書Z1,Z2及びZ3に分割される。この文書Z1,Z2及びZ3は、文書Zの子文書と見なされて、文書IDとしてそれぞれ510,520及び530が付与される。この場合、リンクDB111bには、図8に示すように、文書Z1のURL及び文書ID=510を含む関連文書情報86と、文書Z2のURL及び文書ID=520を含む関連文書情報87と、文書Z3のURL及び文書ID=530を含む関連文書情報88とが格納される(ステップS6)。関連文書情報86,87及び88は、いずれも文書Zの文書ID=500を親文書IDとして含む。
また、文書Z(文書ID=500)の要素ごと(文書Z1,Z2,Z3の各々)のインデックスがインデックスDB111aに格納される(ステップS8)。更に、文書ZのURL及び文書ID=500を含む関連文書情報85が格納される(ステップS9)。この文書Zの関連文書情報85は、当該文書Zの親文書が存在しないことから、親文書のIDを含まない。
次に、ナレッジマネジメントシステム1の知識検索システム11に含まれている知識検索部112による知識検索処理について説明する。
まず、本実施形態の知識検索処理で適用される判定手法の概要について説明する。この判定手法は、ユーザからの検索のための問い合わせに従う検索で知識データベース111から取得された文書の内容のユーザにとっての重要さ(つまり内容の「濃さ」)を判定するのに用いられる。以下の説明では、ユーザの問い合わせた条件に合致する程度を表す評価値をスコア(検索スコア)と呼ぶ。
本実施形態で適用される判定手法の概要は次の通りである。
(1)ユーザの問い合わせた条件に合致(ヒット)した文書のスコアを親子間(親文書と子文書との間)で比較することで、子文書の内容の「濃さ」の程度を判定
親文書のスコア > 子文書のスコア
→子文書にはユーザにとってそれほど必要でないインデックスやサマリが記載されている
→子文書の内容の「濃さ」の程度は低い
親文書のスコア < 子文書のスコア
→子文書には親文書よりも詳細なユーザにとって必要な内容が記載されている
→子文書の内容の「濃さ」の程度は高い
(2)どの子文書よりもスコアの低い親文書にはインデックスやサマリが記載されている。
(3)親子で共通してヒットしている文書の群は意味のあるまとまりである。
(4)他から参照されている文書は、単独の文書よりまとまった意味を持つ。
また、上記判定手法では、「重み」と呼ぶ概念が適用される。「重み」を適用する前提として、関連する文書(後述する出典文書、関連文書)の数が多い文書ほど、検索で目的とする内容(ユーザの問い合わせに合致した内容)に近い文書であるとする。この近さを文書の「重み」と呼び、検索結果の処理時に、ヒット文書ごとに当該「重み」がカウントされる。「重み」の初期値は0である。文書の「重み」は、当該文書と関連する文書が検出されるごとに1インクリメントされる。したがって、他の文書との関連を全く持たない文書の「重み」は初期値0のままとなる。
次に、上述の判定手法を適用する知識検索システム11による知識検索処理について図9のフローチャートを参照して説明する。
まずユーザ4は、クライアント端末3の入力装置を用いて知識検索のための検索要求を入力するための操作を行ったものとする。すると、この検索要求を示す問い合わせ(クエリ)がクライアント端末3によりナレッジマネジメントシステム1に発行される。このクエリは、キーワードまたは自然文(質問文)で記述することができる。ナレッジマネジメントシステム1内のユーザインタフェース13は、クライアント端末3により発行されたクエリを入力して受け付ける(ステップS11)。
ユーザインタフェース13は、受け付けたクエリを、知識検索部112で適用されるプロトコル(検索プロトコル)に変換する(ステップS12)。ユーザインタフェース13によって変換されたクエリは、当該インタフェース13によって知識検索システム11の知識検索部112に転送される。
知識検索部112は、ユーザインタフェース13から転送されたクエリに基づき、知識データベース111内のインデックスDB111aを検索し、検索された文書ごとにスコア計算を行うことで、スコアを含む検索結果を表す文書群(検索結果文書群)を取得する(ステップS13)。この文書群は、例えばスコアの高い順にソートされる。この点は、従来技術と同様である。知識検索部112は、検索結果文書群の中に、予め定められた閾値よりも高いスコアの文書、つまりヒット文書があるかを調べる(ステップS14)。
もし、ヒット文書が1件もなければ、知識検索部112は後述するステップS17に進む。これに対し、ヒット文書があるならば、知識検索部112はヒット文書ごとに、ステップS151から開始される以下の処理をループする(ステップS15)。
まず知識検索部112は、未処理のヒット文書Diを1つ選択して、当該ヒット文書(現文書)Diの親文書のIDを取得するために、当該文書DiのIDをもとにリンクDB111bから当該文書Diの関連文書情報を検索する(ステップS151)。次に知識検索部112は、ヒット文書Diの関連文書情報を参照して、当該文書Diの親文書DpのIDが含まれているか、つまり当該文書Diの親文書Dpが存在するかを判定する(ステップS152)。
もし、文書Diの親文書Dpが存在しないならば、知識検索部112は当該文書Diを他の文書との関連性では評価できないとして、当該文書Diの「重み」を操作するのを控える。これに対し、文書Diの親文書Dpが存在するならば、知識検索部112は当該親文書Dpがヒット文書であるかを判定する(ステップS153)。もし、親文書Dpがヒット文書でないならば、知識検索部112は文書Di自体にユーザにとって必要な内容が含まれている可能性があることから、当該文書Diの「重み」を1インクリメントする(ステップS154)。これに対し、親文書Dpがヒット文書であるならば、知識検索部112は、ヒット文書群の中から、文書Diと同じように、当該文書Dpを親とする文書(子文書)Djの集合を取り出す(ステップS155)。このステップS155において、知識検索部112は、当該文書Dpを親とするヒット文書(子文書)Djの数を、当該文書(親文書)Dpから参照される文書の数を表す参照数の初期値として保持する。
次に知識検索部112は、文書Dpを親とするヒット文書(子文書)Djごとに、ステップS156aから開始される以下の処理をループする(ステップS156)。
まず知識検索部112は、未処理のヒット文書Djを1つ選択して、当該文書DjのスコアSjと当該文書Djの親文書DpのスコアSpとを比較する(ステップS156a)。もし、Sj<Spである場合、知識検索部112は親文書Dpの方が文書(子文書)Djより重要であると判定して、当該親文書Dpの「重み」を1インクリメントする(ステップS156b)。また知識検索部112は、ヒット文書群から現在処理対象となっている文書(子文書)Djを取り除き、当該文書Djを文書Dpの「関連文書」として保持する(ステップS156c)。
一方、Sj≧Spである場合には、知識検索部112は現在処理対象となっている文書(子文書)Djの方が親文書Dpより重要であると判定して、当該文書Djの「重み」を1インクリメントする(ステップS156d)。また知識検索部112は、文書Dpの参照数を1つ減らし、当該文書Dpを当該文書Dpの子文書Djの「出典文書」として保持する(ステップS156e)。
知識検索部112は、ステップS155で取り出された、文書Dpを親とする全ての子文書Djについて、ステップS156a乃至S156eの処理をループすると(ステップS156)ステップS157に進む。このステップS157において、知識検索部112は、現在処理対象となっているヒット文書Diの親文書Dpの参照数が0である場合、つまり当該親文書DpのスコアSpがどの子文書DjのスコアSjよりも低かった場合、当該文書Dpをヒット文書群から取り除く。
知識検索部112は、1つのヒット文書DiについてステップS151乃至S157の処理を実行すると、ステップS15へ戻り、次のヒット文書Diを処理する。知識検索部112は、全てのヒット文書Diについて、ステップS151乃至S157の処理をループすると、ステップS16に進む。このステップS16において、知識検索部112は現時点におけるヒット文書群をソートする。ここで知識検索部112は、ソートの1次キーを「スコア」とし、2次キーを「重み」とする。知識検索部112は、このソート後のヒット文書群の情報を、ユーザからのクエリに対する検索結果としてユーザインタフェース13に送出する。ユーザインタフェース13は、知識検索部112から送られた検索結果からユーザ4に提示するための検索結果(検索結果画面情報)を生成してクライアント端末3に返す。
次に、上述の知識検索システム11(内の知識検索部112)による知識検索処理の具体例について、図10乃至図13を参照して説明する。図10は収集された文書群の階層構造を当該文書群を対象とする検索処理で得られる文書毎のスコアと共に示す図、図11は図10の文書群に対する検索処理の結果であって、ヒット文書をスコア順にソートした結果を示す図である。また、図12は図11の検索結果に含まれる各ヒット文書の「重み」を、当該「重み」の内訳と共に示す図、図13は図12に示す「重み」取得後のヒット文書を、スコアを最優先に、次に「重み」を優先させてソートした検索結果を示す図である。
まず、公開情報ソース2(例えばWebサーバまたはWebサイト)から図10に示すツリー構造を持つ文書群が収集されて、当該文書群の文書毎のインデックス情報がインデックスDB111aに格納されているものとする。ここでは、説明を簡略化するために、1つの文書が複数の親文書を持たないことを前提としている。この状態で、ユーザ指定のクエリに基づき、インデックスDB111aを検索した結果、図10中の各文書ごとに、図10において括弧で示されるスコアが検索結果として得られたものとする(ステップS13)。この場合、スコアが予め定められた閾値(例えば10)以上の検索結果(検索結果文書群)は、図11に示すように、スコアの高い順にソートされる。また、同一スコアの文書群は図11に示すようにID順にソートされる。従来技術では、この図11に示すソート結果が検索結果としてユーザ4に提示される。しかし、図11に示す検索結果では、例えばスコアが同じ複数の文書が存在する場合に、いずれの文書の方がユーザにとってより必要な内容を多く含むか識別できない。また、あるヒット文書が添付されていた親文書や当該ヒット文書の前後の文書の内容を辿ることができず、それ以上の「知識」を得ることは難しい。
そこで本実施形態では、上述した図9のフローチャートに従う知識検索処理の中で、全てのヒット文書について、当該文書と関連する文書(出典文書、関連文書)の数を反映した「重み」が取得される構成を適用している。
図11の検索結果に含まれる各ヒット文書の「重み」を、当該「重み」の内訳と共に図12に示す。なお、図12における順位には、図11に示す順位が用いられている。図12の例では、同一スコアの例えば文書C及びD(文書IDが、それぞれC及びDの文書)の間で「重み」が異なる。また、ヒット文書群の中で、親文書よりスコアの低い子文書、例えば文書D2,D3及びA32は、ユーザにとって必要な内容を十分に含んでいないとして、ヒット文書群から削除される(S156c)。同様に、ヒット文書群の中で、どの子文書よりもスコアが低い親文書、例えば文書Aも、ユーザにとって必要な内容を十分に含んでいないとして、ヒット文書群から削除される(S157)。
図12に示す「重み」取得後のヒット文書を、スコアを最優先に、次に「重み」を優先させてソートすると、図13に示すソート結果が得られる(ステップS16)。但し、図12に示すヒット文書は既にスコア順、ID順にソートされていることから、同一スコアのヒット文書の集合の中で、重み順にソートすれば良い。図13のソート結果では、スコアが最も高い2つのヒット文書C及びDのうち重みが高い方の文書Dが第1位となっている。したがって、この図13のソート結果をユーザインタフェース13が知識検索部112から受けてクライアント端末3を介してユーザ4に提示することで、ユーザ4は同一スコアのヒット文書C及びDのうちの文書Dを、自身にとってより必要な内容を多く含むと判断することができる。
また、本実施形態においては、図7に示す文書Z(43)の例のように、文書の論理構造に従って、当該文書を要素ごとに分割し、各要素を元の文書の子文書(図7の例では文書Z1,Z2,Z3)として関連付けて、対応するインデックスを生成している。これにより、ユーザの要求した内容に近い文書を容易に検索することが可能である。しかも、文書の要素ごとに単に当該文書から独立した文書としてインデックスが生成されるのと異なり、文書の各要素を当該文書の子文書として扱いながら、その要素の特徴に対応したスコアが、元の文書と関連付けて取得される。このため、後述するように、ヒット文書(要素)の内容が、どのような構文(シンタックス)や前後関係で記述されたか識別可能となる。よって、ユーザが望んだ検索結果を効率的に得ることができる。
次に、図13に示す検索結果をユーザインタフェース13によりクライアント端末3を介してユーザ4に提示するための処理について、(1)Webサーバ(Webサイト)から収集された文書の集合を対象とした検索、及び、(2)添付ファイルのあるファイルの集合を対象とした検索とに分けて、それぞれ図14及び図15を参照して説明する。図14は図13に示す検索結果がWebサーバから収集された文書の集合を対象とした検索の結果である場合において、当該検索結果に基づいてユーザに提示される検索結果一覧画面と、当該一覧画面内のタイトルが選択されることによりユーザに提示される確認画面の例とを示す図である。図15は図13に示す検索結果が添付ファイルのあるファイルの集合を対象とした検索の結果である場合において、当該検索結果に基づいてユーザに提示される検索結果一覧画面と、当該一覧画面内のタイトルが選択されることによりユーザに提示される、リンクボタン領域153を含む確認画面の例とを示す図である。
(1)Webサーバから収集された文書の集合を対象とした検索の場合の表示
ユーザインタフェース13は、図13に示す検索結果に基づき、図14に示す検索結果一覧画面141の情報を生成してクライアント端末3に送出することで、当該検索結果一覧画面141をクライアント端末3の表示装置に表示させる。この検索結果一覧画面141には、検索された文書(ヒット文書)の識別情報としての例えばタイトルが、検索結果順位の並びで表示される。また、タイトルの近傍には、当該タイトルの文書の識別情報としての当該文書の要約(要旨)が表示される。
また、検索結果一覧画面141に表示されるタイトル(下線部)には、例えば当該タイトルの文書の本文(テキスト)へのリンク(ハイパーリンク)が設定されている。このため、検索結果一覧画面141からユーザ4がクライアント端末3の入力装置(例えばマウス)を用いて任意のタイトルを選択する操作を行うと、ユーザインタフェース13は、選択されたタイトルの文書の本文をクライアント端末3により表示させることができる。これにより、例えば検索結果順位が1位の文書Dのタイトルが選択された場合、当該文書Dの本文を含む確認画面142が表示される。ここでは、確認画面142は、文書Dの本文の他に、当該文書Dのタイトル及び要約を含む。確認画面142に表示される本文には、関連文書D2及びD3へのリンク142a及び142bがそれぞれ設定されている。このリンクの設定により、検索された文書の内容だけでなく、次の「知識」を得るためのヒントとなるような情報を提示できる。しかも、ユーザ4がリンク142aまたは142bを選択するならば、ユーザインタフェース13は、関連文書D2またはD3の本文を含む確認画面をクライアント端末3の表示装置に表示させることができる。
同様に、例えば検索結果順位が4位の文書A3のタイトルが選択された場合、当該文書A3の本文を含む確認画面143が表示される。この確認画面143に表示される本文には、関連文書A32へのリンク143aが設定されている。したがって、ユーザ4がリンク143aを選択するならば、ユーザインタフェース13は、関連文書A32の本文を含む確認画面を表示させることができる。確認画面143は、文書A3の出典文書Aへのリンク143bを含む。このリンク143bが選択された場合、出典文書Aの本文を含む確認画面が表示される。また、確認画面143は、出典文書Aを共通に持つ他の文書(ここでは文書A2)へのリンク143cも含む。このリンク143cが選択された場合、文書A2の本文を含む確認画面が表示される。
(2)添付ファイルのあるファイルの集合を対象とした検索の場合の表示
ユーザインタフェース13は、図13に示す検索結果に基づき、図14の検索結果一覧画面141と同様の、図15に示す検索結果一覧画面151をクライアント端末3の表示装置に表示させる。タイトルには、当該タイトルの文書に添付されているファイルへのリンクが設定されている。
検索結果一覧画面151からユーザ4が任意のタイトルを選択する操作を行うと、ユーザインタフェース13は、選択されたタイトルに添付されているファイルを知識検索部112を介して取得して、当該ファイルの実体を確認画面上で開かせる。図15には、検索結果順位が4位の文書A3のファイルの実体が確認画面152上で開かれている状態が示されている。この確認画面152上にはリンクボタン領域153が確保されている。リンクボタン領域153には、文書A3の関連文書A32であるとされた添付ファイルA32へのリンクが設定されたリンクボタン153aと、文書A3の出典文書Aであるとされた添付元ファイルAへのリンクが設定されたリンクボタン153bとが配置されている。これにより、検索された文書の内容だけでなく、次の「知識」を得るためのヒントとなるような情報を提示できる。
リンクボタン領域153中のリンクボタン153aが選択されると、確認画面152上に開かれているファイルA3の実体中の、当該リンクボタン153aでリンクされているファイルA32の添付位置へ例えばカーソルがジャンプする。同様に、リンクボタン領域153中のリンクボタン153bが選択されると、当該リンクボタン153bでリンクされているファイルAの実体が開かれて、当該ファイルAの実体中の、当該リンクボタン153aでリンクされたファイルA32が添付されている位置へ例えばカーソルがジャンプする。
なお、リンクボタン領域153を確認画面152から分離されたウィンドウに配置して、確認画面152から独立させることも可能である。図16は、図15中のリンクボタン領域153に相当するウィンドウ画面160の一例を示す。
また、図13の検索結果の中に、関連文書として親文書が存在するヒット文書(つまり子文書)が含まれている場合、ユーザインタフェース13が、図14または図15に示す検索結果一覧画面141または151で、当該ヒット文書(のタイトル)に代えて当該ヒット文書の親文書(のタイトル)を用いるようにしても良い。また、ヒット文書を当該ヒット文書の親文書に代える代わりに、当該ヒット文書の要約に代えて当該ヒット文書の親文書の要約をユーザインタフェース13が用いるようにしても良い。この他に、ヒット文書自身の要約と当該文書の親文書の要約とを組み合わせた(例えば併記した)要約を用いても良い。図14に示す確認画面142でも同様である。このようにすると、検索結果からユーザが要求した内容に最も近いと判断できる文書を選択する際にヒントとなるような情報を提示できることから、知識データベースを検索した結果を効果的にユーザに提示することができる
上記実施形態では、文書間の関連性(親子関係)として、上述のWebサーバから収集される文書群のような一方の文書から他方の文書へのハイパーリンクによる参照関係(第1の関係)、上記他方の文書が上記一方の文書に添付されている添付ファイルである関係(第2の関係)、及び上記一方の文書の構造上上記他方の文書が当該一方の文書に含まれている包含関係(第3の関係)が適用される。しかし、これらの関連性の他に、上記他方の文書が上記一方の文書に圧縮されて添付されているデータが解凍されたものである文書要素の親子関係(第4の関係)を適用することも可能である。また、これら第1乃至第4の関係の少なくとも1つを、文書間の関連性として適用することも可能である。
上記第1の関係を適用することにより、Webサイトなどを情報ソースとする知識データベース111を構築することが可能となる。また、上記第2の関係を適用することにより、一般的な文書の電子データ、メール、Webサイトなどを情報ソースとする知識データベース111を構築することが可能となる。また、上記第3の関係を適用することにより、論文、書籍などを情報ソースとする知識データベース111を構築することが可能となる。また、上記第4の関係を適用することにより、上記第2の関係を適用した場合の効果に加えて、通常はインデックス検索の対象とならないような電子データも含めて知識データベース111を構築することが可能となる。
また、上記第1乃至第4の関係の中から、ナレッジマネジメントシステム1にて適用すべき関係を、ユーザインタフェース13がクライアント端末3を介してユーザ4に指定させることも可能である。この場合、1つの文書について、様々な視点から関連文書情報を抽出して、より精度の高い検索が行える知識データベース111を構築することが可能となる。
また、ヒット文書に関連文書(親文書)がある場合に、知識検索部112が親文書とヒット文書とを併せてスコアを再計算し、その再計算されたスコアを例えば親文書のスコアとする検索結果をユーザインタフェース13がユーザに提示するようにしても良い。このようにすると、ユーザが要求した内容に近い文書のスコアを相対的に高くすることができるため、ユーザが文書を選択しやすくなる。これにより、効果的な検索結果の提示が可能となる。
また、上記実施形態では、ソートの1次キーに「スコア」が、2次キーに「重み」が、それぞれ用いられている。しかし、ヒット文書ごとの「重み」(または重みに一定の係数を乗じた値)を当該ヒット文書のスコアに加算して、その加算後のスコアで検索結果をソートしても良い。この場合でも、上記実施形態と同様に、ヒット文書ごとのスコアと当該ヒット文書と他の文書との関連性とが検索結果順位に反映された検索結果を取得することができ、ユーザが要求した内容に近い文書のスコアを相対的に高くすることができるため、ユーザが文書を選択しやすくなる。
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
本発明の一実施形態に係るナレッジマネジメントシステム1の構成を示すブロック図。 図1中のインデックス更新部123の構成を、中間データ格納ユニット122及び知識データベース111と関連付けて示すブロック図。 知識データベース構築システム12による知識データベース構築処理の手順を示すフローチャート。 情報収集部121によって収集される文書の例を示す図。 情報収集部121によって収集される文書の例を示す図。 収集された文書の集合が中間データとして中間データ格納ユニット122に格納される様子を示す図。 文書の分割例を示す図。 インデックスDB111aに格納される文書のインデックス情報とリンクDB111bに格納される関連文書情報の具体例を示す図。 知識検索システム11による知識検索処理の手順を示すフローチャート。 収集された文書群の階層構造を当該文書群を対象とする検索処理で得られる文書毎のスコアと共に示す図。 図10の文書群に対する検索処理の結果であって、スコアが閾値以上の文書(ヒット文書)をスコア順にソートした結果を示す図。 図11の検索結果に含まれる各ヒット文書の「重み」を、当該「重み」の内訳と共に示す図。 図12に示す「重み」取得後のヒット文書を、スコアを最優先に、次に「重み」を優先させてソートした検索結果を示す図。 図13に示す検索結果がWebサーバから収集された文書の集合を対象とした検索の結果である場合において、当該検索結果に基づいてユーザに提示される検索結果一覧画面と、当該一覧画面内のタイトルが選択されることによりユーザに提示される確認画面の例とを示す図。 図13に示す検索結果が添付ファイルのあるファイルの集合を対象とした検索の結果である場合において、当該検索結果に基づいてユーザに提示される検索結果一覧画面と、当該一覧画面内のタイトルが選択されることによりユーザに提示される、リンクボタン領域153を含む確認画面の例とを示す図。 リンクボタン領域153に相当するウィンドウ画面160の一例を示す図。
符号の説明
1…ナレッジマネジメントシステム(広義の知識検索システム)、2…公開情報ソース、3…クライアント端末、4…ユーザ、11…知識検索システム(狭義の知識検索システム)、12…知識データベース構築システム、13…ユーザインタフェース、111…知識データベース、111a…インデックスDB(インデックスデータベース)、111b…リンクDB(リンクデータベース)、121…情報収集部、122…中間データ格納ユニット、123…インデックス更新部、123a…関係解析部、123b…文書解析部。

Claims (9)

  1. 文書情報から生成された検索用のインデックス情報が格納されたインデックスデータベースを対象にユーザからの検索要求に基づく検索を実行する知識検索システムにおいて、
    前記インデックスデータベースに格納されたインデックス情報の示す文書の文書ID及び当該文書に関連する文書の文書IDの対を含む関連文書情報を格納するリンクデータベースと、
    公開されている文書情報を収集する情報収集手段と、
    前記情報収集手段によって収集された文書情報から、検索用のインデックス情報を生成して前記インデックスデータベースに格納するインデックス更新手段であって、前記収集された文書情報の示す文書の文書ID及び当該文書に関連する文書の文書IDの対を含む関連文書情報を前記リンクデータベースに格納するインデックス更新手段と、
    前記ユーザからの検索要求を入力すると共に、当該検索要求に従う検索の結果をユーザに提示するユーザインタフェースと、
    前記ユーザインタフェースによって入力された検索要求に基づいて前記インデックスデータベースを検索し、少なくとも前記検索要求にヒットしたヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得する検索手段
    を具備し、
    前記インデックス更新手段は、
    前記情報収集手段によって収集された文書情報の示す文書の各々について、当該文書を当該文書の構造に基づく文書要素ごとに分割し、当該文書を親文書とし、当該分割された文書要素を当該文書の子文書とし、当該親文書の文書ID及び当該子文書の文書IDの対を含む前記関連文書情報を生成して前記リンクデータベースに格納する関係解析手段と、
    前記関係解析手段によって分割された文書要素ごとに前記インデックス情報を生成する文書解析手段と
    を含み、
    前記検索手段は、前記ヒット文書ごとに、前記リンクデータベースに格納された関連文書情報に従って親文書が存在するかを判定すると共に、当該親文書が存在する場合には、当該親文書がヒット文書であるかを判定し、当該親文書がヒット文書である場合、ヒット文書の集合に含まれている当該親文書の全ての子文書について、当該子文書及び当該親文書の検索スコアを比較して、当該親文書の検索スコアより低い子文書を前記ヒット文書の集合から削除し、当該ヒット文書の集合に含まれている当該親文書の全ての子文書のどれよりも検索スコアの低い親文書を前記ヒット文書の集合から削除し、前記ヒット文書の集合に残っているヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得する
    ことを特徴とする知識検索システム。
  2. 文書情報から生成された検索用のインデックス情報が格納されたインデックスデータベースを対象にユーザからの検索要求に基づく検索を実行する知識検索システムにおいて、
    前記インデックスデータベースに格納されたインデックス情報の示す文書の文書ID及び当該文書に関連する文書の文書IDの対を含む関連文書情報を格納するリンクデータベースと、
    公開されている文書情報を収集する情報収集手段と、
    前記情報収集手段によって収集された文書情報から、検索用のインデックス情報を生成して前記インデックスデータベースに格納するインデックス更新手段であって、前記収集された文書情報の示す文書の文書ID及び当該文書に関連する文書の文書IDの対を含む関連文書情報を前記リンクデータベースに格納するインデックス更新手段と、
    前記ユーザからの検索要求を入力すると共に、当該検索要求に従う検索の結果をユーザに提示するユーザインタフェースと、
    前記ユーザインタフェースによって入力された検索要求に基づいて前記インデックスデータベースを検索し、少なくとも前記検索要求にヒットしたヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得する検索手段と
    を具備し、
    前記インデックス更新手段は、前記収集された文書情報の示す文書及び当該文書に関連する文書間において、一方の文書から他方の文書へのハイパーリンクによる参照関係、前記他方の文書が前記一方の文書に含まれている包含関係、前記他方の文書が前記一方の文書に添付されている添付ファイルである関係、または前記他方の文書が前記一方の文書に圧縮されて添付されているデータが解凍されたものである関係の場合、前記一方の文書を親文書、前記他方の文書を子文書として、当該親文書の文書ID及び当該子文書の文書IDの対を含む関連文書情報を前記リンクデータベースに格納し、
    前記検索手段は、前記ヒット文書ごとに、前記リンクデータベースに格納された関連文書情報に従って親文書が存在するかを判定すると共に、当該親文書が存在する場合には、当該親文書がヒット文書であるかを判定し、当該親文書がヒット文書である場合、ヒット文書の集合に含まれている当該親文書の全ての子文書について、当該子文書及び当該親文書の検索スコアを比較して、当該親文書の検索スコアより低い子文書を前記ヒット文書の集合から削除し、当該ヒット文書の集合に含まれている当該親文書の全ての子文書のどれよりも検索スコアの低い親文書を前記ヒット文書の集合から削除し、前記ヒット文書の集合に残っているヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得する
    ことを特徴とする知識検索システム。
  3. 前記検索手段は、前記子文書及び当該子文書の親文書の検索スコアを比較した結果、前記親文書の方が前記検索スコアが高い場合には、当該親文書が前記検索で目的とする内容に近い文書であることを表す当該親文書の重みをインクリメントし、前記子文書の方が前記検索スコアが高い場合には、当該子文書が前記検索で目的とする内容に近い文書であることを表す当該子文書の重みをインクリメントし、前記ヒット文書ごとの検索スコア及び当該文書の重みの順に当該ヒット文書がソートされた検索結果を取得することを特徴とする請求項1または2記載の知識検索システム。
  4. 前記ユーザインタフェースは、検索要求従う検索の結果を、ヒット文書と当該ヒット文書の検索結果順位とが識別可能な文書一覧の形式でユーザに提示し、前記文書一覧から任意の文書が選択され、かつ当該選択された文書と関連している文書が存在する場合には、当該選択された文書の内容と、当該関連している文書の存在が識別可能でかつユーザにより選択可能な識別情報とをユーザに提示することを特徴とする請求項1または2記載の知識検索システム。
  5. 前記ユーザインタフェースは、前記識別情報がユーザによって選択され、かつ当該選択された識別情報によって識別される文書と関連している文書が存在する場合には、当該選択された文書の内容と、当該関連している文書の存在が識別可能でかつユーザにより選択可能な識別情報とをユーザに提示することを特徴とする請求項記載の知識検索システム。
  6. 文書情報から生成された検索用のインデックス情報が格納されたインデックスデータベースを対象にユーザからの検索要求に基づく検索を実行し、前記インデックスデータベースに格納されたインデックス情報の示す文書の文書ID及び当該文書に関連する文書の文書IDの対を含む関連文書情報を格納するリンクデータベースと、情報収集手段と、インデックス更新手段と、ユーザインタフェースと、検索手段とを備える知識検索システムが実行する知識検索方法であって、
    前記情報収集手段が、公開されている文書情報を収集するステップと、
    前記インデックス更新手段が、前記収集された文書情報から、検索用のインデックス情報を生成して前記インデックスデータベースに格納し、前記収集された文書情報の示す文書の文書ID及び当該文書に関連する文書の文書IDの対を含む関連文書情報を前記リンクデータベースに格納するステップと、
    前記ユーザインタフェースが、前記ユーザからの検索要求を入力すると共に、当該検索要求に従う検索の結果をユーザに提示するステップと、
    前記検索手段が、前記入力された検索要求に基づいて前記インデックスデータベースを検索し、少なくとも前記検索要求にヒットしたヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得するステップと、
    前記インデックス更新手段が、前記収集された文書情報の示す文書の各々について、当該文書を当該文書の構造に基づく文書要素ごとに分割し、当該文書を親文書とし、当該分割された文書要素を当該文書の子文書とし、当該親文書の文書ID及び当該子文書の文書IDの対を含む前記関連文書情報を生成して前記リンクデータベースに格納するステップと、
    前記インデックス更新手段が、前記分割された文書要素ごとに前記インデックス情報を生成するステップと、
    前記検索手段が、前記ヒット文書ごとに、前記リンクデータベースに格納された関連文書情報に従って親文書が存在するかを判定すると共に、当該親文書が存在する場合には、当該親文書がヒット文書であるかを判定し、当該親文書がヒット文書である場合、ヒット文書の集合に含まれている当該親文書の全ての子文書について、当該子文書及び当該親文書の検索スコアを比較して、当該親文書の検索スコアより低い子文書を前記ヒット文書の集合から削除し、当該ヒット文書の集合に含まれている当該親文書の全ての子文書のどれよりも検索スコアの低い親文書を前記ヒット文書の集合から削除し、前記ヒット文書の集合に残っているヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得するステップと
    を具備することを特徴とする知識検索方法。
  7. 文書情報から生成された検索用のインデックス情報が格納されたインデックスデータベースを対象にユーザからの検索要求に基づく検索を実行し、前記インデックスデータベースに格納されたインデックス情報の示す文書の文書ID及び当該文書に関連する文書の文書IDの対を含む関連文書情報を格納するリンクデータベースと、情報収集手段と、インデックス更新手段と、ユーザインタフェースと、検索手段とを備える知識検索システムが実行する知識検索方法であって、
    前記情報収集手段が、公開されている文書情報を収集するステップと、
    前記インデックス更新手段が、前記収集された文書情報から、検索用のインデックス情報を生成して前記インデックスデータベースに格納し、前記収集された文書情報の示す文書の文書ID及び当該文書に関連する文書の文書IDの対を含む関連文書情報を前記リンクデータベースに格納するステップと、
    前記ユーザインタフェースが、前記ユーザからの検索要求を入力すると共に、当該検索要求に従う検索の結果をユーザに提示するステップと、
    前記検索手段が、前記入力された検索要求に基づいて前記インデックスデータベースを検索し、少なくとも前記検索要求にヒットしたヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得するステップと、
    前記インデックス更新手段が、前記収集された文書情報の示す文書及び当該文書に関連する文書間において、一方の文書から他方の文書へのハイパーリンクによる参照関係、前記他方の文書が前記一方の文書に含まれている包含関係、前記他方の文書が前記一方の文書に添付されている添付ファイルである関係、または前記他方の文書が前記一方の文書に圧縮されて添付されているデータが解凍されたものである関係の場合、前記一方の文書を親文書、前記他方の文書を子文書として、当該親文書の文書ID及び当該子文書の文書IDの対を含む関連文書情報を前記リンクデータベースに格納するステップと、
    前記検索手段が、前記ヒット文書ごとに、前記リンクデータベースに格納された関連文書情報に従って親文書が存在するかを判定すると共に、当該親文書が存在する場合には、当該親文書がヒット文書であるかを判定し、当該親文書がヒット文書である場合、ヒット文書の集合に含まれている当該親文書の全ての子文書について、当該子文書及び当該親文書の検索スコアを比較して、当該親文書の検索スコアより低い子文書を前記ヒット文書の集合から削除し、当該ヒット文書の集合に含まれている当該親文書の全ての子文書のどれよりも検索スコアの低い親文書を前記ヒット文書の集合から削除し、前記ヒット文書の集合に残っているヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得するステップと
    を具備することを特徴とする知識検索方法。
  8. 文書情報から生成された検索用のインデックス情報が格納されたインデックスデータベースを対象にユーザからの検索要求に基づく検索を実行し、前記インデックスデータベースに格納されたインデックス情報の示す文書の文書ID及び当該文書に関連する文書の文書IDの対を含む関連文書情報を格納するリンクデータベースを備える知識検索システムのコンピュータによって実行されるプログラムであって、
    前記コンピュータに、
    公開されている文書情報を収集するステップと、
    前記収集された文書情報から、検索用のインデックス情報を生成して前記インデックスデータベースに格納し、前記収集された文書情報の示す文書の文書ID及び当該文書に関連する文書の文書IDの対を含む関連文書情報を前記リンクデータベースに格納するステップと、
    前記ユーザからの検索要求を入力すると共に、当該検索要求に従う検索の結果をユーザに提示するステップと、
    前記入力された検索要求に基づいて前記インデックスデータベースを検索し、少なくとも前記検索要求にヒットしたヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得するステップと、
    前記収集された文書情報の示す文書の各々について、当該文書を当該文書の構造に基づく文書要素ごとに分割し、当該文書を親文書とし、当該分割された文書要素を当該文書の子文書とし、当該親文書の文書ID及び当該子文書の文書IDの対を含む前記関連文書情報を生成して前記リンクデータベースに格納するステップと、
    前記分割された文書要素ごとに前記インデックス情報を生成するステップと、
    前記ヒット文書ごとに、前記リンクデータベースに格納された関連文書情報に従って親文書が存在するかを判定すると共に、当該親文書が存在する場合には、当該親文書がヒット文書であるかを判定し、当該親文書がヒット文書である場合、ヒット文書の集合に含まれている当該親文書の全ての子文書について、当該子文書及び当該親文書の検索スコアを比較して、当該親文書の検索スコアより低い子文書を前記ヒット文書の集合から削除し、当該ヒット文書の集合に含まれている当該親文書の全ての子文書のどれよりも検索スコアの低い親文書を前記ヒット文書の集合から削除し、前記ヒット文書の集合に残っているヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得するステップと
    を実行させるためのプログラム。
  9. 文書情報から生成された検索用のインデックス情報が格納されたインデックスデータベースを対象にユーザからの検索要求に基づく検索を実行し、前記インデックスデータベースに格納されたインデックス情報の示す文書の文書ID及び当該文書に関連する文書の文書IDの対を含む関連文書情報を格納するリンクデータベースを備える知識検索システムのコンピュータによって実行されるプログラムであって、
    前記コンピュータに、
    公開されている文書情報を収集するステップと、
    前記収集された文書情報から、検索用のインデックス情報を生成して前記インデックスデータベースに格納し、前記収集された文書情報の示す文書の文書ID及び当該文書に関連する文書の文書IDの対を含む関連文書情報を前記リンクデータベースに格納するステップと、
    前記ユーザからの検索要求を入力すると共に、当該検索要求に従う検索の結果をユーザに提示するステップと、
    前記入力された検索要求に基づいて前記インデックスデータベースを検索し、少なくとも前記検索要求にヒットしたヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得するステップと、
    前記収集された文書情報の示す文書及び当該文書に関連する文書間において、一方の文書から他方の文書へのハイパーリンクによる参照関係、前記他方の文書が前記一方の文書に含まれている包含関係、前記他方の文書が前記一方の文書に添付されている添付ファイルである関係、または前記他方の文書が前記一方の文書に圧縮されて添付されているデータが解凍されたものである関係の場合、前記一方の文書を親文書、前記他方の文書を子文書として、当該親文書の文書ID及び当該子文書の文書IDの対を含む関連文書情報を前記リンクデータベースに格納するステップと、
    前記ヒット文書ごとに、前記リンクデータベースに格納された関連文書情報に従って親文書が存在するかを判定すると共に、当該親文書が存在する場合には、当該親文書がヒット文書であるかを判定し、当該親文書がヒット文書である場合、ヒット文書の集合に含まれている当該親文書の全ての子文書について、当該子文書及び当該親文書の検索スコアを比較して、当該親文書の検索スコアより低い子文書を前記ヒット文書の集合から削除し、当該ヒット文書の集合に含まれている当該親文書の全ての子文書のどれよりも検索スコアの低い親文書を前記ヒット文書の集合から削除し、前記ヒット文書の集合に残っているヒット文書について、当該ヒット文書ごとの検索スコア順に当該ヒット文書がソートされた検索結果を取得するステップと
    を実行させるためのプログラム。
JP2005092196A 2005-03-28 2005-03-28 知識検索システム、知識検索方法及びプログラム Expired - Fee Related JP4189387B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005092196A JP4189387B2 (ja) 2005-03-28 2005-03-28 知識検索システム、知識検索方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005092196A JP4189387B2 (ja) 2005-03-28 2005-03-28 知識検索システム、知識検索方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2006277061A JP2006277061A (ja) 2006-10-12
JP4189387B2 true JP4189387B2 (ja) 2008-12-03

Family

ID=37211795

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005092196A Expired - Fee Related JP4189387B2 (ja) 2005-03-28 2005-03-28 知識検索システム、知識検索方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4189387B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008129821A (ja) * 2006-11-20 2008-06-05 Canon Inc 検索システム及び前記システムにおける検索結果の表示方法
JP5281516B2 (ja) * 2009-08-18 2013-09-04 日本電信電話株式会社 文書格納装置及び文書格納プログラム
JP5954742B2 (ja) 2013-07-23 2016-07-20 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文書を検索する装置及び方法
JP5522598B1 (ja) * 2013-08-05 2014-06-18 求 藤川 情報管理システム、情報管理プログラム、情報管理方法、情報管理装置、記録媒体

Also Published As

Publication number Publication date
JP2006277061A (ja) 2006-10-12

Similar Documents

Publication Publication Date Title
KR101171405B1 (ko) 검색 결과에서 배치 내용 정렬의 맞춤화
JP4638439B2 (ja) ウェブ検索の個人化
Crescenzi et al. Clustering web pages based on their structure
JP4489994B2 (ja) 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
KR100883261B1 (ko) 콘텐츠 정보 해석 방법, 시스템 및 기록 매체
JP3717808B2 (ja) 情報検索システム
US20040059727A1 (en) Document information management system
US20090089278A1 (en) Techniques for keyword extraction from urls using statistical analysis
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
WO2008097856A2 (en) Search result delivery engine
JP3803961B2 (ja) データベース生成装置、データベース生成処理方法及びデータベース生成プログラム
JP2007256992A (ja) コンテンツ特定方法及び装置
JP4231298B2 (ja) 情報抽出規則作成システム、情報抽出規則作成プログラム、情報抽出システム及び情報抽出プログラム
JP2005107688A (ja) 情報表示方法及びシステム及び情報表示プログラム
JP4189387B2 (ja) 知識検索システム、知識検索方法及びプログラム
JP2003271609A (ja) 情報監視装置及び情報監視方法
JP2003141155A (ja) Webページ検索システムおよびWebページ検索プログラム
JP4853915B2 (ja) 検索システム
JP4469818B2 (ja) データ管理装置、データプログラム及びデータ管理方法
US20160117352A1 (en) Apparatus and method for supporting visualization of connection relationship
JP2007012100A (ja) 人物情報に基づく検索方法および検索装置、あるいは情報提供システム
US20150046437A1 (en) Search Method
JP2003186901A (ja) Webサイト検索方法とシステム、並びに、この方法の実行プログラムとこの方法の実行プログラムを記録した記録媒体
KR100371805B1 (ko) 관련 웹 사이트 제공 방법 및 시스템
JP2003173351A (ja) 情報解析、収集、検索方法、装置、プログラム、および記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080610

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080909

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080912

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110919

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120919

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120919

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130919

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees