上述した従来の技術では、指定されたキーワードなどの検索条件にもとづいて検索された結果や、クラスタリングによって分類された結果が単に表示されるだけであるため、キーワードに関係する文書データの傾向を容易に捉えることができないという課題があった。
このため、検索条件を何度も繰り返し指定しなければ、膨大な文書データを絞り込むことができなかった。また、検索条件を何度も指定する必要があるため、検索条件の指定内容によって検索結果が大幅に異なってしまう可能性があり、所望の文書データを容易かつ正確に検索することができなかった。
本発明は、上述した問題を解消し、文書データの傾向を容易に捉えることが可能なデータマップを作成することができるようにすることを目的とする。
本発明のデータマップ作成サーバは、複数の項目から成る複数の多項目データ(例えば特許文献データ、研究者データ、宿泊施設データ、電子カルテなどの文書データ)をクラスタリングによって分類したデータマップを作成するデータマップ作成サーバ(例えば、データマップ作成サーバ10)であって、複数の多項目データを記憶する多項目データ記憶手段(例えば、文書データDB20)と、通信ネットワークを介して、多項目データを構成する複数の項目に含まれる第1項目と、多項目データを構成する複数の項目に含まれ第1項目とは異なる第2項目とを含む検索依頼データを受信する検索依頼受信手段(例えば、検索要求情報受付部17)と、多項目データ記憶手段に記憶された複数の多項目データを、当該複数の多項目データを構成する項目のうち検索依頼データに含まれる第1項目の構成要素(例えば、単語、熟語、数字、記号などの文書構成要素)にもとづいてクラスタリングし、複数区分に分類した第1分類データを作成する第1分類データ作成手段(例えば、検索処理部18におけるステップS204を実行する部分)と、多項目データ記憶手段に記憶された複数の多項目データを、当該複数の多項目データを構成する項目のうち検索依頼データに含まれる第2項目の構成要素にもとづいてクラスタリングし、複数区分に分類した第2分類データを作成する第2分類データ作成手段(例えば、検索処理部18におけるステップS206を実行する部分)と、第1分類データを構成する各区分における多項目データの特徴を示す第1区分特徴情報(例えば、該当区分に分類された文書データの該当項目に高頻度で出現する文書構成要素、該当区分に割り当てられた数値範囲など)をそれぞれ該当区分毎に表示する第1表示領域(例えば第1文書構成要素表示領域52、縦軸項目数値範囲表示領域59)と、第2分類データを構成する各区分における多項目データの特徴を示す第2区分特徴情報(例えば、該当区分に分類された文書データの該当項目に高頻度で出現する文書構成要素、該当区分に割り当てられた数値範囲など)をそれぞれ該当区分毎に表示する第2表示領域(例えば第1文書構成要素表示領域54)と、第1分類データを構成する各区分と第2分類データを構成する各区分との組み合わせが一意に定められる第3表示領域(例えば文書データ関係情報表示領域55)とを含むデータマップを作成するデータマップ作成手段(例えば、データマップ作成部19)と、データマップ作成手段によって作成されたデータマップを、通信ネットワークを介して送信するデータマップ送信手段(例えば、データ通信部13)と、を備え、第3表示領域は、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データに関係する所定の多項目データ関係情報(例えば、文書データの数、文書データのタイトルなど)を、第1分類データを構成する各区分と第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示する表示領域(例えば、図9参照)であることを特徴とする。
上記のように構成したことで、多項目データの傾向を容易に捉えることが可能なデータマップを作成することができる。
第1分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第1項目の構成要素のうち、所定の関連条件(例えば、各区分に分類された複数の文書データにおける項目2についてのウエイト値の平均値が所定値以上の文書構成要素であることや、各区分に分類された複数の文書データにおける項目2についてのウエイト値の平均値の高さが所定順位以上の文書構成要素であることや、その双方を満たすことなど)を満たす構成要素を抽出する第1区分構成要素抽出手段(例えば、検索処理部18におけるステップS205を実行する部分)と、第2分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第2項目の構成要素のうち、所定の関連条件を満たす構成要素を抽出する第2区分構成要素抽出手段(例えば、検索処理部18におけるステップS207を実行する部分)と、を備え、データマップ作成手段は、第1区分構成要素抽出手段が抽出した構成要素を第1区分特徴情報として用いるとともに、第2区分構成要素抽出手段が抽出した構成要素を第2区分特徴情報として用いるように構成されれいてもよい。
上記のように構成したことで、多項目データにおける検索対象項目の構成要素のうち所定の関連条件を満たす構成要素をデータマップに表示させることができ、多項目データの傾向を容易に捉えることが可能なデータマップを作成することができる。
検索依頼データは、キーデータ(例えば、キーワード、検索用の文章)を含み、検索依頼データに含まれるキーデータにもとづいて、多項目データ記憶手段に記憶された複数の多項目データから、所定の抽出条件を満たす複数の多項目データを抽出するキーデータ検索抽出手段(例えば、検索処理部18におけるステップS203を実行する部分)を備え、第1分類データ作成手段が、キーデータ検索抽出手段が抽出した複数の多項目データをクラスタリングして第1分類データを作成し(例えばステップS204)、第2分類データ作成手段が、キーデータ検索抽出手段が抽出した複数の多項目データをクラスタリングして第2分類データを作成する(例えばステップS206)ように構成されれいてもよい。
上記のように構成したことで、指定されたキーワードに関係する多項目データの傾向を容易に捉えることが可能なデータマップを作成することができる。
データマップ作成手段が、第1分類データの名称として第1項目の項目名を表示する第4表示領域(例えば、縦軸項目情報表示領域51)と、第2分類データの名称として第2項目の項目名を表示する第5表示領域(例えば、横軸項目情報表示領域53)とを含むデータマップを作成するように構成されれいてもよい。
上記のように構成したことで、第1分類データおよび第2分類データの名称を容易かつ適切に付与することができ、第1分類データおよび第2分類データの内容を容易に認識することが可能なデータマップを作成することができる。
多項目データ関係情報は、例えば、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データの数を示す分類数情報(例えば、該当する区分に分類された文書データの数を示す情報(図9参照))であるとされていてもよい。また、多項目データ関係情報は、例えば、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データを特定するための多項目データ特定情報(例えば、文書データの識別コード、タイトルなど)であるとされていてもよい。
上記のように、多項目データ関係情報として分類数情報を用いた場合には、多項目データの分類状態の傾向を容易に把握することが可能なデータマップを作成することができるようになる。さらに、多項目データ関係情報として多項目データ特定情報を用いた場合には、多項目データの分類状態の傾向をより詳細に把握することが可能なデータマップを作成することができるようになる。
データマップ送信手段によってデータマップが送信されたあと、通信ネットワークを介して、検索依頼データを第1項目から、多項目データを構成する複数の項目に含まれ第1項目および第2項目とは異なる第3項目に変更する変更依頼データを受信する検索変更依頼受信手段(例えば、検索要求情報受付部17)と、変更依頼データに応じて、多項目データ記憶手段に記憶された複数の多項目データを、当該複数の多項目データを構成する項目のうち変更依頼データに含まれる第3項目の構成要素にもとづいてクラスタリングし、複数区分に分類した第3分類データを作成する第3分類データ作成手段(例えば、検索処理部18におけるステップS212にてYと判定されたあとにステップS204を実行する部分)とを備え、データマップ作成手段は、第1表示領域と第3表示領域とを、第3分類データを構成する各区分における多項目データの特徴を示す第3区分特徴情報をそれぞれ該当区分毎に表示する第1表示領域と、第3分類データを構成する各区分と第2分類データを構成する各区分との組み合わせが一意に定められる第3表示領域とに変更したデータマップを作成し(例えば、ステップS212にてYと判定されステップS204,ステップS205が実行されたあとのステップS208)、変更した第3表示領域は、第3分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データに関係する所定の多項目データ関係情報を、第3分類データを構成する各区分と第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示する表示領域であるように構成されていてもよい。
上記のように構成したことで、検索依頼データにおける項目の組み合わせの一方が変更されたときに、既存のデータを用いて効率的にデータマップを作成することができるようになる。
第3分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第3項目の構成要素のうち、所定の関連条件を満たす構成要素を抽出する第3区分構成要素抽出手段(例えば、検索処理部18におけるステップS212にてYと判定されステップS204を実行したあとにステップS205を実行する部分)を備え、データマップ作成手段は、第3区分構成要素抽出手段が抽出した構成要素を第3区分特徴情報として用いるように構成されていてもよい。
上記のように構成したことで、検索依頼データにおける項目の組み合わせの一方が変更されたときに、既存のデータを用いて効率的にデータマップを作成することができるようになる。
また、本発明のデータマップ作成方法は、複数の項目から成る複数の多項目データ(例えば特許文献データ、研究者データ、宿泊施設データ、電子カルテなどの文書データ)をクラスタリングによって分類したデータマップを作成するためのデータマップ作成方法であって、多項目データを構成する複数の項目に含まれる第1項目と、多項目データを構成する複数の項目に含まれ第1項目とは異なる第2項目とを含む検索依頼データを受け付け(例えばステップS202)、複数の多項目データを、当該複数の多項目データを構成する項目のうち検索依頼データに含まれる第1項目の構成要素(例えば、単語、熟語、数字、記号などの文書構成要素)にもとづいてクラスタリングし、複数区分に分類した第1分類データを作成し(例えばステップS204)、複数の多項目データを、当該複数の多項目データを構成する項目のうち検索依頼データに含まれる第2項目の構成要素にもとづいてクラスタリングし、複数区分に分類した第2分類データを作成し(例えばステップS206)、第1分類データを構成する各区分における多項目データの特徴を示す第1区分特徴情報をそれぞれ該当区分毎に表示する第1表示領域と、第2分類データを構成する各区分における多項目データの特徴を示す第2区分特徴情報をそれぞれ該当区分毎に表示する第2表示領域と、第1分類データを構成する各区分と第2分類データを構成する各区分との組み合わせが一意に定められる第3表示領域とを含むデータマップを作成し(例えばステップS208)、第1表示領域と、第2表示領域と、第3表示領域とを含むデータマップを表示し(例えば、ステップS208のあとサーバ10にてデータマップを表示する。また、例えば、データマップ情報を受信したユーザ端末30Aにてデータマップを表示する。)、第3表示領域に、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データに関係する所定の多項目データ関係情報を、第1分類データを構成する各区分と第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示する(例えば、ステップS208のあとサーバ10にて表示する。また、例えば、データマップ情報を受信したユーザ端末30Aにて表示する。)ことを特徴とする。
上記のように構成したことで、多項目データの傾向を容易に捉えることが可能なデータマップを作成し表示することができる。
第1分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第1項目の構成要素のうち、所定の関連条件を満たす第1区分構成要素(例えば第1文書構成要素のうち第1分類データを構成する各区分について抽出された構成要素)を抽出し(例えばステップS205)、第2分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第2項目の構成要素のうち、所定の関連条件を満たす第2区分構成要素(例えば第2文書構成要素のうち第2分類データを構成する各区分について抽出された構成要素)を抽出し(例えばステップS207)、第1区分構成要素を第1区分特徴情報として用いて第1表示領域に表示するとともに、第2区分構成要素を第2区分特徴情報として用いて第2表示領域に表示するように構成されていてもよい。
上記のように構成したことで、多項目データにおける検索対象項目の構成要素のうち所定の関連条件を満たす構成要素をデータマップに表示させることができ、多項目データの傾向を容易に捉えることが可能なデータマップを作成することができる。
キーデータ(例えば、キーワード、検索用の文章)を含む検索依頼データを受け付け(例えばステップS201)、検索依頼データに含まれるキーデータにもとづいて、多項目データ記憶手段に記憶された複数の多項目データから、所定の抽出条件を満たす複数の多項目データを抽出し(例えばステップS203)、抽出した複数の多項目データをクラスタリングして第1分類データを作成するとともに(例えばステップS204)、当該抽出した複数の多項目データをクラスタリングして第2分類データを作成する(例えばステップS206)ように構成されていてもよい。
上記のように構成したことで、指定されたキーワードに関係する多項目データの傾向を容易に捉えることが可能なデータマップを作成し表示することができる。
第1分類データの名称として第1項目の項目名を表示する第4表示領域(例えば、縦軸項目情報表示領域51)と、第2分類データの名称として第2項目の項目名を表示する第5表示領域(例えば、横軸項目情報表示領域53)とを含むデータマップを作成するように構成されれいてもよい。
上記のように構成したことで、第1分類データおよび第2分類データの名称を容易かつ適切に付与することができ、第1分類データおよび第2分類データの内容を容易に認識することが可能なデータマップを作成することができる。
多項目データ関係情報は、例えば、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データの数を示す分類数情報(例えば、該当する区分に分類された文書データの数を示す情報(図9参照))であるとされていてもよい。また、多項目データ関係情報は、例えば、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データを特定するための多項目データ特定情報(例えば、文書データの識別コード、タイトルなど)であるとされていてもよい。
上記のように、多項目データ関係情報として分類数情報を用いた場合には、多項目データの分類状態の傾向を容易に把握することが可能なデータマップを作成することができるようになる。さらに、多項目データ関係情報として多項目データ特定情報を用いた場合には、多項目データの分類状態の傾向をより詳細に把握することが可能なデータマップを作成することができるようになる。
データマップが作成されたあと、検索依頼データを第1項目から、多項目データを構成する複数の項目に含まれ第1項目および第2項目とは異なる第3項目に変更する変更依頼データを受け付け(例えば、ステップS210)、変更依頼データに応じて、複数の多項目データを、当該複数の多項目データを構成する項目のうち変更依頼データに含まれる第3項目の構成要素にもとづいてクラスタリングして、複数区分に分類した第3分類データを作成し(例えば、ステップS212にてYと判定されたあとのステップS204)、第1表示領域と第3表示領域とを、第3分類データを構成する各区分における多項目データの特徴を示す第3区分特徴情報をそれぞれ該当区分毎に表示する第1表示領域と、第3分類データを構成する各区分と第2分類データを構成する各区分との組み合わせが一意に定められる第3表示領域とに変更したデータマップを作成し(例えば、ステップS212にてYと判定されステップS204,ステップS205が実行されたあとのステップS208)、変更した第1表示領域と、第2表示領域と、変更した第3表示領域とを含むデータマップを表示し(例えば、ステップS208のあとサーバ10にてデータマップを表示する。また、例えば、データマップ情報を受信したユーザ端末30Aにてデータマップを表示する。)、変更した第3表示領域に、第3分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データに関係する所定の多項目データ関係情報を、第3分類データを構成する各区分と第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示する(例えば、ステップS208のあとサーバ10にて表示する。また、例えば、データマップ情報を受信したユーザ端末30Aにて表示する。)ように構成されていてもよい。
上記のように構成したことで、検索依頼データにおける項目の組み合わせの一方が変更されたときに、既存のデータを用いて効率的にデータマップを作成し表示することができるようになる。
第3分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第3項目の構成要素のうち、所定の関連条件を満たす第3区分構成要素を抽出し(例えば、ステップS212にてYと判定されステップS204を実行したあとのステップS205)、抽出した第3区分構成要素を第3区分特徴情報として用いて第1表示領域に表示するように構成されていてもよい。
上記のように構成したことで、検索依頼データにおける項目の組み合わせの一方が変更されたときに、既存のデータを用いて効率的にデータマップを作成し表示することができるようになる。
さらに、本発明のデータマップ作成プログラムは、複数の項目から成る複数の多項目データ(例えば特許文献データ、研究者データ、宿泊施設データ、電子カルテなどの文書データ)をクラスタリングによって分類したデータマップを作成させるためのデータマップ作成プログラムであって、コンピュータ(例えばデータマップ作成サーバ10)に、多項目データを構成する複数の項目に含まれる第1項目と、多項目データを構成する複数の項目に含まれ第1項目とは異なる第2項目とを含む検索依頼データを受け付けるステップ(例えばステップS202)と、複数の多項目データを、当該複数の多項目データを構成する項目のうち検索依頼データに含まれる第1項目の構成要素(例えば、単語、熟語、数字、記号などの文書構成要素)にもとづいてクラスタリングし、複数区分に分類した第1分類データを作成するステップ(例えばステップS204)と、複数の多項目データを、当該複数の多項目データを構成する項目のうち検索依頼データに含まれる第2項目の構成要素にもとづいてクラスタリングし、複数区分に分類した第2分類データを作成するステップ(例えばステップS206)と、第1分類データを構成する各区分における多項目データの特徴を示す第1区分特徴情報をそれぞれ該当区分毎に表示する第1表示領域と、第2分類データを構成する各区分における多項目データの特徴を示す第2区分特徴情報をそれぞれ該当区分毎に表示する第2表示領域と、第1分類データを構成する各区分と第2分類データを構成する各区分との組み合わせが一意に定められる第3表示領域とを含むデータマップを作成するステップ(例えばステップS208)と、第1表示領域と、第2表示領域と、第3表示領域とを含むデータマップを表示するステップ(例えば、ステップS208のあとサーバ10にてデータマップを表示する処理。また、例えば、データマップ情報を受信したユーザ端末30Aにてデータマップを表示する処理。)と、第3表示領域に、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データに関係する所定の多項目データ関係情報を、第1分類データを構成する各区分と第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示するステップ(例えば、ステップS208のあとサーバ10にて表示する処理。また、例えば、データマップ情報を受信したユーザ端末30Aにて表示する処理。)とを実行させるためのものである。
上記のように構成したことで、コンピュータに、多項目データの傾向を容易に捉えることが可能なデータマップを作成させ表示させることができる。
コンピュータに、さらに、第1分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第1項目の構成要素のうち、所定の関連条件を満たす第1区分構成要素を抽出するステップ(例えばステップS205)と、第2分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第2項目の構成要素のうち、所定の関連条件を満たす第2区分構成要素を抽出するステップ(例えばステップS207)と、第1区分構成要素を第1区分特徴情報として用いて第1表示領域に表示するとともに、第2区分構成要素を第2区分特徴情報として用いて第2表示領域に表示するステップとを実行させるためのものであってもよい。
上記のように構成したことで、コンピュータに、多項目データにおける検索対象項目の構成要素のうち所定の関連条件を満たす構成要素をデータマップに表示させることができ、多項目データの傾向を容易に捉えることが可能なデータマップを作成させ表示させることができる。
コンピュータに、さらに、キーデータ(例えば、キーワード、検索用の文章)を含む検索依頼データを受け付けるステップ(例えばステップS201)と、検索依頼データに含まれるキーデータにもとづいて、多項目データ記憶手段に記憶された複数の多項目データから、所定の抽出条件を満たす複数の多項目データを抽出するステップ(例えばステップS203)と、抽出した複数の多項目データをクラスタリングして第1分類データを作成するとともに、当該抽出した複数の多項目データをクラスタリングして第2分類データを作成するステップ(例えばステップS204,S206)とを実行させるためのものであってもよい。
上記のように構成したことで、コンピュータに、指定されたキーワードに関係する多項目データの傾向を容易に捉えることが可能なデータマップを作成させ表示させることができる。
コンピュータに、さらに、第1分類データの名称として第1項目の項目名を表示する第4表示領域(例えば、縦軸項目情報表示領域51)と、第2分類データの名称として第2項目の項目名を表示する第5表示領域(例えば、横軸項目情報表示領域53)とを含むデータマップを作成するステップ(例えばステップS208)を実行させるものであってもよい。
上記のように構成したことで、第1分類データおよび第2分類データの名称を容易かつ適切に付与させることができ、コンピュータに、第1分類データおよび第2分類データの内容を容易に認識することが可能なデータマップを作成させることができる。
多項目データ関係情報は、例えば、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データの数を示す分類数情報(例えば、該当する区分に分類された文書データの数を示す情報(図9参照))であるとされていてもよい。また、多項目データ関係情報は、例えば、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データを特定するための多項目データ特定情報(例えば、文書データの識別コード、タイトルなど)であるとされていてもよい。
上記のように、多項目データ関係情報として分類数情報を用いた場合には、多項目データの分類状態の傾向を容易に把握することが可能なデータマップを作成させることができるようになる。さらに、多項目データ関係情報として多項目データ特定情報を用いた場合には、多項目データの分類状態の傾向をより詳細に把握することが可能なデータマップを作成させることができるようになる。
コンピュータに、さらに、データマップが作成されたあと、検索依頼データを第1項目から、多項目データを構成する複数の項目に含まれ第1項目および第2項目とは異なる第3項目に変更する変更依頼データを受け付けるステップ(例えば、ステップS210)と、変更依頼データに応じて、複数の多項目データを、当該複数の多項目データを構成する項目のうち変更依頼データに含まれる第3項目の構成要素にもとづいてクラスタリングして、複数区分に分類した第3分類データを作成するステップ(例えば、ステップS212にてYと判定されたあとのステップS204)と、第1表示領域と第3表示領域とを、第3分類データを構成する各区分における多項目データの特徴を示す第3区分特徴情報をそれぞれ該当区分毎に表示する第1表示領域と、第3分類データを構成する各区分と第2分類データを構成する各区分との組み合わせが一意に定められる第3表示領域とに変更したデータマップを作成するステップ(例えば、ステップS212にてYと判定されステップS204,ステップS205が実行されたあとのステップS208)と、変更した第1表示領域と、第2表示領域と、変更した第3表示領域とを含むデータマップを表示するステップ(例えば、ステップS208のあとサーバ10にてデータマップを表示する。また、例えば、データマップ情報を受信したユーザ端末30Aにてデータマップを表示する。)と、変更した第3表示領域に、第3分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データに関係する所定の多項目データ関係情報を、第3分類データを構成する各区分と第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示するステップ(例えば、ステップS208のあとサーバ10にて表示する。また、例えば、データマップ情報を受信したユーザ端末30Aにて表示する。)とを実行させるためのものであってもよい。
上記のように構成したことで、検索依頼データにおける項目の組み合わせの一方が変更されたときに、コンピュータに、既存のデータを用いて効率的にデータマップを作成させ表示させることができるようになる。
コンピュータに、さらに、第3分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第3項目の構成要素のうち、所定の関連条件を満たす第3区分構成要素を抽出するステップ(例えば、ステップS212にてYと判定されステップS204を実行したあとのステップS205)と、抽出した第3区分構成要素を第3区分特徴情報として用いて第1表示領域に表示するステップとを実行させるためのものであってもよい。
上記のように構成したことで、検索依頼データにおける項目の組み合わせの一方が変更されたときに、コンピュータに、既存のデータを用いて効率的にデータマップを作成させ表示させることができるようになる。
本発明によれば、多項目データの傾向を容易に捉えることが可能なデータマップを作成することができるようになる。
従って、検索依頼データを何度も繰り返し指定することなく、膨大な多項目データから所望の多項目データを容易かつ正確に絞り込むことができるようになる。
以下、本発明の一実施の形態について図面を参照して説明する。
図1は、本発明の一実施の形態におけるデータマップ作成システム100の構成の例を示すブロック図である。
図1に示すように、本例のデータマップ作成システム100は、データマップ作成サーバ10と、複数のユーザ端末30A〜30Nとを含む。データマップ作成サーバ10と、複数のユーザ端末30A〜30Nとは、それぞれインターネットなどの通信ネットワーク40に接続されている。
データマップ作成サーバ10は、例えばWWW(World Wide Web)サーバやワークステーションサーバなどの情報処理装置によって構成され、例えば本システム100の管理者によって管理される。
ユーザ端末30A〜30Nは、それぞれ、パーソナルコンピュータなどの情報処理装置によって構成され、本システム100を利用するユーザによって管理される。ユーザ端末30A〜30Nは、それぞれ、例えばブラウザなどが搭載され、通信ネットワーク40を介して各種情報の送受信を行う機能や、通信ネットワーク40を介して受信した各種情報を表示する機能などの各種の機能を有する。
図2は、データマップ作成サーバ10の構成の例を示すブロック図である。図2に示すように、データマップ作成サーバ10は、データ入力部11と、データ表示部12と、データ通信部13と、キーワードリスト作成部14と、ウエイト処理部15と、転置インデックス作成部16と、検索要求情報受付部17と、検索処理部18と、データマップ作成部19と、文書データDB20と、マップ作成利用データDB21とを含む。
データ入力部11は、例えばキーボードやマウスなどの情報入力装置によって構成され、例えばサーバ10の管理者が各種の情報を入力する際に用いられる。データ表示部12は、例えばLCD(液晶表示装置)などの表示装置によって構成され、各種の情報を表示するために用いられる。
データ通信部13は、通信ネットワーク40を介して、例えばユーザ端末30A〜30Nとの間で各種の情報を送受する機能を有する。
キーワードリスト作成部14は、検索対象とされている複数の文書データから、各文書データを構成する文書構成要素をそれぞれ抽出し、後述するキーワードリスト(図5参照)を作成する処理を実行する機能を有する。
「文書構成要素」は、文書データを構成する要素であって、具体的には、例えば単語、熟語、数字、数式、記号などが該当する。
ウエイト処理部15は、キーワードリストに登録されている文書構成要素のウエイト値を導出し、後述する項目インデックス(図6参照)を作成する処理を実行する機能を有する。
ウエイト処理部15は、サーバ10に搭載されている制御プログラムに従って、例えば、TF*IDFと呼ばれる重み付け手法によるウエイト値の算出処理を行う。なお、他の重み付け手法によってウエイト値を導出するようにしてもよい。
転置インデックス作成部16は、ウエイト処理部15によって各項目毎に作成されたそれぞれの項目インデックスにもとづいて、後述する転置インデックス(図7参照)を作成する処理を実行する機能を有する。
検索要求情報受付部17は、ユーザ端末30A〜30Nからの検索要求情報を受信し、データマップの作成要求を受け付ける処理を実行する機能を有する。
検索処理部18は、検索要求情報受付部17が受信した検索要求情報に従って、文書データの検索やクラスタリングなどの処理を実行する機能を有する。「検索要求情報」は、検索のための条件を特定するための情報であって、本例では、ユーザによって任意に指定された検索キーワードと、各文書データを構成している項目のいずれかである第1項目情報と、各文書データを構成している項目の他のいずれかである文書第2項目情報とを含む。「クラスタリング」とは、対象となる複数の文書データを、複数の区分のいずれかに振り分け、複数の区分に分類する処理を意味する。
検索処理部18は、サーバ10に搭載されている制御プログラムに従って、項目インデックスや転置インデックスなどを用いて、文書データを検索する検索処理や、複数の文書データを複数の区分に分類するクラスタリング処理を実行する。なお、検索処理部18による検索処理やクラスタリング処理は、公知の手法によって行われる。すなわち、検索処理部18による検索処理やクラスタリング処理の手法は、どのような手法であってもよい。
データマップ作成部19は、検索処理部18による検索やクラスタリングの結果にもとづいて、データマップを表示するためのデータマップ情報を作成する処理を実行する機能を有する。なお、「データマップ情報」は、表示装置の表示画面に表示されるデータマップの電子データを意味し、単に「データマップ」と呼ぶことがある。
文書データDB20は、例えばデータベース装置によって構成され、検索対象となる複数の文書データなどの各種の情報が記憶される。
マップ作成利用データDB21は、例えばデータベース装置によって構成され、データマップを作成する際に利用されるデータ(マップ作成利用データ)などの各種の情報が記憶される。「マップ作成利用データ」は、例えば、キーワードリスト、項目インデックス、転置インデックス、検索要求情報などの各種の情報を含む。
図3は、文書データDB20における文書データの格納状態を説明するための説明図である。図3に示すように、文書データDB20には、複数の文書データ1〜N(N:任意の正の整数)が格納されている。
文書データは、記載事項があらかじめ定められている複数の項目1〜M(M:任意の正の整数)によって構成された多項目データであるものとする。また、文書データは、例えば、XMLなどの記述言語によって作成される。
多項目データとしては、例えば、公開特許公報などの特許文献を示す特許文献データなどが該当する。すなわち、特許文献のように、「特許請求の範囲」、「発明の名称」、「背景技術」、「発明が解決しようとする課題」、「課題を解決するための手段」、「発明の効果」などのあらかじめ既定された複数の項目によって構成される文書データは、全て多項目データとして用いることができ、本システム100における検索対象とすることができる。
次に、本例のデータマップ作成システム100の動作について説明する。
図4は、本例のデータマップ作成システム100におけるデータマップ作成サーバ10によるマップ作成準備処理の例を示すフローチャートである。マップ作成準備処理は、例えば、文書データDB20に文書データが追加登録されたとき、文書データDB20に登録されている文書データの一部が削除されたとき、システム管理者からのデータ入力部11の操作による指示があったとき、あるいは定期的に実行される。
本例では、文書データDB20に文書1〜文書Nの各文書データが登録されているものとし、各文書データは項目1〜項目Mによって構成される多項目データであるものとする(図3参照)。
マップ作成準備処理において、先ず、データマップ作成サーバ10のキーワードリスト作成部14は、文書データDB20に登録された検索対象とされている全ての文書データの全体から文書構成要素を抽出し、キーワードリストを作成する(ステップS101)。
図5は、キーワードリスト作成処理(ステップS101)の概要を示す模式図である。図5に示すように、ステップS101では、文書データDB20に登録されている全ての文書データの全体を検索し、全文書データ内に存在している文書構成要素を、検索キーワードと比較するための文書構成要素として順次抽出して、リスト番号を付与しながらリストに加えていき、キーワードリストを作成する処理が実行される。
ステップS101では、例えば、全文書データ内に存在している全種類の文書構成要素を抽出し、抽出された順番に0から順次リスト番号を付与してリストに加えていくものとする。なお、全文書データ内に存在している全種類の文書構成要素でなく、全文書データ内に存在している文書構成要素のうち一部の種類だけをリストに加えるようにしてもよい。
キーワードリストは、例えば図5に示すように、一意に定められるリスト番号に、「水素」などの各文書構成要素がそれぞれ対応付けされたベクトルデータとなる。
キーワードリストを作成すると、データマップ作成サーバ10は、作成したキーワードリストをマップ作成利用データDB21に保存する。
次いで、データマップ作成サーバ10のウエイト処理部15は、文書データDB20に登録されている文書データと、作成したキーワードリストとを用いて、項目インデックスを作成する処理を実行する(ステップS102〜ステップS108)。図6は、項目インデックス作成処理(ステップS102〜ステップS108)の概要を示す模式図である。
ウエイト処理部15は、処理対象の文書データを特定するための処理文書番号Xに初期値「1」を設定するとともに、処理対象の項目を特定するための処理項目番号Yに初期値「0」を設定する(ステップS102)。なお、項目0は、全項目1〜Mを意味するものとする。
次に、ウエイト処理部15は、文書データDB20に登録されている全ての文書1〜Nの項目Yを検索し、ステップS101にて作成されたキーワードリストに登録されている各文書構成要素が文書Xの項目Yにおいてどれぐらいの重みを持っているのかを示すウエイト値を、各文書構成要素毎に順次算出し、算出したウエイト値を該当する文書構成要素のリスト番号に対応付けして順次登録していくことで、文書Xについての項目Yインデックスを作成する(ステップS103)。すなわち、項目Yインデックスにおける文書Xに関わるベクトルデータを作成する。
ステップS103の処理を実行すると、ウエイト処理部15は、処理文書番号Xが最大値に達していなければ(ステップS104のN)、処理文書番号Xを1加算し(ステップS105)、処理文書番号Xが1加算された文書Xについての項目Yインデックスを作成する(ステップS103)。
そして、ウエイト処理部15は、ステップS103〜ステップS105の処理を処理文書番号Xが最大値(本例ではN)に達するまで(ステップS104のY)繰り返し行うことで、項目Yインデックスにおける文書1〜文書Nに関わる各ベクトルデータを順次作成し、項目Yインデックスを完成させる。
項目Yインデックスを完成させると、ウエイト処理部15は、作成した項目Yインデックスをマップ作成利用データDB21に保存し(ステップS106)、処理項目番号Yが最大値に達していなければ(ステップS107のN)、処理文書番号Xに初期値「1」を設定するとともに、処理項目番号Yを1加算し(ステップS108)、ステップS103に戻り、処理項目番号Yが1加算された項目Yインデックスを作成する処理を行う(ステップS103〜ステップS105)。
ウエイト処理部15は、ステップS103〜ステップS105の処理を処理文書番号Xが最大値(本例ではN)に達するまで(ステップS104のY)繰り返し行う毎に、項目Yインデックスを順次完成させ、作成した項目Yインデックスをマップ作成利用データDB21に順次保存していく(ステップS106)。
そして、ウエイト処理部15は、処理文書番号Xが最大値(本例ではN)に達するまで(ステップS104のY)のステップS103〜ステップS105の繰り返し処理を、処理項目番号Yが最大値(本例ではM)に達するまで(ステップS107のY)繰り返し行うことで、項目0インデックス〜項目Mインデックスを順次作成する。
項目0インデックス〜項目Mインデックスが作成されると、転置インデックス作成部16は、ウエイト処理部15によって作成された各項目インデックスにもとづいて、転置インデックスを作成し(ステップS109)、マップ作成利用データDB21に保存する(ステップS110)。
図7は、転置インデックス作成処理(ステップS110)の概要を示す模式図である。図7に示すように、転置インデックス作成部16は、全項目インデックス、項目1インデックス〜項目Mインデックスを用いて、キーワードリストに含まれる各文書構成要素毎に、転置インデックスを作成する。転置インデックスは、キーワードリストに登録されている文書構成要素の数だけ作成される。転置インデックス作成部16は、キーワードリストに含まれる各文書構成要素毎に転置インデックスを作成し、該当リスト番号に対応付けして登録する。
「転置インデックス」は、複数の文書データの検索処理を効率的に実行するためのインデックスを意味し、ある特定の文書構成要素がどの文書データのどの項目に出現するかを示すデータである。「転置インデックス」は、各文書データ1〜Nにおける項目0〜項目Mそれぞれについて、該当する項目構成要素のウエイト値が所定の順番に整列されたインデックスである。本例では、文書番号1(文書1を示す文書データ1)〜文書番号N(文書Nを示す文書データN)の順番に並べられるとともに、各文書データ1〜Nにおいて項目番号0(項目0)〜項目番号M(項目M)の順番に並べられ、該当する文書データにおける該当する項目のウエイト値が、ウエイト処理部15によって作成された各項目インデックスから抽出されて設定される。
具体的には、図7に示すように、例えばリスト番号nの文書構成要素についての転置インデックスnは、文書データ1の項目0における文書構成要素nのウエイト値「0.3」が項目0インデックス(図6参照)から抽出されて設定され、文書データ1の項目1における文書構成要素nのウエイト値「0.4」が項目1インデックス(図6参照)から抽出されて設定され、文書データ1の項目2における文書構成要素nのウエイト値「0.5」が項目2インデックス(図6参照)から抽出されて設定され、その後も項目3以降における文書構成要素nのウエイト値が同様に抽出されて設定され、さらに文書データ2以降について同様に文書構成要素nのウエイト値が同様に抽出されて設定されることで作成される。
上記のようにして、データマップ作成サーバ10は、データマップ作成準備処理において、キーワードリスト、項目インデックス、および転置インデックスを作成し、マップ作成利用データDB21に保存する。
図8は、本例のデータマップ作成システム100におけるデータマップ作成サーバ10によるマップ作成処理の例を示すフローチャートである。
ここでは、項目1〜項目Mによって構成される文書1〜文書Nの各文書データにもとづいて作成されたキーワードリスト、項目インデックス、および転置インデックスが、マップ作成利用データDB21に保存されているものとする。
また、ここでは、ユーザAによって管理されているユーザ端末30Aからの要求に応じて、データマップ情報を作成する処理が実行されるものとする。
マップ作成処理において、先ず、データマップ作成サーバ10の検索要求情報受付部17は、ユーザ端末30Aから通信ネットワーク40を介して検索要求情報を受信し、データマップ作成要求を受け付ける(ステップS201,S202)。
検索要求情報は、検索キーワードと、複数の検索項目情報とを含む。検索キーワードは、1または2以上の単語、熟語、記号、式、文章など、絞込み検索のためのキーワードであればどのような形態であってもよい。なお、検索項目情報は、ユーザAによって、検索対象とされている文書データを構成する項目から任意の複数個が選択される。本例では、複数の検索項目情報として、データマップの縦軸方向に分類表示するためのクラスタリング処理の処理対象とする項目を示す縦軸項目情報と、データマップの横軸方向に分類表示するためのクラスタリング処理の処理対象とする項目を示す横軸項目情報とが指定されるものとする。
ここでは、ステップS201,S202において、検索要求情報として、検索キーワードを示す「検索キーワードP」と、縦軸項目情報を示す「項目2」と、横軸項目情報を示す「項目3」が受信されたものとする。
検索要求情報を受信すると、データマップ作成サーバ10の検索処理部18は、検索キーワードPと、キーワードリストと、項目インデックスと、転置インデックスとを用いて、文書データDB20に登録されている複数の文書データから、所定の検索条件を満たす文書データを抽出し、データマップへの掲載対象とする文書データを絞り込む処理を行う(ステップS203)。ここでは、文書データが25000件に絞り込まれたものとする(図9の表示領域56参照)。
ステップS203における検索条件は、例えば、検索キーワードPを文書内に含むこと、検索キーワードPと同一の文書構成要素または類似の文書構成要素(例えば、同義語、関連語)を文書内に含むこと、検索キーワードPの出現頻度が所定の閾値以上(例えばウエイト値が0.3以上)であること、検索キーワードPの出現頻度が所定の閾値以上(例えばウエイト値が0.3以上)であって上位25000件までであることなど、情報検索において使用される公知の条件であればどのようなものであってもよい。また、ステップS203における検索条件は、あらかじめ定められ、マップ作成利用データDB21に登録されているものとする。なお、ステップS203における検索条件を、複数種類の検索条件からユーザAが選択するようにしてもよい。
検索キーワードPによる絞込み処理を行うと、検索処理部18は、ステップS203にて抽出された複数の文書データを、縦軸項目情報として指定されている「項目2」についてクラスタリングし、所定の第1区分数に分類した第1分類データを作成する(ステップS204)。
「第1区分数」は、例えば5区分、7区分、10区分などのようにあらかじめ定められ、マップ作成利用データDB21に登録されているものとする。ここでは、「第1区分数」が5区分と定められているものとする(図9の表示領域57参照)。なお、「第1区分数」を、ユーザAが指定するようにしてもよい。
ステップS204では、例えば、縦軸項目情報として指定されている「項目2」についての項目2インデックスを用いて、ステップS203にて抽出された複数の文書データにおけるそれぞれの項目2についての各文書構成要素のウエイト値によるベクトルデータを比較し、ステップS203にて抽出された複数の文書データを第1区分数の各カテゴリに分類し、第1分類データを作成する処理が実行される。
「第1分類データ」は、ステップS203にて抽出された複数の文書データが第1区分数に分類されたデータを意味する。「第1分類データ」は、各区分それぞれに、各区分に分類された1または複数の文書データが対応付けされたデータである。ここでは、ステップS203にて絞り込まれた25000件の文書データが、5区分のカテゴリのうち1区分目に2500件、2区分目に5000件、3区分目に8000件、4区分目に6500件、5区分目に3000件それぞれ分類されたものとする(図9の表示領域57参照)。
次に、検索処理部18は、縦軸項目情報として指定されている「項目2」についての項目2インデックスを用いて、第1分類データを構成する各区分毎に、所定の関連条件を満たす文書構成要素である第1文書構成要素を抽出する(ステップS205)。「第1文書構成要素」は、第1分類データを構成する各区分に分類された文書データ群の特徴を各区分毎に示す第1区分特徴情報の一例である。
「関連条件」は、例えば、各区分に分類された複数の文書データにおける項目2についてのウエイト値の平均値が所定値以上の文書構成要素であることや、各区分に分類された複数の文書データにおける項目2についてのウエイト値の平均値の高さが所定順位以上の文書構成要素であることや、その双方を満たすことなどとされる。
ここでは、「各区分に分類された複数の文書データにおける項目2についてのウエイト値の平均値が高い上位4個の文書構成要素」が「第1文書構成要素」として抽出されるものとする(図9の表示領域52参照)。そして、1区分目の第1文書構成要素として文書構成要素A1〜A4が抽出され、2区分目の第1文書構成要素として文書構成要素B1〜B4が抽出され、3区分目の第1文書構成要素として文書構成要素C1〜C4が抽出され、4区分目の第1文書構成要素として文書構成要素D1〜D4が抽出され、5区分目の第1文書構成要素として文書構成要素E1〜E4が抽出されたものとする(図9の表示領域52参照)。
なお、ステップS205では、第1分類データを構成する区分に分類された文書データが1のみであった場合には、その文書データの項目2に含まれている文書構成要素が抽出される。この場合、「関連条件」は、例えば、その区分に分類された文書データにおける項目2についてのウエイト値が所定値以上であることや、その区分に分類された文書データにおける項目2についてのウエイト値の高さが所定順位以上であることや、その双方を満たすことなどとされる。
次いで、検索処理部18は、ステップS203にて抽出された複数の文書データを、横軸項目情報として指定されている「項目3」についてクラスタリングし、所定の第2区分数に分類した第2分類データを作成する(ステップS206)。
「第2区分数」は、例えば5区分、7区分、10区分などのようにあらかじめ定められ、マップ作成利用データDB21に登録されているものとする。ここでは、「第2区分数」が5区分と定められているものとする(図9の表示領域58参照)。なお、「第2区分数」を、ユーザAが指定するようにしてもよい。「第2区分数」は、「第1区分数」と同じ数であってもよいし、「第1区分数」と異なる数であってもよい。
ステップS206では、例えば、横軸項目情報として指定されている「項目3」についての項目3インデックスを用いて、ステップS203にて抽出された複数の文書データにおけるそれぞれの項目3についての各文書構成要素のウエイト値によるベクトルデータを比較し、ステップS203にて抽出された複数の文書データを第2区分数の各カテゴリに分類し、第2分類データを作成する処理が実行される。
「第2分類データ」は、ステップS203にて抽出された複数の文書データが第2区分数に分類されたデータを意味する。「第2分類データ」は、各区分それぞれに、各区分に分類された1または複数の文書データが対応付けされたデータである。ここでは、ステップS203にて絞り込まれた25000件の文書データが、5区分のカテゴリのうち1区分目に2000件、2区分目に7000件、3区分目に9000件、4区分目に4000件、5区分目に3000件それぞれ分類されたものとする(図9の表示領域58参照)。
次に、検索処理部18は、横軸項目情報として指定されている「項目3」についての項目3インデックスを用いて、第2分類データを構成する各区分毎に、所定の関連条件を満たす文書構成要素である第2文書構成要素を抽出する(ステップS207)。「第2文書構成要素」は、第2分類データを構成する各区分に分類された文書データ群の特徴を各区分毎に示す第2区分特徴情報の一例である。
ステップS207における「関連条件」は、ステップS205における「関連条件」と同様に、例えば、各区分に分類された複数の文書データにおける項目3についてのウエイト値の平均値が所定値以上の文書構成要素であることや、各区分に分類された複数の文書データにおける項目3についてのウエイト値の平均値の高さが所定順位以上の文書構成要素であることや、その双方を満たすことなどとされる。
ここでは、「各区分に分類された複数の文書データにおける項目3についてのウエイト値の平均値が高い上位7個の文書構成要素」が「第2文書構成要素」として抽出されるものとする(図9の表示領域54参照)。そして、1区分目の第2文書構成要素として文書構成要素a1〜a7が抽出され、2区分目の第2文書構成要素として文書構成要素b1〜b7が抽出され、3区分目の第2文書構成要素として文書構成要素c1〜c7が抽出され、4区分目の第2文書構成要素として文書構成要素d1〜d7が抽出され、5区分目の第2文書構成要素として文書構成要素e1〜e7が抽出されたものとする(図9の表示領域54参照)。
なお、ステップS207では、第2分類データを構成する区分に分類された文書データが1のみであった場合には、その文書データの項目3に含まれている文書構成要素が抽出される。この場合、「関連条件」は、例えば、その区分に分類された文書データにおける項目3についてのウエイト値が所定値以上であることや、その区分に分類された文書データにおける項目3についてのウエイト値の高さが所定順位以上であることや、その双方を満たすことなどとされる。
次いで、データマップ作成サーバ10のデータマップ作成部19は、検索処理部18による検索処理やクラスタリング処理などの結果に応じて、二次元データマップ情報を作成する(ステップS208)。
図9は、データマップ作成部19によって作成された二次元データマップ情報が示す二次元データマップの例を示す説明図である。図9に示すように、二次元データマップは、縦軸項目情報表示領域51と、第1文書構成要素表示領域52と、横軸項目情報表示領域53と、第2文書構成要素表示領域54と、文書データ関係情報表示領域55と、文書データ総数表示領域56と、第1分類数表示領域57と、第2分類数表示領域58とを含む。
縦軸項目情報表示領域51は、縦軸項目情報を表示する表示領域である。第1文書構成要素表示領域52は、第1分類データを構成する各区分毎に区分けして第1文書構成要素を表示する表示領域である。横軸項目情報表示領域53は、横軸項目情報を表示する表示領域である。第2文書構成要素表示領域54は、第2分類データを構成する各区分毎に区分けして第2文書構成要素を表示する表示領域である。
文書データ関係情報表示領域55は、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された文書データに関係する所定の文書データ関係情報を、第1分類データを構成する各区分と第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示する表示領域である。この文書データ関係情報表示領域55は、第1分類データを構成する各区分と第2分類データを構成する各区分との組み合わせが一意に定められるマトリクス状の各二次元表示領域によって構成される。
文書データ総数表示領域56は、ステップS203によって抽出された文書データの数を表示する表示領域である。第1分類数表示領域57は、第1分類データを構成する各区分に分類された文書データの数を区分毎にそれぞれ表示する表示領域である。第2分類数表示領域58は、第2分類データを構成する各区分に分類された文書データの数を区分毎にそれぞれ表示する表示領域である。
データマップ作成部19は、ステップS208にて、縦軸項目情報表示領域51に縦軸項目情報を示す「項目2」が表示され、横軸項目情報表示領域53に横軸項目情報を示す「項目3」が表示され、第1文書構成要素表示領域52にステップS205にて抽出された第1文書構成要素が各区分毎に区分けされて表示され、第2文書構成要素表示領域54にステップS207にて抽出された第2文書構成要素が各区分毎に区分けされて表示されるように、各表示領域と各表示情報とを対応付けした二次元データマップ情報を作成する処理を行う。
また、データマップ作成部19は、ステップS208にて、文書データ関係情報表示領域55における各二次元表示領域に、それぞれ、文書データ関係情報が表示されるように、各二次元表示領域と各文書データ関係情報とを対応付けした二次元データマップ情報を作成する処理を行う。ここでは、「文書データ関係情報」として、対応する第1分類データを構成する区分と、対応する第2分類データを構成する区分との双方に分類された文書データの数である二次元分類数を示す二次元分類数情報が用いられているものとする。従って、文書データ関係情報表示領域55における各二次元表示領域には、それぞれ、二次元分類数が表示される(図9参照)。
さらに、データマップ作成部19は、ステップS208にて、文書データ総数表示領域56にステップS203によって抽出された文書データの数が表示され、第1分類数表示領域57に第1分類データを構成する各区分に分類された文書データの数が区分毎にそれぞれ表示され、第2分類数表示領域58に第2分類データを構成する各区分に分類された文書データの数が区分毎にそれぞれ表示されるように、各表示領域と各表示情報とを対応付けした二次元データマップ情報を作成する処理を行う。
データマップ作成部19によって二次元データマップ情報が作成されると、データマップ作成サーバ10のデータ通信部13は、二次元データマップ情報を、通信ネットワーク40を介してユーザ端末30Aに送信する(ステップS209)。
データマップ作成サーバ10からの二次元データマップ情報を受信すると、ユーザ端末30Aは、自己が備える表示装置の表示画面に、図9に示すような二次元データマップを表示する。
上記のようにして、データマップ作成サーバ10によって二次元データマップ情報が作成され、二次元データマップ情報にもとづく二次元データマップがユーザ端末30Aの表示装置の表示画面に表示される。なお、サーバ10の管理者によるデータ入力部11の操作に応じて、データマップ作成サーバ10が、作成した二次元データマップ情報にもとづく二次元データマップを、データ表示部10に表示するようにしてもよい。
以上に説明したように、上述した一実施の形態では、複数の文書データを2つの異なる項目についてそれぞれ別個にクラスタリングを実行してそれぞれ別個に分類し、その別個に分類した結果を二次元表示させる構成としたので、多くの情報をコンパクトに表示することが可能なデータマップを作成することができ、複数の文書データの傾向を容易に捉えることが可能なデータマップを作成することができるようになる。
具体的には、例えば図9に示した例では、25000件の文書データを異なる2つの項目に着目して別個にそれぞれ5区分に分類した結果を、5×5のマトリクス状に表示したデータマップを作成する構成とした場合には、25000件の文書データについての2種類の分類結果が25個(5×5)のセル(文書データ関係情報表示領域55を構成する二次元表示領域)に振り分けられたデータマップが作成される。このように、25000件という膨大な数の文書データについての2種類の分類結果を25個のセルを用いてコンパクトに表示する構成とされているので、25000件という膨大な数の文書データの2種類の分類結果をまとめて視認することが可能であり、25000件の文書データの傾向を容易に捉えることが可能なデータマップを作成することができる。
また、上記のように、多くの情報をコンパクトに表示することが可能なデータマップを作成することができるため、検索条件を何度も繰り返し指定することなく、膨大な文書データから所望の文書データを容易かつ正確に絞り込むことができるようになる。
また、上述した一実施の形態では、2種類の項目に注目してそれぞれ別個に分類した結果をマトリクス状に二次元表示する構成としたので、複数の文書データにおける複数項目についての分類状態を容易に把握することが可能な見易いデータマップを提供することができる。
また、上述した一実施の形態では、検索キーワードにもとづいて複数の文書データの絞込みを行ったあとに、2つの異なる項目についてそれぞれ別個にクラスタリングを実行してそれぞれ別個に分類し、その別個に分類した結果を二次元表示させる構成としたので、ユーザによって指定された検索キーワードに関係する文書データの傾向を容易に捉えることが可能なデータマップを作成することができるようになる。
また、上述した一実施の形態では、検索要求情報に含まれる複数の項目をそのまま縦軸項目情報と横軸項目情報として表示する構成としたので、検索要求情報に含まれる複数の項目を第1分類データと第2分類データの名称として用いることができる。通常は、クラスタリングによって分類した各区分内のデータの特徴を総括的に把握することは困難であるが、検索要求情報に含まれる複数の項目を第1分類データと第2分類データの名称として用いるようにしたので、文書データ関係情報表示領域55における各二次元表示領域に分類された文書データの特徴を容易かつ正確に把握することができるようになる。
また、上述した一実施の形態では、第1文書構成要素および第2文書構成要素を区分毎に区分けして表示する構成としたので、各区分の特徴を容易に把握することができるようになり、文書データ関係情報表示領域55における各二次元表示領域に分類された文書データの特徴を容易かつ正確に把握することができるようになる。
また、上述した一実施の形態では、文書データ関係情報として二次元分類数情報を用いる構成としたので、文書データの分類状態の傾向を容易に把握することが可能なデータマップ情報を作成することができるようになる。
なお、文書データ関係情報として、該当する文書データを特定する文書データ特定情報を用いるようにしてもよい。「文書データ特定情報」は、例えば、文書データのタイトル(例えば、特許文献データであれば「発明の名称」、研究者データであれば「研究者の氏名」)、文書データを特定可能な識別符号(例えば特許文献データであれば「公開番号」や「特許番号」)などとされる。このように構成した場合には、文書データの分類状態の傾向をより詳細に把握することが可能なデータマップを表示するためのデータマップ情報を作成することができるようになる。
また、文書データ関係情報として二次元分類数情報にもとづく二次元分類数を表示し、ユーザAが二次元分類数の表示領域を選択(例えば、マウスのクリック操作によって選択する)したことに応じて、選択された二次元分類数にカウントされている各文書データのタイトルや識別符号などの文書データの概要を示す情報を表示するようにしてもよい。さらに、ユーザAがタイトルや識別符号などの表示領域を選択したことに応じて、選択されたタイトルや識別符号が示す文書データの内容を表示するようにしてもよい。
なお、上述した一実施の形態では特に言及していないが、二次元データマップ情報を作成したあと、ユーザからの検索項目情報の一部の変更を受け付け、変更された検索項目情報にもとづいて二次元データマップ情報を再度作成するようにしてもよい。
また、上述した一実施の形態では特に言及していないが、二次元データマップ情報を作成したあと、文書データ関係情報の表示領域を特定した文書データ絞込依頼(データマップ作成対象の文書データ群の絞り込みの依頼)を受け付け、文書データ絞込依頼があったことに応じて、特定された表示領域に表示されている文書データ関係情報が示す各文書データについて、二次元データマップ情報を再度作成するようにしてもよい。
図10は、検索項目情報の変更を受け付けることとした他の実施の形態におけるマップ作成処理の例を示すフローチャートである。図10には、文書データ絞込依頼を受け付けることとした場合のマップ作成処理の例も含まれている。なお、上述した図8にて説明した処理と同様の処理を行う部分については、同一の符号を付与してその詳細な説明は省略する。
図10に示すように、マップ作成処理において、データマップ作成サーバ10は、項目2と項目3とを検索項目情報とする検索要求情報にもとづく二次元データマップ情報を作成して送信したあと(ステップS208,S209)、例えば所定期間(例えば、1分などあらかじめ定められた期間)が経過するまで、ユーザ端末30Aからの検索項目情報の変更依頼を受け付ける(ステップS210)。
検索項目情報の変更依頼受付期間中に、ユーザ端末30Aから、通信ネットワーク40を介して検索項目情報変更依頼情報を受信すると、データマップ作成サーバ10は、受信した検索項目情報変更依頼情報の内容を確認する。「検索項目情報変更依頼情報」には、変更する縦軸項目を示す変更縦軸項目情報と、変更する横軸項目を示す変更横軸項目情報とのうち、少なくとも何れか一方を含む。
横軸項目のみの変更(例えば、検索項目情報変更依頼情報が、変更横軸項目情報を含み、変更縦軸項目情報を含まない場合)であれば(ステップS211のY)、データマップ作成サーバ10は、ステップS206に移行し、変更横軸項目情報が示す変更後の横軸項目(例えば「項目4」であるとする)についてステップS206〜S207を実行する。ステップS206では、検索処理部18は、前回のマップ作成処理でのステップS203にて抽出されている複数の文書データを、変更後の横軸項目情報として指定されている「項目4」についてクラスタリングし、所定の第3区分数に分類した第3分類データを作成する処理を実行する。なお、「第3区分数」は、例えば上述した「第2区分数」と同一の数とされる。また、ステップS207では、検索処理部18は、変更後の横軸項目情報として指定されている「項目4」についての項目4インデックスを用いて、第3分類データを構成する各区分毎に、所定の関連条件を満たす文書構成要素である第3文書構成要素を抽出する処理を実行する。そして、データマップ作成サーバ10は、前回のマップ作成処理にて実行したステップS204〜S205で導出した第1分類データや第1文書構成要素を用いて、項目2と項目4とを検索項目情報とする二次元データマップ情報を作成して送信する(ステップS208,S209)。
一方、縦軸項目のみの変更(例えば、検索項目情報変更依頼情報が、変更縦軸項目情報を含み、変更横軸項目情報を含まない場合)であれば(ステップS212のY)、データマップ作成サーバ10は、ステップS204に移行し、変更縦軸項目情報が示す変更後の縦軸項目(例えば「項目5」であるとする)についてステップS204〜S205を実行する。ステップS204では、検索処理部18は、前回のマップ作成処理でのステップS203にて抽出されている複数の文書データを、変更後の縦軸項目情報として指定されている「項目5」についてクラスタリングし、所定の第4区分数に分類した第4分類データを作成する処理を実行する。なお、「第4区分数」は、例えば上述した「第1区分数」と同一の数とされる。また、ステップS205では、検索処理部18は、変更後の縦軸項目情報として指定されている「項目5」についての項目5インデックスを用いて、第4分類データを構成する各区分毎に、所定の関連条件を満たす文書構成要素である第4文書構成要素を抽出する処理を実行する。そして、データマップ作成サーバ10は、前回のマップ作成処理にて実行したステップS206〜S207(今回の処理ではステップS206〜S207は実行しない)で導出した第2分類データや第2文書構成要素を用いて、項目5と項目3とを検索項目情報とする二次元データマップ情報を作成して送信する(ステップS208,S209)。
なお、縦軸項目および横軸項目両方の変更(例えば、検索項目情報変更依頼情報が、変更縦軸項目情報および変更横軸項目情報を含む場合)であれば(ステップS212のN)、データマップ作成サーバ10は、ステップS204に移行し、変更縦軸項目情報が示す変更後の縦軸項目(例えば「項目5」であるとする)についてステップS204〜S205を実行し、変更横軸項目情報が示す変更後の縦軸項目(例えば「項目4」であるとする)についてステップS206〜S207を実行し、項目5と項目4とを検索項目情報とする二次元データマップ情報を作成して送信する(ステップS208,S209)。すなわち、ステップS204以降の処理を再度実行し、再度新たなデータマップ情報を作成する。
次に、データマップ作成サーバ10は、項目2と項目3とを検索項目情報とする検索要求情報にもとづく二次元データマップ情報を作成して送信したあと(ステップS208,S209)、検索項目情報の変更依頼がなければ、例えば所定期間(例えば、1分などあらかじめ定められた期間)が経過するまで、ユーザ端末30Aからの文書データ絞込依頼を受け付ける(ステップS213)。なお、文書データ絞込依頼の受け付けは、検索項目情報の変更依頼の受け付けと並行して行うようにしてもよいし、検索項目情報の変更依頼の受け付けの前に行うようにしてもよい。
文書データ絞込依頼の受付期間中に、ユーザ端末30Aから、通信ネットワーク40を介して文書データ絞込依頼情報を受信すると、受信した文書データ絞込依頼情報の内容を確認する。「文書データ絞込依頼情報」には、文書データ関係情報が表示されている表示領域の何れかを示すセル情報を含む。なお、「セル情報」は、文書データ関係情報表示領域55を構成する二次元表示領域(セル)を示す情報である。ユーザAは、例えば、二次元表示領域の何れかを選択(例えば、マウスクリックによる選択)することで、文書データ絞込依頼を行う。
次いで、データマップ作成サーバ10は、処理対象の文書データ群の設定を、ステップS203にて絞り込まれた各文書データから、受け付けた文書データ絞込依頼情報に含まれるセル情報が示す二次元表示領域に表示されている文書データ関係情報によって特定される各文書データ(セル情報が示す二次元表示領域に分類されている各文書データ)に変更したあと(ステップS214)、ステップS204に移行し、前回のマップ作成処理にて使用した縦軸項目(項目2)及び横軸項目(項目3)についてステップS204〜S207を実行する。そして、データマップ作成サーバ10は、項目2と項目3とを検索項目情報とする二次元データマップ情報を作成して送信する(ステップS208,S209)。
上記のように、他の実施の形態では、二次元データマップ情報を作成したあと、ユーザからの検索項目情報の一部または全部の変更を受け付けたときに、前回の二次元データマップ情報の作成の際に実行した処理と重複する処理を省略して、変更した二次元データマップ情報を作成する構成としたので、2回目以降の二次元データマップ情報の作成処理を簡略化することができ、迅速に処理結果を出力することができる。特に、検索項目情報の組み合わせの一方が変更されたときは、前回の二次元データマップ情報の作成の際に得た既存のデータを用いてより効率的に二次元データマップ情報を作成することができるようになる。
また、上記のように、他の実施の形態では、二次元データマップ情報を作成したあと、ユーザからのセルを特定した文書データ絞込依頼に応じて、ユーザによって指定されたセルに分類されている文書データ群を処理対象として、二次元データマップ情報を再度作成する構成としたので、ユーザからの依頼に応じて、二次元データマップを構成するセルに分類されている各文書データについて、2つの異なる項目についてそれぞれ別個にクラスタリングした二次元データマップを再度作成して提供することができる。すなわち、ユーザが希望したセルに分類されている各文書データに絞り込んで、分類を掘り下げた二次元データマップを作成することができる。よって、ユーザは、二次元データマップを構成する各セルの何れかを選択することによって、選択したセルに分類されている各文書データに絞り込んで作成された二次元データマップを得ることができる。
また、上記のように、ユーザによって指定されたセルに分類されている文書データ群を処理対象として二次元データマップ情報を再度作成する構成としたので、最初に作成したデータマップが示す検索結果と比較すると、最初に作成した二次元データマップを構成するセルの数(=第1区分数×第2区分数)を平均とする倍率で、検索効率を向上させた二次元データマップを作成することができるようになる。具体的には、図9に示した二次元データマップでは25000件の文書データの検索結果が示されているが、図9に示した二次元データマップのセルを特定した文書データ絞込依頼があった場合には、検索効率が平均で25倍向上した二次元データマップが作成される。すなわち、25000件の文書データの検索結果が示されている図9に示した二次元データマップについて、25個のセルの何れかを特定した文書データ絞込依頼があった場合には、各セルに分類されている文書データの数の平均値が1000件(25000件/25個)であるため、平均で1000件の文書データの検索結果が示された二次元データマップが作成される。なお、セルの選択による文書データ絞込依頼を繰り返し受け付け、検索効率を段階的に向上させた二次元データマップを順次作成していくように構成されていてもよい。
なお、上述した実施の形態では、ユーザ端末30A〜30Nの一例としてパーソナルコンピュータを挙げていたが、ユーザ端末30A〜30Nは、PDA(Personal Digital Assistants)や携帯電話端末などの携帯通信端末などの他の情報処理装置であってもよい。
また、上述した実施の形態では、検索キーワードにもとづいて複数の文書データの絞込みを行ったあとに、2つの異なる項目についてそれぞれ別個にクラスタリングを実行する構成としていたが、検索キーワードにもとづく絞込みを行うことなく、2つの異なる項目についてそれぞれ別個にクラスタリングを実行する構成としてもよい。このように、検索キーワードにもとづく絞込みを行わないようにしても、検索対象とされている複数の文書データの総数が多くない場合には、複数の文書データの傾向を容易に捉えることが可能なデータマップを作成することができる。また、検索対象とされている複数の文書データの総数が多くない場合に、検索キーワードにもとづく絞込みを行うことなく迅速に処理を実行することが可能となる。
また、上述した実施の形態では、検索要求情報を受信したあと、検索キーワードにもとづいて複数の文書データの絞込みを行うとともに、2つの異なる項目についてそれぞれ別個にクラスタリングを実行する構成としていたが、検索要求情報のうち検索キーワードのみを先に受信し、検索キーワードにもとづく複数の文書データの絞込みを行い、その検索結果をユーザに提示したあと、検索要求情報のうちの項目情報を受信して、2つの異なる項目についてそれぞれ別個にクラスタリングを実行するように構成されていてもよい。このように構成すれば、ユーザが、検索キーワードにもとづく絞込み処理の結果を見たあと、検索要求情報における項目情報を指定することができるようになる。
また、上述した実施の形態では、文書データである多項目データの一例として、公開特許公報などの特許文献を示す特許文献データを挙げていたが、多項目データは、記載事項があらかじめ定められている複数の項目から成るデータであればどのようなものであってもよく、例えば、研究者や研究内容を示す研究者データ、宿泊施設の営業時間や営業内容を示す宿泊施設データ、医師などによって記載されるカルテを示す電子カルテ、判例を示す判例データ、企業の事業内容や業績などを示す企業データ、製品の販売価格やセールスポイントを示す製品データなどであってもよい。
また、上述した実施の形態では、2種類の検索項目情報にもとづいてマトリクス状の2次元データマップを表示するための2次元データマップ情報を作成する構成としていたが、3種類以上の検索項目情報にもとづいて多次元データマップを表示するための多次元データマップ情報を作成するようにしてもよい。例えば、3次元データマップであれば、立体的に表示するデータマップとするようにすればよい。また、例えば、4次元以上のデータマップであれば、例えば、複数の2次元データマップや複数の3次元データマップによって表現するようにすればよい。
なお、上述した各実施の形態では特に言及していないが、本システム100において実行される各処理は、本システム100等に搭載されている制御プログラム(データマップ作成プログラム)に従って実行される。この制御プログラムは、例えば、複数の項目から成る複数の文書データをクラスタリングによって分類したデータマップを作成させるためのデータマップ作成プログラムであって、データマップ作成サーバ10に、文書データを構成する複数の項目に含まれる第1項目と、文書データを構成する複数の項目に含まれ第1項目とは異なる第2項目とを含む検索要求情報を受け付けるステップと、複数の文書データを、当該複数の文書データを構成する項目のうち検索要求情報に含まれる第1項目の構成要素にもとづいてクラスタリングし、複数区分に分類した第1分類データを作成するステップと、第1分類データを構成する各区分毎に、当該区分に分類された複数の文書データそれぞれにおける第1項目の構成要素のうち、所定の関連条件を満たす第1文書構成要素を抽出するステップと、複数の文書データを、当該複数の文書データを構成する項目のうち検索依頼データに含まれる第2項目の構成要素にもとづいてクラスタリングし、複数区分に分類した第2分類データを作成するステップと、第2分類データを構成する各区分毎に、当該区分に分類された複数の文書データそれぞれにおける第2項目の構成要素のうち、所定の関連条件を満たす第2文書構成要素を抽出するステップと、第1文書構成要素をそれぞれ該当区分毎に表示する第1表示領域と、第2文書構成要素をそれぞれ該当区分毎に表示する第2表示領域と、第1分類データを構成する各区分と第2分類データを構成する各区分との組み合わせが一意に定められる第3表示領域とを含むデータマップを作成するステップと、第1表示領域と、第2表示領域と、第3表示領域とを含むデータマップを表示するステップと、第3表示領域に、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された文書データに関係する所定の文書データ関係情報を、第1分類データを構成する各区分と第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示するステップとを実行させるためのプログラムである。