JP2006215675A - データマップ作成サーバ、データマップ作成方法、およびデータマップ作成プログラム - Google Patents

データマップ作成サーバ、データマップ作成方法、およびデータマップ作成プログラム Download PDF

Info

Publication number
JP2006215675A
JP2006215675A JP2005025811A JP2005025811A JP2006215675A JP 2006215675 A JP2006215675 A JP 2006215675A JP 2005025811 A JP2005025811 A JP 2005025811A JP 2005025811 A JP2005025811 A JP 2005025811A JP 2006215675 A JP2006215675 A JP 2006215675A
Authority
JP
Japan
Prior art keywords
data
item
category
constituting
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005025811A
Other languages
English (en)
Other versions
JP4667889B2 (ja
Inventor
Sachio Hirokawa
佐千男 廣川
Takahiro Seki
隆宏 関
Yasuhiro Yamada
泰寛 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IDM KK
INST OF INTELLECTUAL PROPERTY
INSTITUTE OF INTELLECTUAL PROPERTY STRATEGIES Inc
Original Assignee
IDM KK
INST OF INTELLECTUAL PROPERTY
INSTITUTE OF INTELLECTUAL PROPERTY STRATEGIES Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IDM KK, INST OF INTELLECTUAL PROPERTY, INSTITUTE OF INTELLECTUAL PROPERTY STRATEGIES Inc filed Critical IDM KK
Priority to JP2005025811A priority Critical patent/JP4667889B2/ja
Publication of JP2006215675A publication Critical patent/JP2006215675A/ja
Application granted granted Critical
Publication of JP4667889B2 publication Critical patent/JP4667889B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 文書データの傾向を容易に捉えることが可能なデータマップを作成することができるようにする。
【解決手段】 マップ作成処理において、データマップ作成サーバは、検索キーワードと、複数の検索項目情報(項目2、項目3)とを含む検索要求情報を受信すると、複数の文書データから検索条件を満たす文書データを抽出し、データマップへの掲載対象とする文書データを絞り込む。次いで、抽出された複数の文書データを、「項目2」についてクラスタリングして所定の第1区分数に分類するとともに、項目2インデックスを用いて各区分毎に第1文書構成要素を抽出する。また、抽出された複数の文書データを、「項目3」についてクラスタリングして所定の第2区分数に分類するとともに、項目3インデックスを用いて各区分毎に第1文書構成要素を抽出する。そして、検索処理やクラスタリング処理などの結果に応じて、二次元データマップ情報を作成する。
【選択図】 図8

Description

本発明は、複数の項目から成る複数の多項目データをクラスタリングによって分類したデータマップを作成するデータマップ作成サーバ、データマップ作成方法、およびデータマップ作成プログラムに関する。
従来から、複数の文書データから所望の文書データを検索することができるようにするために、指定されたキーワードにもとづくクラスタリングによって膨大な文書データを複数のカテゴリに分類することが行われている(例えば特許文献1−2参照)。
特許文献1には、指定されたIPC(国際特許分類)にもとづいて特許文献が検索され、その検索結果に応じて特許マップが作成されることが記載されている。
また、特許文献2には、XML(eXtensible Markup Language)などによって記述された構造化文書の全文検索を高速に行うための構造化文書検索方法が記載されている。
なお、クラスタリングにおいては、一般に、TF*IDF(TF:Term Frequency、IDF:Inverse Document Frequency)と呼ばれる重み付け手法が用いられる。「TF」とは、検索対象の各文書データに特定の語が出現する回数を意味する。また、「IDF」とは、検索対象の全文書データのうち、特定の語がどれぐらいの文書データ中に出現しているかを表す尺度を意味する。一般的な語であればIDFが低くなり、少数の文書データにしか出現しない語はIDFが高くなる。
特開2002−175314号公報 特開2000−207409号公報
上述した従来の技術では、指定されたキーワードなどの検索条件にもとづいて検索された結果や、クラスタリングによって分類された結果が単に表示されるだけであるため、キーワードに関係する文書データの傾向を容易に捉えることができないという課題があった。
このため、検索条件を何度も繰り返し指定しなければ、膨大な文書データを絞り込むことができなかった。また、検索条件を何度も指定する必要があるため、検索条件の指定内容によって検索結果が大幅に異なってしまう可能性があり、所望の文書データを容易かつ正確に検索することができなかった。
本発明は、上述した問題を解消し、文書データの傾向を容易に捉えることが可能なデータマップを作成することができるようにすることを目的とする。
本発明のデータマップ作成サーバは、複数の項目から成る複数の多項目データ(例えば特許文献データ、研究者データ、宿泊施設データ、電子カルテなどの文書データ)をクラスタリングによって分類したデータマップを作成するデータマップ作成サーバ(例えば、データマップ作成サーバ10)であって、複数の多項目データを記憶する多項目データ記憶手段(例えば、文書データDB20)と、通信ネットワークを介して、多項目データを構成する複数の項目に含まれる第1項目と、多項目データを構成する複数の項目に含まれ第1項目とは異なる第2項目とを含む検索依頼データを受信する検索依頼受信手段(例えば、検索要求情報受付部17)と、多項目データ記憶手段に記憶された複数の多項目データを、当該複数の多項目データを構成する項目のうち検索依頼データに含まれる第1項目の構成要素(例えば、単語、熟語、数字、記号などの文書構成要素)にもとづいてクラスタリングし、複数区分に分類した第1分類データを作成する第1分類データ作成手段(例えば、検索処理部18におけるステップS204を実行する部分)と、多項目データ記憶手段に記憶された複数の多項目データを、当該複数の多項目データを構成する項目のうち検索依頼データに含まれる第2項目の構成要素にもとづいてクラスタリングし、複数区分に分類した第2分類データを作成する第2分類データ作成手段(例えば、検索処理部18におけるステップS206を実行する部分)と、第1分類データを構成する各区分における多項目データの特徴を示す第1区分特徴情報(例えば、該当区分に分類された文書データの該当項目に高頻度で出現する文書構成要素、該当区分に割り当てられた数値範囲など)をそれぞれ該当区分毎に表示する第1表示領域(例えば第1文書構成要素表示領域52、縦軸項目数値範囲表示領域59)と、第2分類データを構成する各区分における多項目データの特徴を示す第2区分特徴情報(例えば、該当区分に分類された文書データの該当項目に高頻度で出現する文書構成要素、該当区分に割り当てられた数値範囲など)をそれぞれ該当区分毎に表示する第2表示領域(例えば第1文書構成要素表示領域54)と、第1分類データを構成する各区分と第2分類データを構成する各区分との組み合わせが一意に定められる第3表示領域(例えば文書データ関係情報表示領域55)とを含むデータマップを作成するデータマップ作成手段(例えば、データマップ作成部19)と、データマップ作成手段によって作成されたデータマップを、通信ネットワークを介して送信するデータマップ送信手段(例えば、データ通信部13)と、を備え、第3表示領域は、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データに関係する所定の多項目データ関係情報(例えば、文書データの数、文書データのタイトルなど)を、第1分類データを構成する各区分と第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示する表示領域(例えば、図9参照)であることを特徴とする。
上記のように構成したことで、多項目データの傾向を容易に捉えることが可能なデータマップを作成することができる。
第1分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第1項目の構成要素のうち、所定の関連条件(例えば、各区分に分類された複数の文書データにおける項目2についてのウエイト値の平均値が所定値以上の文書構成要素であることや、各区分に分類された複数の文書データにおける項目2についてのウエイト値の平均値の高さが所定順位以上の文書構成要素であることや、その双方を満たすことなど)を満たす構成要素を抽出する第1区分構成要素抽出手段(例えば、検索処理部18におけるステップS205を実行する部分)と、第2分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第2項目の構成要素のうち、所定の関連条件を満たす構成要素を抽出する第2区分構成要素抽出手段(例えば、検索処理部18におけるステップS207を実行する部分)と、を備え、データマップ作成手段は、第1区分構成要素抽出手段が抽出した構成要素を第1区分特徴情報として用いるとともに、第2区分構成要素抽出手段が抽出した構成要素を第2区分特徴情報として用いるように構成されれいてもよい。
上記のように構成したことで、多項目データにおける検索対象項目の構成要素のうち所定の関連条件を満たす構成要素をデータマップに表示させることができ、多項目データの傾向を容易に捉えることが可能なデータマップを作成することができる。
検索依頼データは、キーデータ(例えば、キーワード、検索用の文章)を含み、検索依頼データに含まれるキーデータにもとづいて、多項目データ記憶手段に記憶された複数の多項目データから、所定の抽出条件を満たす複数の多項目データを抽出するキーデータ検索抽出手段(例えば、検索処理部18におけるステップS203を実行する部分)を備え、第1分類データ作成手段が、キーデータ検索抽出手段が抽出した複数の多項目データをクラスタリングして第1分類データを作成し(例えばステップS204)、第2分類データ作成手段が、キーデータ検索抽出手段が抽出した複数の多項目データをクラスタリングして第2分類データを作成する(例えばステップS206)ように構成されれいてもよい。
上記のように構成したことで、指定されたキーワードに関係する多項目データの傾向を容易に捉えることが可能なデータマップを作成することができる。
データマップ作成手段が、第1分類データの名称として第1項目の項目名を表示する第4表示領域(例えば、縦軸項目情報表示領域51)と、第2分類データの名称として第2項目の項目名を表示する第5表示領域(例えば、横軸項目情報表示領域53)とを含むデータマップを作成するように構成されれいてもよい。
上記のように構成したことで、第1分類データおよび第2分類データの名称を容易かつ適切に付与することができ、第1分類データおよび第2分類データの内容を容易に認識することが可能なデータマップを作成することができる。
多項目データ関係情報は、例えば、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データの数を示す分類数情報(例えば、該当する区分に分類された文書データの数を示す情報(図9参照))であるとされていてもよい。また、多項目データ関係情報は、例えば、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データを特定するための多項目データ特定情報(例えば、文書データの識別コード、タイトルなど)であるとされていてもよい。
上記のように、多項目データ関係情報として分類数情報を用いた場合には、多項目データの分類状態の傾向を容易に把握することが可能なデータマップを作成することができるようになる。さらに、多項目データ関係情報として多項目データ特定情報を用いた場合には、多項目データの分類状態の傾向をより詳細に把握することが可能なデータマップを作成することができるようになる。
データマップ送信手段によってデータマップが送信されたあと、通信ネットワークを介して、検索依頼データを第1項目から、多項目データを構成する複数の項目に含まれ第1項目および第2項目とは異なる第3項目に変更する変更依頼データを受信する検索変更依頼受信手段(例えば、検索要求情報受付部17)と、変更依頼データに応じて、多項目データ記憶手段に記憶された複数の多項目データを、当該複数の多項目データを構成する項目のうち変更依頼データに含まれる第3項目の構成要素にもとづいてクラスタリングし、複数区分に分類した第3分類データを作成する第3分類データ作成手段(例えば、検索処理部18におけるステップS212にてYと判定されたあとにステップS204を実行する部分)とを備え、データマップ作成手段は、第1表示領域と第3表示領域とを、第3分類データを構成する各区分における多項目データの特徴を示す第3区分特徴情報をそれぞれ該当区分毎に表示する第1表示領域と、第3分類データを構成する各区分と第2分類データを構成する各区分との組み合わせが一意に定められる第3表示領域とに変更したデータマップを作成し(例えば、ステップS212にてYと判定されステップS204,ステップS205が実行されたあとのステップS208)、変更した第3表示領域は、第3分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データに関係する所定の多項目データ関係情報を、第3分類データを構成する各区分と第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示する表示領域であるように構成されていてもよい。
上記のように構成したことで、検索依頼データにおける項目の組み合わせの一方が変更されたときに、既存のデータを用いて効率的にデータマップを作成することができるようになる。
第3分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第3項目の構成要素のうち、所定の関連条件を満たす構成要素を抽出する第3区分構成要素抽出手段(例えば、検索処理部18におけるステップS212にてYと判定されステップS204を実行したあとにステップS205を実行する部分)を備え、データマップ作成手段は、第3区分構成要素抽出手段が抽出した構成要素を第3区分特徴情報として用いるように構成されていてもよい。
上記のように構成したことで、検索依頼データにおける項目の組み合わせの一方が変更されたときに、既存のデータを用いて効率的にデータマップを作成することができるようになる。
また、本発明のデータマップ作成方法は、複数の項目から成る複数の多項目データ(例えば特許文献データ、研究者データ、宿泊施設データ、電子カルテなどの文書データ)をクラスタリングによって分類したデータマップを作成するためのデータマップ作成方法であって、多項目データを構成する複数の項目に含まれる第1項目と、多項目データを構成する複数の項目に含まれ第1項目とは異なる第2項目とを含む検索依頼データを受け付け(例えばステップS202)、複数の多項目データを、当該複数の多項目データを構成する項目のうち検索依頼データに含まれる第1項目の構成要素(例えば、単語、熟語、数字、記号などの文書構成要素)にもとづいてクラスタリングし、複数区分に分類した第1分類データを作成し(例えばステップS204)、複数の多項目データを、当該複数の多項目データを構成する項目のうち検索依頼データに含まれる第2項目の構成要素にもとづいてクラスタリングし、複数区分に分類した第2分類データを作成し(例えばステップS206)、第1分類データを構成する各区分における多項目データの特徴を示す第1区分特徴情報をそれぞれ該当区分毎に表示する第1表示領域と、第2分類データを構成する各区分における多項目データの特徴を示す第2区分特徴情報をそれぞれ該当区分毎に表示する第2表示領域と、第1分類データを構成する各区分と第2分類データを構成する各区分との組み合わせが一意に定められる第3表示領域とを含むデータマップを作成し(例えばステップS208)、第1表示領域と、第2表示領域と、第3表示領域とを含むデータマップを表示し(例えば、ステップS208のあとサーバ10にてデータマップを表示する。また、例えば、データマップ情報を受信したユーザ端末30Aにてデータマップを表示する。)、第3表示領域に、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データに関係する所定の多項目データ関係情報を、第1分類データを構成する各区分と第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示する(例えば、ステップS208のあとサーバ10にて表示する。また、例えば、データマップ情報を受信したユーザ端末30Aにて表示する。)ことを特徴とする。
上記のように構成したことで、多項目データの傾向を容易に捉えることが可能なデータマップを作成し表示することができる。
第1分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第1項目の構成要素のうち、所定の関連条件を満たす第1区分構成要素(例えば第1文書構成要素のうち第1分類データを構成する各区分について抽出された構成要素)を抽出し(例えばステップS205)、第2分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第2項目の構成要素のうち、所定の関連条件を満たす第2区分構成要素(例えば第2文書構成要素のうち第2分類データを構成する各区分について抽出された構成要素)を抽出し(例えばステップS207)、第1区分構成要素を第1区分特徴情報として用いて第1表示領域に表示するとともに、第2区分構成要素を第2区分特徴情報として用いて第2表示領域に表示するように構成されていてもよい。
上記のように構成したことで、多項目データにおける検索対象項目の構成要素のうち所定の関連条件を満たす構成要素をデータマップに表示させることができ、多項目データの傾向を容易に捉えることが可能なデータマップを作成することができる。
キーデータ(例えば、キーワード、検索用の文章)を含む検索依頼データを受け付け(例えばステップS201)、検索依頼データに含まれるキーデータにもとづいて、多項目データ記憶手段に記憶された複数の多項目データから、所定の抽出条件を満たす複数の多項目データを抽出し(例えばステップS203)、抽出した複数の多項目データをクラスタリングして第1分類データを作成するとともに(例えばステップS204)、当該抽出した複数の多項目データをクラスタリングして第2分類データを作成する(例えばステップS206)ように構成されていてもよい。
上記のように構成したことで、指定されたキーワードに関係する多項目データの傾向を容易に捉えることが可能なデータマップを作成し表示することができる。
第1分類データの名称として第1項目の項目名を表示する第4表示領域(例えば、縦軸項目情報表示領域51)と、第2分類データの名称として第2項目の項目名を表示する第5表示領域(例えば、横軸項目情報表示領域53)とを含むデータマップを作成するように構成されれいてもよい。
上記のように構成したことで、第1分類データおよび第2分類データの名称を容易かつ適切に付与することができ、第1分類データおよび第2分類データの内容を容易に認識することが可能なデータマップを作成することができる。
多項目データ関係情報は、例えば、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データの数を示す分類数情報(例えば、該当する区分に分類された文書データの数を示す情報(図9参照))であるとされていてもよい。また、多項目データ関係情報は、例えば、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データを特定するための多項目データ特定情報(例えば、文書データの識別コード、タイトルなど)であるとされていてもよい。
上記のように、多項目データ関係情報として分類数情報を用いた場合には、多項目データの分類状態の傾向を容易に把握することが可能なデータマップを作成することができるようになる。さらに、多項目データ関係情報として多項目データ特定情報を用いた場合には、多項目データの分類状態の傾向をより詳細に把握することが可能なデータマップを作成することができるようになる。
データマップが作成されたあと、検索依頼データを第1項目から、多項目データを構成する複数の項目に含まれ第1項目および第2項目とは異なる第3項目に変更する変更依頼データを受け付け(例えば、ステップS210)、変更依頼データに応じて、複数の多項目データを、当該複数の多項目データを構成する項目のうち変更依頼データに含まれる第3項目の構成要素にもとづいてクラスタリングして、複数区分に分類した第3分類データを作成し(例えば、ステップS212にてYと判定されたあとのステップS204)、第1表示領域と第3表示領域とを、第3分類データを構成する各区分における多項目データの特徴を示す第3区分特徴情報をそれぞれ該当区分毎に表示する第1表示領域と、第3分類データを構成する各区分と第2分類データを構成する各区分との組み合わせが一意に定められる第3表示領域とに変更したデータマップを作成し(例えば、ステップS212にてYと判定されステップS204,ステップS205が実行されたあとのステップS208)、変更した第1表示領域と、第2表示領域と、変更した第3表示領域とを含むデータマップを表示し(例えば、ステップS208のあとサーバ10にてデータマップを表示する。また、例えば、データマップ情報を受信したユーザ端末30Aにてデータマップを表示する。)、変更した第3表示領域に、第3分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データに関係する所定の多項目データ関係情報を、第3分類データを構成する各区分と第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示する(例えば、ステップS208のあとサーバ10にて表示する。また、例えば、データマップ情報を受信したユーザ端末30Aにて表示する。)ように構成されていてもよい。
上記のように構成したことで、検索依頼データにおける項目の組み合わせの一方が変更されたときに、既存のデータを用いて効率的にデータマップを作成し表示することができるようになる。
第3分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第3項目の構成要素のうち、所定の関連条件を満たす第3区分構成要素を抽出し(例えば、ステップS212にてYと判定されステップS204を実行したあとのステップS205)、抽出した第3区分構成要素を第3区分特徴情報として用いて第1表示領域に表示するように構成されていてもよい。
上記のように構成したことで、検索依頼データにおける項目の組み合わせの一方が変更されたときに、既存のデータを用いて効率的にデータマップを作成し表示することができるようになる。
さらに、本発明のデータマップ作成プログラムは、複数の項目から成る複数の多項目データ(例えば特許文献データ、研究者データ、宿泊施設データ、電子カルテなどの文書データ)をクラスタリングによって分類したデータマップを作成させるためのデータマップ作成プログラムであって、コンピュータ(例えばデータマップ作成サーバ10)に、多項目データを構成する複数の項目に含まれる第1項目と、多項目データを構成する複数の項目に含まれ第1項目とは異なる第2項目とを含む検索依頼データを受け付けるステップ(例えばステップS202)と、複数の多項目データを、当該複数の多項目データを構成する項目のうち検索依頼データに含まれる第1項目の構成要素(例えば、単語、熟語、数字、記号などの文書構成要素)にもとづいてクラスタリングし、複数区分に分類した第1分類データを作成するステップ(例えばステップS204)と、複数の多項目データを、当該複数の多項目データを構成する項目のうち検索依頼データに含まれる第2項目の構成要素にもとづいてクラスタリングし、複数区分に分類した第2分類データを作成するステップ(例えばステップS206)と、第1分類データを構成する各区分における多項目データの特徴を示す第1区分特徴情報をそれぞれ該当区分毎に表示する第1表示領域と、第2分類データを構成する各区分における多項目データの特徴を示す第2区分特徴情報をそれぞれ該当区分毎に表示する第2表示領域と、第1分類データを構成する各区分と第2分類データを構成する各区分との組み合わせが一意に定められる第3表示領域とを含むデータマップを作成するステップ(例えばステップS208)と、第1表示領域と、第2表示領域と、第3表示領域とを含むデータマップを表示するステップ(例えば、ステップS208のあとサーバ10にてデータマップを表示する処理。また、例えば、データマップ情報を受信したユーザ端末30Aにてデータマップを表示する処理。)と、第3表示領域に、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データに関係する所定の多項目データ関係情報を、第1分類データを構成する各区分と第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示するステップ(例えば、ステップS208のあとサーバ10にて表示する処理。また、例えば、データマップ情報を受信したユーザ端末30Aにて表示する処理。)とを実行させるためのものである。
上記のように構成したことで、コンピュータに、多項目データの傾向を容易に捉えることが可能なデータマップを作成させ表示させることができる。
コンピュータに、さらに、第1分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第1項目の構成要素のうち、所定の関連条件を満たす第1区分構成要素を抽出するステップ(例えばステップS205)と、第2分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第2項目の構成要素のうち、所定の関連条件を満たす第2区分構成要素を抽出するステップ(例えばステップS207)と、第1区分構成要素を第1区分特徴情報として用いて第1表示領域に表示するとともに、第2区分構成要素を第2区分特徴情報として用いて第2表示領域に表示するステップとを実行させるためのものであってもよい。
上記のように構成したことで、コンピュータに、多項目データにおける検索対象項目の構成要素のうち所定の関連条件を満たす構成要素をデータマップに表示させることができ、多項目データの傾向を容易に捉えることが可能なデータマップを作成させ表示させることができる。
コンピュータに、さらに、キーデータ(例えば、キーワード、検索用の文章)を含む検索依頼データを受け付けるステップ(例えばステップS201)と、検索依頼データに含まれるキーデータにもとづいて、多項目データ記憶手段に記憶された複数の多項目データから、所定の抽出条件を満たす複数の多項目データを抽出するステップ(例えばステップS203)と、抽出した複数の多項目データをクラスタリングして第1分類データを作成するとともに、当該抽出した複数の多項目データをクラスタリングして第2分類データを作成するステップ(例えばステップS204,S206)とを実行させるためのものであってもよい。
上記のように構成したことで、コンピュータに、指定されたキーワードに関係する多項目データの傾向を容易に捉えることが可能なデータマップを作成させ表示させることができる。
コンピュータに、さらに、第1分類データの名称として第1項目の項目名を表示する第4表示領域(例えば、縦軸項目情報表示領域51)と、第2分類データの名称として第2項目の項目名を表示する第5表示領域(例えば、横軸項目情報表示領域53)とを含むデータマップを作成するステップ(例えばステップS208)を実行させるものであってもよい。
上記のように構成したことで、第1分類データおよび第2分類データの名称を容易かつ適切に付与させることができ、コンピュータに、第1分類データおよび第2分類データの内容を容易に認識することが可能なデータマップを作成させることができる。
多項目データ関係情報は、例えば、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データの数を示す分類数情報(例えば、該当する区分に分類された文書データの数を示す情報(図9参照))であるとされていてもよい。また、多項目データ関係情報は、例えば、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データを特定するための多項目データ特定情報(例えば、文書データの識別コード、タイトルなど)であるとされていてもよい。
上記のように、多項目データ関係情報として分類数情報を用いた場合には、多項目データの分類状態の傾向を容易に把握することが可能なデータマップを作成させることができるようになる。さらに、多項目データ関係情報として多項目データ特定情報を用いた場合には、多項目データの分類状態の傾向をより詳細に把握することが可能なデータマップを作成させることができるようになる。
コンピュータに、さらに、データマップが作成されたあと、検索依頼データを第1項目から、多項目データを構成する複数の項目に含まれ第1項目および第2項目とは異なる第3項目に変更する変更依頼データを受け付けるステップ(例えば、ステップS210)と、変更依頼データに応じて、複数の多項目データを、当該複数の多項目データを構成する項目のうち変更依頼データに含まれる第3項目の構成要素にもとづいてクラスタリングして、複数区分に分類した第3分類データを作成するステップ(例えば、ステップS212にてYと判定されたあとのステップS204)と、第1表示領域と第3表示領域とを、第3分類データを構成する各区分における多項目データの特徴を示す第3区分特徴情報をそれぞれ該当区分毎に表示する第1表示領域と、第3分類データを構成する各区分と第2分類データを構成する各区分との組み合わせが一意に定められる第3表示領域とに変更したデータマップを作成するステップ(例えば、ステップS212にてYと判定されステップS204,ステップS205が実行されたあとのステップS208)と、変更した第1表示領域と、第2表示領域と、変更した第3表示領域とを含むデータマップを表示するステップ(例えば、ステップS208のあとサーバ10にてデータマップを表示する。また、例えば、データマップ情報を受信したユーザ端末30Aにてデータマップを表示する。)と、変更した第3表示領域に、第3分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データに関係する所定の多項目データ関係情報を、第3分類データを構成する各区分と第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示するステップ(例えば、ステップS208のあとサーバ10にて表示する。また、例えば、データマップ情報を受信したユーザ端末30Aにて表示する。)とを実行させるためのものであってもよい。
上記のように構成したことで、検索依頼データにおける項目の組み合わせの一方が変更されたときに、コンピュータに、既存のデータを用いて効率的にデータマップを作成させ表示させることができるようになる。
コンピュータに、さらに、第3分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第3項目の構成要素のうち、所定の関連条件を満たす第3区分構成要素を抽出するステップ(例えば、ステップS212にてYと判定されステップS204を実行したあとのステップS205)と、抽出した第3区分構成要素を第3区分特徴情報として用いて第1表示領域に表示するステップとを実行させるためのものであってもよい。
上記のように構成したことで、検索依頼データにおける項目の組み合わせの一方が変更されたときに、コンピュータに、既存のデータを用いて効率的にデータマップを作成させ表示させることができるようになる。
本発明によれば、多項目データの傾向を容易に捉えることが可能なデータマップを作成することができるようになる。
従って、検索依頼データを何度も繰り返し指定することなく、膨大な多項目データから所望の多項目データを容易かつ正確に絞り込むことができるようになる。
以下、本発明の一実施の形態について図面を参照して説明する。
図1は、本発明の一実施の形態におけるデータマップ作成システム100の構成の例を示すブロック図である。
図1に示すように、本例のデータマップ作成システム100は、データマップ作成サーバ10と、複数のユーザ端末30A〜30Nとを含む。データマップ作成サーバ10と、複数のユーザ端末30A〜30Nとは、それぞれインターネットなどの通信ネットワーク40に接続されている。
データマップ作成サーバ10は、例えばWWW(World Wide Web)サーバやワークステーションサーバなどの情報処理装置によって構成され、例えば本システム100の管理者によって管理される。
ユーザ端末30A〜30Nは、それぞれ、パーソナルコンピュータなどの情報処理装置によって構成され、本システム100を利用するユーザによって管理される。ユーザ端末30A〜30Nは、それぞれ、例えばブラウザなどが搭載され、通信ネットワーク40を介して各種情報の送受信を行う機能や、通信ネットワーク40を介して受信した各種情報を表示する機能などの各種の機能を有する。
図2は、データマップ作成サーバ10の構成の例を示すブロック図である。図2に示すように、データマップ作成サーバ10は、データ入力部11と、データ表示部12と、データ通信部13と、キーワードリスト作成部14と、ウエイト処理部15と、転置インデックス作成部16と、検索要求情報受付部17と、検索処理部18と、データマップ作成部19と、文書データDB20と、マップ作成利用データDB21とを含む。
データ入力部11は、例えばキーボードやマウスなどの情報入力装置によって構成され、例えばサーバ10の管理者が各種の情報を入力する際に用いられる。データ表示部12は、例えばLCD(液晶表示装置)などの表示装置によって構成され、各種の情報を表示するために用いられる。
データ通信部13は、通信ネットワーク40を介して、例えばユーザ端末30A〜30Nとの間で各種の情報を送受する機能を有する。
キーワードリスト作成部14は、検索対象とされている複数の文書データから、各文書データを構成する文書構成要素をそれぞれ抽出し、後述するキーワードリスト(図5参照)を作成する処理を実行する機能を有する。
「文書構成要素」は、文書データを構成する要素であって、具体的には、例えば単語、熟語、数字、数式、記号などが該当する。
ウエイト処理部15は、キーワードリストに登録されている文書構成要素のウエイト値を導出し、後述する項目インデックス(図6参照)を作成する処理を実行する機能を有する。
ウエイト処理部15は、サーバ10に搭載されている制御プログラムに従って、例えば、TF*IDFと呼ばれる重み付け手法によるウエイト値の算出処理を行う。なお、他の重み付け手法によってウエイト値を導出するようにしてもよい。
転置インデックス作成部16は、ウエイト処理部15によって各項目毎に作成されたそれぞれの項目インデックスにもとづいて、後述する転置インデックス(図7参照)を作成する処理を実行する機能を有する。
検索要求情報受付部17は、ユーザ端末30A〜30Nからの検索要求情報を受信し、データマップの作成要求を受け付ける処理を実行する機能を有する。
検索処理部18は、検索要求情報受付部17が受信した検索要求情報に従って、文書データの検索やクラスタリングなどの処理を実行する機能を有する。「検索要求情報」は、検索のための条件を特定するための情報であって、本例では、ユーザによって任意に指定された検索キーワードと、各文書データを構成している項目のいずれかである第1項目情報と、各文書データを構成している項目の他のいずれかである文書第2項目情報とを含む。「クラスタリング」とは、対象となる複数の文書データを、複数の区分のいずれかに振り分け、複数の区分に分類する処理を意味する。
検索処理部18は、サーバ10に搭載されている制御プログラムに従って、項目インデックスや転置インデックスなどを用いて、文書データを検索する検索処理や、複数の文書データを複数の区分に分類するクラスタリング処理を実行する。なお、検索処理部18による検索処理やクラスタリング処理は、公知の手法によって行われる。すなわち、検索処理部18による検索処理やクラスタリング処理の手法は、どのような手法であってもよい。
データマップ作成部19は、検索処理部18による検索やクラスタリングの結果にもとづいて、データマップを表示するためのデータマップ情報を作成する処理を実行する機能を有する。なお、「データマップ情報」は、表示装置の表示画面に表示されるデータマップの電子データを意味し、単に「データマップ」と呼ぶことがある。
文書データDB20は、例えばデータベース装置によって構成され、検索対象となる複数の文書データなどの各種の情報が記憶される。
マップ作成利用データDB21は、例えばデータベース装置によって構成され、データマップを作成する際に利用されるデータ(マップ作成利用データ)などの各種の情報が記憶される。「マップ作成利用データ」は、例えば、キーワードリスト、項目インデックス、転置インデックス、検索要求情報などの各種の情報を含む。
図3は、文書データDB20における文書データの格納状態を説明するための説明図である。図3に示すように、文書データDB20には、複数の文書データ1〜N(N:任意の正の整数)が格納されている。
文書データは、記載事項があらかじめ定められている複数の項目1〜M(M:任意の正の整数)によって構成された多項目データであるものとする。また、文書データは、例えば、XMLなどの記述言語によって作成される。
多項目データとしては、例えば、公開特許公報などの特許文献を示す特許文献データなどが該当する。すなわち、特許文献のように、「特許請求の範囲」、「発明の名称」、「背景技術」、「発明が解決しようとする課題」、「課題を解決するための手段」、「発明の効果」などのあらかじめ既定された複数の項目によって構成される文書データは、全て多項目データとして用いることができ、本システム100における検索対象とすることができる。
次に、本例のデータマップ作成システム100の動作について説明する。
図4は、本例のデータマップ作成システム100におけるデータマップ作成サーバ10によるマップ作成準備処理の例を示すフローチャートである。マップ作成準備処理は、例えば、文書データDB20に文書データが追加登録されたとき、文書データDB20に登録されている文書データの一部が削除されたとき、システム管理者からのデータ入力部11の操作による指示があったとき、あるいは定期的に実行される。
本例では、文書データDB20に文書1〜文書Nの各文書データが登録されているものとし、各文書データは項目1〜項目Mによって構成される多項目データであるものとする(図3参照)。
マップ作成準備処理において、先ず、データマップ作成サーバ10のキーワードリスト作成部14は、文書データDB20に登録された検索対象とされている全ての文書データの全体から文書構成要素を抽出し、キーワードリストを作成する(ステップS101)。
図5は、キーワードリスト作成処理(ステップS101)の概要を示す模式図である。図5に示すように、ステップS101では、文書データDB20に登録されている全ての文書データの全体を検索し、全文書データ内に存在している文書構成要素を、検索キーワードと比較するための文書構成要素として順次抽出して、リスト番号を付与しながらリストに加えていき、キーワードリストを作成する処理が実行される。
ステップS101では、例えば、全文書データ内に存在している全種類の文書構成要素を抽出し、抽出された順番に0から順次リスト番号を付与してリストに加えていくものとする。なお、全文書データ内に存在している全種類の文書構成要素でなく、全文書データ内に存在している文書構成要素のうち一部の種類だけをリストに加えるようにしてもよい。
キーワードリストは、例えば図5に示すように、一意に定められるリスト番号に、「水素」などの各文書構成要素がそれぞれ対応付けされたベクトルデータとなる。
キーワードリストを作成すると、データマップ作成サーバ10は、作成したキーワードリストをマップ作成利用データDB21に保存する。
次いで、データマップ作成サーバ10のウエイト処理部15は、文書データDB20に登録されている文書データと、作成したキーワードリストとを用いて、項目インデックスを作成する処理を実行する(ステップS102〜ステップS108)。図6は、項目インデックス作成処理(ステップS102〜ステップS108)の概要を示す模式図である。
ウエイト処理部15は、処理対象の文書データを特定するための処理文書番号Xに初期値「1」を設定するとともに、処理対象の項目を特定するための処理項目番号Yに初期値「0」を設定する(ステップS102)。なお、項目0は、全項目1〜Mを意味するものとする。
次に、ウエイト処理部15は、文書データDB20に登録されている全ての文書1〜Nの項目Yを検索し、ステップS101にて作成されたキーワードリストに登録されている各文書構成要素が文書Xの項目Yにおいてどれぐらいの重みを持っているのかを示すウエイト値を、各文書構成要素毎に順次算出し、算出したウエイト値を該当する文書構成要素のリスト番号に対応付けして順次登録していくことで、文書Xについての項目Yインデックスを作成する(ステップS103)。すなわち、項目Yインデックスにおける文書Xに関わるベクトルデータを作成する。
ステップS103の処理を実行すると、ウエイト処理部15は、処理文書番号Xが最大値に達していなければ(ステップS104のN)、処理文書番号Xを1加算し(ステップS105)、処理文書番号Xが1加算された文書Xについての項目Yインデックスを作成する(ステップS103)。
そして、ウエイト処理部15は、ステップS103〜ステップS105の処理を処理文書番号Xが最大値(本例ではN)に達するまで(ステップS104のY)繰り返し行うことで、項目Yインデックスにおける文書1〜文書Nに関わる各ベクトルデータを順次作成し、項目Yインデックスを完成させる。
項目Yインデックスを完成させると、ウエイト処理部15は、作成した項目Yインデックスをマップ作成利用データDB21に保存し(ステップS106)、処理項目番号Yが最大値に達していなければ(ステップS107のN)、処理文書番号Xに初期値「1」を設定するとともに、処理項目番号Yを1加算し(ステップS108)、ステップS103に戻り、処理項目番号Yが1加算された項目Yインデックスを作成する処理を行う(ステップS103〜ステップS105)。
ウエイト処理部15は、ステップS103〜ステップS105の処理を処理文書番号Xが最大値(本例ではN)に達するまで(ステップS104のY)繰り返し行う毎に、項目Yインデックスを順次完成させ、作成した項目Yインデックスをマップ作成利用データDB21に順次保存していく(ステップS106)。
そして、ウエイト処理部15は、処理文書番号Xが最大値(本例ではN)に達するまで(ステップS104のY)のステップS103〜ステップS105の繰り返し処理を、処理項目番号Yが最大値(本例ではM)に達するまで(ステップS107のY)繰り返し行うことで、項目0インデックス〜項目Mインデックスを順次作成する。
項目0インデックス〜項目Mインデックスが作成されると、転置インデックス作成部16は、ウエイト処理部15によって作成された各項目インデックスにもとづいて、転置インデックスを作成し(ステップS109)、マップ作成利用データDB21に保存する(ステップS110)。
図7は、転置インデックス作成処理(ステップS110)の概要を示す模式図である。図7に示すように、転置インデックス作成部16は、全項目インデックス、項目1インデックス〜項目Mインデックスを用いて、キーワードリストに含まれる各文書構成要素毎に、転置インデックスを作成する。転置インデックスは、キーワードリストに登録されている文書構成要素の数だけ作成される。転置インデックス作成部16は、キーワードリストに含まれる各文書構成要素毎に転置インデックスを作成し、該当リスト番号に対応付けして登録する。
「転置インデックス」は、複数の文書データの検索処理を効率的に実行するためのインデックスを意味し、ある特定の文書構成要素がどの文書データのどの項目に出現するかを示すデータである。「転置インデックス」は、各文書データ1〜Nにおける項目0〜項目Mそれぞれについて、該当する項目構成要素のウエイト値が所定の順番に整列されたインデックスである。本例では、文書番号1(文書1を示す文書データ1)〜文書番号N(文書Nを示す文書データN)の順番に並べられるとともに、各文書データ1〜Nにおいて項目番号0(項目0)〜項目番号M(項目M)の順番に並べられ、該当する文書データにおける該当する項目のウエイト値が、ウエイト処理部15によって作成された各項目インデックスから抽出されて設定される。
具体的には、図7に示すように、例えばリスト番号nの文書構成要素についての転置インデックスnは、文書データ1の項目0における文書構成要素nのウエイト値「0.3」が項目0インデックス(図6参照)から抽出されて設定され、文書データ1の項目1における文書構成要素nのウエイト値「0.4」が項目1インデックス(図6参照)から抽出されて設定され、文書データ1の項目2における文書構成要素nのウエイト値「0.5」が項目2インデックス(図6参照)から抽出されて設定され、その後も項目3以降における文書構成要素nのウエイト値が同様に抽出されて設定され、さらに文書データ2以降について同様に文書構成要素nのウエイト値が同様に抽出されて設定されることで作成される。
上記のようにして、データマップ作成サーバ10は、データマップ作成準備処理において、キーワードリスト、項目インデックス、および転置インデックスを作成し、マップ作成利用データDB21に保存する。
図8は、本例のデータマップ作成システム100におけるデータマップ作成サーバ10によるマップ作成処理の例を示すフローチャートである。
ここでは、項目1〜項目Mによって構成される文書1〜文書Nの各文書データにもとづいて作成されたキーワードリスト、項目インデックス、および転置インデックスが、マップ作成利用データDB21に保存されているものとする。
また、ここでは、ユーザAによって管理されているユーザ端末30Aからの要求に応じて、データマップ情報を作成する処理が実行されるものとする。
マップ作成処理において、先ず、データマップ作成サーバ10の検索要求情報受付部17は、ユーザ端末30Aから通信ネットワーク40を介して検索要求情報を受信し、データマップ作成要求を受け付ける(ステップS201,S202)。
検索要求情報は、検索キーワードと、複数の検索項目情報とを含む。検索キーワードは、1または2以上の単語、熟語、記号、式、文章など、絞込み検索のためのキーワードであればどのような形態であってもよい。なお、検索項目情報は、ユーザAによって、検索対象とされている文書データを構成する項目から任意の複数個が選択される。本例では、複数の検索項目情報として、データマップの縦軸方向に分類表示するためのクラスタリング処理の処理対象とする項目を示す縦軸項目情報と、データマップの横軸方向に分類表示するためのクラスタリング処理の処理対象とする項目を示す横軸項目情報とが指定されるものとする。
ここでは、ステップS201,S202において、検索要求情報として、検索キーワードを示す「検索キーワードP」と、縦軸項目情報を示す「項目2」と、横軸項目情報を示す「項目3」が受信されたものとする。
検索要求情報を受信すると、データマップ作成サーバ10の検索処理部18は、検索キーワードPと、キーワードリストと、項目インデックスと、転置インデックスとを用いて、文書データDB20に登録されている複数の文書データから、所定の検索条件を満たす文書データを抽出し、データマップへの掲載対象とする文書データを絞り込む処理を行う(ステップS203)。ここでは、文書データが25000件に絞り込まれたものとする(図9の表示領域56参照)。
ステップS203における検索条件は、例えば、検索キーワードPを文書内に含むこと、検索キーワードPと同一の文書構成要素または類似の文書構成要素(例えば、同義語、関連語)を文書内に含むこと、検索キーワードPの出現頻度が所定の閾値以上(例えばウエイト値が0.3以上)であること、検索キーワードPの出現頻度が所定の閾値以上(例えばウエイト値が0.3以上)であって上位25000件までであることなど、情報検索において使用される公知の条件であればどのようなものであってもよい。また、ステップS203における検索条件は、あらかじめ定められ、マップ作成利用データDB21に登録されているものとする。なお、ステップS203における検索条件を、複数種類の検索条件からユーザAが選択するようにしてもよい。
検索キーワードPによる絞込み処理を行うと、検索処理部18は、ステップS203にて抽出された複数の文書データを、縦軸項目情報として指定されている「項目2」についてクラスタリングし、所定の第1区分数に分類した第1分類データを作成する(ステップS204)。
「第1区分数」は、例えば5区分、7区分、10区分などのようにあらかじめ定められ、マップ作成利用データDB21に登録されているものとする。ここでは、「第1区分数」が5区分と定められているものとする(図9の表示領域57参照)。なお、「第1区分数」を、ユーザAが指定するようにしてもよい。
ステップS204では、例えば、縦軸項目情報として指定されている「項目2」についての項目2インデックスを用いて、ステップS203にて抽出された複数の文書データにおけるそれぞれの項目2についての各文書構成要素のウエイト値によるベクトルデータを比較し、ステップS203にて抽出された複数の文書データを第1区分数の各カテゴリに分類し、第1分類データを作成する処理が実行される。
「第1分類データ」は、ステップS203にて抽出された複数の文書データが第1区分数に分類されたデータを意味する。「第1分類データ」は、各区分それぞれに、各区分に分類された1または複数の文書データが対応付けされたデータである。ここでは、ステップS203にて絞り込まれた25000件の文書データが、5区分のカテゴリのうち1区分目に2500件、2区分目に5000件、3区分目に8000件、4区分目に6500件、5区分目に3000件それぞれ分類されたものとする(図9の表示領域57参照)。
次に、検索処理部18は、縦軸項目情報として指定されている「項目2」についての項目2インデックスを用いて、第1分類データを構成する各区分毎に、所定の関連条件を満たす文書構成要素である第1文書構成要素を抽出する(ステップS205)。「第1文書構成要素」は、第1分類データを構成する各区分に分類された文書データ群の特徴を各区分毎に示す第1区分特徴情報の一例である。
「関連条件」は、例えば、各区分に分類された複数の文書データにおける項目2についてのウエイト値の平均値が所定値以上の文書構成要素であることや、各区分に分類された複数の文書データにおける項目2についてのウエイト値の平均値の高さが所定順位以上の文書構成要素であることや、その双方を満たすことなどとされる。
ここでは、「各区分に分類された複数の文書データにおける項目2についてのウエイト値の平均値が高い上位4個の文書構成要素」が「第1文書構成要素」として抽出されるものとする(図9の表示領域52参照)。そして、1区分目の第1文書構成要素として文書構成要素A1〜A4が抽出され、2区分目の第1文書構成要素として文書構成要素B1〜B4が抽出され、3区分目の第1文書構成要素として文書構成要素C1〜C4が抽出され、4区分目の第1文書構成要素として文書構成要素D1〜D4が抽出され、5区分目の第1文書構成要素として文書構成要素E1〜E4が抽出されたものとする(図9の表示領域52参照)。
なお、ステップS205では、第1分類データを構成する区分に分類された文書データが1のみであった場合には、その文書データの項目2に含まれている文書構成要素が抽出される。この場合、「関連条件」は、例えば、その区分に分類された文書データにおける項目2についてのウエイト値が所定値以上であることや、その区分に分類された文書データにおける項目2についてのウエイト値の高さが所定順位以上であることや、その双方を満たすことなどとされる。
次いで、検索処理部18は、ステップS203にて抽出された複数の文書データを、横軸項目情報として指定されている「項目3」についてクラスタリングし、所定の第2区分数に分類した第2分類データを作成する(ステップS206)。
「第2区分数」は、例えば5区分、7区分、10区分などのようにあらかじめ定められ、マップ作成利用データDB21に登録されているものとする。ここでは、「第2区分数」が5区分と定められているものとする(図9の表示領域58参照)。なお、「第2区分数」を、ユーザAが指定するようにしてもよい。「第2区分数」は、「第1区分数」と同じ数であってもよいし、「第1区分数」と異なる数であってもよい。
ステップS206では、例えば、横軸項目情報として指定されている「項目3」についての項目3インデックスを用いて、ステップS203にて抽出された複数の文書データにおけるそれぞれの項目3についての各文書構成要素のウエイト値によるベクトルデータを比較し、ステップS203にて抽出された複数の文書データを第2区分数の各カテゴリに分類し、第2分類データを作成する処理が実行される。
「第2分類データ」は、ステップS203にて抽出された複数の文書データが第2区分数に分類されたデータを意味する。「第2分類データ」は、各区分それぞれに、各区分に分類された1または複数の文書データが対応付けされたデータである。ここでは、ステップS203にて絞り込まれた25000件の文書データが、5区分のカテゴリのうち1区分目に2000件、2区分目に7000件、3区分目に9000件、4区分目に4000件、5区分目に3000件それぞれ分類されたものとする(図9の表示領域58参照)。
次に、検索処理部18は、横軸項目情報として指定されている「項目3」についての項目3インデックスを用いて、第2分類データを構成する各区分毎に、所定の関連条件を満たす文書構成要素である第2文書構成要素を抽出する(ステップS207)。「第2文書構成要素」は、第2分類データを構成する各区分に分類された文書データ群の特徴を各区分毎に示す第2区分特徴情報の一例である。
ステップS207における「関連条件」は、ステップS205における「関連条件」と同様に、例えば、各区分に分類された複数の文書データにおける項目3についてのウエイト値の平均値が所定値以上の文書構成要素であることや、各区分に分類された複数の文書データにおける項目3についてのウエイト値の平均値の高さが所定順位以上の文書構成要素であることや、その双方を満たすことなどとされる。
ここでは、「各区分に分類された複数の文書データにおける項目3についてのウエイト値の平均値が高い上位7個の文書構成要素」が「第2文書構成要素」として抽出されるものとする(図9の表示領域54参照)。そして、1区分目の第2文書構成要素として文書構成要素a1〜a7が抽出され、2区分目の第2文書構成要素として文書構成要素b1〜b7が抽出され、3区分目の第2文書構成要素として文書構成要素c1〜c7が抽出され、4区分目の第2文書構成要素として文書構成要素d1〜d7が抽出され、5区分目の第2文書構成要素として文書構成要素e1〜e7が抽出されたものとする(図9の表示領域54参照)。
なお、ステップS207では、第2分類データを構成する区分に分類された文書データが1のみであった場合には、その文書データの項目3に含まれている文書構成要素が抽出される。この場合、「関連条件」は、例えば、その区分に分類された文書データにおける項目3についてのウエイト値が所定値以上であることや、その区分に分類された文書データにおける項目3についてのウエイト値の高さが所定順位以上であることや、その双方を満たすことなどとされる。
次いで、データマップ作成サーバ10のデータマップ作成部19は、検索処理部18による検索処理やクラスタリング処理などの結果に応じて、二次元データマップ情報を作成する(ステップS208)。
図9は、データマップ作成部19によって作成された二次元データマップ情報が示す二次元データマップの例を示す説明図である。図9に示すように、二次元データマップは、縦軸項目情報表示領域51と、第1文書構成要素表示領域52と、横軸項目情報表示領域53と、第2文書構成要素表示領域54と、文書データ関係情報表示領域55と、文書データ総数表示領域56と、第1分類数表示領域57と、第2分類数表示領域58とを含む。
縦軸項目情報表示領域51は、縦軸項目情報を表示する表示領域である。第1文書構成要素表示領域52は、第1分類データを構成する各区分毎に区分けして第1文書構成要素を表示する表示領域である。横軸項目情報表示領域53は、横軸項目情報を表示する表示領域である。第2文書構成要素表示領域54は、第2分類データを構成する各区分毎に区分けして第2文書構成要素を表示する表示領域である。
文書データ関係情報表示領域55は、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された文書データに関係する所定の文書データ関係情報を、第1分類データを構成する各区分と第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示する表示領域である。この文書データ関係情報表示領域55は、第1分類データを構成する各区分と第2分類データを構成する各区分との組み合わせが一意に定められるマトリクス状の各二次元表示領域によって構成される。
文書データ総数表示領域56は、ステップS203によって抽出された文書データの数を表示する表示領域である。第1分類数表示領域57は、第1分類データを構成する各区分に分類された文書データの数を区分毎にそれぞれ表示する表示領域である。第2分類数表示領域58は、第2分類データを構成する各区分に分類された文書データの数を区分毎にそれぞれ表示する表示領域である。
データマップ作成部19は、ステップS208にて、縦軸項目情報表示領域51に縦軸項目情報を示す「項目2」が表示され、横軸項目情報表示領域53に横軸項目情報を示す「項目3」が表示され、第1文書構成要素表示領域52にステップS205にて抽出された第1文書構成要素が各区分毎に区分けされて表示され、第2文書構成要素表示領域54にステップS207にて抽出された第2文書構成要素が各区分毎に区分けされて表示されるように、各表示領域と各表示情報とを対応付けした二次元データマップ情報を作成する処理を行う。
また、データマップ作成部19は、ステップS208にて、文書データ関係情報表示領域55における各二次元表示領域に、それぞれ、文書データ関係情報が表示されるように、各二次元表示領域と各文書データ関係情報とを対応付けした二次元データマップ情報を作成する処理を行う。ここでは、「文書データ関係情報」として、対応する第1分類データを構成する区分と、対応する第2分類データを構成する区分との双方に分類された文書データの数である二次元分類数を示す二次元分類数情報が用いられているものとする。従って、文書データ関係情報表示領域55における各二次元表示領域には、それぞれ、二次元分類数が表示される(図9参照)。
さらに、データマップ作成部19は、ステップS208にて、文書データ総数表示領域56にステップS203によって抽出された文書データの数が表示され、第1分類数表示領域57に第1分類データを構成する各区分に分類された文書データの数が区分毎にそれぞれ表示され、第2分類数表示領域58に第2分類データを構成する各区分に分類された文書データの数が区分毎にそれぞれ表示されるように、各表示領域と各表示情報とを対応付けした二次元データマップ情報を作成する処理を行う。
データマップ作成部19によって二次元データマップ情報が作成されると、データマップ作成サーバ10のデータ通信部13は、二次元データマップ情報を、通信ネットワーク40を介してユーザ端末30Aに送信する(ステップS209)。
データマップ作成サーバ10からの二次元データマップ情報を受信すると、ユーザ端末30Aは、自己が備える表示装置の表示画面に、図9に示すような二次元データマップを表示する。
上記のようにして、データマップ作成サーバ10によって二次元データマップ情報が作成され、二次元データマップ情報にもとづく二次元データマップがユーザ端末30Aの表示装置の表示画面に表示される。なお、サーバ10の管理者によるデータ入力部11の操作に応じて、データマップ作成サーバ10が、作成した二次元データマップ情報にもとづく二次元データマップを、データ表示部10に表示するようにしてもよい。
以上に説明したように、上述した一実施の形態では、複数の文書データを2つの異なる項目についてそれぞれ別個にクラスタリングを実行してそれぞれ別個に分類し、その別個に分類した結果を二次元表示させる構成としたので、多くの情報をコンパクトに表示することが可能なデータマップを作成することができ、複数の文書データの傾向を容易に捉えることが可能なデータマップを作成することができるようになる。
具体的には、例えば図9に示した例では、25000件の文書データを異なる2つの項目に着目して別個にそれぞれ5区分に分類した結果を、5×5のマトリクス状に表示したデータマップを作成する構成とした場合には、25000件の文書データについての2種類の分類結果が25個(5×5)のセル(文書データ関係情報表示領域55を構成する二次元表示領域)に振り分けられたデータマップが作成される。このように、25000件という膨大な数の文書データについての2種類の分類結果を25個のセルを用いてコンパクトに表示する構成とされているので、25000件という膨大な数の文書データの2種類の分類結果をまとめて視認することが可能であり、25000件の文書データの傾向を容易に捉えることが可能なデータマップを作成することができる。
また、上記のように、多くの情報をコンパクトに表示することが可能なデータマップを作成することができるため、検索条件を何度も繰り返し指定することなく、膨大な文書データから所望の文書データを容易かつ正確に絞り込むことができるようになる。
また、上述した一実施の形態では、2種類の項目に注目してそれぞれ別個に分類した結果をマトリクス状に二次元表示する構成としたので、複数の文書データにおける複数項目についての分類状態を容易に把握することが可能な見易いデータマップを提供することができる。
また、上述した一実施の形態では、検索キーワードにもとづいて複数の文書データの絞込みを行ったあとに、2つの異なる項目についてそれぞれ別個にクラスタリングを実行してそれぞれ別個に分類し、その別個に分類した結果を二次元表示させる構成としたので、ユーザによって指定された検索キーワードに関係する文書データの傾向を容易に捉えることが可能なデータマップを作成することができるようになる。
また、上述した一実施の形態では、検索要求情報に含まれる複数の項目をそのまま縦軸項目情報と横軸項目情報として表示する構成としたので、検索要求情報に含まれる複数の項目を第1分類データと第2分類データの名称として用いることができる。通常は、クラスタリングによって分類した各区分内のデータの特徴を総括的に把握することは困難であるが、検索要求情報に含まれる複数の項目を第1分類データと第2分類データの名称として用いるようにしたので、文書データ関係情報表示領域55における各二次元表示領域に分類された文書データの特徴を容易かつ正確に把握することができるようになる。
また、上述した一実施の形態では、第1文書構成要素および第2文書構成要素を区分毎に区分けして表示する構成としたので、各区分の特徴を容易に把握することができるようになり、文書データ関係情報表示領域55における各二次元表示領域に分類された文書データの特徴を容易かつ正確に把握することができるようになる。
また、上述した一実施の形態では、文書データ関係情報として二次元分類数情報を用いる構成としたので、文書データの分類状態の傾向を容易に把握することが可能なデータマップ情報を作成することができるようになる。
なお、文書データ関係情報として、該当する文書データを特定する文書データ特定情報を用いるようにしてもよい。「文書データ特定情報」は、例えば、文書データのタイトル(例えば、特許文献データであれば「発明の名称」、研究者データであれば「研究者の氏名」)、文書データを特定可能な識別符号(例えば特許文献データであれば「公開番号」や「特許番号」)などとされる。このように構成した場合には、文書データの分類状態の傾向をより詳細に把握することが可能なデータマップを表示するためのデータマップ情報を作成することができるようになる。
また、文書データ関係情報として二次元分類数情報にもとづく二次元分類数を表示し、ユーザAが二次元分類数の表示領域を選択(例えば、マウスのクリック操作によって選択する)したことに応じて、選択された二次元分類数にカウントされている各文書データのタイトルや識別符号などの文書データの概要を示す情報を表示するようにしてもよい。さらに、ユーザAがタイトルや識別符号などの表示領域を選択したことに応じて、選択されたタイトルや識別符号が示す文書データの内容を表示するようにしてもよい。
なお、上述した一実施の形態では特に言及していないが、二次元データマップ情報を作成したあと、ユーザからの検索項目情報の一部の変更を受け付け、変更された検索項目情報にもとづいて二次元データマップ情報を再度作成するようにしてもよい。
また、上述した一実施の形態では特に言及していないが、二次元データマップ情報を作成したあと、文書データ関係情報の表示領域を特定した文書データ絞込依頼(データマップ作成対象の文書データ群の絞り込みの依頼)を受け付け、文書データ絞込依頼があったことに応じて、特定された表示領域に表示されている文書データ関係情報が示す各文書データについて、二次元データマップ情報を再度作成するようにしてもよい。
図10は、検索項目情報の変更を受け付けることとした他の実施の形態におけるマップ作成処理の例を示すフローチャートである。図10には、文書データ絞込依頼を受け付けることとした場合のマップ作成処理の例も含まれている。なお、上述した図8にて説明した処理と同様の処理を行う部分については、同一の符号を付与してその詳細な説明は省略する。
図10に示すように、マップ作成処理において、データマップ作成サーバ10は、項目2と項目3とを検索項目情報とする検索要求情報にもとづく二次元データマップ情報を作成して送信したあと(ステップS208,S209)、例えば所定期間(例えば、1分などあらかじめ定められた期間)が経過するまで、ユーザ端末30Aからの検索項目情報の変更依頼を受け付ける(ステップS210)。
検索項目情報の変更依頼受付期間中に、ユーザ端末30Aから、通信ネットワーク40を介して検索項目情報変更依頼情報を受信すると、データマップ作成サーバ10は、受信した検索項目情報変更依頼情報の内容を確認する。「検索項目情報変更依頼情報」には、変更する縦軸項目を示す変更縦軸項目情報と、変更する横軸項目を示す変更横軸項目情報とのうち、少なくとも何れか一方を含む。
横軸項目のみの変更(例えば、検索項目情報変更依頼情報が、変更横軸項目情報を含み、変更縦軸項目情報を含まない場合)であれば(ステップS211のY)、データマップ作成サーバ10は、ステップS206に移行し、変更横軸項目情報が示す変更後の横軸項目(例えば「項目4」であるとする)についてステップS206〜S207を実行する。ステップS206では、検索処理部18は、前回のマップ作成処理でのステップS203にて抽出されている複数の文書データを、変更後の横軸項目情報として指定されている「項目4」についてクラスタリングし、所定の第3区分数に分類した第3分類データを作成する処理を実行する。なお、「第3区分数」は、例えば上述した「第2区分数」と同一の数とされる。また、ステップS207では、検索処理部18は、変更後の横軸項目情報として指定されている「項目4」についての項目4インデックスを用いて、第3分類データを構成する各区分毎に、所定の関連条件を満たす文書構成要素である第3文書構成要素を抽出する処理を実行する。そして、データマップ作成サーバ10は、前回のマップ作成処理にて実行したステップS204〜S205で導出した第1分類データや第1文書構成要素を用いて、項目2と項目4とを検索項目情報とする二次元データマップ情報を作成して送信する(ステップS208,S209)。
一方、縦軸項目のみの変更(例えば、検索項目情報変更依頼情報が、変更縦軸項目情報を含み、変更横軸項目情報を含まない場合)であれば(ステップS212のY)、データマップ作成サーバ10は、ステップS204に移行し、変更縦軸項目情報が示す変更後の縦軸項目(例えば「項目5」であるとする)についてステップS204〜S205を実行する。ステップS204では、検索処理部18は、前回のマップ作成処理でのステップS203にて抽出されている複数の文書データを、変更後の縦軸項目情報として指定されている「項目5」についてクラスタリングし、所定の第4区分数に分類した第4分類データを作成する処理を実行する。なお、「第4区分数」は、例えば上述した「第1区分数」と同一の数とされる。また、ステップS205では、検索処理部18は、変更後の縦軸項目情報として指定されている「項目5」についての項目5インデックスを用いて、第4分類データを構成する各区分毎に、所定の関連条件を満たす文書構成要素である第4文書構成要素を抽出する処理を実行する。そして、データマップ作成サーバ10は、前回のマップ作成処理にて実行したステップS206〜S207(今回の処理ではステップS206〜S207は実行しない)で導出した第2分類データや第2文書構成要素を用いて、項目5と項目3とを検索項目情報とする二次元データマップ情報を作成して送信する(ステップS208,S209)。
なお、縦軸項目および横軸項目両方の変更(例えば、検索項目情報変更依頼情報が、変更縦軸項目情報および変更横軸項目情報を含む場合)であれば(ステップS212のN)、データマップ作成サーバ10は、ステップS204に移行し、変更縦軸項目情報が示す変更後の縦軸項目(例えば「項目5」であるとする)についてステップS204〜S205を実行し、変更横軸項目情報が示す変更後の縦軸項目(例えば「項目4」であるとする)についてステップS206〜S207を実行し、項目5と項目4とを検索項目情報とする二次元データマップ情報を作成して送信する(ステップS208,S209)。すなわち、ステップS204以降の処理を再度実行し、再度新たなデータマップ情報を作成する。
次に、データマップ作成サーバ10は、項目2と項目3とを検索項目情報とする検索要求情報にもとづく二次元データマップ情報を作成して送信したあと(ステップS208,S209)、検索項目情報の変更依頼がなければ、例えば所定期間(例えば、1分などあらかじめ定められた期間)が経過するまで、ユーザ端末30Aからの文書データ絞込依頼を受け付ける(ステップS213)。なお、文書データ絞込依頼の受け付けは、検索項目情報の変更依頼の受け付けと並行して行うようにしてもよいし、検索項目情報の変更依頼の受け付けの前に行うようにしてもよい。
文書データ絞込依頼の受付期間中に、ユーザ端末30Aから、通信ネットワーク40を介して文書データ絞込依頼情報を受信すると、受信した文書データ絞込依頼情報の内容を確認する。「文書データ絞込依頼情報」には、文書データ関係情報が表示されている表示領域の何れかを示すセル情報を含む。なお、「セル情報」は、文書データ関係情報表示領域55を構成する二次元表示領域(セル)を示す情報である。ユーザAは、例えば、二次元表示領域の何れかを選択(例えば、マウスクリックによる選択)することで、文書データ絞込依頼を行う。
次いで、データマップ作成サーバ10は、処理対象の文書データ群の設定を、ステップS203にて絞り込まれた各文書データから、受け付けた文書データ絞込依頼情報に含まれるセル情報が示す二次元表示領域に表示されている文書データ関係情報によって特定される各文書データ(セル情報が示す二次元表示領域に分類されている各文書データ)に変更したあと(ステップS214)、ステップS204に移行し、前回のマップ作成処理にて使用した縦軸項目(項目2)及び横軸項目(項目3)についてステップS204〜S207を実行する。そして、データマップ作成サーバ10は、項目2と項目3とを検索項目情報とする二次元データマップ情報を作成して送信する(ステップS208,S209)。
上記のように、他の実施の形態では、二次元データマップ情報を作成したあと、ユーザからの検索項目情報の一部または全部の変更を受け付けたときに、前回の二次元データマップ情報の作成の際に実行した処理と重複する処理を省略して、変更した二次元データマップ情報を作成する構成としたので、2回目以降の二次元データマップ情報の作成処理を簡略化することができ、迅速に処理結果を出力することができる。特に、検索項目情報の組み合わせの一方が変更されたときは、前回の二次元データマップ情報の作成の際に得た既存のデータを用いてより効率的に二次元データマップ情報を作成することができるようになる。
また、上記のように、他の実施の形態では、二次元データマップ情報を作成したあと、ユーザからのセルを特定した文書データ絞込依頼に応じて、ユーザによって指定されたセルに分類されている文書データ群を処理対象として、二次元データマップ情報を再度作成する構成としたので、ユーザからの依頼に応じて、二次元データマップを構成するセルに分類されている各文書データについて、2つの異なる項目についてそれぞれ別個にクラスタリングした二次元データマップを再度作成して提供することができる。すなわち、ユーザが希望したセルに分類されている各文書データに絞り込んで、分類を掘り下げた二次元データマップを作成することができる。よって、ユーザは、二次元データマップを構成する各セルの何れかを選択することによって、選択したセルに分類されている各文書データに絞り込んで作成された二次元データマップを得ることができる。
また、上記のように、ユーザによって指定されたセルに分類されている文書データ群を処理対象として二次元データマップ情報を再度作成する構成としたので、最初に作成したデータマップが示す検索結果と比較すると、最初に作成した二次元データマップを構成するセルの数(=第1区分数×第2区分数)を平均とする倍率で、検索効率を向上させた二次元データマップを作成することができるようになる。具体的には、図9に示した二次元データマップでは25000件の文書データの検索結果が示されているが、図9に示した二次元データマップのセルを特定した文書データ絞込依頼があった場合には、検索効率が平均で25倍向上した二次元データマップが作成される。すなわち、25000件の文書データの検索結果が示されている図9に示した二次元データマップについて、25個のセルの何れかを特定した文書データ絞込依頼があった場合には、各セルに分類されている文書データの数の平均値が1000件(25000件/25個)であるため、平均で1000件の文書データの検索結果が示された二次元データマップが作成される。なお、セルの選択による文書データ絞込依頼を繰り返し受け付け、検索効率を段階的に向上させた二次元データマップを順次作成していくように構成されていてもよい。
なお、上述した実施の形態では、ユーザ端末30A〜30Nの一例としてパーソナルコンピュータを挙げていたが、ユーザ端末30A〜30Nは、PDA(Personal Digital Assistants)や携帯電話端末などの携帯通信端末などの他の情報処理装置であってもよい。
また、上述した実施の形態では、検索キーワードにもとづいて複数の文書データの絞込みを行ったあとに、2つの異なる項目についてそれぞれ別個にクラスタリングを実行する構成としていたが、検索キーワードにもとづく絞込みを行うことなく、2つの異なる項目についてそれぞれ別個にクラスタリングを実行する構成としてもよい。このように、検索キーワードにもとづく絞込みを行わないようにしても、検索対象とされている複数の文書データの総数が多くない場合には、複数の文書データの傾向を容易に捉えることが可能なデータマップを作成することができる。また、検索対象とされている複数の文書データの総数が多くない場合に、検索キーワードにもとづく絞込みを行うことなく迅速に処理を実行することが可能となる。
また、上述した実施の形態では、検索要求情報を受信したあと、検索キーワードにもとづいて複数の文書データの絞込みを行うとともに、2つの異なる項目についてそれぞれ別個にクラスタリングを実行する構成としていたが、検索要求情報のうち検索キーワードのみを先に受信し、検索キーワードにもとづく複数の文書データの絞込みを行い、その検索結果をユーザに提示したあと、検索要求情報のうちの項目情報を受信して、2つの異なる項目についてそれぞれ別個にクラスタリングを実行するように構成されていてもよい。このように構成すれば、ユーザが、検索キーワードにもとづく絞込み処理の結果を見たあと、検索要求情報における項目情報を指定することができるようになる。
また、上述した実施の形態では、文書データである多項目データの一例として、公開特許公報などの特許文献を示す特許文献データを挙げていたが、多項目データは、記載事項があらかじめ定められている複数の項目から成るデータであればどのようなものであってもよく、例えば、研究者や研究内容を示す研究者データ、宿泊施設の営業時間や営業内容を示す宿泊施設データ、医師などによって記載されるカルテを示す電子カルテ、判例を示す判例データ、企業の事業内容や業績などを示す企業データ、製品の販売価格やセールスポイントを示す製品データなどであってもよい。
また、上述した実施の形態では、2種類の検索項目情報にもとづいてマトリクス状の2次元データマップを表示するための2次元データマップ情報を作成する構成としていたが、3種類以上の検索項目情報にもとづいて多次元データマップを表示するための多次元データマップ情報を作成するようにしてもよい。例えば、3次元データマップであれば、立体的に表示するデータマップとするようにすればよい。また、例えば、4次元以上のデータマップであれば、例えば、複数の2次元データマップや複数の3次元データマップによって表現するようにすればよい。
なお、上述した各実施の形態では特に言及していないが、本システム100において実行される各処理は、本システム100等に搭載されている制御プログラム(データマップ作成プログラム)に従って実行される。この制御プログラムは、例えば、複数の項目から成る複数の文書データをクラスタリングによって分類したデータマップを作成させるためのデータマップ作成プログラムであって、データマップ作成サーバ10に、文書データを構成する複数の項目に含まれる第1項目と、文書データを構成する複数の項目に含まれ第1項目とは異なる第2項目とを含む検索要求情報を受け付けるステップと、複数の文書データを、当該複数の文書データを構成する項目のうち検索要求情報に含まれる第1項目の構成要素にもとづいてクラスタリングし、複数区分に分類した第1分類データを作成するステップと、第1分類データを構成する各区分毎に、当該区分に分類された複数の文書データそれぞれにおける第1項目の構成要素のうち、所定の関連条件を満たす第1文書構成要素を抽出するステップと、複数の文書データを、当該複数の文書データを構成する項目のうち検索依頼データに含まれる第2項目の構成要素にもとづいてクラスタリングし、複数区分に分類した第2分類データを作成するステップと、第2分類データを構成する各区分毎に、当該区分に分類された複数の文書データそれぞれにおける第2項目の構成要素のうち、所定の関連条件を満たす第2文書構成要素を抽出するステップと、第1文書構成要素をそれぞれ該当区分毎に表示する第1表示領域と、第2文書構成要素をそれぞれ該当区分毎に表示する第2表示領域と、第1分類データを構成する各区分と第2分類データを構成する各区分との組み合わせが一意に定められる第3表示領域とを含むデータマップを作成するステップと、第1表示領域と、第2表示領域と、第3表示領域とを含むデータマップを表示するステップと、第3表示領域に、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された文書データに関係する所定の文書データ関係情報を、第1分類データを構成する各区分と第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示するステップとを実行させるためのプログラムである。
次に、本発明の第1の具体的実施例について説明する。
以下に説明する第1の実施例は、上述した一実施の形態に対応するものである。以下に、第1の実施例におけるマップ作成処理を図8を参照して説明する。
図11は、第1の実施例において作成される二次元データマップ情報にもとづいて表示された二次元データマップを示す説明図である。
この例では、文書データDB20に、文書データとして、公開特許公報などの特許文献を示す特許文献データが複数記憶されているものとする。また、この例では、検索要求情報として、ユーザAによって管理されているユーザ端末30Aから、検索キーワード「水素エネルギーを用いた内燃機関」、縦軸項目情報「発明が解決しようとする課題」、横軸項目情報「課題を解決するための手段」が通信ネットワーク40を介して送信されてきたものとする。
マップ作成処理において、先ず、検索要求情報受付部17は、ユーザ端末30Aから通信ネットワーク40を介して検索要求情報を受信し、データマップ作成要求を受け付ける(ステップS201,S202参照)。
検索要求情報を受信すると、検索処理部18は、文書データDB20に登録されている複数の特許文献データから、検索キーワード「水素エネルギーを用いた内燃機関」にもとづく所定の検索条件を満たす特許文献データを抽出する(ステップS203参照)。ここでは、特許文献データが140件に絞り込まれたものとする(図11の表示領域56参照)。
検索キーワードによる絞込み処理を行うと、検索処理部18は、ステップS203にて抽出された140件の特許文献データを、項目「発明が解決しようとする課題」についてクラスタリングし、5区分に分類(図11の表示領域57参照)した第1分類データを作成する(ステップS204参照)。
ここでは、5区分のカテゴリのうち1区分目に32件、2区分目に31件、3区分目に16件、4区分目に29件、5区分目に32件の特許文献データが分類されたものとする(図11の表示領域57参照)。
次に、検索処理部18は、項目「発明が解決しようとする課題」についての項目インデックスを用いて、第1分類データを構成する各区分毎に、所定の関連条件を満たす文書構成要素である第1文書構成要素を抽出する(ステップS205参照)。
ここでは、「各区分に分類された複数の特許文献データにおける項目「発明が解決しようとする課題」についてのウエイト値の平均値が高い上位8個の文書構成要素」が「第1文書構成要素」として抽出されたものとする(図11の表示領域52参照)。
次いで、検索処理部18は、ステップS203にて抽出された140件の特許文献データを、項目「課題を解決するための手段」についてクラスタリングし、5区分に分類(図11の表示領域58参照)した第2分類データを作成する(ステップS206参照)。
ここでは、5区分のカテゴリのうち1区分目に31件、2区分目に30件、3区分目に24件、4区分目に24件、5区分目に31件の特許文献データが分類されたものとする(図11の表示領域58参照)。
次に、検索処理部18は、項目「課題を解決するための手段」についての項目インデックスを用いて、第2分類データを構成する各区分毎に、所定の関連条件を満たす文書構成要素である第2文書構成要素を抽出する(ステップS207参照)。
ここでは、「各区分に分類された複数の特許文献データにおける項目「課題を解決するための手段」についてのウエイト値の平均値が高い上位7個の文書構成要素」が「第2文書構成要素」として抽出されたものとする(図11の表示領域54参照)。
次いで、データマップ作成部19は、検索処理部18による検索処理やクラスタリング処理などの結果に応じて、二次元データマップ情報を作成する(ステップS208参照)。
データマップ作成部19は、ステップS208にて、縦軸項目情報表示領域51に縦軸項目情報を示す「発明が解決しようとする課題」が表示され、横軸項目情報表示領域53に横軸項目情報を示す「課題を解決するための手段」が表示され、第1文書構成要素表示領域52にステップS205にて抽出された「部材」や「ドア」などの第1文書構成要素が各区分毎に区分けされて表示され、第2文書構成要素表示領域54にステップS207にて抽出された「水晶」や「カセット」などの第2文書構成要素が各区分毎に区分けされて表示されるように、各表示領域と各表示情報とを対応付けした二次元データマップ情報を作成する処理を行う。
また、データマップ作成部19は、ステップS208にて、文書データ関係情報表示領域55における各二次元表示領域に、それぞれ、対応する第1分類データを構成する区分と、対応する第2分類データを構成する区分との双方に分類された特許文献データの数である二次元分類数が表示されるように、各二次元表示領域と各二次元分類数とを対応付けした二次元データマップ情報を作成する処理を行う。
さらに、データマップ作成部19は、ステップS208にて、文書データ総数表示領域56にステップS203によって抽出された特許文献データの数である「140」が表示され、第1分類数表示領域57に第1分類データを構成する各区分に分類された特許文献データの数が区分毎にそれぞれ表示され、第2分類数表示領域58に第2分類データを構成する各区分に分類された特許文献データの数が区分毎にそれぞれ表示されるように、各表示領域と各表示情報とを対応付けした二次元データマップ情報を作成する処理を行う。
データマップ作成部19によって二次元データマップ情報が作成されると、データマップ作成サーバ10のデータ通信部13は、二次元データマップ情報を、通信ネットワーク40を介してユーザ端末30Aに送信する(ステップS209参照)。
データマップ作成サーバ10からの二次元データマップ情報を受信すると、ユーザ端末30Aは、自己が備える表示装置の表示画面に、図11に示すような二次元データマップを表示する。
上記のようにして、データマップ作成サーバ10によって二次元データマップ情報が作成され、二次元データマップ情報にもとづく二次元データマップ(特許文献マップ)がユーザ端末30Aの表示装置の表示画面に表示される。
なお、本実施例において、検索キーワードにIPCを用いるようにしてもよい。また、本実施例において、文書データ関係情報表示領域55における各二次元表示領域に、それぞれ、対応する第1分類データを構成する区分と、対応する第2分類データを構成する区分との双方に分類された各特許文献データの公開番号(あるいは出願番号、特許番号など)を表示するようにしてもよい。
次に、本発明の第2の具体的実施例について説明する。
以下に説明する第2の実施例は、上述した一実施の形態に対応するものである。以下に、第2の実施例におけるマップ作成処理を図8を参照して説明する。
図12は、第2の実施例において作成される二次元データマップ情報にもとづいて表示された二次元データマップを示す説明図である。
この例では、文書データDB20に、文書データとして、研究者の研究内容や研究結果などの研究者に関する情報を示す研究者データが複数記憶されているものとする。「研究者データ」は、例えば、研究者の氏名、研究者の所属(会社、研究所、大学など)、研究者が行っている研究の分野、研修者の業績を示す研究業績、研究者が行っている研究の概要を示す研究概要などの複数の項目によって構成されている。また、この例では、検索要求情報として、ユーザAによって管理されているユーザ端末30Aから、検索キーワード「大学、理工学部」、縦軸項目情報「研究業績」、横軸項目情報「研究概要」が通信ネットワーク40を介して送信されてきたものとする。
マップ作成処理において、先ず、検索要求情報受付部17は、ユーザ端末30Aから通信ネットワーク40を介して検索要求情報を受信し、データマップ作成要求を受け付ける(ステップS201,S202参照)。
検索要求情報を受信すると、検索処理部18は、文書データDB20に登録されている複数の研究者データから、検索キーワード「大学、理工学部」にもとづく所定の検索条件を満たす研究者データを抽出する(ステップS203参照)。ここでは、研究者データが161件に絞り込まれたものとする(図12の表示領域56参照)。
検索キーワードによる絞込み処理を行うと、検索処理部18は、ステップS203にて抽出された161件の研究者データを、項目「研究業績」についてクラスタリングし、5区分に分類(図12の表示領域57参照)した第1分類データを作成する(ステップS204参照)。
ここでは、5区分のカテゴリのうち1区分目に32件、2区分目に22件、3区分目に46件、4区分目に33件、5区分目に28件の研究者データが分類されたものとする(図12の表示領域57参照)。
次に、検索処理部18は、項目「研究業績」についての項目インデックスを用いて、第1分類データを構成する各区分毎に、所定の関連条件を満たす文書構成要素である第1文書構成要素を抽出する(ステップS205参照)。
ここでは、「各区分に分類された複数の研究者データにおける項目「研究業績」についてのウエイト値の平均値が高い上位8個の文書構成要素」が「第1文書構成要素」として抽出されたものとする(図12の表示領域52参照)。
次いで、検索処理部18は、ステップS203にて抽出された161件の研究者データを、項目「研究概要」についてクラスタリングし、5区分に分類(図12の表示領域58参照)した第2分類データを作成する(ステップS206参照)。
ここでは、5区分のカテゴリのうち1区分目に27件、2区分目に35件、3区分目に51件、4区分目に29件、5区分目に19件の研究者データが分類されたものとする(図12の表示領域58参照)。
次に、検索処理部18は、項目「研究概要」についての項目インデックスを用いて、第2分類データを構成する各区分毎に、所定の関連条件を満たす文書構成要素である第2文書構成要素を抽出する(ステップS207参照)。
ここでは、「各区分に分類された複数の研究者データにおける項目「研究概要」についてのウエイト値の平均値が高い上位7個の文書構成要素」が「第2文書構成要素」として抽出されたものとする(図12の表示領域54参照)。
次いで、データマップ作成部19は、検索処理部18による検索処理やクラスタリング処理などの結果に応じて、二次元データマップ情報を作成する(ステップS208参照)。
データマップ作成部19は、ステップS208にて、縦軸項目情報表示領域51に縦軸項目情報を示す「研究業績」が表示され、横軸項目情報表示領域53に横軸項目情報を示す「研究概要」が表示され、第1文書構成要素表示領域52にステップS205にて抽出された「combustion」や「燃焼」などの第1文書構成要素が各区分毎に区分けされて表示され、第2文書構成要素表示領域54にステップS207にて抽出された「核」や「プラズマ」などの第2文書構成要素が各区分毎に区分けされて表示されるように、各表示領域と各表示情報とを対応付けした二次元データマップ情報を作成する処理を行う。
また、データマップ作成部19は、ステップS208にて、文書データ関係情報表示領域55における各二次元表示領域に、それぞれ、対応する第1分類データを構成する区分と、対応する第2分類データを構成する区分との双方に分類された文書データの数である二次元分類数が表示されるように、各二次元表示領域と各二次元分類数とを対応付けした二次元データマップ情報を作成する処理を行う。
さらに、データマップ作成部19は、ステップS208にて、文書データ総数表示領域56にステップS203によって抽出された研究者データの数である「161」が表示され、第1分類数表示領域57に第1分類データを構成する各区分に分類された研究者データの数が区分毎にそれぞれ表示され、第2分類数表示領域58に第2分類データを構成する各区分に分類された研究者データの数が区分毎にそれぞれ表示されるように、各表示領域と各表示情報とを対応付けした二次元データマップ情報を作成する処理を行う。
データマップ作成部19によって二次元データマップ情報が作成されると、データマップ作成サーバ10のデータ通信部13は、二次元データマップ情報を、通信ネットワーク40を介してユーザ端末30Aに送信する(ステップS209参照)。
データマップ作成サーバ10からの二次元データマップ情報を受信すると、ユーザ端末30Aは、自己が備える表示装置の表示画面に、図12に示すような二次元データマップ(研究者マップ)を表示する。
上記のようにして、データマップ作成サーバ10によって二次元データマップ情報が作成され、二次元データマップ情報にもとづく二次元データマップがユーザ端末30Aの表示装置の表示画面に表示される。
なお、本実施例において、文書データ関係情報表示領域55における各二次元表示領域に、それぞれ、対応する第1分類データを構成する区分と、対応する第2分類データを構成する区分との双方に分類された各研究者データに含まれている研究者の氏名を表示するようにしてもよい。
次に、本発明の第3の具体的実施例について説明する。
以下に説明する第3の実施例は、上述した一実施の形態に対応するものである。以下に、第3の実施例におけるマップ作成処理を図8を参照して説明する。
図13は、第3の実施例において作成される二次元データマップ情報にもとづいて表示された二次元データマップを示す説明図である。
この例では、文書データDB20に、文書データとして、宿泊施設の所在地や営業内容を示す宿泊施設データが複数記憶されているものとする。「宿泊施設データ」は、例えば、宿泊施設の名称、宿泊施設の所在地、宿泊施設の利用価格を示す値段、宿泊施設の利用者が書き込んだ宿泊施設の評価などの複数の項目によって構成されている。また、この例では、検索要求情報として、ユーザAによって管理されているユーザ端末30Aから、検索キーワード「関東」、縦軸項目情報「値段」、横軸項目情報「評価」が通信ネットワーク40を介して送信されてきたものとする。
マップ作成処理において、先ず、検索要求情報受付部17は、ユーザ端末30Aから通信ネットワーク40を介して検索要求情報を受信し、データマップ作成要求を受け付ける(ステップS201,S202参照)。
検索要求情報を受信すると、検索処理部18は、文書データDB20に登録されている複数の宿泊施設データから、検索キーワード「関東」にもとづく所定の検索条件を満たす宿泊施設データを抽出する(ステップS203参照)。ここでは、関東地方に所在地のある宿泊施設の宿泊施設データが抽出され、宿泊施設データが232件に絞り込まれたものとする(図13の表示領域56参照)。
検索キーワードによる絞込み処理を行うと、この例では、検索処理部18は、項目「値段」について作成される第1分類データを構成する各区分に割り当てる数値範囲情報を決定する。ここでは、1区分目に「5000円未満」、2区分目に「5000円以上、1万円未満」、3区分目に「1万円以上、2万円未満」、4区分目に「2万円以上、3万円未満」、5区分目に「3万円以上」の数値範囲情報が割り当てられたものとする。なお、この例では、決定された数値範囲情報は、縦軸項目数値範囲表示領域52に表示される(図13参照)。縦軸項目数値範囲表示領域59は、縦軸項目について決定された数値範囲情報を各区分毎に区分けして表示する表示領域である。「数値範囲情報」は、第1分類データを構成する各区分に分類された文書データ群の特徴を各区分毎に示す第1区分特徴情報の一例である。
上記のように、項目情報が「値段」、「年齢」、「売り上げ」などの数値範囲に区分けすることが可能なものである場合には、分類データを作成する前に、分類データを構成する各区分に割り当てる数値範囲情報を決定するようにしてもよい。なお、各区分に割り当てる数値範囲情報は、例えば、あらかじめ定められた範囲を設定するようにしたり、ユーザによって設定されるようにしてもよい。また、各区分に割り当てる数値範囲情報を、文書データにおける該当項目を検索することで最高値と最低値を特定して区分数に等分した範囲に設定するなど、自動的に決定して設定するようにしてもよい。
次に、ステップS203にて抽出された232件の宿泊施設データを、項目「値段」についてクラスタリングし、数値範囲情報が示す各数値範囲に区分けされた5区分の何れかに分類(図13の表示領域57参照)した第1分類データを作成する(ステップS204参照)。なお、この例では、項目「値段」についての項目インデックスを用いて、各宿泊施設データにおける項目「値段」に記載されている価格が含まれている数値範囲が割り当てられた区分に分類される。
ここでは、5区分のカテゴリのうち1区分目に51件、2区分目に49件、3区分目に40件、4区分目に48件、5区分目に44件の宿泊施設データが分類されたものとする(図13の表示領域57参照)。
この例では、項目「値段」について作成される第1分類データを構成する各区分に割り当てる数値範囲情報が決定され、決定された数値範囲情報が縦軸項目数値範囲表示領域59に表示されるため、表示領域52は設けられず、第1文書構成要素の抽出処理(ステップS205参照)は実行されない。
次いで、検索処理部18は、ステップS203にて抽出された232件の宿泊施設データを、項目「評価」についてクラスタリングし、5区分に分類(図13の表示領域58参照)した第2分類データを作成する(ステップS206参照)。
ここでは、5区分のカテゴリのうち1区分目に73件、2区分目に29件、3区分目に51件、4区分目に36件、5区分目に43件の宿泊施設データが分類されたものとする(図13の表示領域58参照)。
次に、検索処理部18は、項目「評価」についての項目インデックスを用いて、第2分類データを構成する各区分毎に、所定の関連条件を満たす文書構成要素である第2文書構成要素を抽出する(ステップS207参照)。
ここでは、「各区分に分類された複数の宿泊施設データにおける項目「評価」についてのウエイト値の平均値が高い上位7個の文書構成要素」が「第2文書構成要素」として抽出されたものとする(図13の表示領域54参照)。
次いで、データマップ作成部19は、検索処理部18による検索処理やクラスタリング処理などの結果に応じて、二次元データマップ情報を作成する(ステップS208参照)。
データマップ作成部19は、ステップS208にて、縦軸項目情報表示領域51に縦軸項目情報を示す「値段」が表示され、横軸項目情報表示領域53に横軸項目情報を示す「評価」が表示され、縦軸項目数値範囲表示領域59に「5000円未満」や「5000円以上、1万円未満」などの数値範囲情報が各区分毎に区分けされて表示され、第2文書構成要素表示領域54にステップS207にて抽出された「山」や「温泉」などの第2文書構成要素が各区分毎に区分けされて表示されるように、各表示領域と各表示情報とを対応付けした二次元データマップ情報を作成する処理を行う。
また、データマップ作成部19は、ステップS208にて、文書データ関係情報表示領域55における各二次元表示領域に、それぞれ、対応する第1分類データを構成する区分と、対応する第2分類データを構成する区分との双方に分類された宿泊施設データの数である二次元分類数が表示されるように、各二次元表示領域と各二次元分類数とを対応付けした二次元データマップ情報を作成する処理を行う。
さらに、データマップ作成部19は、ステップS208にて、文書データ総数表示領域56にステップS203によって抽出された宿泊施設データの数である「232」が表示され、第1分類数表示領域57に第1分類データを構成する各区分に分類された宿泊施設データの数が区分毎にそれぞれ表示され、第2分類数表示領域58に第2分類データを構成する各区分に分類された宿泊施設データの数が区分毎にそれぞれ表示されるように、各表示領域と各表示情報とを対応付けした二次元データマップ情報を作成する処理を行う。
データマップ作成部19によって二次元データマップ情報が作成されると、データマップ作成サーバ10のデータ通信部13は、二次元データマップ情報を、通信ネットワーク40を介してユーザ端末30Aに送信する(ステップS209参照)。
データマップ作成サーバ10からの二次元データマップ情報を受信すると、ユーザ端末30Aは、自己が備える表示装置の表示画面に、図13に示すような二次元データマップ(宿泊施設マップ)を表示する。
上記のようにして、データマップ作成サーバ10によって二次元データマップ情報が作成され、二次元データマップ情報にもとづく二次元データマップがユーザ端末30Aの表示装置の表示画面に表示される。なお、上記の例では、2つの項目のうちの一方を「数値範囲情報」に従って区分けするようにしていたが、2つの項目がともに数値範囲に区分け可能な項目である場合には、双方の項目を「数値範囲情報」に従って区分けするようにしてもよい。
なお、本実施例において、文書データ関係情報表示領域55における各二次元表示領域に、それぞれ、対応する第1分類データを構成する区分と、対応する第2分類データを構成する区分との双方に分類された各宿泊施設データに含まれている宿泊施設の名称を表示するようにしてもよい。
本発明によれば、特許文献データ、研究者データ、宿泊施設データ、電子カルテ、判例データ、企業データ、製品データなどの文書データの傾向を容易に捉えることが可能なデータマップを作成するデータマップ作成サーバやデータマップ作成システムに適用するのに有用である。
本発明の一実施の形態におけるデータマップ作成システムの構成例を示すブロック図である。 データマップ作成サーバの構成例を示すブロック図である。 文書データDBにおける文書データの格納状態を説明するための説明図である。 マップ作成準備処理の例を示すフローチャートである。 キーワードリスト作成処理の概要を示す模式図である。 項目インデックス作成処理の概要を示す模式図である。 転置インデックス作成処理の概要を示す模式図である。 マップ作成処理の例を示すフローチャートである。 二次元データマップの例を示す説明図である。 他の実施の形態におけるマップ作成処理の例を示すフローチャートである。 第1の実施例における二次元データマップの例を示す説明図である。 第2の実施例における二次元データマップの例を示す説明図である。 第3の実施例における二次元データマップの例を示す説明図である。
符号の説明
10 データマップ作成サーバ
11 データ入力部
12 データ表示部
13 データ通信部
14 キーワードリスト作成部
15 ウエイト処理部
16 転置インデックス作成部
17 検索要求情報受付部17
18 検索処理部
19 データマップ作成部
20 文書データDB
21 マップ作成利用データDB
30A,30B,・・・,30N ユーザ端末
40 通信ネットワーク
100 データマップ作成システム

Claims (21)

  1. 複数の項目から成る複数の多項目データをクラスタリングによって分類したデータマップを作成するデータマップ作成サーバであって、
    前記複数の多項目データを記憶する多項目データ記憶手段と、
    通信ネットワークを介して、前記多項目データを構成する複数の項目に含まれる第1項目と、前記多項目データを構成する複数の項目に含まれ前記第1項目とは異なる第2項目とを含む検索依頼データを受信する検索依頼受信手段と、
    前記多項目データ記憶手段に記憶された複数の多項目データを、当該複数の多項目データを構成する項目のうち前記検索依頼データに含まれる前記第1項目の構成要素にもとづいてクラスタリングし、複数区分に分類した第1分類データを作成する第1分類データ作成手段と、
    前記多項目データ記憶手段に記憶された複数の多項目データを、当該複数の多項目データを構成する項目のうち前記検索依頼データに含まれる前記第2項目の構成要素にもとづいてクラスタリングし、複数区分に分類した第2分類データを作成する第2分類データ作成手段と、
    前記第1分類データを構成する各区分における多項目データの特徴を示す第1区分特徴情報をそれぞれ該当区分毎に表示する第1表示領域と、前記第2分類データを構成する各区分における多項目データの特徴を示す第2区分特徴情報をそれぞれ該当区分毎に表示する第2表示領域と、前記第1分類データを構成する各区分と前記第2分類データを構成する各区分との組み合わせが一意に定められる第3表示領域とを含むデータマップを作成するデータマップ作成手段と、
    前記データマップ作成手段によって作成された前記データマップを、通信ネットワークを介して送信するデータマップ送信手段と、を備え、
    前記第3表示領域は、前記第1分類データを構成する区分と前記第2分類データを構成する区分との双方に分類された多項目データに関係する所定の多項目データ関係情報を、前記第1分類データを構成する各区分と前記第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示する表示領域である
    ことを特徴とするデータマップ作成サーバ。
  2. 第1分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける前記第1項目の構成要素のうち、所定の関連条件を満たす構成要素を抽出する第1区分構成要素抽出手段と、
    第2分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける前記第2項目の構成要素のうち、所定の関連条件を満たす構成要素を抽出する第2区分構成要素抽出手段と、を備え、
    データマップ作成手段は、前記第1区分構成要素抽出手段が抽出した構成要素を第1区分特徴情報として用いるとともに、前記第2区分構成要素抽出手段が抽出した構成要素を第2区分特徴情報として用いる
    請求項1記載のデータマップ作成サーバ。
  3. 検索依頼データは、キーデータを含み、
    前記検索依頼データに含まれるキーデータにもとづいて、多項目データ記憶手段に記憶された複数の多項目データから、所定の抽出条件を満たす複数の多項目データを抽出するキーデータ検索抽出手段を備え、
    第1分類データ作成手段は、前記キーデータ検索抽出手段が抽出した複数の多項目データをクラスタリングして第1分類データを作成し、
    第2分類データ作成手段は、前記キーデータ検索抽出手段が抽出した複数の多項目データをクラスタリングして第2分類データを作成する
    請求項1または請求項2記載のデータマップ作成サーバ。
  4. データマップ作成手段は、第1分類データの名称として第1項目の項目名を表示する第4表示領域と、第2分類データの名称として第2項目の項目名を表示する第5表示領域とを含むデータマップを作成する
    請求項1から請求項3のうちいずれかに記載のデータマップ作成サーバ。
  5. 多項目データ関係情報は、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データの数を示す分類数情報、または、当該双方に分類された多項目データを特定するための多項目データ特定情報である
    請求項1から請求項4のうちいずれかに記載のデータマップ作成サーバ。
  6. データマップ送信手段によってデータマップが送信されたあと、通信ネットワークを介して、検索依頼データを第1項目から、多項目データを構成する複数の項目に含まれ前記第1項目および第2項目とは異なる第3項目に変更する変更依頼データを受信する検索変更依頼受信手段と、
    前記変更依頼データに応じて、多項目データ記憶手段に記憶された複数の多項目データを、当該複数の多項目データを構成する項目のうち前記変更依頼データに含まれる前記第3項目の構成要素にもとづいてクラスタリングし、複数区分に分類した第3分類データを作成する第3分類データ作成手段とを備え、
    データマップ作成手段は、第1表示領域と第3表示領域とを、前記第3分類データを構成する各区分における多項目データの特徴を示す第3区分特徴情報をそれぞれ該当区分毎に表示する第1表示領域と、前記第3分類データを構成する各区分と第2分類データを構成する各区分との組み合わせが一意に定められる第3表示領域とに変更したデータマップを作成し、
    変更した第3表示領域は、前記第3分類データを構成する区分と前記第2分類データを構成する区分との双方に分類された多項目データに関係する所定の多項目データ関係情報を、前記第3分類データを構成する各区分と前記第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示する表示領域である
    請求項1から請求項5のうちいずれかに記載のデータマップ作成サーバ。
  7. 第3分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける前記第3項目の構成要素のうち、所定の関連条件を満たす構成要素を抽出する第3区分構成要素抽出手段を備え、
    データマップ作成手段は、前記第3区分構成要素抽出手段が抽出した構成要素を第3区分特徴情報として用いる
    請求項6記載のデータマップ作成サーバ。
  8. 複数の項目から成る複数の多項目データをクラスタリングによって分類したデータマップを作成するためのデータマップ作成方法であって、
    前記多項目データを構成する複数の項目に含まれる第1項目と、前記多項目データを構成する複数の項目に含まれ前記第1項目とは異なる第2項目とを含む検索依頼データを受け付け、
    前記複数の多項目データを、当該複数の多項目データを構成する項目のうち前記検索依頼データに含まれる前記第1項目の構成要素にもとづいてクラスタリングし、複数区分に分類した第1分類データを作成し、
    前記複数の多項目データを、当該複数の多項目データを構成する項目のうち前記検索依頼データに含まれる前記第2項目の構成要素にもとづいてクラスタリングし、複数区分に分類した第2分類データを作成し、
    前記第1分類データを構成する各区分における多項目データの特徴を示す第1区分特徴情報をそれぞれ該当区分毎に表示する第1表示領域と、前記第2分類データを構成する各区分における多項目データの特徴を示す第2区分特徴情報をそれぞれ該当区分毎に表示する第2表示領域と、前記第1分類データを構成する各区分と前記第2分類データを構成する各区分との組み合わせが一意に定められる第3表示領域とを含むデータマップを作成し、
    前記第1表示領域と、前記第2表示領域と、前記第3表示領域とを含む前記データマップを表示し、
    前記第3表示領域に、前記第1分類データを構成する区分と前記第2分類データを構成する区分との双方に分類された多項目データに関係する所定の多項目データ関係情報を、前記第1分類データを構成する各区分と前記第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示する
    ことを特徴とするデータマップ作成方法。
  9. 第1分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第1項目の構成要素のうち、所定の関連条件を満たす第1区分構成要素を抽出し、
    第2分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第2項目の構成要素のうち、所定の関連条件を満たす第2区分構成要素を抽出し、
    前記第1区分構成要素を第1区分特徴情報として用いて第1表示領域に表示するとともに、前記第2区分構成要素を第2区分特徴情報として用いて第2表示領域に表示する
    請求項8記載のデータマップ作成方法。
  10. キーデータを含む検索依頼データを受け付け、
    前記検索依頼データに含まれるキーデータにもとづいて、多項目データ記憶手段に記憶された複数の多項目データから、所定の抽出条件を満たす複数の多項目データを抽出し、
    抽出した複数の多項目データをクラスタリングして第1分類データを作成するとともに、当該抽出した複数の多項目データをクラスタリングして第2分類データを作成する
    請求項8または請求項9記載のデータマップ作成方法。
  11. 第1分類データの名称として第1項目の項目名を表示する第4表示領域と、第2分類データの名称として第2項目の項目名を表示する第5表示領域とを含むデータマップを作成する
    請求項8から請求項10のうちいずれかに記載のデータマップ作成方法。
  12. 多項目データ関係情報は、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データの数を示す分類数情報、または、当該双方に分類された多項目データを特定するための多項目データ特定情報である
    請求項8から請求項11のうちいずれかに記載のデータマップ作成方法。
  13. データマップが作成されたあと、検索依頼データを第1項目から、多項目データを構成する複数の項目に含まれ前記第1項目および第2項目とは異なる第3項目に変更する変更依頼データを受け付け、
    前記変更依頼データに応じて、複数の多項目データを、当該複数の多項目データを構成する項目のうち前記変更依頼データに含まれる前記第3項目の構成要素にもとづいてクラスタリングして、複数区分に分類した第3分類データを作成し、
    前記第1表示領域と前記第3表示領域とを、前記第3分類データを構成する各区分における多項目データの特徴を示す第3区分特徴情報をそれぞれ該当区分毎に表示する第1表示領域と、前記第3分類データを構成する各区分と第2分類データを構成する各区分との組み合わせが一意に定められる第3表示領域とに変更したデータマップを作成し、
    変更した前記第1表示領域と、前記第2表示領域と、変更した前記第3表示領域とを含む前記データマップを表示し、
    前記変更した第3表示領域に、前記第3分類データを構成する区分と前記第2分類データを構成する区分との双方に分類された多項目データに関係する所定の多項目データ関係情報を、前記第3分類データを構成する各区分と前記第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示する
    請求項6から請求項9のうちいずれかに記載のデータマップ作成方法。
  14. 第3分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第3項目の構成要素のうち、所定の関連条件を満たす第3区分構成要素を抽出し、
    抽出した前記第3区分構成要素を第3区分特徴情報として用いて第1表示領域に表示する
    請求項13記載のデータマップ作成方法。
  15. 複数の項目から成る複数の多項目データをクラスタリングによって分類したデータマップを作成させるためのデータマップ作成プログラムであって、
    コンピュータに、
    前記多項目データを構成する複数の項目に含まれる第1項目と、前記多項目データを構成する複数の項目に含まれ前記第1項目とは異なる第2項目とを含む検索依頼データを受け付けるステップと、
    前記複数の多項目データを、当該複数の多項目データを構成する項目のうち前記検索依頼データに含まれる前記第1項目の構成要素にもとづいてクラスタリングし、複数区分に分類した第1分類データを作成するステップと、
    前記複数の多項目データを、当該複数の多項目データを構成する項目のうち前記検索依頼データに含まれる前記第2項目の構成要素にもとづいてクラスタリングし、複数区分に分類した第2分類データを作成するステップと、
    前記第1分類データを構成する各区分における多項目データの特徴を示す第1区分特徴情報をそれぞれ該当区分毎に表示する第1表示領域と、前記第2分類データを構成する各区分における多項目データの特徴を示す第2区分特徴情報をそれぞれ該当区分毎に表示する第2表示領域と、前記第1分類データを構成する各区分と前記第2分類データを構成する各区分との組み合わせが一意に定められる第3表示領域とを含むデータマップを作成するステップと、
    前記第1表示領域と、前記第2表示領域と、前記第3表示領域とを含む前記データマップを表示するステップと、
    前記第3表示領域に、前記第1分類データを構成する区分と前記第2分類データを構成する区分との双方に分類された多項目データに関係する所定の多項目データ関係情報を、前記第1分類データを構成する各区分と前記第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示するステップとを
    実行させるためのデータマップ作成プログラム。
  16. コンピュータに、
    さらに、第1分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第1項目の構成要素のうち、所定の関連条件を満たす第1区分構成要素を抽出するステップと、
    第2分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第2項目の構成要素のうち、所定の関連条件を満たす第2区分構成要素を抽出するステップと、
    前記第1区分構成要素を第1区分特徴情報として用いて第1表示領域に表示するとともに、前記第2区分構成要素を第2区分特徴情報として用いて第2表示領域に表示するステップとを
    実行させるための請求項15記載のデータマップ作成プログラム。
  17. コンピュータに、
    さらに、キーデータを含む検索依頼データを受け付けるステップと、
    前記検索依頼データに含まれるキーデータにもとづいて、多項目データ記憶手段に記憶された複数の多項目データから、所定の抽出条件を満たす複数の多項目データを抽出するステップと、
    抽出した複数の多項目データをクラスタリングして第1分類データを作成するとともに、当該抽出した複数の多項目データをクラスタリングして第2分類データを作成するステップとを
    実行させるための請求項15または請求項16記載のデータマップ作成プログラム。
  18. コンピュータに、
    さらに、第1分類データの名称として第1項目の項目名を表示する第4表示領域と、第2分類データの名称として第2項目の項目名を表示する第5表示領域とを含むデータマップを作成するステップを
    実行させるための請求項15から請求項17のうちいずれかに記載のデータマップ作成プログラム。
  19. 多項目データ関係情報は、第1分類データを構成する区分と第2分類データを構成する区分との双方に分類された多項目データの数を示す分類数情報、または、当該双方に分類された多項目データを特定するための多項目データ特定情報である
    請求項15から請求項18のうちいずれかに記載のデータマップ作成プログラム。
  20. コンピュータに、
    さらに、データマップが作成されたあと、検索依頼データを第1項目から、多項目データを構成する複数の項目に含まれ前記第1項目および第2項目とは異なる第3項目に変更する変更依頼データを受け付けるステップと、
    前記変更依頼データに応じて、複数の多項目データを、当該複数の多項目データを構成する項目のうち前記変更依頼データに含まれる前記第3項目の構成要素にもとづいてクラスタリングして、複数区分に分類した第3分類データを作成するステップと、
    前記第1表示領域と前記第3表示領域とを、前記第3分類データを構成する各区分における多項目データの特徴を示す第3区分特徴情報をそれぞれ該当区分毎に表示する第1表示領域と、前記第3分類データを構成する各区分と第2分類データを構成する各区分との組み合わせが一意に定められる第3表示領域とに変更したデータマップを作成するステップと、
    変更した前記第1表示領域と、前記第2表示領域と、変更した前記第3表示領域とを含む前記データマップを表示するステップと、
    前記変更した第3表示領域に、前記第3分類データを構成する区分と前記第2分類データを構成する区分との双方に分類された多項目データに関係する所定の多項目データ関係情報を、前記第3分類データを構成する各区分と前記第2分類データを構成する各区分との組み合わせ毎にそれぞれ表示するステップとを
    実行させるための請求項15から請求項19のうちいずれかに記載のデータマップ作成プログラム。
  21. コンピュータに、
    さらに、第3分類データを構成する各区分毎に、当該区分に分類された複数の多項目データそれぞれにおける第3項目の構成要素のうち、所定の関連条件を満たす第3区分構成要素を抽出するステップと、
    抽出した前記第3区分構成要素を第3区分特徴情報として用いて第1表示領域に表示するステップとを
    実行させるための請求項20記載のデータマップ作成プログラム。
JP2005025811A 2005-02-02 2005-02-02 データマップ作成サーバ、およびデータマップ作成プログラム Expired - Fee Related JP4667889B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005025811A JP4667889B2 (ja) 2005-02-02 2005-02-02 データマップ作成サーバ、およびデータマップ作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005025811A JP4667889B2 (ja) 2005-02-02 2005-02-02 データマップ作成サーバ、およびデータマップ作成プログラム

Publications (2)

Publication Number Publication Date
JP2006215675A true JP2006215675A (ja) 2006-08-17
JP4667889B2 JP4667889B2 (ja) 2011-04-13

Family

ID=36978883

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005025811A Expired - Fee Related JP4667889B2 (ja) 2005-02-02 2005-02-02 データマップ作成サーバ、およびデータマップ作成プログラム

Country Status (1)

Country Link
JP (1) JP4667889B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198111A (ja) * 2010-03-19 2011-10-06 Toshiba Corp 特徴語抽出装置及びプログラム
WO2015029258A1 (ja) * 2013-09-02 2015-03-05 富士通株式会社 情報検索処理プログラム、装置、および方法
WO2015125810A1 (ja) * 2014-02-19 2015-08-27 株式会社 東芝 情報処理装置および情報処理方法
JP2021520563A (ja) * 2018-04-23 2021-08-19 ノボタルスキー,マーク,エス. グラフィカルユーザインタフェイスを備えるシステムパフォーマンスモニタ
KR20230088844A (ko) 2020-12-18 2023-06-20 미쓰비시덴키 가부시키가이샤 그래프 표시 장치, 그래프 표시 방법, 및, 기억 매체에 저장된 그래프 표시 프로그램

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221435A (ja) * 1995-02-14 1996-08-30 Hitachi Ltd 特許マップ生成方法
JPH08320881A (ja) * 1995-05-25 1996-12-03 Tokyo Gas Co Ltd 文書検索システム
JP2001092825A (ja) * 1999-09-17 2001-04-06 Nec Corp 情報処理装置および情報処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221435A (ja) * 1995-02-14 1996-08-30 Hitachi Ltd 特許マップ生成方法
JPH08320881A (ja) * 1995-05-25 1996-12-03 Tokyo Gas Co Ltd 文書検索システム
JP2001092825A (ja) * 1999-09-17 2001-04-06 Nec Corp 情報処理装置および情報処理方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198111A (ja) * 2010-03-19 2011-10-06 Toshiba Corp 特徴語抽出装置及びプログラム
WO2015029258A1 (ja) * 2013-09-02 2015-03-05 富士通株式会社 情報検索処理プログラム、装置、および方法
JPWO2015029258A1 (ja) * 2013-09-02 2017-03-02 富士通株式会社 情報検索処理プログラム、装置、および方法
WO2015125810A1 (ja) * 2014-02-19 2015-08-27 株式会社 東芝 情報処理装置および情報処理方法
JPWO2015125810A1 (ja) * 2014-02-19 2017-03-30 帝人株式会社 情報処理装置および情報処理方法
US11043287B2 (en) 2014-02-19 2021-06-22 Teijin Limited Information processing apparatus and information processing method
JP2021520563A (ja) * 2018-04-23 2021-08-19 ノボタルスキー,マーク,エス. グラフィカルユーザインタフェイスを備えるシステムパフォーマンスモニタ
JP6994587B2 (ja) 2018-04-23 2022-01-14 ノボタルスキー,マーク,エス. グラフィカルユーザインタフェイスを備えるシステムパフォーマンスモニタ
KR20230088844A (ko) 2020-12-18 2023-06-20 미쓰비시덴키 가부시키가이샤 그래프 표시 장치, 그래프 표시 방법, 및, 기억 매체에 저장된 그래프 표시 프로그램

Also Published As

Publication number Publication date
JP4667889B2 (ja) 2011-04-13

Similar Documents

Publication Publication Date Title
US20230020599A1 (en) Method and system for sentiment analysis of information
Chen et al. Collabseer: a search engine for collaboration discovery
US8683389B1 (en) Method and apparatus for dynamic information visualization
JP5431727B2 (ja) 関連性判定方法、情報収集方法、オブジェクト組織化方法及び検索システム
US20170235820A1 (en) System and engine for seeded clustering of news events
CA2578513C (en) System and method for online information analysis
JP3717808B2 (ja) 情報検索システム
CN108885624B (zh) 信息推荐系统及方法
Hamborg et al. Bias-aware news analysis using matrix-based news aggregation
US20110055379A1 (en) Content-based and time-evolving social network analysis
US20040230570A1 (en) Search processing method and apparatus
KR20140016159A (ko) 자원 효율적인 문서 검색
Serrano Neural networks in big data and Web search
KR101088710B1 (ko) 온라인 커뮤니티 사용자 간 상호작용 기반 온라인 커뮤니티 포스트 검색 방법, 장치 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체
CA2956627A1 (en) System and engine for seeded clustering of news events
JP4667889B2 (ja) データマップ作成サーバ、およびデータマップ作成プログラム
Jiang et al. A comprehensive methodology for discovering semantic relationships among geospatial vocabularies using oceanographic data discovery as an example
Al Mostakim et al. Bangla content categorization using text based supervised learning methods
KR20100013157A (ko) 연관 태그에 기반한 태그 클러스터링 장치 및 그 방법
Hsieh et al. A collaborative desktop tagging system for group knowledge management based on concept space
CN112100330B (zh) 一种基于人工智能技术的主题搜索方法及其系统
KR102041915B1 (ko) 인공지능을 활용한 데이터베이스 모듈 및 이를 이용하는 경제데이터 제공 시스템 및 방법
Liu et al. Review of the development of digital earth research during 1998–2015 based on a bibliometric analysis
US20200226159A1 (en) System and method of generating reading lists
Huang et al. Rough-set-based approach to manufacturing process document retrieval

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100608

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100809

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20100929

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100929

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110111

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140121

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4667889

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees