JP4982672B2 - データマップ作成サーバ、およびデータマップ作成プログラム - Google Patents

データマップ作成サーバ、およびデータマップ作成プログラム Download PDF

Info

Publication number
JP4982672B2
JP4982672B2 JP2006082433A JP2006082433A JP4982672B2 JP 4982672 B2 JP4982672 B2 JP 4982672B2 JP 2006082433 A JP2006082433 A JP 2006082433A JP 2006082433 A JP2006082433 A JP 2006082433A JP 4982672 B2 JP4982672 B2 JP 4982672B2
Authority
JP
Japan
Prior art keywords
map
word
data
posting
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006082433A
Other languages
English (en)
Other versions
JP2007257420A (ja
Inventor
佐千男 廣川
義寛 下司
太樹 和多
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lafla
Original Assignee
Lafla
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lafla filed Critical Lafla
Priority to JP2006082433A priority Critical patent/JP4982672B2/ja
Publication of JP2007257420A publication Critical patent/JP2007257420A/ja
Application granted granted Critical
Publication of JP4982672B2 publication Critical patent/JP4982672B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、複数の文書データに現れる特徴語の関連を表現するデータマップを作成するデータマップ作成サーバ、データマップ作成方法、およびデータマップ作成プログラムに関する。
近年、インターネットの普及により大量の情報が容易に入手可能となり、検索結果についてさらに効率良く絞り込んだり、検索をやり直したり、あるいは、検索結果を分かり易くまとめるための技術が必要とされている。
情報検索方法の一例として、検索要求を表現する最適なキーワードを提示する検索質問拡張の技術が知られている(非特許文献1,2)。また、一件ごとの検索に対応するのではなく、特定の分野を対象とした専門用語集やシソーラスなどを獲得することにより、検索システム側の知識を増やす技術などがある(非特許文献3,4,5)。
このような技術を用いた検索システムは、特に、新しい分野のようにそもそも専門用語が揃っていない分野や、Blogなどの評判情報のように毎日大量の新規文書が作り出される領域では、自動的にそれら新規文書を関連づけて検索する技術が必須である。さらに、確立された分野においても、知識共有のために共通のシソーラス等が必要とされている。
つまり、検索結果の理解を助けるため、クラスタリングや要約や可視化を行う必要がある。また、相互の関係を表示するだけでなく、検索結果の文書や文書集合の内容を表す適当なキーワードを割り当てることが重要である。
土肥広典,青野雅樹,双クラスタリングに基づく検索質問拡張法,電子情報通信学会第2回Webインテリジェンス研究会,IEICE SIG NOTES WI2-2005-18,2005. 新里圭司,鳥澤健太郎,HTML文書からの単語間の上位下位関係の自動獲得自然言語処理、 Vol.12, No.1, pp125-150, 2005 藤井敦,石川徹也,World Wide Webを用いた辞典知識情報の抽出と組織化,電子情報通信学会論文誌,VOL. J85-D2, PP. 300-307,2002 Padiomini Srinivassan, Thesaurus Construction, in Information Retrieval :Data Structures and Algorithms, Edited by William B. Frakes and Ricarbo Baeza-yates, Prentice-Hall, 1992 梅村恭司,未踏テキスト用シソーラスの自動構築システムの開発,情報処理振興協会平成13年報告集,2001
しかしながら、上述した従来の技術では、未だシソーラス構築の定式化が十分になされていない。したがって、文書集合から抽出される特徴的単語の関係は、十分に可視化されたものではなく、知識共有のシソーラスとして機能していない。
本発明は、上述した問題を解消し、文書集合から抽出される特徴的単語の関係を定式化し、そのシソーラスを明確に可視化することを目的とする。
本発明のデータマップ作成サーバは、検索キーワード及び当該検索キーワードにもとづいて複数の文書データから抽出した関連ワードをマッピングしたデータマップを作成するデータマップ作成サーバであって、前記複数の文書データを記憶するデータ記憶手段と、前記データ記憶手段に記憶された複数の文書データの中から、前記検索キーワードに関連する1または2以上の関連ワードを抽出する関連ワード抽出手段と、該関連ワード抽出手段が抽出した関連ワードと前記検索キーワードとをマップ掲載ワードとし、所定の配列規則に従ってそれぞれ配列した配列表を作成する配列表作成手段と、あらかじめ定められた上位下位関係決定条件に従って、前記配列表に含まれるマップ掲載ワードそれぞれの上位下位関係を決定する上位下位関係決定手段と、各マップ掲載ワードについて上位関係となるマップ掲載ワードが複数存在するときに、直上の上位関係となるマップ掲載ワードである直上ワードを決定する直上ワード決定手段と、該直上ワード決定手段が決定した直上ワードが特定可能となるように前記配列表作成手段が作成した配列表を更新する配列表更新手段と、該配列表更新手段が更新した配列表に基づいて、前記マップ掲載ワードをそれぞれ表示するワード表示領域と、各マップ掲載ワードと該各マップ掲載ワードの直上ワードとの間を連結した線分を表示する線分表示領域とを含むデータマップを作成するデータマップ作成手段と、備えたことを特徴とする。
上記のように構成したことで、検索依頼データにより抽出される文書に多数含まれている頻出データの数に基づき、それら頻出データに関連する文書データを直上或いは直下の上位下位の関係を表示するデータマップが作成されるので、文書集合から抽出される特徴的単語の関係を定式化し、そのシソーラスをさらに明確に可視化することが可能である。
前記データマップを作成する際に利用される配列表を含む各種情報を記憶するマップ作成利用データ記憶手段を備え、前記配列表作成手段が、前記マップ掲載ワードを、前記複数の文書データに含まれる頻度の高い順に、項目欄である行及び列それぞれに配置したマトリクス状の配列表を作成し、前記配列表更新手段が、前記配列表において、前記行の項目に上下配列されているマップ掲載ワードが列の項目に左右に配列されているマップ掲載ワードの上位であるときに、当該行と列により特定されるセルに、他のセルと識別するためのデータである識別データを登録し、前記直上ワード決定手段が決定した直上ワードに応じて、前記識別データ登録手段により識別データが登録されたセルのうち、対応する行の項目に配列されているマップ掲載ワードが、対応する列の項目に配列されているマップ掲載ワードの直上ワードでない場合に、当該セルに登録された識別データを削除する構成とされていてもよい。
また、検索キーワードを提示した検索依頼を、通信ネットワークを介して受信する検索依頼受信手段と、前記データマップ作成手段が作成したデータマップを、通信ネットワークを介して送信するデータマップ送信手段と、を備えていてもよい。
検索対象となる文書データを提示あるいは指定した検索依頼を、通信ネットワークを介して受信する検索依頼受付手段と、前記データマップ作成手段が作成したデータマップを、通信ネットワークを介して送信するデータマップ送信手段と、を備えていてもよい。
上位下位関係決定条件は、例えば、判断対象となる第1マップ掲載ワードと第2マップ掲載ワードについて、第1マップ掲載ワードを含む文書データの数が第2マップ掲載ワードを含む文書データの数より多く、第2マップ掲載ワードを含む文書データのうち所定割合以上の文書データに第1マップ掲載ワードが含まれているときに、第1マップ掲載ワードは第2マップ掲載ワードの上位関係にあると決定されるように定められている。所定割合は、例えば5割である。
直上ワード決定手段は、例えば、第1マップ掲載ワードが第2マップ掲載ワードの上位であり、且つ第1マップ掲載ワードを上位とする第2マップ掲載ワードの上位ワードが存在しないときに限り第1マップ掲載ワードを第2マップ掲載ワードの直上の上位関係となる直上ワードに決定する。
ワード表示領域は、例えば、それぞれ、マップ掲載ワードと当該マップ掲載ワードを含む文書データの数とを表示する領域である。このような構成とすることにより、ユーザにとってさらに視覚的にデータマップを表示することが可能となる。
本発明のデータマップ作成プログラムは、検索キーワード及び当該検索キーワードにもとづいて複数の文書データから抽出した関連ワードをマッピングしたデータマップを作成させるデータマップ作成プログラムであって、コンピュータに、前記複数の文書データを記憶するデータ記憶手段に記憶された複数の文書データの中から、前記検索キーワードに関連する1または2以上の関連ワードを抽出するステップと、抽出した関連ワードと前記検索キーワードとをマップ掲載ワードとし、所定の配列規則に従ってそれぞれ配列した配列表を作成するステップと、あらかじめ定められた上位下位関係決定条件に従って、前記配列表に含まれるマップ掲載ワードそれぞれの上位下位関係を決定するステップと、各マップ掲載ワードについて上位関係となるマップ掲載ワードが複数存在するときに、直上の上位関係となるマップ掲載ワードである直上ワードを決定するステップと、決定した直上ワードが特定可能となるように、作成した配列表を更新するステップと、更新した配列表に基づいて、前記マップ掲載ワードをそれぞれ表示するワード表示領域と、各マップ掲載ワードと該各マップ掲載ワードの直上ワードとの間を連結した線分を表示する線分表示領域とを含むデータマップを作成するステップとを実行させるためのものである。
本発明によれば、文書集合から抽出される特徴的単語の関係を定式化し、そのシソーラスを明確に可視化することができる。
以下、本発明の一実施の形態について図面を参照して説明する。
図1は、本発明の一実施の形態におけるデータマップ作成システム100の構成の例を示すブロック図である。
図1に示すように、本例のデータマップ作成システム100は、データマップ作成サーバ10と、複数のユーザ端末30A〜30Nとを含む。データマップ作成サーバ10と、複数のユーザ端末30A〜30Nとは、それぞれインターネットなどの通信ネットワーク40に接続されている。
データマップ作成サーバ10は、例えば、WWW(World Wide Web)サーバやワークステーションサーバなどの情報処理装置によって構成され、例えば本システム100の管理者によって管理される。
ユーザ端末30A〜30Nは、それぞれ、パーソナルコンピュータ等の情報処理装置によって構成され、本システム100を利用するユーザによって管理される。ユーザ端末30A〜30Nは、それぞれ、例えばブラウザなどが搭載され、通信ネットワーク40を介して各種情報の送受信を行う機能や、通信ネットワーク40を介して受信した各種情報を表示する機能などの各種機能を有する。
図2は、データマップ作成サーバ10の構成の例を示すブロック図である。図2に示すように、データマップ作成サーバ10は、データ入力部11と、データ表示部12と、データ通信部13と、検索要求情報受付部14と、文書データ取得部15と、頻出ワード抽出配列部16と、上位下位関係決定部17と、データマップ作成部18と、文書データDB19と、マップ作成利用DB20とを含む。
データ入力部11は、例えば、キーボードやマウスなどの情報入力装置によって構成され、例えばサーバ10の管理者が各種の情報を入力する際に用いられる。データ表示部12は、例えばLCD(液晶表示装置)などの表示装置によって構成され、各種情報を表示するために用いられる。
データ通信部13は、通信ネットワーク40を介して、例えばユーザ端末30A〜30Nとの間で各種の情報を送受する機能を有する。
検索要求情報受付部14は、ユーザ端末30A〜30Nからの検索キーワード(以下、単に「キーワード」と呼ぶことがある)検索要求情報を受信し、検索要求(データマップの作成要求)を受け付ける処理を実行する機能を有する。
文書データ取得部15は、検索要求情報受付部14が受信した検索要求情報に従って、検索対象とされている複数の文書データから、キーワードを含む文書データを抽出する。
ここで、「キーワード」とは、文書データを構成する要素であって、具体的には、例えば単語、熟語、数字、数式、記号などが該当する。
頻出ワード抽出配列部16は、抽出された文書データに現れる頻度が高い頻出ワードを、キーワードに関連する関連ワードとして抽出すると共に、ここでは頻度の高い順序に関連ワードを配列する。なお、「頻度が高い」とは、文書データ全体における出現頻度が高い場合や、文書データにおけるキーワードと同じ文あるいは段落での出現頻度が高い場合などがある。
上位下位関係決定部17は、頻出ワード抽出配列部16が抽出した関連ワードとキーワードとをマップ掲載ワードとし、あらかじめ定められた上位下位関係決定条件に従って、各マップ掲載ワードそれぞれの上位下位関係を決定する。また、上位下位関係決定部17は、各マップ掲載ワードについて上位関係となるマップ掲載ワードが複数存在するときに、直上の上位関係となるマップ掲載ワードである直上ワードを決定する。
上位下位関係決定部17は、第1マップ掲載ワードが第2マップ掲載ワードの上位であり、且つ第1マップ掲載ワードを上位とする第2マップ掲載ワードの上位ワードが存在しないときに限り第1マップ掲載ワードが第2マップ掲載ワードの直上の上位関係となる直上ワードに決定する。例えば、マップ掲載ワードAの上位関係がマップ掲載ワードB,C,Dであり、マップ掲載ワードBの上位関係がマップ掲載ワードDであり、マップ掲載ワードCの上位関係がマップ掲載ワードDであるとすれば、マップ掲載ワードB及びCがマップ掲載ワードAの直上ワードとなる。
データマップ作成部18は、マップ掲載ワードをそれぞれ表示するワード表示領域と、各マップ掲載ワードとその各マップ掲載ワードの直上ワードとの間を連結した線分を表示する線分表示領域とを含むデータマップ情報を作成する。つまり、複数のマップ掲載ワード(キーワードと抽出した関連ワードとの両方を含む概念)が上位下位関係や直上関係にもとづいて配置されたデータマップを表示するためのデータマップ情報を作成する処理を実行する機能を有する。なお、データマップ情報は、表示装置の表示画面に表示されるデータマップの電子データを意味し、単に「データマップ」と呼ぶことがある。
文書データDB19は、例えばデータベース装置によって構成され、検索対象となる複数の文書データなどの各種の情報が記憶される。
マップ作成利用データDB20は、例えばデータベース装置によって構成され、データマップを作成する際に利用されるデータ(マップ作成利用データ)などの各種の情報が記憶される。
図3は、文書データDB19における文書データの格納状態を説明するための説明図である。図3に示すように、文書データDB19には、複数の文書データ1〜N(N:任意の正の整数)が格納されている。文書データは、例えば、XMLなどの記述言語によって作成される。なお、処理に用いられる文書データの単位は、完結している文書、その文書の各ページ、その文書の各一文、その文書の各行、或いは、それらの組み合わせ等、どのように規定してもよい。
次に、本例のデータマップ作成システム100の動作について説明する。
図4は、本例のデータマップ作成システム100におけるデータマップ作成サーバ10による検索処理の例を示すフローチャートである。
本例では、文書データDB19に文書1〜文書Nの各文書データが登録されているものとする(図3参照)。また、ここでは、ユーザAによって管理されているユーザ端末30Aからの要求に応じて、データマップ情報を作成する処理が実行されるものとする。
データマップ作成処理において、先ず、データマップ作成サーバ10の検索要求情報受付部14は、ユーザ端末30Aから通信ネットワーク40を介して検索要求情報を受信し、データマップ作成要求を受け付ける(ステップS101)。
検索要求情報は、検索キーワードを含む。検索キーワードは、1または2以上の単語、熟語、記号、式、文章など、絞込み検索のためのキーワードであればどのような形態であってもよい。
ここでは、ステップS101において、検索要求情報受付部14が、検索キーワードである「酵素」と「活性」とを受信したものとする。
検索要求情報受付部14が検索要求情報を受付けると、文書データ取得部15は、検索キーワードの「酵素」と「活性」とを用いて、文書データDB19に登録されている複数の文書データから、所定の検索条件を満たす文書データを抽出し、関連ワードの検索対象とする文書データを絞り込む処理を行う(ステップS102)。この例では、文書データDB19に、主に、生化学に関する用語や文章から成る文書データが格納されているものとする。
ステップS102における検索条件は、例えば、検索キーワードの一部または全部を文書データ内に含むこと、検索キーワードと同一の文書構成要素または類似の文書構成要素(例えば、同義語、関連語)を文書内に含むこと等の通常の検索エンジンに用いられている条件である。
次いで、ステップS102にて抽出されたキーワード「酵素」または「活性」を含む複数の文書データ内に多く出現(例えば、半数以上の文書データ、2割以上の文書データ)する頻出ワードを、キーワードに関連する関連ワードとして抽出する(ステップS103)。
関連ワードが抽出されると、データマップ作成部18は、その抽出された関連ワードとキーワードとを用いて、すなわちマップ掲載ワードを用いてデータマップ情報を作成する(ステップS104)。
データマップ作成部18によってデータマップ情報が作成されると、データマップ作成サーバ10の通信部13は、データマップ情報を、通信ネットワーク40を介してユーザ端末30Aに送信する(ステップS105)。
データマップ作成サーバ10からのデータマップ情報を受信すると、ユーザ端末30Aは、自己が備える表示装置の表示画面にデータマップ(例えば図10参照)を表示する。
次に、ステップS104(データマップ作成処理)の具体例について図5を参照して説明する。データマップ作成処理は、例えば、図5に示すフローチャートに沿って実行される。なお、ここでは、キーワードとして「酵素」と「活性」が指定され、関連ワードとして「活性化」や「アミノ」などの図6の表に示す各ワードが検索されたものとする。
データマップ作成処理において、まず、頻出ワード抽出配列部16は、キーワードや抽出された関連ワードといったマップ掲載ワードを、複数の文書データに含まれる頻度の高い順に上下方向及び左右方向にそれぞれ配列した配列表を作成する(ステップS201)。
ステップS201では、例えば、図6に示すように、「酵素(309)」と「活性(465)」とをキーワードに検索した場合に抽出された関連ワードである「アミノ(95)」,「触媒(70)」,「生体内(55)」,「生理活性物質(72)」,「活性化(136)」,「アミノ酸(93)」,「核酸(76)」,「脂肪酸(50)」,「糖質(66)」を、その括弧内に示す文書データ数の多い順に、項目欄である行及び列それぞれに配置したマトリクス状の配列表が作成される。なお、図6において、各マップ掲載ワードに付随している括弧内の数は、上述したステップS102にて絞り込まれた文書データのうち、該当するマップ掲載ワードが含まれている文書データの数であり、ステップS102(キーワードについて)あるいはステップS103(関連ワードについて)にてカウントされた数である。
次いで、上位下位関係決定部17は、マップ掲載ワードの上位下位の関係を決定する(ステップS202)。ここでは、「D」を文書データの集合、「w」を単語としたときの「w」が現れる「D」中の文書データの個数(文書頻度)を、df(w,D)で表すものとする。また、二つの単語「u」,「v」の両方が現れる「D」中の文書データの数をdf(u*v,D)で表すものとする。このような場合に、単語「u」と単語「v」が以下の式「数1」及び式「数2」の関係を満たすとき、「文書頻度の観点から単語「u」は単語「v」の上位である」とする。
単語「u」と単語「v」が上記の式「数1」及び式「数2」を満たすということは、図7に示されるように、単語「u」が現れる文書データ数が単語「v」が現れる文書データ数よりも多く(式「数2」)、且つ、単語「v」が現れる文書データの過半数に単語「u」が現れることを示す。なお、式「数1」の右辺は、0.5に限ることなく、例えば0.6や0.7などの他の値であってもよく、0.0〜1.0の間の定数であればよい。特に、式「数1」の右辺が、1.0であれば、「単語「u」が現れる文書には、単語「v」も必ず現れる」という関係になる。また、式「数1」の右辺は、単語「u」或いは、単語「v」により決定される定数であってもよい。
上位下位関係決定部17は、ステップS202において、上述した式「数1」及び式「数2」に従って各マップ掲載ワードの全ての組についての上位下位関係を決定する。図6に示す配列表において、行の項目に上下配列されているマップ掲載ワードが列の項目に左右に配列されているマップ掲載ワードの上位であるときに、その行と列により特定されるセルに「1」を登録し、そうでないとき(上位下位の関係が逆、あるいは上位下位の関係にないとき)に、その行と列により特定されるセルに「0」を登録することとすると、配列表が例えば図8に示すように更新される。すなわち、上位下位関係決定部17は、各マップ掲載ワードについてそれぞれ上位下位関係を決定し、その決定結果を配列表に反映させていく処理を行う。
図8に示す例では、行の項目が「酵素」で列の項目が「アミノ」であるセルに「1」が登録されているため、「酵素」は「アミノ」に対して上位の関係にあり、「アミノ」は「酵素」に対して下位の関係にあることを意味している。また、行の項目が「酵素」で列の項目が「生理活性物質」であるセルに「0」が登録されているため、「酵素」は「生理活性物質」の上位の関係にはないことを意味する。
次いで、上位下位関係決定部17は、各マップ掲載ワードについて上位関係となるマップ掲載ワードが複数存在するときに、直上の上位関係となるマップ掲載ワードである直上ワードを決定する(ステップS203)。直上ワードは、所定のマップ掲載ワードより上位にあるマップ掲載ワードの集合の極小元として求めることができる。
具体的には、上位下位関係決定部17は、図8に示すような上位下位関係であるとき、例えば、上位関係のマップ掲載ワードが複数存在するマップ掲載ワードである「アミノ酸」に注目すると、以下のように直上ワードを決定する。上位下位関係決定部17は、「アミノ」が「アミノ酸」の上位であり、且つ「アミノ」を上位とする「アミノ酸」の上位ワードが存在しないことを確認し、「アミノ」を「アミノ酸」の直上ワードに決定する。また、上位下位関係決定部17は、「酵素」が「アミノ酸」の上位であり、且つ「酵素」を上位とする「アミノ酸」の上位ワード(「アミノ」)が存在することを確認し、「酵素」を「アミノ酸」の直上ワードに決定しない。なお、直上ワードが複数存在する場合には、その全てを直上ワードに決定する。そして、直上ワードとされなかったマップ掲載ワードが該当するセルに登録されている「1」を「0」に更新し、配列表を例えば図9に示すように更新する。図9では、ステップS203にて「1」から「0」に更新されるセルにアンダーバーが付されている。
次いで、データマップ作成部18は、ステップS203において、マトリックス状の配列表におけるセルに「1」と出力された行の項目となっているマップ掲載ワードと列の項目となっているマップ掲載ワードとの上位下位関係に基づき、各マップ掲載ワードの関係を示すデータマップを生成する(ステップS204)。この場合、データマップは、例えば直下のマップ掲載ワードから直上のマップ掲載ワードに向けて順次線分を引いていくことで、各マップ掲載ワードを線分により連結していき、最後にマップ掲載ワードの表示位置が調整されることによって生成される。
データマップは、例えば、図10に示すように、マップ掲載ワードの名称及びそのマップ掲載ワードを含む文書データの件数を表示したワードデータ表示51と、直上及び直下の関係にある各ワードデータ表示51の間を結ぶ連結線52とにより構成される。ここで、例えば「生体内」にあっては、その直上の関係となるワードデータが「酵素」及び「活性」の2つある。
図11〜図13は、他のデータマップの例を示す説明図である。図11に示す例は、所定の文書データ群を用意し、検索キーワードに「酵素」を指定したときに得られたデータマップの例である。図12に示す例は、所定の文書データ群を用意し、検索キーワードに「タンパク」を指定したときに得られたデータマップの例である。図13に示す例は、所定の文書データ群を用意し、検索キーワードに「生命」、「細胞」、「血液」を指定したときに得られたデータマップの例である。
図13に示すように、データマップにおいて、例えば、上位から下位に枝分かれしたワードデータ(マップ掲載ワード)が、さらに下位のワードデータで連結して表示されることがある。例えば、「kouzagai」と「植物」とは、一見では関係性を見出すことはできないが、その下位に共通に連結された「講座外科目」が存在するため、それらに一定の関係性があることが視覚的に把握できる。
上記のようにして、データマップ作成サーバ10によってデータマップ情報が作成され、データマップ情報に基づくデータマップがユーザ端末30Aの表示装置の表示画面に表示される。
以上に説明したように、上述した一実施の形態では、検索キーワードに基づき抽出された複数の文書データに含まれるワードデータの出現頻度に基づき直上の関係を決定し、直上の関係が成立しているワードデータ表示51の間を連結線52により連結したデータマップを作成する構成としたので、文書集合から抽出される特徴的単語の関係を定式化し、そのシソーラスを明確に可視化することができる。すなわち、直上の関係が成立しているワードデータ表示51の間を連結線52により連結したデータマップを見ることで、マップ上にマッピングされた各ワードデータの関連性を明確に把握することが可能となる。
具体的には、例えば、図11の中央にある「脂質124」の直上の関係が「核酸」なので、「「脂質」は、「核酸」についての話題に出てくる単語」といえる。また、「脂質」の上位の関係が「タンパク質」であり、「タンパク質」の上位の関係が「酵素」である。したがって、「「脂質」は「タンパク質」の話題の一部であり、さらに、「タンパク質」は[酵素」の話題の一部である」ということが分かる。
また、直上の関係が成立しているワードデータ表示51の間を連結線52により連結したデータマップを作成する構成としたので、上位下位関係にある全てのワードデータ間に線分が引かれることなく、ワードデータ間の関係が複雑化することなく見易いものとなる。
なお、上述した実施の形態では特に言及していないが、サーバ10が実行する上述した各処理は、サーバ10が備えるプログラム(データマップ作成プログラム)に従って行われる。
上記説明は、発明の一実施形態では、検索キーワードを提示した検索依頼があったときに検索処理を行う構成としていたが、文書データを提示あるいは指定した検索依頼があったときに、事前に特定されている検索キーワードを用い、提示あるいは指定された文書データを検索データベースとして検索を行うようにしてもよい。この場合、例えばユーザ端末30Aからの検索依頼の際に通信ネットワーク40を介して受信した文書データ、あるいは例えば文書データDB19に格納された文書データのうちユーザ端末30Aから指定された文書データを検索データベースとして検索処理が実行される。
本発明によれば、特許文献データ、研究者データ、宿泊施設データ、電子カルテ、判例データ、企業データ、製品データなどの文書データに現れる特徴語の関連を表現することが可能なデータマップを作成するデータマップ作成サーバやデータマップ作成システムに適応するのに有効である。
本発明の一実施の形態におけるデータマップ作成システムの構成例を示すブロック図である。 データマップ作成サーバの構成例を示すブロック図である。 文書データDBにおける文書データの格納状態を説明するための説明図である。 検索処理の例を示すフローチャートである。 データマップ作成処理の詳細を示すフローチャートである。 上位下位関係の決定に用いられるマトリクスを示す図である。 上位下位関係の概念図である。 上位下位関係の決定に用いられるマトリクスの例を示す図である。 上位下位関係の決定に用いられるマトリクスの例を示す図である。 図6に示したマトリクス図に用いたワードデータに基づくデータマップの例を示す説明図である。 その他ワードデータに基づくデータマップの例を示す説明図である。 その他ワードデータに基づくデータマップの例を示す説明図である。 その他ワードデータに基づくデータマップの例を示す説明図である。
符号の説明
10 データマップ作成サーバ
11 データ入力部
12 データ表示部
13 データ通信部
14 検索要求情報受付部
15 文書データ取得部
16 頻出ワード抽出配列部
17 上位下位関係決定部
18 データマップ作成部
19 文書データDB
20 マップ作成利用データDB
30A,30B,・・・,30N ユーザ端末
40 通信ネットワーク
100 データマップ作成システム

Claims (14)

  1. 検索キーワード及び当該検索キーワードにもとづいて複数の文書データから抽出した関連ワードをマッピングしたデータマップを作成するデータマップ作成サーバであって、
    前記複数の文書データを記憶するデータ記憶手段と、
    前記データ記憶手段に記憶された複数の文書データの中から、前記検索キーワードに関連する1または2以上の関連ワードを抽出する関連ワード抽出手段と、
    該関連ワード抽出手段が抽出した関連ワードと前記検索キーワードとをマップ掲載ワードとし、所定の配列規則に従ってそれぞれ配列した配列表を作成する配列表作成手段と、
    あらかじめ定められた上位下位関係決定条件に従って、前記配列表に含まれるマップ掲載ワードそれぞれの上位下位関係を決定する上位下位関係決定手段と、
    各マップ掲載ワードについて上位関係となるマップ掲載ワードが複数存在するときに、直上の上位関係となるマップ掲載ワードである直上ワードを決定する直上ワード決定手段と、
    該直上ワード決定手段が決定した直上ワードが特定可能となるように前記配列表作成手段が作成した配列表を更新する配列表更新手段と、
    該配列表更新手段が更新した配列表に基づいて、前記マップ掲載ワードをそれぞれ表示するワード表示領域と、各マップ掲載ワードと該各マップ掲載ワードの直上ワードとの間を連結した線分を表示する線分表示領域とを含むデータマップを作成するデータマップ作成手段と、備えた
    ことを特徴とするデータマップ作成サーバ。
  2. 前記データマップを作成する際に利用される配列表を含む各種情報を記憶するマップ作成利用データ記憶手段を備え、
    前記配列表作成手段が、前記マップ掲載ワードを、前記複数の文書データに含まれる頻度の高い順に、項目欄である行及び列それぞれに配置したマトリクス状の配列表を作成し、
    前記配列表更新手段が、前記配列表において、
    前記行の項目に上下配列されているマップ掲載ワードが列の項目に左右に配列されているマップ掲載ワードの上位であるときに、当該行と列により特定されるセルに、他のセルと識別するためのデータである識別データを登録し、
    前記直上ワード決定手段が決定した直上ワードに応じて、前記識別データ登録手段により識別データが登録されたセルのうち、対応する行の項目に配列されているマップ掲載ワードが、対応する列の項目に配列されているマップ掲載ワードの直上ワードでない場合に、当該セルに登録された識別データを削除する
    請求項1記載のデータマップ作成サーバ。
  3. 検索キーワードを提示した検索依頼を、通信ネットワークを介して受信する検索依頼受信手段と、
    前記データマップ作成手段が作成したデータマップを、通信ネットワークを介して送信するデータマップ送信手段と、を備えた
    請求項1または請求項2記載のデータマップ作成サーバ。
  4. 検索対象となる文書データを提示あるいは指定した検索依頼を、通信ネットワークを介して受信する検索依頼受付手段と、
    前記データマップ作成手段が作成したデータマップを、通信ネットワークを介して送信するデータマップ送信手段と、を備えた
    請求項1または請求項2記載のデータマップ作成サーバ。
  5. 上位下位関係決定条件は、判断対象となる第1マップ掲載ワードと第2マップ掲載ワードについて、第1マップ掲載ワードを含む文書データの数が第2マップ掲載ワードを含む文書データの数より多く、第2マップ掲載ワードを含む文書データのうち所定割合以上の文書データに第1マップ掲載ワードが含まれているときに、第1マップ掲載ワードは第2マップ掲載ワードの上位関係にあると決定されるように定められている
    請求項1から請求項うちいずれかに記載のデータマップ作成サーバ。
  6. 所定割合は、5割である
    請求項記載のデータマップ作成サーバ。
  7. 直上ワード決定手段は、第1マップ掲載ワードが第2マップ掲載ワードの上位であり、且つ前記第1マップ掲載ワードを上位とする前記第2マップ掲載ワードの上位ワードが存在しないときに限り前記第1マップ掲載ワードを前記第2マップ掲載ワードの直上の上位関係となる直上ワードに決定する
    請求項または請求項記載のデータマップ作成サーバ。
  8. ワード表示領域は、それぞれ、マップ掲載ワードと当該マップ掲載ワードを含む文書データの数とを表示する領域である
    請求項1から請求項のうちいずれかに記載のデータマップ作成サーバ。
  9. 検索キーワード及び当該検索キーワードにもとづいて複数の文書データから抽出した関連ワードをマッピングしたデータマップを作成させるデータマップ作成プログラムであって、
    コンピュータに、
    前記複数の文書データを記憶するデータ記憶手段に記憶された複数の文書データの中から、前記検索キーワードに関連する1または2以上の関連ワードを抽出するステップと、
    抽出した関連ワードと前記検索キーワードとをマップ掲載ワードとし、所定の配列規則に従ってそれぞれ配列した配列表を作成するステップと、
    あらかじめ定められた上位下位関係決定条件に従って、前記配列表に含まれるマップ掲載ワードそれぞれの上位下位関係を決定するステップと、
    各マップ掲載ワードについて上位関係となるマップ掲載ワードが複数存在するときに、直上の上位関係となるマップ掲載ワードである直上ワードを決定するステップと、
    決定した直上ワードが特定可能となるように、作成した配列表を更新するステップと、
    更新した配列表に基づいて、前記マップ掲載ワードをそれぞれ表示するワード表示領域と、各マップ掲載ワードと該各マップ掲載ワードの直上ワードとの間を連結した線分を表示する線分表示領域とを含むデータマップを作成するステップとを
    実行させるためのデータマップ作成プログラム。
  10. コンピュータに、
    さらに、配列表を作成するステップにて、前記マップ掲載ワードを、前記複数の文書データに含まれる頻度の高い順に、項目欄である行及び列それぞれに配置したマトリクス状の配列表を作成する処理を実行させ、
    配列表を更新するステップにて、前記データマップを作成する際に利用される配列表を含む各種情報を記憶するマップ作成利用データ記憶手段に記憶された前記配列表において、
    前記行の項目に上下配列されているマップ掲載ワードが列の項目に左右に配列されているマップ掲載ワードの上位であるときに、当該行と列により特定されるセルに、他のセルと識別するためのデータである識別データを登録し、
    決定した直上ワードに応じて、識別データが登録されたセルのうち、対応する行の項目に配列されているマップ掲載ワードが、対応する列の項目に配列されているマップ掲載ワードの直上ワードでない場合に、当該セルに登録された識別データを削除する処理を
    実行させる請求項9記載のデータマップ作成プログラム。
  11. コンピュータに、
    さらに、検索キーワードを提示した検索依頼を受信するステップと、
    作成したデータマップを、通信ネットワークを介して送信するステップとを
    実行させる請求項9または請求項10記載のデータマップ作成プログラム。
  12. コンピュータに、
    さらに、検索対象となる文書データを提示あるいは指定した検索依頼を、通信ネットワークを介して受信するステップと、
    作成したデータマップを、通信ネットワークを介して送信するステップとを
    実行させる請求項9または請求項10記載のデータマップ作成プログラム。
  13. 上位下位関係決定条件は、判断対象となる第1マップ掲載ワードと第2マップ掲載ワードについて、第1マップ掲載ワードを含む文書データの数が第2マップ掲載ワードを含む文書データの数より多く、第2マップ掲載ワードを含む文書データのうち所定割合以上の文書データに第1マップ掲載ワードが含まれているときに、第1マップ掲載ワードは第2マップ掲載ワードの上位関係にあると決定されるように定められている
    請求項から請求項12のうちいずれかに記載のデータマップ作成プログラム。
  14. コンピュータに、直上ワードを決定するステップにて、第1マップ掲載ワードが第2マップ掲載ワードの上位であり、且つ前記第1マップ掲載ワードを上位とする前記第2マップ掲載ワードの上位ワードが存在しないときに限り前記第1マップ掲載ワードを前記第2マップ掲載ワードの直上の上位関係となる直上ワードに決定する処理を
    実行させる請求項13記載のデータマップ作成プログラム。
JP2006082433A 2006-03-24 2006-03-24 データマップ作成サーバ、およびデータマップ作成プログラム Expired - Fee Related JP4982672B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006082433A JP4982672B2 (ja) 2006-03-24 2006-03-24 データマップ作成サーバ、およびデータマップ作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006082433A JP4982672B2 (ja) 2006-03-24 2006-03-24 データマップ作成サーバ、およびデータマップ作成プログラム

Publications (2)

Publication Number Publication Date
JP2007257420A JP2007257420A (ja) 2007-10-04
JP4982672B2 true JP4982672B2 (ja) 2012-07-25

Family

ID=38631583

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006082433A Expired - Fee Related JP4982672B2 (ja) 2006-03-24 2006-03-24 データマップ作成サーバ、およびデータマップ作成プログラム

Country Status (1)

Country Link
JP (1) JP4982672B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5474455B2 (ja) * 2009-09-07 2014-04-16 日本電信電話株式会社 文書群処理装置、文書群処理方法および文書群処理プログラム
JP2011232987A (ja) * 2010-04-28 2011-11-17 Lafla Inc 管理サーバ、および情報管理プログラム
CN109508388A (zh) * 2018-11-28 2019-03-22 交通银行股份有限公司 一种关系网络可视化图谱的方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0496177A (ja) * 1990-08-08 1992-03-27 Ricoh Co Ltd 文書検索方法及びそのキーワード関連度表作成装置
JPH08329106A (ja) * 1995-05-31 1996-12-13 Mitsubishi Electric Corp 辞書生成方法、単語集合構造化方法、文書集合構造化方法およびそれらの方法を用いた発想支援システム
JPH11184888A (ja) * 1997-12-25 1999-07-09 Toshiba Corp 文書検索方法及び装置
US6369819B1 (en) * 1998-04-17 2002-04-09 Xerox Corporation Methods for visualizing transformations among related series of graphs

Also Published As

Publication number Publication date
JP2007257420A (ja) 2007-10-04

Similar Documents

Publication Publication Date Title
Plake et al. AliBaba: PubMed as a graph
CN111656384A (zh) 药品的推荐方法、装置、介质和电子设备
Amadieu et al. Interaction between prior knowledge and concept-map structure on hypertext comprehension, coherence of reading orders and disorientation
JP4637969B1 (ja) ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法
US20090119268A1 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
US20160070751A1 (en) Database management system
Green et al. EMPReSS: European mouse phenotyping resource for standardized screens
Dunsmore A qualitative study of web-mounted pathfinders created by academic business libraries
US20050203889A1 (en) System and computer software program for visibly processing an observed information's relationship with knowledge accumulations
JP4982672B2 (ja) データマップ作成サーバ、およびデータマップ作成プログラム
Van Slyke et al. Using ZFIN: data types, organization, and retrieval
JP2008515029A (ja) 分子機能ネットワークの表示方法
Alimohammadi Meta‐tag: a means to control the process of web indexing
Saint Cast et al. Connecting plant phenotyping and modelling communities: lessons from science mapping and operational perspectives
Wildgaard et al. Advancing PubMed? A comparison of third-party PubMed/Medline tools
Smith et al. Technology in nursing scholarship: use of citation reference managers
Pampanwar et al. FPC Web tools for rice, maize, and distribution
Bussmann et al. MathSciNet: A comparative analysis of American Mathematical Society and EBSCO platforms
Wang et al. A novel MEDLINE topic indexing method using image presentation
US9817861B2 (en) Spiritual research system and method
JP2004102818A (ja) 検索支援方法および検索支援装置
Brunskill A Microsoft excel approach to reduce errors and increase efficiency in systematic searching
Jonquet Ontology Repository and Ontology-Based Services–Challenges, contributions and applications to biomedicine & agronomy
JP2022142234A (ja) プログラム、情報処理方法、及び情報処理装置
Mudunuri et al. botXminer: mining biomedical literature with a new web-based application

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090324

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20120315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120315

R150 Certificate of patent or registration of utility model

Ref document number: 4982672

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees