本発明の目的の一つは、ネットワーク全体の一部に設定された分析対象を分析内容に応じて更新することができる情報分析装置及びプログラムを提供することにある。
上記目的を達成するために、請求項1に記載の情報分析装置の発明は、複数の要素と、当該複数の要素間の接続関係との情報を含む情報群の母集合から一部の情報群を抽出すると共に、当該抽出した一部の情報群を分析対象に設定する設定手段と、前記設定手段により設定された分析対象の情報群に含まれる要素に値を付与すると共に、当該付与した値を当該分析対象の情報群に含まれる要素間の接続関係に基づいて更新する処理を予め定められた条件を満たすまで繰り返し実行する処理実行手段と、前記処理実行手段による処理の結果得られた前記分析対象の情報群に含まれる各要素の値に基づいて、当該分析対象の情報群に含まれる少なくとも一部の要素を選択する選択手段と、前記選択手段により選択した要素に関して前記情報群の母集合から取得される情報に基づいて前記分析対象の情報群を更新する更新手段と、を含むことを特徴とする。
また、請求項2に記載の発明は、請求項1に記載の情報分析装置において、前記更新手段は、前記選択手段により選択した要素と接続関係にある要素であって、前記分析対象の情報群に含まれていない要素を前記分析対象の情報群に追加して更新することを特徴とする。
また、請求項3に記載の発明は、請求項1又は2に記載の情報分析装置において、前記更新手段は、前記選択手段により選択した要素についての情報が前記情報群の母集合において更新されている場合に、当該選択した要素の情報を更新することを特徴とする。
また、請求項4に記載の発明は、請求項1乃至3のいずれかに記載の情報分析装置において、前記選択手段は、前記分析対象の情報群に含まれる各要素のうち値が大きい順に予め定められた数の要素を選択することを特徴とする。
また、請求項5に記載の発明は、請求項1乃至4のいずれかに記載の情報分析装置において、前記処理実行手段は、前記更新手段により更新された分析対象の情報群について前記処理を実行し、前記処理実行手段、前記選択手段、及び前記更新手段による処理を予め定められた終了条件を満たすまで再帰的に実行することを特徴とする。
また、請求項6に記載の発明は、請求項1乃至5のいずれかに記載の情報分析装置において、前記処理実行手段は、前記分析対象の情報群に含まれる要素のうち予め指定された条件に従って選択された要素群とそれ以外の要素群とに異なる初期値を付与して前記処理を実行することを特徴とする。
また、請求項7に記載のプログラムの発明は、複数の要素と、当該複数の要素間の接続関係との情報を含む情報群の母集合から一部の情報群を抽出すると共に、当該抽出した一部の情報群を分析対象に設定する設定手段と、前記設定手段により設定された分析対象の情報群に含まれる要素に値を付与すると共に、当該付与した値を当該分析対象の情報群に含まれる要素間の接続関係に基づいて更新する処理を予め定められた条件を満たすまで繰り返し実行する処理実行手段と、前記処理実行手段による処理の結果得られた前記分析対象の情報群に含まれる各要素の値に基づいて、当該分析対象の情報群に含まれる少なくとも一部の要素を選択する選択手段と、前記選択手段により選択した要素に関して前記情報群の母集合から取得される情報に基づいて前記分析対象の情報群を更新する更新手段としてコンピュータを機能させることを特徴とする。
請求項1及び7に記載の発明によれば、分析対象について行われた処理の結果選択された要素に基づいて分析対象を更新できる。
請求項2に記載の発明によれば、分析対象について行われた処理の結果選択された要素と接続関係にある要素を分析対象に含めることができる。
請求項3に記載の発明によれば、分析対象について行われた処理の結果選択された要素の情報を更新できる。
請求項4に記載の発明によれば、分析対象の中で分析結果に与える影響の大きい要素に基づいて分析対象を更新できる。
請求項5に記載の発明によれば、分析対象の更新を繰り返して分析対象を初期の状態よりも分析内容に適したものとすることができる。
請求項6に記載の発明によれば、指定された条件に基づいて設定された初期条件の下で分析対象について行われた処理の結果選択された要素に基づいて分析対象を更新できる。
以下、本発明を実施するための好適な実施の形態(以下、実施形態という)を、図面に従って説明する。
図1には、本実施形態に係る情報分析システム1の構成図を示す。図1に示されるように、情報分析システム1は、データベース5と、データベース5にアクセスして得た情報を分析する情報分析装置10とを含む。
データベース5は、ノード(要素)と、ノード間に設定されたリンク(接続関係)との情報を含むネットワークデータを格納するものである。例えば、ノードを文書、リンクを文書間の引用関係に対応させることとしてよく、図2には、ノードを特許文献、リンクを特許文献について審査官により引用された引用関係とした場合のネットワークデータの一例を示した。
図2に示されるように、本実施形態におけるネットワークデータは「引用」と「被引用」の特許文献をそれぞれ関連づけたテーブルにより構成され、例えば、「特開2000−100001」は「実開昭48−100114」を引用していることを示している。なお、データベース5にはネットワークデータの全データが格納されていることとし、文書や引用関係の追加等に応じて情報が逐次最新の状態に保たれている。
また、図1に示されるように、情報分析装置10は、分析対象データ取得部12、データ記憶部14、種ノード設定部16、引用分析部18、重要ノード選択部20、分析対象データ更新部22、終了判定部24、及び結果表示部26を含む。上記の各部の機能は、CPU等の制御手段、メモリ等の記憶手段、外部デバイスとデータを送受信する入出力手段等を備えたコンピュータが、コンピュータ読み取り可能な情報記憶媒体に格納されたプログラムを読み込み実行することで実現されるものとしてよい。なお、プログラムは情報記憶媒体によってコンピュータたる情報分析装置10に供給されることとしてもよいし、インターネット等のデータ通信ネットワークを介して供給されることとしてもよい。
分析対象データ取得部12は、データベース5にアクセスして分析の対象とするデータを取得するものである。本実施形態では、分析対象データ取得部12は、データベース5に格納されたネットワークデータの中から指定した条件に基づいて一部のデータを分析対象として抽出して取得する。このデータの抽出の際には、例えば、ノードたる文書に付与された分野情報、日時情報、人物情報等の属性情報や、文書内容等が利用者により指定された条件と合致するものを抽出することとしてよい。
図3Aには、分析対象データ取得部12により初期の分析対象データとして取得されるネットワークの一例を示す。図3Aに示されるように、初期の分析対象データは、データベース5に格納されたネットワークデータの母集合の一部であり、この分析対象データの集合の中には分析対象データの集合外の文書と引用関係を有する文書があるが、こうした分析対象データの集合外の文書は分析の対象とはされない。
データ記憶部14は、半導体メモリ等の記憶素子を含み構成され、分析対象データを記憶する他、後述する分析処理の作業用メモリとしても用いられるものである。
種ノード設定部16は、分析対象データ取得部12により取得した分析対象データの中から種ノードを設定するものである。種ノードとは、利用者の指定に基づいて選択されるノードであり、例えば利用者が直接種ノードを指定してもよいし、利用者により指定された検索条件に合致するノードのうち予め定められた検索順位までのノードを種ノードとして設定することとしてよい。例えば、特許文献をノードとすれば、利用者が調査を望む分野の特許文献のうち予め既知のものを種文書(種ノード)として設定することとしてよい。
引用分析部18は、データ記憶部14に記憶された分析対象のネットワークデータにおいて、種ノード設定部16により設定された種ノードとそれ以外のノードとに異なる初期データ値を付与してノード間のリンクに従ったデータ値の伝播処理を行い、各ノードのデータ値が収束するまで上記伝播処理を繰り返し行うものである。引用分析部18は、例えば種ノードのみに正の初期データ値を付与しそれ以外のノードの初期データ値は0とすることとしてもよい。
具体的には、ノードiを被引用文献、ノードjを引用文献とした場合に、被引用文献たるノードiのデータ値piは、以下の式(1)により求められる。
ここで、Tijは、ノードiとノードjとの引用関係を表す行列であり、例えば引用関係があれば「1」なければ「0」として生成したものを用いることとしてよい。そして、引用分析部18では、初期状態では種ノードにデータ値を付与して、そのデータ値を(1)式に従って伝播させる計算を繰り返し実行した後の収束値を各ノードのデータ値として得る。この収束値は各ノードの被引用のリンクに基づいて増加する値であり、データ値の高いノードから引用されるノードはデータ値が高くなる特性を有することから各ノードの重要度を示しているとされる。以下、収束した結果得られた各ノードのデータ値を重要度とする。
重要ノード選択部20は、引用分析部18による分析の結果得られた各ノードの重要度に基づいて重要なノード(重要ノード)を選択するものである。重要ノード選択部20は、引用分析部18による分析の結果得られた各ノードを重要度に従って上位から予め定められた件数(例えばM件)抽出し、こうして抽出したノードを重要ノードとして選択することとしてよい。
分析対象データ更新部22は、重要ノード選択部20により選択された重要ノードの引用関係を確認し、当該重要ノードと引用関係にあるノードが分析対象のネットワークに含まれていない場合には、当該ノードについてデータベース5にアクセスして情報を取得し分析対象に追加する。また、分析対象データ更新部22は、重要ノード選択部20により選択されたノードについての更新の有無をデータベース5に問い合わせ、更新がある場合にはその更新情報を取得してノードの情報を更新することとしてもよい。なお、重要ノード選択部20は、ノードの追加に関して選択する重要ノードと、ノード自体の情報更新に関して選択する重要ノードの数をそれぞれ変更することとしても構わない。
図3Bには、分析対象データ更新部22により更新される分析対象のネットワークの一例を示す。図3Bにおいて、ノードk,ノードlが重要ノードとして選択されたとすると、ノードkと引用関係にあるノードは現在の分析対象に含まれるが、ノードlと引用関係にあるノードmについては現在の分析対象に含まれていないため、分析対象データ更新部22は、ノードmを新たに分析対象に追加することにより分析対象のネットワークデータを更新する。なお、分析対象データ更新部22は、更新した分析対象のネットワークデータをデータ記憶部14に記憶する。
引用分析部18は、分析対象データ更新部22により更新された分析対象のネットワークデータに対して、種ノード設定部16により設定された種ノードに正の初期データ値を付与して再度引用分析処理を行い、各ノードの重要度を得る。また、重要ノード選択部20は、引用分析部18により得られた重要度に基づいてノードを選択する。そして、分析対象データ更新部22は、重要ノード選択部20により選択されたノードに基づいて分析対象のネットワークデータを更新する。情報分析装置10では、以上の引用分析部18、重要ノード選択部20、分析対象データ更新部22による各処理を、以下の終了判定部24により終了と判定されるまで再帰的に実行する。
終了判定部24は、上記の再帰的処理が予め定められた終了条件を満足するか否かを判定するものである。以下、終了判定部24において用いられる終了判定条件を例示して説明する。
まず第1に、終了判定部24は、分析対象データ更新部22により追加するノードがない場合に、処理を終了すると判定することとしてよい。
第2に、終了判定部24は、分析対象データ更新部22によるデータ更新が予め定められた上限回数に達した場合に、処理を終了すると判定することとしてよい。
そして、第3に、終了判定部24は、引用分析部18による引用分析処理の結果、各ノードの重要度の少なくとも一部の順位に変動がなくなった場合に、処理を終了すると判定することとしてよい。なお、上記一部の順位とは、上位から予め定められた件数までの順位としてよい。
結果表示部26は、終了判定部24により処理を終了すると判定された場合に、引用分析部18により得られた各ノードの重要度に基づいて引用分析の処理結果を表示するものである。処理結果としては、例えば各ノードとリンクを可視化したグラフを生成して表示することとしてもよいし、各ノードを重要度順に並べたリストを生成して表示することとしてもよい。なお、上記グラフ表示においては各ノードを重要度に応じたサイズにより表示することとしてもよい。
次に、図4に示した引用分析処理のフローチャートを参照しながら、情報分析装置10において行われる引用分析処理の流れを説明する。
図4に示されるように、情報分析装置10は、ネットワークデータを格納したデータベース5にアクセスして(S101)、利用者が要望する分野の文書を取得し(S102)、取得した文書について文書間に定められた引用関係に基づいて生成した分析対象のネットワークデータを記憶する(S103)。
次に、情報分析装置10は、例えば利用者により入力された検索文字列を含む文書を検索してこれを種文書に設定し(S104)、分析対象のネットワークデータにおいて上記設定した種文書に正の初期データ値を付与して引用分析処理を行う(S105)。
情報分析装置10は、引用分析の結果得られた各文書の重要度に基づいて上位M件の文書を重要文書として選択し(S106)、選択した重要文書と引用関係にある文書が分析対象のネットワークデータに含まれているか否かに基づいて分析対象のネットワークデータの更新の要否を判断する(S107)。情報分析装置10は、S107で含まれていないと判断する場合には(S107:N)、当該含まれていない文書をデータベース5から取得して(S108)、分析対象データを更新する(S109)。そして、情報分析装置10は、引用分析処理が終了条件を満たすか否かを判断して(S110)、満たさないと判断する場合には(S110:N)、処理S105に戻って更新された分析対象データについて引用分析処理を行うと共にそれ以降の処理を繰り返す。一方で、引用分析処理が終了条件を満たすと判断した場合には(S110:Y)、引用分析の結果得られた各文書の重要度に基づいて結果を表示して(S111)、処理を終了する。
本発明は、上記の実施形態に限定されるものではない。例えば、引用分析部18においては、線形活性伝播法、連続アトラクター力学に基づく方法、パーソナライズされたPageRankアルゴリズム等の手法を用いることとしてよい。
また、上記の実施形態では、文書をノード、文書間の引用関係をリンクとしたネットワークデータの分析に本発明を適用した例を示したが、本発明はその他の多様なネットワークデータの分析にも適用してもよいのはもちろんである。
1 情報分析システム、5 データベース、10 情報分析装置、12 分析対象データ取得部、14 データ記憶部、16 種ノード設定部、18 引用分析部、20 重要ノード選択部、22 分析対象データ更新部、24 終了判定部、26 結果表示部。