JP2005275794A - 情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体 - Google Patents

情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP2005275794A
JP2005275794A JP2004087915A JP2004087915A JP2005275794A JP 2005275794 A JP2005275794 A JP 2005275794A JP 2004087915 A JP2004087915 A JP 2004087915A JP 2004087915 A JP2004087915 A JP 2004087915A JP 2005275794 A JP2005275794 A JP 2005275794A
Authority
JP
Japan
Prior art keywords
information
concept
concept information
existence probability
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004087915A
Other languages
English (en)
Other versions
JP4477389B2 (ja
Inventor
Tsutomu Matsunaga
務 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2004087915A priority Critical patent/JP4477389B2/ja
Publication of JP2005275794A publication Critical patent/JP2005275794A/ja
Application granted granted Critical
Publication of JP4477389B2 publication Critical patent/JP4477389B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】情報間の参照構造に基づく関係性を解析することができる、情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体を提供することを課題とする。
【解決手段】本発明にかかる情報間関係性解析装置は、概念に対応する情報であって他の概念に対応する情報を参照するための参照情報を少なくとも含む概念情報を複数含む概念情報群を取得し、概念情報群の中から、特定概念情報を設定し、概念情報群について、各概念情報を状態とみて各参照情報を通して概念情報を遷移するモデルで捉え、当該モデルをマルコフ過程と考えたときの特定概念情報の存在確率を算出し、概念情報に基づいて、予め設定された評価概念情報を当該評価概念情報に含まれる参照情報と共に無効にしたときの特定概念情報の無効後存在確率を算出し、算出された存在確率および無効後存在確率に基づいて、評価概念情報が特定概念情報に及ぼす影響度情報を算出する。
【選択図】 図1

Description

本発明は、情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体に関し、特に、相互に参照される情報(例えば、リンクを張るWebページ)群においてターゲットとする情報を無効にしたときの他への影響を算出し、互いの関係性を定量化することができる、情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体に関するものである。
昨今の電子化の流れに伴って、情報量は増加し、これまで個別に扱われていた情報を結び付けて全体を系として捉えることが計算機性能の向上により可能な状況となってきている。
ここで、情報の効果的活用に向けて、それらの情報間の依存関係をはじめとした未知の関係性の発見が求められている。
例えば、大規模な情報ネットワークの解析には、因果関係に基づく現象の原因解明および問題に対する対策の効果測定への期待があり、例えば、疾患に関連する遺伝子の探索もその情報ネットワークの解析の典型例の1つと捉えられる。
また、事象全体を系として捉える解析の重要性が認識されつつあり(例えば、非特許文献1参照。)、ライフサイエンス分野(例えば、非特許文献2、非特許文献3、非特許文献4参照。)においても、多くの変数とパラメータを関係付け、生物学的現象の計算機処理を図るシステム生物学への期待が高まってきている。
また、創薬においても、個別の化合物の特定から生理化学的ネットワークの同定への重要性が認識され始めてきている(例えば、非特許文献5参照。)。
ところで、これまで、疾患関連遺伝子は、遺伝子の位置を疾患との相関に基づいて領域を狭めていくことにより同定する方法であるポジショナルクローニングから得られている。このポジショナルクローニングと呼ばれる方法は、家系が付与された試料の収集をはじめ、多くの時間と労力を要する生物学的実験に基づいている。
また、生物学的実験において、特定の遺伝子をノックアウト、即ち機能欠損させ、症状を観察して遺伝子推定を図る、ノックアウトスタディと呼ばれるアプローチもよく知られている(例えば、非特許文献6参照。)。具体的には、例えばマウスなどの実験動物を用いて、注目する遺伝子を破壊(ノックアウト)することにより機能欠損させ、症状を観察して遺伝子機能の推定を図る。そして、実験動物との間の遺伝子配列の相同性を通してヒトの遺伝子機能が推定される。
つまり、従来の遺伝子機能解析の手段としては、生物学的実験が主体で断片的なものであった(例えば、非特許文献7参照。)。例えば、疾患関連遺伝子の抽出は、生物学的実験により得られるのが一般的で、蓄積されてきている。また、ポジショナルクローニングにおいては、特に、疾患の原因が一箇所ではない多因子性疾患では莫大な数の試料が必要とされ(例えば、非特許文献8参照。)、疾患の原因となる遺伝子探索への適用性に課題がある。また、遺伝子機能は生成される酵素による制御からもたらされるコンテクストに基づく(例えば、非特許文献9参照。)ことから、特に高血圧や糖尿病、喘息などの多因子遺伝子病の遺伝的素因を理解するためには、複数ある疾患関連遺伝子の組み合わせとその相互作用が総合的に考慮されなければならない(例えば、非特許文献10参照。)とされている。
この状況の下、疾患の原因となる遺伝子探索は、薬剤開発におけるターゲット候補選定など、産業上の理由からも、中心的な課題に位置付けられている。
そこで、一般的に、情報間の依存関係などの関係性を解析する従来の手法としては、CRM(Customor Relationship Management)分野において、購買履歴データからどの商品が一緒に買われるかを分析するバスケット分析がよく知られている(例えば、非特許文献11参照。)。
また、情報処理による疾患関連遺伝子の抽出の方法としては、既知の疾患関連遺伝子を基に、塩基配列の相同性による推定が挙げられる。
また、例えば、従来技術である非特許文献12は、医学生物学的知見が論文の形でまとめられているとみて、論文データベースの「PubMed(例えば、非特許文献13参照。)」を用いて、遺伝子、化合物、疾患の3つの間の関係を論文中の単語共起に基づいて求める技術について記載しており、疾患関連遺伝子の探索に活用し得ると考えられる。
また、論文中における遺伝子名の共起頻度により、網羅的に遺伝子間の関係を可視化する試み(例えば、非特許文献14参照。)はよく知られ、広く活用されている。
アルバート=ラズロ・バラバシ, "新ネットワーク思考−世界のしくみを読み解く", NHK出版, 2002 "21世紀の医療・福祉を支える科学技術特集/5.ゲノム情報とその利用", 信学誌, Vol.84, No.5, pp.341−367, 2001 森下 真一, 久光 徹, 高木 利久, "特集 ゲノム情報科学", 情報処理, Vol.43, No.1, pp.1−41, 2002 阿久津 達也, 麻生川 稔, 小長谷 明彦, "特集「分子生物情報学の新展開」", 人工知能学会誌, Vol.15, No.1, pp.2−55, 2000 S.Huang, "Rational drug discovery: what can we learn from regulatory networks?", Drug Discov. Today, vol.15, No.7, ppS163−9, 2002 B.Alberts et al., "Molecular Biology of The Cell", Garland Publishing New York, 1994 中村 祐輔, "概論−個の遺伝子研究からゲノムワイドの遺伝子研究へ", 実験医学, Vol.18, No.12, pp.18−20, 2000 安部 道子, 名倉 潤, 三木 哲郎, "高血圧感受性遺伝子を探して", 医学のあゆみ, Vol.197, No.13, pp.1117−1121, 2001 S.Huang, "The practical problems of post−genome biology", Nat. Biotech., vol.18, pp471−472, 2000 鈴木 洋一, "疾患関連遺伝子の総合的解析と相互作用", メディカル・サイエンス・ダイジェスト, Vol.29, No.7, pp.21−24, 2003 山西 健司, "データ・テキストマイニング", 計算工学, 6, pp.386−393, 2001 株式会社ワールドフュージョンが開発したテキストマイニングシステム「構kozo造 ver1」のホームページ「http://www.w−fusion.co.jp/wf/kozo.html」 論文データベースPubMedのホームページ「http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed」 TK.Jenssen, A.Laegreid, J.Komorowski, E.Hovig, "A literature network of human genes for high−throughput analysis of gene expression", Nat.Genet., vol.28, No.5, pp21−28, 2001
しかしながら、非特許文献11に記載の手法は、事象の同時出現という視点によるものであり、背景にある構造が反映されていない点で潜在的な関係性の発見に限界がある、という問題点があった。
また、非特許文献12に記載の従来技術では、遺伝子を個別にみていることから、抽出が局所的な範囲に限られており、全体を系とみて遺伝子間の相互作用が考慮された疾患関連遺伝子の抽出が果たされていない、という問題点があった。
また、非特許文献14に記載の従来技術は、疾患情報は含まれないことから、疾患関連遺伝子の抽出に直接つながるものではない、という問題点があった。
本発明は上記問題点に鑑みてなされたもので、相互に参照される情報(例えば、リンクを張るWebページ)群においてターゲットとする情報を無効にしたときの他への影響を算出し、互いの関係性を定量化することができる、情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体を提供することを目的としている。
本発明では、情報間の参照構造に基づく関係性の解析を提案する。具体的には、相互に参照される情報群において、ターゲットとする情報を無効にしたときの他への影響を算出し、互いの関係性を定量化する。
また、本発明は、生物学的実験においてよく知られるノックアウトスタディの基本的な考え方を情報処理手法として導入したものとみることができ、観察結果を得る手段には状態遷移モデル(例えば、「L.Page, S.Brin, R.Motwani and T.Winograd, “The PageRank Citation Ranking: Bringing Order to the Web”, Stanford Digital Library Technologies, Working Paper SIDL−WP−1999−0120, 1998」参照。)を採用する。
なお、大規模情報ネットワークにおける解析において、リンクによる参照構造を用いたWebページの重要度評価方法(例えば、「L.Page, S.Brin, R.Motwani and T.Winograd, “The PageRank Citation Ranking: Bringing Order to the Web”, Stanford Digital Library Technologies, Working Paper SIDL−WP−1999−0120, 1998」参照。)は、膨大なWebページの中から、有用なものを上位にランキングするための有効な手段としてよく知られ、インターネットにおけるサーチエンジンに適用されている(例えば、「山名 早人, 近藤 秀和, “解説 サーチエンジンGoogle”, 情報処理, Vol.42, No.8, pp.775−780, 2001」参照。)。
上述の方法は、「多くの重要なWebページからの被リンク数が多いWebページほど、重要なWebページである」という経験則に基づいており、全てのページについて注目の度合いが数値化される。ここで、「注目の度合い」とは、他ページからのリンクによる「支持票」の集まるページは注目に値するということであり、必ずしも“重要”や“良好”などの基準が導入されているわけではない。そして、ページ間の相互参照関係より、グラフ理論の応用から定常状態遷移の確率分布で定式化し、確率の量で算出される。
すなわち、本発明は、相互参照構造をもつ情報ネットワークの一部に摂動を与え、系における変動を状態遷移モデルからの確率値を通して定量化するものである。
そして、本発明によれば、疾患と遺伝子群が医学生物学的結びつきによりリンク構造をもつネットワークにおいて、遺伝子をノックアウト、即ち当該遺伝子をリンク構造から除外し、注目する疾患に関する変動から遺伝子の疾患に対する寄与を序列化することにより、疾患関連遺伝子が自動抽出される。つまり、本発明は、上述のノックアウトスタディに基づくアプローチを導入したものといえる。
また、本発明は、遺伝子の「票」の疾患への「支持」のつながり度合いから、その遺伝子の疾患との関連の深さを把握しようとするところに着眼点がある。なお、サーチエンジンでは、全ページのランキングがねらいであり、着眼点を異にしている。
本発明は、相互に参照される情報群において、ターゲットとする情報を無効にしたときの他への影響を算出し、互いの関係性の定量化を図るものである。まず、本発明の基本原理を以下に説明する。
ページを単位にそれらを相互に参照するリンクがあるとき、ページを状態とみてリンクを通してユーザがページを遷移するモデルで捉えることができ(例えば、「L.Page, S.Brin, R.Motwani and T.Winograd, “The PageRank Citation Ranking: Bringing Order to the Web”, Stanford Digital Library Technologies, Working Paper SIDL−WP−1999−0120, 1998」、「山名 早人, 近藤 秀和, “解説 サーチエンジンGoogle”, 情報処理, Vol.42, No.8, pp.775−780, 2001」参照。)、マルコフ過程と考えたときのページpのユーザの存在確率R(p)は、次式(1)を繰り返して適用することにより求められる。すなわち、ページ群からなるネットワークにて、次式(1)によりR(p)を算出する。具体的には、状態間の推移確率に関する行列の固有値問題を解くことにより求められる(例えば、「L.Page, S.Brin, R.Motwani and T.Winograd, “The PageRank Citation Ranking: Bringing Order to the Web”, Stanford Digital Library Technologies, Working Paper SIDL−WP−1999−0120, 1998」、「http://www.kusastro.kyoto−u.ac.jp/baba/wais/pagerank.html」参照。)。
Figure 2005275794
ここで、R(q)は、ページpへのリンクをもつページqのユーザの存在確率である。nは、対象とするグラフG、即ち、各ページをノード、ページ間のリンクをエッジとしたグラフのノード総数(ページ数)、C(q)は、ページqから出ていく外向きのリンク数である。また、存在確率R(p)は、次式(2)を満たす。
Figure 2005275794
すなわち、存在確率R(p)は、ランダムにリンクをたどるユーザがページpを訪れる確率に対応し、リンクを張っている他のページの値を基に決められる。ここでは(および後述する本実施例では)、ユーザは、1−εの確率で現在のページからのリンクをたどり、εの確率で全く無関係なページへジャンプするモデルを考えることとし、ε=0.15とする(例えば、「L.Page, S.Brin, R.Motwani and T.Winograd, “The PageRank Citation Ranking: Bringing Order to the Web”, Stanford Digital Library Technologies, Working Paper SIDL−WP−1999−0120, 1998」、「http://www.kusastro.kyoto−u.ac.jp/baba/wais/pagerank.html」参照。)。なお、このモデルでは、全ての状態が相互到達可能な既約であるマルコフ連鎖を考えることにより解の一意性が確保される(例えば、「L.Page, S.Brin, R.Motwani and T.Winograd, “The PageRank Citation Ranking: Bringing Order to the Web”, Stanford Digital Library Technologies, Working Paper SIDL−WP−1999−0120, 1998」参照。)。そして、どこからもリンクをもたないページのユーザの存在確率はε/nとなる。
そして、特定のページsをノックアウト、即ち、ページを参照関係とともに無効にしたときに得られるページpのユーザの存在確率をR(p)(s)とするとき、ページsのページpに対する関係は、次式(3)のdR(p)(s)により定量化される。そして、特定のページs分だけ、算出を繰り返す。
Figure 2005275794
ここで、図5は、7つのページとそれらの相互参照関係の例(例えば、「http://www.kusastro.kyoto−u.ac.jp/baba/wais/pagerank.html」参照。)であり、矢印がリンクによる参照を表している。そして、図5におけるRと、ページ#2、ページ#3およびページ#7のノックアウトによるdR(#2)、dR(#3)およびdR(#7)を図6に示す。そして、図6には、各ページから外向きに出るリンク数および他のページから入ってくる被リンク数のノックアウト前後の差をあわせて示す。
図6に示すように、ページ#5の関係をみる場合、ページ#2とは0.059、ページ#3とはノックアウトで外向きリンクが1つ減ることから0.073、ページ#7とは被リンクが1つなくなることから−0.033が得られている。すなわち、dRの絶対値を通してページ間の関係の大きさを理解することができる。
したがって、上述した目的を達成するために、請求項1に記載の情報間関係性解析装置は、概念に対応する情報であって他の上記概念に対応する情報を参照するための参照情報を少なくとも含む概念情報を複数含む概念情報群を取得する概念情報群取得手段と、上記概念情報群取得手段により取得された上記概念情報群の中から、特定の上記概念情報である特定概念情報を設定する特定概念情報設定手段と、上記概念情報群取得手段により取得された上記概念情報群について、各々の上記概念情報を単位に当該概念情報を相互に参照する上記参照情報があるとき、各々の上記概念情報を状態とみて各々の上記参照情報を通して上記概念情報を遷移するモデルで捉え、当該モデルをマルコフ過程と考えたときの上記特定概念情報の存在確率を算出する存在確率算出手段と、上記概念情報群取得手段により取得された上記概念情報群に含まれる上記概念情報に基づいて、評価対象として予め設定された上記概念情報である評価概念情報を当該評価概念情報に含まれる上記参照情報と共に無効にしたときの上記特定概念情報の上記存在確率である無効後存在確率を算出する無効後存在確率算出手段と、上記存在確率算出手段により算出された上記存在確率および上記無効後存在確率算出手段により算出された上記無効後存在確率に基づいて、上記評価概念情報が上記特定概念情報設定手段により設定された上記特定概念情報に及ぼす影響度に関する情報である影響度情報を算出する影響度算出手段とを備えたことを特徴とする。
この装置によれば、概念(例えば、疾患や遺伝子など)に対応する情報であって他の概念に対応する情報を参照するための参照情報(例えば、Webページにおけるリンクなど)を少なくとも含む概念情報(例えば、Webページなど)を複数含む概念情報群を取得し、取得された概念情報群の中から、特定の概念情報である特定概念情報を設定し、取得された概念情報群について、各々の概念情報を単位に当該概念情報を相互に参照する参照情報があるとき、各々の概念情報を状態とみて各々の参照情報を通して概念情報を遷移するモデルで捉え、当該モデルをマルコフ過程と考えたときの特定概念情報の存在確率を算出し、取得された概念情報群に含まれる概念情報に基づいて、評価対象として予め設定された概念情報である評価概念情報を当該評価概念情報に含まれる参照情報と共に無効にしたときの特定概念情報の存在確率である無効後存在確率を算出し、算出された存在確率および算出された無効後存在確率に基づいて、評価概念情報が特定概念情報に及ぼす影響度に関する情報である影響度情報を算出するので、概念情報間の参照情報に基づく関係性の解析ができる。すなわち、この装置によれば、相互に参照される概念情報群において、ターゲットとする概念情報(評価概念情報)を無効にしたときの他への影響を算出するので、互いの関係性を定量化することができる。また、この装置によれば、参照情報に基づいて互いの概念情報の関係性を定量化しているので、背景にある構造を反映しており、情報間の潜在的な関係性を発見することができる。
また、この装置によれば、例えば疾患関連遺伝子の抽出において、遺伝子を個別にみず、全体を系とみているので、遺伝子間の相互作用が考慮された疾患関連遺伝子を局所的な範囲に限定せずに抽出することができる。具体的には、この装置によれば、例えば、疾患と遺伝子群が医学生物学的結び付きによりリンク構造をもつネットワークを状態遷移モデルで捉え、或る状態(例えば、遺伝子)を無効にしたときの、疾患に相当する状態へ与える変動から、遺伝子の疾患に対する寄与を定量化することができる。また、この装置によれば、例えば、潜在的な疾患関連遺伝子の発見の他、疾患の発症に強く関与する主効果遺伝子を抽出することができる。
また、この装置によれば、例えば、トラフィックに応じて地点間を結ぶ工事の際の最適な迂回路の設計や、人から人への情報の伝達、企業間の資金の流れなどのコネクションに応じたコミュニティ生成に関する予測が可能となる。
また、請求項2に記載の情報間関係性解析装置は、請求項1に記載の情報間関係性解析装置において、上記存在確率算出手段および上記無効後存在確率算出手段は、数式1に基づいて、それぞれ、上記存在確率および上記無効後存在確率を算出することを特徴とする。
Figure 2005275794
(ここで、「R(p)」は概念情報識別情報「p」に対応する概念情報の存在確率であり、「R(q)」は概念情報識別情報「p」に対応する概念情報への参照情報をもつ概念情報識別情報「q」に対応する概念情報の存在確率であり、「C(q)」は概念情報識別情報「q」に対応する概念情報から他の概念情報への参照情報の数である。また、「G」は概念情報をノード、参照情報をエッジとしたグラフであり、「n」はグラフ「G」のノードである概念情報の総数である。「ε」は予め設定される定数である。)
これは存在確率算出手段および無効後存在確立算出手段の一例を一層具体的に示すものである。この装置によれば、存在確率算出手段および無効後存在確率算出手段は、数式1に基づいて、それぞれ、存在確率および無効後存在確率を算出するので、既存の状態遷移モデルを用いて存在確率および無効後存在確率を算出することができる。
Figure 2005275794
(ここで、「R(p)」は概念情報識別情報「p」に対応する概念情報の存在確率であり、「R(q)」は概念情報識別情報「p」に対応する概念情報への参照情報をもつ概念情報識別情報「q」に対応する概念情報の存在確率であり、「C(q)」は概念情報識別情報「q」に対応する概念情報から他の概念情報への参照情報の数である。また、「G」は概念情報をノード、参照情報をエッジとしたグラフであり、「n」はグラフ「G」のノードである概念情報の総数である。「ε」は予め設定される定数である。)
また、請求項3に記載の情報間関係性解析装置は、請求項1または2に記載の情報間関係性解析装置において、上記影響度算出手段は、数式2に示すように、上記存在確率と上記無効後存在確率との差に基づいて、上記影響度情報を算出することを特徴とする。
Figure 2005275794
(ここで、「dR(p)(s)」は評価概念情報識別情報「s」に対応する評価概念情報が注目概念情報識別情報「p」対応する注目概念情報に及ぼす影響度情報である。「R(p)(s)」は、概念情報識別情報「s」に対応する概念情報を参照情報と共に無効にしたときの、概念情報識別情報「p」に対応する概念情報の存在確率である無効後存在確率であり、「R(p)」は、概念情報識別情報「p」に対応する概念情報の存在確率である。)
これは影響度算出手段の一例を一層具体的に示すものである。この装置によれば、影響度算出手段は、数式2に示すように、存在確率と無効後存在確率との差に基づいて、影響度情報を算出するので、簡単な四則演算により影響度情報を算出することができる。
Figure 2005275794
(ここで、「dR(p)(s)」は評価概念情報識別情報「s」に対応する評価概念情報が注目概念情報識別情報「p」対応する注目概念情報に及ぼす影響度情報である。「R(p)(s)」は、概念情報識別情報「s」に対応する概念情報を参照情報と共に無効にしたときの、概念情報識別情報「p」に対応する概念情報の存在確率である無効後存在確率であり、「R(p)」は、概念情報識別情報「p」に対応する概念情報の存在確率である。)
また、請求項4に記載の情報間関係性解析装置は、請求項1〜3のいずれか一つに記載の情報間関係性解析装置において、上記特定概念情報設定手段により設定された上記特定概念情報が複数の場合、上記影響度算出手段により算出された上記影響度情報に基づいて、上記特定概念情報の上記影響度情報からの第1主成分得点を算出する主成分得点算出手段をさらに備えたことを特徴とする。
この装置によれば、設定された特定概念情報が複数の場合、算出された影響度情報に基づいて、特定概念情報の影響度情報からの第1主成分得点を算出するので、例えば、複数の疾患を共に対象とした関連遺伝子を自動的に抽出することができ、新しい薬剤や治療法の開発におけるコスト削減を実現することができる。
また、請求項5に記載の情報間関係性解析装置は、請求項1〜4のいずれか一つに記載の情報間関係性解析装置において、上記影響度算出手段により算出された上記影響度情報および/または上記主成分得点算出手段により算出された上記第1主成分得点に基づいて、上記特定概念情報および/または上記評価概念情報を序列する序列手段をさらに備えたことを特徴とする。
この装置によれば、算出された影響度情報および/または算出された第1主成分得点に基づいて、特定概念情報および/または評価概念情報を、例えば昇順または降順に序列するので、例えば、影響度情報および/または第1主成分得点の絶対値の大きい遺伝子は疾患との深い関連性があるなどの知見を容易に得ることができる。
また、本発明は情報間関係性解析方法に関するものであり、請求項6に記載の情報間関係性解析方法は、概念に対応する情報であって他の上記概念に対応する情報を参照するための参照情報を少なくとも含む概念情報を複数含む概念情報群を取得する概念情報群取得ステップと、上記概念情報群取得ステップにより取得された上記概念情報群の中から、特定の上記概念情報である特定概念情報を設定する特定概念情報設定ステップと、上記概念情報群取得ステップにより取得された上記概念情報群について、各々の上記概念情報を単位に当該概念情報を相互に参照する上記参照情報があるとき、各々の上記概念情報を状態とみて各々の上記参照情報を通して上記概念情報を遷移するモデルで捉え、当該モデルをマルコフ過程と考えたときの上記特定概念情報の存在確率を算出する存在確率算出ステップと、上記概念情報群取得ステップにより取得された上記概念情報群に含まれる上記概念情報に基づいて、評価対象として予め設定された上記概念情報である評価概念情報を当該評価概念情報に含まれる上記参照情報と共に無効にしたときの上記特定概念情報の上記存在確率である無効後存在確率を算出する無効後存在確率算出ステップと、上記存在確率算出ステップにより算出された上記存在確率および上記無効後存在確率算出ステップにより算出された上記無効後存在確率に基づいて、上記評価概念情報が上記特定概念情報設定ステップにより設定された上記特定概念情報に及ぼす影響度に関する情報である影響度情報を算出する影響度算出ステップとを含むことを特徴とする。
この方法によれば、概念(例えば、疾患や遺伝子など)に対応する情報であって他の概念に対応する情報を参照するための参照情報(例えば、Webページにおけるリンクなど)を少なくとも含む概念情報(例えば、Webページなど)を複数含む概念情報群を取得し、取得された概念情報群の中から、特定の概念情報である特定概念情報を設定し、取得された概念情報群について、各々の概念情報を単位に当該概念情報を相互に参照する参照情報があるとき、各々の概念情報を状態とみて各々の参照情報を通して概念情報を遷移するモデルで捉え、当該モデルをマルコフ過程と考えたときの特定概念情報の存在確率を算出し、取得された概念情報群に含まれる概念情報に基づいて、評価対象として予め設定された概念情報である評価概念情報を当該評価概念情報に含まれる参照情報と共に無効にしたときの特定概念情報の存在確率である無効後存在確率を算出し、算出された存在確率および算出された無効後存在確率に基づいて、評価概念情報が特定概念情報に及ぼす影響度に関する情報である影響度情報を算出するので、概念情報間の参照情報に基づく関係性の解析ができる。すなわち、この方法によれば、相互に参照される概念情報群において、ターゲットとする概念情報(評価概念情報)を無効にしたときの他への影響を算出するので、互いの関係性を定量化することができる。また、この方法によれば、参照情報に基づいて互いの概念情報の関係性を定量化しているので、背景にある構造を反映しており、情報間の潜在的な関係性を発見することができる。
また、この方法によれば、例えば疾患関連遺伝子の抽出において、遺伝子を個別にみず、全体を系とみているので、遺伝子間の相互作用が考慮された疾患関連遺伝子を局所的な範囲に限定せずに抽出することができる。具体的には、この方法によれば、例えば、疾患と遺伝子群が医学生物学的結び付きによりリンク構造をもつネットワークを状態遷移モデルで捉え、或る状態(例えば、遺伝子)を無効にしたときの、疾患に相当する状態へ与える変動から、遺伝子の疾患に対する寄与を定量化することができる。また、この方法によれば、例えば、潜在的な疾患関連遺伝子の発見の他、疾患の発症に強く関与する主効果遺伝子を抽出することができる。
また、この方法によれば、例えば、トラフィックに応じて地点間を結ぶ工事の際の最適な迂回路の設計や、人から人への情報の伝達、企業間の資金の流れなどのコネクションに応じたコミュニティ生成に関する予測が可能となる。
また、請求項7に記載の情報間関係性解析方法は、請求項6に記載の情報間関係性解析方法において、上記存在確率算出ステップおよび上記無効後存在確率算出ステップは、数式1に基づいて、それぞれ、上記存在確率および上記無効後存在確率を算出することを特徴とする。
Figure 2005275794
(ここで、「R(p)」は概念情報識別情報「p」に対応する概念情報の存在確率であり、「R(q)」は概念情報識別情報「p」に対応する概念情報への参照情報をもつ概念情報識別情報「q」に対応する概念情報の存在確率であり、「C(q)」は概念情報識別情報「q」に対応する概念情報から他の概念情報への参照情報の数である。また、「G」は概念情報をノード、参照情報をエッジとしたグラフであり、「n」はグラフ「G」のノードである概念情報の総数である。「ε」は予め設定される定数である。)
これは存在確率算出ステップおよび無効後存在確立算出ステップの一例を一層具体的に示すものである。この方法によれば、存在確率算出ステップおよび無効後存在確率算出ステップは、数式1に基づいて、それぞれ、存在確率および無効後存在確率を算出するので、既存の状態遷移モデルを用いて存在確率および無効後存在確率を算出することができる。
Figure 2005275794
(ここで、「R(p)」は概念情報識別情報「p」に対応する概念情報の存在確率であり、「R(q)」は概念情報識別情報「p」に対応する概念情報への参照情報をもつ概念情報識別情報「q」に対応する概念情報の存在確率であり、「C(q)」は概念情報識別情報「q」に対応する概念情報から他の概念情報への参照情報の数である。また、「G」は概念情報をノード、参照情報をエッジとしたグラフであり、「n」はグラフ「G」のノードである概念情報の総数である。「ε」は予め設定される定数である。)
また、請求項8に記載の情報間関係性解析方法は、請求項6または7に記載の情報間関係性解析方法において、上記影響度算出ステップは、数式2に示すように、上記存在確率と上記無効後存在確率との差に基づいて、上記影響度情報を算出することを特徴とする。
Figure 2005275794
(ここで、「dR(p)(s)」は評価概念情報識別情報「s」に対応する評価概念情報が注目概念情報識別情報「p」対応する注目概念情報に及ぼす影響度情報である。「R(p)(s)」は、概念情報識別情報「s」に対応する概念情報を参照情報と共に無効にしたときの、概念情報識別情報「p」に対応する概念情報の存在確率である無効後存在確率であり、「R(p)」は、概念情報識別情報「p」に対応する概念情報の存在確率である。)
これは影響度算出ステップの一例を一層具体的に示すものである。この方法によれば、影響度算出ステップは、数式2に示すように、存在確率と無効後存在確率との差に基づいて、影響度情報を算出するので、簡単な四則演算により影響度情報を算出することができる。
Figure 2005275794
(ここで、「dR(p)(s)」は評価概念情報識別情報「s」に対応する評価概念情報が注目概念情報識別情報「p」対応する注目概念情報に及ぼす影響度情報である。「R(p)(s)」は、概念情報識別情報「s」に対応する概念情報を参照情報と共に無効にしたときの、概念情報識別情報「p」に対応する概念情報の存在確率である無効後存在確率であり、「R(p)」は、概念情報識別情報「p」に対応する概念情報の存在確率である。)
また、請求項9に記載の情報間関係性解析方法は、請求項6〜8のいずれか一つに記載の情報間関係性解析方法において、上記特定概念情報設定ステップにより設定された上記特定概念情報が複数の場合、上記影響度算出ステップにより算出された上記影響度情報に基づいて、上記特定概念情報の上記影響度情報からの第1主成分得点を算出する主成分得点算出ステップをさらに含むことを特徴とする。
この方法によれば、設定された特定概念情報が複数の場合、算出された影響度情報に基づいて、特定概念情報の影響度情報からの第1主成分得点を算出するので、例えば、複数の疾患を共に対象とした関連遺伝子を自動的に抽出することができ、新しい薬剤や治療法の開発におけるコスト削減を実現することができる。
また、請求項10に記載の情報間関係性解析方法は、請求項6〜9のいずれか一つに記載の情報間関係性解析方法において、上記影響度算出ステップにより算出された上記影響度情報および/または上記主成分得点算出ステップにより算出された上記第1主成分得点に基づいて、上記特定概念情報および/または上記評価概念情報を序列する序列ステップをさらに含むことを特徴とする。
この方法によれば、算出された影響度情報および/または算出された第1主成分得点に基づいて、特定概念情報および/または評価概念情報を、例えば昇順または降順に序列するので、例えば、影響度情報および/または第1主成分得点の絶対値の大きい遺伝子は疾患との深い関連性があるなどの知見を容易に得ることができる。
また、本発明はプログラムに関するものであり、請求項11に記載の情報間関係性解析方法をコンピュータに実行させることを特徴とするプログラムは、概念に対応する情報であって他の上記概念に対応する情報を参照するための参照情報を少なくとも含む概念情報を複数含む概念情報群を取得する概念情報群取得ステップと、上記概念情報群取得ステップにより取得された上記概念情報群の中から、特定の上記概念情報である特定概念情報を設定する特定概念情報設定ステップと、上記概念情報群取得ステップにより取得された上記概念情報群について、各々の上記概念情報を単位に当該概念情報を相互に参照する上記参照情報があるとき、各々の上記概念情報を状態とみて各々の上記参照情報を通して上記概念情報を遷移するモデルで捉え、当該モデルをマルコフ過程と考えたときの上記特定概念情報の存在確率を算出する存在確率算出ステップと、上記概念情報群取得ステップにより取得された上記概念情報群に含まれる上記概念情報に基づいて、評価対象として予め設定された上記概念情報である評価概念情報を当該評価概念情報に含まれる上記参照情報と共に無効にしたときの上記特定概念情報の上記存在確率である無効後存在確率を算出する無効後存在確率算出ステップと、上記存在確率算出ステップにより算出された上記存在確率および上記無効後存在確率算出ステップにより算出された上記無効後存在確率に基づいて、上記評価概念情報が上記特定概念情報設定ステップにより設定された上記特定概念情報に及ぼす影響度に関する情報である影響度情報を算出する影響度算出ステップとを含むことを特徴とする。
このプログラムによれば、概念(例えば、疾患や遺伝子など)に対応する情報であって他の概念に対応する情報を参照するための参照情報(例えば、Webページにおけるリンクなど)を少なくとも含む概念情報(例えば、Webページなど)を複数含む概念情報群を取得し、取得された概念情報群の中から、特定の概念情報である特定概念情報を設定し、取得された概念情報群について、各々の概念情報を単位に当該概念情報を相互に参照する参照情報があるとき、各々の概念情報を状態とみて各々の参照情報を通して概念情報を遷移するモデルで捉え、当該モデルをマルコフ過程と考えたときの特定概念情報の存在確率を算出し、取得された概念情報群に含まれる概念情報に基づいて、評価対象として予め設定された概念情報である評価概念情報を当該評価概念情報に含まれる参照情報と共に無効にしたときの特定概念情報の存在確率である無効後存在確率を算出し、算出された存在確率および算出された無効後存在確率に基づいて、評価概念情報が特定概念情報に及ぼす影響度に関する情報である影響度情報を算出するので、概念情報間の参照情報に基づく関係性の解析ができる。すなわち、このプログラムによれば、相互に参照される概念情報群において、ターゲットとする概念情報(評価概念情報)を無効にしたときの他への影響を算出するので、互いの関係性を定量化することができる。また、このプログラムによれば、参照情報に基づいて互いの概念情報の関係性を定量化しているので、背景にある構造を反映しており、情報間の潜在的な関係性を発見することができる。
また、このプログラムによれば、例えば疾患関連遺伝子の抽出において、遺伝子を個別にみず、全体を系とみているので、遺伝子間の相互作用が考慮された疾患関連遺伝子を局所的な範囲に限定せずに抽出することができる。具体的には、このプログラムによれば、例えば、疾患と遺伝子群が医学生物学的結び付きによりリンク構造をもつネットワークを状態遷移モデルで捉え、或る状態(例えば、遺伝子)を無効にしたときの、疾患に相当する状態へ与える変動から、遺伝子の疾患に対する寄与を定量化することができる。また、このプログラムによれば、例えば、潜在的な疾患関連遺伝子の発見の他、疾患の発症に強く関与する主効果遺伝子を抽出することができる。
また、このプログラムによれば、例えば、トラフィックに応じて地点間を結ぶ工事の際の最適な迂回路の設計や、人から人への情報の伝達、企業間の資金の流れなどのコネクションに応じたコミュニティ生成に関する予測が可能となる。
また、請求項12に記載のプログラムは、請求項11に記載のプログラムにおいて、上記存在確率算出ステップおよび上記無効後存在確率算出ステップは、数式1に基づいて、それぞれ、上記存在確率および上記無効後存在確率を算出することを特徴とする。
Figure 2005275794
(ここで、「R(p)」は概念情報識別情報「p」に対応する概念情報の存在確率であり、「R(q)」は概念情報識別情報「p」に対応する概念情報への参照情報をもつ概念情報識別情報「q」に対応する概念情報の存在確率であり、「C(q)」は概念情報識別情報「q」に対応する概念情報から他の概念情報への参照情報の数である。また、「G」は概念情報をノード、参照情報をエッジとしたグラフであり、「n」はグラフ「G」のノードである概念情報の総数である。「ε」は予め設定される定数である。)
これは存在確率算出ステップおよび無効後存在確立算出ステップの一例を一層具体的に示すものである。このプログラムによれば、存在確率算出ステップおよび無効後存在確率算出ステップは、数式1に基づいて、それぞれ、存在確率および無効後存在確率を算出するので、既存の状態遷移モデルを用いて存在確率および無効後存在確率を算出することができる。
Figure 2005275794
(ここで、「R(p)」は概念情報識別情報「p」に対応する概念情報の存在確率であり、「R(q)」は概念情報識別情報「p」に対応する概念情報への参照情報をもつ概念情報識別情報「q」に対応する概念情報の存在確率であり、「C(q)」は概念情報識別情報「q」に対応する概念情報から他の概念情報への参照情報の数である。また、「G」は概念情報をノード、参照情報をエッジとしたグラフであり、「n」はグラフ「G」のノードである概念情報の総数である。「ε」は予め設定される定数である。)
また、請求項13に記載のプログラムは、請求項11または12に記載のプログラムにおいて、上記影響度算出ステップは、数式2に示すように、上記存在確率と上記無効後存在確率との差に基づいて、上記影響度情報を算出することを特徴とする。
Figure 2005275794
(ここで、「dR(p)(s)」は評価概念情報識別情報「s」に対応する評価概念情報が注目概念情報識別情報「p」対応する注目概念情報に及ぼす影響度情報である。「R(p)(s)」は、概念情報識別情報「s」に対応する概念情報を参照情報と共に無効にしたときの、概念情報識別情報「p」に対応する概念情報の存在確率である無効後存在確率であり、「R(p)」は、概念情報識別情報「p」に対応する概念情報の存在確率である。)
これは影響度算出ステップの一例を一層具体的に示すものである。このプログラムによれば、影響度算出ステップは、数式2に示すように、存在確率と無効後存在確率との差に基づいて、影響度情報を算出するので、簡単な四則演算により影響度情報を算出することができる。
Figure 2005275794
(ここで、「dR(p)(s)」は評価概念情報識別情報「s」に対応する評価概念情報が注目概念情報識別情報「p」対応する注目概念情報に及ぼす影響度情報である。「R(p)(s)」は、概念情報識別情報「s」に対応する概念情報を参照情報と共に無効にしたときの、概念情報識別情報「p」に対応する概念情報の存在確率である無効後存在確率であり、「R(p)」は、概念情報識別情報「p」に対応する概念情報の存在確率である。)
また、請求項14に記載のプログラムは、請求項11〜13のいずれか一つに記載のプログラムにおいて、上記特定概念情報設定ステップにより設定された上記特定概念情報が複数の場合、上記影響度算出ステップにより算出された上記影響度情報に基づいて、上記特定概念情報の上記影響度情報からの第1主成分得点を算出する主成分得点算出ステップをさらに含むことを特徴とする。
このプログラムによれば、設定された特定概念情報が複数の場合、算出された影響度情報に基づいて、特定概念情報の影響度情報からの第1主成分得点を算出するので、例えば、複数の疾患を共に対象とした関連遺伝子を自動的に抽出することができ、新しい薬剤や治療法の開発におけるコスト削減を実現することができる。
また、請求項15に記載のプログラムは、請求項11〜14のいずれか一つに記載のプログラムにおいて、上記影響度算出ステップにより算出された上記影響度情報および/または上記主成分得点算出ステップにより算出された上記第1主成分得点に基づいて、上記特定概念情報および/または上記評価概念情報を序列する序列ステップをさらに含むことを特徴とする。
このプログラムによれば、算出された影響度情報および/または算出された第1主成分得点に基づいて、特定概念情報および/または評価概念情報を、例えば昇順または降順に序列するので、例えば、影響度情報および/または第1主成分得点の絶対値の大きい遺伝子は疾患との深い関連性があるなどの知見を容易に得ることができる。
また、本発明は記録媒体に関するものであり、請求項16に記載の記録媒体は、上記請求項11〜15のいずれか一つに記載されたプログラムを記録したことを特徴とする。
この記録媒体によれば、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行することによって、請求項11〜15のいずれか一つに記載されたプログラムを、コンピュータを利用して実現することができ、これら各プログラムと同様の効果を得ることができる。
本発明によれば、概念(例えば、疾患や遺伝子など)に対応する情報であって他の概念に対応する情報を参照するための参照情報(例えば、Webページにおけるリンクなど)を少なくとも含む概念情報(例えば、Webページなど)を複数含む概念情報群を取得し、取得された概念情報群の中から、特定の概念情報である特定概念情報を設定し、取得された概念情報群について、各々の概念情報を単位に当該概念情報を相互に参照する参照情報があるとき、各々の概念情報を状態とみて各々の参照情報を通して概念情報を遷移するモデルで捉え、当該モデルをマルコフ過程と考えたときの特定概念情報の存在確率を算出し、取得された概念情報群に含まれる概念情報に基づいて、評価対象として予め設定された概念情報である評価概念情報を当該評価概念情報に含まれる参照情報と共に無効にしたときの特定概念情報の存在確率である無効後存在確率を算出し、算出された存在確率および算出された無効後存在確率に基づいて、評価概念情報が特定概念情報に及ぼす影響度に関する情報である影響度情報を算出するので、概念情報間の参照情報に基づく関係性の解析ができる、情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体を提供することができる。
すなわち、本発明によれば、相互に参照される概念情報群において、ターゲットとする概念情報(評価概念情報)を無効にしたときの他への影響を算出するので、互いの関係性を定量化することができる、情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体を提供することができる。また、本発明によれば、参照情報に基づいて互いの概念情報の関係性を定量化しているので、背景にある構造を反映しており、情報間の潜在的な関係性を発見することができる、情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体を提供することができる。
また、本発明によれば、例えば疾患関連遺伝子の抽出において、遺伝子を個別にみず、全体を系とみているので、遺伝子間の相互作用が考慮された疾患関連遺伝子を局所的な範囲に限定せずに抽出することができる、情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体を提供することができる。具体的には、本発明によれば、例えば、疾患と遺伝子群が医学生物学的結び付きによりリンク構造をもつネットワークを状態遷移モデルで捉え、或る状態(例えば、遺伝子)を無効にしたときの、疾患に相当する状態へ与える変動から、遺伝子の疾患に対する寄与を定量化することができる、情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体を提供することができる。また、本発明によれば、例えば、潜在的な疾患関連遺伝子の発見の他、疾患の発症に強く関与する主効果遺伝子を抽出することができる、情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体を提供することができる。
また、本発明によれば、例えば、トラフィックに応じて地点間を結ぶ工事の際の最適な迂回路の設計や、人から人への情報の伝達、企業間の資金の流れなどのコネクションに応じたコミュニティ生成に関する予測が可能となる、情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体を提供することができる。
また、本発明によれば、既存の状態遷移モデルを用いて存在確率および無効後存在確率を算出することができる、情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体を提供することができる。
また、本発明によれば、簡単な四則演算により影響度情報を算出することができる、情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体を提供することができる。
また、本発明によれば、例えば、複数の疾患を共に対象とした関連遺伝子を自動的に抽出することができ、新しい薬剤や治療法の開発におけるコスト削減を実現することができる、情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体を提供することができる。
さらに、本発明によれば、例えば、影響度情報および/または第1主成分得点の絶対値の大きい遺伝子は疾患との深い関連性があるなどの知見を容易に得ることができる、情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体を提供することができる。
以下に、本発明にかかる情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
そして、後述する実施例では、知識発見の顕著なニーズがあるライフサイエンス分野を対象にし、疾患関連遺伝子の探索へ応用した実験結果を述べ、本発明の有効性を示す。
[本発明の概要]
以下、本発明の概要について説明し、その後、本発明の構成および処理等について詳細に説明する。
図1は、本発明の基本原理を示す原理構成図である。
本発明は、概略的に、以下の基本的特徴を有する。すなわち、本発明は、まず、概念(例えば、疾患や遺伝子など)に対応する情報であって他の概念に対応する情報を参照するための参照情報(例えば、Webページへのリンクなど)を少なくとも含む概念情報(例えば、Webページなど)を複数含む概念情報群を取得し、概念情報群ファイルの所定の記憶領域に格納する(ステップS−1)。具体的には、例えば、ある疾患または遺伝子に対応し、他の疾患または遺伝子に対応するページに向けてリンクを張るWebページを複数含むページ群を取得する。つまり、相互に参照しあう構造を有するページ群を取得する。
ついで、ステップS−1にて取得された概念情報群の中から、特定の概念情報である特定概念情報を設定し、設定された特定概念情報を特定概念情報関係情報ファイルの所定の記憶領域に格納する(ステップS−2)。具体的には、例えば、ユーザが注目する特定の疾患に対応するWebページを設定する。
ついで、ステップS−1にて取得された概念情報群について、各々の概念情報を単位に当該概念情報を相互に参照する参照情報があるとき、各々の概念情報を状態とみて各々の参照情報を通して概念情報を遷移するモデルで捉え、当該モデルをマルコフ過程と考えたときの特定概念情報の存在確率を算出し、特定概念情報関係情報ファイルの所定の記憶領域に格納する(ステップS−3)。
ついで、ステップS−1にて取得された概念情報群に含まれる概念情報に基づいて、評価対象として予め設定された概念情報である評価概念情報を当該評価概念情報に含まれる参照情報と共に無効にしたときの特定概念情報の存在確率である無効後存在確率を算出し、特定概念情報関係情報ファイルの所定の記憶領域に格納する(ステップS−4)。具体的には、例えば、ある遺伝子に対応するWebページをリンクと共に無効にした際の、先に設定した特定の疾患に対応するWebページの存在確率を算出する。
ここで、ステップS−3およびステップS−4において、以下の数式1に基づいて、それぞれ、存在確率および無効後存在確率を算出してもよい。
Figure 2005275794
(ここで、「R(p)」は概念情報識別情報「p」に対応する概念情報の存在確率であり、「R(q)」は概念情報識別情報「p」に対応する概念情報への参照情報をもつ概念情報識別情報「q」に対応する概念情報の存在確率であり、「C(q)」は概念情報識別情報「q」に対応する概念情報から他の概念情報への参照情報の数である。また、「G」は概念情報をノード、参照情報をエッジとしたグラフであり、「n」はグラフ「G」のノードである概念情報の総数である。「ε」は予め設定される定数である。)
ついで、ステップS−3にて算出された存在確率およびステップS−4にて算出された無効後存在確率に基づいて、評価概念情報がステップS−2にて設定された特定概念情報に及ぼす影響度に関する情報である影響度情報を算出し、特定概念情報関係情報ファイルの所定の記憶領域に格納する(ステップS−5)。具体的には、例えば、ある遺伝子に対応するWebページをリンクと共に無効にした(ノックアウトした)ことによる先に設定した疾患に対応するWebページへの影響の度合いを算出する。
ここで、ステップS−5において、以下の数式2に示すように、存在確率と無効後存在確率との差に基づいて、影響度情報を算出してもよい。
Figure 2005275794
(ここで、「dR(p)(s)」は評価概念情報識別情報「s」に対応する評価概念情報が注目概念情報識別情報「p」対応する注目概念情報に及ぼす影響度情報である。「R(p)(s)」は、概念情報識別情報「s」に対応する概念情報を参照情報と共に無効にしたときの、概念情報識別情報「p」に対応する概念情報の存在確率である無効後存在確率であり、「R(p)」は、概念情報識別情報「p」に対応する概念情報の存在確率である。)
また、ステップS−2にて設定された特定概念情報が複数の場合、ステップS−5にて算出された影響度情報に基づいて、特定概念情報の影響度情報からの第1主成分得点などの主成分得点を算出してもよい。
また、ステップS−5にて算出された影響度情報および/または算出された第1主成分得点などの主成分得点に基づいて、特定概念情報および/または評価概念情報を例えば昇順または降順に序列してもよい。
[システム構成]
次に、本システムの構成について説明する。
図2は、本発明が適用される本システムの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。
図2において、ネットワーク300は、情報間関係性解析装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネット等である。
図2において、外部システム200は、ネットワーク300を介して、情報間関係性解析装置100と相互に接続され、利用者に対して文書情報、論文情報等に関する外部データベースや各種の外部プログラムを実行するウェブサイトを提供する機能を有する。
ここで、外部システム200は、WEBサーバやASPサーバ等として構成してもよく、そのハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよい。また、外部システム200の各機能は、外部システム200のハードウェア構成中のCPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現される。
図2において、情報間関係性解析装置100は、概略的に、情報間関係性解析装置100の全体を統括的に制御するCPU等の制御部102、通信回線等に接続されるルータ等の通信装置(図示せず)に接続される通信制御インターフェース部104、各種のデータベースやファイルなどを格納する記憶部106、および、入力装置112や出力装置114に接続される入出力制御インターフェース部108を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。さらに、この情報間関係性解析装置100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク300に通信可能に接続されている。
図2の記憶部106に格納される各種のデータベースやテーブルやファイル(概念情報群ファイル106a〜序列結果ファイル106d)は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
これら記憶部106の各構成要素のうち、概念情報群ファイル106aは、後述する概念情報群取得部102aにより取得された、概念に対応する情報であって他の概念に対応する情報を参照するための参照情報を少なくとも含む概念情報を複数含む概念情報群を格納する概念情報群格納手段である。この概念情報群ファイル106aに格納される情報は、複数の概念情報で構成されている。
また、特定概念情報関係情報ファイル106bは、後述する特定概念情報設定部102bにより設定された特定概念情報において、後述する存在確率算出部102cにより算出された存在確率と、後述する無効後存在確率算出部102dにより算出された無効後存在確率と、後述する無効後存在確率算出部102dにより無効後存在確率を算出する際に無効にした評価概念情報と、後述する影響度算出部102eにより算出された影響度情報を格納する特定概念情報関係情報格納手段である。図3は、特定概念情報関係情報ファイル106bに格納される情報の一例を示す図である。この特定概念情報関係情報ファイル106bに格納される情報は、図3に示すように、特定概念情報を一意に識別するための特定概念情報識別情報と、特定概念情報の存在確率と、無効にした評価概念情報を一意に識別するための評価概念情報識別情報と、各評価概念情報に対応する無効後存在確率および影響度と、を相互に関連付けて構成されている。
また、主成分得点ファイル106cは、設定された特定概念情報が複数の場合、後述する主成分得点算出部102fにより、影響度情報に基づいて算出した、特定概念情報の影響度情報からの第1主成分得点などの主成分得点を格納する主成分得点格納手段である。この主成分得点ファイル106cに格納される情報は、特定概念情報の影響度情報からの第1主成分得点などの主成分得点で構成されている。
また、序列結果ファイル106dは、後述する序列部102gにより、特定概念情報および/または評価概念情報を、影響度情報および/または第1主成分得点などの主成分得点に基づいて序列した結果である序列結果を格納する序列結果格納手段である。この序列結果ファイル106dに格納される情報は、特定概念情報および/または評価概念情報を、影響度情報および/または第1主成分得点などの主成分得点に基づいて序列した結果である序列結果で構成されている。
また、図2において、通信制御インターフェース部104は、情報間関係性解析装置100とネットワーク300(またはルータ等の通信装置)との間における通信制御を行う。すなわち、通信制御インターフェース部104は、他の端末と通信回線を介してデータを通信する機能を有する。
また、図2において、入出力制御インターフェース部108は、入力装置112や出力装置114の制御を行う。ここで、出力装置114としては、モニタ(家庭用テレビを含む)の他、スピーカ等を用いることができる(なお、以下においては出力装置114をモニタとして記載する場合がある)。また、入力装置112としては、キーボード、マウス、および、マイク等を用いることができる。また、モニタも、マウスと協働してポインティングデバイス機能を実現する。
また、図2において、制御部102は、OS(Operating System)等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部102は、機能概念的に、概念情報群取得部102a、特定概念情報設定部102b、存在確率算出部102c、無効後存在確率算出部102d、影響度算出部102e、主成分得点算出部102fおよび序列部102gを含んで構成されている。
このうち、概念情報群取得部102aは、概念に対応する情報であって他の概念に対応する情報を参照するための参照情報を少なくとも含む概念情報を複数含む概念情報群を取得する概念情報群取得手段である。
また、特定概念情報設定部102bは、概念情報群の中から、特定の概念情報である特定概念情報を設定する特定概念情報設定手段である。
また、存在確率算出部102cは、概念情報群について、各々の概念情報を単位に当該概念情報を相互に参照する参照情報があるとき、各々の概念情報を状態とみて各々の参照情報を通して概念情報を遷移するモデルで捉え、当該モデルをマルコフ過程と考えたときの特定概念情報の存在確率を算出する存在確率算出手段である。
また、無効後存在確率算出部102dは、概念情報群に含まれる概念情報に基づいて、評価対象として予め設定された概念情報である評価概念情報を当該評価概念情報に含まれる参照情報と共に無効にしたときの特定概念情報の存在確率である無効後存在確率を算出する無効後存在確率算出手段である。
また、影響度算出部102eは、存在確率および無効後存在確率に基づいて、評価概念情報が特定概念情報に及ぼす影響度に関する情報である影響度情報を算出する影響度算出手段である。
また、主成分得点算出部102fは、特定概念情報が複数の場合、影響度情報に基づいて、特定概念情報の影響度情報からの第1主成分得点などの主成分得点を算出する主成分得点算出手段である。
また、序列部102gは、影響度情報および/または第1主成分得点などの主成分得点に基づいて、特定概念情報および/または評価概念情報を序列する序列手段である。
なお、これら各部によって行われる処理の詳細については、後述する。
[システムの処理]
次に、このように構成された本実施の形態における本システムの処理の一例について、以下に図4を参照して詳細に説明する。図4は、本実施形態における本システムのメイン処理の一例を示すフローチャートである。
まず、情報間関係性解析装置100は、概念情報群取得部102aの処理により、概念(例えば、疾患や遺伝子など)に対応する情報であって他の概念に対応する情報を参照するための参照情報(例えば、Webページへのリンクなど)を少なくとも含む概念情報(例えば、Webページなど)を複数含む概念情報群を取得し、概念情報群ファイル106aの所定の記憶領域に格納する(ステップSA−1)。具体的には、例えば、ある疾患または遺伝子に対応し、他の疾患または遺伝子に対応するページに向けてリンクを張るWebページを複数含むページ群を取得する。つまり、相互に参照しあう構造を有するページ群を取得する。
ついで、情報間関係性解析装置100は、特定概念情報設定部102bの処理により、ステップSA−1にて取得された概念情報群の中から、特定の概念情報である特定概念情報を設定し(具体的には、例えば、ユーザが注目する特定の疾患に対応するWebページを設定し)、設定された特定概念情報を特定概念情報関係情報ファイル106bの所定の記憶領域に格納する(ステップSA−2)。具体的には、設定された特定概念情報を一意に識別する特定概念情報識別情報を特定概念情報関係情報ファイル106bの所定の記憶領域に格納する。
ついで、情報間関係性解析装置100は、存在確率算出部102cの処理により、ステップSA−1にて取得された概念情報群について、各々の概念情報を単位に当該概念情報を相互に参照する参照情報があるとき、各々の概念情報を状態とみて各々の参照情報を通して概念情報を遷移するモデルで捉え、当該モデルをマルコフ過程と考えたときの特定概念情報の存在確率を算出し、特定概念情報関係情報ファイル106bの所定の記憶領域に格納する(ステップSA−3)。
ついで、情報間関係性解析装置100は、無効後存在確率算出部102dの処理により、ステップSA−1にて取得された概念情報群に含まれる概念情報に基づいて、評価対象として予め設定された概念情報である評価概念情報を当該評価概念情報に含まれる参照情報と共に無効にしたときの特定概念情報の存在確率である無効後存在確率を算出し、特定概念情報関係情報ファイル106bの所定の記憶領域に格納する(ステップSA−4)。具体的には、例えば、ある遺伝子に対応するWebページをリンクと共に無効にした際の、先に設定した特定の疾患に対応するWebページの存在確率を算出する。
ここで、ステップSA−3およびステップSA−4において、以下の数式1に基づいて、それぞれ、存在確率および無効後存在確率を算出してもよい。
Figure 2005275794
(ここで、「R(p)」は概念情報識別情報「p」に対応する概念情報の存在確率であり、「R(q)」は概念情報識別情報「p」に対応する概念情報への参照情報をもつ概念情報識別情報「q」に対応する概念情報の存在確率であり、「C(q)」は概念情報識別情報「q」に対応する概念情報から他の概念情報への参照情報の数である。また、「G」は概念情報をノード、参照情報をエッジとしたグラフであり、「n」はグラフ「G」のノードである概念情報の総数である。「ε」は予め設定される定数である。)
ついで、情報間関係性解析装置100は、影響度算出部102eの処理により、ステップSA−3にて算出された存在確率およびステップSA−4にて算出された無効後存在確率に基づいて、評価概念情報がステップSA−2にて設定された特定概念情報に及ぼす影響度に関する情報である影響度情報を算出し、特定概念情報関係情報ファイル106bの所定の記憶領域に格納する(ステップSA−5)。具体的には、例えば、ある遺伝子に対応するWebページをリンクと共に無効にした(ノックアウトした)ことによる先に設定した疾患に対応するWebページへの影響の度合いを算出する。
ここで、ステップSA−5において、以下の数式2に示すように、存在確率と無効後存在確率との差に基づいて、影響度情報を算出してもよい。
Figure 2005275794
(ここで、「dR(p)(s)」は評価概念情報識別情報「s」に対応する評価概念情報が注目概念情報識別情報「p」対応する注目概念情報に及ぼす影響度情報である。「R(p)(s)」は、概念情報識別情報「s」に対応する概念情報を参照情報と共に無効にしたときの、概念情報識別情報「p」に対応する概念情報の存在確率である無効後存在確率であり、「R(p)」は、概念情報識別情報「p」に対応する概念情報の存在確率である。)
また、情報間関係性解析装置100は、ステップSA−2にて設定された特定概念情報が複数の場合、主成分得点算出部102fの処理により、ステップSA−5にて算出された影響度情報に基づいて、特定概念情報の影響度情報からの第1主成分得点などの主成分得点を算出し、主成分得点ファイル106cの所定の記憶領域に格納してもよい。
また、情報間関係性解析装置100は、序列部102gの処理により、ステップSA−5にて算出された影響度情報および/または算出された第1主成分得点などの主成分得点に基づいて、特定概念情報および/または評価概念情報を例えば昇順または降順に序列し、序列結果を序列結果ファイル106dの所定の記憶領域に格納してもよい。
以上、メイン処理が終了する。
(他の実施の形態)
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。
例えば、情報間関係性解析装置100は、情報間関係性解析装置100とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。
また、実施形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
また、情報間関係性解析装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
例えば、情報間関係性解析装置100の各部または各装置が備える処理機能、特に制御部102にて行なわれる各処理機能については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。なお、プログラムは、後述する記録媒体に記録されており、必要に応じて情報間関係性解析装置100に機械的に読み取られる。
すなわち、ROMまたはHDなどの記憶部106などには、OS(Operating System)と協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAM等にロードされることによって実行され、CPUと協働して制御部102を構成する。また、このコンピュータプログラムは、情報間関係性解析装置100に対して任意のネットワーク300を介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるROM、RAM、HD等の任意の「固定用の物理媒体」、あるいは、LAN、WAN、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。
また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
記憶部106に格納される各種のファイル等(概念情報群ファイル106a〜序列結果ファイル106d)は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
また、情報間関係性解析装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。
さらに、情報間関係性解析装置100の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をCGI(Common Gateway Interface)を用いて実現してもよい。
また、ネットワーク300は、情報間関係性解析装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、LAN(有線/無線の双方を含む)や、VANや、パソコン通信網や、公衆電話網(アナログ/デジタルの双方を含む)や、専用回線網(アナログ/デジタルの双方を含む)や、CATV網や、IMT2000方式、GSM方式またはPDC/PDC−P方式等の携帯回線交換網/携帯パケット交換網や、無線呼出網や、Bluetooth等の局所無線網や、PHS網や、CS、BSまたはISDB等の衛星通信網等のうちいずれかを含んでもよい。すなわち、本システムは、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。
次に、本発明の実施例について、図5から図14等を参照して詳細に説明する。
本実施例においては、ヒトの遺伝病に関するデータベースとしてよく知られるOMIM(Online Mendelian Inheritance in Man)(例えば、「A.Hamosh, AF.Scott, J.Amberger, D.Valle, VA.McKusick, “Online Mendelian Inheritance in Man (OMIM)”, Hum. Mutat., vol.15, No.1, pp57−61, 2000」参照。)を用い、高血圧(例えば、「三木 哲郎, “高血圧遺伝子解析プロジェクト”, 遺伝子医学, Vol.5, No.4, pp.126−130, 2001」参照。)をはじめ、複数の遺伝子が複雑に関与する生活習慣病(例えば、「堀内 正嗣, 福田 恵一, 森下 竜一, “生活習慣と遺伝子疾患”, メディカルレビュー社, 2002」参照。)を疾患の例にした実験結果を通して本発明の有効性を示す。
本実施例のねらいは、情報の相互参照構造から、系でみたそれら情報間の関係性を捉え、本発明により、1万規模の遺伝子間の相互作用を通して、疾患関連遺伝子の探索を実現する点を示すことにある。
(1.実験に用いるデータ)
ヒトの遺伝病に関するデータベースとしてよく知られるOMIM(Online Mendelian Inheritance in Man)(例えば、「A.Hamosh, AF.Scott, J.Amberger, D.Valle, VA.McKusick, “Online Mendelian Inheritance in Man (OMIM)”, Hum. Mutat., vol.15, No.1, pp57−61, 2000」参照。)を本実験では用いる。
OMIMは疾患や遺伝子(上述した本実施形態における概念に対応)について記述されたページ(上述した本実施形態における概念情報に対応)から構成され、各々のページはその疾患や遺伝子を単位に番号(上述した本実施形態における概念情報識別情報に対応)が付与されている。各ページの記述に、多型をはじめとする医学生物学的知見に基づく結び付きから、疾患や遺伝子のページがリンク(上述した本実施形態における参照情報に対応)により参照されており、疾患や遺伝子間の関係はそれらのページ中の番号により相互参照情報として取得した。
疾患と遺伝子の計13722ページ(2001年12月時点)の間で、全ての組み合せの約0.023%の43956のリンクが張られている。なお、本実験では、重複する同じリンクは2度以上数えないこととする。
(2.予備実験)
ここでは、疾患や遺伝子にそれぞれ対応するページ群における参照構造から得られる存在確率「R」の値(上述した本実施形態における数式1参照。)について述べる。
図7は、遺伝子のみを対象に存在確率Rの値を示す図である。なお、遺伝子は、遺伝子名の得られる10001件を対象としている。また、遺伝子名は、各ページのタイトル部分から得た。図7では、存在確率Rの値を縦軸に、横軸にはその値の降順に遺伝子を並べている。
図7に示すように、相対的に大きな値をもつ数百の遺伝子がある一方で、全体の約7割から8割は同等の小さな値となる構造となっていることがわかる。ここで、ネットワーク研究(例えば、「アルバート=ラズロ・バラバシ, “新ネットワーク思考−世界のしくみを読み解く”, NHK出版, 2002」参照。)によると、インターネットにおけるWebページのアクセス人気度やWebページ間を結ぶ構造などは、ベキ法則に従うことが知られている。ベキ法則では上限がなく、下限に近づくほど増える分布となり、上には上が下には下がいる関係がどこにも同じように現れる特性から、スケールフリーと呼ばれる。例えば、大腸菌の代謝ネットワークなどに、スケールフリー・トポロジーが見出され、生物学的ネットワークの考察の1つの捉え方として興味深い。
図8は、図7で示した存在確率Rの値の上位30の遺伝子を示す図である。図8において、被リンク数の多い遺伝子が挙がっていることから、これら遺伝子は、疾患との関係や生物学的な意義などの理由から研究対象として注目されるハブ的役割の遺伝子とみることができる。ここで、存在確率Rの値は、当該遺伝子のもつ「票」の数に相当し、ネットワーク全体に対する関わりの深さを意味する量となっている。例えば、図8において、第1位の「TP53」という遺伝子は、ヒト腫瘍で変異のみられる癌抑制遺伝子(例えば、「医学大辞典, 南山堂, 1998」参照。)として、極めて著名な遺伝子である。
(3.疾患関連遺伝子の探索)
ここでは、本発明による疾患関連遺伝子の抽出において、注目する疾患の存在確率Rの値を予めもって基準とし、遺伝子をノックアウトすることによる変動から、関係の序列を得る。具体的には、高血圧を疾患の例に、疾患関連遺伝子抽出の実験結果について述べる。
ここで、高血圧は、発症に少なくとも10数個は存在する(例えば、「勝谷 友宏, 槍垣 實男, 荻原 俊男, “高血圧症の病因遺伝子”, 最新医学, Vol.55, No.11, 2000」参照。)とされる複数の遺伝子が複雑に関与する代表的な多遺伝子性疾患である。そして、複数の遺伝子のうち、発症に強く関与する1〜数個の遺伝子を指す主効果遺伝子の見極めが重要とされている(例えば、「佐藤 憲幸, 槍垣 實男, 荻原 俊男, “高血圧”, 臨床検査, Vol.42, No.12, pp.1543−1548, 1998」参照。)。
高血圧は、OMIMの番号が145500の疾患のページで記述される(例えば、「三木 哲郎, “高血圧遺伝子解析プロジェクト”, 遺伝子医学, Vol.5, No.4, pp.126−130, 2001」参照。)。なお、当該ページは、26の外に向けたリンク、13の被リンクがあり、存在確率R(145500)は、0.000535が得られている。
関連遺伝子の抽出は、遺伝子のページをノックアウト、即ち、リンク構造から除外したことによる、この145500のページに関する変動dR(上述した本実施形態における数式3を参照。)を序列化することで実現される。
本実験では、処理量の観点から、便宜的に、アルツハイマー病、癌、糖尿病、高血圧および喘息の5つの疾患に関連が知られる、それぞれ、56、428、94、39および24の遺伝子からの計620遺伝子をノックアウトの対象とした。
ここで、この5つの疾患は、ミレニアム・ゲノム・プロジェクトで克服を目指すターゲットの5大疾患に相当する(例えば、「三木 哲郎, “高血圧遺伝子解析プロジェクト”, 遺伝子医学, Vol.5, No.4, pp.126−130, 2001」参照。)。また、遺伝子は、遺伝子情報ポータルとしてよく知られる「GeneCards(例えば、「M.Rebhan et al., “GeneCards: a novel functional genomics compendium with automated data mining and query reformulation support”, Bioinformatics, 14, pp656−664, 1998」参照。)」において、“Alzheimer”、“cancer”、“diabetes”、“hypertension”および“asthma”の検索後で得られた(2001年12月時点)中から、OMIMの番号のある遺伝子を関連遺伝子として得た。なお、21の遺伝子については、5つのうちの複数の疾患で重複して関連する。
図9は、620の各遺伝子のノックアウトによる高血圧のページに関するdR(145500)の値の分布を示す図である。図9において、dRの値を縦軸に、横軸はその値の昇順に遺伝子を並べている。
図9に示すように、両サイドに偏って値をもっていることから、関連が顕著に示される遺伝子が全体の一部に限られていることがわかる。
また、任意の2つのページをリンクによりつなぐ経路(但し、向きは考えない。)の中で、最短で経由するページの数を「隣接長」と定義するとき、620の遺伝子と高血圧のページとの隣接長L(145500)を、図9と同じ横軸で、図10に示す。図10は、高血圧に関するdR(145500)の値の序列に対する隣接長L(145500)の分布を示す図である。ここで、高血圧のページにおける隣接長の最大値は5であり、図10において、隣接長が5を超える遺伝子は、リンクでつながりを持たないことを意味している。
図10に示すように、図9と対応して、中央部に上に凸の形状が示され、遺伝子疾患へのリンク上の隔たりと関連の深さに相関が確認される。
図11および図12は、それぞれ、dR(145500)の値の負の側および正の側からの上位20による高血圧の関連遺伝子を示す図である。なお、図11および図12には、各遺伝子の高血圧のページとの隣接長L、OMIM本文のページの中の“hypertension”の語の頻度、並びに、GeneCards(例えば、「M.Rebhan et al., “GeneCards: a novel functional genomics compendium with automated data mining and query reformulation support”, Bioinformatics, 14, pp656−664, 1998」参照。)および高血圧候補遺伝子リスト(例えば、「MK.Halushka et al., “GIST: A web tool for collecting gene information”, Physiol. Genomics, vol.1, No.2, pp75−81, 1999」参照。)で高血圧に関連するとされる遺伝子(高血圧候補遺伝子リストにおいて、実験対象とした620遺伝子では41遺伝子が含まれる。)が、それぞれ、“H”および“h”の印により、あわせて示されている。ここで、図11および図12において、“i”および“o”は、それぞれ、当該遺伝子のページから高血圧のページへ、および、高血圧のページから当該遺伝子のページへ、隣接長0の直接のリンクのあることを表している。
ここで、上述したサーチエンジン(例えば、「山名 早人, 近藤 秀和, “解説 サーチエンジン Google”, 情報処理, Vol.42, No.8, pp.775−780, 2001」参照。)では、検索語の含まれたページを対象に、Rの値の降順により、検索結果を得る方法が採られている。この方法によれば、本発明で抽出された図11や図12において語の頻度が0の遺伝子は含まれず、範囲が限定された結果となる。
図13は、620遺伝子において、高血圧のページ(hypertension)からの隣接長が0または1となる34遺伝子を対象に、高血圧のページとのリンク構造を矢印の向きで示す図である。なお、図13において、網掛けは、GeneCardsでの関連遺伝子(図11および図12の“H”の印に対応)を表している。ここで、図13は、高血圧と34遺伝子のページに関する部分的な構造であり、解析の基となる全遺伝子の構造とは厳密には様相が異なる。すなわち、図11および図12の隣接長は全ページから算出され、620遺伝子で算出した図13での隣接長0または1と一致しない。なお、多数のページからなるリンク構造のビジュアライゼーションは、それ自体が新たな別の研究テーマといえる(例えば、「ER.Gansner, SC.North, “An open graph visualization system and its applications to software enginnering”, Softw. Pract. Exper., S1, pp1−5, 1999」参照。)。
図13に示すように、高血圧のページと直接リンクのあるページは、28件ある中で対象の620遺伝子の範囲では15件あり、GeneCardsによる関連遺伝子に含まれないACE、TNF、CAST遺伝子も含めて図11および図12に全て挙げられている。
図11および図12をみると、その直接リンクのある“i”や“o”の印の遺伝子の他に、直接リンクのない、即ち、高血圧の記述されるページをみる限りでは関連を知り得ない遺伝子が含まれていることがわかる。
ここで、VHL遺伝子は、リンクのある遺伝子に挟まれる形で、図11の5番目の上位に挙げられているが、“hypertension”の語の頻度が4となっている通り、OMIM本文で高血圧に関連するとの記述があり、文献「安部 道子, 名倉 潤, 三木 哲郎, “高血圧感受性遺伝子を探して”, 医学のあゆみ, Vol.197, No.13, pp.1117−1121, 2001」でも、単一遺伝子による高血圧原因遺伝子として関連が知られている。
また、図11の12番目のAVPR2遺伝子、20番目のIAPP遺伝子、図12の5番目のINS遺伝子、16番目のTGFB1遺伝子、20番目のADRB2遺伝子は、図13で描かれた遺伝子群に含まれないが、“h”の印を通して妥当に挙がっていることが確認できる。また、他には、図11の19番目のRET遺伝子、図12の14番目のWT1遺伝子では、共にOMIM本文中に“hypertension”の語がなく、また“H”や“h”の印もなくてあまり知られていないが、前者は文献「安部 道子, 名倉 潤, 三木 哲郎, “高血圧感受性遺伝子を探して”, 医学のあゆみ, Vol.197, No.13, pp.1117−1121, 2001」で単一遺伝子による高血圧原因遺伝子として、後者は文献「R.Davies, A.Moore, A.Schedl, E.Bratt, K.Miyahawa, M.Ladomery, C.Miles, A.Menke, V.van Heyningen, N.Hastie, “Multiple roles for the Wilms' tumor suppressor, WT1”, Cancer Res., 59, pp.1747−1750, 1999」で高血圧との関連の報告があり、妥当といえる。
これら遺伝子は、リンク構造に基づく関係性の解析により発見されたとみることができ、本発明により有用な疾患関連遺伝子が得られることがわかる。また、本発明による疾患関連遺伝子の序列結果は、生物学的知見と対応するものであると考えられる。
ここで、高血圧に密接に関わるレニン−アンジオテンシン系と呼ばれる血圧調節機構があり、レニン−アンジオテンシン系に関連する遺伝子が高血圧関連遺伝子として最も重要(例えば、「檜垣 實男, 勝谷 友宏, 荻原 俊男, “遺伝疫学:高血圧”, 循環器科, 48, pp.158−162, 2000」参照。)で、ACE、AGT、AGTR1遺伝子の3つがよく取り上げられる(例えば、「B.Baudin, “Angiotensin II receptor polymorphism in hypertension. harmocogenomic considerations.”, Pharmacogenomics, 3, pp.65−73, 2002」参照。)とされている。
ここで、レニン−アンジオテンシン系の関連遺伝子について簡単に説明する。レニン−アンジオテンシン系の関連遺伝子としては、AGT、REN、ACE、AGTR1遺伝子が知られている。ホルモンの前駆体であるアンジオテンシノーゲン(AGT)は、レニン(REN)、アンジオテンシン変換酵素(ACE)の作用によって活性化されてアンジオテンシンレセプター(AGTR1)に結合して血管壁を収縮させ、血圧が上昇するとされている。なお、REN遺伝子は、対象の620遺伝子に含まれていない。
本実験結果は、それと符合して、それら3つが図11と図12の上位(図11の2番目、3番目、図12の1番目)に自動抽出されることは、特筆すべき点である。
ここで、アルドステロン分泌によるナトリウム代謝を介したフィードバックにより血圧を調節する系は、医学生物学的知見としてよく知られている(例えば、「医学大辞典, 南山堂, 1998」参照。)。ACE、AGT遺伝子が昇圧に作用するアンジオテンシンに関係する一方で、SCNN1B、SCNN1G遺伝子はナトリウム、AGTR1、CYP11B1、CYP11B2遺伝子はアルドステロンに関係することを対比すると、図11と図12に医学生物学的知見との整合が考えられる。
(4.複数の疾患における関連遺伝子の探索)
ここでは、複数の疾患に共通の関連遺伝子を抽出する実験結果について述べる。本発明を用いることにより、疾患に応じた複数の変動dR(上述した本実施形態における数式3参照。)から算出される主成分得点で対象疾患への総合的寄与を表し、その序列で共通に関連する遺伝子発見を図る。
本実験では、生活習慣病として文献「佐々木 博巳, “バイオ研究イラストマップ〜研究テーマ別の重要因子と要点がすぐわかる〜”, 羊土社, 2001」により互いに関わりの知られる高血圧、糖尿病、高脂血症および肥満の4つの疾患を対象とした。
ここで、この4つの疾患に共通な基盤としてインスリン抵抗性が知られており、心筋梗塞や脳卒中などの動脈硬化性疾患へつながる医学的知見が得られている(例えば、「堀内 正嗣, 福田 恵一, 森下 竜一, “生活習慣と遺伝子疾患”, メディカルレビュー社, 2002」、「佐々木 博巳, “バイオ研究イラストマップ〜研究テーマ別の重要因子と要点がすぐわかる〜”, 羊土社, 2001」参照。)。ここで、インスリンとは、筋肉の運動時などに必要なブドウ糖をエネルギーに変えるホルモンである。このインスリンが十分あるのに利用されず血糖値が高くなる状態、即ち、インスリンの作用不足が、インスリン抵抗性がある、と呼ばれる。インスリン抵抗性は、肥満者に多く、インスリン抵抗性の状態になると脂質合成が促進されたり、血圧も上がるなどの悪循環から、臨床的に危険とされている(例えば、「医学大辞典, 南山堂, 1998」参照。)。
糖尿病、高脂血症および肥満の疾患に対応するページは、OMIMの番号がそれぞれ、125853、144250および601665である。なお、各番号の存在確率R(125853)、R(144250)およびR(601665)は、それぞれ、0.001003、0.000194および0.000211が得られている。また、本実験で対象とする遺伝子は前節と同じ620遺伝子である。
ここでは、対象の4つの疾患が相乗的に進展して引き起こされる心筋梗塞に着目し、その関連遺伝子(例えば、「Y.Yamada et al., “Prediction of the risk of myocardial infarction from polymorphisms in candidate genes”, N. Engl. J. Med., vol.347, No.24, pp1916−1923, 2002」参照。)のうち実験対象に該当する16遺伝子の分布を通して評価する。
第1主成分得点の昇順による序列において、得点の小さい遺伝子の方から、1〜200、201〜420、421〜620の3つの範囲にわけるとき、心筋梗塞関連遺伝子は、順に、9、2および5件が含まれる分布が得られ、両サイドへの偏りから医学的知見との整合性が認められる。
ここで、本実験と同様に、第1主成分得点に応じた620遺伝子の序列を3つにわけるとき、骨格筋に関連する12遺伝子は、6、1および5件が含まれる分布となる。骨格筋は、糖全体の60%以上を消費するためにインスリン作用で最も重要な組織であることから、インスリン抵抗性の成因に骨格筋が注目されており(例えば、「船橋 徹, 松澤 佑次, “肥満症の分子機構”, 最新医学, Vol.55, No.11, pp.65−74, 2000」参照。)、ここでも医学的知見との整合性がみられる。この骨格筋のような関連臓器は、蛋白質配列データベースSWISS−PROT(例えば、「A.Bairoch, R.Apweiler, “The SWISS−PROT protein sequence database and its supplement TrEMBL in 2000”, Nucleic. Acids Res., vol.28, No.1, pp45−48, 2000」参照。)より、遺伝子毎に得られ(2002年11月時点)、具体的には各遺伝子の“References”のパートの引用文献に付与される“Comments”の項目にて、“TISSUE=”に続いて記されている臓器を関連臓器としている。
図14には、横軸を4つの変動dR(上述した本実施形態における数式3参照。)から算出される第1主成分得点、縦軸をRの値(上述した本実施形態における数式1参照。)にして620遺伝子の分布を示している。図14は、4つの疾患(高血圧、糖尿病、高脂血症および肥満)のdRからの第1主成分得点とRの値との関係を示す図である。なお、深い関連が示される横軸の絶対値の大きい遺伝子には遺伝子名を記した。
図14に示すように、ここでも上述した図9と同様、深い関連の示される遺伝子は、比較的限定される傾向にあることがわかる。図14において、遺伝子名が記されている遺伝子について、医学生物学的知見を照らし合わせると次の通りである。
インスリン遺伝子(INS)およびインスリン受容体遺伝子(INSR)は、両者の結合によりインスリン作用が発揮されることから、インスリン抵抗性の医学的知見との整合性が認められる。図14では、TNF遺伝子に関連が顕著に示され、続いてTGFB1遺伝子、APOE遺伝子に深い関連が示されている。これらの遺伝子は、いずれも心筋梗塞関連遺伝子(例えば、「Y.Yamada et al.,“Prediction of the risk of myocardial infarction from polymorphisms in candidate genes”, N. Engl. J. Med., vol.347, No.24, pp1916−1923, 2002」参照。)に含まれ、妥当と判断できる。ここで、TNF遺伝子、TGFB1遺伝子は細胞間情報伝達の役割を担うサイトカインである。近年、動脈硬化へのサイトカインの関わりが注目されている。
エネルギーバランスに関与する遺伝子として知られるUCP1遺伝子及び糖代謝に関与する遺伝子として知られるHNF4A遺伝子は、それぞれ、文献「J.Klein, M.Fasshauer, M.Benito, CR.Kahn, “Insulin anda the beta3−adrenoceptor diffentially regulate uncoupling protein−1 expression”, Mol.Endocrinol., vol.14, No.6, pp764−773, 2000」および文献「武田 純, “遺伝子異常と糖尿病”, 日医大誌, Vol.66, No.5, pp.41−43, 1999」でインスリン抵抗性との関連が報告され、妥当性が確認できる。
また、GYS1遺伝子にも、インスリン抵抗性との関連がよく知られ(例えば、「H.Shimomura, T.Sanke, K.Ueda, T.Hanabusa, S.Sakagashira, K.Nanjo, “A missense mutation of the muscle glycogen synthase gene (M416V) is associated with insulin resistance in the Japanese population”, Diabetologia., vol.40, No.8, pp947−952, 1997」参照。)、いずれも有効な抽出結果とみることができる。ここで、Rの値は、上述したように、系全体に与える影響の量と相関があり、副作用回避の観点からRの値の小さい順を指標に創薬ターゲットを選定することが考えられる。
本実験の4つの疾患のような生活習慣病を共に対象にして、遺伝子間の相互作用の考慮された疾患関連遺伝子を抽出した検討例は、これまでみられず(例えば、「鈴木 洋一, “疾患関連遺伝子の総合的解析と相互作用”, メディカル・サイエンス・ダイジェスト, Vol.29, No.7, pp.21−24, 2003」参照。)、疾患関連遺伝子の抽出結果は、医学生物学的知見と対応するものであると考えられる。しかも、ノックアウトスタディによる生物実験で、必ずしも症状が見出されない場合のあることが指摘されている(例えば、「“産総研シリーズ ポストゲノム”, 丸善株式会社, 3.5 タンパク質ネットワーク解析, pp.78−89, 2002」参照。)。
本発明は、実験の設計と検証による知見蓄積のサイクルにおいて、生物学的実験と相補的な位置付けにあり、上述したような有用な疾患関連遺伝子がリンク構造を基に計算機による自動処理を通して得られることが特長といえる。
本発明は、情報間の参照構造に基づく関係性の解析を提案する。本実施例では、本発明の疾患関連遺伝子探索への応用について述べ、高血圧をはじめ生活習慣病を疾患の例に、有用な疾患関連遺伝子が得られることをヒトの遺伝病に関するデータベースOMIMを用いた実験結果を通して示した。
生命現象は、遺伝子の発現により生成されるタンパク質が相互に作用して成り立っており、この相互作用を通して情報が伝達する現象は遺伝子カスケードと呼ばれる(例えば、「村松 正実, “解読されたゲノム情報をどう活かすか”, 東京化学同人, 12. 遺伝子カスケードと新しい創薬プラン, pp.103−111, 2001」参照。)。
疾患は、この遺伝子カスケードが病因により変調をきたし、この変調を乗り切って恒常性を保つために各遺伝子が防御的に働く状態といえ、健常状態に比べて多くの遺伝子の発現に変化が生じる。ここで、例えば、高血圧の発症において、AGT遺伝子とACE遺伝子が相乗的に関連すること(例えば、「CT.Tsai, D.Fallin, FT.Chiang, JJ.Hwang, LP.Lai, KL.Hsu, CD.Tseng, CS.Liau, YZ.Tseng, “Angiotensinogen gene haplotype and hypertension: interaction with ACE gene I allele”, Hypertension, vol.41, No.1, pp9−15, 2003」参照。)、ACE遺伝子とAGTR1遺伝子が共働すること(例えば、「高橋 規郎, 村上 秀子, 児玉 和紀, 笠置 文善, 山田 美智子, 西下 聡英, 稲上 正, “1型アンギオテンシンII型受容体遺伝子の5'−領域の多型と高血圧症との相関”, 放影研報告書, 1−99, 1999」参照。)をはじめとした相互作用(例えば、「SM.Williams, JH.Addy, JA3rd.Phillips, M.Dai, J.Kpodonu, J.Afful, H.Jackson, K.Joseph, F.Eason, MM.Murray, P.Epperson, A.Aduonum, LJ.Wong, PA.Jose, RA.Felder, “Combinations of variations in multiple genes are associated with hypertension”, Hypertension., vol.36, No.1, pp.2−6, 2000」参照。)が明らかにされており、上述したレニン−アンジオテンシン系を代表例とするカスケード理解が発症メカニズム解明と治療や創薬支援への応用に向けて重要となる。
遺伝子間の相互作用の考慮された本発明による解析は、全体を系としてみるシステム生物学の命題に対する1つの実現形といえる。ここで、これまで、例えば、高血圧に関する医学生物学的検討では、環境要因や人種などの集団の違いにより、幾つかの実験結果が必ずしも一致しないことから、決定的な関連遺伝子が特定できない状況下にある(例えば、「安部 道子, 名倉 潤, 三木 哲郎, “高血圧感受性遺伝子を探して”, 医学のあゆみ, Vol.197, No.13, pp.1117−1121, 2001」、「B.Baudin, “Angiotensin II receptor polymorphism in hypertension. Pharmocogenomic considerations.”, Pharmacogenomics, 3, pp.65−73, 2002」参照。)とされ、生活習慣病における遺伝要因と環境要因の分離が期待される。
本発明は、対象を疾患に依存せず解析可能であるが、本実施例で取り上げた生活習慣病への適用が効果的と考えられる。
また、遺伝子カスケードのもたらすダイナミクスの多様性を考察し、食事、運動やストレスなどの環境要因を引き金に疾患が引き起こされる機序理解の解析が今後期待される。
また、本発明は、全体像のふかんを図る遺伝子機能の解析(例えば、「松永 務, “大規模知識構造化のための知識表現モデルと遺伝子機能解析への応用”, 信学論, Vol.J86−D−II, No.8, pp.1196−1204, 2003」参照。)と統合させつつ、対象遺伝子規模を数万規模の全遺伝子へ拡大した実験が可能である。
本発明を基にした遺伝子カスケード推定に関する検討も可能である。
本実施例では、リンク情報を無効にするだけであったが、本発明は、例えば、トラフィックに応じて地点間を結ぶ工事の際の最適な迂回路の設計や、人から人への情報の伝達、企業間の資金の流れや倒産の影響などのコネクションに応じたコミュニティ生成に関する予測などへの展開も可能である。つまり、本発明は、上述した本実施例における疾患関連遺伝子探索などのバイオ、ライフサイエンス、製薬分野に限られず、幅広く他の分野においても適用可能である。
以上のように、本発明にかかる情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体は、相互に参照される情報(例えば、リンクを張るWebページ)群においてターゲットとする情報を無効にしたときの他への影響を算出し、互いの関係性を定量化することができる。
また、本発明にかかる情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体は、疾患関連遺伝子探索や創薬ターゲット候補選定などを行うバイオインフォマティクス分野において極めて有用である。
さらに、本発明にかかる情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体は、産業上の多くの分野、特に、医薬品や医療、ライフサイエンス等の分野で広く実施することができ、極めて有用である。
本発明の基本原理を示す原理構成図である。 本発明が適用される本システムの構成の一例を示すブロック図である。 特定概念情報関係情報ファイル106bに格納される情報の一例を示す図である。 本実施形態における本システムのメイン処理の一例を示すフローチャートである。 7つのページとそれらの相互参照関係の例を示す図である。 図5におけるページのノックアウトの例を示す図である。 OMIMにおける遺伝子のみを対象に存在確率Rの値を示す図である。 図7で示した存在確率Rの値の上位30の遺伝子を示す図である。 620の各遺伝子のノックアウトによる高血圧のページに関するdR(145500)の値の分布を示す図である。 高血圧に関するdR(145500)の値の序列に対する隣接長L(145500)の分布を示す図である。 dR(145500)の値の負の側からの上位20による高血圧の関連遺伝子を示す図である。 dR(145500)の値の正の側からの上位20による高血圧の関連遺伝子を示す図である。 高血圧と620遺伝子中で隣接長が0または1となる34遺伝子によるリンク構造を示す図である。 4つの疾患(高血圧、糖尿病、高脂血症および肥満)のdRからの第1主成分得点とRの値との関係を示す図である。
符号の説明
100 情報間関係性解析装置
102 制御部
102a 概念情報群取得部
102b 特定概念情報設定部
102c 存在確率算出部
102d 無効後存在確率算出部
102e 影響度算出部
102f 主成分得点算出部
102g 序列部
104 通信制御インターフェース部
106 記憶部
106a 概念情報群ファイル
106b 特定概念情報関係情報ファイル
106c 主成分得点ファイル
106d 序列結果ファイル
108 入出力制御インターフェース部
112 入力装置
114 出力装置
200 外部システム
300 ネットワーク

Claims (16)

  1. 概念に対応する情報であって他の上記概念に対応する情報を参照するための参照情報を少なくとも含む概念情報を複数含む概念情報群を取得する概念情報群取得手段と、
    上記概念情報群取得手段により取得された上記概念情報群の中から、特定の上記概念情報である特定概念情報を設定する特定概念情報設定手段と、
    上記概念情報群取得手段により取得された上記概念情報群について、各々の上記概念情報を単位に当該概念情報を相互に参照する上記参照情報があるとき、各々の上記概念情報を状態とみて各々の上記参照情報を通して上記概念情報を遷移するモデルで捉え、当該モデルをマルコフ過程と考えたときの上記特定概念情報の存在確率を算出する存在確率算出手段と、
    上記概念情報群取得手段により取得された上記概念情報群に含まれる上記概念情報に基づいて、評価対象として予め設定された上記概念情報である評価概念情報を当該評価概念情報に含まれる上記参照情報と共に無効にしたときの上記特定概念情報の上記存在確率である無効後存在確率を算出する無効後存在確率算出手段と、
    上記存在確率算出手段により算出された上記存在確率および上記無効後存在確率算出手段により算出された上記無効後存在確率に基づいて、上記評価概念情報が上記特定概念情報設定手段により設定された上記特定概念情報に及ぼす影響度に関する情報である影響度情報を算出する影響度算出手段と、
    を備えたことを特徴とする情報間関係性解析装置。
  2. 上記存在確率算出手段および上記無効後存在確率算出手段は、数式1に基づいて、それぞれ、上記存在確率および上記無効後存在確率を算出すること、
    Figure 2005275794
    (ここで、「R(p)」は概念情報識別情報「p」に対応する概念情報の存在確率であり、「R(q)」は概念情報識別情報「p」に対応する概念情報への参照情報をもつ概念情報識別情報「q」に対応する概念情報の存在確率であり、「C(q)」は概念情報識別情報「q」に対応する概念情報から他の概念情報への参照情報の数である。また、「G」は概念情報をノード、参照情報をエッジとしたグラフであり、「n」はグラフ「G」のノードである概念情報の総数である。「ε」は予め設定される定数である。)
    を特徴とする請求項1に記載の情報間関係性解析装置。
  3. 上記影響度算出手段は、数式2に示すように、上記存在確率と上記無効後存在確率との差に基づいて、上記影響度情報を算出すること、
    Figure 2005275794
    (ここで、「dR(p)(s)」は評価概念情報識別情報「s」に対応する評価概念情報が注目概念情報識別情報「p」対応する注目概念情報に及ぼす影響度情報である。「R(p)(s)」は、概念情報識別情報「s」に対応する概念情報を参照情報と共に無効にしたときの、概念情報識別情報「p」に対応する概念情報の存在確率である無効後存在確率であり、「R(p)」は、概念情報識別情報「p」に対応する概念情報の存在確率である。)
    を特徴とする請求項1または2に記載の情報間関係性解析装置。
  4. 上記特定概念情報設定手段により設定された上記特定概念情報が複数の場合、上記影響度算出手段により算出された上記影響度情報に基づいて、上記特定概念情報の上記影響度情報からの第1主成分得点を算出する主成分得点算出手段、
    をさらに備えたことを特徴とする請求項1〜3のいずれか一つに記載の情報間関係性解析装置。
  5. 上記影響度算出手段により算出された上記影響度情報および/または上記主成分得点算出手段により算出された上記第1主成分得点に基づいて、上記特定概念情報および/または上記評価概念情報を序列する序列手段、
    をさらに備えたことを特徴とする請求項1〜4のいずれか一つに記載の情報間関係性解析装置。
  6. 概念に対応する情報であって他の上記概念に対応する情報を参照するための参照情報を少なくとも含む概念情報を複数含む概念情報群を取得する概念情報群取得ステップと、
    上記概念情報群取得ステップにより取得された上記概念情報群の中から、特定の上記概念情報である特定概念情報を設定する特定概念情報設定ステップと、
    上記概念情報群取得ステップにより取得された上記概念情報群について、各々の上記概念情報を単位に当該概念情報を相互に参照する上記参照情報があるとき、各々の上記概念情報を状態とみて各々の上記参照情報を通して上記概念情報を遷移するモデルで捉え、当該モデルをマルコフ過程と考えたときの上記特定概念情報の存在確率を算出する存在確率算出ステップと、
    上記概念情報群取得ステップにより取得された上記概念情報群に含まれる上記概念情報に基づいて、評価対象として予め設定された上記概念情報である評価概念情報を当該評価概念情報に含まれる上記参照情報と共に無効にしたときの上記特定概念情報の上記存在確率である無効後存在確率を算出する無効後存在確率算出ステップと、
    上記存在確率算出ステップにより算出された上記存在確率および上記無効後存在確率算出ステップにより算出された上記無効後存在確率に基づいて、上記評価概念情報が上記特定概念情報設定ステップにより設定された上記特定概念情報に及ぼす影響度に関する情報である影響度情報を算出する影響度算出ステップと、
    を含むことを特徴とする情報間関係性解析方法。
  7. 上記存在確率算出ステップおよび上記無効後存在確率算出ステップは、数式1に基づいて、それぞれ、上記存在確率および上記無効後存在確率を算出すること、
    Figure 2005275794
    (ここで、「R(p)」は概念情報識別情報「p」に対応する概念情報の存在確率であり、「R(q)」は概念情報識別情報「p」に対応する概念情報への参照情報をもつ概念情報識別情報「q」に対応する概念情報の存在確率であり、「C(q)」は概念情報識別情報「q」に対応する概念情報から他の概念情報への参照情報の数である。また、「G」は概念情報をノード、参照情報をエッジとしたグラフであり、「n」はグラフ「G」のノードである概念情報の総数である。「ε」は予め設定される定数である。)
    を特徴とする請求項6に記載の情報間関係性解析方法。
  8. 上記影響度算出ステップは、数式2に示すように、上記存在確率と上記無効後存在確率との差に基づいて、上記影響度情報を算出すること、
    Figure 2005275794
    (ここで、「dR(p)(s)」は評価概念情報識別情報「s」に対応する評価概念情報が注目概念情報識別情報「p」対応する注目概念情報に及ぼす影響度情報である。「R(p)(s)」は、概念情報識別情報「s」に対応する概念情報を参照情報と共に無効にしたときの、概念情報識別情報「p」に対応する概念情報の存在確率である無効後存在確率であり、「R(p)」は、概念情報識別情報「p」に対応する概念情報の存在確率である。)
    を特徴とする請求項6または7に記載の情報間関係性解析方法。
  9. 上記特定概念情報設定ステップにより設定された上記特定概念情報が複数の場合、上記影響度算出ステップにより算出された上記影響度情報に基づいて、上記特定概念情報の上記影響度情報からの第1主成分得点を算出する主成分得点算出ステップ、
    をさらに含むことを特徴とする請求項6〜8のいずれか一つに記載の情報間関係性解析方法。
  10. 上記影響度算出ステップにより算出された上記影響度情報および/または上記主成分得点算出ステップにより算出された上記第1主成分得点に基づいて、上記特定概念情報および/または上記評価概念情報を序列する序列ステップ、
    をさらに含むことを特徴とする請求項6〜9のいずれか一つに記載の情報間関係性解析方法。
  11. 概念に対応する情報であって他の上記概念に対応する情報を参照するための参照情報を少なくとも含む概念情報を複数含む概念情報群を取得する概念情報群取得ステップと、
    上記概念情報群取得ステップにより取得された上記概念情報群の中から、特定の上記概念情報である特定概念情報を設定する特定概念情報設定ステップと、
    上記概念情報群取得ステップにより取得された上記概念情報群について、各々の上記概念情報を単位に当該概念情報を相互に参照する上記参照情報があるとき、各々の上記概念情報を状態とみて各々の上記参照情報を通して上記概念情報を遷移するモデルで捉え、当該モデルをマルコフ過程と考えたときの上記特定概念情報の存在確率を算出する存在確率算出ステップと、
    上記概念情報群取得ステップにより取得された上記概念情報群に含まれる上記概念情報に基づいて、評価対象として予め設定された上記概念情報である評価概念情報を当該評価概念情報に含まれる上記参照情報と共に無効にしたときの上記特定概念情報の上記存在確率である無効後存在確率を算出する無効後存在確率算出ステップと、
    上記存在確率算出ステップにより算出された上記存在確率および上記無効後存在確率算出ステップにより算出された上記無効後存在確率に基づいて、上記評価概念情報が上記特定概念情報設定ステップにより設定された上記特定概念情報に及ぼす影響度に関する情報である影響度情報を算出する影響度算出ステップと、
    を含む情報間関係性解析方法をコンピュータに実行させることを特徴とするプログラム。
  12. 上記存在確率算出ステップおよび上記無効後存在確率算出ステップは、数式1に基づいて、それぞれ、上記存在確率および上記無効後存在確率を算出すること、
    Figure 2005275794
    (ここで、「R(p)」は概念情報識別情報「p」に対応する概念情報の存在確率であり、「R(q)」は概念情報識別情報「p」に対応する概念情報への参照情報をもつ概念情報識別情報「q」に対応する概念情報の存在確率であり、「C(q)」は概念情報識別情報「q」に対応する概念情報から他の概念情報への参照情報の数である。また、「G」は概念情報をノード、参照情報をエッジとしたグラフであり、「n」はグラフ「G」のノードである概念情報の総数である。「ε」は予め設定される定数である。)
    を特徴とする請求項11に記載のプログラム。
  13. 上記影響度算出ステップは、数式2に示すように、上記存在確率と上記無効後存在確率との差に基づいて、上記影響度情報を算出すること、
    Figure 2005275794
    (ここで、「dR(p)(s)」は評価概念情報識別情報「s」に対応する評価概念情報が注目概念情報識別情報「p」対応する注目概念情報に及ぼす影響度情報である。「R(p)(s)」は、概念情報識別情報「s」に対応する概念情報を参照情報と共に無効にしたときの、概念情報識別情報「p」に対応する概念情報の存在確率である無効後存在確率であり、「R(p)」は、概念情報識別情報「p」に対応する概念情報の存在確率である。)
    を特徴とする請求項11または12に記載のプログラム。
  14. 上記特定概念情報設定ステップにより設定された上記特定概念情報が複数の場合、上記影響度算出ステップにより算出された上記影響度情報に基づいて、上記特定概念情報の上記影響度情報からの第1主成分得点を算出する主成分得点算出ステップ、
    をさらに含むことを特徴とする請求項11〜13のいずれか一つに記載のプログラム。
  15. 上記影響度算出ステップにより算出された上記影響度情報および/または上記主成分得点算出ステップにより算出された上記第1主成分得点に基づいて、上記特定概念情報および/または上記評価概念情報を序列する序列ステップ、
    をさらに含むことを特徴とする請求項11〜14のいずれか一つに記載のプログラム。
  16. 上記請求項11〜15のいずれか一つに記載されたプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
JP2004087915A 2004-03-24 2004-03-24 情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体 Expired - Fee Related JP4477389B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004087915A JP4477389B2 (ja) 2004-03-24 2004-03-24 情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004087915A JP4477389B2 (ja) 2004-03-24 2004-03-24 情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2005275794A true JP2005275794A (ja) 2005-10-06
JP4477389B2 JP4477389B2 (ja) 2010-06-09

Family

ID=35175411

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004087915A Expired - Fee Related JP4477389B2 (ja) 2004-03-24 2004-03-24 情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4477389B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008510485A (ja) * 2004-08-26 2008-04-10 ザ ペン ステイト リサーチ ファウンデーション 微生物産生系の再設計法
JP2008287424A (ja) * 2007-05-16 2008-11-27 Ntt Data Corp 指標抽出装置、指標抽出方法及びそのコンピュータプログラム
JP2011076254A (ja) * 2009-09-29 2011-04-14 Fujitsu Ltd 文献間関係解析装置、該プログラム、及び該方法
JP2015133144A (ja) * 2006-08-31 2015-07-23 スウィーニー,ピーター 消費者定義の情報アーキテクチャ用のシステム、方法およびコンピュータプログラム
WO2019106878A1 (ja) * 2017-11-28 2019-06-06 桂太 杉原 情報処理システム、情報処理方法、及びコンピュータプログラム
KR20190075631A (ko) * 2017-12-21 2019-07-01 한국과학기술원 확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008510485A (ja) * 2004-08-26 2008-04-10 ザ ペン ステイト リサーチ ファウンデーション 微生物産生系の再設計法
JP2015133144A (ja) * 2006-08-31 2015-07-23 スウィーニー,ピーター 消費者定義の情報アーキテクチャ用のシステム、方法およびコンピュータプログラム
JP2008287424A (ja) * 2007-05-16 2008-11-27 Ntt Data Corp 指標抽出装置、指標抽出方法及びそのコンピュータプログラム
JP4519880B2 (ja) * 2007-05-16 2010-08-04 株式会社エヌ・ティ・ティ・データ 指標抽出装置、指標抽出方法及びそのコンピュータプログラム
JP2011076254A (ja) * 2009-09-29 2011-04-14 Fujitsu Ltd 文献間関係解析装置、該プログラム、及び該方法
WO2019106878A1 (ja) * 2017-11-28 2019-06-06 桂太 杉原 情報処理システム、情報処理方法、及びコンピュータプログラム
KR20190075631A (ko) * 2017-12-21 2019-07-01 한국과학기술원 확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템
KR102153161B1 (ko) 2017-12-21 2020-09-08 한국과학기술원 확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템

Also Published As

Publication number Publication date
JP4477389B2 (ja) 2010-06-09

Similar Documents

Publication Publication Date Title
Wei et al. Computational prediction and interpretation of cell-specific replication origin sites from multiple eukaryotes by exploiting stacking framework
Zhang et al. Review and comparative assessment of sequence-based predictors of protein-binding residues
Lee et al. LASAGNA-Search: an integrated web tool for transcription factor binding site search and visualization
Down et al. NestedMICA: sensitive inference of over-represented motifs in nucleic acid sequence
Thomas-Chollier et al. A complete workflow for the analysis of full-size ChIP-seq (and similar) data sets using peak-motifs
Burley An overview of structural genomics
Xie Exploiting PubChem for virtual screening
NCBI Resource Coordinators Database resources of the national center for biotechnology information
Porras et al. Towards a unified open access dataset of molecular interactions
Rastelli et al. Binding estimation after refinement, a new automated procedure for the refinement and rescoring of docked ligands in virtual screening
Bader et al. Gaining confidence in high-throughput protein interaction networks
US20180373838A1 (en) Method and System for the Use of Biomarkers for Regulatory Dysfunction in Disease
Newkirk et al. AREM: aligning short reads from ChIP-sequencing by expectation maximization
Riviere et al. GigaTON: an extensive publicly searchable database providing a new reference transcriptome in the pacific oyster Crassostrea gigas
Behl et al. Bioinformatics accelerates the major tetrad: a real boost for the pharmaceutical industry
Lewis et al. Structural pairwise comparisons of HLM stability of phenyl derivatives: introduction of the Pfizer metabolism index (PMI) and metabolism-lipophilicity efficiency (MLE)
Panagiotou et al. The impact of network biology in pharmacology and toxicology
Xu et al. Protein databases on the internet
JP4477389B2 (ja) 情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体
Boyd et al. Harnessing the power of microscopy images to accelerate drug discovery: what are the possibilities?
Wang et al. NeuroPred-PLM: an interpretable and robust model for neuropeptide prediction by protein language model
Kuksa et al. Scalable approaches for functional analyses of whole-genome sequencing non-coding variants
Kim et al. MRPrimer: a MapReduce-based method for the thorough design of valid and ranked primers for PCR
Mueller et al. BALL-SNP: combining genetic and structural information to identify candidate non-synonymous single nucleotide polymorphisms
Kaushal et al. Network-based disease gene prioritization based on Protein–Protein Interaction Networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091117

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100309

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100311

R150 Certificate of patent or registration of utility model

Ref document number: 4477389

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130319

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130319

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140319

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees