JP2006260073A - 遺伝子関係抽出プログラム、遺伝子関係抽出方法および遺伝子関係抽出装置 - Google Patents

遺伝子関係抽出プログラム、遺伝子関係抽出方法および遺伝子関係抽出装置 Download PDF

Info

Publication number
JP2006260073A
JP2006260073A JP2005075726A JP2005075726A JP2006260073A JP 2006260073 A JP2006260073 A JP 2006260073A JP 2005075726 A JP2005075726 A JP 2005075726A JP 2005075726 A JP2005075726 A JP 2005075726A JP 2006260073 A JP2006260073 A JP 2006260073A
Authority
JP
Japan
Prior art keywords
relationship
context
genes
gene
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005075726A
Other languages
English (en)
Inventor
Hiroshi Yamakawa
宏 山川
Hiroharu Maruhashi
弘治 丸橋
Yoshio Nakao
由雄 仲尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2005075726A priority Critical patent/JP2006260073A/ja
Priority to US11/192,095 priority patent/US20060212230A1/en
Publication of JP2006260073A publication Critical patent/JP2006260073A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Physiology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】コンテクストに依存して顕在化する遺伝子の発現関係を抽出すること。
【解決手段】ネットワーク抽出部110が発現量行列から相関ネットワークを作成するとともに同期遺伝子集団を抽出し、コンテクスト生成部120が、特定の同期遺伝子集団に属する遺伝子の発現量に基づいてコンテクストを生成し、ネットワーク抽出部110がコンテクスト生成部120により生成されたコンテクストに対応する発現量行列から相関ネットワークを作成して同期遺伝子集団を抽出する。そして、コンテクスト生成部120によるコンテクストの生成とネットワーク抽出部110による相関ネットワークの作成および同期遺伝子集団の抽出を繰り返す。
【選択図】 図2

Description

この発明は、複数の遺伝子の発現量に関するデータである発現データに基づいて遺伝子間の関係を抽出する遺伝子関係抽出プログラム、遺伝子関係抽出方法および遺伝子関係抽出装置に関し、特に、複数の発現データから遺伝子の発現環境としてのコンテクストを生成し、特定のコンテクストにおいて顕在化する関係を抽出することができる遺伝子関係抽出プログラム、遺伝子関係抽出方法および遺伝子関係抽出装置に関するものである。
近年、遺伝子解析技術の進歩により、数千〜数万種類におよぶ遺伝子の発現状態を一度に知ることができるようになった。そこで、多数の遺伝子の発現状態を利用して遺伝子間の発現関係を抽出しようとする技術の開発が進められている(例えば、特許文献1および非特許文献1参照。)。
抽出する遺伝子間の発現関係としては、例えば、ある遺伝子Aの発現量が多くなると他の遺伝子Bの発現量も多くなる、あるいは、ある遺伝子Aの発現量が多くなると他の遺伝子Bの発現量が少なくなる、といった遺伝子間の促進・抑制などの発現関係があり、かかる発現関係を特定することによって、病気の原因の究明や病気の治療に役立てることができる。
再公表WO2002/048915号公報 Homin K. Lee, Amy K. Hsu, Jon Sajdak, Jie Qin and Paul Pavlidis, "Coexpression Analysis of Human Genes Across Many Microarray Data Sets," Genome Research 14:1085-1094, 2004.
しかしながら、遺伝子間の発現関係は、特定のコンテクスト(遺伝子の発現環境)において顕在化すると思われ、多様なコンテクストの下で得られた発現データをむやみに解析するだけでは、発現関係の抽出が困難であるという問題がある。ここで、コンテクストとしては、例えば、組織や細胞内の部位などの空間的コンテクストや、発達時期や細胞周期などの時間的コンテクストがあるが、遺伝子の発現環境としてのコンテクストは、多数の要因が相互に影響し合う複雑なものと考えられる。
この発明は、上述した従来技術による問題点を解消するためになされたものであり、複数の発現データから遺伝子の発現環境としてのコンテクストを生成し、特定のコンテクストにおいて顕在化する関係を抽出することができる遺伝子関係抽出プログラム、遺伝子関係抽出方法および遺伝子関係抽出装置を提供することを目的とする。
上述した課題を解決し、目的を達成するため、請求項1の発明に係る遺伝子関係抽出プログラムは、複数の遺伝子の発現量に関するデータである発現データに基づいて遺伝子間の関係を抽出する遺伝子関係抽出プログラムであって、前記複数の遺伝子のうち所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて遺伝子の発現環境であるコンテクストを生成するコンテクスト生成手順と、前記コンテクスト生成手順により生成されたコンテクストにおける遺伝子間の関係を特定する関係特定手順と、をコンピュータに実行させることを特徴とする。
この請求項1の発明によれば、複数の遺伝子のうち所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて遺伝子の発現環境であるコンテクストを生成し、生成したコンテクストにおける遺伝子間の関係を特定するよう構成したので、コンテクストに依存する遺伝子間の関係を特定することができる。
また、請求項2の発明に係る遺伝子関係抽出プログラムは、請求項1の発明において、前記コンテクスト生成手順は、前記関係特定手順により特定された関係が所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて新たなコンテクストを生成し、前記関係特定手順は、前記コンテクスト生成手順により生成された新たなコンテクストにおける遺伝子間の関係を特定し、前記コンテクスト生成手順と前記関係特定手順を所定の条件が満たされるまで繰り返すことを特徴とする。
この請求項2の発明によれば、特定した関係が所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて新たなコンテクストを生成し、生成した新たなコンテクストにおける遺伝子間の関係を特定することを所定の条件が満たされるまで繰り返すよう構成したので、様々なコンテクストにおける遺伝子間の関係を特定することができる。
また、請求項3の発明に係る遺伝子関係抽出プログラムは、請求項1または2の発明において、前記関係特定手順により複数のコンテクストにおいてそれぞれ特定された複数の遺伝子間の関係を比較する関係比較手順をさらにコンピュータに実行させることを特徴とする。
この請求項3の発明によれば、複数のコンテクストにおいてそれぞれ特定された複数の遺伝子間の関係を比較するよう構成したので、コンテクストに依存する遺伝子間の関係の特定を容易にすることができる。
また、請求項4の発明に係る遺伝子関係抽出プログラムは、請求項2または3の発明において、前記関係特定手順により特定される遺伝子間の関係は二つの遺伝子の発現量間の相関関係であり、前記コンテクスト生成手順は、前記関係特定手順により特定される相関係数の値が所定の閾値より大きい遺伝子間を接続して構成される相関ネットワークのうちの部分ネットワークに含まれる複数の遺伝子についての複数の発現データに基づいて新たなコンテクストを生成することを特徴とする。
この請求項4の発明によれば、特定する遺伝子間の関係は二つの遺伝子の発現量間の相関関係であり、特定した相関係数の値が所定の閾値より大きい遺伝子間を接続して構成される相関ネットワークのうちの部分ネットワークに含まれる複数の遺伝子についての複数の発現データに基づいて新たなコンテクストを生成するよう構成したので、遺伝子の発現量間の相関関係に基づいてコンテクストを生成することができる。
また、請求項5の発明に係る遺伝子関係抽出プログラムは、請求項2〜4の発明において、前記コンテクスト生成手順は、前記関係特定手順により特定された関係が所定の関係を満たす複数の遺伝子の発現量の平均値について前記複数の発現データを対象としてヒストグラムを作成し、該作成したヒストグラムを用いて新たなコンテクストを生成することを特徴とする。
この請求項5の発明によれば、特定した関係が所定の関係を満たす複数の遺伝子の発現量の平均値について複数の発現データを対象としてヒストグラムを作成し、作成したヒストグラムを用いて新たなコンテクストを生成するよう構成したので、所定の関係を満たす複数の遺伝子の発現量に基づいてコンテクストを生成することができる。
また、請求項6の発明に係る遺伝子関係抽出プログラムは、請求項2〜4の発明において、前記コンテクスト生成手順は、前記関係特定手順により特定された関係が所定の関係を満たす複数の遺伝子の発現量の平均値を用いて前記複数の発現データに対してクラスタリングを行って新たなコンテクストを生成することを特徴とする。
この請求項6の発明によれば、特定した関係が所定の関係を満たす複数の遺伝子の発現量の平均値を用いて複数の発現データに対してクラスタリングを行って新たなコンテクストを生成するよう構成したので、所定の関係を満たす複数の遺伝子の発現量に基づいてコンテクストを生成することができる。
また、請求項7の発明に係る遺伝子関係抽出方法は、複数の遺伝子の発現量に関するデータである発現データに基づいて遺伝子間の関係を抽出する遺伝子関係抽出方法であって、前記複数の遺伝子のうち所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて遺伝子の発現環境であるコンテクストを生成するコンテクスト生成工程と、前記コンテクスト生成工程により生成されたコンテクストにおける遺伝子間の関係を特定する関係特定工程と、を含んだことを特徴とする。
この請求項7の発明によれば、複数の遺伝子のうち所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて遺伝子の発現環境であるコンテクストを生成し、生成したコンテクストにおける遺伝子間の関係を特定するよう構成したので、コンテクストに依存する遺伝子間の関係を特定することができる。
また、請求項8の発明に係る遺伝子関係抽出方法は、請求項7の発明において、前記コンテクスト生成工程は、前記関係特定工程により特定された関係が所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて新たなコンテクストを生成し、前記関係特定工程は、前記コンテクスト生成工程により生成された新たなコンテクストにおける遺伝子間の関係を特定し、前記コンテクスト生成工程と前記関係特定工程を所定の条件が満たされるまで繰り返すことを特徴とする。
この請求項8の発明によれば、特定した関係が所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて新たなコンテクストを生成し、生成した新たなコンテクストにおける遺伝子間の関係を特定することを所定の条件が満たされるまで繰り返すよう構成したので、様々なコンテクストにおける遺伝子間の関係を特定することができる。
また、請求項9の発明に係る遺伝子関係抽出装置は、複数の遺伝子の発現量に関するデータである発現データに基づいて遺伝子間の関係を抽出する遺伝子関係抽出装置であって、前記複数の遺伝子のうち所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて遺伝子の発現環境であるコンテクストを生成するコンテクスト生成手段と、前記コンテクスト生成手段により生成されたコンテクストにおける遺伝子間の関係を特定する関係特定手段と、を備えたことを特徴とする。
この請求項9の発明によれば、複数の遺伝子のうち所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて遺伝子の発現環境であるコンテクストを生成し、生成したコンテクストにおける遺伝子間の関係を特定するよう構成したので、コンテクストに依存する遺伝子間の関係を特定することができる。
また、請求項10の発明に係る遺伝子関係抽出装置は、請求項9の発明において、前記コンテクスト生成手段は、前記関係特定手段により特定された関係が所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて新たなコンテクストを生成し、前記関係特定手段は、前記コンテクスト生成手段により生成された新たなコンテクストにおける遺伝子間の関係を特定し、前記コンテクスト生成手段によるコンテクストの生成と前記関係特定手段による遺伝子間の関係の特定とを所定の条件が満たされるまで繰り返すことを特徴とする。
この請求項10の発明によれば、特定した関係が所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて新たなコンテクストを生成し、生成した新たなコンテクストにおける遺伝子間の関係を特定することを所定の条件が満たされるまで繰り返すよう構成したので、様々なコンテクストにおける遺伝子間の関係を特定することができる。
請求項1、7および9の発明によれば、コンテクストに依存する遺伝子間の関係を特定するので、特定のコンテクストにおいて顕在化する関係を抽出することができるという効果を奏する。
また、請求項2、8および10の発明によれば、様々なコンテクストにおける遺伝子間の関係を特定するので、様々なコンテクストにおいて顕在化する関係を抽出することができるという効果を奏する。
また、請求項3の発明によれば、コンテクストに依存する遺伝子間の関係の特定を容易にするので、特定のコンテクストにおいて顕在化する関係の抽出を容易にすることができるという効果を奏する。
また、請求項4の発明によれば、遺伝子の発現量間の相関関係に基づいてコンテクストを生成するので、遺伝子の発現量間の相関関係に基づいて顕在化する関係を抽出することができるという効果を奏する。
また、請求項5および6の発明によれば、所定の関係を満たす複数の遺伝子の発現量に基づいてコンテクストを生成するので、適切なコンテクストを生成することができるという効果を奏する。
以下に添付図面を参照して、この発明に係る遺伝子関係抽出プログラム、遺伝子関係抽出方法および遺伝子関係抽出装置の好適な実施例を詳細に説明する。
まず、本実施例に係る遺伝子関係抽出装置によるコンテクストを用いた発現関係抽出の概念について説明する。図1は、本実施例に係る遺伝子関係抽出装置によるコンテクストを用いた発現関係抽出の概念を説明するための説明図である。
同図(a)は、特定のコンテクストで顕在化する発現関係の例を示し、遺伝子Gcが休止しているというコンテクストでは、遺伝子Gaと遺伝子Gbとの間に正の相関関係、すなわちGaの発現量が多い場合にはGbの発現量も多いという関係が出現し、遺伝子Gcが活性化しているというコンテクストでは、遺伝子Gaと遺伝子Gbとの間に負の相関関係、すなわちGaの発現量が多い場合にはGbの発現量が少ないという関係が出現することを示している。
また、同図(b)は、コンテクストの組合せによる発現関係の限定の例を示し、コンテクストAでGa、GbおよびGcの間に正の相関関係が観測され、コンテクストBでGaとGbの間に正の相関関係が観測された場合には、コンテクストAにおける発現関係は、GaとGbを含むものである可能性が増大することを示している。
このように、本実施例に係る遺伝子関係抽出装置は、コンテクストを用いることによって、特定のコンテクストにおいて顕在化する遺伝子間の発現関係を抽出する。ここで、コンテクストを用いて発現関係を抽出するためには、コンテクストをどのように選定するかが重要となる。
そこで、本実施例に係る遺伝子関係抽出装置では、多くの遺伝子が同期して発現される場合、すなわち、部分遺伝子集団の同期的な発現に基づいてコンテクストを選定することとしている。なお、部分遺伝子集団の同期的な発現の代わりに同期的な抑制に基づいてコンテクストを選定することもできる。
次に、本実施例に係る遺伝子関係抽出装置の構成について説明する。図2は、本実施例に係る遺伝子関係抽出装置の構成を示す機能ブロック図である。同図に示すように、この遺伝子関係抽出装置100は、ネットワーク抽出部110と、コンテクスト生成部120と、ネットワーク比較部130とを有する。
ネットワーク抽出部110は、複数のサンプル(発現データ)から構成される発現量行列を入力して遺伝子の発現量間の相関関係に基づく相関ネットワークを生成し、生成した相関ネットワークから部分ネットワークを抽出する処理部である。
図3は、ネットワーク抽出部110が入力する発現量行列を示す図である。同図に示すように、発現量行列は、遺伝子m(1≦m≦M)のサンプルn(1≦n≦N)における発現量をxmnとする行列であり、ここでは、M=22283、N=1500である場合を示している。
また、コンテクストは、複数のサンプルから構成され、発現量行列において、複数の列から構成される部分行列に対応する。なお、図3では、コンテクストが列の連続するサンプルから構成される例を示しているが、コンテクストを構成する列の列番号が連続している必要はない。
図4は、ネットワーク抽出部110により部分ネットワークが抽出される相関ネットワークの一例を示す図である。同図において、「GMFG」、「CORO1A」、「TJP1」、「NCKAP1」などは遺伝子の名前であり、二つの遺伝子間の線は、この例では、二つの遺伝子の発現量間の相関係数の絶対値が所定の値以上であることを示している。
また、相関ネットワークでは、二つの遺伝子の発現量間の相関係数の値が大きいほど、すなわち二つの遺伝子の相関が強いほど遺伝子が近くに配置される。
例えば、「TJP1」と「NCKAP1」の相関係数は、0.8709であり、「TJP1」と「NCKAP1」は近くに配置されている。なお、遺伝子iにおけるサンプルjの発現量をxijとすると、遺伝子ペア(α、β)の相関係数rαβは式(1)のようになる。
Figure 2006260073
ネットワーク抽出部110は、全体の遺伝子から相関係数の値が所定値(例えば0.8)以上である遺伝子の集まりである同期遺伝子集団を抽出する。ここで、二つの遺伝子の発現量間の相関係数の値が所定値以上である場合に二つの遺伝子間を線で結ぶ相関ネットワークを作成すると、同期遺伝子集団は、相関ネットワークの部分ネットワークに対応し、ネットワーク抽出部110は、相関ネットワークから複数の部分ネットワークを抽出することとなる。
なお、ここでは、二つの遺伝子の発現量間の相関係数の値が所定値以上である遺伝子の集まり、すなわち正の相関関係が強い遺伝子の集まりを同期遺伝子集団としたが、負の相関関係が強い遺伝子の集まりを同期遺伝子集団とすることもできる。
また、ここでは、ネットワーク抽出部110は、遺伝子ペアごとに相関係数を計算し、その値が閾値以上のペアをリンクとした相関ネットワークを作ることで同期遺伝子集団を抽出しているが、相関係数についてクラスタリングを行うことによって同期遺伝子集団を抽出することもできる。
コンテクスト生成部120は、ネットワーク抽出部110により抽出された部分ネットワークに含まれる遺伝子、すなわち、同期遺伝子集団に属する遺伝子についての代表的発現量を算出し、算出した代表的発現量に基づいてコンテクストを生成する処理部である。ここで、コンテクストは、サンプル全体の集合を複数に分割して得られる部分集合である部分サンプルに対応する。
図5は、コンテクスト生成部120によるコンテクスト生成を説明するための説明図である。同図は、コンテクスト生成部120が各サンプルに対して同期遺伝子集団に属する遺伝子の発現量の平均値を代表的発現量として算出し、算出した平均値に関して全サンプルを対象として作成したヒストグラムを示す。コンテクスト生成部120は、このヒストグラムに基づいてサンプルを分割することによってコンテクストを生成する。
例えば、同図では、同期遺伝子集団aに属する遺伝子の発現量の平均値に基づいて作成したヒストグラムを二つの山に分割することが可能であるため、コンテクスト生成部120は、それぞれの山に対応するコンテクストを生成する。
このように、このコンテクスト生成部120が同期遺伝子集団に属する遺伝子の発現量の平均値に基づいてサンプルを分割してコンテクストを生成することによって、特定のコンテクストにおける遺伝子の発現関係を抽出することができる。
そして、コンテクスト生成部120によって生成した各コンテクストに対応する部分サンプルに対してネットワーク抽出部110により同期遺伝子集団を抽出し、ネットワーク抽出部110によって抽出した同期遺伝子集団に属する遺伝子の発現量の平均値に基づいてコンテクストを生成する過程を繰り返すことによって、様々なコンテクストを生成するとともに、様々なコンテクストにおける遺伝子の発現関係を抽出することができる。
なお、同期遺伝子集団の抽出とコンテクストの生成の繰り返しは、生成されたコンテクストに属するサンプルの数が一定の値以下になった場合など、所定の条件をみたした場合に終了することができる。あるいは、ユーザの指示によって終了することもできる。
また、ここでは、コンテクスト生成部120は、同期遺伝子集団に属する遺伝子の代表的発現量として遺伝子の発現量の平均値を用いることとしたが、代表的発現量としては、特異値分解で得られる第一主成分などの他の値を用いることもできる。
また、ここでは、コンテクスト生成部120は、発現量の平均値についてヒストグラムを作成してサンプルを分割することとしたが、代表的発現量に対して、クラスタリングや二値化処理などを適用することで二つまたは三つ以上のコンテクストを得ることもできる。
ネットワーク比較部130は、ネットワーク抽出部110により抽出された様々な部分ネットワークを比較して表示する処理部である。すなわち、このネットワーク比較部130は、様々なコンテクストにおける相関ネットワークを比較することによってコンテクストの比較を行う。
図6は、ネットワーク比較部130によるコンテクスト比較の一例を示す図である。同図に示すように、ネットワーク比較部130は、例えば、コンテクストA、コンテクストBおよびコンテクストA+Bにおける相関ネットワークを比較して表示する。
次に、ネットワーク抽出部110の処理手順について説明する。図7は、ネットワーク抽出部110の処理手順を示す図である。同図に示すように、このネットワーク抽出部110は、全体の発現量行列から特定のコンテクストに対応する部分行列を抽出する(ステップS101)。なお、全サンプルから部分ネットワークを抽出する場合には、全体の発現量行列が抽出された部分行列となる。
そして、抽出した部分行列を用いて二つの遺伝子の発現量間の相関係数を計算するペア相関計算を行い(ステップS102)、遺伝子間相関行列を作成する。ここで、遺伝子間相関行列とは、遺伝子ペア(α、β)の相関係数rαβを要素とする行列である。
そして、作成した遺伝子間相関行列に基づいて全体の遺伝子集団から同期遺伝子集団を抽出する(ステップS103)。すなわち、遺伝子間相関行列に基づいて相関ネットワークを作成し、作成した相関ネットワークから部分ネットワークを抽出する。
このように、ネットワーク抽出部110が特定のコンテクストに対して相関ネットワークを作成することによって、特定のコンテクストにおいて顕在化する発現関係を抽出することができる。また、作成した相関ネットワークから部分ネットワークを抽出することによって、新たなコンテクストの生成に用いる同期遺伝子集団を抽出することができる。
次に、コンテクスト生成部120の処理手順について説明する。図8は、コンテクスト生成部120の処理手順を示す図である。同図に示すように、このコンテクスト生成部120は、全体の発現量行列、コンテクストを生成する元のコンテクストおよび特定の同期遺伝子集団を用いて新たなコンテクストを生成する(ステップS201)。
また、コンテクストを生成するとともに、生成した各コンテクストに対する評価値も算出する。ここで、評価値としては、コンテクストに含まれるサンプル数、他のコンテクストからの分離性、元のコンテクストからの変化量などを用いることができる。
そして、生成したコンテクストを評価値に基づいてランキングし(ステップS202)、評価値とともにユーザに提示する(ステップS203)。そして、ユーザにコンテクストを選択させ(ステップS204)、ユーザにより選択されたコンテクストを新たなコンテクストとしてネットワーク抽出部110に渡す。
このように、コンテクスト生成部120が全体の発現量行列、コンテクストを生成する元のコンテクストおよび特定の同期遺伝子集団を用いて新たなコンテクストを生成することによって、特定のコンテクストにおいて顕在化する発現関係を抽出することができる。
なお、ここでは、生成したコンテクストおよび評価値をユーザに提示して選択させることとしたが、所定の値以上の評価値を有するコンテクストを自動的に選択してネットワーク抽出部110に渡すこともできる。
次に、コンテクスト生成部120によるコンテクスト生成処理の処理手順について説明する。図9は、コンテクスト生成部120によるコンテクスト生成処理の処理手順を示す図である。なお、このコンテクスト生成処理は、図8のステップS201の処理に対応する。
図9に示すように、このコンテクスト生成処理では、全体の発現量行列から元のコンテクストに含まれるサンプルおよび同期遺伝子集団に含まれる遺伝子の発現量で構成される部分行列を抽出し(ステップS301)、抽出した部分行列の各サンプルに対して代表発現量、すなわち発現量の平均値を計算する(ステップS302)。
そして、各サンプルに対して計算した平均値に基づいてヒストグラムを作成し、作成したヒストグラムからサンプルを分割してコンテクストを生成する(ステップS303)。また、生成した各コンテクストに対して評価値を計算し(ステップS304)、コンテクストとともに蓄積する(ステップS305)。
このように、コンテクスト生成部120は、同期遺伝子集団に含まれる遺伝子の発現量の平均値を各サンプルに対して計算し、計算した平均値に基づいてサンプルを分割してコンテクストを生成する。
上述してきたように、本実施例では、ネットワーク抽出部110が発現量行列から相関ネットワークを作成するとともに同期遺伝子集団を抽出し、コンテクスト生成部120が、特定の同期遺伝子集団に属する遺伝子の発現量に基づいてコンテクストを生成し、ネットワーク抽出部110がコンテクスト生成部120により生成されたコンテクストに対応する発現量行列から相関ネットワークを作成することによって、特定のコンテクストにおいて顕在化する発現関係を抽出することができる。
また、本実施例では、コンテクスト生成部120によるコンテクストの生成とネットワーク抽出部110による同期遺伝子集団の抽出を繰り返すことによって、様々なコンテクストを生成し、様々なコンテクストにおいて顕在化する発現関係を抽出することができる。
なお、本実施例では、遺伝子関係抽出装置について説明したが、遺伝子関係抽出装置が有する構成をソフトウェアによって実現することで、同様の機能を有する遺伝子関係抽出プログラムを得ることができる。そこで、この遺伝子関係抽出プログラムを実行するコンピュータについて説明する。
図10は、本実施例に係る遺伝子関係抽出プログラムを実行するコンピュータの構成を示す機能ブロック図である。同図に示すように、このコンピュータ200は、RAM210と、CPU220と、HDD230と、LANインタフェース240と、入出力インタフェース250と、DVDドライブ260とを有する。
RAM210は、プログラムやプログラムの実行途中結果などを記憶するメモリであり、CPU220は、RAM210からプログラムを読み出して実行する中央処理装置である。
HDD230は、プログラムやデータを格納するディスク装置であり、LANインタフェース240は、コンピュータ200をLAN経由で他のコンピュータに接続するためのインタフェースである。
入出力インタフェース250は、マウスやキーボードなどの入力装置および表示装置を接続するためのインタフェースであり、DVDドライブ260は、DVDの読み書きを行う装置である。
そして、このコンピュータ200において実行される遺伝子関係抽出プログラム211は、DVDに記憶され、DVDドライブ260によってDVDから読み出されてコンピュータ200にインストールされる。
あるいは、この遺伝子関係抽出プログラム211は、LANインタフェース240を介して接続された他のコンピュータシステムのデータベースなどに記憶され、これらのデータベースから読み出されてコンピュータ200にインストールされる。
そして、インストールされた遺伝子関係抽出プログラム211は、HDD230に記憶され、RAM210に読み出されてCPU220によって遺伝子関係抽出プロセス221として実行される。
(付記1)複数の遺伝子の発現量に関するデータである発現データに基づいて遺伝子間の関係を抽出する遺伝子関係抽出プログラムであって、
前記複数の遺伝子のうち所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて遺伝子の発現環境であるコンテクストを生成するコンテクスト生成手順と、
前記コンテクスト生成手順により生成されたコンテクストにおける遺伝子間の関係を特定する関係特定手順と、
をコンピュータに実行させることを特徴とする遺伝子関係抽出プログラム。
(付記2)前記コンテクスト生成手順は、前記関係特定手順により特定された関係が所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて新たなコンテクストを生成し、
前記関係特定手順は、前記コンテクスト生成手順により生成された新たなコンテクストにおける遺伝子間の関係を特定し、
前記コンテクスト生成手順と前記関係特定手順を所定の条件が満たされるまで繰り返すことを特徴とする付記1に記載の遺伝子関係抽出プログラム。
(付記3)前記関係特定手順により複数のコンテクストにおいてそれぞれ特定された複数の遺伝子間の関係を比較する関係比較手順をさらにコンピュータに実行させることを特徴とする付記1または2に記載の遺伝子関係抽出プログラム。
(付記4)前記関係特定手順により特定される遺伝子間の関係は二つの遺伝子の発現量間の相関関係であり、前記コンテクスト生成手順は、前記関係特定手順により特定される相関係数の値が所定の閾値より大きい遺伝子間を接続して構成される相関ネットワークのうちの部分ネットワークに含まれる複数の遺伝子についての複数の発現データに基づいて新たなコンテクストを生成することを特徴とする付記2または3に記載の遺伝子関係抽出プログラム。
(付記5)前記コンテクスト生成手順は、前記関係特定手順により特定された関係が所定の関係を満たす複数の遺伝子の発現量の平均値について前記複数の発現データを対象としてヒストグラムを作成し、該作成したヒストグラムを用いて新たなコンテクストを生成することを特徴とする付記2〜4のいずれか一つに記載の遺伝子関係抽出プログラム。
(付記6)前記コンテクスト生成手順は、前記関係特定手順により特定された関係が所定の関係を満たす複数の遺伝子の発現量の平均値を用いて前記複数の発現データに対してクラスタリングを行って新たなコンテクストを生成することを特徴とする付記2〜4のいずれか一つに記載の遺伝子関係抽出プログラム。
(付記7)前記コンテクスト生成手順は、前記関係特定手順により特定された関係が所定の関係を満たす複数の遺伝子の発現量の平均値を用いて前記複数の発現データの二値化を行って新たなコンテクストを生成することを特徴とする付記2〜4のいずれか一つに記載の遺伝子関係抽出プログラム。
(付記8)前記コンテクスト生成手順は、前記関係特定手順により特定された関係が所定の関係を満たす複数の遺伝子の発現量の特異値分解で得られる第一主成分について複数の発現データを対象としてヒストグラムを作成し、該作成したヒストグラムを用いて新たなコンテクストを生成することを特徴とする付記2〜4のいずれか一つに記載の遺伝子関係抽出プログラム。
(付記9)前記コンテクスト生成手順は、前記複数の遺伝子のうち所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて複数のコンテクスト候補とともに各コンテクスト候補の評価値を生成してユーザに提示し、提示した複数のコンテクスト候補および評価値に基づいてユーザに選択させることによってコンテクストを生成することを特徴とする付記1〜8のいずれか一つに記載の遺伝子関係抽出プログラム。
(付記10)前記コンテクスト生成手順は、前記複数の遺伝子のうち所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて複数のコンテクスト候補とともに各コンテクスト候補の評価値を生成し、該生成した評価値が所定の値以上であるコンテクスト候補を選択してコンテクストを生成することを特徴とする付記1〜8のいずれか一つに記載の遺伝子関係抽出プログラム。
(付記11)前記コンテクスト生成手順が生成する評価値は、元のコンテクストからの変化量であることを特徴とする付記9または10に記載の遺伝子関係抽出プログラム。
(付記12)複数の遺伝子の発現量に関するデータである発現データに基づいて遺伝子間の関係を抽出する遺伝子関係抽出方法であって、
前記複数の遺伝子のうち所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて遺伝子の発現環境であるコンテクストを生成するコンテクスト生成工程と、
前記コンテクスト生成工程により生成されたコンテクストにおける遺伝子間の関係を特定する関係特定工程と、
を含んだことを特徴とする遺伝子関係抽出方法。
(付記13)前記コンテクスト生成工程は、前記関係特定工程により特定された関係が所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて新たなコンテクストを生成し、
前記関係特定工程は、前記コンテクスト生成工程により生成された新たなコンテクストにおける遺伝子間の関係を特定し、
前記コンテクスト生成工程と前記関係特定工程を所定の条件が満たされるまで繰り返すことを特徴とする付記12に記載の遺伝子関係抽出方法。
(付記14)前記関係特定工程により特定される遺伝子間の関係は二つの遺伝子の発現量間の相関関係であり、前記コンテクスト生成工程は、前記関係特定工程により特定される相関係数の値が所定の閾値より大きい遺伝子間を接続して構成される相関ネットワークのうちの部分ネットワークに含まれる複数の遺伝子についての複数の発現データに基づいて新たなコンテクストを生成することを特徴とする付記13に記載の遺伝子関係抽出方法。
(付記15)前記コンテクスト生成工程は、前記関係特定工程により特定された関係が所定の関係を満たす複数の遺伝子の発現量の平均値について前記複数の発現データを対象としてヒストグラムを作成し、該作成したヒストグラムを用いて新たなコンテクストを生成することを特徴とする付記13または14に記載の遺伝子関係抽出方法。
(付記16)複数の遺伝子の発現量に関するデータである発現データに基づいて遺伝子間の関係を抽出する遺伝子関係抽出装置であって、
前記複数の遺伝子のうち所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて遺伝子の発現環境であるコンテクストを生成するコンテクスト生成手段と、
前記コンテクスト生成手段により生成されたコンテクストにおける遺伝子間の関係を特定する関係特定手段と、
を備えたことを特徴とする遺伝子関係抽出装置。
(付記17)前記コンテクスト生成手段は、前記関係特定手段により特定された関係が所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて新たなコンテクストを生成し、
前記関係特定手段は、前記コンテクスト生成手段により生成された新たなコンテクストにおける遺伝子間の関係を特定し、
前記コンテクスト生成手段によるコンテクストの生成と前記関係特定手段による遺伝子間の関係の特定とを所定の条件が満たされるまで繰り返すことを特徴とする付記16に記載の遺伝子関係抽出装置。
(付記18)前記関係特定手段により特定される遺伝子間の関係は二つの遺伝子の発現量間の相関関係であり、前記コンテクスト生成手段は、前記関係特定手段により特定される相関係数の値が所定の閾値より大きい遺伝子間を接続して構成される相関ネットワークのうちの部分ネットワークに含まれる複数の遺伝子についての複数の発現データに基づいて新たなコンテクストを生成することを特徴とする付記17に記載の遺伝子関係抽出装置。
(付記19)前記コンテクスト生成手段は、前記関係特定手段により特定された関係が所定の関係を満たす複数の遺伝子の発現量の平均値について前記複数の発現データを対象としてヒストグラムを作成し、該作成したヒストグラムを用いて新たなコンテクストを生成することを特徴とする付記17または18に記載の遺伝子関係抽出装置。
以上のように、本発明に係る遺伝子関係抽出プログラム、遺伝子関係抽出方法および遺伝子関係抽出装置は、遺伝子解析に有用であり、特に、遺伝子間の発現関係の解析に適している。
本実施例に係る遺伝子関係抽出装置によるコンテクストを用いた発現関係抽出の概念を説明するための説明図である。 本実施例に係る遺伝子関係抽出装置の構成を示す機能ブロック図である。 ネットワーク抽出部が入力する発現量行列を示す図である。 ネットワーク抽出部により部分ネットワークが抽出される相関ネットワークの一例を示す図である。 コンテクスト生成部によるコンテクスト生成を説明するための説明図である。 ネットワーク比較部によるコンテクスト比較の一例を示す図である。 ネットワーク抽出部の処理手順を示す図である。 コンテクスト生成部の処理手順を示す図である。 コンテクスト生成部によるコンテクスト生成処理の処理手順を示す図である。 本実施例に係る遺伝子関係抽出プログラムを実行するコンピュータの構成を示す機能ブロック図である。
符号の説明
100 遺伝子関係抽出装置
110 ネットワーク抽出部
120 コンテクスト生成部
130 ネットワーク比較部
200 コンピュータ
210 RAM
211 遺伝子関係抽出プログラム
220 CPU
221 遺伝子関係抽出プロセス
230 HDD
240 LANインタフェース
250 入出力インタフェース
260 DVDドライブ

Claims (10)

  1. 複数の遺伝子の発現量に関するデータである発現データに基づいて遺伝子間の関係を抽出する遺伝子関係抽出プログラムであって、
    前記複数の遺伝子のうち所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて遺伝子の発現環境であるコンテクストを生成するコンテクスト生成手順と、
    前記コンテクスト生成手順により生成されたコンテクストにおける遺伝子間の関係を特定する関係特定手順と、
    をコンピュータに実行させることを特徴とする遺伝子関係抽出プログラム。
  2. 前記コンテクスト生成手順は、前記関係特定手順により特定された関係が所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて新たなコンテクストを生成し、
    前記関係特定手順は、前記コンテクスト生成手順により生成された新たなコンテクストにおける遺伝子間の関係を特定し、
    前記コンテクスト生成手順と前記関係特定手順を所定の条件が満たされるまで繰り返すことを特徴とする請求項1に記載の遺伝子関係抽出プログラム。
  3. 前記関係特定手順により複数のコンテクストにおいてそれぞれ特定された複数の遺伝子間の関係を比較する関係比較手順をさらにコンピュータに実行させることを特徴とする請求項1または2に記載の遺伝子関係抽出プログラム。
  4. 前記関係特定手順により特定される遺伝子間の関係は二つの遺伝子の発現量間の相関関係であり、前記コンテクスト生成手順は、前記関係特定手順により特定される相関係数の値が所定の閾値より大きい遺伝子間を接続して構成される相関ネットワークのうちの部分ネットワークに含まれる複数の遺伝子についての複数の発現データに基づいて新たなコンテクストを生成することを特徴とする請求項2または3に記載の遺伝子関係抽出プログラム。
  5. 前記コンテクスト生成手順は、前記関係特定手順により特定された関係が所定の関係を満たす複数の遺伝子の発現量の平均値について前記複数の発現データを対象としてヒストグラムを作成し、該作成したヒストグラムを用いて新たなコンテクストを生成することを特徴とする請求項2〜4のいずれか一つに記載の遺伝子関係抽出プログラム。
  6. 前記コンテクスト生成手順は、前記関係特定手順により特定された関係が所定の関係を満たす複数の遺伝子の発現量の平均値を用いて前記複数の発現データに対してクラスタリングを行って新たなコンテクストを生成することを特徴とする請求項2〜4のいずれか一つに記載の遺伝子関係抽出プログラム。
  7. 複数の遺伝子の発現量に関するデータである発現データに基づいて遺伝子間の関係を抽出する遺伝子関係抽出方法であって、
    前記複数の遺伝子のうち所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて遺伝子の発現環境であるコンテクストを生成するコンテクスト生成工程と、
    前記コンテクスト生成工程により生成されたコンテクストにおける遺伝子間の関係を特定する関係特定工程と、
    を含んだことを特徴とする遺伝子関係抽出方法。
  8. 前記コンテクスト生成工程は、前記関係特定工程により特定された関係が所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて新たなコンテクストを生成し、
    前記関係特定工程は、前記コンテクスト生成工程により生成された新たなコンテクストにおける遺伝子間の関係を特定し、
    前記コンテクスト生成工程と前記関係特定工程を所定の条件が満たされるまで繰り返すことを特徴とする請求項7に記載の遺伝子関係抽出方法。
  9. 複数の遺伝子の発現量に関するデータである発現データに基づいて遺伝子間の関係を抽出する遺伝子関係抽出装置であって、
    前記複数の遺伝子のうち所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて遺伝子の発現環境であるコンテクストを生成するコンテクスト生成手段と、
    前記コンテクスト生成手段により生成されたコンテクストにおける遺伝子間の関係を特定する関係特定手段と、
    を備えたことを特徴とする遺伝子関係抽出装置。
  10. 前記コンテクスト生成手段は、前記関係特定手段により特定された関係が所定の関係を満たす複数の遺伝子についての複数の発現データに基づいて新たなコンテクストを生成し、
    前記関係特定手段は、前記コンテクスト生成手段により生成された新たなコンテクストにおける遺伝子間の関係を特定し、
    前記コンテクスト生成手段によるコンテクストの生成と前記関係特定手段による遺伝子間の関係の特定とを所定の条件が満たされるまで繰り返すことを特徴とする請求項9に記載の遺伝子関係抽出装置。
JP2005075726A 2005-03-16 2005-03-16 遺伝子関係抽出プログラム、遺伝子関係抽出方法および遺伝子関係抽出装置 Withdrawn JP2006260073A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005075726A JP2006260073A (ja) 2005-03-16 2005-03-16 遺伝子関係抽出プログラム、遺伝子関係抽出方法および遺伝子関係抽出装置
US11/192,095 US20060212230A1 (en) 2005-03-16 2005-07-29 Method and apparatus for extracting relation between genes, and computer product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005075726A JP2006260073A (ja) 2005-03-16 2005-03-16 遺伝子関係抽出プログラム、遺伝子関係抽出方法および遺伝子関係抽出装置

Publications (1)

Publication Number Publication Date
JP2006260073A true JP2006260073A (ja) 2006-09-28

Family

ID=37011459

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005075726A Withdrawn JP2006260073A (ja) 2005-03-16 2005-03-16 遺伝子関係抽出プログラム、遺伝子関係抽出方法および遺伝子関係抽出装置

Country Status (2)

Country Link
US (1) US20060212230A1 (ja)
JP (1) JP2006260073A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008102825A1 (ja) * 2007-02-20 2008-08-28 Articell Systems Corporation 遺伝子発現パターンから遺伝子を分類する方法
WO2016027297A1 (ja) * 2014-08-18 2016-02-25 株式会社日立製作所 データ処理システムおよびデータ処理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7406384B2 (en) * 2001-12-26 2008-07-29 The Regents Of The University Of California System and method for identifying networks or ternary relationships in complex data systems

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008102825A1 (ja) * 2007-02-20 2008-08-28 Articell Systems Corporation 遺伝子発現パターンから遺伝子を分類する方法
WO2016027297A1 (ja) * 2014-08-18 2016-02-25 株式会社日立製作所 データ処理システムおよびデータ処理方法
JPWO2016027297A1 (ja) * 2014-08-18 2017-04-27 株式会社日立製作所 データ処理システムおよびデータ処理方法
US10241969B2 (en) 2014-08-18 2019-03-26 Hitachi, Ltd. Data processing system and data processing method

Also Published As

Publication number Publication date
US20060212230A1 (en) 2006-09-21

Similar Documents

Publication Publication Date Title
Baichoo et al. Computational complexity of algorithms for sequence comparison, short-read assembly and genome alignment
EP2991003B1 (en) Method and apparatus for classification
CN109242013B (zh) 一种数据标注方法、装置、电子设备及存储介质
Thorne et al. Inference of temporally varying Bayesian networks
WO2016084336A1 (ja) 追学習装置、追学習方法、および、記憶媒体
JP6312467B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN113035158B (zh) 一种在线midi音乐编辑方法、系统及存储介质
JP6232522B2 (ja) 計算機及びグラフデータ生成方法
CN109448697B (zh) 诗词旋律生成方法、电子装置及计算机可读存储介质
CN115312129A (zh) 高通量测序背景下的基因数据压缩方法、装置及相关设备
Colombo et al. FastMotif: spectral sequence motif discovery
Bruneau et al. A clustering package for nucleotide sequences using Laplacian Eigenmaps and Gaussian Mixture Model
JP2015179312A (ja) 情報処理装置、情報処理方法およびプログラム
Castelli et al. A hybrid genetic algorithm for the repetition free longest common subsequence problem
JP2006260073A (ja) 遺伝子関係抽出プログラム、遺伝子関係抽出方法および遺伝子関係抽出装置
Liu et al. HEAP: a task adaptive-based explainable deep learning framework for enhancer activity prediction
JP2005222445A (ja) データマイニングにおける情報処理方法及び解析装置
Liu Towards precise reconstruction of gene regulatory networks by data integration
JP6402637B2 (ja) 分析プログラム、分析方法及び分析装置
JP7000181B2 (ja) 言語処理方法及び言語処理システム
CN113420127A (zh) 威胁情报处理方法、装置、计算设备及存储介质
KR100813008B1 (ko) 유전자 발현 데이터와 전사인자 바인딩 정보를 이용한유전자 모듈 예측 장치 및 그 방법
Ning Deposition and extension approach to find longest common subsequence for thousands of long sequences
JP6332598B2 (ja) 表現型予測のためのエピスタシスの効率的なモデル化のための特徴選択方法、情報処理システム、及びコンピュータ・プログラム
Havgaard et al. Comparative ncRNA gene and structure prediction using Foldalign and FoldalignM

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20080905