JP2006053669A - 遺伝子データ処理装置及び方法、遺伝子データ処理プログラム並びにそれを格納したコンピュータにより読み取り可能な記録媒体 - Google Patents
遺伝子データ処理装置及び方法、遺伝子データ処理プログラム並びにそれを格納したコンピュータにより読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP2006053669A JP2006053669A JP2004233507A JP2004233507A JP2006053669A JP 2006053669 A JP2006053669 A JP 2006053669A JP 2004233507 A JP2004233507 A JP 2004233507A JP 2004233507 A JP2004233507 A JP 2004233507A JP 2006053669 A JP2006053669 A JP 2006053669A
- Authority
- JP
- Japan
- Prior art keywords
- gene
- data
- library
- classification
- gene data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 340
- 238000012545 processing Methods 0.000 title claims abstract description 139
- 238000000034 method Methods 0.000 title claims abstract description 62
- 210000000056 organ Anatomy 0.000 claims abstract description 21
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 8
- 230000002068 genetic effect Effects 0.000 claims description 50
- 238000000605 extraction Methods 0.000 claims description 45
- 238000003672 processing method Methods 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 7
- 238000011161 development Methods 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 abstract description 56
- 108020004414 DNA Proteins 0.000 description 28
- 230000015654 memory Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 27
- 210000004027 cell Anatomy 0.000 description 17
- 238000004891 communication Methods 0.000 description 14
- 238000012986 modification Methods 0.000 description 14
- 230000004048 modification Effects 0.000 description 14
- 108091060211 Expressed sequence tag Proteins 0.000 description 12
- 239000002299 complementary DNA Substances 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 238000012935 Averaging Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 8
- 210000001671 embryonic stem cell Anatomy 0.000 description 8
- 235000016709 nutrition Nutrition 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 8
- 210000003958 hematopoietic stem cell Anatomy 0.000 description 7
- 210000004681 ovum Anatomy 0.000 description 7
- 210000001550 testis Anatomy 0.000 description 7
- 210000001519 tissue Anatomy 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000000295 complement effect Effects 0.000 description 6
- 102000053602 DNA Human genes 0.000 description 5
- 210000003981 ectoderm Anatomy 0.000 description 5
- 210000001672 ovary Anatomy 0.000 description 5
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 4
- 238000000018 DNA microarray Methods 0.000 description 4
- 210000002257 embryonic structure Anatomy 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 108020004999 messenger RNA Proteins 0.000 description 4
- 210000001705 ectoderm cell Anatomy 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 210000002149 gonad Anatomy 0.000 description 3
- 210000000496 pancreas Anatomy 0.000 description 3
- 238000003752 polymerase chain reaction Methods 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 235000002020 sage Nutrition 0.000 description 3
- 238000001712 DNA sequencing Methods 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 238000000692 Student's t-test Methods 0.000 description 2
- 229960002685 biotin Drugs 0.000 description 2
- 235000020958 biotin Nutrition 0.000 description 2
- 239000011616 biotin Substances 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 235000013601 eggs Nutrition 0.000 description 2
- 210000000232 gallbladder Anatomy 0.000 description 2
- 210000004185 liver Anatomy 0.000 description 2
- 210000002901 mesenchymal stem cell Anatomy 0.000 description 2
- 210000001082 somatic cell Anatomy 0.000 description 2
- 238000012353 t test Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 239000003298 DNA probe Substances 0.000 description 1
- 238000000729 Fisher's exact test Methods 0.000 description 1
- 102100034343 Integrase Human genes 0.000 description 1
- 102000048850 Neoplasm Genes Human genes 0.000 description 1
- 108700019961 Neoplasm Genes Proteins 0.000 description 1
- 108010092799 RNA-directed DNA polymerase Proteins 0.000 description 1
- 238000003646 Spearman's rank correlation coefficient Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 239000011324 bead Substances 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000003915 cell function Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 238000001502 gel electrophoresis Methods 0.000 description 1
- 210000004602 germ cell Anatomy 0.000 description 1
- 210000001161 mammalian embryo Anatomy 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000003196 serial analysis of gene expression Methods 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】遺伝子データベースのデータから、所望の発現パターンに合致する遺伝子タグを容易に検索する。
【解決手段】遺伝子データ処理装置は、遺伝子データベースの遺伝子データに基づいて、ライブラリを階層的に分類してなる複数のライブラリグループを用いて、当該ライブラリグループ毎の遺伝子データの頻度を計数し、計数されたライブラリグループ毎の頻度に基づいて、各ライブラリグループでの頻度合計値が同一となるようにライブラリグループ毎の平均化された頻度を計算して出力する。ここで、上記ライブラリグループは、発生段階別分類、細胞別分類、組織別分類、臓器別分類、腫瘍別分類及び実験条件別分類のうちの少なくとも1つの分類法を用いて階層的に分類されている。
【選択図】図4
【解決手段】遺伝子データ処理装置は、遺伝子データベースの遺伝子データに基づいて、ライブラリを階層的に分類してなる複数のライブラリグループを用いて、当該ライブラリグループ毎の遺伝子データの頻度を計数し、計数されたライブラリグループ毎の頻度に基づいて、各ライブラリグループでの頻度合計値が同一となるようにライブラリグループ毎の平均化された頻度を計算して出力する。ここで、上記ライブラリグループは、発生段階別分類、細胞別分類、組織別分類、臓器別分類、腫瘍別分類及び実験条件別分類のうちの少なくとも1つの分類法を用いて階層的に分類されている。
【選択図】図4
Description
本発明は、遺伝子データベースのデータから所望の遺伝子タグを抽出するための遺伝子データ処理装置及び方法、遺伝子データ処理プログラム並びにそれを格納したコンピュータ読み取り可能な記録媒体に関する。
従来、遺伝子データベースから所望の遺伝子データを取得するために、例えば特許文献1及び非特許文献1に開示された、ディジタル・ディファレンシャル・ディスプレイ法(以下、DDD法という。)が広く使用されている。
特許文献1においては、蓄積された塩基配列と短鎖DNAの相補的結合部位を計算して割り出し、前記相補的結合部位を分子量毎の分離データで表示し、比較出力することを特徴とする遺伝子発現探索方法が開示されている。具体的には、DDD法で生成産物をより多く効率的に比較し、新規遺伝子取得の確率を高めるために、既知遺伝子のすべてについてのDDD法での泳動パターンを予測しておき、特定の遺伝子のディファレンシャル・ディスプレイパターンを予想する。そして、例えば、発現遺伝子が記録された塩基配列データベースより、3’−末端1000塩基の配列をすべて取得する。その配列と、選択されたプライマー塩基配列がどこで相補的結合するのかを計算し、実際のゲル電気泳動映像に近い状態で表示する。
また、特許文献2においては、遺伝子発現パターンの大量のセットを解析するために、特定の条件下で類似遺伝子発現パターンを呈する遺伝子のグループを同定する技術を提供している。具体的には、「データポイントの遺伝子発現値を受け取り、自己組織化写像を用いて、類似パターンを示すデータポイントが共に各クラスタにクラスタ化されるように、データポイントをクラスタ化し、データポイントのクラスタを示す出力を提供するステップを含む、コンピュータシステムにおいて、各データポイントが一連の遺伝子発現値である複数のデータポイントをクラスタ化する方法」が特許文献2において開示されている。
さらに、特許文献3においては、遺伝子発現データベースのための照会システムを効率的かつ容易に使用し、このようなシステムを使用することによって、その発現が特定の組織タイプに相関する遺伝子又は発現配列タグを容易に同定し得るためのコンピュータシステムのための方法を提供している。具体的には、コンピュータシステムにおいて、発現レベル情報を蓄積するデータベースを操作する方法であって、複数の組織タイプのそれぞれにおいて測定されるような、複数の遺伝子又は発現配列タグ(以下、ESTという。)のそれぞれについての発現レベルを含むデータベースを提供し、該データベースに対するユーザ照会を受納し、該複数の遺伝子又はESTの所望のものを同定し、該ユーザ照会は、該所望の遺伝子の発現レベル特性を特定し、該発現レベル特性を、該データベースに蓄積された該発現レベルに対して比較し、該所望の遺伝子又はESTを同定する方法」が特許文献2において開示されている。
従来、本発明者らは、上述のDDD法を用いて、胚性幹細胞(以下、ES細胞という。)の特異的遺伝子を取得してきていた。この方法で得られた遺伝子の特異性が実験的にも確認できたので、未受精卵や初期胚についても応用することを考えたが、実際には困難であった。その理由は以下の通りである。
DDD法では、例えばNCBI(National Center for Biotechnology Information)により提供される遺伝子データベースのライブラリを2群に分けてその間でt検定を行うため、ライブラリサイズの小さい未受精卵、初期胚では統計的有意に達しにくいことが考えられた。例えば、未受精卵とその他のすべての2群に分ければ、未受精卵のライブラリ単独ではライブラリサイズが小さすぎるし、未受精卵、初期胚のライブラリすべてと体細胞すべての2群に分ければ、前者のライブラリサイズは確保されるものの、未受精卵でのみ発現している場合、その遺伝子由来のEST(Expressed Sequence Tag;ESTとは、機能がわかっていないが、構造が解明されている遺伝子の断片をデータベース化した発現シーケンスタグである。)は希釈されてしまい、統計的有意に達しない。また、他にも、DDD法ではライブラリを2群に分けてしまうため、特定の発現パターンに合致するものという検索条件は設定することができないという問題点があった。
本発明の目的は以上の問題点を解決し、遺伝子データベースのデータから、所望の発現パターンに合致するESTなどの遺伝子データを容易に検索することができる遺伝子データ処理装置及び方法を提供することにある。
また、本発明の別の目的は、上記遺伝子データ処理装置及び方法を用いた遺伝子データ処理プログラム並びにそれを格納したコンピュータ読み取り可能な記録媒体を提供することにある。
第1の発明に係る遺伝子データ処理装置は、遺伝子データベースの遺伝子データに基づいて、ライブラリを階層的に分類してなる複数のライブラリグループを用いて、当該ライブラリグループ毎の遺伝子データの頻度を計数し、計数されたライブラリグループ毎の頻度に基づいて、各ライブラリグループでの頻度合計値が同一となるようにライブラリグループ毎の平均化された頻度を計算して出力する制御手段を備えたことを特徴とする。
上記遺伝子データ処理装置において、上記ライブラリグループは、発生段階別分類、細胞別分類、組織別分類、臓器別分類、腫瘍別分類及び実験条件別分類のうちの少なくとも1つの分類法を用いて階層的に分類されたことを特徴とする。
また、上記遺伝子データ処理装置において、上記複数のライブラリグループを、遺伝子データが報告されることを期待するクラスYのライブラリグループと、遺伝子データが報告されてはいけないクラスNのライブラリグループとをクラス分けするクラス分け情報を入力する第1の入力手段をさらに備え、
上記制御手段は、上記クラス分け情報に基づく所定の抽出条件を用いて、上記遺伝子データを抽出することを特徴とする。
上記制御手段は、上記クラス分け情報に基づく所定の抽出条件を用いて、上記遺伝子データを抽出することを特徴とする。
ここで、上記遺伝子データ処理装置において、上記抽出条件は、遺伝子データ毎のクラスYの頻度及びクラスNの頻度に基づいて規定されたことを特徴とする。
さらに、上記遺伝子データ処理装置において、上記複数のライブラリグループを、遺伝子データが報告されることを期待するクラスYのライブラリグループと、遺伝子データが報告されてはいけないクラスNのライブラリグループとをクラス分けするクラス分け情報を入力する第1の入力手段をさらに備え、
上記制御手段は、1つの遺伝子データベースの遺伝子データと、その他の遺伝子データベースの遺伝子データとの間で、上記クラスYに属する遺伝子データベースの遺伝子データと、上記クラスNに属する遺伝子データベースの遺伝子データとについて、上記遺伝子データを抽出することを特徴とする。
上記制御手段は、1つの遺伝子データベースの遺伝子データと、その他の遺伝子データベースの遺伝子データとの間で、上記クラスYに属する遺伝子データベースの遺伝子データと、上記クラスNに属する遺伝子データベースの遺伝子データとについて、上記遺伝子データを抽出することを特徴とする。
またさらに、上記遺伝子データ処理装置において、上記制御手段は、上記遺伝子データベースの各遺伝子データのパターン同士の類似性を示す相関係数又は距離を計算し、所定の相関係数又は距離のしきい値以下の遺伝子データをクラス分類にまとめるように上記遺伝子データベースの遺伝子データを分類して抽出することを特徴とする。
また、上記遺伝子データ処理装置において、上記制御手段は、既知の遺伝子データのパターンと、上記遺伝子データベースの各遺伝子データのパターンとの間の類似性を示す相関係数又は距離を計算し、所定の相関係数又は距離のしきい値以下の遺伝子データを抽出して出力することを特徴とする。
さらに、上記遺伝子データ処理装置において、上記複数のライブラリグループのうち、遺伝子データを出力したい出力指定ライブラリグループを入力する第2の入力手段を備え、
上記制御手段は、上記入力された出力指定ライブラリグループに属するライブラリグループに関する遺伝子データを出力することを特徴とする。
上記制御手段は、上記入力された出力指定ライブラリグループに属するライブラリグループに関する遺伝子データを出力することを特徴とする。
またさらに、上記遺伝子データ処理装置において、上記複数のライブラリグループのうち、所定の目的の遺伝子データを取得するために1つ又はライブラリグループを指定する複数の条件からなる細分類条件を入力する第3の入力手段を備え、
上記制御手段は、上記入力された細分類条件に合致する遺伝子データを抽出して出力することを特徴とする。
上記制御手段は、上記入力された細分類条件に合致する遺伝子データを抽出して出力することを特徴とする。
第2の発明に係る遺伝子データ処理方法は、遺伝子データベースの遺伝子データに基づいて、ライブラリを階層的に分類してなる複数のライブラリグループを用いて、当該ライブラリグループ毎の遺伝子データの頻度を計数し、計数されたライブラリグループ毎の頻度に基づいて、各ライブラリグループでの頻度合計値が同一となるようにライブラリグループ毎の平均化された頻度を計算して出力する制御ステップを含むことを特徴とする。
上記遺伝子データ処理方法において、上記ライブラリグループは、発生段階別分類、細胞別分類、組織別分類、臓器別分類、腫瘍別分類及び実験条件別分類のうちの少なくとも1つの分類法を用いて階層的に分類されたことを特徴とする。
また、上記遺伝子データ処理方法において、上記複数のライブラリグループを、遺伝子データが報告されることを期待するクラスYのライブラリグループと、遺伝子データが報告されてはいけないクラスNのライブラリグループとをクラス分けするクラス分け情報を入力する第1の入力ステップをさらに含み、
上記制御ステップは、上記クラス分け情報に基づく所定の抽出条件を用いて、上記遺伝子データを抽出することを特徴とする。
上記制御ステップは、上記クラス分け情報に基づく所定の抽出条件を用いて、上記遺伝子データを抽出することを特徴とする。
ここで、上記抽出条件は、遺伝子データ毎のクラスYの頻度及びクラスNの頻度に基づいて規定されたことを特徴とする。
さらに、上記遺伝子データ処理方法において、上記複数のライブラリグループを、遺伝子データが報告されることを期待するクラスYのライブラリグループと、遺伝子データが報告されてはいけないクラスNのライブラリグループとをクラス分けするクラス分け情報を入力する第1の入力ステップをさらに含み、
上記制御ステップは、1つの遺伝子データベースの遺伝子データと、その他の遺伝子データベースの遺伝子データとの間で、上記クラスYに属する遺伝子データベースの遺伝子データと、上記クラスNに属する遺伝子データベースの遺伝子データとについて、上記遺伝子データを抽出することを特徴とする。
上記制御ステップは、1つの遺伝子データベースの遺伝子データと、その他の遺伝子データベースの遺伝子データとの間で、上記クラスYに属する遺伝子データベースの遺伝子データと、上記クラスNに属する遺伝子データベースの遺伝子データとについて、上記遺伝子データを抽出することを特徴とする。
またさらに、上記遺伝子データ処理方法において、上記制御ステップは、上記遺伝子データベースの各遺伝子データのパターン同士の類似性を示す相関係数又は距離を計算し、所定の相関係数又は距離のしきい値以下の遺伝子データをクラス分類にまとめるように上記遺伝子データベースの遺伝子データを分類して抽出することを特徴とする。
また、上記遺伝子データ処理方法において、上記制御ステップは、既知の遺伝子データのパターンと、上記遺伝子データベースの各遺伝子データのパターンとの間の類似性を示す相関係数又は距離を計算し、所定の相関係数又は距離のしきい値以下の遺伝子データを抽出して出力することを特徴とする。
さらに、上記遺伝子データ処理方法において、上記複数のライブラリグループのうち、遺伝子データを出力したい出力指定ライブラリグループを入力する第2の入力ステップを含み、
上記制御ステップは、上記入力された出力指定ライブラリグループに属するライブラリグループに関する遺伝子データを出力することを特徴とする。
上記制御ステップは、上記入力された出力指定ライブラリグループに属するライブラリグループに関する遺伝子データを出力することを特徴とする。
またさらに、上記遺伝子データ処理方法において、上記複数のライブラリグループのうち、所定の目的の遺伝子データを取得するために1つ又はライブラリグループを指定する複数の条件からなる細分類条件を入力する第3の入力ステップを含み、
上記制御ステップは、上記入力された細分類条件に合致する遺伝子データを抽出して出力することを特徴とする。
上記制御ステップは、上記入力された細分類条件に合致する遺伝子データを抽出して出力することを特徴とする。
第3の発明に係る遺伝子データ処理プログラムは、上記遺伝子データ処理方法に記載の各ステップを含むことを特徴とする。
第4の発明に係るコンピュータにより読み取り可能な記録媒体は、上記遺伝子データ処理方法に記載の各ステップを含むプログラムを格納したことを特徴とするコンピュータにより読み取り可能な記録媒体。
従って、本発明によれば、遺伝子データベースにおける遺伝子データの頻度を各ライブラリグループ毎に平均化することにより、DDD法で取りこぼしている統計的に有意に達しない遺伝子タグを取得することができる。また、出力指定やクラス指定を用いることにより、また、細分類条件テーブルの細分類条件を用いることにより、所望の発現パターンに合致した検索条件を柔軟に設定することができ、所望の発現遺伝子タグを取得することができる。さらに、既知の遺伝子の発現パターンと、遺伝子データベースの遺伝子パターンとの間の相関係数又はユークリッド距離を計算し、所定のしきい値以下の距離を有する遺伝子パターンを抽出することにより、例えば自分が研究したい所望の遺伝子に近い遺伝子パターンを抽出することができる。
以下、本発明に係る実施形態について図面を参照して説明する。なお、同様の構成要素については同一の符号を付している。
第1の実施形態.
図1は本発明の第1の実施形態に係る遺伝子データ処理システムの構成を示すブロック図であり、図2は図1のデータメモリ23の内部構成を示すブロック図である。また、図3は図1の遺伝子データ処理装置10によって実行される前置処理を示す機能ブロック図であり、図4は図1の遺伝子データ処理装置10によって実行される、第1の実施形態に係る遺伝子データ処理を示す機能ブロック図である。この実施形態の遺伝子データ処理装置10は、ライブラリの階層的分類定義データ72とライブラリグループの出力指定テーブル73とに基づいてライブラリの階層的分類テーブル74を生成する図3の前置処理を実行した後、上記生成されたライブラリの階層的分類テーブル74を用いて、遺伝子データベースのデータ71から所望の発現パターンに一致する遺伝子タグを検索して出力する図4の遺伝子データ処理を実行することを特徴としている。
図1は本発明の第1の実施形態に係る遺伝子データ処理システムの構成を示すブロック図であり、図2は図1のデータメモリ23の内部構成を示すブロック図である。また、図3は図1の遺伝子データ処理装置10によって実行される前置処理を示す機能ブロック図であり、図4は図1の遺伝子データ処理装置10によって実行される、第1の実施形態に係る遺伝子データ処理を示す機能ブロック図である。この実施形態の遺伝子データ処理装置10は、ライブラリの階層的分類定義データ72とライブラリグループの出力指定テーブル73とに基づいてライブラリの階層的分類テーブル74を生成する図3の前置処理を実行した後、上記生成されたライブラリの階層的分類テーブル74を用いて、遺伝子データベースのデータ71から所望の発現パターンに一致する遺伝子タグを検索して出力する図4の遺伝子データ処理を実行することを特徴としている。
本実施形態の遺伝子データ処理システムは、大きく分けて、
(a)例えばNCBIにより提供されるUniGeneデータ、又は非特許文献2で開示されたSAGEデータなどの遺伝子データベースのデータを格納した遺伝子データベースサーバ装置60から、インターネットなどの通信回線を介して、遺伝子データベースのデータをダウンロードする通信端末装置46と、
(b)デジタル計算機で構成され、上記遺伝子データベースのデータに基づいて、ライブラリの階層的分類テーブル74を用いて所望の発現パターンに一致する遺伝子タグを検索して出力する遺伝子データ処理装置10とを備えて構成される。
(a)例えばNCBIにより提供されるUniGeneデータ、又は非特許文献2で開示されたSAGEデータなどの遺伝子データベースのデータを格納した遺伝子データベースサーバ装置60から、インターネットなどの通信回線を介して、遺伝子データベースのデータをダウンロードする通信端末装置46と、
(b)デジタル計算機で構成され、上記遺伝子データベースのデータに基づいて、ライブラリの階層的分類テーブル74を用いて所望の発現パターンに一致する遺伝子タグを検索して出力する遺伝子データ処理装置10とを備えて構成される。
ここで、通信端末装置46と遺伝子データ処理装置10内の通信インターフェース36との間が通信ケーブル47を介して接続される。これらの通信インターフェース47は例えばLAN用の通信インターフェースである。そして、遺伝子データベースのデータは、遺伝子データベースサーバ装置60からインターネット50、通信端末装置46、通信ケーブル47及び通信インターフェース36を介して、遺伝子データ処理装置10内のデータメモリ23に遺伝子データベースのデータ71として格納され、当該格納された遺伝子データベースのデータ71に対して詳細後述される図4の遺伝子データ処理が実行される。
なお、SAGEデータを用いるときは、以下のように前置処理することが好ましい。mRNAから逆転写されたそれぞれのcDNAのごく一部の遺伝子タグ(例えば、9bp)を切り取る。切り取った遺伝子タグの断片を連結してより長いDNAを作成し、作成したDNAの配列を決定する。当該遺伝子タグ例であっても、49=262144通りの転写産物を区別できるので、遺伝子タグが何回出現したかを、DNA配列決定で計数することにより、その遺伝子タグの発現レベルを推定できる。従って、SAGEデータからの入力データは、遺伝子タグの配列、各臓器、発生段階、細胞などでの遺伝子タグの計数値、及び対応する遺伝子名称になる。
まず、図1を参照して、遺伝子データ処理装置10の構成について説明する。遺伝子データ処理装置10は、
(a)当該遺伝子データ処理装置10の動作及び処理を演算及び制御するコンピュータのCPU(中央演算処理装置)20と、
(b)オペレーションプログラムなどの基本プログラム及びそれを実行するために必要なデータを格納するROM(読み出し専用メモリ)21と、
(c)CPU20のワーキングメモリとして動作し、画像処理で必要なパラメータやデータを一時的に格納するRAM(ランダムアクセスメモリ)22と、
(d)例えばハードディスクメモリで構成され、図2に示すように各種のデータを格納するデータメモリ23と、
(e)例えばハードディスクメモリで構成され、CD−ROMドライブ装置45を用いて読みこんだ図3及び図4の処理のプログラムを格納するプログラムメモリ24と、
(f)通信端末装置46と接続され、インターネット50を介して遺伝子データベースサーバ装置60と、遺伝子データベースのデータを送受信する通信インターフェース36と、
(g)所定のデータや指示コマンドを入力するためのキーボード41に接続され、キーボード41から入力されたデータや指示コマンドを受信して所定の信号変換などのインターフェース処理を行ってCPU20に伝送するキーボードインターフェース31と、
(h)CRTディスプレイ43上で指示コマンドを入力するためのマウス42に接続され、マウス42から入力されたデータや指示コマンドを受信して所定の信号変換などのインターフェース処理を行ってCPU20に伝送するマウスインターフェース32と、
(i)CPU20によって処理された出力データや設定指示画面などを表示するCRTディスプレイ43に接続され、表示すべき画像データをCRTディスプレイ43用の画像信号に変換してCRTディスプレイ43に出力して表示するディスプレイインターフェース33と、
(j)CPU20によって処理された出力データなどを印字するプリンタ44に接続され、印字すべき印字データの所定の信号変換などを行ってプリンタ44に出力して印字するプリンタインターフェース34と、
(k)上記処理のプログラムが記憶されたCD−ROM45aから当該プログラムのプログラムデータを読み出すCD−ROMドライブ装置45に接続され、読み出された画像処理プログラムのプログラムデータを所定の信号変換などを行ってプログラムメモリ24に転送するドライブ装置インターフェース35とを備え、
これらの回路20−24、31−36はバス30を介して接続される。
(a)当該遺伝子データ処理装置10の動作及び処理を演算及び制御するコンピュータのCPU(中央演算処理装置)20と、
(b)オペレーションプログラムなどの基本プログラム及びそれを実行するために必要なデータを格納するROM(読み出し専用メモリ)21と、
(c)CPU20のワーキングメモリとして動作し、画像処理で必要なパラメータやデータを一時的に格納するRAM(ランダムアクセスメモリ)22と、
(d)例えばハードディスクメモリで構成され、図2に示すように各種のデータを格納するデータメモリ23と、
(e)例えばハードディスクメモリで構成され、CD−ROMドライブ装置45を用いて読みこんだ図3及び図4の処理のプログラムを格納するプログラムメモリ24と、
(f)通信端末装置46と接続され、インターネット50を介して遺伝子データベースサーバ装置60と、遺伝子データベースのデータを送受信する通信インターフェース36と、
(g)所定のデータや指示コマンドを入力するためのキーボード41に接続され、キーボード41から入力されたデータや指示コマンドを受信して所定の信号変換などのインターフェース処理を行ってCPU20に伝送するキーボードインターフェース31と、
(h)CRTディスプレイ43上で指示コマンドを入力するためのマウス42に接続され、マウス42から入力されたデータや指示コマンドを受信して所定の信号変換などのインターフェース処理を行ってCPU20に伝送するマウスインターフェース32と、
(i)CPU20によって処理された出力データや設定指示画面などを表示するCRTディスプレイ43に接続され、表示すべき画像データをCRTディスプレイ43用の画像信号に変換してCRTディスプレイ43に出力して表示するディスプレイインターフェース33と、
(j)CPU20によって処理された出力データなどを印字するプリンタ44に接続され、印字すべき印字データの所定の信号変換などを行ってプリンタ44に出力して印字するプリンタインターフェース34と、
(k)上記処理のプログラムが記憶されたCD−ROM45aから当該プログラムのプログラムデータを読み出すCD−ROMドライブ装置45に接続され、読み出された画像処理プログラムのプログラムデータを所定の信号変換などを行ってプログラムメモリ24に転送するドライブ装置インターフェース35とを備え、
これらの回路20−24、31−36はバス30を介して接続される。
図2は図1のデータメモリ23の内部構成を示すブロック図である。図2に示すように、データメモリ23は以下のデータやテーブルを格納する。
(1)遺伝子データベースのデータ71。
(2)ライブラリの階層的分類定義データ72。
(3)ライブラリグループ出力指定テーブル73。
(4)ライブラリの階層的分類テーブル74。
(5)EST報告数一覧テーブル75。
(6)ライブラリグループ毎のEST頻度テーブル76。
(7)クラス分類補助テーブル77。
(8)平均化EST頻度テーブル78。
(9)抽出クラスタの一覧テーブル79。
(10)細分類条件テーブル80。
(11)データ処理後の出力データ81。
(1)遺伝子データベースのデータ71。
(2)ライブラリの階層的分類定義データ72。
(3)ライブラリグループ出力指定テーブル73。
(4)ライブラリの階層的分類テーブル74。
(5)EST報告数一覧テーブル75。
(6)ライブラリグループ毎のEST頻度テーブル76。
(7)クラス分類補助テーブル77。
(8)平均化EST頻度テーブル78。
(9)抽出クラスタの一覧テーブル79。
(10)細分類条件テーブル80。
(11)データ処理後の出力データ81。
データメモリ23内の遺伝子データベースのデータは、例えばNCBIにより提供されるUniGeneデータであり、各生物について、以下のようなファイルから構成される。
(1)Mm.info:統計。
(2)Mm.seq.all:既知の遺伝子又はEST由来の転写産物配列を、推定遺伝子を含む遺伝子毎にクラスタに分類したもの。
(3)Mm.seq.uniq:各UniGeneデータのクラスタから1配列ずつ選んだもの。
(4)Mm.data:後述する形式からなるUniGeneレコードの集合。
(5)Mm.lib.info:各cDNA/ESTsライブラリの説明。
(6)Mm.retired.lst:現在と以前のバージョンの間で分類が変わったEST、遺伝子の一覧表。
(1)Mm.info:統計。
(2)Mm.seq.all:既知の遺伝子又はEST由来の転写産物配列を、推定遺伝子を含む遺伝子毎にクラスタに分類したもの。
(3)Mm.seq.uniq:各UniGeneデータのクラスタから1配列ずつ選んだもの。
(4)Mm.data:後述する形式からなるUniGeneレコードの集合。
(5)Mm.lib.info:各cDNA/ESTsライブラリの説明。
(6)Mm.retired.lst:現在と以前のバージョンの間で分類が変わったEST、遺伝子の一覧表。
ここで、上記ファイルの初めの2文字、あるいは3文字は生物種を表す。例えば、ヒトはHsであり、マウスはMmであり、ラットはRnである。本実施形態においては、マウスの例を示すが、UniGeneデータ及び本実施形態で取り扱う遺伝子データベースのデータはデータの構成及び動作は生物種に依存しない。
また、UniGeneデータ内のUniGeneレコードは、以下のデータを含む。
(1)ID:UniGeneデータのクラスタID。クラスタIDは、ESTをクラスタリングした(区分した)識別子である。
(2)TITLE:このクラスタのタイトル。
(3)GENE:Geneシンボル。
(4)SCOUNT:このクラスタ中の配列数。
(5)SEQUENCE:以下のシーケンスのデータを含む。
(5−1)ACC=GenBank/EMBL/DDBJにおけるシーケンスの受け入れ番号。
(5−2)NID=ユニークなヌクレオチドのシーケンス識別子(gi)。
(5−3)PID=ユニークなタンパク質のシーケンスの識別子(ESTではないものに対して用いる。
(5−4)CLONE=クローンの識別子(ESTのみに対して用いる)。
(5−5)LID=cDNA/ESTsのライブラリの識別番号。各cDNA/ESTsのライブラリの説明は上述のファイル「Mm.lib.info」にある。このライブラリの具体例は、図5及び図6を参照して詳細後述する。
(1)ID:UniGeneデータのクラスタID。クラスタIDは、ESTをクラスタリングした(区分した)識別子である。
(2)TITLE:このクラスタのタイトル。
(3)GENE:Geneシンボル。
(4)SCOUNT:このクラスタ中の配列数。
(5)SEQUENCE:以下のシーケンスのデータを含む。
(5−1)ACC=GenBank/EMBL/DDBJにおけるシーケンスの受け入れ番号。
(5−2)NID=ユニークなヌクレオチドのシーケンス識別子(gi)。
(5−3)PID=ユニークなタンパク質のシーケンスの識別子(ESTではないものに対して用いる。
(5−4)CLONE=クローンの識別子(ESTのみに対して用いる)。
(5−5)LID=cDNA/ESTsのライブラリの識別番号。各cDNA/ESTsのライブラリの説明は上述のファイル「Mm.lib.info」にある。このライブラリの具体例は、図5及び図6を参照して詳細後述する。
データメモリ23内のライブラリの階層的分類定義データ72は、その一例を図5及び図6に示すように、(A)発生段階別分類、(B)細胞別分類、(C)組織別分類、(D)臓器別分類、(E)腫瘍別分類、及び(F)実験条件別分類などの分類法により、遺伝子に係る細胞、組織、臓器、腫瘍、実験条件などの「遺伝子分類識別子」を用いて、一連の実験や検討に由来する遺伝子発現が推定可能な遺伝子データセット又は遺伝子データ群(ここで、遺伝子は、推定遺伝子、転写産物、遺伝子の断片やそのセットなどを含む)であるライブラリを階層的に分類して定義したものである。ここで、各ライブラリの名称の括弧内の番号は、ライブラリの識別番号LID(以下、ライブラリID(LID)という。)である。図5及び図6において、各ライブラリは複数分木形状で階層的に記載されており、各木のルートのライブラリを1次ライブラリグループといい、そのルートのライブラリの子ノードのライブラリを2次ライブラリグループという。さらに、同様に順次3次ないし複数次のライブラリグループを定義している。これら1次ないし複数次のライブラリグループを総称して「ライブラリグループ」という。
また、ライブラリグループ出力指定テーブル73は、その一例を図7に示すように、ライブラリグループ毎に、所望の遺伝子タグを出力したいライブラリグループであるか否かをY(YES)又はN(NO)で指定したものであり、ユーザが予めキーボード41を用いて入力したデータである。
さらに、ライブラリの階層的分類テーブル74は、その一例を図8に示すように、ライブラリグループ毎に付与されるライブラリグループID毎に、ライブラリグループ名称、ライブラリID(LID)と、出力指定及びクラスのデータを格納する。ここで、出力指定は、上述のように、所望の遺伝子タグを出力したいライブラリグループであるか否か示すものであり、Y(YES)又はN(NO)、もしくはNULL(不定)で記述される。また、クラスは、ユーザがキーボード41を用いて入力されるデータであって、ESTが報告されることを期待するライブラリグループをY(YES)(以下、クラスYという。)とし、ESTが報告されてはいけないライブラリグループをN(NO)(以下、クラスNという。)とし、その他当該ファイルで記載なしを示す不定(NULL)で記述される。当該ライブラリの階層的分類テーブル74は、図4を参照して詳細後述するように、ライブラリの階層的分類定義データ72と、ライブラリグループの出力指定テーブル73とに基づいて、前置処理部101による前置処理により、ライブラリの階層的分類テーブル74が生成される。
EST報告数一覧テーブル75は、その一例を図9に示すように、遺伝子データベースのデータ71に基づいて図4のEST報告数計数処理部102により計数された結果データであり、クラスタID毎に、各ライブラリID(LID)に含まれるESTの報告数の計数結果を含むとともに、それらの各ライブラリID(LID)毎のEST報告数の合計値も含む。すなわち、本実施形態においては、まず、例えば上述の遺伝子データベースのデータMm.dataを利用し、各クラスタについて、シーケンス行を読み込む度に、ライブラリID(LID)で識別されるcDNA/ESTsのライブラリ毎にEST報告数を1ずつ加算し、推定遺伝子を含む遺伝子の各クラスタID毎のcDNA/ESTsのライブラリ別のEST報告数一覧テーブル75を作成する。本実施形態では、ライブラリID(LID)の無いシーケンス行(例えば、その遺伝子だけをクローニングして、配列を決定した場合のシーケンス行)は読み飛ばし、また、各ライブラリ毎のEST報告数の合計を最後の行に記載する(図9参照)。
また、ライブラリグループ毎のEST頻度テーブル76は、その一例を図10に示すように、EST報告数一覧テーブル75及びライブラリの階層的分類テーブル74に基づいて、図4のEST頻度計数処理部103により、クラスタID毎に、ライブラリの階層的分類テーブル74に記載されたライブラリグループ毎のEST頻度を計数してなるテーブルであり、さらに、それらの各ライブラリグループ毎のEST頻度の合計値も含む。
さらに、クラス分類補助テーブル77は、その一例を図11に示すように、ライブラリグループ毎のEST頻度テーブル76及びライブラリの階層的分類テーブル74に基づいて、図4のクラスタリング分類補助テーブル生成処理部105により、クラスタID毎に、クラスYとクラスNの頻度を計数してなるテーブルであり、さらに、それらのクラスY及びクラスNに対する合計値も含む。
またさらに、平均化EST頻度テーブル78は、その一例を図12に示すように、ライブラリの階層的分類テーブル76に基づいて、図4のEST頻度平均化処理部104により、各ライブラリグループ毎の合計頻度が同一値(例えば、10000など)になるように、ライブラリの階層的分類テーブル76のEST頻度を各ライブラリグループ毎に平均化してなるテーブルであり、さらに、各クラスタID毎のEST頻度の合計値も含む。
また、抽出クラスタの一覧テーブル79は、その一例を図13に示すように、平均化EST頻度テーブル78及びクラス分類補助テーブル77に基づいて、図4のクラスタ抽出処理部106により、クラス分類補助テーブル77におけるクラスYが1以上であって(発現を期待する遺伝子のクラスタIDである)、クラスNが0である(発現が見られてはならない遺伝子のクラスタIDである)というクラスタ抽出条件で、平均化EST頻度テーブル78からクラスタIDの平均化EST頻度を抽出してなるテーブルである。
さらに、細分類条件テーブル80は、上記得られた抽出クラスタの一覧テーブル79からさらなる細分類条件を適用するためのテーブルであって、予めユーザによりキーボード41を用いて入力される。細分類条件テーブル80は、例えば、所定の目的の遺伝子データを取得するために1つ又はライブラリグループを指定する複数の条件を、各条件において、かつ(AND)及び/又は(OR)を用いて記述する。以下に細分類条件の例を示す。なお、各細分類条件に合致するようなESTの報告が見られる遺伝子データ(推定遺伝子データを含む。)を条件別に抽出する。ここで、各条件はNo.1から昇順で順次適応していき、前回の条件に合致した遺伝子は次の検索からは除外する。
[表1]
細分類条件例1(栄養外胚葉系特異的発現遺伝子の取得のため)
――――――――――――――――――――――――――――――――――
No.1:栄養外胚葉系かつ胚性幹細胞
No.2:栄養外胚葉系かつ卵巣
No.3:栄養外胚葉系かつ精巣
No.4:栄養外胚葉系かつ間葉系幹細胞
No.5:栄養外胚葉系かつ造血幹細胞
No.6:栄養外胚葉系のみ
――――――――――――――――――――――――――――――――――
細分類条件例1(栄養外胚葉系特異的発現遺伝子の取得のため)
――――――――――――――――――――――――――――――――――
No.1:栄養外胚葉系かつ胚性幹細胞
No.2:栄養外胚葉系かつ卵巣
No.3:栄養外胚葉系かつ精巣
No.4:栄養外胚葉系かつ間葉系幹細胞
No.5:栄養外胚葉系かつ造血幹細胞
No.6:栄養外胚葉系のみ
――――――――――――――――――――――――――――――――――
[表2]
細分類条件例2(造血幹細胞機能関連遺伝子の取得のため)
――――――――――――――――――――――――――――――――――
No.1:造血幹細胞かつ胚性幹細胞
No.2:造血幹細胞かつ(精巣又は卵巣又は未受精卵又は受精卵)
No.3:造血幹細胞かつ(生殖腺又は泌尿生殖堤)
No.4:造血幹細胞のみ
――――――――――――――――――――――――――――――――――
細分類条件例2(造血幹細胞機能関連遺伝子の取得のため)
――――――――――――――――――――――――――――――――――
No.1:造血幹細胞かつ胚性幹細胞
No.2:造血幹細胞かつ(精巣又は卵巣又は未受精卵又は受精卵)
No.3:造血幹細胞かつ(生殖腺又は泌尿生殖堤)
No.4:造血幹細胞のみ
――――――――――――――――――――――――――――――――――
[表3]
細分類条件例3(未分化性関連遺伝子の取得のため)
――――――――――――――――――――――――――――――――――
No.1:胚性幹細胞かつ精巣かつ卵巣
No.2:胚性幹細胞かつ(生殖腺又は泌尿生殖堤)
No.3:胚性幹細胞かつ精巣
No.4:胚性幹細胞かつ卵巣
No.5:未受精卵かつ精巣
No.6:精巣かつ(生殖腺又は泌尿生殖堤)
No.7:間葉系幹細胞又は造血幹細胞
No.8:卵巣かつ未受精卵かつ受精卵
No.9:胚性幹細胞
No.10:栄養外胚葉系
No.11:精巣のみ
――――――――――――――――――――――――――――――――――
細分類条件例3(未分化性関連遺伝子の取得のため)
――――――――――――――――――――――――――――――――――
No.1:胚性幹細胞かつ精巣かつ卵巣
No.2:胚性幹細胞かつ(生殖腺又は泌尿生殖堤)
No.3:胚性幹細胞かつ精巣
No.4:胚性幹細胞かつ卵巣
No.5:未受精卵かつ精巣
No.6:精巣かつ(生殖腺又は泌尿生殖堤)
No.7:間葉系幹細胞又は造血幹細胞
No.8:卵巣かつ未受精卵かつ受精卵
No.9:胚性幹細胞
No.10:栄養外胚葉系
No.11:精巣のみ
――――――――――――――――――――――――――――――――――
[表4]
細分類条件例4(膵臓特異的発現遺伝子の取得のため)
――――――――――――――――――――――――――――――――――
No.1:膵臓のみ
No.2:肝臓のみ
No.3:胆嚢のみ
No.4:膵臓かつ胆嚢
No.5:膵臓かつ肝臓
――――――――――――――――――――――――――――――――――
細分類条件例4(膵臓特異的発現遺伝子の取得のため)
――――――――――――――――――――――――――――――――――
No.1:膵臓のみ
No.2:肝臓のみ
No.3:胆嚢のみ
No.4:膵臓かつ胆嚢
No.5:膵臓かつ肝臓
――――――――――――――――――――――――――――――――――
さらに、データ処理後の出力データ81の一例を以下に示す。当該出力データ81では、既知の未分化細胞特異的遺伝子のほとんどが含まれる。
[表5]
データ処理後の出力データ81の一例
――――――――――――――――――――――――――――――――――
クラスタID X3 X9 X20 … 合計
――――――――――――――――――――――――――――――――――
Mm.17616 0.00 4.46 0.88 … 24.170
Mm.169673 0.00 0.00 0.88 … 22.830
Mm.272981 4.20 17.84 0.88 … 43.320
Mm.345070 0.00 0.00 0.88 … 19.710
Mm.34674 0.00 0.00 0.88 … 22.830
Mm.28858 0.00 0.00 1.77 … 59.050
Mm.307315 0.00 0.00 2.65 … 33.120
――――――――――――――――――――――――――――――――――
データ処理後の出力データ81の一例
――――――――――――――――――――――――――――――――――
クラスタID X3 X9 X20 … 合計
――――――――――――――――――――――――――――――――――
Mm.17616 0.00 4.46 0.88 … 24.170
Mm.169673 0.00 0.00 0.88 … 22.830
Mm.272981 4.20 17.84 0.88 … 43.320
Mm.345070 0.00 0.00 0.88 … 19.710
Mm.34674 0.00 0.00 0.88 … 22.830
Mm.28858 0.00 0.00 1.77 … 59.050
Mm.307315 0.00 0.00 2.65 … 33.120
――――――――――――――――――――――――――――――――――
次いで、本実施形態に係る遺伝子データ処理装置10によって実行される遺伝子でー他処理の概要について以下に説明する。EST報告計数処理部102では、まず、cDNAライブラリの由来の再確認が必要であり、NCBIのcDNAライブラリの注釈にはかなりの誤りが含まれているうえ、未分類のものも数多くある。現在でも初期胚〜ES細胞に関しては未分類が多い。従って、好ましくは、由来を確認したうえで、臓器、組織、細胞別に発生段階も考慮して分類を行う。
(1)入手した遺伝子データベースのデータに基づいて、ライブラリ分類に従って、臓器、組織、細胞、発生段階別にEST報告数を集計する。
(2)クラスY及びクラスNを用いて、発現が見られてはならない臓器(例:体細胞)からESTが報告されている遺伝子を除く。
(3)クラス分類補助テーブル77を用いて、上記残ったもののうち、発現を期待する臓器、発生段階(例えば、初期胚、ES細胞、生殖細胞)についてはいずれかのライブラリから少なくとも1つはESTの報告がある遺伝子タグを選択する。
(4)EST報告数から、臓器、組織、細胞、発生段階別の発現パターンを推定した一覧表を作製し、上記(3)の遺伝子について一覧表から推定発現パターンを抽出する。
(5)その結果を予め設定した細分類条件テーブル80の発現パターンで細分類する。
(1)入手した遺伝子データベースのデータに基づいて、ライブラリ分類に従って、臓器、組織、細胞、発生段階別にEST報告数を集計する。
(2)クラスY及びクラスNを用いて、発現が見られてはならない臓器(例:体細胞)からESTが報告されている遺伝子を除く。
(3)クラス分類補助テーブル77を用いて、上記残ったもののうち、発現を期待する臓器、発生段階(例えば、初期胚、ES細胞、生殖細胞)についてはいずれかのライブラリから少なくとも1つはESTの報告がある遺伝子タグを選択する。
(4)EST報告数から、臓器、組織、細胞、発生段階別の発現パターンを推定した一覧表を作製し、上記(3)の遺伝子について一覧表から推定発現パターンを抽出する。
(5)その結果を予め設定した細分類条件テーブル80の発現パターンで細分類する。
本実施形態では、上記(2)及び(3)のステップについて、将来の機能拡張を考え、臓器、組織、細胞、発生段階をいつくか一まとめにしたもの(クラス)について各々EST報告数を別に集計し直し、これらについて、あるカットオフ値以上、又は以下の遺伝子を選別できるように構成している。本実施形態では、クラスY(発現を期待する臓器、発生段階)、クラスN(発現が見られてはならない臓器)の2つのクラスのみでそれぞれ、クラスYがカットオフ値1以上であり、かつクラスNはカットオフ値0であることを条件として抽出している。より具体的な手順は以下の通りである。
(1)例えばUniGeneの遺伝子データベースのデータファイル(Mm.data)を読み込んで、EST報告数一覧表テーブル75を作成して記憶する。
(2)ライブラリの階層的分類定義テーブル74は、各ライブラリの由来をマニュアルで調べ直して、臓器、組織、細胞及び発生段階、また、ライブラリを構築したライブラリグループを考慮して、分類する。
(3)ライブラリグループ出力指定テーブル73では、解析対象のライブラリグループをYとし、解析対象ではにライブラリグループにNを付する。
(4)ライブラリの階層的分類定義データ72とライブラリグループ出力指定テーブル73に基づいて、ライブラリグループ毎に、ライブラリID(LID)、出力指定及びクラス分類を指定する。ここで、発現が見られることを期待するライブラリグループはクラスYとされ、発現がみられてはいけないライブラリグループにはクラスNと付与する。これにより、ライブラリの階層的分類テーブル74を作成する。
(5)ライブラリの階層的分類テーブル74の階層的分類に従って、ライブラリグループ毎のEST頻度テーブル76を作成する。
(6)このEST頻度テーブル76の各欄を合計行のライブラリグループ毎のEST数の総数で割って、平均化された相対値を算出することにより、平均化EST頻度テーブル78を作成する。
(7)ライブラリグループ毎のEST頻度テーブル76及びライブラリの階層的分類テーブル74に基づいて、各クラスタID毎に、クラスY及びクラスNに属するライブラリグループでのEST報告数を計数して、クラス分類補助テーブル77を作成する。
(8)クラスYのライブラリグループでのEST報告数が1以上でかつクラスNのライブラリグループでのEST報告数が0のクラスタをクラス分類補助テーブル77から検索し、該当するクラスタIDを抽出クラスタの一覧テーブル79から抽出する。
(9)抽出クラスタの一覧テーブル79において、細分類条件テーブル80に規定する細分類条件を適用して、発現する可能が高い所望の遺伝子タグのEST報告数のデータを得る。
(2)ライブラリの階層的分類定義テーブル74は、各ライブラリの由来をマニュアルで調べ直して、臓器、組織、細胞及び発生段階、また、ライブラリを構築したライブラリグループを考慮して、分類する。
(3)ライブラリグループ出力指定テーブル73では、解析対象のライブラリグループをYとし、解析対象ではにライブラリグループにNを付する。
(4)ライブラリの階層的分類定義データ72とライブラリグループ出力指定テーブル73に基づいて、ライブラリグループ毎に、ライブラリID(LID)、出力指定及びクラス分類を指定する。ここで、発現が見られることを期待するライブラリグループはクラスYとされ、発現がみられてはいけないライブラリグループにはクラスNと付与する。これにより、ライブラリの階層的分類テーブル74を作成する。
(5)ライブラリの階層的分類テーブル74の階層的分類に従って、ライブラリグループ毎のEST頻度テーブル76を作成する。
(6)このEST頻度テーブル76の各欄を合計行のライブラリグループ毎のEST数の総数で割って、平均化された相対値を算出することにより、平均化EST頻度テーブル78を作成する。
(7)ライブラリグループ毎のEST頻度テーブル76及びライブラリの階層的分類テーブル74に基づいて、各クラスタID毎に、クラスY及びクラスNに属するライブラリグループでのEST報告数を計数して、クラス分類補助テーブル77を作成する。
(8)クラスYのライブラリグループでのEST報告数が1以上でかつクラスNのライブラリグループでのEST報告数が0のクラスタをクラス分類補助テーブル77から検索し、該当するクラスタIDを抽出クラスタの一覧テーブル79から抽出する。
(9)抽出クラスタの一覧テーブル79において、細分類条件テーブル80に規定する細分類条件を適用して、発現する可能が高い所望の遺伝子タグのEST報告数のデータを得る。
図3は図1の遺伝子データ処理装置10のCPU20によって実行される前置処理を示す機能ブロック図であり、図3を参照して、前置処理について以下詳細説明する。なお、図3の前置処理部101は、CPU20がプログラムメモリ24に格納された前置処理のプログラムを実行するときの処理機能部である。図3において、前置処理部101は、ライブラリの階層的分類定義データ72と、ライブラリグループの出力指定テーブル73とに基づいて、ライブラリグループID毎に、ライブラリ名称と、ライブラリIDを検索し、ライブラリグループの出力指定テーブル73での出力指定データを転記し、かつユーザによりキーボード41を用いて入力されるクラス分類を格納することにより、ライブラリの階層的分類テーブル74を生成してデータメモリ23に格納する。
図4は図1の遺伝子データ処理装置10によって実行される、第1の実施形態に係る遺伝子データ処理を示す機能ブロック図であり、図4を参照して、遺伝子データ処理について以下詳細説明する。なお、図4の各処理部102乃至107は、CPU20がプログラムメモリ24に格納された遺伝子データ処理のプログラムを実行するときの処理機能部である。
図4において、まず、EST報告数計数処理部102は、遺伝子データベースのデータ71内のEST報告数を、クラスタID毎に、ライブラリID(LID)で区分しながら計数することにより、EST報告数一覧テーブル75を得る。次いで、EST頻度計数処理部103は、EST報告数一覧テーブル75及びライブラリの階層的分類テーブル74に基づいて、クラスタID毎に、ライブラリの階層的分類テーブル74に記載されたライブラリグループ毎のEST頻度を計数して、ライブラリグループ毎のEST頻度テーブル76を作成してデータメモリ23に格納する。一方、クラス分類補助テーブル生成処理部105は、ライブラリグループ毎のEST頻度テーブル及びライブラリの階層的分類テーブル74に基づいて、クラスタID毎に、クラスYとクラスNの頻度を計数して、クラス分類補助テーブル77を作成してデータメモリ23に格納する。
次いで、EST頻度平均化処理部104は、ライブラリグループ毎のEST頻度テーブル76に基づいて、各ライブラリグループ毎の合計頻度が同一値(例えば、10000など)になるように、ライブラリの階層的分類テーブル76のEST頻度を各ライブラリグループ毎に平均化してその平均値を計算して、平均化EST頻度テーブル78を作成してデータメモリ23に格納する。そして、クラスタ抽出処理部106は、クラス分類補助テーブル77を用いるクラス分類法を用いたクラスタ抽出処理を実行し、具体的には、平均化EST頻度テーブル78及びクラス分類補助テーブル77に基づいて、クラス分類補助テーブル77におけるクラスYが1以上であって(発現を期待する遺伝子のクラスタIDである)、クラスNが0である(発現が見られてはならない遺伝子のクラスタIDである)というクラスタ抽出条件で、平均化EST頻度テーブル78からクラスタIDの平均化EST頻度を抽出して、抽出クラスタの一覧テーブル79を作成してデータメモリ23に格納する。さらに、細分類条件適用処理部107は、抽出クラスタの一覧テーブル79及び細分類条件テーブル80に基づいて、抽出クラスタの一覧テーブル79において、細分類条件テーブル80に記載された各細分類条件を順次適用してゆき、前回の条件に合致した遺伝子(推定遺伝子を含む。)は次の検索からは除外するように検索し、検索結果のデータを、データ処理後の出力データ81としてデータメモリ23に格納する。
以上説明したように、本実施形態によれば、EST頻度平均化処理部103によりEST頻度を各ライブラリグループ毎に平均化することにより、DDD法で取りこぼしている統計的に有意に達しない遺伝子タグを取得することができる(すなわち、取りこぼしを少なくすることができる)。また、出力指定やクラス指定を用いることにより、また、細分類条件テーブル80を用いることにより、所望の発現パターンに合致した検索条件を柔軟に設定することができ、所望の発現遺伝子タグを取得することができる。さらに、ライブラリグループの階層的な分類により、簡便に賢明な所望のクラス分類が可能になる。
第1の実施形態の第1の変形例.
図14は、第1の実施形態の第1の変形例に係る遺伝子データ処理を示す機能ブロック図である。第1の実施形態の第1の変形例に係る遺伝子データ処理は、図4の第1の実施形態に係る遺伝子データ処理に比較して、クラスタ抽出処理部106に代えて、クラスタ抽出処理での条件を変更したクラスタ抽出処理部106Aを備えたことを特徴としている。クラスタ抽出処理部106Aでは、具体的には、例えば、クラスYでのEST報告数が4以上であって、クラスNでのEST報告数が2以下であるようにカットオフ値を変更して、クラスタ抽出処理を行う。これにより、遺伝子データベースのデータにおける重複データなどのノイズデータを除去することができるという特有の効果を有している。特に、第1の実施形態では、クラス分類補助テーブル77におけるクラスYが1以上であって、クラスNが0であるというクラスタ抽出条件を用いて平均化EST頻度を抽出している場合は、統計的な有意差を持って抽出することが困難であるが、当該第1の変形例及びその他の実施形態などにおいては、統計的な有意差を持って抽出することができる。
図14は、第1の実施形態の第1の変形例に係る遺伝子データ処理を示す機能ブロック図である。第1の実施形態の第1の変形例に係る遺伝子データ処理は、図4の第1の実施形態に係る遺伝子データ処理に比較して、クラスタ抽出処理部106に代えて、クラスタ抽出処理での条件を変更したクラスタ抽出処理部106Aを備えたことを特徴としている。クラスタ抽出処理部106Aでは、具体的には、例えば、クラスYでのEST報告数が4以上であって、クラスNでのEST報告数が2以下であるようにカットオフ値を変更して、クラスタ抽出処理を行う。これにより、遺伝子データベースのデータにおける重複データなどのノイズデータを除去することができるという特有の効果を有している。特に、第1の実施形態では、クラス分類補助テーブル77におけるクラスYが1以上であって、クラスNが0であるというクラスタ抽出条件を用いて平均化EST頻度を抽出している場合は、統計的な有意差を持って抽出することが困難であるが、当該第1の変形例及びその他の実施形態などにおいては、統計的な有意差を持って抽出することができる。
第1の実施形態の第2の変形例.
図15は、第1の実施形態の第2の変形例に係る遺伝子データ処理を示す機能ブロック図である。第1の実施形態の第2の変形例に係る遺伝子データ処理は、図4の第1の実施形態に係る遺伝子データ処理に比較して、以下の点が異なる。
(1)クラス分類補助テーブル生成処理部105及びクラス分類補助テーブル77を設けない。
(2)クラスタ抽出処理部106に代えて、クラスタ抽出処理部106Bを設け、クラスタ抽出処理部106Bは、クラス分類補助テーブル77なしでクラス分類を行うことを特徴としている。
図15は、第1の実施形態の第2の変形例に係る遺伝子データ処理を示す機能ブロック図である。第1の実施形態の第2の変形例に係る遺伝子データ処理は、図4の第1の実施形態に係る遺伝子データ処理に比較して、以下の点が異なる。
(1)クラス分類補助テーブル生成処理部105及びクラス分類補助テーブル77を設けない。
(2)クラスタ抽出処理部106に代えて、クラスタ抽出処理部106Bを設け、クラスタ抽出処理部106Bは、クラス分類補助テーブル77なしでクラス分類を行うことを特徴としている。
なお、第1の実施形態の第2の変形例では、クラス分類補助テーブル77なしでクラス分類を行うので、ライブラリの階層的分類テーブル74を変更するたびに、ライブラリグループ毎のEST頻度テーブル76を再作成する必要がある。
第1の実施形態の第3の変形例.
図16は、第1の実施形態の第3の変形例に係る遺伝子データ処理を示す機能ブロック図である。第1の実施形態の第3の変形例に係る遺伝子データ処理は、図4の第1の実施形態に係る遺伝子データ処理に比較して、クラスタ抽出処理部106に代えて、直接確率計算法を用いてクラスタ抽出処理を実行するクラスタ抽出処理部106Cを備えたことを特徴としている。
図16は、第1の実施形態の第3の変形例に係る遺伝子データ処理を示す機能ブロック図である。第1の実施形態の第3の変形例に係る遺伝子データ処理は、図4の第1の実施形態に係る遺伝子データ処理に比較して、クラスタ抽出処理部106に代えて、直接確率計算法を用いてクラスタ抽出処理を実行するクラスタ抽出処理部106Cを備えたことを特徴としている。
クラスタ抽出処理部106Cでは、具体的には、「クラスYでのEST報告数が0を超えかつクラスNでのEST報告数が0であるという抽出条件を適用することに代えて、例えば、非特許文献4において開示された「フィッシャーの直接確率法」を用いて所望の遺伝子タグを抽出し、抽出されたクラスタのデータを抽出クラスタの一覧テーブル79としてデータメモリ23に格納する。ここで、「フィッシャーの直接確率法」は2×2クロス表の検定のための有意確率を直接求める方法であって、t検定やカイ2乗検定などとは異なり,特定の統計量の分布を考えなくてよいという利点を有している。「フィッシャーの直接確率法」においては、一般的には、全標本数をNとし、変数AのカテゴリA1,A2の度数をそれぞれn1,n2とする。また、同様に、変数BのカテゴリB1,B2の度数をm1,m2とする。ここで、偶然に4つのセルの度数がa,b,c,dとなる確率、及びそれ以上に特定方向に偏った状態の確率を求める方法である。
DDD法における「フィッシャーの直接確率法」では、以下の2×2クロス表について考える。図20(a)は、遺伝子データベースのデータMm.dataに対するフィッシャーの直接確率法の適用例を示す図であり、図20(b)は当該適用例の実施例を示す。なお、図20において遺伝子は推定遺伝子を含む。図20(a)において、プールサイズ(N,M)と、遺伝子データのEST報告数の計数値(c,C)が与えられたとき、図20(a)のテーブルでの確率pは次式で計算される。
[数1]
p=[N!M!c!C!]/[(N+M)!a!b!A!B!]
p=[N!M!c!C!]/[(N+M)!a!b!A!B!]
ここで、0!は1に設定される。2つのプールにおいて等しく表された遺伝子データの0仮説は、確率pは次式が成立するとき棄却される。
[数2]
p≦0.05/G
p≦0.05/G
ここで、0.05は統計的な確からしさのレベルを表し、Gはボンフェローニ(Bonferroni)の不等式に基づく補正係数であり、可能なテストの全体数に対応する。DDD法を用いた場合においては、補正係数Gは次式で表される。
[数3]
G=(遺伝子データのクラスタ数)×(プール数)×(プール数−1)/2
G=(遺伝子データのクラスタ数)×(プール数)×(プール数−1)/2
また、図20(b)の実施例において、遺伝子データベースのデータ(クラスタIDがMm.6047)に対する計算例が示されている。
第2の実施形態.
図17は本発明の第2の実施形態に係る遺伝子データ処理を示す機能ブロック図である。第2の実施形態に係る遺伝子データ処理は、図4の第1の実施形態に係る遺伝子データ処理に比較して、以下の点が異なる。
(1)クラス分類補助テーブル生成処理部105及びクラス分類補助テーブル77を設けない。
(2)クラスタ抽出処理部106に代えて、クラスタ抽出処理部106Dを設け、クラスタ抽出処理部106Dは、階層化クラスタリング法を用いてクラス分類してクラスタを抽出することを特徴としている。
図17は本発明の第2の実施形態に係る遺伝子データ処理を示す機能ブロック図である。第2の実施形態に係る遺伝子データ処理は、図4の第1の実施形態に係る遺伝子データ処理に比較して、以下の点が異なる。
(1)クラス分類補助テーブル生成処理部105及びクラス分類補助テーブル77を設けない。
(2)クラスタ抽出処理部106に代えて、クラスタ抽出処理部106Dを設け、クラスタ抽出処理部106Dは、階層化クラスタリング法を用いてクラス分類してクラスタを抽出することを特徴としている。
クラスタ抽出処理部106Dは、各遺伝子(推定遺伝子を含む。)のESTパターン同士の相互の類似性又はユークリッド距離を、ピアソン(Pearson)の相関係数又はスペアマン(Spearman)の順位相関係数などを用いて数値化し、距離の近い発現パターンのよく似た遺伝子同士(すなわち、距離が所定のしきい値以下である遺伝子同士)を1つのクラスタにまとめる階層化クラスタリング法を用いて、発現の類似性を分類することを特徴としている。
例えば、あるクラスタIDである遺伝子Aのパターン(平均化EST頻度テーブルの各値)を[a1,a2,a3,…]とし、別のクラスタIDである遺伝子Bのパターン(平均化EST頻度テーブルの各値)を[b1,b2,b3,…]としたとき、遺伝子A,Bの発現パターン間のユークリッド距離Disは次式で表される。
以上の実施形態においては、2点間の最短距離を表すユークリッド距離を用いているが、本発明はこれに限らず、以下の種々の公知の距離を用いてもよい。
(1)2点間の座標の差の絶対値の総和として定義される市街距離。
(2)ユークリッド距離と、市街距離とを、平方根内の2乗を一般化された整数p乗にして一般化してなるミンコフスキー距離。
(3)ユークリッド距離を拡張して、分散共分散行列の推定値Sを用いて定義されるマハラノビス距離。
(4)2つのベクトルxとy(上記の例では、2つのパターン要素を有するベクトル)間でその差の絶対値の総和であるマンハッタン距離。
(1)2点間の座標の差の絶対値の総和として定義される市街距離。
(2)ユークリッド距離と、市街距離とを、平方根内の2乗を一般化された整数p乗にして一般化してなるミンコフスキー距離。
(3)ユークリッド距離を拡張して、分散共分散行列の推定値Sを用いて定義されるマハラノビス距離。
(4)2つのベクトルxとy(上記の例では、2つのパターン要素を有するベクトル)間でその差の絶対値の総和であるマンハッタン距離。
第3の実施形態.
図18は、本発明の第3の実施形態に係る遺伝子データ処理を示す機能ブロック図である。第3の実施形態に係る遺伝子データ処理は、図17の第2の実施形態に係る遺伝子データ処理に比較して、細分類条件適用処理部107を設けないことを特徴としている。すなわち、第3の実施形態では、細分類条件テーブル80を用いた細分類条件適用処理を実行せずに、階層化クラスタリング法によるクラスタ抽出処理部106Dによるクラスタ抽出処理のみを実行する。従って、第3の実施形態に係るクラスタ抽出処理部106Dは、クラスタ抽出処理された平均化EST頻度テーブルのデータを、データ処理後の出力データとしてデータメモリ23に格納する。以上の処理により、第2の実施形態に比較して、遺伝子データ処理を簡単化できる。
図18は、本発明の第3の実施形態に係る遺伝子データ処理を示す機能ブロック図である。第3の実施形態に係る遺伝子データ処理は、図17の第2の実施形態に係る遺伝子データ処理に比較して、細分類条件適用処理部107を設けないことを特徴としている。すなわち、第3の実施形態では、細分類条件テーブル80を用いた細分類条件適用処理を実行せずに、階層化クラスタリング法によるクラスタ抽出処理部106Dによるクラスタ抽出処理のみを実行する。従って、第3の実施形態に係るクラスタ抽出処理部106Dは、クラスタ抽出処理された平均化EST頻度テーブルのデータを、データ処理後の出力データとしてデータメモリ23に格納する。以上の処理により、第2の実施形態に比較して、遺伝子データ処理を簡単化できる。
第4の実施形態.
図19は、本発明の第4の実施形態に係る遺伝子データ処理を示す機能ブロック図である。第4の実施形態に係る遺伝子データ処理は、図18の第3の実施形態に係る遺伝子データ処理に比較して、階層化クラスタリング法を用いたクラスタ抽出処理部106Dに代えて、相関係数を用いた抽出法によるクラスタ抽出処理部106Eを設けたことを特徴としている。すなわち、第4の実施形態では、クラスタ抽出処理部106Eは、発現していることが既知の遺伝子の発現パターン(平均化EST頻度テーブルの各値)と、平均化EST頻度テーブル78内の遺伝子パターン(平均化EST頻度テーブルの各値)との間の相関係数又はユークリッド距離を計算し、所定のしきい値以下の距離を有する遺伝子パターンを抽出して、データ処理後の出力データとしてデータメモリ23に格納する。以上の処理により、例えば自分が研究したい所望の遺伝子に近い遺伝子パターンを抽出することができる。
図19は、本発明の第4の実施形態に係る遺伝子データ処理を示す機能ブロック図である。第4の実施形態に係る遺伝子データ処理は、図18の第3の実施形態に係る遺伝子データ処理に比較して、階層化クラスタリング法を用いたクラスタ抽出処理部106Dに代えて、相関係数を用いた抽出法によるクラスタ抽出処理部106Eを設けたことを特徴としている。すなわち、第4の実施形態では、クラスタ抽出処理部106Eは、発現していることが既知の遺伝子の発現パターン(平均化EST頻度テーブルの各値)と、平均化EST頻度テーブル78内の遺伝子パターン(平均化EST頻度テーブルの各値)との間の相関係数又はユークリッド距離を計算し、所定のしきい値以下の距離を有する遺伝子パターンを抽出して、データ処理後の出力データとしてデータメモリ23に格納する。以上の処理により、例えば自分が研究したい所望の遺伝子に近い遺伝子パターンを抽出することができる。
実施形態の効果.
以上説明したように、本実施形態によれば、EST頻度平均化処理部103によりEST頻度を各ライブラリグループ毎に平均化することにより、DDD法で取りこぼしている統計的に有意に達しない遺伝子タグを取得することができる。また、出力指定やクラス指定を用いることにより、また、細分類条件テーブル80を用いることにより、所望の発現パターンに合致した検索条件を柔軟に設定することができ、所望の発現遺伝子タグを取得することができる。さらに、既知の遺伝子の発現パターン(平均化EST頻度テーブルの各値)と、平均化EST頻度テーブル78内の遺伝子パターン(平均化EST頻度テーブルの各値)との間の相関係数又はユークリッド距離を計算し、所定のしきい値以下の距離を有する遺伝子パターンを抽出することにより、例えば自分が研究したい所望の遺伝子に近い遺伝子パターンを抽出することができる。
以上説明したように、本実施形態によれば、EST頻度平均化処理部103によりEST頻度を各ライブラリグループ毎に平均化することにより、DDD法で取りこぼしている統計的に有意に達しない遺伝子タグを取得することができる。また、出力指定やクラス指定を用いることにより、また、細分類条件テーブル80を用いることにより、所望の発現パターンに合致した検索条件を柔軟に設定することができ、所望の発現遺伝子タグを取得することができる。さらに、既知の遺伝子の発現パターン(平均化EST頻度テーブルの各値)と、平均化EST頻度テーブル78内の遺伝子パターン(平均化EST頻度テーブルの各値)との間の相関係数又はユークリッド距離を計算し、所定のしきい値以下の距離を有する遺伝子パターンを抽出することにより、例えば自分が研究したい所望の遺伝子に近い遺伝子パターンを抽出することができる。
変形例.
以上の実施形態においては、EST報告数について処理しているが、本発明はこれに限らず、種々の遺伝子データの報告数を処理してもよい。
以上の実施形態においては、EST報告数について処理しているが、本発明はこれに限らず、種々の遺伝子データの報告数を処理してもよい。
図5及び図6のライブラリの階層的分類定義データ72において、ライブラリグループは、発生段階別分類、細胞別分類、組織別分類、臓器別分類、腫瘍別分類及び実験条件別分類などの分類法で分類されているが、本発明はこれに限らず、これらの少なくとも1つの分類法を用いて階層的に分類してもよい。
本実施形態においては、図3の前置処理及び図4、図14乃至図19の遺伝子データ処理のプログラムデータをCD−ROM45aに格納して実行するときにプログラムメモリ24にロードして実行しているが、本発明はこれに限らず、CD−R、CD−RW、DVD、MOなどの光ディスク又は光磁気ディスクの記録媒体、もしくは、フロッピー(登録商標)ディスクなどの磁気ディスクの記録媒体など種々の記録媒体に格納してもよい。これらの記録媒体は,コンピュータで読み取り可能な記録媒体である。また、上記遺伝子データ処理のプログラムデータを予めプログラムメモリ24に格納して当該遺伝子データ処理を実行してもよい。
本実施形態に係る遺伝子データ処理装置10では、mRNAの発現量を対象にしているが、タンパクチップなどが実用化されたときのタンパクレベルでの発現パターン解析に、本実施形態に係る遺伝子データ処理方法を用いることができる。この発現パターン解析(例えば、非特許文献5参照。)は、転写産物分子は与えられたときに発現されている遺伝子の種類をその量のプロファイルを決定する遺伝子の発現プロファイルを解析する方法であり、以下に、各遺伝子をもともとの遺伝子配列とは異なったDNA配列に符号化する方法について説明する。
まず、DNA計算による生体分子情報解析の原理について説明する。DNAコンピュータのCPUは一連のDNA分子反応で構築されている。CPUが同じ反応条件の下で正確かつ効率よく命令を実行するためには、命令の引数であるデータが正規直交化した塩基配列のビット列であるDNA符号で表現されていることが必要である。従って、DNA/RNA分子の情報をDNAコンピュータで解析する場合、入力データであるそれらの情報をDNAコンピュータの内部コードであるDNA符号に変換することを最初に行う必要がある。これはちょうど、CPUが論理回路で構築されている電子コンピュータの内部では、データが2進符号で表現されているため、入力装置から入力されたデータは内部コードである2進符号に変換されてから計算処理にかけられることに対応する。DNA符号に変換された入力データは、DNAコンピュータのCPUがサポートする一連の命令で処理されたのち、DNA符号で表現されたDNA分子として出力される。そのDNA分子のDNA符号をデコードすると計算処理の結果が得られる。DNA符号をデコードして表示する方法には、graduated PCRやDNAシーケンシングがある。しかしながら、最も効率的な方法は、DNA符号のビットを構成する正規直交化配列の相補配列鎖を集積したDNAチップを用いる方法である。同じDNA符号の体系を使用する限り、チップ上に集積されたDNAプローブは変わらない。従って、このチップはユニバーサルDNAチップといえる。
次いで、遺伝子の発現プロファイル解析について説明する。遺伝子の機能を解明するための重要な解析のひとつとして、転写産物分子が与えられたときに発現されている遺伝子の種類とその量のプロファイルを決定する遺伝子の発現プロファイル解析がある。前述した原理に基づいて、DNA計算により遺伝子の発現プロファイル解析を行うためのプログラムが例えばdna−gepである。転写産物であるmRNA分子から逆転写酵素で調製した一本鎖のcDNAを入力データとしてプログラムdna−gepを実行すると、図21に示す一連のDNA分子反応操作が行われる。出力されたDNA分子のDNA符号をユニバーサルDNAチップでデコードして表示すると、遺伝子の発現プロファイルが得られる。DNA符号の1ビットを25塩基としたとき、300近くの正規直交化配列が得られているので、2桁のDNA符号を用いると、プログラムdna−gepにより2万を超える遺伝子の発現プロファイルを同時に解析することが可能である。
さらに、上記の発現プロファイル解析を用いて、各遺伝子をもともとの遺伝子配列とは異なったDNA配列に符号化する具体的な方法について図21を参照して説明する。まず、mRNAを逆転写して、cDNAを得る。次いで、図21(a)に示すように、各遺伝子iに相補的なビオチン標識aiとRidsiをcDNA上で結合させる。次いで、図21(b)に示すように、結合が起こったものをビオチンと結合する磁性ビーズで集める。ここで、結合はその遺伝子のcDNA量に比例して起こる。また、各細胞、臓器、組織で1つのチューブを用いる。そして、図21(c)に示すように、SD配列やED配列に結合するプライマ(primer)を用いて、PCR(Polymerase Chain Reaction)法でSD配列−ED配列の間を増幅する。さらに、図21(d)に示すように、各細胞・臓器・組織毎に別の蛍光標識でラベルをつけたプライマ(D2)と、各遺伝子毎に別の配列が対応づけられた配列D1の相補鎖
を増幅産物上で結合させる。これにより、各遺伝子に固有の配列をもつ蛍光標識付加配列D1がその遺伝子の発現量に比例して産生され、DNAチップで発現量を検出する。
以上説明したように、本発明によれば、EST頻度を各ライブラリグループ毎に平均化することにより、DDD法で取りこぼしている統計的に有意に達しない遺伝子タグを取得することができる。また、出力指定やクラス指定を用いることにより、また、細分類条件テーブルの細分類条件を用いることにより、所望の発現パターンに合致した検索条件を柔軟に設定することができ、所望の発現遺伝子タグを取得することができる。さらに、既知の遺伝子の発現パターン(平均化EST頻度テーブルの各値)と、平均化EST頻度テーブル78内の遺伝子パターン(平均化EST頻度テーブルの各値)との間の相関係数又はユークリッド距離を計算し、所定のしきい値以下の距離を有する遺伝子パターンを抽出することにより、例えば自分が研究したい所望の遺伝子に近い遺伝子パターンを抽出することができる。
10…遺伝子データ処理装置、
20…CPU、
21…ROM、
22…RAM、
23…データメモリ、
24…プログラムメモリ、
30…バス、
31…キーボードインターフェース、
32…マウスインターフェース、
33…ディスプレイインターフェース、
34…プリンタインターフェース、
35…ドライブ装置インターフェース、
36…通信インターフェース、
41…キーボード、
42…マウス、
43…CRTディスプレイ、
44…プリンタ、
45…CD−ROMドライブ装置、
45a…CD−ROM、
46…通信端末装置、
50…インターネット、
60…遺伝子データベースサーバ装置、
71…遺伝子データベースのデータ、
72…ライブラリの階層的分類定義データ
73…ライブラリグループ出力指定テーブル、
74…ライブラリの階層的分類テーブル、
75…EST報告数一覧テーブル、
76…ライブラリグループ毎のEST頻度テーブル、
77…クラス分類補助テーブル、
78…平均化EST頻度テーブル、
79…抽出クラスタの一覧テーブル、
80…細分類条件テーブル、
81…データ処理後の出力データ、
101…前置処理部、
102…EST報告数計数処理部、
103…EST頻度計数処理部、
104…EST頻度平均化処理部、
105…クラス分類補助テーブル生成処理部、
106,106A,106B,106C,106D,106E…クラスタ抽出処理部、
107…細分類条件適用処理部。
20…CPU、
21…ROM、
22…RAM、
23…データメモリ、
24…プログラムメモリ、
30…バス、
31…キーボードインターフェース、
32…マウスインターフェース、
33…ディスプレイインターフェース、
34…プリンタインターフェース、
35…ドライブ装置インターフェース、
36…通信インターフェース、
41…キーボード、
42…マウス、
43…CRTディスプレイ、
44…プリンタ、
45…CD−ROMドライブ装置、
45a…CD−ROM、
46…通信端末装置、
50…インターネット、
60…遺伝子データベースサーバ装置、
71…遺伝子データベースのデータ、
72…ライブラリの階層的分類定義データ
73…ライブラリグループ出力指定テーブル、
74…ライブラリの階層的分類テーブル、
75…EST報告数一覧テーブル、
76…ライブラリグループ毎のEST頻度テーブル、
77…クラス分類補助テーブル、
78…平均化EST頻度テーブル、
79…抽出クラスタの一覧テーブル、
80…細分類条件テーブル、
81…データ処理後の出力データ、
101…前置処理部、
102…EST報告数計数処理部、
103…EST頻度計数処理部、
104…EST頻度平均化処理部、
105…クラス分類補助テーブル生成処理部、
106,106A,106B,106C,106D,106E…クラスタ抽出処理部、
107…細分類条件適用処理部。
Claims (20)
- 遺伝子データベースの遺伝子データに基づいて、ライブラリを階層的に分類してなる複数のライブラリグループを用いて、当該ライブラリグループ毎の遺伝子データの頻度を計数し、計数されたライブラリグループ毎の頻度に基づいて、各ライブラリグループでの頻度合計値が同一となるようにライブラリグループ毎の平均化された頻度を計算して出力する制御手段を備えたことを特徴とする遺伝子データ処理装置。
- 上記ライブラリグループは、発生段階別分類、細胞別分類、組織別分類、臓器別分類、腫瘍別分類及び実験条件別分類のうちの少なくとも1つの分類法を用いて階層的に分類されたことを特徴とする請求項1記載の遺伝子データ処理装置。
- 上記複数のライブラリグループを、遺伝子データが報告されることを期待するクラスYのライブラリグループと、遺伝子データが報告されてはいけないクラスNのライブラリグループとをクラス分けするクラス分け情報を入力する第1の入力手段をさらに備え、
上記制御手段は、上記クラス分け情報に基づく所定の抽出条件を用いて、上記遺伝子データを抽出することを特徴とする請求項1又は2記載の遺伝子データ処理装置。 - 上記抽出条件は、遺伝子データ毎のクラスYの頻度及びクラスNの頻度に基づいて規定されたことを特徴とする請求項3記載の遺伝子データ処理装置。
- 上記複数のライブラリグループを、遺伝子データが報告されることを期待するクラスYのライブラリグループと、遺伝子データが報告されてはいけないクラスNのライブラリグループとをクラス分けするクラス分け情報を入力する第1の入力手段をさらに備え、
上記制御手段は、1つの遺伝子データベースの遺伝子データと、その他の遺伝子データベースの遺伝子データとの間で、上記クラスYに属する遺伝子データベースの遺伝子データと、上記クラスNに属する遺伝子データベースの遺伝子データとについて、上記遺伝子データを抽出することを特徴とする請求項1又は2記載の遺伝子データ処理装置。 - 上記制御手段は、上記遺伝子データベースの各遺伝子データのパターン同士の類似性を示す相関係数又は距離を計算し、所定の相関係数又は距離のしきい値以下の遺伝子データをクラス分類にまとめるように上記遺伝子データベースの遺伝子データを分類して抽出することを特徴とする請求項1又は2記載の遺伝子データ処理装置。
- 上記制御手段は、既知の遺伝子データのパターンと、上記遺伝子データベースの各遺伝子データのパターンとの間の類似性を示す相関係数又は距離を計算し、所定の相関係数又は距離のしきい値以下の遺伝子データを抽出して出力することを特徴とする請求項1又は2記載の遺伝子データ処理装置。
- 上記複数のライブラリグループのうち、遺伝子データを出力したい出力指定ライブラリグループを入力する第2の入力手段を備え、
上記制御手段は、上記入力された出力指定ライブラリグループに属するライブラリグループに関する遺伝子データを出力することを特徴とする請求項1乃至7のうちのいずれか1つに記載の遺伝子データ処理装置。 - 上記複数のライブラリグループのうち、所定の目的の遺伝子データを取得するために1つ又はライブラリグループを指定する複数の条件からなる細分類条件を入力する第3の入力手段を備え、
上記制御手段は、上記入力された細分類条件に合致する遺伝子データを抽出して出力することを特徴とする請求項1乃至8のうちのいずれか1つに記載の遺伝子データ処理装置。 - 遺伝子データベースの遺伝子データに基づいて、ライブラリを階層的に分類してなる複数のライブラリグループを用いて、当該ライブラリグループ毎の遺伝子データの頻度を計数し、計数されたライブラリグループ毎の頻度に基づいて、各ライブラリグループでの頻度合計値が同一となるようにライブラリグループ毎の平均化された頻度を計算して出力する制御ステップを含むことを特徴とする遺伝子データ処理方法。
- 上記ライブラリグループは、発生段階別分類、細胞別分類、組織別分類、臓器別分類、腫瘍別分類及び実験条件別分類のうちの少なくとも1つの分類法を用いて階層的に分類されたことを特徴とする請求項10記載の遺伝子データ処理方法。
- 上記複数のライブラリグループを、遺伝子データが報告されることを期待するクラスYのライブラリグループと、遺伝子データが報告されてはいけないクラスNのライブラリグループとをクラス分けするクラス分け情報を入力する第1の入力ステップをさらに含み、
上記制御ステップは、上記クラス分け情報に基づく所定の抽出条件を用いて、上記遺伝子データを抽出することを特徴とする請求項10又は11記載の遺伝子データ処理方法。 - 上記抽出条件は、遺伝子データ毎のクラスYの頻度及びクラスNの頻度に基づいて規定されたことを特徴とする請求項12記載の遺伝子データ処理方法。
- 上記複数のライブラリグループを、遺伝子データが報告されることを期待するクラスYのライブラリグループと、遺伝子データが報告されてはいけないクラスNのライブラリグループとをクラス分けするクラス分け情報を入力する第1の入力ステップをさらに含み、
上記制御ステップは、1つの遺伝子データベースの遺伝子データと、その他の遺伝子データベースの遺伝子データとの間で、上記クラスYに属する遺伝子データベースの遺伝子データと、上記クラスNに属する遺伝子データベースの遺伝子データとについて、上記遺伝子データを抽出することを特徴とする請求項10又は11記載の遺伝子データ処理方法。 - 上記制御ステップは、上記遺伝子データベースの各遺伝子データのパターン同士の類似性を示す相関係数又は距離を計算し、所定の相関係数又は距離のしきい値以下の遺伝子データをクラス分類にまとめるように上記遺伝子データベースの遺伝子データを分類して抽出することを特徴とする請求項10又は11記載の遺伝子データ処理方法。
- 上記制御ステップは、既知の遺伝子データのパターンと、上記遺伝子データベースの各遺伝子データのパターンとの間の類似性を示す相関係数又は距離を計算し、所定の相関係数又は距離のしきい値以下の遺伝子データを抽出して出力することを特徴とする請求項10又は11記載の遺伝子データ処理方法。
- 上記複数のライブラリグループのうち、遺伝子データを出力したい出力指定ライブラリグループを入力する第2の入力ステップを含み、
上記制御ステップは、上記入力された出力指定ライブラリグループに属するライブラリグループに関する遺伝子データを出力することを特徴とする請求項10乃至16のうちのいずれか1つに記載の遺伝子データ処理方法。 - 上記複数のライブラリグループのうち、所定の目的の遺伝子データを取得するために1つ又はライブラリグループを指定する複数の条件からなる細分類条件を入力する第3の入力ステップを含み、
上記制御ステップは、上記入力された細分類条件に合致する遺伝子データを抽出して出力することを特徴とする請求項10乃至17のうちのいずれか1つに記載の遺伝子データ処理方法。 - 請求項10乃至18のうちのいずれか1つに記載の遺伝子データ処理方法に記載の各ステップを含むことを特徴とする遺伝子処理プログラム。
- 請求項10乃至18のうちのいずれか1つに記載の遺伝子データ処理方法に記載の各ステップを含むプログラムを格納したことを特徴とするコンピュータにより読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004233507A JP2006053669A (ja) | 2004-08-10 | 2004-08-10 | 遺伝子データ処理装置及び方法、遺伝子データ処理プログラム並びにそれを格納したコンピュータにより読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004233507A JP2006053669A (ja) | 2004-08-10 | 2004-08-10 | 遺伝子データ処理装置及び方法、遺伝子データ処理プログラム並びにそれを格納したコンピュータにより読み取り可能な記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006053669A true JP2006053669A (ja) | 2006-02-23 |
Family
ID=36031125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004233507A Pending JP2006053669A (ja) | 2004-08-10 | 2004-08-10 | 遺伝子データ処理装置及び方法、遺伝子データ処理プログラム並びにそれを格納したコンピュータにより読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006053669A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012096016A1 (ja) * | 2011-01-11 | 2012-07-19 | 日本ソフトウェアマネジメント株式会社 | 核酸情報処理装置およびその処理方法 |
CN104462817A (zh) * | 2014-12-09 | 2015-03-25 | 西北师范大学 | 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法 |
KR20200112078A (ko) * | 2019-03-20 | 2020-10-05 | 한국과학기술원 | 기능 유사한 유전자들의 그룹 지표를 이용한 질병 판별 시스템 및 방법 |
-
2004
- 2004-08-10 JP JP2004233507A patent/JP2006053669A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012096016A1 (ja) * | 2011-01-11 | 2012-07-19 | 日本ソフトウェアマネジメント株式会社 | 核酸情報処理装置およびその処理方法 |
JP2012146067A (ja) * | 2011-01-11 | 2012-08-02 | Nippon Software Management Kk | 核酸情報処理装置およびその処理方法 |
CN104462817A (zh) * | 2014-12-09 | 2015-03-25 | 西北师范大学 | 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法 |
CN104462817B (zh) * | 2014-12-09 | 2017-07-25 | 西北师范大学 | 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法 |
KR20200112078A (ko) * | 2019-03-20 | 2020-10-05 | 한국과학기술원 | 기능 유사한 유전자들의 그룹 지표를 이용한 질병 판별 시스템 및 방법 |
KR102176721B1 (ko) | 2019-03-20 | 2020-11-09 | 한국과학기술원 | 기능 유사한 유전자들의 그룹 지표를 이용한 질병 판별 시스템 및 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10347365B2 (en) | Systems and methods for visualizing a pattern in a dataset | |
US20220246234A1 (en) | Using cell-free dna fragment size to detect tumor-associated variant | |
US11954614B2 (en) | Systems and methods for visualizing a pattern in a dataset | |
Coop et al. | The role of geography in human adaptation | |
Madden et al. | Serial analysis of gene expression: from gene discovery to target identification | |
CN110706749B (zh) | 一种基于组织器官分化层次关系的癌症类型预测系统和方法 | |
Lee et al. | EST analysis of gene expression in early cleavage-stage sea urchin embryos | |
Hafez et al. | Genome-wide identification and predictive modeling of tissue-specific alternative polyadenylation | |
CN106446597B (zh) | 多物种特征选择及鉴定未知基因的方法 | |
JP2013523154A (ja) | 転写物測定値数が減少した、遺伝子発現プロファイリング | |
Khattra et al. | Large-scale production of SAGE libraries from microdissected tissues, flow-sorted cells, and cell lines | |
KR100431620B1 (ko) | 유전자 어휘 분류체계를 이용하여 디엔에이 칩을 분석하기위한 시스템 및 그 방법 | |
JP2006053669A (ja) | 遺伝子データ処理装置及び方法、遺伝子データ処理プログラム並びにそれを格納したコンピュータにより読み取り可能な記録媒体 | |
CN114875118B (zh) | 确定细胞谱系的方法、试剂盒和装置 | |
US20060234244A1 (en) | System for analyzing bio chips using gene ontology and a method thereof | |
US20020021299A1 (en) | Method for displaying results of hybridization experiment | |
Mishra et al. | Probable Biomarker Identification Using Recursive Feature Extraction and Network Analysis | |
JP4109873B2 (ja) | プローブ設計方法及び情報処理装置 | |
Lockhart et al. | DNA arrays and gene expression analysis in the brain | |
US20240354607A1 (en) | Systems and methods for visualizing a pattern in a dataset | |
JP2000285120A (ja) | 遺伝子発現探索方法及びその装置 | |
KR102110017B1 (ko) | 분산 처리에 기반한 miRNA 분석 시스템 | |
Bartlett | Differential display: a technical overview | |
Coon et al. | RNA Sequencing of Single Pineal Cells | |
US20240071565A1 (en) | Structural variant identification |