JP2005284964A - 遺伝子発現解析システムにおけるデータ処理及び表示方法、及び、遺伝子発現解析システム - Google Patents
遺伝子発現解析システムにおけるデータ処理及び表示方法、及び、遺伝子発現解析システム Download PDFInfo
- Publication number
- JP2005284964A JP2005284964A JP2004100783A JP2004100783A JP2005284964A JP 2005284964 A JP2005284964 A JP 2005284964A JP 2004100783 A JP2004100783 A JP 2004100783A JP 2004100783 A JP2004100783 A JP 2004100783A JP 2005284964 A JP2005284964 A JP 2005284964A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- probe
- display
- information
- gene expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000014509 gene expression Effects 0.000 title claims description 100
- 230000008569 process Effects 0.000 title description 24
- 239000000523 sample Substances 0.000 claims abstract description 138
- 238000000018 DNA microarray Methods 0.000 claims abstract description 89
- 108020004999 messenger RNA Proteins 0.000 claims abstract description 45
- 210000000349 chromosome Anatomy 0.000 claims description 63
- 238000012545 processing Methods 0.000 claims description 46
- 238000010195 expression analysis Methods 0.000 claims description 44
- 238000009396 hybridization Methods 0.000 claims description 36
- 238000002474 experimental method Methods 0.000 claims description 22
- 102000004169 proteins and genes Human genes 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 15
- 238000007619 statistical method Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 9
- 102000001708 Protein Isoforms Human genes 0.000 claims description 3
- 108010029485 Protein Isoforms Proteins 0.000 claims description 3
- 239000003086 colorant Substances 0.000 claims description 2
- 101150044508 key gene Proteins 0.000 claims description 2
- 241000894007 species Species 0.000 description 22
- 230000006870 function Effects 0.000 description 13
- 238000013518 transcription Methods 0.000 description 6
- 230000035897 transcription Effects 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 5
- 108020003215 DNA Probes Proteins 0.000 description 3
- 239000003298 DNA probe Substances 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 108700024394 Exon Proteins 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 239000007850 fluorescent dye Substances 0.000 description 2
- 238000001727 in vivo Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 241000206602 Eukaryota Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 108091092195 Intron Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000002299 complementary DNA Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000008986 metabolic interaction Effects 0.000 description 1
- 230000037353 metabolic pathway Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】 DNAチップを用いた遺伝子発現解析において、ゲノム配列上のプローブの位置とスプライスバリアントの候補等を関連付けて表示する。
【解決手段】 多種多様な生物種における配列情報(ゲノム配列、mRNA、EST等)及び定義情報(アノテーション)を管理している、外部データベース及びサーバーに接続し、DNAチップシステムにおいて設計されたゲノム配列上のプローブの位置情報を取得する。また、プローブが設計された遺伝子の相同配列をBlast検索プログラムによって検出し、そこから得られたスプライスバリアントの候補を、発現データと関連付けてDNAチップデータベースに格納する。
【選択図】 図1
【解決手段】 多種多様な生物種における配列情報(ゲノム配列、mRNA、EST等)及び定義情報(アノテーション)を管理している、外部データベース及びサーバーに接続し、DNAチップシステムにおいて設計されたゲノム配列上のプローブの位置情報を取得する。また、プローブが設計された遺伝子の相同配列をBlast検索プログラムによって検出し、そこから得られたスプライスバリアントの候補を、発現データと関連付けてDNAチップデータベースに格納する。
【選択図】 図1
Description
本発明は、DNAチップを用いた遺伝子発現解析システムに関し、特に、ゲノム配列上におけるプローブ配列の位置、プローブとハイブリダイズするスプライスバリアントの候補、及び、その転写産物を表示するためのシステム及び表示方法に関する。
遺伝子発現解析システムでは、多くの遺伝子の発現量を一度に調べるDNAマイクロアレイ又はDNAチップシステム(以下総称してDNAチップシステムという。)を使用する。ある生物種の多くの遺伝子コード領域からプローブ配列を設計し、それをDNAチップに搭載する。そのプローブ配列にその生物種から採取したmRNA(ターゲット)をハイブリダイゼーションする。ハイブリダイゼーションをするmRNAの量を測定することにより、遺伝子の発現量を測定することができる。
ある遺伝子の発現量を時期特異的、又は組織特異的に調べることにより、未知遺伝子の機能予測が可能となり、それを既知の代謝経路や相互作用情報へマッピングすることができる。こうして、遺伝子産物であるタンパク質の制御関係、もしくは機能予測を行うことがDNAチップシステムの一つの目的である。
しかし、ヒトを含む真核生物の場合、プローブにハイブリダイゼーションするmRNAには、目的の遺伝子産物となるmRNAだけでなく、スプライスバリアントと呼ばれるmRNA又はESTも存在する。スプライスバリアントは、選択的スプライシングによって、即ち、ゲノム上のエキソン・イントロン配列の中からエキソンだけが特異的に選択されて生成されたものである。
スプライスバリアントは、ゲノム上の単一の遺伝子領域から生成されるが、互いに異なるmRNAである。従って、生体内にて、互いに異なる配列を持つタンパク質を生成し、互いに異なる機能を果たす。ヒトの総遺伝子数は約3万5千であると推定され、少なくともその35%の遺伝子で選択的スプライシングが行われているといわれている(非特許文献1)。
従って、選択的スプライシングによって得られるスプライスバリアントの影響をモニタリングすることによって、従来のDNAチップシステムによって検出されるタンパク質の機能ばかりでなく、生体内で重要な新規のタンパク質を発見することができると考えられる。
特許文献1には、スプライスバリアントを網羅的にモニタリングすることができるDNAチップシステムの例が記載されている。このDNAチップシステムでは、設計されたプローブに対するシグナル値を測定することによって、配列特異的な発現量を検出する。
特許文献2には、スプライスバリアントのエキソン・イントロンを表示する方法が記載されている。一般に、遺伝子のエキソン・イントロン構造では、イントロン配列はエキソン配列に比較して長く、その差は1桁以上となることもある。従って、特許文献2の発明では、エキソン・イントロン配列を判りやすく表示するために、イントロン配列部分の表示を圧縮し、それらの相異なる部分を強調して表示する。
また、スプライスバリアントのエキソン・イントロンの表示を提供するものとして、公共データベースの情報サイトが挙げられる。例えば、UCSC(http://genome.ucc.edu/)やEMBLE (ttp://www.ensembl.org) がある。これらは、ある特定の遺伝子配列もしくは、遺伝子に関する情報を入力すると、入力データ対応したゲノム配列、mRNA、ESTなどの相同性のある配列が視覚的に表示される。この表示によって、ゲノム配列に対して並置したエキソン・イントロン配列を認識することができる。
Lander,E.S., Linton,L.M. et al. (2001) Initial Sequencing and analysis of the human genome. Natue, 409,860-921
特表2003−530894(P2003−530894A)
特開2003−236434(P2003−256434A)
特許文献1に記載されたDNAチップシステムを用いることにより、スプライスバリアントの発現量を検出することができる。二つのエキソン配列を跨るようにプローブを設計し、そのようなプローブを搭載したDNAチップによって、各々のエキソンを組み合わせた転写産物による発現量を比較することができる。しかし、そこから得られる発現データを解析する場合に、どの発現データが遺伝子上のどの部分を設計して作られたプローブであるかが、網羅的に表示されることが望ましい。
特許文献1には、ハイブリダイゼーション強度を測定する読取装置、及び、定量化のソフトウェアについて記述されているが、データマイニングを行うソフトウェエアについては記述されていない。スプライスバリアントを考慮して設計されたDNAチップを使用する場合においても、そのデータマイニングの過程で、設計したプローブ情報と発現データを相互に認識するシステムが必要である。
また、特許文献2や公共データベースの情報サイトは、スプライスバリアントの表示を目的としており、多数の特定の遺伝子に対するスプライスバリアントを一度に表示することも、スプライスバリアントをその発現量と関連付けて表示することもない。
従って、本発明の目的は、DNAチップを用いた遺伝子発現解析システムにおいて、ゲノム配列上におけるプローブの位置を表示し、プローブとハイブリダイズするスプライスバリアント(mRNA及びEST配列)の候補、及び、その転写産物を表示し、発現データをプローブと関連付けて表示するためのシステム及びその表示方法を提供することにある。
上記の課題を解決するため、本発明では以下の機能を備えた遺伝子発現解析システムを提供する。
(1)対象となる生物種の全ての染色体上の遺伝子の発現パターンを視覚的に表現する機能
(2)DNAチップに搭載されているプローブ配列がゲノム配列上のどの位置にあるかを視覚的に表現し、発現量と対応付けて表示する機能
(3)スプライスバリアントがゲノム配列とプローブ配列に対してどのように位置しているかを視覚的に表示する機能
(3)mRNAの転写産物であるタンパク質の情報を表示し、スプライスバリアントが翻訳されてタンパク質となる可能性があるかどうかを示す機能
(4)複数の公共データベースよりダウンロードされた最新のゲノム情報及びmRNA等の詳細情報(配列・アノテーション情報など)を格納している外部データベース及びBlast検索プログラムを格納したサーバーへ接続する機能
(5)外部データベース及びサーバーを利用して、必要な情報を抽出し、それをローカルなデータベースに保存する機能
(1)対象となる生物種の全ての染色体上の遺伝子の発現パターンを視覚的に表現する機能
(2)DNAチップに搭載されているプローブ配列がゲノム配列上のどの位置にあるかを視覚的に表現し、発現量と対応付けて表示する機能
(3)スプライスバリアントがゲノム配列とプローブ配列に対してどのように位置しているかを視覚的に表示する機能
(3)mRNAの転写産物であるタンパク質の情報を表示し、スプライスバリアントが翻訳されてタンパク質となる可能性があるかどうかを示す機能
(4)複数の公共データベースよりダウンロードされた最新のゲノム情報及びmRNA等の詳細情報(配列・アノテーション情報など)を格納している外部データベース及びBlast検索プログラムを格納したサーバーへ接続する機能
(5)外部データベース及びサーバーを利用して、必要な情報を抽出し、それをローカルなデータベースに保存する機能
すなわち、DNAチップシステムによって得られた大量の発現データを解析する遺伝子発現解析システムにおいて、ハイブリダイゼーション実験による発現値を表す数値データ、DNAチップに搭載されたプローブに関する遺伝子情報及び配列情報を入力し、数値データの全体的な補正、及び前処理を行うための機能と、ゲノム配列上のプローブの位置、及びプローブ配列にハイブリダイゼーションするスプライスバリアント(mRNA又はEST配列)の候補の表示を行うための機能と、入力された数値データを統計的なアルゴリズムにより、分類、判別するための統計解析を行うための機能と搭載した遺伝子発現解析システムを提供することである。
ゲノム配列上のプローブの位置、及び、プローブ配列にハイブリダイゼーションするスプライスバリアントの候補の表示を実現するために、本発明の発現解析システムは多種多様な生物種の配列情報及び定義情報を管理している外部データベースの情報に接続することができる。データのやり取りはネットワーク及び外部サーバーを介して行う。
外部データベースは生物種ごとのアクセッション番号、遺伝子名などの詳細情報と配列データを有し、染色体の位置情報におけるゲノム配列を管理している。
よって本発明では、ゲノム配列上のプローブの位置、及び、プローブ配列にハイブリダイゼーションするスプライスバリアントの候補の表示を行うために、以下の5つのステップを含む機能を提供する。
第1のステップでは、外部データベースから解析生物種の染色体情報を取得する。即ち、染色体の数、各染色体の長腕、短腕の長さを取得し、それをローカルなDNAチップデータベースに格納する。
第2のステップでは、入力された数値データ、プローブに関する遺伝子情報、及び配列情報に基づいて、ゲノム配列上のプローブの位置情報を取得する、プローブの定義情報を検索キーとし、外部データベースを検索し、遺伝子情報(mRNA、EST)からプローブ配列の位置情報を取得する。DNAチップ上の全てのプローブ配列を問い合わせ配列とし、プローブの位置情報と同じゲノム配列を対象配列としてマルチプルアライメントを実行し、ゲノム配列上のプローブの位置を決定する。
第3のステップでは、プローブにハイブリダイゼーションするスプライスバリアント(mRNA又はEST配列)の候補を、Blast検索プログラムによって外部データベースを検索し、取得する。検索キーの遺伝子(mRNA)を問い合わせ配列とし、外部データベースの解析生物種におけるmRNA、ESTの配列すべてを対象配列とし、Blast検索プログラムを実行する。次に、最初のBlast検索で取得したmRNA又はESTを問い合わせ配列とし、外部データベースの解析生物種におけるゲノム配列を対象配列とし、Blast検索プログラムを実行する。
Blast検索プログラムは、外部データベースに接続されている外部サーバーが実行する。指定パラメータの条件に従って、検索対象となるデータベースの配列データすべてを対象配列とし、塩基配列同士におけるBlast検索プログラムを実行する。これにより、問い合わせ配列の対象配列に対する位置、及び対象配列の問い合わせ配列に対する位置を決定する。算出されたBlast検索結果は条件によって選別され、DNAチップデータベースに格納する。
第4のステップでは、染色体マップを指定された表示データに基づいて描画する。最初に指定された表示データの一覧を表形式(Hybridization ID及びDNAチップ名)で表示する。入力装置により、複数の表示データが選択された場合、選択されたデータを表示する。選択されたDNAチップデータの発現データに基づいてゲノム上の各位置に対する表示発現量を決定し、複数選択された場合は平均値を算出する。同じゲノム上の位置(Position)に対して、異なるProbe IDによるRatio (Intensity) が存在している場合は、複数のProbe IDのRatio (Intensity)の平均値を算出し、それをPositionに対する発現値とする。全染色体の数、染色体ごとの長腕、短腕の長さから、染色体マップを描画し、染色体上の各Position上に最大値赤、中間値黒、最小値緑となるように発現値を表示する。
第5のステップでは、ゲノム配列に対して、プローブ配列及びスプライスバリアントの位置関係が明確になるように、それらを表示する。入力装置により染色体マップを選択した場合、選択された染色体番号と生物種、該当位置に対するゲノム配列の表示範囲を表示する。ゲノムの配列番号、配列の開始と終わりの番号を表示する。プローブ位置には発現データを数値及び色で表示する。各プローブのBlast検索結果から、スプライスバリアントの候補(mRNA及びEST)をゲノム配列に相当する位置に表示する。
スプライスバリアントの候補(mRNA及びEST)が入力装置より選択された場合、選択された配列の詳細情報を別ウィンドウで表示する。プローブIDを選択した場合には、プローブ配列、入力情報である遺伝子定義情報、発現値情報を表示する。スプライスバリアントを選択した場合には、Blast検索結果、遺伝子定義情報、配列情報を表示する。
本発明によれば、DNAチップシステムにおいて設計されたプローブ配列によって、得られた発現データが、ゲノム上のどの位置に存在し、設計されたプローブ配列とハイブリダイズするスプライスバリアント(mRNA及びEST)の候補を全体的に観察することができるため、スプライスバリアントによる転写産物の情報を得ることが容易となる。
また、スプライスバリアントをあらかじめ考慮して設計されたDNAチップによる解析であっても、ゲノム上のどの位置に設計されたものかを遺伝子情報とともに視覚的に理解することが容易となる。
スプライスバリアントによるタンパク質の情報や、発現値情報を同時に表示することにより、転写レベルを測定するDNAチップシステムを使用した、より精度の高い発現解析を行うことができる。
以下、本発明を実施する場合の一形態について、図面を参照して具体的に説明する。図1は本発明の遺伝子発現解析システムの構成例を示す。本例の遺伝子発現解析システムはDNAチップデータベース100、表示装置101、マウス102、キーボード103、中央処理装置104、プログラムメモリ105を有する。遺伝子発現解析システムは、インターネット115を介して、サーバー110及び外部データベース112、更に、公共(商用)データベース113、114に接続されている。
DNAチップデータベース100には、DNAチップシステムを使用して行った実験によって得られた情報と外部データベース112から取得した情報が保存される。表示装置101は、データ入力のためのインターフェース、本発明の目的である染色体マップ及びスプライスバリアントの表示を行う。マウス102及びキーボード103は、ユーザが情報を選択又は入力するために使用する。中央処理装置104は各種のプログラムを作動し、処理を行う。
プログラムメモリ105は、入力した発現データを事前に有意な値に変換、又は、補正するための前処理・標準化処理プログラム106、ゲノム配列とプローブ配列、スプライスバリアントのマッピングを表示するためのスプライスバリアント表示プログラム107、遺伝子発現解析に必要な統計的な解析を行うための統計解析処理プログラム108、及び、染色体を発現量と共に表示する染色体マップ表示プログラム109を有する。
尚、これらのソフトウェアをハードウェアによって置き換えてもよい。即ち、前処理・標準化処理プログラム106、スプライスバリアント表示プログラム107、統計解析処理プログラム108及び染色体マップ表示プログラム109の代わりに前処理・標準化処理部、スプライスバリアント表示部、データ処理部及び染色体マップ表示部を備えてよい。
外部データベース112及び外部データベースの情報を処理するためのサーバー110は、インターネット115によって、複数の公共(商用)データベース113、114に接続されている。従って、外部データベース112及びサーバー110は、公共(商用)データベース113、114よりデータを定期的にダウンロードし、その文字列からインデックスを作成し、インデックスごとのデータベースを備えている。
サーバー110にはBlast検索プログラム111が備えられている。本発明の遺伝子発現解析システムによってBlast検索プログラム111を使用することができる。入力装置102、103より、問い合わせ配列(Query)として特定の塩基配列又はアミノ酸配列を入力すると、それに類似した配列が外部データベース112より検索される。
図2はDNAチップを用いた実験のデータの一例を示す。研究対象となる生物種のDNAプローブが搭載されたDNAチップAを用意する。研究試料から得られたmRNAをcDNA化し、蛍光標識し、それをDNAチップA上のDNAプローブとハイブリダイズする。ハイブリダイゼーション反応後のDNAプローブの蛍光強度を測定する。DNAチップAを用いた1回のハイブリダイゼーションの結果として、1個の実験データ200-1が得られる。DNAチップAを用いたN回ハイブリダイゼーションの結果として、N個の実験データ200-1〜200-Nが得られる。こうして得られた実験データ200-1〜200-Nを使用して、本発明の遺伝子発現解析システムは解析を行う。
ハイブリダイゼーションによる実験データ200-1は、図示するように、プローブの識別番号201、各プローブに対する蛍光強度202、各プローブに対するハイブリダイズした遺伝子の遺伝子名203、公共データベースのアクセッション番号204、定義情報205、プローブ配列206を含む。これ以外のプローブ又は遺伝子に関する情報を含んでよい。蛍光強度202は一種類又は二種類である。ハイブリダイゼーションを行うターゲットDNAの試料の数が二種類の場合、二種類の蛍光色素を使用することがある。
図3は本発明の表示装置に表示するメイン画面300の一例である。入力データとして、図2に示したN個の実験データ200-1〜200-Nを入力したと仮定する。入力データはハードディスク、CD-ROM等の記憶媒体から遺伝子発現解析システムのプログラムを経由して入力されてよい。データの入力方法は、メニューからの入力、ドラッグ&ドロップによる入力等がある。
入力されたデータはツリー構造301で表示され、その第1の列にはDNAチップの種類A、B、Cが表示される。各DNAチップには実験数、即ち、ハイブリダイゼーション数が表示される。例えば、DNAチップAの場合、参照符号302、303にて示すように、ハイブリダイゼーション数がN個であることが表示される。例えば、参照符号302にて示すように、ユーザが、入力装置102、103によって、ハイブリダイゼーション1を選択状態にした場合、右側のビューにはハイブリダイゼーション1の実験データが表示される。図示の例では、各ハイブリダイゼーションを行った試料の名称等のハイブリダイゼーションを一意に表す実験名304、DNAチップ上の全プローブ数305、DNAチップ上の全ブロック数306、一ブロックのスポット数307、その他の詳細情報308を表示する。
画面の上部300には、データ入力のためのウィザードを実行するためのツールボタン309、前処理・標準化処理プログラム106を実行するためのツールボタン310、スプライスバリアント表示プログラム107を実行するためのツールボタン311、統計解析処理プログラム108を実行するためのツールボタン312、染色体マップ表示プログラム109を実行するためのツールボタン313が設けられる。ユーザは、これらのツールボタンをクリックすることにより、所望の処理を実行することができる。
図4はDNAチップデータベース100の内部のデータ構造の例を示す。DNAチップデータベース100では、生物種毎にデータを管理する。従って、Human、Mouse、Rat等の生物種を表すカテゴリ400を含む。例では三種の生物種を示しているが、すべての生物種に対応できるようにする。DNAチップデータベース100に格納されたデータは、ユーザが入力した実験データ401と外部データベース112から取得したデータ412〜417を含む。外部データベース112からデータを取得する方法は後に図7を参照して説明する。
DNAチップAの対象はHuman(Homo Sapience)であるから、DNAチップAを使用した実験データ401は、Humanのカテゴリに格納される。図示のように、実験データ401は、各ハイブリダイゼーションを一意に表現するためのHybridization ID402、各ハイブリダイゼーションに対するプローブID403、発現データ(蛍光強度)404、405、及び、発現比率406を含む。発現データには一種類の場合と二種類の場合がある。二種類の場合には、発現比率406が示される。
発現比率406は(Intensity(1)/Intensity(2))又は(Intensity(2)/Intensity(1))によって求められる。
実験データ401は、更に、プローブとなるDNA配列にハイブリダイゼーションする遺伝子の遺伝子名408、アクセッション番号409、遺伝子定義情報410、プローブ配列411を含む。
実験データ401は、更に、プローブとなるDNA配列にハイブリダイゼーションする遺伝子の遺伝子名408、アクセッション番号409、遺伝子定義情報410、プローブ配列411を含む。
外部データベース112から取得したデータ412〜417は、染色体の位置を表すゲノム配列上のプローブの位置412、プローブ配列のゲノム配列上の開始位置413と終了位置414、生物種における染色体の数415、染色体の短腕の長さ416と長腕の長さ417を含む。
図5は、プローブとハイブリダイズするスプライスバリアント(mRNA及びEST配列)の候補を示す。スプライスバリアントの候補は、サーバー110に備えられたBlast検索プログラム111によって、外部データベース112より検索される。尚、スプライスバリアントの候補の検索は、スプライスバリアント表示プログラム107を実行する際に行われる。スプライスバリアントの候補を検索手順の詳細は図11及び図12のフローチャートに示す。
ユーザは、入力した実験データ401の中から、遺伝子名408又はアクセッション番号409を検索キーとして、遺伝子配列(mRNA配列)を検索する。配列情報が見つかったら、その配列を問い合わせ配列(Query)として、mRNAとEST配列データベースに対してBlast検索を実行する。その結果、検索キーの遺伝子と類似した遺伝子が発見されたとする。その遺伝子のタンパク質データベースへのAccession ID501、Definition502、ゲノム配列上のプローブの位置503、遺伝子名504、塩基配列505、塩基配列の長さ506、タンパク質のID507及びDefinition508を取得し、それを格納する。
次に塩基配列505を問い合わせ配列(Query)として、各遺伝子がゲノム上のどの位置に存在するかをBlast検索によって算出する。そのBlast検索結果として、Blast検索 ID509、510が得られたら、それを格納する。遺伝子配列はゲノム上ではエキソン−イントロン構造を有し、エキソン配列は散在している。このため各断片の遺伝子配列の開始位置511と終了位置512、それに対応するゲノム配列の開始位置513と終了位置514を格納する。また、エキソン部分の配列の長さ515、ゲノム配列の向き516、ゲノム配列の識別率517、Blast検索のスコア518及びE-value519を格納する。
図6は本発明のプログラムメモリ105に格納されたプログラムの動作の流れを示す。ステップ600にて、ユーザは、DNAチップを使用したハイブリダイゼーション実験のデータを入力する。図3に示したメイン画面300のツールボタン309をクリックすることにより、データ入力ウィザードが開始される。データ入力ウィザードに従って、ユーザは実験データを入力する。
ステップ601にて、前処理・標準化処理プログラム106によって前処理と標準化処理を行う。図3に示したメイン画面300のツールボタン310をクリックすることによって、前処理・標準化処理プログラム106が実行される。前処理とは、入力された発現データの良否を判断し、必要ならそれを補正し、DNAチップの各スポットに対する判断基準に基づいて、解析に用いるデータの絞り込みを実行することである。複数の同じDNAチップによる再現性実験、二つの異なる蛍光色素の交換、データの信頼性を確認する実験、等を実行した場合には、それらの実験データに対して、信頼性の高いデータを抽出することができる。
標準化処理とは、DNAチップごとに、全ての解析データに対して、線形もしくは非線形分布のデータを正規分布のデータへ変換することである。標準化処理を行うことによって、抽出された全てのデータは比較可能となる。
前処理・標準化処理プログラム106による前処理及び標準化処理が終了すると、ユーザは、スプライスバリアント表示プログラム107、又は、統計解析処理プログラム108のいずれかを選択する。メイン画面300のツールボタン311をクリックした場合には、ステップ602に進み、スプライスバリアント表示プログラム107が実行され、ツールボタン312をクリックした場合には、ステップ603に進み、統計解析処理プログラム108が実行される。スプライスバリアント表示プログラム107及び統計解析処理プログラム108の詳細は以下に説明する。
図7を参照してスプライスバリアント表示プログラム107の処理の流れの概要を説明する。図3に示したメイン画面300のツールボタン311をクリックすることによって、スプライスバリアント表示プログラム107が実行される。
ステップ700にて、表示装置101の画面には、設定ダイアログが表示される。設定ダイアログの例は、後に、図8及び図9を参照して説明する。スプライスバリアント表示プログラム107は、この設定ダイアログに表示された設定に従って、実行される。
ステップ701にて、ユーザは、表示するDNAチップAのゲノム配列上のプローブの位置及びスプライスバリアントの候補のデータが、DNAチップデータベース100に格納されているか否かを判定する。即ち、DNAチップAに関する情報412〜414、501〜519が、既に外部データベース112から取得されているか否かを判定する。DNAチップAのゲノム配列上のプローブの位置及びスプライスバリアントの候補のデータが存在する場合には、図8及び図9に示した設定ダイアログの該当するボックスに表示されるはずである。DNAチップAに関する情報412〜414、501〜519が、既に外部データベース112から取得されている場合には、外部データベース112の検索を繰り返さない。従って、ステップ704に進み、描画処理だけを実行する。
DNAチップAに関する情報412〜414、501〜519が、未だ外部データベース112から取得されていない場合には、ステップ702に進む。
ステップ702にて、外部データベース112の情報1013〜1015から、生物種の染色体の数415、染色体の短腕の長さ416、長腕の長さ417等の情報を取得する。ステップ703にて、検索キーを使用して、ゲノム配列上のプローブの位置412、プローブのゲノム配列上の開始位置413、終了位置414を得る。ステップ703の詳細は図11を参照して説明する。
ステップ704にて、Blast検索プログラムによって、スプライスバリアントの候補を検索し、スプライスバリアントのゲノム配列上の位置513、514を取得する。Blast検索の結果をDNAチップデータベース100に格納する。ステップ705にて、図4に示すDNAチップデータベース100に格納されたデータ400と図5に示す外部データベース112から得られたスプライスバリアントの候補に基づいて、染色体マップを描画する。最後に、ステップ706にて、Blast検索の結果に基づいて、スプライスバリアントの候補が、指定されたゲノム配列に配置されるように、表示する。
図8はスプライスバリアント表示プログラム107を実行するとき、表示装置101の画面に表示される表示チップの設定ダイアログ800の例を示す。この設定ダイアログ800には、表示DNAチップ801、表示データ802、Hybridization ID803、実験名804、削除キー805、追加キー806、スプライスバリアント候補の表示807、等を含む。
表示DNAチップ801は、プルダウンメニューによって表示され、プルダウンメニューには図3のDNAチップの種類301が表示される。表示DNAチップ801を指定すると、表示データ802の各項目803、804が表示される。図示の例では、DNAチップAを指定したため、DNAチップAを使用したハイブリダイゼーション実験のHybridization ID803及び実験名804が表示されている。表示されているHybridization ID803を削除する必要がある場合には、削除キー805を使用し、追加する必要がある場合には追加キー806を使用する。追加することができるのは、DNAチップAに関して登録されているHybridization IDである。スプライスバリアント候補の表示807は、図示のように、「mRNAのみを表示する」場合と「すべて表示する(ESTなどの短い断片も含む)」場合のいずれかである。
図9は外部データベース112に接続するとき、表示装置101の画面に表示される検索キーの設定ダイアログ900の例を示す。設定ダイアログ900には、検索キー901と、外部データベース112及びサーバー110に接続するための、サーバーのアドレス、ポート番号、アクセスID、パスワード902を含む。サーバーに接続するために、プロキシサーバを利用する場合は、903の設定を行なうように考慮する。プロキシサーバを利用する場合のみ、チェックボックスをONにし、サーバーのアドレス、ポート番号、ユーザー名、パスワードを設定できるようにする。
検索キー901は、プルダウンメニューによって表示され、プルダウンメニューには図4の遺伝子名408又はアクセッション番号409が表示される。即ち、ユーザは、検索キーとして、遺伝子名408又はアクセッション番号409を選択する。
図10は外部データベース112の内部構造の例を示す。上述のように、外部データベース112は、ネットワークを介して接続されている生物学的な情報を格納した複数の公共データベース113、114から、定期的にデータをダウンロードする。このような公共データベースの代表的なものとして、以下の例が挙げられる。
GeneBank (1080623142687_0):NCBI(National Center for Biotechnology Information)
外部データベース112は、例えば、生物種ごとのAccession番号と遺伝子データを格納した第1のデータテーブル1000を有する。このデータテーブル1000は、Accession番号によって索引検索が可能である。このデータテーブル1000は、Accession番号1001、遺伝子名1002、ゲノム配列上のプローブの位置1003、遺伝子配列1004、Description1005、Definition1006、遺伝子配列の長さ1007、遺伝子産物であるタンパク質のデータベースへのリンクID(タンパク質ID)1008、タンパク質のDescription1009を含む。
外部データベース112は、例えば、生物種ごとのAccession番号と遺伝子データを格納した第1のデータテーブル1000を有する。このデータテーブル1000は、Accession番号によって索引検索が可能である。このデータテーブル1000は、Accession番号1001、遺伝子名1002、ゲノム配列上のプローブの位置1003、遺伝子配列1004、Description1005、Definition1006、遺伝子配列の長さ1007、遺伝子産物であるタンパク質のデータベースへのリンクID(タンパク質ID)1008、タンパク質のDescription1009を含む。
外部データベース112は、例えば、生物種ごとのゲノム配列上のプローブの位置とゲノム配列データを格納した第2のデータテーブル1010を有する。このデータテーブル1010は、ゲノム配列上のプローブの位置によって索引検索が可能である。このデータテーブル1010には、ゲノム配列上の染色体上の位置1011、ゲノム配列1012、染色体数1013、染色体の短腕の長さ1014、長腕の長さ1015が格納されている。
図11を参照して図7のステップ703の詳細を説明する。上述のように、スプライスバリアントの表示プログラムを実行する前に、DNAチップAに関する情報412〜414、501〜519が、DNAチップデータベース100に格納されているか否かを判定する。格納されていない場合には、外部データベース112から取得する。従って、DNAチップAに関する情報412〜414、501〜519が、DNAチップデータベース100に既に格納されている場合は、図7のステップ702〜704の処理を実行しない。
ステップ1100、ステップ1101及びステップ1106は、プローブ配列の一番目からN番目まで、全てのプローブを漏れなく検索処理を行う条件を示す。各プローブに対して、ステップ1102からステップ1105までの検索処理が実行される。以下に、ステップ1102からステップ1105の内容を説明する。
ステップ1102にて、検索キー408又は409及びプローブ配列411を使用して、外部データベース112の第1のデータテーブル1000を検索する。ゲノム配列上のプローブの位置1003が得られたら、それを図4のゲノム配列上のプローブの位置412に格納する。例えば、アクセッション番号409を検索キーとする。図10のアクセッション番号1001の欄に、検索キーと同一の番号がある場合には、同一行のプローブの位置1003を図4のゲノム配列上のプローブの位置412に格納する。
ステップ1103にて、外部データベース112の第2のデータテーブル1010より、プローブ配列411を問い合わせ配列(Query)とし、プローブの位置412と同一位置のゲノム配列を検索する。該当するゲノム配列が見つかったらそれを対象配列としてマルチプルアライメントを実行する。ステップ1104にて、ゲノム配列上のプローブの位置(S(i),E(i))(1≦i≦N)を決定する。S(i)を図4のプローブ配列のゲノム配列上の開始位置413へ、E(i)を図4の終了位置414へ格納する。次に、ステップ1105にて、スプライスバリアントの検索を実行する。詳細は図12を参照して説明する。
図12を参照して、図7のステップ704及び図11のステップ1105の詳細を示す。ステップ1200にて、検索キーと検索対象配列を設定する。例えば、アクセッション番号409を検索キーとする場合、図10の外部データベース112の第1のデータテーブル1000のアクセッション番号1001の列を検索し、該当するアクセッション番号の行の遺伝子配列1004を問い合わせ配列(Query)とする。遺伝子名408を検索キーとする場合、図10の外部データベース112の第1のデータテーブル1000の遺伝子名1002の列を検索し、該当する遺伝子名の行の遺伝子配列1004を問い合わせ配列(Query)とする。外部データベース112の第1のデータテーブル1000に登録されている全ての遺伝子配列1004が対象配列となる。
ステップ1201にて、対象配列となる全ての遺伝子配列に対してBlast検索を実行し、プローブとハイブリダイズするスプライスバリアントの候補を検索する。
ステップ1202、ステップ1203及びステップ1206は、Blast検索結果から条件に合った塩基配列をM個取り出し、取り出した塩基配列の一番目からM番目まで、全ての塩基配列を漏れなく検索処理を行う条件を示す。各塩基配列に対して、ステップ1204からステップ1205までの検索処理が実行される。以下に、ステップ1204及びステップ1205の処理の内容を説明する。
ステップ1204にて、先ず、M個の塩基配列に対する詳細情報を、図10の外部データベース112の第1のデータテーブル1000の項目1001〜1009から取得し、それを図5の項目501〜508へ格納する。処理対象のM個の塩基配列を問い合わせ配列(Query)とする。外部データベース112の第2のデータテーブル1010の全てのゲノム配列を対象配列とする。ステップ1205にて、Blast検索を実行する。
図13を参照してステップ1201及び1205のBlast検索プログラムの処理を説明する。ステップ1207にて、プログラムの条件を設定する。実行するプログラムは塩基配列を検索するBlastn、単語サイズは11、マトリックスはBLOSUM62である。但し、この条件は変更することも可能とする。ステップ1208は、Blast検索の結果をDNAチップデータベース100に登録する条件を示す。ここでは、DNAチップデータベース100に登録されている対象配列がM個の場合、L個の対象配列の結果を調べて有効な結果が得られた場合に、その対象配列をDNAチップデータベース100に登録する。
ステップ1209にて、Blast検索プログラムを実行し、問い合わせ配列の対象配列に対する位置(S(i), E(i))(1≦i≦N)を決定する。ステップ1210にて、対象配列の問い合わせ配列に対する位置(s(i), e(i))(1≦i≦N)を決定する。ステップ1211にて、E-ValueとScoreを算出し、Length、Strand、Identitiesを得る。ステップ1212にて、算出されたE-Valueが1以下の場合のみ、DNAチップデータベース100に情報を格納する。ステップ1213にて、Blast検索結果に対してBlast検索 ID509を設定し、検索結果を図5の項目511〜519に格納する。S(i)は遺伝子配列の開始位置511に、E(i)は遺伝子配列の終了位置512に、s(i)はゲノム配列の開始位置513に、e(i)は終了位置514に格納する。そして次の対象配列を調べる。
図14は、図7のステップ705の処理の流れを示す。ステップ704は、染色体マップ表示プログラム109によって実行される。先ず、ステップ1300にて、表示データとして指定されたデータ名(Hybridization IDと実験名)を表形式で表示する。即ち、図16の表示データの一覧1500を表示する。ユーザが、入力装置102、103よりデータ名を選択すると、選択されたデータ1501、1502を表示する。複数のデータを選択することができる。
ステップ1301にて、同一のゲノム配列上のプローブの位置(Position)に対して異なるProbe IDが存在するか否かを判定する。異なるProbe IDが存在する場合には、ステップ1302に進み、複数のProbe IDのRatio (Intensity)を平均した値をプローブの位置の発現値とする。
異なるProbe IDが存在しない場合には、ステップ1303に進み、選択されたデータの発現値データに基づいて、プローブの位置に対する発現量を決定する。ステップ1300にて、複数のデータが選択されている場合には、各DNAチップのプローブの位置に対する発現量の平均値を発現量とする。
ステップ1304にて、全染色体の数415、染色体の短腕の長さ416、長腕の長さ417から、染色体マップを表示する。最後に、ステップ1305にて、染色体上のプローブの位置に発現量を表示する。発現量の最大値を赤、中間値を黒、最小値を緑によって表す。これにより、図16の染色体マップ1501を描画することができる。
図15は、図7のステップ706の処理の流れを示す。ステップ705は、スプライスバリアント表示プログラム107によって実行される。尚、スプライスバリアント表示プログラム107を実行する前提として、図16に示す画面が表示装置101に表示されているものとする。従って、随時、図16を参照する。
ステップ1400にて、ユーザは入力装置102、103によって、図16の染色体マップ1501の染色体1504をクリックし、選択状態にする。それにより、スプライスバリアント表示プログラム107の動作が開始される。ステップ1401にて、染色体番号及び生物種1506を表示し、一定のゲノム長のゲノム配列1511を帯状に表示する。更に、ゲノム配列の表示範囲を明示するために、ゲノムの配列番号1507及び1510を表示する。
ステップ1402にて、ゲノム配列上のプローブの位置を表示する。プローブの位置に対応する、配列の開始1508と終わりの番号1509を表示する。プローブの位置には、プローブID1513を表示し、発現データ1514を数値及び色で表示する。
ステップ1403にて、プローブとハイブリダイズするスプライスバリアントの候補を表示する。各プローブのBlast検索結果に基づいて、指定された配列(mRNA及びEST)1515のみを表示する。スプライスバリアントのゲノム配列に相当する位置がわかるように、各塩基配列のエキソン部分1517とイントロン部分1516を表示する。また、タンパク質データベースに、その遺伝子の転写産物であるタンパク質の情報がある場合には、リンク情報1519を表示する。
ステップ1404にて、ユーザが図16に示す画面上にてプローブの位置1512又はプローブID1513を選択した場合、ステップ1406にて、別ウィンドウにて、図17に示すプローブの詳細情報1600を表示する。
ステップ1405にて、ユーザが図16に示す画面上にて、スプライスバリアントの表示1502中の配列(mRNA又はEST)1515を選択した場合、ステップ1407にて、別ウィンドウにて、図18に示すスプライスバリアントの詳細情報1700を表示する。
図16は図7のステップ704及び705の処理によって得られた表示データの一覧1500、染色体マップ1501及びスプライスバリアントの表示1502を示す。表示データの一覧1500及び染色体マップ1501は、図14の処理を実行した場合に表示される。表示データの一覧1500は、図8の設定ダイアログ800の表示チップ801及び表示データ802にてユーザに指定されたHybridization ID1501及び実験名1502を表示する。図示の例では、三つのHybridization ID1503が選択され、表示されている。
染色体マップ1501には、染色体1504と染色体番号1505が表示される。生物種によって、染色体の数、染色体の長腕及び短腕の長さが異なるため、染色体1504は、生物種の情報415〜417に基づいて描画される。表示データの一覧1500にて選択されたDNAチップデータを使用して、図14の処理により、各ゲノムの位置(Position)における発現量が計算される。発現量は、最大値を赤、中間値を黒、最小値を緑として、グラフィカルに表示される。
スプライスバリアントの表示1502は、染色体マップ1501より選択された染色体を表示したものである。染色体番号及び生物種1506、一定のゲノム長のゲノム配列1511が帯状に表示される。ゲノム配列の表示範囲を示す、ゲノムの配列番号(100)1507及び(3280)1510が表示される。
ゲノム配列上のプローブの位置1512が表示され、その配列の開始番号1508及び終了番号1509が表示される。プローブの位置1512には、プローブID1513と発現データ1514が表示される。発現データ1514は、発現比率とその大きさを表す色表示からなる。色表示は、最大値を赤、中間値を黒、最小値を緑として示す。本例では、表示データの一覧1500にて、三つのデータが選択されているので、三種類の発現データが表示されている。各値は発現比率を表しており、発現比率の大きさによって、最大発現量を赤、中間値を黒、最小値を緑とした色表示を行う。
スプライスバリアントの表示1502は、各プローブのBlast検索結果から得られた、指定された配列(mRNA及びEST)1515を含む。スプライスバリアントの塩基配列のエキソン部分1517とイントロン部分1516が、ゲノム配列1511に対応して、表示される。外部データベース112のタンパク質データベースに、その遺伝子の転写産物であるタンパク質の情報がある場合には、リンク情報1519が表示される。一画面に表示するゲノム配列の長さは調節可能である。また、移動ボタン1520をクリックすることにより、画面の表示部分を右方向、又は、左方向に移動させることができる。
図17を参照してプローブの詳細情報を表示する画面の例を説明する。画面1600は、図16のスプライスバリアントの表示1502上の、プローブの位置1512又はプローブID1513をクリックすることにより表示される。この画面1600は、プローブID1601、プローブ配列1602、Accession番号1603、遺伝子名1604、Description1605を含む。これらの情報は、図4の項目407〜411に格納されている入力データから得られる。更に、選択されたデータの発現データ1606が表形式にして表示される。発現データ1606は、選択されたデータの実験名1607、発現値1608、1609、発現比率1610を含む。発現データ1606は、図4の項目404〜406に格納されている入力データから得られる。
図18を参照してスプライスバリアントの候補(mRNA又はEST配列)のBlast検索の結果を表示する画面の例を説明する。画面1700は、図16のスプライスバリアントの表示1502上の、配列(mRNA又はEST配列)1515をクリックすることにより表示される。ここでは、スプライスバリアントの候補がmRNAである場合を説明する。Accession番号1701、mRNAのDescription1702、Protein ID1703、Protein Description1704等の基本情報が表示される。これらの情報は、図5に示したDNAチップデータベース100の項目501、502、507、508に格納されたデータから得られる。
これらの基本情報に基づいて、Blast検索結果が表示される。即ち、問い合わせ配列(Query)(ここではmRNA)の配列の長さ1705、Score1706、問い合わせ配列(Query)に対して対象配列がどの程度マッチしたかどうかを表すIdentities1707、問い合わせ配列(Query)に対する対象配列の向き1708が表示される。これらのデータは図5に示したDNAチップデータベース100の項目515〜518に格納されたデータから得られる。
mRNAの配列とゲノム配列がどの程度一致しているかを示す結果1709、1710が表示される。この結果1709、1710は、図5に示したDNAチップデータベース100の項目511〜514に格納されたデータから得られる。こうして二つの配列を横一列に並べて表示することにより、マッチ度が視覚的に得られる。この表示方法は、NCBIのBlast検索結果の表示方法と同様である。更に、ゲノム配列1711に対するエキソン配列(mRNAの断片)1712が表示される。ゲノム配列の一部を網掛けで表現することにより、エキソン部分が表示される。更に、ゲノム配列番号1713が表示される。
以上本発明の例を説明したが本発明は上述の例に限定されるものではなく、特許請求の範囲に記載された発明の範囲にて様々な変更が可能であることは当業者に理解されよう。
100…DNAチップデータベース、101…表示装置、102…マウス、103…キーボード、104中央処理装置、105…プログラムメモリ、107…スプライスバリアント表示プログラム、112…外部データベース、110…サーバー、111…Blast検索プログラム、113…公共データベース、115…インターネット、1504…染色体、1505…染色体番号、1507…ゲノムの配列番号、1508…ゲノム配列上のプローブの開始位置、1509…ゲノム配列上のプローブの終了位置、1510…ゲノムの配列番号、1511…ゲノム配列、1512…プローブの位置、1513…プローブID、1514…発現値データ、1515…mRNA又はEST、1516…イントロン配列、1517…エキソン配列、1519…リンク情報
Claims (29)
- 所定のプローブ配列を有するDNAチップを使用して行ったハイブリダイゼーションの実験に関するデータを入力するデータ入力ステップと、
上記プローブ配列の位置の表示を含む所定の長さのゲノム配列を図形的に表示するゲノム配列表示ステップと、
上記プローブ配列とハイブリダイズするスプライスバリアントの候補を上記ゲノム配列に対応して表示するスプライスバリアント候補表示ステップと、
を有する遺伝子発現解析システムにおけるデータ処理及び表示方法。 - 上記ゲノム配列表示ステップは、所定の長さのゲノム配列を帯状に表示することと、上記ゲノム配列上にプローブ配列の位置を表示することと、を含むことを特徴とする請求項1記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記ゲノム配列表示ステップは、更に、染色体番号及び生物種、ゲノム配列の開始位置のゲノム番号及び終了位置のゲノム番号、上記プローブ配列の開始位置及び終了位置のゲノム番号、及び、上記プローブ配列の識別番号を表示することを特徴とする請求項1記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記ゲノム配列表示ステップは、ハイブリダイゼーションによる発現値を数字及び色によって表示することを特徴とする請求項1記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記ゲノム配列表示ステップは、ハイブリダイゼーションによる発現値が複数ある場合にはその平均値を発現値とし、ゲノム配列上の同一の位置に異なるプローブが存在する場合には、複数のプローブに対する発現値の平均値を計算するステップを有することを特徴とする請求項4記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記スプライスバリアント候補表示ステップは、スプライスバリアントの候補のmRNA配列及びEST配列を表示することと、該スプライスバリアントの候補のイントロン配列とエキソン配列を表示することと、を含むことを特徴とする請求項1記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記スプライスバリアント候補表示ステップは、イントロン配列の長さがエキソン配列の長さより相対的に短くなるようにイントロン配列の長さを圧縮して表示することを特徴とする請求項1記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記スプライスバリアント候補表示ステップは、スプライスバリアントの候補であるmRNA配列及びEST配列の転写産物に関する情報源であるリンク情報を表示することを特徴とする請求項1記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 更に、染色体番号と染色体の長腕及び短腕の長さを図形的に表示した染色体を含む染色体マップを上記ゲノム配列に対応して表示する染色体マップ表示ステップを有することを特徴とする請求項1記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記染色体マップ表示ステップは、染色体上にハイブリダイゼーションによる発現値を色によって表示することを特徴とする請求項9記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記ハイブリダイゼーションを識別するハイブリダイゼーション識別情報を上記ハイブリダイゼーションの実験を識別する実験識別情報を上記ゲノム配列に対応して表示する実験情報表示ステップを有することを特徴とする請求項1記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記実験情報表示ステップにて表示された上記ハイブリダイゼーション識別情報の1つ又は上記実験識別情報の1つを選択する命令を入力したとき、上記ゲノム配列表示ステップは、選択されたハイブリダイゼーション識別情報又は実験識別情報に対応するゲノム配列を表示し、上記スプライスバリアント候補表示ステップは、選択されたハイブリダイゼーション識別情報又は実験識別情報に対応するスプライスバリアント候補を表示することを特徴とする請求項11記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記ゲノム配列表示ステップにて表示された上記プローブ配列の識別番号を選択する命令を入力したとき、別ウィンドウにて、プローブ配列の識別番号、プローブ配列、アクセッション番号、遺伝子名、及び、プローブ定義情報を表示することを特徴とする請求項1記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記スプライスバリアント候補表示ステップにて表示された上記mRNA配列又はEST配列を選択する命令を入力したとき、別ウィンドウにて、アクセッション番号、mRNA又はESTの定義情報、たんぱく質識別番号、及び、たんぱく質定義情報を含む基本情報を表示することを特徴とする請求項1記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記基本情報に基づいて行ったBlast検索結果を表示することを特徴とする請求項14記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記実験情報表示ステップにて表示された上記mRNA配列又はEST配列を選択する命令を入力したとき、上記DNAチップに関する情報と上記ハイブリダイゼーションに関する情報を上記ゲノム配列に対応して表示することを特徴とする請求項1記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記ゲノム配列表示ステップは、ゲノム配列上の上記プローブ配列の位置に関する情報を外部データベースから検索するプローブ配列位置検索ステップを含むことを特徴とする請求項1記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記プローブ配列位置検索ステップは、ローカルなDNAチップデータベースよりゲノム配列上の上記プローブ配列の位置に関する情報を検索し、上記DNAチップデータベースに該情報が格納されていない場合に、外部データベースを検索することを特徴とする請求項17記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記プローブ配列位置検索ステップは、外部データベースを検索して得たゲノム配列上の上記プローブ配列の位置に関する情報をローカルなDNAチップデータベースに格納することを特徴とする請求項17記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記プローブ配列位置検索ステップにおいて、プローブの定義情報を検索キーとし、外部データベースを検索し、遺伝子情報(mRNA、EST)からプローブ配列の位置情報を取得することと、DNAチップ上の全てのプローブ配列を問い合わせ配列とし、プローブの位置と同一位置のゲノム配列を対象配列としてマルチプルアライメントを実行し、ゲノム配列上のプローブの位置を決定するステップを含むことを特徴とする請求項17記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記プローブ配列位置検索ステップにおいて、検索キーの遺伝子(mRNA)を問い合わせ配列とし、外部データベースの解析生物種におけるmRNA及びEST配列すべてを対象配列とし、Blast検索プログラムによる検索を実行するステップと、
取得したmRNA又はESTを問い合わせ配列とし、外部データベースの解析生物種におけるゲノム配列を対象配列とし、Blast検索プログラムによる検索を実行するステップを含むことを特徴とする請求項17記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。 - 上記スプライスバリアント候補表示ステップは、上記スプライスバリアントの候補を外部データベースから検索するスプライスバリアント検索ステップを含むことを特徴とする請求項1記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記スプライスバリアント検索ステップは、外部データベースを検索して得た上記スプライスバリアントの候補の情報をローカルなDNAチップデータベースに格納することを特徴とする請求項22記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記スプライスバリアント検索ステップはBlast検索プログラムを使用してスプライスバリアントの候補を検索することを特徴とする請求項22記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記スプライスバリアント検索ステップにおいて、検索対象となるデータベースの配列データすべてを対象配列とし、塩基配列同士におけるBlast検索プログラムを使用し、指定パラメータの条件に従ってプログラムを実行するステップと、
問い合わせ配列の対象配列に対する位置を決定し、対象配列の問い合わせ配列に対する位置を決定し、算出されたBlast検索結果を選別し、それをDNAチップデータベースに格納するステップを含むことを特徴とする請求項22記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。 - 上記染色体マップ表示ステップは、上記染色体に関する情報を外部データベースから検索する染色体検索ステップを含むことを特徴とする請求項9記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 上記染色体検索ステップは、外部データベースを検索して得た上記染色体に関する情報をローカルなDNAチップデータベースに格納することを特徴とする請求項26記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。
- 更に、上記データの前処理及び標準化を行う前処理及び標準化ステップと、
上記データの統計解析を行う統計解析ステップと、を有することを特徴とする請求項1記載の遺伝子発現解析システムにおけるデータ処理及び表示方法。 - 所定のプローブ配列を有するDNAチップを使用して行ったハイブリダイゼーションの実験に関するデータを入力するデータ入力部と、上記データの前処理及び標準化を行う前処理及び標準化部と、上記プローブ配列の位置の表示を含む所定の長さのゲノム配列を図形的に表示するデータを生成するゲノム配列表示処理部と、上記プローブ配列とハイブリダイズするスプライスバリアントの候補を上記ゲノム配列に対応して表示するデータを生成するスプライスバリアント候補表示部、上記データの統計解析を行う統計解析ステップと、を有する遺伝子発現解析システム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004100783A JP2005284964A (ja) | 2004-03-30 | 2004-03-30 | 遺伝子発現解析システムにおけるデータ処理及び表示方法、及び、遺伝子発現解析システム |
US11/059,468 US20050221353A1 (en) | 2004-03-30 | 2005-02-16 | Data processing and display method for gene expression analysis system and gene expression analysis system |
EP05004041A EP1583016A3 (en) | 2004-03-30 | 2005-02-24 | Data processing and display method for gene expression analysis system and gene expression analysing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004100783A JP2005284964A (ja) | 2004-03-30 | 2004-03-30 | 遺伝子発現解析システムにおけるデータ処理及び表示方法、及び、遺伝子発現解析システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005284964A true JP2005284964A (ja) | 2005-10-13 |
JP2005284964A5 JP2005284964A5 (ja) | 2006-08-10 |
Family
ID=34879997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004100783A Withdrawn JP2005284964A (ja) | 2004-03-30 | 2004-03-30 | 遺伝子発現解析システムにおけるデータ処理及び表示方法、及び、遺伝子発現解析システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20050221353A1 (ja) |
EP (1) | EP1583016A3 (ja) |
JP (1) | JP2005284964A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008027244A (ja) * | 2006-07-21 | 2008-02-07 | Univ Of Tokyo | エクソンアレイ発現プロファイルに基づく疾患特異的選択的スプライシング同定法 |
WO2012033961A2 (en) * | 2010-09-09 | 2012-03-15 | Abbott Laboratories | Systems and methods for displaying molecular probes and chromosomes |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521529A (zh) * | 2011-12-09 | 2012-06-27 | 北京市计算中心 | 基于blast的分布式基因序列比对方法 |
CN103186716B (zh) * | 2011-12-29 | 2017-02-08 | 上海生物信息技术研究中心 | 基于元基因组学的未知病原快速鉴定系统及分析方法 |
CN102867134B (zh) * | 2012-08-16 | 2016-05-18 | 盛司潼 | 一种对基因序列片段进行拼接的系统和方法 |
CN105389481B (zh) * | 2015-12-22 | 2018-06-29 | 武汉菲沙基因信息有限公司 | 一种三代全长转录组中可变剪切体的检测方法 |
CN116705175B (zh) * | 2023-06-08 | 2023-12-29 | 南京农业大学 | 一种跨物种比较基因组学数据库及其构建和分析方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030100995A1 (en) * | 2001-07-16 | 2003-05-29 | Affymetrix, Inc. | Method, system and computer software for variant information via a web portal |
JP3530846B2 (ja) * | 2002-02-28 | 2004-05-24 | 株式会社日立製作所 | スプライスバリアント比較表示方法 |
-
2004
- 2004-03-30 JP JP2004100783A patent/JP2005284964A/ja not_active Withdrawn
-
2005
- 2005-02-16 US US11/059,468 patent/US20050221353A1/en not_active Abandoned
- 2005-02-24 EP EP05004041A patent/EP1583016A3/en not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008027244A (ja) * | 2006-07-21 | 2008-02-07 | Univ Of Tokyo | エクソンアレイ発現プロファイルに基づく疾患特異的選択的スプライシング同定法 |
WO2012033961A2 (en) * | 2010-09-09 | 2012-03-15 | Abbott Laboratories | Systems and methods for displaying molecular probes and chromosomes |
WO2012033961A3 (en) * | 2010-09-09 | 2012-05-31 | Abbott Laboratories | Systems and methods for displaying molecular probes and chromosomes |
Also Published As
Publication number | Publication date |
---|---|
US20050221353A1 (en) | 2005-10-06 |
EP1583016A2 (en) | 2005-10-05 |
EP1583016A3 (en) | 2006-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU784645B2 (en) | Method for providing clinical diagnostic services | |
KR101542529B1 (ko) | 대립유전자의 바이오마커 발굴방법 | |
Shaw et al. | Comparative genomic hybridisation using a proximal 17p BAC/PAC array detects rearrangements responsible for four genomic disorders | |
KR20140061223A (ko) | 차세대 시퀀싱 데이터의 질병변이마커 검출 방법 | |
JP2019080501A (ja) | 品質評価方法、品質評価装置、プログラム、記録媒体、および品質管理試料 | |
US20050221353A1 (en) | Data processing and display method for gene expression analysis system and gene expression analysis system | |
Wood et al. | Recommendations for accurate resolution of gene and isoform allele-specific expression in RNA-Seq data | |
JP2023031319A (ja) | 分析装置、分析方法及びプログラム | |
KR20150024232A (ko) | 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법 | |
CN109524060B (zh) | 一种遗传病风险提示的基因测序数据处理系统与处理方法 | |
US20060122791A1 (en) | Method and apparatus for displaying gene information | |
JP6682439B2 (ja) | 病態判定支援装置、方法、プログラムおよび記録媒体 | |
US20220020449A1 (en) | Vector-based haplotype identification | |
EP1798651B1 (en) | Gene information display method and apparatus | |
US9672271B2 (en) | Method for identifying and employing high risk genomic markers for the prediction of specific diseases | |
KR101977976B1 (ko) | 앰플리콘 기반 차세대 염기서열 분석기법에서 프라이머 서열을 제거하여 분석의 정확도를 높이는 방법 | |
US20160171151A1 (en) | Method for determining read error in nucleotide sequence | |
JP2020517304A (ja) | Dna分析のためのオフターゲット配列の使用 | |
JP5213009B2 (ja) | 遺伝子発現変動解析方法及びシステム、並びにプログラム | |
JP4579525B2 (ja) | 遺伝子発現データ管理表示方法 | |
Jabalia | Bioinformatics resources | |
Kim et al. | A novel genetic variant database for Korean native cattle (Hanwoo): HanwooGDB | |
Symons et al. | ResqMi-a versatile algorithm and software for Resequencing Microarrays | |
Xiao et al. | SVhawkeye: an ultra-fast software for user-friendly visualization of targeted structural fragments from BAM files | |
JP2003052385A (ja) | Dnaアレイ向けプローブ配列決定システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060628 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060628 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20061201 |