JP4174775B2 - 生命情報解析装置、生命情報解析方法および生命情報解析プログラム - Google Patents

生命情報解析装置、生命情報解析方法および生命情報解析プログラム Download PDF

Info

Publication number
JP4174775B2
JP4174775B2 JP2005103001A JP2005103001A JP4174775B2 JP 4174775 B2 JP4174775 B2 JP 4174775B2 JP 2005103001 A JP2005103001 A JP 2005103001A JP 2005103001 A JP2005103001 A JP 2005103001A JP 4174775 B2 JP4174775 B2 JP 4174775B2
Authority
JP
Japan
Prior art keywords
data
gene
gene expression
sequence
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005103001A
Other languages
English (en)
Other versions
JP2006285517A (ja
Inventor
勇一 熊木
泰己 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INTEC SYSTEMS INSTITUTE, INC.
RIKEN Institute of Physical and Chemical Research
Original Assignee
INTEC SYSTEMS INSTITUTE, INC.
RIKEN Institute of Physical and Chemical Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INTEC SYSTEMS INSTITUTE, INC., RIKEN Institute of Physical and Chemical Research filed Critical INTEC SYSTEMS INSTITUTE, INC.
Priority to JP2005103001A priority Critical patent/JP4174775B2/ja
Priority to US11/396,508 priority patent/US20060265135A1/en
Publication of JP2006285517A publication Critical patent/JP2006285517A/ja
Application granted granted Critical
Publication of JP4174775B2 publication Critical patent/JP4174775B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Description

本発明は、生命情報解析装置、生命情報解析方法および生命情報解析プログラムに関する。
近年、進められている「ゲノムネットワーク研究」は、ゲノム上にある遺伝子ごとの発現調節機能や、タンパク質等生体分子間の相互作用の網羅的解析を行うことにより、遺伝子の働きを調和させ、生命活動を成立させている分子ネットワーク(ゲノムネットワーク)を明らかにするとともに、これを統合データベースとして構築することを目指す研究開発である。
ゲノム上にある遺伝子ごとの発現調節機能を明らかにするために酵母などで用いられている手法の一つとして、所定の生命現象に特異的に関係する遺伝子発現調節配列を、DNA chip等の包括的な遺伝子発現の解析結果から得る手法がある。この手法では、得られた解析結果のうち、所定の生命現象に特異的にmRNAの発現が変化する遺伝子群について、ゲノム配列上におけるその遺伝子の上流配列から、ホモロジーの高い配列を探索するアプローチにより、所定の生命現象に特異的な遺伝子発現調節配列を予測している。
従来の遺伝子発現解析方法としては、例えば非特許文献1〜5に記載されたものがある。同文献に記載された方法では、酵母のゲノムのうち遺伝子候補配列の上流領域を解析することにより遺伝子発現調節因子の候補配列を検索している。
Brazma, A., Jonassen, I., Vilo, J. and Ukkonen, E., Predicting gene regulatory elements in silico on a genomic scale. Genome Res., 1998, 8, 1202−1215. Hughes, JD., Estep, PW., Tavazoie S., & Church, GM., Computational identification of cis-regulatory elements associated with groups of functionally related genes in Saccharomyces cerevisiae. Journal of Molecular Biology, 2000, 296, 1205-14. Liu, X., Brutlag, D. and Liu, J., Bioprospector: discovering conserved DNA motifs in upstream regulatory regions of coexpressed genes. Pac. Symp. Biocomput., 2001, 127−138. Bussemaker,H., Li,H. and Siggia,E., Regulatory element detection using correlation with expression. Nat. Genet., 2001, 27, 167−171. Segal, E., Yelensky, R. and Koller, D., Genome-wide discovery of transcriptional modules from DNA sequence and gene expression. Bioinformatics, 2003, 19, i273-i282
しかしながら、上記文献記載の従来技術は、所定の生命現象に特異的に関係する遺伝子発現調節配列について、酵母などの下等真核生物で有意な予測結果が得られているのみである。すなわち、これまで、脊椎動物を始めとする高等真核生物では、所定の生命現象に特異的に関係する遺伝子発現調節配列について、有用な予測結果を得ることが困難な状態が続いている。
高等真核生物で有用な予測結果を得ることが困難である理由としては、高等真核生物では、その遺伝子発現制御の機構は複雑であることが挙げられる。このため、高等真核生物では、生命現象特異的に同様の遺伝子発現変化をする遺伝子群においても、その遺伝子発現調節に関わる遺伝子発現調節配列は複数存在する。よって、ホモロジーの高い配列を探索するアプローチでは、それらの遺伝子の遺伝子発現調節配列を予測することは困難であった。
本発明は上記事情に鑑みてなされたものであり、高等真核生物を含む多様な生物における種々の遺伝子発現調節配列候補を探索可能な生命情報解析技術を提供することを目的とするものである。
本発明によれば、解析対象の遺伝子発現調節配列候補と複数の遺伝子候補配列の各々との組合せの寄与度である調節側寄与度を含む第一のデータを取得する第一のデータ取得部と、この複数の遺伝子候補配列の各々と解析対象の生命現象との組合せの寄与度である現象側寄与度を含む第二のデータを取得する第二のデータ取得部と、この第一のデータおよびこの第二のデータに基づいて、それぞれの遺伝子候補配列に対応したこの第一のデータのこの調節側寄与度とこの第二のデータのこの現象側寄与度との積を、それぞれの遺伝子候補配列を介したこの遺伝子発現調節配列候補とこの生命現象との組合せの個別寄与度として、複数の遺伝子候補配列に対応する複数の個別寄与度を合計した値である、この複数の遺伝子候補配列を介したこの遺伝子発現調節配列候補とこの生命現象との組合せのトータル寄与度を含む第三のデータを生成する第三のデータ生成部と、この第三のデータを出力する出力部と、を備える生命情報解析装置が提供される。
この構成によれば、遺伝子発現調節配列候補および遺伝子候補配列の組合せの寄与度(第一のデータ)と、遺伝子候補配列および生命現象の組合せの寄与度(第二のデータ)とから、遺伝子候補配列を介した遺伝子発現調節配列候補と生命現象の組合せの寄与度(第三のデータ)を好適に求められる。
ここで、本発明は、複数の遺伝子候補配列を用いている。複数の遺伝子候補配列の各々は、遺伝子発現調節配列候補から作用を受け、また、生命現象に作用すると考えられる。すなわち、それぞれの遺伝子候補配列は、遺伝子発現調節配列候補との間に寄与度を持ち、かつ、着目する生命現象との間にも寄与度を持つ。ここでは、前者を調節側寄与度といい、また、後者を現象側寄与度という。
複数の遺伝子候補配列の調節側寄与度および現象側寄与度を集めると、それらの大きさは異なるが、どの寄与度も、遺伝子発現調節配列候補と生命現象の全体的な作用に寄与していると考えられる。そこで、本発明は、上述のように、各遺伝子候補配列の調節側寄与度と現象側寄与度に基づく個別寄与度を考慮し、複数の遺伝子候補配列の個別寄与度を集計したトータル寄与度を求めている。トータル寄与度は例えば下記のような行列計算によって容易に求められる。トータル寄与度は、複数の遺伝子候補配列の調節側寄与度と現象側寄与度を反映しているので、遺伝子発現調節配列候補と生命現象の関係の強さの表すパラメータとして高い信頼性を有する。このようにして、本発明によれば、遺伝子発現調節配列候補と生命現象の関連性についての信頼性の高い推測情報を提供することができる。
また、本発明によれば、複数の遺伝子発現調節配列候補の各々と複数の遺伝子候補配列の各々との組合せの寄与度を行列要素とする第一の行列で構成される第一のデータを取得する第一のデータ取得部と、この複数の遺伝子候補配列の各々と複数の生命現象の各々との組合せの寄与度を行列要素とする第二の行列で構成される第二のデータを取得する第二のデータ取得部と、この第一のデータおよびこの第二のデータに基づいて、この第一の行列およびこの第二の行列を用いた計算をすることにより、この複数の遺伝子発現調節配列候補の各々とこの複数の生命現象の各々との組合せの寄与度を行列要素とする第三の行列で構成される第三のデータを生成する第三のデータ生成部と、この第三のデータを出力する出力部と、を備える生命情報解析装置が提供される。なお、上記の第一の行列および第二の行列を用いた計算には、第一の行列および第二の行列の積を求める計算が含まれていてもよい。
この構成によれば、遺伝子発現調節配列候補および遺伝子候補配列の各組合せの寄与度を行列要素として含む第一の行列と、遺伝子候補配列および生命現象の各組合せの寄与度を行列要素として含む第二の行列と、を用いた計算をすることにより、遺伝子発現調節配列候補および生命現象の各組合せの寄与度を含む第三の行列を生成することができ、遺伝子発現調節配列候補と生命現象との関連性についての信頼性の高い推測値が示される。したがって、従来技術において所定の生命現象に関する遺伝子の発現調節因子として探索を行うことが困難であった発現調節因子についても予測することが可能になった。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、遺伝子候補配列を介して遺伝子発現調節配列候補および生命現象の関連性を示す指標を求めるため、高等真核生物を含む多様な生物における種々の遺伝子発現調節配列候補を予測することが可能になった。
以下、本発明の実施の形態に係る生命情報解析装置について、図面を用いて説明する。また、この装置を含む生命情報解析システム、この装置を用いる生命情報解析方法、この装置を実行するための生命情報解析プログラムについても説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
図1は、実施の形態に係る生命情報解析システムの全体構成を示した機能ブロック図である。なお、図1では、生命情報解析システム1000の構成の概略のみを示し、詳細な内部構成については、後述する他の図面を用いて説明する。
生命情報解析システム1000は、DNAチップ等の実験手法により得られた体内組織、時間、生命現象特異的な包括的な遺伝子発現情報を用いることにより、コンピュータを用いて体内組織、時間、生命現象特異的な遺伝子発現調節配列を予測可能な生命情報解析システムである。
また、生命情報解析システム1000は、ゲノムワイドな遺伝子発現調節領域のデータおよびゲノムワイドな遺伝子発現データ(DNAチップからのデータ)を組み合せることで、特定の生命現象に対応する遺伝子の遺伝子発現調節配列を明らかにするために用いられる。
さらには、生命情報解析システム1000は、特定の生命現象に対応する遺伝子の遺伝子発現調節配列をゲノムワイドに明らかにすることにより、生命のシステムを明らかにしたり、遺伝子調節のネットワークを明らかにしたりするために用いられる。
生命情報解析システム1000は、生命情報解析装置100を備え、生命情報解析装置100は、既知・新規の遺伝子発現調節配列の任意の候補配列について、任意の生命現象における包括的な遺伝子発現情報を用いることにより、生命現象と候補配列の関連性のプロファイル化を行っている。生命情報解析装置100は、このプロファイル化により、特定の生命現象に対応する遺伝子の遺伝子発現調節配列を明らかにする。
生命情報解析装置100は、主要な機能として、遺伝子発現調節配列・生命現象データ生成機能101および有意性判定機能103を有する。生命情報解析装置100は、外部から遺伝子発現調節配列データおよび遺伝子・生命現象データの入力を受けると、これらのデータに基づいて、遺伝子発現調節配列・生命現象データ生成機能101により遺伝子発現調節配列・生命現象データを生成する。生命情報解析装置100は、生成された遺伝子発現調節配列・生命現象データを直接外部に出力することができる。
そして、生命情報解析装置100は、有意性判定機能103により、遺伝子発現調節配列・生命現象データに基づいて、遺伝子発現調節配列および生命現象の間に有意性のある関係が成立するか否かを判定する。また、生命情報解析装置100は、得られた有意性判定結果を外部に出力する。
なお、生命情報解析装置100はコンピュータであり、ユーザからの操作を受け付ける操作部を有しており、この操作部は入力部として機能する。また、生命情報解析装置100は、ディスプレイおよびプリンタ等の出力部を有している。さらに、生命情報解析装置100は、ネットワーク等を介して、コンピュータ、サーバ等の他の装置と通信する通信部を有している。この通信部も、生命情報解析装置100の入出力部に相当する。
以下、本実施の形態にについて、下記の順番で説明する。
1.遺伝子発現調節配列・生命現象データの生成
2.遺伝子発現調節配列データの生成
3.遺伝子・生命現象データの生成
4.優位性の判定
ここで、「1.」は、図1の生命情報解析装置100における遺伝子発現調節配列・生命現象データ生成機能101の説明である。
「2.」「3.」は、上記「1.」の基礎になるデータ(生命情報解析装置100に入力されるべきデータ)の生成についての説明である。
「3.」は、図1の優位性判定機能103についての説明である。
<1.遺伝子発現調節配列・生命現象データの生成>
図2は、実施の形態に係る生命情報解析装置100における遺伝子発現調節配列・生命現象データ生成機能101に関する構成を示している。生命情報解析装置100において、遺伝子発現調節配列データ取得部134は、第一のデータ取得部に相当しており、第一のデータとして、複数の遺伝子発現調節配列と複数の遺伝子との各組合せの寄与度のデータ(遺伝子発現調節配列データ)を取得する。また、取得されたデータは、遺伝子・遺伝子発現調節データ記憶部138に格納される。
また、遺伝子・生命現象データ取得部136は、第二のデータ取得部に相当しており、第二のデータとして、複数の遺伝子と複数の生命現象との各組合せの寄与度のデータ(遺伝子・生命現象データ)を取得する。取得されたデータは、遺伝子・生命現象データ記憶部140に格納される。
さらに、遺伝子発現調節配列・生命現象データ生成機能101には、遺伝子発現調節配列・生命現象データ生成部142が設けられている。この遺伝子発現調節配列・生命現象データ生成部142は、遺伝子・遺伝子発現調節データ記憶部138および遺伝子・生命現象データ記憶部140から、遺伝子・遺伝子発現調節データおよび遺伝子・生命現象データをそれぞれ取得する。そして、遺伝子発現調節配列・生命現象データ生成部142は、取得したデータから、第3のデータに相当する遺伝子発現調節配列・生命現象データを生成する。生成されたデータは、遺伝子発現調節配列・生命現象データ記憶部144に格納され、そして、出力部145から出力される。
図3は、図2の各機能ブロックの内部構成をさらに詳細に示した機能ブロック図であり、図4は、遺伝子発現調節配列・生命現象データの生成処理を示している。
図3(a)は、遺伝子発現調節配列データ取得部134の内部構成を示している。遺伝子発現調節配列データ取得部134は、外部から遺伝子発現調節配列データを受け付ける受付部202を備える。受付部202が受け付けた遺伝子発現調節配列データは、第一の行列データ生成部204に渡され、行列形式のデータ(第一の行列データ)に変換される。さらに、第一の行列データは、出力部206により遺伝子発現調節配列データ記憶部138に格納される。
上記の第一の行列データは、図4の左上に示されている。第一の行列データでは、各行列要素が、遺伝子発現調節配列と遺伝子との各組合せにおける寄与度である。この寄与度は、後述するように遺伝子発現調節配列と遺伝子上流の転写開始点との距離に応じて設定される値である。なお、受付部202で行列データが受け付けられたときは、行列データへの変換処理が省略されてよい。
図3(b)は、遺伝子・生命現象データ取得部136の内部構成を示している。遺伝子・生命現象データ取得部136は、外部から遺伝子・生命現象データを受け付ける受付部208を備える。受付部208が受け付けた遺伝子・生命現象データは、第二の行列データ生成部210に渡され、行列形式のデータ(第二の行列データ)に変換される。さらに、第二の行列データは、出力部206により遺伝子・生命現象データ記憶部140に格納される。
なお、第二の行列データ生成部210には、後述する正規化部211が接続していてもよい。この場合、生成した第二の行列データにばらつきがある場合には、正規化部211を用いてデータの正規化を行うことにより解析精度を向上できる。
上記の第二の行列データは、図4の右上に示されている。第二の行列データでは、各行列要素が、遺伝子と生命現象の各組合せにおける寄与度である。この寄与度は、遺伝子の発現量から生成される値である。なお、受付部208で行列データが受け付けられたときは、行列データへの変換処理が省略されてよい。
次に、図3(c)は、遺伝子発現調節配列・生命現象データ生成部142の内部構成を示している。遺伝子発現調節配列・生命現象データ生成部142は、第一の行列データ受け付ける第一の行列データ受付部214と第二の行列データ受け付ける第二の行列データ受付部216とを備える。こうして受け付けられた第一の行列データおよび第二の行列データに基づいて、第三の行列データ生成部218の行列積計算部220が、第三の行列データを生成する。ここでは、図4に示されるように第一の行列データと第二の行列データとがかけ合わされる。この第三の行列データが、遺伝子発現調節配列・生命現象データである。生成された行列データは、出力部219により出力される。
このように、図4の処理によれば、生命現象と遺伝子発現調節配列との関係をプロファイル化することで、生命現象特異的な遺伝子発現調節配列を予測することができる。すなわち、この処理によれば、後述する図5で説明するように、それぞれの遺伝子発現調節配列候補について、その配列を持つ全ての遺伝子の、ある生命現象での遺伝子発現の和をとることができる。そのため、その生命現象での、その遺伝子発現調節配列候補の遺伝子発現への寄与の程度を表現することができる。このような処理を多数の遺伝子発現調節配列候補について行うことで、それぞれの遺伝子発現調節配列候補と遺伝子発現との関係をプロファイル化することができ、その結果、生命現象特異的な遺伝子発現調節配列を予測することが可能となる。
ここで、図5を参照し、図4における行列の積によって得られる第三の行列データすなわち遺伝子発現調節配列・生命現象データの意味について説明する。
図5では、左側に一つの解析対象の遺伝子発現調節配列Xが配置され、右側に一つの生命現象Zが配置され、中央に複数の遺伝子Y1〜Y6が配置されている。図の例では、説明を簡略化するために6つの遺伝子のみが示されている。
一つの遺伝子発現調節配列Xは、複数の遺伝子Y1〜Y6の各々との間で寄与度A1〜A6を持つ。また、一つの生命現象Zも、複数の遺伝子Y1〜Y6の各々との間で寄与度B1〜B6を持つ。ここでは、寄与度A1〜A6を、調節側寄与度といい、寄与度B1〜B6を現象側寄与度と呼ぶことにする。
次に、図5のモデルで個別の遺伝子に着目する。遺伝子発現調節配列Xは遺伝子Y1との間に調節側寄与度A1を持ち、遺伝子Y1は生命現象Z1との間に現象側寄与度B1を持つ。したがって、遺伝子発現調節配列Xは、遺伝子Y1を介して、生命現象Zと関係しているということができる。この関係の強さを、ここでは個別寄与度C1と呼ぶ。
個別寄与度C1は、調節側寄与度A1と現象側寄与度B1との関数として表すことができる。本実施の形態では、個別寄与度C1は、調節側寄与度A1と現象側寄与度B1との積とする。遺伝子Y2〜Y6についても同様の個別寄与度C2〜C6を考えることができる。
次に、遺伝子発現調節配列Xと生命現象Zの総合的な関連性について考える。図5において、調節側寄与度A1〜A6は大小様々であり、現象側寄与度B1〜B6も大小様々である。しかし、いずれの寄与度も、遺伝子発現調節配列Xと生命現象Zの関連性に影響を及ぼすと考えられる。仮に、調節側寄与度A1が小さかったり、現象側寄与度B1が小さかったりしても、遺伝子Y1は、遺伝子発現調節配列Xと生命現象Zの関連性に関与している可能性があり、考慮されるべきである。
そこで、本実施の形態では、個別寄与度C1〜C6を集計したトータル寄与度を考える。トータル寄与度は、個別寄与度C1〜C6の合計である。このトータル寄与度は、上記の調節側寄与度A1〜A6および現象側寄与度B1〜B6の大小を反映したパラメータになる。
次に、上記のトータル寄与度と本実施の形態の行列計算処理の関係を説明する。図4では、第一の行列データの各行列要素が、上記の調節側寄与度に相当しており、第二の行列データの各行列要素が、上記の現象側寄与度に相当している。図4で一つの遺伝子発現調節配列と一つの生命現象に着目すると、行列計算は、調節側寄与度と現象側寄与度の積の合計を求めている。すなわち、図5のトータル寄与度が計算されている。
しかも、行列計算では、第一の行列データが、複数の遺伝子発現調節配列と複数の遺伝子の組合せのデータであり、第二の行列データが、複数の遺伝子と複数の生命現象の組合せのデータである。したがって、複数の遺伝子発現調節配列と複数の生命現象の種々の組合せにおけるトータル寄与度が効率よく簡単に計算されている。
図6は、実施の形態に係る生命情報解析装置の動作を説明するためのフローチャートである。
生命情報解析装置100では、一連の動作がスタートすると、まず、遺伝子発現調節配列データ取得部134が、外部から遺伝子発現調節配列データを取得し(S202)、第一の行列データを生成し(S206)、遺伝子発現調節配列データ記憶部138に格納する。
一方、遺伝子・生命現象データ取得部136は、外部から遺伝子・生命情報データを取得し(S204)、第二の行列データを生成し(S208)、必要に応じて後述する正規化を行い(S209)、遺伝子・生命現象データ記憶部140に格納する。
次いで、遺伝子発現調節配列・生命現象データ生成部142は、遺伝子発現調節配列データ記憶部138から遺伝子発現調節配列データを取得し、遺伝子・生命現象データ記憶部140から遺伝子・生命現象データを取得する。
その後、遺伝子発現調節配列・生命現象データ生成部142は、遺伝子発現調節配列データおよび遺伝子・生命情報データに基づいて、生命現象と遺伝子発現調節配列候補の関連性のプロファイル化を行うために行列の積を計算する(S210)ことにより、第三の行列データを生成する(S212)。さらに、遺伝子発現調節配列・生命現象データ生成部142は、第三の行列データ(プロファイル化の結果)を用いて遺伝子発現調節配列・生命現象データを生成する(S214)。
また、生命情報解析装置100は、遺伝子発現調節配列・生命現象データを生成すると、遺伝子発現調節配列・生命現象データ記憶部144に該当データを格納する。なお、一般に遺伝子発現調節配列・生命現象データは、テーブル(行列)の形式で生成・格納される。
以上に、遺伝子発現調節配列・生命現象データ生成機能について説明した。次に、この機能の利点を説明する。
本実施の形態は、上述のように、遺伝子発現調節配列データの行列と遺伝子・生命現象データの行列との積を求める好適な処理によって、遺伝子発現調節配列・生命現象の行列データを得ており、この行列データは上述のトータル寄与度の行列になっている。トータル寄与度は、上述したように、複数の遺伝子に関する調節側寄与度と現象側寄与度を反映しており、遺伝子発現調節配列と生命現象の関連性を適切に表す信頼性の高いパラメータになっている。したがって、多数の遺伝子発現調節配列について上記の行列の積を求めることにより、より生命現象との関連性が高い遺伝子発現調節配列を実際の遺伝子発現調節配列であると予測するため、従来技術においてホモロジーによるアプローチでは探索を行うことが困難であった遺伝子発現調節配列についても予測可能になった。
<2.遺伝子発現調節配列データの生成>
次に、上述の生命情報解析装置100に遺伝子発現調節配列・生命現象データの生成の基礎データとして入力されるべき遺伝子発現調節配列データを生成するための構成を説明する。
図7は、遺伝子発現調節配列データを生成するための構成を説明した機能ブロック図である。図7では、遺伝子発現調節配列候補データ生成装置602と、転写開始点・遺伝子候補配列データ生成装置604と、遺伝子発現調節配列データ生成装置106とが設けられている。
遺伝子発現調節配列候補データ生成装置602は、CD−ROMドライブ702または外部ネットワーク704に接続しており、これらから情報を取得することができる。また、転写開始点・遺伝子候補配列データ生成装置604は、CD−ROMドライブ804または外部ネットワーク802に接続しており、これらから情報を取得することができる。
また、遺伝子発現調節配列データ生成装置106は、外部ネットワーク110を介して生命情報解析装置100に接続され、生命情報解析装置100に情報を入力する。なお、図示のように、生命情報解析装置100は、CD−ROMドライブ108からも遺伝子発現調節配列データ生成装置106と同様のデータを受け取ってよい。
図8は、実施の形態に係る生命情報解析システムに用いる遺伝子発現調節配列候補データの作成について説明するための概念図である。図8に示すように、以下のステップにより、転写開始点および遺伝子発現調節配列候補のデータベースを作成することができる。
ステップ1:遺伝子領域(cDNA)と遺伝子の上流の転写開始点を決定する。
ステップ2:生物種間の相同遺伝子を決定する。
ステップ3:生物種間のゲノム相同領域を決定する。すなわち、異なる生物種間でゲノムを対応付けする。
ステップ4:生物種間でのゲノム配列保存領域を決定する。すなわち、ゲノム比較する。なぜなら、遺伝子発現調節配列といった、生物の機能に重要な塩基配列は、生物種間で保存されている傾向が強いためである。
ステップ5:生物種間で保存されている遺伝子発現調節配列候補をゲノム全体で探索する。このとき、遺伝子発現調節配列候補は、既知の配列でも新規の配列でも可能である。
ステップ6:遺伝子発現調節配列候補を遺伝子および転写開始点と関連付けてデータベース化する。
図9は、実施の形態に係る生命情報解析システムにおける遺伝子発現調節配列データの生成について説明したフローチャートである。
この場合、遺伝子発現調節配列候補データ生成装置602は、まず、外部からの情報をもとに、遺伝子発現調節配列候補データの生成を行う(S302)。一方、転写開始点・遺伝子候補配列データ生成装置604は、別途、外部からの情報をもとに、転写開始点・遺伝子候補配列データを生成する(S304)。そして、遺伝子発現調節配列データ生成装置106は、これらのデータをもとに、遺伝子発現調節配列データを生成する(S306)。得られた遺伝子発現調節配列データは、生命情報解析装置100に入力される。
図10は、図7の遺伝子発現調節配列候補データ生成装置602の構成を示した機能ブロック図である。遺伝子発現調節配列候補データ生成装置602は、所定の生物種を含む複数の生物種のゲノム配列情報および既知・新規遺伝子発現調節配列候補データから所定の生物種における遺伝子発現調節配列候補データを生成する機能を有する。なお、既知・新規遺伝子発現調節配列候補データとは、既知の遺伝子発現調節配列候補データおよび任意に作成した新規な遺伝子発現調節配列候補データを含むデータである。
遺伝子発現調節配列候補データ生成装置602は、図7に示したように、外部のCD−ROMドライブ702および外部ネットワーク704と接続されており、これから情報を取り込んで処理する。
遺伝子発現調節配列候補データ生成装置602は、第一の生物種のゲノム配列情報を取得するゲノム配列情報取得部706を備える。ゲノム配列情報取得部706は、外部から取得した第一の生物種のゲノム配列情報をゲノム配列情報記憶部708に格納する。
一方、遺伝子発現調節配列候補データ生成装置602は、第一の生物種とは異なる第二の生物種のゲノム配列情報を取得するゲノム配列情報取得部710を備える。ゲノム配列情報取得部710は、外部から取得した第二の生物種のゲノム配列情報をゲノム配列情報記憶部712に格納する。
遺伝子発現調節配列候補データ生成装置602は、ゲノム比較部714を備える。ゲノム比較部714は、ゲノム配列情報記憶部708から第一の生物種のゲノム配列情報を取得し、ゲノム配列情報記憶部712から第二の生物種のゲノム配列情報を取得する。
また、ゲノム比較部714は、取得した第一の生物種のゲノム配列情報および第二の生物種のゲノム配列情報を比較し、塩基配列のホモロジーなどの任意の指標による比較結果を生成する。ゲノム比較部714は、生成した比較結果を保存配列抽出部716に渡す。
保存配列抽出部716は、ゲノム比較部714から取得した比較結果を解析し、複数の生物種のゲノム配列情報の間における保存性が所定の水準以上(例えばDNA配列のホモロジーが70%以上)である配列を含む複数の遺伝子発現調節配列候補(遺伝子発現調節配列候補)により構成される複数の生物種間保存配列データを抽出する。保存配列抽出部716は、抽出した生物種間保存配列を生物種間保存配列データ生成部718に渡す。
生物種間保存配列データ生成部718は、保存配列抽出部716から取得した生物種間保存配列データを解析対象である第一の生物種のゲノム配列情報または第二の生物種のゲノム配列情報の対応する領域と関連づけて、生物種間保存配列データを生成する。生物種間保存配列データ生成部718は、生成した生物種間保存配列データを生物種間保存配列データ記憶部720に格納する。
一方、遺伝子発現調節配列候補データ生成装置602は、解析対象である第一の生物種のゲノム配列情報または第二の生物種のゲノム配列情報における既知・新規遺伝子発現調節配列候補データを取得する既知・新規遺伝子発現調節配列候補データ取得部722を備える。既知・新規遺伝子発現調節配列候補データ取得部722は、外部から取得した既知・新規遺伝子発現調節配列候補データを既知・新規遺伝子発現調節配列候補データ記憶部724に格納する。
また、遺伝子発現調節配列候補データ生成装置602は、遺伝子発現調節配列候補データ生成部726を備える。この遺伝子発現調節配列候補データ生成部726は、生物種間保存配列データ記憶部720から生物種間保存配列データを取得し、既知・新規遺伝子発現調節配列候補データ記憶部724から既知・新規遺伝子発現調節配列候補データを取得する。
そして、遺伝子発現調節配列候補データ生成部726は、複数の遺伝子発現調節配列候補データとして、上述の生物種間保存配列データにくわえて、さらに、既知の遺伝子発現調節配列候補データおよび任意に作成した新規な遺伝子発現調節配列候補データを含む遺伝子発現調節配列候補データを生成する。遺伝子発現調節配列候補データ生成部726は、生成した遺伝子発現調節配列候補を遺伝子発現調節配列候補データ記憶部728に格納する。
遺伝子発現調節配列候補データ生成装置602は、出力部730を備える。出力部730は、遺伝子発現調節配列候補データ記憶部728から遺伝子発現調節配列候補データを取得し、遺伝子発現調節配列データ生成装置106に出力する。
図11は、遺伝子発現調節配列候補データの作成について説明するためのフローチャートである。なお、このフローチャートは、図9のステップ302のサブルーチンに相当する。
遺伝子発現調節配列候補データ生成装置602では、一連の動作がスタートすると、まず、ゲノム配列情報取得部706が、外部から生物種1のゲノム配列情報を取得する(S402)。次いで、ゲノム配列情報取得部706は、取得したゲノム配列情報をゲノム配列情報記憶部708に格納する。
一方、ゲノム配列情報取得部710は、外部から生物種2のゲノム配列情報を取得する(S404)。次いで、ゲノム配列情報取得部710は、取得したゲノム配列情報をゲノム配列情報記憶部712に格納する。
なお、ゲノム配列の解読については、この数年で急速に進展し、哺乳類で複数の生物種のゲノム配列情報(ヒトゲノム(完成)(2.87 Gb)、マウスゲノム(ドラフト) (2.59 Gb)、ラットゲノム(ドラフト) (2.57 Gb)が利用可能になり、チンパンジー、イヌなども解読されつつあるので、これらのゲノムデータを好適に用いることができる。
続いて、ゲノム比較部714は、ゲノム配列情報記憶部708から生物種1のゲノム配列情報を取得し、ゲノム配列情報記憶部712から生物種2のゲノム配列情報を取得し、生物種1および生物種2のゲノム配列情報を互いに比較する(S406)。そして、ゲノム比較部714は、生物種1および生物種2のゲノム配列情報の比較結果を保存配列抽出部716に渡す。
保存配列抽出部716は、ゲノム比較部714から生物種1および生物種2のゲノム配列情報の比較結果を取得すると、この比較結果に基づいて、生物種1および生物種2のゲノム配列情報において保存されている配列を抽出し、生物種間で保存された配列を生物種間保存配列データ生成部718に渡す。
生物種間保存配列データ生成部718は、保存配列抽出部716から生物種間で保存された配列を取得すると、生物種間で保存された配列および解析対象である生物種のゲノム情報に基づいて、生物種間保存配列データを生成する(S408)。次いで、生物種間保存配列データ生成部718は、生成した生物種間保存配列データを生物種間保存配列データ記憶部720に格納する。
一方、既知・新規遺伝子発現調節配列候補データ取得部722は、外部から既知・新規遺伝子発現調節配列候補データを取得する(S410)。次いで、既知・新規遺伝子発現調節配列候補データ取得部722は、取得した既知・新規遺伝子発現調節配列候補データを既知・新規遺伝子発現調節配列候補データ記憶部724に格納する。
上述の一連のステップの後、遺伝子発現調節配列候補データ生成部726は、生物種間保存配列データ記憶部720から生物種間保存配列データを取得し、既知・新規遺伝子発現調節配列候補データ記憶部724から既知・新規遺伝子発現調節配列候補データを取得し、これらの情報に基づいて、生物種間で保存された遺伝子発現調節配列候補データを求める(S412)。
次いで、遺伝子発現調節配列候補データ生成部726は、生物種間で保存された遺伝子発現調節配列候補データを、解析対象である所定の生物種のゲノム情報に対応させることにより、遺伝子発現調節配列候補データを生成する(S414)。さらに、遺伝子発現調節配列候補データ生成部726は、生成した遺伝子発現調節配列候補データを遺伝子発現調節配列候補データ記憶部728に格納する。
そして、出力部730は、遺伝子発現調節配列候補データ記憶部728から遺伝子発現調節配列候補データを取得し、遺伝子発現調節配列データ生成装置106に出力し、遺伝子発現調節配列候補データ生成装置602の一連の動作が終了する。
図12は、図7の転写開始点・遺伝子候補配列データ生成装置604の構成を示した機能ブロック図である。転写開始点・遺伝子候補配列データ生成装置604は、解析対象の所定の生物種のゲノム配列情報および解析対象の所定の生物種のcDNAライブラリーの5’末端配列情報から転写開始点・遺伝子候補配列データを生成する機能を有する。
転写開始点・遺伝子候補配列データ生成装置604は、図7に示したように、外部のCD−ROMドライブ804および外部ネットワーク802と接続しており、これらから情報を取り込んで処理する。
転写開始点・遺伝子候補配列データ生成装置604は、解析対象の所定の生物種のゲノム配列情報を取得するゲノム配列情報取得部806を備える。ゲノム配列情報取得部806は、外部から取得したゲノム配列情報をゲノム配列情報記憶部808に格納する。
一方、転写開始点・遺伝子候補配列データ生成装置604は、解析対象の所定の生物種のcDNAライブラリーの5’末端配列情報を取得する5’末端配列情報取得部810を備える。5’末端配列情報取得部810は、外部から取得した5’末端配列情報を5’末端配列情報記憶部812に格納する。
転写開始点・遺伝子候補配列データ生成装置604は、転写開始点同定部814を備える。転写開始点同定部814は、ゲノム配列情報記憶部808からゲノム配列情報を取得し、5’末端配列情報記憶部812から5’末端配列情報を取得する。転写開始点同定部814は、取得したゲノム配列情報記憶部808および5’末端配列情報記憶部812に基づいて、解析対象の所定の生物種のゲノム情報上の転写開始点を同定する。転写開始点同定部814は、同定した転写開始点に関する情報を転写開始点・遺伝子候補配列データ生成部816に渡す。
転写開始点・遺伝子候補配列データ生成部816は、転写開始点同定部814から取得した同定した転写開始点に関する情報に基づいて、各々の5’末端配列に対応する転写開始点をその5’末端配列の下流に存在する遺伝子候補配列と関連づけることにより、転写開始点・遺伝子候補配列データを生成する。転写開始点・遺伝子候補配列データ生成部816は、生成した転写開始点・遺伝子候補配列データを転写開始点・遺伝子候補配列データ記憶部818に格納する。
転写開始点・遺伝子候補配列データ生成装置604は、出力部820を備える。出力部820は、転写開始点・遺伝子候補配列データ記憶部818から転写開始点・遺伝子候補配列データを取得し、遺伝子発現調節配列データ生成装置106に出力する。
図13は、実施の形態に係る生命情報解析システムにおける転写開始点・遺伝子候補配列データの生成について説明したフローチャートである。なお、このフローチャートは、図9のステップ304のサブルーチンに相当する。
転写開始点・遺伝子候補配列データ生成装置604では、一連の動作がスタートすると、まず、ゲノム配列情報取得部806が外部から解析対象の所定の生物種のゲノム配列情報を取得する(S502)。次いで、ゲノム配列情報取得部806は、取得したゲノム配列情報をゲノム配列情報記憶部808に格納する。
一方、5’末端配列情報取得部810では、外部からcDNAライブラリーの5’末端配列情報を取得する(S504)。次いで、5’末端配列情報取得部810は、取得した5’末端配列情報を5’末端配列情報記憶部812に格納する。
続いて、転写開始点同定部814は、ゲノム配列情報記憶部808からゲノム配列情報を取得し、5’末端配列情報記憶部812から5’末端配列情報を取得し、これらの情報に基づいて、解析対象の所定の生物種のゲノム配列情報における転写開始点を同定する(S506)。転写開始点同定部814は、同定した転写開始点に関する情報を転写開始点・遺伝子候補配列データ生成部816に渡す。
転写開始点・遺伝子候補配列データ生成部816は、転写開始点同定部814から取得した転写開始点に関する情報を解析対象の所定の生物種のゲノム配列情報に対応させて、転写開始点・遺伝子候補配列データを生成し(S508)、転写開始点・遺伝子候補配列データ記憶部818に格納する。
そして、出力部820は、転写開始点・遺伝子候補配列データ記憶部818から転写開始点・遺伝子候補配列データを取得し、遺伝子発現調節配列データ生成装置106に出力し、転写開始点・遺伝子候補配列データ生成装置604の一連の動作が終了する。
このようにして、転写開始点・遺伝子候補配列データ生成装置604は、解析対象の所定の生物種のゲノム配列情報内における複数の遺伝子候補配列と、解析対象の所定の生物種のゲノム配列情報内における複数のcDNA配列の5’末端配列と、に基づいて、解析対象の所定の生物種のゲノム配列情報内における複数の転写開始点を同定する。
より詳細には、転写開始点・遺伝子候補配列データ生成装置604は、複数のcDNA配列の各々において、5’末端配列の下流に位置する遺伝子候補配列を、その5’末端配列に関連づける。そして、転写開始点・遺伝子候補配列データ生成装置604は、その遺伝子候補配列を、その遺伝子候補配列に関連づけられている5’末端配列に対応する転写開始点に関連づけることにより、転写開始点・遺伝子候補配列データを生成する。
また、5’末端配列についても、近年ゲノムワイドなcDNAライブラリーの末端情報が利用可能になるため、遺伝子発現調節領域を決めるために、cDNAライブラリーの末端情報を用いて遺伝子の上流の転写開始点を決めることができる。
なお、cDNAライブラリーの5’末端配列情報としては、Human 約1,300,000クローン(NEDO/東大医科研 Oligo−Capping Method)が、コンソーシアムに参加している国内団体に対して利用可能である。なお、このコンソーシアムには、国内団体は参加を申請すれば、一定の料金を支払うことにより参加可能である。また、cDNAライブラリーの5’末端配列情報としては、他にもMouse 約550,000クローン(理研GSC CAP−trapper Method)などが一般に開示されている。
また、これらのcDNAライブラリーの5’末端配列情報を用いて、発明者らは、すでにヒト、マウス、ラットの遺伝子発現調節領域及び遺伝子発現調節配列候補について、ゲノム全体について探索しデータベースを構築している。
図14は、図7の遺伝子発現調節配列データ生成装置106の構成を示した機能ブロック図である。遺伝子発現調節配列データ生成装置106は、遺伝子発現調節配列データおよび転写開始点・遺伝子候補配列データから遺伝子発現調節配列データを生成する機能を有する。
遺伝子発現調節配列データ生成装置106は、遺伝子発現調節配列候補データ生成装置602から遺伝子発現調節配列候補データを取得する遺伝子発現調節配列候補データ取得部606を備える。遺伝子発現調節配列候補データ取得部606は、取得した遺伝子発現調節配列候補データを遺伝子発現調節配列候補データ記憶部608に格納する。
一方、遺伝子発現調節配列データ生成装置106は、転写開始点・遺伝子候補配列データ生成装置604から転写開始点・遺伝子候補配列データを取得する転写開始点・遺伝子候補配列データ取得部610を備える。転写開始点・遺伝子候補配列データ取得部610は、取得した転写開始点・遺伝子候補配列データを転写開始点・遺伝子候補配列データ記憶部612に格納する。
また、遺伝子発現調節配列データ生成装置106は、遺伝子発現調節配列候補・転写開始点関連付部614を備える。遺伝子発現調節配列候補・転写開始点関連付部614は、遺伝子発現調節配列候補データ記憶部608から遺伝子発現調節配列候補データを取得し、転写開始点・遺伝子候補配列データ記憶部612から転写開始点・遺伝子候補配列データを取得し、これらのデータに基づいて、各々の転写開始点から所定の距離内の上流に存在する遺伝子発現調節配列候補をその転写開始点に関連づけたデータを生成する。
このとき、各々の転写開始点および遺伝子発現調節配列候補の間の距離に応じた寄与度により関連づけを行うことができる。遺伝子発現調節配列候補・転写開始点関連付部614は、生成した遺伝子発現調節配列候補・転写開始点を関連づけたデータを遺伝子発現調節配列データ生成部616に渡す。
遺伝子発現調節配列データ生成装置106は、遺伝子発現調節配列データ生成部616を備える。遺伝子発現調節配列データ生成部616は、遺伝子発現調節配列候補・転写開始点関連付部614から取得した遺伝子発現調節配列候補・転写開始点を関連づけたデータに基づいて、各々の転写開始点に関連づけられた遺伝子発現調節配列候補を、その転写開始点に関連づけられた遺伝子と関連づけたデータである遺伝子発現調節配列データを生成する。遺伝子発現調節配列データ生成部616は、生成した遺伝子発現調節配列データを遺伝子発現調節配列データ記憶部618に格納する。
遺伝子発現調節配列データ生成装置106は、出力部620を備える。出力部620は、遺伝子発現調節配列データ記憶部618から遺伝子発現調節配列データを取得し、外部ネットワーク110を介して生命情報解析装置100に出力する。
図15は、遺伝子発現調節配列データの寄与度の設定について説明するための概念図である。この設定では、ある遺伝子発現調節配列(候補)について、その配列に関連性を持つ遺伝子の数は幾つあるかについて設定する。
このとき、遺伝子の上流の転写開始点の周辺のどれくらいの距離まで検索するかによって、その遺伝子発現調節配列を持つ遺伝子の数は異なる。すなわち、遺伝子発現調節配列を持つ遺伝子の数を幾つにして評価するかによって、解析結果が変わってしまう。
より詳細には、遺伝子発現調節配列候補によって、転写開始点の周辺のどれくらいの距離まで検索する必要があるかは異なる。すなわち、検索が必要な距離が短い遺伝子発現調節配列候補はゲノム上に多く存在するし、検索が必要な距離が長い遺伝子発現調節配列候補はゲノム上に少しだけ存在するため、それぞれの遺伝子発現調節配列候補によって、遺伝子の上流の転写開始点からどれくらいの距離までを評価対象にするか決めなければいけない。
本実施の形態では、遺伝子発現調節配列に関連付ける遺伝子数を、例えば1〜500個の範囲内で変化させ、それぞれの個数の場合でランダムデータと比較して有意性を求め、もっとも有意性が高い遺伝子の個数を設定してもよい。あるいは、単純に遺伝子の上流の転写開始点の周辺のどれくらいの距離まで検索するかを設定してもよい。
あるいは、cDNAクローンの配列情報を入手できる場合には、複数の5’末端配列に対応する複数の転写開始点の各々を、複数のcDNA配列の各々において、5’末端配列の下流に位置する前記遺伝子候補配列に関連づけられる構成としてもよい。
図16は、遺伝子発現調節配列データ生成装置106による遺伝子発現調節配列データの生成について説明したフローチャートである。このフローチャートは、図9のステップ306のサブルーチンに相当する。
遺伝子発現調節配列データ生成装置106では、一連の動作がスタートすると、まず、遺伝子発現調節配列候補データ取得部606が、サーバ602から遺伝子発現調節配列候補データを取得する(S602)。次いで、遺伝子発現調節配列候補データ取得部606は、取得した遺伝子発現調節配列候補データを遺伝子発現調節配列候補データ記憶部608に格納する。
一方、転写開始点・遺伝子候補配列データ取得部610は、転写開始点・遺伝子候補配列データ生成装置604から転写開始点・遺伝子候補配列データを取得する(S604)。次いで、転写開始点・遺伝子候補配列データ取得部610は、取得した転写開始点・遺伝子候補配列データを転写開始点・遺伝子候補配列データ記憶部612に格納する。
次いで、遺伝子発現調節配列候補・転写開始点関連付部614は、遺伝子発現調節配列候補データ記憶部608から遺伝子発現調節配列候補データを取得し、転写開始点・遺伝子候補配列データ記憶部612から転写開始点・遺伝子候補配列データを取得し、これらのデータに基づいて、遺伝子発現調節配列と転写開始点との間の距離に応じた寄与度により遺伝子発現調節配列と転写開始点との関連付けを行う(S606)。そして、遺伝子発現調節配列候補・転写開始点関連付部614は、遺伝子発現調節配列と転写開始点との関連付けを行ったデータを遺伝子発現調節配列データ生成部616に渡す。
続いて、遺伝子発現調節配列データ生成部616は、遺伝子発現調節配列候補・転写開始点関連付部614から取得した遺伝子発現調節配列と転写開始点との間で遺伝子発現調節配列と転写開始点との間の距離に応じた寄与度により関連付けを行ったデータに基づいて、遺伝子発現調節配列データを生成する(S608)。そして、遺伝子発現調節配列データ生成部616は、生成した遺伝子発現調節配列データを遺伝子発現調節配列データ記憶部618に格納する。
そして、出力部620は、遺伝子発現調節配列データ記憶部618から取得した遺伝子発現調節配列データを、外部ネットワーク110を介して、生命情報解析装置100の遺伝子発現調節配列データ取得部134に出力し、遺伝子発現調節配列データ生成装置106の一連の動作が終了する。
以上、遺伝子発現調節配列データの生成処理について説明した。このデータは、既に説明したように、生命情報解析装置100での解析の基礎データとして生命情報解析装置100に入力されることになる。
本実施形態では、このように、遺伝子発現調節配列データは、所定の生物種のゲノム配列情報内における複数の遺伝子と、ゲノム配列情報内における遺伝子発現調節配列と、ゲノム配列情報内における複数の遺伝子にそれぞれ関連づけられている複数の転写開始点と、に基づいて得ることができる。
より詳細には、遺伝子発現調節配列データは、ゲノム配列情報内において、遺伝子に関連づけられている転写開始点の上流のうち転写開始点から所定の距離内または所定の順番内に位置する遺伝子発現調節配列を、遺伝子に対して所定の寄与度により関連づけることにより得ることができる。
このとき、遺伝子発現調節配列は、遺伝子に対して、転写開始点および遺伝子発現調節配列の間の距離または遺伝子発現調節配列の個数に応じた寄与度により関連づけることができる。
例えば、所定の第一の距離内であれば寄与度を2とし、さらに所定の第一の距離を超えるが所定の第二の距離内であれば寄与度を1とし、さらに所定の第二の距離を超える場合には寄与度を0とすることができる。あるいは、10個目までは寄与度を2とし、50個目までは寄与度を1とし、100個を超えると寄与度を0とすることができる。
以下、本実施の形態における遺伝子発現調節配列データの生成処理に関連した利点について説明する。
本実施の形態では、解析対象の所定の生物種のゲノム上の生物種間保存配列情報のデータベース化を行っている。すなわち、生命情報解析装置100では、複数の脊椎動物生物種を含む任意の生物種のゲノム配列の比較解析を行うことで、生物種間で保存されたゲノム配列を同定しデータベース化を行っている。遺伝子発現調節配列のように、生物の機能に重要なゲノム配列は、生物種間で保存されていることが期待できるため、本データベースを構築し、生物間で保存されたゲノム配列情報について遺伝子発現調節配列の探索を行うことで、高等真核生物を含む任意の生物種の広範な遺伝子発現調節配列の探索空間を狭めることが可能になっている。
また、本実施の形態では、転写開始点・遺伝子候補配列データ生成部において、脊椎動物を含む任意の生物におけるcDNAライブラリーの5’末端配列情報を用いることで、包括的な転写開始点を同定しデータベース化を行っている。そのため、このデータベースを構築し、脊椎動物を含む任意の生物における遺伝子の上流の包括的な転写開始点情報を利用することにより、従来技術では困難であった、脊椎動物を含む任意の生物におけるゲノムDNAからのRNAの転写開始点近傍における遺伝子発現調節配列の探索が容易になった。
また、本実施の形態では、遺伝子発現調節配列候補と転写開始点との間の距離に対応した寄与度により、遺伝子発現調節配列候補と転写開始点の下流の遺伝子との間の寄与度を設定するため、遺伝子発現調節配列候補によって、転写開始点の周辺のどれくらいの距離まで検索するかを任意に設定できる。すなわち、それぞれの遺伝子発現調節配列候補の探索条件に応じて、遺伝子の上流の転写開始点からどれくらいの距離までを評価対象にするか決めることができる。よって、遺伝子候補配列に対応する遺伝子発現調節配列候補の探索の効率を向上することができる。
<3.遺伝子・生命現象データの生成>
次に、遺伝子・生命現象データの生成のための構成について説明する。遺伝子・生命現象データは、上述の遺伝子発現調節配列データと同様、生命情報解析装置100に入力されて、生命情報解析装置100での解析の基礎データになる。
図17は、マイクロアレイ分析装置およびスキャナの構成を示した機能ブロック図である。マイクロアレイ分析装置112およびスキャナ114は、マイクロアレイを分析して、遺伝子・生命現象データを生成する機能を有する。
上述の生命情報解析装置100で処理される遺伝子・生命現象データは、遺伝子候補配列の発現強度に関するデータである。より詳細には、上述の生命情報解析装置100で処理される遺伝子・生命現象データは、下記のようにしてマイクロアレイの各セルを検出して得られるデータである。
マイクロアレイ分析装置112は、サンプルDNAがスポットされたスライドアレイを設置するスライドアレイ設置部902を備える。また、マイクロアレイ分析装置112は、生体試料からサンプリングされ、標識プローブされたサンプルRNAを、スライドアレイ中にアプライする標識プローブアプライ部904を備える。
さらに、マイクロアレイ分析装置112は、スライドアレイ中にスポットされたサンプルDNAと、スライドアレイ中にアプライされた標識プローブ済みのサンプルRNAとをハイブリダイゼーションさせるハイブリダイゼーション部906を備える。そして、マイクロアレイ分析装置112は、ハイブリダイゼーションされた標識プローブ済みのRNAを蛍光発光処理する蛍光発光処理部908を備える。
また、スキャナ114は、蛍光発光処理部908により発光処理されたスライドアレイを蛍光スキャンする蛍光スキャン部910を備える。さらに、スキャナ114は、蛍光スキャン部910により取得された蛍光スキャンデータを解析してサンプルRNAの発現データを生成するスキャンデータ解析部912を備える。
さらに、スキャナ114は、スキャンデータ解析部912により生成されたサンプルRNAの発現データを取得して、遺伝子のmRNAの発現強度をデータ要素とする遺伝子・生命現象データを生成する遺伝子・生命現象データ生成部914を備える。遺伝子・生命現象データ生成部914は、生成した遺伝子・生命現象データを生命情報解析装置100に出力する。
なお、遺伝子・生命現象データを生成する遺伝子・生命現象データ生成部914には、後述する正規化部915が接続していてもよい。この場合、生成した遺伝子・生命現象データにばらつきがある場合には、正規化部915を用いてデータの正規化を行うことにより生命情報解析システム1000の解析精度を向上できる。
このようにして、マイクロアレイ分析装置112およびスキャナ114は、マイクロアレイを分析して、遺伝子・生命現象データを生成する。すなわち、遺伝子・生命現象データは、マイクロアレイを検出して得られるデータである。遺伝子・生命現象データは、複数の遺伝子と複数の生命現象との各組合せの寄与度のデータであり、寄与度は遺伝子のmRNAの発現量から生成される値である。
このとき、遺伝子・生命現象データは第二の行列データとして生成される。また、この第二の行列データにおいて、遺伝子(遺伝子候補配列)と生命現象との組合せの寄与度は、遺伝子(遺伝子候補配列)の発現強度から生成される値である。より詳細には、遺伝子(遺伝子候補配列)と生命現象との組合せの寄与度は、遺伝子(遺伝子候補配列)のmRNA発現量から生成される値である。
図18は、遺伝子・生命現象データを説明するためのデータ構造図である。ここでは、明暗条件と恒暗条件の二つの条件でサンプルを取得している。なお、それぞれの条件で、4時間毎で2日、計12点でサンプリングしている。
また、データの信頼性の向上のために、2つの組織(肝臓、視交叉上核)由来のサンプルについて、2種類のDNA chip(Affymetrix社M430、MG−U74)の計4種類の遺伝子発現データについて検討している。
より詳細には、既知の遺伝子発現調節配列及び4〜8塩基のランダムな約44,000種類の配列について、体内時計との関連性(時間依存的に遺伝子の発現が振動する)を解析している。
用いるデータは、一つの組織/DNA chipの種類について、2つの条件で各12点の遺伝子発現データ(遺伝子数2〜4万)を使用し、2つの組織、2つのDNA chipについてのデータを使用し、各遺伝子について、計192点の遺伝子発現データを使用する。
上述のように、例えば、マイクロアレイ分析装置112が、生体試料から所定の間隔の時刻にサンプルRNAをサンプリングすれば、RNA発現量の時系列データを取得することができる。このとき、上述の生命現象は、時系列に関する生命現象であることになる。
また、例えば、マイクロアレイ分析装置112が、異なる疾患を有する生体試料(または所定の疾患を有する生体試料および健康な生体試料)からサンプルRNAをサンプリングすれば、疾患ごとのRNA発現量(または所定の疾患の場合および健康な場合のRNA発現量)を示すデータを取得することができる。このとき、上述の生命現象は、疾患に関する生命現象であることになる。
また、例えば、マイクロアレイ分析装置112が、異なる組織における生体試料からサンプルRNAをサンプリングすれば、組織ごとのRNA発現量を示すデータを取得することができる。このとき、上述の生命現象は、組織に関する生命現象であることになる。
なお、DNAチップまたはマイクロアレイなどにより、全遺伝子発現の網羅的解析を行うことにより、例えば約1cm2で40,000以上の多数の遺伝子を解析可能である。このようなDNAチップを用いる技術は、近年、急速に普及しており、DNAチップに固定されているDNAプローブと、蛍光ラベルされたサンプルと、をハイブリダイゼーション(蛍光ラベルされたサンプル+DNAプローブ)して、スキャンすることによりDNAチップ解析の画像データが得られる。このDNAチップ解析の画像データを解析すれば、各々のサンプルRNAの発現強度を定量化できる。
図19は、図17のマイクロアレイ分析装置およびスキャナによる遺伝子・生命現象データの生成について説明したフローチャートである。
この場合、一連のフローがスタートすると、まず、マイクロアレイ分析装置112では、スライドアレイ設置部902にスライドアレイが設置される(S702)。次いで、標識プローブアプライ部904に蛍光タンパク質などで標識プローブされたサンプルがアプライされる(S704)。続いて、スライドアレイと標識プローブとのハイブリダイゼーションがハイブリダイゼーション部906で行われる(S706)。さらに、蛍光発色処理部908において、ハイブリダイゼーションされたスライドアレイが蛍光発色される(S708)。
次いで、スキャナ114では、蛍光スキャン部910において蛍光発色したスライドアレイが蛍光によるスキャニングされる(S710)。続いて、スキャンデータ解析部912において蛍光スキャンされたスキャンデータが解析される(S712)。そして、遺伝子・生命現象データ生成部914においてスキャンデータから遺伝子・生命現象データが生成される(S714)。さらに、必要に応じて、遺伝子・生命現象データには、後述する正規化の処理が行われる(S716)。
このようにして、生命情報解析システム1000は、マイクロアレイの遺伝子発現データを分析するためのマイクロアレイ分析装置112およびスキャナ114を備えるため、マイクロアレイから所定の生命現象の変化に対応する遺伝子の発現量の変動データを読み取って、遺伝子・生命現象データを生成することができる。
<4.有意性の判定>
次に、図1の生命情報解析装置における有意性判定機能103に関する構成を説明する。有意性判定としては、下記の3つについて説明する。
(A)体内時計依存的な遺伝遺伝子発現調節配列の予測
(B)癌遺伝子の制御機構解明
(C)組織ごとの遺伝子制御の違いの解明
(A)体内時計依存的な遺伝子発現調節配列の予測
図20は、図1に示した生命情報解析装置100における有意性判定機能103に関する構成を示している。有意性判定機能103は、有意性判定部148を備える。有意性判定部148は、図2に示した遺伝子発現調節配列・生命現象データ記憶部144から遺伝子発現調節配列・生命現象データを取得する。有意性判定部148は、取得した遺伝子発現調節配列・生命現象データに含まれる遺伝子発現調節配列および生命現象の各々の組合せの間に有意の関連性があるか判定して、有意性判定結果を生成する。
より詳細には、有意性判定部148は、遺伝子発現調節配列・生命現象データ記憶部144から遺伝子発現調節配列・生命現象データである第三の行列データ(図2(c))を取得する。有意性判定部148は、取得した第三の行列データに含まれる遺伝子発現調節配列および生命現象の各々の組合せの間に有意の関連性があるか判定して、有意性判定結果を生成する。
また、有意性判定機能103は、有意性判定結果記憶部146を備え、有意性判定結果を生成すると、有意性判定結果記憶部146に該当データを格納する。なお、一般に有意性判定結果は、テーブル(行列)の形式で生成・格納される。
有意性判定機能103は、出力部150を備える。出力部150は、有意性判定結果記憶部146から有意性判定結果を取得する。出力部150は、有意性判定結果を外部に出力する。なお、一般に解析結果は、出力先の構成に応じてテーブル(行列)または画像データなどの任意の形式で生成・出力される。
次に、有意性判定部148の各構成を説明する。有意性判定部148は、遺伝子発現調節配列・生命現象データ記憶部144から第三の行列データ(遺伝子発現調節配列・生命現象データ)を取得する遺伝子発現調節配列・生命現象データ受付部402を備える。遺伝子発現調節配列・生命現象データ受付部402は、遺伝子発現調節配列・生命現象データを受け付けると、正規化部406およびランダムデータ生成部414に渡す。
遺伝子発現調節配列・生命現象データを取得した正規化部406は、後述する正規化プロトコルにより、遺伝子発現調節配列・生命現象データを正規化し、正規化データ記憶部408に格納する。
コサイン・フィッティングスコア計算部410は、正規化データ記憶部408から正規化データを取得し、あらかじめ用意してあるコサインカーブとの間でフィッティングを行い、コサイン・フィッティングスコア(correlation:相関係数)を算出し、コサイン・フィッティングスコア記憶部412に格納する。
ランダムデータ生成部414は、詳しくは後述するが、遺伝子発現調節配列・生命現象データ記憶部144から第三の行列データ(遺伝子発現調節配列・生命現象データ)内の一部のデータをランダムに取得する。ランダムデータ生成部414は、遺伝子発現調節配列・生命現象データ記憶部144からランダムに取得した第三の行列データの一部(ランダムデータ)を、ランダムデータ記憶部416に渡す。
ランダムデータスコア計算部418は、ランダムデータ記憶部416からランダムデータを取得し、正規化部406により受け付けられた遺伝子発現調節配列・生命現象データに施される処理と同様の処理をランダムデータに施すことにより、ランダムデータスコアを計算する。すなわち、この場合、同様の条件により正規化およびコサイン・フィッティングを行う。ランダムデータスコア計算部418は、計算して得たランダムデータスコアをランダムデータスコア記憶部420に格納する。
比較・判定部422は、コサイン・フィッティングスコア記憶部412からコサイン・フィッティングスコアを取得し、ランダムデータスコア記憶部420からランダムデータを取得し、取得した両データを比較して、両者の間に有意な結果(有意な違い)が得られるか否か判定し、得られた有意性判定結果を出力部424に渡す。出力部424は、取得した有意性判定結果を有意性判定結果記憶部146に格納する。
図21は、有意性判定部148におけるデータ処理の全体の流れを説明するためのデータ構造図である。この場合のデータの処理方法としては、まず、ある転写調節候補配列を持っている遺伝子について、その転写調節候補配列に対応する遺伝子それぞれの遺伝子発現の値の和をとる。
次いで、求めた遺伝子発現の和についてスコア付けし、ランダムデータでのスコアの分布から有意性を求める(偶然に起こり得る確率を求める)。そして、対象となる全ての転写調節候補配列について計算を行い、有意性が所定の閾値以上である(偶然起こる確率が低い)転写調節候補配列を、予測した転写調節候補配列として出力する。
図22は、有意性判定部148におけるデータのコサイン・フィッティングなどによるスコア付けについて説明するためのグラフである。この場合、最終的なデータのスコア付けの方法は、そのデータの種類(生命現象)により異なるようにする。また、後述するように、他の実施の形態の場合のように2つの組織の比較の場合は、単純に発現強度で評価するが、本実施の形態のように体内時計の場合はcosine fittingと標準偏差により評価する。
さらに、スコアについて、ランダムデータでのスコアと比較することで有意性を評価することとした。そして、体内時計の場合、遺伝子発現調節配列を持つ遺伝子群の発現が周期的に変動していることをcosine fittingで検出し、遺伝子群を構成する各遺伝子が同様の変動パターンを持っていることを標準偏差で検出することとした。
なお、Cosine fittingを行うには、時間をずらして生成したcosineカーブとのcorrelation(相関係数)を計算し、もっとも高いcorrelationをスコアとして用いる。そのため、遺伝子群が同様の発現変動パターンを持っている場合には、遺伝子群を合計した値の標準偏差は大きくなる。
図23は、有意性判定部148におけるランダムデータの生成について説明するためのデータ構造図およびグラフである。この場合、有意性の評価のために、図に示すようにして遺伝子をランダムに組み合わせたデータを生成し、そのランダムデータとの比較で有意性を評価した。
より詳細には、ある遺伝子発現調節配列を持つ遺伝子がn個存在する場合、ランダムなn個の遺伝子の組み合わせのデータと比較を行った。そして、ランダムなn個の遺伝子の組み合わせについて100,000回行いランダムデータを作成した。あるいは、組み合わせる遺伝子数(n)が1〜500個の場合について、それぞれランダムデータを作成した。
すなわち、解析対象のデータ(数万の遺伝子のデータ)からランダムにn個の遺伝子を選択し、各遺伝子の発現の値の和をとった。さらにデータのスコア付けを行い、体内時計の場合は、cosine fittingと各時間間の標準偏差でそれぞれスコア付けをした。
このとき、このランダムデータの生成を100,000回行い、100,000のデータのスコアの分布を決定した。また、対象になる実データがランダムデータ中のどの位置になるかで、偶然に起こり得る確率を求めて、有意性を評価することとした。
図24は、有意性判定部148における判定結果について説明するためのデータ構造図である。この場合、有意性の判定方法としては、Cosineカーブとのcorrelation及び標準偏差を求め、ランダムデータと比較することにより、体内時計依存的な遺伝子発現を制御している配列を予測した。
その結果、既知の体内時計依存的な遺伝子発現調節配列候補を上位に検出できた。また、新規の遺伝子発現調節配列候補を予測できた。そのため、この方法によれば、体内時計の制御機構を明らかにすることで、体内時計に異常がある疾患の治療薬開発のシーズに役立てることができると想定される。
図25は、有意性判定部148の動作を説明するためのフローチャートである。なお、このフローチャートは、図2のステップ110のサブルーチンに相当する。
有意性判定部148では、一連の動作がスタートすると、まず、遺伝子発現調節配列・生命現象データ受付部402が、遺伝子発現調節配列・生命現象データ記憶部144から遺伝子発現調節配列・生命現象データ(第三の行列データ)を取得する。そして、遺伝子発現調節配列・生命現象データ受付部402は、取得した遺伝子発現調節配列・生命現象データを正規化部406に渡す。
そして、正規化部406は、遺伝子発現調節配列・生命現象データを取得すると、遺伝子発現調節配列・生命現象データの正規化を行う(S504)。次いで、正規化部406は、正規化を行った遺伝子発現調節配列・生命現象データを正規化データ記憶部408に格納する。
続いて、コサイン・フィッティングスコア計算部410は、正規化データ記憶部408から正規化を行った遺伝子発現調節配列・生命現象データを取得し、遺伝子発現調節配列・生命現象データをコサイン関数にフィッティングして、コサイン・フィッティングスコアを計算する(S508)。そして、コサイン・フィッティングスコア計算部410は、計算して得たコサイン・フィッティングスコアをコサイン・フィッティングスコア記憶部412に格納する。
一方、ランダムデータ生成部414は、遺伝子発現調節配列・生命現象データ記憶部144から遺伝子発現調節配列・生命現象データに含まれる一部のデータを上述のプロトコルによりランダムに抽出して、ランダムデータを抽出する(S510)。次に、ランダムデータ生成部414は、抽出したランダムデータをランダムデータ記憶部416に格納する。
続いて、ランダムデータスコア計算部418は、ランダムデータ記憶部416からランダムデータを取得し、上述するプロトコルにより、遺伝子発現調節配列・生命現象データに対して行われた処理と同様の処理を行うことにより、ランダムデータスコアを計算する(S512)。次に、ランダムデータスコア計算部418は、計算して得たランダムデータスコアをランダムデータスコア記憶部420に格納する。
そして、比較・判定部422は、コサイン・フィッティングスコア記憶部412から遺伝子発現調節配列・生命現象データ由来の情報を取得し、ランダムデータスコア記憶部420からランダムデータスコアを取得し、遺伝子発現調節配列・生命現象データ由来の情報をランダムデータスコアと比較する(S514)。次に、比較・判定部422は、比較の結果、遺伝子発現調節配列・生命現象データ由来の情報の各々が、対応するランダムデータスコアに対して有意な値を有する情報であるか否かを判定する(S516)。
より詳細には、比較・判定部422は、有意な結果があれば、その遺伝子発現調節配列・生命現象データ由来の情報に対応する遺伝子発現調節配列候補は、実際に遺伝子発現調節配列であると予測する(S518)。一方、比較・判定部422は、有意な結果がなければ、その遺伝子発現調節配列・生命現象データ由来の情報に対応する遺伝子発現調節配列候補は、実際には遺伝子発現調節配列ではないと予測する(S520)。
そして、比較・判定部422は、上述の判定結果を有意性判定結果記憶部146に格納し、有意性判定部148の一連の動作が終了する。
以下、本実施の形態における有意性判定部148の利点を説明する。
上述の基本的なデータ処理の流れとしては、まず、遺伝子発現調節配列に関連付ける遺伝子数の決定方法に工夫した。さらに、有意性が最も高くなる遺伝子数の決定データのスコア付けをする際に、どのような生命現象かによってスコア付け方法は異なるようにしている。このとき、複数のデータ、複数のスコア付けが存在する場合の合成方法として、データが複数ある場合、複数のデータを合成することで予測結果の信頼性を高めることを可能する。また、有意性の評価の際には、ランダムデータを用いた有意性の評価を行う。
さらに、生命情報解析装置100では、有意性判定機能103にて、複数のデータ、複数のスコア付けが存在する場合の合成方法としては、同様の生命現象を扱った複数のデータが存在する場合と、一つのデータに対して複数のスコア付けが存在する場合とを行うことができるようにしている。そして、体内時計の場合、cosine fittingでのスコア付けと、標準偏差でのスコア付けが可能なようにしている。
そのため、複数のデータ、複数のスコア、それぞれについてランダムデータを作成し、ランダムデータでのスコアの分布を決定することになる。すなわち、実際の遺伝子発現調節配列についてのスコアをランダムデータと比較することで有意性(偶然にそのスコアが生じる確率)を求めることとなる。その結果、生命情報解析装置100では、両面からのアプローチにより、精度の高い有意性判定が可能である。
その結果、生命情報解析システム1000は、ゲノムワイドな遺伝子発現データ遺伝子発現調節配列候補データと組み合わせれば、医学・生物学研究者および製薬企業にとって、疾病の病因機構の解明および創薬のシーズの創出へ役立つ技術となると考えられる。より詳細には、Enhancer、Element、Promoterなどの遺伝子発現調節配列と、発生、分化、再生、体内時計、細胞周期、ガン化などの生命現象との間の関係を予測する役に立つと思われる。
<データの正規化>
以下、上述の説明では簡略化して説明した正規化処理について詳しく説明する。
図26は、図2(b)の正規化部211の内部構成を詳細に示した機能ブロック図である。なお、ここでは、説明の便宜上、正規化部211の場合について説明する。他の正規化部406、915(図20、図17)についても、構成、動作、作用効果などはいずれも正規化部211の場合と同様である。
正規化部211は、外部から取得したデータのうち、後述する明暗条件で得られた時系列データを取得する時系列データ受付部502を備える。時系列データ受付部502は、外部から取得した明暗条件で得られた時系列データを各時間での平均値正規化部504に渡す。
平均値正規化部504は、時系列データ受付部502から取得した明暗条件で得られた時系列データを各時間での平均値が同じになるように正規化する。平均値正規化部504は、各時間での平均値を正規化したデータを各遺伝子での平均値・標準偏差正規化部506に渡す。
各遺伝子での平均値・標準偏差正規化部506は、各時間での平均値正規化部504から取得した各時間での平均値を正規化したデータを、各遺伝子で平均値が0、標準偏差が1になるように正規化する。各遺伝子での平均値・標準偏差正規化部506は、各遺伝子での平均値・標準偏差を正規化したデータを重み付け調整・合成部514に渡す。
一方、正規化部211は、外部から取得したデータのうち、後述する恒暗条件で得られた時系列データを取得する時系列データ受付部508を備える。時系列データ受付部508は、外部から取得した恒暗条件で得られた時系列データを各時間での平均値正規化部510に渡す。
平均値正規化部510は、時系列データ受付部508から取得した明暗条件で得られた時系列データを各時間での平均値が同じになるように正規化する。平均値正規化部510は、各時間での平均値を正規化したデータを各遺伝子での平均値・標準偏差正規化部512に渡す。
各遺伝子での平均値・標準偏差正規化部512は、各時間での平均値正規化部510から取得した各時間での平均値を正規化したデータを、各遺伝子で平均値が0、標準偏差が1になるように正規化する。各遺伝子での平均値・標準偏差正規化部512は、各遺伝子での平均値・標準偏差を正規化したデータを重み付け調整・合成部514に渡す。
重み付け調整・合成部514は、各遺伝子での平均値・標準偏差正規化部506から取得した平均値・標準偏差が正規化されたデータ(明暗条件の値)と各遺伝子での平均値・標準偏差正規化部512から取得した平均値・標準偏差が正規化されたデータ(恒暗条件の値)とを後述するAnovaの値により重み付けし、重み付けされた明暗条件の値と恒暗条件の値とを合成する。
重み付け調整・合成部514は、合成された値を各時間での平均値・標準偏差正規化部516に渡す。平均値・標準偏差正規化部516は、各時間での平均値・標準偏差を正規化したデータを出力部518に渡す。そして、出力部518は、各時間での平均値・標準偏差を正規化したデータを外部に出力する。
図27は、正規化部211による正規化の全体の流れについて説明するための概念図である。この場合、まず、時間毎での正規化1を行う。このとき、各時間での発現の平均値が同じになるように正規化する。
次いで、各遺伝子について、平均値、標準偏差で正規化する。なぜなら、振幅や発現の強さよりも、発現変化の波形を重視するためである。
続いて、Anovaを用いて、明暗条件と恒暗条件での発現の変化が似ているかどうかで、再現性が有るデータか推定する。このとき、Anovaの結果で重み付けし、より信頼性が高いデータの比重を高くする。
さらに、時間毎での正規化2を行う。このとき、各時間での平均値、標準偏差が同じになるように正規化する。
図28は、正規化部211に入力される正規化前のデータについて説明するためのデータ構造図である。この場合、数万の遺伝子の各遺伝子についての明暗条件、恒暗条件それぞれに関して、4時間毎、12点の遺伝子発現データを元データとして用いる。
より詳細には、元データとして、明暗条件(12時間明、12時間暗)で飼育したマウスについて、a.明暗条件のまま、b.恒暗条件に移し、の2つの条件で4時間毎に12点(0〜44時間)でマウスの組織を取り出し、細胞内の遺伝子の発現をDNA chipで測定したデータを用いる。
図29は、図28で入力されたデータの時間ごとの平均値の正規化の様子について説明するためのデータ構造図である。まず、図28で処理したサンプルを、それぞれ平均値が1000になるように正規化する。
より詳細には、各時間について、解析対象となる全ての遺伝子の発現の値の平均値を1000にそろえる。DNAチップは、時間ごとにデータが読み取られているため、この処理でそれぞれの時間でのデータのムラをなくすようにするためである。
図30は、図29で処理されたデータの遺伝子ごとの平均値および標準偏差の正規化の様子について説明するためのデータ構造図である。この場合、図29で処理したサンプルを、明暗条件/恒暗条件の各条件で、各遺伝子について、それぞれ12点での平均値と標準偏差を求め、発現データから平均値を引き、標準偏差で割ることにより、平均値が0、標準偏差が1になるように正規化する。
図31は、図30で処理されたデータの変化の様子について説明するためのグラフである。ここでは、図30までで説明した正規化のアルゴリズムを行うことにより、平均値、標準偏差をそろえ、明暗条件と恒暗条件を併合し、Anovaの値で重み付けすることにより、各遺伝子について遺伝子の発現の値の大小ではなく、発現変化の波形で評価可能になる。
この際、明暗条件と恒案条件で発現変化が再現されている遺伝子について、重み付けて評価(どちらかの条件で変化しているものを除外)することにより、発現変化の波形による評価の精度を向上することができる。
図32は、Anovaの計算について説明するためのデータ構造図である。
ここでは、図30までで処理されたデータについて、Anovaを計算する。より詳細には、各遺伝子の明暗条件、恒暗条件のデータについて、Anova(分散分析)を行い、F−value,p−value(確率),−log(p−value)を求める。
その結果、明暗条件と恒暗条件で同様の発現変化が起こっているものは低いp−valueとなる。また、P−valueが高いもの(約1)については、明暗条件と恒暗条件での発現の変化が異なっており、ノイズを多く含んでいると想定できる(発現データの信頼性が高い遺伝子では、明暗条件と恒暗条件で同様に発現が変化すると仮定)。
図33は、図32までで処理されたデータの重み付け・合成について説明するためのデータ構造図である。ここでは、図32までで処理されたデータについて、各遺伝子毎に明暗条件と恒暗条件の平均値を求める。そして、遺伝子ごとに−log(Anova p−value)の値で重み付けを行う。
より詳細には、各遺伝子について明暗条件と恒暗条件のデータの平均値を求めることで、データをマージする。そして、求めた明暗条件と恒暗条件の平均値について、−log(Anova p−value)を掛け合わせることで、Anovaのp−valueが低いもの(明暗条件と恒暗条件で同様の変化をするもの)の寄与が大きくなるように重み付けする。
図34は、図33の処理における重み付けの方法について説明するためのグラフである。この図に示すように、Anovaの値に応じて重み付けをすると、明暗条件と恒暗条件とで下側の曲線の遺伝子は、二つの条件での変化のタイミングがずれているので、低めに重み付けられる。
そのため、図33までの正規化のアルゴリズムの処理で、平均値、標準偏差をそろえ、明暗条件と恒暗条件とを併合し、Anovaの値で重み付けをすることにで、各遺伝子について、遺伝子の発現の値の大小ではなく、発現変化の波形で評価可能になる。また、明暗条件と恒暗条件とで再現されている遺伝子について、重み付けて評価(どちらかの条件で変化しているものを除外)することにより、さらに生命情報解析システムの精度を向上できる。
図35は、図34までで処理されたデータの時間ごとの平均値および標準偏差の正規化の様子について説明するためのデータ構造図である。ここでは、図34までの処理を経たデータを、さらに平均値が0、標準偏差が1になるように正規化する。
その際、各時間について、全ての遺伝子の発現データの平均値と標準偏差を求め、発現データから平均値を引き標準偏差で割ることにより、平均値が0、標準偏差が1になるように正規化し、各時間間のばらつきを補正する。
図36は、正規化部211による正規化の様子について説明するためのフローチャートであり、上述の一連のフローをまとめ手示している。まず、時系列データ受付部502が、外部から明暗条件での時系列データを受け付け(S602)、各時間での平均値正規化部504に渡す。
次いで、各時間での平均値正規化部504は、時系列データの各時間での平均値を正規化し(S604)、各遺伝子での平均値・標準偏差正規化部506に渡す。続いて、各遺伝子での平均値・標準偏差正規化部506は、時系列データの各遺伝子での平均値・標準偏差を正規化し(S606)、重み付け調整・合成部514に渡す。
一方、時系列データ受付部508は、外部から恒暗条件での時系列データを受け付け(S608)、各時間での平均値正規化部504に渡す。次いで、各時間での平均値正規化部510は、時系列データの各時間での平均値を正規化し(S610)、各遺伝子での平均値・標準偏差正規化部512に渡す。
続いて、各遺伝子での平均値・標準偏差正規化部512は、時系列データの各遺伝子での平均値・標準偏差を正規化し(S612)、重み付け調整・合成部514に渡す。
重み付け調整・合成部514は、こうして得た明暗条件および恒暗条件の時系列データについて、それぞれAnovaを計算する(S614)。そして、重み付け調整・合成部514は、明暗条件および恒暗条件の時系列データについて、Anovaの値に応じて重み付け調整を行う(S616)。さらに、重み付け調整・合成部514は、重み付けされた明暗条件および恒暗条件の時系列データを合成して合成時系列データを得る(S618)。
合成時系列データを重み付け調整・合成部514から取得した各時間での平均値・標準偏差正規化部516は、合成時系列データの各時間での平均値・標準偏差を正規化して(S620)、出力部518を介して外部に出力する。一連の正規化のフローはこうして終了する。
このように、生命情報解析装置100では、正規化の処理において、各遺伝子について、12点での平均値と標準偏差を求め、平均値を引き、標準偏差で割ることにより、データを平均値が0、標準偏差が1になるように正規化する。このため、データの振幅の大小及び発現の強さよりも、発現変化の波形を評価できるようになるという利点がある。
すなわち、実施の形態に係る生命情報処理システム1000では、このような精密な正規化処理を行っているため、平均値、標準偏差をそろえ、明暗条件と恒暗条件とを併合し、Anovaの値で重み付けをすることにで、各遺伝子について、遺伝子の発現の値の大小ではなく、発現変化の波形で評価可能になる。また、明暗条件と恒暗条件とで再現されている遺伝子について、重み付けて評価(どちらかの条件で変化しているものを除外)することにより、さらに生命情報解析システムの精度を向上できる。したがって、こうして得られたデータを用いて予測された所定の生物現象に対応する遺伝子発現調節配列の予測精度も向上する。
(B)癌遺伝子の制御機構解明
次に、もう一つの有意性判定の例として、癌遺伝子の制御機構の解析方法について説明する。なお、本実施の形態でも、体内時計依存的な遺伝子発現調節配列の予測の際に用いる生命情報解析システム1000と同様のシステムを好適に用いうる。このとき、正規化を行う必要がある場合には、上述の体内時計の実施形態とは異なる正規化を行う。
図38は、実施の形態に係る癌遺伝子の制御機構の解析方法を説明するためのデータ構造図である。まず、生命情報解析システム1000と同様のシステムを用いて、特定の組織(たとえば肝臓)について、癌患者と健常者から得た細胞についてDNAチップで遺伝子発現データを取得して解析する。
上述のデータを取得した後、癌患者の遺伝子発現データと、遺伝子と発現制御配列対応データと、から癌患者の発現制御配列と発現の対応データを作成する。また、健常者の遺伝子発現データと、遺伝子と発現制御配列対応データと、から健常者の発現制御配列と発現の対応データを作成する。
図39は、実施の形態に係る癌遺伝子の制御機構の解析方法を説明するためのデータ構造図である。ここでは、図38の処理により得た癌患者の発現制御配列と発現の対応データと、健常者の発現制御配列と発現の対応データと、から各発現制御配列について癌患者、健常者それぞれでの発現の平均値を求め、癌患者と健常者で値が大きく変化しているもの配列を決める。例えば、このモデルデータでは、配列6の値が大きく変化しているため、配列6が癌患者特異的な遺伝子発現を制御している可能性が予測される。
このように、本実施例によれば、癌特異的な発現制御配列を明らかにすることで、癌遺伝子の発現制御機構を明らかにし、癌治療薬開発のシーズに役立てることができる。また、ランダムデータを用いる代わりに、複数の遺伝子発現調節配列・生命現象データを対比することで、癌などの疾病特異的な遺伝子発現調節配列を精度よく予測することができる。
(C)組織ごとの遺伝子制御の違いの解明
次に、さらにもう一つの有意性判定の例として、組織ごとの遺伝子制御の違いの解析方法について説明する。なお、本実施の形態でも、体内時計依存的な遺伝遺伝子発現調節配列の予測の際に用いる生命情報解析システム1000と同様のシステムを好適に用いうる。このとき、正規化を行う必要がある場合には、上述の体内時計の実施形態とは異なる正規化を行う。
図40は、実施例に係る組織ごとの遺伝子制御の違いの解析方法を説明するためのデータ構造図である。まず、生命情報解析システム1000と同様のシステムを用いて、複数の組織から取得した細胞について、DNAチップで遺伝子発現データを取得して解析する。より詳細には、複数の組織から取得した遺伝子発現データと、遺伝子と発現制御配列対応データと、から組織ごとの発現制御配列と発現の対応データを作成する。
そして、組織ごとの発現制御配列と発現の対応データを用いて、組織特異的な発現制御配列を予測する。例えば、図40のモデルデータによれば、配列1は組織1、配列3は組織5、配列8は組織9、配列2は組織7〜10での組織特異的な発現制御に働いていることを予測できる。このように、組織特異的な発現制御配列を明らかにすることで、組織特異的に作用する薬の開発へ役立てることができると想定される。
また、時系列データを用いる代わりに、複数の遺伝子発現調節配列と空間的に異なる位置からサンプリングされた生命現象との組合せの寄与度を含むデータを解析することで、組織特異的な遺伝子発現調節配列を精度よく予測することができる。その結果、組織特異的に作用する薬の開発に役立つものと想定される。
図37は、上述してきた実施の形態に係る生命情報解析システムの全体概要を示す図である。生命情報解析システム1000における処理の動作説明を、上述とは別の観点から図37を用いて再度まとめて以下に示す。
ステップA:遺伝子発現調節配列の予測対象となる生物種1のゲノム配列情報を生命情報解析システム1000に入力する。
ステップB:生物種1と比較を行う生物種2のゲノム配列情報を生命情報解析システム1000に入力する。
ステップC:生物種1と生物種2のゲノム配列の比較解析を行うことで、生物種間で保存されたゲノム領域の同定を行う処理を実行する。
ただし、比較対象となる生物種のゲノム配列情報(ステップB)及びゲノム配列の比較処理(ステップC)については、ステップAのゲノム配列情報の生物種と合わせて3種以上の生物種を用いることも可能である。
ステップD:生物種間で保存されたゲノム領域の情報について、保存されているゲノム配列情報とともにデータベース化して出力する。
ステップE:既知及び新規の遺伝子発現調節配列候補を生命情報解析システム1000に入力する。この結果、生命情報解析システム1000は、数万配列種類程度の任意の多数の配列を用いることが可能となる。
ステップF:ステップDにより得られた生物種間で保存されているゲノム領域について、ステップEの遺伝子発現調節配列候補の探索を行い、生物種間で保存されている遺伝子発現調節配列候補を求める処理を実行する。
ステップG:遺伝子発現調節配列の予測対象となる生物種1のゲノム配列情報(入力Aと同一)を生命情報解析システム1000に入力する。
ステップH:ステップGの生物種におけるcDNAライブラリーの5’末端配列情報を生命情報解析システム1000に入力する。この際、その生物種の遺伝子の上流について包括的に転写開始点を同定するために、数十万クローン数程度の配列情報が5’末端配列情報として必要である。
ステップI:入力Hの遺伝子の5’末端配列情報を、ステップGのゲノム配列情報に対して探索し、ゲノム配列上における位置を求める行うことで遺伝子の上流の転写開始点の同定を行う処理を実行する。
ステップJ:ステップIにより得られた遺伝子の上流の転写開始点情報を、遺伝子情報とともにデータベース化して出力する。
ステップK:ステップFにより出力される生物種間で保存された遺伝子発現調節配列候補とステップJの遺伝子の上流の転写開始点情報の関連付けを行い、遺伝子と転写開始点と遺伝子発現調節配列候補との位置関係データを作成する処理を行う。すなわち、このステップJは、上述の図3における遺伝子発現調節配列・遺伝子データ(第一の行列)を生成・入力するステップに相当する。
ステップL:DNA chipに代表される多数の遺伝子についての包括的な遺伝子発現データを生命情報解析システム1000に入力する。このとき、複数組織、薬剤投与前後、正常組織と疾病組織、発生・再生、生物時計時刻などの任意の生命現象を対象とした、2種類以上のサンプルにおける包括的な遺伝子発現データを入力として用いる。すなわち、このステップLは、上述の図3における遺伝子・生命現象データ(第二の行列)を生成・入力するステップに相当する。
ステップM:ステップLによる各遺伝子の発現データを、ステップKにより遺伝子と関連付けられた遺伝子発現調節配列候補に対して関連付けを行い、各遺伝子発現調節配列候補について対象となる生命現象における包括的な遺伝子発現への寄与の数値化を行いプロファイル化する処理を行う。すなわち、このステップMは、上述の図3における遺伝子発現調節配列・生命現象データ(第三の行列)を生成・入力するステップに相当する。
ステップN:ステップMにより、プロファイル化された各遺伝子発現調節配列候補について、対象となる生命現象との関連性についての検定を行うことにより有意性を判断する。
ステップO:ステップNにより対象となる生命現象との関連性が有意であった遺伝子発現調節配列候補について、予測された生命現象特異的な遺伝子発現調節配列として出力する。
このように、生命情報解析システム1000は、以下の二段階の基本的な骨格で構成されており、これらの要素技術を組み合わせることにより、効率的な遺伝子発現調節配列の予測を可能としている。
すなわち、生命情報解析システム1000は、第一に、転写開始点情報のデータベース化、第二に、データベースと遺伝子発現データを用いての生命現象特異的な遺伝子発現調節配列の予測(すなわち、ゲノムワイドな遺伝子発現調節配列候補のデータベースと遺伝子発現データを用いることで、生命現象特異的な遺伝子発現調節配列の予測を可能にすること)の二段階の基本的な骨格を有する。
以下、本実施の形態により得られる利点について説明する。
本実施の形態は、上述のようにゲノムワイドな遺伝子発現調節配列候補のデータベース(転写開始点と遺伝子発現調節配列候補の対応データ)と、ゲノムワイドな遺伝子発現データ(遺伝子の発現と時間・空間・生命現象の対応データ)と、の二種類のデータを組み合わせることで、遺伝子発現調節配列と時間・空間の対応データ(遺伝子発現調節配列・生命現象の対応データ)を生成し、時間・空間特異的な遺伝子発現調節配列を予測することができる。
一方、従来公知の遺伝子発現解析方法では、酵母などの下等真核生物および原核生物を解析対象としていた。しかし、酵母などの遺伝子の多くはイントロンを持たないため、比較的容易に転写開始点を同定可能であるのに対して、脊椎動物などの高等真核生物では、これまで遺伝子の転写開始点の包括的な同定が困難であったため、転写開始点近傍の遺伝子発現調節配列の予測を行うことが困難であった。
また、酵母などでは転写開始点上流の比較的近傍に遺伝子発現調節配列が存在しているため、遺伝子発現調節配列の探索空間が狭い。しかし、脊椎動物などの高等真核生物では、遺伝子発現調節配列が転写開始点から酵母の数十倍離れた位置にも存在している。このため、高等真核生物においては、ゲノム中の遺伝子発現調節配列の探索空間が広いため、従来公知の遺伝子発現解析方法では、遺伝子発現調節配列の予測が困難であった。
例えば従来公知の技術でも、酵母では、遺伝子発現データを用いてプログラムで遺伝子発現調節配列を予測することがある程度はできる。なぜなら、酵母は転写開始点の同定がしやすいためである。その理由は、酵母の遺伝子発現調節配列は転写開始点から近い(千塩基程度以内)ためである。
しかし、ヒトの遺伝子の遺伝子発現調節配列は、ヒトゲノム約30億塩基に対して数塩基程度であるが、遺伝子発現調節配列は遺伝子の近傍(主に上流)に存在している。また、ヒトの遺伝子の遺伝子発現調節配列は、遺伝子の転写開始点からは数千〜数万塩基離れていることもある。そのため、遺伝子の転写開始点の同定は困難であった。
さらに、酵母でも、ヒトでも、同じ配列でありながら、発現調節に働くものと働かないものが存在しており、同一の遺伝子でも、様々な生命現象に応じて、様々に発現が調節されており、一つの遺伝子でも複数の遺伝子発現調節配列を有する場合があり、既知の遺伝子発現調節配列についても、働く生命現象が明らかになっているものはわずかである。
これらの要因もくわわって、従来公知の遺伝子発現調節配列の同定法を用いて、実験により、遺伝子近傍の塩基配列を変化させ、遺伝子の発現変化を検出して、数万の遺伝子について、全て実験により遺伝子発現調節配列を同定するのは困難であった。そのため、脊椎動物では、プログラムによる遺伝子発現調節配列の予測同定は未だできていない。
これに対して、実施の形態に係る生命情報解析装置100では、遺伝子発現調節配列情報のプロファイル化を行っているため、このような課題を克服している。すなわち、生命情報解析装置100では、生命現象特異的に発現が変化する特定の遺伝子群から、共通な配列の予測を行うのではなく、既知・新規の遺伝子発現調節配列の任意の候補配列について、任意の生命現象における包括的な遺伝子発現情報を用いることにより、生命現象と候補配列の関連性のプロファイル化を行っている。
生命情報解析装置100では、このように、多数の候補配列についてプロファイル化を行うことにより、より生命現象との関連性が高い配列を、遺伝子発現調節配列として予測するため、従来技術において遺伝子群の共通配列として探索を行うことが困難であった遺伝子発現調節配列についても、予測することが容易になっている。
すなわち、生命情報解析装置100は、上記の生物種間で保存された遺伝子発現調節配列候補情報、及び転写開始点情報データにより作成し、遺伝子転写開始点情報に関連付けられた遺伝子発現調節配列候補情報を用いている。また、生命情報解析装置100は、生物種間保存配列データ及び遺伝子発現調節配列候補より作成した、生物種間で保存された遺伝子発現調節配列候補情報を用いている。そして、生命情報解析装置100は、これらを用いてプロファイル化された生命現象と遺伝子発現調節配列候補の関連性の統計的な有意性の検証及び有意性が認められた遺伝子発現調節配列候補についての予測された遺伝子発現調節配列を出力する構成となっている。
このように、生命情報解析装置100は、上記の遺伝子転写開始点情報に関連付けられた遺伝子発現調節配列候補情報に、DNA chip法等により取得された任意の生命現象における包括的な遺伝子発現データを組み合わせることにより、遺伝子発現調節配列候補を近傍に持つ遺伝子の発現強度から求めた、各遺伝子発現調節配列候補について、用いた遺伝子発現データを採取した生命現象における遺伝子発現への関連度合いの数値化手法(生命現象と遺伝子発現調節配列候補の関連性のプロファイル化)を用いているので、上記の従来技術では克服困難であった課題を克服することができる。
そのため、生命情報解析装置100は、実用化イメージとしては、遺伝子発現調節配列候補データと、大量の遺伝子発現データと、を用いて、生命現象特異的な遺伝子転写制御配列予測を行う受託解析のシステム構築に用いることができる。
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
例えば、上記実施の形態では二種類の生物種のゲノム配列情報を用いる構成としたが、三種類以上の生物種のゲノム配列情報を用いてもよい。このようにすれば、さらに遺伝子発現調節配列の予測の精度が向上するという利点が得られる。
また、上記実施の形態では、mRNAの発現量を生命現象として採りあげたが、タンパク質の生産量や、所定の物質の分泌量なども生命現象として分析対象となりうる。これらの現象も遺伝子発現調節配列の調節を受けている場合が想定されるためである。
また、上記実施の形態では、蛋白質をコードする遺伝子を遺伝子配列候補(あるいは遺伝子候補配列)として取り上げたが、非コード遺伝子や、偽遺伝子なども遺伝子配列候補として分析対象になり得る。これらの対象も発現調節配列の調節を受けている場合が想定されるためである。
さらに、上記実施の形態では、転写制御配列を遺伝子発現調節配列候補として取り上げたが、翻訳調節配列、分解調節配列、修飾調節配列、局在調節配列も遺伝子発現調節配列候補として分析対象になり得る。これらの調節配列も、遺伝子発現の調節を行っている場合が想定されるためである。
また、上記実施の形態では、遺伝子の発現の調節を行う配列の候補を、遺伝子発現調節配列候補という表現で示したが、特に限定されず、例えば、発現調節配列候補、発現調節候補配列、遺伝子発現調節候補配列などの表現で示すこともできる。
さらに、上記実施の形態では、遺伝子の発現の調節を行う配列を、遺伝子発現調節配列という表現で示したが、特に限定されず、例えば、発現調節配列などの表現で示すこともできる。
以上のように、本発明にかかる生命現象分析装置は、高等真核生物を含む多様な生物における種々の遺伝子発現調節配列候補を探索することができるため、生命情報解析装置、生命情報解析方法および生命情報解析プログラム等として有用である。
実施の形態に係る生命情報解析システムの全体構成を示した機能ブロック図である。 実施の形態に係る生命情報解析装置の遺伝子発現調節配列・生命現象データ生成機能の内部構成を詳細に示した機能ブロック図である。 実施の形態に係る生命情報解析装置の各機能ブロックの内部構成をさらに詳細に示した機能ブロック図である。 実施の形態に係る生命情報解析装置において行われる、複数の遺伝子を介した遺伝子発現調節配列および生命現象の関連性のプロファイル化の様子を模式的に示したデータ構造図である。 実施の形態に係る生命情報解析装置において行われる、複数の遺伝子を介した遺伝子発現調節配列および生命現象の関連性のプロファイル化の様子を模式的に示した概念図である。 実施の形態に係る生命情報解析装置の動作を説明するためのフローチャートである。 実施の形態に係る生命情報解析システムにおける遺伝子発現調節配列データを生成するための構成を説明した機能ブロック図である。 実施の形態に係る生命情報解析システムに用いる遺伝子発現調節配列候補データの作成について説明するための概念図である。 実施の形態に係る生命情報解析システムにおける遺伝子発現調節配列データの生成について説明したフローチャートである。 実施の形態に係る生命情報解析システムにおける遺伝子発現調節配列候補データ生成装置の構成を示した機能ブロック図である。 実施の形態に係る生命情報解析システムに用いる遺伝子発現調節配列候補データの作成について説明するためのフローチャートである。 実施の形態に係る生命情報解析システムにおける転写開始点・遺伝子候補配列データ生成装置の構成を示した機能ブロック図である。 実施の形態に係る生命情報解析システムにおける転写開始点・遺伝子候補配列データの生成について説明したフローチャートである。 実施の形態に係る生命情報解析システムにおける遺伝子発現調節配列データ生成装置の構成を示した機能ブロック図である。 実施の形態に係る生命情報解析システムにおける遺伝子発現調節配列データの寄与度の設定について説明するための概念図である。 実施の形態に係る生命情報解析システムにおける遺伝子発現調節配列データの生成について説明したフローチャートである。 実施の形態に係る生命情報解析システムのマイクロアレイ分析装置およびスキャナの構成を示した機能ブロック図である。 実施の形態に係る生命情報解析システムのマイクロアレイ分析装置およびスキャナにより取得される遺伝子・生命現象データを説明するためのデータ構造図である。 実施の形態に係る生命情報解析システムのマイクロアレイ分析装置およびスキャナによる遺伝子・生命現象データの生成について説明したフローチャートである。 実施の形態に係る生命情報解析装置の有意性判定部の内部構成を示した機能ブロック図である。 実施の形態に係る生命情報解析装置の有意性判定部におけるデータ処理を説明するためのデータ構造図である。 実施の形態に係る生命情報解析装置の有意性判定部におけるデータのスコア付けについて説明するためのグラフである。 実施の形態に係る生命情報解析装置の有意性判定部におけるランダムデータの生成について説明するためのデータ構造図およびグラフである。 実施の形態に係る生命情報解析装置の有意性判定部における判定結果について説明するためのデータ構造図である。 実施の形態に係る生命情報解析装置の有意性判定部の動作を説明するためのフローチャートである。 実施の形態に係る生命情報解析装置の正規化部の内部構成を詳細に示した機能ブロック図である。 実施の形態に係る生命情報解析装置の正規化部による正規化の様子について説明するための概念図である。 実施の形態に係る生命情報解析装置の正規化部による正規化の様子について説明するためのデータ構造図である。 実施の形態に係る生命情報解析装置の正規化部による正規化の様子について説明するためのデータ構造図である。 実施の形態に係る生命情報解析装置の正規化部による正規化の様子について説明するためのデータ構造図である。 実施の形態に係る生命情報解析装置の正規化部による正規化の様子について説明するためのグラフである。 実施の形態に係る生命情報解析装置の正規化部による正規化の様子について説明するためのデータ構造図である。 実施の形態に係る生命情報解析装置の正規化部による正規化の様子について説明するためのデータ構造図である。 実施の形態に係る生命情報解析装置の正規化部による正規化の様子について説明するためのグラフである。 実施の形態に係る生命情報解析装置の正規化部による正規化の様子について説明するためのデータ構造図である。 実施の形態に係る生命情報解析装置の正規化部による正規化の様子について説明するためのフローチャートである。 実施の形態に係る生命情報解析システムの動作について説明するためのフローチャートである。 実施の形態に係る癌遺伝子の制御機構の解析方法を説明するためのデータ構造図である。 実施の形態に係る癌遺伝子の制御機構の解析方法を説明するためのデータ構造図である。 実施の形態に係る組織ごとの遺伝子制御の違いの解析方法を説明するためのデータ構造図である。
符号の説明
100 生命情報解析装置
101 遺伝子発現調節配列・生命現象データ生成機能
103 有意性判定機能
106 遺伝子発現調節配列データ生成装置
108 CD−ROMドライブ
110 外部ネットワーク
112 マイクロアレイ分析装置
114 スキャナ
134 遺伝子発現調節配列データ取得部
136 遺伝子・生命現象データ取得部
138 遺伝子発現調節配列データ記憶部
140 遺伝子・生命現象データ記憶部
142 遺伝子発現調節配列・生命現象データ生成部
144 遺伝子発現調節配列・生命現象データ記憶部
145 出力部
146 有意性判定結果記憶部
148 有意性判定部
150 出力部
202 受付部
204 第一の行列データ生成部
206 出力部
208 受付部
210 第二の行列データ生成部
211 正規化部
212 出力部
214 第一の行列データ受付部
216 第二の行列データ受付部
218 第三の行列データ生成部
219 出力部
220 行列の積計算部
402 遺伝子発現調節配列・生命現象データ受付部
406 正規化部
408 正規化データ記憶部
410 コサイン・フィッティングスコア計算部
412 コサイン・フィッティングスコア記憶部
414 ランダムデータ生成部
416 ランダムデータ記憶部
418 ランダムデータスコア計算部
420 ランダムデータスコア記憶部
422 比較・判定部
424 出力部
502 時系列データ受付部
504 平均値正規化部
506 平均値・標準偏差正規化部
508 時系列データ受付部
510 平均値正規化部
512 平均値・標準偏差正規化部
514 重み付け調整・合成部
516 平均値・標準偏差正規化部
518 出力部
602 遺伝子発現調節配列候補データ生成装置
604 転写開始点・遺伝子候補配列データ生成装置
606 遺伝子発現調節配列候補データ取得部
608 遺伝子発現調節配列候補データ記憶部
610 転写開始点・遺伝子候補配列データ取得部
612 転写開始点・遺伝子候補配列データ記憶部
614 遺伝子発現調節配列候補・転写開始点関連付部
616 遺伝子発現調節配列データ生成部
618 遺伝子発現調節配列データ記憶部
620 出力部
702 CD−ROMドライブ
704 外部ネットワーク
706 ゲノム配列情報取得部
708 ゲノム配列情報記憶部
710 ゲノム配列情報取得部
712 ゲノム配列情報記憶部
714 ゲノム比較部
716 保存配列抽出部
718 生物種間保存配列データ生成部
720 生物種間保存配列データ記憶部
722 既知・新規遺伝子発現調節配列候補データ取得部
724 既知・新規遺伝子発現調節配列候補データ記憶部
726 遺伝子発現調節配列候補データ生成部
728 遺伝子発現調節配列候補データ記憶部
730 出力部
802 外部ネットワーク
804 CD−ROMドライブ
806 ゲノム配列情報取得部
808 ゲノム配列情報記憶部
810 5’末端配列情報取得部
812 5’末端配列情報記憶部
814 転写開始点同定部
816 転写開始点・遺伝子候補配列データ生成部
818 転写開始点・遺伝子候補配列データ記憶部
820 出力部
902 スライドアレイ設置部
904 標識プローブアプライ部
906 ハイブリダイゼーション部
908 蛍光発光処理部
910 蛍光スキャン部
912 スキャンデータ解析部
914 遺伝子・生命現象データ生成部
915 正規化部
1000 生命情報解析システム
1002 スキャンデータ記憶部
1004 出力部
1006 スキャンデータ受付部
1008 スキャンデータ記憶部
1010 スキャンデータ解析部
1012 遺伝子・生命現象データ生成部
1014 遺伝子・生命現象データ記憶部
1016 出力部

Claims (18)

  1. 解析対象の遺伝子発現調節配列候補と複数の遺伝子候補配列の各々との組合せの寄与度である調節側寄与度を含む第一のデータを取得する第一のデータ取得部と、
    前記複数の遺伝子候補配列の各々と解析対象の生命現象との組合せの寄与度である現象側寄与度を含む第二のデータを取得する第二のデータ取得部と、
    前記第一のデータおよび前記第二のデータに基づいて、それぞれの遺伝子候補配列に対応した前記第一のデータの前記調節側寄与度と前記第二のデータの前記現象側寄与度との積を、それぞれの遺伝子候補配列を介した前記遺伝子発現調節配列候補と前記生命現象との組合せの個別寄与度として、前記複数の遺伝子候補配列に対応する複数の前記個別寄与度を合計した値である、前記複数の遺伝子候補配列を介した前記遺伝子発現調節配列候補と前記生命現象との組合せのトータル寄与度を含む第三のデータを生成する第三のデータ生成部と、
    前記第三のデータを出力する出力部と、
    を備える生命情報解析装置。
  2. 複数の遺伝子発現調節配列候補の各々と複数の遺伝子候補配列の各々との組合せの寄与度を行列要素とする第一の行列で構成される第一のデータを取得する第一のデータ取得部と、
    前記複数の遺伝子候補配列の各々と複数の生命現象の各々との組合せの寄与度を行列要素とする第二の行列で構成される第二のデータを取得する第二のデータ取得部と、
    前記第一のデータおよび前記第二のデータに基づいて、前記第一の行列および前記第二の行列を用いた計算をすることにより、前記複数の遺伝子発現調節配列候補の各々と前記複数の生命現象の各々との組合せの寄与度を行列要素とする第三の行列で構成される第三のデータを生成する第三のデータ生成部と、
    前記第三のデータを出力する出力部と、
    を備える生命情報解析装置。
  3. 請求項1または2記載の生命情報解析装置において、
    前記第三のデータに含まれる前記遺伝子発現調節配列候補および前記生命現象の各々の組合せの間に有意の関連性があるか判定する判定部をさらに備え、
    前記出力部は、前記判定部の判定結果に基づく前記解析結果を出力する生命情報解析装置。
  4. 請求項1乃至3いずれかに記載の生命情報解析装置において、
    前記第一のデータは、
    所定の生物種のゲノム配列情報内における前記複数の遺伝子候補配列と、
    前記ゲノム配列情報内における前記遺伝子発現調節配列候補と、
    前記ゲノム配列情報内における前記複数の遺伝子候補配列にそれぞれ関連づけられている複数の転写開始点と、
    に基づいて得られ、
    前記第一のデータは、前記ゲノム配列情報内において、それぞれの前記遺伝子候補配列に関連づけられている前記転写開始点の上流のうち前記転写開始点から所定の距離内に位置する前記遺伝子発現調節配列候補と、前記遺伝子候補配列とを関連づける寄与度のデータを含むことを特徴とする生命情報解析装置。
  5. 請求項4記載の生命情報解析装置において、
    前記遺伝子発現調節配列候補は、前記遺伝子候補配列に対して、前記転写開始点および前記遺伝子発現調節配列候補の間の距離に応じた寄与度により関連づけられている
    生命情報解析装置。
  6. 請求項4または5記載の生命情報解析装置において、
    前記遺伝子発現調節配列候補は、複数の生物種のゲノム配列情報の間における保存性が所定の水準以上である配列を含む
    生命情報解析装置。
  7. 請求項4乃至6いずれか記載の生命情報解析装置において、
    前記遺伝子発現調節配列候補は、既知の遺伝子発現調節配列候補または任意に作成した配列からなる遺伝子発現調節配列候補を含む
    生命情報解析装置。
  8. 請求項4乃至7いずれか記載の生命情報解析装置において、
    前記複数の転写開始点は、
    前記ゲノム配列情報内における前記複数の遺伝子候補配列と、
    前記ゲノム配列情報内における複数のcDNA配列の5’末端配列と、
    に基づいて得られ、
    前記複数の5’末端配列に対応する前記複数の転写開始点の各々は、前記複数のcDNA配列の各々において、前記5’末端配列の下流に位置する前記遺伝子候補配列に関連づけられている生命情報解析装置。
  9. 請求項1乃至8いずれか記載の生命情報解析装置において、
    前記遺伝子候補配列と前記生命現象との組合せの寄与度は、前記遺伝子候補配列の発現強度から生成される値である
    生命情報解析装置。
  10. 請求項1乃至9いずれか記載の生命情報解析装置において、
    前記遺伝子候補配列と前記生命現象との組合せの寄与度は、前記遺伝子候補配列のmRNA発現量から生成される値である
    生命情報解析装置。
  11. 請求項1乃至10いずれかに記載の生命情報解析装置において、
    前記第二のデータは、マイクロアレイを検出して得られるデータである
    生命情報解析装置。
  12. 請求項1乃至11いずれか記載の生命情報解析装置において、
    前記生命現象は、時系列に関する生命現象である
    生命情報解析装置。
  13. 請求項1乃至11いずれか記載の生命情報解析装置において、
    前記生命現象は、疾患に関する生命現象である
    生命情報解析装置。
  14. 請求項1乃至11いずれか記載の生命情報解析装置において、
    前記生命現象は、組織に関する生命現象である
    生命情報解析装置。
  15. 解析対象の遺伝子発現調節配列候補と複数の遺伝子候補配列の各々との組合せの寄与度である調節側寄与度を含む第一のデータを取得するステップと、
    前記複数の遺伝子候補配列の各々と解析対象の生命現象との組合せの寄与度である現象側寄与度を含む第二のデータを取得するステップと、
    前記第一のデータおよび前記第二のデータに基づいて、それぞれの遺伝子候補配列に対応した前記第一のデータの前記調節側寄与度と前記第二のデータの前記現象側寄与度との積を、それぞれの遺伝子候補配列を介した前記遺伝子発現調節配列候補と前記生命現象との組合せの個別寄与度として、前記複数の遺伝子候補配列に対応する複数の前記個別寄与度を合計した値である、前記複数の遺伝子候補配列を介した前記遺伝子発現調節配列候補と前記生命現象との組合せのトータル寄与度を含む第三のデータを生成するステップと、
    前記第三のデータを出力するステップと、
    を含む生命情報解析方法。
  16. 複数の遺伝子発現調節配列候補の各々と複数の遺伝子候補配列の各々との組合せの寄与度を行列要素とする第一の行列で構成される第一のデータを取得するステップと、
    前記複数の遺伝子候補配列の各々と複数の生命現象の各々との組合せの寄与度を行列要素とする第二の行列で構成される第二のデータを取得するステップと、
    前記第一のデータおよび前記第二のデータに基づいて、前記第一の行列および前記第二の行列を用いた計算をすることにより、前記複数の遺伝子発現調節配列候補の各々と前記複数の生命現象の各々との組合せの寄与度を行列要素とする第三の行列で構成される第三のデータを生成するステップと、
    前記第三のデータを出力するステップと、
    を含む生命情報解析方法。
  17. 解析対象の遺伝子発現調節配列候補と複数の遺伝子候補配列の各々との組合せの寄与度である調節側寄与度を含む第一のデータを取得するステップと、
    前記複数の遺伝子候補配列の各々と解析対象の生命現象との組合せの寄与度である現象側寄与度を含む第二のデータを取得するステップと、
    前記第一のデータおよび前記第二のデータに基づいて、それぞれの遺伝子候補配列に対応した前記第一のデータの前記調節側寄与度と前記第二のデータの前記現象側寄与度との積を、それぞれの遺伝子候補配列を介した前記遺伝子発現調節配列候補と前記生命現象との組合せの個別寄与度として、前記複数の遺伝子候補配列に対応する複数の前記個別寄与度を合計した値である、前記複数の遺伝子候補配列を介した前記遺伝子発現調節配列候補と前記生命現象との組合せのトータル寄与度を含む第三のデータを生成するステップと、
    前記第三のデータに基づく解析結果を出力するステップと、
    をコンピュータに実行させる生命情報解析プログラム。
  18. 複数の遺伝子発現調節配列候補の各々と複数の遺伝子候補配列の各々との組合せの寄与度を行列要素とする第一の行列で構成される第一のデータを取得するステップと、
    前記複数の遺伝子候補配列の各々と複数の生命現象の各々との組合せの寄与度を行列要素とする第二の行列で構成される第二のデータを取得するステップと、
    前記第一のデータおよび前記第二のデータに基づいて、前記第一の行列および前記第二の行列を用いた計算をすることにより、前記複数の遺伝子発現調節配列候補の各々と前記複数の生命現象の各々との組合せの寄与度を行列要素とする第三の行列で構成される第三のデータを生成するステップと、
    前記第三のデータに基づく解析結果を出力するステップと、
    をコンピュータに実行させる生命情報解析プログラム。
JP2005103001A 2005-03-31 2005-03-31 生命情報解析装置、生命情報解析方法および生命情報解析プログラム Expired - Fee Related JP4174775B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005103001A JP4174775B2 (ja) 2005-03-31 2005-03-31 生命情報解析装置、生命情報解析方法および生命情報解析プログラム
US11/396,508 US20060265135A1 (en) 2005-03-31 2006-04-04 Bio-information analyzer, bio-information analysis method and bio-information analysis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005103001A JP4174775B2 (ja) 2005-03-31 2005-03-31 生命情報解析装置、生命情報解析方法および生命情報解析プログラム

Publications (2)

Publication Number Publication Date
JP2006285517A JP2006285517A (ja) 2006-10-19
JP4174775B2 true JP4174775B2 (ja) 2008-11-05

Family

ID=37407396

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005103001A Expired - Fee Related JP4174775B2 (ja) 2005-03-31 2005-03-31 生命情報解析装置、生命情報解析方法および生命情報解析プログラム

Country Status (2)

Country Link
US (1) US20060265135A1 (ja)
JP (1) JP4174775B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5247089B2 (ja) * 2007-08-22 2013-07-24 三菱スペース・ソフトウエア株式会社 遺伝子プロファイル処理装置、遺伝子プロファイル処理プログラムおよび遺伝子プロファイル処理方法
CN102177434B (zh) * 2008-08-08 2014-04-02 乔治亚大学研究基金公司 用于预测能够分泌至体液中的蛋白质的方法及系统
US20130151270A1 (en) * 2011-12-12 2013-06-13 Pathway Genomics Genetic Based Health Management Systems for Weight and Nutrition Control
EP3799057A1 (en) * 2019-09-25 2021-03-31 Koninklijke Philips N.V. Prediction tool for patient immune response to a therapy
CN113506593B (zh) * 2021-07-06 2024-04-12 大连海事大学 一种面向大规模基因调控网络的智能推断方法
CN114296487B (zh) * 2022-03-07 2022-05-17 广东省农业科学院动物科学研究所 一种养殖池盐度参数智能调控方法及系统

Also Published As

Publication number Publication date
US20060265135A1 (en) 2006-11-23
JP2006285517A (ja) 2006-10-19

Similar Documents

Publication Publication Date Title
Longo et al. Integrating single-cell and spatial transcriptomics to elucidate intercellular tissue dynamics
Sedlazeck et al. Piercing the dark matter: bioinformatics of long-range sequencing and mapping
CN106068330B (zh) 将已知等位基因用于读数映射中的系统和方法
Annala et al. A linear model for transcription factor binding affinity prediction in protein binding microarrays
US20050159896A1 (en) Apparatus and method for analyzing data
JP2020524350A (ja) 統合算出および実験的深層変異学習フレームワークを介した遺伝子およびゲノム変異体の解釈
JP4174775B2 (ja) 生命情報解析装置、生命情報解析方法および生命情報解析プログラム
JP2003021630A (ja) 臨床診断サービスを提供するための方法
Kiełbasa et al. Combining frequency and positional information to predict transcription factor binding sites
Karagoz et al. Integration of multiple biological features yields high confidence human protein interactome
Detours et al. Integration and cross-validation of high-throughput gene expression data: comparing heterogeneous data sets
KR101961438B1 (ko) 질병 기전 연구를 위한 생물학적 데이터를 제공하는 데이터 제공 장치, 및 방법
WO2008007630A1 (fr) Méthode et appareil de recherche de protéine
IL297949A (en) Predicting the biological role of tissue receptors
Grewal et al. Analysis of expression data: an overview
Hendrickson et al. Tools for interpreting large-scale protein profiling in microbiology
KR20230068361A (ko) 개인 맞춤 의료를 위한 커스텀 데이터 파일
WO2022084696A1 (en) Drug optimisation by active learning
Feng et al. Recognition of the long range enhancer-promoter interactions by further adding DNA structure properties and transcription factor binding motifs in human cell lines
Barba et al. Genome Informatics Pipelines and Genome Browsers
Alagarswamy et al. Can AI-Powered Whole Genome Sequencing Be Used Routinely for Personalized Decision Support in Surgical Oncology?–A Scoping Review
Shu et al. Mergeomics: integration of diverse genomics resources to identify pathogenic perturbations to biological systems
Mitra et al. Statistical analyses of next generation sequencing data: an overview
Bais et al. Simultaneous alignment and annotation of cis-regulatory regions
CN117672343B (zh) 测序饱和度评估方法及装置、设备及存储介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080729

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080807

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R154 Certificate of patent or utility model (reissue)

Free format text: JAPANESE INTERMEDIATE CODE: R154

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110829

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110829

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140829

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees