JP2008027244A - エクソンアレイ発現プロファイルに基づく疾患特異的選択的スプライシング同定法 - Google Patents
エクソンアレイ発現プロファイルに基づく疾患特異的選択的スプライシング同定法 Download PDFInfo
- Publication number
- JP2008027244A JP2008027244A JP2006199899A JP2006199899A JP2008027244A JP 2008027244 A JP2008027244 A JP 2008027244A JP 2006199899 A JP2006199899 A JP 2006199899A JP 2006199899 A JP2006199899 A JP 2006199899A JP 2008027244 A JP2008027244 A JP 2008027244A
- Authority
- JP
- Japan
- Prior art keywords
- exon
- exon expression
- mrna
- data analysis
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】エクソンアレイから得られたエクソン発現データの解析システム及び解析方法を用いた、疾患特異的選択的スプライシング同定法を提供する。
【解決手段】mRNAをエクソン・アレイに入力し(501)、エクソン・アレイがmRNAに含まれるエクソンを検出し(502)、エクソン・アレイにより検出された観測データをコンピュータに入力し(503)、CPUによる観測データの統計処理からエクソン発現プロファイルを算出し(504)、算出されたエクソン発現プロファイルを記憶装置に記憶し(505)、記憶されている複数のサンプルに関するエクソン発現プロファイルをCPUで比較し(506)、比較結果を出力する(507)。
【選択図】図5
【解決手段】mRNAをエクソン・アレイに入力し(501)、エクソン・アレイがmRNAに含まれるエクソンを検出し(502)、エクソン・アレイにより検出された観測データをコンピュータに入力し(503)、CPUによる観測データの統計処理からエクソン発現プロファイルを算出し(504)、算出されたエクソン発現プロファイルを記憶装置に記憶し(505)、記憶されている複数のサンプルに関するエクソン発現プロファイルをCPUで比較し(506)、比較結果を出力する(507)。
【選択図】図5
Description
本発明は、広くは、データ解析システムに関し、更に詳しくは、エクソンアレイから得られたエクソン発現データの解析システム及び解析方法に関する。本発明はまた、当該解析システムおよび解析方法を用いた、疾患特異的選択的スプライシング同定法に関する。
選択的スプライシングは、多様なmRNA転写物を単一の遺伝子から生成するための重要な転写調節機構として知られている。最新の研究は、真核生物遺伝子の30〜60%が多様なスプライスバリアントを有することを示唆している。Cline, M. S., et al., Bioinformatics, Vol.21, i107-i115, 2005及びLe, K., et al., Nucleic Acids Research, Vol. 32, No.22, e180, 2004を参照のこと。選択的スプライシングでは、一旦遺伝子の完全複製であるmRNA前駆体が生成された後、非翻訳部位であるイントロンが除去され、エクソン領域のみが結合することで成熟mRNA転写産物を形成する。この反応の間に、ある特定のエクソンのセットが、ある成熟mRNA転写産物に含まれるが、別のmRNA転写産物では欠落していて含まれないことがありうる。このような画一的でない現象を生じさせることが、選択的なスプライシングと称される理由である。スプライシングによる転写産物の変異は、癌および他の遺伝性疾患に関与するタンパク質を変化させることができる。例えば、スプライシング変異による異常型の転写物は、遺伝性疾患の15%において、その原因となることが、次の論文で発表されている。Xiao, Y., et al., PLOS Computational Biology, Volume 1, Issue 4, e39, 0276-0288, 2005を参照のこと。従って、選択的スプライシングの調節機構を理解することは、ヒト疾患のいくつかの種類についての潜在的なバイオマーカーを同定するための、興味深い課題の一つである。
2005年12月に、ヒトエクソンマイクロアレイ技術の応用例であるGeneChip(登録商標)Human Exon 1.0 ST Arrayが登場したことにより、100万を超えるヒトエクソンのゲノムワイドな発現データを収集することが可能になった。そのような技術革新により、機能性遺伝子調節の解析は、全体としての遺伝子発現値の変化のみならず、異なる細胞クラスにまたがるスプライシング変異の変化を検出することになる。エクソン発現プロファイルによる全転写物解析は、機能的スプライシング調節の機構を明らかにすることにおいて重要な役割を果たすであろう。同時に、全エクソンマイクロアレイ発現データを解析するための統計技術の開発が、バイオインフォマティクスにおいて取り組むべき最重要課題の1つである。
カスタムメイドのエクソンマイクロアレイデータを解析するために、種々の計算手法が提案されてきている。例えば、Wangら(Wang, H., et al., Bioinformatics, Vol.19, i315-i322, 2005)は、既知のスプライスバリアントの相対的発現量を推定するための構造モデリングの手法を考案し、21のよく知られた遺伝子に対してカスタムメイドのエクソンアレイを設計して、その性能を示した。しかしながら、この手法を適用するためには、ユーザーは転写産物の形をあらかじめ指定する必要があり、これが未知の場合その有効性は限定的である。
Cline, M. S., et al., Bioinformatics, Vol.21, i107-i115, 2005
Le, K., et al., Nucleic Acids Research, Vol. 32, No.22, e180, 2004
Xiao, Y., et al., PLOS Computational Biology, Volume 1, Issue 4, e39, 0276-0288, 2005
Wang, H., et al., Bioinformatics, Vol.19, i315-i322, 2005
本発明は、広くは、データ解析システムに関し、更に詳しくは、エクソンアレイから得られたエクソン発現データの解析システム及び解析方法を提供することを目的とする。本発明はまた、当該解析システムおよび解析方法を用いた、疾患特異的選択的スプライシング同定法を提供することを目的とする。
発明の概要
本発明によると、コンピュータを用いエクソン発現データから疾患特異的な選択的スプライシングを同定するデータ解析システムであって、(1)mRNAから観測されたエクソン発現データを入力する入力手段と、(2)前記入力手段を介して入力されたエクソン発現データの統計処理を行い、当該mRNAに含まれるエクソン全体に関する情報を表すエクソン発現プロファイルを算出する演算手段と、(3)前記演算手段によって算出されたエクソン発現プロファイルを記憶する記憶手段と、(4)複数のmRNAに関して前記入力手段と前記演算手段とを介して算出され前記記憶手段に記憶されている複数のエクソン発現プロファイルを読み出し、読み出された複数のエクソン発現プロファイルを比較する比較手段であって、正常細胞から得られた第1のmRNAに関して算出され前記記憶手段に記憶されている第1のエクソン発現プロファイルと、異常細胞から得られた第2のmRNAに関して算出され前記記憶手段に記憶されている第2のエクソン発現プロファイルとを比較することにより正常細胞と異常細胞とにおけるエクソン発現プロファイルの差異を同定し、同定された差異に基づき、正常細胞においては生じず異常細胞において生じる疾患特異的な選択的スプライシングを同定する比較手段と、を備えているデータ解析システムが提供される。
本発明によると、コンピュータを用いエクソン発現データから疾患特異的な選択的スプライシングを同定するデータ解析システムであって、(1)mRNAから観測されたエクソン発現データを入力する入力手段と、(2)前記入力手段を介して入力されたエクソン発現データの統計処理を行い、当該mRNAに含まれるエクソン全体に関する情報を表すエクソン発現プロファイルを算出する演算手段と、(3)前記演算手段によって算出されたエクソン発現プロファイルを記憶する記憶手段と、(4)複数のmRNAに関して前記入力手段と前記演算手段とを介して算出され前記記憶手段に記憶されている複数のエクソン発現プロファイルを読み出し、読み出された複数のエクソン発現プロファイルを比較する比較手段であって、正常細胞から得られた第1のmRNAに関して算出され前記記憶手段に記憶されている第1のエクソン発現プロファイルと、異常細胞から得られた第2のmRNAに関して算出され前記記憶手段に記憶されている第2のエクソン発現プロファイルとを比較することにより正常細胞と異常細胞とにおけるエクソン発現プロファイルの差異を同定し、同定された差異に基づき、正常細胞においては生じず異常細胞において生じる疾患特異的な選択的スプライシングを同定する比較手段と、を備えているデータ解析システムが提供される。
また、本発明によると、コンピュータを用いmRNAにおける疾患特異的な選択的スプライシングを同定するデータ解析システムであって、(0)mRNAを入力する入力手段と前記入力手段を介して入力されたmRNAに含まれる特定のエクソンの有無を個別的に検出し、当該mRNAに含まれるエクソン全体に関するエクソン発現データを出力する検出手段と、(1)前記検出手段によってmRNAから観測されたエクソン発現データを入力する入力手段と、(2)前記入力手段を介して入力されたエクソン発現データの統計処理を行い、当該mRNAに含まれるエクソン全体に関する情報を表すエクソン発現プロファイルを算出する演算手段と、(3)前記演算手段によって算出されたエクソン発現プロファイルを記憶する記憶手段と、(4)複数のmRNAに関して前記入力手段と前記演算手段とを介して算出され前記記憶手段に記憶されている複数のエクソン発現プロファイルを読み出し、読み出された複数のエクソン発現プロファイルを比較する比較手段であって、正常細胞から得られた第1のmRNAに関して算出され前記記憶手段に記憶されている第1のエクソン発現プロファイルと、異常細胞から得られた第2のmRNAに関して算出され前記記憶手段に記憶されている第2のエクソン発現プロファイルとを比較することにより正常細胞と異常細胞とにおけるエクソン発現プロファイルの差異を同定し、同定された差異に基づき、正常細胞においては生じず異常細胞において生じる疾患特異的な選択的スプライシングを同定する比較手段と、を備えているデータ解析システムが提供される。ここで言う検出手段は、例えば、エクソン発現データを観測するエクソン・アレイである。
また、本発明によるデータ解析システムの前記演算手段は、前記エクソン発現データに含まれる観測バイアスを除去するバックグラウンド修正を行う前処理手段と、前記前処理手段により観測バイアスが除去されたデータに対して統計処理を行う統計処理手段と、前記統計処理手段によって行われた統計処理の結果として得られるデータから個体差を含む原因に由来する交絡因子を除去する後処理手段と、を更に備えており、前記前処理手段と前記統計処理手段と前記後処理手段とによるデータ処理を介してエクソン発現プロファイルを算出する。
更に、本発明によるデータ解析システムにおいて、前記検出手段は前記入力手段を介して入力されたmRNAに含まれるエクソンの有無を表す生化学的情報を発光強度として出力する多数のプローブから構成された光学アレイである。
更に、本発明によるデータ解析システムにおいて、前記前処理手段によって除去される観測バイアスは、前記入力手段を介して入力されたmRNAに含まれるGC含有量が多い場合に生じるプローブの発光強度の上方バイアスを含むことを特徴とするデータ解析システム。
更に、本発明によるデータ解析システムにおいて、前記統計処理手段は、正常細胞j=1及び異常細胞j=2のそれぞれに対し、i番目のエクソン(i=1,・・・,m)とk番目のプローブ(k=1,・・・,ni)とに対応するバックグラウンド修正済のプローブ強度をxijkで表し、このプローブ強度xijkを、m個のエクソン領域に対するベースライン強度の変化に対する応答であり正常及び異常の両方の細胞に共通するスプライシングによる変動の存在に応答して1又は複数の異なる値をとりうるパラメータαi(i=1,・・・,m)と、正常細胞と異常細胞との間の全体平均の差に対応し正常及び異常の両方の細胞タイプにおける遺伝子発現レベルの変化に応答して異なる値を取りうるパラメータβjと、m個のエクソンと正常及び異常の2つの細胞との組合せに対する相互作用効果を表しスプライシングが一方の細胞に存在し他方の細胞に存在しない場合には少なくとも1つの値が相互に異なる可能性が高いパラメータγijとを含む和xijk=μ+αi+βj+γij+εijkとして表現することにより、発光強度としてプローブによって生じる応答を、エクソン効果αiと、全体的な遺伝子レベルでのエクソン発現差の効果βiと、特定のスプライシング事象の効果γijとの3つの相互に独立な効果に分解し、それぞれの効果について統計的検定を行うことにより、疾患特異的な選択的スプライシングを同定する分散分析手段を更に含む。
更に、本発明によるデータ解析システムにおいて、前記分散分析手段によって行われる統計的検定では、第1に、エクソン効果に関する検定では、帰無仮説(H0)として、任意のi≠jに対してαi=αjと仮定し、対立仮説(H1)として、少なくとも1対の{i≠j}に対してαi≠αjと仮定し、第2に、全体的な遺伝子効果に関する検定では、H0として、β1=β2と仮定し、H1として、β1≠β2と仮定し、第3に、疾患特異的な選択的スプライシングの効果に関する検定では、H0として、任意の{i,j}≠{h,k}に対してγij=γhkと仮定し、H1として、少なくとも1対の{i,j}及び{h,k}に対してγij≠γhkと仮定して統計的検定が実行される。
更に、本発明によるデータ解析システムにおいて、前記後処理手段は、フィッシャーのノーマル・インバーション法を用いて、同定された疾患特異的なスプライシングのリストから小さなp値を有するスプライス変異を見出すことにより交絡因子を除去する手段であって、G人の個体に対して前記分散分析を適用した結果得られる相互作用項γijに対してp値p1,・・・,pGを計算し、これらのp値を、下記の数式で表される正規化された累積的な分布関数の逆数を用いて併合されたz得点(merged z score)に変換し、
ただし、この数式においては、分母の平方根の中は1に等しく、wi≧0であり、Φ−1(x)は、標準正規変動の累積的分布関数の逆数を意味し、この併合されたz得点の累積標準正規分布関数を計算することによって、併合されたp値を導いて遺伝子を得た1又は複数の個体が比較的大きなp値を示す遺伝子のp値を自動的にマイナス評価する、手段を更に備えている。
更に、本発明によるデータ解析システムにおいて、前記後処理手段は、ANOVAモデルのミクスチャーに基づく統計的技法を用いた、ヒト細胞の不均一性をコントロールする手段をさらに備えている。
本発明は、コンピュータを用いて疾病特異的な選択的スプライシングを同定するデータ解析方法として定義することも可能である。
また、本発明は、疾病特異的な選択的スプライシングを同定するデータ解析方法をコンピュータに実行させるプログラムが記憶されたコンピュータ読み取り可能な記憶媒体として定義することも可能である。
また、本発明は、疾病特異的な選択的スプライシングを同定するデータ解析方法をコンピュータに実行させるプログラムが記憶されたコンピュータ読み取り可能な記憶媒体として定義することも可能である。
また、本発明は、疾病特異的な選択的スプライシングを同定するデータ解析方法をコンピュータに実行させるプログラムとして定義することも可能である。
詳細な説明
本発明者らは、GeneChip(登録商標) Human Exon 1.0 ST Arrayを用いて、疾患に関与するミススプライシングされた遺伝子座を同定することを目的とした(図1)。これは、選択的スプライシングによる転写調節機構を理解する上で、そしてまた、エクソンレベルでの潜在的なバイオマーカーをゲノムワイドに発見する上で、重要な役割を果たす。提案する方法は、以下の過程によって構成される:(1−1)データの正規化(前処理);GeneChip(登録商標)エクソンマイクロアレイによって収集した発現データにおいては、観察された発現値には様々な観測バイアスが含まれている。特に、GC含有量によるプローブ強度のバイアスは、データ解析において重大な問題を引き起こすため、その後の転写産物解析においてこれを除くことが必要不可欠である。(1−2)異常観測値の検出;このマイクロアレイシステムでは、エクソンごとの発現量を推定するために、各エクソン領域に少数のプローブが割り付けられている。通常、1つのエクソン領域あたりのプローブ数は、4〜20の範囲である。そのような少数のプローブのセットに基づいてエクソン特異的シグナルを推定する場合、シグナル推定の性能劣化の原因となり、その結果転写物解析において擬陽性率上昇をもたらすことになる。(2)分散分析(ANOVA)による全転写物解析;この過程において、特定の細胞において存在するが、正常コントロール細胞には存在していない、特異的なスプライス変異のセットを同定する。この過程において、本発明の方法は、標的疾患に対するプローブ強度の応答を、3つの効果、すなわち、正常細胞および腫瘍細胞が共有する選択的スプライシングの効果、異なる細胞のタイプの間の総遺伝子発現レベルの違い、および特異的スプライス変異の効果、に自動的に分解する。(3)メタアナリシス;(2)のANOVAにより得られた疾患特異的なスプライス変異の候補のうち、当該疾患を有するほとんどの個体によって共有される、すなわち、個体差に依存しない普遍的な疾患特異的スプライス変異を同定する。
本発明者らは、GeneChip(登録商標) Human Exon 1.0 ST Arrayを用いて、疾患に関与するミススプライシングされた遺伝子座を同定することを目的とした(図1)。これは、選択的スプライシングによる転写調節機構を理解する上で、そしてまた、エクソンレベルでの潜在的なバイオマーカーをゲノムワイドに発見する上で、重要な役割を果たす。提案する方法は、以下の過程によって構成される:(1−1)データの正規化(前処理);GeneChip(登録商標)エクソンマイクロアレイによって収集した発現データにおいては、観察された発現値には様々な観測バイアスが含まれている。特に、GC含有量によるプローブ強度のバイアスは、データ解析において重大な問題を引き起こすため、その後の転写産物解析においてこれを除くことが必要不可欠である。(1−2)異常観測値の検出;このマイクロアレイシステムでは、エクソンごとの発現量を推定するために、各エクソン領域に少数のプローブが割り付けられている。通常、1つのエクソン領域あたりのプローブ数は、4〜20の範囲である。そのような少数のプローブのセットに基づいてエクソン特異的シグナルを推定する場合、シグナル推定の性能劣化の原因となり、その結果転写物解析において擬陽性率上昇をもたらすことになる。(2)分散分析(ANOVA)による全転写物解析;この過程において、特定の細胞において存在するが、正常コントロール細胞には存在していない、特異的なスプライス変異のセットを同定する。この過程において、本発明の方法は、標的疾患に対するプローブ強度の応答を、3つの効果、すなわち、正常細胞および腫瘍細胞が共有する選択的スプライシングの効果、異なる細胞のタイプの間の総遺伝子発現レベルの違い、および特異的スプライス変異の効果、に自動的に分解する。(3)メタアナリシス;(2)のANOVAにより得られた疾患特異的なスプライス変異の候補のうち、当該疾患を有するほとんどの個体によって共有される、すなわち、個体差に依存しない普遍的な疾患特異的スプライス変異を同定する。
なお、本明細書において、エクソンマイクロアレイによって収集した発現データ、または、エクソン発現データ、とは、エクソンマイクロアレイによって収集した、補正処理等を行っていない生のデータを意味する。また、本明細書において、エクソン発現プロファイルとは、エクソン発現データを補正および/または統計解析等の処理を加えた後に得られたデータを意味する。
(1)データの正規化および異常観測値の検出
エクソン発現データの統計解析手法を検討していく上で最も重要な事項の一つは、GC含有量に起因するバイアスをいかに扱うかである。本発明者らは、補正を行っていない未処理のプローブ強度から、以下の事実を観測した:(1)プローブ発光強度はGC含有量が大きくなるに従って指数的に増大する。(2)GC含有量が大きくなるにつれ、二つの四分位点の範囲が大きくなる。そのようなGC含有量に起因する観測バイアスは、GC含有量の高いプローブはAT含有量の高いプローブと比較して高い親和性を有するために生じるのであり、観測バイアスの事前除去は転写産物解析における擬陽性率低下のために必要不可欠である。
エクソン発現データの統計解析手法を検討していく上で最も重要な事項の一つは、GC含有量に起因するバイアスをいかに扱うかである。本発明者らは、補正を行っていない未処理のプローブ強度から、以下の事実を観測した:(1)プローブ発光強度はGC含有量が大きくなるに従って指数的に増大する。(2)GC含有量が大きくなるにつれ、二つの四分位点の範囲が大きくなる。そのようなGC含有量に起因する観測バイアスは、GC含有量の高いプローブはAT含有量の高いプローブと比較して高い親和性を有するために生じるのであり、観測バイアスの事前除去は転写産物解析における擬陽性率低下のために必要不可欠である。
アフィメトリクス社のテクニカルノート(Exon array background correction v1.0, http://www.affymetrix.com/support/technical/whitepapers/exon_background_correction_whitepaper.pdf)は、同じGC含有量を有するバックグラウンドプローブ(BGP)の発光強度の対数平均(log(BGP))を用いて、log(未処理の強度)−log(BGP)に基づく観測バイアス補正を推奨している。この方針に従い、BGPを用いたバックグラウンド補正を適用して、GC含有量由来のバックグラウンド強度を推定した。図2(b)はGC含有量に対するBGPの上方傾向を示し、図2(c)はこれに基づきバックグラウンド補正を行った結果を示す。GC含有量の高いプローブ、例えば、25merのプローブ中にGまたはCヌクレオチドを20以上含むもの、については、バックグラウンド補正プローブ強度には依然として上方バイアスが含まれていた(図2(c))。BGPの中央値について、例えば25merのプローブ中にGまたはCヌクレオチドを23以上含む、GC含有量の高いプローブについては上方傾向は明確ではない点に着目した。このことは、高いGC含有量を有するBGP発光強度は、GC含有量依存的バイアスの推定およびバックグラウンド強度の推定に対して十分な情報を有していないことを示している。そのような不正確な推定は、高いGC含有量を有するアレイ情報のBGPのサンプルサイズが小さいことや、大量のクロスハイブリダイゼーションを生じるであろうGC含有量の高いプローブの非常に高い親和性に起因することが考えられる。例えば、GC含有量が24(25merのプローブ中にGまたはCヌクレオチドを24個含む)の非ゲノム性BGPの数は268であり、これは、GC含有量が14(25merのプローブ中にGまたはCヌクレオチドを14個含む)のもののわずか27%にすぎない。
エクソンアレイにおいて、GC含有量が高いプローブの発光強度は、少数のエクソン領域で構成される遺伝子座を解析するときには特に、以後のデータ解析に大きく影響し、多数の擬陽性を生じさせることになる。すなわち、このマイクロアレイではエクソン領域を調べるためのプローブ数が比較的少数であるため、評価されたエクソン発現値は、マイクロアレイに含まれる信頼性の低いプローブに起因する外れ値の存在によりバイアスを含むのが通常である。従って、本発明の方法においては、保守的な特異的スプライシング検出方式を設計するために、転写産物解析から22以上のGC含有量を有するプローブデータを排除する。
(2)分散分析(ANOVA)
同一の個体から採取された1対の正常細胞と腫瘍細胞に対するマイクロアレイ実験を通じて、プロファイリングがなされたとする。ターゲットとなる遺伝子座は、m個のエクソンから構成されると仮定する。そして、正常細胞j=1及び腫瘍細胞j=2のそれぞれに対し、i番目のエクソン(i=1,・・・,m)とk番目のプローブ(k=1,・・・,ni)とに対応するバックグラウンド修正済のプローブ強度を、xijkで表す。この場合に、観測されたプローブ強度xijkから、エクソンアレイ上のある位置においてスプライシング過程がどのように作用するのかを導きたい。
同一の個体から採取された1対の正常細胞と腫瘍細胞に対するマイクロアレイ実験を通じて、プロファイリングがなされたとする。ターゲットとなる遺伝子座は、m個のエクソンから構成されると仮定する。そして、正常細胞j=1及び腫瘍細胞j=2のそれぞれに対し、i番目のエクソン(i=1,・・・,m)とk番目のプローブ(k=1,・・・,ni)とに対応するバックグラウンド修正済のプローブ強度を、xijkで表す。この場合に、観測されたプローブ強度xijkから、エクソンアレイ上のある位置においてスプライシング過程がどのように作用するのかを導きたい。
スプライシングされた腫瘍細胞特異的な遺伝子座の検出に関する問題は、両方の細胞のタイプにおいて異なる発現を生じているエクソン領域を示す遺伝子座の集合を見出すことである。この目的のために、次のような単純な固定効果モデル:
xijk=μ+αi+βj+γij+εijk
に基づいて、古典的な分散分析(ANOVA)を行う。この数式において、μは、全プローブに共通のプローブ強度の全体の平均を表す。パラメータαi(i=1,・・・,m)は、m個のエクソン領域に対するベースライン強度の変化に対する応答である。評価されたαiは、両方の細胞タイプの間で共有されるスプライシングによる変動の存在に対して、1又は複数の異なる値をとることが予想される。パラメータβjは、正常細胞と腫瘍細胞との間の全体平均の差に対応する。評価されたβjは、両方の細胞タイプにおける遺伝子発現レベルの変化に応答して、異なる値を取りうる。パラメータγijは、m個のエクソンと2つの細胞カテゴリとのそれぞれの組合せに対する相互作用効果を表す。選択的スプライシングが一方の細胞に存在し他方の細胞に存在しない場合には、評価されたγijの少なくとも1つの値が相互に異なる可能性が高い。相互作用パラメータの評価により、腫瘍特異的な選択的スプライシングの効果を捕捉することができる。混合線形モデルのメカニズムは、図3にその概要が示されている。
xijk=μ+αi+βj+γij+εijk
に基づいて、古典的な分散分析(ANOVA)を行う。この数式において、μは、全プローブに共通のプローブ強度の全体の平均を表す。パラメータαi(i=1,・・・,m)は、m個のエクソン領域に対するベースライン強度の変化に対する応答である。評価されたαiは、両方の細胞タイプの間で共有されるスプライシングによる変動の存在に対して、1又は複数の異なる値をとることが予想される。パラメータβjは、正常細胞と腫瘍細胞との間の全体平均の差に対応する。評価されたβjは、両方の細胞タイプにおける遺伝子発現レベルの変化に応答して、異なる値を取りうる。パラメータγijは、m個のエクソンと2つの細胞カテゴリとのそれぞれの組合せに対する相互作用効果を表す。選択的スプライシングが一方の細胞に存在し他方の細胞に存在しない場合には、評価されたγijの少なくとも1つの値が相互に異なる可能性が高い。相互作用パラメータの評価により、腫瘍特異的な選択的スプライシングの効果を捕捉することができる。混合線形モデルのメカニズムは、図3にその概要が示されている。
このように、αi、βj、γijを評価することにより、結果的に、プローブの応答を、エクソン効果と、全体的な遺伝子効果と特定のスプライシング事象の効果との3つの相互に独立な(orthogonal)効果に分解することになる。それぞれの効果の有意性を観測強度を用いて評価するため、発明者らは、以下のような統計的検定を行った。
第1に、エクソン効果に関する検定では、帰無仮説(H0)として、任意のi≠jに対してαi=αjと仮定し、対立仮説(H1)として、少なくとも1対の{i≠j}に対してαi≠αjと仮定した。
第2に、全体的な遺伝子効果に関する検定では、H0として、β1=β2と仮定し、H1として、β1≠β2と仮定した。
第3に、腫瘍特異的な選択的スプライシングの効果に関する検定では、H0として、任意の{i,j}≠{h,k}に対してγij=γhkと仮定し、H1として、少なくとも1対の{i,j}及び{h,k}に対してγij≠γhkと仮定した。
第3に、腫瘍特異的な選択的スプライシングの効果に関する検定では、H0として、任意の{i,j}≠{h,k}に対してγij=γhkと仮定し、H1として、少なくとも1対の{i,j}及び{h,k}に対してγij≠γhkと仮定した。
すべての相互作用項が等しいという帰無仮説が棄却されると、腫瘍形成と何らかの意味で関連がある遺伝子座である可能性が高いことが示唆される。ヒト・エクソン・マイクロアレイによって得られる遺伝子座全体に対してANOVAを反復的に適用することにより、全ヒトゲノム上の遺伝子座に対して疾患特異的なスプライシングの有無を評価し、第3の検定における帰無仮説のp値をそれぞれの遺伝子座に割り当てることができる。
上述した転写産物の解析をすべての個体に応用することにより、腫瘍の形成と関連する可能性がある腫瘍特異的なスプライシング部位の集合を自動的に得ることができる。
(3)メタアナリシス
同定されたスプライシングの一部は、収集された患者の個体差、例えば、性別、年齢、疾患の重篤度、など、によって生じている可能性がある。特定の疾患を有するほとんどの個体によって共有される腫瘍特異的なスプライシング変異を示す普遍的なバイオマーカーを発見するためには、ほとんどすべての個体にわたって小さなp値を有する遺伝子の群を同定する必要がある。
同定されたスプライシングの一部は、収集された患者の個体差、例えば、性別、年齢、疾患の重篤度、など、によって生じている可能性がある。特定の疾患を有するほとんどの個体によって共有される腫瘍特異的なスプライシング変異を示す普遍的なバイオマーカーを発見するためには、ほとんどすべての個体にわたって小さなp値を有する遺伝子の群を同定する必要がある。
そのためには、フィッシャーのノーマル・インバーション法に含まれる統計的技法を用いてよい。例えば、G人の個体に対して上記分散分析を適用した結果得られる相互作用項γijに対してp値p1,・・・,pGを計算する。本発明の方法では、まず、これらのp値を、下記の数式で表される正規化された累積的な分布関数の逆数を用いて併合されたz得点(merged z score)に変換する。
ここで、分母の平方根の中は1に等しく、w>=0であり、Φ−1(x)は、標準正規変動の累積的分布関数の逆数を意味する。統計理論によると、帰無仮説が成立する、すなわち、相互作用の効果がない場合に、かつ、その場合に限り、zi=Φ−1(1−pi)は標準正規分布に従う。従って、ziの任意の重み付き平均もまた、上記の数式の分母の平方根の中が1に等しく、w≧0であるときには常に、標準正規分布に従った分布となる。計算されたp値がすべての個体に対して小さい場合には、併合されたz得点は、ゼロから離れた正の領域に存在する。併合されたp値は、併合されたz得点の累積標準正規分布関数を計算することによって、導かれる。このプロセスは、遺伝子を得た1又は複数の個体が比較的大きなp値を示す遺伝子のp値を自動的にマイナス評価する。
あるいは、ANOVAモデルのミクスチャーに基づく統計的技法を用いてよい。エクソンアレイデータの解析において、ヒト細胞の不均一性をコントロールするための第2方策として、混合効果モデルのミクスチャーを用いる。ここで、xijk lはi番目のエクソン発現シグナルを検出するために用意されたk番目のプローブ発光強度を表すことにする。ただし、添え字lはl番目の個体を表し、添え字jは個体lから採取した正常細胞(j=1)及び疾患細胞(j=2)を表す。このプローブ発光強度に対して次のようなG要素和からなる線形モデルのミクスチャーを用いる(g=1,・・・,G)。
個体lのG個の部分母集団C1・・・CGからなり、個体lが集団Cgに属する確率をwgによって与える。また、εijg lは観測ノイズで平均0、分散τの正規分布に従うものと仮定する。解析対象の総個体数およびエクソン数はそれぞれL(l=1,・・・,L)およびm(i=1,・・・,m)と仮定する。
この基本モデルの下で、仮説H0:γijg=0の検定方式を適切に設計することで、疾患特異的スプライス変異の有意性を統計的に評価することが可能になる。より詳細にいえば,正常細胞と疾患細胞に共通のスプラシングの有無H0:αig=0、遺伝子全体での発現差の有無H0:βjg=0、部分母集団の個数Gのテストをモデル(1)の下で統一的にかつ自動的に行うことが可能になる。検定方式設計のための便宜上、モデル(1)を次のように書き換えることにする。
δ( )は定義関数で、もしモデルMがαig≠0、βjg≠0、γijg≠0を許せば、それぞれδ(ig)=1、δ(jg)=1、δ(ijg)=1、そうでなければ、δ(ig)=0、δ(jg)=0、δ(ijg)=0の値をとるものである.
これらの定義関数とパラメータセットαig、βjg、γijgは観測データに基づき推定される。本発明で考案した推定アルゴリズムは情報量基準最小化原理に基づく。すなわち、次の目的関数、
これらの定義関数とパラメータセットαig、βjg、γijgは観測データに基づき推定される。本発明で考案した推定アルゴリズムは情報量基準最小化原理に基づく。すなわち、次の目的関数、
を最小化するようにパラメータと定義関数の同時推定を実行する。
ここで、上式の第一項はモデルの対数尤度、
ここで、上式の第一項はモデルの対数尤度、
であり、第2項のdはモデルの自由パラメータ数を表す。ただし、φ(x;a,b)は平均a、分散bの正規分布の確率密度関数である。例えば、情報量規準としてAIC(赤池情報量規準)を用いる場合は
また、BIC(ベイズ情報量規準)を用いる場合は
とおけばよい.
I(δ,α,β,γ,w)の最適解をえるためには、まず定義関数δ(ig)、δ(jg)、δ(ijg)を適当に与え、EMアルゴリズムによって最尤推定値を計算すればよい。しかしながら、解の全探索をするためには、定義関数δ(ig)、δ(jg)、δ(ijg)の(0,1)の全組み合わせに対してパラメータの最尤推定値を計算する必要があることから、O(2dG)の計算量を要することになる(ここでd=3m+2)。これに対して、本発明では,計算量O(dG)で実行可能なI(δ,α,β,γ,w)に対する次の最適化アルゴリズムを考案した。
I(δ,α,β,γ,w)の最適解をえるためには、まず定義関数δ(ig)、δ(jg)、δ(ijg)を適当に与え、EMアルゴリズムによって最尤推定値を計算すればよい。しかしながら、解の全探索をするためには、定義関数δ(ig)、δ(jg)、δ(ijg)の(0,1)の全組み合わせに対してパラメータの最尤推定値を計算する必要があることから、O(2dG)の計算量を要することになる(ここでd=3m+2)。これに対して、本発明では,計算量O(dG)で実行可能なI(δ,α,β,γ,w)に対する次の最適化アルゴリズムを考案した。
・ステップ[A0]. 以下の手順をG∈{Gmin,・・・,Gmax}に対して繰り返す。ただし、Gmin、Gmaxは部分母集団の個数の下限および上限を表す:
−ステップ[B0]. パラメータに対して適当な初期値を設定し、
−ステップ[B0]. パラメータに対して適当な初期値を設定し、
更新されるパラメータが収束条件を満たすまで、以下の手順をh=0,1,2,・・・,に対して繰り返す:
*ステップ[S1]. 現ステップのパラメータを用いて、l=1,・・・,L、g=1,・・・,G に対して、個体lの部分母集団gへの所属確率を次式に従い評価する。
*ステップ[S1]. 現ステップのパラメータを用いて、l=1,・・・,L、g=1,・・・,G に対して、個体lの部分母集団gへの所属確率を次式に従い評価する。
*ステップ[S2]. モデルの十分統計量を次式に従い計算する(g=1,・・・,G)。
*ステップ[S3]. 観測ノイズをτ=τ(h)とおいて、以下の目的関数Ic(MuG,Θ)のパラメータ μg、αig、βig、γijg、δ( )に関する最小化を実行する。
パラメータ μg、αig、βig、γijg、δ( )に関する最小化は次式によって達成される。
・(全体平均の推定) g=1,・・・,G につき、次式を計算する。
・(全体平均の推定) g=1,・・・,G につき、次式を計算する。
・(エクソン効果) S(i),i=1,・・・,m は次のように定義されるエクソンインデックスの集合とする。
いま、|S(i)|は集合S(i)の要素数を表す。まず、エクソン効果の有意性を表す指示パラメータを次の手順に従い更新する:
次にエクソン効果を表すパラメータを次式に従い更新する:
・(遺伝子効果) S(j),j=1,2 は次のように定義される細胞種インデックスの集合とする。
いま、|S(j)|は集合S(j)の要素数を表す。まず、遺伝子効果の有意性を表す指示パラメータを次の手順に従い更新する:
次に遺伝子効果を表すパラメータを次式に従い更新する:
・(疾患特異的スプライシング効果) S(i,j),i=1,・・・,m、j=1,2 は次のように定義されるエクソンインデックスと細胞種インデックスの集合とする。
いま、|S(i,j)|は集合S(i,j)の要素数を表す。まず、特異的スプライシング効果の有意性を表す指示パラメータを次の手順に従い更新する:
次に、特異的スプライシング効果を表すパラメータを次式に従い更新する:
*ステップ[S4]. 観測ノイズの分散を次式に従い更新する:
*ステップ[S5]. 前ステップ(h)のパラメータと上記ステップにおいて更新されたパラメータの差異が十分小さければ、ステップ[A2]へ進む。そうでなければ、h=h+1として、ステップ[S1]に戻る。
・ステップ[A1]. 情報量規準の計算: 次式に従い、Gに対する情報量規準を評価する。
・ステップ[A1]. 情報量規準の計算: 次式に従い、Gに対する情報量規準を評価する。
・ステップ[A2]. ステップ[A0]に戻る。
本発明によるデータ解析システムは、エクソン・アレイから得られた発光強度データを、所定のデータ処理手順を定めコンピュータ・ハードウェア上で動作するコンピュータ・プログラムが処理することによって実現される。以下では、図4を参照しながら、本発明によるデータ解析システムがどのようなハードウェア資源を用いて具体的に実現されているかの概略を説明する。
図4には、一般的なコンピュータ400の内部構成が図解されている。本発明によるデータ解析システムが解析の対象とするのは、エクソン・アレイ401を用いて観測されたデータである。エクソン・アレイ401から出力された観測データは、コンピュータ400に入力される。この観測データには、mRNAに含まれるエクソン全体に関するエクソン発現プロファイルが反映されている。コンピュータ400においては、入力装置402を介してエクソン・アレイ401から入力された観測データに対し、CPU403において、統計処理が行われる。この統計処理の際には、必要に応じて、エクソン・アレイ401から得られたデータに含まれる観測バイアスを除去するバックグラウンドの修正を行う前処理がなされ、観測バイアスが除去されたデータに対して統計処理が実行され、更に、統計処理の結果として得られるデータから個体差などの原因に由来する交絡因子を除去する後処理がなされる。これら一連のデータ処理は、記憶装置404に記憶されているコンピュータ・プログラムを構成する一連の命令に従い、CPU403によって実行される。統計処理の結果は、記憶装置404に記憶される。以上の手順を複数のサンプルについて実行し、その結果は、記憶装置404の中に累積される。CPU403は、複数のサンプルに関する処理結果を記憶装置404から読み出して比較する。複数のエクソン発現プロファイルを比較した結果は、ディスプレイなどの出力装置405から出力され、疾患特異的な選択的スプライシングの同定に利用される。また、外部のデータベース406に蓄積されているデータとの比較も可能である。
図5には、以上のようにコンピュータ・ハードウェアとコンピュータ・プログラムとの協働により実現される一連のデータ解析が、フローチャート形式で図解されている。最初に、ステップ501では、サンプルであるmRNAがエクソン・アレイ401に入力される。ステップ502では、エクソン・アレイ401は、入力されたmRNAに含まれるエクソンを検出する。ステップ503では、エクソン・アレイによって検出された観測データが、入力装置401を介してコンピュータ400の入力される。ステップ504では、CPU403によって所定の統計処理が行われ、エクソン発現プロファイルが得られる。ステップ505では、統計処理によって得られたエクソン発現プロファイルが記憶装置404に記憶される。ステップ506では、記憶装置404に記憶されている複数のサンプルに関するエクソン発現プロファイルが、CPU403において比較される。比較された結果は、ステップ507において、ディスプレイなどの出力装置405に出力される。
以下の実施例においては、本発明者らは本発明の方法を、結腸直腸癌のエクソン発現データに適用し、本発明の方法が有効であることを確認した。データセットは、アフィメトリクス社が、エクソンアレイデータ解析技術の開発を行う第三者に配布したものである。本発明の方法は、広範な種類の腫瘍特異的な転写によるアイソフォームを検出することが可能であった。そのうちのいくつかは、たとえば、いくつかの公知の結腸癌のバイオマーカー、およびAltSpliceデータベース(http://www.ebi.ac.uk/asd/)のような公的に利用可能な選択的スプライシングのデータベース、などの現在までに得られている生物学的知見に関連することが確かめられた。パイオニア的発明として、本発明は、全エクソンマイクロアレイデータの統計学的解析の潜在的な役割を強調し、そして、選択的スプライシングの全ゲノム研究に対してのいくつかの有望な方針を示すものである。本発明は、より進歩した統計学的技術の開発についての重要な第一歩である。
以下、実施例によって本発明を具体的に説明するが、これらは本発明の技術的範囲を限定するためのものではない。当業者は本明細書の記載に基づいて容易に本発明に修飾・変更を加えることができ、それらは本発明の技術的範囲に含まれる。
1.材料と方法
1−1. プローブデザイン
GeneChip(登録商標) Human Exon 1.0 ST Array上には、550万を超える大量のプローブが保持されており、100万を超えるエクソンの発現プロファイルをモニターする。この新技術に伴って、本発明者らはエクソンレベルでの細胞の遺伝子発現プログラム、具体的には、選択的スプライシング(例えば、エクソンスキッピング、イントロン保持、相互に排他的なエクソン使用、選択的プロモーター使用、選択的ポリアデニル化、など)の調節機構、を明らかにすることを目的とした。
1−1. プローブデザイン
GeneChip(登録商標) Human Exon 1.0 ST Array上には、550万を超える大量のプローブが保持されており、100万を超えるエクソンの発現プロファイルをモニターする。この新技術に伴って、本発明者らはエクソンレベルでの細胞の遺伝子発現プログラム、具体的には、選択的スプライシング(例えば、エクソンスキッピング、イントロン保持、相互に排他的なエクソン使用、選択的プロモーター使用、選択的ポリアデニル化、など)の調節機構、を明らかにすることを目的とした。
GeneChip(登録商標) Human Exon 1.0 ST Arrayは、包括的なプローブ設計戦略を採用しており、十分にアノテーションされたヒト遺伝子および豊富な新規転写物の双方についてのほとんどのエクソン領域をサポートする。このマイクロアレイシステムに、全部で100万を超えるエクソン領域が登録されている。プローブ配列は2種のゲノム源、すなわち、ヒトRefSeq mRNAs、GenBank、およびdbESTからのESTsを含むcDNAに基づくコンテンツ、ならびに、GENSCAN、TWINSCAN、Ensemble等により予測された遺伝子構造配列、に基づいて設計されている。大多数のプローブセットは、4つの長さ25bpの完全マッチ(PM)プローブで構成される一方、約10%のエクソンプローブセットについてのプローブ数は、プローブ選択領域の長さおよび配列の制約のため、4未満に制限されている。このマイクロアレイプラットフォームにおいては、データの標準化、例えばモニターされたプローブ強度のバックグラウンド補正を行うのに、ミスマッチのない(MM)プローブは利用可能ではない。MMプローブの代わりに、アフィメトリクス社によってデザインされたバックグラウンドプローブ(BGP)について観察された強度に基づく、観測量のバイアスを推測して除去することができる。BGPはゲノム性および非ゲノム性のプローブで構成される。ゲノム性BGPは、NCBI build 31に基づくヒトエクソンアレイデザインの研究プロトタイプから選択された。非ゲノム性バックグラウンドプローブ配列は、ヒト(NCBI build 34)、マウス(NCBI build 32)、またはラット(HGSC build 3.1)ゲノムにおいて見られなかった参照配列に基づく。BGPデザインについての詳細は、アフィメトリクス社のデータシートを参照のこと(http://www.affymetrix.com/suppprt/technical/datasheets/exon_arraydesign_datasheet.pdf)。
GeneChip(登録商標) Human Exon 1.0 ST Arrayにおいては、転写物クラスターIDが全ヒトゲノム上の各遺伝子座に割り当てられている。さらに、エクソン特異的シグナル強度を定量するために、各エクソンは、プローブセットのそれぞれが約4のプローブを含む、いくつかのプローブセットに渡っている。標的細胞についてのハイブリダイゼーションの後、各エクソンの発現値を、対応するプローブ強度に基づいて予測する。特定の位置におけるプローブ強度の観測されたパターンに基づいて、スプライシングアイソフォームを予測することができる(図6)。
1−2. 組織試料
本発明者は、http://www.affymetrix.com/support/technical/sample_data/exon_array_data.affxより現在公衆に利用可能な、アーリーアクセス一本鎖全転写物アッセイ(WTA)結腸癌データセット、の解析を通じて、GeneChip(登録商標) Human Exon ST 1.0 Arrayの潜在的な適用可能性について検討した。このデータセットは元来、第三者のソフトウェア開発者のために作られたものである。結腸癌腫瘍から得られた全RNAを、それらの対応する近接した正常組織のものに対して比較した。10の異なる個体から単離された、10の結腸癌腫瘍/正常組織の対について検討した。従って、全部で20の、技術的に複製されていない試料が調製された。試料情報のより詳細を表1に示す。
本発明者は、http://www.affymetrix.com/support/technical/sample_data/exon_array_data.affxより現在公衆に利用可能な、アーリーアクセス一本鎖全転写物アッセイ(WTA)結腸癌データセット、の解析を通じて、GeneChip(登録商標) Human Exon ST 1.0 Arrayの潜在的な適用可能性について検討した。このデータセットは元来、第三者のソフトウェア開発者のために作られたものである。結腸癌腫瘍から得られた全RNAを、それらの対応する近接した正常組織のものに対して比較した。10の異なる個体から単離された、10の結腸癌腫瘍/正常組織の対について検討した。従って、全部で20の、技術的に複製されていない試料が調製された。試料情報のより詳細を表1に示す。
2. データの正規化および異常観測値の検出:
エクソンアレイ上のプローブの高いGC含有量に起因するバイアスを事前に除去することは、以降の転写物解析における擬陽性率低下のために必要不可欠である。
エクソンアレイ上のプローブの高いGC含有量に起因するバイアスを事前に除去することは、以降の転写物解析における擬陽性率低下のために必要不可欠である。
アフィメトリクス社のテクニカルノート(Exon array background correction v1.0, http://www.affymetrix.com/support/technical/whitepapers/exon_background_correction_whitepaper.pdf)に従って、非ゲノム性BGPを用い、同じGC含有量を有するバックグラウンドプローブ(BGP)の発光強度の対数平均(log(BGP))を用い、log(未処理の強度)−log(BGP)に基づくバックグラウンド補正を適用して、GC含有量依存性バックグラウンド強度を推定した(図2)。このバックグラウンド強度推定によってもGC含有量の高い部分については値の正確性が期待できなかったため、以下の転写産物解析から22以上のGC含有量を有するプローブデータを排除した。
3. 分散分析を用いた全転写産物解析
3−1.分散分析(ANOVA)
観測されたプローブ強度xijkから、スプライシング過程が、エクソンアレイ上のある位置においてどのように作用するのかを分散分析(ANOVA)により導いた。xijkは、バックグラウンド修正済のプローブ強度であり、iはターゲットとなる遺伝子座のエクソン番号(i=1,・・・,m)に対応し、jは正常細胞j=1及び腫瘍細胞j=2のそれぞれに対応し、そしてkはプローブの番号(k=1,・・・,ni)に対応する。
3−1.分散分析(ANOVA)
観測されたプローブ強度xijkから、スプライシング過程が、エクソンアレイ上のある位置においてどのように作用するのかを分散分析(ANOVA)により導いた。xijkは、バックグラウンド修正済のプローブ強度であり、iはターゲットとなる遺伝子座のエクソン番号(i=1,・・・,m)に対応し、jは正常細胞j=1及び腫瘍細胞j=2のそれぞれに対応し、そしてkはプローブの番号(k=1,・・・,ni)に対応する。
スプライシングされた腫瘍細胞特異的な遺伝子座の検出に関する問題は、両方の細胞のタイプにおいて異なる発現を生じているエクソン領域を示す、エクソンアレイ上の位置の集合を見出すことである。この目的のために、次のような単純な固定効果モデル:
xijk=μ+αi+βj+γij+εijk
に基づいて、古典的な分散分析(ANOVA)を行った。
xijk=μ+αi+βj+γij+εijk
に基づいて、古典的な分散分析(ANOVA)を行った。
この数式において、μは、全プローブに共通のプローブ強度の全体の平均を表す。パラメータαi(i=1,・・・,m)は、m個のエクソン領域に対するベースライン強度の変化に対する応答である。評価されたαiは、両方の細胞タイプの間で共有されるスプライシングによる変動の存在に対して、1又は複数の異なる値をとることが予想される。パラメータβjは、正常細胞と腫瘍細胞との間の全体平均の差に対応する。評価されたβjは、両方の細胞タイプにおける遺伝子発現レベルの変化に応答して、異なる値を取りうる。パラメータγijは、m個のエクソンと2つの細胞カテゴリとのそれぞれの組合せに対する相互作用効果を表す。
このように、αi、βj、γijを評価することにより、結果的に、プローブの応答を、エクソン効果と、全体的な遺伝子効果と特定のスプライシング事象の効果との3つの相互に独立な(orthogonal)効果に分解した。選択的スプライシングが一方の細胞に存在し他方の細胞に存在しない場合には、評価されたγijの少なくとも1つの値が相互に異なる。相互作用パラメータγijの評価により、腫瘍特異的な選択的スプライシングの効果を捕捉することができる(図3)。
それぞれの効果の有意性を観測強度を用いて評価するため、発明者らは、以下のような統計的検定を行った。
第1に、エクソン効果に関する検定では、帰無仮説(H0)として、任意のi≠jに対してαi=αjと仮定し、対立仮説(H1)として、少なくとも1対の{i≠j}に対してαi≠αjと仮定した。
第1に、エクソン効果に関する検定では、帰無仮説(H0)として、任意のi≠jに対してαi=αjと仮定し、対立仮説(H1)として、少なくとも1対の{i≠j}に対してαi≠αjと仮定した。
第2に、全体的な遺伝子効果に関する検定では、H0として、β1=β2と仮定し、H1として、β1≠β2と仮定した。
第3に、腫瘍特異的な選択的スプライシングの効果に関する検定では、H0として、任意の{i,j}≠{h,k}に対してγij=γhkと仮定し、H1として、少なくとも1対の{i,j}及び{h,k}に対してγij≠γhkと仮定した。
第3に、腫瘍特異的な選択的スプライシングの効果に関する検定では、H0として、任意の{i,j}≠{h,k}に対してγij=γhkと仮定し、H1として、少なくとも1対の{i,j}及び{h,k}に対してγij≠γhkと仮定した。
すべての相互作用項が等しいという帰無仮説が棄却されると、腫瘍形成と何らかの意味で関連がある遺伝子座である可能性が高いことが示唆される。ヒト・エクソン・マイクロアレイによって得られる遺伝子座全体に対してANOVAを反復的に適用することにより、全ヒトゲノム上の遺伝子座に対して腫瘍特異的なスプライシングの有無を評価し、第3の検定における帰無仮説のp値をそれぞれの遺伝子座に割り当てることができた。
3−2.結果
(1) 直腸癌特異的スプライス変異の検出
正常細胞および腫瘍細胞の間で共有される選択的スプライシング、遺伝子発現レベルの全体の差、および、腫瘍特異的スプライス変異、の有意性について分散分析(ANOVA)でp値を計算した。GeneChip(登録商標) Human Exon 1.0 ST Array上に保持されたプローブ全部(500万を超える)を、この分析に用いた。全体で300,000の転写物クラスターの中で、それぞれ5%または1%有意性レベルを選択することにより、3016および1470遺伝子座が腫瘍特異的スプライス変異を生じると同定された。転写物クラスターについて繰り返しF−テストを行ったので、本発明の方法は多様な比較を伴っており、そして、p値はそのように解釈されるべきである。バイアスした擬陽性率を補正するために、ややより厳しいp値の閾値を選んだ。よって、規準として、同定した有意性のある座における擬陽性発見率を評価するq値(Storey, J. D., Journal of the Royal Statistical Society, Series B, Vol. 64: 479-498, 2002)を計算した。結果を表2に示した。
(1) 直腸癌特異的スプライス変異の検出
正常細胞および腫瘍細胞の間で共有される選択的スプライシング、遺伝子発現レベルの全体の差、および、腫瘍特異的スプライス変異、の有意性について分散分析(ANOVA)でp値を計算した。GeneChip(登録商標) Human Exon 1.0 ST Array上に保持されたプローブ全部(500万を超える)を、この分析に用いた。全体で300,000の転写物クラスターの中で、それぞれ5%または1%有意性レベルを選択することにより、3016および1470遺伝子座が腫瘍特異的スプライス変異を生じると同定された。転写物クラスターについて繰り返しF−テストを行ったので、本発明の方法は多様な比較を伴っており、そして、p値はそのように解釈されるべきである。バイアスした擬陽性率を補正するために、ややより厳しいp値の閾値を選んだ。よって、規準として、同定した有意性のある座における擬陽性発見率を評価するq値(Storey, J. D., Journal of the Royal Statistical Society, Series B, Vol. 64: 479-498, 2002)を計算した。結果を表2に示した。
表2は、相互作用パラメータγijについて、有意性のある遺伝子の一部であって、得られたp値が、最も小さい方から20番目までの遺伝子を示す。最も小さいp値を得た遺伝子は、ホモ・サピエンス ラミニン アルファ3をコードするLAMA3(RefSeq ID:NM198129)であった。ラミニンは、他の細胞外マトリクス成分との相互作用により、真核生物の発生の際、細胞の組織への付着、遊走および組織化を仲介する基底膜成分である。この遺伝子にコードされるタンパク質は、ラミニン5のα−3鎖である。ラミニン5は、3つのサブユニット(アルファ、ベータ、およびガンマ)で構成される複合糖タンパク質である。ラミニン5は、細胞接着、シグナル伝達、およびケラチノサイトの分化に関与すると考えられている。
多様なアイソフォームをコードする選択的スプライシングされた転写による変異体が同定された。例えば、AltSpliceデータベース(http://www.ebi.ac.uk/asd/ ; European Bioinformatics Institute)には、LAMA3の5個のスプライスバリアントが登録されている(AltSplice-Human: Entry ENSG00000053747)。これらのスプライスバリアント、すなわちsp1、sp2、sp3、sp4、およびsp5は、図7の左パネルに、右パネルの正常細胞および腫瘍細胞についてのプローブ強度の観察されたパターンと共に示されている。観察されたプローブ強度のパターンは、スプライス変異は腫瘍細胞特異的であったことを示す。具体的には、腫瘍細胞において、chr18:19705029−19786890(+)周辺のエクソン領域が、正常の対照細胞よりも高度に発現していた。図7の左パネルにおいて、腫瘍細胞に特異的なスプライス型の予測を示す。ここで、有意に発現したエクソン領域は、エクソン領域におけるプローブ強度の平均値は0に等しいという帰無仮説についてのt検定を繰り返し適用することにより同定された。この観察結果は、腫瘍細胞におけるLAMA3の観察された発現パターンは、公知の転写変異体sp3またはsp4におおよそ対応することを示している。
次に、ロイシンリッチリピートを含むGタンパク質共役型受容体5をコードするLGR5(GPR49)に着目した。図8はAltSpriceデータベースに登録された3つのスプライスバリアント、および、腫瘍細胞に特異的なスプライス変異および左パネルに示されているようなスプライスバリアントの型を予測する、観察されたプローブ強度を示す。LGR5は、甲状腺刺激ホルモン受容体(TSHR)、卵胞刺激ホルモン受容体(FSHR)、および黄体形成ホルモン受容体(LHR)を含む、糖タンパク質ホルモン受容体サブファミリーの一員である。Yamamotoらの文献(Yamamoto, Y., et al., HEPATOLOGY, Vol.37, 528-533, 2003)によると、LGR5の過剰発現は、β−カテニン エクソン3の変異とともに、HCC(肝臓癌)においてしばしば観察された(16症例中14例、87.5%)。さらに、変異型β−カテニンを培養中のマウス肝細胞に導入すると、LGR5マウスホモログのアップレギュレーションが引き起こされた。観察された事実からYamamotoらは,LGR5はWnt−シグナリングにより活性化される標的遺伝子であると結論づけた。Wntシグナリングは、遊離の細胞質β−カテニンの不安定化の引き金となることが知られている。加えて、β−カテニンは、カドヘリンに仲介される細胞−細胞接着にも関与する。最近、β−カテニンの異常な活性化は、種々の腫瘍、特に直腸結腸癌の始まりに寄与することが確立された(Bienz, M. and Clecers, H., Cell, Vol.103, 311-320, 2000;Polakis, P., Genes Dev., Vol.14, 1837-1851, 2000を参照)。
続いて、有意に特異的なスプライス変異を伴う同定された遺伝子について、Wntシグナリングとの関連において、議論する。Wntシグナリングおよび結腸癌についてのいくつかの優れた総説がある(Bienz, M. and Clevers, H., Cell, Vol.103, 311-320, 2000; Polakis, P., Genes Dev., Vol.14, 1837-1851, 2000)。腺腫性結腸ポリープ症(APC)、グリコーゲンシンターゼキナーゼ GSK−3β、および転写性コファクター β−カテニンは、この経路において中心的な役割を果たす。β−カテニンは、カドヘリン関連タンパク質,ベータ1(CTNNB1)をコードすることが知られており、そして、安定化し、核へと移行して、T細胞因子(Tcf)/リンパ系促進因子(LEF)ファミリーの転写因子のメンバーに結合して標的遺伝子発現を誘導する。標準的なWntシグナリング経路の下流標的は、細胞増殖に重要ないくつかの遺伝子を含み、癌の発達におけるWntシグナリングの重要性を強調する。例えば、c−myc、c−Jun、c−Fos、CLDN1、サイクリンD1(CCND1)、MMP3、などである。図9はWntシグナリング経路のまとめを示す。特異的なスプライス変異の証拠と共に同定された遺伝子を赤で示した。例えば、TRANSPATH(http://www.transpath.com/)は、Wntシグナリング標的遺伝子であるc−Junおよびc−Fosは、MET(ここでMETは、有意なp値 1.34×10−6を有する特異的スプライス変異を有し、かつ、met プロト−オンコジーン(肝細胞増殖因子受容体)をコードする)を調節することが知られていることを示唆している。有意な遺伝子CDLN1およびCDH11(カドヘリン)のいずれかは、膜貫通タンパク質をコードし、細胞接着分子を生じる。この経路において、例えば、c−myc、MMP3、MMP12、CDCA7、MAT2A、ETS2について、ずっと有意なスプライス変異が観察された。さらに、遺伝子レベルにおいて、APC(腺腫性結腸ポリープ症)およびβ−カテニンは、正常細胞および腫瘍細胞の間で差次的に発現すると判断された(全体としての遺伝子効果βjのp値は、それぞれ、3.03×10−46および5.72×10−20であった)。Wnt経路において、APCタンパク質は通常β−カテニンに細胞質で結合する。この結合は、遊離のβ−カテニンの迅速な分解へと導く。他方、APC遺伝子の不活性化はβ−カテニンの減少した分解の引き金となる。このことは、β−カテニンの核における異常な蓄積、および蓄積したβ−カテニンは、Wnt標的遺伝子として働く転写因子TCF/LEFに結合するという結果を招く。この実験において、我々は正常細胞におけるAPCの発現の存在を観察したが、腫瘍細胞においては存在しなかった。逆に、β−カテニンは腫瘍細胞において特異的に高発現していた。この観察結果は、上記の遺伝子制御機構と矛盾がない。
GeneChip(登録商標) Human Exon ST Arrayの登場は、選択的スプライシングの機能的制御についての全ゲノム解析に道を開くものである。本発明者は、本発明の統計学的解析を伴うマイクロアレイプラットフォームについての、結腸癌の出現を引き起こすかも知れない、または結腸癌の出現により引き起こされる、スプライシング変異を発見することについての可能性を議論した。本発明の方法は、エクソン発現プロファイルの全ゲノム統計学的解析について新規データを生み出した、最初のものである。ANOVA法は、腫瘍関連スプライス変異の証拠を、3000を超える遺伝子座について自動的に同定した。次いで、いくつかの同定されたスプライス変異と既に存在する生物学的知見の関連を解明した。本発明の方法により得られた、観察されたスプライシングパターンのいくつかは、AltSpliceデータベースに登録されている転写によるアイソフォームと高度に一致した。さらに、スプライシング変異を、結腸直腸癌の現れに関与することが知られているWntシグナリング経路における、遊離のβ−カテニンの異常な蓄積と関連づけるために、経路レベル解析を行った。これらの結果は、エクソン発現データの統計学的解析の潜在的な力を強調するのに十分である。
4.メタアナリシス
ヒトの疾患の解析においては、選択的スプライシングの制御機構にいくらかの影響がある個体特異性、例えば、性別、年齢、SNPs等の問題を扱う必要があることは強調すべきである。例えば、現在の腫瘍形成研究が報告していることによると、結腸腫瘍は女性優位的であり、遺伝子のある集合は、男性から得られた試料において、女性の結腸癌患者と比較して、有意差をもって過剰に発現することが知られている(Issa, J-P. J., et al., Cancer Research, Vol.61, 3573-3577, 2001)。更に、年齢や腫瘍差の程度など別の非特異的な因子も、ヒトの結腸癌における遺伝子制御機構に影響する可能性がある。
ヒトの疾患の解析においては、選択的スプライシングの制御機構にいくらかの影響がある個体特異性、例えば、性別、年齢、SNPs等の問題を扱う必要があることは強調すべきである。例えば、現在の腫瘍形成研究が報告していることによると、結腸腫瘍は女性優位的であり、遺伝子のある集合は、男性から得られた試料において、女性の結腸癌患者と比較して、有意差をもって過剰に発現することが知られている(Issa, J-P. J., et al., Cancer Research, Vol.61, 3573-3577, 2001)。更に、年齢や腫瘍差の程度など別の非特異的な因子も、ヒトの結腸癌における遺伝子制御機構に影響する可能性がある。
最終的な目標は、「ユニバーサルバイオマーカー」すなわち、特定の疾患についてすべての個体において共通してミススプライスされる遺伝子座、を発見することである。ユニバーサルバイオマーカー発見に向けての1つの直感的な方針は、全患者にわたって十分に小さいp値が割り当てられる座を同定することである。例えば、上記3.のANOVAの方法を、10の直腸癌患者のそれぞれについてのLGR5(TCID:3422144)およびTDGF1(TCID:2620937)に適用した。10個体の特異的スプライシング変異についてのp値を計算したところ、LGR5について:2.904x10−2;3.751x10−29;3.044x10−7;1.161x10−3;0.9957;4.095x10−22;1.0242x10−23;1.344x10−17;1.874x10−11;0.999;および、TDGH1について:0.9873;0.9326;5.419x10−4;1.656x10−5;0.6622;8.0286x10−6;0.9836;2.2921x10−3;3.5919x10−3;0.84572;であった。LGR5について割り当てられたp値はほとんどの個体において小さかったが、TDGH1は、個体によって変化し、特に、50%異常のスコアが患者No.1、No.2、No.5、No.7、およびNo.10にそれぞれ割り当てられた。実際に、観察されたスプライスパターンは、LGR5についての全実験を通じてほぼ同じであったが、TDGHのそれぞれにおいては異なっていた。後者のプローブ強度のパターンは、非特異的スプライシング因子によって影響を受けていたのであろう。そのような非特異的スプライシング因子の除去が、ヒト疾患のいくつかの型のためのバイオマーカーのセットの選択を成功させるための鍵となる。そのような問題を解決するための1つの直感的な方針は、データを集めた患者すべてに渡って小さなp値を有する遺伝子の群を同定することである。このような直感に従って、フィッシャーのノーマル・インバーション法に含まれる統計的技法を用いた。
G人の個体に対して上記分散分析の手法を適用した結果得られる相互作用項γijに対してp値p1,・・・,pGを計算した。まず、これらのp値を、下記の数式で表される正規化された累積的な分布関数の逆数を用いて併合されたz得点(merged z score)に変換した。
ここで、分母の平方根の中は1に等しく、w>=0であり、Φ−1(x)は、標準正規変動の累積的分布関数の逆数を意味する。統計理論によると、帰無仮説が成立する、すなわち、相互作用の効果がない場合に、かつ、その場合に限り、zi=Φ−1(1−pi)は標準正規分布に従う。従って、ziの任意の重み付き平均もまた、上記の数式の分母の平方根の中が1に等しく、w≧0であるときには常に、標準正規分布に従った分布となる。計算されたp値がすべての個体に対して小さい場合には、併合されたz得点は、ゼロから離れた正の領域に存在する。併合されたp値は、併合されたz得点の累積標準正規分布関数を計算することによって、導かれた。このプロセスは、遺伝子を得た1又は複数の個体が比較的大きなp値を示す遺伝子のp値を自動的にマイナス評価した。
結果
上述のようにフィッシャーのノーマル・インバーション法を行ったところ、10個体のエクソン発現プロファイルから結腸癌特異的な選択的スプライシングが生じる候補遺伝子として、以下の表3に示される遺伝子を同定することができた。
上述のようにフィッシャーのノーマル・インバーション法を行ったところ、10個体のエクソン発現プロファイルから結腸癌特異的な選択的スプライシングが生じる候補遺伝子として、以下の表3に示される遺伝子を同定することができた。
Claims (18)
- コンピュータを用いエクソン発現データから疾患特異的な選択的スプライシングを同定するデータ解析システムであって、
(1)mRNAから観測されたエクソン発現データを入力する入力手段と、
(2)前記入力手段を介して入力されたエクソン発現データの統計処理を行い、当該mRNAに含まれるエクソン全体に関する情報を表すエクソン発現プロファイルを算出する演算手段と、
(3)前記演算手段によって算出されたエクソン発現プロファイルを記憶する記憶手段と、
(4)複数のmRNAに関して前記入力手段と前記演算手段とを介して算出され前記記憶手段に記憶されている複数のエクソン発現プロファイルを読み出し、読み出された複数のエクソン発現プロファイルを比較する比較手段であって、正常細胞から得られた第1のmRNAに関して算出され前記記憶手段に記憶されている第1のエクソン発現プロファイルと、異常細胞から得られた第2のmRNAに関して算出され前記記憶手段に記憶されている第2のエクソン発現プロファイルとを比較することにより正常細胞と異常細胞とにおけるエクソン発現プロファイルの差異を同定し、同定された差異に基づき、正常細胞においては生じず異常細胞において生じる疾患特異的な選択的スプライシングを同定する比較手段と、
を備えていることを特徴とするデータ解析システム。 - コンピュータを用いmRNAにおける疾患特異的な選択的スプライシングを同定するデータ解析システムであって、
(0)mRNAを入力する入力手段と前記入力手段を介して入力されたmRNAに含まれる特定のエクソンの有無を個別的に検出し、当該mRNAに含まれるエクソン全体に関するエクソン発現データを出力する検出手段と、
(1)前記検出手段によってmRNAから観測されたエクソン発現データを入力する入力手段と、
(2)前記入力手段を介して入力されたエクソン発現データの統計処理を行い、当該mRNAに含まれるエクソン全体に関する情報を表すエクソン発現プロファイルを算出する演算手段と、
(3)前記演算手段によって算出されたエクソン発現プロファイルを記憶する記憶手段と、
(4)複数のmRNAに関して前記入力手段と前記演算手段とを介して算出され前記記憶手段に記憶されている複数のエクソン発現プロファイルを読み出し、読み出された複数のエクソン発現プロファイルを比較する比較手段であって、正常細胞から得られた第1のmRNAに関して算出され前記記憶手段に記憶されている第1のエクソン発現プロファイルと、異常細胞から得られた第2のmRNAに関して算出され前記記憶手段に記憶されている第2のエクソン発現プロファイルとを比較することにより正常細胞と異常細胞とにおけるエクソン発現プロファイルの差異を同定し、同定された差異に基づき、正常細胞においては生じず異常細胞において生じる疾患特異的な選択的スプライシングを同定する比較手段と、
を備えていることを特徴とするデータ解析システム。 - 請求項1又は請求項2に記載のデータ解析システムにおいて、前記演算手段は、
前記エクソン発現データに含まれる観測バイアスを除去するバックグラウンド修正を行う前処理手段と、
前記前処理手段により観測バイアスが除去されたデータに対して統計処理を行う統計処理手段と、
前記統計処理手段によって行われた統計処理の結果として得られるデータから個体差を含む原因に由来する交絡因子を除去する後処理手段と、
を更に備えており、前記前処理手段と前記統計処理手段と前記後処理手段とによるデータ処理を介してエクソン発現プロファイルを算出することを特徴とするデータ解析システム。 - 請求項2又は請求項3に記載のデータ解析システムにおいて、
前記検出手段は前記入力手段を介して入力されたmRNAに含まれるエクソンの有無を表す生化学的情報を発光強度として出力する多数のプローブから構成された光学アレイであることを特徴とするデータ解析システム。 - 請求項4記載のデータ解析システムにおいて、
前記前処理手段によって除去される観測バイアスは、前記入力手段を介して入力されたmRNAに含まれるGC含有量が多い場合に生じるプローブの発光強度の上方バイアスを含むことを特徴とするデータ解析システム。 - 請求項4又は請求項5に記載のデータ解析システムにおいて、前記統計処理手段は、
正常細胞j=1及び異常細胞j=2のそれぞれに対し、i番目のエクソン(i=1,・・・,m)とk番目のプローブ(k=1,・・・,ni)とに対応するバックグラウンド修正済のプローブ強度をxijkで表し、このプローブ強度xijkを、m個のエクソン領域に対するベースライン強度の変化に対する応答であり正常及び異常の両方の細胞に共通するスプライシングによる変動の存在に応答して1又は複数の異なる値をとりうるパラメータαi(i=1,・・・,m)と、正常細胞と異常細胞との間の全体平均の差に対応し正常及び異常の両方の細胞タイプにおける遺伝子発現レベルの変化に応答して異なる値を取りうるパラメータβjと、m個のエクソンと正常及び異常の2つの細胞との組合せに対する相互作用効果を表しスプライシングが一方の細胞に存在し他方の細胞に存在しない場合には少なくとも1つの値が相互に異なる可能性が高いパラメータγijとを含む和xijk=μ+αi+βj+γij+εijkとして表現することにより、発光強度としてプローブによって生じる応答を、エクソン効果αiと、全体的な遺伝子レベルでのエクソン発現差の効果βiと、特定のスプライシング事象の効果γijとの3つの相互に独立な効果に分解し、それぞれの効果について統計的検定を行うことにより、疾患特異的な選択的スプライシングを同定する分散分析手段を更に含むことを特徴とするデータ解析システム。 - 請求項6記載のデータ解析システムにおいて、前記分散分析手段によって行われる統計的検定では、第1に、エクソン効果に関する検定では、帰無仮説(H0)として、任意のi≠jに対してαi=αjと仮定し、対立仮説(H1)として、少なくとも1対の{i≠j}に対してαi≠αjと仮定し、第2に、全体的な遺伝子効果に関する検定では、H0として、β1=β2と仮定し、H1として、β1≠β2と仮定し、第3に、疾患特異的な選択的スプライシングの効果に関する検定では、H0として、任意の{i,j}≠{h,k}に対してγij=γhkと仮定し、H1として、少なくとも1対の{i,j}及び{h,k}に対してγij≠γhkと仮定して統計的検定が実行されることを特徴とするデータ解析システム。
- 請求項6又は請求項7に記載のデータ解析システムにおいて、前記後処理手段は、
フィッシャーのノーマル・インバーション法を用いて、同定された疾患特異的なスプライシングのリストから小さなp値を有するスプライス変異を見出すことにより交絡因子を除去する手段であって、G人の個体に対して前記分散分析を適用した結果得られる相互作用項γijに対してp値p1,・・・,pGを計算し、これらのp値を、下記の数式で表される正規化された累積的な分布関数の逆数を用いて併合されたz得点(merged z score)に変換し、
- コンピュータを用いエクソン発現データから疾患特異的な選択的スプライシングを同定するデータ解析方法であって、
(1)mRNAから観測されたエクソン発現データを入力する入力ステップと、
(2)前記入力ステップを介して入力されたエクソン発現データの統計処理を行い、当該mRNAに含まれるエクソン全体に関する情報を表すエクソン発現プロファイルを算出する演算ステップと、
(3)前記演算ステップによって算出されたエクソン発現プロファイルを記憶する記憶ステップと、
(4)複数のmRNAに関して前記入力ステップと前記演算ステップとを介して算出され前記記憶ステップによって記憶されている複数のエクソン発現プロファイルを読み出し、読み出された複数のエクソン発現プロファイルを比較する比較ステップであって、正常細胞から得られた第1のmRNAに関して算出され前記記憶ステップによって記憶されている第1のエクソン発現プロファイルと、異常細胞から得られた第2のmRNAに関して算出され前記記憶ステップよってに記憶されている第2のエクソン発現プロファイルとを比較することにより正常細胞と異常細胞とにおけるエクソン発現プロファイルの差異を同定し、同定された差異に基づき、正常細胞においては生じず異常細胞において生じる疾患特異的な選択的スプライシングを同定する比較ステップと、
を備えていることを特徴とするデータ解析方法。 - コンピュータを用いmRNAにおける疾患特異的な選択的スプライシングを同定するデータ解析方法であって、
(0)mRNAを入力する入力ステップと前記入力ステップを介して入力されたmRNAに含まれる特定のエクソンの有無を個別的に検出し、当該mRNAに含まれるエクソン全体に関するエクソン発現データを出力する検出ステップと、
(1)前記検出ステップによってmRNAから観測されたエクソン発現データを入力する入力ステップと、
(2)前記入力ステップを介して入力されたエクソン発現データの統計処理を行い、当該mRNAに含まれるエクソン全体に関する情報を表すエクソン発現プロファイルを算出する演算ステップと、
(3)前記演算ステップによって算出されたエクソン発現プロファイルを記憶する記憶ステップと、
(4)複数のmRNAに関して前記入力ステップと前記演算ステップとを介して算出され前記記憶ステップによって記憶されている複数のエクソン発現プロファイルを読み出し、読み出された複数のエクソン発現プロファイルを比較する比較ステップであって、正常細胞から得られた第1のmRNAに関して算出され前記記憶ステップによって記憶されている第1のエクソン発現プロファイルと、異常細胞から得られた第2のmRNAに関して算出され前記記憶ステップによって記憶されている第2のエクソン発現プロファイルとを比較することにより正常細胞と異常細胞とにおけるエクソン発現プロファイルの差異を同定し、同定された差異に基づき、正常細胞においては生じず異常細胞において生じる疾患特異的な選択的スプライシングを同定する比較ステップと、
を備えていることを特徴とするデータ解析方法。 - 請求項9又は請求項10に記載のデータ解析方法において、前記演算ステップは、
前記エクソン発現データに含まれる観測バイアスを除去するバックグラウンド修正を行う前処理ステップと、
前記前処理ステップにより観測バイアスが除去されたデータに対して統計処理を行う統計処理ステップと、
前記統計処理ステップによって行われた統計処理の結果として得られるデータから個体差を含む原因に由来する交絡因子を除去する後処理ステップと、
を更に備えており、前記前処理ステップと前記統計処理ステップと前記後処理ステップとによるデータ処理を介してエクソン発現プロファイルを算出することを特徴とするデータ解析方法。 - 請求項10又は請求項11に記載のデータ解析方法において、
前記検出ステップは、前記入力ステップを介して入力されたmRNAに含まれるエクソンの有無を表す生化学的情報を発光強度として出力する多数のプローブから構成された光学アレイを用いて行われることを特徴とするデータ解析方法。 - 請求項12記載のデータ解析方法において、
前記前処理ステップによって除去される観測バイアスは、前記入力ステップを介して入力されたmRNAに含まれるGC含有量が多い場合に生じるプローブの発光強度の上方バイアスを含むことを特徴とするデータ解析方法。 - 請求項12又は請求項13に記載のデータ解析方法において、前記統計処理ステップは、
正常細胞j=1及び異常細胞j=2のそれぞれに対し、i番目のエクソン(i=1,・・・,m)とk番目のプローブ(k=1,・・・,ni)とに対応するバックグラウンド修正済のプローブ強度をxijkで表し、このプローブ強度xijkを、m個のエクソン領域に対するベースライン強度の変化に対する応答であり正常及び異常の両方の細胞に共通するスプライシングによる変動の存在に応答して1又は複数の異なる値をとりうるパラメータαi(i=1,・・・,m)と、正常細胞と異常細胞との間の全体平均の差に対応し正常及び異常の両方の細胞タイプにおける遺伝子発現レベルの変化に応答して異なる値を取りうるパラメータβjと、m個のエクソンと正常及び異常の2つの細胞との組合せに対する相互作用効果を表しスプライシングが一方の細胞に存在し他方の細胞に存在しない場合には少なくとも1つの値が相互に異なる可能性が高いパラメータγijとを含む和xijk=μ+αi+βj+γij+εijkとして表現することにより、発光強度としてプローブによって生じる応答を、エクソン効果αiと、全体的な遺伝子レベルでのエクソン発現差の効果βiと、特定のスプライシング事象の効果γijとの3つの相互に独立な効果に分解し、それぞれの効果について統計的検定を行うことにより、疾患特異的な選択的スプライシングを同定する分散分析ステップを更に含むことを特徴とするデータ解析方法。 - 請求項14記載のデータ解析方法において、前記分散分析ステップによって行われる統計的検定では、第1に、エクソン効果に関する検定では、帰無仮説(H0)として、任意のi≠jに対してαi=αjと仮定し、対立仮説(H1)として、少なくとも1対の{i≠j}に対してαi≠αjと仮定し、第2に、全体的な遺伝子効果に関する検定では、H0として、β1=β2と仮定し、H1として、β1≠β2と仮定し、第3に、疾患特異的な選択的スプライシングの効果に関する検定では、H0として、任意の{i,j}≠{h,k}に対してγij=γhkと仮定し、H1として、少なくとも1対の{i,j}及び{h,k}に対してγij≠γhkと仮定して統計的検定が実行されることを特徴とするデータ解析方法。
- 請求項14又は請求項15に記載のデータ解析方法において、前記後処理ステップは、
フィッシャーのノーマル・インバーション法を用いて、同定された疾患特異的なスプライシングのリストから小さなp値を有するスプライス変異を見出すことにより交絡因子を除去するステップであって、G人の個体に対して前記分散分析を適用した結果得られる相互作用項γijに対してp値p1,・・・,pGを計算し、これらのp値を、下記の数式で表される正規化された累積的な分布関数の逆数を用いて併合されたz得点(merged z score)に変換し、
- 請求項9ないし請求項16のいずれかの請求項に記載の方法をコンピュータに実行させるプログラムが記憶されたコンピュータ読み取り可能な記憶媒体。
- 請求項9ないし請求項16のいずれかの請求項に記載の方法をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006199899A JP2008027244A (ja) | 2006-07-21 | 2006-07-21 | エクソンアレイ発現プロファイルに基づく疾患特異的選択的スプライシング同定法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006199899A JP2008027244A (ja) | 2006-07-21 | 2006-07-21 | エクソンアレイ発現プロファイルに基づく疾患特異的選択的スプライシング同定法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008027244A true JP2008027244A (ja) | 2008-02-07 |
Family
ID=39117810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006199899A Pending JP2008027244A (ja) | 2006-07-21 | 2006-07-21 | エクソンアレイ発現プロファイルに基づく疾患特異的選択的スプライシング同定法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008027244A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020525888A (ja) * | 2017-10-16 | 2020-08-27 | イルミナ インコーポレイテッド | ディープラーニングベースの異常スプライシング検出 |
JP2021525104A (ja) * | 2018-05-23 | 2021-09-24 | エンビサジェニックス, インコーポレイテッド | 選択的スプライシングの解析のためのシステムおよび方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004152023A (ja) * | 2002-10-30 | 2004-05-27 | Hitachi Ltd | 文字列解析方法 |
JP2005284964A (ja) * | 2004-03-30 | 2005-10-13 | Hitachi Software Eng Co Ltd | 遺伝子発現解析システムにおけるデータ処理及び表示方法、及び、遺伝子発現解析システム |
JP2005352590A (ja) * | 2004-06-08 | 2005-12-22 | Hitachi Ltd | スプライスバリアント配列のマッピング表示方法 |
-
2006
- 2006-07-21 JP JP2006199899A patent/JP2008027244A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004152023A (ja) * | 2002-10-30 | 2004-05-27 | Hitachi Ltd | 文字列解析方法 |
JP2005284964A (ja) * | 2004-03-30 | 2005-10-13 | Hitachi Software Eng Co Ltd | 遺伝子発現解析システムにおけるデータ処理及び表示方法、及び、遺伝子発現解析システム |
JP2005352590A (ja) * | 2004-06-08 | 2005-12-22 | Hitachi Ltd | スプライスバリアント配列のマッピング表示方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020525888A (ja) * | 2017-10-16 | 2020-08-27 | イルミナ インコーポレイテッド | ディープラーニングベースの異常スプライシング検出 |
JP2020525889A (ja) * | 2017-10-16 | 2020-08-27 | イルミナ インコーポレイテッド | 畳み込みニューラルネットワーク(cnns)を使用した異常スプライシング検出 |
JP2020525887A (ja) * | 2017-10-16 | 2020-08-27 | イルミナ インコーポレイテッド | ディープラーニングベースのスプライス部位分類 |
JP2021007035A (ja) * | 2017-10-16 | 2021-01-21 | イルミナ インコーポレイテッド | ディープラーニングベースのスプライス部位分類 |
US11397889B2 (en) | 2017-10-16 | 2022-07-26 | Illumina, Inc. | Aberrant splicing detection using convolutional neural networks (CNNs) |
US11488009B2 (en) | 2017-10-16 | 2022-11-01 | Illumina, Inc. | Deep learning-based splice site classification |
US11837324B2 (en) | 2017-10-16 | 2023-12-05 | Illumina, Inc. | Deep learning-based aberrant splicing detection |
JP2021525104A (ja) * | 2018-05-23 | 2021-09-24 | エンビサジェニックス, インコーポレイテッド | 選択的スプライシングの解析のためのシステムおよび方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6721665B2 (ja) | 目的遺伝子発現の線形結合を用いた細胞信号伝達経路活性の評価 | |
Campagna et al. | Epigenome-wide association studies: current knowledge, strategies and recommendations | |
Pepper et al. | The utility of MAS5 expression summary and detection call algorithms | |
Jin et al. | Contribution of rare inherited and de novo variants in 2,871 congenital heart disease probands | |
DK2734643T3 (en) | EVALUATION OF CELL SIGNALING VACANCY WITH USING PROBABILIST MODELING TARGET EXPRESSION | |
Guryev et al. | Distribution and functional impact of DNA copy number variation in the rat | |
Lin et al. | Whole-genome cartography of estrogen receptor α binding sites | |
Shen et al. | Comprehensive characterization of human genome variation by high coverage whole-genome sequencing of forty four Caucasians | |
Su et al. | Characterizing the role of miRNAs within gene regulatory networks using integrative genomics techniques | |
Wu et al. | Empirical bayes analysis of sequencing-based transcriptional profiling without replicates | |
Aguet et al. | Molecular quantitative trait loci | |
Morris | Fine mapping of type 2 diabetes susceptibility loci | |
Kang et al. | Discovering single nucleotide polymorphisms regulating human gene expression using allele specific expression from RNA-seq data | |
Wang et al. | PHARP: a pig haplotype reference panel for genotype imputation | |
Nishino et al. | Empirical Bayes estimation of semi-parametric hierarchical mixture models for unbiased characterization of polygenic disease architectures | |
Schmit et al. | MicroRNA polymorphisms and risk of colorectal cancer | |
Chen et al. | Precise inference of copy number alterations in tumor samples from SNP arrays | |
Aiello et al. | Platform-independent genome-wide pattern of DNA copy-number alterations predicting astrocytoma survival and response to treatment revealed by the GSVD formulated as a comparative spectral decomposition | |
Vigorito et al. | Detection of quantitative trait loci from RNA-seq data with or without genotypes using BaseQTL | |
JP2008027244A (ja) | エクソンアレイ発現プロファイルに基づく疾患特異的選択的スプライシング同定法 | |
Fan et al. | Methods for Copy Number Aberration Detection from Single-cell DNA Sequencing Data | |
Sun et al. | Mapping of expression quantitative trait loci using RNA-seq data | |
Wang et al. | Robust detection and genotyping of single feature polymorphisms from gene expression data | |
Hu et al. | Detection and analysis of CpG sites with multimodal DNA methylation level distributions and their relationships with SNPs | |
Yoshida et al. | A statistical framework for genome-wide discovery of biomarker splice variations with GeneChip Human Exon 1.0 ST Arrays |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090428 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110912 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120322 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120717 |