JP2004113188A - 発現レベル情報の解析方法および解析装置 - Google Patents
発現レベル情報の解析方法および解析装置 Download PDFInfo
- Publication number
- JP2004113188A JP2004113188A JP2002284125A JP2002284125A JP2004113188A JP 2004113188 A JP2004113188 A JP 2004113188A JP 2002284125 A JP2002284125 A JP 2002284125A JP 2002284125 A JP2002284125 A JP 2002284125A JP 2004113188 A JP2004113188 A JP 2004113188A
- Authority
- JP
- Japan
- Prior art keywords
- expression level
- expression
- data
- coordinate axis
- mark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
【課題】データ群同士の発現レベル情報を簡単に比較することができるものとする。
【解決手段】第1のデータ群における発現配列の発現レベルに対応する第1の座標軸10を表示し、第2のデータ群における発現配列の発現レベルに対応する、第1の座標軸10に対して実質的に垂直な第2の座標軸20を表示する。第1および第2のデータ群に共通する各発現配列毎に、第1の座標軸10および第2の座標軸20により規定される座標上に、両データ群の発現レベルを示すマーク11を表示する。その際、マーク11は、第1の座標軸10に平行で第1のデータ群のばらつきを示すエラーバー12と、第2の座標軸20に平行で第2のデータ群のばらつきを示すエラーバー13とによって表示する。
【選択図】 図1
【解決手段】第1のデータ群における発現配列の発現レベルに対応する第1の座標軸10を表示し、第2のデータ群における発現配列の発現レベルに対応する、第1の座標軸10に対して実質的に垂直な第2の座標軸20を表示する。第1および第2のデータ群に共通する各発現配列毎に、第1の座標軸10および第2の座標軸20により規定される座標上に、両データ群の発現レベルを示すマーク11を表示する。その際、マーク11は、第1の座標軸10に平行で第1のデータ群のばらつきを示すエラーバー12と、第2の座標軸20に平行で第2のデータ群のばらつきを示すエラーバー13とによって表示する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、DNAチップ等から得られる発現レベル情報を解析する方法およびその解析装置に関するものである。
【0002】
【従来の技術】
マイクロアレイ解析システムやマクロアレイ解析システムにおいては、メンブレンなどの多孔性膜表面の異なる位置に、リガンドまたはレセプタ(ホルモン類、腫瘍マーカー、酵素、抗体、抗原、アブザイム、その他のタンパク質、核酸、cDNA、DNA、RNAなど、生体由来の物質と特異的に結合可能で、かつ、塩基配列や塩基の長さ、組成、特性などが既知の物質)を含む溶液を滴下して多数のスポット状領域を形成し、放射線標識物質、蛍光物質、化学発光基質と接触させることによって化学発光を生じさせる標識物質などによって標識された標識レセプタまたは標識リガンド(ホルモン類、腫瘍マーカー、酵素、抗体、抗原、アブザイム、その他のタンパク質、核酸、DNA、mRNAなどの抽出、単離などによって生体から採取された、あるいは、採取された後に化学的処理が施された物質であって、放射線標識物質、蛍光物質、化学発光基質などの標識物質によって標識された物質)を、スポット状領域に含まれているリガンドまたはレセプタにハイブリダイズ等させてリガンドまたはレセプタと特異的に結合させ、多数のスポット状領域に選択的に含まれている放射性標識物質によって蓄積性蛍光体シートの輝尽性蛍光体層を露光し、露光された輝尽性蛍光体層を励起光によって走査して、輝尽性蛍光体層に含まれている輝尽性蛍光体を励起し、輝尽性蛍光体から放出された輝尽光を光電的に検出して生化学解析用データを生成し、あるいは、多数のスポット状領域を励起光によって走査して多数のスポット状領域に選択的に含まれている蛍光物質を励起し、蛍光物質から放出された蛍光を光電的に検出して生化学解析用データを生成し、あるいは、多数のスポット状領城に選択的に含まれている標識物質を化学発光基質と接触させ、標識物質から放出される化学発光を光電的に検出して生化学解析用データを生成することが行われている。
【0003】
このシステムによれば、スライドガラス板やメンブレンフィルタなどの担体表面上の異なる位置に、数多くのリガンドまたはレセプタのスポットを高密度に形成して、標識物質によって標識された標識レセプタまたは標識リガンドをハイブリダイズさせることによって、短時間で生体由来の物質を解析することが可能になるという利点がある。
【0004】
さまざまな疾患は、遺伝学的見地から、血友病、筋ジストロフィーなどの1つの遺伝子のまれな突然変異が発症の原因となる単一遺伝子疾患(遺伝病)と、癌、糖尿病、慢性関節リウマチ、痛風、高脂血症、高血圧、動脈硬化、アルツハイマー型痴呆、気管支喘息、心臓疾患、アレルギー、アトピー、精神疾患などのように多数の異なる遺伝子と環境因子との相加作用が発症に関与する多因子疾患に大別される。発症が遺伝子に関与する疾患は、特定の遺伝子のDNAの転写数の変化または転写レベルの変化(例えば開始の制御、RNA前駆体の提供、RNAプロセシング等)といった、様々な遺伝子の発現レベルの違いによって特徴付けられるため、疾病を有する個人および正常な個人の両方において多数の遺伝子の発現レベルを分析することにより、疾病状態の診断に関連する発現レベルを有する遺伝子を同定、解析することが可能となる。
【0005】
遺伝子を解析するDNAマイクロアレイ(以下、DNAチップという)等から遺伝子の発現レベル情報を得るためには、DNAチップ上に多くの種類の遺伝子が載せる必要があり、また疾病状態の診断に関連する発現レベルを有する遺伝子を同定する場合には、個人差を相殺するために相当数のサンプル(症例数)で検討を行う必要があり、データの解析には専用の解析ツールが必要である。
【0006】
【非特許文献1】
CATHERINE NGUYEN, 他6名,「Differential Gene Expression in theMurine Thymus Assayed by Quantitative Hybridization of ArrayedcDNA Clones」,GENOMICS 29,207−216(1995)
【0007】
【発明が解決しようとする課題】
例えば、スキャッタープロットは2つのデータ群を比較するのに用いられるツールであるが、複数人の正常細胞から得られた複数の発現データ群と、複数人の疾病細胞から得られた複数の発現データ群を使って発現レベルに違いのある遺伝子を探すような場合には、スキャッタープロットグラフにプロットする点が多すぎてグラフがわかりにくくなる。また、得られるデータは個人差に起因してばらついていたり、同じ検体を使っても、DNAチップ等の製品のバラツキによって再現性が低い場合があるため、データ群の平均値をプロットすると、データのばらつきがわからなくなるためにかえって解析が困難になったり、正確な解析ができなくなる場合がある。
【0008】
また、ある特定薬剤を投与をする前と投与後において、複数の正常細胞と複数の疾病細胞から得られた遺伝子の発現レベルの違いを検討する場合に、データがばらついていると、投与した薬剤が疾病に効果があるか否かの判断が困難となる場合もある。
【0009】
本発明は上記事情に鑑みなされたものであり、2つのデータ群を比較する解析において、データ群同士を簡単に比較することができる解析方法および解析装置を提供することを目的とするものである。
【0010】
【課題を解決するための手段】
本発明の発現レベル情報の解析方法は、第1のデータ群における発現配列の発現レベルに対応する第1の座標軸を表示するステップと、第2のデータ群における発現配列の発現レベルに対応する、前記第1の座標軸に対して実質的に垂直な第2の座標軸を表示するステップと、前記第1および第2のデータ群に共通する各発現配列毎に、前記第1および第2の座標軸により規定される座標上に、前記両データ群の発現レベルを表すマークを表示するステップとを含む第1および第2のデータ群から収集される発現レベル情報の解析方法であって、前記マークが、前記それぞれのデータ群に基づくバラツキを表示するものであることを特徴とする方法である。
【0011】
前記マークは、前記第1の座標軸と前記第2の座標軸のそれぞれに平行な2本の交差するエラーバーからなるものであることが好ましい。
【0012】
本発明の発現レベル情報の解析装置は、第1のデータ群における発現配列の発現レベルに対応する第1の座標軸を表示する表示手段と、第2のデータ群における発現配列の発現レベルに対応する、前記第1の座標軸に対して実質的に垂直な第2の座標軸を表示する表示手段と、前記第1および第2のデータ群に共通する各発現配列毎に、前記第1および第2の座標軸により規定される座標上に前記両データ群の発現レベルを表すマークを表示する表示手段とを含む第1および第2のデータ群から収集される発現レベル情報の解析装置であって、前記マークが、前記それぞれのデータ群に基づくバラツキを表示するものであることを特徴とするものである。
【0013】
前記マークは、前記第1の座標軸と前記第2の座標軸のそれぞれに平行な2本の交差するエラーバーからなるものであることが好ましい。
【0014】
本発明の発現レベル情報の解析方法および解析装置における発現配列は、遺伝子、遺伝子の一部、mRNA等の核酸に限らず、広く、ホルモン類、腫瘍マーカー、酵素、抗体、抗原、アブザイム、その他のタンパク質など、生体から発現される生体由来の物質を意味する。
【0015】
第一のデータ群および第二のデータ群は比較するデータ群であって、例えば、正常組織から得られる発現配列と疾病組織から得られる発現配列、特定薬物投与前の組織から得られる発現配列と投与後の組織から得られる発現配列、副作用が見られた患者の組織から得られる発現配列と副作用が見られない患者の組織から得られる発現配列、癌などのような進行状況(ステージI〜IV)の異なる組織から得られる発現配列、特定の疾患が多い地域の人の組織から得られる発現配列と特定の疾患が少ない地域の人の組織から得られる発現配列、害虫に強い植物から得られる発現配列と害虫に弱い植物から得られる発現配列、冷害に強い植物から得られる発現配列と冷害に弱い植物から得られる発現配列など、生体組織から得られる比較対象となる発現配列のデータ群であれば、特に限定されるものではない。
【0016】
本発明の発現レベル情報の解析方法および解析装置のエラーバーとは、第1および第2のデータ群に共通する各発現配列の発現レベルのバラツキの範囲を表すものであって、例えば、エラーバーは第1および第2のデータ群に共通する各発現配列毎の発現データの最小値と最大値によって表示することができる。
【0017】
本発明の発現レベル情報の解析方法は、前記マークを表示した発現レベルのデータに基づいて独立2群の検定を行うステップをさらに含むものとしてもよい。
また、前記マークを表示した発現レベルのデータに基づいて関連2群の検定を行うステップをさらに含むものとしてもよい。
【0018】
【発明の効果】
従来のスキャッタープロットでは、複数のデータと複数のデータとを比較しようとすると、座標上にプロットされる点が多すぎてスキャッタープロットグラフがわかりにくくなり、グラフをわかりやすく表示するために、データ群の平均値をプロットすると、検査ごとにデータがばらついて再現性が低い場合には、データのばらつきがわからなくなるためにかえって解析が困難になったり、正確な解析ができなくなることがある。
【0019】
本発明の発現レベル情報の解析方法および解析装置は、第1および第2のデータ群に共通する各発現配列毎に、第1および第2の座標軸により規定される座標上に両データ群の発現レベルを表すマークを表示するステップまたは手段において、このマークを、それぞれのデータ群に基づくバラツキを表示するものとしたので、座標上にプロットされる点が多すぎてグラフがわかりにくくなるといったことがなく、また、それぞれの発現配列におけるバラツキを明確なものとすることができるので、発現配列を解析する際に、発現配列のバラツキが第1および第2のデータ群の差によって生じたものであるのか、バラツキの範囲内によるものであるのかを容易に判断することが可能となる。
【0020】
なお、本発明の発現レベル情報の解析方法において、マークを表示した発現データに基づいて独立2群の検定を行うステップや、マークを表示した発現データに基づいて関連2群の検定を行うステップをさらに含むものとすれば、第1のデータ群と第2のデータ群に統計的に差があるか否かを求めることが可能となり、これらの情報を合わせて表示すれば、より正確な発現レベル情報の解析を行うことが可能となる。
【0021】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について説明する。図1は、2種類の組織から得られるそれぞれが複数のサンプルから収集される複数の遺伝子に関する遺伝子発現レベルを表すスキャッタープロットグラフを示したものである。
図1の第1の座標軸(水平軸)10は、第1のデータ群から得られた1以上の発現配列において測定された発現レベルを表し、第2の座標軸(垂直軸)20は、第2のデータ群から取られた1以上の発現配列において測定された発現レベルを表す。マーク11の各々は、第1および第2のデータ群の両方で発現レベルが測定された特定の発現配列を表しており、各マーク11は、第1のデータ群の発現レベルに対応する距離だけ垂直軸20から離れ、かつ第2のデータ群の発現レベルに対応する距離だけ水平軸10から離されて位置づけられている。マーク11のエラーバー12は第1のデータ群のばらつきを、エラーバー13は第2のデータ群のばらつきをそれぞれ示している。
【0022】
従来のように、正常組織および癌組織の発現データをエラーバーを用いずに表示する場合には、図1のマークのそれぞれの位置に複数の点が表示されることになり、プロットされる点が多すぎてわかりにくくなったり、1つの発現配列の発現レベルの点がその発現配列とは異なる発現配列の発現レベルの点と重なったりするために、解析が困難なものとなるが、本発明の表示によれば、他の発現配列とマークが重なることなくマークの位置が個々にはっきりとしており、1つの発現配列におけるデータのばらつきも表示されているので後述のような解析を容易に行うことが可能となる。
【0023】
図1を使って、第1のデータ群が正常組織で、第2のデータ群が癌組織の場合について説明する。正常組織および癌組織はそれぞれサンプル数が複数である。
このようにサンプル数を複数とすることによって個人差や検査時に生じる誤差が明確に把握されるので、正常組織と癌組織との間で相違する発現配列の解析を正確なものとすることが可能である。個々のマーク11は、正常組織および癌組織の両方において、選択された遺伝子の発現配列の発現レベルを表し、エラーバー12は正常組織のデータのばらつきを、エラーバー13は癌組織のデータのばらつきが表されている。
【0024】
マーク14は、正常組織および癌組織の両方においてほぼ発現レベルは同じである。従って、この発現配列は、腫瘍サプレッサーでも癌遺伝子(オンコジーン)でもないことがわかる。また、マーク群15は、癌組織におけるよりも正常組織において有意に高い発現レベルを示しているから、腫瘍サプレッサーである可能性が高い遺伝子であることがわかる。マーク群16は、正常組織におけるよりも癌組織において有意に高い発現レベルを示しているから、癌遺伝子あるいは癌組織に特有に発現している遺伝子であることがわかる。なお、正常組織と癌組織が1サンプルづつの場合には、これが個体差であることも考えられるが、本発明の発現レベル情報の解析方法では、サンプル数(症例数)を増やすことによって個体差によるデータのばらつきを加味して解析を行うことができるので、多数の発現配列の発現レベルを正確、かつ同時に解析することが可能となる。
【0025】
このようにある組織における個々の遺伝子の発現頻度、レベル情報を網羅的に調べ、正常組織と癌組織で比較し、疾患特異的に過剰発現または発現が抑制されている遺伝子が同定されれば、その遺伝子は創薬の標的遺伝子の候補とすることが可能である。
【0026】
また、癌細胞では抗癌剤の効果を減弱させるような遺伝子の転写が増幅していたり、抗癌剤の標的分子がすでに欠損あるいは変異していたりすることがあるため、癌の進行度によって抗癌剤の癌組織に対する有効性は異なる場合がある。抗癌剤は副作用が強いため、癌組織に対して無効の場合には副作用のみが残ってしまう事態となる。このような場合、癌細胞で発現している発現配列を癌の進行度に応じて網羅的に調べることによって、その進行度に応じた抗癌剤の選択や、副作用の予測を行うことも可能となる。
【0027】
上記では第1のデータ群を正常組織、第2のデータ群を癌組織として説明したが、第1のデータ群、第2のデータ群をそれぞれ選択することによって、様々な解析を行うことが可能である。例えば、第1のデータ群を特定薬物投与前、第2のデータ群を投与後として、発現レベルを比較することによって、特定薬物の薬理効果を解析することが可能である。
【0028】
また、同じ薬物を投与しても、その薬物が効く患者と効かない患者が存在し、また、副作用がおきる患者と長年服用しても何らの副作用もおきない患者が存在する。このような薬物に対する反応の個人差が生じる原因は、個人の薬物の代謝分布動態の違いと、個人の生体組織の薬物に対する感受性の違いであり、これらは遺伝子の多型によって発生するものと考えられている。そこで、同じ薬物を投与した複数の患者で、副作用が生じなかったデータ群と、副作用が生じたデータ群を比較することによって、副作用に関連する発現配列を同定することが可能である。
【0029】
本発明の発現レベル情報の解析方法は、マークを表示した発現レベルのデータに基づいて独立2群または関連2群の検定を行うステップをさらに含むものとしてもよい。上述した第1のデータ群が癌組織で、第2のデータ群が正常組織の場合を例にとって説明する。図1のマーク17やマーク18は、癌組織におけるよりも正常組織において高い発現レベルを示しているものの、マーク群15のように、癌組織におけるよりも正常組織において有意に高い発現レベルを示しているといえるかは微妙である。このような場合、独立2群の検定によって正常組織と癌組織とで発現レベルに差があるか否かを検定すれば、より正確な発現レベル情報の解析を行うことが可能となる。
【0030】
また、例えば癌患者にある薬剤を投与する前と投与後において、データを比較する場合、薬剤投与前と投与後で、関連2群の検定によって発現レベルに差があるか否かを検定すれば、癌遺伝子あるいは癌組織に特有に発現している遺伝子、あるいは腫瘍サプレッサーを発見することが容易となる。
【0031】
独立2群の検定は、図2に示すように、大標本であるか否か、正規分布であるか否か、等分散であるか否か、検定可能なデータ数であるか否かによって、正規検定、二標本t検定、t検定(Welchの方法)、Mann−Whitney検定を使い分けることができ、関連2群の検定は、図3に示すように、データが正規分布であるか否か、検定可能なデータ数であるか否かによって、一標本t検定、Wilcoxon検定、符号検定を使い分けることができる。
【0032】
なお、関連2群の検定および独立2群の検定は、適宜選択することが可能であり、統計学的には、同一個体で2条件を比較する場合や縦断的研究を行う場合には前者が、異なる個体で2条件を比較する場合や横断的研究を行う場合には後者が選択されるが、条件差≫個体差である場合やデータ数が充分である場合には、どちらの検定を用いても実質的には同じ結論になる。
【0033】
図4は、本発明の発現レベル情報の解析装置におけるマークを表示するまでのステップを示すフローチャートである。ステップ21において、コンピュータシステムは、比較すべき複数のDNAチップ等からN対の発現配列における未処理スキャニングデータを受信する。発現配列の発現レベル強度は、例えば、基板上でリガンドまたはレセプタにハイブリダイズした標識レセプタまたは標識リガンドの標識からの光子計数である。
【0034】
ステップ22において、1対の発現配列の発現レベル強度を受信する。ステップ23において、この対の発現レベル強度のそれぞれからバックグラウンドのシグナルを減算する。このバックグラウンドの減算は、全ての未処理スキャニングデータについて同時に行うことができる。
【0035】
ステップ24において、選択された1対の発現配列の発現レベル強度が一定値以上であるかを判定する。この一定値は、発現配列の種類によって、あるいはユーザが適宜決定することが可能である。選択された1対の発現配列の両方ともが一定値以上の発現レベル強度に達しない場合にはプロットを中止する。選択された1対の発現配列の片方でも一定値以上の発現レベル強度に達してい場合には、次のステップに移る。ステップ25において、他に未処理の発現配列が存在する場合にはその発現レベル強度をステップ22により検索する。
【0036】
全ての発現配列の処理が終わったら、ステップ26で同じ発現配列の対があるか判定する。発現配列の対は、同じDNAチップの上にあってもよいし、異なるDNAチップの上にあってもよい。同じ発現配列の対が存在していない場合には、その一対で、発現強度を対数スケールでプロットする。一方、同じ発現配列の対が存在している場合には、ステップ27でその同じ発現配列のレベルのデータについて独立2群の検定または関連2群の検定を行う。ステップ28で、検定によって発現レベルに差があると判定された場合には、同じ発現配列の発現レベルの最大値、最小値をエラーバーとしたマークを赤色でプロットする。一方、発現レベルに差がないと判定された場合には、同じ発現配列の発現レベルの最大値、最小値をエラーバーとしたマークを青色でプロットする。比較されるデータ群で発現レベルに違いがある場合と違いがない場合とで、色を変えて表示することで、容易に発現レベルの異なる発現配列を把握することが可能である。
【0037】
以上にように、本発明の発現レベル情報の解析方法および解析装置は、第1および第2のデータ群に共通する各発現配列毎に、第1および第2の座標軸により規定される座標上に両データ群の発現レベルを表すマークを表示するステップまたは手段において、このマークを、それぞれのデータ群に基づくバラツキを表示するものとしたので、座標上にプロットされる点が多すぎてグラフがわかりにくくなるといったことがなく、また、それぞれの発現配列におけるバラツキを明確なものとすることができるので、発現配列を解析する際に、発現配列のバラツキが第1および第2のデータ群の差によって生じたものであるのか、バラツキの範囲内によるものであるのかを容易に判断することができる。また、独立2群の検定や関連2群の検定を合わせて行い、結果を色別表示とすれば、第1のデータ群と第2のデータ群において統計的に差があるか否かを一目で把握することが可能となり、正確な発現レベル情報の解析をさらに容易に行うことが可能となる。
【図面の簡単な説明】
【図1】複数の遺伝子に関する遺伝子発現レベルを表すスキャッタープロットグラフ
【図2】独立2群の検定の使い分けを説明するための図
【図3】関連2群の検定の使い分けを説明するための図
【図4】本発明の発現レベル情報の解析装置におけるマークを表示するまでのステップを示すフローチャート
【符号の説明】
10 第1の座標軸
11 マーク
12 エラーバー
13 エラーバー
20 第2の座標軸
【発明の属する技術分野】
本発明は、DNAチップ等から得られる発現レベル情報を解析する方法およびその解析装置に関するものである。
【0002】
【従来の技術】
マイクロアレイ解析システムやマクロアレイ解析システムにおいては、メンブレンなどの多孔性膜表面の異なる位置に、リガンドまたはレセプタ(ホルモン類、腫瘍マーカー、酵素、抗体、抗原、アブザイム、その他のタンパク質、核酸、cDNA、DNA、RNAなど、生体由来の物質と特異的に結合可能で、かつ、塩基配列や塩基の長さ、組成、特性などが既知の物質)を含む溶液を滴下して多数のスポット状領域を形成し、放射線標識物質、蛍光物質、化学発光基質と接触させることによって化学発光を生じさせる標識物質などによって標識された標識レセプタまたは標識リガンド(ホルモン類、腫瘍マーカー、酵素、抗体、抗原、アブザイム、その他のタンパク質、核酸、DNA、mRNAなどの抽出、単離などによって生体から採取された、あるいは、採取された後に化学的処理が施された物質であって、放射線標識物質、蛍光物質、化学発光基質などの標識物質によって標識された物質)を、スポット状領域に含まれているリガンドまたはレセプタにハイブリダイズ等させてリガンドまたはレセプタと特異的に結合させ、多数のスポット状領域に選択的に含まれている放射性標識物質によって蓄積性蛍光体シートの輝尽性蛍光体層を露光し、露光された輝尽性蛍光体層を励起光によって走査して、輝尽性蛍光体層に含まれている輝尽性蛍光体を励起し、輝尽性蛍光体から放出された輝尽光を光電的に検出して生化学解析用データを生成し、あるいは、多数のスポット状領域を励起光によって走査して多数のスポット状領域に選択的に含まれている蛍光物質を励起し、蛍光物質から放出された蛍光を光電的に検出して生化学解析用データを生成し、あるいは、多数のスポット状領城に選択的に含まれている標識物質を化学発光基質と接触させ、標識物質から放出される化学発光を光電的に検出して生化学解析用データを生成することが行われている。
【0003】
このシステムによれば、スライドガラス板やメンブレンフィルタなどの担体表面上の異なる位置に、数多くのリガンドまたはレセプタのスポットを高密度に形成して、標識物質によって標識された標識レセプタまたは標識リガンドをハイブリダイズさせることによって、短時間で生体由来の物質を解析することが可能になるという利点がある。
【0004】
さまざまな疾患は、遺伝学的見地から、血友病、筋ジストロフィーなどの1つの遺伝子のまれな突然変異が発症の原因となる単一遺伝子疾患(遺伝病)と、癌、糖尿病、慢性関節リウマチ、痛風、高脂血症、高血圧、動脈硬化、アルツハイマー型痴呆、気管支喘息、心臓疾患、アレルギー、アトピー、精神疾患などのように多数の異なる遺伝子と環境因子との相加作用が発症に関与する多因子疾患に大別される。発症が遺伝子に関与する疾患は、特定の遺伝子のDNAの転写数の変化または転写レベルの変化(例えば開始の制御、RNA前駆体の提供、RNAプロセシング等)といった、様々な遺伝子の発現レベルの違いによって特徴付けられるため、疾病を有する個人および正常な個人の両方において多数の遺伝子の発現レベルを分析することにより、疾病状態の診断に関連する発現レベルを有する遺伝子を同定、解析することが可能となる。
【0005】
遺伝子を解析するDNAマイクロアレイ(以下、DNAチップという)等から遺伝子の発現レベル情報を得るためには、DNAチップ上に多くの種類の遺伝子が載せる必要があり、また疾病状態の診断に関連する発現レベルを有する遺伝子を同定する場合には、個人差を相殺するために相当数のサンプル(症例数)で検討を行う必要があり、データの解析には専用の解析ツールが必要である。
【0006】
【非特許文献1】
CATHERINE NGUYEN, 他6名,「Differential Gene Expression in theMurine Thymus Assayed by Quantitative Hybridization of ArrayedcDNA Clones」,GENOMICS 29,207−216(1995)
【0007】
【発明が解決しようとする課題】
例えば、スキャッタープロットは2つのデータ群を比較するのに用いられるツールであるが、複数人の正常細胞から得られた複数の発現データ群と、複数人の疾病細胞から得られた複数の発現データ群を使って発現レベルに違いのある遺伝子を探すような場合には、スキャッタープロットグラフにプロットする点が多すぎてグラフがわかりにくくなる。また、得られるデータは個人差に起因してばらついていたり、同じ検体を使っても、DNAチップ等の製品のバラツキによって再現性が低い場合があるため、データ群の平均値をプロットすると、データのばらつきがわからなくなるためにかえって解析が困難になったり、正確な解析ができなくなる場合がある。
【0008】
また、ある特定薬剤を投与をする前と投与後において、複数の正常細胞と複数の疾病細胞から得られた遺伝子の発現レベルの違いを検討する場合に、データがばらついていると、投与した薬剤が疾病に効果があるか否かの判断が困難となる場合もある。
【0009】
本発明は上記事情に鑑みなされたものであり、2つのデータ群を比較する解析において、データ群同士を簡単に比較することができる解析方法および解析装置を提供することを目的とするものである。
【0010】
【課題を解決するための手段】
本発明の発現レベル情報の解析方法は、第1のデータ群における発現配列の発現レベルに対応する第1の座標軸を表示するステップと、第2のデータ群における発現配列の発現レベルに対応する、前記第1の座標軸に対して実質的に垂直な第2の座標軸を表示するステップと、前記第1および第2のデータ群に共通する各発現配列毎に、前記第1および第2の座標軸により規定される座標上に、前記両データ群の発現レベルを表すマークを表示するステップとを含む第1および第2のデータ群から収集される発現レベル情報の解析方法であって、前記マークが、前記それぞれのデータ群に基づくバラツキを表示するものであることを特徴とする方法である。
【0011】
前記マークは、前記第1の座標軸と前記第2の座標軸のそれぞれに平行な2本の交差するエラーバーからなるものであることが好ましい。
【0012】
本発明の発現レベル情報の解析装置は、第1のデータ群における発現配列の発現レベルに対応する第1の座標軸を表示する表示手段と、第2のデータ群における発現配列の発現レベルに対応する、前記第1の座標軸に対して実質的に垂直な第2の座標軸を表示する表示手段と、前記第1および第2のデータ群に共通する各発現配列毎に、前記第1および第2の座標軸により規定される座標上に前記両データ群の発現レベルを表すマークを表示する表示手段とを含む第1および第2のデータ群から収集される発現レベル情報の解析装置であって、前記マークが、前記それぞれのデータ群に基づくバラツキを表示するものであることを特徴とするものである。
【0013】
前記マークは、前記第1の座標軸と前記第2の座標軸のそれぞれに平行な2本の交差するエラーバーからなるものであることが好ましい。
【0014】
本発明の発現レベル情報の解析方法および解析装置における発現配列は、遺伝子、遺伝子の一部、mRNA等の核酸に限らず、広く、ホルモン類、腫瘍マーカー、酵素、抗体、抗原、アブザイム、その他のタンパク質など、生体から発現される生体由来の物質を意味する。
【0015】
第一のデータ群および第二のデータ群は比較するデータ群であって、例えば、正常組織から得られる発現配列と疾病組織から得られる発現配列、特定薬物投与前の組織から得られる発現配列と投与後の組織から得られる発現配列、副作用が見られた患者の組織から得られる発現配列と副作用が見られない患者の組織から得られる発現配列、癌などのような進行状況(ステージI〜IV)の異なる組織から得られる発現配列、特定の疾患が多い地域の人の組織から得られる発現配列と特定の疾患が少ない地域の人の組織から得られる発現配列、害虫に強い植物から得られる発現配列と害虫に弱い植物から得られる発現配列、冷害に強い植物から得られる発現配列と冷害に弱い植物から得られる発現配列など、生体組織から得られる比較対象となる発現配列のデータ群であれば、特に限定されるものではない。
【0016】
本発明の発現レベル情報の解析方法および解析装置のエラーバーとは、第1および第2のデータ群に共通する各発現配列の発現レベルのバラツキの範囲を表すものであって、例えば、エラーバーは第1および第2のデータ群に共通する各発現配列毎の発現データの最小値と最大値によって表示することができる。
【0017】
本発明の発現レベル情報の解析方法は、前記マークを表示した発現レベルのデータに基づいて独立2群の検定を行うステップをさらに含むものとしてもよい。
また、前記マークを表示した発現レベルのデータに基づいて関連2群の検定を行うステップをさらに含むものとしてもよい。
【0018】
【発明の効果】
従来のスキャッタープロットでは、複数のデータと複数のデータとを比較しようとすると、座標上にプロットされる点が多すぎてスキャッタープロットグラフがわかりにくくなり、グラフをわかりやすく表示するために、データ群の平均値をプロットすると、検査ごとにデータがばらついて再現性が低い場合には、データのばらつきがわからなくなるためにかえって解析が困難になったり、正確な解析ができなくなることがある。
【0019】
本発明の発現レベル情報の解析方法および解析装置は、第1および第2のデータ群に共通する各発現配列毎に、第1および第2の座標軸により規定される座標上に両データ群の発現レベルを表すマークを表示するステップまたは手段において、このマークを、それぞれのデータ群に基づくバラツキを表示するものとしたので、座標上にプロットされる点が多すぎてグラフがわかりにくくなるといったことがなく、また、それぞれの発現配列におけるバラツキを明確なものとすることができるので、発現配列を解析する際に、発現配列のバラツキが第1および第2のデータ群の差によって生じたものであるのか、バラツキの範囲内によるものであるのかを容易に判断することが可能となる。
【0020】
なお、本発明の発現レベル情報の解析方法において、マークを表示した発現データに基づいて独立2群の検定を行うステップや、マークを表示した発現データに基づいて関連2群の検定を行うステップをさらに含むものとすれば、第1のデータ群と第2のデータ群に統計的に差があるか否かを求めることが可能となり、これらの情報を合わせて表示すれば、より正確な発現レベル情報の解析を行うことが可能となる。
【0021】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について説明する。図1は、2種類の組織から得られるそれぞれが複数のサンプルから収集される複数の遺伝子に関する遺伝子発現レベルを表すスキャッタープロットグラフを示したものである。
図1の第1の座標軸(水平軸)10は、第1のデータ群から得られた1以上の発現配列において測定された発現レベルを表し、第2の座標軸(垂直軸)20は、第2のデータ群から取られた1以上の発現配列において測定された発現レベルを表す。マーク11の各々は、第1および第2のデータ群の両方で発現レベルが測定された特定の発現配列を表しており、各マーク11は、第1のデータ群の発現レベルに対応する距離だけ垂直軸20から離れ、かつ第2のデータ群の発現レベルに対応する距離だけ水平軸10から離されて位置づけられている。マーク11のエラーバー12は第1のデータ群のばらつきを、エラーバー13は第2のデータ群のばらつきをそれぞれ示している。
【0022】
従来のように、正常組織および癌組織の発現データをエラーバーを用いずに表示する場合には、図1のマークのそれぞれの位置に複数の点が表示されることになり、プロットされる点が多すぎてわかりにくくなったり、1つの発現配列の発現レベルの点がその発現配列とは異なる発現配列の発現レベルの点と重なったりするために、解析が困難なものとなるが、本発明の表示によれば、他の発現配列とマークが重なることなくマークの位置が個々にはっきりとしており、1つの発現配列におけるデータのばらつきも表示されているので後述のような解析を容易に行うことが可能となる。
【0023】
図1を使って、第1のデータ群が正常組織で、第2のデータ群が癌組織の場合について説明する。正常組織および癌組織はそれぞれサンプル数が複数である。
このようにサンプル数を複数とすることによって個人差や検査時に生じる誤差が明確に把握されるので、正常組織と癌組織との間で相違する発現配列の解析を正確なものとすることが可能である。個々のマーク11は、正常組織および癌組織の両方において、選択された遺伝子の発現配列の発現レベルを表し、エラーバー12は正常組織のデータのばらつきを、エラーバー13は癌組織のデータのばらつきが表されている。
【0024】
マーク14は、正常組織および癌組織の両方においてほぼ発現レベルは同じである。従って、この発現配列は、腫瘍サプレッサーでも癌遺伝子(オンコジーン)でもないことがわかる。また、マーク群15は、癌組織におけるよりも正常組織において有意に高い発現レベルを示しているから、腫瘍サプレッサーである可能性が高い遺伝子であることがわかる。マーク群16は、正常組織におけるよりも癌組織において有意に高い発現レベルを示しているから、癌遺伝子あるいは癌組織に特有に発現している遺伝子であることがわかる。なお、正常組織と癌組織が1サンプルづつの場合には、これが個体差であることも考えられるが、本発明の発現レベル情報の解析方法では、サンプル数(症例数)を増やすことによって個体差によるデータのばらつきを加味して解析を行うことができるので、多数の発現配列の発現レベルを正確、かつ同時に解析することが可能となる。
【0025】
このようにある組織における個々の遺伝子の発現頻度、レベル情報を網羅的に調べ、正常組織と癌組織で比較し、疾患特異的に過剰発現または発現が抑制されている遺伝子が同定されれば、その遺伝子は創薬の標的遺伝子の候補とすることが可能である。
【0026】
また、癌細胞では抗癌剤の効果を減弱させるような遺伝子の転写が増幅していたり、抗癌剤の標的分子がすでに欠損あるいは変異していたりすることがあるため、癌の進行度によって抗癌剤の癌組織に対する有効性は異なる場合がある。抗癌剤は副作用が強いため、癌組織に対して無効の場合には副作用のみが残ってしまう事態となる。このような場合、癌細胞で発現している発現配列を癌の進行度に応じて網羅的に調べることによって、その進行度に応じた抗癌剤の選択や、副作用の予測を行うことも可能となる。
【0027】
上記では第1のデータ群を正常組織、第2のデータ群を癌組織として説明したが、第1のデータ群、第2のデータ群をそれぞれ選択することによって、様々な解析を行うことが可能である。例えば、第1のデータ群を特定薬物投与前、第2のデータ群を投与後として、発現レベルを比較することによって、特定薬物の薬理効果を解析することが可能である。
【0028】
また、同じ薬物を投与しても、その薬物が効く患者と効かない患者が存在し、また、副作用がおきる患者と長年服用しても何らの副作用もおきない患者が存在する。このような薬物に対する反応の個人差が生じる原因は、個人の薬物の代謝分布動態の違いと、個人の生体組織の薬物に対する感受性の違いであり、これらは遺伝子の多型によって発生するものと考えられている。そこで、同じ薬物を投与した複数の患者で、副作用が生じなかったデータ群と、副作用が生じたデータ群を比較することによって、副作用に関連する発現配列を同定することが可能である。
【0029】
本発明の発現レベル情報の解析方法は、マークを表示した発現レベルのデータに基づいて独立2群または関連2群の検定を行うステップをさらに含むものとしてもよい。上述した第1のデータ群が癌組織で、第2のデータ群が正常組織の場合を例にとって説明する。図1のマーク17やマーク18は、癌組織におけるよりも正常組織において高い発現レベルを示しているものの、マーク群15のように、癌組織におけるよりも正常組織において有意に高い発現レベルを示しているといえるかは微妙である。このような場合、独立2群の検定によって正常組織と癌組織とで発現レベルに差があるか否かを検定すれば、より正確な発現レベル情報の解析を行うことが可能となる。
【0030】
また、例えば癌患者にある薬剤を投与する前と投与後において、データを比較する場合、薬剤投与前と投与後で、関連2群の検定によって発現レベルに差があるか否かを検定すれば、癌遺伝子あるいは癌組織に特有に発現している遺伝子、あるいは腫瘍サプレッサーを発見することが容易となる。
【0031】
独立2群の検定は、図2に示すように、大標本であるか否か、正規分布であるか否か、等分散であるか否か、検定可能なデータ数であるか否かによって、正規検定、二標本t検定、t検定(Welchの方法)、Mann−Whitney検定を使い分けることができ、関連2群の検定は、図3に示すように、データが正規分布であるか否か、検定可能なデータ数であるか否かによって、一標本t検定、Wilcoxon検定、符号検定を使い分けることができる。
【0032】
なお、関連2群の検定および独立2群の検定は、適宜選択することが可能であり、統計学的には、同一個体で2条件を比較する場合や縦断的研究を行う場合には前者が、異なる個体で2条件を比較する場合や横断的研究を行う場合には後者が選択されるが、条件差≫個体差である場合やデータ数が充分である場合には、どちらの検定を用いても実質的には同じ結論になる。
【0033】
図4は、本発明の発現レベル情報の解析装置におけるマークを表示するまでのステップを示すフローチャートである。ステップ21において、コンピュータシステムは、比較すべき複数のDNAチップ等からN対の発現配列における未処理スキャニングデータを受信する。発現配列の発現レベル強度は、例えば、基板上でリガンドまたはレセプタにハイブリダイズした標識レセプタまたは標識リガンドの標識からの光子計数である。
【0034】
ステップ22において、1対の発現配列の発現レベル強度を受信する。ステップ23において、この対の発現レベル強度のそれぞれからバックグラウンドのシグナルを減算する。このバックグラウンドの減算は、全ての未処理スキャニングデータについて同時に行うことができる。
【0035】
ステップ24において、選択された1対の発現配列の発現レベル強度が一定値以上であるかを判定する。この一定値は、発現配列の種類によって、あるいはユーザが適宜決定することが可能である。選択された1対の発現配列の両方ともが一定値以上の発現レベル強度に達しない場合にはプロットを中止する。選択された1対の発現配列の片方でも一定値以上の発現レベル強度に達してい場合には、次のステップに移る。ステップ25において、他に未処理の発現配列が存在する場合にはその発現レベル強度をステップ22により検索する。
【0036】
全ての発現配列の処理が終わったら、ステップ26で同じ発現配列の対があるか判定する。発現配列の対は、同じDNAチップの上にあってもよいし、異なるDNAチップの上にあってもよい。同じ発現配列の対が存在していない場合には、その一対で、発現強度を対数スケールでプロットする。一方、同じ発現配列の対が存在している場合には、ステップ27でその同じ発現配列のレベルのデータについて独立2群の検定または関連2群の検定を行う。ステップ28で、検定によって発現レベルに差があると判定された場合には、同じ発現配列の発現レベルの最大値、最小値をエラーバーとしたマークを赤色でプロットする。一方、発現レベルに差がないと判定された場合には、同じ発現配列の発現レベルの最大値、最小値をエラーバーとしたマークを青色でプロットする。比較されるデータ群で発現レベルに違いがある場合と違いがない場合とで、色を変えて表示することで、容易に発現レベルの異なる発現配列を把握することが可能である。
【0037】
以上にように、本発明の発現レベル情報の解析方法および解析装置は、第1および第2のデータ群に共通する各発現配列毎に、第1および第2の座標軸により規定される座標上に両データ群の発現レベルを表すマークを表示するステップまたは手段において、このマークを、それぞれのデータ群に基づくバラツキを表示するものとしたので、座標上にプロットされる点が多すぎてグラフがわかりにくくなるといったことがなく、また、それぞれの発現配列におけるバラツキを明確なものとすることができるので、発現配列を解析する際に、発現配列のバラツキが第1および第2のデータ群の差によって生じたものであるのか、バラツキの範囲内によるものであるのかを容易に判断することができる。また、独立2群の検定や関連2群の検定を合わせて行い、結果を色別表示とすれば、第1のデータ群と第2のデータ群において統計的に差があるか否かを一目で把握することが可能となり、正確な発現レベル情報の解析をさらに容易に行うことが可能となる。
【図面の簡単な説明】
【図1】複数の遺伝子に関する遺伝子発現レベルを表すスキャッタープロットグラフ
【図2】独立2群の検定の使い分けを説明するための図
【図3】関連2群の検定の使い分けを説明するための図
【図4】本発明の発現レベル情報の解析装置におけるマークを表示するまでのステップを示すフローチャート
【符号の説明】
10 第1の座標軸
11 マーク
12 エラーバー
13 エラーバー
20 第2の座標軸
Claims (6)
- 第1のデータ群における発現配列の発現レベルに対応する第1の座標軸を表示するステップと、第2のデータ群における発現配列の発現レベルに対応する、前記第1の座標軸に対して実質的に垂直な第2の座標軸を表示するステップと、前記第1および第2のデータ群に共通する各発現配列毎に、前記第1および第2の座標軸により規定される座標上に前記両データ群の発現レベルを表すマークを表示するステップとを含む第1および第2のデータ群から収集される発現レベル情報の解析方法であって、
前記マークが、前記それぞれのデータ群に基づくバラツキを表示するものであることを特徴とする発現レベル情報の解析方法。 - 前記マークが、前記第1の座標軸と前記第2の座標軸のそれぞれに平行な2本の交差するエラーバーからなるものであることを特徴とする請求項1記載の発現レベル情報の解析方法。
- 前記マークを表示した発現レベルのデータに基づいて独立2群の検定を行うステップをさらに含むことを特徴とする請求項1または2記載の発現レベル情報の解析方法。
- 前記マークに表示した発現レベルのデータに基づいて関連2群の検定を行うステップをさらに含むことを特徴とする請求項1または2記載の発現レベル情報の解析方法。
- 第1のデータ群における発現配列の発現レベルに対応する第1の座標軸を表示する表示手段と、第2のデータ群における発現配列の発現レベルに対応する、前記第1の座標軸に対して実質的に垂直な第2の座標軸を表示する表示手段と、前記第1および第2のデータ群に共通する各発現配列毎に、前記第1および第2の座標軸により規定される座標上に前記両データ群の発現レベルを表すマークを表示する表示手段とを含む第1および第2のデータ群から収集される発現レベル情報の解析装置であって、
前記マークが、前記それぞれのデータ群に基づくバラツキを表示するものであることを特徴とする発現レベル情報の解析装置。 - 前記マークが、前記第1の座標軸と前記第2の座標軸のそれぞれに平行な2本の交差するエラーバーからなるものであることを特徴とする請求項5記載の発現レベル情報の解析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002284125A JP2004113188A (ja) | 2002-09-27 | 2002-09-27 | 発現レベル情報の解析方法および解析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002284125A JP2004113188A (ja) | 2002-09-27 | 2002-09-27 | 発現レベル情報の解析方法および解析装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004113188A true JP2004113188A (ja) | 2004-04-15 |
Family
ID=32277789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002284125A Withdrawn JP2004113188A (ja) | 2002-09-27 | 2002-09-27 | 発現レベル情報の解析方法および解析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004113188A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012056639A1 (ja) * | 2010-10-27 | 2012-05-03 | 株式会社 日立ハイテクノロジーズ | パターンの判定装置、及びコンピュータプログラム |
-
2002
- 2002-09-27 JP JP2002284125A patent/JP2004113188A/ja not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012056639A1 (ja) * | 2010-10-27 | 2012-05-03 | 株式会社 日立ハイテクノロジーズ | パターンの判定装置、及びコンピュータプログラム |
JP5589089B2 (ja) * | 2010-10-27 | 2014-09-10 | 株式会社日立ハイテクノロジーズ | パターンの判定装置、及びコンピュータプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiao et al. | High-throughput proteomics and AI for cancer biomarker discovery | |
US20070067111A1 (en) | Computer-aided visualization of expression comparison | |
JP2009036694A (ja) | 空間分布を保った細胞内生体物質の解析方法 | |
JP2010511407A (ja) | 癌治療のためのコンパニオン診断アッセイ | |
Perez et al. | Improving patient care through molecular diagnostics | |
Netto et al. | Diagnostic molecular pathology: current techniques and clinical applications, part I | |
EP1190762B1 (en) | Method for displaying result of hybridization experiment using biochip | |
WO2013133283A1 (ja) | 判定方法、判定装置、判定システム、および、プログラム | |
JP2002538836A (ja) | 遺伝子発現の変化の分析 | |
JP2004113188A (ja) | 発現レベル情報の解析方法および解析装置 | |
KR20180081445A (ko) | 핵산의 신속 검출법 및 이를 이용한 질병의 신속 진단 방법 | |
JP3880361B2 (ja) | 蛍光シグナル処理方法及びハイブリダイゼーション反応結果表示方法 | |
KR100923048B1 (ko) | 미지의 생체분자와 단일가닥핵산의 결합 프로파일을생성하기 위한 핵산칩, 핵산칩의 제조방법, 및 핵산칩을이용한 미지의 생체분자 분석방법 | |
CN114047334A (zh) | 一种人肺癌免疫多标及空间转录组检测组合方法 | |
JP2003526096A (ja) | 核酸、dna、rna、pna及び蛋白質などの分子化合物のハイブリダイゼーションを同時かつ多角的に検出し定量化するための方法及びシステム | |
EP2515271B1 (en) | Method of analysing reagent beads | |
Yamin et al. | Overview of cancer genomics, organization, and variations in the human genome | |
JP4227092B2 (ja) | 走査型電子顕微鏡を用いる生体物質アッセイシステムおよびアッセイ法 | |
JP4076698B2 (ja) | 生体由来物質の検出方法および装置 | |
WO2023040997A1 (zh) | 一种单基因检测方法及其应用 | |
JP2004294080A (ja) | 発現レベル情報の解析方法および解析プログラム | |
JP4099540B2 (ja) | 生体試料解析チップおよび解析法 | |
KR102667912B1 (ko) | 미세부수체 불안정성을 결정하기 위한 시스템 및 방법 | |
WO2017078758A1 (en) | Methods of assessing prostate cancer agressiveness and metastasis throught the loss of plzf expression | |
JP2001269198A (ja) | 多型遺伝子の型を決定する方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20060110 |