JP2004113188A

JP2004113188A - 発現レベル情報の解析方法および解析装置

Info

Publication number: JP2004113188A
Application number: JP2002284125A
Authority: JP
Inventors: Masato Some; 染　真人
Original assignee: Fuji Photo Film Co Ltd
Current assignee: Fujifilm Holdings Corp
Priority date: 2002-09-27
Filing date: 2002-09-27
Publication date: 2004-04-15

Abstract

【課題】データ群同士の発現レベル情報を簡単に比較することができるものとする。
【解決手段】第１のデータ群における発現配列の発現レベルに対応する第１の座標軸１０を表示し、第２のデータ群における発現配列の発現レベルに対応する、第１の座標軸１０に対して実質的に垂直な第２の座標軸２０を表示する。第１および第２のデータ群に共通する各発現配列毎に、第１の座標軸１０および第２の座標軸２０により規定される座標上に、両データ群の発現レベルを示すマーク１１を表示する。その際、マーク１１は、第１の座標軸１０に平行で第１のデータ群のばらつきを示すエラーバー１２と、第２の座標軸２０に平行で第２のデータ群のばらつきを示すエラーバー１３とによって表示する。
【選択図】　　　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、ＤＮＡチップ等から得られる発現レベル情報を解析する方法およびその解析装置に関するものである。
【０００２】
【従来の技術】
マイクロアレイ解析システムやマクロアレイ解析システムにおいては、メンブレンなどの多孔性膜表面の異なる位置に、リガンドまたはレセプタ（ホルモン類、腫瘍マーカー、酵素、抗体、抗原、アブザイム、その他のタンパク質、核酸、ｃＤＮＡ、ＤＮＡ、ＲＮＡなど、生体由来の物質と特異的に結合可能で、かつ、塩基配列や塩基の長さ、組成、特性などが既知の物質）を含む溶液を滴下して多数のスポット状領域を形成し、放射線標識物質、蛍光物質、化学発光基質と接触させることによって化学発光を生じさせる標識物質などによって標識された標識レセプタまたは標識リガンド（ホルモン類、腫瘍マーカー、酵素、抗体、抗原、アブザイム、その他のタンパク質、核酸、ＤＮＡ、ｍＲＮＡなどの抽出、単離などによって生体から採取された、あるいは、採取された後に化学的処理が施された物質であって、放射線標識物質、蛍光物質、化学発光基質などの標識物質によって標識された物質）を、スポット状領域に含まれているリガンドまたはレセプタにハイブリダイズ等させてリガンドまたはレセプタと特異的に結合させ、多数のスポット状領域に選択的に含まれている放射性標識物質によって蓄積性蛍光体シートの輝尽性蛍光体層を露光し、露光された輝尽性蛍光体層を励起光によって走査して、輝尽性蛍光体層に含まれている輝尽性蛍光体を励起し、輝尽性蛍光体から放出された輝尽光を光電的に検出して生化学解析用データを生成し、あるいは、多数のスポット状領域を励起光によって走査して多数のスポット状領域に選択的に含まれている蛍光物質を励起し、蛍光物質から放出された蛍光を光電的に検出して生化学解析用データを生成し、あるいは、多数のスポット状領城に選択的に含まれている標識物質を化学発光基質と接触させ、標識物質から放出される化学発光を光電的に検出して生化学解析用データを生成することが行われている。
【０００３】
このシステムによれば、スライドガラス板やメンブレンフィルタなどの担体表面上の異なる位置に、数多くのリガンドまたはレセプタのスポットを高密度に形成して、標識物質によって標識された標識レセプタまたは標識リガンドをハイブリダイズさせることによって、短時間で生体由来の物質を解析することが可能になるという利点がある。
【０００４】
さまざまな疾患は、遺伝学的見地から、血友病、筋ジストロフィーなどの１つの遺伝子のまれな突然変異が発症の原因となる単一遺伝子疾患（遺伝病）と、癌、糖尿病、慢性関節リウマチ、痛風、高脂血症、高血圧、動脈硬化、アルツハイマー型痴呆、気管支喘息、心臓疾患、アレルギー、アトピー、精神疾患などのように多数の異なる遺伝子と環境因子との相加作用が発症に関与する多因子疾患に大別される。発症が遺伝子に関与する疾患は、特定の遺伝子のＤＮＡの転写数の変化または転写レベルの変化（例えば開始の制御、ＲＮＡ前駆体の提供、ＲＮＡプロセシング等）といった、様々な遺伝子の発現レベルの違いによって特徴付けられるため、疾病を有する個人および正常な個人の両方において多数の遺伝子の発現レベルを分析することにより、疾病状態の診断に関連する発現レベルを有する遺伝子を同定、解析することが可能となる。
【０００５】
遺伝子を解析するＤＮＡマイクロアレイ（以下、ＤＮＡチップという）等から遺伝子の発現レベル情報を得るためには、ＤＮＡチップ上に多くの種類の遺伝子が載せる必要があり、また疾病状態の診断に関連する発現レベルを有する遺伝子を同定する場合には、個人差を相殺するために相当数のサンプル（症例数）で検討を行う必要があり、データの解析には専用の解析ツールが必要である。
【０００６】
【非特許文献１】
ＣＡＴＨＥＲＩＮＥ　ＮＧＵＹＥＮ，　他６名，「Ｄｉｆｆｅｒｅｎｔｉａｌ　Ｇｅｎｅ　Ｅｘｐｒｅｓｓｉｏｎ　ｉｎ　ｔｈｅＭｕｒｉｎｅ　Ｔｈｙｍｕｓ　Ａｓｓａｙｅｄ　ｂｙ　Ｑｕａｎｔｉｔａｔｉｖｅ　Ｈｙｂｒｉｄｉｚａｔｉｏｎ　ｏｆ　ＡｒｒａｙｅｄｃＤＮＡ　Ｃｌｏｎｅｓ」，ＧＥＮＯＭＩＣＳ　２９，２０７−２１６（１９９５）
【０００７】
【発明が解決しようとする課題】
例えば、スキャッタープロットは２つのデータ群を比較するのに用いられるツールであるが、複数人の正常細胞から得られた複数の発現データ群と、複数人の疾病細胞から得られた複数の発現データ群を使って発現レベルに違いのある遺伝子を探すような場合には、スキャッタープロットグラフにプロットする点が多すぎてグラフがわかりにくくなる。また、得られるデータは個人差に起因してばらついていたり、同じ検体を使っても、ＤＮＡチップ等の製品のバラツキによって再現性が低い場合があるため、データ群の平均値をプロットすると、データのばらつきがわからなくなるためにかえって解析が困難になったり、正確な解析ができなくなる場合がある。
【０００８】
また、ある特定薬剤を投与をする前と投与後において、複数の正常細胞と複数の疾病細胞から得られた遺伝子の発現レベルの違いを検討する場合に、データがばらついていると、投与した薬剤が疾病に効果があるか否かの判断が困難となる場合もある。
【０００９】
本発明は上記事情に鑑みなされたものであり、２つのデータ群を比較する解析において、データ群同士を簡単に比較することができる解析方法および解析装置を提供することを目的とするものである。
【００１０】
【課題を解決するための手段】
本発明の発現レベル情報の解析方法は、第１のデータ群における発現配列の発現レベルに対応する第１の座標軸を表示するステップと、第２のデータ群における発現配列の発現レベルに対応する、前記第１の座標軸に対して実質的に垂直な第２の座標軸を表示するステップと、前記第１および第２のデータ群に共通する各発現配列毎に、前記第１および第２の座標軸により規定される座標上に、前記両データ群の発現レベルを表すマークを表示するステップとを含む第１および第２のデータ群から収集される発現レベル情報の解析方法であって、前記マークが、前記それぞれのデータ群に基づくバラツキを表示するものであることを特徴とする方法である。
【００１１】
前記マークは、前記第１の座標軸と前記第２の座標軸のそれぞれに平行な２本の交差するエラーバーからなるものであることが好ましい。
【００１２】
本発明の発現レベル情報の解析装置は、第１のデータ群における発現配列の発現レベルに対応する第１の座標軸を表示する表示手段と、第２のデータ群における発現配列の発現レベルに対応する、前記第１の座標軸に対して実質的に垂直な第２の座標軸を表示する表示手段と、前記第１および第２のデータ群に共通する各発現配列毎に、前記第１および第２の座標軸により規定される座標上に前記両データ群の発現レベルを表すマークを表示する表示手段とを含む第１および第２のデータ群から収集される発現レベル情報の解析装置であって、前記マークが、前記それぞれのデータ群に基づくバラツキを表示するものであることを特徴とするものである。
【００１３】
前記マークは、前記第１の座標軸と前記第２の座標軸のそれぞれに平行な２本の交差するエラーバーからなるものであることが好ましい。
【００１４】
本発明の発現レベル情報の解析方法および解析装置における発現配列は、遺伝子、遺伝子の一部、ｍＲＮＡ等の核酸に限らず、広く、ホルモン類、腫瘍マーカー、酵素、抗体、抗原、アブザイム、その他のタンパク質など、生体から発現される生体由来の物質を意味する。
【００１５】
第一のデータ群および第二のデータ群は比較するデータ群であって、例えば、正常組織から得られる発現配列と疾病組織から得られる発現配列、特定薬物投与前の組織から得られる発現配列と投与後の組織から得られる発現配列、副作用が見られた患者の組織から得られる発現配列と副作用が見られない患者の組織から得られる発現配列、癌などのような進行状況（ステージＩ〜ＩＶ）の異なる組織から得られる発現配列、特定の疾患が多い地域の人の組織から得られる発現配列と特定の疾患が少ない地域の人の組織から得られる発現配列、害虫に強い植物から得られる発現配列と害虫に弱い植物から得られる発現配列、冷害に強い植物から得られる発現配列と冷害に弱い植物から得られる発現配列など、生体組織から得られる比較対象となる発現配列のデータ群であれば、特に限定されるものではない。
【００１６】
本発明の発現レベル情報の解析方法および解析装置のエラーバーとは、第１および第２のデータ群に共通する各発現配列の発現レベルのバラツキの範囲を表すものであって、例えば、エラーバーは第１および第２のデータ群に共通する各発現配列毎の発現データの最小値と最大値によって表示することができる。
【００１７】
本発明の発現レベル情報の解析方法は、前記マークを表示した発現レベルのデータに基づいて独立２群の検定を行うステップをさらに含むものとしてもよい。
また、前記マークを表示した発現レベルのデータに基づいて関連２群の検定を行うステップをさらに含むものとしてもよい。
【００１８】
【発明の効果】
従来のスキャッタープロットでは、複数のデータと複数のデータとを比較しようとすると、座標上にプロットされる点が多すぎてスキャッタープロットグラフがわかりにくくなり、グラフをわかりやすく表示するために、データ群の平均値をプロットすると、検査ごとにデータがばらついて再現性が低い場合には、データのばらつきがわからなくなるためにかえって解析が困難になったり、正確な解析ができなくなることがある。
【００１９】
本発明の発現レベル情報の解析方法および解析装置は、第１および第２のデータ群に共通する各発現配列毎に、第１および第２の座標軸により規定される座標上に両データ群の発現レベルを表すマークを表示するステップまたは手段において、このマークを、それぞれのデータ群に基づくバラツキを表示するものとしたので、座標上にプロットされる点が多すぎてグラフがわかりにくくなるといったことがなく、また、それぞれの発現配列におけるバラツキを明確なものとすることができるので、発現配列を解析する際に、発現配列のバラツキが第１および第２のデータ群の差によって生じたものであるのか、バラツキの範囲内によるものであるのかを容易に判断することが可能となる。
【００２０】
なお、本発明の発現レベル情報の解析方法において、マークを表示した発現データに基づいて独立２群の検定を行うステップや、マークを表示した発現データに基づいて関連２群の検定を行うステップをさらに含むものとすれば、第１のデータ群と第２のデータ群に統計的に差があるか否かを求めることが可能となり、これらの情報を合わせて表示すれば、より正確な発現レベル情報の解析を行うことが可能となる。
【００２１】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について説明する。図１は、２種類の組織から得られるそれぞれが複数のサンプルから収集される複数の遺伝子に関する遺伝子発現レベルを表すスキャッタープロットグラフを示したものである。
図１の第１の座標軸（水平軸）１０は、第１のデータ群から得られた１以上の発現配列において測定された発現レベルを表し、第２の座標軸（垂直軸）２０は、第２のデータ群から取られた１以上の発現配列において測定された発現レベルを表す。マーク１１の各々は、第１および第２のデータ群の両方で発現レベルが測定された特定の発現配列を表しており、各マーク１１は、第１のデータ群の発現レベルに対応する距離だけ垂直軸２０から離れ、かつ第２のデータ群の発現レベルに対応する距離だけ水平軸１０から離されて位置づけられている。マーク１１のエラーバー１２は第１のデータ群のばらつきを、エラーバー１３は第２のデータ群のばらつきをそれぞれ示している。
【００２２】
従来のように、正常組織および癌組織の発現データをエラーバーを用いずに表示する場合には、図１のマークのそれぞれの位置に複数の点が表示されることになり、プロットされる点が多すぎてわかりにくくなったり、１つの発現配列の発現レベルの点がその発現配列とは異なる発現配列の発現レベルの点と重なったりするために、解析が困難なものとなるが、本発明の表示によれば、他の発現配列とマークが重なることなくマークの位置が個々にはっきりとしており、１つの発現配列におけるデータのばらつきも表示されているので後述のような解析を容易に行うことが可能となる。
【００２３】
図１を使って、第１のデータ群が正常組織で、第２のデータ群が癌組織の場合について説明する。正常組織および癌組織はそれぞれサンプル数が複数である。
このようにサンプル数を複数とすることによって個人差や検査時に生じる誤差が明確に把握されるので、正常組織と癌組織との間で相違する発現配列の解析を正確なものとすることが可能である。個々のマーク１１は、正常組織および癌組織の両方において、選択された遺伝子の発現配列の発現レベルを表し、エラーバー１２は正常組織のデータのばらつきを、エラーバー１３は癌組織のデータのばらつきが表されている。
【００２４】
マーク１４は、正常組織および癌組織の両方においてほぼ発現レベルは同じである。従って、この発現配列は、腫瘍サプレッサーでも癌遺伝子（オンコジーン）でもないことがわかる。また、マーク群１５は、癌組織におけるよりも正常組織において有意に高い発現レベルを示しているから、腫瘍サプレッサーである可能性が高い遺伝子であることがわかる。マーク群１６は、正常組織におけるよりも癌組織において有意に高い発現レベルを示しているから、癌遺伝子あるいは癌組織に特有に発現している遺伝子であることがわかる。なお、正常組織と癌組織が１サンプルづつの場合には、これが個体差であることも考えられるが、本発明の発現レベル情報の解析方法では、サンプル数（症例数）を増やすことによって個体差によるデータのばらつきを加味して解析を行うことができるので、多数の発現配列の発現レベルを正確、かつ同時に解析することが可能となる。
【００２５】
このようにある組織における個々の遺伝子の発現頻度、レベル情報を網羅的に調べ、正常組織と癌組織で比較し、疾患特異的に過剰発現または発現が抑制されている遺伝子が同定されれば、その遺伝子は創薬の標的遺伝子の候補とすることが可能である。
【００２６】
また、癌細胞では抗癌剤の効果を減弱させるような遺伝子の転写が増幅していたり、抗癌剤の標的分子がすでに欠損あるいは変異していたりすることがあるため、癌の進行度によって抗癌剤の癌組織に対する有効性は異なる場合がある。抗癌剤は副作用が強いため、癌組織に対して無効の場合には副作用のみが残ってしまう事態となる。このような場合、癌細胞で発現している発現配列を癌の進行度に応じて網羅的に調べることによって、その進行度に応じた抗癌剤の選択や、副作用の予測を行うことも可能となる。
【００２７】
上記では第１のデータ群を正常組織、第２のデータ群を癌組織として説明したが、第１のデータ群、第２のデータ群をそれぞれ選択することによって、様々な解析を行うことが可能である。例えば、第１のデータ群を特定薬物投与前、第２のデータ群を投与後として、発現レベルを比較することによって、特定薬物の薬理効果を解析することが可能である。
【００２８】
また、同じ薬物を投与しても、その薬物が効く患者と効かない患者が存在し、また、副作用がおきる患者と長年服用しても何らの副作用もおきない患者が存在する。このような薬物に対する反応の個人差が生じる原因は、個人の薬物の代謝分布動態の違いと、個人の生体組織の薬物に対する感受性の違いであり、これらは遺伝子の多型によって発生するものと考えられている。そこで、同じ薬物を投与した複数の患者で、副作用が生じなかったデータ群と、副作用が生じたデータ群を比較することによって、副作用に関連する発現配列を同定することが可能である。
【００２９】
本発明の発現レベル情報の解析方法は、マークを表示した発現レベルのデータに基づいて独立２群または関連２群の検定を行うステップをさらに含むものとしてもよい。上述した第１のデータ群が癌組織で、第２のデータ群が正常組織の場合を例にとって説明する。図１のマーク１７やマーク１８は、癌組織におけるよりも正常組織において高い発現レベルを示しているものの、マーク群１５のように、癌組織におけるよりも正常組織において有意に高い発現レベルを示しているといえるかは微妙である。このような場合、独立２群の検定によって正常組織と癌組織とで発現レベルに差があるか否かを検定すれば、より正確な発現レベル情報の解析を行うことが可能となる。
【００３０】
また、例えば癌患者にある薬剤を投与する前と投与後において、データを比較する場合、薬剤投与前と投与後で、関連２群の検定によって発現レベルに差があるか否かを検定すれば、癌遺伝子あるいは癌組織に特有に発現している遺伝子、あるいは腫瘍サプレッサーを発見することが容易となる。
【００３１】
独立２群の検定は、図２に示すように、大標本であるか否か、正規分布であるか否か、等分散であるか否か、検定可能なデータ数であるか否かによって、正規検定、二標本ｔ検定、ｔ検定（Ｗｅｌｃｈの方法）、Ｍａｎｎ−Ｗｈｉｔｎｅｙ検定を使い分けることができ、関連２群の検定は、図３に示すように、データが正規分布であるか否か、検定可能なデータ数であるか否かによって、一標本ｔ検定、Ｗｉｌｃｏｘｏｎ検定、符号検定を使い分けることができる。
【００３２】
なお、関連２群の検定および独立２群の検定は、適宜選択することが可能であり、統計学的には、同一個体で２条件を比較する場合や縦断的研究を行う場合には前者が、異なる個体で２条件を比較する場合や横断的研究を行う場合には後者が選択されるが、条件差≫個体差である場合やデータ数が充分である場合には、どちらの検定を用いても実質的には同じ結論になる。
【００３３】
図４は、本発明の発現レベル情報の解析装置におけるマークを表示するまでのステップを示すフローチャートである。ステップ２１において、コンピュータシステムは、比較すべき複数のＤＮＡチップ等からＮ対の発現配列における未処理スキャニングデータを受信する。発現配列の発現レベル強度は、例えば、基板上でリガンドまたはレセプタにハイブリダイズした標識レセプタまたは標識リガンドの標識からの光子計数である。
【００３４】
ステップ２２において、１対の発現配列の発現レベル強度を受信する。ステップ２３において、この対の発現レベル強度のそれぞれからバックグラウンドのシグナルを減算する。このバックグラウンドの減算は、全ての未処理スキャニングデータについて同時に行うことができる。
【００３５】
ステップ２４において、選択された１対の発現配列の発現レベル強度が一定値以上であるかを判定する。この一定値は、発現配列の種類によって、あるいはユーザが適宜決定することが可能である。選択された１対の発現配列の両方ともが一定値以上の発現レベル強度に達しない場合にはプロットを中止する。選択された１対の発現配列の片方でも一定値以上の発現レベル強度に達してい場合には、次のステップに移る。ステップ２５において、他に未処理の発現配列が存在する場合にはその発現レベル強度をステップ２２により検索する。
【００３６】
全ての発現配列の処理が終わったら、ステップ２６で同じ発現配列の対があるか判定する。発現配列の対は、同じＤＮＡチップの上にあってもよいし、異なるＤＮＡチップの上にあってもよい。同じ発現配列の対が存在していない場合には、その一対で、発現強度を対数スケールでプロットする。一方、同じ発現配列の対が存在している場合には、ステップ２７でその同じ発現配列のレベルのデータについて独立２群の検定または関連２群の検定を行う。ステップ２８で、検定によって発現レベルに差があると判定された場合には、同じ発現配列の発現レベルの最大値、最小値をエラーバーとしたマークを赤色でプロットする。一方、発現レベルに差がないと判定された場合には、同じ発現配列の発現レベルの最大値、最小値をエラーバーとしたマークを青色でプロットする。比較されるデータ群で発現レベルに違いがある場合と違いがない場合とで、色を変えて表示することで、容易に発現レベルの異なる発現配列を把握することが可能である。
【００３７】
以上にように、本発明の発現レベル情報の解析方法および解析装置は、第１および第２のデータ群に共通する各発現配列毎に、第１および第２の座標軸により規定される座標上に両データ群の発現レベルを表すマークを表示するステップまたは手段において、このマークを、それぞれのデータ群に基づくバラツキを表示するものとしたので、座標上にプロットされる点が多すぎてグラフがわかりにくくなるといったことがなく、また、それぞれの発現配列におけるバラツキを明確なものとすることができるので、発現配列を解析する際に、発現配列のバラツキが第１および第２のデータ群の差によって生じたものであるのか、バラツキの範囲内によるものであるのかを容易に判断することができる。また、独立２群の検定や関連２群の検定を合わせて行い、結果を色別表示とすれば、第１のデータ群と第２のデータ群において統計的に差があるか否かを一目で把握することが可能となり、正確な発現レベル情報の解析をさらに容易に行うことが可能となる。
【図面の簡単な説明】
【図１】複数の遺伝子に関する遺伝子発現レベルを表すスキャッタープロットグラフ
【図２】独立２群の検定の使い分けを説明するための図
【図３】関連２群の検定の使い分けを説明するための図
【図４】本発明の発現レベル情報の解析装置におけるマークを表示するまでのステップを示すフローチャート
【符号の説明】
１０　第１の座標軸
１１　マーク
１２　エラーバー
１３　エラーバー
２０　第２の座標軸

Claims

第１のデータ群における発現配列の発現レベルに対応する第１の座標軸を表示するステップと、第２のデータ群における発現配列の発現レベルに対応する、前記第１の座標軸に対して実質的に垂直な第２の座標軸を表示するステップと、前記第１および第２のデータ群に共通する各発現配列毎に、前記第１および第２の座標軸により規定される座標上に前記両データ群の発現レベルを表すマークを表示するステップとを含む第１および第２のデータ群から収集される発現レベル情報の解析方法であって、
前記マークが、前記それぞれのデータ群に基づくバラツキを表示するものであることを特徴とする発現レベル情報の解析方法。
前記マークが、前記第１の座標軸と前記第２の座標軸のそれぞれに平行な２本の交差するエラーバーからなるものであることを特徴とする請求項１記載の発現レベル情報の解析方法。
前記マークを表示した発現レベルのデータに基づいて独立２群の検定を行うステップをさらに含むことを特徴とする請求項１または２記載の発現レベル情報の解析方法。
前記マークに表示した発現レベルのデータに基づいて関連２群の検定を行うステップをさらに含むことを特徴とする請求項１または２記載の発現レベル情報の解析方法。
第１のデータ群における発現配列の発現レベルに対応する第１の座標軸を表示する表示手段と、第２のデータ群における発現配列の発現レベルに対応する、前記第１の座標軸に対して実質的に垂直な第２の座標軸を表示する表示手段と、前記第１および第２のデータ群に共通する各発現配列毎に、前記第１および第２の座標軸により規定される座標上に前記両データ群の発現レベルを表すマークを表示する表示手段とを含む第１および第２のデータ群から収集される発現レベル情報の解析装置であって、
前記マークが、前記それぞれのデータ群に基づくバラツキを表示するものであることを特徴とする発現レベル情報の解析装置。
前記マークが、前記第１の座標軸と前記第２の座標軸のそれぞれに平行な２本の交差するエラーバーからなるものであることを特徴とする請求項５記載の発現レベル情報の解析装置。