JP2006215809A - アレイに基づく比較ハイブリダイゼーション・データの分析方法及びシステム - Google Patents
アレイに基づく比較ハイブリダイゼーション・データの分析方法及びシステム Download PDFInfo
- Publication number
- JP2006215809A JP2006215809A JP2005027774A JP2005027774A JP2006215809A JP 2006215809 A JP2006215809 A JP 2006215809A JP 2005027774 A JP2005027774 A JP 2005027774A JP 2005027774 A JP2005027774 A JP 2005027774A JP 2006215809 A JP2006215809 A JP 2006215809A
- Authority
- JP
- Japan
- Prior art keywords
- hybridization
- biopolymer
- implemented
- interval
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】アレイに基づく比較ハイブリダイゼーション・データの分析を行う。
【解決手段】本発明では、マイクロアレイの実験から得られた比較ゲノム・ハイブリダイゼーション(「CGH」)データを含む、CGHデータを分析する方法及びシステムが提供される。本発明の様々な実施態様は、CGHデータに関する媒介変数と非媒介変数の正規化法、及び特定の組織標本から細胞において増幅又は欠失された1つ以上の連続した染色体のDNA部分配列の集合を識別するための方法が含まれる。本発明の実施態様の方法は、うまく設計されたマイクロアレイに基づく実験システムと組み合わせると、CGHデータに基づく増幅及び欠失したDNA部分配列を含む、染色体の異常の識別において、著しく定量的精度を向上させることができる。
【選択図】図18A
【解決手段】本発明では、マイクロアレイの実験から得られた比較ゲノム・ハイブリダイゼーション(「CGH」)データを含む、CGHデータを分析する方法及びシステムが提供される。本発明の様々な実施態様は、CGHデータに関する媒介変数と非媒介変数の正規化法、及び特定の組織標本から細胞において増幅又は欠失された1つ以上の連続した染色体のDNA部分配列の集合を識別するための方法が含まれる。本発明の実施態様の方法は、うまく設計されたマイクロアレイに基づく実験システムと組み合わせると、CGHデータに基づく増幅及び欠失したDNA部分配列を含む、染色体の異常の識別において、著しく定量的精度を向上させることができる。
【選択図】図18A
Description
本発明は、実験データの分析に関するものであり、特に、アレイに基づく比較ハイブリダイゼーションを用いて、対照標本と比較され、関心のある標本中において、染色体DNAの配列における部分配列の増幅及び欠失を含む、生体高分子配列の異常を識別する方法及びシステムに関する。
正常細胞から前がん症状又はがん状態に形質転換と、がん組織の成長とがん組織の転移とを引き起こす、原因及び細胞のメカニズムを解明するため、多数の基本研究が行われてきた。がんの様々な原因及び細胞のメカニズムを理解することにおいて、多数の進歩があり、現在、この詳細な理解により、がんを予防、検出、処置するための新規で有用なアプローチが提供されている。
がんの成長に関連づけられる、無数の異なるタイプの原因となる出来事及び作用因がある。さらに、がんの多数の異なるタイプ、及びがんの多数の異なるタイプに関する多数の異なる成長のパターンがある。当初の期待及び戦略は、基本的な原因及びメカニズムである、1つ又は少数の基本的な要件を発見することに基づいていたが、時間が経つにつれて、研究者達は、実際、「がん」という用語が極めて多数の異なる病気を包含するということを認識するようになった。それにもかかわらず、がんに関連したある共通な細胞現象があるようである。多くの異なるタイプのがんにおいて、1つの共通な現象は、前がん症状の組織における遺伝子の不安定性、及びがん組織の成長に伴う進行性の遺伝子の不安定性の開始である。遺伝子の不安定性には多くの異なるタイプ及び徴候が存在するが、がん細胞内における特定のDNA部分配列のコピー数の変化が、遺伝子の不安定性の基本的な兆候といえる。がん細胞における染色体のDNA部分配列の増幅及び欠失を検出し、少なくとも部分的に定量化するために、様々な技法が開発されてきた。ある技法は、「比較ゲノム・ハイブリダイゼーション」と呼ばれる。比較ゲノム・ハイブリダイゼーション(「CGH」)は、場合によっては、染色体のDNA部分配列の増幅及び欠失を見事に視覚表示することができるが、多くの生物学的及び生化学的分析技法と同様に、かなりのノイズと標本変異とを受けるので、CGHデータの定量分析において問題を生じることになる。
本発明の目的は、がん細胞を含む病変組織標本におけるDNA部分配列コピーの変異を、より正確に定量化するため、CGHデータ分析技法と、試料に関連して観測される様々な特性及び状態について可能性のある遺伝学的な基本要素を識別するため、複数の試料から標本にCGH技法を適用することによって得られたCGHデータを分析し、その分析結果を視覚化するための技法とを提供することにある。
本発明の実施態様には、マイクロアレイの実験から得られた比較ゲノム・ハイブリダイゼーション(「CGH」)データのようなCGHデータを含む比較ハイブリダイゼーション・データを分析する方法及びシステムが含まれる。本発明の様々な実施態様は、CGHデータに関する媒介変数と非媒介変数の正規化法、及び特定の組織標本から細胞において増幅又は欠失された1つ以上の連続した染色体のDNA部分配列の集合を識別するための方法が含まれる。本発明の実施態様の方法は、うまく設計されたマイクロアレイに基づく実験システムと組み合わせると、CGHデータに基づく増幅及び欠失したDNA部分配列を含む染色体の異常の識別において、著しく定量的精度を向上させる。本発明のさらなる実施態様では、比較ハイブリダイゼーションを用いて、DNA以外の生体高分子を含む一般的な生体高分子配列に対して欠失、増幅、及びその他の変化を検出するものがある。
本発明の実施態様によれば、比較ゲノム・ハイブリダイゼーション(「CGH」)・データの分析方法及びシステムが得られる。これらの方法及びシステムは、一般的なものであり、様々な異なる実験アプローチ及びプロトコルから得られた比較ハイブリダイゼーション・データに適用可能である。下記の実施態様は、比較的均一に、かつ、間隔を密にして、1つ以上の染色体に対応する1つ又は複数のDNA配列をカバーするオリゴヌクレオチド・プローブを含む、高分解能マイクロアレイから得られた、マイクロアレイに基づくCGHデータにとりわけよく当てはまる。本発明の方法に関する用途の1つは、増幅及び欠失を生じた遺伝子の検出である。以下では、いくつかの例について論考する。しかし、染色体DNAのどの部分配列にも増幅又は欠失を生じる可能性があり、一般に、染色体のDNA部分配列の増幅又は欠失の検出には、CGH技法を適用することが可能である。比較ハイブリダイゼーション法は、何らかの情報を含む生体高分子配列の増幅又は欠失、及び他の配列変化及び異常の検出に利用することが可能である。
重要な情報を含む生体高分子には、デオキシリボ核酸(「DNA」)、メッセンジャーRNA(「mRNA」)を含むリボ核酸(「RNA」)、及び蛋白質がある。図1には、小さい4つのサブユニットによる単鎖オリゴヌクレオチド、すなわち、短いDNA高分子の化学構造が示されている。図1に示すオリゴヌクレオチドには、4つのサブユニット(1)デオキシアデノシン102、省略形「A」と、(2)デオキシチミジン104、省略形「T」と、(3)デオキシシトジン106、省略形「C」と、(4)デオキシグアノシン108、省略形「G」とが含まれている。各サブユニット102、104、106、及び108は、「デオキシリボヌクレオチド」と総称され、A及びGの場合、デオキシリボースと共有結合されたプリン、C及びTの場合、デオキシリボースと共有結合されたピリミジンから構成される。デオキシリボヌクレオチド・サブユニットは、リン酸110のような、リン酸架橋によって互いに結合されている。図1に示すオリゴヌクレオチドと全てのDNA生体高分子は、非対称性であり、5′末端112と3′末端114とを備えており、各末端は、化学的に活性であるヒドロキシル基が含まれている。RNAは、RNAのリボヌクレオチドのリボース成分が、図1の2′水素原子116のような2′水素原子の代わりに、2′ヒドロキシルを備えており、デオキシチミジンと類似のリボヌクレオチドの代わりに、チミジンに似ているが、メチル基118を欠く、リボヌクレオチド・ウリジンを含んでいることを除けば、構造においてDNAと同様である。RNAサブユニットは、A、U、C、及びGと略記される。
細胞内において、一般に、DNAは二重鎖形態、つまり、よく知られたDNA二重へリックス形態で存在する。図2には、短く延びた二本鎖DNAの記号表現が示されている。第1の鎖202は、5′から3′の方向にデオキシリボヌクレオチドの配列の省略形として書かれており、相補鎖204は、3′から5′の方向に記号で書かれている。第1の鎖202の各デオキシリボヌクレオチド・サブユニットは、第2の鎖204の相補性デオキシリボヌクレオチド・サブユニットと対をなす。一般的に、一方の鎖のGは、相補鎖のCと対をなし、一方の鎖のAは、相補鎖のTと対をなす。一方の鎖は、デオキシリボヌクレオチド・サブユニットの配列において、コード化された同じ情報の実際の形(positive image)とみなすことが可能であり、もう一方の相補鎖は、実際とは反対の形(negative image)とみなすことが可能である。
遺伝子は、二本鎖DNA高分子の一本鎖内にあるデオキシリボヌクレオチド・サブユニットの配列である。遺伝子は、特定の蛋白質の合成を指定するコード、すなわち、その合成のための鋳型とみなすことが可能である。図3には、遺伝子においてコード化された情報に基づく蛋白質の合成が例示されている。遺伝子は、細胞内において、まず、一本鎖mRNAに転写される。図3において、鎖202と204から構成される二本鎖DNA高分子は、遺伝子を含むDNA鎖と相補である一本鎖mRNA302を合成する転写機構のため、鎖204に接近できるように局所的に巻戻されている。一本鎖mRNAは、その後、mRNAのコドン306のような3つのリボヌクレオチドからなる各コドンが、蛋白質高分子304の特定のアミノ酸サブユニットを指定することにより、細胞によって蛋白質高分子304に翻訳される。例えば、図3において、コドン「UAU」306は、チロシン・アミノ酸サブユニット308を指定している。DNA及びRNAと同様、蛋白質も非対称性であり、N末端310とカルボン酸末端312を備えている。
人間を含む真核生物において、各細胞は、染色体と呼ばれる、いくつかの極めて長いDNA二本鎖高分子が含まれている。各染色体は、抽象的に、極めて長いデオキシリボヌクレオチド配列とみなすことが可能である。各染色体には、遺伝子に対応する数百〜数千の部分配列が含まれている。遺伝子として識別される特定の部分配列と遺伝子によってコード化された蛋白質との正確な対応は、本発明の範囲外の理由により、多少複雑になる可能性がある。しかし、本発明の実施態様を解説する上で、染色体は、DNA部分配列の線形配列とみなすことが可能な、連続したデオキシリボヌクレオチド・サブユニットの線形DNA配列と考えて差し支えない。場合によっては、部分配列は、それぞれ、特定の蛋白質を指定する、遺伝子ということもある。しかし、これらの実施態様は、はるかに一般的である。任意のDNA部分配列、又はDNA部分配列群の増幅と欠失は、DNA部分配列が、蛋白質を指定する生物遺伝子、様々なタイプの非蛋白質コード化RNAを指定するDNA部分配列、又は明確な生物学的役割を備えた他の領域に対応するか否かに関係なく、解説の方法によって検出可能である。下記において、「遺伝子」という用語が、表記の便宜上利用されるが、ただ単に「生体高分子部分配列」の一例にすぎないと理解すべきである。同様に、解説の実施態様は、DNA染色体配列の分析を対象としているが、本発明の方法によって、任意の情報を含む生体高分子の配列を分析することが可能である。従って、下記において、「染色体」という用語と関連する用語とが、表記の便宜上利用されるが、生体高分子又は生体高分子配列の一例であると理解すべきである。
図4には、極めて単純な仮想生物に関する染色体の仮想集合が示されている。この仮想生物には、3対の染色体402、406、及び410が含まれている。1対の染色体における各染色体は、極めてよく似ており、一般に、染色体の列に沿った同じ位置に同じ遺伝子を備えている。図4において、各染色体は、染色体のサブセクションとして表わされている。例えば、第1の染色体対402の第1の染色体403の場合、13の遺伝子414〜426が示されている。
図4に示すように、第1の染色体対402の第2の染色体404は、同じ位置に同じ遺伝子が含まれている。第2の染色体対406の各染色体には、11の遺伝子428〜438が含まれており、第3の染色体対410の各染色体には、4つの遺伝子440〜443が含まれている。もちろん、実際の生物には、一般に、はるかに多くの染色体対が存在し、各染色体には、はるかに多くの遺伝子が含まれている。しかし、図4に示す単純化された仮想ゲノムは、本発明の実施態様を簡単に説明するために、より適している。各染色体対において、一方の染色体は、もともと、その生物の雌親から得たものであり、もう一方の染色体は、もともとその生物の雄親から得たものであるという点に留意されたい。従って、第1の染色体対402の染色体は、染色体「C1m」及び「C1p」と呼ばれる。一般に、染色体対の各染色体は、同じ遺伝子が染色体の全長に沿った同じ場所に配置されているが、一方の親から受け継いだ遺伝子と、もう一方の親から受け継いだ遺伝子とは、わずかに異なる可能性がある。遺伝子の異なる変型は、対立遺伝子と呼ばれる。一般的な相違としては、遺伝子に対応するDNA部分配列内の様々な位置における単一デオキシリボヌクレオチド・サブユニット置換がある。
遺伝子と遺伝子の突然変異体との相違は、様々なタイプのがんに対する細胞の素因において重要であり、細胞の悪性転換を引き起こす細胞メカニズムに関連しているが、様々な形態の遺伝子と病理学的条件との因果関係は、解明及び立証が困難であることが多く、間接的であることが多い。しかし、他のゲノム異常と前がん組織及びがん組織との関連づけは、より容易である。ゲノム異常の2つの顕著なタイプには、遺伝子増幅と遺伝子欠失がある。図5には、図4に示す仮想ゲノムに関連した遺伝子欠失と遺伝子増幅の例が示されている。第1に、変体又は突然変異体である第1の染色体対502の染色体C1m′503及びC1p′504は、両方とも、図4に示す第1の染色体対402の対応する野生型染色体C1m及びC1pよりも短い。この短縮は、野生型染色体403及び404に存在するが、変体染色体503及び504には存在しない、遺伝子422、423、及び424の欠失によるものである。これが、二重又はホモ接合性遺伝子欠失(homozygous-gene-deletion)の一例である。正常細胞内に、DNAコピー数の小規模な変化が存在する可能性もある。これらは、形質的意味を有している可能性があり、やはり、CGH法によって測定し、本発明の方法によって分析することが可能である。
一般的に、染色体のDNA配列から、かなりの部分配列の欠失に対応する多数の連続した遺伝子の欠失が観測される。突然変異体が、さらに、しばしば非機能遺伝子の原因となる、はるかに少ない部分配列の欠失が観測される場合もある。遺伝子欠失が観測できるのは、染色体対をなす2つの染色体の一方においてのみであり、その場合、遺伝子欠失は異型接合であると称される。図5に示す変化したゲノムにおける第2の染色体異常は、第2の染色体対506の母系染色体C2m′507における遺伝子430、431、及び、432の重複である。染色体内における1つ以上の連続した遺伝子の重複は、遺伝子増幅と呼ばれる。図5に示す変化したゲノム例の場合、遺伝子増幅が染色体対のもう一方の染色体C2p′508には生じないので、染色体C2m′は異型接合である。図5に例示の遺伝子増幅は、2倍増幅であるが、3倍以上の増幅も観測される。第3の染色体対(図4の410)に関する極度の染色体異常が例示されている。図5に例示の変化ゲノムの場合、母系染色体511全体が、第3の染色体513から複製されて、染色体対ではなく、染色体トリプレット510が生成されている。この3染色体現象は、第3の染色体対における三染色体性と呼ばれる。図5に示す三染色体性は、異型接合遺伝子増幅の一例であるが、染色体対の両方の染色体の重複が観測され、染色体の高次増幅が観測される可能性もあり、染色体全体の異型接合と同型接合欠失とが生じる可能性もある(一般的に、こうした遺伝子欠失を伴う生物は生存に適さない)。
増幅によるものか、欠失によるものかにかかわらず、遺伝子コピー数の変化は、比較ゲノム・ハイブリダイゼーション(「CGH」)技法によって検出可能である。図6〜図7には、CGHによる遺伝子増幅の検出が例示され、図8〜図9には、CGHによる遺伝子欠失の検出が例示されている。CGHには、標本組織からの染色体断片と一本鎖の正常な染色体のDNAとの相対的結合レベルの分析が必要とされる。組織標本断片は、相補性結合によって正常な一本鎖DNAの相補性領域とハイブリッド形成して、二本鎖DNAの短い領域を生成する。ハイブリダイゼーションが生じるのは、DNA断片が、一本鎖染色体DNA内の配列と全くの相補であるか、又は、ほぼ相補である場合である。図6及び後続の図において、図4に示す仮想野生型ゲノムの仮想染色体の1つが、グラフのx軸の下に示されており、染色体の各部分に対する標本断片の結合レベルが、y軸に沿って示されている。図6の場合、断片結合のグラフは、染色体407の全長に沿ったほぼ均一な断片結合を表わす水平線602である。当然に、実際の実験では、組織標本から均一で完全に重なり合うDNA断片を作成するのは不可能であり、染色体の全長に沿って検出される断片結合レベルに、不連続性及び不均一性をもたらすことになる。しかし、一般に、正常組織標本から分離された正常染色体の断片によれば、少なくとも、図6のライン602のような水平線に近い結合レベルの傾向が得られる。対照的に、図5に例示の突然変異の遺伝子型から作成された断片に関するCGHデータは、一般的に、突然変異の遺伝子型において増幅する遺伝子に関する結合レベルの増強を示すものである。
図7には、図5に例示の突然変異の遺伝子型を備える組織から作成された断片に関する仮想CGHデータが示されている。図7に示すように、変化したゲノムにおいて増幅される3つの遺伝子430〜432に関して、結合レベル702の増強が観測される。換言すれば、変化したゲノムから作成された断片は、増幅される遺伝子からの遺伝子断片が増えるはずである。さらに、定量CGHでは、結合の相対的増強が、特定遺伝子のコピー数の増加を反映するはずである。
図8には、第1の仮想染色体403に関して、正常細胞から作成された断片について仮想CGHデータが示されている。やはり、正常組織から作成された断片に関して予測されるCGHデータの傾向は、染色体の全長に沿った均一な断片結合を示す水平線である。対照的に、図5に例示の変化したゲノムの染色体503及び504における同型接合遺伝子欠失は、欠失を生じた遺伝子に関する結合の相対的弱化を反映しているはずである。図9には、第1の染色体対(図4の402)からの正常染色体に関して、図5に例示の仮想変化ゲノムから作成されたDNA断片についての仮想CGHデータが示されている。図9において明らかなように、3つの欠失遺伝子422、423、及び424に関する断片結合は観測されない。
CGHデータは、様々な異なった実験技法によって得られる。1つの技法では、DNA断片は、組織標本から作成され、特定の発色団によって標識される。この標識DNA断片は、次に、正常細胞からの一本鎖染色体DNAとハイブリッド形成し、次に、顕微鏡検査によって一本鎖染色体DNAを検査して、染色体の全長に沿ったハイブリッド形成断片に関連した標識から放出される光の強度が測定される。比較的強度の増した領域は、対応する組織の染色体において増幅された染色体領域を反映しており、放出信号の弱化した領域は、対応する組織染色体の欠失領域を表わしている。他の技法では、第1の発色団によって標識された正常DNA断片が、第2の発色団によって標識された異常組織から分離された断片を備える正常一本鎖染色体とハイブリッド形成させられる。正常断片と異常断片の結合比は、2つの異なる発色団標識に対応する2つの異なる強度で放出される光の比率によって検出することができる。
第3のタイプのCGHは、マイクロアレイに基づくCGH(「aCGH」)と呼ばれる。図10〜図11は、マイクロアレイに基づくCGHが例示されている。図10において、図4に例示の仮想正常ゲノムにおける仮想染色体407及び/又は408の連続した部分配列に等しい配列を有する合成プローブ・オリゴヌクレオチドが、マイクロアレイ1002の表面における特徴として作成される。例えば、染色体407及び/又は408の領域1004の1本の鎖の配列を有する合成プローブ・オリゴヌクレオチドは、仮想マイクロアレイ1002の特徴1006において合成される。同様に、染色体407及び/又は408の部分配列1008に対応するオリゴヌクレオチド・プローブを合成することによって、マイクロアレイ1002の特徴1010のオリゴヌクレオチド・プローブ分子が得られる。実際の場合、プローブ分子は、染色体の長さに対してはるかに短くすることが可能であり、複数の異なるオーバラップ及び非オーバラップ・プローブ/特徴によって、特定の遺伝子を標的にすることが可能である。それにもかかわらず、マイクロアレイの特徴と遺伝子との間には明確な周知の対応が存在する。
マイクロアレイは、DNAの断片を含む標本溶液にさらすことが可能である。aCGHのあるバージョンでは、アレイは、異常組織から作成された、第1の発色団で標識された断片、及び正常組織から作成された、第2の発色団で標識された断片にさらすことが可能である。各特徴に関する第1の発色団から放出される信号対第2の発色団から放出される信号の正規化比によって、異常組織と正常組織を対比した場合のその特徴に対応する正常染色体部分の存在比の測度が得られる。図10の仮想マイクロアレイ1002において、各特徴は、図4に例示の仮想野生型ゲノムにおける染色体407及び/又は408の全長に沿った異なる間隔に対応する。第1の発色団で標識された、正常組織標本から作成された断片、及び第2の発色団で標識された正常組織から作成されたDNA断片を、両方とも、図10に示す仮想マイクロアレイとハイブリッド形成させ、第1と第2の発色団によって放出される光の正規化強度比を測定すると、比較的一様に、全ての特徴に関する正規化比が1に等しくなるはずである。
図11Aは、図10に示す仮想マイクロアレイとハイブリッド形成させられた2つの別様に標識された正常標本に関するaCGHデータ集合を表わしている。同じ色で表示された仮想マイクロアレイ1002の全特徴の対数比によって、図11Aに示すように、第1と第2の発色団からの信号強度の正規化比は全て、ほぼ1になる。対照的に、第1の発色団で標識された図5に例示の突然変異遺伝子型を備える組織から分離されたDNA断片とマイクロアレイをハイブリッド形成させ、第2の発色団で標識された正常組織から作成されたDNA断片とマイクロアレイをハイブリッド形成させると、第1の発色団対第2の発色団の信号強度比が、増幅遺伝子430、431、及び432の部分配列に等しいか、又はそれらと相補性のプローブ分子を含む特徴において1から大幅に変化することになる。図11Bに示すように、黒色で表示された第1と第2の発色団からの信号強度比の増大は、増幅遺伝子430、431、及び432にまたがる部分配列に等しいか、又はそれらと相補のプローブ分子を備えた特徴1102〜1112において観測される。同様に、信号強度の低減比は異常組織における遺伝子欠失を表わしている。
うまく設計されたマイクロアレイ実験から得られる、マイクロアレイに基づくCGHデータによって、標本組織の細胞内における遺伝子の相対又は絶対コピー数の比較的正確な測度が得られる。異なる時点において前がん及びがん組織から得られたaCGHデータ集合を用いて、特定の前がん及びがん組織におけるゲノムの不安定性をモニタすることが可能である。次に、定量化されたゲノムの不安定性を利用して、特定のタイプのがんの過程を検出して、見守ることが可能である。さらに、異なるクラスのがん及び前がん状態の特性を示す、遺伝子増幅及び遺伝子欠質を含む一般的な染色体異常を解明するため、異なるタイプのがん組織における定量化されたゲノム不安定性を比較することが可能である。不運なことに、生物学的データは極めてノイズが多いため、基調をなす傾向及びパターンが曖昧になる可能性がある。従って、科学者、診断医、及び他の専門家は、多種多様な実験及び計測の影響変動値から生じるノイズによって不明瞭になる可能性のある染色体の異常を表わした信号及びパターンを識別するため、特に、CGHデータを正規化し、分析する統計学的方法と、一般的には、aCGHデータとが必要であると認識している。
CGHデータにおける高ノイズ・レベルの影響を緩和するアプローチの1つでは、第1のステップとして、制御信号データを利用して標本信号データを正規化することが必要とされる。多くのaCGH実験では、正常組織から分離された染色体のDNA断片を含む正常対照標本が、染色体変化又は染色体異常の測度が求められる異常又は患部組織から分離又は作成されたDNA断片又はコピーと共に、対照標本として、アレイにハイブリッド形成させられる。複数の対照標本が利用可能な場合が多い。従って、患部組織から生じる信号は、ただ単に患部組織からの断片のハイブリダイゼーションによって生じる信号と1つの対照標本から生じる信号の対数比を利用するのではなく、複数の対照標本から導き出される信号を利用して正規化することが可能である。留意すべきは、本発明の方法は、患部組織の標本、特定の実験によって得られる標本、特定の実験中の特定の時点で得られる標本、及び他の関心のある標本を含む、任意のタイプの標本から得られる任意の信号の正規化に適用することが可能である。従って、下記の論考において、語句「患部組織の標本」は、語句「関心のある標本」と互換性がある。
より一般的な事例では、aCGHアレイは、いくつかの異なる特徴を含むことが可能であり、各特徴には、一般的に、特定タイプのプローブが含まれ、各プローブは、ゲノム位置を表わす指標kで指標された特定の染色体のDNA部分配列を標的とする。指標kによる指標された部分配列は、「部分配列k」と呼ばれる。対照標本又は患部組織標本jによって部分配列kに関して生じる信号は、部分配列kを標的とするプローブの数で割った部分配列kを標的とする異なるプローブからの対数比信号の和、すなわち、下記のように、部分配列kを標的とするプローブから生じる平均対数比信号値と定義することが可能である。
ここで、num_featureskは部分配列kを標的とする特徴数であり、C(b,j)は特徴bにおける標本jに関する正規化信号対数比である。
単一プローブが特定の部分配列kを標的とする場合、平均する必要はない。以下の論考では、特定の組織又は実験から得られたDNA断片の溶液のような、関心のある溶液に関する信号の正規化について論じることにする。関心のある溶液に単一CGH分析を受けさせることもできるし、あるいは関心のある溶液から得られるいくつかの同じ標本に、それぞれ、別個にCGH分析を受けさせることも可能であり、また、各部分配列kの分析によって生じる信号を平均して、関心のある溶液に関する単一の平均信号データ集合を生成することも可能である。
もう一度強調しておくと、各aCGHデータ・ポイントは、一般に、特定の部分配列を標的とするプローブを含むマイクロアレイの特定の特徴から読み取られる信号の対数比であり、この信号の対数比は、患部組織の断片に対する標識付けに用いられる第1の標識から放出される信号と、正常な対照組織の断片に対する標識付けに用いられる第2の標識から生じる信号との比を表わしている。患部組織の断片及び正常な対照組織断片は、両方とも、マイクロアレイ上の正常組織から得られたプローブ分子とハイブリッド形成させられる。正常組織又は標本は、特定の実験のために対照組織又は標本として選択される任意の組織又は標本とすることが可能である。「正常」という用語は、必ずしも、その組織又は標本が、集団平均、非患部組織、又は任意の他の主観的目的又は目的分類を表わすことを意味するものではない。
同じプローブを含む特徴から生じる平均信号を生じさせ、特定の患部組織に関するような、関心のある溶液に関する単一、すなわち、単一平均データ集合を得るか、又は複数対照データ集合を得ると、部分配列の増幅及び欠失表示と他の配列異常表示とに関するS/N比の向上を生じさせるため、複数の対照データ集合を一緒に利用して、関心のある溶液に関するデータ集合を正規化することが可能になる。単一対照データ集合ではなく、正規化のための複数対照データ集合を利用して、配列異常の統計的により信頼できる表示が得られる。
次に、下記のように、対照標本1からJまでの数Jによって、部分配列kに関して生じる信号から特定の部分配列kに関する平均制御信号を計算することが可能である。
ここで、Jは正常対照標本数である。同様に、部分配列kのJの制御信号に関する標準偏差は、下記のように計算することが可能である。
μkとσkを利用すると、患部組織標本sによって生じる特定の部分配列kに関する正規化信号は、下記のように計算することが可能になる。
特定の患部組織標本Cz(k,s)に関する正規化信号の発生のため、信頼できる平均及び標準偏差を計算するのに十分な数の対照標本信号がない場合、順位序列に基づく正規化を実施することが可能である。まず、q∈Xになるような順序付き値集合X内における要素qの位置が、下記のように定義される。
position(q,X)=i
ここで、X{x1,x2,...,xm};
x1≦x2≦x3...≦xm;
q=xi
患部組織標本sによって生じる特定の部分配列kに関する正規化信号は、下記のように、対照標本j1からjj並びに患部組織標本sによって生じるいくつかの信号を含む順序付き集合C内における、患部組織標本sによって生じる部分配列kに関する信号の位置すなわち順位である。
Cr(k,s)=position(C(k,s),C)
ここで、sは特定の標本であり、
C={C(k,j1),C(k,j2),...,C(k,jj)}UC(k,s)
従って、上述のように、特定の部分配列k、Czに関する平均及び標準偏差に基づく正規化患部組織信号、又は患部組織標本s、Crから生じる順位序列に基づく正規化信号を計算することが可能である。前者の正規化が利用されるのは、統計学的に信頼できる平均と標準偏差とを求めるのに十分な数の対照標本が存在する場合である。存在しない場合は、順位序列法が用いられる。
position(q,X)=i
ここで、X{x1,x2,...,xm};
x1≦x2≦x3...≦xm;
q=xi
患部組織標本sによって生じる特定の部分配列kに関する正規化信号は、下記のように、対照標本j1からjj並びに患部組織標本sによって生じるいくつかの信号を含む順序付き集合C内における、患部組織標本sによって生じる部分配列kに関する信号の位置すなわち順位である。
Cr(k,s)=position(C(k,s),C)
ここで、sは特定の標本であり、
C={C(k,j1),C(k,j2),...,C(k,jj)}UC(k,s)
従って、上述のように、特定の部分配列k、Czに関する平均及び標準偏差に基づく正規化患部組織信号、又は患部組織標本s、Crから生じる順位序列に基づく正規化信号を計算することが可能である。前者の正規化が利用されるのは、統計学的に信頼できる平均と標準偏差とを求めるのに十分な数の対照標本が存在する場合である。存在しない場合は、順位序列法が用いられる。
部分配列の欠失及び増幅は、一般に、染色体に沿った、遺伝子、対象領域、又は他の識別部分配列のような関心のあるいくつかの連続した部分配列にわたる。従って、増幅及び欠失のより信頼性の高い検出のため、染色体の全長に沿った連続部分配列群を統計学的に考慮して、染色体毎にaCGHデータを分析することは理に適っている。すなわち、測定ノイズは、染色体に沿った各部分配列毎に独立したものであり、異なるプローブ毎に独立したものであると仮定される。統計学的手法を用いて、欠失又は増幅を比較的強く示す連続部分配列集合が識別される。これには、データにおける擬似単一プローブ異常の影響を緩和する傾向がある。媒介変数・アプローチを利用することが可能になるのは、染色体に沿った測定ノイズが、異なるプローブ毎に独立しており、ほぼ正常に分布している場合である。非媒介変数・アプローチが利用されるのは、これらの仮定を行うことができない場合である。
いずれの方法の場合にも、関心のある染色体に沿った部分配列に関して測定され、正規化され、又は別様の処理を施される信号は、下記のように、ベクトルVであるとみなされる。
V={v1,v2,...,vn}
ここで、vk=Cz(k,s)又はvk=Cr(k,s)
ベクトルすなわち集合Vは、染色体に沿った部分配列の位置に従って逐次順序付けされるという点に留意されたい。媒介変数・アプローチの場合、下記のように、統計値Sは染色体に沿った固定サイズの部分配列の各間隔I毎に計算される。
V={v1,v2,...,vn}
ここで、vk=Cz(k,s)又はvk=Cr(k,s)
ベクトルすなわち集合Vは、染色体に沿った部分配列の位置に従って逐次順序付けされるという点に留意されたい。媒介変数・アプローチの場合、下記のように、統計値Sは染色体に沿った固定サイズの部分配列の各間隔I毎に計算される。
ここで、I={vi,...,vj}であり、
vk=Cz(k,s)
vk=Cz(k,s)
配列異常がないと仮定するヌル・モデルの下では、統計値Sは、各間隔Iに含まれるプローブ数に関係なく、平均=0及び分散=1の正常な値の分布を示す。間隔Iにおける部分配列に関する正規化信号の統計的有意性は、正常な分布曲線の領域に基づく標準確率計算によって求めることが可能である。
あるいはまた、S(I)の絶対値は、変化を判定する根拠として利用することも可能である。
非媒介変数・アプローチでは、患部組織標本と幾つかの対照標本とに関する順位序列に基づく正規化信号値が用いられる。ある特定の間隔Iに関する順位の和は、部分配列v1からvkのそれぞれに関する順位序列に基づく正規化信号を合計することによって計算することが可能であり、間隔順位(I)の順位に関する予測値は、下記のように簡単に計算される。
ここで、I={vi,...,vj}
vl=Cr(l,s)
m=対照標本数+1
vl=Cr(l,s)
m=対照標本数+1
d=j−i+1
推定上の増幅及び欠失に関する間隔を統計学的に検討し、評価するためには、予測値からの大きい偏差の確率を計算することが必要になる。これを行うため、{1,...,m}における一様な分布のk階の畳み込み(the k-th order convolution)が計算される。確率Tm(r,z)は、{1,...,m}において一様に分布したr個の独立確率変数の和がちょうど値zになる確率である。この確率は、下記のように再帰的に計算することが可能である。
正確な確率Tm(r,z)を利用して、下記のように、{1,...,m}において一様に分布したr個の独立確率変数X1,...,Xrの和が特定の値y(r≦y≦r・m)を超える確率を計算することが可能である。
正確な確率Tm(r,z)の同様の和を利用して、{1,...,m}において一様に分布したr個の独立確率変数X1,...,Xrの和が、特定の値y(r≦y≦r・m)未満になるか、又はある任意の値域内になる確率を計算することも可能である。
上述の媒介変数・アプローチを用いた確率計算と同様に、それぞれ、1からmまでの一様に分布した確率変数の和が、観測される順位(I)を超える確率を利用して、下記のように、ある間隔I内における部分配列の増幅に相当する比較的高い順位(I)値の統計的有意性を計算することが可能である。
Prob(Zm,μ>rank(I))
ここで、I={vi,...,vj}
μ=j−i+1
m=対照標本数+1
Xi=1からmまでの一様に分布した独立確率変数
Prob(Zm,μ>rank(I))
ここで、I={vi,...,vj}
μ=j−i+1
m=対照標本数+1
Xi=1からmまでの一様に分布した独立確率変数
同様に、1からmまでの一様に分布した確率変数の和が、観測される順位(I)未満になる確率を利用して、下記のように、間隔I内における部分配列の欠失を表わす比較的低い順位(I)値の統計的有意性を計算することが可能である。
Prob(Zm,μ<rank(I))
ここで、I={vi,...,vj}
μ=j−i+1
m=対照標本数+1
Xi=1からmまでの一様に分布した独立確率変数
Prob(Zm,μ<rank(I))
ここで、I={vi,...,vj}
μ=j−i+1
m=対照標本数+1
Xi=1からmまでの一様に分布した独立確率変数
留意すべきは、様々な異なる間隔長を繰り返し利用して、特定の生体高分子配列における増幅及び欠失の確率を計算することが可能である点である。換言すれば、ある範囲の間隔サイズを利用して、生体高分子における増幅及び欠失の表示を正確にすることができる。
計算された間隔順位に関する有意性値を求めるための上述の確率計算の一例として、下記のC++のような擬似コードを用いて、ある順位(I)値域内で、間隔Iにおける任意の数の部分配列に関するいくつかの対照標本とある患部組織標本を加えた分について、ある順位(I)値を観測する確率を求めることが可能である。この簡便なC++のような擬似コードは、さらに、実験手順において観測される順位(I)値の有意性を推定するために用いられることになるいくつかの順位(I)値域の確率を計算するアプローチの1つを例示するために取り入れられている。そのアプローチは、問題に対する最も効率が良いアプローチ、又は最も優れたアプローチとして提示されたものではない。
まず、少数の定数が宣言される。
これらの定数によって、確率算定に関する初期値として指定することが可能な標本及び部分配列の最大数が指定される。
次に、単純なクラス「createTable」が宣言される。
クラス「createTable」によって、特定の数の標本mに関する間隔Iにおける任意の数の部分配列について特定の順位(I)値をもたらすことになる可能性のある順位の組み合わせ数のカウント・テーブルが生成される。クラス「createTable」に関する私用データ・メンバには、(1)rank、ある特定の順位(I)値と、(2)nGenes、間隔Iの部分配列数と、(3)nSample、実験における標本数と、(4)accumulator、後述する再帰的ルーチンにおいてカウントを累算するために用いられる整数と、(5)probs、特定の順位(I)値をもたらすことになる順位の組み合わせ数を、部分配列順位値の可能性のある組み合わせの総数によって割ることによって得られる確率テーブルと、(6)sampleSizePtrs、上述のテーブル「probs」への索引テーブルとが含まれる。クラス「createTable」には、(1)compute、特定の数の標本における特定の数の部分配列に関するある特定の順位(I)の確率を計算するルーチンと、(2)recCompute、その和が特定の順位(I)値になる部分配列順位値の組み合わせのカウントを計算するため、ルーチン「compute」によって呼び出される再帰的ルーチンと、(3)pTable、上述のテーブル「probs」に記憶される確率値を計算するルーチンと、(4)Prob、ある観測順位(I)値が特定の数の標本における特定の数の部分配列について、引き数として指定されるある順位(I)値域内に含まれる確率を計算するルーチンといった機能メンバが含まれる。次に、再帰的ルーチン「recCompute」の実施例を提示する。
再帰的ルーチン「recCompute」では、特定の順位(I)値を生じることが可能な部分配列順位値の組み合わせ数が再帰的に計算される。このルーチンでは、ある間隔における各部分配列毎に、可能性のある部分配列順位値が再帰的に検討される。
次に、ルーチン「Compute」に関する実施例を提示する。
ルーチン「compute」では、指定された順位が指定された数の部分配列及び標本に関して可能性のある順位の範囲内に含まれない場合、0を戻すか、あるいは別様であれば、再帰的ルーチン「recCompute」を呼び出して、引き数として指定された、特定の順位をもたらすことになる部分配列値の組み合わせ数を計算する。次に、ルーチン「pTable」に関する実施例を提示する。
このルーチンでは、行13のルーチン「Compute」によって計算された順位(I)に関する組み合わせ数を、行14において計算された配列順位値の組み合わせ総数で割ることによって、特定の順位(I)値を観測する確率が計算される。
次に、ルーチン「Prob」の実施例を提示する。
このルーチンでは、ある順位(I)値域内において特定の順位(I)値を観測する確率を計算するために、ただ単にある順位(I)値域内における個別順位(I)値の確率の和を求めるだけである。
最後に、単純な主ルーチンを提示して、クラス「createTable」のインスタンスを利用して、確率を計算する方法を明らかにする。
図12〜図16には、ある間隔内におけるいくつかの部分配列及び任意の数の標本に関してある特定の順位(I)値をもたらすことになる、部分配列順位値の組み合わせ数を例示する、上記C++のような擬似コードに類似したプログラムから生成されたデータが示されている。簡略化のため、5つの図は全て、図12に関してのみ説明される同じ図解規則を用いている。図12において、様々な任意の数の部分配列及び標本に関する組み合わせが示されている。図13〜図16には、3〜6個の標本に関する組み合わせが示されている。欄1202には、可能性のある順位(I)値が記載されており、水平軸1204は、ある特定の間隔における部分配列数が、2から9の部分配列までインクリメントする。図12〜図15において、0値はブランクとして示されている。例えば、2つの部分配列の間隔について、2の順位(I)値1208をもたらすことになる部分配列順位値の組み合わせ1206が1つ存在し、3の順位(I)値1212をもたらすことになる部分配列順位値の組み合わせ1210が2つ存在し、4の順位(I)値1216をもたらすことになる部分配列順位値の組み合わせ1214が1つ存在する。標本におけるある特定の数の部分配列に関する組み合わせ総数は、図の特定の欄における全ての組み合わせを加算することによって求めることが可能である。同じ値は、部分配列数に等しい数に上げられた標本数として計算可能である。従って、図12のデータの第1の欄1218の場合、組み合わせ総数は、1+2+1=22=4になる。上記擬似コード実施例によって計算される確率は、所望の範囲内における順位に対応する欄内における組み合わせの和を求め、その欄によって表わされている組み合わせ総数で割ることによって得ることが可能である。
媒介変数、間隔に関する統計値、又は間隔に関する順位値を観測する確率の計算が済むと、増幅又は欠失のないヌル仮定に基づく予測確率の妥当な範囲外の計算された確率が伴ったこれらの間隔が識別され、識別間隔リストにおける余剰分が除去される。図17には、間隔を識別して、順位付けし、可能性の高い欠失又は増幅に対応するものとして識別された間隔リストから余剰分を除去するための方法の1つが例示されている。図17には、染色体C1(図4の402)に沿って、異常染色体(図5の502)のある患部組織について確率が計算される間隔が示されている。各間隔は、間隔番号Ixで表示されている。ここで、xは1〜9の範囲である。大部分の間隔については、計算確率が、ヌル仮定と調和のとれる確率範囲内に含まれる。換言すれば、大部分の間隔については、増幅も欠失も示されない。しかし、間隔I61702、間隔I71704、及び、間隔I81706の場合、計算確率は、ヌル仮定に関して予測される確率範囲未満になり、患部組織標本に部分配列欠質の可能性があることを示唆している。これら3つの間隔は、初期リスト1708に納められ、計算確率の有意性に基づく順番に順序付きリスト1710に記載される。間隔I71704は、まさしく、患部組織染色体(図5の502)において欠失した部分配列を含んでおり、従って、ヌル仮定の確率範囲外にあることに関して、最も有意性が高いことは正しい。次に、リスト1712に示されるように、順序付きリストにおいて上位にある間隔に重複する全ての間隔が除去されるが、この場合、有意性の低い重複間隔I6及びI8が、間隔I6及びI8に対応する項目の有意性欄に記入された文字Xによって表示されているように除去される。最終結果として、欠失と一致する確率が最も高い間隔を表わす単一間隔1714を含むリストが得られる。数千の部分配列を含み、数百の間隔を利用して分析される、実際の染色体に関する最終リストには、一般に、2つ以上の項目が含まれる可能性がある。
図18A〜図18Fには、CGHデータ分析システムの一部として、CGHデータ分析方法及び分析結果に対する視覚的及び対話型アクセスを可能にするように開発されたユーザ・インターフェイスを例示したスクリーン・キャプチャが示されている。まず、図18Aに示すこのユーザ・インターフェイスの機構について述べることにする。図18B〜図18Fには、ユーザ・インターフェイスの機構を通じて制御されるデータの様々な表示が示されている。ユーザ・インターフェイスの機構には、(1)標準オペレーティング・システム・インターフェイス、データ処理及び表示オプション、ユーザ援助インターフェイス、及び他の標準機能を提示するメニュー・バー1802〜1804と、(2)ヒート・マップ表現を含む様々なやり方で、CGHデータの分析が表示される、データ分析表現表示領域と、(3)CGHデータ分析の表示と同時に、データ分析表現表示領域1806にその分析が表示される生体高分子部分配列に関する、その生体高分子を含むゲノム領域に関連した遺伝子名、遺伝子産物名、及び、他のゲノム情報を含めたテキスト及びグラフィック注釈を、データ分析表現表示領域1806に表示する注釈ウィンドウ1808と、(4)分析すべき各種標本を表示し、ユーザが選択できるようにする標本選択ウィンドウ1810と、(5)CGHデータ集合の生成に用いられるプローブの全て、又はサブ集合を選択可能にするプローブ・フィルタ選択ウィンドウ1812と、(6)統計値を計算する部分配列間隔Iのサイズを選択可能にする選択円滑化ウィンドウ1814と、(7)データ分析表現表示領域1806における対数比の表示スタイルを制御する対数比表現選択ウィンドウ1816と、(8)媒介変数又は非媒介変数統計値を適用可能にし、上述の分析方法及び他の方法から、CGHデータを分析するための正確な分析方法を制御する各種パラメータを選択可能にする、プローブ較正選択ウィンドウ1818と、(9)CGHデータに適用される正確な分析方法を制御するためのさらなるパラメータを提示する異常領域選択ウィンドウ1820と、(10)ユーザが、ゲノム範囲の各端部毎にマウス・クリックを利用して、表示するゲノム位置範囲を選択し、その範囲内の表示のズーム・インを行えるようにし、かつ、ユーザが現在表示されている範囲よりも広い範囲を選択できるようにするゲノム範囲選択バーと、(11)個別染色体を分析のため選択可能にする染色体選択欄が含まれている。
データ分析表現表示領域1806には、DNA生体高分子分析の場合、染色体又はゲノム全体の選択領域に沿って、いくつかの標本のそれぞれについて、緑のようなある色の純度が高まるにつれて、ある領域の欠失の確率が増すことを示し、赤のような異なる色の純度が高まるにつれて、ある領域の増幅の確率が増すことを示す、CGHデータ分析結果のヒート・マップ表現が表示される。ヒート・マップ表現では、増幅も欠失も示されない領域は、白又は灰色のような無彩色によって表現することが可能である。CGH分析は、上述のように、対照データを利用して、隣接部分配列と標本選択ウィンドウ1810において選択された各種患部組織標本の表示を考慮に入れた欠失及び増幅統計値を計算するために行われる。図18Bに示すように、表示範囲を縮小して、ゲノム又は染色体の特定領域に拡大することが可能である。
図18C〜図18Fには、対照データとの関連において、単一標本信号及び複数標本信号に関する異なる表示フォーマットが示されている。図18Cの場合、例えば、表示の線は、背景内において関心のある標本に関して計算された信号の対数比、又は平均制御信号データに関する制御信号データ範囲を表わした対照パッチを表わしている。従って、図Cに示すように、欠失は対照パッチより下方にある表示の線によって容易に認識される。欠失及び増幅の視認性を高めるため、対照パッチ内の関心のある標本データを表現する線が黒の彩色を施されている場合、対照パッチの下方又は上方にある関心のある標本信号データの線表示部分は、それぞれ、例えば、緑及び赤といった異なる彩色を施すことが可能である。
本発明は、特定の実施態様に関して記載されているが、本発明がこの実施態様に制限されることを意図したものではない。本発明の意図内の修正が、当該技術者に明らかにされる。例えば、コンピュータ・プログラム、及びコンピュータ・プログラム・ルーチンのほぼ無数の異なる実施例を生成して、いくつかの対照標本が得られると、患部組織標本における染色体異常を分析するための上述の分析方法の計算を実施することが可能である。上記説明では、再帰的方法が示され、上記C++のような擬似コード実施例において利用されているが、より効率的な非再帰的アルゴリズムを用いて、所望の統計値をいっそう効率よく計算することも可能である。上述の方法は、異なる数の染色体、染色体当たりの数が異なる部分配列、及び他の遺伝的相違を備える多種多様な生物からの実験データを網羅するように、容易に修正を加えることが可能である。上述の方法の各構成要素において、数学的に類似しているが代わりとなる、多様な可能性があるアプローチを用いることも可能である。例えば、平均値及び分散値を計算するための様々な方法、並びに、様々な統計的パラメータを利用して、特定の分布の特性を解明することも可能である。図18A〜図18Fに関連して、上述のユーザ・インターフェイス実施例に加えて、多くの異なるタイプのユーザ・インターフェイス実施例を用いて、CGH分析及び様々な異なるCGHデータ分析結果表示フォーマットを制御するパラメータの好適な選択を可能にする。
上記記載は、説明のために、発明の完全な理解を提供する特定の用語を用いた。しかし、当該技術者には明らかなように、本発明の実施に、特定の細部は不要である。本発明の特定の実施態様に関する以上の説明は、例証及び解説を目的として提示されたものである。それらの説明は、本発明を網羅的に説明する、又は本発明を開示の形態にそのまま制限するものではない。以上の教示に鑑みて、多くの修正と変更が可能であることは明らかである。実施態様は、本発明の原理とその実際の適用例を最も明瞭に解説することによって、他の当該技術者が、企図する特定の用途に合わせて本発明と様々な修正を施した実施態様とを最も有効に活用できるように説明されている。本発明の範囲は、付属の請求項及びその同等物によって定義されるものとする。
Claims (28)
- ある生体高分子配列の多数の部分配列について、
ある特定標本における現在検討中の部分配列に対する生体高分子断片のハイブリダイゼーション・レベルを決定するステップと、
前記現在検討中の部分配列に対する対照標本j1〜jnの生体高分子断片のハイブリダイゼーション・レベルを決定するステップと、
前記特定標本における生体高分子断片の前記決定されたハイブリダイゼーション・レベルと、対照標本j1〜jnの生体高分子断片の前記決定されたハイブリダイゼーション・レベルについて計算された平均値との差異を決定することによって、対照標本j1〜jnの生体高分子断片の前記決定されたハイブリダイゼーション・レベルに関して計算された分散値に対して相対的な、前記現在検討中の部分配列に対する特定標本中の生体高分子断片に関する正規化ハイブリダイゼーション・レベルを計算するステップと
を含む、生体高分子配列に関して収集された比較ハイブリダイゼーション・データを正規化する方法。 - 前記生体高分子がDNAであることを特徴とする、請求項1に記載の方法。
- 前記比較ハイブリダイゼーション・データが、増幅段階とマイクロアレイに基づく検出段階とを組み合わせた分析から得られることを特徴とする、請求項2に記載の方法。
- 前記データが、アレイに基づく比較ゲノム・ハイブリダイゼーション実験から収集されることを特徴とする、請求項2に記載の方法。
- コンピュータ可読媒体に記憶される請求項1に記載の方法を実施する、コンピュータ命令。
- 請求項1に記載の方法を実施するロジックであって、ハードウェアで実施されるもの、ファームウェアで実施されるもの、ソフトウェアで実施されるもの、又はハードウェアで実施されるものと、ファームウェアで実施されるものとソフトウェアで実施されるものとの2つ以上の組み合わせを含む、比較ハイブリダイゼーション・データ分析システム。
- ある生体高分子配列の多数の部分配列について、
ある特定標本における現在現在検討中の部分配列に対する生体高分子断片のハイブリダイゼーション・レベルを決定するステップと、
前記現在検討中の部分配列に対する対照標本j1〜jnの生体高分子断片のハイブリダイゼーション・レベルを決定ステップと、
計算するステップであって、
前記決定されたハイブリダイゼーション・レベル値の順序付き集合が得られるように、前記特定標本における生体高分子断片の前記決定されたハイブリダイゼーション・レベルと、対照標本j1〜jnの生体高分子断片の前記決定されたハイブリダイゼーション・レベルとを順序付けするステップと、
前記順序付き値の集合内で、前記特定標本の生体高分子断片の前記決定されたハイブリダイゼーション・レベルの位置を、前記現在検討中の部分配列を備えた前記特定標本の生体高分子断片の正規化ハイブリダイゼーション・レベルとして選択するステップと
を含む前記現在検討中の部分配列に対する前記特定標本中の断片に関する正規化ハイブリダイゼーション・レベルを計算するステップと
を含む、生体高分子配列に関して収集された比較ハイブリダイゼーション・データを正規化する方法。 - 前記生体高分子がDNAであることを特徴とする、請求項7に記載の方法。
- 前記比較ハイブリダイゼーション・データが、増幅段階とマイクロアレイに基づく検出段階とを組み合わせた分析から得られることを特徴とする、請求項8に記載の方法。
- 前記データが、アレイに基づく比較ゲノム・ハイブリダイゼーション実験から収集されることを特徴とする、請求項8に記載の方法。
- 請求項7に記載の方法を実施する、コンピュータ可読媒体に記憶されたコンピュータ命令。
- 請求項7に記載の方法を実施するロジックであって、ハードウェアで実施されるもの、ファームウェアで実施されるもの、ソフトウェアで実施されるもの、又はハードウェアで実施されるものと、ファームウェアで実施されるものとソフトウェアで実施されるものとの2つ以上の組み合わせを含む、比較ハイブリダイゼーション・データ分析システム。
- ある標準生体高分子配列の1つの集合をなす連続した部分配列のそれぞれに関して、1つ以上の対照標本から得られる生体高分子配列の断片についてのハイブリダイゼーション・レベルを利用して、前記生体高分子配列の断片についての正規化ハイブリダイゼーション・レベルを求めるステップと、
前記決定された正規化ハイブリダイゼーション・レベルをある信号ベクトル内の信号として記憶するステップと、
前記信号ベクトル内における間隔の集合を生成するステップと、
各間隔毎に統計的評点をつけるステップと、
第1のしきい値未満の統計的評点がついた間隔は、欠失の可能性があると判定し、第2のしきい値を超える統計的評点がついた間隔は、増幅の可能性があると判定するステップと
を含む、特定標本から得られる生体高分子配列の増幅及び欠失領域を識別するための方法。 - 各間隔毎に統計的評点をつけるステップが、
各間隔内における信号の和を求めるステップと、
信号の和をその間隔における信号数の平方根で割って、各間隔の正規統計値Sが得られるようにするステップと
をさらに含むことを特徴とする、請求項13に記載の方法。 - 第1のしきい値未満の統計的評点がついた間隔は、欠失の可能性があると判定し、第2のしきい値を超える統計的評点がついた間隔は、増幅の可能性があると判定するステップが、各間隔毎に前記計算された正規統計値を観測する確率と、前記第1及び第2のしきい値とを比較するステップをさらに含むことを特徴とする、請求項14に記載の方法。
- 各間隔毎に統計的評点をつけるステップが、各間隔内における順位序列に基づく信号の和を求めて、順位和を得られるようにするステップをさらに含むことを特徴とする、請求項13に記載の方法。
- 第1のしきい値未満の統計的評点がついた間隔は、欠失の可能性があると判定し、第2のしきい値を超える統計的評点がついた間隔は、増幅の可能性があると判定するステップが、各間隔毎に計算された前記順位和を観測する確率と、前記第1及び第2のしきい値とを比較するステップをさらに含むことを特徴とする、請求項16に記載の方法。
- 前記生体高分子配列がDNA配列であることを特徴とする、請求項13に記載の方法。
- 前記生体高分子配列の断片に関するハイブリダイゼーション・レベルが、アレイに基づく比較ハイブリダイゼーション法によって決定されることを特徴とする、請求項13に記載の方法。
- 請求項13に記載の方法を実施する、コンピュータ可読媒体に記憶されたコンピュータ命令。
- 請求項13に記載の方法を実施するロジックであって、ハードウェアで実施されるもの、ファームウェアで実施されるもの、ソフトウェアで実施されるもの、又はハードウェアで実施されるものと、ファームウェアで実施されるものとソフトウェアで実施されるものとのうちの2つ以上の組み合わせを含む、比較ハイブリダイゼーション・データ分析システム。
- ユーザが、各種パラメータを設定して、比較ハイブリダイゼーション・データ分析を制御できるようにするユーザ・インターフェイス機構と、
生体高分子配列の選択可能領域に沿って、増幅、欠失、及び他の異常のグラフィカル・コード化表示によって、関心のある選択可能な数の標本に関する比較ハイブリダイゼーション・データ分析結果のヒート・マップ表現を表示するデータ分析表現表示領域と
を含むことを特徴とする、比較ハイブリダイゼーション・データ分析システムによって得られるユーザ・インターフェイス。 - ユーザが各種パラメータを設定して、比較ハイブリダイゼーション・データ分析を制御できるようにするユーザ・インターフェイス機構が、
ユーザが、前記生体高分子配列の範囲を選択できるようにして、その範囲に沿って比較ハイブリダイゼーション分析結果を表示するための機構と、
ユーザが、媒介変数・データ正規化と非媒介変数・データ正規化の一方を選択できるようにする機構と、
ユーザが、増幅及び欠失の確率の媒介変数連続部分配列に基づく算定と非媒介変数連続部分配列に基づく算定の一方を選択できるようにする機構と、
ユーザが、関心のある特定標本を分析のために選択できるようにする機構と、
ユーザが、多くの結果表示フォーマットの1つを選択できるようにする機構と
をさらに含むことを特徴とする、請求項22に記載のユーザ・インターフェイス。 - 結果表示フォーマットが、関心のある特定の標本に関する比較ハイブリダイゼーション結果が、対照結果に関する平均値について、前記対照結果に関する対応する値域を表示する対照パッチの上に重なるように表示される表示フォーマットを含むことを特徴とする、請求項23に記載のユーザ・インターフェイス。
- 比較ハイブリダイゼーション結果が、対照結果に関する対応する値域内に含まれる場合、第1の色で、前記比較ハイブリダイゼーション結果が対照結果に関する対応する値域を超える場合には、第2の色で、前記比較ハイブリダイゼーション結果が対照結果に関する対応する値域未満の場合には、第3の色で、関心のある特定標本に関する前記比較ハイブリダイゼーション結果を表示することをさらに含むことを特徴する、請求項23に記載のユーザ・インターフェイス。
- 請求項22に記載のユーザ・インターフェイスを実施する、コンピュータ可読媒体においてコード化されたコンピュータ命令。
- 請求項22に記載のユーザ・インターフェイスを実施するロジックであって、ハードウェアで実施されるもの、ファームウェア実施されるもの、ソフトウェアで実施されるもの、又はハードウェアで実施されるものと、ファームウェア実施されるものとソフトウェアで実施されるものの2つ以上の組み合わせを含む、比較ハイブリダイゼーション・データ分析システム。
- 生体高分子配列の選択可能領域は、前記生体高分子配列内の2つの単量体の位置によって規定することが可能な任意の配列を含むことを特徴とする、請求項22に記載のユーザ・インターフェイス。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005027774A JP2006215809A (ja) | 2005-02-03 | 2005-02-03 | アレイに基づく比較ハイブリダイゼーション・データの分析方法及びシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005027774A JP2006215809A (ja) | 2005-02-03 | 2005-02-03 | アレイに基づく比較ハイブリダイゼーション・データの分析方法及びシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006215809A true JP2006215809A (ja) | 2006-08-17 |
Family
ID=36979003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005027774A Pending JP2006215809A (ja) | 2005-02-03 | 2005-02-03 | アレイに基づく比較ハイブリダイゼーション・データの分析方法及びシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006215809A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117012274A (zh) * | 2023-10-07 | 2023-11-07 | 北京智因东方转化医学研究中心有限公司 | 基于高通量测序识别基因缺失的装置 |
-
2005
- 2005-02-03 JP JP2005027774A patent/JP2006215809A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117012274A (zh) * | 2023-10-07 | 2023-11-07 | 北京智因东方转化医学研究中心有限公司 | 基于高通量测序识别基因缺失的装置 |
CN117012274B (zh) * | 2023-10-07 | 2024-01-16 | 北京智因东方转化医学研究中心有限公司 | 基于高通量测序识别基因缺失的装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7280922B2 (en) | System, method, and computer software for genotyping analysis and identification of allelic imbalance | |
US7937225B2 (en) | Systems, methods and software arrangements for detection of genome copy number variation | |
CA3213915A1 (en) | Somatic copy number variation detection | |
US6502039B1 (en) | Mathematical analysis for the estimation of changes in the level of gene expression | |
CN109461473B (zh) | 胎儿游离dna浓度获取方法和装置 | |
GB2413130A (en) | Method and system for analysis of array-based comparative hybridisation data | |
US20220375544A1 (en) | Kit and method of using kit | |
WO2023196928A2 (en) | True variant identification via multianalyte and multisample correlation | |
EP1190366B1 (en) | Mathematical analysis for the estimation of changes in the level of gene expression | |
US20070203653A1 (en) | Method and system for computational detection of common aberrations from multi-sample comparative genomic hybridization data sets | |
US20070031883A1 (en) | Analyzing CGH data to identify aberrations | |
JP2006215809A (ja) | アレイに基づく比較ハイブリダイゼーション・データの分析方法及びシステム | |
WO2018223057A1 (en) | Array-based methods for analysing mixed samples using different allele-specific labels, in particular for detection of fetal aneuploidies | |
US20090068648A1 (en) | Method and system for determining a quality metric for comparative genomic hybridization experimental results | |
US20220020449A1 (en) | Vector-based haplotype identification | |
US20070174008A1 (en) | Method and system for determining a zero point for array-based comparative genomic hybridization data | |
Barrett et al. | Linkage analysis | |
JP2020517304A (ja) | Dna分析のためのオフターゲット配列の使用 | |
US20060259251A1 (en) | Computer software products for associating gene expression with genetic variations | |
DeSantis et al. | A latent class model with hidden Markov dependence for array CGH data | |
Shan et al. | BayesRB: a markov chain Monte Carlo-based polygenic genetic risk score algorithm for dichotomous traits | |
JP2023033052A (ja) | 遺伝子診断リスク判定システム | |
KR20230012033A (ko) | 다형 좌위 신호의 신뢰성 값의 산출 방법 | |
Wineinger | Statistical methods in the analysis of copy number variation data | |
Marconi | New approaches to open problems in gene expression microarray data |