JP2006215809A

JP2006215809A - アレイに基づく比較ハイブリダイゼーション・データの分析方法及びシステム

Info

Publication number: JP2006215809A
Application number: JP2005027774A
Authority: JP
Inventors: Amir Ben-Dor; アミール・ベン−ドール; Zohar H Yakhini; ゾウハー・エイチ・ヤキーニ; Robert H Kincaid; ロバート・エイチ・キンケイド
Original assignee: Agilent Technologies Inc
Current assignee: Agilent Technologies Inc
Priority date: 2005-02-03
Filing date: 2005-02-03
Publication date: 2006-08-17

Abstract

【課題】アレイに基づく比較ハイブリダイゼーション・データの分析を行う。
【解決手段】本発明では、マイクロアレイの実験から得られた比較ゲノム・ハイブリダイゼーション（「ＣＧＨ」）データを含む、ＣＧＨデータを分析する方法及びシステムが提供される。本発明の様々な実施態様は、ＣＧＨデータに関する媒介変数と非媒介変数の正規化法、及び特定の組織標本から細胞において増幅又は欠失された１つ以上の連続した染色体のＤＮＡ部分配列の集合を識別するための方法が含まれる。本発明の実施態様の方法は、うまく設計されたマイクロアレイに基づく実験システムと組み合わせると、ＣＧＨデータに基づく増幅及び欠失したＤＮＡ部分配列を含む、染色体の異常の識別において、著しく定量的精度を向上させることができる。
【選択図】図１８Ａ

Description

本発明は、実験データの分析に関するものであり、特に、アレイに基づく比較ハイブリダイゼーションを用いて、対照標本と比較され、関心のある標本中において、染色体ＤＮＡの配列における部分配列の増幅及び欠失を含む、生体高分子配列の異常を識別する方法及びシステムに関する。

正常細胞から前がん症状又はがん状態に形質転換と、がん組織の成長とがん組織の転移とを引き起こす、原因及び細胞のメカニズムを解明するため、多数の基本研究が行われてきた。がんの様々な原因及び細胞のメカニズムを理解することにおいて、多数の進歩があり、現在、この詳細な理解により、がんを予防、検出、処置するための新規で有用なアプローチが提供されている。

がんの成長に関連づけられる、無数の異なるタイプの原因となる出来事及び作用因がある。さらに、がんの多数の異なるタイプ、及びがんの多数の異なるタイプに関する多数の異なる成長のパターンがある。当初の期待及び戦略は、基本的な原因及びメカニズムである、１つ又は少数の基本的な要件を発見することに基づいていたが、時間が経つにつれて、研究者達は、実際、「がん」という用語が極めて多数の異なる病気を包含するということを認識するようになった。それにもかかわらず、がんに関連したある共通な細胞現象があるようである。多くの異なるタイプのがんにおいて、１つの共通な現象は、前がん症状の組織における遺伝子の不安定性、及びがん組織の成長に伴う進行性の遺伝子の不安定性の開始である。遺伝子の不安定性には多くの異なるタイプ及び徴候が存在するが、がん細胞内における特定のＤＮＡ部分配列のコピー数の変化が、遺伝子の不安定性の基本的な兆候といえる。がん細胞における染色体のＤＮＡ部分配列の増幅及び欠失を検出し、少なくとも部分的に定量化するために、様々な技法が開発されてきた。ある技法は、「比較ゲノム・ハイブリダイゼーション」と呼ばれる。比較ゲノム・ハイブリダイゼーション（「ＣＧＨ」）は、場合によっては、染色体のＤＮＡ部分配列の増幅及び欠失を見事に視覚表示することができるが、多くの生物学的及び生化学的分析技法と同様に、かなりのノイズと標本変異とを受けるので、ＣＧＨデータの定量分析において問題を生じることになる。

本発明の目的は、がん細胞を含む病変組織標本におけるＤＮＡ部分配列コピーの変異を、より正確に定量化するため、ＣＧＨデータ分析技法と、試料に関連して観測される様々な特性及び状態について可能性のある遺伝学的な基本要素を識別するため、複数の試料から標本にＣＧＨ技法を適用することによって得られたＣＧＨデータを分析し、その分析結果を視覚化するための技法とを提供することにある。

本発明の実施態様には、マイクロアレイの実験から得られた比較ゲノム・ハイブリダイゼーション（「ＣＧＨ」）データのようなＣＧＨデータを含む比較ハイブリダイゼーション・データを分析する方法及びシステムが含まれる。本発明の様々な実施態様は、ＣＧＨデータに関する媒介変数と非媒介変数の正規化法、及び特定の組織標本から細胞において増幅又は欠失された１つ以上の連続した染色体のＤＮＡ部分配列の集合を識別するための方法が含まれる。本発明の実施態様の方法は、うまく設計されたマイクロアレイに基づく実験システムと組み合わせると、ＣＧＨデータに基づく増幅及び欠失したＤＮＡ部分配列を含む染色体の異常の識別において、著しく定量的精度を向上させる。本発明のさらなる実施態様では、比較ハイブリダイゼーションを用いて、ＤＮＡ以外の生体高分子を含む一般的な生体高分子配列に対して欠失、増幅、及びその他の変化を検出するものがある。

本発明の実施態様によれば、比較ゲノム・ハイブリダイゼーション（「ＣＧＨ」）・データの分析方法及びシステムが得られる。これらの方法及びシステムは、一般的なものであり、様々な異なる実験アプローチ及びプロトコルから得られた比較ハイブリダイゼーション・データに適用可能である。下記の実施態様は、比較的均一に、かつ、間隔を密にして、１つ以上の染色体に対応する１つ又は複数のＤＮＡ配列をカバーするオリゴヌクレオチド・プローブを含む、高分解能マイクロアレイから得られた、マイクロアレイに基づくＣＧＨデータにとりわけよく当てはまる。本発明の方法に関する用途の１つは、増幅及び欠失を生じた遺伝子の検出である。以下では、いくつかの例について論考する。しかし、染色体ＤＮＡのどの部分配列にも増幅又は欠失を生じる可能性があり、一般に、染色体のＤＮＡ部分配列の増幅又は欠失の検出には、ＣＧＨ技法を適用することが可能である。比較ハイブリダイゼーション法は、何らかの情報を含む生体高分子配列の増幅又は欠失、及び他の配列変化及び異常の検出に利用することが可能である。

重要な情報を含む生体高分子には、デオキシリボ核酸（「ＤＮＡ」）、メッセンジャーＲＮＡ（「ｍＲＮＡ」）を含むリボ核酸（「ＲＮＡ」）、及び蛋白質がある。図１には、小さい４つのサブユニットによる単鎖オリゴヌクレオチド、すなわち、短いＤＮＡ高分子の化学構造が示されている。図１に示すオリゴヌクレオチドには、４つのサブユニット（１）デオキシアデノシン１０２、省略形「Ａ」と、（２）デオキシチミジン１０４、省略形「Ｔ」と、（３）デオキシシトジン１０６、省略形「Ｃ」と、（４）デオキシグアノシン１０８、省略形「Ｇ」とが含まれている。各サブユニット１０２、１０４、１０６、及び１０８は、「デオキシリボヌクレオチド」と総称され、Ａ及びＧの場合、デオキシリボースと共有結合されたプリン、Ｃ及びＴの場合、デオキシリボースと共有結合されたピリミジンから構成される。デオキシリボヌクレオチド・サブユニットは、リン酸１１０のような、リン酸架橋によって互いに結合されている。図１に示すオリゴヌクレオチドと全てのＤＮＡ生体高分子は、非対称性であり、５′末端１１２と３′末端１１４とを備えており、各末端は、化学的に活性であるヒドロキシル基が含まれている。ＲＮＡは、ＲＮＡのリボヌクレオチドのリボース成分が、図１の２′水素原子１１６のような２′水素原子の代わりに、２′ヒドロキシルを備えており、デオキシチミジンと類似のリボヌクレオチドの代わりに、チミジンに似ているが、メチル基１１８を欠く、リボヌクレオチド・ウリジンを含んでいることを除けば、構造においてＤＮＡと同様である。ＲＮＡサブユニットは、Ａ、Ｕ、Ｃ、及びＧと略記される。

細胞内において、一般に、ＤＮＡは二重鎖形態、つまり、よく知られたＤＮＡ二重へリックス形態で存在する。図２には、短く延びた二本鎖ＤＮＡの記号表現が示されている。第１の鎖２０２は、５′から３′の方向にデオキシリボヌクレオチドの配列の省略形として書かれており、相補鎖２０４は、３′から５′の方向に記号で書かれている。第１の鎖２０２の各デオキシリボヌクレオチド・サブユニットは、第２の鎖２０４の相補性デオキシリボヌクレオチド・サブユニットと対をなす。一般的に、一方の鎖のＧは、相補鎖のＣと対をなし、一方の鎖のＡは、相補鎖のＴと対をなす。一方の鎖は、デオキシリボヌクレオチド・サブユニットの配列において、コード化された同じ情報の実際の形（positive image）とみなすことが可能であり、もう一方の相補鎖は、実際とは反対の形(negative image)とみなすことが可能である。

遺伝子は、二本鎖ＤＮＡ高分子の一本鎖内にあるデオキシリボヌクレオチド・サブユニットの配列である。遺伝子は、特定の蛋白質の合成を指定するコード、すなわち、その合成のための鋳型とみなすことが可能である。図３には、遺伝子においてコード化された情報に基づく蛋白質の合成が例示されている。遺伝子は、細胞内において、まず、一本鎖ｍＲＮＡに転写される。図３において、鎖２０２と２０４から構成される二本鎖ＤＮＡ高分子は、遺伝子を含むＤＮＡ鎖と相補である一本鎖ｍＲＮＡ３０２を合成する転写機構のため、鎖２０４に接近できるように局所的に巻戻されている。一本鎖ｍＲＮＡは、その後、ｍＲＮＡのコドン３０６のような３つのリボヌクレオチドからなる各コドンが、蛋白質高分子３０４の特定のアミノ酸サブユニットを指定することにより、細胞によって蛋白質高分子３０４に翻訳される。例えば、図３において、コドン「ＵＡＵ」３０６は、チロシン・アミノ酸サブユニット３０８を指定している。ＤＮＡ及びＲＮＡと同様、蛋白質も非対称性であり、Ｎ末端３１０とカルボン酸末端３１２を備えている。

人間を含む真核生物において、各細胞は、染色体と呼ばれる、いくつかの極めて長いＤＮＡ二本鎖高分子が含まれている。各染色体は、抽象的に、極めて長いデオキシリボヌクレオチド配列とみなすことが可能である。各染色体には、遺伝子に対応する数百〜数千の部分配列が含まれている。遺伝子として識別される特定の部分配列と遺伝子によってコード化された蛋白質との正確な対応は、本発明の範囲外の理由により、多少複雑になる可能性がある。しかし、本発明の実施態様を解説する上で、染色体は、ＤＮＡ部分配列の線形配列とみなすことが可能な、連続したデオキシリボヌクレオチド・サブユニットの線形ＤＮＡ配列と考えて差し支えない。場合によっては、部分配列は、それぞれ、特定の蛋白質を指定する、遺伝子ということもある。しかし、これらの実施態様は、はるかに一般的である。任意のＤＮＡ部分配列、又はＤＮＡ部分配列群の増幅と欠失は、ＤＮＡ部分配列が、蛋白質を指定する生物遺伝子、様々なタイプの非蛋白質コード化ＲＮＡを指定するＤＮＡ部分配列、又は明確な生物学的役割を備えた他の領域に対応するか否かに関係なく、解説の方法によって検出可能である。下記において、「遺伝子」という用語が、表記の便宜上利用されるが、ただ単に「生体高分子部分配列」の一例にすぎないと理解すべきである。同様に、解説の実施態様は、ＤＮＡ染色体配列の分析を対象としているが、本発明の方法によって、任意の情報を含む生体高分子の配列を分析することが可能である。従って、下記において、「染色体」という用語と関連する用語とが、表記の便宜上利用されるが、生体高分子又は生体高分子配列の一例であると理解すべきである。

図４には、極めて単純な仮想生物に関する染色体の仮想集合が示されている。この仮想生物には、３対の染色体４０２、４０６、及び４１０が含まれている。１対の染色体における各染色体は、極めてよく似ており、一般に、染色体の列に沿った同じ位置に同じ遺伝子を備えている。図４において、各染色体は、染色体のサブセクションとして表わされている。例えば、第１の染色体対４０２の第１の染色体４０３の場合、１３の遺伝子４１４〜４２６が示されている。

図４に示すように、第１の染色体対４０２の第２の染色体４０４は、同じ位置に同じ遺伝子が含まれている。第２の染色体対４０６の各染色体には、１１の遺伝子４２８〜４３８が含まれており、第３の染色体対４１０の各染色体には、４つの遺伝子４４０〜４４３が含まれている。もちろん、実際の生物には、一般に、はるかに多くの染色体対が存在し、各染色体には、はるかに多くの遺伝子が含まれている。しかし、図４に示す単純化された仮想ゲノムは、本発明の実施態様を簡単に説明するために、より適している。各染色体対において、一方の染色体は、もともと、その生物の雌親から得たものであり、もう一方の染色体は、もともとその生物の雄親から得たものであるという点に留意されたい。従って、第１の染色体対４０２の染色体は、染色体「Ｃ１_m」及び「Ｃ１_p」と呼ばれる。一般に、染色体対の各染色体は、同じ遺伝子が染色体の全長に沿った同じ場所に配置されているが、一方の親から受け継いだ遺伝子と、もう一方の親から受け継いだ遺伝子とは、わずかに異なる可能性がある。遺伝子の異なる変型は、対立遺伝子と呼ばれる。一般的な相違としては、遺伝子に対応するＤＮＡ部分配列内の様々な位置における単一デオキシリボヌクレオチド・サブユニット置換がある。

遺伝子と遺伝子の突然変異体との相違は、様々なタイプのがんに対する細胞の素因において重要であり、細胞の悪性転換を引き起こす細胞メカニズムに関連しているが、様々な形態の遺伝子と病理学的条件との因果関係は、解明及び立証が困難であることが多く、間接的であることが多い。しかし、他のゲノム異常と前がん組織及びがん組織との関連づけは、より容易である。ゲノム異常の２つの顕著なタイプには、遺伝子増幅と遺伝子欠失がある。図５には、図４に示す仮想ゲノムに関連した遺伝子欠失と遺伝子増幅の例が示されている。第１に、変体又は突然変異体である第１の染色体対５０２の染色体Ｃ１_m′５０３及びＣ１_p′５０４は、両方とも、図４に示す第１の染色体対４０２の対応する野生型染色体Ｃ１_m及びＣ１_pよりも短い。この短縮は、野生型染色体４０３及び４０４に存在するが、変体染色体５０３及び５０４には存在しない、遺伝子４２２、４２３、及び４２４の欠失によるものである。これが、二重又はホモ接合性遺伝子欠失(homozygous-gene-deletion)の一例である。正常細胞内に、ＤＮＡコピー数の小規模な変化が存在する可能性もある。これらは、形質的意味を有している可能性があり、やはり、ＣＧＨ法によって測定し、本発明の方法によって分析することが可能である。

一般的に、染色体のＤＮＡ配列から、かなりの部分配列の欠失に対応する多数の連続した遺伝子の欠失が観測される。突然変異体が、さらに、しばしば非機能遺伝子の原因となる、はるかに少ない部分配列の欠失が観測される場合もある。遺伝子欠失が観測できるのは、染色体対をなす２つの染色体の一方においてのみであり、その場合、遺伝子欠失は異型接合であると称される。図５に示す変化したゲノムにおける第２の染色体異常は、第２の染色体対５０６の母系染色体Ｃ２_m′５０７における遺伝子４３０、４３１、及び、４３２の重複である。染色体内における１つ以上の連続した遺伝子の重複は、遺伝子増幅と呼ばれる。図５に示す変化したゲノム例の場合、遺伝子増幅が染色体対のもう一方の染色体Ｃ２_p′５０８には生じないので、染色体Ｃ２_m′は異型接合である。図５に例示の遺伝子増幅は、２倍増幅であるが、３倍以上の増幅も観測される。第３の染色体対（図４の４１０）に関する極度の染色体異常が例示されている。図５に例示の変化ゲノムの場合、母系染色体５１１全体が、第３の染色体５１３から複製されて、染色体対ではなく、染色体トリプレット５１０が生成されている。この３染色体現象は、第３の染色体対における三染色体性と呼ばれる。図５に示す三染色体性は、異型接合遺伝子増幅の一例であるが、染色体対の両方の染色体の重複が観測され、染色体の高次増幅が観測される可能性もあり、染色体全体の異型接合と同型接合欠失とが生じる可能性もある（一般的に、こうした遺伝子欠失を伴う生物は生存に適さない）。

増幅によるものか、欠失によるものかにかかわらず、遺伝子コピー数の変化は、比較ゲノム・ハイブリダイゼーション（「ＣＧＨ」）技法によって検出可能である。図６〜図７には、ＣＧＨによる遺伝子増幅の検出が例示され、図８〜図９には、ＣＧＨによる遺伝子欠失の検出が例示されている。ＣＧＨには、標本組織からの染色体断片と一本鎖の正常な染色体のＤＮＡとの相対的結合レベルの分析が必要とされる。組織標本断片は、相補性結合によって正常な一本鎖ＤＮＡの相補性領域とハイブリッド形成して、二本鎖ＤＮＡの短い領域を生成する。ハイブリダイゼーションが生じるのは、ＤＮＡ断片が、一本鎖染色体ＤＮＡ内の配列と全くの相補であるか、又は、ほぼ相補である場合である。図６及び後続の図において、図４に示す仮想野生型ゲノムの仮想染色体の１つが、グラフのｘ軸の下に示されており、染色体の各部分に対する標本断片の結合レベルが、ｙ軸に沿って示されている。図６の場合、断片結合のグラフは、染色体４０７の全長に沿ったほぼ均一な断片結合を表わす水平線６０２である。当然に、実際の実験では、組織標本から均一で完全に重なり合うＤＮＡ断片を作成するのは不可能であり、染色体の全長に沿って検出される断片結合レベルに、不連続性及び不均一性をもたらすことになる。しかし、一般に、正常組織標本から分離された正常染色体の断片によれば、少なくとも、図６のライン６０２のような水平線に近い結合レベルの傾向が得られる。対照的に、図５に例示の突然変異の遺伝子型から作成された断片に関するＣＧＨデータは、一般的に、突然変異の遺伝子型において増幅する遺伝子に関する結合レベルの増強を示すものである。

図７には、図５に例示の突然変異の遺伝子型を備える組織から作成された断片に関する仮想ＣＧＨデータが示されている。図７に示すように、変化したゲノムにおいて増幅される３つの遺伝子４３０〜４３２に関して、結合レベル７０２の増強が観測される。換言すれば、変化したゲノムから作成された断片は、増幅される遺伝子からの遺伝子断片が増えるはずである。さらに、定量ＣＧＨでは、結合の相対的増強が、特定遺伝子のコピー数の増加を反映するはずである。

図８には、第１の仮想染色体４０３に関して、正常細胞から作成された断片について仮想ＣＧＨデータが示されている。やはり、正常組織から作成された断片に関して予測されるＣＧＨデータの傾向は、染色体の全長に沿った均一な断片結合を示す水平線である。対照的に、図５に例示の変化したゲノムの染色体５０３及び５０４における同型接合遺伝子欠失は、欠失を生じた遺伝子に関する結合の相対的弱化を反映しているはずである。図９には、第１の染色体対（図４の４０２）からの正常染色体に関して、図５に例示の仮想変化ゲノムから作成されたＤＮＡ断片についての仮想ＣＧＨデータが示されている。図９において明らかなように、３つの欠失遺伝子４２２、４２３、及び４２４に関する断片結合は観測されない。

ＣＧＨデータは、様々な異なった実験技法によって得られる。１つの技法では、ＤＮＡ断片は、組織標本から作成され、特定の発色団によって標識される。この標識ＤＮＡ断片は、次に、正常細胞からの一本鎖染色体ＤＮＡとハイブリッド形成し、次に、顕微鏡検査によって一本鎖染色体ＤＮＡを検査して、染色体の全長に沿ったハイブリッド形成断片に関連した標識から放出される光の強度が測定される。比較的強度の増した領域は、対応する組織の染色体において増幅された染色体領域を反映しており、放出信号の弱化した領域は、対応する組織染色体の欠失領域を表わしている。他の技法では、第１の発色団によって標識された正常ＤＮＡ断片が、第２の発色団によって標識された異常組織から分離された断片を備える正常一本鎖染色体とハイブリッド形成させられる。正常断片と異常断片の結合比は、２つの異なる発色団標識に対応する２つの異なる強度で放出される光の比率によって検出することができる。

第３のタイプのＣＧＨは、マイクロアレイに基づくＣＧＨ（「ａＣＧＨ」）と呼ばれる。図１０〜図１１は、マイクロアレイに基づくＣＧＨが例示されている。図１０において、図４に例示の仮想正常ゲノムにおける仮想染色体４０７及び／又は４０８の連続した部分配列に等しい配列を有する合成プローブ・オリゴヌクレオチドが、マイクロアレイ１００２の表面における特徴として作成される。例えば、染色体４０７及び／又は４０８の領域１００４の１本の鎖の配列を有する合成プローブ・オリゴヌクレオチドは、仮想マイクロアレイ１００２の特徴１００６において合成される。同様に、染色体４０７及び／又は４０８の部分配列１００８に対応するオリゴヌクレオチド・プローブを合成することによって、マイクロアレイ１００２の特徴１０１０のオリゴヌクレオチド・プローブ分子が得られる。実際の場合、プローブ分子は、染色体の長さに対してはるかに短くすることが可能であり、複数の異なるオーバラップ及び非オーバラップ・プローブ／特徴によって、特定の遺伝子を標的にすることが可能である。それにもかかわらず、マイクロアレイの特徴と遺伝子との間には明確な周知の対応が存在する。

マイクロアレイは、ＤＮＡの断片を含む標本溶液にさらすことが可能である。ａＣＧＨのあるバージョンでは、アレイは、異常組織から作成された、第１の発色団で標識された断片、及び正常組織から作成された、第２の発色団で標識された断片にさらすことが可能である。各特徴に関する第１の発色団から放出される信号対第２の発色団から放出される信号の正規化比によって、異常組織と正常組織を対比した場合のその特徴に対応する正常染色体部分の存在比の測度が得られる。図１０の仮想マイクロアレイ１００２において、各特徴は、図４に例示の仮想野生型ゲノムにおける染色体４０７及び／又は４０８の全長に沿った異なる間隔に対応する。第１の発色団で標識された、正常組織標本から作成された断片、及び第２の発色団で標識された正常組織から作成されたＤＮＡ断片を、両方とも、図１０に示す仮想マイクロアレイとハイブリッド形成させ、第１と第２の発色団によって放出される光の正規化強度比を測定すると、比較的一様に、全ての特徴に関する正規化比が１に等しくなるはずである。

図１１Ａは、図１０に示す仮想マイクロアレイとハイブリッド形成させられた２つの別様に標識された正常標本に関するａＣＧＨデータ集合を表わしている。同じ色で表示された仮想マイクロアレイ１００２の全特徴の対数比によって、図１１Ａに示すように、第１と第２の発色団からの信号強度の正規化比は全て、ほぼ１になる。対照的に、第１の発色団で標識された図５に例示の突然変異遺伝子型を備える組織から分離されたＤＮＡ断片とマイクロアレイをハイブリッド形成させ、第２の発色団で標識された正常組織から作成されたＤＮＡ断片とマイクロアレイをハイブリッド形成させると、第１の発色団対第２の発色団の信号強度比が、増幅遺伝子４３０、４３１、及び４３２の部分配列に等しいか、又はそれらと相補性のプローブ分子を含む特徴において１から大幅に変化することになる。図１１Ｂに示すように、黒色で表示された第１と第２の発色団からの信号強度比の増大は、増幅遺伝子４３０、４３１、及び４３２にまたがる部分配列に等しいか、又はそれらと相補のプローブ分子を備えた特徴１１０２〜１１１２において観測される。同様に、信号強度の低減比は異常組織における遺伝子欠失を表わしている。

うまく設計されたマイクロアレイ実験から得られる、マイクロアレイに基づくＣＧＨデータによって、標本組織の細胞内における遺伝子の相対又は絶対コピー数の比較的正確な測度が得られる。異なる時点において前がん及びがん組織から得られたａＣＧＨデータ集合を用いて、特定の前がん及びがん組織におけるゲノムの不安定性をモニタすることが可能である。次に、定量化されたゲノムの不安定性を利用して、特定のタイプのがんの過程を検出して、見守ることが可能である。さらに、異なるクラスのがん及び前がん状態の特性を示す、遺伝子増幅及び遺伝子欠質を含む一般的な染色体異常を解明するため、異なるタイプのがん組織における定量化されたゲノム不安定性を比較することが可能である。不運なことに、生物学的データは極めてノイズが多いため、基調をなす傾向及びパターンが曖昧になる可能性がある。従って、科学者、診断医、及び他の専門家は、多種多様な実験及び計測の影響変動値から生じるノイズによって不明瞭になる可能性のある染色体の異常を表わした信号及びパターンを識別するため、特に、ＣＧＨデータを正規化し、分析する統計学的方法と、一般的には、ａＣＧＨデータとが必要であると認識している。

ＣＧＨデータにおける高ノイズ・レベルの影響を緩和するアプローチの１つでは、第１のステップとして、制御信号データを利用して標本信号データを正規化することが必要とされる。多くのａＣＧＨ実験では、正常組織から分離された染色体のＤＮＡ断片を含む正常対照標本が、染色体変化又は染色体異常の測度が求められる異常又は患部組織から分離又は作成されたＤＮＡ断片又はコピーと共に、対照標本として、アレイにハイブリッド形成させられる。複数の対照標本が利用可能な場合が多い。従って、患部組織から生じる信号は、ただ単に患部組織からの断片のハイブリダイゼーションによって生じる信号と１つの対照標本から生じる信号の対数比を利用するのではなく、複数の対照標本から導き出される信号を利用して正規化することが可能である。留意すべきは、本発明の方法は、患部組織の標本、特定の実験によって得られる標本、特定の実験中の特定の時点で得られる標本、及び他の関心のある標本を含む、任意のタイプの標本から得られる任意の信号の正規化に適用することが可能である。従って、下記の論考において、語句「患部組織の標本」は、語句「関心のある標本」と互換性がある。

より一般的な事例では、ａＣＧＨアレイは、いくつかの異なる特徴を含むことが可能であり、各特徴には、一般的に、特定タイプのプローブが含まれ、各プローブは、ゲノム位置を表わす指標ｋで指標された特定の染色体のＤＮＡ部分配列を標的とする。指標ｋによる指標された部分配列は、「部分配列ｋ」と呼ばれる。対照標本又は患部組織標本ｊによって部分配列ｋに関して生じる信号は、部分配列ｋを標的とするプローブの数で割った部分配列ｋを標的とする異なるプローブからの対数比信号の和、すなわち、下記のように、部分配列ｋを標的とするプローブから生じる平均対数比信号値と定義することが可能である。

ここで、ｎｕｍ＿ｆｅａｔｕｒｅｓ_kは部分配列ｋを標的とする特徴数であり、Ｃ（ｂ，ｊ）は特徴ｂにおける標本ｊに関する正規化信号対数比である。

単一プローブが特定の部分配列ｋを標的とする場合、平均する必要はない。以下の論考では、特定の組織又は実験から得られたＤＮＡ断片の溶液のような、関心のある溶液に関する信号の正規化について論じることにする。関心のある溶液に単一ＣＧＨ分析を受けさせることもできるし、あるいは関心のある溶液から得られるいくつかの同じ標本に、それぞれ、別個にＣＧＨ分析を受けさせることも可能であり、また、各部分配列ｋの分析によって生じる信号を平均して、関心のある溶液に関する単一の平均信号データ集合を生成することも可能である。

もう一度強調しておくと、各ａＣＧＨデータ・ポイントは、一般に、特定の部分配列を標的とするプローブを含むマイクロアレイの特定の特徴から読み取られる信号の対数比であり、この信号の対数比は、患部組織の断片に対する標識付けに用いられる第１の標識から放出される信号と、正常な対照組織の断片に対する標識付けに用いられる第２の標識から生じる信号との比を表わしている。患部組織の断片及び正常な対照組織断片は、両方とも、マイクロアレイ上の正常組織から得られたプローブ分子とハイブリッド形成させられる。正常組織又は標本は、特定の実験のために対照組織又は標本として選択される任意の組織又は標本とすることが可能である。「正常」という用語は、必ずしも、その組織又は標本が、集団平均、非患部組織、又は任意の他の主観的目的又は目的分類を表わすことを意味するものではない。

同じプローブを含む特徴から生じる平均信号を生じさせ、特定の患部組織に関するような、関心のある溶液に関する単一、すなわち、単一平均データ集合を得るか、又は複数対照データ集合を得ると、部分配列の増幅及び欠失表示と他の配列異常表示とに関するＳ／Ｎ比の向上を生じさせるため、複数の対照データ集合を一緒に利用して、関心のある溶液に関するデータ集合を正規化することが可能になる。単一対照データ集合ではなく、正規化のための複数対照データ集合を利用して、配列異常の統計的により信頼できる表示が得られる。

次に、下記のように、対照標本１からＪまでの数Ｊによって、部分配列ｋに関して生じる信号から特定の部分配列ｋに関する平均制御信号を計算することが可能である。

ここで、Ｊは正常対照標本数である。同様に、部分配列ｋのＪの制御信号に関する標準偏差は、下記のように計算することが可能である。

μ_kとσ_kを利用すると、患部組織標本ｓによって生じる特定の部分配列ｋに関する正規化信号は、下記のように計算することが可能になる。

特定の患部組織標本Ｃ_z（ｋ，ｓ）に関する正規化信号の発生のため、信頼できる平均及び標準偏差を計算するのに十分な数の対照標本信号がない場合、順位序列に基づく正規化を実施することが可能である。まず、ｑ∈Ｘになるような順序付き値集合Ｘ内における要素ｑの位置が、下記のように定義される。
ｐｏｓｉｔｉｏｎ（ｑ，Ｘ）＝ｉ
ここで、Ｘ｛ｘ₁，ｘ₂，．．．，ｘ_m｝；
ｘ₁≦ｘ₂≦ｘ₃．．．≦ｘ_m；
ｑ＝ｘ_i
患部組織標本ｓによって生じる特定の部分配列ｋに関する正規化信号は、下記のように、対照標本ｊ₁からｊ_j並びに患部組織標本ｓによって生じるいくつかの信号を含む順序付き集合Ｃ内における、患部組織標本ｓによって生じる部分配列ｋに関する信号の位置すなわち順位である。
Ｃ_r（ｋ，ｓ）＝ｐｏｓｉｔｉｏｎ（Ｃ（ｋ，ｓ），Ｃ）
ここで、ｓは特定の標本であり、
Ｃ＝｛Ｃ（ｋ，ｊ₁），Ｃ（ｋ，ｊ₂），．．．，Ｃ（ｋ，ｊ_j）｝ＵＣ（ｋ，ｓ）
従って、上述のように、特定の部分配列ｋ、Ｃ_zに関する平均及び標準偏差に基づく正規化患部組織信号、又は患部組織標本ｓ、Ｃ_rから生じる順位序列に基づく正規化信号を計算することが可能である。前者の正規化が利用されるのは、統計学的に信頼できる平均と標準偏差とを求めるのに十分な数の対照標本が存在する場合である。存在しない場合は、順位序列法が用いられる。

部分配列の欠失及び増幅は、一般に、染色体に沿った、遺伝子、対象領域、又は他の識別部分配列のような関心のあるいくつかの連続した部分配列にわたる。従って、増幅及び欠失のより信頼性の高い検出のため、染色体の全長に沿った連続部分配列群を統計学的に考慮して、染色体毎にａＣＧＨデータを分析することは理に適っている。すなわち、測定ノイズは、染色体に沿った各部分配列毎に独立したものであり、異なるプローブ毎に独立したものであると仮定される。統計学的手法を用いて、欠失又は増幅を比較的強く示す連続部分配列集合が識別される。これには、データにおける擬似単一プローブ異常の影響を緩和する傾向がある。媒介変数・アプローチを利用することが可能になるのは、染色体に沿った測定ノイズが、異なるプローブ毎に独立しており、ほぼ正常に分布している場合である。非媒介変数・アプローチが利用されるのは、これらの仮定を行うことができない場合である。

いずれの方法の場合にも、関心のある染色体に沿った部分配列に関して測定され、正規化され、又は別様の処理を施される信号は、下記のように、ベクトルＶであるとみなされる。
Ｖ＝｛ｖ₁，ｖ₂，．．．，ｖ_n｝
ここで、ｖ_k＝Ｃ_z（ｋ，ｓ）又はｖ_k＝Ｃ_r（ｋ，ｓ）
ベクトルすなわち集合Ｖは、染色体に沿った部分配列の位置に従って逐次順序付けされるという点に留意されたい。媒介変数・アプローチの場合、下記のように、統計値Ｓは染色体に沿った固定サイズの部分配列の各間隔Ｉ毎に計算される。

ここで、Ｉ＝｛ｖ_i，．．．，ｖ_j｝であり、
ｖ_k＝Ｃ_z（ｋ，ｓ）

配列異常がないと仮定するヌル・モデルの下では、統計値Ｓは、各間隔Ｉに含まれるプローブ数に関係なく、平均＝０及び分散＝１の正常な値の分布を示す。間隔Ｉにおける部分配列に関する正規化信号の統計的有意性は、正常な分布曲線の領域に基づく標準確率計算によって求めることが可能である。

あるいはまた、Ｓ（Ｉ）の絶対値は、変化を判定する根拠として利用することも可能である。

非媒介変数・アプローチでは、患部組織標本と幾つかの対照標本とに関する順位序列に基づく正規化信号値が用いられる。ある特定の間隔Ｉに関する順位の和は、部分配列ｖ₁からｖ_kのそれぞれに関する順位序列に基づく正規化信号を合計することによって計算することが可能であり、間隔順位（Ｉ）の順位に関する予測値は、下記のように簡単に計算される。

ここで、Ｉ＝｛ｖ_i，．．．，ｖ_j｝
ｖ_l＝Ｃ_r（ｌ，ｓ）
ｍ＝対照標本数＋１

ｄ＝ｊ−ｉ＋１

推定上の増幅及び欠失に関する間隔を統計学的に検討し、評価するためには、予測値からの大きい偏差の確率を計算することが必要になる。これを行うため、｛１，．．．，ｍ｝における一様な分布のｋ階の畳み込み（the k-th order convolution）が計算される。確率Ｔ_m（ｒ，ｚ）は、｛１，．．．，ｍ｝において一様に分布したｒ個の独立確率変数の和がちょうど値ｚになる確率である。この確率は、下記のように再帰的に計算することが可能である。

正確な確率Ｔ_m（ｒ，ｚ）を利用して、下記のように、｛１，．．．，ｍ｝において一様に分布したｒ個の独立確率変数Ｘ₁，．．．，Ｘ_rの和が特定の値ｙ（ｒ≦ｙ≦ｒ・ｍ）を超える確率を計算することが可能である。

正確な確率Ｔ_m（ｒ，ｚ）の同様の和を利用して、｛１，．．．，ｍ｝において一様に分布したｒ個の独立確率変数Ｘ₁，．．．，Ｘ_rの和が、特定の値ｙ（ｒ≦ｙ≦ｒ・ｍ）未満になるか、又はある任意の値域内になる確率を計算することも可能である。

上述の媒介変数・アプローチを用いた確率計算と同様に、それぞれ、１からｍまでの一様に分布した確率変数の和が、観測される順位（Ｉ）を超える確率を利用して、下記のように、ある間隔Ｉ内における部分配列の増幅に相当する比較的高い順位（Ｉ）値の統計的有意性を計算することが可能である。
Ｐｒｏｂ（Ｚ_m,μ＞ｒａｎｋ（Ｉ））
ここで、Ｉ＝｛ｖ_i，．．．，ｖ_j｝
μ＝ｊ−ｉ＋１
ｍ＝対照標本数＋１
Ｘｉ＝１からｍまでの一様に分布した独立確率変数

同様に、１からｍまでの一様に分布した確率変数の和が、観測される順位（Ｉ）未満になる確率を利用して、下記のように、間隔Ｉ内における部分配列の欠失を表わす比較的低い順位（Ｉ）値の統計的有意性を計算することが可能である。
Ｐｒｏｂ（Ｚ_m,μ＜ｒａｎｋ（Ｉ））
ここで、Ｉ＝｛ｖ_i，．．．，ｖ_j｝
μ＝ｊ−ｉ＋１
ｍ＝対照標本数＋１
Ｘｉ＝１からｍまでの一様に分布した独立確率変数

留意すべきは、様々な異なる間隔長を繰り返し利用して、特定の生体高分子配列における増幅及び欠失の確率を計算することが可能である点である。換言すれば、ある範囲の間隔サイズを利用して、生体高分子における増幅及び欠失の表示を正確にすることができる。

計算された間隔順位に関する有意性値を求めるための上述の確率計算の一例として、下記のＣ＋＋のような擬似コードを用いて、ある順位（Ｉ）値域内で、間隔Ｉにおける任意の数の部分配列に関するいくつかの対照標本とある患部組織標本を加えた分について、ある順位（Ｉ）値を観測する確率を求めることが可能である。この簡便なＣ＋＋のような擬似コードは、さらに、実験手順において観測される順位（Ｉ）値の有意性を推定するために用いられることになるいくつかの順位（Ｉ）値域の確率を計算するアプローチの１つを例示するために取り入れられている。そのアプローチは、問題に対する最も効率が良いアプローチ、又は最も優れたアプローチとして提示されたものではない。

まず、少数の定数が宣言される。

これらの定数によって、確率算定に関する初期値として指定することが可能な標本及び部分配列の最大数が指定される。

次に、単純なクラス「ｃｒｅａｔｅＴａｂｌｅ」が宣言される。

クラス「ｃｒｅａｔｅＴａｂｌｅ」によって、特定の数の標本ｍに関する間隔Ｉにおける任意の数の部分配列について特定の順位（Ｉ）値をもたらすことになる可能性のある順位の組み合わせ数のカウント・テーブルが生成される。クラス「ｃｒｅａｔｅＴａｂｌｅ」に関する私用データ・メンバには、（１）ｒａｎｋ、ある特定の順位（Ｉ）値と、（２）ｎＧｅｎｅｓ、間隔Ｉの部分配列数と、（３）ｎＳａｍｐｌｅ、実験における標本数と、（４）ａｃｃｕｍｕｌａｔｏｒ、後述する再帰的ルーチンにおいてカウントを累算するために用いられる整数と、（５）ｐｒｏｂｓ、特定の順位（Ｉ）値をもたらすことになる順位の組み合わせ数を、部分配列順位値の可能性のある組み合わせの総数によって割ることによって得られる確率テーブルと、（６）ｓａｍｐｌｅＳｉｚｅＰｔｒｓ、上述のテーブル「ｐｒｏｂｓ」への索引テーブルとが含まれる。クラス「ｃｒｅａｔｅＴａｂｌｅ」には、（１）ｃｏｍｐｕｔｅ、特定の数の標本における特定の数の部分配列に関するある特定の順位（Ｉ）の確率を計算するルーチンと、（２）ｒｅｃＣｏｍｐｕｔｅ、その和が特定の順位（Ｉ）値になる部分配列順位値の組み合わせのカウントを計算するため、ルーチン「ｃｏｍｐｕｔｅ」によって呼び出される再帰的ルーチンと、（３）ｐＴａｂｌｅ、上述のテーブル「ｐｒｏｂｓ」に記憶される確率値を計算するルーチンと、（４）Ｐｒｏｂ、ある観測順位（Ｉ）値が特定の数の標本における特定の数の部分配列について、引き数として指定されるある順位（Ｉ）値域内に含まれる確率を計算するルーチンといった機能メンバが含まれる。次に、再帰的ルーチン「ｒｅｃＣｏｍｐｕｔｅ」の実施例を提示する。

再帰的ルーチン「ｒｅｃＣｏｍｐｕｔｅ」では、特定の順位（Ｉ）値を生じることが可能な部分配列順位値の組み合わせ数が再帰的に計算される。このルーチンでは、ある間隔における各部分配列毎に、可能性のある部分配列順位値が再帰的に検討される。

次に、ルーチン「Ｃｏｍｐｕｔｅ」に関する実施例を提示する。

ルーチン「ｃｏｍｐｕｔｅ」では、指定された順位が指定された数の部分配列及び標本に関して可能性のある順位の範囲内に含まれない場合、０を戻すか、あるいは別様であれば、再帰的ルーチン「ｒｅｃＣｏｍｐｕｔｅ」を呼び出して、引き数として指定された、特定の順位をもたらすことになる部分配列値の組み合わせ数を計算する。次に、ルーチン「ｐＴａｂｌｅ」に関する実施例を提示する。

このルーチンでは、行１３のルーチン「Ｃｏｍｐｕｔｅ」によって計算された順位（Ｉ）に関する組み合わせ数を、行１４において計算された配列順位値の組み合わせ総数で割ることによって、特定の順位（Ｉ）値を観測する確率が計算される。

次に、ルーチン「Ｐｒｏｂ」の実施例を提示する。

このルーチンでは、ある順位（Ｉ）値域内において特定の順位（Ｉ）値を観測する確率を計算するために、ただ単にある順位（Ｉ）値域内における個別順位（Ｉ）値の確率の和を求めるだけである。

最後に、単純な主ルーチンを提示して、クラス「ｃｒｅａｔｅＴａｂｌｅ」のインスタンスを利用して、確率を計算する方法を明らかにする。

図１２〜図１６には、ある間隔内におけるいくつかの部分配列及び任意の数の標本に関してある特定の順位（Ｉ）値をもたらすことになる、部分配列順位値の組み合わせ数を例示する、上記Ｃ＋＋のような擬似コードに類似したプログラムから生成されたデータが示されている。簡略化のため、５つの図は全て、図１２に関してのみ説明される同じ図解規則を用いている。図１２において、様々な任意の数の部分配列及び標本に関する組み合わせが示されている。図１３〜図１６には、３〜６個の標本に関する組み合わせが示されている。欄１２０２には、可能性のある順位（Ｉ）値が記載されており、水平軸１２０４は、ある特定の間隔における部分配列数が、２から９の部分配列までインクリメントする。図１２〜図１５において、０値はブランクとして示されている。例えば、２つの部分配列の間隔について、２の順位（Ｉ）値１２０８をもたらすことになる部分配列順位値の組み合わせ１２０６が１つ存在し、３の順位（Ｉ）値１２１２をもたらすことになる部分配列順位値の組み合わせ１２１０が２つ存在し、４の順位（Ｉ）値１２１６をもたらすことになる部分配列順位値の組み合わせ１２１４が１つ存在する。標本におけるある特定の数の部分配列に関する組み合わせ総数は、図の特定の欄における全ての組み合わせを加算することによって求めることが可能である。同じ値は、部分配列数に等しい数に上げられた標本数として計算可能である。従って、図１２のデータの第１の欄１２１８の場合、組み合わせ総数は、１＋２＋１＝２²＝４になる。上記擬似コード実施例によって計算される確率は、所望の範囲内における順位に対応する欄内における組み合わせの和を求め、その欄によって表わされている組み合わせ総数で割ることによって得ることが可能である。

媒介変数、間隔に関する統計値、又は間隔に関する順位値を観測する確率の計算が済むと、増幅又は欠失のないヌル仮定に基づく予測確率の妥当な範囲外の計算された確率が伴ったこれらの間隔が識別され、識別間隔リストにおける余剰分が除去される。図１７には、間隔を識別して、順位付けし、可能性の高い欠失又は増幅に対応するものとして識別された間隔リストから余剰分を除去するための方法の１つが例示されている。図１７には、染色体Ｃ１（図４の４０２）に沿って、異常染色体（図５の５０２）のある患部組織について確率が計算される間隔が示されている。各間隔は、間隔番号Ｉ_xで表示されている。ここで、ｘは１〜９の範囲である。大部分の間隔については、計算確率が、ヌル仮定と調和のとれる確率範囲内に含まれる。換言すれば、大部分の間隔については、増幅も欠失も示されない。しかし、間隔Ｉ₆１７０２、間隔Ｉ₇１７０４、及び、間隔Ｉ₈１７０６の場合、計算確率は、ヌル仮定に関して予測される確率範囲未満になり、患部組織標本に部分配列欠質の可能性があることを示唆している。これら３つの間隔は、初期リスト１７０８に納められ、計算確率の有意性に基づく順番に順序付きリスト１７１０に記載される。間隔Ｉ₇１７０４は、まさしく、患部組織染色体（図５の５０２）において欠失した部分配列を含んでおり、従って、ヌル仮定の確率範囲外にあることに関して、最も有意性が高いことは正しい。次に、リスト１７１２に示されるように、順序付きリストにおいて上位にある間隔に重複する全ての間隔が除去されるが、この場合、有意性の低い重複間隔Ｉ₆及びＩ₈が、間隔Ｉ₆及びＩ₈に対応する項目の有意性欄に記入された文字Ｘによって表示されているように除去される。最終結果として、欠失と一致する確率が最も高い間隔を表わす単一間隔１７１４を含むリストが得られる。数千の部分配列を含み、数百の間隔を利用して分析される、実際の染色体に関する最終リストには、一般に、２つ以上の項目が含まれる可能性がある。

図１８Ａ〜図１８Ｆには、ＣＧＨデータ分析システムの一部として、ＣＧＨデータ分析方法及び分析結果に対する視覚的及び対話型アクセスを可能にするように開発されたユーザ・インターフェイスを例示したスクリーン・キャプチャが示されている。まず、図１８Ａに示すこのユーザ・インターフェイスの機構について述べることにする。図１８Ｂ〜図１８Ｆには、ユーザ・インターフェイスの機構を通じて制御されるデータの様々な表示が示されている。ユーザ・インターフェイスの機構には、（１）標準オペレーティング・システム・インターフェイス、データ処理及び表示オプション、ユーザ援助インターフェイス、及び他の標準機能を提示するメニュー・バー１８０２〜１８０４と、（２）ヒート・マップ表現を含む様々なやり方で、ＣＧＨデータの分析が表示される、データ分析表現表示領域と、（３）ＣＧＨデータ分析の表示と同時に、データ分析表現表示領域１８０６にその分析が表示される生体高分子部分配列に関する、その生体高分子を含むゲノム領域に関連した遺伝子名、遺伝子産物名、及び、他のゲノム情報を含めたテキスト及びグラフィック注釈を、データ分析表現表示領域１８０６に表示する注釈ウィンドウ１８０８と、（４）分析すべき各種標本を表示し、ユーザが選択できるようにする標本選択ウィンドウ１８１０と、（５）ＣＧＨデータ集合の生成に用いられるプローブの全て、又はサブ集合を選択可能にするプローブ・フィルタ選択ウィンドウ１８１２と、（６）統計値を計算する部分配列間隔Ｉのサイズを選択可能にする選択円滑化ウィンドウ１８１４と、（７）データ分析表現表示領域１８０６における対数比の表示スタイルを制御する対数比表現選択ウィンドウ１８１６と、（８）媒介変数又は非媒介変数統計値を適用可能にし、上述の分析方法及び他の方法から、ＣＧＨデータを分析するための正確な分析方法を制御する各種パラメータを選択可能にする、プローブ較正選択ウィンドウ１８１８と、（９）ＣＧＨデータに適用される正確な分析方法を制御するためのさらなるパラメータを提示する異常領域選択ウィンドウ１８２０と、（１０）ユーザが、ゲノム範囲の各端部毎にマウス・クリックを利用して、表示するゲノム位置範囲を選択し、その範囲内の表示のズーム・インを行えるようにし、かつ、ユーザが現在表示されている範囲よりも広い範囲を選択できるようにするゲノム範囲選択バーと、（１１）個別染色体を分析のため選択可能にする染色体選択欄が含まれている。

データ分析表現表示領域１８０６には、ＤＮＡ生体高分子分析の場合、染色体又はゲノム全体の選択領域に沿って、いくつかの標本のそれぞれについて、緑のようなある色の純度が高まるにつれて、ある領域の欠失の確率が増すことを示し、赤のような異なる色の純度が高まるにつれて、ある領域の増幅の確率が増すことを示す、ＣＧＨデータ分析結果のヒート・マップ表現が表示される。ヒート・マップ表現では、増幅も欠失も示されない領域は、白又は灰色のような無彩色によって表現することが可能である。ＣＧＨ分析は、上述のように、対照データを利用して、隣接部分配列と標本選択ウィンドウ１８１０において選択された各種患部組織標本の表示を考慮に入れた欠失及び増幅統計値を計算するために行われる。図１８Ｂに示すように、表示範囲を縮小して、ゲノム又は染色体の特定領域に拡大することが可能である。

図１８Ｃ〜図１８Ｆには、対照データとの関連において、単一標本信号及び複数標本信号に関する異なる表示フォーマットが示されている。図１８Ｃの場合、例えば、表示の線は、背景内において関心のある標本に関して計算された信号の対数比、又は平均制御信号データに関する制御信号データ範囲を表わした対照パッチを表わしている。従って、図Ｃに示すように、欠失は対照パッチより下方にある表示の線によって容易に認識される。欠失及び増幅の視認性を高めるため、対照パッチ内の関心のある標本データを表現する線が黒の彩色を施されている場合、対照パッチの下方又は上方にある関心のある標本信号データの線表示部分は、それぞれ、例えば、緑及び赤といった異なる彩色を施すことが可能である。

本発明は、特定の実施態様に関して記載されているが、本発明がこの実施態様に制限されることを意図したものではない。本発明の意図内の修正が、当該技術者に明らかにされる。例えば、コンピュータ・プログラム、及びコンピュータ・プログラム・ルーチンのほぼ無数の異なる実施例を生成して、いくつかの対照標本が得られると、患部組織標本における染色体異常を分析するための上述の分析方法の計算を実施することが可能である。上記説明では、再帰的方法が示され、上記Ｃ＋＋のような擬似コード実施例において利用されているが、より効率的な非再帰的アルゴリズムを用いて、所望の統計値をいっそう効率よく計算することも可能である。上述の方法は、異なる数の染色体、染色体当たりの数が異なる部分配列、及び他の遺伝的相違を備える多種多様な生物からの実験データを網羅するように、容易に修正を加えることが可能である。上述の方法の各構成要素において、数学的に類似しているが代わりとなる、多様な可能性があるアプローチを用いることも可能である。例えば、平均値及び分散値を計算するための様々な方法、並びに、様々な統計的パラメータを利用して、特定の分布の特性を解明することも可能である。図１８Ａ〜図１８Ｆに関連して、上述のユーザ・インターフェイス実施例に加えて、多くの異なるタイプのユーザ・インターフェイス実施例を用いて、ＣＧＨ分析及び様々な異なるＣＧＨデータ分析結果表示フォーマットを制御するパラメータの好適な選択を可能にする。

上記記載は、説明のために、発明の完全な理解を提供する特定の用語を用いた。しかし、当該技術者には明らかなように、本発明の実施に、特定の細部は不要である。本発明の特定の実施態様に関する以上の説明は、例証及び解説を目的として提示されたものである。それらの説明は、本発明を網羅的に説明する、又は本発明を開示の形態にそのまま制限するものではない。以上の教示に鑑みて、多くの修正と変更が可能であることは明らかである。実施態様は、本発明の原理とその実際の適用例を最も明瞭に解説することによって、他の当該技術者が、企図する特定の用途に合わせて本発明と様々な修正を施した実施態様とを最も有効に活用できるように説明されている。本発明の範囲は、付属の請求項及びその同等物によって定義されるものとする。

小さい、４つのサブユニットによる一本鎖オリゴヌクレオチドの化学構造を示す図である。短く延びた二本鎖ＤＮＡの記号表現を示す図である。遺伝子にコード化された情報に基づく蛋白質の構造を例示した図である。極めて単純な仮想生物に関する染色体の仮想集合を示す図である。図４に示す仮想ゲノムに関連した遺伝子欠失及び遺伝子増幅の例を示す図である。ＣＧＨによる遺伝子増幅の検出を例示した図である。ＣＧＨによる遺伝子増幅の検出を例示した図である。ＣＧＨによる遺伝子欠失の検出を例示した図である。ＣＧＨによる遺伝子欠失の検出を例示した図である。マイクロアレイに基づくＣＧＨを例示した図である。マイクロアレイに基づくＣＧＨを例示した図である。マイクロアレイに基づくＣＧＨを例示した図である。ある間隔内におけるいくつかの遺伝子、及び任意の数の標本に関する特定の順位（Ｉ）値をもたらすことになる遺伝子順位値の組和合わせ数を例示したデータを示す図である。ある間隔内におけるいくつかの遺伝子、及び任意の数の標本に関する特定の順位（Ｉ）値をもたらすことになる遺伝子順位値の組和合わせ数を例示したデータを示す図である。ある間隔内におけるいくつかの遺伝子、及び任意の数の標本に関する特定の順位（Ｉ）値をもたらすことになる遺伝子順位値の組和合わせ数を例示したデータを示す図である。ある間隔内におけるいくつかの遺伝子、及び任意の数の標本に関する特定の順位（Ｉ）値をもたらすことになる遺伝子順位値の組和合わせ数を例示したデータを示す図である。ある間隔内におけるいくつかの遺伝子、及び任意の数の標本に関する特定の順位（Ｉ）値をもたらすことになる遺伝子順位値の組和合わせ数を例示したデータを示す図である。間隔を識別して、順位付けを施し、可能性の高い欠失又は増幅として識別される間隔のリストから冗長分を除去するための方法の１つを例示した図である。ＣＧＨデータ分析システムの一部として、ＣＧＨデータ分析方法及び分析結果に対する視覚的及び対話型アクセスを可能にするように開発されたユーザ・インターフェイスを例示したスクリーン・キャプチャを示す図である。ＣＧＨデータ分析システムの一部として、ＣＧＨデータ分析方法及び分析結果に対する視覚的及び対話型アクセスを可能にするように開発されたユーザ・インターフェイスを例示したスクリーン・キャプチャを示す図である。ＣＧＨデータ分析システムの一部として、ＣＧＨデータ分析方法及び分析結果に対する視覚的及び対話型アクセスを可能にするように開発されたユーザ・インターフェイスを例示したスクリーン・キャプチャを示す図である。ＣＧＨデータ分析システムの一部として、ＣＧＨデータ分析方法及び分析結果に対する視覚的及び対話型アクセスを可能にするように開発されたユーザ・インターフェイスを例示したスクリーン・キャプチャを示す図である。ＣＧＨデータ分析システムの一部として、ＣＧＨデータ分析方法及び分析結果に対する視覚的及び対話型アクセスを可能にするように開発されたユーザ・インターフェイスを例示したスクリーン・キャプチャを示す図である。ＣＧＨデータ分析システムの一部として、ＣＧＨデータ分析方法及び分析結果に対する視覚的及び対話型アクセスを可能にするように開発されたユーザ・インターフェイスを例示したスクリーン・キャプチャを示す図である。

Claims

ある生体高分子配列の多数の部分配列について、
ある特定標本における現在検討中の部分配列に対する生体高分子断片のハイブリダイゼーション・レベルを決定するステップと、
前記現在検討中の部分配列に対する対照標本ｊ₁〜ｊ_nの生体高分子断片のハイブリダイゼーション・レベルを決定するステップと、
前記特定標本における生体高分子断片の前記決定されたハイブリダイゼーション・レベルと、対照標本ｊ₁〜ｊ_nの生体高分子断片の前記決定されたハイブリダイゼーション・レベルについて計算された平均値との差異を決定することによって、対照標本ｊ₁〜ｊ_nの生体高分子断片の前記決定されたハイブリダイゼーション・レベルに関して計算された分散値に対して相対的な、前記現在検討中の部分配列に対する特定標本中の生体高分子断片に関する正規化ハイブリダイゼーション・レベルを計算するステップと
を含む、生体高分子配列に関して収集された比較ハイブリダイゼーション・データを正規化する方法。
前記生体高分子がＤＮＡであることを特徴とする、請求項１に記載の方法。
前記比較ハイブリダイゼーション・データが、増幅段階とマイクロアレイに基づく検出段階とを組み合わせた分析から得られることを特徴とする、請求項２に記載の方法。
前記データが、アレイに基づく比較ゲノム・ハイブリダイゼーション実験から収集されることを特徴とする、請求項２に記載の方法。
コンピュータ可読媒体に記憶される請求項１に記載の方法を実施する、コンピュータ命令。
請求項１に記載の方法を実施するロジックであって、ハードウェアで実施されるもの、ファームウェアで実施されるもの、ソフトウェアで実施されるもの、又はハードウェアで実施されるものと、ファームウェアで実施されるものとソフトウェアで実施されるものとの２つ以上の組み合わせを含む、比較ハイブリダイゼーション・データ分析システム。
ある生体高分子配列の多数の部分配列について、
ある特定標本における現在現在検討中の部分配列に対する生体高分子断片のハイブリダイゼーション・レベルを決定するステップと、
前記現在検討中の部分配列に対する対照標本ｊ₁〜ｊ_nの生体高分子断片のハイブリダイゼーション・レベルを決定ステップと、
計算するステップであって、
前記決定されたハイブリダイゼーション・レベル値の順序付き集合が得られるように、前記特定標本における生体高分子断片の前記決定されたハイブリダイゼーション・レベルと、対照標本ｊ₁〜ｊ_nの生体高分子断片の前記決定されたハイブリダイゼーション・レベルとを順序付けするステップと、
前記順序付き値の集合内で、前記特定標本の生体高分子断片の前記決定されたハイブリダイゼーション・レベルの位置を、前記現在検討中の部分配列を備えた前記特定標本の生体高分子断片の正規化ハイブリダイゼーション・レベルとして選択するステップと
を含む前記現在検討中の部分配列に対する前記特定標本中の断片に関する正規化ハイブリダイゼーション・レベルを計算するステップと
を含む、生体高分子配列に関して収集された比較ハイブリダイゼーション・データを正規化する方法。
前記生体高分子がＤＮＡであることを特徴とする、請求項７に記載の方法。
前記比較ハイブリダイゼーション・データが、増幅段階とマイクロアレイに基づく検出段階とを組み合わせた分析から得られることを特徴とする、請求項８に記載の方法。
前記データが、アレイに基づく比較ゲノム・ハイブリダイゼーション実験から収集されることを特徴とする、請求項８に記載の方法。
請求項７に記載の方法を実施する、コンピュータ可読媒体に記憶されたコンピュータ命令。
請求項７に記載の方法を実施するロジックであって、ハードウェアで実施されるもの、ファームウェアで実施されるもの、ソフトウェアで実施されるもの、又はハードウェアで実施されるものと、ファームウェアで実施されるものとソフトウェアで実施されるものとの２つ以上の組み合わせを含む、比較ハイブリダイゼーション・データ分析システム。
ある標準生体高分子配列の１つの集合をなす連続した部分配列のそれぞれに関して、１つ以上の対照標本から得られる生体高分子配列の断片についてのハイブリダイゼーション・レベルを利用して、前記生体高分子配列の断片についての正規化ハイブリダイゼーション・レベルを求めるステップと、
前記決定された正規化ハイブリダイゼーション・レベルをある信号ベクトル内の信号として記憶するステップと、
前記信号ベクトル内における間隔の集合を生成するステップと、
各間隔毎に統計的評点をつけるステップと、
第１のしきい値未満の統計的評点がついた間隔は、欠失の可能性があると判定し、第２のしきい値を超える統計的評点がついた間隔は、増幅の可能性があると判定するステップと
を含む、特定標本から得られる生体高分子配列の増幅及び欠失領域を識別するための方法。
各間隔毎に統計的評点をつけるステップが、
各間隔内における信号の和を求めるステップと、
信号の和をその間隔における信号数の平方根で割って、各間隔の正規統計値Ｓが得られるようにするステップと
をさらに含むことを特徴とする、請求項１３に記載の方法。
第１のしきい値未満の統計的評点がついた間隔は、欠失の可能性があると判定し、第２のしきい値を超える統計的評点がついた間隔は、増幅の可能性があると判定するステップが、各間隔毎に前記計算された正規統計値を観測する確率と、前記第１及び第２のしきい値とを比較するステップをさらに含むことを特徴とする、請求項１４に記載の方法。
各間隔毎に統計的評点をつけるステップが、各間隔内における順位序列に基づく信号の和を求めて、順位和を得られるようにするステップをさらに含むことを特徴とする、請求項１３に記載の方法。
第１のしきい値未満の統計的評点がついた間隔は、欠失の可能性があると判定し、第２のしきい値を超える統計的評点がついた間隔は、増幅の可能性があると判定するステップが、各間隔毎に計算された前記順位和を観測する確率と、前記第１及び第２のしきい値とを比較するステップをさらに含むことを特徴とする、請求項１６に記載の方法。
前記生体高分子配列がＤＮＡ配列であることを特徴とする、請求項１３に記載の方法。
前記生体高分子配列の断片に関するハイブリダイゼーション・レベルが、アレイに基づく比較ハイブリダイゼーション法によって決定されることを特徴とする、請求項１３に記載の方法。
請求項１３に記載の方法を実施する、コンピュータ可読媒体に記憶されたコンピュータ命令。
請求項１３に記載の方法を実施するロジックであって、ハードウェアで実施されるもの、ファームウェアで実施されるもの、ソフトウェアで実施されるもの、又はハードウェアで実施されるものと、ファームウェアで実施されるものとソフトウェアで実施されるものとのうちの２つ以上の組み合わせを含む、比較ハイブリダイゼーション・データ分析システム。
ユーザが、各種パラメータを設定して、比較ハイブリダイゼーション・データ分析を制御できるようにするユーザ・インターフェイス機構と、
生体高分子配列の選択可能領域に沿って、増幅、欠失、及び他の異常のグラフィカル・コード化表示によって、関心のある選択可能な数の標本に関する比較ハイブリダイゼーション・データ分析結果のヒート・マップ表現を表示するデータ分析表現表示領域と
を含むことを特徴とする、比較ハイブリダイゼーション・データ分析システムによって得られるユーザ・インターフェイス。
ユーザが各種パラメータを設定して、比較ハイブリダイゼーション・データ分析を制御できるようにするユーザ・インターフェイス機構が、
ユーザが、前記生体高分子配列の範囲を選択できるようにして、その範囲に沿って比較ハイブリダイゼーション分析結果を表示するための機構と、
ユーザが、媒介変数・データ正規化と非媒介変数・データ正規化の一方を選択できるようにする機構と、
ユーザが、増幅及び欠失の確率の媒介変数連続部分配列に基づく算定と非媒介変数連続部分配列に基づく算定の一方を選択できるようにする機構と、
ユーザが、関心のある特定標本を分析のために選択できるようにする機構と、
ユーザが、多くの結果表示フォーマットの１つを選択できるようにする機構と
をさらに含むことを特徴とする、請求項２２に記載のユーザ・インターフェイス。
結果表示フォーマットが、関心のある特定の標本に関する比較ハイブリダイゼーション結果が、対照結果に関する平均値について、前記対照結果に関する対応する値域を表示する対照パッチの上に重なるように表示される表示フォーマットを含むことを特徴とする、請求項２３に記載のユーザ・インターフェイス。
比較ハイブリダイゼーション結果が、対照結果に関する対応する値域内に含まれる場合、第１の色で、前記比較ハイブリダイゼーション結果が対照結果に関する対応する値域を超える場合には、第２の色で、前記比較ハイブリダイゼーション結果が対照結果に関する対応する値域未満の場合には、第３の色で、関心のある特定標本に関する前記比較ハイブリダイゼーション結果を表示することをさらに含むことを特徴する、請求項２３に記載のユーザ・インターフェイス。
請求項２２に記載のユーザ・インターフェイスを実施する、コンピュータ可読媒体においてコード化されたコンピュータ命令。
請求項２２に記載のユーザ・インターフェイスを実施するロジックであって、ハードウェアで実施されるもの、ファームウェア実施されるもの、ソフトウェアで実施されるもの、又はハードウェアで実施されるものと、ファームウェア実施されるものとソフトウェアで実施されるものの２つ以上の組み合わせを含む、比較ハイブリダイゼーション・データ分析システム。
生体高分子配列の選択可能領域は、前記生体高分子配列内の２つの単量体の位置によって規定することが可能な任意の配列を含むことを特徴とする、請求項２２に記載のユーザ・インターフェイス。